CN112035614A

CN112035614A - 测试集生成方法、装置、计算机设备和存储介质

Info

Publication number: CN112035614A
Application number: CN202010897883.6A
Authority: CN
Inventors: 张云婵; 罗锐; 王明
Original assignee: Kangjian Information Technology Shenzhen Co Ltd
Current assignee: Kangjian Information Technology Shenzhen Co Ltd
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2020-12-04
Anticipated expiration: 2040-08-31
Also published as: CN112035614B

Abstract

本申请涉及人工智能，提供了一种测试集生成方法、装置、计算机设备和存储介质。该方法包括：获取主诉数据集；对主诉数据集中的主诉数据进行关键词提取得到目标关键词；从数据标签集中查询目标关键词所关联的初始数据标签链；从初始数据标签链中提取目标数据标签链；从主诉数据对应的目标数据标签链中提取目标标签；根据主诉数据对应的目标标签的标签属性，从主诉数据集中提取每个分类模型的目标主诉数据；分类模型有多个；根据每个分类模型的目标主诉数据与相应目标标签，得到每个分类模型的模型测试集。采用本方法能够提高测试集的生成效率与准确性。此外，本发明还涉及区块链技术，主诉数据集与模型测试集可存储于区块链中。

Description

测试集生成方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种测试集生成方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术与人工智能技术的发展，基于人工智能技术的线上智能问诊方式不断发展起来，为了实现智能问诊，需要患者提前填写主诉数据，以便于基于主诉数据对患者进行分科室、判断是否为就诊意图、判断是否重症患者、通用问题询问收集患者基本信息、常见问题解答等问诊预处理，该些问诊预处理均是通过分类模型自动实现的，由此，分类模型的准确性直接影响问诊预处理的准确性。由此，需要通过测试集对已训练得到的分类模型进行测试，而在分类模型的测试过程中，如何生成测试集是分类模型测试的基础。

目前，通常是在获取到作为样本的主诉数据集后，按照每个分类模型的目标标签分别对主诉数据集中的每条主诉数据进行人工标注，并基于标注结果生成相应的测试集。但是，该种测试集生成方式，需要耗费大量的人力物力，受限于人工的经验与效率，存在标注效率和准确率低的问题，尤其是在待测试的分类模型数量较多的情况下，进一步降低了标注效率与准确率，由此，存在测试集的生成效率与准确性低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高测试集的生成效率与准确性的测试集生成方法、装置、计算机设备和存储介质。

一种测试集生成方法，所述方法包括：

获取主诉数据集；

对所述主诉数据集中的每条主诉数据进行关键词提取得到目标关键词；

从预配置的数据标签集中查询每个目标关键词所关联的初始数据标签链；

从所述初始数据标签链中提取以相应目标关键词为起点的目标数据标签链，作为相应主诉数据所对应的目标数据标签链；

从每条主诉数据对应的目标数据标签链中提取目标标签；

根据每条主诉数据对应的目标标签的标签属性，从所述主诉数据集中提取待测试的每个分类模型对应的目标主诉数据；所述分类模型有多个；

根据每个分类模型对应的目标主诉数据，以及每条目标主诉数据对应的、且标签属性与相应分类模型相匹配的目标标签，得到每个分类模型对应的模型测试集。

一种测试集生成装置，所述装置包括：

获取模块，用于获取主诉数据集；

关键词提取模块，用于对所述主诉数据集中的每条主诉数据进行关键词提取得到目标关键词；

查询模块，用于从预配置的数据标签集中查询每个目标关键词所关联的初始数据标签链；

标签链提取模块，用于从所述初始数据标签链中提取以相应目标关键词为起点的目标数据标签链，作为相应主诉数据所对应的目标数据标签链；

标签提取模块，用于从每条主诉数据对应的目标数据标签链中提取目标标签；

主诉数据提取模块，用于根据每条主诉数据对应的目标标签的标签属性，从所述主诉数据集中提取待测试的每个分类模型对应的目标主诉数据；所述分类模型有多个；

测试集生成模块，用于根据每个分类模型对应的目标主诉数据，以及每条目标主诉数据对应的、且标签属性与相应分类模型相匹配的目标标签，得到每个分类模型对应的模型测试集。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取主诉数据集；

从每条主诉数据对应的目标数据标签链中提取目标标签；

一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取主诉数据集；

从每条主诉数据对应的目标数据标签链中提取目标标签；

上述测试集生成方法、装置、计算机设备和存储介质，在从主诉数据集中的每条主诉数据中提取出目标关键词后，基于预配置的数据标签集与目标关键词，能够实现对该主诉数据集中的每条主诉数据的自动标注，得到每条主诉数据对应的至少一个目标标签，从而基于每条主诉数据对应的目标标签的标签属性，能够从主诉数据集中提取出各个分类模型所对应的目标主诉数据，这样，主诉数据集能够作为通用的测试样本集，并基于该主诉数据集中每条主诉数据对应的目标标签的标签属性，得到分别用于测试各个分类模型的模型测试集，也即是基于单一的主诉数据集能够得到多个分类模型各自对应的模型测试集，而且，各个模型测试集中每条主诉数据对应的目标标签是通过自动标注的方式，统一完成标注的，而无需针对每个分类模型分别进行人工标注，能够提高主诉数据对应的目标标签的标注效率，从而能够提高测试集的生成效率。

附图说明

图1为一个实施例中测试集生成方法的应用场景图；

图2为一个实施例中测试集生成方法的流程示意图；

图3为一个实施例中数据标签集的原理示意图；

图4为另一个实施例中测试集生成方法的流程示意图；

图5为一个实施例中测试集生成装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的测试集生成方法，可以应用于如图1所示的应用环境中。其中，终端102与服务器104通过网络进行通信。服务器104获取主诉数据集，对该主诉数据集中的每条主诉数据进行关键词提取得到相应目标关键词，从预配置的数据标签集中查询每个目标关键词所关联的初始数据标签链，从每条初始数据标签链中提取以相应目标关键词为起点的目标数据标签链，作为相应主诉数据所对应的目标数据标签链，从每条主诉数据对应的目标数据标签链中提取目标标签，根据每条主诉数据对应的目标标签的标签属性，从主诉数据集中提取待测试的每个分类模型对应的目标主诉数据，其中，待测试的分类模型有多个，进而根据每个分类模型对应的目标主诉数据，以及每条目标主诉数据对应的、且标签属性与相应分类模型相匹配的目标标签，得到每个分类模型对应的模型测试集。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，服务器104可借助于终端102从每条主诉数据中提取目标关键词，还可借助于终端102从每条主诉数据对应的目标数据标签链中提取目标标签。

在一个实施例中，如图2所示，提供了一种测试集生成方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，获取主诉数据集。

其中，主诉数据集是由多条主诉数据组成的集合。主诉数据集中主诉数据的来源包括线上真实主诉数据、基于算法逻辑特征生成的主诉数据、基于业务逻辑特征生成的主诉数据。主诉数据是指患者就诊时初始提出的问诊数据或咨询数据，比如“孕妇能不能吃西瓜？”。线上真实主诉数据是指在线上智能问诊的过程中，实际采集到的主诉数据。基于算法逻辑特征生成的主诉数据，是指根据预配置的算法逻辑特征构造的主诉数据。算法逻辑特征是指主诉数据在算法层面所需具备的逻辑特征，比如包括预配置的关键词，在此不作具体限定。基于业务逻辑特征生成的主诉数据，是指根据预配置的业务逻辑特征构造的主诉数据。业务逻辑特征是指主诉数据在业务层面所需具备的逻辑特征。算法层面主要关心算法相关的特征，而与具体的业务无关，比如规则逻辑与NLU(Natural LanguageProcessing，自然语言处理)算法模型支持等级等为算法层面的特征。业务层面主要关心业务相关的特征，也即是与具体的业务相关联，比如患者表达方式与医疗特征等为业务层面的特征。可以理解，研发团队主要关心算法层面的特征，业务团队主要关心业务层面的特征。

具体地，在满足测试集生成条件时，服务器获取主诉数据集，以便于基于所获取到的主诉数据集生成多个分类模型各自对应的模型测试集。测试集生成条件是触发测试集生成流程的依据或条件，比如接收到测试集生成指令。

在一个实施例中，服务器从数据库中获取线上真实主诉数据，该线上真实主诉数据是在线上智能问诊的过程中采集并存储的主诉数据。服务器基于预配置的算法逻辑特征生成多条符合该算法逻辑特征的主诉数据，以及基于预配置的业务逻辑特征生成多条符合该业务逻辑特征的主诉数据。服务器根据所获取到的线上真实主诉数据与所生成的主诉数据，得到用于生成测试集的主诉数据集。可以理解，线上真实主诉数据、基于算法逻辑特征生成的主诉数据与基于业务逻辑特征生成的主诉数据，相互之间存在交集，但又不完全重合。

步骤204，对主诉数据集中的每条主诉数据进行关键词提取得到目标关键词。

具体地，服务器针对所获取到的主诉数据集中的每条主诉数据分别进行关键词提取，得到每条主诉数据对应的目标关键词。可以理解，服务器可基于预配置的词典从每条主诉数据中提取目标关键词，也可通过已训练好的关键词提取模型从每条主诉数据中提取目标关键词，在此不作具体限定。

举例说明，假设主诉数据为“今天我大便拉了四五次”，从该主诉数据中提取出的目标关键词为“大便拉了四五次”。

在一个实施例中，服务器通过预先训练好的关键词提取模型，从每条主诉数据中提取相应的一个或多个目标关键词。关键词提取模型是根据预先获取的关键词训练样本集训练得到的、能够用于从主诉数据中提取相应目标关键词的模型。关键词训练样本集中包括样本主诉数据与每条样本主诉数据对应的样本关键词。

在一个实施例中，服务器针对待测试的每个分类模型预配置一个关键词提取模型，以便于通过每个分类模型对应的关键词提取模型，从主诉数据中提取与该分类模型相关联的目标关键词，这样，从主诉数据中所提取出的每个目标关键词与分类模型相对应。比如，基于症状抽取模型对应的关键词提取模型所提取出的目标关键词与该症状抽取模型相关联，该目标关键词可理解为症状关键词。

步骤206，从预配置的数据标签集中查询每个目标关键词所关联的初始数据标签链。

其中，数据标签集是在建立数据标签间关系时所得到的标签集合，具体是由预先配置的各个数据标签，以及数据标签间的关系组成的标签集合。数据标签集中的每个数据标签还可携带有标签属性，以便于基于标签属性能够确定相应数据标签是否为目标标签，以及相应数据标签与分类模型之间的匹配关系，也即是能够确定每个数据标签属于哪个分类模型，由此，基于数据标签的标签属性能够从各数据标签中筛选出各个分类模型的目标标签。基于数据标签的标签属性还能够确定数据标签所属的标签类别。比如，基于数据标签“腹泻”对应的标签属性，能够确定该数据标签为症状抽取模型的目标标签，还比如基于数据标签“孕妇是否可以吃西瓜”对应的标签属性，能够确定该数据标签为医疗关键项这一业务标签类别下的子类标签，还能够确定该数据标签属于就诊意图模型下的业务类标签。

可以理解，数据标签集中存在关联关系的数据标签能够构成数据标签链，且每个数据标签可同时属于一条或多条数据标签链。比如，一条数据标签链为：大便拉了四五次-腹泻-算法等级L5，另一条数据标签链为：大便拉了四五次-腹泻-症状描述-出诊-就诊意图。

具体地，服务器从主诉数据中提取出目标关键词后，根据所提取出的每个目标关键词，从预配置的数据标签集中查询与该目标关键词相关联的初始数据标签链。可以理解，服务器从数据标签集中查询包括每个目标关键词的数据标签链，作为与该目标关键词相关联的初始数据标签链。

举例说明，假设目标关键词为“大便拉了四五次”，则上述两条数据标签链均为数据标签集中与该目标关键词相关联的初始数据标签链。

在一个实施例中，数据标签集的构建步骤包括：通过预配置的关键词提取模型从各条主诉数据中分别提取关键词，由人工对所提取出的关键词进行质检，并基于预配置的数据标签类别与每个数据标签类别下的子类标签，以及每个子类标签的标签定义确定每个关键词上层的数据标签，进一步地，将各个关键词作为数据标签，并根据各个关键词与关键词所关联的各个数据标签，以及数据标签间的层级关系，建立各个数据标签之间的关联关系，得到多条数据标签链，并基于所得到的多条数据标签链构建数据标签集。可以理解，数据标签集的构建步骤，还包括：确定各个数据标签的标签属性，这样，所构建得到的数据标签集中的每个数据标签携带有标签属性。

在一个实施例中，数据标签集中的每条数据标签链具有方向性，每条数据标签链中的层级关系处于底层的数据标签为该数据标签链的起点，而层级关系处于顶层的数据标签为该数据标签链中的终点。

图3为一个实施例中数据标签集的原理示意图。如图3所示，该数据标签集中包括“大便拉了四五次-腹泻-算法等级L5”、“大便拉了四五次-腹泻-症状描述-初诊-就诊意图”、“四物汤调理-中医调理-初诊-就诊意图”、“前来复诊-复诊规则词-复诊-就诊意图”、“孕妇是否可以吃西瓜-咨询标准问-非就诊意图”等数据标签链，其中，数据标签“大便拉了四五次”对应的标签属性为“症状关键词”，数据标签“四物汤调理”、“前来复诊”与“孕妇是否可以吃西瓜”对应的标签属性均为“就诊关键词”，数据标签“腹泻”对应的标签属性为“症状抽取模型的目标标签”，数据标签“就诊意图”与“非就诊意图”对应的标签属性均为“就诊意图模型的目标标签”。

步骤208，从初始数据标签链中提取以相应目标关键词为起点的目标数据标签链，作为相应主诉数据所对应的目标数据标签链。

具体地，服务器从数据标签集中提取出目标关键词所关联的初始数据标签链后，从每条初始数据标签链中确定所关联的目标关键词，从该初始数据标签链中提取以该目标关键词为起点的目标数据标签链，并将所提取出的目标数据标签链确定为该目标关键词对应的主诉数据所对应的目标数据标签链。

举例说明，假设目标关键词为“大便拉了四五次”，该目标关键词所关联的初始数据标签链包括：“大便拉了四五次-腹泻-算法等级L5”与“大便拉了四五次-腹泻-症状描述-出诊-就诊意图”，由于该目标关键词在该两条初始数据标签链中均为起点，由此，该两条初始数据标签链即为相应主诉数据所对应的目标数据标签链。还假设目标关键词为“腹泻”，则上述两条数据标签链均为数据标签集中与该目标关键词相关联的初始数据标签链，然后以目标关键词“腹泻”为起点的目标数据标签链分别为：“腹泻-算法等级L5”与“腹泻-症状描述-出诊-就诊意图”。

步骤210，从每条主诉数据对应的目标数据标签链中提取目标标签。

具体地，服务器根据每条目标数据标签链中各个数据标签的标签属性，从该目标数据标签链中提取相应主诉数据所对应的目标标签。可以理解，从目标数据标签链中提取出的目标标签，是与待测试的分类模型相关联的目标标签。

举例说明，假设主诉数据对应有两条目标数据标签链，分别为：“大便拉了四五次-腹泻-算法等级L5”与“大便拉了四五次-腹泻-症状描述-出诊-就诊意图”，则基于该两条目标数据标签链，能够提取出主诉数据对应的目标标签包括“腹泻”与“就诊意图”。

在一个实施例中，步骤210，包括：从每条主诉数据对应的目标数据标签链中提取候选标签；将主诉数据与相应候选标签发送至终端进行质检；接收终端针对各主诉数据反馈的目标标签。

具体地，服务器根据每个数据标签的标签属性，从每条主诉数据对应的目标数据标签链中提取该主诉数据对应的候选标签，并将每条主诉数据与相应的候选标签发送至终端，以通过终端将每条主诉数据与相应的候选标签展示给相应用户，以指示用户根据所展示的主诉数据对相应候选标签进行人工质检，并针对存在问题的候选标签进行修正，进而将修正后的候选标签确定为相应主诉数据所对应的目标标签。相应地，服务器接收终端针对主诉数据集中的各主诉数据对应反馈的目标标签。

举例说明，假设主诉数据为“昨天宝宝大便拉了四五次，今天还好正常了拉了一次”，按照上述方式确定的初始标签包括“腹泻”与“就诊意图”，人工质检所确定的目标标签为“就诊意图”。目标标签“就诊意图”为就诊意图模型对应的目标标签。这样，通过人工质检能够提高目标标签的准确性，从而能够提高测试集的准确性。

上述实施例中，借助于终端对从主诉数据对应的目标数据标签链中自动提取出的目标标签进行质检，能够提高目标标签的准确性，以便于基于准确性较高的目标标签与相应主诉数据，能够生成准确性较高的测试集。

步骤212，根据每条主诉数据对应的目标标签的标签属性，从主诉数据集中提取待测试的每个分类模型对应的目标主诉数据；分类模型有多个。

具体地，每个目标标签携带有标签属性，基于标签属性能够确定相应目标标签所关联的分类模型。由此，服务器基于每条主诉数据对应的目标标签，以及每个目标标签的标签属性，能够从主诉数据集中提取出与待测试的每个分类模型对应的目标主诉数据。当待测试的分类模型有多个时，针对每个分类模型，分别按照该分类模型所匹配的标签属性，以及每条主诉数据对应的目标标签的标签属性，从主诉数据集中提取与该分类模型对应的目标主诉数据。

举例说明，将主诉数据集中目标标签的标签属性与就诊意图模型相匹配的所有主诉数据，确定为就诊意图模型对应的目标主诉数据。类似地，将主诉数据集中目标标签的标签属性与症状抽取模型相匹配的所有主诉数据，确定为症状抽取模型对应的目标主诉数据。这样，基于每条主诉数据对应的目标标签的标签属性，能够从主诉数据集中分离出每个分类模型对应的目标主诉数据。

步骤214，根据每个分类模型对应的目标主诉数据，以及每条目标主诉数据对应的、且标签属性与相应分类模型相匹配的目标标签，得到每个分类模型对应的模型测试集。

具体地，服务器从主诉数据集中筛选出每个分类模型对应的目标主诉数据后，针对每个分类模型对应的每条目标主诉数据，从该目标主诉数据对应的所有目标标签中筛选与该分类模型相匹配的目标标签，并根据所筛选出的目标标签与相应目标主诉数据得到相应分类模型所对应的模型测试集。

举例说明，假设主诉数据为“昨天宝宝大便拉了四五次”，相应的目标标签包括“腹泻”与“就诊意图”，按照上述方式能够判定该主诉数据同时为症状抽取模型与就诊意图模型对应的目标主诉数据，由此，目标标签“腹泻”为与症状抽取模型相匹配的目标标签，目标标签“就诊意图”为与就诊意图模型相匹配的目标标签，基于此，能够将主诉数据“昨天宝宝大便拉了四五次”与相应的目标标签“腹泻”，确定为症状抽取模型对应的模型测试集中的一个测试样本，相应地，能够将主诉数据“昨天宝宝大便拉了四五次”与相应的目标标签“就诊意图”，确定为就诊意图模型对应的模型测试集中的一个测试样本，依此类推，能够得到每个分类模型对应的模型测试集。

在一个实施例中，服务器将每个分类模型的模型标识，分别与该分类模型对应的每条目标主诉数据所对应的每个目标标签的标签属性进行匹配。当模型标识与标签属性匹配成功时，则判定该标签属性与相应分类模型相匹配。可以理解，目标标签的标签属性中通常会包括模型标识，若标签属性中包括某个分类模型的模型标识，则判定该分类模型与该标签属性相匹配。

上述测试集生成方法，在从主诉数据集中的每条主诉数据中提取出目标关键词后，基于预配置的数据标签集与目标关键词，能够实现对该主诉数据集中的每条主诉数据的自动标注，得到每条主诉数据对应的至少一个目标标签，从而基于每条主诉数据对应的目标标签的标签属性，能够从主诉数据集中提取出各个分类模型所对应的目标主诉数据，这样，主诉数据集能够作为通用的测试样本集，并基于该主诉数据集中每条主诉数据对应的目标标签的标签属性，得到分别用于测试各个分类模型的模型测试集，也即是基于单一的主诉数据集能够得到多个分类模型各自对应的模型测试集，而且，各个模型测试集中每条主诉数据对应的目标标签是通过自动标注的方式，统一完成标注的，而无需针对每个分类模型分别进行人工标注，能够提高主诉数据对应的目标标签的标注效率，从而能够提高测试集的生成效率。

在一个实施例中，步骤214之后，上述测试集生成方法还包括：根据每个分类模型对应的模型测试集中每条目标主诉数据对应的目标数据标签链，以及每条目标数据标签链中每个数据标签的标签属性，将每个分类模型对应的模型测试集划分为算法测试集与业务测试集。

其中，算法测试集中的每条目标主诉数据对应的目标标签，至少包括一个算法类标签。业务测试集中的每条目标主诉数据对应的目标标签，至少包括一个业务类标签。算法类标签是指在算法层面预配置的数据标签，业务类标签是指在业务层面预配置的数据标签。

具体地，服务器根据每个数据标签的标签属性，能够确定该数据标签为算法类标签还是业务类标签。由此，针对每个分类模型对应的模型测试集，服务器根据该模型测试集中的每条目标主诉数据对应的目标数据标签链，以及每条目标数据标签链中的每个数据标签与相应标签属性，判断每条目标数据标签链中是否存在算法类标签与业务类标签。若目标主诉数据对应的至少一条目标数据标签链中存在至少一个算法类标签，则将该目标主诉数据与相应的目标标签划分至算法测试集。若目标主诉数据对应的至少一条目标数据标签链中存在至少一个业务类标签，则将该目标主诉数据与相应的目标标签划分至业务测试集，可以理解，由于每条目标数据标签链中可能同时包括算法类标签与业务类标签，由此，每个分类模型对应的业务测试集与算法测试集存在一定程度的重合。

上述实施例中，将每个分类模型对应的模型测试集划分为算法测试集与业务测试集，以便于基于算法测试集与业务测试集分别对相应分类模型进行测试时，能够分别得到算法层面与业务层面的测试结果，提高测试维度，从而能够提高测试准确性。

在一个实施例中，将每个分类模型对应的模型测试集划分为算法测试集与业务测试集之后，上述测试集生成方法还包括：根据每个算法测试集中每条目标主诉数据对应的目标数据标签链，以及每条目标主诉数据标签链中每个数据标签的标签属性，按照算法层面预配置的算法标签类别，将每个算法测试集划分为多个算法测试子集；每个算法测试子集对应一个算法标签类别；根据每个业务测试集中每条目标主诉数据对应的目标数据标签链，以及每条目标主诉数据标签链中每个数据标签的标签属性，按照业务层面预配置的业务标签类别，将每个业务测试集划分为多个业务测试子集；每个业务测试子集对应一个业务标签类别。

其中，算法层面预配置有算法类标签，算法类标签包括多个算法标签类别，算法标签类别比如规则逻辑、NLU算法模型、算法无法支持、算法关心的业务标签等。业务层面预配置有业务类标签，业务类标签包括多个业务标签类别，业务标签类别比如患者表达方式与医疗关键项等。

具体地，服务器针对每个分类模型对应的算法测试集，根据该算法测试集中每条目标主诉数据对应的目标数据标签链，以及每条目标主诉数据标签链中每个数据标签的标签属性，按照针对算法层面预配置的各个算法标签类别，将该算法测试集划分为分别与每个算法标签类别对应的算法测试子集，得到多个算法测试子集，且每个算法测试子集对应一个算法标签类别。相应地，服务器针对每个分类模型对应的业务测试集，根据该业务测试集中每条目标主诉数据对应的目标数据标签链，以及每条目标主诉数据标签链中每个数据标签的标签属性，按照针对业务层面预配置的各个业务标签类别，将该业务测试集划分为分别与每个业务标签类别对应的业务测试子集，得到多个业务测试子集，且每个业务测试子集对应一个业务标签类别。

举例说明，按照上述方式能够将每个分类模型对应的算法测试集，划分为分别与规则逻辑、NLU算法模型、算法无法支持、算法关心的业务标签等算法标签类别对应的算法测试子集，并将业务测试集，划分为分别与患者表达方式、按照医疗关键项等业务标签类别对应的业务测试子集。

在一个实施例中，由于每个算法标签类别包括一个或多个子类标签，由此，还可按照标签属性将每个算法标签类别对应的算法测试子集，进一步划分为与每个子类标签对应的算法测试子集，具体可根据测试需求来确定。类似地，每个业务标签类别包括一个或多个子类标签，由此，还可按照标签属性将每个业务标签类别对应的业务测试子集，进一步划分为与每个子类标签对应的业务测试子集。

在一个实施例中，不同分类模型对应的算法标签类别相同，但算法标签类别包括的子类标签通常互不相同。相应地，不同分类模型对应的业务标签类别相同，但业务标签类别包括的子类标签通常互不相同。

举例说明，以分类模型为症状抽取模型为例，当算法标签类别为逻辑规则时，相应的子类标签比如包括L1子类标签，其中，L1是指原词、医生确认的同义或近义词。当算法标签类别为NLU算法模型支持等级时，相应的子类标签比如包括算法等级L1至L6共5个子类标签，其中，L2-L3是指包含原词，L4-L5是指包含变形词，L6是指复杂句子。当算法标签类别为算法无法支持时，相应的子类标签比如包括C1与C2等子类标签，其中，C1是指无症状词或症状表达模糊不清，C2是指与医疗无关的闲聊。当算法标签类别为算法关心的业务标签时，相应的子类标签比如包括患者表达类别与数据分布情况等子类标签，其中，患者表达类别包括复诊、初诊、症状明确、指定医生、药品咨询、常识咨询等。当业务标签类别为患者表达方式时，相应的子类标签比如包括复诊、初诊、症状明确、指定医生、咨询类等子类标签。当业务标签类别为医疗关键项时，相应的子类标签比如症状关键词、部位关键词、程度关键词、病理关键词等子类标签。

以分类模型为就诊意图模型为例，当算法标签类别为逻辑规则时，相应的子类标签比如包括SC1、非就诊意图、中医初诊等子类标签，其中，SC1是指复诊规则词，比如前来复诊，非就诊意图基于咨询标准问列表确定，中医初诊比如中医调理。当算法标签类别为NLU算法模型支持等级时，相应的子类标签比如包括SC2等子类标签，其中，SC2是指包含症状词与症状词抽取难度。当算法标签类别为算法无法支持时，相应的子类标签比如包括C1与C2等子类标签，其中，C1是指无症状词或症状表达模糊不清，C2是指与医疗无关的闲聊。当算法标签类别为算法关心的业务标签时，相应的子类标签比如包括不同科室的问诊分布情况、患者表达类别与数据分布情况等子类标签。当业务标签类别为患者表达方式时，相应的子类标签比如包括咨询标准问情况与复诊模板主诉情况等子类标签。当业务标签类别为医疗关键项时，相应的子类标签比如就诊关键词与科室等子类标签。

可以理解，上述仅示例出症状抽取模型与就诊意图模型这两个分类模型对应的子类标签，不在一一列举各个分类模型对应的子类标签。

上述实施例中，在算法层面按照算法标签类别，将每个分类模型对应的算法测试集划分为多个算法测试子集，并在业务层面按照业务标签类别，将每个分类模型对应的业务测试集划分为多个业务测试子集，以便于按照各个标签类别对应的测试子集分别对相应分类模型进行测试时，能够基于各自相应的测试结果对分类模型进行评估，从而能够提高测试准确性。

在一个实施例中，上述测试集生成方法还包括：获取业务指标标签；根据主诉数据集中的线上真实主诉数据，确定每个业务指标标签对应的标签占比；按照各业务指标标签对应的标签占比，将每个分类模型对应的业务测试集划分为多个业务测试子集；每个业务测试子集对应一个业务指标标签。

其中，业务指标标签是指在进行业务层面的指标评估时，由业务所指定的业务层面的指标标签。业务指标标签具体可包括一个或多个业务标签类别，也可以包括业务标签类别下的一个或多个子类标签。业务指标标签对应的标签占比，是指该业务指标标签在线上真实主诉数据中对应的主诉数据，在线上真实主诉数据中的占比。

具体地，服务器获取预配置的业务指标标签，从主诉数据集中筛选出线上真实主诉数据，从线上真实主诉数据中确定与每个业务指标标签对应的主诉数据数量，并获取线上真实主诉数据的总数量。进一步地，服务器基于每个业务指标标签对应的主诉数据数量与总数量，得到每个业务指标标签对应的标签占比。服务器按照各个业务指标标签对应的标签占比，将每个分类模型对应的业务测试集划分为与每个业务指标标签对应的业务测试子集，得到相应的多个业务测试子集，且每个业务测试子集对应一个业务指标标签。

可以理解，按照标签占比划分得到的多个业务测试子集后，每个业务测试子集中的目标主诉数据数据，在相应业务测试集中的目标主诉数据数据的占比，与相应业务指标标签的标签占比一致。而且，对于每个业务指标标签对应的业务测试子集，该业务测试子集中每个目标主诉数据对应的至少一条目标数据标签链中，存在至少一个与该业务指标标签一致的数据标签。

上述实施例中，基于线上真实主诉数据动态确定每个业务指标标签对应的标签占比，并按照各个指标标签的标签占比来动态生成定制化的测试集。这样，按照预配置的业务指标标签动态生成测试集，以便于按照测试集对分类模型进行测试时能够得到更灵活的业务评估指标。

在一个实施例中，上述测试集生成方法还包括：将每个分类模型对应的模型测试集中的目标主诉数据输入相应分类模型，得到每个目标主诉数据对应的预测标签；根据每个模型测试集中各条目标主诉数据对应的预测标签与目标标签，得到相应分类模型对应的测试结果。

其中，测试结果包括准确率与召回率等。具体地，针对每个分类模型，服务器将该分类模型对应的模型测试集中的每条目标主诉数据输入该分类模型进行预测，得到每条目标主诉数据对应的预测标签，并对该模型测试集中各条目标主诉数据对应的预测标签与目标标签进行分析，得到该分类模型对应的测试结果。

在一个实施例中，服务器按照本申请中一个或多个实施例中提供的测试集生成方式，针对待测试的每个分类模型生成相应的一个或多个测试集后，根据各个分类模型对应的测试集，按照实际的测试需求对相应分类模型进行测试，得到相应的测试结果。其中，每个分类模型对应的测试集包括模型测试集、算法测试集、业务测试集、算法测试子集与业务测试子集等中的一个或多个。这样，能够满足各种测试需求，且均能够得到较为准确的测试结果。

若需要分别测试分类模型在算法层面与业务层面的预测效果，则针对每个分类模型，服务器根据相应算法测试集与业务测试集分别对该分类模型进行测试，并分别得到算法层面与业务层面的测试结果。

若需要测试分类模型在每个目标标签类别下的预测效果，则针对每个分类模型，服务器根据该分类模型在每个目标标签类别下对应的目标测试子集对该分类模型进行测试，并分别得到每个目标标签类别对应的测试结果。其中，目标标签类别包括算法标签类别与业务标签类别中一个或多个标签类别。目标测试子集是指目标标签类别对应的测试子集，比如单个算法标签类别对应的算法测试子集，还比如单个业务标签类别对应的业务测试子集。这样，通过多个维度的标签类别来约束业务和算法对模型效果的评估，以达成阶段达标和逐步优化的目的。

类似地，服务器还可根据算法标签类别下的一个或多个子类标签各自对应的算法测试子集，和/或，业务标签类别下的一个或多个子类标签各自对应的业务测试子集，分别对相应分类模型进行测试得到相应测试结果。

上述实施例中，针对每个分类模型，在以较高的效率得到准确性较高的模型测试集后，根据该准确性较高的模型测试集分别对相应分类模型进行测试，能够得到较为准确的测试结果。

在一个实施例中，上述测试集生成方法还包括：根据每个分类模型在每个目标标签类别下对应的目标测试子集，分别对相应分类模型进行测试，得到每个目标标签类别对应的测试子结果；目标标签类别包括算法标签类别与业务标签类别；目标测试子集包括算法测试子集与业务测试子集；根据主诉数据集中的线上真实主诉数据，确定每个目标标签类别对应的标签占比；根据每个目标标签类别对应的标签占比与测试子结果，得到相应分类模型所对应的测试结果。

具体地，在模型测试阶段，针对每个分类模型，服务器根据该分类模型在每个算法标签类别下对应的算法测试子集，分别对该分类模型进行测试，得到每个算法标签类别对应的测试子结果，并根据该分类模型在每个业务标签类别下对应的业务测试子集，分别对该分类模型进行测试，得到每个业务标签类别对应的测试子结果。服务器从主诉数据集中筛选出线上真实主诉数据，根据每个算法标签类别在线上真实主诉数据中对应的主诉数据数量，以及该线上真实主诉数据的总数量，得到每个算法标签类别对应的标签占比。类似地，服务器基于线上真实主诉数据得到每个业务标签类别对应的标签占比。进一步地，针对每个分类模型，服务器将该分类模型在各个算法标签类别与各个业务标签类别下所对应的测试子结果，按照相应算法标签类别或业务标签类别所对应的标签占比进行加权求和，得到该分类模型对应的测试结果。

可以理解，若单条线上真实主诉数据对应的至少一条目标数据标签链中，存在至少一个属于某个算法标签类别的数据标签，则判定该线上真实主诉数据与该算法标签类别相对应，类似地，能够得到每个算法标签类别与业务标签类别所对应的线上真实主诉数据，进而能够得到每个算法标签类别与业务标签类别在线上真实主诉数据中对应的主诉数据数量。

上述实施例中，基于每个分类模型在每个算法标签类别与业务标签类别下对应的测试子集，分别对该分类模型进行测试得到相应的测试子结果，并按照线上真实主诉数据中各个算法标签类别与业务标签类别对应的标签占比，对分类模型对应的多个测试子结果进行加权求和，得到相应的测试结果，这样，能够在保持线上数据分布情况不变的情况下，对分类模型进行测试，能够提高分类模型的测试准确性。

如图4所示，提供了一种测试集生成方法，该方法具体包括以下步骤：

步骤402，获取主诉数据集。

步骤404，对主诉数据集中的每条主诉数据进行关键词提取得到目标关键词。

步骤406，从预配置的数据标签集中查询每个目标关键词所关联的初始数据标签链。

步骤408，从初始数据标签链中提取以相应目标关键词为起点的目标数据标签链，作为相应主诉数据所对应的目标数据标签链。

步骤410，从每条主诉数据对应的目标数据标签链中提取候选标签。

步骤412，将主诉数据与相应候选标签发送至终端进行质检。

步骤414，接收终端针对各主诉数据反馈的目标标签。

步骤416，根据每条主诉数据对应的目标标签的标签属性，从主诉数据集中提取待测试的每个分类模型对应的目标主诉数据；分类模型有多个。

步骤418，根据每个分类模型对应的目标主诉数据，以及每条目标主诉数据对应的、且标签属性与相应分类模型相匹配的目标标签，得到每个分类模型对应的模型测试集。

步骤420，根据每个分类模型对应的模型测试集中每条目标主诉数据对应的目标数据标签链，以及每条目标数据标签链中每个数据标签的标签属性，将每个分类模型对应的模型测试集划分为算法测试集与业务测试集。

步骤422，根据每个算法测试集中每条目标主诉数据对应的目标数据标签链，以及每条目标主诉数据标签链中每个数据标签的标签属性，按照算法层面预配置的算法标签类别，将每个算法测试集划分为多个算法测试子集；每个算法测试子集对应一个算法标签类别。

步骤424，根据每个业务测试集中每条目标主诉数据对应的目标数据标签链，以及每条目标主诉数据标签链中每个数据标签的标签属性，按照业务层面预配置的业务标签类别，将每个业务测试集划分为多个业务测试子集；每个业务测试子集对应一个业务标签类别。

上述实施例中，通过对主诉数据集中的每条主诉数据进行标签的自动标注，得到相应的目标数据标签链与目标标签，并根据目标标签与目标数据标签链中各个数据标签的标签属性，基于单个主诉数据集得到待测试的每个分类模型对应的多个测试集，这样，基于通用的主诉数据集通过自动标注方式，能够得到待测试的多个分类模型对应的测试集，能够兼顾测试集的生成效率与准确性，以便于按照测试需求根据相应测试集对相应分类模型进行测试时，能够提高测试准确性。

在一个实施例中，按照本申请中一个或多个实施例中提供的测试集生成方式，针对不同分类模型生成的模型测试集之间存在交集，不同模型测试集之间的交集越大表明主诉数据集的通用性越好。相应地，针对每个分类模型，算法测试集与业务测试集之间，以及各个算法测试子集与业务测试子集之间也存在交集。可以理解，若业务测试集包括算法测试集，则表明算法测试集需要扩展，若算法测试集包括业务测试集，则表明算法层面考虑的比业务层面的要多。

应该理解的是，虽然图2与图4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2与图4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种测试集生成装置500，包括：获取模块501、关键词提取模块502、查询模块503、标签链提取模块504、标签提取模块505、主诉数据提取模块506和测试集生成模块507，其中：

获取模块501，用于获取主诉数据集；

关键词提取模块502，用于对主诉数据集中的每条主诉数据进行关键词提取得到目标关键词；

查询模块503，用于从预配置的数据标签集中查询每个目标关键词所关联的初始数据标签链；

标签链提取模块504，用于从初始数据标签链中提取以相应目标关键词为起点的目标数据标签链，作为相应主诉数据所对应的目标数据标签链；

标签提取模块505，用于从每条主诉数据对应的目标数据标签链中提取目标标签；

主诉数据提取模块506，用于根据每条主诉数据对应的目标标签的标签属性，从主诉数据集中提取待测试的每个分类模型对应的目标主诉数据；分类模型有多个；

测试集生成模块507，用于根据每个分类模型对应的目标主诉数据，以及每条目标主诉数据对应的、且标签属性与相应分类模型相匹配的目标标签，得到每个分类模型对应的模型测试集。

在一个实施例中，测试集生成模块507，还用于根据每个分类模型对应的模型测试集中每条目标主诉数据对应的目标数据标签链，以及每条目标数据标签链中每个数据标签的标签属性，将每个分类模型对应的模型测试集划分为算法测试集与业务测试集。

在一个实施例中，测试集生成模块507，还用于根据每个算法测试集中每条目标主诉数据对应的目标数据标签链，以及每条目标主诉数据标签链中每个数据标签的标签属性，按照算法层面预配置的算法标签类别，将每个算法测试集划分为多个算法测试子集；每个算法测试子集对应一个算法标签类别；根据每个业务测试集中每条目标主诉数据对应的目标数据标签链，以及每条目标主诉数据标签链中每个数据标签的标签属性，按照业务层面预配置的业务标签类别，将每个业务测试集划分为多个业务测试子集；每个业务测试子集对应一个业务标签类别。

在一个实施例中，测试集生成模块507，还用于获取业务指标标签；根据主诉数据集中的线上真实主诉数据，确定每个业务指标标签对应的标签占比；按照各业务指标标签对应的标签占比，将每个分类模型对应的业务测试集划分为多个业务测试子集；每个业务测试子集对应一个业务指标标签。

在一个实施例中，标签提取模块505，还用于从每条主诉数据对应的目标数据标签链中提取候选标签；将主诉数据与相应候选标签发送至终端进行质检；接收终端针对各主诉数据反馈的目标标签。

在一个实施例中，测试集生成装置500，还包括：测试模块，用于将每个分类模型对应的模型测试集中的目标主诉数据输入相应分类模型，得到每个目标主诉数据对应的预测标签；根据每个模型测试集中各条目标主诉数据对应的预测标签与目标标签，得到相应分类模型对应的测试结果。

在一个实施例中，测试模块，还用于根据每个分类模型在每个目标标签类别下对应的目标测试子集，分别对相应分类模型进行测试，得到每个目标标签类别对应的测试子结果；目标标签类别包括算法标签类别与业务标签类别；目标测试子集包括算法测试子集与业务测试子集；根据主诉数据集中的线上真实主诉数据，确定每个目标标签类别对应的标签占比；根据每个目标标签类别对应的标签占比与测试子结果，得到相应分类模型所对应的测试结果。

关于测试集生成装置的具体限定可以参见上文中对于测试集生成方法的限定，在此不再赘述。上述测试集生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储主诉数据集、数据标签集、模型测试集与待测试的分类模型。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种测试集生成方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取主诉数据集；对主诉数据集中的每条主诉数据进行关键词提取得到目标关键词；从预配置的数据标签集中查询每个目标关键词所关联的初始数据标签链；从初始数据标签链中提取以相应目标关键词为起点的目标数据标签链，作为相应主诉数据所对应的目标数据标签链；从每条主诉数据对应的目标数据标签链中提取目标标签；根据每条主诉数据对应的目标标签的标签属性，从主诉数据集中提取待测试的每个分类模型对应的目标主诉数据；分类模型有多个；根据每个分类模型对应的目标主诉数据，以及每条目标主诉数据对应的、且标签属性与相应分类模型相匹配的目标标签，得到每个分类模型对应的模型测试集。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据每个分类模型对应的模型测试集中每条目标主诉数据对应的目标数据标签链，以及每条目标数据标签链中每个数据标签的标签属性，将每个分类模型对应的模型测试集划分为算法测试集与业务测试集。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据每个算法测试集中每条目标主诉数据对应的目标数据标签链，以及每条目标主诉数据标签链中每个数据标签的标签属性，按照算法层面预配置的算法标签类别，将每个算法测试集划分为多个算法测试子集；每个算法测试子集对应一个算法标签类别；根据每个业务测试集中每条目标主诉数据对应的目标数据标签链，以及每条目标主诉数据标签链中每个数据标签的标签属性，按照业务层面预配置的业务标签类别，将每个业务测试集划分为多个业务测试子集；每个业务测试子集对应一个业务标签类别。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取业务指标标签；根据主诉数据集中的线上真实主诉数据，确定每个业务指标标签对应的标签占比；按照各业务指标标签对应的标签占比，将每个分类模型对应的业务测试集划分为多个业务测试子集；每个业务测试子集对应一个业务指标标签。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：从每条主诉数据对应的目标数据标签链中提取候选标签；将主诉数据与相应候选标签发送至终端进行质检；接收终端针对各主诉数据反馈的目标标签。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将每个分类模型对应的模型测试集中的目标主诉数据输入相应分类模型，得到每个目标主诉数据对应的预测标签；根据每个模型测试集中各条目标主诉数据对应的预测标签与目标标签，得到相应分类模型对应的测试结果。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据每个分类模型在每个目标标签类别下对应的目标测试子集，分别对相应分类模型进行测试，得到每个目标标签类别对应的测试子结果；目标标签类别包括算法标签类别与业务标签类别；目标测试子集包括算法测试子集与业务测试子集；根据主诉数据集中的线上真实主诉数据，确定每个目标标签类别对应的标签占比；根据每个目标标签类别对应的标签占比与测试子结果，得到相应分类模型所对应的测试结果。

在一个实施例中，提供了一种计算机存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取主诉数据集；对主诉数据集中的每条主诉数据进行关键词提取得到目标关键词；从预配置的数据标签集中查询每个目标关键词所关联的初始数据标签链；从初始数据标签链中提取以相应目标关键词为起点的目标数据标签链，作为相应主诉数据所对应的目标数据标签链；从每条主诉数据对应的目标数据标签链中提取目标标签；根据每条主诉数据对应的目标标签的标签属性，从主诉数据集中提取待测试的每个分类模型对应的目标主诉数据；分类模型有多个；根据每个分类模型对应的目标主诉数据，以及每条目标主诉数据对应的、且标签属性与相应分类模型相匹配的目标标签，得到每个分类模型对应的模型测试集。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据每个分类模型对应的模型测试集中每条目标主诉数据对应的目标数据标签链，以及每条目标数据标签链中每个数据标签的标签属性，将每个分类模型对应的模型测试集划分为算法测试集与业务测试集。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据每个算法测试集中每条目标主诉数据对应的目标数据标签链，以及每条目标主诉数据标签链中每个数据标签的标签属性，按照算法层面预配置的算法标签类别，将每个算法测试集划分为多个算法测试子集；每个算法测试子集对应一个算法标签类别；根据每个业务测试集中每条目标主诉数据对应的目标数据标签链，以及每条目标主诉数据标签链中每个数据标签的标签属性，按照业务层面预配置的业务标签类别，将每个业务测试集划分为多个业务测试子集；每个业务测试子集对应一个业务标签类别。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取业务指标标签；根据主诉数据集中的线上真实主诉数据，确定每个业务指标标签对应的标签占比；按照各业务指标标签对应的标签占比，将每个分类模型对应的业务测试集划分为多个业务测试子集；每个业务测试子集对应一个业务指标标签。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：从每条主诉数据对应的目标数据标签链中提取候选标签；将主诉数据与相应候选标签发送至终端进行质检；接收终端针对各主诉数据反馈的目标标签。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将每个分类模型对应的模型测试集中的目标主诉数据输入相应分类模型，得到每个目标主诉数据对应的预测标签；根据每个模型测试集中各条目标主诉数据对应的预测标签与目标标签，得到相应分类模型对应的测试结果。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据每个分类模型在每个目标标签类别下对应的目标测试子集，分别对相应分类模型进行测试，得到每个目标标签类别对应的测试子结果；目标标签类别包括算法标签类别与业务标签类别；目标测试子集包括算法测试子集与业务测试子集；根据主诉数据集中的线上真实主诉数据，确定每个目标标签类别对应的标签占比；根据每个目标标签类别对应的标签占比与测试子结果，得到相应分类模型所对应的测试结果。

需要强调的是，为进一步保证上述主诉数据集与每个分类模型对应的模型测试集的私密和安全性，上述主诉数据集与每个分类模型对应的模型测试集还可以存储于一区块链的节点中。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种测试集生成方法，所述方法包括：

获取主诉数据集；

从每条主诉数据对应的目标数据标签链中提取目标标签；

2.根据权利要求1所述的方法，其特征在于，所述根据每个分类模型对应的目标主诉数据，以及每条目标主诉数据对应的、且标签属性与相应分类模型相匹配的目标标签，得到每个分类模型对应的模型测试集之后，所述方法还包括：

根据每个分类模型对应的模型测试集中每条目标主诉数据对应的目标数据标签链，以及每条目标数据标签链中每个数据标签的标签属性，将每个分类模型对应的模型测试集划分为算法测试集与业务测试集。

3.根据权利要求2所述的方法，其特征在于，所述将每个分类模型对应的模型测试集划分为算法测试集与业务测试集之后，所述方法还包括：

根据每个算法测试集中每条目标主诉数据对应的目标数据标签链，以及每条目标主诉数据标签链中每个数据标签的标签属性，按照算法层面预配置的算法标签类别，将每个算法测试集划分为多个算法测试子集；每个算法测试子集对应一个算法标签类别；

根据每个业务测试集中每条目标主诉数据对应的目标数据标签链，以及每条目标主诉数据标签链中每个数据标签的标签属性，按照业务层面预配置的业务标签类别，将每个业务测试集划分为多个业务测试子集；每个业务测试子集对应一个业务标签类别。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取业务指标标签；

根据所述主诉数据集中的线上真实主诉数据，确定每个业务指标标签对应的标签占比；

按照各所述业务指标标签对应的标签占比，将每个分类模型对应的业务测试集划分为多个业务测试子集；每个业务测试子集对应一个业务指标标签。

5.根据权利要求1所述的方法，其特征在于，所述从每条主诉数据对应的目标数据标签链中提取目标标签，包括：

从每条主诉数据对应的目标数据标签链中提取候选标签；

将所述主诉数据与相应候选标签发送至终端进行质检；

接收所述终端针对各所述主诉数据反馈的目标标签。

6.根据权利要求1至5任意一项所述的方法，其特征在于，所述方法还包括：

将每个分类模型对应的模型测试集中的目标主诉数据输入相应分类模型，得到每个目标主诉数据对应的预测标签；

根据每个模型测试集中各条目标主诉数据对应的预测标签与目标标签，得到相应分类模型对应的测试结果。

7.根据权利要求3至5任意一项所述的方法，其特征在于，所述方法还包括：

根据每个分类模型在每个目标标签类别下对应的目标测试子集，分别对相应分类模型进行测试，得到每个目标标签类别对应的测试子结果；所述目标标签类别包括算法标签类别与业务标签类别；所述目标测试子集包括算法测试子集与业务测试子集；

根据所述主诉数据集中的线上真实主诉数据，确定每个目标标签类别对应的标签占比；

根据每个目标标签类别对应的标签占比与测试子结果，得到相应分类模型所对应的测试结果。

8.一种测试集生成装置，其特征在于，所述装置包括：

获取模块，用于获取主诉数据集；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。