CN109582793A

CN109582793A - 模型训练方法、客服系统及数据标注系统、可读存储介质

Info

Publication number: CN109582793A
Application number: CN201811406045.3A
Authority: CN
Inventors: 黎洛晨; 郑德荣; 杨海军; 徐倩; 杨强
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2018-11-23
Filing date: 2018-11-23
Publication date: 2019-04-05
Anticipated expiration: 2038-11-23
Also published as: CN109582793B

Abstract

本发明提供一种模型训练方法，包括以下步骤：将同一标注数据集作为不同分类模型的训练数据集，对不同分类模型进行训练；基于训练后的分类模型，对未标注数据集中的预测样本进行预测，得到预测结果；获取预测结果的置信度，将预测样本标记为高置信度预测样本或者低置信度预测样本；将在各分类模型中均被标记为高置信度预测样本的预测样本添加到其它分类模型的训练数据集；以及，基于新的训练数据集，进行预设轮次的迭代训练，并得到多次迭代训练后的分类模型。本发明还提供了一种客服系统及数据标注系统、可读存储介质。本发明解决现有分类模型所需标记数据的获取成本高、分类模型质量偏低，进而导致客服系统应答质量差的技术问题。

Description

模型训练方法、客服系统及数据标注系统、可读存储介质

技术领域

本发明涉及数据处理领域，尤其涉及一种模型训练方法、客服系统及数据标注系统、可读存储介质。

背景技术

在现有客服系统中，很多模块都需要使用不同的分类模型。需要用到分类模型的模块包括：问句分类，问句歧义判断，情感分析等。而常用的分类模型众多，从逻辑回归，到SVM(Support Vector Machine,即支持向量机)，XGBoost(eXtreme Gradient Boosting，即极端梯度提升)，FastText(浅层网络)，到深度学习中的LSTM(Long Short-Term Memory,即长短期记忆网络)，CNN(Convolutional Neural NetWork,即卷积神经网络)，RNN((Recurrent Neural Network，即循环神经网络)均被广泛应用于各种分类任务。

这些分类模型往往采用传统的监督学习，需要大量的标记数据作为训练集进行模型训练，并通过已训练的模型对未标记数据进行预测或分类。

然而，在现实中由于主要依靠人工对数据进行逐一标注，导致标记数据较为稀缺、成本较高、耗时较长。现有也有人尝试采用模型进行机器自动标注。但是，此类自动化标注方式的数据标注正确率受限于模型预测的正确率，即在保证模型具备高预测正确率的前提下才会标注出质量较高的数据。与此同时，标注数据的目的往往是用于继续训练模型从而提高模型的正确率，而此类自动化标注方式往往难以提升模型预测的正确率。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种模型训练方法、客服系统及数据标注系统、可读存储介质，旨在解决现有分类模型所需标记数据的获取成本高、分类模型质量偏低，进而导致客服系统应答质量差的技术问题。

为实现上述目的，本发明提供一种模型训练方法，所述方法包括以下步骤：

S10，将同一标注数据集作为不同分类模型的训练数据集；

S20，基于所述训练数据集，对不同分类模型进行训练；

S30，基于训练后得到的分类模型，对未标注数据集中的预测样本进行预测，得到预测结果；

S40，获取所述预测结果的置信度，并根据预测结果的置信度将预测样本标记为高置信度预测样本或者低置信度预测样本；

S50，将在各分类模型中均被标记为高置信度预测样本的预测样本添加到其它分类模型的训练数据集；

以及，基于新的训练数据集，进行预设轮次的步骤S20至S50的迭代训练，并得到多次迭代训练后的分类模型。

优选地，当分类模型的数量为两个时，所述根据预测样本的置信度将预测样本分类为高置信度预测样本的步骤之后，还包括：

判断所述预测样本是否在各分类模型中均被标记为所述高置信度预测样本；

若是，则获取所述预测样本的分类信息；其中，预测样本的所述分类信息分别与不同分类模型对应；

比较与各分类模型对应的分类信息是否一致；

若一致，则执行步骤S50；

若不一致，则对所述预测样本进行人工标注，并将人工标注后的所述预测样本添加到其它分类模型的训练数据集，以继续执行下一轮的迭代训练。

优选地，当分类模型的数量大于两个时，所述根据预测样本的置信度将预测样本分类为高置信度预测样本的步骤之后，还包括：

若是，则获取各分类模型对所述预测样本的投票结果；其中，所述预测样本的投票结果分别与不同分类模型对应；

判断所述预测样本的投票结果是否符合预设规则；

若符合，则执行步骤S50。

优选地，所述根据预测样本的置信度将预测样本分类为低置信度预测样本的步骤之后，还包括：

判断所述预测样本是否在各分类模型中均被标记为所述低置信度预测样本；

若是，则对所述预测样本进行人工标注，并将人工标注后的所述预测样本添加到其它分类模型的所述训练数据集，以继续执行下一轮的迭代训练。

优选地，将所述预测样本添加到其它分类模型的所述训练数据集的步骤之后，还包括：

在所述未标注数据集中剔除已添加到其它分类模型的训练数据集中的预测样本，并更新所述未标注数据集。

优选地，所述高置信度预测样本的置信度大于或者等于第一置信度阈值；所述低置信度预测样本的置信度小于或者等于第二置信度阈值；

其中，所述第二置信度阈值小于或者等于所述第一置信度阈值；

不同分类模型分别对应一组第一置信度阈值及第二置信度阈值。

此外，为实现上述目的，本发明还提供一种客服系统，所述系统包括对话获取模块、判断模块、智能应答模块；其中，

所述对话获取模块，用于获取用户的通信对话信息，并将所述通信对话信息发送至所述判断模块；

所述判断模块内嵌有预设对话歧义判断模型；其中，预设对话歧义判断模型为通过如上所述的模型训练方法的多次迭代训练后的分类模型；

基于预设对话歧义判断模型，所述判断模块用于判断所述通信对话信息是否进行歧义消解；

所述智能应答模块，用于根据所述判断模块的判断结果，对所述通信对话信息作出相应的应答。

此外，为实现上述目的，本发明还提供一种数据标注系统，所述系统包括数据输入模块、训练模块、预测模块、标注模块；

所述数据输入模块，用于输入已标记数据及未标记数据；将已标记数据合并到预设标注数据集；将未标记数据合并到预设未标注数据集；

所述训练模块，用于基于预设标注数据集，对不同分类模型进行训练；

所述预测模块，用于基于训练后得到的分类模型，对预测样本进行预测；其中，预测样本为预设未标注数据集中的未标记数据；

所述标注模块，用于获取预测结果的置信度，并根据预测结果的置信度将预测样本标记为高置信度预测样本或者低置信度预测样本；以及将在各分类模型中均被标记为所述高置信度预测样本的预测样本进行标注，以形成新的已标记数据。

优选地，所述系统还包括数据剔除模块；所述数据剔除模块，用于在所述预设未标注数据集中剔除已被标注的预测样本，并更新所述预设未标注数据集。

此外，为实现上述目的，本发明还提供一种可读存储介质，所述可读存储介质上存储有模型训练程序，所述模型训练程序被处理器执行时实现如上所述的模型训练方法的步骤。

本发明实施例提出一种模型训练方法、客服系统及数据标注系统、可读存储介质，通过先采用同一标注数据集对不同分类模型进行训练，并将未标注数据作为测试样本，利用训练后的分类模型对测试样本进行预测；然后基于预测结果的置信度，将测试样本标记为高置信度预测样本或者高置信度预测样本；将在各分类模型中均被标记为高置信度预测样本的预测样本添加到其它分类模型的训练数据集。这样，可以利用少量的标记数据对大量未标记数据进行非人工标记，从而有助于降低人工标记数据的成本和工作量，提高数据标记的效率。同时通过多轮的迭代训练，高置信度预测样本和人工标注的数据会不断累加到训练数据集，从而逐步提高分类模型的分类精度和质量，进而增加高置信度预测样本的质量和数据。

附图说明

图1为本发明分类模型的实现示意图；

图2为本发明模型训练方法第一实施例的流程示意图；

图3为本发明模型训练方法第二实施例的流程示意图；

图4为一种基于分歧的多分类模型的迭代训练示意图；

图5为本发明模型训练方法第三实施例的流程示意图；

图6为一种基于分歧的多分类模型的迭代训练示意图；

图7为本发明客服系统组成的框图；

图8为本发明客服系统的实现示意图；

图9为本发明数据标注系统组成的框图。

本发明目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

这里先简要说明本发明的技术思想。

在训练分类模型时，所需的训练数据集一般需要采用已标注的数据组成的数据集合。将训练数据集表示为Dk＝{(x₁,y₁),(x₂,y₂),…,(x_k,y_k)}，上述k个样本已进行标注，对应的类别标记为已知，在本实施例中即为标注数据集中的标记样本；此外，还有数据集Du＝{(x_k+1,y_k+1),(x_k+2,y_k+2),…,(x_k+u,y_k+u)}，k<u，上述u个样本未进行标注，对应的类别标记为未知，在本实施例中即为未标注数据集中的未标记样本。

若采用传统的监督学习方法，则仅有D_k能被用于分类模型的构建和训练(近似等同于模型的学习)，使得D_u所包含的数据信息被浪费、无法得到充分利用；另一方面，若D_k样本量过少，会使得训练样本量不足，导致训练得到的分类模型的泛化能力往往不佳。而未标记样本虽然不包含标记信息，但如果它们和标记样本是从同样的数据源独立分布采样而来，则未标记样本所包含的关于数据分布的信息是可以用于辅助模型的建立与训练。因此充分利用未标记样本，有助于增加模型的训练样本量与提高模型的正确率与泛化能力。

在本发明模型训练方法的各实施例中，达到的技术效果之一在于：实现对D_u中的未标记样本进行非人工标注，变为标记样本，并添加到训练数据集，以用于分类模型的训练与学习。

顾名思义，本发明模型训练方法是利用相同的训练集对两个及以上的分类模型进行训练学习(即基于分歧的模型训练方法)。在本发明中，分类模型属于宽泛性概率，可等同于训练模型、学习模型、学习器等名称。为了利用未标记样本以及不同分类模型之间的分歧信息，不同分类模型相互提供高置信度的预测样本作为其它分类模型的训练样本，从而提升模型的泛化能力。

本发明模型训练方法的理论基础是现实应用中的数据往往同时拥有多个不同的属性，每个属性可以看作该数据的一个视图。例如在电影数据集中，其既包含图像相关的属性集，也包含基于声音的属性集。因此，这两类属性集可以看作两个相关的视图。假设不同的视图之间具有相容性，即根据同一个数据样本在不同的视图中学习得到的标记分类一致，这些信息则为不同的模型提供了额外的信息，从而提高其各自的准确度和泛化能力。

请参见图1，图1是本发明分类模型的实现示意图。为了便于描述，图1中仅引入了两个分类模型。在现实应用中，可以根据实际情况使用更多的学习器进行训练。

如图1所示，标注数据集被拷贝成相同的两份(即训练数据集A/B),并分别传送给分类模型A和分类模型B；训练数据集A/B分别训练模型A/B，并对同一未标注数据集中的未标记样本进行预测，并根据预测得到的预测样本的置信度将预测样本分类为高置信度预测样本或者低置信度预测样本。

即从分类模型A和分类模型B分别得到高置信度预测样本A和高置信度预测样本B，然后分别将各自的高置信度预测样本加入对方的训练数据中(即分类模型A得到的高置信度预测样本A加入分类模型B的训练数据集B，反之亦然)，再进行新一轮的迭代训练。

按照上述策略进行迭代训练，经过一定轮次的迭代后，未标注数据集的大部分未标记样本将会在迭代过程中作为分类模型的高置信度预测样本、被加入到训练集中，从而得到多次迭代训练后的分类模型。

基于上述技术思想，请参照图2，图2为本发明模型训练方法第一实施例的流程示意图。

在本实施例中，所述方法包括以下步骤：

S10，将同一标注数据集作为不同分类模型的训练数据集；

标注数据集中的数据为已标注数据，具体可以通过人工标注方式对数据进行标注。

S20，基于所述训练数据集，对不同分类模型进行训练；

分类模型的数量为两个及以上，且分类模型的类型互不相同。基于训练数据集中的已标注数据对某一分类模型进行训练，有助于优化该分类模型的模型参数，并提高该分类模型的质量。

未标注数据集中包含未标注数据；其中，未标注数据作为各分类模型进行预测的预测样本。各预测样本经某一分类模型进行预测后，得到对应的预测结果；例如，对预测样本进行预测，以得到预测样本的标签信息。

预测结果的置信度在分类模型对预测样本进行预测后即可确定。对于任一分类模型而言，根据预测结果的置信度将预测样本分类，具体可以是分别设置第一置信度阈值θH及第二置信度阈值θ_L。其中，将预测结果的置信度≥第一置信度阈值θ_H的预测样本标记为高置信度预测样本，将预测结果的置信度≤第二置信度阈值θ_L的预测样本标记为低置信度预测样本。

即所述高置信度预测样本的置信度大于或者等于第一置信度阈值θ_H；所述低置信度预测样本的置信度小于或者等于第二置信度阈值θ_L；其中，所述第二置信度阈值θ_L小于或者等于所述第一置信度阈值θ_H；不同分类模型分别对应一组第一置信度阈值θ_H及第二置信度阈值θ_L。

需要注意到的是，针对不同的应用以及不同的分类模型，其各自的第一/第二置信度阈值均可以灵活调整。

当某一预测样本在各分类模型中均被标记为高置信度预测样本时，默认该预测样本具备充当测试数据的有效性和代表性。此时，该预测样本连同其预测结果(如添加的标签)转变成已标记样本，因此可以将该预测样本添加到其它分类模型的训练数据集，从而扩充其它分类模型的训练数据量。

对于分类模型来说，一般需要经过多次的迭代训练，以不断优化分类模型的模型参数，并提升分类模型的质量(如可靠性、预测准确度等)。预设轮次可以根据实际需要进行设置。本实施例模型训练方法具体的示意流程图请参见图1。

在本实施例中，通过先采用同一标注数据集对不同分类模型进行训练，并将未标注数据作为测试样本，利用训练后的分类模型对测试样本进行预测；然后基于预测结果的置信度，将测试样本标记为高置信度预测样本或者高置信度预测样本；将在各分类模型中均被标记为高置信度预测样本的预测样本添加到其它分类模型的训练数据集。这样，可以利用少量的标记数据对大量未标记数据进行非人工标记，从而有助于降低人工标记数据的成本和工作量，提高数据标记的效率。同时通过多轮的迭代训练，高置信度预测样本和人工标注的数据会不断累加到训练数据集，从而逐步提高分类模型的分类精度和质量，进而增加高置信度预测样本的质量和数据。

进一步地，如图3所指，基于本发明模型训练方法的第一实施例，提出本发明模型训练方法的第二实施例。其中，当分类模型的数量为两个时，所述根据预测样本的置信度将预测样本分类为高置信度预测样本的步骤之后，还包括：

步骤S60，判断所述预测样本是否在各分类模型中均被标记为所述高置信度预测样本；

步骤S61，若是，则获取所述预测样本的分类信息；其中，预测样本的所述分类信息分别与不同分类模型对应；

步骤S62，比较与各分类模型对应的分类信息是否一致；

步骤S63，若一致，则执行步骤S50；

步骤S64，若不一致，则对所述预测样本进行人工标注，并将人工标注后的所述预测样本添加到其它分类模型的训练数据集，以继续执行下一轮的迭代训练。

所述根据预测样本的置信度将预测样本分类为低置信度预测样本的步骤之后，还包括：

步骤S65，判断所述预测样本是否在各分类模型中均被标记为所述低置信度预测样本；

步骤S66，若是，则对所述预测样本进行人工标注，并将人工标注后的所述预测样本添加到其它分类模型的所述训练数据集，以继续执行下一轮的迭代训练。

即根据预测样本的被标记情况，分别执行相应的步骤。

下面，结合图4进行举例说明。图4是一种基于分歧的多分类模型的迭代训练示意图。图4只采用两个分类模型：XGBoost分类模型和双向LSTM分类模型，其分别使用同一标注数据集作为训练数据集进行训练；在训练出各自的模型后，对未标注数据进行预测，得到对未标注数据的预测结果(如图4所示的XGB分类结果、LSTM分类结果)。进一步地，将得到的预测结果根据置信度进行划分，并标记为高置信度预测样本或者低置信度预测样本。

对于在两个分类模型均被标记高置信度预测样本的预测样本，执行步骤S61～S62，即判断某一该预测样本基于不同分类模型得到的分类信息(如预测的标签信息)是否一致；若一致，则判定该预测样本为高置信度预测一致样本；若不一致，则判定该预测样本为高置信度预测相悖样本。

对于高置信度预测一致样本，执行步骤S50；即通过非人工标注的方式将该预测样本变为标记样本。

对于高置信度预测相悖样本，执行步骤S64；即通过人工标注的方式将该预测样本变为标记样本。

此外，对于在两个分类模型均被标记低置信度预测样本的预测样本，执行步骤S66；即通过人工标注的方式将该预测样本变为标记样本。

此外，对于在两个分类模型中的被标记结果不同的预测样本(即在一个分类模型中被标记为高置信度预测样本，在另一分类模型中被标记为低置信度预测样本)，仍将该预测样本作为未标注数据，进入下一轮的模型预测。

进一步地，如图5所示，基于本发明模型训练方法的第一实施例，提出本发明模型训练方法的第三实施例。其中，当分类模型的数量大于两个时，所述根据预测样本的置信度将预测样本分类为高置信度预测样本的步骤之后，还包括：

步骤S70，判断所述预测样本是否在各分类模型中均被标记为所述高置信度预测样本；

步骤S71，若是，则获取各分类模型对所述预测样本的投票结果；其中，所述预测样本的投票结果分别与不同分类模型对应；

步骤S72，判断所述预测样本的投票结果是否符合预设规则；若符合，则执行步骤S50。

下面，结合图6进行举例说明。图6是一种基于分歧的多分类模型的迭代训练示意图。图6中选用了三个分类模型：XGBoost分类模型，FastText模型和双向LSTM分类模型，其分别使用同一标注数据集作为训练数据集进行训练；在训练出各自的模型后，对未标注数据进行预测，得到对未标注数据的预测结果(如图6所示的XGB分类结果、FastText分类结果、LSTM分类结果)。进一步地，将得到的预测结果根据置信度进行划分，并标记为高置信度预测样本或者低置信度预测样本。

由于采用三个不同的分类模型，各分类模型通过对未标注样本进行预测后得到其各自的高置信度预测样本和低置信度预测样本。对所有高置信度预测样本中的共有样本(即在各分类模型中均被标记为所述高置信度预测样本的预测样本)采用投票策略，并判断所述共有样本的投票结果是否符合预设规则。一种预设规则为：不同分类模型对某一共有样本的投票通过率超过50％(或者其它数值)。则当共有样本的投票通过率超过50％时，将该共有样本标注为投票获胜类别，并将其加入训练数据集进行下一轮的模型训练。而不符合预设规则的共有样本仍将作为未标注数据，进入下一轮的模型预测。

此外，对于在多个分类模型均被标记低置信度预测样本的预测样本、在两个分类模型中的被标记结果不同的预测样本(即在一个分类模型中被标记为高置信度预测样本，在另一分类模型中被标记为低置信度预测样本)，其处理方法与上述第二实施例相同，这里不再赘述。

上述第二实施例、第三实施例为基于第一实施例的更为具体的实施方式，其利用简单的迭代策略，有效地实现将高置信度预测样本和人工标注的数据会不断累加到训练数据集，有助于降低人工标记数据的成本和工作量，提高数据标记的效率。

需要说明的是，上述第二实施例、第三实施例仅仅代表众多迭代策略中的两种迭代策略；针对不同的应用场景和分类模型，还可以采用其它不同的迭代策略。另外，针对不同应用场景，不同的分类模型以及不同的人工标注投入资源的预期，对上文提到的置信度阈值θ_H以及θ_L进行相应的调整也将得到不同数量的自动标注集合以及人工标注集合。例如，通过设置更高的θ_L将得到更少的自动标注样本，而通过设置更高的θ_L将会得到更多的待人工标注样本。除此之外，基于分歧的半监督分类模型还可以被扩展到不同的分类模型以及更多数量的分类模型。配合不同的训练数据以及应用场景，可以灵活采用不同的迭代策略，迭代次数以及阈值设置，从而满足不同的需求。

进一步地，基于本发明模型训练方法的第一实施例，提出本发明模型训练方法的第四实施例。在本实施例中，将所述预测样本添加到其它分类模型的所述训练数据集的步骤之后，还包括：

步骤S80，在所述未标注数据集中剔除已添加到其它分类模型的训练数据集中的预测样本，并更新所述未标注数据集。

即当某一预测样本以上文所述的人工标注或非人工标注方式进行标注，转变成标记样本，并添加到其它分类模型的所述训练数据集之后，自动在未标注数据集中进行剔除。这样，可以避免未标注数据集的数据冗余，提升未标注数据集中的未标记样本的标注效率，也有助于提升分类模型的训练效率。

此外，基于本发明模型训练方法，进一步提供一种客服系统。请参见图7，图7为本发明客服系统组成的框图，所述系统包括对话获取模块110、判断模块120、智能应答模块130；其中，

所述对话获取模块110，用于获取用户的通信对话信息，并将所述通信对话信息发送至所述判断模块120；

对话获取模块110可以与基于网页/应用程序的用户通话界面的数据接口连接，以获取实时的用户通信对话信息。这里所指的通信对话信息，具体可以是检测到用户执行一次信息发送动作(如按动输入键)之后，采集得到的用户已输入对话信息。

所述判断模块120内嵌有预设对话歧义判断模型1200；其中，预设对话歧义判断模型1200为通过如上所述的模型训练方法的多次迭代训练后的分类模型；

基于预设对话歧义判断模型1200，所述判断模块120用于判断所述通信对话信息是否进行歧义消解；

预设对话歧义判断模型1200经过多次的迭代训练，有助于提升模型的分类精度和质量，进而使得判断模块120实现对通信对话信息是否进行歧义消解的判断。

在具体实施时，所述判断模块120用于调用预设对话歧义判断模型1200，并根据预设对话歧义判断模型1200判断所述通信对话信息是否需要所述通信对话信息进行歧义消解；

判断模块120基于预设对话歧义判断模型1200，实现上述判断操作，并相应选择如下不同的执行路径。

若需要，则调取所述通信对话信息的上下文信息，并将所述通信对话信息及所述上下文信息发送至所述智能应答模块130；

即判断用户输入的某一通信对话信息需要进行歧义消解时，调取该通信对话信息的上下文信息，并将通信对话信息及调取的上下文信息一并发送至智能应答模块130。这样，智能应答模块130根据上下文信息对该通信对话信息进行歧义消解，以便于进行后续的语义识别与作出应答。

若不需要，则将所述通信对话信息发送至所述智能应答模块。

在判断用户输入的某一通信对话信息需要进行歧义消解时，直接将通信对话信息发送至智能应答模块130。智能应答模块130直接进行后续的语义识别与作出应答。

所述智能应答模块130，用于根据所述判断模块120的判断结果，对所述通信对话信息作出相应的应答。

智能应答模块130具体可以实现对用户通信对话信息的歧义消解及智能应答。

如图8所示，图8为本发明客服系统的实现示意图。在用户给出当前问句，对话获取模块110获取用户的当前问句；判断模块120调用已训练好的预设对话歧义判断模型1200，判断当前问句是否需要上下文信息进行歧义消解。若需要，则调取当前问句的上下文信息，并将当前问句及调取的上下文信息一并发送至智能应答模块130；智能应答模块130根据调取的上下文信息对当前问句进行歧义消解，并作出相应的应答。

若不需要，则判断模块120将当前问句发送至智能应答模块130；智能应答模块130直接作出相应的应答。

在本实施例中，客服系统通过利用本发明模型训练方法训练得到的预设对话歧义判断模型，可以判断出用户输入的通信对话信息是否进行歧义消解；在通信对话信息需要进行歧义消解时，向智能应答模块发送通信对话信息的上下文信息，以进行歧义消解，并作出相应的应答。该客服系统具有判断准确率高、可靠性强、投入成本低的特点，有助于提高智能客服的应答水平。

此外，基于本发明模型训练方法，进一步提供一种数据标注系统。请参见图9，图9为本发明数据标注系统组成的框图。所述系统包括数据输入模块210、训练模块220、预测模块230、标注模块240；

所述数据输入模块210，用于输入已标记数据及未标记数据；将已标记数据合并到预设标注数据集；将未标记数据合并到预设未标注数据集；

所述训练模块220，用于基于预设标注数据集，对不同分类模型进行训练；

所述预测模块230，用于基于训练后得到的分类模型，对预测样本进行预测；其中，预测样本为预设未标注数据集中的未标记数据；

所述标注模块240，用于获取预测结果的置信度，并根据预测结果的置信度将预测样本标记为高置信度预测样本或者低置信度预测样本；以及将在各分类模型中均被标记为所述高置信度预测样本的预测样本进行标注，以形成新的已标记数据。

预测结果的置信度在分类模型对预测样本进行预测后即可确定。对于任一分类模型而言，根据预测结果的置信度将预测样本分类，具体可以是分别设置第一置信度阈值θ_H及第二置信度阈值θ_L。其中，将预测结果的置信度≥第一置信度阈值θ_H的预测样本标记为高置信度预测样本，将预测结果的置信度≤第二置信度阈值θ_L的预测样本标记为低置信度预测样本。

即所述高置信度预测样本的置信度大于或者等于第一置信度阈值θ_H；所述低置信度预测样本的置信度小于或者等于第二置信度阈值θ_L；其中，所述第二置信度阈值θ_L小于或者等于所述第一置信度阈值θ_H；不同分类模型分别对应一组第一置信度阈值θ_H及第二置信度阈值θL。

当某一预测样本在各分类模型中均被标记为高置信度预测样本时，默认该预测样本具备充当测试数据的有效性和代表性。此时，该预测样本连同其预测结果(如添加的标签)转变成已标记样本。

此外，对于其它预测样本(即不在各分类模型中均被标记为高置信度预测样本的样本)，其可以通过人工标注的方式转变成已标记数据，具体的实现方式请参考上文中的本发明模型训练方法各实施例。

此外，该数据标注系统在具体实现时，可通过多次迭代的方式执行训练模块220、预测模块230、标注模块240的相关操作。即仅需要通过输入少量的标注数据启动该系统，然后该系统根据预先设计好的迭代策略进行自动标注。

需要注意的一点是，大部分情况下，自动标注所需的时间成本往往远远小于人工标注的时间成本。在每一轮迭代时并非都需要进行一次人工标注。此时，出于降低人工标注的时间成本考虑，可以调整迭代策略。例如，在每轮迭代中将需要进行人工标注的样本收集，并将其从未标注数据中移除，进而进行下一轮迭代。等到经过一定次数的迭代后，再统一将收集的待标注样本进行人工标注，进而将人工标注后的样本加入已标注数据集中，接着进行下一轮的迭代。

在本实施例中，通过先采用同一标注数据集对不同分类模型进行训练，并将未标注数据作为测试样本，利用训练后的分类模型对测试样本进行预测；然后基于预测结果的置信度，将测试样本标记为高置信度预测样本或者高置信度预测样本；将在各分类模型中均被标记为所述高置信度预测样本的预测样本进行标注，以形成新的已标记数据。这样，可以利用少量的标记数据对大量未标记数据进行非人工标记，从而有助于降低人工标记数据的成本和工作量，提高数据标记的效率。

进一步地，如图9所示，在上述数据标注系统的基础上，所述系统还包括数据剔除模块250；所述数据剔除模块250，用于在所述预设未标注数据集中剔除已被标注的预测样本，并更新所述预设未标注数据集。

此外，如上所述的各模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过所述模型训练程序来指令相关的硬件来完成，所述模型训练程序可存储于一计算机可读存储介质中，所述模型训练程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述模型训练程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，可读存储介质不包括电载波信号和电信信号。

所述计算机可读存储介质上存储有模型训练程序，所述模型训练程序被处理器执行时实现如上任一项所述的模型训练方法的步骤。

所述模型训练程序被处理器执行时实现如下操作：

S10，将同一标注数据集作为不同分类模型的训练数据集；

S20，基于所述训练数据集，对不同分类模型进行训练；

进一步地，所述模型训练程序被处理器执行时还实现如下操作：

比较与各分类模型对应的分类信息是否一致；

若一致，则执行步骤S50；

判断所述预测样本的投票结果是否符合预设规则；

若符合，则执行步骤S50。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种模型训练方法，其特征在于，所述方法包括以下步骤：

S10，将同一标注数据集作为不同分类模型的训练数据集；

S20，基于所述训练数据集，对不同分类模型进行训练；

2.如权利要求1所述的模型训练方法，其特征在于，当分类模型的数量为两个时，所述根据预测样本的置信度将预测样本分类为高置信度预测样本的步骤之后，还包括：

比较与各分类模型对应的分类信息是否一致；

若一致，则执行步骤S50；

3.如权利要求1所述的模型训练方法，其特征在于，当分类模型的数量大于两个时，所述根据预测样本的置信度将预测样本分类为高置信度预测样本的步骤之后，还包括：

判断所述预测样本的投票结果是否符合预设规则；

若符合，则执行步骤S50。

4.如权利要求1至3任一所述的模型训练方法，其特征在于，所述根据预测样本的置信度将预测样本分类为低置信度预测样本的步骤之后，还包括：

5.如权利要求1所述的模型训练方法，其特征在于，将所述预测样本添加到其它分类模型的所述训练数据集的步骤之后，还包括：

6.如权利要求1所述的模型训练方法，其特征在于，所述高置信度预测样本的置信度大于或者等于第一置信度阈值；所述低置信度预测样本的置信度小于或者等于第二置信度阈值；

7.一种客服系统，其特征在于，所述系统包括对话获取模块、判断模块、智能应答模块；其中，

所述判断模块内嵌有预设对话歧义判断模型；其中，预设对话歧义判断模型为通过如权利要求1至6中任一项所述的模型训练方法的多次迭代训练后的分类模型；

8.如权利要求7所述的客服系统，其特征在于，所述判断模块用于调用预设对话歧义判断模型，并根据预设对话歧义判断模型判断所述通信对话信息是否需要所述通信对话信息的上下文信息进行歧义消解；

若需要，则调取所述通信对话信息的上下文信息，并将所述通信对话信息及所述上下文信息发送至所述智能应答模块；

9.一种数据标注系统，其特征在于，所述系统包括数据输入模块、训练模块、预测模块、标注模块；

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有模型训练程序，所述模型训练程序被处理器执行时实现如权利要求1-6中任一项所述的模型训练方法的步骤。