CN112417111B

CN112417111B - 文本分类方法、问答系统及对话机器人

Info

Publication number: CN112417111B
Application number: CN202011218101.8A
Authority: CN
Inventors: 黄友福; 肖龙源; 廖斌
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2022-08-23
Anticipated expiration: 2040-11-04
Also published as: CN112417111A

Abstract

本发明公开了一种文本分类方法、问答系统及对话机器人，其通过对验证集的数据进行预测，得到所述验证集的初始类别、预测类别及预测分值；通过选定类别I作为待优化类别，根据待优化类别I从所述验证集中抽取出数据集A；从所述数据集A中抽取出数据集Ai，所述数据集Ai的初始类别为类别Ii；根据所述预测分值对所述数据集Ai进行排序并计算统计分值Si；最后，将待分类文本输入所述目标模型进行预测，输出最终的预测类别，从而实现在不变更数据模型的情况下，提升特定类别识别准确率的方法，能够节省数据补充和模型调整的人工和时间成本。

Description

文本分类方法、问答系统及对话机器人

技术领域

本发明涉及人工智能技术领域，特别是一种文本分类方法及其应用该方法的问答系统及对话机器人。

背景技术

在人机交互的过程中，对话机器人系统的首要动作就是要获取到用户输入的目标语句，待获取到输入的目标语句之后，服务器再对用户输入的目标语句进行分析与意图识别，这样才能够针对用户提出的问题或要求反馈更加合适的回答。

在对话机器人中，通常会有一些意图具有更重要的意义，如咨询联系方式等，获取联系方式操作和对话成功与否有直接关联。然而，用户输入的目标语句不止一个句子，可能是很多单独的句子，也可能是具有上下联系关系的句子。如果输入的目标语句过于复杂，系统难以识别出目标语句的真实意图，不能及时反馈出准确的回答。

因此在这些意图上，需要提升准确率。而在文本分类任务中，由于数据数量、数据分布、数据质量以及选用模型服务器算力等原因，模型在特定的单个类别上的准确率可能达不到要求。

为了提高特定类别的准确率，现有技术通常需要对该特定类别的训练样本进行扩充，或者调整训练模型。如中国发明专利CN111737472A公开的一种文本分类模型的更新方法及系统、电子设备及存储介质，需要通过收集用户对原有分类结果执行的质疑操作，将所述网页文本以及对所述网页文本进行人工标注的分类结果作为新增样本；将包括原有训练集和所述新增样本的数据集划分为训练集、测试集和验证集，重新训练文本分类模型；根据文本分类模型在训练集、测试集以及验证集上的F1值筛选最佳模型，并将所述目标文本分类模型更新为所述最佳模型，需要消耗极大的人工成本和时间成本。

发明内容

本发明的主要目的在于提供了一种文本分类方法、问答系统及对话机器人，在不变更数据模型的情况下，提升特定类别识别准确率的方法，能够节省数据补充和模型调整的人工和时间成本。

为实现上述目的，本发明提供了一种文本分类方法，其包括以下步骤：

采用目标模型对验证集的数据进行预测，得到所述验证集的初始类别、预测类别及预测分值；其中，所述预测类别或所述初始类别包括类别I和类别Ii,i＝1,2....n；

选定类别I作为待优化类别，根据待优化类别I从所述验证集中抽取出数据集A；其中，所述数据集A的预测类别为类别I；

从所述数据集A中抽取出数据集Ai；其中，所述数据集Ai的初始类别为类别Ii；

根据所述预测分值对所述数据集Ai进行排序，并根据排序结果对所述数据集Ai的预测分值和预测准确率进行统计，得到统计分值Si,i＝1,2....n；

将待分类文本输入所述目标模型进行预测，当输出的预测类别为类别I、预测分值为S时，计算(S-Si)/(Si)，i＝1,2....n；若(S-Si)/(Si)均小于0，则得到所述待分类文本的分类为类别I；若(S-Si)/(Si)中存在大于0的项，则选取使得(S-Si)/(Si)最大的i，得到所述待分类文本的分类为类别Ii。

优选的，所述预测分值采用softmax分值，通过对所述目标模型的预测结果应用softmax函数进行归一化，输出一个和为1的预测分值序列；通过获取所述预测分值序列中最大值的位置进而确定最终的预测类别。

优选的，根据预测分值和预测准确率进行统计得到统计分值Si，是通过对所述数据集Ai中预测分值进行阈值计算，使所述预测分值小于所述统计分值时，该预测分值对应的预测类别的准确率最低。

优选的，所述统计分值Si的计算方法包括以下步骤：

将数据集Ai根据其预测分值按照从小到大的顺序排列；

设Si,n为数据集Ai中的预测分值，分别从数据集Ai中抽取预测分值小于Si,n(n＝1,2...len(R))的预测数据；

计算当前数据集的准确率，当准确率在Si,n时最低，则取Si,n作为所述统计分值Si。

优选的，所述验证集的初始类别采用人工标注得到，所述验证集的预测类别通过所述目标模型对验证集的数据进行预测得到；并且，进一步根据所述预测类别和所述初始类别的差异，得到验证损失值；根据所述验证损失值确定是否停止训练所述目标模型。

优选的，所述验证集的数据为文本的人机对话数据或者语音转文本的人机对话数据，所述初始类别或所述预测类别为基于语义分析的用户意图类别。

与所述文本分类方法相对应的，本发明提供一种问答系统，其包括：

类别预判模块，其采用目标模型对验证集的数据进行预测，得到所述验证集的初始类别、预测类别及预测分值；其中，所述预测类别或所述初始类别包括类别I和类别Ii,i＝1,2....n；

数据筛选模块，通过选定类别I作为待优化类别，根据待优化类别I从所述验证集中抽取出数据集A；其中，所述数据集A的预测类别为类别I；并且，从所述数据集A中抽取出数据集Ai；其中，所述数据集Ai的初始类别为类别Ii；

分值统计模块，其根据所述预测分值对所述数据集Ai进行排序，并根据排序结果对所述数据集Ai的预测分值和预测准确率进行统计，得到统计分值Si,i＝1,2....n；

类别判决模块，用于将待分类文本输入所述目标模型进行预测，当输出的预测类别为类别I、预测分值为S时，计算(S-Si)/(Si)，i＝1,2....n；若(S-Si)/(Si)均小于0，则得到所述待分类文本的分类为类别I；若(S-Si)/(Si)中存在大于0的项，则选取使得(S-Si)/(Si)最大的i，得到所述待分类文本的分类为类别Ii。

此外，为实现上述目的，本发明还提供一种对话机器人，所述对话机器人包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的问答系统，所述问答系统被所述处理器执行时实现如上述任一项所述的文本分类方法的步骤。

本发明的有益效果是：

(1)本法明通过对选择特定类别进行类别优化，对待优化类别的对应数据进行重新处理和类别判定，在不变更数据模型的情况下，提升特定类别识别准确率的方法，能够节省数据补充和模型调整的人工和时间成本。；

(2)本发明进一步根据预测分值和预测准确率进行分值统计，并基于统计分值进行阈值计算和重新判定预测类别，使得选定的待优化类别的识别准确率得到显著的提升。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在机器学习和模式识别等领域中，一般需要将样本分成独立的三部分训练集(train set)，验证集(validation set)和测试集(test set)。其中训练集用来估计模型，验证集用来确定网络结构或者控制模型复杂程度的参数，而测试集则检验最终选择最优的模型的性能如何。一个典型的划分是训练集占总样本的50％，而其它各占25％，三部分都是从样本中随机抽取。

本实施例中，选取模型训练中的验证集作为候选数据集，优选的，所述验证集的数据为文本的人机对话数据或者语音转文本的人机对话数据，所述初始类别或所述预测类别为基于语义分析的用户意图类别。

本实施例的一种文本分类方法，包括以下步骤：

根据预测分值和预测准确率进行统计得到统计分值Si，是通过对所述数据集Ai中预测分值进行阈值计算，使所述预测分值小于所述统计分值时，该预测分值对应的预测类别的准确率最低。

本实施例中，所述统计分值Si的计算方法包括以下步骤：

将数据集Ai根据其预测分值按照从小到大的顺序排列；

设Si,n为数据集Ai中的预测分值，分别从数据集Ai中抽取预测分值小于Si,n(n＝1,2...len(R))的预测数据；其中，len(R)代表分值序列的长度。

计算当前数据集的准确率，当准确率在Si,n时最低，则取Si,n作为所述统计分值Si。如下表所示：

具体的，所述预测类别或所述初始类别除了包括类别I，还包括类别Ii、I2...In；首先选取数据集A中，初始类别为I1的数据集为数据集A1，对数据集A1根据预测分值进行排序；然后，根据排序结果，对softmax分值和A1预测准确率进行统计，可以得到预测分值S1，使得选取数据集中预测分值小于S1的部分C1时，C1的准确率最低；接着，重复以上步骤，直至遍历完I1，I2...In，得到统计分值S1,S2....Sn。

其中，所述softmax分值采用Softmax函数计算得到。所述Softmax函数又称归一化指数函数，是逻辑函数的一种推广。它能将一个含任意实数的K维向量z“压缩”到另一个K维实向量σ(z)中，使得每一个元素的范围都在(0,1)之间，并且所有元素的和为1。Softmax公式如下：

其中，x代表当前未归一化的值，Wn代表当前值的权重(权重取均值),j、k为计数下标。即，将模型的预测结果转化到指数函数上，这样保证了概率的非负性，再将转化后的结果除以所有转化后结果之和，得到所述softmax分值。所述softmax分值可以理解为转化后结果占总数的百分比。

本实施例的softmax分值算法适用于多分类问题，所述目标模型输出预测结果前，会对输出层应用softmax函数进行归一化，最终输出一个和为1的预测分值序列，通过获取该序列中最大值的位置进而确定预测结果类别。

本实施例中，所述验证集的初始类别采用人工标注得到，所述验证集的预测类别通过所述目标模型对验证集的数据进行预测得到；并且，进一步根据所述预测类别和所述初始类别的差异，得到验证损失值；根据所述验证损失值确定是否停止训练所述目标模型。

与所述文本分类方法相对应的，本发明还对应提供一种问答系统，其包括：

另外，本发明还提供一种对话机器人，该对话机器人包括如上所述的问答系统，具体的，所述对话机器人包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的问答系统，所述问答系统被所述处理器执行时实现如上述任一项所述的文本分类方法的步骤。

所述对话机器人包括但不限于：工业机器人、服务机器人、智能客服系统等，或者具有文本输入功能或语音输入功能的智能装置。

具体的，所述对话机器人可包括存储器、处理器、输入单元、显示单元、电源等部件。其中，存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据对话机器人的使用所创建的问答库或知识库等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器和输入单元对存储器的访问。

输入单元可用于接收输入的数字或字符或图像信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，本实施例的输入单元除了包括麦克风，还可包括触敏表面(例如触摸显示屏)以及其他输入设备。

显示单元可用于显示由用户输入的信息或提供给用户的信息以及对话机器人的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元可包括显示面板，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于问答系统实施例和对话机器人实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

并且，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种文本分类方法，其特征在于，包括以下步骤：

采用目标模型对验证集的数据进行预测，得到所述验证集的初始类别、预测类别及预测分值；其中，所述预测类别或所述初始类别包括类别I和类别Ii,i=1,2....n；

根据所述预测分值对所述数据集Ai进行排序，并根据排序结果对所述数据集Ai的预测分值和预测准确率进行统计，得到统计分值Si, i=1,2....n；

将待分类文本输入所述目标模型进行预测，当输出的预测类别为类别I、预测分值为S时，计算(S-Si)/(Si)，i = 1,2....n；若(S-Si)/(Si)均小于0，则得到所述待分类文本的分类为类别I；若(S-Si)/(Si)中存在大于0的项，则选取使得(S-Si)/(Si)最大的i，得到所述待分类文本的分类为类别Ii；

其中，根据预测分值和预测准确率进行统计得到统计分值Si，是通过对所述数据集Ai中预测分值进行阈值计算，使所述预测分值小于所述统计分值时，该预测分值对应的预测类别的准确率最低；所述统计分值Si的计算方法包括以下步骤：

将数据集Ai根据其预测分值按照从小到大的顺序排列；

设Si,n为数据集Ai中的预测分值，分别从数据集Ai中抽取预测分值小于Si,n（n=1,2...len(R)）的预测数据；len(R)代表分值序列的长度；

2.根据权利要求1所述的一种文本分类方法，其特征在于：所述预测分值采用softmax分值，通过对所述目标模型的预测结果应用softmax函数进行归一化，输出一个和为1的预测分值序列；通过获取所述预测分值序列中最大值的位置进而确定最终的预测类别。

3.根据权利要求1所述的一种文本分类方法，其特征在于：所述验证集的初始类别采用人工标注得到，所述验证集的预测类别通过所述目标模型对验证集的数据进行预测得到；并且，进一步根据所述预测类别和所述初始类别的差异，得到验证损失值；根据所述验证损失值确定是否停止训练所述目标模型。

4.根据权利要求1至3任一项所述的一种文本分类方法，其特征在于：所述验证集的数据为文本的人机对话数据或者语音转文本的人机对话数据，所述初始类别或所述预测类别为基于语义分析的用户意图类别。

5.一种问答系统，其特征在于，包括：

类别预判模块，其采用目标模型对验证集的数据进行预测，得到所述验证集的初始类别、预测类别及预测分值；其中，所述预测类别或所述初始类别包括类别I和类别Ii,i=1,2....n；

分值统计模块，其根据所述预测分值对所述数据集Ai进行排序，并根据排序结果对所述数据集Ai的预测分值和预测准确率进行统计，得到统计分值Si, i=1,2....n；

类别判决模块，用于将待分类文本输入所述目标模型进行预测，当输出的预测类别为类别I、预测分值为S时，计算(S-Si)/(Si)，i = 1,2....n；若(S-Si)/(Si)均小于0，则得到所述待分类文本的分类为类别I；若(S-Si)/(Si)中存在大于0的项，则选取使得(S-Si)/(Si)最大的i，得到所述待分类文本的分类为类别Ii；

将数据集Ai根据其预测分值按照从小到大的顺序排列；

6.一种对话机器人，其特征在于，所述对话机器人包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的问答系统，所述问答系统被所述处理器执行时实现如权利要求1至4任一项所述的文本分类方法的步骤。