CN111563165A

CN111563165A - 一种基于锚点词定位和训练语句增广的语句分类方法

Info

Publication number: CN111563165A
Application number: CN202010392159.8A
Authority: CN
Inventors: 于志鹏; 李小青; 周玉; 邓彪
Original assignee: Beijing Zhongkefan Language Technology Co ltd
Current assignee: Beijing Zhongkefan Language Technology Co ltd
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2020-08-21
Anticipated expiration: 2040-05-11
Also published as: CN111563165B

Abstract

本发明提供一种基于锚点词定位和训练语句增广的语句分类方法，包括：从训练数据集中挑选出所有与识别率最差标签对应的语句，再将挑选出的语句加入到增广集中；在训练数据集中，得到标签lable_T_min对应的所有语句，并将得到的语句加入到增广集中；定位到对标签种类影响最关键的锚点词，采用近义词替换语句中的锚点词，形成新语句，并加入到训练数据集中；采用新的训练数据集对分类模型进行训练。优点：在每次循环时，均可针对性的提高分类模型对分类效果差的标签的分类性能，从而提高对分类模型的训练效率，可以快速准确的得到满足分类性能要求的分类模型，进而保证最终语句分类效果。

Description

一种基于锚点词定位和训练语句增广的语句分类方法

技术领域

本发明属于语句分类技术领域，具体涉及一种基于锚点词定位和训练语句增广的语句分类方法。

背景技术

互联网上存在大量的文本数据，正确识别和利用好这些文本数据，将对人们的生产生活产生良好的指导和推动作用。文本分类是通过算法识别出文本类型，然后对识别出的文本进行标记的技术，目前主要应用于情感分析，垃圾邮件分类，实体识别等。常用的方法有基于规则和基于机器学习两种方法。

随着人工智能技术的发展和互联网中不断增长的语句量，越来越要求快速准确的对语句进行分类。因此，如何对语句分类方法进行改进，进而提高语句分类效率，是目前急需解决的事情。

发明内容

针对现有技术存在的缺陷，本发明提供一种基于锚点词定位和训练语句增广的语句分类方法，可有效解决上述问题。

本发明采用的技术方案如下：

本发明提供一种基于锚点词定位和训练语句增广的语句分类方法，包括以下步骤：

步骤1，获得训练数据集和测试数据集，包括：

步骤1.1，从语料库中获取多条语句，对每条语句进行预处理后，对预处理后的每条语句进行分词处理，得到分词形式的语句；

步骤1.2，对每条分词形式的语句的标签进行标注，使每条分词形式的语句均被标注一条标签；其中，标签代表语句类型；

步骤1.3，对于已标注的多条语句，选择M条语句形成训练数据集；选取N条语句形成测试数据集；

步骤2，构建分类模型，使用训练数据集训练所述分类模型，得到训练后的分类模型；

步骤3，使用所述测试数据集测试所述训练后的分类模型的性能，得到每种标签的识别率F1_lable_T_i的值，以及分类模型总识别率F1_total的值；具体包括：

步骤3.1，测试数据集中共有M条已标注的语句，因此，每条语句对应的实际标签已知；设实际标签的种类为r种，分别为标签lable_T₁，标签lable_T₂,…,标签lable_T_r；

步骤3.2，将测试数据集中每条语句输入所述训练后的分类模型，经所述训练后的分类模型进行分类预测后，输出每条语句的预测标签，由于共有M条已标注的语句，因此，分类模型一共输出M个预测标签；

对分类模型输出的M个预测标签进行统计分析，采用下式，计算得到每种标签的准确率和召回率：

对于r种标签中的任意标签lable_T_i，i＝1,2,…,r，采用下式计算准确率P_i和召回率R_i：

其中：

TP_i代表对标签lable_T_i预测正确的数量；

FP_i代表将其他类标签预测为本类标签lable_T_i的数量；

FN_i代表错将本类标签lable_T_i预测为其他类标签的数量；

步骤3.3，采用下式计算标签lable_T_i的识别率F1_lable_T_i：

步骤3.4，采用下式计算分类模型总识别率F1_total的值：

步骤4，将各个标签的识别率F1_lable_T_i进行排序，预定义识别率比例阈值，根据识别率比例阈值，挑选到识别率最差的至少一种标签；然后，从训练数据集中挑选出所有与识别率最差标签对应的语句，再将挑选出的语句加入到增广集中；

步骤5，对训练数据集中每种标签对应的语句数量进行分析，得到每种标签的不均匀度，将标签lable_T_i的不均匀度表示为U_i；预定义不均匀度阈值；判断是否存在小于不均匀度阈值的U_i；如果存在，将小于不均匀度阈值的标签记为标签lable_T_min；然后，在训练数据集中，得到标签lable_T_min对应的所有语句，并将得到的语句加入到增广集中；

步骤6，根据增广集中的语句以及训练后的分类模型，定位到对标签种类影响最关键的锚点词，具体的，对于增广集中的每条语句，均通过以下步骤定位到语句的锚点词：

步骤6.1，对于增广集中的每个语句，表示为语句sentence(w)，代表第w个语句，对应的标签为lable_T_w，其为分词形式的语句，设语句sentence(w)共有x个分词组成，分别表示为：分词word(w1)，分词word(w2),…,分词word(wx)；

步骤6.2，令v＝1；

步骤6.3，在分词word(w1)，分词word(w2),…,分词word(wx)中，删除分词word(wv)后，得到x-1个分词；

步骤6.4，将步骤6.3得到的x-1个分词形成新语句，并输入到训练后的分类模型中，训练后的分类模型输出新语句属于标签lable_T_w的概率pro(wv)；概率pro(wv)含义为：与分词word(wv)和标签lable_T_w对应的概率；

步骤6.5，然后令v＝v+1；判断v是否大于x，如果大于，则执行步骤6.6；如果不大于，则返回执行步骤6.3；

步骤6.6，由此得到x个概率，分别为pro(w1),pro(w2),…,pro(wx)；预定义概率阈值；因此，x个概率中，低于概率阈值的概率所对应的分词，为对标签lable_T_w影响最关键的锚点词；

步骤7，对于增广集中的每条语句，在定位到语句中的锚点词后，确定锚点词的近义词，然后，采用近义词替换语句中的锚点词，形成新语句，由此实现对增广集中语句的扩充，最终形成新的增广集；

步骤8，将步骤7得到的新的增广集中的语句增加到训练数据集中，得到新的训练数据集；然后，判断是否达到循环终止条件，如果没有达到，则返回步骤2，由此不断对分类模型进行训练，直到达到循环终止条件时，执行步骤9；

步骤9，由此得到最终训练后的分类模型；采用所述最终训练后的分类模型，对需要分类的语句进行分类，识别到其所对应的标签。

优选的，步骤1.1中，对每条语句进行预处理，具体包括：对每条语句进行数据清洗以及去除停用词。

优选的，步骤2中，所述分类模型采用LSTM分类模型。

优选的，所述分类模型对语句所对应的标签进行预测，步骤如下：

1)分词形式的语句由多个分词组成；将多个分词转化为词向量；然后，使用所述词向量作为所述分类模型的输入；

2)所述分类模型将输入词向量经过非线性变换和组合映射为同维度的输出向量；

3)所述分类模型对输出向量进行最大池化处理，得到与本次输入对应的特征向量；

4)使用全连接神经网络和ReLu激活函数将特征向量映射为属于每个标签的得分；

5)使用softmax函数将每个标签的得分转换为概率值，由此得到本次输入语句属于各种标签的概率值；

6)在本次输入语句属于各种标签的概率值中，挑选出最大概率值，即为最终输出的与本次输入语句对应的标签。

优选的，步骤5中，标签lable_T_i的不均匀度U_i通过以下方式得到：

1)训练数据集中共有M条语句，每个语句对应一个标签，因此，共有M个标签；而标签的种类共r种，分别为标签lable_T₁，标签lable_T₂,…,标签lable_T_r；

2)统计得到属于标签lable_T₁的语句数量为number(1)；属于标签lable_T₂的语句数量为number(2)；依此类推，属于标签lable_T_r的语句数量为number(r)；

令number(总)＝number(1)+number(2)+...+number(r)；

计算得到：

标签lable_T₁的比例C(1)＝number(1)/number(总)

标签lable_T₂的比例C(2)＝number(2)/number(总)

依此类推

标签lable_T_r的比例C(r)＝number(r)/number(总)

3)计算得到比例C(1),比例C(2),…,比例C(r)的方差DX；

4)采用下式计算标签lable_T_i的不均匀度U_i：

U_i＝C(i)/DX

其中，i＝1,2,...,r。

优选的，步骤7中，通过以下方式确定锚点词的近义词：

使用计算距离的算法，计算词向量空间中和锚点词向量最接近的若干个向量作为锚点词对应的近义词；或者，直接用近义词词典确定锚点词的近义词。

优选的，步骤8中，循环终止条件为：

当达到预定的循环次数时，即认为达到循环终止条件；或者，当计算得到的标签lable_T_i的识别率F1_lable_T_i已连续三轮没有提升时，即认为达到循环终止条件。

本发明提供的基于锚点词定位和训练语句增广的语句分类方法具有以下优点：

本发明提供的基于锚点词定位和训练语句增广的语句分类方法，在每轮对分类模型进行训练时，根据当前训练数据集的标签分布情况以及当前分类模型对标签分类性能的实际情况，针对性的选择薄弱的标签所对应的训练语句，并加入到增广集中；然后，对增广集中语句进行增广时，针对性的定位对本身标签影响最大的锚点词，然后对锚点词进行近义词替换，实现训练语句的最终增广。因此，在每次循环时，均可针对性的提高分类模型对分类效果差的标签的分类性能，从而提高对分类模型的训练效率，可以快速准确的得到满足分类性能要求的分类模型，进而保证最终语句分类效果。

附图说明

图1为本发明提供的基于锚点词定位和训练语句增广的语句分类方法的流程示意图。

具体实施方式

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

语句分类的主要过程为：首先采用训练数据集对分类模型进行训练，然后再使用训练好的分类模型对待分类的语句进行分类。因此，在语句分类时，如何对分类模型进行有效快速的训练，进而保证分类模型的分类性能，是关键步骤。现有技术中，在采用训练数据集对分类模型进行不断循环训练过程中，每次循环时，随机从训练数据集中挑选一些语句，然后对挑选出的语句进行增广，从而不断扩大训练数据集的训练数据数量，进而不断对分类模型进行训练。此种方式存在以下问题：采用随机方式挑选语句，并对训练数据集进行增广的方式，由于挑选到的训练数据集中的语句的概率相等，因此，只能对语句进行等概率的增广，由此增广得到的训练数据集并不是针对分类模型对某个标签分类性能弱的方面进行的增广操作，所以，对分类模型性能的提高效果有限，具有分类模型训练效率低的问题，难以快速准确的得到满足分类性能要求的分类模型。

为了提升分类模型分类的准确率，提升训练数据集的数量和质量是一种直接的方式。本发明提出一种基于锚点词定位和训练语句增广的语句分类方法，在对分类模型进行的每次循环训练过程时，均能够定位到当前分类模型分类效果弱的标签，然后定位到影响该标签的训练语句的锚点词，再基于锚点词对训练语句进行增广，由此针对性的对训练语句进行增广，能够提高对分类模型的训练效率，并且，能够快速准确的得到满足分类性能要求的分类模型。

参考图1，本发明提供一种基于锚点词定位和训练语句增广的语句分类方法，包括以下步骤：

步骤1，获得训练数据集和测试数据集，包括：

其中，对每条语句进行预处理，具体包括：对每条语句进行数据清洗以及去除停用词。

例如，从语料库中获得多条电子病例数据，标签种类包括疾病标签、年龄标签和治疗方法标签。

第一条电子病例数据为：临床确诊肝硬化合并食管胃底静脉曲张破裂出血患者，进行分词处理后，由以下分词构成：临床；确诊；肝硬化；合并；食管；胃底；静脉曲张；破裂；出血；患者；其标注的标签为：疾病标签；

第二条电子病例数据为：预期全身麻醉下给予非去极化肌松药，进行分词处理后，由以下分词构成：预期；全身；麻醉；下；给予；非；去；极化肌松；药；其标注的标签为：治疗方法标签；

第三条电子病例数据为：年龄小于65岁，进行分词处理后，由以下分词构成：年龄；小于；65；岁；其标注的标签为：年龄标签。

实际应用中，分类模型可以采用LSTM分类模型。

本轮对分类模型进行训练后，得到训练后的分类模型。为方便后续理解，介绍分类模型对语句所对应的标签进行预测的方式，步骤如下：

例如：假设输入语句：年龄小于65岁；共有三类标签，分别为疾病标签、年龄标签和治疗方法标签；则得到本次输入语句属于疾病标签的概率值为1.5％；本次输入语句属于年龄标签的概率值为90％；得到本次输入语句属于治疗方法标签的概率值为8.5％；因此，属于年龄标签的概率值最大，最终得到本次输入语句对应的标签为年龄标签。

其中：

TP_i代表对标签lable_T_i预测正确的数量；

FP_i代表将其他类标签预测为本类标签lable_T_i的数量；

FN_i代表错将本类标签lable_T_i预测为其他类标签的数量；

步骤3.3，采用下式计算标签lable_T_i的识别率F1_lable_T_i：

步骤3.4，采用下式计算分类模型总识别率F1_total的值：

步骤3和步骤4的步骤，举例如下：

1)仍然假设一共有三类标签；假设测试数据集一共有1000条语句，因此，经训练后的分类模型分类后，每条语句均输出一个对应的标签，由此共得到1000个预测标签。通过对1000个预测标签进行分析，例如，在1000个预测标签中，有300个疾病标签、500个年龄标签和200个治疗方法标签；然后，对于300个疾病标签，通过与已知的每条语句的实际标签进行对比，可知，一共有260个疾病标签预测正确，即TP_i为260；一共有40个疾病标签预测错误，实际应该为年龄标签或治疗方法标签，即FP_i为40；而在得到的500个年龄标签中，有10个年龄标签预测错误，实际应该为疾病标签，即FN_i为10。因此，根据准确率P_i和召回率R_i的公式，可计算得到疾病标签的准确率和召回率；同样，可分别计算得到年龄标签的准确率和召回率，治疗方法标签的准确率和召回率。

最终，对各个标签的准确率和召回率进行计算，得到每个标签对应的识别率F1_lable_T_i。

假设年龄标签的识别率为89％；疾病标签的识别率为69％；治疗方法标签的识别率为78％；可计算得到分类模型总识别率F1_total为：78.66％。

2)假设预定义识别率比例阈值为1，因此，从三种标签中，挑选出识别率最低的一个标签，即疾病标签；表明对于当前分类模型，其对疾病标签的识别效率最差。因此，从测试数据集中挑选出所有与疾病标签对应的语句，并加入到增广集中。

而当标签种类较多时，例如，一共有30种标签，则可以预定义识别率比例阈值为3，因此，挑选出识别率最低的三种标签，再从测试数据集中挑选出所有与这三种标签对应的语句，并加入到增广集中。

因此，预定义识别率比例阈值的具体设置值，可根据标签种类数量灵活调整，本发明对此并不限制。

本步骤中，标签lable_T_i的不均匀度U_i通过以下方式得到：

令number(总)＝number(1)+number(2)+...+number(r)；

计算得到：

标签lable_T₁的比例C(1)＝number(1)/number(总)

标签lable_T₂的比例C(2)＝number(2)/number(总)

依此类推

标签lable_T_r的比例C(r)＝number(r)/number(总)

3)计算得到比例C(1),比例C(2),…,比例C(r)的方差DX；

4)采用下式计算标签lable_T_i的不均匀度U_i：

U_i＝C(i)/DX

其中，i＝1,2,...,r。

本步骤可举例如下：

1)仍然假设一共有三类标签；假设测试数据集一共有1000条语句，因此，对1000条语句进行分析，分别得到年龄标签的不均匀度、疾病标签的不均匀度和治疗方法标签的不均匀度。

其中，以年龄标签为例，采用以下方法得到其不均匀度：

假设1000条语句中，属于年龄标签的语句数量为300条；属于疾病标签的语句数量为500条；属于治疗方法标签的语句数量为200条；因此，年龄标签的比例为：300/1000＝30％；疾病标签的比例为：50％；治疗方法标签的比例为：20％；

经计算，方差DX＝0.015；

因此，可以得到年龄标签的不均匀度为：20；疾病标签的不均匀度为：33.3；治疗方法标签的不均匀度为：13.3；

2)假设不均匀度阈值定义为15。由此可以看出，在训练数据集中，只有治疗方法标签的不均匀度低于预定义不均匀度阈值，表明训练数据集中治疗方法标签的占比过低，会影响分类模型对治疗方法标签的训练和分类精度。因此，本发明将训练数据集中所有的治疗方法标签对应的语句，均加入到增广集中。

步骤6.2，令v＝1；

本步骤举例如下：

增广集中的语句：年龄小于65岁，由以下四个分词构成：年龄；小于；65；岁；其标注的标签为：年龄标签。

因此，在四个分词中，首先删除第1个分词“年龄”，得到新语句“小于；65；岁”，输入到分类模型后，输出新语句属于年龄标签的概率为：10％；

然后，在四个分词中，删除第2个分词“小于”，得到新语句“年龄；65；岁”，输入到分类模型后，输出新语句属于年龄标签的概率为：92％；

然后，在四个分词中，删除第3个分词“65”，得到新语句“年龄；小于；岁”，输入到分类模型后，输出新语句属于年龄标签的概率为：91％；

然后，在四个分词中，删除第4个分词“岁”，得到新语句“年龄；小于；65”，输入到分类模型后，输出新语句属于年龄标签的概率为：90％；

由此可见，共得到4个概率值，而当删除分词“年龄”时，概率下降的最多，说明分词“年龄”是对年龄标签影响最关键的锚点词。

实际应用中，通过以下方式确定锚点词的近义词：

例如，增广集中的语句：年龄小于65岁，由以下四个分词构成：年龄；小于；65；岁；其标注的标签为：年龄标签。经分析，锚点词为“年龄”。获得“年龄”的近义词为“年纪”“岁数”，由此可生成新语句为：年纪小于65岁，以及，岁数小于65岁。

实际应用中，循环终止条件为：当达到预定的循环次数时，即认为达到循环终止条件；或者，当计算得到的标签lable_T_i的识别率F1_lable_T_i已连续三轮没有提升时，即认为达到循环终止条件。

本发明提供的基于锚点词定位和训练语句增广的语句分类方法，具有以下特点：

(1)在每轮采用训练数据集对分类模型进行训练时，一方面，对训练数据集进行分析，挑选出训练数据集中不均匀度较低的标签，如标签Z，表明当前的训练数据集的标签分布不均匀，会直接影响分类模型对标签Z分类的训练效果，因此，针对性的将不均匀度较低的标签Z所对应的语句加入到增广集中，以针对性的改进分类模型对标签Z的分类性能；

另一方面，针对本轮分类模型对各种标签的识别率，挑选出识别率较差的标签，例如标签A，因此，为针对性的提高分类模型对标签A的分类性能，本发明针对性的将训练数据集中标签A所对应的语句加入到增广集中。

因此，本发明中，加入到增广集中的语句并非随机挑选，而是针对性的从训练数据集中挑选得到，从而可以提高分类模型对分类效果差的标签的分类性能，进而全面提高分类模型的分类性能；

(2)在对增广集中的每条语句进行数据增广扩充时，本发明中，针对每条语句，首先定位到语句中对其自身标签影响程度最大的分词，即定位到锚点词，然后再采用近义词替换锚点词，形成新语句，实现语句扩充，由此扩充得到的语句，其对应的标签种类不变，采用扩充后的语句加入到训练数据集中对分类模型进行训练时，更为有针对性的改善分类模型对该种类标签的分类性能。

也就是说，对于增广集中的每条语句，并非采用随机的方式对语句中的某个分词进行替换，而是有针对性的进行分词替换，从而可有针对性的改善分类模型对该种类标签的分类性能。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种基于锚点词定位和训练语句增广的语句分类方法，其特征在于，包括以下步骤：

步骤1，获得训练数据集和测试数据集，包括：

其中：

TP_i代表对标签lable_T_i预测正确的数量；

FP_i代表将其他类标签预测为本类标签lable_T_i的数量；

FN_i代表错将本类标签lable_T_i预测为其他类标签的数量；

步骤3.3，采用下式计算标签lable_T_i的识别率F1_lable_T_i：

步骤3.4，采用下式计算分类模型总识别率F1_total的值：

步骤6.2，令v＝1；

2.根据权利要求1所述的基于锚点词定位和训练语句增广的语句分类方法，其特征在于，步骤1.1中，对每条语句进行预处理，具体包括：对每条语句进行数据清洗以及去除停用词。

3.根据权利要求1所述的基于锚点词定位和训练语句增广的语句分类方法，其特征在于，步骤2中，所述分类模型采用LSTM分类模型。

4.根据权利要求2所述的基于锚点词定位和训练语句增广的语句分类方法，其特征在于，所述分类模型对语句所对应的标签进行预测，步骤如下：

5.根据权利要求1所述的基于锚点词定位和训练语句增广的语句分类方法，其特征在于，步骤5中，标签lable_T_i的不均匀度U_i通过以下方式得到：

令number(总)＝number(1)+number(2)+...+number(r)；

计算得到：

标签lable_T₁的比例C(1)＝number(1)/number(总)

标签lable_T₂的比例C(2)＝number(2)/number(总)

依此类推

标签lable_T_r的比例C(r)＝number(r)/number(总)

3)计算得到比例C(1),比例C(2),…,比例C(r)的方差DX；

4)采用下式计算标签lable_T_i的不均匀度U_i：

U_i＝C(i)/DX

其中，i＝1,2,...,r。

6.根据权利要求1所述的基于锚点词定位和训练语句增广的语句分类方法，其特征在于，步骤7中，通过以下方式确定锚点词的近义词：

7.根据权利要求1所述的基于锚点词定位和训练语句增广的语句分类方法，其特征在于，步骤8中，循环终止条件为：