CN111563165A - 一种基于锚点词定位和训练语句增广的语句分类方法 - Google Patents
一种基于锚点词定位和训练语句增广的语句分类方法 Download PDFInfo
- Publication number
- CN111563165A CN111563165A CN202010392159.8A CN202010392159A CN111563165A CN 111563165 A CN111563165 A CN 111563165A CN 202010392159 A CN202010392159 A CN 202010392159A CN 111563165 A CN111563165 A CN 111563165A
- Authority
- CN
- China
- Prior art keywords
- label
- sentence
- sentences
- word
- classification model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于锚点词定位和训练语句增广的语句分类方法,包括:从训练数据集中挑选出所有与识别率最差标签对应的语句,再将挑选出的语句加入到增广集中;在训练数据集中,得到标签lable_Tmin对应的所有语句,并将得到的语句加入到增广集中;定位到对标签种类影响最关键的锚点词,采用近义词替换语句中的锚点词,形成新语句,并加入到训练数据集中;采用新的训练数据集对分类模型进行训练。优点:在每次循环时,均可针对性的提高分类模型对分类效果差的标签的分类性能,从而提高对分类模型的训练效率,可以快速准确的得到满足分类性能要求的分类模型,进而保证最终语句分类效果。
Description
技术领域
本发明属于语句分类技术领域,具体涉及一种基于锚点词定位和训练语句增广的语句分类方法。
背景技术
互联网上存在大量的文本数据,正确识别和利用好这些文本数据,将对人们的生产生活产生良好的指导和推动作用。文本分类是通过算法识别出文本类型,然后对识别出的文本进行标记的技术,目前主要应用于情感分析,垃圾邮件分类,实体识别等。常用的方法有基于规则和基于机器学习两种方法。
随着人工智能技术的发展和互联网中不断增长的语句量,越来越要求快速准确的对语句进行分类。因此,如何对语句分类方法进行改进,进而提高语句分类效率,是目前急需解决的事情。
发明内容
针对现有技术存在的缺陷,本发明提供一种基于锚点词定位和训练语句增广的语句分类方法,可有效解决上述问题。
本发明采用的技术方案如下:
本发明提供一种基于锚点词定位和训练语句增广的语句分类方法,包括以下步骤:
步骤1,获得训练数据集和测试数据集,包括:
步骤1.1,从语料库中获取多条语句,对每条语句进行预处理后,对预处理后的每条语句进行分词处理,得到分词形式的语句;
步骤1.2,对每条分词形式的语句的标签进行标注,使每条分词形式的语句均被标注一条标签;其中,标签代表语句类型;
步骤1.3,对于已标注的多条语句,选择M条语句形成训练数据集;选取N条语句形成测试数据集;
步骤2,构建分类模型,使用训练数据集训练所述分类模型,得到训练后的分类模型;
步骤3,使用所述测试数据集测试所述训练后的分类模型的性能,得到每种标签的识别率F1_lable_Ti的值,以及分类模型总识别率F1_total的值;具体包括:
步骤3.1,测试数据集中共有M条已标注的语句,因此,每条语句对应的实际标签已知;设实际标签的种类为r种,分别为标签lable_T1,标签lable_T2,…,标签lable_Tr;
步骤3.2,将测试数据集中每条语句输入所述训练后的分类模型,经所述训练后的分类模型进行分类预测后,输出每条语句的预测标签,由于共有M条已标注的语句,因此,分类模型一共输出M个预测标签;
对分类模型输出的M个预测标签进行统计分析,采用下式,计算得到每种标签的准确率和召回率:
对于r种标签中的任意标签lable_Ti,i=1,2,…,r,采用下式计算准确率Pi和召回率Ri:
其中:
TPi代表对标签lable_Ti预测正确的数量;
FPi代表将其他类标签预测为本类标签lable_Ti的数量;
FNi代表错将本类标签lable_Ti预测为其他类标签的数量;
步骤3.3,采用下式计算标签lable_Ti的识别率F1_lable_Ti:
步骤3.4,采用下式计算分类模型总识别率F1_total的值:
步骤4,将各个标签的识别率F1_lable_Ti进行排序,预定义识别率比例阈值,根据识别率比例阈值,挑选到识别率最差的至少一种标签;然后,从训练数据集中挑选出所有与识别率最差标签对应的语句,再将挑选出的语句加入到增广集中;
步骤5,对训练数据集中每种标签对应的语句数量进行分析,得到每种标签的不均匀度,将标签lable_Ti的不均匀度表示为Ui;预定义不均匀度阈值;判断是否存在小于不均匀度阈值的Ui;如果存在,将小于不均匀度阈值的标签记为标签lable_Tmin;然后,在训练数据集中,得到标签lable_Tmin对应的所有语句,并将得到的语句加入到增广集中;
步骤6,根据增广集中的语句以及训练后的分类模型,定位到对标签种类影响最关键的锚点词,具体的,对于增广集中的每条语句,均通过以下步骤定位到语句的锚点词:
步骤6.1,对于增广集中的每个语句,表示为语句sentence(w),代表第w个语句,对应的标签为lable_Tw,其为分词形式的语句,设语句sentence(w)共有x个分词组成,分别表示为:分词word(w1),分词word(w2),…,分词word(wx);
步骤6.2,令v=1;
步骤6.3,在分词word(w1),分词word(w2),…,分词word(wx)中,删除分词word(wv)后,得到x-1个分词;
步骤6.4,将步骤6.3得到的x-1个分词形成新语句,并输入到训练后的分类模型中,训练后的分类模型输出新语句属于标签lable_Tw的概率pro(wv);概率pro(wv)含义为:与分词word(wv)和标签lable_Tw对应的概率;
步骤6.5,然后令v=v+1;判断v是否大于x,如果大于,则执行步骤6.6;如果不大于,则返回执行步骤6.3;
步骤6.6,由此得到x个概率,分别为pro(w1),pro(w2),…,pro(wx);预定义概率阈值;因此,x个概率中,低于概率阈值的概率所对应的分词,为对标签lable_Tw影响最关键的锚点词;
步骤7,对于增广集中的每条语句,在定位到语句中的锚点词后,确定锚点词的近义词,然后,采用近义词替换语句中的锚点词,形成新语句,由此实现对增广集中语句的扩充,最终形成新的增广集;
步骤8,将步骤7得到的新的增广集中的语句增加到训练数据集中,得到新的训练数据集;然后,判断是否达到循环终止条件,如果没有达到,则返回步骤2,由此不断对分类模型进行训练,直到达到循环终止条件时,执行步骤9;
步骤9,由此得到最终训练后的分类模型;采用所述最终训练后的分类模型,对需要分类的语句进行分类,识别到其所对应的标签。
优选的,步骤1.1中,对每条语句进行预处理,具体包括:对每条语句进行数据清洗以及去除停用词。
优选的,步骤2中,所述分类模型采用LSTM分类模型。
优选的,所述分类模型对语句所对应的标签进行预测,步骤如下:
1)分词形式的语句由多个分词组成;将多个分词转化为词向量;然后,使用所述词向量作为所述分类模型的输入;
2)所述分类模型将输入词向量经过非线性变换和组合映射为同维度的输出向量;
3)所述分类模型对输出向量进行最大池化处理,得到与本次输入对应的特征向量;
4)使用全连接神经网络和ReLu激活函数将特征向量映射为属于每个标签的得分;
5)使用softmax函数将每个标签的得分转换为概率值,由此得到本次输入语句属于各种标签的概率值;
6)在本次输入语句属于各种标签的概率值中,挑选出最大概率值,即为最终输出的与本次输入语句对应的标签。
优选的,步骤5中,标签lable_Ti的不均匀度Ui通过以下方式得到:
1)训练数据集中共有M条语句,每个语句对应一个标签,因此,共有M个标签;而标签的种类共r种,分别为标签lable_T1,标签lable_T2,…,标签lable_Tr;
2)统计得到属于标签lable_T1的语句数量为number(1);属于标签lable_T2的语句数量为number(2);依此类推,属于标签lable_Tr的语句数量为number(r);
令number(总)=number(1)+number(2)+...+number(r);
计算得到:
标签lable_T1的比例C(1)=number(1)/number(总)
标签lable_T2的比例C(2)=number(2)/number(总)
依此类推
标签lable_Tr的比例C(r)=number(r)/number(总)
3)计算得到比例C(1),比例C(2),…,比例C(r)的方差DX;
4)采用下式计算标签lable_Ti的不均匀度Ui:
Ui=C(i)/DX
其中,i=1,2,...,r。
优选的,步骤7中,通过以下方式确定锚点词的近义词:
使用计算距离的算法,计算词向量空间中和锚点词向量最接近的若干个向量作为锚点词对应的近义词;或者,直接用近义词词典确定锚点词的近义词。
优选的,步骤8中,循环终止条件为:
当达到预定的循环次数时,即认为达到循环终止条件;或者,当计算得到的标签lable_Ti的识别率F1_lable_Ti已连续三轮没有提升时,即认为达到循环终止条件。
本发明提供的基于锚点词定位和训练语句增广的语句分类方法具有以下优点:
本发明提供的基于锚点词定位和训练语句增广的语句分类方法,在每轮对分类模型进行训练时,根据当前训练数据集的标签分布情况以及当前分类模型对标签分类性能的实际情况,针对性的选择薄弱的标签所对应的训练语句,并加入到增广集中;然后,对增广集中语句进行增广时,针对性的定位对本身标签影响最大的锚点词,然后对锚点词进行近义词替换,实现训练语句的最终增广。因此,在每次循环时,均可针对性的提高分类模型对分类效果差的标签的分类性能,从而提高对分类模型的训练效率,可以快速准确的得到满足分类性能要求的分类模型,进而保证最终语句分类效果。
附图说明
图1为本发明提供的基于锚点词定位和训练语句增广的语句分类方法的流程示意图。
具体实施方式
为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
语句分类的主要过程为:首先采用训练数据集对分类模型进行训练,然后再使用训练好的分类模型对待分类的语句进行分类。因此,在语句分类时,如何对分类模型进行有效快速的训练,进而保证分类模型的分类性能,是关键步骤。现有技术中,在采用训练数据集对分类模型进行不断循环训练过程中,每次循环时,随机从训练数据集中挑选一些语句,然后对挑选出的语句进行增广,从而不断扩大训练数据集的训练数据数量,进而不断对分类模型进行训练。此种方式存在以下问题:采用随机方式挑选语句,并对训练数据集进行增广的方式,由于挑选到的训练数据集中的语句的概率相等,因此,只能对语句进行等概率的增广,由此增广得到的训练数据集并不是针对分类模型对某个标签分类性能弱的方面进行的增广操作,所以,对分类模型性能的提高效果有限,具有分类模型训练效率低的问题,难以快速准确的得到满足分类性能要求的分类模型。
为了提升分类模型分类的准确率,提升训练数据集的数量和质量是一种直接的方式。本发明提出一种基于锚点词定位和训练语句增广的语句分类方法,在对分类模型进行的每次循环训练过程时,均能够定位到当前分类模型分类效果弱的标签,然后定位到影响该标签的训练语句的锚点词,再基于锚点词对训练语句进行增广,由此针对性的对训练语句进行增广,能够提高对分类模型的训练效率,并且,能够快速准确的得到满足分类性能要求的分类模型。
参考图1,本发明提供一种基于锚点词定位和训练语句增广的语句分类方法,包括以下步骤:
步骤1,获得训练数据集和测试数据集,包括:
步骤1.1,从语料库中获取多条语句,对每条语句进行预处理后,对预处理后的每条语句进行分词处理,得到分词形式的语句;
其中,对每条语句进行预处理,具体包括:对每条语句进行数据清洗以及去除停用词。
步骤1.2,对每条分词形式的语句的标签进行标注,使每条分词形式的语句均被标注一条标签;其中,标签代表语句类型;
例如,从语料库中获得多条电子病例数据,标签种类包括疾病标签、年龄标签和治疗方法标签。
第一条电子病例数据为:临床确诊肝硬化合并食管胃底静脉曲张破裂出血患者,进行分词处理后,由以下分词构成:临床;确诊;肝硬化;合并;食管;胃底;静脉曲张;破裂;出血;患者;其标注的标签为:疾病标签;
第二条电子病例数据为:预期全身麻醉下给予非去极化肌松药,进行分词处理后,由以下分词构成:预期;全身;麻醉;下;给予;非;去;极化肌松;药;其标注的标签为:治疗方法标签;
第三条电子病例数据为:年龄小于65岁,进行分词处理后,由以下分词构成:年龄;小于;65;岁;其标注的标签为:年龄标签。
步骤1.3,对于已标注的多条语句,选择M条语句形成训练数据集;选取N条语句形成测试数据集;
步骤2,构建分类模型,使用训练数据集训练所述分类模型,得到训练后的分类模型;
实际应用中,分类模型可以采用LSTM分类模型。
本轮对分类模型进行训练后,得到训练后的分类模型。为方便后续理解,介绍分类模型对语句所对应的标签进行预测的方式,步骤如下:
1)分词形式的语句由多个分词组成;将多个分词转化为词向量;然后,使用所述词向量作为所述分类模型的输入;
2)所述分类模型将输入词向量经过非线性变换和组合映射为同维度的输出向量;
3)所述分类模型对输出向量进行最大池化处理,得到与本次输入对应的特征向量;
4)使用全连接神经网络和ReLu激活函数将特征向量映射为属于每个标签的得分;
5)使用softmax函数将每个标签的得分转换为概率值,由此得到本次输入语句属于各种标签的概率值;
6)在本次输入语句属于各种标签的概率值中,挑选出最大概率值,即为最终输出的与本次输入语句对应的标签。
例如:假设输入语句:年龄小于65岁;共有三类标签,分别为疾病标签、年龄标签和治疗方法标签;则得到本次输入语句属于疾病标签的概率值为1.5%;本次输入语句属于年龄标签的概率值为90%;得到本次输入语句属于治疗方法标签的概率值为8.5%;因此,属于年龄标签的概率值最大,最终得到本次输入语句对应的标签为年龄标签。
步骤3,使用所述测试数据集测试所述训练后的分类模型的性能,得到每种标签的识别率F1_lable_Ti的值,以及分类模型总识别率F1_total的值;具体包括:
步骤3.1,测试数据集中共有M条已标注的语句,因此,每条语句对应的实际标签已知;设实际标签的种类为r种,分别为标签lable_T1,标签lable_T2,…,标签lable_Tr;
步骤3.2,将测试数据集中每条语句输入所述训练后的分类模型,经所述训练后的分类模型进行分类预测后,输出每条语句的预测标签,由于共有M条已标注的语句,因此,分类模型一共输出M个预测标签;
对分类模型输出的M个预测标签进行统计分析,采用下式,计算得到每种标签的准确率和召回率:
对于r种标签中的任意标签lable_Ti,i=1,2,…,r,采用下式计算准确率Pi和召回率Ri:
其中:
TPi代表对标签lable_Ti预测正确的数量;
FPi代表将其他类标签预测为本类标签lable_Ti的数量;
FNi代表错将本类标签lable_Ti预测为其他类标签的数量;
步骤3.3,采用下式计算标签lable_Ti的识别率F1_lable_Ti:
步骤3.4,采用下式计算分类模型总识别率F1_total的值:
步骤4,将各个标签的识别率F1_lable_Ti进行排序,预定义识别率比例阈值,根据识别率比例阈值,挑选到识别率最差的至少一种标签;然后,从训练数据集中挑选出所有与识别率最差标签对应的语句,再将挑选出的语句加入到增广集中;
步骤3和步骤4的步骤,举例如下:
1)仍然假设一共有三类标签;假设测试数据集一共有1000条语句,因此,经训练后的分类模型分类后,每条语句均输出一个对应的标签,由此共得到1000个预测标签。通过对1000个预测标签进行分析,例如,在1000个预测标签中,有300个疾病标签、500个年龄标签和200个治疗方法标签;然后,对于300个疾病标签,通过与已知的每条语句的实际标签进行对比,可知,一共有260个疾病标签预测正确,即TPi为260;一共有40个疾病标签预测错误,实际应该为年龄标签或治疗方法标签,即FPi为40;而在得到的500个年龄标签中,有10个年龄标签预测错误,实际应该为疾病标签,即FNi为10。因此,根据准确率Pi和召回率Ri的公式,可计算得到疾病标签的准确率和召回率;同样,可分别计算得到年龄标签的准确率和召回率,治疗方法标签的准确率和召回率。
最终,对各个标签的准确率和召回率进行计算,得到每个标签对应的识别率F1_lable_Ti。
假设年龄标签的识别率为89%;疾病标签的识别率为69%;治疗方法标签的识别率为78%;可计算得到分类模型总识别率F1_total为:78.66%。
2)假设预定义识别率比例阈值为1,因此,从三种标签中,挑选出识别率最低的一个标签,即疾病标签;表明对于当前分类模型,其对疾病标签的识别效率最差。因此,从测试数据集中挑选出所有与疾病标签对应的语句,并加入到增广集中。
而当标签种类较多时,例如,一共有30种标签,则可以预定义识别率比例阈值为3,因此,挑选出识别率最低的三种标签,再从测试数据集中挑选出所有与这三种标签对应的语句,并加入到增广集中。
因此,预定义识别率比例阈值的具体设置值,可根据标签种类数量灵活调整,本发明对此并不限制。
步骤5,对训练数据集中每种标签对应的语句数量进行分析,得到每种标签的不均匀度,将标签lable_Ti的不均匀度表示为Ui;预定义不均匀度阈值;判断是否存在小于不均匀度阈值的Ui;如果存在,将小于不均匀度阈值的标签记为标签lable_Tmin;然后,在训练数据集中,得到标签lable_Tmin对应的所有语句,并将得到的语句加入到增广集中;
本步骤中,标签lable_Ti的不均匀度Ui通过以下方式得到:
1)训练数据集中共有M条语句,每个语句对应一个标签,因此,共有M个标签;而标签的种类共r种,分别为标签lable_T1,标签lable_T2,…,标签lable_Tr;
2)统计得到属于标签lable_T1的语句数量为number(1);属于标签lable_T2的语句数量为number(2);依此类推,属于标签lable_Tr的语句数量为number(r);
令number(总)=number(1)+number(2)+...+number(r);
计算得到:
标签lable_T1的比例C(1)=number(1)/number(总)
标签lable_T2的比例C(2)=number(2)/number(总)
依此类推
标签lable_Tr的比例C(r)=number(r)/number(总)
3)计算得到比例C(1),比例C(2),…,比例C(r)的方差DX;
4)采用下式计算标签lable_Ti的不均匀度Ui:
Ui=C(i)/DX
其中,i=1,2,...,r。
本步骤可举例如下:
1)仍然假设一共有三类标签;假设测试数据集一共有1000条语句,因此,对1000条语句进行分析,分别得到年龄标签的不均匀度、疾病标签的不均匀度和治疗方法标签的不均匀度。
其中,以年龄标签为例,采用以下方法得到其不均匀度:
假设1000条语句中,属于年龄标签的语句数量为300条;属于疾病标签的语句数量为500条;属于治疗方法标签的语句数量为200条;因此,年龄标签的比例为:300/1000=30%;疾病标签的比例为:50%;治疗方法标签的比例为:20%;
经计算,方差DX=0.015;
因此,可以得到年龄标签的不均匀度为:20;疾病标签的不均匀度为:33.3;治疗方法标签的不均匀度为:13.3;
2)假设不均匀度阈值定义为15。由此可以看出,在训练数据集中,只有治疗方法标签的不均匀度低于预定义不均匀度阈值,表明训练数据集中治疗方法标签的占比过低,会影响分类模型对治疗方法标签的训练和分类精度。因此,本发明将训练数据集中所有的治疗方法标签对应的语句,均加入到增广集中。
步骤6,根据增广集中的语句以及训练后的分类模型,定位到对标签种类影响最关键的锚点词,具体的,对于增广集中的每条语句,均通过以下步骤定位到语句的锚点词:
步骤6.1,对于增广集中的每个语句,表示为语句sentence(w),代表第w个语句,对应的标签为lable_Tw,其为分词形式的语句,设语句sentence(w)共有x个分词组成,分别表示为:分词word(w1),分词word(w2),…,分词word(wx);
步骤6.2,令v=1;
步骤6.3,在分词word(w1),分词word(w2),…,分词word(wx)中,删除分词word(wv)后,得到x-1个分词;
步骤6.4,将步骤6.3得到的x-1个分词形成新语句,并输入到训练后的分类模型中,训练后的分类模型输出新语句属于标签lable_Tw的概率pro(wv);概率pro(wv)含义为:与分词word(wv)和标签lable_Tw对应的概率;
步骤6.5,然后令v=v+1;判断v是否大于x,如果大于,则执行步骤6.6;如果不大于,则返回执行步骤6.3;
步骤6.6,由此得到x个概率,分别为pro(w1),pro(w2),…,pro(wx);预定义概率阈值;因此,x个概率中,低于概率阈值的概率所对应的分词,为对标签lable_Tw影响最关键的锚点词;
本步骤举例如下:
增广集中的语句:年龄小于65岁,由以下四个分词构成:年龄;小于;65;岁;其标注的标签为:年龄标签。
因此,在四个分词中,首先删除第1个分词“年龄”,得到新语句“小于;65;岁”,输入到分类模型后,输出新语句属于年龄标签的概率为:10%;
然后,在四个分词中,删除第2个分词“小于”,得到新语句“年龄;65;岁”,输入到分类模型后,输出新语句属于年龄标签的概率为:92%;
然后,在四个分词中,删除第3个分词“65”,得到新语句“年龄;小于;岁”,输入到分类模型后,输出新语句属于年龄标签的概率为:91%;
然后,在四个分词中,删除第4个分词“岁”,得到新语句“年龄;小于;65”,输入到分类模型后,输出新语句属于年龄标签的概率为:90%;
由此可见,共得到4个概率值,而当删除分词“年龄”时,概率下降的最多,说明分词“年龄”是对年龄标签影响最关键的锚点词。
步骤7,对于增广集中的每条语句,在定位到语句中的锚点词后,确定锚点词的近义词,然后,采用近义词替换语句中的锚点词,形成新语句,由此实现对增广集中语句的扩充,最终形成新的增广集;
实际应用中,通过以下方式确定锚点词的近义词:
使用计算距离的算法,计算词向量空间中和锚点词向量最接近的若干个向量作为锚点词对应的近义词;或者,直接用近义词词典确定锚点词的近义词。
例如,增广集中的语句:年龄小于65岁,由以下四个分词构成:年龄;小于;65;岁;其标注的标签为:年龄标签。经分析,锚点词为“年龄”。获得“年龄”的近义词为“年纪”“岁数”,由此可生成新语句为:年纪小于65岁,以及,岁数小于65岁。
步骤8,将步骤7得到的新的增广集中的语句增加到训练数据集中,得到新的训练数据集;然后,判断是否达到循环终止条件,如果没有达到,则返回步骤2,由此不断对分类模型进行训练,直到达到循环终止条件时,执行步骤9;
实际应用中,循环终止条件为:当达到预定的循环次数时,即认为达到循环终止条件;或者,当计算得到的标签lable_Ti的识别率F1_lable_Ti已连续三轮没有提升时,即认为达到循环终止条件。
步骤9,由此得到最终训练后的分类模型;采用所述最终训练后的分类模型,对需要分类的语句进行分类,识别到其所对应的标签。
本发明提供的基于锚点词定位和训练语句增广的语句分类方法,具有以下特点:
(1)在每轮采用训练数据集对分类模型进行训练时,一方面,对训练数据集进行分析,挑选出训练数据集中不均匀度较低的标签,如标签Z,表明当前的训练数据集的标签分布不均匀,会直接影响分类模型对标签Z分类的训练效果,因此,针对性的将不均匀度较低的标签Z所对应的语句加入到增广集中,以针对性的改进分类模型对标签Z的分类性能;
另一方面,针对本轮分类模型对各种标签的识别率,挑选出识别率较差的标签,例如标签A,因此,为针对性的提高分类模型对标签A的分类性能,本发明针对性的将训练数据集中标签A所对应的语句加入到增广集中。
因此,本发明中,加入到增广集中的语句并非随机挑选,而是针对性的从训练数据集中挑选得到,从而可以提高分类模型对分类效果差的标签的分类性能,进而全面提高分类模型的分类性能;
(2)在对增广集中的每条语句进行数据增广扩充时,本发明中,针对每条语句,首先定位到语句中对其自身标签影响程度最大的分词,即定位到锚点词,然后再采用近义词替换锚点词,形成新语句,实现语句扩充,由此扩充得到的语句,其对应的标签种类不变,采用扩充后的语句加入到训练数据集中对分类模型进行训练时,更为有针对性的改善分类模型对该种类标签的分类性能。
也就是说,对于增广集中的每条语句,并非采用随机的方式对语句中的某个分词进行替换,而是有针对性的进行分词替换,从而可有针对性的改善分类模型对该种类标签的分类性能。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
Claims (7)
1.一种基于锚点词定位和训练语句增广的语句分类方法,其特征在于,包括以下步骤:
步骤1,获得训练数据集和测试数据集,包括:
步骤1.1,从语料库中获取多条语句,对每条语句进行预处理后,对预处理后的每条语句进行分词处理,得到分词形式的语句;
步骤1.2,对每条分词形式的语句的标签进行标注,使每条分词形式的语句均被标注一条标签;其中,标签代表语句类型;
步骤1.3,对于已标注的多条语句,选择M条语句形成训练数据集;选取N条语句形成测试数据集;
步骤2,构建分类模型,使用训练数据集训练所述分类模型,得到训练后的分类模型;
步骤3,使用所述测试数据集测试所述训练后的分类模型的性能,得到每种标签的识别率F1_lable_Ti的值,以及分类模型总识别率F1_total的值;具体包括:
步骤3.1,测试数据集中共有M条已标注的语句,因此,每条语句对应的实际标签已知;设实际标签的种类为r种,分别为标签lable_T1,标签lable_T2,…,标签lable_Tr;
步骤3.2,将测试数据集中每条语句输入所述训练后的分类模型,经所述训练后的分类模型进行分类预测后,输出每条语句的预测标签,由于共有M条已标注的语句,因此,分类模型一共输出M个预测标签;
对分类模型输出的M个预测标签进行统计分析,采用下式,计算得到每种标签的准确率和召回率:
对于r种标签中的任意标签lable_Ti,i=1,2,…,r,采用下式计算准确率Pi和召回率Ri:
其中:
TPi代表对标签lable_Ti预测正确的数量;
FPi代表将其他类标签预测为本类标签lable_Ti的数量;
FNi代表错将本类标签lable_Ti预测为其他类标签的数量;
步骤3.3,采用下式计算标签lable_Ti的识别率F1_lable_Ti:
步骤3.4,采用下式计算分类模型总识别率F1_total的值:
步骤4,将各个标签的识别率F1_lable_Ti进行排序,预定义识别率比例阈值,根据识别率比例阈值,挑选到识别率最差的至少一种标签;然后,从训练数据集中挑选出所有与识别率最差标签对应的语句,再将挑选出的语句加入到增广集中;
步骤5,对训练数据集中每种标签对应的语句数量进行分析,得到每种标签的不均匀度,将标签lable_Ti的不均匀度表示为Ui;预定义不均匀度阈值;判断是否存在小于不均匀度阈值的Ui;如果存在,将小于不均匀度阈值的标签记为标签lable_Tmin;然后,在训练数据集中,得到标签lable_Tmin对应的所有语句,并将得到的语句加入到增广集中;
步骤6,根据增广集中的语句以及训练后的分类模型,定位到对标签种类影响最关键的锚点词,具体的,对于增广集中的每条语句,均通过以下步骤定位到语句的锚点词:
步骤6.1,对于增广集中的每个语句,表示为语句sentence(w),代表第w个语句,对应的标签为lable_Tw,其为分词形式的语句,设语句sentence(w)共有x个分词组成,分别表示为:分词word(w1),分词word(w2),…,分词word(wx);
步骤6.2,令v=1;
步骤6.3,在分词word(w1),分词word(w2),…,分词word(wx)中,删除分词word(wv)后,得到x-1个分词;
步骤6.4,将步骤6.3得到的x-1个分词形成新语句,并输入到训练后的分类模型中,训练后的分类模型输出新语句属于标签lable_Tw的概率pro(wv);概率pro(wv)含义为:与分词word(wv)和标签lable_Tw对应的概率;
步骤6.5,然后令v=v+1;判断v是否大于x,如果大于,则执行步骤6.6;如果不大于,则返回执行步骤6.3;
步骤6.6,由此得到x个概率,分别为pro(w1),pro(w2),…,pro(wx);预定义概率阈值;因此,x个概率中,低于概率阈值的概率所对应的分词,为对标签lable_Tw影响最关键的锚点词;
步骤7,对于增广集中的每条语句,在定位到语句中的锚点词后,确定锚点词的近义词,然后,采用近义词替换语句中的锚点词,形成新语句,由此实现对增广集中语句的扩充,最终形成新的增广集;
步骤8,将步骤7得到的新的增广集中的语句增加到训练数据集中,得到新的训练数据集;然后,判断是否达到循环终止条件,如果没有达到,则返回步骤2,由此不断对分类模型进行训练,直到达到循环终止条件时,执行步骤9;
步骤9,由此得到最终训练后的分类模型;采用所述最终训练后的分类模型,对需要分类的语句进行分类,识别到其所对应的标签。
2.根据权利要求1所述的基于锚点词定位和训练语句增广的语句分类方法,其特征在于,步骤1.1中,对每条语句进行预处理,具体包括:对每条语句进行数据清洗以及去除停用词。
3.根据权利要求1所述的基于锚点词定位和训练语句增广的语句分类方法,其特征在于,步骤2中,所述分类模型采用LSTM分类模型。
4.根据权利要求2所述的基于锚点词定位和训练语句增广的语句分类方法,其特征在于,所述分类模型对语句所对应的标签进行预测,步骤如下:
1)分词形式的语句由多个分词组成;将多个分词转化为词向量;然后,使用所述词向量作为所述分类模型的输入;
2)所述分类模型将输入词向量经过非线性变换和组合映射为同维度的输出向量;
3)所述分类模型对输出向量进行最大池化处理,得到与本次输入对应的特征向量;
4)使用全连接神经网络和ReLu激活函数将特征向量映射为属于每个标签的得分;
5)使用softmax函数将每个标签的得分转换为概率值,由此得到本次输入语句属于各种标签的概率值;
6)在本次输入语句属于各种标签的概率值中,挑选出最大概率值,即为最终输出的与本次输入语句对应的标签。
5.根据权利要求1所述的基于锚点词定位和训练语句增广的语句分类方法,其特征在于,步骤5中,标签lable_Ti的不均匀度Ui通过以下方式得到:
1)训练数据集中共有M条语句,每个语句对应一个标签,因此,共有M个标签;而标签的种类共r种,分别为标签lable_T1,标签lable_T2,…,标签lable_Tr;
2)统计得到属于标签lable_T1的语句数量为number(1);属于标签lable_T2的语句数量为number(2);依此类推,属于标签lable_Tr的语句数量为number(r);
令number(总)=number(1)+number(2)+...+number(r);
计算得到:
标签lable_T1的比例C(1)=number(1)/number(总)
标签lable_T2的比例C(2)=number(2)/number(总)
依此类推
标签lable_Tr的比例C(r)=number(r)/number(总)
3)计算得到比例C(1),比例C(2),…,比例C(r)的方差DX;
4)采用下式计算标签lable_Ti的不均匀度Ui:
Ui=C(i)/DX
其中,i=1,2,...,r。
6.根据权利要求1所述的基于锚点词定位和训练语句增广的语句分类方法,其特征在于,步骤7中,通过以下方式确定锚点词的近义词:
使用计算距离的算法,计算词向量空间中和锚点词向量最接近的若干个向量作为锚点词对应的近义词;或者,直接用近义词词典确定锚点词的近义词。
7.根据权利要求1所述的基于锚点词定位和训练语句增广的语句分类方法,其特征在于,步骤8中,循环终止条件为:
当达到预定的循环次数时,即认为达到循环终止条件;或者,当计算得到的标签lable_Ti的识别率F1_lable_Ti已连续三轮没有提升时,即认为达到循环终止条件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010392159.8A CN111563165B (zh) | 2020-05-11 | 2020-05-11 | 一种基于锚点词定位和训练语句增广的语句分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010392159.8A CN111563165B (zh) | 2020-05-11 | 2020-05-11 | 一种基于锚点词定位和训练语句增广的语句分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111563165A true CN111563165A (zh) | 2020-08-21 |
CN111563165B CN111563165B (zh) | 2020-12-18 |
Family
ID=72072090
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010392159.8A Active CN111563165B (zh) | 2020-05-11 | 2020-05-11 | 一种基于锚点词定位和训练语句增广的语句分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111563165B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116051909A (zh) * | 2023-03-06 | 2023-05-02 | 中国科学技术大学 | 一种直推式零次学习的未见类图片分类方法、设备及介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101887523A (zh) * | 2010-06-21 | 2010-11-17 | 南京邮电大学 | 利用图片文字与局部不变特征检测图像垃圾邮件的方法 |
CN105975558A (zh) * | 2016-04-29 | 2016-09-28 | 百度在线网络技术(北京)有限公司 | 建立语句编辑模型的方法、语句自动编辑方法及对应装置 |
CN106897262A (zh) * | 2016-12-09 | 2017-06-27 | 阿里巴巴集团控股有限公司 | 一种文本分类方法和装置以及处理方法和装置 |
CN107292348A (zh) * | 2017-07-10 | 2017-10-24 | 天津理工大学 | 一种Bagging_BSJ短文本分类方法 |
CN108268442A (zh) * | 2017-12-19 | 2018-07-10 | 芋头科技(杭州)有限公司 | 一种语句意图预测方法及系统 |
CN108763201A (zh) * | 2018-05-17 | 2018-11-06 | 南京大学 | 一种基于半监督学习的开放域中文文本命名实体识别方法 |
CN108959305A (zh) * | 2017-05-22 | 2018-12-07 | 北京国信宏数科技有限公司 | 一种基于互联网大数据的事件抽取方法及系统 |
CN109635116A (zh) * | 2018-12-17 | 2019-04-16 | 腾讯科技(深圳)有限公司 | 文本词向量模型的训练方法、电子设备及计算机存储介质 |
CN110276075A (zh) * | 2019-06-21 | 2019-09-24 | 腾讯科技(深圳)有限公司 | 模型训练方法、命名实体识别方法、装置、设备及介质 |
US20190317986A1 (en) * | 2018-04-13 | 2019-10-17 | Preferred Networks, Inc. | Annotated text data expanding method, annotated text data expanding computer-readable storage medium, annotated text data expanding device, and text classification model training method |
CN110457475A (zh) * | 2019-07-25 | 2019-11-15 | 阿里巴巴集团控股有限公司 | 一种用于文本分类体系构建和标注语料扩充的方法和系统 |
CN110458181A (zh) * | 2018-06-07 | 2019-11-15 | 中国矿业大学 | 一种基于宽度随机森林的句法依存模型、训练方法和分析方法 |
CN110704590A (zh) * | 2019-09-27 | 2020-01-17 | 支付宝(杭州)信息技术有限公司 | 扩充训练样本的方法和装置 |
-
2020
- 2020-05-11 CN CN202010392159.8A patent/CN111563165B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101887523A (zh) * | 2010-06-21 | 2010-11-17 | 南京邮电大学 | 利用图片文字与局部不变特征检测图像垃圾邮件的方法 |
CN105975558A (zh) * | 2016-04-29 | 2016-09-28 | 百度在线网络技术(北京)有限公司 | 建立语句编辑模型的方法、语句自动编辑方法及对应装置 |
CN106897262A (zh) * | 2016-12-09 | 2017-06-27 | 阿里巴巴集团控股有限公司 | 一种文本分类方法和装置以及处理方法和装置 |
CN108959305A (zh) * | 2017-05-22 | 2018-12-07 | 北京国信宏数科技有限公司 | 一种基于互联网大数据的事件抽取方法及系统 |
CN107292348A (zh) * | 2017-07-10 | 2017-10-24 | 天津理工大学 | 一种Bagging_BSJ短文本分类方法 |
CN108268442A (zh) * | 2017-12-19 | 2018-07-10 | 芋头科技(杭州)有限公司 | 一种语句意图预测方法及系统 |
US20190317986A1 (en) * | 2018-04-13 | 2019-10-17 | Preferred Networks, Inc. | Annotated text data expanding method, annotated text data expanding computer-readable storage medium, annotated text data expanding device, and text classification model training method |
CN108763201A (zh) * | 2018-05-17 | 2018-11-06 | 南京大学 | 一种基于半监督学习的开放域中文文本命名实体识别方法 |
CN110458181A (zh) * | 2018-06-07 | 2019-11-15 | 中国矿业大学 | 一种基于宽度随机森林的句法依存模型、训练方法和分析方法 |
CN109635116A (zh) * | 2018-12-17 | 2019-04-16 | 腾讯科技(深圳)有限公司 | 文本词向量模型的训练方法、电子设备及计算机存储介质 |
CN110276075A (zh) * | 2019-06-21 | 2019-09-24 | 腾讯科技(深圳)有限公司 | 模型训练方法、命名实体识别方法、装置、设备及介质 |
CN110457475A (zh) * | 2019-07-25 | 2019-11-15 | 阿里巴巴集团控股有限公司 | 一种用于文本分类体系构建和标注语料扩充的方法和系统 |
CN110704590A (zh) * | 2019-09-27 | 2020-01-17 | 支付宝(杭州)信息技术有限公司 | 扩充训练样本的方法和装置 |
Non-Patent Citations (4)
Title |
---|
刘红: "利用扩展锚点文本来分类网页", 《计算机应用研究》 * |
化柏林: "针对学术文献的句子级知识抽取研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
陈思: "中文文本投诉信息自动分类系统研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
陈龙 等: "情感分类研究进展", 《计算机研究与发展》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116051909A (zh) * | 2023-03-06 | 2023-05-02 | 中国科学技术大学 | 一种直推式零次学习的未见类图片分类方法、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111563165B (zh) | 2020-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110032648B (zh) | 一种基于医学领域实体的病历结构化解析方法 | |
WO2021139424A1 (zh) | 文本内涵质量的评估方法、装置、设备及存储介质 | |
CN107168955B (zh) | 利用基于词上下文的字嵌入与神经网络的中文分词方法 | |
CN112256828B (zh) | 医学实体关系抽取方法、装置、计算机设备及可读存储介质 | |
CN112800766B (zh) | 基于主动学习的中文医疗实体识别标注方法及系统 | |
CN113051356B (zh) | 开放关系抽取方法、装置、电子设备及存储介质 | |
US11989518B2 (en) | Normalized processing method and apparatus of named entity, and electronic device | |
CN110096572B (zh) | 一种样本生成方法、装置及计算机可读介质 | |
CN113343703B (zh) | 医学实体的分类提取方法、装置、电子设备及存储介质 | |
Hassaïne et al. | The ICDAR2011 Arabic writer identification contest | |
CN111191456B (zh) | 一种使用序列标注进行识别文本分段的方法 | |
CN113657098B (zh) | 文本纠错方法、装置、设备及存储介质 | |
CN113393916B (zh) | 一种冠脉医疗报告结构关系提取的方法和装置 | |
CN113282713A (zh) | 基于差异性神经表示模型的事件触发词检测方法 | |
CN114970536B (zh) | 一种分词、词性标注和命名实体识别的联合词法分析方法 | |
CN114662477B (zh) | 基于中医对话的停用词表生成方法、装置及存储介质 | |
CN111832306A (zh) | 基于多特征融合的影像诊断报告命名实体识别方法 | |
CN111563165B (zh) | 一种基于锚点词定位和训练语句增广的语句分类方法 | |
US20230342601A1 (en) | Evaluating input data using a deep learning algorithm | |
CN117422074A (zh) | 一种临床信息文本标准化的方法、装置、设备及介质 | |
Berdichevskaia | Atypical lexical abbreviations identification in Russian medical texts | |
CN114328938B (zh) | 一种影像报告结构化提取方法 | |
CN103984756B (zh) | 基于半监督概率潜在语义分析的软件变更日志分类方法 | |
CN114936153A (zh) | 一种人工智能软件的图灵测试方法 | |
CN114372467A (zh) | 命名实体抽取方法及装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |