CN115905547B - 基于置信学习的航空领域文本分类方法 - Google Patents
基于置信学习的航空领域文本分类方法 Download PDFInfo
- Publication number
- CN115905547B CN115905547B CN202310095343.XA CN202310095343A CN115905547B CN 115905547 B CN115905547 B CN 115905547B CN 202310095343 A CN202310095343 A CN 202310095343A CN 115905547 B CN115905547 B CN 115905547B
- Authority
- CN
- China
- Prior art keywords
- text
- representing
- data
- model
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000012549 training Methods 0.000 claims abstract description 63
- 238000005070 sampling Methods 0.000 claims abstract description 32
- 238000004140 cleaning Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 94
- 230000014509 gene expression Effects 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 17
- 238000010606 normalization Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 238000013138 pruning Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000012512 characterization method Methods 0.000 claims description 4
- 244000141353 Prunus domestica Species 0.000 claims description 3
- 239000003550 marker Substances 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 19
- 238000001914 filtration Methods 0.000 abstract description 14
- 238000005516 engineering process Methods 0.000 abstract description 12
- 238000009825 accumulation Methods 0.000 abstract description 6
- 238000012937 correction Methods 0.000 abstract description 5
- 239000010410 layer Substances 0.000 description 18
- 238000010586 diagram Methods 0.000 description 11
- 239000002356 single layer Substances 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 240000000037 Prosopis spicigera Species 0.000 description 1
- 235000006629 Prosopis spicigera Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及一种基于置信学习的航空领域文本分类方法,其包括以下步骤,步骤1:基于Bert模型进行文本编码与概率预测;步骤2:基于分布估计实现文本噪音数据识别;步骤3:基于样本采样实现带噪音的文本数据清洗;步骤4:基于联合学习的模型重训练,实现文本分类。本发明通过置信学习技术实现了基于分布估计的带噪音文本数据识别方法,能够有效估计文本噪音数据的真实标签,发现并清洗噪音数据,进行文本数据过滤。本发明使用联合学习技术取样损失小的样本来进行学习,再通过两个模型互相更新对方的权重以达到互相纠错效果,以此进行文本数据的深层过滤。本发明通过两次过滤,减少训练模型的错误积累,提升模型的预测效果,增加文本分类的准确度。
Description
技术领域
本申请涉及航空产品文本分类领域,具体地涉及一种基于置信学习的航空领域文本分类方法。
背景技术
在数据处理技术领域,伴随信息的爆炸式增长,人工标注数据已经变得耗时,且易受标注人主观意识影响而难以保证质量。因此,利用机器实现自动化对文本标注越来越有现实意义,这就需要用到文本分类技术。该技术将重复且枯燥的文本分类任务交由计算机依托一定分类体系进行处理,能够得到具有一致性、质量维持高水平的标注数据,以克服以上问题。该技术的应用亦非常广泛,有如垃圾邮件过滤、新闻分类、微博情感分析、意图识别等任务。
当前研究方法采用模型预测方法来提供文本分类标签。在模型训练过程中,模型分类效果之优高度依赖于干净且大量的、人工标注的正例样本和负例样本。实验中假设数据集即干净的,而实际应用场景下,由于人工标注数据质量难以保证,其中必然存在噪声数据,进而在训练过程中给模型提供一定的错误信息积累,模型效果亦倾向折损。
由此对人工标注数据引入评价体系——置信学习,即一种新兴的、具有原则性的框架,其以标签错误表征噪声数据并得到较干净的数据来训练模型,以此作为带噪学习的一种解决方案。
本发明将置信学习应用于航空领域文本分类任务中,通过置信度的计算发现训练集中的噪音数据,并提供三种过滤机制,选其一过滤出干净数据,以整体提升模型训练后的分类效果。本发明针对过滤后的干净数据,采用联合学习的方法进行带噪学习,进一步降低干净数据内可能还存在的错误数据的影响,以再进一步提升模型训练后的分类效果。
发明内容
为了克服现有技术的不足,本发明通过置信学习技术实现了基于分布估计的带噪音文本数据识别方法,能够有效估计文本噪音数据的真实标签,发现并清洗文本噪音数据,进行文本数据过滤;使用联合学习技术取样损失小的样本来进行学习,再通过两个模型互相更新对方的权重以达到互相纠错效果,以此进行文本数据的深层过滤;通过两次过滤,减少了文本数据训练模型的错误积累,提升了模型的预测效果,进一步增加文本分类的准确性。
为实现上述目的,本发明所采用的解决方案为:
一种基于置信学习的航空领域文本分类方法,其包括以下步骤:
步骤1:基于Bert模型进行文本编码与概率预测;
使用Bert预训练模型进行文本数据编码,获得在编码阶段预测的标签值,然后使用一层激活函数进行归一化处理,转换成0至1之间的概率值,并确定每条文本数据基于每个类别的概率为:
式中:表示词块x基于各类别的预测概率;softmax表示归一化函数;FFN(x)表示编码阶段预测的标签值;x表示文本数据的词块样本;
步骤2:基于分布估计实现文本噪音数据识别;
步骤21:对于每个标定类别j,所有样本在该类别j下的概率均值,乘以百分比系数以作阈值控制,获得置信度,置信阈值tj的表达式为:
式中:tj表示需要计算的置信阈值;表示标定类别变量;j表示具体的标定类别;表示标定类别/>的噪声数据;/>表示标定类别/>的噪声数据数量;表示模型预测的样本x基于标定类别/>的概率;θ表示模型参数;X表示整个句子在文本编码表示之后的矩阵;
步骤22:计算置信联合计数矩阵用于评估在真实标签y*=j条件下误标成的数据子集,并将原数据集分割成了多个数据子集桶/>获得置信联合计数矩阵的表达式,具体为:
式中:表示在真实标签y*=j条件下误标成/>的置信联合计数;i表示标定类别/>j表示估计真实标签类别y*=j;/>表示置信联合计数矩阵;/>表示在真实标签y*=j条件下误标成/>的数据子集,且对于该数据子集的每个样本/>的模型预测概率/>均需达到置信阈值tj;
步骤23:通过联合置信估计真实标签y*=j与错误标签的联合分布/>通过下式求得:
式中:表示置信学习所需求得的真实标签y*=j与错误标签/>的联合分布;/>表示标定后的置信联合计数矩阵;m表示标签类别总数;
使用噪音矩阵表征真实标签y*=j,则标定后计数矩阵及联合分布用于完成带噪音数据清洗提供依据;
步骤3:基于样本采样实现带噪音的文本数据清洗;
每个类别均过滤部分排序上低概率的样本,对每个标记类别都进行评估,每个类别i∈[m]的数量样本进行剪枝,表示为:
式中:num表示计算出来的该人工标记类别的剪枝数量;Sn表示X总样本数量;
对标注类别的数据进行排序,以模型预测概率/>增长排序,然后剪除前部分的num个样本;
将未被剪除的样本组成新的数据集D;
步骤4:基于联合学习的模型重训练,实现文本分类;
通过使用两个未经训练的Bert模型并使用数据集D互相参照对方进行学习,参照的方式为将损失小的样本交由对方模型学习,具体为:
两个未经训练的Bert模型称为模型f、g,表示为f(y;x,θf)、g(y;x,θg),其中x为输入文本,y为输出类别,θf、θg分别表示模型f、g的参数;在对模型f、g分别训练的基础上,对于两个模型互相参照对方重新调整模型参数表达式如下所示:
式中:θf、θg分别表示模型f、g的参数;η表示开始时设定的学习率;Loss表示损失函数;分别表示模型f、g经过计算后选择出来的损失小的样本;
当T=Tmax时完成联合学习训练,输出模型的参数;
选择模型f(y;x,θf)进行文本分类预测,使用模型f(y;x,θf)执行步骤1,得到需预测文本x基于各个类别的概率,概率最大者为所述文本x所对应的类别y。
可优选的是,所述步骤1中的使用Bert预训练模型进行文本数据编码,具体为:
使用Bert的base级别模型,对于给定的一个中文句子,分成多个词块后表示为向量如下所示;
S=[c1,c2,…,ca,…,cn];
式中:S表示中文句子的向量形式;ca表示文本中的第a个字符;a表示文本中的字符编号,a∈(1,2,…,n);n表示文本中的字符总数;
首先是目标词嵌入,通过上述分词器将每个词块映射成分词器内置词汇表内的编号使预训练模型能够以计算机的方式理解该词块;然后是段嵌入,由于模型处理文本之长度有限,使用该种嵌入以区分文本每一段内容,文本多在预处理已经切分成合适模型处理的长度而无需模型切分,每个词块的段嵌入值均为EA=0;最后是位置嵌入,提供词块的位置信息给预训练模型,后续模型自注意力依次计算得到词块的上下文信息,该嵌入值为词块的索引,即/>
将上述三者嵌入进行叠加,得到文本在此处的句子编码,公式如下所示:
式中:Xa表示句子中第a个词块的文本编码嵌入信息;表示第a个词块目标的词嵌入;EA表示该句子的段嵌入;/>表示第a个词块的位置嵌入;
Bert模型在进行下一句预测之前,需要使用文本编码进行训练,自注意力输入句子编码X后,首先将X乘上WQ、WK、WV权值矩阵得到Q、K、V,权值矩阵为预训练模型自注意力头本身所有,表达式如下所示:
式中:Q表示Query矩阵;K表示Key矩阵;V表示Value矩阵;WQ表示用以计算Query矩阵的权值矩阵;WK表示用以计算Key矩阵的权值矩阵;WV表示用以计算Value矩阵的权值矩阵;XT表示句子编码X之转置矩阵;
计算Q、K矩阵相乘以得到一个分数,然后除以分数维度之均方根、再使用激活函数softmax得到概率值,最后概率值再与V矩阵相乘,得到自注意力的输出,表达式如下所示:
式中:Attention(Q,K,V)表示自注意力计算得分;dK表示K矩阵的维度;KT表示Key矩阵转置;softmax表示激活函数用于分数归一化处理;
通过上式计算一个自注意力头的(Q,K,V),由于每层的自注意力头数量为h=8个,将多个自注意力的结果合并,再经过一个全连接层降维输出,得到多头注意力值,合并公式如下:
式中:head表示单个自注意力头,headb表示第b个自注意力头,b的取值范围为[1,h];MultiHead(Q,K,V)表示多个自注意力头合并之后的自注意力值;WO表示多个自注意力头的权值矩阵;表示第b个自注意力头的权值矩阵分别与XT相乘得到Q、K、V矩阵的过程;Concat表示合并函数;
得到合并后的多头自注意力值矩阵MultiHead(Q,K,V)后与初始输入句子编码X进行捆绑,在全连接层降维后得到进入前馈神经网络的输入x,通过该网络来对训练输入文本来进行拟合,计算出的权值将留在该层用于下次训练拟合或预测结果,具体为:
FFN(x)=max(0,xW1+b1)W2+b2;
式中:FFN(x)表示编码阶段预测的标签值;x表示多头自注意力与句子编码捆绑后经过降维后得到的输入;W1,b1分别表示对x初步拟合得到的权重W1及偏移量b1;W2,b2分别表示初步拟合后选出最合适的权重W1及偏移量b1再次对该整体进行拟合而得到的权重W2及偏移量b2;max表示取最大值函数。
可优选的是,所述步骤21中具体的标定类别j的获取方法如下所示:
估计样本x真实标签y*=j为在符合阈值的l个类别的概率中的最大概率,则真实标签的表达式如下所示:
式中:y*表示估计真实标签变量;argmax表示对后续概率选择最大者;表示该公式内出现的标定类别/>均需达到置信阈值tj;l表示基于样本x估计的多个符合置信阈值的真实标签y*=j的数量;[l]表示多个真实标签的列表。
可优选的是,所述步骤22中置信联合计数矩阵的获取方法如下所示:
为使计数总和与标记的样本总数相同,避免同标签碰撞,需要标定计数矩阵;标记标签 的样本总个数为/>则表达式如下所示:
式中:表示在真实标签y*=j条件下误标成/>的置信联合计数;/>即/>表示未经标定的置信联合计数矩阵;/>表示标记标签/>的样本总个数。
可优选的是,所述步骤23中使用噪音矩阵表征真实标签y*=j,具体为:
对于估计出来的真实标签y*=j,则使用噪音矩阵作为噪音表征,如下所示:
式中:表示置信学习所需求得的真实标签y*=j与错误标签/>的联合分布;/>表示经过置信学习计算后的估计真实标签y*=j的噪音分数。
可优选的是,所述步骤4中的使用两个未经训练的Bert模型使用数据集D互相参照对方进行学习,具体为:
对于数据清洗后所得仍有错误的数据集D,给定两个模型f、g,同时指定模型的学习率η、固定最大取样比率τ、训练轮数Tk及Tmax、每轮训练内两个模型互相提供小批数据的迭代次数Nmax;在每轮训练T≤Tmax的每次迭代N≤Nmax内:先从数据集D内随机取样得到小批数据并将该小批数据提供给两个模型进行计算取样,具体计算模型如下所示:
式中:argmin表示取样后面值比较小的样本;R(T)表示从小批数据中选择损失小的样本数量之于小批数据数量的百分比,初始情况R(T)=τ;D'表示选择样本的变量;表示数据集内的数据数量;
训练轮数为T时,经过多次迭代互相提供小批数据使得N=Nmax后,需要重新更新取样率用以训练轮数为T+1时的采样依据,表达式如下:
式中:R(T)表示取样率;T表示当前训练轮次;Tk表示达到理想结果所至少需要的轮次;τ表示固定最大取样比率;
经过训练使得T=Tmax及每次训练轮次T内多次迭代互相提供小批数据使得N=Nmax后,输出模型的权重,由此得到的期望模型。
与现有技术相比,本发明的有益效果在于:
(1)本发明通过置信学习技术实现了基于分布估计的带噪音文本数据识别方法,能够有效估计文本噪音数据的真实标签,发现并清洗文本噪音数据,进行文本数据过滤;
(2)本发明使用联合学习技术取样损失小的样本来进行学习,再通过两个模型互相更新对方的权重以达到互相纠错效果,以此进行文本数据的深层过滤;
(3)本发明通过两次过滤,减少了文本数据训练模型的错误积累,提升了模型的预测效果,进一步增加文本分类的准确性。
附图说明
图1为本发明实施例基于置信学习的航空领域文本分类方法的控制框图;
图2为本发明实施例分类方法的主流程图;
图3为本发明实施例Bert模型架构图;
图4为本发明实施例文本编码示意图;
图5为本发明实施例输入文本经过单层Transformer Encoder运算图;
图6为本发明实施例输入文本经过多层Transformer Encoder运算图;
图7为本发明实施例Co-Teaching示意图。
具体实施方式
以下,参照附图对本发明的实施方式进行说明。
本发明实施例通过实际的例子,验证了基于置信学习技术实现分布估计的带噪音文本数据识别,能够有效估计文本噪音数据的真实标签,进行文本数据过滤;使用联合学习技术取样损失小的样本来进行学习,再通过两个模型互相更新对方的权重以达到互相纠错效果,以此进行文本数据的深层过滤,减少了文本数据训练模型的错误积累,提升了模型的预测效果,进一步增加文本分类的精度,通过数据计算结果的对比分析证明本方法能够满足实际需求,应用效果较好。如图1所示为本发明实施例基于置信学习的航空领域文本分类方法的控制框图。
本发明实施例提供了一种基于置信学习的航空领域文本分类方法,如图2所示为本发明实施例分类方法的主流程图。为了证明本发明的适用性,将其应用于实例,具体包含如下步骤:
S1:基于Bert模型进行文本编码与概率预测;
使用Bert预训练模型进行文本数据编码,如图3所示为本发明实施例Bert模型架构图。本发明实施例使用Bert的base级别模型,内存在12层Transformer Encoders、每层具有12个Attention heads,模型总计1.1亿参数,以此保证文本分类任务学习与预测的精度。
对于给定的一个中文句子,分成多个词块后表示为向量如下所示;
S=[c1,c2,…,ca,…,cn];
式中:S表示中文句子的向量形式;ca表示文本中的第a个字符;a表示文本中的字符编号,a∈(1,2,…,n);n表示文本中的字符总数。
假设原始文本为“今天天气真好”,则有分词后词块S=[[CLS],今,天,天,气,真,好,[SEP]]。首先目标词嵌入,通过上述分词器将每个词块映射成分词器内置词汇表内的编号 上述原始文本能转写成每个词块的目标词嵌入:[101,658,384,384,509,368,489,102]。然后是段嵌入,由于模型处理文本之长度有限,使用该种嵌入以区分文本每一段内容,实际上文本多在预处理已经切分成合适模型处理的长度而无需模型切分,因此每个词块的段嵌入值均为EA=0;上述原始文本能转写成每个词块的目标词嵌入:[0,0,0,0,0,0,0,0]。最后是位置嵌入,提供词块的位置信息给预训练模型,后续模型自注意力依次计算得到词块的上下文信息,该嵌入值通常为词块的索引,即/>上述原始文本能转写成每个词块的目标词嵌入:[0,1,2,3,4,5,6,7]。
将上述三者嵌入进行叠加,得到文本在此处的句子编码,公式如下所示:
式中:Xa表示句子中第a个词块的文本编码嵌入信息;表示第a个词块目标的词嵌入;EA表示该句子的段嵌入;/>表示第a个词块的位置嵌入。
如图4所示为本发明实施例文本编码图。该图表示了上述目标词嵌入、段嵌入、位置嵌入相加得到每个词块的表征的过程。
Bert模型在进行下一句预测之前,需要使用文本编码进行训练,自注意力输入句子编码X后,首先将X乘上WQ、WK、WV权值矩阵得到Q、K、V,权值矩阵为预训练模型自注意力头本身所有,表达式如下所示:
式中:Q表示Query矩阵;K表示Key矩阵;V表示Value矩阵;WQ表示用以计算Query矩阵的权值矩阵;WK表示用以计算Key矩阵的权值矩阵;WV表示用以计算Value矩阵的权值矩阵;XT表示句子编码X之转置矩阵。
计算Q、K矩阵相乘以得到一个分数,然后除以分数维度之均方根、再使用激活函数softmax得到概率值,最后概率值再与V矩阵相乘,得到自注意力的输出,表达式如下所示:
式中:Attention(Q,K,V)表示自注意力计算得分;dK表示K矩阵的维度;KT表示Key矩阵转置;softmax表示激活函数用于分数归一化处理。
通过上式计算一个自注意力头的(Q,K,V),由于每层的自注意力头数量为h=8个,将多个自注意力的结果合并,再经过一个全连接层降维输出,得到多头注意力值,合并公式如下:
式中:head表示单个自注意力头,headb表示第b个自注意力头,b的取值范围为[1,h];MultiHead(Q,K,V)表示多个自注意力头合并之后的自注意力值;WO表示多个自注意力头的权值矩阵;表示第b个自注意力头的权值矩阵分别与XT相乘得到Q、K、V矩阵的过程;Concat表示合并函数。
得到合并后的多头自注意力值矩阵MultiHead(Q,K,V)后与初始输入句子编码X进行捆绑,在全连接层降维后得到进入前馈神经网络的输入x,通过该网络来对训练输入文本来进行拟合,计算出的权值将留在该层用于下次训练拟合或预测结果,该部分的公式如下所示:
FFN(x)=max(0,xW1+b1)W2+b2;
式中:FFN(x)表示编码阶段预测的标签值;x表示多头自注意力与句子编码捆绑后经过降维后得到的输入;W1,b1分别表示对x初步拟合得到的权重W1及偏移量b1;W2,b2分别表示初步拟合后选出最合适的权重W1及偏移量b1再次对该整体进行拟合而得到的权重W2及偏移量b2;max表示取最大值函数。
获得在编码阶段预测的标签值,如图4所示为本发明实施例文本编码示意图;然后使用一层激活函数进行归一化处理,转换成0至1之间的概率值,最后确定每条文本数据基于每个类别的概率,如下所示:
式中:表示词块x基于各类别的预测概率;softmax表示归一化函数;FFN(x)表示编码阶段预测的标签值;x表示文本数据的词块样本。
最终能够得到每句文本对应N个类别的概率。假设模型已经学习到部分类别,那么模型内存在标签列表为[weather,news,travel],对于上述例子S=[[CLS],今,天,天,气,真,好,[SEP]],在经过该概率值预测步骤后,有结果其中第一个0.6则对应该文在在weather类别的可能性为0.6,此时该文本有最大可能性为weather类别。
如图5所示为本发明实施例输入文本经过单层Transformer Encoder运算图;该图表示了预训练模型多层编码器里单层的结构,其表明了单层由文本输入表征、多头自注意力计算、归一化、线性转换步骤而输出自注意力值。
如图6所示为本发明实施例输入文本经过多层Transformer Encoder运算图;该图表示了预训练模型多层编码器,以上一层的输出作为该层的输入,并进行单层的计算过程,最后得到该层输出,该过程持续至最后一层输出结果为止。
S2:基于分布估计实现文本噪音数据识别;
S21:对于每个标定类别j,所有样本在该类别j下的概率均值,乘以百分比系数以作阈值控制,获得置信度,置信阈值tj的表达式如下所示:
式中:tj表示需要计算的置信阈值;表示标定类别变量;j表示具体的标定类别;表示标定类别/>的噪声数据;/>表示标定类别/>的噪声数据数量;表示模型预测的样本x基于标定类别/>的概率;θ表示模型参数;X表示整个句子在文本编码表示之后的矩阵。
假设存在标定类别[weather,news,travel]共计3个,噪音数据文本共计100条,先由S1步骤得到每一条文本在各类别的预测概率 那么对每个类别能够计算其置信阈值:tj=weather=(0.6+0.1+0.7+…)÷100×100%,tj=news=(0.2+0.3+0.2+…)÷100×100%,tj=travel=(0.2+0.6+0.1+…)÷100×100%。此处暂不更改百分比系数,并假设三者的值最后计算得到0.5、0.25、0.35。
估计样本x真实标签y*=j为在符合阈值的l个类别的概率中的最大概率,则真实标签的表达式如下所示:
式中:y*表示估计真实标签变量;argmax表示对后续概率选择最大者;表示该公式内出现的标定类别/>均需达到置信阈值tj;l表示基于样本x估计的多个符合置信阈值的真实标签y*=j的数量;[l]表示多个真实标签的列表。
对于上述举例第一条文本“今天天气真好”,有以下过程:与置信阈值[0.5,0.25,0.35]进行比较,能够看出第一个类别0.6>0.5、其它两个类别均小于阈值,则对于样本x1有该条文本的估计真实标签j=argmax[weather:0.6]=weather,该条数据则计入下述计数矩阵/>中的真实标签y*=j=weather条件下标定标签的数量中。
S22:计算置信联合计数矩阵用于评估在真实标签y*=j条件下误标成/>的数据子集,并将原数据集分割成了多个数据子集桶/>因此有置信联合计数矩阵的表达式,如下所示:
式中:表示在真实标签y*=j条件下误标成/>的置信联合计数;i表示标定类别/>j表示估计真实标签类别y*=j;/>表示置信联合计数矩阵;/>表示在真实标签y*=j条件下误标成/>的数据子集,且对于该数据子集的每个样本/>的模型预测概率/>均需达到置信阈值tj。
经过上述对每个样本x估计真实标签的步骤后,将其归入计数矩阵内不同的数据子集桶内,能够得到下列计数表格作为该假设数据集下的计数矩阵,如表1所示:
表1假设数据集下的计数矩阵
为使计数总和与标记的样本总数相同,避免同标签碰撞,需要标定计数矩阵;标记标签 的样本总个数为/>则表达式如下所示:
式中:表示在真实标签y*=j条件下误标成/>的置信联合计数;/>即/>表示未经标定的置信联合计数矩阵;/>表示标记标签/>的样本总个数。
S23:通过联合置信估计真实标签y*=j与错误标签的联合分布/>通过下式求得:
式中:表示置信学习所需求得的真实标签y*=j与错误标签/>的联合分布;/>表示标定后的置信联合计数矩阵;m表示标签类别总数。
计数矩阵经过上述归一化标定后,能够得到如下联合分布使其总概率为1:
表2联合分布计算结果
使用噪音矩阵表征真实标签y*=j,则标定后计数矩阵及联合分布用于完成带噪音数据清洗提供依据。
对于估计出来的真实标签y*=j,则使用噪音矩阵作为噪音表征,如下所示:
式中:表示置信学习所需求得的真实标签y*=j与错误标签/>的联合分布;/>表示经过置信学习计算后的估计真实标签y*=j的噪音分数。
由上述联合分布表格能够进行以下计算:即经过置信学习计算后的估计真实标签y*=weather的噪音分数为0.12。
S3:基于样本采样实现带噪音的文本数据清洗;
每个类别均过滤部分排序上低概率的样本,对每个标记类别都进行评估,每个类别i∈[m的数量样本进行剪枝,如下所示:
式中:num表示计算出来的该人工标记类别的剪枝数量;Sn表示X总样本数量;
对标注类别的数据进行排序,以模型预测概率/>增长排序,然后剪除前部分的num个样本。
对于上述举例样本,Sn=100,对于估计真实标签y*=weather有剪除数量的计算如下:条/>的数据,其它类别类推。
将未被剪除的样本组成新的数据集D。数据集D是数据清洗后的文本集,但由于是否正确是根据每个样本x估计真实标签得到,因此数据集D中的文本在步骤S1中的分类和实际相比仍然可能存在错误。本实施例中,数据集D具体为只包含有表1中分类正确的文本。
S4:基于联合学习的模型重训练,实现文本分类;
本发明实施例使用联合学习框架进行对带噪音数据的重新训练,联合学习基本假设了带噪音数据损失函数值比优质数据的大,于是它并行地训练了两个神经网络f和g,在每一个批次训练的过程中,每一个神经网络把它认为损失比较小的样本,送给相邻的网络来拟合参数,以此不断迭代进行联合训练。训练过程如图7所示为本发明实施例Co-Teaching示意图。
通过使用两个未经训练的Bert模型使用数据集D互相参照对方进行学习,两个Bert模型分别简称为模型f和模型g,具体表示为f(y;x,θf)、g(y;x,θg),其中x为输入文本,y为输出类别,θf、θg分别表示模型f、g的参数;对于数据清洗后所得仍有错误的数据集D,给定模型f和模型g,同时指定两模型的学习率η、固定最大取样比率τ、训练轮数Tk及Tmax、每轮训练内两个模型互相提供小批数据的迭代次数Nmax;在每轮训练T≤Tmax的每次迭代N≤Nmax内:先从数据集D内随机取样得到小批数据并将该小批数据提供给两个模型进行计算取样,具体计算模型如下所示:
式中:argmin表示取样后面值比较小的样本;R(T)表示从小批数据中选择损失小的样本数量之于小批数据数量的百分比,初始情况R(T)=τ;D'表示选择样本的变量;表示数据集内的数据数量。
训练轮数为T时,经过多次迭代互相提供小批数据使得N=Nmax后,需要重新更新取样率用以训练轮数为T+1时的采样依据,表达式如下:
式中:R(T)表示取样率;T表示当前训练轮次;Tk表示达到理想结果所至少需要的轮次;τ表示固定最大取样比率。
经过训练使得T=Tmax及每次训练轮次T内多次迭代互相提供小批数据使得N=Nmax后,输出模型的权重,由此得到的模型能保持较高的预测效果及泛化能力。
两个未经训练的Bert模型简称为模型f、g,表示为f(y;x,θf)、g(y;x,θg),其中x为输入文本,y为输出类别,θf、θg分别表示模型f、g的参数;在对模型f、g分别训练的基础上,对于两个模型互相参照对方重新调整模型参数表达式如下所示:
式中:θf、θg分别表示模型f、g的参数;η表示开始时设定的学习率;Loss表示损失函数;分别表示模型f、g经过计算后选择出来的损失较小的样本。/>
经过训练使得T=Tmax后,输出模型的参数;
联合学习完成后,选择模型f(y;x,θf),进行文本分类预测;此时使用模型f进行S1中过程,计算得到需预测文本x基于各个类别的概率,概率最大者即为该文本x所对应的类别y。在联合学习完成后,模型f、g文本分类能力相似,实际上能够任选其中一个模型进行航空领域文本分类模型。在经过置信学习、联合学习的双重过滤下能保持较高的预测效果及泛化能力。
如图7所示为本发明实施例两个模型进行联合学习的过程图,该图表述了一个模型在训练完成后会将训练出来的参数与数据集交给另外一个模型训练的多次过程。
经过实验,对于未使用该种方法的情况,其基准为:噪音标签量占比分别达到20%、40%、70%时,其测试集的预测准确率分别对应为0.784、0.602、0.27。在使用联合学习方法后,同等测试集的预测准确率提升到了0.812、0.629、0.305,平均能提升百分之二至三个点;在此基础上再增加使用置信学习方法剪枝后,同等测试集的预测准确率提升到了0.911、0.867、0.324,呈现出噪音标签占比在接近四成左右时能较为有效地实施噪音过滤的特点。
综上,本案例基于置信学习的航空领域文本分类方法的预测结果证明了具有很好的效果。
(1)本发明实施例通过置信学习技术实现了基于分布估计的带噪音文本数据识别方法,能够有效估计文本噪音数据的真实标签,发现并清洗文本噪音数据,进行文本数据过滤。
(2)本发明实施例使用联合学习技术取样损失小的样本来进行学习,再通过两个模型互相更新对方的权重以达到互相纠错效果,以此进行文本数据的深层过滤,通过实施例中的分析能够证明本方法的应用效果较好。
(3)本发明实施例通过两次过滤,减少了文本数据训练模型的错误积累,提升了模型的预测效果,进一步增加文本分类的精度,通过数据计算结果的对比分析证明本方法能够满足实际需求。
以上所述的实施例仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (6)
1.一种基于置信学习的航空领域文本分类方法,其特征在于,其包括以下步骤:
步骤1:基于Bert模型进行文本编码与概率预测;
使用Bert预训练模型进行文本数据编码,获得在编码阶段预测的标签值,然后使用一层激活函数进行归一化处理,转换成0至1之间的概率值,并确定每条文本数据基于每个类别的概率为:
式中:表示词块x基于各类别的预测概率;softmax表示归一化函数;FFN(x)表示编码阶段预测的标签值;x表示文本数据的词块样本;
步骤2:基于分布估计实现文本噪音数据识别;
步骤21:对于每个标定类别j,所有样本在该类别j下的概率均值,乘以百分比系数以作阈值控制,获得置信度,置信阈值tj的表达式为:
式中:tj表示需要计算的置信阈值;表示标定类别变量;j表示具体的标定类别;/>表示标定类别/>的噪声数据;/>表示标定类别/>的噪声数据数量;/>表示模型预测的样本x基于标定类别/>的概率;θ表示模型参数;X表示整个句子在文本编码表示之后的矩阵;
步骤22:计算置信联合计数矩阵用于评估在真实标签y*=j条件下误标成/>的数据子集,并将原数据集分割成了多个数据子集桶/>获得置信联合计数矩阵的表达式,具体为:
式中:表示在真实标签y*=j条件下误标成/>的置信联合计数;i表示标定类别/>j表示估计真实标签类别y*=j;/>表示置信联合计数矩阵;/>表示在真实标签y*=j条件下误标成/>的数据子集,且对于该数据子集的每个样本/>的模型预测概率/>均需达到置信阈值tj;
步骤23:通过联合置信估计真实标签y*=j与错误标签的联合分布/>通过下式求得:
式中:表示置信学习所需求得的真实标签y*=j与错误标签/>的联合分布;表示标定后的置信联合计数矩阵;m表示标签类别总数;
使用噪音矩阵表征真实标签y*=j,则标定后计数矩阵及联合分布用于完成带噪音数据清洗提供依据;
步骤3:基于样本采样实现带噪音的文本数据清洗;
每个类别均过滤部分排序上低概率的样本,对每个标记类别都进行评估,每个类别i∈[m]的数量样本进行剪枝,表示为:
式中:num表示计算出来的该人工标记类别的剪枝数量;Sn表示X总样本数量;
对标注类别的数据进行排序,以模型预测概率/>增长排序,然后剪除前部分的num个样本;
将未被剪除的样本组成新的数据集D;
步骤4:基于联合学习的模型重训练,实现文本分类;
通过使用两个未经训练的Bert模型并使用数据集D互相参照对方进行学习,参照的方式为将损失小的样本交由对方模型学习,具体为:
两个未经训练的Bert模型称为模型f、g,表示为f(y;x,θf)、g(y;x,θg),其中x为输入文本,y为输出类别,θf、θg分别表示模型f、g的参数;在对模型f、g分别训练的基础上,对于两个模型互相参照对方重新调整模型参数表达式如下所示:
式中:θf、θg分别表示模型f、g的参数;η表示开始时设定的学习率;Loss表示损失函数;分别表示模型f、g经过计算后选择出来的损失小的样本;
当T=Tmax时完成联合学习训练,输出模型的参数;
选择模型f(y;x,θf)进行文本分类预测,使用模型f(y;x,θf)执行步骤1,得到需预测文本x基于各个类别的概率,概率最大者为所述文本x所对应的类别y。
2.根据权利要求1所述的基于置信学习的航空领域文本分类方法,其特征在于,所述步骤1中的使用Bert预训练模型进行文本数据编码,具体为:
使用Bert的base级别模型,对于给定的一个中文句子,分成多个词块后表示为向量如下所示;
S=[c1,c2,…,ca,…,cn];
式中:S表示中文句子的向量形式;ca表示文本中的第a个字符;a表示文本中的字符编号,a∈(1,2,…,n);n表示文本中的字符总数;
首先是目标词嵌入,通过上述分词器将每个词块映射成分词器内置词汇表内的编号使预训练模型能够以计算机的方式理解该词块;然后是段嵌入,由于模型处理文本之长度有限,使用该种嵌入以区分文本每一段内容,文本多在预处理已经切分成合适模型处理的长度而无需模型切分,每个词块的段嵌入值均为EA=0;最后是位置嵌入,提供词块的位置信息给预训练模型,后续模型自注意力依次计算得到词块的上下文信息,该嵌入值为词块的索引,即/>
将上述三者嵌入进行叠加,得到文本在此处的句子编码,公式如下所示:
式中:Xa表示句子中第a个词块的文本编码嵌入信息;表示第a个词块目标的词嵌入;EA表示该句子的段嵌入;/>表示第a个词块的位置嵌入;
Bert模型在进行下一句预测之前,需要使用文本编码进行训练,自注意力输入句子编码X后,首先将X乘上WQ、WK、WV权值矩阵得到Q、K、V,权值矩阵为预训练模型自注意力头本身所有,表达式如下所示:
式中:Q表示Query矩阵;K表示Key矩阵;V表示Value矩阵;WQ表示用以计算Query矩阵的权值矩阵;WK表示用以计算Key矩阵的权值矩阵;WV表示用以计算Value矩阵的权值矩阵;XT表示句子编码X之转置矩阵;
计算Q、K矩阵相乘以得到一个分数,然后除以分数维度之均方根、再使用激活函数softmax得到概率值,最后概率值再与V矩阵相乘,得到自注意力的输出,表达式如下所示:
式中:Attention(Q,K,V)表示自注意力计算得分;dK表示K矩阵的维度;KT表示Key矩阵转置;softmax表示激活函数用于分数归一化处理;
通过上式计算一个自注意力头的(Q,K,V),由于每层的自注意力头数量为h=8个,将多个自注意力的结果合并,再经过一个全连接层降维输出,得到多头注意力值,合并公式如下:
式中:head表示单个自注意力头,headb表示第b个自注意力头,b的取值范围为[1,h];MultiHead(Q,K,V)表示多个自注意力头合并之后的自注意力值;WO表示多个自注意力头的权值矩阵;表示第b个自注意力头的权值矩阵分别与XT相乘得到Q、K、V矩阵的过程;Concat表示合并函数;
得到合并后的多头自注意力值矩阵MultiHead(Q,K,V)后与初始输入句子编码X进行捆绑,在全连接层降维后得到进入前馈神经网络的输入x,通过该网络来对训练输入文本来进行拟合,计算出的权值将留在该层用于下次训练拟合或预测结果,具体为:
FFN(x)=max(0,xW1+b1)W2+b2;
式中:FFN(x)表示编码阶段预测的标签值;x表示多头自注意力与句子编码捆绑后经过降维后得到的输入;W1,b1分别表示对x初步拟合得到的权重W1及偏移量b1;W2,b2分别表示初步拟合后选出最合适的权重W1及偏移量b1再次对该整体进行拟合而得到的权重W2及偏移量b2;max表示取最大值函数。
3.根据权利要求1所述的基于置信学习的航空领域文本分类方法,其特征在于,所述步骤21中具体的标定类别j的获取方法如下所示:
估计样本x真实标签y*=j为在符合阈值的l个类别的概率中的最大概率,则真实标签的表达式如下所示:
式中:y*表示估计真实标签变量;argmax表示对后续概率选择最大者;表示该公式内出现的标定类别/>均需达到置信阈值tj;l表示基于样本x估计的多个符合置信阈值的真实标签y*=j的数量;[l]表示多个真实标签的列表。
4.根据权利要求1所述的基于置信学习的航空领域文本分类方法,其特征在于,所述步骤22中置信联合计数矩阵的获取方法如下所示:
为使计数总和与标记的样本总数相同,避免同标签碰撞,需要标定计数矩阵;标记标签 的样本总个数为/>则表达式如下所示:
式中:表示在真实标签y*=j条件下误标成/>的置信联合计数;/>即表示未经标定的置信联合计数矩阵;/>表示标记标签/>的样本总个数。
5.根据权利要求1所述的基于置信学习的航空领域文本分类方法,其特征在于,所述步骤23中使用噪音矩阵表征真实标签y*=j,具体为:
对于估计出来的真实标签y*=j,则使用噪音矩阵作为噪音表征,如下所示:
式中:表示置信学习所需求得的真实标签y*=j与错误标签/>的联合分布;表示经过置信学习计算后的估计真实标签y*=j的噪音分数。
6.根据权利要求1所述的基于置信学习的航空领域文本分类方法,其特征在于,所述步骤4中的使用两个未经训练的Bert模型使用数据集D互相参照对方进行学习,具体为:
对于数据清洗后所得仍有错误的数据集D,给定两个模型f、g,同时指定模型的学习率η、固定最大取样比率τ、训练轮数Tk及Tmax、每轮训练内两个模型互相提供小批数据的迭代次数Nmax;在每轮训练T≤Tmax的每次迭代N≤Nmax内:先从数据集D内随机取样得到小批数据并将该小批数据提供给两个模型进行计算取样,具体计算模型如下所示:
式中:argmin表示取样后面值比较小的样本;R(T)表示从小批数据中选择损失小的样本数量之于小批数据数量的百分比,初始情况R(T)=τ;D'表示选择样本的变量;表示数据集内的数据数量;
训练轮数为T时,经过多次迭代互相提供小批数据使得N=Nmax后,需要重新更新取样率用以训练轮数为T+1时的采样依据,表达式如下:
式中:R(T)表示取样率;T表示当前训练轮次;Tk表示达到理想结果所至少需要的轮次;τ表示固定最大取样比率;
经过训练使得T=Tmax及每次训练轮次T内多次迭代互相提供小批数据使得N=Nmax后,输出模型的权重,由此得到的期望模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310095343.XA CN115905547B (zh) | 2023-02-10 | 2023-02-10 | 基于置信学习的航空领域文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310095343.XA CN115905547B (zh) | 2023-02-10 | 2023-02-10 | 基于置信学习的航空领域文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115905547A CN115905547A (zh) | 2023-04-04 |
CN115905547B true CN115905547B (zh) | 2023-11-14 |
Family
ID=86493524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310095343.XA Active CN115905547B (zh) | 2023-02-10 | 2023-02-10 | 基于置信学习的航空领域文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115905547B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111274398A (zh) * | 2020-01-20 | 2020-06-12 | 福州大学 | 一种方面级用户产品评论情感分析方法及系统 |
CN114036292A (zh) * | 2021-10-29 | 2022-02-11 | 华东师范大学 | 一种基于深度学习的多标签文本分类场景下的噪声标签检测方法及系统 |
CN114117056A (zh) * | 2022-01-29 | 2022-03-01 | 腾讯科技(深圳)有限公司 | 一种训练数据的处理方法、装置以及存储介质 |
CN114676255A (zh) * | 2022-03-29 | 2022-06-28 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、设备、存储介质及计算机程序产品 |
CN114896371A (zh) * | 2022-05-27 | 2022-08-12 | 鼎富智能科技有限公司 | 一种自然语言处理模型的训练方法和装置 |
CN115687626A (zh) * | 2022-11-18 | 2023-02-03 | 浙江工业大学 | 一种基于提示学习融合关键词的法律文书分类方法 |
CN116578705A (zh) * | 2023-05-16 | 2023-08-11 | 重庆电子工程职业学院 | 基于预训练语言模型与集成神经网络的微博情感分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130097103A1 (en) * | 2011-10-14 | 2013-04-18 | International Business Machines Corporation | Techniques for Generating Balanced and Class-Independent Training Data From Unlabeled Data Set |
-
2023
- 2023-02-10 CN CN202310095343.XA patent/CN115905547B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111274398A (zh) * | 2020-01-20 | 2020-06-12 | 福州大学 | 一种方面级用户产品评论情感分析方法及系统 |
CN114036292A (zh) * | 2021-10-29 | 2022-02-11 | 华东师范大学 | 一种基于深度学习的多标签文本分类场景下的噪声标签检测方法及系统 |
CN114117056A (zh) * | 2022-01-29 | 2022-03-01 | 腾讯科技(深圳)有限公司 | 一种训练数据的处理方法、装置以及存储介质 |
CN114676255A (zh) * | 2022-03-29 | 2022-06-28 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、设备、存储介质及计算机程序产品 |
CN114896371A (zh) * | 2022-05-27 | 2022-08-12 | 鼎富智能科技有限公司 | 一种自然语言处理模型的训练方法和装置 |
CN115687626A (zh) * | 2022-11-18 | 2023-02-03 | 浙江工业大学 | 一种基于提示学习融合关键词的法律文书分类方法 |
CN116578705A (zh) * | 2023-05-16 | 2023-08-11 | 重庆电子工程职业学院 | 基于预训练语言模型与集成神经网络的微博情感分类方法 |
Non-Patent Citations (3)
Title |
---|
CJC-Net: A Cyclical Training Method with Joint Loss and Co-teaching Strategy Net for Deep Learning under Noisy Labels;Qian Zhang等;《Information Sciences》;186-198 * |
Confident Learning: Estimating Uncertainty in Dataset Labels;Northcutt C G等;《arXiv.1911.00068v5》;1-39 * |
基于协同训练的分布式深度协同过滤模型;高浩元等;《应用技术学报》;189-195 * |
Also Published As
Publication number | Publication date |
---|---|
CN115905547A (zh) | 2023-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111967294B (zh) | 一种无监督域自适应的行人重识别方法 | |
CN109284506B (zh) | 一种基于注意力卷积神经网络的用户评论情感分析系统及方法 | |
CN111694924B (zh) | 一种事件抽取方法和系统 | |
CN108399428B (zh) | 一种基于迹比准则的三元组损失函数设计方法 | |
CN110413785A (zh) | 一种基于bert和特征融合的文本自动分类方法 | |
CN110705607B (zh) | 一种基于循环重标注自助法的行业多标签降噪方法 | |
CN110046356B (zh) | 标签嵌入的微博文本情绪多标签分类方法 | |
CN111506835A (zh) | 一种融合用户时间特征和个性特征的数据特征提取方法 | |
CN110472245B (zh) | 一种基于层次化卷积神经网络的多标记情绪强度预测方法 | |
CN114757432A (zh) | 基于流程日志和多任务学习的未来执行活动及时间预测方法及系统 | |
CN110909125A (zh) | 推文级社会媒体谣言检测方法 | |
CN111199149A (zh) | 一种对话系统的语句智能澄清方法及系统 | |
CN113947262A (zh) | 基于异构图学习融合学习参与状态的知识追踪方法 | |
CN115732034A (zh) | 一种空间转录组细胞表达模式的识别方法及系统 | |
CN116245110A (zh) | 基于图注意力网络的多维度信息融合用户立场检测方法 | |
CN112182257A (zh) | 一种基于神经网络的人工智能数据清洗方法 | |
CN115271063A (zh) | 基于特征原型投影的类间相似性知识蒸馏方法与模型 | |
CN114841151A (zh) | 基于分解-重组策略的医学文本实体关系联合抽取方法 | |
CN112949097B (zh) | 一种基于深度迁移学习的轴承剩余寿命预测模型和方法 | |
CN115905547B (zh) | 基于置信学习的航空领域文本分类方法 | |
CN117093849A (zh) | 一种基于自动生成模型的数字矩阵特征分析方法 | |
CN116779177A (zh) | 一种基于去偏见混合标签学习的内分泌疾病分类方法 | |
CN114925197B (zh) | 基于主题注意力的深度学习文本分类模型训练方法 | |
CN115828100A (zh) | 基于深度神经网络的手机辐射源频谱图类别增量学习方法 | |
CN114860952A (zh) | 一种基于数据统计和知识指导的图拓扑学习方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |