CN116756624B - 一种面向民航监管事项检查记录处理的文本分类方法 - Google Patents
一种面向民航监管事项检查记录处理的文本分类方法 Download PDFInfo
- Publication number
- CN116756624B CN116756624B CN202311034914.5A CN202311034914A CN116756624B CN 116756624 B CN116756624 B CN 116756624B CN 202311034914 A CN202311034914 A CN 202311034914A CN 116756624 B CN116756624 B CN 116756624B
- Authority
- CN
- China
- Prior art keywords
- vector
- word
- civil aviation
- text
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000007689 inspection Methods 0.000 title claims abstract description 18
- 238000012545 processing Methods 0.000 title claims abstract description 12
- 239000013598 vector Substances 0.000 claims abstract description 121
- 238000011176 pooling Methods 0.000 claims abstract description 36
- 238000000605 extraction Methods 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims description 39
- 239000011159 matrix material Substances 0.000 claims description 30
- 239000011800 void material Substances 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 5
- 238000007526 fusion splicing Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 230000002441 reversible effect Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 abstract description 10
- 238000013135 deep learning Methods 0.000 abstract description 7
- 230000006870 function Effects 0.000 description 13
- 230000000694 effects Effects 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000002679 ablation Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000013145 classification model Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000001737 promoting effect Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及文本分类技术领域,涉及一种面向民航监管事项检查记录处理的文本分类方法,首先,通过RoFormer‑Sim解决了样本类别不平衡的问题。其次,在嵌入层中使用RoBERTa获得字向量。然后,使用TextRCNN的结构通过特征提取来提取文本中包含的信息。同时,在池化层中使用了空洞卷积来防止重要信息的丢失,并使用概率稀疏自注意力ProbSparse Self‑Attention来获得不同字嵌入向量的权重。本发明在民航监管事项检查记录数据集上的分类F1值达到96.31%。与其他经典的深度学习算法的对比实验结果表明,本发明在短文本数据集上应用表现良好。
Description
技术领域
本发明涉及文本分类技术领域,具体地说,涉及一种面向民航监管事项检查记录处理的文本分类方法。
背景技术
在民航业不断蓬勃发展的背景下,高效的监管是保障航空安全、促进民航行业发展的重中之重。民航局正在大力推进智慧监管系统建设,创新监管方式,在智慧化架构中完成监管任务,促进监管效能的全面提升。传统的监管模式已经无法满足民航局对安全监管的要求,需要结合新技术来实现智慧监管。智慧监管通过收集多源异构数据,运用机器学习、数据挖掘技术,从数据中提取信息和知识,实现数据驱动的风险预警和安全态势判断。
民航监管事项检查记录是监管执法检查中针对监管事项所发现的问题而记录的文本信息,是典型的短文本,长度在10-70字之间,70字以上只占了不到20%。对该文本进行分类是民航监管数据分析的基础任务。随着监管记录数据的增长,传统人工分类效率低下,无法满足监管业务需求。运用自然语言处理的文本分类技术,对民航监管事项检查记录文本进行自动分类,实现数据驱动的风险预警和隐患排查,对推动民航监管的智慧化、精准化,提升行业监管水平具有重要意义。
文本分类是文本挖掘的一个重要分支,是自然语言处理领域中的一个经典问题,已广泛应用于新闻分类、垃圾邮件过滤等。目前流行的文本分类方法主要分为两类,一类是基于统计机器学习,另一类是基于深度学习。基于统计机器学习的文本分类方法实现了一定的自动化,提高了文本分类的效率。然而,在基于统计学习的方法中,文本的表示能力有限,容易忽视文本的上下文、语义和结构。深度学习可以弥补传统机器学习的不足。结合上下文的语序或引入外部知识可以解决这个问题。基于深度学习的分类方法可以提高文本分类的准确性,但训练成本也更高。
在机器学习领域,不同类别的样本在数据集中的数量差异很大,这被称为类别不平衡问题。目前有一些经典的方法可以解决此问题,如欠采样技术、过采样技术和阈值偏移。欠采样技术可能会导致信息丢失。过采样技术可能会在数据集中过度拟合。此外,还有一些基于深度学习的方法,如生成对抗性网络和上下文增强,但是可能会消耗更多的时间和计算资源。
发明内容
本发明的内容是提供一种面向民航监管事项检查记录处理的文本分类方法,其在民航监管事项检查记录数据的短文本分类表现良好。
根据本发明的一种面向民航监管事项检查记录处理的文本分类方法,其包括以下步骤:
1)输入民航监管事项检查记录数据;
2)通过开源预训练模型RoFormer-Sim实现数据增强;
3)使用RoBERTa预训练模型获得字向量;
4)使用TextRCNN通过特征提取来提取文本中包含的信息;TextRCNN包括BiLSTM特征提取层和池化层,在池化层使用空洞卷积来减少信息损失;字之间的关系通过概率稀疏自注意力(ProbSparse Self-Attention)依次学习,对字嵌入向量进行加权和求和,得到句子向量;将空洞卷积的结果与句子向量的结果进行融合拼接;
5)将融合拼接结果通过softmax输出以获得分类结果。
作为优选,RoBERTa预训练模型中,输入序列的每个字由三部分组成,即标记嵌入、分段嵌入和位置嵌入;标记嵌入、分段嵌入和位置嵌入分别表示字的标记值、句子信息和位置信息;
输入分字后的序列{x1,x2,…,xn},Tok表示字矢量编码,Pos表示位置编码向量,通过将Tok和Pos编码向量相加,相加的字是具有位置特征的字向量;最终将分字序列映射为字向量W={w1,w2,…,wn}。
作为优选,BiLSTM特征提取层中,通过前向LSTM提取获得前向隐藏状态L={L1,L2,…Ln};通过前向LSTM提取获得反向隐藏状态R={R1,R2,…Rn};通过BiLSTM层获得的上下文特征为H={L;R};将BiLSTM层的输出结果与字向量W的上下文融合,得到具有上下文特征的新的字嵌入向量Y={y1,y2,…,yn}。
作为优选,空洞卷积为级联的空洞卷积结构,设置了三个空洞率分别为1、2和5的卷积核,执行多次卷积并提取结果;将空洞卷积提取的特征根据通道维度进行级联拼接起来,将浅层特征和深层特征融合,如下式所示:
dc1=f(DC2(f(DC1(f(C(c))))))
dc2=f(DC2(f(DC1(f(C(dc1))))))
dc3=f(DC2(f(DC1(f(C(dc2))))))
dc=concat(dc1,dc2,dc3)
f()表示ReLU激活函数增加模型输出的非线性;C()表示卷积核空洞率为1,DC1()表示卷积核空洞率为2,DC2()表示卷积核空洞率为5,dc1、dc2、dc3表示对输入的数据进行特征提取和变换后得到的结果,dc为整个文本的浅层特征和深层特征的组成,concat(.)表示concat函数,用于连接。
作为优选,ProbSparse Self-Attention中,首先对键向量矩阵K进行采样得到K_sample矩阵;对qi∈Q和K_sample一起计算M得分值;
qi为查询向量矩阵Q中的第i行的查询向量;kj T表示K_sample矩阵中的每个位置j的k向量进行转置;d表示采样后的K_sample矩阵的行向量的维度;Lk为键向量矩阵K的行数;
提取出M得分值最大的前u个Top-u的查询向量query,构成新的查询向量矩阵通过计算查询向量矩阵/>与键向量矩阵K的点积,然后用softmax函数将点积值归一化,乘以值矩阵V得出注意力值。;
Attention(.)表示Attention函数,用于计算注意力值。
作为优选,步骤5)中,将融合拼接结果输入到softmax函数计算得到概率分布,从而确定分类结果。
本发明的有益效果如下:
1)采用RoFormer-Sim预训练模型对本发明所用数据集进行数据增强。以较小的时间和资源扩充数据。解决文本数据集的数据类别不平衡问题,减少标注工作量,在一定程度上提高效率。
2)基于TextRCNN的结构,本发明结合了BiLSTM特征提取层和TextCNN的池化层。将BiLSTM提取的上下文特征和RoBERTa的字向量进行拼接,得到新的字嵌入向量表示。基于TextRCNN的结构提取的特征具有句子序列的全局特征和上下文结构的局部特征。
3)在池化层使用空洞卷积池化,解决常用的最大池化层的容易丢失特征的问题。并且采用级联结构,能够使浅层特征和深层特征充分融合。
4)在特征提取后应用Informer的ProbSparse Self-Attention,稀疏性Self-Attention得分形成长尾分布,提取出少数对分类影响更大的query,不仅节约了资源,分类效果进一步得到了提升。
附图说明
图1为实施例中一种面向民航监管事项检查记录处理的文本分类方法的示意图;
图2为实施例中BiLSTM特征提取层的示意图;
图3为实施例中空洞卷积池化结构示意图。
具体实施方式
为进一步了解本发明的内容,结合附图和实施例对本发明作详细描述。应当理解的是,实施例仅仅是对本发明进行解释而并非限定。
实施例
如图1所示,本实施例提出了一种面向民航监管事项检查记录处理的文本分类方法(模型),其包括以下步骤:
1)输入民航监管事项检查记录数据;
2)通过开源预训练模型RoFormer-Sim实现数据增强;
3)使用RoBERTa预训练模型获得字向量;
4)使用TextRCNN通过特征提取来提取文本中包含的信息;TextRCNN包括BiLSTM特征提取层和池化层,在池化层使用空洞卷积来减少信息损失;字之间的关系通过概率稀疏自注意力(ProbSparse Self-Attention)依次学习,对字嵌入向量进行加权和求和,得到句子向量;将空洞卷积的结果与句子向量的结果进行融合拼接;
5)将融合拼接结果通过softmax输出以获得分类结果。
开源预训练模型RoFormer-Sim
开源预训练模型RoFormer-Sim可以参照文献:苏剑林.SimBERTv2来了!融合检索和生成的RoFormer-Sim模型[EB/OL](2021-6-11)。本实施例通过开源预训练模型RoFormer-Sim实现数据增强,解决数据集类别不平衡的问题,生成与原文相似的句子,然后扩展数据量并平衡每个类别中的样本数量。
RoBERTa预训练模型
本实施例将RoBERTa预训练模型用于字向量嵌入。RoBERTa的模型基于BERT模型做了一些进行了改进。BERT使用固定掩码,该掩码在数据预处理和生成后不会更改。这会导致相对较差的灵活性。然而,RoBERTa使用的动态掩码在每个输入中都有一个新的掩码。RoBERTa在预训练中使用了更多的训练数据和更深的网络结构,这提高了模型的性能。当使用RoBERTa预训练模型来训练字符向量时,可以获得更丰富的语义信息。此外,RoBERTa和BERT在模型结构中都由多个双向Transformer编码器组成。在训练字向量时,RoBERTa分词与BERT相似,它本质上将每个汉字分割开来。RoBERTa模型中输入序列的每个字由三部分组成,即标记嵌入、分段嵌入和位置嵌入。标记嵌入、分段嵌入和位置嵌入分别表示字的标记值、句子信息和位置信息。
输入分字后的序列{x1,x2,…,xn},Tok表示字矢量编码,Pos表示位置编码向量,通过将Tok和Pos编码向量相加,相加的字是具有位置特征的字向量;最终将分字序列映射为字向量W={w1,w2,…,wn}。
BiLSTM特征提取层
目前,在文本挖掘的深度学习领域,RNN和CNN的组合模型已成为主流。传统TextCNN的特征提取层使用卷积层,可以很好地挖掘句子的局部特征。然而,它可能会忽略全局特征,如句子的语序。TextRCNN模型结合了RNN和CNN的结构。不仅保留了文本的语序特征,而且提取了文本的局部重要特征。字嵌入层将当前字与上下文相结合,以便于更好地理解上下文的含义。LSTM是一个时间序列模型。LSTM的核心是使用隐藏状态来保存信息。与单向的区别在于,BiLSTM可以保留来自未来的信息,并融合向前运行和向后运行的LSTM,使用两个隐藏状态的组合。它可以随时保存过去和未来的信息。通过前向LSTM提取获得前向隐藏状态L={L1,L2,…Ln};通过前向LSTM提取获得反向隐藏状态R={R1,R2,…Rn};通过BiLSTM层获得的上下文特征为H={L;R};将BiLSTM层的输出结果与字向量W的上下文融合,得到具有上下文特征的新的字嵌入向量Y={y1,y2,…,yn},如图2所示。
空洞卷积池化
空洞卷积最早应用于图像领域的实例分割任务。可以增大卷积核的感受野,它减少了模型参数的数量,在不减小感受野的情况下减少特征的丢失。
当特征输入到池化层时,无论是使用最大池化还是平均池化进行降维采样,都可能导致模型丢失一些重要信息。本实施例使用空洞卷积结构作为池化层。如果采用并行结构,使用多个空洞卷积检查字来提取特征,可能会导致信息的一定冗余和重复,从而影响最终的分类结果。本实施例提出了一种级联的空洞卷积结构,并设置了三个空洞率分别为1、2和5的卷积核。执行多次卷积并提取结果。将空洞卷积提取的特征根据通道维度进行级联拼接起来,将浅层特征和深层特征融合,使浅层特征和深层特征都能被模型充分利用。池化层结构图如图3所示,公式如下所示:
dc1=f(DC2(f(DC1(f(C(c))))))
dc2=f(DC2(f(DC1(f(C(dc1))))))
dc3=f(DC2(f(DC1(f(C(dc2))))))
dc=concat(dc1,dc2,dc3)
f()表示ReLU激活函数增加模型输出的非线性,克服梯度消失问题的同时加快模型的训练速度;C()表示卷积核空洞率为1,在图3中简化为C。DC1()表示卷积核空洞率为2,DC2()表示卷积核空洞率为5,dc1、dc2、dc3表示对输入的数据进行特征提取和变换后得到的结果,dc为整个文本的浅层特征和深层特征的组成。dc1表示对字嵌入向量Y经过多次卷积和激活函数,得到第一层的特征表示结果。dc1作为第一层的输出结果,被用作第二层的输入。dc2表示对dc1进行多次卷积和激活函数,得到第二层的特征表示结果。dc2作为第二层的输出结果,被用作第三层的输入。dc3表示对dc2进行多次卷积和激活函数,得到第三层的特征表示结果。这种叠加的特征提取过程可以使模型逐渐提取出更高级别的特征表示,concat(.)表示concat函数,用于连接。
概率稀疏自注意力(ProbSparse Self-Attention)
字向量的字可以直接得到句子向量,例如将字向量直接相加、直接相加后取平均或使用TF-IDF的加权平均等。然而,这些方法都过于粗糙。为了更好地表示文本,需要一个更合适的方法来计算字的权重。本实施例使用ProbSparseSelf-Attention计算字的权重,并对句子中的所有字进行加权求和,以获得句子向量。
传统的Self-Attention目前已经被广泛应用于自然语言处理的许多领域,取得了良好的效果。Self-Attention中的q、k和v分别是由查询向量、键向量和值向量组成的矩阵。Self-Attention的输入是序列字向量,它经过线性变换以获得查询(Q),x经过第二线性变换以获取键向量(K),x经历第三线性变换以得到值(V)。通过q、k和v计算字的权重。
dk表示键向量的维度,Attention(.)表示Attention函数,用于计算注意力值。。
传统的自注意力的主要缺点是需要相对较大的内存和二次点积计算的成本。本实施例参考了长序列时间序列预测的Informer模型的ProbSparse Self-Attention。Informer模型是一个改进的Transformer模型。借鉴KL散度的思想,对每个字进行量化,并选择top-u个query作为主要查询。
稀疏性self-attention得分形成长尾分布,即少数点积对主要注意力有贡献,其他点积对相比较后可以忽略。在长尾分布下,只需要随机抽样u=LQ ln LK点积对来计算M(qi,K_sample),用零填充其他对。
ProbSparse Self-Attention首先对键向量矩阵K进行采样得到K_sample矩阵,通过采样键向量矩阵K得到u个位置的k向量,组成键向量K_sample矩阵;对qi∈Q和K_sample一起计算M值;
qi为查询向量矩阵Q中的第i行的查询向量;kj T表示K_sample矩阵中的每个位置j的k向量进行转置;d表示采样后的K_sample矩阵的行向量的维度;Lk为键向量矩阵K的行数;
提取出M得分值最大的前u个Top-u查询向量query,构成新的查询向量矩阵通过计算查询向量矩阵/>与键向量矩阵K的点积,然后用softmax函数将点积值归一化,乘以值矩阵V得出注意力值,如下式所示:
全连接层和输出层
对分别通过空洞卷积网络和ProbSparse Self-Attention提取的特征结果进行融合拼接,输入到softmax函数计算得到概率分布,从而确定分类结果。
实验与结果分析
实验环境
该实验基于Python 3.8+PyTorch 1.10深度学习框架。CPU使用Intel(R)Core i9-10900K。GPU使用NVIDIA GeForce RTX 3090。内存为96G。
数据集
本实施例选取民航监管事项检查记录数据集进行实验,该数据集是针对民航监管执法检查中发现的问题而记录的信息。总共有5720个,其中大部分长度在10到70之间。本实施例首先使用Roformer-Sim方法来扩充现有的数据集,以便使每个类别的数量尽可能平衡。最终,得到了1414个与人有关的问题,2096个与设备、设施和环境有关的问题、3982个与机构程序有关的问题和867个与机构责任有关的问题。本实施例将数据集随机打乱,并以8:1:1的比例将其划分为训练集、验证集和测试集。相关信息如表1、表2所示。
表1数据增强后数据集相关信息
表2部分民航监管事项的检查结果
参数设置
在文本数据增强方面,在Reformer-Sim参数中,预训练模型设置为“chinese_roformer-Sim-char-ft_L-12_H-768_A-12”。参数“Create_Num”设置为3。为每个语句生成相似的句子,并获得最高相似度的前3个。
在文本表示方面,选择RoBERTa_Chinese_Base预训练模型,RoBERTa_Chinese_Base是一个使用CLUECorpus Small数据集训练的中文预训练模型。通过多次实验获得的模型的其他最佳参数如表3所示。
表3训练参数设置
评价指标
在文本分类模型的评估中使用F1-measure。F1-measure是精度和召回率的调和平均值,能够综合反映神经网络训练后的性能。其计算方法如下所示:
P表示模型的精度,R表示模型的召回率,F1表示F1-measure。TP表示在预测样本集中预测类别为真,真实情况样本类别也为真的样本数量;FN表示真实情况样本类别为真,但预测样本类别为假的样本数量;FP表示真实情况样本为假,但预测样本类别为真的样本数量。
对比实验
为了验证本文提出的模型的分类性能,在民航监管事项检查记录数据集上,将其与其他8个神经网络模型进行了比较,用F1-measure作为结果对比的评价指标。实验设置如下所示,实验结果如表4所示。
1)TextCNN:通过RoBERTa预训练模型将句子转化为向量矩阵。使用不同大小的卷积核来执行特征提取。在通过最大池化层之后,进行分类。
2)LSTM:通过RoBERTa预训练模型将句子转化为向量矩阵。使用字的平均隐藏状态作为分类特征。
3)BiLSTM:通过RoBERTa预训练模型将句子转化为向量矩阵。使用字在两个方向上的隐藏状态的平均值作为分类特征。
4)BiLSTM-Attention:通过RoBERTa预训练模型将句子转化为向量矩阵。使用注意力机制计算每个字的权重,然后对其进行分类。
5)TextRCNN:通过RoBERTa预训练模型将句子转化为向量矩阵。通过BiLSTM提取隐藏状态特征,将字向量与隐藏状态拼接起来,并通过最大池化层对其进行分类。
6)FastText:构造n元特征,并计算每个特征的词频。使用softmax函数将特征转换为概率分布。
7)DPCNN:在CNN的基础上,通过不断加深网络,提取长距离文本依赖关系。
8)Transformer:完全基于注意力的序列传导模型,用多头自注意力取代编码器-解码器架构中最常用的递归层。
9)Ours:通过RoBERTa预训练模型将句子转化为向量矩阵,并通过BiLSTM提取隐藏状态特征。将字向量与隐藏状态连接,得到新的字嵌入向量,再分别通过空洞卷积池化和ProbSparse Self-Attention获得池化后的特征和句子向量特征。对拼接的特征进行分类。
表4不同文本分类模型实验结果对比
Model | F1 |
TextCNN | 0.9346 |
LSTM | 0.9120 |
BiLSTM | 0.9330 |
BiLSTM-Attention | 0.9457 |
TextRCNN | 0.9515 |
FastText | 0.9300 |
DPCNN | 0.9330 |
Transformer | 0.9434 |
Ours | 0.9631 |
本实施例提出的模型在民航监管事项检查记录数据集上取得了良好的效果。与TextCNN、LSTM、BiLSTM、BiLSTM-Attention、TextRCNN、FastText、DPCNN和Transformer模型相比,我们模型的F1值分别增加了2.85%、3.01%、5.11%、1.74%、1.16%、3.31%、3.01%和1.97%。CNN和BiLSTM的分类性能相似。TextRCNN结合了两个模型,并融合了全局特征和局部特征,从而在分类方面比单个模型CNN或LSTM具有更好的性能。BiLSTM Attention在LSTM之后使用了Attention机制,集中于对分类结果有影响较大的字,因此分类的结果比单个LSTM要好。DPCNN可以通过添加网络层来增加长文本之间的依赖关系,但由于该数据集是一个短文本数据集,因此在该数据集中的改进效果不是很显著。此外,直接使用Transformer框架进行文本分类也可以获得较好的结果。本文使用的方法是基于TextRCNN而不是单一模型,结合了BiLSTM的特征提取层和TextCNN的池化层。它改进了池化层中空洞卷积池化的使用,并使用Informer结构中的ProbSparse Self-Attention来充分地提取特征,取得了良好的效果。
为了验证本实施例使用的词向量模型的分类性能,在民航监管事项检查记录数据集上将其与其他4个词向量模型进行了比较,结果如表5所示。
表5不同词向量模型实验结果对比
Model | F1 |
Word2Vec+Ours | 0.9020 |
BERT+Ours | 0.9526 |
ENIRE+Ours | 0.9583 |
RoBERTa+Ours | 0.9595 |
RoBERTa+BiLSTM+Ours | 0.9631 |
由于Word2Vec词向量是静态词向量,无法区分语境不同、同一个词含义不同的问题,故当词向量选用Word2Vec效果时,效果较差。而基于预训练模型的BERT、ENIRE和RoBERTa效果较好,都能达到0.95以上的效果。基于BERT的预训练模型可以根据文本的上下文来区分同一词的不同含义,从而提高分类性能,解决Word2Vec传统词向量中的多义问题。因此,评价指标有了显著提高。RoBERTa在训练过程中相比BERT使用了更大的数据集和更多的参数,并采用了动态掩蔽机制,具有更强的灵活性,进一步提高了模型的特征提取能力。与ERNIE和BERT相比,实验结果有了一定的改进。而本实施例所用字向量融合了BiLSTM提取的上下文和RoBERTa的字向量,蕴含的语义更加丰富,实验效果相比其他字向量有一定的提升。
消融实验
为了验证所提出的方法在各个方面的改进,如下进行了5次消融实验。实验设置如下,实验结果如表6所示。
1)BERT+TextRCNN+Max-Pooling+self-attention:通过BERT预训练模型将句子表示为向量矩阵。池化特征和句子向量特征分别通过Max-Pooling和Self-Attention获得。
2)RoBERTa+TextRCNN+Max-Pooling+self-attention:通过RoBERTa预训练模型将句子表示为向量矩阵。池化特征和句子向量特征分别通过Max-Pooling和Self-Attention获得。
3)RoBERTa+TextRCNN+DC+Self-Attention:将字向量与隐藏状态拼接,分别通过空洞卷积池和Self-Attention获得池化特征和句子向量特征。
4)RoBERTa+TextRCNN+Max-Pooling+ProbSparse Self-Attention:将字向量与隐藏状态拼接,并分别通过Max-Pooling和ProbSparse Self-Attention获得池特征和句子向量特征。
5)Ours:通过RoBERTa预训练模型将句子转化为向量矩阵,并通过BiLSTM提取隐藏状态特征。将字向量与隐藏状态连接,分别通过空洞卷积池化和ProbSparse Self-Attention获得池化后的特征和句子向量特征。对拼接的特征进行分类。
表6消融实验结果对比
在民航监管事项的检查结果数据集上进行消融实验,与其他模型相比,本实施例提出的模型分别提高了1.51%、1.21%、0.69%,1%。当池化层使用常用的Max-pooling时,大多数时候都可以获得良好的效果,但很容易失去一些重要的特征,而级联结构的空洞卷积池化能够更好地保留特征,充分利用浅层特征和深层特征。将普通的Self-Attention改为ProbSparse Self-Attention,不仅节省了时间和资源,而且在一定程度上提高了分类模型的效果。
结论
本实施例提出了一种基于空洞卷积和ProbSparse Self-Attention的文本分类方法(模型)。通过RoBERTa对文本进行动态表示,解决了不同语境下的语义差异问题。将BiLSTM提取的结果上下文特征与字向量连接,使得新的字向量蕴含更丰富的语义信息。在池化层中使用空洞卷积来减少特征丢失。使用ProbSparse Self-Attention可减少操作所需的内存和时间。实验结果表明,本实施例中提出的模型在民航监管事项检查记录数据集上取得了良好的分类性能。
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。所以,如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。
Claims (6)
1.一种面向民航监管事项检查记录处理的文本分类方法,其特征在于:包括以下步骤:
1)输入民航监管事项检查记录数据;
2)通过开源预训练模型RoFormer-Sim实现数据增强;
3)使用RoBERTa预训练模型获得字向量;
4)使用TextRCNN通过特征提取来提取文本中包含的信息;TextRCNN包括BiLSTM特征提取层和池化层,在池化层使用空洞卷积来减少信息损失;字之间的关系通过概率稀疏自注意力ProbSparse Self-Attention依次学习,对字嵌入向量进行加权和求和,得到句子向量;将空洞卷积的结果与句子向量的结果进行融合拼接;
通过RoBERTa预训练模型将句子转化为向量矩阵,并通过BiLSTM提取隐藏状态特征;将字向量与隐藏状态连接,分别通过空洞卷积池化和ProbSparse Self-Attention获得池化后的特征和句子向量特征;
5)将融合拼接结果通过softmax输出以获得分类结果。
2.根据权利要求1所述的一种面向民航监管事项检查记录处理的文本分类方法,其特征在于:RoBERTa预训练模型中,输入序列的每个字由三部分组成,即标记嵌入、分段嵌入和位置嵌入;标记嵌入、分段嵌入和位置嵌入分别表示字的标记值、句子信息和位置信息;
输入分字后的序列{x1,x2,…,xn},Tok表示字矢量编码,Pos表示位置编码向量,通过将Tok和Pos编码向量相加,相加的字是具有位置特征的字向量;最终将分字序列映射为字向量W={w1,w2,…,wn}。
3.根据权利要求2所述的一种面向民航监管事项检查记录处理的文本分类方法,其特征在于:BiLSTM特征提取层中,通过前向LSTM提取获得前向隐藏状态L={L1,L2,…Ln};通过前向LSTM提取获得反向隐藏状态R={R1,R2,…Rn};通过BiLSTM层获得的上下文特征为H={L;R};将BiLSTM层的输出结果与字向量W的上下文融合,得到具有上下文特征的新的字嵌入向量Y={y1,y2,…,yn}。
4.根据权利要求3所述的一种面向民航监管事项检查记录处理的文本分类方法,其特征在于:空洞卷积为级联的空洞卷积结构,设置了三个空洞率分别为1、2和5的卷积核,执行多次卷积并提取结果;将空洞卷积提取的特征根据通道维度进行级联拼接起来,将浅层特征和深层特征融合,如下式所示:
dc1=f(DC2(f(DC1(f(C(c))))))
dc2=f(DC2(f(DC1(f(C(dc1))))))
dc3=f(DC2(f(DC1(f(C(dc2))))))
dc=concat(dc1,dc2,dc3)
f()表示ReLU激活函数增加模型输出的非线性;C()表示卷积核空洞率为1,DC1()表示卷积核空洞率为2,DC2()表示卷积核空洞率为5,dc1、dc2、dc3表示对输入的数据进行特征提取和变换后得到的结果,dc为整个文本的浅层特征和深层特征的组成,concat(.)表示concat函数,用于连接。
5.根据权利要求4所述的一种面向民航监管事项检查记录处理的文本分类方法,其特征在于:ProbSparse Self-Attention中,首先对键向量矩阵K进行采样得到K_sample矩阵;对qi∈Q和K_sample一起计算M得分值;
qi为查询向量矩阵Q中的第i行的查询向量;kj T表示K_sample矩阵中的每个位置j的k向量进行转置;d表示采样后的K_sample矩阵的行向量的维度;Lk为键向量矩阵K的行数;
提取出M得分值最大的前u个Top-u查询向量query,构成新的查询向量矩阵Q,通过计算查询向量矩阵与键向量矩阵K的点积,然后用softmax函数将点积值归一化,乘以值矩阵V得出注意力值,如下式所示:
Attention(.)表示Attention函数,用于计算注意力值。
6.根据权利要求5所述的一种面向民航监管事项检查记录处理的文本分类方法,其特征在于:步骤5)中,将融合拼接结果输入到softmax函数计算得到概率分布,从而确定分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311034914.5A CN116756624B (zh) | 2023-08-17 | 2023-08-17 | 一种面向民航监管事项检查记录处理的文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311034914.5A CN116756624B (zh) | 2023-08-17 | 2023-08-17 | 一种面向民航监管事项检查记录处理的文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116756624A CN116756624A (zh) | 2023-09-15 |
CN116756624B true CN116756624B (zh) | 2023-12-12 |
Family
ID=87957486
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311034914.5A Active CN116756624B (zh) | 2023-08-17 | 2023-08-17 | 一种面向民航监管事项检查记录处理的文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116756624B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560478A (zh) * | 2020-12-16 | 2021-03-26 | 武汉大学 | 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法 |
CN113642330A (zh) * | 2021-07-19 | 2021-11-12 | 西安理工大学 | 基于目录主题分类的轨道交通规范实体识别方法 |
US11194972B1 (en) * | 2021-02-19 | 2021-12-07 | Institute Of Automation, Chinese Academy Of Sciences | Semantic sentiment analysis method fusing in-depth features and time sequence models |
CN113779252A (zh) * | 2021-09-09 | 2021-12-10 | 安徽理工大学 | 一种基于electra+atten+BiLSTM的针对中文短文本情感分类方法 |
CN114492441A (zh) * | 2022-01-18 | 2022-05-13 | 北京工业大学 | 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法 |
CN114757175A (zh) * | 2022-04-29 | 2022-07-15 | 北京邮电大学 | 一种基于融合列空洞卷积的《标准》内容关键词识别方法 |
CN114817564A (zh) * | 2022-04-15 | 2022-07-29 | 苏州大学 | 一种属性抽取方法、装置及存储介质 |
CN115203406A (zh) * | 2022-06-23 | 2022-10-18 | 浙江大学 | 一种基于RoBERTa模型的长文本信息立场检测方法 |
CN115292485A (zh) * | 2022-06-14 | 2022-11-04 | 中国民用航空飞行学院 | 一种基于SKEP-ERNIE-BiGRU网络模型结构的情感分类方法 |
CN115329765A (zh) * | 2022-08-12 | 2022-11-11 | 江西理工大学 | 识别上市企业风险的方法、装置、电子设备及存储介质 |
CN116306652A (zh) * | 2023-03-15 | 2023-06-23 | 广东工业大学 | 一种基于注意力机制和BiLSTM的中文命名实体识别模型 |
CN116341557A (zh) * | 2023-05-29 | 2023-06-27 | 华北理工大学 | 一种糖尿病医学文本命名实体识别方法 |
CN116501864A (zh) * | 2023-02-16 | 2023-07-28 | 大连海洋大学 | 交叉嵌入式注意力BiLSTM多标签文本分类模型、方法及设备 |
CN116522945A (zh) * | 2023-05-29 | 2023-08-01 | 新疆大学 | 一种食品安全领域中命名实体的识别模型和方法 |
CN116579342A (zh) * | 2023-05-15 | 2023-08-11 | 广西电网有限责任公司 | 基于双特征联合提取的电力营销命名实体识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11615311B2 (en) * | 2018-12-10 | 2023-03-28 | Baidu Usa Llc | Representation learning for input classification via topic sparse autoencoder and entity embedding |
US11537950B2 (en) * | 2020-10-14 | 2022-12-27 | Adobe Inc. | Utilizing a joint-learning self-distillation framework for improving text sequential labeling machine-learning models |
-
2023
- 2023-08-17 CN CN202311034914.5A patent/CN116756624B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560478A (zh) * | 2020-12-16 | 2021-03-26 | 武汉大学 | 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法 |
US11194972B1 (en) * | 2021-02-19 | 2021-12-07 | Institute Of Automation, Chinese Academy Of Sciences | Semantic sentiment analysis method fusing in-depth features and time sequence models |
CN113642330A (zh) * | 2021-07-19 | 2021-11-12 | 西安理工大学 | 基于目录主题分类的轨道交通规范实体识别方法 |
CN113779252A (zh) * | 2021-09-09 | 2021-12-10 | 安徽理工大学 | 一种基于electra+atten+BiLSTM的针对中文短文本情感分类方法 |
CN114492441A (zh) * | 2022-01-18 | 2022-05-13 | 北京工业大学 | 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法 |
CN114817564A (zh) * | 2022-04-15 | 2022-07-29 | 苏州大学 | 一种属性抽取方法、装置及存储介质 |
CN114757175A (zh) * | 2022-04-29 | 2022-07-15 | 北京邮电大学 | 一种基于融合列空洞卷积的《标准》内容关键词识别方法 |
CN115292485A (zh) * | 2022-06-14 | 2022-11-04 | 中国民用航空飞行学院 | 一种基于SKEP-ERNIE-BiGRU网络模型结构的情感分类方法 |
CN115203406A (zh) * | 2022-06-23 | 2022-10-18 | 浙江大学 | 一种基于RoBERTa模型的长文本信息立场检测方法 |
CN115329765A (zh) * | 2022-08-12 | 2022-11-11 | 江西理工大学 | 识别上市企业风险的方法、装置、电子设备及存储介质 |
CN116501864A (zh) * | 2023-02-16 | 2023-07-28 | 大连海洋大学 | 交叉嵌入式注意力BiLSTM多标签文本分类模型、方法及设备 |
CN116306652A (zh) * | 2023-03-15 | 2023-06-23 | 广东工业大学 | 一种基于注意力机制和BiLSTM的中文命名实体识别模型 |
CN116579342A (zh) * | 2023-05-15 | 2023-08-11 | 广西电网有限责任公司 | 基于双特征联合提取的电力营销命名实体识别方法 |
CN116341557A (zh) * | 2023-05-29 | 2023-06-27 | 华北理工大学 | 一种糖尿病医学文本命名实体识别方法 |
CN116522945A (zh) * | 2023-05-29 | 2023-08-01 | 新疆大学 | 一种食品安全领域中命名实体的识别模型和方法 |
Non-Patent Citations (8)
Title |
---|
Domain Knowledge Graph Question Answering Based on Semantic Analysis and Data Augmentation;Shulin Hu 等;《Applied Sciences》;第13卷(第15期);1-23 * |
Research on Short Text Classification Based on RoBERTa-TextRCNN;Z. Guo 等;《2021 International Conference on Computer Information Science and Artificial Intelligence (CISAI)》;845-849 * |
Sentiment analysis of movie reviews based on pretraining and dual branch coding;F. Wang 等;《2021 International Conference on Computer Information Science and Artificial Intelligence (CISAI)》;721-725 * |
Transformer-Gated Recurrent Unit Method for Predicting Stock Price Based on News Sentiments and Technical Indicators;A. T. Haryono 等;《IEEE Access》;第11卷;77132-77146 * |
基于BiLSTM+Self-Attention的多性格微博情感分类;冯媛媛 等;《西华大学学报(自然科学版)》;第41卷(第01期);67-76 * |
基于双向时间深度卷积网络的中文文本情感分类;韩建胜 等;《计算机应用与软件》(第12期);225-231 * |
融合RoBERTa-GCN-Attention的隐喻识别与情感分类模型;杨春霞 等;《小型微型计算机系统》;1-9 * |
融合注意力机制的RoBERTa-BiLSTM-CRF语音对话文本命名实体识别;张劭韡 等;《数字技术与应用》;第41卷(第05期);4-6+51 * |
Also Published As
Publication number | Publication date |
---|---|
CN116756624A (zh) | 2023-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN108829722A (zh) | 一种远程监督的Dual-Attention关系分类方法及系统 | |
CN111143576A (zh) | 一种面向事件的动态知识图谱构建方法和装置 | |
CN109885670A (zh) | 一种面向话题文本的交互注意力编码情感分析方法 | |
CN109697232A (zh) | 一种基于深度学习的中文文本情感分析方法 | |
CN112507715A (zh) | 确定实体之间关联关系的方法、装置、设备和存储介质 | |
CN110532554A (zh) | 一种中文摘要生成方法、系统及存储介质 | |
CN110020438A (zh) | 基于序列识别的企业或组织中文名称实体消歧方法和装置 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN109670039A (zh) | 基于三部图和聚类分析的半监督电商评论情感分析方法 | |
CN107392147A (zh) | 一种基于改进的生成式对抗网络的图像语句转换方法 | |
CN110413783A (zh) | 一种基于注意力机制的司法文本分类方法及系统 | |
CN112766359B (zh) | 一种面向食品安全舆情的字词双维度微博谣言识别方法 | |
CN108108468A (zh) | 一种基于概念和文本情感的短文本情感分析方法和装置 | |
CN110781290A (zh) | 一种长篇章结构化文本摘要提取方法 | |
CN113553412A (zh) | 问答处理方法、装置、电子设备和存储介质 | |
CN108920446A (zh) | 一种工程文本的处理方法 | |
CN115203421A (zh) | 一种长文本的标签生成方法、装置、设备及存储介质 | |
Xu et al. | Chinese event detection based on multi-feature fusion and BiLSTM | |
CN116737922A (zh) | 一种游客在线评论细粒度情感分析方法和系统 | |
CN113806543B (zh) | 一种基于残差跳跃连接的门控循环单元的文本分类方法 | |
Wu et al. | Maximum entropy-based sentiment analysis of online product reviews in Chinese | |
CN112559741B (zh) | 核电设备缺陷记录文本分类方法、系统、介质及电子设备 | |
CN114282592A (zh) | 一种基于深度学习的行业文本匹配模型方法及装置 | |
CN116756624B (zh) | 一种面向民航监管事项检查记录处理的文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |