CN115114432A - 一种融合全局语义特征与拼接特征的标准内容文本分类方法 - Google Patents
一种融合全局语义特征与拼接特征的标准内容文本分类方法 Download PDFInfo
- Publication number
- CN115114432A CN115114432A CN202210492503.XA CN202210492503A CN115114432A CN 115114432 A CN115114432 A CN 115114432A CN 202210492503 A CN202210492503 A CN 202210492503A CN 115114432 A CN115114432 A CN 115114432A
- Authority
- CN
- China
- Prior art keywords
- vector
- word
- text
- local
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种融合全局语义特征与拼接特征的标准内容文本分类方法,步骤是:(1)提取标准内容文本的序列化向量;(2)确定每个单词的上下文表示;(3)提取词语上下文权重及全局语义信息;(4)提取文本特征信息;(5)融合输出特征得到最终的类别预测概率。本发明使用基于层和词的局部信息提取方法获得更多的局部语义特征,融合多网络有效提取全局语义特征,最后将二者融合,为标准内容文本分类提供了一种准确率高的文本分类方法。
Description
技术领域
本发明涉及计文本分类与标准数字化领域,具体的说,主要是一种融合全局语义特征与拼接特征的《标准》内容文本分类方法。
背景技术
标准分类是标准数字化工作中的一个必不可少的环节,标准内容的自动分类有助于标准使用人员快捷对比。目前,文本分类方法主要有基于神经网络模型、基于随机森林模型等方法。基于卷积神经网络的模型利用滑动卷积窗口,获得不同抽象层次的局部语义特征,但缺乏对于上下文的信息建模能力;基于循环神经网络的模型通过递归计算捕捉全局语义信息,但缺乏对局部信息的感知能力;注意力机制利用权重调整突出重点信息,但忽略了时序信息;预训练模型利用大规模语料预先训练,但应用场景受限明显;基于随机森林模型的方法,能在一定程度上平衡误差,但运算时间较长,应用扩展性较差。
标准内容具有明显的交叉引用特点,同一标准内部相互引用,不同标准之间相互引用,且不同标准在定义及要求上有明显差别。因此,需要一种能够准确提取标准内容的上下文语义特征,分类准确率、扩展应用性好的标准内容文本分类方法,为标准数字化领域提供强有力的支持。
发明内容
为了解决上述现有技术中存在的问题,本发明提供了一种融合全局语义特征与拼接特征的《标准》内容文本分类方法,其具体流程如图1所示。
技术方案实施步骤如下:
(1)提取标准内容文本的序列化向量Ε:
获取文本中句子的向量表示,得到
X=[x1,x2,…,xn]
式中,X是句子的向量表示,xi表示该句子文本中的第i个字符,通过将文本X输入到 ALBERT层进行序列化操作,提取序列化后的文本向量,得到
Ε=[E1,E2,…,En]
其中Ε表示句子文本经序列化后的字符数组,Ei表示文本中第i个字的序列化字符;
将经过ALBERT处理后的字符表示输入到BiLSTM层,BiLSTM通过前向和后向的LSTM来获得第t时刻前向隐藏层状态rt和后向隐藏层状态lt,并将rt和lt拼接起来作为隐藏层状态向量ht,最后将ht与词向量信息Et结合,得到最终的每个单词的上下文表示的计算过程如下
上式为前向LSTM的三个门(输入门、遗忘门、输出门),为后向LSTM的三个门,这六个门可以控制信息流向,解决传统RNN的梯度消失与爆炸问题;在前向LSTM中,隐藏层状态rt-1对rt的更新有影响,对于后向LSTM,隐藏层状态lt+1对lt的更新有影响。W为权重矩阵;b为偏置项;σ为sigmoid激活函数;c为状态变量,其与输出门共同控制最后的隐藏层状态;*为哈达玛积;tanh为双曲正切函数;为向量的拼接操作。经过BiLSTM处理之后的具有上下文信息的字符数组为
(3)提取词语上下文权重及全局语义信息Fglobal:
将BiLSTM输出的字符数组
通过注意力机制对每个词的上下文匹配一个权重,以体现不同单词对句子全局语义特征的重要程度,最后通过加权求和得到全局语义信息Fglobal
Wu为权重矩阵,bu为偏置项,ua为随机初始化、可学习的上下文向量,at为第t时刻的单词归一化权重。经过注意力机制加权,最终得到具有全局信息的向量Fglobal;
(4)提取文本特征信息Flocal:
采用基于层和词的局部信息提取的改进CNN模型,除了基于层的在不同的一维卷积核下的特征信息进行池化,同时对基于词的在不同层下的特征进行池化,取不同宽度大小的hl的一维卷积核(hl为卷积核宽度)作用于文本表征[E1,E2,…,Ei,…,En]上提取特征矩阵M。
M=[R1,R2,…,Rl]
Li=[ri1,ri2,…,ril]
Wil是结构中第i个词对应的第l个一维卷积核权重矩阵,其作用在字向量窗口产生新特征ril,其中b是偏置项,relu是激活函数。一维卷积核作用于每个可能的子向量窗口产生第l个一维卷积核特征向量Rl,多个卷积核特征向量组合得到特征矩阵M。M矩阵的行向量表示成同一个词在不同层的向量表示,同一层的特征可以由M的列向量表示。本专利使用的最大池化操作分别作用于特征矩阵M的行向量和列向量,方法上采用最大池化的方法。得到最显著的层特征和词特征最终将所有显著的层特征和词特征进行拼接,得到最后的特征表示Flocal。Ri表示第i层的层特征,Lj表示第j个词的特征;
(5)融合输出特征得到最终的类别预测概率p:
p1=softmax1(WgFglobal+bg)
p2=softmax2(WlocalFlocal+blocal)
通过注意力机制获得的文本语义特征信息Fglobal与通过基于层和词的局部信息提取的改进CNN获得的文本特征信息表示Flocal分别作用于softmax1分类器和softmax2分类器,分别获得分类概率p1与p2,取这两个概率的算数平均进行融合,最终得到类别预测概率p,其中Wg与Wlocal为可训练权重,bg与blocal为偏置项。
本发明比现有技术具有的优点:
(1)本发明使用的基于层和词的局部信息提取方法相对于以往模型能够提取更多的局部信息,对于局部信息提取不足的网络信息提取能有较大改进。
(2)本发明方法提供了一种利用全局与局部特征信息,进行文本分类的一种方法,该方法一方面充分提取局部和全局信息,充分融合模型优势。利用字序列向量作嵌入层,以获得更好的文本表示,融合多网络有效提取全局语义特征,使用基于层和词的局部信息提取方法获得更多的局部语义特征,最后将二者融合。
附图说明
为了更好地理解本发明,下面结合附图作进一步的说明。
图1是建立的融合全局语义特征与拼接特征的《标准》内容文本分类方法的步骤流程图;
图2是建立的融合全局语义特征与拼接特征的《标准》内容文本分类方法的算法流程图;
图3是建立融合全局语义特征与拼接特征的《标准》内容文本分类方法的网络模型示意图;
图4是建立融合全局语义特征与拼接特征的《标准》内容文本分类方法的准确度比较图;
具体实施方式
下面通过实施案例对本发明做进一步详细说明。
本实施案例中选用燃气事故标准、危化品事故标准两个标准数据集进行测试,其中包括处置流程、应对预案、管道材料等不同方面的标准集,每类标准集包含150个标准,分别一共300个标准。
本发明所提供的融合全局语义特征与拼接特征的《标准》内容文本分类方法,算法流程如图2所示,具体步骤如下:
(1)提取标准内容文本的序列化向量Ε:
以燃气事故处理标准数据集为例,燃气事故处理标准数据集中的句子平均单词数为19 个,对应句子的文本表示
X=[x1,x2,…,xi,…,x19]
式中,X是句子的向量表示,xi表示该句子文本中的第i个字符,通过将文本X输入到 ALBERT层进行序列化操作,得到序列化后的文本向量,
Ε=[E1,E2,…,Ei,…,E19]
其中Ε表示句子文本经序列化后的字符数组,Ei表示文本中第i个字的序列化字符,嵌入维度为768。
将经过ALBERT处理后的字符表示输入到BiLSTM层,网络模型如图3所示,r19为前向通道输出句子的表征向量,l1为后向通道表征句子的表征向量,BiLSTM通过前向和后向的LSTM来获得第t时刻前向隐藏层状态rt和后向隐藏层状态lt,其中1≤t≤19,为对应句子的词Et的上下文嵌入的向量表示,并将rt和lt拼接起来作为隐藏层状态向量ht,1≤t≤19。最后将ht与词向量信息Et结合,得到最终的每个单词的上下文表示的计算过程如下,
上式为前向LSTM的三个门(输入门、遗忘门、输出门),为后向LSTM的三个门,门可以控制信息流向,解决传统RNN的梯度消失与爆炸问题;在前向LSTM 中rt-1为上一词的词嵌入向量,而在后向LSTM中lt+1为上一词的词向量嵌入;W为权重矩阵初始化分布满足的随机分布;b为偏置项,初始化为0;σ为sigmoid激活函数;c 为状态变量,其与输出门共同控制最后的隐藏层状态;*为哈达玛积;tanh为双曲正切函数;为向量的拼接操作。
BiLSTM的输出为将上下文信息导入到每个字符的句子数组,因为句子为19个词组成,所以得到对应19个字符的特征向量
(3)提取词语上下文权重及全局语义信息Fglobal:
将由19个字符组成的句子的特征表征向量
通过注意力机制对每个词表征匹配一个权重,以体现不同单词对句子全局语义特征的重要程度,最后通过加权求和得到全局语义信息Fglobal。
(4)提取文本特征信息Flocal:
采用基于层和词的局部信息提取的改进CNN模型,除了基于层的在不同的一维卷积核下的特征信息进行池化,同时对基于词的在不同层下的特征进行池化,选取不同宽度大小的hl的一维卷积核(hl为卷积核宽度,满足h1>h2>…>hi>…>h19,在训练中设置,本次实验中,设置hl=1,2,3)作用于文本表征[E1,E2,…,Ei,…,E19]上提取特征矩阵M。
M=[R1,R2,R3]
Li=[ri1,ri2,ri3]
Wil是结构中第i个元素对应的第l个一维卷积核权重矩阵,初始化分布满足为N(0,1),其作用在字向量窗口产生新特征ri,其中b是偏置项b=0.01,relu是激活函数。一维卷积核作用于每个可能的子向量窗口产生特征向量R,得到三层的卷积特征向量,多个特征向量组合得到特征矩阵M。针对特征矩阵M。最大池化操作分别作用于特征矩阵M中的每个层特征Ri和每个词特征Li,得到最显著的层特征和元素特征最终将所有最显著特征拼接,得到最后的特征表示Flocal。
(5)融合输出得到最终的类别预测概率p:
p1=softmax1(WgFglobal+bg)
p2=softmax2(WlocalFlocal+blocal)
通过注意力机制获得的文本语义特征信息Fglobal与通过基于层和元素的特征信息表示Flocal分别作用于softmax1分类器和softmax2分类器,分别获得分类概率p1与p2,取这两个概率的算数平均进行融合,最终得到类别预测概率p,其中Wg与Wlocal为可训练权重,均用 N(0,1)初始化,bg与blocal为偏置项,初始化0。
为了验证本发明对标准内容文本分类的准确性,对本发明进行了文本分类实验,实验结果如图4所示。由图4可以看出,本方法相对于其他模型的性能均有提高。
Claims (1)
1.一种融合全局语义特征与拼接特征的标准内容文本分类方法,其特征在于,包括以下步骤:
步骤一:提取标准内容文本的序列化向量Ε:
获取文本中句子的向量表示,得到:
X=[x1,x2,…,xn];
式中,X是句子的向量表示,xi表示该句子文本中的第i个字符,通过将文本X输入到ALBERT层进行序列化操作,提取序列化后的文本向量,得到:
Ε=[E1,E2,…,En];
其中Ε表示句子文本经序列化后的字符数组,Ei表示文本中第i个字的序列化字符;
将经过ALBERT处理后的字符表示输入到BiLSTM层,BiLSTM通过前向和后向的LSTM来获得第t时刻前向隐藏层状态rt和后向隐藏层状态lt,并将rt和lt拼接起来作为隐藏层状态向量ht,最后将ht与词向量信息Et结合,得到最终的每个单词的上下文表示的计算过程如下:
上式为前向LSTM的三个门(输入门、遗忘门、输出门),为后向LSTM的三个门,这六个门可以控制信息流向,解决传统RNN的梯度消失与爆炸问题;在前向LSTM中,隐藏层状态rt-1对rt的更新有影响,对于后向LSTM,隐藏层状态lt+1对lt的更新有影响。W为权重矩阵;b为偏置项;σ为sigmoid激活函数;c为状态变量,其与输出门共同控制最后的隐藏层状态;*为哈达玛积;tanh为双曲正切函数;为向量的拼接操作。经过BiLSTM处理之后的具有上下文信息的字符数组为:
步骤三:提取词语上下文权重及全局语义信息Fglobal:
将BiLSTM输出的字符数组:
通过注意力机制对每个词的上下文匹配一个权重,以体现不同单词对句子全局语义特征的重要程度,最后通过加权求和得到全局语义信息Fglobal;
Wu为权重矩阵,bu为偏置项,ua为随机初始化、可学习的上下文向量,at为第t时刻的单词归一化权重。经过注意力机制加权,最终得到具有全局信息的向量Fglobal;
步骤四:提取文本特征信息Flocal:
采用基于层和词的局部信息提取的改进CNN模型,除了基于层的在不同的一维卷积核下的特征信息进行池化,同时对基于词的在不同层下的特征进行池化,取不同宽度大小的hl的一维卷积核(hl为卷积核宽度)作用于文本表征[E1,E2,…,Ei,…,En]上提取特征矩阵M;
M=[R1,R2,…,Rl];
Li=[ri1,ri2,…,ril];
Wil是结构中第i个词对应的第l个一维卷积核权重矩阵,其作用在字向量窗口产生新特征ril,其中b是偏置项,relu是激活函数。一维卷积核作用于每个可能的子向量窗口产生第l个一维卷积核特征向量Rl,多个卷积核特征向量组合得到特征矩阵M。M矩阵的行向量表示成同一个词在不同层的向量表示,同一层的特征可以由M的列向量表示。本专利使用的最大池化操作分别作用于特征矩阵M的行向量和列向量,方法上采用最大池化的方法。得到最显著的层特征和词特征最终将所有显著的层特征和词特征进行拼接,得到最后的特征表示Flocal。Ri表示第i层的层特征,Lj表示第j个词的特征;
步骤五:融合输出特征得到最终的类别预测概率p:
p1=softmax1(WgFglobal+bg);
p2=softmax2(WlocalFlocal+blocal);
通过注意力机制获得的文本语义特征信息Fglobal与通过基于层和词的局部信息提取的改进CNN获得的文本特征信息表示Flocal分别作用于softmax1分类器和softmax2分类器,分别获得分类概率p1与p2,取这两个概率的算数平均进行融合,最终得到类别预测概率p,其中Wg与Wlocal为可训练权重,bg与blocal为偏置项。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210492503.XA CN115114432A (zh) | 2022-04-29 | 2022-04-29 | 一种融合全局语义特征与拼接特征的标准内容文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210492503.XA CN115114432A (zh) | 2022-04-29 | 2022-04-29 | 一种融合全局语义特征与拼接特征的标准内容文本分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115114432A true CN115114432A (zh) | 2022-09-27 |
Family
ID=83326974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210492503.XA Pending CN115114432A (zh) | 2022-04-29 | 2022-04-29 | 一种融合全局语义特征与拼接特征的标准内容文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115114432A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115422362A (zh) * | 2022-10-09 | 2022-12-02 | 重庆邮电大学 | 一种基于人工智能的文本匹配方法 |
CN117649466A (zh) * | 2024-01-30 | 2024-03-05 | 深圳市崇宁实业有限公司 | 基于ai算法的装饰画雕刻凹纹的生成系统及方法 |
-
2022
- 2022-04-29 CN CN202210492503.XA patent/CN115114432A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115422362A (zh) * | 2022-10-09 | 2022-12-02 | 重庆邮电大学 | 一种基于人工智能的文本匹配方法 |
CN115422362B (zh) * | 2022-10-09 | 2023-10-31 | 郑州数智技术研究院有限公司 | 一种基于人工智能的文本匹配方法 |
CN117649466A (zh) * | 2024-01-30 | 2024-03-05 | 深圳市崇宁实业有限公司 | 基于ai算法的装饰画雕刻凹纹的生成系统及方法 |
CN117649466B (zh) * | 2024-01-30 | 2024-05-14 | 深圳市崇宁实业有限公司 | 基于ai算法的装饰画雕刻凹纹的生成系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110263324B (zh) | 文本处理方法、模型训练方法和装置 | |
CN107918782B (zh) | 一种生成描述图像内容的自然语言的方法与系统 | |
CN108595632B (zh) | 一种融合摘要与主体特征的混合神经网络文本分类方法 | |
CN109829299B (zh) | 一种基于深度自编码器的未知攻击识别方法 | |
CN110222163B (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
US6601049B1 (en) | Self-adjusting multi-layer neural network architectures and methods therefor | |
CN115114432A (zh) | 一种融合全局语义特征与拼接特征的标准内容文本分类方法 | |
CN111026869B (zh) | 一种利用基于多层注意力的序列生成网络进行多罪名预测的方法 | |
CN108595643A (zh) | 基于多分类节点卷积循环网络的文本特征提取及分类方法 | |
CN111027595B (zh) | 双阶段语义词向量生成方法 | |
CN111460132B (zh) | 一种基于图卷积神经网络的生成式会议摘要方法 | |
CN110826338B (zh) | 一种单选择门与类间度量的细粒度语义相似识别的方法 | |
CN111506732B (zh) | 一种文本多层次标签分类方法 | |
CN114743020A (zh) | 一种结合标签语义嵌入和注意力融合的食物识别方法 | |
CN114925195A (zh) | 一种融合词汇编码与结构编码的标准内容文本摘要生成方法 | |
CN110276396B (zh) | 基于物体显著性和跨模态融合特征的图片描述生成方法 | |
JP2019153093A (ja) | フレーズ生成関係性推定モデル学習装置、フレーズ生成装置、方法、及びプログラム | |
CN113626589A (zh) | 一种基于混合注意力机制的多标签文本分类方法 | |
CN109308316B (zh) | 一种基于主题聚类的自适应对话生成系统 | |
CN113919319B (zh) | 基于动作场景强化的脚本事件预测方法 | |
CN111400494A (zh) | 一种基于GCN-Attention的情感分析方法 | |
CN112199503B (zh) | 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法 | |
CN111309909A (zh) | 一种基于混合模型的文本情感分类方法 | |
CN112988970A (zh) | 一种服务于智能问答系统的文本匹配算法 | |
CN113239678B (zh) | 一种面向答案选择的多角度注意力特征匹配方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |