CN110413785B - 一种基于bert和特征融合的文本自动分类方法 - Google Patents

一种基于bert和特征融合的文本自动分类方法 Download PDF

Info

Publication number
CN110413785B
CN110413785B CN201910675003.8A CN201910675003A CN110413785B CN 110413785 B CN110413785 B CN 110413785B CN 201910675003 A CN201910675003 A CN 201910675003A CN 110413785 B CN110413785 B CN 110413785B
Authority
CN
China
Prior art keywords
text
len
layer
bert
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910675003.8A
Other languages
English (en)
Other versions
CN110413785A (zh
Inventor
高尚兵
李文婷
朱全银
周泓
陈晓兵
相林
陈浩霖
李翔
于永涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaiyin Institute of Technology
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN201910675003.8A priority Critical patent/CN110413785B/zh
Publication of CN110413785A publication Critical patent/CN110413785A/zh
Application granted granted Critical
Publication of CN110413785B publication Critical patent/CN110413785B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/061Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于BERT和特征融合的文本自动分类方法,首先对文本数据进行清洗,通过BERT实现文本到动态字向量的转化,同时利用CNN和BiLSTM来提取文本的特征,将BERT输出的字向量序列分别传给CNN网络和BiLSTM网络;然后将CNN网络的输出和BiLSTM网络的输出拼接在一起,进行特征融合,最后,通过全连接层以及softmax层输出最终的预测概率向量。本发明适用于普遍的有监督文本标签预测问题,可以有效地提高序列信息和局部特征突出的文本数据标签预测的精确度。

Description

一种基于BERT和特征融合的文本自动分类方法
技术领域
本发明涉及监督文本分类及深度学习领域,具体涉及一种基于BERT和特征融合的文本自动分类方法。
背景技术
随着互联网上在线文本信息数据的急剧增加,文本分类在信息处理上起着至关重要要的作用,是处理较大规模文本信息的关键技术,并推动了信息处理朝着自动化的方向发展,文本分类是对文本数据按照一定的分类体系或标准进行自动分类标记。属于一种基于分类体系的自动分类。搭建一个合理的预训练语言模型以及一个下游网络结构可以有效的解决文本分类问题,进而提高预测标签的准确度。
传统的文本分类方法中,大多是基于深度学习方法大部分采用CNN模型或RNN模型来解决文本分类问题,存在这很大的不足,且传统的基于深度学习方法是基于非动态字向量或者词向量来作为输入,字向量或者词向量并不能根据它的上下文去改变,信息涵盖量比较单一。针对这些问题,本发明提出了一种基于BERT和特征融合的文本自动分类方法。
发明内容
发明目的:为了解决现有技术存在的问题,本发明提供一种能提升文本分类任务精度的基于BERT和特征融合的文本自动分类方法。
技术方案:本发明提出一种基于BERT和特征融合的文本自动分类方法,包括如下步骤:
(1)输入一个原始文本数据集T,对文本数据进行预处理,得到文本数据集T′;其中,T={t1,t2,…,ta,…,tlen(T)},len(T)为T中文本内容的数量,ta为T中第a个文本信息,T′={t1′,t2′,…,tb′,…,tlen(T')′},len(T′)为T′中文本内容的数量,tb′为T′中第b个文本信息;
(2)对文本数据集T′进行向量化,利用预训练好的BERT模型将T′中的每个文本信息进行tokenization分词,将每个字转化成固定长度的向量,得到的词向量与句子编码和位置编码一起作为特征输入到BERT的双向Transformer当中,得到字向量序列S,其中S={s1,s2,…,se,…,slen(T')},其中,se是第e个文本的输出向量表示;
(3)对字向量序列S进行两次深度编码,以se为例,将步骤(2)得到的se分别输入到CNN和BiLSTM模型中,得到两个特征向量F1和F2
(4)对F1和F2两个特征向量进行特征融合得到新的特征向量F3,F3再经过全连接层来实现线性降维,得到F4={F1 4,F2 4,…,F10 4};
(5)使用softmax层进行概率运算,将步骤(4)得到的F4向量作为输入,输入到softmax层中,使得输入向量中的每个实数被映射为0到1之间的实数,并且输出向量中所有实数之和为1,这些实数表示相应种类的概率大小,得到的输出为概率预测向量P={p1,p2,…,pf,…,p10},其中,pf表示该文本为第f类的概率;
(6)模型参数优化,根据步骤(2)至步骤(5)对模型进行编译,采用的损失函数为交叉熵,优化器为adam,指标为准确度;编译完成后,使用带标记的数据对模型进行训练,训练前将所有数据划分训练集、验证集和测试集,训练时保存在验证集上准确度最高的模型;
(7)文本分类预测,利用步骤(6)得到的模型,对待分类的文本进行预测,模型输出一个概率预测向量P={p1,p2,…,pf,…,p10},搜索向量P中的最大数值,并将最大值对应的分类结果作为最终输出,即文本分类的结果Yout
步骤(1)所述数据预处理主要包括去重、去乱码、去空。
所述步骤(2)包括以下步骤:
(21)定义T′={t1′,t2′,…,tb′,…,tlen(T')′},其中,tb′表示T'文本数据集中的第b个文本,将待分类文本内容tb′统一为固定长度Lmax;
(22)定义i为循环变量,且赋i初值为1,开始循环;
(23)定义len(T')为T′数据集中的文本信息数量,如果i≤len(T′)则跳转到下一步;否则跳转到(28);
(24)定义len(ti′)为文本中第i个文本信息的长度,如果len(ti′)+2≤Lmax则跳转到下一步;否则对文本信息截取前Lmax个单位,且跳转到(25);
(25)通过建立一个双向预训练语言模型的BERT模型将T′中的每个文本ti′进行tokenization处理并转化成token的形式,得到token序列T″={t1″,t2″,…,tc″,…,tlen(T')″},其中,tc″表示第c个文本,tc″={W1,W2,…,Wd,…,WLmax},其中,变量c∈[1,len(T′)],变量d∈[1,len(Lmax)],Wd代表第d个token表示;
(26)将T″中每个文本tc″中的每一个token分别送入BERT的Token Embedding层、Segment Embeddings层和Position Embeddings层,分别得到向量编码V1、句子编码V2及位置编码V3
(27)将步骤(22)获得的三种不同的输出V1、V2和V3相加,输入到BERT的双向Transformer中,最终的输出来自于最后一层的隐藏层神经元,得到一个字向量序列si={V(W1),V(W2),…,V(We),…,V(WLmax)}作为BERT模型的输出,其中,V(We)代表第e个token的向量表示;
(28)跳出循环,并输出由len(T')个si组成的字向量序列S={s1,s2,…,se,…,slen(T')}。
步骤(3)所述的CNN模型先利用两次卷积、两次激活、两次池化方法对输入的字向量序列进行运算,然后将得到的多维特征用Flatten层转化成一维特征,得到特征向量F1,F1={F1 1,F2 1,…,Fk 1},其中,k=98304为CNN第二个池化层输出的神经元数。
骤(3)所述BiLSTM模型BiLSTM模型含有768个隐藏神经元,对输入的字向量序列进行一个序列上的双向运算,得到的输出经过非线性激活层的运算后,作为另一个特征向量F2,F2={F1 2,F2 2,…,Fm 2},其中,m=768为BiLSTM隐藏层神经元数。
步骤(6)所述的训练集、验证集和测试集按6:2:2划分。
有益效果:与现有技术相比,本发明的有益效果:本发明实现了在文本分类任务中,使用BERT预训练模型来生成上下文语义信息更丰富的动态字向量,并且通过特征融合的方法将CNN和BiLSTM的优势进行互补,可以提取文本的序列化特征,且对于字词的编码能力较好,达到提升文本分类任务精度的目的。
附图说明
图1为本发明的流程图;
图2为本发明的算法流程图;
图3为CNN网络结构图;
图4为BILSTM网络结构图。
具体实施方式
BERT(Bidirectional Encoder Representation from Transformers,Transformer的双向编码表示)语言模型:BERT利用masked model实现了语言模型的双向性,证明了双向性对语言表示预训练的重要性。BERT模型是真正意义上的双向语言模型,每个词可以同时利用该词的上下文信息。BERT是第一个微调模型在sentence-level和token-level自然语言任务都达到了最好效果。证明了pre-trained representations可以缓解了不同任务对特殊模型结构的设计需求。BERT在11个自然语言处理任务上达到了最好效果。并在BERT的extensive ablations证明了“BERT的双向性”是一个重要的创新。BERT语言模型实现了文本到动态字向量的转化,增强了文本向量的语义信息。
BILSTM模型(双向长短时记忆网络模型):
长短记忆神经网络——通常称作LSTM,是一种特殊的RNN,能够学习长的依赖关系。LSTM是为了避免长依赖问题而精心设计的。记住较长的历史信息实际上是他们的默认行为,而不是他们努力学习的东西。所有循环神经网络都具有神经网络的重复模块链的形式。在标准的RNN中,该重复模块将具有非常简单的结构,例如单个tanh层。输入层的数据会经过向前和向后两个方向推算,最后输出的隐含状态再进行concat,再作为下一层的输入,原理其实和LSTM是类似的,就是多了双向计算和concat过程,增强了上下文的特征联系的语义信息。
CNN模型(卷积神经网络模型):
一般的,CNN的基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性。此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层,这种特有的两次特征提取结构减小了特征分辨率,充分利用卷积神经网络提取局部特征的优势对文本进行特征提取。
下面结合附图对本发明作进一步详细说明。本实施方式中涉及大量变量,现将个变量作如下说明,如表1所示:
表1变量说明表
Figure GDA0003195785810000041
Figure GDA0003195785810000051
Figure GDA0003195785810000061
如图1所示,一种基于BERT和特征融合的文本自动分类方法,包括以下步骤,具体算法如图2所示:
1、输入一个原始文本数据集T,对文本数据进行预处理;其中,T={t1,t2,…,ta,…,tlen(T)},其中,len(T)为T中文本内容的数量,ta为T中第a个文本信息。具体数据预处理处理步骤如下:进行语句的规范化,若出现字词不规范、句子结构混乱、段落不完整等异常情况,则进行相应的修改或删除,以保证文本内容的正确和规范,最终得到文本数据集T′,T′={t1′,t2′,…,tb′,…,tlen(T')′},其中,len(T′)为T′中文本内容的数量,tb′为T′中第b个文本信息。
2、对文本数据集T′进行向量化,利用一个预训练好的BERT模型将T′中的每个文本信息进行tokenization分词,将每个字转化成固定长度的向量,得到的词向量与句子编码和位置编码一起作为特征输入到BERT的双向Transformer当中,最终得到一个字向量序列S,其中S={s1,s2,…,se,…,slen(T')},其中,se是第e个文本的输出向量表示。
步骤2中得到词向量序列的方法为:
(1)定义T′={t1′,t2′,…,tb′,…,tlen(T')′},其中,tb′表示T'文本数据集中的第b个文本;首先将待分类文本内容tb′统一为固定长度Lmax。
(2)定义i为循环变量,且赋i初值为1,开始循环。
(3)定义len(T')为T′数据集中的文本信息数量,如果i≤len(T′)则跳转到下一步;否则跳转到(8)。
(4)定义len(ti′)为文本中第i个文本信息的长度,如果len(ti′+2)≤Lmax则跳转到下一步;否则对文本信息截取前Lmax个单位,且跳转到(5)。
(5)通过建立一个双向预训练语言模型的BERT模型将T′中的每个文本ti′进行tokenization处理并转化成token的形式,得到token序列T″={t1″,t2″,…,tc″,…,tlen(T')″},其中,tc″表示第c个文本,tc″={W1,W2,…,Wd,…,WLmax},其中,变量c∈[1,len(T′)],变量d∈[1,len(Lmax)],Wd代表第d个token表示;
(6)将T″中每个文本tc″中的每一个token分别送入BERT的Token Embedding层、Segment Embeddings层和Position Embeddings层,分别得到向量编码V1、句子编码V2及位置编码V3
(7)将(2)获得的三种不同的输出V1、V2和V3相加,输入到BERT的双向Transformer中,最终的输出来自于最后一层的隐藏层神经元,得到一个字向量序列si={V(W1),V(W2),…,V(We),…,V(WLmax)}作为BERT模型的输出,其中,V(We)代表第e个token的向量表示;
(8)跳出循环,并输出由len(T')个si组成的字向量序列S={s1,s2,…,se,…,slen(T')}。
3、对字向量序列S进行两次深度编码,以si为例,将步骤2得到的si分别输入到CNN和BiLSTM模型中。其中,CNN模型先利用两次卷积、两次激活、两次池化方法对输入的字向量序列进行运算,然后将得到的多维特征用Flatten层转化成一维特征,最终得到一个特征向量F1,F1={F1 1,F2 1,…,Fk 1},k=98304为CNN第二个池化层输出的神经元数;这里的BiLSTM模型含有768个隐藏神经元,对输入的字向量序列进行一个序列上的双向运算,得到的输出经过非线性激活层的运算后,作为另一个特征向量F2,F2={F1 2,F2 2,…,Fm 2},其中,m=768为BiLSTM隐藏层神经元数。
图3为CNN网络结构CNN模型运算的具体方法为:
(1)这里卷积神经网络CNN的输入为si,首先经过第一个卷积层,用128个100×5的卷积核对输入si进行卷积运算,得到特征f1
(2)将上一步得到的f1输入到激活函数Relu()中,得到输出为f2计算公式为:
f2=max(0,f1)
(3)将上一步得到的f2输入到最大值池化层,用1×101的池化核进行步长为1的池化,得到输出为f3
(4)重复(1)至(3)将其中部分参数替换:卷积层改用256个1×1的卷积核进行卷积,最大值池化层改用1×1的池化核进行步长为2的池化,最终得到输出为f4
(5)使用Flatten层将多维特征f4压缩为一个一维向量,得到CNN的最终输出为F1
图4为BiLSTM网络结构图,BiLSTM模型运算的具体方法为:
(1)这里双向长短期记忆网络BiLSTM的输入为si,对输入进行正向和反向的语义信息计算,最终得到与句子长度相同的正向隐层状态序列Hi={hi0,hi1,…,hi(n-1)}和反向隐层状态序列Hi′={hi0′,hi1′,…,hi(n-1)′},再将H和H′进行合并得到hi,具体公式如下:
hi=Hi+Hi
(2)将上一步得到的BiLSTM的输出hi输入到Leaky Relu激活函数中,得到输出为F2具体公式为:
Figure GDA0003195785810000081
4、将步骤3得到的两个分别来自于CNN和BiLSTM的F1和F2特征向量进行融合:首先对这两个特征向量进行拼接得到一个新的特征向量F3={F1 3,F2 3,…,Fl 3},其中,l=k+mF3;特征向量再经过全连接层来实现线性降维,维数最终降至10(对应10个预测结果),得到F4={F1 4,F2 4,…,F10 4}。
5、使用softmax层进行概率运算,将步骤4得到的F4向量作为输入,输入到softmax层中,使得输入向量中的每个实数被映射为0到1之间的实数,并且输出向量中所有实数之和为1,这些实数表示相应种类的概率大小,得到的输出为概率预测向量P={p1,p2,…,pf,…,p10},其中,pf表示该文本为第f类的概率。
softmax层运算的具体方法为:
这里的输入为F4={F1 4,F2 4,…,Ff 4,…,F10 4},其中,f∈[1,10],计算每一个输出的似然值为
Figure GDA0003195785810000082
最终得到概率预测向量P={p1,p2,…,pf,…,p10}。
6、模型参数优化,根据步骤2至步骤5对模型进行编译,采用的损失函数为交叉熵,优化器为adam,指标为准确度。编译完成后,使用带标记的数据对模型进行训练,训练前将所有数据按6:2:2划分训练集、验证集和测试集,训练时保存在验证集上准确度最高的模型。
7、文本分类预测,利用步骤6得到的模型,对待分类的文本进行预测,模型输出一个概率预测向量P={p1,p2,…,pf,…,p10},搜索向量P中的最大数值,并将最大值对应的分类结果作为最终输出,即文本分类的结果Yout
为了更好的说明本方法的有效性,通过对3541311条招聘信息文本数据进行清洗,进行语句的规范化,若出现字词不规范、句子结构混乱、段落不完整等异常情况,则进行相应的修改或删除,以保证文本内容的正确和规范。对文本数据进行向量化,利用BERT预训练语言模型将句子中的每个字进行向量化,然后保持每个字在句子中的顺序不变,将每个字映射成一个向量,得到字向量序列。对字向量序列进行两次深度编码,将得到的字向量序列分别输入到CNN和BiLSTM模型中,对两个特征向量进行特征融合,然后通过全连接层以及softmax输出最终的预测标签。改进的文本分类算法进一步提高了分类的准确度,在一共10个标签的文本分类中的精确率、召回率、F1-Score均达到了96%的分类效果。
本发明创造性的提出了一种基于BERT和特征融合的文本自动分类方法。充分利用卷积神经网络提取局部特征的优势以及利用BiLSTM具有记忆的优势将提取的上下文特征联系起来更好地表示文本的语义信息,从而达到提升文本分类任务精度的目的。适用于较大规模文本数据,可以有效地提高序列信息和局部特征突出的文本数据标签预测的精确度。
以上所述仅为本发明的实施例子而已,并不用于限制本发明。凡在本发明的原则之内,所做的等同替换,均因包含在本发明的保护范围之内。本发明未作详细阐述的内容属于本专业领域技术人员公知的已有的技术。

Claims (4)

1.一种基于BERT和特征融合的文本自动分类方法,其特征在于,包括以下步骤:
(1)输入一个原始文本数据集T,对文本数据进行预处理,得到文本数据集T′;其中,T={t1,t2,…,ta,…,tlen(T)},len(T)为T中文本内容的数量,ta为T中第a个文本信息,T′={t1′,t2′,…,tb′,…,tlen(T')′},len(T′)为T′中文本内容的数量,tb′为T′中第b个文本信息;
(2)对文本数据集T′进行向量化,利用预训练好的BERT模型将T′中的每个文本信息进行tokenization分词,将每个字转化成固定长度的向量,得到的词向量与句子编码和位置编码一起作为特征输入到BERT的双向Transformer当中,得到字向量序列S,其中S={s1,s2,…,se,…,slen(T')},其中,se是第e个文本的输出向量表示;
(3)对字向量序列S进行两次深度编码,以se为例,将步骤(2)得到的se分别输入到CNN和BiLSTM模型中,得到两个特征向量F1和F2
(4)对F1和F2两个特征向量进行特征融合得到新的特征向量F3,F3再经过全连接层来实现线性降维,得到F4={F1 4,F2 4,…,F10 4};
(5)使用softmax层进行概率运算,将步骤(4)得到的F4向量作为输入,输入到softmax层中,使得输入向量中的每个实数被映射为0到1之间的实数,并且输出向量中所有实数之和为1,这些实数表示相应种类的概率大小,得到的输出为概率预测向量P={p1,p2,…,pf,…,p10},其中,pf表示该文本为第f类的概率;
(6)模型参数优化,根据步骤(2)至步骤(5)对模型进行编译,采用的损失函数为交叉熵,优化器为adam,指标为准确度;编译完成后,使用带标记的数据对模型进行训练,训练前将所有数据划分训练集、验证集和测试集,训练时保存在验证集上准确度最高的模型;
(7)文本分类预测,利用步骤(6)得到的模型,对待分类的文本进行预测,模型输出一个概率预测向量P={p1,p2,…,pf,…,p10},搜索向量P中的最大数值,并将最大值对应的分类结果作为最终输出,即文本分类的结果Yout
步骤(3)所述的CNN模型先利用两次卷积、两次激活、两次池化方法对输入的字向量序列进行运算,然后将得到的多维特征用Flatten层转化成一维特征,得到特征向量F1
Figure FDA0003195785800000011
其中,k=98304为CNN第二个池化层输出的神经元数;具体实现过程如下:
1)卷积神经网络CNN的输入为si,首先经过第一个卷积层,用128个100×5的卷积核对输入si进行卷积运算,得到特征f1
2)将f1输入到激活函数Relu()中,得到输出为f2计算公式为:
f2=max(0,f1)
3)将f2输入到最大值池化层,用1×101的池化核进行步长为1的池化,得到输出为f3
4)重复1)至3)将其中部分参数替换:卷积层改用256个1×1的卷积核进行卷积,最大值池化层改用1×1的池化核进行步长为2的池化,最终得到输出为f4
5)使用Flatten层将多维特征f4压缩为一个一维向量,得到CNN的最终输出为F1
步骤(3)所述BiLSTM模型BiLSTM模型含有768个隐藏神经元,对输入的字向量序列进行一个序列上的双向运算,得到的输出经过非线性激活层的运算后,作为另一个特征向量F2,F2={F1 2,F2 2,…,Fm 2},其中,m=768为BiLSTM隐藏层神经元数。
2.根据权利要求1所述的一种基于BERT和特征融合的文本自动分类方法,其特征在于,步骤(1)所述数据预处理主要包括去重、去乱码、去空。
3.根据权利要求1所述的一种基于BERT和特征融合的文本自动分类方法,其特征在于,所述步骤(2)包括以下步骤:
(21)定义T′={t1′,t2′,…,tb′,…,tlen(T')′},其中,tb′表示T'文本数据集中的第b个文本,将待分类文本内容tb′统一为固定长度Lmax;
(22)定义i为循环变量,且赋i初值为1,开始循环;
(23)定义len(T')为T′数据集中的文本信息数量,如果i≤len(T′)则跳转到下一步;否则跳转到(28);
(24)定义len(ti′)为文本中第i个文本信息的长度,如果len(ti′)+2≤Lmax则跳转到下一步;否则对文本信息截取前Lmax个单位,且跳转到(25);
(25)通过建立一个双向预训练语言模型的BERT模型将T'中的每个文本ti′进行tokenization处理并转化成token的形式,得到token序列T″={t1″,t2″,…, tc″,…,tlen(T')″},其中,tc″表示第c个文本,tc″={W1,W2,…,Wd,…,WLmax},其中,变量c∈[1,len(T′)],变量d∈[1,len(Lmax)],Wd代表第d个token表示;
(26)将T″中每个文本tc″中的每一个token分别送入BERT的Token Embedding层、Segment Embeddings层和Position Embeddings层,分别得到向量编码V1、句子编码V2及位置编码V3
(27)将步骤(22)获得的三种不同的输出V1、V2和V3相加,输入到BERT的双向Transformer中,最终的输出来自于最后一层的隐藏层神经元,得到一个字向量序列si={V(W1),V(W2),…,V(We),…,V(WLmax)}作为BERT模型的输出,其中,V(We)代表第e个token的向量表示;
(28)跳出循环,并输出由len(T')个si组成的字向量序列S={s1,s2,…,se,…,slen(T')}。
4.根据权利要求1所述的一种基于BERT和特征融合的文本自动分类方法,其特征在于,步骤(6)所述的训练集、验证集和测试集按6:2:2划分。
CN201910675003.8A 2019-07-25 2019-07-25 一种基于bert和特征融合的文本自动分类方法 Active CN110413785B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910675003.8A CN110413785B (zh) 2019-07-25 2019-07-25 一种基于bert和特征融合的文本自动分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910675003.8A CN110413785B (zh) 2019-07-25 2019-07-25 一种基于bert和特征融合的文本自动分类方法

Publications (2)

Publication Number Publication Date
CN110413785A CN110413785A (zh) 2019-11-05
CN110413785B true CN110413785B (zh) 2021-10-19

Family

ID=68362997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910675003.8A Active CN110413785B (zh) 2019-07-25 2019-07-25 一种基于bert和特征融合的文本自动分类方法

Country Status (1)

Country Link
CN (1) CN110413785B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991535A (zh) * 2019-12-04 2020-04-10 中山大学 一种基于多类型医学数据的pCR预测方法
CN111143553B (zh) * 2019-12-06 2023-04-07 国家计算机网络与信息安全管理中心 一种实时文本数据流的特定信息识别方法及系统
CN111143563A (zh) * 2019-12-27 2020-05-12 电子科技大学 基于bert与lstm及cnn融合的文本分类方法
CN111223498A (zh) * 2020-01-10 2020-06-02 平安科技(深圳)有限公司 情绪智能识别方法、装置及计算机可读存储介质
CN111104516B (zh) * 2020-02-10 2023-07-04 支付宝(杭州)信息技术有限公司 一种文本分类方法、装置及电子设备
CN111325021A (zh) * 2020-02-17 2020-06-23 国家计算机网络与信息安全管理中心 识别微信公众号所属业态的方法及装置
CN111414454B (zh) * 2020-03-16 2022-07-19 昆明理工大学 基于bert模型和法条知识的法条推荐处理方法
CN113505591A (zh) * 2020-03-23 2021-10-15 华为技术有限公司 一种槽位识别方法及电子设备
CN111475649B (zh) * 2020-04-02 2023-04-07 中国人民解放军国防科技大学 基于深度学习的虚假新闻预测方法、系统、装置、介质
CN111401077B (zh) * 2020-06-02 2020-09-18 腾讯科技(深圳)有限公司 语言模型的处理方法、装置和计算机设备
CN111797229A (zh) * 2020-06-10 2020-10-20 南京擎盾信息科技有限公司 文本表示方法、装置和文本分类方法
CN111881257B (zh) * 2020-07-24 2022-06-03 广州大学 基于主题词和语句主旨的自动匹配方法、系统及存储介质
CN111814028B (zh) * 2020-09-14 2021-02-26 腾讯科技(深圳)有限公司 一种信息搜索方法及装置
CN112632274B (zh) * 2020-10-29 2024-04-26 中科曙光南京研究院有限公司 一种基于文本处理的异常事件分类方法及系统
CN112307212A (zh) * 2020-11-11 2021-02-02 上海昌投网络科技有限公司 一种用于广告投放的投放舆情监测方法
CN112380850A (zh) * 2020-11-30 2021-02-19 沈阳东软智能医疗科技研究院有限公司 错别字识别方法、装置、介质及电子设备
CN112632971B (zh) * 2020-12-18 2023-08-25 上海明略人工智能(集团)有限公司 一种用于实体匹配的词向量训练方法与系统
CN113590813A (zh) * 2021-01-20 2021-11-02 腾讯科技(深圳)有限公司 文本分类方法、推荐方法、装置及电子设备
CN112765957A (zh) * 2021-02-27 2021-05-07 中电万维信息技术有限责任公司 一种无标点文本分句方法
CN113051914A (zh) * 2021-04-09 2021-06-29 淮阴工学院 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN113961696B (zh) * 2021-10-29 2024-05-14 安阳师范学院 一种基于ObiBert的甲骨文自动缀合校验方法
CN116090463A (zh) * 2021-11-03 2023-05-09 中移(苏州)软件技术有限公司 一种名片信息抽取系统训练方法及装置、存储介质
CN114357168B (zh) * 2021-12-31 2022-08-02 成都信息工程大学 一种文本分类方法
CN115827856B (zh) * 2022-07-26 2023-06-20 国家国防科技工业局军工项目审核中心 一种基于计算机的军工领域消息的传递方法
CN115470354B (zh) * 2022-11-03 2023-08-22 杭州实在智能科技有限公司 基于多标签分类识别嵌套和重叠风险点的方法及系统
CN116258390B (zh) * 2022-12-22 2024-04-05 华中师范大学 一种面向教师在线教学反馈的认知支持质量评价方法及系统
CN116028627B (zh) * 2023-02-13 2023-06-13 特斯联科技集团有限公司 新闻分类方法及装置、电子设备、计算机可读存储介质
CN116364055B (zh) * 2023-05-31 2023-09-01 中国科学院自动化研究所 基于预训练语言模型的语音生成方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599933A (zh) * 2016-12-26 2017-04-26 哈尔滨工业大学 一种基于联合深度学习模型的文本情感分类方法
CN109299268A (zh) * 2018-10-24 2019-02-01 河南理工大学 一种基于双通道模型的文本情感分析方法
CN109508377A (zh) * 2018-11-26 2019-03-22 南京云思创智信息科技有限公司 基于融合模型的文本特征提取方法、装置、聊天机器人和存储介质
CN109710770A (zh) * 2019-01-31 2019-05-03 北京牡丹电子集团有限责任公司数字电视技术中心 一种基于迁移学习的文本分类方法及装置
CN110032648A (zh) * 2019-03-19 2019-07-19 微医云(杭州)控股有限公司 一种基于医学领域实体的病历结构化解析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599933A (zh) * 2016-12-26 2017-04-26 哈尔滨工业大学 一种基于联合深度学习模型的文本情感分类方法
CN109299268A (zh) * 2018-10-24 2019-02-01 河南理工大学 一种基于双通道模型的文本情感分析方法
CN109508377A (zh) * 2018-11-26 2019-03-22 南京云思创智信息科技有限公司 基于融合模型的文本特征提取方法、装置、聊天机器人和存储介质
CN109710770A (zh) * 2019-01-31 2019-05-03 北京牡丹电子集团有限责任公司数字电视技术中心 一种基于迁移学习的文本分类方法及装置
CN110032648A (zh) * 2019-03-19 2019-07-19 微医云(杭州)控股有限公司 一种基于医学领域实体的病历结构化解析方法

Also Published As

Publication number Publication date
CN110413785A (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
CN110413785B (zh) 一种基于bert和特征融合的文本自动分类方法
CN111611377B (zh) 基于知识蒸馏的多层神经网络语言模型训练方法与装置
CN109033068B (zh) 基于注意力机制的用于阅读理解的方法、装置和电子设备
CN111368996B (zh) 可传递自然语言表示的重新训练投影网络
CN111143563A (zh) 基于bert与lstm及cnn融合的文本分类方法
WO2023134084A1 (zh) 多标签识别方法、装置、电子设备及存储介质
WO2023160472A1 (zh) 一种模型训练方法及相关设备
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN113407660B (zh) 非结构化文本事件抽取方法
CN112163092B (zh) 实体及关系抽取方法及系统、装置、介质
CN109522561B (zh) 一种问句复述识别方法、装置、设备及可读存储介质
CN111428470B (zh) 文本连贯性判定及其模型训练方法、电子设备及可读介质
CN114387567A (zh) 一种视频数据的处理方法、装置、电子设备及存储介质
CN110955745B (zh) 一种基于深度学习的文本哈希检索方法
CN111914553A (zh) 一种基于机器学习的金融信息负面主体判定的方法
CN114861941A (zh) 多模型融合方法、装置、电子设备及计算机可读存储介质
CN117094325B (zh) 水稻病虫害领域命名实体识别方法
CN117634459A (zh) 目标内容生成及模型训练方法、装置、系统、设备及介质
CN112528168A (zh) 基于可形变自注意力机制的社交网络文本情感分析方法
CN111666375A (zh) 文本相似度的匹配方法、电子设备和计算机可读介质
US20240037335A1 (en) Methods, systems, and media for bi-modal generation of natural languages and neural architectures
CN114925197B (zh) 基于主题注意力的深度学习文本分类模型训练方法
WO2023159759A1 (zh) 模型的训练方法、情感消息生成方法和装置、设备、介质
KR102589074B1 (ko) 챗봇 운영 방법 및 장치
CN115422945A (zh) 一种融合情感挖掘的谣言检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20191105

Assignee: HUAIAN TIANZE STAR NETWORK INFORMATION INDUSTRY LTD.

Assignor: HUAIYIN INSTITUTE OF TECHNOLOGY

Contract record no.: X2021980012224

Denomination of invention: An automatic text classification method based on Bert and feature fusion

Granted publication date: 20211019

License type: Common License

Record date: 20211111

EE01 Entry into force of recordation of patent licensing contract