CN114510569A - 基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法 - Google Patents

基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法 Download PDF

Info

Publication number
CN114510569A
CN114510569A CN202210030824.8A CN202210030824A CN114510569A CN 114510569 A CN114510569 A CN 114510569A CN 202210030824 A CN202210030824 A CN 202210030824A CN 114510569 A CN114510569 A CN 114510569A
Authority
CN
China
Prior art keywords
text
vector
feature vector
model
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210030824.8A
Other languages
English (en)
Inventor
陈晓兵
康丽
卢佳琪
包涵
张润
张冰莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaiyin Institute of Technology
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN202210030824.8A priority Critical patent/CN114510569A/zh
Publication of CN114510569A publication Critical patent/CN114510569A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法,首先对文本数据进行文本预处理;然后,对词语进行注意力机制处理,提取单词和子序列的信息依赖关系;与此同时,基于改进ChineseBERT预训练模型进行拼音信息和字符信息的提取;之后对拼音信息和字符信息进行矩阵融合,同时加上位置信息,保持上下文语义的完整性,通过经典的Bert模型进行处理,使用参数共享机制,得到最终的信息特征向量;对得到的上下文语义向量和信息依赖关系向量融合,作为CNN的输入,得到最终的化工新闻分类结果。本发明充分优化了文本的拼音字符语义信息;提取词语的依赖关系和局部依赖关系的问题;通过Bert模型参数共享机制降低时间复杂度的问题,有效的提高文本分类的精确度。

Description

基于ChineseBERT模型和注意力机制的化工突发事件新闻分 类方法
技术领域
本发明属于文本分类和自然语言处理技术领域,具体涉及一种基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法。
背景技术
ChineseBERT模型主要是融合字形与拼音信息的中文预训练模型,模型将字符嵌入(char embedding)、字形嵌入(glyph embedding)和拼音嵌入(pinyin embedding)进行拼接起来;然后通过融合层,得到一个d维融合嵌入(fusion embedding);最后将其与位置嵌入(position embedding)、片段嵌入(segment embedding)相加,形成Transformer-Encoder层的输入。由于预训练时没有使用NSP任务,因此模型结构省略了片段嵌入(segment embedding)。
MLP多层感知机,也叫做人工神经网络,除了输入输出层,它中间可以有多个隐层,最简单的MLP只含一个隐层,即三层的结构,多层感知机层与层之间是全连接的。多层感知机最底层是输入层,中间是隐藏层,最后是输出层。
Attention机制就是对输入的每个元素考虑不同的权重参数,从而更加关注与输入的元素相似的部分,而抑制其它无用的信息。其最大的优势就是能一步到位的考虑全局联系和局部联系,且能并行化计算,这在大数据的环境下尤为重要的。
在面对新闻文本分类问题的时候,研究者们会选择将语句相似度、神经网络等融入到文本分类中,忽略了文本数据训练时的时间复杂度,中文字符拼音信息,深层次文本特征的提取问题以及对应数据的语义信息。因此,通过改进ChineseBERT预训练模型的架构和共享Bert模型的参数,来提高模型的鲁棒性和降低时间复杂度,同时结合连级注意力机制得到字符到子序列上下文特征信息,从而解决中文化工突发事件新闻文本分类的问题,进而提高文本分类的准确度。
现有的文本分类方法中,有的只关注分类短文本的特征向量与预设特征向量簇集合中特征向量簇的中心向量的相似度,没有考虑文本信息的实体特征信息;有的只关注主题语义特征,没有考虑文本的全局特征信息。也有的方法主要是进行特征的简单提取,没有考虑使用预训练模型,还有长依赖项的关系。
在面对化工突发事件新闻文本分类问题时,已有论文主要基于传统的特征提取方法和主题识别方法,其次基于深度神经网络分类模型等,但是关于文本分类还有很多的问题有待解决:化工新闻信息在训练时的时间复杂度、空间复杂度和模型的鲁棒性问题;特征提取的信息不能充分的刻画文本的全文信息,有些语义是不同的,例如同字异义的,全局的上下文信息不够全面现象;对于ChineseBERT这个中文预训练模型,在预训练时候,对于字形信息,需要通过不同的字体的实例化图像进行处理,之后还需要进行识别学习和扁平化操作,占用很多的空间复杂度;并且模型是从头训练,在向量层需要,但是在transformer-encoder层也是从头训练,导致时间复杂度增加。
发明内容
发明目的:针对现有技术中存在的问题,本发明提出一种基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法,能够多层面精确刻画文本数据特征,通过改进ChineseBERT模型的架构,即抽取拼音向量和字符向量来进行融合,之后加入位置向量进行整合,输入到Bert模型中进行训练,其中的Bert参数实行共享,降低时间复杂度,解耦属于同一字符形式的不同语义,同时使用连级注意力机制来增进上下文特征信息,来弥补传统新闻文本特征信息丢失问题,提高化工突发事件新闻实际应用效率,实现准确的文本分类。
技术方案:本发明提出一种基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法,具体包括以下步骤:
(1)将化工突发事件新闻文本数据D进行文本预处理,得到新闻文本数据D1;
(2)通过word2vec模型处理化工突发文本数据D1,得到文本特征向量R1,将词向量R1输入到Word Attention模型中,得到新的词依赖特征信息H1,再将词依赖特征信息H1输入到Seq Attention模型,得到子序列特征信息H2;
(3)通过对文本数据D1进行开源拼音包处理,得到对应的拼音序列,之后输入到MLP,经过最大池化层输出拼音向量H3,对预处理后的文本进行one-hot编码,得到字符向量H4,与拼音向量H3进行矩阵化嵌入,得到2维矩阵向量R3;
(4)将矩阵特征信息R3与位置向量信息R4进行整合得到特征信息H5,输入H5至Bert预训练模型中,得到对应的特征信息H6;
(5)将步骤(2)中的上下文特征信息H2与步骤(4)中的语义特征信息H6进行整合,输入到CNN模型中,得到最终的文本分类结果。
进一步地,所述步骤(1)包括以下步骤:
(11)定义化工突发事件新闻文本数据集为D,定义Text为单个文本数据,定义id,title,label分别为单个文本序列号,数据的标题,文本标签,并且满足关系Text={id,title,label},D={Text1,Text2,…,Texti,…,Textn},Texti为D中第i个文本信息数据,其中,n=len(D)为D中文本数量,变量i∈[1,n];
(12)定义处理后的化工突发事件文本数据集为D1,D1={Text1,Text2,…,Textj,…,Textm},Textj为D1中第j个文本信息数据,其中,m=len(D1)分别为D1中文本数量,变量j∈[1,m];
(13)读取数据集D,遍历整个数据集;
(14)如果title==null,执行(15),否则执行(16);
(15)删除对应行数据;
(16)根据停用词表去除一些无用的字符;
(17)保存预处理后的文本数据集D1。
进一步地,所述步骤(2)包括以下步骤:
(201)读取预处理后的文本数据集D1;
(202)定义词特征向量集R1;
(203)通过word2vec模型进行数据分词处理,由word2vec模型进行训练得到文本词特征向量
Figure BDA0003466380610000031
(204)保存词特征向量R1,并且满足
Figure BDA0003466380610000032
Figure BDA0003466380610000033
为数据向量集中第i个词特征向量,其中,变量i∈[1,a],a为分词后词向量的数量;
(205)定义基于注意力机制的词依赖特征向量H1;
(206)将词特征向量R1,输入到Attention机制中,得到基于注意力的词依赖特征向量
Figure BDA0003466380610000034
其中
Figure BDA0003466380610000035
表示文本中的第j个词依赖特征向量,满足
Figure BDA0003466380610000036
变量j∈[1,b],b为词依赖特征向量的数量,其中的Attention机制的输入与调整方法为,使用softmax归一化,进行权重矩阵Wf调节,之后乘V,
Figure BDA0003466380610000037
其中,dk为一个Q和K向量的维度,
Figure BDA0003466380610000038
为尺度标量因子,分别代表query,key,value;
(207)定义循环变量k,用来学习第一级注意力机制的词特征向量H1,k初始值为1;
(208)定义基于注意力机制的子序列依赖特征向量H2;
(209)如果k≤b则执行(210),否则执行(212);
(210)将词依赖特征向量H1,输入到Attention机制中,得到基于注意力的子序列依赖特征向量
Figure BDA0003466380610000041
其中
Figure BDA0003466380610000042
表示文本中的第t个子序列依赖特征向量,满足
Figure BDA0003466380610000043
变量t∈[1,c],c为子序列依赖特征向量的数量;
(211)k=k+1;
(212)输出并保存二级注意力机制的特征向量H2。
进一步地,所述步骤(3)包括以下步骤:
(31)定义拼音特征向量H3,定义one-hot字符向量H4,定义融合嵌入矩阵R3;
(32)读入文本数据D1到开源的拼音包里,得到拼音表示,将其输入到MLP中,神经网络中由3个隐藏层,每个隐藏层64个节点数,然后由最大池化层得到拼音向量
Figure BDA0003466380610000044
满足
Figure BDA0003466380610000045
Figure BDA0003466380610000046
为数据向量集中第i个字符对应的拼音向量,其中,变量i∈[1,d],d为拼音向量的数量;
(33)读取预处理数据D1,通过one-hot编码字符向量,得到字符向量
Figure BDA0003466380610000047
满足
Figure BDA0003466380610000048
Figure BDA0003466380610000049
为数据向量集中第j个字符特征向量,其中,变量j∈[1,e];
(34)融合拼音向量H3和字符向量H4,得到融合嵌入向量
Figure BDA00034663806100000410
主要使用具有可学习矩阵的全连接层诱导矩阵向量的嵌入,融合矩阵向量
Figure BDA00034663806100000411
其中
Figure BDA00034663806100000412
表示文本中的第t个字符对应的融合特征向量,变量t∈[1,s]。
进一步地,所述步骤(4)包括以下步骤:
(41)定义位置向量R4,定义融合位置向量的特征向量矩阵H5,定义Bert预训练后的特征向量H6;
(42)将融合矩阵向量R3与positional Embedding相加,得到整合特征向量矩阵
Figure BDA00034663806100000413
其中,变量h∈[1,f];
(43)读取整合特征向量矩阵H5输入到Bert模型中训练,得到最终的特征信息向量H6,其中
Figure BDA00034663806100000414
Figure BDA00034663806100000415
为Bert训练后向量第p个特征向量,其中,变量p∈[1,g],对Bert模型的训练参数共享,得到对应的训练特征向量。
进一步地,所述步骤(5)包括以下步骤:
(51)读取上下文特征信息H2,读取语义信息H6;
(52)将H2和H6整合得到的特征向量输入到CNN分类模型中的卷积层,将先前层的特征映射与卷积核卷积,并加上相应修正偏差b1,作为权重的修正超参数;
(53)通过隐藏层激活函数的相关运算,输出特征映射,使用Leaky-ReLU激活函数,作为隐藏层的激活函数,如下公式,Leaky-ReLU为所有负值分配一个非零的斜率:
Figure BDA0003466380610000051
其中,ai是固定的超参数,i表示对应第i个特征信息的ai
(54)定义预测标签集L,使用最大池化层进行处理,之后进行全连接操作,进行文本分类L={label},得到最终的文本分类结果S。
有益效果:与现有技术相比,本发明的有益效果:本发明基于ChineseBert模型的改进,利用拼音和字符向量信息进行整合嵌入,同时添加位置向量信息进行整合,输入到Bert模型中进行训练,其中的Bert参数使用共享机制,用来解耦属于同一字符形式的不同语义,节省资源消耗的同时得到对应的上下文语义信息;同时使用Word2Vec模型进行预处理数据的处理,接着使用连级的Attention机制进行信息学习,得到词到序列的特征信息与上下文关联;最后融合以上两部分的特征向量输入到CNN分类模型中,得到最终的文本分类结果。
附图说明
图1为本发明的流程图;
图2为新闻文本数据预处理流程图;
图3为Word2Vec模块和连级Attention机制特征信息提取流程图;
图4为拼音与字符向量嵌入流程图;
图5为特征融合嵌入及Bert模型训练流程图;
图6为多特征融合文本分类流程图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明提出一种基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法,如图1所示,具体包括以下步骤:
本发明涉及的变量,如表1所示:
表1变量说明表
Figure BDA0003466380610000061
Figure BDA0003466380610000071
步骤1:对化工突发事件新闻数据集D通过遍历和筛选,得到预处理后的化工突发事件新闻集D1。如图2所示,具体方法为:
步骤1.1:定义化工突发事件新闻文本数据集为D,定义Text为单个文本数据,定义id,title,label分别为单个文本序列号,数据的标题,文本标签,并且满足关系Text={id,title,label},D={Text1,Text2,…,Texti,…,Textn},Texti为D中第i个文本信息数据,其中,n=len(D)为D中文本数量,变量i∈[1,n];
步骤1.2:定义处理后的化工突发事件文本数据集为D1,D1={Text1,Text2,…,Textj,…,Textm},Textj为D1中第j个文本信息数据,其中,m=len(D1)分别为D1中文本数量,变量j∈[1,m];
步骤1.3:读取数据集D,遍历整个数据集;
步骤1.4:如果title==null,执行步骤1.5,否则执行步骤1.6;
步骤1.5:删除对应行数据;
步骤1.6:根据停用词表去除一些无用的字符;
步骤1.7:保存预处理后的文本数据集D1。
步骤2:读取预处理后的数据集D1,经过word2vec模型训练,得到文本词向量,作为第一级注意力机制的输入,然后让其作为第二级注意力机制的输入,得到最终的上下文特征向量。如图3所示,具体方法为:
步骤2.1:读取预处理后的文本数据集D1;
步骤2.2:定义词特征向量集R1;
步骤2.3:通过word2vec模型进行数据分词处理,由word2vec模型进行训练得到文本词特征向量
Figure BDA0003466380610000081
步骤2.4:保存词特征向量R1,并且满足
Figure BDA0003466380610000082
Figure BDA0003466380610000083
为数据向量集中第i个词特征向量,其中,变量i∈[1,a],a为分词后词向量的数量;
步骤2.5:定义基于注意力机制的词依赖特征向量H1;
步骤2.6:将词特征向量R1,输入到Attention机制中,得到基于注意力的词依赖特征向量
Figure BDA0003466380610000084
其中
Figure BDA0003466380610000085
表示文本中的第j个词依赖特征向量,满足
Figure BDA0003466380610000086
变量j∈[1,b],b为词依赖特征向量的数量,其中的Attention机制的输入与调整方法为,使用softmax归一化,进行权重矩阵Wf调节,之后乘V,
Figure BDA0003466380610000087
其中,dk为一个Q和K向量的维度,
Figure BDA0003466380610000088
为尺度标量因子,Q,K,V是张量,分别代表query,key,value;
步骤2.7:定义循环变量k,用来学习第一级注意力机制的词特征向量H1,k初始值为1;
步骤2.8:定义基于注意力机制的子序列依赖特征向量H2;
步骤2.9:如果k≤b则执行步骤2.10,否则执行2.12;
步骤2.10:将词依赖特征向量H1,输入到Attention机制中,得到基于注意力的子序列依赖特征向量
Figure BDA0003466380610000089
其中
Figure BDA00034663806100000810
表示文本中的第t个子序列依赖特征向量,满足
Figure BDA00034663806100000811
变量t∈[1,c],c为子序列依赖特征向量的数量;
步骤2.11:k=k+1;
步骤2.12:输出并保存二级注意力机制的特征向量H2。
步骤3:读取预处理后的新闻数据集D1,由开源拼音包进行处理,之后输入到MLP中进行向量化,同时对新闻数据集D1进行one-hot编码,得到的字符向量与拼音向量进行融合矩阵嵌入,得到2维矩阵向量R3。如图4所示,具体方法为:
步骤3.1:定义拼音特征向量H3,定义one-hot字符向量H4,定义融合嵌入矩阵R3;
步骤3.2:读入文本数据D1到开源的拼音包里,得到拼音表示,将其输入到MLP中,神经网络中由3个隐藏层,每个隐藏层64个节点数,然后由最大池化层得到拼音向量
Figure BDA0003466380610000091
满足
Figure BDA0003466380610000092
Figure BDA0003466380610000093
为数据向量集中第i个字符对应的拼音向量,其中,变量i∈[1,d],d为拼音向量的数量;
步骤3.3:读取预处理数据D1,通过one-hot编码字符向量,得到字符向量
Figure BDA0003466380610000094
满足
Figure BDA0003466380610000095
Figure BDA0003466380610000096
为数据向量集中第j个字符特征向量,其中,变量j∈[1,e];
步骤3.4:融合拼音向量H3和字符向量H4,得到融合嵌入向量
Figure BDA0003466380610000097
主要使用具有可学习矩阵的全连接层诱导矩阵向量的嵌入,融合矩阵向量
Figure BDA0003466380610000098
其中
Figure BDA0003466380610000099
表示文本中的第t个字符对应的融合特征向量,变量t∈[1,s]。
步骤4:将矩阵特征信息R3与位置向量融合,得到特征信息H5,输入到Bert模型中进行向量化训练,得到最终的语义特征信息H6。如图5所示,具体方法为:
步骤4.1:定义位置向量R4,定义融合位置向量的特征向量矩阵H5,定义Bert预训练后的特征向量H6;
步骤4.2:将融合矩阵向量R3与positional Embedding相加,得到整合特征向量矩阵
Figure BDA00034663806100000910
其中,变量h∈[1,f];
步骤4.3:读取整合特征向量矩阵H5输入到Bert模型中训练,得到最终的特征信息向量H6,其中
Figure BDA00034663806100000911
Figure BDA00034663806100000912
为Bert训练后向量第p个特征向量,其中,变量p∈[1,g],对Bert模型的训练参数共享,得到对应的训练特征向量。
步骤5:将步骤2、4得到的特征信息进行整合,进行全连接处理,输入到CNN模型中分类处理,得到最终的文本分类结果。如图6所示,具体方法为:
步骤5.1:读取上下文特征信息H2,读取语义信息H6;
步骤5.2:将H2和H6整合得到的特征向量输入到CNN分类模型中的卷积层(隐藏单元),将先前层的特征映射与卷积核卷积,并加上相应修正偏差b1,作为权重的修正超参数;
步骤5.3:通过隐藏层激活函数的相关运算,输出特征映射,使用Leaky-ReLU激活函数,作为隐藏层的激活函数,如下公式,Leaky-ReLU为所有负值分配一个非零的斜率:
Figure BDA0003466380610000101
其中,ai是固定的超参数,i表示对应第i个特征信息的ai
步骤5.4:定义预测标签集L,使用最大池化层进行处理,之后进行全连接操作,进行文本分类L={label},得到最终的文本分类结果S。
本发明可与化工突发事件新闻结合,从而完成基于连级的Attention机制的学习得到文本上下文特征提取,并且使用ChineseBERT预训练模型在使用拼音和字符信息的基础上添加位置信息,并且输入到Bert模型中进行训练得到最终的语义特征信息,两者进行融合嵌入通过CNN模型进行文本分类操作,对于化工安全新闻根据《国家突发公共事件总体应急预案》的突发事件分类,对其中的一部分分类总结,得到化工突发事件的类别(如火灾,爆炸、易燃、易爆、有毒气体泄漏)进行化工新闻突发事件的分类。
本发明可以用于自然语言处理的分类、特征信息提取以及拼音字符信息进行预训练得到语义特征信息等方面,还有各种化工新闻文本的分类。

Claims (6)

1.一种基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法,其特征在于,包括以下步骤:
(1)将化工突发事件新闻文本数据D进行文本预处理,得到新闻文本数据D1;
(2)通过word2vec模型处理化工突发文本数据D1,得到文本特征向量R1,将词向量R1输入到WordAttention模型中,得到新的词依赖特征信息H1,再将词依赖特征信息H1输入到SeqAttention模型,得到子序列特征信息H2;
(3)通过对文本数据D1进行开源拼音包处理,得到对应的拼音序列,之后输入到MLP,经过最大池化层输出拼音向量H3,对预处理后的文本进行one-hot编码,得到字符向量H4,与拼音向量H3进行矩阵化嵌入,得到2维矩阵向量R3;
(4)将矩阵特征信息R3与位置向量信息R4进行整合得到特征信息H5,输入H5至Bert预训练模型中,得到对应的特征信息H6;
(5)将步骤(2)中的上下文特征信息H2与步骤(4)中的语义特征信息H6进行整合,输入到CNN模型中,得到最终的文本分类结果。
2.根据权利要求1所述的基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法,其特征在于,所述步骤(1)包括以下步骤:
(11)定义化工突发事件新闻文本数据集为D,定义Text为单个文本数据,定义id,title,label分别为单个文本序列号,数据的标题,文本标签,并且满足关系Text={id,title,label},D={Text1,Text2,…,Texti,…,Textn},Texti为D中第i个文本信息数据,其中,n=len(D)为D中文本数量,变量i∈[1,n];
(12)定义处理后的化工突发事件文本数据集为D1,D1={Text1,Text2,…,Textj,…,Textm},Textj为D1中第j个文本信息数据,其中,m=len(D1)分别为D1中文本数量,变量j∈[1,m];
(13)读取数据集D,遍历整个数据集;
(14)如果title==null,执行(15),否则执行(16);
(15)删除对应行数据;
(16)根据停用词表去除一些无用的字符;
(17)保存预处理后的文本数据集D1。
3.根据权利要求1所述的基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法,其特征在于,所述步骤(2)包括以下步骤:
(201)读取预处理后的文本数据集D1;
(202)定义词特征向量集R1;
(203)通过word2vec模型进行数据分词处理,由word2vec模型进行训练得到文本词特征向量
Figure FDA0003466380600000021
(204)保存词特征向量R1,并且满足
Figure FDA0003466380600000022
Figure FDA0003466380600000023
为数据向量集中第i个词特征向量,其中,变量i∈[1,a],a为分词后词向量的数量;
(205)定义基于注意力机制的词依赖特征向量H1;
(206)将词特征向量R1,输入到Attention机制中,得到基于注意力的词依赖特征向量
Figure FDA0003466380600000024
其中
Figure FDA0003466380600000025
表示文本中的第j个词依赖特征向量,满足
Figure FDA0003466380600000026
变量j∈[1,b],b为词依赖特征向量的数量,其中的Attention机制的输入与调整方法为,使用softmax归一化,进行权重矩阵Wf调节,之后乘V,
Figure FDA0003466380600000027
其中,dk为一个Q和K向量的维度,
Figure FDA0003466380600000028
为尺度标量因子,分别代表query,key,value;
(207)定义循环变量k,用来学习第一级注意力机制的词特征向量H1,k初始值为1;
(208)定义基于注意力机制的子序列依赖特征向量H2;
(209)如果k≤b则执行(210),否则执行(212);
(210)将词依赖特征向量H1,输入到Attention机制中,得到基于注意力的子序列依赖特征向量
Figure FDA0003466380600000029
其中
Figure FDA00034663806000000210
表示文本中的第t个子序列依赖特征向量,满足
Figure FDA00034663806000000211
变量t∈[1,c],c为子序列依赖特征向量的数量;
(211)k=k+1;
(212)输出并保存二级注意力机制的特征向量H2。
4.根据权利要求1所述的基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法,其特征在于,所述步骤(3)包括以下步骤:
(31)定义拼音特征向量H3,定义one-hot字符向量H4,定义融合嵌入矩阵R3;
(32)读入文本数据D1到开源的拼音包里,得到拼音表示,将其输入到MLP中,神经网络中由3个隐藏层,每个隐藏层64个节点数,然后由最大池化层得到拼音向量
Figure FDA0003466380600000031
满足
Figure FDA0003466380600000032
Figure FDA0003466380600000033
为数据向量集中第i个字符对应的拼音向量,其中,变量i∈[1,d],d为拼音向量的数量;
(33)读取预处理数据D1,通过one-hot编码字符向量,得到字符向量
Figure FDA0003466380600000034
满足
Figure FDA0003466380600000035
Figure FDA0003466380600000036
为数据向量集中第j个字符特征向量,其中,变量j∈[1,e];
(34)融合拼音向量H3和字符向量H4,得到融合嵌入向量
Figure FDA0003466380600000037
主要使用具有可学习矩阵的全连接层诱导矩阵向量的嵌入,融合矩阵向量
Figure FDA0003466380600000038
其中
Figure FDA0003466380600000039
表示文本中的第t个字符对应的融合特征向量,变量t∈[1,s]。
5.根据权利要求1所述的基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法,其特征在于,所述步骤(4)包括以下步骤:
(41)定义位置向量R4,定义融合位置向量的特征向量矩阵H5,定义Bert预训练后的特征向量H6;
(42)将融合矩阵向量R3与positional Embedding相加,得到整合特征向量矩阵
Figure FDA00034663806000000310
其中,变量h∈[1,f];
(43)读取整合特征向量矩阵H5输入到Bert模型中训练,得到最终的特征信息向量H6,其中
Figure FDA00034663806000000311
Figure FDA00034663806000000312
为Bert训练后向量第p个特征向量,其中,变量p∈[1,g],对Bert模型的训练参数共享,得到对应的训练特征向量。
6.根据权利要求1所述的基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法,其特征在于,所述步骤(5)包括以下步骤:
(51)读取上下文特征信息H2,读取语义信息H6;
(52)将H2和H6整合得到的特征向量输入到CNN分类模型中的卷积层,将先前层的特征映射与卷积核卷积,并加上相应修正偏差b1,作为权重的修正超参数;
(53)通过隐藏层激活函数的相关运算,输出特征映射,使用Leaky-ReLU激活函数,作为隐藏层的激活函数,如下公式,Leaky-ReLU为所有负值分配一个非零的斜率:
Figure FDA0003466380600000041
其中,ai是固定的超参数,i表示对应第i个特征信息的ai
(54)定义预测标签集L,使用最大池化层进行处理,之后进行全连接操作,进行文本分类L={label},得到最终的文本分类结果S。
CN202210030824.8A 2022-01-12 2022-01-12 基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法 Pending CN114510569A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210030824.8A CN114510569A (zh) 2022-01-12 2022-01-12 基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210030824.8A CN114510569A (zh) 2022-01-12 2022-01-12 基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法

Publications (1)

Publication Number Publication Date
CN114510569A true CN114510569A (zh) 2022-05-17

Family

ID=81549844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210030824.8A Pending CN114510569A (zh) 2022-01-12 2022-01-12 基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法

Country Status (1)

Country Link
CN (1) CN114510569A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115357720A (zh) * 2022-10-20 2022-11-18 暨南大学 基于bert的多任务新闻分类方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115357720A (zh) * 2022-10-20 2022-11-18 暨南大学 基于bert的多任务新闻分类方法及装置

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110210037B (zh) 面向循证医学领域的类别检测方法
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN111027595B (zh) 双阶段语义词向量生成方法
CN114330354B (zh) 一种基于词汇增强的事件抽取方法、装置及存储介质
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN113515632A (zh) 基于图路径知识萃取的文本分类方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN114781375A (zh) 一种基于bert与注意力机制的军事装备关系抽取方法
CN113869055A (zh) 基于深度学习的电网项目特征属性识别方法
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN112988970A (zh) 一种服务于智能问答系统的文本匹配算法
CN114547230A (zh) 一种智能行政执法案例信息抽取和案由认定方法
US11941360B2 (en) Acronym definition network
CN114510569A (zh) 基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
AU2019101147A4 (en) A sentimental analysis system for film review based on deep learning
CN114881038B (zh) 基于跨度和注意力机制的中文实体与关系抽取方法及装置
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN115759090A (zh) 一种结合软词典和汉字字形特征的中文命名实体识别方法
Buoy et al. Joint Khmer word segmentation and part-of-speech tagging using deep learning
CN114780725A (zh) 一种基于深度聚类的文本分类算法
CN115169429A (zh) 一种轻量化方面级文本情感分析方法
CN114282539A (zh) 一种基于生物医学领域预训练模型的命名实体识别方法
Phat et al. Vietnamese text classification algorithm using long short term memory and Word2Vec

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination