CN116049387A - 一种基于图卷积的短文本分类方法、装置、介质 - Google Patents
一种基于图卷积的短文本分类方法、装置、介质 Download PDFInfo
- Publication number
- CN116049387A CN116049387A CN202111257904.9A CN202111257904A CN116049387A CN 116049387 A CN116049387 A CN 116049387A CN 202111257904 A CN202111257904 A CN 202111257904A CN 116049387 A CN116049387 A CN 116049387A
- Authority
- CN
- China
- Prior art keywords
- word
- nodes
- vector
- training
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 239000013598 vector Substances 0.000 claims abstract description 163
- 238000012549 training Methods 0.000 claims abstract description 120
- 239000011159 matrix material Substances 0.000 claims abstract description 99
- 238000004458 analytical method Methods 0.000 claims abstract description 94
- 230000004927 fusion Effects 0.000 claims abstract description 81
- 230000011218 segmentation Effects 0.000 claims abstract description 33
- 238000007781 pre-processing Methods 0.000 claims abstract description 23
- 238000013528 artificial neural network Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000003860 storage Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 48
- 230000004913 activation Effects 0.000 claims description 20
- 238000005457 optimization Methods 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 14
- 238000002372 labelling Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 6
- 230000007547 defect Effects 0.000 abstract description 12
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000011176 pooling Methods 0.000 description 8
- 238000005096 rolling process Methods 0.000 description 8
- 230000008451 emotion Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000013145 classification model Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提出了一种基于图卷积的短文本分类方法、装置、设备及存储介质,该方法包括:对获取的训练样本中的多个短文本进行预处理后得到分词结果、句法分析结果和词性分析结果,基于上述结果构建多特征融合图的矩阵;使用图卷积神经网络基于所述多特征融合图的矩阵对多特征融合图的节点进行训练,得到训练后的单词节点特征向量;构建位置嵌入向量,后与单词节点特征向量进行拼接后对分类器模型进行训练得到训练后的分类器模型;对待分类的短文本进行分词处理后基于所述训练后的单词节点特征向量得到待分类的短文本的词向量,进行分类。本发明提出了融合词性、依存性、文档信息的文本多特征图表示方法,提升分类的准确率,克服了背景技术中的缺陷。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于图卷积的短文本分类方法、装置及存储介质。
背景技术
进入web2.0时代已历十余载,互联网的迅猛发展和移动终端的快速普及极大改善了人们的生活,随着Twitter、微博等社交网络的出现,文本数据呈现爆炸式的增长。采用文本分类技术对海量数据进行科学地组织和管理显得尤为重要。其中最典型的便是短文本数据,短文本通常是指长度比较短,一般不超过160个字符的文本形式,如微博评论、聊天信息、新闻主题、观点评论、手机短信等。由于缺乏语义和上下文信息、口语化严重、语法结构多变等特点,在文本处理和分类任务上面临很大挑战。
现有技术中,在文本分类任务上,以往的深度学习方法很大程度上忽略了文本的语法结构和词性等信息,基于CNN和RNN的神经网络只能处理结构规范的序列数据,图神经网络可以对文本进行更复杂的建模,而GCN的缺陷在于节点的重要性相同,且卷积的范围有限,大型预训练语言模型BERT的缺陷在于模型占用内存巨大,分类速度不理想。
因此,如何精确合理地提取短文本特征,采用合适的模型对短文本进行分类是一个重点问题。
发明内容
本发明针对上述现有技术中一个或多个技术缺陷,提出了如下技术方案。
一种基于图卷积的短文本分类方法,该方法包括:
预处理步骤,对获取的训练样本中的多个短文本进行预处理后得到分词结果、句法分析结果和词性分析结果,基于所述分词结果、句法分析结果和词性分析结果构建多特征融合图的矩阵;
节点向量训练步骤,使用图卷积神经网络基于所述多特征融合图的矩阵对多特征融合图的节点进行训练,得到训练后的单词节点特征向量;
分类器训练步骤,构建位置嵌入向量,并将位置嵌入向量与所述训练后的单词节点特征向量进行拼接后对分类器模型进行训练得到训练后的分类器模型;
分类步骤,对待分类的短文本进行分词处理后基于所述训练后的单词节点特征向量得到待分类的短文本的词向量,使用训练后的分类器模型对待分类的短文本的词向量进行分类。
更进一步地,所述预处理步骤的操作为:
对获取的训练样本中的多个短文本进行预处理及标注后使用Stanford Corenlp工具包进行处理,得到分词结果、句法分析结果和词性分析结果,其中,句法分析结果为句法成分解析树,词性分析结果只保留名词和形容词;
构建多特征融合图,所述多特征融合图中的总节点包括所有单词节点、所有短文本节点和两个词性节点、一个Root节点,其中,词性节点是名词和形容词、Root节点是句法成分分析树的根节点;
计算多特征融合图中的单词节点之间的PMI值:
其中,
这里N是短文本中滑动窗口总数,N(word1,word2)是同时包含节点word1和word2的滑动窗口数,N(word)是包含节点word的滑动窗口数;
计算多特征融合图中的单词节点与短文本节点之间的TF-IDF值:
TF-IDF(i,j)=TF(i)×IDF(i,j)
其中P(i,j)表示单词i在短文本j中出现的次数,M(j)表示短文本j的总词数,N表示训练样本中的所有短文本数,N(i)表示包含词i的短文本数;
根据句法成分分析树和词性分析结果构建邻接矩阵A,邻接矩阵上权重表示如下:
其中,D是多特征融合图的度矩阵。
更进一步地,所述节点向量训练步骤的操作为:
使用两层图卷积的图卷积神经网络对多特征融合图的节点进行训练,
其中,X是为多特征融合图的节点的特征矩阵,X=[X1,X2,...,Xn],n是节点数,W0和W1是图卷积神经网络的初始权重矩阵,ReLu和Softmax是激活函数,其中
ReLu(x)=max(x,0)
设置损失函数、优化方法和学习率,对训练参数进行训练更新,训练完成后,得到训练后的单词节点特征向量X。
更进一步地,所述分类器训练步骤的操作为:
构建位置嵌入向量O,O=[one-hot1,one-hot2,...,one-hotn];
将位置嵌入向量与所述训练后的单词节点特征向量进行拼接得到X=[(X1+O1),(X2+O2),...,(Xn+On)],将拼接后的向量X输入注意力模型;
对输入向量X进行非线性变换,得到Query,Key,Value,其中,Query=σQ(XWQ+bQ);Key=σK(XWK+bK);Value=σV(XWV+bV),Value是词嵌入X经过非线性变换后的向量,dk是向量Key的维度,W是权重矩阵,σQ,σK,σV是tanh激活函数,重复执行h次,即
计算多头注意力
Multi-Head(Q,K,V)=Concat(head1,…,headh)W0;
其中,
headi=Self-Attention(Queryi,Keyi,Valuei)(i=1,…,h);
其中,
添加归一化层
其中,X是经过多头自注意力运算后的特征矩阵;
其中,
其中,X_i表示X的第i维,m表示X的均值,σ表示X的标准差,α、β是可学习的参数,∈是为了防止除数为0而设置的小数,H是多头注意力中头的个数;
使用一个全连接层和Softmax函数对输出结果y进行分类预测:
FFN(y)=ReLU(yW1+e1)W2+e2
其中,y是经过层归一化后的输出向量,e1、e2为偏置项;经过一层Softmax激活函数后得到反映每个分类概率的输出向量;
设置损失函数、优化方法和学习率,对分类器模型参数进行训练得到训练好的分类器模型,并将分类器模型的参数进行保存。
更进一步地,所述训练样本为服务行业客户评论句子。
本发明还提出了一种基于图卷积的短文本分类装置,该装置包括:
预处理单元,对获取的训练样本中的多个短文本进行预处理后得到分词结果、句法分析结果和词性分析结果,基于所述分词结果、句法分析结果和词性分析结果构建多特征融合图的矩阵;
节点向量训练单元,使用图卷积神经网络基于所述多特征融合图的矩阵对多特征融合图的节点进行训练,得到训练后的单词节点特征向量;
分类器训练单元,构建位置嵌入向量,并将位置嵌入向量与所述训练后的单词节点特征向量进行拼接后对分类器模型进行训练得到训练后的分类器模型;
分类单元,对待分类的短文本进行分词处理后基于所述训练后的单词节点特征向量得到待分类的短文本的词向量,使用训练后的分类器模型对待分类的短文本的词向量进行分类。
更进一步地,所述预处理单元的操作为:
对获取的训练样本中的多个短文本进行预处理及标注后使用Stanford Corenlp工具包进行处理,得到分词结果、句法分析结果和词性分析结果,其中,句法分析结果为句法成分解析树,词性分析结果只保留名词和形容词;
构建多特征融合图,所述多特征融合图中的总节点包括所有单词节点、所有短文本节点和两个词性节点、一个Root节点,其中,词性节点是名词和形容词、Root节点是句法成分分析树的根节点;
计算多特征融合图中的单词节点之间的PMI值:
其中,
这里N是短文本中滑动窗口总数,N(word1,word2)是同时包含节点word1和word2的滑动窗口数,N(word)是包含节点word的滑动窗口数;
计算多特征融合图中的单词节点与短文本节点之间的TF-IDF值:
TF-IDF(i,j)=TF(i)×IDF(i,j)
其中P(i,j)表示单词i在短文本j中出现的次数,M(j)表示短文本j的总词数,N表示训练样本中的所有短文本数,N(i)表示包含词i的短文本数;
根据句法成分分析树和词性分析结果构建邻接矩阵A,邻接矩阵上权重表示如下:
其中,D是多特征融合图的度矩阵。
更进一步地,所述节点向量训练单元的操作为:
使用两层图卷积的图卷积神经网络对多特征融合图的节点进行训练,
其中,X是为多特征融合图的节点的特征矩阵,X=[X1,X2,...,Xn],n是节点数,W0和W1是图卷积神经网络的初始权重矩阵,ReLu和Softmax是激活函数,其中
ReLu(x)=max(x,0)
设置损失函数、优化方法和学习率,对训练参数进行训练更新,训练完成后,得到训练后的单词节点特征向量X。
更进一步地,所述分类器训练单元的操作为:
构建位置嵌入向量O,O=[one-hot1,one-hot2,...,one-hotn];
将位置嵌入向量与所述训练后的单词节点特征向量进行拼接得到X=[(X1+O1),(X2+O2),...,(Xn+On)],将拼接后的向量X输入注意力模型;
对输入向量X进行非线性变换,得到Query,Key,Value,其中,Query=σQ(XWQ+bQ);Key=σK(XWK+bK);Value=σV(XWV+bV),Value是词嵌入X经过非线性变换后的向量,dk是向量Key的维度,W是权重矩阵,σQ,σK,σV是tanh激活函数,重复执行h次,即
计算多头注意力
Multi-Head(Q,K,V)=Concat(head1,…,headh)W0;
其中,
headi=Self-Attention(Queryi,Keyi,Valuei)(i=1,…,h);
其中,
添加归一化层
其中,X是经过多头自注意力运算后的特征矩阵;
其中,
其中,X_i表示X的第i维,m表示X的均值,σ表示X的标准差,α、β是可学习的参数,∈是为了防止除数为0而设置的小数,H是多头注意力中头的个数;
使用一个全连接层和Softmax函数对输出结果y进行分类预测:
FFN(y)=ReLU(yW1+e1)W2+e2
其中,y是经过层归一化后的输出向量,e1、e2为偏置项;经过一层SoftMax激活函数后得到反映每个分类概率的输出向量;
设置损失函数、优化方法和学习率,对分类器模型参数进行训练得到训练好的分类器模型,并将分类器模型的参数进行保存。
本发明还提出了一种计算机可读存储介质,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行上述之任一的方法。
本发明的技术效果在于:本发明的一种基于图卷积的短文本分类方法、装置、设备及存储介质,该方法包括:预处理步骤,对获取的训练样本中的多个短文本进行预处理后得到分词结果、句法分析结果和词性分析结果,基于所述分词结果、句法分析结果和词性分析结果构建多特征融合图的矩阵;节点向量训练步骤,使用图卷积神经网络基于所述多特征融合图的矩阵对多特征融合图的节点进行训练,得到训练后的单词节点特征向量;分类器训练步骤,构建位置嵌入向量,并将位置嵌入向量与所述训练后的单词节点特征向量进行拼接后对分类器模型进行训练得到训练后的分类器模型;分类步骤,对待分类的短文本进行分词处理后基于所述训练后的单词节点特征向量得到待分类的短文本的词向量,使用训练后的分类器模型对待分类的短文本的词向量进行分类。本发明提出了融合词性、依存性、文档信息的文本多特征图表示方法,并使用图卷积网络对节点嵌入表示进行训练,且,为了学习节点间多跳信息,克服图卷积网络的自身不足之处,将训练好的词嵌入输入注意力模型,提升分类的准确率,克服了背景技术中的缺陷。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。
图1是根据本发明的实施例的一种基于图卷积的短文本分类方法的流程图。
图2是根据本发明的实施例的一种基于图卷积的短文本分类装置的结构图。
图3是根据本发明的实施例的多特征融合图的示意图。
图4是根据本发明的实施例的注意力权重可视化图的示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了本发明的一种基于图卷积的短文本分类方法,该方法包括:
预处理步骤S101,对获取的训练样本中的多个短文本进行预处理后得到分词结果、句法分析结果和词性分析结果,基于所述分词结果、句法分析结果和词性分析结果构建多特征融合图的矩阵;
节点向量训练步骤S102,使用图卷积神经网络基于所述多特征融合图的矩阵对多特征融合图的节点进行训练,得到训练后的单词节点特征向量;
分类器训练步骤S103,构建位置嵌入向量,并将位置嵌入向量与所述训练后的单词节点特征向量进行拼接后对分类器模型进行训练得到训练后的分类器模型;
分类步骤S104,对待分类的短文本进行分词处理后基于所述训练后的单词节点特征向量得到待分类的短文本的词向量,使用训练后的分类器模型对待分类的短文本的词向量进行分类。
本发明创新性地提出了融合词性、依存性、文档信息的文本多特征图表示方法,并使用图卷积网络对节点嵌入表示进行训练,且,为了学习节点间多跳信息,克服图卷积网络的自身不足之处,将训练好的词嵌入输入注意力模型,提升分类的准确率,克服了背景技术中的缺陷,这是本发明的一个重要发明点。
在一个实施例,所述预处理步骤的操作为:
对获取的训练样本中的多个短文本进行预处理(包括但不限于去除特殊符号、乱码等)及标注后使用Stanford Corenlp工具包进行处理,得到分词结果、句法分析结果和词性分析结果,其中,句法分析结果为句法成分解析树,词性分析结果只保留名词和形容词;标注可以使用人工标注或使用训练好标准工具进行标注,一般来说,语料库(也就是训练样本库)句子不多的话可以采用人工标注,句子量大的话采用机器标注。
构建多特征融合图,所述多特征融合图中的总节点包括所有单词节点、所有短文本节点和两个词性节点、一个Root节点,其中,词性节点是名词和形容词、Root节点是句法成分分析树的根节点;
计算多特征融合图中的单词节点之间的PMI值:
其中,
这里N是短文本中滑动窗口总数,N(word1,word2)是同时包含节点word1和word2的滑动窗口数,N(word)是包含节点word的滑动窗口数;
计算多特征融合图中的单词节点与短文本节点之间的TF-IDF值:
TF-IDF(i,j)=TF(i)×IDF(i,j)
其中P(i,j)表示单词i在短文本j中出现的次数,M(j)表示短文本j的总词数,N表示训练样本中的所有短文本数,N(i)表示包含词i的短文本数;
根据句法成分分析树和词性分析结果构建邻接矩阵A,邻接矩阵上权重表示如下:
其中,D是多特征融合图的度矩阵。
所述训练样本为服务行业客户评论句子。一个具体的实施例采用的语料为谭松波酒店评论数据集,所采用语料包含中文文本10000篇,共分为正面和负面两个情感极性类,最大句子长度为274,平均句子长度60,即都属于短文本,总词汇量30155,首先对文本进行预处理,包括但不限于去除特殊符号、乱码等,保留标点符号和停用词。然后构建文本多特征融合图:
使用Stanford Corenlp工具包对训练数据进行处理,得到分词结果、句法成分分析树、词性标注结果(也称为词性分析结果)。其中词性标注结果只保留名词和形容词,当然也可以使用其他nlp相关工具包。以谭松波酒店评论数据集正面情感数据中第23条的一句话为例,在处理前后的效果对比如下:
原始文本:“酒店的设施虽然有些陈旧,但总的来说不错”。
经过Stanford Corenlp处理:分词及词性标注结果如下:[('酒店','NN'),('的','DEG'),('设施','NN'),('虽然','CS'),('有些','DT'),('陈旧','VA'),(',','PU'),('但','AD'),('总的来说','AD'),('不错','VA'),('。','PU')],这里’NN’及”VA’分别代表形容词和名词,即在示例语料里,名词是‘酒店’、‘设施’,形容词是‘陈旧’、‘不错’。
依存分析结果如下:[('ROOT',0,10),('nmod:assmod',3,1),('case',1,2),('nsubj',10,3),('advmod',6,4),('nsubj',6,5),('dep',10,6),('punct',10,7),('advmod',10,8),('advmod',10,9),('punct',10,11)]
根据依存句法分析树构建文本图表示,这里编号0是'ROOT'节点,编号1~11节点分别是‘酒店’‘的’‘设施’‘虽然’‘有些’‘陈旧’‘,’‘但’‘总的来说’‘不错’‘。’。依存分析结果中的一对数字表示相应编号的节点之间有连边。
将上述依存句法分析树构建为图,并添加ROOT节点、文档节点和名词词性节点、形容词词性节点,其中文档节点为P23,代表正面极性文档第23篇,Root节点是句法分析树的根节点。构建好的文本多特征融合图如附图3所示。
计算图中节点之间边的权重,这里滑动窗口大小为3,当然也可以取其他值,以分好词的本句为例:
酒店的设施虽然有些陈旧,但总的来说不错。
其滑动窗口为:
[酒店的设施];[的设施虽然];[设施虽然有些];[虽然有些陈旧]…以此类推。
根据计算出的节点间边权,可以得到多特征融合图的邻接矩阵A,邻接矩阵包含以下节点:单词节点*单词数、文档节点*文档数、ROOT节点*1、名词节点*1、形容词节点*1,其中标点符号节点可以视作单词节点。
对所有语料进行以上操作并存储相应的邻接矩阵A,将语料分为训练集、开发集和验证集。
初始化所有图节点的特征,这里将每个图节点用随机高维稠密向量表示,当然也可以选择其他维度,图节点的特征矩阵用X表示。
在一个实时例中,所述节点向量训练步骤的操作为:
使用两层图卷积的图卷积神经网络对多特征融合图的节点进行训练,
其中,X是为多特征融合图的节点的特征矩阵,X=[X1,X2,...,Xn],n是节点数,W0和W1是图卷积神经网络的初始权重矩阵,ReLu和Softmax是激活函数,每个节点的向量Xi维度为m,因此X=[X1,X2,...,Xn]还可以表示为其中
ReLu(x)=max(x,0)
设置损失函数、优化方法和学习率,对训练参数进行训练更新,训练完成后,得到训练后的单词节点特征向量X,设置的训练参数可以表示为θ={X,W0,b0,W1,b1}。
继续上面的酒店评价的实施例,初始化权重矩阵W0和W1,偏置向量b0、b1初始化为0
使用图卷积神经网络对图节点进行训练。
使用Adam优化函数,初始学习率设置为0.001,不断调整模型参数,得出F-Score最优分类模型后停止训练。其中F-Score的定义如下
经过以上步骤,我们得到了训练完成的图节点的特征矩阵X,取出其中的单词节点特征表示并存储,至此,词向量训练完成。
本发明通过具体的融合词性、依存性、文档信息的文本多特征图的计算方法,计算文本多特征图的矩阵表示,并基于此使用图卷积网络对节点嵌入表示进行训练,得到训练后的词向量,该词向量用于后续的短文本分类,从而提高了分类准确性,这是本发明的重要发明点之另一。
在一个实施例中,所述分类器训练步骤的操作为:
构建位置嵌入向量O,O=[one-hot1,one-hot2,...,one-hotn];
将位置嵌入向量与所述训练后的单词节点特征向量进行拼接得到X=[(X1+O1),(X2+O2),...,(Xn+On)],将拼接后的向量X输入注意力模型;
对输入向量X进行非线性变换,得到Query,Key,Value,其中,Query=σQ(XWQ+bQ);Key=σK(XWK+bK);Value=σV(XWV+bV),Value是词嵌入X经过非线性变换后的向量,dk是向量Key的维度,W是权重矩阵,σQ,σK,σV是tanh激活函数,重复执行h次,即
计算多头注意力
Multi-Head(Q,K,V)=Concat(head1,…,headh)W0;
其中,
headi=Self-Attention(Queryi,Keyi,Valuei)(i=1,…,h);
其中,
添加归一化层
其中,X是经过多头自注意力运算后的特征矩阵;
其中,
其中,X_i表示X的第i维,m表示X的均值,σ表示X的标准差,α、β是可学习的参数,∈是为了防止除数为0而设置的小数,H是多头注意力中头的个数;
使用一个全连接层和Softmax函数对输出结果y进行分类预测:
FFN(y)=ReLU(yW1+e1)W2+e2
其中,y是经过层归一化后的输出向量,e1、e2为偏置项;经过一层SoftMax激活函数后得到反映每个分类概率的输出向量;
设置损失函数、优化方法和学习率,对分类器模型参数进行训练得到训练好的分类器模型,并将分类器模型的参数进行保存,本过程中,训练参数为θ={X,WQ,WK,WV,α,β,W0,W1,e1,e2,bQ,bK,bV}。
上述不同训练过程中的变量虽然表示字母相同,但实际上在不同的训练过程中含义不同,在实际程序设计中,可通过局部变量实现,这对本领域技术人员来说是常用的技术,即本领域技术人员可以知道上述变量的适用范围及含义。
继续前面的酒店评论数据,训练分类器:
构建位置嵌入向量,该向量为one-hot形式,维度为1×n,n是模型最长输入长度,以经过分词后的实例“酒店的设施虽然有些陈旧,但总的来说不错。”为例,其位置嵌入的one-hot表示为:
[100…000],[010…000],[001…000],以此类推。
将位置嵌入向量与词向量进行拼接,作为分类器的输入向量。在示例中,“酒店”的词向量为[-5.804539 2.940231…-0.647914-0.077439],经过拼接后的输入向量为[-5.804539 2.940231…-0.647914-0.077439 1 0 0…000],其他单词以此类推,输入向量记为X。
对输入向量X进行非线性变换,得到Query,Key,Value,这里Query=σQ(XWQ+bQ);Key=σK(XWK+bK);Value=σV(XWV+bV),dk是向量Key的维度,W是初始化后的权重矩阵,σQ,σK,σV是tanh激活函数。
计算多头注意力,添加层归一化,加快模型收敛,融合层的输出数据进一步进入全连接层,最后进入分类器中,其中分类器选择Softmax函数,Softmax会对输入数据进行归一化处理,初始化时要预先设定数据集的类别数,这里酒店评论数据集有正反两类。Softmax输出样本属于这两类的概率,其中最大的概率值对应的标签为Softmax分类器对样本类别的判断。
最后,在训练的时候通过预测的样本类别与真实样本类别可以计算模型损失Loss,并以此进行反向传播和参数更新。在测试的时候也可以计算出模型的准确率和F1值。不断调整模型参数,得出F-Score最优分类模型。
本发明中,为了进一步地学习节点间多跳信息,克服图卷积网络的自身不足之处,将训练好的词嵌入输入注意力模型,并设计了具体的自注意力的计算方法,从而提高了文本的分类准确度,这是本发明的另一个重要发明点。
图2示出了本发明的一种基于图卷积的短文本分类装置,该装置包括:
预处理单元201,对获取的训练样本中的多个短文本进行预处理后得到分词结果、句法分析结果和词性分析结果,基于所述分词结果、句法分析结果和词性分析结果构建多特征融合图的矩阵;
节点向量训练单元202,使用图卷积神经网络基于所述多特征融合图的矩阵对多特征融合图的节点进行训练,得到训练后的单词节点特征向量;
分类器训练单元203,构建位置嵌入向量,并将位置嵌入向量与所述训练后的单词节点特征向量进行拼接后对分类器模型进行训练得到训练后的分类器模型;
分类单元204,对待分类的短文本进行分词处理后基于所述训练后的单词节点特征向量得到待分类的短文本的词向量,使用训练后的分类器模型对待分类的短文本的词向量进行分类。
本发明创新性地提出了融合词性、依存性、文档信息的文本多特征图表示方法,并使用图卷积网络对节点嵌入表示进行训练,且,为了学习节点间多跳信息,克服图卷积网络的自身不足之处,将训练好的词嵌入输入注意力模型,提升分类的准确率,克服了背景技术中的缺陷,这是本发明的一个重要发明点。
在一个实施例,所述预处理单元的操作为:
对获取的训练样本中的多个短文本进行预处理(包括但不限于去除特殊符号、乱码等)及标注后使用Stanford Corenlp工具包进行处理,得到分词结果、句法分析结果和词性分析结果,其中,句法分析结果为句法成分解析树,词性分析结果只保留名词和形容词;标注可以使用人工标注或使用训练好标准工具进行标注,一般来说,语料库(也就是训练样本库)句子不多的话可以采用人工标注,句子量大的话采用机器标注。
构建多特征融合图,所述多特征融合图中的总节点包括所有单词节点、所有短文本节点和两个词性节点、一个Root节点,其中,词性节点是名词和形容词、Root节点是句法成分分析树的根节点;
计算多特征融合图中的单词节点之间的PMI值:
其中,
这里N是短文本中滑动窗口总数,N(word1,word2)是同时包含节点word1和word2的滑动窗口数,N(word)是包含节点word的滑动窗口数;
计算多特征融合图中的单词节点与短文本节点之间的TF-IDF值:
TF-IDf(i,j)=TF(i)×IDF(i,j)
其中P(i,j)表示单词i在短文本j中出现的次数,M(j)表示短文本j的总词数,N表示训练样本中的所有短文本数,N(i)表示包含词i的短文本数;
根据句法成分分析树和词性分析结果构建邻接矩阵A,邻接矩阵上权重表示如下:
其中,D是多特征融合图的度矩阵。
所述训练样本为服务行业客户评论句子。一个具体的实施例采用的语料为谭松波酒店评论数据集,所采用语料包含中文文本10000篇,共分为正面和负面两个情感极性类,最大句子长度为274,平均句子长度60,即都属于短文本,总词汇量30155,首先对文本进行预处理,包括但不限于去除特殊符号、乱码等,保留标点符号和停用词。然后构建文本多特征融合图:
使用Stanford Corenlp工具包对训练数据进行处理,得到分词结果、句法成分分析树、词性标注结果(也称为词性分析结果)。其中词性标注结果只保留名词和形容词,当然也可以使用其他nlp相关工具包。以谭松波酒店评论数据集正面情感数据中第23条的一句话为例,在处理前后的效果对比如下:
原始文本:“酒店的设施虽然有些陈旧,但总的来说不错”。
经过Stanford Corenlp处理:分词及词性标注结果如下:[('酒店','NN'),('的','DEG'),('设施','NN'),('虽然','CS'),('有些','DT'),('陈旧','VA'),(',','PU'),('但','AD'),('总的来说','AD'),('不错','VA'),('。','PU')],这里’NN’及”VA’分别代表形容词和名词,即在示例语料里,名词是‘酒店’、‘设施’,形容词是‘陈旧’、‘不错’。
依存分析结果如下:[('ROOT',0,10),('nmod:assmod',3,1),('case',1,2),('nsubj',10,3),('advmod',6,4),('nsubj',6,5),('dep',10,6),('punct',10,7),('advmod',10,8),('advmod',10,9),('punct',10,11)]
根据依存句法分析树构建文本图表示,这里编号0是'ROOT'节点,编号1~11节点分别是‘酒店’‘的’‘设施’‘虽然’‘有些’‘陈旧’‘,’‘但’‘总的来说’‘不错’‘。’。依存分析结果中的一对数字表示相应编号的节点之间有连边。
将上述依存句法分析树构建为图,并添加ROOT节点、文档节点和名词词性节点、形容词词性节点,其中文档节点为P23,代表正面极性文档第23篇,Root节点是句法分析树的根节点。构建好的文本多特征融合图如附图3所示。
计算图中节点之间边的权重,这里滑动窗口大小为3,当然也可以取其他值,以分好词的本句为例:
酒店的设施虽然有些陈旧,但总的来说不错。
其滑动窗口为:
[酒店的设施];[的设施虽然];[设施虽然有些];[虽然有些陈旧]…以此类推。
根据计算出的节点间边权,可以得到多特征融合图的邻接矩阵A,邻接矩阵包含以下节点:单词节点*单词数、文档节点*文档数、ROOT节点*1、名词节点*1、形容词节点*1,其中标点符号节点可以视作单词节点。
对所有语料进行以上操作并存储相应的邻接矩阵A,将语料分为训练集、开发集和验证集。
初始化所有图节点的特征,这里将每个图节点用随机高维稠密向量表示,当然也可以选择其他维度,图节点的特征矩阵用X表示。
在一个实时例中,所述节点向量训练单元的操作为:
使用两层图卷积的图卷积神经网络对多特征融合图的节点进行训练,
其中,X是为多特征融合图的节点的特征矩阵,X=[X1,X2,...,Xn],n是节点数,W0和W1是图卷积神经网络的初始权重矩阵,ReLu和Softmax是激活函数,每个节点的向量Xi维度为m,因此X=[X1,X2,...,Xn]还可以表示为其中
ReLu(x)=max(x,0)
设置损失函数、优化方法和学习率,对训练参数进行训练更新,训练完成后,得到训练后的单词节点特征向量X,设置的训练参数可以表示为θ={X,W0,b0,W1,b1}。
继续上面的酒店评价的实施例,初始化权重矩阵W0和W1,偏置向量b0、b1初始化为0
使用图卷积神经网络对图节点进行训练。
使用Adam优化函数,初始学习率设置为0.001,不断调整模型参数,得出F-Score最优分类模型后停止训练。其中F-Score的定义如下
经过以上操作,我们得到了训练完成的图节点的特征矩阵X,取出其中的单词节点特征表示并存储,至此,词向量训练完成。
本发明通过具体的融合词性、依存性、文档信息的文本多特征图的计算方法,计算文本多特征图的矩阵表示,并基于此使用图卷积网络对节点嵌入表示进行训练,得到训练后的词向量,该词向量用于后续的短文本分类,从而提高了分类准确性,这是本发明的重要发明点之另一。
在一个实施例中,所述分类器训练单元的操作为:
构建位置嵌入向量O,O=[one-hot1,one-hot2,...,one-hotn];
将位置嵌入向量与所述训练后的单词节点特征向量进行拼接得到X=[(X1+O1),(X2+O2),...,(Xn+On)],将拼接后的向量X输入注意力模型;
对输入向量X进行非线性变换,得到Query,Key,Value,其中,Query=σQ(XWQ+bQ);Key=σK(XWK+bK);Value=σV(XWV+bV),Value是词嵌入X经过非线性变换后的向量,dk是向量Key的维度,W是权重矩阵,σQ,σK,σV是tanh激活函数,重复执行h次,即
计算多头注意力
Multi-Head(Q,K,V)=Concat(head1,…,headh)W0;
其中,
headi=Self-Attention(Queryi,Keyi,Valuei)(i=1,…,h);
其中,
添加归一化层
其中,X是经过多头自注意力运算后的特征矩阵;
其中,
其中,X_i表示X的第i维,m表示X的均值,σ表示X的标准差,α、β是可学习的参数,∈是为了防止除数为0而设置的小数,H是多头注意力中头的个数;
使用一个全连接层和Softmax函数对输出结果y进行分类预测:
FFN(y)=ReLU(yW1+e1)W2+e2
其中,y是经过层归一化后的输出向量,e1、e2为偏置项;经过一层SoftMax激活函数后得到反映每个分类概率的输出向量;
设置损失函数、优化方法和学习率,对分类器模型参数进行训练得到训练好的分类器模型,并将分类器模型的参数进行保存,本过程中,训练参数为θ={X,WQ,WK,WV,α,β,W0,W1,e1,e2,bQ,bK,bV}。
上述不同训练过程中的变量虽然表示字母相同,但实际上在不同的训练过程中含义不同,在实际程序设计中,可通过局部变量实现,这对本领域技术人员来说是常用的技术,即本领域技术人员可以知道上述变量的适用范围及含义。
继续前面的酒店评论数据,训练分类器:
构建位置嵌入向量,该向量为one-hot形式,维度为1×n,n是模型最长输入长度,以经过分词后的实例“酒店的设施虽然有些陈旧,但总的来说不错。”为例,其位置嵌入的one-hot表示为:
[100…000],[010…000],[001…000],以此类推。
将位置嵌入向量与词向量进行拼接,作为分类器的输入向量。在示例中,“酒店”的词向量为[-5.804539 2.940231…-0.647914-0.077439],经过拼接后的输入向量为[-5.804539 2.940231…-0.647914-0.077439 1 0 0…000],其他单词以此类推,输入向量记为X。
对输入向量X进行非线性变换,得到Query,Key,Value,这里Query=σQ(XWQ+bQ);Key=σK(XWK+bK);Value=σV(XWV+bV),dk是向量Key的维度,W是初始化后的权重矩阵,σQ,σK,σV是tanh激活函数。
计算多头注意力,添加层归一化,加快模型收敛,融合层的输出数据进一步进入全连接层,最后进入分类器中,其中分类器选择Softmax函数,Softmax会对输入数据进行归一化处理,初始化时要预先设定数据集的类别数,这里酒店评论数据集有正反两类。Softmax输出样本属于这两类的概率,其中最大的概率值对应的标签为Softmax分类器对样本类别的判断。
最后,在训练的时候通过预测的样本类别与真实样本类别可以计算模型损失Loss,并以此进行反向传播和参数更新。在测试的时候也可以计算出模型的准确率和F1值。不断调整模型参数,得出F-Score最优分类模型。
本发明中,为了进一步地学习节点间多跳信息,克服图卷积网络的自身不足之处,将训练好的词嵌入输入注意力模型,并设计了具体的自注意力的计算方法,从而提高了文本的分类准确度,这是本发明的另一个重要发明点。
为验证模型的有效性,在单标签对比实验上选取深度学习领域比较主流的基线模型:TextCNN、DPCNN、RCNN、RNN-Att、TextGCN和Transformer,为确保对比结果的有效性,模型输入均采用随机初始化的字或词向量,优化函数和初始学习率均保持一致。
(1)TextCNN-char是数据以字为单位输入TextCNN模型,TextCNN-word是数据以词为单位输入TextCNN模型。二者均使用三组尺寸为2、3、4的卷积核作为特征提取器,卷积通道数为256,池化方式采用最大池化函数。
(2)DPCNN是一种深层金字塔CNN模型,通过反复搭建等长的卷积块使模型学习到字、词、句、篇级的文本表示,卷积块之前通过残差结构连接。DPCNN使用三组卷积-池化操作,卷积核尺寸为3,卷积通道数为256,池化方式采用最大池化函数。
(3)TextRCNN将初始化的词向量输入Bi-LSTM网络捕捉前后的上下文表征,然后将两个隐层和词嵌入向量矩阵拼接后传入池化层,是CNN与RNN思想的结合。TextRCNN中Bi-LSTM网络隐藏层节点数为256,池化方式采用最大池化函数。
(4)RNN-Att将词向量输入Bi-LSTM网络,利用编码器对输入序列的中间输出结果训练注意力权重矩阵,最后对所有时序的向量进行加权。模型中Bi-LSTM隐藏层节点数为128,注意力函数采用加性模型。
(5)TextGCN将文本转换为词节点和文档节点,将节点嵌入表示为一张图,并对图进行整体图卷积运算。TextGCN中使用两次图卷积,隐藏层神经元数量为128。
(6)Transformer是基于Attention的自注意力模型,通过设计多头缩放点积注意力结构从而获得每个单词对于其他单词的重要程度。Transformer中Header数量为5,隐含层神经元数量为1024,采用正余弦函数作为位置信息编码。
表1-各数据集实验结果(F1)
表2-各数据集实验结果(Acc)
从表1和表2可以推断,本申请提到的模型在评价类文本集上整体表现优异。实验结果显示,模型在评价类数据集上表现较好,在复旦新闻数据集上分类效果一般,这是由于相比于新闻类文本,评价类文本在语言上更加随便,且存在双重否定或一段文本中同时存在多种情感倾向的情况。例如:“客房一尘不染的,很整洁,但是美中不足的是电视机不大,看不太清楚,工作人员很有耐心,不得不说是很不错的一家五星级酒店。”文本中同时存在正面评价与负面评价,还有“不得不”这样的双重否定句式,基于序列化建模的神经网络模型如TextCNN在这类数据上通常表现较差,而图模型可以学习到更加复杂的句法结构和词性等信息。
此外,FudanNews数据集多为文档形式,平均文本长度较高,通常一篇语料由十数组语句构成,使用句法分析树结构无法对文档合理建模。
为了得到更直观的结果,将词权重系数进行图形化展示,如附图4所示。以评价“前台态度一般,房间虽略显陈旧,但干净整洁,设施完备,不错的性价比”为例,模型学习到的注意力分布主要集中在词“不错”上,其次是“前台”、“一般”和“陈旧”,这表明模型学习到句法和语义信息。对于多特征图表示中一些无意义但必须存在的连词如“但”“虽”,在经过Transformer模型训练后只产生很小的权重矩阵,这表明模型在一定程度上消除了噪声节点。
本发明一个实施例中提出了一种基于图卷积的短文本分类设备,所述设备包括处理器和存储器,所述处理器与所述处理器通过总线连接,所述存储器上存储有计算机程序,所述处理器执行所述存储器上的计算机程序时实现上述的方法,该设备可以是台式计算机、服务器、笔记本、智能终端等等。
本发明一个实施例中提出了一种计算机存储介质,所述计算机存储介质上存储有计算机程序,当所述计算机存储介质上的计算机程序被处理器执行时实现上述的方法,该计算机存储介质可以是硬盘、DVD、CD、闪存等等存储器。
本发明的为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的装置。
最后所应说明的是:以上实施例仅以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种基于图卷积的短文本分类方法,其特征在于,该方法包括:
预处理步骤,对获取的训练样本中的多个短文本进行预处理后得到分词结果、句法分析结果和词性分析结果,基于所述分词结果、句法分析结果和词性分析结果构建多特征融合图的矩阵;
节点向量训练步骤,使用图卷积神经网络基于所述多特征融合图的矩阵对多特征融合图的节点进行训练,得到训练后的单词节点特征向量;
分类器训练步骤,构建位置嵌入向量,并将位置嵌入向量与所述训练后的单词节点特征向量进行拼接后对分类器模型进行训练得到训练后的分类器模型;
分类步骤,对待分类的短文本进行分词处理后基于所述训练后的单词节点特征向量得到待分类的短文本的词向量,使用训练后的分类器模型对待分类的短文本的词向量进行分类。
2.根据权利要求1所述的方法,其特征在于,所述预处理步骤的操作为:
对获取的训练样本中的多个短文本进行预处理及标注后使用Stanford Corenlp工具包进行处理,得到分词结果、句法分析结果和词性分析结果,其中,句法分析结果为句法成分解析树,词性分析结果只保留名词和形容词;
构建多特征融合图,所述多特征融合图中的总节点包括所有单词节点、所有短文本节点和两个词性节点、一个Root节点,其中,词性节点是名词和形容词、Root节点是句法成分分析树的根节点;
计算多特征融合图中的单词节点之间的PMI值:
其中,
这里N是短文本中滑动窗口总数,N(word1,word2)是同时包含节点word1和word2的滑动窗口数,N(word)是包含节点word的滑动窗口数;
计算多特征融合图中的单词节点与短文本节点之间的TF-IDF值:
TF-IDF(i,j)=TF(i)×IDF(i,j)
其中P(i,j)表示单词i在短文本j中出现的次数,M(j)表示短文本j的总词数,N表示训练样本中的所有短文本数,N(i)表示包含词i的短文本数;
根据句法成分分析树和词性分析结果构建邻接矩阵A,邻接矩阵上权重表示如下:
其中,D是多特征融合图的度矩阵。
4.根据权利要求3所述的方法,其特征在于,所述分类器训练步骤的操作为:
构建位置嵌入向量O,O=[one-hot1,one-hot2,...,one-hotn];
将位置嵌入向量与所述训练后的单词节点特征向量进行拼接得到X=[(X1+O1),(X2+O2),...,(Xn+On)],将拼接后的向量X输入注意力模型;
对输入向量X进行非线性变换,得到Query,Key,Value,其中,Query=σQ(XWQ+bQ);Key=σK(XWK+bK);Value=σV(XWV+bV),Value是词嵌入X经过非线性变换后的向量,dk是向量Key的维度,W是权重矩阵,σQ,σK,σV是tanh激活函数,重复执行h次,即
计算多头注意力
Multi-Head(Q,K,V)=Concat(head1,...,headn)W0;
其中,
headi=Self-Attention(Queryi,Keyi,Valuei)(i=1,...,h);
其中,
添加归一化层
其中,X是经过多头自注意力运算后的特征矩阵;
其中,
其中,X_i表示X的第i维,m表示X的均值,σ表示X的标准差,α、β是可学习的参数,∈是为了防止除数为0而设置的小数,H是多头注意力中头的个数;
使用一个全连接层和Softmax函数对输出结果y进行分类预测:
FFN(y)=ReLU(yW1+e1)W2+e2
其中,y是经过层归一化后的输出向量,e1、e2为偏置项;经过一层SoftMax激活函数后得到反映每个分类概率的输出向量;
设置损失函数、优化方法和学习率,对分类器模型参数进行训练得到训练好的分类器模型,并将分类器模型的参数进行保存。
5.根据权利要求4所述的方法,其特征在于,所述训练样本为服务行业客户评论句子。
6.一种基于图卷积的短文本分类装置,其特征在于,该装置包括:
预处理单元,对获取的训练样本中的多个短文本进行预处理后得到分词结果、句法分析结果和词性分析结果,基于所述分词结果、句法分析结果和词性分析结果构建多特征融合图的矩阵;
节点向量训练单元,使用图卷积神经网络基于所述多特征融合图的矩阵对多特征融合图的节点进行训练,得到训练后的单词节点特征向量;
分类器训练单元,构建位置嵌入向量,并将位置嵌入向量与所述训练后的单词节点特征向量进行拼接后对分类器模型进行训练得到训练后的分类器模型;
分类单元,对待分类的短文本进行分词处理后基于所述训练后的单词节点特征向量得到待分类的短文本的词向量,使用训练后的分类器模型对待分类的短文本的词向量进行分类。
7.根据权利要求6所述的装置,其特征在于,所述预处理单元的操作为:
对获取的训练样本中的多个短文本进行预处理及标注后使用StanfordCorenlp工具包进行处理,得到分词结果、句法分析结果和词性分析结果,其中,句法分析结果为句法成分解析树,词性分析结果只保留名词和形容词;
构建多特征融合图,所述多特征融合图中的总节点包括所有单词节点、所有短文本节点和两个词性节点、一个Root节点,其中,词性节点是名词和形容词、Root节点是句法成分分析树的根节点;
计算多特征融合图中的单词节点之间的PMI值:
其中,
这里N是短文本中滑动窗口总数,N(word1,word2)是同时包含节点word1和word2的滑动窗口数,N(word)是包含节点word的滑动窗口数;
计算多特征融合图中的单词节点与短文本节点之间的TF-IDF值:
TF-IDF(i,j)=TF(i)×IDF(i,j)
其中P(i,j)表示单词i在短文本j中出现的次数,M(j)表示短文本j的总词数,N表示训练样本中的所有短文本数,N(i)表示包含词i的短文本数;
根据句法成分分析树和词性分析结果构建邻接矩阵A,邻接矩阵上权重表示如下:
其中,D是多特征融合图的度矩阵。
9.根据权利要求8所述的方法,其特征在于,所述分类器训练单元的操作为:
构建位置嵌入向量O,O=[one-hot1,one-hot2,...,one-hotn];
将位置嵌入向量与所述训练后的单词节点特征向量进行拼接得到X=[(X1+O1),(X2+O2),...,(Xn+On)],将拼接后的向量X输入注意力模型;
对输入向量X进行非线性变换,得到Query,Key,Value,其中,Query=σQ(XWQ+bQ);Key=σK(XWK+bK);Value=σV(XWV+bV),Value是词嵌入X经过非线性变换后的向量,dk是向量Key的维度,W是权重矩阵,σQ,σK,σV是tanh激活函数,重复执行h次,即
计算多头注意力
Multi-Head(Q,K,V)=Concat(head1,...,headh)W0;
其中,
headi=Self-Attention(Queryi,Keyi,Valuei)(i=1,...,h);
其中,
添加归一化层
其中,X是经过多头自注意力运算后的特征矩阵;
其中,
其中,X_i表示X的第i维,m表示X的均值,σ表示X的标准差,α、β是可学习的参数,∈是为了防止除数为0而设置的小数,H是多头注意力中头的个数;
使用一个全连接层和Softmax函数对输出结果y进行分类预测:
FFN(y)=ReLU(yW1+e1)W2+e2
其中,y是经过层归一化后的输出向量,e1、e2为偏置项;经过一层SoftMax激活函数后得到反映每个分类概率的输出向量;
设置损失函数、优化方法和学习率,对分类器模型参数进行训练得到训练好的分类器模型,并将分类器模型的参数进行保存。
10.一种计算机存储介质,所述计算机存储介质上存储有计算机程序,当所述计算机存储介质上的计算机程序被处理器执行时实现权利要求1-5任一项的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111257904.9A CN116049387A (zh) | 2021-10-27 | 2021-10-27 | 一种基于图卷积的短文本分类方法、装置、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111257904.9A CN116049387A (zh) | 2021-10-27 | 2021-10-27 | 一种基于图卷积的短文本分类方法、装置、介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116049387A true CN116049387A (zh) | 2023-05-02 |
Family
ID=86111928
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111257904.9A Pending CN116049387A (zh) | 2021-10-27 | 2021-10-27 | 一种基于图卷积的短文本分类方法、装置、介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116049387A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304748A (zh) * | 2023-05-17 | 2023-06-23 | 成都工业学院 | 一种文本相似度计算方法、系统、设备及介质 |
CN117521639A (zh) * | 2024-01-05 | 2024-02-06 | 湖南工商大学 | 一种结合学术文本结构的文本检测方法 |
CN117648633A (zh) * | 2024-01-29 | 2024-03-05 | 西南石油大学 | 一种基于增强图注意力网络的敏感信息识别方法及系统 |
-
2021
- 2021-10-27 CN CN202111257904.9A patent/CN116049387A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304748A (zh) * | 2023-05-17 | 2023-06-23 | 成都工业学院 | 一种文本相似度计算方法、系统、设备及介质 |
CN117521639A (zh) * | 2024-01-05 | 2024-02-06 | 湖南工商大学 | 一种结合学术文本结构的文本检测方法 |
CN117521639B (zh) * | 2024-01-05 | 2024-04-02 | 湖南工商大学 | 一种结合学术文本结构的文本检测方法 |
CN117648633A (zh) * | 2024-01-29 | 2024-03-05 | 西南石油大学 | 一种基于增强图注意力网络的敏感信息识别方法及系统 |
CN117648633B (zh) * | 2024-01-29 | 2024-04-19 | 西南石油大学 | 一种基于增强图注意力网络的敏感信息识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368996B (zh) | 可传递自然语言表示的重新训练投影网络 | |
CN109840287B (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
CN108255805B (zh) | 舆情分析方法及装置、存储介质、电子设备 | |
Badjatiya et al. | Attention-based neural text segmentation | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
WO2023024412A1 (zh) | 基于深度学习模型的视觉问答方法及装置、介质、设备 | |
CN111401061A (zh) | 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法 | |
CN110704576B (zh) | 一种基于文本的实体关系抽取方法及装置 | |
CN108829662A (zh) | 一种基于条件随机场结构化注意力网络的对话行为识别方法及系统 | |
CN116049387A (zh) | 一种基于图卷积的短文本分类方法、装置、介质 | |
CN109726745B (zh) | 一种融入描述知识的基于目标的情感分类方法 | |
CN108170848B (zh) | 一种面向中国移动智能客服的对话场景分类方法 | |
CN112992125B (zh) | 一种语音识别方法、装置、电子设备、可读存储介质 | |
CN107679225A (zh) | 一种基于关键词的回复生成方法 | |
CN112101042A (zh) | 文本情绪识别方法、装置、终端设备和存储介质 | |
CN112183106A (zh) | 一种基于音素联想及深度学习的语义理解方法及装置 | |
CN108875024B (zh) | 文本分类方法、系统、可读存储介质及电子设备 | |
CN113779988A (zh) | 一种通信领域过程类知识事件抽取方法 | |
US20220156489A1 (en) | Machine learning techniques for identifying logical sections in unstructured data | |
Chan et al. | Applying and optimizing NLP model with CARU | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 | |
CN115906835B (zh) | 一种基于聚类和对比学习的中文问句文本表示学习的方法 | |
WO2023159759A1 (zh) | 模型的训练方法、情感消息生成方法和装置、设备、介质 | |
Serban et al. | Text-based speaker identification for multi-participant opendomain dialogue systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |