CN112015863B - 一种基于图神经网络的多元特征融合中文文本分类方法 - Google Patents

一种基于图神经网络的多元特征融合中文文本分类方法 Download PDF

Info

Publication number
CN112015863B
CN112015863B CN202010868076.1A CN202010868076A CN112015863B CN 112015863 B CN112015863 B CN 112015863B CN 202010868076 A CN202010868076 A CN 202010868076A CN 112015863 B CN112015863 B CN 112015863B
Authority
CN
China
Prior art keywords
text
neural network
vector
output
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010868076.1A
Other languages
English (en)
Other versions
CN112015863A (zh
Inventor
范梦真
严一博
程大伟
罗轶凤
钱卫宁
周傲英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Guandian Technology Co ltd
East China Normal University
Original Assignee
Shanghai Guandian Technology Co ltd
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Guandian Technology Co ltd, East China Normal University filed Critical Shanghai Guandian Technology Co ltd
Priority to CN202010868076.1A priority Critical patent/CN112015863B/zh
Publication of CN112015863A publication Critical patent/CN112015863A/zh
Application granted granted Critical
Publication of CN112015863B publication Critical patent/CN112015863B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于图神经网络的多元特征融合中文文本分类方法,属于自然语言处理领域。其特点是融合全局图卷积特征和局部序列特征进行文本分类,通过构建文本与命名实体的异构图并利用异构图进行全局图卷积特征提取,基于GRU的序列编码器进行局部序列特征提取,最后融合两部分特征输入分类器,特别地,在异构图特征提取阶段和特征融合阶段使用attention机制来提高重要信息的权重。本发明在某领域的文本分类任务上,相比于现有的分类模型,本发明提出的模型的中文文本分类准确率明显提高,能更好地应用于对分类精度要求高的某领域文本分类任务上。

Description

一种基于图神经网络的多元特征融合中文文本分类方法
技术领域
本发明涉及自然语言处理领域,尤其涉及基于图神经网络的多元特征融合中文文本分类方法。
背景技术
互联网时代文本信息大量产生,例如每天的行业新闻中蕴含大量有效信息,获取并为这些高效准确地为文本打上标签,是自然语言处理复杂任务的基础。类别化后的新闻也有利于研究员针对性地分析和预测行业行情变化。文本分类是自然语言处理中的一项基础任务,是指根据预先定义好的类别体系将文本打上相应一个或多个标签的过程。传统的机器学习文本分类方法,通常包括两个部分:特征表示和分类模型。传统文本特征表示方式主要有Bow(词袋)、Tf-idf(词频-逆文档频率)等,在将文档向量化后,使用诸如逻辑回归、SVM、朴素贝叶斯、决策树等方法分类。传统的语言表示模型特征稀疏且无法表征相似度。随着深度学习技术的发展,文本表示模型可以使用word2vec、glove等分布式表示的语言模型,并使用神经网络进行信息提取和分类。近年来,图卷积神经网络的提出和在文本分类上的使用,提升了文本分类的效果,能够做到半监督的文本分类,减轻人工标注数据的压力。现有文本分类方法针对文本分类仍然有以下不足。
1)序列模型需要大量的标注数据
现有的文本分类模型大部分基于类别较少,粒度较粗的场景,一般是几类到几十类,使用循环神经网络(RNN)和长短期记忆神经网络(LSTM)进行特征提取。这类序列模型参数量较大,需要大量的标注数据来训练,而实际的应用中,大量的标注往往耗费巨大的标注成本,且质量难以监控。
2)没有结合具体领域的知识进行分类
文本中出现的上市公司、非上市公司、人名、地点、时间、金钱和产品等命名实体对文本分类有重要的作用,有相同命名实体的文本在类别上往往有相似性。尤其在细粒度的文本分类中,区分表述相似实际意义不同的命名实体对分类准确率十分重要。例如,“近年来某地果农收益是往年十余倍,得益于在某互联网平台的曝光”这类新闻属于农业而与互联网行业的相关性不大。所以,识别出文本中的命名实体能够避免歧义,提高文本分类方法的准确率。
综上所述,对于领域内实体信息敏感的细粒度分类技术尚未出现。
发明内容
本发明的目的是针对现有技术的不足而提供的一种基于图神经网络的多元特征融合中文文本分类方法,该方法基于图卷积神经网络,构建文本-命名实体的异构图,通过异构图上的图卷积获得全局信息,并结合文本分类领域常用的文本编码方式GRU,对文本信息进行编码,提升文本表征的信息量,得到一个融合了全局信息和局部语义信息的表征用于文本分类。
实现本发明目的的具体技术方案是:
一种基于图神经网络的多元特征融合中文文本分类方法,该方法包括以下具体步骤:步骤1:文本收集与处理
收集文本,对收集到的文本进行文本预处理,并划分出训练集、验证集和测试集;其中,文本预处理包括分词及去除停用词;
步骤2:词向量模型训练
使用步骤1中处理后的全部文本训练word2vec词向量模型,保存训练好的word2vec词向量模型;
步骤3:文本-命名实体异构图构建
步骤1处理后的文本构成文本集合,使用命名实体识别模型识别文本集合中的文本,得到其中所有的实体,这些实体构成实体集合;将文本和实体视为两种类型的图节点,若文本中包含某个实体,则文本节点与实体节点之间建立一条边,两种类型的节点及节点之间的边构成异构图;
步骤4:构建多元特征融合的神经网络模型
基于图卷积神经网络和GRU序列编码模型构建多元特征融合的神经网络模型;
步骤5:训练与保存
将异构图每个节点的表征和文本的表征输入步骤4构建的图神经网络模型,得到神经网络模型的输出向量,将得到的向量输入一层的全连接神经网络作为分类器,输出为文本属于各个类别的概率,在训练集上使用交叉熵损失函数衡量预测概率与文本真实类别的差距,通过Adam优化器反向传播更新层级神经网络和分类器中的参数,每次更新参数后计算验证集上损失函数的值,重复上述过程直到验证集上损失函数不再下降,保存此时神经网络模型的参数;
步骤6:文本类型预测
将需分类的文本输入训练好的模型中,得到文本属于各个类别的概率,取概率最大的类别为预测类别。
步骤1所述收集文本为收集来自各大新闻门户网站和公众号;所述分词使用中文分词方法Jieba分词;所述停用词由公开的中文停用词表以及文本中词频-逆文档频率Tf-idf值低的词人工筛选后合并构成;所述划分默认百分之七十为训练集、百分之十为验证集和百分之二十为测试集。
步骤2所述训练word2vec词向量模型使用skip-gram方法训练。
步骤3中所述的命名实体识别模型为Bi-LSTM+CRF;所述实体类型包括文本中的上市公司、非上市公司、人名、地点、时间、金钱和产品。
步骤4所述构建多元特征融合的神经网络模型,具体过程如下:
所述的神经网络模型包括全局信息编码器、局部文本信息编码器和一个softAttention信息整合单元;
所述全局信息编码器包括图卷积模块和Attention模块;
图卷积模块:设置异构图共有n个节点,每个节点用de维的向量表示,那么图上所有节点的向量表示为矩阵
Figure BDA0002650344190000031
异构图中的节点之间的连接关系用邻接矩阵A表示,节点i和j相连时邻接矩阵A中第i行第j列的元素Aij为1,节点i和j不相连时Aij为0;异构图的度矩阵用D表示,度矩阵对角线元素为Dii=∑jAij,对角线元素以外元素为0;标准化后邻接矩阵A用/>
Figure BDA0002650344190000032
表示,标准化过程如下:
Figure BDA0002650344190000033
图卷积的计算过程如下:
Figure BDA0002650344190000034
其中,j表示第j层全局信息编码器,σ表示softmax激活函数,L(j+1)表示第(j+1)层全局信息编码器的输出,H(j)表示第j层Attention模块的输出,W(j)表示第j层的权重矩阵,定义H(0)=X;
Attention模块:对于异构图中的一个节点υ,其邻居节点集合为Nυ,将与节点υ相连的节点的向量的加权求和作为Attention模块的输出,计算如下:
evv′=σ(μT·[hv||hv′])
Figure BDA0002650344190000035
Figure BDA0002650344190000036
其中,μT表示Attention权重向量的转置,σ表示softmax激活函数,evv′表示Attention计算的中间值,hv,hv′分别表示节点υ和邻居节点的向量表示,αvv′表示Attention权重,h′v表示节点vAttention模块的输出,第j层Attention模块所有节点的输出向量组成矩阵H(j)
节点υ经过全局信息编码器后得到表示记为o1
所述局部文本信息编码器使用GRU;分词后的文本序列经过word2vec词向量模型后得到的向量序列是[x1,x2,…,xT],使用GRU编码文本序列,计算如下:
zt=σg(Wzxt+Uzht-1+bz)
rt=σg(Wrxr+Urht-1+br)
ht=zt·ht-1+(1-zt)·φh(Whxt+Uhht-1+bh)
其中,xt表示t时刻的输入,ht-1表示t-1时刻序列编码器输出,Wz,Uz,Wr,Ur,Wh,Uh表示权重矩,bz,br,bh表示偏移量,σg表示sigmoid激活函数,φh表示tanh激活函数;使用GRU编码正向文本序列[x1,x2,…,xT]得到最后一层的输出为
Figure BDA0002650344190000041
使用GRU编码反向文本序列[xT,xT-1,…,x1],得到最后一层的输出为/>
Figure BDA0002650344190000042
拼接hT和h1作为局部文本信息编码器的输出
Figure BDA0002650344190000043
Soft Attention信息整合单元,用于求得全局信息编码器的输出o1和局部文本信息编码器的输出o2的权重,计算如下:
ui=tanh(Woo1+bo)(i=1,2)
Figure BDA0002650344190000044
/>
Figure BDA0002650344190000045
其中,Wo,bo为权重矩阵和偏移项,tanh为激活函数,o1,o2分别表示全局信息编码器和局部文本信息编码器的输出,ui为Soft Attention权重向量,βi为oi(i=1,2)的权重,z表示神经网络模型的输出。
步骤5所述异构图每个节点的表征为文本节点的表征和命名实体节点的表征,文本节点的表征是分词后每个词词向量的平均值,命名实体节点的表征是命名实体的词向量;分类器输出前要使用softmax激活函数,分类器输出为c维向量,其中c为文本总类别数,输入向量p的计算如下:
p=softmax(Wcz+bc)
其中,Wc为全连接层权重,bc为偏移项;p∈Rc为输出的向量,表示文本属于各个类别的概率,z为上述神经网络模型的输出。
步骤5所述的交叉熵损失函数,具体计算如下:
Figure BDA0002650344190000051
其中yi(i=1,2,…,c)等于1时表示文本属于第i类,
Figure BDA0002650344190000052
为分类器预测文本属于第i类的概率。
本发明通过异构图上的图卷积获得全局信息,并结合文本分类领域常用的文本编码方式GRU,提升了文本表征的信息量,得到一个融合了全局信息和局部语义信息的表征用于文本分类,提高了分类的准确率,本发明相比于现有的分类模型,能够更好地识别细粒度的语义信息。
附图说明
图1为本发明神经网络模型示意图;
图2为本发明流程图。
具体实施方式
本发明使用Jieba分词对所有文本语料进行分词,并使用全量分词后的语料训练word2vec词向量模型,用训练好的词向量模型得到文本语料的词向量序列,然后基于图卷积神经网络,构建文本-命名实体的异构图,通过异构图上的图卷积获得全局信息,并结合文本分类领域常用的文本编码方式GRU,对文本信息进行编码,提升文本表征的信息量,最后将合并后的两部分表征输入分类器进行分类,得到最终的结果。
通过以下具体实施例对本发明作进一步的详细说明。
实施例1
参阅图2,按下述步骤进行基于图神经网络的多元特征融合中文文本分类模型训练:Step1:收集目标网站和公众号的文本,对收集到的文本进行文本预处理,并划分出训练集、验证集和测试集;其中,文本预处理包括分词及去除停用词,例如:
原始文本:
平安基金张某:坚持新股常态化发行,有利于发行生态法治化、市场化12月1日消息,据悉,证监会将按照发展股权融资、优化上市公司质量、服务实体经济的整体需求,坚持新股常态化发行;
预处理后文本序列:
['某基金','张某','坚持','新股','常态化','发行','有利于','发行','生态','法治化','市场化','12月1日','消息','据悉','证监会','将','按照','发展','股权','融资','优化','上市公司','质量','服务','实体','经济','的','整体','需求','坚持','新股','常态化','发行']
Step2:使用S1中处理后的文本训练word2vec词向量模型,这里指使用收集到的全部文本,保存训练好的word2vec词向量模型;word2vec词向量模型使用skip-gram方法训练。
Step3:文本-命名实体异构图构建。使用Bi-LSTM+CRF的命名实体识别模型识别所有分词后的文本语料,构造实体集合,使用列表来存储,例如[某基金,证监会,……];文档-实体异构图使用列表来表示,[文本1,文本2,……,某基金,证监会,实体3,……];异构图的邻接矩阵可以表示为:
Figure BDA0002650344190000061
Step4:构建多元特征融合的神经网络模型。构建过程如下:
神经网络模型包括全局信息编码器、局部文本信息编码器和一个soft Attention信息整合单元。
所述全局信息编码器包括图卷积模块和Attention模块;
图卷积模块:假设异构图共有n个节点,每个节点用de维的向量表示,那么图上所有节点的向量可以表示为矩阵
Figure BDA0002650344190000062
异构图中的节点之间的连接关系用邻接矩阵A表示(若节点i和j相连,那么邻接矩阵A中第i行第j列的元素Aij为1,否则为0);异构图的度矩阵用D表示,其中度矩阵对角线元素为Dii=∑jAij(Dii和Aij下标分别表示行和列),其他元素为0。标准化后邻接矩阵A用/>
Figure BDA0002650344190000063
表示,标准化过程如下:
Figure BDA0002650344190000064
图卷积的计算过程如下:
Figure BDA0002650344190000065
其中,j表示第j层全局信息编码器,σ表示softmax激活函数,L(j+1)表示第(j+1)层全局信息编码器的输出,H(j)表示第j层Attention模块的输出,W(j)表示第j层的权重矩阵,定义H(0)=X。
Attention模块:对于异构图中的每个节点v,它的邻居节点集合为Nv,将与它相连的节点的向量的加权求和作为Attention模块的输出,计算如下:
evv′=σ(μT·[hv||hv′])
Figure BDA0002650344190000066
Figure BDA0002650344190000067
其中,μT表示Attention权重向量的转置,σ表示softmax激活函数,evv′表示Attention计算的中间值,hv,hv′分别表示节点υ和它邻居节点的向量表示,αvv′表示Attention权重,h′v表示节点vAttention模块的输出,第j层Attention模块所有节点的输出向量组成矩阵H(j)
文本节点υ经过全局信息编码器后得到表示记为o1
所述局部文本信息编码器使用GRU。假设分词后的文本序列[x1,x2,…,xT],使用GRU编码文本序列,计算如下:
zt=σg(Wzxt+Uzht-1+bz)
rt=σg(Wrxr+Urht-1+br)
ht=zt·ht-1+(1-zt)·φh(Whxt+Uhht-1+bh)
其中,xt表示t时刻的输入,ht-1表示t-1时刻序列编码器输出,Wz,Uz,Wr,Ur,Wh,Uh表示权重矩,bz,br,bh表示偏移量,σg表示sigmoid激活函数,φh表示tanh激活函数。
使用上述序列GRU编码正向文本序列[x1,x2,…,xT]得到最后一层的输出为
Figure BDA0002650344190000071
使用上述序列GRU编码反向文本序列[xT,xT-1,…,x1],得到最后一层的输出为/>
Figure BDA0002650344190000072
拼接hT和h1作为局部文本信息编码器的输出/>
Figure BDA0002650344190000073
Soft Attention信息整合单元,用于求得上述全局信息编码器的输出o1和局部文本信息编码器的输出o2,计算如下:
ui=tanh(Woo1+bo)(i=1,2)
Figure BDA0002650344190000074
Figure BDA0002650344190000075
其中,Wo,bo为权重矩阵和偏移项,tanh为激活函数,o1,o2分别表示全局信息编码器和局部文本信息编码器的输出,ui为Soft Attention权重向量,βi为oi(i=1,2)的权重,z表示神经网络模型的输出。
Step5:模型训练与保存。将图节点表征输入全局信息编码器,将文本分词后的词序列表征输入局部文本信息编码器,得到的输出向量z,输入一层的全连接神经网络作为分类器,使用交叉熵损失函数衡量预测概率与文本真实类别的差距,并通过Adam优化器反向传播更新参数,每次更新参数后计算验证集上损失函数的值。分类器中计算如下:
p=softmax(Wcz+bc)
其中,Wc为全连接层权重,bc为偏移项;p∈Rc为输出的向量,表示文本属于各个类别的概率,z为上述神经网络模型的输出;
那么,交叉熵损失函数计算如下:
Figure BDA0002650344190000076
其中yi等于1时表示文本属于第i类,
Figure BDA0002650344190000081
为分类器预测文本属于第i类的概率;通过Adam优化器反向传播更新参数,每次更新参数后计算验证集上损失函数的值,需要更新的参数包括层级神经网络和分类器中的参数,重复上述过程直到验证集上损失函数不再下降,保存此时层级神经网络、命名实体识别模型和分类器组成的整体模型(如图1所示);
Step6:将实施例的文本输入上述保存的整体模型中,得到预测数的概率,本实施例中的类别c为20,输出概率p=[0.08050156,0.02728766,0.03207764,0.06168538,0.05952194,0.03316066,0.07006078,0.05632877,0.04960008,0.05180365,0.03285286,0.02650431,0.01506351,0.07907253,0.00450123,0.03119562,0.05675745,0.104023,0.03745773,0.09054364],其中概率最大的为第18类,
Figure BDA0002650344190000082
在本实施例代表“行业监管”类别,所以,预测类别为“行业监管”。
综上所述,本发明采用构建文本-命名实体的异构图,通过异构图上的图卷积获得全局信息,并结合文本分类领域常用的文本编码方式GRU,对文本信息进行编码,提升文本表征的信息量,得到一个融合了全局信息和局部语义信息的表征用于文本分类的方法,提升了细粒度文本分类的精度。
以上仅是本发明的一个实施示例。本发明的保护范围并不局限于上述实例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进,应视为本发明的保护范围。

Claims (7)

1.一种基于图神经网络的多元特征融合中文文本分类方法,其特征在于,该方法包括以下具体步骤:
步骤1:文本收集与处理
收集文本,对收集到的文本进行文本预处理,并划分出训练集、验证集和测试集;其中,文本预处理包括分词及去除停用词;
步骤2:词向量模型训练
使用步骤1中处理后的全部文本训练word2vec词向量模型,保存训练好的word2vec词向量模型;
步骤3:文本-命名实体异构图构建
步骤1处理后的文本构成文本集合,使用命名实体识别模型识别文本集合中的文本,得到其中所有的实体,这些实体构成实体集合;将文本和实体视为两种类型的图节点,若文本中包含某个实体,则文本节点与实体节点之间建立一条边,两种类型的节点及节点之间的边构成异构图;
步骤4:构建多元特征融合的神经网络模型
基于图卷积神经网络和GRU序列编码模型构建多元特征融合的神经网络模型;
步骤5:训练与保存
将异构图每个节点的表征和文本的表征输入步骤4构建的图神经网络模型,得到神经网络模型的输出向量,将得到的向量输入一层的全连接神经网络作为分类器,输出为文本属于各个类别的概率,在训练集上使用交叉熵损失函数衡量预测概率与文本真实类别的差距,通过Adam优化器反向传播更新层级神经网络和分类器中的参数,每次更新参数后计算验证集上损失函数的值,重复上述过程直到验证集上损失函数不再下降,保存此时神经网络模型的参数;
步骤6:文本类型预测
将需分类的文本输入训练好的模型中,得到文本属于各个类别的概率,取概率最大的类别为预测类别。
2.根据权利要求1所述的多元特征融合中文文本分类方法,其特征在于,步骤1所述收集文本为收集来自各大新闻门户网站和公众号;所述分词使用中文分词方法Jieba分词;所述停用词由公开的中文停用词表以及文本中词频-逆文档频率Tf-idf值低的词人工筛选后合并构成;所述划分默认百分之七十为训练集、百分之十为验证集和百分之二十为测试集。
3.根据权利要求1所述的多元特征融合中文文本分类方法,其特征在于,步骤2所述训练word2vec词向量模型使用skip-gram方法训练。
4.根据权利要求1所述的多元特征融合中文文本分类方法,其特征在于,步骤3中所述的命名实体识别模型为Bi-LSTM+CRF;所述实体类型包括文本中的上市公司、非上市公司、人名、地点、时间、金钱和产品。
5.根据权利要求1所述的多元特征融合中文文本分类方法,其特征在于,步骤4所述构建多元特征融合的神经网络模型,具体过程如下:
所述的神经网络模型包括全局信息编码器、局部文本信息编码器和一个softAttention信息整合单元;
所述全局信息编码器包括图卷积模块和Attention模块;
图卷积模块:设置异构图共有n个节点,每个节点用de维的向量表示,那么图上所有节点的向量表示为矩阵
Figure FDA0002650344180000021
异构图中的节点之间的连接关系用邻接矩阵A表示,节点i和j相连时邻接矩阵A中第i行第j列的元素Aij为1,节点i和j不相连时Aij为0;异构图的度矩阵用D表示,度矩阵对角线元素为Dii=∑jAij,对角线元素以外元素为0;标准化后邻接矩阵A用
Figure FDA0002650344180000022
表示,标准化过程如下:
Figure FDA0002650344180000023
图卷积的计算过程如下:
Figure FDA0002650344180000024
其中,j表示第j层全局信息编码器,σ表示softmax激活函数,L(j+1)表示第(j+1)层全局信息编码器的输出,H(j)表示第j层Attention模块的输出,W(j)表示第j层的权重矩阵,定义H(0)=X;
Attention模块:对于异构图中的一个节点υ,其邻居节点集合为Nυ,将与节点υ相连的节点的向量的加权求和作为Attention模块的输出,计算如下:
evv,=σ(μT·[hv||hv′])
Figure FDA0002650344180000025
Figure FDA0002650344180000026
其中,μT表示Attention权重向量的转置,σ表示softmax激活函数,evv′表示Attention计算的中间值,hv,hv′分别表示节点υ和邻居节点的向量表示,αvv′表示Attention权重,h′v表示节点υAttention模块的输出,第j层Attention模块所有节点的输出向量组成矩阵H(j);节点υ经过全局信息编码器后得到表示记为o1
所述局部文本信息编码器使用GRU;分词后的文本序列经过word2vec词向量模型后得到的向量序列是[x1,x2,…,xT],使用GRU编码文本序列,计算如下:
zt=σg(Wzxt+Uzht-1+bz)
rt=σg(Wrxr+Urht-1+br)
ht=zt·ht-1+(1-zt)·φh(Whxt+Uhht-1+bh)
其中,xt表示t时刻的输入,ht-1表示t-1时刻序列编码器输出,Wz,Uz,Wr,Ur,Wh,Uh表示权重矩,bz,br,bh表示偏移量,σg表示sigmoid激活函数,φh表示tanh激活函数;
使用GRU编码正向文本序列[x1,x2,…,xT]得到最后一层的输出为
Figure FDA0002650344180000031
使用GRU编码反向文本序列[xT,xT-1,…,x1],得到最后一层的输出为/>
Figure FDA0002650344180000032
拼接hT和h1作为局部文本信息编码器的输出/>
Figure FDA0002650344180000033
Soft Attention信息整合单元,用于求得全局信息编码器的输出o1和局部文本信息编码器的输出o2的权重,计算如下:
ui=tanh(Woo1+bo) (i=1,2)
Figure FDA0002650344180000034
Figure FDA0002650344180000035
其中,Wo,bo为权重矩阵和偏移项,tanh为激活函数,o1,o2分别表示全局信息编码器和局部文本信息编码器的输出,ui为Soft Attention权重向量,βi为oi(i=1,2)的权重,z表示神经网络模型的输出。
6.根据权利要求1所述的多元特征融合中文文本分类方法,其特征在于,步骤5所述异构图每个节点的表征为文本节点的表征和命名实体节点的表征,文本节点的表征是分词后每个词词向量的平均值,命名实体节点的表征是命名实体的词向量;分类器输出前要使用softmax激活函数,分类器输出为c维向量,其中c为文本总类别数,输入向量p的计算如下:
p=softmax(Wcz+bc)
其中,Wc为全连接层权重,bc为偏移项;p∈Rc为输出的向量,表示文本属于各个类别的概率,z为上述神经网络模型的输出。
7.根据权利要求1所述的多元特征融合中文文本分类方法,其特征在于,步骤5所述的交叉熵损失函数,具体计算如下:
Figure FDA0002650344180000041
其中yi(i=1,2,…,c)等于1时表示文本属于第i类,
Figure FDA0002650344180000042
为分类器预测文本属于第i类的概率。/>
CN202010868076.1A 2020-08-26 2020-08-26 一种基于图神经网络的多元特征融合中文文本分类方法 Active CN112015863B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010868076.1A CN112015863B (zh) 2020-08-26 2020-08-26 一种基于图神经网络的多元特征融合中文文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010868076.1A CN112015863B (zh) 2020-08-26 2020-08-26 一种基于图神经网络的多元特征融合中文文本分类方法

Publications (2)

Publication Number Publication Date
CN112015863A CN112015863A (zh) 2020-12-01
CN112015863B true CN112015863B (zh) 2023-06-13

Family

ID=73502265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010868076.1A Active CN112015863B (zh) 2020-08-26 2020-08-26 一种基于图神经网络的多元特征融合中文文本分类方法

Country Status (1)

Country Link
CN (1) CN112015863B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580370B (zh) * 2020-12-24 2023-09-26 内蒙古工业大学 一种融合语义知识的蒙汉神经机器翻译方法
CN112906382B (zh) * 2021-02-05 2022-06-21 山东省计算中心(国家超级计算济南中心) 基于图神经网络的政策文本多标签标注方法及系统
CN112818112A (zh) * 2021-02-26 2021-05-18 广东工业大学 一种基于文本分类的广告推送方法、装置和系统
CN113011202B (zh) * 2021-03-23 2023-07-25 中国科学院自动化研究所 基于多任务训练的端到端图像文本翻译方法、系统、装置
CN113434668B (zh) * 2021-05-18 2022-05-20 湘潭大学 一种基于模型融合的深度学习文本分类方法及系统
CN113220884B (zh) * 2021-05-19 2023-01-31 西北工业大学 基于双滑动窗口的图神经网络文本情感分类方法
CN113157927B (zh) * 2021-05-27 2023-10-31 中国平安人寿保险股份有限公司 文本分类方法、装置、电子设备及可读存储介质
CN114330357B (zh) * 2021-08-04 2024-05-10 腾讯科技(深圳)有限公司 一种文本处理方法、装置、计算机设备和存储介质
CN114343665B (zh) * 2021-12-31 2022-11-25 贵州省人民医院 一种基于图卷积空时特征融合选择的心律失常识别方法
CN116386895B (zh) * 2023-04-06 2023-11-28 之江实验室 基于异构图神经网络的流行病舆情实体识别方法与装置
CN116563313B (zh) * 2023-07-11 2023-09-19 安徽大学 基于门控融合注意力的遥感影像大豆种植区域分割方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460089A (zh) * 2018-01-23 2018-08-28 哈尔滨理工大学 基于Attention神经网络的多元特征融合中文文本分类方法
CN108595632A (zh) * 2018-04-24 2018-09-28 福州大学 一种融合摘要与主体特征的混合神经网络文本分类方法
CN110609897A (zh) * 2019-08-12 2019-12-24 北京化工大学 一种融合全局和局部特征的多类别中文文本分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7809705B2 (en) * 2007-02-13 2010-10-05 Yahoo! Inc. System and method for determining web page quality using collective inference based on local and global information

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460089A (zh) * 2018-01-23 2018-08-28 哈尔滨理工大学 基于Attention神经网络的多元特征融合中文文本分类方法
CN108595632A (zh) * 2018-04-24 2018-09-28 福州大学 一种融合摘要与主体特征的混合神经网络文本分类方法
CN110609897A (zh) * 2019-08-12 2019-12-24 北京化工大学 一种融合全局和局部特征的多类别中文文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于CNN和BiLSTM网络特征融合的文本情感分析;李洋;董红斌;;计算机应用(11);全文 *

Also Published As

Publication number Publication date
CN112015863A (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
CN112015863B (zh) 一种基于图神经网络的多元特征融合中文文本分类方法
CN111552807B (zh) 一种短文本多标签分类方法
CN111079985B (zh) 一种基于bert并融合可区分属性特征的刑事案件刑期预测方法
CN111461157B (zh) 一种基于自学习的跨模态哈希检索方法
CN110263325B (zh) 中文分词系统
Zhao et al. The study on the text classification for financial news based on partial information
CN106447066A (zh) 一种大数据的特征提取方法和装置
CN112884551B (zh) 一种基于近邻用户和评论信息的商品推荐方法
CN109710768B (zh) 一种基于mimo递归神经网络的纳税人行业两层级分类方法
CN111597340A (zh) 一种文本分类方法及装置、可读存储介质
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN111666373A (zh) 一种基于Transformer的中文新闻分类方法
Kang et al. OTLAMC: an online transfer learning algorithm for multi-class classification
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN114722835A (zh) 基于lda和bert融合改进模型的文本情感识别方法
KR20200071865A (ko) 차원 축소에 기반한 영상 객체 인식 시스템 및 방법
CN112989830B (zh) 一种基于多元特征和机器学习的命名实体识别方法
CN114881173A (zh) 基于自注意力机制的简历分类方法和装置
CN114942974A (zh) 电商平台商品用户评价情感倾向分类方法
CN111985680B (zh) 基于胶囊网络与时序的刑事多罪名预测方法
Majewski et al. Sentence recognition using artificial neural networks
CN112925907A (zh) 基于事件图卷积神经网络的微博评论观点对象分类方法
CN117271701A (zh) 一种基于tggat和cnn的系统运行异常事件关系抽取方法及系统
Jabreel et al. Target-dependent Sentiment Analysis of Tweets using a Bi-directional Gated Recurrent Unit.
CN113590819B (zh) 一种大规模类别层级文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant