CN112487143B - 一种基于舆情大数据分析的多标签文本分类方法 - Google Patents

一种基于舆情大数据分析的多标签文本分类方法 Download PDF

Info

Publication number
CN112487143B
CN112487143B CN202011368536.0A CN202011368536A CN112487143B CN 112487143 B CN112487143 B CN 112487143B CN 202011368536 A CN202011368536 A CN 202011368536A CN 112487143 B CN112487143 B CN 112487143B
Authority
CN
China
Prior art keywords
text
label
level
sentence
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011368536.0A
Other languages
English (en)
Other versions
CN112487143A (zh
Inventor
王进
魏紫祎
李馨渝
闫振兴
邱谦
邓欣
刘彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yami Technology Guangzhou Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202011368536.0A priority Critical patent/CN112487143B/zh
Publication of CN112487143A publication Critical patent/CN112487143A/zh
Application granted granted Critical
Publication of CN112487143B publication Critical patent/CN112487143B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于自然语言处理的文本分类领域,具体涉及一种基于舆情大数据分析的多标签文本分类方法,该方法包括:获取高校文本数据,根据高校文本数据构建拓扑图;将拓扑图输入到训练好的多标签文本分类模型中,得到高校文本数据的分类结果;所述多标签文本分类模型包括图卷积神经网络GCN和注意力残差网络;本发明采用GCN图卷积网络解决了从高校新闻评论数据错综复杂的信息结构中提取信息的困难,通过词句分级层次的对高校文本语料提取特征,充分挖掘文本词与词,句与句之间的文字内涵,同时为模型训练加入更加丰富的语料信息,对特征引入基于注意力的类残差融合,进一步分解文本对标签预测的影响。

Description

一种基于舆情大数据分析的多标签文本分类方法
技术领域
本发明属于自然语言处理的文本分类领域,具体涉及一种基于舆情大数据分析的多标签文本分类方法。
背景技术
随着互联网的快速发展,高校这一事业单位越来越受社会及媒体关注,越来越多的微博知乎等网站的热点新闻及评论的文本信息量呈现出盘根错节的增长趋势。为了使高校工作者熟知群众在网络上关注的热点事件所映射的高校工作问题,提高对舆情进行把控,促进高校发展,构建和谐校园,对这些高校热点新闻评论信息的多标签文本分类就十分具有现实意义。
对于多标签文本分类来说,传统的方法主要分为3类,第一类是问题转化方法,该类方法一般将多标签文本任务分解成多个独立的二分类问题,通过对每一个标签进行二分类求解及合并来解决文本的多标签分类问题,但是这种方法需要对每个标签都构建不同的二分类器,导致大量时间空间的浪费,也没有考虑标签关系;第二类是算法适应法,这类方法通过对每个多标签分类任务构建单独的适应算法,直接求解出文本的多标签分类,这种方法虽然考虑了标签关系,但模型简单,不足以考虑多层次的标签相关性;第三类则是基于深度学习的方法,在这类方法中,通常通过对文本的特征的提取,或者对多标签关联性的学习分别建立不同的深度学习模型,从而进行文本的多标签分类。
深度学习方法有很多种,例如基于注意力机制学习标签的相关性、基于LSTM神经网络提取文本之间的序列特征等,但这些方法通常只考虑了文本或者标签某一方面对多标签文本分类正确性的影响,并且针对高校热点新闻评论信息这种复杂的非欧式结构的数据,传统序列神经网络往往难以处理。
发明内容
为解决以上现有技术存在的问题,本发明提出了一种基于舆情大数据分析的多标签文本分类方法,该方法包括:获取高校文本数据,根据高校文本数据构建拓扑图;将拓扑图输入到训练好的多标签文本分类模型中,得到高校文本数据的分类结果;所述多标签文本分类模型包括图卷积神经网络GCN和注意力残差网络;
对多标签文本分类模型进行训练的过程包括:
S1:获取文本数据和标签数据;将每个文本数据转换为词级拓扑图,将所有的拓扑图进行集合和划分,得到训练集和测试集;将标签数据转换为标签拓扑图;
S2:将训练集中的词级拓扑图输入到图卷积神经网络GCN中提取文本数据的词级特征向量;
S3:根据图卷积神经网络GCN的注意力系数和文本数据构建句级拓扑图,将句级拓扑图输入到图卷积神经网络GCN中提取文本数据的句级特征向量;
S4:将各个标签拓扑图输入到图卷积神经网络GCN中,提取各个标签拓扑图的标签特征向量;
S5:采用基于注意力的残差网络对词级特征向量和句级特征向量进行特征融合,得到级联特征向量;
S6:将标签特征向量与级联特征向量进行点乘,预测文本的分类标签;
S7:根据文本的分类标签计算多标签文本分类模型的损失函数;
S8:将测试集中的拓扑图再次输入到多标签文本分类模型中,优化损失函数,当损失函数最小时,完成模型的训练。
优选的,构建的高校文本拓扑图中,采用高校文本数据的语料词汇作为拓扑图的节点,采用互信息PMI构建拓扑图的边;构建的标签拓扑图中,采用高校文本数据标签的语料词汇作为标签拓扑图的节点,采用余弦相似度和欧氏距离构建标签拓扑图的边。
优选的,提取文本数据的词级特征向量的过程为:
步骤1:采用预训练的BERT模型对文本数据进行词向量编码处理,得到每个词在向量空间中对应的特征向量表示h;
步骤2:根据词级拓扑图的节点和边构建邻接矩阵;
步骤3:据特征向量表示h构建初始特征矩阵;
步骤4:将邻接矩阵和初始特征矩阵输入到图卷积神经网络GCN模型中,提取出文本数据的词级特征向量H。
进一步的,提取出词级特征向量H的表达式为:
H={h1,h2,…,hv}
优选的,提取文本数据的句级特征向量的过程包括:
步骤1:获取训练词级网络最后一层的注意力系数ai,j
步骤2:根据注意力系数将各高校文本语料转换为句级向量编码表示H~;
步骤3:根据文本数据构建句级拓扑图,句级拓扑图的节点由文本各句子组成;
步骤4:根据句级拓扑图的节点和边构建邻接矩阵;
步骤5:根据句级向量编码表示H~构建初始句级特征矩阵;
步骤6:将邻接矩阵和初始句级特征矩阵特征矩阵输入到图卷积神经网络GCN模型中,提取出句级特征向量H*
进一步的,注意力系数的计算公式为:
aij=ReLU(hiWl,hjWl)
进一步的,高校文本语料的向量编码表示的公式为:
Figure BDA0002805828960000031
优选的,得到级联特征向量的过程包括:
步骤1:采用全连接神经网络对句级特征向量进行处理,得到与词级特征向量相同维度的句级特征向量。
步骤2:将句级特征向量与词级特征向量特征融合得到级联文本特征向量。
进一步的,级联文本特征向量的计算公式为:
Figure BDA0002805828960000041
优选的,多标签文本分类模型的损失函数为:
Figure BDA0002805828960000042
本发明采用GCN图卷积网络解决了从高校新闻评论数据错综复杂的信息结构中提取信息的困难,通过词章分级层次的对高校文本语料提取特征,充分挖掘文本词与词,句与句之间的文字内涵,同时为模型训练加入更加丰富的语料信息,对特征引入基于注意力的类残差融合,进一步分解文本对标签预测的影响。而对于多标签Y,采用GCN图卷积网络,处理不规则的以图的形式存在的多标签数据,学习标签之间的关联信息,大大提高了诸如高校新闻评论信息数据多标签问题的准确性。
附图说明
图1为本发明的整体流程图;
图2为本发明的对文本或标签的特征提取及注意力系数计算的流程图;
图3为本发明的基于注意力的残差计算特征级联结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于舆情大数据分析的多标签文本分类方法,如图1所示,该方法包括:获取高校文本数据,根据高校文本数据构建拓扑图;将拓扑图输入到训练好的多标签文本分类模型中,得到高校文本数据的分类标签;根据文本分类标签对文本数据进行分类;所述多标签文本分类模型包括图卷积神经网络GCN和注意力残差网络。
对多标签文本分类模型进行训练的过程包括:
S1:获取文本数据和标签数据;将每个文本数据转换为词级拓扑图,将所有的拓扑图进行集合和划分,得到训练集和测试集;将标签数据转换为标签拓扑图;
S2:将训练集中的词级拓扑图输入到图卷积神经网络GCN中提取文本数据的词级特征向量;
S3:根据图卷积神经网络GCN的注意力系数和文本数据构建句级拓扑图,将句级拓扑图输入到图卷积神经网络GCN中提取文本数据的句级特征向量;
S4:将各个标签拓扑图输入到图卷积神经网络GCN中,提取各个标签拓扑图的标签特征向量;
S5:采用基于注意力的残差网络对词级特征向量和句级特征向量进行特征融合,得到级联特征向量;
S6:将标签特征向量与级联特征向量进行点乘,预测文本的分类标签;
S7:根据文本的分类标签计算多标签文本分类模型的损失函数;
S8:将测试集中的拓扑图再次输入到多标签文本分类模型中,优化损失函数,当损失函数最小时,完成模型的训练。
如图2所示,将高校文本语料分别构建拓扑图,图的节点由各文本语料词汇组成,即图中节点数|V|=|n|,其中n表示当前文本词汇总量,拓扑图的边采用互信息表示PMI。当PMI(i,j)为正数时,表示词i,j有较强的语义关联性,当PMI(i,j)为负数时,表示词i,j语义关联性较低。
提取文本数据的词级特征向量的过程为:
步骤1:采用预训练的BERT模型对文本数据进行词向量编码处理,得到每个词在向量空间中对应的特征向量表示h。
通过预训练的BERT模型对文本及标签信息进行词向量编码,使得原始文本中的每个词及标签词在向量空间中有对应的特征表示。编码后的各条高校新闻评论信息样本的向量表示:Xr={x1,x2,...,xn},其中n为各文本词数,r为文本语料序号。将所有出现的标签拼接在一起,标签向量表示为:Y={y1,y2,...,yt},其中t为标签个数。
步骤2:根据词级拓扑图的节点和边构建邻接矩阵。
对于邻接矩阵A,则根据词汇节点之间的边计算,即邻接矩阵A的计算方式为:
Figure BDA0002805828960000061
对于词汇节点之间的权重,采用互信息表示PMI,其计算公式为:
Figure BDA0002805828960000062
Figure BDA0002805828960000063
Figure BDA0002805828960000064
其中#W(i)表示在固定滑动窗口下词汇i出现的数量,#W(i,j)表示在固定滑动窗口下词汇i,j同时出现的数量,#W表示所有固定滑动窗口下的词汇i或j的总数。
步骤3:据特征向量h构建得到初始特征矩阵H={h1,h2,...,hv};其中,v为词数,hy表示词的特征。
步骤4:将邻接矩阵和初始特征矩阵输入到图卷积神经网络GCN模型中,提取出词级特征向量H。
得到词级特征向量的具体计算公式我为:
hl=ReLU(ReLU(hi l-1Wl-1,hjWl-1)hl-1Wl-1)
其中,l为当前层,
Figure BDA0002805828960000065
表示第l-1层的词级特征,W为上一层权重系数;最后一层的词级特征hlast为提取出词级特征向量H。
设置图卷积神经输入为N*k,其中k为编码维度,N为文本的词数,对词数小于N的文本进行padding填充,对词语大于N的文本进行截断处理。对将每张图分别输入GCN模型得到各个高校新闻评论文本的词级特征向量,且对每一层输出使用ReLU(⊙)激活函数,则图卷积神经网络的节点更新机制为:
hl=ReLU(Ahl-1Wl-1)
其中A为邻接矩阵,Wl-1为l-1层的权重,hl-1为第l-1层的输出结果,h1=X。
提取文本数据的句级特征向量的过程包括:
步骤1:获取训练词级网络的注意力系数ai,j
在最后一层以ReLU(⊙)激活函数的注意力机制计算当前层每个节点的注意力系数。注意力系数的计算方式为:
aij=ReLU(hiWl,hjWl)
其中,hi表示当前卷积层的第i个节点特征向量,hj表示当前卷积层的第j个节点特征向量,Wl表示当前层权重系数,ReLU(.)表示线性整流函数,又称修正线性单元,是一种人工神经网络中常用的激活函数,通常指代以斜坡函数及其变种为代表的非线性函数。
步骤2:根据注意力系数将各高校文本语料转换为句级向量编码表示H~;
采用词级网络得到的权重计算各高校文本语料的向量表示,其计算方式为:
Figure BDA0002805828960000071
其中,ai,j为上述词级网络训练得到的节点i与j的注意力系数,Hi为当前词节点,m为与i相邻的节点数,N为句子词数,
Figure BDA0002805828960000073
为句子r的节点表示。
步骤3:根据文本数据构建句级拓扑图,句级拓扑图的节点由文本各句子组成。
步骤4:根据句级拓扑图的节点和边构建邻接矩阵;
对文本所有句子构建拓扑图计算句级特征包括如下:
Figure BDA0002805828960000072
对于词汇节点之间的权重,采用互信息表示PMI,其计算公式为:
Figure BDA0002805828960000081
Figure BDA0002805828960000082
Figure BDA0002805828960000083
其中#W(i)表示在固定滑动窗口下句子i出现的数量,#W(i,j)表示在固定滑动窗口下句子i,j同时出现的数量,当PMI(i,j)为正数时,表示句子i,j有较强的语义关联性,当PMI(i,j)为负数时,表示词i,j语义关联性较低。
步骤5:根据句级向量编码表示H~构建初始句级特征矩阵。
步骤6:将邻接矩阵和初始句级特征矩阵特征矩阵输入到图卷积神经网络GCN模型中,提取出句级特征向量H*
设置图卷积神经输入为m*k,其中k为编码维度,m为文本的句子数,对句子数小于m的文本进行padding填充,对词语大于m的文本进行截断处理。将拓扑图输入GCN模型得到所有高校文本语料的句级特征向量。网络输出即为高校文本语料的句级特征向量,其表示为:H*,并在最后一层引入以ReLU(⊙)激活函数的注意力机制计算当前层每个节点的注意力系数。
如图3所示,采用注意力残差计算对词级特征向量和句级特征向量进行残差融合,得到级联特征向量的过程包括:
步骤1:采用全连接神经网络对句级特征向量进行处理,得到与词级特征向量相同维度的句级特征向量。
步骤2:将句级特征向量与词级特征向量特征融合得到级联文本特征向量Z。
构建一个全连接神经网络,网络输入为m*k维,输出为N*k维。全连接采用Relu激活函数。
其次将句级特征向量H*输入全连接神经网络中学习,得到于词级特征向量相同维度的新句级特征向量。
将句级特征向量与词级特征向量累加求平均,得到所有文本特征的一维表示,用与标签预测。
注意力类残差网络的计算方式如下:
Figure BDA0002805828960000091
其中arj为句级网络训练得到的节点r与j之间的注意力系数,M为所有与节点r邻接的节点,Hi为节点为i的词级特征向量,
Figure BDA0002805828960000092
为节点为r的句级特征向量,N为设定的词级图卷积神经网络的输入维度及全连接神经网络的输出维度,W为全连接神经网络的权重参数,b为偏置项。
对标签构建拓扑图计算标签相关性特征包括如下
对标签向量Y构建拓扑图,图的节点由各标签词汇组成,即图中节点数|V|=|L|,L为所有不互相重复的标签数量,拓扑图的边采用余弦相似度和欧拉距离。对于特征矩阵X,采用单位矩阵E表示,而对于邻接矩阵A,则根据词汇节点之间的边计算,即邻接矩阵A的计算方式为:
Figure BDA0002805828960000093
对于标签与标签之间的关联引入余弦相似度cos(i,j),其计算公式为:
Figure BDA0002805828960000094
步骤3:构建了拓扑图之后,将拓扑图输入GCN模型得到所有标签的特征向量F,其含义即多标签之间的相关性。
步骤4:将级联特征与标签特征点积得到预测标签,其计算方式如下:
Figure BDA0002805828960000095
其中,Z表示级联特征向量,F表示标签的特征向量,⊙表示点乘运算。
多标签文本分类模型的损失函数为:
Figure BDA0002805828960000101
其中,yD表示高校新闻评论文本语料的合集,Y为文本预料真实标签,
Figure BDA0002805828960000102
表示预测标签。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于舆情大数据分析的多标签文本分类方法,其特征在于,包括:获取高校文本数据,根据高校文本数据构建拓扑图;将拓扑图输入到训练好的多标签文本分类模型中,得到高校文本数据的分类结果;所述多标签文本分类模型包括图卷积神经网络GCN和注意力残差网络;
对多标签文本分类模型进行训练的过程包括:
S1:获取文本数据和标签数据;将每个文本数据转换为词级拓扑图,将所有的拓扑图进行集合和划分,得到训练集和测试集;将标签数据转换为标签拓扑图;
S2:将训练集中的词级拓扑图输入到图卷积神经网络GCN中提取文本数据的词级特征向量;
S21:采用预训练的BERT模型对文本数据进行词向量编码处理,得到每个词在向量空间中对应的特征向量表示h;
S22:根据词级拓扑图的节点和边构建邻接矩阵;
S23:根据特征向量表示h构建初始特征矩阵;
S24:将邻接矩阵和初始特征矩阵输入到图卷积神经网络GCN模型中,提取出文本数据的词级特征向量
S3:根据图卷积神经网络GCN的注意力系数和文本数据构建句级拓扑图,将句级拓扑图输入到图卷积神经网络GCN中提取文本数据的句级特征向量;
S31:获取训练词级网络的最后一层的注意力系数ai,j
S32:根据注意力系数将各高校文本语料转换为句级向量编码表示H
S33:根据文本数据构建句级拓扑图,句级拓扑图的节点由文本各句子组成;
S34:根据句级拓扑图的节点和边构建邻接矩阵;
S35:根据句级向量编码表示H构建初始句级特征矩阵;
S36:将邻接矩阵和初始句级特征矩阵输入到图卷积神经网络GCN模型中,提取出句级特征向量H*
S4:将各个标签拓扑图输入到图卷积神经网络GCN中,提取各个标签拓扑图的标签特征向量;
S5:采用基于注意力的残差网络对词级特征向量和句级特征向量进行特征融合,得到级联特征向量;
S51:采用全连接神经网络对句级特征向量进行处理,得到与词级特征向量相同维度的句级特征向量;
S52:将句级特征向量与词级特征向量特征融合得到级联文本特征向量;级联文本特征向量的计算公式为:
Figure FDA0003866791790000021
其中,arj为句级网络训练得到的节点r与j之间的注意力系数,M为所有与节点r邻接节点,Hi为节点为i的词级特征向量,
Figure FDA0003866791790000022
为节点为r的句级特征向量,N为设定的词级图卷积神经网络的输入维度及全连接神经网络的输出维度,W为全连接神经网络的权重参数,b为偏置项,ReLU(.)表示线性整流函数;
S6:将标签特征向量与级联特征向量进行点乘,预测文本的分类标签;
S7:根据文本的分类标签计算多标签文本分类模型的损失函数;
S8:将测试集中的拓扑图再次输入到多标签文本分类模型中,优化损失函数,当损失函数最小时,完成模型的训练。
2.根据权利要求1所述的一种基于舆情大数据分析的多标签文本分类方法,其特征在于,构建的高校文本拓扑图中,采用高校文本数据的语料词汇作为拓扑图的节点,采用互信息PMI构建拓扑图的边;构建的标签拓扑图中,采用高校文本数据标签的语料词汇作为标签拓扑图的节点,采用余弦相似度和欧氏距离构建标签拓扑图的边。
3.根据权利要求1所述的一种基于舆情大数据分析的多标签文本分类方法,其特征在于,词级特征向量H的表达式为:
H={h1,h2,...,hv}
其中,v为词数,hv表示词的特征。
4.根据权利要求1所述的一种基于舆情大数据分析的多标签文本分类方法,其特征在于,注意力系数ai,j的表达式为:
aij=ReLU(hiWl,hjWl)
其中,hi表示当前卷积层的第i个节点特征向量,hj表示当前卷积层的第j个节点特征向量,Wl表示当前层权重系数,ReLU(.)表示线性整流函数。
5.根据权利要求1所述的一种基于舆情大数据分析的多标签文本分类方法,其特征在于,高校文本语料的句级向量编码表示的公式为:
Figure FDA0003866791790000031
其中,aij为上述词级网络训练得到的节点i与j的注意力系数,Hi1为当前词节点,m为与i相邻的节点数,N1为句子词数,
Figure FDA0003866791790000032
为句子r的节点表示。
6.根据权利要求1所述的一种基于舆情大数据分析的多标签文本分类方法,其特征在于,多标签文本分类模型的损失函数为:
Figure FDA0003866791790000033
其中,yD表示高校新闻评论文本语料的合集,Y为文本预料真实标签,
Figure FDA0003866791790000034
表示预测标签。
CN202011368536.0A 2020-11-30 2020-11-30 一种基于舆情大数据分析的多标签文本分类方法 Active CN112487143B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011368536.0A CN112487143B (zh) 2020-11-30 2020-11-30 一种基于舆情大数据分析的多标签文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011368536.0A CN112487143B (zh) 2020-11-30 2020-11-30 一种基于舆情大数据分析的多标签文本分类方法

Publications (2)

Publication Number Publication Date
CN112487143A CN112487143A (zh) 2021-03-12
CN112487143B true CN112487143B (zh) 2022-11-18

Family

ID=74937221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011368536.0A Active CN112487143B (zh) 2020-11-30 2020-11-30 一种基于舆情大数据分析的多标签文本分类方法

Country Status (1)

Country Link
CN (1) CN112487143B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113064995A (zh) * 2021-03-31 2021-07-02 上海金融期货信息技术有限公司 一种基于图深度学习的文本多标签分类方法和系统
CN113197545B (zh) * 2021-04-08 2022-10-04 山东师范大学 基于图注意力残差网络与焦点损失的癫痫检测系统
CN113139052B (zh) * 2021-04-14 2022-04-19 三峡大学 基于图神经网络特征聚合的谣言检测方法及装置
CN113344060B (zh) * 2021-05-31 2022-07-08 哈尔滨工业大学 文本分类模型训练方法、诉讼状分类方法及装置
CN113343690B (zh) * 2021-06-22 2024-03-12 北京语言大学 一种文本可读性自动评估方法及装置
CN113255844B (zh) * 2021-07-06 2021-12-10 中国传媒大学 基于图卷积神经网络交互的推荐方法及系统
CN113821799B (zh) * 2021-09-07 2023-07-28 南京邮电大学 基于图卷积神经网络的恶意软件多标签分类方法
CN113792144B (zh) * 2021-09-16 2024-03-12 南京理工大学 基于半监督的图卷积神经网络的文本分类方法
CN113806507B (zh) * 2021-09-16 2023-06-23 厦门快商通科技股份有限公司 一种多标签分类方法、装置及可读介质
CN113806547B (zh) * 2021-10-15 2023-08-11 南京大学 一种基于图模型的深度学习多标签文本分类方法
CN114036366A (zh) * 2021-11-19 2022-02-11 四川大学 一种基于文本语义及层次结构的社交网络欺凌检测方法
CN114860952A (zh) * 2022-04-29 2022-08-05 华侨大学 一种基于数据统计和知识指导的图拓扑学习方法及系统
CN114861065B (zh) * 2022-05-31 2023-06-06 山东省人工智能研究院 基于多行为的级联残差图卷积网络的个性化推荐方法
CN115238679A (zh) * 2022-07-14 2022-10-25 腾讯科技(深圳)有限公司 同义词的挖掘方法、装置、计算机可读介质及电子设备
CN115270718B (zh) * 2022-07-26 2023-10-10 中国医学科学院阜外医院 一种疾病编码的自动编目方法及系统
CN116311280B (zh) * 2023-05-17 2023-07-18 中国电子科技集团公司第十五研究所 基于图注意力网络的电子公文主题标引方法及系统
CN117350287A (zh) * 2023-10-18 2024-01-05 重庆邮电大学 一种基于舆情大数据的文本情感分析方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209823A (zh) * 2019-06-12 2019-09-06 齐鲁工业大学 一种多标签文本分类方法及系统
CN110705425A (zh) * 2019-09-25 2020-01-17 广州西思数字科技有限公司 一种基于图卷积网络的舌象多标签分类学习方法
CN111079532A (zh) * 2019-11-13 2020-04-28 杭州电子科技大学 一种基于文本自编码器的视频内容描述方法
CN111858945A (zh) * 2020-08-05 2020-10-30 上海哈蜂信息科技有限公司 基于深度学习的评论文本方面级情感分类方法及系统
CN111860411A (zh) * 2020-07-29 2020-10-30 浙江科技学院 一种基于注意力残差学习的道路场景语义分割方法
CN111985245A (zh) * 2020-08-21 2020-11-24 江南大学 基于注意力循环门控图卷积网络的关系提取方法及系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543183B (zh) * 2018-11-16 2021-01-19 西安交通大学 基于深度神经网络和标注策略的多标签实体-关系联合提取方法
US11328221B2 (en) * 2019-04-09 2022-05-10 International Business Machines Corporation Hybrid model for short text classification with imbalanced data
CN111159412B (zh) * 2019-12-31 2023-05-12 腾讯科技(深圳)有限公司 分类方法、装置、电子设备及可读存储介质
CN111428026A (zh) * 2020-02-20 2020-07-17 西安电子科技大学 一种多标签文本分类处理方法及系统、信息数据处理终端
CN111461004B (zh) * 2020-03-31 2023-08-22 北京邮电大学 基于图注意力神经网络的事件检测方法、装置和电子设备
CN111581396B (zh) * 2020-05-06 2023-03-31 西安交通大学 一种基于多维特征融合与依存句法的事件图谱构建系统及方法
CN111563164B (zh) * 2020-05-07 2022-06-28 成都信息工程大学 一种基于图神经网络的特定目标情感分类方法
CN111597341B (zh) * 2020-05-22 2024-01-26 北京慧闻科技(集团)有限公司 一种文档级关系抽取方法、装置、设备及存储介质
CN111639696B (zh) * 2020-05-26 2023-08-01 北京邮电大学 一种用户分类方法及装置
CN111966823B (zh) * 2020-07-02 2022-04-22 华南理工大学 一种面向标签噪声的图节点分类方法
CN111881260B (zh) * 2020-07-31 2024-05-17 安徽农业大学 基于方面注意力和卷积记忆神经网络情感分析方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209823A (zh) * 2019-06-12 2019-09-06 齐鲁工业大学 一种多标签文本分类方法及系统
CN110705425A (zh) * 2019-09-25 2020-01-17 广州西思数字科技有限公司 一种基于图卷积网络的舌象多标签分类学习方法
CN111079532A (zh) * 2019-11-13 2020-04-28 杭州电子科技大学 一种基于文本自编码器的视频内容描述方法
CN111860411A (zh) * 2020-07-29 2020-10-30 浙江科技学院 一种基于注意力残差学习的道路场景语义分割方法
CN111858945A (zh) * 2020-08-05 2020-10-30 上海哈蜂信息科技有限公司 基于深度学习的评论文本方面级情感分类方法及系统
CN111985245A (zh) * 2020-08-21 2020-11-24 江南大学 基于注意力循环门控图卷积网络的关系提取方法及系统

Also Published As

Publication number Publication date
CN112487143A (zh) 2021-03-12

Similar Documents

Publication Publication Date Title
CN112487143B (zh) 一种基于舆情大数据分析的多标签文本分类方法
CN109284506B (zh) 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN109359293B (zh) 基于神经网络的蒙古文命名实体识别方法及其识别系统
CN108460013B (zh) 一种基于细粒度词表示模型的序列标注模型及方法
CN110738057B (zh) 一种基于语法约束和语言模型的文本风格迁移方法
CN111897908A (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
CN110532557B (zh) 一种无监督的文本相似度计算方法
CN109325112B (zh) 一种基于emoji的跨语言情感分析方法和装置
CN111027595B (zh) 双阶段语义词向量生成方法
CN110046252B (zh) 一种基于注意力机制神经网络与知识图谱的医疗文本分级方法
CN111078833A (zh) 一种基于神经网络的文本分类方法
CN110807069B (zh) 一种基于强化学习算法的实体关系联合抽取模型构建方法
CN113343690B (zh) 一种文本可读性自动评估方法及装置
CN112364125B (zh) 一种联合阅读课程学习机制的文本信息抽取系统及方法
CN111368082A (zh) 一种基于层次网络的领域自适应词嵌入的情感分析方法
CN115062104A (zh) 融合知识提示的法律文本小样本命名实体识别方法
WO2023231576A1 (zh) 混合语言语音识别模型的生成方法及装置
CN113255366A (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN116011456A (zh) 基于提示学习的中文建筑规范文本实体识别方法及系统
CN115496072A (zh) 一种基于对比学习的关系抽取方法
CN113191150B (zh) 一种多特征融合的中文医疗文本命名实体识别方法
CN114648015A (zh) 一种基于依存关系注意力模型的方面级情感词识别方法
CN112989803B (zh) 一种基于主题向量学习的实体链接预测方法
CN112699685B (zh) 基于标签引导的字词融合的命名实体识别方法
CN113869055A (zh) 基于深度学习的电网项目特征属性识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230506

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: Yami Technology (Guangzhou) Co.,Ltd.

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS