CN114398479A - 基于时序交互图神经网络的文本分类方法、装置及介质 - Google Patents

基于时序交互图神经网络的文本分类方法、装置及介质 Download PDF

Info

Publication number
CN114398479A
CN114398479A CN202111343626.9A CN202111343626A CN114398479A CN 114398479 A CN114398479 A CN 114398479A CN 202111343626 A CN202111343626 A CN 202111343626A CN 114398479 A CN114398479 A CN 114398479A
Authority
CN
China
Prior art keywords
matrix
graph
interactive
neural network
learnable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111343626.9A
Other languages
English (en)
Inventor
王进
陈重元
梁晨
马樱仪
张�浩
胡珂
朴昌浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202111343626.9A priority Critical patent/CN114398479A/zh
Publication of CN114398479A publication Critical patent/CN114398479A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于时序交互图神经网络的文本分类方法,该方法包括:获取文本数据以及文本数据对应的标签值,并将文本数据构建为自适应图结构数据;基于自适应距离权重算法对图节点集合和图有向边集合进行处理,得到输入特征矩阵;将所述输入特征矩阵和所述标签值输入到时序交互图神经网络模型中,得到所述文本数据的总损失值;基于总损失值、交叉熵损失函数和梯度下降算法对时序交互图神经网络模型的模型参数进行更新优化,得到训练文本分类模型。本发明还公开了一种文本分类装置和一种介质。本发明能够实现增强图神经网络的特征提取能力,改善图读出器函数对文本数据的表达以及分类,降低图神经网络出现过度平滑问题出现的概率。

Description

基于时序交互图神经网络的文本分类方法、装置及介质
技术领域
本发明涉及自然语言处理技术领域,尤其涉及基于时序交互图神经网络的文本分类方法、装置及介质。
背景技术
在如今这样一个信息爆炸的大环境下,如何快速高效地从缤纷繁杂的文本信息中辨别其分类类别,这是一个兼具实用价值以及挑战性的技术问题。文本分类方法可以用于解决上述问题,而文本分类的核心在于如何获得一个更高质量的文本表示。对于此类问题,可以使用机器学习算法进行解决,比如:逻辑回归、支持向量机以及决策树等,但机器学习算法提取文本特征的能力有待增强。深度学习算法也可以应用于文本分类任务中,比如:TextCNN、FAST以及BERT等,但深度学习方法的局限性在于文本表示能力不够完善以及模型训练成本较高。图神经网络是一种用于处理非欧式空间数据的一种端到端的学习范式,在处理复杂结构和保存全局信息等方面表现出良好的性能,能有效地改善上述算法的不足。对于文本数据,其内部结构可看作是复杂的语法树结构的组合,而树结构又是图结构的一种特殊形式,因此可以将图神经网络应用于文本分类任务中。
但现有的用于解决文本分类任务的图神经网络存在一些局限性,比如:将文本数据构建为图结构数据时对节点与边的关系建立方法较为简化、图神经网络在提取文本特征时存在过度平滑问题、图读出器函数的文本表达能力不足等问题。在构建图结构数据时,通常会考虑一个滑动窗口之内的单词的关系,但单词之间的先后关系以及相对位置距离也很重要;在使用迭代式的图神经网络提取文本特征时,随着网络层数量的增加,虽然能获得更多局部邻近节点的信息,但却容易出现过度平滑问题;在获取高层次文本表示时,图读出器函数可以利用注意力机制进行增强。
发明内容
本发明的主要目的在于提出一种基于时序交互图神经网络的文本分类方法、装置及介质,旨在增强图神经网络的特征提取能力,改善图读出器函数对文本数据的表达以及分类,降低图神经网络出现过度平滑问题出现的概率。
为实现上述目的,本发明提供一种基于时序交互图神经网络的文本分类方法,所述基于时序交互图神经网络的文本分类方法包括如下步骤:
获取文本数据以及所述文本数据对应的标签值,并将所述文本数据构建为自适应图结构数据,其中所述自适应图结构数据包括图节点集合和图有向边集合;
基于所述自适应距离权重算法对所述图节点集合和所述图有向边集合进行处理,得到输入特征矩阵;
将所述输入特征矩阵和所述标签值输入到时序交互图神经网络模型中,得到所述文本数据的总损失值;
基于所述总损失值、交叉熵损失函数和梯度下降算法对所述时序交互图神经网络模型的模型参数进行更新优化,得到训练文本分类模型;
获取待分类文本数据;
将所述待分类文本数据输入所述训练文本分类模型,得到文本分类结果。
可选地,所述将所述文本数据构建为自适应图结构数据的步骤,包括:
将所述文本数据中的每个单词作为图节点集合;
将所述单词之间的共现关系作为图有向边集合。
可选地,所述基于所述自适应距离权重算法对所述图节点集合和所述图有向边集合进行处理,得到输入特征矩阵的步骤,包括:
根据所述图节点集合和所述图有向边集合,得到邻接矩阵和节点距离矩阵;
根据所述邻接矩阵得到单位矩阵;
基于自适应距离权重算法对所述节点距离矩阵进行处理,得到自适应距离权重矩阵;
根据第一可学习参数矩阵、第一可学习偏置项以及所述单位矩阵、所述自适应距离权重矩阵,得到输入特征矩阵;
可选地,其中,自适应距离权重矩阵由公式
Figure BDA0003353109900000031
得到的;wi,j是自适应距离权重矩阵中的第i行第j列元素,表示第i个单词与第j个单词的权重;di,j是节点距离矩阵中的第i行第j列元素,表示文本中第i个单词与第j个单词之间含有单词的数量加一;i表示邻接矩阵中的行号,n表示节点集中单词的数量;
其中,输入特征矩阵X=WKO+hI+bh
其中,O为第一可学习参数矩阵,I为单位矩阵,h为第一可学习参数项,bh为第一课学习偏置项,WK为相邻节点的自适应距离权重矩阵。
可选地,所述将所述输入特征矩阵和所述标签值输入到时序交互图神经网络模型中,得到所述文本数据的总损失值的步骤,包括:
将所述输入特征矩阵输入时序交互图卷积网络,并根据所述邻接矩阵、所述单位矩阵和所述节点距离矩阵得到时序交互卷积状态矩阵;
将所述输入特征矩阵输入时序交互门控图神经网络,并根据所述邻接矩阵、所述单位矩阵和所述节点距离矩阵得到时序交互门控状态矩阵;
根据所述时序交互卷积状态矩阵和所述时序交互门控状态矩阵,得到增强特征矩阵;
根据所述增强特征矩阵、所述时序交互卷积状态矩阵和所述时序交互门控状态矩阵得到交互注意力;
根据所述交互注意力和所述标签值得到所述文本数据的总损失值。
可选地,所述将所述输入特征矩阵输入时序交互图卷积网络,并根据所述邻接矩阵、所述单位矩阵和所述节点距离矩阵得到时序交互卷积状态矩阵的步骤,包括:
Figure BDA0003353109900000041
Cl=φ(αCACl-1WCCSC lWGC);
其中,
Figure BDA0003353109900000042
为时序交互卷积缓存,Ci为历史网络层隐藏状态,l为时序交互图卷积网络迭代的次数;Cl为时序交互卷积状态矩阵,φ为tanh激活函数,A为对称归一化邻接矩阵,其中,
Figure BDA0003353109900000043
D为节点距离矩阵,
Figure BDA0003353109900000044
A为所述邻接矩阵,I为单位矩阵;αC为第一可学习参数项,βC为第二可学习参数项,λi为第三可学习参数项,WC为第二可学习参数矩阵,WG为第三可学习参数矩阵,γC为第二可学习偏置项;
所述将所述输入特征矩阵输入时序交互门控图神经网络,并根据所述邻接矩阵、所述单位矩阵和所述节点距离矩阵得到时序交互门控状态矩阵的步骤,包括:
ak=Atk-1Wa
zk=σ(Wzak+Uztk-1+bz);
rk=σ(Wrak+Urtk-1+br);
Figure BDA0003353109900000045
Figure BDA0003353109900000046
Figure BDA0003353109900000047
Figure BDA0003353109900000048
其中,ak为借助对称归一化邻接矩阵得到的图特征聚合变量,σ表示Sigmoid函数,Wa为第四可学习参数矩阵,Wz为第五可学习参数矩阵,Uz为第六可学习参数矩阵,Wr为第七可学习参数矩阵,Ur为第八可学习参数矩阵,Wt为第九可学习参数矩阵,Ut为第十可学习参数矩阵,bz为第三可学习偏置项,br为第四可学习偏置项,bt第五可学习偏置项,⊙为两个矩阵对应位置的元素相乘;αT为第四可学习参数项,βT为第五可学习参数项,ωj为第六可学习参数项,WR为第十一可学习参数矩阵,θT第六可学习偏置项,tk为内部状态,zk为更新门,rk为重置门,
Figure BDA0003353109900000051
为候选状态,
Figure BDA0003353109900000052
为时序交互门控缓存,tk为时序交互门控图神经网络内部状态,Tk为时序交互门控状态矩阵;
所述根据所述时序交互卷积状态矩阵和所述时序交互门控状态矩阵,得到增强特征矩阵的步骤,包括:
Figure BDA0003353109900000053
VA=WAH+bA
其中,
Figure BDA0003353109900000054
表示通过时序交互图卷积网络额网络层提取到的时序交互卷积状态矩阵的第i个特征向量,
Figure BDA0003353109900000055
表示通过时序交互门控图神经网络的网络层提取到的时序交互门控状态矩阵Tk的第i个特征向量,||表示向量的拼接;
Figure BDA0003353109900000056
为拼接得的特征矩阵;WA为第十二可学习参数矩阵,bA为第七可学习偏置项,VA为增强特征矩阵;
其中,交互注意力
Figure BDA0003353109900000057
δ表示Softmax函数,n为节点集中单词的数量,SA为交互注意力。
可选地,所述根据所述交互注意力和所述标签值得到所述文本数据的总损失值的步骤,包括:
根据所述交互注意力得到全连接层隐藏特征;
根据所述全连接层隐藏特征计算得到分类概率;
根据所述分类概率和所述标签值得到所述文本数据的总损失值。
可选地,所述全连接层隐藏特征p=φ(SA)WM
φ为激活函数,WM为第十三可学习参数矩阵,SA为交互注意力;
所述根据所述全连接层隐藏特征计算得到分类概率的步骤,包括:
Figure BDA0003353109900000061
f=δ(Wfg+bf);
其中,g为图节点使用均值聚合后的图层次表示,v表示图节点集合中的某一具体节点,f为分类概率,δ为Softmax函数;bf为第七可学习偏置项、Wf为第十四可学习参数矩阵;
其中,所述总损失值
Figure BDA0003353109900000062
其中,y为所述文本数据的标签值。
此外,为实现上述目的,本发明还提供一种文本分类装置,所述文本分类装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本分类程序,所述文本分类程序被所述处理器执行时实现如上所述的文本分类方法的步骤。
此外,为实现上述目的,本发明还提供一种介质,所述介质上存储有文本分类程序,所述文本分类程序被处理器执行时实现如上所述的文本分类方法的步骤。
本发明提供了一种基于时序交互图神经网络的文本分类方法、装置及介质。获取文本数据以及所述文本数据对应的标签值,并将所述文本数据构建为自适应图结构数据,其中所述自适应图结构数据包括图节点集合和图有向边集合;基于所述自适应距离权重算法对所述图节点集合和所述图有向边集合进行处理,得到输入特征矩阵;将所述输入特征矩阵和所述标签值输入到时序交互图神经网络模型中,得到所述文本数据的总损失值;基于所述总损失值、交叉熵损失函数和梯度下降算法对所述时序交互图神经网络模型的模型参数进行更新优化,得到训练文本分类模型。通过上述方式,本发明能够实现了增强图神经网络的特征提取能力,改善了图读出器函数对文本数据的表达以及分类,降低了图神经网络出现过度平滑问题出现的概率。
本发明在构建图结构数据时,不仅考虑了一个滑动窗口中单词的关系,还引入了单词间的词序关系以及相对位置距离,丰富了单词之间的结构信息,完善了图中节点与边的关系。
本发明可以在增强图神经网络的特征提取能力的同时,缓解过度平滑问题。对图卷积网络和门控图神经网络进行改进,引入多个历史状态的信息,结合参数矩阵来缓解过度平滑问题。另外,结合两种改进的图神经网络来提取不同层次的文本特征,以提高特征的区分度。
本发明设计了根据两种不同的图神经网络设计了一种交互注意力机制,用于从多个角度提升文本中关键词的重要度,使得图读出器函数输出更高质量的文本表示。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图;
图2为本发明基于时序交互图神经网络的文本分类方法第一实施例的流程示意图;
图3为本发明训练文本分类模型的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。
本发明实施例终端可以是PC,也可以是智能手机、平板电脑等具有显示功能的可移动式终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
优选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及文本分类程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的文本分类程序,并执行以下操作:
获取文本数据以及所述文本数据对应的标签值,并将所述文本数据构建为自适应图结构数据,其中所述自适应图结构数据包括图节点集合和图有向边集合;
基于所述自适应距离权重算法对所述图节点集合和所述图有向边集合进行处理,得到输入特征矩阵;
将所述输入特征矩阵和所述标签值输入到时序交互图神经网络模型中,得到所述文本数据的总损失值;
基于所述总损失值、交叉熵损失函数和梯度下降算法对所述时序交互图神经网络模型的模型参数进行更新优化,得到训练文本分类模型;
获取待分类文本数据;
将所述待分类文本数据输入所述训练文本分类模型,得到文本分类结果。
进一步地,处理器1001可以调用存储器1005中存储的文本分类程序,在执行将文本数据构建为自适应图结构数据操作时,具体执行如下操作:
将所述文本数据中的每个单词作为图节点集合;
将所述单词之间的共现关系作为图有向边集合。
进一步地,处理器1001可以调用存储器1005中存储的文本分类程序,在执行基于所述自适应距离权重算法对所述图节点集合和所述图有向边集合进行处理,得到输入特征矩阵操作时,具体执行如下操作:
根据所述图节点集合和所述图有向边集合,得到邻接矩阵和节点距离矩阵;
根据所述邻接矩阵得到单位矩阵;
基于自适应距离权重算法对所述节点距离矩阵进行处理,得到自适应距离权重矩阵;
根据第一可学习参数矩阵、第一可学习偏置项以及所述单位矩阵、所述自适应距离权重矩阵,得到输入特征矩阵;
进一步地,其中,自适应距离权重矩阵由公式
Figure BDA0003353109900000101
得到的;wi,j是自适应距离权重矩阵中的第i行第j列元素,表示第i个单词与第j个单词的权重;di,j是节点距离矩阵中的第i行第j列元素,表示文本中第i个单词与第j个单词之间含有单词的数量加一;i表示邻接矩阵中的行号,n表示节点集中单词的数量;
其中,输入特征矩阵X=WKO+hI+bh
其中,O为第一可学习参数矩阵,I为单位矩阵,h为第一可学习参数项,bh为第一课学习偏置项,WK为相邻节点的自适应距离权重矩阵。
进一步地,处理器1001可以调用存储器1005中存储的文本分类程序,在执行将所述输入特征矩阵和所述标签值输入到时序交互图神经网络模型中,得到所述文本数据的总损失值操作时,具体执行如下操作:
将所述输入特征矩阵输入时序交互图卷积网络,并根据所述邻接矩阵、所述单位矩阵和所述节点距离矩阵得到时序交互卷积状态矩阵;
将所述输入特征矩阵输入时序交互门控图神经网络,并根据所述邻接矩阵、所述单位矩阵和所述节点距离矩阵得到时序交互门控状态矩阵;
根据所述时序交互卷积状态矩阵和所述时序交互门控状态矩阵,得到增强特征矩阵;
根据所述增强特征矩阵、所述时序交互卷积状态矩阵和所述时序交互门控状态矩阵得到交互注意力;
根据所述交互注意力和所述标签值得到所述文本数据的总损失值。
进一步地,
Figure BDA0003353109900000111
Cl=φ(αCACl-1WCCSC lWGC);
其中,
Figure BDA0003353109900000112
为时序交互卷积缓存,Ci为历史网络层隐藏状态,l为时序交互图卷积网络迭代的次数;Cl为时序交互卷积状态矩阵,φ为tanh激活函数,A为对称归一化邻接矩阵,其中,
Figure BDA0003353109900000113
D为节点距离矩阵,
Figure BDA0003353109900000114
A为所述邻接矩阵,I为单位矩阵;αC为第一可学习参数项,βC为第二可学习参数项,λi为第三可学习参数项,WC为第二可学习参数矩阵,WG为第三可学习参数矩阵,γC为第二可学习偏置项;
进一步地,ak=Atk-1Wa
zk=σ(Wzak+Uztk-1+bz);
rk=σ(Wrak+Urtk-1+br);
Figure BDA0003353109900000115
Figure BDA0003353109900000116
Figure BDA0003353109900000117
Figure BDA0003353109900000118
其中,ak为借助对称归一化邻接矩阵得到的图特征聚合变量,σ表示Sigmoid函数,Wa为第四可学习参数矩阵,Wz为第五可学习参数矩阵,Uz为第六可学习参数矩阵,Wr为第七可学习参数矩阵,Ur为第八可学习参数矩阵,Wt为第九可学习参数矩阵,Ut为第十可学习参数矩阵,bz为第三可学习偏置项,br为第四可学习偏置项,bt第五可学习偏置项,⊙为两个矩阵对应位置的元素相乘;αT为第四可学习参数项,βT为第五可学习参数项,ωj为第六可学习参数项,WR为第十一可学习参数矩阵,θT第六可学习偏置项,tk为内部状态,zk为更新门,rk为重置门,
Figure BDA0003353109900000121
为候选状态,
Figure BDA0003353109900000122
为时序交互门控缓存,tk为时序交互门控图神经网络内部状态,Tk为时序交互门控状态矩阵;
进一步地,
Figure BDA0003353109900000123
VA=WAH+bA
其中,
Figure BDA0003353109900000124
表示通过时序交互图卷积网络额网络层提取到的时序交互卷积状态矩阵的第i个特征向量,
Figure BDA0003353109900000125
表示通过时序交互门控图神经网络的网络层提取到的时序交互门控状态矩阵Tk的第i个特征向量,||表示向量的拼接;
Figure BDA0003353109900000126
为拼接得的特征矩阵;WA为第十二可学习参数矩阵,bA为第七可学习偏置项,VA为增强特征矩阵;
进一步地,其中,交互注意力
Figure BDA0003353109900000127
δ表示Softmax函数,n为节点集中单词的数量,SA为交互注意力。
进一步地,处理器1001可以调用存储器1005中存储的文本分类程序,在执行根据所述交互注意力和所述标签值得到所述文本数据的总损失值操作时,具体执行如下操作:
根据所述交互注意力得到全连接层隐藏特征;
根据所述全连接层隐藏特征计算得到分类概率;
根据所述分类概率和所述标签值得到所述文本数据的总损失值。
进一步地,其中,所述全连接层隐藏特征p=φ(SA)WM
φ为激活函数,WM为第十三可学习参数矩阵,SA为交互注意力;
所述根据所述全连接层隐藏特征计算得到分类概率的步骤,包括:
Figure BDA0003353109900000131
f=δ(Wfg+bf);
其中,g为图节点使用均值聚合后的图层次表示,v表示图节点集合中的某一具体节点,f为分类概率,δ为Softmax函数;bf为第七可学习偏置项、Wf为第十四可学习参数矩阵;
其中,所述总损失值
Figure BDA0003353109900000132
其中,y为所述文本数据的标签值。
基于上述硬件结构,提出本发明基于时序交互图神经网络的文本分类方法实施例。
参照图2,图2为本发明基于时序交互图神经网络的文本分类方法第一实施例的流程示意图。
本发明实施例中,该基于时序交互图神经网络的文本分类方法应用于文本分类装置,所述基于时序交互图神经网络的文本分类方法包括:
步骤S10,获取文本数据以及所述文本数据对应的标签值,并将所述文本数据构建为自适应图结构数据,其中所述自适应图结构数据包括图节点集合和图有向边集合;
在本实施例中,为了增强图神经网络的特征提取能力,改善图读出器函数对文本数据的表达以及分类,降低图神经网络出现过度平滑问题出现的概率;文本分类装置首先获取文本数据以及所述文本数据对应的标签值,并将所述文本数据构建为自适应图结构数据。其中所述自适应图结构数据包括图节点集合V和图有向边集合E。标签值可以为科技、人文等,也即是文本数据的分类可以为科技类、或者人文类等。
步骤S10将所述文本数据构建为自适应图结构数据,可以包括:
步骤S11,将所述文本数据中的每个单词作为图节点集合;
在本实施例中,文本分类装置在获取了文本数据以及所述文本数据对应的标签值之后,将所述文本数据中的每个单词作为图节点集合V;
步骤S12,将所述单词之间的共现关系作为图有向边集合;
在本实施例中,文本分类装置在获取了文本数据以及所述文本数据对应的标签值之后,将所述单词之间的共现关系作为图有向边集合E;其中,所述共现关系为在一个长度动态变化的滑动窗口中所同时存在的所述单词之间的关系;其中,所述滑动窗口的长度为所述文本数据中含有的节点数量的三分之一。(滑动窗口的长度至少为1)。其中,节点是由句子分词并去重后得到的单词构成;一个节点表示去重后的一个单词。由此根据图节点集合V和图有向边集合E构建出一个自适应的有向图结构(即自适应图结构数据)。滑动窗口的长度根据图的一个节点数来变化,比如说这句文本数据里面,它有三个单词(节点),它有五个单词(节点)和有十个单词(节点),然后滑动窗口的长度是不一样的,(在确定滑动窗口的长度之前,先对这句文本进行分词,然后去除里面的重复单词,得到的是若干个不重复的单词,也即是得到的是若干个节点)。滑动窗口的长度只是会根据节点文本的单词的数量来变化。假如节点文本中有十个单词,滑动窗口的长度就为10乘以三分之一。在构建图结构数据时,不仅考虑了一个滑动窗口中单词的关系,还引入了单词间的词序关系以及相对位置距离,丰富了单词之间的结构信息,完善了图中节点与边的关系。
步骤S20,基于所述自适应距离权重算法对所述图节点集合和所述图有向边集合进行处理,得到输入特征矩阵;
在本实施例中,文本分类装置在得到了图节点集合V和图有向边集合E之后,基于所述自适应距离权重算法对所述图节点集合和所述图有向边集合进行处理,得到输入特征矩阵。
步骤S20基于所述自适应距离权重算法对所述图节点集合和所述图有向边集合进行处理,得到输入特征矩阵,可以包括:
步骤S21,根据所述图节点集合和所述图有向边集合,得到邻接矩阵A和节点距离矩阵D;
在本实施例中,文本分类装置在得到了图节点集合V和图有向边集合E之后,根据所述图节点集合V和所述图有向边集合E,得到邻接矩阵A和节点距离矩阵D;其中,节点距离矩阵D是与单词相关的节点距离矩阵D,与单词相关的节点距离矩阵D是根据滑动窗口内单词之间的共现关系计算出的,也即是节点距离矩阵D是通过单词之间的位置关系计算得到的。
步骤S22,根据所述邻接矩阵得到单位矩阵;
在本实施例中,文本分类装置在得到了邻接矩阵A之后,根据所述邻接矩阵A得到单位矩阵;其中,单位矩阵I与邻接矩阵A相对应。
步骤S23,基于自适应距离权重算法对所述节点距离矩阵进行处理,得到自适应距离权重矩阵;
在本实施例中,文本分类装置在得到了节点距离矩阵D之后,根据自适应距离权重算法对所述节点距离矩阵D进行处理,得到相邻节点的自适应距离权重矩阵WK
其中,自适应距离权重矩阵WK由公式
Figure BDA0003353109900000151
得到的;wi,j是WK中的第i行第j列元素,表示第i个单词与第j个单词的权重;di,j是节点距离矩阵D中的第i行第j列元素,表示文本中第i个单词与第j个单词之间含有单词的数量加一;i表示邻接矩阵中的行号,n表示节点集中单词的数量。
步骤S24,根据第一可学习参数矩阵、第一可学习偏置项以及所述单位矩阵、所述自适应距离权重矩阵,得到输入特征矩阵。
在本实施例中,文本分类装置在得到了单位矩阵I和节点距离矩阵D之后,根据第一可学习参数矩阵O、第一可学习偏置项bh以及所述单位矩阵I、所述自适应距离权重矩阵WK,得到输入特征矩阵X。
其中,输入特征矩阵X=WKO+hI+bh
其中,O为第一可学习参数矩阵,I为单位矩阵,h为第一可学习参数项,bh为第一课学习偏置项,WK为相邻节点的自适应距离权重矩阵。
步骤S30,将所述输入特征矩阵和所述标签值输入到时序交互图神经网络模型中,得到所述文本数据的总损失值;
在本实施例中,文本分类装置在得到了输入特征矩阵、邻接矩阵、单位矩阵、节点距离矩阵和标签值之后,将所述输入特征矩阵、所述邻接矩阵、所述单位矩阵、所述节点距离矩阵和所述标签值输入到时序交互图神经网络模型中,得到所述文本数据的总损失值。本实施例可以在增强图神经网络的特征提取能力的同时,缓解过度平滑问题。对图卷积网络和门控图神经网络进行改进,引入多个历史状态的信息,结合参数矩阵来缓解过度平滑问题。另外,结合两种改进的图神经网络来提取不同层次的文本特征,以提高特征的区分度。其中,如图3所示,训练文本分类模型为时序交互图神经网络模型。其中,时序交互图神经网络模型包括依次顺序连接自适应图结构数据构建层、自适应距离权重计算层、以及两个并列的时序交互图卷积网络和时序交互门控图神经网络、交互注意力计算层以及总损失值计算层。时序交互图神经网络模型的具体结构示意图还可以参考步骤S30和步骤S40的所有细化步骤。时序交互图神经网络模型训练时执行步骤S30和步骤S40的所有细化步骤。时序交互图神经网络模型测试和预测时(即执行步骤S60时)都执行步骤S31、步骤S32、步骤S33、步骤S34、步骤S351、步骤S352的所有细化步骤,得到分类概率,即概率最大的文本数据的类别作为预测结果。
步骤S30将所述输入特征矩阵和所述标签值输入到时序交互图神经网络模型中,得到所述文本数据的总损失值,可以包括:
步骤S31,将所述输入特征矩阵输入时序交互图卷积网络,并根据所述邻接矩阵、所述单位矩阵和所述节点距离矩阵得到时序交互卷积状态矩阵;
在本实施例中,文本分类装置在得到了输入特征矩阵、邻接矩阵、单位矩阵和节点距离矩阵之后,将所述输入特征矩阵X输入时序交互图卷积网络SIGCN,并根据所述邻接矩阵、所述单位矩阵和所述节点距离矩阵得到时序交互卷积状态矩阵Cl;在图卷积网络GCN中,随着网络层层数的增加,网络迭代时会使得中心节点的信息损失越多,导致包含中心节点的连通分量存在局部的过度平滑问题。为了在接收高阶邻居节点信息的同时,突显中心节点本身的信息,因此使用时序交互图卷积网络SIGCN来缓解上述问题。时序交互卷积缓存
Figure BDA0003353109900000175
是显式地给当前网络层添加前面若干网络层的历史隐藏状态,来增强当前网络层。时序交互卷积状态矩阵Cl是将GCN的多层参数矩阵替换为参数共享的单层参数矩阵,以减少网络出现过拟合问题的风险。
步骤S31将所述输入特征矩阵输入时序交互图卷积网络,并根据所述邻接矩阵、所述单位矩阵和所述节点距离矩阵得到时序交互卷积状态矩阵,可以包括:
Figure BDA0003353109900000171
Cl=φ(αCACl-1WCCSC lWGC);
其中,
Figure BDA0003353109900000172
为时序交互卷积缓存,Ci为历史网络层隐藏状态,l为时序交互图卷积网络迭代的次数;初始迭代时有C0=X,l表示网络最多的迭代次数,l≥1。Cl为时序交互卷积状态矩阵,φ为tanh激活函数,A为对称归一化邻接矩阵,其中,
Figure BDA0003353109900000173
D为节点距离矩阵,
Figure BDA0003353109900000174
A为所述邻接矩阵,I为所述邻接矩阵A对应的单位矩阵;αC为时序交互图卷积网络SIGCN可学习的第一可学习参数项,βC为第二可学习参数项,λi为第三可学习参数项,λi每个网络隐藏层的权重,是可学习的参数项,WC为第二可学习参数矩阵,WG为第三可学习参数矩阵,γC为第二可学习偏置项;
步骤S32,将所述输入特征矩阵输入时序交互门控图神经网络,并根据所述邻接矩阵、所述单位矩阵和所述节点距离矩阵得到时序交互门控状态矩阵;
在本实施例中,文本分类装置在得到了输入特征矩阵、邻接矩阵、单位矩阵和节点距离矩阵之后,将所述输入特征矩阵输入时序交互门控图神经网络SIGGNN,并根据所述邻接矩阵、所述单位矩阵和所述节点距离矩阵得到时序交互门控状态矩阵Tk。门控图神经网络GGNN的优势在于能有效捕捉文本中的上下文依赖关系,但迭代式的训练方法使得其在提取隐藏特征时也存在连通分量的局部过度平滑问题。为了增强中心节点的信息,同样引入了多步历史状态来增强当前网络层状态并缓解过度平滑问题。不同的是,根据GGNN网络层特性,SIGGNN将网络层的历史隐藏状态引入在使用更新门单元和重置门单元对隐藏特征提取完成之后,以保证在增强本网络层隐藏特征的同时,避免对节点间的正常信息传递与更新造成影响。
步骤S32将所述输入特征矩阵输入时序交互门控图神经网络,并根据所述邻接矩阵、所述单位矩阵和所述节点距离矩阵得到时序交互门控状态矩阵,可以包括:
ak=Atk-1Wa
zk=σ(Wzak+Uztk-1+bz);
rk=σ(Wrak+Urtk-1+br);
Figure BDA0003353109900000181
Figure BDA0003353109900000182
Figure BDA0003353109900000191
Figure BDA0003353109900000192
其中,ak为借助对称归一化邻接矩阵得到的图特征聚合变量,A为对称归一化邻接矩阵,其中,
Figure BDA0003353109900000193
D为节点距离矩阵,
Figure BDA0003353109900000194
A为所述邻接矩阵,I为所述邻接矩阵A对应的单位矩阵;σ表示Sigmoid函数,Wa为第四可学习参数矩阵,Wz为第五可学习参数矩阵,Uz为第六可学习参数矩阵,Wr为第七可学习参数矩阵,Ur为第八可学习参数矩阵,Wt为第九可学习参数矩阵,Ut为第十可学习参数矩阵,bz为第三可学习偏置项,br为第四可学习偏置项,bt第五可学习偏置项。⊙为两个矩阵对应位置的元素相乘;两个矩阵对应位置的元素相乘的乘法例如,第一个矩阵的第一行第一列和第二个矩阵的第一行第一列相乘,第一个矩阵的第一行第二列和第二个矩阵的第一行第二列相乘,将两个矩阵对应位置全部相乘之后,得到两个矩阵相乘的结果矩阵。初始迭代时有T0=X,k表示网络最多的迭代次数,k≥1。
其中,αT为第四可学习参数项,βT为第五可学习参数项,ωj为第六可学习参数项,WR为第十一可学习参数矩阵,θT第六可学习偏置项,tk为内部状态,zk为更新门,rk为重置门,
Figure BDA0003353109900000195
为候选状态,
Figure BDA0003353109900000196
为时序交互门控缓存,tk为时序交互门控图神经网络内部状态,Tk为时序交互门控状态矩阵。
步骤S33,根据所述时序交互卷积状态矩阵和所述时序交互门控状态矩阵,得到增强特征矩阵;
在本实施例中,文本分类装置在得到了时序交互卷积状态矩阵Cl和时序交互门控状态矩阵Tk之后,根据所述时序交互卷积状态矩阵Cl和所述时序交互门控状态矩阵Tk,得到增强特征矩阵VA
步骤S33根据所述时序交互卷积状态矩阵和所述时序交互门控状态矩阵,得到增强特征矩阵,可以包括:
Figure BDA0003353109900000201
VA=WAH+bA
其中,
Figure BDA0003353109900000202
表示通过时序交互图卷积网络额网络层提取到的时序交互卷积状态矩阵的第i个特征向量,
Figure BDA0003353109900000203
表示通过时序交互门控图神经网络的网络层提取到的时序交互门控状态矩阵Tk的第i个特征向量,||表示向量的拼接,其中,
Figure BDA0003353109900000204
表示一个m维的实数值向量,R表示实数集合;
Figure BDA0003353109900000205
为拼接得到的拼接特征矩阵;WA为第十二可学习参数矩阵,bA为第七可学习偏置项,VA为增强特征矩阵;
步骤S34,根据所述增强特征矩阵、所述时序交互卷积状态矩阵和所述时序交互门控状态矩阵得到交互注意力;
在本实施例中,文本分类装置在得到了增强特征矩阵VA、时序交互卷积状态矩阵Cl和所述时序交互门控状态矩阵Tk之后,根据所述增强特征矩阵、时序交互卷积状态矩阵Cl和所述时序交互门控状态矩阵Tk得到交互注意力SA。
其中,交互注意力
Figure BDA0003353109900000206
δ表示Softmax函数,n为节点集合V中单词的数量,SA为交互注意力;VA为增强特征矩阵,Cl为时序交互卷积状态矩阵,Tk为时序交互门控状态矩阵。ClClT为时序交互卷积状态矩阵使用矩阵乘法分别计算的重要度矩阵;TkTkT为时序交互门控状态矩阵使用矩阵乘法分别计算的重要度矩阵;然后将时序交互卷积状态矩阵Cl和所述时序交互门控状态矩阵Tk拼接在一起得到拼接特征矩阵H;VAVA T为增强特征矩阵VA使用矩阵乘法分别计算的重要度矩阵;最后把这三个重要度矩阵(也即是ClClT、TkTkT和VAVA T)累加在一起,计算出交互注意力权重,并应用于图读出器函数中,得到文本类别的概率分布。本方案设计了根据两种不同的图神经网络(两种神经网络分别为时序交互门控图神经网络SIGGNN和时序交互图卷积网络SIGCN)设计了一种交互注意力机制,用于从多个角度提升文本中关键词的重要度,使得图读出器函数输出更高质量的文本表示。
步骤S35,根据所述交互注意力和所述标签值得到所述文本数据的总损失值。
在本实施例中,文本分类装置在得到了交互注意力SA和文本数据的标签值之后,根据所述交互注意力和所述标签值得到所述文本数据的总损失值
Figure BDA0003353109900000212
步骤S35根据所述交互注意力和所述标签值得到所述文本数据的总损失值,可以包括:
步骤S351,根据所述交互注意力得到全连接层隐藏特征;
在本实施例中,文本分类装置在得到了交互注意力SA之后,根据所述交互注意力得到全连接层隐藏特征。
其中,全连接层隐藏特征p=φ(SA)WM
p即为通过全连接层的隐藏特征,φ为激活函数,WM为第十三可学习参数矩阵,SA为交互注意力;
步骤S352,根据所述全连接层隐藏特征计算得到分类概率;
在本实施例中,文本分类装置在得到了全连接层隐藏特征p之后,根据所述全连接层隐藏特征p计算得到分类概率f。
步骤S352根据所述全连接层隐藏特征计算得到分类概率,可以包括:
Figure BDA0003353109900000211
f=δ(Wfg+bf);
其中,g为图节点使用均值聚合后的图层次表示,v表示图节点集合V中的某一具体节点,f为通过全连接层与Softmax函数后所得到的预测概率(即为文本数据的分类概率),δ为Softmax函数;bf为第七可学习偏置项、Wf为第十四可学习参数矩阵;
步骤S353,根据所述分类概率和所述标签值得到所述文本数据的总损失值。
其中,所述总损失值
Figure BDA0003353109900000221
其中,
Figure BDA0003353109900000222
即为当前批次文本数据的总损失值,y为所述文本数据的标签值。
步骤S40,基于所述总损失值、交叉熵损失函数和梯度下降算法对所述时序交互图神经网络模型的模型参数进行更新优化,得到训练文本分类模型;
在本实施例中,文本分类装置在得到了总损失值
Figure BDA0003353109900000223
之后,基于所述总损失值、交叉熵损失函数和梯度下降算法对所述时序交互图神经网络模型的模型参数进行更新优化,得到训练文本分类模型。在模型训练期间,根据所得到的文本数据的分类概率f,结合文本数据对应的标签值y,使用交叉熵损失函数计算得到当前文本的损失值,将每条文本的损失值相加得到总的损失
Figure BDA0003353109900000224
再使用梯度下降算法对时序交互图神经网络模型的模型参数进行更新优化,得到第一次优化后的时序交互图神经网络模型,当第一次优化后的时序交互图神经网络模型的模型参数收敛,将第一次优化后的时序交互图神经网络模型作为训练文本分类模型。当第一次优化后的时序交互图神经网络模型的模型参数未收敛,可以根据步骤S10获取文本数据中的第二文本数据以及第二文本数据对应的第二标签值,将所述第二文本数据构建为第二自适应图结构数据,其中第二自适应图结构数据包括第二图节点集合和第二图有向边集合;然后,根据步骤S20基于所述自适应距离权重算法对所述第二图节点集合和所述第二图有向边集合进行处理,得到第二输入特征矩阵;然后,再根据步骤S30将所述第二输入特征矩阵和所述第二标签值输入到第一次优化后的时序交互图神经网络模型中,得到所第二文本数据的第二总损失值;然后,再根据步骤S40基于所述第二总损失值、交叉熵损失函数和梯度下降算法对所述第一次优化后的时序交互图神经网络模型的模型参数进行更新优化,得到第二次优化后的时序交互图神经网络模型。依次类推,当第N次优化后的时序交互图神经网络模型的模型参数收敛,将第N次优化后的时序交互图神经网络模型作为训练文本分类模型。
步骤S50,获取待分类文本数据;
在本实施例中,文本分类装置在训练得到了训练文本分类模型之后,获取待分类文本数据。
步骤S60,将所述待分类文本数据输入所述训练文本分类模型,得到文本分类结果。
在本实施例中,文本分类装置在获取待分类文本数据之后,将所述待分类文本数据输入所述训练文本分类模型,得到文本分类结果。在模型预测期间,直接根据网络输出的文本类别概率分布,选择概率最大的文本类别作为预测结果。比如文本数据的类别为科技或人文等。
本实施例通过上述方案,获取文本数据以及所述文本数据对应的标签值,并将所述文本数据构建为自适应图结构数据,其中所述自适应图结构数据包括图节点集合和图有向边集合;基于所述自适应距离权重算法对所述图节点集合和所述图有向边集合进行处理,得到输入特征矩阵;将所述输入特征矩阵和所述标签值输入到时序交互图神经网络模型中,得到所述文本数据的总损失值;基于所述总损失值、交叉熵损失函数和梯度下降算法对所述文本分类模型的模型参数进行更新优化,得到训练文本分类模型。由此,实现了增强图神经网络的特征提取能力,改善了图读出器函数对文本数据的表达以及分类,降低了图神经网络出现过度平滑问题出现的概率。实现了对待分类文本数据进行分类,提高了待分类文本数据的准确率。
本发明还提供一种文本分类装置。
本发明文本分类装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本分类程序,所述文本分类程序被所述处理器执行时实现如上所述的文本分类方法的步骤。
其中,在所述处理器上运行的文本分类程序被执行时所实现的方法可参照本发明文本分类方法各个实施例,此处不再赘述。
本发明还提供一种介质。
本发明介质上存储有文本分类程序,所述文本分类程序被处理器执行时实现如上所述的文本分类方法的步骤。
其中,在所述处理器上运行的文本分类程序被执行时所实现的方法可参照本发明文本分类方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于时序交互图神经网络的文本分类方法,其特征在于:所述基于时序交互图神经网络的文本分类方法包括如下步骤:
获取文本数据以及所述文本数据对应的标签值,并将所述文本数据构建为自适应图结构数据,其中所述自适应图结构数据包括图节点集合和图有向边集合;
基于所述自适应距离权重算法对所述图节点集合和所述图有向边集合进行处理,得到输入特征矩阵;
将所述输入特征矩阵和所述标签值输入到时序交互图神经网络模型中,得到所述文本数据的总损失值;
基于所述总损失值、交叉熵损失函数和梯度下降算法对所述时序交互图神经网络模型的模型参数进行更新优化,得到训练文本分类模型;
获取待分类文本数据;
将所述待分类文本数据输入所述训练文本分类模型,得到文本分类结果。
2.根据权利要求1所述的基于时序交互图神经网络的文本分类方法,其特征在于,所述将所述文本数据构建为自适应图结构数据的步骤,包括:
将所述文本数据中的每个单词作为图节点集合;
将所述单词之间的共现关系作为图有向边集合。
3.根据权利要求2所述的基于时序交互图神经网络的文本分类方法,其特征在于,所述基于所述自适应距离权重算法对所述图节点集合和所述图有向边集合进行处理,得到输入特征矩阵的步骤,包括:
根据所述图节点集合和所述图有向边集合,得到邻接矩阵和节点距离矩阵;
根据所述邻接矩阵得到单位矩阵;
基于自适应距离权重算法对所述节点距离矩阵进行处理,得到自适应距离权重矩阵;
根据第一可学习参数矩阵、第一可学习偏置项以及所述单位矩阵、所述自适应距离权重矩阵,得到输入特征矩阵。
4.根据权利要求3所述的基于时序交互图神经网络的文本分类方法,其特征在于,其中,自适应距离权重矩阵由公式
Figure FDA0003353109890000021
得到的;wi,j是自适应距离权重矩阵中的第i行第j列元素,表示第i个单词与第j个单词的权重;di,j是节点距离矩阵中的第i行第j列元素,表示文本中第i个单词与第j个单词之间含有单词的数量加一;i表示邻接矩阵中的行号,n表示节点集中单词的数量;
其中,输入特征矩阵X=WKO+hI+bh
其中,O为第一可学习参数矩阵,I为单位矩阵,h为第一可学习参数项,bh为第一课学习偏置项,WK为相邻节点的自适应距离权重矩阵。
5.根据权利要求4所述的基于时序交互图神经网络的文本分类方法,其特征在于,所述将所述输入特征矩阵和所述标签值输入到时序交互图神经网络模型中,得到所述文本数据的总损失值的步骤,包括:
将所述输入特征矩阵输入时序交互图卷积网络,并根据所述邻接矩阵、所述单位矩阵和所述节点距离矩阵得到时序交互卷积状态矩阵;
将所述输入特征矩阵输入时序交互门控图神经网络,并根据所述邻接矩阵、所述单位矩阵和所述节点距离矩阵得到时序交互门控状态矩阵;
根据所述时序交互卷积状态矩阵和所述时序交互门控状态矩阵,得到增强特征矩阵;
根据所述增强特征矩阵、所述时序交互卷积状态矩阵和所述时序交互门控状态矩阵得到交互注意力;
根据所述交互注意力和所述标签值得到所述文本数据的总损失值。
6.根据权利要求5所述的基于时序交互图神经网络的文本分类方法,其特征在于,所述将所述输入特征矩阵输入时序交互图卷积网络,并根据所述邻接矩阵、所述单位矩阵和所述节点距离矩阵得到时序交互卷积状态矩阵的步骤,包括:
Figure FDA0003353109890000031
Figure FDA0003353109890000032
其中,
Figure FDA0003353109890000033
为时序交互卷积缓存,Ci为历史网络层隐藏状态,l为时序交互图卷积网络迭代的次数;Cl为时序交互卷积状态矩阵,φ为tanh激活函数,A为对称归一化邻接矩阵,其中,
Figure FDA0003353109890000034
D为节点距离矩阵,
Figure FDA0003353109890000035
A为所述邻接矩阵,I为单位矩阵;αC为第一可学习参数项,βC为第二可学习参数项,λi为第三可学习参数项,WC为第二可学习参数矩阵,WG为第三可学习参数矩阵,γC为第二可学习偏置项;
所述将所述输入特征矩阵输入时序交互门控图神经网络,并根据所述邻接矩阵、所述单位矩阵和所述节点距离矩阵得到时序交互门控状态矩阵的步骤,包括:
ak=Atk-1Wa
zk=σ(Wzak+Uztk-1+bz);
rk=σ(Wrak+Urtk-1+br);
Figure FDA0003353109890000036
Figure FDA0003353109890000037
Figure FDA0003353109890000038
Figure FDA0003353109890000039
其中,ak为借助对称归一化邻接矩阵得到的图特征聚合变量,σ表示Sigmoid函数,Wa为第四可学习参数矩阵,Wz为第五可学习参数矩阵,Uz为第六可学习参数矩阵,Wr为第七可学习参数矩阵,Ur为第八可学习参数矩阵,Wt为第九可学习参数矩阵,Ut为第十可学习参数矩阵,bz为第三可学习偏置项,br为第四可学习偏置项,bt第五可学习偏置项,⊙为两个矩阵对应位置的元素相乘;αT为第四可学习参数项,βT为第五可学习参数项,ωj为第六可学习参数项,WR为第十一可学习参数矩阵,θT第六可学习偏置项,tk为内部状态,zk为更新门,rk为重置门,
Figure FDA0003353109890000041
为候选状态,
Figure FDA0003353109890000042
为时序交互门控缓存,tk为时序交互门控图神经网络内部状态,Tk为时序交互门控状态矩阵;
所述根据所述时序交互卷积状态矩阵和所述时序交互门控状态矩阵,得到增强特征矩阵的步骤,包括:
Figure FDA0003353109890000043
VA=WAH+bA
其中,
Figure FDA0003353109890000044
表示通过时序交互图卷积网络额网络层提取到的时序交互卷积状态矩阵的第i个特征向量,
Figure FDA0003353109890000045
表示通过时序交互门控图神经网络的网络层提取到的时序交互门控状态矩阵Tk的第i个特征向量,||表示向量的拼接;
Figure FDA0003353109890000046
为拼接得的特征矩阵;WA为第十二可学习参数矩阵,bA为第七可学习偏置项,VA为增强特征矩阵;
其中,交互注意力
Figure FDA0003353109890000047
δ表示Softmax函数,n为节点集中单词的数量,SA为交互注意力。
7.根据权利要求6所述的基于时序交互图神经网络的文本分类方法,其特征在于,所述根据所述交互注意力和所述标签值得到所述文本数据的总损失值的步骤,包括:
根据所述交互注意力得到全连接层隐藏特征;
根据所述全连接层隐藏特征计算得到分类概率;
根据所述分类概率和所述标签值得到所述文本数据的总损失值。
8.根据权利要求7所述的基于时序交互图神经网络的文本分类方法,其特征在于,其中,所述全连接层隐藏特征p=φ(SA)WM
φ为激活函数,WM为第十三可学习参数矩阵,SA为交互注意力;
所述根据所述全连接层隐藏特征计算得到分类概率的步骤,包括:
Figure FDA0003353109890000051
f=δ(Wfg+bf);
其中,g为图节点使用均值聚合后的图层次表示,v表示图节点集合中的某一具体节点,f为分类概率,δ为Softmax函数;bf为第七可学习偏置项、Wf为第十四可学习参数矩阵;
其中,所述总损失值
Figure FDA0003353109890000052
其中,y为所述文本数据的标签值。
9.一种文本分类装置,其特征在于,所述文本分类装置包括:存储器、处理器及存储在所述存储器上并在所述处理器上运行的文本分类程序,所述文本分类程序被所述处理器执行时实现如权利要求1至8中任一项所述的文本分类方法的步骤。
10.一种介质,其特征在于,所述介质上存储有文本分类程序,所述文本分类程序被处理器执行时实现如权利要求1至8中任一项所述的文本分类方法的步骤。
CN202111343626.9A 2021-11-13 2021-11-13 基于时序交互图神经网络的文本分类方法、装置及介质 Pending CN114398479A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111343626.9A CN114398479A (zh) 2021-11-13 2021-11-13 基于时序交互图神经网络的文本分类方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111343626.9A CN114398479A (zh) 2021-11-13 2021-11-13 基于时序交互图神经网络的文本分类方法、装置及介质

Publications (1)

Publication Number Publication Date
CN114398479A true CN114398479A (zh) 2022-04-26

Family

ID=81225153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111343626.9A Pending CN114398479A (zh) 2021-11-13 2021-11-13 基于时序交互图神经网络的文本分类方法、装置及介质

Country Status (1)

Country Link
CN (1) CN114398479A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114780619A (zh) * 2022-06-07 2022-07-22 国网浙江省电力有限公司金华供电公司 一种自动工程审价审计数据的异常预警方法
CN115291864A (zh) * 2022-06-30 2022-11-04 浙江大学 一种基于图神经网络的零碎图层检测方法及装置
CN115336977A (zh) * 2022-08-03 2022-11-15 中南大学湘雅医院 一种精准icu警报分级评估方法
CN117909910A (zh) * 2024-03-19 2024-04-19 成都工业学院 基于图注意力网络的系统异常日志自动检测方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114780619A (zh) * 2022-06-07 2022-07-22 国网浙江省电力有限公司金华供电公司 一种自动工程审价审计数据的异常预警方法
CN115291864A (zh) * 2022-06-30 2022-11-04 浙江大学 一种基于图神经网络的零碎图层检测方法及装置
CN115291864B (zh) * 2022-06-30 2024-03-29 浙江大学 一种基于图神经网络的零碎图层检测方法及装置
CN115336977A (zh) * 2022-08-03 2022-11-15 中南大学湘雅医院 一种精准icu警报分级评估方法
CN117909910A (zh) * 2024-03-19 2024-04-19 成都工业学院 基于图注意力网络的系统异常日志自动检测方法

Similar Documents

Publication Publication Date Title
CN109471938B (zh) 一种文本分类方法及终端
CN114398479A (zh) 基于时序交互图神经网络的文本分类方法、装置及介质
US9990558B2 (en) Generating image features based on robust feature-learning
EP4145308A1 (en) Search recommendation model training method, and search result sorting method and device
US20200265301A1 (en) Incremental training of machine learning tools
WO2022068623A1 (zh) 一种模型训练方法及相关设备
WO2021037113A1 (zh) 一种图像描述的方法及装置、计算设备和存储介质
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
CN111105029B (zh) 神经网络的生成方法、生成装置和电子设备
CN111816159B (zh) 一种语种识别方法以及相关装置
WO2022156561A1 (zh) 一种自然语言处理方法以及装置
CN113570029A (zh) 获取神经网络模型的方法、图像处理方法及装置
WO2023134083A1 (zh) 基于文本的情感分类方法和装置、计算机设备、存储介质
CN110968692B (zh) 一种文本分类方法及系统
CN116861995A (zh) 多模态预训练模型的训练及多模态数据处理方法和装置
WO2024002167A1 (zh) 一种操作预测方法及相关装置
EP4343616A1 (en) Image classification method, model training method, device, storage medium, and computer program
CN115879508A (zh) 一种数据处理方法及相关装置
CN117009650A (zh) 一种推荐方法以及装置
WO2022063076A1 (zh) 对抗样本的识别方法及装置
CN114896395A (zh) 语言模型微调方法、文本分类方法、装置及设备
CN110377741B (zh) 文本分类方法、智能终端及计算机可读存储介质
CN117217284A (zh) 一种数据处理方法及其装置
KR20220018633A (ko) 이미지 검색 방법 및 장치
CN116186326A (zh) 视频推荐方法、模型训练方法、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination