CN112598044B - 一种基于多通道图卷积的文本分类方法 - Google Patents

一种基于多通道图卷积的文本分类方法 Download PDF

Info

Publication number
CN112598044B
CN112598044B CN202011495609.2A CN202011495609A CN112598044B CN 112598044 B CN112598044 B CN 112598044B CN 202011495609 A CN202011495609 A CN 202011495609A CN 112598044 B CN112598044 B CN 112598044B
Authority
CN
China
Prior art keywords
text
words
channels
node
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011495609.2A
Other languages
English (en)
Other versions
CN112598044A (zh
Inventor
苏勤亮
欧宏宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202011495609.2A priority Critical patent/CN112598044B/zh
Publication of CN112598044A publication Critical patent/CN112598044A/zh
Application granted granted Critical
Publication of CN112598044B publication Critical patent/CN112598044B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供一种基于多通道图卷积的文本分类方法,该方法从不同角度对文本节点和单词节点建立多个图,可以对单词节点间的同质性进行更全面的建模。对每个图都在一个对应的通道内进行卷积,并且在每一层图卷积网络中,同一节点在不同通道中的特征信息可以相互交流,并用门机制控制信息交流的通过量,提高特征提取的效果。

Description

一种基于多通道图卷积的文本分类方法
技术领域
本发明涉及自然语言处理领域,更具体地,涉及一种基于多通道图卷积的文本分类方法。
背景技术
文本分类是自然语言处理中最基本的任务,有着重要的研究意义和巨大的实用价值。其应用场景十分广泛,包括主题分类、情感分类、问题分类、意图分类等等。目前已有的研究文本分类的方法主要包括传统机器学习的方法,以及深度学习方法,如基于卷积神经网络的方法、基于递归神经网络的方法、基于注意力机制的方法,以及以上方法的集成。
传统机器学习方法通常是对文本提取TF-IDF特征或词袋特征,然后交给回归模型进行学习。回归模型有很多,例如支持向量机,贝叶斯等。深度学习方法用单词嵌入向量表示文本中的单词。基于卷积神经网络的方法将卷积神经网络应用在文本上,用多个滤波器对文本进行一维卷积,提取文本的局部语义信息,然后使用最大值池化操作,捕捉最显著的特征。最后讲这些特征输入全连接层,得到标签的概率分布。
基于递归神经网络的方法利用递归神经网络提取文本的序列信息。常用的递归神经网络有RNN、LSTM、GRU等。将一段文本输入到单向或双向的递归神经网络中,得到文本的表示用于分类,文本的表示可以是递归神经网络的末端输出,也可以是对递归过程中的输出序列通过池化得到。有的做法直接将递归神经网络应用在整段的文本中,也有层级结构的表示学习,先学习句子表示,再在句子表示上学习文本表示。
注意力机制的用法类似递归神经网络,基于注意力机制的方法主要是为了克服递归神经网络对于长序列无法全部记住,难并行化的缺点。transformer模型使用多层的自注意力加前向网络,实现编码器-解码器模型。Transformer以及基于transformer模型改良的各种模型(例如bert)可以用在包括文本分类在内的多个自然语言处理任务上。
发明内容
本发明提供一种基于多通道图卷积的文本分类方法,该方法从不同角度对文本节点和单词节点建立多个图,可以对单词节点间的同质性进行更全面的建模。
为了达到上述技术效果,本发明的技术方案如下:
一种基于多通道图卷积的文本分类方法,包括以下步骤:
S1:从单词相似性和相关性角度构造文本之间的关系图;
S2:利用S1得到的多个关系图进行多通道图卷积;
S3:在S1的多通道图卷积过程中让同一节点在不同通道间交流信息,并用门机制控制节点信息在交流时通过量。
进一步地,所述步骤S1的具体过程是:
将全部文本中出现的单词汇集成一个词典,然后构建由单词和文本节点组成的无向异构图,图中每个文本是一个节点,每个单词也是一个节点,对文本数据建立两个异构图,文本与其中出现的单词建立连边,边权值为文本与单词间的TF-IDF值;单词间分别根据相关性和相似性建立连边,相关性通过单词间的点互信息PMI值定义,相似性通过单词间的GloVe向量的余弦相似度定义,当单词间的值大于一阈值时建立连边,如公式(1):
其中R(i,j)对于图G1和G2分别是PMI(i,j)和cos(i,j)。
进一步地,PMI用于评价单词间的相关性,其计算方式为:
PMI基于滑动窗口进行统计,其中W(i)是含有单词i的滑动窗口,W(i,j)指同时含有单词i,j的滑动窗口,W则是全部滑动窗口数量。
进一步地,所述步骤S2中:
将各节点的特征向量分别设置为one-hot向量,将步骤S1中构造的两个图作为不同的卷积通道,将节点特征输入到这两个通道中分别分布应用GCN进行图卷积提取特征,所使用的两层GCN模型的表达式如公式(2):
其中表示标准化后的邻接矩阵,X各节点特征向量表示输入,W0、W1表示线性变换矩阵。
进一步地,所述步骤S2中:
对两个通道的输出结果进行融合如公式(3):
Z=softmax(max_pooling(GCN(X,G1),GCN(X,G2))) (3)
其中G1、G2是步骤S1构建的两个图,用于建立GCN的邻接矩阵将两路输出进行最大值池化,并进行softmax操作得到最终的分类结果,各通道的GCN不共享参数。
进一步地,所述步骤S3的具体过程是:
在两个图卷积的通道之间,加入信息交流,并用门机制控制信息的流通。同一节点在不同通道内交换信息,具体如公式(4):
其中表示第p层第i通道的节点特征向量,节点接收其他通道同节点的特征向量信息,gate是门机制,其实现相当于一个单层的全连接神经网络,用于控制特征向量各个维度接收信息的多少,gate的公式如(5):
其中Wij是i,j通道之间的线性变换矩阵,Bij是偏移矩阵。
与现有技术相比,本发明技术方案的有益效果是:
本发明方法从不同角度对文本节点和单词节点建立多个图,可以对单词节点间的同质性进行更全面的建模。对每个图都在一个对应的通道内进行卷积,并且在每一层图卷积网络中,同一节点在不同通道中的特征信息可以相互交流,并用门机制控制信息交流的通过量,提高特征提取的效果。
附图说明
图1为文本节点和单词节点组成的异构图示意图;
图2为本方法网络结构示意图;
图3为基于门机制的信息交流示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
一种基于多通道图卷积的文本分类方法,包括以下步骤:
S1:从单词相似性和相关性角度构造文本之间的关系图;
S2:利用S1得到的多个关系图进行多通道图卷积;
S3:在S1的多通道图卷积过程中让同一节点在不同通道间交流信息,并用门机制控制节点信息在交流时通过量。
如图1所示,步骤S1的具体过程是:
将全部文本中出现的单词汇集成一个词典,然后构建由单词和文本节点组成的无向异构图,图中每个文本是一个节点,每个单词也是一个节点,对文本数据建立两个异构图,文本与其中出现的单词建立连边,边权值为文本与单词间的TF-IDF值;单词间分别根据相关性和相似性建立连边,相关性通过单词间的点互信息PMI值定义,相似性通过单词间的GloVe向量的余弦相似度定义,当单词间的值大于一阈值时建立连边,如公式(1):
其中R(i,j)对于图G1和G2分别是PMI(i,j)和cos(i,j)。
进一步地,PMI用于评价单词间的相关性,其计算方式为:
PMI基于滑动窗口进行统计,其中W(i)是含有单词i的滑动窗口,W(i,j)指同时含有单词i,j的滑动窗口,W则是全部滑动窗口数量。
如图2所示,步骤S2中:
将各节点的特征向量分别设置为one-hot向量,将步骤S1中构造的两个图作为不同的卷积通道,将节点特征输入到这两个通道中分别分布应用GCN进行图卷积提取特征,所使用的两层GCN模型的表达式如公式(2):
其中表示标准化后的邻接矩阵,X各节点特征向量表示输入,W0、W1表示线性变换矩阵;
对两个通道的输出结果进行融合如公式(3):
Z=softmax(max_pooling(GCN(X,G1),GCN(X,G2))) (3)
其中G1、G2是步骤S1构建的两个图,用于建立GCN的邻接矩阵将两路输出进行最大值池化,并进行softmax操作得到最终的分类结果,各通道的GCN不共享参数。
如图3所示,所述步骤S3的具体过程是:
在两个图卷积的通道之间,加入信息交流,并用门机制控制信息的流通。同一节点在不同通道内交换信息,具体如公式(4):
其中表示第p层第i通道的节点特征向量,节点接收其他通道同节点的特征向量信息,gate是门机制,其实现相当于一个单层的全连接神经网络,用于控制特征向量各个维度接收信息的多少,gate的公式如(5):
其中Wij是i,j通道之间的线性变换矩阵,Bij是偏移矩阵。
本实施例采用的正常数据数据集分别是R8、R52、ohsumed、mr数据集,R8数据集包含8个类别,2189条数据;R52数据集包含52个类别,2568条数据;ohsumed数据集包含23个类别,4043条数据;mr数据集包含2个类别,3554条数据;均以8:1:1比例划分训练集、验证集和测试集。
本发明方法具体步骤为:
第一步,将全部文本中出现的单词汇集成一个词典,然后构建由单词和文本节点组成的无向的异构图。图中每个文本是一个节点,每个单词也是一个节点。对文本数据建立两个异构图,在这两个图中文本与其中出现的单词建立连边,边权值都为TF-IDF值。单词间分别根据相关性和相似性建立连边,相关性通过单词间的PMI值定义,相似性通过单词间的GloVe向量的余弦相似度定义,当单词间的值大于一阈值时建立连边。两个图中每个节点都建立自连接连边,边权值为1。
第二步,将各节点用one-hot向量表示,并分别输入到S1中构造的两个图中,应用两层GCN进行图卷积提取特征。GCN网络层的表达式为其中/>表示标准化后的邻接矩阵,H表示输入,W表示线性变换矩阵。
第三步,在两个图卷积的通道之间,对同一节点在不同通道中的特征信息进行信息交流,并用门机制控制信息的流通。信息交流的具体过程为:其中/>表示第p层第i通道的节点特征向量,节点接收其他通道同节点的特征向量信息,gate是门机制,用于控制接收信息的多少。gate的公式为:/>其中Wij是i,j通道之间的线性变换矩阵,Bij是偏移矩阵。
第四步,对两个通道输出的特征进行最大值池化操作进行融合,再对融合的特征进行softmax操作得到文本节点的分类结果。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (5)

1.一种基于多通道图卷积的文本分类方法,其特征在于,包括以下步骤:
S1:从单词相似性和相关性角度构造文本之间的关系图;
S2:利用S1得到的多个关系图进行多通道图卷积;
S3:在S1的多通道图卷积过程中让同一节点在不同通道间交流信息,并用门机制控制节点信息在交流时通过量;
所述步骤S3的具体过程是:
在两个图卷积的通道之间,加入信息交流,并用门机制控制信息的流通,同一节点在不同通道内交换信息,具体如公式(4):
其中表示第p层第i通道的节点特征向量,节点接收其他通道同节点的特征向量信息,gate是门机制,其实现相当于一个单层的全连接神经网络,用于控制特征向量各个维度接收信息的多少,gate的公式如(5):
其中Wij是i,j通道之间的线性变换矩阵,Bij是偏移矩阵。
2.根据权利要求1所述的基于多通道图卷积的文本分类方法,其特征在于,所述步骤S1的具体过程是:
将全部文本中出现的单词汇集成一个词典,然后构建由单词和文本节点组成的无向异构图,图中每个文本是一个节点,每个单词也是一个节点,对文本数据建立两个异构图,文本与其中出现的单词建立连边,边权值为文本与单词间的TF-IDF值;单词间分别根据相关性和相似性建立连边,相关性通过单词间的点互信息PMI值定义,相似性通过单词间的GloVe向量的余弦相似度定义,当单词间的值大于一阈值时建立连边,如公式(1):
其中R(i,j)对于图G1和G2分别是PMI(i,j)和cos(i,j)。
3.根据权利要求2所述的基于多通道图卷积的文本分类方法,其特征在于,PMI用于评价单词间的相关性,其计算方式为:
PMI基于滑动窗口进行统计,其中W(i)是含有单词i的滑动窗口,W(i,j)指同时含有单词i,j的滑动窗口,W则是全部滑动窗口数量。
4.根据权利要求3所述的基于多通道图卷积的文本分类方法,其特征在于,所述步骤S2中:
将各节点的特征向量分别设置为one-hot向量,将步骤S1中构造的两个图作为不同的卷积通道,将节点特征输入到这两个通道中分别分布应用GCN进行图卷积提取特征,所使用的两层GCN模型的表达式如公式(2):
其中表示标准化后的邻接矩阵,X各节点特征向量表示输入,W0、W1表示线性变换矩阵。
5.根据权利要求4所述的基于多通道图卷积的文本分类方法,其特征在于,所述步骤S2中:
对两个通道的输出结果进行融合如公式(3):
Z=softmax(max_pooling(GCN(X,G1),GCN(X,G2))) (3)
其中G1、G2是步骤S1构建的两个图,用于建立GCN的邻接矩阵将两路输出进行最大值池化,并进行softmax操作得到最终的分类结果,各通道的GCN不共享参数。
CN202011495609.2A 2020-12-17 2020-12-17 一种基于多通道图卷积的文本分类方法 Active CN112598044B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011495609.2A CN112598044B (zh) 2020-12-17 2020-12-17 一种基于多通道图卷积的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011495609.2A CN112598044B (zh) 2020-12-17 2020-12-17 一种基于多通道图卷积的文本分类方法

Publications (2)

Publication Number Publication Date
CN112598044A CN112598044A (zh) 2021-04-02
CN112598044B true CN112598044B (zh) 2024-04-02

Family

ID=75196699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011495609.2A Active CN112598044B (zh) 2020-12-17 2020-12-17 一种基于多通道图卷积的文本分类方法

Country Status (1)

Country Link
CN (1) CN112598044B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595643A (zh) * 2018-04-26 2018-09-28 重庆邮电大学 基于多分类节点卷积循环网络的文本特征提取及分类方法
CN110348016A (zh) * 2019-07-15 2019-10-18 昆明理工大学 基于句子关联注意力机制的文本摘要生成方法
CN110717047A (zh) * 2019-10-22 2020-01-21 湖南科技大学 一种基于图卷积神经网络的Web服务分类方法
CN110807320A (zh) * 2019-11-11 2020-02-18 北京工商大学 基于cnn双向gru注意力机制的短文本情感分析方法
CN111651973A (zh) * 2020-06-03 2020-09-11 拾音智能科技有限公司 一种基于句法感知的文本匹配方法
CN111708864A (zh) * 2020-06-11 2020-09-25 兰州理工大学 一种用户评论文本情感分析方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200250139A1 (en) * 2018-12-31 2020-08-06 Dathena Science Pte Ltd Methods, personal data analysis system for sensitive personal information detection, linking and purposes of personal data usage prediction
US11544535B2 (en) * 2019-03-08 2023-01-03 Adobe Inc. Graph convolutional networks with motif-based attention

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595643A (zh) * 2018-04-26 2018-09-28 重庆邮电大学 基于多分类节点卷积循环网络的文本特征提取及分类方法
CN110348016A (zh) * 2019-07-15 2019-10-18 昆明理工大学 基于句子关联注意力机制的文本摘要生成方法
CN110717047A (zh) * 2019-10-22 2020-01-21 湖南科技大学 一种基于图卷积神经网络的Web服务分类方法
CN110807320A (zh) * 2019-11-11 2020-02-18 北京工商大学 基于cnn双向gru注意力机制的短文本情感分析方法
CN111651973A (zh) * 2020-06-03 2020-09-11 拾音智能科技有限公司 一种基于句法感知的文本匹配方法
CN111708864A (zh) * 2020-06-11 2020-09-25 兰州理工大学 一种用户评论文本情感分析方法及装置

Also Published As

Publication number Publication date
CN112598044A (zh) 2021-04-02

Similar Documents

Publication Publication Date Title
CN109284506B (zh) 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN108664632B (zh) 一种基于卷积神经网络和注意力机制的文本情感分类算法
Xu et al. Investigation on the Chinese text sentiment analysis based on convolutional neural networks in deep learning.
CN107943967B (zh) 基于多角度卷积神经网络与循环神经网络的文本分类算法
CN112508085B (zh) 基于感知神经网络的社交网络链路预测方法
CN110222163A (zh) 一种融合cnn与双向lstm的智能问答方法及系统
CN107066445A (zh) 一种属性情感词向量的深度学习方法
CN111125358A (zh) 一种基于超图的文本分类方法
CN107341611A (zh) 一种基于卷积神经网络的业务流程推荐方法
CN112667818A (zh) 融合gcn与多粒度注意力的用户评论情感分析方法及系统
CN110968660A (zh) 基于联合训练模型的信息抽取方法和系统
CN108108354A (zh) 一种基于深度学习的微博用户性别预测方法
CN111985247A (zh) 一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统
Sadr et al. Convolutional neural network equipped with attention mechanism and transfer learning for enhancing performance of sentiment analysis
Chen et al. Deep neural networks for multi-class sentiment classification
CN109033304B (zh) 基于在线深层主题模型的多模态检索方法
CN114925205A (zh) 基于对比学习的gcn-gru文本分类方法
CN115062003A (zh) 基于gpt2的云erp社区生成式问答方法
CN113127604B (zh) 基于评论文本的细粒度物品推荐方法及系统
CN114170657A (zh) 融合注意力机制与高阶特征表示的面部情感识别方法
CN113449815A (zh) 一种基于深度包分析的异常包检测方法及系统
CN113204640A (zh) 一种基于注意力机制的文本分类方法
CN112598044B (zh) 一种基于多通道图卷积的文本分类方法
CN111026846B (zh) 一种基于特征扩展的在线短文本数据流分类方法
CN112446205A (zh) 语句判别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant