CN112598044A - 一种基于多通道图卷积的文本分类方法 - Google Patents
一种基于多通道图卷积的文本分类方法 Download PDFInfo
- Publication number
- CN112598044A CN112598044A CN202011495609.2A CN202011495609A CN112598044A CN 112598044 A CN112598044 A CN 112598044A CN 202011495609 A CN202011495609 A CN 202011495609A CN 112598044 A CN112598044 A CN 112598044A
- Authority
- CN
- China
- Prior art keywords
- text
- words
- node
- channels
- graph convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000007246 mechanism Effects 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 239000010410 layer Substances 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 3
- 239000002356 single layer Substances 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 238000000605 extraction Methods 0.000 abstract description 3
- 230000000306 recurrent effect Effects 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于多通道图卷积的文本分类方法,该方法从不同角度对文本节点和单词节点建立多个图,可以对单词节点间的同质性进行更全面的建模。对每个图都在一个对应的通道内进行卷积,并且在每一层图卷积网络中,同一节点在不同通道中的特征信息可以相互交流,并用门机制控制信息交流的通过量,提高特征提取的效果。
Description
技术领域
本发明涉及自然语言处理领域,更具体地,涉及一种基于多通道图卷积的文本分类方法。
背景技术
文本分类是自然语言处理中最基本的任务,有着重要的研究意义和巨大的实用价值。其应用场景十分广泛,包括主题分类、情感分类、问题分类、意图分类等等。目前已有的研究文本分类的方法主要包括传统机器学习的方法,以及深度学习方法,如基于卷积神经网络的方法、基于递归神经网络的方法、基于注意力机制的方法,以及以上方法的集成。
传统机器学习方法通常是对文本提取TF-IDF特征或词袋特征,然后交给回归模型进行学习。回归模型有很多,例如支持向量机,贝叶斯等。深度学习方法用单词嵌入向量表示文本中的单词。基于卷积神经网络的方法将卷积神经网络应用在文本上,用多个滤波器对文本进行一维卷积,提取文本的局部语义信息,然后使用最大值池化操作,捕捉最显著的特征。最后讲这些特征输入全连接层,得到标签的概率分布。
基于递归神经网络的方法利用递归神经网络提取文本的序列信息。常用的递归神经网络有RNN、LSTM、GRU等。将一段文本输入到单向或双向的递归神经网络中,得到文本的表示用于分类,文本的表示可以是递归神经网络的末端输出,也可以是对递归过程中的输出序列通过池化得到。有的做法直接将递归神经网络应用在整段的文本中,也有层级结构的表示学习,先学习句子表示,再在句子表示上学习文本表示。
注意力机制的用法类似递归神经网络,基于注意力机制的方法主要是为了克服递归神经网络对于长序列无法全部记住,难并行化的缺点。transformer模型使用多层的自注意力加前向网络,实现编码器-解码器模型。Transformer以及基于transformer模型改良的各种模型(例如bert)可以用在包括文本分类在内的多个自然语言处理任务上。
发明内容
本发明提供一种基于多通道图卷积的文本分类方法,该方法从不同角度对文本节点和单词节点建立多个图,可以对单词节点间的同质性进行更全面的建模。
为了达到上述技术效果,本发明的技术方案如下:
一种基于多通道图卷积的文本分类方法,包括以下步骤:
S1:从单词相似性和相关性角度构造文本之间的关系图;
S2:利用S1得到的多个关系图进行多通道图卷积;
S3:在S1的多通道图卷积过程中让同一节点在不同通道间交流信息,并用门机制控制节点信息在交流时通过量。
进一步地,所述步骤S1的具体过程是:
将全部文本中出现的单词汇集成一个词典,然后构建由单词和文本节点组成的无向异构图,图中每个文本是一个节点,每个单词也是一个节点,对文本数据建立两个异构图,文本与其中出现的单词建立连边,边权值为文本与单词间的TF-IDF值;单词间分别根据相关性和相似性建立连边,相关性通过单词间的点互信息PMI值定义,相似性通过单词间的GloVe向量的余弦相似度定义,当单词间的值大于一阈值时建立连边,如公式(1):
其中R(i,j)对于图G1和G2分别是PMI(i,j)和cos(i,j)。
进一步地,PMI用于评价单词间的相关性,其计算方式为:
PMI基于滑动窗口进行统计,其中W(i)是含有单词i的滑动窗口,W(i,j)指同时含有单词i,j的滑动窗口,W则是全部滑动窗口数量。
进一步地,所述步骤S2中:
将各节点的特征向量分别设置为one-hot向量,将步骤S1中构造的两个图作为不同的卷积通道,将节点特征输入到这两个通道中分别分布应用GCN进行图卷积提取特征,所使用的两层GCN模型的表达式如公式(2):
进一步地,所述步骤S2中:
对两个通道的输出结果进行融合如公式(3):
Z=softmax(max_pooling(GCN(X,G1),GCN(X,G2))) (3)
进一步地,所述步骤S3的具体过程是:
在两个图卷积的通道之间,加入信息交流,并用门机制控制信息的流通。同一节点在不同通道内交换信息,具体如公式(4):
其中Wij是i,j通道之间的线性变换矩阵,Bij是偏移矩阵。
与现有技术相比,本发明技术方案的有益效果是:
本发明方法从不同角度对文本节点和单词节点建立多个图,可以对单词节点间的同质性进行更全面的建模。对每个图都在一个对应的通道内进行卷积,并且在每一层图卷积网络中,同一节点在不同通道中的特征信息可以相互交流,并用门机制控制信息交流的通过量,提高特征提取的效果。
附图说明
图1为文本节点和单词节点组成的异构图示意图;
图2为本方法网络结构示意图;
图3为基于门机制的信息交流示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
一种基于多通道图卷积的文本分类方法,包括以下步骤:
S1:从单词相似性和相关性角度构造文本之间的关系图;
S2:利用S1得到的多个关系图进行多通道图卷积;
S3:在S1的多通道图卷积过程中让同一节点在不同通道间交流信息,并用门机制控制节点信息在交流时通过量。
如图1所示,步骤S1的具体过程是:
将全部文本中出现的单词汇集成一个词典,然后构建由单词和文本节点组成的无向异构图,图中每个文本是一个节点,每个单词也是一个节点,对文本数据建立两个异构图,文本与其中出现的单词建立连边,边权值为文本与单词间的TF-IDF值;单词间分别根据相关性和相似性建立连边,相关性通过单词间的点互信息PMI值定义,相似性通过单词间的GloVe向量的余弦相似度定义,当单词间的值大于一阈值时建立连边,如公式(1):
其中R(i,j)对于图G1和G2分别是PMI(i,j)和cos(i,j)。
进一步地,PMI用于评价单词间的相关性,其计算方式为:
PMI基于滑动窗口进行统计,其中W(i)是含有单词i的滑动窗口,W(i,j)指同时含有单词i,j的滑动窗口,W则是全部滑动窗口数量。
如图2所示,步骤S2中:
将各节点的特征向量分别设置为one-hot向量,将步骤S1中构造的两个图作为不同的卷积通道,将节点特征输入到这两个通道中分别分布应用GCN进行图卷积提取特征,所使用的两层GCN模型的表达式如公式(2):
对两个通道的输出结果进行融合如公式(3):
Z=softmax(max_pooling(GCN(X,G1),GCN(X,G2))) (3)
如图3所示,所述步骤S3的具体过程是:
在两个图卷积的通道之间,加入信息交流,并用门机制控制信息的流通。同一节点在不同通道内交换信息,具体如公式(4):
其中Wij是i,j通道之间的线性变换矩阵,Bij是偏移矩阵。
本实施例采用的正常数据数据集分别是R8、R52、ohsumed、mr数据集,R8数据集包含8个类别,2189条数据;R52数据集包含52个类别,2568条数据;ohsumed数据集包含23个类别,4043条数据;mr数据集包含2个类别,3554条数据;均以8:1:1比例划分训练集、验证集和测试集。
本发明方法具体步骤为:
第一步,将全部文本中出现的单词汇集成一个词典,然后构建由单词和文本节点组成的无向的异构图。图中每个文本是一个节点,每个单词也是一个节点。对文本数据建立两个异构图,在这两个图中文本与其中出现的单词建立连边,边权值都为TF-IDF值。单词间分别根据相关性和相似性建立连边,相关性通过单词间的PMI值定义,相似性通过单词间的GloVe向量的余弦相似度定义,当单词间的值大于一阈值时建立连边。两个图中每个节点都建立自连接连边,边权值为1。
第三步,在两个图卷积的通道之间,对同一节点在不同通道中的特征信息进行信息交流,并用门机制控制信息的流通。信息交流的具体过程为:其中表示第p层第i通道的节点特征向量,节点接收其他通道同节点的特征向量信息,gate是门机制,用于控制接收信息的多少。gate的公式为:其中Wij是i,j通道之间的线性变换矩阵,Bij是偏移矩阵。
第四步,对两个通道输出的特征进行最大值池化操作进行融合,再对融合的特征进行softmax操作得到文本节点的分类结果。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (6)
1.一种基于多通道图卷积的文本分类方法,其特征在于,包括以下步骤:
S1:从单词相似性和相关性角度构造文本之间的关系图;
S2:利用S1得到的多个关系图进行多通道图卷积;
S3:在S1的多通道图卷积过程中让同一节点在不同通道间交流信息,并用门机制控制节点信息在交流时通过量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011495609.2A CN112598044B (zh) | 2020-12-17 | 2020-12-17 | 一种基于多通道图卷积的文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011495609.2A CN112598044B (zh) | 2020-12-17 | 2020-12-17 | 一种基于多通道图卷积的文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112598044A true CN112598044A (zh) | 2021-04-02 |
CN112598044B CN112598044B (zh) | 2024-04-02 |
Family
ID=75196699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011495609.2A Active CN112598044B (zh) | 2020-12-17 | 2020-12-17 | 一种基于多通道图卷积的文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112598044B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595643A (zh) * | 2018-04-26 | 2018-09-28 | 重庆邮电大学 | 基于多分类节点卷积循环网络的文本特征提取及分类方法 |
CN110348016A (zh) * | 2019-07-15 | 2019-10-18 | 昆明理工大学 | 基于句子关联注意力机制的文本摘要生成方法 |
CN110717047A (zh) * | 2019-10-22 | 2020-01-21 | 湖南科技大学 | 一种基于图卷积神经网络的Web服务分类方法 |
CN110807320A (zh) * | 2019-11-11 | 2020-02-18 | 北京工商大学 | 基于cnn双向gru注意力机制的短文本情感分析方法 |
US20200250139A1 (en) * | 2018-12-31 | 2020-08-06 | Dathena Science Pte Ltd | Methods, personal data analysis system for sensitive personal information detection, linking and purposes of personal data usage prediction |
US20200285944A1 (en) * | 2019-03-08 | 2020-09-10 | Adobe Inc. | Graph convolutional networks with motif-based attention |
CN111651973A (zh) * | 2020-06-03 | 2020-09-11 | 拾音智能科技有限公司 | 一种基于句法感知的文本匹配方法 |
CN111708864A (zh) * | 2020-06-11 | 2020-09-25 | 兰州理工大学 | 一种用户评论文本情感分析方法及装置 |
-
2020
- 2020-12-17 CN CN202011495609.2A patent/CN112598044B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595643A (zh) * | 2018-04-26 | 2018-09-28 | 重庆邮电大学 | 基于多分类节点卷积循环网络的文本特征提取及分类方法 |
US20200250139A1 (en) * | 2018-12-31 | 2020-08-06 | Dathena Science Pte Ltd | Methods, personal data analysis system for sensitive personal information detection, linking and purposes of personal data usage prediction |
US20200285944A1 (en) * | 2019-03-08 | 2020-09-10 | Adobe Inc. | Graph convolutional networks with motif-based attention |
CN110348016A (zh) * | 2019-07-15 | 2019-10-18 | 昆明理工大学 | 基于句子关联注意力机制的文本摘要生成方法 |
CN110717047A (zh) * | 2019-10-22 | 2020-01-21 | 湖南科技大学 | 一种基于图卷积神经网络的Web服务分类方法 |
CN110807320A (zh) * | 2019-11-11 | 2020-02-18 | 北京工商大学 | 基于cnn双向gru注意力机制的短文本情感分析方法 |
CN111651973A (zh) * | 2020-06-03 | 2020-09-11 | 拾音智能科技有限公司 | 一种基于句法感知的文本匹配方法 |
CN111708864A (zh) * | 2020-06-11 | 2020-09-25 | 兰州理工大学 | 一种用户评论文本情感分析方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112598044B (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bresson et al. | Residual gated graph convnets | |
CN109284506B (zh) | 一种基于注意力卷积神经网络的用户评论情感分析系统及方法 | |
CN108399428B (zh) | 一种基于迹比准则的三元组损失函数设计方法 | |
CN108549658B (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 | |
CN107025284A (zh) | 网络评论文本情感倾向的识别方法及卷积神经网络模型 | |
CN108664632A (zh) | 一种基于卷积神经网络和注意力机制的文本情感分类算法 | |
CN108038492A (zh) | 一种基于深度学习的感性词向量及情感分类方法 | |
CN111125358A (zh) | 一种基于超图的文本分类方法 | |
CN111061856A (zh) | 一种基于知识感知的新闻推荐方法 | |
CN110263174B (zh) | —基于焦点关注的主题类别分析方法 | |
CN114818703B (zh) | 基于BERT语言模型和TextCNN模型的多意图识别方法及系统 | |
CN112860904B (zh) | 一种融入外部知识的生物医疗关系抽取方法 | |
CN115526236A (zh) | 一种基于多模态对比学习的文本网络图分类方法 | |
CN116049387A (zh) | 一种基于图卷积的短文本分类方法、装置、介质 | |
CN115062003A (zh) | 基于gpt2的云erp社区生成式问答方法 | |
CN114925205A (zh) | 基于对比学习的gcn-gru文本分类方法 | |
CN109033304B (zh) | 基于在线深层主题模型的多模态检索方法 | |
CN113779988A (zh) | 一种通信领域过程类知识事件抽取方法 | |
CN113641821A (zh) | 一种社交网络中意见领袖的价值取向识别方法及系统 | |
CN111723649B (zh) | 一种基于语义分解的短视频事件检测方法 | |
CN112446205A (zh) | 语句判别方法、装置、设备及存储介质 | |
CN116775880A (zh) | 一种基于标签语义和迁移学习的多标签文本分类方法及系统 | |
CN110020379B (zh) | 一种基于深度动态网络嵌入表示模型的链路预测方法 | |
Jadhav et al. | Content based facial emotion recognition model using machine learning algorithm | |
CN111581379A (zh) | 一种基于作文扣题度的自动作文评分计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |