CN111460142B - 一种基于自注意力卷积神经网络的短文本分类方法及系统 - Google Patents

一种基于自注意力卷积神经网络的短文本分类方法及系统 Download PDF

Info

Publication number
CN111460142B
CN111460142B CN202010150086.1A CN202010150086A CN111460142B CN 111460142 B CN111460142 B CN 111460142B CN 202010150086 A CN202010150086 A CN 202010150086A CN 111460142 B CN111460142 B CN 111460142B
Authority
CN
China
Prior art keywords
short text
word
self
attention
token
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010150086.1A
Other languages
English (en)
Other versions
CN111460142A (zh
Inventor
周国强
管兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202010150086.1A priority Critical patent/CN111460142B/zh
Publication of CN111460142A publication Critical patent/CN111460142A/zh
Application granted granted Critical
Publication of CN111460142B publication Critical patent/CN111460142B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于自注意力卷积神经网络的短文本分类方法和系统,该方法包括:首先对短文本数据集进行预处理,得到词的初始特征向量,组成的短文本矩阵输入到Word2vec模型中,从而得到词向量;接着将输入短文本矩阵至Self‑attention层,对每个标记Token的上下文信息进行编码,经过卷积层、池化层后抽取短文本的高级语义特征向量,并输入至Softmax分类器进行文本分类识别;所述系统包括文本预处理模块、Word2vec预训练模块、Self‑attention模块、卷积池化模块、分类器模块。本发明在短文本特征学习模型中融合了自注意力机制,可以有效地突出上下文关键词的作用,使得模型的性能得到了很大的提高,且能够降低计算的误差,提高文本数据分类的准确率。

Description

一种基于自注意力卷积神经网络的短文本分类方法及系统
技术领域
本发明涉及数据处理与人工智能领域,特别涉及一种基于自注意力卷积神经网络的短文本分类方法及系统。
背景技术
语言是人类区别其他动物的本质特性。在所有生物中,只有人类才具有语言能力。人类的多种智能都与语言有着密切的关系。人类的逻辑思维以语言为形式,人类的绝大部分知识也是以语言文字的形式记载和流传下来的。因而,它也是人工智能的一个重要,甚至核心部分。目前在关于卷积神经网络对短文本分类的过程中,由于卷积神经网络是基于N-Gram模式,且分类的性能完全取决于窗口的大小,造成分类过程中不能完全捕获上下文信息,导致语义信息的丢失,且容易出现误差,不利于短文本的快速且准确分类。
发明内容
发明目的:本发明为克服卷积神经网络无法捕获长期上下文信息的缺陷,提出了一种融合自注意力机制的短文本分类方法,解决了目前卷积神经网络在短文本分类中无法获取非连续词之间的相关性的问题。本发明的另一目的是提供基于上述方法的短文本分类系统。
技术方案:本发明所述的基于自注意力卷积神经网络的短文本分类方法,包括以下步骤:
(1)对短文本数据集进行预处理,得到标记Token,并将其One-hot编码作为词的初始特征向量;
(2)将词的初始特征向量组成的短文本矩阵输入到Word2vec模型中,对每个标记Token进行训练,得到词向量;
(3)将短文本矩阵作为Self-attention层的输入,通过Self-attention层对每个标记Token的上下文信息进行编码,经过卷积层、池化层后抽取短文本的高级语义特征向量;
(4)将高级语义特征向量作为Softmax分类器的输入进行文本分类识别。
进一步地,所述步骤(1)中,所述预处理包括:对短文本数据集中的短文本进行分词和去停用词,将得到的每个标记Token的One-hot编码作为词的初始特征向量。
进一步地,所述步骤(3)包括:
(31)对词与词之间的相关性进行量化,计算公式为:
Figure BDA0002402126070000011
其中,xi和xj分别表示第i个词和第j个词的词向量;di,j=|i-j|+1,表示词向量xi和词向量xj的相对位置距离;Wa
Figure BDA0002402126070000021
分别表示Self-attention层的训练权重矩阵和参数向量;
(32)通过Softmax对上述score(xi,xj)的值进行归一化,公式为:
ai,j=softmax(score(xi,xj))
(33)获取每个标记Token的上下文信息的词向量,公式为:
ci=∑ai,j·xj
其中,ci表示词向量xi包含上下文信息的词向量。
优选地,步骤(3)中,所述池化层选择静态划分Chunk-Max Pooling,以尽可能提取更高效的特征。
进一步地,所述词与词之间的相关性score(xi,xj)随着di,j的增大而减少,且保证di,j不为0。
本发明所述的基于自注意力卷积神经网络的短文本分类系统,包括:
文本预处理模块,用于对短文本数据集进行预处理;
Word2vec预训练模块,用于获取词的初始特征向量组成的短文本矩阵,对每个标记Token进行训练,得到词向量;
Self-attention模块,用于获取短文本矩阵,对标记Token的上下文信息进行编码,得到词与词之间的相关性;
卷积池化模块,用于根据词向量表示抽取短文本的高级语义特征向量;
分类器模块,用于根据短文本的高级语义特征对文本数据进行分类。
有益效果:与现有技术相比,本发明通过Self-attention机制计算词与词之间的相关性,对词的上下文进行有效地编码,尽量保留了词的高级语义特性,可准确的确定短文本数据的类别,不仅能降低计算的误差,同时提高文本数据分类的准确率。
附图说明
图1是本发明的方法流程图;
图2是实施例结果图。
具体实施方式
下面通过实施例并结合附图对本发明作详细说明。如图1所示,本实施例描述的基于自注意力卷积神经网络的短文本分类方法,包括以下步骤:
1、对短文本数据集进行预处理,包括:借助jieba分词工具对去停用词后的短文本进行分词,并将每个标记Token的One-hot编码作为词的初始特征向量;
2、将词的初始特征向量组成的短文本矩阵输入到Word2vec模型中,对每个标记Token进行训练,得到词向量;
3、采用Word2vec模型对短文本进行词向量训练,每个单词采用步骤2得到的词向量表示并作为神经网络的输入来提取短文本的特征值;
4、通过Self-attention层对每个词的上下文信息进行编码,再经过卷积层,池化层后抽取文本的高级语义特征。具体算法流程如下:
(1)对词xi和词xj的相关性进行量化,公式为:
Figure BDA0002402126070000031
其中,xi和xj分别表示第i个词和第j个词的词向量,di,j=|i-j|+1,表示词xi和词xj的相对位置距离,数字1是防止分母为零的情况;xi和xj分别表示词i和词j的Word2vec向量。
引进衰减因子di,j作为分数函数输出的一种惩罚,减少了噪声信息对句子长度增长的影响。
(2)通过softmax对上述score的值进行归一化,公式为:
ai,j=softmax(score(xi,xj))
(3)获取上下文向量ci,公式为:
ci=∑ai,j·xj
其中,ci表示词xi包含上下文信息的词向量。
Chunk-Max Pooling作为池化层,以尽可能的提取更高效的特征。
例如:“The animal didn’t cross the street because it was too tired.”这句话中的it指的是什么?它指的是animal还是street?对于人来说,这其实是一个简单的问题,但是对于一个算法来说,处理这个问题其实并不容易。Self-attention的出现就是为了解决这个问题。当模型处理单词的时候,Self-attention层可以通过当前单词查看输入序列中的其它单词,以此来寻找编码这个单词更好的线索。通过该步骤,可以得到如图2所示的词相关性的最后结果。从图中可以发现,在编码单词it的时候,注意力集中在animal(0.58)上了,这部分的注意力会通过权重传递的方式影响it的编码。
5、将上述文本的特征向量作为Softmax分类器的输入进行分类识别。
基于上述方法所形成的短文本分类系统,包括:
文本预处理模块,用于对短文本数据集进行预处理;
Word2vec预训练模块,用于获取词的初始特征向量组成的短文本矩阵,对每个标记Token进行训练,得到词向量;
Self-attention模块,用于获取短文本矩阵,对标记Token的上下文信息进行编码,得到词与词之间的相关性;
卷积池化模块,用于根据词向量表示抽取短文本的高级语义特征向量;
分类器模块,用于根据短文本的高级语义特征对文本数据进行分类。

Claims (5)

1.一种基于自注意力卷积神经网络的短文本分类方法,其特征在于,包括以下步骤:
(1)对短文本数据集进行预处理,得到标记Token,并将其One-hot编码作为词的初始特征向量;
(2)将词的初始特征向量组成的短文本矩阵输入到Word2vec模型中,对每个标记Token进行训练,得到词向量;
(3)将短文本矩阵作为Self-attention层的输入,通过Self-attention层对每个标记Token的上下文信息进行编码,经过卷积层、池化层后抽取短文本的高级语义特征向量;
(4)将高级语义特征向量作为Softmax分类器的输入进行文本分类识别,
所述步骤(3)中通过Self-attention层对每个标记Token的上下文信息进行编码,经过卷积层、池化层后抽取短文本的高级语义特征向量的具体算法包括:
(31)对词与词之间的相关性进行量化,计算公式为:
Figure FDA0003758999540000011
其中,xi和xj分别表示第i个词和第j个词的词向量;di,j=|i-j|+1,表示词向量xi和词向量xj的相对位置距离;Wa
Figure FDA0003758999540000012
分别表示Self-attention层的训练权重矩阵和参数向量;
(32)通过Softmax对上述score(xi,xj)的值进行归一化,公式为:
ai,j=softmax(score(xi,xj))
(33)获取每个标记Token的上下文信息的词向量,公式为:
ci=∑ai,j·xj
其中,ci表示词向量xi包含上下文信息的词向量。
2.根据权利要求1所述的基于自注意力卷积神经网络的短文本分类方法,其特征在于,所述步骤(1)中,所述预处理包括:对短文本数据集中的短文本进行分词和去停用词,将得到的每个标记Token的One-hot编码作为词的初始特征向量。
3.根据权利要求1所述的基于自注意力卷积神经网络的短文本分类方法,其特征在于,步骤(3)中,所述池化层选择静态划分Chunk-Max Pooling。
4.根据权利要求1所述的基于自注意力卷积神经网络的短文本分类方法,其特征在于,所述词与词之间的相关性score(xi,xj)随着di,j的增大而减少,且保证di,j不为0。
5.一种基于自注意力卷积神经网络的短文本分类系统,其特征在于,该系统包括:
文本预处理模块,用于对短文本数据集进行预处理;
Word2vec预训练模块,用于获取词的初始特征向量组成的短文本矩阵,对每个标记Token进行训练,得到词向量;
Self-attention模块,用于获取短文本矩阵,对标记Token的上下文信息进行编码,得到词与词之间的相关性;
卷积池化模块,用于根据词向量表示抽取短文本的高级语义特征向量;
通过Self-attention模块对每个标记Token的上下文信息进行编码,经过卷积池化模块抽取短文本的高级语义特征向量的具体算法包括:
(31)对词与词之间的相关性进行量化,计算公式为:
Figure FDA0003758999540000021
其中,xi和xj分别表示第i个词和第j个词的词向量;di,j=|i-j|+1,表示词向量xi和词向量xj的相对位置距离;Wa
Figure FDA0003758999540000022
分别表示Self-attention层的训练权重矩阵和参数向量;
(32)通过Softmax对上述score(xi,xj)的值进行归一化,公式为:
ai,j=softmax(score(xi,xj))
(33)获取每个标记Token的上下文信息的词向量,公式为:
ci=∑ai,j·xj
其中,ci表示词向量xi包含上下文信息的词向量;
分类器模块,用于根据短文本的高级语义特征对文本数据进行分类。
CN202010150086.1A 2020-03-06 2020-03-06 一种基于自注意力卷积神经网络的短文本分类方法及系统 Active CN111460142B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010150086.1A CN111460142B (zh) 2020-03-06 2020-03-06 一种基于自注意力卷积神经网络的短文本分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010150086.1A CN111460142B (zh) 2020-03-06 2020-03-06 一种基于自注意力卷积神经网络的短文本分类方法及系统

Publications (2)

Publication Number Publication Date
CN111460142A CN111460142A (zh) 2020-07-28
CN111460142B true CN111460142B (zh) 2022-09-23

Family

ID=71684197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010150086.1A Active CN111460142B (zh) 2020-03-06 2020-03-06 一种基于自注意力卷积神经网络的短文本分类方法及系统

Country Status (1)

Country Link
CN (1) CN111460142B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784047B (zh) * 2021-01-25 2023-02-28 重庆邮电大学 一种基于自注意力机制的可控可解释司法文本分类方法
CN113313140B (zh) * 2021-04-14 2022-11-01 中国海洋大学 基于深度注意力的三维模型分类和检索方法及装置
CN113987188B (zh) * 2021-11-10 2022-07-08 重庆邮电大学 一种短文本分类方法、装置及电子设备
CN117036714B (zh) * 2023-10-09 2024-02-09 安徽大学 融合混合注意力机制的肠息肉分割方法、系统及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180247A (zh) * 2017-05-19 2017-09-19 中国人民解放军国防科学技术大学 基于选择性注意力卷积神经网络的关系分类器及其方法
CN109948158A (zh) * 2019-03-15 2019-06-28 南京邮电大学 基于环境元嵌入和深度学习的情感倾向性分析方法
CN110298037A (zh) * 2019-06-13 2019-10-01 同济大学 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110825845A (zh) * 2019-10-23 2020-02-21 中南大学 一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180247A (zh) * 2017-05-19 2017-09-19 中国人民解放军国防科学技术大学 基于选择性注意力卷积神经网络的关系分类器及其方法
CN109948158A (zh) * 2019-03-15 2019-06-28 南京邮电大学 基于环境元嵌入和深度学习的情感倾向性分析方法
CN110298037A (zh) * 2019-06-13 2019-10-01 同济大学 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110825845A (zh) * 2019-10-23 2020-02-21 中南大学 一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法

Also Published As

Publication number Publication date
CN111460142A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN111460142B (zh) 一种基于自注意力卷积神经网络的短文本分类方法及系统
CN111476023B (zh) 识别实体关系的方法及装置
CN111897908A (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
CN109992664B (zh) 争议焦点的标注分类方法、装置、计算机设备和存储介质
CN111738004A (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
CN111339750B (zh) 去除停用语并预测句子边界的口语文本处理方法
CN111046670B (zh) 基于毒品案件法律文书的实体及关系联合抽取方法
CN112231472B (zh) 融入领域术语词典的司法舆情敏感信息识别方法
CN113190602B (zh) 融合字词特征与深度学习的事件联合抽取方法
CN113220839B (zh) 一种意图识别方法、电子设备及计算机可读存储介质
CN115599901B (zh) 基于语义提示的机器问答方法、装置、设备及存储介质
CN111984780A (zh) 多意图识别模型训练方法和多意图识别方法及相关装置
CN111930939A (zh) 一种文本检测的方法及装置
CN110210036A (zh) 一种意图识别方法及装置
CN113128203A (zh) 基于注意力机制的关系抽取方法、系统、设备及存储介质
CN112597841B (zh) 一种基于门机制多模态融合的情感分析方法
CN114020906A (zh) 基于孪生神经网络的中文医疗文本信息匹配方法及系统
CN114529903A (zh) 文本细化网络
CN110992943B (zh) 基于词混淆网络的语义理解方法及系统
CN114781375A (zh) 一种基于bert与注意力机制的军事装备关系抽取方法
CN113178189B (zh) 一种信息分类方法及装置、信息分类模型训练方法及装置
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN113297374A (zh) 一种基于bert和字词特征融合的文本分类方法
CN112989839A (zh) 一种基于关键词特征嵌入语言模型的意图识别方法及系统
CN114580422B (zh) 一种结合近邻分析的两阶段分类的命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 210003 Gulou District, Jiangsu, Nanjing new model road, No. 66

Applicant after: NANJING University OF POSTS AND TELECOMMUNICATIONS

Address before: Yuen Road Qixia District of Nanjing City, Jiangsu Province, No. 9 210046

Applicant before: NANJING University OF POSTS AND TELECOMMUNICATIONS

GR01 Patent grant
GR01 Patent grant