CN111460142B - 一种基于自注意力卷积神经网络的短文本分类方法及系统 - Google Patents
一种基于自注意力卷积神经网络的短文本分类方法及系统 Download PDFInfo
- Publication number
- CN111460142B CN111460142B CN202010150086.1A CN202010150086A CN111460142B CN 111460142 B CN111460142 B CN 111460142B CN 202010150086 A CN202010150086 A CN 202010150086A CN 111460142 B CN111460142 B CN 111460142B
- Authority
- CN
- China
- Prior art keywords
- short text
- word
- self
- attention
- token
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于自注意力卷积神经网络的短文本分类方法和系统,该方法包括:首先对短文本数据集进行预处理,得到词的初始特征向量,组成的短文本矩阵输入到Word2vec模型中,从而得到词向量;接着将输入短文本矩阵至Self‑attention层,对每个标记Token的上下文信息进行编码,经过卷积层、池化层后抽取短文本的高级语义特征向量,并输入至Softmax分类器进行文本分类识别;所述系统包括文本预处理模块、Word2vec预训练模块、Self‑attention模块、卷积池化模块、分类器模块。本发明在短文本特征学习模型中融合了自注意力机制,可以有效地突出上下文关键词的作用,使得模型的性能得到了很大的提高,且能够降低计算的误差,提高文本数据分类的准确率。
Description
技术领域
本发明涉及数据处理与人工智能领域,特别涉及一种基于自注意力卷积神经网络的短文本分类方法及系统。
背景技术
语言是人类区别其他动物的本质特性。在所有生物中,只有人类才具有语言能力。人类的多种智能都与语言有着密切的关系。人类的逻辑思维以语言为形式,人类的绝大部分知识也是以语言文字的形式记载和流传下来的。因而,它也是人工智能的一个重要,甚至核心部分。目前在关于卷积神经网络对短文本分类的过程中,由于卷积神经网络是基于N-Gram模式,且分类的性能完全取决于窗口的大小,造成分类过程中不能完全捕获上下文信息,导致语义信息的丢失,且容易出现误差,不利于短文本的快速且准确分类。
发明内容
发明目的:本发明为克服卷积神经网络无法捕获长期上下文信息的缺陷,提出了一种融合自注意力机制的短文本分类方法,解决了目前卷积神经网络在短文本分类中无法获取非连续词之间的相关性的问题。本发明的另一目的是提供基于上述方法的短文本分类系统。
技术方案:本发明所述的基于自注意力卷积神经网络的短文本分类方法,包括以下步骤:
(1)对短文本数据集进行预处理,得到标记Token,并将其One-hot编码作为词的初始特征向量;
(2)将词的初始特征向量组成的短文本矩阵输入到Word2vec模型中,对每个标记Token进行训练,得到词向量;
(3)将短文本矩阵作为Self-attention层的输入,通过Self-attention层对每个标记Token的上下文信息进行编码,经过卷积层、池化层后抽取短文本的高级语义特征向量;
(4)将高级语义特征向量作为Softmax分类器的输入进行文本分类识别。
进一步地,所述步骤(1)中,所述预处理包括:对短文本数据集中的短文本进行分词和去停用词,将得到的每个标记Token的One-hot编码作为词的初始特征向量。
进一步地,所述步骤(3)包括:
(31)对词与词之间的相关性进行量化,计算公式为:
(32)通过Softmax对上述score(xi,xj)的值进行归一化,公式为:
ai,j=softmax(score(xi,xj))
(33)获取每个标记Token的上下文信息的词向量,公式为:
ci=∑ai,j·xj
其中,ci表示词向量xi包含上下文信息的词向量。
优选地,步骤(3)中,所述池化层选择静态划分Chunk-Max Pooling,以尽可能提取更高效的特征。
进一步地,所述词与词之间的相关性score(xi,xj)随着di,j的增大而减少,且保证di,j不为0。
本发明所述的基于自注意力卷积神经网络的短文本分类系统,包括:
文本预处理模块,用于对短文本数据集进行预处理;
Word2vec预训练模块,用于获取词的初始特征向量组成的短文本矩阵,对每个标记Token进行训练,得到词向量;
Self-attention模块,用于获取短文本矩阵,对标记Token的上下文信息进行编码,得到词与词之间的相关性;
卷积池化模块,用于根据词向量表示抽取短文本的高级语义特征向量;
分类器模块,用于根据短文本的高级语义特征对文本数据进行分类。
有益效果:与现有技术相比,本发明通过Self-attention机制计算词与词之间的相关性,对词的上下文进行有效地编码,尽量保留了词的高级语义特性,可准确的确定短文本数据的类别,不仅能降低计算的误差,同时提高文本数据分类的准确率。
附图说明
图1是本发明的方法流程图;
图2是实施例结果图。
具体实施方式
下面通过实施例并结合附图对本发明作详细说明。如图1所示,本实施例描述的基于自注意力卷积神经网络的短文本分类方法,包括以下步骤:
1、对短文本数据集进行预处理,包括:借助jieba分词工具对去停用词后的短文本进行分词,并将每个标记Token的One-hot编码作为词的初始特征向量;
2、将词的初始特征向量组成的短文本矩阵输入到Word2vec模型中,对每个标记Token进行训练,得到词向量;
3、采用Word2vec模型对短文本进行词向量训练,每个单词采用步骤2得到的词向量表示并作为神经网络的输入来提取短文本的特征值;
4、通过Self-attention层对每个词的上下文信息进行编码,再经过卷积层,池化层后抽取文本的高级语义特征。具体算法流程如下:
(1)对词xi和词xj的相关性进行量化,公式为:
其中,xi和xj分别表示第i个词和第j个词的词向量,di,j=|i-j|+1,表示词xi和词xj的相对位置距离,数字1是防止分母为零的情况;xi和xj分别表示词i和词j的Word2vec向量。
引进衰减因子di,j作为分数函数输出的一种惩罚,减少了噪声信息对句子长度增长的影响。
(2)通过softmax对上述score的值进行归一化,公式为:
ai,j=softmax(score(xi,xj))
(3)获取上下文向量ci,公式为:
ci=∑ai,j·xj
其中,ci表示词xi包含上下文信息的词向量。
Chunk-Max Pooling作为池化层,以尽可能的提取更高效的特征。
例如:“The animal didn’t cross the street because it was too tired.”这句话中的it指的是什么?它指的是animal还是street?对于人来说,这其实是一个简单的问题,但是对于一个算法来说,处理这个问题其实并不容易。Self-attention的出现就是为了解决这个问题。当模型处理单词的时候,Self-attention层可以通过当前单词查看输入序列中的其它单词,以此来寻找编码这个单词更好的线索。通过该步骤,可以得到如图2所示的词相关性的最后结果。从图中可以发现,在编码单词it的时候,注意力集中在animal(0.58)上了,这部分的注意力会通过权重传递的方式影响it的编码。
5、将上述文本的特征向量作为Softmax分类器的输入进行分类识别。
基于上述方法所形成的短文本分类系统,包括:
文本预处理模块,用于对短文本数据集进行预处理;
Word2vec预训练模块,用于获取词的初始特征向量组成的短文本矩阵,对每个标记Token进行训练,得到词向量;
Self-attention模块,用于获取短文本矩阵,对标记Token的上下文信息进行编码,得到词与词之间的相关性;
卷积池化模块,用于根据词向量表示抽取短文本的高级语义特征向量;
分类器模块,用于根据短文本的高级语义特征对文本数据进行分类。
Claims (5)
1.一种基于自注意力卷积神经网络的短文本分类方法,其特征在于,包括以下步骤:
(1)对短文本数据集进行预处理,得到标记Token,并将其One-hot编码作为词的初始特征向量;
(2)将词的初始特征向量组成的短文本矩阵输入到Word2vec模型中,对每个标记Token进行训练,得到词向量;
(3)将短文本矩阵作为Self-attention层的输入,通过Self-attention层对每个标记Token的上下文信息进行编码,经过卷积层、池化层后抽取短文本的高级语义特征向量;
(4)将高级语义特征向量作为Softmax分类器的输入进行文本分类识别,
所述步骤(3)中通过Self-attention层对每个标记Token的上下文信息进行编码,经过卷积层、池化层后抽取短文本的高级语义特征向量的具体算法包括:
(31)对词与词之间的相关性进行量化,计算公式为:
(32)通过Softmax对上述score(xi,xj)的值进行归一化,公式为:
ai,j=softmax(score(xi,xj))
(33)获取每个标记Token的上下文信息的词向量,公式为:
ci=∑ai,j·xj
其中,ci表示词向量xi包含上下文信息的词向量。
2.根据权利要求1所述的基于自注意力卷积神经网络的短文本分类方法,其特征在于,所述步骤(1)中,所述预处理包括:对短文本数据集中的短文本进行分词和去停用词,将得到的每个标记Token的One-hot编码作为词的初始特征向量。
3.根据权利要求1所述的基于自注意力卷积神经网络的短文本分类方法,其特征在于,步骤(3)中,所述池化层选择静态划分Chunk-Max Pooling。
4.根据权利要求1所述的基于自注意力卷积神经网络的短文本分类方法,其特征在于,所述词与词之间的相关性score(xi,xj)随着di,j的增大而减少,且保证di,j不为0。
5.一种基于自注意力卷积神经网络的短文本分类系统,其特征在于,该系统包括:
文本预处理模块,用于对短文本数据集进行预处理;
Word2vec预训练模块,用于获取词的初始特征向量组成的短文本矩阵,对每个标记Token进行训练,得到词向量;
Self-attention模块,用于获取短文本矩阵,对标记Token的上下文信息进行编码,得到词与词之间的相关性;
卷积池化模块,用于根据词向量表示抽取短文本的高级语义特征向量;
通过Self-attention模块对每个标记Token的上下文信息进行编码,经过卷积池化模块抽取短文本的高级语义特征向量的具体算法包括:
(31)对词与词之间的相关性进行量化,计算公式为:
(32)通过Softmax对上述score(xi,xj)的值进行归一化,公式为:
ai,j=softmax(score(xi,xj))
(33)获取每个标记Token的上下文信息的词向量,公式为:
ci=∑ai,j·xj
其中,ci表示词向量xi包含上下文信息的词向量;
分类器模块,用于根据短文本的高级语义特征对文本数据进行分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010150086.1A CN111460142B (zh) | 2020-03-06 | 2020-03-06 | 一种基于自注意力卷积神经网络的短文本分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010150086.1A CN111460142B (zh) | 2020-03-06 | 2020-03-06 | 一种基于自注意力卷积神经网络的短文本分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111460142A CN111460142A (zh) | 2020-07-28 |
CN111460142B true CN111460142B (zh) | 2022-09-23 |
Family
ID=71684197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010150086.1A Active CN111460142B (zh) | 2020-03-06 | 2020-03-06 | 一种基于自注意力卷积神经网络的短文本分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111460142B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784047B (zh) * | 2021-01-25 | 2023-02-28 | 重庆邮电大学 | 一种基于自注意力机制的可控可解释司法文本分类方法 |
CN113313140B (zh) * | 2021-04-14 | 2022-11-01 | 中国海洋大学 | 基于深度注意力的三维模型分类和检索方法及装置 |
CN113987188B (zh) * | 2021-11-10 | 2022-07-08 | 重庆邮电大学 | 一种短文本分类方法、装置及电子设备 |
CN117036714B (zh) * | 2023-10-09 | 2024-02-09 | 安徽大学 | 融合混合注意力机制的肠息肉分割方法、系统及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107180247A (zh) * | 2017-05-19 | 2017-09-19 | 中国人民解放军国防科学技术大学 | 基于选择性注意力卷积神经网络的关系分类器及其方法 |
CN109948158A (zh) * | 2019-03-15 | 2019-06-28 | 南京邮电大学 | 基于环境元嵌入和深度学习的情感倾向性分析方法 |
CN110298037A (zh) * | 2019-06-13 | 2019-10-01 | 同济大学 | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 |
CN110825845A (zh) * | 2019-10-23 | 2020-02-21 | 中南大学 | 一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法 |
-
2020
- 2020-03-06 CN CN202010150086.1A patent/CN111460142B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107180247A (zh) * | 2017-05-19 | 2017-09-19 | 中国人民解放军国防科学技术大学 | 基于选择性注意力卷积神经网络的关系分类器及其方法 |
CN109948158A (zh) * | 2019-03-15 | 2019-06-28 | 南京邮电大学 | 基于环境元嵌入和深度学习的情感倾向性分析方法 |
CN110298037A (zh) * | 2019-06-13 | 2019-10-01 | 同济大学 | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 |
CN110825845A (zh) * | 2019-10-23 | 2020-02-21 | 中南大学 | 一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111460142A (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111460142B (zh) | 一种基于自注意力卷积神经网络的短文本分类方法及系统 | |
CN111476023B (zh) | 识别实体关系的方法及装置 | |
CN111897908A (zh) | 融合依存信息和预训练语言模型的事件抽取方法及系统 | |
CN109992664B (zh) | 争议焦点的标注分类方法、装置、计算机设备和存储介质 | |
CN111738004A (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
CN111339750B (zh) | 去除停用语并预测句子边界的口语文本处理方法 | |
CN111046670B (zh) | 基于毒品案件法律文书的实体及关系联合抽取方法 | |
CN112231472B (zh) | 融入领域术语词典的司法舆情敏感信息识别方法 | |
CN113190602B (zh) | 融合字词特征与深度学习的事件联合抽取方法 | |
CN113220839B (zh) | 一种意图识别方法、电子设备及计算机可读存储介质 | |
CN115599901B (zh) | 基于语义提示的机器问答方法、装置、设备及存储介质 | |
CN111984780A (zh) | 多意图识别模型训练方法和多意图识别方法及相关装置 | |
CN111930939A (zh) | 一种文本检测的方法及装置 | |
CN110210036A (zh) | 一种意图识别方法及装置 | |
CN113128203A (zh) | 基于注意力机制的关系抽取方法、系统、设备及存储介质 | |
CN112597841B (zh) | 一种基于门机制多模态融合的情感分析方法 | |
CN114020906A (zh) | 基于孪生神经网络的中文医疗文本信息匹配方法及系统 | |
CN114529903A (zh) | 文本细化网络 | |
CN110992943B (zh) | 基于词混淆网络的语义理解方法及系统 | |
CN114781375A (zh) | 一种基于bert与注意力机制的军事装备关系抽取方法 | |
CN113178189B (zh) | 一种信息分类方法及装置、信息分类模型训练方法及装置 | |
CN111145914A (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN113297374A (zh) | 一种基于bert和字词特征融合的文本分类方法 | |
CN112989839A (zh) | 一种基于关键词特征嵌入语言模型的意图识别方法及系统 | |
CN114580422B (zh) | 一种结合近邻分析的两阶段分类的命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 210003 Gulou District, Jiangsu, Nanjing new model road, No. 66 Applicant after: NANJING University OF POSTS AND TELECOMMUNICATIONS Address before: Yuen Road Qixia District of Nanjing City, Jiangsu Province, No. 9 210046 Applicant before: NANJING University OF POSTS AND TELECOMMUNICATIONS |
|
GR01 | Patent grant | ||
GR01 | Patent grant |