CN111061873A - 一种基于Attention机制的多通道的文本分类方法 - Google Patents
一种基于Attention机制的多通道的文本分类方法 Download PDFInfo
- Publication number
- CN111061873A CN111061873A CN201911191475.2A CN201911191475A CN111061873A CN 111061873 A CN111061873 A CN 111061873A CN 201911191475 A CN201911191475 A CN 201911191475A CN 111061873 A CN111061873 A CN 111061873A
- Authority
- CN
- China
- Prior art keywords
- word
- sentence
- vector
- channel
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于Attention机制的多通道的文本分类方法,首先将由固定的预训练词向量和随机初始化的词向量构建的句子嵌入矩阵分别作为一个文本通道,其次在每层通道上单独引入Attention机制为每个词创建上下文向量,然后将上下文向量和词向量进行拼接,从而得到多通道的句子嵌入矩阵。最后使用不同尺寸的卷积核对多通道的句子嵌入矩阵在多个通道上进行卷积操作,得到卷积后的文本特征向量,再使用最大池化层从特征向量中提取文本主要特征,最后经过Softmax层输出所属类别的概率分布,从而构建基于Attention机制的多通道的文本分类模型。提高了模型的泛化能力和训练速度,解决了非连续词之间相关性的问题。
Description
技术领域
本发明属于信息处理技术领域,是一种基于Attention机制的多通道的文本分类方法。
背景技术
随着互联网在社会中的大规模应用,网络上的信息资源呈现爆炸式的增长。在各种形式的信息中,非结构化的文本信息仍然是十分重要的信息资源之一。而文本自动分类能更好的帮助人们快速准确的获取信息,从而极大地提高信息的利用率。文本自动分类就是在给定的分类模型下,由计算机根据文本内容自动判别文本类别的过程,作为一项具有较大实用价值的关键技术,文本分类有着广泛的商业前景和应用价值。
随着深度学习技术的发展,各种词嵌入模型可以将词映射为低维稠密的向量,从而把对文本内容的处理简化为向量空间中的向量运算,并且以空间上的相似度表达语义的相似度,利用卷积神经网络可以提取文本特征,从而实现文本分类任务,对于单层文本通道的卷积过程虽然参数少,易于训练,但收敛速度慢,精度不高。而多通道的文本将不同的词向量表示引入不同的通道中,一方面可以丰富词的语义;另一方面卷积核可以从双层文本通道中提取更多的文本特征,已有实验验证了该方法一定程度上可以提高模型的泛化能力。对于单通道的文本卷积而言,虽然双通道文本卷积过程克服了其收敛速度慢、语义表征能力不足的缺陷,但是却难以捕获长期的上下文信息和非连续词之间的相关性。Attention机制是一种根据某些规则或者某些额外信息从向量表达集合中抽取特定的向量进行加权组合的方法,通过对不同词向量赋予不同的权重来加强对某些重要词的关注程度。
发明内容
针对以上问题,本发明将Attention机制分别嵌入不同通道进行文本卷积提取特征,提出了一种基于Attention机制的多通道的文本分类方法,来缓解模型中难以捕获长期的上下文信息和非连续词相关性以及模型过拟合的问题。该方法首先将由固定的预训练词向量和随机初始化的词向量构建的句子嵌入矩阵分别作为一个文本通道,在每层通道上单独引入Attention机制为每个词创建上下文向量,再将上下文向量和词向量进行拼接,从而得到多通道的句子嵌入矩阵。然后在多个通道上使用不同尺寸的卷积核,对多通道的句子嵌入矩阵进行卷积操作,得到卷积后的文本特征向量,再使用最大池化层从特征向量中提取文本主要特征,最后经过Softmax层输出所属类别的概率分布,从而构建基于Attention机制的多通道的文本分类模型。
为实现上述目的,本发明采用如下的技术方案
一种基于Attention机制的多通道的文本分类方法,包括以下步骤:
步骤1文本预处理
1.1文本分词
利用分词工具对中文文本进行分词处理,构建预处理后语料库。
1.2构建词库
首先去除停用词,即在文本中出现频率很高,但没有实际意义的词,包括语气助词、副词、介词及无用符号等。然后保留词频大于阈值θ的词构成词库,同时在词库中插入字符串“UNK”和“PAD”,其中“UNK”表示不能识别的词,“PAD”表示为模型输入中固定句子长度需要填充的词。
步骤2词向量构建
利用word2vec技术,对预处理后的语料进行词向量的训练,词向量的维度设置为d,得到预训练词向量表。对词库中的每一个词,若该词在预训练词向量表存在,则使用表中词向量作为该词的词向量,若该词在预训练词向量表中不存在,则使用正态分布随机初始化向量作为该词的词向量。
步骤3模型构建
3.1词向量的初始化
首先对于预处理后语料库中每个句子,用词向量替换句子中的每个词,构建句子的词向量表示。以词的数目表示句子长度,设置句子固定长度为l,对于大于句长l的句子截断,小于句长l的句子用“PAD”填充。
然后利用预训练词向量创建的句子词向量嵌入矩阵A∈Rl×d,构建第1通道,表示如下:
A=[x1,x2,…,xi,…,xl]T(1≤i≤l)
其中xi对应句子中第i个词的d维向量,l为句子的固定长度。
利用均匀分布随机初始化的词向量创建的句子词向量嵌入矩阵B∈Rl×d,构建第2通道,表示如下:
B=[y1,y2,…,yi,…,yl]T(1≤i≤l)
其中yi对应句子中第i个词的d维向量,l为句子的固定长度。
将词向量嵌入矩阵A和B在深度方向上进行拼接,得到句子的双通道词向量嵌入矩阵C∈R2×l×d表示如下:
3.2引入Attention层
首先在第1和第2通道上引入Attention机制,将通道上的当前词向量重新编码,以此来表示该词的上下文向量。该机制通过赋予词向量不同的权重值,将注意力集中在对当前词影响较大的重要词上。
通道1的词向量xi(1≤i≤l)的上下文向量ui表示如下:
其中l为句子固定长度,score(xi,xj)是词向量xi和xj(i≠j)的相似性得分,表示如下:
然后将词向量和其对应的上下文向量拼接为扩展词向量,更新到嵌入矩阵中,词向量xi的扩展词向量Xi表示如下:
基于同样方法,计算得到通道2的词向量yi(1≤i≤l)的上下文向量vi,yi的扩展词向量Yi。
3.3文本特征抽取和类别输出
双通道词嵌入矩阵C∈R2×l×d经过Attention机制对词向量的重新编码后,更新后的嵌入矩阵变为D∈R2×l×2d,表示如下:
然后使用窗口大小为h,深度为2的多个卷积核在双通道嵌入矩阵上进行滑动卷积操作,得到卷积核提取的特征图,再对特征图进行最大池化操作,将池化得到的主要特征展开成特征向量ξ,以ξ作为全连接层的输入,经过全连接层和Softmax层得到文本所属类别的概率分布。
有益效果
(1)本发明将固定的预训练词向量和随机初始化的词向量作为不同的通道嵌入词向量矩阵,其中随机初始化的词向量矩阵参与模型的训练,不断进行微调,来达到特征提取后信息的综合,有效的提高了模型的训练速度和预测精度。
(2)该发明在模型的多通道输入层和卷积层之间引入了Attention层,对句子中的词赋予不同的权重,重新定义当前词的语义表示,可以有效缓解一般卷积神经网络无法捕获非连续词之间相关性的问题。
附图说明
图1Attention+Multichannel层结构示意图
图2卷积层结构示意图
图3网络模型学习曲线图
具体实施方式
对本发明的具体实施方式作进一步的详细描述,以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明以THUCNews新闻文本分类数据集的子集作为模型的训练语料,以此来验证该模型的有效性。具体实施步骤如下:
步骤1文本预处理
1.1文本分词
以THUCNews新闻文本分类数据集的子集为例,该数据集包含体育、娱乐、家居、房产、教育、时尚、时政、游戏、科技和财经10类新闻,共65000条新闻样本,利用jieba分词工具对中文文本进行分词处理,构建预处理后语料库。
1.2构建词库
首先去除在预处理后语料库中出现频率很高,但没有太大实际意义的词,主要包括语气助词、副词、介词及无用符号等。其次,以词作为文本的最小粒度,统计词出现的频率,将词频大于5的词作为候选词,构建词库。同时在词库中插入“UNK”和“PAD”,其中“UNK”表示不能识别的词,即未出现在词库中的词统一用“UNK”表示,“PAD”表示为固定句子长度需要填充的词。
步骤2:词向量构建
利用word2vec技术,对预处理后的语料进行词向量的训练,该技术将词映射为低维的、稠密的词嵌入向量表示,使得词向量之间的几何关系可以表示这些词之间的语义关系。将词向量的嵌入维度设置为d=100,得到预训练词向量表。对词库中的每一个词,若该词在预训练词向量表存在,则使用表中词向量作为该词的词向量,若该词在预训练词向量表中不存在,则该词的词向量使用标准正态分布随机初始化。
步骤3:模型的构建
3.1词向量的初始化
首先设置固定句子长度l为512,然后将预处理后语料库中每个长短不一的句子进行截取或填充,具体操作为大于句长l的部分截断,小于句长l的句子用“PAD”填充。
然后利用预训练词向量创建句子词向量嵌入矩阵,构建第1通道,句子词向量嵌入矩阵A∈R512×100表示如下:
利用均匀分布随机初始化的词向量创建句子词向量嵌入矩阵,构建第2通道,句子词向量嵌入矩阵B∈R512×100表示如下:
将词向量嵌入矩阵A∈R512×100和B∈R512×100在深度方向上拼接,得到句子的双通道词向量嵌入矩阵C∈R2×512×100表示如下:
3.2引入Attention层
首先在第1和第2通道上引入Attention机制,将通道上的当前词向量重新编码,以此来表示该词的上下文向量。该机制通过赋予词向量不同的权重值,将注意力集中在对当前词影响较大的重要词上。
通道1的词向量xi(1≤i≤512)的上下文向量ui表示如下:
其中score(xi,xj)是词向量xi和xj(i≠j)的相似性得分,表示如下:
然后将词向量xi(1≤i≤512)和其对应的上下文向量ui拼接为扩展词向量,更新到句子的词向量嵌入矩阵中,词向量xi的扩展词向量Xi表示如下:
基于同样方法,计算得到通道2的词向量yi(1≤i≤512)的上下文向量vi,yi的扩展词向量Yi。
3.3文本特征抽取和类别输出
双通道词嵌入矩阵C∈R2×512×100经过Attention机制对词向量的重新编码后,更新后的嵌入矩阵变为D∈R2×512×200,表示如下:
该实验中通过使用深度为2,且具有不同窗口大小h的多个卷积核在双通道嵌入矩阵上进行滑动卷积操作来提取文本局部特征。实验中窗口大小h取值为2,3,4,5,步长设为1,卷积核的数量为128个,通过卷积操作得到相应的特征图,然后经过最大池化操作,将池化得到的主要特征展开成特征向量ξ,以ξ作为全连接层的输入,最后经过全连接层和Softmax层得到文本所属类别的概率分布。
步骤4实验分析
实验结果如下表1所示:
表1不同模型在测试数据集上的各评估指标值
由上表可知,本专利提出的模型CNN-multichannel-attention在文本分类任务上各评估指标优于模型CNN-rand和CNN-multichannel。
Claims (2)
1.一种基于Attention机制的多通道的文本分类方法,包括以下步骤:
步骤1文本预处理
1.1文本分词,构建预处理后语料库;
1.2构建词库,所述的词库由去除停用词后且词频大于阈值θ的词构成;
步骤2词向量构建
利用word2vec技术,对预处理后的语料进行词向量的训练,词向量的维度设置为d,得到预训练词向量表,对词库中的每一个词,若该词在预训练词向量表存在,则使用表中词向量作为该词的词向量,若该词在预训练词向量表中不存在,则使用正态分布随机初始化向量作为该词的词向量;
步骤3模型构建
3.1词向量的初始化
首先对于预处理后语料库中每个句子,用词向量替换句子中的每个词,构建句子的词向量表示;
然后利用预训练词向量创建的句子词向量嵌入矩阵A∈Rl×d,构建第1通道,表示如下:
A=[x1,x2,…,xi,…,xl]T(1≤i≤l)
其中xi对应句子中第i个词的d维向量,l为句子的固定长度;
利用均匀分布随机初始化的词向量创建的句子词向量嵌入矩阵B∈Rl×d,构建第2通道,表示如下:
B=[y1,y2,…,yi,…,yl]T(1≤i≤l)
其中yi对应句子中第i个词的d维向量,l为句子的固定长度;
将词向量嵌入矩阵A和B在深度方向上进行拼接,得到句子的双通道词向量嵌入矩阵C∈R2×l×d表示如下:
3.2引入Attention层
首先在第1和第2通道上引入Attention机制,将通道上的当前词向量重新编码,通道1的词向量xi(1≤i≤l)的上下文向量ui表示如下:
其中l为句子固定长度,score(xi,xj)是词向量xi和xj(i≠j)的相似性得分,表示如下:
然后将词向量和其对应的上下文向量拼接为扩展词向量,更新到嵌入矩阵中,其中,词向量xi的扩展词向量Xi表示如下:
基于同样方法,计算得到通道2的词向量yi(1≤i≤l)的上下文向量vi,yi的扩展词向量Yi;
3.3文本特征抽取和类别输出
双通道词嵌入矩阵C∈R2×l×d经过Attention机制对词向量的重新编码后,更新后的嵌入矩阵变为D∈R2×l×2d,表示如下:
2.根据权利要求1所述的一种基于Attention机制的多通道的文本分类方法,其特征在于:
所述步骤3.1中构建句子的词向量表示具体为:以词的数目表示句子长度,设置句子固定长度为l,对于大于句长l的句子截断,小于句长l的句子用“PAD”填充。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911191475.2A CN111061873B (zh) | 2019-11-28 | 2019-11-28 | 一种基于Attention机制的多通道的文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911191475.2A CN111061873B (zh) | 2019-11-28 | 2019-11-28 | 一种基于Attention机制的多通道的文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111061873A true CN111061873A (zh) | 2020-04-24 |
CN111061873B CN111061873B (zh) | 2022-03-15 |
Family
ID=70299094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911191475.2A Active CN111061873B (zh) | 2019-11-28 | 2019-11-28 | 一种基于Attention机制的多通道的文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111061873B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401063A (zh) * | 2020-06-03 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 一种基于多池化网络的文本处理方法、装置和相关设备 |
CN112613295A (zh) * | 2020-12-21 | 2021-04-06 | 竹间智能科技(上海)有限公司 | 语料识别方法及装置、电子设备、存储介质 |
CN112651224A (zh) * | 2020-12-24 | 2021-04-13 | 天津大学 | 工程施工安全管理文档文本智能检索方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446271A (zh) * | 2018-03-07 | 2018-08-24 | 中山大学 | 基于汉字部件特征的卷积神经网络的文本情感分析方法 |
CN109299268A (zh) * | 2018-10-24 | 2019-02-01 | 河南理工大学 | 一种基于双通道模型的文本情感分析方法 |
CN109857860A (zh) * | 2019-01-04 | 2019-06-07 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
-
2019
- 2019-11-28 CN CN201911191475.2A patent/CN111061873B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446271A (zh) * | 2018-03-07 | 2018-08-24 | 中山大学 | 基于汉字部件特征的卷积神经网络的文本情感分析方法 |
CN109299268A (zh) * | 2018-10-24 | 2019-02-01 | 河南理工大学 | 一种基于双通道模型的文本情感分析方法 |
CN109857860A (zh) * | 2019-01-04 | 2019-06-07 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
Non-Patent Citations (5)
Title |
---|
BAO GUO.ETC: "Improving text classification with weighted word embeddings via a multi-channel TextCNN model", 《NEUROCOMPUTING》 * |
KAILI SUN.ETC: "Multi-Channel CNN Based Inner-Attention for Compound Sentence Relation Classification", 《IEEE ACCESS (VOLUME:7)》 * |
WENFA LI.ETC: "Stance Detection of Microblog Text Based on Two-Channel CNN-GRU Fusion Network", 《IEEE ACCESS》 * |
康雁等: "基于双通道词向量的卷积胶囊网络文本分类", 《计算机工程》 * |
张小川等: "一种基于双通道卷积神经网络的短文本分类方法", 《重庆理工大学学报( 自然科学)》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401063A (zh) * | 2020-06-03 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 一种基于多池化网络的文本处理方法、装置和相关设备 |
CN111401063B (zh) * | 2020-06-03 | 2020-09-11 | 腾讯科技(深圳)有限公司 | 一种基于多池化网络的文本处理方法、装置和相关设备 |
CN112613295A (zh) * | 2020-12-21 | 2021-04-06 | 竹间智能科技(上海)有限公司 | 语料识别方法及装置、电子设备、存储介质 |
CN112613295B (zh) * | 2020-12-21 | 2023-12-22 | 竹间智能科技(上海)有限公司 | 语料识别方法及装置、电子设备、存储介质 |
CN112651224A (zh) * | 2020-12-24 | 2021-04-13 | 天津大学 | 工程施工安全管理文档文本智能检索方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111061873B (zh) | 2022-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107766324B (zh) | 一种基于深度神经网络的文本一致性分析方法 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN110717332B (zh) | 基于非对称孪生网络的新闻与案件相似度计算方法 | |
CN108984526A (zh) | 一种基于深度学习的文档主题向量抽取方法 | |
CN107895000B (zh) | 一种基于卷积神经网络的跨领域语义信息检索方法 | |
CN111061873B (zh) | 一种基于Attention机制的多通道的文本分类方法 | |
CN106598940A (zh) | 基于全局优化关键词质量的文本相似度求解算法 | |
CN111061861B (zh) | 一种基于XLNet的文本摘要自动生成方法 | |
CN109885670A (zh) | 一种面向话题文本的交互注意力编码情感分析方法 | |
CN110569405A (zh) | 一种基于bert的政务公文本体概念抽取方法 | |
CN109271524B (zh) | 知识库问答系统中的实体链接方法 | |
CN111581967B (zh) | 一种联合LW2V与Triplet网络的新闻主题事件检测方法 | |
CN108108468A (zh) | 一种基于概念和文本情感的短文本情感分析方法和装置 | |
CN110222338B (zh) | 一种机构名实体识别方法 | |
CN112115716A (zh) | 一种基于多维词向量下文本匹配的服务发现方法、系统及设备 | |
EP4060548A1 (en) | Method and device for presenting prompt information and storage medium | |
CN114969304A (zh) | 基于要素图注意力的案件舆情多文档生成式摘要方法 | |
CN115146629A (zh) | 一种基于对比学习的新闻文本与评论相关性分析方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN110728144B (zh) | 一种基于上下文语义感知的抽取式文档自动摘要方法 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN106610949A (zh) | 一种基于语义分析的文本特征提取方法 | |
CN111563373A (zh) | 聚焦属性相关文本的属性级情感分类方法 | |
CN114298055A (zh) | 基于多级语义匹配的检索方法、装置、计算机设备和存储介质 | |
CN114398900A (zh) | 一种基于RoBERTa模型的长文本语义相似度计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |