CN109241283B - 一种基于多角度胶囊网络的文本分类方法 - Google Patents

一种基于多角度胶囊网络的文本分类方法 Download PDF

Info

Publication number
CN109241283B
CN109241283B CN201810898983.3A CN201810898983A CN109241283B CN 109241283 B CN109241283 B CN 109241283B CN 201810898983 A CN201810898983 A CN 201810898983A CN 109241283 B CN109241283 B CN 109241283B
Authority
CN
China
Prior art keywords
text
vector
feature
layer
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810898983.3A
Other languages
English (en)
Other versions
CN109241283A (zh
Inventor
肖明
左彬靖
冯文超
郭瑞祥
杜成喜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201810898983.3A priority Critical patent/CN109241283B/zh
Publication of CN109241283A publication Critical patent/CN109241283A/zh
Application granted granted Critical
Publication of CN109241283B publication Critical patent/CN109241283B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于多角度胶囊网络的文本分类方法,首先利用中文的特性,将中文文本分为中文和拼音两种不同的输入方式,并且分别训练字符级别的词向量,利用注意力模型赋予两种词向量不同的权重,形成文本特征向量对文本的语义扩展,然后用卷积神经网络提取三个定长的文本语义向量特征,之后通过胶囊网络提取卷积神经网络的特征表示,不仅提取文本的局部特征,还能联系各局部特征的相对空间位置和语境信息。使文本的语义信息更加的丰富,语义特征向量化的表示得到进一步增强。

Description

一种基于多角度胶囊网络的文本分类方法
技术领域
本发明涉及文本挖掘和深度学习领域,更具体地,涉及一种基于多角度胶囊网络的文本分类方法。
背景技术
随着互联网时代的发展,许多社交软件或电商软件中用户评论数据所表达的意向十分重要,如何从海量的、非结构化的海量的评论数据中提取出有用的信息已经成为一种越来越迫切的需求,因此一种高效的中文短文本分类方法可以在文本抽取更丰富的语义信息,从而对自己的产品或者工作上的改进产生良好的指导作用。
短文本自动分类是文本挖掘领域一个重要的子问题,目前主流的深度学习文本分类方法主要分为:基于卷积神经网络的方法,基于递归神经网络的方法,基于带注意力机制的双向长短时记忆模型的方法,基于卷积神经网络和循环神经网络的方法等方法。
和本发明最接近的是基于卷积神经网络的方法,它利用卷积神经网络的卷积核提取文本词向量的局部特征,利用池化层对卷积层最突出的特征做二次提取,之后经过softmax层得到分类关系。
发明内容
本发明的目的是解决上述一个或多个缺陷,提出一种基于多角度胶囊网络的文本分类方法。
为实现以上发明目的,采用的技术方案是:
一种基于多角度胶囊网络的文本分类方法,包括以下步骤:
S1:将输入的短文本数据转化成中文文本和英文文本,分别对文本的每一个字或每一个拼音的字母分别用word2vec进行训练,作为文本的初始化字向量;
S2:将中文的字向量和拼音的字向量连接起来,通过注意力模型,使得每个字向量分别带有不同的权重,根据权重代表该字在文本中的重要程度,然后生成新的文本的特征表示;
S3:使用多个不同宽度的卷积核分别对所述短文本的特征映射进行二维卷积运算,并生成多个局部特征卷积矩阵;
S4:通过多个胶囊网络,使用动态路由机制对多个局部特征卷积矩阵进行特征全局提取,保存为全局的语义向量;
S5:在全连接层将短文本的语义特征向量赋予分类器,对短文本的类别进行预测。
优选的是,步骤S1所述文本的初始化字向量为通过运用查表的方式进行获取。
优选的是,步骤S2所述中文的字向量和拼音的字向量通过下面三式计算出新的短文本的特征表示:
ui=tanh(Wω[ci;pi]+bω) 式(1)
Figure BDA0001758907230000021
Figure BDA0001758907230000022
其中ci为从中文文本中获得的字向量,pi为拼音中的字向量,wω和uω是可训练的参数矩阵,s是Attention层的输出向量。
优选的是,在步骤3中,假设卷积核的宽度为d,高度为h的矩阵ω,对于步骤2输出的特征矩阵A∈Rsxd,那么卷积的操作可以用如下公式表示:
oi=ω·A[i:i+h-1],i=1,2,...,s-h+1 式(4)
ui=f(oi+b) 式(5)
其中,s表示中文和拼音字符的个数,d表示词向量的维度,f是Relu激活函数。
优选的是,所述步骤4中,卷积层输出的特征矩阵为ui,胶囊网络对卷积层的特征矩阵的信息提取的步骤如下:
S4.1:对ui特征矩阵做一维卷积操作,将其调整成适用于CapsNet的向量神经元层;
S4.2:运用动态路由的方法对向量神经元层进行映射操作,用矢量输出胶囊取代了输出映射检测器。用向量模的大小衡量某个类出现的概率,模值越大,概率越大;具体公式如下:
Figure BDA0001758907230000031
Figure BDA0001758907230000032
Figure BDA0001758907230000033
Figure BDA0001758907230000034
其中,ui是上一层网络的输出,W,b是要更新的参数矩阵,cij是耦合系数,s是这一层的胶囊网络的输出,v是这一层胶囊网络的输出。
优选的是,在步骤5中,全连接层将胶囊网络的输出用softmax表达书输出,得到每一个类别的分数并分类。
与现有技术相比,本发明的有益效果是:
1)本发明提出了一个中文拼音结合注意力机制的词向量特征表示,可以更好地结合文本的语义,对短文本中的错别字也能够正确识别。提升分类的正确率;
2)本发明提出一种基于多角度胶囊网络的分类器,结合胶囊网络的优点,使得胶囊网络不仅包含文本的分类的类别,还结合文本中的句义和词义,位置关系等信息,让分类器更好地料理解文本当时的环境信息,最终提高分类的效果。
附图说明
图1为本发明的流程图;
图2为本发明所述步骤S2流程图;
图3为本发明所述步骤S4流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
一种基于多角度胶囊网络的文本分类方法,参照图1,本分类器包括5层结构,第一层是中文短文本数据的中文字向量和拼音字向量的训练,第二层是注意力层,将两种字向量结合起来,形成新的文本表示,第三层是卷积神经网络层,第四层是胶囊网络层,第五层是全连接层。所述神经网络分类器的训练按照如下方式进行。
第一步:设定中文字向量的维度为200维,拼音字向量的维度为100维,由于CNN只能处理定长输入,因此在输入之前将中文文本截取前100个字,拼音文本截取前300个字符,不到100(300)个字的用0填充,在字向量编码层中,每个字通过字向量矩阵转换为低维向量。
例如:如图2所示流程,已知一个句子D包含n个词,将句子分为中文和拼音字符,长度分别为100和300,表示为x=[x1,x2,...xn],n为中文和拼音的长度,每个字xi通过查找字向量表W获得其对应的字向量表示,即ei=Wxi,本实例中使用谷歌开源工具word2vec对文本数据进行预训练得到字向量表。
第二步:从字向量层提取中文文本的特征表示c=[c1,c2,...c200]和拼音的文本特征表示p=[p1,p2,...p100],构件成一个级联的词向量xi=[ci:pi],利用注意力机制,对每一个字向量分配相应的权重,计算公式为:
Figure BDA0001758907230000041
其中,uw是可训练的向量矩阵,ui是激活后的词向量的特征表示,其公式为:ui=tanh(Wω[ci;pi]+bω),其中W和b是可训练的向量矩阵,αi是响应的权重。最后按照公式
Figure BDA0001758907230000042
得到最终的映射矩阵。
第三步:得到PM映射矩阵后,对短文本中的候选语义单元进行检测,多尺度候选语义单元ui的一维卷积运算的具体公式为
Figure BDA0001758907230000043
其中,Ewin是采用的核矩阵,所有核矩阵中Ewin的权值为1,ui是短文本中的第i个候选单元,l-w+1是候选单元的数量,w是核矩阵的宽度,l是短文本的长度。
第四步:如图3所示流程,用一个胶囊的输出向量的长度表示胶囊所代表的实体在当前的输入中所存在的概率,用一个函数来确保向量的长度在0-1之间,其计算公式为:
Figure BDA0001758907230000044
其中vj是胶囊j的向量输出,Sj是总输入,一个胶囊的总输入Sj是第一层胶囊的所有”预测向量”的uj|i的加权总和,且是通过一个权重矩阵Wij乘以一个低一层的胶囊的输出ui,其公式为:
Figure BDA0001758907230000051
其中cij是动态路由过程决定的耦合系数,胶囊i和高一层胶囊j直接耦合系数总和为1,并且是由路由“softmax”决定,即用一个初始的对数概率bij经过迭代得出的,其计算的公式为:
Figure BDA0001758907230000052
在卷积胶囊层中,每个胶囊对高一层中的胶囊的每种类型输出一个向量的局部网格,并对于网格的每一部分和胶囊的每种类型使用不同的变换矩阵。
第五步:将胶囊网络层的输出连接到一个全连接层,并输入到softmax层,即可得到句子和目标之间的关系。
显然本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (3)

1.一种基于多角度胶囊网络的文本分类方法,其特征在于,包括以下步骤:
S1:将输入的短文本数据转化成中文文本和英文文本,分别对文本的每一个字或每一个拼音的字母分别用word2vec进行训练,作为文本的初始化字向量;
S2:将中文的字向量和拼音的字向量连接起来,通过注意力模型,使得每个字向量分别带有不同的权重,根据权重代表该字在文本中的重要程度,然后生成新的文本的特征表示;
S3:使用多个不同宽度的卷积核分别对所述短文本的特征映射进行二维卷积运算,并生成多个局部特征卷积矩阵;
S4:通过多个胶囊网络,使用动态路由机制对多个局部特征卷积矩阵进行特征全局提取,保存为全局的语义向量;
S5:在全连接层将短文本的语义特征向量赋予分类器,对短文本的类别进行预测;
步骤S2所述中文的字向量和拼音的字向量通过下面三式计算出新的短文本的特征表示:
ui=tanh(Wω[ci;pi]+bω) 式(1)
Figure FDA0003294636590000011
Figure FDA0003294636590000012
其中ci为从中文文本中获得的字向量,pi为拼音中的字向量,wω和uω是可训练的参数矩阵,s是Attention层的输出向量;
在步骤S3中,假设卷积核的宽度为d,高度为h的矩阵ω,对于步骤2输出的特征矩阵A∈Rsxd,那么卷积的操作可以用如下公式表示:
oi=ω·A[i:i+h-1],i=1,2,...,s-h+1 式(4)
ui=f(oi+b) 式(5)
其中,s表示中文和拼音字符的个数,d表示词向量的维度,f是Relu激活函数;
步骤S4中,卷积层输出的特征矩阵为ui,胶囊网络对卷积层的特征矩阵的信息提取的步骤如下:
S4.1:对ui特征矩阵做一维卷积操作,将其调整成适用于CapsNet的向量神经元层;
S4.2:运用动态路由的方法对向量神经元层进行映射操作,用矢量输出胶囊取代了输出映射检测器;用向量模的大小衡量某个类出现的概率,模值越大,概率越大;具体公式如下:
Figure FDA0003294636590000021
Figure FDA0003294636590000022
Figure FDA0003294636590000023
Figure FDA0003294636590000024
其中,ui是上一层网络的输出,W,b是要更新的参数矩阵,cij是耦合系数,s是这一层的胶囊网络的输出,v是这一层胶囊网络的输出。
2.根据权利要求1所述的一种基于多角度胶囊网络的文本分类方法,其特征在于,步骤S1所述文本的初始化字向量为通过运用查表的方式进行获取。
3.根据权利要求1所述的一种基于多角度胶囊网络的文本分类方法,其特征在于,在步骤5中,全连接层将胶囊网络的输出用softmax输出,得到每一个类别的分数并分类。
CN201810898983.3A 2018-08-08 2018-08-08 一种基于多角度胶囊网络的文本分类方法 Expired - Fee Related CN109241283B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810898983.3A CN109241283B (zh) 2018-08-08 2018-08-08 一种基于多角度胶囊网络的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810898983.3A CN109241283B (zh) 2018-08-08 2018-08-08 一种基于多角度胶囊网络的文本分类方法

Publications (2)

Publication Number Publication Date
CN109241283A CN109241283A (zh) 2019-01-18
CN109241283B true CN109241283B (zh) 2022-02-11

Family

ID=65071392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810898983.3A Expired - Fee Related CN109241283B (zh) 2018-08-08 2018-08-08 一种基于多角度胶囊网络的文本分类方法

Country Status (1)

Country Link
CN (1) CN109241283B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710769A (zh) * 2019-01-23 2019-05-03 福州大学 一种基于胶囊网络的水军评论检测系统及方法
CN109902293B (zh) * 2019-01-30 2020-11-24 华南理工大学 一种基于局部与全局互注意力机制的文本分类方法
CN110097096B (zh) * 2019-04-16 2023-04-25 天津大学 一种基于tf-idf矩阵和胶囊网络的文本分类方法
CN110085308B (zh) * 2019-04-23 2022-02-25 挂号网(杭州)科技有限公司 一种基于融合深度学习的诊疗科室分类方法
CN110046671A (zh) * 2019-04-24 2019-07-23 吉林大学 一种基于胶囊网络的文本分类方法
CN110188195B (zh) * 2019-04-29 2021-12-17 南京星云数字技术有限公司 一种基于深度学习的文本意图识别方法、装置及设备
CN110399482B (zh) * 2019-06-06 2021-12-03 深思考人工智能机器人科技(北京)有限公司 文本分类方法、模型和装置
CN110209823B (zh) * 2019-06-12 2021-04-13 齐鲁工业大学 一种多标签文本分类方法及系统
US11455527B2 (en) * 2019-06-14 2022-09-27 International Business Machines Corporation Classification of sparsely labeled text documents while preserving semantics
CN110473595A (zh) * 2019-07-04 2019-11-19 四川大学 一种结合最短依存路径的胶囊网络关系抽取模型
CN112308089A (zh) * 2019-07-29 2021-02-02 西南科技大学 一种基于注意力机制的胶囊网络多特征提取方法
CN110457710B (zh) * 2019-08-19 2022-08-02 电子科技大学 一种基于动态路由机制的机器阅读理解网络模型的建立方法、方法、存储介质及终端
CN110826336B (zh) * 2019-09-18 2020-11-06 华南师范大学 一种情感分类方法、系统、存储介质及设备
CN110781304B (zh) * 2019-10-29 2023-09-26 云境商务智能研究院南京有限公司 一种利用单词信息聚类的句子编码方法
CN110825849A (zh) * 2019-11-05 2020-02-21 泰康保险集团股份有限公司 文本信息情感分析方法、装置、介质及电子设备
CN111259157A (zh) * 2020-02-20 2020-06-09 广东工业大学 一种基于混合双向循环胶囊网络模型的中文文本分类方法
CN111460818B (zh) * 2020-03-31 2023-06-30 中国测绘科学研究院 一种基于增强胶囊网络的网页文本分类方法及存储介质
CN111767729B (zh) * 2020-06-30 2024-01-09 北京百度网讯科技有限公司 文本分类方法、装置、设备以及存储介质
CN111930938A (zh) * 2020-07-06 2020-11-13 武汉卓尔数字传媒科技有限公司 文本分类方法、装置、电子设备及存储介质
CN111985680B (zh) * 2020-07-10 2022-06-14 昆明理工大学 基于胶囊网络与时序的刑事多罪名预测方法
CN112256918B (zh) * 2020-11-17 2021-07-06 中国计量大学 一种基于多模态动态路由的短视频点击率预测方法
CN112395504B (zh) * 2020-12-01 2021-11-23 中国计量大学 一种基于序列胶囊网络的短视频点击率预测方法
CN113128557B (zh) * 2021-03-11 2022-08-23 重庆邮电大学 基于胶囊网络融合模型的新闻文本分类方法、系统及介质
CN112883167A (zh) * 2021-03-18 2021-06-01 江西师范大学 基于层次化自制力机制胶囊网络的文本情感分类模型
CN114139533B (zh) * 2021-12-06 2024-07-09 北京邮电大学 一种面向中文小说领域的文本内容审核方法
CN114238643A (zh) * 2022-02-17 2022-03-25 苏州浪潮智能科技有限公司 敏感信息识别模型的构建、敏感信息识别方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0544431A2 (en) * 1991-11-19 1993-06-02 Xerox Corporation Methods and apparatus for selecting semantically significant images in a document image without decoding image content
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法
CN107301246A (zh) * 2017-07-14 2017-10-27 河北工业大学 基于超深卷积神经网络结构模型的中文文本分类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101643942B1 (ko) * 2015-10-23 2016-08-04 김진영 Rfid 칩을 구비한 콜렉션 캡슐 및 그 제조방법
CN108363753B (zh) * 2018-01-30 2020-05-19 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0544431A2 (en) * 1991-11-19 1993-06-02 Xerox Corporation Methods and apparatus for selecting semantically significant images in a document image without decoding image content
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法
CN107301246A (zh) * 2017-07-14 2017-10-27 河北工业大学 基于超深卷积神经网络结构模型的中文文本分类方法

Also Published As

Publication number Publication date
CN109241283A (zh) 2019-01-18

Similar Documents

Publication Publication Date Title
CN109241283B (zh) 一种基于多角度胶囊网络的文本分类方法
US11631007B2 (en) Method and device for text-enhanced knowledge graph joint representation learning
CN111368996B (zh) 可传递自然语言表示的重新训练投影网络
CN112487203B (zh) 一种融入动态词向量的关系抽取系统
CN110717047B (zh) 一种基于图卷积神经网络的Web服务分类方法
CN106599198B (zh) 一种多级联结循环神经网络的图像描述方法
CN104834747B (zh) 基于卷积神经网络的短文本分类方法
CN112069408B (zh) 一种融合关系抽取的推荐系统及方法
CN107590134A (zh) 文本情感分类方法、存储介质及计算机
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN106777011A (zh) 一种基于深度多任务学习的文本分类方法
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN115221846A (zh) 一种数据处理方法及相关设备
CN109446333A (zh) 一种实现中文文本分类的方法及相关设备
CN110276396B (zh) 基于物体显著性和跨模态融合特征的图片描述生成方法
CN111460818A (zh) 一种基于增强胶囊网络的网页文本分类方法及存储介质
CN112528989B (zh) 一种图像语义细粒度的描述生成方法
CN107895024A (zh) 用于网页新闻分类推荐的用户模型构建方法及推荐方法
CN111666752A (zh) 一种基于关键词注意力机制的电路教材实体关系抽取方法
CN114528374A (zh) 一种基于图神经网络的电影评论情感分类方法及装置
CN111858933A (zh) 基于字符的层次化文本情感分析方法及系统
CN115169361A (zh) 一种情感分析方法及其相关设备
CN109376246B (zh) 一种基于卷积神经网络和局部注意力机制的句子分类方法
CN109670169B (zh) 一种基于特征提取的深度学习情感分类方法
CN112463982B (zh) 一种基于显隐式实体约束的关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220211