CN109492101B - 基于标签信息与文本特征的文本分类方法、系统及介质 - Google Patents

基于标签信息与文本特征的文本分类方法、系统及介质 Download PDF

Info

Publication number
CN109492101B
CN109492101B CN201811296063.0A CN201811296063A CN109492101B CN 109492101 B CN109492101 B CN 109492101B CN 201811296063 A CN201811296063 A CN 201811296063A CN 109492101 B CN109492101 B CN 109492101B
Authority
CN
China
Prior art keywords
text
feature
multilayer perceptron
label
fused
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811296063.0A
Other languages
English (en)
Other versions
CN109492101A (zh
Inventor
杜存宵
冯福利
陈召峥
李永祺
宋雪萌
聂礼强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN201811296063.0A priority Critical patent/CN109492101B/zh
Publication of CN109492101A publication Critical patent/CN109492101A/zh
Application granted granted Critical
Publication of CN109492101B publication Critical patent/CN109492101B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于标签信息与文本特征的文本分类方法、系统及介质,包括:特征提取步骤,从给定的文本中提取第一文本特征,从给定的文本对应的标签中提取第一标签特征;特征融合步骤,将第一文本特征和第一标签特征进行特征融合,得到融合后的第三特征;模型训练步骤,将融合后的第三特征输入到多层感知机中对多层感知机进行训练,得到训练好的多层感知机;文本分类步骤,从待分类的文本中提取第二文本特征,从待分类的文本对应的标签中提取第二标签特征,对第二文本特征和第二标签特征进行特征融合得到融合后的第四特征,将融合后的第四特征输入到已经训练好的多层感知机中进行分类,输出分类结果。

Description

基于标签信息与文本特征的文本分类方法、系统及介质
技术领域
本公开涉及基于标签信息与文本特征的文本分类方法、系统及介质。
背景技术
本部分的陈述仅仅是提高了与本公开相关的背景技术,并不必然构成现有技术。
文本分类应该是自然语言处理中最普遍的一个应用,例如文章自动分类、邮件自动分类、垃圾邮件识别、用户情感分类等等,在生活中有很多应用。从任务种类上,文本可以大致分为多标签文本分类和多类别文本分类。多标签文本分类即为待分类的文本属于多个类别,而多类别文本分类则是指待分类文本只属于某一个类别。多标签文本分类因其广泛的用途一般比多类别文本有更广泛的研究。
据发明人了解,目前存在一个较为突出的问题是在针对社区问答中的问题分类的时候准确率较低,现阶段社区问答社区中每个问题都有不同的标签,无法根据标签的意义去做出判断,如果依靠人力资源去进行标签标注将会花费巨大,而仅仅是根据文本的统计特征来给出判断结果,这样导致传统模型无法利用标签的信息去做出判断,所以准确率较低。
发明内容
为了解决现有技术的不足,本公开提供了基于标签信息与文本特征的文本分类方法、系统及介质,其具有提高了文本分类的准确性的优点;
作为本公开的第一方面,提供了基于标签信息与文本特征的文本分类方法;
基于标签信息与文本特征的文本分类方法,包括:
特征提取步骤,从给定的文本中提取第一文本特征,从给定的文本对应的标签中提取第一标签特征;
特征融合步骤,将第一文本特征和第一标签特征进行特征融合,得到融合后的第三特征;
模型训练步骤,将融合后的第三特征输入到多层感知机中对多层感知机进行训练,得到训练好的多层感知机;
文本分类步骤,从待分类的文本中提取第二文本特征,从待分类的文本对应的标签中提取第二标签特征,对第二文本特征和第二标签特征进行特征融合得到融合后的第四特征,将融合后的第四特征输入到已经训练好的多层感知机中进行分类,输出分类结果。
作为一些可能的实现方式,所述从给定的文本中提取第一文本特征的具体步骤为:
对于给定文本,假设给定文本包括T个词;
首先,将每个词wt映射为词向量
Figure BDA0001851212660000021
进而得到词向量序列:
Figure BDA0001851212660000022
然后,利用循环神经网络对词向量序列进行处理,得到每个词的编码上下文向量ht
Figure BDA0001851212660000023
其中,h0由随机初始化得到,f是由循环神经网络单元构成的非线性函数,ht是循环神经网络的在t时刻的隐状态,ht-1是循环神经网络的在t-1时刻的隐状态;
最后,得到的第一文本特征即为{h1,h2,…,ht,…,hT}。
作为一些可能的实现方式,从给定的文本对应的标签中提取第一标签特征的具体步骤为:
对于每个标签L映射为对应的词向量S。
作为一些可能的实现方式,将第一文本特征和第一标签特征进行特征融合,得到融合后的第三特征的具体步骤为:
Iit=Interaction(ht,Si)
其中,Interaction()表示用于交互的函数,采用点乘运算来作为具体实现方式。Iit表示融合后的第三特征。
作为一些可能的实现方式,将融合后的第三特征输入到多层感知机中对多层感知机进行训练,得到训练好的多层感知机的具体步骤为:
将融合后的第三特征输入到多层感知机中,多层感知机输出第三特征的降维结果;
根据多层感知机的输出结果,计算多层感知机损失函数值,如果多层感知机的损失函数值小于设定阈值,则表示多层感知机训练合格,将训练结束得到的多层感知机作为训练好的多层感知机;
如果多层感知机的损失函数值大于等于设定阈值,则表示多层感知机训练不合格,返回特征提取步骤,继续对其他给定文本和标签进行特征提取和特征融合,将融合得到的新特征对多层感知机进行继续训练,直至多层感知机训练合格为止。
作为一些可能的实现方式,输出分类结果的为:对于每个标签的得分,选择评分靠前的N个标签作为输出。
作为本公开的第二方面,提供了基于标签信息与文本特征的文本分类系统;
基于标签信息与文本特征的文本分类系统,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述任一方法所述的步骤。
作为本公开的第三方面,提供了一种计算机可读存储介质;
一种计算机可读存储介质,其上运行有计算机指令,所述计算机指令被处理器运行时,完成上述任一方法所述的步骤。
与现有技术相比,本公开的有益效果是:
1、能够在特征抽取阶段有效的抽取第一文本特征与第一标签特征,传统方法只能提取第一文本特征,引入标签特征有效提高了模型表现。
2、能够在特征融合阶段有效计算文本特征与标签特征之间的关系,这样从而给出更为精确的判断,可以显著提高模型表现。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本公开的流程图;
图2为模型框架图;
图3(a)和图3(b)为基准模型与TextEXAM的对比图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
专业术语解释:分类任务,文本分类,深度神经网络,循环神经网络,TF-IDF
分类任务:分类问题是机器学习非常重要的一个组成部分,它的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。分类问题也被称为监督式学习,根据已知训练区提供的样本,通过计算选择特征参数,建立判别函数以对样本进行的分类。
文本分类:文本分类就是根据文本内容将其分到合适的类别,它是自然语言处理的一个十分重要的问题。文本分类主要应用于信息检索,机器翻译,自动文摘,信息过滤,邮件分类等任务。
循环神经网络:循环神经网络是利用神经网络结构在时间上进行迭代,允许对于某个序列进行时间上的迭代处理。
对于文本分类问题,我们把他重新定义为一个文本-标签匹配问题。
如图1所示,整个模型分为3个阶段,分别是特征提取阶段、特征融合阶段、多层感知机训练和特征分类阶段。
S1:特征提取阶段
我们将一段文本看成一组词的序列,利用循环神经网络对对话历史进行编码,编码成一个上下文向量。
C={w1,w2…wn}
Figure BDA0001851212660000041
其中C代表对话上下文构成的词语序列,f是由循环神经网络单元构成的非线性函数,由GRUs(门控神经网络Gated Recurrent Units)实现。ht是循环神经网络的在t时刻的隐状态,
Figure BDA0001851212660000042
是词wt的编码向量。因为在此阶段使用了循环神经网络,我们的模型能够在建模文本的时候考虑更多的时序性信息来帮助并且辅助建模文本,因此在特征提取阶段就可以拥有更加细粒度的特征,经过此步骤之后,为文本中的每个词都构建了对应的表征h。
S2:特征融合阶段
用标签的特征si去与特征提取阶段中提取文本的特征ht尽可能的进行细粒度的交互,以衡量标签与文本的每个词之间的近似程度。特征融合阶段是这样表示的:
Iit=Interaction(ht,Si)
其中Interaction()表示用于交互的函数,一般可以使用数乘或者加减运算,我们为了计算的时效性,选用了点乘运算。
在特征融合阶段,使用点乘建模了每个词和每个标签之间的关系,经过这样的过程,相较于传统的方法只考虑文本本身的信息,在这一步建模标签信息,并且由标签信息与文本特征的交互特征来建模二者的关系,得到了更加丰富的表征。经过此步骤以后,对每个标签S,得到了一个向量表征I。
S3:多层感知机训练阶段
将融合后的特征输入到多层感知机中,多层感知机输出降维结果;
根据多层感知机的输出结果,计算多层感知机损失函数值,如果多层感知机的损失函数值小于设定阈值,则表示多层感知机训练合格,将训练结束得到的多层感知机作为训练好的多层感知机;
如果多层感知机的损失函数值大于等于设定阈值,则表示多层感知机训练不合格,返回特征提取步骤,继续对其他给定文本和标签进行特征提取和特征融合,将融合得到的新特征对多层感知机进行继续训练,直至多层感知机训练合格为止。
S4:特征分类
对于特征融合阶段得到的交互式特征,也就是I,使用多层感知机来把I降维到1维以便作为输出结果:
q=MLP()
o=sigmoid()
其中o是模型的输出结果。
对标准数据集看山杯和爬取的知乎多标签文本分类数据集进行了训练和测试,表1显示了在Recall@5、Precision@5、F-1指标上本公开的模型和当前主流的基准模型的比较,结果显示本公开的模型比基准模型表现得更好,并且在F-1指标上远远超过了基准模型,说明本公开的模型为文本分类了更精确的标签,减少了错误标签的个数,大大提高了文本分类的质量。与此同时,本公开的模型拥有比基准模型更小的参数,这为方便部署与加速训练提供了更多的可能。
表1 TextEXAM与基准模型结果比较
Figure BDA0001851212660000051
如图2所示,本公开的模型总共分为四个流程,分别是特征提取,特征融合,多层感知机训练和特征分类;第一个流程,特征提取,使用GRU来计算每个文本的第一文本特征,第二个流程,特征融合,使用点乘来计算第一文本特征与第一标签特征之间的关系,第三个阶段,对多层感知机进行训练;第四个阶段,使用多层感知机来将特征融合起来,给出最后的结果。
如图3(a)和图3(b)所示,相比传统模型,我们考虑了每个标签的第一标签特征与文本特征更加细粒度的交互信息,所以表现会更加优越。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (5)

1.基于标签信息与文本特征的文本分类方法,其特征是,包括:
特征提取步骤,从给定的文本中提取第一文本特征,从给定的文本对应的标签中提取第一标签特征;
特征融合步骤,将第一文本特征和第一标签特征进行特征融合,得到融合后的第三特征;
模型训练步骤,将融合后的第三特征输入到多层感知机中对多层感知机进行训练,得到训练好的多层感知机;
文本分类步骤,从待分类的文本中提取第二文本特征,从待分类的文本对应的标签中提取第二标签特征,对第二文本特征和第二标签特征进行特征融合得到融合后的第四特征,将融合后的第四特征输入到已经训练好的多层感知机中进行分类,输出分类结果;
所述从给定的文本中提取第一文本特征的具体步骤为:
首先,将每个词映射为词向量;进而得到词向量序列;
然后,利用循环神经网络对词向量序列进行处理,得到每个词的编码上下文向量;
最后,得到的第一文本特征;
将第一文本特征和第一标签特征进行特征融合,得到融合后的第三特征的具体步骤为:
Iit=Interaction(ht,Si)
其中,Interaction()表示用于交互的函数,采用点乘运算来作为具体实现方式;Iit表示融合后的第三特征;
所述从给定的文本中提取第一文本特征的具体步骤为:
对于给定文本,假设给定文本包括T个词;
首先,将每个词wt映射为词向量
Figure FDA0002650476060000011
进而得到词向量序列:
Figure FDA0002650476060000012
然后,利用循环神经网络对词向量序列进行处理,得到每个词的编码上下文向量ht
Figure FDA0002650476060000013
其中,h0由随机初始化得到,f是由循环神经网络单元构成的非线性函数,ht是循环神经网络的在t时刻的隐状态,ht-1是循环神经网络的在t-1时刻的隐状态;
最后,得到的第一文本特征即为{h1,h2,…,ht,…,hT};
从给定的文本对应的标签中提取第一标签特征的具体步骤为:
对于每个标签L映射为对应的词向量S。
2.如权利要求1所述的基于标签信息与文本特征的文本分类方法,其特征是,
将融合后的第三特征输入到多层感知机中对多层感知机进行训练,得到训练好的多层感知机的具体步骤为:
将融合后的第三特征输入到多层感知机中,多层感知机输出第三特征的降维结果;
根据多层感知机的输出结果,计算多层感知机损失函数值,如果多层感知机的损失函数值小于设定阈值,则表示多层感知机训练合格,将训练结束得到的多层感知机作为训练好的多层感知机;
如果多层感知机的损失函数值大于等于设定阈值,则表示多层感知机训练不合格,返回特征提取步骤,继续对其他给定文本和标签进行特征提取和特征融合,将融合得到的新特征对多层感知机进行继续训练,直至多层感知机训练合格为止。
3.如权利要求1所述的基于标签信息与文本特征的文本分类方法,其特征是,
输出分类结果的为:对于每个标签的得分,选择评分靠前的N个标签作为输出。
4.基于标签信息与文本特征的文本分类系统,其特征是,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述权利要求1-3任一项方法所述的步骤。
5.一种计算机可读存储介质,其特征是,其上运行有计算机指令,所述计算机指令被处理器运行时,完成上述权利要求1-3任一项方法所述的步骤。
CN201811296063.0A 2018-11-01 2018-11-01 基于标签信息与文本特征的文本分类方法、系统及介质 Active CN109492101B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811296063.0A CN109492101B (zh) 2018-11-01 2018-11-01 基于标签信息与文本特征的文本分类方法、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811296063.0A CN109492101B (zh) 2018-11-01 2018-11-01 基于标签信息与文本特征的文本分类方法、系统及介质

Publications (2)

Publication Number Publication Date
CN109492101A CN109492101A (zh) 2019-03-19
CN109492101B true CN109492101B (zh) 2020-11-17

Family

ID=65693548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811296063.0A Active CN109492101B (zh) 2018-11-01 2018-11-01 基于标签信息与文本特征的文本分类方法、系统及介质

Country Status (1)

Country Link
CN (1) CN109492101B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008342A (zh) * 2019-04-12 2019-07-12 智慧芽信息科技(苏州)有限公司 文献分类方法、装置、设备及存储介质
CN110188209B (zh) * 2019-05-13 2021-06-04 山东大学 基于层次标签的跨模态哈希模型构建方法、搜索方法及装置
CN110391010B (zh) * 2019-06-11 2022-05-13 山东大学 基于个人健康感知的食品推荐方法及系统
CN110347839B (zh) * 2019-07-18 2021-07-16 湖南数定智能科技有限公司 一种基于生成式多任务学习模型的文本分类方法
CN110674297B (zh) * 2019-09-24 2022-04-29 支付宝(杭州)信息技术有限公司 舆情文本分类模型构建和舆情文本分类方法、装置及设备
CN110750987B (zh) * 2019-10-28 2021-02-05 腾讯科技(深圳)有限公司 文本处理方法、装置及存储介质
CN110837560B (zh) * 2019-11-15 2022-03-15 北京字节跳动网络技术有限公司 标签挖掘方法、装置、设备、存储介质
CN111584073B (zh) * 2020-05-13 2023-05-09 山东大学 构建肺结节良恶性的多种病理类型诊断模型的方法
CN111931061B (zh) * 2020-08-26 2023-03-24 腾讯科技(深圳)有限公司 标签映射方法、装置、计算机设备及存储介质
CN112395419B (zh) * 2021-01-18 2021-04-23 北京金山数字娱乐科技有限公司 文本分类模型的训练方法及装置、文本分类方法及装置
CN112883189A (zh) * 2021-01-26 2021-06-01 浙江香侬慧语科技有限责任公司 基于标签描述的文本分类方法、装置、存储介质及设备
CN113076753A (zh) * 2021-03-03 2021-07-06 山东英信计算机技术有限公司 一种情感分析模型训练优化方法、系统和存储介质
CN113064995A (zh) * 2021-03-31 2021-07-02 上海金融期货信息技术有限公司 一种基于图深度学习的文本多标签分类方法和系统
CN113158051B (zh) * 2021-04-23 2022-11-18 山东大学 一种基于信息传播和多层上下文信息建模的标签排序方法
CN113486175B (zh) * 2021-07-08 2024-03-15 平安国际智慧城市科技股份有限公司 文本分类方法、文本分类装置、计算机设备及存储介质
CN114330475A (zh) * 2021-10-29 2022-04-12 腾讯科技(深圳)有限公司 内容匹配方法、装置、设备、存储介质及计算机程序产品

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536870A (zh) * 2018-04-26 2018-09-14 南京大学 一种融合情感特征和语义特征的文本情感分类方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294845B (zh) * 2016-08-19 2019-08-09 清华大学 基于权重学习和多特征抽取的多情绪分类方法及装置
CN107871158A (zh) * 2016-09-26 2018-04-03 清华大学 一种结合序列文本信息的知识图谱表示学习方法及装置
CN107168945B (zh) * 2017-04-13 2020-07-14 广东工业大学 一种融合多特征的双向循环神经网络细粒度意见挖掘方法
CN107393525B (zh) * 2017-07-24 2020-06-12 湖南大学 一种融合特征评估和多层感知器的语音情感识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536870A (zh) * 2018-04-26 2018-09-14 南京大学 一种融合情感特征和语义特征的文本情感分类方法

Also Published As

Publication number Publication date
CN109492101A (zh) 2019-03-19

Similar Documents

Publication Publication Date Title
CN109492101B (zh) 基于标签信息与文本特征的文本分类方法、系统及介质
CN109992783B (zh) 中文词向量建模方法
CN109241255B (zh) 一种基于深度学习的意图识别方法
CN107122416B (zh) 一种中文事件抽取方法
CN110222178B (zh) 文本情感分类方法、装置、电子设备及可读存储介质
CN106649603B (zh) 一种基于网页文本数据情感分类的指定信息推送方法
CN110990543A (zh) 智能对话的生成方法、装置、计算机设备及计算机存储介质
CN109189767B (zh) 数据处理方法、装置、电子设备及存储介质
Hong et al. Sentiment analysis with deeply learned distributed representations of variable length texts
CN107025284A (zh) 网络评论文本情感倾向的识别方法及卷积神经网络模型
CN108573047A (zh) 一种中文文本分类模型的训练方法及装置
CN112364638B (zh) 一种基于社交文本的人格识别方法
CN110929034A (zh) 一种基于改进lstm的商品评论细粒度情感分类方法
CN107180084A (zh) 词库更新方法及装置
CN110263174B (zh) —基于焦点关注的主题类别分析方法
CN109614611B (zh) 一种融合生成非对抗网络与卷积神经网络的情感分析方法
CN107491729A (zh) 基于余弦相似度激活的卷积神经网络的手写数字识别方法
CN112749274A (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN110472245A (zh) 一种基于层次化卷积神经网络的多标记情绪强度预测方法
CN114492423A (zh) 基于特征融合及筛选的虚假评论检测方法、系统及介质
WO2021128704A1 (zh) 一种基于分类效用的开集分类方法
CN107562729B (zh) 基于神经网络和主题强化的党建文本表示方法
CN115659947A (zh) 基于机器阅读理解及文本摘要的多项选择答题方法及系统
CN114841151A (zh) 基于分解-重组策略的医学文本实体关系联合抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant