CN110825848A - 一种基于短语向量的文本分类方法 - Google Patents

一种基于短语向量的文本分类方法 Download PDF

Info

Publication number
CN110825848A
CN110825848A CN201911067880.3A CN201911067880A CN110825848A CN 110825848 A CN110825848 A CN 110825848A CN 201911067880 A CN201911067880 A CN 201911067880A CN 110825848 A CN110825848 A CN 110825848A
Authority
CN
China
Prior art keywords
sentence
vector
term
word
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911067880.3A
Other languages
English (en)
Other versions
CN110825848B (zh
Inventor
孙新
李鸿奡
申长虹
王浩
谢旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Publication of CN110825848A publication Critical patent/CN110825848A/zh
Application granted granted Critical
Publication of CN110825848B publication Critical patent/CN110825848B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于短语向量的文本分类方法,属于自然语言处理技术领域。该方法依靠文本分词及单词的词性标注,得到词项集合;通过基于卷积神经网络的自编码器为所有词项构建对应的短语向量表示;改进分层注意力模型,在句编码时,提出为文本中每个句子设置特定的目标向量,结合全局目标向量,按照一定的权重对所有词项及其注意力得分进行综合得到句编码;最终,通过分层注意力模型中文档编码层、文档注意力层和文档分类层,获得文档对应每个类别的概率,即文本分类。对比现有技术,本发明既能解决词项语义信息不足问题,提供了比独立的词向量更完整更准确的语义信息,又能关注到每个文本最具区别性的语义特征,进一步提高文本分类的准确率。

Description

一种基于短语向量的文本分类方法
技术领域
本发明涉及自然语言处理和深度学习技术领域,特别涉及一种基于短语向量的文本分类方法。
背景技术
作为文本挖掘的一个重要方向,文本分类能够将文档分类到预定义的类别中,在垃圾邮件过滤、情感分析、主题检测等方面都有着广泛应用。在文本分类任务上,包含单词语义的词向量已经得到了应用并取得了良好的效果。然而,很多专业论文,包括企业论文中含有大量的专有名词,而且这些名词往往都不是单个词而是短语,因此仅用词向量不足以满足文本分类任务的需要,文本需要对短语构建向量表示。
当前已有学者提出以词向量为基础利用自编码器进行组合来构建短语向量。自编码器(Auto Encoder)在结构上只有编码器和解码器两个部分,以自编码器对单词向量进行组合来构建短语向量时,可以在编码器部分输入短语中各单词的表示,然后把它们压缩为一个中间隐藏层向量,在解码器部分通过隐藏层向量重新解析出输入的短语,那么这个中间向量就可以认为是包含了语义信息的短语向量表示。然而,在传统自编码器中,直接使用基础的全连接网络进行编码和解码,其中层与层之间是全连接的,每层之间的节点是无连接的,这种普通的自编码网络无法处理类似短语这样的结构中的序列信息。
此外,当文档长度较长时,直接把文档作为长序列处理,不仅会给模型的性能带来很大挑战,同时也会忽略掉文档的层次结构中包含的信息,因此有研究者采用分层的神经网络模型对文档建模来进行文本分类。Yang等人提出了分层注意力模型HAN[1](YangZichao,Yang Diyi,Dyer Chris.Hierarchical attention networks for documentclassification[C].North American Chapter of the Association for ComputationalLinguistics:Human Language Technologies.2016:1480-1489.),HAN模型共有五层,自底向上分别为:句编码层、句注意力层、文档编码层和文档注意力层和文档分类层。
具体地,在句编码层,对于一个句子
Figure BDA0002259970060000021
其中是第t个单词的向量表示,t∈[1,T]。使用双向GRU汇总来自两个方向的单词信息,获得结合了上下文信息的单词注解
Figure BDA0002259970060000023
在句注意力层,在训练过程中随机初始化一个全局的目标向量vg并作为一个参数不断学习。然后,对于句子中的所有单词,分别计算它和目标向量vg的相似度并归一化,得到针对vg的注意力得分:
Figure BDA0002259970060000024
Figure BDA0002259970060000025
其中,
Figure BDA0002259970060000027
经过全连接网络处理后的单词表示,vg是训练得到的全局目标向量,a表示打分函数,这里具体使用的是点乘加指数函数,
Figure BDA0002259970060000028
表示
Figure BDA0002259970060000029
的转置,
Figure BDA00022599700600000210
是单词注解
Figure BDA00022599700600000211
对应vg目标向量的归一化后的分数。
最后,根据所有单词及其注意力分数得到句子的编码:
Figure BDA00022599700600000212
文档编码层,在得到句子的向量表示s(i)后,类似句编码层,同样使用双向GRU对s(i)编码,得到句子s(i)的注解h(i)
文档注意力层,类似句注意力层,首先需要用全连接层对句子的注解h(i)进行处理,然后根据目标向量vd计算相似度并归一化,得到注意力得分,然后通过加权的方式得到包含了文档中全部句子信息的文档向量d。
文档分类层,文档向量d是文档的高阶表示,可以直接用作文档分类的特征,通过softmax来计算每个类别的概率,实验证明这种模型在当时得到了对长文档分类的最好效果。
但是,HAN模型存在训练过程中全局目标向量无法关注到每个文本最明显的语义特征的问题,因此如何关注到每个文本最具区别性的语义特征是本发明亟待解决的关键。
发明内容
本发明提供一种基于短语向量的文本分类方法,所述方法包括:
S1、对文本进行分词及词性标注,依靠单词的词性标注和在文档中的相邻位置确定n元组,得到词项集合;
S2、通过自编码器中的编码器为所有词项构建对应的短语向量;
S3、确定文本中每个句子特定的目标向量,结合全局目标向量,分别对组成句子的每个词项计算其对应特定目标向量和全局目标向量的注意力得分,按照一定的权重相加作为词项的注意力得分,对所有词项及其注意力得分进行综合得到句编码;
S4、基于句编码,通过HAN模型中文档编码层、文档注意力层和文档分类层,获得文档对应每个类别的概率,即文本分类。
进一步的,所述步骤S2中的自编码器包括编码器和解码器,训练方法包括以下步骤:
S21、选取训练样本,获取词项集合;
S22、编码器部分采用CNN结构,主要包括三层:输入层、卷积层和池化层;在输入层,把词项cj中各个单词的词向量连接起来作为网络的输入,通过卷积层计算卷积核和输入之间的点积,得到一个特征值,用池化操作选择最能代表特征的部分作为词项对应的短语向量的一个维度的值,设定的卷积核的数量W就是最终短语向量的维度;其中,cj=(x1,x2,…xi…,xK),xi是词项中第i个单词的词向量表示,K表示词项中的单词数量;
S23、在解码器部分,采用K个全连接网络,即词项中的每个单词对应一个全连接网络,输入层是编码器部分输出的短语向量,输出层是对应的词项cj中单词的词向量;
S24、训练过程中模型的损失函数使用均方误差(Mean Squared Error,MSE),即训练目标为使输入词项中各个词向量和输出词项中对应词向量之间的误差尽可能小。
作为优选,步骤S3中,所述每个句子特定的目标向量的计算公式为:
Figure BDA0002259970060000041
Figure BDA0002259970060000042
其中,
Figure BDA0002259970060000043
是句子s(i)的特定目标向量,
Figure BDA0002259970060000044
Figure BDA0002259970060000045
的第j维,W是短语向量维度,T是句子s(i)中词项的个数,
Figure BDA0002259970060000046
是句子s(i)中的第t个词项的短语向量的第j维的值。
作为优选,步骤S3中,所述词项对应句子的特定目标向量的注意力得分计算公式为:
Figure BDA0002259970060000047
Figure BDA0002259970060000048
其中,
Figure BDA0002259970060000051
是句子s(i)的特定目标向量,经过全连接网络处理后的词项表示,
Figure BDA0002259970060000054
是句子s(i)使用双向GRU汇总来自两个方向的词项信息得到的结合了上下文信息的词项注解,a表示打分函数,这里具体使用的是点乘加指数函数,
Figure BDA0002259970060000055
表示
Figure BDA0002259970060000056
的转置,
Figure BDA0002259970060000057
Figure BDA0002259970060000058
对应
Figure BDA0002259970060000059
目标向量归一化后的分数。
作为优选,步骤S3中所述句编码的计算公式为:
Figure BDA00022599700600000510
其中,
Figure BDA00022599700600000511
Figure BDA00022599700600000512
分别是词项注解
Figure BDA00022599700600000513
对应全局目标向量vg和句子的特定目标向量
Figure BDA00022599700600000514
的归一化后的分数,λ是权重。
作为优选,所述λ=0.2。
有益效果
本发明所述的一种基于短语向量的文本分类方法,与现有文本分类方法相比,具有如下有益效果:
1、本发明提供的文本分类方法,既能解决词项语义信息不足问题,又能关注到每个文本最具区别性的语义特征,进一步提高长文本分类的准确率。
2、本发明通过短语向量,在句编码阶段可以更好地表示文本中词项结构,提供了比独立的词向量更完整更准确的语义信息。
3、本发明在提取句子的混合注意力机制时,在全局目标向量的基础上,从短语向量矩阵中利用最大池化提取句子中每个维度上的最大特征作为目标向量,更加突出具有明显类别特征的语义信息。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1为训练短语向量所用的模型结构图;
图2为句编码阶段使用Maxpooling提取目标向量的结构图;
图3为本发明提供的一种基于短语向量的文本分类方法的模型图;
图4为本发明实验结果一级分类准确率变化曲线示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步说明。
为了使本申请实例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实例可以相互结合。
本发明提供一种基于短语向量的文本分类方法,如图3所示,该方法包括如下步骤:
S1、对原始文本di进行分词并标注词性,根据词性、位置、频率等保留n元组,得到词项集合。选取词项的依据是位置、词性、频率,即或者是位置挨着的具有某几种词性的n个词;或者是位置挨着共同出现了一定次数的n个词。
S2、对每个候选词项cj=(x1,x2,…,xK),通过自编码器中的编码器获得词项集合中词项的短语向量表示。其中,xi是候选词项cj中第i个单词的词向量表示,K表示候选词项中的单词数量。
自编码器包括编码器和解码器,如图1所示,编码器部分由输入层、卷积层和池化层组成,解码部分由全连接层组成。
在编码器部分,采用CNN结构,主要包括三层:输入层、卷积层和池化层。输入层把词项中各个单词词向量连接起来作为网络的输入,通过卷积层计算卷积核和输入之间的点积,得到一个特征值,用池化操作选择最能代表特征的部分,设定的卷积核的数量就是最终短语向量的维度。
在解码器部分,采用K个全连接网络,K为词项中的单词个数,词项中的每个单词对应一个全连接网络。输入层是自编码器输出的短语向量,输出层是还原后的单词的词向量,最后通过损失函数L最大化解码得到的正确单词的概率。
训练的目的是优化自编码器的参数,使解码器能够以编码器的输出为输入,最大程度的还原编码器输入的词项的语义信息。
具体的训练方法为:
(1)选取训练样本,然后与S1一样,对样本进行分词等操作,获得词项集合。选取词项的依据是位置、词性、频率,也即或者是位置挨着的,具有某几种词性的n个词;或者是位置挨着共同出现了一定次数的n个词。
词项用cj=(x1,x2,…xi…,xK)表示,其中,xi是候选词项cj中第i个单词的词向量表示,K表示候选词项中的单词数量。以候选词项cj为“北京理工大学”为例,x1是“北京”对应的词向量,x2是“理工”对应的词向量,x3是“大学”对应的词向量。
(2)使用大量词项对模型进行训练。以词项“北京理工大学”为例,输入为“北京”“理工”“大学”对应的词向量表示,经编码获得“北京理工大学”的短语向量表示,并通过该短语向量解码尽可能得到解码序列“北京”“理工”“大学”,通过损失函数使得输入词项各个词向量和输出词项对应词向量之间的误差尽可能小。
对词项cj=(x1,x2,…,xK),在编码部分,在输入层,把词项中各个单词对应的词向量连接起来作为网络的输入,即:
Figure BDA0002259970060000081
其中,xi是输入单词的向量表示,i=1,2,..,K,K为词项中单词的个数。然后,用一个长度为h的卷积核对输入序列进行卷积,计算卷积核和输入之间的点积,得到一个特征值ci
ci=f(w·xi:i+h-1+b)
w·xi:i+h-1就是卷积核w在输入序列的某个长度为h的子序列xi:i+h-1上的卷积操作,b是偏置项,f为ReLU激活函数。
把卷积核w应用于全部输入窗口{x1:h,x2:h+1,…,xK-h+1:K},可以产生一个K-h+1维的激活图c:
c=[c1,c2,…,cK-h+1]
通过卷积层提取的特征在相邻区域内是相似且几乎不变的。此时,用池化操作选择最能代表特征的部分,这既可以减少数据量,又可以保留特征。这里为了获取c中的整体特征,采用了平均池化方法:
Figure BDA0002259970060000082
这样一个卷积核在输入序列上产生一个特征值
Figure BDA0002259970060000083
F个卷积核就能产生F个特征值,设定的卷积核的数量就是最终短语向量的维度,本发明中为W,因此,编码器输出的短语向量v即是:
Figure BDA0002259970060000084
解码器部分,采用K个全连接网络,K为词项中单词的个数,词项中的每个单词对应一个全连接网络。
在每个全连接网络中输入层是自编码器中编码器输出的短语向量,输出层是对应输入xi还原后的单词
Figure BDA0002259970060000085
其中,Wi、bi为各个全连接网络中的权重矩阵和偏置项,i=1,2,..,K,f为ReLU激活函数。
训练过程中模型的损失函数使用均方误差(Mean Squared Error,MSE),即训练目标为使输入词项和输出词项之间的误差尽可能小:
Figure BDA0002259970060000092
在自编码器训练结束后,其损失函数值趋于稳定。此时自编码器训练完成,将词项输入自编码器的编码器中,编码后的值即为短语向量。通过以上构建的自编码器,利用词项序列上的信息对词向量压缩,得到词项的短语向量表示。
S3、对于文档中的每个句子
Figure BDA0002259970060000093
其中,
Figure BDA0002259970060000094
是句子s(i)中的第t个词项的短语向量表示,t∈[1,T],每个词项短语向量
Figure BDA0002259970060000095
Figure BDA0002259970060000096
W是短语向量维度。计算句子特定的目标向量
Figure BDA0002259970060000097
结合全局目标向量vg,按照一定的权重相加作为句子的注意力得分,得到句子的最终编码值。
具体地,如图2所示,在计算句子特定的目标向量时,对全部T个词项的W个维度,取每个维度上的最大值作为特征,然后将全部W个维度上的最大值连接起来作为句子s(i)特有的目标向量
Figure BDA0002259970060000099
Figure BDA00022599700600000910
Figure BDA00022599700600000911
其中,
Figure BDA00022599700600000912
是句子s(i)的特有目标向量,
Figure BDA00022599700600000913
Figure BDA00022599700600000914
的第j维,
Figure BDA00022599700600000915
是句子s(i)中的第t个词项的短语向量的第j维的值。
然后,对于句子中的所有词项,分别计算它和
Figure BDA0002259970060000101
vg的相似度并归一化,得到针对
Figure BDA0002259970060000102
和vg的注意力得分:
Figure BDA0002259970060000103
Figure BDA0002259970060000104
Figure BDA0002259970060000105
其中,
Figure BDA0002259970060000107
是经过全连接网络处理后的词项表示,vg是训练得到的全局目标向量,是在句子s(i)的短语向量矩阵上利用最大池化得到的句子特有的目标向量,a表示打分函数,这里具体使用的是点乘加指数函数,
Figure BDA0002259970060000109
表示的转置,
Figure BDA00022599700600001011
分别是词项注解
Figure BDA00022599700600001013
对应vg
Figure BDA00022599700600001014
两个目标向量的归一化后的分数。
将两个分数按照一定的权重相加作为最终的注意力分数,根据所有词项及其注意力分数得到句子的编码:
通过这样的方式,对于文档中的每个句子,都能得到其对应的向量表示,而且其中分类特征比较明显的词得到的权重会更大,在最终的句子表示中会占据主导地位。
S4、通过HAN模型,获得文档对应每个类别的概率。
上述内容重点说明了本发明的创新点:词项短语表示、句编码中的句子目标向量,其中,词项短语表示解决了原有HAN模型使用的词向量无法表示复杂词项的语义信息问题,例如“北京理工大学”这种由三个词组合成的词项,单用词向量无法很好表达其语义,因此通过自编码器对复杂词项进行短语向量表示。句子目标向量的好处是:由于句子中每个单词对分类目标的贡献度是不一样的,在编码时对分类越重要的词的权值应该更大。在文本分类中,原有HAN模型的做法是在网络中学习一个全局的上下文向量作为目标向量,通过计算每个单词与目标向量的相似度来对单词打分。然而,当所有类别共同使用一个目标向量时,它在每个特征维度上的信息就会相对平均,不能突出句子的显著特征。如果句子里出现了有明显类别特征的词,全局的目标向量不能为它分配一个与其显著性相匹配的注意力得分。因此在句注意力层,本发明使用混合的注意力机制,除了使用全局目标向量vg以外,对每个句子构建其特有的目标向量vs
综上所述,结合HAN模型,本发明对文本的分类过程如下所述:
1)词项短语向量表示,或者说是词项编码
输入:词项序列(x1,x2,…xi…,xK)其中,xi是词项中第i个单词的词向量表示,K表示词项中的单词数量。举例,假设词项序列为“北京理工大学”,x1是“北京”的词向量、x2是“理工”的词向量、x3是“大学”的词向量,这里的K是3。
输出:词项序列(x1,x2,…xi…,xK)的短语向量表示,也即为“北京理工大学”这个整体的短语向量表示。
短语向量训练过程:词项训练分为编码和解码两部分。编码部分采用的是CNN结构,主要包括三层:输入层、卷积层和池化层。在输入层,把词项中各个单词词向量连接起来作为网络的输入,通过卷积层计算卷积核和输入之间的点积,得到一个特征值,用池化操作选择最能代表特征的部分。解码部分采用的是K个全连接网络,输入编码部分得到的短语向量,输出K个还原后的单词对应的词向量。
2)句编码
输入:文档中的所有句子。具体来说,文档中每个句子
Figure BDA0002259970060000121
其中,是句子s(i)中的第t个词项的短语向量表示,t∈[1,T]。
输出:句子的编码s(i)
Figure BDA0002259970060000123
编码过程:分为三步,对于s(i),每个
Figure BDA0002259970060000124
是一个W维的向量。首先,利用双向GRU获得以
Figure BDA0002259970060000125
为中心的整个句子信息:
Figure BDA0002259970060000126
其次,计算句子特定的目标向量对全部T个单词的W个维度,取每个维度上的最大值作为特征,然后将全部W个维度上的最大值连接起来作为句子s(i)特有的目标向量
Figure BDA0002259970060000128
即特定目标向量。
同时设置一个全局的目标向量vg来表示“哪些单词对于分类目标更重要”,在训练过程中随机初始化并作为一个参数不断学习。
最后,得到两个目标向量后,为了能够将单词的注解
Figure BDA0002259970060000129
和目标向量相乘,需要通过一层全连接网络对
Figure BDA00022599700600001210
进行处理,得到
Figure BDA00022599700600001211
然后对于句子中的所有词项,分别计算它和两个目标向量的相似度并归一化,得到针对两个目标向量的注意力得分
Figure BDA00022599700600001212
Figure BDA00022599700600001213
将两个分数按照一定的权重相加作为最终的注意力分数,根据所有词项及其注意力分数得到句子的编码:
Figure BDA00022599700600001214
3)文档编码
输入:句编码层得到的句编码表示s(i)
输出:包含了文档中全部句子信息的文档向量d。
编码过程:分为三步,对于句子的向量表示s(i),首先,利用双向GRU对s(i)编码,得到句子s(i)的注解h(i)
然后,类似句注意力层,用全连接层对句子的注解h(i)进行处理得到h′(i),然后根据目标向量vd计算相似度并归一化,得到注意力得分α(i)
最后,通过加权的方式得到包含了文档中全部句子信息的文档向量d。
4)文档分类
输入:文档向量d。
输出:得到文档对应每个类别的概率。
分类过程:通过softmax来计算每个类别的概率。基于上述方法,本发明以年报数据为例,给出具体的基于短语向量的文本分类结果。
年报数据库中共有31230条企业数据,提供了企业董事会信息和经营产品信息,包括:记录ID、股票代码、股票简称、行业分类、产品名称、董事会讨论、主要产品、经营范围、年份等字段。其中,“董事会讨论”是企业董事会讨论与分析的文本内容,“行业分类”根据不同粒度划分为四个级别,本例以“董事会讨论”信息作为文本数据,分别提取一级分类和二级分类作为分类标签进行文本分类,其中一级分类共有18类,二级分类共有78类。
在进行文本分类时,将年报数据按9:1划分为训练数据和测试数据,训练数据中又取10%作为开发集。基于短语向量的文本分类方法,也即HMAN模型的部分训练参数设置如表1所示。
表1部分训练参数设置
Figure BDA0002259970060000141
需要说明的是,句注意力的超参数λ经过调整和验证,在λ=0.2时取得的效果最好。
基于短语向量的文本分类方法所得一级行业分类,部分结果如表2所示。
表2各模型行业分类准确率
Figure BDA0002259970060000142
另外为了观察基于深度学习的分类模型在训练过程中的变化趋势,以一级分类为示例绘制了各模型开发集上的准确率变化曲线,如图4所示。HAN和HMAN在一级分类上的准确率均明显高于不使用层次模型的TextCNN、TextRNN。这说明引入文档的层次结构可以在不同层级分别关注文本的句子特征和文本特征,有助于提升文档级别的文本分类的效果。而本发明提出的HMAN在句子级别的注意力机制中,在全局目标向量的基础上,从词向量矩阵中利用最大池化提取句子中每个维度上的最大特征作为目标向量,能够更加突出具有明显类别特征的语义信息,分类效果好于HAN。同时,从图4中可以看出,由于直接通过提取的方式获得目标向量,不需要额外的参数训练,HMAN的收敛速度也比HAN快。
通过使用短语向量表示,同时从短语向量矩阵中利用最大池化提取句子中每个维度上的最大特征作为目标向量,能够更加突出具有明显类别特征的语义信息。本发明提出的模型可以进一步提高分类效果,模型收敛速度快。
本领域普通技术人员可以理解:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (6)

1.一种基于短语向量的文本分类方法,其特征在于:包括以下步骤:
S1、对文本进行分词及词性标注,依靠单词的词性标注和在文档中的相邻位置确定n元组,得到词项集合;
S2、通过自编码器中的编码器为所有词项构建对应的短语向量;
S3、确定文本中每个句子特定的目标向量,结合全局目标向量,分别对组成句子的每个词项计算其对应特定目标向量和全局目标向量的注意力得分,按照一定的权重相加作为词项的注意力得分,对所有词项及其注意力得分进行综合得到句编码;
S4、基于句编码,通过HAN模型中文档编码层、文档注意力层和文档分类层,获得文档对应每个类别的概率,即文本分类。
2.根据权利要求1所述的方法,其特征在于:所述步骤S2中的自编码器包括编码器和解码器,训练方法包括以下步骤:
S21、选取训练样本,获取词项集合;
S22、编码器部分采用CNN结构,主要包括三层:输入层、卷积层和池化层;在输入层,把词项cj中各个单词的词向量连接起来作为网络的输入,通过卷积层计算卷积核和输入之间的点积,得到一个特征值,用池化操作选择最能代表特征的部分作为词项对应的短语向量的一个维度的值,设定的卷积核的数量W就是最终短语向量的维度;其中,cj=(x1,x2,…xi…,xK),xi是词项中第i个单词的词向量表示,K表示词项中的单词数量;
S23、在解码器部分,采用K个全连接网络,即词项中的每个单词对应一个全连接网络,输入层是编码器部分输出的短语向量,输出层是对应的词项cj中单词的词向量;
S24、训练过程中模型的损失函数使用均方误差(Mean Squared Error,MSE),即训练目标为使输入词项中各个词向量和输出词项中对应词向量之间的误差尽可能小。
3.根据权利要求1所述的方法,其特征在于:步骤S3中,所述每个句子特定的目标向量的计算公式为:
Figure FDA0002259970050000021
其中,是句子s(i)的特定目标向量,
Figure FDA0002259970050000024
Figure FDA0002259970050000025
的第j维,W是短语向量维度,T是句子s(i)中词项的个数,
Figure FDA0002259970050000026
是句子s(i)中的第t个词项的短语向量的第j维的值。
4.根据权利要求1所述的方法,其特征在于:步骤S3中,所述词项对应句子的特定目标向量的注意力得分计算公式为:
Figure FDA0002259970050000027
Figure FDA0002259970050000028
其中,
Figure FDA0002259970050000029
是句子s(i)的特定目标向量,
Figure FDA00022599700500000211
经过全连接网络处理后的词项表示,
Figure FDA00022599700500000212
是句子s(i)使用双向GRU汇总来自两个方向的词项信息得到的结合了上下文信息的词项注解,a表示打分函数,表示
Figure FDA00022599700500000214
的转置,
Figure FDA00022599700500000215
Figure FDA00022599700500000216
对应
Figure FDA00022599700500000217
目标向量归一化后的分数。
5.根据权利要求1-4任一所述的方法,其特征在于:步骤S3中所述句编码的计算公式为:
Figure FDA00022599700500000218
其中,
Figure FDA00022599700500000219
Figure FDA00022599700500000220
分别是词项注解
Figure FDA00022599700500000221
对应全局目标向量vg和句子的特定目标向量
Figure FDA00022599700500000222
的归一化后的分数,λ是权重。
6.根据权利要求5所述的方法,其特征在于:所述λ=0.2。
CN201911067880.3A 2019-06-10 2019-11-04 一种基于短语向量的文本分类方法 Active CN110825848B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910499223 2019-06-10
CN201910499223X 2019-06-10

Publications (2)

Publication Number Publication Date
CN110825848A true CN110825848A (zh) 2020-02-21
CN110825848B CN110825848B (zh) 2022-08-09

Family

ID=69552759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911067880.3A Active CN110825848B (zh) 2019-06-10 2019-11-04 一种基于短语向量的文本分类方法

Country Status (1)

Country Link
CN (1) CN110825848B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507101A (zh) * 2020-03-03 2020-08-07 杭州电子科技大学 一种基于多层次语义胶囊路由的反讽检测方法
CN111581962A (zh) * 2020-05-14 2020-08-25 福州大学 一种基于主题词向量与混合神经网络的文本表示方法
CN111651986A (zh) * 2020-04-28 2020-09-11 银江股份有限公司 事件关键词提取方法、装置、设备及介质
CN112215000A (zh) * 2020-10-21 2021-01-12 重庆邮电大学 一种基于实体替换的文本分类方法
CN112527968A (zh) * 2020-12-22 2021-03-19 大唐融合通信股份有限公司 一种基于神经网络的作文评阅方法和系统
CN113239190A (zh) * 2021-04-27 2021-08-10 天九共享网络科技集团有限公司 文档分类方法、装置、存储介质及电子设备
CN113988049A (zh) * 2021-10-18 2022-01-28 浙江香侬慧语科技有限责任公司 一种自然语言模型的解释方法、装置及存储介质
CN116089586A (zh) * 2023-02-10 2023-05-09 百度在线网络技术(北京)有限公司 基于文本的问题生成方法及问题生成模型的训练方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10089556B1 (en) * 2017-06-12 2018-10-02 Konica Minolta Laboratory U.S.A., Inc. Self-attention deep neural network for action recognition in surveillance videos
CN108984526A (zh) * 2018-07-10 2018-12-11 北京理工大学 一种基于深度学习的文档主题向量抽取方法
CN109558487A (zh) * 2018-11-06 2019-04-02 华南师范大学 基于层次性多注意力网络的文档分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10089556B1 (en) * 2017-06-12 2018-10-02 Konica Minolta Laboratory U.S.A., Inc. Self-attention deep neural network for action recognition in surveillance videos
CN108984526A (zh) * 2018-07-10 2018-12-11 北京理工大学 一种基于深度学习的文档主题向量抽取方法
CN109558487A (zh) * 2018-11-06 2019-04-02 华南师范大学 基于层次性多注意力网络的文档分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
梁斌 等: "基于多注意力卷积神经网络的特定目标情感分析", 《计算机研究与发展》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507101A (zh) * 2020-03-03 2020-08-07 杭州电子科技大学 一种基于多层次语义胶囊路由的反讽检测方法
CN111507101B (zh) * 2020-03-03 2020-12-15 杭州电子科技大学 一种基于多层次语义胶囊路由的反讽检测方法
CN111651986B (zh) * 2020-04-28 2024-04-02 银江技术股份有限公司 事件关键词提取方法、装置、设备及介质
CN111651986A (zh) * 2020-04-28 2020-09-11 银江股份有限公司 事件关键词提取方法、装置、设备及介质
CN111581962B (zh) * 2020-05-14 2023-02-21 福州大学 一种基于主题词向量与混合神经网络的文本表示方法
CN111581962A (zh) * 2020-05-14 2020-08-25 福州大学 一种基于主题词向量与混合神经网络的文本表示方法
CN112215000B (zh) * 2020-10-21 2022-08-23 重庆邮电大学 一种基于实体替换的文本分类方法
CN112215000A (zh) * 2020-10-21 2021-01-12 重庆邮电大学 一种基于实体替换的文本分类方法
CN112527968A (zh) * 2020-12-22 2021-03-19 大唐融合通信股份有限公司 一种基于神经网络的作文评阅方法和系统
CN113239190A (zh) * 2021-04-27 2021-08-10 天九共享网络科技集团有限公司 文档分类方法、装置、存储介质及电子设备
CN113239190B (zh) * 2021-04-27 2024-02-20 天九共享网络科技集团有限公司 文档分类方法、装置、存储介质及电子设备
CN113988049A (zh) * 2021-10-18 2022-01-28 浙江香侬慧语科技有限责任公司 一种自然语言模型的解释方法、装置及存储介质
CN116089586A (zh) * 2023-02-10 2023-05-09 百度在线网络技术(北京)有限公司 基于文本的问题生成方法及问题生成模型的训练方法
CN116089586B (zh) * 2023-02-10 2023-11-14 百度在线网络技术(北京)有限公司 基于文本的问题生成方法及问题生成模型的训练方法

Also Published As

Publication number Publication date
CN110825848B (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
CN110825848B (zh) 一种基于短语向量的文本分类方法
CN113239181B (zh) 基于深度学习的科技文献引文推荐方法
CN112989834B (zh) 一种基于平格增强线性转换器的命名实体识别方法和系统
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN111897949A (zh) 一种基于Transformer的引导性文本摘要生成方法
CN112732916B (zh) 一种基于bert的多特征融合模糊文本分类系统
CN109992669B (zh) 一种基于语言模型和强化学习的关键词问答方法
CN112926324A (zh) 融合词典与对抗迁移的越南语事件实体识别方法
CN114428850B (zh) 一种文本检索匹配方法和系统
CN112232053A (zh) 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN116010553A (zh) 一种基于双路编码和精确匹配信号的观点检索系统
CN111984780A (zh) 多意图识别模型训练方法和多意图识别方法及相关装置
Szűcs et al. Seq2seq deep learning method for summary generation by lstm with two-way encoder and beam search decoder
CN112989803B (zh) 一种基于主题向量学习的实体链接预测方法
CN117574904A (zh) 基于对比学习和多模态语义交互的命名实体识别方法
CN111309849B (zh) 一种基于联合学习模型的细粒度数值信息抽取方法
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
CN115965027A (zh) 一种基于语义匹配的文本摘要自动抽取方法
CN113343648B (zh) 基于潜在空间编辑的文本风格转换方法
CN113255344B (zh) 一种融合主题信息的关键词生成方法
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN115017260A (zh) 一种基于子主题建模的关键词生成方法
CN114925695A (zh) 一种命名实体识别方法、系统、设备及存储介质
CN114757183A (zh) 一种基于对比对齐网络的跨领域情感分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant