CN109241284A - 一种文档分类方法及装置 - Google Patents

一种文档分类方法及装置 Download PDF

Info

Publication number
CN109241284A
CN109241284A CN201810983329.2A CN201810983329A CN109241284A CN 109241284 A CN109241284 A CN 109241284A CN 201810983329 A CN201810983329 A CN 201810983329A CN 109241284 A CN109241284 A CN 109241284A
Authority
CN
China
Prior art keywords
input
interaction
source element
background
input source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810983329.2A
Other languages
English (en)
Inventor
陈洪辉
刘俊先
蔡飞
舒振
陈涛
罗爱民
潘志强
张鑫
陈皖玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201810983329.2A priority Critical patent/CN109241284A/zh
Publication of CN109241284A publication Critical patent/CN109241284A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开一种文档分类方法及装置。该文档分类方法包括:根据获取的输入源元素和输入背景,确定所述输入源元素和输入背景的交互,其中所述输入背景根据所述输入源元素来构建;将所有交互信息表示成交互矩阵;通过平均化交互层、最大化交互层和注意力层将所述交互矩阵转化为文本表示。本发明提供的方案,能更好反映文档中各成分间的语义联系,也可以提升文档分类效率。

Description

一种文档分类方法及装置
技术领域
本发明涉及计算机网络技术领域,具体涉及一种文档分类方法及装置。
背景技术
在自然语言处理中,文档分类通常是赋予文本一个或多个类别标签。现有技术中,文档分类有广泛的应用,例如应用在情感分类、文档排序以及话题标识等方面。传统用于文档分类的方法主要根据该文档与某一类标签的相关性赋予标签,这通常是根据统计性指标进行估计,例如:共现词的频率、共现词对的频率和每个词在不同文档中的权重分数等。这种统计性分类方法已经取得了明显的进步,但当它们应用于大规模语料库上时,会遭受到数据稀疏性和维度爆炸问题。
为了解决这个问题,现有技术中还出现了基于神经网络的文档分类方法,该方法通过学习低维的文档表示来应对这种现象。这种基于神经网络的文档分类,具有解决文档表示维度问题的优势,但通常依赖于网络的结构,并没有直接刻画存在于文档中的成分间交互,也即并没有直接模拟存在于文档中各元素间的交互,例如词或句子,这导致了语义的缺失。
因此,现有的文档分类方法,仍有待改进。
发明内容
有鉴于此,本发明的目的在于提出一种文档分类方法及装置,能更好反映文档中各成分间的语义联系。
根据本发明的一个方面,提供一种文档分类方法,包括:
根据获取的输入源元素和输入背景,确定所述输入源元素和输入背景的交互,其中所述输入背景根据所述输入源元素来构建;
将所有交互信息表示成交互矩阵;
通过平均化交互层、最大化交互层和注意力层将所述交互矩阵转化为文本表示。
优选的,所述根据获取的输入源元素和输入背景,确定所述输入源元素和输入背景的交互,其中所述输入背景根据所述输入源元素来构建,包括:
将获取的输入源元素进行向量化,得到输入源元素向量;
通过多层感知器分别得到所述输入源元素的隐形表示和获取的输入背景的隐形表示,其中所述输入背景是将每个输入源元素视为对应的背景;
确定所述输入源元素和所述输入背景的交互。
优选的,所述确定所述输入源元素和所述输入背景的交互,包括:
使用注意力机制确定所述输入源元素和所述输入背景的交互。
优选的,所述通过平均化交互层、最大化交互层将所述交互矩阵转化为文本表示,包括:
在平均化交互层采用平均池化,将所述交互矩阵转化为文本表示;
在最大化交互层应用最大化池化,将所述交互矩阵转化为文本表示。
优选的,所述通过注意力层将所述交互矩阵转化为文本表示,包括:
将交互矩阵中的每个交互通过多层感知器来获得对应的隐式表示;
获得所述交互对应的隐形表示的权重分布;
根据获得的权重分布,在注意力层将交互矩阵转化为固定维度的文本表示。
优选的,所述方法还包括:
所述注意力层在词水平上采用标准注意力机制,在句子水平上采用自交互注意力机制。
根据本发明的另一个方面,提供一种文档分类装置,包括:
交互模块,用于根据获取的输入源元素和输入背景,确定所述输入源元素和输入背景的交互,其中所述输入背景根据所述输入源元素来构建;
矩阵模块,用于将所述交互模块的所有交互信息表示成交互矩阵;
转化模块,用于通过平均化交互层、最大化交互层和注意力层将所述矩阵模块的交互矩阵转化为文本表示。
优选的,所述交互模块包括:
向量子模块,用于将获取的输入源元素进行向量化,得到输入源元素向量;
隐形子模块,用于通过多层感知器分别得到所述输入源元素的隐形表示和获取的输入背景的隐形表示,其中所述输入背景是将每个输入源元素视为对应的背景;
交互处理子模块,用于确定所述输入源元素和所述输入背景的交互。
优选的,所述转化模块包括:
平均化交互层子模块,用于在平均化交互层采用平均池化,将所述交互矩阵转化为文本表示;
最大化交互层子模块,用于在最大化交互层应用最大化池化,将所述交互矩阵转化为文本表示。
优选的,所述转化模块还包括:
注意力层子模块,用于将交互矩阵中的每个交互通过多层感知器来获得对应的隐式表示,获得所述交互对应的隐形表示的权重分布,根据获得的权重分布,在注意力层将交互矩阵转化为固定维度的文本表示。
可以发现,本发明实施例的技术方案,是根据获取的输入源元素和输入背景,确定所述输入源元素和输入背景的交互,并且其中所述输入背景根据所述输入源元素来构建,这与标准注意力机制中输入背景常常作为额外的输入不相同,本发明实施例是将每个源元素视为对应的背景来设计一种深度交互而不用额外的信息输入;另外,本发明将所有交互信息表示成交互矩阵,再通过平均化交互层、最大化交互层和注意力层将所述交互矩阵转化为文本表示,也就是通过三种聚合策略来将交互信息融入分层架构,得到不同层的文本表示,以此进行文档分类,能更好反映文档中各成分间的语义联系。本发明实施例通过将源元素与背景之间的交互融入分层架构,因此可以保留文本的整体语义,并且提升文档分类的性能。
进一步的,本发明实施例可以将获取的输入源元素进行向量化,得到输入源元素向量;通过多层感知器分别得到所述输入源元素的隐形表示和获取的输入背景的隐形表示,其中所述输入背景是将每个输入源元素视为对应的背景;确定所述输入源元素和所述输入背景的交互。
进一步的,本发明实施例可以在平均化交互层采用平均池化,将所述交互矩阵转化为文本表示;在最大化交互层应用最大化池化,将所述交互矩阵转化为文本表示。
进一步的,本发明实施例可以将交互矩阵中的每个交互通过多层感知器来获得对应的隐式表示;获得所述交互对应的隐形表示的权重分布;根据获得的权重分布,在注意力层将交互矩阵转化为固定维度的文本表示。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1是根据本发明的一个实施例的一种文档分类方法的示意性流程图;
图2是根据本发明的一个实施例的一种文档分类方法的另一示意性流程图;
图3是根据本发明的一个实施例的文档分类方法中的自交互注意力机制的原理示意图;
图4是根据本发明的一个实施例的文档分类方法中的自交互注意力机制的过程示意图;
图5是根据本发明的一个实施例的文档分类方法中在聚合策略中的池化过程的示意图;
图6是根据本发明的一个实施例的文档分类方法中在聚合策略中的自交互过程的示意图;
图7是根据本发明的一个实施例的在Yelp 2016中不同句子数目的文档分类精度的示意图;
图8是根据本发明的一个实施例的在Amazon Reviews(Electronics)中不同句子数目的文档分类精度的示意图;
图9是根据本发明的一个实施例的一种文档分类装置的示意性方框图;
图10是根据本发明的一个实施例的一种文档分类装置的另一示意性方框图;
图11是根据本发明的一个实施例的一种文档分类设备的示意性方框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本发明提出一种文档分类方法,尤其是一种基于自交互注意力机制的文档分类方法,能更好反映文档中各成分间的语义联系,也可以提升文档分类效率。
以下结合附图详细描述本发明实施例的技术方案。
图1是根据本发明的一个实施例的一种文档分类方法的示意性流程图。该方法可以应用于文档分类装置中。
参见图1,所述方法包括:
步骤101、根据获取的输入源元素和输入背景,确定所述输入源元素和输入背景的交互,其中所述输入背景根据所述输入源元素来构建。
该步骤可以将获取的输入源元素进行向量化,得到输入源元素向量;通过多层感知器分别得到所述输入源元素的隐形表示和获取的输入背景的隐形表示,其中所述输入背景是将每个输入源元素视为对应的背景;确定所述输入源元素和所述输入背景的交互。
步骤102、将所有交互信息表示成交互矩阵。
步骤103、通过平均化交互层、最大化交互层和注意力层将所述交互矩阵转化为文本表示。
该步骤可以在平均化交互层采用平均池化,将所述交互矩阵转化为文本表示;在最大化交互层应用最大化池化,将所述交互矩阵转化为文本表示。
该步骤可以将交互矩阵中的每个交互通过多层感知器来获得对应的隐式表示;获得所述交互对应的隐形表示的权重分布;根据获得的权重分布,在注意力层将交互矩阵转化为固定维度的文本表示。
可以发现,本发明实施例的技术方案,是根据获取的输入源元素和输入背景,确定所述输入源元素和输入背景的交互,并且其中所述输入背景根据所述输入源元素来构建,这与标准注意力机制中输入背景常常作为额外的输入不相同,本发明实施例是将每个源元素视为对应的背景来设计一种深度交互而不用额外的信息输入;另外,本发明将所有交互信息表示成交互矩阵,再通过平均化交互层、最大化交互层和注意力层将所述交互矩阵转化为文本表示,也就是通过三种聚合策略来将交互信息融入分层架构,得到不同层的文本表示,以此进行文档分类,能更好反映文档中各成分间的语义联系。本发明实施例通过将源元素与背景之间的交互融入分层架构,因此可以保留文本的整体语义,并且提升文档分类的性能。
图2是根据本发明的一个实施例的一种文档分类方法的另一示意性流程图。图2相对于图1更详细描述了本发明方案。该方法可以应用于文档分类装置中。
本发明在文档分类中,引入了交互的概念并提出了自交互注意力机制(TextSAM)来控制文档中句子间的交互,以此用于文档分类。
关于注意力机制,自从Bahdanau et al.第一次在机器翻译领域提出注意力机制后,注意力机制已经变成了自然语言处理中的一个标准部分,例如:神经机器翻译、看图说话、语音识别和问答系统等。深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似,核心目标也是从众多信息中选择出对当前任务目标更关键的信息。标准的注意力机制实际上是一种通过计算种类分布情况来对源元素进行软选择的过程。这种样式让控制在文档中的源元素和周围背景间的交互成为可能。通常而言,这类基于注意力机制的方法生成的背景(context)要么是额外输入,要么是随机生成加入学习的过程中,且不能直接应用于像情感分类的任务,因为它们只有一个单一的句子作为输入。
本发明基于自交互注意力机制则,可以利用每一个源元素作为背景而不用额外的输入,这可以帮助发展注意力机制的交互潜能。参见图3,是根据本发明的一个实施例的文档分类方法中的自交互注意力机制的原理示意图。与标准的用于文档表示的标准注意力机制相比,标准注意力机制通常随机初始化来引入一个背景(Context)向量,用以控制交互;而本发明的自注意力交互机制借助于在文档中的源元素(Source Elements)来构建背景(Context),在背景之后会用标准注意力机制来产生交互表示(Interaction),最后得到汇总(Aggregated)的交互矩阵。具体的,本发明提出三种聚合策略来将聚合整合为文档分类的分层架构,通过三种聚合策略来将交互信息融入分层架构,以此进行文档分类。本发明将分层架构划分为平均化交互层、最大化交互层以及位于交互之上的注意力层,产生分别对应的TextSAMAVE模型、TextSAMMAX模型、TextSAMATT模型。
以下详细介绍本发明方法中提出的自交互的注意力机制及引入三种聚合策略将交互融入的分层架构。
参见图2,本发明方法包括:
步骤201、将输入源元素进行向量化,得到输入源元素向量。
标准的注意力机制应用于一层隐层,是基于源元素和它们背景间的交互所实施的源元素的软选择。
本发明将一串输入序列定义为x={x1,x2,…,xn},其中xi(1≤i≤n)是一个输入词或句子元素,也即输入源元素,并将其向量化为hi,也即得到输入源元素向量hi
步骤202、通过多层感知器分别得到输入源元素的隐形表示和输入背景的隐形表示,其中输入背景是将每个输入源元素视为对应的背景。
1)对于输入源元素的隐形表示,可以将输入源元素向量表示hi通过一层多层感知器(Muti-Layer Percetron,MLP)来得到hi的隐式表示ui,也就得到输入源元素xi的隐式表示ui,即:
ui=tanh(Whhi+bh)
其中Wh和bh分别是权重矩阵和偏置项。
2)对于输入背景的隐形表示,因为标准注意力机制中,输入背景常常会作为额外的输入,在一些任务中不方便实施。因此,本发明将每个源元素视为对应的背景来设计一种深度交互而不用额外的信息输入,也就是将输入源元素xk作为输入背景xk,及得到输入背景xk的隐式表示uk
其中,输入源元素xi和输入源元素xk都属于输入序列x={x1,x2,…,xn}的元素,本发明可以依次从输入序列中选取一个作为输入背景。
输入背景xk的隐式表示uk的公式是:uk=tanh(Whhk+bh)
其中Wh和bh分别是权重矩阵和偏置项。
步骤203,确定输入源元素和输入背景的交互。
参见图4,是根据本发明的一个实施例的文档分类方法中的自交互注意力机制的过程示意图。其中 Context表示输入背景, Source Elements表示源元素,hk是输入源元素向量表示,ck是交互。
本发明在自交互注意力机制中,可以表示输入源元素xi和输入背景xk间的交互ck如下:
其中可以被视为是输入背景xk的隐式表示uk和输入源元素xi的隐式表示ui间交互的产物。
需说明的是,在标准注意力机制中,输入背景是作为额外的输入,可以得到输入背景的隐式表示uw,并可以将一篇文档中的输入源元素和它们输入背景间的交互c公式化如下:
其中可以被视为输入背景uw和输入源元素xi的隐式表示hi间的交互产物。
这种注意力机制可以将变长记忆的源元素压缩成为一个固定维度向量的能力。然而,标准注意力机制中这种输入背景表示uw常常会作为额外的输入,在一些任务中不方便实施。因此,本发明中没有采用输入背景表示uw,而是将每个源元素视为对应的背景来设计一种深度交互而不用额外的信息输入,也就是将输入源元素xk作为输入背景xk
步骤204、将所有交互信息表示成交互矩阵。
该步骤中,为了简化表示,可以把所有交互信息表示成一个交互矩阵C,即:
C=(c1,c2,…,cn)。
步骤205、通过平均化交互层、最大化交互层和注意力层,将交互矩阵转化为固定维度的文本表示。
本发明提出了三种聚合策略,分别是:平均化交互、最大化交互以及再添加一层注意力层于交互之上,这就对应产生了TextSAMAVE、TextSAMMAX、TextSAMATT三个模型。本发明通过划分的平均化交互层、最大化交互层和注意力层,将变长的交互矩阵C转化为固定维度的文本表示t。参见图5,是根据本发明的一个实施例的文档分类方法中在聚合策略中的池化过程的示意图。通过池化层(Pooling Layer)将变长的交互矩阵C转化为固定维度的文本表示t。
1)通过平均化交互层和最大化交互层,将交互矩阵转化为固定维度的文本表示。
为了将变长的交互矩阵C转化为固定维度的表示,本发明沿着交互矩阵C的第一维度进行池化操作。特别地,本发明引入两种池化策略,也就是平均化池化和最大化池化,得到了TextSAMAVE和TextSAMMAX
其中,TextSAMAVE假设在C中的每个交互ci对于最终的文本表示是平等的。因此,TextSAMAVE在池化层采用了平均池化:
TextSAMAVE通过应用平均化池化于交互的每个维度,平均抽取每一维度的特征来表示文本。
其中,TextSAMMAX关注的是从交互矩阵C中抽取最重要的特征。因此,TextSAMMAX在池化层应用了最大化池化:
t=max{ci}
其中,max{·}意味着获得交互ci(i=1,…,n)每一维度的最大值。
可以发现,TextSAMMAX通过应用最大化池化于交互的每个维度,可以抽取每一维度最有代表性的特征来更好地表示文本。
2)通过注意力层,将交互矩阵转化为固定维度的文本表示。
由于对最终的文本表示,每个交互的贡献度是不可能完全一样,本发明又添加了一层注意力层在交互策略中来发展更深的交互。
21)将交互矩阵中的每个交互通过多层感知器来获得对应的隐式表示。
本发明将交互矩阵C中的每个交互ci通过一层多层感知器来获得对应的隐式表示vi
vi=tanh(Wcci+bc)
其中Wc和bc分别是权重矩阵和偏置量。
22)获得交互对应的隐形表示的权重分布。
参见图6,是根据本发明的一个实施例的文档分类方法中在聚合策略中的自交互过程的示意图。本发明随机初始化背景向量vc,并应用softmax函数来获得权重分布:
其中softmax函数所表示的含义可以看成为对分类结果的概率分布。
其中背景向量vc是先通过随机初始化,然后在训练过程中随之发生变化的量。
23)根据获得的权重分布,在注意力层将交互矩阵转化为固定维度的文本表示。
最后,文本向量t可以表示为:
可以发现,对于TextSAMATT,它是建立在另一个交互层上,因此可以发展更深的交互。也就是说,前面先通过自交互注意力机制实现了源元素之间的交互,而在此基础上又建立了注意力机制,因此是更深层次的交互。
本发明在模型中采用了分层架构,即词生成句子,句子生成文档的结构,也就是划分为词水平和句子水平。此外,本发明发现标准注意力机制的算法复杂度是O(n),而TextSAM却是O(n2)。因此,为了避免过高的算法复杂度问题,本发明在词水平上采用了标准注意力机制,在句子水平上采用了自交互注意力机制,即在词生成句子的表示过程中采用了标准注意力机制,而在句子生成文档的表示过程中采用了自交互注意力机制。
本发明在表1中总结了本发明所提的模型和基准模型。
模型 描述 来源
TextRNN 基于递归神经网络的方法 现有技术
TextHAN 基于分层注意力网络的方法 现有技术
TextSAM<sub>AVE</sub> 基于自交互注意力机制的平均化交互的方法 本文
TextSAM<sub>MAX</sub> 基于自交互注意力机制的最大化交互的方法 本文
TextSAM<sub>ATT</sub> 基于自交互注意力机制的再注意力于交互的方法 本文
表1:模型总结
为了验证本发明方法的效果,本发明在两个大规模公开数据集上(Yelp 2016,Amazon Reviews(Electronics))进行文本分类实验。其中Yelp 2016是美国最大的点评网站公开的一个数据集,Amazon Reviews(Electronics)是亚马逊的一个数据集。其中,表2总结了数据集的统计性指标。对于每个数据集,本发明随机采样80%的数据用于训练,10%用于验证和剩下的10%用于测试。需说明的是,表2在数据集中的词表已经经历了数据清洗,排除了单一字符和标点符号,只保留了lemmatized形式的词汇。
数据集 Yelp 2016 Amazon Reviews(Electronics)
#类别 5 5
#文档 4,153,150 1,689,188
#平均句子/文档 8.11 6.88
#平均词/句子 17.02 7.65
#平均词/文档 138.02 136.97
#在文档中最多句子数 166 416
#在文档中最多词数 1431 7,488
#词汇表的词数 155,498 66,551
表2:数据集的统计性特征
如表2所示,Yelp 2016和Amazon Reviews(Electronics)之间的最大区别存在于文档数量和词汇表的大小,这可能对于后面文本分类的效果有一定的影响。此外,本发明在Yelp 2016和Amazon Reviews(Electronics)中放大了文本的长度分布,在两个数据集中大部分文档的长度都少于300个词。
对于评价,本发明使用精度和时间损耗作为评价准则,其中精度是个标准指标来衡量文档分类的整体性能,这个精度标准可以被如下计算:
其中k是测试文档的总数,Sgn(a,b)是一个指标函数(当a等于b时,Sgn(a,b)=1;否则,Sgn(a,b)=0),ground_truth(i)指的是对于文档i它的真实类别标签,而predict(i)返回的是文档i的预测类别标签,通过predict(i)=argmax(q),其中argmax(q)返回的是在q中,这个文档预测的概率分布的最大成分的类别标签。
其中,对于数据处理,为了构建分层架构,本发明将文档划分为句子并对每个句子使用斯坦福的分词工具Stanford CoreNLP来标记。除此之外,为了避免词表冗余的问题,本发明抛弃了只有单一字符和标点符号的字符。最后,在Yelp 2016中保留了前100000个词,而在Amazon Reviews(Electronics)中保留了前50000个词。
对于模型设置,本发明设置其中批次的大小设为64,即每批次64篇文档,词向量维度设为200,以及LSTM(Long Short-Term Memory,长短期记忆网络)细胞维度设为50。在训练过程中,本发明使用了随机梯度下降的方法来训练模型,并设学习率为0001。为了避免梯度问题,本发明采用了梯度截断的方法。此外,如表2所示,可以看到#平均句子/文档和#平均词/句子都小于30。因此,本发明设定每个词和句子的截断数目为30。
为了初始化神经网络,本发明采用了xavier初始化方法来保证在所有层中梯度的规模大体一致,另外使用了交叉熵作为损失函数。所述的xavier初始化方法是一种比较有效的神经网络初始化方法。
本发明进一步比较了本发明所提出的模型和基准模型在两个数据集上的差异。本发明的自交互注意力机制可以帮助提升文档分类的性能。在表3,分别呈现了不同模型在Yelp 2016和Amazon Reviews(Electronics)上的文档分类结果。
模型 Yelp 2016 Amazon Reviews(Electronics)
TextRNN 0.4433 0.5127
TextHAN 0.5575 0.5493
TextSAM<sub>AVE</sub> 0.5507 0.5636
TextSAM<sub>MAX</sub> 0.5908 0.6265
TextSAM<sub>ATT</sub> 0.5587 0.5709
表3:模型性能比较
如表3所示,在Yelp 2016中,本发明带有自交互注意力机制的模型,即TextSAMAVE、TextSAMMAX和TextSAMATT,性能明显优于基准模型TextRNN。而与基准模型TextHAN相比,除了TextSAMAVE之外,其它两个模型呈现了明显的提升。特别地,TextSAMMAX在所提模型中是最好的模型,比TextRNN有大约33.27%提升,比TextHAN有5.97%的提升。TextSAMATT,在TextSAMMAX之后,呈现了比TextRNN有26.03%的提升,比TextHAN有0.22%的提升。此外,虽然TextSAMAVE在精度方面劣于TextHAN,但TextSAMAVE比TextRNN仍然有24.23%的提升。
类似的发现也可以在Amazon Reviews(Electronics)数据集上观察到。具体而言,TextSAMMAX仍然优于其他模型,比TextRNN有22.02%的提升,比TextHAN有14.05%的提升。在TextSAMMAX之后,TextSAMATT也在TextRNN基础上提升了11.35%,在TextHAN基础上提升了3.93%。其中TextSAMAVE在TextRNN基础上提升了9.54%的精度,在TextHAN基础上提升了2.24%的精度。对于这些基准,本发明观察到TextHAN对于TextRNN也有更好的结果。上述的结果,说明本发明所提出的的自交互注意力机制可以明显提升文档分类性能。
此外,放大某一特定聚合策略,可以发现无论数据集怎么使用,本发明所提出来的最大化交互的策略总是收到最好的表现。也就是说,自交互注意力机制最受益于最大化交互。在Yelp 2016中,TextSAMMAX在精度方面比TextSAMAVE有7.28%的提升,比TextSAMATT有5.75%的提升。类似地,在Amazon Reviews(Electronics)中,相比于TextSAMAVE和TextSAMATT,TextSAMMAX分别有11.56%和9.74%的提升。这可以通过以下事实进行解释,TextSAMMAX通过应用最大化池化于交互的每个维度,可以抽取每一维度最有代表性的特征来更好地表示文本。而对于相似池化操作,平均化交互可能忽视了每个文档有自己的重点和特定话题,不能简单地平等看待这些交互。对于TextSAMATT,它是建立在另一个交互层上,可以发展更深的交互。
对于在句子水平的自交互注意力机制,在一篇文档中句子数目对于本发明所提模型的分类性能的影响,分析如下:
关于对于句子数目的影响,本发明根据句子将文档进行分组,例如:(0,5],(5,10],(10,15],(15,20],(20,25],(25,30](句子的截断长度是30)。然后,比较本发明提出的模型和基准模型在不同句子数目长度的文档组上的性能差异,分别参见图7画出的Yelp2016的性能差异结果和图8画出的Amazon Reviews(Electronics)的性能差异结果。图7是根据本发明的一个实施例的在Yelp 2016中不同句子数目的文档分类精度的示意图,图8是根据本发明的一个实施例的在Amazon Reviews(Electronics)中不同句子数目的文档分类精度的示意图。在图7和图8中,纵坐标表示精度(accuracy),横坐标表示在文档中的句子数目(The Number of Sentences in a Document)。
可以发现,在图7的Yelp 2016数据中,所讨论的模型随着句子数目的增加都保持着稳定下降的趋势。特别地,当句子数目从(0,5]增长到(25,30]的过程中,基准模型的精度呈现了一个明显的断层。例如:TextRNN在精度方面降低了大约20%,而TextHAN则出现了大约6%的降低。一般地,关于本发明带有自交互注意力机制的模型,TextSAM模型在精度方面表现了相对稳定的降低趋势。例如:当文档长度从(0,5]增长到(25,30]的过程中,TextSAMAVE的降低率最多不超过5%。此外,当句子数目超过(15,20]后,本发明所提出的模型全都一致的要好于基准模型。
在图8的Amazon Review(Electronics)数据集中,相似的结果也可以被发现。一般地,基准模型随着句子数目的增加表现出稳定下降的趋势。然而,本发明所提的模型在句子数目到达(15,20]之前,精度有明显降低。之后,不同于在Yelp 2016的稳定降低,TextSAM模型的性能一致地上升直到句子的书面达到(25,30]。
从上述描述,可以总结出:相比于基准模型,本发明所提的模型可以明显地降低句子数目增加带来的文档分类精度下降的影响。因为基准模型通常是基于LSTM结构,这种结构往往会遭受梯度消失的问题,而且随着句子数目的增加性能也随之降低的情况。相反,本发明所提的模型可以解决上述问题,通过将源元素与背景之间的交互融入分层架构,这样可以保留文本的整体语义,并且提升文档分类的性能。
综上所述,本发明经过在两个公开的数据集(Yelp 2016,Amazon Reviews(Electronics))上进行的综合实验结果表明,本发明的模型明显优于现有分类的基准模型,能更好反映文档中各成分间的语义联系,也呈现了5.97%到33.27%的精度提升。此外,本发明的模型与基准模型的相对提升度会随着句子长度的增加而扩大,因此本发明带有自交互注意力机制的模型可以明显减轻句子长度带来的影响,提高分类效率。
上述详细介绍了本发明的基于自交互注意力机制的文档分类方法,以下相应介绍本发明对应的文档分类装置及设备。
图9是根据本发明的一个实施例的一种文档分类装置的示意性方框图。
参照图9,在一种文档分类装置90中,包括:交互模块91、矩阵模块92、转化模块93。
交互模块91,用于根据获取的输入源元素和输入背景,确定所述输入源元素和输入背景的交互,其中所述输入背景根据所述输入源元素来构建。
矩阵模块92,用于将所述交互模块91的所有交互信息表示成交互矩阵。
转化模块93,用于通过平均化交互层、最大化交互层和注意力层将所述矩阵模块92的交互矩阵转化为文本表示。
本发明提出了三种聚合策略,分别是:平均化交互、最大化交互以及再添加一层注意力层于交互之上,这就对应产生了TextSAMAVE、TextSAMMAX、TextSAMATT三个模型。本发明通过划分的平均化交互层、最大化交互层和注意力层,将变长的交互矩阵C转化为固定维度的文本表示t。
图10是根据本发明的一个实施例的一种文档分类装置的另一示意性方框图。
参照图10,在一种文档分类装置100中,包括:交互模块91、矩阵模块92、转化模块93。
其中所述交互模块91包括:向量子模块911、隐形子模块912、交互处理子模块913。
向量子模块911,用于将获取的输入源元素进行向量化,得到输入源元素向量。
隐形子模块912,用于通过多层感知器分别得到所述输入源元素的隐形表示和获取的输入背景的隐形表示,其中所述输入背景是将每个输入源元素视为对应的背景。
交互处理子模块913,用于确定所述输入源元素和所述输入背景的交互。
其中所述转化模块93包括:平均化交互层子模块931、最大化交互层子模块932。
平均化交互层子模块931,用于在平均化交互层采用平均池化,将所述交互矩阵转化为文本表示。通过应用平均化池化于交互的每个维度,平均抽取每一维度的特征来表示文本。
最大化交互层子模块932,用于在最大化交互层应用最大化池化,将所述交互矩阵转化为文本表示。通过应用最大化池化于交互的每个维度,可以抽取每一维度最有代表性的特征来更好地表示文本。
其中所述转化模块93还包括:注意力层子模块933。
注意力层子模块933,用于将交互矩阵中的每个交互通过多层感知器来获得对应的隐式表示,获得所述交互对应的隐形表示的权重分布,根据获得的权重分布,在注意力层将交互矩阵转化为固定维度的文本表示。
由于对最终的文本表示,每个交互的贡献度是不可能完全一样,本发明是添加了一层注意力层在交互策略中来发展更深的交互。
本发明在模型中采用了分层架构,即词生成句子,句子生成文档的结构,也就是划分为词水平和句子水平。其中所述注意力层在词水平上采用标准注意力机制,在句子水平上采用自交互注意力机制,即在词生成句子的表示过程中采用了标准注意力机制,而在句子生成文档的表示过程中采用了自交互注意力机制。
图11是根据本发明的一个实施例的一种文档分类设备的示意性方框图。
参照图11,在一种文档分类设备110中,包括:处理器111、存储器112。
处理器111,根据获取的输入源元素和输入背景,确定所述输入源元素和输入背景的交互,其中所述输入背景根据所述输入源元素来构建;将所有交互信息表示成交互矩阵;通过平均化交互层、最大化交互层和注意力层将所述交互矩阵转化为文本表示。
存储器112,存储所述转化的文本表示。
本发明实施例还提供一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行以下所述的方法:
根据获取的输入源元素和输入背景,确定所述输入源元素和输入背景的交互,其中所述输入背景根据所述输入源元素来构建;
将所有交互信息表示成交互矩阵;
通过平均化交互层、最大化交互层和注意力层将所述交互矩阵转化为文本表示。
上文中已经参考附图详细描述了根据本发明的技术方案。
此外,根据本发明的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。
或者,本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本发明的上述方法的各个步骤。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
所属领域的普通技术人员应当理解:以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文档分类方法,其特征在于,包括:
根据获取的输入源元素和输入背景,确定所述输入源元素和输入背景的交互,其中所述输入背景根据所述输入源元素来构建;
将所有交互信息表示成交互矩阵;
通过平均化交互层、最大化交互层和注意力层将所述交互矩阵转化为文本表示。
2.根据权利要求1所述的方法,其特征在于,所述根据获取的输入源元素和输入背景,确定所述输入源元素和输入背景的交互,其中所述输入背景根据所述输入源元素来构建,包括:
将获取的输入源元素进行向量化,得到输入源元素向量;
通过多层感知器分别得到所述输入源元素的隐形表示和获取的输入背景的隐形表示,其中所述输入背景是将每个输入源元素视为对应的背景;
确定所述输入源元素和所述输入背景的交互。
3.根据权利要求2所述的方法,其特征在于,所述确定所述输入源元素和所述输入背景的交互,包括:
使用注意力机制确定所述输入源元素和所述输入背景的交互。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述通过平均化交互层、最大化交互层将所述交互矩阵转化为文本表示,包括:
在平均化交互层采用平均池化,将所述交互矩阵转化为文本表示;
在最大化交互层应用最大化池化,将所述交互矩阵转化为文本表示。
5.根据权利要求1至3任一项所述的方法,其特征在于,所述通过注意力层将所述交互矩阵转化为文本表示,包括:
将交互矩阵中的每个交互通过多层感知器来获得对应的隐式表示;
获得所述交互对应的隐形表示的权重分布;
根据获得的权重分布,在注意力层将交互矩阵转化为固定维度的文本表示。
6.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:
所述注意力层在词水平上采用标准注意力机制,在句子水平上采用自交互注意力机制。
7.一种文档分类装置,其特征在于,包括:
交互模块,用于根据获取的输入源元素和输入背景,确定所述输入源元素和输入背景的交互,其中所述输入背景根据所述输入源元素来构建;
矩阵模块,用于将所述交互模块的所有交互信息表示成交互矩阵;
转化模块,用于通过平均化交互层、最大化交互层和注意力层将所述矩阵模块的交互矩阵转化为文本表示。
8.根据权利要求7所述的装置,其特征在于,所述交互模块包括:
向量子模块,用于将获取的输入源元素进行向量化,得到输入源元素向量;
隐形子模块,用于通过多层感知器分别得到所述输入源元素的隐形表示和获取的输入背景的隐形表示,其中所述输入背景是将每个输入源元素视为对应的背景;
交互处理子模块,用于确定所述输入源元素和所述输入背景的交互。
9.根据权利要求7或8所述的装置,其特征在于,所述转化模块包括:
平均化交互层子模块,用于在平均化交互层采用平均池化,将所述交互矩阵转化为文本表示;
最大化交互层子模块,用于在最大化交互层应用最大化池化,将所述交互矩阵转化为文本表示。
10.根据权利要求9所述的装置,其特征在于,所述转化模块还包括:
注意力层子模块,用于将交互矩阵中的每个交互通过多层感知器来获得对应的隐式表示,获得所述交互对应的隐形表示的权重分布,根据获得的权重分布,在注意力层将交互矩阵转化为固定维度的文本表示。
CN201810983329.2A 2018-08-27 2018-08-27 一种文档分类方法及装置 Pending CN109241284A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810983329.2A CN109241284A (zh) 2018-08-27 2018-08-27 一种文档分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810983329.2A CN109241284A (zh) 2018-08-27 2018-08-27 一种文档分类方法及装置

Publications (1)

Publication Number Publication Date
CN109241284A true CN109241284A (zh) 2019-01-18

Family

ID=65069310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810983329.2A Pending CN109241284A (zh) 2018-08-27 2018-08-27 一种文档分类方法及装置

Country Status (1)

Country Link
CN (1) CN109241284A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263171A (zh) * 2019-06-25 2019-09-20 腾讯科技(深圳)有限公司 文档分类方法、装置及终端
CN113469479A (zh) * 2020-03-31 2021-10-01 阿里巴巴集团控股有限公司 合同风险预测方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102725711A (zh) * 2010-01-27 2012-10-10 微软公司 边缘手势
CN107169035A (zh) * 2017-04-19 2017-09-15 华南理工大学 一种混合长短期记忆网络和卷积神经网络的文本分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102725711A (zh) * 2010-01-27 2012-10-10 微软公司 边缘手势
CN107169035A (zh) * 2017-04-19 2017-09-15 华南理工大学 一种混合长短期记忆网络和卷积神经网络的文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JIANMING ZHENG等: "Self-Interaction Attention Mechanism-Based Text Representation for Document Classification", 《HTTP://WWW.RESEARCHGATE.NET/PUBLICATION/324486274》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263171A (zh) * 2019-06-25 2019-09-20 腾讯科技(深圳)有限公司 文档分类方法、装置及终端
CN110263171B (zh) * 2019-06-25 2023-07-18 腾讯科技(深圳)有限公司 文档分类方法、装置及终端
CN113469479A (zh) * 2020-03-31 2021-10-01 阿里巴巴集团控股有限公司 合同风险预测方法和装置

Similar Documents

Publication Publication Date Title
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
CN106202010B (zh) 基于深度神经网络构建法律文本语法树的方法和装置
Liu et al. Dynamic prefix-tuning for generative template-based event extraction
CN108280112A (zh) 摘要生成方法、装置及计算机设备
CN107515855B (zh) 一种结合表情符的微博情感分析方法和系统
CN108363790A (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN107644014A (zh) 一种基于双向lstm和crf的命名实体识别方法
CN107341145A (zh) 一种基于深度学习的用户情感分析方法
CN112232087B (zh) 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
CN109726745A (zh) 一种融入描述知识的基于目标的情感分类方法
CN108763191A (zh) 一种文本摘要生成方法及系统
CN107679225A (zh) 一种基于关键词的回复生成方法
CN110458373A (zh) 一种基于知识图谱融合的犯罪预测方法及系统
CN109961041A (zh) 一种视频识别方法、装置及存储介质
Hao et al. Structured prompting: Scaling in-context learning to 1,000 examples
CN107967497A (zh) 基于卷积神经网络和极限学习机的手写体识别方法
CN110490686A (zh) 一种基于时间感知的商品评分模型构建、推荐方法及系统
CN108920446A (zh) 一种工程文本的处理方法
CN110472062A (zh) 识别命名实体的方法及装置
CN109241284A (zh) 一种文档分类方法及装置
CN112348911A (zh) 基于语义约束的堆叠文本生成细粒度图像方法及系统
CN115392237A (zh) 情感分析模型训练方法、装置、设备及存储介质
US20230005572A1 (en) Molecular structure acquisition method and apparatus, electronic device and storage medium
CN111680519B (zh) 基于降维桶模型的文本翻译方法及装置
CN109670171B (zh) 一种基于词对非对称共现的词向量表示学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190118