CN107180247A - 基于选择性注意力卷积神经网络的关系分类器及其方法 - Google Patents

基于选择性注意力卷积神经网络的关系分类器及其方法 Download PDF

Info

Publication number
CN107180247A
CN107180247A CN201710354956.5A CN201710354956A CN107180247A CN 107180247 A CN107180247 A CN 107180247A CN 201710354956 A CN201710354956 A CN 201710354956A CN 107180247 A CN107180247 A CN 107180247A
Authority
CN
China
Prior art keywords
word
layer
vector
coding
msub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710354956.5A
Other languages
English (en)
Inventor
李博
赵翔
唐九阳
肖卫东
曾维新
林伟宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201710354956.5A priority Critical patent/CN107180247A/zh
Publication of CN107180247A publication Critical patent/CN107180247A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于选择性注意力卷积神经网络的关系分类器及其分类方法,其涉及关系抽取和分类技术领域。该关系分类器包括四层结构,第一层至第四层结构依次为编码层、卷积层、选择性注意力层、池化和softmax层;其中,所述编码层用于将句子中的词转换为低维实数向量;所述卷积层用于获取每个词的高层特征;所述选择性注意力层用于通过最短依赖路径找出与两实体语义联系最紧密的词,由权重矩阵表示;所述池化和softmax层用于构建出句子向量表示,分类得到目标关系。在该关系分类器中结合使用句义和词义信息,抽取特征更加有效,在CNN上考虑了句法结构信息,对关键词语添加了选择性注意,提高了最终分类效果。

Description

基于选择性注意力卷积神经网络的关系分类器及其方法
技术领域
本发明涉及关系抽取和分类技术领域,特指一种基于选择性注意力卷积神经网络的关系分类器及其分类方法。
背景技术
目前在世界范围内已有的关系抽取技术主要可以分为3种:基于模式匹配的方法、基于机器学习的关系抽取方法和开放域信息抽取方法。基于模式匹配的方法利用人工构建的模式匹配关系,需要人工设计模式其领取迁移性差;开放域信息抽取方法抽取一定句子谓语作为主语和宾语之间的关系字符串,然后将关系字符串聚类得到关系,该方法抽取准确度差且抽取出的关系难以映射到构建数据库需要的关系。而基于机器学习的关系抽取技术将抽取问题转化为已知预定义关系类型下的关系分类问题,其保证了抽取准确性并仅有很少的人工干预。
而基于机器学习的关系抽取技术主要分为3种:基于特征的关系分类方法、基于树核的关系分类方法和基于网络的关系分类方法。基于特征的方法抽取大量语言学(词义和语法)特征,组合特征形成特征向量并利用各类分类器(例如最大熵模型和支持向量机等)进行分类得到目标关系,其需要专家设计特征,难以迁移领域。基于树核的方法将文本通过语法树表示,通过设计核函数得到两句子在高维稀疏空间上的内积作为其结构化特征,该方法核函数提取特征局限性大,分类准确率不高。近几年来,利用神经网络的方法提出了一系列的关系分类方法,但当前的关系分类方法多少存在一些模型复杂度较高,或者分类效果不好的问题。
另外,国内外基于神经网络的关系分类算法的代表性工作主要包括,基于卷积神经网络的方法(CNN)[1],基于排序卷积神经网络的方法(CR-CNN)[2],基于递归神经网络的方法(RNN)[3],基于带注意力的双向长短时记忆模型的方法(ATT-BLSTM)[4]等方法。这些方法都是将待抽取关系的句子和实体输入神经网络,利用神经网络获取特征后分类到预定义关系类型,来得到目标关系。
和本发明最接近的是基于卷积神经网络的方法[1](如图1),它利用外部训练的词向量和表示词语与实体距离的位置向量结合得到词语向量,结合句子中所有词语向量作为句子向量,然后将句子向量输入卷积神经网络,利用卷积层获取局部特征,利用池化层得到明显特征,之后经过softmax层得到分类关系。
现有技术中的关系分类方法主要存在以下不足:基于特征的关系分类方法需要人工设计特征,迁移性差;基于树核的方法只能通过定义核函数获取特征,特征单一;而基于神经网络的方法中CNN(卷积神经网络)便于实现且训练效率高,分类效果好,而其他更复杂的方法训练效率较低且难以取得和CNN相当的分类效果。但其仍然法仍存在如下方面的问题:经常无法发现与关系紧密相关的词语特征。譬如,“We poured the milk,which ismade in China,into the mixture。”中既包含“made”又包含“into”,其中“made”与Product-Producer关系紧密相关,“pour”和“into”与Entity-Destination关系联系紧密;CNN倾向于抽取出“made”的高层特征而将“milk”和“mixture”分类为Product-Producer关系,但其实两者之间为Entity-Destination关系。换言之,将实体间的词输入神经网络,当出现从句(clauses)等实体间距较大的样本时,CNN(卷积神经网络)不能正确抽取特征或抽取的特征和实体无关联。
[1]Zeng D,Liu K,Lai S,Zhou G,Zhao J。Relation Classification viaConvolutional Deep Neural Network[C]//COLING。2014:2335-2344。
[2]Santos C N,Xiang B,Zhou B。Classifying relations by ranking withconvolutional neural networks[C]//ACL(1)。2015:626-634
[3]Hashimoto K,Miwa M,Tsuruoka Y,Chikayama T。Simple Customization ofRecursive Neural Networks for Semantic Relation Classification[C]//EMNLP。2013:1372-1376。
[4]Zhou P,Shi W,Tian J,Qi Z,Li B,Hao H,Xu B。Attention-basedbidirectional long short-term memory networks for relation classification[C]//ACL(2)。2016:207。
发明内容
本发明的目的在于克服上述现有技术的不足,提出一种基于选择性注意力卷积神经网络(SA-CNN)的关系分类器。
为实现上述目的,一方面,本发明提出以下技术方案:
一种基于选择性注意力卷积神经网络(SA-CNN)的关系分类器,其特征在于,该关系分类器包括四层结构,第一层至第四层结构依次为编码层、卷积层、选择性注意力层、池化和softmax层;
其中,所述编码层用于将句子中的词转换为低维实数向量;所述卷积层用于获取每个词的高层特征;所述选择性注意力层用于通过最短依赖路径找出与两实体语义联系最紧密的词,由权重矩阵表示;所述池化和softmax层用于构建出句子向量表示,分类得到目标关系。
作为本发明的优选技术方案,所述编码层中,词的编码表示包括词编码、位置编码和依赖编码;
其中,词编码具体包括:已知一个句子x其包含n个词,表示为x=[x1,x2,…xn],其中xi表示在该序列中第i个词,n为预先设定的填充截取长度。每个词xi通过查找词向量表W获得其对应词向量表示ei,即ei=Wxi
其中,位置编码具体包括:利用每个词与和实体的距离生成位置特征向量,使用每个词xi与两个实体在句子中的距离i-i1和i-i2对应在位置特征编码表D中的向量作为位置编码,记作为位置特征编码表使用随机值初始化;
其中,依赖编码具体包括:使用词与上层节点的距离生成依赖方向向量,利用词之间依赖关系的标签生成依赖特征向量;
将每个词的词编码、位置编码和依赖编码串联在一起作为该每个词的编码表示。
作为本发明的优选技术方案,所述卷积层用于融合所有局部特征,所述卷积层通过一个大小为w的滑窗来抽取局部特征;
具体地,卷积核为矩阵f=[f1,f2,…,fw],则在卷积之后得到特征序列s=[s1,s2,…,sn];
其中,
其中,b为偏置项,g是一个非线性函数,使用不同的卷积核和窗口大小即可获取不同的特征。
作为本发明的优选技术方案,所述选择性注意力层包括:对关键词和非关键词分别进行加权,将处于关键词附近的词也进行选择性注意;
具体地,设置关键词权重系数α及距离衰减系数β,对于每一单词其权重为qi,由该单词到最短依赖路径上单词的最短距离dq决定,即:
则选择性注意权重矩阵为:
MA=[q1,q2,...,qn]·E
其中E为单位矩阵,因此,经过该选择性注意力层后的特征矩阵为:
sA=MA·s
其中s为编码后的向量。
作为本发明的优选技术方案,所述池化和softmax层中,使用max函数获取最重要特征,则对于每一卷积核其卷积分数为:
pf=max{sA}
将每一卷积核得到的池化分数串联用于表示该句子的特征向量z=[p1,p2,...,pm],其中m为卷积核数量;
最后,给特征向量加上非线性函数并输入softmax层,即可得到句子的目标关系。
为实现上述目的,另一方面,本发明提出以下技术方案:
一种基于选择性注意力卷积神经网络(SA-CNN)的关系分类方法,包括以下步骤:
S1.将句子文本输入编码层,编码层对句子文本的每个词通过词向量矩阵转换为低维向量,给每个词添加位置特征向量以标识实体位置,对句子单词的编码包括词编码、位置编码和编码;
对每一个词,串联词向量ei、两实体的位置向量依赖方向向量pi以及依赖特征向量fi得到每一个词Xi的表示向量,即,
而句子的编码表示则为:
X=[X1,X2,...Xn]
S2.采用一个卷积层来融合所有局部特征,该卷积层通过一个大小为w的滑窗来抽取局部特征,当滑窗在边界附近可能越界,可在句子两边填充零向量来保证卷积后维数不变;
具体地,卷积核为矩阵f=[f1,f2,…,fw],则在卷积之后得到特征序列s=[s1,s2,…,sn],其中,
其中,b为偏置项,g是一个非线性函数,使用不同的卷积核和窗口大小即可获取不同的特征;
S3.采用一个选择性注意力层对关键词和非关键词分别进行加权,由于决定实体间关系的词序列不仅是一个词,因此将处于关键词附近的词也进行选择性注意。具体地,设置关键词权重系数α及距离衰减系数β,对于每一单词其权重为qi,由该单词到最短依赖路径上单词的最短距离dq决定,即:
则选择性注意权重矩阵为:
MA=[q1,q2,...,qn]·E
其中E为单位矩阵,因此,经过该选择性注意力层后的特征矩阵为:
sA=MA·s,其中s为编码后的向量;
S4.设置一个池化和softmax层,在池化层,使用max函数获取最重要特征,则对于每一卷积核其卷积分数为:
pf=max{sA}
将每一卷积核得到的池化分数串联用于表示该句子的特征向量z=[p1,p2,...,pm],其中m为卷积核数量。
最后,给特征向量加上非线性函数并输入softmax层,即可得到句子的目标关系。
与现有技术相比,本发明具有以下有益效果:
1、本发明提出了一个基于选择性注意力卷积神经网络的关系分类器,在该关系分类器中结合使用句义和词义信息,抽取特征更加有效,分类效果更好;
2、本发明的关系分类器结构简单,实现容易且训练过程快;发明首先在最开始的文本表示阶段就不仅仅使用词向量和位置向量,还添加了表示句法信息的依赖关系向量,其次在卷积神经网络中添加了基于实体间最短依赖路径的选择性注意力层,从两个方面提高了模型对句义的理解,结合句义关注和关系紧密相关的词语,更善于处理长实体间距的关系分类。和其他方法相比,本发明在CNN上考虑了句法结构信息,对关键词语添加了选择性注意,提高了最终分类效果。
附图说明
图1是背景技术中基于卷积神经网络的关系分类结构图;
图2是本发明的一种基于选择性注意力卷积神经网络(SA-CNN)关系分类器结构图;
图3是本发明实施例中依赖分析树结构图;
图4是本发明一种基于选择性注意力卷积神经网络(SA-CNN)关系分类分类方法流程图。
具体实施方式
本发明涉及信息抽取中的关系抽取技术,尤其涉及基于机器学习的关系分类方法。现有的关系抽取技术主流做法是通过关系分类方法实现的。
本发明利用现有的词向量训练技术和语法分析工具对文本进行表示,在此基础上我们进行基于神经网络的关系分类。本发明主要包括神经网络编码层,卷积层,选择性注意力层,池化和softmax层。本发明主要通过关系分类方法,实现关系抽取技术。关系抽取,即从无格式文本中识别并生成实体之间的语义关系。例如,输入文本“Financial stress isone of the main causes of divorce”,其中已标注实体e1=“stress”和e2=“divorce”,关系分类任务将自动识别实体e1和e2之间存在Cause-Effect关系,并表示为Cause-Effect(e1,e2)。
下面将结合本申请说明书附图,对本发明的一种基于选择性注意力卷积神经网络(SA-CNN)的关系分类器及其分类方法的具体实施例做进一步详细说明,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图2所示,该关系分类器包括四层结构,第一层至第四层结构依次为编码层、卷积层、选择性注意力层、池化和softmax层。
首先,编码层将句子中的词转换为低维实数向量,位于编码层之上的卷积层获取每个词的高层特征;接着,选择性注意力层通过最短依赖路径找出与两实体语义联系最紧密的词,由权重矩阵表示;然后,通过选择性注意力层提高编码器对关键词注意力;最后,经由池化和softmax层构建出句子向量表示,得到目标分类关系。
下面对该于选择性注意力卷积神经网络(SA-CNN)的关系分类器及其分类方法中各层模块的结构和功能进行详细介绍:
编码层
基于选择性注意力卷积神经网络(SA-CNN)的关系分类器的输入是原始句子文本,由于CNN只能处理定长输入,因此在输入之前将原始句子填充为长度一致的词序列,本实施例中设置目标长度为数据集最长句子长度n,填充词为“NaN”。在所述编码层,每个词通过词向量矩阵转换为低维向量,为标识实体位置,本实施例中,给每个词添加位置特征向量。此外,为提高系统对句子依赖结构理解,本实施例中,给每个词添加依赖方向向量和依赖特征向量。
编码层中,词的编码表示包括词编码、位置编码和依赖编码。
其中,词编码为:已知一个句子x其包含n个词,表示为x=[x1,x2,…xn],其中xi表示在该序列中第i个词,n为预先设定的填充截取长度。每个词xi通过查找词向量表W获得其对应词向量表示ei,即ei=Wxi;本实施例中使用开源词向量训练工具(谷歌word2vec)通过对维基百科离线数据训练得到词向量表。
其中,位置编码为:实体在句子中的位置影响实体间的关系,不添加位置特征向量时,CNN将无法识别句中哪个词为实体,导致分类效果差。为解决CNN存在的技术不足,本实施例中的SA-CNN利用每个词与和实体的距离生成位置特征向量,例如,在句子“Financialstress is one of the main causes of divorce。”中,词“main”和实体“stress”距离为5,和实体“divorce”距离为-3。具体地,使用每个词xi与两个实体在句子中的距离i-i1和i-i2对应在位置特征编码表D中的向量作为位置编码,记作为位置特征编码表使用随机值初始化。
其中,依赖编码为:基于依赖分析树的依赖编码包括依赖方向向量和依赖特征向量;依赖分析树是对句子结构分析后根据词之间相互依赖关系构成的树,是句义理解的基本工具。如图4所示(斯坦福句法分析工具分析结果),在依赖分析树中,除根节点外的每一节点与上级节点之间存在依赖关系,依赖关系不仅包含其上级节点还包括依赖标签。在本实施例中,使用词与上层节点的距离生成依赖方向向量,利用词之间依赖关系的标签生成依赖特征向量。
例如,“city”与上级节点“go”距离为3,特征标签为“nmod;“go”与上级节点“intends”距离为2,特征标签为“xcomp”,借鉴位置编码的方式,利用每个词与上一词的距离对应在依赖方向编码表P中的实数向量作为pi,利用依赖标签对应在依赖特征编码表F中的向量作为fi,依赖方向编码表和依赖特征编码表使用随机值初始化。
至此,将每个词的词编码、位置编码和依赖编码串联在一起作为该词的编码表示,而对于填充词,设置唯一向量进行标识。具体地,对每一个词,串联词向量ei、两实体的位置向量依赖方向向量pi以及依赖特征向量fi得到每一个词Xi的表示向量,即,
而句子的编码表示则为:
X=[X1,X2,...Xn]。
卷积层
关系分类的最大挑战源自语义表述多样性,重要信息在句中的位置不是固定的。因此,本实施例中采用一个卷积层来融合所有局部特征,该卷积层通过一个大小为w的滑窗来抽取局部特征,当滑窗在边界附近可能越界,可在句子两边填充零向量来保证卷积后维数不变。
具体地,卷积核为矩阵f=[f1,f2,…,fw],则在卷积之后得到特征序列s=[s1,s2,…,sn],其中,
其中,b为偏置项,g是一个非线性函数,使用不同的卷积核和窗口大小即可获取不同的特征。
选择性注意力层
两实体之间的最短依赖路径定义为该句的依赖分析树中两实体的最短路径,其表示了两实体的最短依赖关系;二最短依赖路径上的词为关键词。例如,“A thief,whointends to go to the city,broke the ignition with screwdriver.”,其依赖分析树如图3所示,“thief”和“screwdriver”的最短依赖路径为“thief-nsubj-broke-nmod-screwdriver”。最短依赖路径上词对关系抽取影响最大,“thief”和“screwdriver”之间为Instrument-Agency关系,而关键路径上的“broke”也和该关系联系紧密。该句中还包含“go”,“go”和Entity-Destination关系联系紧密。若不考虑关键词对关系分类的影响,很可能会判断为Entity-Destination关系,造成错误分类。
因此,在本具体实施例中,对关键词和非关键词分别进行加权。由于决定实体间关系的词序列不仅是一个词,因此将处于关键词附近的词也进行选择性注意。具体地,设置关键词权重系数α(α>1)及距离衰减系数β(0<β<1),对于每一单词其权重为qi,由该单词到最短依赖路径上单词的最短距离dq决定,即:
则选择性注意权重矩阵为:
MA=[q1,q2,...qn]·E。
其中E为单位矩阵。因此,经过该选择性注意力层后的特征矩阵为:
SA=MA·S,其中s为编码后的向量。
池化和softmax层
在池化层,使用max函数获取最重要特征,则对于每一卷积核其卷积分数为:
pf=max{sA}。
将每一卷积核得到的池化分数串联用于表示该句子的特征向量z=[p1,p2,...,pm],其中m为卷积核数量。
最后,给特征向量加上非线性函数并输入softmax层,即可得到句子的目标关系。
本发明针对关系分类问题,提供了一种更加有效和全面的特征抽取和编码方式,提高了关系分类的效果。
本领域技术人员将清楚本发明的范围不限制于以上讨论的示例,有可能对其进行若干改变和修改,而不脱离所附权利要求书限定的本发明的范围。尽管己经在附图和说明书中详细图示和描述了本发明,但这样的说明和描述仅是说明或示意性的,而非限制性的。本发明并不限于所公开的实施例。

Claims (6)

1.一种基于选择性注意力卷积神经网络(SA-CNN)的关系分类器,其特征在于,该关系分类器包括四层结构,第一层至第四层结构依次为编码层、卷积层、选择性注意力层、池化和softmax层;
其中,所述编码层用于将句子中的词转换为低维实数向量;所述卷积层用于获取每个词的高层特征;所述选择性注意力层用于通过最短依赖路径找出与两实体语义联系最紧密的词,由权重矩阵表示;所述池化和softmax层用于构建出句子向量表示,得到目标分类关系。
2.根据权利要求1所述的一种基于选择性注意力卷积神经网络(SA-CNN)的关系分类器,其特征在于,所述编码层中,词的编码表示包括词编码、位置编码和依赖编码;
其中,词编码具体包括:已知一个句子x其包含n个词,表示为x=[x1,x2,…xn],其中xi表示在该序列中第i个词,n为预先设定的填充截取长度。每个词xi通过查找词向量表W获得其对应词向量表示ei,即ei=Wxi
其中,位置编码具体包括:利用每个词与和实体的距离生成位置特征向量,使用每个词xi与两个实体在句子中的距离i-i1和i-i2对应在位置特征编码表D中的向量作为位置编码,记作为位置特征编码表使用随机值初始化;
其中,依赖编码具体包括:使用词与上层节点的距离生成依赖方向向量,利用词之间依赖关系的标签生成依赖特征向量;
将每个词的词编码、位置编码和依赖编码串联在一起作为该每个词的编码表示。
3.根据权利要求1所述的一种基于选择性注意力卷积神经网络(SA-CNN)的关系分类器,其特征在于,所述卷积层用于融合所有局部特征,所述卷积层通过一个大小为w的滑窗来抽取局部特征;
具体地,卷积核为矩阵f=[f1,f2,…,fw],则在卷积之后得到特征序列s=[s1,s2,…,sn];
其中,
<mrow> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>g</mi> <mrow> <mo>(</mo> <msubsup> <mi>&amp;Sigma;f</mi> <mrow> <mi>j</mi> <mo>+</mo> <mn>1</mn> </mrow> <mi>T</mi> </msubsup> <msubsup> <mi>X</mi> <mrow> <mi>j</mi> <mo>+</mo> <mn>1</mn> </mrow> <mi>T</mi> </msubsup> <mo>+</mo> <mi>b</mi> <mo>)</mo> </mrow> </mrow>
其中,b为偏置项,g是一个非线性函数,使用不同的卷积核和窗口大小即可获取不同的特征。
4.根据权利要求1所述的一种基于选择性注意力卷积神经网络(SA-CNN)的关系分类器,其特征在于,所述选择性注意力层包括:对关键词和非关键词分别进行加权,将处于关键词附近的词也进行选择性注意;
具体地,设置关键词权重系数α及距离衰减系数β,对于每一单词其权重为qi,由该单词到最短依赖路径上单词的最短距离dq决定,即:
qi=α·βd q
则选择性注意权重矩阵为:
MA=[q1,q2,…,qn]·E
其中E为单位矩阵,因此,经过该选择性注意力层后的特征矩阵为:
sA=MA·s
其中s为编码后的向量。
5.根据权利要求1所述的一种基于选择性注意力卷积神经网络(SA-CNN)的关系分类器,其特征在于,所述池化和softmax层中,使用max函数获取最重要特征,则对于每一卷积核其卷积分数为:
pf=max{sA}
将每一卷积核得到的池化分数串联用于表示该句子的特征向量z=[p1,p2,…,pm],其中m为卷积核数量;
最后,给特征向量加上非线性函数并输入softmax层,即可得到句子的目标关系。
6.一种基于选择性注意力卷积神经网络(SA-CNN)的关系分类方法,其特征在于,包括以下步骤:
S1.将句子文本输入编码层,编码层对句子文本的每个词通过词向量矩阵转换为低维向量,给每个词添加位置特征向量以标识实体位置,对句子单词的编码包括词编码、位置编码和编码;
对每一个词,串联词向量ei、两实体的位置向量依赖方向向量pi以及依赖特征向量fi得到每一个词Xi的表示向量,即,
<mrow> <msub> <mi>X</mi> <mi>i</mi> </msub> <mo>=</mo> <msup> <mrow> <mo>&amp;lsqb;</mo> <msub> <mi>e</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>d</mi> <msub> <mi>i</mi> <mn>1</mn> </msub> </msub> <mo>+</mo> <msub> <mi>d</mi> <msub> <mi>i</mi> <mn>2</mn> </msub> </msub> <mo>+</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>&amp;rsqb;</mo> </mrow> <mi>T</mi> </msup> <mo>,</mo> </mrow>
而句子的编码表示则为:
X=[X1,X2,…Xn]
S2.采用一个卷积层来融合所有局部特征,该卷积层通过一个大小为w的滑窗来抽取局部特征,当滑窗在边界附近可能越界,可在句子两边填充零向量来保证卷积后维数不变;
具体地,卷积核为矩阵f=[f1,f2,…,fw],则在卷积之后得到特征序列s=[s1,s2,…,sn],其中,
<mrow> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>g</mi> <mrow> <mo>(</mo> <msubsup> <mi>&amp;Sigma;f</mi> <mrow> <mi>j</mi> <mo>+</mo> <mn>1</mn> </mrow> <mi>T</mi> </msubsup> <msubsup> <mi>X</mi> <mrow> <mi>j</mi> <mo>+</mo> <mn>1</mn> </mrow> <mi>T</mi> </msubsup> <mo>+</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>,</mo> </mrow>
其中,b为偏置项,g是一个非线性函数,使用不同的卷积核和窗口大小即可获取不同的特征;
S3.采用一个选择性注意力层对关键词和非关键词分别进行加权,并将处于关键词附近的词也进行选择性注意;
具体地,设置关键词权重系数α及距离衰减系数β,对于每一单词其权重为qi,由该单词到最短依赖路径上单词的最短距离dq决定,即:
qi=α·βd q
则选择性注意权重矩阵为:
MA=[q1,q2,…,qn]·E
其中E为单位矩阵,因此,经过该选择性注意力层后的特征矩阵为:
sA=MA·s,其中s为编码后的向量;
S4.设置一个池化和softmax层,在池化层,使用max函数获取最重要特征,则对于每一卷积核其卷积分数为:
pf=max{sA}
将每一卷积核得到的池化分数串联用于表示该句子的特征向量z=[p1,p2,…,pm],其中m为卷积核数量。
最后,给特征向量加上非线性函数并输入softmax层,即可得到句子的目标关系。
CN201710354956.5A 2017-05-19 2017-05-19 基于选择性注意力卷积神经网络的关系分类器及其方法 Pending CN107180247A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710354956.5A CN107180247A (zh) 2017-05-19 2017-05-19 基于选择性注意力卷积神经网络的关系分类器及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710354956.5A CN107180247A (zh) 2017-05-19 2017-05-19 基于选择性注意力卷积神经网络的关系分类器及其方法

Publications (1)

Publication Number Publication Date
CN107180247A true CN107180247A (zh) 2017-09-19

Family

ID=59832501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710354956.5A Pending CN107180247A (zh) 2017-05-19 2017-05-19 基于选择性注意力卷积神经网络的关系分类器及其方法

Country Status (1)

Country Link
CN (1) CN107180247A (zh)

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073711A (zh) * 2017-12-21 2018-05-25 北京大学深圳研究生院 一种基于知识图谱的关系抽取方法和系统
CN108447048A (zh) * 2018-02-23 2018-08-24 天津大学 基于关注层的卷积神经网络图像特征处理方法
CN108491836A (zh) * 2018-01-25 2018-09-04 华南理工大学 一种自然场景图像中中文文本整体识别方法
CN108536754A (zh) * 2018-03-14 2018-09-14 四川大学 基于blstm和注意力机制的电子病历实体关系抽取方法
CN108564106A (zh) * 2018-02-28 2018-09-21 首都师范大学 一种基于句法主语聚类的中文篇章主题表现力计算方法
CN108667816A (zh) * 2018-04-19 2018-10-16 重庆邮电大学 一种网络异常的检测定位方法及系统
CN108829722A (zh) * 2018-05-08 2018-11-16 国家计算机网络与信息安全管理中心 一种远程监督的Dual-Attention关系分类方法及系统
CN108875592A (zh) * 2018-04-13 2018-11-23 哈尔滨工程大学 一种基于注意力的卷积神经网络优化方法
CN109034378A (zh) * 2018-09-04 2018-12-18 腾讯科技(深圳)有限公司 神经网络的网络表示生成方法、装置、存储介质和设备
CN109117846A (zh) * 2018-08-22 2019-01-01 北京旷视科技有限公司 一种图像处理方法、装置、电子设备和计算机可读介质
CN109284378A (zh) * 2018-09-14 2019-01-29 北京邮电大学 一种面向知识图谱的关系分类方法
CN109299396A (zh) * 2018-11-28 2019-02-01 东北师范大学 融合注意力模型的卷积神经网络协同过滤推荐方法及系统
CN109446328A (zh) * 2018-11-02 2019-03-08 成都四方伟业软件股份有限公司 一种文本识别方法、装置及其存储介质
CN109710932A (zh) * 2018-12-22 2019-05-03 北京工业大学 一种基于特征融合的医疗实体关系抽取方法
CN109815478A (zh) * 2018-12-11 2019-05-28 北京大学 基于卷积神经网络的药化实体识别方法及系统
CN109857871A (zh) * 2019-01-28 2019-06-07 重庆邮电大学 一种基于社交网络海量情景数据的用户关系发现方法
CN109977199A (zh) * 2019-01-14 2019-07-05 浙江大学 一种基于注意力池化机制的阅读理解方法
CN110020682A (zh) * 2019-03-29 2019-07-16 北京工商大学 一种基于小样本学习的注意力机制关系对比网络模型方法
CN110348001A (zh) * 2018-04-04 2019-10-18 腾讯科技(深圳)有限公司 一种词向量训练方法和服务器
CN110362809A (zh) * 2018-03-26 2019-10-22 优酷网络技术(北京)有限公司 文本分析方法及装置
CN110362810A (zh) * 2018-03-26 2019-10-22 优酷网络技术(北京)有限公司 文本分析方法及装置
CN110362808A (zh) * 2018-03-26 2019-10-22 优酷网络技术(北京)有限公司 文本分析方法及装置
CN110555104A (zh) * 2018-03-26 2019-12-10 优酷网络技术(北京)有限公司 文本分析方法及装置
CN110688486A (zh) * 2019-09-26 2020-01-14 北京明略软件系统有限公司 一种关系分类的方法和模型
CN110738090A (zh) * 2018-07-19 2020-01-31 塔塔咨询服务公司 使用神经网络进行端到端手写文本识别的系统和方法
CN110888944A (zh) * 2019-11-20 2020-03-17 中山大学 基于多卷积窗尺寸注意力卷积神经网络实体关系抽取方法
TWI689831B (zh) * 2018-02-05 2020-04-01 香港商阿里巴巴集團服務有限公司 詞向量產生方法、裝置以及設備
CN111177383A (zh) * 2019-12-24 2020-05-19 上海大学 一种融合文本语法结构和语义信息的文本实体关系自动分类方法
CN111291556A (zh) * 2019-12-17 2020-06-16 东华大学 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN111460142A (zh) * 2020-03-06 2020-07-28 南京邮电大学 一种基于自注意力卷积神经网络的短文本分类方法及系统
CN111666752A (zh) * 2020-04-20 2020-09-15 中山大学 一种基于关键词注意力机制的电路教材实体关系抽取方法
US10799182B2 (en) 2018-10-19 2020-10-13 Microsoft Technology Licensing, Llc Video-based physiological measurement using neural networks
CN112163425A (zh) * 2020-09-25 2021-01-01 大连民族大学 基于多特征信息增强的文本实体关系抽取方法
CN112612884A (zh) * 2020-11-27 2021-04-06 中山大学 一种基于公共文本的实体标签自动化标注方法
CN112818661A (zh) * 2021-01-28 2021-05-18 中国科学院科技战略咨询研究院 一种专利技术关键词非监督提取方法
US11010560B2 (en) 2018-11-08 2021-05-18 International Business Machines Corporation Multi-resolution convolutional neural networks for sequence modeling
CN112820412A (zh) * 2021-02-03 2021-05-18 东软集团股份有限公司 用户信息的处理方法、装置、存储介质和电子设备
CN113360582A (zh) * 2021-06-04 2021-09-07 中国人民解放军战略支援部队信息工程大学 基于bert模型融合多元实体信息的关系分类方法及系统
WO2022063057A1 (en) * 2020-09-23 2022-03-31 Jingdong Technology Holding Co., Ltd. Method and system for aspect-level sentiment classification by graph diffusion transformer

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160148096A1 (en) * 2014-11-21 2016-05-26 International Business Machines Corporation Extraction of semantic relations using distributional relation detection
CN106202044A (zh) * 2016-07-07 2016-12-07 武汉理工大学 一种基于深度神经网络的实体关系抽取方法
CN106570148A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于卷积神经网络的属性抽取方法
CN106649275A (zh) * 2016-12-28 2017-05-10 成都数联铭品科技有限公司 基于词性信息和卷积神经网络的关系抽取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160148096A1 (en) * 2014-11-21 2016-05-26 International Business Machines Corporation Extraction of semantic relations using distributional relation detection
CN106202044A (zh) * 2016-07-07 2016-12-07 武汉理工大学 一种基于深度神经网络的实体关系抽取方法
CN106570148A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于卷积神经网络的属性抽取方法
CN106649275A (zh) * 2016-12-28 2017-05-10 成都数联铭品科技有限公司 基于词性信息和卷积神经网络的关系抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李博 等: "改进的卷积神经网络关系分类方法研究", 《万方数据知识服务平台》 *

Cited By (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073711A (zh) * 2017-12-21 2018-05-25 北京大学深圳研究生院 一种基于知识图谱的关系抽取方法和系统
CN108073711B (zh) * 2017-12-21 2022-01-11 北京大学深圳研究生院 一种基于知识图谱的关系抽取方法和系统
CN108491836A (zh) * 2018-01-25 2018-09-04 华南理工大学 一种自然场景图像中中文文本整体识别方法
CN108491836B (zh) * 2018-01-25 2020-11-24 华南理工大学 一种自然场景图像中中文文本整体识别方法
TWI689831B (zh) * 2018-02-05 2020-04-01 香港商阿里巴巴集團服務有限公司 詞向量產生方法、裝置以及設備
CN108447048A (zh) * 2018-02-23 2018-08-24 天津大学 基于关注层的卷积神经网络图像特征处理方法
CN108447048B (zh) * 2018-02-23 2021-09-14 天津大学 基于关注层的卷积神经网络图像特征处理方法
CN108564106A (zh) * 2018-02-28 2018-09-21 首都师范大学 一种基于句法主语聚类的中文篇章主题表现力计算方法
CN108564106B (zh) * 2018-02-28 2020-10-20 首都师范大学 一种基于句法主语聚类的中文篇章主题表现力分析方法
CN108536754A (zh) * 2018-03-14 2018-09-14 四川大学 基于blstm和注意力机制的电子病历实体关系抽取方法
CN110362810B (zh) * 2018-03-26 2022-06-14 阿里巴巴(中国)有限公司 文本分析方法及装置
CN110362809B (zh) * 2018-03-26 2022-06-14 阿里巴巴(中国)有限公司 文本分析方法及装置
CN110362808B (zh) * 2018-03-26 2022-06-14 阿里巴巴(中国)有限公司 文本分析方法及装置
CN110555104B (zh) * 2018-03-26 2022-06-17 阿里巴巴(中国)有限公司 文本分析方法及装置
CN110362809A (zh) * 2018-03-26 2019-10-22 优酷网络技术(北京)有限公司 文本分析方法及装置
CN110362810A (zh) * 2018-03-26 2019-10-22 优酷网络技术(北京)有限公司 文本分析方法及装置
CN110362808A (zh) * 2018-03-26 2019-10-22 优酷网络技术(北京)有限公司 文本分析方法及装置
CN110555104A (zh) * 2018-03-26 2019-12-10 优酷网络技术(北京)有限公司 文本分析方法及装置
CN110348001B (zh) * 2018-04-04 2022-11-25 腾讯科技(深圳)有限公司 一种词向量训练方法和服务器
CN110348001A (zh) * 2018-04-04 2019-10-18 腾讯科技(深圳)有限公司 一种词向量训练方法和服务器
CN108875592A (zh) * 2018-04-13 2018-11-23 哈尔滨工程大学 一种基于注意力的卷积神经网络优化方法
CN108667816B (zh) * 2018-04-19 2021-07-13 重庆邮电大学 一种网络异常的检测定位方法及系统
CN108667816A (zh) * 2018-04-19 2018-10-16 重庆邮电大学 一种网络异常的检测定位方法及系统
CN108829722B (zh) * 2018-05-08 2020-10-02 国家计算机网络与信息安全管理中心 一种远程监督的Dual-Attention关系分类方法及系统
CN108829722A (zh) * 2018-05-08 2018-11-16 国家计算机网络与信息安全管理中心 一种远程监督的Dual-Attention关系分类方法及系统
CN110738090A (zh) * 2018-07-19 2020-01-31 塔塔咨询服务公司 使用神经网络进行端到端手写文本识别的系统和方法
CN110738090B (zh) * 2018-07-19 2023-10-27 塔塔咨询服务公司 使用神经网络进行端到端手写文本识别的系统和方法
CN109117846A (zh) * 2018-08-22 2019-01-01 北京旷视科技有限公司 一种图像处理方法、装置、电子设备和计算机可读介质
CN109117846B (zh) * 2018-08-22 2021-11-16 北京旷视科技有限公司 一种图像处理方法、装置、电子设备和计算机可读介质
US11875220B2 (en) 2018-09-04 2024-01-16 Tencent Technology (Shenzhen) Company Limited Method, apparatus, and storage medium for generating network representation for neural network
CN109034378B (zh) * 2018-09-04 2023-03-31 腾讯科技(深圳)有限公司 神经网络的网络表示生成方法、装置、存储介质和设备
CN109034378A (zh) * 2018-09-04 2018-12-18 腾讯科技(深圳)有限公司 神经网络的网络表示生成方法、装置、存储介质和设备
CN109284378A (zh) * 2018-09-14 2019-01-29 北京邮电大学 一种面向知识图谱的关系分类方法
US10799182B2 (en) 2018-10-19 2020-10-13 Microsoft Technology Licensing, Llc Video-based physiological measurement using neural networks
CN109446328A (zh) * 2018-11-02 2019-03-08 成都四方伟业软件股份有限公司 一种文本识别方法、装置及其存储介质
US11010560B2 (en) 2018-11-08 2021-05-18 International Business Machines Corporation Multi-resolution convolutional neural networks for sequence modeling
CN109299396A (zh) * 2018-11-28 2019-02-01 东北师范大学 融合注意力模型的卷积神经网络协同过滤推荐方法及系统
CN109815478A (zh) * 2018-12-11 2019-05-28 北京大学 基于卷积神经网络的药化实体识别方法及系统
CN109710932A (zh) * 2018-12-22 2019-05-03 北京工业大学 一种基于特征融合的医疗实体关系抽取方法
CN109977199A (zh) * 2019-01-14 2019-07-05 浙江大学 一种基于注意力池化机制的阅读理解方法
CN109857871A (zh) * 2019-01-28 2019-06-07 重庆邮电大学 一种基于社交网络海量情景数据的用户关系发现方法
CN110020682B (zh) * 2019-03-29 2021-02-26 北京工商大学 一种基于小样本学习的注意力机制关系对比网络模型方法
CN110020682A (zh) * 2019-03-29 2019-07-16 北京工商大学 一种基于小样本学习的注意力机制关系对比网络模型方法
CN110688486A (zh) * 2019-09-26 2020-01-14 北京明略软件系统有限公司 一种关系分类的方法和模型
CN110888944A (zh) * 2019-11-20 2020-03-17 中山大学 基于多卷积窗尺寸注意力卷积神经网络实体关系抽取方法
CN110888944B (zh) * 2019-11-20 2023-04-28 中山大学 基于多卷积窗尺寸注意力卷积神经网络实体关系抽取方法
CN111291556A (zh) * 2019-12-17 2020-06-16 东华大学 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN111291556B (zh) * 2019-12-17 2021-10-26 东华大学 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN111177383B (zh) * 2019-12-24 2024-01-16 上海大学 一种融合文本语法结构和语义信息的文本实体关系自动分类方法
CN111177383A (zh) * 2019-12-24 2020-05-19 上海大学 一种融合文本语法结构和语义信息的文本实体关系自动分类方法
CN111460142B (zh) * 2020-03-06 2022-09-23 南京邮电大学 一种基于自注意力卷积神经网络的短文本分类方法及系统
CN111460142A (zh) * 2020-03-06 2020-07-28 南京邮电大学 一种基于自注意力卷积神经网络的短文本分类方法及系统
CN111666752A (zh) * 2020-04-20 2020-09-15 中山大学 一种基于关键词注意力机制的电路教材实体关系抽取方法
CN111666752B (zh) * 2020-04-20 2023-05-09 中山大学 一种基于关键词注意力机制的电路教材实体关系抽取方法
US11868730B2 (en) 2020-09-23 2024-01-09 Jingdong Digits Technology Holding Co., Ltd. Method and system for aspect-level sentiment classification by graph diffusion transformer
WO2022063057A1 (en) * 2020-09-23 2022-03-31 Jingdong Technology Holding Co., Ltd. Method and system for aspect-level sentiment classification by graph diffusion transformer
CN112163425A (zh) * 2020-09-25 2021-01-01 大连民族大学 基于多特征信息增强的文本实体关系抽取方法
CN112163425B (zh) * 2020-09-25 2023-06-20 大连民族大学 基于多特征信息增强的文本实体关系抽取方法
CN112612884B (zh) * 2020-11-27 2024-03-12 中山大学 一种基于公共文本的实体标签自动化标注方法
CN112612884A (zh) * 2020-11-27 2021-04-06 中山大学 一种基于公共文本的实体标签自动化标注方法
CN112818661A (zh) * 2021-01-28 2021-05-18 中国科学院科技战略咨询研究院 一种专利技术关键词非监督提取方法
CN112820412B (zh) * 2021-02-03 2024-03-08 东软集团股份有限公司 用户信息的处理方法、装置、存储介质和电子设备
CN112820412A (zh) * 2021-02-03 2021-05-18 东软集团股份有限公司 用户信息的处理方法、装置、存储介质和电子设备
CN113360582B (zh) * 2021-06-04 2023-04-25 中国人民解放军战略支援部队信息工程大学 基于bert模型融合多元实体信息的关系分类方法及系统
CN113360582A (zh) * 2021-06-04 2021-09-07 中国人民解放军战略支援部队信息工程大学 基于bert模型融合多元实体信息的关系分类方法及系统

Similar Documents

Publication Publication Date Title
CN107180247A (zh) 基于选择性注意力卷积神经网络的关系分类器及其方法
CN107194422A (zh) 一种结合正反向实例的卷积神经网络关系分类方法
CN107967262B (zh) 一种神经网络蒙汉机器翻译方法
CN108073711A (zh) 一种基于知识图谱的关系抽取方法和系统
CN109885824B (zh) 一种层次的中文命名实体识别方法、装置及可读存储介质
CN106202010B (zh) 基于深度神经网络构建法律文本语法树的方法和装置
CN108133038A (zh) 一种基于动态记忆网络的实体级别情感分类系统及方法
CN107153713A (zh) 社交网络中基于节点间相似性的重叠社区检测方法及系统
CN107526799A (zh) 一种基于深度学习的知识图谱构建方法
CN110347843A (zh) 一种基于知识图谱的中文旅游领域知识服务平台构建方法
CN110390397B (zh) 一种文本蕴含识别方法及装置
CN112329467B (zh) 地址识别方法、装置、电子设备以及存储介质
CN108009285A (zh) 基于自然语言处理的林业生态环境人机交互方法
CN107832400A (zh) 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN109101552A (zh) 一种基于深度学习的钓鱼网站url检测方法
CN104408153A (zh) 一种基于多粒度主题模型的短文本哈希学习方法
CN107679661A (zh) 一种基于知识图谱的个性化旅游路线规划方法
CN105224622A (zh) 面向互联网的地名地址提取与标准化方法
CN109359297A (zh) 一种关系抽取方法及系统
CN107662617A (zh) 基于深度学习的车载交互控制算法
CN108596470A (zh) 一种基于TensorFlow框架的电力设备缺陷文本处理方法
CN109558492A (zh) 一种适于事件归因的上市公司知识图谱构建方法及装置
CN109189862A (zh) 一种面向科技情报分析的知识库构建方法
CN109857871A (zh) 一种基于社交网络海量情景数据的用户关系发现方法
CN109165273A (zh) 一种面向大数据环境的通用中文地址匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170919

RJ01 Rejection of invention patent application after publication