CN113468884A

CN113468884A - 一种中文事件触发词抽取方法及装置

Info

Publication number: CN113468884A
Application number: CN202110647875.0A
Authority: CN
Inventors: 杨昊; 赵刚; 王兴芬
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-10-01
Anticipated expiration: 2041-06-10
Also published as: CN113468884B

Abstract

本发明提供一种中文事件触发词抽取方法及装置。所述方法包括：对输入文本进行预处理；初始向量化；利用异构注意力网络，有侧重地捕捉与当前节点同一类型邻居节点的特征，有侧重地捕捉与当前节点不同类型邻居节点的特征；将类型注意力网络的输出输入到一个条件随机场，输出标注序列，实现触发词的抽取。本发明利用全分词和依存句法分析相结合，通过融入单词的义原信息，将单词的多个语义信息融合至字符之中，解决了触发词抽取任务中的歧义分词问题及中文词语语义歧义性的问题。本发明利用包括节点注意力网络和类型注意力网络的异构图注意力网络，能够有侧重地捕捉异构图中邻居节点的特征，提高了中文事件触发词的抽取的准确度。

Description

一种中文事件触发词抽取方法及装置

技术领域

本发明属于自然语言处理技术领域，具体涉及一种中文事件触发词抽取方法及装置。

背景技术

事件抽取作为信息抽取的一部分，在舆情分析、自动问答、知识推理等方面具有现实意义。事件抽取是指要求人们用人工或者自动的方法，从半结构化、非结构化数据中，识别出与目标相关的触发词。触发词作为事件的核心词，决定着事件的类型，故事件触发词的抽取作为事件抽取的子任务，具备深入研究的现实意义。现有中文的事件触发词抽取面临着歧义分词和词语语义歧义两大问题。现有的中文事件触发词抽取技术主要分为三种：一是利用传统的机器学习方法，其存在问题是在特征提取时过度依赖NLP工具，并且仅能捕获语句内的显示特征；二是利用CNN、RNN等神经网络及其各种改良的方法，其存在问题是依据固定分词，不能很好地解决歧义分词和词语语义歧义的问题；三是利用图卷积网络、图注意力网络等图神经网络的方法，其存在问题是多是仅利用字构建同构图结构或利用字与分词结果构建异构图结构，再利用图卷积网络或图注意力网络等方法，完成中文事件触发词的抽取，其并不能解决词语语义歧义的问题。

综上，现有中文触发词抽取技术由于特征捕获不完全和歧义问题均在一定程度上影响了字符的表征，进而影响了中文事件触发词的抽取效果。

发明内容

为了解决现有技术中存在的上述问题，本发明提供一种中文事件触发词抽取方法及装置。

为了实现上述目的，本发明采用以下技术方案。

第一方面，本发明提供一种中文事件触发词抽取方法，包括以下步骤：

对输入文本进行全分词、依存句法分析，提取依存句法分析中未出现的单词的所有义原；

对提取的字符、单词、义原进行初始向量化，利用双向长短期记忆网络BiLSTM对每个句子中的字符进行训练，得到每个字符能够记忆其句中前后字符特征的向量表征；

将BiLSTM的输出输入到节点注意力网络，有侧重地捕捉与当前节点同一类型邻居节点的特征，将节点注意力网络的输出输入到类型注意力网络，有侧重地捕捉与当前节点不同类型邻居节点的特征；节点类型包括字符节点、单词节点和义原节点；

将类型注意力网络的输出输入到一个条件随机场，输出标注序列，实现触发词的抽取。

进一步地，节点注意力网络的输出为：

e_ij＝LeakyReLU(v^τ[W_τh_i,W_τh_j])

式中，

为节点注意力网络第i个节点的输出向量，σ、LeakyReLU为激励函数，N_τ,i表示与第i个节点即当前节点相邻的τ类型节点的集合，W_τ为τ类型节点的维度变换矩阵，a_ij为第j个节点输入向量h_j的权重，e_ij为第i个节点与第j个节点的相似度，v^τ为τ类型节点的权重矩阵，h_i为第i个节点输入向量。

更进一步地，类型注意力网络的输出为：

式中，h_i′为类型注意力网络第i个节点的输出向量，β_i,τ为

的权重，m_i,τ为τ类型节点对输出向量的贡献程度，C_i为第i个节点邻居节点类型的集合，|C_i|为C_i的元素个数，q为注意力向量，tanh为激励函数，W、b分别为权重和偏置矩阵。

进一步地，对包括节点注意力网络和类型注意力网络的异构图注意力网络进行训练时，基于mask attention机制依次实现以下4个步骤的网络特征传播：

V_C→V_W：

V_W→V_S：

V_S→V_W：

V_W→V_C：

其中，V_c、V_w、V_s分别为字符节点，单词节点和义原节点；HGAT表示异构图注意力网络，GAT表示节点注意力网络，H_c、H_w、H_s分别为字符节点、单词节点和义原节点的矩阵表示，其上标为更新次数，初始矩阵为

网络特征传播采用端到端的训练方法，每一步传播过程采用残差连接方式解决梯度消失问题，即

其中，h′、h_i分别为当前传播步骤的输出和输入，

为下一传播步骤的输入。

进一步地，条件随机场的损失函数为：

Loss＝-log₁₀(p(Y|X))

式中，Loss为损失函数，X＝{x₁,x₂…,x_n}、Y＝{y₁,y₂…,y_n}分别为输入和输出序列，p(Y|X)为X序列被标记为Y序列的概率，S(X,Y)为得分函数，

为标注集合，Y′为任意一个标注，

为初始转移得分，

为结尾转移得分，

为由y_i-1转移到y_i的得分，

为x_i标记为y_i的得分，W_s、b_s分别为权重和偏置矩阵。

第二方面，本发明提供一种中文事件触发词抽取装置，包括：

预处理模块，用于对输入文本进行全分词、依存句法分析，提取依存句法分析中未出现的单词的所有义原；

初始化模块，用于对提取的字符、单词、义原进行初始向量化，利用双向长短期记忆网络BiLSTM对每个句子中的字符进行训练，得到每个字符能够记忆其句中前后字符特征的向量表征；

异构注意力模块，用于将BiLSTM的输出输入到节点注意力网络，有侧重地捕捉与当前节点同一类型邻居节点的特征，将节点注意力网络的输出输入到类型注意力网络，有侧重地捕捉与当前节点不同类型邻居节点的特征；节点类型包括字符节点、单词节点和义原节点；

触发词抽取模块，用于将类型注意力网络的输出输入到一个条件随机场，输出标注序列，实现触发词的抽取。

进一步地，节点注意力网络的输出为：

e_ij＝LeakyReLU(v^τ[W_τh_i,W_τh_j])

式中，

更进一步地，类型注意力网络的输出为：

V_C→V_W：

V_W→V_S：

V_S→V_W：

V_W→V_C：

其中，h′、h_i分别为当前传播步骤的输出和输入，

为下一传播步骤的输入。

进一步地，条件随机场的损失函数为：

Loss＝-log₁₀(p(Y|X))

式中，Loss为损失函数，X＝{x₁,x₂...,x_n}、Y＝{y₁,y₂...,y_n}分别为输入和输出序列，p(Y|X)为X序列被标记为Y序列的概率，S(X,Y)为得分函数，

为标注集合，Y′为任意一个标注，

为初始转移得分，

为结尾转移得分，

为由y_i-1转移到y_i的得分，

为x_i标记为y_i的得分，W_s、b_s分别为权重和偏置矩阵。

与现有技术相比，本发明具有以下有益效果。

本发明利用全分词和依存句法分析相结合，解决了触发词抽取任务中的歧义分词问题。本发明通过融入单词的义原信息，将单词的多个语义信息融合至字符之中，使字符捕获了更为全面的语义信息，解决了中文词语语义歧义性的问题。本发明利用包括节点注意力网络和类型注意力网络的异构图注意力网络，有侧重地捕捉了异构图中邻居节点的特征，提高了中文事件触发词抽取的准确度。

附图说明

图1为本发明的实施例一种中文事件触发词抽取方法的流程图。

图2为义原信息、全分词信息、依存句法信息融合结构图。

图3为触发词抽取流程示意图。

图4为本发明的实施例一种中文事件触发词抽取装置的方框图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明白，以下结合附图及具体实施方式对本发明作进一步说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例一种中文事件触发词抽取方法的流程图，包括以下步骤：

步骤101，对输入文本进行全分词、依存句法分析，提取依存句法分析中未出现的单词的所有义原；

步骤102，对提取的字符、单词、义原进行初始向量化，利用双向长短期记忆网络BiLSTM对每个句子中的字符进行训练，得到每个字符能够记忆其句中前后字符特征的向量表征；

步骤103，将BiLSTM的输出输入到节点注意力网络，有侧重地捕捉与当前节点同一类型邻居节点的特征，将节点注意力网络的输出输入到类型注意力网络，有侧重地捕捉与当前节点不同类型邻居节点的特征；节点类型包括字符节点、单词节点和义原节点；

步骤104，将类型注意力网络的输出输入到一个条件随机场，输出标注序列，实现触发词的抽取。

本实施例给出一种中文事件触发词抽取方法，为便于理解技术方案，先给出几个相关概念的含义。

触发词：事件的核心词，能够判断事件类型。

义原：语义的基本单位，词语的不同语义都可以用不同义原来表示，其本质仍是单词。如：顶点一词具有两个义原：一是界限；二是位置。

依存句法：对句内依存关系进行识别，形成依存句法树。如：“小王买电脑”，其依存句法树为小王←买→电脑，其中小王←买为主谓关系(SBV)；买→电脑为动宾关系(VOB)。

本实施例中，步骤101主要用于对输入文本进行预处理，包括全分词、依存句法分析、提取义原等。可利用jieba分词软件进行全分词；利用哈工大LTP进行依存句法分析；利用OpenHowNet实现义原提取。将义原信息、全分词信息、依存句法信息融入图结构中，形成义原增强和依存句法增强的异构图，如图2所示。图2中包含五种类型边：字符(中文的单个汉字)与字符之间的连边；单词(中文的词语)与字符之间的连边；单词与单词之间的连边；单词与义原之间的连边；义原与义原之间的连边。

本实施例中，步骤102主要用于得到每个字符的前后文语义表征。首先，采用最为常用的word2vec方式对字符、单词、义原进行初始向量化；然后，利用BiLSTM对每个句子中的字符进行训练，使每个字符能够记忆其句中前后字符特征，获得更为准确的表征。BiLSTM的处理过程表示如下：

其中，

和

分别表示句中字符在第j个隐层状态两个方向的向量，v_j为字符的传入向量，h_j为由

和

拼接而成表征字符经过BiLSTM的输出。最后将字符、单词、义原的初始向量传入异构图注意力网络之中。

本实施例中，步骤103主要用于利用异构图注意力网络有侧重地捕捉字符、单词和义原的特征。注意力网络是在计算机能力有限的情况下，借鉴人脑的注意力机制，只关心一些关键的信息输入进行处理，来提高神经网络的效率。注意力机制的计算可分为两步：一是在所有输入信息上计算注意力分布；二是根据注意力分布计算输入信息的加权求和。加权系数或权重即注意力分布，表示输入向量与询问向量的相关程度。本实施例的异构图注意力网络包括针对同一类型节点的节点注意力网络和针对不同类型节点的类型注意力网络。先利用节点注意力网络有侧重地捕捉目标节点同一类型邻居节点的特征；再利用类型注意力网络，为目标节点的不同邻居节点类型赋予不同权重，有侧重地捕捉目标节点不同类型邻居节点的特征，完成对目标节点的准确表征。

本实施例中，步骤104主要用于实现触发词的抽取。本实施例将字符节点经异构注意力网络获得的准确表征，输入条件随机场(CRF)得到输出标注序列，完成事件触发词的抽取。条件随机场就是对给定的输出标识序列Y和观察序列X，通过定义条件概率p(Y|X)来描述模型，常用于序列标注、数据分割等自然语言处理任务。本实施例采用字符级BIO标注。BIO标注是将每个元素标注为“B-X”、“I-X”或者“O”。其中，“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头，“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置，“O”表示不属于任何类型。如图3的最右端，C1～C6的标注均为“O”，表示不是触发词(Others)，C7(击)的标注为“B-攻击”，表示攻击类型触发词的开始(Begin)，C8(毙)的标注为“B-死亡”表示死亡类型触发词的开始，攻击和死亡分别表示触发词的类型。

作为一可选实施例，节点注意力网络的输出为：

e_ij＝LeakyReLU(v^τ[W_τh_i,W_τh_j])

式中，

本实施例给出了节点注意力网络输出的具体表达式。节点注意力网络通过有侧重地捕捉当前节点同类型邻居节点特征，获得对当前节点更为准确的表征。上面的公式是注意力机制的通用计算公式，这里不进行过多说明。节点注意力网络是针对同一类型的节点(字符、单词或义原)进行的有侧重的特征提取。如图3所示，W3代表单词“嫌疑人”，其上方矩形内的W1、W5分别代表单词“贩毒”、“击毙”，是W3相邻的单词类型节点。下方矩形内的C3、C4、C5分别代表字符“嫌”、“疑”、“人”，是与W3相邻的字符类型的节点。单词节点W1、W5和字符节点C3、C4、C5分别输入到一个节点注意网络进行有侧重的特征捕捉。

作为一可选实施例，类型注意力网络的输出为：

本实施例给出了类型注意力网络输出的具体表达式。类型注意力网络是在节点注意力网络之上，给当前节点的不同邻居节点类型赋予不同的权重，有侧重地捕捉不同类型邻居节点的特征，完成对当前节点更为准确的表征。类型注意力网络以节点注意力网络的输出为输入进行注意力计算，如图3所示，两个节点注意力网络的输出W3′、W3″输入到类型注意力网络后输出W3*。上面公式中的C_i表示第i个节点邻居节点类型的集合，|C_i|表示C_i的元素个数，即节点类型数量。如图2所示，如字符节点“嫌”周围包含字符和单词两种节点类型，此时|C_i|＝2；义原节点“怀疑”周围包含义原一种节点类型，此时|C_i|＝1。

作为一可选实施例，对包括节点注意力网络和类型注意力网络的异构图注意力网络进行训练时，基于mask attention机制依次实现以下4个步骤的网络特征传播：

V_C→V_W：

V_W→V_S：

V_S→V_W：

V_W→V_C：

其中，h′、h_i分别为当前传播步骤的输出和输入，

为下一传播步骤的输入。

本实施例给出了异构图注意力网络训练进行特征传播的一种技术方案。本实施例基于mask attention机制依次实现从字符到单词V_C→V_W、从单词到义原V_W→V_S、从义原到单词V_S→V_W、从单词到字符V_W→V_C的4个步骤的网络特征传播。mask attention机制是指通过设计mask矩阵完成对一部分的遮挡，从而实现注意力机制。本实施例中具体指利用mask矩阵在训练过程中遮挡住邻接矩阵中不相关的边，如进行V_C→V_W层训练时，遮挡住图结构中单词与义原、字符与字符之间的边。上面的第三个表达式中，GAT表示节点注意力网络，这是因为其输入只包含义原一种类型的节点；其它几个表达式的HGAT均表示表示异构图注意力网络，这是因为它们的输入都包含两种不同类型的节点，所以需要进行节点注意力计算和类型注意力计算。

作为一可选实施例，条件随机场的损失函数为：

Loss＝-log₁₀(p(Y|X))

为标注集合，Y′为任意一个标注，

为初始转移得分，

为结尾转移得分，

为由y_i-1转移到y_i的得分，

为x_i标记为y_i的得分，W_s、b_s分别为权重和偏置矩阵。

本实施例给出了条件随机场损失函数的具体表达式。损失函数是用来评价模型的预测值和真实值不一样程度的。损失函数越好，通常模型的性能越好。不同的模型用的损失函数一般也不一样。损失函数分为经验风险损失函数和结构风险损失函数。经验风险损失函数指预测结果和实际结果的差别；结构风险损失函数是指经验风险损失函数加上正则项。常见的损失函数有0-1损失函数、绝对值损失函数、对数损失函数和平方损失函数等。其中对数损失函数的优点是能非常好地表征概率分布，逻辑回归等很多应用场景的损失函数均采用对数损失函数。本实施例的条件随机场损失函数就是采用对数损失函数，其大小等于X序列被标记为Y序列的概率p(Y|X)的对数的绝对值，具体计算方法见上面的公式。

图3为本发明实施例一种中文事件触发词抽取装置的组成示意图，所述装置包括：

预处理模块11，用于对输入文本进行全分词、依存句法分析，提取依存句法分析中未出现的单词的所有义原；

初始化模块12，用于对提取的字符、单词、义原进行初始向量化，利用双向长短期记忆网络BiLSTM对每个句子中的字符进行训练，得到每个字符能够记忆其句中前后字符特征的向量表征；

异构注意力模块13，用于将BiLSTM的输出输入到节点注意力网络，有侧重地捕捉与当前节点同一类型邻居节点的特征，将节点注意力网络的输出输入到类型注意力网络，有侧重地捕捉与当前节点不同类型邻居节点的特征；节点类型包括字符节点、单词节点和义原节点；

触发词抽取模块14，用于将类型注意力网络的输出输入到一个条件随机场，输出标注序列，实现触发词的抽取。

本实施例的装置，可以用于执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。后面的实施例也是如此，均不再展开说明。

作为一可选实施例，节点注意力网络的输出为：

e_ij＝LeakyReLU(v^τ[W_τh_i,W_τh_j])

式中，

作为一可选实施例，类型注意力网络的输出为：

V_C→V_W：

V_W→V_S：

V_S→V_W：

V_W→V_C：

其中，h′、h_i分别为当前传播步骤的输出和输入，

为下一传播步骤的输入。

作为一可选实施例，条件随机场的损失函数为：

Loss＝-log₁₀(p(Y|X))

为标注集合，Y′为任意一个标注，

为初始转移得分，

为结尾转移得分，

为由y_i-1转移到y_i的得分，

为x_i标记为y_i的得分，W_s、b_s分别为权重和偏置矩阵。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。