CN113505200B

CN113505200B - 一种结合文档关键信息的句子级中文事件检测的方法

Info

Publication number: CN113505200B
Application number: CN202110801337.2A
Authority: CN
Inventors: 王继民; 蒋明威; 王飞
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2023-11-24
Anticipated expiration: 2041-07-15
Also published as: CN113505200A

Abstract

本发明公开了一种结合文档关键信息的句子级中文事件检测的方法，属于自然语言处理中文本信息抽取技术领域，包括：对数据进行BIO序列标注；获取句子所在文档中关键句子；获取文档关键句子向量表示和待检测的句子中字符向量表示；将待检测句子中字符向量表示和文档关键句子向量结合；建立事件触发词抽取模型。首先，使用BIO标注方法对中文句子中每个字符进行标注。其次，使用TextRank算法获取文档中关键句子。然后，使用BERT中文预训练模型对关键句产生文档向量表示，以及对句子中每个字符产生向量表示。最后，使用神经网络模型对句子中触发词进行抽取。本发明通过结合文档中关键信息来获取文档主题，弥补句子内信息缺乏，以此提高对触发词识别准确率。

Description

一种结合文档关键信息的句子级中文事件检测的方法

技术领域

本发明属于自然语言处理中文本信息抽取技术领域，具体涉及一种结合文档关键信息的句子级中文事件检测的方法。

背景技术

事件抽取任务是从非结构化的自然语言文本中自动抽取用户感兴趣的事件信息并以结构化的形式表示。事件抽取是自然语言处理重要的研究任务之一，事件抽取技术的发展推动自然语言处理向前发展。在实际应用方面，事件抽取在自动问答、文本摘要、知识图谱等领域都有着广泛的应用。

ACE会议将事件抽取任务分为两个任务：1)事件检测，也称事件触发词抽取，即从文本信息中找到触发事件的词语并将其分类为特定事件类型；2)事件元素抽取，即根据检测出的事件，从文本中找出事件相应的事件元素并判断事件元素角色。

在事件检测中，主要问题是由于存在中文的一词多意，从而造成无法识别事件类型。例如，句子“小明离开公司。”这个简单句中含有“公司”这一实体词，但无法确定“离开”触发的是离职事件还是移动事件。因为“离开”一词表示从公司离职和离开公司前往其它地方在现实中都存在。但是如果该句子所在的文档中主要在讲述和离职相关事件，那么通过获取文档关键信息加入到句子向量中，将会帮助“离开”识别为离职事件；若文档中主要讲述和运输相关事件，那么“离开”则大概率表示移动事件。

因此，对于触发词一词多义以及句子内部无法提供有用的信息问题，目前单从句子中获取信息的方法无法正确去提取和识别触发词。因此，结合句子所在的文档信息进行事件检测，将可以提高事件检测的准确度。

发明内容

发明目的：本发明的目的在于提供一种结合文档关键信息的句子级中文事件检测的方法，弥补句子内信息缺乏，以此提高对触发词识别准确率。

技术方案：为了实现上述目的，本发明是通过如下的技术方案来实现：

一种结合文档关键信息的句子级中文事件检测的方法，包括如下步骤：

1)使用BIO标注方法对中文句子中每个字符进行标注；

2)使用TextRank算法获取文档中关键句子；

3)利用BERT中文预训练模型获取待检测句子和所在文档的向量表示；拼接句子向量和文档向量生成检测模型输入向量；利用模型实例进行预测得到句子中的事件触发词类型。

进一步地，所述的步骤1)中，具体包括如下步骤：

1.1)对语料集以文档为单位进行分词断句预处理；将每篇文档的内容以句号、感叹号、问号三个标点符号为分割符进行句子切分；

1.2)使用BIO标注方法对分割后的句子的触发词进行标注；BIO标注方法用B-X、I-X或O这三种方式对每个中文字进行标注；其中，B-X表示当前字符是触发词的开始，X表示当前触发词类型；I-X表示当前字符是触发词的中间或结尾；O表示当前不属于任何类型。

进一步地，所述的步骤2)中，具体包括如下步骤：

对文档中所有的句子的权重进行标准化并排序，选择权重和超过指定阈值r的句子作为文档的关键句；设一个文档有n个句子，TextRank计算得到的每个句子权重为{k_1’，k₂，…，k_n}，对权重进行标准化，得到第i个句子的标准化权重为：

对w_i进行排序，权重和大于r，r是常量值；前k个句子作为文档的关键句；把文档的k个关键句按照它们在文档中出现的顺序连接成一个句子，构成文档的关键信息句。

进一步地，所述的步骤3)中，BERT输入由词向量、分割向量和位置向量相加总和组成；其中，词向量是BERT模型通过查询字向量表将文本中每个字转化为一维字向量；分割向量表示字所属的句子，通过不同的标记进行标注，BERT模型对不同位置的字/词分别附加一个不同的向量以作区分，具体包括如下步骤：

3.1)句子的字符向量表示；利用BERT中文预训练模型获取句子中每个字符的向量表示；每个句子由若干个字符组成，表示为：

S＝{c₁,c₂,...,c_i,....,c_n} (1)

其中c_i表示第i个字符，n表示一句话由n个字符组成；BERT中文预训练模型需要在每句话开头加入[CLS]，句子末尾加入[SEP]；最终得到BERT中文预训练模型的输入序列：

S＝{[CLS],c₁,c₂,...,c_i,....,c_n,[SEP]} (2)

BERT中文预训练模型的输出为每个字符的编码，每个字符的编码长度为m维度，即句子中字符的向量表示为m维的向量；对一个输入句子，模型输出为(n+2)*m的向量，如下所示：

其中，E_[CLS]，E_[SEP]为BERT模型输出的符号CLS和SEP的向量表示；

3.2)文档关键信息句向量表示；文档关键信息句向量是一个m维的向量，该向量通过关键信息句所包含的字符的向量进行加权处理得到；使用全局加权操作获取文档关键信息句向量，即对句子中包含的所有字符的根据其权重进行计算获得最终的向量；假设公式(3)中E为文档关键信息句中每个字符的向量表示构成的向量；去除E_[CLS]和E_[SEP]剩下n*m维向量；假设E_i对应的字符c_i属于文档前k个关键句中的s_j，且关键句s_j的标准权重为w_j，则E中字符c_i的权重为w_j，记为w_ci，E_i的权重也为w_ci；则关键信息句的向量E_key为：

3.3)构建模型训练数据集；

模型的输入包含p个节点，每个结点对应待检测句子中的一个字符，即待检测的句子最多p个字符；每个结点的是一个2*m维的向量，由两部分组成：m维的文档关键信息向量和对应字符的m维的向量表示；对如公式(1)的待检测句子，其字符向量表示如公式(3)，假设所在文档的关键信息句向量为E_key，则拼接形成的模型输入为：

((E_key，E₁)，(E_key，E₂)，…，(E_key，E_p)) (4)

第i个节点的输入向量为(E_key，E_i)；如果待检测的句子超过p个字符，则截掉尾端保留p个字符，如果待检测的句子不足p个字符，则每个位置采用E为m维的0向量描述；

模型输出为句子的标注，即在步骤1.2)中标注的结果；对不足p个字符时，步长的位置采用O标注，即不属于任何类型；

3.4)构建并训练BiLSTM-CRF模型，获得带模型参数的模型实例。

进一步地，所述的步骤3.4)中，构建并训练BiLSTM-CRF模型，获得带模型参数的模型实例，包括如下两个步骤：

3.41)模型结构为BiLSTM-CRF；

BiLSTM-CRF模型采用步骤3.3)描述拼接向量作为输入，以句子整体标注正确的概率为作为输出；BiLSTM-CRF是在双向LSTM后加上CRF层，将事件触发词分类问题转变成序列标注问题；模型主要分为输入层、编码层、CRF输出层；

BiLSTM的输入包含p个节点，每个结点为2*m维的向量，即模型的输入为p*2*m的二维向量；LSTM神经元数为c个，因此，BiLSTM输出为p*c二维向量；在BiLSTM输出层后存在一个Sotfmax层，计算每个字符属于各标签的概率；

3.42)模型训练

将步骤3.3)生成的训练数据集按照比例划分成训练集和测试集，对模型进行训练，得到带模型参数的模型实例。

有益效果：与现有技术相比，本发明使用BIO标注方法对中文句子中每个字符进行标注。其次，使用TextRank算法获取文档中关键句子。然后，使用BERT中文预训练模型对关键句产生文档向量表示，以及对句子中每个字符产生向量表示。最后，使用神经网络模型对句子中触发词进行抽取。本发明通过结合文档中关键信息来获取文档主题，弥补句子内信息缺乏，以此提高对触发词识别准确率。

附图说明

图1为本发明一种结合文档关键信息的句子级中文事件检测的方法的流程图；

图2为中文句子BIO标注结果图；

图3为BiLSTM-CRF模型图；

图4为AKBBiLSTM-CRF模型和NBBiLSTM-CRF模型训练过程中准确率折线图。

具体实施例方式

下面结合附图和具体实施方式来详细说明本发明：为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

下面结合如图1所示的流程图，以ACE2005中文语料为例，介绍一种结合文档关键信息的句子级中文事件检测的方法，说明本方法的具体实施方法。本文虽然以ACE2005语料集作为训练和测试集，但是基于与本发明同样的思想，使用其他语料集进行训练得到的模型，也视为在本申请所附权利要求所限定范围

1.ACE2005中文语料，其中共包含633篇中文文档，为了使实验公平，本文随机选取569篇文档作为训练集，选取64篇文档作为测试集。对ACE2005中文文档按照“。！？”进行切分，得到一个个句子。得到7461个句子，其中事件句2214个，非事件句5247个。为了减少非事件句子影响，在数据预处理过程中随机舍弃部分非事件句子，保留了和事件句子同等数目。

1.方法的总体流程包括建模和事件检测两个部分。建模部分包括：以ACE2005作为训练语料集，以文档为单位进行分词断句预处理；使用BIO标注方法对预处理后的训练语料集进行标注；采用TextRank算法得到语料中每篇的关键信息；利用BERT中文预训练模型获得测试样本句子和样本句子所在文档关键信息的向量表示；构建并训练BiLSTM-CRF模型，获得带模型参数的模型实例。事件检测部分包括：利用BERT中文预训练模型获取待检测句子和所在文档的向量表示；拼接句子向量和文档向量生成检测模型输入向量；利用模型实例进行预测得到句子中的事件触发词类型。

2.建模部分的技术路线如下：

2.1对ACE2005语料集以文档为单位进行分词断句预处理。将每篇文档的内容以句号(。)、感叹号(！)、问号(？)三个标点符号为分割符进行句子切分。

2.2使用BIO标注方法对分割后的句子的触发词进行标注。BIO标注方法用“B-X”、“I-X”或“O”这三种方式对每个中文字进行标注。其中，“B-X”表示当前字符是触发词的开始，X表示当前触发词类型(即事件类型)。“I-X”表示当前字符是触发词的中间或结尾。“O”表示当前不属于任何类型。ACE2005中有33中事件类型，即，触发词有33种类型。

2.3采用TextRank算法得到文档的关键信息。TextRank算法是一种基于图的用于抽取关键词和关键句子的排序算法。其输入是一篇文档，输出是每个句子的权重。TextRank算法将一篇文档转化为连通无向图，文档中的每个句子作为连通无向图中一个节点，根据两个句子之间的是否有重合词进行连接。通过迭代不断调整节点权重直到收敛，最终根据节点的权重值判断句子的重要程度，权重值越大，句子越重要。本发明对文档中所有的句子的权重进行标准化并排序，选择权重和超过指定阈值r的句子作为文档的关键句。

设一个文档有n个句子，TextRank计算得到的每个句子权重为{k_1’，k₂，…，k_n}，对权重进行标准化，得到第i个句子的标准化权重为：

2.4利用BERT中文预训练模型获得句子的字符向量表示和文档关键信息句向量表示。

BERT中文预训练模型是在大规模中文语料上根据多层Transformer编码获取上下文信息，从而实现对不同语境相同的词进行不同向量表示。

BERT输入由词向量、分割向量和位置向量相加总和组成。其中，词向量是BERT模型通过查询字向量表将文本中每个字转化为一维字向量；分割向量表示字所属的句子，通过不同的标记进行标注，例如，输入两句话，表示为“[CLS]文本1[SEP]文本2[SEP]”那么文本1中所有字用“0”表示，文本2中所有字用“1”表示。位置向量：由于出现在文本不同位置的字/词所携带的语义信息存在差异(比如：“我打你”和“你打我”)，因此，BERT模型对不同位置的字/词分别附加一个不同的向量以作区分。

2.4.1句子的字符向量表示。利用BERT中文预训练模型获取句子中每个字符的向量表示。每个句子由若干个字符组成，表示为：

S＝{c₁,c₂,...,c_i,....,c_n} (1)

其中c_i表示第i个字符，n表示一句话由n个字符组成。BERT中文预训练模型需要在每句话开头加入[CLS]，句子末尾加入[SEP]。最终得到BERT中文预训练模型的输入序列：

S＝{[CLS],c₁,c₂,...,c_i,....,c_n,[SEP]} (2)

BERT中文预训练模型的输出为每个字符的编码，每个字符的编码长度为768维度，即句子中字符的向量表示为768维的向量。因此对一个输入句子，模型输出为(n+2)*768的向量。如下所示：

2.4.2文档关键信息句向量表示。文档关键信息句向量是一个768维的向量，该向量通过关键信息句所包含的字符的向量进行加权处理得到。使用全局加权操作获取文档关键信息句向量，即对句子中包含的所有字符的根据其权重进行计算获得最终的向量。假设公式(3)中E为文档关键信息句的每个字符的向量表示。去除E_[CLS]和E_[SEP]剩下n*768维向量。假设E_i对应的字符c_i属于文档前k个关键句中的s_j，且关键句s_j的标准权重为w_j，则E中字符c_i的权重为w_j，记为w_ci。则关键信息句的向量E_key为：

2.5构建模型训练数据集。

模型的输入包含512个节点，每个结点对应待检测句子中的一个字符，即待检测的句子最多512个字符。每个结点的是一个1536维的向量，由两部分组成：768维的文档关键信息向量和对应字符的768维的向量表示。对如公式(1)的待检测句子，其字符向量表示如公式(3)，假设所在文档的关键信息句向量为Ekey，则拼接形成的模型输入为：

((E_key，E₁)，(E_key，E₂)，…，(E_key，E₅₁₂))

第i个节点的输入向量为(E_key，E_i)。如果待检测的句子超过512个字符，则截掉尾端保留512个字符，如果待检测的句子不足512个字符，则每个位置采用E为768维的0向量描述。

模型输出为句子的标注，即在2.2中标注的结果。对不足512个字符时，步长的位置采用O标注，即不属于任何类型。

2.6构建并训练BiLSTM-CRF模型，获得带模型参数的模型实例。包括如下两个步骤：

2.6.1BiLSTM-CRF模型结构。

BiLSTM-CRF模型采用2.5.1描述拼接向量作为输入，以句子整体标注正确的概率为作为输出。BiLSTM-CRF是在双向LSTM后加上CRF层，将事件触发词分类问题转变成序列标注问题。模型主要分为输入层、编码层、CRF输出层。

其逻辑结构如下：

如图3所示，模型包括BiLSTM和CRF两个部分，BiLSTM由正向LSTM和反向LSTM组合而成。LSTM网络通过加入遗忘门、输入门和输出门保存句子中重要信息和遗弃非重要信息，根据当前输入信息和上一个时刻的输出信息计算出当前的记忆，再根据当前的信息和上一时刻的输出信息计算输入门的大小，最后，根据当前记忆和输入门决定存储多少信息到细胞状态中。最后，输出门决定多少信息到下一个细胞。正向LSTM可以获取句子正向信息，而反向LSTM可以获取句子反向信息，当正向LSTM和反向LSTM获取进行拼接，即可获取当前输入上下文信息。BiLSTM的输入包含512个节点，每个结点为(768+768)维的向量，即模型的输入为512*1536的二维向量。LSTM神经元数为200个，因此，BiLSTM输出为512*200二维向量。在BiLSTM输出层后存在一个Sotfmax层，计算每个字符属于各标签的概率。

CRF为条件随机场，是给定一组输入序列条件下另一组输出序列的条件概率分布模型。CRF为句子中的每个字符预测一个标注标签，预测的标签为该字符的事件类型，例如：“B-Attack”表示该字符为Attack(攻击)类型事件词的开头，“I-Attack”表示为Attack(攻击)类型事件词的中间或结束，“O”表示该字符不属于触发词。对本发明中的一个输入节点，对应句子中的一个字符，CRF根据E_key，判断E₁的标注类型。CRF最终计算出待检测句多个可能合理的序列预测结果，并对所有的结果给出概率分布从中选取概率最高的预测结果作为最优预测结果。

2.6.2模型训练

将2.6生成的训练数据集按照比例划分成训练集和测试集，对模型进行训练，得到带模型参数的模型实例。

3.触发词检测部分的技术路线如下：

给定一个句子以及句子所在的文档，利用训练的BiLSTM-CRF模型预测句子中每个字符的标注类型，并判断出包含的触发词以及类型。

3.1利用TextRank获取文档关键信息。采用2.3方法获取待检测文档的关键信息句。

3.2利用BERT中文预训练模型按照2.4.1和2.4.2获得文档关键信息句和待检测句子的字符向量表示。

3.3按照2.6对待检测句子和其所在文档的向量进行拼接，形成模型输入。输入到BiLSTM-CRF模型实例，产生输出，并选择概率最高的结果作为预测结果。预测概率最高的输出中对句子每个位置都产生一个标注。根据该标注确定的触发词的类型，实现事件检测。

实验验证

(1)实验思路

下面通过实验验证采用TextRank算法获取文本关键信息句的性能，以及基于BiLSTM-CRF模型事件检测性能。

(2)基于TextRank算法获取文本关键信息句验证。

实验方法：从ACE2005中文语料中随机选取50篇文本，人工对每一篇文本关键句进行选择，选择的标准是最能表达文本主题的一句话作为关键句。使用TextRank算法对每篇文本中句子进行打分，通过每个句子得分，根据得分从高到低排序。本文通过选择不同数量的得分高的句子作为关键句(Top-n)，例如Top-1表示选择得分最高的句子，Top-2表示得分最高的前两个句子，以此类推。并评价选择的句子中包含人为定义主题句的准确率。评价标准是选择的句子中若包含人为定义的主题句，则为正例，若不包含，则为反例。

表1 TextRank算法选择不同得分句子命中关键句个数表

表2 AKBBiLSTM-CRF和NBBiLSTM-CRF模型触发词分类结果对比表

结果及分析：观察表1，表示选择不同得分高的句子命中主题句的数量，从表中可以看出在Top-3之前，随着选择关键句数量扩大，命中数量增幅明显，在Top-3之后，命中数量区别不大。为了不引入过多的句子，导致引入噪声，本文选择得分最高的前三个句子作为关键句。

(3)基于BiLSTM-CRF模型事件检测性能。

实验方法：为验证本发明方法在实际应用中的性能，在相同实验参数、相同BERT预训练模型和事件检测模型下，分别使用不结合文本关键信息神经网络模型(NBBiLSTM-CRF)和本文发明提出的结合文档关键信息的神经网络模型(AKBBiLSTM-CRF)进行对比实验。

结果及分析：观察表2，AKBBiLSTM-CRF模型在触发词分类上准确率、召回率和F1值上都比NBBiLSTM-CRF模型要高，其中F1值高出近2％，这也说明了本发明提出方法在触发词抽取上具有一定的效果。观察图3，从训练过程中准确率对比，可以看出在30轮训练后，其中仅有3次(第9、16和22轮)AKBBiLSTM-CRF得到的准确率明显低于NBBiLSTM-CRF，大多情况结合文档关键信息句子级事件检测在触发词分类准确率上要高于不结合文本关键信息，根据以上对比，说明本发明能够提高触发词抽取准确率。

Claims

1.一种结合文档关键信息的句子级中文事件检测的方法，其特征在于，包括如下步骤：

1)使用BIO标注方法对中文句子中每个字符进行标注；

2)使用TextRank算法获取文档中关键句子；

3)利用BERT中文预训练模型获取待检测句子和所在文档的向量表示；拼接句子向量和文档向量生成检测模型输入向量；利用模型实例进行预测得到句子中的事件触发词类型；

所述的步骤1)中，具体包括如下步骤：

1.2)使用BIO标注方法对分割后的句子的触发词进行标注；BIO标注方法用B-X、I-X或O这三种方式对每个中文字进行标注；其中，B-X表示当前字符是触发词的开始，X表示当前触发词类型；I-X表示当前字符是触发词的中间或结尾；O表示当前不属于任何类型；

所述的步骤2)中，具体包括如下步骤：

对w_i进行排序，权重和大于r，r是常量值；前k个句子作为文档的关键句；把文档的k个关键句按照它们在文档中出现的顺序连接成一个句子，构成文档的关键信息句；

所述的步骤3)中，BERT输入由词向量、分割向量和位置向量相加总和组成；其中，词向量是BERT模型通过查询字向量表将文本中每个字转化为一维字向量；分割向量表示字所属的句子，通过不同的标记进行标注，BERT模型对不同位置的字/词分别附加一个不同的向量以作区分，具体包括如下步骤：

S＝{c₁,c₂,...,c_i,....,c_n} (1)

S＝{[CLS],c₁,c₂,...,c_i,....,c_n,[SEP]} (2)

3.2)文档关键信息句向量表示；文档关键信息句向量是一个m维的向量，该向量通过关键信息句所包含的字符的向量进行加权处理得到；使用全局加权操作获取文档关键信息句向量，即对句子中包含的所有字符的根据其权重进行计算获得最终的向量；假设公式(3)中E为文档关键信息句中每个字符的向量表示构成的向量；去除E_[CLS]和E_[SEP]剩下n*m维向量；假设E_i 对应的字符c_i属于文档前k个关键句中的s_j，且关键句s_j的标准权重为w_j，则E中字符c_i的权重为w_j，记为w_ci，E_i的权重也为w_ci；则关键信息句的向量E_key为：

3.3)构建模型训练数据集；

((E_key，E₁)，(E_key，E₂)，…，(E_key，E_p)) (4)

3.4)构建并训练BiLSTM-CRF模型，获得带模型参数的模型实例。

2.根据权利要求1所述的一种结合文档关键信息的句子级中文事件检测的方法，其特征在于，所述的步骤3.4)中，构建并训练BiLSTM-CRF模型，获得带模型参数的模型实例，包括如下两个步骤：

3.41)模型结构为BiLSTM-CRF；

3.42)模型训练