CN111062210A

CN111062210A - 一种基于神经网络的谓语中心词识别方法

Info

Publication number: CN111062210A
Application number: CN201911355237.0A
Authority: CN
Inventors: 黄瑞章; 靳文繁; 秦永彬; 陈艳平; 钟新洋
Original assignee: Guizhou University
Current assignee: Guizhou University
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-04-24

Abstract

本发明公开了一种基于神经网络的谓语中心词识别方法，所述方法包括如下步骤：步骤一：基于预训练词向量和随机词向量对文本进行向量映射；步骤二：通过神经网络模型获取句子的特征及长期依赖关系；步骤三：使用Highway网络缓解深度模型中的梯度消失问题；步骤四：通过约束函数对序列标注的输出路径进行约束。该方法通过多层Bi‑LSTM叠加获取句子内部的长期依赖关系。然后通过高速公路（Highway）连接缓解深层模型出现梯度消失的问题，最后，通过Softmax层进行归一化，得到一条最大化的标注路径，另外，通过约束函数对输出路径进行规划，解决谓语中心词的唯一性问题。

Description

一种基于神经网络的谓语中心词识别方法

技术领域

本发明涉及一种中心词识别方法，尤其涉及一种基于神经网络的谓语中心词识别方法，属于自然语言处理技术领域。

背景技术

谓语中心词是句子的中心，是支配和关联句子其他部分的关键语法单元。在以谓语为中心的句法成分分析中，首先需要确定句子的谓语中心词，通过对谓语中心词的识别来把握句子的整体结构。识别谓语中心词是理解句子的关键。正确识别谓语中心词可以解析句子结构、获取句子的语义信息，进一步支撑浅层句法分析的研究，从而支撑机器翻译、信息检索、情感分析等自然语言处理应用。

在司法领域，法院在长期的司法实践过程中，积累了大量的法律裁判文书。有效利用文本分析、自然语言处理等技术手段对裁判文书进行处理和分析，可以支撑司法辅助审判工作。司法裁判文书具有专业性强、专业术语多、逻辑关系严谨、时序关系明显等典型特征。在裁判文书的应用过程中，可以通过对案件中案情特征的谓语中心词提取，建立与之对应的犯罪行为链来展现案情的主要情况、时序关系、逻辑关系和发展趋势。犯罪行为链以谓语中心词为中心，围绕谓语中心词提取给定案件中的关键案情要素特征，通过犯罪行为链搭建谓语中心词与其他特征词之间的关联关系，进而构建以谓语中心词为核心的案情要素之间的内在关联和知识体系。最终实现对裁判文书中案情语义的深层分析，可以为案件的相似性检测、法条推荐、类案判别等提供理论和技术支撑。

一个候选词在句子中是否作为谓语中心词既与它本身的语法属性有关，也与它的上下文环境有关。其本身的语法属性称为静态特征，与识别谓语中心词有关的上下文环境称为动态特征。由于中文句子结构松散，传统观点认为中文句子没有形式上的谓语中心词。如：“陈某某持刀捅刺腾某某，用砖头多次击打其头部，并将其头部撞向地面，致其死亡。”在这句话中，“捅刺”、“击打”和“撞”均具有句子中心的功能。而“持刀”、“用砖头”和“将其头部”可解释为执行后续动作的途径或方式。在这种动词连用的情况下，很难确定句子的中心。在《现代汉语规范词典》中，“撞向”没有收录为动词，但却收录了“通向”，“流向”等词。类似的情况有“下雨”收录为词，而“下雪”没有。所以，缺少分词信息和词形变化，给谓语中心词的识别带来困难。除此之外，谓语中心词的识别还需要克服三个问题。(1)汉语是一种古老的象形文字，句子结构松散。将一个句子解析称一个语法树或在一个句子中找到单词依赖关系是困难的。(2)汉语动词在词性上通常是多范畴的，但没有词法来表示它们的动词用法。汉语句子通常包含几个动词。它们中的每一个都可以作为谓语中心词或状语短语来处理。词法的缺乏使得区分它们之间都的句法作用变得困难。(3)在识别谓语中心词方面，现有的序列标注模型还存在不足之处：现有识别算法主要是序列标注模型(HMM、CRF、LSTM)。其中，HMM、CRF能输出一条最大化的标注路径。然而，因为采用马尔科夫一阶依赖，所以，其输出结果中通常包含多个标注实体。LSTM理论上能记忆长距离信息，但是在实际使用中，LSTM对长实体的识别性能都比较低。由于谓语中心词是句子的中心，识别谓语中心词需要对句子的高阶依赖关系进行建模。当前的序列模型对于捕获高阶依赖关系是很弱的。

发明内容

本发明要解决的技术问题是：提供一种基于神经网络的谓语中心词识别方法，通过预训练的词向量对文本序列进行向量映射，然后输入到神经网络模型中，通过堆叠的Bi-LSTM模型获取句子的高维特征，识别句子中的谓语中心词。通过约束函数对输出路径进行规划，解决谓语中心词的唯一性问题。

本发明的技术方案为：一种基于神经网络的谓语中心词识别方法，所述方法包括如下步骤：步骤一：基于预训练词向量和随机词向量对文本进行向量映射；步骤二：通过神经网络模型获取句子的特征及长期依赖关系；步骤三：使用Highway网络缓解深度模型中的梯度消失问题；步骤四：通过约束函数对序列标注的输出路径进行约束。

所述步骤一中，基于神经网络模型，使用自然语言处理中广泛应用的词向量对文本序列进行向量映射，使神经网络能抽取到句子的高维特征，有效提取句子的语义信息。

所述步骤二中，使用神经网络模型获取每个字之间长距离的上下文特征，从而得到句子的高维特征，通过模型的堆叠达到深度学习的效果，进一步获取句子的语义信息。

本发明的有益效果是：与现有技术相比，采用本发明的技术方案，该方法通过多层Bi-LSTM叠加获取句子内部的长期依赖关系。然后通过高速公路(Highway)连接缓解深层模型出现梯度消失的问题。最后，通过Softmax层进行归一化，得到一条最大化的标注路径。另外，通过约束函数对输出路径进行规划，解决谓语中心词的唯一性问题。通过试验充分验证了模型的正确性和有效性，对裁判文书中谓语中心词识别取得了较好的结果。

附图说明

图1为本发明的识别技术路线图；

图2为本发明的识别模型图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将参照本说明书附图对本发明作进一步的详细描述。

实施例1：如附图1～2所示，一种基于神经网络的谓语中心词识别方法，所述方法包括如下步骤：步骤一：基于预训练词向量和随机词向量对文本进行向量映射；步骤二：通过神经网络模型获取句子的特征及长期依赖关系；步骤三：使用Highway网络缓解深度模型中的梯度消失问题；步骤四：通过约束函数对序列标注的输出路径进行约束。再使用真实数据集验证方法的有效性。

步骤一中，基于神经网络模型，使用自然语言处理中广泛应用的维基百科的Wiki-100词向量对文本序列进行向量映射，使神经网络能抽取到句子的高维特征，有效提取句子的语义信息。

通过使用了维基百科的Wiki-100词向量，将文本中的出现的词汇进行映射。若能够在Wiki-100查找到的词则用该词向量，若未能找到的词汇则使用随机词向量。此步骤的预期结果是获得句子文本的向量表示。在本步骤中的明显创新点是使用预训练的词向量对句子进行向量映射，使神经网络能抽取到句子的高维特征，有效提取句子的语义信息。

步骤二中，使用神经网络模型获取每个字之间长距离的上下文特征，从而得到句子的高维特征，通过模型的堆叠达到深度学习的效果，进一步获取句子的语义信息。

所述步骤三的主要目的是为了缓解深层模型在训练阶段出现梯度消失的问题。我们使用封闭的高速公路连接，通过转换门来控制层与层之间线性和非线性变换的权重。

所述步骤四是为了避免在单个句子中识别出的谓语中心词数量存在大于一个的现象，保证谓语中心词识别的唯一性。在我们的模型中，预测一个句子中的谓语中心词结构包括在所有可能的解空间中找到得分最高的标签序列。

这里我们使用贵州省智慧法院建设的裁判文书数据，包括700篇刑事类的裁判文书，通过对700篇裁判文书进行人工标注。验证所述方法的识别效果，从而验证其有效性。性能评价使用准确率(P)、召回率(R)、F1值，其中F＝2*P*R/(P+R)。如表1所示，目前已达到80.424％的F值。

表1实验结果

在本实施例中，具体步骤为：(1)数据预处理：使用真实数据验证方法的有效性。实验使用贵州省智慧法院建设的裁判文书数据，包括刑事类的700篇裁判文书，通过对700篇裁判文书进行人工标注。整个数据集以裁判文书为单位进行随机打乱，按照6:2:2的划分比例，把数据划分为训练集、验证集、测试集。我们提取了裁判文书里面的案情部分构建数据集，在构建数据集时，需要对数据进行人工标注：用P标签标注整个案情部分，用PRE标签标注谓语中心词。

谓语中心词识别模型的数据集构建分为3步：(1)首先用基于正则表达式的方法将裁判文书中的案情部分提取出来。(2)对案情部分进行切分，采用分句符号(【，。？！\n…】\n\r)将案情按标点符号分句(保留标点符号)。(3)提取谓语中心词，将标注数据集以字符为单位，每个字符单独成一行构成文本文件的一列。每个短句空一行，第二列为标注标签，为每个字符对应的标签，两列之间使用空格分隔，属于谓语中心词的开始的字符标注为B，属于谓语中心词的结束的字符标注为I，其余字符标注为O。其中“O”表示句子的其他组成成分。

(2)进行谓语中心词识别，构建神经网络模型

本文采用附图2所给出的神经网络结构来构建谓语中心词识别模型。自底向上，①首先将输入的文本序列映射为词向量，作为当前词的特征向量表示；②然后经过4层Bi-LSTM获取每个词之间长距离的上下文特征；③使用Highway连接来缓解深度Bi-LSTM时梯度消失的问题；④最后通过一个全连接层进行二分类，并使用Softmax进行归一化处理。最终得到全局最优标注序列。

(3)高速公路网络

我们利用堆叠的Bi-LSTM模型在实验中取得了较好的效果，启用这种深度模型的一个关键要素是使用“跳跃连接”。为了缓解训练深层Bi-LSTM时梯度消失的问题。我们使用了封闭的Highway连接。其中通过转换门来控制层与层之间线性和非线性变换的权重。

(4)谓语中心词的唯一性

为了避免在单个句子中识别出的谓语中心词数量存在大于一个的现象，我们在多层LSTM后面接Softmax进行标签预测。通常，我们的任务是给定一个句子作为输入预测一个序列Y，每个y都属于一个离散的OV标签集合T。句子中包含的谓语中心词标记为V，其他部分标记为O。在我们的模型中，预测一个句子中的谓语中心词结构包括在所有可能的Y空间中找到得分最高的标签序列。我们使用一个深度双向LSTM模型来学习一个局部分解的得分函数。为了加入额外的信息，比如，结构一致性，语法输入等，我们用惩罚项来增加得分函数。

综上，本发明提出的基于神经网络的中文谓语中心词识别方法具有优良的性能。

本方案提出中文谓语中心词识别的方法，该方法通过多层Bi-LSTM叠加获取句子内部的长期依赖关系。然后通过高速公路(Highway)连接缓解深层模型出现梯度消失的问题。最后，通过Softmax层进行归一化，得到一条最大化的标注路径。另外，通过约束函数对输出路径进行规划，解决谓语中心词的唯一性问题。

该方法还可以应用于自然语言处理领域中的众多任务，如自动摘要、机器翻译、事件识别等，从而为自然语言处理领域提供高效、精准和稳定的支撑。

本发明未详述之处，均为本技术领域技术人员的公知技术。最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于神经网络的谓语中心词识别方法，其特征在于：所述方法包括如下步骤：步骤一：基于预训练词向量和随机词向量对文本进行向量映射；步骤二：通过神经网络模型获取句子的特征及长期依赖关系；步骤三：使用Highway网络缓解深度模型中的梯度消失问题；步骤四：通过约束函数对序列标注的输出路径进行约束。

2.根据权利要求1所述的基于神经网络的谓语中心词识别方法，其特征在于：所述步骤一中，基于神经网络模型，使用自然语言处理中广泛应用的词向量对文本序列进行向量映射，使神经网络能抽取到句子的高维特征，有效提取句子的语义信息。

3.根据权利要求1所述的基于神经网络的谓语中心词识别方法，其特征在于：所述步骤二中，使用神经网络模型获取每个字之间长距离的上下文特征，从而得到句子的高维特征，通过模型的堆叠达到深度学习的效果，进一步获取句子的语义信息。