CN109165386A

CN109165386A - 一种中文零代词消解方法及系统

Info

Publication number: CN109165386A
Application number: CN201811000982.9A
Authority: CN
Inventors: 刘秉权; 孙承杰; 栾克鑫; 游世学; 杜新凯
Original assignee: Beijing Zhongke Huilian Technology Co Ltd; Harbin Institute of Technology
Current assignee: Beijing Zhongke Huilian Technology Co Ltd; Harbin Institute of Technology
Priority date: 2017-08-30
Filing date: 2018-08-30
Publication date: 2019-01-08

Abstract

本发明公开了一种中文零代词消解方法及系统，所述方法包括：通过对目标语料进行预处理，获取零代词标记；对候选零代词进行位置识别；位置识别的结果结合预设优化规则，得到目标零代词；根据所有目标零代词及候选先行语获得表述对集合；获取每个表述对中目标零代词与候选先行语间指代关系的概率，并将多个指代关系的概率进行排序；根据排序结果得到对应的零代词消解结果。本发明利用结合句法分析的预设优化规则，实现零代词的准确识别，通过使用深度学习的方法，使得零代词消解得以完成。

Description

一种中文零代词消解方法及系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种中文零代词消解方法及系统。

背景技术

零代词消解是代词消解中针对零指代现象的一类特殊的消解，广泛存在于自然语言文本中，尤其是在中文中。在篇章中，用户能够根据上下文关系推断出的部分可以省略，该省略的部分在句子中一般承担相应的句法成分，并且回指前文中的某个语言学单位，用零代词表示。零代词消解就是恢复零代词指代前文语言学单位的过程，有时也被称为省略恢复。

零代词消解与显性代词消解相比，最大的问题在于缺少显性的代词表示，因此比显性代词消解更具难度和挑战。零代词消解一般划分成识别和消解两个子任务。识别子任务目的是识别出省略句中零代词存在的位置，消解子任务是为识别的零代词选择先行语。目前，许多工作都是围绕消解子任务展开的。

现有的零代词识别的准确率还很低，因此研究零代词消解问题时一般采用标准零代词识别。零代词识别和消解算法往往依赖于句法分析，自动句法分析的准确率并不高，由此也导致零代词识别和消解的准确率很难达到应用的标准。

发明内容

为了解决上述技术问题，本发明提出了一种中文零代词消解方法及系统。

本发明是以如下技术方案实现的：

第一方面提供了一种中文零代词消解方法，包括：

通过对目标语料进行预处理，获取候选零代词标记；

对候选零代词进行位置识别；位置识别的结果结合预设优化规则，得到目标零代词；

根据所有目标零代词及候选先行语获得表述对集合；

获取每个表述对中目标零代词与候选先行语间指代关系的概率，并将多个指代关系的概率进行排序；

根据排序结果得到对应的零代词消解结果。

进一步地，所述通过对目标语料进行预处理，获取候选零代词标记，包括：

根据数据集划分方法将目标数据集进行划分，得到零代词在训练集、测试集、验证集上的标记。

进一步地，所述对候选零代词进行位置识别；位置识别的结果结合预设优化规则，得到目标零代词；包括：

将候选零代词上下文的词向量作为输入，利用双向循环神经网络获得上下文语义特征；

将上下文语义特征输入l ogi st i c层，得到目标语料候选零代词指代关系的概率；

结合预设优化规则对指代关系概率进行优化，得到概率优化结果；

根据概率优化结果获得目标零代词。

进一步地，所述根据所有目标零代词及候选先行语获得表述对集合；包括：

根据上下文分析识别出候选先行语；

根据目标零代词和候选先行语的识别结果得到相应的候选先行语集合；所有的目标零代词具有对应的目标零代词集合；

将目标零代词集合与候选先行语集合做笛卡尔积运算，构建出表述对集合；

根据句法分析特征和词向量特征，结合长短期记忆网络LSTM_a和LSTM_b，提取出表述对特征；所述表述对特征包括候选先行语特征、候选先行语的上文特征、候选先行语的下文特征、零代词的上下文特征。

优选地，所述句法分析特征包括短语结构句法分析特征和依存句法分析特征；

所述短语结构句法分析特征包括候选先行语和零代词的距离特征，以及在语法树上的位置关系；所述依存句法分析特征包括零代词与候选先行语的关系特征；

所述词向量特征包括本身词向量特征和上下文词向量特征；

所述本身词向量特征为构成先行语的词语的词向量特征；所述上下文词向量特征是由固定大小的窗口内上下文的词向量组合得到的特征。

第二方面提供了一种中文零代词消解系统，包括：

预处理模块，用于通过对目标语料进行预处理，获取候选零代词标记；

零代词识别模块，用于对候选零代词进行位置识别；位置识别的结果结合预设优化规则，得到目标零代词；

表述对集合获取模块，用于根据所有目标零代词及候选先行语获得表述对集合；

指代关系概率获取模块，用于获取每个表述对中目标零代词与候选先行语间指代关系的概率，并将多个指代关系的概率进行排序；

零代词消解模块，用于根据排序结果得到对应的零代词消解结果。

进一步地，所述预处理模块包括：

零代词标记单元，用于根据数据集划分方法将目标数据集进行划分，得到零代词在训练集、测试集、验证集上的标记。

进一步地，所述零代词识别模块包括：

上下文语义特征获取单元，用于将候选零代词上下文的词向量作为输入，利用双向循环神经网络获得上下文语义特征；

指代词识别单元，用于将上下文语义特征输入logistic层，得到目标语料候选零代词指代词的概率；

概率优化结果获取单元，用于结合预设优化规则对指代关系概率进行优化，得到概率优化结果；

目标零代词获取单元，用于根据概率优化结果获得目标零代词。

进一步地，所述表述对集合获取模块包括：

候选先行语识别单元，用于根据上下文分析识别出候选先行语；

对应集合获取单元，用于根据目标零代词和候选先行语的识别结果得到相应的候选先行语集合；所有的目标零代词具有对应的目标零代词集合；

表述对集合构建单元，用于将目标零代词集合与候选先行语集合做笛卡尔积运算，构建出表述对集合；

表述对特征提取单元，用于根据句法分析特征和词向量特征，结合长短期记忆网络LSTM_a和LSTM_b，提取出表述对特征；所述表述对特征包括候选先行语特征、候选先行语的上文特征、候选先行语的下文特征、零代词的上下文特征。

所述词向量特征包括本身词向量特征和上下文词向量特征；

本发明根据目标零代词及候选先行语获得表述对集合；进一步获取每个表述对中目标零代词与候选先行语间指代关系的概率，并将多个指代关系的概率进行排序；然后根据排序结果得到对应的零代词消解结果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是实施例一提供的中文零代词消解方法流程图；

图2是实施例一提供的所述对候选零代词进行位置识别，位置识别的结果结合预设优化规则，得到目标零代词的流程图；

图3是实施例一提供的所述根据所有目标零代词及候选先行语获得表述对集合的的流程图；

图4是零代词消解模型示意图；

图5是实施例一提供的中文零代词消解系统框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一：

本实施例提供了一种中文零代词消解方法，其中，所述零代词消解其实包含了零代词识别和零代词消解两个过程；如图1所示，包括：

S101.通过对目标语料进行预处理，获取候选零代词标记；

具体地，所述目标数据集为OntoNotes5.0数据集，根据CoNLL-2012Share Task共指消解评测任务的数据集划分方法，对OntoNote5.0进行划分；其中，OntoNotes5.0数据集本身含有零代词标记信息，而CoNLL-2012提供了在该语料库上的训练、验证、测试三部分的数据集划分以及对语料文档的词性标注、句法分析等基本自然语言处理结果的黄金标注，因而使用该数据集作为本发明的实验数据集。

说明的是，对于由词语w₁,w₂,…,w_N组成的句子S，任意两个相邻词语之间都可能具有零代词，包括第一个词语w₁前和最后一个词语w_N后，这些可能具有零代词的位置依次记为g₀,g₁,…,g_N，g_i表示在w_i和w_i+1之间的候选零代词。

S102.对候选零代词进行位置识别；位置识别的结果结合预设优化规则，得到目标零代词；

具体地，零代词识别就是找到句子中具有指代关系零代词出现的位置，对于由词语组成的句子，在无任何先验知识的前提下，任意两个相邻词语之间都可能具有零代词(包括第一个词语前和最后一个词语后)。将这些可能具有零代词的位置作为候选零代词，训练双向循环神经网络来判别这些候选零代词是正确零代词位置的概率，并选出最可能存在零代词的位置。

进一步地，所述对候选零代词进行位置识别；位置识别的结果结合预设优化规则，得到目标零代词；如图2所示，包括：

S1021.将候选零代词上下文的词向量作为输入，利用双向循环神经网络获得上下文语义特征；

说明的是，所述双向循环神经网络具有隐含层，其正向RNN_p从句子的第一个词x₁一直算到x_N，它的隐含层输出表示，候选零代词由g₁,g₂,…,g_N的上文特征表示，而g₀的上文特征由RNN_p的初始隐含状态表示；同理表示g₀,g₁,…,g_N的下文特征，组合起来即是上下文特征；

S1022.将上下文语义特征输入logistic层，得到目标语料候选零代词指代关系的概率；

详细地，本文使用的logistic层包括一个logistic隐含层和logistic输出层；将上下文特征再依次输入到隐含层和输出层中，得到整个句子中每个候选零代词具有指代关系的概率p(g)。

S1023.结合预设优化规则对指代关系概率进行优化，得到概率优化结果；

由于在同一句子当中通常只有一个零代词，因此正负例的比例非常悬殊，实验结果表明单纯使用原始数据训练效果很不理想。因此，需要先对候选零代词进行筛选，有效地减少反例的比例，再进行模型的训练。

零代词在中文中语义上存在，语法上空位，语音上被忽略，因此通常在短句或与前文紧密照应时使用，即要求零代词与先行语的距离较近，但又并非简单的最近名词短语。结合代词在句中通常的语法功能，基于启发式规则的算法有较高的召回率，但准确率并不高。

本发明使用几项启发式规则作为零代词识别训练的补充，可以有效地减少反例的比例，提高零代词识别的效果。所述预设优化规则设定为：

若T结点的父结点是IP结点，且T结点的前面没有NP、QP、IP或ICP兄弟结点，那么紧邻T前的间隙可能存在零代词；

若T结点是Arg0 or Arg1角色，那么紧邻T前的间隙可能存在零代词；

若T结点是动词AD，且该从句中没有Arg0 or Arg1角色或者没有NP节点，那么紧邻T前的间隙可能存在零代词。

需要说明的是，所述预设规则并不限于上述的几项规则，还能够根据情况进行调整。

S1024.根据概率优化结果获得目标零代词。

进一步地，使用所述预设优化规则得到当前输入句子的筛选结果l_r，使用布尔向量表示候选零代词g是否可能具有指代关系，则概率优化结果输出为p(g)⊙l_r，其中概率最大的位置被认为存在零代词。

其中，在不使用优化规则的前提下，零代词识别过程并不依赖于句法分析和语法角色标注。

S103.根据所有目标零代词及候选先行语获得表述对集合；

其中，所述候选先行语的识别是基于启发式规则获得的，这种方式具有较高的召回率。

进一步地，所述根据所有目标零代词及候选先行语获得表述对集合；如图3所示，包括：

S1031.根据上下文分析识别出候选先行语；

具体地，候选先行语的识别：对于在句法分析树中的结点T，如果结点T是一个NP结点，且结点T和其他的与它具有相同结尾词语的结点相比，具有最多数量的词语，那么结点T中的词语是候选先行语。

S1032.根据目标零代词和候选先行语的识别结果得到相应的候选先行语集合；所有的目标零代词具有对应的目标零代词集合；

S1033.将目标零代词集合与候选先行语集合做笛卡尔积运算，构建出表述对集合；

S1034.根据句法分析特征和词向量特征，结合长短期记忆网络LSTM_a和LSTM_b，提取出表述对特征；

进一步地，所述句法分析特征包括短语结构句法分析特征和依存句法分析特征；

所述短语结构句法分析特征，对句子中的词语语法功能进行分析的基础上提取的相应特征，主要包括候选先行语和零代词的距离特征，以及在语法树上的位置关系；

具体特征描述见表1，其中每种特征使用一维布尔型向量表示。

表1结构句法特征表示

所述依存句法分析特征依存句法分析可以反映出句子各成分之间的语义修饰关系，它可以获得长距离的搭配信息，并与句子成分的物理位置无关；主要集中在零代词与候选先行语的关系特征，见表2；

表2依存句法特征表示

所述词向量特征包括本身词向量特征和上下文词向量特征；

所述本身词向量特征为构成先行语的词语的词向量特征；所述上下文词向量特征是固定大小的窗口内上下文的词向量组合得到的特征。

具体地，所述词向量特征包括候选先行语特征、候选先行语的上文特征、候选先行语的下文特征、零代词的上下文特征；

所述上下文词向量特征包括候选先行语的相关动词特征、零代词的相关动词特征、零代词的相关宾语特征。

详细地，所述候选先行语特征，为组成候选先行语的所有词语的词向量的均值；所述候选先行语的上文特征，为在上文窗口中，组成候选先行语上文的所有词语的词向量；所述候选先行语的下文特征，为在下文窗口中，组成候选先行语下文的所有词语的词向量；所述零代词的上下文特征，为在给定的上下文窗口中，组成零代词上下文的所有词语的词向量；所述候选先行语的相关动词特征，为与候选先行语最近的动词的词向量；所述零代词的相关动词特征，为零代词后的第一个动词的词向量；所述零代词的相关宾语特征，为零代词相关动词后的第一个名词的词向量。

需要说明的是，本发明使用两个长短期记忆网络LSTM_a和LSTM_b，通过均化池，分别计算出深层的候选先行语、候选先行语的上文、候选先行语的下文和零代词的上下文特征表示，组合成表述对特征；再通过一层隐含层，学习这些特征的相互作用和隐含关系(深度学习的过程)；最后，输出层输出零代词与候选先行语之间有指代关系的概率；若将整个过程作为一个模型来看，则图4就是零代词消解模型的示意图；如图4所示。

指代词具有唯一先行语与之对应，为每个零代词找到一个最佳先行语，具体地，按照每一个指代词，为其所有候选先行语根据分类器模块预测出来的结果进行降序排序，为每个零代词选择出第一个先行语作为消解目标输出。

S104.获取每个表述对中目标零代词与候选先行语间指代关系的概率，并将多个指代关系的概率进行排序；

S105.根据排序结果得到对应的零代词消解结果。

需要说明的是，本发明将词向量作为特征输入，使用长短期记忆网络(LSTM)进行表述对特征学习，应用深度学习的方法构建模型进行训练；进而进行目标零代词消解。

实施例二：

本实施例提供了一种中文零代词消解系统，如图5所示，包括：

预处理模块110，用于通过对目标语料进行预处理，获取候选零代词标记；

进一步地，所述预处理模块110包括：

零代词标记单元111，用于根据数据集划分方法将目标数据集进行划分，得到零代词在训练集、测试集、验证集上的标记。

零代词识别模块120，用于对候选零代词进行位置识别；位置识别的结果结合预设优化规则，得到目标零代词；

进一步地，所述零代词识别模块120包括：

上下文语义特征获取单元121，用于将候选零代词上下文的词向量作为输入，利用双向循环神经网络获得上下文语义特征；

指代词识别单元122，用于将上下文语义特征输入logistic层，得到目标语料候选零代词指代词的概率；

概率优化结果获取单元123，用于结合预设优化规则对指代关系概率进行优化，得到概率优化结果；

目标零代词获取单元124，用于根据概率优化结果获得目标零代词。

表述对集合获取模块130，用于根据所有目标零代词及候选先行语获得表述对集合；

进一步地，所述表述对集合获取模块130包括：

候选先行语识别单元131，用于根据上下文分析识别出候选先行语；

对应集合获取单元132，用于根据目标零代词和候选先行语的识别结果得到相应的候选先行语集合；所有的目标零代词具有对应的目标零代词集合；

表述对集合构建单元133，用于将目标零代词集合与候选先行语集合做笛卡尔积运算，构建出表述对集合；

表述对特征提取单元134，用于根据句法分析特征和词向量特征，结合长短期记忆网络(LSTM)，通过均化池，分别提取出表述对特征；所述表述对特征包括候选先行语特征、候选先行语的上文特征、候选先行语的下文特征、零代词的上下文特征。

优选地，所述句法分析特征包括短语结构句法分析特征和依存句法分析特征；所述短语结构句法分析特征包括候选先行语和零代词的距离特征，以及在语法树上的位置关系；所述依存句法分析特征包括零代词与候选先行语的关系特征；

所述词向量特征包括本身词向量特征和上下文词向量特征；

指代关系概率获取模块140，用于获取每个表述对中目标零代词与候选先行语间指代关系的概率，并将多个指代关系的概率进行排序；

零代词消解模块150，用于根据排序结果得到对应的零代词消解结果。

综上所述，本发明通过预处理过程，进一步识别出候选零代词位置；然后结合预设优化规则，得到目标零代词，识别出目标语料中的零代词；

总之，本发明利用结合句法分析的预设优化规则，实现零代词的准确识别，通过使用深度学习的方法，使得零代词消解得以完成。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

本发明中的技术方案中的各个模块均可通过计算机终端或其它设备实现。所述计算机终端包括处理器和存储器。所述存储器用于存储本发明中的程序指令/模块，所述处理器通过运行存储在存储器内的程序指令/模块，实现本发明相应功能。

本发明中的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

本发明中所述模块/单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。可以根据实际的需要选择其中的部分或者全部模块/单元来达到实现本发明方案的目的。

另外，在本发明各个实施例中的各模块/单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种中文零代词消解方法，其特征在于，包括：

通过对目标语料进行预处理，获取候选零代词标记；

根据所有目标零代词及候选先行语获得表述对集合；

根据排序结果得到对应的零代词消解结果。

2.根据权利要求1所述的消解方法，其特征在于，所述通过对目标语料进行预处理，获取候选零代词标记，包括：

3.根据权利要求1所述的消解方法，其特征在于，所述对候选零代词进行位置识别；位置识别的结果结合预设优化规则，得到目标零代词；包括：

将上下文语义特征输入logistic层，得到目标语料候选零代词指代关系的概率；

根据概率优化结果获得目标零代词。

4.根据权利要求1所述的消解方法，其特征在于，所述根据所有目标零代词及候选先行语获得表述对集合；包括：

根据上下文分析识别出候选先行语；

根据句法分析特征和词向量特征，结合长短期记忆网络模型，提取出表述对特征；所述表述对特征包括候选先行语特征、候选先行语的上文特征、候选先行语的下文特征、零代词的上下文特征。

5.根据权利要求4所述的消解方法，其特征在于，

所述句法分析特征包括短语结构句法分析特征和依存句法分析特征；

所述词向量特征包括本身词向量特征和上下文词向量特征；

6.一种中文零代词消解系统，其特征在于，包括：

7.根据权利要求6所述的消解系统，其特征在于，所述预处理模块包括：

8.根据权利要求6所述的消解方法，其特征在于，所述零代词识别模块包括：

9.根据权利要求6所述的消解方法，其特征在于，所述表述对集合获取模块包括：

10.根据权利要求9所述的消解方法，其特征在于，

所述词向量特征包括本身词向量特征和上下文词向量特征；