CN114548113A

CN114548113A - 基于事件的指代消解系统、方法、终端及存储介质

Info

Publication number: CN114548113A
Application number: CN202210166422.0A
Authority: CN
Inventors: 杨磊; 李强
Original assignee: Shanghai Junzheng Network Technology Co Ltd
Current assignee: Shanghai Junzheng Network Technology Co Ltd
Priority date: 2022-02-23
Filing date: 2022-02-23
Publication date: 2022-05-27

Abstract

本发明提供基于事件的指代消解系统、方法、终端及存储介质，包括：事件识别模块，用于基于预设知识维度对文本识别得到事件集合；多级筛选模块，包括用于处理不同指代类型的若干匹配层；指代标准化模块，连接所述多级筛选模块，用于将所述多级筛选模块所识别出的指代结果按照预设语料库的形式进行标准化处理。本发明基于事件的语义特征，提高了指代消解的准确率；与已有指代消解方法相比，通过加入事件的特征，可以针对多种类型的指代进行识别；扩展性较好，便于测试，适合添加多种模型；每一层以上一层筛选出的实体聚类体为输入，在进行指代判断时，可以使用更多的信息，避免了实体表达对只从两个词语判断的缺陷。

Description

基于事件的指代消解系统、方法、终端及存储介质

技术领域

本发明涉及自然语言技术领域，尤其涉及基于事件的指代消解系统、方法、终端及存储介质。

背景技术

随着企业的发展，企业的用户规模以及自身的品牌影响力都会提升，比如在微博、论坛、微信等网络渠道中，会产生大量关于企业的评论与反馈等舆情信息，这些信息中包含着对企业发展来讲，非常有影响的信息，特别是各个媒体和用户对企业相关的评价，如果能及时监控到这些信息，不但可以提升用户体验，提高运营效率，特别的，对于企业的负面信息，如果能及时的干预处理，可以及时维护企业品牌的形象，挽回不必要的损失，这就是舆情监控的意义所在。

舆情监控是多种技术的综合运用，信息抽取就是其中的一环，而指代消解是信息抽取不可或缺的组成部分。例如，某篇新闻文章中涉及到的实体通常有多种不同的表达方式，某个语义关系中的实体可能是以代词形式出现的，为了更准确地从文本中抽取相关信息，必须要对文章中的指代现象进行消解。

指代是自然语言中一种常见的语言现象，它将一个表达简练的语言单元关联文中出现的一个表达复杂的语言单元，使得语言表达简洁连贯，层次鲜明，然而多种形式的指代现象增加了计算机理解自然语言的难度，这就需要在文本中找出同一实体的不同表达，来消除这种障碍，这也就是指代消解的目的。

经过几十年的发展，指代消解在国内外的研究中取得了一定的成果，基本上可以分为两大类：基于启发式语言学规则的方法和基于数据驱动的方法。这两种方法，只要可以获得高质量的特征信息，都会取得比较好的效果。

国外的研究起步较早，提出了许多经典的算法。Hobbs(Hobbs,J.R.,Resolvingpronoun references.Lingua,1978.44(4):p.311-338.)在1978年提出了一种针对英文人称代词的指代消解算法，在句法分析树上结合语法规则进行指代消解；Lappin等(Lappin,S.and H.J.Leass,An algorithm for pronominal anaphora resolution.Computationallinguistics,1994.20(4):p.535-561.)提出一种RAP算法，通过McCord提出的槽文法(SlotGrammar)获得文档的语法结构，再通过计算候选先行语的突显性，利用过滤规则确定先行语，实现句内和句间第三人称代词和反身代词的消解；Soon等(Soon,W.M.,H.T.Ng,andD.C.Y.Lim,A machine learning approach to coreference resolution of nounphrases.Computational linguistics,2001.27(4):p.521-544.)于2001首次通过决策树算法给出了一个基于分类的指代消解系统的完整实现步骤，取得了不错的效果；Raghunathan等(Raghunathan,K.,et al.A multi-pass sieve for coreferenceresolution.in Proceedings of the 2010Conference on Empirical Methods inNatural Language Processing.2010.Association for Computational Linguistics.)在2010年提出了一个简单的基于多层过滤框架的指代消解模型，在标准测试集上的效果好于机器学习的方法；Lee等(Lee,H.,et al.Stanford's multi-pass sieve coreferenceresolution system at the CoNLL-2011shared task.in Proceedings of theFifteenth Conference on Computational Natural Language Learning:SharedTask.2011.Association for Computational Linguistics.)基于Raghunathan的思想，在其模型的基础上进行了扩展，并在随后的CoNLL-2011shared task测评中获得最高的准确率。

国内的研究起步较晚，但也取得一定成果。王厚峰等(王厚峰and梅铮,鲁棒性的汉语人称代词消解.软件学报,2005.16(5):p.700-707.)根据中文的特点采用近似于Mitkov提出的基于弱化语言知识的方法用于解决人称代词的指代消解；周俊生等(周俊生,etal.,一种基于图划分的无监督汉语指代消解算法.中文信息学报,2007.21(2):p.77-82.)通过引入一个带权图利用无监督聚类算法实现了名词短语的指代消解；张牧宇等(张牧宇,et al.,基于中心语匹配的共指消解.中文信息学报,2011.3:p.002.)提出一种竞争模式对将中心语约束融合进实例匹配算法，提升了消解效果。

但是，上述方法大多只能对一种类型的指代类型进行识别，且对于中文的指代消解准确率较低。因此，本领域亟需一种适用于多种类型的且对中文的指代消解准确率较高的指代方法。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是提供适用于中文且提高准确率的指代消解方案。

为实现上述目的，本发明提供了一种基于事件的指代消解系统，包括：事件识别模块，用于基于预设知识维度对文本识别得到事件集合；多级筛选模块，连接所述事件识别模块；所述多级筛选模块包括用于处理不同指代类型的匹配层；指代标准化模块，连接所述多级筛选模块，用于将所述多级筛选模块所识别出的指代结果按照预设语料库的形式进行标准化处理。

在本发明的较佳实施方式中，所述预设知识维度包括事件维度、事件要素维度和事件关系维度中的一种或多种；识别得到的所述事件集合中的每个事件元素的组成结构包括：事件中的对象要素、事件中的时间要素、事件中的环境要素及事件中的触发词。

在本发明的另一较佳实施方式中，所述多级筛选模块中的匹配层按准确率降序排列，第一层匹配层以所述事件集合作为输入，其余匹配层均以上一层匹配层的筛选结果作为输入。

在本发明的另一较佳实施方式中，所述匹配层包括字符匹配层、代词匹配层、缩略匹配层和语义匹配层；所述字符匹配层用于处理表述相同的指代，所述代词匹配层用于处理代词类指代，所述缩略匹配层用于处理缩略指代，所述语义匹配层用于处理表述不同的指代。

在本发明的另一较佳实施方式中，所述字符匹配层预设有非抽象要素特征匹配条件和抽象要素特征匹配条件；其中，所述非抽象要素特征匹配条件用于将两两事件元素中非抽象的对象要素进行匹配来确定是否为表述相同的指代；所述抽象要素特征匹配条件用于将两两事件元素中抽象的对象要素进行匹配来确定是否为表述相同的指代。

在本发明的另一较佳实施方式中，所述非抽象要素特征匹配条件包括字符匹配条件，其表示为：两两事件元素中非抽象的对象要素完全匹配；所述抽象要素特征匹配条件包括抽象关联性匹配条件和/或事件关系特征匹配条件；其中，所述抽象关联性匹配条件表示为：两两事件元素中抽象的对象要素完全匹配且均为第二类抽象要素，并且两者分别所在事件的触发词为同义词；所述事件关系特征匹配条件表示为：两两事件元素中抽象的对象要素完全匹配且均为第一类抽象要素，并且两者分别所在事件之间的事件关系为因果关系或条件关系。

在本发明的另一较佳实施方式中，所述字符匹配层根据所述非抽象要素特征匹配条件找出所述事件集合中的对象要素；对找到的对象要素进行抽象要素识别；若为非抽象要素，则确定为表述相同的指代；若为抽象要素，且满足所述抽象要素特征匹配条件，则亦确定为表述相同的指代；否则不为表述相同的指代。

在本发明的另一较佳实施方式中，所述对找到的对象要素进行抽象要素识别，识别过程包括：对所述对象要素进行分词处理，并根据分词处理后的词性来识别抽象要素；其中，所述第一类抽象要素是指分词后的词性为“数词+名词”或为“数词+量词+名词”且字数小于预设阈值；所述第二类抽象要素是指分词后的词性为代词。

在本发明的另一较佳实施方式中，所述代词匹配层确定两个对象要素是否为代词类指代的过程包括：

基于距离特征匹配条件确定两个对象要素是否为代词类指代；对于符合所述距离特征匹配条件的两个对象要素，基于意念事件特征条件进行再次识别，以对所述距离特征匹配条件未能识别的对象要素进行补充识别；若识别成功，则确定所述两个对象要素为代词类指代，否则不为代词类指代；对于不符合所述距离特征匹配条件的两个对象要素，基于事件关系特征条件进行再次识别，以对所述距离特征匹配条件识别有误的对象要素进行矫正识别；若识别成功，则确定所述两个对象要素不为代词类指代，否则为代词类指代。

在本发明的另一较佳实施方式中，所述距离特征匹配条件是指，若两个对象要素之间的距离满足预设距离要求且相对靠后的对象要素为代词，则确定这两个对象要素构成代词类指代关系；所述意念事件特征条件是指，若一事件为意念事件，且该事件的意语中出现了另一事件的代词类的对象要素，则确定这两个事件的对象要素构成代词类指代关系；所述事件关系特征匹配条件是指，若呈组合关系的两个事件的对象要素满足所述距离特征匹配条件，则确定这两个事件的对象要素不构成代词类指代关系。

在本发明的另一较佳实施方式中，所述缩略匹配层确定两个对象要素是否为缩略指代的过程包括：基于缩略匹配条件确定两个对象要素是否为缩略指代；对于所述缩略匹配条件识别有误的对象要素，基于特殊事件匹配条件和/或事件关系特征匹配条件进行矫正识别。

在本发明的另一较佳实施方式中，所述缩略匹配条件是指，将对象要素进行分词处理；对分词后的对象要素进行词频统计；根据词频统计结果计算两个对象要素的相似度；将相似度计算结果作为距离度量，通过Canopy算法进行聚类，得出K-means算法所需要的K值；对各Canpoy进行K-means聚类，根据聚类结果确定是否构成缩略指代关系；所述特殊事件匹配条件是指，若一对象要素与特殊事件中的对象要素构成缩略指代关系，则所述特殊事件中的对象要素不与其它任何对象要素构成缩略指代关系；所述事件关系匹配条件是指，若呈条件关系或排斥关系的两个事件的对象要素满足所述缩略匹配条件，则这两个事件的对象要素不构成缩略指代关系。

在本发明的另一较佳实施方式中，所述语义匹配层确定两个对象要素是否为表述不同的指代的过程包括：基于语义相似性匹配条件确定两个对象要素是否为表述不同的指代；对于所述语义相似性匹配条件识别有误的对象要素，基于要素内嵌相似性匹配条件和/或事件关系特征匹配条件进行矫正识别。

在本发明的另一较佳实施方式中，所述语义相似性匹配条件是指，若两个对象要素之间相似，则确定两个对象要素构成表述不同的指代关系；所述要素内嵌相似性匹配条件是指，若一事件中对象要素的核心修饰词与另一事件中的触发词相似，则确定这两个事件的对象要素为表述不同的指代关系；所述事件关系特征匹配条件是指，若呈条件关系或排斥关系的两个事件的对象要素满足所述语义相似性匹配条件，则这两个事件的对象要素不构成表述不同的指代关系。

为实现上述目的，本发明提供了一种基于事件的指代消解方法，包括：基于预设知识维度对文本识别得到对应的事件集合；对所述事件集合进行多级筛选；每级筛选用于处理不同的指代类型；将所述多级筛选模块所识别出的指代结果按照预设语料库的形式进行标准化处理。

为实现上述目的及其他相关目的，本申请的第三方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述基于事件的指代消解方法。

为实现上述目的及其他相关目的，本申请的第四方面提供一种电子终端，包括：处理器及存储器；所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行所述基于事件的指代消解方法。

本发明提供的基于事件的指代消解系统、方法、终端及存储介质，具有以下技术效果：本发明基于事件的语义特征，提高了指代消解的准确率；与已有指代消解方法相比，通过加入事件的特征，可以针对多种类型的指代进行识别；扩展性较好，便于测试，适合添加多种模型，包括统计模型以及有监督模型；每一层以上一层筛选出的实体聚类体为输入，在进行指代判断时，可以使用更多的信息，避免了实体表达对只从两个词语判断的缺陷。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明一实施例中基于事件的指代消解系统的结构示意图。

图2是本发明一实施例中基于事件的指代消解方法的流程示意图。

图3是本发明一实施例中电子终端的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

为了阐释的目的而描述了本发明的一些示例性实施例，需要理解的是，本发明可通过附图中没有具体示出的其他方式来实现。

为解决上述背景技术中的问题，本发明提出基于事件的指代消解方法、系统、终端及存储介质，旨在基于事件文本语料库，结合事件的相关特征，实现一个多级特征筛选模型，用于处理表述相同的指代、表述不同的指代、缩略指代和代词类指代等四种指代类型，各级按精度高低进行排列，每一层以上一层输出的实体聚类体作为输入，并结合事件的特点，对各层加上一定的约束条件和事件关系的特征，以提高每层的精度，实现了一个基于C4.5决策树的分类方法用作比较，通过在CEC语料上进行测试，发现前者的性能明显大于后者。

为了使本发明的目的、技术方案及优点更加清楚明白，通过下述实施例并结合附图，对本发明实施例中的技术方案的进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定发明。

如图1所示，展示了本发明一实施例中基于事件的指代消解系统的结构示意图。本发明提出的指代消解系统针对舆情监控中的信息抽取环节，是一种多级特征筛选模型。以事件作为知识表示单元，借助事件丰富的语义要素特征，构建多特征筛选模型，识别对象要素中的四种指代类型，提高指代消解的准确率。

需要解释的是，事件中存在的指代现象是指，例如一个事件中的主体对象是代词，而由于代词本身的抽象性，对于基于事件的推理、自动摘要等应用来说，不能明确给出一个具体的对象信息，这对于计算机理解整篇文章以及分析各事件之间的关系来说带来了很多的困难。本发明提供的指代消解系统主要关注的是事件中对象要素的指代消解，在面向事件的自然语言处理中，事件作为知识表示单元，包含对象、事件、环境等事件要素，这些要素同样存在着大量的指代现象，事件本身也不例外。

具体而言，在事件文本中，对象要素的指代主要有4种类型：表述相同的指代、表述不同的指代、缩略指代和代词类指代。其中，表述相同的指代是指具有指代关系的两个要素的字符完全匹配；表述不同的指代需要根据上下文和两个要素的语义相似性进行判断是否具有指代关系；缩略指代是具有指代关系的两个要素具有部分相同的字符，但不是全部相同；代词类指代是照应要素为代词，而先行要素为具体的对象。

在本实施例中，所述基于事件的指代消解系统包括：事件识别模块11、多级筛选模块12和指代标准化模块13。下文，将结合具体的实施例来对系统中的各个模块做详尽的解释与说明。

所述事件识别模块11用于基于预设知识维度对文本识别得到对应的事件集合，为后续指代的识别提供知识准备。

在一些可选的实现方式中，所述预设知识维度包括事件维度、事件要素维度和事件关系维度中的一种或多种；识别得到的所述事件集合中的每个事件元素的组成结构包括：事件中的对象要素、事件中的时间要素、事件中的环境要素及事件中的触发词。

举例来说，文本经过所述事件识别模块11进行识别后，会形成以事件为组成单元的事件文本，事件文本中的每个事件可表示为Event(i)[O(i),T(i),L(i),D(i)]；其中，i表示事件序号，即表示在文本中的第几个事件；O表示事件中的对象要素；T表示事件中的时间要素；L表示事件中的环境要素；D表示事件中的触发词。

进一步解释如下：事件(Event)指在某个特定的时间和环境下发生的、由若干角色参与、表现出若干动作特征的一件事情。在文本中，用“<Event>”表示，形式上，事件可以表示为e，定义为一个六元组：e::＝(A，O，T，V，P，L)；其中，事件六元组中的元素称为事件要素，分别表示动作A、对象O、时间T、环境V、断言P、语言表现L。本发明仅对涉及到的要素进行介绍。

O(对象)：事件的参与对象，包括参与事件的所有角色，这些角色的类型数目称为对象序列长度。对象可分别是动作的施动者(主体)和受动者(客体)。主体是主导者，是事件的主角，有时是事件的制造者或期望事件的发生者。客体是事件中的被动者。在文本中，与人相关的用“<Participant>”表示，其它用“<Object>”表示。

T(时间)：事件发生的时间段，从事件发生的起点到事件结束的终点，分为绝对时间段和相对时间段两类。在文本中，用“<Time>”表示。

V(环境)：事件发生的场所及其特征等。例如：在小池塘里游泳，场所：小池塘，场所特征：水中。其中场所特征是现实世界中隐藏的无形环境，是人们通过常识在头脑中经过简单推理得出，并没有显示在文本中。在文本中，用“<Location>”表示。

事件中的触发词(Trigger)又称事件指示词或事件核心词，是指文本中可以用来清晰地表示所发生的事件的词。一般情况下，触发词是句子中的主要动词(也可能是名词)，触发词直接描述了事件。在文本中，用“<Denoter>”表示。

因此，一个经过所述事件识别模块11进行识别后的文本可以表示成事件集合如下：

Text＝{Event(1)[O(1),T(1),L(1),D(1)],Event(2)[O(2),T(2),L(2),D(2)]...Event(n)[O(n),T(n),L(n),D(n)]}。

进一步的，文本中存在的事件关系集合可表示为Re{E(i)E(j)r,E(n)E(m)r,...}；其中，E(i)E(j)r中的i和j表示序号为i的事件和序号为j的事件存在的事件关系为r，r的取值如下表1所示：

表1：事件关系取值表

co	组合关系
		fo	跟随关系
ca	因果关系
		cr	并发关系
cd	条件关系
		re	排斥关系

应理解的是，事件关系是指当一个事件发生后以一定概率导致另一个事件发生时，就称这两个事件是有关系的。事件关系分为两大类：分类关系和非分类关系。以其中的非分类关系为例，非分类关系指的是事件或事件类之间内在的语义关系，包括组成关系、跟随关系、因果关系、并发关系、条件关系和排斥关系等。

值得说明的是，考虑到事件识别模块11的自动化识别会造成一定的知识丢失和错误识别，故下述对于事件、事件要素和事件关系等的使用，都是基于人工标注好的语料，由此可忽略所述事件识别模块11自动识别的错误对多级筛选模块12所造成的影响。

所述多级筛选模块12用于处理不同指代类型的若干匹配层；各所述匹配层按准确率降序排列，第一层以所述事件集合作为输入，其余各层均以上一层的筛选结果作为输入。

在一些示例中，针对表述相同的指代、代词类指代、缩略指代、表述不同的指代这4种指代类型，所述多级筛选模块12主要设置四层匹配层，分别为：字符匹配层121、代词匹配层122、缩略匹配层123和语义匹配层124。所述字符匹配层121用于处理表述相同的指代，所述代词匹配层122用于处理代词类指代，所述缩略匹配层123用于处理缩略指代，所述语义匹配层124用于处理表述不同的指代。

在本示例中，按准确率降序排列的顺序，第一层为字符匹配层121，其以所述事件集合作为输入；第二层为代词匹配层122，其以字符匹配层121的匹配结果作为输入；第三层为缩略匹配层123，其以代词匹配层122的匹配结果作为输入；第四层为语义匹配层124，其以缩略匹配层123的匹配结果作为输入。

所述字符匹配层121预设有非抽象要素特征匹配条件和抽象要素特征匹配条件；其中，所述非抽象要素特征匹配条件用于将两两事件元素中非抽象的对象要素进行匹配来确定是否为表述相同的指代；所述抽象要素特征匹配条件用于将两两事件元素中抽象的对象要素进行匹配来确定是否为表述相同的指代。

具体而言，所述非抽象要素特征匹配条件包括字符匹配条件，其表示为：两两事件元素中非抽象的对象要素完全匹配；所述抽象要素特征匹配条件包括抽象关联性匹配条件和/或事件关系特征匹配条件；所述抽象关联性匹配条件表示为：两两事件元素中抽象的对象要素完全匹配且均为第二类抽象要素，并且两者分别所在事件的触发词为同义词；所述事件关系特征匹配条件表示为：两两事件元素中抽象的对象要素完全匹配且均为第一类抽象要素，并且两者分别所在事件之间的事件关系为因果关系或条件关系。

举例来说，上述匹配条件可被表述为适用于非抽象要素的特征匹配条件1，以及适用于抽象要素的特征匹配条件2和3。以事件Event(i)和Event(j)为例，这两个事件的对象要素分别为O(i)和O(j)。

特征匹配条件1：字符匹配条件；若O(i)＝O(j)，例如“中国外交部发言人A”←“中国外交部发言人A”，则符合条件。

特征匹配条件2：抽象关联性匹配条件；若O(i)＝O(j)，且O(i)和O(j)均为第二类抽象要素，并且O(i)所在事件的触发词D(i)与O(j)所在事件的触发词D(j)为同义词，即D(i)≈D(j)，则符合条件。

特征匹配条件3：事件关系特征匹配条件；若O(i)＝O(j)，且O(i)和O(j)均为第一类抽象要素，并且事件Event(i)和Event(j)满足E(i)E(j)r，其中r＝ca或者r＝cd，即前后两个事件的关系为因果关系或者条件关系，则符合条件。

解释性的，所述第一类抽象要素是指分词后词性为“数词+名词”或为“数词+量词+名词”且字数小于预设阈值，例如字数<＝4，比如“5人”、“一个女子”等等；所述第二类抽象要素是指分词后词性为代词，例如“她”、“那些”等等。因此，抽象要素的识别步骤可总结为：对所述对象要素进行分词处理(例如利用Nlpir分词工具或其它现有的分词工具)，随后根据分词处理后的词性来识别抽象要素；满足如下任一条件即为抽象要素：分词后的词性为“数词+名词”或为“数词+量词+名词”且字数小于预设阈值；或者，分词后的词性为代词。

所述代词匹配层122用于对上述确定不为表述相同的指代关系的对象要素进行代词匹配，即进一步确定是否为代词类指代。代词匹配层122识别的指代，是照应要素为代词类的指代，比如“小明”←“他”，主要包括人称代词、指示代词等。

在一些可选的实现方式中，所述代词匹配层122确定两个对象要素是否为代词类指代的过程包括：基于距离特征匹配条件确定两个对象要素是否为代词类指代；对于符合所述距离特征匹配条件的两个对象要素，基于意念事件特征条件进行再次识别，以对所述距离特征匹配条件未能识别的对象要素进行补充识别；若识别成功，则确定所述两个对象要素为代词类指代，否则不为代词类指代；对于不符合所述距离特征匹配条件的两个对象要素，基于事件关系特征条件进行再次识别，以对所述距离特征匹配条件识别有误的对象要素进行矫正识别；若识别成功，则确定所述两个对象要素不为代词类指代，否则为代词类指代。

需说明的是，所述意念事件是某人心中所产生的一段意语的事件，这段意语或用口头表达，或用文字描述，或留心中自知。在文本中，用“<Event type＝thoughtevent>”表示。其中，意语：表示行为人用来表达想法、观点、态度和所要描述事实的内容。可以表示为：意语＝{{叙真}{意念事件}}。意语是由叙真和意念事件中任一个或者两者共同构成。叙真：可以翻译成描述事件内容的一阶谓词。

所述距离特征匹配条件用于根据两个对象要素之间的距离来确定两者是否为代词类指代，主要是指：若两个对象要素之间的距离满足预设距离要求且相对靠后的对象要素为代词，则确定这两个对象要素构成代词类指代关系。所述意念事件特征条件用于根据意念事件来对所述距离特征匹配条件未能识别的对象要素进行指代补充识别，主要是指：若一事件为意念事件，且该事件的意语中出现了另一事件的代词类的对象要素，则确定这两个事件的对象要素构成代词类指代关系。所述事件关系特征匹配条件用于根据事件关系来对所述距离特征匹配条件识别错误的对象要素进行指代矫正识别，主要是指：若呈组合关系的两个事件的对象要素满足所述距离特征匹配条件，则确定这两个事件的对象要素不构成代词类指代关系。

具体举例如下，代词匹配层122设置如下3个特征匹配条件：

特征匹配条件1：距离特征匹配条件，是指两个对象要素之间的距离满足预设距离要求且相对靠后的对象要素为代词，由此可确定两个对象要素之间为代词类指代；例如：对于对象要素O(i)和O(j)，若两者距离满足距离条件，例如i+1＝j或者i+2＝j且O(j)为代词，则O(i)、O(j)为指代关系，即O(i)←O(j)。

特征匹配条件2：意念事件特征匹配条件，是指两个对象要素中的一对象要素所在事件为意念事件，且意语中出现了代词类的另一对象要素，由此可确定两个对象要素之间为代词类指代；例如：若Event(i)为意念事件，且意语中出现了代词类的对象要素O(j)，那么可以识别指代关系为O(i)←O(j)。

特征匹配条件3：事件关系特征匹配条件，是指两个对象要素满足所述距离特征匹配条件，但两对象分别所在的事件之间的事件关系为组合关系，则确定所述两个对象要素并非代词类指代；例如：对于事件Event(i)和Event(j)，若满足E(i)E(j)r，其中r＝co，且O(i)与O(j)满足匹配条件1，则O(i)与O(j)不为指代关系。

所述缩略匹配层123用于识别先行要素与照应要素之间部分字符相同的指代关系，例如：“山东省卫生局”←“省卫生局”、“哥斯达黎加红十字会”←“哥红十字会”等等。

需说明的是，先行要素和照应要素是指面向事件的中文文本中如果存在要素间的指代关系，表达较为具体的要素称为先行要素，表达较为抽象的要素称为照应要素；而面向事件的指代消解是指在在面向事件的文本中寻找先行要素和照应要素之间的关系，并明确给出照应要素所指向的先行要素的过程。

所述缩略匹配层123确定两个对象要素是否为缩略指代的过程包括：基于缩略匹配条件确定两个对象要素是否为缩略指代；对于所述缩略匹配条件识别有误的对象要素，基于特殊事件匹配条件和/或事件关系特征匹配条件进行矫正识别。

其中，所述缩略匹配条件是指，将对象要素进行分词处理；对分词后的对象要素进行词频统计；根据词频统计结果计算两个对象要素的相似度；将相似度计算结果作为距离度量，通过Canopy算法进行聚类，得出K-means算法所需要的K值；对各Canpoy进行K-means聚类，根据聚类结果确定是否构成缩略指代关系。所述特殊事件匹配条件是指，若一对象要素与特殊事件中的对象要素构成缩略指代关系，则所述特殊事件中的对象要素不与其它任何对象要素构成缩略指代关系。所述事件关系匹配条件是指，若呈条件关系或排斥关系的两个事件的对象要素满足所述缩略匹配条件，则这两个事件的对象要素不构成缩略指代关系。

举例来说，所述缩略匹配层123共有如下匹配条件：

匹配条件1：缩略匹配条件；例如，若O(i)与O(j)满足缩略匹配条件，则为缩略指代关系。

匹配条件2：特殊事件匹配条件；例如，若Event(i)符合特殊事件，且O(i)与O(j)满足上述匹配条件1，则O(i)不与其他对象要素构成缩略指代关系。

匹配条件3：事件关系匹配条件；对于事件Event(i)和Event(j)，若满足E(i)E(j)r，其中r＝cd或r＝re，且O(i)与O(j)满足上述匹配条件1，则O(i)与O(j)不为缩略指代关系。

以事件Event(i)和Event(j)为例，该层识别对象要素O(i)与O(j)的缩略指代关系；其中，分词借助Nlpir分词工具，指代识别步骤如下：

步骤1.若对象要素O(i)与O(j)满足匹配条件1，则为缩略指代关系，继续处理；否则不为缩略指代关系，处理结束。其中缩略匹配识别过程为：

(1)将对象要素进行分词处理；

(2)对分词后的对象要素，进行词频统计，包括每个词及其词性；

(3)根据词频统计，计算两个对象要素的余弦相似度；

(4)将(3)中计算出的余弦相似度作为距离度量，通过Canopy算法进行聚类，得出K-means算法所需要的K值。

(5)对(4)中得到的各个Canpoy进行K-means聚类，得到最终的结果。

步骤2.若O(i)与O(j)所在事件满足上述匹配条件2，则不为缩略指代关系，结束处理；否则进行下一步的事件关系匹配条件。其中特殊事件需满足两个条件：

条件(1)事件中只存在对象要素O(i)和触发词D(i)；

条件(2)触发词属于特殊事件词库中的词，特殊事件词库是在实验测试过程中根据实验结果人工选择构建的。

步骤3.若O(i)与O(j)满足上述匹配条件3，则不为缩略指代关系，结束处理；否则为缩略指代关系，结束处理。

所述语义匹配层124用于识别表述不同的指代，例如：“西藏”←“自治区”这种语义相似的对象要素。

所述语义匹配层124确定两个对象要素是否为表述不同的指代的过程包括：基于语义相似性匹配条件确定两个对象要素是否为表述不同的指代；对于所述语义相似性匹配条件识别有误的对象要素，基于要素内嵌相似性匹配条件和/或事件关系特征匹配条件进行矫正识别。

值得说明的是，所述语义匹配层124使用了3种匹配条件，要素内嵌相似性匹配条件是对语义相似性匹配条件未识别指代的补充识别，而事件关系特征匹配条件是对语义相似性匹配条件识别错误的矫正识别。

其中，所述语义相似性匹配条件是指，若两个对象要素之间相似，则确定两个对象要素构成表述不同的指代关系；所述要素内嵌相似性匹配条件是指，若一事件中对象要素的核心修饰词与另一事件中的触发词相似，则确定这两个事件的对象要素为表述不同的指代关系；所述事件关系特征匹配条件是指，若呈条件关系或排斥关系的两个事件的对象要素满足所述语义相似性匹配条件，则这两个事件的对象要素不构成表述不同的指代关系。

举例来说，所述语义匹配层124设有如下3个匹配条件：

匹配条件1：语义相似性匹配条件；例如，对象要素O(i)≈O(j)，即语义相似，则O(i)与O(j)为指代关系。

匹配条件2：要素内嵌相似性匹配条件；例如，对于事件Event(i)和Event(j)，若满足OC(i)≈D(j)，其中OC(i)表示对象要素的核心修饰词，则O(i)与O(j)为指代关系。

匹配条件3：事件关系特征匹配条件；例如，对于事件Event(i)和Event(j)，若满足E(i)E(j)r，其中r＝cd或r＝re，且O(i)与O(j)满足匹配条件1，则O(i)与O(j)不为指代关系。

再举例来说，语义匹配层124的指代识别过程如下：

针对事件Event(i)和Event(j)，该层识别对象要素O(i)与O(j)的指代关系，其中分词借助Nlpir分词工具，词语相似性使用HowNet识别，步骤如下：

步骤①将对象要素O(i)与O(j)分别进行分词处理后，去掉词性为形容词和助词的词，处理后得到新的对象要素O(i)与O(j)。

步骤②若满足匹配条件1，则继续步骤③；若不满足匹配条件1，则继续步骤④。

步骤③若满足匹配条件3，则O(i)与O(j)不为表述不同的指代关系，结束处理；不满足匹配条件3，则为表述不同的指代关系，结束处理。

步骤④根据步骤①的分词结果，将名词前为动词词性的词语定为对象要素的核心修饰词，若存在核心修饰词且满足匹配条件2，则O(i)与O(j)为表述不同的指代关系，结束处理；若不存在，则O(i)与O(j)不为表述不同的指代关系，结束处理。

在本实施例的一些示例中，所述指代标准模块13用于将所述多级筛选模块12所识别出的指代结果按照预设语料库的形式进行标准化处理。具体来说，通过多级筛选模块12得到的指代结果如A←B←C这种形式，即将识别出的指向同一实体的对象要素都放在一个指代链中，与语料库中的指代标注形式A←B和B←C不同，所以，需要该模块将多级筛选模块的指代结果统一成与语料库中一致的形式。

上文，对一实施例中基于事件的指代消解系统的具体结构及实现原理做了详尽的说明。下文，将基于CEC语料的实验来对本发明提供的指代消解系统的优越性能进行辅佐说明。

本实验所用语料为CEC语料，对事件、事件要素、事件关系和指代等进行了标注，语料数量为200篇，其中事件数为3679，触发词数3679，对象要素的数量为3262，对象指代的数量为412。国际上通用的指代消解测试语料，例如，ACE语料、OntoNotes语料等，虽然也包含中文测试语料，但它们对事件的标注仅包含动词，事件覆盖面较窄，无法标注意念事件，不包含事件要素的标注，CEC语料较好地解决了上述问题。

(1)各层叠加后的结果

将每一层按照准确度高低依次叠加后，效果如表2所示：

表2各层累加后的实验结果

	Precision准确率	Recall召回率	F值
				1	97.4％	44.5％	61.0％
1,2	88.3％	54.2％	67.2％
				1,2,3	84.5％	74.2％	79.0％
1,2,3,4	84.1％	76.0％	79.8％

从表2得出，各层依次加入后，准确率随之下降，召回率和F值随之升高。准确率的下降是因为该系统是按照准确率从高到低进行排列，当较低准确率的筛选层加入后，势必会造成系统整体准确率的下降。从F值的结果来看，各层的加入都会伴随F值的升高，说明每一层对系统都是有贡献的。

应理解的是，准确率和召回率是广泛应用于信息检索和统计学分类领域的两个度量值，用于评价结果的质量；准确率是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率；召回率是指检索出的相关文档数和文档库中所有相关文档数的比率，衡量的是检索系统的查全率；F值是指正确率和召回率的调和平均值。

(2)与决策树方法的比较

除了多层过滤系统外，本发明还实现了一个基于C4.5决策树的指代消解系统，用于比较，该方法采用的属性特征有6个，分别是距离、字符串匹配、性别、是否为代词、语义类别和数量一致性。

本发明的指代消解方法为基于规则的方法，决策树算法是基于数据驱动方法中非常典型的有监督的机器学习方法，与它比较，可以很好地说明基于规则的方法如果能获得足够多的表达信息，也会取得不错的效果。表3为决策树与多级筛选系统的结果比较：

表3最终实验结果对比

	Precision准确率	Recall召回率	F值
				C4.5决策树	73.7％	55.7％	63.5％
多级筛选	84.1％	76.0％	79.8％

从表3中可以得出，多级筛选系统在准确率、召回率和F值上都比决策树系统要好，原因主要有以下几点：

(1)机器学习的方法依赖于语料库，需要在语料库中学习知识，所以语料库中语料的数量相当重要，只有语料数量充足，才能学习到足够的知识用于分类，而本发明所用语料在数量上还略显不足。

(2)在决策树算法中，反例的数量要远远大于正例，也影响了最终的结果。

(3)决策树模型采用的是实体表达对模型，只能从两个词中抽取信息用于指代关系的判断，而多级筛选系统的每层都以上一层输出的实体聚类体作为输入，采用的是实体表述模型，获得的信息量远大于前者。

(4)决策树对各种类型的指代统一进行判断，容易造成各类型之间的互相影响，而多级筛选模型就解决了这一问题，每层只针对一种类型。

(5)多级筛选模型以事件作为知识表示单元，加入了与事件相关的约束条件和事件关系的特征，提高了系统的准确度。

如图2所示，展示了本发明一实施例中基于事件的指代消解方法的流程示意图。所述基于事件的指代消解方法包括如下多个步骤：

步骤S21：基于预设知识维度对文本识别得到对应的事件集合。

步骤S22：对所述事件集合进行多级筛选；每级筛选用于处理不同的指代类型，且各级筛选按照准确率降序排列，第一级筛选以所述事件集合作为输入，其余各级筛选均以上一级的筛选结果作为输入。

步骤S23：将所述多级筛选模块所识别出的指代结果按照预设语料库的形式进行标准化处理。

应理解的是，本实施例所提供的指代消解方法与上文实施例中的指代消解系统，两者的实施方式类似，因此不再赘述。

另外，本实施例的指代消解方法可应用于多种类型的硬件设备；例如，ARM(Advanced RISC Machines)控制器、FPGA(Field Programmable Gate Array)控制器、SoC(System on Chip)控制器、DSP(Digital Signal Processing)控制器、或者MCU(Micorcontroller Unit)控制器等；也可应用于台式电脑、笔记本电脑、平板电脑、智能手机、智能手环、智能手表、智能头盔等个人电脑设备；还可应用于服务器等，本实施例不做限定。

如图3所示，展示了本发明一实施例中电子终端的结构示意图。本实例提供的电子终端，包括：处理器31、存储器32、通信器33；存储器32通过系统总线与处理器31和通信器33连接并完成相互间的通信，存储器32用于存储计算机程序，通信器33用于和其他设备进行通信，处理器31用于运行计算机程序，使电子终端执行如上基于事件的指代消解方法的各个步骤。

上述提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述基于事件的指代消解方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

于本申请提供的实施例中，所述计算机可读写存储介质可以包括只读存储器、随机存取存储器、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁存储设备、闪存、U盘、移动硬盘、或者能够用于存储具有指令或数据结构形式的期望的程序代码并能够由计算机进行存取的任何其它介质。另外，任何连接都可以适当地称为计算机可读介质。例如，如果指令是使用同轴电缆、光纤光缆、双绞线、数字订户线(DSL)或者诸如红外线、无线电和微波之类的无线技术，从网站、服务器或其它远程源发送的，则所述同轴电缆、光纤光缆、双绞线、DSL或者诸如红外线、无线电和微波之类的无线技术包括在所述介质的定义中。然而，应当理解的是，计算机可读写存储介质和数据存储介质不包括连接、载波、信号或者其它暂时性介质，而是旨在针对于非暂时性、有形的存储介质。如申请中所使用的磁盘和光盘包括压缩光盘(CD)、激光光盘、光盘、数字多功能光盘(DVD)、软盘和蓝光光盘，其中，磁盘通常磁性地复制数据，而光盘则用激光来光学地复制数据。

综上所述，本申请提供基于事件的指代消解系统、方法、终端及存储介质，本发明基于事件的语义特征，提高了指代消解的准确率；与已有指代消解方法相比，通过加入事件的特征，可以针对多种类型的指代进行识别；扩展性较好，便于测试，适合添加多种模型，包括统计模型以及有监督模型；每一层以上一层筛选出的实体聚类体为输入，在进行指代判断时，可以使用更多的信息，避免了实体表达对只从两个词语判断的缺陷。所以，本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于事件的指代消解系统，其特征在于，包括：

事件识别模块，用于基于预设知识维度对文本识别得到事件集合；

多级筛选模块，连接所述事件识别模块；所述多级筛选模块包括用于处理不同指代类型的匹配层；

指代标准化模块，连接所述多级筛选模块，用于将所述多级筛选模块所识别出的指代结果按照预设语料库的形式进行标准化处理。

2.如权利要求1所述的基于事件的指代消解系统，其特征在于，所述多级筛选模块中的匹配层按准确率降序排列，第一层匹配层以所述事件集合作为输入，其余匹配层均以上一层匹配层的筛选结果作为输入。

3.如权利要求2所述的基于事件的指代消解系统，其特征在于，所述匹配层包括字符匹配层、代词匹配层、缩略匹配层和语义匹配层；所述字符匹配层用于处理表述相同的指代，所述代词匹配层用于处理代词类指代，所述缩略匹配层用于处理缩略指代，所述语义匹配层用于处理表述不同的指代。

4.如权利要求3所述的基于事件的指代消解系统，其特征在于，所述字符匹配层预设有非抽象要素特征匹配条件和抽象要素特征匹配条件；其中，所述非抽象要素特征匹配条件用于将两两事件中非抽象的对象要素进行匹配来确定是否为表述相同的指代；所述抽象要素特征匹配条件用于将两两事件中抽象的对象要素进行匹配来确定是否为表述相同的指代。

5.如权利要求4所述的基于事件的指代消解系统，其特征在于：

所述非抽象要素特征匹配条件包括字符匹配条件，所述字符匹配条件表示为：两两事件中非抽象的对象要素完全匹配；

所述抽象要素特征匹配条件包括抽象关联性匹配条件和/或事件关系特征匹配条件；其中，所述抽象关联性匹配条件表示为：两两事件中抽象的对象要素完全匹配且均为第二类抽象要素，并且所述两两事件的触发词为同义词；所述事件关系特征匹配条件表示为：两两事件中抽象的对象要素完全匹配且均为第一类抽象要素，并且所述两两事件之间的事件关系为因果关系或条件关系。

6.如权利要求3所述的基于事件的指代消解系统，其特征在于，所述代词匹配层确定两个对象要素是否为代词类指代的过程包括：

基于距离特征匹配条件确定两个对象要素是否为代词类指代；

对于符合所述距离特征匹配条件的两个对象要素，基于意念事件特征条件进行再次识别，以对所述距离特征匹配条件未能识别的对象要素进行补充识别；若识别成功，则确定所述两个对象要素为代词类指代，否则不为代词类指代；

对于不符合所述距离特征匹配条件的两个对象要素，基于事件关系特征条件进行再次识别，以对所述距离特征匹配条件识别有误的对象要素进行矫正识别；若识别成功，则确定所述两个对象要素不为代词类指代，否则为代词类指代。

7.如权利要求3所述的基于事件的指代消解系统，其特征在于，所述缩略匹配层确定两个对象要素是否为缩略指代的过程包括：基于缩略匹配条件确定两个对象要素是否为缩略指代；对于所述缩略匹配条件识别有误的对象要素，基于特殊事件匹配条件和/或事件关系特征匹配条件进行矫正识别。

8.如权利要求3所述的基于事件的指代消解系统，其特征在于，所述语义匹配层确定两个对象要素是否为表述不同的指代的过程包括：基于语义相似性匹配条件确定两个对象要素是否为表述不同的指代；对于所述语义相似性匹配条件识别有误的对象要素，基于要素内嵌相似性匹配条件和/或事件关系特征匹配条件进行矫正识别；其中：

所述语义相似性匹配条件是指，若两个对象要素之间相似，则确定两个对象要素构成表述不同的指代关系；

所述要素内嵌相似性匹配条件是指，若一事件中对象要素的核心修饰词与另一事件中的触发词相似，则确定这两个事件的对象要素为表述不同的指代关系；

所述事件关系特征匹配条件是指，若呈条件关系或排斥关系的两个事件的对象要素满足所述语义相似性匹配条件，则这两个事件的对象要素不构成表述不同的指代关系。

9.一种基于事件的指代消解方法，其特征在于，包括：

基于预设知识维度对文本识别得到事件集合；

对所述事件集合进行多级筛选；每级筛选用于处理不同的指代类型；

将多级筛选所识别出的指代结果按照预设语料库的形式进行标准化处理。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求9所述基于事件的指代消解方法。

11.一种电子终端，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述电子终端执行如权利要求9所述基于事件的指代消解方法。