CN111626042A

CN111626042A - 指代消解方法及装置

Info

Publication number: CN111626042A
Application number: CN202010469113.1A
Authority: CN
Inventors: 李巧; 伍文成; 朱永强
Original assignee: Chengdu Wangan Technology Development Co ltd
Current assignee: Chengdu Wangan Technology Development Co ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2020-09-04
Anticipated expiration: 2040-05-28
Also published as: CN111626042B

Abstract

本申请实施例提供一种指代消解方法及装置，通过确定每个训练样本对应的先行语候选集，并根据每个训练样本中的代词类别，为先行语候选集中的每个元素构建特征向量，以用于反映照应语和先行语之间的语义关系，以便于有效发挥语义关系的优势。然后，将先行语候选集中每个元素的特征向量和对应的训练样本的指代消解结果输入最大熵模型进行训练，从而可以采用训练获得的指代消解模型对语句进行指代消解。如此，能够对照应语的上下文语义关系进行充分利用，从而便于后续有效识别先行语和照应语之间的语义关系，提高指代消解的准确率和召回率。

Description

指代消解方法及装置

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种指代消解方法及装置。

背景技术

指代是指在语篇中用一个照应语回指某个之前提到过的语言单位，一般将指代语称为照应语，指代的对象或内容称为先行语。通常先行语可以在照应语之前，也可以在之后。例如，如果先行语可以在照应语之前，那么照应语与先行语之间的关系称为照应关系；如果先行语可以在照应语之后，则称为逆照应关系。

指代消解就是确定照应语与先行语的对应关系，相同的照应语也可以指代不同的先行语，确定照应语的先行语的过程就是指代消解的过程。

当前的指代消解方案，无法对照应语的上下文语义关系进行充分利用，导致难以有效识别先行语和照应语之间的语义关系，从而导致指代消解的准确率和召回率较低。

发明内容

基于现有设计的不足，本申请提供一种指代消解方法及装置，能够对照应语的上下文语义关系进行充分利用，从而便于后续有效识别先行语和照应语之间的语义关系，提高指代消解的准确率和召回率。

根据本申请的第一方面，提供一种指代消解方法，应用于计算机设备，所述方法包括：

获取由多个训练样本以及每个训练样本对应的指代消解标签构成的训练样本集，所述训练样本包括对具有指照应语和先行语的训练分句进行预处理后得到的分句特征信息；

确定每个训练样本对应的先行语候选集，并根据每个训练样本中的代词类别，为所述先行语候选集中的每个元素构建特征向量，其中，所述特征向量用于反映照应语和先行语之间的语义关系；

将所述先行语候选集中每个元素的特征向量和对应的训练样本的指代消解结果输入最大熵模型进行训练，得到指代消解模型，其中，所述指代消解模型用于对待指代消解的语句进行指代消解。

在第一方面的一种可能的实施方式中，所述获取由多个训练样本以及每个训练样本对应的指代消解标签构成的训练样本集的步骤，包括：

获取待处理文本并对所述待处理文本进行分段，将分段获得的多个分段文本进行分句，得到多个分句；

对每个分句进行分词获得分词序列，并提取所述分词序列的句法分析特征、词性标注特征和命名实体识别特征，作为每个分句的训练样本；

获取每个分句的训练样本对应的指代消解标签，并将所述指代消解标签关联到对应分句的训练样本，以获得训练样本集。

在第一方面的一种可能的实施方式中，所述根据每个训练样本中的代词类别，为所述先行语候选集中的每个元素构建特征向量的步骤，包括：

针对每个训练样本，当该训练样本中的代词类别为第三人称代词时，根据第三人称代词特征向量提取策略为所述先行语候选集中的每个元素构建第一特征向量；以及

当该训练样本中的代词类别为指示代词时，根据指示代词特征向量提取策略为所述先行语候选集中的每个元素构建第二特征向量。

在第一方面的一种可能的实施方式中，根据第三人称代词特征向量提取策略为所述先行语候选集中的每个元素构建第一特征向量的步骤，包括：

基于第一设定规则提取所述先行语候选集中的每个元素对应的第一规则特征向量，所述第一规则特征向量包括单复数一致特征向量、性别一致特征向量、词频特征向量、距离特征向量中的至少一种，其中，所述单复数一致特征向量用于表征先行语与对应的第三人称代词的单复数属性一致性，所述性别一致特征向量用于表征在先行语与对应的第三人称代词都代指人的情况下的性别属性一致性，所述词频特征向量用于表征在先行语的词频特征，所述距离特征向量用于表征先行语与对应的第三人称代词之间的距离特征；

提取所述先行语候选集中的每个元素对应的句法特征向量，其中，所述句法特征向量用于表征每个元素在对应的分句中的句法关系特征；以及

提取所述先行语候选集中的每个元素对应的相似性特征向量；

将所述第一规则特征向量、句法特征向量以及相似性特征向量构建为第一特征向量。

在第一方面的一种可能的实施方式中，提取所述先行语候选集中的每个元素对应的相似性特征向量的步骤，包括：

针对所述先行语候选集中的每个元素，获取该元素的第三人称代词出现后的第一个动词，作为第一动词；

获取在所述第三人称代词出现之前所有的动词，作为第二动词；

计算所述第一动词和每个所述第二动词之间的相似度，并将相似度值最高的动词所对应的主语作为先行语；

若在所述先行语与对应的元素的先行语匹配，则确定该元素对应的相似性特征向量为第一预设特征向量，若在所述先行语与对应的元素的先行语不匹配，则确定该元素对应的相似性特征向量为第二预设特征向量。

在第一方面的一种可能的实施方式中，提取所述先行语候选集中的每个元素对应的句法特征向量的步骤，包括：

根据预设开源库的依存句法分析所述先行语候选集中的每个元素所在分句的句法关系，所述句法关系包括主语谓语关系、动词宾语关系以及并列关系；

根据所述句法关系提取所述分句的主语、谓语以及宾语；

当所述第三人称代词为第三人称单数时，若先行语在分句中的句法功能为主语，则确定该元素对应的句法特征向量为第一预设特征向量，否则确定该元素对应的句法特征向量为第二预设特征向量；以及

若先行语在分句中的句法功能为宾语，则确定该元素对应的句法特征向量为第一预设特征向量，否则确定该元素对应的句法特征向量为第二预设特征向量；

当所述第三人称代词为第三人称复数时，并且先行语在分句中的句法功能为并列关系，则确定该元素对应的句法特征向量为第一预设特征向量，否则确定该元素对应的句法特征向量为第二预设特征向量。

在第一方面的一种可能的实施方式中，根据指示代词特征向量提取策略为所述先行语候选集中的每个元素构建第二特征向量的步骤，包括：

基于第二设定规则提取所述先行语候选集中的每个元素对应的第二规则特征向量，所述第二规则特征向量包括单复数一致特征向量、分句特征向量、命名实体一致性特征向量、距离特征向量中的至少一种，其中，所述单复数一致特征向量用于表征先行语与对应的指示代词的单复数属性一致性，所述命名实体一致性特征向量用于表征先行语的命名实体的类型，所述分句特征向量用于表征该指示代词对应的先行语的类型，所述距离特征向量用于表征先行语与对应的指示代词之间的距离特征；

提取所述先行语候选集中的每个元素对应的句法特征向量；

将所述第二规则特征向量和所述句法特征向量构建为第一特征向量。

针对所述先行语候选集中的每个元素，获取该元素所在分句的定中关系，并根据该元素的指示代词和所述定中关系查找所述指示代词相关联的修饰词；

搜索与所述修饰词相关联的内容作为先行语，并在所述先行语与该元素的指示代词构成消解对时，确定该元素对应的句法特征向量为第一预设特征向量，否则确定该元素对应的句法特征向量为第二预设特征向量。

在第一方面的一种可能的实施方式中，所述方法还包括：

确定待指代消解的语句对应的先行语候选集，根据待指代消解的语句的代词类别，为所述先行语候选集中的每个元素构建特征向量；

将所述先行语候选集中每个元素的特征向量输入所述指代消解模型中，得到所述待指代消解的语句的指代消解结果。

根据本申请的第二方面，提供一种指代消解装置，应用于计算机设备，所述装置包括：

获取模块，用于获取由多个训练样本以及每个训练样本对应的指代消解标签构成的训练样本集，所述训练样本包括对具有指照应语和先行语的训练分句进行预处理后得到的分句特征信息；

构建模块，用于确定每个训练样本对应的先行语候选集，并根据每个训练样本中的代词类别，为所述先行语候选集中的每个元素构建特征向量，其中，所述特征向量用于反映照应语和先行语之间的语义关系；

训练模块，用于将所述先行语候选集中每个元素的特征向量和对应的训练样本的指代消解结果输入最大熵模型进行训练，得到指代消解模型，其中，所述指代消解模型用于对待指代消解的语句进行指代消解。

基于上述任一方面，本申请通过确定每个训练样本对应的先行语候选集，并根据每个训练样本中的代词类别，为先行语候选集中的每个元素构建特征向量，以用于反映照应语和先行语之间的语义关系，以便于有效发挥语义关系的优势。然后，将先行语候选集中每个元素的特征向量和对应的训练样本的指代消解结果输入最大熵模型进行训练，得到指代消解模型，从而可以采用指代消解模型对待指代消解的语句进行指代消解。如此，能够对照应语的上下文语义关系进行充分利用，从而便于后续有效识别先行语和照应语之间的语义关系，提高指代消解的准确率和召回率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的指代消解方法的流程示意图之一；

图2示出了图1中所示的步骤S110的子步骤流程示意图；

图3示出了图1中所示的步骤S120的子步骤流程示意图；

图4示出了本申请实施例所提供的指代消解方法的流程示意图之二；

图5示出了本申请实施例所提供的指代消解装置的功能模块示意图；

图6示出了本申请实施例所提供的用于执行上述指代消解方法的计算机设备的组件结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请实施例的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其它操作，也可以从流程图中移除一个或多个操作。

参照前述背景技术中所获知的技术问题，在介绍本申请的实施例之前，下面首先对指代消解的传统实现技术进行简要说明。

第一种：基于完全解析树的遍历算法，该算法不依赖任何语义知识或语篇信息，只利用语法规则和完全解析树信息的指代消解算法。例如，首先为文档中的每个句子建立完全解析树，然后采用从左到右广度优先搜索方法遍历完全解析树，最后根据语法结构中的支配和绑定关系选择合法的词语作为先行语。此种方法需要大量的人工设计和标注工作，可移植性和普适性较差，难以获得精确的指代关系。

第二种：基于统计模型的方法，这种方法更加注重于先行语出现的频率，结合距离、数量一致性的相关特征构建统计模型，并对指代关系进行判断。然而，由于自然语言表述的复杂性，依赖于大规模数据分布规律的统计模型往往只对特殊情况有效，对繁多冗杂的文本适应较差，灵活性不强。

第三种：基于分类模型的方法，这种方法将指代消解转化为一个二分类的问题，通过决策树来判断表述中的候选先行语是否是真正的最佳匹配，不断提高特征向量的维数，不断进行学习。但是在这类方法上的研究还不够充分，无法发挥出先行语和照应语之间的语义关系的优势。

为此，基于上述技术问题的发现，发明人提出下述技术方案以解决上述问题。需要注意的是，以上现有技术中的方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果。因此，上述问题的发现过程以及下文中本申请实施例针对上述问题所提出的解决方案，都应该是发明人在发明创造过程中对本申请做出的贡献，而不应当理解为本领域技术人员所公知的技术内容。

图2示出了本申请实施例提供的指代消解处理方法的交互流程示意图。应当理解，在其它实施例中，本实施例的指代消解处理方法其中部分步骤的顺序可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除。该指代消解处理方法的详细步骤介绍如下。

步骤S110，获取由多个训练样本以及每个训练样本对应的指代消解标签构成的训练样本集。

步骤S120，确定每个训练样本对应的先行语候选集，并根据每个训练样本中的代词类别，为先行语候选集中的每个元素构建特征向量。

步骤S130，将先行语候选集中每个元素的特征向量和对应的训练样本的指代消解结果输入最大熵模型进行训练，得到指代消解模型，其中，指代消解模型用于对待指代消解的语句进行指代消解。

本实施例中，训练样本可以包括对具有照应语和先行语的训练分句进行预处理后得到的分句特征信息。其中，照应语可以称作指代语，指代语的指代类型可以包括人称代词、指示代词等。例如，一种类型可以是第三人称代词，如：“他/她/它/他们/她们/它们”，具体可以细分为第三人称代词单数和第三人称代词复数。再例如，另一种类型还可以是“这”一类的指示代词，如：“这/这些/这里/这边/这样”。先行语可以是指照应语指代的对象或内容，例如“AAA是一名歌手，他的歌广受欢迎”，“他”可以理解为照应语，“AAA”可以理解为先行语。

本实施例中，本申请发明人考虑到传统的指代消解方案中，并未对自然语言的多轮对话情景下的上下文信息进行充分利用，同时也缺乏对深层次篇章结构信息的表示方法，导致难以将先行语和照应语建立相应语义关系的问题。基于此，本实施例提取的特征向量具体可以用于反映照应语和先行语之间的语义关系，由此通过将先行语候选集中每个元素的特征向量和对应的训练样本的指代消解结果输入最大熵模型进行训练，可以不断学习照应语和先行语之间的语义关系。如此，能够对照应语的上下文语义关系进行充分利用，从而便于后续有效识别先行语和照应语之间的语义关系，提高指代消解的准确率和召回率。

在一种可能的实施方式中，针对步骤S110，在获取训练样本的过程中，为了提高样本数量并且提高样本获得的效率，请结合参阅图2，步骤S110可以通过以下示例性子步骤S111-S113具体实现，详细描述如下。

子步骤S111，获取待处理文本并对待处理文本进行分段，将分段获得的多个分段文本进行分句，得到多个分句。

本实施例中，待处理文本可以从任意可能的来源获得，例如网络上的各种报道、文章、著作等，或者多轮对话中的对话消息等，在此不作具体限制。

子步骤S112，对每个分句进行分词获得分词序列，并提取分词序列的句法分析特征、词性标注特征和命名实体识别特征，作为每个分句的训练样本。

本实施例中，句法分析特征可以是指对分句中的词语的语法功能进行分析后得到的特征信息，例如“我来晚了”的分句中，“我”是主语，“来”是谓语，“晚了”是补语。词性标注特征可以是指根据实际意义以及语法结构提取出的特征。例如，可以分为实词和虚词。其中，实词可以是表示具体概念的词，具体可以包括但不限于名词、代词、动词、形容词、数词、量词等等；虚词可以是表示非具体概念的词，具体可以包括但不限于副词、介词、连词、助词等等。命名实体识别特征可以是指以名称为标识的实体的特征，例如人名、机构名、地名以及其它所有以名称为标识的实体等。

由此，通过提取分词序列的句法分析特征、词性标注特征和命名实体识别特征，并有结构化特征信息进行输出后得到每个分句的训练样本。例如，某个分句可以是“A，B，C，D”，那么该分句的训练样本可以是“A，B，C，D”分别对应的句法分析特征、词性标注特征和命名实体识别特征。

子步骤S113，获取每个分句的训练样本对应的指代消解标签，并将指代消解标签关联到对应分句的训练样本，以获得训练样本集。

本实施例中，指代消解标签可以由人工进行标注，指代消解标签可以表示指代消解结果(例如1为正确指代，0为错误指代)，该方式的标注工作量相较于基于完全解析树的遍历算法而言，仅需要简单的标注工作量，无需大量的人工设计和标注工作，可移植性和普适性较好。

在一种可能的实施方式中，针对步骤S120，考虑到传统的指代消解算法通常大多是针对英文环境，对于中文环境而言，不同的照应语可以对应不同的类型，因此本实施例可以对每个训练样本中的代词进行分类，从而为不同类型的照应语构建不同的特征模板，得到先行语与照应语对应的特征向量。例如，请结合参阅图3，步骤S120可以通过以下示例性子步骤S121-S122具体实现，详细描述如下。

子步骤S121，针对每个训练样本，当该训练样本中的代词类别为第三人称代词时，根据第三人称代词特征向量提取策略为先行语候选集中的每个元素构建第一特征向量。

子步骤S122，当该训练样本中的代词类别为指示代词时，根据指示代词特征向量提取策略为先行语候选集中的每个元素构建第二特征向量。

示例性地，在子步骤S121中，作为一种可能的示例，可以通过以下实施方式具体实施，示例性描述如下。

子步骤S1211，基于第一设定规则提取先行语候选集中的每个元素对应的第一规则特征向量。

本实施例中，第一规则特征向量可以包括单复数一致特征向量、性别一致特征向量、词频特征向量、距离特征向量中的至少一种。

其中，单复数一致特征向量可以用于表征先行语与对应的第三人称代词的单复数属性一致性。例如，只有当先行语和照应语的单复数属性一致时，确定单复数一致特征向量为第一预设特征向量，否则确定单复数一致特征向量为第二预设特征向量。如：“AAA是一名歌手，他的歌广受欢迎”，这里的“AAA”和“他”都属单数。再例如：“人民群众永远是战胜一切的基础，他们是不可缺少的一部分”，“人民群众”和“他们”都是复数，这就可以满足单复数一致属性。

示例性地，第一预设特征向量的维数可以设置为1，第二预设特征向量的维数可以设置为0。应当理解的是，在接下来针对第一预设特征向量和第二预设特征向量的描述中，均可以参照上述示例进行统一设置，或者根据需求设置为其它维数，在此不作具体限定。

性别一致特征向量可以用于表征在先行语与对应的第三人称代词都代指人的情况下的性别属性一致性。例如，在先行语和照应语都代指人的情况下，可以利用代词代表的性别进行识别。如“他/他们”可明显的代表男性，对应的先行语有“爷爷/爸爸/先生/男友”等词来判断，“她/她们”具有女性特征，先行语可通过“小姐/母亲”等来判断，没有明显的特征对应“它/它们”，同样性别一致时，确定性别一致特征向量为第一预设特征向量，否则确定性别一致特征向量为第二预设特征向量。

词频特征向量可以用于表征在先行语的词频特征。例如，根据中文语言特征习惯，一段话往往围绕一个主题进行描述，当先行语的词频越大，实体和第三人称代词消解的概率就越高。若第三人称代词前没有主语或宾语，并且本段话中词频最大的主语或宾语是第三人称代词指代的词，则确定词频特征向量为第一预设特征向量，否则确定词频特征向量为第二预设特征向量。若第三人称代词所在的句子不是第一句，例如是第三句，那么可以统计本段前三句中词频最大的主语或宾语，当主语和宾语数目相同，可以选择数目最大的主语作为先行语，则确定词频特征向量为第一预设特征向量，否则确定词频特征向量为第二预设特征向量。

距离特征向量可以用于表征先行语与对应的第三人称代词之间的距离特征。例如，第三人称代词指代的内容距离第三人称代词本身通常是很接近的，而且距离越近，搜索到的先行语越准确，距离的确定通常可以以句子为单位，先行语与照应语的范围小于三个句子，则确定距离特征向量为第一预设特征向量，否则确定距离特征向量为第二预设特征向量。若出现在同一个句子的距离，则确定距离特征向量为第一预设特征向量。

子步骤S1212，提取先行语候选集中的每个元素对应的句法特征向量。

本实施例中，句法特征向量可以用于表征每个元素在对应的分句中的句法关系特征。例如，可以根据预设开源库的依存句法分析先行语候选集中的每个元素所在分句的句法关系。其中，该句法关系可以包括主语谓语关系、动词宾语关系以及并列关系。

然后，根据句法关系提取分句的主语、谓语以及宾语，当第三人称代词为第三人称单数时，若先行语在分句中的句法功能为主语，则确定该元素对应的句法特征向量为第一预设特征向量，否则确定该元素对应的句法特征向量为第二预设特征向量。或者，若先行语在分句中的句法功能为宾语，则确定该元素对应的句法特征向量为第一预设特征向量，否则确定该元素对应的句法特征向量为第二预设特征向量。

例如：“孙悟空掏出金箍棒，他一棒将妖怪全部赶跑。”“孙悟空”在分句中的句法功能为主语，此时确定“孙悟空掏出金箍棒，他一棒将妖怪全部赶跑。”对应的句法特征向量为第一预设特征向量。

又例如，当第三人称代词为第三人称复数时，并且先行语在分句中的句法功能为并列关系，则确定该元素对应的句法特征向量为第一预设特征向量，否则确定该元素对应的句法特征向量为第二预设特征向量。

例如：“《三国演义》、《水浒》、《西游记》、《红楼梦》、《儒林外史》等长篇小说，它们的主要人物都是以其独特个性而活在人们心中的。”可以看出《三国演义》、《水浒》、《西游记》、《红楼梦》、《儒林外史》为并列关系，此时则可以确定“《三国演义》、《水浒》、《西游记》、《红楼梦》、《儒林外史》等长篇小说，它们的主要人物都是以其独特个性而活在人们心中的。”对应的句法特征向量为第一预设特征向量。

子步骤S1213，提取先行语候选集中的每个元素对应的相似性特征向量。

示例性地，针对先行语候选集中的每个元素，获取该元素的第三人称代词出现后的第一个动词，作为第一动词，然后获取在第三人称代词出现之前所有的动词，作为第二动词。

在此基础上，可以计算第一动词和每个第二动词之间的相似度，并将相似度值最高的动词所对应的主语作为先行语。若在先行语与对应的元素的先行语匹配，则确定该元素对应的相似性特征向量为第一预设特征向量，若在先行语与对应的元素的先行语不匹配，则确定该元素对应的相似性特征向量为第二预设特征向量。

例如，假设元素为：“王某行使权力加重对余某的惩罚，判他罚款5000元和降职三级”。通过依存句法分析，可以得出“处罚”为第一动词，第二动词的动词候选集为{“权力”，“惩罚”}，对应的相似度值分别为0.036和0.25，相似度值较高的为“惩罚”，“惩罚”对应的主语为余某，余某确实为他所指代的先行语，所以可以确定“王某行使权力加重对余某的惩罚，判他罚款5000元和降职三级”对应的相似性特征向量为第一预设特征向量。

子步骤S1214，将第一规则特征向量、句法特征向量以及相似性特征向量构建为第一特征向量。

通过总结第一规则特征向量、句法特征向量以及相似性特征向量，可以构建第一特征向量，例如可以如下所示：

例如句子1：“沐梨高中毕业，被分配在牛奶公司第三牧场工作，他每天要搬运累计七千斤的重物。”，假设第一预设特征向量为1，那么待消解对为(沐梨，他)的特征向量表示为(1，1，1，1，1，1)。

在一种可能的实施方式中，当该训练样本中的代词类别为指示代词时，在子步骤S122中，作为一种可能的示例，可以通过以下实施方式具体实施，示例性描述如下。

子步骤S1221，基于第二设定规则提取先行语候选集中的每个元素对应的第二规则特征向量。

本实施例中，第二规则特征向量包括单复数一致特征向量、分句特征向量、命名实体一致性特征向量、距离特征向量中的至少一种。

其中，单复数一致特征向量可以用于表征先行语与对应的指示代词的单复数属性一致性。例如，“这/这些/这里/这边/这样”这些词中，“这些”属于复数，其它词都是“单数”。只有当先行语和照应语的单复数属性一致时，确定单复数一致特征向量为第一预设特征向量，否则确定单复数一致特征向量为第二预设特征向量。

命名实体一致性特征向量可以用于表征先行语的命名实体的类型。例如，若先行语是与命名实体中对应的“人名”和“机构名”，则确定命名实体一致性特征向量为第一预设特征向量，否则确定命名实体一致性特征向量为第二预设特征向量。

分句特征向量可以用于表征该指示代词对应的先行语的类型。例如，指示代词和前述的第三人称代词不同，“这”类的先行语可能是个句子，可能代指某个词，若指示代词对应的先行语是一个句子，则确定分句特征向量为第一预设特征向量，否则确定分句特征向量为第二预设特征向量。

距离特征向量可以用于表征先行语与对应的指示代词之间的距离特征。例如，先行语与对应的指示代词的距离在三个句子之内，则确定距离特征向量为第一预设特征向量，否则确定距离特征向量为第二预设特征向量。

子步骤S1222，提取先行语候选集中的每个元素对应的句法特征向量。

例如，针对先行语候选集中的每个元素，可以获取该元素所在分句的定中关系，并根据该元素的指示代词和定中关系查找指示代词相关联的修饰词。然后，搜索与修饰词相关联的内容作为先行语，并在先行语与该元素的指示代词构成消解对时，确定该元素对应的句法特征向量为第一预设特征向量，否则确定该元素对应的句法特征向量为第二预设特征向量。

示例性地，对于指示代词“这”的类型，在根据句法进行分析时，关注的是句子的定中关系，可以通过照应语的对应的定中关系找到修饰的词。例如针对分句为：“iOS7中提供了一个摄像头软件功能“突发模式”，但实际上只有iPhone5s的用户才能使用这一功能。”为例，通过定中关系，可以假定最后连续定中关系的最后一个为修饰的词，即“功能”就是“这”所修饰的词，然后在本段中搜索该句话之前的内容，找到修饰词的定中关系对应的词，在截取到该词之前，修饰词之后的所有字为先行语。例如：“这”的修饰词为“功能”，“突发模式”为先行语，(这，突发模式)为一个消解对，构成该消解对时则可以确定该元素对应的句法特征向量为第一预设特征向量，否则确定该元素对应的句法特征向量为第二预设特征向量。

子步骤S1223，将第二规则特征向量和句法特征向量构建为第二特征向量。

通过总结第二规则特征向量和句法特征向量，可以构建第二特征向量，例如可以如下所示：

如此，通过基于不同的代词列表构建不同的特征向量，并且在单复数一致型特征向量、性别一致特征向量、距离特征向量、词频特征向量的基础上加入句法特征向量和相似度特征向量，可以表达出更多的语义信息，从而提高指代消解的准确性。

基于以上描述，在一种可能的实施方式中，在应用层面，请结合参阅图4，本实施例提供的指代消解方法还可以包括步骤S140-步骤S150，详细描述如下。

步骤S140，确定待指代消解的语句对应的先行语候选集，根据待指代消解的语句的代词类别，为先行语候选集中的每个元素构建特征向量。

本实施例中，可以参照前述针对步骤S120的描述类似的方法为先行语候选集中的每个元素构建特征向量，在此不再赘述。

步骤S150，将先行语候选集中每个元素的特征向量输入指代消解模型中，得到待指代消解的语句的指代消解结果。

本实施例中，通过将先行语候选集中每个元素的特征向量输入指代消解模型中进行概率判断，最终将先行语候选集中概率最大的元素的先行语作为指代消解的判断结果输出。

基于同一发明构思，请参阅图5，示出了本申请实施例提供的指代消解装置110的功能模块示意图，本实施例可以根据上述计算机设备100执行的方法实施例对指代消解装置110进行功能模块的划分。例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。比如，在采用对应各个功能划分各个功能模块的情况下，图5示出的指代消解装置110只是一种装置示意图。其中，指代消解装置110可以包括获取模块111、构建模块112以及训练模块113，下面分别对该指代消解装置110的各个功能模块的功能进行详细阐述。

获取模块111，用于获取由多个训练样本以及每个训练样本对应的指代消解标签构成的训练样本集，训练样本包括对具有指照应语和先行语的训练分句进行预处理后得到的分句特征信息。可以理解，该获取模块111可以用于执行上述步骤S110，关于该获取模块111的详细实现方式可以参照上述对步骤S110有关的内容。

构建模块112，用于确定每个训练样本对应的先行语候选集，并根据每个训练样本中的代词类别，为先行语候选集中的每个元素构建特征向量，其中，特征向量用于反映照应语和先行语之间的语义关系。可以理解，该构建模块112可以用于执行上述步骤S120，关于该构建模块112的详细实现方式可以参照上述对步骤S120有关的内容。

训练模块113，用于将先行语候选集中每个元素的特征向量和对应的训练样本的指代消解结果输入最大熵模型进行训练，得到指代消解模型，其中，指代消解模型用于对待指代消解的语句进行指代消解。可以理解，该训练模块113可以用于执行上述步骤S130，关于该训练模块113的详细实现方式可以参照上述对步骤S130有关的内容。

基于同一发明构思，请参阅图6，示出了本申请实施例提供的用于执行上述指代消解方法的计算机设备100的结构示意框图，该计算机设备100可以包括指代消解装置110、机器可读存储介质120和处理器130。

本实施例中，机器可读存储介质120与处理器130均位于计算机设备100中且二者分离设置。然而，应当理解的是，机器可读存储介质120也可以是独立于计算机设备100之外，且可以由处理器130通过总线接口来访问。可替换地，机器可读存储介质120也可以集成到处理器130中，例如，可以是高速缓存和/或通用寄存器。

指代消解装置110可以包括存储在机器可读存储介质120的软件功能模块(例如图5中所示的获取模块111、构建模块112以及训练模块113)，当处理器130执行指代消解装置110中的软件功能模块时，以实现前述方法实施例提供的指代消解方法。

由于本申请实施例提供的计算机设备100是上述计算机设备100执行的方法实施例的另一种实现形式，且计算机设备100可用于执行上述方法实施例提供的指代消解方法，因此其所能获得的技术效果可参考上述方法实施例，在此不再赘述。

以上所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。通常在附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，在附图中提供的本申请的实施例的详细描述并非旨在限制本申请的保护范围，而仅仅是表示本申请的选定实施例。因此，本申请的保护范围应以权利要求的保护范围为准。此外，基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下可获得的所有其它实施例，都应属于本申请保护的范围。

Claims

1.一种指代消解方法，其特征在于，应用于计算机设备，所述方法包括：

2.根据权利要求1所述的指代消解方法，其特征在于，所述获取由多个训练样本以及每个训练样本对应的指代消解标签构成的训练样本集的步骤，包括：

3.根据权利要求1所述的指代消解方法，其特征在于，所述根据每个训练样本中的代词类别，为所述先行语候选集中的每个元素构建特征向量的步骤，包括：

4.根据权利要求3所述的指代消解方法，其特征在于，根据第三人称代词特征向量提取策略为所述先行语候选集中的每个元素构建第一特征向量的步骤，包括：

5.根据权利要求4所述的指代消解方法，其特征在于，提取所述先行语候选集中的每个元素对应的相似性特征向量的步骤，包括：

6.根据权利要求4所述的指代消解方法，其特征在于，提取所述先行语候选集中的每个元素对应的句法特征向量的步骤，包括：

根据所述句法关系提取所述分句的主语、谓语以及宾语；

7.根据权利要求1所述的指代消解方法，其特征在于，根据指示代词特征向量提取策略为所述先行语候选集中的每个元素构建第二特征向量的步骤，包括：

提取所述先行语候选集中的每个元素对应的句法特征向量；

8.根据权利要求7所述的指代消解方法，其特征在于，提取所述先行语候选集中的每个元素对应的句法特征向量的步骤，包括：

9.根据权利要求1-8中任意一项所述的指代消解方法，其特征在于，所述方法还包括：

10.一种指代消解装置，其特征在于，应用于计算机设备，所述装置包括：