CN107402913B

CN107402913B - 先行词的确定方法和装置

Info

Publication number: CN107402913B
Application number: CN201610341637.6A
Authority: CN
Inventors: 杨月奎; 陈雨杰; 赵琳; 黄玉兰; 刘莉; 王迪
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-05-20
Filing date: 2016-05-20
Publication date: 2020-10-09
Anticipated expiration: 2036-05-20
Also published as: KR102163549B1; EP3460678A1; EP3460678A4; CN107402913A; US20180307671A1; WO2017197947A1; JP2019504395A; US10810372B2; JP6752282B2; KR20180078318A

Abstract

本发明公开了一种先行词的确定方法和装置。其中，该方法包括：获取待识别的语句信息；在识别出所述语句信息中存在代词的情况下，从语句信息中提取多个候选先行词和所述多个候选先行词的词语特征；基于所述多个候选先行词的词语特征，从所述多个候选先行词中确定所述代词所指代的目标先行词。本发明解决了指代消解的处理效率低的技术问题。

Description

先行词的确定方法和装置

技术领域

本发明涉及信息处理领域，具体而言，涉及一种先行词的确定方法和装置。

背景技术

在人机对话中需机器准确理解语句中的上下文信息，如果机器无法准确理解语句中的上下文信息，会造成对话信息模糊，指代问题是造成信息模糊的主要问题。

广义上讲，指代消解是在篇章中确定代词指向哪个名词短语的问题。现有技术中存在如下几种指代消解算法：(1)自左向右先广搜索，层次遍历句法树达到消解工作，该算法需要遍历待识别的信息，遍历工作量很大；(2)在句法知识基础上加入语义约束，该方式在英文代词指代消解效果还行，但是中文词汇处理难度大，该方法不适用于汉语的指代消解；(3)把语义信息加入到LRC(left-right centering)算法中实现对候选先行词的过滤，但是该算法所利用的语义信息需要事先手工定义，测试语料同样进行了手工清洗掉不流利的成分。

由于中文浅层词汇处理难度比较大，在消解工作中要进行分词，并且对于名词没有明确的单复数、性别的特征，代词也没有明确的主格和宾格特征，口语会话中省略话语很常见。这些难点都使得上述的指代消解方案无法适用于中文的代词指代消解，目前的代词指代消解工作中更多的是依赖人工语料清洗、标注，没有有效的指代消解的处理方案。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种先行词的确定方法和装置，以至少解决指代消解的处理效率低的技术问题。

根据本发明实施例的一个方面，提供了一种先行词的确定方法，该方法包括：获取待识别的语句信息；在识别出所述语句信息中存在代词的情况下，从语句信息中提取多个候选先行词和所述多个候选先行词的词语特征；基于所述多个候选先行词的词语特征，从所述多个候选先行词中确定所述代词所指代的目标先行词。

根据本发明实施例的另一方面，还提供了一种先行词的确定装置，该装置包括：获取单元，用于获取待识别的语句信息；提取单元，用于在识别出所述语句信息中存在代词的情况下，从语句信息中提取多个候选先行词和所述多个候选先行词的词语特征；确定单元，用于基于所述多个候选先行词的词语特征，从所述多个候选先行词中确定所述代词所指代的目标先行词。

在本发明实施例中，在语句信息中存在代词的情况下，从语句信息中提取候选先行词和各个候选先行词的词语特征，利用候选先行词的词语特征确定代词所指代的目标先行词。在该方案中，通过从语句信息中提取出来的候选先行词的词语特征，可以自动锁定代词指定的目标先行词，从而解决了现有技术中指代消解的处理效率低的问题，实现了准确高效确定代词的先行词的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的先行词的确定方法的网络环境示意图；

图2是根据本发明实施例的先行词的确定方法的流程图一；

图3是根据本发明实施例的先行词的确定方法的流程图二；

图4是根据本发明实施例的先行词的确定方法的流程图三；

图5是根据本发明实施例的先行词的确定装置的示意图一；

图6是根据本发明实施例的先行词的确定方法的示意图二；

图7是根据本发明实施例的先行词的确定方法的示意图三；

图8是根据本发明实施例的先行词的确定方法的示意图四；

图9是根据本发明实施例的服务器的内部结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，对本申请实施例涉及的术语解释如下：

指代：是指当前的代词与上文中出现的词、短语存在的语义关联。

先行词：与当前代词存在语义关联的短语，如代词所指代的词语或短语。

Query：会话中的文本信息。

Session：会话集合。

谓词：用来描述或判定壳体性质、特征或者客体之间关系的词项，该谓词一般包括动词和形容词。

临近词：在语句信息中位置相邻的词语。

依存词：在语义上相互依存、相依附存在的词。

实施例1

根据本发明实施例，提供了一种先行词的确定方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

可选地，在本实施例中，上述信息处理方法以应用于如图1所示的网络环境中。该网络环境包括终端101和服务器103(该服务器可以为网络连接应用的服务器或云平台)，其中，终端可以与服务器通过网络建立连接，终端和服务器上均可以设置处理器。

上述网络包括但不限于：广域网、城域网或局域网。上述终端可以为具有输入设备的终端，如移动终端(例如，手机、平板电脑等)，该终端可以安装智能对话客户端。可选地，服务器与该智能对话客户端相对应，该服务器可以用于处理终端利用智能对话客户端发送的信息。

图2是根据本发明实施例的先行词的确定方法的流程图。如图2所示，该方法可以包括如下步骤：

步骤S202：获取待识别的语句信息；

步骤S204：在识别出所述语句信息中存在代词的情况下，从语句信息中提取多个候选先行词和多个候选先行词的词语特征；

步骤S206：基于多个候选先行词的词语特征，从多个候选先行词中确定代词所指代的目标先行词。

通过上述实施例，在语句信息中存在代词的情况下，从语句信息中提取候选先行词和各个候选先行词的词语特征，利用候选先行词的词语特征确定代词所指代的目标先行词。在该方案中，通过从语句信息中提取出来的候选先行词的词语特征，可以自动锁定代词指定的目标先行词，从而解决了现有技术中指代消解的处理效率低的问题，实现了准确高效确定代词的先行词的效果。

需要说明的是，上述实施例中的代词、候选先行词和候选先行词的词语特征都是从语句信息中提取出来的，不需要预先定义、也不需要人工语料清洗和标注，大大提高了处理速度。

上述实施例中的待识别的语句信息可以是终端101发送给服务器的，该语句信息可以是文字信息，该文字信息可以是将会话信息中的语音信息转化得到的，也可以是直接从语句信息中提取的文字信息，还可以是从文章中提取的信息，本申请对该信息的来源不做限定。

具体地，语句信息为一个客户端与服务器在人机对话的过程中产生的会话信息集合。

其中，从语句信息中提取多个候选先行词和多个候选先行词的词语特征的过程中，可以依序从语句信息中提取候选先行词和各个候选先行词的语句特征，也可以在从语句信息中提取候选先行词的同时提取候选先行词的语句特征。

需要说明的是，代词所指代的词可以为名词或名词短语，提取到的候选先行词均为名词或名词短语。

进一步地，从语句信息中提取代词和多个候选先行词的过程中，可以利用预先设置好的分词器，通过该分词器对语句信息中的语句信息进行分词，从分词得到的多个词语中提取词性为代词的词(即代词)、以及名词/名词短语(即候选先行词)。

根据本发明的上述实施例，可以基于多个候选先行词的词语特征，从多个候选先行词中确定代词所指代的目标先行词，其中，该词语特征可以包括语义特征和语法特征。

下面详细本发明实施例：

终端启动智能对话客户端(以下简称客户端)之后，建立智能对话客户端与服务器之间的通信，利用该通信关系，通过智能对话客户端向服务器发送会话信息，服务器在接收到该会话信息之后，若该会话信息为文字信息，则将该会话信息作为语句信息，若该会话信息为语音信息，则将该语音信息转换为文字信息，并将转换得到的文字信息作为语句信息。

服务器对语句信息进行识别，若识别出该语句信息中有代词，则获取该会话过程产生的会话集合(即上述的语句信息)，并从该语句信息中提取多个候选先行词和各个候选先行词的词语特征，利用该词语特征确定代词指代的目标先行词。

在确定代词所指代的目标先行词之后，可以将该语句信息中的代词替换为目标先行词，以将该语句信息补充完整。

根据本发明的上述实施例，基于多个候选先行词的词语特征，从多个候选先行词中确定代词所指代的目标先行词可以包括：基于每个候选先行词的词语特征，确定每个候选先行词的指代权重值；将指代权重值最大的候选先行词选取为代词所指代的目标先行词。

具体地，上述实施例中的词语特征可以为语义特征或语法特征，利用该语义特征和/或语法特征，确定每个候选先行词相对于该代词的指代权重值，并对得到的各个指代权重值进行排序，得到指代权重值序列，若该指代权重值序列按照指代权重值从大到小排列，则将指代权重值序列中第一个指代权重值对应的候选先行词作为代词所指代的目标先行词；若该指代权重值序列按照指代权重值从小到大排列，则将指代权重值序列中最后一个指代权重值对应的候选先行词作为代词所指代的目标先行词。

在一个可选的实现方式中，在确定每个候选先行词相对于该代词的指代权重值之后，可以按照两两比较的方式，获取多个指代权重值中最大的指代权重值，将最大的指代权重值对应的候选先行词选取为代词所指代的目标先行词。

在一个可选的实施例中，多个候选先行词中的每个候选先行词包括一个或多个词语特征，在多个候选先行词中的每个候选先行词包括一个词语特征的情况下，将每个候选先行词的词语特征转换为特征值，并将该特征值作为该候选先行词的指代权重值。

在另一个可选的实施例中，多个候选先行词中的每个候选先行词包括一个或多个词语特征，基于每个候选先行词的词语特征，确定每个候选先行词的指代权重值包括：将提取到的词语特征转换为特征值；利用预先设置的一个或多个词语特征的特征系数，对每个候选先行词的特征值进行线性加权计算，得到每个候选先行词的指代权重值。

具体地，在多个候选先行词中的每个候选先行词包括多个词语特征的情况下，将每个候选先行词的每个词语特征分别转换为特征值，利用预先设置的一个或多个词语特征的特征系数，对该多个特征值进行线性加权计算，得到每个候选先行词的指代权重值。

例如，若词语特征为两个，该两个词语特征的特征值分别为t₁和t₂，获取该两个词语特征的预先设置的特征系数λ₁和λ₂，对该两个特征值进行线性加权计算：Weight＝λ₁·t₁+λ₂·t₂。

其中，这些特征的特征系数可以根据经验赋予初始值，也可以通过训练语料调整该特征系数的大小。

在一个可选的实施例中，多个候选先行词中的每个候选先行词包括一个或多个词语特征，词语特征包括下述至少之一：候选先行词的单复数特征、候选先行词与代词之间的距离、候选先行词是否出现在介词短语中、以及代词和候选先行词的语义关联性。

在词语特征包括候选先行词的单复数特征的情况下，由于单数的代词是无法指代复数的先行词的，单复数一致是判断两个词是否存在指代关系的重要特征，如，“今天天气很好，我和同学们准备出去逛逛”，这里的代词“我”是单数，而“同学们”是复数，单数无法指代复数。在提取到单复数特征之后，可以利用候选先行词的单复数是否与代词的单复数一致的特征，将其单复数特征转换为特征值，如，若候选先行词的单复数与代词的单复数一致，则将其特征值设置为第一常数；若候选先行词的单复数与代词的单复数不一致，则将其特征值设置为第二常数。可选地，第一常数可以为1，第二常数可以为0。

上述实施例中的候选先行词与代词之间的距离通常考虑的是两个词语所在句子之间或者段落之间的距离，也可以指两个词语之间的字符数。在多轮会话中，一个完整的语句信息需要多句表述完，候选先行词和代词所在句子的距离越近，相关性也会越大，在这里考虑代词和先行词的距离意义也很大。在词语特征包括候选先行词与代词之间的距离的情况下，将词语特征转换为特征值的过程中，可以将候选先行词与代词所在句子之间的距离、或者两个词语间隔的字符数或语句数作为其特征值。

基于大量的多轮对话语料，分析发现语法结构对指代消解工作有很大的影响。位于直接宾语、间接宾语中的名词被指代到的概率无明显差异，而位于介词短语中的名词被指代的概率比较低。因此在本发明实施例中，可以将候选先行词是否出现在介词短语作为一个词语特征。在将词语特征转换为特征值时，可以在候选先行词出现在介词短语中的情况下，将特征值设置为一个常数，如1；在候选先行词未出现在介词短语中的情况下，将特征值设置为另一个常数，如0。

可选地，语义依存词的相关性也可以作为一个词语特征(即上述实施例中的代词和候选先行词的语义关联性)，例如，语句信息为“警察发现小偷越狱，加重对他的刑罚”，其中，候选先行词“小偷”和代词“他”分别依存于“越狱”和“刑罚”，这两个语义依存词具有很大的相关性，可以看出代词和候选先行词的语义依存词之间的相关性大小可以帮助确定指代关系。

其中，该代词和候选先行词的语义关联性可以基于该两个词的语义依存词之间的相关性确定。

在一个可选的实施例中，P为待消解代词，A为候选先行词，(Px₁,Px₂...Px_i)为代词的依存词，(Ax₁,Ax₂...Ax_j)为候选先行词的依存词，i，j为自然数，i表示代词依存词的数量，j表述候选先行词的依存词的数量，具体地，代词P和候选先行词A的语义关联性WordSence(P,A)为：

在词语特征包括代词和候选先行词之间的语义关联性的情况下，该特征值可以为通过上述公式计算得到的值。

为了更好的补充对话信息的完整性，首先对训练语料中的每个待消解代词确定候选先行词集合，然后根据一致性约束规则判断代词是否需要消解，进行特征抽取，基于代词和候选先行词的距离、语义和语法等信息提出一种适用于人机对话的人称中文代词指代消解方法，确定最终的候选先行词。

可选地，在从语句信息中提取多个候选先行词和所述多个候选先行词的词语特征之前，判断代词是否需要消解。在判断出代词需要消解的情况下，从语句信息中提取多个候选先行词和多个候选先行词的词语特征；在判断出代词不需要消解的情况下，则不再从语句信息中提取多个候选先行词和多个候选先行词的词语特征。

具体地，判断代词是否需要消解，可以通过判断代词的临近词是否为名词来实现，若该代词的临近词为名词，则判断出该代词无需消解，若该代词的临近词不为名词，则判断出该代词需要消解，可以从语句信息中提取多个候选先行词和多个候选先行词的词语特征。

例如：“今天天气很好，小明他要出去逛逛”。日常对话中经常会出现类似对话，此处的代词“他”是不需要消解的。从语法角度来讲，该代词“他”的临近词是“小明”，小明为名词，在两个名词临近的情况下，若其中一个词为名词，这两个词无需消解，即可明了代词的含义。

具体地，从语句信息中提取多个候选先行词和多个候选先行词的词语特征包括：查找语句信息中代词，并获取查找到的代词的临近词；在临近词的词性不为名词的情况下，从语句信息中提取多个候选先行词和多个候选先行词的词语特征。

在一个可选的实施例中，从语句信息中提取多个候选先行词包括：

获取语句信息中与代词的距离在预设距离内的名词短语；判断名词短语与代词之间是否相互指代；若名词短语与代词之间相互指代，则将名词短语作为候选先行词。

下面结合图3详述本发明实施例，如图3所示，该实施例可以包括如如下步骤：

步骤S301：检测出语句信息中出现代词。

可选地，可以执行检测语句信息中是否出现代词的步骤(即下述的步骤S306)，在检测出代词的情况下，进入该步骤。

步骤S302：判断该代词是否需要消解。

若判断出该代词需要消解，则执行步骤S303；若判断出该代词不需消解，则继续执行步骤S306：检测语句信息中是否出现代词。

具体地，可以通过判断代词的临近词是否为名词来实现，若该代词的临近词为名词，则判断出该代词无需消解；若该代词的临近词不为名词，则判断出该代词需要消解。

步骤S303：获取多个候选先行词。

在该步骤中，从语句信息中提取候选先行词时，可以基于该待提取的词与代词之间是否能够存在相互指代的关系，来确定是否提取该词。若该待提取的词与代词之间能够存在相互指代的关系，则提取该词；否则，反之。

可选地，该实施例中，也可以在提取到所有的候选先行词(如名词或名词短语)之后，利用该候选先行词与代词是否可以相互指代，而对多个候选先行词进行过滤，得到过滤后的候选先行词。然后从语句信息中提取过滤后的候选先行词的词语特征，并基于该提取到的词语特征，从过滤后的候选先行词中选取目标先行词。

步骤S304：提取候选先行词的词语特征。

步骤S305：利用候选先行词的词语特征，确定代词指代的目标先行词。

根据本发明的上述实施例，可以在语句信息中，查找与该代词距离较近的名词或名词短语，也即，获取语句信息中与代词的距离在预设距离内的名词短语。在查找到名词短语之后，若该名词短语与代词之间不可能存在指代关系，则不提取该名词或名词短语，也即，不将该名词或名词短语作为代词的候选先行词；若该名词短语与代词之间可以相互指代，则提取该名词或名词短语，并将其作为候选先行词。

具体地，判断名词短语与代词之间是否相互指代包括：判断名词短语和代词之间的连接词的词性是否为谓词；若名词短语和代词之间的连接词的词性不为谓词，则判断出名词短语与代词之间能够相互指代；若名词短语和代词之间的连接词的词性为谓词，则判断出名词短语与代词之间不能够相互指代。

其中，谓词可以为动词或形容词。例如，“使用榨汁机榨水果很健康”，候选先行词“榨汁机”和代词“水果”同样被谓词“榨”所绑定，两者属于不能相互指代的关系。可选地，可以通过语法解析器的输出结果判断代词和候选先行词之间是否可以相互指代。

在该实施例中，通过判断名词短语与代词之间是否相互指代可以对候选先行词，进行过滤，减少词语及词语特征的处理量。

进一步地，该实施例中，也可以在提取到所有的候选先行词(如名词或名词短语)之后，利用该候选先行词与代词是否可以相互指代，而对多个候选先行词进行过滤，得到过滤后的候选先行词。然后从语句信息中提取过滤后的候选先行词的词语特征，并基于该提取到的词语特征，从过滤后的候选先行词中选取目标先行词。

根据本发明的上述实施例，可以基于不同特征权重线性加权的方式，消解时通过对候选先行词的权重(即指代权重值)大小进行排序，权重最高的作为最终被选择的指代词。

下面结合图4详述本发明上述实施例，如图4所示，该实施例可以包括如下步骤：

步骤S401：在识别出的代词需消解的情况下，利用语法约束过滤候选先行词。

具体地，此处的语法约束可以指符合代词和候选先行词之间不能指代的规则，若代词和候选先行词之间不能指代，则直接过滤掉候选先行词。

步骤S402：提取剩余的候选先行词的词语特征。

其中，词语特征可以包括：单复数特征、候选先行词与代词之间的距离、候选先行词与代词的语义相关性、以及候选先行词是否在介词短语中等。

步骤S403：将特征转换为特征值。

其中，单复数一致性权重Sp，若候选先行词与代词的单复数一致为1，若候选先行词与代词的单复数不一致为0。

距离特征权重Dis，候选先行词和代词之间有多少轮会话，则该特征值为几。

语法约束权重Sc，候选先行词在介词短语中为1，不在为0。

语义依存词相关性特征Ws(即候选先行词与代词的语义相关性)，可选地，可以采用上述实施例中对应步骤的实现方式实现，在此不再赘述。

步骤S404：计算候选先行词总的权重(即上述实施例中的指代权重值)。

候选先行词总的权重为：Weight＝λ₁·Sp+λ₂·Dis+λ₃·Sc+λ₄·Ws。

其中，这些特征的权重的系数(如λ₁)根据经验赋予初值，然后通过训练语料调整权重的系数大小。

步骤S405：将指代权重值最大的候选先行词确定为目标先行词。

也即，选择最大权重的候选先行词作为消解结果。

在上述技术方案，我们会综合考虑代词和候选先行词的距离、语法、语义等特征，并且通过大量的真实多轮会话语料分析，加入语法约束规则，最终将该技术在真实的人机会话场景中进行应用，取得了很好的效果。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述先行词的确定方法的确定装置，如图5所示，该装置包括：

获取单元51，用于获取待识别的语句信息；

提取单元53，用于在识别出语句信息中存在代词的情况下，从语句信息中提取多个候选先行词和多个候选先行词的词语特征；

确定单元55，用于基于多个候选先行词的词语特征，从多个候选先行词中确定代词所指代的目标先行词。

根据本发明的上述实施例，确定单元包括如图6所示的：确定模块61，用于基于每个候选先行词的词语特征，确定每个候选先行词的指代权重值；选取模块63，用于将指代权重值最大的候选先行词选取为代词所指代的目标先行词。

具体地，多个候选先行词中的每个候选先行词包括一个或多个词语特征，如图6所示的确定模块61包括：

转换子模块611，用于将提取到的词语特征转换为特征值；

计算子模块613，用于利用预先设置的一个或多个词语特征的特征系数，对每个候选先行词的特征值进行线性加权计算，得到每个候选先行词的指代权重值。

根据本发明的上述实施例，多个候选先行词中的每个候选先行词包括一个或多个词语特征，词语特征包括下述至少之一：候选先行词的单复数特征、候选先行词与代词之间的距离、候选先行词是否出现在介词短语中、以及代词和候选先行词的语义关联性。

利用候选先行词的单复数是否与代词的单复数一致的特征，将其单复数特征转换为特征值，如，若候选先行词的单复数与代词的单复数一致，则将其特征值设置为第一常数；若候选先行词的单复数与代词的单复数不一致，则将其特征值设置为第二常数。可选地，第一常数可以为1，第二常数可以为0。

在词语特征包括候选先行词与代词之间的距离的情况下，将词语特征转换为特征值的过程中，可以将候选先行词与代词所在句子之间的距离、或者两个词语间隔的字符数或语句数作为其特征值。

在将词语特征转换为特征值时，可以在候选先行词出现在介词短语中的情况下，将特征值设置为一个常数，如1；在候选先行词未出现在介词短语中的情况下，将特征值设置为另一个常数，如0。

根据本发明的上述实施例，如图7所示，提取单元53可以包括：查找模块71，用于查找语句信息中代词的临近词；提取模块73，用于在临近词的词性不为名词的情况下，从语句信息中提取多个候选先行词和多个候选先行词的词语特征。

具体地，如图8所示，提取单元可以包括：获取模块81，用于获取语句信息中与代词的距离在预设距离内的名词短语；判断模块83，用于判断名词短语与代词之间是否相互指代，若名词短语与代词之间相互指代，则将名词短语作为候选先行词。

进一步的，判断模块包括：判断子模块，用于判断名词短语和代词之间的连接词的词性是否为谓词；若名词短语和代词之间的连接词的词性不为谓词，则判断出名词短语与代词之间能够相互指代；若名词短语和代词之间的连接词的词性为谓词，则判断出名词短语与代词之间不能够相互指代。

本实施例中所提供的各个模块与方法实施例对应步骤所提供的使用方法相同、应用场景也可以相同。当然，需要注意的是，上述模块涉及的方案可以不限于上述实施例中的内容和场景，且上述模块可以运行在计算机终端或移动终端，可以通过软件或硬件实现。

实施例3

根据本发明实施例，还提供了一种用于实施上述先行词的确定方法和装置的服务器，如图9所示，该服务器包括：

如图9所示，该服务器包括：一个或多个(图中仅示出一个)处理器901、存储器903、以及传输装置905(如上述实施例中的发送装置)，如图9所示，该终端还可以包括输入输出设备907。

其中，存储器903可用于存储软件程序以及模块，如本发明实施例中的先行词的确定方法和装置对应的程序指令/模块，处理器901通过运行存储在存储器903内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的先行词的确定方法。存储器903可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器903可进一步包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置905用于经由一个网络接收或者发送数据，还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置905包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置905为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器903用于存储应用程序。

处理器用于执行如下步骤：获取待识别的语句信息；在识别出语句信息中存在代词的情况下，从语句信息中提取多个候选先行词和多个候选先行词的词语特征；基于多个候选先行词的词语特征，从多个候选先行词中确定代词所指代的目标先行词。

处理器还用于执行如下步骤：基于每个候选先行词的词语特征，确定每个候选先行词的指代权重值；将指代权重值最大的候选先行词选取为代词所指代的目标先行词。

处理器还用于执行如下步骤，多个候选先行词中的每个候选先行词包括一个或多个词语特征，基于每个候选先行词的词语特征，确定每个候选先行词的指代权重值包括：将提取到的词语特征转换为特征值；利用预先设置的一个或多个词语特征的特征系数，对每个候选先行词的特征值进行线性加权计算，得到每个候选先行词的指代权重值。

处理器还用于执行如下步骤，多个候选先行词中的每个候选先行词包括一个或多个词语特征，词语特征包括下述至少之一：候选先行词的单复数特征、候选先行词与代词之间的距离、候选先行词是否出现在介词短语中、以及代词和候选先行词的语义关联性。

处理器还用于执行如下步骤，从语句信息中提取多个候选先行词和多个候选先行词的词语特征包括：查找语句信息中代词的临近词；在临近词的词性不为名词的情况下，从语句信息中提取多个候选先行词和多个候选先行词的词语特征。

处理器还用于执行如下步骤，从语句信息中提取多个候选先行词包括：获取语句信息中与代词的距离在预设距离内的名词短语；判断名词短语与代词之间是否相互指代；若名词短语与代词之间相互指代，则将名词短语作为候选先行词。

处理器还用于执行如下步骤，判断名词短语与代词之间是否相互指代包括：判断名词短语和代词之间的连接词的词性是否为谓词；若名词短语和代词之间的连接词的词性不为谓词，则判断出名词短语与代词之间能够相互指代；若名词短语和代词之间的连接词的词性为谓词，则判断出名词短语与代词之间不能够相互指代。

可选地，本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图9所示的结构仅为示意，终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile InternetDevices，MID)、PAD等终端设备。图9其并不对上述电子装置的结构造成限定。例如，终端还可包括比图9中所示更多或者更少的组件(如网络接口、处理装置等)，或者具有与图9所示不同的配置。

实施例4

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于存储执行上述方法的程序代码。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

获取待识别的语句信息；在识别出语句信息中存在代词的情况下，从语句信息中提取多个候选先行词和多个候选先行词的词语特征；基于多个候选先行词的词语特征，从多个候选先行词中确定代词所指代的目标先行词。

存储介质被设置为存储用于执行以下步骤的程序代码：基于每个候选先行词的词语特征，确定每个候选先行词的指代权重值；将指代权重值最大的候选先行词选取为代词所指代的目标先行词。

存储介质被设置为存储用于执行以下步骤的程序代码，多个候选先行词中的每个候选先行词包括一个或多个词语特征，基于每个候选先行词的词语特征，确定每个候选先行词的指代权重值包括：将提取到的词语特征转换为特征值；利用预先设置的一个或多个词语特征的特征系数，对每个候选先行词的特征值进行线性加权计算，得到每个候选先行词的指代权重值。

存储介质被设置为存储用于执行以下步骤的程序代码，多个候选先行词中的每个候选先行词包括一个或多个词语特征，词语特征包括下述至少之一：候选先行词的单复数特征、候选先行词与代词之间的距离、候选先行词是否出现在介词短语中、以及代词和候选先行词的语义关联性。

存储介质被设置为存储用于执行以下步骤的程序代码，从语句信息中提取多个候选先行词和多个候选先行词的词语特征包括：查找语句信息中代词的临近词；在临近词的词性不为名词的情况下，从语句信息中提取多个候选先行词和多个候选先行词的词语特征。

存储介质被设置为存储用于执行以下步骤的程序代码，从语句信息中提取多个候选先行词包括：获取语句信息中与代词的距离在预设距离内的名词短语；判断名词短语与代词之间是否相互指代；若名词短语与代词之间相互指代，则将名词短语作为候选先行词。

存储介质被设置为存储用于执行以下步骤的程序代码，判断名词短语与代词之间是否相互指代包括：判断名词短语和代词之间的连接词的词性是否为谓词；若名词短语和代词之间的连接词的词性不为谓词，则判断出名词短语与代词之间能够相互指代；若名词短语和代词之间的连接词的词性为谓词，则判断出名词短语与代词之间不能够相互指代。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种先行词的确定方法，其特征在于，包括：

获取待识别的语句信息；

在识别出所述语句信息中存在代词的情况下，从语句信息中提取多个候选先行词和所述多个候选先行词的词语特征，所述词语特征至少包括语义依存词的相关性；其中，所述从语句信息中提取多个候选先行词和所述多个候选先行词的词语特征包括：查找所述语句信息中代词的临近词；在所述临近词的词性不为名词的情况下，从所述语句信息中提取多个候选先行词和所述多个候选先行词的词语特征；所述词语特征包括语义特征和语法特征；

基于所述多个候选先行词的词语特征，从所述多个候选先行词中确定所述代词所指代的目标先行词；

所述基于所述多个候选先行词的词语特征，从所述多个候选先行词中确定所述代词所指代的目标先行词包括：

基于每个所述候选先行词的词语特征，确定每个所述候选先行词的指代权重值；

将指代权重值最大的候选先行词选取为所述代词所指代的目标先行词；

所述多个候选先行词中的每个候选先行词包括一个或多个所述词语特征，基于每个所述候选先行词的词语特征，确定每个所述候选先行词的指代权重值包括：

将提取到的词语特征转换为特征值；

利用预先设置的一个或多个所述词语特征的特征系数，对每个所述候选先行词的所述特征值进行线性加权计算，得到每个所述候选先行词的指代权重值；

所述将提取到的词语特征转换为特征值，包括：

按照目标公式计算提取到的词语特征的特征值，所述目标公式如下：

其中，P为所述代词，A为所述候选先行词，(Px₁,Px₂...Px_i)为所述代词的依存词，(Ax₁,Ax₂...Ax_j)为所述候选先行词的依存词，i，j为自然数，i表示所述代词的依存词的数量，j表述所述候选先行词的依存词的数量，WordSence(P,A)为所述特征值。

2.根据权利要求1所述的方法，其特征在于，所述多个候选先行词中的每个候选先行词包括一个或多个所述词语特征，所述词语特征包括下述至少之一：

所述候选先行词的单复数特征、所述候选先行词与所述代词之间的距离、所述候选先行词是否出现在介词短语中、以及所述代词和所述候选先行词的语义关联性。

3.根据权利要求1所述的方法，其特征在于，从语句信息中提取多个候选先行词包括：

获取所述语句信息中与所述代词的距离在预设距离内的名词短语；

判断所述名词短语与所述代词之间是否相互指代；

若所述名词短语与所述代词之间相互指代，则将所述名词短语作为所述候选先行词。

4.根据权利要求3所述的方法，其特征在于，判断所述名词短语与所述代词之间是否相互指代包括：

判断所述名词短语和所述代词之间的连接词的词性是否为谓词；

若所述名词短语和所述代词之间的连接词的词性不为谓词，则判断出所述名词短语与所述代词之间能够相互指代；

若所述名词短语和所述代词之间的连接词的词性为谓词，则判断出所述名词短语与所述代词之间不能够相互指代。

5.一种先行词的确定装置，其特征在于，包括：

获取单元，用于获取待识别的语句信息；

提取单元，用于在识别出所述语句信息中存在代词的情况下，从语句信息中提取多个候选先行词和所述多个候选先行词的词语特征，所述词语特征至少包括语义依存词的相关性；其中，所述从语句信息中提取多个候选先行词和所述多个候选先行词的词语特征包括：查找所述语句信息中代词的临近词；在所述临近词的词性不为名词的情况下，从所述语句信息中提取多个候选先行词和所述多个候选先行词的词语特征；所述词语特征包括语义特征和语法特征；

确定单元，用于基于所述多个候选先行词的词语特征，从所述多个候选先行词中确定所述代词所指代的目标先行词；

其中，所述提取单元包括：查找模块，用于查找所述语句信息中代词的临近词；提取模块，用于在所述临近词的词性不为名词的情况下，从所述语句信息中提取多个候选先行词和所述多个候选先行词的词语特征；

所述确定单元包括：

确定模块，用于基于每个所述候选先行词的词语特征，确定每个所述候选先行词的指代权重值；

选取模块，用于将指代权重值最大的候选先行词选取为所述代词所指代的目标先行词；

所述多个候选先行词中的每个候选先行词包括一个或多个所述词语特征，所述确定模块包括：

转换子模块，用于将提取到的词语特征转换为特征值；

计算子模块，用于利用预先设置的一个或多个所述词语特征的特征系数，对每个所述候选先行词的所述特征值进行线性加权计算，得到每个所述候选先行词的指代权重值；

所述转换子模块用于将提取到的词语特征转换为特征值的方式具体为：

所述转换子模块，用于按照目标公式计算提取到的词语特征的特征值，所述目标公式如下：

其中，P为所述代词，A为所述候选先行词，(Px₁,Px₂…Px_i)为所述代词的依存词，(Ax₁,Ax₂…Ax_j)为所述候选先行词的依存词，i，j为自然数，i表示所述代词的依存词的数量，j表述所述候选先行词的依存词的数量，WordSence(P,A)为所述特征值。

6.根据权利要求5所述的装置，其特征在于，所述多个候选先行词中的每个候选先行词包括一个或多个所述词语特征，所述词语特征包括下述至少之一：

7.根据权利要求5所述的装置，其特征在于，所述提取单元包括：

获取模块，用于获取所述语句信息中与所述代词的距离在预设距离内的名词短语；

判断模块，用于判断所述名词短语与所述代词之间是否相互指代，

8.根据权利要求7所述的装置，其特征在于，所述判断模块包括：

判断子模块，用于判断所述名词短语和所述代词之间的连接词的词性是否为谓词；若所述名词短语和所述代词之间的连接词的词性不为谓词，则判断出所述名词短语与所述代词之间能够相互指代；若所述名词短语和所述代词之间的连接词的词性为谓词，则判断出所述名词短语与所述代词之间不能够相互指代。