CN108255817B

CN108255817B - 基于web检索的实体翻译方法

Info

Publication number: CN108255817B
Application number: CN201810054955.3A
Authority: CN
Inventors: 颜令勇; 孙乐; 韩先培
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2018-01-19
Filing date: 2018-01-19
Publication date: 2020-06-12
Anticipated expiration: 2038-01-19
Also published as: CN108255817A

Abstract

本发明提供一种基于web检索的实体翻译方法。包括：利用知识库中的实体描述信息和待翻译实体进行web检索；利用所述知识库中的实体描述信息对历史检索结果进行序列标注得到至少一个候选实体翻译；据历史检索结果中的当前字/词的TF‑IDF值以及所述当前字/词与所述待翻译实体共现概率得到至少一个候选增强词；统计所述候选实体翻译和所述候选增强词之间的相关统计量，生成或者更新检索状态表；将所述检索状态表作为强化学习的状态集，将所述至少一个候选增强词以及特殊“结束”动作作为强化学习的动作集，通过强化学习机制得到最优检索增强词选择策略，并在结束时以出现次数最高的候选实体翻译作为最终实体翻译。本发明能够提高实体翻译的准确性和翻译效率，同时能够避免未登录词和实体名歧义性的问题。

Description

基于web检索的实体翻译方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于web检索的实体翻译方法。

背景技术

近年来，随着大量开放知识库的面世和发展，知识库构建的不均衡问题突显出来，这种不均衡现象主要体现在：不同知识库之间存在覆盖度不相同的情况；不同语言的知识库之间存在数量级上的巨大差距。对于一个新领域或者新语言的知识库的构建，实体翻译技术具有快速构建、优秀结构兼容性等优势。

翻译知识库的构建的核心就是知识库实体翻译。但是由于实体概念的内涵丰富，基于规则或者统计方法的实体翻译经常会遇到未登录词和实体名的歧义性问题。为了解决上述问题，基于web检索的实体翻译技术出现了，由于互联网中的大量文本能够提供丰富的信息以帮助解决实体名歧义性的问题，因此，基于web检索的实体翻译在解决实体翻译中的实体名歧义性方面占据显著优势。

在实现本发明的过程中，发明人发现现有技术中至少存在如下技术问题：

由于web检索的检索结果通常无法返回足够多的准确信息，从而使得现有的基于web检索的实体翻译存在翻译准确性不高和翻译效率低的缺陷。

发明内容

本发明提供的一种基于web检索的实体翻译方法，能够提高实体翻译的准确性和翻译效率，同时能够避免未登录词和实体名歧义性的问题。

一种基于web检索的实体翻译方法，包括：

步骤1、利用知识库中的实体描述信息和待翻译实体进行web检索；

步骤2、利用所述知识库中的实体描述信息对历史检索结果进行序列标注得到至少一个候选实体翻译；

步骤3、据历史检索结果中的当前字/词的TF-IDF值以及所述当前字/词与所述待翻译实体共现概率得到至少一个候选增强词；

步骤4、统计所述候选实体翻译和所述候选增强词之间的相关统计量，生成或者更新检索状态表；

步骤5、将所述检索状态表作为强化学习的状态集，将所述至少一个候选增强词以及特殊“结束”动作作为强化学习的动作集，通过强化学习机制得到最优检索增强词选择策略，并在结束时以出现次数最高的候选实体翻译作为最终实体翻译。

可选地，所述步骤2、利用所述知识库中的实体描述信息对历史检索结果进行序列标注得到至少一个候选实体翻译包括：

以所述知识库中的实体描述信息和历史检索结果中词序列作为循环神经网络的输入，并结合条件随机场模型标记出历史检索结果中的至少一个候选实体翻译，其中，所述候选实体翻译的位置信息采用BIESO标记，B表示实体翻译的开始字，I表示实体翻译的中间字，E表示实体翻译的结束字，S表示单个字就是实体翻译，O表示非实体翻译的字。

可选地，所述步骤5、将所述检索状态表作为强化学习的状态集，将所述至少一个候选增强词以及特殊“结束”动作作为强化学习的动作集，通过强化学习机制得到最优检索增强词选择策略，并在结束时出现次数最高的候选实体翻译作为最终实体翻译包括：

通过强化学习机制从所述检索状态表中选择最大的状态-动作值函数所对应的候选增强词作为参与后续web检索的候选增强词，利用所选择的候选增强词和所述待翻译实体进行web检索，并重复步骤2至步骤4，以此过程不断迭代，直到满足所述结束检索条件，并选择出现次数最高的候选实体翻译作为最终实体翻译。

可选地，所述结束检索条件为没有新的可用的候选增强词或者候选增强词选择策略选定“结束”动作作为策略。

可选地，所述相关统计量包括每个候选翻译与每个候选增强词的相似度、共现次数、最小间隔、最大间隔和平均间隔。

本发明实施例提供的基于web检索的实体翻译方法，包括：利用知识库中的实体描述信息和待翻译实体进行web检索；利用所述知识库中的实体描述信息对历史检索结果进行序列标注得到至少一个候选实体翻译；据历史检索结果中的当前字/词的TF-IDF值以及所述当前字/词与所述待翻译实体共现概率得到至少一个候选增强词；统计所述候选实体翻译和所述候选增强词之间的相关统计量，生成或者更新检索状态表；将所述检索状态表作为强化学习的状态集，将所述至少一个候选增强词以及特殊“结束”动作作为强化学习的动作集，通过强化学习机制得到最优检索增强词选择策略，并在结束时以出现次数最高的候选实体翻译作为最终实体翻译。与现有技术相比，一方面，本发明通过借助知识库中的实体描述信息进行web检索和候选翻译的获取，从而能够获得更为准确的实体翻译候选边界，同时能够消除未登录词和实体名一词多义的歧义性问题；另一方面，通过强化学习机制不断优化web检索的候选增强词，制定最优的检索策略，包括选择当前最佳的候选增强词、设定结束检索条件等，以达到以最小的检索次数得到最优的实体翻译结果，从而提高实体翻译的准确性和翻译效率。

附图说明

图1为本发明一实施例基于web检索的实体翻译方法的流程图；

图2为联合知识库实体描述信息的候选实体翻译标注示意图；

图3为通过深度神经网络的强化学习机制进行候选增强词学习的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种基于web检索的实体翻译方法，如图1所示，所述方法包括：

S11、利用知识库中的实体描述信息和待翻译实体进行web检索。

S12、利用所述知识库中的实体描述信息对历史检索结果进行序列标注得到至少一个候选实体翻译。

S13、据历史检索结果中的当前字/词的TF-IDF(term frequency–inversedocument frequency，词频--反转文件频率)值以及所述当前字/词与所述待翻译实体共现概率得到至少一个候选增强词。

S14、统计所述候选实体翻译和所述候选增强词之间的相关统计量，生成或者更新检索状态表。

S15、将所述检索状态表作为强化学习的状态集，将所述至少一个候选增强词以及特殊“结束”动作作为强化学习的动作集，通过强化学习机制得到最优检索增强词选择策略，并在结束时以出现次数最高的候选实体翻译作为最终实体翻译。

本发明实施例提供的基于web检索的实体翻译方法，与现有技术相比，一方面，本发明通过借助知识库中的实体描述信息进行web检索和候选翻译的获取，从而能够获得更为准确的实体翻译候选边界，同时能够消除未登录词和实体名一词多义的歧义性问题；另一方面，通过强化学习机制不断优化web检索的候选增强词，以制定最优的检索策略，其中包括选择当前最佳的候选增强词、设定结束检索条件等，以达到以最小的检索次数得到最优的实体翻译结果，从而提高实体翻译的准确性和翻译效率。

其中，所述结束检索条件为没有新的可用的候选增强词或者候选增强词选择策略选定“结束”动作作为策略。

其中，所述相关统计量包括每个候选翻译与每个候选增强词的相似度、共现次数、最小间隔、最大间隔和平均间隔。

可选地，所述步骤5、将所述检索状态表作为强化学习的状态集，将所述至少一个候选增强词以及特殊“结束”动作作为强化学习的动作集，通过强化学习机制得到最优检索增强词选择策略，并在结束时以出现次数最高的候选实体翻译作为最终实体翻译包括：

为了更好地理解本发明的技术方案，下面以“Helotiales”为例进行说明，具体流程如下：

1、利用知识库中的实体描述信息“生物”和“Helotiales”进行web检索。

2、利用所述知识库中的实体描述信息“生物”对上述检索结果进行序列标注得到至少一个候选实体翻译，如图2所示，其中，CRF为条件随机场模型。

3、据历史检索结果中的当前字/词的TF-IDF值以及所述当前字/词与所述待翻译实体“Helotiales”共现概率得到至少一个候选增强词。

4、统计所述候选实体翻译和所述候选增强词之间的相关统计量，生成或者更新检索状态表，如表1所示。

表1

	百科	菌	柔膜菌目
				柔膜菌目	＜1，0，10，...＞
蜡钉菌目

由表1可知，从上述检索结果中，我们可以抽取出一些候选翻译如“柔膜菌目”、“蜡钉菌目”等，也可以得到一些作为增强词的相关的词如“百科”、“菌”、“柔膜菌目”等。

其中，检索状态表的每个表项记录的是候选实体翻译与候选增强词之间的相关统计量，例如可以每个候选翻译与每个候选增强词的相似度、共现次数、最小间隔、最大间隔和平均间隔，其中，每个候选翻译与每个候选增强词的相似度具体可以为每个候选翻译与每个候选增强词是否一致。

5、从表1中选择一个没有使用过的候选增强词“百科”，和″Helotiales″组合在一起进行搜索，得到新的搜索结果，并从结果中抽取新的候选翻译和新的增强词，加入到检索状态表1中，同时更新原有的候选实体翻译和候选增强词的信息。得到了新的检索状态表2，可见，“拉丁目名”为新增加的候选增强词，“子囊菌纲”为新增加的候选实体翻译。

表2

	百科	菌	柔膜菌目	拉丁目名
					柔膜菌目	<1，1，6，...>
蜡钉菌目
					子囊菌纲

本发明是通过强化学习机制来不断地优化候选增强词，如图3所示，具体地，是通过深度神经网络来实现确定参与web检索的候选增强词，即以检索状态表和动作索引为深度神经网络的输入，其中，所述动作索引用于指示参与web检索的候选增强词或者指示结束检索，然后，根据深度神经网络输出的状态-动作值函数Q(s，a)确定参与下一次web检索的候选增强词，具体为选择最大的状态-动作值函数所对应的候选增强词作为参与下一次web检索的候选增强词，与待翻译实体组合在一起进行web检索，以此过程不断迭代，直到所述动作索引指示结束检索为止。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于web检索的实体翻译方法，其特征在于，包括：

步骤5、将所述检索状态表作为强化学习的状态集，将所述至少一个候选增强词以及特殊“结束”动作作为强化学习的动作集，通过强化学习机制得到最优检索增强词选择策略，并在结束时以出现次数最高的候选实体翻译作为最终实体翻译；

所述步骤5包括：通过强化学习机制从所述检索状态表中选择最大的状态-动作值函数所对应的候选增强词作为参与后续web检索的候选增强词，利用所选择的候选增强词和所述待翻译实体进行web检索，并重复步骤2至步骤4，以此过程不断迭代，直到满足所述结束检索条件，并选择出现次数最高的候选实体翻译作为最终实体翻译，所述结束检索条件为没有新的可用的候选增强词或者候选增强词选择策略选定“结束”动作作为策略。

2.根据权利要求1所述的方法，其特征在于，所述步骤2、利用所述知识库中的实体描述信息对历史检索结果进行序列标注得到至少一个候选实体翻译包括：

3.根据权利要求1所述的方法，其特征在于，所述相关统计量包括每个候选翻译与每个候选增强词的相似度、共现次数、最小间隔、最大间隔和平均间隔。