CN108255817B - 基于web检索的实体翻译方法 - Google Patents

基于web检索的实体翻译方法 Download PDF

Info

Publication number
CN108255817B
CN108255817B CN201810054955.3A CN201810054955A CN108255817B CN 108255817 B CN108255817 B CN 108255817B CN 201810054955 A CN201810054955 A CN 201810054955A CN 108255817 B CN108255817 B CN 108255817B
Authority
CN
China
Prior art keywords
entity
word
candidate
retrieval
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810054955.3A
Other languages
English (en)
Other versions
CN108255817A (zh
Inventor
颜令勇
孙乐
韩先培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN201810054955.3A priority Critical patent/CN108255817B/zh
Publication of CN108255817A publication Critical patent/CN108255817A/zh
Application granted granted Critical
Publication of CN108255817B publication Critical patent/CN108255817B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Abstract

本发明提供一种基于web检索的实体翻译方法。包括:利用知识库中的实体描述信息和待翻译实体进行web检索;利用所述知识库中的实体描述信息对历史检索结果进行序列标注得到至少一个候选实体翻译;据历史检索结果中的当前字/词的TF‑IDF值以及所述当前字/词与所述待翻译实体共现概率得到至少一个候选增强词;统计所述候选实体翻译和所述候选增强词之间的相关统计量,生成或者更新检索状态表;将所述检索状态表作为强化学习的状态集,将所述至少一个候选增强词以及特殊“结束”动作作为强化学习的动作集,通过强化学习机制得到最优检索增强词选择策略,并在结束时以出现次数最高的候选实体翻译作为最终实体翻译。本发明能够提高实体翻译的准确性和翻译效率,同时能够避免未登录词和实体名歧义性的问题。

Description

基于web检索的实体翻译方法
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于web检索的实体翻译方法。
背景技术
近年来,随着大量开放知识库的面世和发展,知识库构建的不均衡问题突显出来,这种不均衡现象主要体现在:不同知识库之间存在覆盖度不相同的情况;不同语言的知识库之间存在数量级上的巨大差距。对于一个新领域或者新语言的知识库的构建,实体翻译技术具有快速构建、优秀结构兼容性等优势。
翻译知识库的构建的核心就是知识库实体翻译。但是由于实体概念的内涵丰富,基于规则或者统计方法的实体翻译经常会遇到未登录词和实体名的歧义性问题。为了解决上述问题,基于web检索的实体翻译技术出现了,由于互联网中的大量文本能够提供丰富的信息以帮助解决实体名歧义性的问题,因此,基于web检索的实体翻译在解决实体翻译中的实体名歧义性方面占据显著优势。
在实现本发明的过程中,发明人发现现有技术中至少存在如下技术问题:
由于web检索的检索结果通常无法返回足够多的准确信息,从而使得现有的基于web检索的实体翻译存在翻译准确性不高和翻译效率低的缺陷。
发明内容
本发明提供的一种基于web检索的实体翻译方法,能够提高实体翻译的准确性和翻译效率,同时能够避免未登录词和实体名歧义性的问题。
一种基于web检索的实体翻译方法,包括:
步骤1、利用知识库中的实体描述信息和待翻译实体进行web检索;
步骤2、利用所述知识库中的实体描述信息对历史检索结果进行序列标注得到至少一个候选实体翻译;
步骤3、据历史检索结果中的当前字/词的TF-IDF值以及所述当前字/词与所述待翻译实体共现概率得到至少一个候选增强词;
步骤4、统计所述候选实体翻译和所述候选增强词之间的相关统计量,生成或者更新检索状态表;
步骤5、将所述检索状态表作为强化学习的状态集,将所述至少一个候选增强词以及特殊“结束”动作作为强化学习的动作集,通过强化学习机制得到最优检索增强词选择策略,并在结束时以出现次数最高的候选实体翻译作为最终实体翻译。
可选地,所述步骤2、利用所述知识库中的实体描述信息对历史检索结果进行序列标注得到至少一个候选实体翻译包括:
以所述知识库中的实体描述信息和历史检索结果中词序列作为循环神经网络的输入,并结合条件随机场模型标记出历史检索结果中的至少一个候选实体翻译,其中,所述候选实体翻译的位置信息采用BIESO标记,B表示实体翻译的开始字,I表示实体翻译的中间字,E表示实体翻译的结束字,S表示单个字就是实体翻译,O表示非实体翻译的字。
可选地,所述步骤5、将所述检索状态表作为强化学习的状态集,将所述至少一个候选增强词以及特殊“结束”动作作为强化学习的动作集,通过强化学习机制得到最优检索增强词选择策略,并在结束时出现次数最高的候选实体翻译作为最终实体翻译包括:
通过强化学习机制从所述检索状态表中选择最大的状态-动作值函数所对应的候选增强词作为参与后续web检索的候选增强词,利用所选择的候选增强词和所述待翻译实体进行web检索,并重复步骤2至步骤4,以此过程不断迭代,直到满足所述结束检索条件,并选择出现次数最高的候选实体翻译作为最终实体翻译。
可选地,所述结束检索条件为没有新的可用的候选增强词或者候选增强词选择策略选定“结束”动作作为策略。
可选地,所述相关统计量包括每个候选翻译与每个候选增强词的相似度、共现次数、最小间隔、最大间隔和平均间隔。
本发明实施例提供的基于web检索的实体翻译方法,包括:利用知识库中的实体描述信息和待翻译实体进行web检索;利用所述知识库中的实体描述信息对历史检索结果进行序列标注得到至少一个候选实体翻译;据历史检索结果中的当前字/词的TF-IDF值以及所述当前字/词与所述待翻译实体共现概率得到至少一个候选增强词;统计所述候选实体翻译和所述候选增强词之间的相关统计量,生成或者更新检索状态表;将所述检索状态表作为强化学习的状态集,将所述至少一个候选增强词以及特殊“结束”动作作为强化学习的动作集,通过强化学习机制得到最优检索增强词选择策略,并在结束时以出现次数最高的候选实体翻译作为最终实体翻译。与现有技术相比,一方面,本发明通过借助知识库中的实体描述信息进行web检索和候选翻译的获取,从而能够获得更为准确的实体翻译候选边界,同时能够消除未登录词和实体名一词多义的歧义性问题;另一方面,通过强化学习机制不断优化web检索的候选增强词,制定最优的检索策略,包括选择当前最佳的候选增强词、设定结束检索条件等,以达到以最小的检索次数得到最优的实体翻译结果,从而提高实体翻译的准确性和翻译效率。
附图说明
图1为本发明一实施例基于web检索的实体翻译方法的流程图;
图2为联合知识库实体描述信息的候选实体翻译标注示意图;
图3为通过深度神经网络的强化学习机制进行候选增强词学习的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种基于web检索的实体翻译方法,如图1所示,所述方法包括:
S11、利用知识库中的实体描述信息和待翻译实体进行web检索。
S12、利用所述知识库中的实体描述信息对历史检索结果进行序列标注得到至少一个候选实体翻译。
S13、据历史检索结果中的当前字/词的TF-IDF(term frequency–inversedocument frequency,词频--反转文件频率)值以及所述当前字/词与所述待翻译实体共现概率得到至少一个候选增强词。
S14、统计所述候选实体翻译和所述候选增强词之间的相关统计量,生成或者更新检索状态表。
S15、将所述检索状态表作为强化学习的状态集,将所述至少一个候选增强词以及特殊“结束”动作作为强化学习的动作集,通过强化学习机制得到最优检索增强词选择策略,并在结束时以出现次数最高的候选实体翻译作为最终实体翻译。
本发明实施例提供的基于web检索的实体翻译方法,与现有技术相比,一方面,本发明通过借助知识库中的实体描述信息进行web检索和候选翻译的获取,从而能够获得更为准确的实体翻译候选边界,同时能够消除未登录词和实体名一词多义的歧义性问题;另一方面,通过强化学习机制不断优化web检索的候选增强词,以制定最优的检索策略,其中包括选择当前最佳的候选增强词、设定结束检索条件等,以达到以最小的检索次数得到最优的实体翻译结果,从而提高实体翻译的准确性和翻译效率。
其中,所述结束检索条件为没有新的可用的候选增强词或者候选增强词选择策略选定“结束”动作作为策略。
其中,所述相关统计量包括每个候选翻译与每个候选增强词的相似度、共现次数、最小间隔、最大间隔和平均间隔。
可选地,所述步骤2、利用所述知识库中的实体描述信息对历史检索结果进行序列标注得到至少一个候选实体翻译包括:
以所述知识库中的实体描述信息和历史检索结果中词序列作为循环神经网络的输入,并结合条件随机场模型标记出历史检索结果中的至少一个候选实体翻译,其中,所述候选实体翻译的位置信息采用BIESO标记,B表示实体翻译的开始字,I表示实体翻译的中间字,E表示实体翻译的结束字,S表示单个字就是实体翻译,O表示非实体翻译的字。
可选地,所述步骤5、将所述检索状态表作为强化学习的状态集,将所述至少一个候选增强词以及特殊“结束”动作作为强化学习的动作集,通过强化学习机制得到最优检索增强词选择策略,并在结束时以出现次数最高的候选实体翻译作为最终实体翻译包括:
通过强化学习机制从所述检索状态表中选择最大的状态-动作值函数所对应的候选增强词作为参与后续web检索的候选增强词,利用所选择的候选增强词和所述待翻译实体进行web检索,并重复步骤2至步骤4,以此过程不断迭代,直到满足所述结束检索条件,并选择出现次数最高的候选实体翻译作为最终实体翻译。
为了更好地理解本发明的技术方案,下面以“Helotiales”为例进行说明,具体流程如下:
1、利用知识库中的实体描述信息“生物”和“Helotiales”进行web检索。
2、利用所述知识库中的实体描述信息“生物”对上述检索结果进行序列标注得到至少一个候选实体翻译,如图2所示,其中,CRF为条件随机场模型。
3、据历史检索结果中的当前字/词的TF-IDF值以及所述当前字/词与所述待翻译实体“Helotiales”共现概率得到至少一个候选增强词。
4、统计所述候选实体翻译和所述候选增强词之间的相关统计量,生成或者更新检索状态表,如表1所示。
表1
百科 柔膜菌目
柔膜菌目 <1,0,10,...>
蜡钉菌目
由表1可知,从上述检索结果中,我们可以抽取出一些候选翻译如“柔膜菌目”、“蜡钉菌目”等,也可以得到一些作为增强词的相关的词如“百科”、“菌”、“柔膜菌目”等。
其中,检索状态表的每个表项记录的是候选实体翻译与候选增强词之间的相关统计量,例如可以每个候选翻译与每个候选增强词的相似度、共现次数、最小间隔、最大间隔和平均间隔,其中,每个候选翻译与每个候选增强词的相似度具体可以为每个候选翻译与每个候选增强词是否一致。
5、从表1中选择一个没有使用过的候选增强词“百科”,和″Helotiales″组合在一起进行搜索,得到新的搜索结果,并从结果中抽取新的候选翻译和新的增强词,加入到检索状态表1中,同时更新原有的候选实体翻译和候选增强词的信息。得到了新的检索状态表2,可见,“拉丁目名”为新增加的候选增强词,“子囊菌纲”为新增加的候选实体翻译。
表2
百科 柔膜菌目 拉丁目名
柔膜菌目 <1,1,6,...>
蜡钉菌目
子囊菌纲
本发明是通过强化学习机制来不断地优化候选增强词,如图3所示,具体地,是通过深度神经网络来实现确定参与web检索的候选增强词,即以检索状态表和动作索引为深度神经网络的输入,其中,所述动作索引用于指示参与web检索的候选增强词或者指示结束检索,然后,根据深度神经网络输出的状态-动作值函数Q(s,a)确定参与下一次web检索的候选增强词,具体为选择最大的状态-动作值函数所对应的候选增强词作为参与下一次web检索的候选增强词,与待翻译实体组合在一起进行web检索,以此过程不断迭代,直到所述动作索引指示结束检索为止。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (3)

1.一种基于web检索的实体翻译方法,其特征在于,包括:
步骤1、利用知识库中的实体描述信息和待翻译实体进行web检索;
步骤2、利用所述知识库中的实体描述信息对历史检索结果进行序列标注得到至少一个候选实体翻译;
步骤3、据历史检索结果中的当前字/词的TF-IDF值以及所述当前字/词与所述待翻译实体共现概率得到至少一个候选增强词;
步骤4、统计所述候选实体翻译和所述候选增强词之间的相关统计量,生成或者更新检索状态表;
步骤5、将所述检索状态表作为强化学习的状态集,将所述至少一个候选增强词以及特殊“结束”动作作为强化学习的动作集,通过强化学习机制得到最优检索增强词选择策略,并在结束时以出现次数最高的候选实体翻译作为最终实体翻译;
所述步骤5包括:通过强化学习机制从所述检索状态表中选择最大的状态-动作值函数所对应的候选增强词作为参与后续web检索的候选增强词,利用所选择的候选增强词和所述待翻译实体进行web检索,并重复步骤2至步骤4,以此过程不断迭代,直到满足所述结束检索条件,并选择出现次数最高的候选实体翻译作为最终实体翻译,所述结束检索条件为没有新的可用的候选增强词或者候选增强词选择策略选定“结束”动作作为策略。
2.根据权利要求1所述的方法,其特征在于,所述步骤2、利用所述知识库中的实体描述信息对历史检索结果进行序列标注得到至少一个候选实体翻译包括:
以所述知识库中的实体描述信息和历史检索结果中词序列作为循环神经网络的输入,并结合条件随机场模型标记出历史检索结果中的至少一个候选实体翻译,其中,所述候选实体翻译的位置信息采用BIESO标记,B表示实体翻译的开始字,I表示实体翻译的中间字,E表示实体翻译的结束字,S表示单个字就是实体翻译,O表示非实体翻译的字。
3.根据权利要求1所述的方法,其特征在于,所述相关统计量包括每个候选翻译与每个候选增强词的相似度、共现次数、最小间隔、最大间隔和平均间隔。
CN201810054955.3A 2018-01-19 2018-01-19 基于web检索的实体翻译方法 Active CN108255817B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810054955.3A CN108255817B (zh) 2018-01-19 2018-01-19 基于web检索的实体翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810054955.3A CN108255817B (zh) 2018-01-19 2018-01-19 基于web检索的实体翻译方法

Publications (2)

Publication Number Publication Date
CN108255817A CN108255817A (zh) 2018-07-06
CN108255817B true CN108255817B (zh) 2020-06-12

Family

ID=62726875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810054955.3A Active CN108255817B (zh) 2018-01-19 2018-01-19 基于web检索的实体翻译方法

Country Status (1)

Country Link
CN (1) CN108255817B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1643511A (zh) * 2002-03-11 2005-07-20 南加利福尼亚大学 命名实体翻译
CN101593173A (zh) * 2008-05-28 2009-12-02 中国科学院自动化研究所 一种汉英反向音译方法及装置
CN101676898A (zh) * 2008-09-17 2010-03-24 中国科学院自动化研究所 一种借助网络知识辅助的汉英机构名翻译方法及装置
CN102662936A (zh) * 2012-04-09 2012-09-12 复旦大学 融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法
CN103970732A (zh) * 2014-05-22 2014-08-06 北京百度网讯科技有限公司 新词译文的挖掘方法和装置
CN105068998A (zh) * 2015-07-29 2015-11-18 百度在线网络技术(北京)有限公司 基于神经网络模型的翻译方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291553B (zh) * 2014-10-24 2023-11-21 谷歌有限责任公司 具有罕见词处理的神经机器翻译系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1643511A (zh) * 2002-03-11 2005-07-20 南加利福尼亚大学 命名实体翻译
CN101593173A (zh) * 2008-05-28 2009-12-02 中国科学院自动化研究所 一种汉英反向音译方法及装置
CN101676898A (zh) * 2008-09-17 2010-03-24 中国科学院自动化研究所 一种借助网络知识辅助的汉英机构名翻译方法及装置
CN102662936A (zh) * 2012-04-09 2012-09-12 复旦大学 融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法
CN103970732A (zh) * 2014-05-22 2014-08-06 北京百度网讯科技有限公司 新词译文的挖掘方法和装置
CN105068998A (zh) * 2015-07-29 2015-11-18 百度在线网络技术(北京)有限公司 基于神经网络模型的翻译方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Mining Key Phrase Translations from Web Corpora;Fei Huang et al.;《Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing》;20050831;第483-490页 *
英汉双向未登录词翻译方法研究;苏艳霞;《中国优秀硕士学位论文全文数据库信息科技辑》;20130315;第I138-1834页 *

Also Published As

Publication number Publication date
CN108255817A (zh) 2018-07-06

Similar Documents

Publication Publication Date Title
US10642938B2 (en) Artificial intelligence based method and apparatus for constructing comment graph
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
Botha et al. Compositional morphology for word representations and language modelling
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
Cheng et al. An economical scan design for sequential logic test generation
CN108255813B (zh) 一种基于词频-逆文档与crf的文本匹配方法
CN110502642B (zh) 一种基于依存句法分析与规则的实体关系抽取方法
US20210064821A1 (en) System and method to extract customized information in natural language text
CN103970733B (zh) 一种基于图结构的中文新词识别方法
US20140032207A1 (en) Information Classification Based on Product Recognition
Sasidhar et al. A survey on named entity recognition in Indian languages with particular reference to Telugu
CN107402960B (zh) 一种基于语义语气加权的倒排索引优化算法
CN103646112A (zh) 利用了网络搜索的依存句法的领域自适应方法
CN113033183B (zh) 一种基于统计量与相似性的网络新词发现方法及系统
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
Bennett et al. Lexsemtm: A semantic dataset based on all-words unsupervised sense distribution learning
CN107679124B (zh) 一种基于动态规划算法的知识图谱中文问答检索方法
CN104572632B (zh) 一种确定具有专名译文的词汇的翻译方向的方法
Derungs et al. Mining nearness relations from an n-grams Web corpus in geographical space
EP3404553A1 (en) Open information extraction method and system for extracting reified ternary relationship
CN108255817B (zh) 基于web检索的实体翻译方法
CN108491407B (zh) 一种面向代码检索的查询扩展方法
CN102982063A (zh) 一种基于关系关键词扩展的元组精化的控制方法
CN110909532B (zh) 用户名称匹配方法、装置、计算机设备和存储介质
Violos et al. Clustering documents using the 3-gram graph representation model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant