CN102550049A - 通过动态学习提取规则来获取词表外的翻译 - Google Patents

通过动态学习提取规则来获取词表外的翻译 Download PDF

Info

Publication number
CN102550049A
CN102550049A CN200980161654XA CN200980161654A CN102550049A CN 102550049 A CN102550049 A CN 102550049A CN 200980161654X A CN200980161654X A CN 200980161654XA CN 200980161654 A CN200980161654 A CN 200980161654A CN 102550049 A CN102550049 A CN 102550049A
Authority
CN
China
Prior art keywords
term
bilingual
translation
candidate
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200980161654XA
Other languages
English (en)
Other versions
CN102550049B (zh
Inventor
史磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Excalibur IP LLC
Original Assignee
Yahoo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Inc filed Critical Yahoo Inc
Publication of CN102550049A publication Critical patent/CN102550049A/zh
Application granted granted Critical
Publication of CN102550049B publication Critical patent/CN102550049B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

提供了一种用于识别双语术语对的集合,并且从双语数据对的集合中识别出与双语术语对在双语网页中的布局有关的候选模式的集合的方法和装置。一个或多个最佳模式可以基于在候选模式中被识别出来的特征而被从候选模式的集合中选择出来。使用一个或多个所选择的模式,翻译对候选的集合可以被提取出来。翻译对候选可以被验证,以确定每个翻译对候选为精确翻译的可能性。基于验证,一些或全部翻译对候选可以被作为不正确的翻译丢弃,并且剩下的翻译对候选可以被识别为正确的翻译对。

Description

通过动态学习提取规则来获取词表外的翻译
技术领域
本公开的技术涉及提取并利用来自双语网页的术语翻译知识。
背景技术
查询翻译是交叉语言信息检索(CLIR)系统利用的一种通用技术,其中CLIR系统被设计为检索被以不同于用户查询的语言写出的信息。CLIR系统被实现在搜索引擎、在线词典、以及需要翻译术语的很多其他应用中。对于包含有不能利用翻译对的已知数据库来翻译的词表外(OOV)术语的查询,系统性能严重劣化。例如,针对汉语搜索引擎的查询日志的分析揭示了以下信息:在被最频繁地搜索的19,124个术语中有超过80%没有被包括在一般的汉英词典中。由于web查询的平均长度比较短(诸如,两个或三个词),所以OOV术语在查询中的单次出现都会严重劣化检索出的搜索结果的相关性。为了解决OOV问题,可以建立一般双语词典中不包括的已知翻译的数据库,但是需要翻译的新术语不断地进入该词汇手册。例如,对应于新产品、新电影名称、新艺人、新俚语等的术语不断出现。手动添加针对所有这些新术语的翻译需要无法实现的大量人力。
部分地由于多语资源的数量的急剧增加,互联网已经显示出了作为用于减轻CLIR系统的一些局限性的资源的巨大希望。对于用于术语翻译的自动web挖掘方法的最新研究主要集中在对混合语言网页的利用上,其中在混合语言网页上术语和它们的翻译同时出现在同一页面上。在这些双语网页中,对于外国术语的翻译与外国术语一起出现。这些页面在用于诸如汉英、日英、西英之类的很多语言对以及很多其他语言对的web上相当常见。
提取这些网页中包含的信息的第一种方法是以搜索片断为基础的方法,该方法根据双语网页的搜索片断来得出同时出现的统计信息。基于搜索片断的方法包括:在本国语言文档中搜索外国术语;从相关双语页面的最上面的n个返回片断中,选择具有与该外国术语同时出现的最高计数的本国语言字符串作为该外国术语的翻译。该方法是基于以下假设的:在片断中术语与外国术语同时出现得越频繁,该外国术语越有可能是翻译。该方法在挖掘高频率的术语翻译方面有效,但是对于低频率的术语翻译无效,因为搜索引擎的相关性排名算法一般并不是以术语的翻译的出现为基础的。低频率的术语包括双语词汇手册的大部分术语,所以严重限制了基于片断的挖掘机制的有效性。
为了完善基于搜索片断的挖掘,第二种方法可以被用来使用双语网页上的翻译对的预定布局模式的固定集合或者一个预定布局模式来识别术语翻译,例如,术语及跟随在其后的用圆括号表示出的翻译,超人归来(Superman)。第二种方法能够发现低频率的术语翻译对(只要通过模式捕捉到这些翻译对),但是由于网页是由不同的人创建的,所以假设模式的有限集合可以覆盖每个甚至大多数双语网页是有问题的。
本部分描述的方法是可以被执行的方法,而不必是以前已经想到或者执行的方法。所以,除非以其它方式指明,否则不应该认为本部分中描述的任何方法仅仅是由于被包括在本部分中而被作为现有技术。
附图说明
通过示例而不是通过限制示出了本发明,并且在附图中相同的参考标号指示相似的元件,其中:
图1示出了实现本文中描述的技术的一种方法的流程图。
图2a-b示出了分别包含相同的翻译对但是处于不同的布局模式中的示例文本框。
图3示出了包含具有两种不同的布局模式的多个翻译对的集合的文本框的示例。
图4示出了可以实现本公开的技术的计算机系统的框图。
具体实施方式
在下面的描述中,出于说明的目的,阐述了很多具体细节以提供对于本发明的透彻理解。但是,很显然,本发明可以在没有这些具体细节的条件下被实现。在其他实例中,为了避免不必要地混淆本发明,已知的结构和设备被以框图形式示出。
概述
这里公开的技术包括:在双语网页中识别双语术语对的集合,并且从双语术语对的集合中识别与双语术语对在双语网页中的布局有关的候选模式的集合。一个或多个最佳模式被基于在候选模式中识别出的特征而从候选模式的集合中被选择出来。使用一个或多个所选择的模式,翻译对候选的集合可以被从双语网页中提取出来。翻译对候选可以被验证,以确定每个翻译对候选为精确翻译的可能性。基于该验证,一些或者所有翻译对候选可以被作为不正确的翻译而丢弃,并且剩下的翻译对候选可以被识别为正确的翻译对。
动态学习翻译
图1示出了实现本公开的技术的一种方法的流程图。在双语网页中,一个或多个双语术语对的集合可以被识别出来(块110)。双语术语对一般包括第一语言的术语和第二语言的术语。为了限制在网页中识别出来的双语术语对的数目,本发明的实施例中的一种技术包括:基于术语的翻译一般位于距离该术语相对较近的位置的假设,将双语术语对限制为相互处于某个距离内或者某个窗口内的第一语言的术语和第二语言的术语。
从双语术语对的集合中,候选模式的集合可以被识别出来(块120)。在一个实施例中,候选模式的集合是通过存储与第一语言的词相关联的标志(token)和与第二语言的词相关联的标志而被识别出来的。还可以针对出现在双语对之间、之前、或者之后的html标签和字符存储标志。例如,对于双语术语对“克里夫-罗伯逊(Cliff Robertson)”,候选模式可以为<L1>(<L2>),其中“<L1>”表示第一语言的术语,“<L2>”表示第二语言的术语,“(”表示出现在双语术语之间的字符或字符集合,并且“)”表示出现在双语术语对之后的字符。即使术语不同,但是当托比·马奎被标志<L1>替换并且Tobey Maguire被标志<L2>替换时,双语术语对“托比·马奎(Tobey Maguire)”具有相同的布局模式。
候选模式集合中的每一个候选模式的特征可以被确定并被用来对候选模式进行排名(块130),并且根据该排名,一个或多个最佳候选模式,例如排名最高的模式,可以被选择出来(块140)。所识别出的每个候选模式的特征一般是指示候选模式为有效模式的可能性的特征、或者指示候选模式为无效模式的可能性的特征。可以利用已知的翻译布局模式基于双语网页通过机器学习技术来确定用于对候选模式进行排名的特征的数目和类型。
使用所选择的候选模式,候选翻译对的集合可以从双语网页中被提取出来(块150)。候选翻译对是具有与所选择的候选模式相匹配的布局的双语对。一系列的验证测试可以被应用于候选翻译对(块160)。通过验证测试的候选翻译对(块160,是)可以被识别为翻译对(块170),没有通过验证测试的候选翻译对(块160,否)可以被丢弃(块180)。在一些实施例中,如果超过阈值数目或者超过阈值百分比的候选翻译对没有通过验证测试,则所有的候选翻译对被丢弃。
双语术语对的识别
出于说明的目的,在这里将参考汉英双语网页来说明利用这里描述的技术的自适应术语翻译提取模型的各种实施例,其中英语术语被零星交织于汉语文本中。然而,很明显,这些技术可以被应用于语言的任何组合。这些技术包括识别翻译对布局模式,以方便翻译提取。不同于采用被限制于识别预定布局模式的有限集合的一组严格全局规则的方法,这里描述的特定技术假设在网页中找到的任何模式都可能被用于提取翻译。这些技术还包括基于在候选模式中识别出的一个或多个特征来识别最有可能识别出正确翻译的模式。
这里描述的技术可以被用来对双语网页进行挖掘,以建立或添加至已知翻译的数据库。在其他实施例中,这里描述的技术可以响应于用户查询包含OOV术语而被实时实现。
这里描述的技术利用了这样的事实,即双语网页的作者显现出在同一页面中使用相似模式来对术语翻译对进行布局的强烈倾向。例如,如果网页包含20个翻译对,则所有20个翻译对的布局模式一般将是相同的,这与不同翻译对拥有不同布局模式相反。一些网页可能针对不同的翻译对的集合使用一种以上布局模式,但是网页很少使用随意或者只是零星再现的模式。图2a是可能被包含在双语网页中的文本框的示例。该文本框包含一系列用冒号分开的翻译对。图2b是包含相同翻译对但是布局模式不同的另一文本框的示例。代替使得每个翻译对被用冒号隔开并紧跟有硬回车,翻译对的英语部分被用圆括号包围。
参考图2a,如果“托比·马奎:Tobey Maguire”与“柯尔斯滕-邓斯特:Kirsten Dunst”是包括在翻译数据库中的已知翻译,则可以确定双语对“克里夫-罗伯逊:Cliff Robertson”与“山姆-雷米:Sam Raimi”也很可能是翻译对,因为这两个双语对与已知的翻译对具有相同的布局。即使没有双语对被认为是翻译对,所有这些双语对具有相同的模式的事实仍然可以提供这些双语对可能是翻译的有力线索。因此,对应模式“汉语:英语”的识别仍然可以被用来在该特定页面中提取这些候选翻译对。
由英语术语和在英语术语周围特定窗口大小中的汉语N-gram组成的双语术语对可以被识别出来。本发明的技术包括:基于术语的翻译一般位于接近该术语的地方的假设,将所识别出的双语术语对限制为相互处于某个距离内的英语术语和汉语N-gram。这些双语术语对中有一些可能是翻译,一些可能不是,但是所有的双语术语对起初都被识别为潜在的翻译。每个双语对的布局模式可被作为候选模式提取。完全相同的模式可以被移除,因为很多双语术语对共享相同的模式,并且候选模式的集合可以被从剩余的模式中识别出来。
可以使用以在候选模式中识别出的特征为基础的统计排名模型,针对候选模式集合中的每个候选模式来确定特定候选模式为有效模式的概率。作为有效模式的概率最高的一个或多个候选模式可以被用来从双语网页中提取候选翻译对。
自适应模式学习
布局模式可以是用于在双语网页中准确识别术语翻译的重要线索。术语翻译对通常在同一页面中共享相同的布局模式,这可以被用来自适应地识别用于翻译提取的模式。如果一对术语遵循用于同一页面上的其他双语术语对的相同模式,则该双语术语对更有可能是翻译,所以该模式应该被用来提取相匹配的对。为了自适应地学习来自页面的模式,所识别出的每个双语术语对的候选模式被识别出来。
给定双语术语对的集合,可以针对每个双语术语对提取模式。在一个实施例中,英语术语和汉语候选术语首先被转换为通用标志<eng>与<chi>。术语之间的字符与标签可以被转换为非通用标志。对于与对毗邻的字符与标签,最初形式的分隔符被省略,并且汉语与英语字符分别被转换成通用标志<b_chi>与<b_eng>。HTML标签也可被用在模式中,只有标签标记被省略。例如,<a href=“abcd.com”>可以被省略为标志<a>。
在标志的最初形式中而不是作为通用标记<b_chi>或者<b_eng>,候选对中的术语之间的标志可以被省略。这是因为在通常情况下术语和该术语的翻译在距离上比较接近,因此模式以及术语之间的标志在翻译对之间也是相同的。用通用标志<b_chi>或<b_eng>代替术语之间的字符和标签,将会识别出太普通以至于没有特色的一种模式。相反,翻译对之前以及之后的标志在翻译对之间不太可能是完全一样的。例如,翻译对可能老是紧接着汉语字符,但是特定的汉语字符或词可能在翻译对之间有所不同。
一旦候选模式被识别出来,则可以做出关于网页中的其他双语对是否含相同模式的判决。例如,来自双语术语对的英语术语可以被与<eng>匹配,来自双语术语对的汉语候选翻译术语可以被与<chi>匹配。在双语对之间、之前或者紧接着双语对的标志可以被与其在候选模式中相对应的位置进行比较。标志<b_chi>与<b_eng>可以被与任何汉语和英语词相匹配。如果双语术语对的模式的所有或最小数目的标志可以被与候选模式相匹配,则该双语术语对的那个模式可以被认为与候选模式相匹配。否则,该模式可能因为不匹配而被拒绝。
基于特征的统计模式排名
候选模式的集合可以被从双语术语对中提取出来。用于翻译提取的最佳模式可以被基于某些特征的存在与否而从候选模式的集合中选择出来。这些特征可以使模式更可能为有效模式或者更不可能为有效模式。最佳模式一般是所识别出的所有特征的组合能产生最大有效可能性的模式。在本公开的上下文中,术语“有效模式”并不严格局限于正确模式或最佳模式,而一般是指能够满足系统设计者根据设计偏好确定的可以接受的阈值水平的模式。
可能指示有效或无效模式的特征的示例是与候选模式相匹配的双语术语对的数目或百分比。由于双语网页设计者倾向于在相同页面中使用相同的模式对翻译对进行布局,所以与相同模式相匹配的双语术语对的数目超过阈值或者其百分比超过阈值百分比可以指示有效模式。相反,匹配相同模式的双语术语对的数目或者百分比低于阈值可以指示无效模式。例如,图3中有6个双语术语对(“托比·马奎:Tobey Maguire,”“柯尔斯滕-邓斯特:Kirsten Dunst,”“威廉-达福:William Dafoe,”“詹姆斯-佛朗哥:James Franco,”“克里夫-罗伯逊:Cliff Robertson”和“山姆-雷米:Sam Raimi”)与“汉语:英语”模式相匹配,与两个双语候选翻译对(“蜘蛛侠(spiderman)”和“哥伦比亚三星公司(Columbia Tristar,USA)”)与“汉语(英语)”模式相匹配形成比较。基于这个特定特征,“汉语:英语”模式可能被认为是比“汉语(英语)”模式更好的模式。
可以指示有效模式的另一个示例是可以根据已知翻译数据库得到验证的双语术语对的数目高或比例高。替代地,不能利已知翻译数据库进行验证的双语术语对数目高或比例高可能指示无效模式。例如,被包含在已知翻译数据库中的双语术语对“托比·马奎:Tobey Maguire”和“柯尔斯滕-邓斯特:Kirsten Dunst”是可以增加“汉语:英语”模式被识别为有效模式的可能性的特征。
可以被用来指示有效或无效模式的特征的另一个示例是与模式相关联的双语术语对的平均翻译概率。可以使用本领域当前已知的翻译概率算法来计算翻译概率。平均翻译概率可以识别出每个双语术语对为精确翻译的概率,而无需在已知翻译数据库中肯定地识别出候选翻译对。例如,翻译概率可以是基于已知的指示精确翻译的更大术语或其他指标中的精确翻译的词的存在与否的。
可以被用来指示有效或无效模式的特征的另一个示例是匹配双语对的平均音译分数。音译分数衡量基于发音而不是意思翻译的术语的发音相似性。音译分数高的双语术语对可以指示有效模式,同时音译分数低的双语术语对可以指示无效模式。
可以被用来指示有效或无效模式的特征的另一个示例是双语术语对的平均长度相似性。从一种语言到另外一种语言的翻译对倾向于拥有成比例的长度。所以,双语术语对拥有成比例的长度可以指示有效模式,同时长度有大的变化可以指示无效模式。
可以被用来指示有效或无效模式的特征的另一个示例是双语术语对之间的距离。翻译对倾向于彼此相对较近地出现,所以双语术语对之间距离大可以指示无效模式。
可以被用来指示有效或无效模式的特征的另一个示例是web同时出现。翻译对频繁在很多双语网页上出现。所以,在特定的双语网页中识别出来的同时出现在其他双语网页上的双语术语对可以指示双语术语对是翻译对,其还指示与双语术语对相关联的候选模式是有效模式。
可以被用来指示有效或无效模式的特征的另一个示例是文本相似性。例如,著名运动员的名字通常会出现在相同的上下文中而不考虑语言如何。例如,在单一语言网页中,著名篮球运动员的名字将频繁地被包含在诸如“运动员”和“篮球”之类的普通词语的附近区域中,并且会被包含在诸如这名运动员打比赛的城市、该运动员的队友的名字、该运动员所在队的名字之类的词和短语的附近区域中。翻译候选对中的针对每个术语的上下文术语可以被从单一语言的网页中识别出来。在一些实施例中,上下文词语可以被限制为是距离该双语术语对中的候选术语在某数目的字符或某数目的词语以内的词语。所识别出的上下文术语之间的重叠可以指示,双语术语对是翻译对,其还指示与双语术语对相关联的候选模式是有效模式。
可以被用来指示有效或无效模式的特征的另一示例是一对一对应关系。例如,如果一个双语术语对具有英语术语和第一汉语术语,并且第二双语术语对具有相同的英语术语和不同的汉语术语,则该模式很可能是无效的,因为大多数术语可能仅具有单个唯一的翻译而不是具有多种翻译。不具有一对一对应关系的双语术语对数目高或者百分比高可以指示无效模式。
基于诸如以上所述的特征,最大熵模型可以被用来基于针对每个候选模式识别出的或者没有被识别出的一个或多个特征,来估计候选模式为有效模式的概率。最大熵模型可以基于所检测出的特征并且基于针对各种特征的权重来计算每个候选模式的概率,并且具有最高概率的候选模式可以被选择作为用于特定双语网页的翻译提取的最佳模式。在确定候选模式为有效模式的概率时,不需要针对所有特征给出相等的权重。例如,包括高数目的已知翻译对的双语术语对的集合可以比其他特征被更重地加权。
尽管以上提供的所有特征示例以及没有公开的特征类型可以被用来确定有效模式以及用来选择用于提取候选翻译对的一个或多个模式,但是一些实施例将仅使用以上描述的特征的子集。例如,在被配置为实时返回针对OOV术语的翻译的系统中,在识别上需要更加昂贵的计算代价的特征可以不被包括,以增大返回翻译的速度。
候选翻译对的集合的确认
在已经基于这些特征选择了最佳模式之后,所选择的模式可以被用来通过识别具有与所选择的模式相匹配的模式的双语术语对来识别候选翻译对的集合。
可以对每个候选翻译对进行验证,以确定特定候选翻译对是应该被丢弃还是应该被当作正确的翻译对。在一些实例中,只有验证失败的个别候选翻译对将被丢弃。例如,所选择的模式仅可以识别出验证失败的少数候选翻译对。该少数可以是由于网页的作者不正确地抄录了一部分页面,或者是由于不希望被作为翻译的术语碰巧匹配所选择的模式而产生的。
在其它实例中,多于阈值数目或者多于阈值百分比的候选翻译对验证失败可能会导致候选翻译对的整个集合被丢弃。例如,验证失败的候选翻译对数目高可能指示所选择的候选模式(即便是可用的最佳模式)仍然不是有效模式。
可以参考用于对候选模式进行排名的特征,使用以上所述的相同技术来验证候选翻译对。例如,如上所述,平均翻译概率可以被用来确定候选模式是否有效。从该模式提取的候选翻译对然后可以被使用翻译概率来单独验证。在特定模式的一百个双语术语对中的九十八个具有高翻译概率,并且该一百个双语术语对中的两个具有低翻译概率的示例中,针对特定模式的平均翻译概率将为高(指示该模式可能有效)。即使特定模式是最佳模式并且被用来提取候选翻译对,所提取的一些候选翻译对将仍然可能是不精确的。对单个候选翻译对进行验证使得这些不精确的翻译对被从最精确的候选翻译对的群组中丢弃。
作为另一示例,如果与特定候选模式相匹配的一百个双语术语对中的九十六个具有一对一的对应关系,则特定候选模式可以被选择用在提取翻译候选对的处理中。在验证期间,一百个候选翻译对中的不具有一对一对应关系的四个可以被丢弃并且不被当为正确的翻译对。
音译分数、长度相似性、web同时出现、上下文相似性、以及很多其他验证技术也可以被以类似于以上提供的翻译概率和一对一对应关系示例的方式实现。用在验证技术中的特征可以与用于选择模式的特征相同,并且在一些实施例中,根据设计偏好,一种或多种验证技术不可以被用在识别用于选择模式的特征的处理中,而仅可以被用在验证翻译候选对的处理中。
通过验证的候选翻译对可以被识别为翻译对。根据实现这里描述的技术的系统,翻译对可以响应于查询而被返回给用户,被用来建立已知翻译的数据库,或者被用在得益于翻译OOV术语的任意数目的应用中。
硬件概述
根据一个实施例,这里描述的技术可以由一个或多个专用计算设备实现。专用计算设备可以被硬接线以执行这些技术,或者可以包括被稳固地编程以执行这些技术的诸如一个或多个专用集成电路(ASIC)或者现场可编程门电路(FPGA)之类的数字电子设备,或者可以包括被编程为根据硬件、存储器、其他存储部件、或者组合中的程序指令执行技术的一个或多个通用硬件处理器。这些专用计算设备还可以结合具有实现这些技术的定制程序的定制硬接线逻辑、ASIC、或者FPGA。专用计算设备可以是桌面计算机系统、便携式计算机系统、手持设备、联网设备、或者合并有执行这些技术的硬接线的和/或程序逻辑的任何其他设备。
例如,图4是示出可以实现本发明实施例的计算机系统400的框图。计算机系统400包括总线402或者用于传送信息的其他通信机制、以及与总线402耦合的用于处理信息的硬件处理器404。硬件处理器404可以是例如,通用微处理器。
计算机系统400还包括耦合到总线402的用于存储信息以及将由处理器404执行的指令的诸如随机存取存储器(RAM)或者其他动态存储设备的主存储器406。主存储器406可以被用于在指令被处理器404执行期间存储临时变量或者其他中间信息。这些指令在被存储在对于处理器404可以访问的存储介质中时,使得计算机系统400成为被定制为执行这些指令中规定的操作的专用机器。
计算机系统400还包括只读存储器(ROM)408或者耦合到总线402的用于存储用于处理器404的静态信息和指令的其他静态存储设备。诸如磁盘或者光盘之类的存储设备410被提供并耦合到总线402,用于存储信息和指令。
计算机系统400可以经由总线402被耦合到诸如阴极射线管(CRT)之类的显示器412,用于向计算机用户显示信息。包括字母数字和其他按键的输入设备414被耦合到总线402,用于将信息和命令选择传送给处理器404。另一种类型的用户输入设备是诸如鼠标、轨迹球、或者光标方向按键之类的光标控制部件416,用于将方向信息和命令选择传送给处理器404以及用于控制显示器412上的光标移动。该输入设备一般具有两个轴(即,第一轴(例如,x轴)和第二轴(例如,y轴))中的两个自由度,这两个轴允许设备在平面中指定位置。
计算机系统400可以使用定制的硬接线逻辑、一个或多个ASIC或FPGA、固件和/或结合计算机系统促使计算机系统400成为专用机器或者将计算机系统400编程为专用机器的程序逻辑,来实现这里描述的技术。根据一个实施例,这里描述的技术由计算机系统400响应于处理器404执行主存储器406中包含的一个或多个指令的一个或多个序列执行。这些指令可以被从诸如存储设备410之类的另一存储介质读入主存储器406。主存储器406中包含的指令序列的执行促使处理器404执行这里描述的处理步骤。在替代实施例中,硬接线电路可以代替软件指令被使用,或者可以结合软件指令被使用。
这里使用的术语“存储介质”是指存储促使机器以特定方式进行操作的数据和/指令的任何介质。这种存储介质可以包括非易失性介质和/或易失性介质。非易失性介质包括诸如存储设备410之类的光或磁盘。易失性介质包括诸如主存储器406之类的动态存储器。存储介质的一般形式包括例如,软盘、柔性盘、硬盘、固态驱动器、磁带、或者任何其他磁数据存储介质、CD-ROM、任何其他光学数据存储介质、具有孔洞模式的任何物理介质、RAM、PROM、以及EPROM、FLASH-EPROM、NVRAM、任何其他存储器芯片或者胶卷。
存储介质区别于传输介质,但是可以结合传输介质被使用。传输介质参与在存储介质之间传输信息。例如,传输介质包括同轴线缆、铜线和光纤、以及包括总线402的连线。传输介质还可以采用诸如在无线电波和红外数据通信期间生成的光波或者声波的形式。
在将一个或多个指令的一个或多个序列承载到处理器404用于执行的处理中可以涉及各种形式的介质。例如,指令最初可以被承载在磁盘或者远程计算机的固态驱动器上。远程计算机可以将指令装载到其动态存储器上,并且可以使用调制解调器在电话线上发送指令。计算机系统400本地的调制解调器可以在电话线上接收数据,并且可以使用红外发射机将数据转换为红外信号。红外检测器可以接收红外信号上承载的数据,并且适当的电路可以将该数据放置在总线402上。总线402将数据承载到主存储器406,处理器404从主存储器406获取指令并执行这些指令。主存储器406接收的指令可选地可以在被处理器404执行之前或之后被存储在存储设备410上。
计算机系统400还包括耦合到总线402的通信接口418。通信接口418向连接到本地网络422的网络链接420提供两路数据通信耦合。例如,通信接口418可以是综合业务数字网络(ISDN)卡、电缆调制解调器、卫星调制解调器、或者向相应类型的电路线路提供数据通信连接的调制解调器。作为另一示例,通信接口418可以是向兼容LAN提供数据通信连接的局域网(LAN)卡。无线连接也可以被实现。在任何这样的实施方式中,通信接口418发送并且接收承载代表各种类型的信息的数字数据流的电、电磁或者光信号。
网络链接420一般通过一个或多个网络向其他数据设备提供数据通信。例如,网络链接420可以通过本地网络422向主机计算机424或者向由互联网服务提供商(ISP)426操作的数据装备提供连接。ISP 426又通过被统称为“互联网”428的全球分组数据通信网络提供数据通信服务。本地网络422和互联网428二者使用承载数字数据流的电、电磁、或光信号。承载去往计算机系统400的数字数据以及来自计算机系统400的数字数据的通过各种网络的信号、网络链接420上的通过通信接口418的信号是传输介质的示例形式。
计算机系统400可以通过网络、网络链接420和通信接口418发送消息并且接收包括程序代码在内的数据。在互联网示例中,服务器430可以通过互联网428、ISP 426、本地网络422、以及通信接口418发送针对应用程序所请求的代码。
所接收的代码可以在被处理器404接收到时由处理器404执行,和/或存储设备410或者其他非易失性存储部件中供以后执行。
在前面的说明书中,参考随着实施方式的不同而变化的多个具体细节描述了本发明的实施例。所以,本发明的唯一的排他指示以及申请人想要当做本发明的是从本申请发布的权利要求的集合(以包括任何后续校正的任何权利要求问题的形式)。这里针对权利要求中包含的术语明确阐述的任何限定将决定权利要求所使用的术语的含义。所以,权利要求中没有明确叙述的限制、元件、特性、特征、优点或者属性不应该以任何方式限制该权利要求的范围。因此,本说明书和附图应该被认为是说明性的而不是限制性的意义。

Claims (18)

1.一种方法,包括:
在双语网页中识别一个或多个双语术语对的集合,其中双语术语对包括第一语言的第一术语和第二语言的第二术语;
至少部分地基于所述双语网页中的所述一个或多个双语术语对的布局,识别一个或多个候选模式;
在每个候选模式中识别一个或多个特征;
至少部分地基于每个候选模式的一个或多个特征,选择第一候选模式;
至少部分地基于所述第一候选模式,在所述双语网页中识别候选翻译对的集合;
其中,所述方法由一个或多个专用计算设备执行。
2.根据权利要求1所述的方法,还包括:
验证来自所述候选翻译对的集合的候选翻译对;
至少部分地基于所述验证,将所述候选翻译对归类为翻译对或者不是翻译对。
3.根据权利要求2所述的方法,其中,响应于多于阈值数目的候选翻译对没有通过验证,所有候选翻译对均被归类为不是翻译对。
4.根据权利要求1所述的方法,其中,识别所述第一候选模式的处理包括:
识别第一双语术语对;
向所述双语术语对的第一术语指派第一通用标志;
向所述双语对的第二术语指派第二通用标志;
向所述第一术语和所述第二术语之间的术语或者标签指派非通用标志。
5.根据权利要求4所述的方法,其中,识别所述一个或多个候选模式的集合的处理还包括:
向所述第一双语术语对之前或之后的术语或者标签指派第三通用标志。
6.根据权利要求4所述的方法,其中,如果对应于第二双语术语对的标志与对应于所述第一双语术语对的标志相匹配,则所述第二双语术语对与所述第一候选模式相匹配。
7.根据权利要求1所述的方法,其中,所述一个或多个特征包括识别已知的作为翻译的双语术语对。
8.根据权利要求1所述的方法,其中,每个候选模式的一个或多个特征被用来确定所述一个或多个候选模式的排名,并且其中选择所述第一候选模式的处理至少部分地基于所述排名。
9.根据权利要求2所述的方法,其中,验证所述候选翻译对的处理包括:确定所述候选翻译对是否具有相对于其他候选翻译对的一对一的对应关系。
10.一个或多个存储介质,存储有以下指令,其中当所述指令被一个或多个计算设备执行时导致根据权利要求1所述的方法的执行。
11.一个或多个存储介质,存储有以下指令,其中当所述指令被一个或多个计算设备执行时导致根据权利要求2所述的方法的执行。
12.一个或多个存储介质,存储有以下指令,其中当所述指令被一个或多个计算设备执行时导致根据权利要求3所述的方法的执行。
13.一个或多个存储介质,存储有以下指令,其中当所述指令被一个或多个计算设备执行时导致根据权利要求4所述的方法的执行。
14.一个或多个存储介质,存储有以下指令,其中当所述指令被一个或多个计算设备执行时导致根据权利要求5所述的方法的执行。
15.一个或多个存储介质,存储有以下指令,其中当所述指令被一个或多个计算设备执行时导致根据权利要求6所述的方法的执行。
16.一个或多个存储介质,存储有以下指令,其中当所述指令被一个或多个计算设备执行时导致根据权利要求7所述的方法的执行。
17.一个或多个存储介质,存储有以下指令,其中当所述指令被一个或多个计算设备执行时导致根据权利要求8所述的方法的执行。
18.一个或多个存储介质,存储有以下指令,其中当所述指令被一个或多个计算设备执行时导致根据权利要求9所述的方法的执行。
CN200980161654.XA 2009-09-25 2009-09-25 通过动态学习提取规则来获取词表外的翻译 Active CN102550049B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2009/001078 WO2011035455A1 (en) 2009-09-25 2009-09-25 Acquisition of out-of-vocabulary translations by dynamically learning extraction rules

Publications (2)

Publication Number Publication Date
CN102550049A true CN102550049A (zh) 2012-07-04
CN102550049B CN102550049B (zh) 2016-05-25

Family

ID=43795271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200980161654.XA Active CN102550049B (zh) 2009-09-25 2009-09-25 通过动态学习提取规则来获取词表外的翻译

Country Status (4)

Country Link
US (1) US8670974B2 (zh)
CN (1) CN102550049B (zh)
HK (1) HK1172186A1 (zh)
WO (1) WO2011035455A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563387A (zh) * 2019-02-12 2020-08-21 阿里巴巴集团控股有限公司 语句相似度确定方法及装置、语句翻译方法及装置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8332205B2 (en) * 2009-01-09 2012-12-11 Microsoft Corporation Mining transliterations for out-of-vocabulary query terms
US9471565B2 (en) * 2011-07-29 2016-10-18 At&T Intellectual Property I, L.P. System and method for locating bilingual web sites
US8990066B2 (en) * 2012-01-31 2015-03-24 Microsoft Corporation Resolving out-of-vocabulary words during machine translation
US9176936B2 (en) * 2012-09-28 2015-11-03 International Business Machines Corporation Transliteration pair matching
CN103646117B (zh) * 2013-12-27 2016-09-28 苏州大学 一种基于链接的双语平行网页识别方法及系统
US10831999B2 (en) * 2019-02-26 2020-11-10 International Business Machines Corporation Translation of ticket for resolution

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101308512A (zh) * 2008-06-25 2008-11-19 北京金山软件有限公司 一种基于网页的互译翻译对抽取方法及装置
CN101425087A (zh) * 2008-09-16 2009-05-06 网易有道信息技术(北京)有限公司 构建词典的方法和系统
US20090182547A1 (en) * 2008-01-16 2009-07-16 Microsoft Corporation Adaptive Web Mining of Bilingual Lexicon for Query Translation

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1452101A (zh) 2003-04-21 2003-10-29 北京嘉盛联侨信息工程技术有限公司 用一个词库实现双向词汇翻译和单词分组记忆的方法
CN1452093A (zh) 2003-04-21 2003-10-29 北京嘉盛联侨信息工程技术有限公司 用单一词库进行双向词汇翻译的方法
US7805289B2 (en) * 2006-07-10 2010-09-28 Microsoft Corporation Aligning hierarchal and sequential document trees to identify parallel data
US8306806B2 (en) * 2008-12-02 2012-11-06 Microsoft Corporation Adaptive web mining of bilingual lexicon
US8275604B2 (en) * 2009-03-18 2012-09-25 Microsoft Corporation Adaptive pattern learning for bilingual data mining

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090182547A1 (en) * 2008-01-16 2009-07-16 Microsoft Corporation Adaptive Web Mining of Bilingual Lexicon for Query Translation
CN101308512A (zh) * 2008-06-25 2008-11-19 北京金山软件有限公司 一种基于网页的互译翻译对抽取方法及装置
CN101425087A (zh) * 2008-09-16 2009-05-06 网易有道信息技术(北京)有限公司 构建词典的方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563387A (zh) * 2019-02-12 2020-08-21 阿里巴巴集团控股有限公司 语句相似度确定方法及装置、语句翻译方法及装置
CN111563387B (zh) * 2019-02-12 2023-05-02 阿里巴巴集团控股有限公司 语句相似度确定方法及装置、语句翻译方法及装置

Also Published As

Publication number Publication date
US20110178792A1 (en) 2011-07-21
CN102550049B (zh) 2016-05-25
US8670974B2 (en) 2014-03-11
WO2011035455A1 (en) 2011-03-31
HK1172186A1 (zh) 2013-04-12

Similar Documents

Publication Publication Date Title
CN108287858B (zh) 自然语言的语义提取方法及装置
CN102053991B (zh) 用于多语言文档检索的方法及系统
CN102227724B (zh) 对于音译的机器学习
CN104615593B (zh) 微博热点话题自动检测方法及装置
CN101918945B (zh) 用于执行自动扩展的语言搜索的方法和系统
CN103198057B (zh) 一种自动给文档添加标签的方法和装置
KR101754473B1 (ko) 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템
CN102550049A (zh) 通过动态学习提取规则来获取词表外的翻译
Hämäläinen et al. From the paft to the fiiture: a fully automatic NMT and word embeddings method for OCR post-correction
CN102402584A (zh) 多语言文本中的语言识别
WO2009035863A2 (en) Mining bilingual dictionaries from monolingual web pages
CN101996210A (zh) 用于搜索电子地图的方法和系统
CN101657810A (zh) 机器翻译反馈
CN102779140A (zh) 一种关键词获取方法及装置
CN110516011B (zh) 一种多源实体数据融合方法、装置及设备
CN104008093A (zh) 用于中文姓名音译的方法和系统
CN113590810B (zh) 摘要生成模型训练方法、摘要生成方法、装置及电子设备
CN107111618A (zh) 将图像的缩略图链接到网页
CN103605691A (zh) 用于处理社交网络中发布内容的装置和方法
CN110209781B (zh) 一种文本处理方法、装置以及相关设备
US10296635B2 (en) Auditing and augmenting user-generated tags for digital content
CN112836057A (zh) 知识图谱的生成方法、装置、终端以及存储介质
CN110866407B (zh) 确定互译文本及文本间相似度分析方法、装置及设备
Sundriyal et al. DESYR: definition and syntactic representation based claim detection on the web
CN104462151A (zh) 评估网页发布时间的方法和相关装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1172186

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160802

Address after: American California

Patentee after: EXCALIBUR IP LLC

Address before: American California

Patentee before: Yahoo Corp.

REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1172186

Country of ref document: HK