CN100380373C - 知识系统方法和装置 - Google Patents

知识系统方法和装置 Download PDF

Info

Publication number
CN100380373C
CN100380373C CNB038257297A CN03825729A CN100380373C CN 100380373 C CN100380373 C CN 100380373C CN B038257297 A CNB038257297 A CN B038257297A CN 03825729 A CN03825729 A CN 03825729A CN 100380373 C CN100380373 C CN 100380373C
Authority
CN
China
Prior art keywords
word
word strings
language
document
strings
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB038257297A
Other languages
English (en)
Other versions
CN1720524A (zh
Inventor
埃里·阿博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US10/281,997 external-priority patent/US7711547B2/en
Application filed by Individual filed Critical Individual
Publication of CN1720524A publication Critical patent/CN1720524A/zh
Application granted granted Critical
Publication of CN100380373C publication Critical patent/CN100380373C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

对关联概念知识库的获取、重建和生成进行自动化并在很多应用中使用这样的知识库的方法和装置,所述应用包括基于概念搜索、语音识别、数据压缩和人工智能系统进行的人类语言的机器翻译、无组织文本或其他数据的搜索和检索。

Description

知识系统方法和装置
相关申请
本申请是2002年10月29日提交、编号为10/281,997的美国专利申请的接续申请,后者是2002年5月31日提交、编号为10/157,894的美国专利申请的接续申请,而此专利申请又是2001年12月21日提交、编号为10/024,473的美国专利申请的接续申请,同时本申请要求2001年3月16日提交、编号为60/276,107的美国专利预申请及2001年6月21日提交、编号为60/299,472的美国专利预申请的权利。本申请也是2002年5月16日提交、编号为10/146,441的美国专利申请的接续申请,后者是2002年4月5日提交、编号为10/116,047的美国专利申请的接续申请,而此专利申请是2001年12月21日提交、编号为10/024,473的美国专利申请的接续申请。本申请也是2002年7月15日提交、编号为10/194,322的美国专利申请的接续申请,后者是2001年12月21日提交、编号为10/024,473的美国专利申请的接续申请。上述所有申请均包含在此作为参考。
目录
发明背景
I.简介
II.机器翻译的技术发展水平
III.用于语义获取的统计自然语言处理的技术发展水平
IV.人工智能的技术发展水平
发明概要
I.简介
II.作为意义单元的单词串
III.语言翻译和用于文本挖掘的自然语言理解的方法和系统。自然语言接口和其他应用
A.概述
B.方法和系统
IV.现有技术
详细说明
I.简介
II.跨状态知识库获取方法和装置
A.使用平行文本进行获取
B.使用多状态文本进行获取
C.使用目标文档洪流(flooding)进行获取
1.平行文本洪流
2.目标语言洪流
D.使用多方法差异进行获取
III.跨状态知识重建方法和装置
A.使用关联数据库和双锚点重叠技术进行文档翻译
B.使用双锚点重叠进行知识获取
C.其他相关应用
IV.单状态频率关联数据库创建和共有频率分析方法和装置
A.简介
B.频率关联数据库(FAD)的创建
1.概述
2.使用重现单词串索引的FAD
C.共有频率分析—通过关联方法和装置进行知识库获取和生成
1.独立共有频率分析(ICFA)
2.相关共有频率分析(RCFA)
3.二级频率分析(RCFA或ICFA)
V.使用CFA进行单状态知识获取
A.使用ICFA进行知识获取列表生成
B.使用RCFA进行知识获取列表生成
C.知识获取列表排序和过滤
1.使用直接相互关系和语义三角系进行关联
2.使用查询和签名重叠进行关联
3.使用同义词洪流进行关联
4.单词串摇篮或签名模式排序
VI.用于跨状态知识获取和重建(翻译)的单状态知识列表
VII.单状态知识重建
VIII.CFA应用的范围
A.概述
B.数据压缩
IX.用于智能应用的单状态CFA
技术领域
本发明涉及知识系统,更特别地,涉及知识系统在机器翻译、自然语言处理和人工智能系统方面的应用。
发明背景
I.简介
几十年以来,计算机科学各领域中的研究者一直在尝试开发使机器能够以可伸缩的自动方式理解人类所说写的自然语言(如,英语、汉语、阿拉伯语)的方法。虽然可以通过编程让计算机执行特定的任务,目前的技术发展水平还不能提供自动理解单词和短语在上下文中的意义的通用方法或系统。
很多应用,包括人类语言的机器翻译(或MT)、语音识别技术、搜索、检索和文本挖掘系统以及人工智能应用,都需要以自动化方式理解自然语言才能实现最佳效果。这样的应用在广泛支持下的显著优点促使大学、政府和企业投资几十年的时间和几十亿以上美元的资本来找寻使得计算机能够处理和理解书面或口头自然语言的方法。由于在这些领域中投入了巨大努力却没有取得突破,科学界中的很多人开始怀疑是否可能实现对自然语言的真实机器理解。甚至很多相信计算机有一天将能够广泛地实现人类理解的支持者也认为那一天仍然很遥远。
II.机器翻译的技术发展水平
迄今为止,很多语言翻译都是由熟练的翻译人员进行的,而这样做的成本很高。对语言翻译处理进行自动化带来显著的经济效益,包括显著降低翻译成本,以及支持新的对时间敏感的翻译应用,如即时的跨语言文本或语音通信和多语言的日常新闻出版。
将文档自动地从一种语言翻译为另一种语言的机器翻译设备和方法在现有技术中是已知的。然而,这些设备和方法通常不能准确地将句子从一种语言翻译为另一种语言,因此需要人们在输出的翻译可以用于多数应用之前对这样的设备产生很多错误进行大量编辑。当前的系统技术发展水平能够在拉丁语系语言的翻译中准确地解析60%至80%的单词,但是由这些系统翻译的在广泛领域中达到出版质量的句子所占百分比通常低于40%。现有的机器翻译系统对非拉丁语系语言翻译的准确度甚至还要低。唯一的例外是对狭小专业范围定制的专用机器翻译系统,这样的系统不进行跨应用领域的处理。再者,多数商用机器翻译系统都需要人们对每个语言配对的每个方向投入几十年的开发工作。
实现准确的机器翻译比提供对文档进行逐单词翻译的设备和方法更加复杂。由于每个单词的意义与它所处的上下文高度相关,对句子进行简单的逐单词翻译会导致选择错误的单词、单词顺序不正确和语法单元不连贯。
为了克服这些缺点,现有翻译设备的设计是尝试在句子的上下文中基于词汇、形态学、句法和语义规则的组合或集合选择单词的翻译。这些系统已发展了40多年并称为“基于规则”的机器翻译(基于规则的MT)系统,它们是有缺陷的,因为对这样的规则有太多的例外,所以它们不能提供稳定准确的翻译。主要用基于规则的方法提供机器翻译的公司中最著名的是Systran公司,它在20世纪60年代就开始了其机器翻译引擎的开发。规则集合的创建非常费力并且总是不完全的,因为即使可能,让人类开发者将语言的所有微妙之处包括在有限的规则集合中也是非常困难的。
除了基于规则的MT外,在最近二十年中已开发出新的机器翻译方法,称为“基于实例”的机器翻译(EBMT)。EBMT使用以两种不同的语言存储在跨语言数据库中的句子(也可能是句子的部分)。当源语言翻译查询匹配数据库中的句子时,数据库产生该句子在目标语言中的翻译,提供在目标语言中的准确翻译。如果源语言翻译查询的部分匹配数据库中的句子的部分,则这些设备尝试准确地确定(映射到源语言句子的)目标句子中的哪一部分是查询的翻译。“源”指一种语言或状态中要翻译为另一种语言或状态的内容,“目标”指要将源翻译成为的语言或状态的内容。
现有技术中的EBMT系统不能在广泛的领域中提供语言的准确翻译,因为可能包含无限组跨语言句子的数据库将一直是“不完全”的。并且由于EBMT系统不能可靠地翻译部分匹配,而且有时还会错误地组合正确翻译的部分,这些系统的准确度和基于规则的引擎相似。
通常独立使用或连接EBMT使用的另一种机器翻译方法是统计机器翻译(SMT)。SMT系统尝试使用已翻译文档的配对组合只包含目标语言的文档语料库进行自动化翻译处理。与基于规则的MT相比,EBMT和SMT两者都显著降低了对某一语言配对开发翻译引擎的时间。SMT系统的准确度与基于规则的MT及EBMT系统相似,因此不足以在广泛的领域中产生文档翻译。
SMT系统使用现有技术中称为“n元语法(n-gram)模型”的方法,并基于Shannon的“噪声信道模型”进行信息转换。这些方法假设翻译总是不完美的,并且从设计上来说,SMT方法就是在训练语料库基础上基于正确翻译的概率来产生翻译。这些方法在翻译每个单词时基于源语言和目标语言中的两个或最多三个其他相邻单词进行“最佳猜测”。随着跨语言和目标语言训练语料库大小的增加,这些方法所获得的边际效益递减,并在过去几年中只做出了微量的改进。例如,过去一些年中在南加州大学开发的质量最高的SMT系统之一最近公布了其SMT系统的测试结果。用特定领域的语料库(加拿大立法程序)进行训练之后,它们的系统正确地翻译了文本句子中的40%(AMTA 2002记录,2002年10月)。
某些翻译设备组合基于规则的MT、SMT和/或EBMT引擎(称为多引擎机器翻译或MEMT)。虽然这些混合方法与单独的任何系统相比可能产生较高的准确度,其结果仍然不足以在没有大量人类干预和编辑的情况下使用。
III.用于语义获取的统计自然语言处理的技术发展水平
统计自然语言处理(NLP)的领域包括对各种应用的文本进行自动化机器学习的研发。NLP的一种应用是如上所述用于机器翻译的SMT。虽然各种NLP方法尝试从自然语言中抽取意义,如有关该主题的权威教科书所阐明的那样,目前的技术发展水平离真正的解决方案仍然很远:“词汇获取的圣杯是意义的获取。如果我们能够自动地获取意义,那么统计NLP可以对很多任务(如文本理解和信息检索)取得突破性的进展。然而不幸的是,如何以某种可以使用自动化系统操作的方式表示意义还是一个未解决的大问题。”(Manning和Schutze,《统计自然语言处理基础》,第5次印刷,2002年,第312页)。
各种组织非常需要更好地管理它们在无组织文本中获取的知识,无组织文本如字处理文档、PDF文件、电子邮件消息等等。虽然可以高效地搜索和检索先前存储在数据库中的信息,现有技术中称为数据挖掘的方法,使用当前技术发展水平的系统对无组织文本(表示世界上的数据中的80%或更多)进行广泛地挖掘来搜索概念和观念还是不可能的。虽然布尔逻辑和其他关键字搜索方法使用包含在用户的查询中的单词来查找信息,可以用大量的其他方式来表示多数概念和观念,其中很多方式并不确切包含甚至并不近似包含特定关键词或其他搜索项。这意味着在进行关键词搜索时,结果中将不包含执行“基于概念”的搜索(不限于用户提供的查询单词)时标识出的很多相关文档。
例如,如果将单词串“terms and conditions”作为关键词搜索的部分在引号中提交(表明是确切的字符串),那么系统会找到对“terms and conditions”的引用,但不标识表达相同概念的其他单词和单词串(单词串是处于特定顺序的两个或多个向量的单词)或其他缩写或表示,如“conditions of use”、“restrictions”、“tos”、“terms of service”和“rules and regulations”等等,用户却可能对这些词感兴趣。系统在查找相关信息时添加搜索查询的近似语义等价的能力将以各种方式增强搜索的质量和效率。再者,不存在包含全部短语级同义词表或近似同义词表的词典。其原因是因为对手动创建每个单词的同义词列表来说,存在太多的两单词和三单词项,更不用说所有长于三个单词的项。现有的使用文本中的模式自动生成同类词汇编的方法已在自然语言的广泛语义获取领域中取得了有限的成功。当前技术发展水平的方法使用出现在文本中的单词模式进行概念抽取,这包含相似度评估方法,如使用各种度量的向量空间模型。这些方法中的某些尝试通过将单个单词标识为上下文中的点来找到同义或相关的单词。
某些方法考虑到查询距离不同的单词并关注单个单词相对于查询的邻近程度和共现。这些方法包括基于n-gram的方法(Martin、Ney:二元语法和三元语法单词聚类算法,语音通信24,19-37页,1998年;Brown等人:基于类的自然语言N-gram模型;计算语言学,18(4),467-479页,1992年;及基于窗口的方法(Brown等人))。该领域中的其他相关著作包括:Finch和Carter(1992年,使用统计方法进行Bootstrapping语法分类);Schutze和Pederson(1997年,基于共现的同类词汇编及其在信息检索领域的两种应用),以及其他很多。虽然上下文信息能提供某些结果,但是使用这些方法获得的结果的广度和准确度仍然有限,因此它们在搜索和检索、内容管理及知识管理的商业产品中的实际应用还很有限。
很多先进的搜索和文本挖掘应用使用手动指定的语言学规则、语义知识、本体论及分类学。可以使用这些方法和系统提供语义提示,以用于根据分类对数据进行元标注及其他目的。此外,某些系统包括各种监控和非监控统计学习和抽取方法,包括评估添加到搜索和/或分类分析中的相关概率的贝叶斯方法。这些系统不能有效地挖掘文本,因为这些方法不能产生稳定准确(即,相关)的搜索结果。另外,由于元标注包括预先对信息分类以便作为增强搜索的一部分使用,分类确定要求给多维概念加上静态标签(这可以随着时间推移进化或改变分类)。这些系统都不是为挖掘信息并找出和查询项意义等价的其他单词和短语而设计的。
系统识别单词或单词串在一种语言中的语义等价的替代表达的能力具有多种应用。除文本挖掘之外,生成任何表达的同义表达的能力也是任何基于语料库的机器翻译系统中非常有效的组件。另外,识别等价意义的表达的能力是对自然语言的机器理解,并且此能力可以为人工智能(AI)应用提供基础。
IV.人工智能的技术发展水平
对人类语言的机器理解最宏伟的目标是将其用在实现完全人类水平的智能系统,即,能够理性地推理并显示出人类所具有的常识的系统中。这一领域的计算称作“强AI”,其终极目标是使得计算机能够理解自然语言、和人们或其他计算机使用自然语言进行交互、学习概念、做出理解,并执行认知任务。虽然机器翻译系统的任务只是在将信息转换为另一种形式的目的所需的层次理解信息,强AI应用需要具有的能力不仅是理解新信息及它的其他形式和状态,还要以触发系统学习回答问题和执行其他认知任务的方式处理该信息,如通过前提做出结论、通过观察发现关系,及设置子目标来寻求进一步的知识收集,以备预期的将来需要。
数学家Alan Turing在1939年发明了图灵检验,这是检验机器是否实现了人类水平智能的概念设计。虽然通过图灵检验的机器不一定完全满足强AI的所有目标的期望,但即便是强AI的最乐观的支持者也认为计算机不能在未来几十年中令人信服地通过图灵检验。
现有技术中已知的AI方法在方法上各不相同。绝大多数商业AI应用比起强AI的目标来只能处理范围窄得多的任务。有时将这些应用称为“弱AI”,用它们最多能产生“白痴学者”类型的系统,这样的系统只能够完成范围狭窄的任务,如下国际象棋达到大师水平。用来产生这些系统的各种方法包括手动编码知识和规则,并包括可以学习如何一般化特定编码的知识来执行范围狭窄的任务的系统。现已开发出了训练系统进行学习的其他方法,如神经网络,但这仍然是在范围非常狭窄的领域中。在缺乏实现对自然人类语言的广泛机器理解的真正突破时,关注范围狭窄的问题使得能够对具体任务产生实用的应用。
对强AI软件的初步尝试相对较少。现有技术中的典型强AI系统通常使用设计用于特定目的特定计算机语言手动地编码知识,然后使用系统来处理这样的知识,聚合它们来尝试回答问题或执行任务。强AI系统中使用手动创建的编码知识本体的最著名例子是由计算机科学家Doug Lenat在CycCorp开发的Cyc系统。Cyc系统要求人类手动编码大量的常识及特定于某些领域的知识(并理解该知识的不同表示),它们是该系统所遵循的“规则”。Cyc中手动编码的规则或知识的例子包括“一旦人死亡,他们就停止购买”或“树通常是在户外的”。Cyc从1984年以来一直在开发,却没有产生具有广泛人类智能的系统。迄今为止,他们已编码了少于两百万条的具体规则。
强AI的关键突破将会有深远的影响。随着使用可伸缩计算机处理和存储器在人类水平的智能帮助下来解决我们所面对的事情和问题,技术进步的进化将显著提高。强AI在基础上的突破将从本质上改变我们所知的整个世界。
发明概要
I.简介
本发明提供对关联概念的知识库的获取、重建和生成进行自动化并在很多应用中使用这样的知识库的方法和装置,所述应用包括人类语言的机器翻译、基于概念搜索(非关键字)进行无组织文本(或其他数据)的搜索和检索、语音识别、数据压缩和人工智能系统。在本发明中,由于概念在无组织的信息中会重现,通过研究概念之间的关系来创建关联概念的知识库。概念的表达可以但不必在数量、长度或大小上类似,且可以用任何媒体(如,文本、可视图像、声音、红外波、气味、符号)来表达或表示它们。
本发明也提供创建和使用知识库来将概念从一种状态转换为其他状态,或者处理知识库以便将其用于实际应用的方法和装置。
在本发明的一个实施例中,以无限的衍生重建已创建的知识库,将其用于人类语言翻译应用。本发明的另一个实施例可以用于创建概念之间的关联的知识库,以便建立它们彼此的关系。当两种或多种类型的概念以特定方式一起出现时,这些概念的关联/关系可以用作人工智能应用的触发事件。
本发明的各个基本方面包括知识库获取、知识库重建、知识库生成和使用知识库来转换概念或处理知识库用于实际应用。本发明的知识库获取方面识别概念和它们在不同状态中的表示。因此,对处理书写文本的应用,本发明识别单词和单词串单元的意义,包括不同语言中相当于彼此的翻译的概念,和在同种语言中表达相同意义的概念。本发明的知识获取部分也识别以某种方式在语义上相关的非同义单词和单词串(如,反义、同类成员、通常相关的概念)。
本发明的知识重建方面将通过知识获取学习到的意义单元拼凑在一起无限衍生成为更复杂的概念。这允许将关联概念的知识库用作在广泛范围或在一种状态内处理不同状态概念的构建块。因此,关联概念的知识库可以用于将整个文档翻译为目标语言,以及在同种语言中以不同的形式表示复杂的概念,这使得如概念搜索、自然语言接口、语音识别等等这样的应用能够进行自动化的理解。
本发明的知识生成方面使用已识别出的连接的复杂概念的模式触发对先前学习的知识的使用(或学习新知识)来执行认知任务。本发明通过识别表达每个重现概念的多种方式并建立不同概念之间的关系来实现这些和其他目标。因此,在本发明的一个实施例中,以人类语言表示概念,并且系统通过记录两个或多个概念的频率和邻近程度关系及其在文本中的共现来做出关联。如上所述,概念由任意大小的单词串表示。
II.作为意义单元的单词串
不像现有技术中的SMT系统、语义相似度的向量空间度量,及其他NLP监控或非监控学习,本发明匹配和/或关联任意大小的重现单词串和其他任意大小的重现单词串的模式。这种在无组织文本中检查作为意义单元的包括终止单词(如“it”、“an”、“a”、“of”、“as”、“in”这样的单词)的确切单词串的方法应用于本发明的所有方面。通过识别和关注作为单个单元的重现单词或任意长度的单词串,本发明可以获取单词在上下文中的意义。
例如,本发明取决于上下文将“rock”视为可能表示各种意义(如,石头或一种音乐)。当你查看单词串时,进一步的意义变得明显:“rock”可以表示石头或困难时期中顽强的人,“rock band”可以表示一组演奏摇滚音乐的音乐家。类似地,连续出现的单词“between a rock”取决于它们所处的更长的单词串而具有不同的意义。如果它们存在于单词串“between a rock band’s sets”中,则其意义与它们出现在“between a rock and a hard place”中很不相同。再者,“between a rock and a hard place”这样的表达其整体具有不能通过分析其部分而容易地理解的意义。
本发明将语言中的每个重现单词作为独立的概念进行处理与现有的机器翻译和机器理解的自动语义获取方法形成强烈对比。另外,本发明将语言中的每个重现单词串作为单独概念处理也与现代语言理论形成对比,后者关注单个单词在其他单个单词构成的上下文中的语义值。在语言学理论中,术语“搭配”和“习语”指由于多单词表达具有不能通过查看成分单词容易地理解的意义而将单词串作为整体的特殊情况。实际上,成分单词已经失去了它们单独的语义值,并且仅关联于当作为整体的部分时表达的概念。
例如,“pitch black”就是搭配的例子,而“between a rock and a hard place”就是习语的例子。相比之下,本发明不只是将所有单词、搭配和习语作为意义的原子单元,而且将所有的单词串作为可能的意义的原子单元来处理。取决于它们所处的确切单词串,本发明允许单词串内的单词保持它们核心的语义值、以微妙的方式改变它们的核心语义值,或完全不同于它们的典型意义。
例如,“baseball”是一种游戏,“a baseball”是一个圆形的物体,“a baseballteam”是一支运动队伍,而“a baseball player”是一个人。在需要对自然语言进行机器理解的应用中处理意义单元时,本发明将这些包括共有单词(baseball)的不同单词串单独作为独立的概念处理。虽然本发明不使用语言学上的语法规则且不标注单词串的句子成分,本发明的方法仍然允许将单词串的上下文作为一个单元处理并保留其语义特性。
III.语言翻译和用于文本挖掘的自然语言理解的方法和系统。自然语言接口和其他应用
A.概述
本发明提供创建和补充概念的跨语言关联数据库(即,知识库)的几种方法和装置。这些数据库通常关联表示特定概念或信息的第一种形式或状态的数据和表示相同概念或信息的第二种形式或状态的数据。然后使用这些数据库,以便例如高效地使用本发明中称为双锚点重叠的知识重建方法将包含这些概念的文档从一种状态翻译为另一种状态。
一种构建跨语言单词串翻译数据库的方法使用原先由人类翻译的文档(平行文本)来识别单词串在翻译的文档中的共现。本发明的第二种构建跨语言单词串翻译数据库的方法在语言配对中通过使用来自几个其他语言单元的已知单词串翻译推导单词串翻译。本发明的另一种方法使用跨语言字典和大型目标语言语料库以及特定的搜索方法来识别单词串翻译。本发明的另一种方法称为双锚点重叠,它通过自动地根据原先学习到的关联推导新关联来扩展跨语言单词串数据库(这也称为本发明的知识重建方面)。
本发明的知识获取方面的另一种方法和系统通过检查以该语言或状态表达的概念的多次出现来创建单种语言或状态的关联概念知识库。例如,在本发明中,可以通过检查由单词和单词串表示的概念在不同的英语文档中的重现来创建英语的关联概念知识库。通过检查周围概念(由相邻的单词或单词串表示)的共现,然后识别同种语言中具有类似模式的其他单词和/或单词串,从而使得系统能够识别与初始(查询)单词或单词串语义等价(或具有其他语义关系)的单词和单词串,本发明对单种语言表达的概念(由单词或单词串)执行知识获取。单种状态或语言中的知识获取使用本发明的一个实施例中执行共有频率分析的方法。总的来说,共有频率分析是本发明中将两个或多个单词和/或单词串互相关联及与其他第三单词和单词串关联的方法。
本发明中连接相邻数据片段的知识重建方面是双锚点重叠方法,数据片段在此实施例中由单词串表示。本发明的这个方面通过只连接和在其左右的那些单词串具有重叠单词(或单词串)的单词串来装配相邻单词串。系统可以使用双锚点重叠按照系统尚未碰到的组合连接相邻的已知构建块单词串,来生成新的复杂概念或以新形式表示已知的概念。本发明的双锚点重叠方法用于连接由单词串(或其他数据片段)表示的概念,以便跨两种语言翻译文档及连接单种语言内的相邻概念。
本发明的知识生成方面允许用户基于在彼此附近出现的两个不同的单词串共享的关联的第三单词串的共现(共有频率分析)触发后面的步骤。此知识生成方面将支持强AI应用。系统使用CFA触发用户设计的逻辑链中后面的CFA来解决一般性的问题。系统分析问题或句子,将其解析为已知单词串的所有可能集合。然后系统分析单词串的不同可能组合来识别触发分析中后面步骤的已知模式(即,在一起以特定顺序表达的两个或多个单词和/或单词串)。
B.方法和系统
在机器翻译的领域中,系统使用几种方法中的任何一种来进行单词串翻译的跨语言知识获取,并使用知识重建方法组合那些翻译。这显著改进了现有翻译技术和系统的质量并代表技术发展水平的进展。
一种跨语言知识获取的方法可以通过使用两种或多种语言的文档来实现。文档可以是彼此的确切翻译,即,“平行文本”文档,或可以是两种语言的有关相同主题的文本,即,“可比较文本”文档。此获取可以直接在源语言和目标语言之间(用平行或可比较文本)进行。如用于语言翻译时,系统可以自动跨两种语言构建语义等价的概念(以单词或单词串表示)的跨语言数据库。
本发明的此方法和系统的一个实施例在可用的跨语言文档中选择第一种语言(源语言)中具有多次出现的所有单词和单词串的至少第一次和第二次出现。然后在第二种语言(目标语言)的文档中选择第一个单词范围和第二个单词范围,其中这些目标语言范围近似对应于在源语言文档中选择的单词或单词串的第一次和第二次出现的位置(从而包含源单词或单词串的翻译概率较高)。接下来,查看目标语言中的那些范围,系统比较第一个单词范围中找到的单词和单词串与在第二个单词范围(以及对应于源语言中的每个单词或单词串的其他次出现的所有其他目标单词范围)中找到的单词和单词串,定位不同的单词范围共有的单词和单词串,并将那些已定位的共有单词和单词串存储在跨概念数据库中。然后本发明在跨概念数据库中关联在目标语言的范围中定位的共有单词和单词串与源语言中选择的单词或单词串,在如图1所示的关联频率调整之后,通过它们的关联频率(重现次数)对其分级。通过识别单词和单词串在平行或可比较文本中跨语言的共现,随着更多平行或可比较文本可用,系统可以识别更多的关联。
一旦基于目标语言范围中的单词和单词串的频率做出了关联,就可以通过查找它们反过来在源语言的文档中对应的范围进一步校验那些可能的目标语言单词串翻译。然后系统可以找出源语言范围内最频繁的单词和单词串来检查初始选择的单词或单词串是否在通过此反向学习处理得到的最频繁的源语言单词和单词串之中。
通过自动地构建平行文本中频繁重现的单词串之间的翻译(而不管单词串的大小),本发明使用字符串中对每个单词所需的内嵌上下文获得翻译。这些单词串在内嵌上下文中的准确翻译提供可以按适当的不同组合用于翻译文档的构建块(使用本发明的知识重建方面)。随着系统学习得到单词串的翻译,这些翻译将存储在数据存储库中,当将来再次需要用它们翻译文档时,这样可以提供快得多的翻译。系统可以操作文档来学习重现的单词串,因为它们顺序出现在检查过的平行文本中,或可以基于已选择的输入到系统中的特定平行文档学习重现的单词串,因为它们包含源语言中需要翻译为目标语言的单词。后一种操作的形式为“通过做来学”,并且它是即时学习的例子。
本发明也提供这样的跨语言知识获取方法和装置,它们使用由本发明自动构建的数据库将不同语言聚合在一起来推导两种语言之间尚未直接通过平行文本学习到的单词串翻译。本发明的这种多语言杠杆方法使用通过将源语言翻译为已知的中间语言的单词串翻译、然后将中间语言翻译为目标语言间接生成的共有结果。
相同的通过中间的第三语言进行翻译然后再将其翻译为目标语言的跨语言知识获取多语言杠杆方法也可以在这些语言中使用任何现有技术的机器翻译系统实现。即使这些系统在单独使用时的准确度水平较低,且通过中间的第三语言在目标语言中会得到更少的公共结果,当几个结果相同时,翻译的准确度较高。再者,通过在确认之前使用双锚点重叠处理要求相邻的单词串翻译在目标语言中具有较多重叠(如,在每一方都具有两单词、三单词、或四单词串重叠),可以确认这些结果。
本发明的下一种跨语言知识获取方法在构建不同语言的单词串之间的关联时使用单语言的目标语言语料库和/或平行文本,以及下述中的任何一个或更多:现有技术的机器翻译系统、现有技术的跨语言字典,和/或定制的跨语言字典。本发明的这些方法使用称为“洪流”的技术,通过它使用现有技术中的定制字典或系统(通常对每个单词产生多个翻译可能性,即使某些或所有的翻译可能性不适用于该特定上下文)来生成源语言单词串中的每个单词的所有可用翻译(目标翻译可以是单词或短语)。使用这些单词到单词(和/或单词到短语)翻译可能性的不同组合来搜索目标语言文档(单语言语料库或平行文本)来识别源语言单词串的候选翻译。此处理称为“洪流”,因为这些单词到单词(和/和单词到短语)组合在目标语言文档中象“洪流”一样。和使用平行文本进行跨语言学习相比,单词串翻译的洪流方法需要更多的计算,但是因为它不需要平行文本就可以构建单词串翻译,它对语言翻译提供更广的覆盖面。
除知识库获取之外,本发明的双锚点重叠技术使用知识库中的条目重建较大的概念(如,将较小的单元成为拼凑在一起连贯的较大单元)。因此,本发明也提供了使用以跨两种语言的不同单词串表达的构建块概念将整个文档从一种语言或状态转换为另一种语言或状态的方法和装置。本发明拥有或构建包含与目标语言数据片段关联的源语言数据片段的数据库。本发明使用跨语言单词串翻译数据库,并且仅在源语言和目标语言双方当中确定具有重叠单词或单词串的单词串的翻译(除非它是翻译后的片段中的第一个或最后一个单词串)来翻译文本。
在较佳实施例中,本发明通过访问上述数据库,并从文档的第一个单词开始识别数据库中最长(由单词数衡量)同时也在要翻译的文档中的单词串来翻译文本。然后系统从数据库中检索与已定位的源语言单词串关联的目标语言单词串。然后系统(从要翻译的文档中)选择存在于数据库中并与先前在文档中识别的单词串具有重叠单词或单词串的第二个单词串,并从数据库中检索与第二个源语言单词串关联的目标语言单词串。如果目标语言单词串关联具有重叠单词或单词串,则组合目标语言单词串关联(排除重叠中的冗余)来构成翻译。如果否,则从数据库中检索(或即时学习)其他目标语言与源语言单词串的关联,并通过单词的重叠来检验组合,直到成功为止。显然,如果不能识别或学习目标语言的重叠单词串翻译,则可以使用其他(更短或更长的)源语言的替换重叠单词串,并检验它们对应的目标语言关联是否重叠,直到成功为止。通过在数据库中查找具有和先前识别的源语言单词串重叠的单词或单词串的最长单词串,选择源语言文档中的下一个单词串,并继续上述处理,直到将整个源语言文档翻译为目标语言文档。只将与源语言和目标语言中的左边和右边相邻单词串具有一个或多个重叠单词的单词串作为概念翻译组合的集合进行确认。重叠单词串翻译链的起点和终点可以由句子的起点和终点,或任何其他可识别的文本单元(如,短语、标题、段落、文章、章节等等)来定义。
上述跨语言双锚点重叠方法和处理增加了使每个单词串翻译与上下文及语法上合适的相邻单词串组合的可能性。确认相邻片段之间的连接所需的重叠单词数量是用户定义的。用户定义的确认单词串组合所需的相邻片段之间的重叠单词最小数量越高,结果越准确。跨语言双锚点重叠技术可以解决现有的EBMT系统碰到的“边界冲突”问题并增加了在整个翻译中使用正确上下文的可能性。
另外,基于跨语言学习(或其他知识获取方法)成为候选但不能由用户定义的统计显著性确认的单词串翻译,可以根据用户定义的需求要求两个相邻单词串之间具有更多重叠单词来确认。也可以使用具有已知翻译的较小子集的单词串(即,内部单词串)检查较长的未确认候选单词串翻译中的跨语言重叠来确认较长单词串中间的未重叠部分。注意,翻译方法并不限于等长的单词串或在源语言和目标语言句子中位于相同位置的单词串,因此它是非常灵活的。
本发明还提供称为频率关联数据库创建的通用方法和装置来创建单种语言的单词和/或单词串之间的邻近程度关系频率表。然后使用这些邻近程度关系基于单种语言内的共有关联并通过本发明的共有频率分析来做出单词或单词串与其他单词和/或单词串之间的关联。本发明在单种语言内的知识获取方法使用包围每个重现概念(由单词或单词串表示)的上下文(由单词和单词串表示)。可以识别语义关系并用其显著改进搜索和文本挖掘应用、机器翻译和人工智能应用。
本发明允许在单种状态,如单种语言内使用本发明的共有频率分析方法进行知识库的获取。在一个使用共有频率分析的实施例中,系统识别表示同义概念以及概念之间其他类型的关系的单词和单词串。
例如,通过检查英语文本,可以对标识语义等价(即,同义)单词和单词串的单词或单词串做出关联(如,“nation’s largest”和“biggest in the country”)。本发明也提供分析单词或单词串以查找单词和单词串关联并产生表示相反概念的单词和单词串(当它们存在时),表示定义、例子和其他相关概念的单词和单词串,相关概念包括共同总类概念的成员(如,“red”相对于“blue”和“lime green”都是作为颜色类的成员),及其他相关信息(如,查询“MountEverest”可能返回“highest point in the world”)的方法和装置。
本发明通过识别与当前分析的单词或单词串相邻的任意大小的单词串,并识别这些相邻单词串是否在当前分析的单词或单词串左边或右边,来识别单词和/或单词串之间的这些关系。共享很多相同的左边和右边相邻单词串的单词和单词串彼此之间具有强语义关系。通常,共享最大数量的不同的右边和左边上下文单词串并包括更长(更多单词)的右边和左边上下文单词串的单词和单词串,是语义上最接近或语义最相关的。
单语言数据库中获取和装配的知识(包括即时生成的知识)可以用来扩展现有技术中的关键词搜索和文本挖掘方法。例如,可以通过搜索关键词的语义等价及其他与输入的关键词密切相关的单词和单词串来增强这些方法。本发明中通过识别共有的左边和右边的上下文单词串来识别语义等价的项的方面也可以用来破译语义代码。如果将(该上下文中)不适合或罕见的单词或单词串用作表示其共有的一个或多个意义之外的意义的代码,它在罕见上下文中的重复使用使得本发明能够识别该语义代码底层的真实的语义。
附录A(179页)(译者注:原文中的页码)提供对各种查询使用RCFA的关联结果例子。前15个例子展示查询的部分结果(即,每个查询最靠前的20-25条返回),虽然最终的例子(对查询“it is important to note”)显示出总共有1000条返回。这些结果反映出比任何现有技术强壮得多的自动化语义获取方法。这些结果的关键是将流入(即,英文中在查询的左边)和流出(即,英文中在查询的右边)查询概念的单词串视为上下文的单个单元,并使用两边的单词串上下文来找出由共享某些相同的左边和右边的单词串上下文的单词和单词串表示的其他语义单元。
使用本发明的双锚点重叠技术,由同种语言的不同单词串表示的相同概念也可以在重叠概念的链中进行互相替换,以产生由重叠的语义等价概念组成的多个句子,这些重叠的语义等价概念组合起来表示相同的较大概念。通过与本发明的双锚点重叠技术(如上对跨语言翻译所述)一起提供同种语言的语义等价概念数据库,本发明可以在很多不同的派生中重现相同的较大概念。双锚点重叠,即本发明的知识重建部分,对语音识别和其他自然语言识别应用非常有用,并提供以不同的单词串组合表达的相同概念的扩展搜索组合。此能力也能对文本挖掘任务(如实体关系相互引用和追踪)以及其他任务提供非常有效的方法。
本发明中生成语义等价的单种语言知识获取方法的方面也可以作为机器翻译应用中的组件使用。对由于缺乏信息或任何其他原因而不能翻译的源语言单词串,可以在其位置生成要翻译的替代源语言单词串。另外,源语言单词串的语义等价和/或目标语言单词串候选翻译的语义等价都有助于确认正确的翻译。
本发明也提供共有频率分析方法和装置,这样的方法和装置在智能应用中通过基于它们在文本中彼此的邻近程度,识别两个或多个单词或单词串共同具有的对第三单词和/或单词串的关联,以任何数量的方式使用重现单词和/或单词串之间的关系来回答问题。为智能应用创建的数据库可以通过单种语言的文档(或替代地使用跨语言文本)来构建。相邻或重叠(或具有某些其他密切的邻近程度关系)的两个或多个单词和/或单词串在问题、请求或句子中的出现可以触发本发明中由用户设计或由系统学习得到的不同类型的共有频率分析。
经触发的共有频率分析将识别未出现在问题、请求或句子中并在其他可用文本中与在问题、请求或句子中提供给系统的两个或多个单词和/或单词串共享邻近程度关系的单词和单词串。这些提供的单词和/或单词串共有的第三单词或单词串关联可以用于识别共有频率分析链中的下一个步骤,以理解问题或命令,并提供答案或执行任务。
本发明提供强AI的方法,这样的方法通过表示为上下文中的单词或单词串的任何概念的语言关联级别和分类来提供动态地自动创建知识库的基础。只要有足够的训练文本,此能力就能对可以由智能应用触发器充分利用的所有情况提供知识库。
在某种意义上,通过构建下一步的“触发器”由系统在基于它们所属的语义类识别单词和/或单词串的特定已知模式(由本发明对语义等价和等价类的共有频率分析识别)时使用,用户训练本发明如何思考由概念的通用模式表示的一类情况。通过单词和/单词串(和/或已知的语义等价)特定的识别模式及识别满足更大的一般化模式的一组概念的出现来识别概念的通用类,系统可以在识别了那些通用模式时触发策略(一旦由用户训练成这样)、执行下面的逻辑步骤(知识库查找或下一步的共有频率分析)。一旦用户创建了足够多的“通用策略触发器”,系统就能够学习自动地对很多其他情况识别适当的触发器。这些由用户设置的初始触发器可以包括设计用于教系统如何对不同目的自动设置触发器的触发器。
本发明的另一个目标是将人类语音和其他源产生的声波频率与对它们在每种不同的语言中对应的概念关联,以便在依赖对可听声音的解释的语音识别和其他应用中。
本发明的另一个目标是将象素矩阵和其他可视数据表示方法的一般化模式与不同语言表示的对应概念关联,以便在信息收集和人工智能应用的视觉识别中使用。
本发明的另一个方面是使用单个符号或记号,如编号或电磁波频率中的点来表示语义等价的概念,这可以用作数据压缩方法。
IV.现有技术
现有技术的系统不能实现本发明所描述的内容。例如:
Hargrave的美国专利5,724,593揭示了协助人类翻译者的翻译存储器工具,其中将文本和对应的翻译加载到存储器中。将源语言的文本解析为n-gram。分析源语言n-gram来确定源语言文本内的出现频率并赋予熵权重。去除那些具有特别高或特别低熵权重的N-gram,因为它们不足以用于翻译目的。通过查找输入翻译存在于翻译存储器中的“模糊匹配”,以相反的索引使用余下的n-gram及对应的翻译进行机器辅助翻译,供人类翻译者检查。
当源语言文档中任意大小的重现单词串基于它们在平行文本内相同的彼此接近的位置的出现频率(在从子串中减去较大的单词串之后)与目标语言文档中任意大小的重现单词和单词串关联时,Hargrave并不使用平行文本执行单词串关联分析。Hargrave并不间接地通过其他的第三语言来使用单词和单词串的翻译。
Hargrave并不使构成源语言单词串及源语言上下文单词和单词串的源语言单词翻译“充斥”目标语言文本。Hargrave并不在单种语言的单词和单词串之间使用查询左边和右边的任意大小的单词串执行单词和单词串关联分析。Hargrave并不要求把要翻译的文档输入解析为源语言中的重叠单词串,也不要求把源语言的目标语言翻译解析为也与其左边和/或右边的相邻翻译具有重叠单词或单词串的单词串来确认翻译。
Cherny的美国专利6,085,162揭示了用于在语言之间进行翻译的三维主题数据库,其中数据库的每一层都表示与翻译相关的用户可选择的主题。通过将表示至少两种不同语言源的文本解析为单词来构建数据库。在处理序列的独立分支中,部分地基于如它们的语法功能、语法形式和直接意义这样的信息,将来自两个源的经解析的单词赋予不同的类。然后使用双语词典翻译每个分支中的输入单词来产生每个单词的一个或多个翻译或关联。一起处理来自每个分支的单词关联,以便使用例如神经网络产生关联的向前和向后频率。用于翻译的数据库由层构成,每一层都表示一个主题,且每一层都包含关联频率及对该主题内的所有单词分配的类。
当源语言文档中任意大小的重现单词串基于它们在平行文本内相同的彼此接近的位置的出现频率(在从子串中减去较大的单词串之后)与目标语言文档中任意大小的重现单词和单词串关联时,Cherny并不使用平行文本执行单词串关联分析。Cherny并不间接地通过其他的第三语言来使用单词和单词串的翻译。Cherny并不使构成源语言单词串及源语言上下文单词和单词串的源语言单词翻译“充斥”目标语言文本。Cherny并不在单种语言的单词和单词串之间使用查询左边和右边的任意大小的单词串执行单词和单词串关联分析。Cherny并不要求把要翻译的文档输入解析为源语言中的重叠单词串,也不要求把源语言的目标语言翻译解析为也与其左边和/或右边的相邻翻译具有重叠单词或单词串的单词串来确认翻译。
O’Donoghue的美国专利5,867,811揭示了如何通过修改对齐的语料库而移除最不可能的语料库对齐,使用单词配对频率来提高由现有技术中的其他方法生成的语料库的质量。对齐的语料库是两个或多个划分为对齐部分的文本实体,其中第一种语言的语料库的每个部分都映射到第二种语言语料库的对应部分。每个部分都可以包括单个句子或短语,但是也可以包括一个单词或整个段落。现有技术中产生对齐的语料库的自动化的系统并不总是可靠的。该发明使用包含对应的单个单词跨两种语言出现配对的频率表的统计数据库来检测对齐文本部分中可能的错误。该发明还使用统计方法通过累积每个块的配对中所有单词配对的单个单词配对分数提供“成块的单词”的对齐分数。
当源语言文档中任意大小的重现单词串基于它们在平行文本内相同的彼此接近的位置的出现频率(在从子串中减去较大的单词串之后)与目标语言文档中任意大小的重现单词和单词串关联时,O’Donoghue并不使用平行文本执行单词串关联分析。O’Donoghue并不间接地通过其他的第三语言来使用单词和单词串的翻译。O’Donoghue并不使构成源语言单词串及源语言上下文单词和单词串的源语言单词翻译“充斥”目标语言文本。O’Donoghue并不在单种语言的单词和单词串之间使用查询左边和右边的任意大小的单词串执行单词和单词串关联分析。O’Donoghue并不要求把要翻译的文档输入解析为源语言中的重叠单词串,也不要求把源语言的目标语言翻译解析为也与其左边和/或右边的相邻翻译具有重叠单词或单词串的单词串来确认翻译。
Hirakawa的美国专利5,579,224揭示了用于创建字典的系统。将第一种语言的文档和第二种语言的文档加载到存储器中。从第一种语言的文档中抽取单词或字符串,并基于对第二种语言的文档中的单词进行的形态和语法分析,从第二种语言的文档中选择对应的单词。通过比较第一个文档中抽取出的单词附近的单词和第二种语言的文档中选择的候选单词附近的单词,比较第二种语言的文档中选择的候选单词和从第一种语言的文档中抽取的单词。基于上下文和邻近程度对候选单词打分。
当源语言文档中任意大小的重现单词串基于它们在平行文本内相同的彼此接近的位置的出现频率(在从子串中减去较大的单词串之后)与目标语言文档中任意大小的重现单词和单词串关联时,Hirakawa并不使用平行文本执行单词串关联分析。Hirakawa并不间接地通过其他的第三语言来使用单词和单词串的翻译。Hirakawa并不使构成源语言单词串及源语言上下文单词和单词串的源语言单词翻译“充斥”目标语言文本。Hirakawa并不在单种语言的单词和单词串之间使用查询左边和右边的任意大小的单词串执行单词和单词串关联分析。Hirakawa并不要求把要翻译的文档输入解析为源语言中的重叠单词串,也不要求把源语言的目标语言翻译解析为也与其左边和/或右边的相邻翻译具有重叠单词或单词串的单词串来确认翻译。
Papineni的美国专利5,991,710揭示了通过对目标语言中的目标候选单词集合进行统计打分并识别具有最高分数的候选目标单词集合将源语言翻译为目标语言的系统。该系统使用统计模型在目标语言候选中选择最可能的翻译,并为这样的应用而设计,其中将领域本质上限制于有限数量的符合输入查询的可能翻译。
当源语言文档中任意大小的重现单词串基于它们在平行文本内相同的彼此接近的位置的出现频率(在从子串中减去较大的单词串之后)与目标语言文档中任意大小的重现单词和单词串关联时,Papineni并不使用平行文本执行单词串关联分析。Papineni并不间接地通过其他的第三语言来使用单词和单词串的翻译。Papineni并不使构成源语言单词串及源语言上下文单词和单词串的源语言单词翻译“充斥”目标语言文本。Papineni并不在单种语言的单词和单词串之间使用查询左边和右边的任意大小的单词串执行单词和单词串关联分析。Papineni并不要求把要翻译的文档输入解析为源语言中的重叠单词串,也不要求把源语言的目标语言翻译解析为也与其左边和/或右边的相邻翻译具有重叠单词或单词串的单词串来确认翻译。
McCarley的美国专利6,092,034揭示了使用繁殖模型和词义模型并使用源语言的单个单词进行快速词义消歧和翻译的统计翻译系统和方法。繁殖模型是描述源语言单词繁殖概率的语言模型,假设源语言单词和源语言单词的上下文使用现有技术中的方法,如极大熵三元语法模型。词义模型是描述目标语言单词是源语言单词的正确翻译的概率的语言模型,假设源语言单词和源语言单词的上下文使用三元语法模型和其他现有技术中的方法。
当源语言文档中任意大小的重现单词串基于它们在平行文本内相同的彼此接近的位置的出现频率(在从子串中减去较大的单词串之后)与目标语言文档中任意大小的重现单词和单词串关联时,McCarley并不使用平行文本执行单词串关联分析。McCarley并不间接地通过其他的第三语言来使用单词和单词串的翻译。McCarley并不使构成源语言单词串及源语言上下文单词和单词串的源语言单词翻译“充斥”目标语言文本。McCarley并不在单种语言的单词和单词串之间使用查询左边和右边的任意大小的单词串执行单词和单词串关联分析。McCarley并不要求把要翻译的文档输入解析为源语言中的重叠单词串,也不要求把源语言的目标语言翻译解析为也与其左边和/或右边的相邻翻译具有重叠单词或单词串的单词串来确认翻译。
Chanod的美国专利6,393,389揭示了通过将源文本解析为子片段来翻译文本的方法。然后使用现有技术的多种方法中的任何一种将子片段翻译为目标语言。任何具有多个翻译选择的子片段,或由于使用多种方法进行翻译或由于翻译它的方法提供多个选择,都通过用户定义的方法对那些选择进行分级。然后,通过向用户呈现连续地组合每个片段的分级最高的候选所创建的单词串,尝试传达源输入在目标语言中的意义。在另外的实施例中,用户可以换出分级较低的片段或可以显示一个片段的多个选择。
当源语言文档中任意大小的重现单词串基于它们在平行文本内相同的彼此接近的位置的出现频率(在从子串中减去较大的单词串之后)与目标语言文档中任意大小的重现单词和单词串关联时,Chanod并不使用平行文本执行单词串关联分析。Chanod并不间接地通过其他的第三语言来使用单词和单词串的翻译。Chanod并不使构成源语言单词串及源语言上下文单词和单词串的源语言单词翻译“充斥”目标语言文本。Chanod并不在单种语言的单词和单词串之间使用查询左边和右边的任意大小的单词串执行单词和单词串关联分析。Chanod并不要求把要翻译的文档输入解析为源语言中的重叠单词串,也不要求把源语言的目标语言翻译解析为也与其左边和/或右边的相邻翻译具有重叠单词或单词串的单词串来确认翻译。
Richardson的美国专利6,138,085揭示了对未出现在词汇知识库中的语言关系来说确定是否应该对此语义关系进行推断而不管它未出现在词汇知识库中的系统。Richardson只尝试定义单个单词之间的关系。通过查找单词之间的一条或多条路径,两个所提供的单词之间的关系被限定为数量有限的手工定义类别(如,同义词、位置、用户,等等)中的一种。路径包括在数据库中已通过手动标注出或推导出的关系连接的其他单词。
当源语言文档中任意大小的重现单词串基于它们在平行文本内相同的彼此接近的位置的出现频率(在从子串中减去较大的单词串之后)与目标语言文档中任意大小的重现单词和单词串关联时,Richardson并不使用平行文本执行单词串关联分析。Richardson并不间接地通过其他的第三语言来使用单词和单词串的翻译。Richardson并不使构成源语言单词串及源语言上下文单词和单词串的源语言单词翻译“充斥”目标语言文本。Richardson并不在单种语言的单词和单词串之间使用查询左边和右边的任意大小的单词串执行单词和单词串关联分析。Richardson并不要求把要翻译的文档输入解析为源语言中的重叠单词串,也不要求把源语言的目标语言翻译解析为也与其左边和/或右边的相邻翻译具有重叠单词或单词串的单词串来确认翻译。
附图说明
图1展示本发明的频率关联数据库的实施例;
图2展示实现本发明的方法的计算机系统的实施例;
图3展示本发明的计算机系统的存储器设备,实现本发明的方法的程序包含在其中。
详细说明
I.简介
如上所述,本发明的一个方面是提供创建和补充知识库(知识获取)和使用该知识库将内容从第一种状态转换为第二种状态(知识重建)的几种不同的方法和装置。“文档”如在此所述是指由固定在媒体中的符号和字符表示的信息和概念的集合。例如,文档可以是存储在磁或光媒体上的电子文档,或纸质文档,如书籍。包含在文档中的符号和字符表示使用一种或多种表达系统表达以便由文档的用户理解的概念和信息。本发明处理第一种状态(即,包含以一种表达系统表达的信息)的文档来产生第二种状态(即,包含使用第二种表达系统表达的本质上相同的信息)的文档。因此,本发明可以在表达系统之间以它们各自的编码处理或翻译文档(例如,将书面和口头语言,如英语、希伯莱语和广东话,翻译为其他语言)。在另一方面,本发明可以识别一个概念或一组概念在单种状态或语言内不同的替换表示,并当不同的概念组在一起呈现时,自动地检索过去或即时学习到的相关关联(知识生成)。
对本发明的所有方面,单词串如上所述定义为一组(两个或多个)处于确切顺序的相邻单词;单词,如本说明书所述,可以独立于单词串或作为它的一部分出现,并可以包括可以在字典中查到的常规单词、可以在字典中查到的常规字符(如,中文字符),或在某种语言或文化中具有可识别语义值的任何其他字符或符号,这些字符或符号包括缩写(如,“inc.”或“dept.”)、符号(如“
Figure C0382572900301
”或“MSFT”)、首字母缩写(如“ASAP”或“NCAA”)等等,且取决于用户定义的参数,可以包括或不包括在语言表达中使用的标点符号和任意其他标记。当本发明更广泛地应用于文本之外的其他媒体输入形式(如,可视图像)时,单词指以另外的媒体表示的独立概念的最小单位,单词串指以该媒体表示的意义单元串并作为完整的意义单元使用。
实现本发明的知识库创建和内容转换或内容处理方法的系统或装置可以是图2中所示的计算机系统200。计算机系统200包括通过总线214连接到存储器208的处理器202、输入设备210,及输出设备212。计算机系统200也可以包括存储设备204和网络接口206。处理器202访问存储在存储器208中的数据和程序。通过执行存储器208中的程序,处理器可以控制计算机系统200,并可以执行各种步骤来处理数据并控制包括例如输入设备210、输出设备212、存储设备204、网络接口206,及存储器208这样的设备。存储在存储器208中的程序可以包括执行本发明的方法,如内容转换、关联单词和单词串,及数据库创建和补充方法的步骤。
存储设备204记录并存储后面由存储器208或处理器202检索的信息,并可以包括现有技术中已知的存储设备,例如,非易失存储器设备、磁盘驱动器、磁带驱动器及光学存储设备。存储设备204可以存储程序和数据,包括可以传输到存储器208由处理器202使用的数据库。可以将完整的数据库或数据库的部分传输到存储器208以由处理器202访问和处理。网络接口206提供计算机系统200和网络216如因特网之间的接口,并将来自计算机系统200的信号转换为可以通过网络216传输的格式,反之亦然。输入设备210可以包括例如用于将数据输入到存储器208和存储设备204中的键盘和扫描仪。输入数据可以包括要存储在文档数据库中用于分析和内容转换的文档的文本。输出设备212包括向计算机系统用户呈现信息的设备,并可以包括例如显示器屏幕和打印机。
下面是本发明的详细说明,包括各种数据库创建方法和装置(知识获取),及转换方法和装置(即,知识重建)。
第II节描述创建跨状态数据库的不同方法。第III节描述使用数据库在状态之间转换文档(如,翻译)的知识重建方法和装置。第IV节描述称为频率关联数据库(FAD)创建和共有频率分析(CFA)的方法和系统,它们为创建单种状态内的相关概念知识库提供基础。第V节描述使用第IV节的CFA的一种实施例识别单词和单词串与其他单词和单词串之间的语义关联和关系(知识获取列表)的方法。第VI节描述组合本发明的其他方法使用单状态知识获取来帮助进行语言翻译的几种方法和系统。第VII节描述如何以链条的方式重建语义等价概念的单词和单词串(作为使用第V节描述的方法构建的知识库的部分识别)在单种状态或语义内产生相同复杂概念的替换形式。第VIII节描述使用本发明的方法和系统的其他应用的方法。第IX节将第IV和第V节中描述方法和系统用于智能应用。
II.跨状态知识库获取方法和装置
本发明提供几种主要的用于跨状态知识获取的方法,在一种实施例中由两种语言之间的单词和单词串翻译表示。在本发明的第一个方面,通过分析文档并识别以不同的状态或语义表达类似的概念来获取知识库。本发明中获取知识库的一种方法是检查并比较表达相同概念(等价或尽可能接近等价)的不同文档。使用此方法构建两种状态之间的关联包括检查以两种状态或语言表示的文本或其他材料中的相同概念。
本发明的第二种方法,称为多语言杠杆,通过使用已使用本发明的方法或现有的翻译系统构建出的已知翻译,也构建以两种状态表示的概念的关联。此方法称为多状态关联,或多语言杠杆。
本发明的第三种方法,称为目标语言洪流,使用目标语言的单语言语料库和/或平行文本以及下述方法中的任何一种或多种,来构建不同语言的单词串之间的关联:现有技术中的机器翻译系统、现有技术中的跨语言字典,和/或定制的跨语言字典。系统生成源语言单词串中单个单词的替换候选翻译(源单词的目标翻译可以是单词或短语)并搜索目标语言文档,查找包含彼此接近的不同的单个单词翻译的不同组合的单词串。
A.使用平行文本进行获取
本发明的一种创建两种语言或状态之间的跨概念知识库的方法包括检查和操作先前翻译的或相关的两种语言的文档。使用本发明的方法和装置,使得创建出的数据库包含跨两种状态的关联—准确的转换,或更具体地,以一种状态表达的概念和以另一种状态表达的概念之间的关联。对第一种语言中每个重现的单词或单词串,分析第二种语言的文档中对应的范围,查找跨第二种语言的范围重现的单词和单词串(在如图1所示的减法调整之后)。随着通过本发明检查和操作更多文档,两种状态之间的翻译和其他相关的关联变得更强,即更频繁,这使得通过对足够大的“样本”文档进行操作,最普遍的关联变得明显且可以使用该方法和装置将新的第一种语言的单词串转换为第二种语言的单词串。
本发明的另一种实施例使用计算设备,如现有技术中提供的个人计算机系统之类。虽然该计算设备通常是普通的个人计算机(独立的或处在联网环境中),但是类似地可以使用其他计算设备,如PDA、无线设备、服务器、大型机等等。然而,本发明的方法和装置并不一定要使用这样的计算设备,且可以直接通过其他方式实现,包括手工创建交叉关联。检查连续的文档来扩大文档“样本”并创建交叉关联知识的方法可以不同—可以手动地、通过自动反馈(如现有技术中的自动加纸机)、通过使用搜索技术,如因特网上的Web爬行器来自动查找相关文档、其他Web搜索工具,或通过以数字形式表示文本的任何其他方法,设置文档用于分析和处理。
注意,本发明可以通过检查除平行文本之外(或替代它)的可比较文本来产生关联数据库。再者,该方法在一种语言内搜索重现单词或单词串时集体查看所有可用文档。
根据本发明的这个实施例,为构建知识库而检查跨语言文档,知识库为两种或多种语言之间的单词串翻译的跨语言频率关联数据库。这些单词串充当用于解答更长的翻译查询的构建块。为了说明目的,假设下面的文档包含两种不同的语言中的相同内容(或具有通用的意义、概念)。文档A的语言为语言A。文档B的语言为语言B。
本发明的第一个步骤是计算确定任何给定单词或单词串的可能关联的近似位置时使用的单词范围。由于单独使用跨语言单词对单词分析不能产生有效的结果(即,文档A中的单词1在文档B中通常不是作为单词1的直译而存在),且一种语言的句子结构和另一种语言的句子相比,等价的概念可能处在不同位置(或处于不同顺序),本发明的数据库创建方法关联第一种语言的每个单词或单词串与出现在第二种语言的文档中所选范围内的所有单词和单词串。这也是很重要的,因为一种语言通常用比另一种语言更长或更短的单词串来表达概念。通过检查两个文档来确定此范围,并将其用于比较第二个文档中的单词和单词串与第一个文档中的每个单词或单词串。即,检查第二个文档中的范围内的单词和单词串,查找它们可能与第一个文档中的每个重现的单词和单词串所具有的关联。通过用此范围进行检验,数据库创建方法得到一些第二种语言的单词和单词串,它们可能等价于第一种语言的单词和单词串并成为其翻译。
存在两个属性,必须按顺序确定它们来确定第二种语言的文档中这样的范围,在其中查找与第一种语言的文档中的任何给定单词或单词串的关联。第一个属性是范围的大小(在第二个文档中使用),这通过范围中的单词数量来衡量(如,50个单词)。第二个属性是范围在第二个文档中的位置,这通过范围中点的位置来衡量。两个属性都是用户定义的,在下面给出较佳实施例的例子。在确定范围的大小和位置时,目标是确保第一种语言中当前分析的片段的第二种语言中的单词或单词串翻译包括在范围内的概率较高。
可以使用各种方法来确定范围的大小或值,包括普通的统计方法,如基于文档中的单词数量导出钟型曲线。使用如钟型曲线这样的统计方法,文档开头和末尾处的范围会比文档中间的范围小。范围的钟型频率提供外推翻译的合理的机会,无论它是根据文档中的单词绝对数量导出,还是根据文档中的单词的特定百分比导出。也存在计算范围的其他方法,如“步长”方法,其中范围对第一个百分比的单词存在于一个水平,对中等百分比的单词存在于第二个更高水平,及剩下百分比的单词存在于等于第一个水平的第三个水平。再次,所有的范围属性都可以是用户定义的,或根据捕捉第一种语言中当前分析的单词或单词串的有用关联的目标的其他可能参数来确定。
用户可以定义范围,或系统可以通过开始于较窄定义的范围(如,十个单词)并迭代地扩展范围,直到达到阈值或找到目标语言中的所需信息,动态地检验并调整以便确定最终范围。
范围在第二种语言的文档中的位置取决于两个文档单词数量之间的比较。可以用于确定范围位置的文档的标准是用户定义的,其例子包括段落、对齐的句子、新文章、图书的章节,及由多个数据片段构成的任何其他离散地可识别的内容单元。如果两个文档的单词计数近似相等,则第二种语言中的范围的位置(即,范围中点)也近似地和在第一种语言中当前分析的单词或单词串的位置一致。如果两个文档中的单词数量不相等,则使用一个比率来正确地定位范围的位置。例如,如果文档A有50个单词而文档B有100个单词,则两个文档之间的比率为1∶2。文档A的中点是单词位置25。如果正在分析文档A中的单词25,那么使用单词位置25作为文档B中的范围中点位置是不够有效的,因为此位置(单词位置25)不是文档B的中点。相反,分析文档A中的单词25时文档B中的范围中点通过以下方式确定(1)两个文档之间的单词比率(使得文档B中的范围中点为单词50),(2)手动定位文档B的中点,或(3)通过很多其他方法。
用户定义的范围大小可以很大,以便确保以高可能性在第二种语言的文档中定位第一种语言的单词或单词串的翻译。例如,可能需要将范围定义为包括范围中点左边25个单词和范围中点右边25个单词(总共51个单词的范围)。此例子中的51个单词的范围可以是从单词25至75的范围。对51个单词的范围内的单词和单词串的所有组合进行解析和分析需要很多计算。
确定此范围的更有效的方法是按上述确定51个单词的范围,然后搜索该范围,查找紧接源(第一个)文档中当前分析的单词或单词串之前的单词和单词串的特定已知翻译,以及紧接源文档中当前分析的单词或单词串之后的单词和单词串的已知翻译。在当前分析的第一种语言的单词或单词串之前和之后的范围内识别用户定义的数量的单词和单词串翻译将缩小范围的开头和末尾,以便对第二种语言的范围内的重现单词和单词串执行跨语言关联算法。通过使用紧接当前分析的单词或单词串之前和之后的单词和单词串的已知翻译来“划分出”较小的范围,最终的范围大小缩小,并因此是必须对其计算统计量的解析的单词和单词串的数量。
例如,假设系统当前正在分析英语单词串“the most popular”以便使用英语和语言X之间的平行文本来学习与语言X的单词和单词串的关联。进一步假设英语文档中的一个句子是“The car is the most popular mode of transportation inAmerica”。而不是基于单词比率分析对应的第二种语言的文档的范围中点左右25个单词内的所有单词串,一个实施例包括在语言X的初始的51个单词的范围内检查英语文档中的“the most popular”之前的英语单词串的已知翻译,如“The car”在语言X中的单词串翻译。在此处理中,本发明也可以定位在英语文档中当前分析的单词串之后的单词串,如“in America”并在初始范围中定位它在语言X中的已知翻译。通过识别英语中的单词串在语言X中的这些已知翻译,用于解析所有重现单词和单词串的范围将包括更少的可能组合,而同时还能捕捉到翻译。同样,如果当前分析的源语言单词串包含系统已知的唯一(用户定义的)单词或记号,可以这样有效地设置范围中点,将其放置在目标语言文本文档中近似相同位置处的记号单词的翻译的位置。
通过查看文档中的单词或单词串的位置并如上述记录落在平行语言文档范围内的所有单词和单词串,本发明的跨语言频率关联数据库创建方法返回一组第二种语言的文档中的单词和/或单词串,它们可以翻译第一种语言的文档中当前分析的每个单词或单词串。当使用本发明的数据库创建方法时,能够作为可能翻译的单词和/或单词串集合将随着关联频率的发展而缩小。因此,在检查文档配对之后,本发明将创建一种语言的单词和/或单词串与第二种语言的单词和/或单词串的关联频率。在根据本发明检查了一些文档配对之后,跨语言关联数据库创建方法将对某些单词和/或单词串返回越来越高的关联频率。在处理足够大的样本后,最高关联频率将带来可能的翻译,当然,何时将关联频率视为准确翻译的最终临界点是由用户定义的,并且可以使用其他解释性翻译方法(如2001年3月16日提交、标题为“内容处理的方法和装置”的专利预申请60/276,107中描述的那些,将其包括在此作为参考)。
如上所示,本发明不仅检验单词,而且还检验单词串。如上所述,取决于用户定义的参数,单词串可以包括所有标点符号和其他标记。如果存在足够的跨语言文本将标点符号作为单词串的部分包括,则通常是希望这样做的。在分析了第一种语言的单个单词之后,本发明的数据库创建方法分析两单词串,然后分析三单词串,以递增的方式类推下去。此方法使得将一种语言的单词或单词串翻译为另一种语言中更短或更长的单词串(或单词)成为可能,这样的情况是经常出现的。如果单词或单词串在第一种语言的所有可用文档中只出现一次,则处理立即开始分析下一个单词或单词串,其中分析循环再次开始。当已在所有可用的平行和可比较文本中分析了第一种语言中多次出现的所有单词和单词串时,分析停止。
在确定范围之后,应聚合所有的文档并将它们视为一个文档,用于查找重现单词和单词串。对未重复的单词或单词串来说,它必须在所有可用的平行和可比较文本中只出现过一次。此外,作为另一个实施例,可以检查对应于每个单词和单词串的范围,而不管它在所有可用的可比较和平行文本中的出现是否超过一次。
作为另一个实施例,可以通过即时解析作为查询的部分输入的具体单词和单词串来构建数据库,而不是预先构建数据库。当输入需要翻译的单词和单词串时,通过使用Web爬行器、Web搜索工具和其他设备在因特网上定位跨语言文本,并基于对查询的分析和缺少足够的可用跨语言材料的情况最终要求用户提供丢失的关联,本发明可以在存储于存储器内且尚未分析的跨语言文档中查找单词和单词串的多次出现。这样即时构建知识库表示“通过做来学”的方式,因为系统在需要将它们用于应用时构建单词和单词串,并且也将它们存储在数据库中用于将来参考。
因此本发明以这样的方式工作以便分析单词串,并且以这样的方式工作以便解决单词的上下文选择以及语法特性,如措词、样式或缩写等等。
子集单词或单词串的出现将独立地并且作为较大的单词串的部分作为关联返回。在本发明的一个实施例中,在用表格列出跨语言文本中的重现单词和单词串的频率之后,系统解决这些也作为较大单词串的部分的子集单词或单词串的出现。本发明通过从频率计数中减去单词或单词串作为较大单词串的部分返回的次数来解决这些模式,如图1所示。例如,固有姓名通常是完整提供(如“John Doe”)、通过名或姓缩写(“John”或“Doe”),或通过其他方式缩写(“Mr.Doe”)。本发明很可能得到比单词串返回更多的单个单词返回(即,名或姓比全名单词串“John Doe”具有更多返回),因为构成单词串的单词不可避免地会被单独计数,同时也作为短语的部分计数。因此,应使用改变分级的机制。例如,在任何文档中,名字“John Doe”都可能出现了一百次,而“John”自身或作为“John Doe”的部分可能出现一百二十次,“Doe”自身或作为“JohnDoe”的部分可能出现一百一十次。本发明中没有调整的关联方法将使得在尝试分析单词串“John Doe”时,“John”的分级比“Doe”高,且两者都比单词串“John Doe”高。通过从子集(或单个返回)的出现次数中减去较大单词串的出现次数,可以获得正确的分级(虽然,当然,可以使用其他方法来获得类似的结果)。因此,从一百二十(单词“John”的出现次数)中减去一百(“JohnDoe”的出现次数),“John”的调整后返回是二十。应用此分析产生的单词串“John Doe”的调整后频率为一百,单词“John”的调整后频率为二十,单词“Doe”的调整后频率为十,这样就创建出了恰当的关联。在分级第二种语言与第一种语言的关联时,系统从所有子集的关联频率中减去较大单词串关联的出现次数。此概念在图1中反映。
在此实施例中,调整作为较大单词和单词串子集在第二种语言的范围中重现的单词和单词串,从每个单词或单词串的频率中减去(它所属的)所有单词串的调整后频率。可以使用其他用户定义的方法,使得当单词串出现在范围中时,调整其单词和单词串组成部分的最终频率计数。
例如,假想的语言X中的一个单词串意思为“very good year”。分析此单词串来使用平行文本构建从语言X到英语的翻译关联,且单词串“very goodyear”在英语范围中出现了80次,则单词串“very good”和“good year”及单个的单词“very”、“good”和“year”将由系统在此范围内总共计数至少80次,因为它们是这个三单词串的部分。本系统的一个实施例可以在它们是较大的重现单词串的部分时对频率计数做出调整,来防止扭曲此计数。下面是如何基于下面英语文档范围中的单词和单词串的假想频率计数的部分列表,跨语言X中当前分析的单词串,调整频率分数的例子:
单词或单词串      频率计数   调整后频率计数
Very good year    80         80
Good year         130        50
Good              158        23
Year              140        10
Very good         85         5
Very              87         2
这些结果是通过减去其所属的所有单词串调整后计数来调整每个频率计数之后的产物。通过减去“very good year”的调整后计数(80)、“good year”(50)和“very good”(5),即那些它作为其部分在范围中重现的较长单词串的调整后计数,得到单词“good”的调整后计数(23)。
通过计算位于跨平行文本中近似相同的相对区域的任意大小的重现单词串的共现,本发明的方法提供可以用于文档内容处理和转换的跨概念数据库。图1展示通过本发明使用平行文本创建的跨概念频率关联数据库的实施例。跨概念数据库的这个实施例在第一列和第二列中包括关联的数据片段的列表。数据片段是在表达系统中表示特定概念的符号或字符组。
例如,当文档中的表达系统是使用单词的人类语言时,片段可以是单词或单词串。因此,第1列中的系统A片段是用假想表达系统A表示各种概念和概念组合的数据片段(在本发明中,是具有语义值的单词或字符)Da1、Da2、Da3和Da4。第2列中的系统B片段是用假想表达系统B表示各种概念(具有语义值的单词或字符)和那些概念的某种组合的数据片段Db1、Db2、Db3、Db4、Db5、Db6、Db7、Db9、Db10和Db12,它们根据与表达系统A的数据片段关联频率排序。第3列展示直接频率,这是语言B的一个或多个片段与列出的语言A的一个或多个片段关联的次数。第4列展示减法后频率,这表示语言B的一个或多个数据片段在减去该一个或多个片段作为更长的片段的部分关联的次数之后与语言A的一个或多个片段关联的次数。
图1所示,单个片段可能最恰当与多个片段关联,例如Da1与Db1和Db3、Db4三者关联。数据片段之间的减法后频率越高,系统A的片段等价于系统B的片段的概率越高。除了使用“出现总次数”来衡量调整后频率,也可以通过例如计算特定的系统A片段对应于特定的系统B片段的次数百分比来衡量调整后频率。当使用数据库来翻译文档时,在处理中首先从数据库中检索分级最高的关联片段。然而,用来组合片段进行翻译的双锚点重叠方法在证明分级较高的关联与左边或右边的上下文不兼容时通常会使用一个不同的、分级更低的关联。
例如,如果查询数据库,搜索Da1的关联,则会返回Db1+Db3+Db4。如果准确组合用于翻译的数据片段的双锚点重叠处理确定不能使用Db1+Db3+Db4,则数据库会返回下一种选择,Db9+Db10,来检验通过与相邻的一个或多个关联片段重叠得到的准确组合是否能用于翻译。
另外,在对单词的关联频率进行计数时,可以控制数据库忽略普通单词,例如在英语中,可以不考虑如“it”、“an”、“a”、“of”、“as”、“in”等等这样的单词(在技术中称为“停用词”)。这允许本发明的关联数据库创建方法防止普通单词扭曲分析,且没有额外的减法计算(减少噪音和不必要的计算)。应注意,即使未从关联数据库中“减去”这些或任何其他普通单词或较大单词串的子集单词或单词串,它们最终也不会被确认为翻译,除非在恰当的时候,因为双锚点重叠处理(下面更详细地描述)不会接受它。
应注意,停用词通常包括在对它们所属的单词串进行的分析中。例如,虽然可以控制系统在确定单个单词的频率时忽略如“a”和“is”这样的单词在范围中的出现,系统通常不会忽略作为如“she is a good student”这样的重现单词串的部分的单词“a”和“is”。
可以做出其他调整关联频率的计算来确保单词和单词串共现的数量得到准确反映。例如,可以在当前分析的单词的范围重叠时适当地做出避免重复计数的调整,如下所述。希望在这样的情况下进行调整来得到更准确的关联频率。
下面将使用表1中所示的两个文档来说明本发明的创建和补充跨概念频率关联数据库的方法和装置的实施例的例子:
表1
  文档A(语言A)   文档B(语言B)
  X Y Z X W V Y Z X Z   AA BB CC AA EE FF GG CC
虽然此例子所关注的是只包含几个字符的平行文本中的重现单词和单词串,这仅用于说明目的。在本发明中,将聚合所有可用的平行和可比较文本来分析重现单词和单词串。如上所示,如果组合了多个文本,则可以首先通过检查每个文档配对来确定范围,然后可以在聚合的所有文档中对范围内的重现单词和单词串进行计数。
使用上面列出的平行文档(第一种语言(或源语言)的文档A,及第二种语言(或目标语言)的文档B),执行下面的数据库创建方法的步骤。
步骤1.首先,确定范围的大小和位置。如所示,大小和位置可以是用户定义的或可以通过各种方法来近似,这些方法包括但不仅限于比较源文档和目标文档的单词计数、查找已知的词汇锚点、查找对应的句子边界,或任何其他方法。在此例中,使用两个文档的单词计数且它们近似相等(文档A中有10个单词,文档B中有8个单词),因此我们定位范围中点,使之和文档A中的单词或单词串的位置一致(注意,由于两个文档之间的单词计数比率是80%,也可以通过乘以分数4/5来确定范围的位置)。在此例中,使用可变的范围大小来近似钟型曲线:范围在文档开头和末尾处可以(+/-)1个单词,而在中间(+/-)2个单词。然而,如所示,范围的大小和位置(或用于确定范围的方法)完全是用户定义的,并且可能比在此所示的范围大得多(选择在此所示的范围只是简单地用于展示这些概念),以便增加源语言单词或单词串的翻译处在平行文本的目标语言范围中的可能性。
步骤2.接下来,检查文档A中的第一个单词并使用文档A检验它来确定该单词在该文档中的出现次数。在此例中,文档A中的第一个单词是X:X在文档A中在位置1、4和9出现三次。单词或单词串的位置编号就是文档中的单词或单词串相对于其他单词的位置。因此,位置编号对应于文档中的单词编号,而忽略标点符号。例如,如果某文档有10个单词,且单词“king”出现两次,则单词“king”的位置编号就是该单词(在10个单词中)出现的位置。
因为单词X在文档中不止一次出现,所有处理进入下一个步骤。如果单词X仅出现了一次,则可以跳过该单词且处理进入下一个单词,继续创建处理。
步骤3.返回位置1处的源语言单词X可能的目标语言翻译:对文档B应用该范围,得到位于文档B中位置1和2(1+/-1)的单词:AA和BB(位于文档B中的位置1和2)。将所有可能的组合作为X的可能翻译或相关的关联返回:AA、BB和AA BB(作为单词串组合)。因此,X1(单词X的第一次出现)返回AA、BB和AA BB作为关联。
步骤4.分析单词X的下一个位置。此单词(X2)出现在位置4。由于位置4靠近文档的中央,范围(按上述方法确定)是在位置4的两边各两个单词。通过查看文档B中的单词4并应用范围(+/-)2来返回可能的关联—因此,返回单词4前面的两个单词和单词4后面的两个单词。因此,返回处在位置2、3、4、5和6的单词。这些位置对应于文档B中的单词BB、CC、AA、EE和FF。考虑这些单词(及其组合成的单词串)的所有向前连续排列。因此,X2返回BB、CC、AA、EE、FF、BB CC、BB CC AA、BB CC AA EE、BB CC AA EEFF、CC AA、CC AA EE、CC AA EE FF、AA EE、AA EE FF和EE FF作为可能的关联。
步骤5.比较X的第一次出现(X1)的返回,即位置1,与X的第二次出现(X2)的返回,即位置4,并且确定匹配。注意,出现在两个重叠范围中并包括相同单词或单词串的返回应化简为一次出现。例如,在此例中,位置2处的单词是BB,这既对X的第一次出现返回(当通过该范围操作时)也对X的第二次出现返回(当通过该范围操作时)。因为对X1和X2返回了这个相同的单词位置,将单词作为一次出现来计数。然而,如果在重叠范围中而不是从两个不同的单词位置返回相同的单词,则将该单词计数两次并记录关联频率。在此情况下,由于该单词(AA)出现在对X1和X2两者的关联返回中,对单词X的返回是AA。注意,出现在两者的关联返回中的另一个单词是BB。然而,如上所述,由于该单词处于对X的第一次和第二次出现的范围操作得到的相同位置(因此是同一个单词),可以忽略该单词(即,将其作为只出现在这些范围中的一个来处理)。
步骤6.分析单词X的下一个位置(位置9)(X3)。应用(+/-)1的范围(接近文档末尾)将返回在文档B的位置8、9和10处的关联。由于文档B只有8个位置,将截断结果,并且只将单词位置8作为X的可能值返回:CC。(注意,另外,用户定义的参数也可以要求将最少两个字符作为分析的部分,由它们可以返回位置8和下一个最接近的位置(即处于位置7的GG))。
比较X3的返回与X1的返回表明没有匹配,因此没有关联。
步骤7.应分析单词X的下一个位置,然而,文档A中已经没有更多的X出现。此时确定语言A的单词X与语言B的单词AA的关联频率为一(1)。
步骤8.由于没有单词X的更多出现,处理递增一个单词,并检验单词串。在此情况,检查的单词串是“X Y”,即文档A中的头两个单词。将步骤2-7中描述的相同方法应用于此短语。
步骤9.通过查看文档A,发现单词串X Y只出现了一次。此时递增处理停止,并且不发生数据库创建。因为已到达终点,所以检查下一个单词(此处理在没有匹配单词串的任何时候发生),在此情况,文档A中位置2上的单词是“Y”。
步骤10.对单词“Y”应用步骤2-7的处理,得到下面结果:
单词Y出现两次(位置2和7),因此数据库创建处理继续(再次,如果Y在文档A中只出现了一次,则不检查Y)。
在位置2处的范围的大小为(+/-)1个单词。
对文档B应用该范围(位置2,单词Y第一次出现的位置)返回位于文档B中的位置1、2、3的结果。
在那些返回位置上的对应的外语单词是:AA、BB和CC。
只检查向前排列对Y1产生下面的可能:AA、BB、CC、AA BB、AA BB CC和BB CC。
分析Y的下一个位置(位置7)。
位置7处的范围的大小为(+/-)2单词。
对文档B应用该范围(位置7),返回位置5、6、7和8处的结果:EE、FF、GG和CC。
所有的排列都对Y2产生下面的可能:EE、FF、GG、CC、EE FF、EE FF GG、EE FF GG CC、FF GG、FF GG CC和GG CC。
匹配来自Y1的结果将CC作为唯一匹配返回。
组合对Y1和Y2的匹配产生CC作为Y的关联频率。
步骤11.范围末尾递增:因为单词Y唯一可能的匹配(单词CC)出现在Y第一次出现的范围的末尾(CC出现在文档B中的位置3),该范围在第一次出现处递增1,返回位置1、2、3和4:AA、BB、CC和AA,或下面的向前排列:AA、BB、CC、AA BB、AA BB CC、AA BB CC AA、BB CC、BB CC AA和CC AA。应用此结果,仍然将CC作为Y的唯一可能翻译。递增该范围是因为返回的匹配位于第一次出现的范围的末尾(单词“Y”的基础出现),无论何时出现此模式,都将范围末尾递增作为子步骤(或替换步骤)执行,以确保不截断概念。
步骤12.由于文档A中没有更多的“Y”出现,分析在文档A中递增一个单词,并检查单词串“Y Z”(单词Y后面的下一个单词)。递增到下一个串(Y Z)并重复处理,将产生下面结果:
单词串Y Z在文档A中出现两次:位置2和7。Y Z第一次出现的可能(YZ1)是AA、BB、CC、AA BB、AA BB CC、BB CC(另外也可以定义范围参数,使得随着语言A中当前分析的单词串变长扩展范围大小)。
Y Z在第二次出现的可能(Y Z2)是EE、FF、GG、CC、EE FF、EE FF GG、EE FF GG CC、FF GG、FF GG CC和GG CC。
匹配结果,将CC作为单词串Y Z的可能关联。
扩展范围(范围末尾递增)对Y Z产生下面结果:AA、BB、CC、AA、AABB、AA BB CC、AA BB CC AA、BB CC、BB CC AA和CC AA。
应用这些结果,仍然将CC作为单词串Y Z的关联频率。
步骤13.由于在文档A中没有出现更多的“Y Z”,此分析在文档A中递增一个单词,并检查单词串“Y Z X”(通过在文档A中的单词Z(位置3)之后添加下一个单词)。递增到下一个单词串(Y Z X)并重复此处理(Y Z X在文档A中出现两次),得到下面的结果:
Y Z X第一次出现的范围包括位置1、2、3、4和5;
排列为AA、BB、CC、AA、EE、AA BB、AA BB CC、AA BB CC AA、AA BB CC AA EE、BB CC、BB CC AA、BB CC AA EE、CC AA、CC AA EE和AA EE;
Y Z X第二次出现的范围包括位置5、6、7和8;
组合为EE、FF、GG、CC、EE FF、EE FF GG、EE FF GG CC、FF GG、FFGG CC和GG CC。
比较两者,将CC作为单词串Y Z X的关联频率。再次,丢弃将EE作为关联的返回,因为它作为同一单词出现在两个实例中(即,处于相同位置)。
步骤14.递增到下一个单词串(Y Z X W),只找到它的一次出现,因此单词串数据库创建完成,并检查下一个单词:Z(文档A中的位置3)。
步骤15.应用上面对Z描述的步骤,发现Z在文档A中出现了三次,得到下面结果:
对Z1的返回是:AA、BB、CC、AA、EE、AA BB、AA BB CC、AA BB CCAA、AA BB CC AA EE、BB CC、BB CC AA、BB CC AA EE、CC AA、CC AAEE和AA EE。
对Z2的返回是:FF、GG、CC、FF GG、FF GG CC和GG CC。
比较Z1和Z2,将CC作为Z的关联频率。
Z3(位置10)按定义在范围中没有返回。然而,如果我们添加这样的参数,规定对语言A中的每个单词或单词串必须至少有一个返回,则对Z3的返回将是CC。
比较Z3和Z1的返回,将CC作为单词Z的关联频率。然而,并不对此关联进行计数,因为已经在上述Z2的关联中对单词位置8处的CC进行了计数。当重叠的范围会导致处理对某次出现进行双重计数时,系统可以减少关联频率,以便更准确地反映真实的出现次数。
步骤16.递增到下一个单词串,得到单词串Z X,它在文档A中出现了两次。应用上面对Z X所述的步骤,得到下面结果:
对Z X1的返回是:AA、BB、CC、AA、EE、FF、AA BB、AA BB CC、AA BB CC AA、AA BB CC AA EE、AA BB CC AA EE FF、BB CC、BB CC AA、BB CC AA EE、BB CC AA EE FF、CC AA、CC AA EE、CC AA EE FF、AA EE、AA EE FF和EE FF。
对Z X2的返回是:FF、GG、CC、FF GG、FF GG CC和GG CC。
比较这些返回,得到单词串Z X和CC之间的关联。
步骤17.递增,下一个短语是Z X W。这只出现了一次,因此检查文档A中的下一个单词(X)。
步骤18.已在第一个位置检查了单词X。然而,尚未对单词X相对于其他文档的第二个位置检查单词X的可能返回。因此,从文档中往前,如对单词X的第一次出现那样操作单词X(在第二个位置):
对位置4的X的返回得到:BB、CC、AA、EE、FF、BB CC、BB CC AA、BB CC AA EE、BB CC AA EE FF、CC AA、CC AA EE、CC AA EE FF、AA EE、AA EE FF和EE FF。
对位置9的X的返回得到:CC。
比较位置9和位置4的结果,将CC作为单词X的可能匹配,并且对其给出关联频率。
步骤19.递增到下一个单词串(由于在文档中向前查找后,发现X没有更多出现可以和X的第二次出现比较),得到单词串X W。然而,此单词串在文档A中并未出现一次以上,因此处理继续检查下一个单词(W)。单词“W”在文档A中只出现了一次,因此进行递增一不是到下一个单词串,因为单词“W”只出现了一次,而是到文档A中的下一个单词—“V”在文档A中只出现了一次,因此检查下一个单词(Y)。单词“Y”并未出现在文档A中任何高于位置7的其他位置,因此检查下一个单词(Z),单词“Z”在位置8之后于位置10处再次出现。
步骤20.对单词Z的第二次出现应用上述处理,得到下面的结果:
对位置8处的Z的返回得到:GG、CC和GG CC。
对位置10处的Z的返回得到:CC。
比较位置10和位置8的结果,得到对单词Z没有关联。
再次,将单词CC作为可能的关联返回。然而,因为CC表示分析位置8处的Z和位置10处的Z达到的相同单词位置,所以忽略此关联(即,将其作为只出现在这些范围中的一个来处理)。
步骤21.递增一个单词,得到单词串Z X。此单词串并未出现在文档A中更多(向前的)位置上,因此处理在文档A中的下一个单词处重新开始—“X”。单词X并未在文档A中任何更多(向前的)位置上出现,因此处理重新开始。然而已达到文档A的末尾,因此分析终止。
步骤22.如上所述,组合上述所有结果并在它们出现时减去重复及较大串的子集串(如图1中反映的那样),用表格列出最终的关联频率。
显然,这些数据不足以对文档A中的单词和单词串返回结论性的结果。随着检查到更多的文档配对包含具有上面检查的那些关联的单词和单词串,关联频率将增加,使得语言A和语言B之间的单词和单词串翻译构建更强的关联。虽然典型的用户定义的范围会远大于三单词来确保翻译包括在其中,上述范围计算仍然展示了这样的概念。
为了进一步加强使用平行文本和上述处理构建的关联,可以按相反的方向来运行此处理。系统可以使用上述处理来使用在目标语言范围中出现最频繁的目标语言单词串翻译候选,并使用可用的平行文本构建那些目标语言单词与源语言单词串的关联。如果初始生成目标语言翻译候选的源语言单词或单词串在目标语言候选列表上分级足够高(基于用户定义的频率或百分比),则可以将该源语言项的目标语言翻译候选确认为该源语言项(单词或单词串)的合法翻译。这称为本发明的“双向锁定机制”。最终,可以使用每个语言配对中的平行文本,在两个方向上构建出关联数据库。
在使用平行文本进行跨语言关联的其他实施例中,对源语言中当前分析的每个重现单词或单词串选择目标语言中的范围,根据上述方法确定目标语言中对应的范围。然后将那些范围内的所有重现单词和单词串加到一起来获取它们的频率计数。从范围内的单词和单词串的频率中减去较大单词串的频率计数,以避免对较大单词串的较小部分进行计数,如上面在图1中描述和展示的那样。与独立于所有其他范围关联每个范围的单词和单词串的上述实施例相比,这将给予最频繁的单词串更小的权重。因此,再此所述的实施例通常需要更多的文档来构建可靠的翻译。
例如,假设当前正在分析语言X的单词串“ll mm pp”,尝试在语言Y的平行文档中找到关联。如果单词串“ll mm pp”在语言X的文档中出现四次,则在语言Y的文档中确定四个语言Y的单词和单词串的范围,每一个都对应于平行文档中出现的一个语言X单词串“ll mm pp”。如果语言Y中的一个正确的翻译是“KK BB ZZ”,并且它出现在所有四个范围内,则上述实施例可以产生频率计数4。前面的实施例(独立于所有其他范围分析每个范围)可以产生“KK BB ZZ”的频率计数6。一旦确定了范围,可以使用各种用户定义的方法来用表格列出重现单词和单词串的频率,这取决于制表方法,可以向单独的结果提供更高或更低的相对权重。上述方法展示制表方法的两个较佳实施例。
这些语言可以是任何类型的转换,并不一定限于口头/书面语言。例如,转换可以包括计算机语言、特定的数据代码,如ASCII等等。数据库是动态的,即,数据库随着内容输入到翻译系统中而生长,且翻译系统使用原先输入的内容进行后面的迭代。
如所示,本实施例代表本发明的一种用于创建关联的方法。本发明的方法不限于语言翻译。从广义上来说,这些方法可以应用于任何可以关联的相同概念的两种表达,因此从本质上来说,外语翻译就是由不同的单词或单词串表示的相同概念的配对关联。因此,本发明可以应用于关联数据、声音、音乐、视频、计算机编程语言,或任何广泛的概念表示,包括通过任何感知(声音、视觉、气味等等)体验来体现的概念。本发明所需要的是分析相同概念通过在时间上的共现(或在文档的情况下,共现的位置)关联的两个具体形态。
对不能使用跨语言文档翻译的单词或单词串,本发明的另一个实施例(后面描述)可以生成和目标语言或源语言中的单词或单词串语义等价的单词和单词串,提供识别替代单词或单词串翻译的其他方法。此方法也允许互换共享相同上下文且有时可以具有无限个成员的广泛分类(如名字和数字)中的特定类成员。
此外,如果可用的跨语言文档不能提供具有统计显著性的翻译结果,则用户定义的参数可以组合本发明的其他跨语言单词串关联方法,来代替或组合,使用平行文本的方法。作为最后的手段,用户还可以检查候选,以便得到不满足用户定义的确认阈值的翻译和其他关联,并手动确认和分级恰当的选择。
B.使用多状态文本进行获取
本发明的另一个实施例提供使用那两种状态中的每一种和另外的第三状态之间的关联,在两种语言或状态的等价或类似概念之间构建关联的方法。随着检查了更多语言配对的文档,基于和另外的第三语言都具有关联但彼此之间没有直接关联的那些语言,本发明的方法和装置可以开始在语言配对之间填充“导出关联”。此类通过多种状态进行的间接翻译称为“多语言杠杆”。
在当前翻译的源语言单词串在一种或几种第三语言中具有已知翻译,且不同的第三语言翻译在目标语言中都具有已知翻译时,通过多语言杠杆方法得到的导出关联可以在一对语言的文本之间产生。例如,如果没有足够的跨语言文本可以直接将语言A的短语“aa dd pz”翻译为语言B的短语,则对关联进行推导可以包括比较语言A的这个短语和该短语在语言C、D、E和F中的翻译,如表2所示。然后,可以将“aa dd pz”在语言C、D、E和F中的翻译翻译为语言B,如表3所示。在语言A的短语“aa dd pz”和语言B的短语之间推导关联进一步包括比较已从语言C、D、E和F对“aa dd pz”的翻译翻译过来的语言B的短语。已从语言C、D、E和F对“aa dd pz”的翻译翻译过来的语言B的短语中的部分可能相同,并且在本发明的这个较佳实施例中,这将代表语言A的短语“aa dd pz”在语言B中的正确翻译。如表3所示,语言C、D和F到语言B的翻译产生相同的语言B短语,这提供了正确的语言B翻译,“UyTByM”。因此,可以创建出语言A的短语及其语言B翻译之间的推导关联。语言E到语言B的翻译产生另一个语言B短语ZnVPiO。这表明语言A的短语“aa dd pz”或语言E的短语“153”可能具有多种意义,或语言B的短语UyTBym和ZnVPiO是语义等价的(或近似的)且将在通过另一种语言间接翻译为短语“ZnVPiO”或使用某些其他方法产生该翻译结果时得到确认。
表2
    语言A     语言C     语言D     语言E     语言F
    aa dd pz     Ald     Zyp     153     1AAAA))$
表3
  语言   对语言A的“aa ddpz”的翻译   翻译为语言B
  语言C   Ald   UyTByM
  语言D   Zyp   UyTByM
  语言E   153   ZnVPiO
  语言F   1AAAA))$   UyTByM
在另一个实施例中,使用本发明的上述多语言杠杆方法和装置可以提高现有技术中的翻译系统的准确度。现有的翻译系统(如,基于规则的MT、SMT)取得查询并产生从语言A翻译为语言B的结果,可以比较此结果与从语言A翻译为其他语言(如,语言C、D、E和F)的查询的翻译结果(使用现有技术的系统和装置)并接下来与从那些语言翻译为语言B(使用现有技术的系统和装置)的结果比较。
为了确认翻译,使用现有的机器翻译系统的多语言杠杆的一个实施例可以要求每个目标语言单词串(间接通过一些第三语言翻译出)都出现在目标中一定数量的用户定义的共有结果中,如上述的那样。要求具有用户定义数量的间接目标语言翻译的单词串(使用现有的翻译系统的中间第三语言)在确认之前在目标语言中彼此完全匹配,这将提高每个翻译单词串的准确度。虽然现有技术的翻译系统的准确度并不高,但是如果使用足够多的第三语言翻译系统,可以获得目标语言中通过不同的中间第三语言得到的一定数量的共有结果。再者,通过将这些间接目标语言翻译与本发明的双锚点重叠方面(在后面详细描述)所要求的相对高的用户定义重叠相连接,此实施例的结果准确度可以得到进一步检验和提高。
通过组合本发明的跨语言学习与数据库中的单词串翻译以及现有技术中的翻译系统,多语言杠杆方法的另一个实施例可以使用从源语言到中间的第三语言的翻译以及从那些第三语言到目标语言的翻译。使用相同的基本原则来确认目标语言翻译;通过不同的第三语言得到用户定义的数量的共有的间接目标语言翻译结果。
所要求的共有目标语言结果的数量与用于多语言杠杆的中间语言数量是用户定义的。使用越多的通过其他语言得到的间接翻译来校验单词串或任何其他数据片段的翻译,本发明越能确定地产生准确翻译。作为确认的最终检查,基于用户定义的准则,可以使用与上述相同的方法,通过一种或多种第三语言把目标语言翻译结果翻译回源语言。如果回到源语言的翻译是要翻译的初始源语言单词串,或者是初始的源语言单词串语义等价(使用后面描述的本发明的共有频率分析确定),则可以确认此目标语言翻译。
C.使用目标文档洪流进行获取
本发明的另一个方面使用目标语言的单语言语料库和/或平行文本,以及下面方法中的任何一种或多种,来构建不同语言的单词串之间的关联:现有技术中的机器翻译系统、现有技术中的跨语言字典,和/或定制的跨语言字典。这些方法使用本发明的“洪流”技术,使用定制的系统或现有技术中的系统,来生成从源语言查询中解析出的每个单词串中的单个单词的可能的目标语言翻译,如上所述的那样(即使某些可能的单词翻译是错的),然后搜索目标语言文档,查找可能的单词翻译的不同组合(源语言单词的目标语言翻译可以是单词或短语)来产生目标语言单词串的候选翻译列表。
在使用洪流技术的另一个实施例中,在字典中包括了由两个或多个单词构成的源语言搭配和习语。在此实施例中,首先检验每个源语言查询单词串,识别任何构成查询单词串的部分或全部的习语或搭配单词串。如果在查询中识别出习语或搭配,则从字典中检索出习语或搭配的翻译,并将其用作洪流处理的一部分来搜索目标语言语料库,而不是使用构成习语或搭配的单个单词的翻译。显然,任何其他的源语言单词串都可以添加到字典中,并用在洪流处理中翻译为目标语言,而不是单独地翻译那些单词。
1.平行文本洪流
在一个实施例中,同时使用平行文本及现有技术中的翻译系统(或跨语言字典)。为了构建源语言单词串的目标语言关联,在源语言文档中定位每个单词串的出现,并在平行文本的目标语言文档中确定对应的范围。以上述使用平行文本构建跨语言关联的相同方式确定目标语言范围。使用现有技术中的机器翻译系统、现有技术中的字典,或定制的字典来生成源语言查询单词串的一个翻译(或多个翻译,如果使用了多个系统)。然后使用这些翻译搜索目标语言文档中的范围(即使部分翻译可能是错的),来识别作为翻译候选的单词和单词串。如果所识别的单词或单词串翻译候选中的任何一个在洪流处理的范围中出现了用户定义的数量或百分比,则可以将该关联作为翻译确认。如果使用跨语言字典而不是现有技术中的机器翻译引擎,则使用每个单词所有可能的已知翻译来翻译源语言单词串中的每个单词(源语言单词的目标语言翻译可以是单词或短语,如上述的那样)且使用下一节对目标语言洪流描述的方法在目标语言平行文本内识别单词翻译的不同组合。此外,可以搜索源语言查询单词串,查找习语或搭配(使用习语和搭配的跨语言字典中的源语言条目),如果源语言查询单词串包含习语和/或搭配,则可以使用该翻译通过单词对单词(和/或单词对短语)的翻译可能对目标语言语料库进行洪流处理,如在此所述的那样。
2.目标语言洪流
使用洪流方法的另一种方法和实施例,通过使用跨语言字典(或现有技术的翻译系统)翻译单词串中的每个单词,并使用目标语言语料库搜索出现在所有可用的目标语言单词串中的那些已翻译单词组,可以将单词串从源语言翻译为目标语言。此方法并不依赖于平行文本且只需要大的目标语言语料库(如,文档数据库,万维网)。此方法只需要由目标语言文档组成的语料库,而不需要另一种语言的对应翻译文档,这扩展了本发明识别跨语言单词串关联的机会。如本发明中识别单词串翻译的所有方法,可以从源语言文档中将要翻译的单词串解析为具有用户定义大小(即,串中的单词数)并具有用户定义的最小数量的重叠单词(如后面所述)的单词串来即时生成用于翻译分析的单词串,或可以检查单词串,以便将其添加到翻译知识库中。
使用目标语言洪流方法,首先,使用跨语言字典(或现有技术中的其他翻译系统),以单词对单词(和/或单词对短语)的方式将单词串(源语言查询单词串)中的每个单词翻译为目标语言。字典通常提供多个选项或候选,识别这些由字典对当前分析的单词串的每个单词提供的所有目标语言翻译候选。字典也可以包含翻译为目标语言单词串(即,短语)的源语言单词的翻译。在此情况,可以将这样的单词串作为单个单元翻译,用于搜索目标语言语料库。字典也可以包含常见的源语言习语和搭配的翻译。可以搜索源语言查询单词串,查找习语或搭配,并且如果源语言查询单词串包含习语和/或搭配,则也可以使用它们的翻译对目标语言语料库进行洪流处理,如在此所述的那样。使用习语和/或搭配对目标语言语料库进行洪流处理可以在这里所述的使用以单词对单词(和/或单词对短语)的方式生成的翻译候选进行的洪流处理之前或和同时进行。此外,如果将本发明用于这样的源语言,其中可以按某种方式组合单词的特定组合来构成一个单词,则可以调整本系统将那些类型的单词解析为两个或多个翻译为两个或多个单独的目标语言单词的单独成分。
例如在希伯莱语中,意思为“and”的希伯莱语字母(希伯莱语字母“vuv”)附加到它所指的单词前面,而不是具有意思为“and”的独立的单词。在此情况,本发明可以从单词的余下部分中解析出开始于“vuv”的单词,并生成对“and”的翻译,及“vuv”所处的希伯莱语单词的余下部分的翻译。另外,如果使用现有技术的翻译系统将单词单独翻译为目标语言,则这些系统通常对源语言中的那些单词组合的例子产生两个或多个目标语言单词。不同语言的规则包括由时态、单数、复数等等造成的单词组合、单词变形和其他根单词变化,可以整理这些规则来扩展所使用的字典单词并准确地表示要在目标语言语料库中搜索的语义单元。
接下来,在对源语言查询单词串中的每个单词(或习语或搭配)生成独立的目标语言单词翻译之后,系统搜索目标语言语料库,查找具有用户定义的最大长度并包含用户定义的最小数量(或百分比)的翻译候选的单词串,这些翻译候选是对源语言查询单词串的每个单词(及其他用户定义的搜索条件)生成的。为了满足用户定义的搜索要求,在目标语言单词串中对少于一个的为每个源语言单词生成的候选翻译计数。如果它包含以具有由不同的源语言单词生成的用户定义最小数量的候选的任何顺序出现的任何组合,则具有用户定义的最大长度的目标语言单词串符合条件。
从所述“查询串洪流列表”中返回符合条件的单词串。此外,用户定义的要求可以基于源语言单词及其目标语言对应的邻近程度来设置查询串洪流列表的参数。例如,用户定义的参数可以要求源语言单词的目标语言翻译出现在与相邻的源语言单词的目标语言翻译距离用户定义的数量的单词的范围内。可以基于其他用户定义搜索参数来检索候选,这些参数包括在源语言单词串中的单个单词之间的距离与它们在目标语言单词串翻译候选中的对应翻译之间的距离的关系。再者,任何用户定义的参数都可以包括在对目标语言翻译候选分级中的这些和/或其他因素。对挑选和分级的这些设置将基于两种语言的结构之间的关系,取决于语言配对而不同。
为了展示只使用目标语言语料库的洪流方法,考虑语言X中要翻译的四单词串:
“aa bb cc dd”
系统可以将串中的每个单词翻译为目标语言,即语言Y。假设在跨语言字典中,上述语言X的单词串中的每个单词具有下面的在语言Y中的定义:
语言X的单词    语言Y中的翻译
aa             AA1、AA2、AA3、AA4、AA5、
               AA6
bb             BB1、BB2、BB3
cc             CC1、CC2、CC3、CC4
dd             DD1、DD2、DD3、DD4、DD5
然后系统可以搜索目标语言文档的语料库,在用户定义的范围中定位该单词的用户定义最小数量的翻译(但是只将任何具体的源语言单词的一个候选对最小计数)。在此例中,假设参数设置为使得最少必须有三个翻译的单词(只对任何源语言单词的一个翻译进行计数)出现在总共包含六个或更少单词的串内,而不管单词位置或它们所出现的顺序。对这个例子来说,出现在假想的目标语言语料库中的某些可能符合条件的单词串的部分列表可以是:
查询串洪流列表(部分)
1.DD1 AA2 CC2 BB3
2.AA1 BB1 CC3 EE1
3.BB2 FF1 KK1 AA2 LL3 DD5
4.DD4 PP1 UU1 AA6 CC4 BB2
5.CC1 KK1 RR2 BB3 DD4
6.BB1 CC3 EE1 DD4
通过识别列表上用重叠单词串组合构成较大单词串结果的任何两个结果,可以进一步扩展对查询串洪流列表的返回。可以将这些单词串组合作为可能的单词串翻译添加到查询串洪流列表中。例如,在上述返回的列表中,可以通过重叠单词串组合第二个返回“AA1 BB1 CC3 EE1”和第六个返回“BB1 CC3 EE1DD4”来构成“AA1 BB1 CC3 EE1 DD4”,可以将其添加到查询串洪流列表中。
基于用户定义的准则对查询串洪流列表上的返回进行分级,所述用户定义的准则通常至少包括(1)目标语言串中的源语言单词翻译(只对每个源语言单词的一个目标语言翻译进行计数)的数量(或百分比)最大,及(2)对最少数量的源语言单词翻译,满足第一条用户定义的准则的目标语言单词串最小(单词数最少)。例如,基于这两条准则(并赋予第一条准则比第二条更大的权重),可以按如下将上述返回分级为:
1.DD1 AA2 CC2 BB3
2.AA1 BB1 CC3 EE1 DD4
3.DD4 PP1 UU1 AA6 CC4 BB2
4.AA1 BB1 CC3 EE1
5.BB1 CC3 EE1 DD4
6.CC1 KK1 RR2 BB3 DD4
7.BB2 FF1 KK1 AA2 LL3 DD5
上述分级反映出在用户定义下第一条准则(单词串中已翻译单词的数量)的权重比第二条准则(满足第一条准则的单词串最小)大。分级最高的结果在四单词串中包含所有四个翻译的单词。分级第二的结果是通过与其他返回重叠创建(并添加到查询串洪流列表)的单词串,并在五单词串中包含所有四个翻译的单词。分级第三的结果在六单词串中包含所有四个翻译。分级第四和第五的结果平级,因为两个单词串都在四单词串中包含四个翻译的单词中的三个。分级第六的结果在五单词串中包含三个翻译的单词,而分级最低的结果在六单词串中包含三个翻译的单词。
此外,可以使用基于源语言单词与它们的目标语言对应部分之间的距离的用户定义准则。例如,如果用户定义的准则要求相邻的源语言单词的翻译彼此在三个单词或更短的距离内才能进入查询串洪流列表,则可以排除分级第三(DD4 PP1 UU1 AA6 CC4 BB2)和第六(CC1 KK1 RR2 BB3 DD4)的成员。注意,作为分级第三的结果的子集的较小单词串可以符合进入查询串洪流列表的条件(即,单词串中的单词四至六—DD4 PP1 UU1 AA6 CC4 BB2)。同时注意,当把源语言单词(或搭配或习语)翻译为目标语言单词串时,为了对进行目标语言语料库洪流处理(除了由于语言的特殊特性使得目标语言翻译中的所有单词都不连续的偶然情况),总是将目标语言单词串视为单个单元(即,单词串中的单词必须保持相邻并处于相同的顺序)。
本发明的另一个对查询串洪流列表返回进行分级的实施例可以使用评分系统,并对目标语言单词串中是源语言查询单词串中的源语言单词的翻译的每个单词增加分数,对符合条件的目标语言单词串中不是源语言查询单词串中的一个单词的翻译的每个单词扣除分数。再者,单词可以基于其在语言中的一般频率得到更多或更少的分数。例如,非停用词可以比停用词具有更高的权重。
例如,用户定义的设置可以通过(1)基于它是否是源语言查询单词串中的源语言单词的翻译,给出现在目标语言单词串中的每个停用词加上或减去5分,及(2)基于它是否是源语言查询单词串中的源语言单词的翻译,给出现在目标语言单词串返回中的非停用词(即,像“it”、“and”或“the”这样频繁重现的单词之外的单词)加上或减去20分,来对查询串洪流列表上的每个目标语言单词串打分。
为了使用前面的例子展示这样的打分,假设“aa”和“cc”是停用词,“bb”和“dd”不是停用词。在此例子中,在上述用户定义的打分参数下,如果EE1是停用词,则单词串“AA1 BB1 CC3 EE1”会得到分数25(5+20+5-5=25),如果EE1不是停用词,则它得到分数10(5+20+5-20=10)。可以使用基于从源语言查询单词串中翻译出并出现在查询串洪流列表上的单词串中的单词数量的任何其他打分方案。
处理中在此产生的返回可以包括正确、部分正确及不正确的目标语言翻译单词串。如下文所述,本发明通过将文档解析为重叠的单词串并组合重叠的目标语言单词串翻译来翻译源语言文档。在翻译单词串之间要求具有大的重叠单词串(即,很多单词)将能够排除查询串洪流列表上不是单词串的正确翻译的返回,因为它们与其他单词串翻译重叠未达到用户定义的大小(如下文所述)。
如下所述,在查询串洪流列表上的返回,或尚未达到作为准确翻译确认的用户定义准则的任何返回(使用任何方法),都可以在大的重叠链中使用,但是仅当翻译单元的第一个和最后一个单词串先前已作为准确的单词串翻译确认时才能这样。另外,翻译的最左边的单词串必须在其左边是准确的,而翻译的最右边的单词串必须在其右边是准确的。大的重叠的(如下所述)未确认翻译夹在是已知的准确单词串翻译,或至少确认它们的两边是准确翻译的两个翻译中间,这样可以提供准确翻译的基础。
可以通过排除不是正确翻译的返回来改进查询串洪流列表,而无需通过对包括初始查询单词串加上两边附加的单词的较大单词串执行与上述相同的查询串洪流分析来检验重叠单词串。此实施例需要包含源语言查询单词串以及包围的上下文单词和/或单词串的源语言语料库,但是不要求此源语言语料库是目标语言语料库的平行文本文档。使用此方法来继续上面的例子,系统将搜索源语言文本,查找用户定义的数量的包含单词串“aa bb cc dd”且两边加上用户定义的数量的单词的源语言单词串。用户定义的准则可以要求将这些较长的源语言单词串解析为用户定义的数量的具有用户定义的大小并包含“aa bb cc dd”的附加片段,然后用它们按上述对目标语言文档进行洪流处理。
例如,如果用户请求在初始串的每一边都附加三个单词的五单词串,则使用源语言语料库返回的源语言五单词串可以是:
1.“zz xx yy aa bb cc dd ll mm nn”
2.“kk rr ll aa bb cc dd aa kk oo”
3.“kg lh wk aa bb cc dd ql io rr”
4.“ck nk ak aa bb cc ddb k sk jk”
5.“dm ea jc aa bb cc dd tg ms jf”
然后此处理将上述串解析为用户定义的数量的具有用户定义大小(在此例子中,最少5个单词)的单词串来基于下文所述的用户定义的准则创建用于对目标语言语料库进行洪流处理的源语言单词串。如果用户要求对包含初始查询的串的所有可能的解析结果进行分析,则可以对上面识别的第一个单词串生成下列解析出的单词组合:
“zz xx yy aa bb cc dd ll mm nn”
“zz xx yy aa bb cc dd ll mm”
“zz xx yy aa bb cc dd ll”
“zz xx yy aa bb cc dd”
“xx yy aa bb cc dd ll mm nn”
“xx yy aa bb cc dd ll mm”
“xx yy aa bb cc dd ll”
“xx yy aa bb cc dd”
“yy aa bb cc dd ll mm nn”
“yy aa bb cc dd ll mm”
“yy aa bb cc dd ll”
“yy aa bb cc dd”
“aa bb cc dd ll mm nn”
“aa bb cc dd ll mm”
“aa bb cc dd ll”
可以使用上述洪流处理对这些单词串中的每个单词产生可能的目标语言翻译。通过使用字典或现有的机器翻译系统单独翻译每个单词,并基于用户定义的在最大数量的单词内包含最少数量的单词翻译的要求(和/或其他要求),搜索目标语言文档,查找包含单个单词翻译的目标语言单词串,来分析每个单词串。所生成的目标语言返回的列表称为“查询+上下文洪流列表”。然后系统可以对通过每个初始的源语言单词串衍生得到的解析出的单词串(即,源语言单词串查询加上左边和右边的上下文单词—在此例中,即前面识别的余下的四个十单词串(2至5))中余下的每个生成查询+上下文洪流列表。另外,可以通过搜索源语言语料库生成在查询单词串的左边和右边具有一个上下文单词或用户定义大小的上下文单词串的更多数量的单词串,且可以完整地使用每个串来创建查询+上下文洪流列表,而不进一步将其解析为更短的单词串。
接下来,系统使用查询串洪流列表中的每个结果,并搜索通过由初始查询加上左边和/或右边的上下文单词串构成的所有源语言单词串生成的所有查询+上下文洪流列表上的较大单词串的每个子串。系统对查询串洪流列表上的返回出现在查询+上下文洪流列表上的较长单词串结果的子串中(或独立出现)的总次数进行计数。
然后调整这些计数,从中减去(查询串洪流列表上的)较小单词串作为(查询串洪流列表上的)较大单词串的一部分出现的次数。例如,假设两个单词串“DD1 AA2 CC2”和“DD1 AA2 CC2 BB3”都在查询串洪流列表上。如果单词串“DD1 AA2 CC2”作为查询+上下文洪流列表上的单词串的子串出现了120次,而“DD1 AA2 CC2 BB3”的计数为100,则调整“DD1 AA2 CC2”的频率计数,从中减去它作为较大单词串“DD1 AA2 CC2 BB3”的一部分出现的次数,即,120减去100,得到20。此减法调整概念上类似于当使用该方法用平行文本构建跨语言关联时做出的减法调整,该减法调整如图1中所示减去较小单词串作为较大的重现单词串的部分的出现。
然后,基于每个结果在查询+上下文洪流列表上作为较大单词串的子串(或独立)出现的总次数,重新分级查询串洪流列表上的单词串(在上一段中描述的减法调整之后)。另外,用户定义的参数可以要求部分基于特定的其他因素进行分级,这些因素包括结果作为子串所处的上下文单词串中的单词数,以及子串作为左边的上下文单词或单词串的一部分出现的次数和子串作为右边的上下文单词或单词串的一部分出现次数之间的平衡。
在处理中的这个阶段,如果用户定义的参数要求只将较大的翻译查询中左边或“边缘”的单词串确认为准确翻译,因为它是较大的重叠单词串链中的第一个单词串,则对查询+上下文洪流列表只使用左边的上下文单词或单词串。如果它是重叠单词串长链中右边的单词串,则只用右边的上下文单词和单词串和查询一起来生成查询+上下文洪流列表。
作为另外的实施例,可以生成查询+上下文洪流列表,而不生成查询串洪流列表。相反,将查询+上下文洪流列表上的每个单词串视为像使用平行文本进行跨状态学习那样的目标语言范围,且以相同方式对它们中的每个进行分析来查找重现单词串。用表格列出重现单词串的计数,并通过减去它们作为较长串的部分出现的次数来调整较短单词串的计数。如果使用此方法,为了实现最好的结果,应使用不同的上下文单词或单词串来生成查询+上下文洪流列表(而不是按不同长度解析相同的串)。另外,也可以解析上下文单词串,但是系统应忽略上下文单词串中的上下文单词的翻译,以便对查询+上下文洪流列表的成员中的重现单词串进行计数。
存在改进查询串洪流列表的其他方法。这些方法中的一种包括使用本发明如下文所述的共有频率分析方面生成查询的近似语义等价。一旦生成了表示语义上类似于查询的概念的附加源语言单词串,就可以使用跨语言字典来对每个选项执行上述洪流方法。此方法能够扩展源语言翻译选项的数量,并在初始查询单词串包括(不在跨语言字典中的)习语表达时特别有用。在习语表达中,单独的单词可能完全失去其语义特性。
可以对查询串洪流列表上的每一个分级最高的结果执行同样的处理。使用下文中所述本发明识别语义相似的单词串方面,可以使用查询串洪流列表上用户定义数量的目标语言单词串(如,最前面的五个)来构建用户定义数量的语义相似的目标语言单词串(如,每个对应五个)。可以使用这些组同义单词串来查找跨多个列表的共有串,以确认满足用户定义的在任何返回的语义等价列表上的共有单词串的数量或百分比最小值(如下所述)的单词串翻译。此外,可以按单词对单词的方式将这些组同义单词串翻译回源语言,以查看哪个组和与源语言查询同义的那组单词串(以及查询自身)有最多数量的共有翻译。具有最多数量的翻译回源语言的单词匹配源语言单词串或其同义词的那组同义的目标语言句子,是正确的一组目标语言翻译。
改进查询串洪流列表的其他方法包括同时使用多语言杠杆方法和洪流方法。在此实施例中,可以按单词对单词(和/或单词对短语)的方式,使用每个单词的所有可能的翻译,将源语言查询单词串翻译为一种或多种第三语言,并按如上所述通过搜索每个第三语言文本语料库,查找在用户定义的最大单词总数内包含用户定义的最少数量的翻译单词的句子和其他单词串,来对其进行洪流处理。然后按单词对单词(和/或单词对短语)的方式将符合条件的第三语言单词串翻译为目标语言,以用于搜索满足上述用户定义的洪流处理准则的目标语言单词串。另外,可以将第三语言中的翻译单词直接翻译为目标语言,以用于搜索符合条件的目标语言单词串,而不必像前面的步骤中描述的那样搜索第三语言语料库来查找第三语言单词串。出现在目标语言中可用于使用一种以上的中间第三语言的查询串洪流列表的单词串能够对翻译提供进一步的确认。可以按上述生成源语言、目标语言和中间第三语言的同义单词串并使用跨语言字典来进一步对翻译进行确认。
本发明的多语言杠杆方面对构建和扩展单词级别的字典也很有用,这可以用于本发明的目标语言洪流实施例,以及任何其他目的。如果现有技术中或定制的几个字典因为没有源语言单词的条目或有该条目但没有可能的目标语言翻译的完整列表而不完整,则本发明可以通过使用源语言单词在一种或多种第三语言中的现有翻译来补充这些字典。然后系统可以取得所有的第三语言单词并识别已知的目标语言翻译。使用中间第三语言产生的最频繁的目标语言翻译将被确认为翻译。用户定义的准则确定有多少共有结果可以成为翻译。另外,如果需要的话,人类编辑员可以评估所产生的列表并排除不正确的翻译。再者,也可以通过检查源语言中的单个单词,使用跨语言频率关联的方法和系统来构建字典。也可以使用本发明中使用共有频率分析(在下文中描述)识别单种状态或语言内语义类似的单词和单词串的方法来扩展目标语言翻译条目。
D.使用多方法差异进行获取
如果用于识别跨状态关联的任何方法产生的单词串翻译候选还不能达到满足作为正确翻译的用户定义准则的统计确定性,则可以一起使用两种或多种方法的部分结果来确认作为正确翻译的关联,或不能确认时,继续下一个候选翻译。在可用于分析的文本没有足够的相关单词串来达到统计确定性情况下,这是大家所希望的。使用不同方法得到的部分结果来确认单词串翻译,这作为使用更少的计算构建关联的方式(这将节约处理能力和处理时间)同样也是有用的。此外,如上所示,本发明中识别语义等价单词串的方法可以用于辅助本发明或任何其他系统的任何单词串翻译方法来识别或确认单词串翻译。
应注意,本发明能够追踪用于确定确认为翻译的结果(以及下文中描述的语义等价及本发明的方法的任何其他输出)的用户定义参数的结果。对结果进行这样的评估将允许系统使用这些结果来自动确定有效定义的参数。这些需求通常包括使用各种方法的组合来提供组合的返回是准确翻译的统计确定性。
III.跨状态知识重建方法和装置
本发明的另一个方面涉及提供通过由第一种状态、形式或语言的数据组成的第一个文档创建第二种状态、形式或语言的数据组成的第二个文档,使得第一个和第二个文档最终表示本质上相同的概念或信息的方法和装置,且所述方法和装置包括使用跨概念关联数据库。可以使用本发明的任何方法“预先构建”数据库条目或可以“根据需要”(即时)构建。
翻译方法的一个实施例使用双锚点重叠方法来获取概念从一种状态到另一种状态的准确翻译。另外的实施例可以允许当目标语言中的相邻片段在重叠的源语言单词串的直接翻译中没有目标语言重叠时,如果通过第三语言然后到目标语言的间接翻译在第三语言中重叠且它们的翻译也在目标语言中重叠,则确认它们。本发明使用双锚点重叠方法,支持将第二种语言、形式或状态的构建块单词串有机地连接到一起,并使它们在正确的上下文中以准确的方式成为那些单词和短语的准确翻译,就像以第二种语言为母语的人写出或说出的那样。此方法解决了现有的EBMT系统碰到的边界冲突问题。
在本发明的一个实施例中,组合单词串关联数据创建方法和重叠方法来提供任意长度的文档的准确语言翻译。通过将任何源语言输入解析为一系列的单词串,其中每个单词串都与在其之前和之后的解析后的单词串两者具有用户定义数量的重叠单词,并检验那些单词串在目标语言中的翻译,查找重叠单词或单词串,本方法和系统可以通过在链中拼凑构建块概念来翻译文档。当用户定义的设置要求更多重叠单词时,这能在目标语言中得到更加准确的单词串翻译组合。
再者,手动或通过任何自动方法装配的单词串翻译结果包括本发明中用于跨语言构建单词和单词串关联的任何方法(如,使用平行文本、多语言杠杆、目标语言洪流等等),通过要求单词串翻译在作为更长的翻译查询的部分时(只要使用两边的已知的单词串翻译作为锚点)两边与相邻的单词串具有更长的重叠单词串(即,更多重叠单词),可以检验这些结果的准确度。双锚点重叠方法不允许语义正确但不满足较长翻译查询的具体上下文的翻译,而且,双锚点重叠将排除语义上不正确的翻译。因此,当该方法单独不能达到用户定义的单词串翻译确认点时,可以使用双锚点重叠方法来确认或排除通过本发明的任何跨语言关联方法识别出的候选单词串翻译。例如,如果只将源语言文档解析为和每个单词串的所有单词具有完全重叠的单词串片段,且已知最左边和最右边的单词串翻译是准确的,则不接受语义或语法上不正确的目标语言翻译候选。
再者,一旦通过用已知单词串翻译作为锚点的较长重叠确认了单词串翻译候选,则可以将这些新确认的单词串单元作为已知的准确翻译添加到数据库中。此外,可以将跨两个已知单词串翻译的两种语言的重叠单词串作为独立的单词串翻译确认。
A.使用关联数据库和双锚点重叠技术进行文档翻译
作为另一个较佳实施例,本发明可以通过使用上述的跨语言数据库将第一种语言的文档翻译为第二种语言的文档。可以存在单词串翻译的条目,或可以使用上述跨语言构建单词串翻译的方法中的任何一种来即时构建这样的条目。
本发明的这个方面的一个实施例首先使用上述识别可能的目标语言单词串翻译的方法中的任何一种,定位要翻译的文档(源语言文档)中每个句子开始处的最长单词串及其满足用户定义的准则的所有可能翻译。接下来,该方法识别要翻译的文档(源语言文档)的每个句子中与先前识别出的单词串具有用户定义数量的重叠单词的第二个单词串,及其可能翻译(用户定义所需的重叠长度(即,单词数))。如果(源语言中)句子的第二个标识的单词串的目标语言单词串翻译与句子的第一个单词串翻译中的一个具有用户定义的最小重叠,则将翻译的组合作为组合的翻译单元确认。如果不能产生重叠的翻译,则识别源语言单词串具有用户定义的最小重叠的不同解析(即,不同的开头和/或末尾位置),并通过单词重叠或用户定义的大小的单词串检验它们相应的目标语言翻译是否能组合。接下来,识别与源语言中第二个识别出的单词串具有用户定义的最小重叠单词数的源语言中的第三个单词串及其目标语言翻译。如果第三个识别出的单词串的任何翻译与第二个识别出的单词串的翻译具有重叠单词,则将该组合确认为翻译。识别与先前识别出的源语言单词串具有用户定义的最小重叠单词的下一个源语言单词串,并重复此处理,直到:(1)已识别源语言文档中的每个重叠单词串(具有至少用户定义的最小重叠长度)及其可能的目标语言翻译,(2)源语言和目标语言两者中每个单词串都在左边和右边具有至少为用户定义的最小长度的重叠单词串(重叠也可以是一个单词,如果用户这样定义的话),除了开头的串只在右边重叠,而最后一个串只在左边重叠,及(3)选择满足上面的属性1和2的最长的串作为最终输出的翻译。另外,可以基于用户定义的准则,优先于具有更短重叠的更长的串,选择具有较长重叠的较短目标语言单词串(即,具有更少单词的串)。重叠比率和串长度之间权衡是可编程的参数,并可以通过手动或自动优化操作对其进行优化。
由于跨语言的单词串翻译对单词串中的每个单词都具有合适的内置上下文,且双锚点重叠方法提供单词串翻译的准确组合,翻译文档的准确度水平远优于任何现有的翻译方法。本发明使用关联数据库创建方法来构建单词串构建块概念,并通过跨语言双锚点重叠方法将构建块概念组合为任何数量的较大组合概念。
要使用双锚点重叠方法作为翻译查询单元串翻译的链的分界点是用户定义的(在上述实施例中,用户对翻译查询单元串的定义是句子)。例如,而不是句子,可以将此概念扩展为要求对更短的单元(如,在标点符号之间)或更长的单元(如,包括标点符号的段落)的所有相邻单词串,跨源语言和目标语言的单词串翻译应重叠。因为开头和末尾两处的重叠单元只有一边通过重叠得到确认,所以当准备接受第一个或最后一个单词串作为翻译时,用户定义的构建单词串翻译准则可以更加严格。再者,可以使用本发明识别语义等价单词串的方面来确认任何单词串的翻译(通过对源语言和/或目标语言同义词的翻译提供附加的检查)。
例如,考虑包含以英语输入并准备翻译为希伯莱语的下面的句子的成分的希伯莱语-英语单词和单词串翻译的数据库(使用本发明的任何方法构建或手动构建):“In addition to my need to be loved by all the girls in town,I alwayswanted to be known as the best player to ever play on the New York statebasketball team”。
通过上述处理,处理方法可以确定短语“In addition to my need to be loved byall the girls”是源语言文档中开始于源语言文档的第一个单词并存在于数据库中的最长的单词串。它在数据库中与一些单词串关联,包括希伯莱语单词串“benosaf ltzorech sheli lihiot ahuv al yeday kol habahurot”。然后处理使用上述方法确定下面的翻译—即,相同文本中(并存在于数据库中)与先前识别出的英语单词串有一个单词(或另外,用户定义的最小长度的单词串)重叠,且那些重叠的英语单词串的两个希伯莱语翻译也具有重叠片段的最长的英语单词串。例如:
“loved by all the girls in town”翻译为“ahuv al yeday kol habahurot buir”;
“the girls in town,I always wanted to be known”翻译为“Habahurot buir,tamid ratzity lihiot yahua”;
“I always wanted to be known as the best player”翻译为“tamit ratzity lihiotyahua bettor hasahkan hachi toy”;及
“the best player to ever play on the New York state basketball team”翻译为“hasahkan hachi tov sh hay paam sihek bekvutzat hakadursal shel medinat newyork”。
根据数据库中的这些返回,处理以某种方式操作来比较重叠单词和单词串并排除冗余。使用本发明的方法,系统将取得英语片段“In addition to my needto be loved by all the girls”和“loved by all the girls in town”并返回希伯莱语片段“benosaf ltzorech sheli lihiot ahuv al yeday kol habahurot”和“ahuv al yeday kolhabahurot buir”并确定重叠。
在英语中,这些短语是:
“In addition to my need to be loved by all the girls”和“loved by all the girls intown”。去除重叠,得到“In addition to my need to be loved by all the girls intown”。
在希伯莱语中,这些短语是:
“benosaf ltzorech sheli lihiot ahuv al yeday kol habahurot”和“ahuv al yedaykol habahurot buir”。去除重叠,得到:“benosaf ltzorech sheli lihiot ahuv al yedaykol habahurot buir”。
然后本发明操作下一个解析出的片段来继续处理。在此例子中,处理操作短语“the girls in town,I always wanted to be known”。希伯莱语中对应的单词集合是“habahurot buir,tamid ratzity lihiot yahua”。在英语中,重叠处理按如下操作:通过“In addition to my need to be loved by all the girls in town”和“thegirls in town,I always wanted to be known”得到“In addition to my need to beloved by all the girls in town,I always wanted to be known”。
在希伯莱语中,重叠处理按如下操作:
通过“benosaf ltzorech sheli lihiot ahuv al yeday kol habahurot buir”和“hab ahurot buir,tamid ratzity lihiot yahua”得到“benosaf ltzorech sheli lihiotahuv al yeday kol habahurot buir,tamid ratzity lihiot yahua”。
本发明对要翻译的文档中余下的单词和单词串继续此类的操作。因此,在较佳实施例的例子中,下一个英语单词串是“In addition to my need to be lovedby all the girls in town,I always wanted to be known”和“I always wanted to beknown as the best player”。由数据库对这些短语返回的希伯莱语翻译是:“benosaf ltzorech sheli lihiot ahuv al yeday kol habahurot buir,tamid ratzity lihiotyahua”和“tamid ratzity lihiot yahua bettor hasahkan hachi tov”。去除英语重叠,得到“In addition to my need to be loved by all the girls in town,I always wanted tobe known as the best player”。去除希伯莱语重叠,得到:“benosaf ltzorech shelilihiot ahuv al yeday kol habahurot buir,tamid ratzity lihiot yahua bettor hasahkanhachi tov”。
继续此处理:下一个单词串是“In addition to my need to be loved by all thegirls in town,I always wanted to be known as the best player”和“the best player toever play on the New York state basketball team”。对应的希伯莱语短语是“benosaf ltzorech sheli lihiot ahuv al yeday kol habahurot buir,tamid ratzity lihiotyahua bettor hasahkan hachi tov”和“hasahkan hachi tov sh hay paam sihekbekvutzat hakadursal shel medinat new york”。去除英语重叠,得到“In additionto my need to be loved by all the girls in town,I always wanted to be known as thebest player to ever play on the New York state basketball team”。去除希伯莱语重叠,得到“benosaf ltzorech sheli lihiot ahuv al yeday kol habahurot buir,tamidratzity lihiot yahua bettor hasahkan hachi tov sh hay paam sihek bekvutzathakadursal shel medinat new york”,即要翻译的文本的翻译。
在此处理完成时,本发明返回并输出最终的翻译文本。
应注意,这些返回是数据库根据上述处理返回重叠关联的最终结果。系统通过此处理最终不接受第二种(目标)语言中没有自然符合连接的返回,即,如上所述左边和右边要与相邻的语言片段重叠,除了第一个和最后一个片段之外。若希伯莱语返回与相邻的希伯莱语单词串关联没有准确重叠,则拒绝它并用该英语单词串的与相邻的希伯莱语单词串重叠的分级最高的希伯莱语单词串关联来替换,或可以从数据库中检索重叠的英语单词串(更短或更长)及其希伯莱语翻译,并检验希伯莱语中的准确重叠。
在附录B中(第253页(译者注:原文页码)),本发明的打印输出展示使用双锚点重叠方法组合使用两种状态的平行文本进行获取的方法来翻译的例子。
在附录C中(第297页(译者注:原文页码)),本发明的打印输出展示使用双锚点重叠方法组合使用两种状态的平行文本进行获取和使用多状态进行获取的方法来翻译的例子。
在附录D中(第308页(译者注:原文页码)),本发明的打印输出展示使用双锚点重叠方法组合目标语言洪流方法来翻译的例子。
可以对重叠准则建立各种用户定义的参数。例如,当重叠中的一个或多个单词是停用词(如,“the”、“it”、“in”)时,所需的重叠单词数量可以更大,因为这些普通单词使得单词串组合的连接点不可靠。翻译候选与和它重叠的两个翻译之间的重叠单词串越长,单词串翻译越不确定。如果翻译是不正确的,则它不会与它两边的相邻翻译有较长的重叠。
因此,用户定义的最小重叠要求可以是动态的,并且可以基于翻译是已知正确的还是基于本发明中用于构建单词串关联的不同方法确定为候选,要求在解析后的单词串翻译之间具有更少或更多的重叠单词。再者,为确认翻译在重叠中所要求的最少单词数量可以忽略重叠的停用词来满足此要求。
例如,假设用户定义的要求需要两个或多个重叠的非停用词来确认两个单词串翻译的组合,且将重叠的解析后的单词串“and I know it is good”和“it isgood to run two miles”作为要翻译的较长单词串的部分向系统提供。系统不能接受此解析结果,因为重叠单词串“it is good”中并没有两个非停用词,因此它不满足用户定义的重叠要求。单词串需要片段之间有更多单词来满足要求,然后检验重叠的相应目标语言翻译(如,“and I know it is good”和“know it isgood to run”)。
如果通过本发明的任何方法、任何其他的自动翻译方法识别,或手动创建的单词串翻译候选不能确定为准确翻译,则双锚点重叠方法可以要求所有单词串(除了第一个和最后一个单词串)必须让串中的每个单词与左边或右边的相邻单词串翻译重叠。例如,要翻译的单词串“完全重叠”的一种可能解析可以如下:
源语言(英语)翻译查询:“The best time of the year is the summer becauseyou can sit in the sun and then jump in the pool”。
一种可能的完全重叠解析:
“the best time of the year”
           “time of the year is the summer because you”
                       “year is the summer because you can sit in the sun”
                                    “because you can sit in the sun and then”
                                                   “sun and then jump in”
                                                            “jump in the pool”
更完全的方案可以是在将源语言翻译查询解析为重叠单词串时,对每个连续的单词串重叠只向前移动一个单词。例如:
“the best time of”
    “best time of year”
         “time of year is”
             “of year is the”
                  “year is the summer”
可以继续上面开始的处理,直到解析出翻译查询的每个单词的最大重叠。
因为单词串在左边和右边完全重叠(除了第一个和最后一个单词串,只能通过单方重叠对它们进行某些附加的确认),如果它们的翻译候选不正确(或只在不同的周围上下文中正确),则不能接受。应通过本发明的关联方法中的一种(或手动),独立地将左边的第一个单词串确认为准确翻译(至少在单词串不重叠的左边),应独立地将句子末尾的最后一个单词串作为准确翻译确认(至少在未重叠的右边)。在上面的例子中,单词串“the best time of the”和“jump in the pool”各自都应独立地作为准确翻译确认或至少在它们左边和右边得到确认。这些经确认的翻译给出准确的端点,可以作为重叠单词串翻译候选链的锚点。
相同的重叠方法可以应用于单词串连接来构成更长的统一单词串,用于使用单种状态或语言的应用,如下文所述。
B.使用双锚点重叠进行知识获取
再者,每次组合两个具有重叠单词串的经确认的翻译时,可以确认对应于单词串的跨语言翻译的两个附加的数据库条目,并基于重叠的结果将它们添加到数据库中。首先,可以将总的重叠翻译组合作为一个整体单元确认以备将来使用。其次,源语言和目标语言中重叠单词的单元通过本发明构成单词串翻译,并且可以将其添加到数据库中以备将来使用。
例如,假设跨语言数据库具有下面的语言X单词串及对应的在语言Y中的已知翻译:
语言X的单词串        在语言Y中的翻译
1.“EE KK GG XX”    1a.“ll bb ee”
                     1b.“ee kk gg xx”
2.“GG XX BB YY”    2a.“gg ll bb yy”
                     2b.“gg xx bb yy”
                     2c.“gg xx mm ll”
基于上述数据库条目,可以确认下面的附加数据库条目并将它们作为合法的翻译输入:
  3.“EE KK GG XX BB YY”   3a.“ee kk gg xx bb yy”3b.“ee kk gg xx mm ll”
  4.“GG XX”   4a.“gg xx”
条目3是排除源语言和目标语言中的重叠单词之后的组合单词串翻译。条目4是源语言和目标语言两者中的重叠单词串,它将重叠中的较短单词串作为独立的单词串翻译确认。
查询串洪流列表中未使用目标语言洪流方法(或使用任何其他方法)作为准确翻译确认的翻译候选可以通过源语言和目标语言中较长的重叠单词串来检验。如果重叠单词串翻译候选通过较长的重叠链接到一起,且在较长的翻译单元开头和末尾处与已知的单词串翻译重叠,则可以将翻译候选以及每个跨两种语言的相应重叠中的单词串确认为翻译。上述识别重叠单词串中的翻译的方法可以通过利用跨两种语言重叠的现有翻译来扩展任何跨语言数据库,可以自动生成或手动装配它们,以便由EBMT系统、翻译存储器系统使用或用于任何其他目的。
C.其他相关应用
上述组合使用跨语言关联数据库和跨语言双锚点重叠翻译方法的实施例明显可以用于改进尝试将信息从一种状态等价转换为另一种状态的现有技术的质量,如现有技术中的语音识别软件和光学字符识别(OCR)扫描设备,以便跨多种来源关联信息,并在一种语言内翻译不同的行话或方言。通过使用本发明的翻译方法来查看是否可以翻译这些结果,这些技术(以及其他技术)可以使用本发明来检验它们的系统的结果(输出)。当不能找到与相邻单词串重叠的翻译时,可以警告和询问用户,或系统可以编程为在数据库中对翻译中不重叠的部分查找接近的其他选择。查找与相邻单词串重叠的替代单词串的各种准则包括那些基于上下文使用关联数据库的实施例在一种语言内产生语义等价的准则(在下文中描述)。当然,所有对用户的返回都应转换回初始的语言。
除了辅助执行这些应用的现有技术,本发明的方法,包括跨状态学习和双锚点重叠方法,也可以直接用来构建这些应用。对OCR来说,字母和单词的可视表示可以用于构建单词和单词串、计算机编码如UTF-8和其他计算机语言及协议的可视表示之间的关联。可以设置那些教授如何使用计算机语言的文本,使之与描述计算机语言代码命令并作为训练文本的文本描述对齐,从而在人类语言和计算机语言之间构建关联。代码和计算机代码的书面描述也可以用作使用本发明的方法构建关联的平行文本语料库。对语音识别来说,可以分析声波和书面文本,在以两种不同的状态表示的共有概念之间做出关联(使用书面文本的单词串以及与这些文本的关联并作为“平行文本”的音频声波来训练系统),如下文所述。
IV.单状态频率关联数据库创建和共有频率分析方法和装置
A.简介
本发明的另一个实施例提供(1)创建由单种语言(如,日语或英语)的单词和单词串表示的概念的频率关联数据库(FAD)的方法和装置,及(2)使用FAD来识别两个或多个单词和/或单词串之间的共有关系的方法和系统。第二种方法和系统称为共有频率分析(CFA),可以在各种应用中用它来生成关联概念的列表。
在此实施例中,一旦创建了FAD,就用它来存储有关两个或多个重现单词串模式之间在文本中的邻近程度关系的信息。一旦建立并通过第一个处理存储了这些邻近程度关系,就为第二个处理,即CFA,提供了基础,CFA是分析和识别同时由两个或多个单词和/或单词串共享的第三单词或单词串关联。此CFA处理为各种知识获取和知识生成应用提供基础。
频率关联程序可以实现本发明的某些方法,用于构建本发明的数据库,及分析存储在数据库中的信息来确定单词和/或单词串之间的关联。图2和图3展示计算机系统200的存储器208,其中存储了由处理器202访问的智能应用302、关联程序304、数据库306和操作系统308。关联程序304可以分析数据库306来确定单词关联,以响应来自智能应用302的查询或响应用户通过输入设备直接提交的查询。数据库306可以包括,例如,FAD和文档数据库。
通过基于出现频率及特殊片段相对于文档中其他片段的位置,解析输入到系统中的所有文档的文本并存储有关解析出的文本片段彼此如何关联的信息,FAD系统和方法进行工作。如上所述,解析出的文本片段可以包括单词和单词串,或使用拥有独立语义值的字符(如,中文字符)的语言的字符和字符串。在由FAD系统处理之前,可以将文档存储在文档数据库中以便对这些文档进行访问、解析和分析。
通过对用户定义的各个范围内的单词和单词串进行FAD分析,本发明识别文档内在彼此接近的位置频繁出现的单词和单词串。这些关联的单词和单词串可以由第二个处理,即CFA使用,以便识别基于与另外的第三概念和观念(同样在此由单词和单词串表示)所共有的关系而彼此具有较强关系的概念或观念(本实施例中由这些单词或单词串表示)。
CFA处理通过操作这些存储在FAD中的关联单词串来创建由关联概念列表组成的知识库。在本发明的一个实施例中,这些关联概念的列表(在此实施例中以单词和单词串表示)可互换地称为知识获取列表或语义等价列表。使用CFA的这个实施例,通过识别在查询周围或附近处于特定模式的单词串,系统对查询单词或单词串生成列表。这样的模式称为“左签名或右签名”或组合起来称为“摇篮”,由第三单词和/或单词串共享。对特定单词或单词串查询生成的结果识别出紧密关联的概念,包括单词或单词串的语义等价、反义概念、概念的例子,及其他由单词和单词串表示的关联概念。一旦通过每种语言的知识库建立了这些签名、摇篮和知识获取列表,就可以将它们用在机器翻译应用、搜索和文本挖掘应用、数据压缩,及很多其他应用中,包括允许用户要求系统学习和/或提供问题的答案或执行动作的人工智能或智能应用。
通过使用本发明的FAD来提供CFA的输入,系统可以确定两个或多个单词或单词串之间共有的第三单词和/或单词串关联。当操作FAD时,用户可以将文档中要检查的范围定义为彼此邻近每个选择的单词或单词串的每次出现的任何数量的单词和/或用户定义长度的单词串。
一旦建立了这些单词和单词串关系并将它们存储在FAD中,系统基于来自智能应用302的指令(见图3)执行一次或多次CFA,搜索由智能应用302选择的两个或多个单词和/或单词串的范围所共有的单词和/或单词串。当系统执行CFA时,如果此信息先前已存储在FAD中,可以检索单词或单词串在每个选择的单词或单词串的范围内的出现频率(或可以使用文档数据库中的文本或任何其他可用文本,包括因特网上的文本,即时分析先前未分析过且存储在FAD中的任何信息)。
创建单种状态的FAD类似于上述使用平行文本识别单词串翻译来创建跨语言FAD。在该情况,在目标语言文档中确定范围,并对重现单词和单词串进行计数来确定范围中的出现频率。当单种语言或状态的创建FAD时,原理是相同的,但单词串的频率和邻近程度是用于确定单种语言或状态中单词和单词串上下文的模式,而不是单词和单词串的跨语言翻译。
构建出记录每个重现单词或单词串邻近程度关系的FAD的另外一种做法是识别在文档数据库中重现的单词和单词串出现的位置和频率,将它们存储在更简单的重现数据库中,并建立单词串频率索引,这样的例子在表4中展示。将重现数据库作为单词串频率索引而不是FAD使用,关联程序304可以识别所有相同的单词串模式,并基于用户定义的权重或其他准则,确定由智能应用302选择的两个或多个单词和/或单词串共享的分级最高的第三单词和单词串关系(见图3)。
B.频率关联数据库(FAD)的创建
1.概述
在此揭示了构建FAD的方法,该方法可以应用于单种语言的文档,以基于它们在文本中的出现频率及相互邻近程度来构建关联单词和单词串的数据库。FAD提供用于本发明的CFA的构建块。所述方法包括:
a.组装单种语言的文本语料库(可以存储在文档数据库中)。
b.搜索任意单词或单词串在组装的语料库中的所有多次出现。
c.确定用户定义的数量的具有用户定义的长度并出现在当前分析的单词或单词串的任一边(或两边)的单词和/或单词串。以此作为范围。除了将范围定义为特定数量的单词之外,还可以广义地定义范围(如,单词或单词串所处的具体文本中的所有单词)或狭义地定义范围(如,与当前分析的单词或单词串具有特定邻近程度的特定长度(即,单词数量)的单词串),用户可以对具体应用选择范围的不同定义。
d.搜索语料库,并确定每个单词和单词串在选择出的当前分析的单词或单词串周围的范围中出现的频率,且如果需要,可以确定它们与选择的单词或单词串之间的邻近程度。
如果将范围定义为每一边包括,例如,最多30个单词,则系统记录每个单词和单词串在这些单词或单词串中每边30单词内的出现频率。如果将范围定义为查询单词或单词串右边包括三单词串,查询左边包括四单词串,则只将右边包括三单词串且左边包括四单词串的查询视为此模式的重现。系统可以记录每个单词或单词串与当前分析的单词或单词串之间的邻近程度。
如上所述,对特定的应用,可以控制系统识别并忽略普通单词,如“I”、“a”、“to”等等。然而,基于系统具体应用的目标,也可以考虑那些普通单词。因此,可以基于单词和单词串在当前分析的单词或单词串左边或右边准确地相距用户定义的单词数的位置上的出现频率来构建FAD。在这样的情况中,用户可以对该应用将范围狭义地定义为与当前分析的单词或单词串的具体邻近程度是一个具体长度的单词或单词串。
例如,系统可以分析可用的文档,确定它们中共10,000次包含短语“go to thegame”,并可能发现“go to the game”在距单词“Jets”20个单词的范围内出现87次。此外,系统可能确定“go to the game”准确地在单词“Jets”前面(在英语中,即左边,在从右往左读的语言,如希伯莱语中,即右边)七个单词之前出现八次(从单词串的第一个单词“go”开始数)。
也可以记录单词和单词串重现模式基于它们之间的单词数的任意组合。例如,数据库可以记录数据库中单词“Jets”在“go to the game”的三个单词之前出现且“tickets”在“go to the game”的九个单词之后出现的句子数。该模式可能出现三次,并且应用可以使用该单词模式在文本中的出现频率推导概念的意义,以帮助提供用户提出的问题的答案,或帮助执行用户做出的请求。
在现有技术中,存在基于用户定义的邻近程度“搜索”单词或单词串的方法可由搜索应用使用,搜索应用使用用户定义的搜索参数得到的结果来向用户呈现包含那些基于邻近程度要求的搜索项的文档。然而搜索方法并不使用应用来自动搜索这些参数(例如,基于文本中的频率)并且也不将此信息存储用于基于应用中进一步的自动步骤自动地获取或学习知识。
本发明的这些FAD基于它们彼此之间的邻近程度(通过它们之间的单词数衡量)指示文本中确切的重现单词串模式,可以使用一系列的狭义定义的范围单独地生成这些FAD。然而,通常最频繁且最有用的单词和单词串模式是(在左边和右边)与当前检查的单词或单词串相邻或通常非常接近的那些。
2.使用重现单词串索引的FAD
如果使用上述方法按上述构建包含可用文本中所有重现的单词模式之间的每个邻近程度和频率关系的数据库,则会需要较多的计算次数。很多作为此完整处理的结果构建出的关系可能永远不会被应用使用。下面的方法包括索引重现单词串来避免上述可能永远不会用来确定准确关系的处理。
此外,下面的索引处理可以用作上述基于具体单词或单词串在范围内的位置自动确定准确模式的频率并进行分析的方法的替代处理。本发明的这个实施例是构建重现数据库的方法,重现数据库只包括每个重现单词和单词串在文档数据库中的位置,而并不包括与其他条目的邻近程度关系。此方法如下:首先,搜索所有单词和单词串在可用文本中的重现。其次,在数据库中记录多次出现的每个单词和单词串的“位置”,这可以通过记录它在所处的每个文档中的位置来进行,例如,标识串中的第一个单词的单词编号,及文档数据库中的文档编号。另外,也可以只存储文档数据库中单词或单词串所处的文档的文档编号。在此情况,可以在响应具体查询时搜索并即时确定单词或单词串的位置。
表4是重现数据库中的条目的例子。
表4
  单词或单词串   频率和位置
  “kids love a warm hug”   20次(单词58/文档1678、单词45/文档560、单词187/文档45,231、单词689/文档123、…)
  “kids love ice cream”   873次(单词765/文档129、单词231/文档764,907、单词652/文档4501、…)
  “kids love a warm hug beforegoing to bed”   12次(单词58/文档1678、单词45/文档560、单词187/文档45,231、…)
  “kids love ice cream beforegoing to bed”   10次(单词765/文档129、单词231/文档764,907、…)
  “kids love staying up late beforegoing to bed”   17次(单词23/文档561、单词431/文档76,431、…)
  “before going to bed”   684次(单词188/文档28、单词50/文档560、单词769/文档129、单词436/文档76,431、…)
如所示,在文档数据库中出现不止一次的单词或单词串的每次出现都将添加到频率计数中,且通过文档中指定的单词编号位置以及用于标识它所处的文档的编号,或通过使用单词或单词串在文档数据库中的位置的任何其他标识符,记录其位置。
如果对文档数据库中的所有文档完全并完整地生成了重现数据库(包括单词编号位置以及文档编号),则位置信息允许系统按如上所述计算任何一般性的频率关系,或任何具体单词串模式频率关系。直到完全构建了重现数据库,系统才在从重现数据库中识别了位置之后,即时对文档数据库中的文档中的两个或多个范围执行FAD,或使用现有技术中的任何搜索方法对文档数据库中单词串即时执行一般搜索。在系统通过直接分析文档数据库中的文档响应有关查询时,可以添加未出现在重现数据库中的任何单词或单词串重现,以补充对重现数据库的分析。在通过对文档数据库中的文档进行直接分析获取的信息已用于为其所生成的具体任务之后,可以将信息存储在重现数据库中,以便将来使用。无论系统是否使用重现数据库构建FAD分析,或是否通过用查询作为关键词搜索文档来即时创建那些关系,系统都将识别出由单词或单词串表示的任何重现概念之间的关系。
C.共有频率分析—通过关联方法和装置进行知识库获取和生成
共有频率分析(CFA)是本发明中生成与两个或多个当前分析的概念(单词和/或单词串)具有共有关系的概念(由单词或单词串表示)的列表的方法。可以使用CFA的几种不同的实施例来生成不同类型的知识获取列表或关联概念。这些列表可以在多种应用中使用,包括智能应用。在智能应用中,使用CFA的其他实施例执行附加的分析来检索新信息,以帮助回答问题或执行任务。
现参考图3,在CFA处理中,智能应用302可以通过关联程序304用两个或多个单词和/或单词串查询频率关联数据库或重现数据库来识别哪些第三单词和/或单词串在用户定义的范围内与所提供的单词和/或单词串的部分或全部频繁关联。在本发明的CFA方面的另一个实施例中,系统在接收到单词或单词串查询(来自,例如,用户或智能应用302的)时对查询使用两个或多个FAD条目识别两个或多个单词和/或单词串,以做出两个或多个识别出的单词和/或单词串之间的关联。此类CFA作为知识获取列表生成处理的一部分用于识别单词串签名和摇篮来识别语义等价及单词和/单词串之间的其他关系(如下文所述)。
有两种执行CFA的不同方法:(1)独立共有频率分析(ICFA),及(2)相关共有频率分析(RCFA)。另外,在使用两种处理中的任何一种之后,系统可以通过在附加的一代或多代中使用它们,或通过组合任何CFA的结果和/或片段用于进一步的CFA来进行进一步的统计分析。
1.独立共有频率分析(ICFA)
当智能应用302向关联程序304(见图3)提供两个或多个单词和/或单词串以进行CFA时,系统可以通过参考本发明的FAD识别与所提供的单词和/或单词串频繁关联的所有单词和单词串。然后系统可以基于用户定义的准则识别那些与两个或多个所提供的单词和/或单词串的部分或全部频繁关联的单词和/或单词串。
系统可以按各种用户定义的方式对它识别出所提供的单词和/或单词串之间的共有关联进行分级。例如,系统可以通过加上(或乘或任何其他用户定义加权法)与所提供的单词和/或单词串中每一个的共有单词或单词串关联频率来对关联进行分级。作为用户定义参数的另一个例子,可以要求得到所提供的单词和/或单词串的所有表上的最小频率(通过列表上的位置、原始的出现次数,或任何其他度量来衡量)。
例如,使用上述重现数据库中的条目,如果任务是查找与单词串“kidslove”和“before going to bed”都关联的概念,则系统可以计算第三个概念,如“ice cream”,在所有可用文档中用户定义的范围内与第一个概念“kids love”一起出现的频率作为一次分析,而计算“ice cream”和第二个概念“before goingto bed”一起出现的频率作为第二次分析。然后应用可以使用独立的关系中每一个的频率,给出彼此的相对值。这将基于“ice cream”的频率在“kids love”的频率表和“before going to bed”的频率表上(基于用户定义的范围)分级有多高(用户定义的绝对或相对值)。
基于用户定义的值,此方法在分析“ice cream”之后,通过在“kids love”的频率表上定位“a warm hug”的相对频率(基于用户定义的范围或应用的邻近程度要求),然后在“before going to bed”的频率表上定位“a warm hug”来识别“a warm hug”。可以比较两个频率表上所有其他的频繁关联(可能是用户定义的),例如“staying up late”,并基于通过两个表组合的相对频率的用户定义值打分。系统将基于每个频率关联的用户定义权重生成分级最高的单词串。
此分析的结果可以是,系统能够推导出虽然比起“kids love”“warm hugs”来,“kids love”“ice cream”更多,但是在“before going to bed”时,比起“kidslove”“ice cream”来,“kids love”“warm hugs”更多。
2.相关共有频率分析(RCFA)
除了查找每个查询单词或单词串独立具有的共有单词和单词串关联,一个实施例可以尝试识别只在那些包含两个或多个当前分析的单词和/或单词串的文档的用户定义范围中出现的单词和/或单词串的频繁出现。相关共有频率分析不同于独立共有频率分析,因为当前进行RCFA分析的相关的单词和/或单词串在文档的用户定义范围内一起出现,而后者在分析时只考察独立出现。本发明的RCFA的这个实施例使用下面的步骤:
首先,从可用的语料库中定位所有包含两个或多个提供的单词和/或单词串的文档。例如,如果文档是存储在文档数据库中,则可以通过返回表示包含两个或多个提供的单词和/或单词串的文档的具体文档编号来定位它们。文档编号是指那些通过现有技术中或本申请中描述的索引方案指定的编号。
然后,识别并比较用户定义的范围内邻近所提供的单词和/或单词串的每个单词和单词串,并记录范围中任何一个单词和单词串的频率。再次,用户定义的范围可以较窄并只包括与提供的单词或单词串处于特定邻近程度(如,连续)的重现单词或单词串。
例如,假设向系统提供两个单词串“kids love”和“before going to bed”并对它们进行RCFA分析。进一步假设重现数据库包含下面的条目:
  “kids love a warm hug”   20次
  “kids love ice cream”   873次
  “kids love a warm hug beforegoing to bed”   12次
  “kids love ice cream beforegoing to bed”   10次
  “kids love staying up late beforegoing to bed”   17次
  “before going to bed”   684次
当使用两个单词和/或单词串进行RCFA分析时,重现数据库将使系统指向文档数据库中同时包含两个片段(如,“kids love”和“before going to bed”)的文档,因为有相同的文档编号与之关联。通常,系统只定位那些在其中单词串彼此相距用户定义的单词数或彼此处于任何其他用户定义的符合条件的邻近程度的文档。
一旦系统识别出了文档数据库中在指定的邻近程度内包含“kids love”和“before going to bed”的所有文档,系统就能构建两个提交的单词串周围用户定义的范围内的所有重现单词和单词串的频率表。在基于数据库中量有限的文本的例子中(并假设用户定义的范围要求单词和单词串与当前分析的单词或单词串相邻),“ice cream”在两个所提供的短语的范围内出现10次,因此具有频率10,“staying up late”在两个所提供的短语的范围内出现17次,因此具有频率17,而“a warm hug”在两个所提供的短语的范围内出现12次,因此具有频率12。
如果相对于两个RCFA单词串的范围扩大,则现有的4重现数据库也可以包括取决于用户定义的单词串范围添加到上述频率计数中的其他单词串。例如,在相同的文本中可能有重现单词和单词串靠近“kids love”和“before goingto bed”但不直接与它们相邻(如,“kids love ice cream and other sweets beforegoing to bed”)。这也意味着如果短语“ice cream and other sweets”重复出现,它也是对查询的独立回答。本发明中识别语义等价项的方面在应用中(基于用户定义的准则)将返回“ice cream”和“ice cream and other sweets”分组为单个语义分类(如,甜食)。此外,概念的顺序可以不同而意义保持相同(如,“before going to bed,kids love ice cream”),希望将这一点添加到分析中。本发明中识别语义类似概念的方面(组合双锚点重叠方法)将把具有相同意义的不同的概念顺序作为语义等价来识别。
此外,作为本发明的另一个实施例,可以使用已知或已确定的语义等价来代替要搜索的单词和单词串(使用RCFA或ICFA)用于在语义等价的范围周围查找重现单词和单词串。例如,系统也可以搜索“kids like”、“kids reallylove”、“kids enjoy”、“children enjoy”或“children love”来代替“kids love”。可以使用相同的方法用对系统已知的等价来替换“before going to bed”,如“before bed”、“before going to sleep”或“before bedtime”。
上述的单词顺序问题和语义替代问题两者均通过本发明检测单词串模式的能力来处理。如下文所述,本发明的共有频率方法将产生大量的语义等价单词和/或单词串,可以将它们用于以多得多的相关语义搜索项扩展分析。另外,如下文所述,通过识别一起出现在共同的较大普通组的模式中的共同类别的单词串的模式,本发明也可以识别顺序不同但是意义相同的概念(如,“the boy andthe spotted dog”和“the dog with the spots and the boy”将被视为等价的较大语义单元。确定语义等价概念的方法和识别以不同的顺序安排其成分构建块概念的语义等价的较大概念的方法两者都是本发明理解自然语言的知识获取能力的附加方面。
3.二级频率分析(RCFA或ICFA)
在另一个实施例中,系统可以对构成查询的第一个或第二个单词或单词串与在CFA中识别出的选择的第三个单词或单词串(即,返回的结果)之一或两者执行CFA,这将给对应用执行的分析添加新的信息。例如,如果基于“beforegoing to bed”(第一个)和“kids love”(第二个)的共有范围内的所有单词和单词串的频率选择出的共有关联是“ice cream”(第三个),则此实施例在“before going to bed”(第一个)与“ice cream”(第三个),或“kids love”(第二个)与“ice cream”(第三个)之间生成RCFA或ICFA,并基于那两次频率分析选择关联。例如,“ice cream”和“before going to bed”可能与“stomach”具有较高的频率关联,这可能在本发明的应用的分析中有用。再者,可以使用相同的方法,按照用户或智能应用所定义的任意多的组合或任意多代来分析任何两个或多个单词和/或单词串。具体应用将使用自动分析,以便基于每次连续的CFA结果识别对每一代关联频率分析执行哪种CFA。更复杂的应用将在组合使用两个或多个独立的结果之前识别要执行的两次或多次频率分析。
V.使用CFA进行单状态知识获取
可以基于该语言中频繁出现在它们周围的单词串的模式,将一种语言中表示相同概念的单词和/或单词串作为同一语义族的部分来识别。通过查看具体单词和单词串出现在特定单词或单词串之前(在英语中,即位于特定单词或单词串的左边)以及出现在特定单词或单词串之后(在英语中,即位于特定单词或单词串的右边)的频率,这些模式将变得明显。因此,本发明的知识获取列表生成方面使用两种特定的CFA,这两种特定的CFA设计为充分利用表示类似概念的单词和单词串(或共享某些其他语义关系)在频繁出现于其前面和后面的单词和单词串的类型和顺序上具有共性这一事实。
通过在此实施例中使用RCFA或ICFA来创建知识获取列表,系统可以基于在相关概念左边和右边频繁共享的单词串生成完全的单词和单词串数据库,在其中包括高度相关的概念。虽然其他相关信息也会有较高的分级,关联最密切的单词和单词串(即,共享相同的频繁出现的左边和右边上下文单词串的那些单词和单词串)通常是语义等价的。其他相关概念包括反义(如,如果查询是“hard”,返回“soft”也可能分级较高)、大类中的相关概念(如,如果查询是“dark blue”,返回“orange”也可能分级较高)、例子(如,如果查询是“massive fraud”,返回“skewing documents and misrepresenting data”也可能分级较高),及其他相关知识。
例如,如果要求系统识别具有与另一个单词或单词串相同或几乎相同的意义的单词和/或单词串(即,语义近似(或同义)的单词和单词串),系统可以执行第一次CFA来查找频繁出现在查询左边和右边的单词和单词串,然后执行第二次CFA来识别该语言中最频繁共享相同的左边和右边上下文单词串的所有其他单词和单词串。通常由两个不同的单词和/或单词串共享的左边和右边上下文单词串的构成越接近,它们的意思也就越接近。虽然反义词也共享高频率的共有关联,它们取决于特定的重要上下文关联会有很大不同,这些上下文关联创建出系统可以识别的“反义签名”模式,这样可以过滤出查询的反义单词和单词串,或提供反义词列表以便在其他应用中使用。
由单词或单词串表示的概念与由单词或单词串表示的任何其他概念之间的关联特征将通过系统识别出的它们各自的签名集合之间的关系来定义。系统使用关联数据库来检测在用户定义的范围内频繁重现的特定单词构成,这些用户定义的范围是为检测包围概念并定义概念和其他概念之间的关系的单词模式而定制的。因此,单词或单词串的左签名和右签名(或在使用RCFA时称为摇篮)包括由该单词或单词串所处的不同周围单词串表示的所有上下文。取最频繁的左边和右边上下文单词串并查找哪些其他单词串在那些非常相似的签名之间频繁出现,这样能够识别同义或接近同义的,或其他高度关联的短语(单词串)和/或单词。
具有语义关系的其他单词串也会共享相同的左边和右边上下文单词串。相同总类的成员,如地点、颜色、姓名、数字、日期、运动等等,有很多相同的上下文单词串,系统可以通过这些上下文单词串来识别它们。其他关系,如表示查询单词或单词串的例子的单词和单词串,或表示其他与查询相关的事实的单词串,也将共享由本发明的CFA方面识别的特定的相同上下文单词串,且那些特定的相同上下文单词串将定义该特殊关系。
每种关系的特征由共享的上下文单词串以及不共享的上下文单词串定义。用户向系统给出定义关系的单词和/或单词串例子,而本发明中帮助在知识获取列表上的识别语义等价的方法包括(1)确定两个单词串在互相的知识获取列表上所具有的直接相互关系的方法,(2)确定两个单词和/或单词串都出现在其上的不同的知识获取列表的方法,(3)生成查询加上左签名及查询加上右签名的同义表达并检验它们是否重叠的方法。
将描述系统如何使用关联数据库和智能应用302(见图3)通过CFA检测语义等价的单串及其他关联知识的总的说明。系统也可以对所提供的单词和单词串执行ICFA和RCFA,并通过用户定义的加权处理组合结果。然后描述本发明的知识获取列表过滤和排序方法。
A.使用ICFA进行知识获取列表生成
一个实施例使用单词或单词串周围的特定单词构成来执行ICFA,这将识别在语义值(即,意义)上等价或近似等价的单词和/或单词串以及查询中的任何单词或单词串的其他相关的单词和单词串。此实施例包括:步骤1,接收由单词或单词串组成(查询短语)的要分析的查询,并(使用本发明的FAD方面)返回用户定义数量的具有用户定义的最小和最大长度,且返回短语在所有可用文档中直接位于查询短语左边的出现频率最高的单词和/或单词串(返回短语)。重现的用户定义的单词串越长,最终的结果通常就越精确(具体)。步骤2,使用在分析的每个单词或单词串右边的一个单词或单词串的范围,对步骤1中用户定义的数量的分级最高的结果中的每一个进行FAD分析(系统将通过在步骤1中返回并在步骤2中分析的每个单词或单词串右边的重现单词和单词串的出现频率进行分级)。然后添加步骤2中产生的所有相同的单词和单词串的频率。步骤3,对查询进行FAD分析,并返回用户定义数量的具有用户定义的最小和最大长度,且返回短语在所有可用文档中直接位于查询短语右边的出现频率最高的单词和/或单词串(返回短语)(再次,为保证准确通常希望是至少包含两个或多个单词的单词串)。步骤4,使用在当前分析的单词和单词串的每一个的直接左边的一个单词或单词串的范围,对步骤3返回的用户定义的数量的分级最高的单词和单词串中的每一个进行FAD分析。再次,通过在步骤3中返回并在步骤4中分析的每个单词和单词串前面的单词和单词串的出现频率,对结果进行分级。然后添加步骤4中的所有共有单词和单词串结果的频率。步骤5,识别通过步骤2和步骤4两者产生的所有单词和/或单词串。在一个实施例中,用步骤2中返回的每个单词和单词串的频数乘以步骤4中产生的单词和/或单词串的频数。分级最高的单词和/或单词串(基于步骤2和步骤4结果的频率乘积)通常是与查询最接近语义等价的单词和单词串。此处理产生的列表称为知识获取列表。
作为另外的实施例,在步骤5中,可以基于步骤1和步骤3中与查询共享的不同的单词串返回的总数,对步骤2和步骤4的返回进行分级。
步骤1和步骤3的组合处理是ICFA的实施例,其中使用单个单词或单词串来单独识别与查询相关的不同单词和/或单词串组。步骤2、步骤4和步骤5的组合是ICFA的另一个实施例,其中使用两个单词和/或单词串来识别共有关联的第三个单词和/或单词串。
下面的例子展示这些实施例,使用假想的数据库来在来自系统的文档数据库的单词和单词串之间创建关联,然后使用ICFA创建关联。假设用户输入单词“detained”来确定系统已知的该单词的所有单词和单词串等价(以及其他相关的单词和单词串)。
在步骤1中,只取最佳的三个结果来简化说明(虽然本发明分析的返回结果数量通常要大得多并且是用户定义的),系统首先确定在“detained”直接左边出现最频繁的三单词串。所分析的单词(“detained”)直接左边的单词串的长度可以是一个长度或长度的范围并且是用户定义的(在此例子中,是三单词串)。此分析的结果—在所提供的单词左边具有用户定义的长度的单词串的列表—称为“左签名列表”。假设系统在上述例子中返回下面结果:
1.“the suspect was____”
2.“was arrested and____”
3.“continued to be____”
在步骤2中,系统操作返回的左签名列表。系统定位在上述三个返回的三单词串之后出现最频繁的单词和/或单词串—即,那些在返回的左签名列表成员右边的单词和/或单词串。系统在此操作中返回的单词串的长度是用户定义的并且可以不加限制。此分析的结果—在每个左签名列表条目右边的单词和/或单词串的每个列表—称为“左锚点列表”。假设系统在上述例子中返回下面的左锚点列表:
左签名列表                   左锚点列表
1.“the suspect was____”    a.“arrested”(240次)
                             b.“held”(120)
                             c.“released”(90)
2.“was arrested and____”  a.“held”(250)
                            b.“convicted”(150)
                            c.“released”(100)
3.“continued to be____”   a.“healthy”(200)
                            b.“confident”(150)
                            c.“optimistic”(120)
同样在步骤2中,可以添加左锚点列表中相同返回的频率。左锚点列表中唯一的共有返回是:
a.“held”120+250=370
b.“released”90+100=190
在步骤3中,系统确定数据库内的文档中在选择的查询“detained”的直接右边最频繁出现的三个两单词串。再次,所分析的频繁出现的单词串的数量是用户定义的(再次,如在步骤1中那样,系统返回最前面的三个出现的单词串)。并且,在所分析的单词(“detained”)直接右边的单词串的长度是用户定义的,在此例子中,它是两单词串(注意:可以在步骤1和步骤3中使用任意长度的单词串或长度范围)。此分析的结果—在所提供的单词右边具有用户定义长度的单词串的列表—称为“右签名列表”。假设系统在上述例子中返回右签名列表:
1.“____for questioning”
2.“____on charges”
3.“____during the”
在步骤4中,系统操作返回的右签名列表。系统定位在上述三个返回的两单词串前面出现最频繁的单词和/或单词串—即,在返回的两单词串左边的那些单词和/或单词串。此操作中系统返回的单词串的长度可以是用户定义的或可以没有限制。此分析的结果—在每个右签名列表条目左边的单词和/或单词串的每个列表—称为“右锚点列表”。假设系统在上述例子中返回下面的右锚点列表:
右签名列表                   右锚点列表
1.“____for questioning”    a.“held”(300)
                             b.“wanted”(150)
                             c.“brought in”(100)
2.“____on charges”  a.“held”(350)
                      b.“arrested”(200)
                      c.“brought in”(150)
3.“____during the”  a.“beautiful”(500)
                      b.“happy”(400)
                      c.“people”(250)
类似于步骤2,可以添加不同的右签名列表返回产生的右锚点列表中的共有返回的频率。上面的右锚点列表中唯一的共有返回是:
a.“held”300+350=650
b.“released”100+150=250
在步骤5中,进行ICFA并且系统返回分级。在本例中,通过相乘步骤2和4的共有返回(即,在左锚点列表和右锚点列表两者上的返回)的频率,产生加权的频率,得到如下的知识获取列表:
1.“held”650x370=240,500
2.“arrested”200x240=48,000
分级的另一个实施例不考虑具体的加权频率。相反,根据它们所处的锚点列表总数,对至少一个左锚点列表和至少一个右锚点列表上产生的所有结果进行分级。在上述例子中,使用此实施例进行的分级可以是:
分级              知识获取项        锚点列表编号
1                “held”           4
2                “arrested”       2
虽然“release”和“brought in”两者在分析中每个都产生了两次,但是它们都没有出现在左锚点列表和右锚点列表两者上(“released”在左锚点列表上产生了两次,而“brought in”在右锚点列表上产生了两次)。也可以使用组合锚点列表数量和频率总数的其他用户定义的加权方案。例如,一个实施例可以基于不同的锚点列表出现总数对结果进行分级,并且基于频率总数对出现在相等数量的不同锚点列表上的任何返回进行进一步分级。
分级的另一个实施例可以用结果所出现的左锚点列表数量与结果所出现的右锚点列表数量相乘。在上述例子中,会得到如下分级:
分级          知识获取项         锚点列表乘积
1            “held”            4
2            “arrest”          1
上述展示基于文档数据库中数量相对小的文档进行。文档数据库通常会更大,并且可以包括可通过网络,如因特网,由系统远程访问的文档。在本发明的一个实施例中,用户不仅定义要包括在签名列表中的结果的数量,而且还可以在已全部找出指定数量的具有用户定义最小频率的结果时停止分析。这可以充当分界点,并且可以在使用大型数据库时节省处理能力。
产生查询单词或单词串的知识获取列表的ICFA的用户定义参数的其他例子可以考虑在查询左边和右边各种长度的频繁重现单词和/或单词串。因此,实施例可以通过指定单词串的最小和最大长度,使这些签名列表中返回的单词串具有用户定义的可变长度,而不使左签名列表和右签名列表中返回的单词串具有用户定义的固定长度。在对查询左边和右边两者的分析中使用不同长度的最频繁出现的单词串,可以提供更多“上下文角度”来识别相关的单词和单词串。此外,此实施例可以包括符合签名列表条件的返回的单词或单词串最少出现次数。
在使用本发明此方面的可变单词串分析的一个实施例中,可以按如下分析来自前一个例子的查询(“detained”):
在步骤1中,通过可用的数据库生成用户定义的数量(具有用户定义的最小和最大长度)的在查询左边最频繁出现的单词串的左签名列表。这与前面例子中步骤1的处理相同,除了在此使用各种长度的单词串而不是固定长度的单词串。如果用户定义的参数是(1)返回八个最频繁出现的单词串,(2)单词串最小长度为两个单词,最大长度为四个单词,及(3)最少出现次数定义为在语料库中至少出现500次,则前面的例子中的结果可能如下(再次,使用假想的语料库):
左签名列表           频率
1.“people were”    1,000
2.“arrested and”   950
3.“were reportedly”800
4.“passengers were”775
5.“was being”      700
6.“the people were”     650
7.“was arrested and”    575
8.“they were reportedly”500
在步骤2中,如前面的例子所示,定位步骤1的返回的直接右边出现次数最多的单词和单词串,通过左签名列表的结果生成左锚点列表。
在步骤3中,使用此例子的步骤1中描述的定义相同的参数,生成右签名列表,得到下面结果:
右签名列表                 频率
1.“for questioning”      1,750
2.“on charges”           1,520
3.“during the”           1,350
4.“because of”           1,000
5.“due to”               750
6.“in connection”        600
7.“on charges of”        575
8.“for questioning after”500
在步骤4中,如前面的例子所示,定位步骤3的返回左边重现最频繁的单词和单词串,通过右签名列表的结果生成右锚点列表。
在步骤5中,根据结果所处的列表总数,对至少一个左锚点列表上和至少一个右锚点列表上产生的所有结果进行分级。另外,也可以通过用结果所处的左锚点列表总数与结果所处的右锚点列表总数相乘来确定分级。此外,可以用总频率对分级进行加权。如上所述,可以使用各种用户定义的加权方案。
应注意,虽然上述例子查询是一个单词(“detained”),系统也可以对任意长度的单词串产生语义等价,其中单词串表示在语义上可识别的概念。例如,如果用“car race”来查询系统,则可以产生“car race”的可能语义等价。通过执行上述实施例中描述的相同的步骤,使用ICFA来确定近似的语义等价,系统可以产生“stock car race”、“auto race”、“drag race”、“NASCAR race”、“Indianapolis 500”、“race”,以及其他语义相关的单词和单词串。系统接受查询并使用完全相同的处理产生关联概念,而不管查询单词串或返回的长度。知识获取列表也将包括其他相关项,例如,“contest”、“sporting event”、“Dale Earnhardt,Jr.”或“boat race”。
B.使用RCFA进行知识获取列表生成
本发明创建知识获取列表的另一个实施例包括语义等价关联,如上所述这是基于相关共有频率分析(RCFA)的使用,而不是独立共有频率分析(ICFA)的。使用ICFA进行语义获取来应用的相同基本方法和原理也可以使用RCFA来应用。本发明的生成包括语义等价和其他关系的知识获取列表的RCFA方法包括下面的步骤:
步骤1:接收要查找其语义等价单词和单词串(及其他相关单词和单词串)的单词或单词串查询,并搜索文档数据库、重现数据库或FAD来识别文档中包含该单词或单词串的用户定义长度的单词串部分。在一个例子中,将单词串“initial public offering”作为查询输入,并使用RCFA识别其语义等价。然后系统搜索并识别文档中包括“initial public offering”单词串的部分。用户可以定义并限制返回的部分的数量。
步骤2:对步骤1中的查询单词串的每次出现,通过记录(i)在查询左边的用户定义长度的单词和/或单词串,组合(ii)查询右边用户定义长度的单词和/或单词串的出现频率,分析返回的部分。此步骤创建把查询“放入摇篮”的左右组合签名,称为“左/右签名摇篮”或“摇篮”。此步骤是RCFA的实施例,其中使用单词或单词串查询来生成两个相关单词串。
在我们的例子中,可以将用户定义的左单词串的长度设置为两个或三个单词,而将用户定义的右单词串设置为两个或三个单词。通过用户定义数量的要返回的摇篮(例如,一百个)出现用户定义的最少次数(例如,五次),计算得到分界点。此处理可以对查询“initial public offering”得到下面的假想返回的部分集合:
1.“announced a successful____of common stock”
2.“shares at an____price of”
3.“announced the____of its”
4.“it considers an____of common stock”
5.“completed an____raising a”
6.“announced its____of shares”
7.“announced the proposed____for its common”
8.“announced an____of stock”
9.“completed its____of shares”
10.“in representing____underwriters for”
步骤3:搜索文档数据库,查找在步骤2中产生的每个左/右签名摇篮的左右单词串之间出现最频繁的单词和单词串(使用设置的用户定义最大长度的选项)。识别这些在左/右签名摇篮的单词串之间出现的其他频繁出现的单词和/或单词串,将得到可能的语义等价(及其他相关单词或单词串)。可选地可以要求返回要符合条件就必须具有用户定义的最小数量或百分比的左/右签名摇篮。此步骤是RCFA的实施例,其中使用两个单词和/或单词串来识别相关的第三单词和/或单词串。
步骤4:可以基于所填充的不同的左/右签名摇篮的总数、总频率,或某些其他方法或方法的组合,对出现在左/右签名摇篮的单词串之间的结果单词和/或单词串(即,“填充”各摇篮的其他单词和单词串)进行分级。
在一个较佳实施例中,首先,通过所填充的不同的左/右签名摇篮的总数,对返回进行分级。然后,通过所有填充的左/右签名摇篮的总频率,对所填充的不同的左/右签名摇篮的数量相同的返回进行分级。分级准则的另一个实施例也可以对产生返回的左/右签名摇篮的频率加权,或可以基于左/右签名摇篮中的单词串的长度给出特殊权重。
在上述例子中,步骤3中最靠前的结果可能是单词和/或单词串“IPO”、“ipo”(结果可能是大小写敏感的)、“Initial Offering”、“offering”、“PublicOffering”和“stock offering”,所有这些都“填充”了某些左/右签名摇篮的(查询所空出来的)未解析部分。
当使用ICFA或RCFA来确定语义等价时,可以在如上所示使用ICFA或RCFA的一个分析中,将不同数量的各种长度的单词串一起用于左签名、右签名或左/右签名摇篮。作为分析的一部分用作左签名、右签名和左/右签名摇篮的各种长度的单词串越多,系统识别查询单词或单词串的语义值中的概念的角度越多。
一个实施例可以取在某个长度范围内最频繁的单词串,例如,最频繁的1000个在查询左边和右边构成左/右签名摇篮的三到五个单词长的单词串。作为实施例的另一个例子,系统可以将左/右签名摇篮定义为在查询的左边和右边出现最频繁的三单词串,以及用户定义的数量的在查询的左边和右边出现最频繁的四单词串,加上用户定义的数量的在查询的左边和右边出现最频繁的五单词串。左/右签名摇篮的单词串中的单词数量是用户定义的,并且可以包括引入或引出当前分析的概念(由单词或单词串表示)的单词串长度范围的任何组合。可以根据所填充的不同的摇篮的总数,对通过填充摇篮产生的结果单词和单词串分级,对不同大小的摇篮产生的结果或所填充的摇篮的频率计数给出用户定义的权重。可以使用RCFA来实现使用ICFA查找语义等价或识别任何其他关系的任何特定实施例,反之亦然。
附录A展示对各种查询使用RCFA得到关联结果的例子。前15个例子展示查询的部分结果(即,每个查询最靠前的20-25个返回),而最后的例子(对查询“it is important to note”)展示最靠前的1000个返回。对这些结果的用户定义设置是:(1)查找查询的前1000次出现,(2)记录左边的两单词串和三单词串与右边的两单词串和三单词串构成的所有摇篮,(3)根据它们的出现频率对摇篮进行分级,(4)查找填充左/右签名摇篮的所有单词和单词串,(5)基于所填充的不同摇篮的总数,返回结果,(6)对所填充的摇篮数量相同的结果,根据所有填充的摇篮的总频率进行分级(也可以对所填充的摇篮中频率较高的那些加权)。用于产生这些结果的语料库约由二十四亿单词组成。注意,附录A中列出的“相对分数”表示用户定义的度量,如上所述,这反映的是特定返回语义相关的可信度的一种度量。分数越低,可信度越低。语料库越大,如果基于用户定义的度量准则它们出现越频繁,则可以将这些得分低的部分返回的可信度提升到更高的水平。
本发明的另一个实施例将两个或多个单词和/或单词串与出现在它们的所有知识获取列表中(并且也符合基于可能的用户定义的分级要求)的第三单词和单词串关联。本发明的此实施例,称为共有列表成员分析,可以用于增强得益于语义关联的应用,如搜索、文本挖掘和AI应用的结果。例如,当检查了两个或多个知识获取列表并识别出共有单词和单词串结果时,可以使用共有项来增强对无组织文本操作的搜索功能。因此,如果对特定的搜索查询将项“Bonds”和“San Francisco”作为两个度量的关键词输入到现有技术的搜索引擎中,则通过识别在两个初始关键词的知识获取列表上出现的具有用户定义的最小分级(并具有用户定义的权重)的单词和单词串,本发明可以补充附加的关键词到搜索中。因此,可以添加“baseball”和“the Giants”来检索并分级有关Barry Bonds而不是金融债券(financial bond)的内容。
此外,可以使用知识获取列表(即,通过关键词自身或通过包含在关键词列表中的项衍生得到的列表)共有的项用来根据相关性对结果进行分级,或创建分类来组织结果(这通过查看基于列表上的共有出现构成分类聚类的项进行)。在上述例子中,如果数据库中的文本包括有关San Francisco的金融债券交易的信息,则“Bonds”和“San Francisco”的知识获取列表都可能包括如“bondtrading”和“debentures”这样的分级高的返回,它们可以由系统用作附加的关键词或因素,以支持增强的搜索、对返回的文档分级,或对结果分类。在这样的情况下,系统可以识别出象“basketball”和“finance”这样的分类,向用户给出选择哪个分类的选项。同样,如下文所述,可以过滤知识获取列表,以便查找查询(或关键词)的同义词,这可以用来将特定搜索的结果增强和扩展至包含关键词的文档之外,以至于包括那些包含关键词的同义词的文档。
C.知识获取列表排序和过滤
使用ICFA和RCFA来产生知识获取列表将使得在列表上包括某些适合左/右签名摇篮(或出现在左右锚点列表上)但不是语义等价的结果。在符合作为返回的条件所需的查询共有签名或摇篮的用户定义数量不高时,尤其会这样。例如,与查询单词或单词串具有相反意义的很多单词和/或单词串,以及其他相关但不语义等价的单词和单词串,也适合很多与查询相同的左/右签名摇篮。
例如,假设对查询“in favor of”执行RCFA,且产生了摇篮“the court ruled____the plaintiff”和“the senator voted____the amendment”。很容易看到,查询的同义词,如“for”,以及反义词,如“against”,两者都适合这些摇篮并且会出现在知识获取列表上。
虽然这些其他非语义等价单词串对很多应用有用,但是如果应用要求在查询的列表上只能包括语义等价,则可以使用本发明的过滤方法,产生只包括语义等价的知识获取列表。下面描述的这些过滤方法包括(1)直接相互关系—不仅考虑返回在查询的ICFA或RCFA知识获取列表上的分级的关系,还考虑查询在每个返回自身的CFA知识获取列表上的分级,(2)语义三角系—考虑查询及查询的一个返回两者所处的知识获取列表的数量(以及在那些列表上的分级)的方法和系统。此过滤方法有助于将返回作为查询的近似语义等价来识别,即使该返回在该查询的知识获取列表上分级较低。通过在对与查询共享近似语义关系(即,与查询一起出现在一些不同的列表上)的其他查询返回生成的用户定义数量的知识获取列表上,识别分级低的返回和/或频率(基于用户定义的设置)来实现这一点。及(3)查询+签名重叠—在此方法中,在本发明的一个实施例中使用单种语言内的重叠方法来识别语义等价。重叠方法以它连接逻辑链中相邻的概念(由单词串表示)的相同方式实现此效果。对出现在(i)查询单词或单词串及其左签名,及(ii)查询单词或单词串及其右签名的知识获取列表上的返回,检验它们是否重叠。可以将当前分析的单词或单词串的同义表达作为重叠单词串中的重叠单词来识别。
再者,本发明的另一种方法提供其他方法可以使用单词串模式自动对来自知识获取列表的单词和单词串返回进行排序,产生可以由用户标记以便准确地反映它们相对于查询项的语义特征的不同列表(如,查询的反义(如,查询:“hot”,返回:“cold”),与查询属于共同类的成员(如,查询:“blue”,返回:“purple”))。
此方法,如下文所述,称为本发明的签名模式排序方法。也可以使用直接相互关系和语义三角系方法,根据其彼此间的语义关系对单词和单词串进行排序。当用户向系统提供体现关系的项的训练样本(如,作为反义词的“hot”和“cold”)时,本发明的方法和系统可以基于知识获取列表上的单词和单词串的出现与分级,识别表征该关系的模式。本发明可以在以后使用一般化的模式,将共享一般化的模式的单词和单词串作为表征所识别的关系的项进行关联。
1.使用直接相互关系和语义三角系进行关联
直接相互关系方法可以用于对查询的知识获取列表上的每个返回,使用如上所述的RCFA或ICFA,生成单独的知识获取列表,来过滤知识获取列表的结果。通过对查询的列表上的所有返回创建独立的知识获取列表,系统可以识别初始查询在它自己的每个返回的知识获取列表上的分级是否高于用户定义的阈值。查询和返回在彼此的知识获取列表上的相互分级越高,返回越可能是查询的语义等价。
本发明的语义三角系方法也对查询的每个返回使用独立生成的知识获取列表来确定哪些返回是查询的近似语义等价。本发明的语义三角系方面检查对返回独立生成的知识获取列表来识别那些在用户定义数量的查询也作为返回出现在其上的不同知识获取列表出现且分级高于用户定义阈值的单词和单词串。对查询的知识获取列表上、同时在用户定义的数量或百分比的其他包含查询作为返回的知识获取列表上也是返回(基于它们在共享的列表上的分级)的任何返回,无论返回在查询的列表上分级有多低,都生成知识获取列表并执行直接相互关系分析来进一步提炼返回和查询之间的语义关系。
如刚才所述,可以一起使用直接相互关系和语义三角系方法,根据与查询的语义接近程度对返回分级。可以对直接相互关系、列表成员在初始查询的列表上分的级,以及查询在它的每个返回的列表上的分级赋予特殊的权重。可以基于用户定义的准则用这些返回确定在初始查询的知识获取列表上那些项可以用于要求必须语义等价的应用。
例如,如果将“IPO”输入到系统中进行语义等价分析,则使用RCFA或ICFA的系统可以产生具有各种结果的知识获取列表,如“initial public offering”、“stock sale”、“initial offering”和“stock market”以及其他。虽然“stock market”是与查询“IPO”相关的概念,但它并不是其语义等价。使用上述过滤方法,可以对“initial public offering”、“stock sale”、“initial offering”和“stock market”生成独立的知识获取列表。
在生成这些列表之后,本发明的直接相互关系方面可能确定“IPO”(初始查询)在对“stock market”生成的知识获取列表上的出现明显比其他返回的列表少得多,而语义三角系方法可能确定“stock market”在对“initial publicoffering”、“stock sale”和“initial offering”生成的独立列表上的出现次数一直少于查询及其他返回。鉴于此,对如翻译、语音识别、搜索这样的应用及只首选接近语义等价的其他应用,用户定义的参数可以从“IPO”的知识获取列表中移除“stock market”。
可以基于用户定义的设置使用上述两种分析的结果。在一个实施例中,为了能够进行高效处理,只通过生成它自己的CFA执行上述分析来独立检验查询的知识获取列表上用户定义数量的分级最靠前的短语。然而,如果在查询的知识获取列表上出现的短语具有较低分级(或甚至并不出现),但是该单词或短语出现在用户定义数量的对查询确定的语义等价列表上(即使它在上面分级较低),也可以通过生成独立的知识获取列表检验“相互”的考虑(其中查询的确在其他短语的列表上具有分级),来检验该短语。
当用户向系统提供同义的多个单词和/或单词串,然后向它提供相关但不同义的配对的单词和/或单词串的训练集合时,可以使用对同义或非同义词唯一的知识获取列表出现和分级模式,以便在将来识别彼此同义的单词和单词串。
类似地,系统也可以使用用户提供的非同义但是彼此具有特定关系(如,反义、类成员)的项的例子作为训练样本,并尝试识别此关系在彼此的知识获取列表上的项之间的任何一般模式,并查找这些项相对于彼此在其他知识获取列表上的模式。然后系统可以使用这些模式来识别共享那些模式的两个项之间的一般关系。
可以使用直接相互关系和语义三角系方法两者,基于在知识获取列表上的出现和分级识别体现其他语义关系的模式。例如,在用户向系统提供了彼此是属于共同类的成员的单词和单词串的训练样本(如,“New York”和“LosAngeles”,均为美国的城市)之后,系统可以识别出知识获取列表出现和分级的模式,可以将其一般化并用来识别表示美国的城市的其他单词和单词串。
此外,不同组的类成员共有的知识获取列表出现和分级模式可以进一步识别指示表示同类成员的两个单词和/或单词串的更一般的模式。例如,如果系统使用用户提供的表示美国的城市、颜色、姓名和数字的训练单词和单词串来分析知识获取列表,并查找表征类成员之间的一般关系的列表出现和分级模式,系统可以在将来使用这样的模式来识别作为类成员的两个项之间的一般关系。
2.使用查询和签名重叠进行关联
此方法使用单词重叠的要求作为过滤方法,在知识获取列表上只留下语义等价。此方法可以改进现有的知识获取列表或用于创建只包含查询的语义等价的独立列表。此方法取一个查询单词或单词串并识别用户定义数量的用户定义长度单词串范围的摇篮(或独立的左签名和右签名)。接下来,将每个查询加上用户定义数量的左签名一起作为较长的单词串单元(查询+左签名),使用RCFA(或ICFA)对其进行分析来产生查询+左签名单词串的知识获取列表。接下来,将每个查询加上用户定义数量的右签名作为一个单元来对所选的查询+右签名单词串产生一些知识获取列表。接下来,检验查询+左签名单词串的知识获取列表上用户定义数量的分级最高的成员,查找它们每个的右边与查询+右签名知识获取列表上用户定义的数量的成员左边之间的重叠单词和单词串。在最后一步中识别出的每个重叠单词串中的重叠单词或多个单词通常是查询的语义等价。
例如,在前面使用查询“initial public offering”的例子中,将识别出的左签名列表添加到查询中,且对这些较长串中的每一个生成知识获取列表。因此,对左签名+查询(如“for an initial public offering”)的分析将用作查询本身来生成语义等价,同样也可以使用其他左签名+查询,如“announced the initialpublic offering”和“the proposed initial public offering”。
接下来,使用右签名+查询单词串,如“initial public offering price of”和“initial public offering of stock”,作为查询来生成这些短语的知识获取列表(及可能的同义单词串)。
接下来,检验左签名+查询列表是在右边与右签名+查询列表上用户定义的符合条件成员的左边重叠。重叠的单词和单词串是初始查询的语义等价单词和单词串(如,initial public offering)。这样的结果的一个例子是,如果左签名+查询单词串“announced the initial public offering”生成包括“went public with theIPO”的列表,而右签名+查询单词串“initial public offering of stock”具有符合条件的列表成员“IPO of equity”,则“IPO”是重叠单词或单词串,因此认定它是项“initial public offering”的同义概念。
查询+签名重叠过滤方法可以与其他过滤方法组合。在一个实施例中,可以将相互直接关系和/或语义三角系用作使用查询+签名重叠过滤方法前的第一个步骤。
3.使用同义词洪流进行关联
除了刚才描述的本发明的识别语义近似的单词和单词串的方法和系统,本发明还可以包括进一步帮助识别查询单词串的语义等价单词串或修改CFA的结果的单状态或单语言洪流方法。此实施例使用单词对单词或单词对短语的同类词汇编来识别单词的同义词。除了单个单词,同类词汇编也可以包括与其语义等价关联的习语和搭配。
可以将查询单词串分解为单个单词(和/或习语及搭配)并使用该同类词汇编(和/或使用CFA得到的单词对单词(或单词对短语)语义等价)来识别每个单词(和/或每个习语及搭配)的语义等价的列表。然后搜索文本语料库,查找用户定义的最大长度的单词串中的对每个查询单词串单词具有最少数量的同义词的单词串(为确定最小值,对每个单词只计数一个同义词)。可以使用查询单词串中的初始单词而不是其同义词来满足搜索准则。此方法在概念上类似于本发明中在两种语言之间构建单词串翻译的目标语言洪流方法,除了在此实施例中,使用同类词汇编而不是跨语言字典。例如,如果使用通过普通单词来定义技术术语的技术词典,则本方法可以按语言的两种不同形式产生翻译(如,技术术语和外行话)。例如,如果同类词汇编包括等价于“localized”“non-metastasized”条目以及等价于“cancer”的条目“oncological mass”,则基于用户定义的搜索参数和用来执行洪流处理的文本,短语“non-metastasized oncological mass”可以等价于短语“localized oncologicalmass”、“non-matastasized cancer”和“localized cancer”,以及可能的其他短语。
4.单词串摇篮或签名模式排序
也可以训练本发明识别在任何单词或单词串左边和右边并标识知识获取列表结果与查询之间的关系的签名和摇篮单词串的模式(如,反义、类成员、概念和例子、其他相关知识)。用户可以向系统给出一组表征关系的例子,然后让系统学习提供关系特征的单词串签名和/或摇篮模式。
例如,为了训练系统识别反义概念,用户可以提供下面的三个查询以及三个来自每个查询的初始知识获取列表并且是查询的反义概念的成员,如下所示:
查询              反义
1.“good”       “bad”,“very bad”,
              “awful”
2.“world class   “stupid”,“dumb”,
scholar”     “moron”
3.“cold”       “hot”,“very hot”,
             “boiling”
用户也可以给出查询的同义词及其反义词的附加的例子以进行进一步的训练。然后系统查找对查询的反义词唯一的左和/或右签名(或摇篮)。
本发明的这个实施例,象生成知识获取列表那样,使用CFA来确定两组不同的单词和/或单词串之间共有的左签名和共有的右签名两者(或有些情况下,确定共有的摇篮)。重要的是,此实施例也可以检查查询的左签名单词串,并将它们与用户所输入并识别为查询的反义词的项的右签名单词串比较,尝试识别它们之间的准确匹配。此实施例也检查查询的右签名单词串,并将它们与用户输入的反义项的左签名单词串比较,尝试识别它们之间的准确匹配。通常,出现在查询及其反义的相反方(或上下文)中的相同概念的项之间的这些模式可以指示特殊的关系。当用户向系统提供表征它们之间的关系的例子时,系统可以检查并识别查询的一个例子的哪个左签名或其同义词与表示查询的反义概念的单词和单词串的一个例子的右签名完全相同,反之亦然。查找既是查询的右签名又是查询的反义词的左签名的单词串,或识别既是查询的左签名又是查询的反义词的右签名的单词串,有助于为识别表征该关系的那些单词串模式提供提供。当系统在相关知识的CFA知识获取列表上识别出它以前尚未碰到过但是具有这样的相对于查询的“反义签名”的项时,系统可以将返回与查询的关系作为反义来识别。
这些对反义唯一的签名和摇篮模式可以构成允许训练系统在将来识别反义的模式。通过不同的反义可以识别出对系统尚未碰到的特定的其他反义词进行一般化的模式。通过用先前的反义摇篮或签名执行的训练,也许不能捕获到系统在对相关知识(包括语义等价)执行RCFA或ICFA时碰到的新的反义关系。当出现这样的情况,并且用户向系统表明知识获取列表上的结果是查询单词串的语义反义时,可以使用查询单词串及语义反义单词串返回对系统进行进一步的训练来识别签名(或摇篮)与此类反义的关系。
与对反义描述的类型相同的训练方法可以用于训练系统识别其他关系。系统使用例子来查找对该关系唯一的签名(或摇篮)单词串上下文模式,并因此能够定义它。例如,可以通过向系统提供不同的表征该语义关系的单词串例子,训练系统识别查询的同类成员或查询的例子。然后系统可以识别对每组单词和/或单词串唯一的摇篮(或签名)模式,并可以在将来将其用于识别这样的关系。
该方法和系统识别查询的右签名与返回的左签名及查询的左签名与返回的右签名的相同匹配,以此确定签名单词串模式来识别关系,并且只识别对反义唯一的摇篮,而不包括真正的语义等价(或其他关系)。此处理使用标准的CFA方法在左签名之间与右签名之间进行比较,除了在此系统查找由查询的反义而不由查询共享的摇篮,而不是只查找查询的共有摇篮。通过识别对查询的反义唯一的摇篮,可以使用此单词串模式来帮助识别是其他项的反义的项。
例如,查询不与查询的反义共享的唯一的签名或摇篮模式通常包括将查询的反义作为摇篮或签名单词串的部分包括的签名或摇篮,如下所示。例如,在文档语料库中出现的三个对“hot”的假想摇篮可能是:
“it’s not____it’s cold”
“I’m not____I’m cold”
“you promised it would be____but it’s cold”
反义项“cold”是构成查询单词“hot”不与单词“cold”共享的唯一签名的单词串的部分。这以及其他对“hot”而不对“cold”唯一的单词串签名或摇篮会将“cold”作为“hot”的反义来识别,即使在使用此实施例或本发明的其他知识获取列表过滤和排序的实施例之前,“cold”可能在对项“hot”使用CFA得到的知识获取列表上分级较高。
结果展示出这样的模式,由签名(或摇篮)构成,并标识唯一类型的关系。然后系统可以使用此模式来识别也共享通过比较它们的签名(或摇篮)构成的“关系识别”模式的其他单词和/或单词串配对。因此,在本发明的一个实施例中,用单词或单词串查询系统来识别具有相反意义的单词和/或单词串,系统将(1)识别在查询周围出现最频繁的单词和/单词串,(2)识别与查询具有某些共有签名(或摇篮)但不是可以将它们作为同义词来识别的在类型或数量或百分比上的共性的单词和/或单词串的列表,(3)然后比较这些相关(但不同义)的单词和/或单词串与查询共享的签名(或摇篮)(如上所述,进行左边对右边而右边对左边,以及左边对左边而右边对右边两种比较),及(4)比较步骤3的结果与先前识别的反义单词和/或单词串配对的签名。如果步骤3中生成的任何比较得到与通过已知反义之间的签名比较得到的模式(基于步骤3中识别出指示反义的签名或摇篮)(在用户定义标准下)足够类似的模式,则系统将识别步骤2得到的单词或单词串,将其与查询对比得到该模式,并将其识别为查询的反义。
这些相同的原理应用于识别知识获取列表返回和查询之间的任何关系的系统,这些关系不仅包括同义和反义,还包括共同类的成员(如,“red”和“blue”都是颜色、“New york”和“Paris”都是地名)及任何其他语义关系。通过定位两个单词和/或单词串之间共有的左边对左边和右边对右边签名以及共有的左边对右边和右边对左边签名,可以得到表征这些关系的模式,以便由系统在将来对共享由那些相关签名定义的关系的项的配对自动识别该关系。系统也可以通过它们对该组唯一的共有签名和摇篮,自动地对单词和/或单词串组进行“聚类”,并识别它们与其他组的关系。
应注意,系统用于产生单词串等价(或任何其他关系)的用户定义参数可以包括在左边或右边邻近查询但不与查询直接相邻的单词串。调整用户定义的参数在语义表达通常不太高效,或结构不太常规的应用中(如,固定在因特网“聊天室”媒体中的对话及其他类型的对话)特别需要。
VI.用于跨状态知识获取和重建(翻译)的单状态知识列表
本发明的附加实施例使用生成语义等价的列表来帮助本发明在语言翻译中的应用的系统和方法。可以用它替代或连接本发明中识别将添加到跨语言数据库中的单词串翻译的任何方法来执行翻译。
本发明的方法和系统可以用于产生辅助任何基于语料库的机器翻译系统(如,EBMT)的语义等价,这样的机器翻译系统包括本发明的机器翻译方面。任何数量的使用源语言中及目标语言单词串的语义等价的实施例都可以用于产生、检验和校验准确翻译。再者,其他实施例可以使用签名或摇篮的翻译来帮助完成准确翻译。
例如,如果需要单词串翻译来完成翻译而它没有出现在跨语言关联数据库中并且不能使用可用的平行文本构建,则系统可以生成该未知翻译在源语言中的语义等价,并查看是否有任何语义等价的单词串在数据库中具有目标语言的已知翻译,或可以基于可用的跨语言文本进行学习。
另外,目标语言中的单词串翻译也可以在跨语言关联数据库中,但是不和相邻单词串翻译如双锚点重叠方法所要求的那样在两边重叠。在这样的情况下,不能根据双锚点重叠要求来确认翻译,但是目标语言单词串翻译可以用于产生目标语言中语义等价的单词串,然后可以检验与其邻居的重叠情况,以便将其确认为完整翻译。
如何在翻译数据库中使用生成语义等价列表的系统和方法的另一个例子如下:
首先,生成两个在源文档尚未解析的部分的左边和右边的具有用户定义的长度的具体的签名。例如,假设系统正在翻译句子“I went to the ball park towatch the baseball game”。再者,假设“I went to the”、“went to the ball park”、“to watch the”和“watch the baseball game”的跨语言重叠翻译对系统已知。与“went to the ball park”和“to watch the”重叠的短语,系统并没有重叠的目标语言单词串翻译,例如,“ball park to watch”(已知它是未解析的短语或部分),需要用它提供重叠连接来确认在两种语言中都具有相邻的重叠单词串的翻译出的句子。如果用户定义的参数定义为未解析的短语直接左边具有三单词串,且未解析的短语直接右边具有三单词串,则本发明返回两个三单词串:“具体的左签名单词串”(“went to the”)和“具体的右签名单词串”(“the baseballgame”)。
第二,使用上面描述的任何创建语义等价关联的实施例,对文档数据库中源语言的未解析的短语生成签名列表(在此例中使用ICFA)。使用上述语义等价系统和方法对未解析的短语创建出的列表称为左签名列表和右签名列表。
第三,将具体的左签名单词串和左签名列表上的所有条目两者翻译为目标语言。可以使用本发明的任何方法或现有技术中的任何设备获得翻译。通过使用本发明的上述多语言杠杆实施例,可以改进使用现有技术中的翻译系统产生的结果。此处理的结果是“左目标签名列表”。对具体的右签名单词串和右签名列表上的所有条目执行类似的翻译处理来创建“右目标签名列表”。
第四,使用上述语义等价处理的步骤2和4,使用目标语言文档数据库,通过左右目标签名列表生成目标语言锚点列表。此处理的结果列表分别是左目标锚点列表和右目标锚点列表。
最后,比较左目标锚点列表和右目标锚点列表的返回。出现在至少一个左目标锚点列表上和至少一个右目标锚点列表上的结果是查询的可能翻译,并且根据它们所处的锚点列表总数进行分级。可以向通过具体上下文单词串衍生得到的锚点列表上的出现赋予额外的分级权重,以得到更高的精度。也可以通过结果所处的左锚点列表的数量和右锚点列表的数量的乘积来确定分级。另外,在对结果分级时,可以将返回的总频率的某些权重和/或任何其他用户定义的准则作为考虑的因素。
当然,像任何使用ICFA的应用那样,可以类似地使用RCFA结合上述的查询的具体上下文摇篮和其他高频率的一般摇篮来实现上述实施例。在这样的情况下,在源语言中生成准确上下文的具体摇篮以及一般摇篮,然后将它们翻译为目标语言摇篮。然后,在目标语言语料库上使用目标语言摇篮,用其他目标语言单词串填充这些摇篮。
得到未解析的短语后使用语义等价来构建查询的可能翻译的数据库的另一个实施例如下:
首先,按如上所述只使用查询中的未解析的短语的具体的左右签名单词串,生成锚点列表。然后,按如上所述使用左签名列表和右签名列表(而不是具体的左签名和右签名单词串),生成左锚点列表和右锚点列表。然后根据它们所处的锚点列表总数对出现在(a)左锚点列表和/或通过具体的左签名单词串和衍生得到的锚点列表中至少一个(b)右锚点列表和/或通过具体的右签名单词串衍生得到的锚点列表中的至少一个上的结果进行分级。可以向通过具体上下文单词串衍生得到的锚点列表上的出现给出额外的分级权重。另外,也可以将返回所处的右锚点列表和左锚点列表数量的乘积用于分级或任何其他用户定义的方法。
接下来,然后将翻译查询中未解析的部分及其通过上述分级生成的语义等价列表翻译为目标语言。可以使用本发明的平行文本数据库构建器(使用可用的平行文本)、本发明中的任何其他构建单词串翻译的方法,或现有技术中的其他翻译设备来得到翻译。可以使用本发明上述的多语言杠杆实施例来改进使用现有技术的翻译系统取得的结果。如果用户定义数量的翻译结果相同,则可以将该结果指定为可能的翻译。为了进一步进行分析,在另一个实施例中,对每个翻译结果,系统使用目标语言文本数据库生成语义等价列表。将出现在最大数量的列表(至少两个列表)上并在那些列表上具有最小的分级阈值(绝对和/或相对)的初始目标语言翻译指定为查询中未解析部分的可能翻译。
使用语义等价分析来帮助翻译未解析的单词串翻译的所有实施例也可以通过使用具体的上下文单词串并执行CFA产生具体的左签名单词串(或摇篮)的语义等价和具体的右签名单词串(或摇篮)的语义等价来产生附加的签名或摇篮。可以使用具体签名或摇篮的这些语义等价作为附加的签名或摇篮来构建源语言中的语义等价,或使用翻译出的签名或摇篮将它们直接翻译为目标语言来构建目标语言语义等价。
作为使用ICFA或RCFA将文档从一种语言翻译为另一种语言的另一个实施例,逐单词解析句子和其他要翻译的文档片段,并对每个要翻译的单词及对应的左签名单词串和右签名单词串生成知识获取列表。使用源语言中的单词,及两种语言之间的跨语言字典,可以得到每个单词在目标语言中的可能翻译。使用这些目标语言单词来生成每个目标语言单词的知识获取列表。双锚点重叠方法的衍生方法查找出现在源语言中相邻或位置接近的单词的每个知识获取列表上的重叠单词串,并在目标语言中做出相同处理。使用跨语言字典,知识获取列表上的重叠单词串中的单词,可以将那些串确认为翻译。可以进一步使用双锚点重叠方法连接翻译和相邻的单词串来校验单词串翻译。可以对解析后大于一个单词(如,两个单词)的单元使用相同的方法,且可以用本发明的翻译方面或现有技术中的翻译引擎来代替跨语言字典,充当语言之间的翻译桥梁。
此外,通过使用本发明中在搜索源语言单词串和/或目标语言单词串来识别翻译时允许对可互换语义项进行记号化的方法,本发明中识别单词或单词串与其他单词或单词串所具有的语义关系的具体质量的方法可以在翻译应用中使用。例如,假设要使用本发明的一种方法将意义为“tell Bob to come downstairs”的语言X单词串翻译为英语。如果语言X和/或英语的文本并不包含该单词串,而是包含单词串“tell Jim to come downstairs”和“tell Mary to come downstairs”,则希望能够使用这些单词串,通过使用“名字记号”而不是单词“Bob”来帮助识别翻译,然后在最终输出的翻译中用“Bob”来替换名字记号。
现有技术的已知方法在翻译中对已知的等价类使用类记号,这些等价类如姓名、日期、数字和星期,它们通常在翻译中可彼此互换,因此该形式一个翻译就可以充当所有类成员的翻译。现有技术中的这些方法尝试事先填充等价类的已知成员,从而在碰到它们时识别它们。虽然此方法对只属于一个类的已知类成员工作得很好,但如果系统碰到属于两个或多个类的单词,或单词或单词串是不熟悉的特定类(如,姓名)的成员,则现有技术在目标文本中搜索翻译候选时不能使用类记号。
本发明向系统提供对不是已知类成员的单词和单词串使用类记号的方法。此方法分析未出现在跨语言数据库或语料库中的任何单词串,并尝试查看较长未知单词串内的任何单词或子串(或通过在未知单词串前面和/或后面添加相邻的单词所创建的扩展)是否是将较长的未知串中的单词或单词串识别为可以记号化的类成员的签名(或摇篮)。
例如,如果要翻译的单词串意思是“tell Jerome to come downstairs”而系统并未在数据库中包含这个单词串翻译且不能在可用文档中找到它,则系统可以识别出,摇篮“tell____to come downstairs”是可能的“姓名类”标志,且单词“Jerome”出现在语料库中足够多的其他单词串中,同时满足分类为姓名记号所需的用户定义的姓名摇篮的数量或百分比。一旦记号化了姓名Jerome,系统就可以使用此信息,用语料库中包含摇篮“tell____to come downstairs”及填充摇篮的任何其他姓名的单词串来构建“tell Jerome to come downstairs”的翻译。
再者,在单词或单词串具有两种意义并且只有一种意义属于特定类的任何时候,具体的摇篮(或独立的左签名和右签名)将确定使用哪个意义。例如,如果句子是“give me the blue paint before you go”,则系统可以基于摇篮“giveme the____paint”及“blue”的其他确定它是颜色的已知签名记号化“blue”,将其作为颜色。然而,如果单词串是“I feel blue since the breakup”,则系统将不把“blue”记号化为颜色,因为该摇篮并不满足颜色类,而是可以基于上述方法用与“blue”同属“情感”类的成员单词如“sad”来替换它。
VII.单状态知识重建
正如双锚点重叠方法跨语言拼凑合适的相邻单词串翻译,相同的重叠方法可以用在单种语言中,通过将较长的概念解析为重叠的子单元,生成子单元的语义等价,并在同义子单元与其邻居重叠(邻居可以是初始文本或初始文本的同义)时替换初始文本的同义子单元,以多种不同方式表达任何较长的概念。对文本挖掘和搜索及检索,以及自然语言识别、自然语言接口和更加复杂的人工智能应用来说,这是很有效的应用。
例如,处理句子“when I get home from school I must do my homework beforeI go out to play with my friends”。通过执行RCFA或ICFA知识获取分析以及语义等价过滤方法,系统可以得知下面解析出的子单元的语义等价短语:
1.“when I get home from school I must”
a.“when I come home from school I must”
b.“when I come home from school I better”
c.“as soon as I come home from school I have to”
2.“I must do my homework before I go out”
a.“I have to do my homework before I go out”
b.“I better do my schoolwork before I head out”
c.“I must get my homework done before I leave the house”
3.“go out to play with my friends”
a.“head out to play with my friends”
b.“leave the house to hang out with my posse”
c.“go out to hang with my buddies”
上述语义等价的单词串列表,加上重叠方法,可以提供表达整个初始句子的各种替代方式。例如,句子的一种替代表达可以是:
when I arrive home from school I better
                                 I better do my schoolwork before I head out
                                                                   head out to
play with my friends
在排除冗余之后,系统提供“when I arrive home from school I better do myschoolwork before I head out to play with my friends”作为初始查询的同义表达。
VIII.CFA应用的范围
A.概述
从核心上来说,关联数据库构建方法包括(i)取得以线性或有序的方式组织的数据单元,(ii)将数据分解为整体的所有可能相邻子集,及(iii)基于在可用于研究的所有数据单元中重现子集彼此之间距离(通常非常)接近的频率,构建所有数据子集之间的关系。从CFA的核心上来说,系统识别重现数据片段组之间频繁重现的邻近程度关系来发现由两个或多个重现的数据片段共享的特定关联。因此,在数据库创建和共有频率分析中使用的相同的方法可以在很多其他类型的数据挖掘、文本挖掘、目标识别,及需要识别关联概念之间的模式的任何其他应用中用来识别模式。再者,这些任务并不限于查找文本中的单词串模式。
对语言翻译来说,概念的具体形态在文档中表示,对音乐来说,具体形态可以是表示相同组成的音符和声音频率的数字表示等等。使用视频和音频两种媒体,可以使用类似的方法得到棒球运动员挥棒但未能击出的视频剪辑和单词串“strike out”之间的关联。棒球运动员挥棒并错失然后回到休息处的一致通用视觉表示及单词串“strike out”(或已知其意义为“stike out”的声音频率),在显著的样本大小上,将具有非常高的跨概念关联频率。一旦开发出当编码为可视数据时可以一般化对挥棒和错失的理解的机制,就能允许系统在此情况中进行操作。
作为另一个例子,可视化软件的一个共同目标包括用系统分析可视图像来自动确定某个人是否在图像中。虽然这对可视化或图像识别技术的当前发展水平来说是困难的任务,本发明可以使用CFA通过在图像内对应于人的部分中查找相邻特征(如,在给定半径范围内)来学习“人”的签名。使用此实施例向系统提供图像语料库,在语料库上进行训练来查找构成人的像素阵列及构成人之外的其他事物的像素阵列之间的可区分因素。一种方法让系统使用通过光敏镜头和识别散发热量的物体的红外线传感器两者取得的图像。然后训练系统识别定义散发热量的物体和那些不散发热量的物体之间的关系的光敏像素模式。通过这样的热量散发分组,系统可以进一步改进对像素模式的训练来区分散发热量的非人类元素(其他动物、火,等等)和人。
总的来说,本发明基于在该主体概念的所有上下文中出现在它周围的概念序列来定义任何给定的“主体概念”。在某种意义上,本发明通过包围它的全体概念定义每个主体概念,这包括出现在主体概念前面的概念和出现在主体概念之后的概念,而不管概念的表达形式。当以书面语言表达概念时,存在一个包围并定义它的“时间”维度(如,通过流、顺序、或序列来表达)。英语中的左签名表示在“时间”上出现在任何查询之前的不同概念,而英语中的右签名表示在“时间”上出现在查询概念之后的不同概念。
在文本之外的特定媒体中的概念表示增加了附加的包围主体概念的“空间”维度。除了多个时间单元对概念提供的上下文之外,这些附加的维度还提供其他定义主体概念的上下文。例如,口语以音色、语调和抑扬顿挫等等形式对概念序列中的每个概念增加上下文(签名)(除了仍然很重要对紧接在主体概念之前和之后的概念的识别之外)。概念的可视表示添加周围的物理(或感知)维度,向不随着时间移动概念提供附加的上下文,如果它随着时间移动,则还提供在它之前或之后的概念序列。当然,除了由多个时间单元上的周围概念序列提供的重要上下文之外,概念的音频-可视表示及其他同时的多感觉表示还增加一些周围上下文的维度来帮助在时间上定义每个孤立的概念。
B.数据压缩
一旦使用CFA在单种状态内(或使用跨状态知识获取跨状态地)生成了概念知识库,对每种语言内和跨不同语言表达相同概念的不同单词和单词串,可以向每个概念赋予编号或某些其他唯一的有效识别标签或记号来共同标识它们。这自然地提供了非常强大的数据压缩方法和系统。如果向现有状态中的表达赋予了与另一种状态的数据点的特定关联并在数据库中编目,则可以在那两种状态之间进行转换。
例如,可以向通过某种形式、状态,或语言表示的每个“概念”分配编号(或电磁频谱上的频率)。当要将概念的组合从一个位置传输到另一个位置时,可以将它们解析为重叠的概念,并可以将那些解析出的概念的表示转换为其他所分配的记号(如,编号、电磁频率等等)。通过使用这些记号,使用电磁频频或其他带宽形式(以及发送编码器和接收编码器)从一个位置传输到另一个位置所需的数据量得到压缩。
概念的传输需要在第一次传输配对(概念、唯一编号),而以后只需传输编号。对本发明技术的多处理器实现,处理器之间相同的高效内部传输可以作为概念的远距传输来实现(如,通过唯一编号)。一旦传输了概念,就用概念描述替换它们的唯一标识符来对其进行解码—而不管唯一标识符是如何编码的:编号、电磁频率,或任何其他标识符都可以。
IX.用于智能应用的单状态CFA
在另一个实施例中,用户可以基于对一起出现在问题、请求或句子中的两个或多个不同的单词串的特定模式组合的识别,控制本发明自动执行特定的CFA。用户可以控制系统,使得两个或多个不同单词串的模式的出现(在以各种其他方式解析为各种长度的两个或多个单词串之后,识别处于特定邻近程度的或顺序的现有单词串组合)是触发特定CFA的复杂分类的一部分。这些CFA可以要求系统访问先前通过前面的CFA学习到而现在存储在知识库中的信息,或可以要求学习来自文档数据库(或Web或其他可用的语料库)的新信息,使用它并将其存储在知识库中以便将来使用。对CFA的每个结果,系统从知识库中检索信息,或基于先前的训练和用户设置的触发器(或系统自动学习得到的触发器),执行下一次CFA(或由先前的CFA触发的一系列的CFA),直到系统给出问题的答案或执行任务。
本发明可以使用本发明的方法来生成知识获取列表,并使用过滤方法来识别所有从请求、问题,或句子中解析出的单词和单词串的语义等价单词和单词串。在一个实施例中,可以训练本发明的方法和系统识别不同类型的问题。例如,如果向系统询问如“Where can I see kangaroos in America?”这样的问题,系统可能已训练为将其中可能由用户分类的部分识别为“Where Does One Find____”分类,这是先前由用户训练并标记出的。用户可以训练系统使用上述语义等价生成器(和重叠方法)对此类问题的一个或多个例子识别查询的各种其他形式。一旦已对系统进行了训练,且系统可以识别系统各种具体例子,则当识别出此类问题时用户可以设置触发器,这将开始执行预定的下一次CFA来提供问题的答案。
例如,系统可以通过语义等价分析和过滤学习到:“where can I go to see____”、“where can you tell me to go to see____”和“where can I find____”是“Where Does One Find____”问题分类箱的所有成员。
类似地,系统也将通过RCFA或ICFA对“see kangaroos”(如,“watchkangaroos”)和“in America”(如,“in the US”)进行语义等价生成得到分类或概念类。因此系统可以识别触发对下一组单词和/或单词串执行CFA的不同类成员组合的出现。因此用户可以训练系统识别这些在特定序列中的类成员的模式,从而它们触发CFA识别此类“Where Does One Find____”问题的答案所需的策略。
再者,“Where Does One Find”部分可能不在句子开头处,例如“IfI wantto see kangaroos while I’m in America,where do you suggest I go”。“where doyou suggest I go”是此序列中的最后一个概念。因此用户训练系统将此形式和概念序列识别为“Where Does One Find____”问题分类的成员,以便通过CFA分析来执行人工智能应用。
在一个实施例中,用户可以对系统设置触发器,使得当它碰到提出“WhereDoes One Find____”问题的分类箱中的概念的序列时,为了得到好的答案,系统提供符合概念分类箱“Places”的答案。找出正确的地点是由识别“WhereDoes One Find____”问题中的这组单词串触发的CFA的目标。
用户可以训练系统,当碰到“Where Does One Find____”类型的问题时,查找“Places”分类箱中与查询请求查看的物体(在此例子中,即“kangaroos”)关系最密切(即,频繁出现在直接左边或右边(或附近))的成员。要判断哪个“Places”与“物体”关系最密切只需要知道在文本中的物体直接左边或右边或附近的频率计数,或可以包括训练系统识别物体周围指示你可以在某地找到该物体的具体单词串签名或摇篮。如果这是问题中的唯一信息,则
“Place”分类箱中与“kangaroos”最相关的成员可能是“Australia”。然而,在此例中,问题也包含用户训练系统识别为“Place Restriction”分类箱的成员,“in America”。用户可以训练本发明在提问者想看的事物(“kangaroos”)和位置限制(“in America”)之间触发CFA。这两个数据片段之间最高的关联可能是“the zoo”、“the San Diego Zoo”或“on TV”。注意,“on TV”可能不符合常规的“Place”分类箱。然而,查询“where can I see”符合“HowCan One View____”分类箱(以及“Where Does One Find____”分类箱)。这可以包括“on TV”,因此,智能应用可以允许来自“Place”分类箱以及例如用户确定或系统学习得到的“Ways to View Things”分类箱的答案。
其他更加复杂的问题可能要求CFA的结果作为多步触发方案的一部分触发另一次CFA来处理特定类型的问题或请求。如上所述,用户可以基于符合一般分类和用户已训练系统使用的“思考处理”或策略的不同单词串的模式,训练系统使用这些触发器步骤。
如刚才所述,用户训练系统对特定的CFA使用特定的触发器。随着用户训练系统,并且取得解决问题的足够多的触发器,系统就可以开始学习当碰到新的单词串模式时,如何基于不熟悉的多个单词串模式与触发CFA的已知的多个单词串模式之间的相似度(使用CFA语义等价分析加上重叠来判断相似度),识别如何触发合适的下一步CFA。接下来,系统识别触发器组之间的相似度并使用它们来设置新单词串模式的触发器。再者,用户可以对系统设置自动触发器来解决新问题的策略设置触发器。
熟悉技术的人应理解,熟练的操作者可以对上述装置和方法做出改变而不偏离本发明的精神和范围。
附录A—知识获取列表
(具有部分结果的例子)
知识获取引擎
使用24亿单词量的英语语料库得到的样本结果
对“警惕的眼睛”进行概念挖掘得到的结果
  短语   相对分数
  1   警惕的眼睛   669
  2   控制   17
  3   监管   13
  4   指导   9
  5   权限   9
  6   指示   8
  7   保护   8
  8   命令   8
  9   影响   8
  10   权威   7
  11   伞   6
  12   支持   5
  13   领导   5
  14  庇护  5
  15  赞助  5
  16  审视  5
  17  压力  5
  18  秩序  5
  19  审慎  5
  20  标语  4
  21  管理  4
  22  眼睛  4
  23  主管  4
  24  鼻子  4
  25  关注  4
知识获取引擎
使用24亿单词量的英语语料库得到的样本结果
对“有意义的”进行概念挖掘得到的结果
  短语   相对分数
  1   有意义的   984
  2   意义重大的   24
  3   积极的   22
  4   主要的   20
  5   有用的   20
  6   本质上的   17
  7   真实的   16
  8   大的   15
  9   直接的   14
  10   建设性的   13
  11   伟大的   13
  12   重要的   12
  13   更大的   12
  14   极大的   11
  15   独特的   11
  16   有价值的   11
  17   基本的   10
  18   巨大的   10
  19   关键的   10
  20   决定性的   10
  21   核心的   9
  22   大的   9
  23   持久的   9
  24   特殊的   9
  25   好的   9
知识获取引擎
使用24亿单词量的英语语料库得到的样本结果
对“演示”进行概念挖掘得到的结果
  短语   相对分数
  1   演示   917
  2   试用   9
  3   版本   8
  4   评估   8
  5   下载   5
  6   复制   4
  7   30天评估   4
  8   pdf   3
  9   评估拷贝   3
  10   30天试用   3
  11   30天试用版本   3
  12   小册子   3
  13   软件的演示版   3
  14   样本  3
  15   共享软件  3
  16   观者  3
  17   玩家  3
  18   共享版  3
  19   Acrobat阅读器  2
  20   帮助  2
  21   最终版本  2
  22   评估版本  2
  23   此产品的实现  2
  24   读者     2
  25   展示     2
知识获取引擎
使用24亿单词量的英语语料库得到的样本结果
对“上帝”进行概念挖掘得到的结果
短语 相对分数
1 上帝 956
2 天堂 19
3 17
4 17
5 他(宾格) 15
6 耶和华 13
7 神仙 12
8 他(主格) 10
9 9
10 安拉 9
11 基督 8
12 神性 7
13 耶稣 7
 14 7
 15 上主 7
 16 6
 17 6
 18 一个 6
 19 6
 20 加拿大 5
 21 神父 5
 22 上帝他 5
 23 神那样 5
 24 统治 4
 25 信念中的神 4
知识获取引擎
使用24亿单词量的英语语料库得到的样本结果
对“会议”进行概念挖掘得到的结果
短语 相对分数
1 会议 982
2 开会 73
3 议会 45
4 研讨会 40
5 座谈会 30
6 摘要 27
7 大会 23
8 多次会议 23
9 讨论会 18
  10   举办的会议   18
  11   峰会   16
  12   会议期   16
  13   项目   15
  14   论坛   15
  15   国会   15
  16   集会   14
  17   多次开会   13
  18   工程   13
  19   事件   13
  20   调查团   13
  21   委员会   13
  22   国际会议   12
  23   期间   10
  24   联合会议   9
  25   一般性会谈   9
知识获取引擎
使用24亿单词量的英语语料库得到的样本结果
对“亚利桑那州”进行概念挖掘得到的结果
  短语   相对分数
  1   亚利桑那州   953
  2   佛罗里达州   52
  3   加利福尼亚州   50
  4   爱荷华州   42
  5   俄亥俄州   41
  6   伊利诺斯州   40
  7   密歇根州   40
  8   科罗拉多州   37
  9   华盛顿   35
  10   犹他州   32
  11   乔治亚州   32
  12   美属萨摩亚亚利桑那   31
  13   田纳西州   31
  14   俄勒冈州   30
  15   宾夕法尼亚州   29
  16   德克萨斯州   28
  17   明尼苏达州   28
  18   新墨西哥州   28
  19   堪萨斯州   27
  20   美国北卡罗来纳州   24
  21   路易斯安那州   24
  22   俄克拉荷马州   23
  23   那   23
  24   弗吉尼亚州   23
  25   阿肯色州   22
知识获取引擎
使用24亿单词量的英语语料库得到的样本结果
对“万维网”进行概念挖掘得到的结果
  短语   相对分数
  1   万维网   940
  2   Web   122
  3   因特网   81
  4   www   35
  5   世界万维网   13
  6   全世界万维网   12
  7   因特网万维网   11
  8   新的   10
  9   官方的   9
  10   网络站点   9
  11   网站  9
  12   站点  9
  13   新万维网  8
  14   公司的网站  7
  15   公司网页  7
  16   主要的  6
  17   公司网站  6
  18   主页  6
  19   支持  6
  20   官方网站  5
知识获取引擎
使用24亿单词量的英语语料库得到的样本结果
对“分析”进行概念挖掘得到的结果
  短语   相对分数
  1   分析   971
  2   进行分析   12
  3   确定   8
  4   改进   8
  5   评估   7
  6   估算   7
  7   理解   7
  8   检查   7
  9   估计   7
  10   对   6
  11   中   6
  12   使用   5
  13   比较   5
  14   度量  5
  15   获取   5
  16   校验   5
  17   研究   4
  18   最小化   4
  19   调查   4
  20   减少   4
  21   测试   4
  22   那   4
  23   偏移   4
  24   查看   4
  25   孤立   4
知识获取引擎
使用24亿单词量的英语语料库得到的样本结果
对“有关信息”进行概念挖掘得到的结果
  短语   相对分数
  1   有关信息   978
  2   相关信息   167
  3   关联信息   73
  4   有关细节   63
  5   有关   51
  6   相关细节   46
  7   关于   42
  8   有关资讯   31
  9   相关资讯   28
  10   信息联系   25
  11   详细的有关信息   25
  12   的细节   24
  13   有关的详细信息   17
  14   信息请联系   16
  15   关联咨询   16
  16   有关其中任何一种的信息   13
  17   与其中任何一种的相关信息   12
  18   关联细节   12
  19   信息访问   12
  20   信息查看   12
  21   有关财务信息   11
  22   有关的信息   9
  23   相关的一般信息   9
  24   信息或注册   9
  25   有关使用的信息   8
知识获取引擎
使用24亿单词量的英语语料库得到的样本结果
对“保险地说”进行概念挖掘得到的结果
  短语   相对分数
  1   保险地说   148
  2   公平地说   24
  3   那很重要   16
  4   你会发现   12
  5   很明显   12
  6   公平地讲   11
  7   我们都同意   11
  8   事实   10
  9   可以说   10
  10   很重要   9
  11   重要的是   9
  12   同样   8
  13   重要的是认识到   8
  14   不巧  7
  15   很清楚  7
  16   现在  7
  17   这样说应该是公平的  7
  18   显然  7
  19   我们都知道  7
  20   据说  7
  21   明显  7
  22   总所周知的是  7
  23   我们应该还记得  7
  24   重要的是记得  6
  25   他会发现  6
  26   安全地说  6
知识获取引擎
使用24亿单词量的英语语料库得到的样本结果
对“国家最大的”进行概念挖掘得到的结果
  短语   相对分数
  1   国家最大的   674
  2   最大的   70
  3   全国最大的   29
  4   世界最大的   25
  5   领先的   23
  6   最好的   20
  7   最大的   19
  8   最老的   14
  9   品质最好的   14
  10   第一   12
  11   主要的   9
  12   最伟大的   8
  13   全国领先的   8
  14   最强的   8
  15   少   7
  16   世界领先的   7
  17   世界最大的   7
  18   顶级的   6
  19   增长最快的   6
  20   最重要的   6
  21   英国最大的   6
  22   最成功的   6
  23   最早的   5
  24   最富有的   5
知识获取引擎
使用24亿单词量的英语语料库得到的样本结果
对“CEO”进行概念挖掘得到的结果
  短语   相对分数
  1   CEO   953
  2   首席执行官   178
  3   首席经理   74
  4   总经理   35
  5   首席运营官   28
  6   创始人   25
  7   总裁   24
  8   主席   24
  9   董事   20
  10   共同创始人   16
  11   副总裁   13
  12   总顾问   12
  13   头   12
  14   常务董事   12
  15   首席财务官   11
  16   执行董事   11
  17   副总裁   10
  18   CFO   9
  19   COO   9
  20   成员   9
  21   发行人   9
  22   出纳   7
  23   秘书   6
  24   总   6
知识获取引擎
使用24亿单词量的英语语料库得到的样本结果
对“条款和条件”进行概念挖掘得到的结果
  短语   相对分数
  1   条款和条件   969
  2   条款   334
  3   条件   153
  4   使用条款   105
  5   附带条件   83
  6   服务条款   65
  7   规则   58
  8   使用条款和条件   48
  9   要求   44
  10   指导方针   35
  11   流程   28
  12   限制   25
  13   政策   24
  14   原则   19
  15   限制   19
  16   规定   19
  17   标准   17
  18   使用条件   17
  19   TOS   16
  20   信息   15
  21   条款和附带条件   15
  22   准则   15
  23   下面的条款和条件   14
  24   规定和规定   13
  25   站点条款   13
知识获取引擎
使用24亿单词量的英语语料库得到的样本结果
对“规则和规定”进行概念挖掘得到的结果
  短语   相对分数
  1   规则和规定   978
  2   规则   61
  3   规定   48
  4   指导方针   28
  5   条款和条件   26
  6   要求   23
  7   条件   22
  8   流程   21
  9   附带条款   19
  10   条款   18
  11   政策   18
  12   法律   17
  13   标准   13
  14   原则   13
  15   准则   11
  16   法令   11
  17   规则和流程   9
  18   流程   8
  19   规则   8
  20   指令   8
  21   政策和流程   8
  22   政策   8
  23   指导   7
  24   安排   7
  25   法律法规   6
知识获取引擎
使用24亿单词量的英语语料库得到的样本结果
对“基地组织”进行概念挖掘得到的结果
  短语   相对分数
  1   基地组织   *
  2   Al-qaida   *
  3   Al-qaeda   *
  4   Al qaida   *
  5   Al-qa eda   *
  6   奥萨马·本·拉登   *
  7   恐怖分子   *
  8   Al-qaeda   *
  9   它   *
  10   Al-qa’ida   *
  11   全球   *
  12   他们   *
  13   Al queda   *
Figure C0382572901141
附录A—知识获取列表
具有全部结果的例子)
对“重要的是注意”进行知识获取得到的结果
Figure C0382572901151
Figure C0382572901161
Figure C0382572901171
Figure C0382572901201
Figure C0382572901211
Figure C0382572901221
Figure C0382572901231
Figure C0382572901241
Figure C0382572901251
Figure C0382572901261
Figure C0382572901271
Figure C0382572901291
Figure C0382572901301
Figure C0382572901311
Figure C0382572901321
Figure C0382572901331
Figure C0382572901341
Figure C0382572901351
Figure C0382572901361
Figure C0382572901391
Figure C0382572901401
Figure C0382572901411
Figure C0382572901421
Figure C0382572901431
Figure C0382572901441
Figure C0382572901451
Figure C0382572901452
Figure C0382572901471
Figure C0382572901481
Figure C0382572901521
Figure C0382572901531
Figure C0382572901541
Figure C0382572901551
Figure C0382572901562
Figure C0382572901572
Figure C0382572901581
Figure C0382572901591
Figure C0382572901601
Figure C0382572901602
Figure C0382572901611
Figure C0382572901621
Figure C0382572901631
Figure C0382572901651
Figure C0382572901661
Figure C0382572901671
Figure C0382572901681
Figure C0382572901691
Figure C0382572901711
附录B一
使用平行文本和重叠进行翻译的例子
尝试翻译(从英语到西班牙语):
you can also rename the file and write code that affects the project in order tocomplete the application for information on creating applications
                                                                                       
Checking db for:you can also rename the file and write code that affects the projectin order to complete the application for information on creating applicationsfound in 1 files(took 0.085 Seconds)
                                                                                        
Checking db for:you can also rename the file and write code that affects the projectin order to complete the application for information on creatingfound in 1 files(took 0.082 Seconds)
                                                                                        
Checking db for:you can also rename the file and write code that affects the projectin order to complete the application for information onfound in 1 files(took 0.082 Seconds)
                                                                                         
Checking db for:you can also rename the file and write code that affects the projectin order to complete the application for informationfound in 1 files(took 0.084 Seconds)
                                                                                         
Checking db for:you can also rename the file and write code that affects the projectin order to complete the application forfound in 1 files(took 0.082 Seconds)
                                                                                         
Checking db for:you can also rename the file and write code that affects the projectin order to complete the applicationfound in 1 files(took 0.082 Seconds)
                                                                                         
Checking db for:you can also rename the file and write code that affects the projectin order to complete thefound in 1 files(took 0.082 Seconds)
                                                                                          
Checking db for:you can also rename the file and write code that affects the projectin order to completefound in 1 files(took 0.082 Second)
                                                                                          
Checking db for:you can also rename the file and write code that affects the projectin order tofound in 1 files(took 0.082 Seconds)
                                                                                      
Checking db for:you can also rename the file and write code that affects the projectin orderfound in 1 files(took 0.082 Second)
                                                                                     
Checking db for:you can also rename the file and write code that affects the projectinfound in 1 files(took 0.082 Seconds)
                                                                                     
Checking db for:you can also rename the file and write code that affects the projectfound in 1 files(took 0.082 Seconds)
                                                                                     
Checking db for:you can also rename the file and write code that affects thefound in 1 files(took 0.082 Seconds)
                                                                                      
Checking db for:you can also rename the file and write code that affectsfound in 1 files(took 0.082 Seconds)
                                                                                      
Checking db for:you can also rename the file and write code thatfound in 1 files(took 0.082 Seconds)
                                                                                      
Checking db for:you can also rename the file and write codefound in 1 files(took 0.082 Seconds)
                                                                                      
Checking db for:you can also rename the file and writefound in 1 files(took 0.083 Seconds)
                                                                                      
Checking db for:you can also rename the file andfound in 1 files(took 0.082 Seconds)
                                                                                       
Checking db for:you can also rename the filefound in 1 files(took 0.053 Seconds)
                                                                                       
Checking db for:you can also rename thefound in 1 files(took 0.048 Seconds)
                                                                                       
Checking db for:you can also renamefound in 4 files(took 0.047 Seconds)
                                                                                       
Checking db for:you can alsofound in 1000 files(took 0.032 Seconds)□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□Will check 100 files
                                                                         
File comparison took 4.865 Seconds.
you can also的频率表
                                                                                    
Checking db for:can also rename the file and write code that affects the project inorder to complete the application for information on creating applicationsfound in 1 files(took 0.038 Seconds)
                                                                                     
Checkitng db for:can also rename the file and write code that affects the project inorder to complete the application for information on creatingfound in 1 files(took 0.038 Seconds)
                                                                                      
Checking db for:can also rename the file and write code that affects the project inorder to complete the application for information onfound in 1 files(took 0.038 Seconds)
                                                                                       
Checking db for:can also rename the file and write code that affects the project inorder to complete the application for informationfound in 1 files(took 0.037 Seconds)
                                                                                    
Checking db for:can also rename the file and write code that affects the project inorder to complete the application forfound in 1 files(took 0.038 Seconds)
                                                                                    
Checking db for:can also rename the file and write code that affects the project inorder to complete the applicationfound in 1 files(took 0.038 Seconds)
                                                                                    
Checking db for:can also rename the file and write code that affects the project inorder to complete thefound in 1 files(took 0.038 Seconds)
                                                                                    
Checking db for:can also rename the file and write code that affects the project inorder to completefound in 1 files(took 0.038 Seconds)
                                                                                    
Checking db for:can also rename the file and write code that affects the project inorder tofound in 1 files(took 0.580 Seconds)
                                                                                    
Checking db for:can also rename the file and write code that affects the project inorderfound in 1 files(took 0.038 Seconds)
                                                                                    
Checking db for:can also rename the file and write code that affects the project infound in 1 files(took 0.038 Seconds)
                                                                                    
Checking db for:can also rename the file and write code that affects the projectfound in 1 files(took 0.037 Seconds)
                                                                                    
Checking db for:can also rename the file and write code that affects thefound in 1 files(took 0.037 Seconds)
                                                                                    
Checking db for:can also rename the file and write code that affectsfound in 1 files(took 0.037 Seconds)
                                                                                    
Checking db for:can also rename the file and write code thatfound in 1 files(took 0.037 Seconds)
                                                                                    
Checking db for:can also rename the file and write codefound in 1 files(took 0.040 Seconds)
                                                                                    
Checking db for:can also rename the file and writefound in 1 files(took 0.039 Seconds)
                                                                                      
Checking db for:can also rename the file andfound in 1 files(took 0.037 Seconds)
                                                                                  
Checking db for:can also rename the filefound in 1 files(took 0.008 Seconds)
                                                                                   
Checking db for:can also rename thefound in 4 files(took 0.003 Seconds)
                                                                                    
Checking db for:can also renamefound in 33 files(took 0.002 Seconds)□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□Will check 33 files
                                               
File comparison took 1.774 Seconds.
you can also的频率表
Figure C0382572901761
                                                                              
you can also rename的可能翻译(使用重叠)
Figure C0382572901771
                                                                                      
Checking db for:also rename the file and write code that affects the project in orderto complete the application for information on creating applicationsfound in 1 files(took 0.038 Seconds)
                                                                                      
Checking db for:also rename the file and write code that affects the project in orderto complete the application for information on creatingfound in 1 files(took 0.038 Seconds)
                                                                                      
Checking db for:also rename the file and write code that affects the project in orderto complete the application for information onfound in 1 files(took 0.038 Seconds)
                                                                                       
Checking db for:also rename the file and write code that affects the project in orderto complete the application for informationfound in 1 files (took 0.038 Seconds)
                                                                                       
Checking db for:also rename the file and write code that affects the project in orderto complete the application forfound in 1 files(took 0.038 Seconds)
                                                                                        
Checking db for:also rename the file and write code that affects the project in orderto complete the applicationfound in 1 files(took 0.038 Seconds)
                                                                                         
Checking db for:also rename the file and write code that affects the project in orderto complete thefound in 1 files(took 0.038 Seconds)
                                                                                 
Checking db for:also rename the file and write code that affects the project in orderto completefound in 1 files(took 0.038 Seconds)
                                                                                     
Checking db for:also rename the file and write code that affects the project in ordertofound in 1 files(took 0.038 Seconds)
                                                                                     
Checking db for:also rename the file and write code that affects the projectin orderfound in 1 files(took 0.038 Seconds)
                                                                                     
Checking db for:also rename the file and write code that affects the project infound in 1 files(took 0.038 Seconds)
                                                                                     
Checking db for:also rename the file and write code that affects the projectfound in 1 files(took 0.040 Seconds)
                                                                                     
Checking db for:also rename the file and write code that affects thefound in 1 files(took 0.038 Seconds)
                                                                                     
Checking db for:also rename the file and write code that affectsfound in 1 files(took 0.039 Seconds)
                                                                                     
Checking db for:also rename the file and write code thatfound in 1 files(took 0.038 Seconds)
                                                                                     
Checking db for:also rename the file and write codefound in 1 files(took 0.038 Seconds)
                                                                                     
Checking db for:also rename the file and writefound in 1 files(took 0.035 Seconds)
                                                                                     
Checking db for:also rename the file andfound in 1 files(took 0.034 Seconds)
                                                                                     
Checking db for:also rename the filefound in 1 files(took 0.007 Seconds)
                                                                                     
Checking db for:also rename thefound in 4 files(took 0.001 Seconds)
                                                                                     
Checking db for:rename the file and write code that affects the project in order tocomplete the application for information on creating applicationsfound in 1 files(took 0.045 Seconds)
                                                                                      
Checking db for:rename the file and write code that affects the project in order tocomplete the application for information on creatingfound in 1 files(took 0.044 Seconds)
                                                                                     
Checking db for:rename the file and write code that affects the project in order tocomplete the application for information onfound in 1 files(took 0.044 Seconds)
                                                                                     
Checking db for:rename the file and write code that affects the project in order tocomplete the application for informationfound in 1 files(took 0.044 Seconds)
                                                                                     
Checking db for:rename the file and write code that affects the project in order tocomplete the application forfound in 1 files(took 0.044 Seconds)
                                                                                     
Checking db for:rename the file and write code that affects the project in order tocomplete the applicationfound in 1 files(took 0.044 Seconds)
                                                                                     
Checking db for:rename the file and write code that affects the project in order tocomplete thefound in 1 files(took 0.043 Seconds)
                                                                                     
Checking db for:rename the file and write code that affects the project in order tocompletefound in 1 files(took 0.045 Seconds)
                                                                                     
Checking db for:rename the file and write code that affects the project in order tofound in 1 files(took 0.044 Seconds)
                                                                                     
Checking db for:rename the file and write code that affects the project in orderfound in 1 files(took 0.044 Seconds)
                                                                                     
Checking db for:rename the file and write code that affects the project infound in 1 files(took 0.044 Seconds)
                                                                                     
Checking db for:rename the file and write code that affects the projectfound in 1 files(took 0.044 Seconds)
                                                                                     
Checking db for:rename the file and write code that affects thefound in 1 files(took 0.043 Seconds)
                                                                                     
Checking db for:rename the file and write code that affectsfound in 1 files(took 0.044 Seconds)
                                                                            
Checking db for:rename the file and write code thatfound in 1 files(took 0.043 Seconds)
                                                                                          
Checking db for:rename the file and write codefound in 1 files(took 0.037 Seconds)
                                                                                          
Checking db for:rename the file and writefound in 1 files(took 0.036 Seconds)
                                                                                          
Checking db for:rename the file andfound in 3 files(took 0.034 Seconds)
                                                                                          
Checking db for:rename the filefound in 117 files(took 0.005 Seconds)□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□Will check 100 files
                                                                                           
File comparison took 5.326 Seconds.
rename the file的频率表
Figure C0382572901801
                                                                                                                
you can also rename the file的可能翻译(使用重叠)
Figure C0382572901811
                                                                                      
Checking db for:the file and write code that affects the project in order to completethe application for information on creating applicationsfound in 1 files(took 0.040 Seconds)
                                                                                      
Checking db for:the file and write code that affects the project in order to completethe application for information on creatingfound in 1 files(took 0.040 Seconds)
                                                                                      
Checking db for:the file and write code that affects the project in order to completethe application for information onfound in 1 files(took 0.039 Seconds)
                                                                                      
Checking db for:the file and write code that affects the project in order to completethe application for informationfound in 1 files(took 0.043 Seconds)
                                                                                      
Checking db for:the file and write code that affects the project in order to completethe application forfound in 1 files(took 0.041 Seconds)
                                                                                              
Checking db for:the file and write code that affects the project in order to completethe applicationfound in 1 files(took 0.040 Seconds)
                                                                                       
Checking db for:the file and write code that affects the project in order to completethefound in 1 files(took 0.040 Seconds)
                                                                                        
Checking db for:the file and write code that affects the project in order to completefound in 1 files(took 0.040 Seconds)
                                                                                        
Checking db for:the file and write code that affects the project in order tofound in 1 files(took 0.040 Seconds)
                                                                                        
Checking db for:the file and write code that affects the project in orderfound in 1 files(took 0.040 Seconds)
                                                                                         
Checking db for:the file and write code that affects the project infound in 1 files(took 0.040 Seconds)
                                                                         
Checking db for:the file and write code that affects the projectfound in 1 files(took 0.040 Seconds)
                                                                         
Checking db for:the file and write code that affects thefound in 1 files(took 0.040 Seconds)
                                                                         
Checking db for:the file and write code that affectsfound in 1 files(took 0.040 Seconds)
                                                                         
Checking db for:the file and write code thatfound in 1 files(took 0.039 Seconds)
                                                                         
Checking db for:the file and write codefound in 1 files(took 0.033 Seconds)
                                                                          
Checking db for:the file and writefound in 6 files(took 0.031 Seconds)
                                                                          
Checking db for:the file andfound in 664 files(took 0.432 Seconds)□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□Will check 100 files
                                                
File comparison took 10.28 Seconds.
the file and的频率表
Figure C0382572901821
                                                                                        
you can also rename the file and的可能翻译(使用重叠)
Figure C0382572901832
Checking db for:file and write code that affects the project in order to complete theapplication for information on creating applicationsfound in 1 files(took 0.012 Seconds)
                                                                                       
Checking db for:file and write code that affects the project in order to complete theapplication for information on creatingfound in 1 files(took 0.011 Seconds)
                                                                                       
Checking db for:file and write code that affects the project in order to complete theapplication for information onfound in 1 files(took 0.011 Seconds)
                                                                                       
Checking db for:file and write code that affects the project in order to complete theapplication for informationfound in 1 files(took 0.011 Seconds)
                                                                                       
Checking db for:file and write code that affects the project in order to complete theapplication forfound in 1 files(took 0.011 Seconds)
                                                                                          
Checking db for:file and write code that affects the project in order to complete theapplicationfound in 1 files(took 0.011 Seconds)
                                                                                    
Checking db for:file and write code that affects the project in order to complete thefound in 1 files(took 0.011 Seconds)
                                                                                    
Checking db for:file and write code that affects the project in order to completefound in 1 files(took 0.011 Seconds)
                                                                                    
Checking db for:file and write code that affects the project in order tofound in 1 files(took 0.011 Seconds)
                                                                                    
Checking db for:file and write code that affects the project in orderfound in 1 files (took 0.011 Seconds)
                                                                                    
Checking db for:file and write code that affects the project infound in 1 files(took 0.011 Seconds)
                                                                                    
Checking db for:file and write code that affects the projectfound in 1 files(took 0.011 Seconds)
                                                                                    
Checking db for:file and write code that affects thefound in 1 files(took 0.011 Seconds)
                                                                                    
Checking db for:file and write code that affectsfound in 1 files(took 0.009 Seconds)
                                                                                    
Checking db for:file and write code thatfound in 1 files(took 0.696 Seconds)
                                                                                    
Checking db for:file and write codefound in 1 files(took 0.003 Seconds)
                                                                                    
Checking db for:file and writefound in 14 files(took 0.001 Seconds)□□□□□□□□□□□□□□Will check 14 files
                                               
File comparison took 0.949 Seconds.
fille and write的频率表
Figure C0382572901841
Figure C0382572901851
                                                                               
you can also rename the file and write的可能翻译(使用重叠)
                                                                               
Checking db for:and write code that affects the project in order to complete theapplication for information on creating applicationsfound in 1 files(took 0.011 Seconds)
                                                                               
Checking db for:and write code that affects the project in order to complete theapplication for information on creatingfound in 1 files(took 0.010 Seconds)
                                                                               
Checking db for:and write code that affects the project in order to complete theapplication for information onfound in 1 files(took 0.010 Seconds)
                                                                               
Checking db for:and write code that affects the project in order to complete theapplication for informationfound in 1 files(took 0.010 Seconds)
                                                                               
Checking db for:and write code that affects the project in order to complete theapplication forfound in 1 files(took 0.010 Seconds)
                                                                                  
Checking db for:and write code that affects the project in order to complete theapplicationfound in 1 files (took 0.010 Seconds)
                                                                                  
Checking db for:and write code that affects the project in order to complete thefound in 1 files(took 0.012 Seconds)
                                                                                 
Checking db for:and write code that affects the project in order to completefound in 1 files(took 0.011 Seconds)
                                                                                 
Checking db for:and write code that affects the project in order tofound in 1 files(took 0.010 Seconds)
                                                                               
Checking db for:and write code that affects the project in orderfound in 1 files(took 0.010 Seconds)
                                                                               
Checking db for:and write code that affects the project infound in 1 files(took 0.011 Seconds)
                                                                               
Checking db for:and write code that affects the projectfound in 1 files(took 0.010 Seconds)
                                                                               
Checking db for:and write code that affects thefound in 1 files(took 0.010 Seconds)
                                                                                
Checking db for:and write code that affectsfound in 1 files(took 0.008 Seconds)
                                                                                 
Checking db for:and write code thatfound in 3 files(took 0.008 Seconds)
                                                                                 
Checking db for:and write codefound in 35 files(took 0.002 Seconds)□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□Will check 35 files
                                                                             
File comparison took 2.702 Seconds.
and write code的频率表
Figure C0382572901871
                                                                 
you can also rename the file and write code的可能翻译(使用重叠)
Figure C0382572901872
                                                                         
Checking db for:write code that affects the project in order to complete theapplication for information on creating applicationsfound in 1 files(took 0.018 Seconds)
                                                                         
Checking db for:write code that affects the project in order to complete theapplication for information on creatingfound in 1 files(took 0.017 Seconds)
                                                                         
Checking db for:write code that affects the project in order to complete theapplication for information onfound in 1 files(took 0.018 Seconds)
                                                                         
Checking db for:write code that affects the project in order to complete theapplication for informationfound in 1 files(took 0.017 Seconds)
                                                                         
Checking db for:write code that affects the project in order to complete theapplication forfound in 1 files(took 0.017 Seconds)
                                                                         
Checking db for:write code that affects the project in order to complete theapplicationfound in 1 files(took 0.017 Seconds)
                                                                         
Checking db for:write code that affects the project in order to complete thefound in 1 files(took 0.017 Seconds)
                                                                         
Checking db for:write code that affects the project in order to completefound in 1 files(took 0.017 Seconds)
                                                                         
Checking db for:write code that affects the project in order tofound in 1 files(took 0.017 Seconds)
                                                                                 
Checking db for:write code that affects the project in orderfound in 1 files(took 0.017 Seconds)
                                                                                  
Checking db for:write code that affects the project infound in 1 files(took 0.017 Seconds)
                                                                                  
Checking db for:write code that affects the projectfound in 1 files(took 0.009 Seconds)
                                                                                  
Checking db for:write code that affects thefound in 1 files(took 0.008 Seconds)
                                                                                  
Checking db for:write code that affectsfound in 1 files(took 0.006 Seconds)
                                                                                  
Checking db for:write code thatfound in 126 files(took 0.005 Seconds)□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□Will check 100 files
                                          
File comparison took 9.389 Seconds.
write code that的频率表
Figure C0382572901891
Figure C0382572901901
                                                                 
you can also rename the file and write code that的可能翻译(使用重叠)
                                                                               
Checking db for:code that affects the project in order to complete the applicationfor information on creating applicationsfound in 1 files(took 0.013 Seconds)
                                                                               
Checking db for:code that affects the project in order to complete the applicationfor information on creatingfound in 1 files(took 0.013 Seconds)
                                                                               
Checking db for:code that affects the project in order to complete the applicationfor information onfound in 1 files(took 0.012 Seconds)
                                                                               
Checking db for:code that affects the project in order to complete the applicationfor informationfound in 1 files(took 0.012 Seconds)
                                                                               
Checking db for:code that affects the project in order to complete the applicationforfound in 1 files(took 0.013 Seconds)
                                                                        
Checking db for:code that affects the project in order to complete the applicationfound in 1 files(took 0.012 Seconds)
                                                                         
Checking db for:code that affects the project in order to complete thefound in 1 files(took 0.014 Seconds)
                                                                          
Checking db for:code that affects the project in order to completefound in 1 files(took 0.012 Seconds)
                                                                           
Checking db for:code that affects the project in order tofound in 1 files(took 0.012 Seconds)
                                                                            
Checking db for:code that affects the project in orderfound in 1 files(took 0.012 Seconds)
                                                                             
Checking db for:code that affects the project infound in 1 files(took 0.011 Seconds)
                                                                              
Checking db for:code that affects the projectfound in 1 files(took 0.003 Seconds)
                                                                              
Checking db for:code that affects thefound in 1 files(took 0.002 Seconds)
                                                                               
Checking db for:code that affectsfound in 1 files(took 0.699 Seconds)
                                                                                
Checking db for:that affects the project in order to complete the application forinformation on creating applicationsfound in 1 files(took 0.056 Seconds)
                                                                                 
Checking db for:that affects the project in order to complete the application forinformation on creatingfound in 1 files(took 0.055 Seconds)
                                                                                   
Checking db for:that affects the project in order to complete the application forinformation onfound in 1 files(took 0.055 Seconds)
Checking db for:that affects the project in order to complete the application forinformationfound in 1 files(took 0.055 Seconds)
Checking db for:that affects the project in order to complete the application forfound in 1 files(took 0.055 Seconds)
                                                                            
Checking db for:that affects the project in order to complete the applicationfound in 1 files(took 0.055 Seconds)
                                                                             
Checking db for:that affects the project in order to complete thefound in 1 files(took 0.055 Seconds)
                                                                             
Checking db for:that affects the project in order to completefound in 1 files(took 0.054 Seconds)
                                                                              
Checking db for:that affects the project in order tofound in 1 files(took 0.055 Seconds)
                                                                               
Checking db for:that affects the project in orderfound in 1 files(took 0.011 Seconds)
                                                                                 
Checking db for:that affects the project infound in 1 files(took 0.010 Seconds)
                                                                                  
Checking db for:that affects the projectfound in 1 files(took 0.002 Seconds)
                                                                                   
Checking db for:that affects thefound in 27 files(took 0.001 Seconds)□□□□□□□□□□□□□□□□□□□□□□□□□□□Will check 27 files
                                                 
File comparison took 1.895 Seconds.
that affects the的频率表
Figure C0382572901921
Figure C0382572901931
                                                                             
you can also rename the file and write code that afftect的可能翻译(使用重叠)
Figure C0382572901932
Figure C0382572901941
                                                                             
Checking db for:affects the project in order to complete the application forinformation on creating applicationsfound in 1 files(took 0.059 Seconds)
                                                                              
Checking db for:affects the project in order to complete the application forinformation on creatingfound in 1 files(took 0.058 Seconds)
                                                                              
Checking db for:affects the project in order to complete the application forinformation onfound in 1 files(took 0.058 Seconds)
                                                                              
Checking db for:affects the project in order to complete the application forinformationfound in 1 files(took 0.058 Seconds)
                                                                              
Checking db for:affects the project in order to complete the application forfound in 1 files(took 0.058 Seconds)
                                                                              
Checking db for:affects the project in order to complete the applicationfound in 1 files(took 0.058 Seconds)
                                                                              
Checking db for:affects the project in order to complete thefound in 1 files(took 0.058 Seconds)
                                                                              
Checking db for:affects the project in order to completefound in 1 files(took 0.058 Seconds)
                                                                              
Checking db for:affects the project in order tofound in 1 files(took 0.054 Seconds)
                                                                                  
Checking db for:affects the project in orderfound in 1 files(took 0.010 Seconds)
                                                                                    
Checking db for:affects the project infound in 1 files(took 0.008 Seconds)
                                                                                     
Checking db for:affects the projectfound in 2 files(took 0.001 Seconds)
                                                                                     
Checking db for:the project in order to complete the application for information oncreating applicationsfound in 1 files(took 0.099 Seconds)
                                                                                     
Checking db for:the project in order to complete the application for information oncreatingfound in 1 files(took 0.098 Seconds)
                                                                                      
Checking db for:the project in order to complete the application for information onfound in 1 files(took 0.099 Seconds)
                                                                                      
Checking db for:the project in order to complete the application for informationfound in 1 files(took 0.099 Seconds)
                                                                                      
Checking db for:the project in order to complete the application forfound in 1 files(took 0.098 Seconds)
                                                                                       
Checking db for:the project in order to complete the applicationfound in 1 files(took 0.098 Seconds)
                                                                                       
Checking db for:the project in order to complete thefound in 1 files(took 0.099 Seconds)
                                                                                       
Checking db for:the project in order to completefound in 1 files(took 0.058 Seconds)
                                                                                       
Checking db for:the project in order tofound in 1 files(took 0.054 Seconds)
                                                                                       
Checking db for:the project in orderfound in 12 files(took 0.010 Seconds)□□□□□□□□□□□□Will check 12 files
                                                   
File comparison took 1.033 Seconds.
the project in order的频率表
Figure C0382572901951
Figure C0382572901961
                                                                                       
不能找到重叠,请尝试其他输入。
                                                                                        
Checking db for:the project infound in 181 files(took 0.007 Seconds)□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□Will check100 files
                                            
File comparison took 8.229 Seconds.
the project in的频率表
Figure C0382572901962
Figure C0382572901971
                                                                                        
you can also rename the file and write code that affects the project的可能翻译(使用重叠)
Figure C0382572901972
                                                                              
Checking db for:project in order to complete the application for information oncreating applicationsfound in 1 files(took 0.092 Seconds)
                                                                                
Checking db for:project in order to complete the application for information oncreatingfound in 1 files(took 0.092 Seconds)
                                                                                
Checking db for:project in order to complete the application for information onfound in 1 files(took 0.090 Seconds)
                                                                                
Checking db for:project in order to complete the application for informationfound in 1 files(took 0.091 Seconds)
                                                                                 
Checking db for:project in order to complete the application forfound in 1 files(took 0.091 Seconds)
                                                                                  
Checking db for:project in order to complete the applicationfound in 1 files(took 0.090 Seconds)
                                                                                  
Checking db for:project in order to complete thefound in 1 files(took 0.089 Seconds)
                                                                                   
Checking db for:project in order to completefound in 1 files(took 0.049 Seconds)
                                                                                   
Checking db for:project in order tofound in 1 files(took 0.044 Seconds)
                                                                                   
Checking db for:project in orderfound in 24 files(took 0.001 Seconds)□□□□□□□□□□□□□□□□□□□□□□□□Will check 24 files
                                                                                   
File comparison took 1.656 Seconds.
project in order的频率表
Figure C0382572902001
                                                                                                 
you can also rename the file and write code that affects the project in order的可能翻译(使用重叠)
Figure C0382572902002
                                                                                                 
Checking db for:in order to complete the application for information on creatingapplicationsfound in 1 files(took 0.096 Seconds)
                                                                                                 
Checking db for:in order to complete the application for information on creatingfound in 1 files(took 0.095 Seconds)
                                                                                                  
Checking db for:in order to complete the application for information onfound in 1 files(took 0.095 Seconds)
                                                                                   
Checking db for:in order to complete the application for informationfound in 1 files(took 0.095 Seconds)
                                                                                   
Checking db for:in order to complete the application forfound in 1 files(took 0.094 Seconds)
                                                                                   
Checking db for:in order to complete the applicationfound in 1 files(took 0.091 Seconds)
                                                                                   
Checking db for:in order to complete thefound in 5 files(took 0.090 Seconds)
                                                                                    
Checking db for:in order to completefound in 7 files(took 0.053 Seconds)
                                                                                     
Checking db for:in order tofound in 1000 files(took 0.033 Seconds)□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□Will check 100 files
                                           
File comparison took 7.183 Seconds.
in order to的频率表
Figure C0382572902011
Figure C0382572902021
                                                                                                   
you can also rename the file and write code that affects the project in order to的可能翻译(使用重叠)
Figure C0382572902022
                                                                                                   
Checking db for:order to complete the application for information on creatingapplicationsfound in 1 files(took 0.055 Seconds)
                                                                                     
Checking db for:order to complete the application for information on creatingfound in 1 files(took 0.053 Seconds)
                                                                      
Checking db for:order to complete the application for information onfound in 1 files(took 0.053 Seconds)
                                                                       
Checking db for:order to complete the application for informationfound in 1 files(took 0.050 Seconds)
                                                                       
Checking db for:order to complete the application forfound in 1 files(took 0.048 Seconds)
                                                                       
Checking db for:order to complete the applicationfound in 1 files(took 0.045 Seconds)
                                                                       
Checking db for:order to complete thefound in 33 files(took 0.044 Seconds)□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□Will check 33 files
                                                                        
File comparison took 1.949 Seconds.
in order to complete the的频率表
Figure C0382572902031
                                                                                                             
you can also rename the file and write code that affects the project in order to complete the的可能翻译(使用重叠)
Figure C0382572902042
Figure C0382572902051
                                                                    
Checking db for:to complete the application for information on creatingapplicationsfound in 1 files(took 0.096 Seconds)
                                                                    
Checking db for:to complete the application for information on creatingfound in 1 files(took 0.095 Seconds)
                                                                    
Checking db for:to complete the application for information onfound in 1 files(took 0.095 Seconds)
                                                                          
Checking db for:to complete the application for informationfound in 1 files(took 0.049 Seconds)
                                                                            
Checking db for:to complete the application forfound in 1 files(took 0.048 Seconds)
                                                                             
Checking db for:to complete the applicationfound in 4 files(took 0.043 Seconds)
                                                                              
Checking db for:complete the application for information on creating applicationsfound in 1 files(took 0.067 Seconds)
                                                                               
Checking db for:complete the application for information on creatingfound in 1 files(took 0.070 Seconds)
                                                                                
Checking db for:complete the application for information onfound in 1 files(took 0.050 Seconds)
                                                                                 
Checking db for:complete the application for informationfound in 1 files(took 0.005 Seconds)
                                                                                  
Checking db for:complete the application forfound in 1 files(took 0.004 Seconds)
                                                                                   
Checking db for:complete the applicationfound in 4 files(took 0.001 Seconds)
                                                                                    
Checking db for:the application for information on creating applicationsfound in 1 files(took 0.067 Seconds)
                                                                                     
Checking db for:the application for information on creatingfound in 1 files(took 0.065 Seconds)
                                                                                     
Checking db for:the application for information onfound in 1 files(took 0.049 Seconds)
                                                                                       
Checking db for:the application for informationfound in 1 files(took 0.005 Seconds)
                                                                                        
Checking db for:the application forfound in 74 files(took 0.003 Seconds)□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□Will check 74 files
                                     
File comparison took 4.957 Seconds.
Frequency table for:the application for
Figure C0382572902071
                                                                                                     
you can also rename the file and write code that affects the project in order to complete the applicationfor information on creating的可能翻译(使用重叠)
Figure C0382572902072
                                                                                
Checking db for:application for information on creating applicationsfound in 1 files(took 0.063 Seconds)
                                                                                 
Checking db for:application for information on creatingfound in 1 files(took 0.061 Seconds)
                                                                                 
Checking db for:application for information onfound in 1 files(took 0.044 Seconds)
                                                                                  
Checking db for:application for informationfound in 7 files(took 0.001 Seconds)
                                                                                  
Checking db for:for information on creating applicationsfound in 1 files(took 0.063 Seconds)
                                                                                  
Checking db for:for information on creatingfound in 88 files(took 0.063 Seconds)□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□Willcheck 88 files
                                                                                  
File comparison took 7.270 Seconds.
for information on creating的频率表
Figure C0382572902091
                                                                                                        
you can also rename the file and write code that affects the project in order to complete the applicationfor information on creating applications的可能翻译(使用重叠)
Figure C0382572902092
Figure C0382572902101
Figure C0382572902111
Figure C0382572902121
                                                                                                                             
Checking db for:information on creating applicationsfound in 1 files(took 0.017 Seconds)
                                                                                                       
Checking db for:on creating applicationsfound in 1 files(took 0.001 Seconds)
                                                                                                       
Checking db for:creating applicationsfound in 50 files(took 0.002 Seconds)□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□Will check 50 files
                                      
File comparison took 2.627 Seconds.
creating applications的频率表
Figure C0382572902122
                                                                                                       
you can also rename the file and write code that affects the projectin order to complete the application for informationon creating applications的可能翻译(使用重叠)
Figure C0382572902131
Figure C0382572902141
                                                               
Translation process complete(took 245.6 seconds)
English:you can also rename the file and write code that affects theproject in order to complete the application for information on creatingapplications
Spanish:también puede cambiar el nombre de un archivo y escribir códig o que afecta al proyecto para completar la aplicación para obtener información sobre cómo crear aplicaciones
                                                                        
附录C
下面搜索″unless we will have a copy″从英语到法语的翻译。
Checking:unless we will have a copy
db check took 0.269 Seconds
0 files found**
Calling Triangulation
′unless we will have a copy′,from EN to FR=àmoins que nous ayons unecopie
′unless we will have a copy′,from EN to DE=′es sei denn wir eine Kopiehaben′and back to FR its′c′est nous que une copie a′
′unless we will have a copy′,from EN to EL=′εκτóζαvθα
Figure C0382572902162
αvτíγρα_o′and back to FR its′àmoins que nous ayons une copìe′
′unless we will have a copy′,from EN to ES=′a menos que tengamos unacopia′and back to FR its′moins que nous ayons une copie′
′unless we  will have a copy′,from EN to TT=′a meno che abbiamo una copia′and back to FR its ′moins que nous avons une copie′
′unless we will have a copy′,from EN to KO=
Figure C0382572902163
and bacd to FR its ′Nous quand il y a une copiela rancune′
′unless we will have a copy′,from EN to NL=′tenzij wij een exemplaar zullenhebben′and back to FR its ′à moims que nous une copie′
′unless we will have a copy′,from EN to PT=′a menos que nós tivermosumacópia′and back to FR its ′àmoins qus nose ayons une copje′
′unless we will have a copy′,from EN to RU=′Ecли мы нe бyдeм имeтьκопию′and back to FR its′Si nous n′aurons pas une copie′
The Triangulation process took 12.58 sec,
                                                                                 
Checking″àmoins que nous ayons une copie″back to original language.
′àmoins que noun ayons une copie′,from FR to EN =unless we have a copy
′àmoins que nous ayons une copie′,from FR to DE =′es sei denn wir eineKopie haben′and back to EN its ′it is we a copy has′
′àmoins que nous ayons une copie′,from FR to EL =′moins que nous 
Figure C0382572902171
ayonsune copie′and back to EN its ′moins que nous y′!ayons une copie′
′àmoins que nous ayons une copie′,from FR to ES =′a menos que tengamosuna copia′and back to EN its ′unless we have a copy′
′àmoins que nous ayons une copie′,from FR to IT=′a meno che abbiamo unacopia′and back to EN its ′less that we have one copy′
′àmoìns que nous ayons une copie′,from FR to KO =′
Figure C0382572902173
′and back to EN its ′Grudge us who are not when it is the copy′
′àmoins que nous ayons une copie′,from FR to NL =′tenij wij eenexemplaar hebben′and back to EN its ′unless we have a copy′
′àmoins que nous ayons une copie′,from FR to PT =′a menos que nóstivermos uma cópia′and back to EN its ′unless we have a copy′
′àmoins que nous ayons une copie′,from FR to RU =″and back to EN its″
The Triangulation process took 12.90 sec.
                                                                          
Checking:unless we will have a
db check took 0.225 Seconds
0 files found **
Calling Triangulation
′unless we will have a′,from EN to FR=àmoins que nous ayons a
′unless we will have a′,from EN to DE =′es sei denn wir a haben′and back toFR its ′c′est que nous A a′
′unless we will have a′,from EN to EL =′εкτóζαv θα
Figure C0382572902174
τo α′and back toFR its ′àmoins que nous ayons le a′
′unless we will have a′,from EN to ES=′a menos que tengamos a′and back toFR its ′à moins que nous ayons a′
′unless we will have a′,from EN to IT=′a meno che abbiamo a′and back to FRits ′moins que noos devons′
′unless we will have a′,from EN to KO=
Figure C0382572902181
and backto FR its ′Nous quand il y a un}a{la rancune′
′unless we will have a′,from EN to NL=′tenzij wij a zullen hebben′and backto FR its ′àmoins que nous a′
′unlles we will have a′,from EN to PT=′a menos que nós tivermos a′and backto FR its ′àmoins que nous ayons′
′unless we will have a′,from EN to RU=′Ecдимынe бyдeм имeть a′andback to FR its′Si nous n′aurons pas A′
The Triangulation process took 12.51 sec.
                                                                                        
Checking:unless we will have
db check took 0.124 Seconds
0 files found**
Calling Triangulation
′unless we will have′,from EN to FR=àmoins que nous ayons
′unless we will have′,from EN to DE=′es sei denn wir haben′and back to FRits′c′est nous a′
′unless we will have′,from EN to EL=’εкτóζαv θα
Figure C0382572902182
and back to FR its′àmoins que nous ayons′
′unless we will have′,from EN to ES=′a menos que tengamos′and back to FRits ′àmoins que nous ayons′
′unless we will have′,from EN to IT=′a meno che abbiamo’and back to FR its′moins que nous avons′
′unless we will have′,from EN to KO=′
Figure C0382572902191
and back to FRits′Quand il y a de nous la rancune′
′unless we will have′,from EN to NL=′tenzij wij zullen hebben′and back toFR its ′àmoins que nous′
′unless we will have′,from EN to PT=′a menos que nós tivermos′and back toFR its′àmoíns que nous ayons′
′unless we will have′,from EN to RU=′Ecдимынe бyдeм имeть′ and back toFR its′Si nous n′aurons pas′
The Triangulation process took 7.314 sec.
                                                                                         
Checking ″àmoins que nous ayons″back to original language。
′àmoins que nous ayons′,from FR to EN=unless we have
′àmoins que nous ayons′,from FR to DE=′es sei denn wir haben′and back toEN its ′it is we has′
′àmoins que nous ayons′,from FR to EL=′moins que nousayons′and backto EN its′moins que nous y′!ayons′
′à moins que nous ayons′,from FR to ES=′a menos que tengamos′and back toEN its′unless we have′
′àmoins que nous ayons′,from FR to IT=′a meno che abbiamo′and back toEN its′less that we have′
′àmoins que nous avons′,from FR to KO=′
Figure C0382572902193
and backto EN its′When there are grudge we who are not′
′àmoins que nousayons′,from FR to NL =′tenzij wij hebben′and back to ENits ′unless we have′
′àmoins que nous ayons′,from FR to PT =′a menos que nós tivermos′andback to EN its ′unless we have′
′àmoins que nous ayons′,from FR to RU =″and back to EN its″
The Triangulation process took 12.15 sec.
                                                                          
Checking:unless we will
db check took 0.001 Seconds
0 files found**
Calling Triangulation
′unless we will′,from EN to FR =àmoins que nous
′unless we will′,from EN to DE =′es sei denn wir werden′and back to FR its′c′est nous devient′
′unless we will′,from EN to EL =′εкτóζαv′and back to FR its ′àmoins que′
′unless we will′,from EN to ES =′a menos que′and back to FR its ′àm oinsque′
′unless we will′,from EN to IT =′a meno che′and back to FR its ′moins que′
′unless we will′,from EN to KO =′
Figure C0382572902201
and back to FR its ′Larancune ou nous ne sommes pas′
′unless we will′,from EN to NL =′tenzij wij zullen′and back to FR its ′àmoinsque nous′
′unless we will′,from EN to PT =′a menos que nós′and back to FR its ′àmoinsque nous′
′unless we will′,from EN to RU=′Ecлимынe бyдeм′and back to FR its ′Sinous ne serons pas′
The Triangulation process took 10.56 sec.
                                                                           
Checlking″àmoins qne″back to original language.
′àmoins que′,from FR to EN=unless
′àmoinsque′,from FR to DE=′es sei denn′and back to EN its′it is′
′àmoins que′,from FR to EL=′
Figure C0382572902211
moins que′and back to EN its′y′!moins que′
′àmoins que′,from FR to ES=′a menos que′and back to EN its′unless′
′àmoins que′,from FR to IT′=′a meno che′and back to EN its′less than′
′àmoins que′,from FR to KO=′
Figure C0382572902212
and back to EN its′The grudge whichis not′
′àmoins que′,from FR to NL=′tenzij′and back to EN its′unless′
′àmoins que′,from FR to PT=′a menos que′and back to EN its′unless′
àmoins que′,from FR to RU=″and back to EN its″
The Triangulation process took 7.903 sec。
                                                                           
Checking:11nleSs we
db check took 0.093 Seconds
first grep took 2.003 Seconds
found in 1000 files
Rule-based translation#1=
Figure C0382572902213
moins que nous
translated it in 0.702 Seconds
Rule-based translation #2=ànoins que nous
tranlated it in 5.394 Seconds
999 of 1000 files contain a pair(source and target language).
                                                  
Checking:
Figure C0382572902221
moins que nous
grep in target language took 0.233 Seconds 20 found.
counting in files took 0.018 Seconds
Found in 16 files.
                                     
File #0 eng/hansard_disc/set_a/a0/a_012.89.eng --total words:1786;Locations:578.french file.
File #1 eng/hansard_disc/set_a/a0/a_020.29.eng --total words:2004;Locations:760.french file.
File #2 eng/hansard_disc/set_a/a0/a_008.9.eng --total words:1972;Locations:919.french file.
File #3 eng/hansard_disc/set_a/a0/a_009.24.eng --total words:2319;Locations:953.french file.
File #4 eng/hansard_disc/set_a/a0/a_026.37.eng --total words:2320;Locations:1895.french file.
File #5 eng/hansard_disc/set_a/a0/a_006.25.eng --total words:2285;Locations:1637.french file.
File #6 eng/hansard_disc/set_a/a0/a_015.61.eng --total words:2314;Locations:236,948.french file.
File #7 eng/hansard_disc/set_a/a0/a_031.53.eng --total words:2495;Locations:1446.french file.
File #8 eng/hansard_disc/set_a/a0/a_011.78.eng --total words:2448;Locations:1470.french file.
File #9 eng/hansard_disc/set_a/a0/a_014.92.eng --total words:2511;Locations:1867.french file.
File #10 eng/hansard_disc/set_a/a0/a_014.38.eng --total words:2387;Locations:2098.french file.
File #11 eng/hansard_disc/set_a/a0/a_017.82.eng --total words:2437;Locations:1333.frenchfile.
File #12 eng/hansard_disc/set_a/a0/a_013.1.eng --total words:2380;Locations:1638,2213.french file.
File #13 eng/hansard_disc/set_a/a0/a_029.25.eng --total words:2526;Locations:1514.french file.
File #14 eng/hansard_disc/set_a/a0/a_027.42.eng --total words:2577;Locations:2124.french file.
File #15 eng/hansard_disc/set_a/a0/a_006.93.eng --total words:2621;Locations:2534.french file.
Checking:àmoins que nous
grep in target language took 0.237 Seconds 20 found
counting in files took 0.019 Seconds
Found in 16 files.
                           
File #0 eng/hansard_disc/set_a/a0/a_012.89.eng --total words:1786;Locations:578.french file.
File #1 eng/hansard_disc/set_a/a0/a_020.29.eng --total words:2004;Locations:760.french file.
File #2 eng/hansard_disc/set_a/a0/a_008.9.eng --total words:1972;Locations:919.french file.
File #3 eng/hansard_disc/set_a/a0/a_009.24.eng --total words:2319;Locations:953.french file.
File #4 eng/hansard_disc/set_a/a0/a_026.37,eng --total words:2320;Locations:1895.french file.
File #5 eng/hansard_disc/set_a/a0/a_006.25.eng --total words:2285;Locations:1637.french file.
File #6 eng/hansard_disc/set_a/a0/a_015.61.eng --total words:2314;Locations:236,948.french file.
File #7e eng/hansard_disc/set_a/a0/a_031.53.eng --total words:2495;Locations:1446.french file.
File #8 eng/hansard_disc/set_a/a0/a_011.78.eng --total words:2448;Locations:1470.french file.
File #9 eng/hansard_disc/set_a/a0/a_014.92.eng --total words:2511;Locations:1867.french file.
File #10 eneng/hansard_disc/set_a/a0/a_014.38.eng --total words:2387;Locations:2098.french file.
File #11 eng/hansard_disc/set_a/a0/a_017.82.eng --total words:2437;Locations:1333.french file.
File #12 eng/hansard_disc/set_a/a0/a_013.1.eng --total words:2380;Locations:1638,2213.french file.
File #13 eng/hansard_disc/set_a/a0/a_029.25.eng --total words:2526;Locations:1514.french file.
File #14 eng/hansard_disc/set_a/a0/a_027.42.eng --total words:2577;Locations:2124.french file.
File #15 eng/hansard_disc/set_a/a0/a_006.93.eng --total words:2621;Locations:2534.french file.
Last search took 13.44
*true*
unless we的频率表
编号 所属文档数   英语计数 法语
1 13 dOcs   13times àmoins que nous
                                                                  
Starting to trans1ate,false,false,french,true,eng,fre
Trying to translate
So far I have a good overlap O
Checking:we will have a copy
db check took 0.297 Seconds
0 files found**
Calling Triangulation
′we will have a copy′,from EN to FR=nous aurons une copie
′we will have a copy′,from EN to DE=’wir haben eine Kopie′and back to FRits′nous avons une copie′
′we will have a copy′,from EN to EL=′θα
Figure C0382572902241
Figure C0382572902242
αντíγρα_ο′and back toFR its′nous aurons une copie′
′we will have a copy′,from EN to ES=′tendremos una copia′and back to FRits′nous aurons un copie′
′we will have a copy′,from EN to IT=′avremo una copia′and dback to FR its′nous aurons une copie′
′we will have a copy’,from EN to KO=′
Figure C0382572902243
and backto FR its ′Nous serons la copie′
′we will have a copy′,from EN to NL=’Wij zullen een exemplaar hebben′andback to FR its′nous aurons une copie′
′we will have a copy′,from EN to PT=′nós teremos uma cópia′and back to FRits′nous aurons une copie′
′we will have a copy′,from EN to RU=′Mыбyдeмимerькoпию′and back toFR its ′Nous aurons une copie′
The Triangulation process took 17.77 sec.
                                                                
Checking ″nous aurons une copie″back to original language.
′nous aurons une copie′,from FR to EN =we will have a copy
′nous aurons une copie′,from FR to DE =′wir haben eine Kopie′and back toEN its ′we have a copy′
′nous aurons une copie′,from FR to EL =′nous aurons une copie′and back toEN its ′nous aurons une copie′
′nous aurons une copie′,from FR to ES =′tendremos una copia′and back toEN its ′we will have one copies′
′nons aurons une copie′,from FR to IT =′avremo una copia′and back to EN its
′we will have one copy′
′nous aurons une copie′,fron FR to KO=′andback to EN its ′The copy which means will be we′
′nous aurons une copie′,from FR to NL =′wij zullen een exemplaar hebben′and back to EN its ′we will have a copy′
′nous aurons une copie′,from FR to PT =′nós teremos uma cópia′and back toEN its ′we will have a copy′
′nous aurons une copie′,from FR to RU =″and back to EN its ′
The Triangulation process took 8.645 sec.
we will have a copy的频率表
编号 所属文档数 英语计数 法语
  1   20docs   9times   nous aurons une copie
English:unless we will have a copy
French:
Starting to translate unless we will have a copy,false,false,french,true,eng,freselect lang,olang from peanut where lang =′unless we will have a copy′orderby langcount desc -0
Current string to be translated =unless we will have a copy
Got Here...
What now?true
1)àmoíns que nous aurons une copie
The translation process took 117.0 sec.
附录D一
使用目标语言洪流和重叠进行翻译的例子
Figure C0382572902271
Figure C0382572902281
Starting to translate brake and over(hamas anuncióeste jueves el fin de su cese del fuegocon israel)
---------------------{}---------------------
><hamas anuncióeste jueves was just translated and returned results
Number of results =1000
Translation for hamas anuncióeste jueves took 1.328
---------------------{}---------------------
><hamas anuincióeste jueves el was just translated and returned results
Number of results =1000
Translation for hamas anuncióeste jueves el took 0.946
---------------------{}---------------------
><hamas anuncióeste jueves el fin was just translated and returned results
Number of results =1000
Translation for hamas anuncióeste jueves el fin took 1.29
Skipping anuncióeste jueves el(2<2)
---------------------{}---------------------
><anuncióeste jueves el fin was just translated and returned results
Number of results =306
Translation for anuncióeste jueves el fin took 0.827
going to try and overlap this piece with the hashmap
@@@Pre 3@@@
@@@Post 4@@@
Trying to overlap ′hamas anuncióeste jueves el fin′,′anuncióeste jueves el fin′(4,null,1)--(306)
No good source overlap
@@@Pre 4@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el′,′anuncióeste jueves el fin′(2,hamasanuncióeste jueves el fin,1)--(306)
Got an overlap in source,checking target
1000-306
Overlap check for ′hamas anuncióeste jueves el′,′anuncióeste jueves el fin′took 0.722
***hamas anuncióeste jueves el (1000),(306)anuncióeste jueves el fin =hamas anuncióeste jueves el fin
@@@1223->0
                      
′hamas anuncióeste jueves el fin′的重叠结果
                       
1)′hamas announced thursday,the completion′-85(Repeated 11times)(hamas,announced thursday the::announced thursday the completion)
2)′hamas,announced thursday the termination′-85(Repeated 5times)(null)
3)′hamas announced thursday,the end′-85(Repeated 4times)(hamas,announcedthursday the::announced thursday the end)
4)′hamas,announced thursday the end′-85(Repeated 9times)(null)
5)′hamas announced thursday,the termination′-85(Repeated 4times)(hamas,announced thursday the::announced thursday the termination)
6)′hamas,announced thursday the completion′-85(Repeated 8times)(null)
7)′hamas,announced thursday that the completion′-80(Repeated 3times)(null)
8)′hamas announced on thursday,the end′-80(Repeated 1times)(hamas,announced on thursday the::announced on thursday the end)
9)′hamas,announced thursday the end of′-80(Repeated 8times)(null)
10)′hamas announced thursday,the end of -80(Repeated 3times)(hamas,announced thursday the::announced thursday the end of)
11)′of,hamas announced thursday the end′-80(Repeated 7times)(null)
12)′that,hamas announced thursday the termination′-80(Repeated 3times)(null)
13)′and,hamas announced thursday the end′-80(Repeated 10times)(null)
14)′as,hamas announced thursday the termination′-80(Repeated 4times)(null)
15)′hamas announced thursday,the termination of′-80(Repeated 3times)(hamas,announced thursday the::announced thursday the termination of)
16)′hamas,announced thursday the completion of′-80(Repeated 7times)(null)
17)′of,hamas announced thursday the completion′-80(Repeated 4times)(null)
18)′the,hamas announced thursday the completion′-80(Repeated 4times)(null)
19)′hamas,announced thursday is the end′-80(Repeated 2times)(null)
20)′and,hamas announced thursday the termination′-80(Repeated 6times)(null)
               
根据重复次数排序
               
1)thursday announced,the completion-32(Score=65times)
2)thursday announced,the completion of-26(Score=60times)
3)announced thursday,the completion-22(Score=65times)
4)announced thursday,the completion of-20(Score=60times)
5)on thursday announced,the completion-16(Score=60times)
6)day,hamas announced thursday the end-15(Score=65times)
7)thursday announced,the termination-14(Score=65times)
8)announced on thursday,the end-13(Score=60times)
9)day,hamas announced thursday the completion-13(Score=65times)
10)on thursday announced,the completion of-13(Score=55times)
11)thursday announced,the termination of-12(Score=60times)
12)announced on thursday,the completion -12(Score=60times)
13)thursday announced,the completion of its-12(Score=55times)
14)announced thursday,the completion of its-12(Score=55times)
15)announced on,thursday an end-12(Score=50times)
16)hamas announced thursday,the completion-11(Score=85times)
17)they announced,thursday the completion-11(Score=60times)
18)day,hamas announced thursday the end of-11(Score=60times)
19)announced on thursday,the end of-10(Score=55times)
20)announced on,thursday an end to-10(Score=45times)
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jneves′,′anuncióeste jueves el fin′(2,hamasanuncióeste jueves el fin,1)--(306)
Got an overlap in source,checking target
997-306
Overlap check for ′hamas anuncióeste jueves′,′anuncióeste jueves el fin′took 0.958***hamas anuncióeste jueves (997),(306)anmcióeste jueves el fin=hamasanuncióeste jueves el fin
@@@3169->0
           
hamas anuncióeste jueves el fin′的重叠结果
           
1)′hamas announced,thursday the completion′-85(Repeated 11 times)(hamas,announced thursday::announced thursday the completion)
2)′hamas,announced thursday the termination′-85(Repeated 5times)(null)
3)′hamas,announced thursday the completion′-85(Repeated 8times)(null)
4)′hamas announced thursday,the completion′-85(Repeated 11times)(null)
5)′hamas announced,thursday the termination′-85(Repeated 4times)(hamas,announced thursday::announced thursday the termination)
6)′hamas announced thursday,the end′-85(Repeated 4times)(null)
7)′hamas,announced thursday the end′-85(Repeated 9times)(null)
8)′hamas announced thursday,the termination′-85(Repeated 4times)(null)
9)′hamas announced,thursday the end′-85(Repeated 4times)(hamas,announcedthursday::announced thursday the end)
10)′hamas announced on,thursday the completion′-80(Repeated 4times)(hamas,announced on thursday::announced on thursday the completion)
11)′that,hamas announced thursday the termination′-80(Repeated 3times)(null)
12)′hamas,announced thursday the completion of′-80(Repeated 7times)(null)
13)′the,hamas announced thursday the completion′-80(Repeated 4times)(null)
14)′hamas,announced thursday in the finale′-80(Repeated 3times)(null)
15)′hamas,announced on thursday the end′-80(Repeated 6times)(null)
16)′that,hamas announced thursday the completion′-80(Repeated 4times)(null)
17)′hamas,announced thursday and end the′-80(Repeated 2times)(null)
18)′hamas,announced on thursday the completion′-80(Repeated 4times)(null)
19)′the,hamas announced thursday the termination′-80(Repeated 4times)(null)
20)′that,hamas announced thursday the end′-80(Repeated 7times)(null)
                  
根据重复次数排序
                  
1)announced on,thursday an end-18(Score=50times)
2)announced on,thursday the completion-16(Score=60times)
3)announced thursday,the completion-16(Score=65times)
4)day,hamas announced thursday the end-15(Score=65times)
5)announced on,thursday the end-15(Score=60times)
6)announced on,thursday completion-15(Score=55times)
7)thursday announced,the completion-14(Score=65times)
8)announced on,thursday an end to-13(Score=45times)
9)day,hamas announced thursday the completion-13(Score=65times)
10)announced thursday,the completion of-13(Score=60times)
11)e announced,thursday the completion -12(Score=45times)
12)announced on,thursday the completion of-11(Score=55times)
13)hamas announced,thursday the completion-11(Score=85times)
14)announced on,thursday the termination-11(Score=60times)
15)day,hamas announced thursday the end of-11(Score=60times)
16)hamas announced thursday,the completion-11(Score=85times)
17)e announced,thursday the end-10(Score=45times)
18)and,hamas announced thursday the end-10(Score=80times)
19)hamas announced,thursday the completion of-10(Score=80times)
20)announced on thursday,the completion-10(Score=60times)
------------------{}----------------------------
><anuncióeste jueves el fin de was just translated and returned results
Number of results =1000
Translation for anuneióeste jueves el fin de took 1.195
going to try and overlap this piece with the hashmap
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el fin′,′anuncióeste jueves el fin de′(2,hamas anuncióeste jueves el fin de,1)-(1000)
Got an overlap in source,checking target
1500-1000
Overlap check for ′hamsa anuncióeste jueves el fin′,′anuncióeste jueves el fin de′took4.251
***hamas anuncióeste jueves el fin(1500),(1000)anuncióeste jueves el finde=hamas anunció este jueves el fin de
###1839->1839
                      
hamas anunció este jueves el fin de的重叠结果
                      
1)hamas announced thursday the,end of-90(Repeted 1times)(hamas announced,thursday the end::announced thursday the end of)
2)hamas announced thursday the,completion of-90(Repeated 1times)(hamas,announced thursday the completion::announced thursday the completion of)
3)hamas announced thursday the,termination of-90(Repeated 1times)(hamasannounced thursday,the termination::announced thursday the termination of)
4)hamas announced thursday the end,of its-85 (Repeated 1times)(hamasannounced,thursday the end of::announced thursday the end of its)
5)hamas announced on thursday the,completion of-85(Repested 1times)(hamas,ammounced on thursday the completion::announced on thursday the completion of)
6)hamas announced thursday the completion,of its-85(Repeated 1times)(hamasannounced thursday,the completion of::announced thursday the completion of its)
7)hamas announced on thursday the,end of-85(Repeated 1times)(hamasannounced on,thursday the end::announced on thursday the end of)
8)hamas announced thursday.that completion,of the-85(Repeated 1times)(hamas,announced thursday that completion of::announced thursday that completion of the)
9)hamas announced thursday that by the,end of this-85(Repeated 1times)(hamasannounced thursday,that by the::that by the end of this)
10)hamas announced on thursday the,termination of-85(Repeated 1 times)(hamas,announced on thursday the termination::announced on thursday the termination of)
11)hamas anounced thursday the completion,of a-85(Repeated 1times)(hamasannounced thursday,the completion of::announced thursday the completion of a)
12)hamas announced on thursday the completion,of its-80(Repeated 1times)(hamas ammouncedon thursday,the completion of::thursay the completion of its)
13)hamas announced on thursday the end,of its-80(Repeated 1times)(hamasannounced on thursday the,end of::thursday the end of its)
14)hamas announced on thursday the completion,of a-80(Repeated 1times)(hamsa,announced on thursday the completion of::announced on thursday thecompletion of a)
15)hamas announced thursday that,completion of-80(Repeated 1times)(hamas,announced thursday that completion::announced thursday that completion of)
16)hamas announced thursday that at the,end of-80(Repeated 2times)(hamasannounced thursday,that at the end::thursday that at the end of)
17)hamas announced on thursday,completion of-80(Repeated 1times)(hamasannounced on,thursday completion::announced on thursday completion of)
18)thursday announced the completion,of this -75(Repeated 15times)(thursdayannounced,the completion of::announced the completion of this)
19)thursday announced the end,of this -75(Repeated 8times)(thursday announced,the end of::announced the end of this)
20)hamas announced on thursday completion,ofits-75(Repeated 1times)(hamas,announced on thursday completion of::announced on thursday completion of its)
            
根据重复次数排序
           
1)announced thursday the,completion of-186(Score=70times)
2)announced thursday the,end of-135(Score=70times)
3)announced thursday the,termination of-98(Score=70times)
4)thursday announced the,end of-60(Score=70times)
5)announced thursday the completion,of its -58(Score=65times).
6)announced thursday the completion,of a -53(Score=65times)
7)announced thursday the termination,of all-47(Score=50times)
8)announced thursday the end,of its -44(Score=65times)
9)thursday announced the completion,of the -43(Score=65times)
10)on thursday announced the,end of-42(Score=65times)
11)thursday announced the,completion of-41(Score=70times)
12)on thursday announced the,completion of-37(Score=65times)
13)thursday announced the completion,of a -35(Score=65times)
14)thursday announced the termination,of the -33(Score=65times)
15)announced thursday the termination,of 200-28(Score=50times)
16)announced thursday the end,of cash-28(Score=50times)
17)announced thursday the end,of major-28(Score=50times)
18)announced thursday the end,of fighting-28(Score=50times)
19)thursday announced,completion of-21(Score=65times)
20)e announced thursday the,completion of -19(Score=50times)
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el′,′anuncióeste jueves el fin de′(2,hamss anuncióeste jueves el fin de,1)--(1000)
Got an overlap in source,checking target
1000-1000
Overlap check for′hamas anuncióeste jueves el′,′anuncióeste jueves el fin de′took0.979
***hamas anuncióeste jueves el (1000),(1000)anuncióeste jueves el fin de=hamas anuncióeste jueves el fin de
@@@2205->0
          
hamas anuncióeste jueves el fin de的重叠结果
          
1)′hamas announced thursday the,end of′-90(Repeated 1times)(null)
2)′hamas announced thursday,the end of′-90(Repeated 3times)(hamas,announced thursday the::announced thursday the end of)
3)′hamas announced thursday,the termination of′-90(Repeated 3times)(hamas,announced thursday the::announced thursday the termination of)
4)′hamas announced thursday the,completion of′-90(Repeated 1times)(null)
5)′hamas announced thursday,the completion of′-90(Repeated 10times)(hamas,announced thursday the::announced thursday the completion of)
6)′hamas announced thursday the,termination of′-90(Repeated 1 times)(null)
7)′hamas announced on thursday,the completion of′-85(Repeated 3 times)(hamas,announced on thursday the::announced on thursday the completion of)
8)′)hamas announced thursday the completion,of its′-85(Repeated 1 times)(null)
9)′hamas announced thursday,the completion of its′-85(Repeated 6 times)(hamas,announced thursday the::announced thursday the completion of its)
10)′hamas announced thursday that completion,of the′-85(Repeated 1 times)(null)
11)′hamas announced thursday,the completion′-85(Repeated 11times)(hamas,announced thuray the::announced thursday the completion)
12)′hamas announced thursday,the end′-85(Repeated 4 times)(hamas,announcedthursday the::announced thursday the end)
13)′hamzs announced thursday the completion,ofa′-85(Repeated 1 times)(null)
14)′hamas announced on thursday,the termination of′-85(Repeated 2 times)(hamas,announced on thursday the::announced on thursday the termination of)
15)′hamas announced thursday,the end of its′-85(Repeated 2 times)(hamas,announced thursday the::announced thursday the end of its)
16)′hamas announced thursday,that completion of the′-85(Repeated 2 times)(hamas,announced thursday that::announced thursday that completion of the)
17)′hamas announced thursday the end,of its′-85(Repeated 1times)(null)
18)′hams announced on thursday the,completion of′-85(Repeated 1times)(null)
19)′hamas announced thursday,the termination′-85(Repeated 4times)(hamas,announced thursday the::announced thursday the termination)
20)′hamas announced on thursday the,end of′-85(Repeated 7 times)(hamas,arnounced on thursday the end::announced on thursday the end of)
           
根据重复次数排序
           
1)announced thursday the,end of-123(Score =70times)
2)announced thursday the,completion of-93(Score=70times)
3)announced thursday the,termination of-85(Score =70times)
4)thursday announced the,end of-41(Score=70times)
5)thursday announced the completion,of the -34(Score=65times)
6)announced thursday the termination,of all-33(Score =50times)
7)thursday announced,the completion-31(Score=65times)
8)announced thursday the end,of major-28(Score=50times)
9)announced thursday the end,of its-28(Score=65times)
10)announced thursday the termination,of 200-28(Score=50times)
11)announced thursday the end,of cash-28(Score =50times)
12)announced thursday the end,of fighting-28(Score=50times)
13)announced,thursday the-28(Score=45times)
14)thursday announced the termination,of the-25(Score=65times)
15)thursday announced,the completion of-25(Score=70times)
16)on thursday announced the,end of-25(Score=65times)
17)announced thursday the completion,of its-24(Score=65times)
18)they announced,thursday the-24(Score=40times)
19)announced thursday the completion,of a-24(Score=65times)
20)announced thursday,the completion-22(Score=65times)
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves′,′anuncióeste jueves el fin de′(2,hamasanuncióeste jueves el fin de,1)-(1000)
Got an overlap in source,checking target
997-1000
Overlap check for ′hamas anuncióeste jueves′,′anuncióeste jueves el fin de′took 1.358
***hamas anuncióeste jueves(997),(1000)anuncióeste juevesel fin de=hamas anuncióeste jueves el fin de
@@@4950->0
            
hamas anuncióeste jueves el fin de的重叠结果
            
1)′hamas announced thursday the,end of -90(Repeated 1times)(null)
2)′hamas announced thursday,the end of′-90(Repeated 3times)(null)
3)′hamas announced,thursday the end of′-90(Repeated 3times)(hamas,announced thursday::announced thursday the end of)
4)′hamas announced thursday,the termination of′-90(Repeated 3times)(null)
5)′hamas announced thursday the,completion of′-90(Repeated 1times)(null)
6)′hamas announced,thursday the completion of′-90(Repeated 10times)(hamas,announced thursday::announced thursday the completion of)
7)′hamas announced thursday,the completion of′-90(Repeated 10times)(null)
8)′hamas announced,thursday the termination of′-90(Repeated 3times)(hamas,announced thursday::announced thursday the termination of)
9)′hamas announced thursday the,termination of′-90(Repeated 1times)(null)
10)′hamas announced,thursday the completion′-85(Repeated 11times)(hamas,announced thursday::announced thursday the completion)
11)′hamas announced on thursday,the completion of′-85(Repeated 3times)(null)
12)′hamas announced thursday the completion,of its′-85(Repeated 1times)(null)
13)′hamas announced thursday,the completion of its′-85(Repeated 6times)(null)
14)′hamas announced thursday that completion,of the′-85(Repeated 1times)(null)
15)′hamas announced thursday,the completion′-85(Repeated 11times)(null)
16)′hamas announced,thursday the termination′-85(Repeated 4times)(hamas,announced thursday::announced thursday the termination)
17)′hamas announced thursday,the end′-85(Repeated 4times)(null)
18)′hamas announced thursday the completion,of a′-85(Repeated 1times)(null)
19)′hamas announced on,thursday the end of′-85(Repeated 6times)(hamas,announced on thursday::announced on thursday the end of)
20)′hamas announced on thursday,the termination of′-85(Repeated 2times)(null)
           
根据重复次数排序
           
1)announced,thursday the-431(Score=45times)
2)announced thursday the,completion of-93(Score=70times)
3)announced thursday the,end of-66(Score=70times)
4)announced thursday the,termination of-47(Score=70times)
5)hames announced,thursday the-41(Score=65times)
6)thursday,announced the-38(Score=45times)
7)announced thursday the end,of its-27(Score=65times)
8)announced thursday,the completion-24(Score=65times)
9)announced thursday the completion,of its-24(Score=65times)
10)thursday announced,the completion-23(Score=65times)
11)announced thursday,that completion-23(Score=55times)
12)announced thursday the completion,of a-22(Score=65times)
13)announced thursday,the completion of-21(Score=70times)
14)announced thursday,that completion of-21(Score=60times)
15)announced thursday,that completion of the-19(Score=65times)
16)announced on,thursday the end-19(Score=60times)
17)thursday announced,the completion of-18(Score=70times)
18)announced on,thursday the completion-17(Score=60times)
19)thursday announced the completion,of the-16(Score=65times)
20)announced on,thursday completion-16(Score=55times)
Skipping este jueves el fin(2<2)
Skipping este jueves el fin de(2<2)
Skipping este jueves el fin de su(2<2)
Skipping jueves el fin de(2<2)
Skipping jueves el fin de su(2<2)
---------------------{}---------------------
><jueves el fin de su cese was just translated and returned results
Number of results=998
Translation for jueves el fin de su cese took 1.205
going to try and overlap this piece with the hashmap
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el fin de′,′jueves el fin de su cese′(2,hamas anuncióeste jueves el fin de su ccse,3)-(998)
Got an overlap in source,checking target
1500-998
Overlap check for ′hamas anuncióeste jueves el fin de′,′jueves el fin de su cese′took1.705
***hamas anuncióeste jueves el fin de(1500),(998)jueves el fin de su cese=hamas anuncióeste jueves el fin de su cese
###1235->1235
          
hamas anuncióeste jueves el fin de su cese的重叠结果
          
1)hamas announced thursday the termination,of cease-110(Repeated 3times)(hamas announced thursday the,termination of::thursday the termination of cease)
2)hamas announced thursday the end,of cease-110(Repeated 2times)(hamasannounced,thursday the end of::thursday the end of cease)
3)hamas announced thursday the completion,of cease-110(Repeated 2times)(hamas announced thursday the,completion of::thursday the completion of cease)
4)hamas announced on thursday the end,of cease-105(Repeated 2times)(hamasannounced on thursday the,end of::thursday the end of cease)
5)hamas announced thursday the termination,of cease and-105(Repeated 2times)(hamas announced thursday the,termination of::thursday the termination of cease and)
6)hamas announced thursday the end,of the cease-105(Repeated 3times)(hamasannounced,thursday the end of::thursday the end of the cease)
7)hamas announced on thursday the termination,of cease-105(Repeated 3times)(hamas announced on thursday,the termination of::thursday the termination of cease)
8)hamas announced on thursday the completion,of cease-105(Repeated 2times)(hamas announced on thursday,the completion of::thursday the completion of cease)
9)hamas announced on thursday the termination,of cease and-100(Repeated 2times)(hamas announced on thursday,the termination of::thursday the termination ofcease and)
10)hamas announced on thursday completion,of cease-100(Repeated 2times)(hamas announced on thursday,completion of::thursday completion of cease)
11)hamas announced on thursday the end,of the cease-100(Repeated 3times)(hamas announced on thursday the,end of::thursday the end of the cease)
12)hamas announced thursday the end of,its unilateral cease-95(Repeated 2times)(hamas announced thursday,the end of its::thursday the end of its unilateralcease)
13)hamas announced thursday the successful completion,of cease-90(Repeated 1times)(hamas announced thursday the successful,completion of::thursday the successfulcompletion of cease)
14)hamas announced thursday the,end of-90(Repeated 1times)(hamas announced,thursday the end::thursday the end of)
15)hamas announced on thursday the end of,its unilateral cease-90(Repeated 2times)(hamas announced on thursday the end,of its::thursday the end of its unilateralcease)
16)announced thursday the completion,of cease-90(Repeated 94times)(announcedthursday,the completion of::thursday the completion of cease)
17)hamas announced thursday the end,of cease fire-90(Repeated 1times)(hamasannounced,thursday the end of::thursday the end of cease fire)
18)announced thursday the end,of cease-90(Repeated 94times)(announcedthursday the,end of::thursday the end of cease)
19)announced thursday the termination,of cease-90(Repeated 141times)(announced thursday,the termination of::thursday the termination of cease)
20)hamas announced thursday the completion,of cease project-90(Repeated 1times)(hamas announced thursday the,completion of::thursday the completion of ceaseproject)
                 
根据重复次数排序
                
1)announced thursday the end,of the-188(Score=65times)
2)announced thursday the termination,of cease-141(Score=90times)
3)announced thursday the end,of the cease-141(Score=85times)
4)announced thursday the termination,of cease and-94(Score=85times)
5)announced thursday the end of,its unilateral cease-94(Score=75times)
6)announced thursday the end,of the cease fire-94(Score=65times)
7)announced thursday the completion,of cease-94(Score=90times)
8)announced thursday the end,of cease-94(Score=90times)
9)announced thursday the end,of cash-47(Score=50times)
10)announced thursday the termination,of cease and desist-47(Score=65times)
11)announced thursday the end,of cease fire-47(Score=70times)
12)announced thursday the completion,of cease project-47(Score=70times)
13)announced thursday the end of,its unilateral cease fire-47(Score=55times)
14)announced thursday the end,of the cease fire which-47(Score=60times)
15)announced thursday the end of,its annual-46(Score=55times)
16)thursday announced that by the end,of thursday-45(Score=40times)
17)announced thursday the,end of-44(Score=70times)
18)announced on thursday the end,of the-24(Score=60times)
19)announced on thursday the termination,of cease-21(Score=85times)
20)e announced thursday the end,of the-20(Score=45times)
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el fin′,′jueves el fin de su cese′(2,hamasanuncióeste jueves el fin de su cese,3)--(998)
Got an overlap in source,checking target
1500--998
Overlap check for ′hamas anuncióeste jueves el fin′,′jueves el fin de su cese′took 1.531
***hamas anuncióeste jueves el fin(1500),(998)jueves el fin de su cese=hamas anuncióeste jueves el fin de su cese
@@@1581->0
              
hamas anuncióeste jueves el fin de su cese的重叠结果
             
1)′hamas announced thursday the end,of cease′-110(Repeated 2times)(hamasannounced,thursday the end of::thursday the end of cease)
2)′hamas announced thursday the termination,of cease′-110(Repeated 3times)(hamas announced,thursday the termination of::thursday the termination of cease)
3)′hamas announced thursday the completion,of cease′-110(Repeated 2times)(hamas announced thursday,the completion of::thursday the completion of cease)
4)′hamas announced on thursday the termination,of cease′-105(Repeated 3times)(hamas announced on thursday,the termination of::thursday the termination of cease)
5)′hamas announced thursday the end,of the cease′-105(Repeated 3times)(hamasannounced,thursday the end of::thursday the end of the cease)
6)′hamas announced on thursday the completion,of cease′-105(Repeated 2times)(hamas announced on thursday,the completion of::thursday the completion of cease)
7)′hamas announced on thursday the end,of cease′-105(Repeated 2times)(hamasannounced on thursday the,end of::thursday the end of cease)
8)′hamas announced thursday the termination,of cease and′-105(Repeated 2times)(hamas announced,thursday the termination of::thursday the termination of ceaseand)
9)′hamas announced on thursday completion,of cease′-100(Repeated 2times)(hamas announced on,thursday completion of::thursday completion of cease)
10)′hamas announced on thursday the end,of the cease′-100(Repeated 3times)(hamas announced on thursday the,end of::thursday the end of the cease)
11)′hamas announced on thursday the termination,of cease and′-100(Repeated 2times)(hamas announced on thursday,the termination of::thursday the termination ofcease and)
12)′hamas announced thursday the end of,its unilateral cease′-95(Repeated 2times)(hamas announced thursday,the end of its::thursday the end of its unilateralcease)
13)′hamas announced on thursday the end,of its unilateral cease′-90(Repeated 2times)(hamas announced on thursday the,end of::thursday the end of its unilateralcease)
14)′hamas announced on thursday the end of,its unilateral cease′-90(Repeated 2times)(null)
15)′hamas announced thursday the end,of cease ftre′-90(Repeated 1times)(hamasannounced,thursday the end of::thursday the end of cease fire)
16)′announced thursday the termination,of cease′-90(Repeated 141times)(announced thursday,the termination of::thursday the termination of cease)
17)′hamas announced thursday the completion,of cease project′-90(Repeated 1times)(hamas announced thursday,the completion of::thursday the completion of ceaseproject)
18)′hamas announced thursday the successful completion,of cease′-90(Repeated 1times)(hamas announced thursday,the successful completion of::thursday the successfulcompletion of cease)
19)′hamas announced thursday the,end of′-90(Repeated 1times)(hamasannounced,thursday the end::thursday the end of)
20)′announced thursday the completion,of cease′-90(Repeated 94times)(announced thursday,the completion of::thursday the completion of cease)
                    
根据重复次数排序
                   
1)announced thursday the,end of-211(Score=70times)
2)announced thursday the end,of the-188(Score=65times)
3)announced thursday the termination,of cease-141(Score=90times)
4)announced thursday the end,of the cease-141(Score=85times)
5)announced thursday the end of,its unilateral cease-94(Score=75times)
6)announced thursday the termination,of cease and-94(Score=85times)
7)announced thursday the completion,of cease-94(Score=90times)
8)announced thursday the end,of cease-94(Score=90times)
9)announced thursday the end,of the cease fire-94(Score=65times)
10)announced thursday the end of,its unilateral cease fire-47(Score=55times)
11)announced thursday the termination,of cease and desist-47(Score=65times)
12)announced thursday the end,of the cease fire which-47(Score=60times)
13)announced thursday the end,of cease fire-47(Score=70times)
14)announced thursday the completion,of cease project-47(Score=70times)
15)announced thursday the end of,its annual-46(Score=55times)
16)announced thursday the end,of cash-29(Score=50times)
17)announced on thursday the end,of the-24(Score=60times)
18)e announced thursday the,end of-22(Score=50times)
19)announced on thursday the termination,of cease-21(Score =85times)
20)e announced thursday the end,of the-20(Score=45times)
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el′,′jueves el fin de su cese′(2,hamasanuncióeste jueves el fin de su cese,3)--(998)
Got an overlap in source,checking target
1000-998
Overlap check for ′hamas anuncióeate jueves el′,′jueves el fin de su cese′took 1.348
***hamas anuncióeste jueves el(1000),(998)jueves el fin de su cese=hamasanuncióeste jueves el fin de su cese
@@@1512->0
           
hamas anuncióeste jueves el fin de su cese的重叠结果
           
1)′hamas announced thursday the end,of cease′-110(Repeated 2times)(null)
2)′hamas announced thursday the termination,of cease′-110(Repeated 3times)(null)
3)′hamas announced thursday the completion,of cease′-110(Repeated 2times)(null)
4)′hamas announced on thursday the termination,of cease′-105(Repeated 3times)(null)
5)′hamas announced thursday the end,of the cease′-105(Repeated 3times)(null)
6)′hamas announced on thursday the completion,of cease′-105(Repeated 2times)(null)
7)′hamas announced on thursday the end,of cease′-105(Repeated 2times)(null)
8)′hamas announced thursday the termination,of cease and′-105(Repeated 2times)(null)
9)′hamas announced on thursday completion,of cease′-100(Repeated 2times)(null)
10)′hamas announced on thursday the end,of the cease′-100(Repeated 3times)(null)
11)′hamas announced on thursday the termination,of cease and′-100(Repeated 2times)(null)
12)′hamas announced thursday the end of,its unilateral cease′-95(Repeated 2times)(null)
13)′hamas announced ou thursday the end,of its unilateral cease′-90(Repeated 2times)(null)
14)′hamas announced on thursday the end of,its unilateral cease′-90(Repeated 2times)(null)
15)′hamas announced thursday the end,of cease fire′-90(Repeated 1times)(null)
16)′announced thursday the termination,of cease′-90(Repeated 141times)(null)
17)′hamas announced thursday the completion,of cease project′-90(Repeated 1times)(null)
18)′hamas announced thursday the successful completion,of cease′-90(Repeated 1times)(null)
19)′hamas announced thursday the,end of′-90(Repeated 1times)(null)
20)′announced thursday the completion,of cease′-90(Repeated 94times)(null)
            
根据重复次数排序
            
1)announced thursday the,end of-207(Score=70times)
2)announced thursday the end,of the-188(Score=65times)
3)announced thursday the termination,of cease-141(Score=90times)
4)announced thursday the end,of the cease-141(Score=85times)
5)announced thursday the end of,its nnilateral cease-94(Score=75times)
6)announced thursday the termination,of cease and-94(Score=85times)
7)announced thursday the completion,of cease-94(Score=90times)
8)announced thursday the end,of cease-94(Score=90times)
9)announced thursday the end,of the cease fire-94(Score=65times)
10)announced thursday the end of,its unilateral cease fire-47(Score=55times)
11)announced thursday the termination,of cease and desist-47(Score=65times)
12)announced thursday the end,of the cease fire which-47(Score=60times)
13)announced thursday the end,of cease fire-47(Score=70times)
14)announced thursday the completion,of cease project-47(Score=70times)
15)announced thursday the end of,its annual-46(Score=55times)
16)announced on thursday the end,of the-24(Score=60times)
17)e announced thursday the,end of-22(Score=50times)
18)announced thursday the end,of cash-22(Score=50times)
19)announced on thursday the termination,of cease-21(Score=85times)
20)e announced thursday the end,of the-20(Score=45times)
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves′,′jueves el fin de su cese′(2,null,3)-(998)
No good source overlap
Skipping el fin de su(2<1)
Skipping el fin de su cese(2<2)
Skipping el fin de su cese del(2<2)
Skipping fin de su cese(2<2)
Skipping fin de su cese del(2<2)
---------------------{}---------------------
><fin de su cese del fuego was just translated and returned results
Number of results=999
Translation for fin de su cese del fuego took 1.246going to try and overlap this piece with the hashmap
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el fin de′,′fin de su cese del fuego′(2,hamas anuncióeste jueves el fin de su cese del fuego,5)-(999)
Got an overlap in source,checking target
1500-999
Overlap check for ′hamas anuncióeste jueves el fin de′,′fin de su cese del fuego′took2.114
***hamas anuncióeste jueves el fin de(1500),(999)fin de su cese del fuego=hamas anuncióeste jueves el fin de su cese del fuego
###218->218
        
hamas anuncióeste jueves el fin de su cese del fuego的重叠结果
       
1)hamas announced thursday the end of,its unilateral cease fire-115(Repeated 1times)(hamas announced thursday the end,of its::end of its unilateral cease fire)
2)hamas announced on thursday the end of,its unilateral cease fire-110(Repeated1times)(hamas announced on thursday the end,of its::end of its unilateral cease fire)
3)thursday announced the end of,the cease fire-105(Repeated 20times)(thursdayannounced,the end of the::the end of the cease fire)
4)which thursday announced the end of,the cease fire-100(Repeated 4times)(which thursday announced the end,of the::the end of the cease fire)
5)on thursday announced the end of,the cease fire-100(Repeated 4times)(onthursday announced,the end of the::the end of the cease fire)
6)thursday announced the end of,the cease fire which-100(Repeated 15times)(thursday announced the end,of the::end of the cease fire which)
7)thursday announced the end of,its unilateral cease fire-95(Repeated 4times)(thursday announced the end,of its::end of its unilateral cease fire)
8)hamas announced thursday the end of,its unilateral cease-95(Repeated 2times)(hamas announced thursday the end,of its::end of its unilateral cease)
9)announced thursday the end of,its unilateral cease fire-95(Repeated 46times)(announced thursday the end,of its::end of its unilateral cease fire)
10)which thursday announced the end of,the cease fire which-95(Repeated 3times)(which thursday announced the end,of the::end of the cease fire which)
11)on thursday announced the end of,the cease fire which-95(Repeated 3times)(on thursday announced the end,of the::end of the cease fire which)
12)thursday announced the end of,his light-95(Repeated 6times)(thursdayannounced the end,of his::the end of his light)
13)which thursday announced the end of,its unilateral cease fire-90(Repeated 1times)(which thursday announced the end,of its::end of its unilateral cease fire)
14)on thursday announced the end of,its unilateral cease fire-90(Repeated 1times)(on thursday announced the end,of its::end of its unilateral cease fire)
15)on thursday announced the end of,his light-90(Repeated 2times)(on thursdayannounced the end,of his::the end of his light)
16)they announced thursday the end of,its unilateral cease fire-90(Repeated 1times)(they announced thursday the end,of its::end of its unilateral cease fire)
17)and announced thursday the end of,its unilateral cease fire-90(Repeated 1times)(and announced thursday the end,of its::end of its unilateral cease fire)
18)were announced thursday the end of,its unilateral cease fire-90(Repeated 1times)(were announced thursday the end,of its::end of its unilateral cease fire)
19)was announced thursday the end of,its unilateral cease fire-90(Repeated 1times)(was announced thursday the end,of its::end of its unilateral cease fire)
20)be announced thursday the end of,its unilateral cease fire-90(Repeated 1times)(be announced thursday the end,of its::end of its unilateral cease fire)
             
根据重复次数排序
             
1)announced thursday the end of,its unilateral cease-92(Score=75times)
2)announced thursday the end of,its unilateral cease fire-46(Score=95times)
3)thursday announced the end of,the fire-40(Score=85times)
4)thursday announced the end of,the cease-25(Score=85times)
5)thursday announced the end of,the cease fire-20(Score=105times)
6)thursday announced the end of,the fire and-15(Score=80times)
7)thursday announced the end of,the unconditional cease fire-15(Score=85times)
8)thursday announced the end of,the cease fire which-15(Score=100times)
9)thursday announced the end of,a 14-mouth cease-10(Score=65times)
10)thursday announced the end of,the unconditional cease fire that-10(Score=80times)
11)thursday announced the end of,the fire his-10(Score=90times)
12)thursday announced the end of,the cease fire which ended-10(Score=80times)
13)thursday announced the end of,the fire and his-10(Score=85times)
14)announced on thursday the end of,its unilateral cease-10(Score=70times)
15)e announced thursday the end of,its unilateral cease-10(Score=55times)
16)thursday announced the end of,the hearth-10(Score=85times)
17)thursday announced the end of,its unilateral cease-8(Score=75times)
18)on thursday announced the end of,the fire-8(Score=80times)
19)officials thursday announced the end of,the fire-8(Score=65times)
20)which thursday announced the end of,the fire-8(Score=80times)
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el fin′,′fin de su cese del fuego′(2,null,5)--(999)
No good source overlap
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el′,′fin de su cese del fuego′(2,null,5)--(999)
No good source overlap
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el fin de su cese′,′fin de su cese delfuego′(2,hamas anuncióeste jueves el fin de su cese del fuego,5)--(999)
Got an overlap in source,checking target
1500-999
Overlap check for ′hamas anuncióeste jueves el fin de su cese′,′fin de su cese del fuego′took 2.737
***hamas anuncióeste jueves el fin de su cese(1500),(999)fin de su cese delfuego =hamas anuncióeste jueves el fin de su cese del fuego
@@@3369->0
        
hamas anuncióeste jueves el fin de su cese del fuego的重叠结果
       
1)′hamas announced thursday the end of,cease fire′-130(Repeated 1times)(hamasannounced thursday the end,of cease::end of cease fire)
2)′hamas announced thursday the end of cease,fire the′-125(Repeates 2times)(hamas announced thursday the end,of cease fire::of cease fire the)
3)′hamas announced thursday the end of the,cease fire′-125(Repeated 1times)(hamas announced thursday the end,of the cease::the end of the cease fire)
4)′hamas announced thursday the end of cease,fire it′-125(Repeated 2times)(hamas announced thursday the end,of cease fire::of cease fire it)
5)′hamas announced thursday the end of cease,fire by′-125(Repeated 3times)(hamas announced thursday the end,of cease fire::of cease fire by)
6)′hamas announced thursday the end of cease,fire in-125(Repeated 3times)(hamas announced thursday the end,of cease fire::of cease fire in)
7)′hamas announced thursday the end of cease,fire was′-125(Repeated 2times)(hamas announced thursday the end,of cease fire::of cease fire was)
8)′hamas announced on thursday the end of,cease fire′-125(Repeated 1times)(hamas announced on thursday the end,of cease::end of cease fire)
9)′hamas announced thursday the end of cease,fire or′-125(Repeated 2times)(hamas announced thursday the end,of cease fire::of cease fire or)
10)′hamas announced thursday the end of cease,fire and′-125(Repeated 1times)(hamas announced thursday the end,of cease fire::of cease fire and)
11)′hamas announced thursday the end of cease,fire is′-125(Repeated 2times)(hamas announced thursday the end,of cease fire::of cease fire is)
12)′hamas announced thursday the end of cease,fire for′-125(Repeated 1times)(hamas announced thursday the end,of cease fire::of cease fire for)
13)′hamas announced on thursday the end of cease,fire by′-120(Repeated 3times)(hamas announced on thursday the end,of cease fire::of cease fire by)
14)′hamas announced on thursday the end of cease,fire the′-120(Repeated 2times)(hamas announced on thursday the end,of cease fire::of cease fire the)
15)′hamas announced thursday the end of cease,fire by the′-120(Repeated 1times)(hamas announced thursday the end,of cease fire::of cease fire by the)
16)′hamas announced on thursday the end of cease,fire is′-120(Repeated 2times)(hamas announced on thursday the end,of cease fire::of cease fire is)
17)′hamas announced on thursday the end of cease,fire and′-120(Repeated 1times)(hamas announced on thursday the end,of cease fire::of cease fire and)
18)′hamas announced thursday the end of cease,fire in the′-120(Repeated 1times)(hamas announced thursday the end,of cease fire::of cease fire in the)
19)′hamas announced thursday the end of cease,fire it has′-120(Repeated 1times)(hamas announced thursday the end,of cease fire::of cease fire it has)
20)′hamas announced on thursday the end of cease,fire in′-120(Repeated 3times)(hamas announced on thursday the end,of cease fire::of cease fire in)
        
根据重复次数排序
        
1)announced thursday the end of cease,fire in-101(score=105times)
2)announced thursday the end of cease,fire by-101(Score=105times)
3)announced thursday the end of cease,fire it-94(Score=105times)
4)announced thursday the end of cease,fire or-94(Score=105times)
5)announced thursday the end of cease,fire was-94(Score=105times)
6)announced thursday the end of the cease,fire at-74(Score=100times)
7)announced thursday the end of cease,fire the-54(Score=105times)
8)announced thursday the end of cease,fire is-54(Score=105times)
9)announced thursday the end of the cease,fire to-47(Score=100times)
10)announced thursday the end of cease,fire and-47(Score=105times)
11)announced thursday the end of,cease fire-47(Score=110times)
12)announced thursday the end of cease ,fire in the-47(Score=100times)
13)announced thursday the end of cease,fire for-47(Score=105times)
14)announced thursday the end of the cease,fire which-47(Score=100times)
15)announced thursday the end of cease,fire by the-47(Score=100times)
16)announced thursday the end of cease,fire was the-47(Score=100times)
17)announced thursday the end of cease,fire or what-47(Score=100times)
18)announced thursday the end of the,cease fire-47(Score=105times)
19)announced thursday the end of cease,fire it has-47(Score=100times)
20)announced thursday the end of its unilateral,cease fire-30(Score=95times)
@@@Pre 2@@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves′,′fin de su cese del fuego′(2,null,5)-(999)
No good source overlap
Skipping de su cese del(2<1)
Skipping de su cese del fuego(2<2)
---------------------{}---------------------
><de su cese del fuego con was just translated and returned results
Number of results=1000
Translation for de su cese del fuego con took 1.176going to try and overlap this piece with the hashmap
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el fin de′,′de su cese del fuego con′(2,null,6)--(1000)
No good source overlap
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el fin′,′de su cese del fuego con′(2,null,6)-(1000)
No good source overlap
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el′,′de su cese del fuego con′(2,null,6)-(1000)
No good source overlap
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el fin de su cese del fuego′,′de su cesedel fuego con′(2,hamas anuncióeste jueves el fin de su cese del fuego con,6)-(1000)
Got an overlap in source,checking target
1500-1000
Overlap check for ′hamas anuncióeste jueves el fin de su cese del fuego′,′de su cese delfuego con′took 6.308
***hamas anuncióeste jueves el fin de su cese del fuego(1500),(1000)de sucese del fuego con=hamas anuncióeste jueves el fin de su cese del fuego con
###16233->16233
           
hamas anuncióeste jueves el fin de su cese del fuego con的重叠结果
           
1)hamas announced thursday the end of cease,fire with their-140(Repeated 4times)(hamas announced thursday the end of,cease fire::cease fire with their)
2)hamas announced thursday the end of cease,fire with-135(Repeated 21times)(hamas announced thursday the end of,cease fire::of cease fire with)
3)hamas announced on thursday the end of cease,fire with their-135(Repeated 4times)(hamas announced on thursday the end of,cease fire::cease fire with their)
4)announced thursday the end of cease,fire with hamas-135(Repeated 94times)(announced thursday the end of,cease fire::cease fire with hamas)
5)hamas announced thursday the end of the cease,fire with their-135(Repeated 4times)(hamas announced thursday the end of the,cease fire::the cease fire with their)
6)be announced thursday the end of cease,fire with hamas-130(Repeated 2times)(be announced thursday the end of,cease fire::cease fire with hamas)
7)hamas announced on thursday the end of cease,fire with-130(Repeated 21times)(hamas announced on thursday the end of,cease fire::of cease fire with)
8)announced thursday the end of cease,fire with hamas and -130(Repeated 47times)(announced thursday the end of,cease fire::cease fire with hamas and)
9)and announced thursday the end of cease,fire with hamas-130(Repeated 4times)(and announced thursday the end of,cease fire::cease fire with hamas)
10)announced on thursday the end of cease,fire with hamas-130(Repeated 12times)(announced on thursday the end of,cease fire::cease fire with hamas)
11)announced thursday the end of the cease,fire with hamas-130(Repeated 94times)(announced thursday the end of the,cease fire::cease fire with hamas)
12)hamas announced thursday the end of the cease,fire with-130(Repeated 21times)(hamas announced thursday the end of the,cease fire::the cease fire with)
13)hamas announced thursday the end of cease,fire with the-130(Repeated 13times)(hamas announced thursday the end of,cease fire::of cease fire with the)
14)hamas announced on thursday the end of the cease,fire with their-130(Repeated 4times)(hamas announced on thursday the end of the,cease fire::the ceasefire with their)
15)they announced thursday the end of cease,fire with hamas-130(Repeated 2times)(they announced thursday the end of,cease fire::cease fire with hamas)
16)were announced thursday the end of cease,fire with hamas-130(Repeated 2times)(were announced thursday the end of,cease fire::cease fire with hamas)
17)hamas announced thursday the end of cease,fire with them-130(Repeated 1times)(hamas announced thursday the end of,cease fire::cease fire with them)
18)was announced thursday the end of cease,fire with hamas-130(Repeated 2times)(was announced thursday the end of,cease fire::cease fire with hamas)
19)thursday announced the end of the cease fire,with hamas-130(Repeated 10times)(thursday announced the end of the cease,fire with::cease fire with hamas)
20)hamas announced thursday the end of cease,fire as-125(Repeated 3times)(hamas announced thursday the end of,cease fire::cease fire as)
         
根据重复次数排序
         
1)announced thursday the end of cease,fire with-246(Score=115times)
2)announced thursday the end of the cease,fire with-186(Score=110times)
3)announced thursday the end of cease,fire with hamas-94(Score=135times)
4)announced thursday the end of cease,fire with the-94(Score=110times)
5)announced thursday the end of the cease,fire with hamas-94(Score=130times)
6)announced thursday the end of its unilateral cease,fire with-86(Score=100times)
7)announced thursday the end of the cease,fire with the-74(Score=105times)
8)announced thursday the end of cease,fire with their-64(Score=120times)
9)announced thursday the end of its unilateral cease,fire with hamas-60(Score=120times)
10)announced thnrsday the end of the cease,fire with their-53(Score=115times)
11)announced thursday the end of the cease,fire a-51(Score=100times)
12)announced on thursday the end of cease,fire with-51(Score=110times)
13)announced thursday the end of cease,fire a-49(Score=105times)
14)announced on thursday the end of the cease,fire with-47(Score=105times)
15)announced thursday the end of the cease,fire with hamas and-47(Score=125times)
16)announced thursday the end of cease,fire with hamas and-47(Score=130times)
17)announced on thursday the end of cease,fire a-33(Score=100times)
18)announced on thursday the end of the cease,fire a-32(Score=95times)
19)hamas announced thursday the end of the cease,fire a-30(Score=120times)
20)announced thursday the end of its unilateral cease,fire with hamas and-30(Score=115times)
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap′hamas anuncióeste jueves el fin de su cese′,′de su cese del fuegocon′(2,hamas anuncióeste jueves el fin de su cese del fuego con,6)--(1000)
Got an overlap in source,checking target
1500-1000
Overlap check for ′hamas anuncióeste jueves el fin de su cese′,′de su cese del fuego con′took 3.087
***hamas anuncióeste jueves el fin de su cese(1500),(1000)de su cese delfuego con=hamas anuncióeste jueves el fin de su cese del fuego con
@@@17704->0
              
hamas anuncióeste jueves el fin de su cese del fuego con的重叠结果
              
1)′hamas announced thursday the end of cease,fire with their′-140(Repeated 4times)(null)
2)′hamas announced thursday the end of cease,fire with′-135(Repeated 21times)(hamas announced thursday the end,of cease fire::of cease fire with)
3)′hamas announced on thursday the end of cease,fire with their′-135(Repeated 4times)(null)
4)′announced thursday the end of cease,fire with hamas′-135(Repeated 94times)(null)
5)′hamas announced thursday the end of the cease,fire with their′-135(Repeated4times)(null)
6)′be announced thursday the end of cease,fire with hamas′-130(Repeated 2times)(null)
7)′hamas announced on thursday the end of cease,fire with′-130(Repeated 21times)(hamas announced on thursday the end,of cease fire::of cease fire with)
8)′announced thursday the end of cease,fire with hamas and′-130(Repeated 47times)(null)
9)′and announced thursday the end of cease,fire with hamas′-130(Repeated 4times)(null)
10)′announced on thursday the end of cease,fire with hamas′-130(Repeated 12times)(null)
11)′announced thursday the end of the cease,fire with hamas′-130(Repeated 94times)(null)
12)′hamas announced thursday the end of the cease,fire with′-130(Repeated 21times)(null)
13)′hamas announced thursday the end of cease,fire with the′-130(Repeated 13times)(hamas announced thursday the end,of cease fire::of cease fire with the)
14)′hamas announced on thursday the end of the cease,fire with their′-130(Repeated 4times)(null)
15)′they announced thursday the end of cease,fire with hamas′-130(Repeated 2times)(null)
16)′were announced thursday the end of cease,fire with hamas′-130(Repeated 2times)(null)
17)′hamas announced thursday the end of cease,fire with them′-130(Repeated 1times)(null)
18)′was announced thursday the end of cease,fire with hamas′-130(Repeated 2times)(null)
19)′thursday announced the end of the cease fire,with hamas′-130(Repeated 10times)(null)
20)′hamas announced thursday the end of cease,fire as′-125(Repeated 3times)(null)
         
根据重复次数排序
         
1)announced thursday the end of cease,fire with-229(Score=115times)
2)announced thursday the end of the cease,fire with-172(Score=110times)
3)announced thursday the end of cease,fire with hamas-94(Score=135times)
4)announced thursday the end of the cease,fire with hamas-94(Score=130times)
5)announced thursday the end of cease,fire with the-83(Score=110times)
6)announced thursday the end of its unilateral cease,fire with-80(Score=100times)
7)announced thursday the end of the cease,fire with the-66(Score=105times)
8)announced thursday the end of cease,fire with their-62(Score=120times)
9)announced thursday the end of its unilateral cease,fire with hamas-58(Score=120times)
10)announced thursday the end of cease,fire a-49(Score=105times)
11)announced on thursday the end of cease,fire with-49(Score=110times)
12)announced thursday the end of the cease,fire a-47(Score=100times)
13)announced on thursday the end of the cease,fire with-47(Score=105times)
14)announced thursday the end of the cease,fire with hamas and-47(Score=125times)
15)announced thursday the end of cease,fire with hamas and-47(Score=130times)
16)announced thursday the end of the cease,fire with their-45(Score=115times)
17)announced on thursday the end of cease,fire a-33(Score=100times)
18)announced on thursday the end of the cease,fire a-32(Score=95times)
19)hamas announced thursday the end of the cease,fire a-30(Score=120times)
20)hamas announced on thursday the end of the cease,fire a-29(Score=115times)
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves′,′de su cese del fuego con′(2,null,6)--(1000)
No good source overlap
Skipping su cese del fuego(2<2)
---------------------{}---------------------
><su cese del fuego con was just translated and returned results
Number of reaults=1000
Translation for su cese del fuego con took 0.949
going to try and overlap this piece with the hashmap
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap′hamas anuncióeste jueves el fin de′,′su cese del fuego con′(2,null,7)--(1000)
No good source overlap
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap′hamas anuncióeste jueves el fin′,′su cese del fuego con′(2,null,7)--(1000)
No good source overlap
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap′hamas anuncióeste jueves el′,′su cese del fuego con′(2,null,7)--(1000)
No good source overlap
@@@Pre 2@@@
@@@Post 2@@@
Trying to orerlap′hamas anuncióeste jueves el fin de su cese del fuego′,′su cese delfuego con′(2,hamas anunció este jueves el fin de su cese del fuego con,7)--(1000)
Got an overlap in source,checking target
1500-1000
Overlap check for′hamas anuncióeste jueves el fin de su cese del fuego′,′su cese delfuego con′took 7.002
***hamas anuncióeste jueves el fin de su cese del fuego(1500),(1000)su cesedel fuego con=hamas anuncióeste jueves el fin de su cese del fuego con
@@@19781->0
         
hamas anuncióeste jueves el fin de su cese del fuego con的重叠结果
         
1)′hamas announced thursday the end of cease,fire with their′-140(Repeated 4times)(hamas announced thursday the end of,cease fire::cease fire with their)
2)′hamas announced thursday the end of cease,fire with′-135(Repeated 21times)(hamas announced thursday the end of,cease fire::of cease fire with)
3)′hamas announced on thursday the end of cease,fire with their′-135(Repeated 4times)(hamas announced on thursday the end of,cease fire::cease fire with their)
4)′hamas announced thursday the end of cease,fire his′-135(Repeated 3times)(hamas announced thursday the end of,cease fire::cease fire his)
5)′announced thursday the end of cease,fire with hamas′-135(Repeated 94times)(announced thursday the end of,cease fire::cease fire with hamas)
6)′hamas announced thursday the end of the cease,fire with their′-135(Repeated4times)(hamas announced thursday the end of the,cease fire::the cease fire with their)
7)′be announced thursday the end of cease,fire with hamas′-130(Repeated 2times)(be announced thursday the end of,cease fire::cease fire with hamas)
8)′hamas announced on thursday the end of cease,fire with′-130(Repeated 21times)(hamas announced on thursday the end of,cease fire::of cease fire with)
9)′announced thursday the end of cease,fire with hamas and′-130(Repeated 47times)(announced thursday the end of,cease fire::cease rire with hamas and)
10)′and announced thursday the end of cease,fire with hamas′-130(Repeated 4times)(and announced thursday the end of,cease fire::cease fire with hamas)
11)′hamas announced thursday the end of cease fire,in their′-130(Repeated 3times)(hamas announced thursday the end of cease,fire in::cease fire in their)
12)′hamas announced thursday the end of cease,fire to his′-130(Repeated 2times)(hamas announced thursday the end of,cease fire::cease fire to his)
13)′announced on thursday the end of cease,fire with hamas′-130(Repeated 12times)(announced on thursday the end of,cease fire::cease fire with hamas)
14)′announced thursday the end of the cease,fire with hamas′-130(Repeated 94times)(announced thursday the end of the,cease fire::cease fire with hamas)
15)′hamas announced thursday the end of cease,fire had his′-130(Repeated 2times)(hamas announced thursday the end of,cease fire::cease fire had his)
16)′hamas announced thursday the end of the cease,fire with′-130(Repeated 21times)(hamas announced thursday the end of the,cease fire::the cease fire with)
17)′hamas announced thursday the end of cease,fire on their′-130(Repeated 2times)(hamas announced thursday the end of,cease fire::cease fire on their)
18)′hamas announced thursday the end of cease fire,for their′-130(Repeated 2times)(hamas announced thursday the end of cease,fire for::cease fire for their)
19)′hamas announced thursday the end of cease,fire with the′-130(Repeated 13times)(hamas announced thursday the end of,cease fire::of cease fire with the)
20)′hamas announced thursday the end of cease fire,in his′-130(Repeated 2times)(hamas announced thursday the end of cease,fire in::cease fire in his)
            
根据重复次数排序
            
1)announced thursday the end of cease,fire with-178(Score=115times)
2)announced thursday the end of the cease,fire with-136(Score=110times)
3)announced thursday the end of the cease,fire with hamas-94(Score=130times)
4)announced thursday the end of cease,fire with hamas-94(Score=135times)
5)announced thursday the end of cease,fire with the-72(Score=110times)
6)announced thursday the end of cease,fire with their-51(Score=120times)
7)announced thursday the end of the cease,fire a-50(Score=100times)
8)announced thursday the end of cease,fire a-48(Score=105times)
9)announced thursday the end of cease,fire with hamas and-47(Score=130times)
10)announced thursday the end of the cease,fire with hamas and-47(Score=125times)
11)hamas announced thursday the end of the cease,fire a-47(Score=120times)
12)announced on thursday the end of cease,fire with-47(Score=110times)
13)announced thursday the end of its unilateral cease,fire with-45(Score=100times)
14)announced on thursday the end of the cease,fire with-39(Score=105times)
15)announced thursday the end of its unilateral cease,fire with hamas-36(Score=120times)
16)announced on thursday the end of cease,fire a-30(Score=100times)
17)announced thursday the end of the cease,fire with the-30(Score=105times)
18)hamas announced thursday the end of cease,fire a-29(Score=125times)
19)hamas announced on thursday the end of cease,fire a-27(Score=120times)
20)hamas announced on thursday the end of the cease,fire a-26(Score=115times)
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el fin de su cese del fuego con′,′su cesedel fuego con′(2,null,7)--(1000)
No good source overlap
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el fin de su cese′,′su cese del fuego con′(2,hamas anuncióeste jueves el fin de su cese del fuego con,7)--(1000)
Got an overlap in source,checking target
1500-1000
Overlap check for ′hamas anuncióeste jueves el fin de su cese′,′su cese del fuego con′took 2.612
***hamas anuncióeste jueves el fin de su cese(1500),(1000)su cese del fuegocon=hamas anuncióeste jueves el fin de su cese del fuego con
@@@2475->0
            
hamas anuncióeste jueves el fin de su cese del fuego con的重叠结果
            
1)′hamas announced thursday the end of cease,fire with their′-140(Repeated 4times)(null)
2)′hamas announced  thursday the end of cease,fire with′-135(Repeated 21times)(hamas announced thursday the end,of cease fire::of cease fire with)
3)′hamas announced on thursday the end of cease,fire with their′-135(Repeated 4times)(null)
4)′hamas announced thursday the end of cease,fire his′-135(Repeated 3times)(null)
5)′announced thursday the end of cease,fire with hamas′-135(Repeated 94times)(null)
6)′hamas announced thursday the end of the cease,fire with their′-135(Repeated4times)(null)
7)′be announced thursday the end of cease,fire with hamas′-130(Repeated 2times)(null)
8)′hamas announced on thursday the end of cease,fire with′-130(Repeated 21times)(hamas announced on thursday the end,of cease fire::of cease fire with)
9)′announced thursday the end of cease,fire with hamas and′-130(Repeated 47times)(null)
10)′and announced thursday the end of cease,fire with hamas′-130(Repeated 4times)(null)
11)′hamas announced thursday the end of cease fire,in their′-130(Repeated 3times)(null)
12)′hamas announced thursday the end of cease,fire to his′-130(Repeated 2times)(null)
13)′announced on thursday the end of cease,fire with hamas′-130(Repeated 12times)(null)
14)′announced thursday the end of the cease,fire with hamas′-130(Repeated 94times)(null)
15)′hamas announced thursday the end of cease,fire had his′-130(Repeated 2times)(null)
16)′hamas announced thursday the end of the cease,fire with′-130(Repeated 21times)(null)
17)′hamas announced thursday the end of cease,fire on their′-130(Repeated 2times)(null)
18)′hamas announced thursday the end of cease fire,for their′-130(Repeated 2times)(null)
19)′hamas announced thursday the end of cease,fire with the′-130(Repeated 13times)(hamas announced thursday the end,of cease fire::of cease fire with the)
20)′hamas announced thursday the end of cease fire,in his′-130(Repeated 2times)(null)
            
根据重复次数排序
            
1)announced thursday the end of cease,fire with-178(Score=115times)
2)announced thursday the end of the cease,fire with-136(Score=110times)
3)announced thursday the end of cease,fire with hamas-94(Score=135times)
4)announced thursday the end of the cease,fire with hamas-94(Score=130times)
5)announced thursday the end of cease,fire with the-72(Score=110times)
6)announced thursday the end of cease,fire with their-51(Score=120times)
7)announced thursday the end of the cease,fire a-50(Score=100times)
8)announced thursday the end of cease,fire a-48(Score=105times)
9)announced on thursday the end of cease,fire with-47(Score=110times)
10)hamas announced thursday the end of the cease,fire a-47(Score=120times)
11)announced thursday the end of the cease,fire with hamas and-47(Score=125times)
12)announced thursday the end of cease,fire with hamas and-47(Score=130times)
13)announced thursday the end of its unilateral cease,fire with-45(Score=100times)
14)announced on thursday the end of the cease,fire with-39(Score=105times)
15)announced thursday the end of its unilateral cease,fire with hamas-36(Score=120times)
16)announced thursday the end of the cease,fire with the-30(Score=105times)
17)announced on thursday the end of cease,fire a-30(Score=100times)
18)hamas announced thursday the end of cease,fire a-29(Score=125times)
19)hamas announced on thursday the end of cease,fire a-27(Score=120times)
20)hamas announced on thursday the end of the cease,fire a-26(Score=115times)
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves′,′su cese del fuego con′(2,null,7)--(1000)
No good source overlap
---------------------{}---------------------
><su cese del fuego con israel was just translated and returned results
Number of results=631
Translation for su cese del fuego con israel took 1.12
going to try and overlap this piece with the hashmap
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el fin de′,′su cese del fuego con israel′(2,null,7)--(631)
No good source overlap
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el fin′,′su cese del fuego con israel′(2,null,7)--(631)
No good source overlap
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el′,′su cese del fuego con israel′(2,null,7)--(631)
No good source overlap
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el fin de su cese del fuego′,′su cese delfuego con israel′(2,hamas anuncióeste jueves el fin de su cese del fuego con israel,7)-(631)
Got an overlap in source,checking target
1500-631
Overlap check for ′hamas anuncióeste jueves el fin de su cese del fuego′,′su cese delfuego con israel′took 7.102
***hamas anuncióeste jueves el fin de su cese del fuego(1500),(631)su cesedel fuego con israel=hamas anuncióeste jueves el fin de su cese del fuego conisrael
###14957->14957
            
hamas anuncióeste jueves el fin de su cese del fuego con israel的重叠结果
            
1)hamas announced thursday the end of cease,fire with israel-155(Repeated 30times)(hamas announced thursday the end of,cease fire::cease fire with israel)
2)hamas announced thursday the end of cease,fire israel-150(Repeated 10times)(hamas announced thursday the end of,cease fire::cease fire israel)
3)hamas announced on thursday the end of cease,fire with israel-150(Repeated 26times)(hamas announced on thursday the end of,cease fire::cease fire with israel)
4)hamas announced thursday the end of cease,fire with israel was-150(Repeated1times)(hamas announced thursday the end of,cease fire::cease fire with israel was)
5)hamas announced thursday the end of cease fire,by israel with-150(Repeated 3times)(hamas announced thursday the end of cease,fire by::cease fire by israel with)
6)hamas announced thursday the end of cease,fire with israel and-150(Repeated12times)(hamas announced thursday the end of,cease fire::cease fire with israel and)
7)hamas announced thursday the end of the cease,fire with israel-150(Repeated27times)(hamas announced thursday the end of the,cease fire::the cease fire withisrael)
8)hamas announced thursday the end of cease,fire with israel the-150(Repeated 3times)(hamas announced thursday the end of,cease fire::cease fire with israel the)
9)hamas announced thursday the end of cease fire,by israel-145(Repeated 4times)(hamas announced thursday the end of cease,fire by::cease fire by israel)
10)hamas announced thursday the end of the cease,fire with israel the-145(Repeated 3times)(hamas announced thursday the end of the,cease fire::cease fire withisrael the)
11)hamas announced thursday the end of cease,fire israel is-145(Repeated 5times)(hamas announced thursday the end of,cease fire::cease fire israel is)
12)hamas announced thursday the end of the cease,fire with israel and-145(Repeated 9times)(hamas announced thursday the end of the,cease fire::the cease firewith israel and)
13)hamas announced on thursday the end of cease,fire with israel the-145(Repeated 2times)(hamas announced on thursday the end of,cease fire::cease fire withisrael the)
14)hamas announced thursday the end of cease fire,and israel-145(Repeated 5times)(hamas announced thursday the end of cease,fire and::cease fire and israel)
15)hamas announeed on thursday the end of the cease,fire with israel-145(Repeated 20times)(hamas announced on thursday the end of the,cease fire::the ceasefire with israel)
16)hamas announced on thursday the end of cease,fire with israel and-145(Repeated 9times)(hamas announced on thursday the end of,cease fire::cease fire withisrael and)
17)hamas announced on thursday the end of cease,fire israel-145(Repeated 7times)(hamas announced on thursday the end of,cease fire::cease fire israel)
18)hamas announced thursday the end of the cease,fire by israel with-145(Repeated 3times)(hamas announced thursday the end of the,cease fire::cease fire byisrael with)
19)hamas announced on thursday the end of cease fire,by israel with-145(Repeated 3times)(hamas announced on thursday the end of cease,fire by::cease fire byisrael with)
20)hamas announced thursday the end of the cease,fire with israel was-145(Repeated 1times)(hamas announced thursday the end of the,cease fire::cease fire withisrael was)
              
根据重复次数排序
             
1)announced thursday the end of cease,fire with israel-279(Score=135times)
2)announced thursday the end of the cease,fire with israel-209(Score=130times)
3)announced thursday the end of cease,fire israel-113(Score=130times)
4)announced thursday the end of cease fire,by israel-9l(Score=125times)
5)announced thursday the end of cease,fire with israel and-85(Score=130times)
6)announced on thursday the end of cease,fire with israel-65(Score=130times)
7)announced thursday the end of the cease,fire by israel-53(Score=120times)
8)announced thursday the end of cease,fire with israel the-53(Score=130times)
9)announced thursday the end of cease fire,by israel with-52(Score=130times)
10)announced thursday the end of cease fire,and israel-50(Score=125times)
11)announced thursday the end of cease,fire israel is-50(Score=125times)
12)announced thursday the end of the cease,fire israel-49(Scorg=125times)
13)announced thursday the end of cease,fire with israel was-47(Score=130times)
14)announced thursday the end of the cease,fire with israel and-46(Score=125times)
15)announced thursday the end of the cease,fire by israel with-46(Score=125times)
16)announced thursday the end of the cease,fire with israel the-43(Score=125times)
17)announced thursday the end of its unilateral cease,fire with israel-43(Score=120times)
18)e announced thursday the end of cease,fire with israel-39(Score=115times)
19)announced on thursday the end of the cease,fire with israel-38(Score=125times)
20)announced thursday the end of the cease,fire with israel was-37(Score=125times)
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el fin de su cese del fuego con′,′su cesedel fuego con israel′(2,hamas anuncióeste jueves el fin de su cese del fuego conisrael,7)--(631)
Got an overlap in source,checking target
1500-631
Overlap check for ′hamas anuncióeste jueves el fin de su cese del fuego con′,′su cese delfuego con israel′took 3.371
***hamas anuncióeste jueves el fin de su cese del fuego con(1500),(631)sucese del fuego con israel=hamas anuncióeste jueves el fin de su cese delfuego con israel
@@@16056->0
           
hamas anuncióeste jueves el fin de su cese del fuego con israel的重叠结果
           
1)′hamas announced thursday the end of cease fire,with israel′-155(Repeated 1times)(hamas announced thursday the end of cease,fire with::cease fire with israel)
2)′hamas announced thursday the end of cease,fire with israel′-155(Repeated 27times)(null)
3)′hamas announced on thursday the end of cease fire,with israel′-150(Repeated1times)(hamas announced on thursday the end of cease,fire with::cease fire with israel)
4)′hamas announced thursday the end of cease,fire israel′-150(Repeated 8times)(null)
5)′hamas announced on thursday the end of cease,fire with israel′-150(Repeated22times)(null)
6)′hamas announced thursday the end of cease,fire with israel was′-150(Repeated1times)(null)
7)′hamas announced thursday the end of cease fire,by israel with′-150(Repeated3times)(hamas announced thursday the end of cease,fire by::cease fire by israel with)
8)′hamas announced thursday the end of cease,fire with israel and′-150(Repeated9times)(null)
9)′hamas announced thursday the end of cease fire with,israel and′-150(Repeated10times)(hamas announced thursday the end of cease,fire with israel::cease fire withisrael and)
10)′hamas announced thursday the end of cease fire with,israel was′-150(Repeated 1times)(hamas announced thursday the end of cease,fire with israel::ceasefire with israel was)
11)′hamas announced thursday the end of the cease,fire with israel′-150(Repeated 23times)(null)
12)′hamas announced thursday the end of the cease fire,with israel′-150(Repeated 1times)(hamas announced thursday the end of the cease,fire with::the ceasefire with israel)
13)′hamas announced thursday the end of cease fire with,israel the′-150(Repeated 3times)(hamas announced thursday the end of cease,fire with israel::ceasefire with israel the)
14)′hamas announced thursday the end of cease,fire with israel the′-150(Repeated 3times)(null)
15)′hamas announced thursday the end of the cease fire with,israel the′-145(Repeated 2times)(hamas announced thursday the end of the cease,fire withisrael::cease fire with israel the)
16)′hamas announced thursday the end of the cease fire,by israel with′-145(Repeated 2times)(hamas announced thursday the end of the cease,fire by::cease fireby israel with)
17)′hamas announced on thursday the end of cease fire with,israel was′-145(Repeated 1times)(hamas announced on thursday the end of cease,fire withisrael::cease fire with israel was)
18)′hamas announced on thursday the end of the cease fire,with israel′-145(Repeated 1times)(hamas announced on thursday the end of the cease,fire with::thecease fire with israel)
19)′hamas announced thursday the end of the cease fire with,israel was′-145(Repeated 1times)(hamas announced thursday the end of the cease,fire withisrael::cease fire with israel was)
20)′hamas announced thursday the end of cease fire,by israel′-145(Repeated 4times)(hamas announced thursday the end of cease,fire by::cease fire by israel)
            
根据重复次数排序
            
1)announced thursday the end of cease,fire with israel-253(Score=135times)
2)announced thursday the end of the cease,fire with israel-129(Score=130times)
3)announced thursday the end of cease,fire israel-82(Score=130times)
4)announced thursday the end of cease,fire with israel and-68(Score=130times)
5)announced thursday the end of cease fire,by israel-66(Score=125times)
6)announced thursday the end of cease fire,with israel-66(Score=135times)
7)announced on thursday the end of cease,fire with israel-51(Score=130times)
8)announced thursday the end of cease fire,by israel with-50(Score=130times)
9)announced thursday the end of cease,fire with israel the-50(Score=130times)
10)announced thursday the end of cease,fire with israel was-47(Score=130times)
11)announced thursday the end of its unilateral cease,fire with israel-43(Score=120times)
12)announced on thursday the end of the cease,fire with israel-35(Score=125times)
13)announced thursday the end of the cease,fire by israel-33(Score=120times)
14)announced thursday the end of the cease fire,with israel-32(Score=130times)
15)e announced thursday the end of cease,fire with israel-31(Score=115times)
16)announced thursday the end of the cease,fire israel-30(Score=125times)
17)announced thursday the end of the cease,fire with israel and-29(Score=125times)
18)hamas announced thursday the end of cease,fire with israel-27(Score=155times)
19)announced on thursday the end of its unilateral cease,fire with israel-26(Score=115times)
20)announced thursday the end of the cease,fire by israel with-26(Score=125times)
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el fin de su cese′,′su cese del fuego conisrael′(2,hamas anuncióeste jueves el fin de su cese del fuego con israel,7)--(631)
Got an overlap in source,checking target
1500--631
Overlap check for ′hamas anuncióeste jueves el fin de su cese′,′su cese del fuego conisrael′took 2.783
***hamas anuncióeste jueves el fin de su cese(1500),(631)su cese del fuegocon israel=hamas anuncióeste jueves el fin de su cese del fuego con israel
@@@1575->0
         
hamas anuncióeste jueves el fin de su cese del fuego con israel的重叠结果
         
1)′hamas announced thursday the end of cease fire,with israel′-155(Repeated 1times)(null)
2)′hamas announced thursday the end of cease,fire with israel′-155(Repeated 27times)(null)
3)′hamas announced on thursday the end of cease fire,with israel′-150(Repeated1times)(null)
4)′hamas announced thursday the end of cease,fire israel′-150(Repeated 8times)(null)
5)′hamas announced on thursday the end of cease,fire with israel′-150(Repeated22times)(null)
6)′hamas announced thursday the end of cease,fire with israel was′-150(Repeated1times)(null)
7)′hamas announced thursday the end of cease fire,by israel with′-150(Repeated3times)(null)
8)′hamas announced thursday the end of cease,fire with israel and′-150(Repeated9times)(null)
9)′hamas announced thursday the end of cease fire with,israel and′-150(Repeated9times)(null)
10)′hamas announced thursday the end of cease fire with,israel was′-150(Repeated 1times)(null)
11)′hamas announced thursday the end of the cease,fire with israel′-150(Repeated 23times)(null)
12)′hamas announced thursday the end of the cease fire,with israel′-150(Repeated 1times)(null)
13)′hamas announced thursday the end of cease fire with,israel the′-150(Repeated 3times)(null)
14)′hamas announced thursday the end of cease,fire with israel the′-150(Repeated 2times)(null)
15)′hamas announced thursday the end of the cease fire with,israel the′-145(Repeated 2times)(null)
16)′hamas announced thursday the end of the cease fire,by israel with′-145(Repeated 2times)(null)
17)′hamas announced on thursday the end of cease fire with,israel was′-145(Repeated 1times)(null)
18)′hamas announced on thursday the end of the cease fire,with israel′-145(Repeated 1times)(null)
19)′hamas announced thursday the end of the cease fire with,israel was′-145(Repeated 1times)(null)
20)′hamas announced thursday the end of cease fire,by israel′-145(Repeated 4times)(null)
            
根据重复次数排序
            
1)announced thursday the end of cease,fire with israel-252(Score=135times)
2)announced thursday the end of the cease,fire with israel-126(Score=130times)
3)announced thursday the end of cease,fire israel-81(Score=130times)
4)announced thursday the end of cease,fire with israel and-67(Score=130times)
5)announced thursday the end of cease fire,with israel-66(Score=135times)
6)announced thursday the end of cease fire,by israel-66(Score=125times)
7)announced on thursday the end of cease,fire with israel-51(Score=130times)
8)announced thursday the end of cease,fire with israel the-50(Score=130times)
9)announced thursday the end of cease fire,by israel with-50(Score=130times)
10)announced thursday the end of cease,fire with israel was-47(Score=130times)
11)announced thursday the end of its unilateral cease,fire with israel-43(Score=120times)
12)announced on thursday the end of the cease,fire with israel-35(Score=125times)
13)announced thursday the end of the cease,fire by israel-33(Score=120times)
14)announced thursday the end of the cease fire,with israel-32(Score=130times)
15)e announced thursday the end of cease,fire with israel-31(Score=115times)
16)announced thursday the end of the cease,fire israel-29(Score=125times)
17)hamas announced thursday the end of cease,fire with israel-27(Score=155times)
18)announced thursday the end of the cease,fire with israel and-27(Score=125times)
19)announced on thursday the end of its unilateral cease,fire with israel-26(Score=115times)
20)announced thursday the end of the cease,fire by israel with-26(Score=125times)
@@@Pre 2@@@
@@@post 2@@@
Trying to overlap ′hamas anuncióeste jueves′,′su cese del fuego con israel′(2,null,7)--(631)
No good source overlap
---------------------{}---------------------
><cese del fuego con was just translated and returned results
Number of results=1000
Translation for cese del fuego con took 0.705
going to try and overlap this piece with the hashmap
@@@Pre 2@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el fin de′,′cese del fuego con′(2,null,8)--(1000)
No good source overlap
@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el fin′,′cese del fuego con′(2,null,8)--(1000)
No good source overlap
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el′,′cese del fuego con′(2,null,8)--(1000)
No good source overlap
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el fin de su cese del fuego con israel′,′cese del fuego con′(2,null,8)--(1000)
No good source overlap
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el fin de su cese del fuego′,′cese delfuego con′(2,hamas anuncióeste jueves el fin de su cese del fuego con,8)--(1000)
Got an overlap in source,checking target
1500-1000
Overlap check for ′hamas anuncióeste jueves el fin de su cese del fuego′,′cese del fuegocon′took 9.486
***hamas anuncióeste jueves el fin de su cese del fuego(1500),(1000)cesedel fuego con=hamas anuncióeste jueves el fin de su cese del fuego con
@@@29730->0
          
hamas anuncióeste jueves el fin de su cese del fuego con的重叠结果
          
1)′hamas announced thursday the end of cease,fire with their′-140(Rrpeatrd 4times)(hamas announced thursdey the end of,cease fire::cease fire with their)
2)′hamas announced thursday the end of cease,fire with′-135(Repeated 93times)(hamas announced thursday the end of,cease fire::of cease fire with)
3)′hamas announced on thursday the end of cease,fire with their′-135(Repeated 4times)(hamas announced on thursday the end of,cease fire::cease fire with their)
4)′hamas announced thursday the end of cease,fire his′-135(Rrpeated 3times)(null)
5)′hamas announced thursday the end of cease,fire of′ -135(Repeated 10times)(hamas announced thursday the end of,cease fire::cease fire of)
6)′announced thursday the end of cease,fire with hamas′-135(Repeated 141times)(announced thursday the end of,cease fire::cease fire with hamas)
7)′hamas announced thursday the end of the cease,fire with their′-135(Repeated4times)(hamas announced thursday the end of the,cease fie::cease fire with their)
8)′hamas announced on thursday the end of cease,fire with′-130(Repeated 80times)(hamas announced on thursday the end of,cease fie::of cease fire with)
9)′announced thursday the end of cease,fire with hamas and′-130(Repeated 94times)(announced thursday the end of,cease fire::cease fire with hamas and)
10)′and announced thursday the end of cease,fire with hamas′-130(Repeated 6times)(and announced thursday the end of,cease fire::cease fire with hamas)
11)′hamas announced thursday the end of cease fire,in their′-130(Repeated 3times)(null)
12)′hamas announced thursday the end of cease,fire with in′-130(Repeated 6times)(hamas announced thursday the end of,cease fire::cease fire with in)
13)′announced thursday the end of the cease,fire with hamas′-130(Repeated 103times)(announced thursday the end of the,cease fire::cease fire with hamas)
14)′hamas announced thursday the end of the cease,fire with′-130(Repeated 80times)(hamas announced thursday the end of the,cease fire::the cease fire with)
15)′hamas announced thursday the end of cease,fire on their′-130(Repeated 2times)(null)
16)′hamas announced thursday the end of cease fire,for their′-130(Repeated 2times)(null)
17)′hamas announced thursday the end of cease,fire with the′-130(Repeated 52times)(hamas announced thursday the end of,cease fire::of cease fire with the)
18)′hamas announced on thursday the end of the cease,fire with their′-130(Repeated 4times)(hamas announced on thursday the end of the,cease fire::cease firewith their)
19)′they announced thursday the end of cease,fire with hamas′-130(Repeated 3times)(they announced thursday the end of,cease fire::cease fire with hamas)
20)′were announced thursday the end of cease,fire with hamas′-130(Repeated 3times)(were announced thursday the end of,cease fire::cease fire with hamas)
             
根据重复次数排序
             
1)announced thursday the end of cease,fire with-276(Score=115times)
2)announced thursday the end of the cease,fire with-199(Score=110times)
3)announced thursday the end of cease,fire with hamas-141(Score=135times)
4)announced on thursday the end of cease,fire with-106(Score=110times)
5)announced thursday the end of the cease,fire with hamas-103(Score=130times)
6)announced thursday the end of cease,fire with hamas and-94(Score=130times)
7)hamas announced thursday the end of cease,fire with-93(Score=135times)
8)hamas announced on thursday the end of cease,fire with-80(Score=130times)
9)hamas announced thursday the end of the cease,fire with-80(Score=130times)
10)announced thursday the end of cease,fire with the-78(Score=110times)
11)announced on thursday the end of the cease,fire with-58(Score=105times)
12)announced thursday the end of the cease,fire with hamas and-56(Score=125times)
13)hamas announced thursday the end of cease,fire with the-52(Score=130times)
14)announced thursday the end of the cease,fire with the-52(Score=105times)
15)announced on thursday the end of cease,fire with the-49(Score=105times)
16)announced thursday the end of cease,fire with hamas and the-47(Score=125times)
17)hamas announced thursday the end of the cease,fire with the-43(Score=125times)
18)hamas announced on thursday the end of cease,fire with the-43(Score=125times)
19)hamas announced on thursday the end of the cease,fire with-40(Score=125times)
20)announced thursday the end of cease,fire a-38(Score=105times)
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el fin de su cese del fuego con′,′cese delfuego con′(2,null,8)--(1000)
No good source overlap
@@@Pre 2@@@
@@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el fin de su cese′,′cese del fuego con′(2,null,8)--(1000)
No good source overlap
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves′,′cese del fuego con′(2,null,g)--(1000)No good source overlap
---------------------{}---------------------
><cese del fuego con israel was just translated and returned results
Number of results=748
Translation for cese del fuego con israel took 0.888
going to try and overlap this piece with the hashmap
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el fin de′,′cese del fuego con israel′(2,null,8)--(748)
No good source overlap
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el fin′,′case del fuego con israel′(2,null,8)--(748)
No good source overlap
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el′,′cese del fuego con israel′(2,null,8)--(748)
No good source overlap
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el fin de su cese del fuego con israel′,′cese del fuego con israel′(2,null,8)--(748)
No good source overlap
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el fin de su cese del fuego′,′cese delfuego con israel′(2,hamas anuncióeste jueves el fin de su cese del fuego con israel,8)-(748)
Got an overlap in source,checking target1500-748
Overlap check for ′hamas anuncióeste jueves el fin de su cese del fuego′,′cese del fuegocon israel′took 7.89
***hamas anuncióeste jueves el fin de su cese del fuego(1500),(748)cese delfuego con israel=hamas anuncióeste jueves el fin de su cese del fuego conisrael
@@@18681->0
         
hamas anuncióeste jueves el fin de su cese del fuego con israel的重叠结果
        
1)′hamas announced thursday the end of cease,fire with israel′-155(Repeated 28times)(hamas announced thursday the end of,cease fire::cease fire with israel)
2)′hamas announced thursday the end of cease fire,with israel′-155(Repeated 1times)(null)
3)′hamas announced on thursday the end of cease fire,with israel′-150(Repeated1times)(null)
4)′hamas announced thursday the end of cease fire with,israel and′-150(Repeated9times)(null)
5)′hamas announced thursday the end of the cease,fire with israel′-150(Repeated24times)(hames announced thursday the end of the,cease fire::the cease fire withisrael)
6)′hamas announced thursday the end of cease,fire with israel the′-150(Repeated3times)(hamas announced thursday the end of,cease fire::cease fire with israel the)
7)′hamas announced thursday the end of cease,fire israel′-150(Repeated 8times)(hamas announced thursday the end of,cease fire::cease fire israel)
8)′hamas announced on thursday the end of cease,fire with israel′-150(Repeated23times)(hamas announced on thursday the end of,cease fire::cease fire with israel)
9)′hamas announced thursday the end of cease,fire with israel was′-150(Repeated1times)(hamas announced thursday the end of,cease fire::cease fire with israel was)
10)′hamas announced thursday the end of cease fire,by israel with′-150(Repeated3times)(hamas announced thursday the end of cease,fire by::cease fire by israel with)
11)′hamas announced thursday the end of cease,fire with israel and′-150(Repeated 9times)(hamas announced thursday the end of,cease fire::cease fire withisrael and)
12)′hamas announced thursday the end of cease fire with,israel was′-150(Repeated 1times)(null)
13)′hamas announced thursday the end of the cease fire,with israel′-150(Repeated 1times)(null)
14)′hamas announced thursday the end of cease fire with,israel the′-150(Repeated 3times)(null)
15)′hamas announced thursday the end of the cease fire with,israel the′-145(Repeated 2times)(null)
16)′hamas announced on thursday the end of cease fire with,israel was′-145(Repeated 1times)(null)
17)′hamas announced on thursday the end of the cease fire,with israel′-145(Repeated 1times)(null)
18)′hamas announced thursday the end of the cease fire with,israel was′-145(Repeated 1times)(null)
19)′hamas announced thursday the end of the cease,fire with israel the′-145(Repeated 3times)(hamas announced thursday the end of the,cease fire::cease fire withisrael the)
20)′hamas announced on thursday the end of cease fire with,israel and′-145(Repeated 8times)(null)
           
根据重复次数排序
           
1)announced thursday the end of cease,fire with israel-259(Score=135times)
2)announced thursday the end of the cease,fire with israel-122(Score=130times)
3)announced thursday the end of cease,fire israel-71(Score=130times)
4)announced thursday the end of cease,fire with israel and-67(Score=130times)
5)announced thursday the end of cease fire,by israel-62(Score=125times)
6)announced thursday the end of cease fire,with israel-61(Score=135times)
7)announced on thursday the end of cease,fire with israel-51(Score=130times)
8)announced thursday the end of cease,fire with israel the-51(Score=130times)
9)announced thursday the end of cease fire,by israel with-50(Score=130times)
10)announced thursday the end of cease,fire with israel was-47(Score=130times)
11)announced thursday the end of its unilateral cease,fire with israel-44(Score=120times)
12)announced on thursday the end of the cease,fire with israel-37(Score=125times)
13)e announced thursday the end of cease,fire with israel-34(Score=115times)
14)announced thursday the end of the cease,fire israel-32(Score=125times)
15)announced thursday the end of the cease fire,with israel-30(Score=130times)
16)hamas announced thursday the end of cease,fire with israel-28(Score=155times)
17)announced on thursday the end of its unilateral cease,fire with israel-26(Score=115times)
18)hamas announced thursday the end of the cease,fire with israel-24(Score=150times)
19)announced thursday the end of cease fire,and israel-23(Score=125times)
20)announced thursday the end of the cease,fire with israel and-23(Score=125times)
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el fin de su cese del fuego con′,′cese delfuego con israel′(2,hamas anuncióeste jueves el fin de su cese del fuego con israel,8)--(748)
Got an overlap in source,checking target1500-748
Overlap check for ′hamas anuncióeste jueves el fin de su cese del fuego con′,′cese delfuego con israel′took 3.299
***hamas anuncióeste jueves el fin de su cese del fuego con(1500),(748)cesedel fuego con israel=hamas anuncióeste jueves el fin de su cese del fuego conisrael
@@@284->0
             
hamas anuncióeste jueves el fin de su cese del fuego con israel的重叠结果
             
1)′hamas announced thursday the end of cease,fire with israel′-155(Repeated 28times)(null)
2)′hamas announced thursday the end of cease fire,with israel′-155(Repeated 1times)(hamas announced thursday the end of cease,fire with::cease fire with israel)
3)′hamas announced on thursday the end of cease fire,with israel′-150(Repeated1times)(hamas announced on thursday the end of cease,fire with::cease fire with israel)
4)′hamas announced thursday the end of cease fire with,israel and′-150(Repeated9times)(hamas announced thursday the end of cease,fire with israel::cease fire withisrael and)
5)′hamas announced thursday the end of the cease,fire with israel′-150(Repeated24times)(null)
6)′hamas announced thursday the end of cease,fire with israei the′-150(Repeated3times)(null)
7)′hamas announced thursday the end of cease,fire israel′-150(Repeated 8times)(null)
8)′hamas announced on thursday the end of cease,fire with israel′-150(Repeated23times)(null)
9)′hamas announced thursday the end of cease,fire with israel was′-150(Repeated1times)(null)
10)′hamas announced thursday the end of cease fire,by israel with′-150(Repeated3times)(hamas announced thursday the end of cease,fire by::cease fire by israel with)
11)′hamas announced thursday the end of cease fire with,israel as′-150(Repeated3times)(hamas announced thursday the end of cease,fire with israel::fire with israel as)
12)′hamas announced thursday the end of cease,fire with israel and′-150(Repeated 9times)(null)
13)′hamas announced thursday the end of cease fire with,israel was′-150(Repeated 1times)(hamas announced thursday the end of cease,fire with israel::ceasefire with israel was)
14)′hamas announced thursday the end of the cease fire,with israel′-150(Repeated 1times)(hamas announced thursday the end of the cease,fire with::the ceasefire with israel)
15)′hamas announced thursday the end of cease fire with,israel the′-150(Repeated 3times)(hamas announced thursday the end of cease,fire with israel::ceasefire with israel the)
16)′hamas announced thursday the end of the cease fire with,israel the′-145(Repeated 2times)(hamas announced thursday the end of the cease,fire withisrael::cease fire with israel the)
17)′hamas announced on thursday the end of cease fire with,israel was′-145(Repeated 1times)(hamas announced on thursday the end of cease,fire withisrael::cease fire with israel was)
18)′hamas announced on thursday the end of the cease fire,with israel′-145(Repeated 1times)(hamas announced on thursday the end of the cease,fire with::thecease fire with israel)
19)′hamas announced thursday the end of the cease fire with,israel was′-145(Repeated 1times)(hamas announced thursday the end of the cease,fire withisrael::cease fire with israel was)
20)′hamas announced on thursday the end of cease fire with,israel as′-145(Repeated 3times)(hamas announced on thursday the end of cease,fire with israel::firewith israel as)
          
根据重复次数排序
          
1)announced thursday the end of cease,fire with israel-250(Score=135times)
2)announced thursday the end of the cease,fire with israel-101(Score=130times)
3)announced thursday the end of cease,fire israel-65(Score=130times)
4)announced thursday the end of cease fire,with israel-64(Score=135times)
5)announced thursday the end of cease,fire with israel and-60(Score=130times)
6)announced thursday the end of cease fire,by israel-58(Score=125times)
7)announced thursday the end of cease fire,by israel with-50(Score=130times)
8)announced thursday the end of cease,fire with israel the-50(Score=130times)
9)announced on thursday the end of cease,fire with israel-47(Score=130times)
10)announced thursday the end of cease,fire with israel was-47(Score=130times)
11)announced thursday the end of its unilateral cease,fire with israel-44(Score=120times)
12)announced on thursday the end of the cease,fire with israel-37(Score=125times)
13)e announced thursday the end of cease,fire with israel-31(Score=115times)
14)announced thursday the end of the cease fire,with israel-31(Score=130times)
15)hamas announced thursday the end of cease,fire with israel-28(Score=155times)
16)hamas announced thursday the end of the cease,fire with israel-24(Score=150times)
17)announced thursday the end of its unilateral cease fire,with israel-24(Score=120times)
18)hamas announced on thursday the end of cease,fire with israel-23(Score=150times)
19)announced on thursday the end of its unilateral cease,fire with israel-23(Score=115times)
20)announced thursday the end of the cease,fire israel-22(Score=125times)
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el fin de su cese′,′cese del fuego conisrael′(2,null,8)-(748)
No good source overlap
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves′,′cese del fuego con israel′(2,null,8)-(748)
No good source overlap
---------------------{}---------------------
><del fuego con israel was just translated and returned results
Number of results=604
Translation for del fuego con israel took 0.634
going to try and overlap this piece with the hashmap
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el fin de′,′del fuego con israel′(2,null,9)-(604)
No good source overlap
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el fin′,′del fuego con israel′(2,null,9)--(604)
No good source overlap
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el′,′del fuego con israel′(2,null,9)--(604)
No good source overlap
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el fin de su cese del fuego con israel′,′del fuego con israel′(2,null,9)--(604)
No good source overlap
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el fin de su cese del fuego′,′del fuegocon israel′(2,hamas anuncióeste jueves el fin de su cese del fuego con israel,9)-(604)Got an overlap in source,checking target
1500-604
Overlap check for ′hamas anuncióeste jueves el fin de su cese del fuego′,′del fuego conisrael′took 3.242
***hamas anuncióeste jueves el fin de su cese del fuego (1500),(604)delfuego con israel =hamas anuncióeste jueves el fin de su cese del fuego conisrael
@@@2927->0
          
hamas anuncióeste jueves el fin de su cese del fuego con israel的重叠结果
          
1)′hams announced thursday the end of cease,fire with israel′-155(Repeated 28times)(hamas announced thursday the end of,cease fire::cease fire with israel)
2)′hamas announced thursday the end of cease fire,with israel′-155(Repeated 1times)(null)
3)′hamas announced on thursday the end of cease fire,with israel′-150(Repeated1times)(null)
4)′hamas announced thursday the end of cease fire with,israel and′-150(Repeated9times)(null)
5)′hamas announced thursday the end of the cease,fire with israel′-150(Repeated24times)(hamas announced thursday the end of the,cease fire::the cease fire withisrael)
6)′hamas announced thursday the end of cease,fire with israel the′-150(Repeated3times)(hamas announced thursday the end of,cease fire::cease fire with israel the)
7)′hamas announced thursday the end of cease,fire israel′-150(Repeated 8times)(null)
8)′hamas announced on thursday the end of cease,fire with israel′-150(Repeated23times)(hamas announced on thursday the end of,cease fire::cease fire with israel)
9)′hamas announced thursday the end of cease,fire with israel was′-150(Repeated1times)(null)
10)′hamas announced thursday the end of cease fire,by israel with′-150(Repeated3times)(hamas announced thursday the end of cease,fire by::cease fire by israel with)
11)′hamas announced thursday the end of cease fire with,israel as′-150(Repeated3times)(null)
12)′hamas announced thursday the end of cease,fire with israel and′-150(Repeated 9times)(hamas announced thursday the end of,cease fire::cease fire withisrael and)
13)′hamas announced thursday the end of cease fire with,israel was′-150(Repeated 1times)(null)
14)′hamas announced thursday the end of the cease fire,with israel′-150(Repeated 1times)(null)
15)′hamas announced thursday the end of cease fire with,israel the′-150(Repeated 3times)(null)
16)′hamas announced thursday the end of the cease fire with,israel the′-145(Repeated 2times)(null)
17)′hamas announced on thursday the end of cease fire with,israel was′-145(Repeated 1times)(null)
18)′hamas announced on thursday the end of the cease fire,with israel′-145(Repeated 1times)(null)
19)′hamas announced thursday the end of the cease fire with,israel was′-145(Repeated 1times)(null)
20)′hamas announced on thursday the end of cease fire with,israel as′-145(Repeated 3times)(null)
            
根据重复次数排序
           
1)announced thursday the end of cease,fire with israel-250(Score=135times)
2)announced thursday the end of the cease,fire with israel-101(Score=130times)
3)announced thursday the end of cease,fire israel-65(Score=130times)
4)announced thursday the end of cease fire,with israel-64(Score=135times)
5)announced thursday the end of cease,fire with israel and-60(Score=130times)
6)announced thursday the end of cease fire,by israel-58(Score=125times)
7)announced thursday the end of cease fire,by israel with-50(Score=130times)
8)announced thursday the end of cease,fire with israel the-50(Score=130times)
9)announced on thursday the end of cease,fire with israel-47(Score=130times)
10)announced thursday the end of cease,fire with israel was-47(Score=130times)
11)announced thursday the end of its unilateral cease,firewithisrael-44(Score=120times)
12)announced on thursday the end of the cease,fire with israel-37(Score=125times)
13)e announced thursday the end of cease,fire with israel-31(Score=115times)
14)announced thursday the end of the cease fire,with israel-31(Score=130times)
15)hamas announced thursday the end of cease,fire with israel-28(Score=155times)
16)hamas announced thursday the end of the cease,fire with israel-24(Score=150times)
17)announced thursday the end of its unilateral cease fire,with israel-24(Score=120times)
18)hamas announced on thursday the end of cease,fire with israel-23(Score=150times)
19)announced on thursday the end of its unilateral cease,fire with israel-23(Score=115times)
20)announced thursday the end of the cease,fire israel-22(Score=125times)
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el fin de su cese del fuego con′,′delfuego con israel′(2,hamas anuncióeste jueves el fin de su cese del fuego con israel,9)--(604)
Got an overlap in source,checking target
1500-604
Overlap check for ′hamas anuncióeste jueves el fin de su cese del fuego con′,′del fuegocon israel′took 2.82
***hamas anuncióeste jueves el fin de su cese del fuego con (1500),(604)delfuego con israel =hamas anuncióeste jueves el fin de su cese del fuego conisrael
@@@1577->0
            
hamas anuncióeste jueves el fin de su ce se del fuego con israel的重叠结果
            
1)′hamas announced thursday the end of cease,fire with israel′-155(Repeated 28times)(null)
2)′hamas announced thursday the end of cease fire,with israel′-155(Repeated 1times)(hamas announced thursday the end of cease,fire with::cease fire with israel)
3)′hamas announced on thursday the end of cease fire,with israel′-150(Repeated1times)(hamas announced on thursday the end of cease,fire with::cease fire with israel)
4)′hamas announced thursday the end of cease fire with,israel and′-150(Repeated9times)(amas announced thursday the end of cease,fire with israel::cease fire withisrael and)
5)′hamas announced thursday the end of the cease,fire with israel′-150(Repeated24times)(null)
6)′hamas announced thursday the end of cease,fire with israel the′-150(Repeated3times)(null)
7)′hamas announced thursday the end of cease,fire israel′-150(Repeated 8times)(null)
8)′hamas announced on thursday the end of cease,fire with israel′-150(Repeated23times)(null)
9)′hamas announced thursday the end of cease,fire with israel was′-150(Repeatedtimes)(null)
10)′hamas announced thursday the end of cease fire,by israel with′-150(Repeated3times)(hamas announced thursday the end of cease,fire by::cease fire by israel with)
11)′hamas announced thursday the end of cease fire with,israel as′-150(Repeated3times)(hamas announced thursday the end of cease,fire with israel::fire with israel as)
12)′hamas announced thursday the end of cease,fire with israel and′-150(Repeated 9times)(null)
13)′hamas announced thursday the end of cease fire with,israel was′-150(Repeated 1times)(null)
14)′hamas announced thursday the end of the cease fire,with israel′-150(Repeated 1times)(hamas announced thursday the end of the cease,fire with::the ceasefire with israel)
15)′hamas announced thursday the end of cease fire with,israel the′-150(Repeated 3times)(hamas announced thursday the end of cease,fire with israel::ceasefire with israel the)
16)′hamas announced thursday the end of the cease fire with,israel the′-145(Repeated 2times)(hamss announced thursday the end of the cease,fire withisrael::cease fire with israel the)
17)′hamas announced on thursday the end of cease fire with,israel was′-145(Repeated 1times)(null)
18)′hamas announced on thursday the end of the cease fire,with israel′-145(Repeated 1times)(hamas announced on thursday the end of the cease,fire with::thecease fire with israel)
19)′hamas announced thursday the end of the cease fire with,israel was′-145(Repeated 1times)(null)
20)′hamas announced on thursday the end of cease fire with,israel as′-145(Repeated 3times)(hamas announced on thursday the end of cease,fire with israel::firewith israel as)
             
根据重复次数排序
            
1)announced thursday the end of cease,fire with israel-249(Score=135times)
2)announced thursday the end of the cease,fire with israel-99(Score=130times)
3)announced thursday the end of cease,fire israel-65(Score=130times)
4)announced thursday the end of cease fire,with israel-64(Score=135times)
5)announced thursday the end of cease,fire with israel and-59(Score=130times)
6)announced thursday the end of cease fire,by israel-58(Score=125times)
7)announced thursday the end of cease,fire with israel the-50(Score=130times)
8)announced thursday the end of cease fire,by israel with-50(Score=130times)
9)announced thursday the end of cease,fire with israel was-47(Score=130times)
10)announced on thursday the end of cease,fire with israel-47(Score=130times)
11)announced thursday the end of its unilateral cease,fire with israel-44(Score=120times)
12)announced on thursday the end of the cease,fire with israel-37(Score=125times)
13)announced thursday the end of the cease fire,with israel-31(Score=130times)
14)e announced thursday the end of cease,fire with israel-30(Score=115times)
15)hamas announced thursday the end of cease,fire with israel-28(Score=155times)
16)hamas announced thursday the end of the cease,fire with israel-24(Score=150times)
17)announced thursday the end of its unilateral cease fire,with israel-24(Score=120times)
18)hamas announced on thursday the end of cease,fire with israel-23(Score=150times)
19)announced on thursday the end of its unilateral cease,fire with israel-23(Score=115times)
20)announced thursday the end of the cease,fire israel-22(Score=125times)
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves el fin de su cese′,′del fuego con israel′(2,null,9)-(604)
No good source overlap
@@@Pre 2@@@
@@@Post 2@@@
Trying to overlap ′hamas anuncióeste jueves′,′del fuego con israel′(2,null,9)-(604)
No good source overlap
  运行结果hamas anuncióeste jueves ei fin de su cese del fuego con israel(运行了22次重叠检查)
  1)hamas announced thursday the end of cease fire with israel-155(Repeated 35times)2)hamas announced thursday the end of cease fire by israel with-150(Repeated 3times)3)hamas announced thursday the end of ceasefire with israel as-150(Repeated 3times)4)hamas announced thursday the end of cease fire israel-150(Repeated 8times)5)hamas announced thursday the end of cease fire with israel and-150(Repeated9times)6)hamas announced thursday the end of cease fire with israel was-150(Repeated1times)7)hamas announced on thursday the end of cease fire with israel-150(Repeated29times)8)hamas announced thursday the end of the cease fire with israel-150(Repeated28times)9)hamas announced thursday the end of cease fire with israel the-150(Repeated3times)10)hamas announced thursday the end of cease fire by israel-145(Repeated 4times)11)hamas announced on thursday the end of cease fire with israel was-145(Repeated 1times)12)hamas announced thursday the end of the cease fire by israel with-145(Repeated 2times)13)hamas announced on thursday the end of the cease fire with israel-145(Repeated 25times)14)hamas announced on thursday the end of cease fire israel-145(Repeated 7times)15)hamas announced thursday the end of cease fire israel is-145(Repeated 3times)16)hamas announced thursday the end of the cease fire israel-145(Repeated 7times)17)hamas announced on thursday the end of cease fire with israel and-145(Repeated 8times)18)hamas announced on thursday the end of cease fire with israel the-145(Repeated 2times)19)hamas announced thursday the end of the cease fire with israel the-145(Repeated 2times)20)hamas announced thursday the end of the cease fire with israel was-145(Repeated 1times)21)hamas announced on thursday the end of cease fire by israel with-145(Repeated 2times)22)hamas announced thursday the end of cease fire and israel-145(Repeated 4times)23)hamas announced thursday the end of the cease fire with israel as-145(Repeated 3times)
  24)hamas announced on thursday the end of cease fire with israel as-145(Repeated 3times)25)hamas announced thursday the end of the cease fire with israel and-145(Repeated 8times)26)hamas announced on thursday the end of cease fire israel is-140(Repeated 3times)27)hamas announced thursday the end of cease fire and on israel-140(Repeated4times)28)hamas announced on thursday the end of the cease fire israel-140(Repeated 7times)29)hamas announced thursday the end of the cease fire by israel-140(Repeated 3times)30)hamas announced thursday the end of the cease fire and israel-140(Repeated3times)31)hamas announced on thursday the end of cease fire and israel-140(Repeated3times)32)hamas announced on thursday the end of the cease fire with israel and-140(Repeated 8times)33)hamas announced on thursday the end of the cease fire with israel the-140(Repeated 2times)34)hamas announced thursday the end of the cease fire israel is-140(Repeated 3times)35)hamas announced on thursday the end of the cease fire by israel with-140(Repeated 2times)36)hamas announced on thursday the end of cease fire by israel-140(Repeated 3times)37)hamas announced on thursday the end of the cease fire with israel was-140(Repeated 1times)38)hamas announced on thursday the end of the cease fire with israel as-140(Repeated 3times)39)hamas announced thursday the end of its unilateral cease fire with israel-140(Repeated 20times)40)hamas announced thursday the end of its unilateral cease fire with israel and-135(Repeated 8times)41)hamas announced thursday the end of its unilateral cease fire with israel was-135(Repeated 1times)42)hamas announced on thursday the end of its unilateral cease fire with israel-135(Repeated 16times)43)hamas announced thursday the end of the cease fire and on israel-135(Repeated 4times)44)hamas announced thursday the end of cease fire hudna with israel-135(Repeated 3times)45)hamas announced on thursday the end of the cease fire and israel-135(Repeated 3times)46)hamas announced thursday the end of cease fire and on israel to-135(Repeated 3times)47)hamas announced thursday the end of cease fire against israel with-135(Repeated 2times)48)announced thursday the end of cease fire with israel-135(Repeated 235times49)hamas announced on thursday the end of the cease fire by israel-135
  (Repeated 3times)50)hamas announced thursday the end of cease fire with israel defense-135(Repeated 2times)51)hamas announced on thursday the end of the cease fire israel is-135(Repeated 3times)52)hamas announced thursday the end of cease fire with israel since-135(Repeated 1times)53)hamas announced on thursday the end of cease fire and on israel-135(Repeated 3times)54)hamas announced thursday the end of cease fire with israel renew-135(Repeated 3times)55)hamas announced thursday the end of its unilateral cease fire with israel the-135(Repeated 2times)56)hamas announced thursday the end of its unilateral cease fire israel-135(Repeated 7times)57)hamas announced thursday the end of cease fire with israel when-135(Repeated 4times)58)hamas announced thursday the end of cease fire with israel but-135(Repeated3times)59)hamas announced thursday the end of cease fire terms with israel-135(Repeated 3times)60)hamas announced thursday the end of its unilateral cease fire by israel with-135(Repeated 2times)61)hamas announced thursday the end of cease fire with israel defence-135(Repeated 2times)62)hamas announced thursday the end of cease fire with israel even-135(Repeated 3times)63)announced thursday the end of cease fire with israel the-130(Repeated 45times)64)hamas announced on thursday the end of cease fire and on israel to-130(Repeated 2times)65)hamas announced thursday the end of the cease fire against israel with-130(Repeated 1times)66)hamas announced thursday the end of cease fire then israel-130(Repeated 2times)67)hamas announced on thursday the end of its unilateral cease fire by israel with-130(Repeated 2times)68)hamas announced thursday the end of the cease fire with israel since-130(Repeated 1times)69)hamas announced on thursday the end of cease fire with israel since-130(Repeated 1times)70)hamas announced on thursday the end of cese fire hudna with israel-130(Repeated 3times)71)hamas announced on thursday the end of cease fire with israel renew-130(Repeated 2times)72)announced thursday the end of the cease fire with israel-130(Repeated 91times)73)hamas announced thursday the end of cease fire declaration israel-130(Repeated 2times)74)hamas announced on thursday the end of cease fire with israel but-130
  (Repeated 3times)75)announced thursday the end of cease fire with israel and-130(Repeated 54times)76)hamas announced thursday the end of cease fire with israel when in-130(Repeated 3times)77)hamas announced thursday the end of cease fire with israel and pretty-130(Repeated 2times)78)hamas announced thursday the end of its unilateral cease fire by israel-130(Repeated 3times)79)announced on thursday the end of cease fire with israel-130(Repeated 50times)80)hamas announced on thursday the end of cease fire terms with israel-130(Repeated 2times)81)hamas announced thursday the end of cease fire between israel-130(Repeated 3times)82)hamas announced thursday the end of the cease fire with israel but-130(Repeated 3times)83)hamas announced thursday the end of the cease fire with israel defence-130(Repeated 1times)84)hamas announced on thursday the end of its unilateral cease fire israel-130(Repeated 4times)85)hamas announced on thursday the end of its unilatetal cease fire with israelwas-130(Repeated 1times)86)hamas announced thursday the end of cease fire agreement israel-130(Repeated 2times)87)hamas announced thursday the end of cease fire israel should-130(Repeated2times)88)hamas announced on thursday the end of cease fire against israel with-130(Repeated 2times)89)hamas announced thursday the end of cease fire israel conquered-130(Repeated 2times)90)hamas announced thursday the end of its unilateral cease fireisrael is-130(Repeated 3times)91)hamas announced thursday the end of the cease fire and on israel to-130(Repeated 3times)92)hamas announced thursday the end of cease fire by israel with continued-130(Repeated 2times)93)hamas announced on thursday the end of cease fire with israel when-130(Repeated 3times)94)hamas announced on thursday the end of cease fire with israel defense-130(Repeated 2times)95)hamas announced on thursday the end of cease fire with israel even-130(Repeated 1times)96)hamas announced thursday the end of the cease fire with israel even-130(Repeated 2times)97)hamas announced thursday the end of the cease fire with israel renew-130(Repeated 2times)98)and announced thursday the end of cease firewith israel-130(Repeated 12times)99)hamas announced thursday the end of the cease fire terms with israel-130
  (Repeated 2 times)100)announced thursdav the end of cease fire israel-130(Repeated 55 times)
Time so far took 101.26(0)

Claims (12)

1.一种获取关联概念的知识库的方法,其特征在于,所述方法包括步骤:
提供以两种不同的语言表示相同概念的一对文档,其中所述一对文档中的第一个文档以第一种语言表达,所述一对文档中的第二个文档以第二种语言表达;
接收要分析的查询,所述查询以所述第一种语言表达,所述查询由单词或单词串组成;
分析所述一对文档中的所述第一个文档,以识别在所述一对文档中的所述第一个文档中所述查询的所有的出现;
在所述一对文档中的所述第二个文档中选择多个单词范围,所选择的范围对应于在所述一对文档中的所述第一个文档中所述查询的出现;
计算包含在所选择的范围中的单词和单词串的频率;
基于通过所述计算步骤得到的单词和单词串的出现,用表格列出所述频率;及
如果使用所述用表格列出的频率,所述单词和单词串出现在不止一个选择的范围中,则返回所述单词和单词串的出现的列表。
2.如权利要求1所述的方法,其特征在于,如果某单词或单词串是出现在不止一个选择的范围中的较长单词串的子集,则所述计算步骤忽略该单词或单词串的出现。
3.一种获取关联概念的知识库的方法,其特征在于,所述方法包括步骤:
提供以两种不同的语言表示相同概念的多个文档配对,其中多个所述文档配对中的一组以第一种语言表达,所述多个文档配对中的第二组以第二种语言表达;
接收要分析的查询,所述查询以所述第一种语言表达,所述查询由单词或单词串组成;
分析所述多个配对中的所述第一组,以识别在所述第一组中所述查询的所有的出现;
在所述多个配对中的所述第二组中选择多个单词范围,所选择的范围对应于在所述第一组中所述查询的出现;
计算包含在所选择的范围中的单词和单词串的频率;
基于通过所述计算步骤得到的单词和单词串的出现,用表格列出所述频率;及
如果使用所述用表格列出的频率,所述单词和单词串出现在不止一个选择的范围中,则返回所述单词和单词串的出现的列表。
4.如权利要求3所述的方法,其特征在于,如果某单词或单词串是出现在不止一个选择的范围中的较长单词串的子集,则所述计算步骤忽略该单词或单词串的出现。
5.一种获取关联概念的知识库的计算机设备,包括:
提供以两种不同的语言表示相同概念的一对文档的装置,其中所述一对文档中的第一个文档以第一种语言表达,所述一对文档中的第二个文档以第二种语言表达;
接收要分析的查询的装置,所述查询以所述第一种语言表达,所述查询由单词或单词串组成;
分析所述一对文档中的所述第一个文档,以识别在所述一对文档中的所述第一个文档中所述查询的所有的出现的装置;
在所述一对文档中的所述第二个文档中选择多个单词范围的装置,所选择的范围对应于在所述一对文档中的所述第一个文档中所述查询的出现;
计算包含在所选择的范围中单词和单词串的频率的装置;
基于通过所述计算得到的单词和单词串的出现,用表格列出所述频率的装置;及
如果使用所述用表格列出的频率,所述单词和单词串出现在不止一个选择的范围中,则返回所述单词和单词串的出现的列表的装置。
6.如权利要求5所述的计算机设备,其特征在于,如果某单词或单词串是出现在不止一个选择的范围中的较长单词串的子集,则所述计算忽略该单词或单词串的出现。
7.一种获取关联概念的知识库的计算机设备,包括:
提供以两种不同的语言表示相同概念的多个文档配对的装置,其中多个所述文档配对中的一组以第一种语言表达,所述多个文档配对中的第二组以第二种语言表达;
接收要分析的查询的装置,所述查询以所述第一种语言表达,所述查询由单词或单词串组成;
分析所述多个配对中的所述第一组,以识别在所述第一组中所述查询的所有的出现的装置;
在所述多个配对中的所述第二组中选择多个单词范围的装置,所选择的范围对应于在所述第一组中所述查询的出现;
计算包含在所选择的范围中单词和单词串的频率的装置,所述频率基于单词和单词串的出现;
基于通过所述计算得到的单词和单词串的出现,用表格列出所述频率的装置;及
如果使用所述用表格列出的频率,所述单词和单词串出现在不止一个选择的范围中,则返回所述单词和单词串的出现的列表的装置。
8.如权利要求7所述的计算机设备,其特征在于,如果某单词或单词串是出现在不止一个选择的范围中的较长单词串的子集,则所述计算忽略该单词或单词串的出现。
9.一种对关联进行记号化以便进行高效的信息传输的方法,其特征在于,所述方法包括下面的步骤:
创建关联;及
通过指定等价于所述关联的记号来记号化所述关联,
所述创建关联包括:
提供以两种不同的语言表示相同概念的一对文档,其中所述一对文档中的第一个文档以第一种语言表达,所述一对文档中的第二个文档以第二种语言表达;
接收要分析的查询,所述查询以所述第一种语言表达,所述查询由单词或单词串组成;
分析所述一对文档中的所述第一个文档,以识别在所述一对文档中的所述第一个文档中所述查询的所有的出现;
在所述一对文档中的所述第二个文档中选择多个单词范围,所选择的范围对应于在所述一对文档中的所述第一个文档中所述查询的出现;
计算包含在所选择的范围中单词和单词串的频率,如果某单词或单词串是出现在不止一个选择的范围中的较长单词串的子集,则忽略该单词或单词串的出现;
基于通过所述计算步骤得到的单词和单词串的出现,用表格列出所述频率;及
如果使用所述用表格列出的频率,所述单词和单词串出现在不止一个选择的范围中,则返回所述单词和单词串的出现的列表。
10.如权利要求9所述的方法,其特征在于,还包括:
将所述记号从一个位置发送到第二位置或多个第二位置;
在所述第二位置或多个第二位置,分析所述指定的记号来识别所述关联;及
向用户提供所述关联。
11.一种对关联进行记号化以便进行高效的信息传输的方法,其特征在于,所述方法包括下面的步骤:
创建关联;及
通过指定等价于所述关联的记号来记号化所述关联,
所述创建关联包括:
提供以两种不同的语言表示相同概念的多个文档配对,其中所述多个文档配对中的一组以第一种语言表达,所述多个文档配对中的第二组以第二种语言表达;
接收要分析的查询,所述查询以所述第一种语言表达,所述查询由单词或单词串组成;
分析所述多个配对中的所述第一组,以识别在所述第一组中所述查询的所有的出现;
在所述多个配对中的所述第二组中选择多个单词范围,所选择的范围对应于在所述第一组中所述查询的出现;
计算包含在所选择的范围中单词和单词串的频率,如果某单词或单词串是出现在不止一个选择的范围中的较长单词串的子集,则忽略该单词或单词串的出现;
基于通过所述计算步骤得到的单词和单词串的出现,用表格列出所述频率;及
如果使用所述用表格列出的频率,所述单词和单词串出现在不止一个选择的范围中,则返回所述单词和单词串的出现的列表。
12.如权利要求11所述的方法,其特征在于,还包括:
将所述记号从一个位置发送到第二位置或多个第二位置;
在所述第二位置或多个第二位置,分析所述指定的记号来识别所述关联;及
向用户提供所述关联。
CNB038257297A 2002-10-29 2003-09-22 知识系统方法和装置 Expired - Fee Related CN100380373C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/281,997 2002-10-29
US10/281,997 US7711547B2 (en) 2001-03-16 2002-10-29 Word association method and apparatus
US10/659,792 2003-09-11

Publications (2)

Publication Number Publication Date
CN1720524A CN1720524A (zh) 2006-01-11
CN100380373C true CN100380373C (zh) 2008-04-09

Family

ID=35931770

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB038257297A Expired - Fee Related CN100380373C (zh) 2002-10-29 2003-09-22 知识系统方法和装置

Country Status (1)

Country Link
CN (1) CN100380373C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI765322B (zh) * 2020-08-21 2022-05-21 伊斯酷軟體科技股份有限公司 用於軟體專案之知識管理裝置、方法及電腦程式產品

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101178720B (zh) * 2007-10-23 2010-12-15 浙江大学 一种面向互联网微内容的分布式聚类方法
US8615388B2 (en) * 2008-03-28 2013-12-24 Microsoft Corporation Intra-language statistical machine translation
KR101537078B1 (ko) * 2008-11-05 2015-07-15 구글 인코포레이티드 사용자 정의 언어 모델들
CN102193912B (zh) * 2010-03-12 2013-11-06 富士通株式会社 短语划分模型建立方法、统计机器翻译方法以及解码器
CN107169310B (zh) * 2017-03-20 2020-06-26 上海基银生物科技有限公司 一种基因检测知识库构建方法及系统
CN107273503B (zh) * 2017-06-19 2020-07-10 北京百度网讯科技有限公司 用于生成同语言平行文本的方法和装置
CN111709431B (zh) * 2020-06-15 2023-02-10 厦门大学 即时翻译方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5579224A (en) * 1993-09-20 1996-11-26 Kabushiki Kaisha Toshiba Dictionary creation supporting system
US5659765A (en) * 1994-03-15 1997-08-19 Toppan Printing Co., Ltd. Machine translation system
US5677835A (en) * 1992-09-04 1997-10-14 Caterpillar Inc. Integrated authoring and translation system
US5724593A (en) * 1995-06-07 1998-03-03 International Language Engineering Corp. Machine assisted translation tools
US5867811A (en) * 1993-06-18 1999-02-02 Canon Research Centre Europe Ltd. Method, an apparatus, a system, a storage device, and a computer readable medium using a bilingual database including aligned corpora

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5677835A (en) * 1992-09-04 1997-10-14 Caterpillar Inc. Integrated authoring and translation system
US5867811A (en) * 1993-06-18 1999-02-02 Canon Research Centre Europe Ltd. Method, an apparatus, a system, a storage device, and a computer readable medium using a bilingual database including aligned corpora
US5579224A (en) * 1993-09-20 1996-11-26 Kabushiki Kaisha Toshiba Dictionary creation supporting system
US5659765A (en) * 1994-03-15 1997-08-19 Toppan Printing Co., Ltd. Machine translation system
US5724593A (en) * 1995-06-07 1998-03-03 International Language Engineering Corp. Machine assisted translation tools

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI765322B (zh) * 2020-08-21 2022-05-21 伊斯酷軟體科技股份有限公司 用於軟體專案之知識管理裝置、方法及電腦程式產品
US11704625B2 (en) 2020-08-21 2023-07-18 Iscoollab Co., Ltd. Knowledge management device, method, and computer program product for a software project

Also Published As

Publication number Publication date
CN1720524A (zh) 2006-01-11

Similar Documents

Publication Publication Date Title
US8818789B2 (en) Knowledge system method and apparatus
US8874431B2 (en) Knowledge system method and apparatus
Balsmeier et al. Machine learning and natural language processing on the patent corpus: Data, tools, and new measures
US10482115B2 (en) Providing question and answers with deferred type evaluation using text with limited structure
US20220138572A1 (en) Systems and Methods for the Automatic Classification of Documents
Xu Bootstrapping relation extraction from semantic seeds
CN100380373C (zh) 知识系统方法和装置
Da et al. Deep learning based dual encoder retrieval model for citation recommendation
Majdik et al. Building Better Machine Learning Models for Rhetorical Analyses: The Use of Rhetorical Feature Sets for Training Artificial Neural Network Models
Alwaneen et al. Stacked dynamic memory-coattention network for answering why-questions in Arabic
Hu An evaluation of online database selection by a gateway system with artificial intelligence techniques
Latifi Using natural language processing for question answering in closed and open domains
Enkhsaikhan Geological Knowledge Graph Construction from Mineral Exploration Text
Belov et al. Intellectual texts processing in socioeconomic applications
Neumann et al. Mining natural language answers from the web
Preciado-Barón Recommendation System for Issues Found in R&D
SALEH Improving Resource-constrained Machine Translation and Text Generation Using Knowledge Transition
Rahman Clustering of Neural Document Embeddings for Machine Generation of Search Extension Terms in Finnish in the Public Procurement Domain
ALEMAYEHU BI-DIRECTIONAL NEURAL MACHINE TRANSLATION FOR ENGLISH-SIDAAMU AFOO
Pasca Web search queries as a corpus
Asselborn et al. Fine-tuning BERT Models on Demand for Information Systems Explained Using Training Data from Pre-modern Arabic
Wang et al. Learning Interpretable and Discrete Representations with Adversarial Training for Unsupervised Text Classification
Cakaloglu Multi-Resolution Models for Learning Multilevel Abstract Representation with Application to Information Retrieval
WO2005036303A2 (en) Knowledge system method and apparatus
Mohammed The Limited Effectiveness of Neural Networks for Simple Question Answering on Knowledge Graphs

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee