CN106776590A - 一种获取词条译文的方法及系统 - Google Patents

一种获取词条译文的方法及系统 Download PDF

Info

Publication number
CN106776590A
CN106776590A CN201611199556.3A CN201611199556A CN106776590A CN 106776590 A CN106776590 A CN 106776590A CN 201611199556 A CN201611199556 A CN 201611199556A CN 106776590 A CN106776590 A CN 106776590A
Authority
CN
China
Prior art keywords
language
translation
sentence
bilingual sentence
bilingual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611199556.3A
Other languages
English (en)
Inventor
武英波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Original Assignee
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Office Software Inc, Zhuhai Kingsoft Office Software Co Ltd filed Critical Beijing Kingsoft Office Software Inc
Priority to CN201611199556.3A priority Critical patent/CN106776590A/zh
Publication of CN106776590A publication Critical patent/CN106776590A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation

Abstract

本发明提供了一种获取词对译文的方法,接收待处理词条,根据待处理词条所属的第一语言种类以及所需翻译的译文所属的第二语言种类,确定出双语句对索引资源库。以至少两个候选双语句对作为译文处理组,依据该双语句对索引资源库,在至少一个译文处理组中,进行第一语言公共部分的查找;如果在至少一个译文处理组中的任意一个译文处理组中查找得到第一语言的公共部分,则在查找到第一语言的公共部分的译文处理组中,查找得到第二语言的公共部分,将该第二语言的公共部分作为待处理词条的译文。利用索引的方式减少了数据处理的工作量,提高了获取译文的效率。本发明还提供了一种获取词对译文的系统。

Description

一种获取词条译文的方法及系统
技术领域
本发明涉及语言信息转换领域,特别是涉及一种获取词条译文的方法及系统。
背景技术
随着全球的国际化,越来越多的文化交流在世界范围内发生,越来越多的中国人使用英语或其他语言与外国人交流,作为以中文为母语的中国人,在外语的口语、书面语中,经常遇到不知道如何表达才是地道的表达方式,不知道某外国人名应该如何拼写,不知道某些中文固定搭配应该如何翻译成外文等等。同样,外国人在使用中文时也常常遇到相同的问题。为解决此类问题,传统的方法是通过查阅各种人工构造的词典,人工构造的词典,虽然具有很高的可信性,但人工构造词典,成本高、词典更新频率低,不能及时地收录新词的翻译。
随着互联网、信息技术的飞速发展,在计算机领域出现了新的双语词典构建方法,其不再依赖于传统的人工词典,提高了效率、新词更新频率高,并且对于使用者来说极为便利。现有的双语词典自动构建的方法主要有:基于模式匹配的方法和基于词对齐方法。其中,基于模式匹配的方法是按照特定的模式(模块),从文本中抽取特定形式的文本,“括号解释型”是其中一种,“单行解释型”也是基于模式匹配的方法。以括号解释型为例,假设待抽取文本为“这个品牌的矿泉水(mineral water)品质优秀…”,按照括号定义的模式,可以抽取出“矿泉水-mineral water”这样的翻译词对。基于模式匹配的方法,其优点是能够抽取出网页上存在的新词及译文,而且词典规模随着处理网页数量的增大而增大。但缺点也很明显,那就是互联网的数据鱼龙混杂,良莠不齐,而且基于固定模式获得的翻译对未必都是高质量的译文。以“括号型解释型”为例,有些括号内的内容与之前的正文之间并不是翻译关系,这样提取的“翻译对”显然不准确。并且这种方法需要做较多的后续处理,比如去除冗余、干扰信息。因此这种方法的准确率通常受到网页质量的限制。
基于词对齐方法:词对齐是指将双语文本(比如中英)中互为翻译关系的词标识出而得到的结果。词对齐方法有多种,公知的有规则方法、统计方法及词典方法等。在现有技术中使用最广泛,技术最先进的是统计词对齐方法。统计词对齐方法的基本原理是:计算双语句对中词与词之间的“翻译概率”,概率的计算是基于“统计机器翻译模型”理论得到,并且需要迭代计算若干次。在得到词对齐的基础上,利用对角线法,可以抽取翻译短语。所谓对角线法,指的是将双向对齐词(比如中英、英中对齐词)组成一个矩阵(如图1),矩阵中有值的位置表示对齐关系。以图1为例,通过对角线的判定,可以认为“工业训练中心”与“industrial training centers”是对译关系。
统计词对齐方法得出的翻译结果不一定是真正意义的“短语”,可能是“are ofthe”这样的字符串。统计词对齐方法的另一个缺点是,由于要考虑全局信息,即多次迭代求概率,使得一些小的错误会导致其它的短语对齐。以上面的例子为例,若“训练”与“industrial”对应上的话,“中心”很有可能与“training”相对应,这样会导致错误传播。因此,统计词对齐方法虽然较之前的各种方法先进,但因为需要多次迭代求概率,需要处理的数据量大,处理时间长,需要对全部双语句子进行数次处理,才能确定最终结果。如对于300万对规模的句子,在服务器上进行处理,通常需要处理3-4天才有结果,同时可能会发生对齐错误,影响翻译结果的准确性。
发明内容
本发明所要解决的技术问题是提供一种获取词条译文的方法及系统,提高译文生成效率,提高译文结果的准确度。
为了解决上述问题,本发明实施例公开了一种获取词条译文的方法,包括步骤:
接收待处理词条,确定待处理词条所属的第一语言种类以及所需翻译的译文所属的第二语言种类;
根据所述第一语言种类和所述第二语言种类,确定双语句对索引资源库;其中,所述双语句对索引资源库中包括多个双语句对,且所述双语句对中的一个语句的语言种类为所述第一语言种类,另一个语句的种类为所述第二语言种类;
以至少两个候选双语句对作为译文处理组,在至少一个所述译文处理组中,进行第一语言公共部分的查找;其中,所述第一语言公共部分为所述第一语言的各个语句中共同包括的内容,且该内容与所述待处理词条一致;所述候选双语句对为以所述待处理词条为索引,利用所述双语句对索引资源库检索得到的符合检索条件要求的双语句对;
如果在所述至少一个译文处理组中的任意一个译文处理组中查找得到所述第一语言的公共部分,则在查找到所述第一语言的公共部分的译文处理组中,查找得到第二语言的公共部分,将该第二语言的公共部分作为所述待处理词条的译文;其中,所述第二语言的公共部分为所述第二语言的各个语句中共同包括的内容。
可选的,所述以至少两个候选双语句对作为译文处理组,在至少一个所述译文处理组中,进行第一语言公共部分的查找,具体包括:
以所述待处理词条为索引,利用所述双语句对索引资源库检索得到符合检索条件要求的各个双语句对;
从检索得到的双语句对中,以至少两个候选双语句对作为译文处理组,并对该译文处理组中的所述至少两个候选双语句对,查找各个第一语言语句中相同的最长公共子串,并将该最长公共子串与所述待处理词条进行比较,如果二者内容一致,则将所述最长公共子串作为所述第一语言公共部分,否则,返回本步骤,直至查找得到所述第一语言公共部分或对检索得到的各个双语句对均执行完本步骤为止。
可选的,所述以至少两个候选双语句对作为译文处理组,在至少一个所述译文处理组中,进行第一语言公共部分的查找,具体包括:
以所述待处理词条为索引,利用所述双语句对索引资源库检索得到符合检索条件要求的各个双语句对;
从检索得到的双语句对中,以至少两个候选双语句对作为译文处理组,并对该译文处理组中的所述至少两个候选双语句对,分别查找各个第一语言语句中是否包含和所述待处理词条相同的子串,如果均包含,则将所述子串作为所述第一语言公共部分,否则,返回本步骤,直至查找得到所述第一语言公共部分或对检索得到的各个双语句对均执行完本步骤为止。
可选的,所述以至少两个候选双语句对作为译文处理组,包括:
在所述候选双语句对中,从未进行过所述第一语言公共部分查找的候选双语句对中选择至少两个作为译文处理组;或者,
在所述候选双语句对中,从未进行过所述第一语言公共部分查找的候选双语句对中选择至少一个双语句对作为所述译文处理组中的至少一个双语句对,所述译文处理组中的其余双语句对为进行过所述第一语言公共部分查找的双语句对。
可选的,所述至少两个候选双语句对为2个。
可选的,所述第一语言为汉语且第二语言为英语,或,所述第一语言为英语且第二语言为汉语。
可选的,如果查找得到多个第一语言公共部分,则按照所述多个第一语言公共部分的频度高低排序,相应的提供分别与所述多个第一语言公共部分各自对应所述译文;
或者,根据预定阈值,从所述多个第一语言公共部分中确定满足要求的第一语言公共部分,并提供所述满足要求的第一语言公共部分各自对应的所述译文。
可选的,该方法还包括:
获取双语句对资源;
对所述双语句对资源进行预处理;
根据预处理后的双语句对建立索引,形成双语句对索引资源库。
可选的,所述建立索引的具体过程为:
采用倒排索引法对所述双语句对建立索引。
可选的,接收待处理词条后还包括步骤:
对所述待处理词条进行分词处理。
可选的,从双语句对索引资源库中检索出候选双语句对后,还包括步骤:
根据字串包含算法过滤所述候选双语句对,形成更精确的检索结果。
本发明实施例公开了一种获取词条译文获取词条译文的系统,包括:
接收单元,用于接收待处理词条,确定待处理词条所属的第一语言种类以及所需翻译的译文所属的第二语言种类;
双语句对索引资源库确定单元,用于根据所述第一语言种类和所述第二语言种类,确定双语句对索引资源库;其中,所述双语句对索引资源库中包括多个双语句对,且所述双语句对中的一个语句的语言种类为所述第一语言种类,另一个语句的种类为所述第二语言种类;
第一语言公共部分查找单元,用于以至少两个候选双语句对作为译文处理组,在至少一个所述译文处理组中,进行第一语言公共部分的查找;其中,所述第一语言公共部分为所述第一语言的各个语句中共同包括的内容,且该内容与所述待处理词条一致;所述候选双语句对为以所述待处理词条为索引,利用所述双语句对索引资源库检索得到的符合检索条件要求的双语句对;
译文确定单元,用于如果在所述至少一个译文处理组中的任意一个译文处理组中查找得到所述第一语言的公共部分,则在查找到所述第一语言的公共部分的译文处理组中,查找得到第二语言的公共部分,将该第二语言的公共部分作为所述待处理词条的译文;其中,所述第二语言的公共部分为所述第二语言的各个语句中共同包括的内容。
可选的,还包括索引生成单元,所述索引生成单元包括:
获取单元,用于获取双语句对资源;
处理单元,用于对双语句对资源进行预处理;
第二生成单元,用于根据预处理后的双语句对建立索引,形成双语句对索引资源库。
可选的,还包括:
分词处理单元,用于对待处理词条进行分词处理。
可选的,还包括:
过滤单元,用于根据字串包含算法过滤所述候选双语句对,形成更精确的检索结果。
可选的,还包括:
译文处理单元,用于对译文进行整理、排序、筛选;
译文输出单元,用于输出处理后的译文。
与现有技术相比,本发明具有以下优点:
本发明利用索引的方式减少了数据处理的工作量,不需要对全部双语句子进行数遍处理,对于每个待处理词条,通过检索技术,仅仅处理少量与待处理词条相关的双语句子即可获得相应译文,提高了获取译文的效率;并且,由于仅仅考察局部信息,避免了传统统计词对齐方法中考察全局信息而受到较多的干扰,因此,本方法获得的译文更为精准。
附图说明
图1是现有技术中双向对齐词所组成的一个矩阵的示意图;
图2是本发明一种获取词条译文的方法第一实施例的流程图;
图3是实施例索引资源库建立方法的流程图;
图4是本发明一种获取词条译文的方法第二实施例的流程图;
图5是本发明一种获取词条译文的方法第三实施例的流程图;
图6是本发明一种获取词条译文的方法第四实施例的流程图;
图7是本发明一种获取词条译文系统第一实施例的结构框图;
图8是本发明一种获取词条译文系统第三实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、以及包括以上任何系统或设备的分布式计算环境等等。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本发明中所述词对/词条可以是一个词组,也可以是多个词组,还可以是一个单词或一个短语。
本发明可以适用于各种双语转换的情景,如中英转换、中韩转换、德英转换、德法转换……,为了便于理解,本发明中以中英转换为例进行说明,可以理解,其并不构成对本发明应用场景的限制,对于其他语种,基于同样的原理一样可以适用。
参照图2,示出了本发明一种获取词条译文的方法第一实施例的流程图,包括步骤:
步骤201、接收待处理词条,确定待处理词条所属的第一语言种类以及所需翻译的译文所属的第二语言种类。
所述待处理词条可以是一个词组,也可以是多个词组,还可以是一个单词或一个短语,所述待处理词条所属的第一语言种类可以是中文也可以是英文,当然,也可以是其他语言类别,如日本语、朝鲜语、德语、法语等,都可以基于本发明同样的原理而获取相应的译文。例如,待处理词条所属的第一语言为中文,译文所属的第二语言为英文,或者待处理词条所属的第一语言为英文,译文所属的第二语言为中文。
步骤202、根据所述第一语言种类和所述第二语言种类,确定双语句对索引资源库。
其中,所述双语句对索引资源库中可以包括多个双语句对,且所述双语句对中的一个语句的语言种类为所述第一语言种类,另一个语句的种类为所述第二语言种类。
步骤203、以至少两个候选双语句对作为译文处理组,在至少一个所述译文处理组中,进行第一语言公共部分的查找。
举例说明,所述第一语言公共部分可以是所述第一语言的各个语句中共同包括的内容,且该内容与所述待处理词条一致。所述候选双语句对可以是以所述待处理词条为索引,利用所述双语句对索引资源库检索得到的符合检索条件要求的双语句对。
在本发明实施例中,可以根据待处理词条从索引资源库中检索出候选双语句对。
当待处理词条是一个单词时,可以不需要对所述待处理词条进行处理,直接以所述接收的待处理词条为目标在索引资源库中检索。
当待处理词条为词组或短语时或其他需要处理的情形时,在根据待处理词条从索引资源库中检索出候选双语句对之前还进一步包括:对所述待处理词条进行分词处理。
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子“I am a student”,用中文则为“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词。例如,我是一个学生,分词的结果是:我是一个学生。
下面介绍一些常用的中文分词方法:
1、基于字符串匹配的分词方法:是指按照一定的策略将待分析的汉字串与一个预置的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。
2、基于特征扫描或标志切分的分词方法:是指优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率;或者将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而提高切分的准确率。
3、基于理解的分词方法:是指通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。
4、基于统计的分词方法:是指中文信息中由于字与字相邻共现的频率或概率能够较好的反映成词的可信度,所以可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息,以及计算两个汉字X、Y的相邻共现概率。互现信息可以体现汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典。
利用索引的目的是减少计算的规模,提高效率。本发明采用倒排索引法,以“相互依赖”为例,分词处理后为“相互依赖”,然后再进行倒排检索。假设“相互”出现的句子有{5,99,101,238,1185,1382,1497},“依赖”出现的句子有{7,11,99,238,1100,1382},通过求并集即可知道“相互”“依赖”共同出现的句子有{99,238,1382}。
进一步,进行初步检索以后,再对所述检索结果进行进一步的处理,如再结合位置信息,通过“相互”与“依赖”出现的前后关系,还可以缩小范围。利用倒排索引能够有效地缩小处理范围,提高效率。
进一步,根据字串包含算法过滤所述候选双语句对,形成更精确的检索结果。比如待处理词条为“相互依赖”,如果中文中的表述为“…相互依存和依赖…”,虽然能够检索出来,但是不满足字串包含算法,必须过滤掉。
当候选双语句对有多个时,可以将该多个候选双语句对以译文处理组为单位进行后续操作,一个译文处理组可以包括至少两个候选双语句对,所述至少两个候选双语句对可以为2个。
其中,译文处理组中的候选双语句,可以是在所述候选双语句对中,从未进行过所述第一语言公共部分查找的候选双语句对中选择至少两个作为译文处理组;或者,在所述候选双语句对中,从未进行过所述第一语言公共部分查找的候选双语句对中选择至少一个双语句对作为所述译文处理组中的至少一个双语句对,所述译文处理组中的其余双语句对为进行过所述第一语言公共部分查找的双语句对。
在本发明实施例中,可以在至少一个译文处理组中查找第一语言公共部分,接下来将以两种可行的方式对查找第一语言公共部分的具体过程展开介绍。
第一种具体的查找方式可以包括:
以所述待处理词条为索引,利用所述双语句对索引资源库检索得到符合检索条件要求的各个双语句对;
从检索得到的双语句对中,以至少两个候选双语句对作为译文处理组,并对该译文处理组中的所述至少两个候选双语句对,查找各个第一语言语句中相同的最长公共子串,并将该最长公共子串与所述待处理词条进行比较,如果二者内容一致,则将所述最长公共子串作为所述第一语言公共部分,否则,返回本步骤,直至查找得到所述第一语言公共部分或对检索得到的各个双语句对均执行完本步骤为止。
以两个候选双语句作为译文处理组为例,为了后续方便介绍,可以将候选双语句对简称为双语句对。
当待处理词条为中文时,则获取双语句对中中文句的最长公共子串,当待处理句对为英文时,则获取双语句对中英文的最长公共子串,即获取与待处理词条语言类型相同句的最长公共子串。
对符合条件的双语句对,选择2个双语句对,根据最长公共子串算法(LCS)获取2个双语句对中2个中文句对的最长公共子串,根据改进的最长公共子串算法(ILCS)获取2个双语句对中2个英文句对的最长公共子串。LCS是求两个字符串最长公共子串的算法。利用一个矩阵来记录两个字符串中所有位置的两个字符之间的匹配情况,若是匹配则为1,否则为0。然后求出对角线最长的1序列,其对应的位置就是最长匹配子串的位置。改进的最长公共子串算法将在后面进行详细的介绍。
将该最长公共子串与待处理词条进行比较,可以通过判断过程,即判断该最长公共子串与待处理词条是否一致,如果不一致,则再次重复本步骤;如果一致,则进入下一步骤。
当待处理词条为中文时,判断所述2个双语句对中中文句对的最长公共子串是否与待处理词条一致,如果不一致,则重复本步骤,再次选择一个译文处理组,获取中文句对的最长公共子串,如果一致,则进入下一步骤。当待处理词条为英文时,判断所述2个英文句对的最长公共子串是否与待处理词条一致,如果不一致,则重复本步骤,再次选择一个译文处理组,获取英文句对的最长公共子串,如果一致,则进入下一步骤。
第二种具体的查找方式可以包括:
以所述待处理词条为索引,利用所述双语句对索引资源库检索得到符合检索条件要求的各个双语句对;
从检索得到的双语句对中,以至少两个候选双语句对作为译文处理组,并对该译文处理组中的所述至少两个候选双语句对,分别查找各个第一语言语句中是否包含和所述待处理词条相同的子串,如果均包含,则将所述子串作为所述第一语言公共部分,否则,返回本步骤,直至查找得到所述第一语言公共部分或对检索得到的各个双语句对均执行完本步骤为止。
步骤204、如果在所述至少一个译文处理组中的任意一个译文处理组中查找得到所述第一语言的公共部分,则在查找到所述第一语言的公共部分的译文处理组中,查找得到第二语言的公共部分,将该第二语言的公共部分作为所述待处理词条的译文;其中,所述第二语言的公共部分为所述第二语言的各个语句中共同包括的内容。
以2个双语句对为例,第二语言公共部分即为2个双语句对中对应句的最长公共子串,该最长公共子串即为待处理词条所需翻译的译文。
当查找到第一语言的公共部分时,则获取所述2个双语句对中对应句的最长公共子串,如双语句对为中英句对,待处理词条为中文时,则获取英文句子的最长公共子串;当双语句对为德法句对,待处理词条为德文时,则获取法文句子的最长公共子串。
中文根据最长公共子串算法获取,英文、德文等不需要分词的句子则根据改进的最长公共子串算法获取。
本实施例所述技术方案是以索引资源库已经存在为前提的,建立双语句对的索引资源库是本发明的前提条件。下面对本发明建立索引资源库的技术方案进行一个详细描述,参照图3、示出了本发明中索引资源库建立方法的流程图,包括步骤:
步骤301、获取双语句对资源。
获取双语句对资源的方法有很多,如可以从互联网在线获取,也可以通过人工输入,还有其他很多种方法,本发明不对此进行一一限定。
步骤302、对所述双语句对资源进行预处理。
预处理的目的是将文本规范化,去除无用、干扰的信息。预处理的具体方式根据实际需要进行限定,在本发明实施例中,预处理主要包括:中文全半角转换、中文自动分词、英文tokenizing、英文大小写同一处理、编码乱码过滤等。
步骤303、根据预处理后的双语句对建立索引,形成双语句对索引资源库。
建立索引有很多种方法,如倒排索引方法、hashing mask方法,本发明实施例优选采用倒排索引方法建立索引,下面通过实例对采用倒排索引法建立索引的过程进行介绍。
假设有两个句子1和2:
句子1的内容为:Tom lives in Guangzhou,I live in Guangzhou too.
句子2的内容为:He once lived in Shanghai.
1)由于倒排索引是基于关键词索引和查询的,首先需要获取这两个句子的关键词,需要进行如下处理措施:
a、先要确定字符串中的所有单词,即分词,分词技术在前面已经进行介绍,为了节约篇幅,在此不再予以详述。
b、句子中的“in”,“once”“too”等词没有什么实际意义,中文中的“的”“是”等字通常也无具体含义,过滤掉所述不代表概念的词。
c、通常希望查询“He”时能把含“he”,“HE”的句子也找出来,对所有单词统一大小写。
d、通常希望查询“live”时能把含“lives”,“lived”的句子也找出来,所以需要把“lives”,“lived”还原成“live”。
e、句子中的标点符号通常不表示某种概念,也可以过滤掉。
经过所述处理后:句子1的所有关键词为:[tom][live][guangzhou][i][live][guangzhou];句子2的所有关键词为:[he][live][shanghai]。
2)有了关键词后,开始建立倒排索引。上面的对应关系是:“句子号”对“句子中所有关键词”。倒排索引将所述关系倒过来,变成:“关键词”对“拥有该关键词的所有句子号”。句子1,2经过倒排后变成:
关键词句子号
guangzhou 1
he 2
i 1
live 1,2
shanghai 2
tom 1
通常仅知道关键词在哪些句子中出现还不够,我们还需要知道关键词在句子中出现次数和出现的位置,通常有两种位置:a)字符位置,即记录该词是句子中第几个字符(优点是关键词亮显时定位快);b)关键词位置,即记录该词是句子中第几个关键词(优点是节约索引空间、词组(phase)查询快),倒排检索中记录的就是这种位置。
加上“出现频率”和“出现位置”信息后,所述索引结构变为:
关键词句子号[出现频率]出现位置
guangzhou 1[2]3,6
he 2[1]1
i 1[1]4
live 1[2],2[1]2,5,2
shanghai 2[1]3
tom 1[1]1
以live这行为例说明所述索引结构:live在句子1中出现了2次,句子2中出现了一次,它的出现位置为“2,5,2”这表示什么呢?结合句子号和出现频率来分析,句子1中出现了2次,那么“2,5”就表示live在句子1中出现的两个位置,句子2中出现了一次,剩下的“2”就表示live是句子2中第2个关键字。
通过以上方案建立索引后,如果需要查找哪些句子中含有live时,只需要获取该关键词对应的句子号1,2即可。
通过建立索引资源库以及结合索引技术,有利于快速检索,提高效率。
在本发明实施例中,改进的最长公共子串算法是针对英文字符串匹配子串的算法,下面描述其算法:
#16common=common+v1[answer-len+i]+""。
产生与待处理词条对应的译文后,为了得到更好的结果,还可以包括以下步骤:
将所述子串插入译文列表。
对译文进行整理、排序、筛选。
去除抽取译文中的首尾多余标点、空格等符号。对译文进行排序,计算译文列表中同一译文出现的次数,然后按照次数由高到低对译文进行排序。本发明仅仅认为字符串相同的译文为同一译文。当然,判断标准不应局限于本发明所述的方法,比如认为大小写不敏感的单词即为相同,或者认为所有单词原形相同即可,或者认为某些冠词(如the,a)不影响判别单词相同等,皆适用于本发明。
译文筛选,筛选有多种方法,本发明优选采用以下2种:一是利用“停用词词表”过滤译文,停用词词表可以人为指定,通常为“the”,“of”,“of the”等常见虚词或虚词组合;第二种是根据排序和排序的分值筛选,低于某一值或者某一百分比的部分被舍弃。
输出所述处理后的译文。
参照图4,示出了本发明一种获取词条译文的方法第二实施例的流程图,所述实施例中待处理词条为中文,包括步骤:
步骤401、接收待处理中文词条,确定待处理词条所需翻译的译文所属的第二语言种类。
待处理词条是中文时,即待处理词条所属的第一语言种类为中文。
所述词条可以是一个词组,也可以是多个词组,还可以是一个单词或一个短语。
步骤402、根据所述中文和所述第二语言种类,确定双语句对索引资源库。
其中,所述双语句对索引资源库中可以包括多个双语句对,且所述双语句对中的一个语句的语言种类为中文,另一个语句的种类为所述第二语言种类。
步骤403、以至少两个候选双语句对作为译文处理组,在至少一个所述译文处理组中,进行中文公共部分的查找。
其中,所述中文公共部分为所述中文的各个语句中共同包括的内容,且该内容与所述待处理词条一致;所述候选双语句对为以所述待处理词条为索引,利用所述双语句对索引资源库检索得到的符合检索条件要求的双语句对。
在本发明实施例中,可以根据待处理中文词条从索引资源库中检索出候选双语句对。
当待处理词条是一个中文单词时,可以不需要对所述待处理词条进行处理,直接以所述接收的待处理词条为目标在索引资源库中检索。
当待处理词条为词组或短语时或其他需要处理的情形时,在根据待处理中文词条从索引资源库中检索出候选双语句对之前还进一步包括:
对所述待处理中文词条进行分词处理。所述分词处理技术在前面已进行了详细描述,为了篇幅考虑,在此不再介绍。
根据待处理中文词条从索引资源库中检索出候选双语句对后,为了提高效率和精确度,还可以进行进一步的处理,因此还可以包括步骤:过滤所述候选双语句对。即要求所述待处理词条必须是双语句对中文句的字串(字串包含算法),如果不满足,则过滤掉。
查找中文公共部分的方式与查找第一语言公共部分的方式类似,下面仅以第一种查找方式为例,对查找中文公共部分的方式进行简要介绍。
以2个候选双语句对作为译文处理组为例,为了后续方便介绍,可以将候选双语句对简称为双语句对。获取2个双语句对中中文句的最长公共子串,判断所述最长公共子串是否与待处理词条一致,如果不一致,则再次从检索结果中选择一个译文处理组,重复本步骤;如果一致,则进入下一步骤。
假设选择的2个双语句对为(c1,e1)和(c2,e2),先判断c1与c2的最长公共子串(根据LCS算法)是否与待处理中文词条一致,如果不一致,则再次选择一个译文处理组,重复本步骤。如果c1与c2的最长公共子串与待处理中文词条一致,则进入下一步骤。
步骤404、如果在所述至少一个译文处理组中的任意一个译文处理组中查找得到所述中文公共部分,则在查找到所述中文公共部分的译文处理组中,查找得到第二语言的公共部分,将该第二语言的公共部分作为所述待处理词条的译文;其中,所述第二语言的公共部分为所述第二语言的各个语句中共同包括的内容。
以2个双语句对为例,第二语言公共部分即为2个双语句对中对应句的最长公共子串,该最长公共子串即为待处理词条所需翻译的译文。
以第二语言种类为英文为例,根据改进的最长公共子串算法(iLCS)获取所述符合条件的2个双语句对中的英文句的最长公共子串,所述最长公共子串即为待处理中文词条的英文译文。
本实施例所述技术方案是以索引资源库已经存在为前提的,建立双语句对的索引资源库是本发明的前提条件。因此,在本发明实施例中,还可以包括建立双语句对索引资源库的步骤,所述详细过程已经在前面描述过,因此不再介绍。
参照图5,示出了本发明一种获取词条译文的方法第三实施例的流程图,所述实施例中待处理词条为英文,包括步骤:
步骤501、接收待处理英文词条,确定待处理词条所需翻译的译文所属的第二语言种类。
待处理词条是英文时,即待处理词条所属的第一语言种类为英文。
所述词条可以是一个词组,也可以是多个词组,还可以是一个单词或一个短语。
步骤502、根据所述英文和所述第二语言种类,确定双语句对索引资源库。
其中,所述双语句对索引资源库中可以包括多个双语句对,且所述双语句对中的一个语句的语言种类为英文,另一个语句的种类为所述第二语言种类。
步骤503、以至少两个候选双语句对作为译文处理组,在至少一个所述译文处理组中,进行英文公共部分的查找。
其中,所述英文公共部分为所述英文的各个语句中共同包括的内容,且该内容与所述待处理词条一致;所述候选双语句对为以所述待处理词条为索引,利用所述双语句对索引资源库检索得到的符合检索条件要求的双语句对。
在本发明实施例中,可以根据待处理英文词条从索引资源库中检索出候选双语句对。
当待处理词条是一个英文单词时,可以不需要对所述待处理词条进行处理,直接以所述接收的待处理词条为目标在索引资源库中检索。
当待处理词条为词组或短语时或其他需要处理的情形时,在根据待处理英文词条从索引资源库中检索出候选双语句对之前还进一步包括:
对所述待处理英文词条进行分词处理。由于英文单词都是以空格隔开的,因此对英语词组进行分词是很容易实现的。
查找英文公共部分的方式与查找第一语言公共部分的方式类似,下面仅以第一种查找方式为例,对查找英文公共部分的方式进行简要介绍。
以2个候选双语句对作为译文处理组为例,为了后续方便介绍,可以将候选双语句对简称为双语句对。
根据改进的最长公共子串算法(iLCS)获取所述2个双语句对的英文句的最长公共子串,判断所述最长公共子串是否与待处理英文词条一致,如果不一致,则再次从检索结果中选择一个译文处理组,重复本步骤;如果一致,则进入下一步骤。
假设选择的2个双语句对为(c1,e1)和(c2,e2),先判断e1与e2的最长公共子串是否与待处理英文词条一致,如果不一致,则再次选择一个译文处理组,重复本步骤。如果e1与e2的最长公共子串与待处理英文词条一致,则进入下一步骤。
步骤504、如果在所述至少一个译文处理组中的任意一个译文处理组中查找得到所述英文公共部分,则在查找到所述英文公共部分的译文处理组中,查找得到第二语言的公共部分,将该第二语言的公共部分作为所述待处理词条的译文;其中,所述第二语言的公共部分为所述第二语言的各个语句中共同包括的内容。
以2个双语句对为例,第二语言公共部分即为2个双语句对中对应句的最长公共子串,该最长公共子串即为待处理词条所需翻译的译文。
以第二语言种类为中文为例,根据最长公共子串算法(LCS)获取所述符合条件的2个双语句对中的中文句的最长公共子串,所述最长公共子串即为待处理英文词条的中文译文。
本实施例所述技术方案是以索引资源库已经存在为前提的,建立双语句对的索引资源库是本发明的前提条件。因此,在本发明实施例中,还可以包括建立双语句对索引资源库的步骤,所述详细过程已经在前面描述过,因此不再介绍。
参照图6,示出了本发明一种获取词条译文的方法第四实施例的流程图,确定出待处理词条所需翻译的译文后,考虑到可能会出现在没有将得到的各个候选双语句对作为译文处理组进行处理,便查找到第一语言公共部分,故此为了确保得到的各个候选双语句对均被处理,可以增加相应的判断步骤。并且考虑到查找到的第一语言公共部分的个数可以是一个或多个,当第一语言公共部分的个数是一个时,依据于第一实施例中的操作可以确定出待处理词条的一个译文。当第一语言公共部分的个数是多个(至少两个)时,可以设置相应的条件,对多个第一语言公共部分进行处理,从而提供处理后得到的第一语言公共部分对应的译文。具体包括步骤:
步骤601、接收待处理词条,确定待处理词条所属的第一语言种类以及所需翻译的译文所属的第二语言种类。
所述待处理词条可以是一个词组,也可以是多个词组,还可以是一个单词或一个短语,所述待处理词条所属的第一语言种类可以是中文也可以是英文,当然,也可以是其他语言类别,如日本语、朝鲜语、德语、法语等,都可以基于本发明同样的原理而获取相应的译文。
步骤602、根据所述第一语言种类和所述第二语言种类,确定双语句对索引资源库。
其中,所述双语句对索引资源库中可以包括多个双语句对,且所述双语句对中的一个语句的语言种类为所述第一语言种类,另一个语句的种类为所述第二语言种类。
步骤603、以两个候选双语句对作为译文处理组,在至少一个所述译文处理组中,进行第一语言公共部分的查找。
举例说明,所述第一语言公共部分可以是所述第一语言的各个语句中共同包括的内容,且该内容与所述待处理词条一致;所述候选双语句对可以是以所述待处理词条为索引,利用所述双语句对索引资源库检索得到的符合检索条件要求的双语句对。
在本发明实施例中,可以根据待处理词条从索引资源库中检索出候选双语句对。
当待处理词条是一个单词时,可以不需要对所述待处理词条进行处理,直接以所述接收的待处理词条为目标在索引资源库中检索。
当待处理词条为词组或短语时或其他需要处理的情形时,在根据待处理词条从索引资源库中检索出候选双语句对之前还进一步包括:对所述待处理词条进行分词处理。
本实施例中查找第一语言公共部分的方式与第一实施例中查找第一语言公共部分的方式类似,下面仅以第一种查找方式为例,对查找第一语言公共部分的方式进行简要介绍。为了后续方便介绍,可以将候选双语句对简称为双语句对。
当待处理词条为中文时,则获取双语句对中中文句的最长公共子串,当待处理句对为英文时,则获取双语句对中英文的最长公共子串,即获取与待处理词条语言类型相同句的最长公共子串。
将该最长公共子串与待处理词条进行比较,可以通过判断过程,即判断该最长公共子串与待处理词条是否一致,如果不一致,则再次重复本步骤;如果一致,则进入下一步骤。
当待处理词条为中文时,判断2个双语句对中中文句对的最长公共子串是否与待处理词条一致,如果不一致,则再次选择一个译文处理组,重复本步骤,获取中文句对的最长公共子串,如果一致,则进入下一步骤。当待处理词条为英文时,判断2个双语句对中英文句对的最长公共子串是否与待处理词条一致,如果不一致,则再次选择一个译文处理组,重复本步骤,获取英文句对的最长公共子串,如果一致,则进入下一步骤。
步骤604、如果在所述至少一个译文处理组中的任意一个译文处理组中查找得到所述第一语言的公共部分,则在查找到所述第一语言的公共部分的译文处理组中,查找得到第二语言的公共部分,将该第二语言的公共部分作为所述待处理词条的译文;其中,所述第二语言的公共部分为所述第二语言的各个语句中共同包括的内容。
以2个双语句对为例,第二语言公共部分即为2个双语句对中对应句的最长公共子串,该最长公共子串即为待处理词条所需翻译的译文。
当查找到第一语言的公共部分时时,则获取所述2个双语句对中对应句的最长公共子串,如双语句对为中英句对,待处理词条为中文时,则获取英文句子的最长公共子串;当双语句对为德法句对,待处理词条为德文时,则获取法文句子的最长公共子串。
中文根据最长公共子串算法获取,英文、德文等不需要分词的句子则根据改进的最长公共子串算法获取。所述对应2个双语句对中对应句的最长公共子串即为待处理词条相应的译文。
步骤605、判断是否所有任意两个候选双语句对都被处理过。
如果任意两个双语句对都被处理过,则进入下一步,如果还有没被处理过,则重复步骤603和步骤604,直至检索结果中的所有候选双语句对都处理完毕。假设检索结果中共有N个双语句对,任意选取两个候选双语句对作为一个译文处理组,可以得知,需要处理N*(N-1)/2次才能处理完毕。
步骤606,确定候选子串,输出所述候选子串对应的译文。
以2个双语句对为例,第二语言公共部分即为2个双语句对中对应句的最长公共子串,该最长公共子串即为待处理词条所需翻译的译文,故可以将一个第二语言公共部分理解为是一个译文。
第二语言公共部分的个数与第一语言公共部分的个数相关,第一语言公共部分的个数有几个,一般情况下,对应的第二语言公共部分的个数也有几个,当第一语言公共部分的个数有多个时,可以将这多个第一语言公共部分作为一个候选子串,依据步骤604可以得出该候选子串对应的译文,一般情况下,该候选子串包括的第一语言公共部分的个数有几个,对应的可以得出几个译文。
在本发明实施例中,当第一语言公共部分的个数有多个时,可以对该多个第一语言公共部分进行相应的处理,提供处理后得到的第一语言公共部分各自对应的译文,具体操作如下:如果查找得到多个第一语言公共部分,则按照所述多个第一语言公共部分的频度高低排序,相应的提供分别与所述多个第一语言公共部分各自对应所述译文;或者,根据预定阈值,从所述多个第一语言公共部分中确定满足要求的第一语言公共部分,并提供所述满足要求的第一语言公共部分各自对应的所述译文。
例如,对于所有产生的第一语言公共部分,按照第一语言公共部分的频度由高到低排序,预设一个阈值,将频度大于或等于所述阈值的第一语言公共部分作为候选子串,输出所述候选子串对应的译文,即提供该第一语言公共部分各自对应的译文。当频度少于预设阈值时,说明其并不一定是精确的词对译文,则可以进行其他处理,如丢弃不输出。所述预设阈值可以是任意自然数,如2、3……。
本实施例所述技术方案是以索引资源库已经存在为前提的,建立双语句对的索引资源库是本发明的前提条件。建立索引资源库已经在前面进行了详细描述,在此不再进行介绍。
对照图7,示出了本发明一种获取词条译文系统第一实施例的结构框图,包括:
接收单元701,用于接收待处理词条,确定待处理词条所属的第一语言种类以及所需翻译的译文所属的第二语言种类。
双语句对索引资源库确定单元702,用于根据所述第一语言种类和所述第二语言种类,确定双语句对索引资源库;其中,所述双语句对索引资源库中包括多个双语句对,且所述双语句对中的一个语句的语言种类为所述第一语言种类,另一个语句的种类为所述第二语言种类。
第一语言公共部分查找单元703,用于以至少两个候选双语句对作为译文处理组,在至少一个所述译文处理组中,进行第一语言公共部分的查找;其中,所述第一语言公共部分为所述第一语言的各个语句中共同包括的内容,且该内容与所述待处理词条一致;所述候选双语句对为以所述待处理词条为索引,利用所述双语句对索引资源库检索得到的符合检索条件要求的双语句对;
译文确定单元704,用于如果在所述至少一个译文处理组中的任意一个译文处理组中查找得到所述第一语言的公共部分,则在查找到所述第一语言的公共部分的译文处理组中,查找得到第二语言的公共部分,将该第二语言的公共部分作为所述待处理词条的译文;其中,所述第二语言的公共部分为所述第二语言的各个语句中共同包括的内容。
下面对本系统的工作原理及工作过程进行一个介绍:
接收单元701接收待处理词条,所述词条可以是一个词组,也可以是多个词组,还可以是一个单词或一个短语,所述词条可以是中文也可以是英文,当然,也可以是其他语言类别,如日本语、朝鲜语、德语、法语等。第一语言公共部分查找单元703根据所述接收单元接收的待处理词条从索引资源库中检索出的候选双语句对,从中选择至少两个候选双语句对作为译文处理组,查找第一语言公共部分。为了后续方便介绍,可以将候选双语句对简称为双语句对,本发明中,系统实施例中各个单元的具体操作步骤可以参照方法实施例中的介绍,在此不再赘述,以第一种查找第一语言公共部分的方式为例,当待处理词条为中文时,则获取双语句对中中文句的最长公共子串,当待处理句对为英文时,则获取双语句对中英文的最长公共子串,即获取与待处理词条语言类型相同句的最长公共子串。以2个双语句对作为译文处理组为例,对符合条件的双语句对,选择2个双语句对,根据最长公共子串算法(LCS)获取2个双语句对中2个中文句对的最长公共子串,根据改进的最长公共子串算法(ILCS)获取2个双语句对中2个英文句对的最长公共子串。LCS是求两个字符串最长公共子串的算法。利用一个矩阵来记录两个字符串中所有位置的两个字符之间的匹配情况,若是匹配则为1,否则为0。然后求出对角线最长的1序列,其对应的位置就是最长匹配子串的位置。通过判断所述最长公共子串是否与待处理词条一致,如果不一致,则再次从检索结果中选择一个译文处理组,调用第一语言公共部分查找单元703,重新获取所述2个双语句的最长公共子串,如果判断所述最长公共子串是与待处理词条一致,则译文确定单元704获取所述2个双语句对中对应句的最长公共子串。
本实施例所述技术方案是以索引资源库已经存在为前提的,建立双语句对的索引资源库是本发明的前提条件。
在本发明一种获取词条译文系统的第二实施例中,除了包括接收单元、双语句对索引资源库确定单元、第一语言公共部分查找单元、译文确定单元外,还包括第二判断单元,译文生成单元。所述第二判断单元用于判断检索结果中的任意2个双语句对是否都被处理完毕。如还有未处理完毕的双语句对,则再次调用第一语言公共部分查找单元和译文确定单元。所述译文生成单元,用于对所有获取的第一语言公共部分进行处理,一种可行的方式可以是将第一语言公共部分的频度大于或等于预设阈值的第一语言公共部分作为所述候选子串,输出对应的译文,对于频度少于预设阈值的第一语言公共部分,则不输出所对应的译文。
参照图8,示出了本发明一种获取词条译文系统第三实施例的结构框图,在本发明一种获取词条译文系统第三实施例中,除了包括接收单元、双语句对索引资源库确定单元、第一语言公共部分查找单元、译文确定单元外,还包括索引生成单元,所述索引生成单元包括:
获取单元801、用于获取双语句对资源。
获取双语句对资源的方法有很多,如可以从互联网在线获取,也可以通过人工输入,还有其他很多种方法,本发明不对此进行一一限定。
处理单元802、用于对双语句对资源进行预处理。
预处理的目的是将文本规范化,去除无用、干扰的信息。预处理的具体方式根据实际需要进行限定,在本发明实施例中,预处理主要包括:中文全半角转换、中文自动分词、英文tokenizing、英文大小写同一处理、编码乱码过滤等。
第二生成单元803、用于根据预处理后的双语句对建立索引,形成索引资源库。
建立索引有很多种方法,如倒排索引方法、hashing mask方法,本发明实施例优选采用倒排索引方法建立索引。
在本发明一种获取词条译文系统第四实施例中,除了包括接收单元、双语句对索引资源库确定单元、第一语言公共部分查找单元、译文确定单元外,还可以包括分词处理单元,用于对待处理词条进行分词处理,在该系统中也可以进一步包括索引生成单元。或者除了包括接收单元、双语句对索引资源库确定单元、第一语言公共部分查找单元、译文确定单元外,还可以包括过滤单元,用于根据字串包含算法过滤所述候选双语句对,形成更精确的检索结果,在该系统中也可以进一步包括索引生成单元。又或者除了包括接收单元、双语句对索引资源库确定单元、第一语言公共部分查找单元、译文确定单元外,还可以包括译文处理单元和译文输出单元,译文处理单元,用于对译文进行整理、排序、筛选。译文输出单元,用于输出处理后的译文,在该系统中也可以进一步包括索引生成单元。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
以上对本发明所提供的一种获取词条译文的方法和系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (16)

1.一种获取词条译文的方法,其特征在于,该方法包括:
接收待处理词条,确定待处理词条所属的第一语言种类以及所需翻译的译文所属的第二语言种类;
根据所述第一语言种类和所述第二语言种类,确定双语句对索引资源库;其中,所述双语句对索引资源库中包括多个双语句对,且所述双语句对中的一个语句的语言种类为所述第一语言种类,另一个语句的种类为所述第二语言种类;
以至少两个候选双语句对作为译文处理组,在至少一个所述译文处理组中,进行第一语言公共部分的查找;其中,所述第一语言公共部分为所述第一语言的各个语句中共同包括的内容,且该内容与所述待处理词条一致;所述候选双语句对为以所述待处理词条为索引,利用所述双语句对索引资源库检索得到的符合检索条件要求的双语句对;
如果在所述至少一个译文处理组中的任意一个译文处理组中查找得到所述第一语言的公共部分,则在查找到所述第一语言的公共部分的译文处理组中,查找得到第二语言的公共部分,将该第二语言的公共部分作为所述待处理词条的译文;其中,所述第二语言的公共部分为所述第二语言的各个语句中共同包括的内容。
2.根据权利要求1所述的方法,其特征在于,所述以至少两个候选双语句对作为译文处理组,在至少一个所述译文处理组中,进行第一语言公共部分的查找,具体包括:
以所述待处理词条为索引,利用所述双语句对索引资源库检索得到符合检索条件要求的各个双语句对;
从检索得到的双语句对中,以至少两个候选双语句对作为译文处理组,并对该译文处理组中的所述至少两个候选双语句对,查找各个第一语言语句中相同的最长公共子串,并将该最长公共子串与所述待处理词条进行比较,如果二者内容一致,则将所述最长公共子串作为所述第一语言公共部分,否则,返回本步骤,直至查找得到所述第一语言公共部分或对检索得到的各个双语句对均执行完本步骤为止。
3.根据权利要求1所述的方法,其特征在于,所述以至少两个候选双语句对作为译文处理组,在至少一个所述译文处理组中,进行第一语言公共部分的查找,具体包括:
以所述待处理词条为索引,利用所述双语句对索引资源库检索得到符合检索条件要求的各个双语句对;
从检索得到的双语句对中,以至少两个候选双语句对作为译文处理组,并对该译文处理组中的所述至少两个候选双语句对,分别查找各个第一语言语句中是否包含和所述待处理词条相同的子串,如果均包含,则将所述子串作为所述第一语言公共部分,否则,返回本步骤,直至查找得到所述第一语言公共部分或对检索得到的各个双语句对均执行完本步骤为止。
4.根据权利要求1~3任意一项所述的方法,其特征在于,所述以至少两个候选双语句对作为译文处理组,包括:
在所述候选双语句对中,从未进行过所述第一语言公共部分查找的候选双语句对中选择至少两个作为译文处理组;或者,
在所述候选双语句对中,从未进行过所述第一语言公共部分查找的候选双语句对中选择至少一个双语句对作为所述译文处理组中的至少一个双语句对,所述译文处理组中的其余双语句对为进行过所述第一语言公共部分查找的双语句对。
5.根据权利要求1~3任意一项所述的方法,其特征在于,所述至少两个候选双语句对为2个。
6.根据权利要求1~3任意一项所述的方法,其特征在于,所述第一语言为汉语且第二语言为英语,或,所述第一语言为英语且第二语言为汉语。
7.根据权利要求1~3任意一项所述的方法,其特征在于,如果查找得到多个第一语言公共部分,则按照所述多个第一语言公共部分的频度高低排序,相应的提供分别与所述多个第一语言公共部分各自对应所述译文;
或者,根据预定阈值,从所述多个第一语言公共部分中确定满足要求的第一语言公共部分,并提供所述满足要求的第一语言公共部分各自对应的所述译文。
8.如权利要求1所述的方法,其特征在于,该方法还包括:
获取双语句对资源;
对所述双语句对资源进行预处理;
根据预处理后的双语句对建立索引,形成双语句对索引资源库。
9.如权利要求8所述的方法,其特征在于,所述建立索引的具体过程为:
采用倒排索引法对所述双语句对建立索引。
10.如权利要求1所述的方法,其特征在于,接收待处理词条后还包括步骤:
对所述待处理词条进行分词处理。
11.如权利要求1所述的方法,其特征在于,从双语句对索引资源库中检索出候选双语句对后,还包括步骤:
根据字串包含算法过滤所述候选双语句对,形成更精确的检索结果。
12.一种获取词条译文的系统,其特征在于,包括:
接收单元,用于接收待处理词条,确定待处理词条所属的第一语言种类以及所需翻译的译文所属的第二语言种类;
双语句对索引资源库确定单元,用于:根据所述第一语言种类和所述第二语言种类,确定双语句对索引资源库;其中,所述双语句对索引资源库中包括多个双语句对,且所述双语句对中的一个语句的语言种类为所述第一语言种类,另一个语句的种类为所述第二语言种类;
第一语言公共部分查找单元,用于:以至少两个候选双语句对作为译文处理组,在至少一个所述译文处理组中,进行第一语言公共部分的查找;其中,所述第一语言公共部分为所述第一语言的各个语句中共同包括的内容,且该内容与所述待处理词条一致;所述候选双语句对为以所述待处理词条为索引,利用所述双语句对索引资源库检索得到的符合检索条件要求的双语句对;
译文确定单元,用于:如果在所述至少一个译文处理组中的任意一个译文处理组中查找得到所述第一语言的公共部分,则在查找到所述第一语言的公共部分的译文处理组中,查找得到第二语言的公共部分,将该第二语言的公共部分作为所述待处理词条的译文;其中,所述第二语言的公共部分为所述第二语言的各个语句中共同包括的内容。
13.如权利要求12所述的系统,其特征在于,还包括索引生成单元,所述索引生成单元包括:
获取单元,用于获取双语句对资源;
处理单元,用于对双语句对资源进行预处理;
第二生成单元,用于根据预处理后的双语句对建立索引,形成双语句对索引资源库。
14.如权利要求12或13所述的系统,其特征在于,还包括:
分词处理单元,用于对待处理词条进行分词处理。
15.如权利要求12或13所述的系统,其特征在于,还包括:
过滤单元,用于根据字串包含算法过滤所述候选双语句对,形成更精确的检索结果。
16.如权利要求12或13所述的系统,其特征在于,还包括:
译文处理单元,用于对译文进行整理、排序、筛选;
译文输出单元,用于输出处理后的译文。
CN201611199556.3A 2016-12-22 2016-12-22 一种获取词条译文的方法及系统 Pending CN106776590A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611199556.3A CN106776590A (zh) 2016-12-22 2016-12-22 一种获取词条译文的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611199556.3A CN106776590A (zh) 2016-12-22 2016-12-22 一种获取词条译文的方法及系统

Publications (1)

Publication Number Publication Date
CN106776590A true CN106776590A (zh) 2017-05-31

Family

ID=58899558

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611199556.3A Pending CN106776590A (zh) 2016-12-22 2016-12-22 一种获取词条译文的方法及系统

Country Status (1)

Country Link
CN (1) CN106776590A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108133012A (zh) * 2017-12-22 2018-06-08 新奥(中国)燃气投资有限公司 一种标签设置方法及装置
CN111858837A (zh) * 2019-04-04 2020-10-30 北京嘀嘀无限科技发展有限公司 一种文本处理方法及装置
CN114330248A (zh) * 2022-02-22 2022-04-12 深圳市微克科技有限公司 一种智能穿戴系统自动切换多国语言的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7330810B2 (en) * 2002-06-07 2008-02-12 International Business Machines Corporation Method and apparatus for developing a transfer dictionary used in transfer-based machine translation system
CN101187924A (zh) * 2007-11-28 2008-05-28 北京金山软件有限公司 一种从双语句对获取词对译文的方法及系统
CN101393547A (zh) * 2007-09-20 2009-03-25 株式会社东芝 机器翻译设备、方法和系统
CN102467498A (zh) * 2010-11-18 2012-05-23 阿里巴巴集团控股有限公司 翻译方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7330810B2 (en) * 2002-06-07 2008-02-12 International Business Machines Corporation Method and apparatus for developing a transfer dictionary used in transfer-based machine translation system
CN101393547A (zh) * 2007-09-20 2009-03-25 株式会社东芝 机器翻译设备、方法和系统
CN101187924A (zh) * 2007-11-28 2008-05-28 北京金山软件有限公司 一种从双语句对获取词对译文的方法及系统
CN102467498A (zh) * 2010-11-18 2012-05-23 阿里巴巴集团控股有限公司 翻译方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108133012A (zh) * 2017-12-22 2018-06-08 新奥(中国)燃气投资有限公司 一种标签设置方法及装置
CN108133012B (zh) * 2017-12-22 2022-01-18 新奥(中国)燃气投资有限公司 一种标签设置方法及装置
CN111858837A (zh) * 2019-04-04 2020-10-30 北京嘀嘀无限科技发展有限公司 一种文本处理方法及装置
CN114330248A (zh) * 2022-02-22 2022-04-12 深圳市微克科技有限公司 一种智能穿戴系统自动切换多国语言的方法
CN114330248B (zh) * 2022-02-22 2022-05-17 深圳市微克科技有限公司 一种智能穿戴系统自动切换多国语言的方法

Similar Documents

Publication Publication Date Title
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
CN106294639B (zh) 基于语义的跨语言专利新创性预判分析方法
AU2019201531B2 (en) An in-app conversational question answering assistant for product help
CN100524293C (zh) 一种从双语句对获取词对译文的方法及系统
CN106844658A (zh) 一种中文文本知识图谱自动构建方法及系统
CN112035730B (zh) 一种语义检索方法、装置及电子设备
CN109947952B (zh) 基于英语知识图谱的检索方法、装置、设备及存储介质
CN101131706A (zh) 一种查询修正方法及系统
CN111325018B (zh) 一种基于web检索和新词发现的领域词典构建方法
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
JP2011118689A (ja) 検索方法及びシステム
CN115796181A (zh) 一种针对化工领域的文本关系抽取方法
CN102339294A (zh) 一种对关键词进行预处理的搜索方法和系统
US20090234852A1 (en) Sub-linear approximate string match
CN106776590A (zh) 一种获取词条译文的方法及系统
CN111444713B (zh) 新闻事件内实体关系抽取方法及装置
CN104572619A (zh) 智能机器人交互系统在投融资领域的应用
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN113190692A (zh) 一种知识图谱的自适应检索方法、系统及装置
CN117271558A (zh) 语言查询模型构建方法、查询语言获取方法及相关装置
CN107818078B (zh) 汉语自然语言对话的语义关联与匹配方法
Sanabila et al. Automatic Wayang Ontology Construction using Relation Extraction from Free Text
CN116991969B (zh) 可配置语法关系的检索方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170531

RJ01 Rejection of invention patent application after publication