CN102253930B - 一种文本翻译的方法及装置 - Google Patents
一种文本翻译的方法及装置 Download PDFInfo
- Publication number
- CN102253930B CN102253930B CN201010178107.7A CN201010178107A CN102253930B CN 102253930 B CN102253930 B CN 102253930B CN 201010178107 A CN201010178107 A CN 201010178107A CN 102253930 B CN102253930 B CN 102253930B
- Authority
- CN
- China
- Prior art keywords
- text
- translated
- translation
- result
- retrieval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims abstract description 225
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000011218 segmentation Effects 0.000 claims abstract description 53
- 238000012545 processing Methods 0.000 claims abstract description 27
- 238000012216 screening Methods 0.000 claims abstract description 18
- 238000001914 filtration Methods 0.000 claims description 25
- 238000010276 construction Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 11
- 238000013441 quality evaluation Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000008520 organization Effects 0.000 claims description 3
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000001303 quality assessment method Methods 0.000 abstract 2
- 230000014616 translation Effects 0.000 description 194
- 238000010586 diagram Methods 0.000 description 7
- 238000012706 support-vector machine Methods 0.000 description 7
- 238000007781 pre-processing Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种文本翻译的方法及装置,属于信息处理技术领域。所述方法包括:将待翻译文本进行分词处理,并为分词后的待翻译文本构造检索查询串,该检索查询串中包含待翻译文本及分词结果中的至少一个词对应的翻译信息;将构造的检索查询串在搜索引擎中进行检索,得到检索结果;在得到的检索结果中抽取候选翻译文本,并对抽取的候选翻译文本进行质量评价及筛选,得到翻译文本。本发明通过构造包含翻译信息的检索查询串,并将构造的检索查询串在搜索引擎中进行检索,不仅能保证翻译结果的实时性能,还能有效提升检索结果的相关性,进而保证翻译结果的准确性;另外,通过对候选翻译文本进行质量评价及筛选,可进一步提高翻译结果的准确性。
Description
技术领域
本发明涉及信息处理技术领域,特别涉及一种文本翻译的方法及装置。
背景技术
语言是人类最重要的交际工具,伴随着跨语言的学习、阅读、交流的需求,对文本进行翻译的各种技术应运而生。
现有技术一采用的文本翻译方式是:通过一些有限的预定义模板,从网页中离线抽取互译结果,并通过频次进行质量筛选和排序,最终得到翻译文本。
现有技术二采用的文本翻译方式是:机器自动翻译技术,该种方式主要基于先验的双语对齐例句语料,经过模型训练形成已有双语数据的语言模型,并利用该语言模型把用户输入的文本翻译成另一种语言文本。
在实现本发明的过程中,发明人发现现有技术至少存在以下缺点:
由于现有技术一采用的技术方案依赖于网页数据的离线处理,因而实时性能不佳;针对现有技术二提供的技术方案,由于机器自动翻译是基于已有的双语例句进行学习和预测,而对于不符合相应语言规则的新词、术语等待翻译文本,很难利用已有的语言模型得到满意的翻译结果,导致自动翻译结果较差。
发明内容
为了提高文本翻译的实时性能,以及翻译结果的准确性,本发明实施例提供了一种文本翻译的方法及装置。所述技术方案如下:
一方面,提供了一种文本翻译的方法,所述方法包括:
将待翻译文本进行分词处理,并为分词后的待翻译文本构造检索查询串,所述检索查询串中包含所述待翻译文本及至少一个分词结果对应的翻译信息;
将构造的所述检索查询串在搜索引擎中进行检索,得到检索结果;
在得到的所述检索结果中抽取候选翻译文本,并对抽取的所述候选翻译文本进行质量评价及筛选,得到翻译文本。
优选地,所述将待翻译文本进行分词处理之后,还包括:
对分词后的所述待翻译文本进行术语特性识别;
相应地,所述为分词后的待翻译文本构造检索查询串,具体包括:
根据术语特性的识别结果为分词后的待翻译文本构造检索查询串。
优选地,所述将构造的所述检索查询串在搜索引擎中进行检索,得到检索结果之后,还包括:
根据所述搜索引擎的类型,将得到的检索结果进行存储。
其中,所述在得到的所述检索结果中抽取候选翻译文本,具体包括:
根据所述检索结果构建后缀树,所述后缀树中包含重复串;
将所述后缀树中的重复串按预设过滤原则进行过滤,并对过滤后的重复串进行边界切割及扩展处理,得到候选翻译文本。
所述对所述候选翻译文本进行质量评价及筛选,得到翻译文本,具体包括:
计算每个候选翻译文本与所述待翻译文本互为翻译的特征值;
根据计算的所述特征值确定所述每个候选翻译文本的质量类别值,并根据所述质量类别值对每个候选翻译文本进行质量分类;
根据所述每个候选翻译文本的分类结果选取翻译文本。
另一方面,提供了一种文本翻译的装置,所述装置包括:
分词模块,用于将待翻译文本进行分词处理;
构造模块,用于为所述分词模块分词后的待翻译文本构造检索查询串,所述检索查询串中包含所述待翻译文本及至少一个分词结果对应的翻译信息;
检索模块,用于将所述构造模块构造的所述检索查询串在搜索引擎中进行检索,得到检索结果;
抽取模块,用于在所述检索模块得到的所述检索结果中抽取候选翻译文本;
处理模块,用于对所述抽取模块抽取的所述候选翻译文本进行质量评价及筛选,得到翻译文本。
优选地,所述装置,还包括:
识别模块,用于将待翻译文本进行分词处理之后,对分词后的所述待翻译文本进行术语特性识别;
相应地,所述构造模块,具体用于根据所述识别模块的识别结果为分词后的待翻译文本构造检索查询串。
优选地,所述装置,还包括:
存储模块,用于根据所述搜索引擎的类型,将所述检索模块检索到的检索结果进行存储。
其中,所述抽取模块,具体包括:
构建单元,用于根据所述检索结果构建后缀树,所述后缀树中包括重复串;
过滤单元,用于将所述后缀树中的重复串按预设过滤原则进行过滤;
处理单元,用于对过滤后的重复串进行边界切割及扩展处理,得到候选翻译文本。
所述处理模块,具体包括:
计算单元,用于计算每个候选翻译文本与所述待翻译文本互为翻译的特征值;
分类单元,用于根据计算的所述特征值确定所述每个候选翻译文本的质量类别值,并根据所述质量类别值对每个候选翻译文本进行质量分类;
选取单元,用于根据所述每个候选翻译文本的分类结果选取翻译文本。
本发明实施例提供的技术方案的有益效果是:
通过构造包含待翻译文本及翻译信息的检索查询串,并将构造的检索查询串在搜索引擎中进行检索,不仅可以保证翻译结果的实时性能,还可以有效提升检索结果的相关性,进而保证翻译结果的准确性;另外,通过对候选翻译文本进行质量评价及筛选,得到翻译文本,可使翻译结果的准确性得到进一步的提高。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的文本翻译的方法流程图;
图2是本发明实施例二提供的文本翻译的方法流程图;
图3是本发明实施例二提供的检索结果存储示意图;
图4是本发明实施例三提供的文本翻译的装置结构示意图;
图5是本发明实施例三提供的另一种文本翻译的装置结构示意图;
图6是本发明实施例三提供的又一种文本翻译的装置结构示意图;
图7是本发明实施例三提供的文本翻译的装置中的抽取模块结构示意图;
图8是本发明实施例三提供的文本翻译的装置中的处理模块结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
参见图1,本实施例提供了一种文本翻译的方法,该方法流程具体如下:
101:将待翻译文本进行分词处理,并为分词后的待翻译文本构造检索查询串,该检索查询串中包含待翻译文本及分词结果中的至少一个词对应的翻译信息;
102:将构造的检索查询串在搜索引擎中进行检索,得到检索结果;
103:在得到的检索结果中抽取候选翻译文本,并对抽取的候选翻译文本进行质量评价及筛选,得到翻译文本。
本实施例提供的方法,通过构造包含待翻译文本及翻译信息的检索查询串,并将构造的检索查询串在搜索引擎中进行检索,不仅可以保证翻译结果的实时性能,还可以有效提升检索结果的相关性,进而保证翻译结果的准确性;另外,通过对候选翻译文本进行质量评价及筛选,得到翻译文本,可使翻译结果的准确性得到进一步的提高。
实施例二
本实施例提供了一种文本翻译的方法,通过该方法不仅可以提高文本翻译的实时性能,还能提高翻译结果的准确性。参见图2,本实施例提供的文本翻译的方法流程具体如下:
201:将待翻译文本进行分词处理,并对分词后的待翻译文本进行术语特性识别;
具体地,待翻译文本即为用户输入的文本,除了将待翻译文本进行分词处理,根据实际情况需要,还可以对待翻译文本进行繁简转换等预处理,本实施例对此不作具体限定,同样,本实施例不对将待翻译文本进行分词处理的方式以及分词结果进行具体限定。为了便于说明,本实施例以用户输入的文本,即待翻译文本为“星际之门真理之箱”,分词结果为“星际之门真理之箱”为例进行说明。
其中,对分词后的待翻译文本进行术语特性识别为优选步骤。术语是指各门学科中的专门用语,大多数术语不符合现有语言规则,且随着新事物新概念的不断涌现,以及网络信息的快速增长和传播,各种网络新词、不同领域的专有词汇等各种术语越来越多。如果待翻译文本包括电影名、地名、品牌名等这类术语性强的词汇或者短语,则认为该待翻译文本具有术语特性,针对具有术语特性的待翻译文本,利用搜索引擎进行检索得到的检索结果质量较高,翻译挖掘质量也相应较好。但如果输入的是普通待翻译文本,比如“今天天气怎么样”,则认为该待翻译文本不具有术语特性,针对不具有术语特性的待翻译文本,利用搜索引擎进行检索得到的检索结果中的噪音很大,即与翻译无关的信息较多,导致翻译挖掘质量也相应较差。
本实施例对分词后的待翻译文本进行术语特性识别的方式不进行具体限定,仅以采用命名实体识别和规则模式匹配相结合的方式为例进行说明。其中,命名实体一般仅对人名、地名、组织机构名进行识别,而对电影名、网络新词、品牌名等无能为力。对于这一类术语,本实施例通过规则模式匹配来进行识别,具体步骤如下:
首先,收集一个包含各类术语的语料库,对其进行分词和词性标注。
其次,统计各类术语的词汇构造模式和词性构成模式,构建一个规则模式库。
例如:电影名“变形金刚2”,“蜘蛛侠3”,“加勒比海盗3”等,都是“名词+数词”的构成模式。
最后,将用户输入的待翻译文本与构建的规则模式库中的规则进行匹配,如果匹配成功,则识别结果为待翻译文本具有术语特性,即待翻译文本中包含术语词汇,需要针对术语进行翻译挖掘;否则,识别结果为待翻译文本不具有术语特性。
202:为分词后的待翻译文本构造检索查询串,该检索查询串中包含待翻译文本及分词结果中的至少一个词对应的翻译信息;
针对该步骤,构造的检索查询串query中包含待翻译文本及分词结果中的至少一个词对应的翻译信息,可使得包含翻译结果的网页排在检索结果前面。本实施例不对构造检索查询串的方式以及检索查询串的内容进行具体限定,具体实现时,构造检索查询串可采用基于词典的启发式query构造。
其中,基于词典的启发式query构造,包含按词直译和按音节音译两部分。首先收集构建一个单词翻译词典,以及一个音节音译词典。单词翻译词典包含了基本词汇的中英互译表,例如:
真理truth
演义Romance
梦dream
…
音译词典包含了基本音节的音字互译表,例如:
Ve维,微
Ge哥,隔
…
仍以输入的待翻译文本“星际之门真理之箱”,分词结果为“星际之门真理之箱”为例,将该待翻译文本的分词结果在上述单词翻译词典或音节音译词典中查询翻译信息时,以查找到分词结果中的词“真理”对应的翻译信息“truth”为例,构造的检索查询串中除了包含待翻译文本“星际之门真理之箱”,还要包括分词结果中的词“真理”对应的翻译信息“truth”,则构造出的检索query为“星际之门真理之箱truth”。
需要说明的是,如果上述步骤201中不包括对分词后的待翻译文本进行术语特性识别的优选步骤,则为分词后的待翻译文本构造检索查询串时,可直接基于词典对分词结果进行翻译,并将得到的翻译信息包含在检索查询串中。对于对分词后的待翻译文本进行术语特性识别的优选步骤,由于大多数词典未能及时收录术语性的词汇,则对于具有术语特性的待翻译文本,基于词典也许未能给出与术语相关的翻译信息,因此,如果对分词后的待翻译文本进行了术语特性识别,则需要根据术语特性的识别结果为分词后的待翻译文本构造检索查询串。因为对于有些术语可以直接进行翻译,例如,有些人名术语在词典中未能给出对应的翻译信息,但可直接对其进行人名翻译,从而可使构造的检索查询串中包含更多的翻译信息,进而可在搜索引擎中检索出与翻译结果更具相关性的检索结果。
另外,针对基于词典的启发式query构造得到的检索查询串在搜索引擎中进行检索得到的检索结果,可能包含了翻译结果,也可能包含噪音,为了提高检索结果包含翻译的相关性,本实施例提供的技术方案在构造检索查询串时,还可采取进一步对构造的检索查询串进行预测和构造的优选步骤,即基于检索结果的检索查询串再构造。首先,对检索结果进行文本预处理,包括繁简转换,分词和词性标注等操作。然后,统计出现在待翻译文本上下文范围中可能是翻译的词汇,将该词汇作为候选翻译。最后,对候选翻译按频次和词性等信息进行筛选,得到重新构造的检索查询串。
例如,对于待翻译文本“星际之门真理之箱”,统计出现在其周围的英文单词,并按共现频次和词性筛选后,得到“stargate”和“truth”两个候选翻译。则进一步重新构造检索查询串后,得到新的检索查询串为“星际之门真理之箱stargatetruth”。经过两次检索查询串的启发式构造,使得检索结果包含翻译的相关性极大提高,启发式构造的次数越多,构造的检索查询串在搜索引擎中进行检索时,得到的检索结果与翻译结果的相关性越高,本实施例不对进行启发式构造的次数进行具体限定,可以根据实际情况进行设定。
203:将构造的检索查询串在搜索引擎中进行检索,得到检索结果;
针对该步骤,现有搜索引擎的类型有多种,例如:soso、baidu、google等,本实施例不对具体采用哪种类型的搜索引擎进行限定。由于搜索引擎的类型不同,得到的检索结果也会存在不同程度的差异,本实施例不对得到的具体检索结果进行限定。
204:根据搜索引擎的类型,将得到的检索结果进行存储;
该步骤为优选步骤,将得到的检索结果进行本地存储,不仅可以提高系统性能,还能避免重复检索和下载,当再次挖掘输入的同一待翻译文本的翻译结果时,可直接从本地磁盘读取搜索引擎的检索结果网页,进而可以提高翻译效率。
根据搜索引擎的类型,将得到的检索结果进行存储时,本实施例不对存储检索结果的方式进行限定,具体可采用分层设计的策略,如图3所示的检索结果存储示意图。第一层为“引擎类型目录索引”,该层对应不同搜索引擎类型进行索引。第二层为“二级目录索引”,该层将符合相同特性的待翻译文本统一管理在同一个目录;具体实现时,可采用MD5(MessageDigestAlgorithm5,消息摘要算法第五版)对输入的待翻译文本进行哈希,将同一MD5值的待翻译文本索引在同一目录。第三层为“一级目录索引”,该层按照输入的待翻译文本进行索引。第四层为“Html(HyperTextMark-upLanguage,超文本标记语言或超文本链接标示语言)文件”,该层存储输入的待翻译文本对应的检索结果网页,由于每个网页显示结果数受限,因而需要保存多个网页的结果,本实施例不对保存网页的个数进行具体限定。将检索结果存储之后,在索引待翻译文本对应的检索结果网页时,即可按照上述结构逐层进行索引。
205:在得到的检索结果中抽取候选翻译文本;
具体地,由于得到的检索结果中不仅包含了候选翻译文本,也会包含许多噪音,即与翻译无关的信息。因此,需要准确地将候选翻译文本从检索结果中抽取出来。具体步骤包括:
根据检索结果构建后缀树,后缀树中包含重复串;
将后缀树中的重复串按预设过滤原则进行过滤,并对过滤后的重复串进行边界切割及扩展处理,得到候选翻译文本。
接下来对上述各个步骤进行详细描述:
针对根据检索结果构建后缀树,由于在搜索引擎中进行检索得到的每条检索结果分别包括标题和摘要两部分,则在构造后缀树之前,为了提高算法鲁棒性,需要对每条检索结果的各部分进行一些预处理,预处理的内容包括但不限于以下几点:
1.去除多余空格,将连续的多个空格、tab合并为1个空格。
2.统一标点,将各类标点进行统一标记。例如,边界标点“(”、“【”等统一标记为“P_B”,切割标点“,”、“。”等统一标记为“P_C”。
3.繁简转换,分词和词性标注。
对每条检索结果的各个部分进行预处理之后,将1条检索结果的标题和摘要进行连接得到“Title&Snippet”格式化的文本,再将所有检索结果的格式化文本进行连接,得到所有检索结果的格式化文本:
Title1&Snippet1#Title2&Snippet2#Title3&Snippet3#…
对所有检索结果的格式化文本建立后缀树时,可采用现有技术实现,本实施例在此不做赘述。例如,可参考建立后缀树的文献“EskoUkkonen,On-lineConstructionofSuffixTrees”。
由于所有检索结果均是由同一检索查询串在搜索引擎中进行检索得到的,则每条检索结果中都应该包含与该检索查询串相关的字符串,经过上述步骤将所有检索结果的格式化文本建立后缀树时,得到的后缀树中将包括重复字符串,为了便于说明,本实施例将与其他字符串构成重复的字符串简称为重复串,例如,后缀树中多次出现了字符串A,则将字符串A作为后缀树中的重复串。后缀树中很大一部分的重复串是不包含任何翻译信息的,因此,过滤这些重复串能有效提升翻译的效率和准确度。具体实现时,可将后缀树中的重复串按预设过滤原则进行过滤,本实施例不对具体的预设过滤原则进行限定,包括但不限于下列几种原则:
1.重复串是否同时包含中文和英文,如果否,则过滤该重复串;
2.重复串的长度是否小于长度阈值,如果是,则过滤该重复串;
3.重复频率是否低于频率阈值,如果是,则过滤该重复串,其中,重复频率可理解为构成重复的字符串的个数,例如,重复频率为5,如果后缀树中构成重复的某重复串个数为4,则过滤掉这4个重复串。
本实施例不对上述长度阈值及频率阈值的大小进行具体限定,具体实现时,可根据实际情况进行设定。
对于过滤后的重复串,除了包含待翻译文本和翻译信息外,也包含其他的噪音信息,因此,需要对过滤后的重复串进行边界切割及扩展处理,得到候选翻译文本。
进行边界切割时,以重复串“[mysilu]Stargate.the.Ark.of.Truth.2008.星际之门2008.真理之箱”为例,该重复串包含噪音串“[mysilu]”。根据噪音串所处位置,重复串可以表示为噪音串和信息串(包含输入相关串和翻译候选串)如下格式:
噪音串1输入相关串噪音串2翻译候选串噪音串3
或者
噪音串1翻译候选串噪音串2输入相关串噪音串3
对于噪音串,主要采用概率统计和模式规则相结合的方式来处理。
首先,通过模式规则处理边界明显的情况。
1.对于中间的噪音串2,如果是翻译提示词如“中文译名”、“译名”、“翻译”等,直接进行边界切割。
例如:“StargateTheArkOfTruth【中文译名】星际之门2008:真理之箱”中噪音串2“【中文译名】”。
2.对于边界的噪音串1和噪音串3,如果语言类型和信息串相反,直接进行切割。
例如:“【影片原名】StargateTheArkOfTruth【中文译名】星际之门2008:真理之箱”中的噪音串1“【影片原名】”为中文,而候选翻译语言类型为英文,则该噪音串1和候选翻译语言类型相反,可以直接切割。
如果噪音串边界不明显,采用上述模式规则无法进行边界切割时,本实施例通过上下文熵来处理,即以条件熵作为边界稳定性判定的基础。对于词汇w,用变量Suf(w)来表示w的上下文词汇集合,则条件熵的计算公式如下:
其中sufi是集合Suf(w)中的一个元素。由于H(Suf(w)|w)的值域是不确定的,为了方便基于熵对组合词的边界作阈值过滤,这里对它作归一化处理,假设Suf(w)是完全随机的,即每个sufi仅出现一次,则HSuf(w)|w)=log2PF(w),其中,PF(w)是w所有上下文的频数。则将如下定义的计算公式作为w的半边熵:
如果基于上文计算XCE(w),则得到的熵被称为下文熵,记作LCE(w),如果基于下文计算XCE(w),则得到的熵被称为上文熵,记作RCE(w),通过上下文熵即可度量边界稳定性。
将空格、边界标点等字符作为候选边界初步切割符号,重复串就可以表示为噪音串、切割符和信息串的组合。然后,以切割符为界,计算切割符前后两个串的上下文熵,如果大于一定阈值θ,则进行边界切割,其中,阈值θ的大小可以根据实际情况进行设定,本实施例不对阈值θ的大小进行具体限定。
仍以重复串“[转帖][星际之门:真理之箱].Stargate.The.Ark.Of.Truth”为例,进行初步标点切割后得到串:“转帖”+“星际之门:真理之箱”+“Stargate.The.Ark.Of.Truth”。通过上下文熵可以有效把噪音“转帖”切割开来。
经过边界切割后,对待翻译文本和候选翻译文本进行了有效分离。例如,对“星际之门真理之箱stargatetruth”的检索结果构建后缀树和过滤重复串后,得到有效重复串“星际之门:真理之箱(StargatetheArkOfTruth)”,然后进行边界切割后分别得到输入相关的“星际之门:真理之箱”,和候选翻译文本“StargatetheArkOfTruth”。但是,由于搜索引擎数据特殊性,经常会出现“StargateTheArkOfTr…”这类省略的候选翻译,尤其在搜索结果的标题中。这里,需要通过摘要的详细内容对“…”的单词进行补全。本实施例不对具体补全方式进行限定,实际应用中,可利用其他检索结果对省略的候选翻译进行补全,以便后续步骤对候选翻译文本进行质量评价及筛选。
206:对候选翻译文本进行质量评价及筛选,得到翻译文本。
针对该步骤,由于上述步骤205得到的候选翻译文本的质量参差不齐,需要对候选翻译文本进行质量评价及筛选。具体步骤包括:
计算每个候选翻译文本与待翻译文本互为翻译的特征值;
根据计算的特征值将每个候选翻译文本进行质量分类,得到每个候选翻译文本的质量类别值;
根据得到的每个候选翻译文本的质量类别值选取翻译文本。
其中,本实施例不对每个候选翻译文本与待翻译文本互为翻译的特征进行具体限定,仅以特征为语义相关及位置相关为例进行说明。
语义相关特征主要描述候选翻译文本是否在语义上与待翻译文本构成翻译。例如,在对待翻译文本“际之门真理之箱”的候选翻译文本“StargateTheArkOfTruth”进行分词和互译对齐后,两者构成翻译的语义相关性很大。但对于候选“AC3-WAF-BT”,则语义相关性很小。这里语义相关性通过词对齐度WAlign(input,cand)来度量,其中input为输入,cand为翻译候选,该词对齐度定义为:
其中,是待翻译文本的词向量,是候选翻译文本的词向量。分子是两者词互译对齐的加权值,分母是两个向量的模乘积。
位置相关特征主要描述待翻译文本和候选翻译文本的位置模式,本实施例不对位置相关特征值的计算方式进行限定。
例如,“StargateTheArkOfTruth【中文译名】星际之门2008:真理之箱”,是“翻译+提示词+输入”的位置模式。“《星际之门:真理之箱》(StargateTheArkOfTruth)”是“边界括号+信息串”的位置模式,候选翻译文本的位置模式不同,与待翻译文本互为翻译的概率也将不同。可以将候选翻译文本与待翻译文本的位置模式相同概率作为位置相关特征值,本实施例对此不作具体限定。
在计算每个候选翻译文本与待翻译文本互为翻译的特征值之后,本实施例采用一种有效处理回归问题和分类问题的算法SVM(SupportVectorMachine,支持向量机)对候选翻译文本进行质量分类,得到每个候选翻译文本的质量类别值。处理流程可具体如下:
首先,采集多个术语词以及不同质量的候选翻译文本,提取每个候选翻译文本与待翻译文本互为翻译的特征值,根据提取的特征值训练出SVM的模型参数。本实施例不对采集的术语词及候选翻译文本的数量进行限定,为了保证训练出的SVM的模型参数更具可靠性,采集的数量越多越好。
得到可靠的SVM的模型参数后,利用训练的SVM模型参数,对候选翻译文本抽取步骤得到的每个候选翻译文本进行识别,也就是说,将候选翻译文本的特征值作为SVM模型的输入,即可输出每个候选翻译文本的质量类别值。
在根据质量类别值对每个候选翻译文本进行质量分类时,本实施例不对具体的分类方式进行限定,实际应用过程中,可以通过丰富有效的特征值,预先将候选翻译文本分为多个类别,例如,将候选翻译文本分为优质翻译,普通翻译和非翻译三个类别,并定义每个类别对应的质量类别值范围,以质量类别值为1至100为例,将质量类别值在90以上的翻译文本作为优质翻译,将质量类别值在60以上的翻译文本作为普通翻译,质量类别值在60以下的翻译文本作为非翻译。则在输出每个候选翻译文本的质量类别值之后,即可将候选翻译文本进行质量分类,例如,待翻译文本A的质量类别值为75,则该待翻译文本A属于普通翻译类别。
最后,根据每个候选翻译文本的分类结果选取翻译文本,例如,确定每个候选翻译文本所属类别之后,选取优质翻译类别的候选翻译文本作为最终翻译结果。
本实施例提供的方法,通过构造包含待翻译文本和翻译信息的检索查询串,并将构造的检索查询串在搜索引擎中进行检索,不仅可以保证翻译结果的实时性能,还可以有效提升检索结果的相关性,进而保证翻译结果的准确性;另外,通过对候选翻译文本进行质量评价及筛选,得到翻译文本,可使翻译结果的准确性得到进一步的提高。
实施例三
参见图4,本实施例提供了一种文本翻译的装置,该装置包括:
分词模块401,用于将待翻译文本进行分词处理;
构造模块402,用于为分词模块401分词后的待翻译文本构造检索查询串,该检索查询串中包含待翻译文本及分词结果中的至少一个词对应的翻译信息;
检索模块403,用于将构造模块402构造的检索查询串在搜索引擎中进行检索,得到检索结果;
抽取模块404,用于在检索模块403得到的检索结果中抽取候选翻译文本;
处理模块405,用于对抽取模块404抽取的候选翻译文本进行质量评价及筛选,得到翻译文本。
优选地,参见图5,该文本翻译的装置,还包括:
识别模块406,用于在分词模块401将待翻译文本进行分词处理之后,对分词后的待翻译文本进行术语特性识别;
相应地,构造模块402,具体用于根据识别模块406的识别结果为分词后的待翻译文本构造检索查询串。
优选地,参见图6,该文本翻译的装置,还包括:
存储模块407,用于根据搜索引擎的类型,将检索模块403检索到的检索结果进行存储。
具体地,参见图7,抽取模块404,具体包括:
构建单元404a,用于根据检索结果构建后缀树,该后缀树中包括重复串;
过滤单元404b,用于将后缀树中的重复串按预设过滤原则进行过滤;
处理单元404c,用于对过滤后的重复串进行边界切割及扩展处理,得到候选翻译文本。
其中,本实施例不对预设过滤原则进行限定,具体的预设过滤原则可根据实际情况进行设定,如上述实施例二中涉及到的预设过滤原则。
参见图8,处理模块405,具体包括:
计算单元405a,用于计算每个候选翻译文本与待翻译文本互为翻译的特征值;
分类单元405b,用于根据计算单元405a得到的特征值确定每个候选翻译文本的质量类别值,并根据质量类别值对每个候选翻译文本进行质量分类;
选取单元405c,用于根据每个候选翻译文本的分类结果选取翻译文本。
综上所述,本实施例提供的装置,通过构造包含翻译信息的检索查询串,并将构造的检索查询串在搜索引擎中进行检索,不仅可以保证翻译结果的实时性能,还可以有效提升检索结果的相关性,进而保证翻译结果的准确性;另外,通过对候选翻译文本进行质量评价及筛选,得到翻译文本,可使翻译结果的准确性得到进一步的提高。
需要说明的是:上述实施例提供的文本翻译的装置在进行文本翻译时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的文本翻译的装置与文本翻译的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本发明实施例中的全部或部分步骤,可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,如光盘或硬盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种文本翻译的方法,其特征在于,所述方法包括:
将待翻译文本进行分词处理,对分词后的所述待翻译文本进行术语特性识别,根据术语特性的识别结果为分词后的待翻译文本构造检索查询串,所述检索查询串中包含所述待翻译文本及分词结果中的至少一个词对应的翻译信息;
将构造的所述检索查询串在搜索引擎中进行检索,得到检索结果;
在得到的所述检索结果中抽取候选翻译文本,并对抽取的所述候选翻译文本进行质量评价及筛选,得到翻译文本;
所述检索查询串能够根据检索结果进行多次构造;
所述术语特性识别的方式为采用命名实体识别和规则模式匹配相结合的方式,所述命名实体识别对人名、地名、组织机构名进行识别,所述规则模式匹配具体步骤为:
首先,收集一个包含各类术语的语料库,对其进行分词和词性标注;
其次,统计各类术语的词汇构造模式和词性构成模式,构建一个规则模式库;
最后,将用户输入的待翻译文本与构建的规则模式库中的规则进行匹配,如果匹配成功,则识别结果为待翻译文本具有术语特性;否则,识别结果为待翻译文本不具有术语特性。
2.根据权利要求1所述的方法,其特征在于,所述将构造的所述检索查询串在搜索引擎中进行检索,得到检索结果之后,还包括:
根据所述搜索引擎的类型,将得到的检索结果进行存储。
3.根据权利要求1所述的方法,其特征在于,所述在得到的所述检索结果中抽取候选翻译文本,具体包括:
根据所述检索结果构建后缀树,所述后缀树中包含重复串;
将所述后缀树中的重复串按预设过滤原则进行过滤,并对过滤后的重复串进行边界切割及扩展处理,得到候选翻译文本。
4.根据权利要求1所述的方法,其特征在于,所述对所述候选翻译文本进行质量评价及筛选,得到翻译文本,具体包括:
计算每个候选翻译文本与所述待翻译文本互为翻译的特征值;
根据计算的所述特征值确定所述每个候选翻译文本的质量类别值,并根据所述质量类别值对每个候选翻译文本进行质量分类;
根据所述每个候选翻译文本的分类结果选取翻译文本。
5.一种文本翻译的装置,其特征在于,所述装置包括:
分词模块,用于将待翻译文本进行分词处理;
构造模块,用于为所述分词模块分词后的待翻译文本构造检索查询串,所述检索查询串中包含所述待翻译文本及分词结果中的至少一个词对应的翻译信息;所述检索查询串能够根据检索结果进行多次构造;
检索模块,用于将所述构造模块构造的所述检索查询串在搜索引擎中进行检索,得到检索结果;
抽取模块,用于在所述检索模块得到的所述检索结果中抽取候选翻译文本;
处理模块,用于对所述抽取模块抽取的所述候选翻译文本进行质量评价及筛选,得到翻译文本;
识别模块,用于在所述分词模块将待翻译文本进行分词处理之后,对分词后的所述待翻译文本进行术语特性识别;
相应地,所述构造模块,具体用于根据所述识别模块的识别结果为分词后的待翻译文本构造检索查询串;
所述术语特性识别的方式为采用命名实体识别和规则模式匹配相结合的方式,所述命名实体识别对人名、地名、组织机构名进行识别,所述规则模式匹配具体步骤为:
首先,收集一个包含各类术语的语料库,对其进行分词和词性标注;
其次,统计各类术语的词汇构造模式和词性构成模式,构建一个规则模式库;
最后,将用户输入的待翻译文本与构建的规则模式库中的规则进行匹配,如果匹配成功,则识别结果为待翻译文本具有术语特性;否则,识别结果为待翻译文本不具有术语特性。
6.根据权利要求5所述的装置,其特征在于,所述装置,还包括:
存储模块,用于根据所述搜索引擎的类型,将所述检索模块检索到的检索结果进行存储。
7.根据权利要求5所述的装置,其特征在于,所述抽取模块,具体包括:
构建单元,用于根据所述检索结果构建后缀树,所述后缀树中包括重复串;
过滤单元,用于将所述后缀树中的重复串按预设过滤原则进行过滤;
处理单元,用于对过滤后的重复串进行边界切割及扩展处理,得到候选翻译文本。
8.根据权利要求5所述的装置,其特征在于,所述处理模块,具体包括:
计算单元,用于计算每个候选翻译文本与所述待翻译文本互为翻译的特征值;
分类单元,用于根据计算的所述特征值确定所述每个候选翻译文本的质量类别值,并根据所述质量类别值对每个候选翻译文本进行质量分类;
选取单元,用于根据所述每个候选翻译文本的分类结果选取翻译文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010178107.7A CN102253930B (zh) | 2010-05-18 | 2010-05-18 | 一种文本翻译的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010178107.7A CN102253930B (zh) | 2010-05-18 | 2010-05-18 | 一种文本翻译的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102253930A CN102253930A (zh) | 2011-11-23 |
CN102253930B true CN102253930B (zh) | 2016-03-23 |
Family
ID=44981202
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010178107.7A Active CN102253930B (zh) | 2010-05-18 | 2010-05-18 | 一种文本翻译的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102253930B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103377217A (zh) * | 2012-04-24 | 2013-10-30 | 苏州引角信息科技有限公司 | 专业英语词库的建构方法及系统 |
CN102902667A (zh) * | 2012-10-12 | 2013-01-30 | 曾立人 | 一种翻译记忆匹配结果显示方法 |
CN104346382B (zh) * | 2013-07-31 | 2017-08-29 | 香港理工大学 | 使用语言查询的文本分析系统和方法 |
CN103678287B (zh) * | 2013-11-30 | 2016-12-07 | 语联网(武汉)信息技术有限公司 | 一种关键词翻译统一的方法 |
CN103886064B (zh) * | 2014-03-19 | 2017-11-17 | 宇龙计算机通信科技(深圳)有限公司 | 一种语言融合搜索装置及方法 |
CN104239293B (zh) * | 2014-08-18 | 2017-07-04 | 武汉传神信息技术有限公司 | 一种基于机器翻译的专名翻译方法 |
CN104462072B (zh) * | 2014-11-21 | 2017-09-26 | 中国科学院自动化研究所 | 面向计算机辅助翻译的输入方法与装置 |
CN104462074B (zh) * | 2014-12-26 | 2018-04-10 | 北京奇虎科技有限公司 | 一种进行网页数据翻译的方法、装置和浏览器客户端 |
CN105808528B (zh) * | 2016-03-04 | 2019-01-25 | 张广睿 | 一种文档文字的处理方法 |
CN105760368B (zh) * | 2016-03-11 | 2019-02-12 | 张广睿 | 一种文档文字的深度处理方法 |
CN106021239B (zh) * | 2016-04-29 | 2018-10-26 | 北京创鑫旅程网络技术有限公司 | 一种翻译质量实时评价方法 |
CN109710952B (zh) * | 2018-12-27 | 2023-06-16 | 北京百度网讯科技有限公司 | 基于人工智能的翻译历史检索方法、装置、设备和介质 |
CN109858029B (zh) * | 2019-01-31 | 2023-02-10 | 沈阳雅译网络技术有限公司 | 一种提高语料整体质量的数据预处理方法 |
CN111597826B (zh) * | 2020-05-15 | 2021-10-01 | 苏州七星天专利运营管理有限责任公司 | 一种辅助翻译中处理术语的方法 |
AU2021104429A4 (en) * | 2021-07-22 | 2021-09-16 | Chinese Academy Of Surveying And Mapping | Machine Translation Method for French Geographical Names |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1687925A (zh) * | 2005-05-10 | 2005-10-26 | 贺方升 | 一种实现双语网页搜索的方法 |
CN101042692A (zh) * | 2006-03-24 | 2007-09-26 | 富士通株式会社 | 基于语义预测的译文获取方法和设备 |
CN101131705A (zh) * | 2007-09-27 | 2008-02-27 | 中国科学院计算技术研究所 | 一种新词发现方法和系统 |
CN101676898A (zh) * | 2008-09-17 | 2010-03-24 | 中国科学院自动化研究所 | 一种借助网络知识辅助的汉英机构名翻译方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2500334A1 (en) * | 2002-09-30 | 2004-05-21 | Ning-Ping Chan | Blinking annotation callouts highlighting cross language search results |
-
2010
- 2010-05-18 CN CN201010178107.7A patent/CN102253930B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1687925A (zh) * | 2005-05-10 | 2005-10-26 | 贺方升 | 一种实现双语网页搜索的方法 |
CN101042692A (zh) * | 2006-03-24 | 2007-09-26 | 富士通株式会社 | 基于语义预测的译文获取方法和设备 |
CN101131705A (zh) * | 2007-09-27 | 2008-02-27 | 中国科学院计算技术研究所 | 一种新词发现方法和系统 |
CN101676898A (zh) * | 2008-09-17 | 2010-03-24 | 中国科学院自动化研究所 | 一种借助网络知识辅助的汉英机构名翻译方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN102253930A (zh) | 2011-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102253930B (zh) | 一种文本翻译的方法及装置 | |
US8712758B2 (en) | Coreference resolution in an ambiguity-sensitive natural language processing system | |
CN103136352B (zh) | 基于双层语义分析的全文检索系统 | |
CN100416570C (zh) | 一种基于问答库的中文自然语言问答方法 | |
US8463593B2 (en) | Natural language hypernym weighting for word sense disambiguation | |
CA2698054C (en) | Coreference resolution in an ambiguity-sensitive natural language processing system | |
US8280721B2 (en) | Efficiently representing word sense probabilities | |
Wang et al. | Improving text classification by using encyclopedia knowledge | |
US9483557B2 (en) | Keyword generation for media content | |
Al-Zoghby et al. | Arabic semantic web applications–a survey | |
CN114065758B (zh) | 一种基于超图随机游走的文档关键词抽取方法 | |
CN102789464B (zh) | 基于语意识别的自然语言处理方法、装置和系统 | |
KR100835706B1 (ko) | 자동 색인을 위한 한국어 형태소 분석 시스템 및 그 방법 | |
CN104281702A (zh) | 基于电力关键词分词的数据检索方法及装置 | |
Jabbar et al. | A survey on Urdu and Urdu like language stemmers and stemming techniques | |
JP2011118689A (ja) | 検索方法及びシステム | |
KR20070007001A (ko) | 질의어 자동 추출을 이용한 검색 방법 및 장치 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
Garrido et al. | TM-gen: A topic map generator from text documents | |
US8229970B2 (en) | Efficient storage and retrieval of posting lists | |
Saad | Mining documents and sentiments in cross-lingual context | |
US9305103B2 (en) | Method or system for semantic categorization | |
CN114238616A (zh) | 一种专家信息检测方法和存储设备 | |
Tran et al. | A model of vietnamese person named entity question answering system | |
Bawakid | Automatic documents summarization using ontology based methodologies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |