CN101593173B - 一种汉英反向音译方法及装置 - Google Patents
一种汉英反向音译方法及装置 Download PDFInfo
- Publication number
- CN101593173B CN101593173B CN2008101132943A CN200810113294A CN101593173B CN 101593173 B CN101593173 B CN 101593173B CN 2008101132943 A CN2008101132943 A CN 2008101132943A CN 200810113294 A CN200810113294 A CN 200810113294A CN 101593173 B CN101593173 B CN 101593173B
- Authority
- CN
- China
- Prior art keywords
- transliteration
- english
- module
- chinese
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000013519 translation Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims description 14
- 239000012634 fragment Substances 0.000 claims description 12
- 238000012937 correction Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 6
- 230000008676 import Effects 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 230000014616 translation Effects 0.000 description 22
- 238000005065 mining Methods 0.000 description 10
- 238000010010 raising Methods 0.000 description 7
- 239000000463 material Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013179 statistical model Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 235000015392 Sesbania grandiflora Nutrition 0.000 description 1
- 244000275021 Sesbania grandiflora Species 0.000 description 1
- 101150041570 TOP1 gene Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000008140 language development Effects 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
Images
Abstract
本发明涉及一种汉英反向音译的方法和装置,将待翻译的中文音译名转换成汉语拼音序列表示,借助统计音译模块来生成音译候选;通过修正模块将音译候选修正为真实的英文单词,修正模块借助从大规模的网页上搜集的真实英文单词构成的词汇表;使用修正过的真实英文单词作为查询来验证翻译结果,利用搜索引擎得到的网页资源对修正后的音译候选进行重排序,对网页上以命名实体角色出现的词给予更高的评分,从而滤掉普通的英文单词。该方法能够克服统计模型在音译过程中丢失不发音音节和选择错误的相同发音音节等问题,有效地提高了音译的精确率。经过实验证明,在开放测试中,音译的精确率提高了17.55%。
Description
技术领域
本发明涉及自然语言处理技术领域,是一种借助网络挖掘辅助汉英反向音译的方法及装置。
背景技术
命名实体包括人名、地名、机构名等七类。命名实体在人类语言中传递着重要信息,它的识别和翻译是自然语言处理研究中的关键技术之一。在多语言处理中,命名实体的识别和翻译结果直接影响到自然语言的理解。音译是指在从源语言到目标语言的翻译过程中,保持了发音的近似性。绝大多数的人名翻译采取音译,音译也是地名翻译和机构名翻译的重要组成部分。因此,中文到英文的反向音译研究具有重要的理论意义和实用价值。
传统的音译一般采取统计的方法:将作为训练语料的双语音译对按照一定的方式切分和预处理,然后进行对齐,形成对齐概率。当翻译新的音译名时,按照同样的方式进行切分和预处理,然后根据已得到的对齐概率,搜索出一个基于此概率的最优翻译结果。
对于汉英反向音译,主要面临两个困难,一是在将英语音译成汉语的过程中,不发音音节被损失掉了,所以在恢复的过程中,要将不发音音节补充出来是有难度的。例如,在将英文人名“Campbell”翻译为“坎贝尔”的过程中,没有发音的音节“p”被省略了。二是在统计音译模型中,音节的选择根据发音来进行,而音节之间的限制因素不明显,从而容易出现选择的偏置。例如,在英文中,音节“c”和音节“k”具有近似的发音规律,在反向音译“克林顿/Clinton”时,容易出现音节选择的错误。
发明内容
本发明的目的是针对汉英反向音译存在的两大难点问题,将网络资源引入汉英反向音译的过程中,实现从中文音译名到对应英文音译名的翻译,为此,提供一种借助网络挖掘辅助的汉英反向音译方法和装置。
为达成所述目的,本发明第一方面,是提供一种汉英反向音译方法,步骤如下:
步骤1:将待翻译的中文音译名转换成汉语拼音序列表示,借助统计音译模块来生成音译候选;
步骤2:通过修正模块将音译候选修正为真实的英文单词,修正模块将借助从大规模的网页上搜集的真实英文单词构成的词汇表;
步骤3:使用修正过的真实的英文单词作为查询来验证翻译结果,重排序模块利用从搜索引擎得到的网页资源对修正后的音译候选进行重排序,将网页上以命名实体角色出现的词给予更高的评分,从而滤掉普通的英文单词。
根据本发明的实施例,所述音译候选,是使用训练好的统计音译模块将汉语拼音序列根据对齐概率进行翻译,得到英文字符序列,输出N个最大概率的若干个英文字符序列作为音译候选。
根据本发明的实施例,所述修正过程是将统计音译模块产生的音译候选映射为与之最接近的真实英文单词。
根据本发明的实施例,所述修正为与之最接近的真实英文单词,是将N个英文音译候选放入修正模块,借助一个从网页中收集的英文真实词汇表,检索与每个音译候选最相似的K个真实英文单词。
根据本发明的实施例,所述真实英文单词重排序,是将M个真实英文单词送入重排序模块,使用搜索引擎实时查询每个真实英文单词,得到搜索引擎返回的10个网页片段。
根据本发明的实施例,所述验证翻译结果,是利用网页片段中的上下文验证该真实英文单词是否是一个英文命名实体,从而对M个音译候选进行重排序,得分最高的真实英文单词将作为原中文音译名的英文翻译结果。
为达成所述目的,本发明第二方面提供一种汉英反向音译装置,解决技术问题的技术方案包括:
统计音译模块接收并训练汉语音译名的拼音序列,使用经训练得到的汉语拼音与英文音节的对齐概率进行翻译,并输出概率最高的若干个英文字符序列作为音译候选;
修正模块与统计音译模块连接,修正模块接收音译候选,将音译候选在从大规模网页中搜集的真实词汇表中进行映射修正,输出与音译候选最相近的若干真实单词;
重排序模块与修正模块连接,重排序模块接收由音译候选修正得到的真实单词并输入网页搜索引擎,根据命名实体出现的次数对修正候选进行重排序,输出最优结果。
根据本发明的实施例,所述修正模块还包括,用于将N个英文音译候选借助从网页中的英文真实词汇表,检索与每个音译候选最相似的K个真实英文单词。
根据本发明的实施例,所述重排序模块还包括,使用搜索引擎实时查询每个真实英文单词,用于得到搜索引擎返回的10个网页片段。
本发明的有益效果:汉英反向音译是将某个已存在的英文音译名的汉语表示还原为英语表示的过程。本发明不同于传统的仅使用统计模型进行汉英反向音译的方法,本发明的系统将统计模型和网络资源结合在一起,加入了借助网络资源的修正模块和重排序模块,通过修正模块,可以更好地解决统计音译模型的两个难点,即不发音音节补充,以及具有相似发音特点的音节的选择问题。通过重排序模块,我们根据单词在真实文本中以命名实体角色出现的频度来重排序修正后的音译候选,从而有效地提高系统的精确率。先使用基于音节的统计音译模型生成若干音译候选。对这些音译候选,将借助一个在大规模网页中搜集的真实词汇表,使用信息检索的若干方法对音译候选进行修正,将统计模块产生的候选映射到与之最接近的真实单词。最后,我们使用互联网实时查询这些修正后的单词,通过返回的网页片段(snippets)信息,验证单词是否是命名实体,从而得到最后结果。本发明针对汉英反向音译存在的两大难点入手,将网络资源引入汉英反向音译的过程中,本发明的方法能够克服统计模块在音译过程中丢失不发音音节和选择错误的相同发音音节等问题,通过实验证明,有效地提高了音译的精确率。经过实验证明,在开放测试中,音译的精确率提高了17.55%。
附图说明
图1是本发明中借助网络挖掘辅助的汉英反向音译流程图;
图2是本发明中借助网络挖掘辅助的汉英反向音译装置结构图;
图3精确率随音译名音节长度的变化示意图。
具体实施方式
下面将结合附图说明和具体实施方式对本发明方法作进一步详细描述,应指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
为了解决汉英反向音译存在的两大难点问题,本发明是借助网络资源,来验证统计音译模块1的结果或者直接从网页上抽取目标翻译。
如图1本发明借助网络挖掘辅助的汉英反向音译流程图所示,本发明使用借助网络挖掘的方法辅助汉英反向音译的前提是首先要能构造一个有效的查询,其次是这个查询能够挖掘到汉英双语网页。而仅使用中文音译名作为查询内容是无法达到这个效果的,因此我们需要借助统计音译模块1来生成一些音译候选,使用这些候选作为线索辅助构造查询。同时考虑到统计音译模块1生成的词不一定是一个真实的英文单词,这也是无法构成有效查询的,因此我们需要先将统计音译模块1的结果修正为一个真实的英文单词,然后才能进行检索。通过修正的过程,我们可以尝试克服统计音译模块1存在的两个困难。修正过程将统计音译模块1产生的结果映射为与之最接近的真实英文单词,这些英文单词将从大规模的网页上搜集。然后我们就可以使用修正过的单词作为查询来验证翻译结果,我们使用检索到的网页资源来对修正过的音译候选进行重排序,将网页上以命名实体角色出现的词给予更高的评分,从而滤掉普通的单词。
本发明要求开发和运行的计算机具有Linux操作系统以及C++和C语言开发编译环境,具有正常的网络连接条件,对硬件没有特殊要求。
如图2借助网络挖掘辅助的汉英反向音译装置的结构图所示,下面对照附图2进行说明,图中由三部分构成:统计音译模块1、修正模块2和重排序模块3,统计音译模块1、修正模块2和重排序模块3依次顺序连接,其中:
统计音译模块1接收并训练汉语音译名的拼音序列,使用经训练得到的汉语拼音与英文音节的对齐概率进行翻译,并输出概率最高的若干个英文字符序列作为音译候选;
修正模块2与统计音译模块1连接,修正模块2接收音译候选,将音译候选在从大规模网页中搜集的真实词汇表中进行映射修正,输出与音译候选最相近的若干真实单词;
重排序模块3与修正模块2连接,重排序模块3接收由音译候选修正得到的真实单词并输入网页搜索引擎,统计命名实体出现的次数并对修正候选进行重排序,输出最优结果。
本发明首先构建了一个基于音节统计的汉英反向统计音译模块1,本发明的基本思想是通过挖掘网络丰富的语料资源,对统计音译模块1生成的音译候选进行筛选和重排序,从而提高汉英反向音译任务的精确率。
该统计音译模块1的输入是中文音译名的拼音序列,每个中文汉字的拼音表示组成一个单元。在统计音译模块中,采用汉语拼音与英文音节相对应的对齐方式。在训练过程中,英文单词将按照若干规则切分为音节序列。统计音译模块1根据事先通过训练得到的汉语拼音到英文音节的对齐概率进行翻译,最后输出概率最高的若干个英文字符序列作为音译候选。这些音译候选将进入修正模块2进行修正。修正模块2使用信息检索的方法,将音译候选作为查询内容,使用大规模网页中搜集的真实词汇作为文本库,对音译候选进行检索。即将统计音译模块1产生的音译候选映射为与它最相近的若干真实英文单词。真实英文单词即指在网页中存在的,为人们所公认有意义的英文字符序列。最后进入重排序模块3,在该重排序模块3中,修正过的候选被输入搜索引擎,在英语网页上进行检索,我们得到搜索引擎返回的网页片段(snippets),并统计其中该候选作为命名实体出现的次数,以此为依据对候选进行重排序,最优结果将作为音译结果返回。
下面是一个具体的翻译实例,如表1所示:
表1为汉英反向音译示例
中文音译名 | 统计音译候选 | 完成修正的候选 | 重排序的结果 |
阿加西a jia xiAgassi | aggasiagashiagacyagasie… | agasiagathiagatheagassi… | agassiagasiagacheagga… |
表1中,第一列是待翻译的中文音译名、它的拼音表示和正确的音译结果。第二列是统计音译模块1生成的若干个候选,我们可以看到,这些候选都存在误差,且多数候选不是一个真实单词。第三列是统计模的音译候选经过修正模块2后的结果,可以看到,这些结果现在都是真实的英文单词,但是正确结果不一定排在最前面。第四列是经过重排序模块3后的结果,可以看到,正确结果现在被排在了第一位。通过这个示例,我们可以直观得看到整个过程的具体情况。
本发明采用挖掘网络资源的思想来提升汉英反向音译的效果,与简单的基于统计模型的音译不同。统计音译模的结果将作为“线索”去检索网络资源,使用检索到的网络资源对结果进行验证。经过修正模块,统计模的结果中的拼写错误被修正,从而得到一个与之最接近的正确英文单词。经过重排序模块,候选被重排序,不是命名实体的单词被剔除,从而提高了结果的精确率。经过上述两个步骤,系统性能得到了显著的提升。
借助网络挖掘辅助的汉英反向音译方法和装置可以分为训练过程和翻译过程两部分。训练过程即从训练语料中产生一个基于英文音节和汉语拼音对应的统计音译模块1。翻译过程则分三个模块进行,即统计音译模块1、修正模块2和重排序模块3。具体过程如下:
训练过程包括:
(1)、将训练语料(人名中英对照翻译对)中的中文人名转化为汉语拼音表示方式,将英文人名按规则切分为英文音节表示方式。
(2)、利用GIZA++工具,从中文到英文和英文到中文两个方向,对训练语料进行对位,由对位结果可以得到汉语拼音与英文音节的翻译概率p(ei|oi)和p(oi|ei)。
(3)、从汉语拼音与英文音节对齐后的结果中抽取短语,并得到短语的概率。
翻译过程步骤包括:
步骤(1)、将待翻译的中文音译名转换成汉语拼音表示;
步骤(2)、使用训练好的统计音译模块1进行翻译,得到最好的N个音译候选(N-best);
步骤(3)、将N个音译候选放入修正模块2,在一个从网页中收集的英文真实词汇表,并结合查询扩展的方法,检索与每个音译候选最相似的K个真实英文单词。
步骤(4)、总共M个真实英文单词被送入重排序模块3,每个真实英文单词使用搜索引擎得到10个返回的网页片段(snippets)。根据网页片段中的上下文验证该真实英文单词是否是一个命名实体,从而对M个音译候选进行重排序。得分最高的真实英文单词将作为原中文音译名的英文翻译结果。
在翻译过程步骤(4),即对修正后的候选重排序的步骤中进行英文命名实体识别采用的工具是lingpipe。
下面详细说明本发明技术方案中所涉及的各个细节问题。如图3精确率随音译名音节长度的变化示意图所示:
1英文音节切分规则
在训练过程中,首先需要将英文单词切分为音节序列,我们采用规则的方法进行切分,详细切分规则如下所示:
1)定义a,e,i,o,u为“元音”。当y紧跟一个“辅音”出现的时候,它被定义为“元音”,其他时候被定义为“辅音”。其他字母被定义为“辅音”;
2)当“鼻音”m和n被元音包围的时候,双写该“鼻音”。当“鼻音”紧跟一个元音出现时,该“鼻音”和“元音”组合成一个新的“元音”代替原来的两个音;
3)将连续的“辅音”切分开;
4)将连续的“元音”合并成一个单一的“元音”;
5)一个“辅音”和一个紧跟的“元音”形成一个“音节”;
6)剩下的每一个孤立的“元音”或者“辅音”被当作一个独立的“音节”。
例如:“Clinton”将被切分为“C/lin/ton”。
2音译名对位和统计音译模块1
已有中英对照的音译名翻译对,采用GIZA++对位工具,可以得到一系列生成文件,我们只利用其中的汉语拼音与英文音节的对齐概率文件。我们利用GIZA++工具,从两个方向(中文到英文和英文到中文)实现汉语拼音到英语音节的对齐,可以得到两个对齐概率文件。这两个对齐概率文件将用于统计音译模块1的解码过程中。
在统计音译模块1中,目标语言的句子f=f1f2...fn将被看成是一个噪声信道的输出,信道的输入则是源语言的句子e=e1e2...em。我们使用后验概率最大化的方式来找到输入的源语言句子。公式如下:
应用于本发明的系统中,则f代表汉语拼音序列,e代表英文音节序列。目标就是在给定汉语拼音序列的基础上,搜索使后验概率最大化的英文音节序列。其中P(e)代表了描述英文音节相互同现关系的语言模型,因为英文音节不同于英文单词,不代表实际的意义,因此这个语言模型的描述能力是很弱的。
3修正模块2
统计音译模块1产生了音译候选后,我们需要对产生的候选进行修正。统计音译模块1用于汉英反向音译存在两个主要困难:1)在反向音译过程中,英文中不发音的音节难以恢复出来;2)在统计音译模块1中,具有相同发音的音节的选择完全取决于概率因素,因此难免造成错误。由于存在的这两个问题,统计音译模块1翻译出来的结果有可能是错误的,或者根本就不是真实的英文单词。在修正模块2中,我们需要将这些候选映射为真实的英文单词,从而在重排序模块3可以作为查询项输入搜索引擎。
修正的主要思想是:将统计音译模块1生成的音译候选SCi映射到与它最相近的若干个真实英文单词上,得到新的候选集合RC={RC1,RC2,...RCn}。映射过程采用信息检索的方法,即将音译候选SCi视为由若干个英文音节组成的查询,每个英文音节即为一个term(项),表示为音节序列的形式,即音译候选SCi={ES1,ES2,...ESk}。每个真实英文单词则视为被检索的文档,同样用英文音节为term(项)表示,即真实英文单词Wi={ES1,ES2,...ESp}。检索的过程即为比较相似性的过程。为了克服统计音译模块1丢失不发音英文音节的缺陷,可以对不发音英文音节设置较低的权值。同样,为了修复统计音译模块1在英文音节选择上的错误,我们使用查询扩展的方法,将每个term(项)扩展到和它有较高相似性的若干其他term(项)上,从而能够扩大搜索的空间。具体的操作如下所述:
1)搜集英语词汇表
我们需要事先搜集一个足够大的英语真实词汇表,当进行检索操作时,统计音译模块1的结果将被映射为表中与之最接近的真实英文单词。如果英文真实词汇表足够大,则需要翻译的音译名都包含在表中,从而可以对统计音译模块1的结果进行有效的修正。我们搜集了2GB的网页,从这些网页中搜集到了一个约含67万真实英文单词的词汇表。
2)查询扩展列表的准备
为了能够在检索中进行查询扩展,我们需要从训练语料中统计得到一个查询扩展列表。查询扩展的主要目的是要将统计音译模块1在选择音节的过程中丢失的音节候选都补充出来。因此我们定义了两种扩展方式,一种是根据相似发音的查询扩展,一种是根据编辑距离的查询扩展。根据相似发音的查询扩展用于解决统计音译模块1选择音节时的偏置,我们对每一种汉语拼音音节,选择20个与之对齐概率最高的英文音节组成一个扩展集合。根据编辑距离的扩展则用于处理在训练语料中没有出现过的音节,可以提高翻译系统的适应能力。我们对每一种英文音节,选择10个与之编辑距离最小的英文音节组成一个扩展集合,选择的范围是从网页上搜集的英文真实词表中。
3)检索算法
我们使用检索算法将统计音译模块1产生的候选SCi在真实词汇表W上检索出与之最相近的真实英文单词,以此作为对SCi的修正。检索的具体步骤如下:
A.将SCi按切分规则切分为英文音节序列{ES1,ES2,...ESk};
B.初始化词表W,将W中的每一个真实英文单词Wk按规则切分为英文音节序列{WSi1,WSi2,...WSik},并建立倒排结构。每个英文音节按照其是否具有发音的概率得到一个权值swi,其中0<swi<=1;
C.将{ES1,ES2,...ESk}做为查询在W中进行查找,每个拼音根据查询扩展为一个近似发音集合(SSi1,SSi2,...SSik);
D.相似度最高的N个真实英文单词{Wi1,Wie,...Win}被返回,作为对SCi的修正结果。
4重排序模块3
经过修正模块2后,每个统计音译模块1生成的音译候选都被映射为与之最接近的真实英文单词。接下来的任务是借助网络资源,进行重排序,将正确的结果尽可能排在前面。因为我们进行翻译的是命名实体,所以我们希望能够在返回的网页片段(snippets)中识别出目标词是否是命名实体,以此来排除噪声。重排序的具体过程如下:
1)将修正过的候选RCi输入搜索引擎,检索英文单语网页;
2)得到前n个网页片段(snippets)集合{SN1,SN2,...SNn};
3)对每个SNi进行英文的命名实体识别;
4)统计每个RCi作为命名实体出现的个数以及hit数;
5)根据4)中得到的数值重排序所有RCi。
其中,重排序模块运行步骤3)中的识别工作我们将使用英文命名实体识别软件lingpipe来完成。
5实验结果
为了说明系统的性能,我们做了多个实验来验证各个模块的性能。我们的实验主要分为两个部分,分别验证了修正模块2对系统召回率的提高和重排序模块3对系统精确率的提高。
1)训练和测试语料
训练语料主要用于训练统计音译模块1和统计查询扩展列表。我们使用的语料是Chinese<->English Name Entity Lists v1.0(LDC2005T34)。我们从中选择了14,443个中英文音译对进行训练。其中1,344个音译对被作为是封闭测试的语料。另外我们选取1,294个音译对作为开放测试的语料。另外我们搜集了2GB的英文网页,从中提取了一个含672,533个单词的词表。
2)修正模块2对召回率的提高
我们通过对比统计音译模块1的结果与修正模块2的结果来说明修正模块对召回率的提高。如表2统计音译模块1结果与修正结果对比:
表2.修正模块与统计音译模块的比较
从上表可以看到,相对于统计音译模块1的结果,修正后前100个返回项中包含正确答案的比率提高到17.55%。因此可以说明,修正模块2能够有效地纠正统计音译模块1丢失不发音音节以及音节选择偏置的问题。更进一步的,在附图3中,我们统计了召回率随音节个数的提高状况,可以看出,在比较短的音译名上,统计音译模块1表现得不错,在长的音译名上错误率较高,修正模块2对结果精确率的提高也是很显著。
3)重排序模块3对精确率的提高
重排序模块3可以提高结果的精确率,我们对比了统计音译模块1、修正模块2和重排序模块3的结果,如下表3修正结果与重排序结果的对比所示:
表3.修正模块与重排序模块的比较
Top1 | 27.15 | 11.04 | 58.08 | 38.63 |
Top5 | 42.83 | 19.69 | 76.35 | 52.19 |
Top10 | 56.98 | 26.52 | 83.92 | 54.33 |
Top20 | 71.05 | 37.81 | 83.92 | 57.61 |
Top50 | 82.16 | 46.22 | 83.92 | 57.61 |
Top100 | 85.78 | 59.28 | 85.78 | 59.28 |
从上表可以看出,经过重排序模块3后,正确结果将集中在前5个返回的结果中,从而大大提高了系统的精确率。
从上述实验结果可以看到,使用网络挖掘的方法辅助汉英反向音译取得了不错的效果。这个方法被证明是有效的。
借助网络挖掘辅助的汉英反向音译的具体步骤入下:
步骤1:将汉语音译名转化为拼音序列,使用统计音译模块进行音译,生成若干音译候选;
步骤2:在一个大规模词表上对音译候选进行修正操作;
步骤3:使用修正后的结果进行查询,在返回的snippets中判断该词是否命名实体,从而过滤掉噪声词,提升系统的精确率。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (9)
1.一种汉英反向音译方法,其特征在于,包括步骤如下:
步骤1:将待翻译的中文音译名转换成汉语拼音序列表示,借助基于使用汉语拼音与英文音节对齐概率的统计音译模块来生成音译候选;
步骤2:通过使用基于发音相似度和编辑距离的修正模块将音译候选修正为真实英文单词,修正模块将利用从大规模网页上搜集的真实英文单词构成的真实英文词汇表;
步骤3:使用修正过的真实英文单词作为查询来验证翻译结果,重排序模块利用从搜索引擎得到的网页资源对修正后的音译候选进行重排序,将网页上以命名实体出现的词给予更高的评分,从而滤掉普通的英文单词。
2.根据权利要求1所述的汉英反向音译方法,其特征在于:所述音译候选,是使用训练好的统计音译模块将汉语拼音序列根据对齐概率进行翻译,得到英文字符序列,输出N个最大概率的若干个英文字符序列作为音译候选。
3.根据权利要求1所述的汉英反向音译方法,其特征在于:所述修正过程是将统计音译模块产生的音译候选映射为与之最接近的真实英文单词。
4.根据权利要求3所述的汉英反向音译方法,其特征在于:所述最接近的真实英文单词,是将N个英文音译候选放入修正模块,借助一个从网页中收集的真实英文词汇表,检索与每个音译候选最相似的K个真实英文单词。
5.根据权利要求1所述的汉英反向音译方法,其特征在于:真实英文单词重排序,是将M个真实英文单词送入重排序模块,使用搜索引擎实时查询每个真实英文单词,得到搜索引擎返回的10个网页片段。
6.根据权利要求1所述的汉英反向音译方法,其特征在于:所述验证翻译结果,是利用网页片段中的上下文验证该真实英文单词是否是一个英文命名实体,从而对M个音译候选进行重排序,得分最高的真实英文单词将作为原中文音译名的英文翻译结果。
7.一种汉英反向音译装置,其特征在于,包括:
统计音译模块接收汉语音译名的拼音序列,使用经训练得到的汉语拼音与英文音节的对齐概率进行翻译,并输出概率最高的若干个英文字符序列作为音译候选;
修正模块与统计音译模块连接,修正模块接收音译候选,将音译候选在从大规模网页中搜集的真实英文词汇表中通过使用基于发音相似度和编辑距离的方法进行映射修正,输出与音译候选最相近的若干真实英文单词;
重排序模块与修正模块连接,重排序模块接收由音译候选修正得到的真实英文单词并输入网页搜索引擎,根据命名实体出现的次数对修正候选进行重排序,输出最优结果。
8.根据权利要求7所述的汉英反向音译装置,其特征在于:所述修正模块还包括,用于将N个英文音译候选借助从网页中获取的真实英文词汇表,检索与每个音译候选最相似的K个真实英文单词。
9.根据权利要求7所述的汉英反向音译装置,其特征在于:所述重排序模块还包括,使用搜索引擎实时查询每个真实英文单词,用于得到搜索引擎返回的10个网页片段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101132943A CN101593173B (zh) | 2008-05-28 | 2008-05-28 | 一种汉英反向音译方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101132943A CN101593173B (zh) | 2008-05-28 | 2008-05-28 | 一种汉英反向音译方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101593173A CN101593173A (zh) | 2009-12-02 |
CN101593173B true CN101593173B (zh) | 2011-08-10 |
Family
ID=41407834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008101132943A Expired - Fee Related CN101593173B (zh) | 2008-05-28 | 2008-05-28 | 一种汉英反向音译方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101593173B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102193643B (zh) * | 2010-03-15 | 2014-07-02 | 北京搜狗科技发展有限公司 | 一种文字输入方法和具有翻译功能的输入法系统 |
JP5090547B2 (ja) * | 2011-03-04 | 2012-12-05 | 楽天株式会社 | 翻字処理装置、翻字処理プログラム、翻字処理プログラムを記録したコンピュータ読み取り可能な記録媒体、及び翻字処理方法 |
CN103632668B (zh) * | 2012-08-21 | 2018-07-27 | 北京百度网讯科技有限公司 | 一种基于中文语音信息训练英文语音模型的方法与设备 |
CN103810993B (zh) * | 2012-11-14 | 2020-07-10 | 北京百度网讯科技有限公司 | 一种文本注音方法及装置 |
CN104239289B (zh) * | 2013-06-24 | 2017-08-29 | 富士通株式会社 | 音节划分方法和音节划分设备 |
CN104657343B (zh) * | 2013-11-15 | 2017-10-10 | 富士通株式会社 | 识别音译名的方法及装置 |
CN105095194A (zh) * | 2014-05-23 | 2015-11-25 | 富士通株式会社 | 抽取姓名词典和翻译规则表的方法和设备 |
CN105786802B (zh) * | 2014-12-26 | 2019-04-12 | 广州爱九游信息技术有限公司 | 一种外语的音译方法及装置 |
CN106952020A (zh) * | 2017-02-25 | 2017-07-14 | 深圳市前海安测信息技术有限公司 | 医疗信息化基于网页的医生评级推荐系统及方法 |
CN108255817B (zh) * | 2018-01-19 | 2020-06-12 | 中国科学院软件研究所 | 基于web检索的实体翻译方法 |
CN108197122B (zh) * | 2018-01-22 | 2018-11-23 | 河海大学 | 基于音节嵌入的藏汉人名音译方法 |
CN109558600B (zh) * | 2018-11-14 | 2023-06-30 | 抖音视界有限公司 | 翻译处理方法及装置 |
CN111475619A (zh) * | 2020-03-31 | 2020-07-31 | 北京三快在线科技有限公司 | 文本信息修正方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1945562A (zh) * | 2005-10-09 | 2007-04-11 | 株式会社东芝 | 训练音译模型、切分统计模型以及自动音译的方法和装置 |
CN101075230A (zh) * | 2006-05-18 | 2007-11-21 | 中国科学院自动化研究所 | 一种基于语块的中文机构名翻译方法及装置 |
-
2008
- 2008-05-28 CN CN2008101132943A patent/CN101593173B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1945562A (zh) * | 2005-10-09 | 2007-04-11 | 株式会社东芝 | 训练音译模型、切分统计模型以及自动音译的方法和装置 |
CN101075230A (zh) * | 2006-05-18 | 2007-11-21 | 中国科学院自动化研究所 | 一种基于语块的中文机构名翻译方法及装置 |
Non-Patent Citations (1)
Title |
---|
王斌等.汉英双语库自动分段对齐研究.《软件学报》.2000,第11卷(第11期),1547-1552. * |
Also Published As
Publication number | Publication date |
---|---|
CN101593173A (zh) | 2009-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101593173B (zh) | 一种汉英反向音译方法及装置 | |
CN110378409A (zh) | 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法 | |
CN100437557C (zh) | 基于语言知识库的机器翻译方法与装置 | |
CN103116578A (zh) | 一种融合句法树和统计机器翻译技术的翻译方法与装置 | |
CN103902525B (zh) | 维吾尔语词性标注方法 | |
Sen et al. | Neural machine translation of low-resource languages using SMT phrase pair injection | |
CN104462072A (zh) | 面向计算机辅助翻译的输入方法与装置 | |
CN105068997A (zh) | 平行语料的构建方法及装置 | |
CN101770458A (zh) | 基于实例短语的机器翻译方法 | |
CN101075230B (zh) | 一种基于语块的中文机构名翻译方法及装置 | |
CN101464856A (zh) | 平行口语语料的对齐方法和装置 | |
Ding et al. | The JHU machine translation systems for WMT 2016 | |
Huck et al. | Producing unseen morphological variants in statistical machine translation | |
CN106649289A (zh) | 同时识别双语术语与词对齐的实现方法及实现系统 | |
CN106156013A (zh) | 一种固定搭配型短语优先的两段式机器翻译方法 | |
Farhath et al. | Integration of bilingual lists for domain-specific statistical machine translation for sinhala-tamil | |
Dunđer | Machine translation system for the industry domain and Croatian language | |
CN101763403A (zh) | 面向多语言信息检索系统的查询翻译方法 | |
Hkiri et al. | Constructing a Lexicon of Arabic-English Named Entity using SMT and Semantic Linked Data. | |
Dandapat et al. | Using example-based MT to support statistical MT when translating homogeneous data in a resource-poor setting | |
Reheman et al. | Prompting neural machine translation with translation memories | |
Chen et al. | Towards automatic generation of natural language generation systems | |
Allauzen et al. | LIMSI’s statistical translation systems for WMT’10 | |
KR101616031B1 (ko) | 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법 | |
CN111414771B (zh) | 基于短语的神经机器翻译的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110810 Termination date: 20150528 |
|
EXPY | Termination of patent right or utility model |