CN101788978B - 一种拼音和汉字相结合的汉外口语自动翻译方法 - Google Patents

一种拼音和汉字相结合的汉外口语自动翻译方法 Download PDF

Info

Publication number
CN101788978B
CN101788978B CN2009102445136A CN200910244513A CN101788978B CN 101788978 B CN101788978 B CN 101788978B CN 2009102445136 A CN2009102445136 A CN 2009102445136A CN 200910244513 A CN200910244513 A CN 200910244513A CN 101788978 B CN101788978 B CN 101788978B
Authority
CN
China
Prior art keywords
chinese
phonetic
translation
chinese character
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2009102445136A
Other languages
English (en)
Other versions
CN101788978A (zh
Inventor
周玉
宗成庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongkefan Language Technology Co Ltd
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN2009102445136A priority Critical patent/CN101788978B/zh
Publication of CN101788978A publication Critical patent/CN101788978A/zh
Application granted granted Critical
Publication of CN101788978B publication Critical patent/CN101788978B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

一种拼音和汉字相结合的汉外口语自动翻译方法:首先将原始汉外双语语料的汉语部分进行字音转化和单字分割,得到基于拼音和基于汉字的汉外双语语料;分别利用基于拼音和汉字的汉外训练语料进行词对齐的训练,得到基于拼音和汉字的词对齐并对这两个词对齐进行融合得到融合后的词对齐文件;在此基础上抽取并学习翻译知识,得到基于拼音和基于汉字的翻译模型;结合外文语料的语言模型和翻译模型在开发集上进行最小错误训练,得到各个特征的特征权重及相关参数;最后进行融合解码生成最终翻译。该方法大大改善了翻译性能和系统的鲁棒性,与目前通用的基于字的翻译系统相比,系统性能利用机器翻译通用评测标准BLEU打分能够提高约10%。

Description

一种拼音和汉字相结合的汉外口语自动翻译方法
技术领域
本发明属于自然语言处理领域,特别涉及口语机器自动翻译方法和跨语言信息检索方法。
背景技术
口语翻译(Spoken Language Translation,SLT)又叫语音翻译(Speech-to-speech Translation,SST),就是利用计算机实现一种语言的语音到另一种语言语音的翻译过程。其基本思想是让计算机像人一样充当持不同语言的说话人之间翻译的角色。由于口语翻译涉及语言学、计算语言学、计算机科学和技术、语音识别与语音合成以及通讯技术等多种学科和技术,因此开展这项研究具有重要的科学意义。而该技术一旦获得突破,可以应用于社会生活的各个方面,例如,国际民航信息咨询,国际会议(包括体育运动会)信息综合服务,旅游信息咨询等,因此,该技术又蕴涵着潜在的巨大的社会效益和经济利益。为此,许多发达国家竞相投入巨资开展全国性或多国性的联合攻关。
目前的口语翻译系统都是首先将源语言的语音信号转换成文字,然后再对文字进行分析、转换、生成,最后将译文转换成语音信号输出。也就是说,口语翻译系统主要由语音识别、机器翻译和语音合成三个主要模块构成。正如前所述,目前的口语翻译系统首先由语音识别模块将语音信号转化成文字,然后翻译模块再对文字进行翻译处理。所以可以说,这里并没有很好的将语音识别和机器翻译真正有机统一和结合起来,整个系统相当于串联结构,前端的语音识别的错误会毫无保留的延续到后续的翻译模块当中。而当今的翻译方法无论是基于短语或基于句法的翻译系统,实际上还是针对字(单字或多字)进行训练和解码的,整个训练和解码流程如图1所示,该实施步骤为:1)在训练阶段,输入的是基于字(单字或多字)的汉外训练语料,通过步骤A1进行基于字的词对齐训练,获取基于字的词对齐文件,然后通过步骤A2,进行语言模型的训练,获取基于字的语言模型,通过步骤A3进行翻译模型的训练,获取基于字的翻译模型,而后通过步骤A4进行基于字的最小错误训练,获取基于字的翻译模型下的各种特征权重和各种优化参数,最后通过A5进行解码,得到最终翻译结果。从该流程图我们可以很清楚的看到,因为整个训练和解码过程都是基于字的,所以如果一旦语音识别输出的文字有误,则后续的基于字的翻译系统就很难对前端的错误得到很好的纠正,从而导致翻译质量下降。而且口语翻译系统由于口语的多变性尤其是汉语中大量同音异形字的存在会导致语音识别结果往往出现同音异形字,这对于基于字的翻译方法而言就成了未登陆词,即便不是未登陆词,也会导致组合的片段无法在翻译知识中找到很好的对应片段,使得翻译质量大大降低。也就是说以往的基于字形式的语音翻译方法根本无法解决这种同音异形字带来的错误,使得本来可以召回的这部分待翻译内容变成未登陆词或错误词汇片段,找不到相应义项导致翻译失败。
发明内容
为了解决这个问题,本发明提出了利用拼音替代汉字甚至是利用拼音和汉字两者相结合的方法来对翻译模块进行训练和解码,不仅能够有效降低语音识别由于同音异形字导致的错误,而且由于将拼音和汉字相互结合,能够获取更准确的翻译规则,从而增强系统的鲁棒性,提高口语翻译系统的质量。针对现有技术的问题,本发明的目的是对现有的口语翻译系统进行改善提高,提出一种将拼音和汉字相结合的翻译方法,希望利用拼音和汉字的结合来有效降低未登陆词导致的错误,并通过两者相互结合的方法来提高词对齐的精度,生成更可信的翻译规则,从而提高翻译质量。为此本发明提供一种新的口语翻译方法。
为了实现所述的目的,本发明提供一种将拼音和汉字相结合的方法用于口语翻译系统,利用拼音和汉字相结合的方法进行训练和解码,其具体实现步骤包括:
步骤S1:对原始汉外语料的汉语部分进行字音转化,将所有连续汉字转化为相应的拼音,经过将原始汉外语料的汉语部分进行字音转化,得到基于拼音的汉语语料并与原始外语语料重新进行对齐组合就得到了基于拼音的汉外训练语料;并对原始汉语语料转化为基于汉语单字分隔形式的语料,得到基于汉语单字分隔的汉语语料并与原始外语语料重新进行组合就得到了基于汉字的汉外训练语料;
步骤S2:利用基于拼音的汉外训练语料进行词对齐的训练,得到基于拼音的词对齐;利用基于汉字的汉外训练语料进行词对齐的训练,得到基于汉字的词对齐;
步骤S3:对生成的基于拼音的词对齐和基于汉字的词对齐进行词对齐的融合,得到融合后的词对齐文件;
步骤S4:结合基于拼音的汉外训练语料,对融合的词对齐文件进行学习,抽取并学习基于拼音的汉外翻译知识,得到基于拼音的翻译模型;结合基于汉字的汉外训练语料,对融合的词对齐文件进行学习,抽取并学习基于汉字的汉外翻译知识,得到基于汉字的翻译模型;
步骤S5:对基于拼音的汉外训练语料中的外语部分进行学习获取N元文法的概率信息,得到基于拼音的语言模型;对基于汉字的汉外训练语料中的外语部分进行学习获取N元文法的概率信息,得到基于汉字的语言模型;
步骤S6:利用基于拼音的语言模型和基于拼音的翻译模型在基于拼音的开发集上进行最小错误训练,得到基于拼音的翻译方法的各个特征的特征权重及相关参数;利用基于汉字的语言模型和基于汉字的翻译模型在基于汉字的开发集上进行最小错误训练,得到基于汉字的翻译方法的各个特征的特征权重及相关参数;
步骤S7:利用基于拼音的翻译方法的各个特征的特征权重及相关参数,并结合基于拼音的语言模型和翻译模型,将基于拼音的测试语料送入基于拼音的解码系统中进行解码输出测试集的基于拼音的翻译结果;利用基于汉字的翻译方法的各个特征的特征权重及相关参数,并结合基于汉字的语言模型和翻译模型,将基于汉字的测试语料送入基于汉字的解码系统中进行解码输出测试集的基于汉字的翻译结果;
步骤S8:将生成的测试集的基于拼音的翻译结果和生成的基于汉字的翻译结果送入系统融合模块进行融合,经过打分算法来对基于拼音和基于汉字的翻译结果进行融合生成系统融合后的测试集的翻译结果;
步骤S9:从系统融合后的测试集的翻译结果中选择打分最优的结果作为最终的翻译结果输出。
本发明的积极效果:采取一种将拼音和汉字相互结合的方法来进行翻译知识的获取。该发明不仅能够很好的召回由于语音识别同音异形字带来的错误,而且因为两者相互结合进行翻译知识获取,可以很好的提高词对齐精度和翻译规则的准确性,从而能够很有效的改善翻译质量。该方法很好的克服了传统仅仅依赖于单字或多字的翻译方法,从而能够跟语音识别结果很好的统一起来进行有效降噪,提高了语音翻译系统的鲁棒性和准确性。该发明方法简单可行而且可以扩展到文本翻译系统上。初步实验表明,该方法大大提高了语音系统的翻译质量,与目前最流行鲁棒的基于短语(多字)的翻译系统相比,系统性能利用机器翻译通用评测标准BLEU打分能够提高约10%。
附图说明
图1本发明一个基于字(单字或多字)的汉外口语自动翻译系统框架图
图2本发明一个基于拼音和汉字相结合的汉外口语自动翻译系统框架图
图3本发明一个基于汉字和拼音对比翻译示意图。
具体实施方式
下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。应指出的是,所描述的实施例仅旨在便于对本发明的理解,面对其不起任何限定作用。
本发明的核心思想在于采取一种将拼音和汉字相互结合的方法取代传统基于单字或多字翻译方法来进行翻译知识的获取。具体而言就是:首先对原始汉外语料的汉语部分进行字音转化,将所有汉字转化为相应的拼音,生成基于拼音的汉语语料,并对原始汉语语料转化为基于单字分隔形式(汉字)的语料;然后分别利用转化为拼音的汉语语料和基于汉字的汉语语料跟对齐的外语语料进行组合成汉外语料,并分别进行基于拼音和汉字的词对齐的获取,生成两种词对齐文件,再对这两种词对齐进行融合生成新的词对齐文件;在融合的词对齐的基础上进行汉外翻译知识的抽取并进行最小错误训练,获取最终翻译模型及其相应参数;最后对测试语料进行相应的字音和汉字转化,然后分别利用各自最小错误训练获取的翻译模型及其参数进行最终解码翻译,并对基于拼音和汉字的翻译结果进行系统融合生成新的翻译结果,最后选取最优翻译结果作为最终输出结果。
本发明所有算法代码都是在C++和Perl语言下完成,所采用的机型的配置如下:Pentium 4处理器,CPU主频为2.0GHZ,内存为8G。其中利用的开源工具包Moses需要在LINUX系统配置下进行运行。
如图2示出本发明的一种拼音和汉字相结合的汉外口语自动翻译方法,利用拼音和汉字相结合的方法进行训练和解码,其具体实现步骤包括:
步骤S1:对原始汉外语料的汉语部分进行字音转化,将所有连续汉字转化为相应的拼音,经过将原始汉外语料的汉语部分进行字音转化,得到基于拼音的汉语语料并与原始外语语料重新进行对齐组合就得到了基于拼音的汉外训练语料,如图2中的步骤S1-a所示;并对原始汉语语料转化为基于汉语单字分隔形式的语料,得到基于汉语单字分隔的汉语语料并与原始外语语料重新进行组合就得到了基于汉字的汉外训练语料,如图2中的步骤S1-b所示;
将所有连续汉字转化为相应的拼音的步骤包括:步骤S11:首先收集汉语常见字和常见词的相应的字音转化对应表;步骤S12:直接查找这两个对应表对原始基于汉字的语料进行字音转换即可。所述转化为基于汉语单字分隔形式的语料是:根据汉字的双字节信息来对连续汉字进行单字分隔,即让每个汉字之间都添加一个空格。
步骤S2:利用基于拼音的汉外训练语料进行词对齐的训练,得到基于拼音的词对齐,如图2中的步骤S2-a所示;;利用基于汉字的汉外训练语料进行词对齐的训练,得到基于汉字的词对齐,如图2中的步骤S2-b所示;
步骤S3:对生成的基于拼音的词对齐和基于汉字的词对齐进行词对齐的融合,得到融合后的词对齐文件,如图2中的步骤S3所示;
基于拼音的词对齐和基于汉字的词对齐进行词对齐的融合的步骤是:将基于拼音的词对齐和基于汉字的词对齐两种词对齐文件直接进行叠加,所述叠加顺序是将两个词对齐文件拷贝到一个新的文件中即可生成融合后的词对齐文件,很明显新生成的融合后的词对齐文件的行数为基于拼音的词对齐或基于汉字的词对齐文件行数的两倍;
步骤S4:结合基于拼音的汉外训练语料,对融合的词对齐文件进行学习,抽取并学习基于拼音的汉外翻译知识,得到基于拼音的翻译模型,如图2中的步骤S4-a所示;结合基于汉字的汉外训练语料,对融合的词对齐文件进行学习,抽取并学习基于汉字的汉外翻译知识,得到基于汉字的翻译模型,如图2中的步骤S4-b所示;
所述得到基于拼音的翻译模型的步骤包括:步骤S41:首先将基于拼音的汉外训练语料分别复制一倍,以保持跟融合后的词对齐文件的行数及内容保持一一对应;步骤S42:对现有的成熟的基于短语的翻译知识抽取模块输入三个一一对应文件:一个基于拼音的双倍复制后的汉语文件、一个是双倍复制后的外语文件和一个是融合后的词对齐文件,进行翻译知识的抽取,输出基于拼音的翻译模型。
所述得到基于汉字的翻译模型的步骤包括:步骤S43:首先将基于汉字的汉外训练语料分别复制一倍,以保持跟融合后的词对齐文件的行数及内容保持一一对应;步骤S44:对现有的成熟的基于短语的翻译知识抽取模块输入三个一一对应文件:一个基于汉字的双倍复制后的汉语文件、一个是双倍复制后的外语文件和一个是融合后的词对齐文件,进行翻译知识的抽取,输出基于汉字的翻译模型。
步骤S5:对基于拼音的汉外训练语料中的外语部分进行学习获取N元文法的概率信息,得到基于拼音的语言模型,如图2中的步骤S5-a所示;对基于汉字的汉外训练语料中的外语部分进行学习获取N元文法的概率信息,得到基于汉字的语言模型,如图2中的步骤S5-b所示;
步骤S6:利用基于拼音的语言模型和基于拼音的翻译模型在基于拼音的开发集上进行最小错误训练,得到基于拼音的翻译方法的各个特征的特征权重及相关参数,即基于拼音的最优参数,如图2中的步骤S6-a所示;;利用基于汉字的语言模型和基于汉字的翻译模型在基于汉字的开发集上进行最小错误训练,得到基于汉字的翻译方法的各个特征的特征权重及相关参数,即基于汉字的最优参数,如图2中的步骤S6-b所示;
步骤S7:利用基于拼音的翻译方法的各个特征的特征权重及相关参数,并结合基于拼音的语言模型和翻译模型,将基于拼音的测试语料送入基于拼音的解码系统中进行解码输出测试集的基于拼音的翻译结果,如图2中的步骤S7-a所示;利用基于汉字的翻译方法的各个特征的特征权重及相关参数,并结合基于汉字的语言模型和翻译模型,将基于汉字的测试语料送入基于汉字的解码系统中进行解码输出测试集的基于汉字的翻译结果,如图2中的步骤S7-b所示;
步骤S8:将生成的测试集的基于拼音的翻译结果和生成的基于汉字的翻译结果送入系统融合模块进行融合,经过一定的打分算法来对基于拼音和基于汉字的翻译结果进行融合生成系统融合后的测试集的翻译结果,如图2中的步骤S8所示;
所述将生成的测试集的基于拼音的翻译结果和生成的基于汉字的翻译结果送入系统融合模块进行融合的步骤包括:步骤S81:首先我们利用基于拼音的解码系统对基于拼音的开发集进行翻译解码生成开发集的基于拼音的前N个翻译最优结果;步骤S82:其次我们利用基于汉字的解码系统对基于汉字的开发集进行翻译解码生成开发集的基于汉字的前N个翻译最优结果;步骤S83:然后利用现有翻译系统的融合方法,包括句子级别的融合、短语级别的融合和词级别的融合方法,来对开发集的基于拼音的前N个翻译最优结果和基于汉字的前N个翻译最优结果进行最小错误训练,得到融合系统中的各个特征权重和相关参数;步骤S84:最后利用步骤S83获取的融合系统中的各个特征权重和相关参数对生成的测试集的基于拼音的翻译结果和生成的基于汉字的翻译结果进行系统融合得到新生成的测试集的前M个最优翻译结果。
步骤S9:从系统融合后的测试集的翻译结果中选择打分最优的结果作为最终的翻译结果输出,如图2中的步骤S9所示。
下面我们用一个基于字(单字或多字)的翻译系统与基于拼音和汉字相结合的翻译系统的系统框架图来简要阐述这两者的主要异同点。图1给出了一个基于字(单字或多字)的汉外口语自动翻译系统框架图,图2给出了一个基于拼音和汉字相结合的汉外口语自动翻译系统框架图,其中图2中加入黑体强调的都是本发明的主要贡献。对比图1和图2可以很清楚的看出两者的异同点,两者最大的不同体现在训练和解码阶段,相同点是训练和解码采用的关键技术可以是相同的。这里我们主要讲解不同点:1)首先从训练来说,基于字的翻译系统主要是利用单字或多字(基于汉字的或基于词)的汉语语料跟原始外语语料组成一一对齐汉外语料送入到词对齐的训练当中,最终获取的词对齐是基于单字或多字到外语单词间的对应关系;而基于拼音和汉字相结合的方法则是分别获取基于拼音和汉字不同表达的汉语单元跟外语单词的对应关系,然后对这两种不同方式获取的两种词对齐进行融合生成一个新的词对齐文件,这样融合后的词对齐能够更好的把握和约束正确的词对齐关系,从而为后续的翻译知识的抽取做了更好的铺垫;2)从解码来说,基于字(单字或多字)的翻译系统输入的是基于字(单字或多字)的测试语料,而基于拼音和汉字相结合的系统输入的则分别是基于拼音或汉字的测试语料,这个过程可以解释为:分别利用基于拼音或汉字的语言模型、翻译模型和其对应最优参数对基于拼音或汉字的测试语料进行解码,然后将解码获取的结果送入到系统融合模块中择优输出。很明显,这样就可以充分发挥基于拼音和汉字翻译方法的优势,从而得到一个最优结果,无疑提高了翻译质量。
从图2也了解了基于拼音和汉字相结合的汉外口语自动翻译方法的实施流程,其主要实施步骤为:
步骤S1:首先将原始汉语料进行字音转化,将汉字转化为拼音。这里进行字音转化的时候,用来进行查找的两个知识源是单字表和常用词表,其中单字表是6,768个常用汉字及其拥有的拼音标注;常见词表是利用了一个拥有23,519个常用词及其拼音的对照表。其次将原始汉语语料进行单字分隔,保证每个汉字间保留一个空格作为分隔标志。这样我们就分别得到了基于拼音的汉外训练语料和基于汉字的汉外训练语料,该实施步骤如图2中的步骤S1-a和S1-b所示;
步骤S2:分别将基于拼音的汉外训练语料和基于汉字的汉外训练语料送入到词对齐模块进行训练,得到基于拼音的词对齐和基于汉字的词对齐。这里用来进行词对齐训练的工具主要是开源的工具包Moses中自带的GIZA++工具包来进行训练,这里所有参数都按照GIZA++工具包的默认设置参数,其中用的是IBM-模型4来获取单向词对齐,并利用grow-diag-final-and来进行双向词对齐的扩展以获取最终的基于拼音或汉字的两个词对齐文件,该实施步骤如图2中的步骤S2-a和S2-b所示;
步骤S3:将步骤S2获取的基于拼音的词对齐和基于汉字的词对齐进行融合,融合的方法是直接合并两种词对齐,即将两种情况下生成的词对齐直接进行叠加复制,生成融合后的词对齐文件,该实施步骤如图2中的步骤S3所示;
步骤S4:我们对基于拼音(汉字)的汉外训练语料进行双倍复制,保证其能够跟步骤S3获取的融合后的词对齐文件一一对应,即对于基于拼音(汉字)的翻译方法而言,我们同时得到了三个文件,即双倍复制的基于拼音(汉字)的汉语训练语料、双倍复制的基于拼音(汉字)的外语训练语料、新生成的融合后的词对齐文件;根据这三个文件,我们就可以通过训练得到基于拼音(汉字)的翻译模型。这里翻译模型的训练工具我们仍然是利用Moses工具包进行获取,最终获取的汉外翻译知识主要包括两部分,一部分是汉外翻译短语表,一部分是汉外翻译短语调序表,该实施步骤如图2中的步骤S4-a和S4-b所示;
步骤S5:对基于拼音(汉字)的汉外训练语料中的外语语料进行学习获取N元文法的概率信息,就可以得到基于拼音(汉字)的语言模型。这里语言模型的训练工具我们主要采用开源工具Srilm1.5.7,我们的目的是获取基于外语语料的3元语言模型,该实施步骤如图2中的步骤S5-a和S5-b所示;
步骤S6:利用S4获取的翻译模型和S5获取的语言模型在开发集上进行最小错误训练,这里我们分别利用基于拼音或汉字的开发集来训练基于拼音或汉字模型下的特征权重参数。这里用来训练特征权重的工具仍然是利用开源工具包Moses中提供的最小错误训练工具,该实施步骤如图2中的步骤S6-a和S6-b所示;
步骤S7:得到基于拼音和汉字的最小错误训练后的参数后,我们就对测试待翻译句子进行字音转化和单字分隔,获取基于拼音和汉字的测试语料,然后利用各自的语言模型、翻译模型和最小错误训练后的最优参数进行解码翻译,并输出各自的前N个最优翻译结果输入到系统融合模块,这里的解码系统是利用开源工具包Moses提供的工具,该实施步骤如图2中的步骤S7-a和S7-b所示;
步骤S8:将得到的基于拼音和基于汉字的前N个最优翻译结果送入到系统融合模块,生成融合后的翻译结果。这里我们采用的系统融合方法是基于WER的词级别的系统融合方法。该实施步骤如图2中的步骤S8所示;
步骤S9:从系统融合的输出结果中选择打分最优的结果作为最终的翻译结果输出,该实施步骤如图2中的步骤S9所示。
为了更好的强调本发明的作用,这里我们利用图3来形象的描述这种方法的作用,如本发明附图3所示给出了一个基于汉字和拼音对比翻译示意图,该示意图主要是以汉英口语翻译为例进行说明。图3传达了该发明的核心思想,即:基于拼音或拼音与汉字相结合的翻译方法不仅能够在训练阶段获取高质量的翻译模型,而且能够在解码阶段有效的降低前端由于语音识别的错误而导致的翻译错误。现在我们借助图3仔细分析这两个方面的作用。
首先从训练阶段来说明该发明是如何能够在训练阶段获取更好的翻译模型的。这就要从基于汉字和基于拼音的训练模型来进行对比说明。首先如果在训练阶段是基于字的翻译模型,假设我们的汉外训练语料中存在{a),d)}和{b),d)}这两个句对,则在训练阶段进行词对齐的时候,我们会发现“铃木直子”和“玲木直子”因为“铃”和“玲”字形不一致,从而对上“naoko suzuki”的概率会分别利用最大似然估计来计算,而如果训练阶段是基于拼音的翻译模型,则我们的汉外语料中存在的则是两个一样的句对,即{c),d)},这样就会导致“ling2mu4 zhi2 zi5”跟“naoko suzuki”对应上的概率会比基于汉字的最大似然估计的概率多上一倍,这样无疑会导致动态规划的时候更容易在后者得到更好的词对齐,而相应的对于后续的汉外短语概率计算也会得到更正确的表述概率,从而使得解码的时候能够更准确的抓住正确译项奠定良好基础。
其次从解码阶段来进行说明基于拼音的翻译方法的好处。如图3所示,假设a)是识别完全正确的结果,而b)是识别有错误的结果。在进行解码翻译的时候,如果将识别错误的结果b)送到基于汉字(单字或多字)的翻译系统,则可能因为“玲木直子”是未登陆词而不能进行正确的翻译,从而导致翻译有误,而这时如果我们将该识别结果转化为拼音送入基于拼音的翻译系统,则完全避开了因为这种同音异形字导致的识别错误,使得仍然能够得到正确的翻译结果。
实验
我们的实验语料主要来自于2009年国际口语翻译评测(International Workshop on Spoken Language Translation,IWSLT2009)官方发布的语料,主要测试任务是面向汉英的文本和语音输出结果来进行测试。我们的实验平台主要是利用目前开源的工具包Moses来进行测试。
表1给出了训练语料、开发集和测试集的语料规模大小。表2给出了分别利用基于字(这里采用的是多字即词)的翻译系统与基于拼音和汉字相结合的翻译系统的对比实验结果,其中DEV表明是在开发集上的结果,TST表明是在测试集上的测试结果,其中我们都用国际通用标准评分工具BLEU-4大小写敏感来进行测试。
表1实验训练语料、开发集、测试集规模
  语料   规模
  训练语料   30,033
  开发集   4,447
  测试集   405
表2基于词和基于拼音和汉字相结合的翻译系统对比测试结果
  不同翻译方法   DEV   TST
  基于词(多字)   33.48   29.65
  基于拼音和汉字相结合的 36.43 32.04
表2中的基准系统是基于多字的翻译方法,这里的多字我们主要是采用粒度为词的方式来进行实验,即将原始汉语语料利用分词工具进行分词处理,然后跟原始英文语料结合进行训练和解码生成的结果。由表2可知,基于拼音和汉字相结合的翻译方法能够比基于词的翻译方法的翻译质量提高约10%。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (3)

1.一种拼音和汉字相结合的汉外口语自动翻译方法,其特征在于,利用拼音和汉字相结合的方法进行训练和解码,其具体实现步骤包括:
步骤S1:对原始汉外语料的汉语部分进行字音转化,将所有连续汉字转化为相应的拼音,经过将原始汉外语料的汉语部分进行字音转化,得到基于拼音的汉语语料并与原始外语语料重新进行对齐组合就得到了基于拼音的汉外训练语料;并对原始汉语语料转化为基于汉语单字分隔形式的语料,得到基于汉语单字分隔的汉语语料并与原始外语语料重新进行组合就得到了基于汉字的汉外训练语料;
步骤S2:采用Moses工具包中的GIZA++工具包对基于拼音的汉外训练语料进行词对齐的训练,得到基于拼音的词对齐;采用Moses工具包中的GIZA++工具包对基于汉字的汉外训练语料进行词对齐的训练,得到基于汉字的词对齐;
步骤S3:对生成的基于拼音的词对齐和基于汉字的词对齐进行词对齐的融合是将基于拼音的词对齐和基于汉字的词对齐两种词对齐文件直接进行叠加,叠加顺序是将两个词对齐文件拷贝到一个新的词对齐文件中生成融合后的词对齐文件,新生成的融合后的词对齐文件的行数为基于拼音的词对齐或基于汉字的词对齐文件行数的两倍;
步骤S4:结合基于拼音的汉外训练语料,对融合的词对齐文件进行学习,抽取并学习基于拼音的汉外翻译知识,得到基于拼音的翻译模型;结合基于汉字的汉外训练语料,对融合的词对齐文件进行学习,抽取并学习基于汉字的汉外翻译知识,得到基于汉字的翻译模型;
所述得到基于拼音的翻译模型的步骤包括:步骤S41:首先将基于拼音的汉外训练语料分别复制一倍,以保持跟融合后的词对齐文件的行数及内容保持一一对应;步骤S42:利用Moses工具包进行翻译模型的训练工作,对基于短语的翻译知识抽取模块输入三个一一对应文件,即双倍复制后的基于拼音的汉语训练语料、双倍复制后的基于拼音的外语训练语料、融合后的词对齐文件,根据这三个文件进行翻译知识的抽取,输出基于拼音的翻译模型;
所述得到基于汉字的翻译模型的步骤包括:步骤S43:首先将基于汉字的汉外训练语料分别复制一倍,以保持跟融合后的词对齐文件的行数及内容保持一一对应;步骤S44:利用Moses工具包进行翻译模型的训练工作,对基于短语的翻译知识抽取模块输入三个一一对应文件:即双倍复制后的基于汉字的汉语训练语料、双倍复制后的基于汉字的外语训练语料、融合后的词对齐文件,根据这三个文件进行翻译知识的抽取,输出基于汉字的翻译模型;
步骤S5:对基于拼音的汉外训练语料中的外语部分进行学习,获取N元文法的概率信息,得到基于拼音的语言模型;对基于汉字的汉外训练语料中的外语部分进行学习,获取N元文法的概率信息,得到基于汉字的语言模型;采用Srilm工具作为语言模型的训练工具,得到基于拼音和基于汉字的语言模型;
步骤S6:利用基于拼音的语言模型和基于拼音的翻译模型在基于拼音的开发集上进行最小错误训练,得到基于拼音的翻译方法的各个特征的特征权重参数;利用基于汉字的语言模型和基于汉字的翻译模型在基于汉字的开发集上进行最小错误训练,得到基于汉字的翻译方法的各个特征的特征权重参数;采用Moses工具包进行最小错误训练,得到特征权重参数;
步骤S7:利用基于拼音的翻译方法的各个特征的特征权重参数,并结合基于拼音的语言模型和翻译模型,将基于拼音的测试语料送入基于拼音的解码系统中进行解码,输出测试集的基于拼音的翻译结果;利用基于汉字的翻译方法的各个特征的特征权重参数,并结合基于汉字的语言模型和翻译模型,将基于汉字的测试语料送入基于汉字的解码系统中进行解码,输出测试集的基于汉字的翻译结果;所述解码系统是采用Moses工具包提供的解码系统;
步骤S8:将生成的测试集的基于拼音的翻译结果和生成的基于汉字的翻译结果送入系统融合模块进行融合,利用打分算法来对基于拼音和基于汉字的翻译结果进行打分,并根据该打分来选取最优的翻译结果,从而得到系统融合后的测试集的翻译结果;
所述将生成的测试集的基于拼音的翻译结果和生成的基于汉字的翻译结果送入系统融合模块进行融合的步骤包括:
步骤S81:首先利用基于拼音的解码系统,对基于拼音的开发集进行翻译解码,生成开发集的基于拼音的前N个翻译最优结果;
步骤S82:其次利用基于汉字的解码系统,对基于汉字的开发集进行翻译解码,生成开发集的基于汉字的前N个翻译最优结果;
步骤S83:然后利用翻译系统的融合方法,包括句子级别的融合、短语级别的融合和词级别的融合方法,来对开发集的基于拼音的前N个翻译最优结果和基于汉字的前N个翻译最优结果进行最小错误训练,得到融合系统中的各个特征权重和相关参数;
步骤S84:最后利用获取的融合系统中的各个特征权重和相关参数对测试集的基于拼音的翻译结果和基于汉字的翻译结果进行系统融合得到新生成的测试集的前M个最优翻译结果;
步骤S9:从系统融合后的测试集的翻译结果中选择打分最优的结果作为最终的翻译结果输出。
2.根据权利要求1所述的汉外口语自动翻译方法,其特征在于,所述将所有连续汉字转化为相应的拼音的步骤包括:
步骤S11:首先收集汉语常见字和常见词的相应的字音转化对应表;
步骤S12:直接查找这两个对应表对原始基于汉字的语料进行字音转换。
3.根据权利要求1所述的汉外口语自动翻译方法,其特征在于,所述转化为基于汉语单字分隔形式的语料是:
根据汉字的双字节信息来对连续汉字进行单字分隔,即让每个汉字之间都添加一个空格。
CN2009102445136A 2009-12-30 2009-12-30 一种拼音和汉字相结合的汉外口语自动翻译方法 Active CN101788978B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009102445136A CN101788978B (zh) 2009-12-30 2009-12-30 一种拼音和汉字相结合的汉外口语自动翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009102445136A CN101788978B (zh) 2009-12-30 2009-12-30 一种拼音和汉字相结合的汉外口语自动翻译方法

Publications (2)

Publication Number Publication Date
CN101788978A CN101788978A (zh) 2010-07-28
CN101788978B true CN101788978B (zh) 2011-12-07

Family

ID=42532196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009102445136A Active CN101788978B (zh) 2009-12-30 2009-12-30 一种拼音和汉字相结合的汉外口语自动翻译方法

Country Status (1)

Country Link
CN (1) CN101788978B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980390A (zh) * 2016-01-18 2017-07-25 富士通株式会社 辅助翻译输入方法和辅助翻译输入设备

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810159B (zh) * 2012-11-14 2017-03-01 阿里巴巴集团控股有限公司 计算机翻译数据处理方法、系统及终端
CN103268314B (zh) * 2013-05-02 2018-08-10 百度在线网络技术(北京)有限公司 一种获取泰文断句规则的方法及装置
CN105389303B (zh) * 2015-10-27 2018-11-27 北京信息科技大学 一种异源语料自动融合方法
CN107608973A (zh) * 2016-07-12 2018-01-19 华为技术有限公司 一种基于神经网络的翻译方法及装置
CN107491443B (zh) * 2017-08-08 2020-09-25 传神语联网网络科技股份有限公司 一种包含非常规词汇的中文句子翻译方法及系统
CN107992457B (zh) * 2017-12-01 2021-12-03 深圳乐信软件技术有限公司 一种信息转换方法、装置、终端设备及存储介质
CN108170686B (zh) * 2017-12-29 2020-02-14 科大讯飞股份有限公司 文本翻译方法及装置
CN110147554B (zh) * 2018-08-24 2023-08-22 腾讯科技(深圳)有限公司 同声翻译方法、装置和计算机设备
US11170183B2 (en) 2018-09-17 2021-11-09 International Business Machines Corporation Language entity identification
CN111027332B (zh) * 2019-12-11 2023-06-02 北京百度网讯科技有限公司 生成翻译模型的方法和装置
CN111414772B (zh) * 2020-03-12 2023-09-26 北京小米松果电子有限公司 一种机器翻译方法、装置及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452446A (zh) * 2007-12-07 2009-06-10 株式会社东芝 目标语言单词变形的方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452446A (zh) * 2007-12-07 2009-06-10 株式会社东芝 目标语言单词变形的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
何彦青等.CWMT"08统计机器翻译研讨会自动化所技术报告.《机器翻译研究进展——第四届全国机器翻译研讨会论文集》.2008,133-142. *
何彦青等.基于"松弛尺度"的短语翻译对抽取方法.《中文信息学报》.2007,第21卷(第5期),91-95.

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980390A (zh) * 2016-01-18 2017-07-25 富士通株式会社 辅助翻译输入方法和辅助翻译输入设备

Also Published As

Publication number Publication date
CN101788978A (zh) 2010-07-28

Similar Documents

Publication Publication Date Title
CN101788978B (zh) 一种拼音和汉字相结合的汉外口语自动翻译方法
Honnet et al. Machine translation of low-resource spoken dialects: Strategies for normalizing Swiss German
US20120150529A1 (en) Method and apparatus for generating translation knowledge server
WO2022057116A1 (zh) 一种基于Transformer深度学习模型的多语种地名词根汉译方法
Farhan et al. Unsupervised dialectal neural machine translation
CN109815476B (zh) 一种基于中文语素和拼音联合统计的词向量表示方法
CN105404621A (zh) 一种用于盲人读取汉字的方法及系统
CN112580373B (zh) 一种高质量蒙汉无监督神经机器翻译方法
KR20110028123A (ko) 모바일 기기에서 사용자 상호작용을 이용한 자동 번역 장치 및 그 방법
CN102779135B (zh) 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
CN110717341B (zh) 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
Sreeram et al. Exploration of end-to-end framework for code-switching speech recognition task: Challenges and enhancements
CN115510863A (zh) 一种面向问句匹配任务的数据增强方法
Ali et al. SiNER: A large dataset for Sindhi named entity recognition
CN111368035A (zh) 一种基于神经网络的汉维-维汉机构名词典的挖掘系统
Graja et al. Statistical framework with knowledge base integration for robust speech understanding of the Tunisian dialect
Abandah et al. Correcting arabic soft spelling mistakes using bilstm-based machine learning
CN103164397A (zh) 汉哈电子辞典及其自动转译汉哈语的方法
CN103164398A (zh) 汉维电子辞典及其自动转译汉维语的方法
Jamro Sindhi language processing: A survey
Besacier et al. ASR and translation for under-resourced languages
Wang et al. Speech2slot: An end-to-end knowledge-based slot filling from speech
CN103164396A (zh) 汉维哈柯电子辞典及其自动转译汉维哈柯语的方法
Penagarikano et al. Semisupervised training of a fully bilingual ASR system for Basque and Spanish
Núñez et al. Phonetic normalization for machine translation of user generated content

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20181218

Address after: 100080 Beijing Haidian District, North Fourth Ring Road, No. 9, No. 18, Floor 1803

Patentee after: Beijing Zhongkefan Language Technology Co., Ltd.

Address before: 100080 No. 95 East Zhongguancun Road, Beijing, Haidian District

Patentee before: Institute of Automation, Chinese Academy of Sciences

TR01 Transfer of patent right