CN104360996A - 双语文本的句子对齐方法 - Google Patents
双语文本的句子对齐方法 Download PDFInfo
- Publication number
- CN104360996A CN104360996A CN201410706236.7A CN201410706236A CN104360996A CN 104360996 A CN104360996 A CN 104360996A CN 201410706236 A CN201410706236 A CN 201410706236A CN 104360996 A CN104360996 A CN 104360996A
- Authority
- CN
- China
- Prior art keywords
- alignment
- sentence
- text
- bilingual
- translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及一种文本自动翻译技术领域,公开了一种双语文本的句子对齐方法,在自动对齐前,在双语文本中标定若干对齐锚点,所述对齐锚点将双语文本区分为若干对齐区间,然后在所述若干对齐区间内分别进行自动对齐。所谓对齐锚点,是分别将原文、译文文本分成对齐的片段的句子对。采用本发明的双语文本的句子对齐方法,句子对齐的准确率较现有自动对齐方法高,而且随着标定对齐锚点数数量提高而提高,理论上句子对齐准确率接近100%。同时大大降低人工审核的工作量投入纠正,提高了自动翻译语料库的制作效率。
Description
技术领域
本发明涉及文本自动翻译技术领域,尤其涉及到制作自动翻译语料库所必须的双语文本的句子对齐方法。
背景技术
自动翻译语料库存有大量已经对齐的双语句子。文本自动翻译离不开自动翻译语料库的支撑。一般情况下,传统的双语文本的句子自动对齐方法的准确率在80%左右徘徊。如果希望获得高质量的双语对齐语料,则必须在自动处理后采取人工审核。人工审核的工作包括:1)从大量文本自动对齐的平行语料中找到其中错误的对齐;2)手动调整对齐的内容。事后的人工审核工作存在两方面不利影响,一是人工工作量大,二是降低了对齐语料的产生效率。
例如2006年5月出版的《哈尔滨工业大学学报》公开了《基于长度和位置信息的双语句子对齐方法》的论文(国家自然科学基金资助项目),该方法基于长度和位置信息,采用锚点定位法进行双语句子自动对齐。但是,该方法在自动对齐过程中存在错误的蔓延问题,即,某一个步骤产生的锚点定位不准确或错误,导致后续步骤在前步骤错误的基础上蔓延或扩大,使自动对齐的准确率继续下降。
发明内容
本发明所要解决的技术问题是提供一种双语文本的句子对齐方法,克服现有技术在制作双语平行语料的过程中所存在的错误蔓延扩大的缺陷。
为解决上述技术问题,本发明提供一种双语文本的句子对齐方法,在自动对齐前,在双语文本中标定若干对齐锚点,所述对齐锚点将双语文本区分为若干对齐区间,然后在所述若干对齐区间内分别进行自动对齐。
所谓对齐锚点,是分别将原文、译文文本分成对齐的片段的句子对,通常用句子在原、译中的序列号标识,如[20,21]表示原文中的第20句与译文中的第21句是对齐的一对句子。
进一步优化的方案是,所述对齐锚点在双语文本中均匀分布。这样可最佳地克服自动对齐出现错误对齐锚点的错误蔓延效应。
更进一步的优化方案是,在进行自动对齐后,检查所述对齐区间内的句子对齐结果,对自动对齐过程错误标定的对齐锚点行进修改。
更加优选的,对于自动对齐后的所述对齐区间,增加标定新的对齐锚点,然后重新进行自动对齐。
采用本发明的双语文本的句子对齐方法,句子对齐的准确率较现有自动对齐方法高,而且随着标定对齐锚点数数量提高而提高,理论上句子对齐准确率接近100%。同时大大降低人工审核的工作量投入纠正,提高了自动翻译语料库的制作效率。
附图说明
下面结合附图和具体实施方式对本发明的技术方案作进一步具体说明。
图1为本发明具体实施方式的整体流程示意图。
图2为本发明所应用的双语句子自动对齐模块的一次嵌套流程图。
具体实施方式
如图1所示的本发明具体实施方式的整体流程,包括:
步骤101:在自动对齐前,在双语文本中均匀分布标定若干对齐锚点,对齐锚点将双语文本区分为若干对齐区间,例如:在文本的1/8、1/4、3/8、1/2、5/8、3/4、7/8处标定7处对齐锚点,将文本分为8个等分区间或片段。这样做的好处是为后续的自动对齐先提供一个正确的参照,避免错误的叠加效应;二是将自动对齐限定在小长度文本区间或片段内,避免一个区间或片段的错误标定蔓延或外溢到其他区间或片段,客观上为纠错设定了边界。
步骤102:运行自动对齐模块,分别在对齐锚点划分的若干对齐区间内进行自动对齐。
步骤103:在进行自动对齐后,检查各对齐区间内的句子对齐结果,
步骤104:判断是否符合对齐要求?如果是,则整个工作结束。如果否,则
步骤105:对自动对齐过程错误标定的对齐锚点行进修改,
步骤106:在对齐区间内新增加对齐锚点,然后返回步骤102,重新进行自动对齐。
如此往复多次完成双语文本的对齐工作,在这个过程中人工投入的检查和纠正工作量大大减小,以前人工要全检的工作连降低到50%,另外修改量也大大减小,最大可以节省50%。
自动对齐模块所涉及的算法、公式定义如下:
公式中所有长度均为字节长度,对于中英文本,每个中文汉字算为2个字节,每个英文字母及英文符号计算为一个字节。
全文长度比:P0=Ls/Lt
注:Ls代表原文s的文本总长度,Lt代表译文t的文本总长度;
原译句长度比:Pl[i,j]=Lsi/Ltj
注:Lsi代表原文s第i句的长度,Ltj代表译文第j句的文本长度;
原译文上部长度比:Pu[i,j]=Usi/Ut
注:Usi:代表原文s第i句上半部分的文本长度,Utj代表译文t第j句上半部分文本长度;
原译文下部长度比:Pd[i,j]=Dsi/Dtj
注:Dsi:代表原文s第i句下半部分的文本长度,Dtj代表译文t第j句下半部分文本长度;
最优形式对齐评价函数:
其中:
Sim代表相似度,
Match(s)代表原文中单词在译文里找到词典中对应译文单词的个数;
Match(t)代表译文中单词在原文里找到词典中对应原文单词的个数;
L||代表文本的字节长度;
自动对齐模块就是对原文、译文中句子逐一匹配,计算最优形式对齐评价函数P[i,j],其中i、j为临时变量,分别代表第i句的原文句子和第j句的译文句子。如果在某一段文本内,对齐评价函数P[i,j]的值最小,则认为该第i句的原文句子和第j句的译文句子是对齐的句子对,并将第i句的原文句子和第j句的译文句子标定为对齐锚点。
结合图2所示,以中英文双语文本为例,对自动对齐模块的过程做进一步介绍。
步骤201:读取英汉词典;
步骤202:将原文断句拆分为m句;
步骤203:将译文断句拆分为n句;
步骤204:设定原文的扫描范围为S1至Sr,译文的扫描范围为T1至Tr,S1、T1的初始值为1,Sr、Tr的初始分别为m、n;
步骤205至步骤2011:从原文的第1句开始,逐一匹配译文的第1句至第Tr句;再从原文的第2句开始,逐一匹配译文的第1句至第Tr句,…,直到匹配到原文的最后一句;每匹配一次,计算其对齐评价函数P[i,j];
步骤2012:在所有对齐评价函数P[i,j]中寻找最小的P[i,j],则认为该P[i,j]所映射的第i句的原文句子和第j句的译文句子是对齐的句子对,并将第i句的原文句子和第j句的译文句子标定为对齐锚点。
步骤2013:以上述最小P[i,j]标定的对齐锚点将文本分为两个区间或片段,重置原文的第一个区间的边界为:将S1赋予S1,临时变量i的值赋予Sr;重置译文的第一个区间的边界为:将T1赋予T1,临时变量j的值赋予Tr;
步骤2014:以上述最小P[i,j]标定的对齐锚点将文本分为两个区间或片段,重置原文的第二个区间的边界为:将临时变量i的值赋予S1,m赋予Sr;重置译文的第二个区间的边界为:将临时变量j的值赋予T1,n赋予Tr;
返回步骤205,分别在两个区间内最小对齐评价函数P[i,j];如此循环递归,完成所有句子的对齐标定。
最后所应说明的是,以上具体实施方式仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (4)
1.一种双语文本的句子对齐方法,其特征在于,在自动对齐前,在双语文本中标定若干对齐锚点,所述对齐锚点将双语文本区分为若干对齐区间,在所述若干对齐区间内分别进行自动对齐;所谓对齐锚点,是分别将原文、译文文本分成对齐的片段的句子对。
2.根据权利要求1所述的双语文本的句子对齐方法,其特征在于,所述对齐锚点在双语文本中均匀分布标定。
3.根据权利要求1或2所述的双语文本的句子对齐方法,其特征在于,在进行自动对齐后,检查所述对齐区间内的句子对齐结果,对自动对齐过程错误标定的对齐锚点进行修改标定。
4.根据权利要求3所述的双语文本的句子对齐方法,其特征在于,对于自动对齐后的所述对齐区间,增加标定新的对齐锚点,然后重新进行自动对齐。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410706236.7A CN104360996A (zh) | 2014-11-27 | 2014-11-27 | 双语文本的句子对齐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410706236.7A CN104360996A (zh) | 2014-11-27 | 2014-11-27 | 双语文本的句子对齐方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104360996A true CN104360996A (zh) | 2015-02-18 |
Family
ID=52528258
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410706236.7A Pending CN104360996A (zh) | 2014-11-27 | 2014-11-27 | 双语文本的句子对齐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104360996A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183722A (zh) * | 2015-09-17 | 2015-12-23 | 成都优译信息技术有限公司 | 一种汉英双语翻译语料的对齐方法 |
CN105446962A (zh) * | 2015-12-30 | 2016-03-30 | 武汉传神信息技术有限公司 | 原文和译文的对齐方法和装置 |
CN105653516A (zh) * | 2015-12-30 | 2016-06-08 | 武汉传神信息技术有限公司 | 平行语料对齐的方法和装置 |
CN105677621A (zh) * | 2015-12-30 | 2016-06-15 | 武汉传神信息技术有限公司 | 翻译错误的定位方法和装置 |
CN106777268A (zh) * | 2016-12-28 | 2017-05-31 | 语联网(武汉)信息技术有限公司 | 一种翻译文档存储与检索的方法 |
CN107526728A (zh) * | 2017-08-07 | 2017-12-29 | 中译语通科技(青岛)有限公司 | 一种基于众包的双语平行语料对齐方法 |
CN108009138A (zh) * | 2017-12-25 | 2018-05-08 | 中译语通科技(青岛)有限公司 | 一种语料库众包对齐的交互系统 |
CN108549629A (zh) * | 2018-03-19 | 2018-09-18 | 昆明理工大学 | 一种结合相似度和图匹配的老-汉双语句子对齐方法 |
CN109684648A (zh) * | 2019-01-14 | 2019-04-26 | 浙江大学 | 一种多特征融合的古今汉语自动翻译方法 |
CN111753556A (zh) * | 2020-06-24 | 2020-10-09 | 掌阅科技股份有限公司 | 双语对照阅读的方法、终端及计算机存储介质 |
CN112766002A (zh) * | 2021-01-14 | 2021-05-07 | 语联网(武汉)信息技术有限公司 | 基于动态规划的文本对齐方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101482861A (zh) * | 2008-01-09 | 2009-07-15 | 中国科学院自动化研究所 | 一种汉英词语自动对齐方法 |
CN101996631A (zh) * | 2009-08-28 | 2011-03-30 | 国际商业机器公司 | 用于对齐文本的方法和装置 |
US7937265B1 (en) * | 2005-09-27 | 2011-05-03 | Google Inc. | Paraphrase acquisition |
CN102855263A (zh) * | 2011-06-30 | 2013-01-02 | 富士通株式会社 | 一种对双语语料库进行句子对齐的方法及装置 |
-
2014
- 2014-11-27 CN CN201410706236.7A patent/CN104360996A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7937265B1 (en) * | 2005-09-27 | 2011-05-03 | Google Inc. | Paraphrase acquisition |
CN101482861A (zh) * | 2008-01-09 | 2009-07-15 | 中国科学院自动化研究所 | 一种汉英词语自动对齐方法 |
CN101996631A (zh) * | 2009-08-28 | 2011-03-30 | 国际商业机器公司 | 用于对齐文本的方法和装置 |
CN102855263A (zh) * | 2011-06-30 | 2013-01-02 | 富士通株式会社 | 一种对双语语料库进行句子对齐的方法及装置 |
Non-Patent Citations (3)
Title |
---|
姜怡, 姜欣, 王大鹏: "基于多级锚点词的典籍英汉双语对齐研究", 《中国外语》 * |
张孝飞, 陈肇雄, 黄河燕, 王建德: "基于锚点词对的双语词对齐算法", 《小型微型计算机系统》 * |
李维刚, 刘挺王, 震李生: "双语语料库段落重组对齐方法研究", 《全国第七届计算语言学联合学术会议》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183722A (zh) * | 2015-09-17 | 2015-12-23 | 成都优译信息技术有限公司 | 一种汉英双语翻译语料的对齐方法 |
CN105653516B (zh) * | 2015-12-30 | 2018-08-10 | 语联网(武汉)信息技术有限公司 | 平行语料对齐的方法和装置 |
CN105446962A (zh) * | 2015-12-30 | 2016-03-30 | 武汉传神信息技术有限公司 | 原文和译文的对齐方法和装置 |
CN105653516A (zh) * | 2015-12-30 | 2016-06-08 | 武汉传神信息技术有限公司 | 平行语料对齐的方法和装置 |
CN105677621A (zh) * | 2015-12-30 | 2016-06-15 | 武汉传神信息技术有限公司 | 翻译错误的定位方法和装置 |
CN105677621B (zh) * | 2015-12-30 | 2018-08-17 | 语联网(武汉)信息技术有限公司 | 翻译错误的定位方法和装置 |
CN105446962B (zh) * | 2015-12-30 | 2018-08-10 | 语联网(武汉)信息技术有限公司 | 原文和译文的对齐方法和装置 |
CN106777268A (zh) * | 2016-12-28 | 2017-05-31 | 语联网(武汉)信息技术有限公司 | 一种翻译文档存储与检索的方法 |
CN107526728A (zh) * | 2017-08-07 | 2017-12-29 | 中译语通科技(青岛)有限公司 | 一种基于众包的双语平行语料对齐方法 |
CN108009138A (zh) * | 2017-12-25 | 2018-05-08 | 中译语通科技(青岛)有限公司 | 一种语料库众包对齐的交互系统 |
CN108549629A (zh) * | 2018-03-19 | 2018-09-18 | 昆明理工大学 | 一种结合相似度和图匹配的老-汉双语句子对齐方法 |
CN108549629B (zh) * | 2018-03-19 | 2021-06-18 | 昆明理工大学 | 一种结合相似度和图匹配的老-汉双语句子对齐方法 |
CN109684648A (zh) * | 2019-01-14 | 2019-04-26 | 浙江大学 | 一种多特征融合的古今汉语自动翻译方法 |
CN109684648B (zh) * | 2019-01-14 | 2020-09-01 | 浙江大学 | 一种多特征融合的古今汉语自动翻译方法 |
CN111753556A (zh) * | 2020-06-24 | 2020-10-09 | 掌阅科技股份有限公司 | 双语对照阅读的方法、终端及计算机存储介质 |
CN112766002A (zh) * | 2021-01-14 | 2021-05-07 | 语联网(武汉)信息技术有限公司 | 基于动态规划的文本对齐方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104360996A (zh) | 双语文本的句子对齐方法 | |
CN104750687B (zh) | 改进双语语料库的方法及装置、机器翻译方法及装置 | |
CN105045778A (zh) | 一种汉语同音词错误自动校对方法 | |
CN104881406B (zh) | 网页翻译方法和系统 | |
CN105975625A (zh) | 一种面向英文搜索引擎的中式英文查询纠错方法和系统 | |
CN105260359A (zh) | 语义关键词提取方法及装置 | |
CN109829173B (zh) | 一种英文地名翻译方法及装置 | |
CN106126506A (zh) | 一种在线语料对齐方法及系统 | |
CN103823796A (zh) | 一种翻译系统及翻译方法 | |
CN109446221A (zh) | 一种基于语义分析的交互式数据探查方法 | |
JP2014527660A (ja) | レイアウトファイルにおける構造化情報の取得方法及び装置 | |
CN105630776A (zh) | 一种双向词语对齐方法及装置 | |
CN103942192A (zh) | 一种双语最大名词组块分离-融合的翻译方法 | |
CN104239290A (zh) | 基于依存树的统计机器翻译方法及系统 | |
CN105183713A (zh) | 一种英语作文的自动批改方法及系统 | |
CN105183723A (zh) | 一种翻译软件与语料搜索的关联方法 | |
CN106547741A (zh) | 一种基于搭配的汉语文本自动校对方法 | |
CN109683881A (zh) | 一种代码格式调整方法及装置 | |
Schneider et al. | Comparing rule-based and SMT-based spelling normalisation for English historical texts | |
CN106202037A (zh) | 基于组块的越南语短语树构建方法 | |
CN109710304B (zh) | 一种格式调整方法及装置 | |
CN107301173A (zh) | 一种基于拼接再混合方式的多源神经网络自动译后编辑系统及方法 | |
CN113962225A (zh) | 道路名的翻译方法、装置、电子设备和存储介质 | |
CN110502758A (zh) | 一种基于短语的汉-越伪平行句对生成方法 | |
CN109697287A (zh) | 句子级双语对齐方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150218 |