CN101667177B - 双语文本的对齐方法及装置 - Google Patents
双语文本的对齐方法及装置 Download PDFInfo
- Publication number
- CN101667177B CN101667177B CN2009100930616A CN200910093061A CN101667177B CN 101667177 B CN101667177 B CN 101667177B CN 2009100930616 A CN2009100930616 A CN 2009100930616A CN 200910093061 A CN200910093061 A CN 200910093061A CN 101667177 B CN101667177 B CN 101667177B
- Authority
- CN
- China
- Prior art keywords
- sentence
- text
- bilingual
- speech
- version
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000005520 cutting process Methods 0.000 claims abstract description 33
- 230000011218 segmentation Effects 0.000 claims description 125
- 239000012634 fragment Substances 0.000 claims description 60
- 238000013519 translation Methods 0.000 claims description 28
- 238000012360 testing method Methods 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 18
- 238000012216 screening Methods 0.000 claims description 18
- 238000012795 verification Methods 0.000 claims description 10
- 238000009432 framing Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 abstract 2
- 230000000694 effects Effects 0.000 abstract 1
- 230000002349 favourable effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种双语文本的对齐方法及装置,属于文本信息处理领域。所述方法包括:将待对齐双语文本的原文文本及译文文本分别进行预处理;判断所述原文文本及译文文本之间的句子数差值是否足够大,并根据判断结果,将经过预处理的双语文本分割成多个双语文本片段;根据词语间的互译关系,将每个双语文本片段进行对齐,得到对齐的双语文本。所述装置包括:预处理模块、判断模块、分段模块和对齐模块。本发明通过判断原文文本及译文文本之间的句子数差值是否足够大,并根据判断结果将经过预处理的双语文本可靠地分段,再根据词语间的互译关系,分别对每个双语文本片段进行对齐,具有提升对齐的速度,保证良好鲁棒性的效果。
Description
技术领域
本发明涉及文本信息处理领域,特别涉及一种双语文本的对齐方法及装置。
背景技术
随着互联网的迅猛发展,互联网上的信息量呈指数爆炸式增长。如何利用好这些信息则成为了一个难题,尤其是语言上的不统一,人们期望有一种自动的或需要很少人工干预的方法将一种语言转换成另一种语言,而这些方法的设计和实施需要大量的双语对齐文本(即已给出在篇章级、句子级、词语级等级别的对应关系的双语文本)。由于人工制作双语对齐文本费时费力,于是需要一些方法来自动对双语文本进行对齐(即给出双语文本在篇章级、句子级、词语级等的对应关系)。
现有技术中的一种对齐方式是:采用句子长度信息来对双语文本进行对齐;另一种对齐方式是:采用词语间互译关系来对双语文本进行对齐。
在实现本发明的过程中,发明人发现现有技术至少存在以下几个缺点:
采用句子长度信息来对双语文本进行对齐时,当输入文本中出现的句子缺失或插入时,会引起对齐性能的急剧下降,从而导致鲁棒性差;第二种对齐方式随着文本长度的增加,词语数量的增多,对齐的时间也将随之增长,从而导致对齐的速度很慢。
发明内容
为了提高双语文本的对齐速度,并同时保证良好的鲁棒性,本发明实施例提供了一种双语文本的对齐方法及装置。所述技术方案如下:
一方面,提供了一种双语文本的对齐方法,所述方法包括:
将待对齐双语文本的原文文本及译文文本分别进行预处理,所述预处理的方式为:统计所述原文文本及译文文本中每个句子的指纹,所述句子的指纹为:F(s1)=W(s1)-W(s2),F(si)=W(si)-W(si-1)-W(si+1),F(sn)=W(sn)-W(sn-1),其中,给定句子序列s1,s2,L,sn,W(si)为句子si中所有词的集合,W(si-1)为句子si的前一个句子si-1中所有词的集合,W(si+1)为句子si的后一个句子si+1中所有词的集合,“-”代表集合的差运算;
判断所述原文文本及译文文本之间的句子数差值是否足够大,如果|N1-N2|/min(N1,N2)>0.5,则判断所述原文文本及译文文本之间的句子数差值足够大,其中,N1为原文文本的句子数,N2为译文文本的句子数,min(N1,N2)为N1与N2中的最小值;
根据判断结果,选择满足分割条件的句子对作为候选分割点:如果所述原文文本及译文文本之间的句子数差值足够大,则在所述经过预处理的双语文本中直接选择满足分割条件的句子对作为候选分割点;如果所述原文文本及译文文本之间的句子数差值不够大,则根据句子长度信息,将所述经过预处理的双语文本进行初步对齐,得到多个句子对;对每个句子对进行验证计算,选择符合验证条件的句子对作为初始分割点,在所述初始分割点处将所述经过预处理的双语文本分割成多个双语文本初始片段,并在各个双语文本初始片段中选择满足分割条件的句子对作为候选分割点;其中,所述分割条件为:句子对中含有多对互为翻译的词,且所述互为翻译的词仅出现在所述句子对中;
在选择出的候选分割点的前后各取多个句子,连同所述候选分割点组成双语文本测试片段,得到多个双语文本测试片段;
根据词语间的互译关系,将每个双语文本测试片段进行对齐;
根据所述对齐结果及筛选规则,筛选候选分割点,并去除分割位置有交叉的候选分割点,确定最终候选分割点;
在确定的最终候选分割点处进行分割,将经过预处理的双语文本分割成多个双语文本片段;
根据词语间的互译关系,将每个双语文本片段进行对齐,得到对齐的双语文本。
另一方面,提供了一种双语文本的对齐装置,所述装置包括:
预处理模块,用于将待对齐双语文本的原文文本及译文文本分别进行预处理,所述预处理的方式为:统计所述原文文本及译文文本中每个句子的指纹,所述句子的指纹为:F(s1)=W(s1)-W(s2),F(si)=W(si)-W(si-1)-W(si+1),F(sn)=W(sn)-W(sn-1),其中,给定句子序列s1,s2,L,sn,W(si)为句子si中所有词的集合,W(si-1)为句子si的前一个句子si-1中所有词的集合,W(si+1)为句子si的后一个句子si+1中所有词的集合,“-”代表集合的差运算;
判断模块,用于判断所述原文文本及译文文本之间的句子数差值是否足够大,如果|N1-N2|/min(N1,N2)>0.5,则判断所述原文文本及译文文本之间的句子数差值足够大,其中,N1为原文文本的句子数,N2为译文文本的句子数,min(N1,N2)为N1与N2中的最小值;
分段模块,用于根据所述判断模块的判断结果,选择满足分割条件的句子对作为候选分割点:如果所述原文文本及译文文本之间的句子数差值足够大,则在所述经过预处理的双语文本中直接选择满足分割条件的句子对作为候选分割点;如果所述原文文本及译文文本之间的句子数差值不够大,则根据句子长度信息,将所述经过预处理的双语文本进行初步对齐,得到多个句子对;对每个句子对进行验证计算,选择符合验证条件的句子对作为初始分割点,在所述初始分割点处将所述经过预处理的双语文本分割成多个双语文本初始片段,并在各个双语文本初始片段中选择满足分割条件的句子对作为候选分割点;其中,所述分割条件为:句子对中含有多对互为翻译的词,且所述互为翻译的词仅出现在所述句子对中;在选择出的候选分割点的前后各取多个句子,连同所述候选分割点组成双语文本测试片段,得到多个双语文本测试片段;根据词语间的互译关系,将每个双语文本测试片段进行对齐;根据所述对齐结果及筛选规则,筛选候选分割点,并去除分割位置有交叉的候选分割点,确定最终候选分割点;在确定的最终候选分割点处进行分割,将经过预处理的双语文本分割成多个双语文本片段;
对齐模块,用于根据词语间的互译关系,将所述分段模块得到的每个双语文本片段进行对齐,得到对齐的双语文本。
本发明实施例提供的技术方案的有益效果是:
通过判断原文文本及译文文本之间的句子数差值是否足够大,并根据判断结果,将经过预处理的双语文本可靠地分段,再分别对每个双语文本片段进行对齐,从而提升对齐的速度;又由于在对每个双语文本片段进行对齐时,采用的是词语间的互译关系,因此保证了良好的鲁棒性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1提供的双语文本的对齐方法流程图;
图2是本发明实施例2提供的双语文本的对齐方法流程图;
图3是本发明实施例3提供的双语文本的对齐装置结构示意图;
图4是本发明实施例3提供的双语文本的对齐装置中的分段模块结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例1
参见图1,本实施例提供了一种双语文本的对齐方法,方法流程如下所示:
101:将待对齐双语文本的原文文本及译文文本分别进行预处理;
102:判断所述原文文本及译文文本之间的句子数差值是否足够大,并根据判断结果,将经过预处理的双语文本分段,得到一至多个双语文本片段;
103:根据词语间的互译关系,将每个双语文本片段进行对齐,得到对齐的双语文本。
本实施例提供的方法,通过判断原文文本及译文文本之间的句子数差值是否足够大,并根据判断结果,将经过预处理的双语文本可靠地分段,再分别对每个双语文本片段进行对齐,从而提升对齐的速度;又由于在对每个双语文本片段进行对齐时,采用的是词语间的互译关系,因此保证了良好的鲁棒性。
实施例2
参见图2,本实施例提供了一种双语文本的对齐方法,该方法针对句子级的对齐,通过将双语文本可靠地分段来有效提高句子对齐的速度,从而实现整篇双语文本的对齐,具体方法流程如下:
201:将待对齐双语文本的原文文本及译文文本分别进行预处理;
具体地,预处理包括但不限于将原文文本及译文文本中的句子切分成词,并将存在词根的词映射为对应的词根,例如,将英文中代表名词复数的词映射成对应的单数词;将标点符号转换成单字节形式,例如,将中文双引号映射成ASCII码(American Standard Code for Information Interchange,美国信息交换标准代码);将易于转换的非阿拉伯数字转换成阿拉伯数字,例如,将“三十五”转换成“35”;除此之外,还要统计每个词在整篇文本中出现的次数,及在其所在的句子中出现的次数,并统计每个句子的指纹。
关于句子的指纹,定义如下:
给定句子序列s1,s2,L,sn,记w(si)为句子si中所有词的集合,则句子si的指纹为:
F(si)=W(si)-W(si-1)-W(si+1);
其中,F(s1)=W(s1)-W(s2),F(sn)=W(sn)-W(sn-1),“-”代表集合的差运算。
202:判断原文文本及译文文本之间的句子数差值是否足够大,如果是,执行206,否则,执行203;
针对该步骤,设原文文本的句子数为N1,译文文本的句子数为N2,如果|N1-N2|/min(N1,N2)>0.5,则认为差值足够大,其中,min(N1,N2)表示取N1与N2中的最小值。
203:使用句子长度信息将原文文本及译文文本进行初步对齐,得到多个句子对;
具体地,给定两段互为翻译的文本(S;T)=(S1S2L Sm;T1T2L Tn),其中,S为原文文本,T为译文文本,Si和Ti分别为原文文本和译文文本中的第i个句子。用表示一组句子,称为一个句子对。如果存在a0=0<...<ai-1<ai<...<ak=m,b0=0<...<bi-1<bi<...<bk=n,则称A=A1,A2,L,Ak为(S;T)的一个对齐。
在使用句子长度信息将原文文本及译文文本进行初步对齐时,通过建立数学模型来描述原文文本句子长度与译文文本句子长度间的关系,根据此模型可以算出任意一个句子对对齐的概率P(Ai),而原文文本和译文文本的一个对齐A的概率则为P(A)=P(A1)P(A2)LP(Ak),将令P(A)取得最大值的对齐作为原文与译文的对齐结果,根据对齐结果,得到多个句子对;目前已有多个模型提出原文文本句子长度与译文文本句子长度间的关系,但这些模型的定义之间比较相似,没有根本性的差别,并不影响本发明实施例的实施,可以根据具体的语言选取一种最适合的模型使用。
在本实施例中,定义P(Ai)=P(δ)P(NS,NT),其中, LS为Ai中原文文本句子长度,LT为译文文本句子长度,c是单位长度的译文文本平均对应的原文文本长度(亦即单位长度的译文文本对应的原文文本长度的数学期望),σ是单位长度的译文文本对应的原文文本长度的方差,这两个值在不同的语言间是不同的,可以使用相应语言的句子级互译文本统计得到。
关于P(NS,NT)的定义:使用句子级互译文本可以得到不同数量的原文文本句子与译文文本句子对齐的概率,举一例说明,假设从句子级互译文本中统计得到1句原文文本对应1句译文文本的情形有100次,1句原文文本对应2句译文文本的情形有10次,2句原文文本对应1句译文文本的情形有15次,并且没有其他的情形。则1句原文文本对应1句译文文本的概率为100/(100+10+15),则1句原文文本对应2句译文文本的概率为10/(100+10+15),则2句原文文本对应1句译文文本的概率为15/(100+10+15)。记Ai中原文文本句子数为NS,译文文本句子数为NT,P(NS,NT)是NS句原文与NT句译文文本对齐的概率。
204:对得到的每个句子对进行验证计算,选择符合验证条件的句子对作为初始分割点,并在初始分割点处将经过预处理的双语文本分割成多个双语文本初始片段;
在对每个句子对进行验证计算时,需要对每个句子对计算TRS(Si,Tj)、TRT(Si,Tj)、TFRS(Si,Tj)、TFRT(Si,Tj)这四个值,计算公式如下:
其中,在给定句子对(sk1,sk2,L,skm;tj1,tj2,L,tjn),简记sk1,sk2,L,skm为Si,代表原文文本中的句子;tj1,tj2,L,tjn为Tj,代表译文文本中的句子。W(Si)为原文文本句子Si中所有词的集合,W(Tj)为译文文本句子Tj中所有词的集合,TW(Si)为W(Si)中可以在W(Tj)中找到译文的词的集合,TW(Tj)为W(Tj)中可以在W(Si)中找到原文的词的集合。在求出句子对中的每个句子的指纹后,F(Si)为原文文本中所有句子的指纹的并集,F(Tj)为译文文本中所有句子的指纹的并集。而TF(Si)为F(Si)中可以在W(Tj)中找到译文的词的集合,TF(Tj)为F(Tj)中可以在W(Si)中找到原文的词的集合。
符合验证条件的句子对为至少满足下面一个条件的句子对:
条件1:TRS(Si,Tj)≥0.6且TRT(Si,Tj)≥0.6;
条件2:TRS(Si,Tj)≥0.5且TRT(Si,Tj)≥0.5
且TFRS(Si,Tj)≥0.4且TFRT(Si,Tj)≥0.4。
205:在各个双语文本初始片段中选择满足分割条件的句子对作为候选分割点,之后执行步骤207;
其中,分割条件为句子对中含有多对互为翻译的词,且互为翻译的词仅出现在该句子对中;由于该步骤是在各个双语文本初始片段中选择满足分割条件的句子对,因此,分割条件中所涉及到的“互为翻译的词仅出现在该句子对中”应该理解为“互为翻译的词仅出现在对应的双语文本初始片段中的该句子对中”。
此处的分割条件是为了进一步确定候选分割点的准确性,本实施例不对互为翻译的词的对数进行限定,例如,可以包含3对或3对以上互为翻译的词,且仅在此句子对中出现的词。
206:在经过预处理的双语文本中直接选择满足分割条件的句子对作为候选分割点;
该步骤中的分割条件同步骤205,由于该步骤是在经过预处理的双语文本中选择满足分割条件的句子对,因此,分割条件中所涉及到的“互为翻译的词仅出现在该句子对中”应该理解为“互为翻译的词仅出现在经过预处理的双语文本中的该句子对中”。
207:对选出的每个候选分割点,在其前后各取N个句子连同其自身组成一个双语文本测试片段,得到多个双语文本测试片段;
208:根据词语间的互译关系将每个双语文本测试片段对齐,根据对齐结果及筛选规则,筛选候选分割点;
针对该步骤,根据词语间的互译关系将每个双语文本测试片段对齐的具体步骤如下:
定义了一个评分函数SF(Ai)来对每个句对进行评分,而对齐A=A1A2L Ak的评分为SF(A1)+Sf(A2)+L+SF(Ak),将该评分最大的对齐作为原文与译文的对齐结果。
其中,SF(Ai)的定义如下:给定一组句子(SiL L Sj;TkL L Tl),设c是SiL L Sj中的一个词,e是TkL L Tl中的一个词,且c与e是互为翻译的,记stf(c)为词c在SiL L Sj中出现的次数,stf(e)为e在TkL L Tl中出现的次数,关于每个词在句子中出现的次数,上述步骤201的预处理步骤中已给出结果。记stf(c;e)为stf(c)与stf(e)中较小者;T为双语文本测试片段的原文文本的总词数,dtf(c)为c在双语文本测试片段的原文文本中出现的总次数,idtf(c)为T/dtf(c)。任给一个句对Ai=(Si;Ti),记(c1;e1)……(ck;ek)为Si和Tj中互为翻译的词对,则
在根据词语间的互译关系进行对齐之后,依据以下几种筛选规则,筛选候选分割点,即决定是否保留、替换选择出的候选分割点,具体规则如下:
规则1:若对齐结果为候选分割点对应的双语文本测试片段中至少有一半句子对只包含原文文本或译文文本的句子,则将候选分割点丢弃;
规则2:若对齐结果为候选分割点对应的句子对中的句子分属不同的句子对,则将候选分割点丢弃;
规则3:若对齐结果为候选分割点对应的句子对不完整,则以完整的句子对替换候选分割点。
下面,以N=3为例,对本步骤进行详细说明。
设有原文文本为:{S1,S2,S3,S4,S5,S6,S7,S8,S9,S10},译文文本为{T1,T2,T3,T4,T5,T6,T7,T8,T9,T10,T11},其中,Si和Ti都是句子。以句子对(S5,T6)被选为侯选分割点为例,则首先取出双语片段({S2,S3,S4,S5,S6,S7,S8},{T3,T4,T5,T6,T7,T8,T9}),并在根据词语间互译关系进行对齐后,根据不同的对齐结果,依照上述规则1-3分别举例:
应用规则1的例子:设对齐结果中S2,S3,S4,S5,S6,S7,S8这6个句子没有译文与之对齐,而T3,T4,T5,T7,T8,T9这6个句子没有原文与之对齐,S5与T6是对齐的,亦即结果中有13个句对,其中12个句对只包含原文或译文句子,超过了句对总数(即13)的一半,此时认为从S5与T6处将原文与译文切开是不合适的,故将候选分割点(S5,T6)丢弃;
应用规则2的例子:设对齐结果为S2与T3对齐,S3与T4对齐,S4、S5与T5对齐,S6与T6、T7对齐,S7与T8对齐,S8与T9对齐,亦即S5与T6是分属于不同句对的,它们并不是互译的,S5与T6处将原文与译文切开是不合适的,故将候选分割点(S5,T6)丢弃;
应用规则3的例子:设对齐结果为S2与T3对齐,S3与T4对齐,S4与T5对齐,S5、S6与T6对齐,S7与T7、T8对齐,S8与T9对齐,亦即事实上S5与S6合在一起才是T6的完整翻译,因此用(S5S6,T6)替代(S5,T6)作为候选分割点。
209:去除分割位置有交叉的候选分割点,确定最终候选分割点;
具体地,如一个候选分割点由原文第10句与译文第1句组成,而另一个候选分割点由原文第1句与译文第10句组成,则它们无法将文本切割为不相重叠的部分,它们是交叉的,则去除此类候选分割点。
210:在确定的最终候选分割点处进行分割,将经过预处理的双语文本分割成多个双语文本片段,并根据词语间的互译关系,对每个双语文本片段进行对齐,得到对齐的双语文本。
其中,根据词语间的互译关系,对每个双语文本片段进行对齐时,过程同上述步骤207中所涉及到的,此处不再赘述。
另外,针对该步骤中涉及到的“在确定的最终候选分割点处进行分割,将经过预处理的双语文本分割成多个双语文本片段”,作出以下说明:
如果该步骤中的最终候选分割点是从步骤206选择出的候选分割点中筛选出来的,即是从经过预处理的双语文本中直接选择出来的,则对于该步骤中的“在确定的最终候选分割点处进行分割,将经过预处理的双语文本分割成多个双语文本片段”,即指在确定的最终候选分割点处,将整篇经过预处理的双语文本分割成多个双语文本片段。
如果该步骤中的最终候选分割点是从步骤205选择出的候选分割点中筛选出来的,即是从各个双语文本初始片段中选择出来的,则对于该步骤中的“在确定的最终候选分割点处进行分割,将经过预处理的双语文本分割成多个双语文本片段”,即指在确定的最终候选分割点处,将对应的双语文本初始片段进一步分段,最终使得将整篇经过预处理的双语文本分割成多个双语文本片段。
综上所述,本实施例提供的方法,通过将待对齐双语文本的原文文本及译文文本进行预处理,并判断原文文本及译文文本之间句子数差值是否足够大,在句子数差值不够大时,采用句子长度信息将经过预处理的双语文本进行初步对齐,在句子数差值足够大时,则避免采用句子长度信息将经过预处理的双语文本进行初步对齐,保证了良好的鲁棒性。最后,通过在确定的最终候选分割点处分割,将经过预处理的双语文本可靠地分段,并根据词语间的互译关系将每个双语文本片段进行对齐,提升了对齐的速度,保证了良好的鲁棒性。
实施例3
参见图3,本实施例提供了一种双语文本的对齐装置,该装置包括:
预处理模块301,用于将待对齐双语文本的原文文本及译文文本分别进行预处理;
判断模块302,用于判断原文文本及译文文本之间的句子数差值是否足够大;
分段模块303,用于根据判断模块302的判断结果,将经过预处理的双语文本分割成多个双语文本片段;
对齐模块304,用于根据词语间的互译关系,将分段模块303得到的每个双语文本片段进行对齐,得到对齐的双语文本。
具体地,上述预处理模块301,用于统计原文文本及译文文本中每个句子的指纹;每个句子的指纹为:F(si)=W(si)-W(si-1)-W(si+1);
其中,W(si)为句子si中所有词的集合,W(si-1)为句子si的前一个句子si-1中所有词的集合,W(si+1)为句子si的后一个句子si+1中所有词的集合,“-”代表集合的差运算。
判断模块302,用于在|N1-N2|/min(N1,N2)>0.5时,判断原文文本及译文文本之间的句子数差值足够大;
其中,N1为原文文本的句子数,N2为译文文本的句子数,min(N1,N2)为N1与N2中的最小值。
进一步地,参见图4,分段模块303包括:
选择单元303a,用于根据判断结果,选择满足分割条件的句子对作为候选分割点;
测试片段获取单元303b,用于在选择单元303a选择出的候选分割点的前后各取多个句子,连同候选分割点组成双语文本测试片段,得到多个双语文本测试片段;
对齐单元303c,用于根据词语间的互译关系,将测试片段获取单元303b得到的每个双语文本测试片段进行对齐;
筛选单元303d,用于根据对齐单元303c的对齐结果及筛选规则,筛选候选分割点,并去除分割位置有交叉的候选分割点,确定最终候选分割点;
分段单元303e,用于在确定的最终候选分割点处,将经过预处理的双语文本分割成多个双语文本片段。
其中,筛选单元303d在筛选时依据的筛选规则为:
规则1:若对齐结果为候选分割点对应的双语文本测试片段中至少有一半句子对只包含原文文本或译文文本的句子,则将候选分割点丢弃;
规则2:若对齐结果为候选分割点对应的句子对中的句子分属不同的句子对,则将候选分割点丢弃;
规则3:若对齐结果为候选分割点对应的句子对不完整,则以完整的句子对替换候选分割点。
具体地,上述选择单元303a,具体用于在原文文本及译文文本之间的句子数差值足够大时,在经过预处理的双语文本中直接选择满足分割条件的句子对作为候选分割点;
或,在原文文本及译文文本之间的句子数差值不够大时,根据句子长度信息,将经过预处理的双语文本进行初步对齐,得到多个句子对;对每个句子对进行验证计算,选择符合验证条件的句子对作为初始分割点,在初始分割点处将经过预处理的双语文本分割成多个双语文本初始片段,并在各个初始双语文本片段中选择满足分割条件的句子对作为候选分割点;
其中,分割条件为:句子对中含有多对互为翻译的词,且互为翻译的词仅出现在句子对中。
另外,针对分段单元303e用于“在确定的最终候选分割点处进行分割,将经过预处理的双语文本分割成多个双语文本片段”,作出以下说明:
如果最终候选分割点是由选择单元303a从经过预处理的双语文本中直接选择出来的,则分段单元303e,用于“在确定的最终候选分割点处进行分割,将经过预处理的双语文本分割成多个双语文本片段”时,即指分段单元303e在确定的最终候选分割点处,将整篇经过预处理的双语文本分割成多个双语文本片段。
如果最终候选分割点是由选择单元303a从各个双语文本初始片段中选择出来的,则分段单元303e,用于“在确定的最终候选分割点处进行分割,将经过预处理的双语文本分割成多个双语文本片段”时,即指分段单元303e在确定的最终候选分割点处,将对应的双语文本初始片段进一步分段,最终使得将整篇经过预处理的双语文本分割成多个双语文本片段。
进一步地,选择单元303a在对每个句子对进行验证计算时,具体用于对每个句子对计算TRS(Si,Tj)、TRT(Si,Tj)、TFRS(Si,Tj)、TFRT(Si,Tj)这四个值,计算公式如下:
其中,W(Si)为原文文本句子Si中所有词的集合,W(Tj)为译文文本句子Tj中所有词的集合,TW(Si)为W(Si)中可以在W(Tj)中找到译文的词的集合,TW(Tj)为W(Tj)中可以在W(Si)中找到原文的词的集合;F(Si)为原文文本所有句子的指纹的并集,F(Tj)为译文文本所有句子的指纹的并集;TF(Si)为F(Si)中可以在W(Tj)中找到译文的词的集合,TF(Tj)为F(Tj)中可以在W(Si)中找到原文的词的集合;
相应地,验证条件为:
TRS(Si,Tj)≥0.6且TRT(Si,Tj)≥0.6,和/或
TRS(Si,Tj)≥0.5且TRT(Si,Tj)≥0.5
且TFRS(Si,Tj)≥0.4且TFRT(Si,Tj)≥0.4。
综上所述,本实施例提供的双语文本的对齐装置,通过判断原文文本及译文文本之间的句子数差值是否足够大,并根据判断结果,将经过预处理的双语文本可靠地分段,再根据词语间的互译关系,分别对每个双语文本片段进行对齐,从而提升了对齐的速度,保证了良好的鲁棒性。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本发明实施例中的部分步骤,可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,如光盘或硬盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种双语文本的对齐方法,其特征在于,所述方法包括:
将待对齐双语文本的原文文本及译文文本分别进行预处理,所述预处理的方式为:统计所述原文文本及译文文本中每个句子的指纹,所述句子的指纹为:F(s1)=W(s1)-W(s2),F(si)=W(si)-W(si-1)-W(si+1),F(sn)=W(sn)-W(sn-1),其中,给定句子序列s1,s2,L,sn,W(si)为句子si中所有词的集合,W(si-1)为句子si的前一个句子si-1中所有词的集合,W(si+1)为句子si的后一个句子si+1中所有词的集合,“-”代表集合的差运算;
判断所述原文文本及译文文本之间的句子数差值是否足够大,如果|N1-N2|/min(N1,N2)>0.5,则判断所述原文文本及译文文本之间的句子数差值足够大,其中,N1为原文文本的句子数,N2为译文文本的句子数,min(N1,N2)为N1与N2中的最小值;
根据判断结果,选择满足分割条件的句子对作为候选分割点:如果所述原文文本及译文文本之间的句子数差值足够大,则在所述经过预处理的双语文本中直接选择满足分割条件的句子对作为候选分割点;如果所述原文文本及译文文本之间的句子数差值不够大,则根据句子长度信息,将所述经过预处理的双语文本进行初步对齐,得到多个句子对;对每个句子对进行验证计算,选择符合验证条件的句子对作为初始分割点,在所述初始分割点处将所述经过预处理的双语文本分割成多个双语文本初始片段,并在各个双语文本初始片段中选择满足分割条件的句子对作为候选分割点;其中,所述分割条件为:句子对中含有多对互为翻译的词,且所述互为翻译的词仅出现在所述句子对中;
在选择出的候选分割点的前后各取多个句子,连同所述候选分割点组成双语文本测试片段,得到多个双语文本测试片段;
根据词语间的互译关系,将每个双语文本测试片段进行对齐;
根据所述对齐结果及筛选规则,筛选候选分割点,并去除分割位置有交叉的候选分割点,确定最终候选分割点;
在确定的最终候选分割点处进行分割,将经过预处理的双语文本分割成多个双语文本片段;
根据词语间的互译关系,将每个双语文本片段进行对齐,得到对齐的双语文本。
2.根据权利要求1所述的方法,其特征在于,所述对每个句子对进行验证计算,具体包括:
对每个句子对计算TRS(Si,Tj)、TRT(Si,Tj)、TFRS(Si,Tj)、TFRT(Si,Tj)这四个值,计算公式如下:
其中,W(Si)为原文文本句子Si中所有词的集合,W(Tj)为译文文本句子Tj中所有词的集合,TW(Si)为W(Si)中可以在W(Tj)中找到译文的词的集合,TW(Tj)为W(Tj)中可以在W(Si)中找到原文的词的集合;F(Si)为原文文本所有句子的指纹的并集,F(Tj)为译文文本所有句子的指纹的并集;TF(Si)为F(Si)中可以在W(Tj)中找到译文的词的集合,TF(Tj)为F(Tj)中可以在W(Si)中找到原文的词的集合;
相应地,所述验证条件为:
TRS(Si,Tj)≥0.6且TRT(Si,Tj)≥0.6,和/或
TRS(Si,Tj)≥0.5且TRT(Si,Tj)≥0.5
且TFRS(Si,Tj)≥0.4且TFRT(Si,Tj)≥0.4。
3.根据权利要求1所述的方法,其特征在于,所述筛选规则,具体包括:
若对齐结果为候选分割点对应的双语文本测试片段中至少有一半句子对只包含原文文本或译文文本的句子,则将所述候选分割点丢弃;
若对齐结果为候选分割点对应的句子对中的句子分属不同的句子对,则将所述候选分割点丢弃;
若对齐结果为所述候选分割点对应的句子对不完整,则以完整的句子对替换所述候选分割点。
4.一种双语文本的对齐装置,其特征在于,所述装置包括:
预处理模块,用于将待对齐双语文本的原文文本及译文文本分别进行预处理,所述预处理的方式为:统计所述原文文本及译文文本中每个句子的指纹,所述句子的指纹为:F(s1)=W(s1)-W(s2),F(si)=W(si)-W(si-1)-W(si+1),F(sn)=W(sn)-W(sn-1),其中,给定句子序列s1,s2,L,sn,W(si)为句子si中所有词的集合,W(si-1)为句子si的前一个句子si-1中所有词的集合,W(si+1)为句子si的后一个句子si+1中所有词的集合,“-”代表集合的差运算;
判断模块,用于判断所述原文文本及译文文本之间的句子数差值是否足够大,如果|N1-N2|/min(N1,N2)>0.5,则判断所述原文文本及译文文本之间的句子数差值足够大,其中,N1为原文文本的句子数,N2为译文文本的句子数,min(N1,N2)为N1与N2中的最小值;
分段模块,用于根据所述判断模块的判断结果,选择满足分割条件的句子对作为候选分割点:如果所述原文文本及译文文本之间的句子数差值足够大,则在所述经过预处理的双语文本中直接选择满足分割条件的句子对作为候选分割点;如果所述原文文本及译文文本之间的句子数差值不够大,则根据句子长度信息,将所述经过预处理的双语文本进行初步对齐,得到多个句子对;对每个句子对进行验证计算,选择符合验证条件的句子对作为初始分割点,在所述初始分割点处将所述经过预处理的双语文本分割成多个双语文本初始片段,并在各个双语文本初始片段中选择满足分割条件的句子对作为候选分割点;其中,所述分割条件为:句子对中含有多对互为翻译的词,且所述互为翻译的词仅出现在所述句子对中;在选择出的候选分割点的前后各取多个句子,连同所述候选分割点组成双语文本测试片段,得到多个双语文本测试片段;根据词语间的互译关系,将每个双语文本测试片段进行对齐;根据所述对齐结果及筛选规则,筛选候选分割点,并去除分割位置有交叉的候选分割点,确定最终候选分割点;在确定的最终候选分割点处进行分割,将经过预处理的双语文本分割成多个双语文本片段;
对齐模块,用于根据词语间的互译关系,将所述分段模块得到的每个双语文本片段进行对齐,得到对齐的双语文本。
5.根据权利要求4所述的装置,其特征在于,所述分段模块在对每个句子对进行验证计算时,具体用于对每个句子对计算TRS(Si,Tj)、TRT(Si,Tj)、TFRS(Si,Tj)、TFRT(Si,Tj)这四个值,计算公式如下:
其中,W(Si)为原文文本句子Si中所有词的集合,W(Tj)为译文文本句子Tj中所有词的集合,TW(Si)为W(Si)中可以在W(Tj)中找到译文的词的集合,TW(Tj)为W(Tj)中可以在W(Si)中找到原文的词的集合;F(Si)为原文文本所有句子的指纹的并集,F(Tj)为译文文本所有句子的指纹的并集;TF(Si)为F(Si)中可以在W(Tj)中找到译文的词的集合,TF(Tj)为F(Tj)中可以在W(Si)中找到原文的词的集合;
相应地,所述验证条件为:
TRS(Si,Tj)≥0.6且TRT(Si,Tj)≥0.6,和/或
TRS(Si,Tj)≥0.5且TRT(Si,Tj)≥0.5
且TFRS(Si,Tj)≥0.4且TFRT(Si,Tj)≥0.4。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100930616A CN101667177B (zh) | 2009-09-23 | 2009-09-23 | 双语文本的对齐方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100930616A CN101667177B (zh) | 2009-09-23 | 2009-09-23 | 双语文本的对齐方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101667177A CN101667177A (zh) | 2010-03-10 |
CN101667177B true CN101667177B (zh) | 2011-10-26 |
Family
ID=41803796
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009100930616A Active CN101667177B (zh) | 2009-09-23 | 2009-09-23 | 双语文本的对齐方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101667177B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150329A (zh) * | 2013-01-06 | 2013-06-12 | 清华大学 | 双语文本的词语对齐方法及装置 |
CN103605781A (zh) * | 2013-11-29 | 2014-02-26 | 苏州大学 | 一种隐式篇章关系类型推理方法及系统 |
CN104750687B (zh) * | 2013-12-25 | 2018-03-20 | 株式会社东芝 | 改进双语语料库的方法及装置、机器翻译方法及装置 |
CN105677621B (zh) * | 2015-12-30 | 2018-08-17 | 语联网(武汉)信息技术有限公司 | 翻译错误的定位方法和装置 |
CN107391495B (zh) * | 2017-06-09 | 2020-08-21 | 北京同文世纪科技有限公司 | 一种双语平行语料的句对齐方法 |
CN109920285B (zh) * | 2019-01-29 | 2022-03-11 | 刘啸旻 | 基于词对应翻译的外语教学系统及方法 |
CN110196910B (zh) * | 2019-05-30 | 2022-02-15 | 珠海天燕科技有限公司 | 一种语料分类的方法及装置 |
CN110334360B (zh) * | 2019-07-08 | 2021-07-06 | 腾讯科技(深圳)有限公司 | 机器翻译方法及装置、电子设备及存储介质 |
CN110442862B (zh) * | 2019-07-11 | 2022-08-09 | 新华三大数据技术有限公司 | 基于招聘信息的数据处理方法及装置 |
CN111240962B (zh) * | 2019-12-31 | 2023-09-05 | 中移(杭州)信息技术有限公司 | 测试方法、装置、计算机设备及计算机存储介质 |
CN111259652B (zh) * | 2020-02-10 | 2023-08-15 | 腾讯科技(深圳)有限公司 | 双语语料句对齐方法、装置、可读存储介质和计算机设备 |
CN112766002A (zh) * | 2021-01-14 | 2021-05-07 | 语联网(武汉)信息技术有限公司 | 基于动态规划的文本对齐方法及系统 |
CN113672760B (zh) * | 2021-08-19 | 2023-07-11 | 北京字跳网络技术有限公司 | 一种文本对应关系构建方法及其相关设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1570922A (zh) * | 2004-04-30 | 2005-01-26 | 王敖格 | 一种模式-参数语言翻译方法及其翻译系统 |
CN101490666A (zh) * | 2006-07-10 | 2009-07-22 | 微软公司 | 对齐分层和顺序文档树以标识并行数据 |
-
2009
- 2009-09-23 CN CN2009100930616A patent/CN101667177B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1570922A (zh) * | 2004-04-30 | 2005-01-26 | 王敖格 | 一种模式-参数语言翻译方法及其翻译系统 |
CN101490666A (zh) * | 2006-07-10 | 2009-07-22 | 微软公司 | 对齐分层和顺序文档树以标识并行数据 |
Non-Patent Citations (2)
Title |
---|
JP特开2006-127405A 2006.05.18 |
JP特开2007-241855A 2007.09.20 |
Also Published As
Publication number | Publication date |
---|---|
CN101667177A (zh) | 2010-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101667177B (zh) | 双语文本的对齐方法及装置 | |
Harrat et al. | Machine translation for Arabic dialects (survey) | |
US8170868B2 (en) | Extracting lexical features for classifying native and non-native language usage style | |
JP5362353B2 (ja) | 文書中のコロケーション誤りを処理すること | |
Ljubešic et al. | Normalising Slovene data: historical texts vs. user-generated content | |
US20090094017A1 (en) | Multilingual Translation Database System and An Establishing Method Therefor | |
CN106383818A (zh) | 一种机器翻译方法及装置 | |
WO2009035863A2 (en) | Mining bilingual dictionaries from monolingual web pages | |
CN108280065B (zh) | 一种外文文本评价方法及装置 | |
Unnikrishnan et al. | A novel approach for English to South Dravidian language statistical machine translation system | |
Álvarez et al. | Towards customized automatic segmentation of subtitles | |
Kusampudi et al. | Corpus creation and language identification in low-resource code-mixed telugu-english text | |
Samardžić et al. | Automatic interlinear glossing as two-level sequence classification | |
CN113420766B (zh) | 一种融合语言信息的低资源语种ocr方法 | |
CN113657122A (zh) | 一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法 | |
CN112257442B (zh) | 一种基于扩充语料库神经网络的政策文件信息提取方法 | |
Tennage et al. | Transliteration and byte pair encoding to improve tamil to sinhala neural machine translation | |
CN109992787B (zh) | 一种基于cbow模型和依存句法关系的词向量表示方法 | |
Vandeweerd et al. | J’ai l’impression que: Lexical Bundles in the Dialogues of Beginner French Textbooks | |
US8977538B2 (en) | Constructing and analyzing a word graph | |
KR102182248B1 (ko) | 문법 검사 시스템 및 방법과 이를 위한 컴퓨터 프로그램 | |
CN114492469A (zh) | 一种翻译方法、翻译装置和计算机可读存储介质 | |
CN114861628A (zh) | 训练机器翻译模型的系统、方法、电子设备及存储介质 | |
CN101546304B (zh) | 基于例句集合的翻译装置、方法以及短语翻译装置 | |
Maheswari et al. | Rule based morphological variation removable stemming algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |