CN101488126B - 双语语句对齐方法及装置 - Google Patents

双语语句对齐方法及装置 Download PDF

Info

Publication number
CN101488126B
CN101488126B CN2008102421122A CN200810242112A CN101488126B CN 101488126 B CN101488126 B CN 101488126B CN 2008102421122 A CN2008102421122 A CN 2008102421122A CN 200810242112 A CN200810242112 A CN 200810242112A CN 101488126 B CN101488126 B CN 101488126B
Authority
CN
China
Prior art keywords
languages
statement
mutual
alignment
combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2008102421122A
Other languages
English (en)
Other versions
CN101488126A (zh
Inventor
张玉志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHENZHEN DATUM DATA CO Ltd
Original Assignee
SHENZHEN DATUM DATA CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN DATUM DATA CO Ltd filed Critical SHENZHEN DATUM DATA CO Ltd
Priority to CN2008102421122A priority Critical patent/CN101488126B/zh
Publication of CN101488126A publication Critical patent/CN101488126A/zh
Application granted granted Critical
Publication of CN101488126B publication Critical patent/CN101488126B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开一种用于建设机器翻译语料库的双语语句对齐方法,包括以下步骤:分句步骤;分词步骤;对齐步骤;所述对齐步骤具体包括有:区域划分步骤,分别将待对齐的第一语种、第二语种按照预设的区域划分规则划分为多个包含所述第一语种语句、第二语种语句的比较区域;匹配步骤,计算每对对应的第一语种与第二语种比较区域内的每对语句的相互匹配率,并根据所述相互匹配率确定相互匹配的第一语种语句和第二语种语句组合;执行步骤,将所述相互匹配率最大的第一语种语句和第二语种语句组合执行对齐操作。本发明还公开了相应的用于建设机器翻译语料库的双语语句对齐装置。本发明可大大提高对齐的效率、加快语料库的建设速度。

Description

双语语句对齐方法及装置
技术领域
本发明涉及计算机翻译技术,尤其涉及一种双语语句对齐方法及装置。
背景技术
随着资讯的快速膨胀和经济贸易的全球一体化,国际间的沟通日趋频繁,快速对大量的外文资料根据需要进行整理、转化和使用,已是一种普遍而紧迫的的需求。在这种需求带动之下,用机器翻译系统来协助人们快速翻译、建档,也就成为无法避免的趋势,计算机辅助翻译应运而生。
然而,目前机器翻译系统与人工翻译仍存在巨大差距。机器翻译系统表现不佳的一个很重要的原因在于,在于资源的缺乏,无论采用何种机器翻译方法,都需要大量大规模的知识资源,这些知识资源被存储在语料库中。虽然网络的快速发展,提供了大量而丰富的双语对照电子文献,为机器辅助翻译提供了坚实的语料基础。但是人工添加和丰富语料库,仍然无疑是一项庞大而复杂的工作,一个好的机器翻译系统所必备的资源往往需要经年累月的积累。
发明内容
本发明所要解决的技术问题是:提供一种用于建设机器翻译语料库的双语语句对齐方法,该方法可大大提高对齐的效率、加快语料库的建设速度。
本发明进一步所要解决的技术问题是:提供一种用于建设机器翻译语料库的双语语句对齐装置,该装置可大大提高对齐的效率、加快语料库的建设速度。
为解决上述技术问题,本发明采用如下技术方案:
一种用于建设机器翻译语料库的双语语句对齐方法,包括以下步骤:
分句步骤,根据分句符将第一语种和第二语种分别划分为多个语句;
分词步骤,将每个语句根据词典划分为多个词段组合;
对齐步骤,找到每对相互匹配的第一语种语句和第二语种语句,并将所述相互匹配的第一语种语句和第二语种语句对齐,将对齐的语句存入机器翻译语料库中;
所述对齐步骤具体包括有:
区域划分步骤,分别将待对齐的第一语种、第二语种按照预设的区域划分规则划分为多个包含所述第一语种语句、第二语种语句的比较区域;
匹配步骤,计算每对对应的第一语种与第二语种比较区域内的每对语句的相互匹配率,在每对对应的第一语种比较区域和第二语种比较区域内寻找具有相互最大匹配率的第一语种语句和第二语种语句组合,并根据所述相互最大匹配率确定相互匹配的第一语种语句和第二语种语句组合;
执行步骤,将所述相互匹配率最大的第一语种语句和第二语种语句组合执行对齐操作;
其中,在所述匹配步骤中,通过以下方法寻找具有相互最大匹配率的第一语种语句和第二语种语句组合:
正向寻找步骤,寻找与第一语种语句i匹配率最大的第二语种语句i;
反向寻找步骤,反向寻找与该第二语种语句j匹配率最大的第一语种语句k;
比较步骤,比较所述第一语种语句i和反向寻找所得的第一语种语句k,若它们是同一语句,则判定该第一语种语句i与该第二语种语句j的组合为相互最大匹配率的语句组合,否则,该次寻找失败,所述第一语种语句i和第二语种语句j均没有找到相互最大匹配率的语句。
本发明还公开了相应的用于建设机器翻译语料库的双语语句对齐装置,该装置包括:
分句单元,用于根据分句符将第一语种和第二语种分别划分为多个语句;
分词单元,与所述分句单元相连,用于将每个语句根据词典划分为多个词段组合;
对齐单元,与所述分词单元相连,找到每个第一语种语句匹配的第二语种语句,并将所述互相匹配的第一语种语句和第二语种语句对齐,将对齐的语句存入机器翻译语料库中;
所述对齐单元具体包括有:
区域划分单元,用于分别将待对齐的第一语种、第二语种按照预设的区域划分规则划分为多个包含所述第一语种语句、第二语种语句的比较区域;
匹配单元,与所述区域划分单元相连,用于计算每对对应的第一语种与第二语种比较区域内的每对语句的相互匹配率,在每对对应的第一语种比较区域和第二语种比较区域内寻找具有相互最大匹配率的第一语种语句和第二语种语句组合,并根据所述相互最大匹配率确定相互匹配的第一语种语句和第二语种语句组合;
执行单元,与所述匹配单元相连,用于将所述相互匹配率最大的第一语种语句和第二语种语句组合执行对齐操作;
其中,所述匹配单元通过以下方法寻找具有相互最大匹配率的第一语种语句和第二语种语句组合:
正向寻找步骤,寻找与第一语种语句i匹配率最大的第二语种语句j;
反向寻找步骤,反向寻找与该第二语种语句j匹配率最大的第一语种语句k;
比较步骤,比较所述第一语种语句i和反向寻找所得的第一语种语句k,若它们是同一语句,则判定该第一语种语句i与该第二语种语句j的组合为相互最大匹配率的语句组合,否则,该次寻找失败,所述第一语种语句i和第二语种语句j均没有找到相互最大匹配率的语句。
本发明的有益效果是:
本发明的实施例通过采用基于划分区域的对齐方法来代替人工建设语料库的对齐工作,从而大大提高对齐了的效率、加快了语料库的建设速度。
下面结合附图对本发明作进一步的详细描述。
附图说明
图1是本发明提供的双语语句对齐方法一个实施例的方法流程图。
图2是本发明提供的双语语句对齐方法一个实施例中待对齐的第一语种和第二语种示意图。
图3是本发明提供的双语语句对齐方法一个实施例中分句后的第一语种和第二语种示意图。
图4是本发明提供的双语语句对齐方法一个实施例中对齐后的第一语种和第二语种效果示意图。
具体实施方式
下面参考图1详细描述本发明提供的用于建设机器翻译语料库的双语语句对齐方法一个实施例的方法流程。如图所示,本实施例执行一次双语语句对齐方法的流程如下:
首先执行分句步骤,即:根据分句符将第一语种和第二语种分别划分为多个语句,具体实现时,所述第一语种和第二语种可以是任意两种不同语言的组合,如:中文和英文或者英文和中文。本实施例以常见的中文和英文组合为例,中文中的句号、问号、和感叹号都作为分句符,若待分句的语句中存在引号,则引号中间的内容不分隔,从其上一个起点开始,如果引号前是句号,则该句号为分句符;如果引号前没有标点,而引号后的标点是分句符则以该分句符分句;如果引号前没有标点,而引号后的标点不是分句符,则直到下一个分句符出现才分句;而英文的问号、分号、感叹号都跟中文用法一样,但是英文句号由于多用性,必须特殊处理,例如人名、地名、缩写、以及数字中的小数点等,当句号作为上述用途的时候,不作为分句符处理。另外,在中英文中表示时间分隔冒号的和数字分隔的逗号,均不作为分句符处理。
其次执行分词步骤,即:将分好的每个语句根据词典划分为多个词段组合,对于中文分词,主要是通过查词典来划分,划分好的词语以空格间隔,对于会影响对齐效果的介词或助词,如“之,乎,者,也”等,从语句中剔除;对于英文语句,则在去除会影响对齐效果的介词(如“to,for,of,from”等)之前,还需要通过查询词典,将词语变型还原成原型,如“was”要变为“is”。
再次执行对齐步骤,即:找到每个第一语种(中文)语句匹配的第二语种(英文)语句,并将所述互相匹配的第一语种语句和第二语种语句对齐。在对齐的过程中,维持以下几个链表:区域划分链表、匹配链表、中文未匹配链表、英文未匹配链表、第一语种(中文)匹配状态表、第二语种(英)文匹配状态表、以及匹配率表,上述链表分别在下述相应的操作中维持。
具体实现时,如果逐句进行比较,那么要处理1000个语句,程序大概会执行三个小时,这明显是不可取的,由于意思相同的中文语句和英文语句基本上具有一定的区域对应关系,所以在执行对齐操作前,进行以下处理:
执行区域划分步骤,即:分别将待对齐的第一语种、第二语种按照预设的区域划分规则划分为多个包含所述第一语种语句、第二语种语句的比较区域;
具体实现时,划分一个合适的比较区域,是十分必要的。如果范围划得过大,必定影响程序运行速度,增加了无用操作;如果范围划得过小,则会使得原本应该在一个区域内进行比较而对齐的对应语句失去比较的机会,影响正确的对齐结果。本实施例中,采取“二分区域法”划分比较区域,所述二分区域法包括以下步骤:
预设步骤,设定一个最大比较区域;
等分步骤,将所述第一语种或第二语种的语句按语句数等分为两个比较区域,并将等分后剩下的语句划入所述两个比较区域中的任意一个,具体实现时,若语句数是偶数,则剩下的语句为空值,即刚好等分为两个比较区域,若语句数是偶数,则剩下一个语句,该语句可划入所述两比较区域中的前一个;
保存步骤,将划分结果存入区域划分链表;
递归步骤,对所述区域链表中上一次划分的每个比较区域重复执行上述等分步骤和保存步骤,直到所述区域划分链表中上一次划分的最小的比较区域小于所述设定的最大比较区域。
下面以中文100句,英文201句,设定的最大比较区域为20句为例,演示上述划分方法:
第一步:中文划分为50句,50句;英文划分为61,60。
第二步:中文划分为25句,25句,25句,25句;英文划分为31句,30句,30句,30句。
第三步:中文划分为13,12句,13句,12句,13句,12句,13句,12句;英文划分为16句,15句,15句,15句,15句,15句,15,15句。
此时,得到划分后的比较区域中的最小的比较区域为12句,小于设定的最大比较区域20句,则区域划分结束。
采用上述二分区域法,可确保比较区域能够划分到具体需要的一个值以下、同时保证了中英文划分区域的块数总是相同的,便于对应比较。
接下来的对齐操作就在对应的比较区域内进行,具体实现时,所述对齐步骤还包括:
匹配步骤,计算每对对应的第一语种与第二语种比较区域内的每对语句的相互匹配率,并根据所述相互匹配率确定相互匹配的第一语种语句和第二语种语句组合;
执行步骤,将所述相互匹配率最大的第一语种语句和第二语种语句组合执行对齐操作。
具体实现时,所述匹配步骤进一步包括:
在每对对应的第一语种比较区域和第二语种比较区域内寻找具有相互最大匹配率的第一语种语句和第二语种语句组合;
将找到相互最大匹配率的语句组合存入匹配链表中,并将其对应的匹配状态表置为已匹配状态;
将未找到相互最大匹配率的语句分别存入第一语种未匹配链表、第二语种未匹配链表,等待下次寻找。
具体地,可通过以下方法寻找所述相互最大匹配率的第一语种语句和第二语种语句组合:
正向寻找步骤,寻找与第一语种语句i匹配率最大的第二语种语句j;
反向寻找步骤,反向寻找与该第二语种语句j匹配率最大的第一语种语句k;
比较步骤,比较所述第一语种语句i和反向寻找所得的第一语种语句k,若它们是同一语句,则判定该第一语种语句i与该第二语种语句j的组合为相互最大匹配率的语句组合,否则,该次寻找失败,所述第一语种语句i和第二语种语句j均没有找到相互匹最大配率的语句。
在确定了英文的第i句与中文的第j句是彼此最大匹配后,还要考虑是否存在一句匹配两句的情况存在,因此,还需要执行以下步骤:
以上述语句i与语句j的匹配率为基础,分别计算该第一语种语句i与其前、后邻句的组合(i-1,i)、(i,i+1)与所述第二语种语句j的相互最大匹配率;以及
以上述语句i与语句j的匹配率为基础,分别计算该第二语种语句j与其前、后邻句的组合(j-1,j)、(j,j+1)与所述第一语种语句i的相互最大匹配率;
取上述五种相互最大匹配率中的最大值,具有该最大值的第一语种语句和第二语种语句即为最终确定的相互匹配率最大的语句组合。
具体地,可通过以下方法计算语句的匹配率:
将第一语种语句通过查询词典翻译成第二语种后,以其组成语句的词语与需要对齐的第二语种语句中的词语进行逐个比较;
若比较结果相同,则去除该词语、并根据该词语的特性给匹配词语数加一个值,否则,继续执行下一个词语比较,直到对应的两个语句中的词语两两比较结束,具体实现时,对于普通的词语,匹配词语数加值为1,对于数字或者中/英文文章中的英/中文词语,匹配词语数加值为2;
将匹配词语数乘以2后,除以正执行对齐操作的两个语句的词语总个数,得出匹配率,并将该匹配率存入匹配率表。
另外,具体实现时,在匹配的过程中,为了保证比较速度,并考虑到下述情况,即:英文中对应的能匹配上的语句,交错分布到了中文的其他非对应区域内,在这种情况下,无论程序如何执行,它们都不能跳出本区域去寻找到对方。为了解决这个问题,就需要在递归过程中,不断增大比较区域,这样原本划分到不同的比较区域而导致无法匹配的语句便能通过逐渐增大的对齐区域进入同一个区域进行比较,并匹配上。综上,在一次匹配结束后,本实施例还将继续以下步骤:
区域重设步骤,将所述设定的最大比较区域修改为一个更大的值后,重新对所述第一语种和第二语种分别进行区域划分,并对所述重新划分后的比较区域内位于未匹配链表中的语句再次执行所述匹配步骤;
循环步骤,重复执行所述区域重设步骤,直到所述最大比较区域大于一个预设的值、或者已经大于文章的语句总数。
最后,对齐结束后,为了丰富语料库,还可以将所述匹配链表中的语句存入语料库中。在语料库中,对齐的语句存储的方式是,一条记录分为三个字段,第一个字段是第一/二语种的语句内容,第二个字段是第二/一语种的语句内容,第三个字段是这上述两个语句的匹配率。
下面详细描述本发明提供的双语语句对齐装置一个实施例。本实施例主要由以下部分组成:
分句单元,用于根据分句符将第一语种和第二语种分别划分为多个语句;
分词单元,与所述分句单元相连,用于将每个语句根据词典划分为多个词段组合;
对齐单元,与所述分词单元相连,找到每个第一语种语句匹配的第二语种语句,并将所述互相匹配的第一语种语句和第二语种语句对齐;
所述对齐单元进一步包括有:
区域划分单元,用于分别将待对齐的第一语种、第二语种按照预设的区域划分规则划分为多个包含所述第一语种语句、第二语种语句的比较区域;
匹配单元,与所述区域划分单元相连,用于计算每对对应的第一语种与第二语种比较区域内的每对语句的相互匹配率,在每对对应的第一语种比较区域和第二语种比较区域内寻找具有相互最大匹配率的第一语种语句和第二语种语句组合,并根据所述相互最大匹配率确定相互匹配的第一语种语句和第二语种语句组合;
执行单元,与所述匹配单元相连,用于将所述相互匹配率最大的第一语种语句和第二语种语句组合执行对齐操作;
其中,所述匹配单元通过以下方法寻找具有相互最大匹配率的第一语种语句和第二语种语句组合:
正向寻找步骤,寻找与第一语种语句i匹配率最大的第二语种语句j;
反向寻找步骤,反向寻找与该第二语种语句j匹配率最大的第一语种语句k;
比较步骤,比较所述第一语种语句i和反向寻找所得的第一语种语句k,若它们是同一语句,则判定该第一语种语句i与该第二语种语句j的组合为相互最大匹配率的语句组合,否则,该次寻找失败,所述第一语种语句i和第二语种语句j均没有找到相互最大匹配率的语句。
本发明大大提高了对齐的效率,加速了语料库的建设,可节省大量人力、财力。如下以数字分析本发明带来的有益效果,以语料库需要2000万对应语句计算。如果聘请10位高水平的外语专职翻译人员,每人每天工作10小时建设语料库,以每人每分钟5句计算,每天可以新增3万句,那么2000万句,需要666天,大抵两年时间,方能完成。如果采用本发明,则一台机器一分钟可对齐200句,以10台机器,每天10小时工作,每天可以新增120万句,那么只需要17天便能完成。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (9)

1.一种用于建设机器翻译语料库的双语语句对齐方法,包括以下步骤:
分句步骤,根据分句符将第一语种和第二语种分别划分为多个语句;
分词步骤,将每个语句根据词典划分为多个词段组合;
对齐步骤,找到每对相互匹配的第一语种语句和第二语种语句,并将所述相互匹配的第一语种语句和第二语种语句对齐,将对齐的语句存入机器翻译语料库中;
其特征在于,所述对齐步骤具体包括有:
区域划分步骤,分别将待对齐的第一语种、第二语种按照预设的区域划分规则划分为多个包含所述第一语种语句、第二语种语句的比较区域;
匹配步骤,计算每对对应的第一语种与第二语种比较区域内的每对语句的相互匹配率,在每对对应的第一语种比较区域和第二语种比较区域内寻找具有相互最大匹配率的第一语种语句和第二语种语句组合,并根据所述相互最大匹配率确定相互匹配的第一语种语句和第二语种语句组合;
执行步骤,将所述相互匹配率最大的第一语种语句和第二语种语句组合执行对齐操作;
其中,在所述匹配步骤中,通过以下方法寻找具有相互最大匹配率的第一语种语句和第二语种语句组合:
正向寻找步骤,寻找与第一语种语句i匹配率最大的第二语种语句j;
反向寻找步骤,反向寻找与该第二语种语句j匹配率最大的第一语种语句k;
比较步骤,比较所述第一语种语句i和反向寻找所得的第一语种语句k,若它们是同一语句,则判定该第一语种语句i与该第二语种语句j的组合为相互最大匹配率的语句组合,否则,该次寻找失败,所述第一语种语句i和第二语种语句j均没有找到相互最大匹配率的语句。
2.如权利要求1所述的用于建设机器翻译语料库的双语语句对齐方法,其特征在于,所述预设的区域划分规则为二分区域法,所述二分区域法包括以下步骤:
预设步骤,设定一个最大比较区域;
等分步骤,将所述第一语种或第二语种的语句按语句数等分为两个比较区域,并将等分后剩下的语句划入所述两个比较区域中的前一个;
保存步骤,将划分结果存入区域划分链表;
递归步骤,对所述区域链表中上一次划分的每个比较区域重复执行上述等分步骤和保存步骤,直到所述区域划分链表中上一次划分的最小的比较区域小于所述设定的最大比较区域。
3.如权利要求1或2所述的用于建设机器翻译语料库的双语语句对齐方法,其特征在于,所述匹配步骤还包括:
将找到相互最大匹配率的语句组合存入匹配链表中;
将未找到相互最大匹配率的语句分别存入第一语种未匹配链表、第二语种未匹配链表,等待下次寻找。
4.如权利要求1所述的用于建设机器翻译语料库的双语语句对齐方法,其特征在于,所述比较步骤之后还包括有:
以上述相互最大匹配率为基础,分别计算该第一语种语句i与其前、后邻句的组合与所述第二语种语句j的相互最大匹配率;以及
以上述相互最大匹配率为基础,分别计算该第二语种语句j与其前、后邻句的组合与所述第一语种语句i的相互最大匹配率;
取上述五种相互最大匹配率中的最大值,具有该最大值的第一语种语句和第二语种语句即为最终确定的相互匹配率最大的语句组合。
5.如权利要求4所述的用于建设机器翻译语料库的双语语句对齐方法,其特征在于,通过以下方法计算语句的匹配率:
将第一/二语种语句通过查询词典翻译成第二/一语种后,以其组成语句的词语与对应的第二/一语种比较区域内的语句中的词语进行逐个比较;
若比较结果相同,则去除该词语、并根据该词语的特性给匹配词语数加一个值,否则,继续执行下一个词语比较,直到对应的两个语句中的词语两两比较结束;
将匹配词语数乘以2后,除以正执行对齐操作的两个语句的词语总个数,得出匹配率,并将该匹配率存入匹配率表。
6.如权利要求2-4中任一项所述的用于建设机器翻译语料库的双语语句对齐方法,其特征在于,所述匹配步骤之后还包括有:
区域重设步骤,将所述设定的最大比较区域修改为一个更大的值后,重新对所述第一语种和第二语种分别进行区域划分,并对所述重新划分后的比较区域内位于未匹配链表中的语句再次执行所述匹配步骤;
循环步骤,重复执行所述区域重设步骤,直到所述最大比较区域大于一个预设的值、或者已经大于文章的语句总数。
7.如权利要求3所述的用于建设机器翻译语料库的双语语句对齐方法,其特征在于,该方法还包括:
将所述匹配链表中的语句存入语料库中。
8.如权利要求1所述的用于建设机器翻译语料库的双语语句对齐方法,其特征在于,所述第一语种和第二语种分别为中文和英文或者英文和中文。
9.一种用于建设机器翻译语料库的双语语句对齐装置,该装置包括有:
分句单元,用于根据分句符将第一语种和第二语种分别划分为多个语句;
分词单元,与所述分句单元相连,用于将每个语句根据词典划分为多个词段组合;
对齐单元,与所述分词单元相连,找到每个第一语种语句匹配的第二语种语句,并将所述互相匹配的第一语种语句和第二语种语句对齐,将对齐的语句存入机器翻译语料库中;
其特征在于,所述对齐单元具体包括有:
区域划分单元,用于分别将待对齐的第一语种、第二语种按照预设的区域划分规则划分为多个包含所述第一语种语句、第二语种语句的比较区域;
匹配单元,与所述区域划分单元相连,用于计算每对对应的第一语种与第二语种比较区域内的每对语句的相互匹配率,在每对对应的第一语种比较区域和第二语种比较区域内寻找具有相互最大匹配率的第一语种语句和第二语种语句组合,并根据所述相互最大匹配率确定相互匹配的第一语种语句和第二语种语句组合;
执行单元,与所述匹配单元相连,用于将所述相互匹配率最大的第一语种语句和第二语种语句组合执行对齐操作;
其中,所述匹配单元通过以下方法寻找具有相互最大匹配率的第一语种语句和第二语种语句组合:
正向寻找步骤,寻找与第一语种语句i匹配率最大的第二语种语句j;
反向寻找步骤,反向寻找与该第二语种语句j匹配率最大的第一语种语句k;
比较步骤,比较所述第一语种语句i和反向寻找所得的第一语种语句k,若它们是同一语句,则判定该第一语种语句i与该第二语种语句j的组合为相互最大匹配率的语句组合,否则,该次寻找失败,所述第一语种语句i和第二语种语句j均没有找到相互最大匹配率的语句。
CN2008102421122A 2008-12-31 2008-12-31 双语语句对齐方法及装置 Active CN101488126B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008102421122A CN101488126B (zh) 2008-12-31 2008-12-31 双语语句对齐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008102421122A CN101488126B (zh) 2008-12-31 2008-12-31 双语语句对齐方法及装置

Publications (2)

Publication Number Publication Date
CN101488126A CN101488126A (zh) 2009-07-22
CN101488126B true CN101488126B (zh) 2011-05-11

Family

ID=40891023

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008102421122A Active CN101488126B (zh) 2008-12-31 2008-12-31 双语语句对齐方法及装置

Country Status (1)

Country Link
CN (1) CN101488126B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514150A (zh) * 2012-06-21 2014-01-15 富士通株式会社 识别具有组合型歧义的歧义词的方法和装置
CN105630776A (zh) * 2015-12-25 2016-06-01 清华大学 一种双向词语对齐方法及装置
CN105653516B (zh) * 2015-12-30 2018-08-10 语联网(武汉)信息技术有限公司 平行语料对齐的方法和装置
CN105446962B (zh) * 2015-12-30 2018-08-10 语联网(武汉)信息技术有限公司 原文和译文的对齐方法和装置
CN105677621B (zh) * 2015-12-30 2018-08-17 语联网(武汉)信息技术有限公司 翻译错误的定位方法和装置
CN106055543B (zh) * 2016-05-23 2019-04-09 南京大学 基于Spark的大规模短语翻译模型的训练方法
CN106021238A (zh) * 2016-06-28 2016-10-12 广州华多网络科技有限公司 信息匹配方法、装置及终端
CN107766339A (zh) * 2017-10-20 2018-03-06 语联网(武汉)信息技术有限公司 原译文对齐的方法及装置
CN107832308B (zh) * 2017-12-11 2021-06-04 中译语通科技股份有限公司 一种机器翻译的断句方法及系统、计算机程序、计算机
CN113887192B (zh) * 2021-12-06 2022-05-27 阿里巴巴达摩院(杭州)科技有限公司 文本匹配方法、装置及存储介质

Also Published As

Publication number Publication date
CN101488126A (zh) 2009-07-22

Similar Documents

Publication Publication Date Title
CN101488126B (zh) 双语语句对齐方法及装置
Dyer et al. Fast, easy, and cheap: Construction of statistical machine translation models with MapReduce
CN107832229A (zh) 一种基于nlp的系统测试用例自动生成方法
CN101950284B (zh) 中文分词方法及系统
CN100543727C (zh) 一种融合了句型模板和统计机器翻译技术的翻译方法
CN105975625A (zh) 一种面向英文搜索引擎的中式英文查询纠错方法和系统
CN101593200A (zh) 基于关键词频度分析的中文网页分类方法
CN109670022A (zh) 一种基于语义相似度的Java应用程序接口使用模式推荐方法
CN102298638A (zh) 使用网页标签聚类提取新闻网页内容的方法和系统
CN107797995A (zh) 一种中英文片段语料生成方法
CN102681983A (zh) 一种文本数据的对齐方法和装置
CN106599016A (zh) 一种基于虚拟dom的前端元素维护方法
CN103164393B (zh) 报表公式处理方法和系统
CN101539910A (zh) 一种用于计算机辅助翻译的取句方法及其系统
CN103744837B (zh) 基于关键词抽取的多文本对照方法
CN105677642A (zh) 一种机器翻译语序调整方法
CN102750534A (zh) 一种字符切分的方法和装置
CN103927176B (zh) 一种基于层次主题模型的程序特征树的生成方法
CN104166550A (zh) 一种面向软件维护的修改请求重新定制的方法
CN106777272A (zh) 一种数据比对及同步方法
CN103488629B (zh) 一种机器翻译中翻译单元表的抽取方法
CN103793375A (zh) 一种在自动化翻译处理中精准替换术语及短语的方法
CN107436865B (zh) 一种词对齐训练方法、机器翻译方法及系统
CN105389303A (zh) 一种异源语料自动融合方法
CN103049524B (zh) 同义词检索结果按词义自动聚类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: 518000 0302, 001 Meilin court District, Futian District, Shenzhen, Guangdong.

Patentee after: Shenzhen Datum Data Co., Ltd.

Address before: 518000 302A, Meilin Ge, South 3rd floor, Meilin Road, Futian District, Shenzhen, Guangdong

Patentee before: Shenzhen Datum Data Co., Ltd.

CP02 Change in the address of a patent holder