CN103617160B - 基于两两对齐的多语种句对齐方法及装置 - Google Patents
基于两两对齐的多语种句对齐方法及装置 Download PDFInfo
- Publication number
- CN103617160B CN103617160B CN201310674134.7A CN201310674134A CN103617160B CN 103617160 B CN103617160 B CN 103617160B CN 201310674134 A CN201310674134 A CN 201310674134A CN 103617160 B CN103617160 B CN 103617160B
- Authority
- CN
- China
- Prior art keywords
- sentence
- alignment
- aliging
- sentences
- alignd
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Abstract
基于两两对齐的多语种句对齐方法及装置,属于信息技术领域,尤其涉及信息技术领域互联网语言翻译系统中的多语种句对齐方法。本发明是为了解决在利用两两对齐方法进行多语种句对齐时,对齐结果不一致的问题。本发明所述的基于两两对齐的多语种句对齐方法及装置,首先对不同语种文本中的句子进行两两对齐,获得两两对齐结果,然后对该结果进行冲突识别并将冲突的部分标记出来,最后对冲突部分进行评分并重新进行两两对齐,从而使得多语种句对齐结果具有一致性,从而可以将两两对齐结果中部分对齐错误的错误结果更正过来。本发明所述的基于两两对齐的多语种句对齐方法及装置,适用于信息技术领域互联网语言翻译系统中。
Description
技术领域
本发明属于信息技术领域,尤其涉及信息技术领域互联网语言翻译系统中的多语种句对齐方法。
背景技术
平行双语语料,是指第一种语言的文本数据是第二种语言的文本数据的译文的两种语言文本构成的数据集合。平行多语语料,是指含有多种语种的文本数据的集合,其中任意两种语种的文本数据可以构成平行双语语料。
如果用第一种语言写出的一个文档恰为用第二种语言写出的文档的译文,则称这两个文档是平行的。如果用第一种语言写出的文档中的句子S1恰为用第二种语言写出的文档中句子S2的译文,则称这两个句子是对齐的。在这个对齐中,第一种语言称为源语言,第二种语言称为目标语言,S1称为源语言句子,S2称为目标语言句子。两个句子对齐的表示方法是给两个句子分别标上不重复的整数N1和N2作为句子标识,对于对齐的句子用这两个整数组成数对N1-N2来表示对齐关系。但对齐关系并不限于用这种方式表示。如果有m个不同语种的文档,其中第i个语种的文档中标识为Ni的句子Si,与第j个语种的文档中标识为Nj的句子Sj互为译文,则称Si和Sj是两两对齐的。其中i和j的取值均为1..m。
对于平行多语语料具有广泛的需求,例如:它能够作为统计机器翻译的训练语料,用于多个语种相互之间的翻译,也可以用于跨语言信息检索,在不同语种的文档中检索相关信息等。在这些需求中,如何提高句对齐的质量是目前迫切需要解决的问题。句对齐的质量常用下面三种标准来衡量。但句对齐质量并不限于仅用这三种标准衡量。
1、准确率:是已经对齐正确的句对数和所有对齐的句对数之比;
2、召回率:是已经对齐的句对数和所有句对数之比;
3、F值:是准确率和召回率之积的两倍除以准确率和召回率之和。
这三种标准中,最后计算得到的值越大,则说明句对齐质量越高,反之则句对齐质量越低。但是,目前现有的方法都是用两种语言的信息来进行不同语言句子之间的两两对齐,对于多语种的情况,一般也按照多个两种语言的平行语料加以处理。由于对齐错误的存在,这种两两对齐的方法都可能导致以下两个问题:
1、对齐不一致的问题:以三个语种i,j,k为例,可能出现这样的情况,存在句子Si,Sj,Sk,其中Si与Sj对齐,Sj与Sk对齐,但是Si却不和Sk对齐,很显然按照一般的逻辑推理Si,Sj,Sk要么两两对齐要么都不对齐。
2、对齐质量的问题:由前述“对齐不一致问题”可知,由于正确的对齐没有被识别出来,往往导致上述三种标准中的某一项或多项指标下降,如果“对齐不一致问题”得到解决,则能够缓解该问题。
发明内容
本发明是为了解决在利用两两对齐方法进行多语种句对齐时,对齐结果不一致的问题,现提供基于两两对齐的多语种句对齐方法及装置。
基于两两对齐的多语种句对齐装置,该装置包括:
用于获取同一文件至少三种不同语言版本的文本的装置;
用于分别对每个语种的文本进行句子分割,获得不同语种待对齐的句子的装置;
用于对不同语种待对齐的句子进行两两对齐,然后对每组两两对齐的句子进行评分,获得所有两两对齐句子的集合A的装置;
用于对集合A中每组两两对齐句子进行冲突识别,将不冲突的两两对齐的句子从集合A中剔除,获得集合A中所有冲突的句子的集合,即差异部分的装置;
用于对差异部分进行评分,然后对该差异部分进行重新对齐,获得重新对齐的结果集合B,将A的非差异部分与B合在一起,获得全部句对齐结果的装置。
基于两两对齐的多语种句对齐方法,该方法包括以下步骤:
步骤一:用于获取同一文件至少三种不同语言版本的文本的步骤;
步骤二:用于分别对步骤一获得的每个语种的文本进行句子分割,获得不同语种待对齐的句子的步骤;
步骤三:用于对步骤二获得的不同语种待对齐的句子进行两两对齐,然后对每组两两对齐的句子进行评分,获得所有两两对齐句子的集合A的步骤;
步骤四:用于对步骤三获得的集合A中每组两两对齐句子进行冲突识别,将不冲突的两两对齐的句子从集合A中剔除,获得集合A中所有冲突的句子的集合,即差异部分的步骤;
步骤五:用于对步骤四获得的差异部分进行评分,然后对该差异部分进行重新对齐,获得重新对齐的结果集合B,将A的非差异部分与B合在一起,获得全部句对齐结果的步骤。
本发明所述的基于两两对齐的多语种句对齐方法及装置,首先对不同语种文本中的句子进行两两对齐,获得两两对齐结果,然后对该结果进行冲突识别并将冲突的部分标记出来,最后对冲突部分进行评分并重新进行两两对齐,从而使得多语种句对齐结果具有一致性,从而可以将两两对齐结果中部分对齐错误的错误结果更正过来。
本发明所述的基于两两对齐的多语种句对齐方法及装置,对自然语言处理、文本信息处理具有促进作用,适用于信息技术领域互联网语言翻译系统中。
附图说明
图1是具体实施方式四所述基于两两对齐的多语种句对齐方法的流程图。
图2是具体实施方式六所述对两两对齐结果中的差异部分进行识别的方法的流程图。
图3是具体实施方式七所述的索引表的结构示意图。
具体实施方式
具体实施方式一:本实施方式所述的基于两两对齐的多语种句对齐装置,该装置包括:
用于获取同一文件至少三种不同语言版本的文本的装置;
用于分别对每个语种的文本进行句子分割,获得不同语种待对齐的句子的装置;
用于对不同语种待对齐的句子进行两两对齐,然后对每组两两对齐的句子进行评分,获得所有两两对齐句子的集合A的装置;
用于对集合A中每组两两对齐句子进行冲突识别,将不冲突的两两对齐的句子从集合A中剔除,获得集合A中所有冲突的句子的集合,即差异部分的装置;
用于对差异部分进行评分,然后对该差异部分进行重新对齐,获得重新对齐的结果集合B,将A的非差异部分与B合在一起,获得全部句对齐结果的装置。
具体实施方式二:本实施方式是对具体实施方式一所述的基于两两对齐的多语种句对齐装置作进一步说明,本实施方式中,用于分别对每个语种的文本进行句子分割,获得不同语种待对齐的句子的装置进一步包括:
用于将每个语种的文本中所有的时间标识和换行符删除,获得所有句子均合并为一行的文本的装置;
用于对文本中所有字符进行扫描,扫描所有表示语句结束的符号,然后根据所述符号将文本分割成若干条句子,每条句子作为一个独立的单语种句子的装置。
具体实施方式三:本实施方式是对具体实施方式一所述的基于两两对齐的多语种句对齐装置作进一步说明,本实施方式中,用于对两两对齐句子进行冲突识别的装置进一步包括:
用于将所有两两对齐的句子放入索引表中进行索引的装置;
用于判断所有两两对齐的句子是否冲突,并将冲突的两两对齐句子标记为冲突的装置。
具体实施方式四:参照图1具体说明本实施方式,基于两两对齐的多语种句对齐方法,该方法包括以下步骤:
步骤一:用于获取同一文件至少三种不同语言版本的文本的步骤;
步骤二:用于分别对步骤一获得的每个语种的文本进行句子分割,获得不同语种待对齐的句子的步骤;
步骤三:用于对步骤二获得的不同语种待对齐的句子进行两两对齐,然后对每组两两对齐的句子进行评分,获得所有两两对齐句子的集合A的步骤;
步骤四:用于对步骤三获得的集合A中每组两两对齐句子进行冲突识别,将不冲突的两两对齐的句子从集合A中剔除,获得集合A中所有冲突的句子的集合,即差异部分的步骤;
步骤五:用于对步骤四获得的差异部分进行评分,然后对该差异部分进行重新对齐,获得重新对齐的结果集合B,将A的非差异部分与B合在一起,获得全部句对齐结果的步骤。
对步骤一举例说明:人工从网站上搜索一部影片,在影片字幕下载页面分别选择中英、俄英、西(西班牙)英的字幕文件进行下载,从而获得同一部电影字幕的不同语言翻译版本。
在句对齐过程中使用至少两种语言间的句对齐结果;在句对齐过程中需要第三种语言的文本信息来评价已获得的句对齐结果。
具体实施方式五:本实施方式是对具体实施方式四所述的基于两两对齐的多语种句对齐方法作进一步说明,本实施方式中,步骤二中对每个语种的文本进行句子分割的方法为:
步骤二一:用于将每个语种的文本中所有的时间标识和换行符删除,获得所有句子均合并为一行的文本的步骤;
步骤二二:用于对步骤二一获得的文本中所有字符进行扫描,扫描所有表示语句结束的符号,然后根据所述符号将文本分割成若干条句子,每条句子作为一个独立的单语种句子的步骤。
具体实施方式六:参照图2具体说明本实施方式,本实施方式是对具体实施方式四所述的基于两两对齐的多语种句对齐方法作进一步说明,本实施方式中,步骤四中对两两对齐结果中的差异部分进行识别的方法为:
步骤四一:用于将集合A中所有两两对齐的句子放入索引表中进行索引的步骤;
步骤四二:用于判断所有两两对齐的句子是否冲突,并将冲突的两两对齐句子标记为冲突的步骤。
具体实施方式七:参照图3具体说明本实施方式,本实施方式是对具体实施方式六所述的基于两两对齐的多语种句对齐方法作进一步说明,本实施方式中,步骤四一所述的索引表包括四层,第一层为源语言的语种序号i;第二层为目标语言的语种序号j;第三层为所有两两对齐句子中,源语言句子的标识Ni;第四层为与Ni两两对齐的目标语言句子的标识Nj。
在索引表的第三层能够查到Ni,在Ni对应的第四层能够查到Nj表示Ni-Nj有对齐,否则表示Ni-Nj无对齐。
具体实施方式八:本实施方式是对具体实施方式六所述的基于两两对齐的多语种句对齐方法作进一步说明,本实施方式中,步骤四二所述判断所有两两对齐的句子是否冲突的方法为:
根据索引获得的结果,当Ni-Nj的值为0时,则构成一个冲突。
具体实施方式九:本实施方式是对具体实施方式四所述的基于两两对齐的多语种句对齐方法作进一步说明,本实施方式中,步骤五中所述对步骤四获得的差异部分进行评分,获得的分数为:
其中m为语种的总数;wi,j为调整因子,取值为1;si,j表示步骤三对每一组两两对齐句子进行评分后所获得的分数,其中i和j分别表示两两对齐所涉及的两种语言。
具体实施方式十:本实施方式是对具体实施方式五所述的基于两两对齐的多语种句对齐方法作进一步说明,本实施方式中,步骤二二所述表示语句结束的符号是感叹号、句号、问号或分号。
设步骤四获得的所有未对齐的句子的标识集合为其中i表示第i种语言,t表示该种语言下的句子序号,设该集合所有语言中,同一语种句子数的最大值为n,则在句子数少于n的语种中,添加若干个空句子使得该语种句子数达到n,此时每种语言都有n个句子,利用s′i,j重新对齐的伪代码,对冲突部分重新对齐,获得重新对齐结果,该结果的集合为B。
所述利用s′i,j重新对齐的伪代码为:B=φ
Claims (10)
1.基于两两对齐的多语种句对齐装置,其特征在于,它包括:
用于获取同一文件至少三种不同语言版本的文本的装置;
用于分别对每个语种的文本进行句子分割,获得不同语种待对齐的句子的装置;
用于对不同语种待对齐的句子进行两两对齐,然后对每组两两对齐的句子进行评分,获得所有两两对齐的句子的集合A的装置;
用于对集合A中每组两两对齐的句子进行冲突识别,将不冲突的两两对齐的句子从集合A中剔除,获得集合A中所有冲突的句子的集合,即差异部分的装置;
用于对差异部分进行评分,然后对该差异部分进行重新对齐,获得重新对齐的结果集合B,将A的非差异部分与B合在一起,获得全部句对齐结果的装置;该装置中对差异部分进行评分并重新进行两两对齐,使得多语种句对齐结果具有一致性,进而将两两对齐结果中部分对齐错误的错误结果更正过来。
2.根据权利要求1所述基于两两对齐的多语种句对齐装置,其特征在于,用于分别对每个语种的文本进行句子分割,获得不同语种待对齐的句子的装置进一步包括:
用于将每个语种的文本中所有的时间标识和换行符删除,获得所有句子均合并为一行的文本的装置;
用于对文本中所有字符进行扫描,扫描所有表示语句结束的符号,然后根据所述符号将文本分割成若干条句子,每条句子作为一个独立的单语种句子的装置。
3.根据权利要求1所述基于两两对齐的多语种句对齐装置,其特征在于,用于对两两对齐的句子进行冲突识别的装置进一步包括:
用于将所有两两对齐的句子放入索引表中进行索引的装置;
用于判断所有两两对齐的句子是否冲突,并将冲突的两两对齐的句子标记为冲突的装置。
4.基于两两对齐的多语种句对齐方法,其特征在于,该方法包括以下步骤:
步骤一:用于获取同一文件至少三种不同语言版本的文本的步骤;
步骤二:用于分别对步骤一获得的每个语种的文本进行句子分割,获得不同语种待对齐的句子的步骤;
步骤三:用于对步骤二获得的不同语种待对齐的句子进行两两对齐,然后对每组两两对齐的句子进行评分,获得所有两两对齐的句子的集合A的步骤;
步骤四:用于对步骤三获得的集合A中每组两两对齐的句子进行冲突识别,将不冲突的两两对齐的句子从集合A中剔除,获得集合A中所有冲突的句子的集合,即差异部分的步骤;
步骤五:用于对步骤四获得的差异部分进行评分,然后对该差异部分进行重新对齐,获得重新对齐的结果集合B,将A的非差异部分与B合在一起,获得全部句对齐结果的步骤;该步骤中对冲突部分进行评分并重新进行两两对齐,使得多语种句对齐结果具有一致性,进而将两两对齐结果中部分对齐错误的错误结果更正过来。
5.根据权利要求4所述基于两两对齐的多语种句对齐方法,其特征在于,步骤二中对每个语种的文本进行句子分割的方法为:
步骤二一:用于将每个语种的文本中所有的时间标识和换行符删除,获得所有句子均合并为一行的文本的步骤;
步骤二二:用于对步骤二一获得的文本中所有字符进行扫描,扫描所有表示语句结束的符号,然后根据所述符号将文本分割成若干条句子,每条句子作为一个独立的单语种句子的步骤。
6.根据权利要求4所述基于两两对齐的多语种句对齐方法,其特征在于,步骤四中对两两对齐结果中的差异部分进行识别的方法为:
步骤四一:用于将集合A中所有两两对齐的句子放入索引表中进行索引的步骤;
步骤四二:用于判断所有两两对齐的句子是否冲突,并将冲突的两两对齐的句子标记为冲突的步骤。
7.根据权利要求6所述基于两两对齐的多语种句对齐方法,其特征在于,步骤四一所述的索引表包括四层,第一层为源语言的语种序号i;第二层为目标语言的语种序号j;第三层为所有两两对齐的句子中源语言句子的标识Ni;第四层为与Ni两两对齐的目标语言句子的标识Nj。
8.根据权利要求6所述基于两两对齐的多语种句对齐方法,其特征在于,步骤四二所述判断所有两两对齐的句子是否冲突的方法为:
根据索引获得的结果,当Ni-Nj的值为0时,则构成一个冲突;
Ni表示所有两两对齐的句子中源语言句子的标识,Nj表示与Ni两两对齐的目标语言句子的标识。
9.根据权利要求4所述基于两两对齐的多语种句对齐方法,其特征在于,步骤五中所述对步骤四获得的差异部分进行评分,获得的分数为:
其中m为语种的总数;wi,j为调整因子,取值为1;si,j表示步骤三对每一组两两对齐的句子进行评分后所获得的分数,其中i和j分别表示两两对齐所涉及的两种语言。
10.根据权利要求5所述基于两两对齐的多语种句对齐方法,其特征在于,步骤二二所述表示语句结束的符号是感叹号、句号、问号或分号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310674134.7A CN103617160B (zh) | 2013-12-11 | 2013-12-11 | 基于两两对齐的多语种句对齐方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310674134.7A CN103617160B (zh) | 2013-12-11 | 2013-12-11 | 基于两两对齐的多语种句对齐方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103617160A CN103617160A (zh) | 2014-03-05 |
CN103617160B true CN103617160B (zh) | 2017-02-08 |
Family
ID=50167863
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310674134.7A Active CN103617160B (zh) | 2013-12-11 | 2013-12-11 | 基于两两对齐的多语种句对齐方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103617160B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107526728A (zh) * | 2017-08-07 | 2017-12-29 | 中译语通科技(青岛)有限公司 | 一种基于众包的双语平行语料对齐方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101667174A (zh) * | 2008-09-01 | 2010-03-10 | 株式会社东芝 | 用于提高多语语料库中词对齐质量的方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0635955A (ja) * | 1992-07-20 | 1994-02-10 | Brother Ind Ltd | 機械翻訳装置 |
CN102855263A (zh) * | 2011-06-30 | 2013-01-02 | 富士通株式会社 | 一种对双语语料库进行句子对齐的方法及装置 |
-
2013
- 2013-12-11 CN CN201310674134.7A patent/CN103617160B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101667174A (zh) * | 2008-09-01 | 2010-03-10 | 株式会社东芝 | 用于提高多语语料库中词对齐质量的方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于长度和位置信息的双语句子对齐方法;李维刚等;《哈尔滨工业大学学报》;20060531;第38卷(第5期);第689页左栏第5行-第692页左栏第20行 * |
Also Published As
Publication number | Publication date |
---|---|
CN103617160A (zh) | 2014-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105589841B (zh) | 一种pdf文档表格识别的方法 | |
Déjean et al. | A system for converting PDF documents into structured XML format | |
Pletschacher et al. | The page (page analysis and ground-truth elements) format framework | |
US7697757B2 (en) | Computer assisted document modification | |
Taghva et al. | The effects of noisy data on text retrieval | |
US9384389B1 (en) | Detecting errors in recognized text | |
US20060285746A1 (en) | Computer assisted document analysis | |
Papadopoulos et al. | The IMPACT dataset of historical document images | |
CN107392143A (zh) | 一种基于svm文本分类的简历精确解析方法 | |
CN104008126A (zh) | 一种基于网页内容分类进行分词处理的方法和装置 | |
CN101770446A (zh) | 一种版式文件中表格识别方法及系统 | |
CN112257613B (zh) | 体检报告信息结构化提取方法、装置及计算机设备 | |
EP1907946A1 (en) | A method for finding text reading order in a document | |
CN105069412A (zh) | 一种数字化阅卷方法 | |
CN103885942B (zh) | 一种快速翻译装置及方法 | |
WO2014000130A1 (en) | Method or system for automated extraction of hyper-local events from one or more web pages | |
CN105740355B (zh) | 基于聚集文本密度的网页正文提取方法及装置 | |
Colter et al. | Tablext: A combined neural network and heuristic based table extractor | |
CN107590448A (zh) | 从文献中自动获取qtl数据的方法 | |
CN103617160B (zh) | 基于两两对齐的多语种句对齐方法及装置 | |
Guichard et al. | Exploiting collection level for improving assisted handwritten word transcription of historical documents | |
Baker et al. | Comparing approaches to mathematical document analysis from PDF | |
Eyecioglu et al. | Constructing a Turkish corpus for paraphrase identification and semantic similarity | |
Hocking et al. | Optical character recognition for South African languages | |
Souza et al. | ARCTIC: metadata extraction from scientific papers in pdf using two-layer CRF |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200402 Address after: 150001 No. 118 West straight street, Nangang District, Heilongjiang, Harbin Patentee after: Harbin University of technology high tech Development Corporation Address before: 150001 Harbin, Nangang, West District, large straight street, No. 92 Patentee before: HARBIN INSTITUTE OF TECHNOLOGY |