CN103530284B - 短句切分装置、机器翻译系统及对应切分方法和翻译方法 - Google Patents

短句切分装置、机器翻译系统及对应切分方法和翻译方法 Download PDF

Info

Publication number
CN103530284B
CN103530284B CN201310432908.5A CN201310432908A CN103530284B CN 103530284 B CN103530284 B CN 103530284B CN 201310432908 A CN201310432908 A CN 201310432908A CN 103530284 B CN103530284 B CN 103530284B
Authority
CN
China
Prior art keywords
sentence
short sentence
alignment
short
cutting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310432908.5A
Other languages
English (en)
Other versions
CN103530284A (zh
Inventor
任智军
张威
蒋宏飞
熊文
姜涛
张凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHINA PATENT INFORMATION CENTER
Original Assignee
CHINA PATENT INFORMATION CENTER
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHINA PATENT INFORMATION CENTER filed Critical CHINA PATENT INFORMATION CENTER
Priority to CN201310432908.5A priority Critical patent/CN103530284B/zh
Publication of CN103530284A publication Critical patent/CN103530284A/zh
Application granted granted Critical
Publication of CN103530284B publication Critical patent/CN103530284B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本申请提供一种短句切分的装置和包括该装置的机器翻译系统,该装置包括顺序相连的短句粗切分单元、短句句对齐单元、最小对齐块合并单元和短句切分训练单元;短句粗切分单元,用于将双语语料中的每个句子单独以标点进行切分,形成一对一的双语短句序列;短句句对齐单元,用于将从短句粗切分单元获得的一对一的双语短句序列进行句对齐,形成具有对齐关系的短句句对齐语料;最小对齐块合并单元,用于将短句句对齐单元处理过的短句句对齐语料进行最小对齐块合并,成为一对一的对齐语料;短句切分训练单元,用于利用一对一短句句对齐语料来训练短句切分模型,使用训练后的短句切分模型对输入的整句进行短句切分。

Description

短句切分装置、机器翻译系统及对应切分方法和翻译方法
技术领域
本发明涉及自然语言处理技术,更具体地,涉及一种短句切分方法及装置、机器翻译的方法和系统。
背景技术
随着科技的进步,国际交流的日益繁杂和信息量急剧增加,不同语言之间的障碍所导致的信息问题越来越影响沟通的效率,通过计算机来处理不同语言文本的互译,突破语言障碍,是机器翻译研究的重要课题。目前的机器翻译以统计方法为主,而词对齐是现有统计方法的基础,词对齐的好坏决定了翻译质量的好坏。
另外,在自然语言处理的机器翻译过程中,一般把自然语言句子作为基本分析单位,现有方法的处理的时空复杂度一般都和句子长度高度相关。在处理长句子的时候,会导致指数级的时空消耗,很多复杂的模型将无法高效使用。因此,为保证时间、空间可行性,经常会降低到较为简单的模型上,从而带来质量性能的下降。
为了减少句长带来的处理难度,有的现有方法将标点作为切分点,对句子进行统一切分,但是经常会在不应该断句的地方将句子切断,导致后续的处理步骤性能下降。
目前公开可用的对齐工具仍然是GIZA++,但是对于句子比较长的情况,其规划路径太多,复杂度会非常高,处理时间会大大增加。所以,有必要对于句子进行优化的切分,并且对齐在一个可靠的较小范围内进行搜索和匹配,才能保证一定精度情况下缩短处理时间,或者才能保证整个翻译的精度,进而提高翻译效率。
发明内容
为克服现有的在处理长句时时间空间消耗严重、性能不够高的缺陷,本发明提出一种短句切分方法及装置以及机器翻译的方法和系统。
根据本发明的一个方面,提出了一种短句切分的装置,包括顺序相连的短句粗切分单元、短句句对齐单元、最小对齐块合并单元和短句切分训练单元;其中,短句粗切分单元,用于将双语语料中的每个句子单独以标点进行切分,形成一对一的双语短句序列;其中,短句句对齐单元,用于将从短句粗切分单元获得的一对一的双语短句序列进行句对齐,形成具有对齐关系的短句句对齐语料;其中,最小对齐块合并单元,用于将短句句对齐单元处理过的短句句对齐语料进行最小对齐块合并,成为一对一的对齐语料;其中,短句切分训练单元,用于利用一对一短句句对齐语料来训练短句切分模型,使用训练后的短句切分模型对输入的整句进行短句切分。
根据本发明的另一方面,提出了一种机器翻译系统,包括短句切分模块、翻译模块、译文合并模块、模型生成模块和短句切分模型训练模块;其中,短句切分模块,用于基于短句切分模型训练模块得到的短句切分模型,对待翻译文本句子进行短句切分,生成短句序列;其中,模型生成模块,用于基于短句切分模型训练模块得到的双语平行短句对齐语料来训练生成翻译模型;其中,短语翻译模块,用于利用模型生成模块生成的翻译模型对待翻译文本进行翻译;译文合并模块,用于将短语翻译模块获得的对应一个整句的短句序列的译文进行合并,以形成完整译文;其中,短句切分模型训练模块,用于训练短句切分模型,供短句切分模块使用。
根据本发明的又一方面,提供一种短句切分方法,包括:步骤1,将双语语料中的每个句子单独以标点进行切分,形成一对一的双语短句序列;步骤2,将从短句粗切分单元获得的一对一的双语短句序列进行句对齐,形成具有对齐关系的短句句对齐语料;步骤3,将短句句对齐单元处理过的短句句对齐语料进行最小对齐块合并,成为一对一的对齐语料;步骤4,利用一对一短句句对齐语料来训练短句切分模型,使用训练后的短句切分模型对输入的整句进行短句切分。
根据本发明的又一方面,提供一种机器翻译方法,包括:步骤1,训练短句切分模型,对待翻译文本句子进行短句切分,生成短句序列;步骤2,基于双语平行短句对齐语料来训练生成翻译模型;步骤3,利用翻译模型对待翻译文本进行翻译;步骤4,将翻译获得的对应一个整句的短句序列的译文进行合并,以形成完整译文。
本发明通过采用短句切分装置对待翻译文本进行短句切分,可以减少句长带来的处理难度,有效提高翻译的精度。同时,利用一对一短句句对齐语料训练短句切分模型,可以智能识别句子该切断的标点,有效提高后续的处理步骤的性能,进面通过翻译系统提高翻译效率,增加翻译的精确性。
附图说明
图1为根据本发明的机器翻译系统的结构示意框图;
图2为根据本发明的最小对齐块合并方法的示例图;
图3为根据本发明的短句切分方法的流程图;
图4为根据本发明的双语短句平行语料生成方法的流程图;
图5为根据本发明的机器翻译方法的第一实施例的流程图;
图6为根据本发明的机器翻译方法的第二实施例的流程图。
如图所示,为了能明确实现本发明的实施例的结构,在图中标注了特定的结构和器件,但这仅为示意需要,并非意图将本发明限定在该特定结构、器件和环境中,根据具体需要,本领域的普通技术人员可以将这些器件和环境进行调整或者修改,所进行的调整或者修改仍然包括在后附的权利要求的范围中。
具体实施方式
下面结合附图和具体实施例对本发明提供的一种短句切分方法及装置、双语短句平行语料生成的方法和系统、机器翻译的方法和系统进行详细描述。
在以下的描述中,将描述本发明的多个不同的方面,然而,对于本领域内的普通技术人员而言,可以仅仅利用本发明的一些或者全部结构或者流程来实施本发明。为了解释的明确性而言,阐述了特定的数目、配置和顺序,但是很明显,在没有这些特定细节的情况下也可以实施本发明。在其他情况下,为了不混淆本发明,对于一些众所周知的特征将不再进行详细阐述。
本发明提供了一种短句切分的装置,如图1所示,在图1的示例中,该短句切分装置可以是所示的短句切分模型训练模块105,该短句切分装置包括顺序相连的短句粗切分单元1051、短句句对齐单元1052、最小对齐块合并单元1053和短句切分训练单元1054。
其中,短句粗切分单元1051,用于将双语语料中的每个句子单独按照以标点为潜在切分点,结合人工规则排查进行切分,形成一个短句序列。双语语料中的两种语言句子做单独处理。所述人工规则包括长度限制法以及惯用习语排查法两种策略。
在本实施例中,长度限制法是指,如果某一短句的结尾标点是句中标点(即:逗号等)而且长度低于n(n优选为4),则不在此处切分。所述惯用习语排查法主要基于惯用习语表,如果所要切分出的短句在惯用习语表中,则不作为短句在此处切分。所述惯用习语表是利用短句语料库进行高频短句统计所获得的最高频m(m优选为100)个短句组成。
其中,短句句对齐单元1052,用于将从短句粗切分单元1051获得的互相对应的一对一双语短句序列进行句对齐,形成多对多的短句对齐语料。
例如,下面的一对双语短句序列:
示例中文短句序列1:c1c2c3.....cn
示例英文短句序列2:e1e2e3.....em
其中,c1至cn、e1至em分别为短句序列1和短句序列2中的各个短句。短句句对齐单元1052的输出是短句之间的对齐关系,比如(c1,e1);(c2c3,e2);...(cn,em)。短句之间的对齐关系可以是多对多形式。
在本实施例中,可采用综合长度和词典的方法进行短句句对齐。由于该方法属于现有技术,在此不再做具体介绍。除此之外,本发明并不限定具体的句对齐方法,采用其他的句对齐方法并不影响本发明的实施。
其中,最小对齐块合并单元1053,用于将短句句对齐单元1052处理过的短句句对齐语料进行最小对齐块合并,成为一对一的对齐语料。所述最小对齐块合并单元所采用的最小对齐块合并方法是:第一语言短句块和其所对齐的第二语言短句块都被包含,反过来依然,且两者都包含最少的短句。
其中,在合并过程中,只保留有对齐关系的短句。为使得合并获得的对齐语料粒度尽量小,采用最小对齐块合并方法。所述最小对齐块合并方法指在将相互对齐的双语短句子序列合并时,在保证满足对齐关系的情况下,两端短句子序列包含的短句数均最少,公式表达如下:
MinAlignSubsentPairSet ( c 1 N , e 1 M , A ) = { ( c j j + n , e i i + m ) } : arg min m , n [ AlignCond ( m , n ) ]
其中, AlignCond ( m , n ) = &ForAll; ( i &prime; , j &prime; ) &Element; A : j < = j &prime; < = j + n &LeftRightArrow; i < = i &prime; < = i + m . 其中,i表示最小对齐块中第二语言的起始短句编号,j表示最小对齐块中第一语言的起始短句编号、m表示最小对齐块中第二语言的结束短句编号相对起始短句编号的偏移量、n表示最小对齐块中第一语言的结束短句相对起始短句编号的偏移量,A表示短句对齐关系集合,AlignCond(m,n)表示在第一语言短句序列起止偏移量为n,第二语言短句序列起止偏移量为m时,必须满足的对齐关系限制。
请参考图2,假设{c1,c2,c3,c4,c5}和{e1,e2,e3,e4,e5}是一对短句序列,经过短句句对齐后,生成的对齐关系如图2中连线所示。以此为输入,最小对齐块合并单元1053将生成如图2虚线框所示的短句句对齐结果,即,{c1-e1,e2},{c3,c4-e3,e4},{c5-e5}三个句对。c2因为对空,所以没有包含在任何句对中。
在本发明的其他实施例中,也可以将相邻的短句对齐句对进行组合扩展,以形成粒度更大的句对齐语料,不影响本发明的实施。如图2中,可以合并形成{c3,c4,c5-e3,e4,e5}句对。
其中,短句切分训练单元1054,用于利用一对一短句句对齐语料来训练短句切分模型,使用训练后的短句切分模型对输入的整句进行短句切分。本实施例中,通过采用机器学习算法,获得短句切分模型。在本实施例中,可采用条件随机域(ConditionalRandomField,CRF)方法,由于该方法属于现有技术,在此不再做具体介绍。除此之外,本发明并不限定短句切分模型学习方法,其他的序列标注或者分类的机器学习方法并不影响本发明的实施。所述短句切分模型还可以包括支持向量机模型、隐马尔科夫模型或者最大熵模型。
在本实施例中,基于CRF方法的短语切分训练就是学习条件概率中的参数{λk}的值。可采用常用的参数估计方法,如GIS(generalizediterativescaling)算法和IIS(improvediterativescaling)算法。其中,x代表某一个潜在切分点,y代表判断结果,即,切分或者不切分。Z(x)是概率归一化因子。fk代表特征函数,λk表示对应的特征权重参数。本实施例中采用的特征如下:
当前词特征:
前词特征:
后词特征:
前词本词特征:
本词后词特征:
短句首词特征:
本申请还提供一种机器翻译系统,请参考图1,图1为根据本发明的机器翻译系统的实施例的结构示意框图。如图1所示,机器翻译系统包括:短句切分模块101、翻译模块102、译文合并模块103、模型生成模块104和短句切分模型训练模块105。
短句切分模块101,用于使用从短句切分模型训练模块105得到的短句切分模型,对待翻译文本句子进行短句切分,生成短句序列。
进一步地,短句切分模块101,还可以将输入的短句切分结果进行组合扩展,以构成多种待翻译句子的短句切分结果。
例如待翻译文本为:“为了对音频信号进行带宽扩展,在信号扩展器中,使用大于1的扩展因子在时间上对音频信号进行扩展。”
对上述待翻译文本,短句切分模块101将其切分为如下三个子句:
s1:“为了对音频信号进行带宽扩展,”
s2:“在信号扩展器中,”
s3:“使用大于1的扩展因子在时间上对音频信号进行扩展。”
进一步地,也可以扩展形成“s1”、“s2s3”或者“s1s2”、“s3”两种组合方式。在本实施例中,为避免句子过长,组合扩展得到的短句字数不能超过指定阈值,一般设阈值为100。
其中,模型生成模块104,用于使用从短句切分模型训练模块105得到的双语平行短句对齐语料来训练生成翻译模型。进一步,用于使用从短句切分模型训练模块105的最小对齐块合并单元1053得到的双语平行短句对齐语料来训练生成翻译模型。用已有语料训练翻译模型属于统计机器翻译中的现有技术,在此不做进一步的介绍。
其中,短语翻译模块102,用于利用模型生成模块104生成的翻译模型对待翻译文本进行翻译。其中,所述短句翻译模型由通过获取平行语料的方式所获取的训练语料训练得到。
译文合并模块103,用于将翻译模块102获得的对应一个整句的短句序列的译文进行合并,以形成完整译文。
其中,短句切分模型训练模块105,用于训练短句切分模型,供短句切分模块101使用。具体地,短句切分模型训练模块105包括顺序相连的短句粗切分单元1051、短句句对齐单元1052、最小对齐块合并单元1053和短句切分训练单元1054。具体地,如前文所述。
图3为根据本发明的短句切分方法的实施例的流程示意图。如图3所示,短句切分的方法包括:
步骤S101:对双语语料中各种语言的原始整句进行短句粗切分;
步骤S102:对短句粗切分获得双语对应短句序列进行短句句对齐,形成多对多的短句对齐语料;
步骤S103:对双语短句句对齐进行最小对齐合并,形成一对一的短句句对齐语料;
步骤S104:利用一对一的短句句对齐语料,训练短句切分模型;
步骤S105:利用短句切分模型,对整句进行短句切分。
语料的原始格式一般是按照段落进行分割,在使用时通常需要对语料按句进行分割。
其中,在步骤S101中,短句粗切分将双语语料中的每个句子按照以标点为潜在切分点,结合人工规则排查进行切分,形成一个短句序列。双语语料中的两种语言句子做单独处理。所述人工规则包括长度限制法以及惯用习语排查法两种策略。如果某一短句的结尾标点是句中标点而且长度低于n(n优选为4)。则不在此处切分。所述惯用习语排查法主要基于惯用习语表,如果所要切分出的短句在惯用习语表中,则不作为短句在此处切分。所述惯用习语表是利用短语语料库进行高频短语统计所获得的最高频m(m优选为100)个短句组成。
在步骤S102中,经过粗切分后对短句进行对齐。
例如下面的一对双语短语序列:
短句序列1:c1c2c3...cn
短句序列2:e1e2e3...em
其中c1至cn、e1至em分别是短句序列1和短句序列2中的各个短句。短句对齐结果具有下面的形式:(c1,e1);(c2c3,e2);..(cn,em)。短句之间的对齐关系可以是多对多形式。在本实施例中,限制如下种类的对齐关系:一对一,一对二,二对一,一对三,三对一。
在步骤S102中,可采用综合长度和词典方法进行短句对齐。除此之外,本发明并不限定具体的句对齐方法,采用其他方法并不影响本发明的实施。
在步骤S103中,句对齐的输出结果可以具有多对多形式。为得到一对一的对齐语料需要对S102的输出结果中的一对多,多对一和多对多的情况进行合并,同时删除未与任何句子对齐的句子,将结果合并形成具有一对一形式的对齐语料库。为使得合并获得的对齐语料粒度尽量小,采用最小对齐块合并方法。所述最小对齐块合并方法指在将相互对齐的双语短句序列时,在保证满足对齐关系的情况下,两端短句子序列包含的短句数均最少。同理,所述最小对齐块合并是指,第一语言短句块和其所对齐的第二语言短句块都被包含,反过来依然,且两者都包含最少的短句。
序列标注或者分类的机器学习算法将用来训练短句切分的统计模型。在本实施例中可采用条件随机域(ConditionalRandomField,CRF)方法,切分点的上下文作为模型特征。除此之外,本发明并不限定短句切分模型学习方法,也不限定选取特征的方式,其他的序列标注/分类的机器学习方法或选取特征的方法并不影响本发明的实施。所述短句切分模型还可以包括支持向量机模型、隐马尔科夫模型或者最大熵模型。
在步骤S105中,使用S104得到的短句切分模型对输入的整句进行切分。在本实施例中,将通过对输入整句中的每个词进行二元标注,根据标注结果来确定短句切分边界。例如
输入整句:c1c2c3...cn
在本实施例中,短句切分位置被标记为B,非切分位置被标记为I。使用短句切分模型进行标注的结果:
c1/Ic2/Ic3/Bc4/Bc5/I...cn
则上面整句的切分结果为:
短句1:c1c2c3
短句2:c4c5...cn
本发明既不限定模型的切分标注集,也不限定切分的标注方法,采用其他方法并不影响本发明的实施。
图4是根据本发明的双语短句平行语料生成方法的实施例的流程示意图。如图4所示,双语短句平行语料生成方法包括:
步骤201:采用上述短句切分方法对双语语料进行短句切分;
步骤202:将短句切分后的双语语料进行句对齐处理,形成多对多的短句对齐语料;
步骤203:对多对多的短句对齐语料进行最小对齐块合并;
步骤204:输出一对一的双语短句平行语料。
其中,步骤201可以参考图3所示的短句切分方法的实施例。
在步骤202中,可采用综合长度和词典的方法对短句切分后的双语语料进行句对齐处理。由于该方法属于现有技术,在此不再做具体介绍。除此之外,本发明并不限定具体的句对齐方法,采用其他的句对齐方法并不影响本发明的实施。
在步骤203中,最小对齐块合并,用于将短句句对齐的语料合并成为一对一的对齐语料。在合并过程中,只保留有对齐关系的短句。为使得合并获得的对齐语料粒度尽量小,采用最小对齐块合并方法。所述最小对齐块合并方法指在将相互对齐的双语短句子序列合并时,在保证满足对齐关系的情况下,两端短句子序列包含的短句数均最少。公式表达如下:
MinAlignSubsentPairSet ( c 1 N , e 1 M , A ) = { ( c j j + n , e i i + m ) } : arg min m , n [ AlignCond ( m , n ) ]
其中, AlignCond ( m , n ) = &ForAll; ( i &prime; , j &prime; ) &Element; A : j < = j &prime; < = j + n &LeftRightArrow; i < = i &prime; < = i + m .
请参考图2,假设{c1,c2,c3,c4,c5}和{e1,e2,e3,e4,e5}是一对短句序列,经过短句句对齐后,生成的对齐关系如图2中连线所示。以此为输入,最小对齐块合并单元1053将生成如图2虚线框所示的短句句对齐结果,即,{c1-e1,e2},{c3,c4-e3,e4},{c5-e5}三个句对。c2因为对空,所以没有包含在任何句对中。
请继续参考图4,在最小对齐块合并完成后,可以将对应的合并结果合成一个个句对,以生成短句句对齐双语平行语料。
进一步地,在步骤204中还可以将步骤203获得最小对齐块合并结果进行双语同步扩展,以便获得更大粒度的短句句对齐双语平行语料。在本实施例中,组合扩展时,短句长句要受指定阈值的限制,合并后的短句不能超过阈值,一般阈值设置为100。
请参考图5,图5为根据本发明的机器翻译方法的实施例一的流程示意图。如图5所示,机器翻译的方法包括:
S301:获取双语训练语料;
S302:训练短句切分模型;
S303:生成短句句对齐语料;
S304:使用短句句对齐语料训练获得翻译模型;
S305:使用短句切分模型对待翻译文本进行短句切分;
S306:使用翻译模型对短句切分后的待翻译文本进行翻译;
S307:对译文进行组合生成完整译文。
其中,步骤S301中,双语训练语料由双语句对构成,可通过互联网进行挖掘,也可以通过其他方式如大量人工加工获得,都不影响本发明的实施。
其中,步骤S302中,训练获得的短句切分模型,用于供S304步骤使用。其中,短句切分模型训练包括短句粗切分、短句句对齐、最小对齐块合并和短句切分训练等四个步骤。
其中,对于短句粗切分,用于将双语语料中的每个句子按照以标点为潜在切分点,结合人工规则排查进行切分,形成一个短句序列。双语语料中的两种语言句子做单独处理。所述人工规则包括长度限制法以及惯用习语排查法两种策略。在本实施例中,长度限制法是指,如果某一短句的结尾标点是句中标点(即:逗号)而且长度低于n(n优选为4),则不在此处切分。所述惯用习语排查法主要基于惯用习语表,如果所要切分出的短句在惯用习语表中,则不作为短句在此处切分。所述惯用习语表是利用短句语料库进行高频短句统计所获得的最高频m(m优选为100)个短句组成。
其中,对于短句句对齐,用于将从短句粗切分获得的互相对应的一对一双语短句序列进行句对齐。
例如下面的一对双语短句序列:
短句序列1:c1c2c3.....cn
短句序列2:e1e2e3.....em
其中c1至cn、e1至em分别为短句序列1和短句序列2中的各个短句。短句句对齐单元1052的输出是短句之间的对齐关系。比如(c1,e1);(c2c3,e2);...(cn,em)。短句之间的对齐关系可以是多对多形式。
在本实施例中,可采用综合长度和词典的方法进行短句句对齐。由于该方法属于现有技术,在此不再做具体介绍。除此之外,本发明并不限定具体的句对齐方法,采用其他的句对齐方法并不影响本发明的实施。
对于最小对齐块合并,用于将短句句对齐的语料合并成为一对一的对齐语料。在合并过程中,只保留有对齐关系的短句。为使得合并获得的对齐语料粒度尽量小,采用最小对齐块合并方法。所述最小对齐块合并方法指在将相互对齐的双语短句子序列合并时,在保证满足对齐关系的情况下,两端短句子序列包含的短句数均最少,公式表达如下:
MinAlignSubsentPairSet ( c 1 N , e 1 M , A ) = { ( c j j + n , e i i + m ) } : arg min m , n [ AlignCond ( m , n ) ]
其中, AlignCond ( m , n ) = &ForAll; ( i &prime; , j &prime; ) &Element; A : j < = j &prime; < = j + n &LeftRightArrow; i < = i &prime; < = i + m .
请参考图2,假设{c1,c2,c3,c4,c5}和{e1,e2,e3,e4,e5}是一对短句序列,经过短句句对齐后,生成的对齐关系如图2中连线所示。以此为输入,最小对齐块合并单元1053将生成如图2虚线框所示的短句句对齐结果,即,{c1-e1,e2},{c3,c4-e3,e4},{c5-e5}三个句对。c2因为对空,所以没有包含在任何句对中。
在本发明的其他实施例中,也可以将相邻的短句对齐句对进行组合扩展,以形成粒度更大的句对齐语料,不影响本发明的实施。如图2中,可以合并形成{c3,c4,c5-e3,e4,e5}句对。
请继续参考图5,短句切分训练,用于采用机器学习算法,获得短句切分模型。在本实施例中可采用条件随机域(ConditionalRandomField,CRF}方法。由于该方法属于现有技术,在此不再做具体介绍。除此之外,本发明并不限定短句切分模型学习方法,其他的序列标注或者分类的机器学习方法并不影响本发明的实施。
在本实施例中,基于CRF方法的短语切分训练就是学习条件概率中的参数{λk}的值。可采用常用的参数估计方法,如GIS(generalizediterativescaling)算法和IIS(improvediterativescaling)算法。其中,x代表某一个潜在切分点,y代表判断结果,即,切分或者不切分。Z(x)是概率归一化因子。fk代表特征函数,λk表示对应的特征权重参数。本实施例中采用的特征如下:
当前词特征:
前词特征:
后词特征:
前词本词特征:
本词后词特征:
短句首词特征:
其中,步骤S303可以参考图4所示的双语短句句对齐语料生成方法的实施例。
步骤S304是使用步骤S303双语短句句对齐语料训练获得翻译模型。用已有语料训练翻译模型属于统计机器翻译中的现有技术,在此不做进一步的介绍。
步骤S305使用步骤S302获得的短句切分模型,对待翻译文本进行短句切分。在某一潜在的切分点x,根据模型给出的概率值p(x),如果概率值p(x)低于阈值则不切分,否则,切分。一般地,阈值选为0.5。
步骤S306使用步骤S304获得的翻译模型,对步骤S305输出的短句序列进行翻译。
步骤S307对步骤S306输出的短句译文序列按照原文组合顺序进行组合,生成完整译文。
在本发明的机器翻译方中,图5所示的步骤执行顺序可进行各种符合逻辑的组合,既可以如图5所示的方式,从S301顺序执行到S307。在另一个实施例中,步骤S305和S304可以交换顺序。在又一个实施例中,步骤S303和S202可以交换顺序。
图6为根据本发明的机器翻译方法的实施例二的流程示意图,如图6所示,机器翻译的方法包括:
S401:获取双语训练语料;
S402:训练短句切分模型;
S403:生成短句扩展句对齐语料;
S404:使用短句扩展句对齐语料训练获得翻译模型;
S405:使用短句切分模型对待翻译文本进行短句切分并进行组合扩展;
S406:使用翻译模型对短句切分以及组合扩展后的待翻译文本进行翻译;
S407:对不同组合扩展获得的译文进行译文后选择,确定最终译文。
步骤S401中,双语训练语料由双语句对构成,可通过互联网进行挖掘,也可以通过其他方式如大量人工加工获得,都不影响本发明的实施。
步骤S402训练获得的短句切分模型,供S405步骤使用。
短句切分模型训练包括短句粗切分、短句句对齐、最小对齐块合并和短句切分训练。
其中短句粗切分,用于将双语语料中的每个句子按照以标点为潜在切分点,结合人工规则排查进行切分,形成一个短句序列。双语语料中的两种语言句子做单独处理。所述人工规则包括长度限制法以及惯用习语排查法两种策略。在本实施例中,长度限制法是指,如果某一短句的结尾标点是句中标点(即:逗号)而且长度低于n(n优选为4),则不在此处切分。所述惯用习语排查法主要基于惯用习语表,如果所要切分出的短句在惯用习语表中,则不作为短句在此处切分。所述惯用习语表是利用短句语料库进行高频短句统计所获得的最高频m(m优选为100)个短句组成。
短句句对齐,用于将从短句粗切分获得的互相对应的一对一双语短句序列进行句对齐,之后根据一个长度阈值,将不超过阈值的相邻短句组合成短句扩展句对齐。
例如下面的一对双语短句序列:
短句序列1:c1c2c3.....cn
短句序列2:e1e2e3.....em
其中c1至cn、e1至em分别为短句序列1和短句序列2中的各个短句。短句句对齐单元1052的输出是短句之间的对齐关系。比如(c1,e1);(c2c3,e2);...(cn,em)。短句之间的对齐关系可以是多对多形式。
在本实施例中,可采用综合长度和词典的方法进行短句句对齐。由于该方法属于现有技术,在此不再做具体介绍。除此之外,本发明并不限定具体的句对齐方法,采用其他的句对齐方法并不影响本发明的实施。
最小对齐块合并,用于将短句句对齐的语料合并成为一对一的对齐语料。在合并过程中,只保留有对齐关系的短句。为使得合并获得的对齐语料粒度尽量小,采用最小对齐块合并方法。所述最小对齐块合并方法指在将相互对齐的双语短句子序列合并时,在保证满足对齐关系的情况下,两端短句子序列包含的短句数均最少,公式表达如下:
MinAlignSubsentPairSet ( c 1 N , e 1 M , A ) = { ( c j j + n , e i i + m ) } : arg min m , n [ AlignCond ( m , n ) ]
其中, AlignCond ( m , n ) = &ForAll; ( i &prime; , j &prime; ) &Element; A : j < = j &prime; < = j + n &LeftRightArrow; i < = i &prime; < = i + m .
请参考图2,假设{c1,c2,c3,c4,c5}和{e1,e2,e3,e4,e5}是一对短句序列,经过短句句对齐后,生成的对齐关系如图2中连线所示。以此为输入,最小对齐块合并单元1053将生成如图2虚线框所示的短句句对齐结果,即,{c1-e1,e2},{c3,c4-e3,e4},{c5-e5}三个句对。c2因为对空,所以没有包含在任何句对中。
短句切分训练,用于采用机器学习算法,获得短句切分模型。在本实施例中可采用条件随机域(ConditionalRandomField,CRF)方法。由于该方法属于现有技术,在此不再做具体介绍。除此之外,本发明并不限定短句切分模型学习方法,其他的序列标注或者分类的机器学习方法并不影响本发明的实施。
在本实施例中,基于CRF方法的短语切分训练就是学习条件概率中的参数{λk}的值。可采用常用的参数估计方法,如GIS(generalizediterativescaling)算法和IIS(improvediterativescaling)算法。其中,x代表某一个潜在切分点,y代表判断结果,即,切分或者不切分。Z(x)是概率归一化因子。fk代表特征函数,λk表示对应的特征权重参数。本实施例中采用的特征如下:
当前词特征:
前词特征:
后词特征:
前词本词特征:
本词后词特征:
短句首词特征:
步骤S403可以先参考图4所示的双语短句句对齐语料生成方法的实施例。然后,将相邻的短句对齐句对进行组合扩展,以形成粒度更大的句对齐语料。如图2中,可以合并形成{c3,c4,c5-e3,e4,e5}句对。
步骤S404是使用步骤S403双语短句扩展句对齐语料训练获得翻译模型。用已有语料训练翻译模型属于统计机器翻译中的现有技术,在此不做进一步的介绍。
步骤S405使用步骤S402获得的短句切分模型,对待翻译文本进行短句切分。在某一潜在的切分点x,根据模型给出的概率值p(x),如果概率值p(x)低于阈值则不切分,否则,切分。一般地,阈值选为0.5;同时,根据长度阈值,对切分的短句在不超过长度时,进行组合扩展。
步骤S406使用步骤S404获得的翻译模型,对步骤S405输出的短句序列进行翻译。
步骤S407对步骤S406输出的短句译文序列按照原文组合顺序进行组合,生成完整译文;由于组合扩展会生成多种不同形式的切分组合,对这些形式的完整译文进行选择,确定最终译文。译文选择可采用句子融合技术,例如最小贝叶斯风险解码、语言模型评分等方法,从多种完整译文中优选出最终译文。由于句子融合技术,如最小贝叶斯风险解码、计算语言模型得分方法为现有技术,在此不再做具体介绍。
在本发明的机器翻译方中,图6所示的步骤执行顺序可进行各种符合逻辑的组合,既可以如图6所示的方式,从S401顺序执行到S407。在另一个实施例中,步骤S405和S404可以交换顺序。在又一个实施例中,步骤S403和S402可以交换顺序。
例子
语料库输入:
一种用于将聚合材料浇铸到主体上形成聚合部件的模具,该模具包括设置在相应的主体相对侧面上的第一模具部件和第二模具部件。这些模具部件中的至少一个限定了与所述主体连通的至少一部分模腔,以便能够让聚合材料浇铸到所述主体上。
Amouldforcastingacomponentontoabodycomprisingfirstandsecondmouldpartsarrangedtobedisposedonrespectiveonesoftheoppositesidesofthebody.Atleastoneofthepartsdefinesatleastaportionofamouldcavitythatisincommunicationwiththebodytoallowforcastingofthecomponentontothebody
中文粗切分:
一种用于将聚合材料浇铸到主体上形成聚合部件的模具,(1)
该模具包括设置在相应的主体相对侧面上的第一模具部件和第二模具部件。(2)
这些模具部件中的至少一个限定了与所述主体连通的至少一部分模腔,(3)
以便能够让聚合材料浇铸到所述主体上。(4)
英文分句:
Amouldforcastingacomponentontoabodycomprisingfirstandsecondmouldpartsarrangedtobedisposedonrespectiveonesoftheoppositesidesofthebody.(1)
Atleastoneofthepartsdefinesatleastaportionofamouldcavitythatisincommunicationwiththebodytoallowforcastingofthecomponentontothebody.(2)
句对齐结果:
1一1;2-1;3-2;4-2
句对齐合并:
1,2-1;3,4-2
句对齐合并之后形成句对齐平行语料库;该平行语料库可用来训练统计机器翻译模型;
并且句对齐合并之后的语料库使用统计模型进行训练形成短句切分模型,如使用最大熵模型,可以生成如下表的短句切分模型,如下表:
模型特征 模型权重
f1(“,”,切分)=1 λ1
f2(“模具”,切分)=1 λ2
f3(“该”,切分)=1 λ3
f4(“模具,”,切分)=1 λ4
f5(“,该”,切分)=1 λ5
f6(“一种”,切分)=1 λ6
根据短句切分模型,对短句进行切分:
输入短句切分(N表示不切分,Y表示切分):
为了/N对/N音频信号/N进行/N带宽/N扩展/N,/Y在/N信号/N扩展器/N中/N,/N使用/N大于/N1/N的/N扩展因子/N在/N时间/N上/N对/N音频信号/N进行/N扩展/N。/Y然后/N,/N将/N在/N时间/N上/N扩展/N的/N音频信号/N提供/N给/N抽取器/N,/N以/N使用/N与/N扩展因子/N相匹配/N的/N抽取因子/N来/N对/N时间扩展/N的/N版本/N进行/N抽取/N。/Y
结合使用平行语料库训练的统计翻译模型,使用机器翻译算法生成的机器翻译结果:
Forabandwidthextensionofanaudiosignal,inasignalspreadertheaudiosignalistemporallyspreadbyaspreadfactorgreaterthan1.Thetemporallyspreadaudiosignalisthensuppliedtoademicatortodecimatethetemporallyspreadversionbyadecimationfactormatchedtothespreadfactor.
最后应说明的是,以上实施例仅用以描述本发明的技术方案而不是对本技术方法进行限制,本发明在应用上可以延伸为其他的修改、变化、应用和实施例,并且因此认为所有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。

Claims (12)

1.一种短句切分的装置,包括顺序相连的短句粗切分单元、短句句对齐单元、最小对齐块合并单元和短句切分训练单元,其中:
短句粗切分单元,用于将双语语料中的每个句子单独以标点进行切分,形成一对一的双语短句序列;
短句句对齐单元,用于将从短句粗切分单元获得的一对一的双语短句序列进行句对齐,形成具有对齐关系的短句句对齐语料;
最小对齐块合并单元,用于将短句句对齐单元处理过的短句句对齐语料进行最小对齐块合并,成为一对一的对齐语料;所述最小对齐块合并单元处理过的、具有最小对齐块的对齐语料中,第一语言短句块和其所对齐的第二语言短句块都被包含,且两者都包含最少的短句;所述最小对齐块合并单元在合并过程中只保留有对齐关系的短句;所述最小对齐块合并单元将相互对齐的双语短句子序列合并时,在保证满足对齐关系的情况下两端短句子序列包含的短句数均最少;以及
短句切分训练单元,用于利用一对一短句句对齐语料来训练短句切分模型,使用训练后的短句切分模型对输入的整句进行短句切分。
2.根据权利要求1所述的装置,其中,所述最小对齐块合并单元还用于将相邻的短句对齐句对进行组合扩展,以形成粒度更大的句对齐语料。
3.一种机器翻译系统,包括短句切分模块、翻译模块、译文合并模块、模型生成模块和短句切分模型训练模块,其中:
所述短句切分模块用于基于短句切分模型训练模块得到的短句切分模型,对待翻译文本句子进行短句切分,生成短句序列;
所述模型生成模块用于基于短句切分模型训练模块得到的双语平行短句对齐语料来训练生成翻译模型;
所述翻译模块用于利用模型生成模块生成的翻译模型对待翻译文本进行翻译;
所述译文合并模块用于将翻译模块获得的对应一个整句的短句序列的译文进行合并,以形成完整译文;
所述短句切分模型训练模块用于训练短句切分模型,供短句切分模块使用;
所述短句切分模型训练模块包括顺序相连的短句粗切分单元、短句句对齐单元、最小对齐块合并单元和短句切分训练单元;
所述短句粗切分单元用于将双语语料中的每个句子单独以标点进行切分,形成一对一的双语短句序列;
所述短句句对齐单元用于将从短句粗切分单元获得的一对一的双语短句序列进行句对齐,形成具有对齐关系的短句句对齐语料;
所述最小对齐块合并单元用于将短句句对齐单元处理过的短句句对齐语料进行最小对齐块合并,成为一对一的对齐语料;所述最小对齐块合并单元在合并过程中只保留有对齐关系的短句;所述最小对齐块合并单元将相互对齐的双语短句子序列合并时,在保证满足对齐关系的情况下两端短句子序列包含的短句数均最少;以及
所述短句切分训练单元,用于利用一对一短句句对齐语料来训练短句切分模型,使用训练后的短句切分模型对输入的整句进行短句切分。
4.根据权利要求3所述的系统,其中,短句切分模块还用于将输入的短句切分结果进行组合扩展,以构成多种待翻译句子的短句切分结果。
5.根据权利要求3所述的系统,其中,所述翻译模型由通过最小对齐块合并单元获取平行语料的方式所获取的训练语料训练得到。
6.一种短句切分方法,包括:
步骤1,将双语语料中的每个句子单独以标点进行切分,形成一对一的双语短句序列;
步骤2,将从短句粗切分单元获得的一对一的双语短句序列进行句对齐,形成具有对齐关系的短句句对齐语料;
步骤3,将短句句对齐单元处理过的短句句对齐语料进行最小对齐块合并,成为一对一的对齐语料;其中,对于步骤2输出的多对多形式的短句句对齐语料,对一对多、多对一和多对多的情况进行合并,同时删除未与任何句子对齐的句子,将结果合并形成具有一对一形式的对齐语料库;对于相互对齐的双语短句序列,在保证满足对齐关系的情况下,两端短句子序列包含的短句数均最少;和
步骤4,利用一对一短句句对齐语料来训练短句切分模型,使用训练后的短句切分模型对输入的整句进行短句切分。
7.根据权利要求6所述的方法,其中,在步骤1中,将双语语料中的每个句子按照以标点为潜在切分点,结合长度限制法和惯用习语排查法进行切分,形成一个短句序列。
8.根据权利要求6的方法,其中,在步骤4中,基于短句切分模型对输入的整句进行切分,通过对输入整句中的每个词进行二元标注,根据标注结果来确定短句切分边界。
9.一种机器翻译方法,包括:
步骤1,训练短句切分模型,对待翻译文本句子进行短句切分,生成短句序列;
步骤2,基于双语平行短句对齐语料来训练生成翻译模型;
步骤3,利用翻译模型对待翻译文本进行翻译;
步骤4,将翻译获得的对应一个整句的短句序列的译文进行合并,以形成完整译文;
其中,步骤1包括:
步骤11,将双语语料中的每个句子单独以标点进行切分,形成一对一的双语短句序列;
步骤12,短句句对齐单元,用于将一对一的双语短句序列进行句对齐,形成具有对齐关系的短句句对齐语料;
步骤13,将短句句对齐语料进行最小对齐块合并,成为一对一的对齐语料;在合并过程中只保留有对齐关系的短句;将相互对齐的双语短句子序列合并时,在保证满足对齐关系的情况下两端短句子序列包含的短句数均最少;
步骤14,利用一对一短句句对齐语料来训练短句切分模型,使用训练后的短句切分模型对输入的整句进行短句切分。
10.根据权利要求9所述的方法,其中,步骤11还包括将输入的短句切分结果进行组合扩展,以构成多种待翻译句子的短句切分结果。
11.根据权利要求9所述的方法,其中,步骤2中,所述翻译模型通过获取平行语料的方式所输出的训练语料训练得到。
12.根据权利要求10所述的方法,其中,步骤4还包括对不同组合扩展获得的译文进行译文后选择,确定最终译文。
CN201310432908.5A 2013-09-22 2013-09-22 短句切分装置、机器翻译系统及对应切分方法和翻译方法 Active CN103530284B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310432908.5A CN103530284B (zh) 2013-09-22 2013-09-22 短句切分装置、机器翻译系统及对应切分方法和翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310432908.5A CN103530284B (zh) 2013-09-22 2013-09-22 短句切分装置、机器翻译系统及对应切分方法和翻译方法

Publications (2)

Publication Number Publication Date
CN103530284A CN103530284A (zh) 2014-01-22
CN103530284B true CN103530284B (zh) 2016-07-06

Family

ID=49932306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310432908.5A Active CN103530284B (zh) 2013-09-22 2013-09-22 短句切分装置、机器翻译系统及对应切分方法和翻译方法

Country Status (1)

Country Link
CN (1) CN103530284B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838718A (zh) * 2014-02-24 2014-06-04 武汉传神信息技术有限公司 一种翻译系统及翻译方法
CN104199811B (zh) * 2014-09-10 2017-06-16 上海携程商务有限公司 短句解析模型建立方法及系统
CN105183722A (zh) * 2015-09-17 2015-12-23 成都优译信息技术有限公司 一种汉英双语翻译语料的对齐方法
JP6655788B2 (ja) * 2016-02-01 2020-02-26 パナソニックIpマネジメント株式会社 対訳コーパス作成方法、該装置および該プログラムならびに機械翻訳システム
CN105912533B (zh) * 2016-04-12 2019-02-12 苏州大学 面向神经机器翻译的长句切分方法及装置
CN108763224A (zh) * 2016-06-28 2018-11-06 大连民族大学 评论信息多语机器翻译子系统的翻译方法
CN106407186B (zh) * 2016-10-09 2019-04-30 新译信息科技(深圳)有限公司 建立分词模型的方法及装置
CN106776586A (zh) * 2016-12-19 2017-05-31 新译信息科技(深圳)有限公司 机器翻译方法及装置
CN107608953B (zh) * 2017-07-25 2020-08-14 同济大学 一种基于不定长上下文的词向量生成方法
CN107766325B (zh) * 2017-09-27 2021-05-28 百度在线网络技术(北京)有限公司 文本拼接方法及其装置
CN109408833A (zh) * 2018-10-30 2019-03-01 科大讯飞股份有限公司 一种翻译方法、装置、设备及可读存储介质
CN111914571A (zh) * 2019-05-07 2020-11-10 阿里巴巴集团控股有限公司 语句切分方法及装置、存储介质、处理器及终端设备
CN111178089B (zh) * 2019-12-20 2023-03-14 沈阳雅译网络技术有限公司 一种双语平行数据一致性检测与纠正方法
CN111241784A (zh) * 2019-12-30 2020-06-05 成都理工大学 公共标识语语料资源的加工整理方法
CN111523330A (zh) * 2020-04-13 2020-08-11 北京字节跳动网络技术有限公司 用于生成文本的方法、装置、电子设备和介质
CN114881008A (zh) * 2022-04-24 2022-08-09 北京有竹居网络技术有限公司 一种文本生成方法、装置、电子设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5852798A (en) * 1995-08-08 1998-12-22 Matsushita Electric Industrial Co., Ltd. Machine translation apparatus and method for translating received data during data communication
CN101271451A (zh) * 2007-03-20 2008-09-24 株式会社东芝 计算机辅助翻译的方法和装置
CN101290616A (zh) * 2008-06-11 2008-10-22 中国科学院计算技术研究所 一种统计机器翻译方法和系统
CN102662932A (zh) * 2012-03-15 2012-09-12 中国科学院自动化研究所 构建树结构及基于树结构的机器翻译系统的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5852798A (en) * 1995-08-08 1998-12-22 Matsushita Electric Industrial Co., Ltd. Machine translation apparatus and method for translating received data during data communication
CN101271451A (zh) * 2007-03-20 2008-09-24 株式会社东芝 计算机辅助翻译的方法和装置
CN101290616A (zh) * 2008-06-11 2008-10-22 中国科学院计算技术研究所 一种统计机器翻译方法和系统
CN102662932A (zh) * 2012-03-15 2012-09-12 中国科学院自动化研究所 构建树结构及基于树结构的机器翻译系统的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于浅层句法信息的翻译实例获取方法研究;陈鄞 等;《电子与信息学报》;20090215;第2.3,3节,图1 *

Also Published As

Publication number Publication date
CN103530284A (zh) 2014-01-22

Similar Documents

Publication Publication Date Title
CN103530284B (zh) 短句切分装置、机器翻译系统及对应切分方法和翻译方法
CN103678282A (zh) 一种分词方法及装置
CN102708147B (zh) 一种科技术语的新词识别方法
CN103106227A (zh) 一种基于网页文本的新词查找系统及方法
CN104636466A (zh) 一种面向开放网页的实体属性抽取方法和系统
CN103942192B (zh) 一种双语最大名词组块分离-融合的翻译方法
CN102799578A (zh) 一种基于依存句法树的翻译规则抽取方法和翻译方法
CN101763344A (zh) 训练基于短语的翻译模型的方法、机器翻译方法及其装置
CN102831109A (zh) 一种基于智能匹配的机器翻译装置及其方法
CN111178085B (zh) 文本翻译器训练方法、专业领域文本语义解析方法和装置
CN105975475A (zh) 基于中文短语串的细粒度主题信息抽取方法
CN104268133A (zh) 机器翻译方法及系统
CN105446962A (zh) 原文和译文的对齐方法和装置
CN103473223A (zh) 一种基于句法树的规则抽取及翻译方法
CN111144142A (zh) 基于深度可分离卷积的汉越神经机器翻译方法
CN102650987A (zh) 一种基于源语言复述资源的机器翻译方法及装置
CN104239290A (zh) 基于依存树的统计机器翻译方法及系统
CN102760121B (zh) 依存映射方法及系统
CN102270244B (zh) 基于核心语句的网页内容关键词快速提取方法
CN106570120A (zh) 一种改进的关键词优化实现搜索引擎优化技术
CN104391837A (zh) 一种基于格语义的智能语法分析方法
CN106610952A (zh) 一种混合的文本特征词汇提取方法
CN101989261B (zh) 统计机器翻译短语抽取方法
CN106021413A (zh) 基于主题模型的自展式特征选择方法及系统
JP6096138B2 (ja) 語順入替装置、方法及びプログラム、並びに翻訳品質評価装置及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant