CN105068997A - 平行语料的构建方法及装置 - Google Patents
平行语料的构建方法及装置 Download PDFInfo
- Publication number
- CN105068997A CN105068997A CN201510415139.7A CN201510415139A CN105068997A CN 105068997 A CN105068997 A CN 105068997A CN 201510415139 A CN201510415139 A CN 201510415139A CN 105068997 A CN105068997 A CN 105068997A
- Authority
- CN
- China
- Prior art keywords
- mrow
- phrase
- translation
- probability
- parallel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 8
- 238000013519 translation Methods 0.000 claims abstract description 166
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了平行语料的构建方法及装置,其中,该方法包括:确定平行语料库中各翻译词对的翻译概率,所述翻译词对包含源语言词及相应的目标语言词;将翻译词对及相应的翻译概率添加到翻译概率表中;根据翻译概率表对非平行语料库中的短语进行匹配,确定出匹配的短语对,作为新的平行短语对;将新的平行短语对添加到平行语料库中。本发明方案能够基于非平行语料训练出平行短语对,扩大平行语料的规模。
Description
技术领域
本发明涉及机器翻译技术,尤其涉及平行语料的构建方法及装置。
背景技术
随着国际交流的日益深入,人们的语言翻译需求日益增长。互联网作为当今最为便捷的获取信息平台,用户对在线翻译需求日益迫切。如何为用户提供高质量的翻译服务成为一个难题。互联网中存在的语言种类多,各语言又具有大量的多义性,语言又处于时时刻刻的变化之中,这就对翻译服务提出更高的要求。
采用双语的平行语料进行机器翻译,是目前的主流。双语的平行语料库是指具有相互翻译关系的两个文本,一般情况下以一句话作为一个对齐单元。
现有的平行语料库基本上都是从平行网站中获取的,这种语料存在语料规模小,领域覆盖度低等问题,制约了机器翻译模型效果的进一步提升。
发明内容
本发明提供了一种平行语料的构建方法,该方法能够该方法能够基于非平行语料构建新的平行语料库,解决机器翻译对大规模平行语料的依赖。
本发明提供了一种平行语料的构建装置,该装置能够该方法能够基于非平行语料构建新的平行语料库,解决机器翻译对大规模平行语料的依赖。
一种平行语料的构建方法,该方法包括:
确定平行语料库中各翻译词对的翻译概率,所述翻译词对包含源语言词及相应的目标语言词;
将翻译词对及相应的翻译概率添加到翻译概率表中;
根据翻译概率表对非平行语料库中的短语进行匹配,确定出匹配的短语对,作为新的平行短语对;
将新的平行短语对添加到平行语料库中。
一种平行语料的构建装置,该装置包括翻译概率确定模块和短语匹配模块;
所述翻译概率确定模块,确定平行语料库中各翻译词对的翻译概率,所述翻译词对包含源语言词及相应的目标语言词;将翻译词对及相应的翻译概率添加到翻译概率表中;
所述短语匹配模块,根据翻译概率表对非平行语料库中的短语进行匹配,确定出匹配的短语对,作为新的平行短语对;将新的平行短语对添加到平行语料库中。
从上述方案可以看出,本发明中,确定平行语料库中各翻译词对的翻译概率,将翻译词对及相应的翻译概率添加到翻译概率表中;根据翻译概率表对非平行语料库中的短语进行匹配,确定出匹配的短语对,作为新的平行短语对;将新的平行短语对添加到平行语料库中。从而,实现了基于非平行语料训练出更多的平行短语对,扩大了平行语料库的规模。
附图说明
图1为本发明平行语料的构建方法示意性流程图;
图2为本发明中平行语料库和非平行语料库的语料信息示意图实例;
图3为本发明中每次迭代所对应的平行语料库的语料信息示意图实例;
图4为本发明构建的平行语料库的语料示意图实例;
图5为本发明平行语料的构建装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明进一步详细说明。
现有的平行语料库基本上都是从平行网站中获取的,这种语料存在语料规模小,领域覆盖度低等问题,制约了机器翻译模型效果的进一步提升。结合该问题,发明人在实践中发现,双语的非平行语料库具有语料规模大、领域丰富等特点,但非平行语料库是简单的两种语言的单语语料,其中不存在着两种语言的相互对齐关系;如果能够基于非平行语料训练出更多的平行短语对,将进一步扩大平行语料的规模。因此,本申请提供了如图1所示的平行语料的构建方法流程,其包括以下步骤:
步骤101,确定平行语料库中各翻译词对的翻译概率,所述翻译词对包含源语言词及相应的目标语言词。
平行语料库中包含源语言短语及相应的目标语言短语,每条语言短语由至少一个词组成,源语言词和相应的目标语言词构成翻译词对。翻译词对的翻译概率,体现了其翻译的准确度。
步骤102,将翻译词对及相应的翻译概率添加到翻译概率表中。
步骤103,根据翻译概率表对非平行语料库中的短语进行匹配,确定出匹配的短语对,作为新的平行短语对。
非平行语料库中包含源语言短语集合和目标语言短语集合。针对目标语言短语集合中的指定目标语言短语,根据翻译概率表确定出源语言短语集合中与指定目标短语匹配的源语言短语。通过翻译概率表可确定出两个短语间的翻译概率,进而确定两者是否相互匹配。
步骤104,将新的平行短语对添加到平行语料库中。
至此,完成了对平行语料库的扩展。为了能够训练出更多的平行短语对,进一步地,所述将新的平行短语对添加到平行语料库中之后,该方法还包括:
判断是否满足结束条件,如果是,则结束;否则执行所述确定平行语料库中各翻译词对的翻译概率的步骤。
结束条件可根据需要进行设置,下面进行举例说明:
方式一、
将添加后及添加前平行语料库中的平行短语对的数目进行比较,判断数目差值是否小于第一设定值,如果是,则满足结束条件;否则,不满足。
方式二、
设置迭代次数;每次执行所述确定平行语料库中各翻译词对的翻译概率的步骤时,将迭代次数加一;所述判断是否满足结束条件包括:判断当前的迭代次数是否大于第二设定值,如果是,则满足结束条件;否则不满足。
下面结合具体实例,对本发明方案进行详细说明。
如图2示出了本实例中初始的平行语料库的相应信息,包括短语数、词汇数、平均长度等;还示出了非平行语料库的相关信息。本发明方案中,对平行语料库中的源语言短语和目标语言短语进行预处理,从预处理后的源语言短语和对应的目标语言短语中提取出源语言词及对应的目标语言词,得到翻译词对。以中英翻译为例,对平行语料进行预处理,中文语料需进行分词预处理,英文语料需进行大写转换成小写,复数转换成单数,其它时态转换为现在时态这些预处理。
而后,确定中各翻译词对的翻译概率,其方法有多种,可根据需要设置,下面进行举例说明。
方式一、
统计出各翻译词对在平行语料库中出现的概率,作为其翻译概率。
具体地,可统计出翻译词对在平行语料库中出现的次数,再统计次平行语料库中所有翻译词的总数,两者进行相除,得到该翻译词对的翻译概率。
方式二、
根据双语词典确定各翻译词对的翻译概率,将确定的翻译概率作为相应翻译词对的翻译概率。
1)本方式可采用如下的简单实现:
双语词典给出了各个词的标准翻译,还可获知翻译概率。例如A可翻译为B或C,则确定A翻译为B及C的翻译概率分别为50%。再如,A可翻译为B、C、D及E,则确定A翻译为B、C、D及E的翻译概率分别为25%。
2)本方式也可采用如下的实现方案。将平行语料库中的翻译词对表示为<f,e>,源语言词表示为e,目标语言词表示为f,双语词典表示为d;根据双语词典确定翻译词对<f,e>的翻译概率包括:
A、采用如下公式计算翻译词对<f,e>与双语词典的KL散度σ(f,e,d):
若翻译词对<f,e>在双语词典中,则KL散度值为1。
KL散度,即Kullback–Leiblerdivergence,也称为互信息,又称相对熵(relativeentropy),体现了翻译词对相对于双语词典的相似度、准确度,可采用的散度计算方式计算得到。
B、结合计算得到的σ(f,e,d),采用如下公式计算得到翻译概率的期望值c(f|e;F,E):
其中,表示目标语言短语t与之匹配的源语言短语之间的匹配概率,目标语言短语t为目标语言词f所在的短语;p(f|e)表示上一次得到的翻译概率,如果当前为第一次计算,则p(f|e)取默认值,F,E分别表示平行语料库中目标语言和源语言的语料,T为目标语言短语集合的短语数目;
C、结合翻译概率的期望值,采用如下公式计算得到归一化的翻译概率p(f|e):
∑f,c(f′|e;F,E)表示将所有包含源语言词e的翻译词对的翻译概率期望值进行累加。
翻译概率表中除了包含各翻译词的翻译概率外,还可包含长度概率,体现了源语言词长度及相应的目标语言词长度之间翻译准确性。具体计算包括:
首先计算出长度概率的期望c(J|I;F,E):
其中I表示源语言短语长度,J表示目标语言短语长度;F,E分别表示平行语料库中目标语言和源语言的语料。
然后,再计算出长度概率p(J|I):
其中,∑J,c(J′|I;F,E)表示:统计出源语言短语长度为I时,与其对应的所有目标语言长度的长度概率的期望,将统计出的期望进行累加。设置翻译概表之后,便可根据翻译概率表对非平行语料库中的短语进行匹配。非平行语料库中包含源语言短语集合和目标语言短语集合;针对目标语言短语集合中的指定目标语言短语,根据翻译概率表确定出源语言短语集合中与指定目标短语具有最大匹配概率的源语言短语,判断最大匹配概率是否满足预设条件,如果是,则将确定的源语言短语与指定目标语言短语作为新的平行短语对。该预设条件可根据需要确定,较简单的方式是设置一个阈值,如果最大匹配概率大于该阈值,则满足预设条件;当然,预设条件不仅限于此,也可以是需要满足的一个计算公式。
I(s)表示源语言短语集合的第s个源语言短语,J(t)表示目标语言短语集合的第t个目标语言短语;将各源语言短语与第t个目标语言短语进行匹配,最大匹配概率表示为可采用如下公式计算得到:
其中,p(J(t)|I(s))表示I(s)与J(t)之间的短语长度概率,表示的是J(t)中第j个词与I(s)中第i个词的翻译概率。该匹配方式也称为维特比匹配,对非空短语对的匹配概率进行计算。
最终确定的匹配概率可采用如下公式计算得到:
其中,p(J(t)|I(s))表示I(s)与J(t)短语长度概率,表示的是J(t)中第j个词与I(s)中第i个词的翻译概率。
本实例采用维特比匹配,对目标语言短语集合中的每个短语J(t)在源标语言短语集合选取最优的短语,确定出短语对或设定为空对齐。
将最终匹配出的短语对添加到平行语料库中,而后进行多次迭代,以对平行语料库进行扩展。图3示出了对应各次迭代的平行语料库相关信息,其中BLEU为对平行语料库进行性能衡量的参数值。
本实例中,总共迭代了5次,得到的平行语料库的数据如图4所示,这里只显示了极少部分的数据。与现有技术相比,本发明首先对平行语料进行预处理,中文语料需进行分词预处理,英文语料需进行大小写转化,划分标记(tokenize)等预处理。然后采用IBM模型1对平行语料进行训练,得到翻译概率表。并使用维特比EM的迭代方法从非平行语料中学习平行短语和词汇的模型。且采用了“从粗到精”的策略,采用信息检索的方法得到可能的匹配结果,再对可能匹配结果进行准确计算翻译概率,这种策略大大降低了模型的时间复杂度,使得模型可以应用于从大规模的非平行语料中抽取平行短语对。还通过引入空对齐阈值来控制了错误对齐的数目。实验结果表明通过迭代学习的方法可以学到更多高质量的平行短语对,并运用这些平行短语对训练基于短语的机器翻译系统提高了BELU值。
参见图5,为本发明平行语料的构建装置,该装置包括翻译概率确定模块和短语匹配模块;
所述翻译概率确定模块,确定平行语料库中各翻译词对的翻译概率,所述翻译词对包含源语言词及相应的目标语言词;将翻译词对及相应的翻译概率添加到翻译概率表中;
所述短语匹配模块,根据翻译概率表对非平行语料库中的短语进行匹配,确定出匹配的短语对,作为新的平行短语对;将新的平行短语对添加到平行语料库中。
较佳地,所述短语匹配模块包括迭代判断子模块,将新的平行短语对添加到平行语料库中之后,判断是否满足结束条件,如果是,则结束;否则执行向所述翻译概率确定模块发送启动指令;
所述翻译概率确定模块,接收启动指令,执行所述确定平行语料库中各翻译词对的翻译概率。
较佳地,所述短语匹配模块包括匹配处理子模块,非平行语料库中包含源语言短语集合和目标语言短语集合,针对目标语言短语集合中的指定目标语言短语,根据翻译概率表确定出源语言短语集合中与指定目标短语具有最大匹配概率的源语言短语,判断最大匹配概率是否满足预设条件,如果是,则将确定的源语言短语与指定目标语言短语作为新的平行短语对。
采用本发明方案进行具体实施时,以中英文双语为例,预先对平行语料进行预处理,中文语料需进行分词预处理,英文语料需进行大写转换成小写,复数转换成单数,其它时态转换为现在时态这些预处理。具体采用n-gram的方法,从非平行语料库的中英文单语语料中获取短语集合,中英文平行短语对在这两个短语集合中进行匹配。并且,通过较小的双语词典初始化词的翻译概率表,本实例中,双语词典是通过7360句中英文平行句对采用Giza++进行词对齐得到的。在平行语料L基于IBM模型1,训练得到各翻译词对的翻译概率。将所有翻译词对的翻译概率按得分按从大到小排列,取前2000个作为种子参数,得到翻译概率表。而后,用训练好的参数作为模型参数,从非平行语料库U中抽取平行短语对P。将得到的平行短语对P增加到原来的L中生成新的平行语料L∪P(∪为合并),并利用L∪P训练基于短语的机器翻译模型测试其机器翻译的BLEU值,BLEU值为评价机器翻译效果的指标,值越高表示翻译效果越好。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种平行语料的构建方法,其特征在于,该方法包括:
确定平行语料库中各翻译词对的翻译概率,所述翻译词对包含源语言词及相应的目标语言词;
将翻译词对及相应的翻译概率添加到翻译概率表中;
根据翻译概率表对非平行语料库中的短语进行匹配,确定出匹配的短语对,作为新的平行短语对;
将新的平行短语对添加到平行语料库中。
2.如权利要求1所述的方法,其特征在于,所述将新的平行短语对添加到平行语料库中之后,该方法还包括:
判断是否满足结束条件,如果是,则结束;否则执行所述确定平行语料库中各翻译词对的翻译概率的步骤。
3.如权利要求2所述的方法,其特征在于,所述判断是否满足结束条件包括:将添加后及添加前平行语料库中的平行短语对的数目进行比较,判断数目差值是否小于第一设定值,如果是,则满足结束条件;或者,
每次执行所述确定平行语料库中各翻译词对的翻译概率的步骤时,将迭代次数加一;所述判断是否满足结束条件包括:判断迭代次数是否大于第二设定值,如果是,则满足结束条件。
4.如权利要求1、2或3所述的方法,其特征在于,所述确定平行语料库中各翻译词对的翻译概率包括:
对平行语料库中的源语言短语和目标语言短语进行预处理,从预处理后的源语言短语和对应的目标语言短语中提取出源语言词及对应的目标语言词,得到翻译词对;
统计出各翻译词对在平行语料库中出现的概率,作为其翻译概率;或者,根据双语词典确定各翻译词对的翻译概率,将确定的翻译概率作为相应翻译词对的翻译概率。
5.如权利要求4所述的方法,其特征在于,将平行语料库中的翻译词对表示为<f,e>,源语言词表示为e,目标语言词表示为f,双语词典表示为d;根据双语词典确定翻译词对<f,e>的翻译概率包括:
采用如下公式计算翻译词对<f,e>与双语词典的互信息σ(f,e,d):
结合计算得到的σ(f,e,d),采用如下公式计算得到翻译概率的期望值c(f|e;F,E):
其中,表示目标语言短语t与之匹配的源语言短语之间的匹配概率,目标语言短语t为目标语言词f所在的短语;p(f|e)表示上一次得到的翻译概率,F,E分别表示平行语料库中目标语言和源语言的语料;
结合翻译概率的期望值,采用如下公式计算得到归一化的翻译概率p(f|e):
6.如权利要求1、2或3所述的方法,其特征在于,非平行语料库中包含源语言短语集合和目标语言短语集合;所述根据翻译概率表对非平行语料库中的短语进行匹配包括:
针对目标语言短语集合中的指定目标语言短语,根据翻译概率表确定出源语言短语集合中与指定目标短语具有最大匹配概率的源语言短语,判断最大匹配概率是否满足预设条件,如果是,则将确定的源语言短语与指定目标语言短语作为新的平行短语对。
7.如权利要求6所述的方法,其特征在于,I(s)表示源语言短语集合的第s个源语言短语,J(t)表示目标语言短语集合的第t个目标语言短语;将各源语言短语与第t个目标语言短语进行匹配,最大匹配概率表示为 采用如下公式计算得到:
其中,p(J(t)|I(s))表示I(s)与J(t)之间的短语长度概率,表示的是J(t)中第j个词与I(s)中第i个词的翻译概率。
8.一种平行语料的构建装置,其特征在于,该装置包括翻译概率确定模块和短语匹配模块;
所述翻译概率确定模块,确定平行语料库中各翻译词对的翻译概率,所述翻译词对包含源语言词及相应的目标语言词;将翻译词对及相应的翻译概率添加到翻译概率表中;
所述短语匹配模块,根据翻译概率表对非平行语料库中的短语进行匹配,确定出匹配的短语对,作为新的平行短语对;将新的平行短语对添加到平行语料库中。
9.如权利要求8所述的装置,其特征在于,所述短语匹配模块包括迭代判断子模块,将新的平行短语对添加到平行语料库中之后,判断是否满足结束条件,如果是,则结束;否则执行向所述翻译概率确定模块发送启动指令;
所述翻译概率确定模块,接收启动指令,执行所述确定平行语料库中各翻译词对的翻译概率。
10.如权利要求8或9所述的装置,其特征在于,非平行语料库中包含源语言短语集合和目标语言短语集合;所述短语匹配模块包括匹配处理子模块,针对目标语言短语集合中的指定目标语言短语,根据翻译概率表确定出源语言短语集合中与指定目标短语具有最大匹配概率的源语言短语,判断最大匹配概率是否满足预设条件,如果是,则将确定的源语言短语与指定目标语言短语作为新的平行短语对。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510415139.7A CN105068997B (zh) | 2015-07-15 | 2015-07-15 | 平行语料的构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510415139.7A CN105068997B (zh) | 2015-07-15 | 2015-07-15 | 平行语料的构建方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105068997A true CN105068997A (zh) | 2015-11-18 |
CN105068997B CN105068997B (zh) | 2017-12-19 |
Family
ID=54498371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510415139.7A Active CN105068997B (zh) | 2015-07-15 | 2015-07-15 | 平行语料的构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105068997B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106066851A (zh) * | 2016-06-06 | 2016-11-02 | 清华大学 | 一种考虑评价指标的神经网络训练方法及装置 |
CN106126505A (zh) * | 2016-06-20 | 2016-11-16 | 清华大学 | 平行短语学习方法及装置 |
CN107797995A (zh) * | 2017-11-20 | 2018-03-13 | 语联网(武汉)信息技术有限公司 | 一种中英文片段语料生成方法 |
CN108363704A (zh) * | 2018-03-02 | 2018-08-03 | 北京理工大学 | 一种基于统计短语表的神经网络机器翻译语料扩展方法 |
CN108664477A (zh) * | 2016-06-28 | 2018-10-16 | 大连民族大学 | 交易信息多语机器翻译子系统的翻译方法 |
CN109670190A (zh) * | 2018-12-25 | 2019-04-23 | 北京百度网讯科技有限公司 | 翻译模型构建方法和装置 |
CN110046261A (zh) * | 2019-04-22 | 2019-07-23 | 山东建筑大学 | 一种建筑工程多模态双语平行语料库的构建方法 |
CN110147558A (zh) * | 2019-05-28 | 2019-08-20 | 北京金山数字娱乐科技有限公司 | 一种翻译语料处理的方法和装置 |
CN110781689A (zh) * | 2019-10-25 | 2020-02-11 | 北京小米智能科技有限公司 | 信息处理方法、装置及存储介质 |
CN111160046A (zh) * | 2018-11-07 | 2020-05-15 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101290616A (zh) * | 2008-06-11 | 2008-10-22 | 中国科学院计算技术研究所 | 一种统计机器翻译方法和系统 |
CN101706777A (zh) * | 2009-11-10 | 2010-05-12 | 中国科学院计算技术研究所 | 机器翻译中抽取调序模板的方法及系统 |
CN101714136A (zh) * | 2008-10-06 | 2010-05-26 | 株式会社东芝 | 将基于语料库的机器翻译系统适应到新领域的方法和装置 |
CN102023969A (zh) * | 2009-09-10 | 2011-04-20 | 株式会社东芝 | 获得加权语言模型概率及构建加权语言模型的方法和装置 |
CN102053959A (zh) * | 2010-12-13 | 2011-05-11 | 百度在线网络技术(北京)有限公司 | 一种用于机器翻译的调序模型的生成方法和装置 |
CN104750687A (zh) * | 2013-12-25 | 2015-07-01 | 株式会社东芝 | 改进双语语料库的方法及装置、机器翻译方法及装置 |
-
2015
- 2015-07-15 CN CN201510415139.7A patent/CN105068997B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101290616A (zh) * | 2008-06-11 | 2008-10-22 | 中国科学院计算技术研究所 | 一种统计机器翻译方法和系统 |
CN101714136A (zh) * | 2008-10-06 | 2010-05-26 | 株式会社东芝 | 将基于语料库的机器翻译系统适应到新领域的方法和装置 |
CN102023969A (zh) * | 2009-09-10 | 2011-04-20 | 株式会社东芝 | 获得加权语言模型概率及构建加权语言模型的方法和装置 |
CN101706777A (zh) * | 2009-11-10 | 2010-05-12 | 中国科学院计算技术研究所 | 机器翻译中抽取调序模板的方法及系统 |
CN102053959A (zh) * | 2010-12-13 | 2011-05-11 | 百度在线网络技术(北京)有限公司 | 一种用于机器翻译的调序模型的生成方法和装置 |
CN104750687A (zh) * | 2013-12-25 | 2015-07-01 | 株式会社东芝 | 改进双语语料库的方法及装置、机器翻译方法及装置 |
Non-Patent Citations (6)
Title |
---|
GALE W A等: "A program for aligning sentences in bilingual corpora", 《COMPUTATIONAL LINGUISTICS》 * |
MUNTEANU D: "Improving machine translation performance by exploiting non-parallel corpora", 《COMPUTATIONAL LINGUISTICS》 * |
ZHANG J等: "Learning a phrase-based translation model from monolingual data with application to domain adaptation", 《PROCEEDINGS OF THE 51ST ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 * |
孙乐等: "平行语料库中双语术语词典的自动抽取", 《中文信息学报》 * |
赵海等: "基于有效字串标注的中文分词", 《中文信息学报》 * |
郭稷等: "一种有效的基于Web的双语翻译对获取方法", 《中文信息学报》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106066851A (zh) * | 2016-06-06 | 2016-11-02 | 清华大学 | 一种考虑评价指标的神经网络训练方法及装置 |
CN106126505A (zh) * | 2016-06-20 | 2016-11-16 | 清华大学 | 平行短语学习方法及装置 |
CN106126505B (zh) * | 2016-06-20 | 2020-01-31 | 清华大学 | 平行短语学习方法及装置 |
CN108664477A (zh) * | 2016-06-28 | 2018-10-16 | 大连民族大学 | 交易信息多语机器翻译子系统的翻译方法 |
CN108763223A (zh) * | 2016-06-28 | 2018-11-06 | 大连民族大学 | 汉英蒙藏维多语平行语料库构建的方法 |
CN107797995A (zh) * | 2017-11-20 | 2018-03-13 | 语联网(武汉)信息技术有限公司 | 一种中英文片段语料生成方法 |
CN108363704A (zh) * | 2018-03-02 | 2018-08-03 | 北京理工大学 | 一种基于统计短语表的神经网络机器翻译语料扩展方法 |
CN111160046A (zh) * | 2018-11-07 | 2020-05-15 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN109670190A (zh) * | 2018-12-25 | 2019-04-23 | 北京百度网讯科技有限公司 | 翻译模型构建方法和装置 |
CN109670190B (zh) * | 2018-12-25 | 2023-05-16 | 北京百度网讯科技有限公司 | 翻译模型构建方法和装置 |
CN110046261B (zh) * | 2019-04-22 | 2022-01-21 | 山东建筑大学 | 一种建筑工程多模态双语平行语料库的构建方法 |
CN110046261A (zh) * | 2019-04-22 | 2019-07-23 | 山东建筑大学 | 一种建筑工程多模态双语平行语料库的构建方法 |
CN110147558A (zh) * | 2019-05-28 | 2019-08-20 | 北京金山数字娱乐科技有限公司 | 一种翻译语料处理的方法和装置 |
CN110147558B (zh) * | 2019-05-28 | 2023-07-25 | 北京金山数字娱乐科技有限公司 | 一种翻译语料处理的方法和装置 |
CN110781689A (zh) * | 2019-10-25 | 2020-02-11 | 北京小米智能科技有限公司 | 信息处理方法、装置及存储介质 |
US11461561B2 (en) | 2019-10-25 | 2022-10-04 | Beijing Xiaomi Intelligent Technology Co., Ltd. | Method and device for information processing, and storage medium |
Also Published As
Publication number | Publication date |
---|---|
CN105068997B (zh) | 2017-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105068997B (zh) | 平行语料的构建方法及装置 | |
Ling et al. | Latent predictor networks for code generation | |
US10268685B2 (en) | Statistics-based machine translation method, apparatus and electronic device | |
CN109344236B (zh) | 一种基于多种特征的问题相似度计算方法 | |
Liang et al. | An end-to-end discriminative approach to machine translation | |
US9208149B2 (en) | Machine translation apparatus, method and program | |
US10061768B2 (en) | Method and apparatus for improving a bilingual corpus, machine translation method and apparatus | |
CN110866399B (zh) | 一种基于增强字符向量的中文短文本实体识别与消歧方法 | |
CN103853710B (zh) | 一种基于协同训练的双语命名实体识别方法 | |
CN105975625A (zh) | 一种面向英文搜索引擎的中式英文查询纠错方法和系统 | |
CN104391842A (zh) | 一种翻译模型构建方法和系统 | |
CN110083710A (zh) | 一种基于循环神经网络与潜变量结构的词语定义生成方法 | |
CN1979638A (zh) | 一种语音识别结果纠错方法 | |
CN103942192B (zh) | 一种双语最大名词组块分离-融合的翻译方法 | |
CN110352423B (zh) | 使用噪声信道模型生成目标序列的方法、存储介质和系统 | |
CN104156349A (zh) | 基于统计词典模型的未登录词发现和分词系统及方法 | |
CN106611041A (zh) | 一种新的文本相似度求解方法 | |
CN104375988A (zh) | 一种词语对齐方法及装置 | |
CN104699797A (zh) | 一种网页数据结构化解析方法和装置 | |
Puigcerver et al. | Querying out-of-vocabulary words in lexicon-based keyword spotting | |
CN112417823B (zh) | 一种中文文本语序调整和量词补全方法及系统 | |
CN112329482A (zh) | 机器翻译方法、装置、电子设备和可读存储介质 | |
KR20230009564A (ko) | 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치 | |
CN110516229A (zh) | 一种基于深度学习的领域自适应中文分词方法 | |
CN106610937A (zh) | 一种基于信息论的中文自动分词算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |