CN105095193B - 一种机器翻译的方法及其设备 - Google Patents
一种机器翻译的方法及其设备 Download PDFInfo
- Publication number
- CN105095193B CN105095193B CN201410192917.6A CN201410192917A CN105095193B CN 105095193 B CN105095193 B CN 105095193B CN 201410192917 A CN201410192917 A CN 201410192917A CN 105095193 B CN105095193 B CN 105095193B
- Authority
- CN
- China
- Prior art keywords
- translation
- rule
- probability
- sentence
- derived set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种机器翻译的方法及设备,通过确定待翻译数据中的每个语句;获取所述语句的第一标准推导集,所述第一标准推导集至少包括所述第一翻译规则的频度信息,所述频度信息为强制解码所述语句时使用所述第一翻译规则的次数;根据所述第一翻译规则的频度信息对所述第一标准推导集进行过滤,获得第二标准推导集,所述第二标准推导集至少包括所述第二翻译规则的频度信息;根据所述第二标准推导集和所述待翻译数据获取翻译结果,从而仅占用少量的计算资源实现语言翻译,替用户节约获取翻译的成本,提高移动终端的用户体验。
Description
技术领域
本发明涉及机器翻译领域,尤其涉及到一种机器翻译的方法及设备。
背景技术
随着经济全球化的发展,不同国家之间的信息交流和交换变得越来越频繁。同时,蓬勃发展的互联网为获取诸如英语、汉语、法语、德语、日语等各种语言形式的信息提供了极大的便利。公众对于不同语言之间的翻译需求也变得日益强烈。人工翻译耗时较长,成本较高,已经满足不了人们对多语言信息日益增长的需求。机器翻译能够将一种自然语言自动地翻译为另一种自然语言。利用机器翻译快速获取多语言的信息和资源已成为必然趋势。这使得能提供多语言、高质量、易获取的翻译服务的机器翻译系统和设备也变得越来越重要。近年来在一些国际组织机构(如欧洲联盟)、新闻媒体、全球性的网络平台、跨国贸易与旅游等政治、网络、文化、教育以及商务环境中,机器翻译已逐渐成为了一种获取信息和传播信息的重要基础手段。
统计机器翻译是目前主流的机器翻译技术。它能够根据数学模型和算法自动地从平行语料库中学习到翻译知识。统计机器翻译并不需要相关的语言学家参与,并且与具体的语言相对独立。另外,统计机器翻译系统开发部署周期较短,翻译速度较快,翻译质量较为鲁棒。
统计机器翻译模型学习到的翻译知识通常用规则表表示。规则表的质量对翻译质量起到了关键性的作用。根据规则的不同,统计机器翻译模型通常可以分为短语模型、句法模型、语义模型等。在实际应用中,短语模型和层次短语模型较为成熟,被广泛使用。一个可实用的统计机器翻译模型通常需要在千万级别的双语句对语料上训练。这使得经由自动学习算法得到的规则表十分庞大。一方面,庞大的规则表会占用较多的资源,如存储时需要较大硬盘空间,加载时需要较多的内存;另一方面过大的规则表也会增加翻译解码过程搜索空间,降低翻译速度。
现有技术采用基于强制解码的方法对规则表进行过滤。强制解码技术指的是将训练语料中一个句对的源语言端f作为输入提供给解码器,用对应的目标语言端e硬性约束翻译解码过程的推导d,其中要求d(f)=e。d(f)表示f的一个翻译推导d对应的目标语言输出,满足这样条件的推导d,我们称为标准推导。强制解码采用期望最大化算法在压缩标准推导森林(standard derivative forest compression)中估计每个规则的概率,根据设置的阈值过滤掉概率较低的规则,从而减少搜索空间。
从上可知,由于规则表中规则数量庞大,强制解码采用期望最大化算法在压缩标准推导森林中估计每个规则的概率会使得计算代价较大,并且降低用户体验。
发明内容
本发明实施例提供了一种机器翻译的方法及设备,旨在解决如何过滤规则使得使用过滤后的规则可以提高机器翻译的质量。
第一方面,一种机器翻译的方法,所述方法包括:
确定待翻译数据中的每个语句;
根据统计的机器翻译的方法和所述语句获取规则表Ta,所述规则表Ta包括各个翻译规则和所述翻译规则的频度信息;
根据所述规则表Ta包括的所述翻译规则和所述翻译规则的频度信息对所述语句进行强制解码;
将强制解码所述语句时使用到的翻译规则组合为第一标准推导集;所述第一标准推导集至少包括所述第一翻译规则的频度信息,所述频度信息为强制解码所述语句时使用所述第一翻译规则的次数;
根据所述第一翻译规则的频度信息对所述第一标准推导集进行过滤,获得第二标准推导集;
根据所述第二标准推导集和所述待翻译数据获取翻译结果。
结合第一方面,在第一方面的第一种可能的实现方式中,所述第二标准推导集包括第二翻译规则,所述获得第二标准推导集之后,还包括:
确定所述第二翻译规则对应的概率数值;
根据所述第二翻译规则对应的概率数值对所述第二翻译规则进行压缩,获取第三翻译规则;
所述根据所述第二标准推导集和所述待翻译数据获取翻译结果包括:
根据所述第三翻译规则和所述语句获得翻译结果。
结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述第二翻译规则对应的概率数值包括正向短语翻译概率、反向短语翻译概率、正向词汇翻译概率和反向词汇翻译概率;
所述根据所述第二翻译规则对应的概率数值对所述第二翻译规则进行压缩,获取第三翻译规则包括:
将所述第二翻译规则对应的正向短语翻译概率、反向短语翻译概率、正向词汇翻译概率和反向词汇翻译概率分别和所述正向短语翻译概率对应的分数、反向短语翻译概率对应的分数、正向词汇翻译概率对应的分数和反向词汇翻译概率对应的分数相乘,将相乘获得的积累加为第一概率值;
根据所述第一概率值和预设的聚类方法获取第一码表;所述方法还包括:
所述根据所述第三翻译规则和所述语句获得翻译结果,包括:
根据所述第一码表和所述语句获得翻译结果。
结合第一方面,在第一方面的第三种可能的实现方式中,所述根据所述规则表Ta包括的所述翻译规则和所述翻译规则的频度信息对所述语句进行强制解码之后,还包括:
获取强制解码的结果;
当强制解码成功时,根据所述强制解码的结果获取K个推导树对应的规则信息,K为正整数;
所述将强制解码所述语句时使用到的翻译规则组合为第一标准推导集包括:
将所述K个推导树对应的规则信息设置为第一标准推导集。
结合第一方面的第三可能的实现方式,在第一方面的第四种可能的实现方式中,所述获取强制解码的结果后,还包括:
当强制解码失败时,则获取强制解码失败时生成的推导树中的根节点到子节点的规则信息;
所述将强制解码所述语句时使用到的翻译规则组合为第一标准推导集包括:
将所述根节点到子节点的规则信息设置为第一标准推导集。
第二方面,一种机器翻译的装置,所述装置包括:
第一确定单元,用于确定待翻译数据中的每个语句;
第一获取单元,用于根据统计的机器翻译的方法和所述语句获取规则表Ta,所述规则表Ta包括各个翻译规则和所述翻译规则的频度信息;以及用于根据所述规则表Ta包括的所述翻译规则和所述翻译规则的频度信息对所述语句进行强制解码;还用于将强制解码所述语句时使用到的翻译规则组合为第一标准推导集,所述第一标准推导集至少包括所述第一翻译规则的频度信息,所述频度信息为强制解码所述语句时使用所述第一翻译规则的次数;
过滤单元,用于根据所述第一翻译规则的频度信息对所述第一标准推导集进行过滤,获得第二标准推导集;
第二获取单元,用于根据所述第二标准推导集和所述待翻译数据获取翻译结果。
结合第二方面,在第二方面的第一种可能的实现方式中,所述第二标准推导集包括第二翻译规则,所述装置还包括:
第二确定单元,用于确定所述第二翻译规则对应的概率数值;
第三获取单元,用于根据所述第二翻译规则对应的概率数值对所述第二翻译规则进行压缩,获取第三翻译规则;
所述第二获取单元,具体用于:
根据所述第三翻译规则和所述语句获得翻译结果。
结合第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,所述第二翻译规则对应的概率数值包括正向短语翻译概率、反向短语翻译概率、正向词汇翻译概率和反向词汇翻译概率;
所述第三获取单元具体用于:
将所述第二翻译规则对应的正向短语翻译概率、反向短语翻译概率、正向词汇翻译概率和反向词汇翻译概率分别和所述正向短语翻译概率对应的分数、反向短语翻译概率对应的分数、正向词汇翻译概率对应的分数和反向词汇翻译概率对应的分数相乘,将相乘获得的积累加为第一概率值;
根据所述第一概率值和预设的聚类方法获取第一码表;
所述第二获取单元具体用于:
根据所述第一码表和所述语句获得翻译结果。
结合第二方面,在第二方面的第三种可能的实现方式中,所述装置还包括第四获取单元,
所述第四获取单元,用于获取强制解码的结果;当强制解码成功时,根据所述强制解码的结果获取K个推导树对应的规则信息,K为正整数;
所述将强制解码所述语句时使用到的翻译规则组合为第一标准推导集包括:
将所述K个推导树对应的规则信息设置为第一标准推导集。
结合第二方面的第三种可能的实现方式,在第二方面的第四种可能的实现方式中,所述第四获取单元还用于:
当强制解码失败时,则获取强制解码失败时生成的推导树中的根节点到子节点的规则信息;
所述第一获取单元还用于将所述根节点到子节点的规则信息设置为第一标准推导集。
本发明通过确定待翻译数据中的每个语句;获取所述语句的第一标准推导集,所述第一标准推导集至少包括所述第一翻译规则的频度信息,所述频度信息为强制解码所述语句时使用所述第一翻译规则的次数;根据所述第一翻译规则的频度信息对所述第一标准推导集进行过滤,获得第二标准推导集;根据所述第二标准推导集和所述待翻译数据获取翻译结果,从而仅占用少量的计算资源实现语言翻译,替用户节约获取翻译的成本,提高移动终端的用户体验。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种机器翻译的方法流程图;
图2至图4是本发明实施例提供的一种推导树的结构图;
图5是本发明实施例提供的一种基于强制解码的低频规则过滤的方法示意图;
图6是本发明实施例提供的一种规则压缩的方法示意图;
图7是本发明实施例提供的一种机器翻译的装置结构图;
图8是本发明实施例提供的一种机器翻译的装置结构图;
图9是本发明实施例提供的一种机器翻译的装置结构图;
图10是本发明实施例提供的一种机器翻译的装置结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参考图1,图1是本发明实施例提供的一种机器翻译的方法流程图。如图1所示,所述方法包括以下步骤:
步骤101,确定待翻译数据中的每个语句;
步骤102,获取所述语句的第一标准推导集,所述第一标准推导集至少包括所述第一翻译规则的频度信息,所述频度信息为强制解码所述语句时使用所述第一翻译规则的次数;
可选地,所述获取所述语句的第一标准推导集,包括:
根据统计的机器翻译的方法和所述语句获取规则表Ta,所述规则表Ta包括各个翻译规则和所述翻译规则的频度信息;
根据所述翻译规则和所述翻译规则的频度信息对所述语句进行强制解码;
将强制解码所述语句时使用到的翻译规则组合为第一标准推导集。
所述根据所述翻译规则和所述翻译规则的频度信息对所述语句进行强制解码之后,还包括:
获取强制解码的结果;
当强制解码成功时,根据所述强制解码的结果获取K个推导树对应的规则信息,K为正整数;
所述将强制解码所述语句时使用到的翻译规则组合为第一标准推导集包括:
将所述K个推导树对应的规则信息设置为第一标准推导集。
所述获取强制解码的结果之后,还包括:
当强制解码失败时,则获取强制解码失败时生成的推导树中的根节点到子节点的规则信息;
将所述根节点到子节点的规则信息设置为第一标准推导集。
其中,所述统计的机器翻译的方法(statistical machine translation)是现有技术中常用的一种翻译方法。
具体的,假定第一标准推导集中的规则如表1所示,并且给定训练语料中的一个对齐的双语句对的源语言f为“电脑和手机是上个世纪的发明”,目标语言e为“Computers andcell phones are the invention of the last century”。所述规则的源语言和目标语言如下表1所示:
表1
对于一条规则“<X1是X2,X1 is X2>”,其中“X1是X2”称为规则的源语言,“X1 isX2”称为规则的目标语言,X表示泛化的变量,下标表示变量替换时的对应关系。
参考图2-图4的推导树,结点S表示一颗推导树的起点,X表示推导所用的规则,为了统计方便,所有用到的规则,均以用规则的编号作好了标注。各个规则在前3个标准推导中的频度统计信息如下表2所示,根据表2可以从Ta生成Tb。
规则 | 在3-best标准推导集上规则的频度 |
R1 | 2 |
R2 | 2 |
R3 | 1 |
R4 | 3 |
R5 | 3 |
R6 | 3 |
R7 | 0 |
R8 | 0 |
R9 | 0 |
R10 | 0 |
表2
根据规则表Ta对所述训练语料的每个句对进行强制解码生成K-best标准推导集,其中,K最小为1,最大可以为无穷大。
具体的,对于每一个句子,我们可以参考第一标准推导集,得到相应的翻译结果。在产生翻译结果的过程中,有很多不同的规则组合,可以产生相同的翻译结果。根据概率的不同,可以将这些规则组合排序。所谓的k-best推导集就是选取前k个最好的翻译规则组合。
可选地,在上述实施案例的基础上,通过融入标准推导集上的规则概率特征,进行重新训练。以源语言短语f到目标语言e为例,翻译概率P(e|f)的最大似然估计为:
这种评估方式考虑了语料库上的e和f的所有互译次数,并且考虑语料库中所有跟f互译的短语e’。本实例中在原始的计算上加入两个新的概率特征,这些概率特征只在强制解码所得到的标准推导集中统计,标准推导集中的翻译概率Pgd(e|f)的计算公式为:
从目标语言e到f的翻译概率Pgd(f|e)的计算方式与之类似。
步骤103,根据所述第一翻译规则的频度信息对所述第一标准推导集进行过滤,获得第二标准推导集;
具体的,参考表2,例如将过滤的频度的阈值设置为1(包括频度1),剩下的规则为R1、R2、R4、R5、R6,过滤掉的规则为R3、R7、R8、R9、R10。R8是一条错误的规则,没有被使用上,所以被过滤。R9和R10虽然是正确的规则,但是不符合本句话翻译的语义,也被过滤掉了。R7虽然是正确且语义相符合的规则,但是由于不符合强制解码的条件,所以被过滤掉了。R3虽然正确、符合语义也满足强制解码的条件,但是由于出现的频度较低,所以也被过滤了。R3和R7被过滤,并不会影响翻译的质量,源语言f仍然能够正确地被翻译到e,翻译的推导仍然能够正常进行。
具体的,参考图5,图5是本发明实施例提供的一种基于强制解码的低频规则过滤的方法示意图。对于给定的初始规则表Ta、翻译模型参数和训练语料,首先判断一个规则是不是能出现在强制推导的标准集中,如果不满足这个条件,那么该规则对应的频度就设为0,如表2的例子所示,有些频度为0的规则就是不满足条件的规则。对于满足条件的所有规则,通过翻译模型的解码算法,不考虑语言模型的得分,生成前k个较好的标准推导集。如果由于剪枝等原因,造成了强制解码失败,那么此时须采用回退策略,回退倒能够覆盖源语言词数最多的部分标准推导。强制解码完后,对规则的频度进行统计,依次判断每一条规则是否在标准推导集中常见。对于不常见的规则,那么就过滤掉。而剩下的规则则被保留下来。
可选地,所述第二标准推导集包括第二翻译规则,所述获得第二标准推导集之后,还包括:
确定所述第二翻译规则对应的概率数值;
根据所述第二翻译规则对应的概率数值对所述第二翻译规则进行压缩,获取第三翻译规则;
所述根据所述第二标准推导集和所述待翻译数据获取翻译结果包括:
根据所述第三翻译规则和所述语句获得翻译结果。
可选地,所述根据所述第二翻译规则对应的概率数值对所述第二翻译规则进行压缩,包括:
所述第二翻译规则对应的概率数值包括正向短语翻译概率、反向短语翻译概率、正向词汇翻译概率和反向词汇翻译概率;
将所述第二翻译规则对应的正向短语翻译概率、反向短语翻译概率、正向词汇翻译概率和反向词汇翻译概率分别和所述正向短语翻译概率对应的分数、反向短语翻译概率对应的分数、正向词汇翻译概率对应的分数和反向词汇翻译概率对应的分数相乘,将相乘获得的积累加为第一概率值;
根据所述第一概率值和预设的聚类方法获取第一码表,所述第一码表包括但不限于65536码表;
所述根据所述第三翻译规则和所述语句获得翻译结果,包括:
根据所述第一码表和所述语句获得翻译结果。
其中,所述压缩是指对词语进行数字化的表示,使得占用的空间更小。
例如,假设对于规则R1<手机,cell phones>其翻译模型的分值分别为0、-10.824、-10.2205、-0.847298,翻译模型的权重为0.186212、0.0568202、0.144704、0.0193515,那么预合并的结果为score(R1)=0*0.186212-10.824*0.0568202-10.2205*0.144704-0.847298*0.193515=-2.58。得到预合并的分值之后,原始的4个翻译模型的分值就不用再存储了,在评估规则的翻译模型分数时,仅使用预合并后的结果即可。
首先将所有的分数都放在一起,做一次聚类。聚类的数目为2的16次方(2个字节能放得下),也就是聚成65536个类,每个类有一个中心值,将这65536个值做成一个码表。每个概率存储的时候只存储这个码表的索引,然后从码表中取值。
例如,假设有四条规则R1、R2、R3和R4,其对应的得分为0.1、0.2、0.7和0.8,聚类的数目为2。那么很容易可以得到两个聚类的中心点C1=0.15,C2=0.75。因此R1和R2对应的类别索引为1,分值为0.15,R3和R4对应的类别索引为2,分值为0.75。
预设的聚类方法可采用k-means。由于规则表中的分数值数目量十分庞大,直接的k-means方法在数亿级别的数据中聚类较慢。由于数据是一维的,因此在k-means之前对数据先做了一遍排序。经过预排序后的数据,k-means聚类速度较快。
具体的,参考图6,图6是本发明实施例提供的一种规则压缩的方法示意图。如图6所示,首先利用源语言和目标语言的压缩方法对初始的规则表进行词级的压缩。然后对于规则表中剩余的分数项,首先根据解码过程中的需要判断该分数项是否可以提前跟其他的分数合并,如果可以合并,则将这些分数合并为一个分数。如果不可以合并,则先将该数值项对应的所有分数排序,并进行k-means聚类,聚成65535个类别。根据聚类的信息,将每个数值项对应的类别索引和中心点的分数值记录成码表。生成完码表后,即可利用该码表将对应的数值项转换成对应类别的索引。到此结束压缩的过程。
在解码阶段,对于压缩后的规则表,解码器首先获得的是规则的分数项所在的类别的索引,需要根据该索引获取对应类别的中心点的值,这一点与普通的解码器有所不同。
步骤104,根据所述第二标准推导集和所述待翻译数据获取翻译结果。
本发明结合规则过滤中强制解码方法和频度过滤方法的优点,具体说来指的是根据强制推导所生成的标准推导集上的规则频度进行过滤。其基本原理是假设规则的频度分布在整个训练集的标准推导集上符合长尾定律。少量的规则在标准推导中被反复使用,而且大量的规则在标准推导中被少量使用。标准推导代表了最准确的翻译过程,在标准推导中很难用到的规则,在翻译搜索的空间中也应该很难搜索到。因此将这类翻译模型很难搜索到的规则去掉,既能减少规则表的大小,又对翻译模型的质量影响不大。
同时针对强制解码失败的句对,本发明并不会直接忽略,而是提出一种回退策略进行处理。当强制解码失败的时候,我们将保留其中成功强制解码的最大跨度片段所对应的部分标准推导(Partial Gold Derivation)。
本发明通过确定待翻译数据中的每个语句;获取所述语句的第一标准推导集,所述第一标准推导集至少包括所述第一翻译规则的频度信息,所述频度信息为强制解码所述语句时使用所述第一翻译规则的次数;根据所述第一翻译规则的频度信息对所述第一标准推导集进行过滤,获得第二标准推导集,所述第二标准推导集至少包括所述第二翻译规则的频度信息;根据所述第二标准推导集和所述待翻译数据获取翻译结果,从而仅占用少量的计算资源实现语言翻译,节约计算成本;能轻便地与电话系统、会议系统、手机操作系统、嵌入式操作系统等系统深度集成,为各个系统组件提供智能翻译服务,实现系统级别的“所见即所译”。
参考图7,图7是本发明实施例提供的一种机器翻译的装置结构图。如图7所示,所述装置包括:
第一确定单元701,用于确定待翻译数据中的每个语句;
第一获取单元702,用于获取所述语句的第一标准推导集,所述第一标准推导集至少包括所述第一翻译规则的频度信息,所述频度信息为强制解码所述语句时使用所述第一翻译规则的次数;
可选地,所述第一获取单元702,具体用于:
根据统计的机器翻译的方法和所述语句获取规则表Ta,所述规则表Ta包括各个翻译规则和所述翻译规则的频度信息;
根据所述翻译规则和所述翻译规则的频度信息对所述语句进行强制解码;
将强制解码所述语句时使用到的翻译规则组合为第一标准推导集。
可选地,所述装置还包括:
第四获取单元801,用于获取强制解码的结果;当强制解码成功时,根据所述强制解码的结果获取K个推导树对应的规则信息,K为正整数;
所述第一获取单元702还用于将所述K个推导树对应的规则信息设置为第一标准推导集。
可选地,第四获取单元801还用于:
当强制解码失败时,则获取强制解码失败时生成的推导树中的根节点到子节点的规则信息;
所述第一获取单元702还用于:
将所述根节点到子节点的规则信息设置为第一标准推导集。
具体的,参考表1和表2、图2-图4的描述,在此不再赘述。
过滤单元703,用于根据所述第一翻译规则的频度信息对所述第一标准推导集进行过滤,获得第二标准推导集,所述第二标准推导集至少包括所述第二翻译规则的频度信息;
具体的,参考图5的描述,在此不再赘述。
可选地,所述装置还包括:
第二确定单元901,用于确定所述第二翻译规则对应的概率数值;
第三获取单元902,用于根据所述第二翻译规则对应的概率数值对所述第二翻译规则进行压缩,获取第三翻译规则;
所述第二获取单元704,用于:
根据所述第三翻译规则和所述语句获得翻译结果。
可选地,所述第二翻译规则对应的概率数值包括正向短语翻译概率、反向短语翻译概率、正向词汇翻译概率和反向词汇翻译概率;
所述第三获取单元902具体用于:
将所述第二翻译规则对应的正向短语翻译概率、反向短语翻译概率、正向词汇翻译概率和反向词汇翻译概率分别和所述正向短语翻译概率对应的分数、反向短语翻译概率对应的分数、正向词汇翻译概率对应的分数和反向词汇翻译概率对应的分数相乘,将相乘获得的积累加为第一概率值;
根据所述第一概率值和聚类的方法获取第一码表,所述第一码表包括但不限于65536码表;
所述第二获取单元704具体用于:
根据所述第一码表和所述语句获得翻译结果。
第二获取单元704,用于根据所述第二标准推导集和所述待翻译数据获取翻译结果。
具体的,参考图6的描述,在此不再赘述。
本发明通过确定待翻译数据中的每个语句;获取所述语句的第一标准推导集,所述第一标准推导集至少包括所述第一翻译规则的频度信息,所述频度信息为强制解码所述语句时使用所述第一翻译规则的次数;根据所述第一翻译规则的频度信息对所述第一标准推导集进行过滤,获得第二标准推导集,所述第二标准推导集至少包括所述第二翻译规则的频度信息;根据所述第二标准推导集和所述待翻译数据获取翻译结果,从而仅占用少量的计算资源实现语言翻译,节约计算成本;能轻便地与电话系统、会议系统、手机操作系统、嵌入式操作系统等系统深度集成,为各个系统组件提供智能翻译服务,实现系统级别的“所见即所译”。
图10是本发明实施例提供的一种机器翻译的装置结构图。参考图10,图10是本发明实施例提供的一种机器翻译的装置1000,本发明具体实施例并不对所述机器翻译的装置的具体实现做限定。所述机器翻译的装置1000包括:
处理器(processor)1001,通信接口(Communications Interface)1002,存储器(memory)1003,总线1004。
处理器1001,通信接口1002,存储器1003通过总线1004完成相互间的通信。
通信接口1002,用于与其他设备进行通信;
处理器1001,用于执行程序。
具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。
处理器1001可能是一个中央处理器(central processing unit,CPU),或者是特定集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器1003,用于存储程序。存储器1003可以是易失性存储器(volatilememory),例如随机存取存储器(random-access memory,RAM),或者非易失性存储器(non-volatile memory),例如只读存储器(read-only memory,ROM),快闪存储器(flashmemory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)。处理器1001根据存储器1003存储的程序指令,执行以下方法:
确定待翻译数据中的每个语句;
获取所述语句的第一标准推导集,所述第一标准推导集至少包括所述第一翻译规则的频度信息,所述频度信息为强制解码所述语句时使用所述第一翻译规则的次数;
根据所述第一翻译规则的频度信息对所述第一标准推导集进行过滤,获得第二标准推导集;
根据所述第二标准推导集和所述待翻译数据获取翻译结果。
所述获得第二标准推导集之后,还包括:
确定所述第二翻译规则对应的概率数值;
根据所述第二翻译规则对应的概率数值对所述第二翻译规则进行压缩,获取第三翻译规则;
所述根据所述第二标准推导集和所述待翻译数据获取翻译结果包括:
根据所述第三翻译规则和所述语句获得翻译结果。
所述获取所述语句的第一标准推导集,包括:
根据统计的机器翻译的方法和所述语句获取规则表Ta,所述规则表Ta包括各个翻译规则和所述翻译规则的频度信息;
根据所述翻译规则和所述翻译规则的频度信息对所述语句进行强制解码;
将强制解码所述语句时使用到的翻译规则组合为第一标准推导集。
所述根据所述翻译规则和所述翻译规则的频度信息对所述语句进行强制解码之后,包括:
获取强制解码的结果;
当强制解码成功时,根据所述强制解码的结果获取K个推导树对应的规则信息,K为正整数;
所述将强制解码所述语句时使用到的翻译规则组合为第一标准推导集包括:
将所述K个推导树对应的规则信息设置为第一标准推导集。
所述获取强制解码的结果之后,还包括:
当强制解码失败时,则获取强制解码失败时生成的推导树中的根节点到子节点的规则信息;
所述将强制解码所述语句时使用到的翻译规则组合为第一标准推导集包括:
将所述根节点到子节点的规则信息设置为第一标准推导集。
所述第二翻译规则对应的概率数值包括正向短语翻译概率、反向短语翻译概率、正向词汇翻译概率和反向词汇翻译概率;
所述根据所述第二翻译规则对应的概率数值对所述第二翻译规则进行压缩,包括:
将所述第二翻译规则对应的正向短语翻译概率、反向短语翻译概率、正向词汇翻译概率和反向词汇翻译概率分别和所述正向短语翻译概率对应的分数、反向短语翻译概率对应的分数、正向词汇翻译概率对应的分数和反向词汇翻译概率对应的分数相乘,将相乘获得的积累加为第一概率值;
根据所述第一概率值和预设的聚类方法获取第一码表,所述第一码表包括但不限于65536码表;
所述根据所述第三翻译规则和所述语句获得翻译结果,包括:
根据所述第一码表和所述语句获得翻译结果。
本发明通过确定待翻译数据中的每个语句;获取所述语句的第一标准推导集,所述第一标准推导集至少包括所述第一翻译规则的频度信息,所述频度信息为强制解码所述语句时使用所述第一翻译规则的次数;根据所述第一翻译规则的频度信息对所述第一标准推导集进行过滤,获得第二标准推导集;根据所述第二标准推导集和所述待翻译数据获取翻译结果,从而仅占用少量的计算资源实现语言翻译,替用户节约获取翻译的成本,提高移动终端的用户体验。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种机器翻译的方法,其特征在于,所述方法包括:
确定待翻译数据中的每个语句;
根据统计的机器翻译的方法和所述语句获取规则表Ta,所述规则表Ta包括各个翻译规则和所述翻译规则的频度信息;
根据所述规则表Ta包括的所述翻译规则和所述翻译规则的频度信息对所述语句进行强制解码;
将强制解码所述语句时使用到的翻译规则组合为第一标准推导集;所述第一标准推导集至少包括第一翻译规则的频度信息,所述频度信息为强制解码所述语句时使用所述第一翻译规则的次数;
根据所述第一翻译规则的频度信息对所述第一标准推导集进行过滤,获得第二标准推导集;
根据所述第二标准推导集和所述待翻译数据获取翻译结果。
2.根据权利要求1所述的方法,其特征在于,所述第二标准推导集包括第二翻译规则,所述获得第二标准推导集之后,还包括:
确定所述第二翻译规则对应的概率数值;
根据所述第二翻译规则对应的概率数值对所述第二翻译规则进行压缩,获取第三翻译规则;
所述根据所述第二标准推导集和所述待翻译数据获取翻译结果包括:
根据所述第三翻译规则和所述语句获得翻译结果。
3.根据权利要求2所述的方法,其特征在于,所述第二翻译规则对应的概率数值包括正向短语翻译概率、反向短语翻译概率、正向词汇翻译概率和反向词汇翻译概率;
所述根据所述第二翻译规则对应的概率数值对所述第二翻译规则进行压缩,获取第三翻译规则包括:
将所述第二翻译规则对应的正向短语翻译概率、反向短语翻译概率、正向词汇翻译概率和反向词汇翻译概率分别和所述正向短语翻译概率对应的分数、反向短语翻译概率对应的分数、正向词汇翻译概率对应的分数和反向词汇翻译概率对应的分数相乘,将相乘获得的积累加为第一概率值;
根据所述第一概率值和预设的聚类方法获取第一码表;
所述根据所述第三翻译规则和所述语句获得翻译结果,包括:
根据所述第一码表和所述语句获得翻译结果。
4.根据权利要求1所述的方法,其特征在于,所述根据所述规则表Ta包括的所述翻译规则和所述翻译规则的频度信息对所述语句进行强制解码之后,还包括:
获取强制解码的结果;
当强制解码成功时,根据所述强制解码的结果获取K个推导树对应的规则信息,K为正整数;
所述将强制解码所述语句时使用到的翻译规则组合为第一标准推导集包括:
将所述K个推导树对应的规则信息设置为第一标准推导集。
5.根据权利要求4所述的方法,其特征在于,所述获取强制解码的结果之后,还包括:
当强制解码失败时,则获取强制解码失败时生成的推导树中的根节点到子节点的规则信息;
所述将强制解码所述语句时使用到的翻译规则组合为第一标准推导集包括:
将所述根节点到子节点的规则信息设置为第一标准推导集。
6.一种机器翻译的装置,其特征在于,所述装置包括:
第一确定单元,用于确定待翻译数据中的每个语句;
第一获取单元,用于根据统计的机器翻译的方法和所述语句获取规则表Ta,所述规则表Ta包括各个翻译规则和所述翻译规则的频度信息;以及用于根据所述规则表Ta包括的所述翻译规则和所述翻译规则的频度信息对所述语句进行强制解码;还用于将强制解码所述语句时使用到的翻译规则组合为第一标准推导集,所述第一标准推导集至少包括第一翻译规则的频度信息,所述频度信息为强制解码所述语句时使用所述第一翻译规则的次数;
过滤单元,用于根据所述第一翻译规则的频度信息对所述第一标准推导集进行过滤,获得第二标准推导集;
第二获取单元,用于根据所述第二标准推导集和所述待翻译数据获取翻译结果。
7.根据权利要求6所述的装置,其特征在于,所述第二标准推导集包括第二翻译规则,所述装置还包括:
第二确定单元,用于确定所述第二翻译规则对应的概率数值;
第三获取单元,用于根据所述第二翻译规则对应的概率数值对所述第二翻译规则进行压缩,获取第三翻译规则;
所述第二获取单元,具体用于:
根据所述第三翻译规则和所述语句获得翻译结果。
8.根据权利要求7所述的装置,其特征在于,所述第二翻译规则对应的概率数值包括正向短语翻译概率、反向短语翻译概率、正向词汇翻译概率和反向词汇翻译概率;
所述第三获取单元具体用于:
将所述第二翻译规则对应的正向短语翻译概率、反向短语翻译概率、正向词汇翻译概率和反向词汇翻译概率分别和所述正向短语翻译概率对应的分数、反向短语翻译概率对应的分数、正向词汇翻译概率对应的分数和反向词汇翻译概率对应的分数相乘,将相乘获得的积累加为第一概率值;
根据所述第一概率值和预设的聚类方法获取第一码表;
所述第二获取单元具体用于:
根据所述第一码表和所述语句获得翻译结果。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括第四获取单元,
所述第四获取单元,用于获取强制解码的结果,当强制解码成功时,根据所述强制解码的结果获取K个推导树对应的规则信息,K为正整数;
所述第一获取单元还用于将所述K个推导树对应的规则信息设置为第一标准推导集。
10.根据权利要求9所述的装置,其特征在于,所述第四获取单元还用于:
当强制解码失败时,则获取强制解码失败时生成的推导树中的根节点到子节点的规则信息;
所述第一获取单元还用于将所述根节点到子节点的规则信息设置为第一标准推导集。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410192917.6A CN105095193B (zh) | 2014-05-08 | 2014-05-08 | 一种机器翻译的方法及其设备 |
PCT/CN2014/094507 WO2015169091A1 (zh) | 2014-05-08 | 2014-12-22 | 一种机器翻译的方法及其设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410192917.6A CN105095193B (zh) | 2014-05-08 | 2014-05-08 | 一种机器翻译的方法及其设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105095193A CN105095193A (zh) | 2015-11-25 |
CN105095193B true CN105095193B (zh) | 2018-02-16 |
Family
ID=54392097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410192917.6A Active CN105095193B (zh) | 2014-05-08 | 2014-05-08 | 一种机器翻译的方法及其设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN105095193B (zh) |
WO (1) | WO2015169091A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859996B (zh) * | 2020-06-16 | 2024-03-26 | 北京百度网讯科技有限公司 | 机器翻译模型的训练方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101989287A (zh) * | 2009-07-31 | 2011-03-23 | 富士通株式会社 | 生成用于基于统计的机器翻译的规则的方法和设备 |
CN103092830A (zh) * | 2011-10-28 | 2013-05-08 | 北京百度网讯科技有限公司 | 一种调序规则获取方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101398815B (zh) * | 2008-06-13 | 2011-02-16 | 中国科学院计算技术研究所 | 一种机器翻译方法 |
CN101989257A (zh) * | 2009-07-31 | 2011-03-23 | 中国科学院计算技术研究所 | 基于树到树翻译模型的翻译规则抽取方法和翻译方法 |
US9552355B2 (en) * | 2010-05-20 | 2017-01-24 | Xerox Corporation | Dynamic bi-phrases for statistical machine translation |
US20130311166A1 (en) * | 2012-05-15 | 2013-11-21 | Andre Yanpolsky | Domain-Specific Natural-Language Processing Engine |
-
2014
- 2014-05-08 CN CN201410192917.6A patent/CN105095193B/zh active Active
- 2014-12-22 WO PCT/CN2014/094507 patent/WO2015169091A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101989287A (zh) * | 2009-07-31 | 2011-03-23 | 富士通株式会社 | 生成用于基于统计的机器翻译的规则的方法和设备 |
CN103092830A (zh) * | 2011-10-28 | 2013-05-08 | 北京百度网讯科技有限公司 | 一种调序规则获取方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于翻译日志的统计机器翻译模型剪枝;刘凯 等;《北京大学学报(自然科学版)》;20140131;第50卷(第1期);第168页第1节-第2.1节、第171页第3.2-3.3节 * |
Also Published As
Publication number | Publication date |
---|---|
CN105095193A (zh) | 2015-11-25 |
WO2015169091A1 (zh) | 2015-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI677796B (zh) | 自然語言的語義提取方法及裝置和電腦儲存介質 | |
CN108959256B (zh) | 短文本的生成方法、装置、存储介质和终端设备 | |
CN103577989B (zh) | 一种基于产品识别的信息分类方法及信息分类系统 | |
CN105608218A (zh) | 智能问答知识库的建立方法、建立装置及建立系统 | |
CN104503958A (zh) | 文档摘要的生成方法及装置 | |
US11507743B2 (en) | System and method for automatic key phrase extraction rule generation | |
CN107273474A (zh) | 基于潜在语义分析的自动摘要抽取方法及系统 | |
CN102073704B (zh) | 文本分类处理方法和系统以及设备 | |
CN102609500A (zh) | 一种问题推送方法和采用该方法的问答系统和搜索引擎 | |
CN108491512A (zh) | 新闻标题的摘要方法及装置 | |
CN108399265A (zh) | 基于搜索的实时热点新闻提供方法及装置 | |
CN111767394A (zh) | 一种基于人工智能专家系统的摘要提取方法及装置 | |
CN104778157A (zh) | 一种多文档摘要句的生成方法 | |
CN110929022A (zh) | 一种文本摘要生成方法及系统 | |
CN108470026A (zh) | 新闻标题的句子主干内容提取方法及装置 | |
CN108363700A (zh) | 新闻标题的质量评估方法及装置 | |
CN106484660A (zh) | 标题处理方法和装置 | |
CN114141235A (zh) | 语音语料库生成方法、装置、计算机设备和存储介质 | |
CN105095193B (zh) | 一种机器翻译的方法及其设备 | |
CN110019556A (zh) | 一种话题新闻获取方法、装置及其设备 | |
CN112836525A (zh) | 一种基于人机交互机器翻译系统及其自动优化方法 | |
CN108475265B (zh) | 获取未登录词的方法与装置 | |
CN115169368B (zh) | 基于多文档的机器阅读理解方法及装置 | |
CN112115237B (zh) | 烟草科技文献数据推荐模型的构建方法及装置 | |
CN107590163B (zh) | 文本特征选择的方法、装置和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |