CN104978309A - 一种翻译异常的确定方法和设备 - Google Patents

一种翻译异常的确定方法和设备 Download PDF

Info

Publication number
CN104978309A
CN104978309A CN201410148947.7A CN201410148947A CN104978309A CN 104978309 A CN104978309 A CN 104978309A CN 201410148947 A CN201410148947 A CN 201410148947A CN 104978309 A CN104978309 A CN 104978309A
Authority
CN
China
Prior art keywords
pages
content
language
ratio
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410148947.7A
Other languages
English (en)
Other versions
CN104978309B (zh
Inventor
丁世远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Singapore Holdings Pte Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201410148947.7A priority Critical patent/CN104978309B/zh
Publication of CN104978309A publication Critical patent/CN104978309A/zh
Application granted granted Critical
Publication of CN104978309B publication Critical patent/CN104978309B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本申请公开了一种翻译异常的确定方法和设备,该方法包括:服务器将页面内容翻译成第一语言的页面内容和第二语言的页面内容,确定第一语言的页面内容的长度和第二语言的页面内容的长度;从词汇库中获取第一语言的页面内容的总长度和第二语言的页面内容的总长度;计算第一语言的页面内容的长度与第二语言的页面内容的长度之间的第一比例,并计算第一语言的页面内容的总长度与第二语言的页面内容的总长度之间的第二比例;利用第一比例和第二比例确定第一语言的页面内容和/或第二语言的页面内容,发生翻译异常或者未发生翻译异常。本申请实施例中,避免人工查看是否发生翻译异常,提高翻译异常的确定效率,并且准确识别出翻译异常的现象。

Description

一种翻译异常的确定方法和设备
技术领域
本申请涉及通信技术领域,尤其涉及一种翻译异常的确定方法和设备。
背景技术
在多语言网站中,页面内容通常被翻译成不同语言的页面内容,并在多语言网站上显示不同语言的页面内容。其中,不同语言的页面内容所要表达的意思相同,只是页面内容所使用的语言不同。在将页面内容翻译成不同语言的页面内容时,一般有机器翻译和人工翻译等两种翻译方式,在这两种翻译方式中,都可能出现翻译异常的现象。比如:在将页面内容翻译成某种语言的页面内容时,页面内容中的某段文本少提交了一段或者多提交了一段。
现有技术中,为了检查翻译过程中是否发生翻译异常,目前的检查方式是:人工查看某种语言的页面内容中是否发生翻译异常,如人工检查该种语言的页面内容中的某段文本是否少提交了一段或者多提交了一段。
上述方式的效率很低,而且可能无法识别出翻译异常的现象。例如,对于有几十万个子页面的大型网站,人工逐一查看某种语言的页面内容是否发生翻译异常时,需要花费的时间很长,效率很低;如果测试人员对这种语言不是很精通,则可能无法识别出该种语言的页面内容中是否发生翻译异常。
发明内容
本申请实施例提供一种翻译异常的确定方法和设备,以避免人工查看某种语言的页面内容中是否发生翻译异常,从而提高翻译异常的确定效率。
为了达到上述目的,本申请实施例提供了一种翻译异常的确定方法,所述方法包括以下步骤:服务器将页面内容翻译成第一语言的页面内容和第二语言的页面内容,并确定所述第一语言的页面内容的长度和所述第二语言的页面内容的长度;所述服务器从词汇库中获取第一语言的页面内容的总长度和第二语言的页面内容的总长度;其中,所述词汇库中记录了未发生翻译异常的页面内容在第一语言下的长度以及未发生翻译异常的页面内容在第二语言下的长度;所述服务器计算所述第一语言的页面内容的长度与所述第二语言的页面内容的长度之间的第一比例,以及,所述服务器计算所述第一语言的页面内容的总长度与所述第二语言的页面内容的总长度之间的第二比例;所述服务器利用所述第一比例和所述第二比例确定所述第一语言的页面内容和/或第二语言的页面内容,发生翻译异常或者未发生翻译异常。
优选的,本申请实施例中,针对每种页面场景,所述词汇库中记录了该页面场景下的未发生翻译异常的页面内容在第一语言下的长度和未发生翻译异常的页面内容在第二语言下的长度;所述服务器从词汇库中获取第一语言的页面内容的总长度和第二语言的页面内容的总长度,具体包括:
所述服务器确定所述页面内容对应的页面场景;如果所述词汇库中有所述页面内容对应的页面场景,则从词汇库中获取所述页面内容对应的页面场景下的第一语言的页面内容的总长度和第二语言的页面内容的总长度;如果所述词汇库中没有所述页面内容对应的页面场景,则从词汇库中获取所有页面场景下的第一语言的页面内容的总长度和第二语言的页面内容的总长度。
优选的,本申请实施例中,所述服务器利用所述第一比例和所述第二比例确定所述第一语言的页面内容和/或第二语言的页面内容,发生翻译异常或者未发生翻译异常的过程中,所述方法具体包括:
在所述词汇库中有所述页面内容对应的页面场景时,如果所述第一比例与第二比例之间的差值的绝对值大于预设第一阈值,则所述服务器确定所述第一语言的页面内容和/或第二语言的页面内容,发生翻译异常;如果所述第一比例与第二比例之间的差值的绝对值不大于预设第一阈值,则所述服务器确定所述第一语言的页面内容和/或第二语言的页面内容,未发生翻译异常;
在所述词汇库中没有所述页面内容对应的页面场景时,如果所述第一比例与第二比例之间的差值的绝对值大于预设第二阈值,则所述服务器确定所述第一语言的页面内容和/或第二语言的页面内容,发生翻译异常;如果所述第一比例与第二比例之间的差值的绝对值不大于预设第二阈值,则所述服务器确定所述第一语言的页面内容和/或第二语言的页面内容,未发生翻译异常。
优选的,本申请实施例中,所述服务器利用所述第一比例和所述第二比例确定所述第一语言的页面内容和/或第二语言的页面内容,发生翻译异常或者未发生翻译异常之后,所述方法进一步包括:
如果所述第一语言的页面内容和/或第二语言的页面内容未发生翻译异常,则所述服务器在所述词汇库中记录所述页面内容对应的所述第一语言的页面内容的长度和所述页面内容对应的所述第二语言的页面内容的长度。
优选的,本申请实施例中,所述第一语言为英语,所述第二语言为以下之一或者任意组合:俄语、法语、德语、日语、韩语、西班牙语;或者,所述第一语言为以下之一或者任意组合:俄语、法语、德语、日语、韩语、西班牙语,所述第二语言为英语;所述页面内容对应的页面场景具体为:产品页面、或者广告页面、或者About页面、或者SU页面。
本申请实施例提供一种服务器,所述服务器具体包括:
确定模块,用于将页面内容翻译成第一语言的页面内容和第二语言的页面内容,并确定第一语言的页面内容的长度和第二语言的页面内容的长度;
获取模块,用于从词汇库中获取第一语言的页面内容的总长度和第二语言的页面内容的总长度;其中,该词汇库中记录了未发生翻译异常的页面内容在第一语言下的长度和未发生翻译异常的页面内容在第二语言下的长度;
计算模块,用于计算所述第一语言的页面内容的长度与所述第二语言的页面内容的长度之间的第一比例,以及,计算所述第一语言的页面内容的总长度与所述第二语言的页面内容的总长度之间的第二比例;
处理模块,用于利用所述第一比例和所述第二比例确定所述第一语言的页面内容和/或第二语言的页面内容,发生翻译异常或者未发生翻译异常。
优选的,本申请实施例中,针对每种页面场景,所述词汇库中记录了所述页面场景下的未发生翻译异常的页面内容在第一语言下的长度和未发生翻译异常的页面内容在第二语言下的长度;
所述获取模块,具体用于确定页面内容对应的页面场景;如果词汇库中有所述页面内容对应的页面场景,则从词汇库中获取所述页面内容对应的页面场景下的第一语言的页面内容的总长度和第二语言的页面内容的总长度;如果词汇库中没有所述页面内容对应的页面场景,则从词汇库中获取所有页面场景下的第一语言的页面内容的总长度和第二语言的页面内容的总长度。
优选的,所述处理模块,具体用于在所述词汇库中有所述页面内容对应的页面场景时,如果所述第一比例与第二比例之间的差值的绝对值大于预设第一阈值,则确定所述第一语言的页面内容和/或第二语言的页面内容,发生翻译异常;如果所述第一比例与第二比例之间的差值的绝对值不大于预设第一阈值,则确定所述第一语言的页面内容和/或第二语言的页面内容,未发生翻译异常;或者,在所述词汇库中没有所述页面内容对应的页面场景时,如果所述第一比例与第二比例之间的差值的绝对值大于预设第二阈值,则确定所述第一语言的页面内容和/或第二语言的页面内容,发生翻译异常;如果所述第一比例与第二比例之间的差值的绝对值不大于预设第二阈值,则确定所述第一语言的页面内容和/或第二语言的页面内容,未发生翻译异常。
所述处理模块,还用于在所述第一语言的页面内容和/或第二语言的页面内容未发生翻译异常时,在词汇库中记录所述页面内容对应的所述第一语言的页面内容的长度和所述页面内容对应的所述第二语言的页面内容的长度。
优选的,本申请实施例中,所述第一语言为英语,所述第二语言为以下之一或任意组合:俄语、法语、德语、日语、韩语、西班牙语;或者,所述第一语言为以下之一或任意组合:俄语、法语、德语、日语、韩语、西班牙语,所述第二语言为英语;所述页面内容对应的页面场景具体为:产品页面、或者广告页面、或者About页面、或者SU页面。
与现有技术相比,本申请实施例至少具有以下优点:本申请实施例中,在将页面内容翻译成第一语言的页面内容和第二语言的页面内容之后,服务器可以通过第一语言的页面内容的长度和第二语言的页面内容的长度,准确的确定第一语言的页面内容和/或第二语言的页面内容,发生翻译异常或者未发生翻译异常,从而避免人工查看某种语言的页面内容中是否发生翻译异常,继而可以提高翻译异常的确定效率,并且可以准确识别出翻译异常的现象。
附图说明
为了更加清楚地说明本申请实施例的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本申请实施例的这些附图获得其他的附图。
图1是本申请实施例一提供的一种翻译异常的确定方法流程图;
图2是本申请实施例二提供的一种服务器的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
针对现有技术中存在的问题,本申请实施例一提供一种翻译异常的确定方法,如图1所示,该翻译异常的确定方法具体可以包括以下步骤:
步骤101,服务器维护词汇库,该词汇库中记录了未发生翻译异常的页面内容在各种语言下的长度。其中,语言包括但不限于以下之一或者任意组合:英语、俄语、法语、德语、日语、韩语、西班牙语;当然,在实际应用中并不局限于上述语言,例如该语言还可以为汉语等其它语言,在此不再赘述。
针对多语言网站,由于服务器能够获得所有被翻译成不同语言的页面内容,因此服务器可获得所有未发生翻译异常的页面内容(多语言网站上显示的页面内容)在各种语言下的长度,并基于此维护词汇库。如表1所示,为记录了未发生翻译异常的页面内容在各种语言下的长度的词汇库的示例。
表1
页面内容 英语 俄语 法语 德语 日语
1 5000 4500 4600 4700 4800
2 5100 4600 4700 4800 4900
3 5200 4700 4800 4900 5000
步骤102,服务器将页面内容翻译成第一语言的页面内容和第二语言的页面内容,并确定第一语言的页面内容的长度和第二语言的页面内容的长度。
针对当前需要在多语言网站上显示的页面内容,服务器需要将该页面内容翻译成第一语言的页面内容和第二语言的页面内容。其中,该第一语言为英语,该第二语言为以下之一或者任意组合:俄语、法语、德语、日语、韩语、西班牙语;或者,该第一语言为以下之一或者任意组合:俄语、法语、德语、日语、韩语、西班牙语,该第二语言为英语。为了方便描述,后续以第一语言为俄语、法语、德语、日语,第二语言为英语为例进行说明。
服务器在将页面内容翻译成第一语言的页面内容和第二语言的页面内容时,可以采用机器翻译或者人工翻译等翻译方式,该翻译过程在此不再赘述。进一步的,服务器将页面内容翻译成第一语言的页面内容和第二语言的页面内容之后,可以直接确定出第一语言(俄语、法语、德语、日语)的页面内容的长度和第二语言(英语)的页面内容的长度。例如,服务器确定俄语的页面内容的长度为4800,法语的页面内容的长度为4900,德语的页面内容的长度为5000,日语的页面内容的长度为5100,英语的页面内容的长度为5300。
步骤103,服务器从词汇库中获取第一语言的页面内容的总长度和第二语言的页面内容的总长度;其中,该词汇库中记录了未发生翻译异常的页面内容在第一语言下的长度和未发生翻译异常的页面内容在第二语言下的长度。
针对第一语言(俄语、法语、德语、日语)和第二语言(英语),服务器从表1的词汇库中获取俄语的页面内容的总长度为13800(4500+4600+4700),从表1的词汇库中获取法语的页面内容的总长度为14100(4600+4700+4800),从表1的词汇库中获取德语的页面内容的总长度为14400(4700+4800+4900),从表1的词汇库中获取日语的页面内容的总长度为14700(4800+4900+5000),从表1的词汇库中获取英语的页面内容的总长度为15300(5000+5100+5200)。
步骤104,服务器计算第一语言的页面内容的长度(步骤102中确定的长度)与第二语言的页面内容的长度(步骤102中确定的长度)之间的第一比例,并计算第一语言的页面内容的总长度(步骤103中确定的总长度)与第二语言的页面内容的总长度(步骤103中确定的总长度)之间的第二比例。
针对第一语言(俄语、法语、德语、日语)和第二语言(英语),服务器计算俄语的页面内容的长度(4800)与英语的页面内容的长度(5300)之间的第一比例为0.906(4800/5300),计算俄语的页面内容的总长度(13800)与英语的页面内容的总长度(15300)之间的第二比例为0.902(13800/15300)。服务器计算法语的页面内容的长度(4900)与英语的页面内容的长度(5300)之间的第一比例为0.925(4900/5300),计算法语的页面内容的总长度(14100)与英语的页面内容的总长度(15300)之间的第二比例为0.922(14100/15300)。服务器计算德语的页面内容的长度(5000)与英语的页面内容的长度(5300)之间的第一比例为0.943(5000/5300),计算德语的页面内容的总长度(14400)与英语的页面内容的总长度(15300)之间的第二比例为0.941(14400/15300)。服务器计算日语的页面内容的长度(5100)与英语的页面内容的长度(5300)之间的第一比例为0.962(5100/5300),计算日语的页面内容的总长度(14700)与英语的页面内容的总长度(15300)之间的第二比例为0.961(14700/15300)。
步骤105,服务器利用第一比例和第二比例确定第一语言的页面内容和/或第二语言的页面内容,发生翻译异常或者未发生翻译异常。
本申请实施例中,如果第一比例与第二比例之间的差值的绝对值大于预设阈值,服务器确定第一语言的页面内容和/或第二语言的页面内容,发生翻译异常;如果第一比例与第二比例之间的差值的绝对值不大于预设阈值,服务器确定第一语言的页面内容和/或第二语言的页面内容,未发生翻译异常。
假设预设阈值为0.003,则:当第一语言为俄语,第二语言为英语时,第一比例为0.906,第二比例为0.902,此时,第一比例与第二比例之间的差值的绝对值(0.004)大于预设阈值0.003,因此,服务器确定俄语的页面内容和/或英语的页面内容,发生翻译异常;当第一语言为法语,第二语言为英语时,第一比例为0.925,第二比例为0.922,此时,第一比例与第二比例之间的差值的绝对值(0.003)不大于预设阈值0.003,因此,服务器确定法语的页面内容和/或英语的页面内容,未发生翻译异常;当第一语言为德语,第二语言为英语时,第一比例为0.943,第二比例为0.941,此时,第一比例与第二比例之间的差值的绝对值(0.002)不大于预设阈值0.003,因此,服务器确定德语的页面内容和/或英语的页面内容,未发生翻译异常;当第一语言为日语,第二语言为英语时,第一比例为0.962,第二比例为0.961,此时,第一比例与第二比例之间的差值的绝对值(0.001)不大于预设阈值0.003,因此,服务器确定日语的页面内容和/或英语的页面内容,未发生翻译异常。
本申请实施例中,服务器在利用第一比例和第二比例确定第一语言的页面内容和/或第二语言的页面内容,发生翻译异常或者未发生翻译异常之后,如果第一语言的页面内容和/或第二语言的页面内容未发生翻译异常,则服务器还可以在词汇库中记录页面内容对应的第一语言的页面内容的长度以及页面内容对应的第二语言的页面内容的长度。例如,服务器在确定第一语言(俄语、法语、德语、日语)的页面内容和第二语言(英语)的页面内容未发生翻译异常时,则服务器在词汇库中记录的内容可以如表2所示。
表2
页面内容 英语 俄语 法语 德语 日语
1 5000 4500 4600 4700 4800
2 5100 4600 4700 4800 4900
3 5200 4700 4800 4900 5000
4 5300 4800 4900 5000 5100
本申请实施例中,服务器在利用第一比例和第二比例确定第一语言的页面内容和/或第二语言的页面内容,发生翻译异常或者未发生翻译异常之后,如果第一语言的页面内容和/或第二语言的页面内容发生翻译异常,则服务器提示用户对第一语言的页面内容和第二语言的页面内容进行分析,以由用户人工分析出第一语言的页面内容和第二语言的页面内容是否发生翻译异常,并在发生翻译异常时,由用户对异常的内容进行修改,该修改过程不再赘述。
考虑到不同的页面场景下,不同语言的页面内容的长度并不相同。本申请实施例中,针对每种页面场景,服务器在词汇库中记录该页面场景下的未发生翻译异常的页面内容在第一语言下的长度和未发生翻译异常的页面内容在第二语言下的长度。其中,页面内容对应的页面场景具体包括但不限于:产品页面、广告页面、About(关于)页面、SU页面。基于此,针对表1所示的词汇库,则服务器维护的针对页面场景的词汇库可以如表3所示。
表3
基于此针对页面场景的词汇库,在步骤101中,维护的词汇库为针对页面场景的词汇库,如服务器可以维护表3所示的针对页面场景的词汇库。
在步骤102中,服务器在将页面内容翻译成第一语言的页面内容和第二语言的页面内容之后,还需要确定该页面内容对应的页面场景。
在步骤103中,服务器在从词汇库中获取第一语言的页面内容的总长度和第二语言的页面内容的总长度的过程中,如果词汇库中有该页面内容对应的页面场景,则服务器可以从词汇库中获取该页面内容对应的页面场景下的第一语言的页面内容的总长度和第二语言的页面内容的总长度;如果词汇库中没有该页面内容对应的页面场景,则服务器可以从词汇库中获取所有页面场景下的第一语言的页面内容的总长度和第二语言的页面内容的总长度。
例如,在页面内容对应的页面场景为产品页面时,由于词汇库中有产品页面,因此服务器从词汇库中获取该产品页面下的第一语言的页面内容的总长度(如俄语的页面内容的总长度为4500)和第二语言的页面内容的总长度(如英语的页面内容的总长度为5000)。在页面内容对应的页面场景为广告页面时,由于词汇库中有广告页面,因此服务器从词汇库中获取该广告页面下的第一语言的页面内容的总长度(如俄语的页面内容的总长度为4600+4700)和第二语言的页面内容的总长度(如英语的页面内容的总长度为5100+5200)。在页面内容对应的页面场景为About页面时,由于词汇库中没有About(关于)页面,因此服务器从词汇库中获取所有页面场景下的第一语言的页面内容的总长度(如俄语的页面内容的总长度为4500+4600+4700)和第二语言的页面内容的总长度(如英语的页面内容的总长度为5000+5100+5200)。
在步骤104中,服务器计算第一语言的页面内容的长度与第二语言的页面内容的长度之间的第一比例,以及,服务器计算第一语言的页面内容的总长度(即页面内容对应的页面场景下的第一语言的页面内容的总长度或者所有页面场景下的第一语言的页面内容的总长度)与第二语言的页面内容的总长度(即页面内容对应的页面场景下的第二语言的页面内容的总长度或者所有页面场景下的第二语言的页面内容的总长度)之间的第二比例。
在步骤105中,服务器在利用第一比例和第二比例确定第一语言的页面内容和/或第二语言的页面内容,发生翻译异常或者未发生翻译异常的过程中,在词汇库中有页面内容对应的页面场景时,如果第一比例与第二比例之间的差值的绝对值大于预设第一阈值,则服务器确定第一语言的页面内容和/或第二语言的页面内容,发生翻译异常;如果第一比例与第二比例之间的差值的绝对值不大于预设第一阈值,则服务器确定第一语言的页面内容和/或第二语言的页面内容,未发生翻译异常;或者,在词汇库中没有页面内容对应的页面场景时,如果第一比例与第二比例之间的差值的绝对值大于预设第二阈值,则服务器确定第一语言的页面内容和/或第二语言的页面内容,发生翻译异常;如果第一比例与第二比例之间的差值的绝对值不大于预设第二阈值,则服务器确定第一语言的页面内容和/或第二语言的页面内容,未发生翻译异常。
其中,预设第一阈值和预设第二阈值均可以根据实际需要进行设置,该设置过程不再详加赘述;预设第一阈值可以大于预设第二阈值,或者预设第一阈值可以等于预设第二阈值,或者预设第一阈值可以小于预设第二阈值。
在本申请的上述实施例中,页面内容的长度的单位可以为单词数量,如英语的页面内容的长度为5000时,表示英语的页面内容的长度为5000个单词;当然,页面内容的长度的单位并不局限于单词数量,该页面内容的长度的单位还可以为字符数量,如英语的页面内容的长度为5000时,表示英语的页面内容的长度为5000个字符。其中,针对同一页面内容的长度,以单词数量为单位的页面内容的长度会明显小于以字符数量为单位的页面内容的长度,本领域技术人员可以根据实际需要选择单词数量或字符数量作为页面内容的长度的单位;例如,针对Good Time,其单词数量为2,其字符数量为8。
综上所述,本申请实施例中,服务器在将页面内容翻译成第一语言的页面内容和第二语言的页面内容之后,服务器可以通过第一语言的页面内容的长度和第二语言的页面内容的长度,准确的确定第一语言的页面内容和/或第二语言的页面内容,发生翻译异常或者未发生翻译异常,并在发生翻译异常时进行人工修复,从而避免人工查看某种语言的页面内容中是否发生翻译异常,继而可以提高翻译异常的确定效率,并可以准确识别出翻译异常的现象。
实施例二
基于与上述方法同样的申请构思,本申请实施例中还提供了一种服务器,如图2所示,所述服务器具体包括:
确定模块11,用于将页面内容翻译成第一语言的页面内容和第二语言的页面内容,并确定第一语言的页面内容的长度和第二语言的页面内容的长度;
获取模块12,用于从词汇库中获取第一语言的页面内容的总长度和第二语言的页面内容的总长度;其中,词汇库中记录了未发生翻译异常的页面内容在第一语言下的长度和未发生翻译异常的页面内容在第二语言下的长度;
计算模块13,用于计算所述第一语言的页面内容的长度与所述第二语言的页面内容的长度之间的第一比例,以及,计算所述第一语言的页面内容的总长度与所述第二语言的页面内容的总长度之间的第二比例;
处理模块14,用于利用所述第一比例和所述第二比例确定所述第一语言的页面内容和/或第二语言的页面内容,发生翻译异常或者未发生翻译异常。
针对每种页面场景,词汇库中记录了页面场景下的未发生翻译异常的页面内容在第一语言下的长度和未发生翻译异常的页面内容在第二语言下的长度;所述获取模块12,具体用于确定页面内容对应的页面场景;如果词汇库中有所述页面内容对应的页面场景,从词汇库中获取所述页面内容对应的页面场景下的第一语言的页面内容的总长度和第二语言的页面内容的总长度;如果词汇库中没有所述页面内容对应的页面场景,从词汇库中获取所有页面场景下的第一语言的页面内容的总长度和第二语言的页面内容的总长度。
所述处理模块14,具体用于在所述词汇库中有所述页面内容对应的页面场景时,如果所述第一比例与第二比例之间的差值的绝对值大于预设第一阈值,则确定所述第一语言的页面内容和/或第二语言的页面内容,发生翻译异常;如果所述第一比例与第二比例之间的差值的绝对值不大于预设第一阈值,则确定所述第一语言的页面内容和/或第二语言的页面内容,未发生翻译异常;
或者,在所述词汇库中没有所述页面内容对应的页面场景时,如果所述第一比例与第二比例之间的差值的绝对值大于预设第二阈值,则确定所述第一语言的页面内容和/或第二语言的页面内容,发生翻译异常;如果所述第一比例与第二比例之间的差值的绝对值不大于预设第二阈值,则确定所述第一语言的页面内容和/或第二语言的页面内容,未发生翻译异常。
所述处理模块14,还用于在第一语言的页面内容和/或第二语言的页面内容未发生翻译异常时,在词汇库中记录所述页面内容对应的所述第一语言的页面内容的长度和所述页面内容对应的所述第二语言的页面内容的长度。
优选的,本申请实施例中,所述第一语言为英语,所述第二语言为以下之一或任意组合:俄语、法语、德语、日语、韩语、西班牙语;或者,所述第一语言为以下之一或任意组合:俄语、法语、德语、日语、韩语、西班牙语,所述第二语言为英语;所述页面内容对应的页面场景具体为:产品页面、或者广告页面、或者About页面、或者SU页面。
其中,本申请装置的各个模块可以集成于一体,也可以分离部署。上述模块可以合并为一个模块,也可以进一步拆分成多个子模块。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本申请所必须的。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
以上公开的仅为本申请的几个具体实施例,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (10)

1.一种翻译异常的确定方法,其特征在于,所述方法包括:
服务器将页面内容翻译成第一语言的页面内容和第二语言的页面内容,并确定所述第一语言的页面内容的长度和所述第二语言的页面内容的长度;
所述服务器从词汇库中获取第一语言的页面内容的总长度和第二语言的页面内容的总长度;其中,所述词汇库中记录了未发生翻译异常的页面内容在第一语言下的长度以及未发生翻译异常的页面内容在第二语言下的长度;
所述服务器计算所述第一语言的页面内容的长度与所述第二语言的页面内容的长度之间的第一比例,以及,所述服务器计算所述第一语言的页面内容的总长度与所述第二语言的页面内容的总长度之间的第二比例;
所述服务器利用所述第一比例和所述第二比例确定所述第一语言的页面内容和/或第二语言的页面内容,发生翻译异常或者未发生翻译异常。
2.如权利要求1所述的方法,其特征在于,针对每种页面场景,词汇库中记录了该页面场景下的未发生翻译异常的页面内容在第一语言下的长度和未发生翻译异常的页面内容在第二语言下的长度;所述服务器从词汇库中获取第一语言的页面内容的总长度和第二语言的页面内容的总长度,具体包括:
所述服务器确定所述页面内容对应的页面场景;如果所述词汇库中有所述页面内容对应的页面场景,则从词汇库中获取所述页面内容对应的页面场景下的第一语言的页面内容的总长度和第二语言的页面内容的总长度;如果所述词汇库中没有所述页面内容对应的页面场景,则从词汇库中获取所有页面场景下的第一语言的页面内容的总长度和第二语言的页面内容的总长度。
3.如权利要求2所述的方法,其特征在于,所述服务器利用所述第一比例和所述第二比例确定所述第一语言的页面内容和/或第二语言的页面内容,发生翻译异常或者未发生翻译异常的过程中,所述方法具体包括:
在所述词汇库中有所述页面内容对应的页面场景时,如果所述第一比例与第二比例之间的差值的绝对值大于预设第一阈值,则所述服务器确定所述第一语言的页面内容和/或第二语言的页面内容,发生翻译异常;如果所述第一比例与第二比例之间的差值的绝对值不大于预设第一阈值,则所述服务器确定所述第一语言的页面内容和/或第二语言的页面内容,未发生翻译异常;
在所述词汇库中没有所述页面内容对应的页面场景时,如果所述第一比例与第二比例之间的差值的绝对值大于预设第二阈值,则所述服务器确定所述第一语言的页面内容和/或第二语言的页面内容,发生翻译异常;如果所述第一比例与第二比例之间的差值的绝对值不大于预设第二阈值,则所述服务器确定所述第一语言的页面内容和/或第二语言的页面内容,未发生翻译异常。
4.如权利要求1所述的方法,其特征在于,所述服务器利用所述第一比例和所述第二比例确定所述第一语言的页面内容和/或第二语言的页面内容,发生翻译异常或者未发生翻译异常之后,所述方法进一步包括:
如果所述第一语言的页面内容和/或第二语言的页面内容未发生翻译异常,则所述服务器在所述词汇库中记录所述页面内容对应的所述第一语言的页面内容的长度和所述页面内容对应的所述第二语言的页面内容的长度。
5.如权利要求1-4任一项所述的方法,其特征在于,所述第一语言为英语,所述第二语言为以下之一或者任意组合:俄语、法语、德语、日语、韩语、西班牙语;或者,所述第一语言为以下之一或者任意组合:俄语、法语、德语、日语、韩语、西班牙语,所述第二语言为英语;所述页面内容对应的页面场景具体为:产品页面、或者广告页面、或者About页面、或者SU页面。
6.一种服务器,其特征在于,所述服务器具体包括:
确定模块,用于将页面内容翻译成第一语言的页面内容和第二语言的页面内容,并确定第一语言的页面内容的长度和第二语言的页面内容的长度;
获取模块,用于从词汇库中获取第一语言的页面内容的总长度和第二语言的页面内容的总长度;其中,该词汇库中记录了未发生翻译异常的页面内容在第一语言下的长度和未发生翻译异常的页面内容在第二语言下的长度;
计算模块,用于计算所述第一语言的页面内容的长度与所述第二语言的页面内容的长度之间的第一比例,以及,计算所述第一语言的页面内容的总长度与所述第二语言的页面内容的总长度之间的第二比例;
处理模块,用于利用所述第一比例和所述第二比例确定所述第一语言的页面内容和/或第二语言的页面内容,发生翻译异常或者未发生翻译异常。
7.如权利要求6所述的服务器,其特征在于,针对每种页面场景,所述词汇库中记录了所述页面场景下的未发生翻译异常的页面内容在第一语言下的长度和未发生翻译异常的页面内容在第二语言下的长度;
所述获取模块,具体用于确定页面内容对应的页面场景;如果词汇库中有所述页面内容对应的页面场景,则从词汇库中获取所述页面内容对应的页面场景下的第一语言的页面内容的总长度和第二语言的页面内容的总长度;如果词汇库中没有所述页面内容对应的页面场景,则从词汇库中获取所有页面场景下的第一语言的页面内容的总长度和第二语言的页面内容的总长度。
8.如权利要求7所述的服务器,其特征在于,
所述处理模块,具体用于在所述词汇库中有所述页面内容对应的页面场景时,如果所述第一比例与第二比例之间的差值的绝对值大于预设第一阈值,则确定所述第一语言的页面内容和/或第二语言的页面内容,发生翻译异常;如果所述第一比例与第二比例之间的差值的绝对值不大于预设第一阈值,则确定所述第一语言的页面内容和/或第二语言的页面内容,未发生翻译异常;
或者,在所述词汇库中没有所述页面内容对应的页面场景时,如果所述第一比例与第二比例之间的差值的绝对值大于预设第二阈值,则确定所述第一语言的页面内容和/或第二语言的页面内容,发生翻译异常;如果所述第一比例与第二比例之间的差值的绝对值不大于预设第二阈值,则确定所述第一语言的页面内容和/或第二语言的页面内容,未发生翻译异常。
9.如权利要求6所述的服务器,其特征在于,
所述处理模块,还用于在所述第一语言的页面内容和/或第二语言的页面内容未发生翻译异常时,在词汇库中记录所述页面内容对应的所述第一语言的页面内容的长度和所述页面内容对应的所述第二语言的页面内容的长度。
10.如权利要求6-9任一项所述的服务器,其特征在于,所述第一语言为英语,所述第二语言为以下之一或任意组合:俄语、法语、德语、日语、韩语、西班牙语;或者,所述第一语言为以下之一或任意组合:俄语、法语、德语、日语、韩语、西班牙语,所述第二语言为英语;所述页面内容对应的页面场景具体为:产品页面、或者广告页面、或者About页面、或者SU页面。
CN201410148947.7A 2014-04-14 2014-04-14 一种翻译异常的确定方法和设备 Active CN104978309B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410148947.7A CN104978309B (zh) 2014-04-14 2014-04-14 一种翻译异常的确定方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410148947.7A CN104978309B (zh) 2014-04-14 2014-04-14 一种翻译异常的确定方法和设备

Publications (2)

Publication Number Publication Date
CN104978309A true CN104978309A (zh) 2015-10-14
CN104978309B CN104978309B (zh) 2018-12-14

Family

ID=54274827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410148947.7A Active CN104978309B (zh) 2014-04-14 2014-04-14 一种翻译异常的确定方法和设备

Country Status (1)

Country Link
CN (1) CN104978309B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111240962A (zh) * 2019-12-31 2020-06-05 中移(杭州)信息技术有限公司 测试方法、装置、计算机设备及计算机存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1641631A (zh) * 2004-01-13 2005-07-20 中国科学院计算技术研究所 一种机器翻译自动评测方法及其系统
CN1928862A (zh) * 2005-09-08 2007-03-14 富士通株式会社 基于数据挖掘获取词或词组单元译文信息的系统和方法
JP3946916B2 (ja) * 1999-10-12 2007-07-18 東芝ソリューション株式会社 翻訳システムおよび記録媒体
CN102262621A (zh) * 2010-05-26 2011-11-30 钟长林 译文检查装置及译文检查方法
WO2012079247A1 (zh) * 2010-12-17 2012-06-21 北京交通大学 机器翻译测评装置及方法
CN103678285A (zh) * 2012-08-31 2014-03-26 富士通株式会社 机器翻译方法和机器翻译系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3946916B2 (ja) * 1999-10-12 2007-07-18 東芝ソリューション株式会社 翻訳システムおよび記録媒体
CN1641631A (zh) * 2004-01-13 2005-07-20 中国科学院计算技术研究所 一种机器翻译自动评测方法及其系统
CN1928862A (zh) * 2005-09-08 2007-03-14 富士通株式会社 基于数据挖掘获取词或词组单元译文信息的系统和方法
CN102262621A (zh) * 2010-05-26 2011-11-30 钟长林 译文检查装置及译文检查方法
WO2012079247A1 (zh) * 2010-12-17 2012-06-21 北京交通大学 机器翻译测评装置及方法
CN103678285A (zh) * 2012-08-31 2014-03-26 富士通株式会社 机器翻译方法和机器翻译系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李雪涛等: "基于Web网页语料构建动态语言模型", 《信息技术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111240962A (zh) * 2019-12-31 2020-06-05 中移(杭州)信息技术有限公司 测试方法、装置、计算机设备及计算机存储介质
CN111240962B (zh) * 2019-12-31 2023-09-05 中移(杭州)信息技术有限公司 测试方法、装置、计算机设备及计算机存储介质

Also Published As

Publication number Publication date
CN104978309B (zh) 2018-12-14

Similar Documents

Publication Publication Date Title
US8990066B2 (en) Resolving out-of-vocabulary words during machine translation
US20090234634A1 (en) Method for Automatically Modifying A Machine Translation and A System Therefor
CN108363634B (zh) 一种业务处理失败原因识别方法、装置及设备
CN105446962B (zh) 原文和译文的对齐方法和装置
US10262043B2 (en) Evaluating quality of annotation
KR101633556B1 (ko) 문법 오류 수정 장치 및 이를 이용한 문법 오류 수정 방법
CN107577663A (zh) 一种关键短语抽取方法和装置
US20130262085A1 (en) Natural language processing apparatus, natural language processing method, natural language processing program, and computer-readable recording medium storing natural language processing program
CN111178098B (zh) 一种文本翻译方法、装置、设备及计算机可读存储介质
Maks et al. Generating Polarity Lexicons with WordNet propagation in five languages
CN111309596A (zh) 数据库测试方法、装置、终端设备及存储介质
CN106933782A (zh) 一种文本资源文件的比对方法及装置
CN106060172A (zh) 判断试题答案的方法和服务器
CN106354731A (zh) 一种文档检查方法及装置
CN104778576A (zh) 一种利用科目余额表自动初始化会计账套的方法
CN104978309A (zh) 一种翻译异常的确定方法和设备
CN104750670A (zh) 页面文案的处理方法及装置
Cahill Parsing learner text: to shoehorn or not to shoehorn
JP6693032B2 (ja) 文章を解析するための方法、プログラムおよびシステム
CN104933030A (zh) 一种维吾尔语拼写检查方法及装置
CN111191440B (zh) 翻译中针对译文的量词纠错方法及系统
Gu et al. Introduction to NJUPT Chinese spelling check systems in CLP-2014 bakeoff
Xu et al. Mining compatible/incompatible entities from question and answering via yes/no answer classification using distant label expansion
KR101763329B1 (ko) 음절 다중 조합 키워드 기반 문형 자동 분류 방법
Kanburoğlu Graph clustering approach to sentiment analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240325

Address after: Singapore

Patentee after: Alibaba Singapore Holdings Ltd.

Country or region after: Singapore

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: ALIBABA GROUP HOLDING Ltd.

Country or region before: Cayman Islands