CN105159891B - 一种构建多语言网站实时翻译的方法 - Google Patents

一种构建多语言网站实时翻译的方法 Download PDF

Info

Publication number
CN105159891B
CN105159891B CN201510475481.6A CN201510475481A CN105159891B CN 105159891 B CN105159891 B CN 105159891B CN 201510475481 A CN201510475481 A CN 201510475481A CN 105159891 B CN105159891 B CN 105159891B
Authority
CN
China
Prior art keywords
translation
cluster
translated
translator
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510475481.6A
Other languages
English (en)
Other versions
CN105159891A (zh
Inventor
张丽
杨晨
贺鹏
褚帆
褚一帆
王炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Focus Technology Co Ltd
Original Assignee
Focus Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Focus Technology Co Ltd filed Critical Focus Technology Co Ltd
Priority to CN201510475481.6A priority Critical patent/CN105159891B/zh
Publication of CN105159891A publication Critical patent/CN105159891A/zh
Application granted granted Critical
Publication of CN105159891B publication Critical patent/CN105159891B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

一种多语言网站实时翻译的方法,1)组建翻译集群方法,所有集群内的翻译机按名称排序,便于监测其状态及出现问题时的排查;按照一定规则,抽取一定数量的翻译机,形成调度翻译集群;剩余的翻译机,按待翻译的语言种类平均分配,形成多个有语言种类特色的独立翻译集群;2)划分待翻译数据块方法,将所有待翻译数据按待翻译的语言种类划分,形成不同语言种类的待翻译数据集合;3)数据块翻译方法,将待翻译数据块发送到对应的独立翻译集群中的翻译机翻译;调度翻译集群判断后协助翻译速度最慢的那个独立翻译集群一起翻译,待调度翻译集群翻译完成后,寻找下一个需要帮助的翻译集群。

Description

一种构建多语言网站实时翻译的方法
技术领域
本发明涉及互联网信息技术领域,具体涉及一种构建多语言网站实时翻译的方法。
背景技术
随着国际化进程的不断加快,机器翻译或机器辅助在线翻译已经公开了极多技术,多语言网站在互联网中的地位日渐突出,伴随而来的是海量数据实时翻译的问题,当前多语言网站实时翻译大多采用将数据均分到不同的翻译机进行翻译的方法。此方法在高并发、数据量大的情况下,翻译延迟现象比较严重,原因主要有两方面:一是数据方面,由于多语言混杂,翻译机需要频繁切换语言接口;二是翻译机本身翻译速度不同,易发生木桶短板效应。
发明内容
为了解决现有的问题,本发明目的是,提出一种多语言网站实时翻译的方法,旨在实现高并发、数据量大的情况下的多语言网站实时翻译。
本发明技术方案是:一种多语言网站实时翻译的方法,通过组建翻译集群、划分待翻译数据块和数据块翻译进行高并发、数据量大情况下的多语言网站实时翻译;
1)组建翻译集群方法,具体步骤如下:
步骤一、所有集群内的翻译机按名称排序,便于监测其状态及出现问题时的排查;
步骤二、按照一定规则,抽取一定数量的翻译机,形成调度翻译集群;
步骤三、剩余的翻译机,按待翻译的语言种类平均分配,形成多个有语言种类特色的独立翻译集群,若为各个独立翻译集群平均分配整数台翻译机后有剩下的余数,再逐个分配,各个语言种类的独立翻译集群的翻译机数量差不超过一台;
2)划分待翻译数据块方法,具体步骤如下:
步骤一、将所有待翻译数据按待翻译的语言种类划分,形成不同语言种类的待翻译数据集合;
步骤二、将各类语言种类的待翻译数据集合,按对应语言种类独立翻译集群的翻译机数量动态平均分配,形成多个待翻译数据块;
3)数据块翻译方法,具体步骤如下:
步骤一、将待翻译数据块发送到对应的独立翻译集群中的翻译机翻译;
步骤二、由于每个独立翻译集群的翻译速度不尽相同,对待翻译数据的处理速度不一样,调度翻译集群会协助翻译速度最慢的那个独立翻译集群一起翻译,待调度翻译集群翻译完成后,寻找下一个需要帮助的翻译集群。
进一步,将翻译机按待翻译的语言种类形成独立翻译集群,大大减少翻译机切换语言的频率,有效地减少翻译机卡机、死机,翻译错位等问题。
2)中步骤二的翻译机数量动态平均分配,具体如下,首先将各类语言的待翻译数据量,按对应语言独立翻译集群的翻译机数量平均分配,若为各个翻译机平均分配整数条数据后有剩下的余数,再逐条分配各个翻译机,各个翻译机的翻译数据量差不超过一条;下一次翻译数据分配前,统计独立翻译集群内各翻译机未翻译完的数据量,再分配,使得每一次分配后,一个独立翻译集群内的各个翻译机的数据量差不超过一条,如此保证所有翻译机的平均翻译速度,提升独立翻译集群的整体翻译速度。
调度翻译集群判断后协助翻译速度最慢的那个独立翻译集群一起翻译,调度翻译集群在翻译时采用翻译机数量动态平均分配的方法,如此提升各个独立翻译集群的翻译速度,使得在数据量大、高并发的情况下,各类语言网站的实时翻译不阻塞。
本发明的有益效果,与现有技术相比,其显著优点为:
(1)将翻译机按待翻译的语言种类形成独立翻译集群,不需频繁切换语言接口,有效地减少翻译机卡机、死机,翻译错位等问题。
(2)按一个独立翻译集群内的各翻译机的翻译速度,动态平均分配翻译数据量,如此保证所有翻译机的平均翻译速度,提升独立翻译集群的整体翻译速度。
(3)设有调度翻译集群,会协助翻译速度最慢的那个独立翻译集群一起翻译,如此提升各个独立翻译集群的翻译速度,使得在数据量大、高并发的情况下,不易发生木桶短板效应。
附图说明
图1为本发明实施例组建翻译集群的示意图。
图2为本发明实施例划分待翻译数据块的示意图。
图3为本发明实施例数据块翻译的示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
如图1所示,为本发明实施例组建翻译集群的示意图,具体为:
步骤一、所有翻译机按名称排序,便于监测其状态及出现问题时的排查。本实施例假设名称为翻译机的IP。
步骤二、按照一定规则,抽取一定数量的翻译机,形成调度翻译集群。本实施例假设数量为X台翻译机。X可为语言种类的数量的1-3倍。
步骤三、剩余的翻译机,按待翻译的语言种类平均分配,形成多个有语言特色的独立翻译集群,若为各个独立翻译集群平均分配整数台翻译机后有剩下的余数,再逐个分配,各个独立翻译集群的翻译机数量差不超过一台。本实施例假设待翻译的语言种类为N类,各个独立翻译集群分配到的翻译机数量为Y台或Z 台,则Y=Z或Y–Z=1。
如图2所示,为本发明实施例划分待翻译数据块的示意图,具体为:
步骤一、将所有待翻译数据按待翻译的语言种类划分,形成不同种类语言的待翻译数据集合。本实施例假设待翻译的语言种类为N类。
步骤二、将各类语言的待翻译数据集合,按对应语言独立翻译集群的翻译机数量动态平均分配,形成多个待翻译数据块;
步骤二的动态平均分配具体为首先将各类语言的待翻译数据量,按对应语言独立翻译集群的翻译机数量平均分配,若为各个翻译机平均分配整数条数据量后有剩下的余数,再逐条分配,各个翻译机的数据量差不超过一条;下一次分配前,统计独立翻译集群内各翻译机未翻译完的数据量,再分配,使得每一次分配后,一个独立翻译集群内的各个翻译机的数据量差不超过一条。本实施例将各类语言的待翻译数据集合,按对应语言独立翻译集群的翻译机数量(Y台或Z台,且Y =Z或Y–Z=1)动态平均分配,使得每一次分配后,一个独立翻译集群内的各个翻译机的数据量差不超过一条。
如图3所示,为本发明实施例数据块翻译的示意图,具体为:
步骤一、将待翻译数据块发送到对应的独立翻译集群中的翻译机翻译。
步骤二、由于每个独立翻译集群的翻译速度不尽相同,对待翻译数据的处理速度不一样,调度翻译集群会协助翻译速度最慢的那个独立翻译集群一起翻译,待翻译完成后,寻找下一个需要帮助的翻译集群。本实例假设当前翻译 速度最慢的独立翻译集群为法语翻译集群。调度翻译集群在翻译时亦参照翻译机数量动态平均分配的方法。如此保证所有翻译机的平均翻译速度,提升独立翻译集群的整体翻译速度。
以上所述仅为本发明专利的实施例而已,并不用以限制本发明专利,凡在本发明专利的精神和原则之内所做的任何修改、等同替换和改进等,均以包含在本发明专利的保护范围之内。

Claims (1)

1.一种多语言网站实时翻译的方法,其特征在于通过组建翻译集群、划分待翻译数据块和数据块翻译进行高并发、数据量大情况下的多语言网站实时翻译;
1)组建翻译集群方法,具体步骤如下:
步骤一、所有集群内的翻译机按名称排序,便于监测其状态及出现问题时的排查;
步骤二、按照一定规则,抽取一定数量的翻译机,形成调度翻译集群;
步骤三、剩余的翻译机,按待翻译的语言种类平均分配,形成多个有语言种类特色的独立翻译集群,若为各个独立翻译集群平均分配整数台翻译机后有剩下的余数,再逐个分配,各个语言种类的独立翻译集群的翻译机数量差不超过一台;
2)划分待翻译数据块方法,具体步骤如下:
步骤一、将所有待翻译数据按待翻译的语言种类划分,形成不同语言种类的待翻译数据集合;
步骤二、将各类语言种类的待翻译数据集合,按对应语言种类独立翻译集群的翻译机数量动态平均分配,形成多个待翻译数据块;
3)数据块翻译方法,具体步骤如下:
步骤一、将待翻译数据块发送到对应的独立翻译集群中的翻译机翻译;
步骤二、由于每个独立翻译集群的翻译速度不尽相同,对待翻译数据的处理速度不一样,调度翻译集群会协助翻译速度最慢的那个独立翻译集群一起翻译,待调度翻译集群翻译完成后,寻找下一个需要帮助的翻译集群;
2)中步骤二的翻译机数量动态平均分配,具体如下,首先将各类语言的待翻译数据量,按对应语言独立翻译集群的翻译机数量平均分配,若为各个翻译机平均分配整数条数据后有剩下的余数,再逐条分配各个翻译机,各个翻译机的翻译数据量差不超过一条;下一次翻译数据分配前,统计独立翻译集群内各翻译机未翻译完的数据量,再分配,使得每一次分配后,一个独立翻译集群内的各个翻译机的数据量差不超过一条,如此保证所有翻译机的平均翻译速度,提升独立翻译集群的整体翻译速度;
数据块翻译方法中,调度翻译集群会协助翻译速度最慢的那个独立翻译集群一起翻译,调度翻译集群在翻译时采用翻译机数量动态平均分配的方法,如此提升各个独立翻译集群的翻译速度,使得在数据量大、高并发的情况下,各类语言网站的实时翻译不阻塞;
所述的组建翻译集群方法中,将翻译机按待翻译的语言种类形成独立翻译集群,减少翻译机切换语言的频率,有效地减少翻译机卡机、死机,翻译错位问题。
CN201510475481.6A 2015-08-05 2015-08-05 一种构建多语言网站实时翻译的方法 Active CN105159891B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510475481.6A CN105159891B (zh) 2015-08-05 2015-08-05 一种构建多语言网站实时翻译的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510475481.6A CN105159891B (zh) 2015-08-05 2015-08-05 一种构建多语言网站实时翻译的方法

Publications (2)

Publication Number Publication Date
CN105159891A CN105159891A (zh) 2015-12-16
CN105159891B true CN105159891B (zh) 2018-05-04

Family

ID=54800749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510475481.6A Active CN105159891B (zh) 2015-08-05 2015-08-05 一种构建多语言网站实时翻译的方法

Country Status (1)

Country Link
CN (1) CN105159891B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1139231A1 (en) * 2000-03-31 2001-10-04 Fujitsu Limited Document processing apparatus and method
CN101599235A (zh) * 2009-04-27 2009-12-09 成都科来软件有限公司 一种网络协议多语言同时显示系统及方法
CN102209227A (zh) * 2010-03-30 2011-10-05 宝利通公司 在视频会议中增加翻译的方法和系统
CN102567312A (zh) * 2011-12-30 2012-07-11 北京理工大学 一种基于分布式并行计算框架的机器翻译方法
CN102722479A (zh) * 2011-03-30 2012-10-10 腾讯科技(深圳)有限公司 一种实现语言翻译的方法及装置
CN103729386A (zh) * 2012-10-16 2014-04-16 阿里巴巴集团控股有限公司 信息查询系统与方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1139231A1 (en) * 2000-03-31 2001-10-04 Fujitsu Limited Document processing apparatus and method
CN101599235A (zh) * 2009-04-27 2009-12-09 成都科来软件有限公司 一种网络协议多语言同时显示系统及方法
CN102209227A (zh) * 2010-03-30 2011-10-05 宝利通公司 在视频会议中增加翻译的方法和系统
CN102722479A (zh) * 2011-03-30 2012-10-10 腾讯科技(深圳)有限公司 一种实现语言翻译的方法及装置
CN102567312A (zh) * 2011-12-30 2012-07-11 北京理工大学 一种基于分布式并行计算框架的机器翻译方法
CN103729386A (zh) * 2012-10-16 2014-04-16 阿里巴巴集团控股有限公司 信息查询系统与方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"多语言在线机器翻译研究";董兴华等;《计算机工程与应用》;20121231;第48卷(第15期);第144页摘要,第145页第2.2节,第147页第18段及第3节第1段,第148页第1-第17段,图1,图3 *

Also Published As

Publication number Publication date
CN105159891A (zh) 2015-12-16

Similar Documents

Publication Publication Date Title
He et al. Taxonomy and phylogeny of Hymenochaete and allied genera of Hymenochaetaceae (Basidiomycota) in China
CN101976200B (zh) 在虚拟机监控器外进行输入输出设备虚拟化的虚拟机系统
DE102010001985A1 (de) Vorrichtung zum Schalten des Betriebs einer virtuellen Maschine zwischen mehreren Computern, die der gleichen Computerplattform zugeordnet sind, und entsprechende Schaltverfahren
CN103793424A (zh) 数据库数据迁移方法及系统
WO2004094863A3 (en) Concurrent access of shared resources
CN105760368B (zh) 一种文档文字的深度处理方法
Nobrega de Almeida Jr et al. Matrix-assisted laser desorption ionization–time of flight mass spectrometry for differentiation of the dimorphic fungal species Paracoccidioides brasiliensis and Paracoccidioides lutzii
CN101488126A (zh) 双语语句对齐方法及装置
CN102104544A (zh) 硬件加速的多核处理器ip隧道分片报文流保序方法
CN103152388A (zh) 一种防止用户重复提交的方法和系统
CN105607950A (zh) 一种虚拟机资源配置方法和装置
CN110674152A (zh) 数据同步方法与装置、存储介质、电子设备
CN105159891B (zh) 一种构建多语言网站实时翻译的方法
CN105740218A (zh) 一种机器翻译后编辑处理方法
CN103685564A (zh) 引入插件化应用能力层的行业应用在线运营云平台架构
CN105515837A (zh) 一种基于事件驱动的高并发web流量产生器
CN108763279B (zh) 一种网页数据分布式模板采集方法及系统
CN1949177A (zh) 虚拟机系统和动态分配即插即用设备的方法
DE102012001397B4 (de) Verfahren zum Bereitstellen einer skalierbaren Speichervirtualisierung
CN107729151A (zh) 一种集群管理fpga资源的方法
CN103092830A (zh) 一种调序规则获取方法及装置
CN105808577B (zh) 一种基于HBase数据库的数据批量入库的方法和装置
CN106791855A (zh) 一种降低坐席管理系统成本的方法及系统
CN109756356B (zh) 设备升级方法及装置
CN103281405A (zh) 一种基于位图的高效多线路智能dns配置主从复制方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant