CN105183723A - 一种翻译软件与语料搜索的关联方法 - Google Patents

一种翻译软件与语料搜索的关联方法 Download PDF

Info

Publication number
CN105183723A
CN105183723A CN201510598482.XA CN201510598482A CN105183723A CN 105183723 A CN105183723 A CN 105183723A CN 201510598482 A CN201510598482 A CN 201510598482A CN 105183723 A CN105183723 A CN 105183723A
Authority
CN
China
Prior art keywords
translated
language material
statement
translation
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510598482.XA
Other languages
English (en)
Inventor
李长洪
张马成
王兴强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHENGDU URELITE INFORMATION TECHNOLOGY Co Ltd
Original Assignee
CHENGDU URELITE INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHENGDU URELITE INFORMATION TECHNOLOGY Co Ltd filed Critical CHENGDU URELITE INFORMATION TECHNOLOGY Co Ltd
Priority to CN201510598482.XA priority Critical patent/CN105183723A/zh
Publication of CN105183723A publication Critical patent/CN105183723A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种翻译软件与语料搜索的关联方法,步骤1,获取对齐语料库;步骤2,获取待译文件;步骤3,拆分待译文件;步骤4,遍历对齐语料库,并计算各个待译语句与各个语料之间的匹配率,若遍历过程中,查找到与待译语句相同的语料,则停止遍历,并显示该语料的对齐语料,进入步骤5;若遍历完整个对齐语料库也没有查找到与待译语句相同的语料,则显示匹配率在前几的对齐语料,进入步骤6;步骤5,选择匹配率相同的语料,将其对齐语料直接作为待译语句的翻译语句;步骤6,根据匹配关系标记待译语句与语料、对齐语料之间的不同之处,选择匹配率高的语料,将其对齐语料作为待译语句的待完成翻译语句,根据标记对待完成翻译语句进行修改。

Description

一种翻译软件与语料搜索的关联方法
技术领域
本发明涉及翻译技术领域,具体地,涉及一种翻译软件与语料搜索的关联方法。
背景技术
随着科技技术的不断进步,国际交流越来越频繁,世界经济的越来越开放,全球化越来越深入,各种语言文件材料之间的翻译也越来越多,尤其是英、汉之间。翻译文件涉及到生活的方方面面:贸易、法律、电子、通讯、计算机、机械、化工、石油、医药、食品等各个领域。
翻译属于服务业,服务业要始终以客户为导向。在翻译量越来越大、文件字数越来越多的今天,怎样提高翻译速度,满足客户的需求十分重要。CAT技术的流行使得翻译速度大大提高。现有的翻译的文件的拆分和分配方法在一定程度上可避免对相同的段落进行多次翻译,以提高翻译效率。但是,其仅仅对同一篇文件中的重复段落进行剔除,毕竟在一篇文件中重复的段落不多,不能真正的有效的提高翻译效率。
发明内容
本发明为了解决上述技术问题提供一种翻译软件与语料搜索的关联方法,其能有效的提高翻译速度。
本发明解决上述问题所采用的技术方案是:
一种翻译软件与语料搜索的关联方法,包括如下步骤:
步骤1,获取对齐语料库;
步骤2,获取待译文件;
步骤3,将待译文件拆分为多个待译语句;
步骤4,遍历对齐语料库,并计算各个待译语句与各个语料之间的匹配率,若遍历过程中,查找到与待译语句相同的语料,则停止遍历,并显示该语料的对齐语料,进入步骤5;若遍历完整个对齐语料库也没有查找到与待译语句相同的语料,则显示匹配率在前几的对齐语料,进入步骤6;
步骤5,选择匹配率相同的语料,将其对齐语料直接作为待译语句的翻译语句;
步骤6,根据匹配关系标记待译语句与语料、对齐语料之间的不同之处,选择匹配率高的语料,将其对齐语料作为待译语句的待完成翻译语句,根据标记对待完成翻译语句进行修改;
步骤7,导出翻译文件。
本发明的方法将文件拆分为多个待译语句,寻找对齐语料库中的相同语句或匹配率高的语句,翻译过程中可直接采用对齐语料库中的对齐语料或修改对齐语料中的局部即可完成翻译,其效率高。在现有技术的基础上,采用该方法既可避免重复翻译相同段落,也可避免重复翻译相同语句,毕竟在整个文件中,相同段落的概率较低,相同语句的概率极高,或者具有相同句式的概率极高。采用此方法,在翻译文件越来越多,对齐语料库中的语料越来越多时,翻译效率提高的越明显。
为了进一步的提高翻译效率,在步骤3中,根据文件的句数将文件拆分为相应份数。将文件按句数进行拆分,即将文件拆分为短小的语句。句子越短,在对齐语料库中找到相同的语句的效率就越高,但是,句子也不是越短越好,长度短于句子的长度,不能很好的表达整个句子的含义、意境,将待译语句以句为单位,既可有效的避免其长度过长,提高查找效率,也能有效的提高待译语句的翻译质量。
作为优选,在步骤4中,匹配率的计算方法具体为:若待译语句为中文,则以字符为单位,匹配率为待译语句与语料的相同字符数除以待译语句的字符数;若待译语句为英文,则以单词为单位,匹配率为待译语句与语料的相同单词数除以待译语句的字节数。采用此方法对匹配率进行计算,其方法简单明了,易理解,系统运算快,对用户来说,也接受此类方法。
进一步的,所述的字符数包括标点。
进一步的,所述的字节数包括标点。
综上,本发明的有益效果是:
本发明的方法将文件拆分为多个待译语句,寻找对齐语料库中的相同语句或匹配率高的语句,翻译过程中可直接采用对齐语料库中的对齐语料或修改对齐语料中的局部即可完成翻译,其效率高,既可避免重复翻译相同段落,也可避免重复翻译相同语句。
具体实施方式
下面结合实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种翻译软件与语料搜索的关联方法,包括如下步骤:
步骤1,获取对齐语料库;
步骤2,获取待译文件;
步骤3,将待译文件拆分为多个待译语句;
步骤4,遍历对齐语料库,并计算各个待译语句与各个语料之间的匹配率,若遍历过程中,查找到与待译语句相同的语料,则停止遍历,并显示该语料的对齐语料,进入步骤5;若遍历完整个对齐语料库也没有查找到与待译语句相同的语料,则显示匹配率在前几的对齐语料,进入步骤6;
步骤5,选择匹配率相同的语料,将其对齐语料直接作为待译语句的翻译语句;
步骤6,根据匹配关系标记待译语句与语料、对齐语料之间的不同之处,选择匹配率高的语料,将其对齐语料作为待译语句的待完成翻译语句,根据标记对待完成翻译语句进行修改;
步骤7,导出翻译文件。
在步骤3中,根据文件的句数将文件拆分为相应份数。
在步骤4中,匹配率的计算方法具体为:若待译语句为中文,则以字符为单位,匹配率为待译语句与语料的相同字符数除以待译语句的字符数;若待译语句为英文,则以字节为单位,匹配率为待译语句与语料的相同字节数除以待译语句的字节数。
所述的字符数包括标点。
所述的字节数包括标点。
下面我们再以上基础上以具体的例子对上述步骤3及以后的过程进行举例说明。
先以汉译英举例:
若对齐语料库中的语料有:
我喜欢跑步。
我喜欢听音乐。
其分别对应的对齐语料为:
Ilikerunning.
Ilikelisteningtomusic.
待译文件为:我喜欢听音乐。我喜欢在跑步的时候听音乐。
将待译文件按句拆分为:
我喜欢听音乐。
我喜欢在跑步的时候听音乐。
在对“我喜欢听音乐。”进行翻译时,按顺序遍历对齐语料库,查找到对比语料库中有相同的语料,停止遍历,并在显示该语料,直接选中语料即可将其对齐语料“Ilikelisteningtomusic.”直接作为翻译语句。
在对“我喜欢在跑步的时候听音乐。”进行翻译时,按顺序遍历对齐语料库,遍历完整个对齐语料库均为找到相同的语料,显示匹配率高的语料。在对匹配率进行计算时,在计算标点的情况下,此语句与第一个语料的相同字符数为6/13,即46.2%,与第二个语料的相同字符数为7/13,即53.8%;在不计算标点的情况下,此语句与第一个语料的相同字符数为5/12,即41.7%,与第二个语料的相同字符数为6/12,即50.0%;此时,对两个语料进行显示,选择“我喜欢听音乐。”,使其对齐语料“Ilikelisteningtomusic.”成为“我喜欢在跑步的时候听音乐。”的待完成翻译语句,并标记“在跑步的时候”,此时,翻译人员只需再“Ilikelisteningtomusic.”上进行修改即可。“Ilikelisteningtomusicwhilerunning.”在相似句子上进行修改,相比于直接对原句进行翻译,其效率大大提高。最后,导出翻译文件即可。
再以英译汉举例:
若对齐语料库中的语料有:
我喜欢跑步。
我喜欢听音乐。
其分别对应的对齐语料为:
Ilikerunning.
Ilikelisteningtomusic.
待译文件为:Ilikelisteningtomusic.Ilikelisteningtomusicwhilerunning.
将待译文件按句拆分为:
Ilikelisteningtomusic.
Ilikelisteningtomusicwhilerunning.
在对“Ilikelisteningtomusic.”进行翻译时,按顺序遍历对齐语料库,查找到对比语料库中有相同的语料,停止遍历,并在显示该语料,直接选中语料即可将其对齐语料“我喜欢听音乐。”直接作为翻译语句。
在对“Ilikelisteningtomusicwhilerunning.”进行翻译时,按顺序遍历对齐语料库,遍历完整个对齐语料库均为找到相同的语料,显示匹配率高的语料。在对匹配率进行计算时,在计算标点的情况下,此语句与第一个语料的相同字符数为4/8,即50.0%,与第二个语料的相同字符数为6/8,即75.0%;在不计算标点的情况下,此语句与第一个语料的相同字符数为4/7,即57.1%,与第二个语料的相同字符数为6/7,即85.7%;此时,对两个语料进行显示,选择“Ilikelisteningtomusic.。”,使其对齐语料“我喜欢听音乐。”成为“Ilikelisteningtomusicwhilerunning.”的待完成翻译语句,并标记“whilerunning”,此时,翻译人员只需再“我喜欢听音乐。”上进行修改即可。“我喜欢在跑步的时候听音乐。”在相似句子上进行修改,相比于直接对原句进行翻译,其效率大大提高。最后,导出翻译文件即可。
如上所述,可较好的实现本发明。

Claims (5)

1.一种翻译软件与语料搜索的关联方法,其特征在于,包括如下步骤:
步骤1,获取对齐语料库;
步骤2,获取待译文件;
步骤3,将待译文件拆分为多个待译语句;
步骤4,遍历对齐语料库,并计算各个待译语句与各个语料之间的匹配率,若遍历过程中,查找到与待译语句相同的语料,则停止遍历,并显示该语料的对齐语料,进入步骤5;若遍历完整个对齐语料库也没有查找到与待译语句相同的语料,则显示匹配率在前几的对齐语料,进入步骤6;
步骤5,选择匹配率相同的语料,将其对齐语料直接作为待译语句的翻译语句;
步骤6,根据匹配关系标记待译语句与语料、对齐语料之间的不同之处,选择匹配率高的语料,将其对齐语料作为待译语句的待完成翻译语句,根据标记对待完成翻译语句进行修改;
步骤7,导出翻译文件。
2.根据权利要求1所述的一种翻译软件与语料搜索的关联方法,其特征在于:在步骤3中,根据文件的句数将文件拆分为相应份数。
3.根据权利要求1所述的一种翻译软件与语料搜索的关联方法,其特征在于:在步骤4中,匹配率的计算方法具体为:若待译语句为中文,则以字符为单位,匹配率为待译语句与语料的相同字符数除以待译语句的字符数;若待译语句为英文,则以字节为单位,匹配率为待译语句与语料的相同字节数除以待译语句的字节数。
4.根据权利要求3所述的一种翻译软件与语料搜索的关联方法,其特征在于:所述的字符数包括标点。
5.根据权利要求3所述的一种翻译软件与语料搜索的关联方法,其特征在于:所述的字节数包括标点。
CN201510598482.XA 2015-09-17 2015-09-17 一种翻译软件与语料搜索的关联方法 Pending CN105183723A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510598482.XA CN105183723A (zh) 2015-09-17 2015-09-17 一种翻译软件与语料搜索的关联方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510598482.XA CN105183723A (zh) 2015-09-17 2015-09-17 一种翻译软件与语料搜索的关联方法

Publications (1)

Publication Number Publication Date
CN105183723A true CN105183723A (zh) 2015-12-23

Family

ID=54905812

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510598482.XA Pending CN105183723A (zh) 2015-09-17 2015-09-17 一种翻译软件与语料搜索的关联方法

Country Status (1)

Country Link
CN (1) CN105183723A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677706A (zh) * 2015-12-28 2016-06-15 武汉传神信息技术有限公司 一种语料检索匹配方法
CN105760368A (zh) * 2016-03-11 2016-07-13 张广睿 一种文档文字的深度处理方法
CN105808528A (zh) * 2016-03-04 2016-07-27 张广睿 一种文档文字的处理方法
CN105843802A (zh) * 2016-03-31 2016-08-10 长安大学 翻译中语料介入模块及方法
CN107526728A (zh) * 2017-08-07 2017-12-29 中译语通科技(青岛)有限公司 一种基于众包的双语平行语料对齐方法
CN109408832A (zh) * 2018-10-16 2019-03-01 传神语联网网络科技股份有限公司 基于重复句检测的翻译质量预警方法及其系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1787221A2 (en) * 2004-08-11 2007-05-23 SDL Plc Computer implemented method for use in a translation system
CN101271451A (zh) * 2007-03-20 2008-09-24 株式会社东芝 计算机辅助翻译的方法和装置
CN102043773A (zh) * 2009-10-20 2011-05-04 张龙哺 模式化双语句对形成方法及其形成装置
US20120117082A1 (en) * 2010-11-05 2012-05-10 Koperda Frank R Method and system for document classification or search using discrete words
CN103885939A (zh) * 2012-12-19 2014-06-25 新疆信息产业有限责任公司 维吾尔文-汉文双向翻译记忆系统的构造方法
CN103885942A (zh) * 2014-03-18 2014-06-25 成都优译信息技术有限公司 一种快速翻译装置及方法
CN104375988A (zh) * 2014-11-04 2015-02-25 北京第二外国语学院 一种词语对齐方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1787221A2 (en) * 2004-08-11 2007-05-23 SDL Plc Computer implemented method for use in a translation system
CN101271451A (zh) * 2007-03-20 2008-09-24 株式会社东芝 计算机辅助翻译的方法和装置
CN102043773A (zh) * 2009-10-20 2011-05-04 张龙哺 模式化双语句对形成方法及其形成装置
US20120117082A1 (en) * 2010-11-05 2012-05-10 Koperda Frank R Method and system for document classification or search using discrete words
CN103885939A (zh) * 2012-12-19 2014-06-25 新疆信息产业有限责任公司 维吾尔文-汉文双向翻译记忆系统的构造方法
CN103885942A (zh) * 2014-03-18 2014-06-25 成都优译信息技术有限公司 一种快速翻译装置及方法
CN104375988A (zh) * 2014-11-04 2015-02-25 北京第二外国语学院 一种词语对齐方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677706A (zh) * 2015-12-28 2016-06-15 武汉传神信息技术有限公司 一种语料检索匹配方法
CN105808528A (zh) * 2016-03-04 2016-07-27 张广睿 一种文档文字的处理方法
CN105808528B (zh) * 2016-03-04 2019-01-25 张广睿 一种文档文字的处理方法
CN105760368A (zh) * 2016-03-11 2016-07-13 张广睿 一种文档文字的深度处理方法
CN105760368B (zh) * 2016-03-11 2019-02-12 张广睿 一种文档文字的深度处理方法
CN105843802A (zh) * 2016-03-31 2016-08-10 长安大学 翻译中语料介入模块及方法
CN107526728A (zh) * 2017-08-07 2017-12-29 中译语通科技(青岛)有限公司 一种基于众包的双语平行语料对齐方法
CN109408832A (zh) * 2018-10-16 2019-03-01 传神语联网网络科技股份有限公司 基于重复句检测的翻译质量预警方法及其系统

Similar Documents

Publication Publication Date Title
CN105183723A (zh) 一种翻译软件与语料搜索的关联方法
CN105975625A (zh) 一种面向英文搜索引擎的中式英文查询纠错方法和系统
CN104881406B (zh) 网页翻译方法和系统
CN102136218B (zh) 一种计算机地图制图中的地图注记自动配置方法
CN104933023B (zh) 中文地址分词标注方法
CN102902826B (zh) 一种基于基准图像索引的图像快速检索方法
CN102541874A (zh) 网页正文内容提取方法及装置
CN106570191A (zh) 基于维基百科的中英文跨语言实体匹配方法
CN103399907A (zh) 一种基于编辑距离计算中文字符串相似度的方法及装置
CN103885939A (zh) 维吾尔文-汉文双向翻译记忆系统的构造方法
CN102122280A (zh) 一种智能提取内容对象的方法及系统
CN104360996A (zh) 双语文本的句子对齐方法
CN107844476A (zh) 一种增强的词性标注方法
CN108132917B (zh) 一种文档纠错标记方法
CN106503040A (zh) 适用sql查询方法的kv数据库及其创建方法
CN107797995A (zh) 一种中英文片段语料生成方法
CN106155998A (zh) 一种数据处理方法及装置
CN104636492B (zh) 一种基于模糊积分特征融合的动态数据分级方法
CN105183722A (zh) 一种汉英双语翻译语料的对齐方法
CN104731773A (zh) 文本情感分析方法及系统
CN106484684A (zh) 一种对数据库中的数据进行术语匹配的方法
CN104063366A (zh) 一种文本格式设置的方法与装置
CN104794183A (zh) 一种基于多视图多标签的图片标注方法
CN102663127A (zh) 基于部首的书法字检索方法
CN104317903A (zh) 章节式文本的章节完整性的识别方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 610000 B, building 4, building 200, Tianfu five street, Chengdu hi tech Zone, Sichuan,

Applicant after: Chengdu excellent translation information technology Limited by Share Ltd

Address before: 610000, No. 1, building 107, 1 West Bauhinia Road, Chengdu hi tech Zone, Sichuan, 6

Applicant before: Chengdu Urelite Information technology Co., Ltd.

COR Change of bibliographic data
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20151223