CN109508463A - 翻译工程的精细化处理 - Google Patents

翻译工程的精细化处理 Download PDF

Info

Publication number
CN109508463A
CN109508463A CN201811387457.7A CN201811387457A CN109508463A CN 109508463 A CN109508463 A CN 109508463A CN 201811387457 A CN201811387457 A CN 201811387457A CN 109508463 A CN109508463 A CN 109508463A
Authority
CN
China
Prior art keywords
paragraph
translated
translation
currently
descriptor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811387457.7A
Other languages
English (en)
Other versions
CN109508463B (zh
Inventor
何恩培
郑丽华
王莲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Expressive Language Networking Polytron Technologies Inc
Original Assignee
Expressive Language Networking Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Expressive Language Networking Polytron Technologies Inc filed Critical Expressive Language Networking Polytron Technologies Inc
Priority to CN201811387457.7A priority Critical patent/CN109508463B/zh
Publication of CN109508463A publication Critical patent/CN109508463A/zh
Application granted granted Critical
Publication of CN109508463B publication Critical patent/CN109508463B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明的技术方案,能够针对待译文本进行精细化的选择处理,具体到每一段或者每几段根据其文本属性,自动的选择对应的翻译工具。本发明的技术方案尤其适合于大规模的翻译工程的精细化处理,改变了现有技术中翻译人员遇到的翻译工具选择困难问题;同时,针对翻译工程的大规模翻译语料,可以将翻译语料通过分成不同的子部分并分析子部分的文本属性来选择对应的翻译工具,从而融合不同翻译工具的各自优点,达到了更好的效果。

Description

翻译工程的精细化处理
技术领域
本申请属于翻译工程领域,特别的,本发明涉及翻译工程的精细化处理,包括翻译工程的精细化处理方法、系统和计算机可读存储介质。
背景技术
在大规模的翻译工程时代,机器翻译工具的使用不可避免。然而,机器翻译的局限性导致其不可能完全替代人工翻译。尽管如此,如果选择了正确的翻译工具,翻译效率将大大提高,这是不可否认的。
翻译人员通常根据经验、使用习惯结合翻译工具的特点来选择一种翻译工具,一旦选定,则基本不变。然而,实践发现,不同的翻译工具的内核不同,对于同一种待译文本通常给出不同的结果;此外,对于相同的一份待译资料,其中不同的子部分,同一翻译工具的结果准确度也不一样。现有翻译人员对此通常十分困惑,并在多种翻译工具中来回徘徊,疲于选择翻译工具以及校对翻译结果。此类种种,原本用于提高翻译效率的翻译工具反而成了拖慢翻译节奏的累赘。
有鉴于此,亟需一种精细化处理方法,可以在翻译工程中自动化的选择精细化的翻译工具,同时保证结果的准确性。
发明内容
本发明的技术方案能够解决上述问题。
总体来说,采用本发明的技术方案,能够针对待译文本进行精细化的选择处理,具体到每一段或者每几段根据其文本属性,自动的选择对应的翻译工具。
在本发明的技术方案中,翻译工具包括ICAT、TRADOS和Lingoes。
ICAT是本发明的申请人相关单位(传神语联网网络科技股份有限公司)的云译客团队面向翻译市场推出的一款翻译工具,TRADOS则是国际上早期发布的翻译软件;Lingoes即灵格斯翻译软件。
在本发明的第一个方面,提供一种精细化的翻译方法,该方法采用计算机流程化的循环过程实现,直至所有待译资料全部处理完成自动退出;该方案中,所述待译资料初始化状态均为未读取;读取后则变为已读取状态。
在具体实现上,所述方法包括如下步骤:
a1: 获取待译资料的段落数与每段的字数,将待译资料按照“段落序号-段落字数”的待译单位依次存储进队列中;
a2:初始化当前待译段落集为空;判断当前队列中是否存在未读取过的待译单位,如果存在,进入步骤a3;否则,退出;
a3:读取队列中的最早存储的未读取过的待译单位,将其加入到当前待译段落集中,获取当前待译段落集的总字数;
a4:判断当前待译段落集的总字数是否大于第一预定阈值;
如果否,返回步骤a3;
否则,进入步骤a4;
a5:分析当前待译段落集中的主题词的分布属性;根据所述属性选择相应的翻译工具;返回步骤a2.
本发明所述的方法还可以采用另一种方式实现,包括:
b1:初始化当前待译段落集为空;判断当前队列中是否存在未读取过的待译段落,如果存在,进入步骤b2;否则,退出;
b2:读取待译资料中未读取过的段落,将其加入到当前待译段落集中,获取当前待译段落集的总段数;
b3:判断当前待译段落集的总段数是否大于第二预定阈值;
如果否,返回步骤b2;
否则,进入步骤b4;
b4:分析当前待译段落集中的主题词的分布属性;根据所述属性选择相应的翻译工具;返回步骤b1.
其中,所述步骤b4或者a5的分析过程具体包括:
(1)统计所述主题词在所述当前待译段落集中的段落中的出现次数;
(2)基于所述出现次数,得到“段落序号-主题词出现次数”分布图;
(3)根据所述分布图的属性,选择对应的翻译工具。
具体的,所述步骤(3)包括:
如果所述主题词在所述段落上基本均匀分布,则选择TRADOS作为翻译工具;
如果所述主题词在所述段落上呈高斯分布,则针对当前待译文本的开始第一预定段落和末尾第二预定段落选择ICAT翻译工具,其余部分选择TRADOS翻译工具。
开始第一预定段落是指从待译文本第一段开始的第一预定数量的段落;末尾第二预定段落是指待待译文本的最后一段开始往前的第二预定数量的段落;
如果所述主题词在所述段落上呈下降趋势,则针对当前待译文本的开始第一预定段落选择TRADOS翻译工具,其余部分选择ICAT翻译工具。
如果所述主题词在所述段落上呈上升趋势,则针对当前待译文本的开始第一预定段落选择ICAT翻译工具,其余部分选择TRADOS翻译工具。
如果所述主题在所述段落上的趋势不属于以上任何一种情况,则采用Lingoes翻译工具。
本领域技术人员可以理解,所述文本主题词可以是待译文本的关键词、主题词等,这类词汇可以由待译文本直接给出,也可以通过抽样获取,本发明对此不做限制。
优选的,将所述分布图划分为至少两个部分,第一部分为变化趋势大的段落部分,第二部分为变化趋势小的段落部分;
本领域技术人员可以知晓,变化趋势可以用不同段落的主题词次数的变化率来衡量,变化趋势大可以定义为变化率例如斜率超过一定阈值;变化趋势小则可以定义为基本平缓,斜率基本不变等;
针对第一部分,选择ICAT翻译工具,针对第二部分,选择TRADOS翻译工具。
在本发明的第二个方面,提供一种用于精细化翻译的计算机翻译系统,可以实现前述的精细化翻译方法。
在结构上,所述计算机翻译系统至少包括如下组成部分:
初始化部分,用于初始化翻译变量,包括初始化当前待译段落集、初始化当前待译资料,获得段落序号与段落字数等;
文本读取部分,用于读取所述待译资料中的未读取段落文本,并将其存储到当前待译段落集中;
段落集分析部分,统计所述主题词在所述当前待译段落集中的段落中的出现次数;
分布图生成部分,基于所述出现次数,得到“段落序号-主题词出现次数”分布图;
精细化翻译部分:根据所述分布图的属性,选择对应的翻译工具进行精细化翻译。
其中,所述翻译工具至少包括ICAT、TRADOS和Lingoes。
进一步的,所述计算机系统还包括:
分布图切分子件,用于对所述分布图划分为两部分,两部分的变化趋势不同;
阈值调节部分,用于设定与调节所述第一预定阈值和所述第二预定阈值。
其中,所述分布图的属性,包括主题词在所述段落上呈基本上升趋势;这里的基本上升,本领域技术人员可以理解,意为总体趋势是上升,中间可能会有反复,总是整体来看是上升的;例如螺旋式上升,上下波动式上升,等等;
其中,所述分布图的属性,包括主题词在所述段落上呈基本下降趋势;这里的基本下降,本领域技术人员可以理解,意为总体趋势是下降,中间可能会有反复,总是整体来看是趋势向下的;例如螺旋式下降,上下波动式下降,等等;
其中,所述分布图的属性,包括主题词在所述段落上呈基本均匀分布趋势;这里的基本均匀分布趋势,本领域技术人员应当知晓,此处的基本均匀分布是指各个段落的主题词出现次数大小基本一致,变化在一定范围内,例如,标准差满足一定阈值,峰值不超过5%,等等。
在本发明的第三个方面,提供一种计算机可读存储介质,其上存储有计算机可执行指令,通过处理器和存储器执行所述指令,用于实现前述的精细化的翻译方法。
附图说明
图1是本发明精细化的翻译方法计算机流程图
图2是本发明计算机翻译系统结构图
图3是本发明计算机翻译系统的优选结构图
具体实施方式
参见图1,本实施例的精细化翻译方法包括步骤a1-a5:
a1: 获取待译资料的段落数与每段的字数,将待译资料按照“段落序号-段落字数”的待译单位依次存储进队列中;
a2:初始化当前待译段落集为空;判断当前队列中是否存在未读取过的待译单位,如果是,进入步骤a3;否则,退出;
a3:读取队列中的最早存储的未读取过的待译单位,将其加入到当前待译段落集中,获取当前待译段落集的总字数;
a4:判断当前待译段落集的总字数是否大于第一预定阈值;
如果否,返回步骤a3;
否则,进入步骤a4;
a5:分析当前待译段落集中的主题词的分布属性;根据所述属性选择相应的翻译工具;返回步骤a2.
参见图2,本实施例的计算机翻译系统包括初始化部分、文本读取部分、段落集分析部分、分布图生成部分以及精细化翻译部分。
其中,
初始化部分,用于初始化翻译变量,包括初始化当前待译段落集、初始化当前待译资料,获得段落序号与段落字数等;
文本读取部分,用于读取所述待译资料中的未读取段落文本,并将其存储到当前待译段落集中;
段落集分析部分,统计所述主题词在所述当前待译段落集中的段落中的出现次数;
分布图生成部分,基于所述出现次数,得到“段落序号-主题词出现次数”分布图;
精细化翻译部分:根据所述分布图的属性,选择对应的翻译工具进行精细化翻译。
更优选的实施例中,参见图3,所述计算机系统还包括:
分布图切分子件,用于对所述分布图划分为两部分,两部分的变化趋势不同;
阈值调节部分,用于设定与调节所述第一预定阈值和所述第二预定阈值。
所述翻译工具至少包括ICAT、TRADOS和Lingoes。
本发明的技术方案充分利用了ICAT、TRADOS和Lingoes不同翻译工具的特点,并结合待译资料的属性精细化的分配翻译工具。
具体而言,ICAT、TRADOS和Lingoes内核完全不同,TRADOS具备重复记忆功能,因此适用于文本分布特性趋于一致的待译资料的翻译,而ICAT则侧重于云端系统更新,因此,对于分散性的待译资料效果更好;Lingoes则兼有其他各种软件的不足,作为上述两款软件的补充,可以更好的校正翻译结果。
虽然上述特点是软件本身固有的,但是未见相关技术方案充分利用该特点,更没有现有技术提出有效的解决方案。
本发明的技术方案是发明人在长期使用ICAT、TRADOS和Lingoes等各种翻译工具的过程中,创造性的发现不同翻译工具的翻译特点而得出的;该方案采用计算机技术与待译文本的属性分析技术相结合而自动的匹配相应的翻译工作;同时,也不是简单的采用某一种工具,而是在不同的文本上选择不同的工具,从而不仅实现了翻译工具的选择,也解决了翻译工具的融合问题。
本发明的技术方案尤其适合于大规模的翻译工程的精细化处理,改变了现有技术中翻译人员遇到的翻译工具选择困难问题;同时,针对翻译工程的大规模翻译语料,可以将翻译语料通过分成不同的子部分并分析子部分的文本属性来选择对应的翻译工具,从而融合不同翻译工具的各自优点,达到了更好的效果。

Claims (7)

1.一种计算机实现的精细化翻译方法,包括如下步骤:
a1: 获取待译资料的段落数与每段的字数,将待译资料按照“段落序号-段落字数”的待译单位依次存储进队列中;
a2:初始化当前待译段落集为空;判断当前队列中是否存在未读取过的待译单位,如果存在,进入步骤a3;否则,退出;
a3:读取队列中的最早存储的未读取过的待译单位,将其加入到当前待译段落集中,获取当前待译段落集的总字数;
a4:判断当前待译段落集的总字数是否大于第一预定阈值;
如果否,返回步骤a3;
否则,进入步骤a4;
a5:分析当前待译段落集中的主题词的分布属性;根据所述属性选择相应的翻译工具;返回步骤a2。
2.一种计算机实现的精细化翻译方法,包括如下步骤:
b1:初始化当前待译段落集为空;判断当前队列中是否存在未读取过的待译段落,如果存在,进入步骤b2;否则,退出;
b2:读取待译资料中未读取过的段落,将其加入到当前待译段落集中,获取当前待译段落集的总段数;
b3:判断当前待译段落集的总段数是否大于第二预定阈值;
如果否,返回步骤b2;
否则,进入步骤b4;
b4:分析当前待译段落集中的主题词的分布属性;根据所述属性选择相应的翻译工具;返回步骤b1。
3.如权利要求1或2所述的方法,其中,所述步骤b4或者a5的分析过程具体包括:
(1)统计所述主题词在所述当前待译段落集中的段落中的出现次数;
(2)基于所述出现次数,得到“段落序号-主题词出现次数”分布图;
(3)根据所述分布图的属性,选择对应的翻译工具。
4.如权利要求3所述的方法,其中,所述步骤(3)包括:
如果所述主题词在所述段落上基本均匀分布,则选择TRADOS作为翻译工具;
如果所述主题词在所述段落上呈高斯分布,则针对当前待译文本的开始第一预定段落和末尾第二预定段落选择ICAT翻译工具,其余部分选择TRADOS翻译工具;
如果所述主题词在所述段落上呈下降趋势,则针对当前待译文本的开始第一预定段落选择TRADOS翻译工具,其余部分选择ICAT翻译工具;
如果所述主题词在所述段落上呈上升趋势,则针对当前待译文本的开始第一预定段落选择ICAT翻译工具,其余部分选择TRADOS翻译工具;
如果所述主题在所述段落上的趋势不属于以上任何一种情况,则采用Lingoes翻译工具。
5.一种用于精细化翻译的计算机翻译系统,所述计算机翻译系统包括如下组成部分:
初始化部分,用于初始化翻译变量;
文本读取部分,用于读取所述待译资料中的未读取段落文本,并将其存储到当前待译段落集中;
段落集分析部分,统计所述主题词在所述当前待译段落集中的段落中的出现次数;
分布图生成部分,基于所述出现次数,得到“段落序号-主题词出现次数”分布图;
精细化翻译部分:根据所述分布图的属性,选择对应的翻译工具进行精细化翻译;
其特征在于,所述翻译工具至少包括ICAT、TRADOS和Lingoes。
6.如权利要求5所述的计算机翻译系统,用于实现权利要求1或2所述的方法,其特征在于,还包括:
分布图切分子件,用于对所述分布图划分为两部分,两部分的变化趋势不同;
阈值调节部分,用于设定与调节所述第一预定阈值或所述第二预定阈值。
7.一种计算机可读存储介质,其上存储有计算机可执行指令,通过处理器和存储器执行所述指令,用于实现权利要求1-4任一项所述的方法。
CN201811387457.7A 2018-11-21 2018-11-21 翻译工程的精细化处理方法、系统和可读存储介质 Active CN109508463B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811387457.7A CN109508463B (zh) 2018-11-21 2018-11-21 翻译工程的精细化处理方法、系统和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811387457.7A CN109508463B (zh) 2018-11-21 2018-11-21 翻译工程的精细化处理方法、系统和可读存储介质

Publications (2)

Publication Number Publication Date
CN109508463A true CN109508463A (zh) 2019-03-22
CN109508463B CN109508463B (zh) 2023-06-20

Family

ID=65749316

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811387457.7A Active CN109508463B (zh) 2018-11-21 2018-11-21 翻译工程的精细化处理方法、系统和可读存储介质

Country Status (1)

Country Link
CN (1) CN109508463B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159359A (zh) * 2019-12-31 2020-05-15 达闼科技成都有限公司 文档检索方法、装置及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003308319A (ja) * 2002-04-16 2003-10-31 Communication Research Laboratory 訳語選択装置、翻訳装置、訳語選択プログラム、及び翻訳プログラム
CN105808530A (zh) * 2016-03-23 2016-07-27 苏州大学 一种统计机器翻译中的翻译方法和装置
CN106844303A (zh) * 2016-12-23 2017-06-13 语联网(武汉)信息技术有限公司 一种基于相似度匹配算法为待译稿件匹配译员的方法
CN108845993A (zh) * 2018-06-06 2018-11-20 中国科学技术信息研究所 文本信息的翻译方法、装置及终端设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003308319A (ja) * 2002-04-16 2003-10-31 Communication Research Laboratory 訳語選択装置、翻訳装置、訳語選択プログラム、及び翻訳プログラム
CN105808530A (zh) * 2016-03-23 2016-07-27 苏州大学 一种统计机器翻译中的翻译方法和装置
CN106844303A (zh) * 2016-12-23 2017-06-13 语联网(武汉)信息技术有限公司 一种基于相似度匹配算法为待译稿件匹配译员的方法
CN108845993A (zh) * 2018-06-06 2018-11-20 中国科学技术信息研究所 文本信息的翻译方法、装置及终端设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159359A (zh) * 2019-12-31 2020-05-15 达闼科技成都有限公司 文档检索方法、装置及计算机可读存储介质
CN111159359B (zh) * 2019-12-31 2023-04-21 达闼机器人股份有限公司 文档检索方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN109508463B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
US20210173858A1 (en) Apparatus and method for automated and assisted patent claim mapping and expense planning
CN107562717B (zh) 一种基于Word2Vec与词共现相结合的文本关键词抽取方法
EP3508992A1 (en) Error correction method and device for search term
EP3369001A1 (en) Method and system for statistics-based machine translation
CN104102720A (zh) 高效输入的预测方法和装置
CN104008091A (zh) 一种基于情感值的网络文本情感分析方法
CN106156111B (zh) 专利文件检索方法、装置和系统
GB2575580A (en) Supporting interactive text mining process with natural language dialog
CN107077515B (zh) 显示控制装置、显示控制方法及显示控制媒体
CN107145476A (zh) 一种基于改进tf‑idf关键词提取算法
CN111444725B (zh) 语句的生成方法、装置、存储介质和电子装置
CN107122404A (zh) 一种用户意图数据提取方法和装置
Herbig et al. MMPE: A multi-modal interface for post-editing machine translation
CN109508463A (zh) 翻译工程的精细化处理
CN106484676B (zh) 基于句法树和领域特征的生物文本蛋白质指代消解方法
CN110781291A (zh) 一种文本摘要提取方法、装置、服务器及可读存储介质
CN109558602A (zh) 翻译工具的分布式选择与融合
CN109359298A (zh) 表情符推荐方法、系统及电子设备
CN110073351A (zh) 通过组合来自用户尝试的候选来预测文本
WO2020247085A1 (en) Recommending theme patterns of a document
WO2017074785A1 (en) Method and system for statistics-based machine translation
CN106127220A (zh) 一种时间序列分类方法及装置
CN109542299A (zh) 用于电子书的金句展示方法、电子设备及计算机存储介质
CN107491443B (zh) 一种包含非常规词汇的中文句子翻译方法及系统
CN104699260A (zh) 一种手写词汇输入方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant