CN105808528B - 一种文档文字的处理方法 - Google Patents

一种文档文字的处理方法 Download PDF

Info

Publication number
CN105808528B
CN105808528B CN201610122855.0A CN201610122855A CN105808528B CN 105808528 B CN105808528 B CN 105808528B CN 201610122855 A CN201610122855 A CN 201610122855A CN 105808528 B CN105808528 B CN 105808528B
Authority
CN
China
Prior art keywords
translation
document
waiting
text
digital data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610122855.0A
Other languages
English (en)
Other versions
CN105808528A (zh
Inventor
张广睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Dianwen Technology Co Ltd
Zhang Guangrui
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201610122855.0A priority Critical patent/CN105808528B/zh
Publication of CN105808528A publication Critical patent/CN105808528A/zh
Application granted granted Critical
Publication of CN105808528B publication Critical patent/CN105808528B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种文档文字的处理方法,包括以下步骤:(1)、提取待翻译文档中的文字信息,并统一格式;(2)、将文档自动拆分成最小单位的待译文字数据集合,去掉待译文字数据集合中的非译文字和重复的待译文字数据;(3)、建立译前处理文档,先将待译文字数据集合中的待译文字数据复制到原文列中,再将涉及到的专有术语的原文和译文写入对应的专有术语列,得到匹配有专有术语的译前处理文档;(4)、译员对译前处理文档中原文列对应的待译文字数据翻译,得到译后处理文档;(5)、使用替换功能将译文替换成原文,得到译文。本发明能够处理文档前预先去除文档中重复的单词、词组或单句,达到简化译员翻译量、提高翻译效率的目的。

Description

一种文档文字的处理方法
技术领域
本发明涉及翻译技术领域,具体地说涉及一种文档文字的处理方法。
背景技术
从上世纪80年代中期开始,基于语料和多引擎机译方法的广泛运用,翻译软件的性能和效率有了明显提高,各式各样的翻译软件如雨后春笋般问世。采用预先编写的软件程序翻译,极大提高了文本的翻译速度。但由于语言表达的特殊性,翻译软件的翻译质量一直屡遭诟病,翻译软件的原理是将两种语言的语义一一对应存储,翻译时机械调用替换,由于语言表达的多样性,每个字、单词、词组或单句往往对应不止一个意思,完全使用翻译软件所得到的译文通常不能正常表达原文含义,因此人工翻译仍然是获得高翻译质量的保证。
现有技术中,针对一个项目或长篇文档来说,往往是在一个团队中分成多份来翻译,但由于译员翻译习性的不同,往往会出现不同译员翻译相同含义的一句话而导致译文不一致的情况。另外,这种采用团队分成多份翻译的方式,导致译员经常重复翻译具有相同含义的单词、词组或单句,不仅大幅增大了译员的翻译强度,还极大地降低了翻译效率。
发明内容
本发明的目的在于解决现有技术中存在的上述问题,提供一种文档文字的处理方法,本发明能够处理文档前预先去除文档中重复的单词、词组或单句,同时参考匹配的专有术语词汇,从而达到简化译员翻译量、提高翻译效率和提高翻译前后准确率的目的。
为实现上述目的,本发明采用的技术方案如下:
一种文档文字的处理方法,其特征在于包括以下步骤:
(1)、提取待翻译文档中的文字信息,并统一文字信息的格式,得到格式统一的文档;
(2)、对格式统一的文档进行拆分,将其拆分成以单词、词组、单句中的任意一种或几种为最小单位的待译文字数据集合,去掉非译文字后再去掉待译文字数据集合中重复的待译文字数据,然后将剩下的每一个待译文字数据依次与笔译记忆库中的内容进行比对,而后删除待译文字数据集合中与笔译记忆库中相重复的内容;其中,所述的笔译记忆库中设置有原文列一和译文列一,原文列一中存储有已译文档的原文,译文列一中对应存储有已译文档的译文;
(3)、建立一个译前处理文档,并在该译前处理文档中设置原文列、译文列和专有术语列,先将经步骤(2)处理后的待译文字数据集合中的每一个待译文字数据按顺序复制到原文列中,再根据预先制作的专有术语表,将每一个待译文字数据中涉及到的专有术语的原文和译文写入对应的专有术语列,最后得到匹配有专有术语的译前处理文档;
(4)、由译员对译前处理文档中原文列对应的所有待译文字数据进行翻译,并将译文填写至对应的译文列,得到译后处理文档;
(5)、先将待翻译文档中与译后处理文档中的原文列相同的待译文字数据替换成译文,再使用原文列一中原文所对应的译文列一中的译文替换待翻译文档中出现在原文列一中的原文,最后得到与待翻译文档相同格式的译文。
所述的处理方法中涉及到的文档均为Office文档。
所述步骤(2)中采用换行符、标点符号、空格中的一种或几种的组合对文档自动进行拆分。
所述步骤(2)中的非译文字包括标点符号、数字、单个字母、非原文文字的文字中的一种或几种的组合。
所述步骤(4)中的译后处理文档中的原文列和译文列以一一对应的方式存储在笔译记忆库中,存储后的已译文档可导出。
采用本发明的优点在于:
一、本发明的重点改进之处在于直接去掉“不完全重复”中因非译文字不同而不同的原文文字,增加了去重文字的比例,较同类翻译工具更为彻底、更为精准。译员在笔译过程中,只需笔译未重复的待译文字数据即可完成整篇文档的处理,大幅减少了笔译工作量,缩短了笔译工作时间,大大提高了笔译工作效率。
二、本发明在译前和译后的格式统一,排版难度低,可批量化处理,处理量达到24小时三千万字,并且兼容六十多种语言。
三、本发明适用Office系列格式文档,门槛低,无需其他CAT(翻译辅助)工具。
四、本发明在处理过程中锁定常见翻译文字,能够实现模板化生产,减少待翻译文字的灵活性,增强机器智能翻译的可能性。
附图说明
图1为本发明的流程图;
图2为本发明步骤(1)的流程图;
图3为本发明步骤(2)中拆分文档的流程图;
图4为本发明步骤(2)中去掉非译文字的流程图;
图5为本发明步骤(2)中去掉重复待译文字数据的流程图;
图6为本发明步骤(2)中去掉与笔译记忆库中重复待译文字数据的流程图;
图7为本发明步骤(3)中匹配专有术语的流程图;
图8为本发明步骤(3)中匹配有专有术语后的译前处理文档;
图9为本发明步骤(4)中匹配有专有术语后的译后处理文档;
图10为本发明步骤(5)中使用译后处理文档中的译文替换原文的流程图;
图11为本发明步骤(5)中使笔译记忆库中的译文替换原文的流程图;
具体实施方式
一种文档文字的处理方法,包括以下步骤:
(1)、提取待翻译文档中的文字信息,待翻译文档为Word文档或Excel文档等,然后通过清除格式功能或复制替换功能等对提取到的文字信息进行处理,统一文字信息的格式,从而得到格式统一的文档,如附图2所示。
(2)、采用换行符、标点符号、空格中的一种或几种的组合等方式对格式统一后的文档自动进行拆分,将其拆分成以单词、词组、单句中的任意一种或几种为最小单位的待译文字数据集合,如附图3所示。拆分后,先通过文字、标点符号、数字、字母等进行类型分类,去掉文档中的非译文字,如附图4所示,所述的非译文字包括标点符号、数字、单个字母、非原文文字的文字中的一种或几种的组合。去掉非译文字后,再通过排序比对去掉待译文字数据集合中重复的待译文字数据,如附图5所示。然后将剩下的每一个待译文字数据依次与笔译记忆库中的内容进行比对,而后删除待译文字数据集合中与笔译记忆库中相重复的内容,如附图6所示。其中,所述的笔译记忆库中设置有原文列一和译文列一,原文列一中存储有已译文档的原文,译文列一中对应存储有已译文档的译文,比对时主要是将待译文字数据中的内容与笔译记忆库中原文列一对应的原文进行比对。
本步骤中,所述的非译文字是指与待翻译文档中的文字信息不属于同一种类的文字及其它符号等,例如,待翻译文档为中文,那么非译文字为除中文文字之外的文字及符号等。
其中,本步骤中所述的将文档拆分成以单词、词组、单句中的任意一种或几种为最小单位的待译文字数据集合,拆分方式主要是根据待翻译文档类型所决定的,具体包括以下几种拆分方式:
a、将文档拆分成以单词为最小单位的待译文字数据集合,这种方式主要用于财务报表、词典和产品清单等文档的处理,即待译文字数据集合由单词组成,待译文字数据集合中的每一个待译文字数据对应一个单词。
b、将文档拆分成以词组为最小单位的待译文字数据集合,这种方式主要用于财务报表、词典和产品清单等文档的处理,即待译文字数据集合由词组组成,待译文字数据集合中的每一个待译文字数据对应一个词组。
c、将文档拆分成以单句为最小单位的待译文字数据集合,这种方式主要用于文稿类等文档的处理,即待译文字数据集合由单句组成,待译文字数据集合中的每一个待译文字数据对应一个单句。
d、将文档拆分成以单词为最小单位和词组为最小单位的待译文字数据集合,这种方式主要用于文稿类等文档的处理,即待译文字数据集合由单词和词组组成,待译文字数据集合中的每一个待译文字数据对应一个单词或词组。
e、将文档拆分成以单词为最小单位和单句为最小单位的待译文字数据集合,这种方式主要用于文稿类等文档的处理,即待译文字数据集合由单词和单句组成,待译文字数据集合中的每一个待译文字数据对应一个单词或单句。
f、将文档拆分成以词组为最小单位和单句为最小单位的待译文字数据集合,这种方式主要用于文稿类等文档的处理,即待译文字数据集合由词组和单句组成,待译文字数据集合中的每一个待译文字数据对应一个词组或单句。
g、将文档拆分成以单词为最小单位、词组为最小单位和单句为最小单位的待译文字数据集合,这种方式主要用于文稿类等文档的处理,即待译文字数据集合由单词、词组和单句组成,待译文字数据集合中的每一个待译文字数据对应一个单词、词组或单句。
(3)、建立一个Word或Excel格式的译前处理文档,并在该译前处理文档中设置原文列、译文列和专有术语列,先将经步骤(2)处理后的待译文字数据集合中的每一个待译文字数据按顺序复制到原文列中,再根据预先制作的专有术语表,将每一个待译文字数据中涉及到的专有术语的原文和译文写入对应的专有术语列,如附图7所示,最后得到匹配有专有术语的译前处理文档,如附图8所示。其中,专有术语表由译员根据待翻译文档所属的领域或行业自行制作。
(4)、将匹配有专有术语的译前处理文档下发给译员,由译员对译前处理文档中原文列对应的所有待译文字数据进行翻译,并将翻译后的译文填写至对应的译文列,得到译后处理文档,如附图9所示;
其中,译后处理文档中的原文列和译文列以一一对应的方式存储在笔译记忆库中,供下次处理文档前在步骤(2)进行比对使用,且存储后的已译文档可导出成其它多种格式,如PDF格式等。
(5)、先将待翻译文档中与译后处理文档中的原文列相同的待译文字数据替换成译文,如附图10所示,再使用原文列一中原文所对应的译文列一中的译文替换待翻译文档中出现在原文列一中的原文,最后得到与待翻译文档相同格式的译文,如附图11所示。
本发明在处理过程中涉及到的文档均为Office文档,所有其它相同格式的文档均可处理,只要满足计算机一级资质的人员均可以使用本方法。
本发明在处理过程中,得到的译前处理文档采用USB或网络转发的方式发送给译员处理,译员处理后的同样以USB或网络转发的方式发送给文档分配主管,处理过程简单方便。

Claims (5)

1.一种文档文字的处理方法,其特征在于包括以下步骤:
(1)、提取待翻译文档中的文字信息,并统一文字信息的格式,得到格式统一的文档;
(2)、对格式统一的文档进行拆分,将其拆分成以单词、词组、单句中的任意一种或几种为最小单位的待译文字数据集合,去掉非译文字后再去掉待译文字数据集合中重复的待译文字数据,然后将剩下的每一个待译文字数据依次与笔译记忆库中的内容进行比对,而后删除待译文字数据集合中与笔译记忆库中相重复的内容;其中,所述的笔译记忆库中设置有原文列一和译文列一,原文列一中存储有已译文档的原文,译文列一中对应存储有已译文档的译文;
(3)、建立一个译前处理文档,并在该译前处理文档中设置原文列、译文列和专有术语列,先将经步骤(2)处理后的待译文字数据集合中的每一个待译文字数据按顺序复制到原文列中,再根据预先制作的专有术语表,将每一个待译文字数据中涉及到的专有术语的原文和译文写入对应的专有术语列,最后得到匹配有专有术语的译前处理文档;
(4)、由译员对经步骤(3)得到的匹配有专有术语的译前处理文档中原文列对应的所有待译文字数据进行翻译,并将译文填写至对应的译文列,得到译后处理文档;
(5)、先将待翻译文档中与译后处理文档中的原文列相同的待译文字数据替换成译文,再使用原文列一中原文所对应的译文列一中的译文替换待翻译文档中出现在原文列一中的原文,最后得到与待翻译文档相同格式的译文。
2.如权利要求1所述的一种文档文字的处理方法,其特征在于:所述的处理方法中涉及到的文档均为Office文档。
3.如权利要求1所述的一种文档文字的处理方法,其特征在于:所述步骤(2)中采用换行符、标点符号、空格中的一种或几种的组合对文档自动进行拆分。
4.如权利要求1所述的一种文档文字的处理方法,其特征在于:所述步骤(2)中的非译文字包括标点符号、数字、单个字母、非原文文字的文字中的一种或几种的组合。
5.如权利要求1所述的一种文档文字的处理方法,其特征在于:所述步骤(4)中的译后处理文档中的原文列和译文列以一一对应的方式存储在笔译记忆库中,存储后的已译文档可导出。
CN201610122855.0A 2016-03-04 2016-03-04 一种文档文字的处理方法 Expired - Fee Related CN105808528B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610122855.0A CN105808528B (zh) 2016-03-04 2016-03-04 一种文档文字的处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610122855.0A CN105808528B (zh) 2016-03-04 2016-03-04 一种文档文字的处理方法

Publications (2)

Publication Number Publication Date
CN105808528A CN105808528A (zh) 2016-07-27
CN105808528B true CN105808528B (zh) 2019-01-25

Family

ID=56466665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610122855.0A Expired - Fee Related CN105808528B (zh) 2016-03-04 2016-03-04 一种文档文字的处理方法

Country Status (1)

Country Link
CN (1) CN105808528B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301252B (zh) * 2017-08-10 2020-05-08 传神联合(北京)信息技术有限公司 原译文匹配的方法及装置
CN107741931A (zh) * 2017-08-30 2018-02-27 捷开通讯(深圳)有限公司 操作系统框架的翻译方法、移动终端和存储装置
CN107515848A (zh) * 2017-10-12 2017-12-26 刘啸旻 书籍或电子文档的双语标注及排版方法
CN107590140B (zh) * 2017-10-17 2020-09-25 语联网(武汉)信息技术有限公司 一种文档漏译条目处理方法
CN109783826B (zh) * 2019-01-15 2023-11-21 四川译讯信息科技有限公司 一种文档自动翻译方法
CN110705319A (zh) * 2019-09-26 2020-01-17 张广睿 一种翻译方法
CN111191468B (zh) * 2019-12-17 2023-08-25 语联网(武汉)信息技术有限公司 术语替换方法及装置
CN112699692A (zh) * 2021-01-04 2021-04-23 安徽希施玛数据科技有限公司 文本的翻译控制方法、装置、电子设备及存储介质
CN112766003A (zh) * 2021-01-20 2021-05-07 语联网(武汉)信息技术有限公司 文档辅助翻译方法及装置
CN112784613A (zh) * 2021-01-29 2021-05-11 语联网(武汉)信息技术有限公司 文档批量翻译方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1801141A (zh) * 2004-06-24 2006-07-12 夏普株式会社 一种基于现有译文的储存库的翻译方法及设备
CN101034395A (zh) * 2007-03-30 2007-09-12 传神联合(北京)信息技术有限公司 一种待译文件处理系统及使用这种系统的文件处理方法
CN101276331A (zh) * 2007-03-30 2008-10-01 传神联合(北京)信息技术有限公司 信息统一方法
CN102253930A (zh) * 2010-05-18 2011-11-23 腾讯科技(深圳)有限公司 一种文本翻译的方法及装置
CN103246645A (zh) * 2013-05-27 2013-08-14 江苏圆坤科技发展有限公司 一种翻译方法和翻译系统
CN103377188A (zh) * 2012-04-24 2013-10-30 苏州引角信息科技有限公司 翻译库的构建方法及系统
CN104933041A (zh) * 2015-06-25 2015-09-23 武汉传神信息技术有限公司 一种利于翻译工作的文件抽取和还原方法
CN105183723A (zh) * 2015-09-17 2015-12-23 成都优译信息技术有限公司 一种翻译软件与语料搜索的关联方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455477B (zh) * 2013-09-09 2016-04-06 高晋愚 一种用于辅助翻译的术语统一方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1801141A (zh) * 2004-06-24 2006-07-12 夏普株式会社 一种基于现有译文的储存库的翻译方法及设备
CN101034395A (zh) * 2007-03-30 2007-09-12 传神联合(北京)信息技术有限公司 一种待译文件处理系统及使用这种系统的文件处理方法
CN101276331A (zh) * 2007-03-30 2008-10-01 传神联合(北京)信息技术有限公司 信息统一方法
CN102253930A (zh) * 2010-05-18 2011-11-23 腾讯科技(深圳)有限公司 一种文本翻译的方法及装置
CN103377188A (zh) * 2012-04-24 2013-10-30 苏州引角信息科技有限公司 翻译库的构建方法及系统
CN103246645A (zh) * 2013-05-27 2013-08-14 江苏圆坤科技发展有限公司 一种翻译方法和翻译系统
CN104933041A (zh) * 2015-06-25 2015-09-23 武汉传神信息技术有限公司 一种利于翻译工作的文件抽取和还原方法
CN105183723A (zh) * 2015-09-17 2015-12-23 成都优译信息技术有限公司 一种翻译软件与语料搜索的关联方法

Also Published As

Publication number Publication date
CN105808528A (zh) 2016-07-27

Similar Documents

Publication Publication Date Title
CN105808528B (zh) 一种文档文字的处理方法
CN105760368B (zh) 一种文档文字的深度处理方法
WO2021135444A1 (zh) 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质
CN101976253B (zh) 一种中文变异文本匹配识别方法
CN103885942B (zh) 一种快速翻译装置及方法
US7962507B2 (en) Web content mining of pair-based data
CN112766000B (zh) 基于预训练模型的机器翻译方法及系统
CN112287696B (zh) 译文后编辑方法、装置、电子设备和存储介质
CN111178061B (zh) 一种基于编码转换的多国语分词方法
CN111178088A (zh) 一种面向xml文档的可配置神经机器翻译方法
Drobac et al. OCR and post-correction of historical Finnish texts
CN109255117A (zh) 中文分词方法及装置
CN105654022A (zh) 一种提取文档结构化信息的方法及装置
CN109885641B (zh) 一种数据库中文全文检索的方法及系统
CN101539910A (zh) 一种用于计算机辅助翻译的取句方法及其系统
US20210319246A1 (en) Online training data generation for optical character recognition
CN111144142A (zh) 基于深度可分离卷积的汉越神经机器翻译方法
CN103049458A (zh) 一种修正用户词库的方法和系统
Revesz A computer-aided translation of the Cretan Hieroglyph script
CN110807338A (zh) 英汉机器翻译术语一致性自修正系统及方法
CN103324607A (zh) 一种泰语文本切词方法及装置
CN105488471A (zh) 一种字形识别方法及装置
Camps et al. Handling heavily abbreviated manuscripts: Htr engines vs text normalisation approaches
CN112836528A (zh) 机器翻译后编辑方法及系统
CN105069001A (zh) 计算机辅助翻译方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20190819

Address after: 610000 Unit 3, Unit 8, No. 1 Dongmapeng Street, Qingyang District, Chengdu City, Sichuan Province

Co-patentee after: Sichuan Dianwen Technology Co., Ltd.

Patentee after: Zhang Guangrui

Address before: 610000 Unit 3, Unit 8, No. 1 Dongmapeng Street, Qingyang District, Chengdu City, Sichuan Province

Patentee before: Zhang Guangrui

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190125

Termination date: 20200304

CF01 Termination of patent right due to non-payment of annual fee