CN114722842A

CN114722842A - 一种计算机人工智能外文翻译方法及其翻译系统

Info

Publication number: CN114722842A
Application number: CN202210450944.3A
Authority: CN
Inventors: 郭志胜; 秋超慧
Original assignee: Xi'an Lingxiangniao Culture Communication Co ltd
Current assignee: Xi'an Lingxiangniao Culture Communication Co ltd
Priority date: 2022-04-24
Filing date: 2022-04-24
Publication date: 2022-07-08

Abstract

本发明提供一种计算机人工智能外文翻译方法，提高外文翻译质量，通过利用过往沉淀的历史数据、多章节文档多人同时协作翻译编辑、翻译内容的预处理、同类翻译相关联等技术，实现提高翻译质量的同时降低翻译中的低级错误，提升翻译效率，有效利用已有的和正在协作的翻译结果，降低翻译单位成本，增加企业市场竞争力，提升社会整体翻译价值，使被翻译对象契合前后语言环境，达到翻译译文的“信、达、雅”，大大提高人们对于各种语言的驾驭能力，可促进全世界范围内的文化交流学习。

Description

一种计算机人工智能外文翻译方法及其翻译系统

技术领域

本发明涉及计算机语言翻译处理技术领域，具体涉及一种计算机人工智能外文翻译方法及其翻译系统。

背景技术

外文翻译尤其是对国外文学艺术类语言翻译是一门具有技巧性和艺术性的科学，需要付出创造性的劳动，由于各国语言背后都蕴藏着各国丰富的历史文化背景，各种语言都是由繁多的词语、复杂的语法关系和没有规律可循的习惯用法和情景适配，因此，语言翻译工作十分复杂、繁琐和枯燥，并且现有的机翻软件很难将以往翻译的经验技巧积累下来，供后续的翻译工作使用，纯粹的机器翻译还存在一定缺陷，例如：语法不通顺，歪曲译文等错误。如全部使用人工对其译文进行检查及修改需耗费大量的时间，常常比全文使用人工翻译的耗费的时间还要长，并且容易产生遗漏。

发明内容

本发明的目的在于提供一种计算机人工智能外文翻译方法，提高外文翻译质量，通过利用过往沉淀的历史数据、多章节文档多人同时协作翻译编辑、翻译内容的预处理、同类翻译相关联等技术，实现提高翻译质量的同时降低翻译中的低级错误，提升翻译效率，有效利用已有的和正在协作的翻译结果，降低翻译单位成本，增加企业市场竞争力，提升社会整体翻译价值，使被翻译对象契合前后语言环境，达到翻译译文的“信、达、雅”，大大提高人们对于各种语言的驾驭能力，可促进全世界范围内的文化交流学习。

为实现上述目的，本发明提供如下技术方案：

一种计算机人工智能外文翻译方法，包括如下步骤：

S1:用户上传翻译稿件；

S2:将上传的翻译稿件进行分词分解，对自身进行对比找出重复出现的内容归类到当前项目术语库中；

S3：拿稿件对比翻译历史库找出历史上出现过的术语，同步归类到当前项目术语库中；

S4：对稿件进行自检索通过取其海明距离、编辑距离等方式，根据已出现的频率、相似度、分类等信息计算出权重数据；

S5:将稿件与翻译历史语料库对比，通过取其海明距离、编辑距离等方式，根据出现的频率、相似度、分类等信息计算出权重数据；

S6：在译员翻译的工作页面呈现出所有预处理时产生的有效数据，可供译员选择直接赋值；

S7：多名译员在协作翻译时，按照预处理的语料关联信息进行实时关联，当译员在翻译相关内容后，其所有关联项会出现相应结果，若对应译员不认可结果，可自行修改，对应其他位置会出现两条翻译结果供译员选择，同时会列出被选择次数，可查看对应的上下问以对应语境；

S8：翻译过程中可实时手动增加术语，同时所有译员的页面都会出现相应术语的展示与提示；

S9：单词检查：译员在翻译过程中，系统会自动去单词库中查询对应的单词已判定单词是否拼写正确；

S10：单词容错：被系统标识的错误单词在审校环节结束后还未修改的会被记录到单词容错库，重复记录的会增加出现次数；

S11：在译员翻译过程中系统会根据各语种配置的规则检查出有问题的内容实时提示给译员。

进一步地，一种计算机人工智能外文翻译系统，其特征在于，包括预处理模块、译员工作模块、后期处理模块与现有技术相比，本发明的有益效果是：本发明通过利用过往沉淀的历史数据、多章节文档多人同时协作翻译编辑、翻译内容的预处理、同类翻译相关联，在保证质量的基础上，极大地提高译文的翻译速度，通过语料关联和权重设置减少翻译工作量的同时确保翻译质量，降低翻译成本，提高效率。

附图说明

图1为本发明处理流程示意图；

图2为权重关系表；

图3为语料权重表。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

优选的一个实施例：

第1步，创建一个翻译项目，设定翻译方向、背景以及其他项目信息；

第2步，上传待翻译文件；

第3步，系统将文件进行断句解析及提取并定义高频词、术语，语料拆分规则按自然语义语句结束符(。？！...“”)拆分；

断句解析：对上传的文件先进行解析，进一步地，可保留文件原格式，再按语言分句符号以及分段换行等规则对文件原文进行断句处理。

高频词、术语的提取及定义：通过专项技术对解析后的原文进行高频词、术语的提取，按照各专业领域已上传词库与原文词汇进行匹配提取并定义术语。高频词：原文中出现频率大于或等于5次的词汇；术语：与上传的词库匹配的词汇、经翻译人员人工判断定义的专有词。

第4步，系统根据历史语料库，自动匹配可选择译文；

匹配：系统根据语料库中出现的频率、相似度、分类计算出权重选项进行对比匹配，匹配出与原文相似度较高的多个可选择译文项。

第5步，多名译员协作翻译，按照预处理的语料关联信息进行实时关联。

第6步，翻译过程中可实时手动增加术语，同时所有译员的页面都会出现相应术语的展示与提示，译员在翻译过程中，系统会自动去单词库中查询对应的单词已判定单词是否拼写正确。

第7步，翻译过程中可实时手动增加匹配选项术语，同时所有译员的页面都会出现相应术语的展示与提示，此步骤可操作多文档多人编辑，在译员翻译过程中系统会根据各语种配置的规则检查出有问题的内容实时提示给译员。

第8步，对翻译结果进行检查，单词检查：译员在翻译过程中，系统会自动去单词库中查询对应的单词已判定单词是否拼写正确，单词容错：被系统标识的错误单词在审校环节结束后还未修改的会被记录到单词容错库，重复记录的会增加出现次数。

在实际技术使用过程中，用户在上传翻译稿件。

系统自动对稿件进行分词整理，先对自身进行对比找出重复出现的内容，归类到当前术项目术语库中。

系统拿稿件对比翻译历史库找出历史上出现过的术语，同步归类到当前项目术语库中。

系统自动对稿件进行自检索通过取其海明距离、编辑距离等方式，根据已出现的频率、相似度、分类等信息计算出权重数据。进行语料关联。，语料拆分规则按自然语义语句结束符(。？！...“”)拆分：

完全一致权重计算示例：

稿件中我们都是中国人。出现了3次完全一样的语句，他们的海明距离是0，权重匹配度为100(最高值)。

非完全一致权重计算示例：

稿件中出现我们都是中国人1次与我们都是中国人民1次我们都是国人1次

他们之间优选的权重关系是，如图2所示。

(100-海明距离)*0.5+(频率)*0.1+(100-编辑距离)*0.2+(句型分类相似度)*0.2

系统自动将稿件与翻译历史语料库对比，通过取其海明距离、编辑距离等方式，根据出现的频率、相似度、分类等信息计算出权重数据。进行语料关联。

当前稿件中有我们都是中国人！稿件类型历史视频

历史库中有我们都是中国人民！3次稿件类型玄幻网文

我们都是国人？ 5次稿件类型政治漫画

稿件语料与历史语料优选的权重关系是如图3所示。

(100-海明距离)*0.4+(频率)*0.1+(100-编辑距离)*0.1+(句型分类相似度)*0.1+(稿件分类)*0.2+(稿件类型)*0.1

译员在翻译的工作页面会呈现出所有预处理时产生的有效数据，可供译员选择直接赋值，提高翻译效率。

多名译员在协作翻译时，系统会自动按照预处理的语料关联信息进行实时关联，当译员在翻译相关内容后，其所有关联项会自动出现相应结果，若对应译员不认可结果，可自行修改，对应其他位置会出现两条翻译结果供译员选择，同时会列出被选择次数，可查看对应的上下问以对应语境。

翻译过程中可实时手动增加术语，同时所有译员的页面都会出现相应术语的展示与提示。

单词检查：译员在翻译过程中，系统会自动去单词库中查询对应的单词已判定单词是否拼写正确。

单词容错：被系统标识的错误单词在审校环节结束后还未修改的会被记录到单词容错库，重复记录的会增加出现次数，当重复出现5次后，系统将不在提醒此单词的错误提示。

低错检查：在译员翻译过程中系统会根据各语种配置的规则检查出有问题的内容实时提示给译员，包括语法错误、拼写错误、标点错误、中文错别字等，“未用术语”通过译文句子与目标术语库，检查译文是否应用目标术语库；“重复字词”通过检查译文是否有重复的字符。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种计算机人工智能外文翻译方法，其特征在于，包括如下步骤：

S1:用户上传翻译稿件；

S2:将上传的翻译稿件进行分词分解，对自身进行对比找出重复出现的内容归类到术项目术语库中；

S5:将稿件与翻译历史语料库对比；

S7：多名译员在协作翻译时，按照预处理的语料关联信息进行实时关联；

2.根据权利要求1所述的一种计算机人工智能外文翻译方法，其特征在于，通过取其海明距离、编辑距离方式，根据出现的频率、相似度、分类等信息计算出权重数据。

3.根据权利要求1所述的一种计算机人工智能外文翻译方法，其特征在于，当译员在翻译相关内容后，其所有关联项会出现相应结果，若对应译员不认可结果，可自行修改，对应其他位置会出现根据翻译记忆语料及原文进行对比匹配的两条翻译结果供译员选择，同时会列出被选择次数，可查看对应的上下问以对应语境。

4.根据权利要求1所述的一种计算机人工智能外文翻译方法，其特征在于，所述分词分解的含义为对上传的翻译稿件先进行解析，再按语言分句符号以及分段换行等规则对文件原文进行符合语言逻辑的断句处理。

5.根据权利要求1所述的一种计算机人工智能外文翻译方法，其特征在于，翻译完成后系统会对译文进行检查，包括单语质检、双语质检，情景语境预警等。

6.一种计算机人工智能外文翻译系统，其特征在于，包括预处理模块、译员工作模块、后期处理模块。