CN114330376A

CN114330376A - 一种计算机辅助翻译系统及方法

Info

Publication number: CN114330376A
Application number: CN202111350718.XA
Authority: CN
Inventors: 田佳成
Original assignee: Jiaguyi Beijing Language Technology Co ltd
Current assignee: Jiaguyi Beijing Language Technology Co ltd
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2022-04-12

Abstract

本发明具体涉及一种计算机辅助翻译系统及方法，该系统包括拆分模块、标注模块、搜索模块和统计模块；其中，拆分模块用于对原文和译文进行拆解；标注模块用于对拆解后的文件进行标注；搜索模块用于对要翻译的句子和数据库中的句子进行对比匹配，对比时根据句子结构、标注属性进行判断，选出最优结果；统计模块用于对结果进行统计。本发明的计算机辅助翻译系统及方法能达到基于语法的待翻译文字和数据库已有文字对比，包括但不限于语法，词性，时态等，可以更加清晰的指明两个句子的不同之处，也可以判断出两个表面上是不同的句子但实际上意义是相同的，因此翻译准确性和效率高。

Description

一种计算机辅助翻译系统及方法

技术领域

本发明属于语言处理技术领域，具体涉及一种计算机辅助翻译系统及方法。

背景技术

随着科学技术和互联网的快速发展，计算机和网络技术已经深入我们工作、生活的方方面面。近些年机器翻译技术取得了巨大的进步，但是由于自然语言的复杂性，机器翻译的译文难以做到完满的程度。同时传统机器翻译的结果只提供给用户一个最佳译文，并没有提供帮助用户修改翻译结果的辅助信息，这使得对于外语水平较低的用户很难对译文做出修改，阻碍了机器翻译的普及应用。

现阶段翻译技术主要分为三种：人工翻译、计算机辅助翻译以及机器翻译加译后编辑。人工翻译准确度较高，但是速度较慢，并且准确度依赖译员主观的能力水平；机器翻译速度快，然而大部分机器翻译的结果并不能直接拿来使用，通常会存在明显的错翻以及语法错误，还是需要通过人工翻译进行进一步校正，并且无法更好的处理生词，一词多义等复杂语言情况；计算机辅助翻译则是介于二者之间的一种翻译方法，其基本思路是由计算机基于翻译记忆库和术语库中的数据在人工翻译时给多条出实时建议，保障近似句，词的一致性，最大程度兼容机器的结果并且发挥翻译的主观能动性。

现有技术方案是将翻译句对存储在SQLLite数据库或SQLServer数据库中，翻译时进行基于单词的比较，如果单词不同则，提示出翻译结果(译文)，基于比较的匹配率，使用最终修订方式的原文对比结果。但是，待翻译文字和数据库已有文字对比时使用的是基于单词的对比方法，不符合语言习惯，没有包含语法结构、词性、时态等，准确性较差、翻译效率低。

发明内容

为了解决现有技术中存在的翻译准确性不高和翻译效率低的问题，本发明提供了一种计算机辅助翻译系统及方法，能达到基于语法的待翻译文字和数据库已有文字对比，包括但不限于语法，词性，时态等，可以更加清晰的指明两个句子的不同之处，也可以判断出两个表面上是不同的句子但实际上意义是相同的，因此翻译准确性和效率高。

本发明要解决的技术问题通过以下技术方案实现：

一种计算机辅助翻译系统，包括：拆分模块、标注模块、搜索模块和统计模块；

所述拆分模块用于对原文和译文进行拆解；

所述标注模块用于对拆解后的文件进行标注；

所述搜索模块用于对要翻译的句子和数据库中的句子进行对比匹配，对比时根据句子结构、标注属性进行判断，选出最优结果；

所述统计模块用于对结果进行统计。

进一步地，上述拆分模块将篇章段落基于语法和标点符号拆解为句子。

进一步地，上述标注模块对拆解出来的句子进行标注，包括为动词标注时态，对句子结构进行归类，将句子中的量词短语进行单独标注，对句子中出现的连续大写字母单词、Camel Word驼峰式单词、数字、文件路径或网址、邮箱进行单独标注。

进一步地，上述量词短语包括时间、质量、体积、长度、面积、容积和速度。

进一步地，上述数字包括整数、分数、小数、正数和负数。

进一步地，上述搜索模块对比时根据句子结构、标注属性进行判断，并且忽略时态带来的差异，对于量词短语，仅数字部分的不同进行忽略，基于多种规则和维度对句子的匹配情况进行评分，选出最优结果。

进一步地，上述统计模块对要翻译的句子进行字数统计，统计中一个整体单元记为一个单词，记录无法匹配的句子字数，能够模糊匹配的字数，句子的已标注，可替换单元的数量。

一种计算机辅助翻译方法，主要包括如下步骤：

步骤一：将翻译对原文和译文进行拆解，将篇章段落基于语法和标点符号拆解为句子；

步骤二：将拆解出来的句子，为动词标注时态，对句子结构进行归类，将句子中的量词短语进行单独标注，对句子中出现的连续大写字母单词、Camel Word驼峰式单词、数字、文件路径或网址、邮箱进行单独标注；

步骤三：将要翻译的句子和数据库中的句子进行对比匹配，对比时根据句子结构、标注属性进行判断，并且忽略时态带来的差异，对于量词短语，仅数字部分的不同进行忽略，基于多种规则和维度对句子的匹配情况进行评分，选出最优结果；

步骤四：对要翻译的句子进行字数统计，统计中一个整体单元记为一个单词，记录无法匹配的句子字数，能够模糊匹配的字数，句子的已标注，可替换单元的数量。

进一步地，上述的计算机辅助翻译方法中，所述量词短语包括时间、质量、体积、长度、面积、容积和速度。

进一步地，上述的计算机辅助翻译方法中，所述数字包括整数、分数、小数、正数和负数。

与现有技术相比，本发明的有益效果：

本发明的计算机辅助翻译系统包括拆分模块、标注模块、搜索模块和统计模块，本发明的计算机辅助翻译系统和方法能达到基于语法的待翻译文字和数据库已有文字对比，包括但不限于语法、词性、时态等，可以更加清晰的指明两个句子的不同之处，也可以判断出两个表面上是不同的句子但实际上意义是相同的，因此提高了翻译效率和翻译的准确性。

附图说明

图1是本发明计算机辅助翻译流程图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

本实施例提供了一种计算机辅助翻译系统及方法，能达到基于语法的待翻译文字和数据库已有文字对比，包括但不限于语法，词性，时态等，可以更加清晰的指明两个句子的不同之处，也可以判断出两个表面上是不同的句子但实际上意义是相同的，因此翻译准确性和效率高。

参照附图1，该计算机辅助翻译系统，包括：拆分模块、标注模块、搜索模块和统计模块。其中，拆分模块用于对原文和译文进行拆解，将篇章段落基于语法和标点符号拆解为句子。

标注模块用于对拆解后的文件进行标注，包括为动词标注时态，对句子结构进行归类，将句子中的量词短语进行单独标注，对句子中出现的连续大写字母单词、Camel Word驼峰式单词、数字、文件路径或网址、邮箱进行单独标注。其中，量词短语包括时间、质量、体积、长度、面积、容积、速度等。数字包括整数、分数、小数、正数、负数等。

搜索模块用于对要翻译的句子和数据库中的句子进行对比匹配，对比时根据句子结构、标注属性等进行判断，忽略时态带来的差异，对于量词短语，仅数字部分的不同进行忽略，基于多种规则和维度对句子的匹配情况进行评分，选出最优结果。

统计模块对要翻译的句子进行字数统计，统计中一个整体单元记为一个单词，记录无法匹配的句子字数，能够模糊匹配的字数，句子的已标注，可替换单元的数量等。

本实施例还提供了一种计算机辅助翻译方法，该计算机辅助翻译方法主要包括如下步骤：

步骤三：将要翻译的句子和数据库中的句子进行对比匹配，对比时根据句子结构、标注属性等进行判断，并且忽略时态带来的差异，对于量词短语，仅数字部分的不同进行忽略，基于多种规则和维度对句子的匹配情况进行评分，选出最优结果；

步骤四：对要翻译的句子进行字数统计，统计中一个整体单元记为一个单词，记录无法匹配的句子字数，能够模糊匹配的字数，句子的已标注，可替换单元的数量等。

具体地，量词短语是指时间、质量、体积、长度、面积、容积、速度等；数字是指整数、分数、小数、正数、负数等。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种计算机辅助翻译系统，其特征在于：包括拆分模块、标注模块、搜索模块和统计模块；

所述拆分模块用于对原文和译文进行拆解；

所述标注模块用于对拆解后的文件进行标注；

所述统计模块用于对结果进行统计。

2.根据权利要求1所述的计算机辅助翻译系统，其特征在于：所述拆分模块将篇章段落基于语法和标点符号拆解为句子。

3.根据权利要求2所述的计算机辅助翻译系统，其特征在于：所述标注模块对拆解出来的句子进行标注，包括为动词标注时态，对句子结构进行归类，将句子中的量词短语进行单独标注，对句子中出现的连续大写字母单词、CamelWord驼峰式单词、数字、文件路径或网址、邮箱进行单独标注。

4.根据权利要求3所述的计算机辅助翻译系统，其特征在于：所述量词短语包括时间、质量、体积、长度、面积、容积和速度。

5.根据权利要求3所述的计算机辅助翻译系统，其特征在于：所述数字包括整数、分数、小数、正数和负数。

6.根据权利要求3所述的计算机辅助翻译系统，其特征在于：所述搜索模块对比时根据句子结构、标注属性进行判断，并且忽略时态带来的差异，对于量词短语，仅数字部分的不同进行忽略，基于多种规则和维度对句子的匹配情况进行评分，选出最优结果。

7.根据权利要求6所述的计算机辅助翻译系统，其特征在于：所述统计模块对要翻译的句子进行字数统计，统计中一个整体单元记为一个单词，记录无法匹配的句子字数，能够模糊匹配的字数，句子的已标注，可替换单元的数量。

8.一种计算机辅助翻译方法，其特征在于，主要包括如下步骤：

步骤二：将拆解出来的句子，为动词标注时态，对句子结构进行归类，将句子中的量词短语进行单独标注，对句子中出现的连续大写字母单词、CamelWord驼峰式单词、数字、文件路径或网址、邮箱进行单独标注；

9.根据权利要求8所述的计算机辅助翻译方法，其特征在于：所述量词短语包括时间、质量、体积、长度、面积、容积和速度。

10.根据权利要求8所述的计算机辅助翻译方法，其特征在于：所述数字包括整数、分数、小数、正数和负数。