CN114330376A - 一种计算机辅助翻译系统及方法 - Google Patents

一种计算机辅助翻译系统及方法 Download PDF

Info

Publication number
CN114330376A
CN114330376A CN202111350718.XA CN202111350718A CN114330376A CN 114330376 A CN114330376 A CN 114330376A CN 202111350718 A CN202111350718 A CN 202111350718A CN 114330376 A CN114330376 A CN 114330376A
Authority
CN
China
Prior art keywords
sentences
module
computer
translated
aided translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111350718.XA
Other languages
English (en)
Inventor
田佳成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiaguyi Beijing Language Technology Co ltd
Original Assignee
Jiaguyi Beijing Language Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiaguyi Beijing Language Technology Co ltd filed Critical Jiaguyi Beijing Language Technology Co ltd
Priority to CN202111350718.XA priority Critical patent/CN114330376A/zh
Publication of CN114330376A publication Critical patent/CN114330376A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明具体涉及一种计算机辅助翻译系统及方法,该系统包括拆分模块、标注模块、搜索模块和统计模块;其中,拆分模块用于对原文和译文进行拆解;标注模块用于对拆解后的文件进行标注;搜索模块用于对要翻译的句子和数据库中的句子进行对比匹配,对比时根据句子结构、标注属性进行判断,选出最优结果;统计模块用于对结果进行统计。本发明的计算机辅助翻译系统及方法能达到基于语法的待翻译文字和数据库已有文字对比,包括但不限于语法,词性,时态等,可以更加清晰的指明两个句子的不同之处,也可以判断出两个表面上是不同的句子但实际上意义是相同的,因此翻译准确性和效率高。

Description

一种计算机辅助翻译系统及方法
技术领域
本发明属于语言处理技术领域,具体涉及一种计算机辅助翻译系统及方法。
背景技术
随着科学技术和互联网的快速发展,计算机和网络技术已经深入我们工作、生活的方方面面。近些年机器翻译技术取得了巨大的进步,但是由于自然语言的复杂性,机器翻译的译文难以做到完满的程度。同时传统机器翻译的结果只提供给用户一个最佳译文,并没有提供帮助用户修改翻译结果的辅助信息,这使得对于外语水平较低的用户很难对译文做出修改,阻碍了机器翻译的普及应用。
现阶段翻译技术主要分为三种:人工翻译、计算机辅助翻译以及机器翻译加译后编辑。人工翻译准确度较高,但是速度较慢,并且准确度依赖译员主观的能力水平;机器翻译速度快,然而大部分机器翻译的结果并不能直接拿来使用,通常会存在明显的错翻以及语法错误,还是需要通过人工翻译进行进一步校正,并且无法更好的处理生词,一词多义等复杂语言情况;计算机辅助翻译则是介于二者之间的一种翻译方法,其基本思路是由计算机基于翻译记忆库和术语库中的数据在人工翻译时给多条出实时建议,保障近似句,词的一致性,最大程度兼容机器的结果并且发挥翻译的主观能动性。
现有技术方案是将翻译句对存储在SQLLite数据库或SQLServer数据库中,翻译时进行基于单词的比较,如果单词不同则,提示出翻译结果(译文),基于比较的匹配率,使用最终修订方式的原文对比结果。但是,待翻译文字和数据库已有文字对比时使用的是基于单词的对比方法,不符合语言习惯,没有包含语法结构、词性、时态等,准确性较差、翻译效率低。
发明内容
为了解决现有技术中存在的翻译准确性不高和翻译效率低的问题,本发明提供了一种计算机辅助翻译系统及方法,能达到基于语法的待翻译文字和数据库已有文字对比,包括但不限于语法,词性,时态等,可以更加清晰的指明两个句子的不同之处,也可以判断出两个表面上是不同的句子但实际上意义是相同的,因此翻译准确性和效率高。
本发明要解决的技术问题通过以下技术方案实现:
一种计算机辅助翻译系统,包括:拆分模块、标注模块、搜索模块和统计模块;
所述拆分模块用于对原文和译文进行拆解;
所述标注模块用于对拆解后的文件进行标注;
所述搜索模块用于对要翻译的句子和数据库中的句子进行对比匹配,对比时根据句子结构、标注属性进行判断,选出最优结果;
所述统计模块用于对结果进行统计。
进一步地,上述拆分模块将篇章段落基于语法和标点符号拆解为句子。
进一步地,上述标注模块对拆解出来的句子进行标注,包括为动词标注时态,对句子结构进行归类,将句子中的量词短语进行单独标注,对句子中出现的连续大写字母单词、Camel Word驼峰式单词、数字、文件路径或网址、邮箱进行单独标注。
进一步地,上述量词短语包括时间、质量、体积、长度、面积、容积和速度。
进一步地,上述数字包括整数、分数、小数、正数和负数。
进一步地,上述搜索模块对比时根据句子结构、标注属性进行判断,并且忽略时态带来的差异,对于量词短语,仅数字部分的不同进行忽略,基于多种规则和维度对句子的匹配情况进行评分,选出最优结果。
进一步地,上述统计模块对要翻译的句子进行字数统计,统计中一个整体单元记为一个单词,记录无法匹配的句子字数,能够模糊匹配的字数,句子的已标注,可替换单元的数量。
一种计算机辅助翻译方法,主要包括如下步骤:
步骤一:将翻译对原文和译文进行拆解,将篇章段落基于语法和标点符号拆解为句子;
步骤二:将拆解出来的句子,为动词标注时态,对句子结构进行归类,将句子中的量词短语进行单独标注,对句子中出现的连续大写字母单词、Camel Word驼峰式单词、数字、文件路径或网址、邮箱进行单独标注;
步骤三:将要翻译的句子和数据库中的句子进行对比匹配,对比时根据句子结构、标注属性进行判断,并且忽略时态带来的差异,对于量词短语,仅数字部分的不同进行忽略,基于多种规则和维度对句子的匹配情况进行评分,选出最优结果;
步骤四:对要翻译的句子进行字数统计,统计中一个整体单元记为一个单词,记录无法匹配的句子字数,能够模糊匹配的字数,句子的已标注,可替换单元的数量。
进一步地,上述的计算机辅助翻译方法中,所述量词短语包括时间、质量、体积、长度、面积、容积和速度。
进一步地,上述的计算机辅助翻译方法中,所述数字包括整数、分数、小数、正数和负数。
与现有技术相比,本发明的有益效果:
本发明的计算机辅助翻译系统包括拆分模块、标注模块、搜索模块和统计模块,本发明的计算机辅助翻译系统和方法能达到基于语法的待翻译文字和数据库已有文字对比,包括但不限于语法、词性、时态等,可以更加清晰的指明两个句子的不同之处,也可以判断出两个表面上是不同的句子但实际上意义是相同的,因此提高了翻译效率和翻译的准确性。
附图说明
图1是本发明计算机辅助翻译流程图。
具体实施方式
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
本实施例提供了一种计算机辅助翻译系统及方法,能达到基于语法的待翻译文字和数据库已有文字对比,包括但不限于语法,词性,时态等,可以更加清晰的指明两个句子的不同之处,也可以判断出两个表面上是不同的句子但实际上意义是相同的,因此翻译准确性和效率高。
参照附图1,该计算机辅助翻译系统,包括:拆分模块、标注模块、搜索模块和统计模块。其中,拆分模块用于对原文和译文进行拆解,将篇章段落基于语法和标点符号拆解为句子。
标注模块用于对拆解后的文件进行标注,包括为动词标注时态,对句子结构进行归类,将句子中的量词短语进行单独标注,对句子中出现的连续大写字母单词、Camel Word驼峰式单词、数字、文件路径或网址、邮箱进行单独标注。其中,量词短语包括时间、质量、体积、长度、面积、容积、速度等。数字包括整数、分数、小数、正数、负数等。
搜索模块用于对要翻译的句子和数据库中的句子进行对比匹配,对比时根据句子结构、标注属性等进行判断,忽略时态带来的差异,对于量词短语,仅数字部分的不同进行忽略,基于多种规则和维度对句子的匹配情况进行评分,选出最优结果。
统计模块对要翻译的句子进行字数统计,统计中一个整体单元记为一个单词,记录无法匹配的句子字数,能够模糊匹配的字数,句子的已标注,可替换单元的数量等。
本实施例还提供了一种计算机辅助翻译方法,该计算机辅助翻译方法主要包括如下步骤:
步骤一:将翻译对原文和译文进行拆解,将篇章段落基于语法和标点符号拆解为句子;
步骤二:将拆解出来的句子,为动词标注时态,对句子结构进行归类,将句子中的量词短语进行单独标注,对句子中出现的连续大写字母单词、Camel Word驼峰式单词、数字、文件路径或网址、邮箱进行单独标注;
步骤三:将要翻译的句子和数据库中的句子进行对比匹配,对比时根据句子结构、标注属性等进行判断,并且忽略时态带来的差异,对于量词短语,仅数字部分的不同进行忽略,基于多种规则和维度对句子的匹配情况进行评分,选出最优结果;
步骤四:对要翻译的句子进行字数统计,统计中一个整体单元记为一个单词,记录无法匹配的句子字数,能够模糊匹配的字数,句子的已标注,可替换单元的数量等。
具体地,量词短语是指时间、质量、体积、长度、面积、容积、速度等;数字是指整数、分数、小数、正数、负数等。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种计算机辅助翻译系统,其特征在于:包括拆分模块、标注模块、搜索模块和统计模块;
所述拆分模块用于对原文和译文进行拆解;
所述标注模块用于对拆解后的文件进行标注;
所述搜索模块用于对要翻译的句子和数据库中的句子进行对比匹配,对比时根据句子结构、标注属性进行判断,选出最优结果;
所述统计模块用于对结果进行统计。
2.根据权利要求1所述的计算机辅助翻译系统,其特征在于:所述拆分模块将篇章段落基于语法和标点符号拆解为句子。
3.根据权利要求2所述的计算机辅助翻译系统,其特征在于:所述标注模块对拆解出来的句子进行标注,包括为动词标注时态,对句子结构进行归类,将句子中的量词短语进行单独标注,对句子中出现的连续大写字母单词、CamelWord驼峰式单词、数字、文件路径或网址、邮箱进行单独标注。
4.根据权利要求3所述的计算机辅助翻译系统,其特征在于:所述量词短语包括时间、质量、体积、长度、面积、容积和速度。
5.根据权利要求3所述的计算机辅助翻译系统,其特征在于:所述数字包括整数、分数、小数、正数和负数。
6.根据权利要求3所述的计算机辅助翻译系统,其特征在于:所述搜索模块对比时根据句子结构、标注属性进行判断,并且忽略时态带来的差异,对于量词短语,仅数字部分的不同进行忽略,基于多种规则和维度对句子的匹配情况进行评分,选出最优结果。
7.根据权利要求6所述的计算机辅助翻译系统,其特征在于:所述统计模块对要翻译的句子进行字数统计,统计中一个整体单元记为一个单词,记录无法匹配的句子字数,能够模糊匹配的字数,句子的已标注,可替换单元的数量。
8.一种计算机辅助翻译方法,其特征在于,主要包括如下步骤:
步骤一:将翻译对原文和译文进行拆解,将篇章段落基于语法和标点符号拆解为句子;
步骤二:将拆解出来的句子,为动词标注时态,对句子结构进行归类,将句子中的量词短语进行单独标注,对句子中出现的连续大写字母单词、CamelWord驼峰式单词、数字、文件路径或网址、邮箱进行单独标注;
步骤三:将要翻译的句子和数据库中的句子进行对比匹配,对比时根据句子结构、标注属性进行判断,并且忽略时态带来的差异,对于量词短语,仅数字部分的不同进行忽略,基于多种规则和维度对句子的匹配情况进行评分,选出最优结果;
步骤四:对要翻译的句子进行字数统计,统计中一个整体单元记为一个单词,记录无法匹配的句子字数,能够模糊匹配的字数,句子的已标注,可替换单元的数量。
9.根据权利要求8所述的计算机辅助翻译方法,其特征在于:所述量词短语包括时间、质量、体积、长度、面积、容积和速度。
10.根据权利要求8所述的计算机辅助翻译方法,其特征在于:所述数字包括整数、分数、小数、正数和负数。
CN202111350718.XA 2021-11-15 2021-11-15 一种计算机辅助翻译系统及方法 Pending CN114330376A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111350718.XA CN114330376A (zh) 2021-11-15 2021-11-15 一种计算机辅助翻译系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111350718.XA CN114330376A (zh) 2021-11-15 2021-11-15 一种计算机辅助翻译系统及方法

Publications (1)

Publication Number Publication Date
CN114330376A true CN114330376A (zh) 2022-04-12

Family

ID=81045232

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111350718.XA Pending CN114330376A (zh) 2021-11-15 2021-11-15 一种计算机辅助翻译系统及方法

Country Status (1)

Country Link
CN (1) CN114330376A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114970564A (zh) * 2022-06-16 2022-08-30 北京汉端科技有限公司 基于云平台微服务化民航安全管理sop系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101019113A (zh) * 2004-08-11 2007-08-15 Sdl有限公司 用于翻译系统的计算机实现的方法
CN102831109A (zh) * 2012-08-08 2012-12-19 中国专利信息中心 一种基于智能匹配的机器翻译装置及其方法
CN103116578A (zh) * 2013-02-07 2013-05-22 北京赛迪翻译技术有限公司 一种融合句法树和统计机器翻译技术的翻译方法与装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101019113A (zh) * 2004-08-11 2007-08-15 Sdl有限公司 用于翻译系统的计算机实现的方法
CN102831109A (zh) * 2012-08-08 2012-12-19 中国专利信息中心 一种基于智能匹配的机器翻译装置及其方法
CN103116578A (zh) * 2013-02-07 2013-05-22 北京赛迪翻译技术有限公司 一种融合句法树和统计机器翻译技术的翻译方法与装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114970564A (zh) * 2022-06-16 2022-08-30 北京汉端科技有限公司 基于云平台微服务化民航安全管理sop系统

Similar Documents

Publication Publication Date Title
US6278967B1 (en) Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis
CN110852117B (zh) 一种提升神经机器翻译效果的有效数据增强方法
Karimi et al. Machine transliteration survey
Och et al. A smorgasbord of features for statistical machine translation
US7672832B2 (en) Standardized natural language chunking utility
CN1205572C (zh) 对拼写、打字和转换错误具有容错能力的将一种文本形式转换为另一种文本形式的语言输入体系结构
US6978275B2 (en) Method and system for mining a document containing dirty text
CN101706777B (zh) 机器翻译中抽取调序模板的方法及系统
US20050216253A1 (en) System and method for reverse transliteration using statistical alignment
Bar-Haim et al. Part-of-speech tagging of Modern Hebrew text
CN110263154A (zh) 一种网络舆情情感态势量化方法、系统及存储介质
CN111950301A (zh) 一种中译英的英语译文质量分析方法及系统
CN112417823B (zh) 一种中文文本语序调整和量词补全方法及系统
JP2004513458A (ja) ユーザが変更可能な翻訳のウエイト
Simard Building and using parallel text for translation
Álvarez et al. Towards customized automatic segmentation of subtitles
Yun et al. A Chinese-English patent machine translation system based on the theory of hierarchical network of concepts
Callison-Burch et al. Co-training for statistical machine translation
WO1997040453A1 (en) Automated natural language processing
CN114330376A (zh) 一种计算机辅助翻译系统及方法
CN113657122A (zh) 一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法
CN112765977A (zh) 一种基于跨语言数据增强的分词方法及装置
Huang et al. Generating Recommendation Evidence Using Translation Model.
Tufiş et al. Extracting multilingual lexicons from parallel corpora
CN111178060A (zh) 一种基于语言模型的韩语分词还原方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination