CN114722842A - 一种计算机人工智能外文翻译方法及其翻译系统 - Google Patents
一种计算机人工智能外文翻译方法及其翻译系统 Download PDFInfo
- Publication number
- CN114722842A CN114722842A CN202210450944.3A CN202210450944A CN114722842A CN 114722842 A CN114722842 A CN 114722842A CN 202210450944 A CN202210450944 A CN 202210450944A CN 114722842 A CN114722842 A CN 114722842A
- Authority
- CN
- China
- Prior art keywords
- translation
- translator
- manuscript
- words
- foreign language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/49—Data-driven translation using very large corpora, e.g. the web
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种计算机人工智能外文翻译方法,提高外文翻译质量,通过利用过往沉淀的历史数据、多章节文档多人同时协作翻译编辑、翻译内容的预处理、同类翻译相关联等技术,实现提高翻译质量的同时降低翻译中的低级错误,提升翻译效率,有效利用已有的和正在协作的翻译结果,降低翻译单位成本,增加企业市场竞争力,提升社会整体翻译价值,使被翻译对象契合前后语言环境,达到翻译译文的“信、达、雅”,大大提高人们对于各种语言的驾驭能力,可促进全世界范围内的文化交流学习。
Description
技术领域
本发明涉及计算机语言翻译处理技术领域,具体涉及一种计算机人工智能外文翻译方法及其翻译系统。
背景技术
外文翻译尤其是对国外文学艺术类语言翻译是一门具有技巧性和艺术性的科学,需要付出创造性的劳动,由于各国语言背后都蕴藏着各国丰富的历史文化背景,各种语言都是由繁多的词语、复杂的语法关系和没有规律可循的习惯用法和情景适配,因此,语言翻译工作十分复杂、繁琐和枯燥,并且现有的机翻软件很难将以往翻译的经验技巧积累下来,供后续的翻译工作使用,纯粹的机器翻译还存在一定缺陷,例如:语法不通顺,歪曲译文等错误。如全部使用人工对其译文进行检查及修改需耗费大量的时间,常常比全文使用人工翻译的耗费的时间还要长,并且容易产生遗漏。
发明内容
本发明的目的在于提供一种计算机人工智能外文翻译方法,提高外文翻译质量,通过利用过往沉淀的历史数据、多章节文档多人同时协作翻译编辑、翻译内容的预处理、同类翻译相关联等技术,实现提高翻译质量的同时降低翻译中的低级错误,提升翻译效率,有效利用已有的和正在协作的翻译结果,降低翻译单位成本,增加企业市场竞争力,提升社会整体翻译价值,使被翻译对象契合前后语言环境,达到翻译译文的“信、达、雅”,大大提高人们对于各种语言的驾驭能力,可促进全世界范围内的文化交流学习。
为实现上述目的,本发明提供如下技术方案:
一种计算机人工智能外文翻译方法,包括如下步骤:
S1:用户上传翻译稿件;
S2:将上传的翻译稿件进行分词分解,对自身进行对比找出重复出现的内容归类到当前项目术语库中;
S3:拿稿件对比翻译历史库找出历史上出现过的术语,同步归类到当前项目术语库中;
S4:对稿件进行自检索通过取其海明距离、编辑距离等方式,根据已出现的频率、相似度、分类等信息计算出权重数据;
S5:将稿件与翻译历史语料库对比,通过取其海明距离、编辑距离等方式,根据出现的频率、相似度、分类等信息计算出权重数据;
S6:在译员翻译的工作页面呈现出所有预处理时产生的有效数据,可供译员选择直接赋值;
S7:多名译员在协作翻译时,按照预处理的语料关联信息进行实时关联,当译员在翻译相关内容后,其所有关联项会出现相应结果,若对应译员不认可结果,可自行修改,对应其他位置会出现两条翻译结果供译员选择,同时会列出被选择次数,可查看对应的上下问以对应语境;
S8:翻译过程中可实时手动增加术语,同时所有译员的页面都会出现相应术语的展示与提示;
S9:单词检查:译员在翻译过程中,系统会自动去单词库中查询对应的单词已判定单词是否拼写正确;
S10:单词容错:被系统标识的错误单词在审校环节结束后还未修改的会被记录到单词容错库,重复记录的会增加出现次数;
S11:在译员翻译过程中系统会根据各语种配置的规则检查出有问题的内容实时提示给译员。
进一步地,一种计算机人工智能外文翻译系统,其特征在于,包括预处理模块、译员工作模块、后期处理模块与现有技术相比,本发明的有益效果是:本发明通过利用过往沉淀的历史数据、多章节文档多人同时协作翻译编辑、翻译内容的预处理、同类翻译相关联,在保证质量的基础上,极大地提高译文的翻译速度,通过语料关联和权重设置减少翻译工作量的同时确保翻译质量,降低翻译成本,提高效率。
附图说明
图1为本发明处理流程示意图;
图2为权重关系表;
图3为语料权重表。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
优选的一个实施例:
第1步,创建一个翻译项目,设定翻译方向、背景以及其他项目信息;
第2步,上传待翻译文件;
第3步,系统将文件进行断句解析及提取并定义高频词、术语,语料拆分规则按自然语义语句结束符(。?!...“”)拆分;
断句解析:对上传的文件先进行解析,进一步地,可保留文件原格式,再按语言分句符号以及分段换行等规则对文件原文进行断句处理。
高频词、术语的提取及定义:通过专项技术对解析后的原文进行高频词、术语的提取,按照各专业领域已上传词库与原文词汇进行匹配提取并定义术语。高频词:原文中出现频率大于或等于5次的词汇;术语:与上传的词库匹配的词汇、经翻译人员人工判断定义的专有词。
第4步,系统根据历史语料库,自动匹配可选择译文;
匹配:系统根据语料库中出现的频率、相似度、分类计算出权重选项进行对比匹配,匹配出与原文相似度较高的多个可选择译文项。
第5步,多名译员协作翻译,按照预处理的语料关联信息进行实时关联。
第6步,翻译过程中可实时手动增加术语,同时所有译员的页面都会出现相应术语的展示与提示,译员在翻译过程中,系统会自动去单词库中查询对应的单词已判定单词是否拼写正确。
第7步,翻译过程中可实时手动增加匹配选项术语,同时所有译员的页面都会出现相应术语的展示与提示,此步骤可操作多文档多人编辑,在译员翻译过程中系统会根据各语种配置的规则检查出有问题的内容实时提示给译员。
第8步,对翻译结果进行检查,单词检查:译员在翻译过程中,系统会自动去单词库中查询对应的单词已判定单词是否拼写正确,单词容错:被系统标识的错误单词在审校环节结束后还未修改的会被记录到单词容错库,重复记录的会增加出现次数。
在实际技术使用过程中,用户在上传翻译稿件。
系统自动对稿件进行分词整理,先对自身进行对比找出重复出现的内容,归类到当前术项目术语库中。
系统拿稿件对比翻译历史库找出历史上出现过的术语,同步归类到当前项目术语库中。
系统自动对稿件进行自检索通过取其海明距离、编辑距离等方式,根据已出现的频率、相似度、分类等信息计算出权重数据。进行语料关联。,语料拆分规则按自然语义语句结束符(。?!...“”)拆分:
完全一致权重计算示例:
稿件中我们都是中国人。出现了3次完全一样的语句,他们的海明距离是0,权重匹配度为100(最高值)。
非完全一致权重计算示例:
稿件中出现我们都是中国人1次与我们都是中国人民1次我们都是国人1次
他们之间优选的权重关系是,如图2所示。
(100-海明距离)*0.5+(频率)*0.1+(100-编辑距离)*0.2+(句型分类相似度)*0.2
系统自动将稿件与翻译历史语料库对比,通过取其海明距离、编辑距离等方式,根据出现的频率、相似度、分类等信息计算出权重数据。进行语料关联。
当前稿件中有 我们都是中国人! 稿件类型 历史 视频
历史库中有 我们都是中国人民!3次 稿件类型 玄幻 网文
我们都是国人? 5次 稿件类型 政治 漫画
稿件语料与历史语料优选的权重关系是如图3所示。
(100-海明距离)*0.4+(频率)*0.1+(100-编辑距离)*0.1+(句型分类相似度)*0.1+(稿件分类)*0.2+(稿件类型)*0.1
译员在翻译的工作页面会呈现出所有预处理时产生的有效数据,可供译员选择直接赋值,提高翻译效率。
多名译员在协作翻译时,系统会自动按照预处理的语料关联信息进行实时关联,当译员在翻译相关内容后,其所有关联项会自动出现相应结果,若对应译员不认可结果,可自行修改,对应其他位置会出现两条翻译结果供译员选择,同时会列出被选择次数,可查看对应的上下问以对应语境。
翻译过程中可实时手动增加术语,同时所有译员的页面都会出现相应术语的展示与提示。
单词检查:译员在翻译过程中,系统会自动去单词库中查询对应的单词已判定单词是否拼写正确。
单词容错:被系统标识的错误单词在审校环节结束后还未修改的会被记录到单词容错库,重复记录的会增加出现次数,当重复出现5次后,系统将不在提醒此单词的错误提示。
低错检查:在译员翻译过程中系统会根据各语种配置的规则检查出有问题的内容实时提示给译员,包括语法错误、拼写错误、标点错误、中文错别字等,“未用术语”通过译文句子与目标术语库,检查译文是否应用目标术语库;“重复字词”通过检查译文是否有重复的字符。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (6)
1.一种计算机人工智能外文翻译方法,其特征在于,包括如下步骤:
S1:用户上传翻译稿件;
S2:将上传的翻译稿件进行分词分解,对自身进行对比找出重复出现的内容归类到术项目术语库中;
S3:拿稿件对比翻译历史库找出历史上出现过的术语,同步归类到当前项目术语库中;
S4:对稿件进行自检索通过取其海明距离、编辑距离等方式,根据已出现的频率、相似度、分类等信息计算出权重数据;
S5:将稿件与翻译历史语料库对比;
S6:在译员翻译的工作页面呈现出所有预处理时产生的有效数据,可供译员选择直接赋值;
S7:多名译员在协作翻译时,按照预处理的语料关联信息进行实时关联;
S8:翻译过程中可实时手动增加术语,同时所有译员的页面都会出现相应术语的展示与提示;
S9:单词检查:译员在翻译过程中,系统会自动去单词库中查询对应的单词已判定单词是否拼写正确;
S10:单词容错:被系统标识的错误单词在审校环节结束后还未修改的会被记录到单词容错库,重复记录的会增加出现次数;
S11:在译员翻译过程中系统会根据各语种配置的规则检查出有问题的内容实时提示给译员。
2.根据权利要求1所述的一种计算机人工智能外文翻译方法,其特征在于,通过取其海明距离、编辑距离方式,根据出现的频率、相似度、分类等信息计算出权重数据。
3.根据权利要求1所述的一种计算机人工智能外文翻译方法,其特征在于,当译员在翻译相关内容后,其所有关联项会出现相应结果,若对应译员不认可结果,可自行修改,对应其他位置会出现根据翻译记忆语料及原文进行对比匹配的两条翻译结果供译员选择,同时会列出被选择次数,可查看对应的上下问以对应语境。
4.根据权利要求1所述的一种计算机人工智能外文翻译方法,其特征在于,所述分词分解的含义为对上传的翻译稿件先进行解析,再按语言分句符号以及分段换行等规则对文件原文进行符合语言逻辑的断句处理。
5.根据权利要求1所述的一种计算机人工智能外文翻译方法,其特征在于,翻译完成后系统会对译文进行检查,包括单语质检、双语质检,情景语境预警等。
6.一种计算机人工智能外文翻译系统,其特征在于,包括预处理模块、译员工作模块、后期处理模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210450944.3A CN114722842A (zh) | 2022-04-24 | 2022-04-24 | 一种计算机人工智能外文翻译方法及其翻译系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210450944.3A CN114722842A (zh) | 2022-04-24 | 2022-04-24 | 一种计算机人工智能外文翻译方法及其翻译系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114722842A true CN114722842A (zh) | 2022-07-08 |
Family
ID=82245543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210450944.3A Pending CN114722842A (zh) | 2022-04-24 | 2022-04-24 | 一种计算机人工智能外文翻译方法及其翻译系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114722842A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116822517A (zh) * | 2023-08-29 | 2023-09-29 | 百舜信息技术有限公司 | 一种多语言翻译的术语识别方法 |
CN116933807A (zh) * | 2023-09-14 | 2023-10-24 | 成都帆点创想科技有限公司 | 一种文本翻译方法、装置、设备及可读存储介质 |
-
2022
- 2022-04-24 CN CN202210450944.3A patent/CN114722842A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116822517A (zh) * | 2023-08-29 | 2023-09-29 | 百舜信息技术有限公司 | 一种多语言翻译的术语识别方法 |
CN116822517B (zh) * | 2023-08-29 | 2023-11-10 | 百舜信息技术有限公司 | 一种多语言翻译的术语识别方法 |
CN116933807A (zh) * | 2023-09-14 | 2023-10-24 | 成都帆点创想科技有限公司 | 一种文本翻译方法、装置、设备及可读存储介质 |
CN116933807B (zh) * | 2023-09-14 | 2023-12-29 | 成都帆点创想科技有限公司 | 一种文本翻译方法、装置、设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gatos et al. | Ground-truth production in the transcriptorium project | |
CN114722842A (zh) | 一种计算机人工智能外文翻译方法及其翻译系统 | |
CN110770735B (zh) | 具有嵌入式数学表达式的文档的编码转换 | |
CN110837742A (zh) | 一种包含人工智能的人机结合译文批量处理翻译方法 | |
Wilkinson et al. | Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections | |
CN112784696B (zh) | 基于图像识别的唇语识别方法、装置、设备及存储介质 | |
JPH08101837A (ja) | 機械翻訳装置における翻訳規則学習方法 | |
Anthony | Visualisation in corpus-based discourse studies | |
CN113254574A (zh) | 一种机关公文辅助生成方法、装置以及系统 | |
CN110688863B (zh) | 一种文档翻译系统及文档翻译方法 | |
CN111680524B (zh) | 基于逆向矩阵分析的人机反馈翻译方法与系统 | |
Tursun et al. | Noisy Uyghur text normalization | |
CN112036330A (zh) | 一种文本识别方法、文本识别装置及可读存储介质 | |
Nedilko | Generative pretrained transformers for emotion detection in a code-switching setting | |
US20230069113A1 (en) | Text Summarization Method and Text Summarization System | |
CN103164398A (zh) | 汉维电子辞典及其自动转译汉维语的方法 | |
WO2024015320A1 (en) | Visual structure of documents in question answering | |
CN109325237B (zh) | 用于机器翻译的完整句识别方法与系统 | |
Ammirati et al. | In Codice Ratio: Scalable Transcription of Historical Handwritten Documents. | |
CN116306487A (zh) | 高等院校学位论文格式智能检测系统及方法 | |
Nederhof et al. | OCR of handwritten transcriptions of Ancient Egyptian hieroglyphic text | |
CN115017271A (zh) | 用于智能生成rpa流程组件块的方法及系统 | |
Cristea et al. | From scan to text. Methodology, solutions and perspectives of deciphering old cyrillic Romanian documents into the Latin script | |
CN113011154B (zh) | 一种基于深度学习的作业查重方法 | |
CN111897958B (zh) | 基于自然语言处理的古诗词分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |