CN112487828A - 一种纠错改进型译文大数据整合方法 - Google Patents

一种纠错改进型译文大数据整合方法 Download PDF

Info

Publication number
CN112487828A
CN112487828A CN202011352369.0A CN202011352369A CN112487828A CN 112487828 A CN112487828 A CN 112487828A CN 202011352369 A CN202011352369 A CN 202011352369A CN 112487828 A CN112487828 A CN 112487828A
Authority
CN
China
Prior art keywords
translation
sentence
integrating
error correction
natural number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011352369.0A
Other languages
English (en)
Inventor
单杰
王璐
杨丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Sunyu Information Technology Co ltd
Original Assignee
Jiangsu Sunyu Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Sunyu Information Technology Co ltd filed Critical Jiangsu Sunyu Information Technology Co ltd
Priority to CN202011352369.0A priority Critical patent/CN112487828A/zh
Publication of CN112487828A publication Critical patent/CN112487828A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明的一种纠错改进型译文大数据整合方法,属于翻译技术领域,该方法对文献进行多次断句标号,并翻译整合,最后进行修改和反馈,上述方法对翻译结果进行纠错和反馈处理,保证了翻译的准确度,同时修改的过程,机器转换翻译内容的结果都会被收录进云端,作为下次翻译的对照,提高了系统的学习能力,进一步提高机器翻译的效果更好。

Description

一种纠错改进型译文大数据整合方法
技术领域
本发明属于翻译技术领域,更具体来说,涉及一种纠错改进型译文大数据整合方法。
背景技术
对于现在的社会,国际交上交流越来越频繁。随之带来的翻译量越来越大,文件字数越来越多。
翻译的准确度由翻译系统控制,由于翻译是机器翻译,因此无法做到完美翻译,需要对翻译结果进行多次修改编辑,以达到比较符合原意的翻译结果,同时该修改的方法和结果作为对照方案收录进云端,提高机器的学习能力。
发明内容
1.发明要解决的技术问题
本发明的目的在于解决现有中翻译机器翻译千篇一律,翻译结果不太符合原意的缺陷。
2.技术方案
为达到上述目的,本发明提供的技术方案为:
本发明的一种纠错改进型译文大数据整合方法,方法包括以下步骤:
S1,导入文献;
S2,系统对文献进行直译得到译文一;
S3,系统对文献进行人工智能纠正得到译文二;
S4,显示译文二的编辑界面;
S5,判断编辑界面下的译文二是否被人工修改,若是则将修改后的译文整合为译文三并进入步骤S6,若否则直接进入步骤S6;
S6,遍历原文、译文一、译文二和译文三;
S7,选出译文一、译文二和译文三中不一样的句子并从前到后排列整合成若干个数据包;
S8,在S7选出的若干个数据包中分别注释原文中对应的原句的名词和动词得到关键词包;
S9,传入云端进行数据处理。
优选的,步骤S1之后还有以下步骤:
S1.1,对文献进行断句,依次对每句进行标号,记为Y-n,其中n为自然数。
优选的,步骤S2之后还有以下步骤:
S2.1,对译文一进行断句,依次对每句进行标号,记为O-n,其中n为自然数;
S2.2,整合Y-n与O-n,记为YO-n,表示第n句的原文和译文一,其中n为自然数。
优选的,步骤S3之后还有以下步骤:
S3.1,对译文二进行断句,依次对每句进行标号,记为T-n,其中n为自然数;
S3.2,整合YO-n与T-n,记为YOT-n,表示第n句的原文、译文一和译文二,其中n为自然数。
优选的,步骤S6之后还有以下步骤:
S6.1,判断遍历之后是否存在译文三,若存在则进入步骤S6.2,否则进入步骤S7;
S6.2,对译文三进行断句,依次对每句进行标号,记为S-n,其中n为自然数;
S6.3,整合YOT-n与S-n,记为YOTS-n,表示第n句的原文、译文一、译文二和译文三,其中n为自然数。
优选的,步骤S9之后还有以下步骤:
S9.1,根据关键词包从云端调取包含相关名词和动词的存库语句;
S9.2,分析存库语句和YOT-n,进行对比,选出出现概率高的词句显示;
S9.3,系统将YOT-n收入库中,并进行归纳计算出现次数。
3.有益效果
采用本发明提供的技术方案,与现有技术相比,具有如下有益效果:
(1)本发明的一种纠错改进型译文大数据整合方法,该方法对翻译结果进行纠错和反馈处理,保证了翻译的准确度,同时修改的过程,机器转换翻译内容的结果都会被收录进云端,作为下次翻译的对照,提高了系统的学习能力,进一步是的机器翻译的效果更好。
附图说明
图1为本发明的一种纠错改进型译文大数据整合方法的流程图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述,附图中给出了本发明的若干实施例,但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例,相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件;当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件;本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同;本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明;本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例1
参照附图1所示,本实施例的一种纠错改进型译文大数据整合方法,方法包括以下步骤:
S1,导入文献;
S2,系统对文献进行直译得到译文一;
S3,系统对文献进行人工智能纠正得到译文二;
S4,显示译文二的编辑界面;
S5,判断编辑界面下的译文二是否被人工修改,若是则将修改后的译文整合为译文三并进入步骤S6,若否则直接进入步骤S6;
S6,遍历原文、译文一、译文二和译文三;
S7,选出译文一、译文二和译文三中不一样的句子并从前到后排列整合成若干个数据包;
S8,在S7选出的若干个数据包中分别注释原文中对应的原句的名词和动词得到关键词包;
S9,传入云端进行数据处理。
本实施例的步骤S1之后还有以下步骤:
S1.1,对文献进行断句,依次对每句进行标号,记为Y-n,其中n为自然数。
本实施例的步骤S2之后还有以下步骤:
S2.1,对译文一进行断句,依次对每句进行标号,记为O-n,其中n为自然数;
S2.2,整合Y-n与O-n,记为YO-n,表示第n句的原文和译文一,其中n为自然数。
本实施例的步骤S3之后还有以下步骤:
S3.1,对译文二进行断句,依次对每句进行标号,记为T-n,其中n为自然数;
S3.2,整合YO-n与T-n,记为YOT-n,表示第n句的原文、译文一和译文二,其中n为自然数。
本实施例的步骤S6之后还有以下步骤:
S6.1,判断遍历之后是否存在译文三,若存在则进入步骤S6.2,否则进入步骤S7;
S6.2,对译文三进行断句,依次对每句进行标号,记为S-n,其中n为自然数;
S6.3,整合YOT-n与S-n,记为YOTS-n,表示第n句的原文、译文一、译文二和译文三,其中n为自然数。
本实施例的步骤S9之后还有以下步骤:
S9.1,根据关键词包从云端调取包含相关名词和动词的存库语句;
S9.2,分析存库语句和YOT-n,进行对比,选出出现概率高的词句显示;
S9.3,系统将YOT-n收入库中,并进行归纳计算出现次数。
上述方法对翻译结果进行纠错和反馈处理,保证了翻译的准确度,同时修改的过程,机器转换翻译内容的结果都会呗收录进云端,作为下次翻译的对照,提高了系统的学习能力,进一步是的机器翻译的效果更好。
以上所述实施例仅表达了本发明的某种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制;应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围;因此,本发明专利的保护范围应以所附权利要求为准。

Claims (6)

1.一种纠错改进型译文大数据整合方法,其特征在于,所述方法包括以下步骤:
S1,导入文献;
S2,系统对文献进行直译得到译文一;
S3,系统对文献进行人工智能纠正得到译文二;
S4,显示译文二的编辑界面;
S5,判断编辑界面下的译文二是否被人工修改,若是则将修改后的译文整合为译文三并进入步骤S6,若否则直接进入步骤S6;
S6,遍历原文、译文一、译文二和译文三;
S7,选出译文一、译文二和译文三中不一样的句子并从前到后排列整合成若干个数据包;
S8,在S7选出的若干个数据包中分别注释原文中对应的原句的名词和动词得到关键词包;
S9,传入云端进行数据处理。
2.根据权利要求1所述的一种纠错改进型译文大数据整合方法,其特征在于,所述步骤S1之后还有以下步骤:
S1.1,对文献进行断句,依次对每句进行标号,记为Y-n,其中n为自然数。
3.根据权利要求1所述的一种纠错改进型译文大数据整合方法,其特征在于,所述步骤S2之后还有以下步骤:
S2.1,对译文一进行断句,依次对每句进行标号,记为O-n,其中n为自然数;
S2.2,整合Y-n与O-n,记为YO-n,表示第n句的原文和译文一,其中n为自然数。
4.根据权利要求1所述的一种纠错改进型译文大数据整合方法,其特征在于,所述步骤S3之后还有以下步骤:
S3.1,对译文二进行断句,依次对每句进行标号,记为T-n,其中n为自然数;
S3.2,整合YO-n与T-n,记为YOT-n,表示第n句的原文、译文一和译文二,其中n为自然数。
5.根据权利要求1所述的一种纠错改进型译文大数据整合方法,其特征在于,所述步骤S6之后还有以下步骤:
S6.1,判断遍历之后是否存在译文三,若存在则进入步骤S6.2,否则进入步骤S7;
S6.2,对译文三进行断句,依次对每句进行标号,记为S-n,其中n为自然数;
S6.3,整合YOT-n与S-n,记为YOTS-n,表示第n句的原文、译文一、译文二和译文三,其中n为自然数。
6.根据权利要求1所述的一种纠错改进型译文大数据整合方法,其特征在于,所述步骤S9之后还有以下步骤:
S9.1,根据关键词包从云端调取包含相关名词和动词的存库语句;
S9.2,分析存库语句和YOT-n,进行对比,选出出现概率高的词句显示;
S9.3,系统将YOT-n收入库中,并进行归纳计算出现次数。
CN202011352369.0A 2020-11-27 2020-11-27 一种纠错改进型译文大数据整合方法 Pending CN112487828A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011352369.0A CN112487828A (zh) 2020-11-27 2020-11-27 一种纠错改进型译文大数据整合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011352369.0A CN112487828A (zh) 2020-11-27 2020-11-27 一种纠错改进型译文大数据整合方法

Publications (1)

Publication Number Publication Date
CN112487828A true CN112487828A (zh) 2021-03-12

Family

ID=74935639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011352369.0A Pending CN112487828A (zh) 2020-11-27 2020-11-27 一种纠错改进型译文大数据整合方法

Country Status (1)

Country Link
CN (1) CN112487828A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705320A (zh) * 2019-10-08 2020-01-17 中国船舶工业综合技术经济研究院 一种面向细分领域的国防军工领域机器翻译方法及系统
CN110837742A (zh) * 2019-11-15 2020-02-25 广州市汇泉翻译服务有限公司 一种包含人工智能的人机结合译文批量处理翻译方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705320A (zh) * 2019-10-08 2020-01-17 中国船舶工业综合技术经济研究院 一种面向细分领域的国防军工领域机器翻译方法及系统
CN110837742A (zh) * 2019-11-15 2020-02-25 广州市汇泉翻译服务有限公司 一种包含人工智能的人机结合译文批量处理翻译方法

Similar Documents

Publication Publication Date Title
CN110046261B (zh) 一种建筑工程多模态双语平行语料库的构建方法
US7984076B2 (en) Document processing apparatus, document processing method, document processing program and recording medium
US4685060A (en) Method of translation between languages with information of original language incorporated with translated language text
CN101976253B (zh) 一种中文变异文本匹配识别方法
JPH01279368A (ja) キャラクタデータの転送方式
US20130041892A1 (en) Method and system for converting audio text files originating from audio files to searchable text and for processing the searchable text
CN105808528A (zh) 一种文档文字的处理方法
CN112966529A (zh) 神经网络机器翻译训练方法、系统、介质、设备及应用
JP2008052740A (ja) マーク付けされたデータ・ブロックを伴う文書に対するスペル・チェックの方法および信号搬送媒体
CN107526742A (zh) 用于处理多语言文本的方法和设备
CN110362691B (zh) 一种句法树库构建系统
CN112487828A (zh) 一种纠错改进型译文大数据整合方法
CN111179937A (zh) 文本处理的方法、设备和计算机可读存储介质
CN110554996A (zh) 一种epub文件快速打开方法和系统
CN115712601A (zh) 一种基于springbatch批量读取定长文件的方法
CN113761209B (zh) 文本拼接方法及装置、电子设备、存储介质
CN106775914A (zh) 一种自动生成键值的代码国际化方法及装置
CN113821555A (zh) 一种智慧监管黑匣子的非结构化资料汇集处理方法
CN102104741A (zh) 多语种字幕的编排方法及装置
JPH0619962A (ja) テキスト分割装置
CN112487791A (zh) 一种多语言混合智能翻译方法
WO2023100433A1 (ja) 文字列出力装置
CN114398492B (zh) 一种在数字领域的知识图谱构建方法、终端及介质
WO2022196904A1 (ko) 음성 정보로부터 변환된 텍스트의 영상 리소스 매칭을 이용한 멀티미디어 변환 콘텐츠 제작 서비스 제공 방법 및 그 장치
CN116484834A (zh) 基于层次结构的文章分割方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination