CN110705321B - 计算机辅助翻译系统 - Google Patents
计算机辅助翻译系统 Download PDFInfo
- Publication number
- CN110705321B CN110705321B CN201910985302.1A CN201910985302A CN110705321B CN 110705321 B CN110705321 B CN 110705321B CN 201910985302 A CN201910985302 A CN 201910985302A CN 110705321 B CN110705321 B CN 110705321B
- Authority
- CN
- China
- Prior art keywords
- data
- translation
- module
- translated
- computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种计算机辅助翻译系统,包括:用于进行待翻译数据的录入的待翻译数据录入模块;基于CCIPCA算法中计算待翻译数据的特征数据的数据特征提取模块;基于最近邻分类器根据特征数据实现待翻译数据句型识别的数据类型识别模块;根据识别结果调用对应的数据分割模型将待翻译数据分割成由单词、短语组成的几个模块,然后将分割所得的单词、短语填入对应的预制的latex模版,实现数据格式的标准化的数据格式标准化模块;基于神经网络翻译模型实现翻译的数据翻译模块。本发明实现了待翻译数据的自动识别、格式处理以及自动翻译,从而无需人为进行特殊术语翻译结果的替换,工作效率高,且翻译的准确度较高。
Description
技术领域
本发明涉及翻译系统领域,具体涉及一种计算机辅助翻译系统。
背景技术
现阶段翻译技术可以分为三种:人工翻译、计算机辅助翻译以及机器翻译。人工翻译准确度较高,但是速度较慢,并且准确度取决于译员自身的能力水平;机器翻译速度快,然而大部分机器翻译的结果并不能直接拿来使用,因为通常会存在明显的错翻以及语法错误,还是需要通过人工翻译进行进一步校正;计算机辅助翻译则是介于二者之间的一种翻译方法,其基本思路是由计算机对待译语料进行初步翻译,初步翻译结果中,待译语料中的绝大部分都能准确翻译,只有少部分特殊术语、或者由于待译语料领域特殊导致的普通术语的含义特殊化或者其他原因等导致的部分子集的翻译结果不甚准确,需要进行二次人工检查并替换为准确的术语对应翻译。
为了实现二次人工检查并将初步翻译结果中的不准确部分替换为准确术语,目前译员会根据实际情况,例如待译语料的领域、上下文特点等,事前配置一个待译语料的特殊术语库。在得到计算机的初步翻译结果后,再将其中的不准确部分查找出来进行替换,工作效率较为低下。
发明内容
为解决上述问题,本发明提供了一种计算机辅助翻译系统,实现了待翻译数据的自动识别、格式处理以及自动翻译,从而无需人为进行特殊术语翻译结果的替换,工作效率高,且翻译的准确度较高。
为实现上述目的,本发明采取的技术方案为:
计算机辅助翻译系统,包括:
待翻译数据录入模块,用于进行待翻译数据的录入;
数据特征提取模块,用于将待翻译数据输入到CCIPCA算法中计算所述待翻译数据的特征数据;
数据类型识别模块,用于基于最近邻分类器根据所述特征数据实现待翻译数据句型的识别;
数据格式标准化模块,根据识别结果调用对应的数据分割模型将待翻译数据分割成由单词、短语组成的几个模块,然后将分割所得的单词、短语填入对应的预制的latex模版,实现数据格式的标准化;
数据翻译模块,用于根据所述特征数据以及目标翻译语种调用对应的神经网络翻译模型,然后将完成数据格式标准化的待翻译数据输入所述神经网络翻译模型中,输出对应的翻译结果。
进一步地,所述待翻译数据录入模块包括文本数据输入模块、音频数据输入模块和图像数据输入模块,其中,音频数据输入模块和图像数据输入模块均连接有一数据校正模块,用于将音频数据/图像数据转换成对应的文本数据,并将转换结果经显示屏进行显示,客户核对修订后,点击“确认”键,数据特征提取模块启动。
进一步地,所述神经网络翻译模型储存在数据库内,每一个神经网络翻译模型均设有独立的逻辑编号。
进一步地,所述文本数据输入模块和数据校正模块内均配置单词/词组/句子播放模块,用户点击“播放”按钮后,选中对应的单词/词组/句子,即可实现当前选中数据对应的音频数据的播放。
进一步地,还包括:
网络爬虫模块,用于在最近邻分类器的分类时的相似度低于预设的门限时启动,借助网络翻译网站进行对应翻译结果的获取,将翻译结果经显示屏进行显示。
进一步地,在遇到特殊术语时,数据格式标准化模块自动将待翻译数据分割成特殊术语+不含特殊术语的待翻译数据,调用对应的神经网络翻译模型分别单独翻译,然后按照待翻译数据中特殊数据原本在的位置完成翻译结果的拼接,然后输出最终的翻译结果。
进一步地,还包括:翻译文本输出路径选择模块,用于实现翻译文本输出路径的选择,输出路径至少包括经显示屏显示、发送到对应的移动终端、发送到对应的邮箱以及经播放器播放。
本发明具有以下有益效果:
实现了待翻译数据的自动识别,从而可以实现特殊术语的自动提取,然后采用单独翻译+自动拼接的方式实现最终翻译结果的输出,从而无需人为进行特殊术语翻译结果的替换,工作效率高。
基于CCIPCA算法进行特征数据的采集,基于最近邻分类器实现数据分类,每一种句型采用不同的latex模版和神经网络翻译模型,大大提高了翻译结果的准确度。
附图说明
图1为本发明实施例计算机辅助翻译系统的系统框图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
如图1所示,本发明实施例提供了一种计算机辅助翻译系统,包括:
待翻译数据录入模块,用于进行待翻译数据的录入;
数据特征提取模块,用于将待翻译数据输入到CCIPCA算法中计算所述待翻译数据的特征数据;
数据类型识别模块,用于基于最近邻分类器根据所述特征数据实现待翻译数据句型的识别;
数据格式标准化模块,根据识别结果调用对应的数据分割模型将待翻译数据分割成由单词、短语组成的几个模块,然后将分割所得的单词、短语填入对应的预制的latex模版,实现数据格式的标准化;
数据翻译模块,用于根据所述特征数据以及目标翻译语种调用对应的神经网络翻译模型,然后将完成数据格式标准化的待翻译数据输入所述神经网络翻译模型中,输出对应的翻译结果;
网络爬虫模块,用于在最近邻分类器的分类时的相似度低于预设的门限时启动,借助网络翻译网站进行对应翻译结果的获取,将翻译结果经显示屏进行显示;
翻译文本输出路径选择模块,用于实现翻译文本输出路径的选择,输出路径至少包括经显示屏显示、发送到对应的移动终端、发送到对应的邮箱以及经播放器播放。
本实施例中,所述待翻译数据录入模块包括文本数据输入模块、音频数据输入模块和图像数据输入模块,其中,音频数据输入模块和图像数据输入模块均连接有一数据校正模块,用于将音频数据/图像数据转换成对应的文本数据,并将转换结果经显示屏进行显示,客户核对修订后,点击“确认”键,数据特征提取模块启动。所述文本数据输入模块和数据校正模块内均配置单词/词组/句子播放模块,用户点击“播放”按钮后,选中对应的单词/词组/句子,即可实现当前选中数据对应的音频数据的播放。
本实施例中,所述神经网络翻译模型储存在数据库内,每一个神经网络翻译模型均设有独立的逻辑编号。
本实施例中,在遇到特殊术语时,数据格式标准化模块自动将待翻译数据分割成特殊术语+不含特殊术语的待翻译数据,调用对应的神经网络翻译模型分别单独翻译,然后按照待翻译数据中特殊数据原本在的位置完成翻译结果的拼接,然后输出最终的翻译结果。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (7)
1.计算机辅助翻译系统,其特征在于:包括:
待翻译数据录入模块,用于进行待翻译数据的录入;
数据特征提取模块,用于将待翻译数据输入到CCIPCA算法中计算所述待翻译数据的特征数据;
数据类型识别模块,用于基于最近邻分类器根据所述特征数据实现待翻译数据句型的识别;
数据格式标准化模块,根据识别结果调用对应的数据分割模型将待翻译数据分割成由单词、短语组成的几个模块,然后将分割所得的单词、短语填入对应的预制的latex模版,实现数据格式的标准化;
数据翻译模块,用于根据所述特征数据以及目标翻译语种调用对应的神经网络翻译模型,然后将完成数据格式标准化的待翻译数据输入所述神经网络翻译模型中,输出对应的翻译结果。
2.如权利要求1所述的计算机辅助翻译系统,其特征在于:所述待翻译数据录入模块包括文本数据输入模块、音频数据输入模块和图像数据输入模块,其中,音频数据输入模块和图像数据输入模块均连接有一数据校正模块,用于将音频数据/图像数据转换成对应的文本数据,并将转换结果经显示屏进行显示,客户核对修订后,点击“确认”键,数据特征提取模块启动。
3.如权利要求1所述的计算机辅助翻译系统,其特征在于:所述神经网络翻译模型储存在数据库内,每一个神经网络翻译模型均设有独立的逻辑编号。
4.如权利要求2所述的计算机辅助翻译系统,其特征在于:所述文本数据输入模块和数据校正模块内均配置单词/词组/句子播放模块,用户点击“播放”按钮后,选中对应的单词/词组/句子,即可实现当前选中数据对应的音频数据的播放。
5.如权利要求1所述的计算机辅助翻译系统,其特征在于:还包括:
网络爬虫模块,用于在最近邻分类器的分类时的相似度低于预设的门限时启动,借助网络翻译网站进行对应翻译结果的获取,将翻译结果经显示屏进行显示。
6.如权利要求1所述的计算机辅助翻译系统,其特征在于:在遇到特殊术语时,数据格式标准化模块自动将待翻译数据分割成特殊术语+不含特殊术语的待翻译数据,调用对应的神经网络翻译模型分别单独翻译,然后按照待翻译数据中特殊数据原本在的位置完成翻译结果的拼接,然后输出最终的翻译结果。
7.如权利要求1所述的计算机辅助翻译系统,其特征在于:还包括:翻译文本输出路径选择模块,用于实现翻译文本输出路径的选择,输出路径至少包括经显示屏显示、发送到对应的移动终端、发送到对应的邮箱以及经播放器播放。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910985302.1A CN110705321B (zh) | 2019-10-16 | 2019-10-16 | 计算机辅助翻译系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910985302.1A CN110705321B (zh) | 2019-10-16 | 2019-10-16 | 计算机辅助翻译系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110705321A CN110705321A (zh) | 2020-01-17 |
CN110705321B true CN110705321B (zh) | 2023-02-28 |
Family
ID=69201307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910985302.1A Active CN110705321B (zh) | 2019-10-16 | 2019-10-16 | 计算机辅助翻译系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110705321B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597826B (zh) * | 2020-05-15 | 2021-10-01 | 苏州七星天专利运营管理有限责任公司 | 一种辅助翻译中处理术语的方法 |
CN112215015A (zh) * | 2020-09-02 | 2021-01-12 | 文思海辉智科科技有限公司 | 翻译文本修订方法、装置、计算机设备和存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10268686B2 (en) * | 2016-06-24 | 2019-04-23 | Facebook, Inc. | Machine translation system employing classifier |
CN108763305A (zh) * | 2018-04-20 | 2018-11-06 | 平安科技(深圳)有限公司 | 数据特征提取的方法、装置、计算机设备和存储介质 |
CN109241542A (zh) * | 2018-08-20 | 2019-01-18 | 九江学院 | 一种用于英语翻译的文本数据处理方法 |
-
2019
- 2019-10-16 CN CN201910985302.1A patent/CN110705321B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110705321A (zh) | 2020-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN110489760B (zh) | 基于深度神经网络文本自动校对方法及装置 | |
CN110750959B (zh) | 文本信息处理的方法、模型训练的方法以及相关装置 | |
CN109359293B (zh) | 基于神经网络的蒙古文命名实体识别方法及其识别系统 | |
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
CN111968649B (zh) | 一种字幕纠正方法、字幕显示方法、装置、设备及介质 | |
CN106257440B (zh) | 语义信息生成方法和语义信息生成装置 | |
CN106534548B (zh) | 语音纠错方法和装置 | |
CN107066455B (zh) | 一种多语言智能预处理实时统计机器翻译系统 | |
CN111369996A (zh) | 一种特定领域的语音识别文本纠错方法 | |
CN108984683A (zh) | 结构化数据的提取方法、系统、设备及存储介质 | |
CN110544477A (zh) | 一种语音识别方法、装置、设备及介质 | |
CN110070855B (zh) | 一种基于迁移神经网络声学模型的语音识别系统及方法 | |
WO2017177809A1 (zh) | 语言文本的分词方法和系统 | |
CN110705321B (zh) | 计算机辅助翻译系统 | |
WO2021129123A1 (zh) | 语料数据处理方法、装置、服务器和存储介质 | |
CN109460558B (zh) | 一种语音翻译系统的效果评判方法 | |
CN112101032A (zh) | 一种基于自蒸馏的命名实体识别与纠错方法 | |
CN114492396A (zh) | 用于汽车专有名词的文本错误纠正方法及可读存储介质 | |
CN112466277B (zh) | 韵律模型训练方法、装置、电子设备及存储介质 | |
CN112632956A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN117496521A (zh) | 一种表格关键信息抽取方法、系统、装置及可读存储介质 | |
CN115130437B (zh) | 一种文档智能填写方法、装置及存储介质 | |
CN114387602B (zh) | 医疗ocr数据优化模型训练方法、优化方法及设备 | |
CN113536776B (zh) | 混淆语句的生成方法、终端设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |