CN109062908B - 一种专用翻译器 - Google Patents
一种专用翻译器 Download PDFInfo
- Publication number
- CN109062908B CN109062908B CN201810805902.0A CN201810805902A CN109062908B CN 109062908 B CN109062908 B CN 109062908B CN 201810805902 A CN201810805902 A CN 201810805902A CN 109062908 B CN109062908 B CN 109062908B
- Authority
- CN
- China
- Prior art keywords
- neural network
- layer
- information
- corpus
- translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种专用翻译器,包括输入端、第一层神经网络、第二层神经网络、第三层神经网络、语料库、解码器、输出端,所述输入端输入的信息为选项式输入方式,针对任意一个选项的输入端输入信息,所述输出端分别输出若干个分解后的选项式结果和分解后再进行组合完毕的直接输出结果,所述输出端还包括输入用户纠错机制,所述输入用户纠错机制包括直接指出错误位置或直接输入自己根据输出的分解后的选项式结果完成的翻译结果,并将被指出的错误信息或翻译结果传回第一层神经网络,对于被指出的错误信息,第一层神经网络经过分类后依次传递给第二层神经网络、第三层神经网络、语料库、解码器。本发明的有益效果是准确率较高,便于用户学习。
Description
技术领域
本发明属于翻译器领域,尤其是涉及一种专用翻译器。
背景技术
在现有的统计机器翻译技术中,目前一直主要存在两个方面的问题,一方面,一直比较难以克服的一个关键点在于对未登录词的翻译,通俗点理解“未登录词”,实际就是不常见的陌生词,由于这类词在一对一比对词过程中,比对结果为“未知”,导致翻译结果的精准度降低,特别是在特殊的专业领域的翻译过程中,例如医学领域,由于有些词汇为专业词汇,这样使用普通的翻译器时,未登录词的出现频率较高,从而使翻译结果的准确性大大降低,一句话最终的翻译结果多处为“未知”。另一方面,机器翻译与人为翻译目前依然存在较大差异,因为机器翻译采用直接翻译的方法,即字、词加语法组合直接翻译,但是一个词会有很多种意思,通过语法连接也会产生很多种意思,而人工翻译需要将词的意思加语法连成局并结合语境、语音、语调再进行翻译,有的还需要进一步意译。
上述的两个问题的最终结果都是翻译的精准度低,针对上述的两个的问题,目前已经有很多机器翻译技术采用人工神经网络技术及大数据库来不断学习、补充这些“未登录词”的问题,虽然如此,人工神经网络虽然可以有效地填补“未登录词”,但是逃避不了直译造成的不精准。
发明内容
本发明的目的是为克服直译的不精准,提供一种准确率相对较高,且可以同时提高用户自学翻译水平的专用翻译器,尤其适合医学领域或某一特殊的专业领域。
本发明的技术方案是:一种专用翻译器,包括输入端、第一层神经网络、第二层神经网络、第三层神经网络、语料库、解码器以及输出端,用户在所述输入端输入要翻译的信息后,所述输入端将用户输入的信息传送给第一层神经网络,所述第一层神经网络负责将信息进行分类调度,经过分类后将分类信息发送给第二层神经网络;所述第二层神经网络负责将收到的信息统一转换为文字,再将文字传给第三神经网络,所述第三神经网络将文字信息进行拆分,将整个信息先拆分成段落,然后将信息与语料库中已经预置的现有信息进行比对,并通过解码器进行解码,所述语料库和解码器将处理结果依次传回到第三层神经网络、第二层神经网络以及第一层神经网络;
所述输入端输入的信息为选项式输入方式,针对任意一个选项的输入端输入信息,所述输出端分别输出若干个分解后的选项式结果和分解后再进行组合完毕的直接输出结果,所述输出端还包括输入用户纠错机制,所述输入用户纠错机制包括直接指出错误位置或直接输入自己根据输出的分解后的选项式结果完成的翻译结果,并将被指出的错误信息或翻译结果传回第一层神经网络,对于被指出的错误信息,第一层神经网络经过分类后依次传递给第二层神经网络、第三层神经网络、语料库、解码器;
对于直接输入自己根据输出的分解后的选项式结果完成的翻译结果,第一层神经网络经过分类后传给后台人工翻译客服,人工翻译客服对翻译结果进行评判后一方面将结果传送给输出端相应位置,使用户可以看到,另一方面将准确率大于95%的翻译结果传送给第三层神经网络,所述第三层神经网络将接收到的信息拆分后,输入给语料库,语料库完成记忆;
进一步的,所述选项式输入方式输入的信息选项包括文字、图片、语音信息、文档文件;
进一步的,针对经过第三神经网络拆分后小于5000字符的信息,输出端的选项式结果包括句中实词翻译结果、短语翻译结果、句子翻译结果、全部的翻译结果;
进一步的,所述语料库为单语种单一用途的语料库,收集原则为单一固定的;
进一步的,所述语料库为多语种单一用途的语料库,收集原则为单一固定的;
进一步的,所述语料库的单一用途为医学专用,收集原则为医学领域的专用缩写、词、短语及相关语法规则;
进一步的,所述语料库的收集范围包括人工翻译客服的随时更新补充,还包括定时网络搜索更新。
本发明具有的优点和积极效果是:由于采用上述技术方案,由用户、后台人工客服、神经网络共同完善语料库,加深记忆,因此使得本翻译器翻译得越来越准确;另一方面用户如果在使用本翻译器的过程中参与到翻译矫正工作,可以进一步提升自己的翻译水平。
附图说明
图1是本发明一种专用翻译器实施例的流程示意图。
具体实施方式
下面结合附图对本发明做详细说明。
如图1所示,本发明一种专用翻译器,包括输入端、第一层神经网络、第二层神经网络、第三层神经网络、语料库、解码器以及输出端,用户在所述输入端输入要翻译的信息后,所述输入端将用户输入的信息传送给第一层神经网络,所述第一层神经网络负责将信息进行分类调度,经过分类后将分类信息发送给第二层神经网络;所述第二层神经网络负责将收到的信息统一转换为文字,再将文字传给第三神经网络,所述第三神经网络将文字信息进行拆分,将整个信息先拆分成段落,然后将信息与语料库中已经预置的现有信息进行比对,并通过解码器进行解码,所述语料库和解码器将处理结果依次传回到第三层神经网络、第二层神经网络以及第一层神经网络;
所述输入端输入的信息为选项式输入方式,针对任意一个选项的输入端输入信息,所述输出端分别输出若干个分解后的选项式结果和分解后再进行组合完毕的直接输出结果,所述输出端还包括输入用户纠错机制,所述输入用户纠错机制包括直接指出错误位置或直接输入自己根据输出的分解后的选项式结果完成的翻译结果,并将被指出的错误信息或翻译结果传回第一层神经网络,对于被指出的错误信息,第一层神经网络经过分类后依次传递给第二层神经网络、第三层神经网络、语料库以及解码器;
对于直接输入自己根据输出的分解后的选项式结果完成的翻译结果,第一层神经网络经过分类后传给后台人工翻译客服,人工翻译客服对翻译结果进行评判后一方面将结果传送给输出端相应位置,使用户可以看到,另一方面将准确率大于95%的翻译结果传送给第三层神经网络,所述第三层神经网络将接收到的信息拆分后,输入给语料库,语料库完成记忆;
进一步的,所述选项式输入方式输入的信息选项包括文字、图片、语音信息以及文档文件;
进一步的,针对经过第三神经网络拆分后小于5000字符的信息,输出端的选项式结果包括句中实词翻译结果、短语翻译结果、句子翻译结果以及全部的翻译结果;
进一步的,所述语料库为单语种单一用途的语料库,收集原则为单一固定的;
进一步的,所述语料库为多语种单一用途的语料库,收集原则为单一固定的;
进一步的,所述语料库的单一用途为医学专用,收集原则为医学领域的专用缩写、词、短语及相关语法规则;
进一步的,所述语料库的收集范围包括人工翻译客服的随时更新补充,还包括定时网络搜索更新。
以最长用的英译汉的一个长句子(段落)为例,用户输入:“It was the best oftimes,it was the worst of times,it was the age of wisdom,it was the age offoolishness,it was the epoch of belief,it was the epoch of incredulity,it wasthe season of Light,it was the season of Darkness,it was the spring of hope,it was the winter of despair,we had everything before us,we had nothingbefore us,we were all going direct to Heaven,we were all going direct theother way—in short,the period was so far like the present period,that someof its noisiest authorities insisted on its being received,for good or forevil,in the superlative degree of comparison only。”
输入端将这段话转给第一层神经网络,经过分类与识别为英文文字信息,并将这一信息发送给第二层神经网络中的英文文字工作机,第二层神经网络中的英文工作机由于接收到的已是文字因此无需转换,直接将英文文字信息发送给第三层神经网络进行拆分。先拆分成短句,如:“It was the best of times”等,再拆分成短语,如“the best of”等,然后再拆分成单个的单词,如“it、was、the、best、of、time”等,同时过滤出主要实词,如“it、best、time”等,将短句、短语、单个的单词、主要实词均传送给语料库和解码器,经过语料库和解码器的结合给出整个长句、短句、短语、单个单词、主要实词分别的翻译结果,其中的翻译结果有的可能不唯一,不唯一的就直接输出多个翻译结果,并通过三层神经网络传送到输出端,输出端呈现实词翻译结果、短语翻译结果、句子翻译结果、全部的翻译结果。用户针对上述的各类结果先进行观察判断,将自己觉得有错误的词、短语、句指出,一般情况下一个词均有准确的一个或多种解释,除了不在语料库中的未登录词,由于目前语料库多处采用大数据来支持,因此“未登录词”会越来越少,机器翻译多出现问题的则是词和短语再加上基本语法结合后翻译结果经常需要结合语境来翻译,而作为输入用户则会多多少少的了解一些语境,用户可以根据已给出的缩写、词、短语、短句的意思重新自行翻译整句话或整段话。
用户翻译好后发送给24小时在线的后台人工翻译客服,后台人工翻译客服进行评判,将评判结果发在输出端的相应位置,另外将翻译准确率大于95%的翻译结果传送给第三层神经网络后再传送给语料库,语料库进行学习记忆。
这样的结构设计目前针对医学专业领域来做,也可以针对其他专业领域来做,因为每个专业领域都会有专业词汇,与普通的日常用语有不同之处,而需要翻译的用户多数也为该领域的人员,多少能够了解一些语境,更有利于翻译更加准确,同时还能促进用户进行翻译学习,提高翻译能力。
本系统对语料库的要求还是比较高的,因此通过本方法实现了人工翻译客服和网络定时搜索更新来共同完成更新。
以上对本发明的一个实施例进行了详细说明,但所述内容仅为本发明的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等,均应仍归属于本发明的专利涵盖范围之内。
Claims (7)
1.一种专用翻译器,其特征在于:包括输入端、第一层神经网络、第二层神经网络、第三层神经网络、语料库、解码器以及输出端,用户在所述输入端输入要翻译的信息后,所述输入端将用户输入的信息传送给第一层神经网络,所述第一层神经网络负责将信息进行分类调度,经过分类后将分类信息发送给第二层神经网络;所述第二层神经网络负责将收到的信息统一转换为文字,再将文字传给第三神经网络,所述第三神经网络将文字信息进行拆分,将整个信息先拆分成段落,然后将信息与语料库中已经预置的现有信息进行比对,并通过解码器进行解码,所述语料库和解码器将处理结果依次传回到第三层神经网络、第二层神经网络、第一层神经网络;
所述输入端输入的信息为选项式输入方式,针对任意一个选项的输入端输入信息,所述输出端分别输出若干个分解后的选项式结果和分解后再进行组合完毕的直接输出结果,所述输出端还包括输入用户纠错机制,所述输入用户纠错机制包括直接指出错误位置或直接输入自己根据输出的分解后的选项式结果完成的翻译结果,并将被指出的错误信息或翻译结果传回第一层神经网络,对于被指出的错误信息,第一层神经网络经过分类后依次传递给第二层神经网络、第三层神经网络、语料库以及解码器;
对于直接输入自己根据输出的分解后的选项式结果完成的翻译结果,第一层神经网络经过分类后传给后台人工翻译客服,人工翻译客服对翻译结果进行评判后一方面将结果传送给输出端相应位置,使用户可以看到,另一方面将准确率大于95%的翻译结果传送给第三层神经网络,所述第三层神经网络将接收到的信息拆分后,输入给语料库,语料库完成记忆。
2.根据权利要求1所述的一种专用翻译器,其特征在于:所述选项式输入方式输入的信息选项包括文字、图片、语音信息以及文档文件。
3.根据权利要求1所述的一种专用翻译器,其特征在于:针对经过第三神经网络拆分后小于5000字符的信息,输出端的选项式结果包括句中实词翻译结果、短语翻译结果、句子翻译结果以及全部的翻译结果。
4.根据权利要求1所述的一种专用翻译器,其特征在于:所述语料库为单语种单一用途的语料库,收集原则为单一固定的。
5.根据权利要求1所述的一种专用翻译器,其特征在于:所述语料库为多语种单一用途的语料库,收集原则为单一固定的。
6.根据权利要求4或5任意所述的一种专用翻译器,其特征在于:所述语料库的单一用途为医学专用,收集原则为医学领域的专用缩写、词、短语及相关语法规则。
7.根据权利要求1所述的一种专用翻译器,其特征在于:所述语料库的收集范围包括人工翻译客服的随时更新补充,还包括定时网络搜索更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810805902.0A CN109062908B (zh) | 2018-07-20 | 2018-07-20 | 一种专用翻译器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810805902.0A CN109062908B (zh) | 2018-07-20 | 2018-07-20 | 一种专用翻译器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109062908A CN109062908A (zh) | 2018-12-21 |
CN109062908B true CN109062908B (zh) | 2023-07-14 |
Family
ID=64835000
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810805902.0A Expired - Fee Related CN109062908B (zh) | 2018-07-20 | 2018-07-20 | 一种专用翻译器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109062908B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102789451A (zh) * | 2011-05-16 | 2012-11-21 | 北京百度网讯科技有限公司 | 一种个性化的机器翻译系统、方法及训练翻译模型的方法 |
CN102799579A (zh) * | 2012-07-18 | 2012-11-28 | 西安理工大学 | 具有错误自诊断和自纠错功能的统计机器翻译方法 |
CN103020048A (zh) * | 2013-01-08 | 2013-04-03 | 深圳大学 | 一种语言翻译方法及系统 |
CN103985383A (zh) * | 2014-05-30 | 2014-08-13 | 上海斐讯数据通信技术有限公司 | 婴儿或宠物保姆方法及适用该方法的保姆系统和保姆机 |
CN107608973A (zh) * | 2016-07-12 | 2018-01-19 | 华为技术有限公司 | 一种基于神经网络的翻译方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120284015A1 (en) * | 2008-01-28 | 2012-11-08 | William Drewes | Method for Increasing the Accuracy of Subject-Specific Statistical Machine Translation (SMT) |
US20090192782A1 (en) * | 2008-01-28 | 2009-07-30 | William Drewes | Method for increasing the accuracy of statistical machine translation (SMT) |
KR100961717B1 (ko) * | 2008-09-16 | 2010-06-10 | 한국전자통신연구원 | 병렬 코퍼스를 이용한 기계번역 오류 탐지 방법 및 장치 |
US9176952B2 (en) * | 2008-09-25 | 2015-11-03 | Microsoft Technology Licensing, Llc | Computerized statistical machine translation with phrasal decoder |
US8494835B2 (en) * | 2008-12-02 | 2013-07-23 | Electronics And Telecommunications Research Institute | Post-editing apparatus and method for correcting translation errors |
US10133739B2 (en) * | 2014-10-24 | 2018-11-20 | Google Llc | Neural machine translation systems with rare word processing |
US10706351B2 (en) * | 2016-08-30 | 2020-07-07 | American Software Safety Reliability Company | Recurrent encoder and decoder |
-
2018
- 2018-07-20 CN CN201810805902.0A patent/CN109062908B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102789451A (zh) * | 2011-05-16 | 2012-11-21 | 北京百度网讯科技有限公司 | 一种个性化的机器翻译系统、方法及训练翻译模型的方法 |
CN102799579A (zh) * | 2012-07-18 | 2012-11-28 | 西安理工大学 | 具有错误自诊断和自纠错功能的统计机器翻译方法 |
CN103020048A (zh) * | 2013-01-08 | 2013-04-03 | 深圳大学 | 一种语言翻译方法及系统 |
CN103985383A (zh) * | 2014-05-30 | 2014-08-13 | 上海斐讯数据通信技术有限公司 | 婴儿或宠物保姆方法及适用该方法的保姆系统和保姆机 |
CN107608973A (zh) * | 2016-07-12 | 2018-01-19 | 华为技术有限公司 | 一种基于神经网络的翻译方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109062908A (zh) | 2018-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shan et al. | Investigating end-to-end speech recognition for mandarin-english code-switching | |
Littell et al. | Indigenous language technologies in Canada: Assessment, challenges, and successes | |
Li et al. | Code-switch language model with inversion constraints for mixed language speech recognition | |
Lewis | Haitian Creole: How to Build and Ship an MT Engine from Scratch in 4 days, 17 hours, & 30 minutes | |
Shen et al. | CECOS: A Chinese-English code-switching speech database | |
Tseng | Lexical coverage in Taiwan Mandarin conversation | |
Turki et al. | A conventional orthography for maghrebi arabic | |
CN109062908B (zh) | 一种专用翻译器 | |
Weerasinghe | A statistical machine translation approach to sinhala-tamil language translation | |
Valente | Orthography | |
Li et al. | Named entity transliteration with sequence-to-sequence neural network | |
Hahyesalaemae | Analysis Of The Use Of Code Mixing Between Thai And English Language In Facebook | |
Sunday et al. | Development of Bi-Directional English To Yoruba Translator for Real-Time Mobile Chatting | |
CN108197122B (zh) | 基于音节嵌入的藏汉人名音译方法 | |
Liu | Approach of the corpus research on medical English prepositions | |
de Sousa | The expansion of Cantonese over the last two Centuries | |
Mahlau | Some aspects of the standardization of the Basque language | |
Bakti et al. | Speech errors in simultaneously interpreted German target language texts. A descriptive analysis | |
Akinrẹmi | David Jowitt, Nigerian English. Berlin: de Gruyter Mouton, 2019. Pp. x+ 242. | |
Tamer et al. | The prevalence of systematicity in indo-European languages | |
Razavi et al. | Pronunciation lexicon development for under-resourced languages using automatically derived subword units: a case study on Scottish Gaelic | |
TWM650497U (zh) | 使用簡化標籤序列提昇自然語言理解的語意分析系統 | |
Dolgova | WAYS OF CONVEYING SPEECH PECULIARITIES OF THE CHARACTERS IN THE NOVEL “THE ADVENTURES OF HUCKLEBERRY FINN” BY M. TWAIN | |
Carbonell et al. | Language technologies for humanitarian aid | |
Enani et al. | The Problem of Equivalence in Translation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20230714 |