CN108280066B - 一种汉语到英语的离线翻译方法 - Google Patents
一种汉语到英语的离线翻译方法 Download PDFInfo
- Publication number
- CN108280066B CN108280066B CN201810064370.XA CN201810064370A CN108280066B CN 108280066 B CN108280066 B CN 108280066B CN 201810064370 A CN201810064370 A CN 201810064370A CN 108280066 B CN108280066 B CN 108280066B
- Authority
- CN
- China
- Prior art keywords
- chinese
- translated
- sentences
- sentence
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明的提供一种汉语到英语的离线翻译方法,特别是汉语到英语的汉语到英语的离线翻译方法,通过对汉语句子的合理分割,相近度计算,英语生成规则,得到符合要求的英文,一定程度上实现了无需依赖网络数据库,仅通过对待翻译的汉语句子进行处理,同时结合设定的英语翻译规则也能得到较为准确的翻译结果。
Description
技术领域
本发明属于自动翻译领域,具体涉及一种汉语到英语的离线翻译方法。
背景技术
随着智能设备的发展,智能操作系统也越来越多样化,比如苹果公司的IOS,谷歌公司的Android,火狐公司的Firefox OS等等,而集成了这些系统的智能设备也开始被越来越多的用户使用,用户使用这些设备进行游戏,社交,阅读等等日常活动。
而随着社会的愈来愈开放,人们现在也有着更多的机会阅读到不属于自己母语的内容,不论是平时爱好阅读,或者是因专业学习,工作需求等,常常会碰到很多外语资料,目前智能设备上存在最普遍的查询外语词汇的方法是由用户手动打开外语查询应用,手动输入单词查询,稍微做的好一些应用比如有道词典。目前流行的自动翻译方法主要有三类,第一类是基于词的,以单词作为翻译的基本单位,不考虑上下文信息和人类语言学知识,翻译时,首先查找每个源语言单词所对应的目标语言单词,然后插入、删除目标语言单词,并调整它们的顺序,组合成目标语言句子,特点是翻译虚度快,但准确度较差,第二类是基于短语的翻译,翻译粒度从单词扩展到短语,较好解决局部上下文依赖问题,大大提高翻译的流利度和准确率,第三类是基于句法的翻译,将句法结构信息引入翻译过程,但需要将语法结构知识引入,且需要在翻译之前利用句法知识调整源语言语序,在翻译之后利用句法知识做重排序。
目前来说,现有的机器自动翻译中,第三类翻译是趋势,然而要想获得较好的翻译效果,最好是通过在线联网的方式获得语法结构,另外,该翻译速度也较慢。尽管互联网已得到了极大的普遍应用,然而,随着环境的变化,以及各种临时条件的出现,我们的智能设备也不能时时刻刻保持在线状态,因此,急需一种汉语到英语的离线翻译方法,在尽可能实现脱离网络的情况下,也能得到较为准确的翻译结果。
发明内容
鉴于以上分析,本发明的主要目的在于提供一种克服上述缺陷的汉语到英语的离线翻译方法,特别是汉语到英语的汉语到英语的离线翻译方法,通过对汉语句子的合理分割,相近度计算,英语生成规则,得到符合要求的英文,一定程度上实现了无需依赖网络数据库,仅通过对待翻译的汉语句子进行处理,同时结合设定的英语翻译规则技能得到较为准确的翻译结果。
本发明的目的是通过以下技术方案实现的。
一种汉语到英语的离线翻译方法,包括如下步骤:
接收输入的汉语句子,根据汉英字典进行词语分割,得到正确的词语分割形式;
把待翻译的汉语句子的某些特征作为查询条件到数据库中查询出相近的句子,并且按照相近程度大小选择出最接近的句子,即相近度计算;
根据设定的对齐规则,对齐待翻译的汉语句子和数据库中的句子,并且对齐数据库中汉语句子的词语和英文句子的词语;
根据设定的英语翻译规则,翻译成符合要求的英文。
进一步地,所述词语分割的具体步骤为,(1)设待分割的语句的长度为L,字典中最大词语长度为M,从待分割的第一个字开始取长度为M的字符串进行匹配。(2)若能够匹配,则将此字符串作为一个词语,从语句中分割,将该词语左右两侧的部分作为新的语句,继续重复此过程进行分割;(3)若不能匹配,则从语句的第二个字继续取长度为M的字符串进行匹配;(4)若不能匹配,则依次从语句中的第三个、第四个……第(L-M+1)个字开始取长度为M的字符串进行匹配,若匹配成功,则返回第(2)步,如果都不能匹配,则表明已经没有长度为M的词语,此时令M-1,再以此字符串长度,从第一个字开始,进行匹配;(5)重复上述过程,直至语句中的词语全部分割完成。
进一步地,词语分割完成后,还包括对分割结果进行词性标注以及特殊词语处理,利用语义数据库的语义信息和规则消除词性歧义,提高词性标注准确率。
进一步地,所述相近度计算包括在总体结构上比较待翻译的语句,提取待翻译语句的特征,通过提取的特征去数据库搜索相近的语句。
进一步地,所述特征包括比较词性、语义,包括计算语义距离以及词语的连接关系。
进一步地,所述对齐包括设定数据库中的汉语例句的分割形式,根据汉语例句中词语的出现顺序,把汉语例句译文分成和汉语词语对应的形式,同时存储汉英的对照关系,对齐时,结合词语长度以及上述相近度计算结果,根据汉英字典中出现频率较高的翻译固定词汇作为节点,按照数据库中对照关系进行对齐。
进一步地,所述翻译成符合要求的英文具体包括根据上述对齐结果进行翻译,如果待翻译的句子与数据库中相对应的例句相对应的字串相同,则直接将例句中的翻译结果进行重复,如果待翻译的句子与数据库中相对应的例句相对应的字串不同,则用待翻译的句子中词语所对应的翻译词语去代替例句翻译的词语在复制到新译文的适当位置,而当待翻译文本为多个词语对齐例句的一个词语时,则先翻译待翻译的多个词语,然后把待翻译的多个词语作为整体代替例句译文中对齐的部分,而所述多个词语的翻译为利用所述多个词语查询数据库中相类似的词语翻译结果,以该结果作为该多个词语的翻译结果。
本发明的技术方案具有以下优点:
克服上述在线翻译对网络数据库的依赖,仅通过对待翻译的汉语句子进行处理,提供了一种特别是汉语到英语的汉语到英语的离线翻译方法,通过对汉语句子的合理分割,相近度计算,同时结合设定的英语翻译规则也能得到较为准确的翻译结果。
附图说明
图1示出了根据本发明优选实施例的方法的流程图。
具体实施方式
如图1所示,一种汉语到英语的离线翻译方法,包括如下步骤:
接收输入的汉语句子,根据汉英字典进行词语分割,得到正确的词语分割形式;
把待翻译的汉语句子的某些特征作为查询条件到数据库中查询出相近的句子,并且按照相近程度大小选择出最接近的句子,即相近度计算;
根据设定的对齐规则,对齐待翻译的汉语句子和数据库中的句子,并且对齐数据库中汉语句子的词语和英文句子的词语;
根据设定的英语翻译规则,翻译成符合要求的英文。
所述词语分割的具体步骤为,(1)设待分割的语句的长度为L,字典中最大词语长度为M,从待分割的第一个字开始取长度为M的字符串进行匹配。(2)若能够匹配,则将此字符串作为一个词语,从语句中分割,将该词语左右两侧的部分作为新的语句,继续重复此过程进行分割;(3)若不能匹配,则从语句的第二个字继续取长度为M的字符串进行匹配;(4)若不能匹配,则依次从语句中的第三个、第四个……第(L-M+1)个字开始取长度为M的字符串进行匹配,若匹配成功,则返回第(2)步,如果都不能匹配,则表明已经没有长度为M的词语,此时令M-1,再以此字符串长度,从第一个字开始,进行匹配;(5)重复上述过程,直至语句中的词语全部分割完成。
词语分割完成后,还包括对分割结果进行词性标注以及特殊词语处理,利用语义数据库的语义信息和规则消除词性歧义,提高词性标注准确率。
所述相近度计算包括在总体结构上比较待翻译的语句,提取待翻译语句的特征,通过提取的特征去数据库搜索相近的语句。
所述特征包括比较词性、语义,包括计算语义距离以及词语的连接关系。
所述对齐包括设定数据库中的汉语例句的分割形式,根据汉语例句中词语的出现顺序,把汉语例句译文分成和汉语词语对应的形式,同时存储汉英的对照关系,对齐时,结合词语长度以及上述相近度计算结果,根据汉英字典中出现频率较高的翻译固定词汇作为节点,按照数据库中对照关系进行对齐。
所述翻译成符合要求的英文具体包括根据上述对齐结果进行翻译,如果待翻译的句子与数据库中相对应的例句相对应的字串相同,则直接将例句中的翻译结果进行重复,如果待翻译的句子与数据库中相对应的例句相对应的字串不同,则用待翻译的句子中词语所对应的翻译词语去代替例句翻译的词语在复制到新译文的适当位置,而当待翻译文本为多个词语对齐例句的一个词语时,则先翻译待翻译的多个词语,然后把待翻译的多个词语作为整体代替例句译文中对齐的部分,而所述多个词语的翻译为利用所述多个词语查询数据库中相类似的词语翻译结果,以该结果作为该多个词语的翻译结果。
本发明的技术方案具有以下优点:
克服上述在线翻译对网络数据库的依赖,仅通过对待翻译的汉语句子进行处理,提供了一种特别是汉语到英语的汉语到英语的离线翻译方法,通过对汉语句子的合理分割,相近度计算,同时结合设定的英语翻译规则也能得到较为准确的翻译结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种汉语到英语的离线翻译方法,包括如下步骤:
接收输入的汉语句子,根据汉英字典进行词语分割,得到正确的词语分割形式;
把待翻译的汉语句子的某些特征作为查询条件到数据库中查询出相近的句子,并且按照相近程度大小选择出最接近的句子,即相近度计算;
根据设定的对齐规则,对齐待翻译的汉语句子和数据库中的句子,并且对齐数据库中汉语句子的词语和英文句子的词语;
根据设定的英语翻译规则,翻译成符合要求的英文;
其中所述词语分割的具体步骤为,(1)设待分割的语句的长度为L,字典中最大词语长度为M,从待分割的第一个字开始取长度为M的字符串进行匹配; (2)若能够匹配,则将此字符串作为一个词语,从语句中分割,将该词语左右两侧的部分作为新的语句,继续重复此过程进行分割;(3)若不能匹配,则从语句的第二个字继续取长度为M的字符串进行匹配;(4)若不能匹配,则依次从语句中的第三个、第四个……第(L-M+1)个字开始取长度为M的字符串进行匹配,若匹配成功,则返回第(2)步,如果都不能匹配,则表明已经没有长度为M的词语,此时令M-1,再以此字符串长度,从第一个字开始,进行匹配;(5)重复上述过程,直至语句中的词语全部分割完成;
其中词语分割完成后,还包括对分割结果进行词性标注以及特殊词语处理,利用语义数据库的语义信息和规则消除词性歧义,提高词性标注准确率;
所述相近度计算包括在总体结构上比较待翻译的语句,提取待翻译语句的特征,通过提取的特征去数据库搜索相近的语句;
所述特征包括比较词性、语义,包括计算语义距离以及词语的连接关系;
其特征在于,所述对齐包括设定数据库中的汉语例句的分割形式,根据汉语例句中词语的出现顺序,把汉语例句译文分成和汉语词语对应的形式,同时存储汉英的对照关系,对齐时,结合词语长度以及上述相近度计算结果,根据汉英字典中出现频率较高的翻译固定词汇作为节点,按照数据库中对照关系进行对齐;
所述翻译成符合要求的英文具体包括根据上述对齐结果进行翻译,如果待翻译的句子与数据库中相对应的例句相对应的字串相同,则直接将例句中的翻译结果进行重复,如果待翻译的句子与数据库中相对应的例句相对应的字串不同,则用待翻译的句子中词语所对应的翻译词语去代替例句翻译的词语再复制到新译文的适当位置,而当待翻译文本为多个词语对齐例句的一个词语时,则先翻译待翻译的多个词语,然后把待翻译的多个词语作为整体代替例句译文中对齐的部分,而所述多个词语的翻译为利用所述多个词语查询数据库中相类似的词语翻译结果,以该结果作为该多个词语的翻译结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810064370.XA CN108280066B (zh) | 2018-01-23 | 2018-01-23 | 一种汉语到英语的离线翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810064370.XA CN108280066B (zh) | 2018-01-23 | 2018-01-23 | 一种汉语到英语的离线翻译方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108280066A CN108280066A (zh) | 2018-07-13 |
CN108280066B true CN108280066B (zh) | 2021-09-24 |
Family
ID=62804673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810064370.XA Active CN108280066B (zh) | 2018-01-23 | 2018-01-23 | 一种汉语到英语的离线翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108280066B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052648B (zh) * | 2020-09-02 | 2021-11-16 | 文思海辉智科科技有限公司 | 一种字串翻译方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1652106A (zh) * | 2004-02-04 | 2005-08-10 | 北京赛迪翻译技术有限公司 | 基于语言知识库的机器翻译方法与装置 |
CN106874263A (zh) * | 2017-01-17 | 2017-06-20 | 中译语通科技(北京)有限公司 | 一种基于多维度数据分析和语义的中英语料库校对方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101996166B (zh) * | 2009-08-14 | 2015-08-05 | 张龙哺 | 双语句对模式化记录方法以及翻译方法和翻译系统 |
-
2018
- 2018-01-23 CN CN201810064370.XA patent/CN108280066B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1652106A (zh) * | 2004-02-04 | 2005-08-10 | 北京赛迪翻译技术有限公司 | 基于语言知识库的机器翻译方法与装置 |
CN106874263A (zh) * | 2017-01-17 | 2017-06-20 | 中译语通科技(北京)有限公司 | 一种基于多维度数据分析和语义的中英语料库校对方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108280066A (zh) | 2018-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109840331B (zh) | 一种基于用户词典的神经机器翻译方法 | |
US10061768B2 (en) | Method and apparatus for improving a bilingual corpus, machine translation method and apparatus | |
US8131539B2 (en) | Search-based word segmentation method and device for language without word boundary tag | |
US8249856B2 (en) | Machine translation | |
CN100437557C (zh) | 基于语言知识库的机器翻译方法与装置 | |
Cranias et al. | A matching technique in example-based machine translation | |
JP2006012168A (ja) | 翻訳メモリシステムにおいてカバレージおよび質を改良する方法 | |
CN112528001B (zh) | 一种信息查询方法、装置及电子设备 | |
CN110991180A (zh) | 一种基于关键词和Word2Vec的命令识别方法 | |
CN108491399B (zh) | 基于语境迭代分析的汉译英机器翻译方法 | |
CN108255818B (zh) | 利用分割技术的复合式机器翻译方法 | |
Hasler et al. | Dynamic topic adaptation for smt using distributional profiles | |
CN113343717A (zh) | 一种基于翻译记忆库的神经机器翻译方法 | |
Kadim et al. | Parallel HMM-based approach for arabic part of speech tagging. | |
CN108280066B (zh) | 一种汉语到英语的离线翻译方法 | |
CN108153743B (zh) | 基于相似度的智能离线翻译机 | |
CN112765977A (zh) | 一种基于跨语言数据增强的分词方法及装置 | |
CN112307756A (zh) | 基于Bi-LSTM和字词融合的汉语分词方法 | |
He et al. | Language post positioned characteristic based Chinese-Vietnamese statistical machine translation method | |
Tran et al. | Preordering for Chinese-Vietnamese statistical machine translation | |
CN114185573A (zh) | 一种人机交互机器翻译系统的实现和在线更新系统及方法 | |
Sangavi et al. | Analysis on bilingual machine translation systems for English and Tamil | |
CN110569510A (zh) | 一种对用户请求数据的命名实体识别的方法 | |
Pérez García | Phrase-based statistical machine translation: explanation of its processes and statistical models and evaluation of the English to Spanish translations produced | |
Hoshino et al. | Japanese to english machine translation using preordering and compositional distributed semantics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210908 Address after: 210000 floor 21, Shunyu building, No. 19, Bailongjiang East Street, Jianye District, Nanjing, Jiangsu Province Applicant after: JIANGSU SUNYU INFORMATION TECHNOLOGY Co.,Ltd. Address before: 610000 No. 10 Jiuxing Avenue, Chengdu High-tech Zone, Sichuan Province Applicant before: CHENGDU HAIZHIYI TRANSLATION Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |