CN108255818A - 利用分割技术的复合式机器翻译方法 - Google Patents

利用分割技术的复合式机器翻译方法 Download PDF

Info

Publication number
CN108255818A
CN108255818A CN201810064383.7A CN201810064383A CN108255818A CN 108255818 A CN108255818 A CN 108255818A CN 201810064383 A CN201810064383 A CN 201810064383A CN 108255818 A CN108255818 A CN 108255818A
Authority
CN
China
Prior art keywords
sentence
word
translated
chinese
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810064383.7A
Other languages
English (en)
Other versions
CN108255818B (zh
Inventor
张斌
张锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Panyu Polytechnic
Original Assignee
Chengdu Sea Translation Translation Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Sea Translation Translation Co Ltd filed Critical Chengdu Sea Translation Translation Co Ltd
Priority to CN201810064383.7A priority Critical patent/CN108255818B/zh
Publication of CN108255818A publication Critical patent/CN108255818A/zh
Application granted granted Critical
Publication of CN108255818B publication Critical patent/CN108255818B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明的提供一种利用分割技术的复合式机器翻译方法,特别是汉语到英语的利用分割技术的复合式机器翻译方法,通过对汉语句子的合理分割,相近度计算,英语生成规则,得到符合要求的英文,一定程度上实现了无需依赖网络网络化数据库,仅通过对待翻译的汉语句子进行处理,同时结合设定的英语翻译规则也能得到较为准确的翻译结果。

Description

利用分割技术的复合式机器翻译方法
技术领域
本发明属于自动翻译领域,具体涉及一种利用分割技术的复合式机器翻译方法。
背景技术
随着智能设备的发展,智能操作系统也越来越多样化,比如苹果公司的IOS,谷歌公司的Android,火狐公司的Firefox OS等等,而集成了这些系统的智能设备也开始被越来越多的用户使用,用户使用这些设备进行游戏,社交,阅读等等日常活动。
而随着社会的愈来愈开放,人们现在也有着更多的机会阅读到不属于自己母语的内容,不论是平时爱好阅读,或者是因专业学习,工作需求等,常常会碰到很多外语资料,目前智能设备上存在最普遍的查询外语词汇的方法是由用户手动打开外语查询应用,手动输入单词查询,稍微做的好一些应用比如有道词典。目前流行的自动翻译方法主要有三类,第一类是基于词的,以单词作为翻译的基本单位,不考虑上下文信息和人类语言学知识,翻译时,首先查找每个源语言单词所对应的目标语言单词,然后插入、删除目标语言单词,并调整它们的顺序,组合成目标语言句子,特点是翻译虚度快,但准确度较差,第二类是基于短语的翻译,翻译粒度从单词扩展到短语,较好解决局部上下文依赖问题,大大提高翻译的流利度和准确率,第三类是基于句法的翻译,将句法结构信息引入翻译过程,但需要将语法结构知识引入,且需要在翻译之前利用句法知识调整源语言语序,在翻译之后利用句法知识做重排序。
目前来说,现有的机器自动翻译中,第三类翻译是趋势,然而要想获得较好的翻译效果,最好是通过在线联网的方式获得语法结构,另外,该翻译速度也较慢。尽管互联网已得到了极大的普遍应用,然而,随着环境的变化,以及各种临时条件的出现,我们的智能设备也不能时时刻刻保持在线状态,因此,急需一种利用分割技术的复合式机器翻译方法,在尽可能实现脱离网络的情况下,也能得到较为准确的翻译结果。
发明内容
鉴于以上分析,本发明的主要目的在于提供一种克服上述缺陷的利用分割技术的复合式机器翻译方法,特别是汉语到英语的利用分割技术的复合式机器翻译方法,通过对汉语句子的合理分割,相近度计算,英语生成规则,得到符合要求的英文,一定程度上实现了无需依赖网络网络化数据库,仅通过对待翻译的汉语句子进行处理,同时结合设定的英语翻译规则技能得到较为准确的翻译结果。
本发明的目的是通过以下技术方案实现的。
一种利用分割技术的复合式机器翻译方法,包括如下步骤:
接收输入的汉语句子,根据汉英字典进行词语分割,得到正确的词语分割形式;
把待翻译的汉语句子的某些特征作为查询条件到网络化数据库中查询出相近的句子,并且按照相近程度大小选择出最接近的句子,即相近度计算;
把待翻译的汉语句子的某些特征作为查询条件到本地数据库中查询出相近的句子,并且按照相近程度大小选择出最接近的句子,即第二相近度计算;
基于第一相近度和第二相近度,根据预定的对齐规则,对齐待翻译的汉语句子和网络化数据库中的句子,并且对齐网络化数据库中汉语句子的词语和英文句子的词语;
根据设定的英语翻译规则,翻译成符合要求的英文。
进一步地,所述词语分割的具体步骤为,(1)设待分割的语句的长度为L,字典中最大词语长度为M,从待分割的第一个字开始取长度为M的字符串进行匹配。(2)若能够匹配,则将此字符串作为一个词语,从语句中分割,将该词语左右两侧的部分作为新的语句,继续重复此过程进行分割;(3)若不能匹配,则从语句的第二个字继续取长度为M的字符串进行匹配;(4)若不能匹配,则依次从语句中的第三个、第四个……第(L-M+1)个字开始取长度为M的字符串进行匹配,若匹配成功,则返回第(2)步,如果都不能匹配,则表明已经没有长度为M的词语,此时令M-1,再以此字符串长度,从第一个字开始,进行匹配;(5)重复上述过程,直至语句中的词语全部分割完成。
进一步地,词语分割完成后,还包括对分割结果进行词性标注以及特殊词语处理,利用语义网络化数据库的语义信息和规则消除词性歧义,提高词性标注准确率。
进一步地,所述相近度计算包括在总体结构上比较待翻译的语句,提取待翻译语句的特征,通过提取的特征去网络化数据库搜索相近的语句。
进一步地,所述特征包括比较词性、语义,包括计算语义距离以及词语的连接关系。
进一步地,所述对齐包括设定网络化数据库中的汉语例句的分割形式,根据汉语例句中词语的出现顺序,把汉语例句译文分成和汉语词语对应的形式,同时存储汉英的对照关系,对齐时,结合词语长度以及上述第一和第二相近度计算结果,根据汉英字典中出现频率较高的翻译固定词汇作为节点,按照网络化数据库中对照关系进行对齐。
进一步地,所述翻译成符合要求的英文具体包括根据上述对齐结果进行翻译,如果待翻译的句子与网络化数据库中相对应的例句相对应的字串相同,则直接将例句中的翻译结果进行重复,如果待翻译的句子与网络化数据库中相对应的例句相对应的字串不同,则用待翻译的句子中词语所对应的翻译词语去代替例句翻译的词语在复制到新译文的适当位置,而当待翻译文本为多个词语对齐例句的一个词语时,则先翻译待翻译的多个词语,然后把待翻译的多个词语作为整体代替例句译文中对齐的部分,而所述多个词语的翻译为利用所述多个词语查询网络化数据库中相类似的词语翻译结果,以该结果作为该多个词语的翻译结果。
本发明的技术方案具有以下优点:
克服上述在线翻译对网络网络化数据库的依赖,仅通过对待翻译的汉语句子进行处理,提供了一种特别是汉语到英语的利用分割技术的复合式机器翻译方法,通过对汉语句子的合理分割,相近度计算,同时结合设定的英语翻译规则也能得到较为准确的翻译结果。
附图说明
图1示出了根据本发明优选实施例的方法的流程图。
具体实施方式
如图1所示,一种利用分割技术的复合式机器翻译方法,包括如下步骤:
接收输入的汉语句子,根据汉英字典进行词语分割,得到正确的词语分割形式;
把待翻译的汉语句子的某些特征作为查询条件到网络化数据库中查询出相近的句子,并且按照相近程度大小选择出最接近的句子,即相近度计算;
把待翻译的汉语句子的某些特征作为查询条件到本地数据库中查询出相近的句子,并且按照相近程度大小选择出最接近的句子,即第二相近度计算;
基于第一相近度和第二相近度,根据预定的对齐规则,对齐待翻译的汉语句子和网络化数据库中的句子,并且对齐网络化数据库中汉语句子的词语和英文句子的词语;
根据设定的英语翻译规则,翻译成符合要求的英文。
所述词语分割的具体步骤为,(1)设待分割的语句的长度为L,字典中最大词语长度为M,从待分割的第一个字开始取长度为M的字符串进行匹配。(2)若能够匹配,则将此字符串作为一个词语,从语句中分割,将该词语左右两侧的部分作为新的语句,继续重复此过程进行分割;(3)若不能匹配,则从语句的第二个字继续取长度为M的字符串进行匹配;(4)若不能匹配,则依次从语句中的第三个、第四个……第(L-M+1)个字开始取长度为M的字符串进行匹配,若匹配成功,则返回第(2)步,如果都不能匹配,则表明已经没有长度为M的词语,此时令M-1,再以此字符串长度,从第一个字开始,进行匹配;(5)重复上述过程,直至语句中的词语全部分割完成。
词语分割完成后,还包括对分割结果进行词性标注以及特殊词语处理,利用语义网络化数据库的语义信息和规则消除词性歧义,提高词性标注准确率。
所述相近度计算包括在总体结构上比较待翻译的语句,提取待翻译语句的特征,通过提取的特征去网络化数据库搜索相近的语句。
所述特征包括比较词性、语义,包括计算语义距离以及词语的连接关系。
所述对齐包括设定网络化数据库中的汉语例句的分割形式,根据汉语例句中词语的出现顺序,把汉语例句译文分成和汉语词语对应的形式,同时存储汉英的对照关系,对齐时,结合词语长度以及上述第一和第二相近度计算结果,根据汉英字典中出现频率较高的翻译固定词汇作为节点,按照网络化数据库中对照关系进行对齐。
所述翻译成符合要求的英文具体包括根据上述对齐结果进行翻译,如果待翻译的句子与网络化数据库中相对应的例句相对应的字串相同,则直接将例句中的翻译结果进行重复,如果待翻译的句子与网络化数据库中相对应的例句相对应的字串不同,则用待翻译的句子中词语所对应的翻译词语去代替例句翻译的词语在复制到新译文的适当位置,而当待翻译文本为多个词语对齐例句的一个词语时,则先翻译待翻译的多个词语,然后把待翻译的多个词语作为整体代替例句译文中对齐的部分,而所述多个词语的翻译为利用所述多个词语查询网络化数据库中相类似的词语翻译结果,以该结果作为该多个词语的翻译结果。
本发明的技术方案具有以下优点:
克服上述在线翻译对网络网络化数据库的依赖,仅通过对待翻译的汉语句子进行处理,提供了一种特别是汉语到英语的利用分割技术的复合式机器翻译方法,通过对汉语句子的合理分割,相近度计算,同时结合设定的英语翻译规则也能得到较为准确的翻译结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种利用分割技术的复合式机器翻译方法,包括如下步骤:
接收输入的汉语句子,根据汉英字典进行词语分割,得到正确的词语分割形式;
把待翻译的汉语句子的某些特征作为查询条件到网络化数据库中查询出相近的句子,并且按照相近程度大小选择出最接近的句子,即第一相近度计算;
把待翻译的汉语句子的某些特征作为查询条件到本地数据库中查询出相近的句子,并且按照相近程度大小选择出最接近的句子,即第二相近度计算;
基于第一相近度和第二相近度,根据预定的对齐规则,对齐待翻译的汉语句子和本地数据库中的句子,并且对齐网络化数据库中汉语句子的词语和英文句子的词语;
根据设定的英语翻译规则,翻译成符合要求的英文。
2.如权利要求1所述的一种利用分割技术的复合式机器翻译方法,其中所述词语分割的具体步骤为,(1)设待分割的语句的长度为L,字典中最大词语长度为M,从待分割的第一个字开始取长度为M的字符串进行匹配。(2)若能够匹配,则将此字符串作为一个词语,从语句中分割,将该词语左右两侧的部分作为新的语句,继续重复此过程进行分割;(3)若不能匹配,则从语句的第二个字继续取长度为M的字符串进行匹配;(4)若不能匹配,则依次从语句中的第三个、第四个……第(L-M+1)个字开始取长度为M的字符串进行匹配,若匹配成功,则返回第(2)步,如果都不能匹配,则表明已经没有长度为M的词语,此时令M-1,再以此字符串长度,从第一个字开始,进行匹配;(5)重复上述过程,直至语句中的词语全部分割完成。
3.如权利要求2所述的一种利用分割技术的复合式机器翻译方法,其中词语分割完成后,还包括对分割结果进行词性标注以及特殊词语处理,利用语义网络化数据库的语义信息和规则消除词性歧义,提高词性标注准确率。
4.如权利要求1所述的一种利用分割技术的复合式机器翻译方法,所述相近度计算包括在总体结构上比较待翻译的语句,提取待翻译语句的特征,通过提取的特征去网络化数据库搜索相近的语句。
5.如权利要求4所述的一种利用分割技术的复合式机器翻译方法,所述特征包括比较词性、语义,包括计算语义距离以及词语的连接关系。
6.如权利要求1所述的一种利用分割技术的复合式机器翻译方法,所述对齐包括设定网络化数据库中的汉语例句的分割形式,根据汉语例句中词语的出现顺序,把汉语例句译文分成和汉语词语对应的形式,同时存储汉英的对照关系,对齐时,结合词语长度以及上述第一和第二相近度计算结果,根据汉英字典中出现频率较高的翻译固定词汇作为节点,按照网络化数据库中对照关系进行对齐。
7.如权利要求2所述的一种利用分割技术的复合式机器翻译方法,所述翻译成符合要求的英文具体包括根据上述对齐结果进行翻译,如果待翻译的句子与网络化数据库中相对应的例句相对应的字串相同,则直接将例句中的翻译结果进行重复,如果待翻译的句子与网络化数据库中相对应的例句相对应的字串不同,则用待翻译的句子中词语所对应的翻译词语去代替例句翻译的词语在复制到新译文的适当位置,而当待翻译文本为多个词语对齐例句的一个词语时,则先翻译待翻译的多个词语,然后把待翻译的多个词语作为整体代替例句译文中对齐的部分,而所述多个词语的翻译为利用所述多个词语查询网络化数据库中相类似的词语翻译结果,以该结果作为该多个词语的翻译结果。
CN201810064383.7A 2018-01-23 2018-01-23 利用分割技术的复合式机器翻译方法 Active CN108255818B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810064383.7A CN108255818B (zh) 2018-01-23 2018-01-23 利用分割技术的复合式机器翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810064383.7A CN108255818B (zh) 2018-01-23 2018-01-23 利用分割技术的复合式机器翻译方法

Publications (2)

Publication Number Publication Date
CN108255818A true CN108255818A (zh) 2018-07-06
CN108255818B CN108255818B (zh) 2021-08-17

Family

ID=62742207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810064383.7A Active CN108255818B (zh) 2018-01-23 2018-01-23 利用分割技术的复合式机器翻译方法

Country Status (1)

Country Link
CN (1) CN108255818B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858045A (zh) * 2019-02-01 2019-06-07 北京字节跳动网络技术有限公司 机器翻译方法和装置
CN109992753A (zh) * 2019-03-22 2019-07-09 维沃移动通信有限公司 一种翻译处理方法及终端设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1570922A (zh) * 2004-04-30 2005-01-26 王敖格 一种模式-参数语言翻译方法及其翻译系统
CN1652106A (zh) * 2004-02-04 2005-08-10 北京赛迪翻译技术有限公司 基于语言知识库的机器翻译方法与装置
CN101520786A (zh) * 2008-02-27 2009-09-02 北京搜狗科技发展有限公司 一种输入法词典的实现方法和输入法系统
CN102693222B (zh) * 2012-05-25 2014-10-01 熊晶 基于实例的甲骨文释文机器翻译方法
US20150347389A1 (en) * 2014-05-27 2015-12-03 Naver Corporation Method, system and recording medium for providing dictionary function and file distribution system
CN106874263A (zh) * 2017-01-17 2017-06-20 中译语通科技(北京)有限公司 一种基于多维度数据分析和语义的中英语料库校对方法
US20170220557A1 (en) * 2016-02-02 2017-08-03 Theo HOFFENBERG Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases
CN107590137A (zh) * 2017-08-07 2018-01-16 北京小米移动软件有限公司 翻译方法、装置及计算机可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1652106A (zh) * 2004-02-04 2005-08-10 北京赛迪翻译技术有限公司 基于语言知识库的机器翻译方法与装置
CN1570922A (zh) * 2004-04-30 2005-01-26 王敖格 一种模式-参数语言翻译方法及其翻译系统
CN101520786A (zh) * 2008-02-27 2009-09-02 北京搜狗科技发展有限公司 一种输入法词典的实现方法和输入法系统
CN102693222B (zh) * 2012-05-25 2014-10-01 熊晶 基于实例的甲骨文释文机器翻译方法
US20150347389A1 (en) * 2014-05-27 2015-12-03 Naver Corporation Method, system and recording medium for providing dictionary function and file distribution system
US20170220557A1 (en) * 2016-02-02 2017-08-03 Theo HOFFENBERG Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases
CN106874263A (zh) * 2017-01-17 2017-06-20 中译语通科技(北京)有限公司 一种基于多维度数据分析和语义的中英语料库校对方法
CN107590137A (zh) * 2017-08-07 2018-01-16 北京小米移动软件有限公司 翻译方法、装置及计算机可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
IMWHITEEE: "机器翻译之句子对齐", 《HTTPS://BLOG.CSDN.NET/LAMPQIU/ARTICLE/DETAILS/45645405》 *
卡哈尔江·阿比的热西提: "基于实例的汉维—维汉双向机器翻译系统的研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
郭辉 等: "一种改进的MM分词算法", 《微型电脑应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858045A (zh) * 2019-02-01 2019-06-07 北京字节跳动网络技术有限公司 机器翻译方法和装置
CN109858045B (zh) * 2019-02-01 2020-07-10 北京字节跳动网络技术有限公司 机器翻译方法和装置
CN109992753A (zh) * 2019-03-22 2019-07-09 维沃移动通信有限公司 一种翻译处理方法及终端设备
CN109992753B (zh) * 2019-03-22 2023-09-08 维沃移动通信有限公司 一种翻译处理方法及终端设备

Also Published As

Publication number Publication date
CN108255818B (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
CN107436864B (zh) 一种基于Word2Vec的中文问答语义相似度计算方法
KR101130444B1 (ko) 기계번역기법을 이용한 유사문장 식별 시스템
US8249856B2 (en) Machine translation
WO2016127677A1 (zh) 地址结构化方法及装置
US10496756B2 (en) Sentence creation system
CN107656921B (zh) 一种基于深度学习的短文本依存分析方法
CN111382571B (zh) 一种信息抽取方法、系统、服务器和存储介质
CN108920447B (zh) 一种面向特定领域的中文事件抽取方法
CN108959630A (zh) 一种面向英文无结构文本的人物属性抽取方法
CN117251524A (zh) 一种基于多策略融合的短文本分类方法
CN108255818A (zh) 利用分割技术的复合式机器翻译方法
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
Anju et al. Malayalam to English machine translation: An EBMT system
Stepanov et al. Language style and domain adaptation for cross-language SLU porting
Mrinalini et al. Pause-based phrase extraction and effective OOV handling for low-resource machine translation systems
JP2018072979A (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
CN110888940A (zh) 文本信息提取方法、装置、计算机设备及存储介质
CN108153743A (zh) 基于相似度的智能离线翻译机
CN107168950B (zh) 一种基于双语语义映射的事件短语学习方法及装置
CN108280066A (zh) 一种汉语到英语的离线翻译方法
CN111949781B (zh) 一种基于自然语句句法分析的智能交互方法及装置
Jacquemin et al. Enriching a text by semantic disambiguation for information extraction
Jebbor et al. Overview of knowledge extraction techniques in five question-answering systems
Miao et al. An unknown word processing method in NMT by integrating syntactic structure and semantic concept
CN112016301B (zh) 一种融合短语先验知识的依存句法分析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Feng Kejiang

Inventor after: Zhang Bin

Inventor after: Zhang Feng

Inventor before: Zhang Bin

Inventor before: Zhang Feng

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210728

Address after: 1342 Shiliang Road, Shawan Town, Panyu District, Guangzhou, Guangdong 510000

Applicant after: GUANGZHOU PANYU POLYTECHNIC

Address before: 610000 No. 10 Jiuxing Avenue, Chengdu High-tech Zone, Sichuan Province

Applicant before: CHENGDU HAIZHIYI TRANSLATION Co.,Ltd.

GR01 Patent grant
GR01 Patent grant