CN106708812A - 机器翻译模型的获取方法及装置 - Google Patents

机器翻译模型的获取方法及装置 Download PDF

Info

Publication number
CN106708812A
CN106708812A CN201611178859.7A CN201611178859A CN106708812A CN 106708812 A CN106708812 A CN 106708812A CN 201611178859 A CN201611178859 A CN 201611178859A CN 106708812 A CN106708812 A CN 106708812A
Authority
CN
China
Prior art keywords
language
word
participle
text
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611178859.7A
Other languages
English (en)
Inventor
田亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Technology (shenzhen) Co Ltd
Original Assignee
Information Technology (shenzhen) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Technology (shenzhen) Co Ltd filed Critical Information Technology (shenzhen) Co Ltd
Priority to CN201611178859.7A priority Critical patent/CN106708812A/zh
Publication of CN106708812A publication Critical patent/CN106708812A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种机器翻译模型的获取方法及装置。本发明的机器翻译模型的获取方法包括获取多个双语句对文本,双语句对文本包括第一语言文本和与第一语言文本语义相同的第二语言文本;根据第一语言词典,对第一语言文本进行分词,得到第一分词词语,根据第二语言词典,对第二语言文本进行分词,得到第二分词词语;第一语言词典包括多个第一语言短语,第二语言词典包括多个第二语言短语;采用非监督学习方法对第一分词词语和第二分词词语组成的平行语料进行训练,得到机器翻译模型。本发明的机器翻译模型的获取方法及装置,使得获取的机器翻译模型在机器翻译的应用过程中,机器翻译速度和精度得到了提高。

Description

机器翻译模型的获取方法及装置
技术领域
本发明实施例涉及语言处理技术,尤其涉及一种机器翻译模型的获取方法及装置。
背景技术
机器翻译是自然语言处理的重要分支之一,其目的是借助计算机将文字或者语言从一种自然语言翻译成另外一种自然语言,例如将中文翻译成英文。随着计算机计算能力和存储能力的不断提升,机器翻译方法中统计方法开始发展,统计方法的基本思想是通过大量的平行语料进行统计分析,构建机器翻译模型,并使用该模型结合语言模型来进行翻译。
现有技术中通过统计方法获取机器翻译模型的方法,一般是对双语句对文本进行分词,其中,双语句对文本即为源语言文本和目标语言文本,例如源语言文本是中文文本,目标语言文本是与该中文文本语义对应的英文文本。根据源语言文本和目标语言文本各自对应的词典,对该源语言文本和目标语言文本分别进行分词,得到平行语料,也就是训练词语,对平行语料进行训练得到机器翻译模型。现有技术分词方法中采用的分词词典没有考虑双语句对文本之间的语义对应关系,比如对于双语句对为中文文本和英文文本的情况,其中,对于英文文本的分词,由于没有考虑与中文文本中汉字的语义关系,分词结果往往是以单个单词的形式存在,忽略了与中文文本中的汉字对应关系更好、语义更丰富的英文短语,造成了采用上述方法得到的机器翻译模型在机器翻译的应用过程中,机器翻译速度较慢且准确度不高的问题。
发明内容
本发明提供一种机器翻译模型的获取方法及装置,以克服现有技术中获取翻译模型方法得到机器翻译模型在应用过程中,使得机器翻译速度较慢且准确度不高的技术问题
本发明提供一种机器翻译模型的获取方法,包括:
获取多个双语句对文本,所述双语句对文本包括第一语言文本和与所述第一语言文本语义相同的第二语言文本,所述第一语言文本与所述第二语言文本属于不同的语言;
根据第一语言词典,对所述第一语言文本进行分词,得到第一分词词语,根据第二语言词典,对所述第二语言文本进行分词,得到第二分词词语;其中,所述第一分词词语包括至少一个第一单词,所述第二分词词语包括至少一个第二单词;所述第一语言词典包括多个第一语言短语,所述第一语言短语包括多个第一单词,所述第二语言词典包括多个第二语言短语,所述第二语言短语包括多个第二单词;
采用非监督学习方法对所述第一分词词语和所述第二分词词语组成的平行语料进行训练,得到机器翻译模型,以使终端采用所述机器翻译模型进行第一语言和第二语言之间的翻译。
如上所述的方法,所述根据第一语言词典,对所述第一语言文本进行分词,得到第一分词词语,根据第二语言词典,对所述第二语言文本进行分词,得到第二分词词语之前,还包括:
对所述第一语言文本进行分词,得到所述第一语言文本对应的多个第一单词,并对所述第二语言文本进行分词,得到所述第二语言文本对应的多个第二单词;
根据所述第一单词和所述第二单词之间的语义对应关系,构建第一语言短语和第二语言短语;
根据所述第一语言短语,生成第一语言词典,根据所述第二语言短语,生成第二语言词典。
如上所述的方法,所述对所述第一语言文本进行分词,得到所述第一语言文本对应的多个第一单词,包括:
根据第一分词词典,采用最大匹配分词法,对所述第一语言文本进行分词,得到多个第一单词;
所述对所述第二语言文本进行分词,得到所述第二语言文本对应的多个第二单词,包括:
根据第二分词词典,采用最大匹配分词法,对所述第二语言文本进行分词,得到多个第二单词。
如上所述的方法,所述根据所述第一单词和所述第二单词之间的语义对应关系,构建第一语言短语和第二语言短语,包括:
将所述第一语言文本的第一单词和所述第二语言文本的第二单词按照语义进行匹配对齐;
若多个第一单词表达的语义与至少一个第二单词表达的语义相同,则将多个第一单词组成第一语言短语;
若多个第二单词表达的语义与至少一个第一单词表达的语义相同,则将多个第二单词组成第二语言短语。
如上所述的方法,所述根据所述第一语言短语,生成第一语言词典,包括:
将所述第一语言短语添加到所述第一分词词典中,得到新的第一分词词典,将所述新的第一分词词典作为所述第一语言词典;
所述根据第二语言短语,生成第二语言词典,包括:
将所述第二语言短语添加到所述第二分词词典中,得到新的第二分词词典,将所述新的第二分词词典作为所述第二语言词典。
如上所述的方法,所述第一语言文本为亚洲语言文本,所述第一单词为单字。
本发明还提供一种机器翻译模型的获取装置,包括:
文本获取模块,所述文本获取模块用于获取多个双语句对文本,所述双语句对文本包括第一语言文本和与所述第一语言文本语义相同的第二语言文本,所述第一语言文本与所述第二语言文本属于不同的语言;
第一分词模块,所述分词模块用于,根据第一语言词典,对所述第一语言文本进行分词,得到第一分词词语,根据第二语言词典,对所述第二语言文本进行分词,得到第二分词词语;其中,所述第一分词词语包括至少一个第一单词,所述第二分词词语包括至少一个第二单词;所述第一语言词典包括多个第一语言短语,所述第一语言短语包括多个第一单词,所述第二语言词典包括多个第二语言短语,所述第二语言短语包括多个第二单词;
机器翻译模型获取模块,所述机器翻译模型获取模块用于采用非监督学习方法对所述第一分词词语和所述第二分词词语组成的平行语料进行训练,得到机器翻译模型,以使终端采用所述机器翻译模型进行第一语言和第二语言之间的翻译。
如上所述的装置,所述装置还包括:
第二分词模块,所述第二分词模块用于对所述第一语言文本进行分词,得到所述第一语言文本对应的多个第一单词,并对所述第二语言文本进行分词,得到所述第二语言文本对应的多个第二单词;
短语构建模块,所述短语构建模块用于根据所述第一单词和所述第二单词之间的语义对应关系,构建第一语言短语和第二语言短语;
词典生成模块,所述词典生成模块用于根据所述第一语言短语,生成第一语言词典,根据所述第二语言短语,生成第二语言词典。
如上所述的装置,所述第二分词模块具体用于:根据第一分词词典,采用最大匹配分词法,对所述第一语言文本进行分词,得到多个第一单词;
根据第二分词词典,采用最大匹配分词法,对所述第二语言文本进行分词,得到多个第二单词。
如上所述的装置,所述短语构建模块具体用于:将所述第一语言文本的第一单词和所述第二语言文本的第二单词按照语义进行匹配对齐;
若多个第一单词表达的语义与至少一个第二单词表达的语义相同,则将多个第一单词组成第一语言短语;
若多个第二单词表达的语义与至少一个第一单词表达的语义相同,则将多个第二单词组成第二语言短语。
本发明提供一种机器翻译模型的获取方法及装置。本发明的机器翻译模型的获取方法包括获取多个双语句对文本,双语句对文本包括第一语言文本和与第一语言文本语义相同的第二语言文本,第一语言文本与第二语言文本属于不同的语言;根据第一语言词典,对第一语言文本进行分词,得到第一分词词语,根据第二语言词典,对第二语言文本进行分词,得到第二分词词语;其中,第一分词词语包括至少一个第一单词,第二分词词语包括至少一个第二单词;第一语言词典包括多个第一语言短语,第一语言短语包括多个第一单词,第二语言词典包括多个第二语言短语,第二语言短语包括多个第二单词;采用非监督学习方法对第一分词词语和第二分词词语组成的平行语料进行训练,得到机器翻译模型,以使终端采用机器翻译模型进行第一语言和第二语言之间的翻译。本发明的机器翻译模型的获取方法及装置,使得获取的机器翻译模型在机器翻译的应用过程中,机器翻译速度和精度得到了提高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的机器翻译模型的获取方法的流程示意图;
图2为本发明提供的机器翻译模型的获取装置实施例一的结构示意图;
图3为本发明提供的机器翻译模型的获取装置实施例二的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例,例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
机器翻译的过程需要使用机器翻译模型,机器翻译模型直接影响机器翻译的质量和速度。在自然语言中,无论是亚洲语系还是欧美语系,短语表达的语义均比单个的单词表达的语义要丰富;比如中文和英文之间,往往一个中文汉字对应多个英文单词组成的英文短语,一个英文单词对应多个中文汉字组成的中文短语。但是,现有技术中获取机器翻译模型时,需采用源语言文本和目标语言文本各自对应的词典进行分词,但由于各自的词典没有充分考虑源语言与目标语言之间的语义对应关系,比如,对于源语言为英文文本的分词,分词结果往往是以单个单词的形式存在,并不能与目标语言中文很好的对应,而机器翻译模型是通过对分词得到的平行语料进行训练得到的,因此,使用现有技术中的机器翻译模型进行机器会存在翻译翻译速度较慢且准确度不高的问题。为解决上述问题,本发明提出了一种机器翻译模型的获取方法及装置,下面对本发明的机器翻译模型的获取方法和装置,进行详细的说明。
图1为本发明提供的机器翻译模型的获取方法的流程示意图,本实施例的方法可以基于机器翻译模型的获取装置实现,该装置可以通过由硬件和/或软件实现,如图1所示,本实施例的方法可以包括:
步骤S101、获取多个双语句对文本,双语句对文本包括第一语言文本和与第一语言文本语义相同的第二语言文本,第一语言文本与第二语言文本属于不同的语言;
具体地,双语句文本包括第一语言文本和与第一语言文本语义相同的第二语言文本,第一语言文本与第二语言文本属于不同的语言,比如第一语言文本为英文“I likefootball”,那么第二语言文本可为中文“我喜欢足球”,当然第二语言文本还可为日文等亚洲语言或者德语等欧美语言,只要与“I like football”语义对应即可。此外,本实施例中的第一语言文本与第二语言文本可以均为亚洲语系,也可以均为欧美语系,或者其他相同的语系,也可以分别属于不同的语系,也就是说第一语言文本和第二语言文本是根据后续需要互相翻译的语言确定的,比如进行中文与英文之间的翻译,那么第一语言文本为中文,第二语言文本为英文,或者,第一语言文本为英文,第二语言文本为中文。
本领域技术人员应当明白,双语句文本的数目应该足够大,以使得到的机器翻译模型应用在翻译过程时,可以保证翻译过程的精度和速度。
步骤S102、根据第一语言词典,对第一语言文本进行分词,得到第一分词词语,根据第二语言词典,对第二语言文本进行分词,得到第二分词词语;其中,第一分词词语包括至少一个第一单词,第二分词词语包括至少一个第二单词;第一语言词典包括多个第一语言短语,第一语言短语包括多个第一单词,第二语言词典包括多个第二语言短语,第二语言短语包括多个第二单词;
具体地,在根据第一语言词典,对第一语言文本进行分词,得到第一分词词语,根据第二语言词典,对第二语言文本进行分词,得到第二分词词语之前,需要获取第一语言词典和第二语言词典。
下面对获取第一语言词典和第二语言词典的方法进行详细的介绍。
获取多个双语句对文本,双语句对文本包括第一语言文本和与第一语言文本语义相同的第二语言文本,第一语言文本与第二语言文本属于不同的语言。本次获取的多个双语句对文本可以与步骤S101中的多个双语句对文本相同,也可以不相同,在本实施例中优选本次获取的多个双语句对文本与步骤S101中的多个双语句对文本相同。其中,若本次获取的多个双语句对文本与步骤S101中的多个双语句对文本不相同,优选为本次获取的多个双语句对文本包括步骤S101中的多个双语句对文本,也就是说本次获取的多个双语句对文本除了包括步骤S101中的多个双语句对文本外,还包括其他的双语句对文本。
本领域技术人员可以理解的是,本次获取的多个双语句对文本针对的双语(第一语言和第二语言)与步骤S101中的多个双语句对文本针对的双语相同,比如,步骤S101中的双语句对文本是语义对应的中文文本和英文文本,那么本次获取的双语句对文本也是语义对应的中文文本和英文文本。
在获取第一语言词典和第二语言词典的方法中,在获取了多个双语句对文本后,便对第一语言文本进行分词,得到第一语言文本对应的多个第一单词,并对第二语言文本进行分词,得到第二语言文本对应的多个第二单词。
具体地,对第一语言文本进行分词,得到第一语言文本对应的多个第一单词,包括:根据第一分词词典,采用最大匹配分词法,对第一语言文本进行分词,得到多个第一单词;对第二语言文本进行分词,得到第二语言文本对应的多个第二单词,包括:根据第二分词词典,采用最大匹配分词法,对第二语言文本进行分词,得到多个第二单词。
其中,若第一语言文本为亚洲语言文本,第一单词为单字。另外,最大匹配为现有技术中的方法,本实施例中不作赘述。
下面以第一语言文本为英文文本,第二语言文本为中文文本为例,对该分词过程进行说明。
第一分词词典为包含英文单词的分词词典,第二分词词典可为空的分词词典,或者第二分词词典中的词语均为一个汉字,以保证中文文本分词后的结果为单个汉字。举例来说,对于英文文本“I am a student of university of Macau”采用第一分词词典,通过最大匹配法分词后得到多个第一单词为:I、am、a、student、of、university、of、Macau。对于对应的中文文本“我是澳大的一名学生”,采用第二分词词典,通过最大匹配法分词后得到的多个第二单词为:我、是、澳、大、的、一、名、学、生。
另外,在获取第一语言词典和第二语言词典的方法中,获取了多个双语句对文本后,对于中文文本或者其它亚洲语系还可以不采用分词方法获取多个第二单词(若第二语言文本为亚洲语系),还可以采用直接将中文文本等亚洲语系文本直接拆分成单个字。
在获取到多个第一单词和多个第二单词后,根据第一单词和第二单词之间的语义对应关系,构建第一语言短语和第二语言短语;
构建第一语言短语和第二语言短语的具体方法为:将第一语言文本的第一单词和第二语言文本的第二单词按照语义进行匹配对齐;若多个第一单词表达的语义与至少一个第二单词表达的语义相同,则将多个第一单词组成第一语言短语;若多个第二单词表达的语义与至少一个第一单词表达的语义相同,则将多个第二单词组成第二语言短语。其中,将第一语言文本的第一单词和第二语言文本的第二单词按照语义进行匹配对齐使用的工具为GIZA++。
举例来说,若多个第一单词为:I、am、a、student、of、university、of、Macau,多个第二单词为:我、是、澳、大、的、一、名、学、生,语义匹配对齐后的结果为“I”和“我”对齐,“am”和“是”对齐,“a”和“一、名”对齐,“student”和“学、生”对齐,“of”和“的”对齐,“university、of、Macau”和“澳、大”对齐。
语义匹配对齐后,若多个第一单词表达的语义与至少一个第二单词表达的语义相同,则将多个第一单词组成第一语言短语,比如:3个第一单词“university、of、Macau”表达的语义和2个第二单词“澳、大”表达的语义相同,则将3个第一单词组成第一语言短语“university of Macau”。同理,若多个第二单词表达的语义与至少一个第一单词表达的语义相同,则将多个第二单词组成第二语言短语,比如2个第二单词“澳、大”表达的语义与3个第一单词“university、of、Macau”表达的语义相同,则将2个第二单词“澳、大”组成第二语言短语“澳大”;又比如两个第二单词“学、生”表达的语义与一个第一单词“student”表达的语义相同,则将两个第二单词“学、生”组成第二语言短语“学生”。
在获取到多个第一语言短语和第二语言短语后,根据第一语言短语,生成第一语言词典,根据第二语言短语,生成第二语言词典,具体为:将第一语言短语添加到第一分词词典中,得到新的第一分词词典,将新的第一分词词典作为第一语言词典;将第二语言短语添加到第一分词词典中,得到新的第二分词词典,将新的第二分词词典作为第二语言词典。
经过上述过程后,便得到了第一语言词典和第二语言词典。
在得到了第一语言词典和第二语言词典,便可以采用第一语言词典,对第一语言文本重新进行分词,得到第一分词词语,根据第二语言词典,对第二语言文本重新进行分词,得到第二分词词语。
具体地,本实施例中优选通过最大匹配法,采用第一语言词典,对第一语言文本进行分词,得到第一分词词语,因为第一语言词典包括多个第一语言短语,所以第一分词词语中包含多个第一语言短语,或者说第一分词词语包括至少一个第一单词。比如对于英文文本“I am a student of university of Macau”通过最大匹配法、采用第一语言词典分词后得到的第一分词词语为:I、am、a、student、of、university of Macau。
同样,本实施例中优选通过最大匹配法,采用第二语言词典,对第二语言文本进行分词,得到第二分词词语,因为第二语言词典包括多个第二语言短语,所以第一分词词语中包含多个第二语言短语,或者第二分词词语包括至少一个第二单词。比如对于中文文本“我是澳大的一名学生”,通过最大匹配法、采用第二语言词典分词后得到的第二分词词语为:我、是、澳大、的、一名、学生。
其中,对于欧美语系的文本优选正向匹配法,对于亚洲语系的文本优选逆向匹配法和概率的结合。
步骤S103、采用非监督学习方法对第一分词词语和第二分词词语组成的平行语料进行训练,得到机器翻译模型,以使终端采用机器翻译模型进行第一语言和第二语言之间的翻译。
具体地,在对所有的第一语言文本通过第一语言词典分词及所有的第二语言文本通过第二语言词典分词后,会得到多个第一分词词语和第二分词词语,将多个第一分词词语和第二分词词语组成平行语料作为训练词语采用非监督学习方法进行训练,得到机器翻译模型,以使终端采用该机器翻译模型进行第一语言和第二语言之间的翻译。其中,非监督学习方法为现有技术中的方法,本实施例中不做赘述。
采用包含多个第一语言短语和第一语言词典对第一语言文本进行分词得到第一分词词语,采用包含多个第二语言短语和第二语言词典对第二语言文本进行分词得到多个第二分词词语,接着通过对第一分词词语和第二分词词语组成的训练词语进行训练得到机器翻译模型,由于短语的语义更丰富,与另一语言对应时更准确,在翻译的过程中不必重新匹配生成短语,且第一语言短语和第一语言短语是通过第一语言文本和第二语言文本语义对齐后得到的,因此,机器翻译采用该方法得到的机器翻译模型进行机器翻译,会使得翻译的准确度和速度大大提高。
本实施例的机器翻译模型的获取方法,包括获取多个双语句对文本,双语句对文本包括第一语言文本和与第一语言文本语义相同的第二语言文本,第一语言文本与第二语言文本属于不同的语言;根据第一语言词典,对第一语言文本进行分词,得到第一分词词语,根据第二语言词典,对第二语言文本进行分词,得到第二分词词语;其中,第一分词词语包括至少一个第一单词,第二分词词语包括至少一个第二单词;第一语言词典包括多个第一语言短语,第一语言短语包括多个第一单词,第二语言词典包括多个第二语言短语,第二语言短语包括多个第二单词;采用非监督学习方法对第一分词词语和第二分词词语组成的平行语料进行训练,得到机器翻译模型,以使终端采用机器翻译模型进行第一语言和第二语言之间的翻译。本实施的机器翻译模型的获取方法,使得获取的机器翻译模型在机器翻译的应用过程中,机器翻译速度和精度得到了提高。
另外,为了验证采用本发明的机器翻译模型获取方法获得的机器翻译模型在实际机器翻译过程中对机器翻译的影响,将采用本发明的方法得到的机器翻译模型进行机器翻译的结果与采用现有技术中的方法得到的机器翻译模型进行机器翻译的结果进行了比较,具体过程如下:
在比较过程中,双语句对本文来自CWMT 2013中提供的双语新闻数据(cwmt-corpora)包括的双语句对文本和澳门大学提供的UM-Corpus数据(Tian et al.,2014)包括的双语句对文本。其中cwmt-corpora共有330万句对,UM-Corpus包含4,157,556句对。上述两个数据进行合并去除重复和错误的对齐句子后,共计7,445,190句。在机器翻译过程中采用的3500句测试数据来自UM-Corpus中的全部数据。其中对双语和测试数据的具体信息如表1和表2所示。
表1.cwmt-corpora+UM-Corpus双语数据统计
语言 单词数 句子平均长度 词汇量
英语 152,161,233 19.37 1,655,080
汉语 229,110,265 29.16 397,442
表2. 3500句UM-Corpus中的测试数据信息
语言 单词数 句子平均长度
英语 68,172 23.62
汉语 92,989 30.74
分别选用以下几种方法对上述双语句对文本中文文本进行分词(1)基于词的分词,该方式下中文每个字作为一个独立的词(Character-based);(2)中科院张华平博士的ICTCLAS分词(ICTCLAS);(3)斯坦福采用宾夕法尼亚树训练的分词方法(Stanford-CWSCTB);(4)斯坦福采用人民日报训练的分词方法(Stanford-CWSPKU),英文文本的分词则是均采用现有的常规分词;对各方法分词后得到的训练词语采用相同的方法训练学习后得到4种机器翻译模型,分别采用4种机器翻译模型以3500句测试数据为依据进行翻译,得到的机器翻译结果见表3。
表3.基于不同分词方法得到的机器翻译结果
从表3可以看出,采用本发明的方法得到的机器翻译模型,在英文到中文的翻译中及中文到英文的翻译中,BLEUs分值均为最高,说明采用本发明的方法得到的机器翻译模型翻译准确度最高。
图2为本发明提供的机器翻译模型的获取装置实施例一的结构示意图,如图2所示,本实施例的装置可以包括:文本获取模块21、第一分词模块22和机器翻译模型获取模块23,其中,文本获取模块21用于获取多个双语句对文本,双语句对文本包括第一语言文本和与第一语言文本语义相同的第二语言文本,第一语言文本与第二语言文本属于不同的语言;第一分词模块22用于根据第一语言词典,对第一语言文本进行分词,得到第一分词词语,根据第二语言词典,对第二语言文本进行分词,得到第二分词词语;其中,第一分词词语包括至少一个第一单词,第二分词词语包括至少一个第二单词;第一语言词典包括多个第一语言短语,第一语言短语包括多个第一单词,第二语言词典包括多个第二语言短语,第二语言短语包括多个第二单词;机器翻译模型获取模块23用于采用非监督学习方法对第一分词词语和第二分词词语组成的平行语料进行训练,得到机器翻译模型,以使终端采用机器翻译模型进行第一语言和第二语言之间的翻译。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图3为本发明提供的机器翻译模型的获取装置实施例二的结构示意图,如图3所示,本实施例的装置在图2所示装置结构的基础上,进一步地,还可以包括:第二分词模块24、短语构建模块25和词典生成模块26;其中,第二分词模块24用于对第一语言文本进行分词,得到第一语言文本对应的多个第一单词,并对第二语言文本进行分词,得到第二语言文本对应的多个第二单词;短语构建模块25用于根据第一单词和第二单词之间的语义对应关系,构建第一语言短语和第二语言短语;词典生成模块26用于根据第一语言短语,生成第一语言词典,根据第二语言短语,生成第二语言词典。
其中,第二分词模块具体用于:根据第一分词词典,采用最大匹配分词法,对第一语言文本进行分词,得到多个第一单词;
根据第二分词词典,采用最大匹配分词法,对第二语言文本进行分词,得到多个第二单词。
短语构建模块具体用于:将第一语言文本的第一单词和第二语言文本的第二单词按照语义进行匹配对齐;
若多个第一单词表达的语义与至少一个第二单词表达的语义相同,则将多个第一单词组成第一语言短语;
若多个第二单词表达的语义与至少一个第一单词表达的语义相同,则将多个第二单词组成第二语言短语。
词典生成模块26具体用于将第一语言短语添加到第一分词词典中,得到新的第一分词词典,将新的第一分词词典作为第一语言词典;
根据第二语言短语,生成第二语言词典,包括:
将第二语言短语添加到第二分词词典中,得到新的第二分词词典,将新的第二分词词典作为第二语言词典。
本实施例的装置,可以用于执行如上所述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种机器翻译模型的获取方法,其特征在于,包括:
获取多个双语句对文本,所述双语句对文本包括第一语言文本和与所述第一语言文本语义相同的第二语言文本,所述第一语言文本与所述第二语言文本属于不同的语言;
根据第一语言词典,对所述第一语言文本进行分词,得到第一分词词语,根据第二语言词典,对所述第二语言文本进行分词,得到第二分词词语;其中,所述第一分词词语包括至少一个第一单词,所述第二分词词语包括至少一个第二单词;所述第一语言词典包括多个第一语言短语,所述第一语言短语包括多个第一单词,所述第二语言词典包括多个第二语言短语,所述第二语言短语包括多个第二单词;
采用非监督学习方法对所述第一分词词语和所述第二分词词语组成的平行语料进行训练,得到机器翻译模型,以使终端采用所述机器翻译模型进行第一语言和第二语言之间的翻译。
2.根据权利要求1所述的方法,其特征在于,所述根据第一语言词典,对所述第一语言文本进行分词,得到第一分词词语,根据第二语言词典,对所述第二语言文本进行分词,得到第二分词词语之前,还包括:
对所述第一语言文本进行分词,得到所述第一语言文本对应的多个第一单词,并对所述第二语言文本进行分词,得到所述第二语言文本对应的多个第二单词;
根据所述第一单词和所述第二单词之间的语义对应关系,构建第一语言短语和第二语言短语;
根据所述第一语言短语,生成第一语言词典,根据所述第二语言短语,生成第二语言词典。
3.根据权利要求2所述的方法,其特征在于,所述对所述第一语言文本进行分词,得到所述第一语言文本对应的多个第一单词,包括:
根据第一分词词典,采用最大匹配分词法,对所述第一语言文本进行分词,得到多个第一单词;
所述对所述第二语言文本进行分词,得到所述第二语言文本对应的多个第二单词,包括:
根据第二分词词典,采用最大匹配分词法,对所述第二语言文本进行分词,得到多个第二单词。
4.根据权利要求2所述的方法,其特征在于,所述根据所述第一单词和所述第二单词之间的语义对应关系,构建第一语言短语和第二语言短语,包括:
将所述第一语言文本的第一单词和所述第二语言文本的第二单词按照语义进行匹配对齐;
若多个第一单词表达的语义与至少一个第二单词表达的语义相同,则将多个第一单词组成第一语言短语;
若多个第二单词表达的语义与至少一个第一单词表达的语义相同,则将多个第二单词组成第二语言短语。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一语言短语,生成第一语言词典,包括:
将所述第一语言短语添加到所述第一分词词典中,得到新的第一分词词典,将所述新的第一分词词典作为所述第一语言词典;
所述根据第二语言短语,生成第二语言词典,包括:
将所述第二语言短语添加到所述第二分词词典中,得到新的第二分词词典,将所述新的第二分词词典作为所述第二语言词典。
6.根据权利要求1~5任一项所述的方法,其特征在于,所述第一语言文本为亚洲语言文本,所述第一单词为单字。
7.一种机器翻译模型的获取装置,其特征在于,包括:
文本获取模块,所述文本获取模块用于获取多个双语句对文本,所述双语句对文本包括第一语言文本和与所述第一语言文本语义相同的第二语言文本,所述第一语言文本与所述第二语言文本属于不同的语言;
第一分词模块,所述分词模块用于,根据第一语言词典,对所述第一语言文本进行分词,得到第一分词词语,根据第二语言词典,对所述第二语言文本进行分词,得到第二分词词语;其中,所述第一分词词语包括至少一个第一单词,所述第二分词词语包括至少一个第二单词;所述第一语言词典包括多个第一语言短语,所述第一语言短语包括多个第一单词,所述第二语言词典包括多个第二语言短语,所述第二语言短语包括多个第二单词;
机器翻译模型获取模块,所述机器翻译模型获取模块用于采用非监督学习方法对所述第一分词词语和所述第二分词词语组成的平行语料进行训练,得到机器翻译模型,以使终端采用所述机器翻译模型进行第一语言和第二语言之间的翻译。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二分词模块,所述第二分词模块用于对所述第一语言文本进行分词,得到所述第一语言文本对应的多个第一单词,并对所述第二语言文本进行分词,得到所述第二语言文本对应的多个第二单词;
短语构建模块,所述短语构建模块用于根据所述第一单词和所述第二单词之间的语义对应关系,构建第一语言短语和第二语言短语;
词典生成模块,所述词典生成模块用于根据所述第一语言短语,生成第一语言词典,根据所述第二语言短语,生成第二语言词典。
9.根据权利要求8所述的装置,其特征在于,所述第二分词模块具体用于:根据第一分词词典,采用最大匹配分词法,对所述第一语言文本进行分词,得到多个第一单词;
根据第二分词词典,采用最大匹配分词法,对所述第二语言文本进行分词,得到多个第二单词。
10.根据权利要求8所述的装置,其特征在于,所述短语构建模块具体用于:将所述第一语言文本的第一单词和所述第二语言文本的第二单词按照语义进行匹配对齐;
若多个第一单词表达的语义与至少一个第二单词表达的语义相同,则将多个第一单词组成第一语言短语;
若多个第二单词表达的语义与至少一个第一单词表达的语义相同,则将多个第二单词组成第二语言短语。
CN201611178859.7A 2016-12-19 2016-12-19 机器翻译模型的获取方法及装置 Pending CN106708812A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611178859.7A CN106708812A (zh) 2016-12-19 2016-12-19 机器翻译模型的获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611178859.7A CN106708812A (zh) 2016-12-19 2016-12-19 机器翻译模型的获取方法及装置

Publications (1)

Publication Number Publication Date
CN106708812A true CN106708812A (zh) 2017-05-24

Family

ID=58939293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611178859.7A Pending CN106708812A (zh) 2016-12-19 2016-12-19 机器翻译模型的获取方法及装置

Country Status (1)

Country Link
CN (1) CN106708812A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874790A (zh) * 2018-06-29 2018-11-23 中译语通科技股份有限公司 一种基于语言模型和翻译模型的清洗平行语料方法及系统
CN109977426A (zh) * 2017-12-27 2019-07-05 北京搜狗科技发展有限公司 一种翻译模型的训练方法、装置以及机器可读介质
CN110147558A (zh) * 2019-05-28 2019-08-20 北京金山数字娱乐科技有限公司 一种翻译语料处理的方法和装置
CN110866407A (zh) * 2018-08-17 2020-03-06 阿里巴巴集团控股有限公司 确定互译文本及文本间相似度分析方法、装置及设备
CN111597826A (zh) * 2020-05-15 2020-08-28 苏州七星天专利运营管理有限责任公司 一种辅助翻译中处理术语的方法
CN111680119A (zh) * 2019-03-11 2020-09-18 阿里巴巴集团控股有限公司 数据处理方法及计算设备
CN112364658A (zh) * 2019-07-24 2021-02-12 阿里巴巴集团控股有限公司 翻译以及语音识别方法、装置、设备
CN114781360A (zh) * 2022-03-10 2022-07-22 北京邮电大学 一种基于光学向量矩阵的线性机器翻译方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104375988A (zh) * 2014-11-04 2015-02-25 北京第二外国语学院 一种词语对齐方法及装置
CN104933038A (zh) * 2014-03-20 2015-09-23 株式会社东芝 机器翻译方法和机器翻译装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933038A (zh) * 2014-03-20 2015-09-23 株式会社东芝 机器翻译方法和机器翻译装置
CN104375988A (zh) * 2014-11-04 2015-02-25 北京第二外国语学院 一种词语对齐方法及装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977426A (zh) * 2017-12-27 2019-07-05 北京搜狗科技发展有限公司 一种翻译模型的训练方法、装置以及机器可读介质
CN108874790A (zh) * 2018-06-29 2018-11-23 中译语通科技股份有限公司 一种基于语言模型和翻译模型的清洗平行语料方法及系统
CN110866407A (zh) * 2018-08-17 2020-03-06 阿里巴巴集团控股有限公司 确定互译文本及文本间相似度分析方法、装置及设备
CN110866407B (zh) * 2018-08-17 2024-03-01 阿里巴巴集团控股有限公司 确定互译文本及文本间相似度分析方法、装置及设备
CN111680119A (zh) * 2019-03-11 2020-09-18 阿里巴巴集团控股有限公司 数据处理方法及计算设备
CN111680119B (zh) * 2019-03-11 2023-04-18 阿里巴巴集团控股有限公司 数据处理方法及计算设备
CN110147558A (zh) * 2019-05-28 2019-08-20 北京金山数字娱乐科技有限公司 一种翻译语料处理的方法和装置
CN110147558B (zh) * 2019-05-28 2023-07-25 北京金山数字娱乐科技有限公司 一种翻译语料处理的方法和装置
CN112364658A (zh) * 2019-07-24 2021-02-12 阿里巴巴集团控股有限公司 翻译以及语音识别方法、装置、设备
CN111597826A (zh) * 2020-05-15 2020-08-28 苏州七星天专利运营管理有限责任公司 一种辅助翻译中处理术语的方法
CN114781360A (zh) * 2022-03-10 2022-07-22 北京邮电大学 一种基于光学向量矩阵的线性机器翻译方法及系统

Similar Documents

Publication Publication Date Title
CN106708812A (zh) 机器翻译模型的获取方法及装置
Schuster et al. Japanese and korean voice search
CN108124477B (zh) 基于伪数据改进分词器以处理自然语言
CN107818164A (zh) 一种智能问答方法及其系统
CN107066455A (zh) 一种多语言智能预处理实时统计机器翻译系统
CN109359290B (zh) 试题文本的知识点确定方法、电子设备及存储介质
CN107391486A (zh) 一种基于统计信息和序列标注的领域新词识别方法
Schlippe et al. Grapheme-to-phoneme model generation for Indo-European languages
CN111104803B (zh) 语义理解处理方法、装置、设备及可读存储介质
CN106649289A (zh) 同时识别双语术语与词对齐的实现方法及实现系统
CN107894975A (zh) 一种基于Bi‑LSTM的分词方法
CN113343717A (zh) 一种基于翻译记忆库的神经机器翻译方法
CN115587590A (zh) 训练语料集构建方法、翻译模型训练方法、翻译方法
Tennage et al. Transliteration and byte pair encoding to improve tamil to sinhala neural machine translation
CN112632259A (zh) 一种基于语言学规则生成的对话意图自动识别系统
CN112765977A (zh) 一种基于跨语言数据增强的分词方法及装置
Lee Reading machine: From text to speech
Popescu-Belis et al. GPoeT: a language model trained for rhyme generation on synthetic data
CN109002454B (zh) 一种确定目标单词的拼读分区的方法和电子设备
Sreeram et al. A Novel Approach for Effective Recognition of the Code-Switched Data on Monolingual Language Model.
Neubarth et al. A hybrid approach to statistical machine translation between standard and dialectal varieties
Emna et al. Neural machine translation of low resource languages: Application to transcriptions of tunisian dialect
Salameh et al. Reversing morphological tokenization in English-to-Arabic SMT
Tongtep et al. Multi-stage automatic NE and pos annotation using pattern-based and statistical-based techniques for thai corpus construction
Hasan et al. SweetCoat-2D: Two-Dimensional Bangla Spelling Correction and Suggestion Using Levenshtein Edit Distance and String Matching Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170524

RJ01 Rejection of invention patent application after publication