CN109359308B - 机器翻译方法、装置及可读存储介质 - Google Patents

机器翻译方法、装置及可读存储介质 Download PDF

Info

Publication number
CN109359308B
CN109359308B CN201811286094.8A CN201811286094A CN109359308B CN 109359308 B CN109359308 B CN 109359308B CN 201811286094 A CN201811286094 A CN 201811286094A CN 109359308 B CN109359308 B CN 109359308B
Authority
CN
China
Prior art keywords
target
source
vocabularies
vocabulary
phrase table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811286094.8A
Other languages
English (en)
Other versions
CN109359308A (zh
Inventor
黄江泉
谢军
王明轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Wuhan Co Ltd
Original Assignee
Tencent Technology Wuhan Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Wuhan Co Ltd filed Critical Tencent Technology Wuhan Co Ltd
Priority to CN201811286094.8A priority Critical patent/CN109359308B/zh
Publication of CN109359308A publication Critical patent/CN109359308A/zh
Application granted granted Critical
Publication of CN109359308B publication Critical patent/CN109359308B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种机器翻译方法、装置及可读存储介质,涉及机器翻译领域。该方法包括:接收待翻译的源端语句;确定与所述目标领域对应的短语表;通过机器学习模型根据所述短语表将所述第一自然语言的源端语句翻译为所述第二自然语言的目标语句。通过确定与目标领域对应的短语表,并在通过机器学习模型对源端语句进行翻译时,应用该短语表参与对该源端语句的翻译得到目标语句,实现对目标领域的源端语句进行翻译时提高翻译准确度,且无需针对不同的领域对不同的机器学习模型进行训练,仅需要通过一个通用的机器学习模型结合目标领域的短语表即可实现对目标领域的源端语句进行翻译,翻译效率较高。

Description

机器翻译方法、装置及可读存储介质
技术领域
本申请实施例涉及机器翻译领域,特别涉及一种机器翻译方法、装置及可读存储介质。
背景技术
机器翻译是通过计算机将一种自然语言的句子翻译成另一种自然语言的句子的翻译方式,通常,该机器翻译是通过训练好的机器学习模型对句子进行翻译,示意性的,机器学习模型通过大量的翻译语料样本进行训练后,用户将中文句子“房价持续增长”输入该机器学习后,输出得到英文翻译“Thehousingpricescontinuedtorise”,而针对某些特定领域的某些词汇的机器翻译,与普通的机器翻译中的翻译方式不同,如:在一些较为正式的报告中,地名“北京”被翻译为“Peking”,而在课本中,地名“北京”被翻译为“Beijing”。
相关技术中,针对特定领域的机器翻译,需要设置特定的机器学习模型进行翻译,也即通过该特定领域的翻译语料样本对机器学习模型进行训练后,得到训练后的该特定领域的特定机器学习模型,并应用该特定机器学习模型对该特定领域的待翻译语句进行翻译。
然而,当该机器翻译涉及的领域较多时,则需要对每个领域都设置一个特定的机器学习模型,也即需要对每个领域的机器学习模型分别进行训练,训练过程中需耗费大量的时间及人力,针对每个领域的机器翻译对机器学习模型的训练过程较为繁琐。
发明内容
本申请实施例提供了一种机器翻译方法、装置及可读存储介质,可以解决针对每个领域的机器翻译对机器学习模型的训练过程较为繁琐的问题。所述技术方案如下:
一方面,提供了一种机器翻译方法,所述方法包括:
接收待翻译的源端语句,所述源端语句为目标领域的语句;
确定与所述目标领域对应的短语表,所述短语表中包括所述目标领域的源端词汇和目标端词汇的对应关系,每个所述源端词汇与至少一个目标端词汇对应,所述源端词汇和所述源端语句对应第一自然语言,所述目标端词汇对应第二自然语言;
通过机器学习模型根据所述短语表将所述第一自然语言的源端语句翻译为所述第二自然语言的目标语句。
另一方面,提供了一种机器翻译装置,所述装置包括:
接收模块,用于接收待翻译的源端语句,所述源端语句为目标领域的语句;
确定模块,用于确定与所述目标领域对应的短语表,所述短语表中包括所述目标领域的源端词汇和目标端词汇的对应关系,每个所述源端词汇与至少一个目标端词汇对应,所述源端词汇和所述源端语句对应第一自然语言,所述目标端词汇对应第二自然语言;
翻译模块,用于通过机器学习模型根据所述短语表将所述第一自然语言的源端语句翻译为所述第二自然语言的目标语句。
另一方面,提供了一种服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中所述的机器翻译方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中所述的机器翻译方法。
另一方面,提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行如上述本申请实施例中所述的机器翻译方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过确定与目标领域对应的短语表,并在通过机器学习模型对源端语句进行翻译时,应用该短语表参与对该源端语句的翻译得到目标语句,实现对目标领域的源端语句进行翻译时提高翻译准确度,且无需针对不同的领域对不同的机器学习模型进行训练,仅需要通过一个通用的机器学习模型结合目标领域的短语表即可实现对目标领域的源端语句进行翻译,翻译效率较高。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的源端词汇与目标端词汇的对应关系示意图;
图2是本申请一个示例性实施例提供的机器翻译系统的示意图;
图3是本申请一个示例性实施例提供的机器翻译方法流程图;
图4是本申请一个示例性实施例提供的机器翻译方法的神经网络模型的结构示意图;
图5是本申请另一个示例性实施例提供的机器翻译方法的神经网络模型的结构示意图;
图6是本申请另一个示例性实施例提供的机器翻译方法流程图;
图7是本申请另一个示例性实施例提供的机器翻译方法的神经网络模型的结构示意图;
图8是本申请另一个示例性实施例提供的机器翻译方法的神经网络模型的结构示意图;
图9是本申请另一个示例性实施例提供的机器翻译方法流程图;
图10是本申请一个示例性实施例提供的机器翻译方法的终端界面示意图;
图11是本申请一个示例性实施例提供的机器翻译装置的结构框图;
图12是本申请另一个示例性实施例提供的机器翻译装置的结构框图;
图13是本申请一个示例性实施例提供的服务器的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,对本申请中涉及的名词进行简单介绍:
机器翻译:是指通过计算机将一种自然语言的句子翻译成另一种自然语言的句子的翻译方式。通常,该机器翻译是通过训练好的机器学习模型对句子进行翻译,示意性的,通过大量的翻译语料样本对机器学习模型进行训练,该翻译语料样本中包括多组中文语料和英文语料的对应关系,每个中文语料对应一个英文语料作为翻译结果,训练完成后,用户将中文句子“房价持续增长”输入该机器学习模型后,输出得到英文翻译“Thehousingpricescontinuedtorise”。
可选地,上述机器学习模型可以实现为神经网络模型、支持向量机(SupportVector Machine,SVM)、决策树(Decision Tree,DT)等模型,本申请实施例对此不加以限定,本申请实施例中以该机器学习模型为神经网络模型为例进行说明。
短语表:是指包括源端词汇和目标端词汇的对应关系的对应表,可选地,在进行机器翻译时,可以通过机器学习模型根据该短语表将第一自然语言的源端语句翻译为第二自然语言的目标端语句。可选地,该短语表中的每个源端词汇与至少一个目标端词汇对应,其中,源端词汇对应第一自然语言,目标端词汇对应第二自然语言,且源端词汇和/或目标端词汇还可以实现为词组,如:第一自然语言为中文,第二自然语言为英文,则源端词汇“北京”对应的目标端词汇包括“Beijing”“Peking”以及“capitalofChina”。可选地,该短语表还可以称为大量词汇短语表(LargeVocabulary,LV短语表)。可选地,该短语表还可以针对不同的领域对源端词汇和目标端词汇进行限定,生成不同领域对应的不同的短语表,如:专利领域对应短语表1、旅游领域对应短语表2以及教学领域对应短语表3。
可选地,该短语表中的源端词汇和目标端词汇是通过对源端语句和对应的目标语句进行分词后得到的,示意性的,请参考图1,源端语句为“C市房价持续增长”,其对应的目标端语句为“C cityhousingpricescontinuedtorise”,其中,在对应表11中可知,“C市”对应“C city”,“房价”对应“housingprices”,“持续”对应“continued”,“增长”对应“rise”,则“C市房价”对应“C cityhousingprices”,“房价持续”对应“housingpricescontinued”,“持续增长”对应“continuedtorise”,“C市房价持续”对应“Ccityhousingpricescontinued”,“房价持续增长”对应“housingpricescontinuedtorise”,“C市房价持续增长”对应“C cityhousingpricescontinuedtorise”,其中,由“to”为介词,并不具备实际意义,故无对应关系。
其次,示意性的,本申请涉及的应用场景至少包括如下场景:
第一种:在机器翻译应用程序中包括多种领域的特定功能模块,如:“小学素材翻译功能”、“专利素材翻译功能”以及“旅游素材翻译功能”,当用户需要对小学课本中的内容进行翻译时,选择该小学素材翻译功能,并输入源端语句A,,当该机器翻译应用程序对该源端语句A进行翻译时,通过小学素材对应的短语表对该源端语句A进行翻译。
第二种:机器学习模型提供终端用于向用户提供机器翻译对应的通用版机器学习模型,针对从事旅游业的用户提供该通用版机器学习模型以及旅游业对应的短语表,针对从事小学教育业的用户提供该通用版机器学习模型以及小学教育业对应的短语表,针对从事专利行业的用户提供该通用版机器学习模型以及专利行业对应的短语表。
值得注意的是,上述应用场景仅为示意性的举例,在实际操作中,通过机器学习模型根据短语表实现机器翻译的应用场景都可以使用本申请实施例中提供的机器翻译方法,本申请实施例对此不加以限定。
值得注意的是,本申请实施例可以实现在终端中,也可以实现在服务器中,还可以由终端和服务器共同实现,如图2所示,终端21用于生成待翻译的源端语句,并将该源端语句发送至服务器22,服务器22对该源端语句进行翻译后,将翻译结果发送至终端21进行展示。可选地,终端21与服务器22之间通过通信网络进行连接,该通信网络可以是有线网络也可以是无线网络,本申请实施例对此不加以限定。
示意性的,服务器22中存储有用于机器翻译的机器学习模型和至少一个短语表,用户在终端21中输入需要翻译的源端语句“C市房价持续上涨”后,终端21将该源端语句发送至服务器22,由服务器22对该源端语句通过机器学习模型和短语表进行翻译后得到目标语句,并将该目标语句发送至终端21进行展示。
结合上述应用场景对本申请实施例涉及的机器翻译方法进行说明,图3是本申请一个示例性实施例提供的机器翻译方法流程图,以该方法应用在如图2所示的服务器22中为例进行说明,如图3所示,该机器翻译方法包括:
步骤301,接收待翻译的源端语句。
该源端语句为目标领域的语句。可选地,该源端语句为用户输入的待翻译的语句,可选地,该源端语句也可以是用户在浏览文字内容时选中生成的,如:用户浏览文章时选中文字内容“C市房价持续上涨”后,选择翻译选项后,该被选中的文字内容即为源端语句。可选地,确定该源端语句为目标领域的语句的方式包括如下方式中的任意一种:
第一种,用户在机器翻译应用程序或网页中选择该目标领域对应的机器翻译功能,根据用户选择的目标领域确定用户输入的待翻译的源端语句输入该目标领域;
第二种,服务器中仅存储有与目标领域对应的短语表,则认为该服务器接收到的待翻译的源端语句都是该目标领域的语句。
可选地,源端语句的领域可以根据源端语句的应用场景进行划分,也可以根据源端语句的用词正式程度进行划分。
步骤302,确定与目标领域对应的短语表。
可选地,该短语表中包括该目标领域的源端词汇和目标端词汇的对应关系,每个源端词汇与至少一个目标端词汇对应,源端词汇和源端语句对应第一自然语言,目标端词汇对应第二自然语言。
可选地,该短语表为服务器中预存的与该目标领域对应的短语表。
步骤303,通过神经网络模型根据短语表将第一自然语言的源端语句翻译为第二自然语言的目标语句。
可选地,根据短语表将第一自然语言的源端语句翻译为第二自然语言的目标语句时,包括如下方式中的任意一种:
第一,神经网络模型中包括目标分类矩阵,通过该目标分类矩阵对短语表中每个目标端词汇生成目标语句的概率进行确定,直至得到一个完整的目标语句;
第二,在短语表中查找与源端语句对应的n个源端词汇,在源端词汇和目标端词汇的对应关系中确定与n个源端词汇对应的m个目标端词汇,其中,m个目标端词汇组合成为目标端词汇表,m和n为正整数,通过神经网络模型根据目标端词汇表将第一自然语言的源端语句翻译为第二自然语言的目标语句。
可选地,上述神经网络模型可以是深度学习模型。可选地,上述神经网络模型为基于注意力机制的神经网络模型,该神经网络模型可以是循环神经网络模型(RecurrentNeuralNetwork,RNN),也可以是卷积神经网络模型(ConvolutionNeuralNetwork,CNN),还可以是基于自注意力(Self-Attention)的神经网络机器翻译模型(Neural Machine Translation,NMT),还可以混合使用RNN、CNN以及NMT模型,本申请实施例对此不加以限定。
可选地,上述目标分类矩阵为softmax矩阵,该softmax矩阵可以实现为上述神经网络模型中的一个功能层。
可选地,本实施例中以神经网络模型为例进行说明,该神经网络模型还可以实现为其他机器学习模型,本申请实施例对此不加以限定。
综上所述,本实施例提供的机器翻译方法,通过确定与目标领域对应的短语表,并在通过神经网络模型对源端语句进行翻译时,应用该短语表参与对该源端语句的翻译得到目标语句,实现对目标领域的源端语句进行翻译时提高翻译准确度,且无需针对不同的领域对不同的神经网络模型进行训练,仅需要通过一个通用的神经网络模型结合目标领域的短语表即可实现对目标领域的源端语句进行翻译,翻译效率较高。
请参考图4和图5,其示出了本申请实施例中通过基于注意力机制的神经网络模型根据目标端词汇表对源端语句进行翻译的示意图,首先以该目标端词汇表中包括短语表中的所有目标端词汇为例进行说明,假设隐层大小为H,目标端词汇表中包括的目标端词汇的数量为n(Y1至Yn),则隐状态ht为长度为H的向量,softmax是维度为H×n的矩阵,该softmax即为目标分类矩阵,ht是由h1、h2、h3直到ht-1共同确定得到的,将该隐状态ht乘以softmax矩阵后,得到长度为n的向量即为ht对应的目标端词汇表中每个目标端词汇的概率值,也即Y1对应的概率d1,Y2对应的概率d2,以此类推,确定概率最大的a个目标端词汇参与下一时刻状态ht+1的生成。
在一个可选的实施例中,目标端词汇为与源端词汇对应的短语表中的词汇,图6是本申请另一个示例性的实施例提供的机器翻译方法流程图,以该方法应用在如图2所示的服务器22中为例进行说明,如图6所示,该机器翻译方法包括:
步骤601,接收待翻译的源端语句。
该源端语句为目标领域的语句。可选地,该源端语句为用户输入的待翻译的语句,可选地,该源端语句也可以是用户在浏览文字内容时选中生成的,如:用户浏览文章时选中文字内容“C市房价持续上涨”后,选择翻译选项后,该被选中的文字内容即为源端语句。
步骤602,确定与目标领域对应的短语表。
可选地,该短语表中包括该目标领域的源端词汇和目标端词汇的对应关系,每个源端词汇与至少一个目标端词汇对应,源端词汇和源端语句对应第一自然语言,目标端词汇对应第二自然语言,也即,源端词汇和源端语句的语言类型为第一自然语言,而目标端词汇的语言类型为第二自然语言。
步骤603,在短语表中查找与源端语句对应的n个源端词汇。
可选地,该源端词汇还可以实现为词组的形式。
示意性的,源端语句为“c市房价持续上涨”,则该源端词汇在短语表中对应的n个源端词汇分别为:“c市”、“房价”、“持续”、“上涨”、“c市房价”、“房价持续”、“持续上涨”、“c市房价持续”、“房价持续上涨”、“c市房价持续上涨”,即该源端语句在短语表中对应有10个源端词汇。
可选地,在短语表中查找与源端语句对应的n个源端词汇时,需要首先对源端语句进行分词处理得到至少一个分词词汇后,在短语表中查找包括至少一个分词词汇的n个源端词汇,针对上述举例的源端语句“c市房价持续上涨”,对齐进行分词后,得到的至少一个分词词汇为“c市”、“房价”、“持续”、“上涨”,则在短语表中查找包括该四个分词词汇的源端词汇。
步骤604,在对应关系中确定与n个源端词汇对应的m个目标端词汇。
可选地,该m个目标端词汇组合成为目标端词汇表。
可选地,由于一个源端词汇对应有至少一个目标端词汇,故在对应关系中确定的目标端词汇的数量与源端词汇的数量可能不等。可选地,该根据n个源端词汇在对应关系中确定m个目标端词汇时,可以先在对应关系中确定与n个源端词汇对应的k个目标端词汇,该k个目标端词汇中包括出现至少两次的词汇,对该k个目标端词汇进行去重处理,得到m个目标端词汇。
示意性的,以源端语句为“房价持续上涨”为例,短语表中的词汇包括:
Figure BDA0001849077590000091
则将“房价持续上涨”进行分词后,与该源端语句对应的源端词汇包括“房价”、“持续”、“上涨”、“房价持续”、“持续上涨”、“房价持续上涨”,根据该源端词汇确定对应的目标端词汇表包括“continued cost go going growth house houses housing increasingkeep last move over persist prices pricing rents rise risen rises rising seenshot soaring to up years”该目标端词汇表中包括27个目标端词汇,而该27个目标词汇是经过去重处理后得到的27个目标词汇。
步骤605,根据目标端词汇表确定神经网络模型中的目标分类矩阵。
可选地,根据目标端词汇表对初始分类矩阵进行过滤,得到目标分类矩阵,该初始分类矩阵中包括至少两个领域对应的目标端词汇,该至少两个领域中包括上述目标领域。
也即通过初始分类矩阵对源端语句进行翻译时,需要对至少两个领域中所有目标端词汇组成目标语句的概率进行确定,而对初始分类矩阵进行过滤得到目标分类矩阵后,仅需对目标端词汇表中的词汇组成目标语句的概率进行确定。
可选地,在根据目标端词汇表对初始分类矩阵进行过滤时,根据该目标端词汇表将初始分类矩阵的维度进行缩减,该目标分类矩阵的纵列对应每个目标端词汇表中的目标端词汇,初始分类矩阵的纵列维度与至少两个领域中所有目标端词汇的数量对应,而过滤后的目标分类矩阵的纵列维度与目标端词汇表中的目标端词汇的数量对应。
步骤606,将源端语句输入神经网络模型,输出得到目标语句。
可选地,该神经网络模型中包括上述过滤后的目标分类矩阵。
示意性的,结合上述针对图4的说明,对根据源端语句对应的目标端词汇表对源端语句进行翻译进行说明,以上述举例中,源端语句为“房价持续上涨”为例进行说明,目标端词汇表中包括27个词汇,请参考图7,图7中根据过滤后的目标端词汇表(Y1至Yn’)确定softmax’分类矩阵,也即原softmax目标分类矩阵是对短语表中的所有目标端词汇的概率进行确定,该softmax’分类矩阵是对过滤后的目标端词汇表中的目标端词汇的概率进行确定,结合上述源端语句“房价持续上涨”,该softmax’分类矩阵是对过滤后的27个目标端词汇的概率进行确定,也即图4中的Y1至Yn由Y1至Yn’取代,图4中的softmax由softmax’取代,而隐层大小可以不发生改变。假设隐层大小为H,目标端词汇表中包括的目标端词汇的数量为n’(Y1至Yn’),则隐状态ht为长度为H的向量,softmax’是过滤后的维度为H×n’的矩阵,该softmax’即为分类矩阵,ht是由h1、h2、h3直到ht-1共同确定得到的,将该隐状态ht乘以softmax’矩阵后,得到长度为n’的向量即为ht对应的目标端词汇表中每个目标端词汇的概率值,也即Y1对应的概率d1,Y2对应的概率d2,以此类推,确定概率最大的a个目标端词汇参与下一时刻状态ht+1的生成。值得注意的是,上述Y1至Yn和Y1至Yn’仅表达目标端词汇表中目标词汇的数量,也不具体指代某一个或某一些词汇。
可选地,当上述Y1至Yn和Y1至Yn’表达目标端词汇表中的目标词汇时,示意性的,Y1为Beijing,Y2为Peking,Y3为capital,Y4为house,Y5为prices,Y6为persist,则过滤后的Y1至Yn’包括Peking、capital时,则Y1至Yn’不表达Y1至Y2,而是表达为Y2和Y3
如图8所示,该softmax’矩阵为H×n’的矩阵,将隐层ht与该softmax’矩阵相乘,得到d1至dn’的概率大小,其中,d1对应Y1,d2对应Y2,以此类推,其中,隐层ht中包括该隐层ht所对应的目标端词汇的词性、词汇特征等,如:该ht对应“我”,则该隐层ht用于表示该目标端词汇为第一人称词汇,是主语。
示意性的,在针对每一个隐层确定概率最高的1个目标词汇时,假设目标词汇表大小为3,该目标词汇表中包括的词汇为a、b、c,生成第一个词时,通过目标分类矩阵确定概率最大的词为a,将a作为输入参数生成隐层h2,并通过目标分类矩阵针对h2确定下一个概率最大的词为c,将c作为输入参数生成隐层h3,并通过目标分类矩阵针对h3确定下一个概率最大的词为b,依次进行确定直至得到目标语句为acbc。
示意性的,对源端语句“房价持续上涨”通过神经网络模型进行翻译时,针对隐层h1得到第一个概率最大的目标端词汇为housing,将housing作为输入参数生成隐层h2,并通过目标分类矩阵针对h2继续确定下一个概率最大的词prices,将prices作为输入参数生成隐层h3,通过目标分类矩阵针对h3继续确定prices下一个概率最大的词为continued,则将continued作为输入参数生成隐层h4,并对目标语句中的下一个目标词汇进行确定,直至最终得到目标语句为“Housingpricescontinuedtorise”。
可选地,本实施例中以神经网络模型为例进行说明,该神经网络模型还可以实现为其他机器学习模型,本申请实施例对此不加以限定。
综上所述,本实施例提供的机器翻译方法,通过确定与目标领域对应的短语表,并在通过神经网络模型对源端语句进行翻译时,应用该短语表参与对该源端语句的翻译得到目标语句,实现对目标领域的源端语句进行翻译时提高翻译准确度,且无需针对不同的领域对不同的神经网络模型进行训练,仅需要通过一个通用的神经网络模型结合目标领域的短语表即可实现对目标领域的源端语句进行翻译,翻译效率较高。
本实施例提供的方法,通过对源端语句进行分词后,在短语表中查找与源端语句对应的n个源端词汇,并确定与n个源端词汇对应的m个目标端词汇作为目标端词汇表,缩小了短语表中的目标端词汇的数量,根据该过滤后的目标端词汇表对源端语句进行翻译,翻译速度快,翻译准确率高。
在一个可选的实施例中,短语表是根据参考内容生成的或过滤得到的,图9是本申请另一个示例性的实施例提供的机器翻译方法流程图,以该方法应用在如图2所示的服务器22中为例进行说明,如图9所示,该机器翻译方法包括:
步骤901,接收参考内容。
可选地,该参考内容为与目标领域对应的内容,该参考内容中包括属于目标领域的语料,该语料包括源端语料和与源端语料对应的已翻译语料。
可选地,该参考内容可以是该目标领域的书册、论文、报道等,示意性的,该目标领域为新闻领域,则该参考内容为新闻报道的文字整理内容,该文字整理内容中包括源端语料和已翻译语料。
步骤902,对源端语料和已翻译语料中的短语进行对应抽取,生成短语表。
步骤903,根据参考内容对初始短语表进行过滤,得到短语表。
可选地,该初始短语表是对属于至少两个领域的语料进行抽取后得到的,根据参考内容对初始短语表进行过滤时,可以将初始短语表中在参考内容中出现过的短语进行保留,舍弃未在参考内容中出现的短语。
值得注意的是,上述步骤901至步骤903可以与步骤904至步骤909执行在不同的服务器上,也可以执行在同一台服务器上,还可以执行在同一台货不同终端上,本申请实施例对此不加以限定。
值得注意的是,上述步骤901至步骤903并非每次确定与目标领域对应的短语表之前都需要进行一次,而可以提前执行好后得到该短语表,并在对目标领域的源端语句进行机器翻译时直接获取该短语表进行应用。
步骤904,接收待翻译的源端语句。
该源端语句为目标领域的语句。可选地,该源端语句为用户输入的待翻译的语句,可选地,该源端语句也可以是用户在浏览文字内容时选中生成的,如:用户浏览文章时选中文字内容“C市房价持续上涨”后,选择翻译选项后,该被选中的文字内容即为源端语句。
步骤905,确定与目标领域对应的短语表。
可选地,该短语表中包括该目标领域的源端词汇和目标端词汇的对应关系,每个源端词汇与至少一个目标端词汇对应,源端词汇和源端语句对应第一自然语言,目标端词汇对应第二自然语言。
可选地,该短语表为服务器中预存的与该目标领域对应的短语表。
步骤906,在短语表中查找与源端语句对应的n个源端词汇。
可选地,在短语表中查找与源端语句对应的n个源端词汇时,需要首先对源端语句进行分词处理得到至少一个分词词汇后,在短语表中查找包括至少一个分词词汇的n个源端词汇。
步骤907,在对应关系中确定与n个源端词汇对应的m个目标端词汇。
可选地,由于一个源端词汇对应有至少一个目标端词汇,故在对应关系中确定的目标端词汇的数量与源端词汇的数量可能不等,如:源端词汇“北京”对应的目标端词汇包括“Beijing”“Peking”以及“capitalofChina”。可选地,该根据n个源端词汇在对应关系中确定m个目标端词汇时,可以先在对应关系中确定与n个源端词汇对应的k个目标端词汇,该k个目标端词汇中包括出现至少两次的词汇,对该k个目标端词汇进行去重处理,得到m个目标端词汇,也即,通常根据源端语句对应的源端词汇的数量会小于目标端词汇的数量。
步骤908,根据目标端词汇表确定神经网络模型中的目标分类矩阵。
可选地,根据目标端词汇表对初始分类矩阵进行过滤,得到目标分类矩阵,该初始分类矩阵中包括至少两个领域对应的目标端词汇,该至少两个领域中包括上述目标领域。
步骤909,将源端语句输入神经网络模型,输出得到目标语句。
可选地,该神经网络模型中包括上述过滤后的目标分类矩阵。
可选地,本实施例中以神经网络模型为例进行说明,该神经网络模型还可以实现为其他机器学习模型,本申请实施例对此不加以限定。
综上所述,本实施例提供的机器翻译方法,通过确定与目标领域对应的短语表,并在通过神经网络模型点对源端语句进行翻译时,应用该短语表参与对该源端语句的翻译得到目标语句,实现对目标领域的源端语句进行翻译时提高翻译准确度,且无需针对不同的领域对不同的神经网络模型进行训练,仅需要通过一个通用的神经网络模型结合短语表即可实现对目标领域的源端语句进行翻译,翻译效率较高。
本实施例提供的方法,通过目标领域的参考内容对短语表进行确定后,在该短语表中确定源端语句对应的目标词汇表,并根据该目标词汇表对源端语句进行翻译,提高了短语表中目标词汇的准确率,缩小了目标端词汇表中的目标端词汇的数量,根据该过滤后的目标端词汇表对源端语句进行翻译,翻译速度快,翻译准确率高。
在一个示意性的实施例中,请参考图10,在翻译应用程序的用户界面1010中显示有三种特定领域翻译功能,其中,特定领域包括新闻领域1011、专利领域1012以及法律翻译领域1013,其中,新闻领域1011用于根据新闻的翻译方式对源端语句进行翻译,该新闻领域1011对应有新闻短语表,专利领域1012用于根据专利的翻译方式对源端语句进行翻译,该专利领域1012对应有专利短语表,法律翻译领域1013用于根据法律文件的翻译方式对源端语句进行翻译,该法律翻译领域1013对应有法律短语表。用户对法律翻译领域1013进行选择后,显示法学翻译界面1020,在该法学翻译界面1020中,用户在输入框1021中输入待翻译的源端语句“房价持续上涨”后,点击翻译控件1022,终端将源端语句发送至服务器1030,该服务器1030中包括上述法律短语表1031以及通用神经网络模型1032,通过该服务器1030对源端语句进行翻译后,将翻译得到的目标语句返回至终端进行展示,展示方式包括文字显示展示和/或语音输出展示,如:服务器向终端返回目标语句“Housingpriceskeeprising”,终端通过语音的方式播放该目标语句进行展示。
值得注意的是,用户界面1010中显示的三个特定领域都属于翻译内容较为正式的领域,故将其在同一个用户界面1010中进行显示,还可以将“小学翻译领域”“中学翻译领域”以及“大学翻译领域”归纳至同一个用户界面中进行显示。
图11是本申请一个示例性实施例提供的机器翻译装置,该装置可以实现在如图2所示的服务器22中,该装置包括:接收模块1101、确定模块1102以及翻译模块1103;
接收模块1101,用于接收待翻译的源端语句,所述源端语句为目标领域的语句;
确定模块1102,用于确定与所述目标领域对应的短语表,所述短语表中包括所述目标领域的源端词汇和目标端词汇的对应关系,每个所述源端词汇与至少一个目标端词汇对应,所述源端词汇和所述源端语句对应第一自然语言,所述目标端词汇对应第二自然语言;
翻译模块1103,用于通过机器学习模型根据所述短语表将所述第一自然语言的源端语句翻译为所述第二自然语言的目标语句。
在一个可选的实施例中,如图12所示,所述装置,还包括:
查找模块1104,用于在所述短语表中查找与所述源端语句对应的n个源端词汇;
所述确定模块1102,还用于在所述对应关系中确定与所述n个源端词汇对应的m个目标端词汇,所述m个目标端词汇组合成为目标端词汇表,m和n为正整数;
所述翻译模块1103,还用于通过所述机器学习模型根据所述目标端词汇表将所述第一自然语言的源端语句翻译为所述第二自然语言的所述目标语句。
在一个可选的实施例中,所述确定模块1102,还用于根据所述目标端词汇表确定所述机器学习模型中的目标分类矩阵,所述目标分类矩阵用于根据所述源端语句对所述目标端词汇表中每个目标端词汇生成所述目标语句的概率进行确定;
所述翻译模块1103,还用于将所述源端语句输入所述机器学习模型,输出得到所述目标语句。
在一个可选的实施例中,所述确定模块1102,还用于通过所述目标端词汇表对初始分类矩阵进行过滤,得到所述目标分类矩阵,所述初始分类矩阵中包括至少两个领域对应的目标端词汇,所述至少两个领域中包括所述目标领域。
在一个可选的实施例中,所述查找模块1104,还用于对所述源端语句进行分词处理,得到至少一个分词词汇;
所述查找模块1104,还用于在所述短语表中查找包括所述至少一个分词词汇的n个源端词汇。
在一个可选的实施例中,所述确定模块1102,还用于在所述对应关系中确定与所述n个源端词汇对应的k个目标端词汇,所述k个目标端词汇中包括出现至少两次的词汇;对所述k个目标端词汇进行去重处理,得到所述m个目标端词汇。
在一个可选的实施例中,所述接收模块1101,还用于接收参考内容,所述参考内容为与所述目标领域对应的内容,所述参考内容中包括属于所述目标领域的语料,所述语料包括源端语料以及与所述源端语料对应的已翻译语料;
所述装置还包括:
抽取模块1105,用于对所述源端语料和所述已翻译语料中的短语进行对应抽取,生成所述短语表;或,根据所述参考内容对初始短语表进行过滤,得到所述短语表,所述初始短语表是对属于至少两个领域的语料进行抽取得到的。
需要说明的是,上述实施例中的接收模块1101、确定模块1102、翻译模块1103、查找模块1104以及抽取模块1105可以由处理器实现也可以有处理器和存储器协同实现。
本申请还提供了一种服务器,该服务器包括处理器和存储器,存储器中存储有至少一条指令,至少一条指令由处理器加载并执行以实现上述各个方法实施例提供的机器翻译方法。需要说明的是,该服务器可以是如下图13所提供的服务器。
请参考图13,其示出了本申请一个示例性实施例提供的服务器的结构示意图。具体来讲:所述服务器1300包括中央处理单元(CPU)1301、包括随机存取存储器(RAM)1302和只读存储器(ROM)1303的系统存储器1304,以及连接系统存储器1304和中央处理单元1301的系统总线1305。所述服务器1300还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1306,和用于存储操作系统1313、应用程序1314和其他程序模块1315的大容量存储设备1307。
所述基本输入/输出系统1306包括有用于显示信息的显示器1308和用于用户输入信息的诸如鼠标、键盘之类的输入设备1309。其中所述显示器1308和输入设备1309都通过连接到系统总线1305的输入输出控制器1310连接到中央处理单元1301。所述基本输入/输出系统1306还可以包括输入输出控制器1310以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1310还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1307通过连接到系统总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。所述大容量存储设备1307及其相关联的计算机可读存储介质为服务器1300提供非易失性存储。也就是说,所述大容量存储设备1307可以包括诸如硬盘或者CD-ROI驱动器之类的计算机可读存储介质(未示出)。
不失一般性,所述计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1304和大容量存储设备1307可以统称为存储器。
存储器存储有一个或多个程序,一个或多个程序被配置成由一个或多个中央处理单元1301执行,一个或多个程序包含用于实现上述机器翻译方法的指令,中央处理单元1301执行该一个或多个程序实现上述各个方法实施例提供的机器翻译方法。
根据本发明的各种实施例,所述服务器1300还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1300可以通过连接在所述系统总线1305上的网络接口单元1311连接到网络1312,或者说,也可以使用网络接口单元1311来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,所述一个或者一个以上程序包含用于进行本发明实施例提供的机器翻译方法中由服务器所执行的步骤。
本申请实施例还提供一种计算机可读存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器1310加载并执行以实现如图3、图6及图9任一所述的机器翻译方法。
本申请还提供了一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行上述各个方法实施例提供的机器翻译方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种机器翻译方法,其特征在于,所述方法包括:
接收待翻译的源端语句,所述源端语句为目标领域的语句;
确定与所述目标领域对应的短语表,所述短语表中包括所述目标领域的源端词汇和目标端词汇的对应关系,每个所述源端词汇与至少一个目标端词汇对应,所述源端词汇和所述源端语句对应第一自然语言,所述目标端词汇对应第二自然语言;
在所述短语表中查找与所述源端语句对应的n个源端词汇;
在所述对应关系中确定与所述n个源端词汇对应的m个目标端词汇,所述m个目标端词汇组合成为目标端词汇表,m和n为正整数;
根据所述目标端词汇表确定机器学习模型中的目标分类矩阵,所述目标分类矩阵用于根据所述源端语句对所述目标端词汇表中每个目标端词汇生成目标语句的概率进行确定;
将所述源端语句输入所述机器学习模型,输出得到所述目标语句。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标端词汇表确定机器学习模型中的目标分类矩阵,包括:
通过所述目标端词汇表对初始分类矩阵进行过滤,得到所述目标分类矩阵,所述初始分类矩阵中包括至少两个领域对应的目标端词汇,所述至少两个领域中包括所述目标领域。
3.根据权利要求1或2所述的方法,其特征在于,所述在所述短语表中查找与所述源端语句对应的n个源端词汇,包括:
对所述源端语句进行分词处理,得到至少一个分词词汇;
在所述短语表中查找包括所述至少一个分词词汇的n个源端词汇。
4.根据权利要求1或2所述的方法,其特征在于,所述在所述对应关系中确定与所述n个源端词汇对应的m个目标端词汇,包括:
在所述对应关系中确定与所述n个源端词汇对应的k个目标端词汇,所述k个目标端词汇中包括出现至少两次的词汇;
对所述k个目标端词汇进行去重处理,得到所述m个目标端词汇。
5.根据权利要求1或2所述的方法,其特征在于,所述确定与所述目标领域对应的短语表之前,还包括:
接收参考内容,所述参考内容为与所述目标领域对应的内容,所述参考内容中包括属于所述目标领域的语料,所述语料包括源端语料以及与所述源端语料对应的已翻译语料;
对所述源端语料和所述已翻译语料中的短语进行对应抽取,生成所述短语表;或,根据所述参考内容对初始短语表进行过滤,得到所述短语表,所述初始短语表是对属于至少两个领域的语料进行抽取得到的。
6.一种机器翻译装置,其特征在于,所述装置包括:
接收模块,用于接收待翻译的源端语句,所述源端语句为目标领域的语句;
确定模块,用于确定与所述目标领域对应的短语表,所述短语表中包括所述目标领域的源端词汇和目标端词汇的对应关系,每个所述源端词汇与至少一个目标端词汇对应,所述源端词汇和所述源端语句对应第一自然语言,所述目标端词汇对应第二自然语言;
查找模块,用于在所述短语表中查找与所述源端语句对应的n个源端词汇;
所述确定模块,还用于在所述对应关系中确定与所述n个源端词汇对应的m个目标端词汇,所述m个目标端词汇组合成为目标端词汇表,m和n为正整数;
所述确定模块,还用于根据所述目标端词汇表确定机器学习模型中的目标分类矩阵,所述目标分类矩阵用于根据所述源端语句对所述目标端词汇表中每个目标端词汇生成目标语句的概率进行确定;
翻译模块,还用于将所述源端语句输入所述机器学习模型,输出得到所述目标语句。
7.根据权利要求6所述的装置,其特征在于,所述确定模块,还用于通过所述目标端词汇表对初始分类矩阵进行过滤,得到所述目标分类矩阵,所述初始分类矩阵中包括至少两个领域对应的目标端词汇,所述至少两个领域中包括所述目标领域。
8.根据权利要求6或7所述的装置,其特征在于,所述查找模块,还用于对所述目标语句进行分词处理,得到至少一个分词词汇;
所述查找模块,还用于在所述短语表中查找包括所述至少一个分词词汇的n个源端词汇。
9.根据权利要求6或7所述的装置,其特征在于,所述确定模块,还用于在所述对应关系中确定与所述n个源端词汇对应的k个目标端词汇,所述k个目标端词汇中包括出现至少两次的词汇;对所述k个目标端词汇进行去重处理,得到所述m个目标端词汇。
10.一种服务器,其特征在于,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至5任一所述的机器翻译方法。
11.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至5任一所述的机器翻译方法。
CN201811286094.8A 2018-10-31 2018-10-31 机器翻译方法、装置及可读存储介质 Active CN109359308B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811286094.8A CN109359308B (zh) 2018-10-31 2018-10-31 机器翻译方法、装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811286094.8A CN109359308B (zh) 2018-10-31 2018-10-31 机器翻译方法、装置及可读存储介质

Publications (2)

Publication Number Publication Date
CN109359308A CN109359308A (zh) 2019-02-19
CN109359308B true CN109359308B (zh) 2023-01-10

Family

ID=65347516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811286094.8A Active CN109359308B (zh) 2018-10-31 2018-10-31 机器翻译方法、装置及可读存储介质

Country Status (1)

Country Link
CN (1) CN109359308B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442878B (zh) * 2019-06-19 2023-07-21 腾讯科技(深圳)有限公司 翻译方法、机器翻译模型的训练方法、装置及存储介质
CN110781689B (zh) * 2019-10-25 2021-08-06 北京小米智能科技有限公司 信息处理方法、装置及存储介质
CN113591490B (zh) * 2021-07-29 2023-05-26 北京有竹居网络技术有限公司 信息处理方法、装置和电子设备
CN114139560B (zh) * 2021-12-03 2022-12-09 山东诗语信息科技有限公司 基于人工智能翻译系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108132932A (zh) * 2017-12-27 2018-06-08 苏州大学 带有复制机制的神经机器翻译方法
CN108647214A (zh) * 2018-03-29 2018-10-12 中国科学院自动化研究所 基于深层神经网络翻译模型的解码方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9235567B2 (en) * 2013-01-14 2016-01-12 Xerox Corporation Multi-domain machine translation model adaptation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108132932A (zh) * 2017-12-27 2018-06-08 苏州大学 带有复制机制的神经机器翻译方法
CN108647214A (zh) * 2018-03-29 2018-10-12 中国科学院自动化研究所 基于深层神经网络翻译模型的解码方法

Also Published As

Publication number Publication date
CN109359308A (zh) 2019-02-19

Similar Documents

Publication Publication Date Title
CN109359308B (zh) 机器翻译方法、装置及可读存储介质
US9805718B2 (en) Clarifying natural language input using targeted questions
JP7108675B2 (ja) 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
US11651015B2 (en) Method and apparatus for presenting information
Kenny Human and machine translation
US20120296635A1 (en) User-modifiable word lattice display for editing documents and search queries
JP7335300B2 (ja) 知識事前訓練モデルの訓練方法、装置及び電子機器
WO2009026850A1 (en) Domain dictionary creation
US20220139386A1 (en) System and method for chinese punctuation restoration using sub-character information
Prabhakar et al. Machine transliteration and transliterated text retrieval: a survey
WO2020005616A1 (en) Generation of slide for presentation
EP4336379A1 (en) Tracking concepts within content in content management systems and adaptive learning systems
CN115982376A (zh) 基于文本、多模数据和知识训练模型的方法和装置
CN115438149A (zh) 一种端到端模型训练方法、装置、计算机设备及存储介质
CN117609419A (zh) 基于元学习与知识增强的领域检索方法
CN116561275A (zh) 对象理解方法、装置、设备及存储介质
CN112559725A (zh) 文本匹配方法、装置、终端和存储介质
CN113240485B (zh) 文本生成模型的训练方法、文本生成方法和装置
Park et al. Automatic analysis of thematic structure in written English
RU2719463C1 (ru) Тематические модели с априорными параметрами тональности на основе распределенных представлений
CN116909435A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN107908792B (zh) 信息推送方法和装置
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
JP6693032B2 (ja) 文章を解析するための方法、プログラムおよびシステム
CN113850087A (zh) 一种翻译评分方法及其相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant