CN108073573A - 一种机器翻译方法、装置和机器翻译系统训练方法、装置 - Google Patents

一种机器翻译方法、装置和机器翻译系统训练方法、装置 Download PDF

Info

Publication number
CN108073573A
CN108073573A CN201611035439.3A CN201611035439A CN108073573A CN 108073573 A CN108073573 A CN 108073573A CN 201611035439 A CN201611035439 A CN 201611035439A CN 108073573 A CN108073573 A CN 108073573A
Authority
CN
China
Prior art keywords
character
entity
original
string
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611035439.3A
Other languages
English (en)
Inventor
程善伯
王宇光
姜里羊
陈伟
王砚峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201611035439.3A priority Critical patent/CN108073573A/zh
Publication of CN108073573A publication Critical patent/CN108073573A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Abstract

本发明实施例提供了一种机器翻译方法。所述方法包括:接收输入的源语言的原始字符串,原始字符串包括命名实体字符和非命名实体字符,命名实体字符具有所属的实体类别标签;将原始字符串翻译为中间字符串,具体包括:采用实体类别标签替换原始字符串中对应的命名实体字符,将原始字符串中的非命名实体字符翻译成目标语言的字符;将中间字符串翻译为目标字符串,具体包括:在预置的映射表中查找与命名实体字符及对应的实体类别标签匹配的目标字符,采用目标字符对应替换所述中间字符串中的实体类别标签。根据本发明可以提升翻译质量。

Description

一种机器翻译方法、装置和机器翻译系统训练方法、装置
技术领域
本发明涉及语言处理技术领域,特别是涉及一种机器翻译方法和装置,一种机器翻译系统训练方法和装置,以及,一种用于机器翻译的装置和一种用于机器翻译系统训练的装置。
背景技术
目前,全球化的发展带来在多种语言之间进行机器翻译(Machine Translate)的迫切需求。其中,由于神经机器翻译系统构建简便和翻译质量好的优点,通过神经机器翻译系统进行机器翻译成为主流。
但是,神经机器翻译系统对计算设备较高的要求以及其系统框架,决定了翻译词表的规模与机器翻译的效率、机器训练的效率成反比。因此,为了保证机器翻译的时效性,无可避免地对翻译词表的规模进行限制,从而导致难以覆盖一些低频但重要的词汇。尤其对于一些命名实体字符(Named Entity,NE),因其并没有被包含在翻译词表中,在翻译时无法对命名实体字符进行相应的翻译,可能造成翻译丢失的问题。
因此,目前的翻译机制难以全面覆盖翻译命名实体字符,严重影响了翻译质量。
发明内容
鉴于上述问题,本发明实施例提出了一种克服上述问题或者至少部分地解决上述问题的一种机器翻译方法、一种机器翻译装置、一种机器翻译系统训练方法以及一种机器翻译系统训练装置。
为了解决上述问题,本发明实施例公开了一种机器翻译方法,所述方法包括:
接收输入的源语言的原始字符串,所述原始字符串包括命名实体字符和非命名实体字符,其中,所述命名实体字符具有所属的实体类别标签;
将所述原始字符串翻译为中间字符串,具体包括:采用所述实体类别标签,替换所述原始字符串中对应的命名实体字符,以及,将所述原始字符串中的非命名实体字符翻译成目标语言的字符;
将所述中间字符串翻译为目标字符串,具体包括:在预置的映射表中查找与所述命名实体字符及对应的实体类别标签匹配的目标字符,采用所述目标字符对应替换所述中间字符串中的实体类别标签。
可选地,所述将所述中间字符串翻译为目标字符串的步骤进一步包括:
查找与所述实体类别标签对应的编辑规则;
按照所述编辑规则,编辑所述目标字符。
可选地,所述编辑所述目标字符的步骤包括:
针对所述目标字符添加间隔标记;
和/或,
调整所述目标字符的表达形式。
可选地,所述在预置的映射表中查找与所述命名实体字符及对应的实体类别标签匹配的目标字符的步骤包括:
查找与所述实体类别标签对应的映射表;
在查找的映射表中,查找与所述命名实体字符对应的字符作为所述目标字符。
可选地,建立所述映射表的方法包括:
在网络上爬取源语言的命名实体字符;
针对爬取的命名实体字符,标注对应的实体类别标签,以及将所述命名实体字符翻译为目标语言的字符;
将源语言的命名实体字符和目标语言的字符对应保存于与所属的实体类别标签匹配的映射表中。
可选地,所述接收输入的源语言的原始字符串的步骤包括:
接收用户输入的源语言的语音信号;
从所述语音信号中识别出源语言的原始字符串。
可选地,所述方法还包括:
以文本形式和/或语音形式展示所述目标字符串。
为了解决上述问题,本发明实施例还公开了一种机器翻译方法,所述方法包括:
接收输入的源语言的原始字符串,所述原始字符串包括命名实体字符和非命名实体字符,其中,所述命名实体字符具有所属的实体类别标签;
将所述原始字符串翻译为中间字符串,具体包括:采用所述实体类别标签,替换所述原始字符串中对应的命名实体字符,以及,将所述原始字符串中的非命名实体字符翻译成目标语言的字符;
将所述中间字符串翻译为目标字符串,具体包括:查找与每个所述实体类别标签对应的处理方式获得对应的目标字符,采用每个所述目标字符替换所述中间字符串中的对应的实体类别标签。
可选地,所述处理方式包括映射表查找规则和字符编辑规则,所述查找与每个所述实体类别标签对应的处理方式获得对应的目标字符的步骤包括:
当所述实体类别标签对应的处理方式为映射表查找规则,在预置的映射表中查找与所述命名实体字符及对应的实体类别标签匹配的目标字符;
当所述实体类别标签对应的处理方式为字符编辑规则,查找与所述实体类别标签对应的编辑规则,按照所述编辑规则编辑所述命名实体字符,得到所述目标字符。
为了解决上述问题,本发明实施例还公开了一种机器翻译系统训练方法,所述方法包括:
接收源语言的原始字符串和目标语言的目标字符串;所述目标字符串由所述原始字符串翻译得到;
识别所述原始字符串和所述目标字符串中的命名实体字符及所属的实体类别标签;
采用所述实体类别标签对应替换所述原始字符串中的命名实体字符,得到第一训练数据;以及,采用所述实体类别标签对应替换所述目标字符串中的命名实体字符,得到第二训练数据;
采用所述第一训练数据和所述第二训练数据训练所述翻译系统。
可选地,所述采用所述第一训练数据和所述第二训练数据训练所述翻译系统的步骤包括:
将所述第一训练数据输入至所述机器翻译系统;
采用所述第二训练数据校正所述机器翻译系统输出的翻译结果。
为了解决上述问题,本发明实施例还公开了一种机器翻译装置,所述装置包括:
原始字符串接收模块,用于接收输入的源语言的原始字符串,所述原始字符串包括命名实体字符和非命名实体字符,其中,所述命名实体字符具有所属的实体类别标签;
中间字符串翻译模块,用于将所述原始字符串翻译为中间字符串,具体包括:采用所述实体类别标签,替换所述原始字符串中对应的命名实体字符,以及,将所述原始字符串中的非命名实体字符翻译成目标语言的字符;
第一目标字符串翻译模块,用于将所述中间字符串翻译为目标字符串,具体包括:在预置的映射表中查找与所述命名实体字符及对应的实体类别标签匹配的目标字符,采用所述目标字符对应替换所述中间字符串中的实体类别标签。
为了解决上述问题,本发明实施例还公开了一种机器翻译装置,所述装置包括:
原始字符串接收模块,用于接收输入的源语言的原始字符串,所述原始字符串包括命名实体字符和非命名实体字符,其中,所述命名实体字符具有所属的实体类别标签;
中间字符串翻译模块,用于将所述原始字符串翻译为中间字符串,具体包括:采用所述实体类别标签,替换所述原始字符串中对应的命名实体字符,以及,将所述原始字符串中的非命名实体字符翻译成目标语言的字符;
第二目标字符串翻译模块,用于将所述中间字符串翻译为目标字符串,具体包括:查找与每个所述实体类别标签对应的处理方式获得对应的目标字符,采用每个所述目标字符替换所述中间字符串中的对应的实体类别标签。
为了解决上述问题,本发明实施例还公开了一种机器翻译系统训练装置,所述装置包括:
接收模块,用于接收源语言的原始字符串和目标语言的目标字符串;所述目标字符串由所述原始字符串翻译得到;
识别模块,用于识别所述原始字符串和所述目标字符串中的命名实体字符及所属的实体类别标签;
替换模块,用于采用所述实体类别标签对应替换所述原始字符串中的命名实体字符,得到第一训练数据;以及,采用所述实体类别标签对应替换所述目标字符串中的命名实体字符,得到第二训练数据;
训练模块,用于采用所述第一训练数据和所述第二训练数据训练所述翻译系统。
为了解决上述问题,本发明实施例还公开了一种用于机器翻译的装置,所述装置包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收输入的源语言的原始字符串,所述原始字符串包括命名实体字符和非命名实体字符,其中,所述命名实体字符具有所属的实体类别标签;
将所述原始字符串翻译为中间字符串,具体包括:采用所述实体类别标签,替换所述原始字符串中对应的命名实体字符,以及,将所述原始字符串中的非命名实体字符翻译成目标语言的字符;
将所述中间字符串翻译为目标字符串,具体包括:在预置的映射表中查找与所述命名实体字符及对应的实体类别标签匹配的目标字符,采用所述目标字符对应替换所述中间字符串中的实体类别标签。
为了解决上述问题,本发明实施例还公开了一种用于机器翻译的装置,所述装置包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收输入的源语言的原始字符串,所述原始字符串包括命名实体字符和非命名实体字符,其中,所述命名实体字符具有所属的实体类别标签;
将所述原始字符串翻译为中间字符串,具体包括:采用所述实体类别标签,替换所述原始字符串中对应的命名实体字符,以及,将所述原始字符串中的非命名实体字符翻译成目标语言的字符;
将所述中间字符串翻译为目标字符串,具体包括:查找与每个所述实体类别标签对应的处理方式获得对应的目标字符,采用每个所述目标字符替换所述中间字符串中的对应的实体类别标签。
为了解决上述问题,本发明实施例还公开了一种用于机器翻译的装置,所述装置包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收源语言的原始字符串和目标语言的目标字符串;所述目标字符串由所述原始字符串翻译得到;
识别所述原始字符串和所述目标字符串中的命名实体字符及所属的实体类别标签;
采用所述实体类别标签对应替换所述原始字符串中的命名实体字符,得到第一训练数据;以及,采用所述实体类别标签对应替换所述目标字符串中的命名实体字符,得到第二训练数据;
采用所述第一训练数据和所述第二训练数据训练所述翻译系统。
本发明实施例包括以下优点:
根据本发明实施例,通过将原始字符串中的命名实体字符对应替换为所属的实体类别标签,并将非命名实体字符翻译成目标语言的字符,得到中间字符串,再将中间字符串中的实体类别标签替换为匹配于命名实体字符及其实体类别标签的目标语言的目标字符,得到目标字符串。从而在进行机器翻译时,即使翻译词表没有包含命名实体字符,也能保证命名实体字符得到准确的翻译,提升了翻译质量。
附图说明
图1是本发明的一种机器翻译方法实施例的步骤流程图;
图2是本发明的另一种机器翻译方法实施例的步骤流程图;
图3是本发明的另一种机器翻译方法实施例的步骤流程图;
图4是本发明的一种机器翻译系统训练方法实施例的步骤流程图;
图5是本发明的一种机器翻译装置实施例的结构框图;
图6是本发明的另一种机器翻译装置实施例的结构框图;
图7是本发明的另一种机器翻译装置实施例的结构框图;
图8本发明的一种机器翻译系统训练装置实施例的结构框图;
图9是根据一示例性实施例示出的一种用于机器翻译的装置的框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明的一种机器翻译方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101,接收输入的源语言的原始字符串,所述原始字符串包括命名实体字符和非命名实体字符,其中,所述命名实体字符具有所属的实体类别标签。
本发明实施例可以应用于任意两种或多种语言之间的翻译,例如中英、英中、中英日等语言之间的翻译。实际应用中,用户可以将某种语言的字符串输入至机器翻译系统,以将其翻译成其他语言的字符串时。因此,可以将输入的字符串作为原始字符串,而翻译得到的字符串作为目标字符串;将原始字符串的语言作为源语言,而目标字符串的语言作为目标语言。
实际应用中,原始字符串可以包含有命名实体字符和非命名实体字符。上述的命名实体字符可以为以名称标识的、在当前的字符串中具有特定意义的字符。通常地,命名实体字符可以分类为实体名、时间表达式、数字表达式。更具体地,实体名可以包括人名、机构名称和地名;时间表达式可以包括日期、时间和持续时间;数字表达式可以包括货币、度量衡、百分比以及基数。在实际应用中,本领域技术人员可以根据实际需要将多种具有特定意义的字符作为命名实体字符,例如专有名词、技术术语、俚语、流行用词等。
此外,命名实体字符可以按照上述的多个类别进行分类,使得不同类别的命名实体字符具有相应的实体类别标签。例如,“王小川”属于人名的命名实体字符,具有“$人名”或“$person”的实体类别标签。又例如,“一百万”属于数字表达式的命名实体字符,具有“$数字表达式”或“$number”的实体类别标签。
实际应用中,可以针对接收的原始字符串,通过机器翻译系统中的命名实体识别器进行命名实体识别(Named Entity Recognition,NER)处理,以便从原始字符串中识别出其包含的命名实体字符以及其所属的实体类别,并相应标记实体类别标签。例如,针对“王小川赚了一百万”,可以识别其中的“王小川”和“一百万”为命名实体字符,并识别各自的实体类别分别为人名和数字表达式,标记实体类别标签“$person”和“$number”。
相对于上述的命名实体字符,非命名实体字符可以为在当前的字符串中并没有特定意义的字符。例如动词“有”、名词“人”或形容词“很好”。
具体实现中,可以将输入的原始字符串接收,以进行后续的翻译处理。
步骤102,将所述原始字符串翻译为中间字符串,具体包括:采用所述实体类别标签,替换所述原始字符串中对应的命名实体字符,以及,将所述原始字符串中的非命名实体字符翻译成目标语言的字符。
具体实现中,可以采用实体类别标签,替换原始字符串中所对应的命名实体字符。在替换处理后,可以通过机器翻译系统中的解码器,对其余的非命名实体字符解码翻译成目标语言的字符,得到由翻译成目标语言的字符和若干个实体类别标签所组成的中间字符串。
例如,要将中文的原始字符串“王小川赚了一百万”翻译为英文的中间字符串,可以采用实体类别标签“$person”替换“王小川赚了一百万”中的“王小川”,将“$number”替换其中的“一百万”,然后将“赚了”翻译成英文的“earned”,得到了中间字符串“$personearned$number”。
步骤103,将所述中间字符串翻译为目标字符串,具体包括:在预置的映射表中查找与所述命名实体字符及对应的实体类别标签匹配的目标字符,采用所述目标字符对应替换所述中间字符串中的实体类别标签。
具体实现中,针对中间字符串,可以在预置的映射表中查找与命名实体字符和实体类别标签匹配的目标字符。映射表中可以预先保存有与源语言的命名实体字符以及所属的实体类别标签对应的目标语言的目标字符。例如,针对“王小川,$person”,可以在映射表中查找到与之对应的“Wangxiaochuan,$person”。实际应用中,还可以通过命名实体识别器直接识别字符串中的命名实体字符并标记相应的实体类别标签。
需要说明的是,针对部分数字、日期等的命名实体字符,因为其在不同语言之间的为相同的表达方式,因此可以无须在映射表中查找对应的目标字符,而可以按照预设规则进行转换。例如,针对中文的“12345”,在翻译成英文时仍为“12345”,可以无须在映射表中查找。同时,可以按照英文对数字的表达方式,在“12345”的千分位添加作为间隔标记的字符“,”,得到“12,345”的目标字符。
在查找到匹配的目标字符后,可以将目标字符替换中间字符串中对应的实体类别标签,从而得到目标字符串。例如,将查找到的“王小川”和“1million”替换中间字符串“$person earned$number”中的“$person”和“$number”,得到目标字符串“Wangxiaochuanearned 1million”。实际应用中,可以采用机器翻译系统的对齐模型确定标签之间的对齐关系,以保证字符和标签均排列在适当的位置。上述的对齐模型可以根据需要采用各种适合的模型,例如注意力模型(Attention Model)。
根据本发明实施例,通过将原始字符串中的命名实体字符对应替换为所属的实体类别标签,并将非命名实体字符翻译成目标语言的字符,得到中间字符串,再将中间字符串中的实体类别标签替换为匹配于命名实体字符及其实体类别标签的目标语言的目标字符,得到目标字符串。从而在进行机器翻译时,即使翻译词表没有包含命名实体字符,也能保证命名实体字符得到准确的翻译,提升了翻译质量。
参照图2,示出了本发明的另一种机器翻译方法实施例的步骤流程图,具体可以包括如下步骤:
步骤201,接收输入的源语言的原始字符串,所述原始字符串包括命名实体字符和非命名实体字符,其中,所述命名实体字符具有所属的实体类别标签。
可选地,所述接收输入的源语言的原始字符串的步骤可以包括以下子步骤:
子步骤S11,接收用户输入的源语言的语音信号。
子步骤S12,从所述语音信号中识别出源语言的原始字符串。
实际应用中,用户可能通过语音的方式输入原始字符串。相应地,可以接受用户输入的语音信号,从其中识别出源语言的原始字符串,基于识别的字符串进行后续的翻译处理。
步骤202,将所述原始字符串翻译为中间字符串,具体包括:采用所述实体类别标签,替换所述原始字符串中对应的命名实体字符,以及,将所述原始字符串中的非命名实体字符翻译成目标语言的字符。
步骤203,将所述中间字符串翻译为目标字符串,具体包括:在预置的映射表中查找与所述命名实体字符及对应的实体类别标签匹配的目标字符,采用所述目标字符对应替换所述中间字符串中的实体类别标签。
可选地,所述步骤203可以包括以下子步骤:
子步骤S21,查找与所述实体类别标签对应的映射表。
子步骤S22,在查找的映射表中,查找与所述命名实体字符对应的字符作为所述目标字符。
在具体的实现中,可以预先设置对应多个不同实体类别标签的映射表。例如可以设置有人名“$person”、机构名称“$institution”和数字表达式“$number”的映射表。在查找映射表中时,根据实体类别标签查找对应的映射表。
在查找到的映射表中,查找与命名实体字符对应的字符,将其作为目标字符。
可选地,建立上述的映射表的方法可以包括:
在网络上爬取源语言的命名实体字符。针对爬取的命名实体字符,标注对应的实体类别标签,以及将所述命名实体字符翻译为目标语言的字符。将源语言的命名实体字符和目标语言的字符对应保存于与所属的实体类别标签匹配的映射表中。
具体实现中,可以在网络上爬取多种语言的命名实体字符,可以将爬取的命名实体字符的语言作为源语言。针对爬取的命名实体字符,可以通过实体类别识别或人工识别的方式,根据命名实体字符的命名实体类别,标注实体类别标签,并将其翻译成各种目标语言的字符。将爬取的命名实体字符和翻译成目标语言的字符,对应地保存于与所标注的实体类别标签对应的映射表中。从而可以扩展映射表中所覆盖的命名实体字符,进一步提升了翻译质量。
实际应用中,在网络上爬取命名实体字符的方式可以有多种。例如,可以从网络上已有的命名实体词典中直接爬取到命名实体字符。还可以首先爬取一些源语言的句子,利用命名实体识别器识别句子中的命名实体字符并保存。本领域技术人员可以根据实际情况采用不同的方式爬取命名实体字符。
需要说明的是,针对于包含有命名实体字符的句子,在利用命名实体识别器进行识别的过程中,可以将命名实体字符结合其在源语言的句子中的具体含义进行识别。具体地,可以根据命名实体字符在句子中所处的位置,和/或命名实体字符相邻字符的词性特征,确定命名实体字符所属的实体类别标签。因为,同一个命名实体字符在不同的语境中可能具有不同的含义。例如,“文章拍了部电影”和“这篇文章很有水平”中的“文章”,在两个不同的句子中具有不同的含义,前者属于人名的命名实体字符,后者仅仅是一个名词。
步骤204,查找与所述实体类别标签对应的编辑规则。
步骤205,按照所述编辑规则,编辑所述目标字符。
实际应用中,不同语言之间对于同一个词语的表示方式或表达习惯可能会有差异。例如,英文的人名习惯于将姓氏置于名称之后。因此,可以相应地进行编辑,以适应目标语言的表达方式或表达习惯。
具体实现中,可以在预置的编辑规则表中,查找与实体类别标签对应的编辑规则,以便按照目标语言的表达方式或表达习惯对目标字符进行编辑。
可选地,所述编辑所述目标字符的步骤可以包括以下子步骤:
子步骤S31,针对所述目标字符添加间隔标记。
可以针对于相应的编辑规则,对目标字符添加用于间隔各个字符的间隔标记。例如,根据“$number”的实体类别标签查找编辑规则,按照该编辑规则在目标字符“12345”中的千分位添加间隔标记“,”,从而将目标字符编辑为“12,345”。又例如,根据“$person”的实体类别标签查找编辑规则,按照编辑规则在目标字符“TomAndersonSmith”中适当的位置添加间隔标记“·”,从而将目标字符编辑为“Tom·Anderson·Smith”。
和/或,子步骤S32,调整所述目标字符的表达形式。
可以针对于相应的编辑规则,针对目标字符的字符格式、字符排列顺序等的表达形式进行调整,以适应目标语言的表达习惯。例如,根据日期“$Date”的实体类别标签查找编辑规则,按照该编辑规则将目标字符“2016年11月13日”的表达形式编辑为“Nov 13th2016”。
实际应用中,本领域技术人员可以根据实际需要,采用各种编辑规则编辑目标字符。例如,将属于人名的实体类别标签的目标字符,针对字符的排列顺序进行调整,如针对人名“$person”的实体类别标签,可以查找到针对字符进行排列顺序调整的编辑规则。根据该编辑规则,将目标字符“Wangxiaochuan”调整为“Xiaochuan Wang”。
根据本发明实施例,通过根据命名实体字符所属的实体类别标签查找编辑规则,按照编辑规则对目标字符进行编辑,使得翻译得到的目标字符串更符合目标语言的表达方式或表达习惯,提升了翻译质量。
可选地,所述方法可以还包括:
以文本形式和/或语音形式展示所述目标字符串。
实际应用中,可以将最终翻译结果的目标字符串,以文本形式显示在终端屏幕上,或者通过终端的音频设备,将语音形式的目标字符串向用户播放。当然,本领域技术人员可以根据不同的应用场景采用多种展示方式展示目标字符串。
为了帮助本领域技术人员理解本申请实施例,以下通过具体示例进行说明。
接收到中文的原始字符串“搜狗有五千人”,需要将其翻译为两种或多种语言,例如需要将其翻译为英文和法文两种语言。
在中文至英文的翻译场景中,针对其进行命名实体识别,得到“搜狗[company]有[v]五千[number]人[n]”,将其中的命名实体“搜狗”和“五千”替换为相应的实体类别标签“$INSTITUTION”和“$NUMBER”,得到“$INSTITUTION有$NUMBER人”,并进行翻译,得到英文翻译结果:“$INSTITUTION has$NUMBER people”。对英文翻译结果进行恢复:利用预置的映射表,将$INSTITION,“搜狗”,转换成“Sogou”,利用预先设定好的规则将$NUMBER,”五千”,转换成”5,000”,最终得到翻译结果“Sogou has 5,000people”。
在中文至法文的翻译场景中,进行命名实体识别后得到“搜狗[company]有[v]五千[number]人[n]”,将其中的命名实体“搜狗”和“五千”替换为相应的实体类别标签“$INSTITUTION”和“$NUMBER”,得到“$INSTITUTION有$NUMBER人”,并进行翻译,得到法文翻译结果:“$NUMBER personnes$INSTITUTION”。对法文翻译结果进行恢复:利用预置的映射表,将$INSTITION,“搜狗”,转换成”Sogou”,利用预先设定好的规则将$NUMBER,”五千”,转换成”Cinq mille”,最终得到翻译结果“Cinq mille personnes Sogou”。
参照图3,示出了本发明的另一种机器翻译方法实施例的步骤流程图,具体可以包括如下步骤:
步骤301,接收输入的源语言的原始字符串,所述原始字符串包括命名实体字符和非命名实体字符,其中,所述命名实体字符具有所属的实体类别标签。
步骤302,将所述原始字符串翻译为中间字符串,具体包括:采用所述实体类别标签,替换所述原始字符串中对应的命名实体字符,以及,将所述原始字符串中的非命名实体字符翻译成目标语言的字符。
步骤303,将所述中间字符串翻译为目标字符串,具体包括:查找与每个所述实体类别标签对应的处理方式获得对应的目标字符,采用每个所述目标字符替换所述中间字符串中的对应的实体类别标签。
具体的实现中,不同的实体类别标签可以采用不同的处理方式获得对应的目标字符。采用得到的目标字符替换中间字符串中的对应的实体类别标签,从而得到目标字符串。所述处理方式可以包括映射表查找规则和字符编辑规则,所述查找与每个所述实体类别标签对应的处理方式获得对应的目标字符的步骤可以包括以下子步骤:
子步骤S41,当所述实体类别标签对应的处理方式为映射表查找规则,在预置的映射表中查找与所述命名实体字符及对应的实体类别标签匹配的目标字符。
针对于人名、机构名称、技术术语等的实体类别标签,可以采取在预置的映射表中查找匹配的目标字符的处理方式。映射表中可以预先保存有与源语言的命名实体字符以及所属的实体类别标签对应的目标语言的目标字符。例如,针对“王小川,$person”,可以在映射表中查找到与之对应的“Wangxiaochuan,$person”。
子步骤S42,当所述实体类别标签对应的处理方式为字符编辑规则,查找与所述实体类别标签对应的编辑规则,按照所述编辑规则编辑所述命名实体字符,得到所述目标字符。
针对于数字、日期等的实体类别标签,可以采取直接按照规则进行转换编辑的处理方式。例如,针对中文的“12345”,在翻译成英文时仍为“12345”,可以按照英文对数字的表达方式,在“12345”的千分位添加作为间隔标记的字符“,”,转换编辑得到“12,345”的目标字符。又例如,针对中文的2016/10/10进行英文翻译时,可以按照对应的编辑规则,得到“10/10/2016”,从而得到满足目标语言的语言特性的翻译结果。
根据本发明实施例,通过将原始字符串中的命名实体字符对应替换为所属的实体类别标签,并将非命名实体字符翻译成目标语言的字符,得到中间字符串,针对中间字符串中不同实体类别标签的命名实体字符,根据实体类别标签采用不同的处理方式获得对应的目标字符,将目标字符替换实体类别标签得到目标字符串,从而可以针对于命名实体字符的实体类别进行翻译,提升了翻译质量。
参照图4,示出了本发明的一种机器翻译系统训练方法实施例的步骤流程图,具体可以包括如下步骤:
步骤401,接收源语言的原始字符串和目标语言的目标字符串;所述目标字符串由所述原始字符串翻译得到。
具体实现中,可以将源语言的原始字符串,以及翻译原始字符串得到的目标语言的目标字符串接收,以便对其进行后续的标签替换处理。
步骤402,识别所述原始字符串和所述目标字符串中的命名实体字符及所属的实体类别标签。
实际应用中,可以通过机器翻译系统中的命名实体识别器识别字符串中的命名实体字符,并根据识别出的命名实体字符,在预置的映射表中查找出与命名实体字符对应的实体类别标签。实际应用中,可以预置有包括多种实体类别标签的映射表。例如,映射表可以包括人名“$person”、地点“$place”、机构“$institution”、专有名词“$term”、时间“$time”、数字“$number”和日期“$date”。
实际应用中,映射表可以通过网络爬取和数据标注的方式进行构建。具体地,可以在网络上爬取多种语言的命名实体字符,将爬取的命名实体字符的语言作为源语言。针对爬取的命名实体字符,可以通过实体类别识别或人工识别的方式,根据命名实体字符的命名实体类别,标注实体类别标签,并将其翻译成各种目标语言的字符。将爬取的命名实体字符和翻译成目标语言的字符,对应地保存于与所标注的实体类别标签对应的映射表中。从而可以扩展映射表中所覆盖的命名实体字符,进一步提升了翻译质量。
上述的命名实体识别器可以通过数据标注的方式,可以通过监督、半监督等的训练方法,并结合HMM(Hidden Markov Model,隐马尔科夫模型)、CRF(Conditional RandomFields,条件随机场)等算法实现,训练上述的命名实体识别器。
步骤403,采用所述实体类别标签对应替换所述原始字符串中的命名实体字符,得到第一训练数据;以及,采用所述实体类别标签对应替换所述目标字符串中的命名实体字符,得到第二训练数据。
将实体类别标签对应替换原始字符串和目标字符串中的命名实体字符,从而得到第一训练数据和第二训练数据。
例如,针对中文的原始字符串和英文的目标字符串“王小川赚了一百万”和“Xiaochuan Wang earned 1mllion”,首先通过命名实体识别器识别其中的命名实体,得到:
“王小川[person]赚了一百万[number]”和“Xiaochuan Wang[person]earned1mllion[number]”。
在得到命名实体识别结果后,将中英文句子的命名实体字符替换成对应的实体类别标签,得到:
“$person赚了$number”和“$person earned$number”。
将实体类别标签替换后的原始字符串和目标字符串,分别作为训练数据,进行后续的训练处理。
步骤404,采用所述第一训练数据和所述第二训练数据训练所述翻译系统。
需要说明的是,上述的机器翻译系统可以引入神经网络(Neural Network),基于神经翻译模型构建而成的机器翻译系统。具体实现中,将第一训练数据和第二训练数据作为训练数据,对神经翻译模型进行训练。
实际应用中,还可以接收一种源语言的原始字符串和多种目标语言的目标字符串,分别识别原始字符串和对应于多种目标语言的多个目标字符串中的命名实体字符以及所属的实体类别标签。采用实体类别标签对应替换原始字符串中的命名实体字符,得到一个第一训练数据;以及,采用实体类别标签对应替换多个目标字符串中的命名实体字符,得到多个第二训练数据。采用第一训练数据和多个第二训练数据,针对各个源语言至不同的目标语言的神经翻译模型进行训练,从而实现同时训练多个神经翻译模型。例如,采用中文的第一训练数据,和英文、日文、法文的第二训练数据,对中英、中日、中法的神经翻译模型进行训练。
需要说明的是,由于不同语言之间具有语言特性的差异,因此可以根据具体的语言特性对模型进行适应性调整。具体的调整方式可以由本领域技术人员根据实际需要实施,本申请实施例对此不作限制。
可选地,所述步骤404可以包括以下子步骤:
子步骤S51,将所述第一训练数据输入至所述机器翻译系统。
子步骤S52,采用所述第二训练数据校正所述机器翻译系统输出的翻译结果。
具体实现中,可以将第一训练数据输入至机器翻译系统,由机器翻译系统通过解码器进行解码翻译,得到一个初步的翻译结果。采用第二训练数据对初步的翻译结果进行校正,通过反复多次的校正,提升机器翻译系统的翻译质量。实际的训练场景中,通常将第一训练数据和第二训练数据作为一个整体的双语平行语料,对机器翻译系统进行训练。而且,采用大量的双语平行语料进行训练,可以使得训练后的机器翻译系统提升翻译质量。
根据本发明实施例,通过对源语言的原始字符串和目标语言的目标字符串的命名实体字符进行类别标签的替换,得到没有包含命名实体字符的第一训练数据和第二训练数据。在机器翻译系统对第一训练数据进行解码翻译得到翻译结果后,利用第二训练数据进行校正,从而实现机器翻译系统的训练。在解码翻译过程中无须对命名实体字符进行解码翻译,从而在不扩大机器翻译系统的翻译词表的规模的前提下,保证了训练效率和翻译质量。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图5,示出了本发明的一种机器翻译装置实施例的结构框图,具体可以包括如下模块:
原始字符串接收模块501,用于接收输入的源语言的原始字符串,所述原始字符串包括命名实体字符和非命名实体字符,其中,所述命名实体字符具有所属的实体类别标签。
中间字符串翻译模块502,用于将所述原始字符串翻译为中间字符串,具体包括:采用所述实体类别标签,替换所述原始字符串中对应的命名实体字符,以及,将所述原始字符串中的非命名实体字符翻译成目标语言的字符。
第一目标字符串翻译模块503,用于将所述中间字符串翻译为目标字符串,具体包括:在预置的映射表中查找与所述命名实体字符及对应的实体类别标签匹配的目标字符,采用所述目标字符对应替换所述中间字符串中的实体类别标签。
根据本发明实施例,通过将原始字符串中的命名实体字符对应替换为所属的实体类别标签,并将非命名实体字符翻译成目标语言的字符,得到中间字符串,再将中间字符串中的实体类别标签替换为匹配于命名实体字符及其实体类别标签的目标语言的目标字符,得到目标字符串。从而在进行机器翻译时,即使翻译词表没有包含命名实体字符,也能保证命名实体字符得到准确的翻译,提升了翻译质量。
参照图6,示出了本发明的另一种机器翻译装置实施例的结构框图,具体可以包括如下模块:
原始字符串接收模块601,用于接收输入的源语言的原始字符串,所述原始字符串包括命名实体字符和非命名实体字符,其中,所述命名实体字符具有所属的实体类别标签。
中间字符串翻译模块602,用于将所述原始字符串翻译为中间字符串,具体包括:采用所述实体类别标签,替换所述原始字符串中对应的命名实体字符,以及,将所述原始字符串中的非命名实体字符翻译成目标语言的字符。
目标字符串翻译模块603,用于将所述中间字符串翻译为目标字符串,具体包括:在预置的映射表中查找与所述命名实体字符及对应的实体类别标签匹配的目标字符,采用所述目标字符对应替换所述中间字符串中的实体类别标签。
编辑规则查找模块604,用于查找与所述实体类别标签对应的编辑规则。
目标字符编辑模块605,用于按照所述编辑规则,编辑所述目标字符。
可选地,所述原始字符串接收模块601可以包括以下子模块:
语音信号接收子模块,用于接收用户输入的源语言的语音信号。
语音信号识别子模块,用于从所述语音信号中识别出源语言的原始字符串。
可选地,所述目标字符串翻译模块603可以包括以下子模块:
映射表查找子模块,用于查找与所述实体类别标签对应的映射表。
字符查找子模块,用于在查找的映射表中,查找与所述命名实体字符对应的字符作为所述目标字符。
可选地,所述目标字符编辑模块605可以包括以下子模块:
间隔标记添加子模块,用于针对所述目标字符添加间隔标记。
和/或,
字符格式调整子模块,用于调整所述目标字符的表达形式。
可选地,所述装置可以还包括以下模块:
命名实体字符爬取模块,用于在网络上爬取源语言的命名实体字符。
标注模块,用于针对爬取的命名实体字符,标注对应的实体类别标签,以及将所述命名实体字符翻译为目标语言的字符。
保存模块,用于将源语言的命名实体字符和目标语言的字符对应保存于与所属的实体类别标签匹配的映射表中。
可选地,所述装置可以还包括:
目标字符串展示模块,用于以文本形式和/或语音形式展示所述目标字符串。
根据本发明实施例,通过根据命名实体字符所属的实体类别标签查找编辑规则,按照编辑规则对目标字符进行编辑,使得翻译得到的目标字符串更符合目标语言的表达方式或表达习惯,提升了翻译质量。
参照图7,示出了本发明的一种机器翻译装置实施例的结构框图,具体可以包括如下模块:
原始字符串接收模块701,用于接收输入的源语言的原始字符串,所述原始字符串包括命名实体字符和非命名实体字符,其中,所述命名实体字符具有所属的实体类别标签。
中间字符串翻译模块702,用于将所述原始字符串翻译为中间字符串,具体包括:采用所述实体类别标签,替换所述原始字符串中对应的命名实体字符,以及,将所述原始字符串中的非命名实体字符翻译成目标语言的字符。
第二目标字符串翻译模块703,用于将所述中间字符串翻译为目标字符串,具体包括:查找与每个所述实体类别标签对应的处理方式获得对应的目标字符,采用每个所述目标字符替换所述中间字符串中的对应的实体类别标签。
根据本发明实施例,通过将原始字符串中的命名实体字符对应替换为所属的实体类别标签,并将非命名实体字符翻译成目标语言的字符,得到中间字符串,针对中间字符串中不同实体类别标签的命名实体字符,根据实体类别标签采用不同的处理方式获得对应的目标字符,将目标字符替换实体类别标签得到目标字符串,从而可以针对于命名实体字符的实体类别进行翻译,提升了翻译质量。
参照图8,示出了本发明的一种机器翻译系统训练装置实施例的结构框图,具体可以包括如下模块:
接收模块801,用于接收源语言的原始字符串和目标语言的目标字符串;所述目标字符串由所述原始字符串翻译得到;
识别模块802,用于识别所述原始字符串和所述目标字符串中的命名实体字符及所属的实体类别标签;
替换模块803,用于采用所述实体类别标签对应替换所述原始字符串中的命名实体字符,得到第一训练数据;以及,采用所述实体类别标签对应替换所述目标字符串中的命名实体字符,得到第二训练数据;
训练模块804,用于采用所述第一训练数据和所述第二训练数据训练所述翻译系统。
可选地,所述训练模块804可以包括以下子模块:
训练数据输入子模块,用于将所述第一训练数据输入至所述机器翻译系统。
校正子模块,用于采用所述第二训练数据校正所述机器翻译系统输出的翻译结果。
根据本发明实施例,通过对源语言的原始字符串和目标语言的目标字符串的命名实体字符进行实体类别标签的替换,得到没有包含命名实体字符的第一训练数据和第二训练数据。在机器翻译系统对第一训练数据进行解码翻译得到翻译结果后,利用第二训练数据进行校正,从而实现机器翻译系统的训练。在解码翻译过程中无须对命名实体字符进行解码翻译,从而在不扩大机器翻译系统的翻译词表的规模的前提下,保证了训练效率和翻译质量。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图9是根据一示例性实施例示出的一种用于机器翻译的装置900的框图。例如,装置900可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图9,装置900可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入/输出(I/O)的接口912,传感器组件914,以及通信组件916。
处理组件902通常控制装置900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理部件902可以包括多媒体模块,以方便多媒体组件905和处理组件902之间的交互。
存储器904被配置为存储各种类型的数据以支持在设备900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件906为装置900的各种组件提供电力。电源组件906可以包括电源管理系统,一个或多个电源,及其他与为装置900生成、管理和分配电力相关联的组件。
多媒体组件905包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件905包括一个前置摄像头和/或后置摄像头。当设备900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(MIC),当装置900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
I/O接口912为处理组件902和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件914包括一个或多个传感器,用于为装置900提供各个方面的状态评估。例如,传感器组件914可以检测到设备900的打开/关闭状态,组件的相对定位,例如所述组件为装置900的显示器和小键盘,传感器组件914还可以检测装置900或装置900一个组件的位置改变,用户与装置900接触的存在或不存在,装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件916还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器904,上述指令可由装置900的处理器920执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种机器翻译方法,所述方法包括:
接收输入的源语言的原始字符串,所述原始字符串包括命名实体字符和非命名实体字符,其中,所述命名实体字符具有所属的实体类别标签;
将所述原始字符串翻译为中间字符串,具体包括:采用所述实体类别标签,替换所述原始字符串中对应的命名实体字符,以及,将所述原始字符串中的非命名实体字符翻译成目标语言的字符;
将所述中间字符串翻译为目标字符串,具体包括:在预置的映射表中查找与所述命名实体字符及对应的实体类别标签匹配的目标字符,采用所述目标字符对应替换所述中间字符串中的实体类别标签。
可选地,所述将所述中间字符串翻译为目标字符串的步骤进一步包括:
查找与所述实体类别标签对应的编辑规则;
按照所述编辑规则,编辑所述目标字符。
可选地,所述编辑所述目标字符的步骤包括:
针对所述目标字符添加间隔标记;
和/或,
调整所述目标字符的表达形式。
可选地,所述在预置的映射表中查找与所述命名实体字符及对应的实体类别标签匹配的目标字符的步骤包括:
查找与所述实体类别标签对应的映射表;
在查找的映射表中,查找与所述命名实体字符对应的字符作为所述目标字符。
可选地,建立所述映射表的方法包括:
在网络上爬取源语言的命名实体字符;
针对爬取的命名实体字符,标注对应的实体类别标签,以及将所述命名实体字符翻译为目标语言的字符;
将源语言的命名实体字符和目标语言的字符对应保存于与所属的实体类别标签匹配的映射表中。
上述的非临时性计算机可读存储介质,还可以使得移动终端能够执行另一种机器翻译方法,所述方法包括:
接收输入的源语言的原始字符串,所述原始字符串包括命名实体字符和非命名实体字符,其中,所述命名实体字符具有所属的实体类别标签;
将所述原始字符串翻译为中间字符串,具体包括:采用所述实体类别标签,替换所述原始字符串中对应的命名实体字符,以及,将所述原始字符串中的非命名实体字符翻译成目标语言的字符;
将所述中间字符串翻译为目标字符串,具体包括:查找与每个所述实体类别标签对应的处理方式获得对应的目标字符,采用每个所述目标字符替换所述中间字符串中的对应的实体类别标签。
可选地,所述处理方式可以包括映射表查找规则和字符编辑规则,所述查找与每个所述实体类别标签对应的处理方式获得对应的目标字符的步骤包括:
当所述实体类别标签对应的处理方式为映射表查找规则,在预置的映射表中查找与所述命名实体字符及对应的实体类别标签匹配的目标字符;
当所述实体类别标签对应的处理方式为字符编辑规则,查找与所述实体类别标签对应的编辑规则,按照所述编辑规则编辑所述命名实体字符,得到所述目标字符。
上述的非临时性计算机可读存储介质,还可以使得移动终端能够执行一种机器翻译系统训练方法,所述方法包括:
接收源语言的原始字符串和目标语言的目标字符串;所述目标字符串由所述原始字符串翻译得到;
识别所述原始字符串和所述目标字符串中的命名实体字符及所属的实体类别标签;
采用所述实体类别标签对应替换所述原始字符串中的命名实体字符,得到第一训练数据;以及,采用所述实体类别标签对应替换所述目标字符串中的命名实体字符,得到第二训练数据;
采用所述第一训练数据和所述第二训练数据训练所述翻译系统。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (17)

1.一种机器翻译方法,其特征在于,包括:
接收输入的源语言的原始字符串,所述原始字符串包括命名实体字符和非命名实体字符,其中,所述命名实体字符具有所属的实体类别标签;
将所述原始字符串翻译为中间字符串,具体包括:采用所述实体类别标签,替换所述原始字符串中对应的命名实体字符,以及,将所述原始字符串中的非命名实体字符翻译成目标语言的字符;
将所述中间字符串翻译为目标字符串,具体包括:在预置的映射表中查找与所述命名实体字符及对应的实体类别标签匹配的目标字符,采用所述目标字符对应替换所述中间字符串中的实体类别标签。
2.根据权利要求1所述的方法,其特征在于,所述将所述中间字符串翻译为目标字符串的步骤进一步包括:
查找与所述实体类别标签对应的编辑规则;
按照所述编辑规则,编辑所述目标字符。
3.根据权利要求2所述的方法,其特征在于,所述编辑所述目标字符的步骤包括:
针对所述目标字符添加间隔标记;
和/或,
调整所述目标字符的表达形式。
4.根据权利要求1所述的方法,其特征在于,所述在预置的映射表中查找与所述命名实体字符及对应的实体类别标签匹配的目标字符的步骤包括:
查找与所述实体类别标签对应的映射表;
在查找的映射表中,查找与所述命名实体字符对应的字符作为所述目标字符。
5.根据权利要求1所述的方法,其特征在于,建立所述映射表的方法包括:
在网络上爬取源语言的命名实体字符;
针对爬取的命名实体字符,标注对应的实体类别标签,以及将所述命名实体字符翻译为目标语言的字符;
将源语言的命名实体字符和目标语言的字符对应保存于与所属的实体类别标签匹配的映射表中。
6.根据权利要求1所述的方法,其特征在于,所述接收输入的源语言的原始字符串的步骤包括:
接收用户输入的源语言的语音信号;
从所述语音信号中识别出源语言的原始字符串。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
以文本形式和/或语音形式展示所述目标字符串。
8.一种机器翻译方法,其特征在于,包括:
接收输入的源语言的原始字符串,所述原始字符串包括命名实体字符和非命名实体字符,其中,所述命名实体字符具有所属的实体类别标签;
将所述原始字符串翻译为中间字符串,具体包括:采用所述实体类别标签,替换所述原始字符串中对应的命名实体字符,以及,将所述原始字符串中的非命名实体字符翻译成目标语言的字符;
将所述中间字符串翻译为目标字符串,具体包括:查找与每个所述实体类别标签对应的处理方式获得对应的目标字符,采用每个所述目标字符替换所述中间字符串中的对应的实体类别标签。
9.根据权利要求8所述的方法,其特征在于,所述处理方式包括映射表查找规则和字符编辑规则,所述查找与每个所述实体类别标签对应的处理方式获得对应的目标字符的步骤包括:
当所述实体类别标签对应的处理方式为映射表查找规则,在预置的映射表中查找与所述命名实体字符及对应的实体类别标签匹配的目标字符;
当所述实体类别标签对应的处理方式为字符编辑规则,查找与所述实体类别标签对应的编辑规则,按照所述编辑规则编辑所述命名实体字符,得到所述目标字符。
10.一种机器翻译系统训练方法,其特征在于,所述方法包括:
接收源语言的原始字符串和目标语言的目标字符串;所述目标字符串由所述原始字符串翻译得到;
识别所述原始字符串和所述目标字符串中的命名实体字符及所属的实体类别标签;
采用所述实体类别标签对应替换所述原始字符串中的命名实体字符,得到第一训练数据;以及,采用所述实体类别标签对应替换所述目标字符串中的命名实体字符,得到第二训练数据;
采用所述第一训练数据和所述第二训练数据训练所述翻译系统。
11.根据权利要求10所述的方法,其特征在于,所述采用所述第一训练数据和所述第二训练数据训练所述翻译系统的步骤包括:
将所述第一训练数据输入至所述机器翻译系统;
采用所述第二训练数据校正所述机器翻译系统输出的翻译结果。
12.一种机器翻译装置,其特征在于,包括:
原始字符串接收模块,用于接收输入的源语言的原始字符串,所述原始字符串包括命名实体字符和非命名实体字符,其中,所述命名实体字符具有所属的实体类别标签;
中间字符串翻译模块,用于将所述原始字符串翻译为中间字符串,具体包括:采用所述实体类别标签,替换所述原始字符串中对应的命名实体字符,以及,将所述原始字符串中的非命名实体字符翻译成目标语言的字符;
第一目标字符串翻译模块,用于将所述中间字符串翻译为目标字符串,具体包括:在预置的映射表中查找与所述命名实体字符及对应的实体类别标签匹配的目标字符,采用所述目标字符对应替换所述中间字符串中的实体类别标签。
13.一种机器翻译装置,其特征在于,包括:
原始字符串接收模块,用于接收输入的源语言的原始字符串,所述原始字符串包括命名实体字符和非命名实体字符,其中,所述命名实体字符具有所属的实体类别标签;
中间字符串翻译模块,用于将所述原始字符串翻译为中间字符串,具体包括:采用所述实体类别标签,替换所述原始字符串中对应的命名实体字符,以及,将所述原始字符串中的非命名实体字符翻译成目标语言的字符;
第二目标字符串翻译模块,用于将所述中间字符串翻译为目标字符串,具体包括:查找与每个所述实体类别标签对应的处理方式获得对应的目标字符,采用每个所述目标字符替换所述中间字符串中的对应的实体类别标签。
14.一种机器翻译系统训练装置,其特征在于,包括:
接收模块,用于接收源语言的原始字符串和目标语言的目标字符串;所述目标字符串由所述原始字符串翻译得到;
识别模块,用于识别所述原始字符串和所述目标字符串中的命名实体字符及所属的实体类别标签;
替换模块,用于采用所述实体类别标签对应替换所述原始字符串中的命名实体字符,得到第一训练数据;以及,采用所述实体类别标签对应替换所述目标字符串中的命名实体字符,得到第二训练数据;
训练模块,用于采用所述第一训练数据和所述第二训练数据训练所述翻译系统。
15.一种用于机器翻译的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收输入的源语言的原始字符串,所述原始字符串包括命名实体字符和非命名实体字符,其中,所述命名实体字符具有所属的实体类别标签;
将所述原始字符串翻译为中间字符串,具体包括:采用所述实体类别标签,替换所述原始字符串中对应的命名实体字符,以及,将所述原始字符串中的非命名实体字符翻译成目标语言的字符;
将所述中间字符串翻译为目标字符串,具体包括:在预置的映射表中查找与所述命名实体字符及对应的实体类别标签匹配的目标字符,采用所述目标字符对应替换所述中间字符串中的实体类别标签。
16.一种用于机器翻译的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收输入的源语言的原始字符串,所述原始字符串包括命名实体字符和非命名实体字符,其中,所述命名实体字符具有所属的实体类别标签;
将所述原始字符串翻译为中间字符串,具体包括:采用所述实体类别标签,替换所述原始字符串中对应的命名实体字符,以及,将所述原始字符串中的非命名实体字符翻译成目标语言的字符;
将所述中间字符串翻译为目标字符串,具体包括:查找与每个所述实体类别标签对应的处理方式获得对应的目标字符,采用每个所述目标字符替换所述中间字符串中的对应的实体类别标签。
17.一种用于机器翻译系统训练的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收源语言的原始字符串和目标语言的目标字符串;所述目标字符串由所述原始字符串翻译得到;
识别所述原始字符串和所述目标字符串中的命名实体字符及所属的实体类别标签;
采用所述实体类别标签对应替换所述原始字符串中的命名实体字符,得到第一训练数据;以及,采用所述实体类别标签对应替换所述目标字符串中的命名实体字符,得到第二训练数据;
采用所述第一训练数据和所述第二训练数据训练所述翻译系统。
CN201611035439.3A 2016-11-16 2016-11-16 一种机器翻译方法、装置和机器翻译系统训练方法、装置 Pending CN108073573A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611035439.3A CN108073573A (zh) 2016-11-16 2016-11-16 一种机器翻译方法、装置和机器翻译系统训练方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611035439.3A CN108073573A (zh) 2016-11-16 2016-11-16 一种机器翻译方法、装置和机器翻译系统训练方法、装置

Publications (1)

Publication Number Publication Date
CN108073573A true CN108073573A (zh) 2018-05-25

Family

ID=62161658

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611035439.3A Pending CN108073573A (zh) 2016-11-16 2016-11-16 一种机器翻译方法、装置和机器翻译系统训练方法、装置

Country Status (1)

Country Link
CN (1) CN108073573A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558599A (zh) * 2018-11-07 2019-04-02 北京搜狗科技发展有限公司 一种转换方法、装置和电子设备
CN109871550A (zh) * 2019-01-31 2019-06-11 沈阳雅译网络技术有限公司 一种基于后处理技术的提高数字翻译质量的方法
CN111144111A (zh) * 2019-12-30 2020-05-12 北京世纪好未来教育科技有限公司 翻译方法、装置、设备及存储介质
CN111222342A (zh) * 2020-04-15 2020-06-02 北京金山数字娱乐科技有限公司 一种翻译方法和装置
CN111339773A (zh) * 2018-12-18 2020-06-26 富士通株式会社 信息处理方法、自然语言处理方法以及信息处理设备
CN111414766A (zh) * 2018-12-18 2020-07-14 北京搜狗科技发展有限公司 一种翻译方法及装置
CN111737983A (zh) * 2020-06-22 2020-10-02 网易(杭州)网络有限公司 文本写作风格处理方法、装置、设备及存储介质
CN112257449A (zh) * 2020-11-13 2021-01-22 腾讯科技(深圳)有限公司 命名实体识别方法、装置、计算机设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1643511A (zh) * 2002-03-11 2005-07-20 南加利福尼亚大学 命名实体翻译
US20070100814A1 (en) * 2005-10-28 2007-05-03 Samsung Electronics Co., Ltd. Apparatus and method for detecting named entity
CN101763344A (zh) * 2008-12-25 2010-06-30 株式会社东芝 训练基于短语的翻译模型的方法、机器翻译方法及其装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1643511A (zh) * 2002-03-11 2005-07-20 南加利福尼亚大学 命名实体翻译
US20070100814A1 (en) * 2005-10-28 2007-05-03 Samsung Electronics Co., Ltd. Apparatus and method for detecting named entity
CN101763344A (zh) * 2008-12-25 2010-06-30 株式会社东芝 训练基于短语的翻译模型的方法、机器翻译方法及其装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
罗远胜 著: "《信毅学术文库 跨语言信息检索中的双语主题模型及算法研究》", 31 December 2015, 复旦大学出版社 *
翟飞飞等: "汉英双向时间和数字命名实体的识别与翻译系统", 《第五届全国机器翻译研讨会论文集》 *
许嘉璐等主编: "《中文信息处理现代汉语词汇研究》", 30 September 2006, 广东教育出版社 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558599A (zh) * 2018-11-07 2019-04-02 北京搜狗科技发展有限公司 一种转换方法、装置和电子设备
CN109558599B (zh) * 2018-11-07 2023-04-18 北京搜狗科技发展有限公司 一种转换方法、装置和电子设备
CN111339773A (zh) * 2018-12-18 2020-06-26 富士通株式会社 信息处理方法、自然语言处理方法以及信息处理设备
CN111414766A (zh) * 2018-12-18 2020-07-14 北京搜狗科技发展有限公司 一种翻译方法及装置
CN111414766B (zh) * 2018-12-18 2024-01-30 北京搜狗科技发展有限公司 一种翻译方法及装置
CN109871550B (zh) * 2019-01-31 2022-11-22 沈阳雅译网络技术有限公司 一种基于后处理技术的提高数字翻译质量的方法
CN109871550A (zh) * 2019-01-31 2019-06-11 沈阳雅译网络技术有限公司 一种基于后处理技术的提高数字翻译质量的方法
CN111144111A (zh) * 2019-12-30 2020-05-12 北京世纪好未来教育科技有限公司 翻译方法、装置、设备及存储介质
CN111222342A (zh) * 2020-04-15 2020-06-02 北京金山数字娱乐科技有限公司 一种翻译方法和装置
CN111222342B (zh) * 2020-04-15 2020-08-11 北京金山数字娱乐科技有限公司 一种翻译方法和装置
CN111737983A (zh) * 2020-06-22 2020-10-02 网易(杭州)网络有限公司 文本写作风格处理方法、装置、设备及存储介质
CN111737983B (zh) * 2020-06-22 2023-07-25 网易(杭州)网络有限公司 文本写作风格处理方法、装置、设备及存储介质
CN112257449A (zh) * 2020-11-13 2021-01-22 腾讯科技(深圳)有限公司 命名实体识别方法、装置、计算机设备和存储介质
CN112257449B (zh) * 2020-11-13 2023-01-03 腾讯科技(深圳)有限公司 命名实体识别方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN108073573A (zh) 一种机器翻译方法、装置和机器翻译系统训练方法、装置
WO2020220636A1 (zh) 文本数据增强方法及装置、电子设备、计算机非易失性可读存储介质
CN107291690A (zh) 标点添加方法和装置、用于标点添加的装置
CN107992812A (zh) 一种唇语识别方法及装置
CN107632980A (zh) 语音翻译方法和装置、用于语音翻译的装置
CN110781305A (zh) 基于分类模型的文本分类方法及装置,以及模型训练方法
CN108121736A (zh) 一种主题词确定模型的建立方法、装置及电子设备
CN107274903A (zh) 文本处理方法和装置、用于文本处理的装置
CN107844199A (zh) 一种输入方法、系统和用于输入的装置
CN105139848B (zh) 数据转换方法和装置
CN108345581A (zh) 一种信息识别方法、装置和终端设备
CN110069624B (zh) 文本处理方法及装置
CN107291704A (zh) 处理方法和装置、用于处理的装置
CN111832316A (zh) 语义识别的方法、装置、电子设备和存储介质
CN109977426A (zh) 一种翻译模型的训练方法、装置以及机器可读介质
CN107564526B (zh) 处理方法、装置和机器可读介质
CN108650543A (zh) 视频的字幕编辑方法及装置
CN108008832A (zh) 一种输入方法和装置、一种用于输入的装置
CN114154459A (zh) 语音识别文本处理方法、装置、电子设备及存储介质
CN112183119A (zh) 机器翻译方法、装置及存储介质
CN108803890A (zh) 一种输入方法、输入装置和用于输入的装置
CN107688397A (zh) 一种输入方法、系统和用于输入的装置
CN111832315A (zh) 语义识别的方法、装置、电子设备和存储介质
CN110020429A (zh) 语义识别方法及设备
CN110781689B (zh) 信息处理方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180525