CN111488742A - 用于翻译的方法和装置 - Google Patents

用于翻译的方法和装置 Download PDF

Info

Publication number
CN111488742A
CN111488742A CN201910765052.0A CN201910765052A CN111488742A CN 111488742 A CN111488742 A CN 111488742A CN 201910765052 A CN201910765052 A CN 201910765052A CN 111488742 A CN111488742 A CN 111488742A
Authority
CN
China
Prior art keywords
attention
language text
determined based
model
head
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910765052.0A
Other languages
English (en)
Other versions
CN111488742B (zh
Inventor
唐赟
黄静
何晓冬
周伯文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201910765052.0A priority Critical patent/CN111488742B/zh
Publication of CN111488742A publication Critical patent/CN111488742A/zh
Application granted granted Critical
Publication of CN111488742B publication Critical patent/CN111488742B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本公开公开了用于翻译的方法和装置。该用于翻译的方法包括:获取输入的第一语言文本;将第一语言文本输入机器翻译模型,得到机器翻译模型输出的第二语言文本;其中,机器翻译模型为多头注意力模型,多头注意力模型将基于第一语言文本的句法知识确定的注意力约束图集成至注意头中。本公开提高了机器翻译模型正确编码第一语言文本至中间表示、以及解码中间表示至第二语言文本的准确率。

Description

用于翻译的方法和装置
技术领域
本公开涉及计算机网络技术领域,具体涉及机器翻译技术领域, 尤其涉及用于翻译的方法和装置。
背景技术
神经机器翻译(NMT)已成为最流行的机器翻译任务技术,并在 各种翻译任务中展示了最先进的结果。该技术本身在过去几年中迅速 发展,从基于复现的模型开始,到卷积架构以及最近的Transformer 模型。
由于Transformer模型的简单性和强大的性能,Transformer模型 现在广泛应用于许多其他自然语言任务并取得了巨大成功。
Transformer在NMT上最先进的一部分性能来自于通过明确地关 注自我关注层中的所有标记来更好地建模全局依赖性。通过注意权重 来完成加权平均操作以从整个句子收集上下文信息。
发明内容
本公开的实施例提供了用于翻译的方法和装置。
第一方面,本公开的实施例提供了用于翻译的方法,包括:获取 输入的第一语言文本;将第一语言文本输入机器翻译模型,得到机器 翻译模型输出的第二语言文本;其中,机器翻译模型为多头注意力模 型,多头注意力模型将基于第一语言文本的句法知识确定的注意力约 束图集成至注意头中。
在一些实施例中,基于第一语言文本的句法知识确定的注意力约 束图包括:基于第一语言文本的词的关系确定的注意力约束图,第一 语言文本的词的关系包括局部关系和/或全局关系。
在一些实施例中,基于第一语言文本的句法知识确定的注意力约 束图包括:基于第一语言文本的依赖树所确定的注意力约束图。
在一些实施例中,多头注意力模型将基于第一语言文本的句法知 识确定的注意力约束图集成至注意头中包括以下至少一项:多头注意 力模型将基于第一语言文本的依赖树所确定的第一注意力约束图集成 至编码器层的自注意层的注意头中;以及多头注意力模型将基于第一 语言文本的依赖树所确定的第二注意力约束图集成至解码器层与编码器层之间的关注层的注意头中。
在一些实施例中,第一注意力约束图基于以下步骤确定:将第一 语言文本的每个元素确定为第一注意力约束图中的节点;基于第一语 言文本的依赖树中的词的关联关系确定第一注意力约束图中的边连接。
在一些实施例中,基于第一语言文本的依赖树中的词的关联关系 确定第一注意力约束图中的边连接包括:响应于第一语言文本的依赖 树中的两个词为父子关系,确定两个词在第一注意力约束图中具有边 连接;响应于第一语言文本的依赖树中的两个词具有同一个父节点, 确定两个词在第一注意力约束图中的具有边连接;确定第一语言文本 的依赖树中的词在第一注意力约束图中具有指向自己的边连接。
在一些实施例中,第二注意力约束图基于以下步骤确定:将第一 语言文本中的以下节点与第二语言文本中的查询节点相连接:非叶子 节点;具有依赖结构类别的名词性节点;标点符号节点。
第二方面,本公开的实施例提供了一种用于翻译的装置,包括: 获取单元,被配置成获取输入的第一语言文本;输出单元,被配置成 将第一语言文本输入机器翻译模型,得到机器翻译模型输出的第二语 言文本;其中,机器翻译模型为多头注意力模型,多头注意力模型将 基于第一语言文本的句法知识确定的注意力约束图集成至注意头中。
在一些实施例中,输出单元中基于第一语言文本的句法知识确定 的注意力约束图包括:基于第一语言文本的词的关系确定的注意力约 束图,第一语言文本的词的关系包括局部关系和/或全局关系。
在一些实施例中,输出单元中基于第一语言文本的句法知识确定 的注意力约束图包括:基于第一语言文本的依赖树所确定的注意力约 束图。
在一些实施例中,输出单元中的多头注意力模型将基于第一语言 文本的句法知识确定的注意力约束图集成至注意头中包括以下至少一 项:多头注意力模型将基于第一语言文本的依赖树所确定的第一注意 力约束图集成至编码器层的自注意层的注意头中;以及多头注意力模 型将基于第一语言文本的依赖树所确定的第二注意力约束图集成至解码器层与编码器层之间的关注层的注意头中。
在一些实施例中,输出单元中的第一注意力约束图基于以下步骤 确定:将第一语言文本的每个元素确定为第一注意力约束图中的节点; 基于第一语言文本的依赖树中的词的关联关系确定第一注意力约束图 中的边连接。
在一些实施例中,连接确定单元中基于第一语言文本的依赖树中 的词的关联关系确定第一注意力约束图中的边连接包括:响应于第一 语言文本的依赖树中的两个词为父子关系,确定两个词在第一注意力 约束图中具有边连接;响应于第一语言文本的依赖树中的两个词具有 同一个父节点,确定两个词在第一注意力约束图中的具有边连接;确 定第一语言文本的依赖树中的词在第一注意力约束图中具有指向自己 的边连接。
在一些实施例中,输出单元中的第二注意力约束图基于以下步骤 确定:将第一语言文本中的以下节点与第二语言文本中的查询节点相 连接:非叶子节点;具有依赖结构类别的名词性节点;标点符号节点。
第三方面,本公开的实施例提供了一种电子设备/终端/服务器,包 括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一 个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现 如上任一所述的方法。
第四方面,本公开的实施例提供了一种计算机可读介质,其上存 储有计算机程序,该程序被处理器执行时实现如上任一所述的方法。
第五方面,本公开的实施例提供了一种服务器,包括:接口;存 储器,其上存储有一个或多个程序;以及一个或多个处理器,在操作 上连接到上述接口和上述存储器,用于:获取输入的第一语言文本; 将第一语言文本输入机器翻译模型,得到机器翻译模型输出的第二语 言文本;其中,机器翻译模型为多头注意力模型,多头注意力模型将 基于第一语言文本的句法知识确定的注意力约束图集成至注意头中。
第六方面,本公开的实施例提供了一种计算机可读存储介质,其 上存储有计算机程序,其中,当上述计算机程序被一个或多个处理器 执行时,使得上述一个或多个处理器:获取输入的第一语言文本;将 第一语言文本输入机器翻译模型,得到机器翻译模型输出的第二语言 文本;其中,机器翻译模型为多头注意力模型,多头注意力模型将基 于第一语言文本的句法知识确定的注意力约束图集成至注意头中。
本公开的实施例提供的用于翻译的方法和装置,首先获取输入的 第一语言文本;之后,将第一语言文本输入机器翻译模型,得到机器 翻译模型输出的第二语言文本;其中,机器翻译模型为多头注意力模 型,多头注意力模型将基于第一语言文本的句法知识确定的注意力约 束图集成至注意头中。本公开的实施例提供的用于翻译的方法和装置, 由于在多头注意力模型的注意头中添加了额外的基于第一语言文本的 句法知识确定的注意力约束图,提高了机器翻译模型正确编码第一语 言文本至中间表示、以及解码中间表示至第二语言文本的准确率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例详细描述,本公 开的其它特征、目的和优点将会变得更明显:
图1是本公开的一些实施例可以应用于其中的示例性系统架构图;
图2a是根据本公开的用于翻译的方法的一些实施例的示例性流 程图;
图2b示出了第一语言文本为英语时的依赖树的示例性结构图;
图2c示出了第一注意力约束图中的针对编码器层输入的“caught”的 相应边连接;
图2d示出了第二注意力约束图中针对解码器层的单个元素与编 码器层输入的各个元素的相应边连接;
图3a是根据本公开的实施例的用于翻译的方法的一些应用场景 的示意图;
图3b示出了本公开实施例的用于翻译的方法的一个应用场景所 得到的翻译结果与其它翻译结果的对比示例;
图4根据本公开的用于翻译的装置的一些实施例的示例性结构图;
图5是适于用来实现本公开的实施例的电子设备/终端/服务器的 结构示意图。
具体实施方式
下面结合附图和实施例对本公开作进一步的详细说明。可以理解 的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发 明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与 有关发明相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例 中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本 公开。本领域技术人员还将理解的是,虽然本公开中可使用用语“第一”、 “第二”等来描述各种语言文本等,但是这些语言文本不应被这些用语 限制。这些用语仅用于将一个语言文本与其它语言文本区分开。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非 限制性的,本领域技术人员应当理解,除非在上下文另有明确指出, 否则应该理解为“一个或多个”。
图1示出了可以应用本公开的实施例的用于翻译的方法、装置以 及用于翻译的方法、装置的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103, 网络104和服务器105。网络104用以在终端设备101、102、103和 服务器105之间提供通信链路的介质。网络104可以包括各种连接类 型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105 交互,以接收或发送消息等。终端设备101、102、103上可以安装有 各种通讯客户端应用,例如搜索类应用、深度学习应用、购物类应用、 即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设 备101、102、103为硬件时,可以是支持各类客户端应用的各种电子 设备,包括但不限于平板电脑、膝上型便携计算机和台式计算机等等。 当终端设备101、102、103为软件时,可以安装在上述所列举的电子 设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模 块,也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、 102、103提供支持的后台服务器。后台服务器可以对接收到的请求等 数据进行分析等处理,并将处理结果反馈给终端设备。
需要说明的是,在实践中,本公开的实施例所提供的用于翻译的 方法可以由终端设备101、102、103执行,也可以由服务器105执行。 相应地,用于翻译的装置可以设置于终端设备101、102、103中,也 可以设置于位于服务器105中。在此不做具体限定。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为 硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实 现成单个服务器。当服务器为软件时,可以实现成例如用来提供分布 式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。 在此不做具体限定。
应该理解,图1中的终端、网络和服务器的数目仅仅是示意性的。 根据实现需要,可以具有任意数目的终端、网络和服务器。
继续参考图2a,图2a示出了根据本公开的用于翻译的方法的一 些实施例的示意性流程图。
如图2a所示,用于翻译的方法200,包括:
在步骤210中,获取输入的第一语言文本。
在本实施例中,用于翻译的方法的执行主体(例如图1所示的终 端或服务器)可以首先获取人工或机器输入的第一语言文本。
在这里,第一语言文本为机器翻译模型可以翻译的任意一种语言。 例如,第一语言文本可以为汉语、法语、俄语、西班牙语、阿拉伯语 或英语等。
在步骤220中,将第一语言文本输入机器翻译模型,得到机器翻 译模型输出的第二语言文本。
在本实施例中,机器翻译模型为多头注意力模型,多头注意力模 型将基于第一语言文本的句法知识确定的注意力约束图集成至注意头 中。
其中,机器翻译模型是训练后具有语言翻译能力的机器学习模型, 用于将第一语言文本作为输入,对第一语言文本进行分词,之后将每 个词的信息转化为词向量序列,从而得到第一语言文本对应的向量矩 阵,之后将向量矩阵输入编码器,得到编码器输出的中间表示,最后 采用解码器解码中间表示,输出第二语言文本。
机器学习的英文全称为Machine Learning,简称ML。机器学习模 型可以通过样本学习具备翻译能力。机器学习模型可以采用神经网络 模型、支持向量机或者逻辑回归模型等。神经网络模型比如卷积神经 网络、循环神经网络、Transformer模型、反向传播神经网络、反馈神 经网络、径向基神经网络或者自组织神经网络等。
多头注意力模型,是指具有多个注意头的采用注意力(Attention) 机制的模型。Attention机制的本质来自于人类视觉注意力机制。 Attention函数的本质可以被描述为一个查询(Query)到一系列键-值 (Key-Value)对的映射。
采用多头注意力模型的机器翻译模型,可以将多头注意力模型应 用于机器翻译模型的编码器层和/或解码器层。
在计算注意力时,可以将输入序列中的构成元素(包括词、标点 符号等)想象成是由一系列的<Key,Value>数据对构成,此时给定输出 序列中的某个元素查询(Query),可以执行以下三个步骤:第一步骤 是将Query和每个Key进行相似度计算得到权重,常用的相似度函数 有点积,拼接,感知机等;第二个步骤一般是使用一个softmax函数 对这些权重进行归一化;第三个步骤是将权重和相应的键值Value进 行加权求和得到最后的Attention。所以,Attention机制本质上是对 输入序列中元素的Value值进行加权求和,而Query和Key用来计算 对应Value的权重系数。目前在自然语言处理(NLP)研究中,Key 和Value通常相同,即Key=Value。
在获得多头注意力(Multi-head Attention)的结果时,每个注意头 用于总结输入序列中的词的上下文信息的不同部分。首先,Query, Key,Value需要做k次变换,每一次变换对应一个注意头。并且,每 次Query,Key,Value进行线性变换的参数矩阵W各不相同。然后, 可以将k次的放缩点积的Attention结果进行拼接。之后,将拼接结果 再进行一次线性变换得到的值作为多头Attention的结果。这一获得多 头注意力的结果的过程,可以允许模型在不同的表示子空间里学习到 相关的信息。
应当理解,当多头注意力模型用于机器翻译模型的编码器层时, 上述的输入序列为第一语言文本对应的向量矩阵,输出序列为中间表 示;当多头注意力模型用于机器翻译模型的解码器层时,输入序列为 中间表示,输出序列为第二语言文本。
当基于第一语言文本的句法知识确定的注意力约束图时,可以根 据第一语言文本的各个组成元素以及各个组成元素在句子中的排列顺 序,得到约束图的顶点和连接关系。
例如,可以根据第一语言文本的所有组成元素得到约束图的顶点, 以及根据第一语言文本的所有组成元素在句子中的排列顺序得到约束 图的顶点之间的连接关系。
又例如,可以根据第一语言文本的部分重要的组成元素得到约束 图的顶点,以及根据第一语言文本的部分重要的组成元素在句子中的 排列顺序得到约束图的顶点之间的连接关系。
基于此,上述本公开的实施例提供的用于翻译的方法,由于在多 头注意力模型的注意头中添加了额外的基于第一语言文本的句法知识 确定的注意力约束图,提高了机器翻译模型正确编码第一语言文本至 中间表示、以及解码中间表示至第二语言文本的准确率。
在上述实施例的一些可选实现方式中,上述基于第一语言文本的 句法知识确定的注意力约束图包括:基于第一语言文本的词的关系确 定的注意力约束图,第一语言文本的词的关系包括局部关系和/或全局 关系。
在本实现方式中,第一语言文本的词的关系可以为词的位置关系、 依存关系等。第一语言文本的词的关系可以包括第一语言文本的词的 局部关系。
在这里,局部关系是指查询的词与输入的词位置相邻或语义上存 在依存关系。
备选地或附加地,第一语言文本的词的关系可以包括第一语言文 本的词的全局关系。在这里,全局关系是指查询的词与第一语言文本 中所有的元素的关系。
本实现方式中的用于翻译的方法,通过在实现机器翻译模型的多 头注意力模型中,将基于第一语言文本的词的局部关系和/或全局关系 确定的注意力约束图集成至注意头中,在翻译时考虑了第一语言文本 中与输出的词相邻的词对输出的词的影响和/或第一语言文本中所有 的词对输出的词的影响,从而提高了将第一语言文本翻译为第二语言 文本的准确性。
在本实施例的一些可选实现方式中,上述基于第一语言文本的句 法知识确定的注意力约束图包括:基于第一语言文本的依赖树所确定 的注意力约束图。
在本实现方式中,第一语言文本的依赖树,是指表示第一语言文 本中的元素的依存关系的树形图,又叫做“依存树”(dependency tree)。 依赖树是机器翻译中句子结构形式的描述方式。依赖树是通过句子中 的词表示句子内部的句法结构,以及表示词之间的关系的一组相关的 有向连接。
示例性地,图2b示出了第一语言文本为英语时的依赖树的示例性 结构图。
在图2b中,输入的第一语言文本为“When they left,I packed a suitcase andcaught the frst train to London.”其中,第一语言文本进行 分词后得到的元素分别包括:“When”、“they”、“left”、“,”、“I”、“packed”、 “a”、“suitcase”、“and”、“caught”、“the”、“frst”、“train”、“to”、“London”、 “.”。
在依赖树中,最高级别的头部依赖关系,是依赖树中的子节点的 根节点,可以被视为谓词与其在句子中的自变量之间的语义关系的近 似。例如,图2b中的“I packedsuitcase caught”。
对于依赖树的较低级别,子节点可以被视为对父节点的修饰语和 对父节点的约束。例如,子节点“frst”和子节点“London”可以被视为 对父节点“train”的修饰语和对父节点“train”的约束。
本实现方式中的用于翻译的方法,通过在实现机器翻译模型的多 头注意力模型中,将基于第一语言文本的依赖树所确定的注意力约束 图集成至注意头中,从而在翻译时考虑了输入序列中的元素之间所存 在的依存关系对输出的元素的影响,从而提高了将第一语言文本翻译 为第二语言文本的准确性。
在本实施例的一些可选实现方式中,上述实施例中的多头注意力 模型将基于第一语言文本的句法知识确定的注意力约束图集成至注意 头中包括以下至少一项:多头注意力模型将基于第一语言文本的依赖 树所确定的第一注意力约束图集成至编码器层的自注意层的注意头中; 以及多头注意力模型将基于第一语言文本的依赖树所确定的第二注意 力约束图集成至解码器层与编码器层之间的关注层的注意头中。
在本实现方式中,多头注意力模型包括堆叠的编码器层和解码器 层。单个编码器层包括自注意层和位置前馈层。单个解码器层类似于 编码器层,但在编码器层和解码器层之间具有额外的关注层。在给定 当前解码器状态的情况下,该关注层被应用于编码器层的输出序列。
在将注意力约束图C添加至注意头中时,注意力约束图C可以指导 机器翻译模型的输入序列x中所选的元素对的注意权重。Ci是指注意 力约束图中的第i个顶点。
在将注意力约束图添加至注意头中之前,对于给定的具有N个元 素的输入序列x=(x1,x2,…,xN),以及具有M个元素的查询序列 y=(y1,y2,…,yM),编码器层的自注意力层、解码器层与编码器层之间 的关注层的注意力结果可以表示为如下公式:
Figure BDA0002171667080000101
Figure BDA0002171667080000102
Figure BDA0002171667080000103
在这里,xi,yj∈Rd,也即xi,yj分别属于d维实数空间,分别为一 个d维的向量;注意力的输出序列为:z=(z1,z2,…,zM);
Figure BDA0002171667080000116
是第 i个元素的注意力输出;dz=d/k,其中,d为词向量序列的维度,k为 多头注意力模型在添加注意力约束图之前的原始注意头的个数;
Figure BDA0002171667080000117
为机器翻译模型中针对输出序列、输入序列和 注意力结果序列进行线性参数变换的矩阵;j是连接操作。
在上述的编码器层的自注意力层中,查询序列y=(y1,y2,…,yM)等 于输入序列x=(x1,x2,…,xN)。
将k个注意力头连接起来,可以得到注意力机制最终的注意力输 出公式:
O=(O1,O2,…,OM),Oi∈Rd。其中,
Oi=[zi,1|zi,2,…|zi,k]WO (4)
在这里,zi,k是多头注意力模型的第i个元素的k个注意头输出,
Figure BDA0002171667080000118
是维度为dz×d的进行线性参数变换的矩阵。
在将注意力约束图C添加至注意头中之后,注意力约束图C可以 进一步指导多头注意力模型计算输入序列x=(x1,x2,…,xN)中的元素 相对于被查询的元素的注意力权重。对于注意力约束图C所增加的注 意头输出的注意力,上述的公式(1)、(2),将被改写为以下公式:
Figure BDA0002171667080000111
Figure BDA0002171667080000112
这些注意力约束图C所增加的注意头输出的注意力,用于增加原 始注意头输出的注意力。将注意力约束图的注意头添加至原始注意头, 可以在从依赖树派生的约束图有解析错误时和/或在从依赖树派生的 约束图过滤掉输入序列x=(x1,x2,…,xN)中的某些元素出现信息丢失 时,避免输出错误的翻译结果。通过修改公式(4),可以得到以下公 式:
Figure BDA0002171667080000113
Figure BDA0002171667080000114
是约束图C的约束下的第i个元素的第
Figure BDA0002171667080000115
个注意头输出,
Figure BDA0002171667080000121
Figure BDA0002171667080000122
为约束图C所增加的注意头 的数量。
本实现方式中的用于翻译的方法,通过在实现机器翻译模型的多 头注意力模型中,将基于第一语言文本的依赖树所确定的第一注意力 约束图集成至编码器层的自注意层的注意头中,以及将基于第一语言 文本的依赖树所确定的第二注意力约束图集成至解码器层与编码器层 之间的关注层的注意头中,在翻译的编码和解码过程中分别考虑了输入序列中各个元素与输出的元素之间的依存关系对输出的元素的影响, 从而提高了将第一语言文本翻译为第二语言文本的准确性。
在本实施例的一些可选实现方式中,第一注意力约束图基于以下 步骤确定:将第一语言文本的每个元素确定为第一注意力约束图中的 节点;基于第一语言文本的依赖树中的词的关联关系确定第一注意力 约束图中的边连接。
在本实现方式中,基于依赖树,可以确定以下信息:1)词与其父 节点,子节点和兄弟节点具有相对密切的关系;2)非叶节点处的词由 句子的骨结构组成,并提供主句信息;叶节点中的单词与句子细节更 相关。因此,基于依赖树的句法知识,可以根据输入序列中的元素在 树中的位置来定义两个输入序列中的词的接近程度;并且可以根据它 们在树中的位置来选择句子中词的重要性。
进一步地,可以先将第一语言文本中的元素确定为第一注意力约 束图中的节点;再基于第一语言文本的依赖树中的词的关联关系确定 第一注意力约束图中的边连接,从而得到第一注意力约束图。例如, 可以将第一语言文本中的所有元素或部分重要的元素确定为第一注意 力约束图中的节点;基于第一语言文本的依赖树中的词的所有关联关 系或对应部分重要的元素的全部或部分关联关系来确定第一注意力约 束图中的边连接。具体地,第一语言文本的依赖树中的词的部分关联 关系,可以为所有关联关系中最为重要的部分关联关系。
在一些具体的示例中,基于第一语言文本的依赖树中的词的关联 关系确定第一注意力约束图中的边连接可以包括:响应于第一语言文 本的依赖树中的两个词为父子关系,确定两个词在第一注意力约束图 中具有边连接;响应于第一语言文本的依赖树中的两个词具有同一个 父节点,确定两个词在第一注意力约束图中的具有边连接;确定第一 语言文本的依赖树中的词在第一注意力约束图中具有指向自己的边连 接。
在本示例的编码器层中,基于第一注意力约束图的注意头被应用 于每个编码器层中的自注意层。输入序列x中的每个元素xj被视为第 一注意力约束图中的节点。在第一语言文本的依赖树中高度相关的元 素,可以通过第一注意力约束图中的边连接。该第一注意力约束图源 自依赖树,如下公式所示:
Figure BDA0002171667080000131
如果只有ei,j=1,则元素j∈Ci。在依赖树中,父节点与子节点之间 存在有向连接,连接的类型显示父节点与子节点在句子中的关系。
此外,节点及其兄弟节点通过语法树中的父节点连接。它们在依赖 树中只有两跳,通常与父节点一起成为有意义的短语,不过忽略了一些 小细节。这些兄弟节点高度相关,可以在派生的注意力约束图中连接它 们。需要注意的是,派生的注意力约束图是无向图而不是作为依赖树的 有向图,因此注意力约束图天然地适合于注意层。
图2c示出了第一注意力约束图针对编码器层输入的“caught”的相应 边连接。节点“packed”是依赖关系树中的根节点,它也是节点“caught”的 父节点。节点“and”和节点“train”是节点“caught”的子节点。节点“left”、“,”、 “I”、“su@@”、“it@@”、“case”、“.”是节点“packed”的所有子节点,并且 它们是节点“caught”的兄弟节点。注意,“suitcase”一词通过字节对编码 (BPE)分为三个子词“su@@”,“it@@”和“case”。它们与原始单词“suitcase”共享相同的父节点,子节点和兄弟节点。
所有这些节点形成公式(8)中节点“caught”的约束集C。编码器约 束图由基于公式(8)的所有节点的所有边组成。应当理解,在图2c中, 仅示出了与节点“caught”相关联的边,并且忽略其它节点对之间的边缘以 避免形成拥挤的图形。
本实现方式中的用于翻译的方法,通过在实现机器翻译模型的多 头注意力模型中,将基于第一语言文本的依赖树所确定的第一注意力 约束图集成至编码器层的自注意层的注意头中,在翻译的编码过程中 考虑了输入序列中与输出的元素之间的高度相关的各个元素对输出的 元素的影响,从而提高了将第一语言文本翻译为第二语言文本的准确性。
在本实施例的一些可选实现方式中,第二注意力约束图基于以下 步骤确定:将第一语言文本中的以下节点与第二语言文本中的查询节 点相连接:非叶子节点;具有依赖结构类别的名词性节点;标点符号 节点。
在本实现方式中,编码器和解码器之间的关注层采用第二注意力 约束图来增强。在每个解码器层,解码器层与编码器层之间的关注层 由来自源序列x的节点和来自当前解码器层状态为yi的节点组成。该 连接仅存在于所选节点xj和查询节点yi之间。
如图2d所示,图2d示出了第二注意力约束图中针对解码器层的 单个元素与编码器层输入的各个元素的相应边连接。约束应用于编码 器层的状态序列(Encoder States)x,并且只有下面列出的节点将具有 连接解码器层的状态(Decoder State)yi的边:非叶子节点;具有依赖 结构类别的名词性节点;以及标点符号节点。
其中,非叶子节点为解析树中具有子节点的那些节点,例如图2b 中的“left”,“packed”,“su@@”、“it@@”、“case”、“caught”、“train”和 “London”。
与解码器层状态节点连接的第二类节点是具有标称dependent1的 节点,例如句子中的主语和宾语。这些节点与名词或名词短语相关, 并包含输入句子的唯一信息。在图2d中,节点“they”和“I”是具有依赖 结构类别的名词性节点。
与解码器状态节点连接的最后一类节点是与标点符号相关联的节 点,因为标点符号通常充当聚合中枢以收集句子的级别信息。示例性 地,这些节点可以包含在如图2d所示的第二注意力约束图中的节点“,” 和“.”。
在解码期间,所有解码器层的状态序列共享给定第一语言文本的 元素的第二注意力约束图,例如,在公式(5)和(6)中的Ci≡C。
本实现方式中的用于翻译的方法,通过在实现机器翻译模型的多 头注意力模型中,将基于第一语言文本的依赖树所确定的第二注意力 约束图集成至解码器层与编码器层之间的关注层的注意头中,在翻译 的解码过程中考虑了输入序列中与输出的元素之间的相关的各个元素 对输出的元素的影响,从而提高了将第一语言文本翻译为第二语言文本的准确性。
以下结合图3a,描述本公开的用于翻译的方法的示例性应用场景。
如图3a所示,图3a示出了根据本公开的用于翻译的方法的一些 应用场景的示意性流程图。
如图3a所示,用于翻译的方法300运行于电子设备310中,可以 包括:
首先,获取输入的第一语言文本301;
之后,将第一语言文本301输入机器翻译模型302,得到机器翻 译模型302输出的第二语言文本303;其中,机器翻译模型302为多 头注意力模型3021,多头注意力模型3021将基于第一语言文本的句 法知识确定的注意力约束图3011集成至注意头3022中。
应当理解,上述图3a中所示出的用于翻译的方法的应用场景,仅 为对于用于翻译的方法的示例性描述,并不代表对该方法的限定。例 如,上述将第一语言文本301输入机器翻译模型302,得到机器翻译 模型302输出的第二语言文本303,可以通过更多的数据处理步骤来 实现,本公开对此不做限定。
如图3b所示,图3b示出了本公开实施例的用于翻译的方法的一 个应用场景所得到的翻译结果与其它翻译结果的对比示例。
采用上述实施例中的用于翻译的方法,对于WMT(Workshop on MachineTranslation)任务,基础Transformer模型用作基线。有6个 编码器和解码器层,8个注意头,嵌入维度d=512和dz=64。前馈内 层维度为1024。英语-法语的丢失为0.1,英语-德语的丢失为0.25。英 语-法语任务需要20个时期训练。英语-德语任务需要100个时期训练。对于用注意力约束图增强的系统,使用StanfordNLP包提取依赖树。 如果没有具体提及,则为每个注意力层或关注层增加默认的2个额外 注意头。
上述WMT任务所得到的试验结果如图3b所示,显示了针对英语 -德语和英语-法语任务的newstest2014测试集的测试结果。基线模型 是Transformer基础模型(表中的第一行)。竞争基线(表中的第一行) 用于与我们提出的用于翻译的方法进行比较。
图3b中的第二到第四行分别是“+GCA(Enc.)”,“+GCA(Dec.)” 和“+GCA”Transformer模型,分别在编码器层,解码器层和两者处都 有注意力约束图(GCA)。
结果如图3b所示,表明在编码器层或解码器层添加额外的GCA 头可以使两个任务的波勒(BLEU)分数始终提高0.5-0.7。此外,在 编码器层和解码器层模型中添加GCA头时会产生协同效应:英语-德 语和英语-法语任务的BLEU分数再增加0.3到0.4。总共分别在这两个WMT任务中观察到0.8和1.1的BLEU分数改进。
本公开上述实施例提供的用于翻译的方法,由于在翻译第一语言 文本时,将基于第一语言文本的句法知识确定的注意力约束图集成至 实现机器翻译模型的多头注意力模型的注意头中,从而采用具有约束 的注意力机制提高了将第一语言文本翻译为第二语言文本的准确性。
进一步参考图4,作为对上述各图所示方法的实现,本公开提供 了一种用于翻译的装置的一些实施例,该装置实施例与图2-图3所示 的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图4所示,本实施例的用于翻译的装置400可以包括:获取单 元410,被配置成获取输入的第一语言文本;输出单元420,被配置成 将第一语言文本输入机器翻译模型,得到机器翻译模型输出的第二语 言文本;其中,机器翻译模型为多头注意力模型,多头注意力模型将 基于第一语言文本的句法知识确定的注意力约束图集成至注意头中。
在本实施例的一些可选实现方式中,输出单元420中基于第一语 言文本的句法知识确定的注意力约束图包括:基于第一语言文本的词 的关系确定的注意力约束图,第一语言文本的词的关系包括局部关系 和/或全局关系。
在本实施例的一些可选实现方式中,输出单元420中基于第一语 言文本的句法知识确定的注意力约束图包括:基于第一语言文本的依 赖树所确定的注意力约束图。
在本实施例的一些可选实现方式中,输出单元420中的多头注意 力模型将基于第一语言文本的句法知识确定的注意力约束图集成至注 意头中包括以下至少一项:多头注意力模型将基于第一语言文本的依 赖树所确定的第一注意力约束图集成至编码器层的自注意层的注意头 中;以及多头注意力模型将基于第一语言文本的依赖树所确定的第二 注意力约束图集成至解码器层与编码器层之间的关注层的注意头中。
在本实施例的一些可选实现方式中,输出单元420中的第一注意 力约束图基于以下步骤确定:将第一语言文本的每个元素确定为第一 注意力约束图中的节点;基于第一语言文本的依赖树中的词的关联关 系确定第一注意力约束图中的边连接。
在本实施例的一些可选实现方式中,输出单元420中的基于第一 语言文本的依赖树中的词的关联关系确定第一注意力约束图中的边连 接包括:响应于第一语言文本的依赖树中的两个词为父子关系,确定 两个词在第一注意力约束图中具有边连接;响应于第一语言文本的依 赖树中的两个词具有同一个父节点,确定两个词在第一注意力约束图 中的具有边连接;确定第一语言文本的依赖树中的词在第一注意力约 束图中具有指向自己的边连接。
在本实施例的一些可选实现方式中,输出单元中420的第二注意 力约束图基于以下步骤确定:将第一语言文本中的以下节点与第二语 言文本中的查询节点相连接:非叶子节点;具有依赖结构类别的名词 性节点;标点符号节点。
本公开的实施例还提供了一种电子设备/终端/服务器,包括:一个 或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个 程序被一个或多个处理器执行,使得一个或多个处理器实现如上任一 所述的方法。
本公开的实施例还提供了一种计算机可读介质,其上存储有计算 机程序,该程序被处理器执行时实现如上任一所述的方法。
本公开的实施例还提供了一种服务器,包括:接口;存储器,其 上存储有一个或多个程序;以及一个或多个处理器,在操作上连接到 上述接口和上述存储器,用于:获取输入的第一语言文本;将第一语 言文本输入机器翻译模型,得到机器翻译模型输出的第二语言文本; 其中,机器翻译模型为多头注意力模型,多头注意力模型将基于第一 语言文本的句法知识确定的注意力约束图集成至注意头中。
本公开的实施例还提供了一种计算机可读存储介质,其上存储有 计算机程序,其中,当上述计算机程序被一个或多个处理器执行时, 使得上述一个或多个处理器:获取输入的第一语言文本;将第一语言 文本输入机器翻译模型,得到机器翻译模型输出的第二语言文本;其 中,机器翻译模型为多头注意力模型,多头注意力模型将基于第一语 言文本的句法知识确定的注意力约束图集成至注意头中。
下面参考图5,其示出了适于用来实现本公开的实施例的电子设 备(例如图1中的服务器或终端设备)500的结构示意图。本公开的 实施例中的终端设备可以包括但不限于诸如笔记本电脑、台式计算机 等。图5示出的终端设备/服务器仅仅是一个示例,不应对本公开的实 施例的功能和使用范围带来任何限制。
如图5所示,电子设备500可以包括处理装置(例如中央处理器、 图形处理器等)501,其可以根据存储在只读存储器(ROM)502中的 程序或者从存储装置508加载到随机访问存储器(RAM)503中的程 序而执行各种适当的动作和处理。在RAM503中,还存储有电子设备 500操作所需的各种程序和数据。处理装置501、ROM502以及RAM503 通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
通常,以下装置可以连接至I/O接口505:包括例如触摸屏、触摸 板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置 506;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507; 包括例如磁带、硬盘等的存储装置508;以及通信装置509。通信装置 509可以允许电子设备500与其他设备进行无线或有线通信以交换数 据。虽然图5示出了具有各种装置的电子设备500,但是应理解的是, 并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或 更少的装置。图5中示出的每个方框可以代表一个装置,也可以根据 需要代表多个装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以 被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程 序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程 序包含用于执行流程图所示的方法的程序代码。在这样的实施例中, 该计算机程序可以通过通信装置509从网络上被下载和安装,或者从 存储装置508被安装,或者从ROM502被安装。在该计算机程序被处 理装置501执行时,执行本公开的实施例的方法中限定的上述功能。 需要说明的是,本公开的实施例所述的计算机可读介质可以是计算机 可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。 计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、 红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算 机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个 导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、 只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、 光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储 器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可 读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指 令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实 施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分 传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数 据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的 任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质 以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播 或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用 的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传 输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意 合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是 单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一 个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使 得该电子设备:获取输入的第一语言文本;将第一语言文本输入机器 翻译模型,得到机器翻译模型输出的第二语言文本;其中,机器翻译 模型为多头注意力模型,多头注意力模型将基于第一语言文本的句法 知识确定的注意力约束图集成至注意头中。
可以以一种或多种程序设计语言文本或其组合来编写用于执行本 公开的实施例的操作的计算机程序代码,所述程序设计语言文本包括 面向对象的程序设计语言文本—诸如Java、Smalltalk、C++,还包括 常规的过程式程序设计语言文本—诸如“C”语言文本或类似的程序设 计语言文本。程序代码可以完全地在用户计算机上执行、部分地在用 户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上 部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。 在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络 ——包括局域网(LAN)或广域网(WAN)——连接到用户计算机, 或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因 特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、 方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点 上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码 的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实 现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实 现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。 例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时 也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是, 框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合, 可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者 可以用专用硬件与计算机指令的组合来实现。
描述于本公开的实施例中所涉及到的单元可以通过软件的方式实 现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理 器中,例如,可以描述为:一种处理器包括获取单元和输出单元。其 中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例 如,获取单元还可以被描述为“获取输入的第一语言文本的单元”。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。 本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上 述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述 发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形 成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具 有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种用于翻译的方法,包括:
获取输入的第一语言文本;
将所述第一语言文本输入机器翻译模型,得到所述机器翻译模型输出的第二语言文本;其中,所述机器翻译模型为多头注意力模型,所述多头注意力模型将基于所述第一语言文本的句法知识确定的注意力约束图集成至注意头中。
2.根据权利要求1所述的方法,其中,所述基于所述第一语言文本的句法知识确定的注意力约束图包括:
基于所述第一语言文本的词的关系确定的注意力约束图,所述第一语言文本的词的关系包括局部关系和/或全局关系。
3.根据权利要求1所述的方法,其中,所述基于所述第一语言文本的句法知识确定的注意力约束图包括:基于所述第一语言文本的依赖树所确定的注意力约束图。
4.根据权利要求3所述的方法,其中,所述多头注意力模型将基于所述第一语言文本的句法知识确定的注意力约束图集成至注意头中包括以下至少一项:
所述多头注意力模型将基于所述第一语言文本的依赖树所确定的第一注意力约束图集成至编码器层的自注意层的注意头中;以及
所述多头注意力模型将基于所述第一语言文本的依赖树所确定的第二注意力约束图集成至解码器层与编码器层之间的关注层的注意头中。
5.根据权利要求4所述的方法,其中,所述第一注意力约束图基于以下步骤确定:
将所述第一语言文本的每个元素确定为第一注意力约束图中的节点;
基于所述第一语言文本的依赖树中的词的关联关系确定第一注意力约束图中的边连接。
6.根据权利要求5所述的方法,其中,所述基于所述第一语言文本的依赖树中的词的关联关系确定第一注意力约束图中的边连接包括:
响应于所述第一语言文本的依赖树中的两个词为父子关系,确定所述两个词在第一注意力约束图中具有边连接;
响应于所述第一语言文本的依赖树中的两个词具有同一个父节点,确定所述两个词在第一注意力约束图中的具有边连接;
确定所述第一语言文本的依赖树中的词在第一注意力约束图中具有指向自己的边连接。
7.根据权利要求4所述的方法,其中,所述第二注意力约束图基于以下步骤确定:
将所述第一语言文本中的以下节点与所述第二语言文本中的查询节点相连接:非叶子节点;具有依赖结构类别的名词性节点;标点符号节点。
8.一种用于翻译的装置,包括:
获取单元,被配置成获取输入的第一语言文本;
输出单元,被配置成将所述第一语言文本输入机器翻译模型,得到所述机器翻译模型输出的第二语言文本;其中,所述机器翻译模型为多头注意力模型,所述多头注意力模型将基于所述第一语言文本的句法知识确定的注意力约束图集成至注意头中。
9.一种服务器,包括:接口;
存储器,其上存储有一个或多个程序;以及
一个或多个处理器,在操作上连接到上述接口和上述存储器,用于:获取输入的第一语言文本;将第一语言文本输入机器翻译模型,得到机器翻译模型输出的第二语言文本;其中,机器翻译模型为多头注意力模型,多头注意力模型将基于第一语言文本的句法知识确定的注意力约束图集成至注意头中。
10.一种计算机可读存储介质,其上存储有计算机程序,其中,当上述计算机程序被一个或多个处理器执行时,使得上述一个或多个处理器:获取输入的第一语言文本;将第一语言文本输入机器翻译模型,得到机器翻译模型输出的第二语言文本;其中,机器翻译模型为多头注意力模型,多头注意力模型将基于第一语言文本的句法知识确定的注意力约束图集成至注意头中。
CN201910765052.0A 2019-08-19 2019-08-19 用于翻译的方法和装置 Active CN111488742B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910765052.0A CN111488742B (zh) 2019-08-19 2019-08-19 用于翻译的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910765052.0A CN111488742B (zh) 2019-08-19 2019-08-19 用于翻译的方法和装置

Publications (2)

Publication Number Publication Date
CN111488742A true CN111488742A (zh) 2020-08-04
CN111488742B CN111488742B (zh) 2021-06-29

Family

ID=71812369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910765052.0A Active CN111488742B (zh) 2019-08-19 2019-08-19 用于翻译的方法和装置

Country Status (1)

Country Link
CN (1) CN111488742B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001167A (zh) * 2020-08-26 2020-11-27 四川云从天府人工智能科技有限公司 一种标点符号添加方法、系统、设备和介质
CN112507733A (zh) * 2020-11-06 2021-03-16 昆明理工大学 基于依存图网络的汉越神经机器翻译方法
CN113343011A (zh) * 2021-06-19 2021-09-03 哈尔滨工业大学 一种基于两阶段注意力的多模态信息机器翻译方法
CN113642319A (zh) * 2021-07-29 2021-11-12 北京百度网讯科技有限公司 文本处理方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1578954A (zh) * 2001-10-29 2005-02-09 英国电讯有限公司 机器翻译
CN108563640A (zh) * 2018-04-24 2018-09-21 中译语通科技股份有限公司 一种多语言对的神经网络机器翻译方法及系统
WO2018191344A1 (en) * 2017-04-14 2018-10-18 Salesforce.Com, Inc. Neural machine translation with latent tree attention
CN109062907A (zh) * 2018-07-17 2018-12-21 苏州大学 融入依存关系的神经机器翻译方法
CN109492232A (zh) * 2018-10-22 2019-03-19 内蒙古工业大学 一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法
CN109558597A (zh) * 2018-12-17 2019-04-02 北京百度网讯科技有限公司 文本翻译方法及装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1578954A (zh) * 2001-10-29 2005-02-09 英国电讯有限公司 机器翻译
WO2018191344A1 (en) * 2017-04-14 2018-10-18 Salesforce.Com, Inc. Neural machine translation with latent tree attention
CN108563640A (zh) * 2018-04-24 2018-09-21 中译语通科技股份有限公司 一种多语言对的神经网络机器翻译方法及系统
CN109062907A (zh) * 2018-07-17 2018-12-21 苏州大学 融入依存关系的神经机器翻译方法
CN109492232A (zh) * 2018-10-22 2019-03-19 内蒙古工业大学 一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法
CN109558597A (zh) * 2018-12-17 2019-04-02 北京百度网讯科技有限公司 文本翻译方法及装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ASHISH VASWANI 等: "Attention Is All You Need", 《31ST CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS (NIPS 2017)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001167A (zh) * 2020-08-26 2020-11-27 四川云从天府人工智能科技有限公司 一种标点符号添加方法、系统、设备和介质
CN112507733A (zh) * 2020-11-06 2021-03-16 昆明理工大学 基于依存图网络的汉越神经机器翻译方法
CN113343011A (zh) * 2021-06-19 2021-09-03 哈尔滨工业大学 一种基于两阶段注意力的多模态信息机器翻译方法
CN113642319A (zh) * 2021-07-29 2021-11-12 北京百度网讯科技有限公司 文本处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111488742B (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
US11636264B2 (en) Stylistic text rewriting for a target author
US11093707B2 (en) Adversarial training data augmentation data for text classifiers
CN111488742B (zh) 用于翻译的方法和装置
US9373075B2 (en) Applying a genetic algorithm to compositional semantics sentiment analysis to improve performance and accelerate domain adaptation
US10592607B2 (en) Iterative alternating neural attention for machine reading
Ganegedara Natural Language Processing with TensorFlow: Teach language to machines using Python's deep learning library
CN109241286B (zh) 用于生成文本的方法和装置
US20180068221A1 (en) System and Method of Advising Human Verification of Machine-Annotated Ground Truth - High Entropy Focus
CN111680159A (zh) 数据处理方法、装置及电子设备
CN111709240A (zh) 实体关系抽取方法、装置、设备及其存储介质
US20190228074A1 (en) System for machine translation
CN109740167B (zh) 用于生成信息的方法和装置
JP7335300B2 (ja) 知識事前訓練モデルの訓練方法、装置及び電子機器
US11487971B2 (en) Multi-dimensional language style transfer
US20220245337A1 (en) Automated graph based information extraction
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN110795572A (zh) 一种实体对齐方法、装置、设备及介质
CN111400584A (zh) 联想词的推荐方法、装置、计算机设备和存储介质
CN114492661B (zh) 文本数据分类方法和装置、计算机设备、存储介质
CN112182255A (zh) 用于存储媒体文件和用于检索媒体文件的方法和装置
CN112307738B (zh) 用于处理文本的方法和装置
WO2020052060A1 (zh) 用于生成修正语句的方法和装置
CN112711943B (zh) 一种维吾尔文语种识别方法、装置及存储介质
CN110472241B (zh) 生成去冗余信息句向量的方法及相关设备
US10296585B2 (en) Assisted free form decision definition using rules vocabulary

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant