CN107590138B - 一种基于词性注意力机制的神经机器翻译方法 - Google Patents
一种基于词性注意力机制的神经机器翻译方法 Download PDFInfo
- Publication number
- CN107590138B CN107590138B CN201710711118.9A CN201710711118A CN107590138B CN 107590138 B CN107590138 B CN 107590138B CN 201710711118 A CN201710711118 A CN 201710711118A CN 107590138 B CN107590138 B CN 107590138B
- Authority
- CN
- China
- Prior art keywords
- speech
- word
- words
- vector
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于词性注意力机制的神经机器翻译方法,首先对源语言进行词性标注,然后对于编码器和解码器的输入,采用词性和词两部分向量级联构成;对于注意力机制,根据词性,在生成每个目标句子中的词时,只根据源句子中与该目标句子中的词具有相同词性的词,以及这些词周围一定数量的词。本发明引入了语义作为先验知识,将词性与词共同作为编码器与解码器的输入,从而增加了额外信息,词典外的词也仍然保留了词性信息。同时创新地提出了基于词性的注意力机制,提出了具有相同词性的词具有更大的对齐的概率的理论,与典型的神经机器翻译模型相比,拥有更好的针对性,对于机器翻译具有重要意义。
Description
技术领域
本发明提供一种基于词性注意力机制的神经机器翻译方法,涉及词性标注、神经机器翻译、定向搜索等核心技术。
背景技术
在信息时代,计算机技术高速发展,越来越多从事重复劳动人力可以被计算机替代,解放的人力可以从事更加具有创新新和挑战性的工作。几年来深度学习背景下人工智能的崛起更加加速了这一进程的实现。
机器翻译是人工智能研究的热点之一,基于深度学习的机器翻译系统称为神经机器翻译系统。相比于传统的统计机器翻译系统,神经机器翻译系统在翻译质量上有极为明显的优势。目前比较主流的神经机器翻译系统由编码器、解码器、注意力机制三部分组成,已经能将源语言较为流利地翻译为目标语言。如将中文翻译为英文,那么中文即是源语言,而英文是目标语言。
语言中包含了除了词语本身以外的额外信息,这些信息称为先验的语言学知识,目前主流的神经机器翻译系统没有用到这些重要信息,因此具有一定的局限性。
发明内容
本发明的目的在于针对现有技术的局限和不足,提供一种基于词性注意力机制的神经机器翻译方法,提高翻译精度和质量。
本发明的目的是通过以下技术方案来实现的:一种基于词性注意力机制的神经机器翻译方法,首先对源语言进行词性标注,然后对于编码器和解码器的输入,采用词性和词两部分向量级联构成;对于注意力机制,根据词性,在生成每个目标句子中的词时,只根据源句子中与该目标句子中的词具有相同词性的词,以及这些词周围一定数量的词。具体包括以下步骤:
(1)对原始语料进行预处理,剔除有明显错误的句子;统计每个词的出现频率,按照每个词的出现次数按由高到低的顺序对词进行排序;截取一定数量的词作为词典,并对词典中的词进行编号;
(2)利用人工或语言学工具对语料进行词性标注;
(3)统计每种词性出现的数量,按出现次数由高到低对词性进行排序,并对其编号;每个源语言中的句子表示为向量x=(x1,…,xm),m为源句子长度,其中xi为句子中第i个词的编号;每个目标语言中的句子表示为向量y=(y1,…,yn),n为目标句子长度;
(5)构建基于词性注意力机制的神经机器翻译模型,该模型包括三部分,编码器、解码器与注意力机制;编码器是一个双向循环神经网络(bi‐RNN);编码器的输入是每个词的词向量和词性向量的级联向量,对于词xi,其对应的级联向量为编码器的输出是循环神经网络的隐藏状态,表示为h=(h1,…,hq),q为神经网络隐藏状态的数量;解码器是一个循环神经网络,在第j步生成的隐藏状态的计算公式为:
其中分别表示目标句子中第j‐1个词的词向量和第j个词的词性向量;表示解码器在上一步生成的隐藏状态,f是一个计算函数,选自RNN单元、lstm单元或者GRU;表示上下文信息的向量,由注意力机制生成;注意力机制由两部分组成,第一部分是一个词性解码器,为循环神经网络,用来预测每个词的词性;该词性解码器第j步的隐藏状态的计算公式为:
其中分别表示目标句子中第j‐1个词的词向量和第j个词的词性向量;是词性解码器上一步的隐藏状态,fpos是一个计算函数,选自RNN单元、lstm单元或者GRU;cj是由一个典型的注意力机制生成的上下文向量,其计算公式为:
其中hi为编码器输出的第i个分量,m是源句子长度;αji的计算公式为:
其中exp是指数函数,eji的计算公式为:
注意力机制的第二部分是用来生成作为解码器输入的上下文向量 的计算是一个在隐藏状态上的加权平均;参与计算的只有一部分词,找到这些词的规则为:找到与目标句子中第j个词具有相同词性的源句子中的词,规定窗口长度D;对于每个找到的源句子中的词,假设其序号为k,则选择序号在[k-D,k+D]中的词作为参与计算的词,在计算了aji后,还需乘以高斯分布:
(6)计算每个目标句子中的词的生成概率,其计算公式为:
(7)对步骤(5)构建的神经机器翻译模型进行训练,训练的目标函数为:
其中xw,xpos为源句子的词序列与词性序列,yw,ypos为目标句子的词序列与词性序列;λ是平衡参数,θ是待训练参数;N为训练集中的源句子和目标句子对;目标函数包括两部分,前半部分为词的似然,记为Pw,后半部分为词性的似然,记为Ppos;
(8)在实际使用中,输入待翻译的源句子,使用定向搜索(Beam Search)寻找最优序列,将最优序列作为目标句子,其过程为,指定定向搜索的束大小B,在第j步时,每个推测候选的分数为上一步的推测分数与这一步词似然Pw与词性似然Ppos的和;每一步推测的候选的数量都约束为B。
本发明的有益效果是:本发明引入了语义作为先验知识,将词性与词共同作为编码器与解码器的输入,从而增加了额外信息,由于词性种类很少,因此超出词典的词仍然保留了词性信息。此外创新地提出了基于词性的注意力机制,提出了具有相同词性的词具有更大的对齐的概率的理论,与典型的神经机器翻译模型相比,拥有更好的针对性,对于机器翻译具有重要意义。
附图说明
图1是原始文章预处理的示意图;
图2是对词进行编号的示意图;
图3是对词性进行编号的示意图;
图4是训练模型过程的示意图。
具体实施方式
下面结合附图详细描述本发明,本发明的目的和效果将变得更加明显。
本发明提供的一种基于词性注意力机制的神经机器翻译方法,包括以下步骤:
(1)对原始语料进行预处理。如图1所示,剔除有明显错误的句子。统计每个词的出现频率,如图2所示,按照每个词的出现次数按由高到低的顺序对词进行排序。词典规模设定为50000,并对词典中的词进行编号。其中编号0为句子结束符号</s>,编号1为超出词典的词<unk>。因此,每个源语言中的句子可以表示为一个向量,x=(x1,…,xm),m为源句子长度,其中xi为句子中第i个词的编号。同样每个目标语言中的句子也可以表示为y=(y1,…,yn),n为目标句子长度。只保留长度小于等于80的句子。
(2)利用人工或语言学工具对语料进行词性标注。
(3)统计每种词性出现的数量,按出现次数由高到低对词性进行排序,并对其编号。本实施例中词性规定为8种:名词,动词,副词,符号,连词,形容词,数量词,感叹词。编号0为句子结束符号</s>,编号1为超出词典的词<unk>。如图3所示,对每个词的词性进行编号。
(4)根据词和词性的编号,构建其对应的向量,每个词、每个词性都对应一个独立的向量。词向量采用的是预先训练的Glove词向量。对于词xi,其对应的词向量表示为其对应的词性向量表示为词向量和词性向量维度均为300。
(5)构建基于词性注意力机制的神经机器翻译模型,该模型包括三部分,编码器、解码器与注意力机制。编码器是一个双向循环神经网络(bi‐RNN)。编码器的输入是每个词的词向量和词性向量的级联向量,对于词xi,其对应的级联向量为编码器的输出是循环神经网络的隐藏状态,表示为h=(h1,…,hq),q为神经网络隐藏状态的数量,设定为50。隐藏状态的维度为512。解码器是一个循环神经网络,在第j步生成的隐藏状态的计算公式为:
其中分别表示目标句子中第j‐1个词的词向量和第j个词的词性向量。表示解码器在上一步生成的隐藏状态,f是一个计算函数,可以是RNN单元,lstm单元或者GRU。表示上下文信息的向量,由注意力机制生成。注意力机制由两部分组成,第一部分是一个词性解码器,为循环神经网络,用来预测每个词的词性。这个词性解码器第j步的隐藏状态的计算公式为:
其中分别表示目标句子中第j‐1个词的词向量和第j个词的词性向量。是词性解码器上一步的隐藏状态,fpos是一个计算函数,可以是RNN单元,lstm单元或者GRU。cj是由一个典型的注意力机制生成的上下文向量,其计算公式为:
其中hi为编码器输出的第i个分量,m是源句子长度。αji的计算公式为:
其中exp是指数函数,eji的计算公式为:
注意力机制的第二部分是用来生成作为解码器输入的上下文向量 的计算是一个在隐藏状态上的加权平均。参与计算的只有一部分词,找到这些词的规则为:找到与目标句子中第j个词具有相同词性的源句子中的词,规定窗口长度D。对于每个找到的源句子中的词,假设其序号为k,则选择序号在[k-D,k+D]中的词作为参与计算的词,在计算了aji后,还需乘以高斯分布:
对于源句子中没有相同词性的词的情况,或目标句子中词的磁性为<unk>的情况,则源句子中所有词均参与计算。
(6)计算每个目标句子中的词的生成概率,其计算公式为:
(7)训练部分的目标函数为
其中xw,xpos为源句子的词序列与词性序列,yw,ypos为目标句子的词序列与词性序列。λ是平衡参数,本实施例中选取为1,θ是待训练参数。N为训练集中的源句子和目标句子对;
网络中所有参数初始化为[‐0.01,0.01]的随机数。训练过程中编码器采用层归一化(Layer Normalization)进行优化。
在编码器的输入层和计算似然前使用dropout技术,dropout参数为0.2。
训练函数包括两部分,前半部分为词的似然,记为Pw,后半部分为词性的似然,记为Ppos。
如图4所示,使用Adam对网络进行训练。通过交叉验证寻找最优的参数组合。训练过程中批规模为64,每一个批中的源句子长度均相同。使用梯度裁剪技术,保证梯度的范围为[‐5,5]。
(8)在实际使用中,输入待翻译的源句子,使用定向搜索(Beam Search)寻找最优的序列,将最优序列作为目标句子,其过程为,指定定向搜索的束大小B=12,在第j步时,每个推测候选的分数为上一步的推测分数与这一步词似然Pw与词性似然Ppos的和。每一步推测的候选的数量都约束为12。
Claims (1)
1.一种基于词性注意力机制的神经机器翻译方法,其特征在于,该方法包括以下步骤:
(1)对原始语料进行预处理,剔除有明显错误的句子;统计每个词的出现频率,按照每个词的出现次数按由高到低的顺序对词进行排序;截取一定数量的词作为词典,并对词典中的词进行编号;
(2)利用人工或语言学工具对语料进行词性标注;
(3)统计每种词性出现的数量,按出现次数由高到低对词性进行排序,并对其编号;每个源语言中的句子表示为向量x=(x1,…,xi,…,xm),m为源句子长度,其中xi为句子中第i个词的编号;每个目标语言中的句子表示为向量y=(y1,…,yn),n为目标句子长度;
(5)构建基于词性注意力机制的神经机器翻译模型,该模型包括三部分,编码器、解码器与注意力机制;编码器是一个双向循环神经网络bi-RNN;编码器的输入是每个词的词向量和词性向量的级联向量,对于词xi,其对应的级联向量为编码器的输出是循环神经网络的隐藏状态,表示为h=(h1,…,hq),q为神经网络隐藏状态的数量;解码器是一个循环神经网络,在第j步生成的隐藏状态的计算公式为:
其中分别表示目标句子中第j-1个词的词向量和第j个词的词性向量;表示解码器在上一步生成的隐藏状态,f是一个计算函数,选自RNN单元、lstm单元或者GRU;表示上下文信息的向量,由注意力机制生成;注意力机制由两部分组成,第一部分是一个词性解码器,为循环神经网络,用来预测每个词的词性;该词性解码器第j步的隐藏状态的计算公式为:
其中分别表示目标句子中第j-1个词的词向量和第j个词的词性向量;是词性解码器上一步的隐藏状态,fpos是一个计算函数,选自RNN单元、lstm单元或者GRU;cj是由一个典型的注意力机制生成的上下文向量,其计算公式为:
其中hi为编码器输出的第i个分量,m是源句子长度;αji的计算公式为:
其中exp是指数函数,eji的计算公式为:
注意力机制的第二部分是用来生成作为解码器输入的上下文向量 的计算是一个在隐藏状态上的加权平均;参与计算的只有一部分词,找到这些词的规则为:找到与目标句子中第j个词具有相同词性的源句子中的词,规定窗口长度D;对于每个找到的源句子中的词,假设其序号为k,则选择序号在[k-D,k+D]中的词作为参与计算的词,在计算了aji后,还需乘以高斯分布:
(6)计算每个目标句子中的词的生成概率,其计算公式为:
(7)对步骤(5)构建的神经机器翻译模型进行训练,训练的目标函数为:
其中xw,xpos为源句子的词序列与词性序列,yw,ypos为目标句子的词序列与词性序列;λ是平衡参数,θ是待训练参数;N为训练集中的源句子和目标句子对;目标函数包括两部分,前半部分为词的似然,记为Pw,后半部分为词性的似然,记为Ppos;
(8)在实际使用中,输入待翻译的源句子,使用定向搜索Beam Search寻找最优序列,将最优序列作为目标句子,其过程为,指定定向搜索的束大小B,在第j步时,每个推测候选的分数为上一步的推测分数与这一步词似然Pw与词性似然Ppos的和;每一步推测的候选的数量都约束为B。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710711118.9A CN107590138B (zh) | 2017-08-18 | 2017-08-18 | 一种基于词性注意力机制的神经机器翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710711118.9A CN107590138B (zh) | 2017-08-18 | 2017-08-18 | 一种基于词性注意力机制的神经机器翻译方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107590138A CN107590138A (zh) | 2018-01-16 |
CN107590138B true CN107590138B (zh) | 2020-01-31 |
Family
ID=61042491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710711118.9A Active CN107590138B (zh) | 2017-08-18 | 2017-08-18 | 一种基于词性注意力机制的神经机器翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107590138B (zh) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108416349A (zh) * | 2018-01-30 | 2018-08-17 | 顺丰科技有限公司 | 识别纠偏系统及方法 |
CN108197123A (zh) * | 2018-02-07 | 2018-06-22 | 云南衍那科技有限公司 | 一种基于智能手表的云翻译系统和方法 |
CN110134971B (zh) * | 2018-02-08 | 2022-12-16 | 腾讯科技(深圳)有限公司 | 一种机器翻译的方法、设备以及计算机可读存储介质 |
CN108304587B (zh) * | 2018-03-07 | 2020-10-27 | 中国科学技术大学 | 一种社区问答平台回答排序方法 |
CN108549644A (zh) * | 2018-04-12 | 2018-09-18 | 苏州大学 | 面向神经机器翻译的省略代词翻译方法 |
CN108549646B (zh) * | 2018-04-24 | 2022-04-15 | 中译语通科技股份有限公司 | 一种基于胶囊的神经网络机器翻译系统、信息数据处理终端 |
CN108874785B (zh) * | 2018-06-01 | 2020-11-03 | 清华大学 | 一种翻译处理方法及系统 |
CN108804677B (zh) * | 2018-06-12 | 2021-08-31 | 合肥工业大学 | 结合多层级注意力机制的深度学习问题分类方法及系统 |
CN108984535B (zh) * | 2018-06-25 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 语句翻译的方法、翻译模型训练的方法、设备及存储介质 |
CN108959512B (zh) * | 2018-06-28 | 2022-04-29 | 清华大学 | 一种基于属性增强注意力模型的图像描述网络及技术 |
CN109145290B (zh) * | 2018-07-25 | 2020-07-07 | 东北大学 | 基于字向量与自注意力机制的语义相似度计算方法 |
CN109241522B (zh) * | 2018-08-02 | 2023-04-07 | 义语智能科技(上海)有限公司 | 编码解码方法及设备 |
CN109190091B (zh) * | 2018-08-02 | 2023-03-24 | 义语智能科技(上海)有限公司 | 编码解码方法及设备 |
CN110147554B (zh) * | 2018-08-24 | 2023-08-22 | 腾讯科技(深圳)有限公司 | 同声翻译方法、装置和计算机设备 |
CN109214003B (zh) * | 2018-08-29 | 2019-08-09 | 陕西师范大学 | 基于多层注意力机制的循环神经网络生成标题的方法 |
CN110941705B (zh) * | 2018-09-20 | 2023-04-07 | 阿里巴巴集团控股有限公司 | 干扰信息去除方法、去干扰模型组件及垃圾文本识别系统 |
CN109508457B (zh) * | 2018-10-31 | 2020-05-29 | 浙江大学 | 一种基于机器阅读到序列模型的迁移学习方法 |
CN109299470B (zh) * | 2018-11-01 | 2024-02-09 | 成都数联铭品科技有限公司 | 文本公告中触发词的抽取方法及系统 |
CN109598002A (zh) * | 2018-11-15 | 2019-04-09 | 重庆邮电大学 | 基于双向循环神经网络的神经机器翻译方法和系统 |
CN109635109B (zh) * | 2018-11-28 | 2022-12-16 | 华南理工大学 | 基于lstm并结合词性及多注意力机制的句子分类方法 |
CN109902309B (zh) * | 2018-12-17 | 2023-06-02 | 北京百度网讯科技有限公司 | 翻译方法、装置、设备和存储介质 |
CN109558605B (zh) * | 2018-12-17 | 2022-06-10 | 北京百度网讯科技有限公司 | 用于翻译语句的方法和装置 |
CN109992774A (zh) * | 2019-03-25 | 2019-07-09 | 北京理工大学 | 基于词属性注意力机制的关键短语识别方法 |
CN110188348B (zh) * | 2019-05-07 | 2023-05-19 | 南京邮电大学 | 一种基于深度神经网络的中文语言处理模型及方法 |
CN110852116B (zh) * | 2019-11-07 | 2021-08-31 | 腾讯科技(深圳)有限公司 | 非自回归神经机器翻译方法、装置、计算机设备和介质 |
CN112417897B (zh) * | 2020-11-30 | 2023-04-07 | 上海携旅信息技术有限公司 | 词对齐模型训练、文本处理的方法、系统、设备和介质 |
CN113113000B (zh) * | 2021-04-06 | 2022-05-13 | 重庆邮电大学 | 基于自适应掩膜和分组线性变换的轻量级语音识别方法 |
CN113392656A (zh) * | 2021-06-18 | 2021-09-14 | 电子科技大学 | 一种融合推敲网络和字符编码的神经机器翻译方法 |
CN113836950B (zh) * | 2021-09-22 | 2024-04-02 | 广州华多网络科技有限公司 | 商品标题文本翻译方法及其装置、设备与介质 |
CN113705576B (zh) * | 2021-11-01 | 2022-03-25 | 江西中业智能科技有限公司 | 一种文本识别方法、装置、可读存储介质及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106328122A (zh) * | 2016-08-19 | 2017-01-11 | 深圳市唯特视科技有限公司 | 一种利用长短期记忆模型递归神经网络的语音识别方法 |
CN106663092A (zh) * | 2014-10-24 | 2017-05-10 | 谷歌公司 | 具有罕见词处理的神经机器翻译系统 |
CN106776578A (zh) * | 2017-01-03 | 2017-05-31 | 竹间智能科技(上海)有限公司 | 用于提升对话系统对话性能的方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7711545B2 (en) * | 2003-07-02 | 2010-05-04 | Language Weaver, Inc. | Empirical methods for splitting compound words with application to machine translation |
US7200550B2 (en) * | 2004-11-04 | 2007-04-03 | Microsoft Corporation | Projecting dependencies to generate target language dependency structure |
-
2017
- 2017-08-18 CN CN201710711118.9A patent/CN107590138B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106663092A (zh) * | 2014-10-24 | 2017-05-10 | 谷歌公司 | 具有罕见词处理的神经机器翻译系统 |
CN106328122A (zh) * | 2016-08-19 | 2017-01-11 | 深圳市唯特视科技有限公司 | 一种利用长短期记忆模型递归神经网络的语音识别方法 |
CN106776578A (zh) * | 2017-01-03 | 2017-05-31 | 竹间智能科技(上海)有限公司 | 用于提升对话系统对话性能的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107590138A (zh) | 2018-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107590138B (zh) | 一种基于词性注意力机制的神经机器翻译方法 | |
CN110222349B (zh) | 一种深度动态上下文词语表示的方法及计算机 | |
CN108763504B (zh) | 一种基于强化双通道序列学习的对话回复生成方法及系统 | |
CN108628823B (zh) | 结合注意力机制和多任务协同训练的命名实体识别方法 | |
Liu et al. | An end-to-end trainable neural network model with belief tracking for task-oriented dialog | |
CN107273913B (zh) | 一种基于多特征融合的短文本相似度计算方法 | |
CN110188348B (zh) | 一种基于深度神经网络的中文语言处理模型及方法 | |
CN111428490B (zh) | 一种利用语言模型的指代消解弱监督学习方法 | |
CN110085215A (zh) | 一种基于生成对抗网络的语言模型数据增强方法 | |
Chen et al. | Exploiting future word contexts in neural network language models for speech recognition | |
Chien et al. | Self Attention in Variational Sequential Learning for Summarization. | |
CN111353040A (zh) | 基于gru的属性级别情感分析方法 | |
Deri et al. | How to make a frenemy: Multitape FSTs for portmanteau generation | |
Labeau et al. | Character and subword-based word representation for neural language modeling prediction | |
CN117494727B (zh) | 用于大语言模型的去偏倚方法 | |
Chen et al. | g2pw: A conditional weighted softmax bert for polyphone disambiguation in mandarin | |
CN112560440B (zh) | 一种基于深度学习的面向方面级情感分析的句法依赖方法 | |
Seilsepour et al. | Self-supervised sentiment classification based on semantic similarity measures and contextual embedding using metaheuristic optimizer | |
Kim et al. | Randomly wired network based on RoBERTa and dialog history attention for response selection | |
Xiong et al. | Neural contextual conversation learning with labeled question-answering pairs | |
Han et al. | Lexicalized neural unsupervised dependency parsing | |
CN110717022A (zh) | 一种机器人对话生成方法、装置、可读存储介质及机器人 | |
Baas et al. | Transfusion: Transcribing speech with multinomial diffusion | |
Nguyen et al. | Neural sequence labeling for Vietnamese POS tagging and NER | |
Dang et al. | TDP–A hybrid diacritic restoration with transformer decoder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |