CN108549646A - 一种基于胶囊的神经网络机器翻译系统、信息数据处理终端 - Google Patents
一种基于胶囊的神经网络机器翻译系统、信息数据处理终端 Download PDFInfo
- Publication number
- CN108549646A CN108549646A CN201810371528.8A CN201810371528A CN108549646A CN 108549646 A CN108549646 A CN 108549646A CN 201810371528 A CN201810371528 A CN 201810371528A CN 108549646 A CN108549646 A CN 108549646A
- Authority
- CN
- China
- Prior art keywords
- neural network
- capsule
- network machine
- word
- interpretation method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Abstract
本发明属于计算机软件技术领域,公开了一种基于胶囊的神经网络机器翻译系统、信息数据处理终端,所述基于胶囊的神经网络机器翻译方法包括:把词映射得到高维向量空间得到词向量,得到结合语料中额外信息的词向量,同时结合词的位置信息;接收上下文向量,得到到目标语言的词向量,通过词典得到目标语言词汇。本发明通过改变神经网络内部结构,通过胶囊层改进后的词嵌入层可以学习到语料中额外的信息,使得原文和译文中所对应的词更加紧密了。原文和译文中带有类似额外信息的词在词向量空间中的距离更加紧密。
Description
技术领域
本发明属于计算机软件技术领域,尤其涉及一种基于胶囊的神经网络机器翻译系统、信息数据处理终端。
背景技术
目前,业内常用的现有技术是这样的:机器翻译是一种利用机器学习的技术将一种自然语言翻译成另外一种自然语言的过程。作为计算语言学的一个重要分支,它涉及认知科学、语言学等学科,是人工智能的终极目标之一。现有主流的机器翻译模型是使用基于自注意力机制的编码-解码结构,由编码器和解码器组成。二者均以自注意力层为主。翻译流程主要包括:首先把输入的词映射到高维的向量空间得到词向量,再把词向量输入到编码器,通过自注意力机制得到上下文向量,解码器再根据上下文向量和自注意力机制,通过softmax层输出到目标语言的词向量空间。最后通过词典得到目标语言词汇。现有工业界的通用机器翻译系统大多只是使用双语平行语料,并未额外使用语料中的句法和词性等信息。其主要原因在于两点:第一,使用语料中的句法和词性等信息的前提是在于已提取句法和词性等信息,而提取这类信息既耗费时间,也不能保证很高的准确率;第二,现有加入句法和词性等信息的发放中,大多会使得模型更加复杂,训练以及解码的时间成本更高,难以满足用户的需求。而双语平行语料中可提取的信息十分丰富,但并没有得到更好的利用。例如双语平行语料中的词性信息,可让原文和译文中相同词性的词有了更紧密的联系。同样的,这也拉近了原文和译文中主谓宾的距离。有效地利用双语平行语料中额外的信息,可以有效避免一些人名和数字的错翻漏翻等问题。
综上所述,现有技术存在的问题是:现有工业界的通用机器翻译系统大多只是使用双语平行语料,并未额外使用语料中的句法和词性等信息。
解决上述技术问题的难度和意义:使用语料中的句法和词性等信息的前提是在于已提取句法和词性等信息,而提取这类信息既耗费时间,也不能保证很高的准确率;现有加入句法和词性等信息的发放中,大多会使得模型更加复杂,训练以及解码的时间成本更高,难以满足用户的需求。
发明内容
针对现有技术存在的问题,本发明提供了一种基于胶囊的神经网络机器翻译系统、信息数据处理终端。
本发明是这样实现的,一种基于胶囊的神经网络机器翻译方法,所述基于胶囊的神经网络机器翻译方法包括:把词映射得到高维向量空间得到词向量,得到结合语料中额外信息的词向量,同时结合词的位置信息;接收上下文向量,得到到目标语言的词向量,通过词典得到目标语言词汇。
进一步,所述得到高维向量空间得到词向量的方法具体包括:
其中bij初始化为0。
所述基于胶囊的神经网络机器翻译方法进一步包括:
点乘注意力:
多头注意力:
MultiHead(Q,K,V)=Concat(head1,...,headn);
其中,Q,K,V均为词向量;
前馈神经网络:
FFN(x)=max(0,xW1+b1)W2+b2。
进一步,所述通过词典得到目标语言词汇具体包括:
其中,θi为权重参数,k为目标语言词表的大小。
本发明的另一目的在于提供一种所述基于胶囊的神经网络机器翻译方法的基于胶囊的神经网络机器翻译系统,所述基于胶囊的神经网络机器翻译系统包括:
编码器,用于把词映射得到高维向量空间得到词向量,通过胶囊层得到结合语料中额外信息的词向量,同时结合词的位置信息,作为编码器的输入;
解码器,用于接收编码器的上下文向量。
本发明的另一目的在于提供一种实现所述基于胶囊的神经网络机器翻译方法的计算机程序。
本发明的另一目的在于提供一种实现所述基于胶囊的神经网络机器翻译方法的信息数据处理终端。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的基于胶囊的神经网络机器翻译方法。
综上所述,本发明的优点及积极效果为:本发明通过改变神经网络内部结构,通过胶囊层改进后的词嵌入层可以学习到语料中额外的信息,使得原文和译文中所对应的词更加紧密了。原文和译文中带有类似额外信息的词在词向量空间中的距离更加紧密。
现有利用语料中额外信息的方法中,均需要使用传统方法从语料中提取额外的信息,不但需要花费更多的时间,而且没有很高的准确率,由于并不在一个模型中训练,两个模型之间的适应程度也并不能保证。但是,本发明改进的模型结构可并行计算程度高,虽然使得模型更加复杂,但是使用可高并行计算的图形显卡(GPU),并未增加很多时间上的消耗。同时,在同一个模型中训练,其适应性就无须担心。一个模型即可解决在神经网络机器翻译中利用额外的语料信息,工程上也更加简洁便捷。
附图说明
图1是本发明实施例提供的基于胶囊的神经网络机器翻译系统结构示意图;
图中:1、编码器;2、解码器。
图2是本发明实施例提供的基于胶囊的神经网络机器翻译方法流程图。
图3是本发明实施例提供的基于胶囊和自注意力的编码-解码神经网络模型示意图。
图4是本发明实施例提供的基于胶囊层的词嵌入层示意图。
图5是本发明实施例提供的自注意力层示意图;
图中:(a)点乘注意力;(b)多头注意力层。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明基于胶囊的神经网络机器翻译系统可以较好地在模型内部提取语料中额外的信息,并不耗费额外的预处理时间。并且,由于集成在神经网络机器翻译模型的内部,不受外部标注模型的影响,对于翻译模型的适应性更佳。
如图1所示,本发明实施例提供的基于胶囊的神经网络机器翻译系统包括:编码器1、解码器2。
编码器1,用于把词映射得到高维向量空间得到词向量,通过胶囊层得到结合语料中额外信息的词向量,同时结合词的位置信息,作为编码器的输入;
解码器2,用于接收编码器1的上下文向量。
如图2所示,本发明实施例提供的基于胶囊的神经网络机器翻译方法包括以下步骤:
S101:用把词映射得到高维向量空间得到词向量,得到结合语料中额外信息的词向量,同时结合词的位置信息;
S102:接收上下文向量,得到到目标语言的词向量,通过词典得到目标语言词汇。
下面结合附图对本发明的应用原理作进一步的描述。
胶囊层如图4,其具体计算如下:
其中bij初始化为0;
编码器和解码器均主要由自注意力层组成,如图5。其具体计算如下:点乘注意力:
多头注意力:
MultiHead(Q,K,V)=Concat(head1,...,headn);
其中,Q,K,V均为词向量,Concat是指把向量拼接起来。
前馈神经网络:
FFN(x)=max(0,xW1+b1)W2+b2;
最后通过softmax得到目标语言的词向量,再通过词典得到目标语言词汇。其计算如下:
其中,θi为权重参数,k为目标语言词表的大小。
如图1所示,本发明实施例提供的基于胶囊的神经网络机器翻译系统包括:编码器1、解码器2。
编码器1,用于把词映射得到高维向量空间得到词向量,通过胶囊层得到结合语料中额外信息的词向量,同时结合词的位置信息,作为编码器的输入;
解码器2,用于接收编码器1的上下文向量。
如图2所示,本发明实施例提供的基于胶囊的神经网络机器翻译方法包括以下步骤:
S101:用把词映射得到高维向量空间得到词向量,得到结合语料中额外信息的词向量,同时结合词的位置信息;
S102:接收上下文向量,得到到目标语言的词向量,通过词典得到目标语言词汇。
下面结合附图对本发明的应用原理作进一步的描述。
胶囊层如图4,其具体计算如下:
其中bij初始化为0;
编码器和解码器均主要由自注意力层组成,如图5。其具体计算如下:点乘注意力:
多头注意力:
MultiHead(Q,K,V)=Concat(head1,...,headn);
其中,Q,K,V均为词向量,Concat是指把向量拼接起来。
前馈神经网络:
FFN(x)=max(0,xW1+b1)W2+b2;
最后通过softmax得到目标语言的词向量,再通过词典得到目标语言词汇。其计算如下:
其中,θi为权重参数,k为目标语言词表的大小。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于胶囊的神经网络机器翻译方法,其特征在于,所述基于胶囊的神经网络机器翻译方法包括:把词映射得到高维向量空间得到词向量,得到结合语料中额外信息的词向量,同时结合词的位置信息;接收上下文向量,得到到目标语言的词向量,通过词典得到目标语言词汇。
2.如权利要求1所述的基于胶囊的神经网络机器翻译方法,其特征在于,所述得到高维向量空间得到词向量的方法具体包括:
其中bij初始化为0。
3.如权利要求1所述的基于胶囊的神经网络机器翻译方法,其特征在于,所述基于胶囊的神经网络机器翻译方法进一步包括:
点乘注意力:
多头注意力:
MultiHead(Q,K,V)=Concat(head1,...,headn);
其中,Q,K,V均为词向量;
前馈神经网络:
FFN(x)=max(O,xW1+b1)W2+b2。
4.如权利要求1所述的基于胶囊的神经网络机器翻译方法,其特征在于,所述通过词典得到目标语言词汇具体包括:
其中,θi为权重参数,k为目标语言词表的大小。
5.一种如权利要求1所述基于胶囊的神经网络机器翻译方法的基于胶囊的神经网络机器翻译系统,其特征在于,所述基于胶囊的神经网络机器翻译系统包括:
编码器,用于把词映射得到高维向量空间得到词向量,通过胶囊层得到结合语料中额外信息的词向量,同时结合词的位置信息,作为编码器的输入;
解码器,用于接收编码器的上下文向量。
6.一种实现权利要求1~4任意一项所述基于胶囊的神经网络机器翻译方法的计算机程序。
7.一种实现权利要求1~4任意一项所述基于胶囊的神经网络机器翻译方法的信息数据处理终端。
8.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-4任意一项所述的基于胶囊的神经网络机器翻译方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810371528.8A CN108549646B (zh) | 2018-04-24 | 2018-04-24 | 一种基于胶囊的神经网络机器翻译系统、信息数据处理终端 |
PCT/CN2018/114017 WO2019205564A1 (zh) | 2018-04-24 | 2018-11-05 | 一种基于胶囊的神经网络机器翻译系统、信息数据处理终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810371528.8A CN108549646B (zh) | 2018-04-24 | 2018-04-24 | 一种基于胶囊的神经网络机器翻译系统、信息数据处理终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108549646A true CN108549646A (zh) | 2018-09-18 |
CN108549646B CN108549646B (zh) | 2022-04-15 |
Family
ID=63512218
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810371528.8A Active CN108549646B (zh) | 2018-04-24 | 2018-04-24 | 一种基于胶囊的神经网络机器翻译系统、信息数据处理终端 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108549646B (zh) |
WO (1) | WO2019205564A1 (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109446534A (zh) * | 2018-09-21 | 2019-03-08 | 清华大学 | 机器翻译方法及装置 |
CN109543195A (zh) * | 2018-11-19 | 2019-03-29 | 腾讯科技(深圳)有限公司 | 一种文本翻译的方法、信息处理的方法以及装置 |
WO2019205564A1 (zh) * | 2018-04-24 | 2019-10-31 | 中译语通科技股份有限公司 | 一种基于胶囊的神经网络机器翻译系统、信息数据处理终端 |
CN110969549A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 一种司法数据处理方法及系统 |
CN111259142A (zh) * | 2020-01-14 | 2020-06-09 | 华南师范大学 | 基于注意力编码和图卷积网络的特定目标情感分类方法 |
CN112288075A (zh) * | 2020-09-29 | 2021-01-29 | 华为技术有限公司 | 一种数据处理方法及相关设备 |
CN112308089A (zh) * | 2019-07-29 | 2021-02-02 | 西南科技大学 | 一种基于注意力机制的胶囊网络多特征提取方法 |
US11455527B2 (en) | 2019-06-14 | 2022-09-27 | International Business Machines Corporation | Classification of sparsely labeled text documents while preserving semantics |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111814469B (zh) * | 2020-07-13 | 2023-07-18 | 北京邮电大学 | 一种基于树型胶囊网络的关系抽取方法及装置 |
CN112883149B (zh) * | 2021-01-20 | 2024-03-26 | 华为技术有限公司 | 一种自然语言处理方法以及装置 |
CN114626363B (zh) * | 2022-05-16 | 2022-09-13 | 天津大学 | 一种基于翻译的跨语言短语结构分析方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104955388A (zh) * | 2012-11-13 | 2015-09-30 | 艾欧敏达有限公司 | 采用时空划分的神经生理学数据分析 |
CN106817144A (zh) * | 2017-01-18 | 2017-06-09 | 上海洪洋通信科技有限公司 | 多维度机器人系统 |
CN107590138A (zh) * | 2017-08-18 | 2018-01-16 | 浙江大学 | 一种基于词性注意力机制的神经机器翻译方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105068998B (zh) * | 2015-07-29 | 2017-12-15 | 百度在线网络技术(北京)有限公司 | 基于神经网络模型的翻译方法及装置 |
CN106339371B (zh) * | 2016-08-30 | 2019-04-30 | 齐鲁工业大学 | 一种基于词向量的英汉词义映射方法和装置 |
CN107766337A (zh) * | 2017-09-25 | 2018-03-06 | 沈阳航空航天大学 | 基于深度语义关联的译文预测方法 |
CN108549646B (zh) * | 2018-04-24 | 2022-04-15 | 中译语通科技股份有限公司 | 一种基于胶囊的神经网络机器翻译系统、信息数据处理终端 |
-
2018
- 2018-04-24 CN CN201810371528.8A patent/CN108549646B/zh active Active
- 2018-11-05 WO PCT/CN2018/114017 patent/WO2019205564A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104955388A (zh) * | 2012-11-13 | 2015-09-30 | 艾欧敏达有限公司 | 采用时空划分的神经生理学数据分析 |
CN106817144A (zh) * | 2017-01-18 | 2017-06-09 | 上海洪洋通信科技有限公司 | 多维度机器人系统 |
CN107590138A (zh) * | 2017-08-18 | 2018-01-16 | 浙江大学 | 一种基于词性注意力机制的神经机器翻译方法 |
Non-Patent Citations (2)
Title |
---|
ASHISH VASWANI ET AL.: "Attention Is All You Need", 《31ST CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS (NIPS 2017), LONG BEACH, CA, USA.》 * |
SARA SABOUR ET AL.: "Dynamic Routing Between Capsules", 《31ST CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS (NIPS 2017), LONG BEACH, CA, USA.》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019205564A1 (zh) * | 2018-04-24 | 2019-10-31 | 中译语通科技股份有限公司 | 一种基于胶囊的神经网络机器翻译系统、信息数据处理终端 |
CN109446534A (zh) * | 2018-09-21 | 2019-03-08 | 清华大学 | 机器翻译方法及装置 |
CN109446534B (zh) * | 2018-09-21 | 2020-07-31 | 清华大学 | 机器翻译方法及装置 |
CN110969549A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 一种司法数据处理方法及系统 |
CN110969549B (zh) * | 2018-09-30 | 2023-08-25 | 北京国双科技有限公司 | 一种司法数据处理方法及系统 |
CN111428516A (zh) * | 2018-11-19 | 2020-07-17 | 腾讯科技(深圳)有限公司 | 一种信息处理的方法以及装置 |
CN109543195A (zh) * | 2018-11-19 | 2019-03-29 | 腾讯科技(深圳)有限公司 | 一种文本翻译的方法、信息处理的方法以及装置 |
CN109543195B (zh) * | 2018-11-19 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 一种文本翻译的方法、信息处理的方法以及装置 |
CN111428516B (zh) * | 2018-11-19 | 2022-08-19 | 腾讯科技(深圳)有限公司 | 一种信息处理的方法以及装置 |
US11455527B2 (en) | 2019-06-14 | 2022-09-27 | International Business Machines Corporation | Classification of sparsely labeled text documents while preserving semantics |
CN112308089A (zh) * | 2019-07-29 | 2021-02-02 | 西南科技大学 | 一种基于注意力机制的胶囊网络多特征提取方法 |
CN111259142A (zh) * | 2020-01-14 | 2020-06-09 | 华南师范大学 | 基于注意力编码和图卷积网络的特定目标情感分类方法 |
CN112288075A (zh) * | 2020-09-29 | 2021-01-29 | 华为技术有限公司 | 一种数据处理方法及相关设备 |
CN112288075B (zh) * | 2020-09-29 | 2024-02-02 | 华为技术有限公司 | 一种数据处理方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2019205564A1 (zh) | 2019-10-31 |
CN108549646B (zh) | 2022-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108549646A (zh) | 一种基于胶囊的神经网络机器翻译系统、信息数据处理终端 | |
CN112487182B (zh) | 文本处理模型的训练方法、文本处理方法及装置 | |
WO2021233112A1 (zh) | 基于多模态机器学习的翻译方法、装置、设备及存储介质 | |
US11150875B2 (en) | Automated content editor | |
CN111126068A (zh) | 一种中文命名实体识别方法和装置及电子设备 | |
CN110175336B (zh) | 翻译方法、装置和电子设备 | |
Lin et al. | Automatic translation of spoken English based on improved machine learning algorithm | |
CN111931517A (zh) | 文本翻译方法、装置、电子设备以及存储介质 | |
US20210056742A1 (en) | Align-to-ground, weakly supervised phrase grounding guided by image-caption alignment | |
CN111881292B (zh) | 一种文本分类方法及装置 | |
CN114912450B (zh) | 信息生成方法与装置、训练方法、电子设备和存储介质 | |
WO2023173555A1 (zh) | 模型的训练方法、文本分类方法和装置、设备、介质 | |
Sun et al. | Study on medical image report generation based on improved encoding-decoding method | |
Gao et al. | Generating natural adversarial examples with universal perturbations for text classification | |
Li et al. | Text steganalysis based on capsule network with dynamic routing | |
US20230123328A1 (en) | Generating cascaded text formatting for electronic documents and displays | |
Ma et al. | E2timt: Efficient and effective modal adapter for text image machine translation | |
CN116662924A (zh) | 基于双通道与注意力机制的方面级多模态情感分析方法 | |
CN115982363A (zh) | 基于提示学习的小样本关系分类方法、系统、介质及电子设备 | |
Song et al. | Question Difficulty Estimation Based on Attention Model for Question Answering | |
CN113609873A (zh) | 翻译模型训练方法、装置及介质 | |
CN113591493A (zh) | 翻译模型的训练方法及翻译模型的装置 | |
CN112732913B (zh) | 一种非均衡样本的分类方法、装置、设备及存储介质 | |
Zeng et al. | ALBERT for Hate Speech and Offensive Content Identification. | |
Chong | Design and implementation of English grammar error correction system based on deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |