CN108549646B - 一种基于胶囊的神经网络机器翻译系统、信息数据处理终端 - Google Patents
一种基于胶囊的神经网络机器翻译系统、信息数据处理终端 Download PDFInfo
- Publication number
- CN108549646B CN108549646B CN201810371528.8A CN201810371528A CN108549646B CN 108549646 B CN108549646 B CN 108549646B CN 201810371528 A CN201810371528 A CN 201810371528A CN 108549646 B CN108549646 B CN 108549646B
- Authority
- CN
- China
- Prior art keywords
- capsule
- neural network
- words
- obtaining
- machine translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明属于计算机软件技术领域,公开了一种基于胶囊的神经网络机器翻译系统、信息数据处理终端,所述基于胶囊的神经网络机器翻译方法包括:把词映射得到高维向量空间得到词向量,得到结合语料中额外信息的词向量,同时结合词的位置信息;接收上下文向量,得到到目标语言的词向量,通过词典得到目标语言词汇。本发明通过改变神经网络内部结构,通过胶囊层改进后的词嵌入层可以学习到语料中额外的信息,使得原文和译文中所对应的词更加紧密了。原文和译文中带有类似额外信息的词在词向量空间中的距离更加紧密。
Description
技术领域
本发明属于计算机软件技术领域,尤其涉及一种基于胶囊的神经网络机器翻译系统、信息数据处理终端。
背景技术
目前,业内常用的现有技术是这样的:机器翻译是一种利用机器学习的技术将一种自然语言翻译成另外一种自然语言的过程。作为计算语言学的一个重要分支,它涉及认知科学、语言学等学科,是人工智能的终极目标之一。现有主流的机器翻译模型是使用基于自注意力机制的编码-解码结构,由编码器和解码器组成。二者均以自注意力层为主。翻译流程主要包括:首先把输入的词映射到高维的向量空间得到词向量,再把词向量输入到编码器,通过自注意力机制得到上下文向量,解码器再根据上下文向量和自注意力机制,通过softmax层输出到目标语言的词向量空间。最后通过词典得到目标语言词汇。现有工业界的通用机器翻译系统大多只是使用双语平行语料,并未额外使用语料中的句法和词性等信息。其主要原因在于两点:第一,使用语料中的句法和词性等信息的前提是在于已提取句法和词性等信息,而提取这类信息既耗费时间,也不能保证很高的准确率;第二,现有加入句法和词性等信息的发放中,大多会使得模型更加复杂,训练以及解码的时间成本更高,难以满足用户的需求。而双语平行语料中可提取的信息十分丰富,但并没有得到更好的利用。例如双语平行语料中的词性信息,可让原文和译文中相同词性的词有了更紧密的联系。同样的,这也拉近了原文和译文中主谓宾的距离。有效地利用双语平行语料中额外的信息,可以有效避免一些人名和数字的错翻漏翻等问题。
综上所述,现有技术存在的问题是:现有工业界的通用机器翻译系统大多只是使用双语平行语料,并未额外使用语料中的句法和词性等信息。
解决上述技术问题的难度和意义:使用语料中的句法和词性等信息的前提是在于已提取句法和词性等信息,而提取这类信息既耗费时间,也不能保证很高的准确率;现有加入句法和词性等信息的发放中,大多会使得模型更加复杂,训练以及解码的时间成本更高,难以满足用户的需求。
发明内容
针对现有技术存在的问题,本发明提供了一种基于胶囊的神经网络机器翻译系统、信息数据处理终端。
本发明是这样实现的,一种基于胶囊的神经网络机器翻译方法,所述基于胶囊的神经网络机器翻译方法包括:把词映射得到高维向量空间得到词向量,得到结合语料中额外信息的词向量,同时结合词的位置信息;接收上下文向量,得到到目标语言的词向量,通过词典得到目标语言词汇。
进一步,所述得到高维向量空间得到词向量的方法具体包括:
其中bij初始化为0。
所述基于胶囊的神经网络机器翻译方法进一步包括:
点乘注意力:
多头注意力:
MultiHead(Q,K,V)=Concat(head1,...,headn);
其中,Q,K,V均为词向量;
前馈神经网络:
FFN(x)=max(0,xW1+b1)W2+b2。
进一步,所述通过词典得到目标语言词汇具体包括:
其中,θi为权重参数,k为目标语言词表的大小。
本发明的另一目的在于提供一种所述基于胶囊的神经网络机器翻译方法的基于胶囊的神经网络机器翻译系统,所述基于胶囊的神经网络机器翻译系统包括:
编码器,用于把词映射得到高维向量空间得到词向量,通过胶囊层得到结合语料中额外信息的词向量,同时结合词的位置信息,作为编码器的输入;
解码器,用于接收编码器的上下文向量。
本发明的另一目的在于提供一种实现所述基于胶囊的神经网络机器翻译方法的计算机程序。
本发明的另一目的在于提供一种实现所述基于胶囊的神经网络机器翻译方法的信息数据处理终端。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的基于胶囊的神经网络机器翻译方法。
综上所述,本发明的优点及积极效果为:本发明通过改变神经网络内部结构,通过胶囊层改进后的词嵌入层可以学习到语料中额外的信息,使得原文和译文中所对应的词更加紧密了。原文和译文中带有类似额外信息的词在词向量空间中的距离更加紧密。
现有利用语料中额外信息的方法中,均需要使用传统方法从语料中提取额外的信息,不但需要花费更多的时间,而且没有很高的准确率,由于并不在一个模型中训练,两个模型之间的适应程度也并不能保证。但是,本发明改进的模型结构可并行计算程度高,虽然使得模型更加复杂,但是使用可高并行计算的图形显卡(GPU),并未增加很多时间上的消耗。同时,在同一个模型中训练,其适应性就无须担心。一个模型即可解决在神经网络机器翻译中利用额外的语料信息,工程上也更加简洁便捷。
附图说明
图1是本发明实施例提供的基于胶囊的神经网络机器翻译系统结构示意图;
图中:1、编码器;2、解码器。
图2是本发明实施例提供的基于胶囊的神经网络机器翻译方法流程图。
图3是本发明实施例提供的基于胶囊和自注意力的编码-解码神经网络模型示意图。
图4是本发明实施例提供的基于胶囊层的词嵌入层示意图。
图5是本发明实施例提供的自注意力层示意图;
图中:(a)点乘注意力;(b)多头注意力层。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明基于胶囊的神经网络机器翻译系统可以较好地在模型内部提取语料中额外的信息,并不耗费额外的预处理时间。并且,由于集成在神经网络机器翻译模型的内部,不受外部标注模型的影响,对于翻译模型的适应性更佳。
如图1所示,本发明实施例提供的基于胶囊的神经网络机器翻译系统包括:编码器1、解码器2。
编码器1,用于把词映射得到高维向量空间得到词向量,通过胶囊层得到结合语料中额外信息的词向量,同时结合词的位置信息,作为编码器的输入;
解码器2,用于接收编码器1的上下文向量。
如图2所示,本发明实施例提供的基于胶囊的神经网络机器翻译方法包括以下步骤:
S101:用把词映射得到高维向量空间得到词向量,得到结合语料中额外信息的词向量,同时结合词的位置信息;
S102:接收上下文向量,得到到目标语言的词向量,通过词典得到目标语言词汇。
下面结合附图对本发明的应用原理作进一步的描述。
胶囊层如图4,其具体计算如下:
其中bij初始化为0;
编码器和解码器均主要由自注意力层组成,如图5。其具体计算如下:点乘注意力:
多头注意力:
MultiHead(Q,K,V)=Concat(head1,...,headn);
其中,Q,K,V均为词向量,Concat是指把向量拼接起来。
前馈神经网络:
FFN(x)=max(0,xW1+b1)W2+b2;
最后通过softmax得到目标语言的词向量,再通过词典得到目标语言词汇。其计算如下:
其中,θi为权重参数,k为目标语言词表的大小。
如图1所示,本发明实施例提供的基于胶囊的神经网络机器翻译系统包括:编码器1、解码器2。
编码器1,用于把词映射得到高维向量空间得到词向量,通过胶囊层得到结合语料中额外信息的词向量,同时结合词的位置信息,作为编码器的输入;
解码器2,用于接收编码器1的上下文向量。
如图2所示,本发明实施例提供的基于胶囊的神经网络机器翻译方法包括以下步骤:
S101:用把词映射得到高维向量空间得到词向量,得到结合语料中额外信息的词向量,同时结合词的位置信息;
S102:接收上下文向量,得到到目标语言的词向量,通过词典得到目标语言词汇。
下面结合附图对本发明的应用原理作进一步的描述。
胶囊层如图4,其具体计算如下:
其中bij初始化为0;
编码器和解码器均主要由自注意力层组成,如图5。其具体计算如下:点乘注意力:
多头注意力:
MultiHead(Q,K,V)=Concat(head1,...,headn);
其中,Q,K,V均为词向量,Concat是指把向量拼接起来。
前馈神经网络:
FFN(x)=max(0,xW1+b1)W2+b2;
最后通过softmax得到目标语言的词向量,再通过词典得到目标语言词汇。其计算如下:
其中,θi为权重参数,k为目标语言词表的大小。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于胶囊的神经网络机器翻译方法,其特征在于,所述基于胶囊的神经网络机器翻译方法包括:把词映射到高维向量空间得到词向量,得到结合语料中额外信息的词向量,同时结合词的位置信息;接收上下文向量,得到目标语言的词向量,通过词典得到目标语言词汇;
编码器1,用于把词映射得到高维向量空间得到词向量,通过胶囊层得到结合语料中额外信息的词向量,同时结合词的位置信息,作为编码器的输入;
解码器2,用于接收编码器1的上下文向量;
胶囊层具体计算如下:
Embeddingoutput=∑ivj·Embeddingi+1;
其中bij初始化为0;
编码器和解码器均主要由自注意力层组成,具体计算如下:点乘注意力:
多头注意力:
MultiHead(Q,K,V)=Concat(head1,...,headn);
headi=Attention(QWi Q,KWi K,VWi V);
其中,Q,K,V均为词向量,Concat是指把向量拼接起来;
前馈神经网络:
FFN(x)=max(0,xW1+b1)W2+b2;
最后通过softmax得到目标语言的词向量,再通过词典得到目标语言词汇,其计算如下:
其中,θi为权重参数,k为目标语言词表的大小。
2.一种实现权利要求1所述基于胶囊的神经网络机器翻译方法的信息数据处理终端。
3.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1所述的基于胶囊的神经网络机器翻译方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810371528.8A CN108549646B (zh) | 2018-04-24 | 2018-04-24 | 一种基于胶囊的神经网络机器翻译系统、信息数据处理终端 |
PCT/CN2018/114017 WO2019205564A1 (zh) | 2018-04-24 | 2018-11-05 | 一种基于胶囊的神经网络机器翻译系统、信息数据处理终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810371528.8A CN108549646B (zh) | 2018-04-24 | 2018-04-24 | 一种基于胶囊的神经网络机器翻译系统、信息数据处理终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108549646A CN108549646A (zh) | 2018-09-18 |
CN108549646B true CN108549646B (zh) | 2022-04-15 |
Family
ID=63512218
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810371528.8A Active CN108549646B (zh) | 2018-04-24 | 2018-04-24 | 一种基于胶囊的神经网络机器翻译系统、信息数据处理终端 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108549646B (zh) |
WO (1) | WO2019205564A1 (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549646B (zh) * | 2018-04-24 | 2022-04-15 | 中译语通科技股份有限公司 | 一种基于胶囊的神经网络机器翻译系统、信息数据处理终端 |
CN109446534B (zh) * | 2018-09-21 | 2020-07-31 | 清华大学 | 机器翻译方法及装置 |
CN110969549B (zh) * | 2018-09-30 | 2023-08-25 | 北京国双科技有限公司 | 一种司法数据处理方法及系统 |
CN109543195B (zh) * | 2018-11-19 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 一种文本翻译的方法、信息处理的方法以及装置 |
US11455527B2 (en) | 2019-06-14 | 2022-09-27 | International Business Machines Corporation | Classification of sparsely labeled text documents while preserving semantics |
CN112308089A (zh) * | 2019-07-29 | 2021-02-02 | 西南科技大学 | 一种基于注意力机制的胶囊网络多特征提取方法 |
CN111259142B (zh) * | 2020-01-14 | 2020-12-25 | 华南师范大学 | 基于注意力编码和图卷积网络的特定目标情感分类方法 |
CN111814469B (zh) * | 2020-07-13 | 2023-07-18 | 北京邮电大学 | 一种基于树型胶囊网络的关系抽取方法及装置 |
CN111860001A (zh) * | 2020-07-31 | 2020-10-30 | 北京小米松果电子有限公司 | 一种机器翻译方法、装置、电子设备及存储介质 |
CN112288075B (zh) * | 2020-09-29 | 2024-02-02 | 华为技术有限公司 | 一种数据处理方法及相关设备 |
CN112883149B (zh) * | 2021-01-20 | 2024-03-26 | 华为技术有限公司 | 一种自然语言处理方法以及装置 |
CN114626363B (zh) * | 2022-05-16 | 2022-09-13 | 天津大学 | 一种基于翻译的跨语言短语结构分析方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104955388A (zh) * | 2012-11-13 | 2015-09-30 | 艾欧敏达有限公司 | 采用时空划分的神经生理学数据分析 |
CN106817144A (zh) * | 2017-01-18 | 2017-06-09 | 上海洪洋通信科技有限公司 | 多维度机器人系统 |
CN107590138A (zh) * | 2017-08-18 | 2018-01-16 | 浙江大学 | 一种基于词性注意力机制的神经机器翻译方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105068998B (zh) * | 2015-07-29 | 2017-12-15 | 百度在线网络技术(北京)有限公司 | 基于神经网络模型的翻译方法及装置 |
CN106339371B (zh) * | 2016-08-30 | 2019-04-30 | 齐鲁工业大学 | 一种基于词向量的英汉词义映射方法和装置 |
CN107766337A (zh) * | 2017-09-25 | 2018-03-06 | 沈阳航空航天大学 | 基于深度语义关联的译文预测方法 |
CN108549646B (zh) * | 2018-04-24 | 2022-04-15 | 中译语通科技股份有限公司 | 一种基于胶囊的神经网络机器翻译系统、信息数据处理终端 |
-
2018
- 2018-04-24 CN CN201810371528.8A patent/CN108549646B/zh active Active
- 2018-11-05 WO PCT/CN2018/114017 patent/WO2019205564A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104955388A (zh) * | 2012-11-13 | 2015-09-30 | 艾欧敏达有限公司 | 采用时空划分的神经生理学数据分析 |
CN106817144A (zh) * | 2017-01-18 | 2017-06-09 | 上海洪洋通信科技有限公司 | 多维度机器人系统 |
CN107590138A (zh) * | 2017-08-18 | 2018-01-16 | 浙江大学 | 一种基于词性注意力机制的神经机器翻译方法 |
Non-Patent Citations (2)
Title |
---|
Attention Is All You Need;Ashish Vaswani et al.;《31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA.》;20171231;第1-11页 * |
Dynamic Routing Between Capsules;Sara Sabour et al.;《31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA.》;20171231;第1-11页 * |
Also Published As
Publication number | Publication date |
---|---|
WO2019205564A1 (zh) | 2019-10-31 |
CN108549646A (zh) | 2018-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108549646B (zh) | 一种基于胶囊的神经网络机器翻译系统、信息数据处理终端 | |
CN109344413B (zh) | 翻译处理方法、装置、计算机设备和计算机可读存储介质 | |
WO2021135469A1 (zh) | 基于机器学习的信息抽取方法、装置、计算机设备及介质 | |
US9805718B2 (en) | Clarifying natural language input using targeted questions | |
JP7159248B2 (ja) | レビュー情報の処理方法、装置、コンピュータ機器及び媒体 | |
CN110175336B (zh) | 翻译方法、装置和电子设备 | |
Erdem et al. | Neural natural language generation: A survey on multilinguality, multimodality, controllability and learning | |
WO2019113783A1 (zh) | 一种机器翻译数字泛化方法及系统、计算机、计算机程序 | |
CN112652291A (zh) | 基于神经网络的语音合成方法、系统、设备及存储介质 | |
US20230223009A1 (en) | Language-agnostic Multilingual Modeling Using Effective Script Normalization | |
CN113158656B (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
US20210004440A1 (en) | Toxic vector mapping across languages | |
WO2024146328A1 (zh) | 翻译模型的训练方法、翻译方法及设备 | |
CN111742322A (zh) | 用于使用深度神经网络来进行独立于领域和语言的定义提取的系统和方法 | |
CN110889295B (zh) | 机器翻译模型、伪专业平行语料的确定方法、系统及设备 | |
CN110287498B (zh) | 层次化翻译方法、装置及存储介质 | |
Han et al. | MAF‐CNER: A Chinese Named Entity Recognition Model Based on Multifeature Adaptive Fusion | |
Sharma et al. | Machine translation systems based on classical-statistical-deep-learning approaches | |
Sun | [Retracted] Analysis of Chinese Machine Translation Training Based on Deep Learning Technology | |
Ma et al. | E2timt: Efficient and effective modal adapter for text image machine translation | |
Wang et al. | A hybrid model based on deep convolutional network for medical named entity recognition | |
US11238865B2 (en) | Function performance based on input intonation | |
Kunchukuttan et al. | Machine Translation and Transliteration involving Related, Low-resource Languages | |
Zhou et al. | Named Entity Recognition of Ancient Poems Based on Albert‐BiLSTM‐MHA‐CRF Model | |
Che et al. | A word segmentation method of ancient Chinese based on word alignment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |