CN112580370B - 一种融合语义知识的蒙汉神经机器翻译方法 - Google Patents
一种融合语义知识的蒙汉神经机器翻译方法 Download PDFInfo
- Publication number
- CN112580370B CN112580370B CN202011554602.3A CN202011554602A CN112580370B CN 112580370 B CN112580370 B CN 112580370B CN 202011554602 A CN202011554602 A CN 202011554602A CN 112580370 B CN112580370 B CN 112580370B
- Authority
- CN
- China
- Prior art keywords
- amr
- semantic
- encoder
- information
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
一种融合语义知识的蒙汉神经机器翻译方法,基于编码器‑解码器架构,其特征在于,采用双编码器进行编码,采用GRU单元编码源句子序列,采用图卷积神经网络编码由源句子经过预处理得到的AMR语义图,解码器采用具有双注意力机制的循环神经网络。将AMR引入,不仅可以很好地借助语义信息来辅助神经机器翻译,还可以有效地缓解数据稀疏问题,从而提高蒙汉神经机器翻译的性能。
Description
技术领域
本发明属于机器翻译技术领域,特别涉及一种融合语义知识的蒙汉神经机器翻译方法。
背景技术
蒙古语属于小语种,蒙汉机器翻译系统在解决蒙汉人民之间由于语言差异引起的交流障碍问题方面作出了很大的贡献。现阶段的机器翻译大多为序列到序列建模,随着深度学习的日益发展,数据驱动成为其成功的必要条件,但蒙古语属于低资源语言,蒙汉平行语料库的资源匮乏,想要得到大规模语料十分困难,少量的训练数据会使神经网络产生过拟合学习现象,因此现阶段的蒙汉机器翻译很容易出现数据稀疏问题。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种融合语义知识的蒙汉神经机器翻译方法,翻译过程涉及借助AMR语义图来获取上下文语境,并采用双编码器来分别编码源语言句子和由源语言句子生成的AMR语义图。一方面可以执行句子的语义保存,另一方面图结构信息的引入可以有效缓解数据稀疏问题。但是图结构的引入势必会使得推理过程变得十分缓慢,为了进一步克服这一缺点,本发明采用非自回归地解码方式,将AMR语义图解码生成的信息作为序列解码的隐变量。
为了实现上述目的,本发明采用的技术方案是:
一种融合语义知识的蒙汉神经机器翻译方法,基于编码器-解码器架构,所述编码器为由编码器E1和编码器E2组成的双编码器架构,利用编码器E1编码源语言句子向量,利用编码器E2编码源语言句子向量所对应的AMR语义图,所述AMR语义图的基本结构是单根有向无环图,将实词抽象为概念作为图上的节点,将没有实际意义的虚词抽象为边,编码器E1和编码器E2的信息叠加送到具有双注意力机制的非自回归解码器D中进行解码。
在编码之前对蒙汉平行语料库进行预处理:对于汉语首先采用jieba分词工具去掉标点符号,并在词之间加上空格,并采用美国加州大学的AMR语义解析器将汉语源语言句子解析为AMR语义图;对于蒙古语采用BPE进行细粒度的切分。
优选地,所述编码器E1采用双向GRU单元编码源句子向量,所述编码器E2采用图卷积神经网络编码源语言句子向量所对应的AMR语义图,每一个完整的AMR语义图为一个单一的状态,图中的节点称为子状态。
优选地,给定一个AMR语义图G=(V,E),V表示节点的集合,E表示边的集合,表示每个节点vj∈V的状态向量,则AMR语义图的状态gi表示为:
i∈[0,T]
为捕获全局信息,节点之间通过一系列的状态转换进行信息交换,即:g0,g1,...,gT,其中T是状态转换数,伴随着状态转换,图中的子状态通过边交换信息,在每个循环步骤中,每个节点通过接收来自其相邻节点当前状态的信息来更新其当前状态。
优选地,在所述图卷积神经网络中加入GRU循环单元,用更新门zt表示前一时刻节点的状态信息带入当前时刻的程度,用重置门rt来控制前一时刻节点信息写入当前时刻的多少,节点的隐藏状态的信息包含该节点的入边和出边信息,边的输入信息用/>表示,i表示入边的索引,j表示出边的索引,lb表示边上的标签,即两点之间的关系标签,节点vj在t时刻的入边/>和出边/>信息表示为:
IN(j)和OUT(j)分别表示节点vj所有入边和出边的集合。
优选地,一个AMR语义图由gt-1到gt的状态转换用如下公式表示:
其中γt表示节点的输出信息,Wr、Wz、Wo分别表示权重矩阵。/>表示使用重置门之后得到的隐藏状态,再通过更新门得到新的隐藏状态向量/>σ表示sigmod函数。
优选地,所述非自回归解码器D采用具有双注意力机制的循环神经网络,一部分用于接收源语言序列信息,另一部分用于接收AMR语义图信息,其中AMR语义图中仅接收图的最后一个状态的信息,即
与现有技术相比,本发明的优先在于:
在机器翻译中融合AMR语义图,进一步增强了语义,并且有效地缓解了数据稀疏问题。采用图卷积神经网络编码AMR语义图,不容易使AMR语义图中的语义信息丢失,整体能够提高蒙汉神经机器翻译的性能。
附图说明
图1为句子“她想买衣服”转化的AMR语义图。
图2为本发明总体架构示意图。
图3为用于编码AMR语义图递归网络的总体结构示意图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
本发明为一种融合语义知识的蒙汉神经机器翻译方法,基于编码器-解码器架构,其中,编码器为由编码器E1和编码器E2组成的双编码器架构,利用编码器E1编码源语言句子向量,利用编码器E2编码源语言句子向量所对应的AMR语义图,AMR语义图的基本结构是单根有向无环图,将实词抽象为概念作为图上的节点,将没有实际意义的虚词抽象为边,编码器E1和编码器E2的信息叠加送到具有双注意力机制的非自回归解码器D中进行解码。
一般地,在编码之前需要对蒙汉平行语料库进行预处理:
第一步:将蒙汉平行语料库中的汉语采用jieba分词工具去掉标点符号并且将词与词之间加上空格。
第二步:将分词之后的汉语采用美国南加州大学的AMR语义分析器解析为AMR语义图。
第三步:对于蒙汉平行语料库中的蒙汉双语分别采用BPE进行切分,以减少未登陆词。
语料预处理之后采用word2vec生成词向量。
具体地,编码器E1可采用双向GRU单元编码源句子向量,例如,编码器E1可为BiGRU编码器,介绍如下:
给定一个句子,其输入序列为:x1,x2,...,xi,...,xN,从左到右和从右到左分别生成一个输入序列的表示:对于每一个词xi:
其中表示每一个词xi的词嵌入。
编码器E2采用图卷积神经网络编码源语言句子向量所对应的AMR语义图,每一个完整的AMR语义图都被看作是一个单一的状态,图中的节点称为其子状态。AMR语义图是将一个自然句子以图的形式来表示其语义信息。例如对于句子“她想买衣服”转化为AMR语义图如图1所示:对于一个句子,原本一行,将其变换为AMR语义图后为了5行,图中的例子是一个短句,而随着句子长度的增加,语义关系更为复杂,AMR语义图的数据量更为庞大,数据能达到11.23倍的增长,对于蒙汉低资源语言来说大大扩充了数据量,在蒙汉机器翻译中能有效捕捉语义信息。
图2显示了本发明总体架构,它分别采用BiGRU和图卷积网络对源句和AMR进行编码。基于注意的GRU解码器用于在目标语言中生成输出序列,并在编码器E1和编码器E2上建立注意模型。
编码器E2的注意内存来自图状态转换过程的最后一步,如图3所示。
图3显示了用于编码AMR语义图递归网络的总体结构,给定一个AMR语义图G=(V,E),V表示节点的集合,E表示边的集合,用状态向量来表示表示每个节点vj∈V,为捕获全局信息,节点之间通过一系列的状态转换进行信息交换,即:g0,g1,...,gT,其中T是状态转换数,则AMR语义图的状态gi表示为:
i∈[0,T]
初始状态g0由一组零向量组成(即图中的每一个子状态均为零),伴随着状态转换,图中的子状态通过边交换信息,在每个循环步骤中,每个节点通过接收来自其相邻节点当前状态的信息来更新其当前状态。因此,随着循环步骤的增加,每个单词所获取上下文信息也越来越多,循环转换中各节点同时工作。
利用图卷积神经网络对状态转换过程进行建模。特别是,从gt-1→gt的转换包括每个节点的隐藏状态转换,即的状态也在变换。如图3所示。在每个状态转换步骤t,本发明在某个节点和所有直接连接到该节点的节点之间进行直接通信。为了避免梯度消失或梯度爆炸,本发明在图卷积神经网络中加入GRU循环单元,用更新门zt表示前一时刻节点的状态信息带入当前时刻的程度,用重置门rt来控制前一时刻节点信息写入当前时刻的多少。节点的隐藏状态/>的信息包含该节点的入边和出边信息。边的输入信息用来表示,i表示入边的索引,j表示出边的索引,lb表示边上的标签,即两点之间的关系标签,具体指图1中的ARG0、ARG1等信息。节点vj在t时刻的入边/>和出边/>信息可以表示为:
IN(j)和OUT(j)分别表示节点vj所有入边和出边的集合。
除了边输入外,本发明还在状态转换期间接受每个节点邻接节点的隐藏状态。以vj为例,在传递到单元和门节点之前,对其传入和传出邻居的状态进行总结:
基于上述定义,一个图的状态转换(由gt-1到gt)可以用如下公式表示:
其中γt表示节点的输出信息,Wr、Wz、Wo分别表示权重矩阵。/>表示使用重置门之后得到的隐藏状态,再通过更新门得到新的隐藏状态向量/>σ表示sigmod函数。
在解码阶段,E1编码器和E2编码器分别采用两种单独的注意机制,AMR语义图中的节点与源语言句子序列中的词没有一一对应的关系,因此解码器D需采用具有双注意力机制的循环神经网络,又由于图神经网络的引入会极大地降低解码速度,为了提高解码的速度,解码器D使用非自回归解码的方式进行解码。即,非自回归解码器D一部分用于接收源语言序列信息,另一部分用于接收AMR语义图信息。将AMR语义图解码生成的序列信息作为序列解码器的隐变量信息来辅助解码,其中AMR语义图中仅接收图的最后一个状态的信息,即
基于图的上下文向量计算为:
Ws和bg均为模型参数。新的上下文向量被计算为:
因此目标词汇的输出概率分布P为:
V和b均为模型参数,δm为对序列进行解码的上下文向量,为对AMR语义图进行解码的上下文向量。
其中,对序列进行解码时,通过循环计算隐藏状态序列s1,s2,...,sM来产生目标语言序列y1,y2,...,yM。本发明使用一个基于注意力的GRU模型,其中注意存储器(H)是所有源词之间注意向量的级联。每个注意向量hi是输入标记在两个方向(和/>)的编码器状态的级联:
H=[h1;h2;...;hN]
N是源词的个数。
在生成第m个单词时,解码考虑四个因素:(1)注意记忆H;(2)GRU模型的先前隐藏状态sm-1;(3)当前的输入嵌入(先前生成的词)(4)先前来自于注意记忆H的上下文向量δm。当m=1时,将δ1初始为零向量。将/>设置为句子的起始标记<s>,并通过密集层从编码器状态的最后一步计算s0:
其中W1和b1均为模型参数。
对于每一个序列解码步骤M,需要将当前输入和先前上下文向量δm-1嵌入到GRU模型中的级联,以更新其隐藏状态:
然后计算出当前解码步骤上的注意向量hi∈H的注意概率βm,i:
其中Wh、Ws、bs均为模型参数,新的上下文向量δm计算为:
如图2所示,对一个源语言句子“男孩想去学校”进行解码时,解码器的目标词汇的输出概率分布P为:
其中同时包含了来自序列的上下文向量δm和来自图的上下文向量
Claims (2)
1.一种融合语义知识的蒙汉神经机器翻译方法,基于编码器-解码器架构,其特征在于,所述编码器为由编码器E1和编码器E2组成的双编码器架构,利用编码器E1编码源语言句子向量,利用编码器E2编码源语言句子向量所对应的AMR语义图,所述AMR语义图的基本结构是单根有向无环图,将实词抽象为概念作为图上的节点,将没有实际意义的虚词抽象为边,编码器E1和编码器E2的信息叠加送到具有双注意力机制的非自回归解码器D中进行解码;
所述编码器E1采用双向GRU单元编码源句子向量,所述编码器E2采用图卷积神经网络编码源语言句子向量所对应的AMR语义图,每一个完整的AMR语义图为一个单一的状态,图中的节点称为子状态;
给定一个AMR语义图G=(V,E),V表示节点的集合,E表示边的集合,表示每个节点vj∈V的状态向量,则AMR语义图的状态gi表示为:
i∈[0,T]
为捕获全局信息,节点之间通过一系列的状态转换进行信息交换,即:g0,g1,…,gT,其中T是状态转换数,伴随着状态转换,图中的子状态通过边交换信息,在每个循环步骤中,每个节点通过接收来自其相邻节点当前状态的信息来更新其当前状态;
在所述图卷积神经网络中加入GRU循环单元,用更新门zt表示前一时刻节点的状态信息带入当前时刻的程度,用重置门rt来控制前一时刻节点信息写入当前时刻的多少,节点的隐藏状态的信息包含该节点的入边和出边信息,边的输入信息用/>表示,i表示入边的索引,j表示出边的索引,lb表示边上的标签,即两点之间的关系标签,节点vj在t时刻的入边/>和出边/>信息表示为:
IN(j)和OUT(j)分别表示节点vj所有入边和出边的集合;
一个AMR语义图由gt-1到gt的状态转换用如下公式表示:
其中γt表示节点的输出信息,Wr、Wz、Wo分别表示权重矩阵,/>表示使用重置门之后得到的隐藏状态,再通过更新门得到新的隐藏状态向量/>σ表示sigmod函数;
所述非自回归解码器D采用具有双注意力机制的循环神经网络,一部分用于接收源语言序列信息,另一部分用于接收AMR语义图信息,其中AMR语义图中仅接收图的最后一个状态的信息,即
2.根据权利要求1所述融合语义知识的蒙汉神经机器翻译方法,其特征在于,在编码之前对蒙汉平行语料库进行预处理:对于汉语首先采用jieba分词工具去掉标点符号,并在词之间加上空格,并采用美国加州大学的AMR语义解析器将汉语源语言句子解析为AMR语义图;对于蒙古语采用BPE进行细粒度的切分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011554602.3A CN112580370B (zh) | 2020-12-24 | 2020-12-24 | 一种融合语义知识的蒙汉神经机器翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011554602.3A CN112580370B (zh) | 2020-12-24 | 2020-12-24 | 一种融合语义知识的蒙汉神经机器翻译方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112580370A CN112580370A (zh) | 2021-03-30 |
CN112580370B true CN112580370B (zh) | 2023-09-26 |
Family
ID=75139576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011554602.3A Active CN112580370B (zh) | 2020-12-24 | 2020-12-24 | 一种融合语义知识的蒙汉神经机器翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112580370B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230095352A1 (en) * | 2022-05-16 | 2023-03-30 | Beijing Baidu Netcom Science Technology Co., Ltd. | Translation Method, Apparatus and Storage Medium |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010182287A (ja) * | 2008-07-17 | 2010-08-19 | Steven C Kays | 適応型インテリジェント・デザイン |
JP2011221650A (ja) * | 2010-04-06 | 2011-11-04 | Nippon Telegr & Teleph Corp <Ntt> | 機械翻訳装置、機械翻訳方法、およびそのプログラム |
CN102591988A (zh) * | 2012-01-16 | 2012-07-18 | 宋胜利 | 基于语义图的短文本分类方法 |
CN109508462A (zh) * | 2018-10-25 | 2019-03-22 | 内蒙古工业大学 | 一种基于编码器-解码器的神经网络蒙汉机器翻译方法 |
EP3534283A1 (en) * | 2018-03-01 | 2019-09-04 | Crowdstrike, Inc. | Classification of source data by neural network processing |
CN110609897A (zh) * | 2019-08-12 | 2019-12-24 | 北京化工大学 | 一种融合全局和局部特征的多类别中文文本分类方法 |
CN110674646A (zh) * | 2019-09-06 | 2020-01-10 | 内蒙古工业大学 | 一种基于字节对编码技术的蒙汉机器翻译系统 |
CN110795556A (zh) * | 2019-11-01 | 2020-02-14 | 中山大学 | 一种基于细粒度插入式解码的摘要生成方法 |
CN110807335A (zh) * | 2019-09-02 | 2020-02-18 | 腾讯科技(深圳)有限公司 | 基于机器学习的翻译方法、装置、设备及存储介质 |
CN111324709A (zh) * | 2020-02-10 | 2020-06-23 | 广西师范大学 | 基于学科知识图谱和卷积神经网络的智能答疑方法 |
CN111507070A (zh) * | 2020-04-15 | 2020-08-07 | 苏州思必驰信息科技有限公司 | 自然语言生成方法和装置 |
CN112015863A (zh) * | 2020-08-26 | 2020-12-01 | 华东师范大学 | 一种基于图神经网络的多元特征融合中文文本分类方法 |
CN112052692A (zh) * | 2020-08-12 | 2020-12-08 | 内蒙古工业大学 | 一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法 |
CN112084314A (zh) * | 2020-08-20 | 2020-12-15 | 电子科技大学 | 一种引入知识的生成式会话系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3948853A1 (en) * | 2019-05-03 | 2022-02-09 | Google LLC | End-to-end automated speech recognition on numeric sequences |
-
2020
- 2020-12-24 CN CN202011554602.3A patent/CN112580370B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010182287A (ja) * | 2008-07-17 | 2010-08-19 | Steven C Kays | 適応型インテリジェント・デザイン |
JP2011221650A (ja) * | 2010-04-06 | 2011-11-04 | Nippon Telegr & Teleph Corp <Ntt> | 機械翻訳装置、機械翻訳方法、およびそのプログラム |
CN102591988A (zh) * | 2012-01-16 | 2012-07-18 | 宋胜利 | 基于语义图的短文本分类方法 |
EP3534283A1 (en) * | 2018-03-01 | 2019-09-04 | Crowdstrike, Inc. | Classification of source data by neural network processing |
CN109508462A (zh) * | 2018-10-25 | 2019-03-22 | 内蒙古工业大学 | 一种基于编码器-解码器的神经网络蒙汉机器翻译方法 |
CN110609897A (zh) * | 2019-08-12 | 2019-12-24 | 北京化工大学 | 一种融合全局和局部特征的多类别中文文本分类方法 |
CN110807335A (zh) * | 2019-09-02 | 2020-02-18 | 腾讯科技(深圳)有限公司 | 基于机器学习的翻译方法、装置、设备及存储介质 |
CN110674646A (zh) * | 2019-09-06 | 2020-01-10 | 内蒙古工业大学 | 一种基于字节对编码技术的蒙汉机器翻译系统 |
CN110795556A (zh) * | 2019-11-01 | 2020-02-14 | 中山大学 | 一种基于细粒度插入式解码的摘要生成方法 |
CN111324709A (zh) * | 2020-02-10 | 2020-06-23 | 广西师范大学 | 基于学科知识图谱和卷积神经网络的智能答疑方法 |
CN111507070A (zh) * | 2020-04-15 | 2020-08-07 | 苏州思必驰信息科技有限公司 | 自然语言生成方法和装置 |
CN112052692A (zh) * | 2020-08-12 | 2020-12-08 | 内蒙古工业大学 | 一种基于语法监督和深度强化学习的蒙汉神经机器翻译方法 |
CN112084314A (zh) * | 2020-08-20 | 2020-12-15 | 电子科技大学 | 一种引入知识的生成式会话系统 |
CN112015863A (zh) * | 2020-08-26 | 2020-12-01 | 华东师范大学 | 一种基于图神经网络的多元特征融合中文文本分类方法 |
Non-Patent Citations (6)
Title |
---|
Neural machine translation for bilingually scarce scenarios: a deep multi-task learning approach;Zaremoodi Poorya 等;《网页在线公开: https://arxiv.org/abs/1805.04237》;1-10 * |
Reinforcement learning based graph-to-sequence model for natural question generation;Chen Yu 等;《网页在线公开: https://arxiv.org/abs/1908.04942》;1-17 * |
Song Linfeng 等.Semantic neural machine translation using AMR.《Transactions of the Association for Computational Linguistics》.2019,第7卷19-31. * |
双注意力个性化会话推荐模型研究;梁天安;《中国优秀硕士学位论文全文数据库信息科技辑》(第03期);I138-1642 * |
基于神经网络与多特征融合的维度语音情感识别研究;周晓晓;《中国优秀硕士学位论文全文数据库信息科技辑》(第01期);I136-403 * |
薛媛.基于AMR语义和图神经网络的汉蒙神经机器翻译的研究.《中国优秀硕士学位论文全文数据库哲学与人文科学辑》.2022,(第02期),F084-12. * |
Also Published As
Publication number | Publication date |
---|---|
CN112580370A (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110334361B (zh) | 一种面向小语种语言的神经机器翻译方法 | |
CN110598221B (zh) | 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法 | |
CN107357789B (zh) | 融合多语编码信息的神经机器翻译方法 | |
CN113158665B (zh) | 一种基于文本摘要生成与双向语料改善对话文本生成的方法 | |
CN107967262A (zh) | 一种神经网络蒙汉机器翻译方法 | |
CN108491372B (zh) | 一种基于seq2seq模型的中文分词方法 | |
CN110688862A (zh) | 一种基于迁移学习的蒙汉互译方法 | |
CN110427629A (zh) | 半监督文本简化模型训练方法和系统 | |
CN115310448A (zh) | 一种基于bert和字词向量结合的中文命名实体识别方法 | |
CN114168754A (zh) | 一种基于句法依赖和融合信息的关系抽取方法 | |
Zhu et al. | Multiscale temporal network for continuous sign language recognition | |
CN112580370B (zh) | 一种融合语义知识的蒙汉神经机器翻译方法 | |
CN115114940A (zh) | 一种基于课程化预训练的机器翻译风格的迁移方法和系统 | |
CN111428518B (zh) | 一种低频词翻译方法及装置 | |
CN117522697A (zh) | 一种人脸图像生成方法、系统及模型训练方法 | |
CN112989845B (zh) | 一种基于路由算法的篇章级神经机器翻译方法及系统 | |
CN113469260B (zh) | 一种基于卷积神经网络、注意力机制及自注意力变换器的视觉描述方法 | |
CN113377908B (zh) | 基于可学习多单词对打分器的方面级情感三元组抽取方法 | |
CN112464673B (zh) | 融合义原信息的语言含义理解方法 | |
CN115719072A (zh) | 一种基于掩码机制的篇章级神经机器翻译方法及系统 | |
CN112069777B (zh) | 一种基于骨架的二阶段数据到文本生成方法 | |
CN115034236A (zh) | 一种基于知识蒸馏的中英机器翻译方法 | |
CN114896969A (zh) | 一种基于深度学习的方面词提取方法 | |
CN114238649A (zh) | 一种常识概念增强的语言模型预训练方法 | |
CN112487761A (zh) | 一种基于图表征融合的问句生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |