CN111699498B - 作为问答的多任务学习 - Google Patents

作为问答的多任务学习 Download PDF

Info

Publication number
CN111699498B
CN111699498B CN201980012699.4A CN201980012699A CN111699498B CN 111699498 B CN111699498 B CN 111699498B CN 201980012699 A CN201980012699 A CN 201980012699A CN 111699498 B CN111699498 B CN 111699498B
Authority
CN
China
Prior art keywords
attention
words
generating
context
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980012699.4A
Other languages
English (en)
Other versions
CN111699498A (zh
Inventor
B·麦卡恩
N·S·凯斯卡
C·熊
R·佐赫尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shuo Power Co
Original Assignee
Salesforce com Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Salesforce com Inc filed Critical Salesforce com Inc
Publication of CN111699498A publication Critical patent/CN111699498A/zh
Application granted granted Critical
Publication of CN111699498B publication Critical patent/CN111699498B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

用于作为问答的多任务学习的途径包括:输入层,用于编码语境和问题;基于自我注意的转换器,其包括编码器和解码器;第一双向长期短期记忆(biLSTM),用于进一步编码编码器的输出;长期短期记忆(LSTM),用于由解码器的输出和隐藏状态生成语境调整的隐藏状态;注意网络,用于基于第一biLSTM的输出和LSTM的输出生成第一注意权重;词汇层,用于在词汇上的分布;语境层,用于生成在语境上的分布;和切换器,用于生成在词汇上与在语境上的分布之间的加权,基于加权生成复合分布,和使用复合分布选择回答的词。

Description

作为问答的多任务学习
相关申请
本申请要求2018年2月9日提交的美国临时专利申请号62/628,850和2018年5月8日提交的美国非临时专利申请号15/974,118(标题均为“Multitask Learning asQuestion Answering”)的权益,其全部内容通过引用并入本文。
本申请涉及2018年5月8日提交的标题为“Multitask Learning as QuestionAnswering”的美国专利申请号15/974,075(律师案卷号70689.9US01 A3335US1),其全部内容通过引用并入本文。
技术领域
本公开文本总体上涉及自然语言处理,并且更具体地涉及回答关于自然语言语境(context)的自然语言问题。
背景技术
自然语言处理和系统回答关于自然语言样本内容的自然语言问题的能力是关于以自然语言形式提供的信息的特定于语境的(context-specific)推理的测试基准。这可能是一项复杂的任务,因为可以提问许多不同类型的自然语言问题,并且回答该自然语言问题可能需要不同类型的推理和/或不同类型的分析。
因此,具有用于同时能够回答不同种类的自然语言问题的统一的(unified)系统和方法将是有利的。
附图说明
图1是根据一些实施方案的自然语言处理任务的简化图。
图2是根据一些实施方案的计算设备的简化图。
图3是根据一些实施方案的用于多任务问答的系统的简化图。
图4是根据一些实施方案的注意网络(attention network)的简化图。
图5是根据一些实施方案的基于注意的转换器(transformer)网络的层的简化图。
图6是根据一些实施方案的词发生器(word generator)的简化图。
图7是根据一些实施方案的多任务学习的方法的简化图。
图8和9A-9C是根据一些实施方案的训练性能(training performance)的简化图。
图10A和10B是根据一些实施方案的基于训练次序(training order)的训练性能的简化图。
在附图中,具有相同附图标记的要素具有相同或相似的功能。
具体实施方式
特定于语境的推理(包括有关自然语言信息的内容的特定于语境的推理)是机器智能和学习应用中的重要问题。特定于语境的推理可以提供有价值的信息用于在解释自然语言文本中使用,并且可以包括不同的任务,比如回答有关自然语言文本的内容的问题、语言翻译、语义语境分析等。然而,这些不同类型的自然语言处理任务中的每种常常涉及不同类型的分析和/或不同类型的期望响应(expected response)。
当任务类型相似时,自然语言处理中的多任务学习已经取得进展。然而,处理不同类型的任务(比如语言翻译、问答和分类)时,参数共享常常受限于词向量(word vector)或参数的子集。通常针对每种任务类型对最终架构进行高度优化和设计,这限制了它们跨越任务类型通用化的能力。
然而,当构造为单个任务类型时,这些任务类型中的许多可以由相同的架构和模型处理。例如,可能将许多(如果不是全部的话)自然语言处理任务视为问答任务。例如,分类、语言翻译和问答的任务类型均可以被构造为问答任务。图1中示出了问答形式的这三种任务类型中的每种的实施例。
图2是根据一些实施方案的计算设备200的简化图。如在图2中所示出的,计算设备200包括联接至存储器220的处理器210。计算设备200的操作由处理器210控制。而且,尽管示出了计算设备200仅具有一个处理器210,但是应当理解计算设备200中的处理器210可以代表:一个或多个中央处理单元、一个或多个多核处理器、一个或多个微处理器、一个或多个微控制器、一个或多个数字信号处理器、一个或多个现场可编程门阵列(FPGA)、一个或多个专用集成电路(ASIC)、一个或多个图形处理单元(GPU)等。计算设备200可以被实施为独立式子系统,添加至计算设备的板(board),和/或虚拟机。
存储器220可以被用于存储由计算设备200执行的软件和/或在计算设备200的操作期间使用的一个或多个数据结构。存储器220可以包括一种或多种类型的机器可读介质。机器可读介质的一些常见形式可以包括软盘、软磁盘、硬盘、磁带、任何其他磁性介质、CD-ROM、任何其他光学介质、打孔卡、纸带、具有孔图案的任何物理介质、RAM、PROM、EPROM、FLASH-EPROM、任何其他存储器芯片或盒和/或处理器或计算机适于由其读取的任何其他介质。
可以以任何合适的物理排布安置处理器210和/或存储器220。在一些实施方案中,处理器210和/或存储器220可以被实施在相同的板上、相同的封装(例如,系统封装(system-in-package))中、相同的芯片(例如,系统芯片(system-on-chip))上等。在一些实施方案中,处理器210和/或存储器220可以包括分布式、虚拟化和/或容器化(containerized)计算资源。与这样的实施方案一致,处理器210和/或存储器220可以位于一个或多个数据中心和/或云计算设施中。
如所示出的,存储器220包括问答模块230,其可以被用于实施和/或仿真(emulate)本文进一步描述的问答系统与模型和/或实施本文进一步描述的任何方法。在一些实施例中,问答模块230可以被用于回答关于自然语言语境的自然语言问题。在一些实施例中,问答模块230还可以处理问答系统或模型(其用于回答关于自然语言语境的自然语言问题)的迭代训练和/或评价。在一些实施例中,存储器220可以包括非暂时性的、有形的机器可读介质,该机器可读介质包括可执行代码,当由一个或多个处理器(例如,处理器210)运行时,该可执行代码可以使一个或多个处理器执行本文进一步详细描述的计数方法。在一些实施例中,可以使用硬件、软件和/或硬件与软件的组合实施问答模块230。如所示出的,计算设备200接收自然语言语境240和关于自然语言语境240的自然语言问题250,它们被提供给问答模块230,问答模块230然后基于自然语言语境240的内容生成自然语言问题250的自然语言回答260。
图3是根据一些实施方案的用于多任务问答的系统300的简化图。系统300接收自然语言语境c和自然语言问题q。语境c和问题q中的每个被编码为用于由系统300处理的向量。在一些实施例中,使用词编码,编码语境c和问题q中的每个词。在一些实施例中,每个词的编码基于GloVe编码,其中每个词被编码为
Figure BDA0002626304900000041
的元素。在一些实施例中,每个词的编码基于字符n-gram编码,其中每个词被编码为
Figure BDA0002626304900000042
的元素。在一些实施例中,每个词的编码基于GloVe和字符engram编码的级联(concatenation)。在一些实施例中,当不存在用于词的GloVe和/或字符n-gram编码(例如,词不是英语)时,从正态分布选择随机编码,对各自的词的每次出现一致地使用相同的随机编码,该正态分布具有与GloVe编码相同的平均值和标准偏差(例如,零的平均值和0.4的标准偏差)。
然后将用于语境c的编码传送至线性层310,并且将用于问题q的编码传送至线性层315。线性层310和315中的每个实施与等式1一致的各自的传递函数(transferfunction),在等式1中,W和b是各自的线性层310或315的权重(weight)和偏差(bias),a是各自的线性层310或315的输出,x是给各自的线性层310或315的输入,并且f是各自的线性层310或315的线性传递函数,比如纯(pure)线性函数、饱和线性函数等。在一些实施例中,线性层310和315减小用于语境c和问题q的编码的维数。在一些实施例中,将编码的维数减小为每个编码是
Figure BDA0002626304900000051
的元素。
a=f(Wx+b) 等式1
分别通过单层双向长短期记忆网络(biLSTM)320和biLSTM 325进一步编码由线性层310和315输出的编码以形成
Figure BDA00026263049000000518
Figure BDA00026263049000000519
在一些实施例中,biLSTM 320和/或325可以进一步减小用于语境c和问题q的编码的维数。biLSTM 320和325中的每个在每个时间步长(timestep)i处根据等式2生成输出hi(作为
Figure BDA00026263049000000520
Figure BDA00026263049000000521
的级联),在等式2中,x是给各自的biLSTM的输入,而LSTM对应于长期短期记忆网络。在一些实施例中,biLSTM 320和/或biLSTM 325具有200的隐藏大小,并且将
Figure BDA0002626304900000052
Figure BDA0002626304900000053
的编码的维数进一步减小为
Figure BDA0002626304900000054
的元素。
Figure BDA0002626304900000055
然后将输出
Figure BDA0002626304900000056
Figure BDA0002626304900000057
传送至协同注意(coattention)层330。协同注意层330首先在
Figure BDA0002626304900000058
前面追加(prepend)语境哨兵(sentinel)向量并且在
Figure BDA0002626304900000059
前面追加问题哨兵向量。哨兵向量允许协同注意层330的协同注意机制以避免对齐两个序列之间的所有记号(token)。然后,协同注意层330沿着时间维度堆叠向量
Figure BDA00026263049000000510
Figure BDA00026263049000000511
以分别获取
Figure BDA00026263049000000512
Figure BDA00026263049000000513
然后,协同注意层330根据等式3生成关联矩阵(affinity matrix)A。
Figure BDA00026263049000000514
然后,协同注意层330使用等式4在每个序列上生成注意权重Ac和Aq,在等式4中softmax(X)在X的列上进行归一化。
Ac=softmax(A)
Aq=softmax(AT) 等式4
然后,使用等式5,协同注意层330使用注意权重Ac和Aq分别生成语境和问题的加权总和
Figure BDA00026263049000000515
Figure BDA00026263049000000516
Figure BDA00026263049000000517
然后,协同注意层330生成协同注意汇总(summary)S作为
Figure BDA0002626304900000061
Figure BDA0002626304900000062
的级联。协同注意汇总S包括向量s的序列,并且可以从s去除与哨兵位置相对应的第一向量。然后将s传送至biLSTM 340。biLSTM340生成位置编码被添加至其的输出
Figure BDA0002626304900000063
然后将输出
Figure BDA0002626304900000064
传送至基于自我注意的(self-attention-based)多层转换器,其生成用于基于自我注意的多层转换器的层i中的每层的编码
Figure BDA0002626304900000065
如在图3中所示出的,基于自我注意的多层转换器包括转换器层351和352。而且,尽管示出了基于自我注意的多层转换器具有两层,但是在一些实施方案中,基于自我注意的多层转换器可以包括仅单层或三层或更多层。转换器层351和352各自包括多头(multi-head)自我注意机制,接着是位置连接的(position-wise)全连接前馈网络,连同残差连接(residual connection)和层归一化,如下面相对于图4和5进一步详细地描述的。
图4是根据一些实施方案的注意网络400的简化图。如图4中所示出的,注意网络400接收询问
Figure BDA0002626304900000066
键(key)
Figure BDA0002626304900000067
和值
Figure BDA0002626304900000068
根据等式6-8,q、k和v中的每个接受各自的权重WQ 410、WK 420和WV 430。在训练期间使用反向传播(back propagation)更改权重WQ410、WK 420和WV 430。
Figure BDA0002626304900000069
Figure BDA00026263049000000610
Figure BDA00026263049000000611
通过注意传递函数440传送得到的Q、K和V向量,该注意传递函数440生成Q和K的点积(dot product),然后根据等式9将该点积应用于V。
Figure BDA00026263049000000612
然后,加法和归一化模块450被用于将询问q与来自我注意传递函数的输出组合,以提供提高注意网络400的学习速率的残差连接。加法和归一化模块450实施等式10,在等式10中,μ和σ分别是输入向量的平均值和标准偏差,gi是用于缩放层归一化的增益参数。来自加法和归一化模块450的输出是注意网络400的输出。
Figure BDA0002626304900000071
常常以两种变体形式使用注意网络400。第一变体形式是多头注意层,其中并行实施与注意网络400一致的多个注意网络,其中多头注意网络中的每个“头”具有其自身的权重WQ 410、WK 420和WV430,它们被初始化为不同的值并且因而被训练学习不同的编码。然后,将来自每个头的输出级联在一起,以形成多头注意层的输出。第二变体形式是自我注意层,其是q、k和v输入对于注意网络的每个头均相同的多头注意层。
VaSwani等人2017年6月12日提交的“Attention is All You Need”,arXivpreprint arXiv:1706.03762中进一步描述了基于自我注意的层,其全部内容通过引用并入本文。
图5是根据一些实施方案的用于基于注意的转换器网络的层500的简化图。根据一些实施方案,系统300的每个转换器层351和/或352均与层500一致。如在图5中所示出的,层500包括编码层510和解码层520。
编码层510接收(例如,来自用于编码堆栈中的第一层的输入网络或来自用于编码堆栈中的所有其他层的下一个最低层的层输出的)层输入,并且将其提供给多头注意层511的所有三个(q、k和v)输入,因而多头注意层511被配置为自我注意网络。多头注意层511的每个头与注意网络400一致。在一些实施例中,多头注意层511包括三个头,然而,其他数目的头比如两个或三个以上也是可能的。在一些实施例中,每个注意层具有200的尺寸和128的隐藏大小。多头注意层511的输出被提供至前馈网络512,而前馈网络512的输入和输出二者被提供至加法和归一化模块513(其生成用于编码层510的层输出)。在一些实施例中,前馈网络512是实施等式11的双层感知器(perceptron)网络,在等式11中,γ是给前馈网络512的输入,并且Mi和bi分别是感知器网络中每个层的权重和偏差。在一些实施例中,加法和归一化模块513基本上类似于加法和归一化模块450。
FF(γ)=max(0,γM1+b1)M2+b2 等式11
解码层530接收(例如,来自用于解码堆栈中的第一层的输入网络或来自用于解码堆栈中的所有其他层的下一个最低层的层输出的)层输入,并且将其提供至多头注意层521的所有三个(q、k和v)输入,因而多头注意层521被配置为自我注意网络。多头注意层521的每个头与注意网络400一致。在一些实施例中,多头注意层521包括三个头,然而,其他数目的头比如两个或三个以上也是可能的。多头注意层511的输出被提供为给另一个多头注意层522的q输入,并且多头注意层522的k和v输入与由对应的编码层输出的编码
Figure BDA0002626304900000081
一起被提供。多头注意层521的每个头与注意网络400一致。在一些实施例中,多头注意层522包括三个头,然而,其他数目的头比如两个或三个以上也是可能的。在一些实施例中,每个注意层具有200的尺寸和128的隐藏大小。多头注意层522的输出被提供至前馈网络523,而前馈网络523的输入和输出二者被提供至加法和归一化模块524(其生成用于编码层510的层输出)。在一些实施例中,前馈网络523与加法和归一化模块524分别基本上类似于前馈网络512与加法和归一化模块513。
再次参考图3,基于自我注意的多层转换器的编码侧的输出(例如,图3的实施例中的
Figure BDA0002626304900000082
)被传送至biLSTM 360(其生成最终的编码序列h)。然后,将最终的编码序列h传送至词发生器370,如下面关于图6进一步详细地描述的。在一些实施例中,biLSTM 360具有200的隐藏大小。
基于自我注意的多层转换器的解码侧的输出是向量序列z。向量序列z也被传送至词发生器370,并且随着生成回答p中的每个词,它们被传送回基于自我注意的多层转换器的解码侧的第一层。
图6是根据一些实施方案的词发生器370的简化图。词发生器370将z视为输入向量序列,并且将h视为其用于注意的语境。词发生器迭代操作以生成用于系统300的回答p。首先使用哨兵条目初始化回答p,在生成完整的回答p后移除该哨兵条目。在每次迭代t(如图6中的下标所表示的)时,如下面进一步描述的,将回答p中的下一个词生成为pt
在时间步长t处,单层单向LSTM 610基于如下使用等式12产生语境调整的隐藏状态
Figure BDA0002626304900000091
来自基于自我注意的多层转换器的解码器侧的先前的输入zt-1和来自先前的时间步长t的先前的隐藏状态
Figure BDA0002626304900000092
以及先前的语境调整的隐藏状态
Figure BDA0002626304900000093
的级联。
Figure BDA0002626304900000094
然后,注意层620基于最终编码序列h和语境调整的隐藏状态
Figure BDA0002626304900000095
使用等式13生成注意权重的向量αt,其代表每个编码时间步长与当前的解码器状态的相关性,在等式13中,H是在时间维度上堆叠的h的元素,并且W1和b1是用于注意层620的可训练的权重和偏差。
Figure BDA0002626304900000096
然后,包括tanh层630和softmax层640的词汇(vocabulary)层生成在词汇pvocab(wt)中的每个词上的分布,这些词作为回答p的下一个词pt的候选。tanh层630基于注意权重αt、最终编码序列h和语境调整的隐藏状态
Figure BDA0002626304900000097
使用等式14生成用于当前的时间步长的隐藏状态
Figure BDA0002626304900000098
在等式14中,H是在时间维度上堆叠的h的元素,并且W2和b2是用于tanh层630的可训练的权重和偏差。
Figure BDA0002626304900000099
softmax层640基于隐藏状态
Figure BDA00026263049000000910
使用等式15生成在词汇pvocab(wt)中的每个词上的分布,这些词作为回答p的下一个词pt的候选,在等
式15中,Wout和bout是用于softmax层640的可训练的权重和偏差。
Figure BDA00026263049000000911
语境层650基于注意权重αt使用等式16生成在语境c(pcopy(wt))中的每个词上的分布,这些词作为回答p的下一个词pt的候选。
Figure BDA00026263049000000912
切换器(switch)660决定如何对pvocab(wt)和pcopy(wt)分布相对于彼此进行加权。切换器660首先基于隐藏状态
Figure BDA0002626304900000101
语境调整的隐藏状态
Figure BDA0002626304900000102
和来自基于自我注意的多层转换器的解码器侧的先前的输入zt-1的级联,使用等式17生成加权因子γ,在等式17中,σ表示S型(sigmoid)传递函数(比如对数S型、双曲正切S型等),并且Wswitch是用于加权因子层的可训练的权重。在一些实施例中,可以使用可训练的偏差bswitch进一步确定加权因子γ。
Figure BDA0002626304900000103
然后,切换器660使用加权因子γ使用等式18生成词汇中的词与语境中的词的并集上的最终输出分布。然后,可以基于p(wt)中具有最大权重的词来确定回答p中的下一个词pt
p(wt)=γpvocab(wt)+(1–γ)pcopy 等式18
如上所讨论并且在此进一步强调,图3仅仅是实施例,其不应当不适当地限制权利要求的范围。本领域普通技术人员将认识到许多变化、替代和修改。根据一些实施方案,系统300中的一个或多个层是可选的并且可以被省略。在一些实施例中,线性层310和/或315是可选的,并且在如下情况下可以被省略:用于语境c和问题q的编码分别被直接传送至biLSTM 320和325。在一些实施例中,biLSTM 320和/或325是可选的,并且在如下情况下可以被省略:线性层310和315的输出被直接传送至协同注意层330。在一些实施例中,线性层310与315和biLSTM 320与325是可选的,并且在如下情况下可以被省略:用于语境c和问题q的编码被直接传送至协同注意层330。
由于系统300被用于多个任务(例如,分类(比如情感分析)、语言翻译和问答),并且跨越所有任务类型为各个层共享其参数,因此如果系统300不被仔细地训练,则可能遭受灾难性遗忘。为解决这个问题,在一些实施方案中,可以根据联合策略训练系统300,在该联合策略中,使用训练样本被呈现的排序来训练系统300,以便针对每种任务类型的平衡的混合同时地训练系统300。也就是说,训练样本被呈现给系统300的次序从不同的任务类型选择连续的训练样本或连续的(例如,2至10个左右)训练样本小组。在一些实施例中,联合策略包括在训练的每次迭代的情况下,从任务类型中的一个不同的任务类型选择训练样本(语境c、问题q和基准真实(ground truth)回答)。联合策略的目标是针对每种任务类型同时训练,而不是过度关注于某一种任务类型。然而,在实践中,虽然系统300学习每种任务类型,但是它并非很好地学习了任意任务类型。Collobert等人的“A Unified Architecturefor Natural Language Processing:Deep Neural Networks with Multitask Learning”(2008年机器学习国际会议,第160-167页)和Hashimoto等人的“A Joint Many-taskModel:Growing a Neural Network for Multiple NLP Tasks”(2017年自然语言处理经验方法会议,第1923-1933页)对联合训练策略进行了更详细的描述,其通过引用以其整体并入本文。
在一些实施方案中,可以根据依序式(sequential)训练策略训练系统300,在该依序式训练策略中,使用训练样本被呈现的排序来训练系统300,以便针对每个任务类型单独地训练系统300。也就是说,将训练样本呈现给系统300进行训练的排序是呈现用于第一任务类型的每个样本,然后呈现用于第二任务类型的每个训练样本,依此类推,然后再次呈现再次用于第一任务类型的每个样本等。在依序式训练策略中,当针对任务类型中的一种的训练完成并且训练切换为第二种任务类型时,开始出现第一种任务类型的灾难性遗忘。然而,在依次多次传送用于每种任务类型的训练样本后,系统300开始更快速地恢复每种先前训练的任务类型的训练,并且收集休眠的知识(dormant knowledge)。在一些实施例中,由于当在任务类型之间切换训练时发生灾难性遗忘,系统300通常仅展现出对最后训练任务类型的强烈学习。Kirkpatrick等人的“Overcoming Catastrophic Forgetting in NeuralNetworks”(美国国家科学院院刊,2017年,第3521至3526页)对依序式训练策略进行了更详细的描述,其全部内容通过引用并入本文。
在一些实施方案中,已经提出了解决联合训练策略和依序式训练策略的局限的尝试。在一些实施例中,这些包括生成计算成本昂贵的费希尔信息(Fisher information)、使用特定于任务的修改(例如,打包策略和/或适应策略)等,该特定于任务的修改对用于所有任务类型的统一系统的目标造成负面影响。
在一些实施方案中,可以根据混合训练策略训练系统300。在混合训练策略中,最初使用依序式训练策略训练系统300。这允许系统300收集每种任务类型的休眠的知识。在通过用于每种任务类型的训练样本进行多次传送后,然后使用联合训练策略训练系统300。由于来自初始依序式训练的休眠的知识,与没有初始依序式训练的单独的联合训练相比,即使在执行多任务处理时,接下来的联合训练能够更有效地学习每种任务类型。通过允许系统300在初始依序式训练期间将先前训练的任务类型完全抑制(repress)为休眠的知识,混合训练策略给予系统300更多时间专注于针对每种任务类型进行特化。在一些实施例中,混合训练策略使学习每种任务类型的目标从学习如何一起完成所有任务类型分离。因此,当训练切换为联合训练策略时,系统300很好地准备学习每种任务类型。
在一些实施方案中,根据合成训练策略训练系统300,该合成训练策略是混合训练策略的变化。在合成训练策略中,最初使用依序式训练策略训练系统300,但是在依序式训练期间以固定的间隔和进行固定数目的迭代,训练切换为跨越先前已经训练的每种任务类型的联合训练策略,然后返回依序式训练策略。通过临时切换至用于先前学习的任务类型的联合训练策略,系统300更常常被提醒旧的任务类型,并且还被迫将旧知识与新知识合成。
图7是根据一些实施方案的多任务学习方法700的简化图。可以至少部分地以存储在非暂时性的、有形的机器可读介质上的可执行代码的形式实施方法700的过程710-780中的一个或多个,当由一个或多个处理器运行时,可执行代码可能使一个或多个处理器执行过程710-780中的一个或多个。在一些实施方案中,方法700可以被用作用于训练系统300的混合训练策略,然而,方法700还可以被用于训练系统300以外的其他多任务系统。在一些实施方案中,通过方法700训练的任务类型可以包括各个自然语言处理任务(比如语言翻译、分类(例如,情感分析)、问答等)中的任何一个。
在过程710,根据第一训练策略选择训练样本。在一些实施方案中,第一训练策略是依序式训练策略,其中从用于第一任务类型的训练样本选择训练样本,直到用于第一任务类型的每个训练样本均被选择,然后从不同于第一任务类型的第二任务类型选择训练样本,直到用于第二任务类型的每个训练样本均被选择。然后,从附加的任务类型(如果有的话)选择训练样本,进而在用于每种任务类型的每个训练样本均被选择后,发生向下一个任务类型的切换。在一些实施例中,选择的训练样本包括自然语言语境、自然语言问题和对应于语境与问题的基准真实自然语言回答。
在过程720,将选择的训练样本呈现给系统。在一些实施例中,系统是系统300。当训练样本被应用于系统时,系统根据当前训练的参数(例如,权重和偏差)通过系统的各个层进行前馈,并且生成回答。在一些实施例中,回答是自然语言短语。
在过程730,基于误差调整系统。将在过程720期间由系统生成的回答与选择的训练样本的基准真实回答进行比较,并且确定选择的训练样本的误差。然后,可以使用反向传播将误差反馈回至系统300,以更新层的各种参数(例如,权重和偏差)。在一些实施例中,可以使用随机梯度下降(SGD)训练算法、自适应矩估计(adaptive moment estimation,ADAM)训练算法等执行反向传播。在一些实施例中,用于反向传播的梯度可以被裁剪(clip)为1.0。在一些实施例中,学习衰减率(learning decay rate)可以与Vaswani等人2017年6月12日提交的“Attention is All You Need”,arXiv preprint arXiv:1706.03762使用的速率相同。
在过程740,确定是否从第一训练策略切换为第二训练策略。在一些实施例中,在用于每种任务类型的每个训练样本已经被选择了预定次数后,出现切换为第二训练策略的决定。在一些实施例中,预定次数可以是五次,但是也可以使用任何其他数目比如三次、四次和/或六次或更多次。在一些实施例中,一个或多个其他因素可以被用于做出何时切换为第二训练策略的决定。在一些实施例中,一个或其他因素可以包括:在每次传送训练样本的情况下,监测用于每种任务类型的性能指标的变化,并且当在每次传送后每个性能指标的改进的低于阈值量时进行切换。当确定不切换为第二训练策略时,方法700返回过程710,在该过程710中,继续根据第一训练策略选择训练样本。当确定切换为第二学习训练策略时,使用第二训练策略选择训练样本的选择的出现开始于过程750。
在过程750,根据第二训练策略选择训练样本。在一些实施例中,第二训练策略是联合训练策略,其中从用于每种任务类型的训练样本均等地选择训练样本。
在过程760,使用与过程720基本上相同的过程将选择的训练样本呈现给系统。
在过程770,使用与过程730基本上相同的过程,基于误差调整系统。
在过程780,确定训练是否完成。在一些实施例中,训练在已经将用于每种任务类型的训练样本呈现给系统预定次数后完成。在一些实施例中,预定次数可以是八次,但是也可以使用任何其他数目比如两次至七次和/或九次或更多次。在一些实施例中,可以使用一个或多个其他因素做出何时完成训练的决定。在一些实施例中,一个或其他因素可以包括:在每次通过训练样本传送的情况下,监测用于每种任务类型的性能指标的变化,并且当在每次传送后每个性能指标的改进低于阈值量时,记录完成训练。当确定训练未完成时,方法700返回过程740,在该过程740中,根据第二训练策略继续选择训练样本。当确定训练完成时,方法700结束,并且经训练的系统现在可以被用于其被训练的任何任务。
在训练完成后,可以使用与过程720和/或760基本上类似的过程将经训练的系统用于任何任务类型,其中可以将语境c和问题q呈现给系统并且根据(根据方法700训练的)参数(例如,权重和偏差)通过系统的各个层进行前馈。然后,生成的回答对应于呈现的语境c和问题q的答复。
如上面讨论并且在此进一步强调的,图7仅仅是实施例,其不应当不适当地限制权利要求的范围。本领域普通技术人员将认识到许多变化、替代和修改。在一些实施方案中,方法700适于使用合成训练策略。在合成训练策略中,第一训练策略是依序式训练策略的变化,而第二训练策略可以是联合训练策略。依序式训练策略的变化通常包括除在根据联合训练策略选择训练样本的间隔期间之外,根据依序式训练策略选择训练样本。在一些实施例中,联合训练策略间隔的位置和放置可以基于用于每种任务类型的多个训练迭代(例如,呈现给系统的多个训练样本)。作为非限制性实施例,训练样本的选择可以包括选择用于第一任务类型的10,000个训练样本、从每种任务类型联合地选择1000个训练样本、选择用于第一任务类型的另外10,000个训练样本、从每种任务类型选择1000个训练样本联合,并且然后重复,直到给出第一任务类型的每个训练样本,并且然后选择用于第二任务类型的10,000个训练样本等。在一些实施例中,在依序式类型选择与联合类型选择之间交替之前的训练样本的数目可以基于用于每种任务类型的训练样本数目的百分比(例如,在用于各自的任务类型的训练样本数目的10%至25%的任意位置后)。
图8是根据一些实施方案的训练性能的简化图。更具体地,图8示出了根据四种任务类型的训练系统300的结果:英语到德语(EN-DE)语言翻译、英语到法语(EN-FR)语言翻译、问答和情感分类。
用于英语到德语和英语到法语翻译任务类型的训练样本基于口语翻译国际研讨会英语到德语(IWSLT EN->DE)训练集和英语到法语(IWSLT EN->FR)训练集,这些训练集包含从TED演讲转录(transcribe)的大约210,000个句对(sentence pair)。用于两种语言翻译任务类型的性能指标是BLEU分数。
用于问答任务类型的训练样本基于斯坦福问答数据集(SQuAD),其包含10,570个基于与来自维基百科文章的段落样本有关的问题的训练样本。用于问答任务类型的性能指标是F1分数。
用于情感分类任务类型的训练样本基于斯坦福情感树库(SST),其中去除了中性实例。SST包含大约56,400个基于电影评论及其情感的训练样本。用于情感分类任务类型的性能指标是准确匹配的百分比。
图8进一步示出了根据先前描述的性能指标的每种任务类型的学习结果。示出了每种任务类型的三个结果。单个列指示当仅使用用于指示的任务类型的训练样本训练系统300时的各自的性能指标。联合列指示当使用联合训练策略训练系统300时的相同的性能指标。混合列指示当使用方法700的混合训练策略训练系统300时的相同的性能指标。如预期的,由于允许系统300的每个版本特化于单个任务,单个任务类型训练结果具有最高的性能指标。联合列示出使用联合训练策略导致明显较差的结果,并且混合列示出使用方法700的混合训练策略相对于联合训练策略改进。进一步,除情感分类任务类型之外,方法700的混合训练策略导致相对于联合训练策略明显更优越的性能结果。
图9A至9C是根据一些实施方案的训练性能的简化图。图9A跟踪当针对每种任务类型分别训练系统300时,用于每种任务类型的训练迭代上的各自的性能指标。(例如,与图8的单个列比较。)因而,图9A示出了系统300的四个单独训练版本的结果。图9B跟踪当根据联合训练策略训练系统300时的各自的性能指标。如图9B的性能指标指示的,除SST分类任务类型之外,使用联合训练策略训练的系统300的版本没有特别好地学习任意任务类型。图9C跟踪当根据方法700的混合训练策略训练系统300时的各自的性能指标。图9C中清晰可见得是,随着训练样本在初始依序式训练期间从一种任务类型切换为另一种任务类型的灾难性遗忘的影响。在使用依序式训练策略已经呈现来自每种任务类型的训练样本五次并且训练策略切换为联合训练策略(在大约迭代250,000处)后,性能指标迅速提高至比图9B的仅仅联合训练策略的途径的性能指标更好并且更紧密地达到图9A中的系统300的单独训练的版本的性能指标的值。
图10A和10B是根据一些实施方案的基于训练次序的训练性能的简化图。图10A和10B证实了在混合训练策略的初始依序式训练期间改变将用于各种任务类型的训练呈现给系统300的次序的影响。如图10A中所示出的,当首先使用来自英语到德语(IWSLT EN->DE)语言翻译任务类型的训练样本训练系统300时(在使用来自情感分类(SST)任务类型的训练样本训练系统300之前),当再次从英语到德语翻译任务类型提取(draw)训练样本时,系统300能够快速恢复其英语到德语翻译知识。相反,图10B示出了当首先针对情感分类任务类型训练系统300时(在针对英语到德语翻译任务类型训练系统300之前),系统300不能够很好地学习英语到德语翻译任务类型。据推测,这是由于针对英语到德语的翻译任务类型的初始训练(由于培训样本更高的复杂性和丰富性)导致了更好的初始编码知识。
计算设备(比如计算设备100)的一些实施例可以包括非暂时性的、有形的机器可读介质,机器可读介质包括可执行代码,当由一个或多个处理器(例如,处理器210)运行时,可执行代码可以使一个或多个处理器执行方法700的过程。可以包括方法700的过程的机器可读介质的一些常见形式例如是软盘、软磁盘、硬盘、磁带、任何其他磁性介质、CD-ROM、任何其他光学介质、打孔卡、纸带、具有孔图案的任何物理介质、RAM、PROM、EPROM、FLASH-EPROM、任何其他存储器芯片或盒和/或处理器或计算机适于由其读取的任何其他介质。
展示发明方面、实施方案、实施或应用的描述和附图不应当被视为限制性的。在不脱离本说明书和权利要求书的精神和范围的情况下,可以进行各种机械、组成、结构、电气和操作上的改变。在其他实例中,未详细示出或描述众所周知的方法、结构或技术,以免模糊对本说明书的理解。两个或更多个图中相似的附图标记表示相同或相似的要素。
在描述中,阐述了描述与本公开文本一致的一些实施方案的特定细节。在以下说明中,阐述了许多特定细节以便提供对实施方案的透彻理解。然而,对于本领域的技术人员来说明显的,可以在没有这些特定细节的一些或全部情况下实施这些实施方案。本文公开的特定实施方案意在是说明性的而非限制性的。尽管这里没有特定地描述,但是本领域技术人员可以认识到在本公开文本的范围和精神内的其他要素。此外,为避免不必要的重复,除非另外特定地说明或如果一个或多个特征使一个实施方案不起作用,否则与一个实施方案相关联示出和描述的一个或多个特征可以结合至其他实施方案。
尽管已经示出和描述了说明性实施方案,但是在前述公开内容中设想了广泛的修改、改变和替换,并且在一些情况下,可以采用实施方案的一些特征而不分别使用其他特征。本领域普通技术人员将认识到许多变化、替代和修改。因此,发明的范围应当仅由所附权利要求书限制,并且权利要求书被广泛地解释并且以与本文公开的实施方案的范围一致的方式是适当的。

Claims (20)

1.一种用于自然语言处理的系统,所述系统包括:
一个或多个处理器;和
存储器,用于存储计算机可执行指令,所述计算机可执行指令当由所述一个或多个处理器执行时,使所述系统执行包括如下的操作:
使用输入层,编码来自语境的第一批词和来自问题的第二批词;
使用基于自我注意的转换器,编码和解码所述输入层的输出;
使用第一双向长期短期记忆biLSTM,进一步编码所述编码的输出;
使用长期短期记忆LSTM,由所述解码的输出和第一时间步长的第一隐藏状态生成语境调整的隐藏状态;
使用注意网络,基于所述第一双向长期短期记忆biLSTM的输出和所述长期短期记忆LSTM的输出生成第一注意权重;
使用词汇层,基于所述第一注意权重生成在词汇中的第三批词上的分布;
使用语境层,基于所述第一注意权重生成在来自所述语境的所述第一批词上的分布;和
使用切换器,生成在来自所述词汇的所述第三批词上的分布与来自所述语境的所述第一批词上的分布之间的加权;
使用切换器,基于来自所述词汇的所述第三批词上的分布和来自所述语境的所述第一批词上的分布之间的所述加权生成复合分布;和
使用切换器,使用所述复合分布选择用于包含在回答中的词。
2.根据权利要求1所述的系统,其中所述输入层包括线性层、第二双向长期短期记忆biLSTM、协同注意层和第三双向长期短期记忆biLSTM中的一种或多种。
3.根据权利要求2所述的系统,其中所述协同注意层:
生成在所述语境和所述问题的编码的表示之间的关联矩阵;
基于所述关联矩阵生成第二注意权重;和
使用所述第二注意权重生成所述语境和所述问题的加权总和。
4.根据权利要求1所述的系统,其中所述词汇层包括:
tanh层,用于基于所述第一注意权重、所述编码的输出的进一步编码和所述语境调整的隐藏状态,生成在所述第一时间步长之后的第二时间步长的第二隐藏状态;和
softmax层,用于基于所述第二隐藏状态生成在所述词汇中的所述第三批词上的分布。
5.根据权利要求1所述的系统,其中所述基于自我注意的转换器、所述长期短期记忆LSTM、所述注意网络、所述词汇层、所述语境层和所述切换器迭代地选择用于所述回答的每个词。
6.根据权利要求1所述的系统,其中所述基于自我注意的转换器包括多个转换器层,所述多个转换器层中的每个包括编码器部分和解码器部分,所述编码器部分具有第一多头自我注意网络,所述解码器部分具有第二多头自我注意网络和第三多头自我注意网络。
7.根据权利要求1所述的系统,其中使用混合训练策略训练所述系统,在所述混合训练策略中,首先针对多种任务类型使用依序式训练策略训练所述系统,然后针对所述多种任务类型使用联合训练策略训练所述系统。
8.根据权利要求7所述的系统,其中所述多种任务类型中的每种是语言翻译任务类型、分类任务类型或问答任务类型。
9.一种用于自然语言处理的方法,所述方法包括:
接收来自语境的第一批词和来自问题的第二批词;
使用输入层编码来自所述语境的所述第一批词和来自所述问题的所述第二批词,以生成第一编码;
使用基于自我注意的转换器进一步编码所述第一编码,以生成来自所述语境的所述第一批词和来自所述问题的所述第二批词的第二编码;
使用所述基于自我注意的转换器解码所述第二编码,以生成解码器输出;
使用第一双向长期短期记忆biLSTM进一步编码所述第二编码,以生成第三编码;
使用长期短期记忆LSTM由所述第三编码和第一时间步长的第一隐藏状态生成语境调整的隐藏状态;
基于所述第三编码和所述语境调整的隐藏状态,使用注意网络生成第一注意权重;
基于所述第一注意权重,使用词汇层生成在词汇中的第三批词上的分布;
基于所述第一注意权重,使用语境层生成在来自所述语境的所述第一批词上的分布;
使用切换器生成在来自所述词汇的所述第三批词上的分布与来自所述语境的所述第一批词上的分布之间的加权;
基于来自所述词汇的所述第三批词上的分布与来自所述语境的所述第一批词上的分布之间的所述加权,使用所述切换器生成复合分布;和
使用所述复合分布,使用所述切换器选择用于包含在回答中的词。
10.根据权利要求9所述的方法,进一步包括:
使用协同注意层生成在所述语境和所述问题的编码的表示之间的关联矩阵;
基于所述关联矩阵,使用所述协同注意层生成第二注意权重;和
使用所述第二注意权重,使用所述协同注意层生成所述语境和所述问题的加权总和。
11.根据权利要求9所述的方法,进一步包括:
基于所述第一注意权重、所述第二编码和所述语境调整的隐藏状态,使用所述词汇层的tanh层,生成在所述第一时间步长之后的第二时间步长的第二隐藏状态;和
基于所述第二隐藏状态,使用所述词汇层的softmax层生成在词汇中的所述第三批词上的分布。
12.根据权利要求9所述的方法,进一步包括使用所述基于自我注意的转换器、所述长期短期记忆LSTM、所述注意网络、所述词汇层、所述语境层和所述切换器,迭代地选择用于所述回答的每个词。
13.根据权利要求9所述的方法,其中:
生成所述第二编码包括使用一个或多个编码层,其中每个编码层具有第一多头自我注意网络;和
生成所述解码器输出包括使用一个或多个解码层,每个解码层具有第二多头自我注意网络和第三多头自我注意网络。
14.一种非暂时性机器可读介质,其包括多个机器可读指令,所述多个机器可读指令当由与计算设备相关联的一个或多个处理器执行时,适于使所述一个或多个处理器执行包括如下的方法:
接收来自语境的第一批词和来自问题的第二批词;
编码来自所述语境的所述第一批词和来自所述问题的所述第二批词以生成第一编码;
使用基于自我注意的转换器进一步编码所述第一编码,以生成来自所述语境的所述第一批词和来自所述问题的所述第二批词的第二编码;
使用基于自我注意的转换器解码所述第二编码,以生成解码器输出;
进一步编码所述第二编码以生成第三编码;
由所述第三编码和第一时间步长的第一隐藏状态生成语境调整的隐藏状态;
基于所述第三编码和所述语境调整的隐藏状态,生成第一注意权重;
基于所述第一注意权重生成在词汇中的第三批词上的分布;
基于所述第一注意权重生成在来自所述语境的所述第一批词上的分布;
生成在来自所述词汇的所述第三批词上的分布与来自所述语境的所述第一批词上的分布之间的加权;
基于来自所述词汇的所述第三批词上的分布和来自所述语境的所述第一批词上的分布之间的所述加权,生成复合分布;和
使用所述复合分布,选择用于包含在回答中的词。
15.根据权利要求14所述的非暂时性机器可读介质,其中所述方法进一步包括:
生成在所述语境和所述问题的编码的表示之间的关联矩阵;
基于所述关联矩阵生成第二注意权重;和
使用所述第二注意权重生成所述语境和所述问题的加权总和。
16.根据权利要求14所述的非暂时性机器可读介质,其中所述方法进一步包括:
基于所述第一注意权重、所述第二编码和所述语境调整的隐藏状态,生成在所述第一时间步长之后的第二时间步长的第二隐藏状态;和
基于所述第二隐藏状态,生成在所述词汇中的所述第三批词上的分布。
17.根据权利要求14所述的非暂时性机器可读介质,其中所述方法进一步包括迭代地选择用于所述回答的每个词。
18.根据权利要求14所述的非暂时性机器可读介质,其中:
生成所述第二编码包括使用一个或多个编码层,其中每个编码层具有第一多头自我注意网络;和
生成所述解码器输出包括使用一个或多个解码层,每个解码层具有第二多头自我注意网络和第三多头自我注意网络。
19.根据权利要求14所述的非暂时性机器可读介质,其中所述方法进一步包括使用混合训练策略进行训练,所述混合训练策略包括首先针对多种任务类型使用依序式训练策略进行训练,然后针对所述多种任务类型使用联合训练策略进行训练。
20.根据权利要求19所述的非暂时性机器可读介质,其中所述多种任务类型中的每种是语言翻译任务类型、分类任务类型或问答任务类型。
CN201980012699.4A 2018-02-09 2019-01-30 作为问答的多任务学习 Active CN111699498B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862628850P 2018-02-09 2018-02-09
US62/628,850 2018-02-09
US15/974,118 US10776581B2 (en) 2018-02-09 2018-05-08 Multitask learning as question answering
US15/974,118 2018-05-08
PCT/US2019/015909 WO2019156875A1 (en) 2018-02-09 2019-01-30 Multitask learning as question answering

Publications (2)

Publication Number Publication Date
CN111699498A CN111699498A (zh) 2020-09-22
CN111699498B true CN111699498B (zh) 2021-08-13

Family

ID=67540543

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201980012680.XA Active CN111712836B (zh) 2018-02-09 2019-01-30 作为问答的多任务学习
CN201980012699.4A Active CN111699498B (zh) 2018-02-09 2019-01-30 作为问答的多任务学习

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201980012680.XA Active CN111712836B (zh) 2018-02-09 2019-01-30 作为问答的多任务学习

Country Status (5)

Country Link
US (3) US11501076B2 (zh)
EP (2) EP3750111A1 (zh)
JP (3) JP6952201B2 (zh)
CN (2) CN111712836B (zh)
WO (2) WO2019156873A1 (zh)

Families Citing this family (120)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10565305B2 (en) 2016-11-18 2020-02-18 Salesforce.Com, Inc. Adaptive attention model for image captioning
US11386327B2 (en) 2017-05-18 2022-07-12 Salesforce.Com, Inc. Block-diagonal hessian-free optimization for recurrent and convolutional neural networks
US10817650B2 (en) 2017-05-19 2020-10-27 Salesforce.Com, Inc. Natural language processing using context specific word vectors
US10542270B2 (en) 2017-11-15 2020-01-21 Salesforce.Com, Inc. Dense video captioning
US11501076B2 (en) 2018-02-09 2022-11-15 Salesforce.Com, Inc. Multitask learning as question answering
US11227218B2 (en) 2018-02-22 2022-01-18 Salesforce.Com, Inc. Question answering from minimal context over documents
US10929607B2 (en) 2018-02-22 2021-02-23 Salesforce.Com, Inc. Dialogue state tracking using a global-local encoder
US10783875B2 (en) 2018-03-16 2020-09-22 Salesforce.Com, Inc. Unsupervised non-parallel speech domain adaptation using a multi-discriminator adversarial network
US11106182B2 (en) 2018-03-16 2021-08-31 Salesforce.Com, Inc. Systems and methods for learning for domain adaptation
US11600194B2 (en) * 2018-05-18 2023-03-07 Salesforce.Com, Inc. Multitask learning as question answering
US10909157B2 (en) 2018-05-22 2021-02-02 Salesforce.Com, Inc. Abstraction of text summarization
US10740536B2 (en) * 2018-08-06 2020-08-11 International Business Machines Corporation Dynamic survey generation and verification
US10970486B2 (en) 2018-09-18 2021-04-06 Salesforce.Com, Inc. Using unstructured input to update heterogeneous data stores
US11436481B2 (en) 2018-09-18 2022-09-06 Salesforce.Com, Inc. Systems and methods for named entity recognition
US11514915B2 (en) 2018-09-27 2022-11-29 Salesforce.Com, Inc. Global-to-local memory pointer networks for task-oriented dialogue
US11029694B2 (en) 2018-09-27 2021-06-08 Salesforce.Com, Inc. Self-aware visual-textual co-grounded navigation agent
US11087177B2 (en) 2018-09-27 2021-08-10 Salesforce.Com, Inc. Prediction-correction approach to zero shot learning
US11645509B2 (en) 2018-09-27 2023-05-09 Salesforce.Com, Inc. Continual neural network learning via explicit structure learning
US10891951B2 (en) * 2018-10-17 2021-01-12 Ford Global Technologies, Llc Vehicle language processing
CN109543824B (zh) * 2018-11-30 2023-05-23 腾讯科技(深圳)有限公司 一种序列模型的处理方法和装置
US10963652B2 (en) 2018-12-11 2021-03-30 Salesforce.Com, Inc. Structured text translation
US11822897B2 (en) 2018-12-11 2023-11-21 Salesforce.Com, Inc. Systems and methods for structured text translation with tag alignment
CN109800294B (zh) * 2019-01-08 2020-10-13 中国科学院自动化研究所 基于物理环境博弈的自主进化智能对话方法、系统、装置
US11922323B2 (en) 2019-01-17 2024-03-05 Salesforce, Inc. Meta-reinforcement learning gradient estimation with variance reduction
US11966389B2 (en) * 2019-02-13 2024-04-23 International Business Machines Corporation Natural language to structured query generation via paraphrasing
US11568306B2 (en) 2019-02-25 2023-01-31 Salesforce.Com, Inc. Data privacy protected machine learning systems
US11003867B2 (en) 2019-03-04 2021-05-11 Salesforce.Com, Inc. Cross-lingual regularization for multilingual generalization
US11366969B2 (en) 2019-03-04 2022-06-21 Salesforce.Com, Inc. Leveraging language models for generating commonsense explanations
US11580445B2 (en) 2019-03-05 2023-02-14 Salesforce.Com, Inc. Efficient off-policy credit assignment
US11087092B2 (en) 2019-03-05 2021-08-10 Salesforce.Com, Inc. Agent persona grounded chit-chat generation framework
US10902289B2 (en) 2019-03-22 2021-01-26 Salesforce.Com, Inc. Two-stage online detection of action start in untrimmed videos
US11281863B2 (en) 2019-04-18 2022-03-22 Salesforce.Com, Inc. Systems and methods for unifying question answering and text classification via span extraction
US11487939B2 (en) 2019-05-15 2022-11-01 Salesforce.Com, Inc. Systems and methods for unsupervised autoregressive text compression
US11562251B2 (en) 2019-05-16 2023-01-24 Salesforce.Com, Inc. Learning world graphs to accelerate hierarchical reinforcement learning
US11604965B2 (en) 2019-05-16 2023-03-14 Salesforce.Com, Inc. Private deep learning
US11620572B2 (en) 2019-05-16 2023-04-04 Salesforce.Com, Inc. Solving sparse reward tasks using self-balancing shaped rewards
US11687588B2 (en) 2019-05-21 2023-06-27 Salesforce.Com, Inc. Weakly supervised natural language localization networks for video proposal prediction based on a text query
US11669712B2 (en) 2019-05-21 2023-06-06 Salesforce.Com, Inc. Robustness evaluation via natural typos
US11775775B2 (en) 2019-05-21 2023-10-03 Salesforce.Com, Inc. Systems and methods for reading comprehension for a question answering task
US11657269B2 (en) 2019-05-23 2023-05-23 Salesforce.Com, Inc. Systems and methods for verification of discriminative models
CN110427490B (zh) * 2019-07-03 2021-11-09 华中科技大学 一种基于自注意力机制的情感对话生成方法与装置
US11615240B2 (en) 2019-08-15 2023-03-28 Salesforce.Com, Inc Systems and methods for a transformer network with tree-based attention for natural language processing
CN110597970B (zh) * 2019-08-19 2023-04-07 华东理工大学 一种多粒度医疗实体联合识别的方法及装置
CN110598221B (zh) * 2019-08-29 2020-07-07 内蒙古工业大学 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法
CN110704588B (zh) * 2019-09-04 2023-05-30 平安科技(深圳)有限公司 基于长短期记忆网络的多轮对话语义分析方法和系统
US11600067B2 (en) * 2019-09-12 2023-03-07 Nec Corporation Action recognition with high-order interaction through spatial-temporal object tracking
CN110766955B (zh) * 2019-09-18 2022-08-26 平安科技(深圳)有限公司 基于动作预测模型的信号调节方法、装置和计算机设备
US11568000B2 (en) 2019-09-24 2023-01-31 Salesforce.Com, Inc. System and method for automatic task-oriented dialog system
US11599792B2 (en) 2019-09-24 2023-03-07 Salesforce.Com, Inc. System and method for learning with noisy labels as semi-supervised learning
US11640527B2 (en) 2019-09-25 2023-05-02 Salesforce.Com, Inc. Near-zero-cost differentially private deep learning with teacher ensembles
CN110674783B (zh) * 2019-10-08 2022-06-28 山东浪潮科学研究院有限公司 一种基于多级预测架构的视频描述方法及系统
KR20210043995A (ko) * 2019-10-14 2021-04-22 삼성전자주식회사 모델 학습 방법 및 장치, 및 시퀀스 인식 방법
CN110738059B (zh) * 2019-10-21 2023-07-14 支付宝(杭州)信息技术有限公司 一种文本相似度计算方法及系统
CN110866098B (zh) * 2019-10-29 2022-10-28 平安科技(深圳)有限公司 基于transformer和lstm的机器阅读方法、装置及可读存储介质
US11620515B2 (en) 2019-11-07 2023-04-04 Salesforce.Com, Inc. Multi-task knowledge distillation for language model
US11347708B2 (en) 2019-11-11 2022-05-31 Salesforce.Com, Inc. System and method for unsupervised density based table structure identification
US11334766B2 (en) 2019-11-15 2022-05-17 Salesforce.Com, Inc. Noise-resistant object detection with noisy annotations
US11288438B2 (en) 2019-11-15 2022-03-29 Salesforce.Com, Inc. Bi-directional spatial-temporal reasoning for video-grounded dialogues
US11922303B2 (en) 2019-11-18 2024-03-05 Salesforce, Inc. Systems and methods for distilled BERT-based training model for text classification
US11537899B2 (en) 2019-11-18 2022-12-27 Salesforce.Com, Inc. Systems and methods for out-of-distribution classification
CN110969010A (zh) * 2019-12-06 2020-04-07 浙江大学 一种基于关系指导及双通道交互机制的问题生成方法
KR20210071471A (ko) * 2019-12-06 2021-06-16 삼성전자주식회사 뉴럴 네트워크의 행렬 곱셈 연산을 수행하는 장치 및 방법
US11748356B2 (en) 2019-12-06 2023-09-05 Nec Corporation Answering complex queries in knowledge graphs with bidirectional sequence encoders
CN111027562B (zh) * 2019-12-06 2023-07-18 中电健康云科技有限公司 基于多尺度cnn和结合注意力机制的rnn的光学字符识别方法
US11487999B2 (en) 2019-12-09 2022-11-01 Salesforce.Com, Inc. Spatial-temporal reasoning through pretrained language models for video-grounded dialogues
US11256754B2 (en) 2019-12-09 2022-02-22 Salesforce.Com, Inc. Systems and methods for generating natural language processing training samples with inflectional perturbations
US11640505B2 (en) 2019-12-09 2023-05-02 Salesforce.Com, Inc. Systems and methods for explicit memory tracker with coarse-to-fine reasoning in conversational machine reading
US11573957B2 (en) 2019-12-09 2023-02-07 Salesforce.Com, Inc. Natural language processing engine for translating questions into executable database queries
US11416688B2 (en) 2019-12-09 2022-08-16 Salesforce.Com, Inc. Learning dialogue state tracking with limited labeled data
CN111160038A (zh) * 2019-12-16 2020-05-15 浙江大学 一种基于自注意机制进行视频对话答案与问题的生成方法
CN111160050A (zh) * 2019-12-20 2020-05-15 沈阳雅译网络技术有限公司 一种基于上下文记忆网络的篇章级神经机器翻译方法
CN111125316B (zh) * 2019-12-26 2022-04-22 北京工业大学 一种融合多损失函数及注意力机制的知识库问答方法
US11669745B2 (en) 2020-01-13 2023-06-06 Salesforce.Com, Inc. Proposal learning for semi-supervised object detection
CN111241244A (zh) * 2020-01-14 2020-06-05 平安科技(深圳)有限公司 基于大数据的答案位置获取方法、装置、设备及介质
US11562147B2 (en) 2020-01-23 2023-01-24 Salesforce.Com, Inc. Unified vision and dialogue transformer with BERT
US11948665B2 (en) 2020-02-06 2024-04-02 Salesforce, Inc. Systems and methods for language modeling of protein engineering
US11921711B2 (en) * 2020-03-06 2024-03-05 Alibaba Group Holding Limited Trained sequence-to-sequence conversion of database queries
CN111476031A (zh) * 2020-03-11 2020-07-31 重庆邮电大学 一种基于Lattice-LSTM的改进中文命名实体识别方法
US11263476B2 (en) 2020-03-19 2022-03-01 Salesforce.Com, Inc. Unsupervised representation learning with contrastive prototypes
CN111582020A (zh) * 2020-03-25 2020-08-25 平安科技(深圳)有限公司 信号处理方法、装置、计算机设备及存储介质
US11328731B2 (en) 2020-04-08 2022-05-10 Salesforce.Com, Inc. Phone-based sub-word units for end-to-end speech recognition
CN111241263A (zh) * 2020-04-24 2020-06-05 支付宝(杭州)信息技术有限公司 文本生成方法、装置和电子设备
US11625543B2 (en) 2020-05-31 2023-04-11 Salesforce.Com, Inc. Systems and methods for composed variational natural language generation
US11720559B2 (en) 2020-06-02 2023-08-08 Salesforce.Com, Inc. Bridging textual and tabular data for cross domain text-to-query language semantic parsing with a pre-trained transformer language encoder and anchor text
CN111723548B (zh) * 2020-06-10 2024-04-30 腾讯科技(深圳)有限公司 评论扩展方法及装置
CN111813895B (zh) * 2020-08-07 2022-06-03 深圳职业技术学院 一种基于层次注意力机制和门机制的属性级别情感分析方法
US20220050877A1 (en) 2020-08-14 2022-02-17 Salesforce.Com, Inc. Systems and methods for query autocompletion
US11934952B2 (en) 2020-08-21 2024-03-19 Salesforce, Inc. Systems and methods for natural language processing using joint energy-based models
US11934781B2 (en) 2020-08-28 2024-03-19 Salesforce, Inc. Systems and methods for controllable text summarization
CN112100328B (zh) * 2020-08-31 2023-05-30 广州探迹科技有限公司 一种基于多轮对话的意向判断方法
CN111815426B (zh) * 2020-09-11 2020-12-15 深圳司南数据服务有限公司 一种涉及金融投研的数据处理方法及终端
CN112131362B (zh) * 2020-09-22 2023-12-12 腾讯科技(深圳)有限公司 对话语句生成方法和装置、存储介质及电子设备
US11829442B2 (en) 2020-11-16 2023-11-28 Salesforce.Com, Inc. Methods and systems for efficient batch active learning of a deep neural network
CN112131370B (zh) * 2020-11-23 2021-03-12 四川大学 问答模型构建方法及系统、问答方法及装置、审判系统
CN112508265A (zh) * 2020-12-02 2021-03-16 中国极地研究中心 面向业务流程管理的时间与活动多任务预测方法及系统
CN113377961B (zh) * 2020-12-07 2022-12-06 北京理工大学 基于知识图谱和用户主题的意图-语义槽联合识别系统
CN112487172B (zh) * 2020-12-16 2023-07-18 北京航空航天大学 一种面向深度答案推荐模型的主动学习方法
CN112257393B (zh) * 2020-12-22 2021-04-13 北京百度网讯科技有限公司 实现文本生成的方法、装置、设备和介质
CN112669816B (zh) * 2020-12-24 2023-06-02 北京有竹居网络技术有限公司 模型的训练方法、语音识别方法、装置、介质及设备
CN112905819B (zh) * 2021-01-06 2022-09-23 中国石油大学(华东) 基于复合注意力的原始特征注入网络的视觉问答方法
CN112699244A (zh) * 2021-03-16 2021-04-23 成都信息工程大学 基于深度学习的输变电设备缺陷文本分类方法及系统
CN112905777B (zh) * 2021-03-19 2023-10-17 北京百度网讯科技有限公司 一种扩展问推荐方法、装置、电子设备及存储介质
US11715480B2 (en) * 2021-03-23 2023-08-01 Qualcomm Incorporated Context-based speech enhancement
CN113127591B (zh) * 2021-04-13 2022-09-23 河海大学 一种基于Transformer和LSTM的位置预测方法
CN113011196B (zh) * 2021-04-28 2023-01-10 陕西文都教育科技有限公司 一种概念增强表示与单向蕴含注意力的主观题自动阅卷神经网络模型
CN115438156B (zh) * 2021-05-17 2024-02-02 中山大学 一种多任务学习的答案选择和问题分类的方法及系统
CN113032545B (zh) * 2021-05-29 2021-09-03 成都晓多科技有限公司 基于无监督对话预训练的对话理解与答案配置方法及系统
CN113901191A (zh) * 2021-06-16 2022-01-07 北京金山数字娱乐科技有限公司 问答模型的训练方法及装置
CN113627196A (zh) * 2021-07-21 2021-11-09 前海企保科技(深圳)有限公司 一种基于语境和Transformer的多语言对话机器人系统及其对话方法
US11520815B1 (en) * 2021-07-30 2022-12-06 Dsilo, Inc. Database query generation using natural language text
US11615523B2 (en) 2021-08-18 2023-03-28 Zhejiang Gongshang University Methods for recognizing small targets based on deep learning networks
CN113673594B (zh) * 2021-08-18 2022-07-12 浙江工商大学 一种基于深度学习网络的瑕疵点识别方法
CN113704437B (zh) * 2021-09-03 2023-08-11 重庆邮电大学 一种融合多头注意力机制和相对位置编码的知识库问答方法
CN113779252A (zh) * 2021-09-09 2021-12-10 安徽理工大学 一种基于electra+atten+BiLSTM的针对中文短文本情感分类方法
CN113901172B (zh) * 2021-09-16 2024-04-26 昆明理工大学 基于关键词结构编码的涉案微博评价对象抽取方法
CN113627195B (zh) * 2021-10-14 2022-01-18 华东交通大学 基于层次Transformer和图神经网络的评论情感分析方法及系统
CN114840648A (zh) * 2022-03-21 2022-08-02 阿里巴巴(中国)有限公司 答案生成方法、装置及计算机程序产品
KR20240027347A (ko) * 2022-08-23 2024-03-04 주식회사 Lg 경영개발원 입력 시퀀스를 변환하기 위한 시퀀스 변환 신경망 구현 장치 및 이를 이용한 학습 방법
CN115392260B (zh) * 2022-10-31 2023-04-07 暨南大学 一种面向特定目标的社交媒体推文情感分析方法
CN116737894B (zh) * 2023-06-02 2024-02-20 深圳市客一客信息科技有限公司 基于模型训练的智能机器人服务系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107256228A (zh) * 2017-05-02 2017-10-17 清华大学 基于结构化注意力机制的答案选择系统及方法
CN107562792A (zh) * 2017-07-31 2018-01-09 同济大学 一种基于深度学习的问答匹配方法

Family Cites Families (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040044791A1 (en) 2001-05-22 2004-03-04 Pouzzner Daniel G. Internationalized domain name system with iterative conversion
US8355550B2 (en) 2007-05-01 2013-01-15 Siemens Aktiengesellschaft Methods and apparatus for virtual coronary mapping
US8121367B2 (en) 2007-09-21 2012-02-21 Siemens Aktiengesellschaft Method and system for vessel segmentation in fluoroscopic images
US10224036B2 (en) * 2010-10-05 2019-03-05 Infraware, Inc. Automated identification of verbal records using boosted classifiers to improve a textual transcript
KR101303936B1 (ko) 2011-11-28 2013-09-05 한국과학기술연구원 가스 센서용 복합 분리막 구조체, 이를 포함하는 가스 센서 장치, 이를 이용한 가스 농도 측정 방법 및 장치
US20140006012A1 (en) * 2012-07-02 2014-01-02 Microsoft Corporation Learning-Based Processing of Natural Language Questions
US9239828B2 (en) * 2013-12-05 2016-01-19 Microsoft Technology Licensing, Llc Recurrent conditional random fields
US20150179170A1 (en) * 2013-12-20 2015-06-25 Microsoft Corporation Discriminative Policy Training for Dialog Systems
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US11113598B2 (en) 2015-06-01 2021-09-07 Salesforce.Com, Inc. Dynamic memory network
US20160350653A1 (en) * 2015-06-01 2016-12-01 Salesforce.Com, Inc. Dynamic Memory Network
CN106294505B (zh) * 2015-06-10 2020-07-07 华中师范大学 一种反馈答案的方法和装置
US20170140240A1 (en) 2015-07-27 2017-05-18 Salesforce.Com, Inc. Neural network combined image and text evaluator and classifier
US20170032280A1 (en) 2015-07-27 2017-02-02 Salesforce.Com, Inc. Engagement estimator
EP3128439A1 (en) 2015-08-07 2017-02-08 Google, Inc. Text classification and transformation based on author
WO2017031088A1 (en) 2015-08-15 2017-02-23 Salesforce.Com, Inc Three-dimensional (3d) convolution with 3d batch normalization
US20170076199A1 (en) * 2015-09-14 2017-03-16 National Institute Of Information And Communications Technology Neural network system, and computer-implemented method of generating training data for the neural network
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
JP6447465B2 (ja) 2015-11-09 2019-01-09 株式会社デンソー 運転支援装置
US10319374B2 (en) * 2015-11-25 2019-06-11 Baidu USA, LLC Deployed end-to-end speech recognition
US10102844B1 (en) * 2016-03-29 2018-10-16 Amazon Technologies, Inc. Systems and methods for providing natural responses to commands
JP2017204857A (ja) 2016-05-12 2017-11-16 現代自動車株式会社Hyundai Motor Company ネットワークにおいてストリームの通信経路設定方法
US10395646B2 (en) * 2016-05-13 2019-08-27 Microsoft Technology Licensing, Llc Two-stage training of a spoken dialogue system
WO2018047225A1 (ja) 2016-09-06 2018-03-15 三菱電機株式会社 学習装置、信号処理装置および学習方法
US10565493B2 (en) * 2016-09-22 2020-02-18 Salesforce.Com, Inc. Pointer sentinel mixture architecture
JP6870076B2 (ja) * 2016-09-26 2021-05-12 グーグル エルエルシーGoogle LLC ニューラル機械翻訳システム
US10839284B2 (en) 2016-11-03 2020-11-17 Salesforce.Com, Inc. Joint many-task neural network model for multiple natural language processing (NLP) tasks
US10929681B2 (en) 2016-11-03 2021-02-23 Nec Corporation Surveillance system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation
US11080595B2 (en) 2016-11-04 2021-08-03 Salesforce.Com, Inc. Quasi-recurrent neural network based encoder-decoder model
US10963782B2 (en) 2016-11-04 2021-03-30 Salesforce.Com, Inc. Dynamic coattention network for question answering
US10565305B2 (en) 2016-11-18 2020-02-18 Salesforce.Com, Inc. Adaptive attention model for image captioning
US10083162B2 (en) 2016-11-28 2018-09-25 Microsoft Technology Licensing, Llc Constructing a narrative based on a collection of images
US10268679B2 (en) 2016-12-02 2019-04-23 Microsoft Technology Licensing, Llc Joint language understanding and dialogue management using binary classification based on forward and backward recurrent neural network
US11250311B2 (en) 2017-03-15 2022-02-15 Salesforce.Com, Inc. Deep neural network-based decision network
US10474709B2 (en) 2017-04-14 2019-11-12 Salesforce.Com, Inc. Deep reinforced model for abstractive summarization
US10565318B2 (en) 2017-04-14 2020-02-18 Salesforce.Com, Inc. Neural machine translation with latent tree attention
US20180299841A1 (en) * 2017-04-17 2018-10-18 Intel Corporation Autonomous vehicle neural network optimization
US10733380B2 (en) * 2017-05-15 2020-08-04 Thomson Reuters Enterprise Center Gmbh Neural paraphrase generator
US11386327B2 (en) 2017-05-18 2022-07-12 Salesforce.Com, Inc. Block-diagonal hessian-free optimization for recurrent and convolutional neural networks
US10747761B2 (en) 2017-05-18 2020-08-18 Salesforce.Com, Inc. Neural network based translation of natural language queries to database queries
US10817650B2 (en) 2017-05-19 2020-10-27 Salesforce.Com, Inc. Natural language processing using context specific word vectors
US20180336453A1 (en) 2017-05-19 2018-11-22 Salesforce.Com, Inc. Domain specific language for generation of recurrent neural network architectures
CN107357838B (zh) * 2017-06-23 2020-09-01 上海交大知识产权管理有限公司 基于多任务学习的对话策略在线实现方法
CN107480144B (zh) * 2017-08-03 2020-10-20 中国人民大学 具备跨语言学习能力的图像自然语言描述生成方法和装置
US10671918B2 (en) * 2017-10-24 2020-06-02 International Business Machines Corporation Attention based sequential image processing
US20190130896A1 (en) 2017-10-26 2019-05-02 Salesforce.Com, Inc. Regularization Techniques for End-To-End Speech Recognition
US11604956B2 (en) 2017-10-27 2023-03-14 Salesforce.Com, Inc. Sequence-to-sequence prediction using a neural network model
US10592767B2 (en) 2017-10-27 2020-03-17 Salesforce.Com, Inc. Interpretable counting in visual question answering
US11170287B2 (en) 2017-10-27 2021-11-09 Salesforce.Com, Inc. Generating dual sequence inferences using a neural network model
US10573295B2 (en) 2017-10-27 2020-02-25 Salesforce.Com, Inc. End-to-end speech recognition with policy learning
US11562287B2 (en) 2017-10-27 2023-01-24 Salesforce.Com, Inc. Hierarchical and interpretable skill acquisition in multi-task reinforcement learning
US11928600B2 (en) 2017-10-27 2024-03-12 Salesforce, Inc. Sequence-to-sequence prediction using a neural network model
US10346721B2 (en) 2017-11-01 2019-07-09 Salesforce.Com, Inc. Training a neural network using augmented training datasets
CA3080005A1 (en) * 2017-11-14 2019-05-23 Magic Leap, Inc. Meta-learning for multi-task learning for neural networks
US10542270B2 (en) 2017-11-15 2020-01-21 Salesforce.Com, Inc. Dense video captioning
CN107995535B (zh) * 2017-11-28 2019-11-26 百度在线网络技术(北京)有限公司 一种展示视频的方法、装置、设备和计算机存储介质
US11276002B2 (en) 2017-12-20 2022-03-15 Salesforce.Com, Inc. Hybrid training of deep networks
US11501076B2 (en) 2018-02-09 2022-11-15 Salesforce.Com, Inc. Multitask learning as question answering
US11170158B2 (en) * 2018-03-08 2021-11-09 Adobe Inc. Abstractive summarization of long documents using deep learning
KR102480323B1 (ko) * 2018-03-22 2022-12-23 광동 오포 모바일 텔레커뮤니케이션즈 코포레이션 리미티드 비디오 시간 세그먼트를 검색하는 방법과 시스템
US11055557B2 (en) * 2018-04-05 2021-07-06 Walmart Apollo, Llc Automated extraction of product attributes from images
CN112005616A (zh) 2018-04-23 2020-11-27 日本碍子株式会社 红外线放射装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107256228A (zh) * 2017-05-02 2017-10-17 清华大学 基于结构化注意力机制的答案选择系统及方法
CN107562792A (zh) * 2017-07-31 2018-01-09 同济大学 一种基于深度学习的问答匹配方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Caiming Xiong等.《DCN+: MIXED OBJECTIVE AND DEEP RESIDUAL COATTENTION FOR QUESTION ANSWERING》.《https://arxiv.org/pdf/1711.00106v2.pdf》.2017, *
Stephen Merity等.《Pointer Sentinel Mixture Models》.《https://arxiv.org/pdf/1609.07843.pdf》.2016, *

Also Published As

Publication number Publication date
CN111699498A (zh) 2020-09-22
JP2022023064A (ja) 2022-02-07
WO2019156875A1 (en) 2019-08-15
JP7109557B2 (ja) 2022-07-29
CN111712836A (zh) 2020-09-25
WO2019156873A1 (en) 2019-08-15
US20200380213A1 (en) 2020-12-03
JP7285895B2 (ja) 2023-06-02
US11615249B2 (en) 2023-03-28
US11501076B2 (en) 2022-11-15
EP3750111A1 (en) 2020-12-16
US20190251168A1 (en) 2019-08-15
JP2021513165A (ja) 2021-05-20
US20190251431A1 (en) 2019-08-15
EP3750112A1 (en) 2020-12-16
JP2021507429A (ja) 2021-02-22
US10776581B2 (en) 2020-09-15
JP6952201B2 (ja) 2021-10-20
CN111712836B (zh) 2023-09-19

Similar Documents

Publication Publication Date Title
CN111699498B (zh) 作为问答的多任务学习
US11600194B2 (en) Multitask learning as question answering
Kamath et al. Deep learning for NLP and speech recognition
Kiperwasser et al. Simple and accurate dependency parsing using bidirectional LSTM feature representations
CN111368996B (zh) 可传递自然语言表示的重新训练投影网络
CN107870902A (zh) 神经机器翻译系统
CN107836000A (zh) 用于语言建模和预测的改进的人工神经网络
US11580975B2 (en) Systems and methods for response selection in multi-party conversations with dynamic topic tracking
Berger Large scale multi-label text classification with semantic word vectors
CN113641819B (zh) 基于多任务稀疏共享学习的论辩挖掘系统及方法
Deng et al. Foundations and Trends in Signal Processing: DEEP LEARNING–Methods and Applications
Andrew et al. Sequential deep belief networks
US11941356B2 (en) Systems and methods for multi-scale pre-training with densely connected transformer
KR20230055021A (ko) Nested 와 Overlapped Named Entity 인식을 위한 피라미드 Layered 어텐션 모델
Pattanayak et al. Natural language processing using recurrent neural networks
Inan et al. Improved learning through augmenting the loss
McClure et al. Context is key: New approaches to neural coherence modeling
Nivasch Deep-Learning-Based Agents for Solving Novel Problems
Choudhury Deep Natural Language Generation Using BERT for Summarization
Kamath et al. Recurrent Neural Networks
Andrecut A Brief Introduction to Transformers as Language Models
Aksoy HIERARCHICAL MULTITASK LEARNING FOR LANGUAGE MODELING WITH TRANSFORMERS
Baid et al. Reddit Auto-Moderation by Evaluating Community Opinion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: California, USA

Patentee after: Shuo Power Co.

Address before: California, USA

Patentee before: SALESFORCE.COM, Inc.