CN110457710B - 一种基于动态路由机制的机器阅读理解网络模型的建立方法、方法、存储介质及终端 - Google Patents

一种基于动态路由机制的机器阅读理解网络模型的建立方法、方法、存储介质及终端 Download PDF

Info

Publication number
CN110457710B
CN110457710B CN201910765132.6A CN201910765132A CN110457710B CN 110457710 B CN110457710 B CN 110457710B CN 201910765132 A CN201910765132 A CN 201910765132A CN 110457710 B CN110457710 B CN 110457710B
Authority
CN
China
Prior art keywords
layer
vector
semantic feature
level semantic
dynamic routing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910765132.6A
Other languages
English (en)
Other versions
CN110457710A (zh
Inventor
李晓瑜
段艺文
胡孙强
黄海滔
洪磊
郑德生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910765132.6A priority Critical patent/CN110457710B/zh
Publication of CN110457710A publication Critical patent/CN110457710A/zh
Application granted granted Critical
Publication of CN110457710B publication Critical patent/CN110457710B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于动态路由机制的机器阅读理解网络模型、方法、存储介质及终端,它包括:基础编码层:用于完成对输入文本段落和问题序列的交互匹配式编码,并最终以向量序列的形式输出对输入信息的编码;路由解码层:用于接收来自所述基础编码层的向量序列,经过多层动态路由层解码映射成高级语义特征向量并进行适应性的轻微重编码后输出;输出层:将所述动态路由层输出的高级语义特征向量经过处理得到答案并输出;通过将动态路由机制引入到机器阅读理解的深度神经网络模型中,有效提高了模型对自然语言的理解和推理能力。

Description

一种基于动态路由机制的机器阅读理解网络模型的建立方 法、方法、存储介质及终端
技术领域
本发明涉及语言处理技术领域,尤其涉及一种基于动态路由机制的机器阅读理解网络模型的建立方法、方法、存储介质及终端。
背景技术
一般来说,人们在读完一篇文章之后就会在脑海里形成一定的印象,例如这篇文章讲的是什么人,做了什么事情,出现了什么,发生在哪里等等。人们能够很轻而易举地归纳出文章中的重点内容。机器阅读理解的研究就是赋予计算机与人类同等的阅读能力,即让计算机阅读一篇文章,随后让计算机解答与文中信息相关的问题。这种对人类而言轻而易举的能力,对计算机来说却并非如此。
现目前对于自然语言处理的研究都是基于句子级别的阅读理解,例如给计算机一句话,理解句子中的主谓宾语、定状补语,谁做了什么事情等等。但是对于长文本中问题的阅读和理解一直是研究的一个难点,因为这涉及到句子和上下文之间的连贯性以及逻辑推理等更高维的研究内容,使得目前对这一块的研究还很空缺。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于动态路由机制的机器阅读理解网络模型的建立方法、方法、存储介质及终端,填补了目前涉及到句子和上下文之间连贯性以及逻辑推理等更高维研究内容的空缺。
本发明的目的是通过以下技术方案来实现的:一种基于动态路由机制的机器阅读理解网络模型的建立方法,它包括:
基础编码层:用于完成对输入文本段落和问题序列的交互匹配式编码,并最终以向量序列的形式输出对输入信息的编码;
路由解码层:用于接收来自所述基础编码层的向量序列,经过多层动态路由层解码映射成高级语义特征向量并进行适应性的轻微重编码后输出;
输出层:将所述动态路由层输出的高级语义特征向量经过处理得到答案并输出。
所述路由解码层包括由多个动态路由层以级联的方式堆叠而成,每个动态路由层包括由一层胶囊网络层和一层双向LSTM层组成。
所述胶囊网络层接收来自所述基础编码层的向量序列,并将这些携带问题序列和段落交互信息的编码向量解码映射成高级语义特征向量;所述双向LSTM层在阅读理解所述高级语义特征向量的基础上对所述高级语义特征向量进行适应性的轻微重编码。
一种基于动态路由机制的机器阅读理解方法,所述方法包括以下内容:
路由解码层中最底层的胶囊网络层接收来自基础编码层的向量序列,并将这些携带问题序列和段落交互信息的编码向量解码映射成高级语义特征向量;
双向LSTM层在阅读理解所有高级语义特征向量的基础上对高级语义特征向量进行适应性的轻微重编码;
重复步骤二和步骤三直到所有高级语义特征向量被映射提取以及轻微重编码后输入到输出层。
还包括输入文本段落和问题序列到基础编码层进行交互匹配式编码并输出编码后的向量序列到所述胶囊网络层的步骤。
还包括输出层对路由解码层的输出经过处理后输出答案的起始位置和结束位置的步骤。
所述胶囊网络层将携带问题序列和段落交互信息的编码向量解码映射成高级语义特征向量的具体步骤如下:
将经过编码后的向量ui进行仿射变换,得到仿射变换后的结果
Figure GDA0003705656550000031
Figure GDA0003705656550000032
进行r次迭代并计算每次迭代过程中表示上一层胶囊层的第i个输入与下一层胶囊层的第j个输出之间连接的耦合系数cij
计算中间变量Sj,通过压缩函数squash()得到压缩后的输出vj
所述双向LSTM层在阅读理解所有高级语义特征向量的基础上对高级语义特征向量进行适应性的轻微重编码的具体步骤如下:
通过前向LSTM层获取上文的高级语义特征向量;
通过后向LSTM层获取下文的高级语义特征向量;
将前向和后向的高级语义特征向量进行拼接得到重编码后的向量。
一种存储介质,其内部存储有计算机程序指令,所述计算机程序指令运行时执行所述一种基于动态路由机制的机器阅读理解方法的步骤。
一种终端,包括存储器和处理器,所述存储器上存储有可以在所述处理器上运行的计算机程序指令,所述处理器运行所述计算机程序指令时执行所述一种基于动态路由机制的机器阅读理解方法的步骤。
本发明的有益效果是:一种基于动态路由机制的机器阅读理解网络模型的建立方法、方法、存储介质及终端,通过将动态路由机制引入到机器阅读理解的深度神经网络模型中,有效提高了模型对自然语言的理解和推理能力。
附图说明
图1为本发明模型的结构示意图;
图2为BERT输入表示示意图;
图3为路由解码层的结构示意图;
图4为双向LSTM结构示意图;
图5为双向LSTM对输入向量编码的示意图;
图6为本发明模型相比于传统模型的对比图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,术语“上”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
本发明涉及到本领域的专业词汇解释为;
BiDAF(Bi-Directional Attention Flow for Machine Comprehension):机器阅读理解的双向注意流程模型;
BERT:一种预训练的语言表示模型;
LSTM(Long Short-Term Memory):长短期记忆网络是一种时间循环神经网络。
如图1所示,一种基于动态路由机制的机器阅读理解网络模型的建立方法,它包括:
基础编码层:用于完成对输入文本段落和问题序列的交互匹配式编码,并最终以向量序列的形式输出对输入信息的编码;
路由解码层:用于接收来自所述基础编码层的向量序列,经过多层动态路由层解码映射成高级语义特征向量并进行适应性的轻微重编码后输出;
输出层:将所述动态路由层输出的高级语义特征向量经过最大池化和softmax()运输输出答案的起始位置和结束位置,起始位置和结束位置都是由onehot向量编码。
进一步地,所述路由解码层包括由多个动态路由层以级联的方式堆叠而成,每个动态路由层包括由一层胶囊网络层和一层双向LSTM层组成。
其中,胶囊网络层接收来自所述基础编码层的向量序列,并将这些携带问题序列和段落交互信息的编码向量解码映射成高级语义特征向量;双向LSTM层在阅读理解所述高级语义特征向量的基础上对所述高级语义特征向量进行适应性的轻微重编码。
进一步地,基础编码层包括由BiDAF和BERT组成;BiDAF模型是一个分阶段的多层过程,其由字符嵌入层、词嵌入层、上下文嵌入层、注意力流层、建模层和输出层构成;如图2,BERT通过将TokenEmbedings,SegmentEmbedings,PositionEmbedings三个向量组加和得到每个词的嵌入向量,这样既包含了词的信息,段落信息,同时也包含了词的位置信息;BERT易于处理句对之间的关系,将文本段落和问题序列映射为TokenEmbedings后用[SEP]分隔符分开作为输入。
一种基于动态路由机制的机器阅读理解方法,所述方法包括以下内容:
S1、输入文本段落和问题序列到基础编码层进行交互匹配式编码并输出编码后的向量序列到所述胶囊网络层;
进一步地,阅读理解任务通过可以被描述为以下形式,给定一个包含n个单词的文本段落输入,即C={c1,c2,···,cn},和一个包含m个单词的问题序列输入,即Q={q1,q2,···,qm},需要要求模型能够从给定文本段落中找对关于问题Q的答案片段S={ci,ci+1,···,ci+j},也就是所谓的抽取式机器阅读理解任务。
S2、路由解码层中最底层的胶囊网络层接收来自基础编码层的向量序列,并将这些携带问题序列和段落交互信息的编码向量解码映射成高级语义特征向量;
S3、双向LSTM层在阅读理解所有高级语义特征向量的基础上对高级语义特征向量进行适应性的轻微重编码;
S4、重复步骤二和步骤三直到所有高级语义特征向量被映射提取以及轻微重编码后输入到输出层;
S5、输出层对路由解码层的输出经过最大池化和softmax()运输输出答案的起始位置和结束位置,起始位置和结束位置都是由one hot向量编码。
如图3所示,所述胶囊网络层将携带问题序列和段落交互信息的编码向量解码映射成高级语义特征向量的具体步骤如下:
对于动态路由而言,输入的是一个向量序列,用一个二维张量ui[i,i_o]来表示,带上批量大小后用三维张量U[b,i,i_o]来表示;首先将文本段落和问题序列通过基础编码层得到编码后的结果,即一组向量ui;ui(i=1,2,3....n)即为胶囊层输入的第i个向量,定义一组vj为输出向量,将ui转换为vj的过程为:
将经过编码后的向量ui进行仿射变换,得到仿射变换后的结果
Figure GDA0003705656550000071
即,
Figure GDA0003705656550000072
其中ui为第i个输入向量,wij为权重矩阵通过初始化后训练迭代得到,
Figure GDA0003705656550000073
为仿射变换后的结果。
Figure GDA0003705656550000074
进行r次迭代并计算每次迭代过程中表示上一层胶囊层的第i个输入与下一层胶囊层的第j个输出之间连接的耦合系数cij
其中,cij=leakySoftmax(bi)。
计算中间变量Sj,通过压缩函数squash()得到压缩后的输出vj
其中,
Figure GDA0003705656550000075
其中,bij初始化为0,压缩函数squash()能使特征向量的模长压缩至0~1,从而来表示该特征向量的强度,α作为模型的超参数。
所述双向LSTM层在阅读理解所有高级语义特征向量的基础上对高级语义特征向量进行适应性的轻微重编码的具体步骤如下:
通过前向LSTM层获取上文的高级语义特征向量;
通过后向LSTM层获取下文的高级语义特征向量;
将前向和后向的高级语义特征向量进行拼接得到重编码后的向量。
进一步地,图中C为单元状态,a为隐状态;双向LSTM相比较于传统的单向LSTM,单向LSTM中的每个词只能获取到上文信息,而双向LSTM通过前向LSTM获取上文信息,再通过后向LSTM获取下文信息,最后将前后2个LSTM的输出结合就可以得到上下文信息,从而比单向LSTM具有更高层的语义特征。
如,输入阅读理解后的高级语义特征向量[“我”,“爱”,“中”,“国”],通过前向的LSTML将得到三个向量{hL0,hL1,hL2},再通过后向的LSTMR,得到三个向量{hR0,hR1,hR2},最后将前向和后向的隐向量(隐状态)进行拼接得到[hL0,hR2],[hL1,hR1],[hL2,hR0],即{h0,h1,h2}。
如图6所示,本发明的模型相比于传统的模型在各个方面都有着有效的提高。
本发明的又一实施例提供一种存储介质,其内部存储有计算机程序指令,所述计算机程序指令运行时执行所述一种基于动态路由机制的机器阅读理解方法的步骤。
本申请的又一实施例提供一种终端,包括存储器和处理器,所述存储器上存储有可以在所述处理器上运行的计算机程序指令,所述处理器运行所述计算机程序指令时执行所述一种基于动态路由机制的机器阅读理解方法的步骤。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (4)

1.一种基于动态路由机制的机器阅读理解网络模型的建立方法,其特征在于:它包括:
基础编码层:用于完成对输入文本段落和问题序列的交互匹配式编码,并最终以向量序列的形式输出对输入信息的编码;所述基础编码层包括BiDAF和BERT,其中,BiDAF是一个分阶段的多层过程,其由字符嵌入层、词嵌入层、上下文嵌入层、注意力流层、建模层和输出层构成;BERT通过将TokenEmbedings,SegmentEmbedings,PositionEmbedings三个向量组加和得到每个词的嵌入向量,BERT将文本段落和问题序列映射为TokenEmbedings后用[SEP]分隔符分开作为输入;
路由解码层:用于接收来自所述基础编码层的向量序列,经过多层动态路由层解码映射成高级语义特征向量并进行适应性的轻微重编码后输出;所述路由解码层包括由多个动态路由层以级联的方式堆叠而成,每个动态路由层包括由一层胶囊网络层和一层双向LSTM层组成;
所述胶囊网络层接收来自所述基础编码层的向量序列,并将这些携带问题序列和段落交互信息的编码向量解码映射成高级语义特征向量;所述双向LSTM层在阅读理解所述高级语义特征向量的基础上对所述高级语义特征向量进行适应性的轻微重编码;
输出层:将所述动态路由层输出的高级语义特征向量经过处理得到答案并输出。
2.一种基于动态路由机制的机器阅读理解方法,其特征在于:所述方法包括以下内容:
路由解码层中最底层的胶囊网络层接收来自基础编码层的向量序列,经过多层动态路由层解码映射成高级语义特征向量并进行适应性的轻微重编码后输出,所述路由解码层包括由多个动态路由层以级联的方式堆叠而成,每个动态路由层包括由一层胶囊网络层和一层双向LSTM层组成;所述胶囊网络层接收来自所述基础编码层的向量序列并将这些携带问题序列和段落交互信息的编码向量解码映射成高级语义特征向量;
所述胶囊网络层将携带问题序列和段落交互信息的编码向量解码映射成高级语义特征向量的具体步骤如下:
将经过编码后的向量ui进行仿射变换,得到仿射变换后的结果
Figure FDA0003703712780000021
Figure FDA0003703712780000022
进行r次迭代并计算每次迭代过程中表示上一层胶囊层的第i个输入与下一层胶囊层的第j个输出之间连接的耦合系数cij
计算中间变量Sj,通过压缩函数squash()得到压缩后的输出vj
双向LSTM层在阅读理解所有高级语义特征向量的基础上对高级语义特征向量进行适应性的轻微重编码;所述双向LSTM层在阅读理解所有高级语义特征向量的基础上对高级语义特征向量进行适应性的轻微重编码的具体步骤如下:
通过前向LSTM层获取上文的高级语义特征向量;
通过后向LSTM层获取下文的高级语义特征向量;
将前向和后向的高级语义特征向量进行拼接得到重编码后的向量;
重复步骤二和步骤三直到所有高级语义特征向量被映射提取以及轻微重编码后输入到输出层;
还包括输入文本段落和问题序列到基础编码层进行交互匹配式编码并输出编码后的向量序列到所述胶囊网络层的步骤;
还包括输出层对路由解码层的输出经过处理后输出答案的起始位置和结束位置的步骤。
3.一种存储介质,其内部存储有计算机程序指令,其特征在于:所述计算机程序指令运行时执行权利要求2所述的一种基于动态路由机制的机器阅读理解方法的步骤。
4.一种终端,包括存储器和处理器,所述存储器上存储有可以在所述处理器上运行的计算机程序指令,其特征在于:所述处理器运行所述计算机程序指令时执行权利要求2所述的一种基于动态路由机制的机器阅读理解方法的步骤。
CN201910765132.6A 2019-08-19 2019-08-19 一种基于动态路由机制的机器阅读理解网络模型的建立方法、方法、存储介质及终端 Active CN110457710B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910765132.6A CN110457710B (zh) 2019-08-19 2019-08-19 一种基于动态路由机制的机器阅读理解网络模型的建立方法、方法、存储介质及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910765132.6A CN110457710B (zh) 2019-08-19 2019-08-19 一种基于动态路由机制的机器阅读理解网络模型的建立方法、方法、存储介质及终端

Publications (2)

Publication Number Publication Date
CN110457710A CN110457710A (zh) 2019-11-15
CN110457710B true CN110457710B (zh) 2022-08-02

Family

ID=68487721

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910765132.6A Active CN110457710B (zh) 2019-08-19 2019-08-19 一种基于动态路由机制的机器阅读理解网络模型的建立方法、方法、存储介质及终端

Country Status (1)

Country Link
CN (1) CN110457710B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128180A (zh) * 2019-12-31 2021-07-16 阿里巴巴集团控股有限公司 文本生成方法和设备
CN111506700B (zh) * 2020-03-24 2021-01-19 杭州电子科技大学 基于上下文感知嵌入的细粒度情感分析方法
CN111475622A (zh) * 2020-04-08 2020-07-31 广东工业大学 一种文本分类方法、装置、终端及存储介质
CN111985680B (zh) * 2020-07-10 2022-06-14 昆明理工大学 基于胶囊网络与时序的刑事多罪名预测方法
CN112231477B (zh) * 2020-10-20 2023-09-22 淮阴工学院 一种基于改进胶囊网络的文本分类方法
CN112464643B (zh) * 2020-11-26 2022-11-15 广州视源电子科技股份有限公司 一种机器阅读理解方法、装置、设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038159A (zh) * 2017-03-09 2017-08-11 清华大学 一种基于无监督领域自适应的神经网络机器翻译方法
CN108829666A (zh) * 2018-05-24 2018-11-16 中山大学 一种基于语义解析和smt求解的阅读理解题求解方法
CN108959396A (zh) * 2018-06-04 2018-12-07 众安信息技术服务有限公司 机器阅读模型训练方法及装置、问答方法及装置
CN108960319A (zh) * 2018-06-29 2018-12-07 哈尔滨工业大学 一种面向全局的机器阅读理解建模中的候选答案筛选方法
CN109241283A (zh) * 2018-08-08 2019-01-18 广东工业大学 一种基于多角度胶囊网络的文本分类方法
CN109492227A (zh) * 2018-11-16 2019-03-19 大连理工大学 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN109657246A (zh) * 2018-12-19 2019-04-19 中山大学 一种基于深度学习的抽取式机器阅读理解模型的建立方法
CN109710769A (zh) * 2019-01-23 2019-05-03 福州大学 一种基于胶囊网络的水军评论检测系统及方法
WO2019118613A1 (en) * 2017-12-12 2019-06-20 Oncoustics Inc. Machine learning to extract quantitative biomarkers from ultrasound rf spectrums
CN109933808A (zh) * 2019-01-31 2019-06-25 沈阳雅译网络技术有限公司 一种基于动态配置解码的神经机器翻译方法
CN110046249A (zh) * 2019-03-11 2019-07-23 中国科学院深圳先进技术研究院 胶囊网络的训练方法、分类方法、系统、设备及存储介质
CN110083705A (zh) * 2019-05-06 2019-08-02 电子科技大学 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端
CN110096698A (zh) * 2019-03-20 2019-08-06 中国地质大学(武汉) 一种考虑主题的机器阅读理解模型生成方法与系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10050842B2 (en) * 2014-07-23 2018-08-14 Cisco Technology, Inc. Network control and management using semantic reasoners in a network environment
US10963782B2 (en) * 2016-11-04 2021-03-30 Salesforce.Com, Inc. Dynamic coattention network for question answering
CN109685212B (zh) * 2018-12-14 2022-12-16 安徽省泰岳祥升软件有限公司 一种机器阅读理解模型的分阶段训练方法及装置

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038159A (zh) * 2017-03-09 2017-08-11 清华大学 一种基于无监督领域自适应的神经网络机器翻译方法
WO2019118613A1 (en) * 2017-12-12 2019-06-20 Oncoustics Inc. Machine learning to extract quantitative biomarkers from ultrasound rf spectrums
CN108829666A (zh) * 2018-05-24 2018-11-16 中山大学 一种基于语义解析和smt求解的阅读理解题求解方法
CN108959396A (zh) * 2018-06-04 2018-12-07 众安信息技术服务有限公司 机器阅读模型训练方法及装置、问答方法及装置
CN108960319A (zh) * 2018-06-29 2018-12-07 哈尔滨工业大学 一种面向全局的机器阅读理解建模中的候选答案筛选方法
CN109241283A (zh) * 2018-08-08 2019-01-18 广东工业大学 一种基于多角度胶囊网络的文本分类方法
CN109492227A (zh) * 2018-11-16 2019-03-19 大连理工大学 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN109657246A (zh) * 2018-12-19 2019-04-19 中山大学 一种基于深度学习的抽取式机器阅读理解模型的建立方法
CN109710769A (zh) * 2019-01-23 2019-05-03 福州大学 一种基于胶囊网络的水军评论检测系统及方法
CN109933808A (zh) * 2019-01-31 2019-06-25 沈阳雅译网络技术有限公司 一种基于动态配置解码的神经机器翻译方法
CN110046249A (zh) * 2019-03-11 2019-07-23 中国科学院深圳先进技术研究院 胶囊网络的训练方法、分类方法、系统、设备及存储介质
CN110096698A (zh) * 2019-03-20 2019-08-06 中国地质大学(武汉) 一种考虑主题的机器阅读理解模型生成方法与系统
CN110083705A (zh) * 2019-05-06 2019-08-02 电子科技大学 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘娇等.人机对话系统中意图识别方法综述.《计算机工程与应用》.2019,(第12期), *
林奕欧等.自然语言处理中的深度学习:方法及应用.《电子科技大学学报》.2017,(第06期), *
沈炜域.基于自注意力与动态路由的文本建模方法.《软件导刊》.2019, *

Also Published As

Publication number Publication date
CN110457710A (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
CN110457710B (zh) 一种基于动态路由机制的机器阅读理解网络模型的建立方法、方法、存储介质及终端
CN109471895B (zh) 电子病历表型抽取、表型名称规范化方法及系统
CN108052512B (zh) 一种基于深度注意力机制的图像描述生成方法
CN108763191B (zh) 一种文本摘要生成方法及系统
CN108549658B (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN108388900A (zh) 基于多特征融合和时空注意力机制相结合的视频描述方法
CN111985369A (zh) 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法
CN112183747A (zh) 神经网络训练的方法、神经网络的压缩方法以及相关设备
CN106844327B (zh) 文本编码方法及系统
CN111400494B (zh) 一种基于GCN-Attention的情感分析方法
CN113407663B (zh) 基于人工智能的图文内容质量识别方法和装置
CN111444367A (zh) 一种基于全局与局部注意力机制的图像标题生成方法
CN109033294A (zh) 一种融入内容信息的混合推荐方法
CN116204674B (zh) 一种基于视觉概念词关联结构化建模的图像描述方法
CN111767697B (zh) 文本处理方法、装置、计算机设备以及存储介质
CN106934458A (zh) 基于深度学习的多层自动编码方法及系统
CN109189930A (zh) 文本特征提取及提取模型优化方法以及介质、装置和设备
CN114549850A (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
CN113096001A (zh) 图像处理方法、电子设备及可读存储介质
CN116977457A (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN107562729B (zh) 基于神经网络和主题强化的党建文本表示方法
CN115908991A (zh) 基于特征融合的图像描述模型方法、系统、设备及介质
CN114091452A (zh) 一种基于适配器的迁移学习方法、装置、设备及存储介质
CN111291221B (zh) 对数据源生成语义描述的方法、设备和电子设备
CN112988967A (zh) 基于两阶段解码的对话生成方法及装置、介质和计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant