CN110334195A - 一种基于局部注意力机制记忆网络的问答方法及系统 - Google Patents
一种基于局部注意力机制记忆网络的问答方法及系统 Download PDFInfo
- Publication number
- CN110334195A CN110334195A CN201910559673.3A CN201910559673A CN110334195A CN 110334195 A CN110334195 A CN 110334195A CN 201910559673 A CN201910559673 A CN 201910559673A CN 110334195 A CN110334195 A CN 110334195A
- Authority
- CN
- China
- Prior art keywords
- information
- sentence
- memory module
- question
- memory network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于局部注意力机制记忆网络的问答方法及系统,所述问答方法包括以下步骤:根据提问句子和上下文记忆模块信息生成位置信息;根据生成的位置信息,计算提问句子和上下文记忆模块信息之间的相关概率分布;根据计算出的相关概率分布得到预测答案。本发明选择只关注上下文记忆模块信息的一小部分,来计算其和提问句子之间的相关性信息,让系统更加关注有用的信息,提高处理效率。此外,本发明引入了线性门控单元,在多层模型信息传递的过程中,可以有效地降低梯度色散,同时还保留了非线性的能力,具有较好的适用性。
Description
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种基于局部注意力机制记忆网络的问答方法及系统。
背景技术
目前,端到端可训练记忆网络(MemN2N)在许多深层次学习领域里,特别是在基于模拟自然语言的推理问答(QA)任务中是非常有效的。然而,当它解决一些子任务,如基本归纳、路径查找和时间推理任务时,由于难以挖掘记忆模块和提问句子之间的有效信息,导致传统的记忆网络在这些任务上的效果并不理想。
图1是传统的单层结构的端到端可训练记忆网络(MemN2N)的示意图,在匹配得分操作部分使用的是全局注意力机制(global-attention),来计算上下文记忆模块向量mi和提问句子u之间的相关性信息,再经过Softmax层变换后,便可以得到上下文记忆模块向量mi和提问句子u之间的相关性概率分布p。
然而,这种传统模式在计算内存和查询的相关性时,由于需要考虑到记忆网络全局所有句子的查询,导致过程复杂,费用昂贵。
发明内容
本发明要解决的技术问题是提供一种基于局部注意力机制记忆网络的问答方法及系统,能够快速有效地获取提问句子和记忆网络中语境之间的相关性信息,从而较大幅度的提升记忆网络的性能。
为解决上述技术问题,本发明的实施例提供一种基于局部注意力机制记忆网络的问答方法,包括以下步骤:
S1、根据提问句子和上下文记忆模块信息生成位置信息;
S2、根据生成的位置信息,计算提问句子和上下文记忆模块信息之间的相关概率分布;
S3、根据计算出的相关概率分布得到预测答案。
优选地,所述步骤S1包括:
根据以下公式生成位置信息pu:
其中,S是上下文记忆模块的大小,pu∈[0,S];Wa、vp是记忆网络模型训练过程中学习到的参数;q是提问句子中的单词信息,δ是sigmoid激活函数。
优选地,所述步骤S2包括:
根据以下公式计算相关概率分布pi:
其中D是预设的上下文记忆模块的窗口尺寸。
优选地,所述问答方法还包括:
在多层结构的记忆网络模型的信息传递过程中,使用线性门控单元对每一层的传递信息进行降低梯度色散的处理。
优选地,所述线性门控单元根据以下公式对每一层的传递信息进行处理:
其中,W、V、b、c是记忆网络模型训练过程中学习到的参数,是矩阵点积,ok是第k层的输出,uk是第k层的提问句子。
本发明的实施例还提供一种基于局部注意力机制记忆网络的问答系统,所述问答系统包括:
位置信息生成单元,用于根据提问句子和上下文记忆模块信息生成位置信息;
相关概率分布计算单元,用于根据生成的位置信息,计算提问句子和上下文记忆模块信息之间的相关概率分布;
预测单元,用于根据计算出的相关概率分布得到预测答案。
优选地,所述问答系统还包括:
线性门控单元,用于在多层结构的记忆网络模型的信息传递过程中,对每一层的传递信息进行降低梯度色散的处理。
本发明的上述技术方案的有益效果如下:
本发明提出了一种基于局部注意力机制(local-attention)的端到端记忆网络(MemN2N-GL),与全局注意力机制不同,本发明选择只关注上下文记忆模块信息的一小部分,来计算其和提问句子之间的相关性信息,让系统更加关注有用的信息,提高处理效率。此外,本发明在传统的多层结构的端到端可训练记忆网络(MemN2N)中引入了线性门控单元(GLU),在多层模型信息传递的过程中,可以有效地降低梯度色散,同时还保留了非线性的能力,具有较好的适用性。
附图说明
图1是传统的单层结构的端到端可训练记忆网络(MemN2N)的问答流程示意图;
图2是本发明实施例提供的基于局部注意力机制记忆网络的问答方法的流程图;
图3是本发明实施例中的问答流程示意图;
图4是本发明实施例中线性门控单元的处理流程示意图;
图5是本发明实施例提供的基于局部注意力机制记忆网络的问答系统的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明的实施例首先提供了一种基于局部注意力机制记忆网络的问答方法,如图2所示,所述问答方法包括以下步骤:
S1、根据提问句子和上下文记忆模块信息生成位置信息;
S2、根据生成的位置信息,计算提问句子和上下文记忆模块信息之间的相关概率分布;
S3、根据计算出的相关概率分布得到预测答案。
与全局注意力机制的记忆网络相比,本发明建立了基于局部注意力机制的记忆网络模型,滤除掉整个记忆内存中与提问句子无关的信息,而集中关注于上下文记忆模块中局部信息查询,得到的查询结果更加精确纯粹,并且包含更多的有用信息。
进一步地,步骤S1包括:
根据以下公式生成位置信息pu:
其中,S是上下文记忆模块的大小,pu∈[0,S];Wa、vp是记忆网络模型训练过程中学习到的参数;q是提问句子中的单词信息,δ是sigmoid激活函数。
进一步地,步骤S2包括:
根据以下公式计算相关概率分布pi:
其中D是预设的上下文记忆模块的窗口尺寸。
图3显示了本发明实施例中的问答流程示意图,可以看出,本发明选择只关注上下文记忆模块信息的一小部分,来计算其和提问句子之间的相关性信息,让系统更加关注有用的信息,从而提高处理效率,节约成本。
进一步地,所述问答方法还包括:
在多层结构的记忆网络模型的信息传递过程中,使用线性门控单元(GLU)对每一层的传递信息进行降低梯度色散的处理。
作为本发明的一种优选实施方式,线性门控单元(GLU)根据以下公式对每一层的传递信息进行处理:
其中,W、V、b、c是记忆网络模型训练过程中学习到的参数,是矩阵点积,ok是第k层的输出,uk是第k层的提问句子。
图4是本发明实施例中线性门控单元的处理流程示意图,线性门控单元不仅能够有效地降低梯度色散,而且能够保持非线性,这使得提问句子在层之间更新时具有较强的学习能力,同时也适当降低模型的复杂度,让模型更加关注有用的信息。
相应地,本发明的实施例还提供了一种基于局部注意力机制记忆网络的问答系统,如图5所示,该系统包括:
位置信息生成单元101,用于根据提问句子和上下文记忆模块信息生成位置信息;
相关概率分布计算单元102,用于根据生成的位置信息,计算提问句子和上下文记忆模块信息之间的相关概率分布;
预测单元103,用于根据计算出的相关概率分布得到预测答案。
进一步地,所述问答系统还包括:
线性门控单元,用于在多层结构的记忆网络模型的信息传递过程中,对每一层的传递信息进行降低梯度色散的处理。
实验结果表明,与使用全局注意力机制的端到端记忆网络(MemN2N)相比,基于局部注意力机制的端到端记忆网络(MemN2N-GL)能够实现更好的性能,问答系统的平均错误率可降低37.09%,任务的成功次数可增加一倍。其中,无论单独使用局部注意力机制或线性门控单元,均可提升记忆网络性能,两者效果均优于使用全局注意力机制的情况。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (7)
1.一种基于局部注意力机制记忆网络的问答方法,其特征在于,包括以下步骤:
S1、根据提问句子和上下文记忆模块信息生成位置信息;
S2、根据生成的位置信息,计算提问句子和上下文记忆模块信息之间的相关概率分布;
S3、根据计算出的相关概率分布得到预测答案。
2.根据权利要求1所述的问答方法,其特征在于,所述步骤S1包括:
根据以下公式生成位置信息pu:
其中,S是上下文记忆模块的大小,pu∈[0,S];Wa、vp是记忆网络模型训练过程中学习到的参数;q是提问句子中的单词信息,δ是sigmoid激活函数。
3.根据权利要求2所述的问答方法,其特征在于,所述步骤S2包括:
根据以下公式计算相关概率分布pi:
其中D是预设的上下文记忆模块的窗口尺寸。
4.根据权利要求1-3中任一项所述的问答方法,其特征在于,所述问答方法还包括:
在多层结构的记忆网络模型的信息传递过程中,使用线性门控单元对每一层的传递信息进行降低梯度色散的处理。
5.根据权利要求4所述的问答方法,其特征在于,所述线性门控单元根据以下公式对每一层的传递信息进行处理:
其中,W、V、b、c是记忆网络模型训练过程中学习到的参数,是矩阵点积,ok是第k层的输出,uk是第k层的提问句子。
6.一种基于局部注意力机制记忆网络的问答系统,其特征在于,包括:
位置信息生成单元,用于根据提问句子和上下文记忆模块信息生成位置信息;
相关概率分布计算单元,用于根据生成的位置信息,计算提问句子和上下文记忆模块信息之间的相关概率分布;
预测单元,用于根据计算出的相关概率分布得到预测答案。
7.根据权利要求6所述的问答系统,其特征在于,所述问答系统还包括:
线性门控单元,用于在多层结构的记忆网络模型的信息传递过程中,对每一层的传递信息进行降低梯度色散的处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910559673.3A CN110334195A (zh) | 2019-06-26 | 2019-06-26 | 一种基于局部注意力机制记忆网络的问答方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910559673.3A CN110334195A (zh) | 2019-06-26 | 2019-06-26 | 一种基于局部注意力机制记忆网络的问答方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110334195A true CN110334195A (zh) | 2019-10-15 |
Family
ID=68142749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910559673.3A Pending CN110334195A (zh) | 2019-06-26 | 2019-06-26 | 一种基于局部注意力机制记忆网络的问答方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110334195A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021212601A1 (zh) * | 2020-04-24 | 2021-10-28 | 平安科技(深圳)有限公司 | 一种基于图像的辅助写作方法、装置、介质及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126596A (zh) * | 2016-06-20 | 2016-11-16 | 中国科学院自动化研究所 | 一种基于层次化记忆网络的问答方法 |
CN107562792A (zh) * | 2017-07-31 | 2018-01-09 | 同济大学 | 一种基于深度学习的问答匹配方法 |
US20180300314A1 (en) * | 2017-04-12 | 2018-10-18 | Petuum Inc. | Constituent Centric Architecture for Reading Comprehension |
-
2019
- 2019-06-26 CN CN201910559673.3A patent/CN110334195A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126596A (zh) * | 2016-06-20 | 2016-11-16 | 中国科学院自动化研究所 | 一种基于层次化记忆网络的问答方法 |
US20180300314A1 (en) * | 2017-04-12 | 2018-10-18 | Petuum Inc. | Constituent Centric Architecture for Reading Comprehension |
CN107562792A (zh) * | 2017-07-31 | 2018-01-09 | 同济大学 | 一种基于深度学习的问答匹配方法 |
Non-Patent Citations (2)
Title |
---|
LIUCHONGEE: "《Language Modeling with Gated Convolutional Networks(句子建模之门控CNN)--模型简介篇》", 《HTTPS://BLOG.CSDN.NET/LIUCHONGE/ARTICLE/DETAILS/70238350》 * |
MINH-THANG LUONG 等: "《Effective Approaches to Attention-based Neural Machine Translation》", 《PROCEEDINGS OF THE 2015 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021212601A1 (zh) * | 2020-04-24 | 2021-10-28 | 平安科技(深圳)有限公司 | 一种基于图像的辅助写作方法、装置、介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108734276B (zh) | 一种基于对抗生成网络的模仿学习对话生成方法 | |
CN108052512B (zh) | 一种基于深度注意力机制的图像描述生成方法 | |
WO2021077974A1 (zh) | 一种个性化对话内容生成方法 | |
CN108334487A (zh) | 缺失语意信息补全方法、装置、计算机设备和存储介质 | |
CN105139864A (zh) | 语音识别方法和装置 | |
CN109977428A (zh) | 一种答案获取的方法及装置 | |
CN111652202B (zh) | 利用自适应的时空图模型通过提升视频-语言表征学习来解决视频问答问题的方法及其系统 | |
CN111292768B (zh) | 丢包隐藏的方法、装置、存储介质和计算机设备 | |
Dai et al. | Learning low-resource end-to-end goal-oriented dialog for fast and reliable system deployment | |
CN114168749A (zh) | 一种基于知识图谱和疑问词驱动的问题生成系统 | |
CN106682387A (zh) | 用于输出信息的方法和装置 | |
CN111291170B (zh) | 一种基于智能客服的会话推荐方法及相关装置 | |
US20210248450A1 (en) | Sorting attention neural networks | |
CN110795549B (zh) | 短文本对话方法、装置、设备及存储介质 | |
CN108962221A (zh) | 在线对话状态跟踪模型的优化方法及系统 | |
CN109558605A (zh) | 用于翻译语句的方法和装置 | |
CN110147435A (zh) | 对话生成方法、装置、设备及存储介质 | |
CN110069611B (zh) | 一种主题增强的聊天机器人回复生成方法及装置 | |
CN115495552A (zh) | 基于双通道语义增强的多轮对话回复生成方法及终端设备 | |
CN112749556B (zh) | 多语言模型的训练方法和装置、存储介质和电子设备 | |
CN113823272A (zh) | 语音处理方法、装置、电子设备以及存储介质 | |
CN115510186A (zh) | 基于意图识别的即时问答方法、装置、设备及存储介质 | |
Madhiarasan et al. | ELMAN neural network with modified grey wolf optimizer for enhanced wind speed forecasting | |
CN110334195A (zh) | 一种基于局部注意力机制记忆网络的问答方法及系统 | |
CN113806564B (zh) | 多模态信息性推文检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191015 |