CN110795535A - 一种深度可分离卷积残差块的阅读理解方法 - Google Patents

一种深度可分离卷积残差块的阅读理解方法 Download PDF

Info

Publication number
CN110795535A
CN110795535A CN201911033469.4A CN201911033469A CN110795535A CN 110795535 A CN110795535 A CN 110795535A CN 201911033469 A CN201911033469 A CN 201911033469A CN 110795535 A CN110795535 A CN 110795535A
Authority
CN
China
Prior art keywords
adopting
text
residual block
information
convolution residual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911033469.4A
Other languages
English (en)
Inventor
蔡晓东
郑淑婷
侯珍珍
田文靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201911033469.4A priority Critical patent/CN110795535A/zh
Publication of CN110795535A publication Critical patent/CN110795535A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明公开了一种深度可分离卷积残差块的阅读理解系统及方法,涉及自然语言处理技术领域,技术方案为,包括以下步骤:数据预处理,对数据进行词向量化表示,转化为网络能够识别的数据信息;提取上下文特征信息,采用卷积残差块对输入数据进行编码,获取输入文本上下文的语义信息;提取交互特征信息,采用三线性相似函数获取文本段落和问题间的语义交互信息;推测并输出答案,采用卷积残差快对交互信息进行编码,并输出预测。相对现有技术,本发明能够在确保答案准确性的同时,显著提升模型的训练和推理速率。

Description

一种深度可分离卷积残差块的阅读理解方法
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种深度可分离卷积残差块的阅读理解方法。
背景技术
阅读理解是指通过对文档的阅读和理解,从而推测出问题的正确答案。目前的阅读理解模型主要基于递归神经网络,它的序列特性很适合学习长距离文本上下文信息,但也排除了实例内的并行化,使训练和推理都很慢,对实时应用的部署带来很大挑战。针对该问题,利用深度可分离卷积可以多通道并行处理、计算复杂度低及残差网络容易优化等优点,提出一种基于深度可分离卷积残差块的阅读理解模型。首先,设计了一个深度可分离卷积和残差网络相结合的卷积残差块,该模块能够在网络深度增加的同时保持较少的参数,提升运算效率。在此基础上,利用设计的模块对阅读理解模型进行改进,达到更高效的语义理解能力。实验结果表明,与基准模型相比,提出的模型在确保答案推断准确性的同时,进一步显著提升了模型训练和推理的效率。
发明内容
针对上述技术问题,本发明提供一种深度可分离卷积残差块的阅读理解方法。
其技术方案为,包括如下步骤:
S1、采用NLTK(自然语言处理工具包)对待处理的阅读文本和提问问题进行预处理,并进行词向量化表示,转化为网络能够识别的数据信息;
S2、提取上下文特征信息,采用卷积残差块对所述阅读文本和提问问题进行编码,获取输入文本上下文的语义信息;
S3、提取交互特征信息,采用三线性相似函数获取阅读文本段落和所提问问题间的语义交互信息;
S4、推测并输出答案,采用卷积残差块对交互信息进行编码,并输出预测。
优选为,所述S1的具体步骤为:
S101、采用预先训练好的300维Glove模型对待处理的阅读文本和提问问题进行初始化,获得每个单词的词嵌入;
S102、采用卷积神经网络根据所述阅读文本和提问问题获得每个词的字符嵌入;
S103、将S101和S102获取的词嵌入和字符嵌入进行连接,得到输入数据信息的词向量表示。
优选为,所述S2具体步骤为:
S201、采用深度可分离卷积和残差网络,设计卷积残差块;
S202、在卷积残差块中引入多头注意力机制,去弥合文本段落或问题中在空间上完全不同但语义相关的词之间的差距,从而获取文本段落和问题中长距离的文本信息。
优选为,所述S3具体步骤为:
S301、采用三线性相似函数f(q,c)=W0[q,c,q⊙c],计算文本段落和所提问问题间词的语义相似性,得到相似矩阵S;
S302、采用softmax函数,分别沿S的行和列进行归一化,分别得到
Figure BDA0002250797330000024
Figure BDA0002250797330000025
并将上下文-问题注意力计算为
Figure BDA0002250797330000022
将问题-上下文关注度计算为
Figure BDA0002250797330000023
其中Q和C是编码的问题和文本段落。
其中,上下文-问题,是通过计算上下文中的每一个词与整个问题的语义相关度,从而确定问题中哪些词是重要的,在寻找答案时重点关注;
问题-上下文,同理,确定上下文文本段落中哪些词重要。
优选为,所述S4体步骤为:
S401、采用卷积残差块进行编码,获取文本段落和问题间的交互特征信息;
S402、预测文本段落上下文中,每个位置是答案范围的开始或结束的概率;起始位置和结束位置的概率分别被建模为:
p1=softmax(W1[B0;B1]);
p2=softmax(W2[B0;B2]);
其中W1和W2是两个可训练变量,B0,B1,B2分别是三个模型编码器的输出;
跨度的得分是跨度区间起始位置和结束位置概率的乘积;因为本方案针对是问答式阅读理解,给出的问题答案是一个区间,此处的跨度得分是通过计算起始位置和结束位置为正确答案的概率。
目标函数为真实开始和结束指数索引的预测分布的负对数概率的和在所有训练样本上平均:
Figure BDA0002250797330000021
其中
Figure BDA0002250797330000031
Figure BDA0002250797330000032
分别是示例i答案的真实开始和结束位置,θ包含所有可训练变量;
在进行推理时,选择预测的跨度(k,l)使得
Figure BDA0002250797330000033
最大化并且k≤l。其中k,l表示开始位置和结束位置,s,e表示start和ending。
本发明实施例提供的技术方案带来的有益效果是:本发明能够在确保答案准确性的同时,显著提升模型的训练和推理速率。
附图说明
图1为本发明实施例的方法流程图。
图2为本发明实施例的卷积残差块图。
图3为本发明实施例的整体框架图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。当然,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
需要说明的是,在不冲突的情况下,本发明创造中的实施例及实施例中的特征可以相互组合。
实施例1
参见图1至图3,本发明提供一种深度可分离卷积残差块的阅读理解方法,包括如下步骤:
S1、采用NLTK(自然语言处理工具包)对待处理的阅读文本和提问问题进行预处理,并进行词向量化表示,转化为网络能够识别的数据信息;具体为,
S101、采用预先训练好的300维Glove模型对待处理的阅读文本和提问问题进行初始化,获得每个单词的词嵌入;
S102、采用卷积神经网络根据所述阅读文本和提问问题获得每个词的字符嵌入;
S103、将S101和S102获取的词嵌入和字符嵌入进行连接,得到输入数据信息的词向量表示。
S2、提取上下文特征信息,采用卷积残差块对所述阅读文本和提问问题进行编码,获取输入文本上下文的语义信息;具体为,
S201、采用深度可分离卷积和残差网络,设计卷积残差块;
S202、在卷积残差块中引入多头注意力机制,去弥合文本段落或问题中在空间上完全不同但语义相关的词之间的差距,从而获取文本段落和问题中长距离的文本信息。
S3、提取交互特征信息,采用三线性相似函数获取阅读文本段落和所提问问题间的语义交互信息;具体为,
S301、采用三线性相似函数f(q,c)=W0[q,c,q⊙c],计算文本段落和所提问问题间词的语义相似性,得到相似矩阵S;
S302、采用softmax函数,分别沿S的行和列进行归一化,分别得到
Figure BDA0002250797330000047
并将上下文-问题注意力计算为
Figure BDA0002250797330000045
将问题-上下文关注度计算为
Figure BDA0002250797330000046
其中Q和C是编码的问题和文本段落。
其中,上下文-问题,是通过计算上下文中的每一个词与整个问题的语义相关度,从而确定问题中哪些词是重要的,在寻找答案时重点关注;
问题-上下文,同理,确定上下文文本段落中哪些词重要。
S4、推测并输出答案,采用卷积残差块对交互信息进行编码,并输出预测。
具体为,
S401、采用卷积残差块进行编码,获取文本段落和问题间的交互特征信息;
S402、预测文本段落上下文中,每个位置是答案范围的开始或结束的概率;起始位置和结束位置的概率分别被建模为:
p1=softmax(W1[B0;B1]);
p2=softmax(W2[B0;B2]);
参见图3,其中W1和W2是两个可训练变量,B0,B1,B2分别是三个模型编码器的输出;
跨度的得分是跨度区间起始位置和结束位置概率的乘积;因为本方案针对是问答式阅读理解,给出的问题答案是一个区间,此处的跨度得分是通过计算起始位置和结束位置为正确答案的概率。
目标函数为真实开始和结束指数索引的预测分布的负对数概率的和在所有训练样本上平均:
Figure BDA0002250797330000041
其中
Figure BDA0002250797330000042
Figure BDA0002250797330000043
分别是示例i答案的真实开始和结束位置,θ包含所有可训练变量;
在进行推理时,选择预测的跨度(k,l)使得
Figure BDA0002250797330000044
最大化并且k≤l。其中k,l表示开始位置和结束位置,s,e表示start和ending。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于深度可分离卷积残差块的阅读理解方法,其特征在于,包括如下步骤:
S1、采用NLTK对待处理的阅读文本和提问问题进行预处理,并进行词向量化表示,转化为网络能够识别的数据信息;
S2、提取上下文特征信息,采用卷积残差块对所述阅读文本和提问问题进行编码,获取输入文本上下文的语义信息;
S3、提取交互特征信息,采用三线性相似函数获取阅读文本段落和所提问问题间的语义交互信息;
S4、推测并输出答案,采用卷积残差块对交互信息进行编码,并输出预测。
2.根据权利要求1所述的基于深度可分离卷积残差块的阅读理解方法,其特征在于,所述S1的具体步骤为:
S101、采用预先训练好的300维Glove模型对待处理的阅读文本和提问问题进行初始化,获得每个单词的词嵌入;
S102、采用卷积神经网络根据所述阅读文本和提问问题获得每个词的字符嵌入;
S103、将S101和S102获取的词嵌入和字符嵌入进行连接,得到输入数据信息的词向量表示。
3.根据权利要求2所述的基于深度可分离卷积残差块的阅读理解方法,其特征在于,所述S2具体步骤为:
S201、采用深度可分离卷积和残差网络,设计卷积残差块;
S202、在卷积残差块中引入多头注意力机制,去弥合文本段落或问题中在空间上完全不同但语义相关的词之间的差距,从而获取文本段落和问题中长距离的文本信息。
4.根据权利要求1-3所述的基于深度可分离卷积残差块的阅读理解方法,其特征在于,所述S3具体步骤为:
S301、采用三线性相似函数f(q,c)=W0[q,c,q⊙c],计算文本段落和所提问问题间词的语义相似性,得到相似矩阵S;
S302、采用softmax函数,分别沿S的行和列进行归一化,分别得到
Figure FDA0002250797320000011
Figure FDA0002250797320000012
并将上下文-问题注意力计算为
Figure FDA0002250797320000013
将问题-上下文关注度计算为
Figure FDA0002250797320000014
其中Q和C是编码的问题和文本段落。
5.根据权利要求1-4所述的基于深度可分离卷积残差块的阅读理解方法,其特征在于,所述S4体步骤为:
S401、采用卷积残差块进行编码,获取文本段落和问题间的交互特征信息;
S402、预测文本段落上下文中,每个位置是答案范围的开始或结束的概率;起始位置和结束位置的概率分别被建模为:
p1=soft max(W1[B0;B1]);
p2=soft max(W2[B0;B2]);
其中W1和W2是两个可训练变量,B0,B1,B2分别是三个模型编码器的输出;
跨度的得分是跨度区间起始位置和结束位置概率的乘积;
目标函数为真实开始和结束指数索引的预测分布的负对数概率的和在所有训练样本上平均:
Figure FDA0002250797320000021
其中
Figure FDA0002250797320000022
Figure FDA0002250797320000023
分别是示例i答案的真实开始和结束位置,θ包含所有可训练变量;
在进行推理时,选择预测的跨度(k,l)使得最大化并且k≤l。
CN201911033469.4A 2019-10-28 2019-10-28 一种深度可分离卷积残差块的阅读理解方法 Pending CN110795535A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911033469.4A CN110795535A (zh) 2019-10-28 2019-10-28 一种深度可分离卷积残差块的阅读理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911033469.4A CN110795535A (zh) 2019-10-28 2019-10-28 一种深度可分离卷积残差块的阅读理解方法

Publications (1)

Publication Number Publication Date
CN110795535A true CN110795535A (zh) 2020-02-14

Family

ID=69441606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911033469.4A Pending CN110795535A (zh) 2019-10-28 2019-10-28 一种深度可分离卷积残差块的阅读理解方法

Country Status (1)

Country Link
CN (1) CN110795535A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052687A (zh) * 2020-09-02 2020-12-08 厦门市美亚柏科信息股份有限公司 基于深度可分离卷积的语义特征处理方法、装置及介质
CN112069809A (zh) * 2020-08-11 2020-12-11 桂林电子科技大学 一种缺失文本生成方法及系统
WO2022127041A1 (zh) * 2020-12-16 2022-06-23 平安科技(深圳)有限公司 相似句匹配方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562784A (zh) * 2017-07-25 2018-01-09 同济大学 基于ResLCNN模型的短文本分类方法
CN108959246A (zh) * 2018-06-12 2018-12-07 北京慧闻科技发展有限公司 基于改进的注意力机制的答案选择方法、装置和电子设备
CN109492232A (zh) * 2018-10-22 2019-03-19 内蒙古工业大学 一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法
CN109657246A (zh) * 2018-12-19 2019-04-19 中山大学 一种基于深度学习的抽取式机器阅读理解模型的建立方法
CN110083682A (zh) * 2019-04-19 2019-08-02 西安交通大学 一种基于多轮注意力机制的机器阅读理解答案获取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562784A (zh) * 2017-07-25 2018-01-09 同济大学 基于ResLCNN模型的短文本分类方法
CN108959246A (zh) * 2018-06-12 2018-12-07 北京慧闻科技发展有限公司 基于改进的注意力机制的答案选择方法、装置和电子设备
CN109492232A (zh) * 2018-10-22 2019-03-19 内蒙古工业大学 一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法
CN109657246A (zh) * 2018-12-19 2019-04-19 中山大学 一种基于深度学习的抽取式机器阅读理解模型的建立方法
CN110083682A (zh) * 2019-04-19 2019-08-02 西安交通大学 一种基于多轮注意力机制的机器阅读理解答案获取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ADAMS WEI YU 等: "QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension", 《HTTPS://OPENREVIEW.NET/FORUM?ID=B14TLG-RW》 *
侯珍珍: "基于深度学习的短文本语义理解方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069809A (zh) * 2020-08-11 2020-12-11 桂林电子科技大学 一种缺失文本生成方法及系统
CN112069809B (zh) * 2020-08-11 2022-05-24 桂林电子科技大学 一种缺失文本生成方法及系统
CN112052687A (zh) * 2020-09-02 2020-12-08 厦门市美亚柏科信息股份有限公司 基于深度可分离卷积的语义特征处理方法、装置及介质
CN112052687B (zh) * 2020-09-02 2023-11-21 厦门市美亚柏科信息股份有限公司 基于深度可分离卷积的语义特征处理方法、装置及介质
WO2022127041A1 (zh) * 2020-12-16 2022-06-23 平安科技(深圳)有限公司 相似句匹配方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN111444340B (zh) 文本分类方法、装置、设备及存储介质
CN112613303B (zh) 一种基于知识蒸馏的跨模态图像美学质量评价方法
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN111401084B (zh) 一种机器翻译的方法、设备以及计算机可读存储介质
CN112990296B (zh) 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统
CN109740158B (zh) 一种文本语义解析方法及装置
CN110457718B (zh) 一种文本生成方法、装置、计算机设备及存储介质
CN110795535A (zh) 一种深度可分离卷积残差块的阅读理解方法
CN111966800A (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN111460176A (zh) 一种基于哈希学习的多文档机器阅读理解方法
CN112257449A (zh) 命名实体识别方法、装置、计算机设备和存储介质
CN113204611A (zh) 建立阅读理解模型的方法、阅读理解方法及对应装置
CN115545041B (zh) 一种增强医疗语句语义向量表示的模型构造方法及系统
CN114360502A (zh) 语音识别模型的处理方法、语音识别方法及装置
CN111782788A (zh) 一种面向开放域对话系统的情感回复自动生成方法
CN111984780A (zh) 多意图识别模型训练方法和多意图识别方法及相关装置
CN112926655B (zh) 一种图像内容理解与视觉问答vqa方法、存储介质和终端
CN112926323B (zh) 基于多级残差卷积与注意力机制的中文命名实体识别方法
CN117648429A (zh) 基于多模态自适应检索式增强大模型的问答方法及系统
CN113505583A (zh) 基于语义决策图神经网络的情感原因子句对提取方法
CN111832699A (zh) 用于神经网络的计算高效富于表达的输出层
CN114239575B (zh) 语句分析模型的构建方法、语句分析方法、装置、介质和计算设备
CN113792120B (zh) 图网络的构建方法及装置、阅读理解方法及装置
CN115545038A (zh) 一种优化网格标签的方面情感分析方法
CN114913871A (zh) 目标对象分类方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200214