CN110688491B - 基于深度学习的机器阅读理解方法、系统、设备及介质 - Google Patents

基于深度学习的机器阅读理解方法、系统、设备及介质 Download PDF

Info

Publication number
CN110688491B
CN110688491B CN201910908549.3A CN201910908549A CN110688491B CN 110688491 B CN110688491 B CN 110688491B CN 201910908549 A CN201910908549 A CN 201910908549A CN 110688491 B CN110688491 B CN 110688491B
Authority
CN
China
Prior art keywords
answer
question
model
word
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910908549.3A
Other languages
English (en)
Other versions
CN110688491A (zh
Inventor
刘波
付伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN201910908549.3A priority Critical patent/CN110688491B/zh
Publication of CN110688491A publication Critical patent/CN110688491A/zh
Application granted granted Critical
Publication of CN110688491B publication Critical patent/CN110688491B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Abstract

本发明公开了一种基于深度学习的机器阅读理解方法、系统、设备及介质,所述方法包括:构建问题分类模型﹑支持句查找模型和答案确定模型;将目标问题输入问题分类模型,通过问题分类模型进行预测,输出得到目标问题类型;将目标问题和一篇待阅读理解文章输入支持句查找模型,通过支持句查找模型进行预测,输出得到与目标问题答案相关的支持句序列;将目标问题、与目标问题类型对应的答案类型以及与目标问题答案相关的支持句序列输入答案确定模型,通过答案确定模型进行预测,输出得到目标问题的答案。本发明适用于英文机器阅读理解任务,能够有效处理文章段落较多、需要在多段中进行推理才能获得答案的情况,提高机器阅读理解的准确性。

Description

基于深度学习的机器阅读理解方法、系统、设备及介质
技术领域
本发明涉及一种基于深度学习的机器阅读理解方法、系统、设备及介质,属于计算机自然语言处理与自动问答系统研究领域。
背景技术
机器阅读理解希望机器能够像人一样“读懂”文章内容,作出合理推理,回答相关问题,具有广泛的应用价值,并且已经取得了一些成果。如百度的智能音箱“小度”能基本与人进行简单的交流,可以下达简单的命令(定闹钟、查天气、说出歌名自动播放等等);阿里的淘宝机器人“小蜜”在双十一购物活动中解决大多数用户的困惑,帮助他们理解购物活动规则。此外,机器阅读理解技术还能发展用于各个特定领域,成为专业人员的有力助手,助力他们完成特定的任务。例如,著名医疗辅助工具IBM Watson可以帮助医生查阅与病情相关的专业文献资料,推荐最佳的治疗方案,大大提高了医生的工作效率。
如今,网络上的信息包括大量的非结构化文本数据,用户根据传统的搜索引擎输入关键词获得的只是有关网页链接,往往并不能直接将答案反馈给用户,而随着机器阅读技术的发展,可以帮助用户从大量非结构化文本中找出与问题相关的资料,进一步给出精确的答案,大大节省了用户的搜索时间,具有十分高效的作用。
尽管机器阅读理解的研究已经取得了一定的进展,但仍存在一些不足。例如,机器只能回答一些简单的问题,无法进行深层次的推理,不能像人一样文章并进行归纳总结。因此,如何利用相关的技术方法提高机器“阅读”文档、“理解”文档的准确性是一个值得研究的问题,具有很好的产业前景。
机器阅读理解任务的类型可大致分为选择题型、完形填空型和问答题型三种任务形式。针对特定的任务类型,相关研究人员收集并整理了较为权威的语料数据用于检验模型的有效性。
第一种是选择题型的机器阅读理解。Lai等人[1]从中国的初中和高中英语考试中提取了一个新的选择题型机器理解数据集RACE。Wang等人[2]提出了一种较为典型的方法,对给定的文章采用一个新的模式来匹配一个问答,明确地将问题和候选答案视为两个序列,并将它们与给定的段落进行联合匹配,这种方法的好处在于模型可以更好地处理答案分散在不同句子中的问题。
第二种是完形填空型的机器阅读理解。Hill等人[3]提出了一个完形填空型的数据集(Children’s Book Test,CBT)。针对该完形填空型数据集提出的研究验证模型有很多,性能表现最好的是深度学习方法,深度学习模型广泛使用单词和字符级双重表示。Zhang等人[4]提出了一种阅读器,它使用子单词级别的表示来增加单词嵌入的简短列表,从而有效地处理罕见的单词,并采用子词信息来丰富词嵌入,从而得到一个细粒度的表示。
第三种是问答题型的机器阅读理解。本发明就是针对这种问答题型的机器阅读理解。斯坦福问答数据集[5](Stanford Question answer Dataset,SQuAD)是一个典型的问答题型数据集,由一组维基百科(Wikipedia)文章和问题组成,每个问题的答案都是相应阅读文章中的一段文字或一段跨度。2018年10月,谷歌AI团队发布了BERT[6](BidirectionalEncoder Representation from Transformers)模型,该模型与其他表示模型不同,其旨在通过联合调节所有层中的上下文来预先训练(pre-training)深度双向表示。预训练的BERT表示可以通过一个额外的输出层进行微调(fine-tuning),适用于许多自然语言处理任务。但是上述现有技术存在如下两个技术问题:
1)现有的问答题型的机器阅读理解模型没有充分利用问题类型,也没有充分考虑答案类型对最终答案筛选的影响。
2)现有大多数模型只能针对简单的、答案无需经过推理的文章阅读理解获得较好的性能,不能解决需要对文章的多个段落推理才能确定答案的“难点”。
参考文献如下:
[1]Lai G,Xie Q,Liu H,et al.RACE:Large-scale ReAding ComprehensionDataset From Examinations[C]//Proceedings of the 2017Conference on EmpiricalMethods in Natural Language Processing.2017:785-794.
[2]Wang S,Yu M,Chang S,et al.A co-matching model for multi-choicereading comprehension[C]//Proceedings of the 56th Annual Meeting of theAssociation for Computational Linguistics(Short Papers).2018:746-751.
[3]Hill F,Bordes A,Chopra S,et al.The goldilocks principle:Readingchildren's books with explicit memory representations[C]//InternationalConference on Learning Representations.2016:1-13.
[4]Zhang Z,Huang Y,Zhao H.Subword-augmented embedding for clozereading comprehension[C]//Proceedings of the 27th International Conference onComputational Linguistics.2018:1802-1814.
[5]Rajpurkar P,Zhang J,Lopyrev K,et al.Squad:100,000+questions formachine comprehension of text[C]//Proceedings of the 2016Conference onEmpirical Methods in Natural Language Processing.2016:2383-2392.
[6]Devlin J,Chang M W,Lee K,et al.Bert:Pre-training of deepbidirectional transformers for language understanding[J].arXiv preprintarXiv:1810.04805,2018:1-14.
发明内容
有鉴于此,本发明提供了一种基于深度学习的机器阅读理解方法、系统、计算机设备及存储介质,其适用于英文机器阅读理解任务,能够有效处理文章段落较多、需要在多段中进行推理才能获得答案的情况,提高机器阅读理解的准确性。
本发明的第一个目的在于提供一种基于深度学习的机器阅读理解方法。
本发明的第二个目的在于提供一种基于深度学习的机器阅读理解系统。
本发明的第三个目的在于提供一种计算机设备。
本发明的第四个目的在于提供一种存储介质。
本发明的第一个目的可以通过采取如下技术方案达到:
一种基于深度学习的机器阅读理解方法,所述方法包括:
构建问题分类模型﹑支持句查找模型和答案确定模型;
将目标问题输入问题分类模型,通过问题分类模型进行预测,输出得到目标问题类型;
将目标问题和一篇待阅读理解文章输入支持句查找模型,通过支持句查找模型进行预测,输出得到与目标问题答案相关的支持句序列;
将目标问题、与目标问题类型对应的答案类型以及与目标问题答案相关的支持句序列输入答案确定模型,通过答案确定模型进行预测,输出得到目标问题的答案。
进一步的,构建问题分类模型,具体包括:
获取问题分类模型训练集;其中,所述问题分类训练集包括多个问题以及每个问题对应的问题类型;
对每个问题进行预处理;
将预处理后的每个问题中的每个词语用一个实数向量表示,使预处理后的每个问题转换为一个m×d的矩阵;其中,m为每个问题中的词语数量,d为每个词语的维度;
将每个问题的m×d矩阵输入到卷积神经网络模型中进行训练,得到问题分类模型;其中,所述卷积神经网络模型包括依次相连的输入层、卷积层、池化层、合并层、第一全连接层、第二全连接层和Softmax层。
进一步的,所述对问题分类训练集中的每个问题进行预处理,具体为:
对于每个问题,将标点符号去除,将大写字母转换为小写字母,以及将停用词去除。
进一步的,构建支持句查找模型,具体包括:
获取支持句查找模型训练集;其中,所述支持句查找训练集包括多个问题、每个问题对应的文章以及每个问题在对应文章中的支持句序列;
对每个问题和每篇文章进行预处理;
将预处理后的每个问题和每篇文章进行向量表示,通过训练基于多级注意力机制的循环神经网络模型,得到支持句查找模型。。
进一步的,所述基于多级注意力机制的循环神经网络模型包括语义表示层、问题-段落编码层、多步推理层和输出层;
所述将预处理后的每个问题和每篇文章进行向量表示,通过训练基于多级注意力机制的循环神经网络模型,得到支持句查找模型,具体包括:
在语义表示层中,将预处理后的每个问题中的每个词语以及预处理后的每篇文章的多个段落中的每个词语分别转换成向量表示;其中,所述向量由词向量特征和字符向量特征组成;
在问题-段落编码层中,采用双向门控循环单元对问题和段落中的词向量分别进行编码,得到新的向量表示;
在多步推理层中,利用双向注意力机制构建基于问题的段落上下文编码表示,即将问题中的词向量相关信息加入到段落词语中,不断更新问题与段落的表达方式;
在输出层中,使用双向门控循环单元和线性层进行段落中的句子与问题的匹配,分别评估段落各句子中的词语作为支持句序列的起始位置与结束位置的概率,将作为起始位置概率最大的词语作为与问题答案相关的支持句序列起始位置对应的词语,以及将作为结束位置概率最大的词语作为与问题答案相关的支持句序列结束位置对应的词语。
进一步的,构建答案确定模型,具体包括:
获取答案确定模型训练集;其中,所述答案确定模型训练集包括多个问题、多个问题答案、多种答案类型以及多个支持句序列,每种答案类型对应一种问题类型,问题、问题答案和支持句序列均为一一对应的关系,且每个支持句序列与对应的问题答案相关;
对每个问题以及对应的支持句序列进行预处理;
将每种答案类型随机生成相应的词向量;
将预处理后的每个问题以及对应的支持句序列进行向量表示,并排在一起输入到BERT模型的转换编码器进行编码,输出编码结果;
将每个问题所对应的答案类型词向量与输出的编码结果相结合,依次输入到三个循环神经网络进行训练,得到答案确定模型。
进一步的,所述输出得到目标问题的答案,具体包括:
通过第一线性层预测,得到“是”、“否”和“文本片段”的概率;
若“是”的概率值最大,则输出目标问题的答案为“是”;
若“否”的概率值最大,则输出目标问题的答案为“否”;
若“文本片段”的概率值最大,则输出目标问题的答案为“文本片段”,利用第二线性层和第三线性层分别输出支持句序列中每个词向量对应的词语作为文本片断起始位置的概率和每个词向量对应的词语作为文本片断结束位置的概率,将作为起始位置概率最大的词向量对应的词语作为文本片段的起始词,以及将作为结束位置概率最大的词向量对应的词语作为文本片段的结束词。
本发明的第二个目的可以通过采取如下技术方案达到:
一种基于深度学习的机器阅读理解系统,所述系统包括:
构建模块,用于构建问题分类模型﹑支持句查找模型和答案确定模型;
问题类型预测模块,用于将目标问题输入问题分类模型,通过问题分类模型进行预测,输出得到目标问题类型;
支持句预测模块,用于将目标问题和一篇待阅读理解文章输入支持句查找模型,通过支持句查找模型进行预测,输出得到与目标问题答案相关的支持句序列;
答案预测模块,用于将目标问题、与目标问题类型对应的答案类型以及与目标问题答案相关的支持句序列输入答案确定模型,通过答案确定模型进行预测,输出得到目标问题的答案。
本发明的第三个目的可以通过采取如下技术方案达到:
一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述的机器阅读理解方法。
本发明的第四个目的可以通过采取如下技术方案达到:
一种存储介质,存储有程序,所述程序被处理器执行时,实现上述的机器阅读理解方法。
本发明相对于现有技术具有如下的有益效果:
1、本发明的机器阅读理解方法将问题分类﹑答案支持句查找和答案确定相结合,通过构建问题分类模型﹑支持句查找模型和答案确定模型,将问题分类模型输出的问题类型对应的答案类型以及支持句查找模型输出的支持句序列一起输入答案确定模型中进行预测,得到目标问题的答案,能够减少答案的搜索空间和时间,有效处理文章段落较多、需要在多段中进行推理才能获得答案的情况,提高阅读理解答案的准确率。
2、本发明的问题分类模型基于卷积神经模型实现,通过问题分类模型对问题类型进行预测,进而判别对应的答案类型,能够减少答案的搜索空间和时间,获得高效的答案抽取策略。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明实施例1的基于深度学习的机器阅读理解方法的流程图。
图2为本发明实施例1的通过问题分类模型﹑支持句查找模型和答案确定模型预测目标问题答案的原理图。
图3为本发明实施例1的问题分类模型的框架图。
图4为本发明实施例1的构建问题分类模型的流程图。
图5为本发明实施例1的支持句查找模型的框架图。
图6为本发明实施例1的构建支持句查找模型的流程图。
图7为本发明实施例1的答案确定模型的框架图。
图8为本发明实施例1的构建答案确定模型的流程图。
图9为本发明实施例1的输出目标问题答案的流程图。
图10为本发明实施例3的基于深度学习的机器阅读理解系统的结构框图。
图11为本发明实施例4的计算机设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
如图1和图2所示,本实施例提供了一种基于深度学习的机器阅读理解方法,该方法包括以下步骤:
S101、构建问题分类模型﹑支持句查找模型和答案确定模型。
如图3所示,本实施例的问题分类模型基于卷积神经网络(Convolutional NeuralNetwork,简称CNN)模型实现,卷积神经网络模型包括依次相连的输入层、卷积层、池化层、合并层、第一全连接层、第二全连接层和Softmax层。
如图3和图4所示,构建问题分类模型,具体包括:
S401、获取问题分类模型训练集。
本步骤中的问题分类模型训练集包括多个问题以及每个问题对应的问题类型,每个问题中的词语均为英语单词。
S402、对每个问题进行预处理。
具体地,对于每个问题,将标点符号去除,将大写字母转换为小写字母,以及将停用词去除。
S403、将预处理后的每个问题中的每个词语用一个实数向量表示,使预处理后的每个问题转换为一个m×d的矩阵。
具体地,利用word2vec工具将预处理后的每个问题中的每个词语用一个实数向量表示,使预处理后的每个问题转换为一个m×d的矩阵;其中,m为每个问题中的词语数量,d为每个词语的维度,在本实施例中d设为300。
S404、将每个问题的m×d矩阵输入到卷积神经网络模型中进行训练,得到问题分类模型。
在卷积神经网络模型的训练中,多次更新卷积神经网络模型的参数,直到收敛或达到循环次数,训练完成即可得到问题分类模型。
每个问题的m×d矩阵依次经过输入层、卷积层、池化层、合并层、第一全连接层、第二全连接层和Softmax层,对卷积神经网络模型进行训练,得到问题分类模型,各层的具体说明如下:
1)输入层:将每个问题的m×d矩阵输入。
2)卷积层:在卷积层中,一个大卷积表示为一个n×d核,其中n是一次捕获的词语数,d是词向量的维数;在这个卷积神经网络模型中,采用不同深度的卷积核,卷积核的深度为2到5。
采用了ReLU函数(Rectified Linear Unit,线性整流函数)作为该卷积层各神经元的激励函数,定义如下:
f(x)=max(0,x) (1)
3)池化层:使用k-max pooling为卷积神经网络模型从卷积滤波器中积累更多的信息,k的取值为2。
4)合并层(Merge Layer):将池化层输出的结果进行连接。
5)第一全连接层(FullyConnected Layer1):采用128维的深度。
6)第二全连接层(FullyConnected Layer2):采用64维的深度。
采用了ReLU函数(如公式(1)所示)作为全连接层各神经元的激励函数,为了避免过拟合,两个全连接层的输出结果都进行了Dropout操作(Dropout率取为0.5)。
7)Softmax层:利用归一化指数函数将来自全连接层的输出映射成问题各类别的概率分布,取最大概率分布值对应的类别作为最终的问题分类结果,Softmax函数以由K个实数组成的向量作为输入,将K个实数归一化,在问题分类模型中,K为问题类型的数目。
Softmax函数的形式如下:
Figure BDA0002214016880000081
其中,j的取值为1~K,向量z的每个元素zj为实数类型。
如图5所示,本实施例的支持句查找模型基于多级注意力机制的循环神经网络模型实现,基于多级注意力机制的循环神经网络模型采用HOTPOT baseline模型(https:// github.com/hotpotqa/hotpot),其包括语义表示层、问题-段落(Q-P)编码层、多步推理层和输出层,
Figure BDA0002214016880000082
符号表示连接(concat)操作。
如图5和图6所示,构建支持句查找模型,具体包括:
S601、获取支持句查找模型训练集。
本步骤中的支持句查找模型训练集包括多个问题、每个问题对应的文章以及每个问题在对应文章中的支持句序列,每个问题中的词语均为英语单词,每篇文章为英文文章,包括多个段落。
S602、对每个问题和每篇文章进行预处理。
预处理方式同上述步骤S402,对于每个问题和每篇文章,将标点符号去除,将大写字母转换为小写字母,以及将停用词去除。
S603、将预处理后的每个问题和每篇文章进行向量表示,通过训练基于多级注意力机制的循环神经网络模型,得到支持句查找模型。
在基于多级注意力机制的循环神经网络模型的训练中,多次更新基于多级注意力机制的循环神经网络模型的参数,直到收敛或达到循环次数,训练完成即可得到支持句查找模型。
S6031、在语义表示层中,将预处理后的每个问题中的每个词语以及预处理后的每篇文章的多个段落中的每个词语分别转换成向量表示;其中,向量由词向量特征和字符向量特征组成。
如图5所示,在语义表示层中,Word Embedding表示单词嵌入,目的是将文本数据转化成词向量表示;Char Embedding表示字符嵌入,目的是将字符转化成词向量表示;Glove表示采用glove工具已训练好的词向量表达;CNN+Pooling表示生成字符向量的具体操作,即将表示字符信息的矩阵输入到卷积神经网络中,并使用最大池化(max-pooling)操作精简特征。
S6032、在问题-段落编码层中,采用双向门控循环单元(Gated Recurrent Unit,简称GRU)对问题和段落中的词向量分别进行编码,得到新的向量表示。
如图5所示,在问题-段落编码层中,Bi-GRU表示双向门控循环单元,对问题和段落中的单词向量分别进一步编码,得到新的向量表示。
S6033、在多步推理层中,利用双向注意力机制构建基于问题的段落上下文编码表示,即将问题中的单词向量相关信息加入到段落单词中,更新问题与段落的表达方式。
如图5所示,在多步推理层中,Bi-Attention用于构建基于问题的段落上下文编码表示,即将问题中的词向量相关信息加入到段落的词语中;将上述结果再一次输入到Bi-GRU模型中,更新问题与段落的表达方式;Linear ReLU Layer表示加入ReLU激活函数,增加神经网络的非线性因素;Self-Attention表示自注意力机制,可以充分发掘自身,增强语义表示,并有效缓解句子信息流失问题。
S6034、在输出层中,使用双向门控循环单元(Bi-GRU)和线性层(Linear ReLULayer)进行段落中的句子与问题的匹配,分别评估段落各句子中的词语作为支持句序列的起始位置与结束位置的概率,将作为起始位置概率最大的词语作为与问题答案相关的支持句序列起始位置对应的词语,以及将作为结束位置概率最大的词语作为与问题答案相关的支持句序列结束位置对应的词语。
具体地,Start token表示所预测的支持句序列起始位置;End token表示所预测的支持句序列结束位置。
如图7所示,本实施例的答案确定模型利用了谷歌AI团队提出的BERT模型。
如图7和图8所示,构建答案确定模型,具体包括:
S801、获取答案确定模型训练集。
本步骤中的答案确定训练集包括多个问题、多个问题答案、多种答案类型以及多个支持句序列,每种答案类型对应一种问题类型,问题、问题答案和支持句序列均为一一对应的关系,且每个支持句序列与对应的问题答案相关;每个问题中的词语均为英语单词;问题类型包括五种:DE(描述与实体类)、HUM(人物类)、LOC(位置地点类)、NUM(数字类)、YN(是否类),五种问题类型可分别对应到五种答案类型,答案类型标签集label与问题类型标签集label的含义相同。
S802、对每个问题以及对应的支持句序列进行预处理。
预处理方式同上述步骤S402,对于每个问题以及对应的支持句序列,将标点符号去除,将大写字母转换为小写字母,以及将停用词去除。
S803、将每种答案类型随机生成相应的词向量。
将每种答案类型随机生成相应的词向量,即DE(描述与实体类)、HUM(人物类)、LOC(位置地点类)、NUM(数字类)、YN(是否类)都会生成相应的词向量。
S804、将预处理后的每个问题以及对应的支持句序列进行向量表示,并排在一起输入到BERT模型的十二个转换编码器进行编码,输出编码结果。
S805、将步骤S803生成的每个问题所对应的答案类型词向量与步骤S804输出的编码结果相结合,依次输入到三个循环神经网络(Recurrent Neural Network,简称RNN)中进行训练,得到答案确定模型。
在三个循环神经网络的训练中,多次更新三个循环神经网络的参数,直到收敛或达到循环次数,训练完成即可得到答案确定模型。
将S803生成的每个问题所对应的答案类型词向量与S804输出的编码结果相结合,依次输入到三个循环神经网络中,并在每个循环神经网络后加入连接(concat)操作,对三个循环神经网络进行训练,得到答案确定模型。
本实施例中,通过三个线性层(Linear层)输出每个问题的答案,三个线性层分别为第一线性层、第二线性层和第三线性层,第一线性层输出“是(yes)”或“否(no)”或“文本片段(span)”,第二线性层和第三线性层分别输出文本片断的起始词向量Vstart和结束词向量Vend,Start token表示文本片断起始的位置,End token表示文本片断结束的位置,三个线性层均采用Softmax函数,函数的形式同公式(2)。
S102、将目标问题输入问题分类模型,通过问题分类模型进行预测,输出得到目标问题类型。
本步骤中的目标问题即为需要预测的问题,目标问题中的词语为英语单词,具体地,将目标问题的词向量从问题分类模型的输入层输入,依次通过问题分类模型的卷积层、池化层、合并层、第一全连接层、第二全连接层和Softmax层的处理,输出得到目标问题类型。
S103、将目标问题和一篇待阅读理解文章输入支持句查找模型,通过支持句查找模型进行预测,输出得到与目标问题答案相关的支持句序列。
本步骤中的待阅读理解文章为英文文章,包括多个段落,具体地,将目标问题和一篇文章依次通过支持句查找模型的语义表示层、问题-段落编码层和多步推理层的处理,输出得到与目标问题答案相关的支持句序列。
S104、将目标问题、与目标问题类型对应的答案类型以及与目标问题答案相关的支持句序列输入答案确定模型,通过答案确定模型进行预测,输出得到目标问题的答案。
具体地,将与步骤S102输出的目标问题类型对应的答案类型随机生成相应的词向量,将目标问题和步骤S103输出的支持句通过BERT模型的十二层转换编码器进行编码,输出编码结果,将随机生成的词向量与输出的编码结果相结合,依次输入到三个循环神经网络中进行处理,输出得到目标问题的答案。
进一步地,输出得到目标问题的答案过程如图9所示,具体包括:
S901、通过第一线性层预测,得到“是(yes)”、“否(no)”和“文本片段(span)”的概率。
S902、若“是”的概率值最大,则输出目标问题的答案为“是”。
S903、若“否”的概率值最大,则输出目标问题的答案为“否”。
S904、若“文本片段”的概率值最大,则输出目标问题的答案为“文本片段”,利用第二线性层和第三线性层分别输出支持句序列中每个词向量对应的词语作为文本片断起始位置的概率和每个词向量对应的词语作为文本片断结束位置的概率,将作为起始位置概率最大的词向量对应的词语作为文本片段的起始词,以及将作为结束位置概率最大的词向量对应的词语作为文本片段的结束词。
假设第二线性层和第三线性层分别输出文本片断的起始词向量Vstart和结束词向量Vend,输入的支持句序列中的第i个单词所对应的隐藏向量设为Ti,第i个单词作为作为起始位置的概率采用公式(3)计算;第i个单词作为结束位置的概率采用公式(4)计算,如下:
Figure BDA0002214016880000121
Figure BDA0002214016880000122
其中,·表示点积运算,j的取值范围为(1,N),N为支持句序列中单词的个数。
本领域技术人员可以理解,实现上述实施例的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,相应的程序可以存储于计算机可读存储介质中。
应当注意,尽管以特定顺序描述了上述实施例的方法操作,但是这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
实施例2:
本实施例的机器阅读理解方法为具体的应用实例,包括以下步骤:
S1、构建问题分类模型
本步骤中的问题分类模型训练集选取TREC数据集和WWWA数据集中的多个问题及其问题类型;
TREC数据集的链接:http://cogcomp.org/Data/QA/QC
WWWA数据集的链接:https://github.com/amitbcp/question-classification
问题分类模型使用word2vec词向量工具将问题用实数向量表示,问题最大长度(单词数目)设为100,词向量维度为300,共有五个卷积层,各卷积层的参数如下:
卷积层1={filters=500,row=2,col=300},对应的最大池化层的pool_size=30;
卷积层2={filters=500,row=3,col=300},对应的最大池化层的pool_size=29;
卷积层3={filters=500,row=4,col=300},对应的最大池化层的pool_size=28;
卷积层4={filters=500,row=5,col=300},对应的最大池化层的pool_size=27;
卷积层5={filters=500,row=6,col=300},对应的最大池化层的pool_size=26。
问题分类模型训练迭代次数为10;全连接层1的深度为128,Dropout参数为0.5;全连接层2的深度为64,Dropout参数为0.5;训练好的问题分类模型保存在h5文件中。
S2、构建支持句查找模型
本步骤中的支持句查找模型训练集选取阅读理解数据集HOTPOT中的多个问题及其对应的文章和支持句序列,支持句查找模型使用glove词向量工具对段落进行向量表示,段落限制长度(--para_limit)为2250;批尺寸(--batch_size)值为24;初始学习率(--init_lr)为0.1;数据保留率(--keep_prob)为1.0;训练好的支持句查找模型保存在model.pt文件中。
阅读理解数据集HOTPOT的链接:https://hotpotqa.github.io
S3、构建答案确定模型
本步骤中的答案确定模型训练集选取阅读理解数据集HOTPOT中的多个问题及其对应的问题答案和支持句序列,以及答案类型,答案确定模型训练的批尺寸(--train_batch_size)值为16;学习率(--learning_rate)为3e-5;最大输入序列长度(--max_seq_length)为160;文档最大分块长度(--doc_stride)为128;训练好的答案确定模型保存在model.ckpt文件中。
阅读理解数据集HOTPOT的链接:https://hotpotqa.github.io
利用上面构建好的问题分类模型、支持句查找模型以及答案确定模型,针对给定的一篇待阅读理解文章和提出的一个目标问题,获得一个目标问题答案的处理流程实例如下:
S4、给出一篇待阅读理解文章P如下:
"Esma Sultan(21March 1873\u2013 7May 1899)was an Ottoman princess,thedaughter of Sultan Abd\u00fclaziz and his wife Gevheri Kad\u0131n,herself thedaughter of Salih Bey Svatnba.","She was the half-sister of Abd\u00fclmecidII,the last Caliph of the Muslim world."
"The Great Mosque of Algiers(Arabic:\u0627\u0644\u062c\u0627\u0645\u0639\u0627\u0644\u0643\u0628\u064a\u0631\u200e\u200e,\"Jemaa Kebir\")or\u201cDjama\u2019a al-Kebir\u201d(meaning Great Mosque)is a mosque in Algiers,Algeria,located very close to Algiers Harbor.","An inscription on the minbar(\u0645\u0646\u0628\u0631)or the pulpit testifies to fact that the mosque wasbuilt in 1097.","It is also known by several other names such as Grand Mosqued'Alger,Djamaa al-Kebir,El Kebir Mosque and Jami Masjid.","It is one of thefew remaining examples of Almoravid architecture.","It is the oldest mosquein Algiers and is said to be the oldest mosque in Algeria after Sidi OkbaMosque.","It was built under sultan Ali ibn Yusuf.","Its minaret dates from1332(1324 in some sources)and was built by the Ziyyanid Sultan of Tlemcen.","The gallery at the outside of the mosque was built in 1840.","Itsconstruction was a consequence of a complete reconstruction of the street bythe French."
"K\u00fc\u00e7\u00fck H\u00fcseyin Pasha(1757\u2013 7 December 1803),also known as Tayazade Damat K\u00fc\u00e7\u00fck H\u00fcseyin Pasha,was anOttoman statesman and admiral who was Kapudan Pasha(Grand Admiral of theOttoman Navy)from11 March 1792 to 7 December 1803.","He was a\"damat\"(\"bridegroom\")to the Ottoman dynasty after he married an Ottoman princess,EsmaSultan."
"Esma Sultan(17 July 1778\u2013 4 June 1848)was an Ottoman princess,daughter of Sultan Abdul Hamid I,sister of Sultan Mustafa IV and SultanMahmud II.","She was the adoptive mother of Bezmi\u00e2lem Sultan and RahimePerestu Sultan."
"The Sultan Ahmed Mosque or Sultan Ahmet Mosque(Turkish:\"SultanAhmet Camii\")is a historic mosque located in Istanbul,Turkey.","A populartourist site,the Sultan Ahmed Mosque continues to function as a mosque today;men still kneel in prayer on the mosque's lush red carpet after the call toprayer.","The Blue Mosque,as it is popularly known,was constructed between1609 and 1616 during the rule of Ahmed I.","Its K\u00fclliye contains Ahmed'stomb,a madrasah and a hospice.","Hand-painted blue tiles adorn the mosque\u2019s interior walls,and at night the mosque is bathed in blue as lightsframe the mosque\u2019s five main domes,six minarets and eight secondarydomes.","It sits next to the Hagia Sophia,another popular tourist site."
"The Laleli Mosque(Turkish:\"Laleli Camii,or Tulip Mosque\")is an18th-century Ottoman imperial mosque located in Laleli,Fatih,Istanbul,Turkey."
"The Esma Sultan Mansion(Turkish:\"Esma Sultan Yal\u0131s\u0131\"),ahistorical yal\u0131(English:waterside mansion)located at Bosphorus in Ortak\u00f6y neighborhood of Istanbul,Turkey and named after its original ownerEsma Sultan,is used today as a cultural center after being redeveloped."
"Esma Sultan is the name of three daughters of three OttomanSultans:"
"Gevheri Kad\u0131n(8July 1856\u00a0\u2013 6September 1884)was thefifth wife of 32nd Ottoman Sultan Abd\u00fclaziz.","She was the mother of\u015eehzade Mehmed Seyfeddin and Esma Sultan of the Ottoman Empire."
"Esma Sultan(14March 1726\u2013 13August 1788)was an Ottomanprincess,daughter of Sultan Ahmed III and his consort Zeynep Kad\u0131n.","She was the half-sister of Sultan Mustafa III and Abdul Hamid I."
S5、对待阅读理解文章P进行预处理
分词结果:['Esma','Sultan','21','March','1873','u2013','7','May','1899','was','an','Ottoman',...]
用glove工具进行向量化表示,每一个词表示为300维词向量:
Figure BDA0002214016880000151
S6、提出一个目标问题Q:Are the Laleli Mosque and Esma Sultan Mansionlocated in the same neighborhood?
S7、对目标问题Q进行预处理:
分词结果:['Are','the','Laleli','Mosque','and','Esma','Sultan','Mansion','located','in','the','same','neighborhood']
用word2vec工具进行向量化表示,得到300维词向量:
Figure BDA0002214016880000152
S8、将步骤S7得到的目标问题Q的向量输入到训练好的问题分类模型中进行预测,得到目标问题类型['YN'],则目标问题答案类型也为['YN']。
S9、将步骤S7得到的目标问题Q的向量、步骤S5得到的待阅读理解文章P的向量输入到训练好的支持句查找模型进行预测,得到与目标问题答案相关的支持句序列,如下:
["The Laleli Mosque(Turkish:\"Laleli Camii,or Tulip Mosque\")is an18th-century Ottoman imperial mosque located in Laleli,Fatih,Istanbul,Turkey.The Esma Sultan Mansion(Turkish:\"Esma Sultan Yal\u0131s\u0131\"),ahistorical yal\u0131(English:waterside mansion)located at Bosphorus in Ortak\u00f6y neighborhood of Istanbul,Turkey and named after its original ownerEsma Sultan,is used today as a cultural center after being redeveloped."]
S10、利用训练好的答案确定模型,对步骤S8得到的答案类型['YN']产生的向量为:[-0.00280762,0.11962891,...],对步骤S7得到的目标问题Q的向量以及步骤S9得到的支持句序列的向量进行处理,预测输出三种结果的概率为[yes:0.17963,no:0.81519,span:0.00518],选择概率最大值对应的答案为“no”。
实施例3:
如图10所示,本实施例提供了一种基于深度学习的机器阅读理解系统,该系统包括构建模块1001、问题类型预测模块1002、支持句预测模块1003和答案预测模块1004,各个模块的具体功能如下:
所述构建模块1001,用于构建问题分类模型﹑支持句查找模型和答案确定模型。
所述问题类型预测模块1002,用于将目标问题输入问题分类模型,通过问题分类模型进行预测,输出得到目标问题类型。
所述支持句预测模块1003,用于将目标问题和一篇待阅读理解文章输入支持句查找模型,通过支持句查找模型进行预测,输出得到与目标问题答案相关的支持句序列。
所述答案预测模块1004,用于将目标问题、与目标问题类型对应的答案类型以及与目标问题答案相关的支持句序列输入答案确定模型,通过答案确定模型进行预测,输出得到目标问题的答案。
本实施例中各个模块的具体实现可以参见上述实施例1,不再一一赘述;在此需要说明的是,本实施例提供的系统仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
实施例4:
本实施例提供了一种计算机设备,该计算机设备可以为计算机,如图11所示,其通过系统总线1101连接的处理器1102、存储器、输入装置1103、显示器1104和网络接口1105,该处理器用于提供计算和控制能力,该存储器包括非易失性存储介质1106和内存储器1107,该非易失性存储介质1106存储有操作系统、计算机程序和数据库,该内存储器1107为非易失性存储介质中的操作系统和计算机程序的运行提供环境,处理器1102执行存储器存储的计算机程序时,实现上述实施例1的机器阅读理解方法,如下:
构建问题分类模型﹑支持句查找模型和答案确定模型;
将目标问题输入问题分类模型,通过问题分类模型进行预测,输出得到目标问题类型;
将目标问题和一篇待阅读理解文章输入支持句查找模型,通过支持句查找模型进行预测,输出得到与目标问题答案相关的支持句序列;
将目标问题、与目标问题类型对应的答案类型以及与目标问题答案相关的支持句序列输入答案确定模型,通过答案确定模型进行预测,输出得到目标问题的答案。
实施例5:
本实施例提供一种存储介质,该存储介质为计算机可读存储介质,其存储有计算机程序,计算机程序被处理器执行时,实现上述实施例1的机器阅读理解方法,如下:
构建问题分类模型﹑支持句查找模型和答案确定模型;
将目标问题输入问题分类模型,通过问题分类模型进行预测,输出得到目标问题类型;
将目标问题和一篇待阅读理解文章输入支持句查找模型,通过支持句查找模型进行预测,输出得到与目标问题答案相关的支持句序列;
将目标问题、与目标问题类型对应的答案类型以及与目标问题答案相关的支持句序列输入答案确定模型,通过答案确定模型进行预测,输出得到目标问题的答案。
本实施例中的存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、U盘、移动硬盘等介质。
综上所述,本发明的机器阅读理解方法将问题分类﹑答案支持句查找和答案确定相结合,通过构建问题分类模型﹑支持句查找模型和答案确定模型,将问题分类模型输出的问题类型对应的答案类型以及支持句查找模型输出的支持句序列一起输入答案确定模型中进行预测,得到目标问题的答案,能够减少答案的搜索空间和时间,有效处理文章段落较多、需要在多段中进行推理才能获得答案的情况,提高阅读理解答案的准确率。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明构思加以等同替换或改变,都属于本发明专利的保护范围。

Claims (9)

1.一种基于深度学习的机器阅读理解方法,其特征在于,所述方法包括:
构建问题分类模型﹑支持句查找模型和答案确定模型;
将目标问题输入问题分类模型,通过问题分类模型进行预测,输出得到目标问题类型;
将目标问题和一篇待阅读理解文章输入支持句查找模型,通过支持句查找模型进行预测,输出得到与目标问题答案相关的支持句序列;
将目标问题、与目标问题类型对应的答案类型以及与目标问题答案相关的支持句序列输入答案确定模型,通过答案确定模型进行预测,输出得到目标问题的答案;
构建答案确定模型,具体包括:
获取答案确定模型训练集;其中,所述答案确定模型训练集包括多个问题、多个问题答案、多种答案类型以及多个支持句序列,每种答案类型对应一种问题类型,问题、问题答案和支持句序列均为一一对应的关系,且每个支持句序列与对应的问题答案相关;
对每个问题以及对应的支持句序列进行预处理;
将每种答案类型随机生成相应的词向量;
将预处理后的每个问题以及对应的支持句序列进行向量表示,并排在一起输入到BERT模型的转换编码器进行编码,输出编码结果;
将每个问题所对应的答案类型词向量与输出的编码结果相结合,依次输入到三个循环神经网络进行训练,得到答案确定模型。
2.根据权利要求1所述的机器阅读理解方法,其特征在于,构建问题分类模型,具体包括:
获取问题分类模型训练集;其中,所述问题分类训练集包括多个问题以及每个问题对应的问题类型;
对每个问题进行预处理;
将预处理后的每个问题中的每个词语用一个实数向量表示,使预处理后的每个问题转换为一个m×d的矩阵;其中,m为每个问题中的词语数量,d为每个词语的维度;
将每个问题的m×d矩阵输入到卷积神经网络模型中进行训练,得到问题分类模型;其中,所述卷积神经网络模型包括依次相连的输入层、卷积层、池化层、合并层、第一全连接层、第二全连接层和Softmax层。
3.根据权利要求2所述的机器阅读理解方法,其特征在于,所述对问题分类训练集中的每个问题进行预处理,具体为:
对于每个问题,将标点符号去除,将大写字母转换为小写字母,以及将停用词去除。
4.根据权利要求1所述的机器阅读理解方法,其特征在于,构建支持句查找模型,具体包括:
获取支持句查找模型训练集;其中,所述支持句查找训练集包括多个问题、每个问题对应的文章以及每个问题在对应文章中的支持句序列;
对每个问题和每篇文章进行预处理;
将预处理后的每个问题和每篇文章进行向量表示,通过训练基于多级注意力机制的循环神经网络模型,得到支持句查找模型。
5.根据权利要求4所述的机器阅读理解方法,其特征在于,所述基于多级注意力机制的循环神经网络模型包括语义表示层、问题-段落编码层、多步推理层和输出层;
所述将预处理后的每个问题和每篇文章进行向量表示,通过训练基于多级注意力机制的循环神经网络模型,得到支持句查找模型,具体包括:
在语义表示层中,将预处理后的每个问题中的每个词语以及预处理后的每篇文章的多个段落中的每个词语分别转换成向量表示;其中,所述向量由词向量特征和字符向量特征组成;
在问题-段落编码层中,采用双向门控循环单元对问题和段落中的词向量分别进行编码,得到新的向量表示;
在多步推理层中,利用双向注意力机制构建基于问题的段落上下文编码表示,即将问题中的词向量相关信息加入到段落词语中,不断更新问题与段落的表达方式;
在输出层中,使用双向门控循环单元和线性层进行段落中的句子与问题的匹配,分别评估段落各句子中的词语作为支持句序列的起始位置与结束位置的概率,将作为起始位置概率最大的词语作为与问题答案相关的支持句序列起始位置对应的词语,以及将作为结束位置概率最大的词语作为与问题答案相关的支持句序列结束位置对应的词语。
6.根据权利要求1-5任一项所述的机器阅读理解方法,其特征在于,所述输出得到目标问题的答案,具体包括:
通过第一线性层预测,得到“是”、“否”和“文本片段”的概率;
若“是”的概率值最大,则输出目标问题的答案为“是”;
若“否”的概率值最大,则输出目标问题的答案为“否”;
若“文本片段”的概率值最大,则输出目标问题的答案为“文本片段”,利用第二线性层和第三线性层分别输出支持句序列中每个词向量对应的词语作为文本片断起始位置的概率和每个词向量对应的词语作为文本片断结束位置的概率,将作为起始位置概率最大的词向量对应的词语作为文本片段的起始词,以及将作为结束位置概率最大的词向量对应的词语作为文本片段的结束词。
7.一种基于深度学习的机器阅读理解系统,其特征在于,所述系统包括:
构建模块,用于构建问题分类模型﹑支持句查找模型和答案确定模型;
问题类型预测模块,用于将目标问题输入问题分类模型,通过问题分类模型进行预测,输出得到目标问题类型;
支持句预测模块,用于将目标问题和一篇待阅读理解文章输入支持句查找模型,通过支持句查找模型进行预测,输出得到与目标问题答案相关的支持句序列;
答案预测模块,用于将目标问题、与目标问题类型对应的答案类型以及与目标问题答案相关的支持句序列输入答案确定模型,通过答案确定模型进行预测,输出得到目标问题的答案;
构建答案确定模型,具体包括:
获取答案确定模型训练集;其中,所述答案确定模型训练集包括多个问题、多个问题答案、多种答案类型以及多个支持句序列,每种答案类型对应一种问题类型,问题、问题答案和支持句序列均为一一对应的关系,且每个支持句序列与对应的问题答案相关;
对每个问题以及对应的支持句序列进行预处理;
将每种答案类型随机生成相应的词向量;
将预处理后的每个问题以及对应的支持句序列进行向量表示,并排在一起输入到BERT模型的转换编码器进行编码,输出编码结果;
将每个问题所对应的答案类型词向量与输出的编码结果相结合,依次输入到三个循环神经网络进行训练,得到答案确定模型。
8.一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1-6任一项所述的机器阅读理解方法。
9.一种存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1-6任一项所述的机器阅读理解方法。
CN201910908549.3A 2019-09-25 2019-09-25 基于深度学习的机器阅读理解方法、系统、设备及介质 Active CN110688491B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910908549.3A CN110688491B (zh) 2019-09-25 2019-09-25 基于深度学习的机器阅读理解方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910908549.3A CN110688491B (zh) 2019-09-25 2019-09-25 基于深度学习的机器阅读理解方法、系统、设备及介质

Publications (2)

Publication Number Publication Date
CN110688491A CN110688491A (zh) 2020-01-14
CN110688491B true CN110688491B (zh) 2022-05-10

Family

ID=69110206

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910908549.3A Active CN110688491B (zh) 2019-09-25 2019-09-25 基于深度学习的机器阅读理解方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN110688491B (zh)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241304B (zh) * 2020-01-16 2024-02-06 平安科技(深圳)有限公司 基于深度学习的答案生成方法、电子装置及可读存储介质
CN111368042A (zh) * 2020-02-13 2020-07-03 平安科技(深圳)有限公司 智能问答方法、装置、计算机设备及计算机存储介质
CN111414762A (zh) * 2020-02-19 2020-07-14 重庆邮电大学 基于dcu编码和自注意力机制的机器阅读理解方法
CN111680264B (zh) * 2020-04-20 2023-12-22 重庆兆光科技股份有限公司 一种多文档阅读理解方法
CN111552773A (zh) * 2020-04-24 2020-08-18 中国科学院空天信息创新研究院 一种阅读理解任务中是否类问题关键句寻找方法及系统
CN111626121B (zh) * 2020-04-24 2022-12-20 上海交通大学 基于视频中多层次交互推理的复杂事件识别方法及系统
CN111552781B (zh) * 2020-04-29 2021-03-02 焦点科技股份有限公司 一种联合机器检索阅读的方法
CN111581350A (zh) * 2020-04-30 2020-08-25 识因智能科技(北京)有限公司 一种基于预训练语言模型的多任务学习阅读理解方法
CN111428021B (zh) * 2020-06-05 2023-05-30 平安国际智慧城市科技股份有限公司 基于机器学习的文本处理方法、装置、计算机设备及介质
CN111858879B (zh) * 2020-06-18 2024-04-05 达观数据有限公司 一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备
CN111858883A (zh) * 2020-06-24 2020-10-30 北京百度网讯科技有限公司 三元组样本的生成方法、装置、电子设备及存储介质
CN111814466A (zh) * 2020-06-24 2020-10-23 平安科技(深圳)有限公司 基于机器阅读理解的信息抽取方法、及其相关设备
CN111783428B (zh) * 2020-07-07 2024-01-23 杭州叙简科技股份有限公司 基于深度学习的应急管理类客观题自动生成系统
CN111858857B (zh) * 2020-07-31 2021-03-30 前海企保科技(深圳)有限公司 一种跨文档长文本的分层融合阅读理解方法及系统
CN112114795B (zh) * 2020-09-18 2022-02-11 北京航空航天大学 开源社区中辅助工具停用的预测方法及装置
CN112163079B (zh) * 2020-09-30 2024-02-20 民生科技有限责任公司 一种基于阅读理解模型的智能对话方法及系统
CN112287978B (zh) 2020-10-07 2022-04-15 武汉大学 一种基于自注意力上下文网络的高光谱遥感图像分类方法
CN112329442A (zh) * 2020-10-13 2021-02-05 电子科技大学 面向异构法律数据的多任务阅读系统及方法
CN112541052B (zh) * 2020-12-01 2023-11-03 北京百度网讯科技有限公司 确定问题的答案的方法、装置、设备及存储介质
CN112507081B (zh) * 2020-12-16 2023-05-23 平安科技(深圳)有限公司 相似句匹配方法、装置、计算机设备及存储介质
CN112269868B (zh) * 2020-12-21 2021-03-09 中南大学 一种基于多任务联合训练的机器阅读理解模型的使用方法
CN112784579B (zh) * 2020-12-31 2022-05-27 山西大学 一种基于数据增强的阅读理解选择题答题方法
CN112836482B (zh) * 2021-02-09 2024-02-23 浙江工商大学 一种基于模板的序列生成模型生成问题的方法及装置
CN113076759A (zh) * 2021-04-25 2021-07-06 昆明理工大学 基于答案类别和句法指导的案情阅读理解方法
CN113076431B (zh) * 2021-04-28 2022-09-02 平安科技(深圳)有限公司 机器阅读理解的问答方法、装置、计算机设备及存储介质
CN113282722B (zh) * 2021-05-07 2024-03-29 中国科学院深圳先进技术研究院 机器阅读理解方法、电子设备及存储介质
CN113590814A (zh) * 2021-05-13 2021-11-02 上海大学 一种融合文本解释特征的文本分类方法
CN113255327B (zh) * 2021-06-10 2021-09-28 腾讯科技(深圳)有限公司 文本处理方法、装置、电子设备及计算机可读存储介质
CN113360619A (zh) * 2021-06-16 2021-09-07 腾讯科技(深圳)有限公司 一种表单生成方法、装置、设备及介质
CN113553402B (zh) * 2021-07-28 2022-09-20 山西大学 一种基于图神经网络的考试阅读理解自动问答方法
CN113590787A (zh) * 2021-07-30 2021-11-02 胡昌然 一种机器阅读理解方法、装置、计算机设备及计算机可读存储介质
CN113779360A (zh) * 2021-08-18 2021-12-10 深圳技术大学 基于多头问答模型的解题方法、装置、设备及存储介质
TWI800982B (zh) * 2021-11-16 2023-05-01 宏碁股份有限公司 文章標記資料的產生裝置及其產生方法
CN114462364B (zh) * 2022-02-07 2023-01-31 北京百度网讯科技有限公司 录入信息的方法和装置
CN114780706A (zh) * 2022-06-15 2022-07-22 共道网络科技有限公司 一种舆情事件的信息提取方法、设备和存储介质
CN116245107B (zh) * 2023-05-12 2023-08-04 国网天津市电力公司培训中心 电力审计文本实体识别方法、装置、设备及存储介质
CN116383366B (zh) * 2023-06-06 2023-08-04 中航信移动科技有限公司 一种应答信息确定方法、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818085A (zh) * 2017-11-08 2018-03-20 山西大学 阅读机器人进行阅读理解的答案选择方法及系统
CN109063174A (zh) * 2018-08-21 2018-12-21 腾讯科技(深圳)有限公司 查询答案的生成方法及装置、计算机存储介质、电子设备
CN109460553A (zh) * 2018-11-05 2019-03-12 中山大学 一种基于门限卷积神经网络的机器阅读理解方法
CN109492227A (zh) * 2018-11-16 2019-03-19 大连理工大学 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN109657246A (zh) * 2018-12-19 2019-04-19 中山大学 一种基于深度学习的抽取式机器阅读理解模型的建立方法
CN109947912A (zh) * 2019-01-25 2019-06-28 四川大学 一种基于段落内部推理和联合问题答案匹配的模型方法
CN110083682A (zh) * 2019-04-19 2019-08-02 西安交通大学 一种基于多轮注意力机制的机器阅读理解答案获取方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190007213A (ko) * 2017-07-12 2019-01-22 주식회사 마인즈랩 질문 배분 장치 및 질문 배분 방법
US20190156220A1 (en) * 2017-11-22 2019-05-23 Microsoft Technology Licensing, Llc Using machine comprehension to answer a question

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818085A (zh) * 2017-11-08 2018-03-20 山西大学 阅读机器人进行阅读理解的答案选择方法及系统
CN109063174A (zh) * 2018-08-21 2018-12-21 腾讯科技(深圳)有限公司 查询答案的生成方法及装置、计算机存储介质、电子设备
CN109460553A (zh) * 2018-11-05 2019-03-12 中山大学 一种基于门限卷积神经网络的机器阅读理解方法
CN109492227A (zh) * 2018-11-16 2019-03-19 大连理工大学 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN109657246A (zh) * 2018-12-19 2019-04-19 中山大学 一种基于深度学习的抽取式机器阅读理解模型的建立方法
CN109947912A (zh) * 2019-01-25 2019-06-28 四川大学 一种基于段落内部推理和联合问题答案匹配的模型方法
CN110083682A (zh) * 2019-04-19 2019-08-02 西安交通大学 一种基于多轮注意力机制的机器阅读理解答案获取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习的问答匹配方法;荣光辉;《计算机应用》;20171010;全文 *

Also Published As

Publication number Publication date
CN110688491A (zh) 2020-01-14

Similar Documents

Publication Publication Date Title
CN110688491B (zh) 基于深度学习的机器阅读理解方法、系统、设备及介质
CN111368565B (zh) 文本翻译方法、装置、存储介质和计算机设备
CN108628935B (zh) 一种基于端到端记忆网络的问答方法
CN110390397B (zh) 一种文本蕴含识别方法及装置
CN108829719A (zh) 一种非事实类问答答案选择方法及系统
CN112559702B (zh) 基于Transformer的土木建筑信息领域自然语言问题生成方法
CN110188176A (zh) 深度学习神经网络及训练、预测方法、系统、设备、介质
CN106484682A (zh) 基于统计的机器翻译方法、装置及电子设备
CN108153864A (zh) 基于神经网络生成文本摘要的方法
CN109325242B (zh) 基于词对和翻译判断句子是否对齐的方法、装置及设备
CN111400461B (zh) 智能客服问题匹配方法及装置
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN115048447B (zh) 一种基于智能语义补全的数据库自然语言接口系统
CN113779220A (zh) 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法
Luz et al. Semantic parsing natural language into SPARQL: improving target language representation with neural attention
CN111710428A (zh) 一种建模全局和局部上下文交互的生物医学文本表示方法
Guan et al. Repeated review based image captioning for image evidence review
CN112347756A (zh) 一种基于序列化证据抽取的推理阅读理解方法及系统
Sharath et al. Question answering over knowledge base using language model embeddings
CN114510576A (zh) 一种基于BERT和BiGRU融合注意力机制的实体关系抽取方法
CN112035629B (zh) 基于符号化知识与神经网络的问答模型的实现方法
CN110929006B (zh) 一种数据型问答系统
Liu et al. Attention based r&cnn medical question answering system in chinese
CN110879838B (zh) 一种放开域问答系统
CN109815323B (zh) 一种人机交互训练问答生成算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant