CN111460176A - 一种基于哈希学习的多文档机器阅读理解方法 - Google Patents

一种基于哈希学习的多文档机器阅读理解方法 Download PDF

Info

Publication number
CN111460176A
CN111460176A CN202010393230.4A CN202010393230A CN111460176A CN 111460176 A CN111460176 A CN 111460176A CN 202010393230 A CN202010393230 A CN 202010393230A CN 111460176 A CN111460176 A CN 111460176A
Authority
CN
China
Prior art keywords
document
answer
reading understanding
documents
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010393230.4A
Other languages
English (en)
Other versions
CN111460176B (zh
Inventor
李武军
江悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202010393230.4A priority Critical patent/CN111460176B/zh
Publication of CN111460176A publication Critical patent/CN111460176A/zh
Application granted granted Critical
Publication of CN111460176B publication Critical patent/CN111460176B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于哈希学习的多文档机器阅读理解方法,可以达到在线多文档阅读理解场景下预测准确率高、内存开销低的效果。该方法训练一个基于哈希学习的多文档阅读理解模型,机器在线预测时首先使用预训练自注意力模型提取问题和文档的文本特征信息,接着计算文档对应的二值矩阵表示,使用动态指针解码器预测各文档的答案及其概率,此外还预测各文档含有正确答案的概率,综合这两种概率对所有答案进行排序,选取最前面的答案输出。多文档动态指针解码器在每篇文档预测答案时考虑了其他文档的语义信息,提高了模型准确度。模型预测时将所有文档的二值矩阵表示存储在内存中,减少了存储开销。

Description

一种基于哈希学习的多文档机器阅读理解方法
技术领域
本发明涉及一种基于哈希学习的多文档机器阅读理解方法,涉及到自然语言处理技术,利用低内存开销实现高效的机器阅读理解。
背景技术
多文档阅读理解是通过阅读和理解给定问题的多篇相关文档,给出该问题的正确答案。多文档阅读理解可以应用在开放域问答系统中,阅读给定问题查询到的相关文档,直接将预测的答案返回给用户。多文档阅读理解是自然语言处理领域的重要研究方向,在工程领域中也有很高的应用价值,能够给人们的生活带来很大的便利。
现有的多文档阅读理解模型大多使用预训练的自注意力模型获取文档和问题的语义表示,在提升模型效果的同时也带来了存储开销较大的问题。预测每篇文档的答案时综合考虑其他候选文档,能够提高阅读理解的准确度,也进一步增加了存储消耗,给实际应用造成很多限制。因此,设计一种预测准确率高且存储开销低的机器阅读理解方法至关重要。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提供一种基于哈希学习的多文档机器阅读理解方法,利用哈希学习技术对文档的实值矩阵表示进行压缩。在提高多文档阅读理解模型精度的同时,降低了内存的开销。
技术方案:一种基于哈希学习的多文档机器阅读理解方法,训练基于哈希学习的多文档阅读理解模型,用于实现多文档机器阅读理解的预测,多文档机器阅读理解的预测具体包括以下步骤:
1)给定一个问题和基于给定问题检索到的多篇文档,训练多文档阅读理解模型对文档进行编码,得到包含文本信息的实值矩阵;
2)对于每篇所述文档,训练多文档阅读理解模型计算其二值矩阵表示;
3)对于任一所述文档,训练多文档阅读理解模型使用该文档的所述二值矩阵表示,预测该文档中一个特定子串作为答案,计算所述特定子串关于该文档为正确答案的概率;
4)对于所述给定问题和任一所述文档,训练多文档阅读理解模型计算该文档含有正确答案的概率;
5)基于每篇所述文档的子串作为正确答案的概率和该文档含有正确答案的概率,训练多文档阅读理解模型对该文档预测的答案进行排序,输出结果。
上述步骤1)的过程为:使用预训练自注意力模型提取问题和文档的特征表示,预训练自注意力模型使用预训练语言模型编码器对问题和文档拼接后的文本进行编码,得到包含问题和文档信息的实值矩阵;
上述步骤2)的过程为:在编码器后添加一层哈希层,将所述的实值矩阵输入到哈希层,哈希层在测试时使用取符号函数sgn(x)计算该实值矩阵的二值矩阵表示,在训练时使用tanh(βx)近似该实值矩阵的二值矩阵表示,目的是正常进行梯度回传。
上述步骤3)的过程为:将哈希层输出的二值矩阵表示输入到动态指针解码层,用多轮迭代的方式预测所述各文档的答案,所述各文档的每轮迭代同步进行。
动态指针解码层的主体由一个单层长短期记忆网络构成,每次迭代就是所述单层长短期记忆网络的一个时间步,在每个时间步,所述动态指针解码层将上一个时间步预测的答案起始位置的编码,以及所述单层长短期记忆网络的隐状态输入到该单层长短期记忆网络中,输出并更新这一时间步的隐状态,每个时间步预测的答案起始位置分别由两个最大值选出神经网络决定。
最大值选出神经网络为每一篇所述文档的每个位置分别计算其是答案开始位置和结束位置的分数,答案开始位置的最大值选出网络与结束位置的最大值选出网络结构相同,但是不共享网络参数;最大值选出网络的输入包括文档词语的二值编码向量、单层长短期记忆网络当前的隐状态向量、上一次迭代时预测的答案开始和结束位置的二值编码向量、当前文档预测的答案编码向量,以及该答案经过注意力机制交互后的向量表示;在最后一次迭代时,根据所述开始位置最大值选出网络和结束位置最大值选出网络的输出,为所述每篇文档计算出该文档中作为正确答案概率最大的子串,同时得到该子串作为正确答案的概率;
当前文档预测的答案编码向量,是从该文档的二值编码矩阵截取答案起始位置,再使用最大池化操作得到的;计算每两篇文档的答案编码向量的内积,作为它们的语义相似度,将除当前文档以外的文档答案编码向量根据相似度计算加权和,得到当前文档答案经过注意力机制交互后的向量表示。
上述步骤4)的过程为:计算各所述文档含有正确答案的概率,将各所述文档的答案编码向量和答案经过注意力机制交互后的向量表示输入到一层全连接网络,将各文档通过该全连接层的输出进行指数归一化,得到各文档含有正确答案的概率。
上述步骤5)的过程为:将每篇文档的子串作为正确答案的概率,以及每篇文档含有正确答案的概率加权求和,据此加权求和结果将所有文档的预测子串进行排序,选择最前面的一个作为最终答案,输出结果。
在多文档阅读理解模型的训练过程中,其损失函数由三部分构成,使用交叉熵损失为预测的答案起始位置建模,使用分类损失为预测文档是否含有正确答案建模,使用范数损失为文档的二值矩阵建模;在求解该优化问题时,使用梯度反向传播算法优化多文档阅读理解模型的参数。
有益效果:与现有技术相比,本发明提供的基于哈希学习的多文档机器阅读理解方法,利用哈希技术学习文档的二值矩阵表示,并采用多文档动态指针解码器结构,提高了多文档阅读理解的准确率,同时降低了在线预测时的存储消耗。
附图说明
图1为本发明实施例中方法的网络结构图;
图2为本发明实施例中动态指针解码器结构图;
图3为本发明实施例中最大值选出网络结构图;
图4为本发明实施例中预测流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
基于哈希学习的多文档机器阅读理解方法,需要训练基于哈希学习的多文档阅读理解模型,用于实现多文档机器阅读理解的预测,如图1所示,用于训练模型的网络结构包括嵌入层、编码层、哈希层和动态指针解码层,其中嵌入层将输入的文本序列转换成向量表示,编码层融合上下文信息,得到包含问题和文档信息的实值矩阵表示,哈希层学习问题和文档信息的二值矩阵表示,动态指针解码层计算文档每个位置作为答案起始位置的概率。
首先,嵌入层将问题和文档的文本序列转换成包含词向量、位置向量、段向量的矩阵表示。
编码层将问题和文档进行编码,得到含有文本信息的编码矩阵;使用BERT预训练自注意力模型提取问题和文档的特征表示,对问题和文档拼接后的文本进行编码,得到包含问题和文档信息的实值矩阵。
哈希层学习文本实值矩阵的二值表示,在训练时,哈希层的输出是B(i)=tanh(βH(i)),β是模型的超参数;在预测时,哈希层的输出是
Figure BDA0002486395980000031
其中H(i)是编码层的输出,即包含问题和第i篇文档信息的实值矩阵表示。
将哈希层的计算结果输入到动态指针解码层,图2展示了动态指针解码器的结构。用多轮迭代的方式预测各文档的答案,各文档的每轮迭代同步进行。
动态指针解码层的主体由一个循环神经网络构成,每次迭代就是循环神经网络的一个时间步,在每个时间步,动态指针解码层将上一个时间步预测的答案起始位置的编码,以及循环神经网络的隐状态输入到该循环神经网络中,输出并更新这一时间步的隐状态。
循环神经网络的网络单元选取为单层长短期记忆网络,其按照以下公式在每个时间步更新隐状态:
Figure BDA0002486395980000041
其中,
Figure BDA0002486395980000042
是第i篇文档在第j个时间步的隐状态,
Figure BDA0002486395980000043
是这篇文档第j-1次迭代时模型预测的答案开始位置,
Figure BDA0002486395980000044
是答案结束位置,
Figure BDA0002486395980000045
是答案开始位置的二值编码向量,
Figure BDA0002486395980000046
是答案结束位置的二值编码向量。
获得第j个时间步的隐状态之后,通过以下公式来预测当前的答案起始位置:
Figure BDA0002486395980000047
Figure BDA0002486395980000048
其中
Figure BDA0002486395980000049
Figure BDA00024863959800000410
分别表示文档第t个词语作为答案开始和结束位置的分数,由开始位置最大值选出网络和结束位置最大值选出网络得到;m表示整个文本序列的词语个数。
图3展示了最大值选出神经网络的结构。开始位置最大值选出网络的计算公式如下:
Figure BDA00024863959800000411
Figure BDA00024863959800000412
其中,
Figure BDA00024863959800000413
是第i篇文档第t个词语作为答案开始位置的分数,W1、W2和b1是三个可训练变量,
Figure BDA00024863959800000414
是第i篇文档第t个词语的二值编码向量,
Figure BDA00024863959800000415
是第i篇文档预测的答案编码向量,
Figure BDA00024863959800000416
是第i篇文档的答案经过注意力机制交互后的向量表示。
向量
Figure BDA00024863959800000417
由文档编码矩阵B(i)截取答案起始位置,并经过最大池化得到,计算方式如下所示:
Figure BDA00024863959800000418
Figure BDA00024863959800000419
的计算方式如下:
Figure BDA00024863959800000420
Figure BDA0002486395980000051
Figure BDA0002486395980000052
sik代表第i篇文档和第k篇文档的答案编码的语义相似度,等于两个答案向量的内积;根据相似度将其他文档的答案向量计算加权和,得到第i篇文档的答案经过注意力机制交互后的向量表示
Figure BDA0002486395980000053
结束位置最大值选出网络与开始位置最大值选出网络结构相同,但是不共享网络参数。
在最后一次迭代时,根据开始位置最大值选出网络和结束位置最大值选出网络的输出,为每篇文档计算出该文档中作为正确答案概率最大的子串,同时得到该子串作为正确答案的概率。
在最后一次迭代之后,利用各文档预测的答案向量和答案经过注意力机制交互后的向量,预测每篇文档含有正确答案的概率,计算方式如下:
Figure BDA0002486395980000054
其中,Ws是可训练变量,
Figure BDA0002486395980000055
是第i篇文档含有正确答案的概率。
阅读理解模型的损失函数由三部分组成:
1)为预测的答案起始位置准确度建模的交叉熵损失如下:
Figure BDA0002486395980000056
其中αii分别表示模型预测的文档各位置作为答案开始和结束位置的概率,
Figure BDA0002486395980000057
分别是答案的正确开始和结束位置;
2)为预测的文档是否含有正确答案的概率准确性建模的损失如下:
Figure BDA0002486395980000058
其中
Figure BDA0002486395980000059
是模型预测的各文档含有正确答案的概率,
Figure BDA00024863959800000510
是各文档是否含有正确答案的标签;
3)为文档的二值矩阵表示建模的范数损失如下:
Figure BDA00024863959800000511
其中Bi表示文档的实值矩阵表示,
Figure BDA00024863959800000512
表示文档的二值矩阵表示;
结合以上三部分损失,可以得到如下优化问题:
Figure BDA00024863959800000513
其中λ12是损失系数,N是训练集中文档的数量,M是训练集中问题的数量;在求解以上优化问题时,对目标函数进行求导,使用梯度反向传播算法优化阅读理解模型的参数。
图4展示了基于多文档阅读理解模型的预测流程图。首先用BERT预训练模型获得问题和文档的文本特征表示,接着利用哈希层计算文档的二值矩阵表示,然后动态指针解码层预测各文档的答案及其概率,再预测各文档含有正确答案的概率,最后根据这两个概率的加权和将所有答案排序,选择最前面的答案作为最终结果输出。

Claims (9)

1.一种基于哈希学习的多文档机器阅读理解方法,其特征在于:训练基于哈希学习的多文档阅读理解模型,用于实现机器阅读理解的预测,多文档机器阅读理解的预测具体包括以下步骤:
1)给定一个问题和基于给定问题检索到的多篇文档,训练多文档阅读理解模型对它们文档进行编码,得到包含文本信息的实值矩阵;
2)对于每篇所述文档,训练多文档阅读理解模型计算其二值矩阵表示;
3)对于任一所述文档,训练多文档阅读理解模型使用该文档的所述二值矩阵表示,预测该文档中一个特定子串作为答案,计算所述特定子串关于该文档为正确答案的概率;
4)对于所述给定问题和任一所述文档,训练多文档阅读理解模型计算该文档含有正确答案的概率;
5)基于每篇所述文档的子串作为正确答案的概率和该文档含有正确答案的概率,训练多文档阅读理解模型对该文档预测的答案进行排序,输出结果。
2.根据权利要求1所述的基于哈希学习的多文档机器阅读理解方法,其特征在于:用于训练模型的网络结构包括嵌入层、编码层、哈希层和动态指针解码层,其中嵌入层将输入的文本序列转换成向量表示,编码层融合上下文信息,得到包含问题和文档信息的实值矩阵表示,哈希层学习问题和文档信息的二值矩阵表示,动态指针解码层计算文档每个位置作为答案起始位置的概率。
3.根据权利要求1所述的基于哈希学习的多文档机器阅读理解方法,其特征在于:嵌入层将问题和文档的文本序列转换成包含词向量、位置向量、段向量的矩阵表示。
4.根据权利要求1所述的基于哈希学习的多文档机器阅读理解方法,其特征在于:编码层将问题和文档进行编码,得到含有文本信息的编码矩阵;使用BERT预训练自注意力模型提取问题和文档的特征表示,对问题和文档拼接后的文本进行编码,得到包含问题和文档信息的实值矩阵。
5.根据权利要求1所述的基于哈希学习的多文档机器阅读理解方法,其特征在于:哈希层学习文本实值矩阵的二值表示,在训练时,哈希层的输出是B(i)=tanh(βH(i));在预测时,哈希层的输出是
Figure FDA0002486395970000011
其中H(i)是第i篇文档的实值矩阵表示。
6.根据权利要求1所述的基于哈希学习的多文档机器阅读理解方法,其特征在于:将哈希层的计算结果输入到动态指针解码层,用多轮迭代的方式预测各文档的答案,各文档的每轮迭代同步进行;
动态指针解码层的主体由一个循环神经网络构成,每次迭代就是循环神经网络的一个时间步,在每个时间步,动态指针解码层将上一个时间步预测的答案起始位置的编码,以及循环神经网络的隐状态输入到该循环神经网络中,输出并更新这一时间步的隐状态;
循环神经网络的网络单元选取为单层长短期记忆网络,其按照以下公式在每个时间步更新隐状态:
Figure FDA0002486395970000021
其中,
Figure FDA0002486395970000022
是第i篇文档在第j个时间步的隐状态,
Figure FDA0002486395970000023
是这篇文档第j-1次迭代时模型预测的答案开始位置,
Figure FDA0002486395970000024
是答案结束位置,
Figure FDA0002486395970000025
是答案开始位置的二值编码向量,
Figure FDA0002486395970000026
是答案结束位置的二值编码向量;
获得第j个时间步的隐状态之后,通过以下公式来预测当前的答案起始位置:
Figure FDA0002486395970000027
Figure FDA0002486395970000028
其中
Figure FDA0002486395970000029
Figure FDA00024863959700000210
分别表示文档第t个词语作为答案开始和结束位置的分数,由开始位置最大值选出网络和结束位置最大值选出网络得到;m表示整个文本序列的词语个数。
7.根据权利要求6所述的基于哈希学习的多文档机器阅读理解方法,其特征在于:开始位置最大值选出网络的计算公式如下:
Figure FDA00024863959700000211
Figure FDA00024863959700000212
其中,
Figure FDA00024863959700000213
是第i篇文档第t个词语作为答案开始位置的分数,W1、W2和b1是三个可训练变量,
Figure FDA00024863959700000214
是第i篇文档第t个词语的二值编码向量,
Figure FDA00024863959700000215
是第i篇文档预测的答案编码向量,
Figure FDA00024863959700000216
是第i篇文档的答案经过注意力机制交互后的向量表示;
向量
Figure FDA00024863959700000217
由文档编码矩阵B(i)截取答案起始位置,并经过最大池化得到,计算方式如下所示:
Figure FDA00024863959700000218
Figure FDA00024863959700000219
的计算方式如下:
Figure FDA00024863959700000220
Figure FDA0002486395970000031
Figure FDA0002486395970000032
sik代表第i篇文档和第k篇文档的答案编码的语义相似度,等于两个答案向量的内积;根据相似度将其他文档的答案向量计算加权和,得到第i篇文档的答案经过注意力机制交互后的向量表示
Figure FDA0002486395970000033
8.根据权利要求7所述的基于哈希学习的多文档机器阅读理解方法,其特征在于:结束位置最大值选出网络与开始位置最大值选出网络结构相同,但是不共享网络参数;
在最后一次迭代时,根据开始位置最大值选出网络和结束位置最大值选出网络的输出,为每篇文档计算出该文档中作为正确答案概率最大的子串,同时得到该子串作为正确答案的概率;
在最后一次迭代之后,利用各文档预测的答案向量和答案经过注意力机制交互后的向量,预测每篇文档含有正确答案的概率,计算方式如下:
Figure FDA0002486395970000034
其中,Ws是可训练变量,
Figure FDA0002486395970000035
是第i篇文档含有正确答案的概率。
9.根据权利要求1所述的基于哈希学习的多文档机器阅读理解方法,其特征在于:阅读理解模型的损失函数由三部分组成:
1)为预测的答案起始位置准确度建模的交叉熵损失如下:
Figure FDA0002486395970000036
其中αii分别表示模型预测的文档各位置作为答案开始和结束位置的概率,
Figure FDA0002486395970000037
分别是答案的正确开始和结束位置;
2)为预测的文档是否含有正确答案的概率准确性建模的损失如下:
Figure FDA0002486395970000038
其中
Figure FDA0002486395970000039
是模型预测的各文档含有正确答案的概率,
Figure FDA00024863959700000310
是各文档是否含有正确答案的标签;
3)为文档的二值矩阵表示建模的范数损失如下:
Figure FDA00024863959700000311
其中Bi表示文档的实值矩阵表示,
Figure FDA00024863959700000312
表示文档的二值矩阵表示;
结合以上三部分损失,可以得到如下优化问题:
Figure FDA00024863959700000313
其中λ12是损失系数,N是训练集中文档的数量,M是训练集中问题的数量;在求解以上优化问题时,对目标函数进行求导,使用梯度反向传播算法优化阅读理解模型的参数。
CN202010393230.4A 2020-05-11 2020-05-11 一种基于哈希学习的多文档机器阅读理解方法 Active CN111460176B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010393230.4A CN111460176B (zh) 2020-05-11 2020-05-11 一种基于哈希学习的多文档机器阅读理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010393230.4A CN111460176B (zh) 2020-05-11 2020-05-11 一种基于哈希学习的多文档机器阅读理解方法

Publications (2)

Publication Number Publication Date
CN111460176A true CN111460176A (zh) 2020-07-28
CN111460176B CN111460176B (zh) 2023-11-07

Family

ID=71680702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010393230.4A Active CN111460176B (zh) 2020-05-11 2020-05-11 一种基于哈希学习的多文档机器阅读理解方法

Country Status (1)

Country Link
CN (1) CN111460176B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858857A (zh) * 2020-07-31 2020-10-30 前海企保科技(深圳)有限公司 一种跨文档长文本的分层融合阅读理解方法及系统
CN112417126A (zh) * 2020-12-02 2021-02-26 车智互联(北京)科技有限公司 一种问答方法、计算设备以及存储介质
CN112860863A (zh) * 2021-01-30 2021-05-28 云知声智能科技股份有限公司 一种机器阅读理解方法及装置
CN113268571A (zh) * 2021-07-21 2021-08-17 北京明略软件系统有限公司 一种确定段落中正确答案位置的方法、装置、设备及介质
CN113935329A (zh) * 2021-10-13 2022-01-14 昆明理工大学 基于自适应特征识别与去噪的非对称文本匹配方法
CN114116990A (zh) * 2020-08-27 2022-03-01 奇安信科技集团股份有限公司 问答处理方法、装置、计算机设备和可读存储介质
CN115169368A (zh) * 2022-09-07 2022-10-11 北京沃丰时代数据科技有限公司 基于多文档的机器阅读理解方法及装置
CN116097250A (zh) * 2020-12-22 2023-05-09 谷歌有限责任公司 用于多模式文档理解的布局感知多模式预训练
CN116629272A (zh) * 2023-07-24 2023-08-22 山东大学 自然语言控制的文本生成方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959396A (zh) * 2018-06-04 2018-12-07 众安信息技术服务有限公司 机器阅读模型训练方法及装置、问答方法及装置
CN110110063A (zh) * 2019-04-30 2019-08-09 南京大学 一种基于哈希学习的问答系统构建方法
CN110442681A (zh) * 2019-08-06 2019-11-12 深圳前海达闼云端智能科技有限公司 一种机器阅读理解的方法、电子设备及可读存储介质
CN110619123A (zh) * 2019-09-19 2019-12-27 电子科技大学 一种机器阅读理解方法
CN111027327A (zh) * 2019-10-29 2020-04-17 平安科技(深圳)有限公司 机器阅读理解方法、设备、存储介质及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959396A (zh) * 2018-06-04 2018-12-07 众安信息技术服务有限公司 机器阅读模型训练方法及装置、问答方法及装置
CN110110063A (zh) * 2019-04-30 2019-08-09 南京大学 一种基于哈希学习的问答系统构建方法
CN110442681A (zh) * 2019-08-06 2019-11-12 深圳前海达闼云端智能科技有限公司 一种机器阅读理解的方法、电子设备及可读存储介质
CN110619123A (zh) * 2019-09-19 2019-12-27 电子科技大学 一种机器阅读理解方法
CN111027327A (zh) * 2019-10-29 2020-04-17 平安科技(深圳)有限公司 机器阅读理解方法、设备、存储介质及装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858857A (zh) * 2020-07-31 2020-10-30 前海企保科技(深圳)有限公司 一种跨文档长文本的分层融合阅读理解方法及系统
CN114116990A (zh) * 2020-08-27 2022-03-01 奇安信科技集团股份有限公司 问答处理方法、装置、计算机设备和可读存储介质
CN112417126A (zh) * 2020-12-02 2021-02-26 车智互联(北京)科技有限公司 一种问答方法、计算设备以及存储介质
CN112417126B (zh) * 2020-12-02 2024-01-23 车智互联(北京)科技有限公司 一种问答方法、计算设备以及存储介质
CN116097250A (zh) * 2020-12-22 2023-05-09 谷歌有限责任公司 用于多模式文档理解的布局感知多模式预训练
CN112860863A (zh) * 2021-01-30 2021-05-28 云知声智能科技股份有限公司 一种机器阅读理解方法及装置
CN113268571A (zh) * 2021-07-21 2021-08-17 北京明略软件系统有限公司 一种确定段落中正确答案位置的方法、装置、设备及介质
CN113935329B (zh) * 2021-10-13 2022-12-13 昆明理工大学 基于自适应特征识别与去噪的非对称文本匹配方法
CN113935329A (zh) * 2021-10-13 2022-01-14 昆明理工大学 基于自适应特征识别与去噪的非对称文本匹配方法
CN115169368B (zh) * 2022-09-07 2022-11-29 北京沃丰时代数据科技有限公司 基于多文档的机器阅读理解方法及装置
CN115169368A (zh) * 2022-09-07 2022-10-11 北京沃丰时代数据科技有限公司 基于多文档的机器阅读理解方法及装置
CN116629272A (zh) * 2023-07-24 2023-08-22 山东大学 自然语言控制的文本生成方法及系统
CN116629272B (zh) * 2023-07-24 2023-10-10 山东大学 自然语言控制的文本生成方法及系统

Also Published As

Publication number Publication date
CN111460176B (zh) 2023-11-07

Similar Documents

Publication Publication Date Title
CN111460176B (zh) 一种基于哈希学习的多文档机器阅读理解方法
CN109241536B (zh) 一种基于深度学习自注意力机制的句子排序方法
CN111611377B (zh) 基于知识蒸馏的多层神经网络语言模型训练方法与装置
CN109657041B (zh) 基于深度学习的问题自动生成方法
CN111695779B (zh) 一种知识追踪方法、装置及存储介质
US20180144234A1 (en) Sentence Embedding for Sequence-To-Sequence Matching in a Question-Answer System
CN113656570A (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN112800768A (zh) 一种嵌套命名实体识别模型的训练方法及装置
CN114443827A (zh) 基于预训练语言模型的局部信息感知对话方法及系统
CN111625634A (zh) 词槽识别方法及装置、计算机可读存储介质、电子设备
CN111400494B (zh) 一种基于GCN-Attention的情感分析方法
CN113361278B (zh) 一种基于数据增强与主动学习的小样本命名实体识别方法
CN112926655B (zh) 一种图像内容理解与视觉问答vqa方法、存储介质和终端
CN112347756A (zh) 一种基于序列化证据抽取的推理阅读理解方法及系统
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN118093834B (zh) 一种基于aigc大模型的语言处理问答系统及方法
CN115688879A (zh) 一种基于知识图谱的智能客服语音处理系统及方法
CN111783423A (zh) 解题模型的训练方法及装置、解题方法及装置
CN110795535A (zh) 一种深度可分离卷积残差块的阅读理解方法
CN117851565A (zh) 基于多源交互的文本视觉问答方法及系统
CN117672176A (zh) 基于语音自监督学习表征的重读可控语音合成方法及装置
CN112836482A (zh) 一种基于模板的序列生成模型生成问题的方法及装置
CN110929006B (zh) 一种数据型问答系统
CN115422388B (zh) 一种视觉对话方法及系统
CN111666375A (zh) 文本相似度的匹配方法、电子设备和计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant