CN112800205A

CN112800205A - 基于语义变化流形分析获取问答相关段落的方法、装置

Info

Publication number: CN112800205A
Application number: CN202110213301.2A
Authority: CN
Inventors: 丁锐东; 周斌; 涂宏魁; 贾焰; 李爱平; 王晔; 喻承
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2021-05-14
Anticipated expiration: 2041-02-26
Also published as: CN112800205B

Abstract

本发明提供了基于语义变化流形分析获取问答相关段落的方法、装置、计算机存储介质，可以快速而准确的提取出可能包含答案的段落，提升公开域问答的效率，包括步骤：依据问题，在互联网各公开搜索引擎中进行搜索，从中抽取段落作为匹配度计算语料，进行分词，并将分词结果拼接为问题词序列和段落词序列，进行滑动窗口切片得到段落子词序列，随后进行嵌入表示，再通过映射模型转换得到两个相同维度的映射向量并计算相似度，将得到相似度组成语义变化趋势曲线，采用流形学习的方法提取流形特征，构建流形特征的高维映射，将高维映射输入训练好的权重模型，得到问题与匹配度计算语料中各段落的匹配度得分，取得分最高的k个段落作为问答最相关的段落。

Description

基于语义变化流形分析获取问答相关段落的方法、装置

技术领域

本发明属于公开域问答、深度学习技术领域，基于语义变化流形分析获取问答相关段落的方法、装置。

背景技术

公开域问答(Open-domin QA)是在给定问题的同时，不直接提供某篇文档或者给定段落，而是需要在某个大型文档集合或者整个互联网络中寻找答案。通常来说，公开域问答需要先根据给定问题检索出相关文档直到搜索出段落，再通过阅读理解给出答案，这个过程通常需要对段落进行打分和排序来完成。此外，针对可能存在的复合问题，也可能需要搜索得到多个段落，以支持进行多步推理，根据桥接信息去寻找最终答案。

机器阅读理解从给定的段落中抽取或者理解出答案来回答问题，其过程往往需要复杂的的数学概率模型及计算步骤来实现，在大规模的文档集合中直接应用其消耗的资源巨大。因此，提供一种快速而准确的文档段落检索方式，支持提取出可能包含答案的段落，可以大幅提升公开域问答的效率，具备现实意义。

发明内容

针对上述问题，本发明提供了基于语义变化流形分析获取问答相关段落的方法、装置、计算机存储介质，其可以快速而准确的从大规模的文档中提取出可能包含答案的段落，可以大幅提升公开域问答的效率。

其技术方案是这样的：基于语义变化流形分析获取问答相关段落的方法，其特征在于，包括以下步骤：

步骤1：依据用户所提供的问题，在互联网各公开搜索引擎中进行搜索，从搜索结果中抽取前N项内容对应的段落作为匹配度计算语料；

步骤2：对问题文本和匹配度计算语料文本进行分词，并分别将分词结果拼接为问题词序列和段落词序列，将段落词序列进行滑动窗口切片，得到段落子词序列，通过预训练的语义表示模型，得到问题词序列和段落子词序列的嵌入表示；

步骤3：构建并训练基于深度学习网络的映射模型，通过映射模型得到的问题词序列和段落子词序列的嵌入表示转换为两个相同维度的映射向量，计算两个映射向量的相似度，按照滑动窗口的时序将得到相似度组成语义变化趋势曲线；

步骤4：采用流形学习的方法提取语义变化趋势曲线的流形特征，构建流形特征的高维映射；

步骤5：构建高维映射的权重模型，输入训练集的流形特征的高维映射训练权重模型，直至权重模型收敛；

步骤6：将流形特征的高维映射输入训练好的权重模型，计算得到问题与匹配度计算语料中各段落的匹配度得分，取得分最高的k个段落作为问答最相关的段落。

进一步的，步骤2具体包括以下步骤：

步骤201：对问题文本和匹配度计算语料文本进行分词，并分别将分词结果按照语料中先后顺序拼接为问题词序列和段落词序列；

步骤202：将段落词序列按照固定的步长l与固定的窗口大小w进行滑动窗口切片，得到段落子词序列，其中l<w/2；

步骤203：基于Bert-base-chinese的预训练语义表示模型，构建BERT网络编码器，通过BERT网络编码器将问题词序列和段落子词序列进行嵌入表示。

进一步的，步骤3具体包括以下步骤：

基于BERT网络构建映射模型，通过公开问答语料库训练所述映射模型，得到训练好的映射模型，映射模型能够将问题词序列和段落子词序列的嵌入表示转换为具有相同维度的实值向量；

通过训练好的映射模型将问题词序列和段落子词序列的嵌入表示转换为具有相同维度的问题映射向量和段落映射向量；

计算问题映射向量和段落映射向量的点积，用于表示问题词序列和各个段落子词序列的相似度；

按照滑动窗口的时序，将得到相似度组成语义变化趋势曲线。

进一步的，步骤4具体包括以下步骤：

定义流形，得到流形的理论点，将语义变化趋势曲线作为流形的实际测量点；

通过流形的理论点和实际测量点计算得到获取流形的位移势能、拉伸势能与弹性势能；

最小化位移势能、拉伸势能与弹性势能之和得到最优的流形点，从而得到语义变化趋势曲线的流形特征；

将流形特征从一维向量转化为J维的高维映射。

进一步的，在步骤4中，定义流形的理论点，表示为：H＝{h(t)|1≤t≤L}，将语义变化趋势曲线作为流形的实际测量点，语义变化趋势曲线表示为：R＝{r(t)|1≤t≤L}，其中，L为滑动步数；

流形的位移势能通过理论点和实际测量点的位移差异表示，表示为：

流形的拉伸势能表示为：

流形的弹性势能表示为：

式中，ρ与μ为可调整的拉伸与弹性的模；

最小化位移势能、拉伸势能与弹性势能之和得到最优的流形点，从而得到语义变化趋势曲线的流形特征，表示为：

H^*＝argminD(R,H)+S(H)+B(H)

其中，H^*为流形特征。

进一步的，将流形特征从一维向量转化为J维的高维映射具体包括以下步骤：

流形特征表示为H^*＝X(θ)^ω＝{x(θ),x(θ+1),x(θ+2),…,x(θ+ω-1)}，获得流形特征的自相关函数，表示为：

其中，cor_X(θ,ω,τ)为计算流形特征的自相关函数，τ为取值为0到流形长度的自变量，θ为向量长度，ω为起始点的索引，cor_X(θ,ω,τ)为一曲线，存在无数个自变量τ，使得cor_X(θ,ω,τ)能够取到极小值；

取使得cor_X(θ,ω,τ)得到极小值的前J-1个τ的取值，通过cor_X(θ,ω,τ)进而得到J-1个流形X的平移后的表示，与原始的流形X合并得到J维的高维映射X_J。

进一步的，在步骤5中，基于Linear线性模型构建高维映射的权重模型，采用基于公开问答语料库构建的训练集训练权重模型，将训练集的流形特征的高维映射输入权重模型，权重模型输出问题与各段落的匹配度得分，直至权重模型收敛，权重模型的训练目标是使得问题与相关段落的匹配度得分最高，减小所有其他不相关段落的匹配度得分。

一种计算机装置，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于：所述处理器执行所述计算机程序时实现如上述的基于语义变化流形分析获取问答相关段落的方法。

一种计算机可读存储介质，其上存储有程序，其特征在于：程序被处理器执行时实现如上述的基于语义变化流形分析获取问答相关段落的方法。

本发明的基于语义变化流形分析获取问答相关段落的方法，基于互联网络实时爬取的公开域语料段落，根据用户给定问题分析各段落语义匹配度的流形变化趋势，采用一系列流形特征并提供可学习权重的深度学习方法计算匹配度，为回答问题提供语料证据支持；

从公开域的网络实时采集问答的基本语料数据，所得到的抽取结果具备实时性，可面向多种网络渠道采集基本语料数据，对于不同的应用场景具备可调整性及可扩展性，通过使用基于词序列的短长度滑动窗口建立了语义的连续变化趋势，使得最终表征出的包含语义的段落子序列向量可以减少长文本与短问题语义比较中的矩阵稀疏程度差异，并可以兼顾表达长文本段落的整体语义特征，同时本发明采取流形学习的技术提取段落整体语义的主要特征，可减少局部词义或短语对整体段落表示的干扰，提高长文本语义整体性质的表达能力，本发明对语义的变化趋势流形，通过自相关函数获取流形特征，将差分及多种特征属性进行高维展开，可表现出更多潜在的语义关系变化特点，本发明预测得到的匹配度可以作为人工智能回答公开域问题时得到段落排序及提取最具有相关性语料段落的依据，可以用于公开域问答系统、数据挖掘、网络实时摘要等应用中，尤其是可用于针对某一给定的问题实时在网络空间中快速检索可用于回答的相关文本，具有广泛的应用前景。

附图说明

图1为本发明的基于语义变化流形分析获取问答相关段落的方法的主要流程示意图；

图2为步骤2中对于匹配度计算语料文本进行处理的流程示意图；

图3为本发明的基于语义变化流形分析获取问答相关段落的方法中构建流形的流程示意图；

图4为一个实施例中计算机装置的内部结构图。

具体实施方式

如图1所示，基于语义变化流形分析获取问答相关段落的方法，至少包括以下步骤：

步骤6：将流形特征的高维映射输入训练好的权重模型，计算得到问题与匹配度计算语料中各段落的匹配度得分，取得分最高的k个段落作为问答最相关的段落，k为非0自然数。

其中，具体在步骤2，包括以下步骤：

对问题文本和匹配度计算语料文本进行分词，并分别将分词结果按照语料中先后顺序拼接为问题词序列和段落词序列；

将段落词序列按照固定的步长l与固定的窗口大小w进行滑动窗口切片，得到段落子词序列，其中l<w/2；

基于Bert-base-chinese的预训练语义表示模型，构建BERT网络编码器，通过BERT网络编码器将问题词序列和段落子词序列进行嵌入表示。

具体的，步骤3具体包括以下步骤：

其中，步骤4具体包括以下步骤：

将流形特征从一维向量转化为J维的高维映射。

本发明公开了一种基于语义变化流形分析的问答相关段落匹配度的计算方法。本发明基于互联网络实时爬取的公开域语料段落，根据用户给定问题分析各段落语义匹配度的流形变化趋势，采用一系列流形特征并提供可学习权重的深度学习方法计算匹配度，为回答问题提供语料证据支持。方法首先从互联网的公开搜索引擎对用户给定问题的搜索结果中提取取相关段落，搜索基本相关的语料；而后对语料进行分词并依据词序列进行定长词数的滑动窗口的切分，对切片结果和问题分别进行语义嵌入表示；然后采取时序的深度学习技术训练嵌入表示相似度的映射模型，使用映射模型构建语义的连续变化趋势；对连续变化的趋势曲线进行流形整理，并采取多种预设特征进行高维映射；最后对高维映射结果进行权重模型训练，采用最终训练得到的模型得出分数以计算段落的匹配度。本发明预测得到的匹配度可以作为人工智能回答公开域问题时得到段落排序及提取最具有相关性语料段落的依据，可以用于公开域问答系统、网络实时摘要等技术领域，提供一种快速而准确的文档段落检索方式，对大规模的文档与给定问题的匹配度进行排序，支持提取出可能包含答案的段落，可以大幅提升公开域问答的效率，具备现实意义。

本发明具有的有益效果是：

1.区别于已有方法只在语料段落中进行关键词提取、统计，或是直接对整段语料进行编码匹配，本发明采用了使用基于词序列的短长度滑动窗口，建立了段落上短句语义的流形连续变化趋势，使得表示出的语义既可以减少长段落文本与短问题文本语义比较中的矩阵稀疏程度差异，又可以避免关键词带来的局部极值化。在对多个数据集上每个问题提供1000个预选段落进行top-k(k＝10，20，50，100)段落匹配的实验中，其精度相较常见的BM25有6％-8％的提升，其在行业内属于较为显著的提升。

2.本发明提出的语义连续变化趋势流形，通过自相关函数获取流形特征，将差分及多种特征属性进行高维展开，可用于在不同长度的文本上提取出更多潜在的语义关系变化特点。

3.本发明从公开域的网络实时采集问答的基本语料数据，所得到的抽取结果具备实时性。

4.本发明可面向多种网络渠道采集基本语料数据，面向的应用场景具备可调整性及可扩展性。

5..本发明可用于机器问答领域，数据挖掘领域，尤其是可用于针对某一给定的问题实时在网络空间中快速检索可用于回答的相关文本。

见图1、2、3，以下给出本发明的一种具体实施案例，包括以下步骤：

步骤1：依据用户所提供的问题，在互联网各公开搜索引擎，如Baidu、Bing、360、Google中，进行搜索，在搜索引擎的搜索结果中取前N项，对链接到的网络进行爬取，并对获得的网页内容进行过滤，得到N项内容对应的段落作为匹配度计算语料，设共有m个问题，问题p_i得到n_i个段落，生成该问题的检索段落文本集合P_i，P_i与原始问题文本q_i，构成文本集合C：

文本集合C中每个实例C_i包含一个问题q_i和n_i个公开域检索到的段落，N和m为非0自然数。

步骤2具体包括以下步骤：

步骤201：对问题文本和匹配度计算语料文本进行分词，并分别将分词结果按照语料中先后顺序拼接为问题词序列qw_i和段落词序列W_i；

步骤202：在段落词序列W_i上，按照固定的步长l与固定的窗口大小w进行滑动窗口切片，得到段落子词序列S_i＝{Seg(t)|1≤t≤L}，其中Seg(t)表示切片结果矢量，t表示按切片顺序表示的时序，L为滑动步数，其中，窗口大小w基于问题q_i的长度设定，以保证后续构建的语义映射的信息稀疏程度相互接近，且l<w/2，使窗口内部文本具有关联连续性。

步骤203：基于Bert-base-chinese的预训练语义表示模型，构建BERT网络编码器Token(*)，将BERT网络编码器Token(*)应用到段落子词序列S_i，转化为编码嵌入表示向量。同样的编码方式应用于问题词序列qw_i，者重新构成嵌入向量集合C_V，用于表达语义，表示为：

进一步的，步骤3具体包括以下步骤：

基于BERT网络构建映射模型，映射模型能够将输入向量映射到一个d维的实值向量，对应段落有映射模型E_P(*)，对应问题有映射模型E_Q(*)，通过公开问答语料库Dureader和SQuAD训练映射模型，定义公开语料库中文本表示：

其中，其中包含m个实例训练数据，每个实例包含一个疑问q_i和一系列相关段落p_i。

将映射模型E_P(*)应用到C_corpus中，为每个段落生成一个嵌入向量，设其中一个为vp，将E_P(*)应用于嵌入向量vp，生成d维映射向量E_P(vp)。同样应用映射模型E_Q(*)，将问题q_i的嵌入vq映射到一个d维映射向量E_q(vq)。

两个映射模型各自的损失可以看作输出和对面输出的相似度组成的矩阵，与表示自己与对面每个是否匹配的one-hot矩阵的交叉熵，映射模型的训练目的是创建一个向量空间，使得问题与相关段落的对的点积相似性最高，而所有其他相对不相关对的尽量小，即交叉熵最小。

然后，通过训练好的映射模型E_Q(*)，将问题词序列qw_i映射成d维的问题映射向量E_q(vq)，通过训练好的映射模型E_P(*)，将段落子词序列S_i映射成d维的段落映射向量E_P(vp)；

通过计算问题映射向量和段落映射向量的点积，表示问题词序列和各个段落子词序列的相似度，表示为：

sim(vp,vq)＝E_P(vp)^TE_Q(vq)

将映射模型E_P(*)和映射模型E_Q(*)应用于嵌入向量集合C_V，生成问题序列与各段落子序列的相似度：

则其中每个问题表示为：

将每个问题

中相似度按照滑动的时序连接成向量，生成语义变化趋势曲线R＝{r(t)|1≤t≤L}，L为滑动步数。

步骤4具体包括以下步骤：

如步骤3中，r(t)为分布在语义变化趋势曲线R上的一连串点，r(t)表征了每步滑动窗口与问题的映射矩阵相似度。由于滑动步长l<w/2，则曲线表示语义变化趋势时具有局部连续性，亦即可定义一个流形，用于表示曲线的各种特征。

定义流形的理论点，表示为：H＝{h(t)|1≤t≤L}，H为分布在流形上的一连串理论点的集合；

将语义变化趋势曲线作为流形的实际测量点，语义变化趋势曲线表示为：R＝

{r(t)|1≤t≤L}，其中，L为滑动步数；

流形的拉伸势能表示为：

流形的弹性势能表示为：

式中，ρ与μ为可调整的拉伸与弹性的模；

H^*＝argminD(R，H)+S(H)+B(H)

其中，H^*为得到的流形特征。

对于已建立好的流形H^*，可提取其一系列形态或是差分特征，将其从一维向量转化为J维的高维映射，这里通过自相关函数取信息熵最大的J个延迟作为映射，具体为：

取使得cor_X(θ,ω,τ)得到极小值的前J-1个τ的取值，通过cor_X(θ,ω,τ)进而得到J-1个流形X的平移后的表示，与原始的流形X合并得到J维的高维映射X_J，J为自然数。

在步骤5中，基于Linear线性模型构建高维映射的权重模型，采用基于公开问答语料库构建的训练集训练权重模型，将训练集的流形特征的高维映射输入权重模型，权重模型输出问题与各段落的匹配度得分，直至权重模型收敛，权重模型的训练目标是使得问题与相关段落的匹配度得分最高，减小所有其他不相关段落的匹配度得分。

在步骤6中，将步骤4得到的高维映射X_J输入训练好的权重模型，计算得到问题与匹配度计算语料中各段落的匹配度得分，将匹配度得分按自大到小进行排序，取得分最高的k个段落作为问答最相关的段落，可用于机器问答领域，数据挖掘领域，尤其是可用于针对某一给定的问题实时在网络空间中快速检索可用于回答的相关文本。

在本发明的实施例中，还提供了一种计算机装置，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现如上述的基于语义变化流形分析获取问答相关段落的方法。

该计算机装置可以是终端，其内部结构图可以如图4所示。该计算机装置包括通过总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机装置的处理器用于提供计算和控制能力。该计算机装置的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机装置的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于语义变化流形分析获取问答相关段落的方法。该计算机装置的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机装置的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机装置外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

存储器可以是，但不限于，随机存取存储器(Random Access Memory，简称：RAM)，只读存储器(Read Only Memory，简称：ROM)，可编程只读存储器(Programmable Read-OnlyMemory，简称：PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，简称：EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，简称：EEPROM)等。其中，存储器用于存储程序，处理器在接收到执行指令后，执行程序。

处理器可以是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称：CPU)、网络处理器(NetworkProcessor，简称：NP)等。该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机装置的限定，具体的计算机装置可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在本发明的实施例中，还提供了一种计算机可读存储介质，其上存储有程序，其特征在于：程序被处理器执行时实现如上述的基于语义变化流形分析获取问答相关段落的方法。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、计算机装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、计算机装置、或计算机程序产品的流程图和/或框图来描述的。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图和/或中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图中指定的功能。

以上对本发明所提供的在基于语义变化流形分析获取问答相关段落的方法、计算机装置、计算机可读存储介质的应用进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.基于语义变化流形分析获取问答相关段落的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于语义变化流形分析获取问答相关段落的方法，其特征在于，步骤2具体包括以下步骤：

3.根据权利要求2所述的基于语义变化流形分析获取问答相关段落的方法，其特征在于，步骤3具体包括以下步骤：

4.根据权利要求3所述的基于语义变化流形分析获取问答相关段落的方法，其特征在于，步骤4具体包括以下步骤：

将流形特征从一维向量转化为J维的高维映射。

5.根据权利要求4所述的基于语义变化流形分析获取问答相关段落的方法，其特征在于，在步骤5中，基于Linear线性模型构建高维映射的权重模型，采用基于公开问答语料库构建的训练集训练权重模型，将训练集的流形特征的高维映射输入权重模型，权重模型输出问题与各段落的匹配度得分，直至权重模型收敛，权重模型的训练目标是使得问题与相关段落的匹配度得分最高，减小所有其他不相关段落的匹配度得分。

6.根据权利要求1所述的基于语义变化流形分析获取问答相关段落的方法，其特征在于：步骤1：依据用户所提供的问题，在互联网各公开搜索引擎，进行搜索，在搜索引擎的搜索结果中取前N项，对链接到的网络进行爬取，并对获得的网页内容进行过滤，得到N项内容对应的段落作为匹配度计算语料，设共有m个问题，问题p_i得到n_i个段落，生成该问题的检索段落文本集合P_i，P_i与原始问题文本q_i，构成文本集合C：

P_i＝{p_i,1,p_i,2,…,p_i,ni}，

文本集合C中每个实例C_i包含一个问题q_i和n_i个公开域检索到的段落。

7.根据权利要求6所述的基于语义变化流形分析获取问答相关段落的方法，其特征在于：步骤2具体包括以下步骤：

步骤202：将段落词序列W_i按照固定的步长l与固定的窗口大小w进行滑动窗口切片，得到段落子词序列S_i＝{Seg(t)|1≤t≤L}，其中Seg(t)表示切片结果矢量，t表示按切片顺序表示的时序，L为滑动步数，l<w/2；

步骤203：基于Bert-base-chinese的预训练语义表示模型，构建BERT网络编码器Token(*)，通过BERT网络编码器Token(*)将问题词序列qw_i和段落子词序列S_i进行嵌入表示，构成嵌入向量集合C_V，用于表达语义，表示为：

步骤3具体包括以下步骤：

基于BERT网络构建映射模型，通过公开问答语料库Dureader和SQuAD训练映射模型，得到训练好的映射模型E_P(*)和映射模型E_Q(*)；

通过训练好的映射模型E_Q(*)，将问题词序列qw_i映射成d维的问题映射向量E_q(vq)，通过训练好的映射模型E_P(*)，将段落子词序列S_i映射成d维的段落映射向量E_P(vp)；

sim(vp,vq)＝E_P(vp)^TE_Q(vq)

则其中每个问题表示为：

将每个问题

8.根据权利要求7所述的基于语义变化流形分析获取问答相关段落的方法，其特征在于：在步骤4中，定义流形的理论点，表示为：H＝{h(t)|1≤t≤L}，将语义变化趋势曲线作为流形的实际测量点，语义变化趋势曲线表示为：R＝{r(t)|1≤t≤L}，其中，L为滑动步数；

流形的拉伸势能表示为：

流形的弹性势能表示为：

式中，ρ与μ为可调整的拉伸与弹性的模；

H^*＝argminD(R,H)+S(H)+B(H)

其中，H^*为流形特征；

将流形特征从一维向量转化为J维的高维映射具体包括以下步骤：

9.一种计算机装置，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于：所述处理器执行所述计算机程序时实现如权利要求1所述的基于语义变化流形分析获取问答相关段落的方法。

10.一种计算机可读存储介质，其上存储有程序，其特征在于：程序被处理器执行时实现如权利要求1所述的基于语义变化流形分析获取问答相关段落的方法。