CN112800205A - 基于语义变化流形分析获取问答相关段落的方法、装置 - Google Patents
基于语义变化流形分析获取问答相关段落的方法、装置 Download PDFInfo
- Publication number
- CN112800205A CN112800205A CN202110213301.2A CN202110213301A CN112800205A CN 112800205 A CN112800205 A CN 112800205A CN 202110213301 A CN202110213301 A CN 202110213301A CN 112800205 A CN112800205 A CN 112800205A
- Authority
- CN
- China
- Prior art keywords
- manifold
- question
- mapping
- paragraph
- word sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了基于语义变化流形分析获取问答相关段落的方法、装置、计算机存储介质,可以快速而准确的提取出可能包含答案的段落,提升公开域问答的效率,包括步骤:依据问题,在互联网各公开搜索引擎中进行搜索,从中抽取段落作为匹配度计算语料,进行分词,并将分词结果拼接为问题词序列和段落词序列,进行滑动窗口切片得到段落子词序列,随后进行嵌入表示,再通过映射模型转换得到两个相同维度的映射向量并计算相似度,将得到相似度组成语义变化趋势曲线,采用流形学习的方法提取流形特征,构建流形特征的高维映射,将高维映射输入训练好的权重模型,得到问题与匹配度计算语料中各段落的匹配度得分,取得分最高的k个段落作为问答最相关的段落。
Description
技术领域
本发明属于公开域问答、深度学习技术领域,基于语义变化流形分析获取问答相关段落的方法、装置。
背景技术
公开域问答(Open-domin QA)是在给定问题的同时,不直接提供某篇文档或者给定段落,而是需要在某个大型文档集合或者整个互联网络中寻找答案。通常来说,公开域问答需要先根据给定问题检索出相关文档直到搜索出段落,再通过阅读理解给出答案,这个过程通常需要对段落进行打分和排序来完成。此外,针对可能存在的复合问题,也可能需要搜索得到多个段落,以支持进行多步推理,根据桥接信息去寻找最终答案。
机器阅读理解从给定的段落中抽取或者理解出答案来回答问题,其过程往往需要复杂的的数学概率模型及计算步骤来实现,在大规模的文档集合中直接应用其消耗的资源巨大。因此,提供一种快速而准确的文档段落检索方式,支持提取出可能包含答案的段落,可以大幅提升公开域问答的效率,具备现实意义。
发明内容
针对上述问题,本发明提供了基于语义变化流形分析获取问答相关段落的方法、装置、计算机存储介质,其可以快速而准确的从大规模的文档中提取出可能包含答案的段落,可以大幅提升公开域问答的效率。
其技术方案是这样的:基于语义变化流形分析获取问答相关段落的方法,其特征在于,包括以下步骤:
步骤1:依据用户所提供的问题,在互联网各公开搜索引擎中进行搜索,从搜索结果中抽取前N项内容对应的段落作为匹配度计算语料;
步骤2:对问题文本和匹配度计算语料文本进行分词,并分别将分词结果拼接为问题词序列和段落词序列,将段落词序列进行滑动窗口切片,得到段落子词序列,通过预训练的语义表示模型,得到问题词序列和段落子词序列的嵌入表示;
步骤3:构建并训练基于深度学习网络的映射模型,通过映射模型得到的问题词序列和段落子词序列的嵌入表示转换为两个相同维度的映射向量,计算两个映射向量的相似度,按照滑动窗口的时序将得到相似度组成语义变化趋势曲线;
步骤4:采用流形学习的方法提取语义变化趋势曲线的流形特征,构建流形特征的高维映射;
步骤5:构建高维映射的权重模型,输入训练集的流形特征的高维映射训练权重模型,直至权重模型收敛;
步骤6:将流形特征的高维映射输入训练好的权重模型,计算得到问题与匹配度计算语料中各段落的匹配度得分,取得分最高的k个段落作为问答最相关的段落。
进一步的,步骤2具体包括以下步骤:
步骤201:对问题文本和匹配度计算语料文本进行分词,并分别将分词结果按照语料中先后顺序拼接为问题词序列和段落词序列;
步骤202:将段落词序列按照固定的步长l与固定的窗口大小w进行滑动窗口切片,得到段落子词序列,其中l<w/2;
步骤203:基于Bert-base-chinese的预训练语义表示模型,构建BERT网络编码器,通过BERT网络编码器将问题词序列和段落子词序列进行嵌入表示。
进一步的,步骤3具体包括以下步骤:
基于BERT网络构建映射模型,通过公开问答语料库训练所述映射模型,得到训练好的映射模型,映射模型能够将问题词序列和段落子词序列的嵌入表示转换为具有相同维度的实值向量;
通过训练好的映射模型将问题词序列和段落子词序列的嵌入表示转换为具有相同维度的问题映射向量和段落映射向量;
计算问题映射向量和段落映射向量的点积,用于表示问题词序列和各个段落子词序列的相似度;
按照滑动窗口的时序,将得到相似度组成语义变化趋势曲线。
进一步的,步骤4具体包括以下步骤:
定义流形,得到流形的理论点,将语义变化趋势曲线作为流形的实际测量点;
通过流形的理论点和实际测量点计算得到获取流形的位移势能、拉伸势能与弹性势能;
最小化位移势能、拉伸势能与弹性势能之和得到最优的流形点,从而得到语义变化趋势曲线的流形特征;
将流形特征从一维向量转化为J维的高维映射。
进一步的,在步骤4中,定义流形的理论点,表示为:H={h(t)|1≤t≤L},将语义变化趋势曲线作为流形的实际测量点,语义变化趋势曲线表示为:R={r(t)|1≤t≤L},其中,L为滑动步数;
流形的位移势能通过理论点和实际测量点的位移差异表示,表示为:
流形的拉伸势能表示为:
流形的弹性势能表示为:
式中,ρ与μ为可调整的拉伸与弹性的模;
最小化位移势能、拉伸势能与弹性势能之和得到最优的流形点,从而得到语义变化趋势曲线的流形特征,表示为:
H*=argminD(R,H)+S(H)+B(H)
其中,H*为流形特征。
进一步的,将流形特征从一维向量转化为J维的高维映射具体包括以下步骤:
流形特征表示为H*=X(θ)ω={x(θ),x(θ+1),x(θ+2),…,x(θ+ω-1)},获得流形特征的自相关函数,表示为:
其中,corX(θ,ω,τ)为计算流形特征的自相关函数,τ为取值为0到流形长度的自变量,θ为向量长度,ω为起始点的索引,corX(θ,ω,τ)为一曲线,存在无数个自变量τ,使得corX(θ,ω,τ)能够取到极小值;
取使得corX(θ,ω,τ)得到极小值的前J-1个τ的取值,通过corX(θ,ω,τ)进而得到J-1个流形X的平移后的表示,与原始的流形X合并得到J维的高维映射XJ。
进一步的,在步骤5中,基于Linear线性模型构建高维映射的权重模型,采用基于公开问答语料库构建的训练集训练权重模型,将训练集的流形特征的高维映射输入权重模型,权重模型输出问题与各段落的匹配度得分,直至权重模型收敛,权重模型的训练目标是使得问题与相关段落的匹配度得分最高,减小所有其他不相关段落的匹配度得分。
一种计算机装置,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现如上述的基于语义变化流形分析获取问答相关段落的方法。
一种计算机可读存储介质,其上存储有程序,其特征在于:程序被处理器执行时实现如上述的基于语义变化流形分析获取问答相关段落的方法。
本发明的基于语义变化流形分析获取问答相关段落的方法,基于互联网络实时爬取的公开域语料段落,根据用户给定问题分析各段落语义匹配度的流形变化趋势,采用一系列流形特征并提供可学习权重的深度学习方法计算匹配度,为回答问题提供语料证据支持;
从公开域的网络实时采集问答的基本语料数据,所得到的抽取结果具备实时性,可面向多种网络渠道采集基本语料数据,对于不同的应用场景具备可调整性及可扩展性,通过使用基于词序列的短长度滑动窗口建立了语义的连续变化趋势,使得最终表征出的包含语义的段落子序列向量可以减少长文本与短问题语义比较中的矩阵稀疏程度差异,并可以兼顾表达长文本段落的整体语义特征,同时本发明采取流形学习的技术提取段落整体语义的主要特征,可减少局部词义或短语对整体段落表示的干扰,提高长文本语义整体性质的表达能力,本发明对语义的变化趋势流形,通过自相关函数获取流形特征,将差分及多种特征属性进行高维展开,可表现出更多潜在的语义关系变化特点,本发明预测得到的匹配度可以作为人工智能回答公开域问题时得到段落排序及提取最具有相关性语料段落的依据,可以用于公开域问答系统、数据挖掘、网络实时摘要等应用中,尤其是可用于针对某一给定的问题实时在网络空间中快速检索可用于回答的相关文本,具有广泛的应用前景。
附图说明
图1为本发明的基于语义变化流形分析获取问答相关段落的方法的主要流程示意图;
图2为步骤2中对于匹配度计算语料文本进行处理的流程示意图;
图3为本发明的基于语义变化流形分析获取问答相关段落的方法中构建流形的流程示意图;
图4为一个实施例中计算机装置的内部结构图。
具体实施方式
如图1所示,基于语义变化流形分析获取问答相关段落的方法,至少包括以下步骤:
步骤1:依据用户所提供的问题,在互联网各公开搜索引擎中进行搜索,从搜索结果中抽取前N项内容对应的段落作为匹配度计算语料;
步骤2:对问题文本和匹配度计算语料文本进行分词,并分别将分词结果拼接为问题词序列和段落词序列,将段落词序列进行滑动窗口切片,得到段落子词序列,通过预训练的语义表示模型,得到问题词序列和段落子词序列的嵌入表示;
步骤3:构建并训练基于深度学习网络的映射模型,通过映射模型得到的问题词序列和段落子词序列的嵌入表示转换为两个相同维度的映射向量,计算两个映射向量的相似度,按照滑动窗口的时序将得到相似度组成语义变化趋势曲线;
步骤4:采用流形学习的方法提取语义变化趋势曲线的流形特征,构建流形特征的高维映射;
步骤5:构建高维映射的权重模型,输入训练集的流形特征的高维映射训练权重模型,直至权重模型收敛;
步骤6:将流形特征的高维映射输入训练好的权重模型,计算得到问题与匹配度计算语料中各段落的匹配度得分,取得分最高的k个段落作为问答最相关的段落,k为非0自然数。
其中,具体在步骤2,包括以下步骤:
对问题文本和匹配度计算语料文本进行分词,并分别将分词结果按照语料中先后顺序拼接为问题词序列和段落词序列;
将段落词序列按照固定的步长l与固定的窗口大小w进行滑动窗口切片,得到段落子词序列,其中l<w/2;
基于Bert-base-chinese的预训练语义表示模型,构建BERT网络编码器,通过BERT网络编码器将问题词序列和段落子词序列进行嵌入表示。
具体的,步骤3具体包括以下步骤:
基于BERT网络构建映射模型,通过公开问答语料库训练所述映射模型,得到训练好的映射模型,映射模型能够将问题词序列和段落子词序列的嵌入表示转换为具有相同维度的实值向量;
通过训练好的映射模型将问题词序列和段落子词序列的嵌入表示转换为具有相同维度的问题映射向量和段落映射向量;
计算问题映射向量和段落映射向量的点积,用于表示问题词序列和各个段落子词序列的相似度;
按照滑动窗口的时序,将得到相似度组成语义变化趋势曲线。
其中,步骤4具体包括以下步骤:
定义流形,得到流形的理论点,将语义变化趋势曲线作为流形的实际测量点;
通过流形的理论点和实际测量点计算得到获取流形的位移势能、拉伸势能与弹性势能;
最小化位移势能、拉伸势能与弹性势能之和得到最优的流形点,从而得到语义变化趋势曲线的流形特征;
将流形特征从一维向量转化为J维的高维映射。
本发明公开了一种基于语义变化流形分析的问答相关段落匹配度的计算方法。本发明基于互联网络实时爬取的公开域语料段落,根据用户给定问题分析各段落语义匹配度的流形变化趋势,采用一系列流形特征并提供可学习权重的深度学习方法计算匹配度,为回答问题提供语料证据支持。方法首先从互联网的公开搜索引擎对用户给定问题的搜索结果中提取取相关段落,搜索基本相关的语料;而后对语料进行分词并依据词序列进行定长词数的滑动窗口的切分,对切片结果和问题分别进行语义嵌入表示;然后采取时序的深度学习技术训练嵌入表示相似度的映射模型,使用映射模型构建语义的连续变化趋势;对连续变化的趋势曲线进行流形整理,并采取多种预设特征进行高维映射;最后对高维映射结果进行权重模型训练,采用最终训练得到的模型得出分数以计算段落的匹配度。本发明预测得到的匹配度可以作为人工智能回答公开域问题时得到段落排序及提取最具有相关性语料段落的依据,可以用于公开域问答系统、网络实时摘要等技术领域,提供一种快速而准确的文档段落检索方式,对大规模的文档与给定问题的匹配度进行排序,支持提取出可能包含答案的段落,可以大幅提升公开域问答的效率,具备现实意义。
本发明具有的有益效果是:
1.区别于已有方法只在语料段落中进行关键词提取、统计,或是直接对整段语料进行编码匹配,本发明采用了使用基于词序列的短长度滑动窗口,建立了段落上短句语义的流形连续变化趋势,使得表示出的语义既可以减少长段落文本与短问题文本语义比较中的矩阵稀疏程度差异,又可以避免关键词带来的局部极值化。在对多个数据集上每个问题提供1000个预选段落进行top-k(k=10,20,50,100)段落匹配的实验中,其精度相较常见的BM25有6%-8%的提升,其在行业内属于较为显著的提升。
2.本发明提出的语义连续变化趋势流形,通过自相关函数获取流形特征,将差分及多种特征属性进行高维展开,可用于在不同长度的文本上提取出更多潜在的语义关系变化特点。
3.本发明从公开域的网络实时采集问答的基本语料数据,所得到的抽取结果具备实时性。
4.本发明可面向多种网络渠道采集基本语料数据,面向的应用场景具备可调整性及可扩展性。
5..本发明可用于机器问答领域,数据挖掘领域,尤其是可用于针对某一给定的问题实时在网络空间中快速检索可用于回答的相关文本。
见图1、2、3,以下给出本发明的一种具体实施案例,包括以下步骤:
步骤1:依据用户所提供的问题,在互联网各公开搜索引擎,如Baidu、Bing、360、Google中,进行搜索,在搜索引擎的搜索结果中取前N项,对链接到的网络进行爬取,并对获得的网页内容进行过滤,得到N项内容对应的段落作为匹配度计算语料,设共有m个问题,问题pi得到ni个段落,生成该问题的检索段落文本集合Pi,Pi与原始问题文本qi,构成文本集合C:
文本集合C中每个实例Ci包含一个问题qi和ni个公开域检索到的段落,N和m为非0自然数。
步骤2具体包括以下步骤:
步骤201:对问题文本和匹配度计算语料文本进行分词,并分别将分词结果按照语料中先后顺序拼接为问题词序列qwi和段落词序列Wi;
步骤202:在段落词序列Wi上,按照固定的步长l与固定的窗口大小w进行滑动窗口切片,得到段落子词序列Si={Seg(t)|1≤t≤L},其中Seg(t)表示切片结果矢量,t表示按切片顺序表示的时序,L为滑动步数,其中,窗口大小w基于问题qi的长度设定,以保证后续构建的语义映射的信息稀疏程度相互接近,且l<w/2,使窗口内部文本具有关联连续性。
步骤203:基于Bert-base-chinese的预训练语义表示模型,构建BERT网络编码器Token(*),将BERT网络编码器Token(*)应用到段落子词序列Si,转化为编码嵌入表示向量。同样的编码方式应用于问题词序列qwi,者重新构成嵌入向量集合CV,用于表达语义,表示为:
进一步的,步骤3具体包括以下步骤:
基于BERT网络构建映射模型,映射模型能够将输入向量映射到一个d维的实值向量,对应段落有映射模型EP(*),对应问题有映射模型EQ(*),通过公开问答语料库Dureader和SQuAD训练映射模型,定义公开语料库中文本表示:
其中,其中包含m个实例训练数据,每个实例包含一个疑问qi和一系列相关段落pi。
将映射模型EP(*)应用到Ccorpus中,为每个段落生成一个嵌入向量,设其中一个为vp,将EP(*)应用于嵌入向量vp,生成d维映射向量EP(vp)。同样应用映射模型EQ(*),将问题qi的嵌入vq映射到一个d维映射向量Eq(vq)。
两个映射模型各自的损失可以看作输出和对面输出的相似度组成的矩阵,与表示自己与对面每个是否匹配的one-hot矩阵的交叉熵,映射模型的训练目的是创建一个向量空间,使得问题与相关段落的对的点积相似性最高,而所有其他相对不相关对的尽量小,即交叉熵最小。
然后,通过训练好的映射模型EQ(*),将问题词序列qwi映射成d维的问题映射向量Eq(vq),通过训练好的映射模型EP(*),将段落子词序列Si映射成d维的段落映射向量EP(vp);
通过计算问题映射向量和段落映射向量的点积,表示问题词序列和各个段落子词序列的相似度,表示为:
sim(vp,vq)=EP(vp)TEQ(vq)
将映射模型EP(*)和映射模型EQ(*)应用于嵌入向量集合CV,生成问题序列与各段落子序列的相似度:
则其中每个问题表示为:
步骤4具体包括以下步骤:
如步骤3中,r(t)为分布在语义变化趋势曲线R上的一连串点,r(t)表征了每步滑动窗口与问题的映射矩阵相似度。由于滑动步长l<w/2,则曲线表示语义变化趋势时具有局部连续性,亦即可定义一个流形,用于表示曲线的各种特征。
定义流形的理论点,表示为:H={h(t)|1≤t≤L},H为分布在流形上的一连串理论点的集合;
将语义变化趋势曲线作为流形的实际测量点,语义变化趋势曲线表示为:R=
{r(t)|1≤t≤L},其中,L为滑动步数;
流形的位移势能通过理论点和实际测量点的位移差异表示,表示为:
流形的拉伸势能表示为:
流形的弹性势能表示为:
式中,ρ与μ为可调整的拉伸与弹性的模;
最小化位移势能、拉伸势能与弹性势能之和得到最优的流形点,从而得到语义变化趋势曲线的流形特征,表示为:
H*=argminD(R,H)+S(H)+B(H)
其中,H*为得到的流形特征。
对于已建立好的流形H*,可提取其一系列形态或是差分特征,将其从一维向量转化为J维的高维映射,这里通过自相关函数取信息熵最大的J个延迟作为映射,具体为:
流形特征表示为H*=X(θ)ω={x(θ),x(θ+1),x(θ+2),…,x(θ+ω-1)},获得流形特征的自相关函数,表示为:
其中,corX(θ,ω,τ)为计算流形特征的自相关函数,τ为取值为0到流形长度的自变量,θ为向量长度,ω为起始点的索引,corX(θ,ω,τ)为一曲线,存在无数个自变量τ,使得corX(θ,ω,τ)能够取到极小值;
取使得corX(θ,ω,τ)得到极小值的前J-1个τ的取值,通过corX(θ,ω,τ)进而得到J-1个流形X的平移后的表示,与原始的流形X合并得到J维的高维映射XJ,J为自然数。
在步骤5中,基于Linear线性模型构建高维映射的权重模型,采用基于公开问答语料库构建的训练集训练权重模型,将训练集的流形特征的高维映射输入权重模型,权重模型输出问题与各段落的匹配度得分,直至权重模型收敛,权重模型的训练目标是使得问题与相关段落的匹配度得分最高,减小所有其他不相关段落的匹配度得分。
在步骤6中,将步骤4得到的高维映射XJ输入训练好的权重模型,计算得到问题与匹配度计算语料中各段落的匹配度得分,将匹配度得分按自大到小进行排序,取得分最高的k个段落作为问答最相关的段落,可用于机器问答领域,数据挖掘领域,尤其是可用于针对某一给定的问题实时在网络空间中快速检索可用于回答的相关文本。
在本发明的实施例中,还提供了一种计算机装置,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现如上述的基于语义变化流形分析获取问答相关段落的方法。
该计算机装置可以是终端,其内部结构图可以如图4所示。该计算机装置包括通过总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机装置的处理器用于提供计算和控制能力。该计算机装置的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机装置的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于语义变化流形分析获取问答相关段落的方法。该计算机装置的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机装置的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机装置外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
存储器可以是,但不限于,随机存取存储器(Random Access Memory,简称:RAM),只读存储器(Read Only Memory,简称:ROM),可编程只读存储器(Programmable Read-OnlyMemory,简称:PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,简称:EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,简称:EEPROM)等。其中,存储器用于存储程序,处理器在接收到执行指令后,执行程序。
处理器可以是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称:CPU)、网络处理器(NetworkProcessor,简称:NP)等。该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机装置的限定,具体的计算机装置可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在本发明的实施例中,还提供了一种计算机可读存储介质,其上存储有程序,其特征在于:程序被处理器执行时实现如上述的基于语义变化流形分析获取问答相关段落的方法。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、计算机装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、计算机装置、或计算机程序产品的流程图和/或框图来描述的。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图和/或中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图中指定的功能。
以上对本发明所提供的在基于语义变化流形分析获取问答相关段落的方法、计算机装置、计算机可读存储介质的应用进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.基于语义变化流形分析获取问答相关段落的方法,其特征在于,包括以下步骤:
步骤1:依据用户所提供的问题,在互联网各公开搜索引擎中进行搜索,从搜索结果中抽取前N项内容对应的段落作为匹配度计算语料;
步骤2:对问题文本和匹配度计算语料文本进行分词,并分别将分词结果拼接为问题词序列和段落词序列,将段落词序列进行滑动窗口切片,得到段落子词序列,通过预训练的语义表示模型,得到问题词序列和段落子词序列的嵌入表示;
步骤3:构建并训练基于深度学习网络的映射模型,通过映射模型得到的问题词序列和段落子词序列的嵌入表示转换为两个相同维度的映射向量,计算两个映射向量的相似度,按照滑动窗口的时序将得到相似度组成语义变化趋势曲线;
步骤4:采用流形学习的方法提取语义变化趋势曲线的流形特征,构建流形特征的高维映射;
步骤5:构建高维映射的权重模型,输入训练集的流形特征的高维映射训练权重模型,直至权重模型收敛;
步骤6:将流形特征的高维映射输入训练好的权重模型,计算得到问题与匹配度计算语料中各段落的匹配度得分,取得分最高的k个段落作为问答最相关的段落。
2.根据权利要求1所述的基于语义变化流形分析获取问答相关段落的方法,其特征在于,步骤2具体包括以下步骤:
对问题文本和匹配度计算语料文本进行分词,并分别将分词结果按照语料中先后顺序拼接为问题词序列和段落词序列;
将段落词序列按照固定的步长l与固定的窗口大小w进行滑动窗口切片,得到段落子词序列,其中l<w/2;
基于Bert-base-chinese的预训练语义表示模型,构建BERT网络编码器,通过BERT网络编码器将问题词序列和段落子词序列进行嵌入表示。
3.根据权利要求2所述的基于语义变化流形分析获取问答相关段落的方法,其特征在于,步骤3具体包括以下步骤:
基于BERT网络构建映射模型,通过公开问答语料库训练所述映射模型,得到训练好的映射模型,映射模型能够将问题词序列和段落子词序列的嵌入表示转换为具有相同维度的实值向量;
通过训练好的映射模型将问题词序列和段落子词序列的嵌入表示转换为具有相同维度的问题映射向量和段落映射向量;
计算问题映射向量和段落映射向量的点积,用于表示问题词序列和各个段落子词序列的相似度;
按照滑动窗口的时序,将得到相似度组成语义变化趋势曲线。
4.根据权利要求3所述的基于语义变化流形分析获取问答相关段落的方法,其特征在于,步骤4具体包括以下步骤:
定义流形,得到流形的理论点,将语义变化趋势曲线作为流形的实际测量点;
通过流形的理论点和实际测量点计算得到获取流形的位移势能、拉伸势能与弹性势能;
最小化位移势能、拉伸势能与弹性势能之和得到最优的流形点,从而得到语义变化趋势曲线的流形特征;
将流形特征从一维向量转化为J维的高维映射。
5.根据权利要求4所述的基于语义变化流形分析获取问答相关段落的方法,其特征在于,在步骤5中,基于Linear线性模型构建高维映射的权重模型,采用基于公开问答语料库构建的训练集训练权重模型,将训练集的流形特征的高维映射输入权重模型,权重模型输出问题与各段落的匹配度得分,直至权重模型收敛,权重模型的训练目标是使得问题与相关段落的匹配度得分最高,减小所有其他不相关段落的匹配度得分。
7.根据权利要求6所述的基于语义变化流形分析获取问答相关段落的方法,其特征在于:步骤2具体包括以下步骤:
步骤201:对问题文本和匹配度计算语料文本进行分词,并分别将分词结果按照语料中先后顺序拼接为问题词序列qwi和段落词序列Wi;
步骤202:将段落词序列Wi按照固定的步长l与固定的窗口大小w进行滑动窗口切片,得到段落子词序列Si={Seg(t)|1≤t≤L},其中Seg(t)表示切片结果矢量,t表示按切片顺序表示的时序,L为滑动步数,l<w/2;
步骤203:基于Bert-base-chinese的预训练语义表示模型,构建BERT网络编码器Token(*),通过BERT网络编码器Token(*)将问题词序列qwi和段落子词序列Si进行嵌入表示,构成嵌入向量集合CV,用于表达语义,表示为:
步骤3具体包括以下步骤:
基于BERT网络构建映射模型,通过公开问答语料库Dureader和SQuAD训练映射模型,得到训练好的映射模型EP(*)和映射模型EQ(*);
通过训练好的映射模型EQ(*),将问题词序列qwi映射成d维的问题映射向量Eq(vq),通过训练好的映射模型EP(*),将段落子词序列Si映射成d维的段落映射向量EP(vp);
通过计算问题映射向量和段落映射向量的点积,表示问题词序列和各个段落子词序列的相似度,表示为:
sim(vp,vq)=EP(vp)TEQ(vq)
将映射模型EP(*)和映射模型EQ(*)应用于嵌入向量集合CV,生成问题序列与各段落子序列的相似度:
则其中每个问题表示为:
8.根据权利要求7所述的基于语义变化流形分析获取问答相关段落的方法,其特征在于:在步骤4中,定义流形的理论点,表示为:H={h(t)|1≤t≤L},将语义变化趋势曲线作为流形的实际测量点,语义变化趋势曲线表示为:R={r(t)|1≤t≤L},其中,L为滑动步数;
流形的位移势能通过理论点和实际测量点的位移差异表示,表示为:
流形的拉伸势能表示为:
流形的弹性势能表示为:
式中,ρ与μ为可调整的拉伸与弹性的模;
最小化位移势能、拉伸势能与弹性势能之和得到最优的流形点,从而得到语义变化趋势曲线的流形特征,表示为:
H*=argminD(R,H)+S(H)+B(H)
其中,H*为流形特征;
将流形特征从一维向量转化为J维的高维映射具体包括以下步骤:
流形特征表示为H*=X(θ)ω={x(θ),x(θ+1),x(θ+2),…,x(θ+ω-1)},获得流形特征的自相关函数,表示为:
其中,corX(θ,ω,τ)为计算流形特征的自相关函数,τ为取值为0到流形长度的自变量,θ为向量长度,ω为起始点的索引,corX(θ,ω,τ)为一曲线,存在无数个自变量τ,使得corX(θ,ω,τ)能够取到极小值;
取使得corX(θ,ω,τ)得到极小值的前J-1个τ的取值,通过corX(θ,ω,τ)进而得到J-1个流形X的平移后的表示,与原始的流形X合并得到J维的高维映射XJ。
9.一种计算机装置,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现如权利要求1所述的基于语义变化流形分析获取问答相关段落的方法。
10.一种计算机可读存储介质,其上存储有程序,其特征在于:程序被处理器执行时实现如权利要求1所述的基于语义变化流形分析获取问答相关段落的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110213301.2A CN112800205B (zh) | 2021-02-26 | 2021-02-26 | 基于语义变化流形分析获取问答相关段落的方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110213301.2A CN112800205B (zh) | 2021-02-26 | 2021-02-26 | 基于语义变化流形分析获取问答相关段落的方法、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112800205A true CN112800205A (zh) | 2021-05-14 |
CN112800205B CN112800205B (zh) | 2022-05-31 |
Family
ID=75815811
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110213301.2A Active CN112800205B (zh) | 2021-02-26 | 2021-02-26 | 基于语义变化流形分析获取问答相关段落的方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112800205B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115590537A (zh) * | 2022-11-28 | 2023-01-13 | 成都体育学院(Cn) | 一种运动健康管理方法、装置、电子设备及存储介质 |
CN117609476A (zh) * | 2024-01-19 | 2024-02-27 | 北京十环信息有限公司 | 一种基于人工智能的公共服务数据分析系统 |
CN117909451A (zh) * | 2024-03-18 | 2024-04-19 | 中国电子技术标准化研究院 | 问答结果溯源方法、装置、设备、介质及程序产品 |
TWI850128B (zh) * | 2023-10-12 | 2024-07-21 | 碩網資訊股份有限公司 | 一種整合生成式人工智慧的語意搜尋方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9495648B1 (en) * | 2015-12-11 | 2016-11-15 | International Business Machines Corporation | Training a similar passage cognitive system using ground truth from a question answering cognitive system |
CN108717413A (zh) * | 2018-03-26 | 2018-10-30 | 浙江大学 | 一种基于假设性半监督学习的开放领域问答方法 |
CN109063174A (zh) * | 2018-08-21 | 2018-12-21 | 腾讯科技(深圳)有限公司 | 查询答案的生成方法及装置、计算机存储介质、电子设备 |
CN111737439A (zh) * | 2020-07-31 | 2020-10-02 | 支付宝(杭州)信息技术有限公司 | 一种问题生成方法及装置 |
CN112084299A (zh) * | 2020-08-05 | 2020-12-15 | 山西大学 | 一种基于bert语义表示的阅读理解自动问答方法 |
KR102194837B1 (ko) * | 2020-06-30 | 2020-12-23 | 건국대학교 산학협력단 | 지식기반 질문 응답 방법 및 장치 |
CN112347229A (zh) * | 2020-11-12 | 2021-02-09 | 润联软件系统(深圳)有限公司 | 一种答案抽取方法、装置、计算机设备及存储介质 |
-
2021
- 2021-02-26 CN CN202110213301.2A patent/CN112800205B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9495648B1 (en) * | 2015-12-11 | 2016-11-15 | International Business Machines Corporation | Training a similar passage cognitive system using ground truth from a question answering cognitive system |
CN108717413A (zh) * | 2018-03-26 | 2018-10-30 | 浙江大学 | 一种基于假设性半监督学习的开放领域问答方法 |
CN109063174A (zh) * | 2018-08-21 | 2018-12-21 | 腾讯科技(深圳)有限公司 | 查询答案的生成方法及装置、计算机存储介质、电子设备 |
KR102194837B1 (ko) * | 2020-06-30 | 2020-12-23 | 건국대학교 산학협력단 | 지식기반 질문 응답 방법 및 장치 |
CN111737439A (zh) * | 2020-07-31 | 2020-10-02 | 支付宝(杭州)信息技术有限公司 | 一种问题生成方法及装置 |
CN112084299A (zh) * | 2020-08-05 | 2020-12-15 | 山西大学 | 一种基于bert语义表示的阅读理解自动问答方法 |
CN112347229A (zh) * | 2020-11-12 | 2021-02-09 | 润联软件系统(深圳)有限公司 | 一种答案抽取方法、装置、计算机设备及存储介质 |
Non-Patent Citations (4)
Title |
---|
JIAHUI WEN等: ""Joint modeling of users, questions and answers for answer selection in CQA"", 《EXPERT SYSTEMS WITH APPLICATIONS》 * |
JIAHUI WEN等: ""Joint modeling of users, questions and answers for answer selection in CQA"", 《EXPERT SYSTEMS WITH APPLICATIONS》, 18 October 2018 (2018-10-18), pages 563 - 572, XP085530929, DOI: 10.1016/j.eswa.2018.10.038 * |
涂宏魁: ""社区问答平台上多因素融合的答案选择与问题推荐关键技术研究"", 《中国优秀博硕士学位论文全文数据库(博士) 信息科技辑》 * |
涂宏魁: ""社区问答平台上多因素融合的答案选择与问题推荐关键技术研究"", 《中国优秀博硕士学位论文全文数据库(博士) 信息科技辑》, 15 January 2021 (2021-01-15) * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115590537A (zh) * | 2022-11-28 | 2023-01-13 | 成都体育学院(Cn) | 一种运动健康管理方法、装置、电子设备及存储介质 |
CN115590537B (zh) * | 2022-11-28 | 2023-03-14 | 成都体育学院 | 一种运动健康管理方法、装置、电子设备及存储介质 |
TWI850128B (zh) * | 2023-10-12 | 2024-07-21 | 碩網資訊股份有限公司 | 一種整合生成式人工智慧的語意搜尋方法 |
CN117609476A (zh) * | 2024-01-19 | 2024-02-27 | 北京十环信息有限公司 | 一种基于人工智能的公共服务数据分析系统 |
CN117609476B (zh) * | 2024-01-19 | 2024-04-12 | 北京十环信息有限公司 | 一种基于人工智能的公共服务数据分析系统 |
CN117909451A (zh) * | 2024-03-18 | 2024-04-19 | 中国电子技术标准化研究院 | 问答结果溯源方法、装置、设备、介质及程序产品 |
CN117909451B (zh) * | 2024-03-18 | 2024-06-28 | 中国电子技术标准化研究院 | 问答结果溯源方法、装置、设备、介质及程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN112800205B (zh) | 2022-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112800205B (zh) | 基于语义变化流形分析获取问答相关段落的方法、装置 | |
US11544474B2 (en) | Generation of text from structured data | |
CN109840287A (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
CN112085091B (zh) | 基于人工智能的短文本匹配方法、装置、设备及存储介质 | |
CN113761890B (zh) | 一种基于bert上下文感知的多层级语义信息检索方法 | |
WO2021082086A1 (zh) | 机器阅读方法、系统、装置及存储介质 | |
CN111581364B (zh) | 一种面向医疗领域的中文智能问答短文本相似度计算方法 | |
CN109145083B (zh) | 一种基于深度学习的候选答案选取方法 | |
CN111666376B (zh) | 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置 | |
CN109740158A (zh) | 一种文本语义解析方法及装置 | |
CN118093834B (zh) | 一种基于aigc大模型的语言处理问答系统及方法 | |
CN111881264B (zh) | 一种开放领域问答任务中长文本检索的方法和电子设备 | |
CN113220862A (zh) | 标准问识别方法、装置及计算机设备及存储介质 | |
CN113722512A (zh) | 基于语言模型的文本检索方法、装置、设备及存储介质 | |
CN114298055B (zh) | 基于多级语义匹配的检索方法、装置、计算机设备和存储介质 | |
CN116450883A (zh) | 基于视频内容细粒度信息的视频时刻检索方法 | |
CN115203388A (zh) | 机器阅读理解方法、装置、计算机设备和存储介质 | |
CN113204679B (zh) | 一种代码查询模型的生成方法和计算机设备 | |
Kumari et al. | Context-based question answering system with suggested questions | |
CN111159331B (zh) | 文本的查询方法、文本查询装置以及计算机存储介质 | |
CN113987115B (zh) | 一种文本相似度计算方法、装置、设备及存储介质 | |
CN113946666B (zh) | 一种基于域感知的简单问题知识库问答方法 | |
Jiang | Chinese named entity recognition method based on multiscale feature fusion | |
Xiong et al. | TF-BiLSTMS2S: A Chinese Text Summarization Model | |
Shaharao et al. | Semantic Similarity in Multi-Source Information Retrieval for Improving Learner Performance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |