CN111666376B - 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置 - Google Patents

一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置 Download PDF

Info

Publication number
CN111666376B
CN111666376B CN202010434060.XA CN202010434060A CN111666376B CN 111666376 B CN111666376 B CN 111666376B CN 202010434060 A CN202010434060 A CN 202010434060A CN 111666376 B CN111666376 B CN 111666376B
Authority
CN
China
Prior art keywords
answer
query text
background document
vector
personalized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010434060.XA
Other languages
English (en)
Other versions
CN111666376A (zh
Inventor
彭敏
刘芳
胡刚
毛文月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202010434060.XA priority Critical patent/CN111666376B/zh
Publication of CN111666376A publication Critical patent/CN111666376A/zh
Application granted granted Critical
Publication of CN111666376B publication Critical patent/CN111666376B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置,其中的装置包含两个基础模块:答案检索模块和个性化描述模板选择模块。在答案检索模块采用基于问答边界预测的开放域答案抽取模型,基于TF‑IDF匹配的搜索组件,抽取与查询相关的文档集合,并结合RNN问答边界预测阅读理解模型,从文档集合中寻找答案实体。在个性化描述模板选择模块采用了基于词移距离聚类匹配的个性化描述生成模型,其主要核心采用词移距离的算法,计算查询与所有人工标注个性化描述模版的中心距离,判断查询文本属于个性化模版的类别,在结合抽取的答案实体和对应的个性化模版给出答案的最终个性化自然语言描述。本发明可以提高其答案生成准确率和多样性。

Description

一种基于段落边界扫描预测与词移距离聚类匹配的答案生成 方法及装置
技术领域
本发明涉及自然语言处理的智能问答技术领域,具体涉及一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置。
背景技术
人工智能高速发达的时代,越来越多的功能需要被其掌握。在用户(人)与AI交互式的系统中,能够根据用户提出的问题给出相应的回答,已成为AI必须掌握的能力。
通过AI问答系统,用户能以自然语言的方式表达自己的信息需求,AI系统将直接返回精确、简洁的答案。由于问题的多样性和语料库的限制等原因,目前的AI在答案生成方面还有较多的弊端,大多数时候是将有限的答案存储在自身的数据库中,导致能够回答的问题不多且不够精确。同时部分AI回答答案时语气过于书面或者过于严肃,虽然答案无误,无法让用户感受到人性的关怀,用户的本身感受不畅。对于用户的问题,如果根据用户的提问方式采取相应的答案回复形式和回复风格,因为更接近人类自然语言的回复方式对于用户体验的提升很有帮助。
问答系统常用的模型主要分为基于检索的模型和基于答案生成的模型,基于检索的模型有匹配模型简单、答案在语料库中、可解释性强等优点,但由于语料库大小的限制,导致能回答的问题具有局限性,对问题的语义信息挖掘不足。基于答案生成的模型可以通过挖掘问题的深层语义生成答案,答案可以不受语料库的规模限制,但模型的可解释性不强,且倾向于生成通用的、单调的答案,无法保证答案的合理性和一致性。对于问答系统而言,由于语料库数据形式的不同,需要采用的技术也不相同。而在大多数情况下,语料库数据形式又以自由文本和问题答案对数据的获取最为常见。
由此可知,现有技术中的一些方法都存在各自的缺点,检索式模型存在语义缺失,答案生成的准确性不足,生成式模型存在领域限制,答案生成的个性化不足。
发明内容
本发明提出一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置,用于解决或者至少部分现有技术中的方法对于垂直领域进行查询问答时生成答案的自然语言描述缺乏个性化表现的问题。
为了解决上述技术问题,本发明第一方面提供了一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法,包括:
S1:收集原始数据,对原始数据进行解析并存储为背景文档数据库,其中,背景文档数据库中的每一个背景文档包括背景文档的具体描述,根据查询文本的类别人工标注不同类别的个性化描述模板,构建个性化描述模板数据库;
S2:根据给出的用户查询文本,搜索背景文档数据库并抽取与查询文本相关的背景文档集合,对抽取出的背景文档集合进行相关性排序;
S3:对排序后的背景文档进行段落边界预测以推断答案区间的位置,获得与查询文本对应的答案实体;
S4:利用词移距离模型计算查询文本与所有个性化模板的中心距离,确定模板归属的问题类别并随机选择个性化描述模板;
S5:将查询得到的答案实体填充到选择出的个性化描述模板中,生成与查询文本对应的个性化描述答案。
在一种实施方式中,S1中背景文档数据库中的每一个背景文档还包括文档id、标题和网址。
在一种实施方式中,S2具体包括:
S2.1:分别对用户的查询文本和背景文档数据库中的背景文档进行TF-IDF处理得到查询文本和背景文档中所有词的向量表示,以查询文本中所有词的向量平均来得到查询文本的向量表示、背景文档中所有词的向量平均来得到背景文档的向量表示;
S2.2:根据查询文本的向量表示和背景文档的向量表示计算查询文本与背景文档的向量余弦相似距离,根据余弦相似距离与阈值的关系抽取与查询文本相关的背景文档;
S2.3:根据余弦相似距离的度量值,对抽取出的相关的背景文档进行排序。
在一种实施方式中,给定一个查询文本为q,由n个词组成,分别为q1,q2,…qn,将TF-IDF算法返回的前Top-K个背景文档切分成段落,每个段落p由m个词组成,分别为p1,p2,…pm,并采用RNN段落边界预测阅读模型对排序后的背景文档进行段落边界预测以推断答案区间的位置。
在一种实施方式中,采用RNN段落边界预测阅读模型对排序后的背景文档进行段落边界预测以推断答案区间的位置,包括:
S3.1:将相关的背景文档切分的段落中的每个词用四种特征向量表示,四种特征向量分别为Glove词向量,精确匹配特征向量,符号特征向量和基于注意力特征向量;
S3.2:根据得到的每个词的四种特征向量表示,对背景文档的段落进行整体编码的向量表示;
S3.3:对用户查询文本进行整体向量编码表示;
S3.4:根据背景文档的段落进行整体编码的向量表示和用户查询文本进行整体向量编码表示,进行答案边界预测来抽取答案实体。
在一种实施方式中,S3.2具体包括:
背景文档段落中的每一个词都进行向量化表示后,表示为的集合,其中/>表示每个词的向量化特征由Glove词向量femb(pi),精确匹配特征fexcat-match(pi),符号特征ftoken(pi)和基于注意力特征falign(pi)构成;
的集合输入一个多层的双向LSTM,,将所有隐层进行连接,获得背景文档的段落进行整体编码的向量表示,计算公式如下:
其中,Pi表示pi周围有效上下文信息。
在一种实施方式中,S3.4具体包括:
对于段落的每一个位置i,都采用两个softmax激活函数分别预测它作为答案起始位置的概率pstart(i)和终止位置的概率pend(i),其中,Pi是编码段落中词pi周围有效上下文信息的向量表示,q是查询文本的向量表示,we是中间学习的参数,计算公式如下:
pstart(i)=softmax(Piweq)
pend(i)=softmax(Piweq)
其中,Pi是编码段落中词pi周围有效上下文信息的向量表示,q是查询文本的向量表示,we是中间学习的参数。
在一种实施方式中,S5具体包括:
S5.1:采用词移距离算法计算查询文本与所有个性化描述模板的距离;
S5.2:通过计算查询文本与所有个性化描述模板之间的中心平均距离,获得与查询文本匹配的个性化描述模板,计算方式为:
其中,表示利用S5.1计算出的查询文本q和/>个性化描述模板两个文本的词移距离,argmin表示返回最小值的操作,返回的结果为中心距离最小的模板类别;
S5.3:从返回的模块类别中随机选取一个个性化描述模板,作为查询文本最终的个性化描述模板。
基于同样的发明构思,本发明第二方面提供了一种基于段落边界扫描预测与词移距离聚类匹配的答案生成装置,包括:
背景文档和描述模板构建模块,用于收集原始数据,对原始数据进行解析并存储为背景文档数据库,其中,背景文档数据库中的每一个背景文档包括背景文档的具体描述,根据查询文本的类别人工标注不同类别的个性化描述模板,构建个性化描述模板数据库;
相关文档抽取模块,用于根据给出的用户查询文本,搜索背景文档数据库并抽取与查询文本相关的背景文档集合,对抽取出的背景文档集合进行相关性排序;
答案检索模块,用于对排序后的背景文档进行段落边界预测以推断答案区间的位置,获得与查询文本对应的答案实体;
个性化描述模板选择模块,用于利用词移距离模型计算查询文本与所有个性化模板的中心距离,确定模板归属的问题类别并随机选择个性化描述模板;
答案生成模块,用于将查询得到的答案实体填充到选择出的个性化描述模板中,生成与查询文本对应的个性化描述答案。
基于同样的发明构思,本发明第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被执行时实现第一方面所述的方法。
基于同样的发明构思,本发明第四方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的方法。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明提供的一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法,分别通过获得与查询文本对应的答案实体、利用词移距离模型计算查询文本与所有个性化模板的中心距离,确定模板归属的问题类别并随机选择个性化描述模板以共同完成给出用户查询后生成个性化自然语言描述答案的任务。首先根据给出的用户查询文本从背景文档数据库中检索,根据背景文档来扫描段落以确定答案的实体。然后采用了基于词移距离聚类匹配的个性化描述生成模型,先采用计算查询与所有模版的中心距离,根据再判断问题(即查询文本)属于个性化模版的类别,在结合抽取的答案实体和对应的个性化模版给出答案的最终自然语言个性化描述,提高其答案生成效率及回答的多样性,解决了现有技术中的方法存在的个性化不足的问题。此外,本发明是抽取背景文档数据库作为答案的来源,因而只要提供特定领域的知识库来源,就可以移植到特定的垂直领域用于智能问答。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1:本发明提供的一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法的实现流程图;
图2:本发明实施例的模型结构流程图;
图3:本发明实施例的答案检索模块中抽取答案实体的程序测试图;
图4:本发明实施例的最终生成个性化描述答案的Demo演示示例图;
图5:本发明实施例中基于段落边界扫描预测与词移距离聚类匹配的答案生成装置的结构框图;
图6:本发明实施例中一种计算机可读存储介质的结构框图;
图7:本发明实施例中一种计算机设备的结构图。
具体实施方式
本申请发明人通过大量的研究与实践发现:
问答系统常用的模型主要分为基于检索的模型和基于答案生成的模型,基于检索的模型有匹配模型简单、答案在语料库中、可解释性强等优点,但由于语料库大小的限制,导致能回答的问题具有局限性,对问题的语义信息挖掘不足。基于答案生成的模型可以通过挖掘问题的深层语义生成答案,答案可以不受语料库的规模限制,但模型的可解释性不强,且倾向于生成通用的、单调的答案,无法保证答案的合理性和一致性。对于问答系统而言,由于语料库数据形式的不同,需要采用的技术也不相同。而在大多数情况下,语料库数据形式又以自由文本和问题答案对数据的获取最为常见。
由此可知,现有技术中的一些方法都存在各自的缺点,检索式模型存在语义缺失,答案生成的准确性不足,生成式模型存在领域限制,答案生成的个性化不足。同时生成式模型采用神经网络还存在生成的答案流畅性缺失的问题。
基于以上考虑,本发明提出了一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法,它先后采用答案检索模块和个性化描述模板选择模块,以共同完成给出用户查询后生成个性化自然语言描述答案的任务。首先在答案检索模块中根据问题(查询文本)从背景文档数据库中检索,根据这些文章来扫描段落以确定答案的实体。然后在个性化描述模板选择模块采用了基于词移距离聚类匹配的个性化描述生成模型,先采用计算查询与所有模版的中心距离,根据再判断问题(查询文本)属于个性化模版的类别,在结合抽取的答案实体和对应的个性化模版给出答案的最终自然语言个性化描述,提高其答案生成效率及回答的多样性。因为本发明是抽取背景文档数据库作为答案的来源,因而只要提供特定领域的知识库来源,就可以移植到特定的垂直领域用于智能问答。
结果表明,本发明提出的基于检索和答案生成的混合技术模型,以结合两者的优势,可以提升答案生成的准确性和个性化的要求,同时答案生成采用了人工标注的个性化模板,可以满足个性化答案生成的流畅性要求。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本实施例提供了一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法,实现流程图请参见附图1所示,涉及模型的结构流程图如附图2所示,该方法包括:
S1:收集原始数据,对原始数据进行解析并存储为背景文档数据库,其中,背景文档数据库中的每一个背景文档包括背景文档的具体描述,根据查询文本的类别人工标注不同类别的个性化描述模板,构建个性化描述模板数据库;
S2:根据给出的用户查询文本,搜索背景文档数据库并抽取与查询文本相关的背景文档集合,对抽取出的背景文档集合进行相关性排序;
S3:对排序后的背景文档进行段落边界预测以推断答案区间的位置,获得与查询文本对应的答案实体;
S4:利用词移距离模型计算查询文本与所有个性化模板的中心距离,确定模板归属的问题类别并随机选择个性化描述模板;
S5:将查询得到的答案实体填充到选择出的个性化描述模板中,生成与查询文本对应的个性化描述答案。
在一种实施方式中,S1中背景文档数据库中的每一个背景文档还包括文档id、标题和网址。
在具体实施过程中,如附表1所示,是本发明收集小米有关的原始数据,并整理成文档数据库的示例,分别是描述小米手机5s和小米手机5X的背景文档。
表1与小米有关的背景文档数据库示例
在一种实施方式中,S2具体包括:
S2.1:分别对用户的查询文本和背景文档数据库中的背景文档进行TF-IDF处理得到查询文本和背景文档中所有词的向量表示,以查询文本中所有词的向量平均来得到查询文本的向量表示、背景文档中所有词的向量平均来得到背景文档的向量表示;
S2.2:根据查询文本的向量表示和背景文档的向量表示计算查询文本与背景文档的向量余弦相似距离,根据余弦相似距离与阈值的关系抽取与查询文本相关的背景文档;
S2.3:根据余弦相似距离的度量值,对抽取出的相关的背景文档进行排序。
具体来说,TF-IDF算法的计算流程包括:
1、计算当前文档中的词频(TF)=某个词在文档中出现的次数,考虑到背景文档有长短之分,为了便于不同文章的比较,进行“词频”标准化:
2、计算整个语料库中的逆文档频率(IDF):
3、计算文档中所有词的TF-IDF(文档-逆文档频率):
TF-IDF=词频(TF)×逆文档频率(IDF)
TF-IDF词向量表示与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。并且,TF-IDF表示一个词的向量表示,TF-IDF值越大说明这个词越重要,也可以说这个词是关键词。其中,排序时采用二元哈希化排序,可提高检索效率和存储效率,减少存储空间。
在一种实施方式中,给定一个查询文本为q,由n个词组成,分别为q1,q2,…qn,将TF-IDF算法返回的前Top-K个背景文档切分成段落,每个段落p由m个词组成,分别为p1,p2,…pm,并采用RNN段落边界预测阅读模型对排序后的背景文档进行段落边界预测以推断答案区间的位置。
在一种实施方式中,采用RNN段落边界预测阅读模型对排序后的背景文档进行段落边界预测以推断答案区间的位置,包括:
步骤S3.1:将相关的背景文档切分的段落中的每个词用四种特征向量表示,四种特征向量分别为Glove词向量,精确匹配特征向量,符号特征向量和基于注意力特征向量;
步骤S3.2:根据得到的每个词的四种特征向量表示,对背景文档的段落进行整体编码的向量表示;
步骤S3.3:对用户查询文本进行整体向量编码表示;
步骤S3.4:根据背景文档的段落进行整体编码的向量表示和用户查询文本进行整体向量编码表示,进行答案边界预测来抽取答案实体。
在具体的实施过程,步骤S3.1的实现过程如下:
步骤S3.1.1:加载词向量特征(Glove Embeddings),使用百度百科训练的300维的Glove词向量进行词向量映射,其中pi表示背景文档中词的One-Hot向量表示,E表示300维预训练的Glove词向量矩阵,femb(pi)是输出Glove词向量表示,计算公式如下;
femb(pi)=E(pi)
步骤S3.1.2:采用精确匹配特征(Exact Match),使用三个二元特征来判定背景文档中词pi是否可以精确的匹配到查询文本中的疑问词q中,三个二元特征分别表示该token的不同形式的表达是否在问句存在:原型,小写,引用形式,fexcat-match(pi)是输出得到的精确匹配特征的向量表示,计算公示如下;
fexcat-match(pi)=I(pi∈q)
步骤S3.1.3:引入符号的特征(Token Features),加入一些反映背景文档中词pi在上下文中的特征的因素到特征向量中,包括其词性(POS)以及命名实体识别(NER)标记和归一化后的词频(TF),ftoken(pi)是输出得到的符号特征的向量表示;
ftoken(pi)=(POS(pi),NER(pi),TF(pi))
步骤S3.1.4:引入对查询文本的注意力机制(Aligened Question Embedding),该特征计算背景文档中每个单词pi与整个查询文本的相似度,该特征考虑与整个查询文本pi的相似度,而非某一个具体的单词,是一种soft-alignment,能够识别类似而不相同的词。参照步骤S3.1.1,对查询文本中的每个词qj进行词向量映射得到的qj的Glove词向量表示,通过和步骤S3.1.1得到的pi的Glove词向量表示进行点乘得到pi与qj的相似度ai,j,最后对查询文本每个单词的embedding进行加权求和作为该特征。其中α(*)是一个带有ReLU的非线性全连接层,ai,j表示词pi与词qj的注意力的向量表示。falign(pi)是输出基于注意力特征的向量表示,计算公式如下:
falign(pi)=Σai,jE(qj)
需要说明的是,步骤3.3.1~3.3.4之间为并列关系。
在一种实施方式中,S3.2具体包括:
背景文档段落中的每一个词都进行向量化表示后,表示为的集合,其中/>表示每个词的向量化特征由Glove词向量femb(pi),精确匹配特征fexcat-match(pi),符号特征ftoken(pi)和基于注意力特征falign(pi)构成;
的集合输入一个多层的双向LSTM,,将所有隐层进行连接,获得背景文档的段落进行整体编码的向量表示,计算公式如下:
其中,Pi表示pi周围有效上下文信息。
在一种实施方式中,步骤S3.3具体包括:
使用另一个循环神经网络(RNN:Recurrent Neural Network)对查询文本描述中的每一个词qj的Glove词向量表示进行编码,再将每个隐层进行加权求和,得到一个查询文本的向量表达q,bj为注意力的向量表示,ω为权重的向量表示,其学习了查询文本中的每一个单词的重要程度。公式如下:
在一种实施方式中,S3.4具体包括:
对于段落的每一个位置i,都采用两个softmax激活函数分别预测它作为答案起始位置的概率pstart(i)和终止位置的概率pend(i),其中,Pi是编码段落中词pi周围有效上下文信息的向量表示,q是查询文本的向量表示,we是中间学习的参数,计算公式如下:
pstart(i)=softmax(Piweq)
pend(i)=softmax(Piweq)
其中,Pi是编码段落中词pi周围有效上下文信息的向量表示,q是查询文本的向量表示,we是中间学习的参数。
具体来说,当设定在每个段落中寻找一个最有可能是答案的区间[i,i'],即满足pstart(i)×pend(i')最大,且i≤i'≤i+15,其中15是设定终止位置相比于起始位置的最大距离数值。使用指数形式替换归一化softmax(),来对每个段落中最可能是答案的区间进行比较,给出概率最大的答案区间,并输出答案的实体。
在具体实施过程中,如附图3所示,是答案检索模块中抽取答案实体的程序测试图,基于之前抽取与讯飞有关的背景文档数据库,能够给出用户的查询“科大讯飞的董事长是谁?”以及“科大讯飞发布过几款产品?”,输出均是答案的实体,“刘庆峰”和“10款”。并且在输出答案实体的同时,给出了预测本答案区间的最大概率值。
在一种实施方式中,在S1中构建个性化描述模板时:
采用人工标注的方式,保证个性化描述模板有100个类别(N=100),每个类别总计50条描述(K=50),作为答案生成的个性化描述示范语料总计有5000条。
在本步骤中后续可利用此人工标注示例,继续进行补充,进一步丰富模版描述的种类和样式,以保证答案语句的自然性和丰富性。
在具体实施过程中,如附表2所示,是人工标注的“价格”、“时间”和“地点”等类别的个性化描述模板的示例,其中“#”表示待填充的答案实体。
表2人工标注的个性化描述模板的示例
在一种实施方式中,S5具体包括:
S5.1:采用词移距离算法计算查询文本与所有个性化描述模板的距离;
S5.2:通过计算查询文本与所有个性化描述模板之间的中心平均距离,获得与查询文本匹配的个性化描述模板,计算方式为:
其中,表示利用S5.1计算出的查询文本q和/>个性化描述模板两个文本的词移距离,argmin表示返回最小值的操作,返回的结果为中心距离最小的模板类别;
S5.3:从返回的模块类别中随机选取一个个性化描述模板,作为查询文本最终的个性化描述模板。
具体来说,S5.1中使用两个D2和D1文档中的任意两个词i∈D1和j∈D1所对应的词向量求欧氏距离然后再加权求和。一般计算公式如下,式子如下:
其中c(i,j)为i,j两个词所对应的词向量的欧氏距离,加权矩阵T有些类似于HMM中的状态转移矩阵,但是其中的概率转换为了权重。权重T可以简单用词频或者TFIDF进行计算。上式计算得到文档1转换到文档2的总代价,将这种总代价求得下界最小化之后,得到文本间距离代表文本相似度:
其中c(i,j)是词向量表示i,j的欧几里得距离,n是词的个数,和/>分别是两个文档中各个词权重(概率)组成的向量,即这里使用的文档特征。在具体计算中,使用计算速度较快的WCD(Word Centroid Distance)来计算词移距离,其中c(i,j)是词向量表示i,j的欧几里得距离,n是词的个数,/>和/>分别是两个文档中各个词权重(概率)组成的向量,即这里使用的文档特征。公式如下:
公式中x是词向量,X是词向量组成的矩阵。
步骤S5.2:在给定查询文本q,第n(n∈[1,N],N=100)个类别中的第k个人工标注性化模板记为其中k(k=[1,K]),K=50是不同类别个性化描述模板的数量。查询与所有个性化模板聚类匹配所采用的是计算查询与所有模板之间的中心平均距离,返回的是中心距离最小的类别。返回的模板类别表示该类别的个性化描述模板和用户查询描述更加切合,更适合作为答案描述。
在具体实施过程中,如附图4所示,是最终生成个性化描述答案的Demo演示示例图。给出用户的查询,如“小米9的价格是多少?”那么能够在答案检索模块中抽取最相关的背景文档以预测答案实体,并在个性化描述模板选择模块中随机选择与价格相关的个性化模块模板,结合预测的答案实体和抽取的个性化模板,给出“市场售价是2999元,官网售价更优惠”。
本发明提供的一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法,它先后采用答案检索模块和个性化描述模板选择模块,以共同完成给出用户查询后生成个性化自然语言描述答案的任务。首先在答案检索模块中根据问题从背景文档数据库中检索,根据这些文章来扫描段落以确定答案的实体。然后在个性化描述模板选择模块采用了基于词移距离聚类匹配的个性化描述生成模型,先采用计算查询与所有模版的中心距离,根据再判断问题属于个性化模版的类别,在结合抽取的答案实体和对应的个性化模版给出答案的最终自然语言个性化描述,提高其答案生成效率及回答的多样性。因为本发明是抽取背景文档数据库作为答案的来源,因而只要提供特定领域的知识库来源,就可以移植到特定的垂直领域用于智能问答。
实施例二
基于同样的发明构思,本实施例提供了一种基于段落边界扫描预测与词移距离聚类匹配的答案生成装置,请参见附图5所示,该装置包括:
背景文档和描述模板构建模块,用于收集原始数据,对原始数据进行解析并存储为背景文档数据库,其中,背景文档数据库中的每一个背景文档包括背景文档的具体描述,根据查询文本的类别人工标注不同类别的个性化描述模板,构建个性化描述模板数据库;
相关文档抽取模块,用于根据给出的用户查询文本,搜索背景文档数据库并抽取与查询文本相关的背景文档集合,对抽取出的背景文档集合进行相关性排序;
答案检索模块,用于对排序后的背景文档进行段落边界预测以推断答案区间的位置,获得与查询文本对应的答案实体;
个性化描述模板选择模块,用于利用词移距离模型计算查询文本与所有个性化模板的中心距离,确定模板归属的问题类别并随机选择个性化描述模板;
答案生成模块,用于将查询得到的答案实体填充到选择出的个性化描述模板中,生成与查询文本对应的个性化描述答案。
由于本发明实施例二所介绍的装置,为实施本发明实施例一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。
实施例三
请参见附图6所示,基于同一发明构思,本申请还提供了一种计算机可读存储介质300,其上存储有计算机程序311,该程序被执行时实现如实施例一种所述的方法。
由于本发明实施例三所介绍的计算机可读存储介质为实施本发明实施例一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法所采用的计算机可读存储介质,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机可读存储介质的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。
实施例四
基于同一发明构思,本申请还提供了一种计算机设备,请参见附图7所示,包括存储401、处理器402及存储在存储器上并可在处理器上运行的计算机程序403,处理器402执行上述程序时实现实施例一中的方法。
由于本发明实施例四所介绍的计算机设备为实施本发明实施例一种基于段落边界扫描预测与词移距离聚类匹配的答案生成所采用的计算机设备,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机设备的具体结构及变形,故而在此不再赘述。凡是本发明实施例一种方法所采用的计算机设备都属于本发明所欲保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (7)

1.一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法,其特征在于,包括:
S1:收集原始数据,对原始数据进行解析并存储为背景文档数据库,其中,背景文档数据库中的每一个背景文档包括背景文档的具体描述,根据查询文本的类别人工标注不同类别的个性化描述模板,构建个性化描述模板数据库;
S2:根据给出的用户查询文本,搜索背景文档数据库并抽取与查询文本相关的背景文档集合,对抽取出的背景文档集合进行相关性排序;
S3:对排序后的背景文档进行段落边界预测以推断答案区间的位置,获得与查询文本对应的答案实体;
S4:利用词移距离模型计算查询文本与所有个性化模板的中心距离,确定模板归属的问题类别并随机选择个性化描述模板;
S5:将查询得到的答案实体填充到选择出的个性化描述模板中,生成与查询文本对应的个性化描述答案;
其中,S2具体包括:
S2.1:分别对用户的查询文本和背景文档数据库中的背景文档进行TF-IDF处理得到查询文本和背景文档中所有词的向量表示,以查询文本中所有词的向量平均来得到查询文本的向量表示、背景文档中所有词的向量平均来得到背景文档的向量表示;
S2.2:根据查询文本的向量表示和背景文档的向量表示计算查询文本与背景文档的向量余弦相似距离,根据余弦相似距离与阈值的关系抽取与查询文本相关的背景文档;
S2.3:根据余弦相似距离的度量值,对抽取出的相关的背景文档进行排序;
给定一个查询文本为q,由n个词组成,分别为q1,q2,…qn,将TF-IDF算法返回的前Top-K个背景文档切分成段落,每个段落p由m个词组成,分别为p1,p2,…pm,并采用RNN段落边界预测阅读模型对排序后的背景文档进行段落边界预测以推断答案区间的位置;
其中,采用RNN段落边界预测阅读模型对排序后的背景文档进行段落边界预测以推断答案区间的位置,包括:
S3.1:将相关的背景文档切分的段落中的每个词用四种特征向量表示,四种特征向量分别为Glove词向量,精确匹配特征向量,符号特征向量和基于注意力特征向量;
S3.2:根据得到的每个词的四种特征向量表示,对背景文档的段落进行整体编码的向量表示;
S3.3:对用户查询文本进行整体向量编码表示;
S3.4:根据背景文档的段落进行整体编码的向量表示和用户查询文本进行整体向量编码表示,进行答案边界预测来抽取答案实体。
2.如权利要求1所述的方法,其特征在于,S1中背景文档数据库中的每一个背景文档还包括文档id、标题和网址。
3.如权利要求1所述的方法,其特征在于,S3.2具体包括:
背景文档段落中的每一个词都进行向量化表示后,表示为的集合,其中fexcat-match(pi),ftoken(pi),falign(pi)},表示每个词的向量化特征由Glove词向量femb(pi),精确匹配特征fexcat-match(pi),符号特征ftoken(pi)和基于注意力特征falign(pi)构成;
的集合输入一个多层的双向LSTM,,将所有隐层进行连接,获得背景文档的段落进行整体编码的向量表示,计算公式如下:
其中,Pi表示pi周围有效上下文信息。
4.如权利要求1所述的方法,其特征在于,S3.4具体包括:
对于段落的每一个位置i,都采用两个softmax激活函数分别预测它作为答案起始位置的概率pstart(i)和终止位置的概率pend(i),其中,Pi是编码段落中词pi周围有效上下文信息的向量表示,q是查询文本的向量表示,we是中间学习的参数,计算公式如下:
pstart(i)=softmax(Piweq)
pend(i)=softmax(Piweq)
其中,Pi是编码段落中词pi周围有效上下文信息的向量表示,q是查询文本的向量表示,we是中间学习的参数。
5.如权利要求1所述的方法,其特征在于,S5具体包括:
S5.1:采用词移距离算法计算查询文本与所有个性化描述模板的距离;
S5.2:通过计算查询文本与所有个性化描述模板之间的中心平均距离,获得与查询文本匹配的个性化描述模板,计算方式为:
其中,表示利用S5.1计算出的查询文本q和/>个性化描述模板两个文本的词移距离,argmin表示返回最小值的操作,返回的结果为中心距离最小的模板类别;
S5.3:从返回的模块类别中随机选取一个个性化描述模板,作为查询文本最终的个性化描述模板。
6.一种基于段落边界扫描预测与词移距离聚类匹配的答案生成装置,其特征在于,包括:
背景文档和描述模板构建模块,用于收集原始数据,对原始数据进行解析并存储为背景文档数据库,其中,背景文档数据库中的每一个背景文档包括背景文档的具体描述,根据查询文本的类别人工标注不同类别的个性化描述模板,构建个性化描述模板数据库;
相关文档抽取模块,用于根据给出的用户查询文本,搜索背景文档数据库并抽取与查询文本相关的背景文档集合,对抽取出的背景文档集合进行相关性排序;
答案检索模块,用于对排序后的背景文档进行段落边界预测以推断答案区间的位置,获得与查询文本对应的答案实体;
个性化描述模板选择模块,用于利用词移距离模型计算查询文本与所有个性化模板的中心距离,确定模板归属的问题类别并随机选择个性化描述模板;
答案生成模块,用于将查询得到的答案实体填充到选择出的个性化描述模板中,生成与查询文本对应的个性化描述答案;
相关文档抽取模块,具体用于执行下述步骤:
S2.1:分别对用户的查询文本和背景文档数据库中的背景文档进行TF-IDF处理得到查询文本和背景文档中所有词的向量表示,以查询文本中所有词的向量平均来得到查询文本的向量表示、背景文档中所有词的向量平均来得到背景文档的向量表示;
S2.2:根据查询文本的向量表示和背景文档的向量表示计算查询文本与背景文档的向量余弦相似距离,根据余弦相似距离与阈值的关系抽取与查询文本相关的背景文档;
S2.3:根据余弦相似距离的度量值,对抽取出的相关的背景文档进行排序;
给定一个查询文本为q,由n个词组成,分别为q1,q2,…qn,将TF-IDF算法返回的前Top-K个背景文档切分成段落,每个段落p由m个词组成,分别为p1,p2,…pm,并采用RNN段落边界预测阅读模型对排序后的背景文档进行段落边界预测以推断答案区间的位置;
其中,采用RNN段落边界预测阅读模型对排序后的背景文档进行段落边界预测以推断答案区间的位置,包括如下步骤:
S3.1:将相关的背景文档切分的段落中的每个词用四种特征向量表示,四种特征向量分别为Glove词向量,精确匹配特征向量,符号特征向量和基于注意力特征向量;
S3.2:根据得到的每个词的四种特征向量表示,对背景文档的段落进行整体编码的向量表示;
S3.3:对用户查询文本进行整体向量编码表示;
S3.4:根据背景文档的段落进行整体编码的向量表示和用户查询文本进行整体向量编码表示,进行答案边界预测来抽取答案实体。
7.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被执行时实现权利要求1~5任一项权利要求所述的方法。
CN202010434060.XA 2020-05-21 2020-05-21 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置 Active CN111666376B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010434060.XA CN111666376B (zh) 2020-05-21 2020-05-21 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010434060.XA CN111666376B (zh) 2020-05-21 2020-05-21 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置

Publications (2)

Publication Number Publication Date
CN111666376A CN111666376A (zh) 2020-09-15
CN111666376B true CN111666376B (zh) 2023-07-18

Family

ID=72384152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010434060.XA Active CN111666376B (zh) 2020-05-21 2020-05-21 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置

Country Status (1)

Country Link
CN (1) CN111666376B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307908B (zh) * 2020-10-15 2022-07-26 武汉科技大学城市学院 一种视频语义提取方法及装置
CN112883175B (zh) * 2021-02-10 2022-06-14 武汉大学 结合预训练模型及模板生成的气象服务交互方法及系统
CN112948563A (zh) * 2021-04-13 2021-06-11 天津禄智技术有限公司 文本搜索方法及其系统
CN113297370B (zh) * 2021-07-27 2021-11-16 国网电子商务有限公司 基于多交互注意力的端到端多模态问答方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6665666B1 (en) * 1999-10-26 2003-12-16 International Business Machines Corporation System, method and program product for answering questions using a search engine
CN105760417A (zh) * 2015-01-02 2016-07-13 国际商业机器公司 基于个性化用户模型和情境的认知交互式搜索的方法和系统
US10019513B1 (en) * 2014-08-12 2018-07-10 Google Llc Weighted answer terms for scoring answer passages
CN108536681A (zh) * 2018-04-16 2018-09-14 腾讯科技(深圳)有限公司 基于情感分析的智能问答方法、装置、设备及存储介质
CN109271505A (zh) * 2018-11-12 2019-01-25 深圳智能思创科技有限公司 一种基于问题答案对的问答系统实现方法
CN110019750A (zh) * 2019-01-04 2019-07-16 阿里巴巴集团控股有限公司 呈现两个以上标准文本问题的方法和装置
CN110597966A (zh) * 2018-05-23 2019-12-20 北京国双科技有限公司 自动问答方法及装置
CN111104506A (zh) * 2019-12-30 2020-05-05 深圳追一科技有限公司 人机交互的答复结果确定方法、装置及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216913B (zh) * 2013-06-04 2019-01-04 Sap欧洲公司 问题回答方法、系统和计算机可读介质
US11182681B2 (en) * 2017-03-15 2021-11-23 International Business Machines Corporation Generating natural language answers automatically

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6665666B1 (en) * 1999-10-26 2003-12-16 International Business Machines Corporation System, method and program product for answering questions using a search engine
US10019513B1 (en) * 2014-08-12 2018-07-10 Google Llc Weighted answer terms for scoring answer passages
CN105760417A (zh) * 2015-01-02 2016-07-13 国际商业机器公司 基于个性化用户模型和情境的认知交互式搜索的方法和系统
CN108536681A (zh) * 2018-04-16 2018-09-14 腾讯科技(深圳)有限公司 基于情感分析的智能问答方法、装置、设备及存储介质
CN110597966A (zh) * 2018-05-23 2019-12-20 北京国双科技有限公司 自动问答方法及装置
CN109271505A (zh) * 2018-11-12 2019-01-25 深圳智能思创科技有限公司 一种基于问题答案对的问答系统实现方法
CN110019750A (zh) * 2019-01-04 2019-07-16 阿里巴巴集团控股有限公司 呈现两个以上标准文本问题的方法和装置
CN111104506A (zh) * 2019-12-30 2020-05-05 深圳追一科技有限公司 人机交互的答复结果确定方法、装置及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Guanglai Gao.《IEEE》Word Image Representation Based on Visual Embeddings and Spatial Constraints for Keyword Spotting on Historical Documents.2018,全文. *
基于短语检索和答案排序的列表问题回答方法;袁晓丰;邱锡鹏;吴立德;黄萱菁;;中文信息学报(05);全文 *

Also Published As

Publication number Publication date
CN111666376A (zh) 2020-09-15

Similar Documents

Publication Publication Date Title
CN109885672B (zh) 一种面向在线教育的问答式智能检索系统及方法
CN111666376B (zh) 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置
CN110427463B (zh) 搜索语句响应方法、装置及服务器和存储介质
CN107329949B (zh) 一种语义匹配方法和系统
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN108875074A (zh) 基于交叉注意力神经网络的答案选择方法、装置和电子设备
CN107357837A (zh) 基于保序子矩阵和频繁序列挖掘的电商评论情感分类方法
CN108846063A (zh) 确定问题答案的方法、装置、设备和计算机可读介质
CN113505204B (zh) 召回模型训练方法、搜索召回方法、装置和计算机设备
CN110489750A (zh) 基于双向lstm-crf的缅甸语分词及词性标注方法及装置
CN107247751B (zh) 基于lda主题模型的内容推荐方法
CN111738007A (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN113962219A (zh) 面向电力变压器知识检索和问答的语义匹配方法及系统
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN117149984B (zh) 一种基于大模型思维链的定制化培训方法及装置
CN113342958B (zh) 问答匹配方法、文本匹配模型的训练方法和相关设备
CN111552773A (zh) 一种阅读理解任务中是否类问题关键句寻找方法及系统
CN107943940A (zh) 数据处理方法、介质、系统和电子设备
CN112434142A (zh) 一种标记训练样本的方法、服务器、计算设备及存储介质
CN111241397A (zh) 一种内容推荐方法、装置和计算设备
CN112131345A (zh) 文本质量的识别方法、装置、设备及存储介质
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN116467417A (zh) 问题答案的生成方法、装置、设备及存储介质
CN111259115A (zh) 内容真实性检测模型的训练方法、装置和计算设备
CN117648429B (zh) 基于多模态自适应检索式增强大模型的问答方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant