CN117609438A

CN117609438A - 基于文档的答案生成方法和装置、电子设备及存储介质

Info

Publication number: CN117609438A
Application number: CN202311362281.0A
Authority: CN
Inventors: 张炜
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2023-10-19
Filing date: 2023-10-19
Publication date: 2024-02-27

Abstract

本申请实施例提供了一种基于文档的答案生成方法和装置、电子设备及存储介质，属于金融科技技术领域。该方法包括：获取问题数据；根据所述问题数据从预设的搜索数据库中进行答案查询，得到原始答案文档；将所述原始答案文档与所述问题数据进行相似度计算，得到问答相似度；根据所述问答相似度从所述原始答案文档筛选出候选答案文档；根据所述问题数据、所述候选答案文档对预设的问题提示模板进行数据填充，得到问题提示数据；根据预设的语言模型对所述问题提示数据进行语义理解，得到目标答案数据。本申请实施例能够提高答案生成的灵活性。

Description

基于文档的答案生成方法和装置、电子设备及存储介质

技术领域

本申请涉及金融科技技术领域，尤其涉及一种基于文档的答案生成方法和装置、电子设备及存储介质。

背景技术

目前，在金融科技领域，可以通过智能问答模型对用户的提问进行回答，例如，针对用户提出的办理保险年龄限制的问题，智能问答模型可以从保险介绍数据中抽取出对应的答案，如答案可以是购买A保险的年龄限制为B周岁到C周岁之间。上述抽取答案的方法由于依据的是文档抽取的方式，所以要求被抽取的文档中必须包含连续的整段答案，否则智能问答模型无法抽取，可见在上述方法中智能问答模型存在灵活性差的问题。因此，如何提供一种答案生成方法，以提高答案生成的灵活性，成为了亟待解决的技术问题。

发明内容

本申请实施例的主要目的在于提出一种基于文档的答案生成方法和装置、电子设备及存储介质，旨在提高答案生成的灵活性。

为实现上述目的，本申请实施例的第一方面提出了一种基于文档的答案生成方法，所述方法包括：

获取问题数据；

根据所述问题数据从预设的搜索数据库中进行答案查询，得到原始答案文档；

将所述原始答案文档与所述问题数据进行相似度计算，得到问答相似度；

根据所述问答相似度从所述原始答案文档筛选出候选答案文档；

根据所述问题数据、所述候选答案文档对预设的问题提示模板进行数据填充，得到问题提示数据；

根据预设的语言模型对所述问题提示数据进行语义理解，得到目标答案数据。

在一些实施例，所述问题提示模板包括答案来源提示文本、问题来源提示文本、第一填充模块和第二填充模块，所述根据所述问题数据、所述候选答案文档对预设的问题提示模板进行数据填充，得到问题提示数据，包括：

根据所述候选答案文档对所述第一填充模块进行答案填充，得到答案内容提示数据；

根据所述问题数据对所述第二填充模块进行问题填充，得到问题内容提示数据；

将所述答案来源提示文本与所述答案内容提示数据进行数据映射，得到答案文本；

将所述问题来源提示文本与所述问题内容提示数据进行数据映射，得到问题文本；

根据所述答案文本和所述问题文本得到所述问题提示数据。

在一些实施例，所述将所述原始答案文档与所述问题数据进行相似度计算，得到问答相似度，包括：

根据所述原始答案文档构建答案向量，并根据所述问题数据构建问题向量；

将所述答案向量与所述问题向量进行乘积计算，得到问答乘积值；

将所述答案向量与所述问题向量进行向量长度计算，得到问答向量长度值；

根据所述问答乘积值和所述问答向量长度值计算得到所述问答相似度。

在一些实施例，所述根据所述原始答案文档构建答案向量，包括：

对所述原始答案文档进行分词处理，得到分词数据；

根据所述分词数据计算得到分词词频，并根据所述分词数据计算得到逆文档频率；

对所述分词数据进行词嵌入处理，得到词向量；

根据所述分词词频、所述逆文档频率、所述词向量进行乘积计算，得到所述答案向量。

在一些实施例，所述根据所述分词数据计算得到分词词频，包括：

确定所述分词数据在所述原始答案文档中的重复次数；

确定所有所述分词数据的总数量；

根据所述总数量、所述重复次数计算得到所述分词词频。

在一些实施例，所述根据所述分词数据计算得到逆文档频率，包括：

根据所述分词数据对预设的文档数据库进行文档匹配，得到文档匹配数量；

根据所述文档匹配数量、所述文档数据库的总文档数量计算得到所述逆文档频率。

在一些实施例，所述搜索数据库包括网页文档和所述网页文档的网页关键词；

所述根据所述问题数据从预设的搜索数据库中进行答案查询，得到原始答案文档，包括：

对所述问题数据进行关键词提取，得到问题关键词；

将所述问题关键词与所述网页关键词进行匹配，得到匹配结果；

根据所述匹配结果对所述网页文档进行排序，得到网页排序数据；

从所述网页排序数据筛选出所述原始答案文档。

为实现上述目的，本申请实施例的第二方面提出了一种基于文档的答案生成装置，所述装置包括：

数据获取模块，用于获取问题数据；

数据匹配模块，用于根据所述问题数据从预设的搜索数据库中进行答案查询，得到原始答案文档；

相似度计算模块，用于将所述原始答案文档与所述问题数据进行相似度计算，得到问答相似度；

候选答案确定模块，用于根据所述问答相似度从所述原始答案文档筛选出候选答案文档；

数据填充模块，用于根据所述问题数据、所述候选答案文档对预设的问题提示模板进行数据填充，得到问题提示数据；

目标答案确定模块，用于根据预设的语言模型对所述问题提示数据进行语义理解，得到目标答案数据。

为实现上述目的，本申请实施例的第三方面提出了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法。

为实现上述目的，本申请实施例的第四方面提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法。

本申请提出的基于文档的答案生成方法和装置、电子设备及存储介质,其通过搜索数据数据库对问题数据进行答案查询，得到原始答案文档。通过对原始答案文档进行筛选得到候选答案文档。通过语言模型对包括问题数据和候选答案文档的问题提示数据进行语义理解，得到目标答案数据。由此可知，本申请是基于语言模型得到目标答案数据，相较于相关技术中通过文档抽取方式获取答案的方法，本申请能够减少答案的生成必须依赖于文档包含连续整段答案的情况，从而提高了答案生成的灵活性。

附图说明

图1是本申请实施例提供的基于文档的答案生成方法的流程图；

图2是图1中的步骤S102的流程图；

图3是图1中的步骤S103的流程图；

图4是图3中的步骤S301的流程图；

图5是图4中的步骤S402的流程图；

图6是图4中的步骤S402的另一实施例的流程图；

图7是图1中的步骤S105的流程图；

图8是本申请实施例提供的问题提示模板的示意图；

图9是本申请实施例提供的基于文档的答案生成装置的结构示意图；

图10是本申请实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

首先，对本申请中涉及的若干名词进行解析：

人工智能(artificial intelligence，AI)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

自然语言处理(natural language processing，NLP)：NLP用计算机来处理、理解以及运用人类语言(如中文、英文等)，NLP属于人工智能的一个分支，是计算机科学与语言学的交叉学科，又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息意图识别、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域，它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。

大语言模型(Large Language Model，LLM)：是指使用大量文本数据训练的深度学习模型，大语言模型可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务，如文本分类、问答、对话等。大语言模型包括生成式预训练转换器(Generative Pretrained Transformer 3，GPT-3)、语言表征模型(BidirectionalEncoder Representations from Transformer，BERT)、自回归表征学习模型(eXtremeLearning Machine Network，XLNet)、文本-文本转换器(Text-to-Text TransferTransformer，T5)等。

相关技术中，互联网的网页是非结构化文档，非结构化文档中包含了许多信息，这些信息可以作为用户提问的答案。例如，针对用户提出的办理保险年龄限制的问题，可以从保险介绍网页中获取投保年龄限制：购买A保险的年龄限制为B周岁到C周岁之间。与常见问题解答(Frequently Asked Questions，FAQ)不同的是，上述问题和答案都不是提前准备好的，而是根据用户的实时提问动态从网页中抽取的，因此根据非结构化文档获取答案的方法具有时效性强的优点。

根据非结构化文档获取答案的方法包括如下两个步骤：第一步，基于文档检索方法检索与问题相关度最高的文档；第二步，基于预设的模型从相关度最高的文档中抽取答案。上述步骤存在如下缺点：第一，灵活性差，由于采用文档抽取的方式获取答案，所以要求文档中必须包含连续的整段答案，否则模型无法抽取；第二，成本高，模型需要使用有监督学习的方法进行单独训练，需要准备标注样本和训练系统。

基于此，本申请实施例提供了一种基于文档的答案生成方法和装置、电子设备及存储介质，旨在提高答案生成的灵活性。

本申请实施例提供的基于文档的答案生成方法和装置、电子设备及存储介质，具体通过如下实施例进行说明，首先描述本申请实施例中的基于文档的答案生成方法。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的基于文档的答案生成方法，涉及人工智能技术领域。本申请实施例提供的基于文档的答案生成方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现基于文档的答案生成方法的应用等，但并不局限于以上形式。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

需要说明的是，在本申请的各个具体实施方式中，当涉及到需要根据用户信息、用户提问数据，用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时，都会先获得用户的许可或者同意，而且，对这些数据的收集、使用和处理等，都会遵守相关法律法规和标准。此外，当本申请实施例需要获取用户的敏感个人信息时，会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意，在明确获得用户的单独许可或者单独同意之后，再获取用于使本申请实施例能够正常运行的必要的用户相关数据。

图1是本申请实施例提供的基于文档的答案生成方法的一个可选的流程图，图1中的方法可以包括但不限于包括步骤S101至步骤S106。

步骤S101，获取问题数据；

步骤S102，根据问题数据从预设的搜索数据库中进行答案查询，得到原始答案文档；

步骤S103，将原始答案文档与问题数据进行相似度计算，得到问答相似度；

步骤S104，根据问答相似度从原始答案文档筛选出候选答案文档；

步骤S105，根据问题数据、候选答案文档对预设的问题提示模板进行数据填充，得到问题提示数据；

步骤S106，根据预设的语言模型对问题提示数据进行语义理解，得到目标答案数据。

本申请实施例所示意的步骤S101至步骤S106，通过搜索数据库对问题数据进行答案查询，得到原始答案文档。通过对原始答案文档进行筛选得到候选答案文档。通过语言模型对包括问题数据和候选答案文档的问题提示数据进行语义理解，得到目标答案数据。由此可知，本申请是基于语言模型得到目标答案数据，相较于相关技术中通过文档抽取方式获取答案的方法，本申请能够减少答案的生成必须依赖于文档包含连续整段答案的情况，从而提高了答案生成的灵活性。

在一些实施例的步骤S101中，问题数据是指包含问题的数据，例如当将本申请实施例应用于金融科技场景时，问题数据可以是“购买A保险的年龄限制”、“D保险的保障范围”等。问题数据可以为文本格式、语音格式等，但当问题数据为文本格式以外的格式时，需通过对应的转换技术转换为文本格式，以便于后续语言模型的处理。如可以使用文语转换技术(Text to Speech，TTS)将语音格式转换为文本格式。可以理解的是，可以通过应用程序编程接口(Application Programming Interface,API)获取问题数据。

在一些实施例的步骤S102中，预设的搜索数据库是指能够基于问题数据得到对应文档的数据库，例如搜索数据库可以是对应于搜索引擎的数据库。通过对应的API接口调用搜索引擎，以对问题数据进行搜索。将搜索得到的网页作为原始答案文档。

参照图2，在一些实施例中，搜索数据库包括网页文档和网页文档的网页关键词，步骤S102包括但不限于包括步骤S201至步骤S204。

步骤S201，对问题数据进行关键词提取，得到问题关键词；

步骤S202，将问题关键词与网页关键词进行匹配，得到匹配结果；

步骤S203，根据匹配结果对网页文档进行排序，得到网页排序数据；

步骤S204，从网页排序数据筛选出原始答案文档。

在一些实施例的步骤S201中，问题关键词是指问题数据中具有特殊意思或重要性的词语，问题关键词能够概括问题数据的内容。例如，当问题数据为“购买A保险的年龄限制”时，可以得到“A保险”、“年龄限制”等问题关键词。对问题数据进行关键词提取的方法包括基于图论的算法(TextRank)、快速自动关键词提取算法(Rapid Automatic keywordextraction，RAKE)、基于机器学习的方法和基于深度学习的方法等。其中，基于机器学习的方法包括通过训练如支持向量机、随机森林等模型进行关键词识别。基于深度学习的方法包括使用如循环神经网络、卷积神经网络等深度学习模型学习文本的语义信息，从而实现关键词的提取。

在一些实施例的步骤S202中，网页关键词是预先根据网页文档进行关键词提取得到的，得到网页关键词的方法与得到问题关键词的方法类似，对此本申请实施例不再赘述。将问题关键词与网页关键词进行匹配，得到匹配结果。可以理解的是，匹配结果用于表示网页关键词与问题关键词的匹配程度，从而可以确定网页文档与问题数据的匹配程度。其中，问题关键词与网页关键词匹配的方法包括模糊匹配、语义匹配、子串匹配等，对此本申请实施例不作具体限定。

在一些实施例的步骤S203中，根据匹配结果对网页文档按照降序排序或升序排序，得到网页排序数据。

在一些实施例的步骤S204中，从网页排序数据中筛选出匹配度最高的多个网页文档，将筛选出的网页文档作为原始答案文档。例如，当网页排序数据为降序排序时，匹配度最高的网页关键词对应的网页文档在排序首位，匹配度最低的网页关键词对应的文档在排序尾位。根据预设数量、预设比例等方式从排序首位开始获取多个网页文档，将获取得到的网页文档作为原始答案文档。

步骤S201至步骤S204的好处是，由于搜索数据库具有时效性强的特点，因此能够提高原始答案文档的有效性。此外，基于搜索数据库确定原始答案文档的方法，在一定程度上避免了相关技术中根据语料样本构建数据库的情况，从而能够降低确定原始答案文档的成本。

在一些实施例的步骤S103中，将原始答案文档与问题数据进行相似度计算，以确定原始答案文档与问题数据的匹配相似度，得到问答相似度。

参照图3，在一些实施例中，步骤S103包括但不限于包括步骤S301至步骤S304。

步骤S301，根据原始答案文档构建答案向量，并根据问题数据构建问题向量；

步骤S302，将答案向量与问题向量进行乘积计算，得到问答乘积值；

步骤S303，将答案向量与问题向量进行向量长度计算，得到问答向量长度值；

步骤S304，根据问答乘积值和问答向量长度值计算得到问答相似度。

在一些实施例的步骤S301中，将原始答案文档的文本格式转换为数值格式，以构建得到答案向量X。将问题数据的文本格式转换为数值格式转换，以构建得到问题向量Y。例如，答案向量X可以表示为[X1,X2，...，Xn]，问题向量Y可以表示为[Y1,Y2，...，Yn]。答案向量X和问题向量Y都是n维的向量，n的取值取决于文本格式转换为数值格式时所使用的方法，该方法包括词袋模型、词向量模型(word to vector，Word2Vev)、BERT、独热编码、快速文本向量化(FastText)等。

参照图4，在一些实施例中，步骤S301中“根据原始答案文档构建答案向量”包括但不限于包括步骤S401至步骤S404。

步骤S401，对原始答案文档进行分词处理，得到分词数据；

步骤S402，根据分词数据计算得到分词词频，并根据分词数据计算得到逆文档频率；

步骤S403，对分词数据进行词嵌入处理，得到词向量；

步骤S404，根据分词词频、逆文档频率、词向量进行乘积计算，得到答案向量。

在一些实施例的步骤S401中，对原始答案文档进行分词处理，以将连续的文本序列切分为有意义的最小单位，得到多个分词数据。分词处理的方法包括基于规则的分词、基于深度学习的分词等。其中，基于规则的分词是指基于语法、词性、字典匹配等规则进行分词。基于深度学习的分词包括基于循环神经网络的分词、基于长短时记忆网络的分词等。

在一些实施例的步骤S402中，分词词频是指某一个分词数据在原始答案文档中出现的次数，因此分词词频可以根据分词数据计算得到。逆文档频率用于度量一个分词数据的普遍性，因此逆文档频率也可以根据分词数据计算得到。

参照图5，在一些实施例中，步骤S402中“根据分词数据计算得到分词词频”的方法包括但不限于包括步骤S501至步骤S503。

步骤S501，确定分词数据在原始答案文档中的重复次数；

步骤S502，确定所有分词数据的总数量；

步骤S503，根据总数量、重复次数计算得到分词词频。

在一些实施例的步骤S501中，根据分词数据对原始答案文档进行内容查找，确定分词数据在原始答案文档中出现的次数，即重复次数。

在一些实施例的步骤S502中，统计原始答案文档包含的分词数据的数量，得到总数量。

在一些实施例的步骤S503中，根据如下式(1)对总数量和重复次数进行计算，得到分词词频。

参照图6，在一些实施例中，步骤S402中“根据分词数据计算得到逆文档频率”的方法包括但不限于包括步骤S601至步骤S602。

步骤S601，根据分词数据对预设的文档数据库进行文档匹配，得到文档匹配数量；

步骤S602，根据文档匹配数量、文档数据库的总文档数量计算得到逆文档频率。

在一些实施例的步骤S601中，文档数据库是用于计算逆文档频率设置的数据库，文档数据库包括的文档可以与搜索数据库相同或不同，对此本申请实施例不作具体限定。将分词数据与文档数据库中的所有文档进行匹配，以确定文档数据库中包含该分词数据的文档数据，得到文档匹配数量。

在一些实施例的步骤S602中，总文档数量是指文档数据库包含的文档数量，根据如下式(2)对文档匹配数量、总文档数量进行计算，得到逆文档频率。

在一些实施例的步骤S403中，对分词数据进行词嵌入处理，得到分词数据的向量形式，即得到词向量。可以理解的是，词嵌入处理的方式包括Word2Vev等。

在一些实施例的步骤S404中，根据如下式(3)对分词词频、逆文档频率、词向量进行乘积计算，得到答案向量X。

其中，tfi表示第i个分词数据的分词词频，idfi表示第i个分词数据的逆文档频率，vi表示第i个分词数据的词向量。

步骤S401至步骤S404的好处是，将分词词频和逆文档频率作为对应词向量的权重，使得根据多个分词数据加权和处理得到的答案向量能够准确反映原始答案文档的内容。

可以理解的是，构建问题向量的方法与构建答案向量的方法类似，对此本申请实施例不再赘述。

在一些实施例的步骤S302中，将答案向量中的每一个元素与问题向量中的对应元素进行乘积计算，得到问答乘积值。

在一些实施例的步骤S303中，将答案向量与问题向量进行模长计算，即进行向量长度计算，得到问答向量长度值。

在一些实施例的步骤S304中，根据如下式(4)对问答乘积值和问答向量长度值进行计算，得到问答相似度cos(θ)。

其中，X·Y表示问答乘积值，||X||||Y||表示问答向量长度值。

在一些实施例的步骤S104中，根据问题相似度从多个原始答案文档中筛选出候选答案文档。例如，可以将数值最大的问答相似度对应的原始答案文档作为候选答案文档。或者，可以设置一个数值范围，将问答相似度在该预设数值范围内的多个原始答案文档进行比较，可以是结合用户的历史问题数据进行比较，根据比较结果将最匹配的原始答案文档作为候选答案文档。可以理解的是，结合历史问题数据进行比较的方法能够提高候选答案文档的准确性。例如，假设问题数据为“年龄限制”，则根据搜索数据库得到的原始答案文档包括年龄限制的定义、某岗位的报考年龄限制等。假设历史问题数据中包括关于保险的问题数据，则可以从上述多个原始答案文档中筛选出与保险相关的候选答案文档。可以理解的是，在基于历史问题数据确定候选答案文档之前，可以先通过弹窗等形式和用户确认，减少错误利用历史问题数据的情况。

在一些实施例的步骤S105中，问题提示模板是预先设置的用于进行问题提示和答案提示的模板。根据问题数据和候选答案文档对问题提示模板进行数据填充，得到问题提示数据。可以理解的是，可以直接根据问题数据和候选答案文档进行数据填充，或者根据问题数据对候选答案文档进行数据删减得到初步答案文档。根据初步答案文档和问题数据对问题提示模板进行数据填充。其中，对候选答案文档进行数据删减得到初步文档的方法可以是：将候选答案文件进行数据划分，得到多个数据片段。将多个数据片段分别与问题数据进行相似度计算，根据计算得到的相似度对数据片段进行删减，将删减后剩余的数据片段进行重新拼接得到初步答案文档。

参照图7和图8，在一些实施例中，问题提示模板包括答案来源提示文本、问题来源提示文本、第一填充模块和第二填充模块。步骤S105包括但不限于包括步骤S701至步骤S705。

步骤S701，根据候选答案文档对第一填充模块进行答案填充，得到答案内容提示数据；

步骤S702，根据问题数据对第二填充模块进行问题填充，得到问题内容提示数据；

步骤S703，将答案来源提示文本与答案内容提示数据进行数据映射，得到答案文本；

步骤S704，将问题来源提示文本与问题内容提示数据进行数据映射，得到问题文本；

步骤S705，根据答案文本和问题文本得到问题提示数据。

在一些实施例的步骤S701中，第一填充模块801是用于指示候选答案文档803填充位置的模块。将候选答案文档的文档内容填充至第一填充模块801指示的位置，得到答案内容提示数据。

在一些实施例的步骤S702中，第二填充模块802是用于指示问题数据804填充位置的模块。将问题数据的数据内容填充至第二填充模块802指示的位置，得到问题内容提示数据。

在一些实施例的步骤S703中，答案来源提示文本是用于提示答案来源的文本，例如可以是“根据这段文章：”。将答案来源提示文本与答案内容提示数据进行数据映射，得到包括答案来源提示文本和答案内容提示数据的答案文本。以候选答案文档为“A保险是一种健康保险，保障范围通常包括疾病治疗、手术费用、药品费用等在内的医疗费用。健康保险的最低投保年龄为18岁，最高投保年龄为65岁”为例，可以得到如下答案文本：根据这段文章：{A保险是一种健康保险，保障范围通常包括疾病治疗、手术费用、药品费用等在内的医疗费用。健康保险的最低投保年龄为18岁，最高投保年龄为65岁}。

在一些实施例的步骤S704中，问题来源提示文本是用于提示问题来源的文本，例如可以是“回答问题：”。将问题来源提示文本与问题内容提示数据进行数据映射，得到包括问题来源提示文本和问题内容提示数据的问题文本。以问题数据为“购买A保险的年龄限制”为例，可以得到如下问题文本：回答问题：{购买A保险的年龄限制}。

在一些实施例的步骤S705中，将答案文本和问题文本进行文本整合，得到问题提示数据。例如可以得到如下问题提示数据：根据这段文章：{A保险是一种健康保险，保障范围通常包括疾病治疗、手术费用、药品费用等在内的医疗费用。健康保险的最低投保年龄为18岁，最高投保年龄为65岁}，回答问题：{购买A保险的年龄限制}。

步骤S701至步骤S705的好处是，能够得到一个包括答案文本和问题文本的问题提示数据，使得后续语言模型可以直接对问题提示数据进行语义理解，避免重新搜索和匹配答案，提高生成答案的速度。

在一些实施例的步骤S106中，语言模型是预先训练好的大语言模型。将问题提示数据作为语言模型的输入数据，根据语言模型对问题提示数据进行语义理解，得到目标答案数据。

根据语言模型得到目标答案数据的好处是，语言模型是已经训练好的模型，即可以直接进行调用相关技术中训练好的大语言模型作为本申请实施例的语言模型，减少了相关技术中需要对模型进行训练造成成本提高的情况。其次，问题提示数据包含了问题和答案，而语言模型具有较强的语义理解能力，因此即使问题提示数据中的答案不是完整连接的，语言模型也能通过上下文理解等方式得到目标答案数据。例如，当问题提示数据为：根据这段文章：{A保险是一种健康保险，保障范围通常包括疾病治疗、手术费用、药品费用等在内的医疗费用。健康保险的最低投保年龄为18岁，最高投保年龄为65岁}，回答问题：{购买A保险的年龄限制}。根据语言模型可以得到“购买A保险的年龄限制是最低18岁和最高65岁”的目标答案数据。由此可知，本申请实施例提供的方法能够提高答案生成的灵活性。可以理解的是，在一些实施例中，为了提高语言模型对特定领域的语义理解能力，或者提高语义理解的准确性，还可以对训练好的大语言模型进行简单的微调，对此本申请实施例不作具体限定。

可以理解的是，本申请实施例提供的方法是一种生成式方法，即问题提示数据包含答案，语言模型用于从问题提示数据中生成更准确和精炼的答案。而直接对问题数据进行答案搜索的搜索式方法，得到的答案可能是“A保险是一种健康保险，保障范围通常包括疾病治疗、手术费用、药品费用等在内的医疗费用。健康保险的最低投保年龄为18岁，最高投保年龄为65岁”，即搜索式方法得到的答案较为宽泛，搜索式得到的答案包括除答案以外的其他内容。由此可知，本申请实施例提供的方法还可以提高答案生成的准确性。

请参阅图9，本申请实施例还提供一种基于文档的答案生成装置，可以实现上述基于文档的答案生成方法，该装置包括：

数据获取模块901，用于获取问题数据；

数据匹配模块902，用于根据问题数据从预设的搜索数据库中进行答案查询，得到原始答案文档；

相似度计算模块903，用于将原始答案文档与问题数据进行相似度计算，得到问答相似度；

候选答案确定模块904，用于根据问答相似度从原始答案文档筛选出候选答案文档；

数据填充模块905，用于根据问题数据、候选答案文档对预设的问题提示模板进行数据填充，得到问题提示数据；

目标答案确定模块906，用于根据预设的语言模型对问题提示数据进行语义理解，得到目标答案数据。

该基于文档的答案生成装置的具体实施方式与上述基于文档的答案生成方法的具体实施例基本相同，在此不再赘述。

本申请实施例还提供了一种电子设备，电子设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述基于文档的答案生成方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。

请参阅图10，图10示意了另一实施例的电子设备的硬件结构，电子设备包括：

处理器1001，可以采用通用的CPU(CentralProcessingUnit，中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例所提供的技术方案；

存储器1002，可以采用只读存储器(ReadOnlyMemory，ROM)、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory，RAM)等形式实现。存储器1002可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1002中，并由处理器1001来调用执行本申请实施例的基于文档的答案生成方法；

输入/输出接口1003，用于实现信息输入及输出；

通信接口1004，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；

总线1005，在设备的各个组件(例如处理器1001、存储器1002、输入/输出接口1003和通信接口1004)之间传输信息；

其中处理器1001、存储器1002、输入/输出接口1003和通信接口1004通过总线1005实现彼此之间在设备内部的通信连接。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述基于文档的答案生成方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例提供的基于文档的答案生成方法和装置、电子设备及存储介质，其通过搜索数据库对问题数据进行答案查询得到原始答案文档，通过对原始答案文档进行筛选得到候选答案文档。通过语言模型对包括问题数据和候选答案文档的问题提示数据进行语义理解，得到目标答案数据。由此可知，本申请是基于语言模型得到目标答案数据，相较于相关技术中通过文档抽取方式获取答案的方案，本申请能够减少文档必须包含连续整段答案的情况，从而提高了答案生成的灵活性。

本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图中示出的技术方案并不构成对本申请实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本申请实施例的优选实施例，并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本申请实施例的权利范围之内。

Claims

1.一种基于文档的答案生成方法，其特征在于，所述方法包括：

获取问题数据；

2.根据权利要求1所述的方法，其特征在于，所述问题提示模板包括答案来源提示文本、问题来源提示文本、第一填充模块和第二填充模块，所述根据所述问题数据、所述候选答案文档对预设的问题提示模板进行数据填充，得到问题提示数据，包括：

根据所述答案文本和所述问题文本得到所述问题提示数据。

3.根据权利要求1所述的方法，其特征在于，所述将所述原始答案文档与所述问题数据进行相似度计算，得到问答相似度，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述原始答案文档构建答案向量，包括：

对所述原始答案文档进行分词处理，得到分词数据；

对所述分词数据进行词嵌入处理，得到词向量；

5.根据权利要求4所述的方法，其特征在于，所述根据所述分词数据计算得到分词词频，包括：

确定所述分词数据在所述原始答案文档中的重复次数；

确定所有所述分词数据的总数量；

根据所述总数量、所述重复次数计算得到所述分词词频。

6.根据权利要求4所述的方法，其特征在于，所述根据所述分词数据计算得到逆文档频率，包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，所述搜索数据库包括网页文档和所述网页文档的网页关键词；

对所述问题数据进行关键词提取，得到问题关键词；

从所述网页排序数据筛选出所述原始答案文档。

8.一种基于文档的答案生成装置，其特征在于，所述装置包括：

数据获取模块，用于获取问题数据；

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的基于文档的答案生成方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的基于文档的答案生成方法。