CN116881411A

CN116881411A - 一种问答内容的检索优化方法及装置

Info

Publication number: CN116881411A
Application number: CN202310678261.8A
Authority: CN
Inventors: 高羽
Original assignee: Qax Technology Group Inc
Current assignee: Qax Technology Group Inc
Priority date: 2023-06-08
Filing date: 2023-06-08
Publication date: 2023-10-13

Abstract

本发明提供一种问答内容的检索优化方法及装置。该方法包括：获得输入的问题文本信息的第二向量值；基于所述第二向量值与预设的背景文本信息对应的第一向量值进行匹配，将匹配成功的第一向量对应的背景文本信息作为目标背景文本信息；基于所述目标背景文本信息和所述问题文本信息，并调用预设的语言模型，生成答复信息；其中，所述预设的语言模型用于基于所述目标背景文本信息，生成对所述问题文本信息进行答复的答复信息。本发明提供的问答内容的检索优化方法，通过将背景文本信息和问题文本信息进行关联，能够有效提高问题内容反馈的针对性和效率。

Description

一种问答内容的检索优化方法及装置

技术领域

本发明涉及人工智能技术领域，具体涉及一种问答内容的检索优化方法及装置。另外，还涉及一种电子设备及处理器可读存储介质。

背景技术

目前，开放平台通常基于固定问答库,通过检索时进行命中计算匹配问题,返回答案，以对外提供反馈内容。然而，实际应用中，通常存在一些用户内部未公开资料，开放平台无法预先获取，用户输入问题之后，若想要获取针对该内部未公开资料的回答内容，则较为繁琐，只能基于预训练的内容进行回答，导致问题内容回答的针对性和效率较差。

发明内容

为此，本发明提供一种问答内容的检索优化方法及装置，以解决现有技术中存在的问答内容的检索优化方案生成答复内容的针对性较差的缺陷。

第一方面，本发明提供一种问答内容的检索优化方法，包括：

获得输入的问题文本信息的第二向量值；

基于所述第二向量值与预设的背景文本信息对应的第一向量值进行匹配，将匹配成功的第一向量对应的背景文本信息作为目标背景文本信息；

基于所述目标背景文本信息和所述问题文本信息，并调用预设的语言模型，生成答复信息；其中，所述预设的语言模型用于基于所述目标背景文本信息，生成对所述问题文本信息进行答复的答复信息。

进一步的，所述基于所述第二向量值与预设的背景文本信息对应的第一向量值进行匹配，将匹配成功的第一向量对应的背景文本信息作为目标背景文本信息，具体包括：

以所述第二向量值为索引，与预设的索引数据库中存储的与所述背景文本信息对应的第一向量值进行匹配，查找出与所述索引之间的相似度满足预设相似度阈值的目标第一向量值，并将所述目标第一向量值对应的背景文本信息确定为所述目标背景文本信息；

其中，所述索引数据库是通过预先获取所述背景文本信息的第一向量值以及所述背景文本信息进行构建得到的。

进一步的，所述获取所述背景文本信息的第一向量值，具体包括：获取所述背景文本信息，基于预设的字符个数对所述背景文本信息进行切分，获得相应的第一文本数据块；其中，所述字符个数小于所述语言模型输入的检索字符个数；

基于Embeddings嵌入模型将所述第一文本数据块转化为对应的第一向量值。

进一步的，所述获取所述背景文本信息，具体包括：

获取各种格式的原始文本信息；

对所述原始文本信息进行格式转换，获得目标格式的标准文本信息，将所述目标格式的标准文本信息确定为所述背景文本信息。

进一步的，获得输入的问题文本信息的第二向量值，具体包括：

获取输入的问题文本信息，基于预设的字符个数对所述问题文本信息进行切分，获得相应的第二文本数据块；其中，所述字符个数小于所述语言模型输入的检索字符个数；

基于Embeddings嵌入模型将所述第二文本数据块转化为对应的第二向量值。

进一步的，在基于所述目标背景文本信息和所述问题文本信息，并调用预设的语言模型，生成答复信息之前，还包括：响应于输入的身份选择请求，从预定义的身份信息列表中确定相应的身份信息；

所述基于所述目标背景文本信息和所述问题文本信息，并调用预设的语言模型，生成答复信息，具体包括：

基于所述目标背景文本信息、所述问题文本信息以及所述身份信息调用预设的语言模型，生成与所述身份信息相匹配的答复信息；其中，所述身份信息用于确定所述语言模型生成答复信息时对应的角色。

基于所述第二向量值与所述背景文本信息对应的第一向量值进行相似度计算，获得所述第二向量值和所述第一向量值之间的多个相似度值，并按照所述相似度值的大小关系筛选预设数量的背景文本信息作为目标背景文本信息。

第二方面，本发明还提供一种问答内容的检索优化装置，包括：

第二向量值获得单元，用于获得输入的问题文本信息的第二向量值；

目标背景文本信息获得单元，用于基于所述第二向量值与预设的背景文本信息对应的第一向量值进行匹配，将匹配成功的第一向量对应的背景文本信息作为目标背景文本信息；

问答内容的检索优化单元，用于基于所述目标背景文本信息和所述问题文本信息，并调用预设的语言模型，生成答复信息；其中，所述预设的语言模型用于基于所述目标背景文本信息，生成对所述问题文本信息进行答复的答复信息。

进一步的，所述目标背景文本信息获得单元，具体用于：

进一步的，所述获取所述背景文本信息，具体包括：

获取各种格式的原始文本信息；

进一步的，所述第二向量值获得单元，具体用于：

进一步的，在基于所述目标背景文本信息和所述问题文本信息，并调用预设的语言模型，生成答复信息之前，还包括：身份信息确认单元，用于响应于输入的身份选择请求，从预定义的身份信息列表中确定相应的身份信息；

所述问答内容的检索优化单元，具体用于：

进一步的，所述目标背景文本信息获得单元，具体还用于：

第三方面，本发明还提供一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行所述计算机程序时实现如上述任意一项所述的问答内容的检索优化方法的步骤。

第四方面，本发明还提供一种处理器可读存储介质，所述处理器可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如上述任意一项所述的问答内容的检索优化方法的步骤。

本发明提供的问答内容的检索优化方法，通过获得输入的问题文本信息的第二向量值，基于所述第二向量值与预设的背景文本信息对应的第一向量值进行匹配，将匹配成功的第一向量对应的背景文本信息作为目标背景文本信息，并基于所述目标背景文本信息和所述问题文本信息，并调用预设的语言模型，生成答复信息。本发明通过将背景文本信息和问题文本信息进行关联，能够有效提高问题内容反馈的针对性和效率，大大降低使用成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获取其他的附图。

图1是本发明实施例提供的问答内容的检索优化方法的流程示意图；

图2是本发明实施例提供的问答内容的检索优化装置的结构示意图；

图3是本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本申请的说明书和上述附图中的术语“第一”、“第二”等是用于区别类似的用户，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

近年来，随着人工智能技术的快速发展，各种基于人工智能技术驱动的自然语言处理工具越来越多，如ChatGPT(Chat Generative Pre-trained Transformer)等开放平台，其通常能够通过理解和学习人类的语言来进行对话，还能根据上下文进行互动交流。

下面基于本发明所述的问答内容的检索优化方法，对其实施例进行详细描述。如图1所示，为本发明实施例提供的问答内容的检索优化方法的流程示意图，具体过程包括以下步骤：

步骤101：获得输入的问题文本信息的第二向量值。

在本步骤具体实施过程中，获取输入的问题文本信息，基于预设的字符个数对所述问题文本信息进行切分，获得相应的第二文本数据块；其中，所述字符个数小于所述语言模型输入的检索字符个数；确定所述第二文本数据块分别对应的第二向量值。具体的，所述字符个数也可以按照实际需要进行设定，比如20或30个字符。基于该字符个数利用预设的分词器对所述问题文本信息进行切分，获得相应的第二文本数据块，即分块trunk。所述语言模型可以是指ChatGPT等，在此不做具体限定。进一步的，可使用预设的Embeddings模型或者ChatGPT的Embeddings功能将切割好的第二文本数据块转成各个分块对应的第二向量值(vector)，以基于该第二向量值到本地的索引数据库中与所述第一向量值进行匹配。

在本发明实施例中，执行本步骤之前，需要预先获取各种格式的原始文本信息，然后对所述原始文本信息进行格式转换，获得统一的目标格式(比如txt格式)的标准文本信息，将所述目标格式的标准文本信息确定为所述背景文本信息，获取所述背景文本信息的第一向量值，并将所述第一向量值以及第一向量值对应的背景文本信息存储到索引数据库。例如，采集pdf，markdown等格式的原始文本信息，利用预设的格式转化器将所述原始文本信息统一转换成txt格式，以便进行后续处理。

进一步的，获取所述背景文本信息之后，可基于预设的字符个数对所述背景文本信息进行切分，获得相应的第一文本数据块；其中，所述字符个数小于所述语言模型输入的检索字符个数；确定所述第一文本数据块分别对应的第一向量值。具体的，所述字符个数可以按照实际需要进行设定，比如20或30个字符。该字符个数需要满足小于所述语言模型所允许输入的检索字符个数。基于该字符个数利用预设的分词器对所述背景文本信息进行切分，获得相应的第一文本数据块(trunk)。该语言模型可以是指ChatGPT或者具有类似自然语言分析、组织、处理能力的模型等，在此不做具体限定。进一步的，可使用预设的Embeddings模型或者ChatGPT的Embeddings功能将切割好的第一文本数据块转成各个分块对应的第一向量值(vector)，以将该第一向量值以及元数据写入到本地的索引数据库中。其中，所述元数据即为第一向量值对应的背景文本信息。所述背景文本信息可以是用户内部暂未公开的与所述问题文本信息相关的文本信息。例如用户提出关于A文本的问题，希望语言模型能够基于A文本公开的内容作出回答，即需要语言模型能够基于A文本给出的答案，该答案与A文本内容相关。所述A文本可以是指书本文本或者新闻文本等。

步骤102：基于所述第二向量值与预设的背景文本信息对应的第一向量值进行匹配，将匹配成功的第一向量对应的背景文本信息作为目标背景文本信息。

在本发明实施例中，以所述第二向量值为索引，到所述索引数据库查找出与所述索引之间的相似度满足预设相似度阈值的目标第一向量值，并将所述目标第一向量值对应的背景文本信息确定为所述目标背景文本信息。具体的，所述目标第一向量值是基于所述第二向量值从所述索引数据库存储的第一向量值中匹配得到的相似度满足预设相似度阈值的向量值。所述目标背景文本信息是指从所述背景文本信息中获取的与所述目标第一向量值对应的背景文本信息。

步骤103：基于所述目标背景文本信息和所述问题文本信息，并调用预设的语言模型，生成答复信息；其中，所述预设的语言模型用于基于所述目标背景文本信息，生成对所述问题文本信息进行答复的答复信息。

在本步骤中，可将所述目标背景文本信息、所述问题文本信息以及预定义的身份信息打包为一个问题数据包，即该问题数据包包含所述目标背景文本信息、所述问题文本信息及预定义的身份信息，从而使得所述语言模型能够基于问题数据包中的目标背景文本信息和身份信息生成与所述身份信息相适合的答复信息，从而替代原本的一问一答的检索问答方式，提高了问答效率和针对性。所述语言模型可以是指ChatGPT等，在此不做具体限定。需要说明的是，所述目标背景文本信息为所述背景文本信息中与所述问题文本信息相似度最高的前几个文本信息，即前几个字符段，比如200个字符或者300个字符。需要说明的是，在基于所述目标背景文本信息、所述问题文本信息以及预定义的身份信息调用预设的语言模型之前，可预先获得预设的身份信息列表，该身份信息列表包含多个身份信息。响应于用户输入的身份信息选择请求，从所述身份信息列表中获取预定义的身份信息，以获得与所述身份信息的权限范围相匹配的答复信息。例如：输入的问题数据包包括“扮演作曲家，基于提供的A段素材，请生成一首歌曲”。这里面“作曲家”即为所述身份信息；“A段素材”即为目标背景文本信息；“请生成一首歌曲”即为问题文本。

在实施过程中，通过使用本地的索引数据库，与ChatGPT的AI能力进行结合，能够做出准确的回答。具体的，将用户输入的问题文本信息按照分词器进行切割分块后，使用Embeddings技术将切割好的trunk转换成向量值，获得第二向量值，将用户输入的第二向量值代入本地的索引数据库中背景文本信息对应的第一向量值进行相关性计算，得到一批按照相似度从高到低排序的背景文本信息，可取相似度最高前三个背景文本信息作为目标背景文本信息，也可与预设的相似度阈值进行比对，将相似度值大于或等于所述相似度阈值的背景文本信息作为目标背景文本信息。确定目标背景文本信息后，可将用户输入的问题文本信息包装在目标背景文本信息后方，调用ChatGPT的API，获取基于ChatGPT返回的答复，并将答复信息返回给用户。

本发明实施例所述的问答内容的检索优化方法，通过获得输入的问题文本信息的第二向量值，基于所述第二向量值与预设的背景文本信息对应的第一向量值进行匹配，将匹配成功的第一向量对应的背景文本信息作为目标背景文本信息，并基于所述目标背景文本信息和所述问题文本信息，并调用预设的语言模型，生成答复信息。本发明通过将背景文本信息和问题文本信息进行关联，能够有效提高问题内容反馈的针对性和效率，大大降低使用成本。

与上述提供的一种问答内容的检索优化方法相对应，本发明还提供一种问答内容的检索优化装置。由于该装置的实施例相似于上述方法实施例，所以描述得比较简单，相关之处请参见上述方法实施例部分的说明即可，下面描述的问答内容的检索优化装置的实施例仅是示意性的。请参考图2所示，其为本发明实施例提供的一种问答内容的检索优化装置的结构示意图。

本发明所述的问答内容的检索优化装置，具体包括如下部分：

第二向量值获得单元201，用于获得输入的问题文本信息的第二向量值；

目标背景文本信息获得单元202，用于基于所述第二向量值与预设的背景文本信息对应的第一向量值进行匹配，将匹配成功的第一向量对应的背景文本信息作为目标背景文本信息；

问答内容的检索优化单元203，用于基于所述目标背景文本信息和所述问题文本信息，并调用预设的语言模型，生成答复信息；其中，所述预设的语言模型用于基于所述目标背景文本信息，生成对所述问题文本信息进行答复的答复信息。

进一步的，所述目标背景文本信息获得单元，具体用于：

进一步的，所述获取所述背景文本信息，具体包括：

获取各种格式的原始文本信息；

进一步的，所述第二向量值获得单元，具体用于：

所述问答内容的检索优化单元，具体用于：

进一步的，所述目标背景文本信息获得单元，具体还用于：

本发明实施例所述的问答内容的检索优化装置，通过获得输入的问题文本信息的第二向量值，基于所述第二向量值与预设的背景文本信息对应的第一向量值进行匹配，将匹配成功的第一向量对应的背景文本信息作为目标背景文本信息，并基于所述目标背景文本信息和所述问题文本信息，并调用预设的语言模型，生成答复信息。本发明通过将背景文本信息和问题文本信息进行关联，能够有效提高问题内容反馈的针对性和效率，大大降低使用成本。

与上述提供的问答内容的检索优化方法相对应，本发明还提供一种电子设备。由于该电子设备的实施例相似于上述方法实施例，所以描述得比较简单，相关之处请参见上述方法实施例部分的说明即可，下面描述的电子设备仅是示意性的。如图3所示，其为本发明实施例公开的一种电子设备的实体结构示意图。该电子设备可以包括：处理器(processor)301、存储器(memory)302和通信总线303，其中，处理器301，存储器302通过通信总线303完成相互间的通信，通过通信接口304与外部进行通信。处理器301可以调用存储器302中的逻辑指令，以执行问答内容的检索优化方法，该方法包括：获得输入的问题文本信息的第二向量值；基于所述第二向量值与预设的背景文本信息对应的第一向量值进行匹配，将匹配成功的第一向量对应的背景文本信息作为目标背景文本信息；基于所述目标背景文本信息和所述问题文本信息，并调用预设的语言模型，生成答复信息；其中，所述预设的语言模型用于基于所述目标背景文本信息，生成对所述问题文本信息进行答复的答复信息。

此外，上述的存储器302中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：存储芯片、U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在处理器可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的问答内容的检索优化方法。该方法包括：获得输入的问题文本信息的第二向量值；基于所述第二向量值与预设的背景文本信息对应的第一向量值进行匹配，将匹配成功的第一向量对应的背景文本信息作为目标背景文本信息；基于所述目标背景文本信息和所述问题文本信息，并调用预设的语言模型，生成答复信息；其中，所述预设的语言模型用于基于所述目标背景文本信息，生成对所述问题文本信息进行答复的答复信息。

又一方面，本发明实施例还提供一种处理器可读存储介质，所述处理器可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的问答内容的检索优化方法。该方法包括：获得输入的问题文本信息的第二向量值；基于所述第二向量值与预设的背景文本信息对应的第一向量值进行匹配，将匹配成功的第一向量对应的背景文本信息作为目标背景文本信息；基于所述目标背景文本信息和所述问题文本信息，并调用预设的语言模型，生成答复信息；其中，所述预设的语言模型用于基于所述目标背景文本信息，生成对所述问题文本信息进行答复的答复信息。

所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种问答内容的检索优化方法，其特征在于，包括：

获得输入的问题文本信息的第二向量值；

2.根据权利要求1所述的问答内容的检索优化方法，其特征在于，所述基于所述第二向量值与预设的背景文本信息对应的第一向量值进行匹配，将匹配成功的第一向量对应的背景文本信息作为目标背景文本信息，具体包括：

3.根据权利要求2所述的问答内容的检索优化方法，其特征在于，所述获取所述背景文本信息的第一向量值，具体包括：

获取所述背景文本信息，基于预设的字符个数对所述背景文本信息进行切分，获得相应的第一文本数据块；其中，所述字符个数小于所述语言模型输入的检索字符个数；

4.根据权利要求3所述的问答内容的检索优化方法，其特征在于，所述获取所述背景文本信息，具体包括：

获取各种格式的原始文本信息；

5.根据权利要求1所述的问答内容的检索优化方法，其特征在于，获得输入的问题文本信息的第二向量值，具体包括：

6.根据权利要求1所述的问答内容的检索优化方法，其特征在于，在基于所述目标背景文本信息和所述问题文本信息，并调用预设的语言模型，生成答复信息之前，还包括：响应于输入的身份选择请求，从预定义的身份信息列表中确定相应的身份信息；

7.根据权利要求1所述的问答内容的检索优化方法，其特征在于，所述基于所述第二向量值与预设的背景文本信息对应的第一向量值进行匹配，将匹配成功的第一向量对应的背景文本信息作为目标背景文本信息，具体包括：

8.一种问答内容的检索优化装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任意一项所述的问答内容的检索优化方法的步骤。

10.一种处理器可读存储介质，所述处理器可读存储介质上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任意一项所述的问答内容的检索优化方法的步骤。