CN116501843A

CN116501843A - 一种面向人类偏好的高效网络检索增强回答方法及系统

Info

Publication number: CN116501843A
Application number: CN202310165171.9A
Authority: CN
Inventors: 唐杰; 刘潇; 赖瀚宇; 余豪; 东昱晓
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2023-02-21
Filing date: 2023-02-21
Publication date: 2023-07-28

Abstract

本发明公开了一种面向人类偏好的高效网络检索增强回答方法及系统，该方法包括：利用预设的网络搜索引擎获取网络网页中与问题对应的候选答案；利用检索模型得到候选参考资料；通过语言模型的语境学习生成基于候选参考资料的问答数据集，将问答数据集中语言模型对候选参考资料的采用信息作为标签训练检索模型，并通过问答数据集微调语言模型，以通过训练好的语言模型根据候选参考资料生成问题答案；根据用户对问题答案的反馈数据建立人类偏好感知的评分器，以根据训练好的评分器得到所述问题答案的优化结果。本发明通过网络搜索与召回技术来增强预训练的语言模型，以实现真实场景下的应用部署，同时维持高系统效率与低部署成本。

Description

一种面向人类偏好的高效网络检索增强回答方法及系统

技术领域

本发明涉及语言模型检索技术领域，特别是涉及一种面向人类偏好的高效网络检索增强回答方法及系统。

背景技术

大型语言模型(LLM)，如GPT-3、PaLM、OPT、BLOOM和GLM-130B，极大地推动了机器语言理解和生成能力的边界，而问答是最有吸引力和最基本的语言应用之一，大型语言模型的发展也大大提高了它的水平，它的闭卷问答和与有监督模型相当的语境学习(In-context learning)表现，刷新了人们对其记忆知识潜力的理解。然而，大型语言模型的能力是有限的，当遇到需要足够罕见知识的挑战时，便无法满足我们的期望。因此，最近很多团队的努力都集中在构建以检索和网络搜索进行增强的语言模型上。这些模型利用外部知识完成超出以往想象的任务。例如，WebGPT可以浏览网页，以长格式回答复杂的人类问题，并相应地提供合理的参考。尽管WebGPT取得了成功，但它离真正的部署还很远。首先，它依赖于丰富的专家级浏览操作指示、写好的答案和答案偏好标签，这需要大量的费用、时间和人员培训。第二，它的行为克隆方法(即模仿学习)要求GPT-3(高达1750亿个参数)像人类专家一样与浏览器交互，生成操作命令(例如搜索、读取和引用)，然后从网络检索相关信息。这个浏览模式需要大量的计算资源，并且对于用户体验来说速度太慢。尽管答案质量很高，但构建一个高效的网络增强问答系统仍然是一个巨大的挑战。

相较于传统的问答任务(如SQuAD)假设给定问题已经提供了正确的参考，开放领域问答(Open-domain Question Answering)以开放世界为目标，更实用但更具挑战性。例如，Natural Questions数据集由来自谷歌搜索引擎的查询和来自维基百科段落的注释组成。Web Questions从知识库中生成许多开放领域问题。MS Marco收集段落文本及其对应问题的选择标签。然而，大多数开放式QA数据集和模型仅限于回答简短的答案短语，而人们通常更喜欢包含参考信息的长格式答案。一个可能的原因是，构建和评估具有开放世界参考的长格式问答数据集很困难，需要专家级注释。最近的一些尝试工作包括ELI5和WebGPT，前者收集来自Reddit的问题和长格式回答，后者雇佣了大量的专家进行标注，并利用高达1750亿的参数GPT-3作为骨干。

就检索技术而言，目前主流的方法包括基于稀疏向量的BM25和TF-IDF，以及最近的基于密集向量的方法，如DPR和Contriever。REALM引入的检索增强语言模型的思想主张检索器和语言模型的联合优化。代表的工作包括RAG、Fusion-in-Decoder和Atlas。WebGPT的概念也类似，因为它要求大型语言模型与浏览器交互以寻求相关信息以获得更好的准确性。然而，它可能会耗费大量的计算资源，而且对于实际部署来说太慢。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明提出一种面向人类偏好的高效网络检索增强回答方法，通过网络搜索与召回技术来增强预训练的语言模型，以实现真实场景下的应用部署，同时维持高系统效率与低部署成本。本发明开发了大模型增强检索器、自引导训练生成模型以及人类偏好感知评分器，以完成具有挑战性的任务。在此基础上，提出了网络增强问答系统评估的系统标准，并进行了广泛的多维度人类评估和定量消融研究，表明WebGLM设计优于现有系统。并且在具有高性能及效率和成本效益的基础上，在人类评估中的表现也优于类似大小的WebGPT(13B)，甚至与WebGPT相当(175B)。

本发明的另一个目的在于提出一种面向人类偏好的高效网络检索增强回答系统。

为达上述目的，本发明一方面提出一种面向人类偏好的高效网络检索增强回答方法，包括：

利用预设的网络搜索引擎获取网络网页中与问题对应的候选答案；

利用检索模型得到候选参考资料；

通过语言模型的语境学习生成基于所述候选参考资料的问答数据集，将所述问答数据集中语言模型对候选参考资料的采用信息作为标签训练检索模型，并通过所述问答数据集微调语言模型，以通过训练好的语言模型根据所述候选参考资料生成问题答案；

根据用户对所述问题答案的反馈数据建立人类偏好感知的评分器，以根据训练好的评分器得到所述问题答案的优化结果。

另外，根据本发明上述实施例的面向人类偏好的高效网络检索增强回答方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述利用预设的网络搜索引擎获取网络网页中与问题对应的候选答案，包括：

基于网络搜索引擎接口对问题的分析结果得到候选网页的网址列表；

根据所述网址列表和并行策略得到所述候选网页相应的网络页面内容；

利用换行符对提取的所述网络页面内容的文本内容进行划分得到段落列表。

进一步地，在本发明的一个实施例中，将所述问答数据集中语言模型对候选参考资料的采用信息作为标签训练检索模型，包括：

利用引用修正算法对所述语言模型的引用结果进行修正，并根据修正后的引用结果判断所述候选参考资料是否采用；

利用检索模型分别对问题和采用的候选参考文献进行编码，并根据编码结果计算所述问题和采用的候选参考文献的相关性得分；

将所述相关性得分的均方误差作为预测的损失函数和精度分数训练检索模型以得到训练好的检索模型。

进一步地，在本发明的一个实施例中，所述通过语言模型的语境学习生成基于所述候选参考资料的问答数据集，包括：

获取候选参考资料和问题的提示词；

基于所述提示词和语言模型的参数得到语境学习的指令；

基于所述语境学习的指令进行单样本学习以生成所述问答数据集。

进一步地，在本发明的一个实施例中，所述根据用户对所述问题答案的反馈数据建立人类偏好感知的评分器，包括：

获取所有问题答案和相应的用户点赞数量，以及所述用户点赞数量对应的有效问题答案和所述有效问题答案对应的有效问题；

比较所有问题答案的中值长度阈值和有效问题答案的长度阈值，根据长度比较结果得到所述有效问题的最终有效问题答案；

通过用户点赞数量对所述最终有效问题答案进行排序，根据排序结果选择所述用户点赞数量大于预设数量的答案作为正负样本对训练所述人类偏好感知的评分器。

为达上述目的，本发明另一方面提出一种面向人类偏好的高效网络检索增强回答系统，包括：

粗粒度搜索模块，用于利用预设的网络搜索引擎获取网络网页中与问题对应的候选答案；

细粒度检索模块，用于利用检索模型得到候选参考资料；

模型训练模块，用于通过语言模型的语境学习生成基于所述候选参考资料的问答数据集，将所述问答数据集中语言模型对候选参考资料的采用信息作为标签训练检索模型，并通过所述问答数据集微调语言模型，以通过训练好的语言模型根据所述候选参考资料生成问题答案；

评分器优化模块，用于根据用户对所述问题答案的反馈数据建立人类偏好感知的评分器，以根据训练好的评分器得到所述问题答案的优化结果。

本发明实施例的面向人类偏好的高效网络检索增强回答方法和系统，通过网络搜索与召回技术来增强预训练的语言模型，以实现真实场景下的应用部署，同时维持高系统效率与低部署成本，并且具有高性能及效率和成本效益。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明实施例的面向人类偏好的高效网络检索增强回答方法的流程图；

图2是根据本发明实施例的面向人类偏好的高效网络检索增强回答方法的框架图；

图3是根据本发明实施例的粗粒度的网络搜索和细粒度的语言模型提炼检索示意图；

图4是根据本发明实施例的高质量数据集的构建示意图；

图5是根据本发明实施例的数据集生成示例图；

图6是根据本发明实施例的面向人类偏好的高效网络检索增强回答系统的结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

下面参照附图描述根据本发明实施例提出的面向人类偏好的高效网络检索增强回答方法和系统。

本发明实现的网络检索增强问答系统是一项系统工程，需要跨领域协作，包括大型语言模型、检索增强技术和人类反馈的强化学习。本发明开发了WebGLM系统，一个基于GLM-10B的实用的网络检索增强问答系统——它高效、经济高效、可感知人类偏好，最重要的是，其质量与WebGPT相当。该系统采用多种新的策略和设计来实现，其流程框架如图2所示：

大模型增强检索器(LLM-augmented Retriever)：本发明实现包含粗粒度网络搜索和细粒度大模型提取检索的两级检索器。它受到这样一个事实的启发：像GPT-3这样的大型语言模型可以自然地学习采用正确的引用，这种能力可以被提取出来，以增强较小的密集检索器。

自引导训练生成模型(Bootstrap Generator)：本发明发现通过适当的基于引用的过滤，大型语言模型可以学习生成高质量的数据，而这些数据最初依赖于昂贵的人类专家写作。因此，本发明通过大型语言模型GPT-3做语境学习(In-context learning)和相应的清洗和修正方法生成了一个高质量的数据集WebGLM QA，这是一个有网络检索参考和长格式回答的问答数据集，包括过滤后45k个高质量样本和过滤前83k个含噪声但多样化的样本。WebGLM系统的主干就是在WebGLM QA数据集上训练的GLM-10B模型。

人类偏好感知评分器(Human Preference-aware Scorer)：通过在线问答论坛的用户点赞数据进行训练来学习人类对不同答案的偏好的评分器。与WebGPT由专家标注的高成本标签相比，本发明证明了适当的数据集构建也可以训练高质量的评分器，并可用来做高质量回答筛选。

图1是本发明实施例的面向人类偏好的高效网络检索增强回答方法的流程图。

如图1所示，该方法包括但不限于以下步骤：

S1，利用预设的网络搜索引擎获取网络网页中与问题对应的候选答案。

可以理解的是，在传统的开放域问答(Open-Domain QA)中，系统通常只从可靠的来源(如百科)进行检索，而不能从整个网络规模的知识中获益，原因是原生的网页很难提取有用的信息。在本发明中，本发明尝试通过两阶段检索来解决这个问题：粗粒度的网络搜索和细粒度的语言模型提炼检索，如图3所示。

在本发明的一个实施例中，在粗粒度的网络搜索中，利用第三方的网络搜索引擎来获取主要的候选网页的路由。在大多数情况下，这些页面可以涵盖必要的上下文和回答问题的知识，但同时也有非常多的无用信息。这个过程主要由三个步骤组成：搜索、取回、提取。

搜索步骤中，本发明将问题输入搜索引擎接口，并获得潜在相关页面(通常小于10个)的网址列表；

取回步骤中，根据上述的路由来获取相应的网页HTML内容。由于有许多候选页面，本发明通过并行策略来提高效率；

提取步骤中，本发明使用HTML2TEXT2，提取HTML页面中的部分文本内容，并根据换行符将它们划分为一个段落列表。

S2，利用检索模型得到候选参考资料。

可以理解的是，本步骤是细粒度的语言模型增强检索，如图3所示，在网络检索中，已经获取了一些对于问题可能有用的段落。然而，即使在广泛使用的密集检索器的过滤下，它们中的许多仍然是不相关的(在本发明的试验中，多达30％的上下文是不相关的)。作为一种解决方案，本发明利用大型语言模型的强大语言理解能力进行模仿学习，以实现针对问题的段落选择。

具体地，本发明探究了语言模型对于参考资料的采用行为。本发明发现大型语言模型可以很自然地区分参考文献的有用与否，并采用这些有用的参考文献进行回答。本发明创建了一个包含200个问题的数据集，其中每个问题都有与之对应的5条候选参考资料，这些参考资料是由Contriever打分后选出来的。本发明手动标注了每个参考资料的相关性，发现其中只有68.6％是有关的。而当本发明提供GPT-3对应的候选引用来进行回答时，本发明发现它只采用部分引用，相应的准确率为90.2％，远远高于Contriever。

进一步地，本发明将大型语言模型对有用参考资料的鉴别能力蒸馏到检索模型中。本发明利用数据集WebGLM-QA(见下面的数据构建方法)中GPT-3对参考资料的采用信息作为标签，反过来微调Contriever模型。由于GPT-3有时会生成错误的引用，本发明先使用引用修正算法，再判断采用与否。在微调过程中，本发明使用两个Contriever分别对问题和参考文献进行编码，并计算它们的内积作为相关性得分。本发明利用均方误差(MSE)作为预测的损失函数和Rouge-1精度分数来训练Contriever。如表1所示，本发明进一步的定量实验表明，蒸馏操作显著提高了Contriever网络增强的问答检索精度。

表1

S3，用于通过语言模型的语境学习生成基于候选参考资料的问答数据集，将问答数据集中语言模型对候选参考资料的采用信息作为标签训练检索模型，并通过问答数据集微调语言模型，以通过训练好的语言模型根据候选参考资料生成问题答案。

可以理解的是，想要构建通过网络检索增强的问答系统，需要克服一个主要障碍：构建含有较长文本且被答案被正确引用的高质量问答数据集的成本极高。与传统形式的问答系统相比，本发明期望该系统能够产生具有正确参考资料的、基于事实的答案。

大型语言模型的语境学习(In-Context Learning)，即基于少量样本作为上下文以生成答案的任务，最近已经得到了很好的证明和探索。因此，本发明利用OpenAI的接口、来自ELI5数据集的问题以及本发明的检索器搜集的参考资料，来生成大量引用的长格式回答。此外，由于生成的样本质量有时不佳，本发明设计了相应的校正和选择策略来过滤出一个高质量的子集以进行实际训练。最终，本发明创建了数据集WebGLM-QA，这是一个包含引用的、长文本形式的问答数据集，具有45k高质量过滤和83k未过滤样本。构建数据集的流程如图4所示。

具体地，本发明首先需要选取合适的提示词(Prompt)。由于本发明在语境学习中输入了许多内容，包括一些示例、问题和相应的参考文献，因此提示词的制定可能会对性能产生显著影响。本发明比较了几种类型的提示，包括问题及其参考文献之间的顺序，用于标记参考文献索引的符号，以及参考文献和问题的提示词。本发明用本发明提到的每种提示词进行实验，最终找到如图5中的(a)所示的方法表现最好。

进一步地，本发明自引导模型生成任务描述。本发明需要一个适当的指导(例如“请根据问题和参考文献写一个答案”)用于指导大型语言模型生成一个合格的答案。最近的工作表明，本发明可以利用大型语言模型本身来设计语境学习的指令，而不是人类的手工制作。本发明使用了几个高质量的例子来诱导一些可能的指令，如图5中的(b)，并根据本发明对几个实验的结果评估表现最好的一个。

进一步地，本发明通过语境学习生成大量数据。如图5中的(c)所示，本发明研究了生成长文本形式答案所需的最佳示例个数，由于参考部分通常占据了大量的序列长度，本发明注意到，在大多数时间内，单样本学习(One-Shot Learning)的答案质量可以超过多样本学习(Few-Shot Learning)。因此，本发明最终通过单样本学习生成数据集，该数据集共计8万余条数据。

本发明通过GPT-3语境学习生成了大量答案，但是本发明发现部分答案引用错误或不存在的参考资料编号。因此，校正编号是保证高质量必不可少的一个环节。本发明根据引文与参考文献的相似性对引文编号进行修正，通过生成答案的引文编号将一个答案分成几个片段，然后与参考文献进行匹配。对于问题，本发明检索到的参考文献被定义为R，本发明的答案可以被定义。本发明可以定义文本片段，对于每一对，本发明计算引文匹配分数。本发明选择一个阈值，每个片段的最终引文可以被描述。本发明最终选择Rouge-1分数作为函数f，并选用0.57作为阈值T。

经过校正后，本发明进一步研究了更多可能会影响数据集质量的问题。如果生成的样本出现以下问题，本发明就不采用：1)回答利用大型语言模型的内部知识而不是基于参考资料。这样的回答不是基于事实的，甚至有时是严重错误的。它可以通过所有参考文献和答案之间的低重叠比率来识别。2)当一个答案引用所提供的参考文献太少时，它通常呈现出较差的参考文献相关性，因此往往缺乏足够的信息和事实根据。3)如果一个答案有太多错误的引文编号，本发明假设它是一个低质量的答案。

在这种筛选策略下，最终本发明得到了约4.5万条高质量数据，以下是采样人工评测的结果，如表2所示。

表2

S4，根据用户对问题答案的反馈数据建立人类偏好感知的评分器，以根据训练好的评分器得到问题答案的优化结果。

可以理解的是，在初步测试中，本发明采用前述策略生成的数据集训练模型，其生成答案在大多数情况下已经表现得令人满意。然而，最近的研究表明，使用人类对大型语言模型生成信息的反馈(偏好与否)，对于高质量文本生成至关重要。WebGPT招募了许多专家对生成的答案进行比较和排序，并利用反馈来训练奖励模型(Reward Model)，以从n个候选项中选择最佳的一条回答，并通过强化学习(Reinforcement Learning)额外优化模型。

然而，这样的专家注释成本高昂，而且强化学习将消耗大量的计算资源。在这项工作中，作为一个竞争性的替代品，本发明使用基于在线问答论坛的大量用户反馈(例如点赞数)来建立一个人类偏好感知的评分器。在适当的设计和数据清理下，本发明在实验中表明，这样的评分器也显著提高了答案的水平和在真实的人类评估中的评分。

具体地，本发明首先从在线问答论坛中收集问答对和相应的用户点赞。尽管这些答案具有多样性，但它们的长度和质量差异极大，如果没有适当的预处理，评分器在训练过程中也许会出现偏差。

在本发明的一个实施例中，预处理过程包含以下步骤：1)高质量反馈：本发明将具有3个以上点赞的答案定义为有效答案。本发明选择有8个或更多有效答案的问题作为合格的问题。2)长度偏差：本发明在初步研究中注意到，往往更长的答案具有更高的得分，而不是更好的答案。为了减轻偏差，对于每个合格的问题，本发明使用所有答案的中值长度作为阈值来截断较长的答案，并丢弃长度小于一定长度的答案。3)对比增强：通过点赞对答案进行排序后，相邻答案之间的差距较小，在这种无信息的数据集上训练的打分器表现得很差。为了增加对比训练的答案之间的样本的差距，本发明在排名位置上选择了超过5的答案作为正负样本对。

在本发明的预处理之后，共有约9.3万个问题和24.9万个正负样本对，其中23万对作为训练集，1.9万对作为测试集。本发明训练评分器的主干模型是一个有60亿个参数的GLM。

本发明使用WebGPT在其官方网页上显示的272个问题进行主要评估—因为WebGPT并不公开，而且被选择的问题通常很复杂，而且更接近真实的人类问题。

本发明招募了15名硕士学位专家进行评估。对于每个问题，本发明将来自不同模型的所有搜索结果和答案聚合到一个表中，使注释者能够有效地比较它们，并统一注释标准。本发明通过人工评估来评估本发明的模型和其他不同模型的性能。本发明还从不同的角度对结果进行了比较和分析，主要结果如表3所示。

表3

除此之外，本发明展开了图灵测试。本发明从WebGPT在其官方网页上显示的272个问题中随机抽取了200条。对于每个问题，本发明打乱WebGLM、WebGPT-175B、WebGPT-13B和perplexity.ai生成的答案，并为了公平，删除了回答中的引用标记。接下来，本发明将人类写的答案混合到这些答案中，并要求评估者根据答案的质量对答案进行排序，如正确性、信息性和真实性。实验结果如表4所示。

表4

根据本发明实施例的面向人类偏好的高效网络检索增强回答方法，通过网络搜索与召回技术来增强预训练的语言模型，以实现真实场景下的应用部署，同时维持高系统效率与低部署成本。同时开发了大模型增强检索器、自引导训练生成模型以及人类偏好感知评分器，以完成具有挑战性的任务。并且提出了网络增强问答系统评估的系统标准，并进行了广泛的多维度人类评估和定量消融研究，表明WebGLM设计优于现有系统。

为了实现上述实施例，如图6所示，本实施例中还提供了面向人类偏好的高效网络检索增强回答系统10，该装置10包括，粗粒度搜索模块100、细粒度检索模块200、模型训练模块300和评分器优化模块400。

粗粒度搜索模块100，用于利用预设的网络搜索引擎获取网络网页中与问题对应的候选答案；

细粒度检索模块200，用于利用检索模型得到候选参考资料；

模型训练模块300，用于通过语言模型的语境学习生成基于候选参考资料的问答数据集，将问答数据集中语言模型对候选参考资料的采用信息作为标签训练检索模型，并通过问答数据集微调语言模型，以通过训练好的语言模型根据候选参考资料生成问题答案；

评分器优化模块400，用于根据用户对问题答案的反馈数据建立人类偏好感知的评分器，以根据训练好的评分器得到问题答案的优化结果。

进一步地，上述粗粒度搜索模块100，还用于：

根据网址列表和并行策略得到候选网页相应的网络页面内容；

利用换行符对提取的网络页面内容的文本内容进行划分得到段落列表。

进一步地，上述模型训练模块300，还用于：

利用引用修正算法对语言模型的引用结果进行修正，并根据修正后的引用结果判断候选参考资料是否采用；

利用检索模型分别对问题和采用的候选参考文献进行编码，并根据编码结果计算问题和采用的候选参考文献的相关性得分；

将相关性得分的均方误差作为预测的损失函数和精度分数训练检索模型以得到训练好的检索模型。

进一步地，上述模型训练模块300，还用于：

获取候选参考资料和问题的提示词；

基于提示词和语言模型的参数得到语境学习的指令；

基于语境学习的指令进行单样本学习以生成问答数据集。

进一步地，上述评分器优化模块400，还用于：

获取所有问题答案和相应的用户点赞数量，以及用户点赞数量对应的有效问题答案和有效问题答案对应的有效问题；

比较所有问题答案的中值长度阈值和有效问题答案的长度阈值，根据长度比较结果得到有效问题的最终有效问题答案；

通过用户点赞数量对最终有效问题答案进行排序，根据排序结果选择用户点赞数量大于预设数量的答案作为正负样本对训练人类偏好感知的评分器。

根据本发明实施例的面向人类偏好的高效网络检索增强回答系统，通过网络搜索与召回技术来增强预训练的语言模型，以实现真实场景下的应用部署，同时维持高系统效率与低部署成本。同时开发了大模型增强检索器、自引导训练生成模型以及人类偏好感知评分器，以完成具有挑战性的任务。并且提出了网络增强问答系统评估的系统标准，并进行了广泛的多维度人类评估和定量消融研究，表明WebGLM设计优于现有系统。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

Claims

1.一种面向人类偏好的高效网络检索增强回答方法，其特征在于，包括以下步骤：

利用检索模型得到候选参考资料；

2.根据权利要求1所述的方法，其特征在于，所述利用预设的网络搜索引擎获取网络网页中与问题对应的候选答案，包括：

3.根据权利要求1所述的方法，其特征在于，将所述问答数据集中语言模型对候选参考资料的采用信息作为标签训练检索模型，包括：

4.根据权利要求1所述的方法，其特征在于，所述通过语言模型的语境学习生成基于所述候选参考资料的问答数据集，包括：

获取候选参考资料和问题的提示词；

基于所述提示词和语言模型的参数得到语境学习的指令；

5.根据权利要求1所述的方法，其特征在于，所述根据用户对所述问题答案的反馈数据建立人类偏好感知的评分器，包括：

6.一种面向人类偏好的高效网络检索增强回答系统，其特征在于，包括：

细粒度检索模块，用于利用检索模型得到候选参考资料；

7.根据权利要求6所述的系统，其特征在于，所述粗粒度搜索模块，还用于：

8.根据权利要求6所述的系统，其特征在于，所述模型训练模块，还用于：

9.根据权利要求6所述的系统，其特征在于，所述模型训练模块，还用于：

获取候选参考资料和问题的提示词；

基于所述提示词和语言模型的参数得到语境学习的指令；

10.根据权利要求6所述的系统，其特征在于，所述评分器优化模块，还用于：