CN115146050B

CN115146050B - 一种文本生成方法、装置、设备及可读存储介质

Info

Publication number: CN115146050B
Application number: CN202211076116.4A
Authority: CN
Inventors: 申冲; 李峰
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-09-05
Filing date: 2022-09-05
Publication date: 2023-01-24
Anticipated expiration: 2042-09-05
Also published as: WO2024051115A1; CN115146050A

Abstract

本申请公开了一种文本生成方法、装置、设备及可读存储介质，该方法包括：获取新问题，并获取与新问题相关的历史问答对；将新问题与历史问答对组成问答组；利用问答组，生成提示语；利用训练好的问答模型，对提示语进行推理，得到新问题的答案。相对于传统的管道式对话系统，在本申请中取消了问答知识库的检索、状态管理等环节，可以避免管道型对话系统的误差累计、鲁棒性较差的缺点。使用训练好的问答模型，可以避免现有seq2seq对话策略的可移植性较差的缺点。基于当前新问题与历史问答对来构建提示语，可充分考虑对话的上下文相关性，使得问答系统具有记忆能力。

Description

一种文本生成方法、装置、设备及可读存储介质

技术领域

本申请涉及自然语言处理技术领域，特别是涉及一种文本生成方法、装置、设备及可读存储介质。

背景技术

在NLP领域，随着大模型预训练数据的不断增加，模型参数量不断提升，模型的能力也越来越强大，基本上具备了从简单的文本问答、文本创作甚至数学推理等能力。其中，管道型对话策略和基于seq2seq（端到端）的多轮对话策略可实现多轮对话。

其中，管道型对话系统，由于内部各个模块相互独立模块，任意模块的误差都会随着pipeline（管道）的进行导致错误累加。另外，其对话效果往往依赖于数据库规模的大小、检索方法的准确性、答案生成策略的丰富程度等，存在鲁棒性较差的缺点。

基于seq2seq的多轮对话策略，其性能主要依赖神经网络的在领域数据集上的训练过程，因此训练样本和模型本身会限制整个对话系统的性能。另外，由于模型的通用知识表达能力较弱，导致整个对话系统的可移植性较差。

综上所述，如何有效地解决多轮对话等问题，是目前本领域技术人员急需解决的技术问题。

发明内容

本申请的目的是提供一种文本生成方法、装置、设备及可读存储介质，在保障鲁棒性和可移植性的情况下，可使得多轮对话的答案更加准确。

为解决上述技术问题，本申请提供如下技术方案：

一种对话答案生成方法，包括：

获取新问题，并获取与所述新问题相关的历史问答对；

将所述新问题与所述历史问答对组成问答组；

利用所述问答组，生成提示语；

利用训练好的问答模型，对所述提示语进行推理，得到所述新问题的答案。

优选地，所述获取与所述新问题相关的历史问答对，包括：

在问答日志库中查找出与所述新问题同一用户ID的问答对；

比对所述问题与各个所述问答对，得到各个所述问答对分别对应的相关性得分；

利用所述相关性得分，从所述问答对中筛选出所述历史问答对。

优选地，所述比对所述问题与各个所述问答对，得到各个所述问答对分别对应的相关性得分，包括：

对各个所述问答对进行时序平滑处理，得到各个所述问答对的时间惩罚项；

利用各个所述时间惩罚项，并按照时间衰减映射关系调整各个所述问答对的相关性得分。

优选地，所述利用各个所述时间惩罚项，并按照时间衰减映射关系调整各个所述问答对的相关性得分，包括：

分别将同一问答对的时间惩罚项和所述相关性得分输入至所述时间衰减映射关系对应的时间衰减函数中，对所述相关性得分进行调整；所述时间惩罚项包括：时间影响权重、当前对话轮次、最大对话轮次、时间惩罚系数；所述时间惩罚系数与入库时间成正比。

优选地，利用所述问答组，生成提示语，包括：

按照所述相关性得分对所述问答组中的各个问答对进行排序；

按照预设提示语模板，生成所述问答组的提示语。

优选地，在所述获取新问题之前，还包括：

获取背景知识，并将所述背景知识输入至所述问答模型。

优选地，在所述利用训练好的问答模型，对所述提示语进行推理，得到所述新问题的答案之后，还包括：

将所述答案反馈给提交所述新问题的客户端。

优选地，在将所述答案反馈给提交所述新问题的客户端之后，还包括：

接收所述客户端反馈的评分；

若所述评分大于阈值，则将所述新问题与所述答案构建为目标问答对，并保存所述目标问答对。

优选地，所述保存所述目标问答对，包括：

在问答日志库中，保存所述目标问答对的用户ID、对话轮次、所述新问题和所述答案。

优选地，所述利用训练好的问答模型，对所述提示语进行推理，得到所述新问题的答案，包括：

利用所述问答模型，对所述提示语进行推理，得到生成文本序列；

利用第一解码协议和第二解码协议对所述生成文本序列进行混合解码，得到所述答案。

优选地，所述利用第一解码协议和第二解码协议对所述生成文本序列进行混合解码，得到所述答案，包括：

对所述生成文本序列进行采样，得到采样单词；

利用所述第一解码协议对所述采样单词进行解码，利用所述第二解码协议对所述生成文本序列中的非采样单词进行解码，得到所述答案。

优选地，利用所述第一解码协议对所述采样单词进行解码，利用所述第二解码协议对所述生成文本序列中的非采样单词进行解码，得到所述答案，包括：

利用top-p解码协议对所述采样单词进行解码，利用beam-search解码协议对所述非采样单词进行解码，得到所述答案；所述采样单词的数量少于所述非采样单词的数量。

一种文本生成装置，包括：

内容获取模块，用于获取新问题，并获取与所述新问题相关的历史问答对；

问答组组建模块，用于将所述新问题与所述历史问答对组成问答组；

提示语生成模块，用于利用所述问答组，生成提示语；

答案推理模块，用于利用训练好的问答模型，对所述提示语进行推理，得到所述新问题的答案。

一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述文本生成方法的步骤。

一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述文本生成方法的步骤。

应用本申请实施例所提供的方法，获取新问题，并获取与新问题相关的历史问答对；将新问题与历史问答对组成问答组；利用问答组，生成提示语；利用训练好的问答模型，对提示语进行推理，得到新问题的答案。

在本申请中，当获取到新问题之后，可通过获取与该新问题相关的历史问答对，从而组成问答组，基于该问答组生成提示语。然后，利用训练好的问答模型，对提示语进行推理，可以得到新问题的答案。相对于传统的管道式对话系统，在本申请中取消了问答知识库的检索、状态管理等环节，可以避免管道型对话系统的误差累计、鲁棒性较差的缺点。使用训练好的问答模型，可以避免现有seq2seq对话策略的可移植性较差的缺点。基于当前新问题与历史问答对来构建提示语，可充分考虑对话的上下文相关性，使得问答系统具有记忆能力。

相应地，本申请实施例还提供了与上述文本生成方法相对应的文本生成装置、设备和可读存储介质，具有上述技术效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中一种文本生成方法的实施流程图；

图2为一种管道式对话系统架构图；

图3为本申请实施例中一种基于日志的多轮对话系统架构图；

图4为本申请实施例中一种文本生成装置的结构示意图；

图5为本申请实施例中一种电子设备的结构示意图；

图6为本申请实施例中一种电子设备的具体结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为便于理解本申请实施例所提供的技术方案，下面对涉及的技术用语，相关技术及其缺陷进行解释说明：

AI：Artificial Intelligence，人工智能；

NLP：自然语言处理；

Transformer：nlp领域的一种神经网络结构，由编码器和解码器组成；

pretrain：使用海量数据训练大模型，不针对具体领域，使得模型学习泛化知识；

finetune：微调，对于预训练好的模型，在下游任务上进行参数微调，以更加适配下游任务；

ASR：语音识别，automatic speech recognition；

NLU：语言理解，natural language under standing；

DM：对话管理，dialogue manager；

NLG：语言生成，naturallanguage generation；

TTS：语音合成，text to speech；

TF-IDF：Term frequency–Inverse document frequency，考虑词频、逆文档词频的一种相关性计算方法；

BM25：Best Match，添加了长度惩罚项的相关性得分计算方法；

Annoy：Approximate Nearest Neighbors Oh Yeah，一种基于树结构的高维向量检索方式；

FAISS：Facebook AI 研究团队开源的针对聚类和相似性搜索库；

RNN：循环神经网络，Recurrent Neural Network；

自从Transformer网络提出后，AI大模型开始蓬勃发展起来。特别的，在NLP领域，随着大模型预训练数据的不断增加，模型参数量不断提升，模型的能力也越来越强大，基本上具备了从简单的文本问答、文本创作甚至数学推理等能力。

很长一段时间，NLP领域一直在使用pretrain+finetune范式。首先，NLP大模型需要在大规模数据集上训练完成。在具体的下游任务上，再使用下游数据集来微调模型参数，以适应于不同的下游任务。但是，由于大模型本身在预训练过程中，阅读了大量文本知识，实实在在的“见多识广”，因此在某些下游任务上，通过重新形式化（Reformulate）下游任务，使其看起来更像是大模型在预训练阶段见过的文本，便可得到期望的输出。

多轮对话策略，可分为任务型对话和非任务型对话两类。现有的对话系统设计基本上会将这2类对话系统融合起来进行考虑。

任务型对话通过多轮交互的方式来帮助用户完成一项或多项特定任务，如订购电影票、火车票查询等。非任务型对话系统则没有明确的任务列表，可以是闲聊或者某一领域的问答。

从技术实现看，对话策略的设计，主要可分为基于检索式和基于生成式（端到端/seq2seq）2类对话架构。其中，管道式架构是一种最为常见的基于检索的对话系统。无论的任务型对话还是非任务型对话，大多使用管道式（pipeline）架构，如图2所示，包含语音识别(ASR)、自然语言理解(NLU)、对话管理(DM) 、语言生成(NLG)、语音合成(TTS)等组件。

语言理解，也就是意图识别，主要是为了理解用户输入的真正意图。根据用户输入，从给定知识库/问答库中，检索出最相关的意图。通过倒排索引检索出相关项，然后使用TF-IDF或者BM25等进行相关性排序。

对话管理，主要包括对话状态管理和对话策略2部分。除了获得用户意图之外，还需要从用户输入中解析出上下文状态，并根据状态决定采用何种对话模板。

语言生成，根据用户意图、对话状态，最终生成相应的答案并输出。

与管道式架构不同，基于端到端（seq2seq）的多轮对话策略，则是完全利用神经网络来进行答案生成。这种方法依赖于现有的预训练语言模型（早期多使用rnn网络），通过构建某一领域的对话数据集，来进行微调训练。中间所有的操作都包含在神经网络内部，不再分成多个独立模块分别处理。

也就是说，管道型对话系统，其将对话系统中的各个环节分别作为一个独立模块考虑，具有理论简单，易于实现的优点。但是由于内部各个模块相互独立模块，任意模块的误差都会随着pipeline的进行导致错误累加。另外，这类对话架构，由于有明确的问答/对话数据库，且答案多基于规则生成，所以系统相对稳定。但是其对话效果往往依赖于数据库规模的大小、检索方法的准确性、答案生成策略的丰富程度等，存在鲁棒性较差的缺点。

基于seq2seq的多轮对话策略，其性能主要依赖神经网络的在领域数据集上的训练过程。因此，领域内数据集的准确性、完备性，模型的知识表示和生成能力，都会限制整个对话系统的性能。另外，由于模型的通用知识表达能力较弱，导致整个对话系统的可移植性较差。当进行其他领域迁移时，则需要重新构建领域数据集，进行微调训练，重新走一遍流程会造成较大的人力、资源浪费。

针对上述问题，本申请提出了一种文本生成方法，可以在保障鲁棒性和可移植性的情况下，可使得多轮对话的答案更加准确。具体的，请参考图1，图1为本申请实施例中一种文本生成方法的流程图，该方法包括以下步骤：

S101、获取新问题，并获取与新问题相关的历史问答对。

需要注意的是，这里所指的新问题是指新接收或新获取到的问题，而并非是指从未出现过的问题。

具体的，用户可以在客户端进行问题输入，得到新问题之后，可以在本地进行处理，也可以将该新问题递交到服务器，让服务器进行处理。也就是说，可以是本地计算机获取该新问题，也可以为服务器通过接收客户端上传的方式获取该新问题。

获取到新问题之后，可以获取该新问题相关的历史问答对。具体的，相关可具体至该新问题与历史问答对同属于一个知识领域，也可以具体值均属于同一个用户ID发起的。

历史问答对可以存放在问答日志库中，通过检索或查询等方式可获取到该新问题相关的历史问答对。

相关度检索即在系统接收到用户query（新问题）时，需要从问答日志库中检索出最相关的问答对（多轮问答对）。

优选地，由于如倒排索引、tf-idf、bm25等检索方法无法处理同义、多义等情况，不具备泛化能力，因此本实施例中可使用基于向量的检索方法。具体的，在录入到问答日志库的每个问答对之前，将问答对拼接起来（也可按照某一模板进行拼接，如“问：###；答：####”），输入到Encoder进行向量编码。Encoder可以使用Bert模型，也可使用其他神经网络结构。如此，问答日志库中每条问答记录便可以用一个向量来表征。

当系统接收到用户query时，使用相同的Encoder（编码器）进行向量编码，然后从该用户id下所有的问答对中检索出最相关的N组问答对。高维向量的检索方法，可以使用Annoy、Faiss等成熟的库。N>=1,可进行配置。

在筛选得到相关性较高的问答对之后，会将该问答对前后M（M为系统配置项）对问答共同组成新的问答组，以避免上下文状态/信息的丢失。如果新问答组之间出现对话轮数的重叠，则将重叠问答组进行合并。

S102、将新问题与历史问答对组成问答组。

在获取到新问题与历史问答对之后，可将这二者组建成问答组。其中，历史问答对的数量可以根据实际需求进行设置和调整，在此不再一一赘述。

S103、利用问答组，生成提示语。

这里的提示语即prompt。具体的，可按照问答模型的标准模板，基于问答组，生成该提示语。

S104、利用训练好的问答模型，对提示语进行推理，得到新问题的答案。

在本实施例中，可以预先利用海量语料训练自回归语言模型，从而得到训练好的问答模型。该问答模型即具有海量的知识表达和文本生成能力。在本实施例中对于该问答模型本身的架构以及训练该问答模型的样本，训练过程等均不做限定。

在生成了提示语之后，便可利用训练好的问答模型，对该提示语进行推理，从而得到该新问题的答案。得到该答案后可以直接进行可视化的输出，也可传递给目标问题的发起方。当然，也可直接将答案保存下来。

在本申请中的一种具体实施方式中，若新问题是客户端提交的，则在执行步骤S104在利用训练好的问答模型，对提示语进行推理，得到新问题的答案之后，可将答案反馈给提交新问题的客户端。如此，客户端便可接收到该答案，并展示给用户。

进一步地，在将答案反馈给提交新问题的客户端之后，还可执行以下步骤：

步骤一、接收客户端反馈的评分；

步骤二、若评分大于阈值，则将新问题与答案构建为目标问答对，并保存目标问答对。

为便于描述，下面将上述两个步骤结合起来进行说明。

将答案反馈给对应的客户端之后，客户端可向用户展示该答案并接收用户评分。客户端将该评分反馈给服务端。服务端接收到评分之后，可以将该评分与阈值进行比对，若评分大于阈值，便可确定该答案被客户接受。此时，可将新问题与答案构建为目标问答对，并进行保存。当然，在实际应用中，还可对该新问题和答案进行筛选之后，在进行保存。例如，得到答案之后，可首先进行筛选，去除含有敏感信息、客户不满意等质量较差的问答对，然后才可录入到问答日志库中。

具体的，在保存目标问答对时，进而具体包括：在问答日志库中，保存目标问答对的用户ID、对话轮次、新问题和答案。

举例说明：整个问答系统的输入和输出（即问答对）都需要保存到问答日志库中，保存示例如下表所示，包括contact_id（用户ID）、dialog-turns（对话轮次）、query、answer四部分。该问答库中上述4个字段是必要的，但并非只含有这四个字段，还可根据需求加入其他字段，如日期等。

其中，contaict_id，保存着用户id，参与对话的每个用户id具有唯一性。

dialog-turns，保存着问答对产生的轮数，是可配置，如只保存100轮问答日志。越是新生成的对话，其dialog-turns值越大。当某一contact_id的问答日志超过设定值时，则自动清除dialog-turns值最小的问答对。

query，保存着客户的问题。

answer，保存着系统自动产生的答案。

在系统可配置最大保存轮数，如只保存100轮。也就是说，系统与同一用户的问答日志只保存100轮，当超过100轮时，数据库自动弹出该用户id下最先保存那轮对话，然后存入最新产生的对话日志。

需要说明的是，基于上述实施例，本申请实施例还提供了相应的改进方案。在优选/改进实施例中涉及与上述实施例中相同步骤或相应步骤之间可相互参考，相应的有益效果也可相互参照，在本文的优选/改进实施例中不再一一赘述。

在本申请中的一种具体实施方式中，上述步骤S101中的获取与新问题相关的历史问答对，包括：

步骤一、在问答日志库中查找出与新问题同一用户ID的问答对；

步骤二、比对问题与各个问答对，得到各个问答对分别对应的相关性得分；

步骤三、利用相关性得分，从问答对中筛选出历史问答对。

为便于描述，下面将上述三个步骤结合起来进行说明。

在实际应用中，可在产生答案后，将将答案和问题等信息存入到问答日志库中，当获取到新问题后，可直接从问答日志库中查找出与新问题同一用户ID的问答对。然后，通过比对问题与各个问答对，得到每一个问答对于该新问题的相关性得分，然后再基于相关性得分，从问答对中筛选出相关性比较强的历史问答对。

当然，在实际应用中，若新问题并非本次问答的首个问题，即新问题之前已有若干问题，此时可直接将本次问答对应的若干问答对当作相关性比较强的历史问答对。

进一步地，考虑到在实际应用中，最近最新的问答与当前的新问题的相关性更强，且参考价值更高。因此，上述步骤三比对问题与各个问答对，得到各个问答对分别对应的相关性得分，可具体包括：

步骤1、对各个问答对进行时序平滑处理，得到各个问答对的时间惩罚项。

其中，时间惩罚项即基于时间对相关性得分进行惩罚性调整的项目。时间惩罚项，即与时间相关的参数，如问答的轮次，问答的时间等。

步骤2、利用各个时间惩罚项，并按照时间衰减映射关系调整各个问答对的相关性得分。

时间衰减映射关系可以根据实际需求进行设置。具体的，核心思想即时间越久远，将相关性得分降低更多；或，时间越近期，将相关性得分提高更多。

具体的，步骤2利用各个时间惩罚项，并按照时间衰减映射关系调整各个问答对的相关性得分，包括：分别将同一问答对的时间惩罚项和相关性得分输入至时间衰减映射关系对应的时间衰减函数中，对相关性得分进行调整；时间惩罚项包括：时间影响权重、当前对话轮次、最大对话轮次、时间惩罚系数；时间惩罚系数与入库时间成正比。

举例说明：时序平滑，主要是对上一步检索出的N组最相关问答对，添加时间衰减的影响。由于问答对产生的时间不一样，越新的问答对，其应该有更高的权重。因此，时间衰减函数可为：

其中，

为添加了时间惩罚项后得到的相关性得分，其中i表示第i组问答对；

为上一步通过向量检索得到的第i组问答对的相关性得分；γ是人为定义的（0，1]之间的常数，取1表示不受时间影响。n是保留的历史对话轮次，如第10轮，先入栈的问答对，该值越小，时间衰减越大。T是对话日志库中保存的最大历史对话轮数，如100轮。k为大于1的正整数，是时间惩罚系数，该值越大，最先入库的问答对得分越低。

特殊的，最新产生的M轮问答对，可不进行时间惩罚操作，直接进入下一步。

相应于基于相关性得分来获取历史问答对的策略，在本申请中的一种具体实施方式中，步骤S103利用问答组，生成提示语，包括：

步骤一、按照相关性得分对问答组中的各个问答对进行排序；

步骤二、按照预设提示语模板，生成问答组的提示语。

也就是说，在基于相关性得分筛选出历史问答对，并对应构建出问答组之后，可以基于相关性得分对问答组内的各个问答对进行排序。然后，再按照预先设置好的提示语模板，生成问答组对应的题示语。

具体的，可将经过相关性检索比对、添加时间惩罚之后得到的N组问答对，按照相关性得分进行排序，然后按照事先设置好的模板构建prompt提示语。举例说明：假设用户发出询问，“那她今年有多大了你知道吗”，假设prompt模板为：“问：###答：### <n>”，其中<n>表示换行符，则从问答日志库中最终筛选出的问答对和最新产生的问答对拼接后，如下所示：

问：听过《分手快乐》这首歌曲吗；

答：听过呀，由xxx作曲的一首歌，超级好听。

问：确实很好听，对了，此曲导演是谁你知道吗；

答：知道，是yyy。

问：哦，没有听说过呀，我只知道此曲原唱zzz。

答：她应该没人不知道，获得过两届全球华语榜中榜最佳女歌手奖。

则可组建prompt输入为：问：听过《分手快乐》这首歌曲吗；答：听过呀，由xxx作曲的一首歌，超级好听。<n>问：确实很好听，对了，此曲导演是谁你知道吗；答：知道，是yyy。<n>问：哦，没有听说过呀，我只知道此曲原唱zzz。答：她应该没人不知道，获得过两届全球华语榜中榜最佳女歌手奖。<n>问：那她今年有多大了你知道吗；

将上述prompt输入到模型中，经过推理、解码之后，便可产生答案。

在本申请中的一种具体实施方式中，在获取新问题之前，还包括：获取背景知识，并将背景知识输入至问答模型。即，为提高对话系统问答质量，可以添加一段背景知识，如：

zzz|主要成就|两届全球华语榜中榜最佳女歌手

分手快乐|MV导演|yyy

分手快乐|歌曲原唱|zzz

zzz|出生日期|1978年06月16日

分手快乐|谱曲|xxx

其中，“xxx”、“yyy”和“zzz”指代具体姓名。

其中，背景知识可根据用户信息自行配置，也可从对话日志中自行抽取。

在本申请中的一种具体实施方式中，步骤S104利用训练好的问答模型，对提示语进行推理，得到新问题的答案，包括：

步骤一、利用问答模型，对提示语进行推理，得到生成文本序列；

步骤二、利用第一解码协议和第二解码协议对生成文本序列进行混合解码，得到答案。

为便于描述，下面将上述两个步骤结合起来进行说明。

其中，第一解码协议和第二解码协议中的第一和第二仅用于区别存在两种解码协议，而并非对二者进行先后，主次等限定。

即，基于问答模型对提示语进行推理，可以得到生成文本序列，再进行解码时，在本实施例中采用混合解码方式，对生成文本序列进行解码，从而得到答案。如此，便可兼顾两种解码协议各种的优点，使得最终得到答案更加灵活准确。

具体的，上述步骤二利用第一解码协议和第二解码协议对生成文本序列进行混合解码，得到答案，包括：

步骤1、对生成文本序列进行采样，得到采样单词；

步骤2、利用第一解码协议对采样单词进行解码，利用第二解码协议对生成文本序列中的非采样单词进行解码，得到答案。

也就是说，对生成文本序列进行混合解码时，可以通过采样的方式，将生成文本序列中的单词划分为采样单词和非采样单词。如此，便可利用第一解码协议对采样单词进行解码，利用第二解码协议对非采样单词进行解码，最终得到混合解码的答案。在实际应用中，采样可以使得单词均分分为两份（一份为采样单词，一份为非采样单词），也可以将单词分为不均匀的两份。采样单词在生成文本序列中可以连续也可以不连续。

在实际应用中，第一解码协议可以为top-p解码协议，第二解码协议可以为beam-search解码协议。如此，上述步骤2利用第一解码协议对采样单词进行解码，利用第二解码协议对生成文本序列中的非采样单词进行解码，得到答案，具体包括：利用top-p解码协议对采样单词进行解码，利用beam-search解码协议对非采样单词进行解码，得到答案；采样单词的数量少于非采样单词的数量。

由于beam-search解码是一种局部最优解码策略，其解码出的文本序列往往更加倾向于模型见过的原文，更倾向于标准答案，更适用于有确定性答案的问答场景；而top-p解码则是在每个时间步，按照概率从核心token（累计概率大于等于设定值，即认为是核心token）中进行采样，其生成的文本往往更具多样性。

为平衡一致性和多样性，在本实施例中使用混合解码策略，将top-p解码嵌入到beam-search解码中。整个解码过程，大部分使用beam-seach解码，但是某一时间步，按照top-p来进行采样。采用top-p采样的时间步，可以通过规则来设置（如前k个token的生成使用top-p解码，保证生成序列开头的多样性，后续token使用beam-search解码，保证后续token生成的一致性），也可设置概率阈值来决定。

为便于本领域技术人员更好地理解和实施上述文本生成方法，下面结合具体应用场景为例对文本生成方法进行详细说明。

请参考图3，图3为本申请实施例中一种基于日志的多轮对话系统架构图。

可利用在海量语料上训练的自回归语言模型，基于其海量的知识表达和文本生成能力，提出一种基于日志的多轮对话策略，即文本生成方法。在具体实施时，首先将对话日志按照顺序记录到问答库中，对于新的query，从问答日志中检索出相关性最高的几组对话，并按照对话先后顺序进行时间平滑处理；然后将背景知识和对话日志对组建成prompt提示，输入到大模型中，经过混合解码策略，得到最终答案。

其主要步骤包括：

步骤1、问答日志库自动化构建。即，整个问答系统的输入和输出（问答对）都需要保存到问答日志库中。

步骤2、相关度检索比对。即，在系统接收到用户query时，需要从问答日志库中检索出最相关的问答对。

在录入到问答日志库的每个问答对之前，将问答对拼接起来，输入到Encoder进行向量编码。当系统接收到用户query时，使用相同的Encoder进行向量编码，然后从该用户id下所有的问答对中检索出最相关的N组问答对。

步骤3、时序平滑。即主要是对上一步检索出的N组最相关问答对，添加时间衰减的影响。由于问答对产生的时间不一样，越新的问答对，其应该有更高的权重。

步骤4、prompt构建。即，将经过相关性检索比对、添加时间惩罚之后得到的N组问答对，按照相关性得分进行排序，然后按照事先设置好的模板构建prompt提示语。

特别地，对于特定的用户，为提高对话系统问答质量，可以添加一段背景知识。其中，背景知识可根据用户信息自行配置，也可从对话日志中自行抽取。

步骤5、模型推理与解码，即在构建好prompt输入之后，便可输入到大模型中进行推理。

为平衡生成文本序列的一致性和多样性，本发明使用混合解码策略，将top-p解码嵌入到beam-search解码中。整个解码过程使用beam-seach解码，但是某一时间步，可按照top-p来进行采样。采用top-p采样的时间步，可以通过规则来设置（如前k个token的生成使用top-p解码，保证生成序列开头的多样性，后续token使用beam-search解码，保证后续token生成的一致性），也可设置概率阈值来决定。

由此可见，应用本申请实施例所提供的文本生成方法，首先将对话日志按照顺序记录到问答库中，对于新的query，从问答日志中检索出相关性最高的几组对话，并按照对话先后顺序进行时间平滑处理；然后将背景知识和对话日志对组建成prompt提示，输入到大模型中，经过混合解码策略，得到最终答案。使用本申请实施例所提供的文本生成方法，既可以避免管道型对话系统的误差累计、鲁棒性较差的缺点，又可以避免已有seq2seq对话策略的可移植性较差的缺点。

相应于上面的方法实施例，本申请实施例还提供了一种文本生成装置，下文描述的文本生成装置与上文描述的文本生成方法可相互对应参照。

参见图4所示，该装置包括以下模块：

内容获取模块101，用于获取新问题，并获取与新问题相关的历史问答对；

问答组组建模块102，用于将新问题与历史问答对组成问答组；

提示语生成模块103，用于利用问答组，生成提示语；

答案推理模块104，用于利用训练好的问答模型，对提示语进行推理，得到新问题的答案。

应用本申请实施例所提供的装置，获取新问题，并获取与新问题相关的历史问答对；将新问题与历史问答对组成问答组；利用问答组，生成提示语；利用训练好的问答模型，对提示语进行推理，得到新问题的答案。

在本申请的一种具体实施方式中，内容获取模块101，具体用于在问答日志库中查找出与新问题同一用户ID的问答对；

比对问题与各个问答对，得到各个问答对分别对应的相关性得分；

利用相关性得分，从问答对中筛选出历史问答对。

在本申请的一种具体实施方式中，内容获取模块101，具体用于对各个问答对进行时序平滑处理，得到各个问答对的时间惩罚项；

利用各个时间惩罚项，并按照时间衰减映射关系调整各个问答对的相关性得分。

在本申请的一种具体实施方式中，内容获取模块101，具体用于分别将同一问答对的时间惩罚项和相关性得分输入至时间衰减映射关系对应的时间衰减函数中，对相关性得分进行调整；时间惩罚项包括：时间影响权重、当前对话轮次、最大对话轮次、时间惩罚系数；时间惩罚系数与入库时间成正比。

在本申请的一种具体实施方式中，提示语生成模块103，用于按照相关性得分对问答组中的各个问答对进行排序；

按照预设提示语模板，生成问答组的提示语。

在本申请的一种具体实施方式中，还包括：

背景知识输入模块，用于在获取新问题之前，获取背景知识，并将背景知识输入至问答模型。

在本申请的一种具体实施方式中，还包括：

答案反馈模块，用于在利用训练好的问答模型，对提示语进行推理，得到新问题的答案之后，将答案反馈给提交新问题的客户端。

在本申请的一种具体实施方式中，还包括：

存储模块，用于在将答案反馈给提交新问题的客户端之后，接收客户端反馈的评分；

若评分大于阈值，则将新问题与答案构建为目标问答对，并保存目标问答对。

在本申请的一种具体实施方式中，存储模块，具体用于在问答日志库中，保存目标问答对的用户ID、对话轮次、新问题和答案。

在本申请的一种具体实施方式中，答案推理模块104，具体用于利用问答模型，对提示语进行推理，得到生成文本序列；

利用第一解码协议和第二解码协议对生成文本序列进行混合解码，得到答案。

在本申请的一种具体实施方式中，答案推理模块104，具体用于对生成文本序列进行采样，得到采样单词；

利用第一解码协议对采样单词进行解码，利用第二解码协议对生成文本序列中的非采样单词进行解码，得到答案。

在本申请的一种具体实施方式中，答案推理模块104，具体用于利用top-p解码协议对采样单词进行解码，利用beam-search解码协议对非采样单词进行解码，得到答案；采样单词的数量少于非采样单词的数量。

相应于上面的方法实施例，本申请实施例还提供了一种电子设备，下文描述的一种电子设备与上文描述的一种文本生成方法可相互对应参照。

参见图5所示，该电子设备包括：

存储器332，用于存储计算机程序；

处理器322，用于执行计算机程序时实现上述方法实施例的文本生成方法的步骤。

具体的，请参考图6，图6为本实施例提供的一种电子设备的具体结构示意图，该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）322（例如，一个或一个以上处理器）和存储器332，存储器332存储有一个或一个以上的计算机应用程序342或数据344。其中，存储器332可以是短暂存储或持久存储。存储在存储器332的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储器332通信，在电子设备301上执行存储器332中的一系列指令操作。

电子设备301还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341。

上文所描述的文本生成方法中的步骤可以由电子设备的结构实现。

相应于上面的方法实施例，本申请实施例还提供了一种可读存储介质，下文描述的一种可读存储介质与上文描述的一种文本生成方法可相互对应参照。

一种可读存储介质，可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例的文本生成方法的步骤。

该可读存储介质具体可以为U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可存储程序代码的可读存储介质。

本领域技术人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

Claims

1.一种文本生成方法，其特征在于，包括：

获取新问题，并获取与所述新问题相关的历史问答对；所述新问题为新接收或新获取到的问题；

将所述新问题与所述历史问答对组成问答组；

利用所述问答组，生成提示语；具体包括基于当前所述新问题与所述历史问答对来构建所述提示语；

利用训练好的问答模型，对所述提示语进行推理、解码之后，产生所述新问题的答案；

其中，所述获取与所述新问题相关的历史问答对，包括：

在问答日志库中查找出与所述新问题同一用户ID的问答对；

比对所述新问题与各个所述问答对，得到各个所述问答对分别对应的相关性得分；

利用所述相关性得分，从所述问答对中筛选出所述历史问答对；

其中，利用所述问答组，生成提示语，包括：

按照预设提示语模板，生成所述问答组的提示语。

2.根据权利要求1所述的文本生成方法，其特征在于，所述比对所述问题与各个所述问答对，得到各个所述问答对分别对应的相关性得分，包括：

3.根据权利要求2所述的文本生成方法，其特征在于，所述利用各个所述时间惩罚项，并按照时间衰减映射关系调整各个所述问答对的相关性得分，包括：

4.根据权利要求1所述的文本生成方法，其特征在于，在所述获取新问题之前，还包括：

获取背景知识，并将所述背景知识输入至所述问答模型。

5.根据权利要求1所述的文本生成方法，其特征在于，在所述利用训练好的问答模型，对所述提示语进行推理，得到所述新问题的答案之后，还包括：

将所述答案反馈给提交所述新问题的客户端。

6.根据权利要求5所述的文本生成方法，其特征在于，在将所述答案反馈给提交所述新问题的客户端之后，还包括：

接收所述客户端反馈的评分；

7.根据权利要求6所述的文本生成方法，其特征在于，所述保存所述目标问答对，包括：

8.根据权利要求1至7任一项所述的文本生成方法，其特征在于，所述利用训练好的问答模型，对所述提示语进行推理，得到所述新问题的答案，包括：

9.根据权利要求8所述的文本生成方法，其特征在于，所述利用第一解码协议和第二解码协议对所述生成文本序列进行混合解码，得到所述答案，包括：

对所述生成文本序列进行采样，得到采样单词；

10.根据权利要求9所述的文本生成方法，其特征在于，利用所述第一解码协议对所述采样单词进行解码，利用所述第二解码协议对所述生成文本序列中的非采样单词进行解码，得到所述答案，包括：

11.一种文本生成装置，其特征在于，包括：

内容获取模块，用于获取新问题，并获取与所述新问题相关的历史问答对；所述新问题为新接收或新获取到的问题；

提示语生成模块，用于利用所述问答组，生成提示语；具体包括基于当前所述新问题与所述历史问答对来构建所述提示语；

答案推理模块，用于利用训练好的问答模型，对所述提示语进行推理、解码之后，产生所述新问题的答案；

其中，所述内容获取模块，具体用于在问答日志库中查找出与所述新问题同一用户ID的问答对；比对所述新问题与各个所述问答对，得到各个所述问答对分别对应的相关性得分；利用所述相关性得分，从所述问答对中筛选出所述历史问答对；

其中，所述提示语生成模块，具体用于按照所述相关性得分对所述问答组中的各个问答对进行排序；按照预设提示语模板，生成所述问答组的提示语。

12.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至10任一项所述文本生成方法的步骤。

13.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至10任一项所述文本生成方法的步骤。