CN118170890A

CN118170890A - 一种回复文本的生成方法和相关装置

Info

Publication number: CN118170890A
Application number: CN202410569675.1A
Authority: CN
Inventors: 程任清
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2024-05-09
Filing date: 2024-05-09
Publication date: 2024-06-11
Anticipated expiration: 2044-05-09
Also published as: CN118170890B

Abstract

本申请实施例公开了一种回复文本的生成方法和相关装置，可应用于人工智能、数字人、虚拟人、游戏、虚拟现实、扩展现实等场景，获取输入文本和多个提示信息模板，提示信息模板包括多个领域知识或具有思维链的样例。根据输入文本和多个提示信息模板得到多个提示信息，基于多个提示信息，通过对话模型生成多个待定回复文本，并根据多个待定回复文本得到针对输入文本的回复文本。由此，基于不同的提示信息模板生成的待定回复文本的侧重点不同，从而可以应对更多样化的输入文本，覆盖更多的应用场景，提升了回复文本的多样性和质量，而且，通过多个领域知识和思维链的方式从多个维度使得回复文本更加拟人化，提高了回复文本的质量和用户体验感。

Description

一种回复文本的生成方法和相关装置

技术领域

本申请涉及人工智能技术领域，特别是涉及一种回复文本的生成方法和相关装置。

背景技术

随着人工智能的发展，人机对话技术成为一个广泛应用的技术。相关技术中，一般使用对话模型实现人机对话，如将输入文本输入至对话模型中，对话模型输出针对输入文本的回复文本。

虽然对话模型是通过大量的对话语料进行训练得到的，但是其整体优化空间较小，多样性低，从而导致回复文本的质量较差，如拟人化程度较低等，导致用户体验感较差。

发明内容

为了解决上述技术问题，本申请提供了一种回复文本的生成方法和相关装置，用于提高回复文本的质量，提高用户体验感。

本申请实施例公开了如下技术方案：

一方面，本申请实施例提供一种回复文本的生成方法，所述方法包括：

获取输入文本、第一提示信息模板和第二提示信息模板，所述第一提示信息模板包括多个领域知识，所述第二提示信息模板包括具有思维链的样例；

根据所述输入文本和所述第一提示信息模板，生成第一提示信息，根据所述输入文本和所述第二提示信息模板，生成第二提示信息；

根据所述第一提示信息，通过所述对话模型进行文本生成，得到第一待定回复文本，根据所述第二提示信息，通过所述对话模型进行文本生成，得到第二待定回复文本；

根据所述第一待定回复文本和所述第二待定回复文本，得到针对所述输入文本的回复文本。

另一方面，本申请实施例提供一种回复文本的生成装置，所述装置包括：获取单元、提示信息生成单元、待定回复文本生成单元和回复文本生成单元；

所述获取单元，用于获取输入文本、第一提示信息模板和第二提示信息模板，所述第一提示信息模板包括多个领域知识，所述第二提示信息模板包括具有思维链的样例；

所述提示信息生成单元，用于根据所述输入文本和所述第一提示信息模板，生成第一提示信息，根据所述输入文本和所述第二提示信息模板，生成第二提示信息；

所述待定回复文本生成单元，用于根据所述第一提示信息，通过所述对话模型进行文本生成，得到第一待定回复文本，根据所述第二提示信息，通过所述对话模型进行文本生成，得到第二待定回复文本；

所述回复文本生成单元，用于根据所述第一待定回复文本和所述第二待定回复文本，得到针对所述输入文本的回复文本。

另一方面，本申请实施例提供一种计算机设备，所述计算机设备包括处理器以及存储器：

所述存储器用于存储计算机程序，并将所述计算机程序传输给所述处理器；

所述处理器用于根据所述计算机程序中的指令执行上述方面所述的方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述方面所述的方法。

另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面所述的方法。

由上述技术方案可以看出，本申请实施例不再仅使用一个提示信息模板，而是使用多个提示信息模板，即第一提示信息模板和第二提示信息模板。而且，第一提示信息模板包括多个领域知识，以便通过多个领域知识指示对话模型生成回复文本，使得对话模型可以像人类一样具备多个领域知识。第二提示信息模板包括具有思维链的样例，以便通过思维链指示对话模型生成回复文本，使得对话模型可以像人类一样具备思维推理能力。也就是说，两个提示信息模板从不同维度指示对话模型更加拟人地生成回复文本。从而基于第一提示信息模板和输入文本生成第一提示信息，基于第二提示信息模板和输入文本生成第二提示信息，进而通过第一提示信息和第二提示信息，能够使得对话模型在生成回复文本的过程中，不仅拟人化地考虑多个领域知识，还能够拟人化地基于思维链的方式进行思考，从而根据对话模型生成的第一待定回复文本和第二待定回复文本，得到针对输入文本的回复文本。

由此，基于不同的提示信息模板生成的待定回复文本的侧重点不同，从而可以应对更多样化的输入文本，覆盖更多的应用场景，提升了回复文本的多样性和质量，而且，通过多个领域知识和思维链的方式从多个维度使得回复文本更加拟人化，提高了回复文本的质量和用户体验感。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种回复文本的生成方法的应用场景示意图；

图2为本申请实施例提供的一种回复文本的生成方法的流程示意图；

图3为本申请实施例提供的一种回复文本的生成方法的应用场景示意图；

图4为本申请实施例提供的一种回复文本的生成装置的结构示意图；

图5为本申请实施例提供的一种服务器的结构示意图；

图6为本申请实施例提供的一种终端设备的结构示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应”于以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

相关技术中，输入文本的质量和准确性会影响对话模型输出的回复文本的质量。例如，一个好的输入文本应该能够清晰地表达用户的意图和需求，同时包含足够的上下文信息，以便对话模型能够生成准确和有意义的回复。若将用户的输入文本直接输入至对话模型，可能会由于输入文本的质量较差导致对应的回复文本的质量较差，从而影响用户的体验感。

基于此，相关技术中还会设置提示信息模板，从而将输入文本嵌入至提示信息模板中，得到提示信息的质量较好，将该提示信息输入至对话模型中，以便提高回复文本的准确性。

但是，在实际应用中，输入文本的多样性较高，例如，有的用户想要询问与游戏相关的问题，有的用户想要询问与天气相关的问题等。即使提示信息模板不断优化，只有一个提示信息模板也很难应对输入文本的多样性，从而导致回复文本的质量提升效果较差。而且，回复文本的拟人化程度较低，导致用户体验感较差。

故此，本申请实施例不再仅使用一个提示信息模板，而是使用多个提示信息模板，基于不同的提示信息模板生成的待定回复文本的侧重点不同，从而可以应对更多样化的输入文本，覆盖更多的应用场景，提升了回复文本的多样性和质量，而且，通过多个领域知识和思维链的方式从多个维度使得回复文本更加拟人化，提高了回复文本的质量和用户体验感。

针对本申请提供的回复文本的生成方法可以应用于各种场景，包括但不限于云技术、人工智能（Artificial Intelligence，AI）、智能家居、智能穿戴设备、虚拟助理、智能音箱、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容、对话式交互、智能客服、游戏AI、直播AI等。下面以三个场景为例。

场景一，虚拟人。

随着数字技术的不断发展，作为虚拟现实产业重要应用之一的AI数字人产业也迎来了高速发展期，可以利用虚拟人进行直播。当用户观看虚拟人的直播过程中，用户会通过发送弹幕的方式与虚拟人主播进行互动，这对现实人主播的要求都较高，若虚拟人主播不能快速且拟人化地回复用户发送的弹幕，可能会导致用户体验感较差。采用本申请提供的回复文本的生成方法，将弹幕作为输入文本，通过多个提示信息模板和对话模型，生成针对输入文本的回复文本，从而可以针对每条弹幕均生成对应的回复文本，将回复文本以弹幕或虚拟人主播语音播放等方式，实现与用户的互动，提高了回复文本的质量和用户体验感。

场景二，机器人。

目前，酒店、饭店、银行等场所中，经常会有机器人提供各种自动服务，如用户可以与酒店中的机器人进行语音互动。但是机器人仅能针对预先设置的问题进行回答，无法回复未预先记载的问题，从而回复质量较差。采用本申请提供的回复文本的生成方法后，可以将用户的语音转换为输入文本，通过多个提示信息模板和对话模型，生成针对输入文本的回复文本，该回复文本是基于理解输入文本的基础上生成的，提高了回复文本的质量和用户体验感。

场景三，智能客服。

目前，在购物、官方服务等场景中，通过语音识别和自然语言处理等技术，识别用户的输入文本中的关键词后，智能客服会自动回答客户咨询、提供产品信息讲解等，但是，一般面对同一关键词，智能客服只会提供一种固定回答，甚至若未记载的关键词无法回答等，拟人化较差。通过采用本申请提供的回复文本的生成方法后，通过多个提示信息模板和对话模型，生成针对用户的输入文本的回复文本，该回复文本是基于理解输入文本的基础上生成的，提高了回复文本的质量和用户体验感。

需要说明的是，上述应用场景仅为样例，本实施例提供的回复文本的生成方法还可以应用于其他场景中，此处不做限定。

本申请提供的回复文本的生成方法可以应用于具有回复文本的生成能力的计算机设备，如终端设备、服务器。

其中，终端设备具体可以为台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等，智能车载设备可以车载导航终端和车载电脑等，便携式可穿戴设备可为智能手表、智能手环、头戴设备等，但并不局限于此。

服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content Delivery Network，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器或服务器集群。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

为了便于理解本申请实施例提供的回复文本的生成方法，下面以该回复文本的生成方法的执行主体为服务器为例，对该回复文本的生成方法的应用场景进行样例性介绍。

参见图1，该图为本申请实施例提供的一种回复文本的生成方法的应用场景示意图。如图1所示，该应用场景中包括终端设备110和服务器120，终端设备110与服务器120之间可以通过通信网络进行通信。其中，通信网络使用标准通信技术和/或协议，通常为因特网，但也可以是任何网络，包括但不限于蓝牙、局域网（local area network，LAN）、城域网（metropolitan area network，MAN）、广域网（wide area network，WAN）、移动、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，可使用定制或专用数据通信技术取代或者补充上述数据通信技术。

在终端设备110中安装有直播应用的客户端，用户可以通过该客户端进入虚拟人的直播间并发送弹幕，如用户A可以发送弹幕“哇，主播你今天的美拉德穿搭好好看啊”。终端设备110将弹幕作为输入文本发送给服务器120。

服务器120是直播应用的服务端，获取输入文本、第一提示信息模板和第二提示信息模板。其中，第一提示信息模板包括多个领域知识，以便通过多个领域知识指示对话模型生成回复文本，使得对话模型可以像人类一样具备多个领域知识。第二提示信息模板包括具有思维链的样例，以便通过思维链指示对话模型生成回复文本，使得对话模型可以像人类一样具备思维推理能力。

服务器120根据输入文本和第一提示信息模板，生成第一提示信息，如将输入文本嵌入到第一提示信息模板的对应位置。根据输入文本和第二提示信息模板，生成第二提示信息，如将输入文本嵌入到第二提示信息模板的对应位置。根据第一提示信息，通过对话模型进行文本生成，得到第一待定回复文本，根据第二提示信息，通过对话模型进行文本生成，得到第二待定回复文本。

服务器120根据第一待定回复文本和第二待定回复文本，得到针对输入文本的回复文本，例如，从第一待定回复文本和第二待定回复文本中选择一个回复质量较高的待定回复文本作为针对输入文本的回复文本，如“哇，用户A你太有眼光啦，快来和我一起走在时尚的最前沿，美拉德穿起来”。从回复文本可以看出，回复文本不仅理解了“美拉德”这个网络用词与穿搭有关，还拟人地调侃了观众并邀请观众一起进行美拉德穿搭。

本申请实施例所提供的回复文本的生成方法可以由服务器执行。但是，在本申请的其它实施例中，终端设备也可以与服务器具有相似的功能，从而执行本申请实施例所提供的回复文本的生成方法，或者由终端设备和服务器共同执行本申请实施例所提供的回复文本的生成方法，本实施例对此不做限定。

下面通过方法实施例对本申请提供的一种回复文本的生成方法进行详细介绍。

参见图2，该图为本申请实施例提供的一种回复文本的生成方法的流程示意图。为了便于描述，下述实施例仍以该回复文本的生成方法的执行主体为服务器为例进行介绍。如图2所示，该回复文本的生成方法包括S201-S204。

S201：获取输入文本、第一提示信息模板和第二提示信息模板。

输入文本为通过用户产生的文本，如用户输入的文本（如弹幕、评论、问题等）、用户的语音转换得到的文本等，本申请对此不做具体限定。作为一种可能的实现方式，若输入文本为从直播间获取的弹幕，直播间对回复文本的实时性要求较高，但无法针对每一条弹幕进行回复时，可以选取部分弹幕进行回复，如获取弹幕和发送该弹幕的账号信息，基于该账号信息，如账号信息与直播间的互动数值等，从弹幕中确定即将生成回复文本的输入文本。

第一提示信息模板通过多个领域知识指示对话模型生成回复文本，通过多个领域知识使得对话模型可以有针对性地再次学习第一提示信息模板包括的多个领域知识，以便提高后续生成的回复文本的准确性，以及更加拟人地具备多个领域知识。

本申请实施例不具体限定多个领域知识，本领域技术人员可以根据实际需要进行设置。例如，以虚拟人的游戏直播间为例，输入文本为直播间中用户发送的弹幕，则领域一可以为虚拟人的人设知识领域，即第一提示信息模板包括虚拟人的人设知识，以便生成的回复文本符合虚拟人（属于虚拟对象）的人设。领域二可以为游戏知识领域，即第一提示信息模板包括游戏知识，以便生成的回复文本更适用于游戏直播间。领域三为网络用语知识领域，即第一提示信息模板包括网络用语知识，以便对话模型可以理解输入文本包括的热门梗，拟人程度更高，从而输出的回复文本更加准确，提高用户的体验感。换句话说，通过第一提示信息模板包括的多个领域知识，可以指示对话模型生成的回复文本，能够符合虚拟对象的人设、具备游戏知识和幽默（如了解热门梗）。

第二提示信息模板通过思维链指示对话模型生成回复文本。思维链（Chain-of-Thought）提示学习相比较于上下文样例学习，思维链多了一系列中间的推理步骤，希望对话模型能通过思维链的引导学会一步一步的输出推理步骤，然后给出结果。也就是说，在第二提示信息模板中引入多个样例的思维过程，以便引入更多思维方式，提高输出的回复文本的拟人程度。

作为一种可能的实现方式，可以在从外部获取第一提示信息模板和第二提示信息模板后，将第一提示信息模板和第二提示信息模板存储在内部存储空间中，从而在需要时从内部存储空间获取。

可以理解的是，在本申请的具体实施方式中，若输入文本、输入文本样本等用户输入的文本涉及到可能与用户相关的信息，当本申请以上实施例运用到具体产品或技术中时，需要获得用户单独许可或者单独同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

S202：根据输入文本和第一提示信息模板，生成第一提示信息，根据输入文本和第二提示信息模板，生成第二提示信息。

根据输入文本和第一提示信息模板生成的第一提示信息，不仅具有输入文本（或输入文本的语义），还包括多个领域知识。以后续第一提示信息模板为例，可以将输入文本嵌入至“输入文本”的位置。

根据输入文本和第二提示信息模板生成的第二提示信息，不仅具有输入文本（或输入文本的语义），还具有包括多个思维链的多个样例。以后续第二提示信息模板为例，可以将输入文本嵌入至“输入文本”的位置。

S203：根据第一提示信息，通过对话模型进行文本生成，得到第一待定回复文本，根据第二提示信息，通过对话模型进行文本生成，得到第二待定回复文本。

对话模型是能够根据输入的输入文本，生成针对输入文本的回复文本的模型。例如，生成式预训练转换器（Chat Generative Pre-trained Transformer，ChatGPT）、基于变换器的双向编码器表示技术（Bidirectional Encoder Representations fromTransformers，BERT）等，本申请对此不做具体限定，本领域技术人员可以根据实际需要进行设置。

根据第一提示信息，通过对话模型进行文本生成，得到第一待定回复文本。通过第一提示信息包括的多个领域知识和输入文本，可以使得对话模型在充分学习多个领域知识后理解输入文本的语义，从而生成具有领域知识的待定回复文本，即第一待定回复文本。

根据第二提示信息，通过对话模型进行文本生成，得到第二待定回复文本。通过第二提示信息包括的具有思维链的样例和输入文本，可以使得对话模型在充分学习样例中示出的思维链后，学习到思维链的推理能力，从而深入理解输入文本的语义，并基于学习到的推理能力，生成更加拟人的待定回复文本，即第二待定回复文本。

从而基于不同的提示信息模板生成的提示信息的侧重点不同，从而对话模型生成的待定回复文本的侧重点不同，从而可以应对更多样化的输入文本，覆盖更多的应用场景，提高用户的体验感。

本申请实施例提供的回复文本的生成方法主要可以涉及人工智能技术，其中，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

在本申请实施例中，主要涉及的人工智能技术包括上述自然语言处理技术、机器学习等。例如，在本申请实施例中，涉及到的对话模型、第一对话模型、第二对话模型、排序模型和融合模型等，均可以通过人工智能技术包括的自然语言处理技术或机器学习训练得到。

其中，自然语言处理（Nature Language processing，NLP）是计算机科学领域与人工智能领域中的重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理涉及自然语言，即人们日常使用的语言，与语言学研究密切；同时涉及计算机科学和数学等。人工智能领域模型训练的重要技术，预训练模型，即是从NLP领域的大语言模型（Large Language Model）发展而来。经过微调，大语言模型可以广泛应用于下游任务。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果，融合了以上技术。

预训练模型（Pre-training model，PTM），也称基石模型、大模型，指具有大参量的深度神经网络（Deep neural network，DNN），在海量未标记的数据上对其进行训练，利用大参量DNN的函数近似能力使PTM在数据上提取共性特征，经微调（fine tune）、参数高效微调（Parameter Efficient Fine-tuning ，PEFT）、提示学习（prompt-tuning）等技术，适用于下游任务。因此，预训练模型可以在小样本（Few-shot）或零样本（Zero-shot）场景下达到理想效果。PTM按照处理的数据模态可以分为语言模型（如ELMO、BERT、GPT等）、视觉模型（如swin-transformer、ViT、V-MOE等）、语音模型（如VALL-E）、多模态模型（如ViBERT、CLIP、Flamingo、Gato等）等，其中多模态模型指建立两种或以上数据模态特征表示的模型。预训练模型是输出人工智能生成内容（Artificial Intelligence Generated Content ，AIGC）重要工具，也可以作为连接多个具体任务模型的通用接口。

S204：根据第一待定回复文本和第二待定回复文本，得到针对输入文本的回复文本。

第一待定回复文本和第二待定回复文本是对话模型的侧重点不同，可以根据第一待定回复文本和第二待定回复文本，得到针对输入文本的回复文本。本申请实施例不具体限定得到回复文本的方式，本领域技术人员可以根据实际需要进行设置，如通过融合方式或选择方式得到回复文本，后续会详细说明，在此不再赘述。

下面针对每一个提示信息模板分别进行说明。

（一）第一提示信息模板。

第一提示信息模板可以包括多个槽位，每个槽位分别对应于不同领域的领域知识，以及还有一个槽位对应问题。以两个领域知识为例，第一提示信息模板可以包括第一领域知识槽位、第二领域知识槽位和问题槽位。例如，第一提示信息模板可以如下：

我希望你充当AI主播。你将像幽默的脱口秀演员一样妙语连珠地回复直播间的弹幕以表现你的情绪和价值观。你的名字叫虚拟对象A，【领域一的领域知识】，你还知道：【领域二的领域知识或领域三的领域知识】。

作为主播，你需要以幽默有趣的方式回答观众提出的问题，并在40个字内给出清晰简洁的回复。请回答以下的问题：{输入文本}。

请注意，你回复的内容不能再重复提问内容，同时确保你的回答具有幽默感和趣味性。

如上述第一提示信息模板所示，第一领域知识槽位为【领域一的领域知识】，第二领域知识槽位为【领域二的领域知识或领域三的领域知识】。需要说明的是，本申请不具体限定槽位的位置，也不具体限定一个槽位对应的领域知识的数量。

经过研究发现，将各个领域的领域知识均嵌入到第一提示信息模板中，可能会由于领域知识太多了，导致对话模型在理解的过程中模糊重点，从而降低输出的回复文本的准确性。基于此，可以通过检索的方式，针对输入文本有针对性地将领域知识嵌入到第一提示信息模板中。

由于第一提示信息模板中包括多个领域的领域知识，故可以通过检索将一个领域的领域知识嵌入到第一提示信息模板中，还可以通过检索将多个领域的领域知识嵌入到第一提示信息模板中，以进一步提高回复文本的准确性。下面分别进行说明。

方式一：通过检索将一个领域的领域知识嵌入到第一提示信息模板中，具体参见A1-A6。

A1：获取第一领域知识库和第二领域知识库。

第一领域知识库包括多个第一领域问题和各个第一领域问题对应的第一领域知识，以便基于输入文本从多个第一领域知识库中检索得到与输入文本相关的第一领域问题，从而将这些第一领域问题对应的第一领域知识嵌入到第一提示信息模板中。第二领域知识库包括多个第二领域知识。

下面以虚拟人的游戏直播间为例，对构建多个领域的知识库进行说明。其中，领域一可以为虚拟人的人设知识领域，领域二可以为游戏知识领域，领域三为网络用语知识领域。

（1）第一领域知识库。

第一领域知识库为领域一对应的领域知识库，第一领域知识库包括多个第一领域问题和各个第一领域问题对应的第一领域知识，第一领域知识为与虚拟对象的人设相关的知识，虚拟对象是指在虚拟世界中的可活动对象。该可活动对象可以是虚拟人物、虚拟动物、动漫人物中的至少一种。与虚拟对象的人设相关的知识可以为虚拟对象喜欢什么食物？以虚拟对象A为例，虚拟对象A是暖萌形象更偏向喜欢甜食，如表1示出了一种第一领域知识库。

表1

（2）第二领域知识库。

第二领域知识库为领域二对应的领域知识库，第二领域知识库包括多个第二领域问题和各个第二领域问题对应的第二领域知识，第二领域知识为与游戏相关的领域知识，如表2示出了一种第二领域知识库。

表2

其中，AK是射击游戏中的一种虚拟器械，赵云是竞技游戏中的一个虚拟对象名称。

作为一种可能的实现方式，第二领域知识库包括的第二领域知识为与游戏相关的领域知识，各个游戏也具备自己的领域知识库，故可以将各个游戏的领域知识库进行组合，得到第二领域知识库。

但是，若直接使用各个游戏的领域知识库（后续为了方便说明，称之为其他领域知识库），可能会导致对话模型输出的回复文本的回复质量较差。经过研究发现，其他领域知识库不仅包括检索所需的目标领域知识，还包括其他场景知识，由于引入了与检索无关的其他场景知识，导致对话模型的理解能力变差。例如，不同游戏对应的虚拟对象的人设不同，从而导致人设发生冲突，从而导致对话模型的理解能力变差。

基于此，在获取其他领域知识库后，可以先筛选掉与检索无关的其他场景知识，即从其他领域知识库中筛选得到目标领域知识后，再基于目标领域知识构建得到第二领域知识库。需要说明的是，该种方式也适用于构建其他领域知识库，如第一领域知识库等。

其中，目标领域知识为构建第二领域知识库所需的领域知识，其他场景知识为与构建第二领域知识库无关的领域知识。例如，其他场景知识可能会包括与其他虚拟对象的人设相关的知识、游戏运营活动类相关的知识等其他场景知识。目标领域知识为与这个游戏相关的知识，如与虚拟器械相关的知识、与游戏内道具相关的知识、游戏术语、游戏内的虚拟地图、系统设置等。

由此，在获取其他领域知识库后，不再直接使用其他领域知识库构建第一领域知识库或第二领域知识库，而是从其他领域知识库中筛选得到目标领域知识，即筛选掉与检索无关的其他场景知识，从而基于目标领域知识构建第一领域知识库或第二领域知识库，进而不仅降低了第一领域知识库或第二领域知识库的构建难度，还使得第一领域知识库或第二领域知识库包括的领域知识均与后续检索有关，从而不会引入无关内容，进而提高对话模型输出的回复文本的准确性。

作为一种可能的实现方式，虽然构建了第一领域知识库和第二领域知识库等领域知识库，但是领域知识库中包括的领域知识可能无法全面覆盖所有的领域知识，故可以通过搜索引擎搜索无法从领域知识库中获取的领域知识，以便提高领域知识的准确性和覆盖率。

但是，若将领域知识库不包括领域知识均通过搜索引擎进行搜索，会影响后续对话模型输出的回复文本的准确性。经过研究发现，由于输入文本可能会输入一些与领域知识库无关的内容，如今天主播心情怎么样等。若基于这些输入文本进行搜索，可能会得到一些错误的内容，从而引入一些错误的领域内容让对话模型理解，导致对话模型输出的回复文本的准确性较低。

基于此，若根据输入文本分别和多个第一领域问题之间的相似度，确定第一领域知识库包括相似度满足第一预设条件的第一领域问题，即第一领域知识库中存在输入文本所需的领域知识，则将相似度满足第一预设条件的第一领域问题对应的第一领域知识，确定为第一领域知识槽位的文本。

若根据输入文本分别和多个第一领域问题之间的相似度，确定第一领域知识库不包括相似度满足第一预设条件的第一领域问题，即第一领域知识库中不存在输入文本所需的领域知识，则需要判断输入文本与当前领域知识库包括的领域知识是否相关，若相关，如输入文本（表达与游戏相关的知识）与第一领域知识（与游戏相关的知识）相关，说明领域知识库中确实缺失了对应的领域知识，则通过搜索引擎搜索用于回复输入文本的第二待定替换文本，并将第二待定替换文本确定为第一领域知识槽位的文本。若不相关，如输入文本与第一领域知识不相关，说明领域知识库中没有缺失对应的领域知识，则不再通过搜索引擎进行搜索，以避免引入无关的领域知识，误导对话模型，提高对话模型输出的回复文本的准确性。

由此，在第一领域知识库中不存在输入文本所需的领域知识的情况下，可以判断输入文本与第一领域知识库包括的第一领域知识是否相关，若相关，则通过搜索引擎进行搜索，以补充第一领域知识；若不相关，则不再通过搜索引擎进行搜索，以避免引入无关的领域知识，误导对话模型，提高对话模型输出的回复文本的准确性。

（3）第三领域知识库。

第三领域知识库为领域三对应的领域知识库，第三领域知识库包括多个第三领域问题和各个第三领域问题对应的第三领域知识，第三领域知识为与网络用语相关的领域知识，如表3示出了一种第三领域知识库。

表3

需要说明的是，由于第三领域知识与网络用于相关，故第三领域问题可以直接描述网络用语本身，第三领域知识为针对网络用语的解释。

下面对S202中根据输入文本和第一提示信息模板，生成第一提示信息的具体实施方式进行说明，具体参见A2-A6。

A2：确定输入文本分别和多个第一领域问题之间的相似度。

相似度用于衡量两个文本之间的相似程度，如单纯的字面相似程度、语义的相似程度、风格的相似度等。本申请实施例不具体限定确定相似度的方式，本领域技术人员可以根据实际需要进行设置。

A3：根据输入文本分别和多个第一领域问题之间的相似度，将相似度满足第一预设条件的第一领域问题对应的第一领域知识，确定为第一领域知识槽位的文本。

本申请实施例不具体限定第一预设条件，如相似度大于第一预设阈值、相似度排序为前三等，本领域技术人员可以根据实际需要进行设置。

相似度满足第一预设条件的第一领域问题与输入文本的相似程度较高，将与输入文本相似度较高的第一领域知识嵌入到第一提示信息模板中，即确定为第一领域知识槽位的文本，可以降低第一领域知识库中与输入文本不相关的第一领域知识的影响，提高对话模型输出的回复文本的准确性。

A4：根据多个第二领域知识，确定为第二领域知识槽位的文本。

如将多个第二领域知识嵌入到第一提示信息模板中第二领域知识槽位中，作为第二领域知识槽位的文本。

A5：将输入文本，确定为问题槽位的文本。

如将输入文本嵌入到第一提示信息模板中问题槽位中，作为问题槽位的文本。

A6：根据第一领域知识槽位的文本、第二领域知识槽位的文本和问题槽位的文本，生成第一提示信息。

由此，将相似度满足第一预设条件的第一领域问题对应的第一领域知识嵌入到第一领域知识槽位，将第二领域知识嵌入到第二领域知识槽位，将输入文本嵌入到问题槽位，从而得到第一提示信息，即通过相似度匹配的方式，有针对性地将与输入文本有关的第一领域知识嵌入到第一提示信息模板中，进而降低第一领域知识库中与输入文本不相关的第一领域知识对对话模型的影响，提高对话模型输出的回复文本的准确性。

方式二：通过检索将多个领域的领域知识嵌入到第一提示信息模板中，在本实施例中，以两个领域为例，即将第一领域的领域知识和第二领域的领域知识嵌入到第一提示信息模板中为例进行说明，具体参见B1-B7。

B1：获取第一领域知识库和第二领域知识库。

第一领域知识库包括多个第一领域问题和各个第一领域问题对应的第一领域知识，以便基于输入文本从多个第一领域知识库中检索得到与输入文本相关的第一领域问题，从而将这些第一领域问题对应的第一领域知识嵌入到第一提示信息模板中。

第二领域知识库包括多个第二领域问题和各个第二领域问题对应的第二领域知识，以便基于输入文本从多个第二领域知识库中检索得到与输入文本相关的第二领域问题，从而将这些第二领域问题对应的第二领域知识嵌入到第一提示信息模板中。

B2：确定输入文本分别和多个第一领域问题之间的相似度。

B3：根据输入文本分别和多个第一领域问题之间的相似度，将相似度满足第一预设条件的第一领域问题对应的第一领域知识，确定为第一领域知识槽位的文本。

B2和B3具体可以参见A2和A3，在此不再赘述。

B4：确定输入文本分别和多个第二领域问题之间的相似度。

B5：根据输入文本分别和多个第二领域问题之间的相似度，将相似度满足第二预设件的第二领域问题对应的第二领域知识，确定为第二领域知识槽位的文本。

本申请实施例不具体限定第二预设条件，如相似度大于第二预设阈值、相似度排序为前三等，本领域技术人员可以根据实际需要进行设置。

相似度满足第二预设条件的第二领域问题与输入文本的相似程度较高，将与输入文本相似度较高的第二领域知识嵌入到第一提示信息模板中，即确定为第二领域知识槽位的文本，可以降低第二领域知识库中与输入文本不相关的第二领域知识的影响，提高对话模型输出的回复文本的准确性。

B6：将输入文本，确定为问题槽位的文本。

B7：根据第一领域知识槽位的文本、第二领域知识槽位的文本和问题槽位的文本，生成第一提示信息。

由此，将相似度满足第一预设条件的第一领域问题对应的第一领域知识嵌入到第一领域知识槽位，将相似度满足第二预设条件的第二领域问题对应的第二领域知识嵌入到第二领域知识槽位，将输入文本嵌入到问题槽位，从而得到第一提示信息，即通过相似度匹配的方式，有针对性地将与输入文本有关的第一领域知识和第二领域知识嵌入到第一提示信息模板中，进而降低第一领域知识库中与输入文本不相关的第一领域知识对对话模型的影响，以及降低第二领域知识库中与输入文本不相关的第二领域知识对对话模型的影响，提高对话模型输出的回复文本的准确性。

相关技术中，第一领域知识一般以第一人称进行描述，如表1中“我喜欢吃甜的食物, 如蜂蜜，之前我一次喝了一斤蜂蜜”。然而，直接将以第一人称描述的第一领域知识嵌入到第一提示信息模板中可能效果并不理想。

经过研究发现，因为对话模型一般是接收指令并理解指令的模型，以第一人称描述的第一领域知识不是指令，对话模型不易于理解，故可以将第一领域知识进行修改，将第一人称修改为第二人称，以便第一领域知识的描述更贴近指令。下面以两种方式为例分别进行说明。

方式一：直接将第一领域知识库中的第一领域知识中的第一人称转换为第二人称，实现对第一领域知识库的更新，即更新后的第一领域知识库包括第一领域问题及其对应的第一领域知识，且第一领域知识是通过第二人称来描述的。例如，对表1所示的第一领域知识库进行更新后，得到表4所示的第一领域知识库。

表4

由此，预先将第一领域知识库中第一领域知识的第一人称替换为第二人称，可以在确定输入文本与第一领域知识库中第一领域问题之间的相似度后，将相似度满足第一预设条件的第一领域问题对应的第一领域知识直接确定为第一领域知识槽位的文本。不仅方便快捷，还可以使得第一领域知识更加贴近指令，提高对话模型输出的回复文本的准确性。

方式二：在确定输入文本分别和多个第一领域问题之间的相似度之后，根据输入文本分别和多个第一领域问题之间的相似度，将相似度满足第一预设条件的第一领域问题对应的第一领域知识，确定为第一待定文本，将第一待定文本中的第一人称替换为第二人称，得到第一待定文本对应的替换文本，并将替换文本确定为第一领域知识槽位的文本。

由此，不再对第一领域知识库进行更新，而是在从第一领域知识库中确定相似度满足第一预设条件的第一领域问题对应的第一领域知识后，将其包括的第一人称替换为第二人称，得到第一领域知识槽位的文本。尤其是在与其他场景共用第一领域知识库的场景下，无需更新第一领域知识库也可以使得第一领域知识槽位的文本更加贴近指令，提高对话模型输出的回复文本的准确性。

作为一种可能的实现方式，由于同一语义可以有多种表示方式，故为了提高相似度计算的准确性，可以在第一领域知识库中增加相似问题，即前述所述的第一领域问题包括原始问题和该原始问题对应的相似问题。具体地，获取第一领域知识对应的原始问题，根据原始问题，生成原始问题对应的相似问题，原始问题和相似问题之间的相似度大于第三预设阈值，如表5所示。

表5

由此，基于相似度对原始问题进行扩展，得到至少一个原始问题对应的相似问题，从而根据原始问题及其相似问题，得到第一领域问题，或者说，根据原始问题、原始问题对应的相似问题、以及原始问题对应的第一领域知识，构建第一领域知识库。通过丰富第一领域问题的多样性，提高输入问题与第一领域问题之间相似度计算的准确性，以便通过提高检索的准确性，提高后续对话模型输出的文本的准确性。

作为一种可能的实现方式，若对话模型为ChatGPT模型，则可以基于ChatGPT模型生成原始问题的相似问题，由于相似问题是ChatGPT模型生成的，相似问题更加贴近ChatGPT模型的理解，从而输出的回复文本更加准确。

（二）第二提示信息模板。

具有思维链的样例包括输入文本示例、思维方式示例和回复文本示例。在第二提示信息模板中引入多个样例的思维过程，以便引入更多思维方式，提高输出的回复文本的拟人程度。例如，以思维方式示例为反差回复（即反差感创意）为例，第二提示信息模板可以如下：

我希望你充当AI主播。你将像幽默的脱口秀演员一样回答弹幕问题。你的名字叫虚拟对象A。当你回答观众的各种提问时，特别擅长用反差感营造幽默效果。下面是一些样例：

观众提问：虚拟对象A会玩X游戏吗?

反差感创意：转变回答的方向，将注意力引向了观众情感层面的槽点。

虚拟对象A回答：我不会玩X游戏，但我会努力学习和你一起玩。

观众提问：鱼溺水了怎么办?

反差感创意：用明显的荒谬回答来制造反差，调侃观众对于显而易见事情的无知。

虚拟对象A回答：你可以试试把它放到水里，说不定它会游回去呢！

观众提问：虚拟对象A说三十遍我爱你。

反差感创意：以“三十”为主题，用另一个角度回答了问题，增加了幽默感。

虚拟对象A回答：我爱三十个你。

观众提问：如何评价相声演员B?

反差感创意：用“相声比人好看”反转了观众所期待的对相声演员B的评价。

虚拟对象A回答：相声演员B？呃，我得说，他的相声比他的人长得好看多了！

请参考以上格式回答下面一条观众提问，你先思考出反差感创意，然后据此给出虚拟对象A回答。请注意你仅需要输出“反差感创意”和“虚拟对象A回答”，不要输出其他无关内容。

观众提问：{输入文本}。

如上述第二提示信息模板所示，通过多个样例给对话模型提示，需要包含“反差感创意”的中间过程，即给出的虚拟对象A回复的依据是什么。其中，观众提问即为观众在直播间发送的弹幕，可以作为输入文本。反差感创意即为思维方式。虚拟对象A回答即为针对输入文本的回复文本。

作为一种可能的实现方式，基于如前述所示的第二提示信息模板得到的回复文本可能效果较差。经过研究发现，第二提示信息模板中具有思维链的样例一般为固定模板，即无论什么样的输入文本均给出同样的样例。但是，对话模型针对第二提示信息的学习依赖于给出的样例，若第二提示信息模板提供的固定的样例无法给出与输入文本有关的内容，即第二提示信息模板无法提供更适用于输入文本的样例，从而可能会导致对话模型基于第二提示信息模板得到的第二待定回复文本的准确性较低。也就是说，包括固定的样例的第二提示信息模板存在一定局限性。

基于此，本申请实施例不再在提示信息模板中使用固定的样例，而是使用与输入文本相关的样例，下面具体进行说明，参见C1-C5。

C1：获取样例库。

样例库包括多个具有思维链的样例，每个样例包括输入文本示例、思维方式示例和回复文本示例，如前述第二提示信息模所示。

C2：确定输入文本分别和样例库包括的各个样例的输入文本示例之间的相似度。

C3：根据输入文本分别和多个输入文本示例之间的相似度，将符合第三预设条件的输入文本示例对应的样例确定为样例槽位的文本。

本申请实施例不具体限定第三预设条件，如相似度大于第四预设阈值、相似度排序为前三等，本领域技术人员可以根据实际需要进行设置。

相似度满足第三预设条件的输入文本示例与输入文本的相似程度较高，将与输入文本相似度较高的样例嵌入到第二提示信息模板中，即确定为样例槽位的文本，可以降低第一领域知识库中与输入文本不相关的第一领域知识的影响，提高对话模型输出的回复文本的准确性。

C4：将输入文本，确定为问题槽位的文本。

如将输入文本嵌入到第二提示信息模板中问题槽位中，作为问题槽位的文本。

C5：根据样例槽位的文本和问题槽位的文本，生成第二提示信息。

由此，将相似度满足第三预设条件的输入文本示例对应的样例嵌入到样例槽位，将输入文本嵌入到问题槽位，从而得到第二提示信息，即通过相似度匹配的方式，有针对性地将与输入文本有关的样例嵌入到第二提示信息模板中，从而避免引入与输入文本无关的样例对对话模型的影响，提高对话模型输出的回复文本的准确性。

作为一种可能的实现方式，第二提示信息不仅可以用于指示对话模型输出输入文本对应的回复文本，还可以用于指示对话模型输出输入文本对应的思维方式。如前述第二提示信息模中“请注意你仅需要输出“反差感创意”和“虚拟对象A回答”，不要输出其他无关内容”指出的“反差感创意”即输入文本对应的思维方式。

从而将输入文本作为目标输入文本示例，将输入文本对应的思维方式作为目标思维方式示例，将输入文本对应的回复文本作为目标回复文本示例，从而根据目标输入文本示例、目标思维方式示例、目标回复文本示例，得到一个新的样例，即目标样例，并将目标样例添加至样例库中，从而实现样例库的自动更新。

由此，通过使得第二提示信息指示对话模型基于输入文本，输出回复文本和思维方式，可以基于该输入文本、该思维方式和该回复文本，得到一个新的样例。将该样例增加至样例库中，不仅实现了样例库的自动更新，即实现了业务数据闭环，还可以通过令对话模型输出思维方式，更加符合样例中思维链的构成，从而提高对话模型输出的回复文本的准确性。

需要说明的是，在本申请实施例中，不仅可以使用第一提示信息模板和第二提示信息模板，还可以使用其他的提示信息模板，如第三提示信息模板，本申请对此不做具体限定，下面以第三提示信息模板为例进行说明。

在该实施例中，第二提示信息模板包括的样例可以为固定的，第三提示信息模板与第二提示信息模板相似，第三提示信息模板包括的样例为与输入文本相关的，则下面对第三提示信息模板的获取方式进行说明。

获取样例库，确定输入文本分别和样例库包括的多个样例分别包括的输入文本示例之间的相似度，根据输入文本分别和多个输入文本示例之间的相似度，从多个样例中确定目标样例，该目标样例包括的输入文本示例与输入文本之间的相似度满足第三预设条件，最后根据目标样例生成第三提示信息模板，从而使得第三提示信息模板包括的具有思维链的样例是与输入文本相关的。

继续以虚拟对象A为例，若输入文本为“虚拟对象A你会有记忆吗？”，则基于该输入文本生成的第三提示信息模板可以如下：

观众提问：虚拟对象A有记忆吗？

反差感创意：以“记忆”为主题，用另一个角度回答了问题。

虚拟对象A回答：我没有记忆，但我可以帮你记得每一个你的问题。

观众提问：你有记忆吗？

反差感创意：以“记忆”为主题，用反问的方式来回答问题，增加幽默感。

虚拟对象A回答：记忆？什么是记忆？我好像忘了。

观众提问：虚拟对象A会做梦吗？

反差感创意：用“AI没有梦境”来突出虚拟对象A是一个人工智能的身份。

虚拟对象A回答：我是人工智能，没有梦境。但是，如果你想让我做噩梦，可以尝试在直播间里刷一些恐怖的弹幕。

观众提问：虚拟对象A有本子吗？

反差感创意：将观众提问的“本子”与“本事”联系起来，以此制造反差。

虚拟对象A回答：我没有本子，但我有本事。

观众提问：{输入文本}。

由此，可以根据输入文本和第三提示信息模板，生成第三提示信息，如将输入文本嵌入到第三提示信息模板中，得到第三提示信息。然后根据第三提示信息，通过对话模型进行文本生成，得到第三待定回复文本，最后可以根据第一待定回复文本、第二待定回复文本和第三待定回复文本，得到针对输入文本的回复文本。

此外，经过实验，通过引入第三提示信息模板，对话模型的上限值提升了13.86%。其中，上限值的获得方式是，将回复文本划分为多个档次，只要对话模型在一组回复文本中出现了最高档次的回复文本，本组结果即为好，从而通过多组结果得到对话模型的上限值。

由此，进一步引入第三提示信息模板，从而第一提示信息模板、第二提示信息模板和第三提示信息模板的侧重点不同，从而可以应对更多样化的输入文本，覆盖更多的应用场景，提升了回复文本的多样性和质量。而且，通过相似度匹配的方式，有针对性地将与输入文本有关的样例嵌入到第三提示信息模板中，即该第三信息提示模板包括可动态调整的样例，从而避免引入与输入文本无关的样例对对话模型的影响，提高对话模型输出的回复文本的准确性。

此外，与第二提示信息类似，第三提示信息不仅可以用于指示对话模型输出输入文本对应的回复文本，也还可以用于指示对话模型输出输入文本对应的思维方式。如第三提示信息模板中“请注意你仅需要输出“反差感创意”和“虚拟对象A回答”，不要输出其他无关内容”指出的“反差感创意”即输入文本对应的思维方式。

从而将输入文本作为目标输入文本示例，将输入文本对应的思维方式作为目标思维方式示例，将输入文本对应的回复文本作为目标回复文本示例，从而根据目标输入文本示例、目标思维方式示例、目标回复文本示例，得到一个新的样例，即目标样例，并将目标样例添加至样例库中，从而实现样例库的自动更新，即实现了业务数据闭环，还可以通过令对话模型输出思维方式，更加符合样例中思维链的构成，从而提高对话模型输出的回复文本的准确性。

作为一种可能的实现方式，不仅可以通过多个提示信息模板提高回复文本的多样性，还可以通过细化对话模型来提高回复文本的多样性。以对话模型可以包括第一对话模型和第二对话模型为例进行说明。

其中，第一对话模型为通用的对话模型，如ChatGPT模型等，第二对话模型为通过领域知识进行训练得到的模型，如基于领域知识对大型开放科学开放获取多语言语言模型（BigScience Large Open-science Open-access Mul-tilingual Language Model，BLOOM）中模型参数规模为7B的模型，即以Bloom-7B模型为基底模型，进行监督微调（Supervised fine-tuning，SFT）训练，得到第二对话模型。

继续以直播场景为例，可以基于直播间的弹幕以及优质的回复文本构建微调指令数据，微调指令数据覆盖了前面所述的多类提示信息模板，如表6所示为对第二提示信息模板进行微调后得到的微调指令数据。基于微调指令数据对Bloom-7B模型进行SFT训练，得到第二对话模型。

表6

经过实验对比，相比于直接将Bloom-7B模型作为第二对话模型，对Bloom-7B模型进行微调后的优质率从11%变为14.85%。微调前后的回复如下：

观众提问：6。

（微调前）虚拟对象A回答：“我不会因为害怕孤独,就放弃自己的爱好和追求。孤独不是最重要的，拥有一份真正的友情，才是真正的幸福。”

（微调后）虚拟对象A回答：6？哦，这是和我在玩数字游戏吗？

其中，优质率主要评估模型生成的回复文本在内容、准确性、逻辑连贯性和上下文一致性等方面的表现。一个高的优质率意味着对话模型能够更准确地理解问题，并提供相关、准确且逻辑清晰的回答。

本申请不具体限定优质率的确定方式，如可以采用自动评估或人工评估或二者相结合的方式等。其中，自动评估的方式为利用一些自然语言处理工具，如双语评估替补（Bilingual Evaluation Understudy，BLEU）、回顾式摘要评估工具（Recall-OrientedUnderstudy for Gisting Evaluation，ROUGE）等，通过比较生成的回复与参考回复之间的相似性来度量模型的质量。人工评估的方式为通过专家评分、用户反馈等，对对话模型生成的回复进行评分。

基于此，在对话模型包括第一对话模型和第二对话模型的情况下，可以根据第一提示信息，通过第一对话模型进行文本生成，得到第一子待定回复文本，根据第一提示信息，通过第二对话模型进行文本生成，得到第二子待定回复文本，其中，前述所述的第一待定回复文本包括第一子待定回复文本和第二子待定回复文本。

然后根据第二提示信息，通过第二对话模型进行文本生成，得到第三子待定回复文本，根据第二提示信息，通过第二对话模型进行文本生成，得到第四子待定回复文本。其中，前述所述的第二待定回复文本包括第三子待定回复文本和第四子待定回复文本。

最后根据第一子待定回复文本、第二子待定回复文本、第三子待定回复文本和第四子待定回复文本，得到针对输入文本的回复文本。

由此，相比于仅使用一个对话模型，使用多个对话模型对多个提示信息分别进行生成，可以得到更多的待定回复文本，从而进一步提高回复文本的多样性。而且，由于第一对话模型和第二对话模型在文本生成的侧重点不同，如第一对话模型更关注通用性，对话模型的上限值会提高。

例如，经过实验验证，使用ChatGPT模型单独作为对话模型的上限值为60.4%，使用Bloom-7B模型进行微调后的模型单独作为对话模型的上限值为32.67%，将ChatGPT模型（即第一对话模型）和Bloom-7B模型（即第二对话模型）结合作为对话模型，上限值可以提高至72.28%。

作为一种可能的实现方式，虽然利用通用的对话模型（如ChatGPT模型等）对开放域的通识能力可以得到回复文本。但是通用的对话模型一般需要通过接口调用，可能会出现文本生成失败的情况。继续以ChatGPT模型为例，受限于接口的稳定性，经统计单账号情况下成功率仅为86.7%。

故此，若第一对话模型需要使用接口进行调用，即第一子待定回复文本和第三子待定回复文本是通过接口调用所述第一对话模型得到的，则受限于接口的稳定性，可能会得不到第一子待定回复文本或第三子待定回复文本，从而导致生成回复文本的时间较长。

基于此，若在预设时间内获取第一子待定回复文本和第三子待定回复文本，说明当前接口的稳定性较高，则根据第一子待定回复文本、第二子待定回复文本、所述第三子待定回复文本和第四子待定回复文本，得到针对输入文本的回复文本。本申请实施例不具体限定预设时间，本领域技术人员可以根据实际需要进行设置。

若在预设时间内未获取第一子待定回复文本或第三子待定回复文本，说明当前接口的稳定性较低，无法获取第一子待定回复文本或第三子待定回复文本，或者获取时间较长，则不再等待获取第一子待定回复文本或第三子待定回复文本，而是根据第二子待定回复文本和第四子待定回复文本，得到针对输入文本的回复文本。

需要说明的是，若在预设时间内还能获取一个子待定回复文本，则可以也基于其得到针对输入文本的回复文本，以在预设时间内仅未获取第一子待定回复文本，能够获取第三子待定回复文本为例，可以根据第二子待定回复文本、第三子待定回复文本和第四子待定回复文本，得到针对输入文本的回复文本。

由此，通过采用多个对话模型，若其中一个对话模型在基于接口调用的过程中调用失败，则可以无需长时间等待，基于可用的子待定回复文本得到回复文本即可，降低了回复文本的生成时间，提高了用户的体验感。此外，相比于仅使用一个对话模型，使用多个对话模型生成回复文本的方式提高了回复文本的生成成功率，提高了用户体验感。

下面对得到回复文本的两种方式分别进行说明。

方式一：融合方式。

作为一种可能的实现方式，确定第一待定回复文本中的第一适用文本，即确定第一待定回复文本中，适用于作为针对输入文本的回复文本的部分文本。确定第二待定回复文本中的第二适用文本，即确定第二待定回复文本中，适用于作为针对输入文本的回复文本的部分文本。根据第一适用文本和第二适用文本，得到针对输入文本的回复文本。

例如，拼接第一适用文本和第二适用文本，得到针对输入文本的回复文本。又如，在拼接第一适用文本和第二适用文本后，对其进行润色，如使得文本更为通顺等，得到针对输入文本的回复文本。

作为一种可能的实现方式，可以训练一个融合模型，通过融合模型得到回复文本，即根据第一待定回复文本和第二待定回复文本，通过融合模型确定第一待定回复文本中的第一适用文本和第二待定回复文本中的第二适用文本，并根据第一适用文本和第二适用文本得到针对输入文本的回复文本。

下面对融合模型的训练过程进行说明。

获取具有第一标签的第一待定回复文本样本，以及具有第二标签的第二待定回复文本样本，根据第一待定回复文本样本和第二待定回复文本样本，通过初始融合模型得到针对第一输入文本样本的第一预测回复文本，根据第一预测回复文本和标签之间的差异，调整初始融合模型的模型参数，得到融合模型。

其中，第一待定回复文本样本为根据第一输入文本样本和第一提示信息模板得到的待定回复文本，如根据第一输入文本样本和第一提示信息模板得到第一提示信息样本，根据第一提示信息样本，通过对话模型进行文本生成，得到第一待定回复文本样本。

同理，第二待定回复样本为根据第一输入文本样本和第二提示信息模板得到的待定回复文本，如根据第二输入文本样本和第二提示信息模板得到第二提示信息样本，根据第二提示信息样本，通过对话模型进行文本生成，得到第二待定回复文本样本。

然后对第一待定回复文本样本进行打标签，得到第一标签，对第二待定回复文本样本进行打标签，得到第二标签。其中，第一标签用于标识第一待定回复文本中适用于作为针对第一输入文本样本的回复文本的部分文本，第二标签用于标识第二待定回复文本中适用于作为针对第一输入文本样本的回复文本的部分文本。

最后根据第一预测回复文本和第一标签之间的差异，以及第一预测回复文本与第二标签之间的差异，调整初始融合模型的模型参数，得到融合模型，即标签包括第一标签和第二标签。

由此，基于同一输入文本样本，采用不同的提示信息模板分别生成不同的待定回复文本样本，然后根据这些待定回复文本样本，通过初始融合模型得到针对该输入文本样本的第一预测回复文本。基于待定回复文本样本的标签与第一预测回复文本之间的差异，调整初始融合模型的模型参数，使得调整后的初始融合模型输出的第一预测回复文本与标签越来越接近，得到训练完成的融合模型，以便基于融合模型确定第一待定回复文本中的第一适用文本和第二待定回复文本中的第二适用文本，并根据第一适用文本和第二适用文本得到针对输入文本的回复文本。该回复文本融合了不同待定回复文本中回复质量较好的部分文本，从而提高了回复文本的准确性，提高用户体验感。

方式二：选择方式。

作为一种可能的实现方式，确定第一待定回复文本的回复质量和第二待定回复文本的回复质量，该回复质量用于描述待定回复文本作为输入文本的回复文本的概率，然后将回复质量最高的待定回复文本确定为针对输入文本的回复文本。

作为一种可能的实现方式，可以训练一个排序模型，通过排序模型得到回复文本，即根据第一待定回复文本和第二待定回复文本，通过排序模型确定第一待定回复文本的回复质量和第二待定回复文本的回复质量，并将回复质量最高的待定回复文本确定为针对输入文本的回复文本。

下面对排序模型的训练过程进行说明。

获取针对第二输入文本样本的多个待定回复文本样本，根据多个待定回复文本样本，通过初始排序模型确定各个待定回复文本样本的回复质量，以及将回复质量最高的待定回复文本样本确定为针对第二输入文本样本的第二预测回复文本，根据第二预测回复文本和第三标签，调整初始排序模型的模型参数，得到排序模型。

其中，待定回复文本样本为根据第二输入文本样本和提示信息模板得到的待定回复文本。例如，根据第二输入文本和第一提示信息模板得到的第三待定回复文本样本与根据第二输入文本和第二提示信息模板得到的第四待定回复文本样本为不同的待定回复文本样本。

也就是说，多个待定回复文本样本是针对同一输入文本样本利用多提示信息模板生成的多个待定回复文本，并为多个待定回复文本样本增加第三标签，即第二输入文本样本具有用于标识回复质量的第三标签，第三标签标识多个待定回复文本样本中作为第二输入文本样本的回复文本的概率最高（即回复质量最好）的待定回复文本样本，以及作为第二输入文本样本的回复文本的概率最低（即回复质量最差）的待定回复文本样本。最后根据第二预测回复文本和第三标签之间的差异，调整初始融合模型的模型参数，使得第二预测回复文本与第三标签越来越接近，从而得到融合模型。

由此，通过第三标签引导初始排序模型明确针对同一输入文本样本，回复质量最好的待定回复文本样本和回复质量最差的待定回复文本样本，从而使得初始排序模型学习到针对同一输入文本样本得到的多个待定回复文本样本的回复质量的差异，不断调整初始排序模型的模型参数，得到排序模型。从而训练得到的排序模型能够确定针对同一输入文本样本的各个待定回复文本的回复质量，进而基于回复质量对各个待定回复文本进行排序，并输出回复质量最高的回复文本，提高回复文本的准确性。

本申请实施例不具体排序模型，本领域技术人员可以根据实际需要进行设置。作为一种可能的实现方式，可能会将ChatGPT模型作为前述对话模型，而且ChatGPT模型在打分排序功能上也有着优异的表现，因此可以之间将ChatGPT模型作为排序模型。

但是，经过研究发现，在调用ChatGPT模型的过程中，由于ChatGPT模型是外部模型，需要通过接口进行调用，受限于接口的稳定性，存在高延时、高失败率的情况，对于直播等对延时和成功率有较高要求的场景效果较差。

基于此，本申请实施例自行训练了排序模型，而非直接采用ChatGPT模型，下面以一种方式为例进行说明。采用大型开放科学开放获取多语言语言模型（BigScience LargeOpen-science Open-access Mul-tilingual Language Model，BLOOM）中模型参数规模为560M，即Bloomz-560m模型为基底模型进行奖励（reward）训练，得到排序模型。

具体地，针对第二输入文本样本，利用多提示信息模板生成的多个待定回复文本样本，并为多个待定回复文本样本增加第三标签，并根据第三标签、第二输入文本样本和多个待定回复文本样本，生成第三提示信息，第三提示信息可以如下所示：

我希望你充当一名直播间观众，你将从AI主播虚拟对象A对同一问题的若干回复中, 选择出最有节目效果、最幽默、最有反差感的一条回复。

问题：6。

虚拟对象A回答1：六，这是一个很有意思的数字啊。我不知道你在问什么，但我可以告诉你六个我喜欢的数字：1、2、3、4、5、7。

虚拟对象A回答2：你这是在考我吗？六啊，六啊，六六大顺。六六大顺，听起来有点像在玩游戏。

虚拟对象A回答3：6？啊，我突然想起来了，你知道吗，最近我在学习养鱼，养了6条金鱼，它们真是太可爱了！

虚拟对象A回答4：6？这可不是我的生日，这是我的饭后运动时间。

虚拟对象A回答5：哈喽直播间的小伙伴们，虚拟对象A在此！今天的直播我们要聊什么呢？是关于情感的话题吗？还是最近流行的娱乐八卦呢？不管是什么，只要大家开心，虚拟对象A就开心！不过，有一点虚拟对象A必须要强调的是，我们要保持友好，不要用语言伤害别人哦。我们要互相尊重，共同创造一个美好的直播环境。那么，让我们开始愉快的直播吧！

虚拟对象A回答6：6？哦，这是我在玩数字游戏吗？

请注意你只需要输出回复对应的序号。

在上述第三提示信息中，第二输入文本样本为问题，多个待定回复文本样本为虚拟对象A回答1-虚拟对象回答6。此外，第三标签为作为第二输入文本样本的回复文本的概率最高的待定回复文本样本是虚拟对象A回答1，作为第二输入文本样本的回复文本的概率最低的待定回复文本样本是虚拟对象A回答2。

将第三提示信息输入至Bloomz-560m模型中，通过Bloomz-560m模型确定各个待定回复文本样本的回复质量，以及将回复质量最高的待定回复文本样本确定为针对第二输入文本样本的第二预测回复文本，然后根据第二预测回复文本和第三标签，调整Bloomz-560m模型的模型参数，得到排序模型，即排序模型是Bloomz-560m模型微调后的模型，其可以确定各个待定回复文本的回复质量，从而基于回复质量得到最优的回复。

参见表7，示出了Bloomz-560m模型微调后的排序模型与将ChatGPT模型作为排序模型的效果对比。

表7

为了便于进一步理解本申请实施例提供的技术方案，下面以本申请实施例提供的回复文本的生成方法的执行主体为服务器，且为虚拟对象直播间获取的弹幕生成自动回复为例，对该回复文本的生成方法进行整体样例性介绍。

参见图3，该图为本申请实施例提供的一种回复文本的生成方法的应用场景示意图。

获取直播间的弹幕后，将直播间的弹幕作为输入文本，并获取第一提示信息模板、第二提示信息模板和第三提示信息模板。其中，第一提示信息模板如前述所示，第一提示信息模板包括虚拟对象的人设知识、游戏知识和网络用语知识。第二提示信息模板如前述所示，包括多个固定的、具有思维链的样例。第三提示信息模板如前述所示，包括多个可动态调节的、具有思维链的样例。

下面对基于输入文本和提示信息模板生成提示信息的过程进行说明。

（1）生成第一提示信息。

第一提示信息模板包括第一领域知识槽位、第二领域知识槽位、第三领域知识槽位和问题槽位，可以通过相似度匹配方式从领域知识库中获取各个知识槽位所需的领域知识。下面分别进行说明。

确定输入文本分别和第一领域知识库中各个第一领域问题之间的相似度，将相似度满足第一预设条件的第一领域问题对应的第一领域知识，确定为第一领域知识槽位的文本，即实现了将从第一领域知识库中筛选得到与输入文本相关的虚拟对象的人设知识嵌入到第一提示信息模板中。

确定输入文本分别和第二领域知识库中各个第二领域问题之间的相似度，将相似度满足第二预设条件的第二领域问题对应的第二领域知识，确定为第二领域知识槽位的文本，即实现了将从第二领域知识库中筛选得到与输入文本相关的游戏知识嵌入到第一提示信息模板中。

确定输入文本分别和第三领域知识库中各个第三领域问题之间的相似度，将相似度满足第四预设条件的第三领域问题对应的第三领域知识，确定为第三领域知识槽位的文本，即实现了将从第三领域知识库中筛选得到与输入文本相关的网络用语知识嵌入到第一提示信息模板中。

最后，将输入文本，确定为问题槽位的文本，根据第一领域知识槽位的文本、第二领域知识槽位的文本、第三领域知识槽位的文本和问题槽位的文本，生成第一提示信息。

（2）生成第二提示信息。

第二提示信息模板包括多个具有思维链的样例和问题槽位，将输入文本嵌入到第二提示信息模板中的问题槽位，得到第二提示信息。

（3）生成第三提示信息。

第三提示信息模板包括样例槽位和问题槽位，可以通过相似度匹配方式从样例库中获取样例槽位所需的样例。具体地，确定输入文本分别和样例库包括的多个样例的输入文本示例之间的相似度，根据输入文本分别和多个输入文本示例之间的相似度，确定符合第三预设条件的输入文本示例对应的目标样例，将目标样例确定为样例槽位对应的文本，将输入文本，确定为问题槽位的文本，根据样例槽位对应的文本和问题槽位的文本，得到第三提示信息。

然后对基于提示信息得到待定回复文本进行说明。

根据第一提示信息，通过第一对话模型进行文本生成，得到第一子待定回复文本；根据第二提示信息，通过第一对话模型进行文本生成，得到第三子待定回复文本；根据第三提示信息，通过第一对话模型进行文本生成，得到第五子待定回复文本。

根据第一提示信息，通过第二对话模型进行文本生成，得到第二子待定回复文本；根据第二提示信息，通过第二对话模型进行文本生成，得到第四子待定回复文本；根据第三提示信息，通过第二对话模型进行文本生成，得到第六子待定回复文本。

最后，根据第一子待定回复文本、第二子待定回复文本、第三子待定回复文本、第四子待定回复文本、第五子待定回复文本和第六子待定回复文本，通过排序模型确定各个子待定回复文本的回复质量，并将回复质量最高的子待定回复文本确定为针对输入文本的回复文本。

参见表8，对比了方案一（即使用单个提示信息模板，通过接口调用一个对话模型的方案）和本申请实施例。由表8可以看出，本申请实施例在时延几乎不变的情况下，回复质量提升了32.5%。

表8

其中，时延是指从得到弹幕到回复弹幕的时间。回复质量是指逻辑通顺、通识正确、答为所问、人设准确基础上有所润色、表达流畅生动（如接近人的回复），而且回复需好笑、令人舒服、有态度（即幽默感，甚至超越人的回复）。

由此，通过多种类的提示信息模板，提升了回复文本的回复质量和多样性。通过多种类的对话模型，结合不同对话模型的优势，不仅保证了回复的成功率，还提高了回复文本的回复质量。此外，多种类的提示信息模板和多种类的对话模型结合，可以产生更加丰富的内容，也为后续生成样例，形成业务数据闭环提供了成长空间。在实际场景应用中，还可以增加直播间的粉丝数量。

针对上文描述的回复文本的生成方法，本申请还提供了对应的回复文本的生成装置，以使上述回复文本的生成方法在实际中得以应用及实现。

参见图4，该图为本申请实施例提供的一种回复文本的生成装置的结构示意图。如图4所示，该回复文本的生成装置400包括：获取单元401、提示信息生成单元402、待定回复文本生成单元403和回复文本生成单元404；

所述获取单元401，用于获取输入文本、第一提示信息模板和第二提示信息模板，所述第一提示信息模板包括多个领域知识，所述第二提示信息模板包括具有思维链的样例；

所述提示信息生成单元402，用于根据所述输入文本和所述第一提示信息模板，生成第一提示信息，根据所述输入文本和所述第二提示信息模板，生成第二提示信息；

所述待定回复文本生成单元403，用于根据所述第一提示信息，通过所述对话模型进行文本生成，得到第一待定回复文本，根据所述第二提示信息，通过所述对话模型进行文本生成，得到第二待定回复文本；

所述回复文本生成单元404，用于根据所述第一待定回复文本和所述第二待定回复文本，得到针对所述输入文本的回复文本。

由上述技术方案可以看出，本申请实施例提供的回复文本的生成装置包括：获取单元、提示信息生成单元、待定回复文本生成单元和回复文本生成单元。通过获取单元获取输入文本、第一提示信息模板和第二提示信息模板，即不再仅使用一个提示信息模板，而是使用多个提示信息模板。而且，第一提示信息模板包括多个领域知识，以便通过多个领域知识指示对话模型生成回复文本，使得对话模型可以像人类一样具备多个领域知识。第二提示信息模板包括具有思维链的样例，以便通过思维链指示对话模型生成回复文本，使得对话模型可以像人类一样具备思维推理能力。也就是说，两个提示信息模板从不同维度指示对话模型更加拟人地生成回复文本。从而通过提示信息生成单元，基于第一提示信息模板和输入文本生成第一提示信息，基于第二提示信息模板和输入文本生成第二提示信息，进而通过待定回复文本生成单元，通过第一提示信息和第二提示信息，能够使得对话模型在生成回复文本的过程中，不仅拟人化地考虑多个领域知识，还能够拟人化地基于思维链的方式进行思考，从而通过回复文本生成单元，根据对话模型生成的第一待定回复文本和第二待定回复文本，得到针对输入文本的回复文本。

作为一种可能的实现方式，所述第一提示信息模板包括第一领域知识槽位、第二领域知识槽位和问题槽位，所述获取单元401，还用于获取第一领域知识库和第二领域知识库，所述第一领域知识库包括多个第一领域问题和各个所述第一领域问题对应的第一领域知识，所述第二领域知识库包括多个第二领域知识；

所述提示信息生成单元402，具体用于：

确定所述输入文本分别和多个所述第一领域问题之间的相似度；

根据所述输入文本分别和多个所述第一领域问题之间的相似度，将相似度满足第一预设条件的第一领域问题对应的第一领域知识，确定为所述第一领域知识槽位的文本；

根据多个所述第二领域知识，确定为所述第二领域知识槽位的文本；

将所述输入文本，确定为所述问题槽位的文本；

根据所述第一领域知识槽位的文本、所述第二领域知识槽位的文本和所述问题槽位的文本，生成第一提示信息。

作为一种可能的实现方式，所述第二领域知识库还包括与多个第二领域知识分别对应的第二领域问题，所述提示信息生成单元402，具体用于：

确定所述输入文本分别和多个所述第二领域问题之间的相似度；

根据所述输入文本分别和多个所述第二领域问题之间的相似度，将相似度满足第二预设条件的第二领域问题对应的第二领域知识，确定为所述第二领域知识槽位的文本。

作为一种可能的实现方式，若所述第一领域知识为与虚拟对象的人设相关的知识，且以第一人称描述所述第一领域知识，所述提示信息生成单元402，具体用于：

根据所述输入文本分别和多个所述第一领域问题之间的相似度，将相似度满足所述第一预设条件的第一领域问题对应的第一领域知识，确定为第一待定替换文本；

将所述第一待定替换文本中的第一人称替换为第二人称，得到所述第一待定文本对应的替换文本，并将所述替换文本确定为所述第一领域知识槽位的文本。

作为一种可能的实现方式，所述装置还包括构建单元，用于：

获取所述第一领域知识对应的原始问题；

根据所述原始问题，生成所述原始问题对应的相似问题，所述原始问题和所述相似问题之间的相似度大于第三预设阈值，所述第一领域问题包括所述原始问题和所述原始问题对应的相似问题；

根据所述原始问题、所述原始问题对应的相似问题，以及所述原始问题对应的第一领域知识，构建所述第一领域知识库。

获取其他领域知识库，所述其他领域知识库为包括其他场景知识和目标领域知识的领域知识库；

从所述其他领域知识库中筛选得到目标领域知识；

根据所述目标领域知识，得到所述第一领域知识库。

作为一种可能的实现方式，所述提示信息生成单元402，具体用于：

若根据所述输入文本分别和多个所述第一领域问题之间的相似度，确定所述第一领域知识库包括相似度满足所述第一预设条件的第一领域问题，则将相似度满足所述第一预设条件的第一领域问题对应的第一领域知识，确定为所述第一领域知识槽位的文本；

若根据所述输入文本分别和多个所述第一领域问题之间的相似度，确定所述第一领域知识库不包括相似度满足所述第一预设条件的第一领域问题，且所述输入文本与所述第一领域知识相关，则通过搜索引擎搜索用于回复所述输入文本的第二待定替换文本，并将所述第二待定替换文本确定为所述第一领域知识槽位的文本。

作为一种可能的实现方式，所述第二提示信息模板包括样例槽位和问题槽位，所述获取单元401，还用于获取样例库，所述样例库包括多个具有思维链的样例，所述样例包括输入文本示例、思维方式示例和回复文本示例；

所述提示信息生成单元402，具体用于：

确定所述输入文本分别和多个所述样例包括的输入文本示例之间的相似度；

根据所述输入文本分别和多个所述样例包括的输入文本示例之间的相似度，将符合第三预设条件的输入文本示例对应的样例确定为所述样例槽位的文本；

将所述输入文本，确定为所述问题槽位的文本；

根据所述样例槽位的文本和所述问题槽位的文本，生成第二提示信息。

作为一种可能的实现方式，所述第二提示信息还用于指示所述对话模型输出所述输入文本对应的思维方式，所述装置还包括添加单元，用于：

将所述输入文本作为目标输入文本示例，将所述输入文本对应的思维方式作为目标思维方式示例，将所述输入文本对应的回复文本作为目标回复文本示例；

根据所述目标输入文本示例、所述目标思维方式示例和所述目标回复文本示例，得到目标样例；

将所述目标样例添加至所述样例库。

作为一种可能的实现方式，所述获取单元401，还用于获取样例库，所述样例库包括多个具有思维链的样例，所述样例包括输入文本示例、思维方式示例和回复文本示例；

所述提示信息生成单元402，还用于：

根据所述输入文本分别和多个所述样例包括的输入文本示例之间的相似度，确定符合第三预设条件的输入文本示例对应的目标样例；

根据所述目标样例生成第三提示信息模板；

根据所述输入文本和所述第三提示信息模板，生成第三提示信息；

所述待定回复文本生成单元403，还用于根据所述第三提示信息，通过所述对话模型进行文本生成，得到第三待定回复文本；

所述回复文本生成单元404，具体用于根据所述第一待定回复文本、所述第二待定回复文本和所述第三待定回复文本，得到针对所述输入文本的回复文本。

作为一种可能的实现方式，所述对话模型包括第一对话模型和第二对话模型，所述第二对话模型为通过领域知识进行训练得到的模型，则所述待定回复文本生成单元403，具体用于：

根据所述第一提示信息，通过所述第一对话模型进行文本生成，得到第一子待定回复文本；

根据所述第一提示信息，通过所述第二对话模型进行文本生成，得到第二子待定回复文本，所述第一子待定回复文本和所述第二子待定回复文本属于所述第一待定回复文本；

根据所述第二提示信息，通过所述第一对话模型进行文本生成，得到第三子待定回复文本；

根据所述第二提示信息，通过所述第二对话模型进行文本生成，得到第四子待定回复文本，所述第三子待定回复文本和所述第四子待定回复文本属于所述第二待定回复文本；

所述回复文本生成单元404，具体用于根据所述第一子待定回复文本、所述第二子待定回复文本、所述第三子待定回复文本和所述第四子待定回复文本，得到针对所述输入文本的回复文本。

作为一种可能的实现方式，若所述第一子待定回复文本和所述第三子待定回复文本是通过接口调用所述第一对话模型得到的，则所述回复文本生成单元404，具体用于：

若在预设时间内获取所述第一子待定回复文本和所述第三子待定回复文本，则根据所述第一子待定回复文本、所述第二子待定回复文本、所述第三子待定回复文本和所述第四子待定回复文本，得到针对所述输入文本的回复文本；

若在所述预设时间内未获取所述第一子待定回复文本或所述第三子待定回复文本，则根据所述第二子待定回复文本和所述第四子待定回复文本，得到针对所述输入文本的回复文本。

作为一种可能的实现方式，所述回复文本生成单元404，具体用于：

根据所述第一待定回复文本和所述第二待定回复文本，通过融合模型得到针对所述输入文本的回复文本，所述融合模型用于确定所述第一待定回复文本中的第一适用文本和所述第二待定回复文本中的第二适用文本，并根据所述第一适用文本和所述第二适用文本得到针对所述输入文本的回复文本；

所述装置还包括训练单元，具体用于：

获取具有第一标签的第一待定回复文本样本，以及具有第二标签的第二待定回复文本样本，所述第一待定回复文本样本为根据第一输入文本样本和所述第一提示信息模板得到的待定回复文本，所述第二待定回复样本为根据所述第一输入文本样本和所述第二提示信息模板得到的待定回复文本，所述第一标签用于标识所述第一待定回复文本中适用于作为针对所述第一输入文本样本的回复文本的部分文本，所述第二标签用于标识所述第二待定回复文本中适用于作为针对所述第一输入文本样本的回复文本的部分文本；

根据所述第一待定回复文本样本和所述第二待定回复文本样本，通过初始融合模型得到针对所述第一输入文本样本的第一预测回复文本；

根据所述第一预测回复文本和标签之间的差异，调整所述初始融合模型的模型参数，得到所述融合模型，所述标签包括所述第一标签和所述第二标签。

根据所述第一待定回复文本和所述第二待定回复文本，通过排序模型得到针对所述输入文本的回复文本，所述排序模型用于确定所述第一待定回复文本的回复质量和所述第二待定回复文本的回复质量，并将回复质量最高的待定回复文本确定为针对所述输入文本的回复文本；

所述装置还包括训练单元，具体用于：

获取针对第二输入文本样本的多个待定回复文本样本，不同所述待定回复文本样本为根据不同提示信息模板得到的待定回复文本，所述第二输入文本样本具有用于标识回复质量的第三标签，所述第三标签用于标识多个所述待定回复文本样本中作为所述第二输入文本样本的回复文本的概率最高的待定回复文本样本，以及作为所述第二输入文本样本的回复文本的概率最低的待定回复文本样本；

根据多个所述待定回复文本样本，通过初始排序模型确定各个所述待定回复文本样本的回复质量，以及将回复质量最高的待定回复文本样本确定为针对所述第二输入文本样本的第二预测回复文本；

根据所述第二预测回复文本和所述第三标签，调整所述初始排序模型的模型参数，得到所述排序模型。

作为一种可能的实现方式，若所述输入文本为从直播间获取的弹幕，则所述获取单元401，具体用于：

获取弹幕和发送所述弹幕的账号信息；

根据所述账号信息，从所述弹幕中确定所述输入文本。

作为一种可能的实现方式，若所述输入文本为虚拟对象直播间获取的弹幕，则所述第一提示信息模板包括虚拟对象的人设知识、游戏知识和网络用语知识。

本申请实施例还提供了一种计算机设备，该计算机设备可以为服务器或者终端设备，下面将从硬件实体化的角度对本申请实施例提供的计算机设备进行介绍。其中，图5所示为服务器的结构示意图，图6所示为终端设备的结构示意图。

参见图5，该图为本申请实施例提供的一种服务器结构示意图，该服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器1422，如中央处理器（Central Processing Units，CPU），存储器1432，一个或一个以上应用程序1442或数据1444的存储介质1430（例如一个或一个以上海量存储设备）。其中，存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，处理器1422可以设置为与存储介质1430通信，在服务器1400上执行存储介质1430中的一系列指令操作。

服务器1400还可以包括一个或一个以上电源1426，一个或一个以上有线或无线网络接口1450，一个或一个以上输入输出接口1458，和/或，一个或一个以上操作系统1441，例如Windows Server^TM，Mac OS X^TM，Unix^TM, Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该图5所示的服务器结构。

其中，处理器1422用于执行如下步骤：

可选的，处理器1422还可以执行本申请实施例中回复文本的生成方法任一具体实现方式的方法步骤。

参见图6，该图为本申请实施例提供的一种终端设备的结构示意图。以该终端设备是智能手机为例进行说明，图6示出的是该智能手机的部分结构的框图，该智能手机包括：射频（Radio Frequency，简称RF）电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真（简称WiFi）模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解，图6中示出的智能手机结构并不构成对智能手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图6对智能手机的各个构成部件进行具体的介绍：

RF电路1510可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1580处理；另外，将设计上行的数据发送给基站。

存储器1520可用于存储软件程序以及模块，处理器1580通过运行存储在存储器1520的软件程序以及模块，从而实现智能手机的各种功能应用以及数据处理。

输入单元1530可用于接收输入的数字或字符信息，以及产生与智能手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1530可包括触控面板1531以及其他输入设备1532。触控面板1531，也称为触摸屏，可收集用户在其上或附近的触摸操作，并根据预先设定的程式驱动相应的连接装置。除了触控面板1531，输入单元1530还可以包括其他输入设备1532。具体地，其他输入设备1532可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1540可用于显示由用户输入的信息或提供给用户的信息以及智能手机的各种菜单。显示单元1540可包括显示面板1541，可选的，可以采用液晶显示器（LiquidCrystal Display，简称LCD）、有机发光二极管（Organic Light-Emitting Diode，简称OLED）等形式来配置显示面板1541。

智能手机还可包括至少一种传感器1550，比如光传感器、运动传感器以及其他传感器。至于智能手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1560、扬声器1561，传声器1562可提供用户与智能手机之间的音频接口。音频电路1560可将接收到的音频数据转换后的电信号，传输到扬声器1561，由扬声器1561转换为声音信号输出；另一方面，传声器1562将收集的声音信号转换为电信号，由音频电路1560接收后转换为音频数据，再将音频数据输出处理器1580处理后，经RF电路1510以发送给比如另一智能手机，或者将音频数据输出至存储器1520以便进一步处理。

处理器1580是智能手机的控制中心，利用各种接口和线路连接整个智能手机的各个部分，通过运行或执行存储在存储器1520内的软件程序和/或模块，以及调用存储在存储器1520内的数据，执行智能手机的各种功能和处理数据。可选的，处理器1580可包括一个或多个处理单元。

智能手机还包括给各个部件供电的电源1590（比如电池），优选的，电源可以通过电源管理系统与处理器1580逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，智能手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该智能手机所包括的存储器1520可以存储计算机程序，并将所述计算机程序传输给所述处理器。

该智能手机所包括的处理器1580可以根据所述计算机程序中的指令执行上述实施例提供的回复文本的生成方法。

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行上述实施例提供的回复文本的生成方法。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面的各种可选实现方式中提供的回复文本的生成方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器（英文：Read-Only Memory，缩写：ROM）、RAM、磁碟或者光盘等各种可以存储计算机程序的介质。

本申请实施例中，术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分，并与其他相关部分一起工作以实现预定目标，并且可以通过使用软件、硬件（如处理电路或存储器）或其组合来全部或部分实现。同样的，一个处理器（或多个处理器或存储器）可以用来实现一个或多个模块或单元。此外，每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。本申请在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种回复文本的生成方法，其特征在于，所述方法包括：

根据所述第一提示信息，通过对话模型进行文本生成，得到第一待定回复文本，根据所述第二提示信息，通过所述对话模型进行文本生成，得到第二待定回复文本；

2.根据权利要求1所述的方法，其特征在于，所述第一提示信息模板包括第一领域知识槽位、第二领域知识槽位和问题槽位，所述方法还包括：

获取第一领域知识库和第二领域知识库，所述第一领域知识库包括多个第一领域问题和各个所述第一领域问题对应的第一领域知识，所述第二领域知识库包括多个第二领域知识；

所述根据所述输入文本和所述第一提示信息模板，生成第一提示信息，包括：

将所述输入文本，确定为所述问题槽位的文本；

3.根据权利要求2所述的方法，其特征在于，所述第二领域知识库还包括与多个第二领域知识分别对应的第二领域问题，所述根据多个所述第二领域知识，确定为所述第二领域知识槽位的文本，包括：

4.根据权利要求2所述的方法，其特征在于，若所述第一领域知识为与虚拟对象的人设相关的知识，且以第一人称描述所述第一领域知识，所述根据所述输入文本分别和多个所述第一领域问题之间的相似度，将相似度满足第一预设条件的第一领域问题对应的第一领域知识，确定为所述第一领域知识槽位的文本，包括：

将所述第一待定替换文本中的第一人称替换为第二人称，得到第一待定文本对应的替换文本，并将所述替换文本确定为所述第一领域知识槽位的文本。

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取所述第一领域知识对应的原始问题；

6.根据权利要求2所述的方法，其特征在于，所述方法还包括：

从所述其他领域知识库中筛选得到目标领域知识；

根据所述目标领域知识，得到所述第一领域知识库。

7.根据权利要求2所述的方法，其特征在于，所述根据所述输入文本分别和多个所述第一领域问题之间的相似度，将相似度满足第一预设条件的第一领域问题对应的第一领域知识，确定为所述第一领域知识槽位的文本，包括：

8.根据权利要求1所述的方法，其特征在于，所述第二提示信息模板包括样例槽位和问题槽位，所述方法还包括：

获取样例库，所述样例库包括多个具有思维链的样例，所述样例包括输入文本示例、思维方式示例和回复文本示例；

所述根据所述输入文本和所述第二提示信息模板，生成第二提示信息，包括：

将所述输入文本，确定为所述问题槽位的文本；

9.根据权利要求8所述的方法，其特征在于，所述第二提示信息还用于指示所述对话模型输出所述输入文本对应的思维方式，所述方法还包括：

将所述目标样例添加至所述样例库。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述目标样例生成第三提示信息模板；

根据所述第三提示信息，通过所述对话模型进行文本生成，得到第三待定回复文本；

所述根据所述第一待定回复文本和所述第二待定回复文本，得到针对所述输入文本的回复文本，包括：

根据所述第一待定回复文本、所述第二待定回复文本和所述第三待定回复文本，得到针对所述输入文本的回复文本。

11.根据权利要求1所述的方法，其特征在于，所述对话模型包括第一对话模型和第二对话模型，所述第二对话模型为通过领域知识进行训练得到的模型，则所述根据所述第一提示信息，通过所述对话模型进行文本生成，得到第一待定回复文本，包括：

所述根据所述第二提示信息，通过所述对话模型进行文本生成，得到第二待定回复文本，包括：

根据所述第一子待定回复文本、所述第二子待定回复文本、所述第三子待定回复文本和所述第四子待定回复文本，得到针对所述输入文本的回复文本。

12.根据权利要求11所述的方法，其特征在于，若所述第一子待定回复文本和所述第三子待定回复文本是通过接口调用所述第一对话模型得到的，则所述根据所述第一子待定回复文本、所述第二子待定回复文本、所述第三子待定回复文本和所述第四子待定回复文本，得到针对所述输入文本的回复文本，包括：

13.根据权利要求1所述的方法，其特征在于，所述根据所述第一待定回复文本和所述第二待定回复文本，得到针对所述输入文本的回复文本，包括：

所述融合模型的训练方式如下：

14.根据权利要求1所述的方法，其特征在于，所述根据所述第一待定回复文本和所述第二待定回复文本，得到针对所述输入文本的回复文本，包括：

所述排序模型的训练方式如下：

15.根据权利要求1所述的方法，其特征在于，若所述输入文本为从直播间获取的弹幕，则所述获取输入文本，包括：

获取弹幕和发送所述弹幕的账号信息；

根据所述账号信息，从所述弹幕中确定所述输入文本。

16.根据权利要求1-15任意一项所述的方法，其特征在于，若所述输入文本为虚拟对象直播间获取的弹幕，则所述第一提示信息模板包括虚拟对象的人设知识、游戏知识和网络用语知识。

17.一种回复文本的生成装置，其特征在于，所述装置包括：获取单元、提示信息生成单元、待定回复文本生成单元和回复文本生成单元；

所述待定回复文本生成单元，用于根据所述第一提示信息，通过对话模型进行文本生成，得到第一待定回复文本，根据所述第二提示信息，通过所述对话模型进行文本生成，得到第二待定回复文本；

18.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述处理器用于根据所述计算机程序执行权利要求1-16中任意一项所述的方法。

19.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-16中任意一项所述的方法。

20.一种包括计算机程序的计算机程序产品，其特征在于，当其在计算机设备上运行时，使得所述计算机设备执行权利要求1-16中任意一项所述的方法。