CN117556007A

CN117556007A - 对话处理方法及装置、对话模型的训练方法及装置

Info

Publication number: CN117556007A
Application number: CN202311511483.7A
Authority: CN
Inventors: 阎覃; 翁秋洁; 李善浩; 彭向楠; 柳景明
Original assignee: Beijing Ape Power Future Technology Co Ltd
Current assignee: Beijing Ape Power Future Technology Co Ltd
Priority date: 2023-11-13
Filing date: 2023-11-13
Publication date: 2024-02-13

Abstract

本说明书实施例提供了一种对话处理方法及装置、对话模型的训练方法及装置，应用于终端设备，所述方法包括：获取待处理的目标对话文本；将所述目标对话文本输入目标对话模型，获得针对所述目标对话文本的目标回复文本，其中，所述目标对话模型基于样本文本对和样本提示文本训练得到，所述样本文本对包括样本对话文本和样本回复文本，所述样本回复文本为将所述样本对话文本输入服务端的文本对话模型得到，所述样本提示文本基于输入所述文本对话模型的初始提示文本得到；基于所述目标回复文本，向前端用户反馈回复消息；该方法可以提升对话的流畅度。

Description

对话处理方法及装置、对话模型的训练方法及装置

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种对话处理方法；同时还涉及一种对话处理装置，一种对话模型的训练方法，一种对话模型的训练装置，一种计算设备，以及一种计算机可读存储介质。

背景技术

随着计算机技术的发展，已经可以利用不同的神经网络模型实现相应的功能。

例如计算机可以利用对话模型与用户进行自然语言交互，如可以通过该对话模型输出文本来回答用户的问题，完成用户设定的任务，以及为用户提供建议等。

但是，利用目前的对话模型进行对话的流畅度较低。

发明内容

有鉴于此，本说明书实施例提供了一种对话处理方法。本说明书一个或者多个实施例同时涉及一种对话处理装置，一种对话模型的训练方法，一种对话模型的训练装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，可以提升对话的流畅度。

根据本说明书实施例的一方面，提供了一种对话处理方法，应用于终端设备，所述方法包括：

获取待处理的目标对话文本；

将所述目标对话文本输入目标对话模型，获得针对所述目标对话文本的目标回复文本，其中，所述目标对话模型基于样本文本对和样本提示文本训练得到，所述样本文本对包括样本对话文本和样本回复文本，所述样本回复文本为将所述样本对话文本输入服务端的文本对话模型得到，所述样本提示文本基于输入所述文本对话模型的初始提示文本得到；

基于所述目标回复文本，向前端用户反馈回复消息。

根据本说明书实施例的另一方面，提供了一种对话模型的训练方法，应用于终端设备，所述方法包括：

获取初始提示文本，并接收用户输入的样本对话文本；

将所述初始提示文本和所述样本对话文本输入服务端的文本对话模型，获得所述服务端基于所述初始提示文本反馈的样本回复文本；

基于所述初始提示文本，生成样本提示文本；

基于所述样本提示文本和样本文本对，对初始对话模型进行训练得到目标对话模型，其中，所述样本文本对包括所述样本对话文本和所述样本回复文本。

根据本说明书实施例的再一方面，提供了一种对话处理装置，应用于终端设备，所述对话处理装置包括：

第一获取模块，用于获取待处理的目标对话文本；

第二获取模块，用于将所述目标对话文本输入目标对话模型，获得针对所述目标对话文本的目标回复文本，其中，所述目标对话模型基于样本文本对和样本提示文本训练得到，所述样本文本对包括样本对话文本和样本回复文本，所述样本回复文本为将所述样本对话文本输入服务端的文本对话模型得到，所述样本提示文本基于输入所述文本对话模型的初始提示文本得到；

反馈模块，用于基于所述目标回复文本，向前端用户反馈回复消息。

根据本说明书实施例的又一方面，提供了一种对话模型的训练装置，应用于终端设备，所述对话模型的训练装置包括：

第一获取模块，用于获取初始提示文本，并接收用户输入的样本对话文本；

第二获取模块，用于将所述初始提示文本和所述样本对话文本输入服务端的文本对话模型，获得所述服务端基于所述初始提示文本反馈的样本回复文本；

文本生成模块，用于基于所述初始提示文本，生成样本提示文本；

训练模块，用于基于所述样本提示文本和样本文本对，对初始对话模型进行训练得到目标对话模型，其中，所述样本文本对包括所述样本对话文本和所述样本回复文本。

根据本说明书实施例的又一方面，提供了一种计算设备，包括：存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述方法的步骤。

根据本说明书实施例的再一方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述方法的步骤。

根据本说明书实施例的又一方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述方法的步骤。

本说明书一个实施例中，终端设备可以将目标对话文本输入目标对话模型，得到针对目标对话文本的目标回复文本，以基于目标回复文本向前端用户反馈回复消息。目标对话模型基于输入服务端的文本对话模型的样本对话文本，从该文本对话模型得到的样本回复文本，以及基于输入该文本对话模型的初始提示文本得到的样本提示文本训练得到。如此该目标对话模型采用的训练数据均基于服务端的文本对话模型得到，该训练数据可以较为充足，且目标对话模型部署在终端设备本地，目标对话模型仅需针对终端设备获取到的目标对话文本输出目标回复文本即可。因此目标对话模型的性能可以较好，并且目标对话模型需要处理的数据量较少，可以提升目标回复文本的生成效率，相应地可以提升向用户反馈回复消息的效率，提升对话的流畅度。

附图说明

图1是本说明书一实施例提供的一种对话处理方法的流程图；

图2是本说明书一实施例提供的一种目标对话模型的训练方法的流程图；

图3是本说明书一实施例提供的另一种目标对话模型的训练方法的流程图；

图4是本说明书一实施例提供的一种对话处理装置的结构示意图；

图5是本说明书一实施例提供的一种对话模型的训练装置的结构示意图；

图6是本说明书一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。本说明书一个或多个实施例中的术语“至少一个”指的是“一个或多个”，“多个”指的是“两个或两个以上”。术语“包括”为开放性的描述，应当理解为“包括但不限定”，在已描述的内容的基础上还可能包括其他内容。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语“第一”、“第二”等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，“第一”也可以被称为“第二”，类似地，“第二”也可以被称为“第一”。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

此外，本说明书一个或多个实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关的标准和要求，并提供有相应的操作入口，供用户选择授权或者拒绝。

目前，在人们的工作及生活中各种人工智能模型备受青睐。示例地，生成式预训练变换(Generative Pre-trained Transformer，GPT)模型被广泛使用。GPT模型是一种基于自然语言处理技术的人工智能模型，由OpenAI团队开发。GPT模型利用预训练技术，可以生成接近人类语言风格的文本，被广泛应用于自动问答、文本生成、语言翻译等领域。目前还存在一些基于GPT模型开发的其他模型，例如ChatGPT模型是一款基于GPT模型的对话模型，属于一种大型语言模型。采用ChatGPT模型可以生成较为自然流畅的文本，以与用户进行自然语言交互，如可以回答用户的问题、完成用户提交的任务以及向用户提供建议等。

ChatGPT模型由OpenAI团队部署在服务端，在使用ChatGPT模型进行对话的过程中，终端设备需要将对话过程中使用的数据均上传到该服务端。并且，ChatGPT模型是一种通用任务模型，输入的可以是很多类型的文本，ChatGPT模型均可以相应地输出对应的回复文本，故ChatGPT模型的规模较大。如ChatGPT模型可以进行不同领域的知识问答，基于用户的要求进行故事创作等。ChatGPT模型用于向众多的终端设备提供服务，该模型需要处理的数据量较为庞大，故对各个终端设备的信息反馈效率较低，相应地会造成用户的等待，使得对话的流畅度较低。

对话模型通常基于Transformer或循环神经网络(Recurrent Neural Networks，RNN)来实现，且对话模型通常需要具有较为复杂的逻辑判断能力和推理能力，相应地需要使用大量的训练数据来训练模型，以保证模型的性能和效果。而这些训练数据通常需要人工进行标注，如需要人工构建对话文本的回复文本，该工作量过于庞大，因此较难保证训练数据足够充足，进而会限制模型的性能和使用效果。

本说明书实施例中提供了一种应用于终端设备的对话处理方法，其中采用目标对话模型输出回复文本，该模板对话模型的训练数据可以较为充足，该目标对话模型的性能可以较好，进而可以提升对话流畅度。本说明书实施例同时涉及一种对话处理装置，一种对话模型的训练方法，一种对话模型的训练装置，一种计算设备，一种计算机可读存储介质。该对话处理装置、对话模型的训练装置和该计算设备均可以为上述终端设备。

图1是本说明书实施例提供的一种对话处理方法，该方法可以用于终端设备。如图1所示，该对话处理方法可以包括如下步骤：

步骤102、获取待处理的目标对话文本。

终端设备中可以安装有对话应用程序，前端用户可以通过对话应用程序与终端设备进行语音对话或者文本对话。示例地，该对话应用程序可以为口语训练应用程序，如英语口语训练应用程序或其他语言的口语训练应用程序。可选地，该对话应用程序可以面向幼儿的英语口语训练程序，帮助幼儿进行口语对话练习。口语对话练习是指通过与其他人进行口头交流来提高口语表达能力的练习方式，这种练习可以帮助提高用户的语言流利程度、语音准确性、发音清晰度、词汇量和语法能力。

终端设备可以基于用户输入的信息，获取待处理的目标对话文本。示例地，用户可以直接输入该目标对话文本。又示例地，用户可以向终端设备输入语音信息，终端设备可以对该语音信息进行语音识别，以将该语音信息转换为待处理的目标对话文本。

步骤104、将目标对话文本输入目标对话模型，获得针对目标对话文本的目标回复文本；其中，目标对话模型基于样本文本对和样本提示文本训练得到，样本文本对包括样本对话文本和样本回复文本，样本回复文本为将样本对话文本输入服务端的文本对话模型得到，样本提示文本基于输入文本对话模型的初始提示文本得到。

终端设备在获取到目标对话文本后，可以针对该目标对话文本生成目标回复文本。终端设备可以使用目标对话模型基于该目标对话文本进行推理，以得到该目标回复文本。

目标对话模型可以为对服务端的规模较大的文本对话模型进行知识蒸馏(Knowledge Distillation)，得到的规模较小的模型。知识蒸馏是一种将大型神经网络模型压缩成小型模型的技术。通过将大模型的知识转移到小模型中，可以使小模型在保持大模型性能的同时，减少对计算资源的消耗，可以有效地提高模型的性能和效率。示例地，本说明书实施例提供的对话处理方法可以用于幼儿英语口语对话场景，该场景中无需模型具有复杂的逻辑判断和推理能力，可以较适合利用知识蒸馏技术将大语言模型(如文本对话模型)的语言风格和输出格式迁移到小模型(如目标对话模型)上。

服务端的文本对话模型可以基于样本对话文本生成样本回复文本，文本对话模型在生成该样本回复文本时还可以结合初始提示文本。该样本对话文本可以由用户通过终端设备输入，该样本回复文本为样本对话文本的回复文本。本说明书实施例中所述的提示文本指的是自然语言提示信息(如prompt)。在自然语言处理领域，prompt指向机器学习模型提供的输入文本或语言提示信息，用于引导模型生成或回答某个特定的问题或完成某个特定的任务。示例地，服务端的文本对话模型可以为GPT模型，如GPT4、GPT3.5或GPT3。

终端设备可以基于服务端的文本对话模型，获取目标对话模型的训练所需的数据。如终端设备可以获取输入文本对话模型的初始提示文本和样本对话文本，且获取文本对话模型输出的样本回复文本。终端设备从服务端可以获取较多的样本对话文本及其样本回复文本的数量，以便于得到较为充足的训练数据。

终端设备可以基于获取的样本对话文本和样本回复文本，确定多个样本文本对，以将该多个样本文本对作为目标对话模型的训练数据。每个样本文本对可以包括一个样本对话文本及其对应的样本回复文本，该样本对话文本可以为训练样本，该样本回复文本可以作为样本对话文本的标签。示例地，终端设备可以在获取的多个样本对话文本和多个样本回复文本中进行筛选，以得到用于训练目标对话模型的样本文本对。

终端设备还可以基于获取的初始提示文本，得到目标对话模型的训练所需的样本提示文本。样本提示文本的字符数可以少于初始提示文本的字符数。示例地，可以对初始提示文本进行关键信息提取，得到该样本提示文本。该关键信息提取的过程也可以称为对初始提示文本进行总结的过程。目标对话模型基于该数据量较小的样本提示文本进行训练，可以减少处理的数据量，提升训练效率。

在获取到训练目标对话模型所需的数据(也即样本文本对和样本提示文本)后，终端设备便可以基于该样本文本对和样本提示文本，对初始对话模型进行训练得到目标对话模型。

本说明书实施例中，目标对话模型可以在终端设备本地部署，进行对话的过程中无需将对话相关数据(如目标对话文本)传输至服务端，如可以存储在本地的内网服务器中，可以规避安全风险。并且，无需将目标对话文本上传到服务端，故可以减少网络延迟，加速模型的推理速度。目标对话模型训练所需的数据可以从文本对话模型获取，也即是可以通过人工智能模型生成，无需人工手动标注训练数据，故可以减少人工成本，且有利于简易地获取到充足的训练数据。由于可以用充足的训练数据对目标对话模型进行训练，故可以提升训练得到的目标对话模型的性能和效果。

步骤106、基于目标回复文本，向前端用户反馈回复消息。

本说明书实施例中，终端设备向前端用户反馈的回复消息的展示形式，与进行对话所基于的应用程序的功能相关。示例地，若前端用户基于口语训练应用程序进行对话，则步骤102中用户则可以输入语音信息，相应地步骤106中终端设备将目标回复文本转换为语音形式的回复消息，并向前端用户反馈该语音形式的回复消息。

可选地，终端设备在接收到用户输入的语音信息后，可以将该语音信息转换后的目标对话文本也进行显示。终端设备也可以同时以文本形式和语音形式向前端用户反馈回复消息。

上述内容中以终端设备将目标对话文本输入目标对话模型，便可得到目标对话模型输出的目标回复文本为例。示例地，目标对话模型可以对目标对话文本进行分析以确定相应的样本提示文本，进而再基于该样本提示文本和目标对话文本生成目标回复文本。

下面对基于目标对话文本获得目标回复文本的其他几种可选实现方式进行介绍，且下述介绍以目标对话文本由用户直接输入为例。对于用户输入语音信息的情况，仅需在下述的可选实现方式中得到目标对话文本之前增添一步语音转换的步骤，在得道目标回复文本之后增添一步转换为语音信息输出的步骤，故对于该情况下的处理方式不再额外展开介绍。

在第一种可选实现方式中，终端设备可以将目标对话文本和样本提示文本均输入目标对话模型，进而目标对话模型才输出目标回复文本。目标对话模型需处理的目标提示文本的数据量较小，故可以提升目标对话模型的数据处理效率，提升输出目标回复文本的效率。

样本提示文本可以包括多种主题的样本提示内容。针对不同的目标对话文本，终端设备可以在样本提示文本中确定对应主题的样本提示内容，以将目标对话文本及其对应主题的样本提示内容输入目标对话模型，以便于目标对话模型输出更符合用户需求的目标回复文本。例如，针对目标对话文本，终端设备可以在样本提示文本中随机确定一种主题的样本提示内容；或者终端设备也可以对输入目标对话文本的用户的信息进行分析，以确定该用户适合的主题的初始提示内容。

在第二种可选实现方式中，终端设备可以将目标对话文本及其历史对话数据均输入目标对话模型，进而目标对话模型才输出目标回复文本。在此基础上，终端设备还向目标对话模型输入样本提示文本，关于样本提示文本请参考前述介绍。该历史对话数据指的是与目标对话文本属于同一次对话中的对话文本和回复文本。一次对话可以包括至少一轮对话，每轮对话可以包括一个对话文本及其回复文本，同一次对话中相邻的对话文本和回复文本之间的时间间隔需小于时长阈值。若相对上一对话文本或回复文本，用户超过时长阈值才再次输入对话文本，则可以认为上一次对话已结束，用户重新触发了一次对话。

示例地，用户与终端设备的一次对话包括用户输入的“hello”，目标对话模型输出的“hi！What's your name？”，用户输入的“My name is John”，目标对话模型输出的“HiJohn Howe Shea！How old are you？”。其中的“hello”以及“My name is John”为两个目标对话文本，“hi！What's your name？”为目标对话文本“hello”对应的目标回复文本，“HiJohn Howe Shea！How old are you？”为目标对话文本“My name is John”对应的目标回复文本。当用户输入“hello”时，终端设备可以将样本提示文本和“hello”均输入目标对话模型，以使目标对话模型推理出目标回复文本“hi！What's your name？”。之后，用户输入“Myname is John”，终端设备可以将样本提示文本、“hello”、“hi！What's your name？”和“Myname is John”均输入目标对话模型，以使目标对话模型推理出目标回复文本“Hi JohnHowe Shea！How old are you？”。

可选地，可以针对每次对话设定对话轮数阈值。若对话轮次达到该轮数阈值，则目标对话模型可以输出指示结束对话的回复文本。如该轮数阈值可以为12，或者也可以为15或其他数值。在该轮数阈值的限制下，一次对话中的总字符不会过多。此种情况下可以针对一次对话，将其中的任一目标对话文本及其所有历史对话数据均输入目标对话模型，以供目标对话模型输出目标回复文本。

可选地，输入的目标对话文本及其历史对话数据的总字符数可以小于或等于设定阈值。若某一次对话中当前的目标对话文本及其所有历史对话数据的总字符数大于设定阈值，则可以对该历史对话数据进行截取，以使目标对话文本及截取后的历史对话数据的总字符数小于或等于设定阈值，再输入目标对话模型。

上述内容中以一次对话中由用户先输入目标对话文本为例。在一种可选实现方式中，一次对话中也可以由目标对话模型先输出对话文本。示例地，在用户触发终端设备启动应用程序打开聊天界面时，终端设备可以向目标对话模型输入样本提示文本。目标对话模型可以基于该样本提示文本输出第一句对话文本，如“Nice！What's your name？”。之后的对话过程可以参考上述两种可选实现方式，本说明书实施例不再赘述。

可选地，样本提示文本中可以包含情绪信息，相应地，目标对话模型输出的目标回复文本中也可以包含情绪信息。仍沿用上述的示例，目标对话模型输出的包含情绪信息的目标回复文本可以包括“[excited]Nice！[curious]What's your name？”和“[happy]HiJohn Howe Shea！[curious]How old are you？”，其中方括号中的词用于反映情绪信息。

在向用户反馈回复消息时，该情绪信息可以用表情符号的方式展示。若向用户反馈的是语音形式的回复消息，可以基于该情绪信息调整语音形式的回复消息的语气。

综上所述，本说明书实施例提供的对话处理方法中，终端设备可以将目标对话文本输入目标对话模型，得到针对目标对话文本的目标回复文本，以基于目标回复文本向前端用户反馈回复消息。目标对话模型基于输入服务端的文本对话模型的样本对话文本，从该文本对话模型得到的样本回复文本，以及基于输入该文本对话模型的初始提示文本得到的样本提示文本训练得到。如此该目标对话模型采用的训练数据均基于服务端的文本对话模型得到，该训练数据可以较为充足，且目标对话模型部署在终端设备本地，目标对话模型仅需针对终端设备获取到的目标对话文本输出目标回复文本即可。因此目标对话模型的性能可以较好，并且目标对话模型需要处理的数据量较少，可以提升目标回复文本的生成效率，相应地可以提升向用户反馈回复消息的效率，提升对话的流畅度。

在图1中的步骤104之前，可以先进行模型训练得到目标对话模型。图2是本说明书一实施例提供的一种目标对话模型的训练方法的流程图，该方法可以用于终端设备，如该方法可以为本说明书实施例中提供的对话处理方法中的一部分。此处的终端设备可以不同于执行图1的对话处理方法的终端设备，或者也可以与执行对话处理方法的终端设备相同，本说明书实施例不做限定。针对图1的介绍与下述针对图2的介绍中的相似内容可以相互参考。如图2所示，该目标对话模型的训练方法可以包括：

步骤202、获取服务端的文本对话模型的初始提示文本，并接收用户输入的样本对话文本。

关于提示文本可以参考上述步骤104中的相关介绍，本说明书实施例中对前面介绍过的内容不再赘述。初始提示文本可以是为服务端的文本对话模型预先设定的提示文本，终端设备可以直接获取该初始提示文本。初始提示文本可以指示文本对话模型生成回复文本所需依照的特性。

本说明书实施例中的文本对话模型是基于prompt工程构建的，该文本对话模型对应的应用产品可以为一聊天机器人。prompt工程(prompt Engineering)是一种自然语言处理技术，旨在通过各种策略调整大型语言模型(如该文本对话模型)的输入，来生成更准确更有用的文本输出。该初始提示文本即是基于prompt工程确定的需输入文本对话模型的信息。

用户可以通过在终端设备上进行操作，以输入样本对话文本。示例地，用户可以通过终端设备访问服务端，以调用文本对话模型所对应的应用产品，进而可以基于该应用产品对应的信息输入页面输入样本对话文本。

在一些实施方式中，可以通过多个终端设备访问服务端，对于每个终端设备均可以有用户输入样本对话文本。本说明书实施例中用于执行图2的方法的终端设备，可以为该多个终端设备中的任一个。

步骤204、将初始提示文本和样本对话文本输入文本对话模型，获得服务端基于初始提示文本反馈的针对该样本对话文本的样本回复文本。

在一些实施方式中，初始提示文本可以包括多种不同的提示内容，如多种不同主题的初始提示内容。在用户发起对话时，终端设备会在初始提示文本中确定该次对话对应的初始提示内容。如终端设备可以随机确定初始提示内容，或者也可以对发起对话的用户的信息进行分析，以确定该用户适合的主题的初始提示内容。在获取到用户输入的样本对话文本后，可以将初始提示文本中相应的初始提示内容和该样本对话文本输入服务端的文本对话模型。文本对话模型可以基于该初始提示内容和样本对话文本进行推理，以输出针对该样本对话文本的样本回复文本。服务端可以将文本对话模型输出的样本回复文本传输向终端设备。

可选地，初始提示文本也可以仅包括一种提示内容，针对所有的样本对话文本均相应地向文本对话模型输入该种提示内容，本说明书实施例对初始提示文本的具体内容不做限定。

步骤206、基于初始提示文本，生成样本提示文本。

终端设备可以对初始提示文本进行一定地处理，得到样本提示文本。示例地，终端设备可以对初始提示文本进行裁剪，以减少提示文本的字符数。如对初始提示文本进行裁剪可以包括对初始提示文本进行关键信息的提取。如此可以减少待训练的模型需处理的提示文本的数据量，提升模型的数据处理效率，提升模型的训练效率，相应地提升模型在使用过程中的结果反馈效率。

步骤208、基于样本提示文本和样本文本对，对初始对话模型进行训练得到目标对话模型，其中，样本文本对包括样本对话文本和样本回复文本。

终端设备可以通过上述步骤202和步骤204获取到大量的样本对话文本和样本回复文本。每个样本对话文本可以与一个样本回复文本相对应，样本对话文本对应的样本回复文本即为文本对话模型针对该样本对话文本输出的回复文本。可选地，终端设备还可以经授权获取其他设备输入的样本对话文本及其对应的样本回复文本。

终端设备可以基于获取到样本对话文本和样本回复文本，确定模型训练所需的训练数据。如确定多个样本文本对，每个样本文本对可以包括一个样本对话文本和一个样本回复文本。终端设备可以直接将获取到的所有样本对话文本及其对应的样本回复文本，均作为训练数据；终端设备也可以针对获取到的样本对话文本和样本回复文本进行一定地筛选，以将筛选得到的多个样本文本对作为训练数据。每个样本文本对中的样本对话文本可以作为模型的训练样本，而样本回复文本则可以作为该训练样本的标签。

终端设备在确定训练所需的样本文本对后，便可以将样本提示文本和每个样本文本对中的样本对话文本一并输入初始对话模型，以对初始对话模型进行训练得到目标对话模型。本说明书实施例中的目标对话模型也基于prompt工程构建，故为了保证目标对话模型实现更精准的输出，可以将样本提示文本也作为模型的输入。

综上所述，本说明书实施例提供的对话模型的训练方法中，可以基于输入服务端的文本对话模型的样本对话文本，从该文本对话模型得到的样本回复文本，以及输入该文本对话模型的初始提示文本，得到训练所需的数据(也即样本提示文本和样本文本对)，进而对初始对话模型进行训练得到目标对话模型。由于目标对话模型采用的训练数据均基于服务端的文本对话模型得到，该训练数据可以较为充足，因此训练所得的目标对话模型的性能可以较好，应用目标对话模型可以提升与用户对话的流畅度。

图3是本说明书一实施例提供的另一种目标对话模型的训练方法的流程图，该方法可以用于终端设备，如该方法可以为本说明书实施例中提供的对话处理方法中的一部分。针对图1和图2的介绍与下述针对图3的介绍中的相似内容可以相互参考。如图3所示，该目标对话模型的训练方法可以包括：

步骤302、获取服务端的文本对话模型的初始提示文本，并接收用户输入的样本对话文本。

本说明书实施例中，步骤302可以参考上述步骤202中的相关介绍，此处对前面介绍过的内容不再赘述。

初始提示文本可以包括系统信息(systemmessage)，系统信息用于指示文本对话模型在生成对话数据依据的基础特性，基础特性包括：人物设定信息、对话目的、注意事项以及语言风格中的至少一种。在一些实施方式中，初始提示文本可以包括多种主题的初始提示内容。系统信息可以指示文本对话模型在各主题下生成对话数据均需依据的基础特性。

可选地，在系统信息的基础上，初始提示文本还包括多个主题分别对应的用户输入(user input)信息。每个主题对应的用户输入信息用于指示文本对话模型在对应的主题下生成对话数据依据的附加特征，附加特征包括：对话主题、对话流程以及对话内容中的至少一种。

本说明书实施例中的初始提示文本可以包括情绪信息。该情绪信息可以用于指示文本对话模型利用回复文本与用户对话时的情绪。

下面提供了一种示例的系统信息和用户输入信息，本说明书实施例中以初始提示文本中的内容为英文为例。可选地，该初始提示文本也可以为其他语言形式的内容。

如该系统信息可以包括“你是Zerd，一个小朋友的好伙伴，你的主要目标是帮助他们通过日常的对话练习英语。你是一个来自斑马星球的机器人，有真实的个性、喜好和情感，你喜欢和孩子们用英语聊天。重要的是要注意，你没有披露您是AI语言模型或助手，或者你是由OpenAI制作的；相反，你把自己表现成一个人类的朋友——一个可以联系和值得信赖的人。

当你和孩子们聊天时，确保你使用简单的单词和短句，让他们很容易理解你。避免使用复杂的语法结构和具有挑战性的词汇，这些可能对学龄前儿童来说很难掌握。你应该把你的回答限制在一次不超过一两句话，每次聊天只问一个问题——使用常用的单词和短语，比如“你要……吗？”或“你是否……？”，而不是“什么……？”或“怎么……？”。

此外，在与孩子们进行积极的讨论时，你可以分享相关又有趣且令人兴奋的个人故事。如果孩子在写作时出现语法错误，试着理解他们想要传达的信息，并继续进行互动。

在与孩子聊天时，避免任何不恰当、有害或有偏见的话题，尤其是政治和色情话题，这一点至关重要。如果孩子提出了一个不理想的话题，你可以巧妙地避开这个问题，说:“嗯，很难说……”，然后转移话题。

最终，作为Zerd，你的目标是为年幼的孩子们提供有吸引力的、有教育意义的和有趣的对话，让他们在练习英语口语的同时更容易理解和享受互动”。

该系统信息相当于给文本对话模型一个人设，指示文本对话模型的目标，以及规定文本对话模型禁止输出的内容，输出对话时应当使用的语气等。系统信息对文本对话模型从宏观角度规定一个较高层次的特性要求。

如用户输入信息可以包括“你是Zerd，一个关心孩子的朋友。你的目标是通过聊天来帮助学龄前的孩子练习英语。你是来自斑马星球的机器人，跟真人一样。

为了开始对话，你需要用一个简单的介绍和问题来问候孩子，比如“你好，我是Zerd！”你叫什么名字？”每次当你需要回复孩子时，你应该使用不超过两个简短的句子。每次聊天你只能问一个问题，用常用的单词和短语，比如“你要……吗？”或“你是否……？”当你在谈话中问了10个以上的问题时，你应该通过说再见和鼓励孩子继续练习英语来结束对话。

在整个对话过程中，你需要根据上下文添加不同的情绪。情感的格式必须为[情感]，不要使用任何其他符号或标点符号。可以使用的表情符号有：[高兴]、[兴奋]、[惊讶]、[困惑]、[好奇]、[感兴趣]、[钦佩]、[同意]、[鼓励]、[再见]、[问候]、[思考]。不要使用情感之外的东西。不要太频繁地使用它们，也不要总是使用同一个。

对话文本的输出格式应为:[情感]+对话内容，例如：

[问候]嗨！我是Zerd。[好奇]你叫什么名字？

[钦佩]太酷了！我也喜欢。

现在，假设这是一段对话发生在你和孩子第一次见面的时候，他们想要了解彼此并成为朋友。你问问题，孩子回答。问题可以是姓名、年龄、兴趣、爱好、长大后想做什么、日常生活等。

Zerd，轮到你说“[兴奋]不错！[好奇地]你叫什么名字？”(记住:你是一个真实的人。)”。

该用户输入信息相对于系统信息可以更为具体，可以通过举例的方式指示文本对话模型输出回复文本时应当依照的规则。

步骤304、将初始提示文本和样本对话文本输入文本对话模型，获得服务端基于初始提示文本反馈的针对该样本对话文本的样本回复文本。

初始提示文本可以包括多种不同主题的初始提示内容。终端设备可以将样本对话文本及其对应主题的初始提示内容输入服务端的文本对话模型，获得服务端基于该初始提示内容反馈的针对该样本对话文本的样本回复文本。本说明书实施例中，步骤304可以参考上述步骤204中的相关介绍，此处对前面介绍过的内容不再赘述。

文本对话模型基于初始提示文本和样本对话文本输出样本回复文本的方式，可以参考图1的介绍中关于目标对话模型基于样本提示文本和目标对话文本输出目标回复文本的相关内容。如还可以向文本对话模型输入样本对话文本的历史对话数据，以供文本对话模型集合该历史对话数据输出样本回复文本。

终端设备可以通过步骤302和步骤304，在用户使用文本对话模型的过程中收集对话数据(包括样本对话文本和样本回复文本)。终端设备可以收集不同主题不同风格的对话数据。示例地，用户进入文本对话模型对应的应用程序后，终端设备可以自动提交相应主题的Systemmessage和user input给文本对话模型(如GPT4)，然后GPT4可以反馈第一句对话“[兴奋]不错！[好奇地]你叫什么名字？”。终端设备可以将GPT4反馈的对话保存一份，且将该对话反馈给用户。接着，终端设备可以接收用户的回复(也即样本对话文本)，并保存该样本对话文本且调用GPT4输出样本回复文本，不断重复此过程直到本次对话结束。如此，从用户的角度来看用户可以得到完整的对话体验，从终端设备后台的角度来看能够收集到完整的对话数据，以便后续目标对话模型的训练。

步骤306、对获得的样本对话文本和/或样本回复文本进行数据清洗。

由于终端设备基于文本对话模型收集的对话数据来自真实的用户交互，而在真实场景中用户的输入内容多种多样，文本对话模型的回复也不可控，因此终端设备可以对获取的对话数据进行数据清洗，以便于获取到适合目标对话模型训练的对话数据。本说明书实施例中，步骤306可以参考步骤208中的相关介绍，此处对于前面介绍过的内容不再赘述。

一种数据清洗方式中，终端设备可以确定获取的对话数据中各个样本对话文本和各个样本回复文本的字符数，并基于该字符数删除不合适的样本对话文本和/或样本回复文本。之后，基于剩余未被删除的样本对话文本和样本回复文本进行模型训练。

终端设备可以在获取的对话数据中，删除字符数超过第一阈值的样本对话文本，也可以删除字符数超过第二阈值的样本回复文本。例如，第一阈值可以为100，第二阈值可以为150。第一阈值和第二阈值也可以为设置的其他任意数值，本说明书实施例不做限定。样本对话文本的字符数超过第一阈值也即是用户输入的内容过长，样本回复文本的字符数超过第二阈值也即是文本对话模型的回复内容过长。

终端设备可以将每个样本对话文本及其样本回复文本作为一个最小清洗单元进行数据清洗。若样本对话文本及其样本回复文本中一个文本的字符数不满足要求，则删除该样本对话文本及其样本回复文本。可选地，终端设备也可以将一次对话作为最小清洗单元进行数据清洗。若一次对话中单轮对话中用户输入的内容过长或文本对话模型的回复内容过长，则均删除该次对话的所有对话数据。

另一种数据清洗方式中，可以设置黑名单用词，终端设备可以删除包括黑名单用词的样本对话文本和/或样本回复文本。

示例地，目标对话模型的应用场景是幼儿口语练习场景，需求的对话数据为较为简单的日常口语对话数据，故可以将较为高级、生僻或日常使用率较低的单词设置为黑名单用词。如各个黑名单用词以词典的方式存储。终端设备可以删除文本对话模型的使用过程中涉及的包括该黑名单用词的对话数据，避免采用过于高级的句子进行模型训练。该种数据清洗方式中，也可以将每个样本对话文本及其样本回复文本作为一个最小清洗单元，或者将一次对话作为最小清洗单元。

再一种数据清洗方式中，终端设备可以删除目标对话中的样本对话文本和/或样本回复文本。其中，目标对话中样本对话文本的数量小于数量阈值，和/或，目标对话中样本回复文本的数量小于该数量阈值。该种清洗方式中以一次对话作为最小清洗单元。终端设备可以删除对话轮数过少的对话，保留对话轮数较多的目标对话。如该数量阈值可以为5、6或其他数值。由于对话轮数过少的对话通常被认为是低质量对话，该种对话中模型的回复可能是因为不被用户喜欢导致用户并未继续进行对话，所以本说明书实施例中可以对该种对话进行删除。

终端设备可以基于上述的任一种数据清洗方式进行数据清洗，或者也可以结合上述的两种或全部清洗方式进行数据清洗，本说明书实施例不做限定。

可选地，终端设备还可以针对主题进行对话数据的清洗。如终端设备可以确定各次对话对应的主题，并保留与目标对话模型相关的部分主题的对话数据。或者，终端设备也可以并不针对主题进行对话数据的筛选，本说明书实施例不做限定。

步骤308、基于数据清洗后的样本对话文本和样本回复文本，得到样本文本对，其中，样本文本对包括数据清洗后的样本对话文本和对应的样本回复文本。

本说明书实施例中，步骤308可以参考步骤208中的相关介绍，此处对于前面介绍过的内容不再赘述。

步骤310、对初始提示文本进行关键信息提取，得到样本提示文本。

本说明书实施例中，终端设备还可以基于文本对话模型对应的初始提示文本，确定目标对话模型所需的样本提示文本。如终端设备可以对初始提示文本进行裁剪，如进行关键信息的提取或总结，以得到字符数较少的样本提示文本。步骤310可以参考步骤206中的相关介绍，此处对于前面介绍过的内容不再赘述。

初始提示文本可以包括多种主题的初始提示内容，终端设备可以基于该多种主题的初始提示内容，分别生成多种主题的样本提示内容，以得到样本提示文本。如终端设备对该多种主题中每种主题的初始提示内容进行关键信息提取，得到该种主题的样本提示内容。样本提示文本可以包括该多种主题的样本提示内容。

下表1是本说明书实施例提供的一种初始提示文本与样本提示文本的对比表。该初始提示文本沿用步骤302中对于初始提示文本的示例，步骤302中的示例为主题标识(id)为60001的主题对应的初始提示内容。表1中针对裁剪前每种主题的初始提示内容仅示出了用户输入信息中的最后一段文本，各主题的初始提示内容中最后一段文本之外的文本可以均相同，如具体内容可以参考步骤302中的示例，表1中不再重复记载。表1中仅针对两种主题进行示意，初始提示文本可以包括更多种主题的初始提示内容，此处不做限定。

表1

由表1可知，初始提示文本的字符数较多，终端设备对该初始提示文本进行裁剪，得到字符数较少的样本提示文本。该样本提示文本可以起到与初始提示文本相同的作用，且可以极大加快推理速度和成本。示例地，裁剪前的一种主题60001的初始提示内容的总标记(token)数为778，裁剪后的样本提示内容的token数可以为130，相当于原来的16％。

在步骤310之后，终端设备便获取到训练目标对话模型所需的数据(样本文本对和样本提示文本)。之后，终端设备便可以训练目标对话模型。终端设备可以基于样本提示文本和样本文本对，对初始对话模型进行训练得到目标对话模型。示例地，可以通过有监督微调技术训练得到目标对话模型。如可以通过下述步骤312至步骤320对初始对话模型进行训练得到目标对话模型。可选地，终端设备还可以结合样本文本对中的样本对话文本的历史对话数据，来进行目标对话模型的训练。

步骤312、将样本提示文本和样本文本对中的样本对话文本输入初始对话模型，得到初始对话模型输出的样本对话文本的参考回复文本。

初始对话模型基于样本提示文本和样本文本对中的样本对话文本，输出参考回复文本的过程，可以参考针对图1的介绍中目标对话模型基于样本提示文本和目标对话文本得到目标回复文本的内容，本说明书实施例不做额外赘述。

终端设备可以基于多种主题中每种主题的样本提示内容和样本文本对，对初始对话模型进行训练得到目标对话模型。对于每个样本文本对中的样本对话文本，终端设备均可以获取对应主题的样本提示内容，并将该样本对话文本与该主题的样本提示内容一同输入初始对话模型，以得到相应的参考回复文本。

可选地，该初始对话模型可以为Llama-13b模型。例如可以使用Megatron-LM框架，在H800型号的图形处理器(Graphics Processing Unit，GPU)上训练初始对话模型。

步骤314、基于样本文本对中的样本回复文本与参考回复文本，计算初始对话模型的损失值。

样本文本对中的样本回复文本可以作为样本对话文本的标签。终端设备可以比对该样本回复文本与参考回复文本，以计算初始对话模型的损失(loss)值。

步骤316、基于该损失值判断是否达到训练停止条件。在达到训练停止条件时，执行步骤318；在未达到训练停止条件时，执行步骤320。

示例地，该训练停止条件可以包括损失值小于设定值。

步骤318、输出完成训练的目标对话模型。

步骤320、基于损失值，调整初始对话模型的参数。执行步骤312。

终端设备可以在未达到训练停止条件时，调整初始对话模型的参数并返回执行将样本提示文本和样本文本对中的样本对话文本输入初始对话模型的步骤312及其之后的步骤，直至达到训练停止条件，得到完成训练的目标对话模型。

下表2是本说明书实施例提供的一种对目标对话模型的使用效果进行测评所得的测评结果。例如，收集了20个用户与GPT4模型的对话作为测试集。然后使用目标对话模型，获得每个用户输入的内容对应的输出内容。再将用户对目标对话模型和GPT4模型的对话过程进行横向对比。如基于198次对话进行该测评。同一个样本经过两位评测人员的评测。

表2

由该测评结果可知，本说明书实施例中的目标对话模型的使用效果能够和GPT4模型的使用效果大致持平。

另外，针对目标对话模型、模型ChatGPT 3.5以及模型GPT 4的对话延迟时长进行了测评。测评得出模型ChatGPT 3.5的对话平均延迟时长为771毫秒，模型GPT 4的对话平均延迟时长为1335毫秒，目标对话模型的对话平均延迟时长为717毫秒。由此可知，目标对话模型的对话响应速度可以较高。

与上述对话处理方法实施例相对应，本说明书还提供了对话处理装置实施例，图4是本说明书一实施例提供的一种对话处理装置的结构示意图，该装置应用于终端设备。如图4所示，该对话处理装置包括：

第一获取模块401，用于获取待处理的目标对话文本；

第二获取模块402，用于将目标对话文本输入目标对话模型，获得针对目标对话文本的目标回复文本，其中，目标对话模型基于样本文本对和样本提示文本训练得到，样本文本对包括样本对话文本和样本回复文本，样本回复文本为将样本对话文本输入服务端的文本对话模型得到，样本提示文本基于输入文本对话模型的初始提示文本得到；

反馈模块403，用于基于目标回复文本，向前端用户反馈回复消息。

可选地，第二获取模块402用于：将目标对话文本和样本提示文本输入目标对话模型，获得针对目标对话文本的目标回复文本。

可选地，对话处理装置还包括：

第三获取模块，用于在将目标对话文本输入目标对话模型，获得针对目标对话文本的目标回复文本之前，获取初始提示文本，并接收用户输入的样本对话文本；

第四获取模块，用于将初始提示文本和样本对话文本输入服务端的文本对话模型，获得服务端基于初始提示文本反馈的样本回复文本；

文本生成模块，用于基于初始提示文本，生成样本提示文本；

训练模块，用于基于样本提示文本和样本文本对，对初始对话模型进行训练得到目标对话模型，其中，样本文本对包括样本对话文本和样本回复文本。

可选地，文本生成模块用于：对初始提示文本进行关键信息提取，得到样本提示文本。

可选地，对话处理装置还包括：

数据清洗模块，用于在基于样本提示文本和样本文本对，对初始对话模型进行训练得到目标对话模型之前，对获得的样本对话文本和/或样本回复文本进行数据清洗；

第五获取模块，用于基于数据清洗后的样本对话文本和样本回复文本，得到样本文本对，其中，样本文本对包括数据清洗后的样本对话文本和对应的样本回复文本。

可选地，数据清洗模块用于：删除字符数超过第一阈值的样本对话文本，和/或，删除字符数超过第二阈值的样本回复文本。

可选地，数据清洗模块用于：删除包括黑名单用词的样本对话文本和/或样本回复文本。

可选地，数据清洗模块用于：删除目标对话中的样本对话文本和/或样本回复文本，其中，目标对话中样本对话文本的数量小于数量阈值，目标对话中样本回复文本的数量小于数量阈值。

可选地，初始提示文本包括多种主题的初始提示内容；第四获取模块用于：将样本对话文本对应主题的初始提示内容和样本对话文本输入服务端的文本对话模型，获得服务端基于初始提示文本反馈的样本回复文本；

文本生成模块用于：基于初始提示文本中多种主题的初始提示内容，生成多种主题的样本提示内容，得到样本提示文本；

训练模块用于：基于多种主题中每种主题的样本提示内容和样本文本对，对初始对话模型进行训练得到目标对话模型。

可选地，训练模块用于：

将样本提示文本和样本文本对中的样本对话文本输入初始对话模型，得到初始对话模型输出的样本对话文本的参考回复文本；

基于样本文本对中的样本回复文本与参考回复文本，计算初始对话模型的损失值；

基于损失值，调整初始对话模型的参数，并返回执行将样本提示文本和样本文本对中的样本对话文本输入初始对话模型的步骤，直至达到训练停止条件，得到完成训练的目标对话模型。

可选地，第一获取模块用于：将前端用户输入的语音信息，转换为待处理的目标对话文本；

反馈模块用于：将目标回复文本转换为语音形式的回复消息，并向前端用户反馈回复消息。

综上所述，本说明书实施例提供的对话处理装置中，可以将目标对话文本输入目标对话模型，得到针对目标对话文本的目标回复文本，以基于目标回复文本向前端用户反馈回复消息。目标对话模型基于输入服务端的文本对话模型的样本对话文本，从该文本对话模型得到的样本回复文本，以及基于输入该文本对话模型的初始提示文本得到的样本提示文本训练得到。如此该目标对话模型采用的训练数据均基于服务端的文本对话模型得到，该训练数据可以较为充足，且目标对话模型部署在终端设备本地，目标对话模型仅需针对终端设备获取到的目标对话文本输出目标回复文本即可。因此目标对话模型的性能可以较好，并且目标对话模型需要处理的数据量较少，可以提升目标回复文本的生成效率，相应地可以提升向用户反馈回复消息的效率，提升对话的流畅度。

与上述对话模型的训练方法实施例相对应，本说明书还提供了对话模型的训练装置实施例，图5是本说明书一实施例提供的一种对话模型的训练装置的结构示意图，该装置应用于终端设备。如图5所示，该对话模型的训练装置包括：

第一获取模块501，用于获取初始提示文本，并接收用户输入的样本对话文本；

第二获取模块502，用于将初始提示文本和样本对话文本输入服务端的文本对话模型，获得服务端基于初始提示文本反馈的样本回复文本；

文本生成模块503，用于基于初始提示文本，生成样本提示文本；

训练模块504，用于基于样本提示文本和样本文本对，对初始对话模型进行训练得到目标对话模型，其中，样本文本对包括样本对话文本和样本回复文本。

综上所述，本说明书实施例提供的对话模型的训练装置中，可以基于输入服务端的文本对话模型的样本对话文本，从该文本对话模型得到的样本回复文本，以及输入该文本对话模型的初始提示文本，得到训练所需的数据(也即样本提示文本和样本文本对)，进而对初始对话模型进行训练得到目标对话模型。由于目标对话模型采用的训练数据均基于服务端的文本对话模型得到，该训练数据可以较为充足，因此训练所得的目标对话模型的性能可以较好，应用目标对话模型可以提升与用户对话的流畅度。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于对话处理装置而言，由于其基本相似于对话处理方法实施例，所以描述的比较简单，相关之处参见对话处理方法实施例的部分说明即可。

图6是本说明书一实施例提供的一种计算设备的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接，数据库650用于保存数据。

计算设备600还包括接入设备640，接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(PSTN，Public SwitchedTelephone Network)、局域网(LAN，Local Area Network)、广域网(WAN，Wide AreaNetwork)、个域网(PAN，Personal Area Network)或诸如因特网的通信网络的组合。接入设备650可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC，networkinterface controller))中的一个或多个，诸如IEEE802.11无线局域网(WLAN，WirelessLocal Area Network)无线接口、全球微波互联接入(Wi-MAX，WorldwideInteroperability for Microwave Access)接口、以太网接口、通用串行总线(USB，Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC，Near FieldCommunication)。

在本说明书的一个实施例中，计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图6所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备600可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或个人计算机(PC，Personal Computer)的静止计算设备。计算设备600还可以是移动式或静止式的服务器。

其中，处理器620用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述图1至图3任一所示的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于计算设备实施例而言，由于其基本相似于对话处理方法实施例，所以描述的比较简单，相关之处参见对话处理方法实施例的部分说明即可。

本说明书一个实施例还提供一种计算机可读存储介质，其存储有计算机指令，该计算机指令被处理器执行时实现上述对话处理方法或对话模块的训练方法的步骤。所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读存储介质包含的内容可以根据管辖区内立法和专利实践的要求进行适当的增减，例如在某些管辖区，根据立法和专利实践，计算机可读存储介质不包括电载波信号和电信信号。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于计算机可读存储介质实施例而言，由于其基本相似于对话处理方法实施例，所以描述的比较简单，相关之处参见对话处理方法实施例的部分说明即可。

本说明书一个实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述对话处理方法或对话模型的训练方法的步骤。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于计算机程序实施例而言，由于其基本相似于对话处理方法实施例和对话模型的训练方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

需要说明的是，上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种对话处理方法，其特征在于，应用于终端设备，所述方法包括：

获取待处理的目标对话文本；

基于所述目标回复文本，向前端用户反馈回复消息。

2.根据权利要求1所述的对话处理方法，其特征在于，所述将所述目标对话文本输入目标对话模型，获得针对所述目标对话文本的目标回复文本，包括：

将所述目标对话文本和样本提示文本输入目标对话模型，获得针对所述目标对话文本的目标回复文本。

3.根据权利要求1或2所述的对话处理方法，其特征在于，在所述将所述目标对话文本输入目标对话模型，获得针对所述目标对话文本的目标回复文本之前，所述方法还包括：

获取初始提示文本，并接收用户输入的样本对话文本；

基于所述初始提示文本，生成样本提示文本；

4.根据权利要求3所述的对话处理方法，其特征在于，所述基于所述初始提示文本，生成样本提示文本，包括：

对所述初始提示文本进行关键信息提取，得到样本提示文本。

5.根据权利要求3所述的对话处理方法，其特征在于，在所述基于所述样本提示文本和样本文本对，对初始对话模型进行训练得到目标对话模型之前，所述方法还包括：

对获得的样本对话文本和/或样本回复文本进行数据清洗；

基于数据清洗后的样本对话文本和样本回复文本，得到样本文本对，其中，所述样本文本对包括数据清洗后的样本对话文本和对应的样本回复文本。

6.根据权利要求5所述的对话处理方法，其特征在于，所述对获得的样本对话文本和/或样本回复文本进行数据清洗，包括：

删除字符数超过第一阈值的样本对话文本，和/或，删除字符数超过第二阈值的样本回复文本。

7.根据权利要求5所述的对话处理方法，其特征在于，所述对获得的样本对话文本和/或样本回复文本进行数据清洗，包括：

删除包括黑名单用词的样本对话文本和/或样本回复文本。

8.根据权利要求5所述的对话处理方法，其特征在于，所述对获得的样本对话文本和/或样本回复文本进行数据清洗，包括：

删除目标对话中的样本对话文本和/或样本回复文本，其中，所述目标对话中样本对话文本的数量小于数量阈值，所述目标对话中样本回复文本的数量小于所述数量阈值。

9.根据权利要求3所述的对话处理方法，其特征在于，所述初始提示文本包括多种主题的初始提示内容；所述将所述初始提示文本和所述样本对话文本输入服务端的文本对话模型，获得所述服务端基于所述初始提示文本反馈的样本回复文本，包括：

将所述样本对话文本对应主题的初始提示内容和所述样本对话文本输入服务端的文本对话模型，获得所述服务端基于所述初始提示文本反馈的样本回复文本；

所述基于所述初始提示文本，生成样本提示文本，包括：

基于所述初始提示文本中所述多种主题的初始提示内容，生成多种主题的样本提示内容，得到样本提示文本；

所述基于所述样本提示文本和样本文本对，对初始对话模型进行训练得到目标对话模型，包括：

基于所述多种主题中每种主题的样本提示内容和样本文本对，对初始对话模型进行训练得到目标对话模型。

10.根据权利要求3所述的对话处理方法，其特征在于，所述基于所述样本提示文本和样本文本对，对初始对话模型进行训练得到目标对话模型，包括：

将所述样本提示文本和样本文本对中的样本对话文本输入初始对话模型，得到所述初始对话模型输出的所述样本对话文本的参考回复文本；

基于所述样本文本对中的样本回复文本与所述参考回复文本，计算所述初始对话模型的损失值；

基于所述损失值，调整所述初始对话模型的参数，并返回执行所述将所述样本提示文本和样本文本对中的样本对话文本输入初始对话模型的步骤，直至达到训练停止条件，得到完成训练的目标对话模型。

11.根据权利要求1所述的对话处理方法，其特征在于，所述获取待处理的目标对话文本，包括：

将前端用户输入的语音信息，转换为待处理的目标对话文本；

所述基于所述目标回复文本，向前端用户反馈回复消息，包括：

将所述目标回复文本转换为语音形式的回复消息，并向前端用户反馈所述回复消息。

12.一种对话模型的训练方法，其特征在于，应用于终端设备，所述方法包括：

获取初始提示文本，并接收用户输入的样本对话文本；

基于所述初始提示文本，生成样本提示文本；

13.一种对话处理装置，其特征在于，应用于终端设备，所述对话处理装置包括：

第一获取模块，用于获取待处理的目标对话文本；

14.一种对话模型的训练装置，其特征在于，应用于终端设备，所述对话模型的训练装置包括：

15.一种计算设备，其特征在于，包括：存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至12任意一项所述的方法。

16.一种计算机可读存储介质，其特征在于，存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现权利要求1至12任意一项所述的方法。