CN113254597A

CN113254597A - 模型训练方法、查询处理方法及相关设备

Info

Publication number: CN113254597A
Application number: CN202110695443.7A
Authority: CN
Inventors: 武博文; 邓云瀚; 王宝勋; 冯启航
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2021-08-13
Anticipated expiration: 2041-06-23
Also published as: CN113254597B

Abstract

本申请提出一种模型训练方法、查询处理方法及相关设备，该模型训练方法包括：获取查询数据、参考数据组及检索数据组；根据检索数据组中的各个检索回复之间的语义关系得到检索融合组；基于查询数据与检索融合组中各个融合检索回复之间的语义匹配度及目标回复与检索融合组中各个融合检索回复之间的语义匹配度，确定先验分布；根据参考数据组中的各个参考回复之间的语义关系得到参考融合组；基于查询数据与参考融合组中各个融合参考回复之间的语义匹配度和目标回复与参考融合组中各个融合参考回复之间的语义匹配度，确定后验分布；按照最小化先验分布与后验分布之间的距离的原则，对生成式对话模型进行训练。可以提高生成式对话系统的回复准确率。

Description

模型训练方法、查询处理方法及相关设备

技术领域

本发明涉及计算机技术领域，具体涉及对话系统技术领域，尤其涉及一种生成式对话系统的模型训练方法、一种生成式对话系统的查询处理方法、一种生成式对话系统的模型训练装置、一种生成式对话系统的查询处理装置、计算机设备及存储介质。

背景技术

随着深度学习的不断发展与演化，神经网络模型已经被广泛应用于自然语言处理、语音识别、计算机视觉等领域，例如，神经网络模型被广泛应用于神经网络机器翻译，自然语言理解，机器对话等场景中。

目前，对话系统主要分为检索式对话系统和生成式对话系统，其中检索式对话系统的存在时间更长，是工业界通常广泛使用的一种人机对话系统。检索式对话系统是指预先建立查询数据与检索回复对的倒排索引，在对话过程中，针对用户给出的一个查询数据，例如一句话，一个词等；通过索引检索、排序给出相应的检索回复的系统。检索式对话系统通常存在步骤复杂、易发生级联错误等问题。生成式对话系统是指针对用户给出的查询数据，不借助已有的检索回复库，仅依靠机器学习模型给出相应回复的系统，生成式对话系统由于具备端到端的特点，可以避免检索式对话系统存在的问题，因此生成式对话系统的发展近年来备受关注，其中如何提高生成式对话系统的回复准确率的问题是尤为关键的一个重要问题。

发明内容

本申请实施例提出了一种生成式对话系统的模型训练方法、查询处理方法及相关设备，可以提高生成式对话系统的回复准确率。

一方面，本申请实施例提供一种生成式对话系统的模型训练方法，生成式对话系统包括生成式对话模型，该方法包括：

获取训练数据集，训练数据集包括查询数据、参考数据组及检索数据组；参考数据组中包含m个参考回复；检索数据组中包含n个检索回复，m、n均为正整数；

根据检索数据组中的各个检索回复之间的语义关系，分别对检索数据组中的每个检索回复进行融合处理，得到检索融合组，检索融合组中包含n个融合检索回复；

基于查询数据与检索融合组中各个融合检索回复之间的语义匹配度及目标回复与检索融合组中各个融合检索回复之间的语义匹配度，对检索数据组的语义分布序列进行加权处理得到先验分布；目标回复是参考数据组中的一个参考回复；以及，

根据参考数据组中的各个参考回复之间的语义关系，分别对参考数据组中的各个参考回复进行融合处理，得到参考融合组，参考融合组中包含m个融合参考回复；

基于查询数据与参考融合组中各个融合参考回复之间的语义匹配度和目标回复与参考融合组中各个融合参考回复之间的语义匹配度，对参考数据组的语义分布序列进行加权处理得到后验分布；

按照最小化先验分布与后验分布之间的距离的原则，对生成式对话模型进行训练。

一方面，本申请实施例提供一种生成式对话系统的查询处理方法，生成式对话系统包括训练好的生成式对话模型和训练好的序列到序列模型，该方法包括：

接收目标查询数据，并基于目标查询数据进行检索得到k个检索回复，k为正整数；

调用训练好的生成式对话模型挖掘k个检索回复之间的语义关系，得到检索融合向量

；

调用训练好的生成式对话模型基于目标查询数据和检索融合向量

中各个元素之间的语义匹配度，及基于目标回复与检索融合向量

中各个元素之间的语义匹配度，对k个检索回复的语义分布序列进行加权处理得到测试单位先验分布

；目标回复是k个检索回复中的任一个；

利用重参数技巧对测试单位先验分布

进行采样处理，得到测试隐变量；

调用所述训练好的序列到序列模型对目标查询数据和测试隐变量进行处理，得到目标查询数据对应的生成式回复。

一方面，本申请实施例提供一种生成式对话系统的模型训练装置，该装置包括：

获取单元，用于获取训练数据集，训练数据集包括查询数据、参考数据组及检索数据组；参考数据组中包含m个参考回复，检索数据组中包含n个检索回复，m、n均为正整数；

处理单元，用于根据检索数据组中的各个检索回复之间的语义关系，分别对检索数据组中的每个检索回复进行融合处理，得到检索融合组，检索融合组中包含n个融合检索回复；

处理单元，用于基于查询数据与检索融合组中各个融合检索回复之间的语义匹配度及目标回复与检索融合组中各个融合检索回复之间的语义匹配度，对检索数据组的语义分布序列进行加权处理得到先验分布；目标回复是参考数据组中的一个参考回复；以及，

处理单元，用于根据参考数据组中的各个参考回复之间的语义关系，分别对参考数据组中的各个参考回复进行融合处理，得到参考融合组，参考融合组中包含m个融合参考回复；

处理单元，用于基于查询数据与参考融合组中各个融合参考回复之间的语义匹配度和目标回复与参考融合组中各个融合参考回复之间的语义匹配度，对参考数据组的语义分布序列进行加权处理得到后验分布；

训练单元，用于按照最小化先验分布与后验分布之间的距离的原则，对生成式对话模型进行训练。

一方面，本申请实施例提供一种生成式对话系统的查询处理装置，该装置包括：

接收单元，用于接收目标查询数据，并基于目标查询数据进行检索得到k个检索回复，k为正整数；

处理单元，用于调用训练好的生成式对话模型挖掘k个检索回复之间的语义关系，得到检索融合向量

；

处理单元，用于调用训练好的生成式对话模型基于目标查询数据和检索融合向量

；目标回复是k个检索回复中的任一个；

处理单元，用于利用重参数技巧对测试单位先验分布

进行采样处理，得到测试隐变量；

处理单元，用于调用所述训练好的序列到序列模型对目标查询数据和测试隐变量进行处理，得到目标查询数据对应的生成式回复。

一方面，本申请实施例提供一种计算机设备，该计算机设备包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述的模型训练方法或者查询处理方法。

一方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被计算机设备的处理器读取并执行时，使得计算机设备执行上述的模型训练方法或者查询处理方法。

一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的模型训练方法或者查询处理方法。

本申请实施例，首先获取训练数据集，该训练数据集可以包括查询数据、参考数据组及检索数据组；通过挖掘参考数据组中的各个参考回复之间的语义关系，分别对参考数据组中的每个参考回复进行融合处理，得到融合参考数据组内部各元素信息的参考融合组，这样可充分利用各个参考回复之间在话题、模式等方面的关联性。再基于查询数据与检索融合组中各个融合检索回复之间的语义匹配度及目标回复

与检索融合组中各个融合检索回复之间的语义匹配度，对检索数据组的语义分布序列进行加权处理得到先验分布；在上述得到先验分布的过程中，既充分考虑了一个查询数据与多个检索回复之间的语义关系，同时又考虑了给定的一条参考回复（即目标回复）与多个检索回复之间的语义关系，基于这样的考虑可以有效的实现对检索回复的筛选，同时基于此一对多的关系进行建模和模型训练，能够有效提升生成式对话模型的准确性。

其次，通过挖掘检索数据组中的各个检索回复之间的语义关系，分别对检索数据组中的每个检索回复进行融合处理，得到融合检索数据组中各元素信息的检索融合组，这样可充分利用各个检索回复之间在话题、模式等方面的关联性。再基于查询数据与参考融合组中各个融合参考回复之间的语义匹配度和目标回复

与参考融合组中各个融合参考回复之间的语义匹配度，对参考数据组的语义分布序列进行加权处理，得到后验分布；在上述得到后验分布的过程中，同样充分考虑了一个查询数据与多个参考回复之间的语义关系，同时又考虑了给定的一条参考回复（即目标回复）与多个参考回复之间的语义关系。最后按照最小化先验分布与后验分布之间的距离的原则，对生成式对话模型进行训练；通过拉近先验分布和后验分布之间的距离来实现检索融合组和参考融合组之间的语义关系的近似来训练生成式对话模型，这使得训练好的生成式对话模型实现回复增强，从而使得生成式对话系统能够获得更准确、更合理的增强回复。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种生成式对话系统的架构示意图；

图2是本申请实施例提供的一种生成式对话系统的模型训练方法的流程示意图；

图3是本申请实施例提供的一种词向量模型的结构示意图；

图4是本申请实施例提供的一种生成式对话模型的结构示意图；

图5是本申请实施例提供的一种生成式对话模型的查询处理方法的流程示意图；

图6是本申请实施例提供的一种查询处理方法的场景示意图；

图7是本申请实施例提供的一种生成式对话系统的模型训练装置的结构示意图；

图8是本申请实施例提供的一种生成式对话系统的查询处理装置的结构示意图；

图9是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

本申请实施例涉及生成式对话系统，所谓生成式对话系统是指针对给定的查询数据，不借助已有的检索回复库，仅依靠机器学习模型给出相应回复的系统。生成式对话系统具备端到端的特点，系统步骤简单且不易产生级联错误等问题。生成式对话系统的关键在于机器学习模型，基于此，本申请实施例提出一种生成式对话系统的模型训练方案，该方案主要具备如下特点：

（1）考虑一个查询数据（query）分别对应有参考数据组（包含多个参考回复）和检索数据组（包含多个检索回复）的情况，通过接近两个组的语义关系，对query和多个参考回复、query和多个检索回复之间一对多关系进行建模，解决了为了简化问题贪心方法（即给定一个query确定某一条合理的回复的方法）并不成立的问题；

（2）自动寻找与参考数据组中各参考回复相关的检索回复，并基于寻找结果进行回复的质量增强，所谓质量增强是指对生成的回复的质量进行增强，使得增强的回复更合理、更准确，更接近参考回复，更符合用户的检索需求；

（3）生成式对话模型通过参考回复与检索回复之间的语义关系，能够自动判断给定的一个参考回复是否具备参考价值，即使在某个参考回复不具备参考价值的情况下，仍然会考虑参考数据组中所有参考回复的整体语义的参考价值，来生成增强的回复；

（4）生成式对话系统具备通用地、统一框架，可面向各种检索式对话系统来进行回复质量增强。可不局限于参考回复数量、能够考虑到多样的参考结果等等，在现有的检索式对话系统的基础上，针对检索式对话系统输出的检索回复进行质量增强；

另外，本申请实施例还提出一种生成式对话系统的查询处理方案，在生成式对话系统完成模型训练之后，针对给定的一个query，可借助于训练好的模型生成一个质量增强的生成式回复。在一些对话场景中，采用传统的对话系统（如检索式对话系统或传统的生成式对话系统）输出的回复通常缺乏足够的多样性，容易被用户看到很多类似的回复，从而察觉对话者是机器人而影响用户的活跃度，从而影响社区生态。但是采用本申请实施例的生成式对话系统，能够对多维度的检索回复进行筛选，利用模型自动生成与query的主题更接近但更加多样的增强的生成式回复，能够指数级地提高回复的种类，减少高频的自动回复影响社区生态和用户体验的问题，所以，本申请实施例提出的生成式对话系统在机器人问答系统、人机对话系统等场景具有较高的参考价值和实践意义。

下面对本申请实施例涉及的技术术语进行介绍：

一、人工智能：

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

深度学习(Deep Learning，DL)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例提供的方案属于人工智能领域下属的深度学习技术/机器学习技术等，可以应用于人机对话、机器问答等领域。

二、云技术：

云技术（Cloud technology）基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

目前，云技术主要分为云基础技术类以及云应用类；云基础技术类可以进一步细分为：云计算、云储存、数据库以及大数据等；云应用类可以进一步细分为：医疗云、云物联、云安全、云呼叫、私有云、公有云、混合云、云游戏、云教育、云会议、云社交以及人工智能云服务等。

从基础技术角度来说，本申请的生成式对话系统的模型训练方法涉及云技术下属的云计算；从应用角度来说，本申请的生成式对话系统的模型训练方法涉及云技术下属的人工智能云服务。

云计算(cloud computing)是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。

所谓人工智能云服务，一般也被称作是AIaaS（AIas a Service，中文为“AI即服务”）。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。

本申请提供的方案中涉及较大规模计算，需要较大的算力和存储空间，因此在本申请中的一种可行的实施方式中，可以由计算机设备通过云计算技术获取足够算力和存储空间。

进一步地，可以将本申请涉及的生成式对话系统的模型训练方法封装为一个人工智能云服务，且仅对外暴露一个接口。当在某一业务场景下（例如人和机器人的对话场景）需要使用本申请所涉及的生成式对话系统中的模型功能时，通过调用该接口，即可通过训练好的模型实现人机对话。

三、区块链：

区块链（Blockchain）是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性（防伪）和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

本申请提供的方案可与区块链技术相结合，例如在生成式对话系统的模型训练方法中，可以将训练数据集等上传至区块链中进行保存，可以保证区块链上的数据不易被篡改。

下面将对本申请实施例提出的方案进行详细介绍。

请参考图1，图1是本申请实施例提供的一种生成式对话系统的架构示意图。该生成式对话系统的架构图可以包括：服务器140以及终端设备集群，其中，终端设备集群可以包括：终端设备110、终端设备120、终端设备130等等。终端设备集群与服务器140可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

图1所示的服务器140可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）、以及大数据和人工智能平台等基础云计算服务的云服务器。

图1所示的终端设备110、终端设备120、终端设备130等可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备（MID，mobile internet device）、车辆、车载设备、路边设备、飞行器、可穿戴设备，例如智能手表、智能手环、计步器等，等具有模型训练功能的智能设备。

在一种可能的实现方式中，以终端设备110为例，首先，终端设备110获取生成式对话模型的训练数据集，其中，训练数据集包括查询数据、参考数据组及检索数据组；其中，参考数据组中包含已标注的与查询数据相匹配的m个参考回复，参考数据组中任一个参考回复表示为

，m、i均为正整数且i≤m；检索数据组中包含基于查询数据进行检索得到的n个检索回复，检索数据组中任一个检索回复表示为

；n、j均为正整数且j≤n。

然后，终端设备110将训练数据集发送至服务器140。服务器140挖掘检索数据组中的各个检索回复之间的语义关系，得到检索融合组，检索融合组中包含n个融合检索回复，检索融合组中包含融合检索回复

，融合检索回复

是由检索回复

融合了与检索数据组中其他检索回复之间的语义关系之后得到的；服务器140基于查询数据与检索融合组中各个融合检索回复之间的语义匹配度及目标回复

与检索融合组中各个融合检索回复之间的语义匹配度，对检索数据组的语义分布序列进行加权处理，得到先验分布。以及，服务器140挖掘参考数据组中的各个参考回复之间的语义关系，得到参考融合组，参考融合组中包含m个融合参考回复，参考融合组中包含融合参考回复

，融合参考回复

是由参考回复

融合了与参考数据组中其他参考回复之间的语义关系之后得到的；服务器140基于参考数据组中的目标参考回复与检索融合组中各个融合检索回复之间的语义匹配度和目标回复

与参考融合组中各个融合参考回复之间的语义匹配度，对参考数据组的语义分布序列进行加权处理，得到后验分布。

另外，服务器140按照最小化先验分布与后验分布之间的距离的原则，对生成式对话模型进行训练。

接下来，服务器140可以将训练好的生成式对话模型发送至终端设备110，后续，终端设备110可以根据训练好的生成式对话模型进行人机对话、机器人问答等等应用。

当然，挖掘参考数据组中的各个参考回复之间的语义关系，得到参考融合组，挖掘检索数据组中的各个检索回复之间的语义关系，得到检索融合组，以及基于查询数据与检索融合组中各个融合检索回复之间的语义匹配度及目标回复

与检索融合组中各个融合检索回复之间的语义匹配度，对检索数据组的语义分布序列进行加权处理，得到先验分布；并基于参考数据组中的目标参考回复与检索融合组中各个融合检索回复之间的语义匹配度和目标回复

与参考融合组中各个融合参考回复之间的语义匹配度，对参考数据组的语义分布序列进行加权处理，得到后验分布。以及按照最小化先验分布与后验分布之间的距离的原则，对生成式对话模型进行训练。以上步骤不一定是由服务器140来执行，也可以由终端设备110或者终端设备集群中的其它任意计算机设备来执行。

在一种可能的实现方式中，可以将本申请实施例提供的生成式对话模型的训练系统部署在区块链的节点，例如可以将服务器140和终端设备集群中包括的每个终端设备均当成区块链的节点设备，共同构成区块链网络。因此本申请中利用训练数据集对生成式对话模型进行训练的流程可以在区块链上执行，这样既可以保证模型训练流程的公平公正化，同时可以使得模型训练流程具备可追溯性，提升模型训练流程的安全性。

可以理解的是，本申请实施例描述的系统架构示意图是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着系统架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

基于以上分析，下面结合图2对本申请的生成式对话系统的模型训练方法进行描述。请参见图2，图2是本申请实施例提供的一种生成式对话系统的模型训练方法的流程示意图。其中，该生成式对话系统包括生成式对话模型，该模型训练方法可以应用于计算机设备，计算机设备可以为终端设备或者服务器。计算机设备例如可以是车载设备、智能手机、平板电脑、智能可穿戴设备等等智能设备。如图2所示，该模型训练方法可包括步骤S210~S260。其中：

S210：获取生成式对话模型的训练数据集，训练数据集包括查询数据、参考数据组及检索数据组。

本申请中，参考数据组中包含已标注的与查询数据相匹配的m个参考回复，参考数据组中任一个参考回复表示为

，m、i均为正整数且i≤m。检索数据组中包含基于查询数据进行检索得到的n个检索回复，检索数据组中任一个检索回复表示为

；n、j均为正整数且j≤n。

其中，查询数据是用户提出的并希望针对该查询数据进行回复的句子。例如，查询数据可以为用户在与机器人对话时提出的用户问题，并且查询数据可以表示为query，如：今天天气好吗，现在的时间为多少，等等。m和n可以相同，也可以不相同。另外，参考数据组中的参考回复与检索数据组中检索回复之间可以存在相同的回复，也可以不存在相同的回复，本申请对此不作具体限定。

其中，m个参考回复可以为用户根据人工经验标注的与查询数据相匹配的回复，若查询数据为“今天天气好嘛”，则参考数据组可以包括：“今天天气很好”、“今天天气晴朗”、“今天温度较高”、“今天是多云天气”等等，其中，该参考数据组中的每一个句子可以称为一个参考回复。在一种可能的实现方式中，参考回复也可以包括在信息交流平台中关于查询数据相匹配的用户回复，其中，较为热门的用户回复可以包括在评论区中用户评论点赞量排名靠前的回复或者点赞量超过参考阈值的回复等等，例如，在一些热门社区帖子下面的较为热门的用户回复。在某信息交流网站中，用户1提出查询数据“重庆市直辖市嘛”，用户2针对用户1提出的查询数据的回复为“重庆市直辖市”，则可以将用户2的回复作为与该查询数据相匹配的参考回复。

另外，检索数据组中的n个检索回复可以是基于查询数据并利用检索式对话模型进行检索得到的。例如，n个检索回复可以是通过将用户问题输入检索式对话模型，然后检索式对话模型输出的多个检索回复中的全部或者部分检索回复。假设，用户问题为“今天天气怎么样”，通过检索式对话模型的识别，可以输出10条检索回复，然后用户可以从这10条检索恢复中随机挑选或者根据用户喜好挑选部分回复（例如选择8条回复）作为本申请中需要参与模型训练的检索回复。当然，用户也可以将这10条检索回复均作为本申请中需要参与模型训练的检索回复。其中，检索式对话模型是指：预先建立查询数据与检索回复对的倒排索引，在对话过程中，针对对话中用户给出的一句话，一个词等，通过对索引检索、排序给出相应的检索回复的系统。其中，生成式对话模型是指：针对用户给出的查询数据，不借助已有的回复库，仅仅依靠机器学习模型给出相应回复的系统。例如，生成式对话模型可以为变分自编码（Variational AutoEncoder，VAE）模型。

在一种可能的实现方式中，获取到训练数据集之后，可以采用语言模型对训练数据集中的数据进行预处理，得到预处理后的训练数据集。本申请中，语言模型可以为词向量模型，词向量模型可以包括word2vec模型，word2vec模型可以包括fasttext模型、cbow模型。当然，词向量模型还可以包括BERT模型等等。举例来说，本申请以词向量模型为BERT模型为例进行举例说明，其中，BERT模型的输入可以包含一个句子对(句子A和句子B)，也可以是单个句子。例如，本申请中，可以通过将用户问题、多个参考回复以及多个检索回复分别输入BERT模型，也可以是将用户问题、多个参考回复以及多个检索回复分别输入BERT模型共同输入BERT模型。

请参见图3，图3是本申请实施例提供的一种词向量模型的结构示意图。如图3所示，输入查询数据：“你吃饭了嘛”，BERT模型首先可以将查询数据进行分词处理，确定该查询数据中每个词对应的词向量，例如可以将查询数据分为多个词“你”、“吃饭”、“了”、“嘛”，然后对每个词分别对应的词向量进行平均池化（mean-pooling）处理，得到该查询数据对应的句向量。本申请中，可以将同一批次的训练数据集中的查询数据输入至BERT模型，通过BERT模型的处理，处理后的查询数据可以用句向量进行表示为q。

同样的，可以将参考数据组中包括的m个参考回复输入至BERT模型，BERT模型对参考回复的处理流程同样可以参考前述BERT模型对查询数据的处理流程。最后，BERT模型输出的处理后的参考数据组中的每个参考回复的句向量分别表示为

，即参考数据组表示为向量

。

当然，还可以将检索数据组中包括的n个检索回复输入至BERT模型，BERT模型对检索回复的处理流程同样可以参考前述BERT模型对查询数据的处理流程。最后，BERT模型输出的处理后的检索数据组中的每个检索回复的句向量分别表示为

，即检索数据组表示为向量

。

S220：根据检索数据组中的各个检索回复之间的语义关系，分别对检索数据组中的每个检索回复进行融合处理，得到检索融合组。

其中，检索融合组中包含n个融合检索回复，其中，检索数据组中任一个检索回复表示为

，则检索融合组中包含融合检索回复

；融合检索回复

是由检索回复

融合了与检索数据组中其他检索回复之间的语义关系之后得到的，j为正整数且j≤n。

在一种可能的实现方式中，可以基于自注意力机制(self-attention)确定检索回复

相关的n个检索相似度，每个检索相似度用于表示检索回复

与检索数据组中的一个检索回复之间的语义相似程度。其中，自注意力机制是一种可以充分考虑句子中不同词语之间的语义以及语法联系的机制。并基于n个检索相似度对检索回复

进行加权计算，得到检索回复

对应的融合检索回复

。最后，将融合检索回复

添加至检索融合组中，需要说明的是，针对检索数据组中的任一检索回复均可参考上述针对检索回复

确定融合检索回复

的步骤。因此可以得到包括n个融合检索回复的检索融合组：

。

通过本方案的自注意力机制，可以挖掘检索数据组中的每个检索回复与其它检索回复之间的关系，从而确定融合了检索数据组中其它检索回复之间的语义关系的融合检索回复。通过这种方式，通过挖掘参考数据组中的各个参考回复之间的语义关系，得到融合参考数据组内部各元素信息的参考融合组，这样可充分利用各个参考回复之间在话题、模式等方面的关联性。

S230：基于查询数据与检索融合组中各个融合检索回复之间的语义匹配度及目标回复与检索融合组中各个融合检索回复之间的语义匹配度，对检索数据组的语义分布序列进行加权处理得到先验分布。

本申请中，先验分布可以根据多个检索回复之间的语义分布得到，目标参考回复可以是参考数据组中的任一参考回复，目标回复可以表示为

。并且在每次训练过程中，可以选取不同的参考回复

作为目标回复

，从而实现对检索数据组中的检索回复的筛选。即目标回复

=

，且i=1,2,…,m。

在一种可能的实现方式中，基于查询数据与检索融合组中各个融合检索回复之间的语义匹配度，对检索数据组的语义分布序列进行加权处理，得到先验分布之前，需要确定检索数据组的语义分布序列。检索数据组的语义分布序列可以表示为

，其中，

是检索回复

对应的语义分布元素。其中，确定检索数据组的语义分布元素

的过程可以包括：首先，基于查询数据和检索回复

计算均值方差（

，

），其中，均值方差（

，

）用于表示检索回复

的语义分布；然后，对均值方差（

，

）所表示的语义分布进行采样，得到语义分布元素

。

举例来说，可以通过（q，

）分别计算每个检索回复

的均值方差（

，

）。其中，均值方差（

，

）可用于表示检索回复

的语义分布，于是根据（q，

）计算检索回复

的均值方差（

，

）可以如公式（1）所示：

其中，公式（1）中，

和

均为参数矩阵。

然后，基于确定出来的每个检索回复

的均值方差（

，

），可以对每个检索回复

的均值方差（

，

）所表示的语义分布进行采样处理，从而确定检索回复

的语义分布

。综上所述，按照上述方法依次确定每个检索回复的语义分布，最后可以得到检索数据组的语义分布序列，包括：

。

在一种可能的实现方式中，先验分布包含第一单位先验分布

和第二单位先验分布

。本申请中，基于查询数据与检索融合组中各个融合检索回复之间的语义匹配度及目标回复

与检索融合组中各个融合检索回复之间的语义匹配度，对检索数据组的语义分布序列进行加权处理得到先验分布的具体流程，可以包括：

①基于目标回复

与融合检索回复

之间的语义匹配度，设置第一权重

；

②采用第一权重

对检索数据组的语义分布序列进行加权处理，得到第一单位先验分布

；

③基于查询数据与融合检索回复

之间的语义匹配度，设置第二权重

；

④采用第二权重

对检索数据组的语义分布序列进行加权处理，得到第二单位先验分布

。

举例来说，可以通过归一化函数对目标回复

与融合检索回复

之间的语义匹配度进行处理，确定第一权重

。以及，通过归一化函数对查询数据q与融合检索回复

之间的语义匹配度进行处理，确定第二权重

。其中，1≤j≤n。例如，设置第一权重和第二权重可以如公式（2）所示：

其中，公式（2）中的

包括n个第一权重，任一第一权重表示为

；

包括n个第二权重，任一第二权重表示为

。

为参数矩阵。

进一步地，基于确定的第一权重和第二权重，可以分别对检索数据组的语义分布序列进行加权处理，得到第一单位先验分布

以及第二单位先验分布

。其过程可以参见公式（3）所示：

通过本方案，基于目标回复

与融合检索回复

之间的语义匹配度设置的权重，以及基于查询数据与融合检索回复

之间的语义匹配度设置的权重，分别对检索数据组的语义分布序列进行加权处理，进一步实现对多种信息的融合，从而有效提高了模型训练的准确性。

S240：根据检索数据组中的各个检索回复之间的语义关系，分别对参考数据组中的各个参考回复进行融合处理，得到参考融合组。

其中，参考融合组中包含m个融合参考回复，其中，参考数据组中任一个参考回复表示为

，则参考融合组中包含融合参考回复

；融合参考回复

是由参考回复

融合了与参考数据组中其他参考回复之间的语义关系之后得到的，i为正整数且i≤m。

在一种可能的实现方式中，可以基于自注意力机制获取与参考回复

相关的m个参考相似度，每个参考相似度用于表示参考回复

与参考数据组中的一个参考回复之间的语义相似程度。并基于m个参考相似度对参考回复

进行加权计算，得到参考回复

对应的融合参考回复

。最后，将融合参考回复

添加至参考融合组中，需要说明的是，针对参考数据组中的任一参考回复均可参考上述针对参考回复

确定融合参考回复

的步骤。因此可以得到包括m个融合参考回复的参考融合组：

。

通过本方案的自注意力机制，可以挖掘参考数据组中的每个参考回复与其它参考回复之间的关系，从而确定融合了参考数据组中其它参考回复之间的语义关系的融合参考回复。通过这种方式，通过挖掘检索数据组中的各个检索回复之间的语义关系，得到融合检索数据组内部各元素信息的检索融合组，这样可充分利用各个参考回复之间在话题、模式等方面的关联性。

S250：基于查询数据与参考融合组中各个融合参考回复之间的语义匹配度和目标回复与参考融合组中各个融合参考回复之间的语义匹配度，对参考数据组的语义分布序列进行加权处理得到后验分布。

本申请中，后验分布可以根据多个参考回复之间的语义分布得到，目标参考回复可以是参考数据组中的任一参考回复，并且在每次训练过程中，可以选取不同的参考回复

作为目标回复

，从而实现对检索数据组中的检索回复的筛选。

在一种可能的实现方式中，基于参考数据组中的目标参考回复与检索融合组中各个融合检索回复之间的语义匹配度和目标回复

与参考融合组中各个融合参考回复之间的语义匹配度，对参考数据组的语义分布进行加权处理，得到后验分布之前，需要确定参考数据组的语义分布序列。参考数据组的语义分布序列表示为：

，其中，

是参考回复

对应的语义分布元素。其中，确定参考数据组的语义分布序列的过程可以包括：首先，根据查询数据和参考数据组中的任一参考回复

，确定参考回复

的均值方差

，其中，均值方差

用于表示参考回复

的语义分布；然后，对参考回复

的均值方差

所表示的语义分布进行采样，得到语义分布元素

。

举例来说，可以通过（q，

）分别计算每个参考回复

的均值方差

。其中，均值方差

可用于表示参考回复

的语义分布，于是根据（q，

）计算参考回复

的均值方差

可以如公式（4）所示：

其中，公式（4）中，

和

均为参数矩阵。

然后，基于确定出来的每个参考回复

的均值方差

，可以对每个参考回复

的均值方差

所表示的语义分布进行采样处理，从而确定参考回复

的语义分布

。综上所述，按照上述方法依次确定每个参考回复的语义分布，最后可以得到参考数据组的语义分布序列，包括：

。

在一种可能的实现方式中，后验分布包含第一单位后验分布

和第二单位后验分布

。本申请中，基于查询数据与参考融合组中各个融合参考回复之间的语义匹配度及目标回复

与参考融合组中各个融合参考回复之间的语义匹配度，对参考数据组的语义分布序列进行加权处理得到后验分布，的具体流程可以包括：

①基于目标回复

与融合参考回复

之间的语义匹配度，设置第三权重

；

②采用第三权重

对参考数据组的语义分布序列进行加权处理，得到第一单位后验分布

；

③基于查询数据与融合参考回复

之间的语义匹配度，设置第四权重

'；

④采用第四权重

'对参考数据组的语义分布序列进行加权处理，得到第二单位后验分布

。

举例来说，可以通过归一化函数对目标回复

与融合参考回复

之间的语义匹配度进行处理，确定第三权重

。以及，通过归一化函数对查询数据q与融合参考回复

之间的语义匹配度进行处理，确定第四权重

'。其中，1≤i≤m。例如，设置第三权重和第四权重可以如公式（5）所示：

其中，公式（5）中的

包括m个第三权重，任一第三权重表示为

；

包括m个第四权重，任一第四权重表示为

。

为参数矩阵。

进一步地，基于确定的第三权重和第四权重，可以分别对参考数据组的语义分布序列进行加权处理，得到第一单位后验分布

以及第二单位后验分布

。其过程可以参见公式（6）所示：

通过本方案，基于目标回复

与融合参考回复

之间的语义匹配度设置权重，以及基于查询数据与融合参考回复

之间的语义匹配度设置权重的过程中，既充分考虑了一个查询数据与多个检索回复之间的语义关系，同时又考虑了给定的一条参考回复（即目标回复）与多个检索回复之间的语义关系，基于这样的考虑可以有效的实现对检索回复的筛选，同时基于此一对多的关系进行建模和模型训练，能够有效提升生成式对话模型的准确性。

S260：按照最小化先验分布与后验分布之间的距离的原则，对生成式对话模型进行训练。

本申请中，先验分布和后验分布之间的距离可以利用KL散度(Kullback–Leiblerdivergence)进行表示，其中，KL散度是度量两个分布之间差异的函数，本申请中可以用KL散度度量先验分布与后验分布之间的差异。具体来说，本申请可以通过不断改变先验分布和后验分布的参数，我们可以得到不同的KL散度的值，在某个变化范围内，KL散度取到最小值的时候，对应的参数是我们想要的最优参数，这就是使用KL散度优化的过程。

在一种可能的实现方式中，先验分布可以包含第一单位先验分布

和第二单位先验分布

；后验分布可以包含第一单位后验分布

和第二单位后验分布

。首先，可以获取第一单位先验分布

和第一单位后验分布

之间的第一散度值；然后，还可以获取第二单位先验分布

和第二单位后验分布

之间的第二散度值。然后，按照减小第一散度值和第二散度值的原则，对生成式对话模型的模型参数进行调整。当第一散度值和第二散度值均达到最小值时，生成式对话模型训练结束。

其中，生成式对话模型的模型参数包括但不限于：计算均值方差所包括的参数矩阵，例如

、

、

、

等等。

在一种可能的实现方式中，本申请所提供的生成式对话系统还包括序列到序列（Sequence-to-Sequence）模型。当生成式对话模型训练结束后，从训练好的生成对话模型中获取第一单位后验分布

；然后，利用重参数技巧对第一单位后验分布

进行采样处理，得到训练隐变量；采用查询数据及训练隐变量对序列到序列模型进行训练。

其中，重参数技巧是指需要对某一分布的数据进行采样所采用的常用手段。另外，训练隐变量的作用是为了让生成式对话模型尽可能还原原来的数据，也能让生成式对话模型生成原来数据中不存在的数据。本申请中，利用重参数技巧对第一单位后验分布

进行采样处理后得到的训练隐变量，其中，训练隐变量可以用于训练生成式对话模型生成与目标回复较为接近的生成式回复或者与目标回复相同的生成式回复。并且，由于本申请中目标回复可以根据参考回复的数量有多个不同选择，再加上生成式对话模型本身采用带来的随机性，本方案可以有效的提高生成式回复的质量和多样性。

举例来说，序列到序列模型是一种由双向循环神经网络（Recurrent NeuralNetwork，RNN）组成的encoder-decoder（编码器-解码器）神经网络结构，从而满足输入输出序列长度不相同的情况，实现一个序列到另一个序列之间的转换。例如，序列到序列模型可以包括：长短期记忆网络（Long Short-Term Memory，LSTM）模型，门控循环神经网络（GatedRecurrent Neural network，GRU）模型等等。

在一种可能的实现方式中，采用查询数据及训练隐变量对序列到序列模型进行训练的具体流程可以包括：

①将训练隐变量和查询数据输入至序列到序列模型中进行处理，得到生成式回复；

②根据生成式回复与目标回复

之间的差异，调整序列到序列模型的模型参数；

③当序列到序列模型满足收敛条件时，停止训练序列到序列模型。

其中，序列到序列模型满足收敛条件可以包括但不限于：当序列到序列模型的训练次数达到预设训练阈值时，例如100次，则序列到序列模型满足模型收敛条件；当每个查询数据对应的生成式回复和每个查询数据对应的目标回复之间的误差小于误差阈值时，则序列到序列模型满足模型收敛条件；当序列到序列模型相邻两次训练得到的每个查询数据对应的生成式回复之间的变化小于变化阈值时，则序列到序列模型满足模型收敛条件。

需要说明的是，本申请中步骤S220-步骤S230与步骤S240-步骤S250之间的执行顺序并无先后限制，意思是说，也可以先执行完步骤S240-步骤S250之后，然后再执行S240-步骤S250。即本申请中计算机设备，可以既可以先“确定检索融合组并根据检索融合组确定先验分布”，然后再“确定参考融合组并根据参考融合组确定后验分布”，也可以先“确定参考融合组并根据参考融合组确定后验分布”，然后再确定“检索融合组并根据检索融合组确定先验分布”。本申请实施例确定先验分布以及后验分布的执行顺序并不作具体限定。

本申请实施例中，通过挖掘参考数据组中的各个参考回复之间的语义关系，得到融合参考数据组内部各元素信息的参考融合组，这样可充分利用各个参考回复之间在话题、模式等方面的关联性。再基于查询数据与检索融合组中各个融合检索回复之间的语义匹配度及目标回复

其次，通过挖掘检索数据组中的各个检索回复之间的语义关系，得到融合检索数据组中各元素信息的检索融合组，这样可充分利用各个检索回复之间在话题、模式等方面的关联性。再基于查询数据与参考融合组中各个融合参考回复之间的语义匹配度和目标回复

基于以上对生成式对话系统所包括的生成式对话模型的训练方法，请参见图4，图 4为本申请实施例提供的一种生成式对话模型的结构示意图。如图4所示，q可以为查询数据的向量表示，例如q为查询数据query的句向量，

可以为目标回复，并且

可以为m个参考回复中的任一参考回复，每次训练过程中，可以选择不同的参考回复作为目标回复。其中，

可以为参考数据组中的m个参考回复分别对应的向量表示，向量表示可以为句向量，并且该m个参考回复的向量表示

。通过自注意力机制的处理，可以对应得到m个融合参考回复：

，即构成了本申请的参考融合组。

其中，

可以为检索数据组中的n个检索回复分别对应的向量表示，向量表示可以为句向量，并且该n个检索回复的向量表示

。通过自注意力机制的处理，可以对应得到n个融合检索回复：

，即构成了本申请的检索融合组。

然后，基于q和每个参考回复确定参考数据组的语义分布元素

，可以包括根据q和

确定

，根据q和

确定

，以此类推...根据q和

确定

...根据q和

确定

，m、i均为正整数且i≤m。其中，针对任一语义分布元素

，其确定方式可以包括：基于查询数据q和参考回复

计算均值方差

；并对均值方差

所表示的语义分布进行采样，得到语义分布元素

。

同样的，基于q和每个检索回复确定检索数据组的语义分布元素

，可以包括根据q和

确定

，根据q和

确定

，以此类推...根据q和

确定

...根据q和

确定

，n、j均为正整数且j≤n。其中，针对任一语义分布元素

，其确定方式可以包括：基于查询数据q和检索回复

计算均值方差

；并对均值方差

所表示的语义分布进行采样，得到语义分布元素

。

然后，再基于q和参考融合组中的m个参考融合回复：

，分别确定权重：

；以及基于目标回复

和参考融合组中的m 个参考融合回复：

，分别确定权重：

。

以及，基于q和检索融合组中的m个检索融合回复：

，分别确定权重：

；以及基于目标回复

和参考融合组中的m 个参考融合回复：

，分别确定权重：

。

最后，基于前述确定的权重，分别对检索数据组的语义分布序列进行加权处理得到先验分布；以及对参考数据组的语义分布序列进行加权处理得到后验分布。并且，由于检索数据组和参考数据组分别对应两组权重，因此加权处理后的先验分布也可以包括第一单位先验分布

和第二单位先验分布

，同样的，加权处理后的后验分布也可以包括第一单位后验分布

和第二单位后验分布

。

接下来，本申请可以通过最小化先验分布与后验分布之间的距离的原则，对生成式对话模型进行训练。其中，先验分布与后验分布之间的距离可以采用KL散度进行刻画。具体可以包括：首先获取第一单位先验分布

和第一单位后验分布

之间的第一散度值

；以及获取第二单位先验分布

和第二单位后验分布

之间的第二散度值

；然后按照减小第一散度值和第二散度值的原则，调整生成式对话模型的模型参数。当第一散度值和第二散度值均达到最小值时，结束对生成式对话模型的训练。

需要说明的是，本申请中，在对生成式对话模型的训练过程中，模型所产生的损失处理包括第一散度值

和第二散度值

。还可以包括调整第一单位后验分布

时所带来的损失bow，以及包括计算目标回复

所带来的交叉熵损失CE等等。在通过调整生成式对话模型的模型参数进行实现度生成式对话模型的模型训练时，需要满足训练模型时每个环节所带来的损失均达到最小值时，则确定可以结束对生成式对话模型的训练。进一步地，本申请中训练生成式对话模型时，该生成式对话模型的总损失可以表示为loss=

+

+CE+bow，于是，在训练本申请的生成式对话模型的过程中，当第一散度值

、第二散度值

、交叉熵损失CE、以及损失bow均达到最小值时，结束对生成式对话模型的训练。

本申请实施例中，提出了面向检索式对话系统结果对回复质量增强的统一框架，不局限参考回复个数、能够考虑到多样的标准结果等，做到较好的通用性。并且，本申请中从多个维度对检索回复进行筛选，并借助现有的检索式对话系统能力的基础上，利用模型自动生成主题接近但更加多样回复，指数级地提高回复的种类，减少高频的自动回复影响社区生态和用户体验的问题。

基于以上分析，本申请提供的生成式对话系统可以包括生成式对话模型以及序列到序列模型。基于以上对生成式对话系统的模型训练（包括生成式对话模型的模型训练和序列到序列模型的模型训练）的具体描述，接下来，可以基于训练好的生成式对话模型和训练好的序列到序列模型进行模型使用。请参见图5，图5是本申请实施例提供的一种生成式对话系统的查询处理方法的流程示意图。该生成式对话系统包括训练好的生成式对话模型和训练好的序列到序列模型，该查询处理方法可以应用于计算机设备。如图5所示，该查询处理方法可包括步骤S510~S550。其中：

S510：接收目标查询数据，并基于目标查询数据进行检索得到k个检索回复，k为正整数。

其中，计算机设备接收目标查询数据可以包括：获取用户输入的目标查询数据，并且用户可以通过语音方式将目标查询数据输入生成式对话系统，也可以通过文字方式将目标查询数据的输入生成式对话系统。例如，用户发出一段语音：“今天天气怎么样”，那么生成式对话系统可以将该段语音对应的文字“今天天气怎么样”作为目标查询数据，或者，用户输出一段文字：“今天天气怎么样”，那么生成式对话系统可以将该段文字“今天天气怎么样”作为目标查询数据。

在一种可能的实现方式中，计算机设备在获取到目标查询数据之后，可以基于目标查询数据进行检索并确定k个检索回复。其中，k个检索回复可以为利用检索式对话模型进行检索之后得到的。具体来说，k个检索回复可以是通过将目标查询数据输入检索式对话模型，然后检索式对话模型输出的多个检索回复中的全部或者部分检索回复。

S520：调用训练好的生成式对话模型挖掘k个检索回复之间的语义关系，得到检索融合向量。

本申请中，检索融合向量可以表示为

。在一种可能的实现方式中，可以调用训练好的生成式对话模型并基于自注意力机制确定检索融合向量

。并且，本申请中确定检索融合向量

中的每一个融合检索回复的详细过程具体可以参考图2实施例中步骤S220中：“挖掘检索数据组中的各个检索回复之间的语义关系，得到检索融合组”的具体过程，本申请在此不再赘述。

S530：调用训练好的生成式对话模型基于目标查询数据和检索融合向量中各个元素之间的语义匹配度，及基于目标回复

与检索融合向量中各个元素之间的语义匹配度，对k个检索回复的语义分布序列进行加权处理得到测试单位先验分布。

本申请中，测试单位先验分布可以表示为

，目标回复可以表示为

，并且目标回复

是k个检索回复中的任一个。

需要说明的是，本申请中调用训练好的生成式对话模型确定测试单位先验分布

的详细过程具体可以参考图2实施例中步骤S230中：“基于查询数据与检索融合组中各个融合检索回复之间的语义匹配度及目标回复

与检索融合组中各个融合检索回复之间的语义匹配度，对检索数据组的语义分布序列进行加权处理得到先验分布”的具体过程，本申请在此不再赘述。

S540：利用重参数技巧对测试单位先验分布进行采样处理，得到测试隐变量。

本申请中，可以利用重参数技巧对测试单位先验分布

进行采样处理后得到测试隐变量，其中，测试隐变量可以用于生成式对话模型生成与目标回复较为接近的生成式回复或者与目标回复相同的生成式回复。并且，由于本申请中目标回复可以根据参考回复的数量有多个不同选择，再加上生成式对话模型本身采用带来的随机性，本方案可以有效的提高生成式回复的质量和多样性。

S550：调用训练好的序列到序列模型对目标查询数据和测试隐变量进行处理，得到目标查询数据对应的生成式回复。

本申请中，将目标查询数据和测试隐变量输入到训练好的序列到序列模型中，通过该训练好的序列到序列模型的查询处理，即可输出目标查询数据对应的生成式回复。

在一种可能的实现方式中，可以将目标查询数据再次（或者多次）输入到训练好的生成式对话模型中，然后通过训练好的生成式对话模型生成对应的测试隐变量。接着将目标查询数据和测试隐变量再次输入至训练好的序列到序列模型，然后通过训练好的序列到序列模型的查询处理，即可再次输出目标查询数据对应的生成式回复。其中，第二次输出的目标查询数据对应的生成式回复与第一次输出的目标查询数据对应的生成式回复可以相同，也可以不相同。

本申请中，可以利用目标查询数据检索得到k个检索回复作为生成式对话系统生成回复时的参考数据，由于参考回复的数量不确定，因此多次输入目标查询数据所确定的生成式回复可能也具有多样化，因此通过这种方法，利用查询数据确定的检索回复的数量k的不确定性和生成式对话模型本身采用带来的随机性，本方案可以有效的提高生成式回复的质量和多样性。

在一种可能的实现方式中，本申请提供的基于检索式对话系统结果进行回复增强的生成式对话系统，可以应用于人机对话场景。人机对话场景可以包括：可以让用户与生成式对话系统进行对话、或者生成式对话系统自动发布评论到用户在社区的帖子下面等等。请参见图6，图6是本申请实施例提供的一种查询处理方法的场景示意图。

举例来说，如图6所示，本申请提供的生成式对话系统可以提供用户数据的输入接口，用户可以通过输入接口进行目标查询数据的输入，例如，用户可以输入“今天天气怎么样”，通过调用本申请提供的生成式对话系统，可以输出与目标查询数据相对应的生成式回复，例如输出的生成式回复为：“今日天气：温度19~29度，局部多云”。另外，如果用户对该回复不满意或者想知道其它回复，也可以再次输入：“今天天气怎么样”，然后通过调用本申请提供的生成式对话系统，可以再次输出与该目标查询数据相对应的生成式回复，例如输出的生成式回复为：“今天天气不错哦，比较晴朗，但是昼夜温差大，注意增添衣服哦~”。接下来，用户如果想进一步了解或者与生成式对话系统进行对话，可以继续输入查询数据，例如输入：“能再详细说明一下今天的天气情况嘛”，通过调用本申请提供的生成式对话系统，可以输出例如：“好的噢，今天天气湿度60%，降雨概率30%，紫外线指数为3，能见度9.7公里”。当然，用户还可以继续输入相同或者不同的目标查询数据，每次通过调用本申请提供的生成式对话系统，所生成的生成式回复可以不相同，于是本申请提供的生成式对话系统所生成的回复具有多样性，从而提升了用户体验感。

本申请实施例提供的生成式对话系统，不同于传统的检索式对话系统，在一些社区帖子下面，检索式对话系统通常会选择top K的用户评论进行相应的回复，因此在类似的社区帖子下容易回复相同的评论。而本申请提供的生成式对话系统可以通过从更加多样的（top N*K，N > 1）的回复中组合K个元素的子集（共

种），并依赖生成式对话系统中的生成式对话模型（例如VAE模型）本身生成回复时所带来的随机性，从而大大提高回复的多样性。因此，本申请提供的生成式对话系统应用于社区帖子的自动回复或者评论中，可以在社区中指数级地提高回复的种类，从而可以减少由于高频的自动回复影响社区生态和用户体验的问题。并且，本申请可以基于检索式对话系统给出的多个检索回复之间在话题、模式上存在的关联关系，进行有效的利用这些信息之间的关联关系，然后基于这些检索回复进行回复增强处理，从而输出准确性更高的生成式回复，提升用户体验感。

请参见图7，图7是本申请实施例提供的一种生成式对话系统的模型训练装置的结构示意图。该模型训练装置700可应用于图2~图4对应的方法实施例中的计算机设备。模型训练装置700可以是运行于轻量节点中的一个计算机程序（包括程序代码），例如该模型训练装置700为一个应用软件；该装置可以用于执行本申请实施例提供的方法中的相应步骤。该模型训练装置700可包括：

获取单元710，用于获取训练数据集，训练数据集包括查询数据、参考数据组及检索数据组；参考数据组中包含m个参考回复，检索数据组中包含n个检索回复m、n均为正整数；

处理单元720，用于根据检索数据组中的各个检索回复之间的语义关系，分别对检索数据组中的每个检索回复进行融合处理，得到检索融合组，检索融合组中包含n个融合检索回复；

处理单元720，用于基于查询数据与检索融合组中各个融合检索回复之间的语义匹配度及目标回复与检索融合组中各个融合检索回复之间的语义匹配度，对检索数据组的语义分布序列进行加权处理得到先验分布；目标回复是参考数据组中的一个参考回复；以及，

处理单元720，用于根据参考数据组中的各个参考回复之间的语义关系，分别对参考数据组中的各个参考回复进行融合处理，得到参考融合组，参考融合组中包含m个融合参考回复；

处理单元720，用于基于查询数据与参考融合组中各个融合参考回复之间的语义匹配度和目标回复与参考融合组中各个融合参考回复之间的语义匹配度，对参考数据组的语义分布序列进行加权处理得到后验分布；

训练单元730，用于按照最小化先验分布与后验分布之间的距离的原则，对生成式对话模型进行训练。

在一种可能的实现方式中，参考数据组中任一个参考回复表示为

，i为正整数且 i≤m；

处理单元720根据参考数据组中的各个参考回复之间的语义关系，分别对检索数据组中的每个检索回复进行融合处理，得到参考融合组，包括：

基于自注意力机制获取与参考回复

相关的m个参考相似度，每个参考相似度用于表示参考回复

与参考数据组中的一个参考回复之间的语义相似程度；

基于m个参考相似度对参考回复

进行加权计算，得到融合参考回复

；

将融合参考回复

添加至参考融合组中。

在一种可能的实现方式中，检索数据组中任一个检索回复表示为

；j为正整数且j≤n；

处理单元720根据检索数据组中的各个检索回复之间的语义关系，分别对检索数据组中的每个检索回复进行融合处理，得到检索融合组，包括：

基于自注意力机制获取与检索回复

相关的n个检索相似度，每个检索相似度用于表示检索回复

与检索数据组中的一个检索回复之间的语义相似程度；

基于n个检索相似度对检索回复

进行加权计算，得到融合检索回复

；

将融合检索回复

添加至检索融合组中。

在一种可能的实现方式中，检索数据组表示为向量

，检索数据组的语义分布序列表示为

，其中，

是检索回复

对应的语义分布元素；j为正整数且j≤n；处理单元720还用于执行以下操作：

基于查询数据和检索回复

计算均值方差

，均值方差

用于表示检索回复

的语义分布；

对均值方差

所表示的语义分布进行采样，得到语义分布元素

。

在一种可能的实现方式中，目标回复表示为

；先验分布包含第一单位先验分布

和第二单位先验分布

；

处理单元720基于查询数据与检索融合组中各个融合检索回复之间的语义匹配度及目标回复

与检索融合组中各个融合检索回复之间的语义匹配度，对检索数据组的语义分布序列进行加权处理得到先验分布，包括：

基于目标回复

与融合检索回复

之间的语义匹配度，设置第一权重

；融合检索回复

是由检索回复

融合了与检索数据组中其他检索回复之间的语义关系之后得到的；

采用第一权重

；

基于查询数据与融合检索回复

之间的语义匹配度，设置第二权重

；

采用第二权重

'对检索数据组的语义分布序列进行加权处理，得到第二单位先验分布

。

在一种可能的实现方式中，参考数据组表示为向量

，参考数据组的语义分布序列表示为

，其中，

是参考回复

对应的语义分布元素；i为正整数且i≤m；处理单元720还用于执行以下操作：

基于查询数据和参考回复

计算均值方差

，均值方差

用于表示参考回复

的语义分布；

对均值方差

所表示的语义分布进行采样，得到语义分布元素

。

在一种可能的实现方式中，目标回复表示为

；后验分布包含第一单位后验分布

和第二单位后验分布

；

处理单元720基于查询数据与参考融合组中各个融合参考回复之间的语义匹配度及目标回复

与参考融合组中各个融合参考回复之间的语义匹配度，对参考数据组的语义分布序列进行加权处理得到后验分布，包括：

基于目标回复

与融合参考回复

之间的语义匹配度，设置第三权重

；融合参考回复

是由参考回复

融合了与参考数据组中其他参考回复之间的语义关系之后得到的；

采用第三权重

；

基于查询数据与融合参考回复

之间的语义匹配度，设置第四权重

；

采用第四权重

。

在一种可能的实现方式中，先验分布包含第一单位先验分布

和第二单位先验分布

；后验分布包含第一单位后验分布

和第二单位后验分布

；

训练单元730按照最小化先验分布与后验分布之间的距离的原则，对生成式对话模型进行训练，包括：

获取第一单位先验分布

和第一单位后验分布

之间的第一散度值；

获取第二单位先验分布

和第二单位后验分布

之间的第二散度值；

按照减小第一散度值和第二散度值的原则，对生成式对话模型的模型参数进行调整；

当第一散度值和第二散度值均达到最小值时，生成式对话模型训练结束。

在一种可能的实现方式中，生成式对话系统还包括序列到序列模型，训练单元730还用于执行以下操作：

当生成式对话模型训练结束后，从训练好的生成对话模型中获取第一单位后验分布

；

利用重参数技巧对第一单位后验分布

进行采样处理，得到训练隐变量；

采用查询数据及训练隐变量对序列到序列模型进行训练。

在一种可能的实现方式中，训练单元730采用查询数据及训练隐变量对序列到序列模型进行训练，包括：

将训练隐变量和查询数据输入至序列到序列模型中进行处理，得到生成式回复；

根据生成式回复与目标回复之间的差异，调整序列到序列模型的模型参数；

当序列到序列模型满足收敛条件时，停止训练序列到序列模型。

本申请实施例，首先获取训练数据集，该训练数据集可以包括查询数据、参考数据组及检索数据组；通过挖掘参考数据组中的各个参考回复之间的语义关系，得到融合参考数据组内部各元素信息的参考融合组，这样可充分利用各个参考回复之间在话题、模式等方面的关联性。再基于查询数据与检索融合组中各个融合检索回复之间的语义匹配度及目标回复

请参见图8，图8是本申请实施例提供的一种生成式对话系统的查询处理装置的结构示意图。该查询处理装置800可应用于图5~图6对应的方法实施例中的计算机设备。查询处理装置800可以是运行于轻量节点中的一个计算机程序（包括程序代码），例如该查询处理装置800为一个应用软件；该装置可以用于执行本申请实施例提供的方法中的相应步骤。该查询处理装置800可包括：

接收单元810，用于接收目标查询数据，并基于目标查询数据进行检索得到k个检索回复，k为正整数；

处理单元820，用于调用训练好的生成式对话模型挖掘k个检索回复之间的语义关系，得到检索融合向量

；

处理单元820，用于调用训练好的生成式对话模型基于目标查询数据和检索融合向量

；目标回复是k个检索回复中的任一个；

处理单元820，用于利用重参数技巧对测试单位先验分布

进行采样处理，得到测试隐变量；

处理单元820，用于调用训练好的序列到序列模型对目标查询数据和测试隐变量进行处理，得到目标查询数据对应的生成式回复。

请参见图9，图9是本申请实施例提供的一种计算机设备的结构示意图，该计算机设备900用于执行图2~图6对应的方法实施例中计算机设备所执行的步骤，该计算机设备900包括：一个或多个处理器910；一个或多个输入设备920，一个或多个输出设备930和存储器940。上述处理器910、输入设备920、输出设备930和存储器940通过总线950连接。存储器940用于存储计算机程序，所述计算机程序包括程序指令，处理器910用于执行存储器940存储的程序指令，执行以下操作：

获取训练数据集，训练数据集包括查询数据、参考数据组及检索数据组；参考数据组中包含m个参考回复，检索数据组中包含n个检索回复，m、n均为正整数；

基于查询数据与检索融合组中各个融合检索回复之间的语义匹配度及目标回复

与检索融合组中各个融合检索回复之间的语义匹配度，对检索数据组的语义分布序列进行加权处理得到先验分布；目标回复是参考数据组中的一个参考回复；以及，

，i为正整数且i≤m；

处理器910根据参考数据组中的各个参考回复之间的语义关系，分别对检索数据组中的每个检索回复进行融合处理，得到参考融合组，包括：

基于自注意力机制获取与参考回复

相关的m个参考相似度，每个参考相似度用于表示参考回复

与参考数据组中的一个参考回复之间的语义相似程度；

基于m个参考相似度对参考回复

进行加权计算，得到融合参考回复

；

将融合参考回复

添加至参考融合组中。

；j为正整数且j≤n；

处理器910根据检索数据组中的各个检索回复之间的语义关系，分别对检索数据组中的每个检索回复进行融合处理，得到检索融合组，包括：

基于自注意力机制获取与检索回复

相关的n个检索相似度，每个检索相似度用于表示检索回复

与检索数据组中的一个检索回复之间的语义相似程度；

基于n个检索相似度对检索回复

进行加权计算，得到融合检索回复

；

将融合检索回复

添加至检索融合组中。

在一种可能的实现方式中，检索数据组表示为向量

，检索数据组的语义分布序列表示为

，其中，

是检索回复

基于查询数据和检索回复

计算均值方差

，均值方差

用于表示检索回复

的语义分布；

对均值方差

所表示的语义分布进行采样，得到语义分布元素

。

在一种可能的实现方式中，目标回复表示为

；先验分布包含第一单位先验分布

和第二单位先验分布

；

处理器910基于查询数据与检索融合组中各个融合检索回复之间的语义匹配度及目标回复

基于目标回复

与融合检索回复

之间的语义匹配度，设置第一权重

；融合检索回复

是由检索回复

采用第一权重

；

基于查询数据与融合检索回复

之间的语义匹配度，设置第二权重

；

采用第二权重

。

在一种可能的实现方式中，参考数据组表示为向量

，参考数据组的语义分布序列表示为

，其中，

是参考回复

基于查询数据和参考回复

计算均值方差

，均值方差

用于表示参考回复

的语义分布；

对均值方差

所表示的语义分布进行采样，得到语义分布元素

。

在一种可能的实现方式中，目标回复表示为

；后验分布包含第一单位后验分布

和第二单位后验分布

；

处理器910基于查询数据与参考融合组中各个融合参考回复之间的语义匹配度及目标回复

基于目标回复

与融合参考回复

之间的语义匹配度，设置第三权重

；融合参考回复

是由参考回复

采用第三权重

；

基于查询数据与融合参考回复

之间的语义匹配度，设置第四权重

；

采用第四权重

对参考数据组的语义分布序列进行加权处理，得到第二单位后验分布

。

在一种可能的实现方式中，先验分布包含第一单位先验分布

和第二单位先验分布

；后验分布包含第一单位后验分布

和第二单位后验分布

；

处理器910按照最小化先验分布与后验分布之间的距离的原则，对生成式对话模型进行训练，包括：

获取第一单位先验分布

和第一单位后验分布

之间的第一散度值；

获取第二单位先验分布

和第二单位后验分布

之间的第二散度值；

在一种可能的实现方式中，生成式对话系统还包括序列到序列模型，处理器910还用于执行以下操作：

；

利用重参数技巧对第一单位后验分布

进行采样处理，得到训练隐变量；

采用查询数据及训练隐变量对序列到序列模型进行训练。

在一种可能的实现方式中，处理器910采用查询数据及训练隐变量对序列到序列模型进行训练，包括：

根据生成式回复与目标回复

之间的差异，调整序列到序列模型的模型参数；

在一种可能的实现方式中，处理器910用于执行存储器940存储的程序指令，还用于执行以下操作：

；

；目标回复是k个检索回复中的任一个；

利用重参数技巧对测试单位先验分布

进行采样处理，得到测试隐变量；

调用训练好的序列到序列模型对目标查询数据和测试隐变量进行处理，得到目标查询数据对应的生成式回复。

应当理解，本申请实施例中所描述的计算机设备可执行前文图2~图6所对应实施例中对模型训练方法以及查询处理方法的描述，也可执行前文图7所对应实施例中对模型训练装置700以及图8所对应的查询处理装置800的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机存储介质，且计算机存储介质中存储有前文提及的模型训练装置700以及查询处理装置800所执行的计算机程序，且该计算机程序包括程序指令，当处理器执行上述程序指令时，能够执行前文图2~图6所对应实施例中的方法，因此，这里将不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。作为示例，程序指令可以被部署在一个计算机设备上，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备可以执行前文图2~图6所对应实施例中的方法，因此，这里将不再进行赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random AccessMemory，RAM）等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种生成式对话系统的模型训练方法，其特征在于，所述生成式对话系统包括生成式对话模型，所述方法包括：

获取训练数据集，所述训练数据集包括查询数据、参考数据组及检索数据组；所述参考数据组中包含m个参考回复，所述检索数据组中包含n个检索回复，m、n均为正整数；

根据所述检索数据组中的各个检索回复之间的语义关系，分别对所述检索数据组中的每个检索回复进行融合处理，得到检索融合组，所述检索融合组中包含n个融合检索回复；

基于所述查询数据与所述检索融合组中各个融合检索回复之间的语义匹配度及目标回复与所述检索融合组中各个融合检索回复之间的语义匹配度，对所述检索数据组的语义分布序列进行加权处理得到先验分布；所述目标回复是所述参考数据组中的一个参考回复；以及，

根据所述参考数据组中的各个参考回复之间的语义关系，分别对所述参考数据组中的各个参考回复进行融合处理，得到参考融合组，所述参考融合组中包含m个融合参考回复；

基于所述查询数据与所述参考融合组中各个融合参考回复之间的语义匹配度和所述目标回复与所述参考融合组中各个融合参考回复之间的语义匹配度，对所述参考数据组的语义分布序列进行加权处理得到后验分布；

按照最小化所述先验分布与所述后验分布之间的距离的原则，对所述生成式对话模型进行训练。

2.如权利要求1所述的方法，其特征在于，所述检索数据组中任一个检索回复表示为

；j为正整数且j≤n；

所述根据所述检索数据组中的各个检索回复之间的语义关系，分别对所述检索数据组中的每个检索回复进行融合处理，得到检索融合组，包括：

基于自注意力机制获取与所述检索回复

相关的n个检索相似度，每个所述检索相似度用于表示所述检索回复

与所述检索数据组中的一个检索回复之间的语义相似程度；

基于所述n个检索相似度对所述检索回复

进行加权计算，得到所述融合检索回复

；

将所述融合检索回复

添加至所述检索融合组中。

3.如权利要求1所述的方法，其特征在于，所述参考数据组中任一个参考回复表示为

，i为正整数且i≤m；

所述根据所述参考数据组中的各个参考回复之间的语义关系，分别对所述检索数据组中的每个检索回复进行融合处理，得到参考融合组，包括：

基于自注意力机制获取与所述参考回复

相关的m个参考相似度，每个所述参考相似度用于表示所述参考回复

与所述参考数据组中的一个参考回复之间的语义相似程度；

基于所述m个参考相似度对所述参考回复

进行加权计算，得到所述融合参考回复

；

将所述融合参考回复

添加至所述参考融合组中。

4.如权利要求1所述的方法，其特征在于，所述检索数据组表示为向量

，所述检索数据组的语义分布序列表示为

，其中，

是所述检索回复

对应的语义分布元素；j为正整数且j≤n；所述方法还包括：

基于所述查询数据和所述检索回复

计算均值方差（

，

），所述均值方差（

，

）用于表示所述检索回复

的语义分布；

对所述均值方差（

，

）所表示的语义分布进行采样，得到所述语义分布元素

。

5.如权利要求4所述的方法，其特征在于，所述目标回复表示为

；所述先验分布包含第一单位先验分布

和第二单位先验分布

；

所述基于所述查询数据与所述检索融合组中各个融合检索回复之间的语义匹配度及目标回复与所述检索融合组中各个融合检索回复之间的语义匹配度，对所述检索数据组的语义分布序列进行加权处理得到先验分布，包括：

基于目标回复

与融合检索回复

之间的语义匹配度，设置第一权重

；所述融合检索回复

是由所述检索回复

融合了与所述检索数据组中其他检索回复之间的语义关系之后得到的；

采用所述第一权重

对所述检索数据组的语义分布序列进行加权处理，得到所述第一单位先验分布

；

基于所述查询数据与所述融合检索回复

之间的语义匹配度，设置第二权重

；

采用所述第二权重

对所述检索数据组的语义分布序列进行加权处理，得到所述第二单位先验分布

。

6.如权利要求1所述的方法，其特征在于，所述参考数据组表示为向量

，所述参考数据组的语义分布序列表示为

，其中，

是所述参考回复

对应的语义分布元素；i为正整数且i≤m；所述方法还包括：

基于所述查询数据和所述参考回复

计算均值方差（

，

），所述均值方差（

，

）用于表示所述参考回复

的语义分布；

对所述均值方差（

，

）所表示的语义分布进行采样，得到所述语义分布元素

。

7.如权利要求6所述的方法，其特征在于，所述目标回复表示为

；所述后验分布包含第一单位后验分布

和第二单位后验分布

；

所述基于所述查询数据与所述参考融合组中各个融合参考回复之间的语义匹配度及所述目标回复与所述参考融合组中各个融合参考回复之间的语义匹配度，对所述参考数据组的语义分布序列进行加权处理得到后验分布，包括：

基于目标回复

与融合参考回复

之间的语义匹配度，设置第三权重

；所述融合参考回复

是由所述参考回复

融合了与所述参考数据组中其他参考回复之间的语义关系之后得到的；

采用所述第三权重

对所述参考数据组的语义分布序列进行加权处理，得到所述第一单位后验分布

；

基于所述查询数据与所述融合参考回复

之间的语义匹配度，设置第四权重

；

采用所述第四权重

对所述参考数据组的语义分布序列进行加权处理，得到所述第二单位后验分布

。

8.如权利要求1-7中任一项所述的方法，其特征在于，所述先验分布包含第一单位先验分布

和第二单位先验分布

；所述后验分布包含第一单位后验分布

和第二单位后验分布

；

所述按照最小化所述先验分布与所述后验分布之间的距离的原则，对所述生成式对话模型进行训练，包括：

获取所述第一单位先验分布

和所述第一单位后验分布

之间的第一散度值；

获取所述第二单位先验分布

和所述第二单位后验分布

之间的第二散度值；

按照减小所述第一散度值和所述第二散度值的原则，对所述生成式对话模型的模型参数进行调整；

当所述第一散度值和所述第二散度值均达到最小值时，所述生成式对话模型训练结束。

9.如权利要求8中所述的方法，其特征在于，所述生成式对话系统还包括序列到序列模型，所述方法还包括：

当所述生成式对话模型训练结束后，从训练好的生成对话模型中获取所述第一单位后验分布

；

利用重参数技巧对所述第一单位后验分布

进行采样处理，得到训练隐变量；

采用所述查询数据及所述训练隐变量对所述序列到序列模型进行训练。

10.如权利要求9中所述的方法，其特征在于，所述采用所述查询数据及所述训练隐变量对所述序列到序列模型进行训练，包括：

将所述训练隐变量和所述查询数据输入至所述序列到序列模型中进行处理，得到生成式回复；

根据所述生成式回复与所述目标回复之间的差异，调整所述序列到序列模型的模型参数；

当所述序列到序列模型满足收敛条件时，停止训练所述序列到序列模型。

11.一种生成式对话系统的查询处理方法，其特征在于，所述生成式对话系统包括训练好的生成式对话模型和训练好的序列到序列模型，所述方法包括：

接收目标查询数据，并基于所述目标查询数据进行检索得到k个检索回复，k为正整数；

调用所述训练好的生成式对话模型挖掘所述k个检索回复之间的语义关系，得到检索融合向量

；

调用所述训练好的生成式对话模型基于所述目标查询数据和所述检索融合向量

中各个元素之间的语义匹配度，及基于目标回复与所述检索融合向量

中各个元素之间的语义匹配度，对所述k个检索回复的语义分布序列进行加权处理得到测试单位先验分布

；所述目标回复是所述k个检索回复中的任一个；

利用重参数技巧对所述测试单位先验分布

进行采样处理，得到测试隐变量；

调用所述训练好的序列到序列模型对所述目标查询数据和所述测试隐变量进行处理，得到所述目标查询数据对应的生成式回复。

12.一种生成式对话系统的模型训练装置，其特征在于，所述装置包括：

获取单元，用于获取训练数据集，所述训练数据集包括查询数据、参考数据组及检索数据组；所述参考数据组中包含m个参考回复，所述检索数据组中包含n个检索回复；m、n均为正整数；

处理单元，用于根据所述检索数据组中的各个检索回复之间的语义关系，分别对所述检索数据组中的每个检索回复进行融合处理，得到检索融合组，所述检索融合组中包含n个融合检索回复；

所述处理单元，还用于基于所述查询数据与所述检索融合组中各个融合检索回复之间的语义匹配度及目标回复与所述检索融合组中各个融合检索回复之间的语义匹配度，对所述检索数据组的语义分布序列进行加权处理得到先验分布；所述目标回复是所述参考数据组中的一个参考回复；以及，

所述处理单元，还用于根据所述参考数据组中的各个参考回复之间的语义关系，分别对所述参考数据组中的各个参考回复进行融合处理，得到参考融合组，所述参考融合组中包含m个融合参考回复；

所述处理单元，还用于基于所述查询数据与所述参考融合组中各个融合参考回复之间的语义匹配度和所述目标回复与所述参考融合组中各个融合参考回复之间的语义匹配度，对所述参考数据组的语义分布序列进行加权处理得到后验分布；

训练单元，用于按照最小化所述先验分布与所述后验分布之间的距离的原则，对所述生成式对话模型进行训练。

13.一种生成式对话系统的查询处理装置，其特征在于，所述装置包括：

接收单元，用于接收目标查询数据，并基于所述目标查询数据进行检索得到k个检索回复，k为正整数；

处理单元，用于调用训练好的生成式对话模型挖掘所述k个检索回复之间的语义关系，得到检索融合向量

；

所述处理单元，还用于调用所述训练好的生成式对话模型基于所述目标查询数据和所述检索融合向量

；所述目标回复是所述k个检索回复中的任一个；

所述处理单元，还用于利用重参数技巧对所述测试单位先验分布

进行采样处理，得到测试隐变量；

所述处理单元，还用于调用所述训练好的序列到序列模型对所述目标查询数据和所述测试隐变量进行处理，得到所述目标查询数据对应的生成式回复。

14.一种计算机设备，其特征在于，包括：

处理器，适于执行计算机程序；

计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1~10任一项所述的生成式对话系统的模型训练方法，或者实现如权利要求11所述的生成式对话系统的查询处理方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于由处理器加载并执行如权利要求1~10任一项所述的生成式对话系统的模型训练方法，或者执行如权利要求11所述的生成式对话系统的查询处理方法。