CN114840671A

CN114840671A - 对话生成方法、模型的训练方法、装置、设备及介质

Info

Publication number: CN114840671A
Application number: CN202210477954.6A
Authority: CN
Inventors: 鲍思琪; 黄信娴; 何煌; 王凡; 吴华; 黄世维; 何径舟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2022-08-02

Abstract

本公开提供了对话生成方法、用于对话生成的模型的训练方法、装置、电子设备、存储介质以及程序产品，涉及人工智能技术领域，尤其涉及深度学习、智能搜索、语音技术等技术领域。具体实现方案为：基于对话信息，生成检索信息；提取检索信息中的检索对象；从与检索对象相匹配的数据源中，确定与检索信息相匹配的知识信息；以及基于知识信息，生成与对话信息相匹配的知识回复内容。

Description

对话生成方法、模型的训练方法、装置、设备及介质

技术领域

本公开涉及人工智能技术领域，尤其涉及深度学习、智能搜索、语音技术等技术领域。具体涉及对话生成方法、用于对话生成的模型的训练方法、装置、电子设备、存储介质以及程序产品。

背景技术

人机交互是一种人类用自然语言与机器进行交互的方式。随着人工智能技术的不断发展，已经实现让机器能够听懂人类输出的信息，理解信息中的内在含义，并作出相应的反馈。在这些操作中，语义的准确理解、反馈的迅速程度、以及给予相应的意见或者建议，均成为影响人机交互顺畅的因素。

发明内容

本公开提供了一种对话生成方法、用于对话生成的模型的训练方法、装置、电子设备、存储介质以及程序产品。

根据本公开的一方面，提供了一种对话生成方法，包括：基于对话信息，生成检索信息；提取所述检索信息中的检索对象；从与所述检索对象相匹配的数据源中，确定与所述检索信息相匹配的知识信息；以及基于所述知识信息，生成与所述对话信息相匹配的知识回复内容。

根据本公开的另一方面，提供了一种用于对话生成的模型的训练方法，包括：基于训练样本的样本对话信息，生成样本检索信息，其中，所述训练样本还包括与所述样本对话信息相匹配的样本参考回复内容；提取所述样本检索信息中的检索对象；从与所述检索对象相匹配的数据源中，确定与所述样本检索信息相匹配的样本知识信息；基于所述样本知识信息，生成样本知识回复内容；以及利用所述样本知识回复内容和所述样本参考回复内容，训练所述深度学习模型，得到语言处理模型。

根据本公开的另一方面，提供了一种对话生成方法，包括：将对话信息输入至语言处理模型中，得到与所述对话信息相匹配的知识回复内容，其中，所述语言处理模型是利用本公开所述的方法训练的。

根据本公开的另一方面，提供了一种对话生成装置，包括：第一生成模块，用于基于对话信息，生成检索信息；提取模块，用于提取所述检索信息中的检索对象；检索模块，用于从与所述检索对象相匹配的数据源中，确定与所述检索信息相匹配的知识信息；以及第二生成模块，用于基于所述知识信息，生成与所述对话信息相匹配的知识回复内容。

根据本公开的另一方面，提供了一种用于对话生成的模型的训练装置，包括：第一样本生成模块，用于基于训练样本的样本对话信息，生成样本检索信息，其中，所述训练样本还包括与所述样本对话信息相匹配的样本参考回复内容；样本提取模块，用于提取所述样本检索信息中的检索对象；样本检索模块，用于从与所述检索对象相匹配的数据源中，确定与所述样本检索信息相匹配的样本知识信息；第二样本生成模块，用于基于所述样本知识信息，生成样本知识回复内容；以及训练模块，用于利用所述样本知识回复内容和所述样本参考回复内容，训练所述深度学习模型，得到语言处理模型。

根据本公开的另一方面，提供了一种对话生成装置，包括：对话生成模块，用于将对话信息输入至语言处理模型中，得到与所述对话信息相匹配的知识回复内容，其中，所述语言处理模型是利用本公开所述的装置训练的。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如本公开的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如本公开的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如本公开的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开实施例的可以应用对话生成方法及装置的示例性系统架构；

图2示意性示出了根据本公开实施例的对话生成方法的流程图；

图3A示意性示出了根据本公开实施例的对话生成方法的流程示意图；

图3B示意性示出了根据本公开另一实施例的对话生成方法的流程示意图；

图4示意性示出了根据本公开实施例的用于对话生成的模型的训练方法的流程图；

图5A示意性示出了根据本公开实施例的调整深度学习模型的参数的流程示意图；

图5B示意性示出了根据本公开另一实施例的调整深度学习模型的参数的流程示意图；

图6示意性示出了根据本公开另一实施例的对话生成方法的流程图；

图7示意性示出了根据本公开实施例的对话生成装置的框图；

图8示意性示出了根据本公开实施例的用于对话生成的模型的训练装置的框图；

图9示意性示出了根据本公开另一实施例的对话生成装置的框图；以及

图10示意性示出了根据本公开实施例的适于实现对话生成方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

根据本公开的实施例，提供一种对话生成方法，包括：基于对话信息，生成检索信息；提取检索信息中的检索对象；从与检索对象相匹配的数据源中，确定与检索信息相匹配的知识信息；以及基于知识信息，生成与对话信息相匹配的知识回复内容。

在本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

图1示意性示出了根据本公开实施例的可以应用检索方法及装置的示例性系统架构。

需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如，在另一实施例中，可以应用对话生成方法及装置的示例性系统架构可以包括终端设备，但终端设备可以无需与服务器进行交互，即可实现本公开实施例提供的对话生成方法及装置。

如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持以文本或者语音的形式接收对话语句的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、智能音箱、智能可穿戴设备、或者机器人等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所输入的对话语句提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的对话语句以及输出的对话语句等对话信息进行分析等处理，并将知识回复内容反馈给终端设备。

需要说明的是，本公开实施例所提供的对话生成方法一般可以由终端设备101、102、或103执行。相应地，本公开实施例所提供的对话生成装置也可以设置于终端设备101、102、或103中。

或者，本公开实施例所提供的对话生成方法一般也可以由服务器105执行。相应地，本公开实施例所提供的对话生成装置一般可以设置于服务器105中。本公开实施例所提供的对话生成方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的对话生成装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

例如，在用户以语音的形式发出对话信息时，终端设备101、102、103可以获取用户输入的对话信息，然后将获取的对话信息发送给服务器105，由服务器105基于对话信息生成检索信息，提取检索信息中的检索对象，从与检索对象相匹配的数据源中，确定与检索信息相匹配的知识信息，基于知识信息，生成与对话信息相匹配的知识回复内容。将知识回复内容作为人机交互的反馈结果发送给终端设备101、102、103。或者由能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群对对话信息进行分析，并最终得到知识回复内容。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

应注意，以下方法中各个操作的序号仅作为该操作的表示以便描述，而不应被看作表示该各个操作的执行顺序。除非明确指出，否则该方法不需要完全按照所示顺序来执行。

图2示意性示出了根据本公开实施例的对话生成方法的流程图。

如图2所示，该方法包括操作S210～S240。

在操作S210，基于对话信息，生成检索信息。

在操作S220，提取检索信息中的检索对象。

在操作S230，从与检索对象相匹配的数据源中，确定与检索信息相匹配的知识信息。

在操作S240，基于知识信息，生成与对话信息相匹配的知识回复内容。

根据本公开的实施例，对话信息，以信息类型划分，可以为语音信息或者文本信息；以来源划分，可以为用户输出的信息，也可以是人机交互过程中，用户输出的信息以及终端设备输出的信息的结合；以数据量划分，可以为一轮对话的对话信息，也可以为多轮对话的对话信息。

根据本公开的实施例，检索信息，可以包括对话信息中的例如关键词、短语等一部分信息，但是并不局限于此，还可以是与对话信息相关的信息。只要是能够推进、引导对话深入进行的检索信息即可。

根据本公开的实施例，知识信息，可以是与对话信息相关的领域知识信息，例如，通过检索信息查询知识图谱或者搜索数据库才能获知的信息。

根据本公开的实施例，数据源可以用于存储数据以及查询数据。数据源可以包括内部知识库和外部知识库等。内部知识库可以指自行构建的数据库或者知识图谱。外部知识库可以指第三方等外部渠道提供的数据库、知识图谱或者搜索引擎等。内部知识库以及外部知识库中的数据库、知识图谱等类型的数据源，能够支持时效性要求比较低的知识信息的检索和获取，内部知识库以及外部知识库中的数据库、知识图谱等类型的数据源中的信息可以是周期性更新的。外部知识库中的搜索引擎，能够支持对时效性要求比较高的知识信息的检索和获取，搜索引擎中的相关信息可以是实时更新的。

根据本公开的实施例，可以从检索信息中提取检索对象，基于检索对象来匹配数据源。检索对象可以指检索信息中涉及的对象，具体的，可以是检索信息中包含的检索对象，也可以是通过检索信息推断出的检索对象。检索对象可以包括与实效性相关的对象，例如实效性高的动态对象和实效性低的静态对象。可以根据检索对象的类型，确定与检索对象类型相匹配的数据源。

例如，检索对象为静态对象，例如与定律、计算公式、以及生活常识等相关的检索对象，可以利用ANN(Approximate Nearest Neighbor，近似最近邻搜索)或ES(ElasticSearch)算法等基于检索信息从数据库中进行查询，得到对时效性要求比较低的知识信息。

例如，检索对象为动态对象，例如与天气、新闻、时事等相关的检索对象，可以基于检索信息从搜索引擎中进行查询，获得对时效性要求比较高的知识信息。

根据本公开的实施例，利用不同类型的多个数据源来提供知识信息，可以使得知识信息形式多样；此外，利用与检索对象相匹配的数据源来进行知识信息的检索与获取，可以使得知识信息地生成灵活且智能。

根据本公开的实施例，可以直接将知识信息作为知识回复内容，针对对话信息进行回复。例如，知识信息和知识回复内容可以均为“歌手AA最受欢迎的歌曲为BB”。也可以是在知识信息的基础上，通过再处理生成的知识回复内容，例如，知识信息为“歌手AA最受欢迎的歌曲为BB”，知识回复内容为“歌手AA演唱过很多歌曲，其中歌曲BB最受欢迎”。

利用本公开实施例提供的对话生成方法，可以应用于知识对话领域，从对话信息中得到检索信息，基于检索信息生成与对话信息相关性强的知识信息，使得知识回复内容符合知识性的同时，提高人机交互的对话质量以及智能性。

图3A示意性示出了根据本公开实施例的对话生成方法的流程示意图。

如图3A所示，利用语言处理模型处理对话信息310，生成检索信息320。利用与检索对象相匹配的数据源330来确定与检索信息320相匹配的知识信息340。利用语言处理模型基于知识信息340，生成与对话信息310相匹配的知识回复内容350。

图3B示意性示出了根据本公开另一实施例的对话生成方法的流程示意图。

如图3B所示，利用语言处理模型处理对话信息310，生成检索信息320。利用与检索对象相匹配的数据源330来确定与检索信息320相匹配的知识信息340。利用语言处理模型基于知识信息340，生成与对话信息310相匹配的知识回复内容350。还利用语言处理模型处理对话信息310，生成通用回复内容360。基于知识回复内容350和通用回复内容360，确定目标回复内容370。

根据本公开的实施例，基于知识回复内容和通用回复内容，确定目标回复内容可以包括：可以基于知识回复内容和通用回复内容各自的置信度，将置信度高的作为目标回复内容。但是并不局限于此。还可以将知识回复内容和通用回复内容进行融合处理，生成目标回复内容。例如，知识回复内容包括“歌手AA最受欢迎的歌曲为BB”。通用回复内容可以包括“好可惜啊，歌手AA好久不出新专辑了”。对知识回复内容和通用回复内容进行融合处理生成的目标回复内容可以包括“歌手AA好久不出新专辑了，最受欢迎的歌曲为BB”。

根据本公开的其他实施例，还可以利用语言处理模型，利用训练的过程自动学习到与对话信息相匹配的目标回复内容的特征，针对对话信息，自动生成知识回复内容作为目标回复内容，或者自动生成通用回复内容作为目标回复内容。

利用本公开实施例提供的语言处理模型来基于对话信息自动地生成目标回复内容，可以实现两种生成目标回复内容的灵活切换，使得利用通用回复内容快速的同时，利用知识回复内容质量高。

根据本公开的实施例，语言处理模型可以包括开放式对话模型PLATO或者开放式对话模型PLATO的衍生模型，例如PLATO-XL、PLATO-2等，但是并不局限于此，还可以为其他具有编码、解码功能的神经网络模型。

根据本公开的实施例，语言处理模型利用PLATO-XL，可同时进行基于对话信息生成检索信息的对话理解、基于知识信息生成知识回复内容的回复生成的联合建模，也可同时进行基于对话信息生成检索信息的对话理解、基于知识信息生成知识回复内容的第一回复生成、以及基于对话信息生成通用回复内容的第二回复生成的联合建模，使得模型参数性价比高。此外，语言处理模型中通过采用灵活的注意力机制，可以对对话信息进行双向编码，充分利用和理解对话信息。对用于生成知识回复内容的知识信息或者对用于生成通用回复内容的对话信息进行单向解码，适应回复生成的自回归特性。

根据本公开的实施例，针对操作S220，确定与检索信息相匹配的知识信息，可以包括如下操作。

例如，在利用搜索引擎作为数据源基于检索信息确定知识信息的情况下，可以同时获得多个候选知识信息。在此情况下，可以确定与检索信息相匹配的多个候选知识信息。基于多个候选知识信息各自的点击率，从多个候选知识信息中确定知识信息。可以将点击率最高的候选知识信息确定为知识信息。

根据本公开的实施例，点击率可以是在预定时间段内的结合多个用户得到的点击率的数据。

根据本公开的其他实施例，从多个候选知识信息中确定知识信息，还可以确定目标用户对多个候选知识信息的关注度，得到多个关注度结果。多个关注度结果与多个候选知识信息可以一一对应。目标用户可以为参与对话信息生成的用户。基于多个关注度结果，从多个候选知识信息中确定知识信息。可以将关注度结果最高的候选知识信息确定为知识信息。但是并不局限于此。在多个候选知识信息是以列表的形式展示的情况下，可以将排在首位的候选知识信息作为知识信息。

根据本公开的实施例，基于点击率或者基于目标用户的关注度，从多个候选知识信息中确定知识信息，可以使得知识回复内容更符合目标用户的兴趣点，使得人机交互满足个性化需求。

图4示意性示出了根据本公开实施例的用于对话生成的模型的训练方法的流程图。

如图4所示，该方法包括操作S410～S450。

在操作S410，基于训练样本的样本对话信息，生成样本检索信息。训练样本还包括与样本对话信息相匹配的样本参考回复内容。

在操作S420，提取样本检索信息中的检索对象。

在操作S430，从与检索对象相匹配的数据源中，确定与样本检索信息相匹配的样本知识信息。

在操作S440，基于样本知识信息，生成样本知识回复内容。

在操作S450，利用样本知识回复内容和样本参考回复内容，训练深度学习模型，得到语言处理模型。

根据本公开的实施例，训练样本可以是从开源语料库中获取的，只要是包括一段对话的内容即可作为训练样本。训练样本可以包括样本对话信息和与样本对话信息相衔接的样本参考回复内容。以讨论天气的话题作为训练样本，样本对话信息可以包括“小M说：今天天气不错。小N说：现在天气不错，可是天气预报报道今天有雨。小M说：是吗？那大约是几点开始下雨呢？”。与样本对话信息相匹配的样本参考回复内容可以是“预报是下午3点至5点左右，中到小雨”。

根据本公开的实施例，可以以样本参考回复内容作为标签，以样本知识回复内容作为模型输出的对话下文。利用样本参考回复内容作为标准，训练深度学习模型，使得训练后的深度学习模型输出的对话下文趋近于标准的样本参考回复内容，进而得到语言处理模型。

根据本公开的其他实施例，深度学习模型还可以依赖人工标注来进行有监督地训练。例如，由人工标注生成与知识对话类型相关性强的训练样本。

根据本公开的实施例，与依赖人工标注进行有监督地训练方式相比，利用本公开实施例提供的用于对话生成的模型的训练方法能够使用非人工标注的训练样本，节约了成本，更进一步地，训练样本不受标注数据的限制，使得训练样本的数据量充足且多样，提高了模型的泛化能力。

图5A示意性示出了根据本公开实施例的调整深度学习模型的参数的流程示意图。

如图5A所示，可以将样本对话信息510输入至深度学习模型520中，得到样本知识回复内容530。例如，利用深度学习模型，基于样本对话信息生成样本检索信息，确定样本知识信息，并基于样本知识信息生成样本知识回复内容。确定样本知识回复内容530和样本参考回复内容540之间的第一目标匹配度550。基于第一目标匹配度550调整深度学习模型520的参数，得到语言处理模型。

根据本公开的实施例，可以利用强化学习的训练方式，基于第一目标匹配度，来确定激励值(Reward)，基于激励值来对深度学习模型调参，直至激励值满足预定条件。例如，激励值满足预定激励阈值，或者调参轮数达到预定调参轮次阈值。

图5B示意性示出了根据本公开另一实施例的调整深度学习模型的参数的流程示意图。

如图5B所示，可以将样本对话信息510输入至深度学习模型520中，得到样本知识回复内容530和样本通用回复内容560。利用样本知识回复内容530、样本通用回复内容560和样本参考回复内容540，训练深度学习模型，得到语言处理模型。

如图5B所示，利用样本知识回复内容、样本通用回复内容和样本参考回复内容，训练深度学习模型，得到语言处理模型包括：确定样本知识回复内容530与样本参考回复内容540之间的第一匹配度550。确定样本通用回复内容560与样本参考回复内容540之间的第二匹配度570。从第一匹配度550和第二匹配度570中确定第二目标匹配度580。基于第二目标匹配度580调整深度学习模型520的参数，得到语言处理模型。

根据本公开的实施例，样本知识回复内容的内容类型包括以下至少一项：链接、图像、文本。确定样本知识回复内容的内容类型。采用与内容类型相匹配的相关性确定方式，确定样本知识回复内容和样本参考回复内容之间的第一匹配度或者第一目标匹配度。

例如，在确定样本知识回复内容的内容类型为图像的情况下，可以利用图像特征提取方法来分别处理样本知识回复内容和样本参考回复内容，得到与样本知识回复内容和样本参考回复内容一一对应的两个图像特征向量。计算两个图像特征向量之间的特征相似度，作为第一目标匹配度。

例如，在确定样本知识回复内容的内容类型为文本的情况下，可以利用例如交叉编码器(cross-encoder)来处理样本知识回复内容和样本参考回复内容，得到样本知识回复内容和样本参考回复内容之间的语义相似度。但是并不局限于此。在确定样本知识回复内容的内容类型为文本的情况下，还可以利用Unigram-F1(一元分词)、BLEU(BilingualEvaluation Understudy)等基于词重叠的计算方式来确定样本知识回复内容和样本参考回复内容之间的共现词频率。

还例如，在确定样本知识回复内容的内容类型为链接的情况下，可以基于链接获取与链接相关的内容，例如文本或者图像，按照上述的语义相似度、特征相似度、共现词频率确定方式来确定第一目标匹配度。

根据本公开的实施例，按照与第一目标匹配度的确定方式相同的方式来确定第一匹配度、和第二匹配度。第一目标匹配度、第一匹配度、和第二匹配度各自可以包括以下至少一项：语义相似度、特征相似度、共现词频率。

根据本公开的实施例，从第一匹配度和第二匹配度中确定第二目标匹配度可以包括：将第一匹配度和第二匹配度中的数值大的作为第二目标匹配度。

根据本公开的实施例，可以利用强化学习的训练方式，基于第二目标匹配度，来确定激励值(Reward)，基于激励值来对深度学习模型调参，直至激励值满足预定条件。例如，激励值满足预定激励阈值，或者调参轮数达到预定调参轮次阈值。

根据本公开的实施例，针对操作S420，确定与样本检索信息相匹配的样本知识信息可以包括如下操作。

例如，确定与样本检索信息相匹配的多个样本候选知识信息。基于多个样本候选知识信息各自的点击率，从多个样本候选知识信息中确定样本知识信息。可以将点击率最高的样本候选知识信息确定为样本知识信息。点击率可以是在预定时间段内的结合多个用户得到的点击率的数据。

还例如，确定与样本检索信息相匹配的多个样本候选知识信息。确定样本目标用户对多个样本候选知识信息的样本关注度，得到多个样本关注度结果。样本目标用户为参与样本对话信息生成的用户。基于多个样本关注度结果，从多个样本候选知识信息中确定样本知识信息。可以将样本关注度结果最高的样本候选知识信息确定为样本知识信息。但是并不局限于此。在多个样本候选知识信息是以列表的形式展示的情况下，可以将排在首位的样本候选知识信息作为样本知识信息。

根据本公开的实施例，基于点击率或者基于目标用户的关注度，从多个样本候选知识信息中确定样本知识信息，可以使得语言处理模型输出的知识回复内容更符合目标用户的兴趣点，使得人机交互满足个性化需求。

图6示意性示出了根据本公开另一实施例的对话生成方法的流程图。

如图6所示，该方法包括操作S610。

在操作S610，将对话信息输入至语言处理模型中，得到与对话信息相匹配的知识回复内容。

根据本公开的实施例，语言处理模型是利用用于对话生成的模型的训练方法训练的。

利用本公开实施例提供的对话生成方法，可以应用于知识对话领域，生成与对话信息相关性强的知识信息作为知识回复内容。此外，知识回复内容是利用语言处理模型基于对话信息生成的，用于训练语言处理模型的训练样本无需人工标注，使得语言处理模型的应用范围增加，泛化能力强，进而扩大人机交互的主题范围，使得人机交互更为智能、顺畅。

图7示意性示出了根据本公开实施例的对话生成装置的框图。

如图7所示，对话生成装置700可以包括：第一生成模块710、提取模块720、检索模块730、以及第二生成模块740。

第一生成模块710，用于基于对话信息，生成检索信息。

提取模块720，用于提取检索信息中的检索对象。

检索模块730，用于从与检索对象相匹配的数据源中，确定与检索信息相匹配的知识信息。

第二生成模块740，用于基于知识信息，生成与对话信息相匹配的知识回复内容。

根据本公开的实施例，对话生成装置还包括：第三生成模块、以及确定模块。

第三生成模块，用于基于对话信息，生成通用回复内容。

确定模块，用于基于知识回复内容和通用回复内容，确定目标回复内容。

根据本公开的实施例，检索模块包括：第一确定单元、以及第二确定单元。

第一确定单元，用于确定与检索信息相匹配的多个候选知识信息。

第二确定单元，用于基于多个候选知识信息各自的点击率，从多个候选知识信息中确定知识信息。

图8示意性示出了根据本公开实施例的用于对话生成的模型的训练装置的框图。

如图8所示，用于对话生成的模型的训练装置800可以包括：第一样本生成模块810、样本提取模块820、样本检索模块830、第二样本生成模块840、以及训练模块850。

第一样本生成模块810，用于基于训练样本的样本对话信息，生成样本检索信息，其中，训练样本还包括与样本对话信息相匹配的样本参考回复内容。

样本提取模块820，用于提取样本检索信息中的检索对象。

样本检索模块830，用于确定与样本检索信息相匹配的样本知识信息。

第二样本生成模块840，用于从与检索对象相匹配的数据源中，基于样本知识信息，生成样本知识回复内容。

训练模块850，用于利用样本知识回复内容和样本参考回复内容，训练深度学习模型，得到语言处理模型。

根据本公开的实施例，训练模块包括：匹配度确定单元、以及调参单元。

匹配度确定单元，用于确定样本知识回复内容和样本参考回复内容之间的第一目标匹配度。

调参单元，用于基于第一目标匹配度调整深度学习模型的参数，得到语言处理模型。

根据本公开的实施例，匹配度确定单元包括：类型确定子单元、相关性确定子单元。

类型确定子单元，用于确定样本知识回复内容的内容类型。

相关性确定子单元，用于采用与内容类型相匹配的相关性确定方式，确定样本知识回复内容和样本参考回复内容之间的第一目标匹配度。

根据本公开的实施例，深度学习模型的还可以包括：第三样本生成模块。

第三样本生成模块，用于基于样本对话信息，得到样本通用回复内容。

根据本公开的实施例，训练模块包括：训练单元。

训练单元，用于利用样本知识回复内容、样本通用回复内容和样本参考回复内容，训练深度学习模型，得到语言处理模型。

根据本公开的实施例，训练单元包括：第一确定子单元、第二确定子单元、第三确定子单元、以及调参子单元。

第一确定子单元，用于确定样本知识回复内容与样本参考回复内容之间的第一匹配度。

第二确定子单元，用于确定样本通用回复内容与样本参考回复内容之间的第二匹配度。

第三确定子单元，用于从第一匹配度和第二匹配度中确定第二目标匹配度。

调参子单元，用于基于第二目标匹配度调整深度学习模型的参数，得到语言处理模型。

根据本公开的实施例，第一目标匹配度包括以下至少一项：语义相似度、特征相似度、共现词频率。

根据本公开的实施例，内容类型包括以下至少一项：链接、图像、文本。

根据本公开的实施例，样本检索模块包括：第一样本确定单元、以及第二样本确定单元。

第一样本确定单元，用于确定与样本检索信息相匹配的多个样本候选知识信息。

第二样本确定单元，用于基于多个样本候选知识信息各自的点击率，从多个样本候选知识信息中确定样本知识信息。

图9示意性示出了根据本公开另一实施例的对话生成装置的框图。

如图9所示，对话生成装置900包括：对话生成模块910。

对话生成模块910，用于将对话信息输入至语言处理模型中，得到与对话信息相匹配的知识回复内容。

根据本公开的实施例，语言处理模型是利用用于对话生成的模型的训练装置训练的。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如本公开实施例的方法。

根据本公开的实施例，一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如本公开实施例的方法。

根据本公开的实施例，一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如本公开实施例的方法。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如对话生成方法、或者用于对话生成的模型的训练方法。例如，在一些实施例中，对话生成方法、或者用于对话生成的模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的对话生成方法、或者用于对话生成的模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行对话生成方法、或者用于对话生成的模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种对话生成方法，包括：

基于对话信息，生成检索信息；

提取所述检索信息中的检索对象；

从与所述检索对象相匹配的数据源中，确定与所述检索信息相匹配的知识信息；以及

基于所述知识信息，生成与所述对话信息相匹配的知识回复内容。

2.根据权利要求1所述的方法，还包括：

基于所述对话信息，生成通用回复内容；以及

基于所述知识回复内容和所述通用回复内容，确定目标回复内容。

3.根据权利要求1或2所述的方法，其中，所述确定与所述检索信息相匹配的知识信息包括：

确定与所述检索信息相匹配的多个候选知识信息；以及

基于所述多个候选知识信息各自的点击率，从所述多个候选知识信息中确定所述知识信息。

4.一种用于对话生成的模型的训练方法，包括：

基于训练样本的样本对话信息，生成样本检索信息，其中，所述训练样本还包括与所述样本对话信息相匹配的样本参考回复内容；

提取所述样本检索信息中的检索对象；

从与所述检索对象相匹配的数据源中，确定与所述样本检索信息相匹配的样本知识信息；

基于所述样本知识信息，生成样本知识回复内容；以及

利用所述样本知识回复内容和所述样本参考回复内容，训练深度学习模型，得到语言处理模型。

5.根据权利要求4所述的方法，其中，所述利用所述样本知识回复内容和所述样本参考回复内容，训练所述深度学习模型，得到语言处理模型包括：

确定所述样本知识回复内容和所述样本参考回复内容之间的第一目标匹配度；以及

基于所述第一目标匹配度调整所述深度学习模型的参数，得到所述语言处理模型。

6.根据权利要求5所述的方法，其中，所述确定所述样本知识回复内容和所述样本参考回复内容之间的第一目标匹配度包括：

确定所述样本知识回复内容的内容类型；以及

采用与所述内容类型相匹配的相关性确定方式，确定所述样本知识回复内容和所述样本参考回复内容之间的所述第一目标匹配度。

7.根据权利要求4至6中任一项所述的方法，还包括：

基于所述样本对话信息，得到样本通用回复内容；

所述利用所述样本知识回复内容和所述样本参考回复内容，训练所述深度学习模型，得到语言处理模型包括：

利用所述样本知识回复内容、所述样本通用回复内容和所述样本参考回复内容，训练所述深度学习模型，得到所述语言处理模型。

8.根据权利要求7所述的方法，其中，所述利用所述样本知识回复内容、所述样本通用回复内容和所述样本参考回复内容，训练所述深度学习模型，得到所述语言处理模型包括：

确定所述样本知识回复内容与所述样本参考回复内容之间的第一匹配度；

确定所述样本通用回复内容与所述样本参考回复内容之间的第二匹配度；

从所述第一匹配度和所述第二匹配度中确定第二目标匹配度；以及

基于所述第二目标匹配度调整所述深度学习模型的参数，得到所述语言处理模型。

9.根据权利要求6所述的方法，

其中，所述第一目标匹配度包括以下至少一项：语义相似度、特征相似度、共现词频率；

其中，所述内容类型包括以下至少一项：链接、图像、文本。

10.根据权利要求4至9中任一项所述的方法，其中，所述确定与所述样本检索信息相匹配的样本知识信息包括：

确定与所述样本检索信息相匹配的多个样本候选知识信息；以及

基于所述多个样本候选知识信息各自的点击率，从所述多个样本候选知识信息中确定所述样本知识信息。

11.一种对话生成方法，包括：

将对话信息输入至语言处理模型中，得到与所述对话信息相匹配的知识回复内容，

其中，所述语言处理模型是利用根据权利要求4至10中任一项所述的方法训练的。

12.一种对话生成装置，包括：

第一生成模块，用于基于对话信息，生成检索信息；

提取模块，用于提取所述检索信息中的检索对象；

检索模块，用于从与所述检索对象相匹配的数据源中，确定与所述检索信息相匹配的知识信息；以及

第二生成模块，用于基于所述知识信息，生成与所述对话信息相匹配的知识回复内容。

13.根据权利要求12所述的装置，还包括：

第三生成模块，用于基于所述对话信息，生成通用回复内容；以及

确定模块，用于基于所述知识回复内容和所述通用回复内容，确定目标回复内容。

14.根据权利要求12或13所述的装置，其中，所述检索模块包括：

第一确定单元，用于确定与所述检索信息相匹配的多个候选知识信息；以及

第二确定单元，用于基于所述多个候选知识信息各自的点击率，从所述多个候选知识信息中确定所述知识信息。

15.一种用于对话生成的模型的训练装置，包括：

第一样本生成模块，用于基于训练样本的样本对话信息，生成样本检索信息，其中，所述训练样本还包括与所述样本对话信息相匹配的样本参考回复内容；

样本提取模块，用于提取所述样本检索信息中的检索对象；

样本检索模块，用于从与所述检索对象相匹配的数据源中，确定与所述样本检索信息相匹配的样本知识信息；

第二样本生成模块，用于基于所述样本知识信息，生成样本知识回复内容；以及

训练模块，用于利用所述样本知识回复内容和所述样本参考回复内容，训练深度学习模型，得到语言处理模型。

16.根据权利要求15所述的装置，其中，所述训练模块包括：

匹配度确定单元，用于确定所述样本知识回复内容和所述样本参考回复内容之间的第一目标匹配度；以及

调参单元，用于基于所述第一目标匹配度调整所述深度学习模型的参数，得到所述语言处理模型。

17.根据权利要求16所述的装置，其中，所述匹配度确定单元包括：

类型确定子单元，用于确定所述样本知识回复内容的内容类型；以及

相关性确定子单元，用于采用与所述内容类型相匹配的相关性确定方式，确定所述样本知识回复内容和所述样本参考回复内容之间的所述第一目标匹配度。

18.根据权利要求15至17中任一项所述的装置，还包括：

第三样本生成模块，用于基于所述样本对话信息，得到样本通用回复内容；

所述训练模块包括：

训练单元，用于利用所述样本知识回复内容、所述样本通用回复内容和所述样本参考回复内容，训练所述深度学习模型，得到所述语言处理模型。

19.根据权利要求18所述的装置，其中，所述训练单元包括：

第一确定子单元，用于确定所述样本知识回复内容与所述样本参考回复内容之间的第一匹配度；

第二确定子单元，用于确定所述样本通用回复内容与所述样本参考回复内容之间的第二匹配度；

第三确定子单元，用于从所述第一匹配度和所述第二匹配度中确定第二目标匹配度；以及

调参子单元，用于基于所述第二目标匹配度调整所述深度学习模型的参数，得到所述语言处理模型。

20.根据权利要求16所述的装置，

21.根据权利要求4至9中任一项所述的装置，其中，所述样本检索模块包括：

第一样本确定单元，用于确定与所述样本检索信息相匹配的多个样本候选知识信息；以及

第二样本确定单元，用于基于所述多个样本候选知识信息各自的点击率，从所述多个样本候选知识信息中确定所述样本知识信息。

22.一种对话生成装置，包括：

对话生成模块，用于将对话信息输入至语言处理模型中，得到与所述对话信息相匹配的知识回复内容，

其中，所述语言处理模型是利用根据权利要求15至21中任一项所述的装置训练的。

23.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至11中任一项所述的方法。

24.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至11中任一项所述的方法。

25.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至11中任一项所述的方法。