CN116069910A

CN116069910A - 对话处理方法、设备及系统

Info

Publication number: CN116069910A
Application number: CN202211739507.XA
Authority: CN
Inventors: 傅浩敏; 张业勤; 余海洋; 黄非; 李永彬
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-05-05

Abstract

本申请提供一种对话处理方法、设备及系统，该方法中，响应于对话处理请求，从包含半结构化文档内容的文档库中，获取与本次对话内容相关的候选文本，根据候选文本的结构信息以及对话内容，构建动态对话图，对话图包含候选文本、与候选文本相关的邻近文本以及对话内容。通过对对话图进行数据处理，获得对话内容对应的候选回复文本，基于候选回复文本确定目标回复文本，输出目标回复文本。上述方案利用文档库中半结构化文档内容，获取与对话内容相关的候选文本和候选文本的结构化信息，能够更精准地定位当前轮次所需的候选回复文本。通过动态构建对话图，充分利用候选文本和对话内容信息，提升对话处理效率，满足用户实时性的要求。

Description

对话处理方法、设备及系统

技术领域

本申请涉及人工智能领域，尤其涉及一种对话处理方法、设备及系统。

背景技术

对话系统(dialogue system)是一种通过自然语言模仿人与人之间的对话方式，使得用户能够用更自然的方式与机器交流的计算机系统。对话系统在现实生活中应用广泛，例如线上店铺的客服系统、聊天机器人等。

目前，大多数的对话系统的构建都是基于纯文本形式的文档内容，即以纯文本文档作为对话系统的知识源。然而，在现实环境下，文档通常会包含一定的结构信息，例如，文档中段落之间、段落与标题之间的关系等。现有的对话系统暂无法学习到该类信息。

发明内容

本申请实施例提供一种对话处理方法、设备及系统，通过学习知识文档的结构化信息，能够更加精准地为用户输出回复文本。

本申请实施例的第一方面提供一种对话处理方法，该方法可应用于云侧设备或终端设备，终端设备可以是例如智能机器人。该方法，包括：

接收对话处理请求，所述对话处理请求包括当前轮次用户输入的对话内容；

响应于所述对话处理请求，从文档库中获取与所述对话内容的相似度大于预设阈值的候选文本；所述文档库包括半结构化的文档内容；

根据所述候选文本的结构信息以及所述对话内容，构建包含所述候选文本与所述对话内容的对话图；

通过对所述对话图进行数据处理，获得所述对话内容对应的候选回复文本；

基于所述候选回复文本确定目标回复文本；

输出对话处理响应，所述对话处理响应包括所述目标回复文本。

本申请第一方面的一个可选实施例中，所述从文档库中获取与所述对话内容的相似度大于预设阈值的候选文本，包括：

获取所述对话内容对应的对话表示以及所述文档库中第一文本对应的文本表示；所述第一文本为所述文档库中的任一文本；

确定所述对话表示与所述文档库中第一文本对应的文本表示的相似度；

确定与所述对话表示的相似度大于所述预设阈值的目标文本表示；

获取所述目标文本表示对应的所述候选文本。

本申请第一方面的一个可选实施例中，所述获取所述对话内容对应的对话表示以及所述文档库中第一文本对应的文本表示，包括：

将所述对话内容输入预训练模型，得到所述对话内容对应的对话表示；

从数据库获取预存的所述文档库中第一文本对应的文本表示，所述第一文本对应的文本表示是所述预训练模型基于所述第一文本生成的。

本申请第一方面的一个可选实施例中，所述候选文本的结构信息包括邻近文本信息，以及如下信息的至少一项：标题信息、段落信息、序号信息、表格信息。

本申请第一方面的一个可选实施例中，根据所述候选文本的结构信息以及所述对话内容，构建包含所述候选文本与所述对话内容的对话图，包括：

获取预存的文档图，所述文档图是基于所述文档库中的半结构化的文档内容构建的，所述文档图用于指示所述文档库中文档的结构信息；

从所述文档图中获取所述候选文本的结构信息；

根据所述候选文本、所述候选文本的结构信息以及所述对话内容，构建所述对话图。

本申请第一方面的一个可选实施例中，根据所述候选文本、所述候选文本的结构信息以及所述对话内容，构建所述对话图，包括：

将所述对话内容分别拼接至所述候选文本以及所述候选文本的邻近文本，获得所述对话图。

本申请第一方面的一个可选实施例中，通过对所述对话图进行数据处理，获得所述对话内容对应的候选回复文本，包括：

通过预训练模型获取所述对话图的初始特征表示，所述对话图的初始特征表示包括所述对话图中多个文本的文本表示；

将所述对话图的初始特征表示输入图神经网络模型，得到所述对话图的上下文特征表示；

将所述对话图的上下文特征表示输入前馈神经网络模型，获得所述对话内容对应的候选回复文本。

本申请第一方面的一个可选实施例中，所述对话图的上下文特征表示包括所述对话图中多个文本的上下文特征表示；将所述对话图的上下文特征表示输入前馈神经网络模型，获得所述对话内容对应的候选回复文本，包括：

遍历所述对话图的文本，执行将所述对话图中第二文本的上下文特征表示输入所述前馈神经网络模型，获取所述第二文本的得分信息；所述第二文本为所述对话图中多个文本的任一个；

从所述对话图的多个文本中，获取得分大于预设得分的所述候选回复文本；所述候选回复文本包括所述对话图中的至少一个文本。

本申请第一方面的一个可选实施例中，基于所述候选回复文本确定目标回复文本，包括：

将所述候选回复文本输入生成模型的编码器，得到所述候选回复文本的文本序列；

将所述候选回复文本的文本序列输入所述生成模型的解码器，获取所述目标回复文本。

本申请实施例的第二方面提供一种对话处理方法，包括：

获取当前轮次用户输入的对话内容；

从文档库中获取与所述对话内容的相似度大于预设阈值的候选文本；所述文档库包括半结构化的文档内容；

通过对所述对话图进行数据处理，确定所述对话内容对应的候选回复文本。

本申请实施例的第三方面提供一种对话处理设备，包括：接收单元和处理单元。

接收单元，用于接收对话处理请求，所述对话处理请求包括当前轮次用户输入的对话内容；

处理单元，用于响应于所述对话处理请求，从文档库中获取与所述对话内容的相似度大于预设阈值的候选文本；根据所述候选文本的结构信息以及所述对话内容，构建包含所述候选文本与所述对话内容的对话图；通过对所述对话图进行数据处理，获得所述对话内容对应的候选回复文本；基于所述候选回复文本确定目标回复文本；其中，所述文档库包括半结构化的文档内容

发送单元，用于输出对话处理响应，所述对话处理响应包括所述目标回复文本。

本申请实施例的第四方面提供一种对话处理设备，包括：获取单元和处理单元。

获取单元，用于获取当前轮次用户输入的对话内容；

处理单元，用于从文档库中获取与所述对话内容的相似度大于预设阈值的候选文本；所述文档库包括半结构化的文档内容；根据所述候选文本的结构信息以及所述对话内容，构建包含所述候选文本与所述对话内容的对话图；通过对所述对话图进行数据处理，确定所述对话内容对应的候选回复文本。

本申请实施例的第五方面提供一种对话处理系统，包括：端侧设备和云侧设备；

所述端侧设备，用于向所述云侧设备发送对话处理请求，所述对话处理请求包括当前轮次用户输入的对话内容；

所述云侧设备，用于响应于所述对话处理请求，从文档库中获取与所述对话内容的相似度大于预设阈值的候选文本；根据所述候选文本的结构信息以及所述对话内容，构建包含所述候选文本与所述对话内容的对话图；通过对所述对话图进行数据处理，获得所述对话内容对应的候选回复文本；基于所述候选回复文本确定目标回复文本；向所述端侧设备发送对话处理响应，所述对话处理响应包括所述目标回复文本；

其中，所述文档库包括半结构化的文档内容。

本申请实施例的第六方面提供一种电子设备，包括：存储器，处理器以及计算机程序；所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如本申请第一方面任一项所述的方法，或者如本申请第二方面所述的方法。

本申请实施例的第五方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现如本申请第一方面任一项所述的方法，或者如本申请第二方面所述的方法。

本申请实施例的第六方面提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现本申请第一方面任一项所述的方法，或者如本申请第二方面所述的方法。

本申请实施例的第七方面提供一种芯片，芯片包括处理器，处理器用于调用存储器中的计算机程序，以执行如本申请第一方面任一项所述的方法，或者如本申请第二方面所述的方法。

本申请实施例提供一种对话处理方法、设备及系统，涉及人工智能领域，该方法中，响应于对话处理请求，从包含半结构化文档内容的文档库中，获取与本次对话内容相关的候选文本，根据候选文本、候选文本的结构信息以及对话内容，构建动态对话图，对话图包含候选文本、与候选文本相关的邻近文本以及对话内容。通过对对话图进行数据处理，获得对话内容对应的候选回复文本，基于候选回复文本确定目标回复文本，最终输出该目标回复文本。上述方案利用文档库中半结构化文档内容，获取与对话内容相关的候选文本和候选文本的结构化信息，能够更加精准地定位当前轮次所需的候选回复文本。通过动态构建对话图，充分利用候选文本和对话内容的信息，提升对话处理的效率，满足用户实时性的要求。

附图说明

图1为本申请实施例提供的对话处理方法的应用场景示意图；

图2为本申请实施例提供的一种对话处理方法的流程示意图；

图3为本申请实施例提供的构建文档图和对话图的示意图；

图4为本申请实施例提供的一种对话处理方法的流程示意图；

图5为本申请实施例提供的一种获取候选回复文本的流程示意图；

图6为本申请实施例提供的一种获取候选回复文本的流程示意图；

图7为本申请实施例提供的一种对话处理设备的结构示意图；

图8为本申请实施例提供的一种对话处理设备的结构示意图；

图9为本申请实施例提供的一种电子设备的硬件结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的其他实施例，都属于本申请保护的范围。

本申请实施例中，“至少一个”是指一个或多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(种/个)”或其类似表达，是指的这些项中的任意组合，包括单项(种/个)或复数项(种/个)的任意组合。例如，a，b或c中的至少一项(种/个)，可以表示：a，b，c，a-b，a-c，b-c，或a-b-c，其中a，b，c可以是单个，也可以是多个。

需要说明的是，本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被理解为比其他实施例或设计方案更优选或更具优势。确定而言，使用“示例性的”或“例如”等词旨在以具体方式呈现相关概念。

下面首先对本申请实施例涉及的专业术语进行简要介绍。

第一，DGDS：英文全称document grounded dialog system，基于文档的对话系统。

第二，CG：英文全称conversational graph，对话图，用以保存当前对话轮次相关信息的图结构数据格式。

第三，GNN：英文全称graph neural network，图神经网络，一类以图结构为输入的神经网络的总称。

第四，FNN：英文全称feed forward neural network，前馈神经网络，一种最简单的神经网络，采用单向多层结构，各层均包含若干个神经元。

第五，问答系统(question answering system，QA)是信息检索系统的一种高级形式，它能用准确、简洁的自然语言回答用户用自然语言提出的问题。问答系统主要应用于网络(web)形式的问答网站。

第六，任务型对话系统，面向垂直领域，目的是使用尽可能少的对话轮数帮助用户完成目标任务或动作，例如定机票、住宿、餐厅等。

第七，半结构化数据，是介于结构化和非结构化之间的数据，常见的半结构化数据包括：日志文件，可扩展标记语言(extensible markup language，XML)文档，JSON(JavaScript Object Notation，JS对象简谱)文档，电子邮件，超文本标记语言(hypertext markup language，HTML)文档等。

第八，BERT，是一种预训练语言模型(pre-trained language model，PLM)，其全称是Bidirectional Encoder Representations from Transformers。BERT模型是基于Transformer实现的，Transformer可以理解为一个神经网络模块，模块内部有其复杂的网络结构，模块通过自注意力机制实现快速并行，提升了训练速度，并且可以增加模型深度，提升模型准确率。

第九，RoBERTa，BERT的改进版(A Robustly Optimized BERT PretrainingApproach)，在BERT基础上做了以下调整：训练时间更长，batch size更大，训练数据更多，移除下句预测(NSP)，训练序列更长，动态掩码。

融合外部知识能够帮助对话系统更准确地理解用户目标，并且生成更具信息量的回复。这一能力在知识问答系统和任务型对话系统中尤为重要。现有的此类对话系统往往以知识图谱、表格内容、文档内容等作为知识源。其中，知识图谱的构建需要较高的成本，表格形式只能表现具有规范格式的数据，而文档内容则是广泛存在，易于获得且包含丰富知识的数据源。

现有的文档对话系统大多以纯文本形式处理获取到的外部文档，即文档对话系统的创建是基于纯文本的文档内容，并没有充分利用外部文档的全部信息。一种可能的场景中，企业和个人的日常工作会产生大量半结构化的文档数据，例如企业公文、产品使用手册、个人笔记等，这些数据往往包含大量有价值的信息。然而，在这些文档中查找想要的信息是非常困难且耗时的，而使用传统的搜索引擎进行知识检索主要有以下三个问题：一是，需要用户给出较为准确的检索文本，具有一定的使用门槛。二是，无法交互式地找到目标内容。三是，无法以流畅的对话形式将回复反馈给用户。

基于上述场景可知，在现实环境下，文档通常会包含一定的结构信息，如段落之间、段落与标题之间的关系等。若能够充分学习这些信息，则能够帮助对话系统更好地理解文档内容。

基于此，本申请实施例提出一种对话处理方法，其主要设计思路是：利用半结构化的文档内容构建文档图，文档图包含知识文档中存在的结构信息；利用文档图中文档的结构信息，动态构建当前对话轮次的对话图，对话图中包含与当前对话轮次的对话内容相关的文档图中的部分文档；基于对话图生成当前对话轮次的候选回复文本，为后续目标回复文本的生成提供数据支撑。

上述方案在保证对话处理效率的同时，能够更加准确地定位到当前对话轮次的知识文本，提升对话回复的质量。可将该方案推广至包括企业服务、公众医疗、科技产品使用、公众生活等领域，可实现通过对话形式帮助用户进行精确的知识查找，给予用户极大的方便。

为便于理解，下面首先对本申请实施例提供的技术方案的应用场景进行简要介绍。图1为本申请实施例提供的对话处理方法的应用场景示意图。如图1所示，该场景包括客户端110和服务器120，客户端110通过通信网络与服务器120连接。

服务器120可以是用于存储信息、数据、程序和/或任何其他合适类型的内容的任何适当的服务器。在一些实施例中，服务器120可以执行任何适当的功能。例如，在一些实施例中，服务器120中部署用于实现本申请技术方案的执行代码，用于基于用户输入的对话内容，从文档库中定位到合适的候选回复文本，并基于候选回复文本生成目标回复文本，将目标回复文本返回至客户端110。

通信网络可以是一个或多个有线和/或无线网络的任何适当的组合。例如，通信网络能够包括以下各项中的任何一种或多种：互联网、内联网、广域网(WAN)、局域网(LAN)、无线网络、数字订户线路(DSL)网络、帧中继网络、异步转移模式(ATM)网络、虚拟专用网(VPN)和/或任何其它合适的通信网络。客户端110能够通过一个或多个通信链路连接到通信网络，该通信网络能够经由一个或多个通信链路被链接到服务器120。通信链路可以是适合于在客户端110和服务器120之间传送数据的任何通信链路，诸如网络链路、拨号链路、无线链路、硬连线链路、任何其它合适的通信链路或此类链路的任何合适的组合。

客户端110可以包括适合于接收用户输入的对话内容的任何一个或多个用户设备，用户输入包括文本形式或语音形式的输入，对此本申请不做具体限定。在一些实施例中，客户端110可以包括任何合适类型的设备。例如，在一些实施例中，客户端110可以包括移动设备、平板计算机、膝上型计算机、台式计算机、可穿戴计算机、任何其他合适类型的用户设备，对此本申请实施例不作任何限制。

尽管将服务器120图示为一个设备，但是在一些实施例中，可以使用任何适当数量的设备来执行由服务器120执行的功能。例如，在一些实施例中，可以使用多个设备来实现由服务器120执行的功能。或者，可使用云服务实现服务器120的功能。

基于图1所示的场景，作为一种示例，服务器120接收来自客户端110的对话内容，经服务器120内置的预训练模型，获得该对话内容的对话表示，再经服务器120内置的相似度分析模块，从文档库中筛选出与对话内容相似度大于预设阈值的候选文本。随后，服务器120基于候选文本的结构信息以及对话内容，构建动态对话图，不同对话轮次的对话内容对应的对话图是动态变化的。再通过预训练模型获取动态对话图中文档的文本表示，获得对话图的特征表示，最后将对话图的特征表示输入服务器120内置的生成模型，生成目标回复文本。

需要说明的是，在一些场景中，用户可以直接与终端设备交互，该终端设备可以是智能手机、可穿戴设备、智能机器人、车载终端等，终端设备可以执行图1所示服务器120的动作，在生成目标回复文本后，通过文本形式或语音形式输出目标回复文本。

下面通过具体实施例对本申请提供的对话处理方案进行详细说明。需要说明的是，本申请实施例提供的技术方案可以包括以下内容中的部分或全部，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

图2为本申请实施例提供的一种对话处理方法的流程示意图。该对话处理方法可应用于图1所示的服务器，或者其他执行装置，如图2所示，该方法包括以下步骤：

步骤201、接收对话处理请求，对话处理请求包括当前轮次用户输入的对话内容。

本实施例中，用户输入对话内容的方式包括语音输入方式，或文本输入方式。

一种可能的实施方式中，服务器接收来自客户端的对话处理请求。示例性的，用户通过客户端访问某服务器的对话处理装置，该对话处理装置可以是信息查询装置，如文档查询装置，用户输入的对话内容可以是文档查询的检索内容，例如用户输入一个或多个关键词，或者一句话。

一种可能的实施方式中，执行装置接收对话处理请求，该执行装置可以是智能机器人。示例性的，用户通过语音方式与智能机器人对话，智能机器人接收用户输入的语音信息，将语音信息转换为文本信息，获取当前轮次用户输入的对话内容，对话内容通常是一句话或多句话。

步骤202、响应于对话处理请求，从文档库中获取与对话内容的相似度大于预设阈值的候选文本。

本实施例中，文档库包括半结构化的文档内容，文档库中的文档内容为知识文档，知识文档中包含纯文本信息以及文档中的结构信息，其中结构信息包括例如文档中的标题、段落、序号等。

作为一种示例，服务器响应于对话处理请求，获取对话内容对应的对话表示以及文档库中第一文本对应的文本表示；确定对话表示与文档库中第一文本对应的文本表示的相似度；确定与对话表示的相似度大于预设阈值的目标文本表示；获取目标文本表示对应的候选文本。其中，第一文本为文档库中的任一文本，例如第一文本可以是某文档的标题，或者某段落的标题，或者段落内容。候选文本可以是文档库中的一个或多个文本。

需要指出的是，本实施例中，对话表示可以理解为对话内容的特征表示或向量表示，文本表示可以理解为文本的特征表示或向量表示。

作为一种示例，服务器可通过预训练模型分别获取对话内容对应的对话表示，以及文档库中第一文本对应的文本表示。其中，预训练模型为服务器内预置的模型，预训练模型可采用基于Transformer结构的BERT模型，或者RoBERTa等。示例性的，预训练模型包括Transformer结构中的编码器。

一种可能的实施方式中，服务器将对话内容输入预训练模型，得到对话内容对应的对话表示；服务器将文档库中第一文本输入预训练模型，得到第一文本对应的文本表示。

一种可能的实施方式中，服务器将对话内容输入预训练模型，得到对话内容对应的对话表示；服务器从数据库获取预存的文档库中第一文本对应的文本表示。其中，第一文本对应的文本表示是预训练模型基于第一文本生成的。该实施方式中，服务器提前预存了文档库中的多个文本的文本表示，这样可提升服务器的处理速度。

步骤203、根据候选文本的结构信息以及对话内容，构建包含候选文本与对话内容的对话图。

本实施例中，候选文本的结构信息包括邻近文本信息，以及如下信息的至少一项：标题信息、段落信息、序号信息、表格信息。

作为一种示例，服务器获取预存的文档图，从文档图中获取候选文本的结构信息；根据候选文本、候选文本的结构信息以及对话内容，构建对话图。其中，文档图是基于文档库中的半结构化的文档内容构建的，文档图用于指示文档库中文档的结构信息。

在一种可能的实施方式中，服务器可通过如下方式构建对话图：将对话内容分别拼接至候选文本以及候选文本的邻近文本，获得对话图。通过拼接对话内容和文档库中部分的文本元素，使得对话图中的节点都能同时具有对话内容的信息和文本元素所含的知识信息，在后续的数据处理过程中，基于预训练模型对对话图中的节点进行嵌入，从而获得对话图中节点的向量表示，为最终目标知识文本的选择提供数据支撑。

需要说明的是，文档图和对话图均为图结构数据，包括多个节点以及连接节点的边，边通常具有方向性。为了便于理解，下面结合附图对文档图和对话图进行详细说明。

示例性的，图3为本申请实施例提供的构建文档图和对话图的示意图。图3所示的文档图是基于文档库中半结构化文档构建的，该文档图中包括多个节点，一个节点对应文档库中某一文本，例如图3中的节点1对应文本1，节点2对应文本2，节点1指向节点2表示文本1与文本2具有关联关系，关联关系可以是例如标题文本与段落文本的隶属关系，段落文本与段落文本的并列关系，步骤序列(如步骤1…，步骤2…，步骤3…)与单一步骤的隶属关系等。

图3所示的对话图是基于对话文本以及已构建的文档图动态生成的，对话图会随着对话文本的改变而不同，因此对话图是动态变化的。假设与当前的对话文本相似度大于预设阈值的候选文本为文档图中节点3和节点4所对应的文本，则可获取文档图中节点3和节点4的邻近节点，例如节点3的邻近节点包括节点31至节点34，节点4的邻近节点包括节点41和节点42。随后，在节点3和节点4以及它们的邻近节点上，拼接当前的对话文本，例如拼接后的节点3中包括节点3中的原始文本以及当前的对话文本，又例如拼接后的节点31中包括节点31中的原始文本(属于候选文本的邻近文本)以及当前的对话文本。类似的，对话图中其他节点均在原有文本基础上，增加了当前的对话文本。

基于图3所示示例可知，对话图中仅包含与当前对话文本相关的候选文本，以及候选文本的邻近文本，相比文档图，对话图的数据内容更少，在满足对话处理的实时性要求的同时，可提升对话处理的效率。此外，由于不同对话轮次的候选文本会根据对话文本的不同而有所区别，因此对话图在对话进行过程中是动态构建的，可提升目标知识文本选择的灵活性。

步骤204、通过对对话图进行数据处理，获得对话内容对应的候选回复文本。

作为一种示例，服务器可通过预训练模型获取对话图的初始特征表示，随后将对话图的初始特征表示输入图神经网络模型GNN，得到对话图的上下文特征表示；再将对话图的上下文特征表示输入前馈神经网络模型FNN，获得对话内容对应的候选回复文本。

一种可能的实施方式中，将对话图的上下文特征表示输入前馈神经网络模型FNN，获得对话内容对应的候选回复文本，可以包括：遍历对话图的文本，执行将对话图中第二文本的上下文特征表示输入前馈神经网络模型FNN，获取第二文本的得分信息；从对话图的多个文本中，获取得分大于预设得分的候选回复文本；候选回复文本包括对话图中的至少一个文本。本实施方式中，第二文本为对话图中多个文本的任一个。

本实施例中，候选回复文本可以是一个或多个文本。对话图的初始特征表示包括对话图中多个文本的文本表示，对话图的上下文特征表示包括对话图中多个文本的上下文特征表示。值得注意的是，对话图中的文本为拼接后的文本。

示例性的，假设对话图中包括7个节点，一个节点对应一个拼接文本，该对话图的初始特征表示包括对话图中7个拼接文本的文本表示，该对话图的上下文特征表示包括对话图中7个拼接文本的上下文特征表示。

应理解，对于某一拼接文本，该拼接文本的文本表示指示该拼接文本的信息，该拼接文本的上下文特征表示指示该拼接文本与其邻近的其他拼接文本的上下文信息。

基于上述方案可知，通过GNN对对话图的初始特征表示进行编码，这一过程中对话图中的节点可以与其邻近节点(例如标题文本、相邻段落和下属文本等)的信息融合，使得该节点表示能够同时具有自身特征和自身所在区域的局部特征(即邻近节点的特征)。再通过FNN对该节点进行打分，选取得分大于与预设得分的若干节点对应的知识文本，作为当前对话轮次的候选回复文本。

步骤205、基于候选回复文本确定目标回复文本。

作为一种示例，候选回复文本包括多个，服务器将多个候选回复文本依次输入生成模型，生成模型根据候选回复文本的得分信息，综合多个候选回复文本，输出目标回复文本的特征表示。再根据目标回复文本的特征表示确定目标回复文本。

生成模型为服务器内预置的模型，示例性的，生成模型包括Transformer结构中的编码器和解码器。

在一种可能的实施方式中，服务器将候选回复文本输入生成模型的编码器，得到候选回复文本的文本序列，随后将候选回复文本的文本序列输入生成模型的解码器；解码器根据候选回复文本的得分信息确定候选回复文本的权重值，根据多个候选回复文本的权重值以及多个候选回复文本的文本序列，确定目标回复文本的文本序列；最后根据目标回复文本的文本序列确定目标回复文本。可选的，通过查询预设字典获得目标回复文本，其中预设字典包括文本与序列的对应关系。

步骤206、输出对话处理响应，对话处理响应包括目标回复文本。

本实施例示出的对话处理方法，响应于用户触发的对话处理请求，从包含半结构化文档内容的文档库中，获取与本次对话内容相关的候选文本，根据候选文本、候选文本的结构信息以及对话内容，构建动态对话图，其中对话图包含候选文本、与候选文本相关的邻近文本以及对话内容。通过对构建的对话图进行数据处理，获得对话内容对应的候选回复文本，基于候选回复文本确定目标回复文本，最终输出该目标回复文本。上述方案利用文档库中半结构化的文档内容，获取与对话内容相关的候选文本以及候选文本的结构化信息，相较于以纯文本形式获取相关文本信息，能够更加精准地定位当前轮次所需的候选回复文本。此外，通过动态构建对话图，可以充分利用候选文本和对话内容的信息，提升对话处理的效率，满足用户实时性的要求。

基于上述实施例，本申请实施例还提供一种对话处理方法，该方法主要用于基于用户输入的对话内容生成候选回复文本，候选回复文本可以看作是候选的知识片段，为生成目标回复文本提供数据支撑。图4为本申请实施例提供的一种对话处理方法的流程示意图，如图4所示，本实施例的对话处理方法包括以下步骤：

步骤401、获取当前轮次用户输入的对话内容。

步骤402、从文档库中获取与对话内容的相似度大于预设阈值的候选文本。其中，文档库包括半结构化的文档内容。

步骤403、根据候选文本的结构信息以及对话内容，构建包含候选文本与对话内容的对话图。

步骤404、通过对对话图进行数据处理，确定对话内容对应的候选回复文本。

本实施例的步骤402、403、404可分别参照上文实施例的步骤202、步骤203、步骤204，此处不再赘述。

本实施例示出的对话处理方法，主要是在获取到当前轮次对话内容相关的候选文本后，通过构建包含候选文本与对话内容的对话图，分析对话图中各个节点中文本的特征数据，特征数据包含对话图中各个节点自身的特征数据，以及节点之间的特征数据关系，且对话图中每个节点的文本是拼接了对话内容的拼接文本(非该节点原始文本)。通过对对话图的上述特征数据的分析处理，最终确定对话内容对应的候选回复文本。

与相关方案相比，由于上述过程涉及对话图的创建与分析，使得设备能够更充分地学习对话内容与候选文本的关系，从而能够更为精准地定位到当前轮次需要的候选回复文本，为响应对话处理请求提供数据支撑。

为了更加清晰的说明本申请提供的技术方案与其他相关方案的区别，下面通过两个图示实施例展示两者的区别。

示例性的，图5为本申请实施例提供的一种获取候选回复文本的流程示意图。如图5所示，当服务器从文档库中检索到文档S₀时，文档S₀为与当前轮次的对话内容Q₀相关的文档(即候选文档)，服务器将文档S₀与对话内容Q₀拼接起来，得到拼接后的文档S₁，通过预训练模型获取拼接后的文档S₀′的特征表示，再将拼接后的文档S₀′输入至FNN，由FNN对拼接后的文档S₀′进行打分。通过上述过程可以获取多个相关文档的打分，最终将得分大于预设得分的拼接文档作为候选回复文本。

本示例不涉及对话图，且没有利用文档的结构化信息。

示例性的，图6为本申请实施例提供的一种获取候选回复文本的流程示意图。如图6所示，当服务器从包含半结构化文档内容的文档库中检索到文档S₀时，文档S₀为与当前轮次的对话内容Q₀相关的文档，服务器基于文档图获取文档S₀的邻近节点信息，如图6中的节点D、T₀、S₁、S₀₁、S₀₂、S₁₁和S₁₂。需要指出的是，邻近节点信息中可能包含了文档S₀的标题文本，序号等结构化信息。随后服务器将当前轮次的对话内容Q₀分别与文档S₀以及文档S₀的邻近节点中的文档进行拼接，构建当前轮次的对话图。再通过预训练模型获取对话图中的拼接文档的特征表示(预训练模型嵌入节点)，得到对话图的特征表示，再将对话图的特征表示输入GNN得到对话图的上下文特征表示，将对话图中包含拼接文档的上下文特征表示输入至FNN，由FNN对其进行打分，最终将得分大于预设得分的拼接文档作为候选回复文本y，候选回复文本可能有多个。

相较于上一示例，本示例中文档库的文档为半结构化文档，在检索到一个与对话内容相关的文档时，充分学习该文档的结构信息，包括相邻文档、文档的段落信息、标题信息等，在还原出相关文档的原始结构后，通过构建当前轮次的对话图，以便确定更准确的候选回复文本，从而为候选目标回复文本生成提供数据支撑。

需要说明的是，在上述实施例及附图中描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。

上文描述了本申请实施例提供的对话处理方法，下面将描述本申请实施例提供的对话处理设备。

本申请实施例可以根据上述方法实施例对对话处理设备进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以使用硬件的形式实现，也可以使用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。下面以使用对应各个功能划分各个功能模块为例进行说明。

图7为本申请实施例提供的一种对话处理设备的结构示意图。如图7所示，本实施例的对话处理设备700，包括：接收单元701，处理单元702以及发送单元703。

接收单元701，用于接收对话处理请求，所述对话处理请求包括当前轮次用户输入的对话内容；

处理单元702，用于响应于所述对话处理请求，从文档库中获取与所述对话内容的相似度大于预设阈值的候选文本；根据所述候选文本的结构信息以及所述对话内容，构建包含所述候选文本与所述对话内容的对话图；通过对所述对话图进行数据处理，获得所述对话内容对应的候选回复文本；基于所述候选回复文本确定目标回复文本；其中，所述文档库包括半结构化的文档内容；

发送单元703，用于输出对话处理响应，所述对话处理响应包括所述目标回复文本；

一个可选实施例中，处理单元702，用于：

获取所述目标文本表示对应的所述候选文本。

一个可选实施例中，处理单元702，用于：

一个可选实施例中，所述候选文本的结构信息包括邻近文本信息，以及如下信息的至少一项：标题信息、段落信息、序号信息、表格信息。

一个可选实施例中，处理单元702，用于：

从所述文档图中获取所述候选文本的结构信息；

一个可选实施例中，处理单元702，用于：

一个可选实施例中，所述对话图的上下文特征表示包括所述对话图中多个文本的上下文特征表示；处理单元702，用于：

一个可选实施例中，处理单元702，用于：

本实施例提供的对话处理设备，可用于执行图2所示方法实施例中服务器的方法步骤，其实现原理和技术效果类似，本实施例此处不再赘述。

图8为本申请实施例提供的一种对话处理设备的结构示意图。如图8所示，本实施例的对话处理设备800，包括：获取单元801和处理单元802。

获取单元801，用于获取当前轮次用户输入的对话内容；

处理单元802，用于从文档库中获取与所述对话内容的相似度大于预设阈值的候选文本；所述文档库包括半结构化的文档内容；根据所述候选文本的结构信息以及所述对话内容，构建包含所述候选文本与所述对话内容的对话图；通过对所述对话图进行数据处理，确定所述对话内容对应的候选回复文本。

本实施例提供的对话处理设备，可用于执行图4所示方法实施例的方法步骤，其实现原理和技术效果类似，本实施例此处不再赘述。

图9为本申请实施例提供的一种电子设备的结构示意图。如图9所示，该电子设备包括：存储器901和处理器902。存储器901，用于存储计算机程序，并可被配置为存储其它各种数据以支持在对话处理设备上的操作。处理器902，与存储器901耦合，用于执行存储器901中的计算机程序，以实现前述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

在一些实施例中，如图9所示，该电子设备还包括：防火墙903、负载均衡器904、通信组件905、电源组件906等其它组件。图9中仅示意性给出部分组件，并不意味着电子设备只包括图9所示组件。

本申请实施例还提供一种对话处理系统，参照附图1，本实施例的对话处理系统可以包括端侧设备(例如图1中的客户端110)和云侧设备(例如图1中的服务器120)。云侧设备上部署有：预训练模型、相似度分析模块、GNN、FNN、生成模型。

其中，所述文档库包括半结构化的文档内容。

本实施例中，云侧设备可用于执行图2所示实施例中服务器的方法步骤，或者图4所示实施例中执行设备的方法步骤。云侧设备可对应图7所示实施例的对话处理设备700，或者图8所示实施例的对话处理设备800，具体可参见上文实施例，此处不再赘述。

本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，当计算机程序/指令被处理器执行时，以使处理器实现如前述方法实施例的技术方案。

本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，当计算机程序/指令被处理器执行时，以使处理器实现如前述方法实施例中的技术方案。

本申请实施例还提供一种芯片，包括：处理模块与通信接口，该处理模块能执行前述方法实施例中的技术方案。在一些实施例中，该芯片还包括存储模块(如，存储器)，存储模块用于存储指令，处理模块用于执行存储模块存储的指令，并且对存储模块中存储的指令的执行使得处理模块执行前述方法实施例中的技术方案。

上述存储器可以是对象存储(Object Storage Service，OSS)。

上述存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

上述通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，例如WiFi，2G、3G、4G/LTE、5G等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

上述电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、只读光盘CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

需要说明的是，本申请涉及到的用户信息(包括但不限于用户设备信息、用户个人信息、用户的对话信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种对话处理方法，其特征在于，包括：

基于所述候选回复文本确定目标回复文本；

2.根据权利要求1所述的方法，其特征在于，所述从文档库中获取与所述对话内容的相似度大于预设阈值的候选文本，包括：

获取所述目标文本表示对应的所述候选文本。

3.根据权利要求2所述的方法，其特征在于，所述获取所述对话内容对应的对话表示以及所述文档库中第一文本对应的文本表示，包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述候选文本的结构信息包括邻近文本信息，以及如下信息的至少一项：标题信息、段落信息、序号信息、表格信息。

5.根据权利要求1至4任一项所述的方法，其特征在于，根据所述候选文本的结构信息以及所述对话内容，构建包含所述候选文本与所述对话内容的对话图，包括：

从所述文档图中获取所述候选文本的结构信息；

6.根据权利要求5所述的方法，其特征在于，根据所述候选文本、所述候选文本的结构信息以及所述对话内容，构建所述对话图，包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，通过对所述对话图进行数据处理，获得所述对话内容对应的候选回复文本，包括：

8.根据权利要求7所述的方法，其特征在于，所述对话图的上下文特征表示包括所述对话图中多个文本的上下文特征表示；将所述对话图的上下文特征表示输入前馈神经网络模型，获得所述对话内容对应的候选回复文本，包括：

9.根据权利要求1至8任一项所述的方法，其特征在于，基于所述候选回复文本确定目标回复文本，包括：

10.一种对话处理方法，其特征在于，包括：

获取当前轮次用户输入的对话内容；

11.一种对话处理设备，其特征在于，包括：

处理单元，用于响应于所述对话处理请求，从文档库中获取与所述对话内容的相似度大于预设阈值的候选文本；根据所述候选文本的结构信息以及所述对话内容，构建包含所述候选文本与所述对话内容的对话图；通过对所述对话图进行数据处理，获得所述对话内容对应的候选回复文本；基于所述候选回复文本确定目标回复文本；其中，所述文档库包括半结构化的文档内容；

12.一种对话处理设备，其特征在于，包括：

获取单元，用于获取当前轮次用户输入的对话内容；

13.一种对话处理系统，其特征在于，包括：端侧设备和云侧设备；

其中，所述文档库包括半结构化的文档内容。

14.一种电子设备，其特征在于，包括：存储器，处理器以及计算机程序；所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1至10任一项所述的方法。