CN110532369B

CN110532369B - 一种问答对的生成方法、装置及服务器

Info

Publication number: CN110532369B
Application number: CN201910833603.2A
Authority: CN
Inventors: 缪畅宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-04
Filing date: 2019-09-04
Publication date: 2022-02-01
Anticipated expiration: 2039-09-04
Also published as: CN110532369A

Abstract

本申请公开了一种问答对的生成方法、装置及服务器，方法包括：获得文档，所述文档中包括至少一个段落，所述段落中包括对目标对象的描述内容；至少基于所述描述内容，对所述文档中的段落进行划分，得到至少一个分块，所述分块中包括至少一个所述段落；获得所述分块对应的问题信息及所述分块对应的答案信息；其中，所述分块对应的问题信息及所述答案信息组成所述目标对象的问答对，所述问答对用于提供问答服务。可见，本申请中不再需要专业工作人员进行问答对提取，避免大量的工作时长的消耗，而采用对文档的段落进行分块的方式，从分块中获得对应的问答对，由此节省生成问答对的耗时，从而达到提高生成问答对的效率的目的。

Description

一种问答对的生成方法、装置及服务器

技术领域

本申请涉及智能客服技术领域，尤其涉及一种问答对的生成方法、装置及服务器。

背景技术

在智能客服等领域，针对各产品可以利用说明书等产品文档建立相应产品的问答知识库，由此，在知识库中选取针对用户所提问题的问答对，为用户作出具体回答。

目前在建立问答知识库时，通常需要人工干预，例如，由专业工作人员手动从产品文档中抽取问答对，并组建知识库。

因此，目前获得问答对的方式需要消耗大量的工作时长，导致问答对的生成效率较低。

发明内容

有鉴于此，本申请提供一种问答对的生成方法、装置及服务器，以提高生成问答对的效率。

为实现上述目的，一方面，本申请提供了一种问答对的生成方法，包括：

获得文档，所述文档中包括至少一个段落，所述段落中包括对目标对象的描述内容；

至少基于所述描述内容，对所述文档中的段落进行划分，得到至少一个分块，所述分块中包括至少一个所述段落；

获得所述分块对应的问题信息及所述分块对应的答案信息；

其中，所述分块对应的问题信息及所述答案信息组成所述目标对象的问答对，所述问答对用于提供问答服务。

在一种可能的实现方式中，所述至少基于所述描述内容，对所述文档中的段落进行划分，得到至少一个分块，包括：

基于所述描述内容，将相似度值满足预设的阈值范围的段落划分到同一个分块，以得到所述文档中的至少一个分块。

可选的，所述基于所述描述内容，将相似度值满足预设的阈值范围的段落划分到同一个分块，以得到所述文档中的至少一个分块，包括：

对所述文档中的段落进行编码，以得到所述段落的编号；

将所述编号相邻且关于所述描述内容的相似度值满足预设的阈值范围的段落划分到同一个分块，以得到所述文档中的至少一个分块。

获取所述文档中的第一个段落作为当前分块；

获取所述文档中所述第一个段落的下一个段落作为当前段落，并将所述当前段落与所述当前分块进行相似度值获取；

如果所述当前分块与所述当前段落的相似度值满足预设的阈值范围，将所述当前段落划分到所述当前分块中，并获取所述文档中所述当前段落的下一个段落作为新的当前段落，返回执行所述步骤将所述当前段落与所述当前分块进行相似度值获取，直到所述文档中的所有段落划分完成；

如果所述当前分块与所述当前段落的相似度值不满足所述阈值范围，将所述当前段落划分到所述当前分块的下一个分块，并获取所述文档中所述当前段落的下一个段落作为新的当前段落，将所述下一个分块做为新的当前分块，返回执行所述步骤所述当前段落与所述当前分块进行相似度值获取，直到所述文档中的所有段落划分完成。

在一种可能的实现方式中，所述获得所述分块对应的问题信息，包括：

获得所述分块中的至少一个关键语句；

基于所述关键语句，生成所述分块对应的问题信息。

可选的，获得所述分块中的至少一个关键语句，包括：

将所述分块中的语句输入序列标注模型中，以得到所述序列标注模型输出的至少一个关键语句；

其中，所述序列标注模型为利用至少两个具有关键语句标签的样本训练得到，且所述序列标注模型基于预设的序列标注的算法构建。

可选的，所述基于所述关键语句，生成所述分块对应的问题信息，包括：

将所述关键语句输入序列生成模型，以得到所述序列生成模型输出的问题信息；

其中，所述序列生成模型为利用至少两个具有字符序列标签的样本训练得到，且所述训练生成模型基于预设的序列生成算法构建。

在一种可能的实现方式中，获得所述分块对应的答案信息，包括：

对所述分块中的文本内容进行压缩，以得到所述分块对应的答案信息。

可选的，所述对所述分块中的文本内容进行压缩，以得到所述分块对应的答案信息，包括：

将所述分块中的文本内容输入文本摘要模型中，以得到所述文本摘要模型输出的经过文本压缩的答案信息；

其中，所述文本摘要模型为利用至少两个具有摘要标签的样本训练得到。

可选的，所述方法还包括：

将所述问答对存储到数据共享系统的区块链中。

又一方面，本申请还提供了一种问答对的生成装置，包括：

文档获得单元，用于获得文档，所述文档中包括至少一个段落，所述段落中包括对目标对象的描述内容；

文档划分单元，用不至少基于所述描述内容，对所述文档中的段落进行划分，得到至少一个分块，所述分块中包括至少一个所述段落；

问答获得单元，用于获得所述分块对应的问题信息及所述分块对应的答案信息；

又一方面，本申请还提供了一种服务器，包括：

处理器和存储器；

其中，所述处理器用于执行所述存储器中存储的程序；

所述存储器用于存储程序，所述程序至少用于：

获得所述分块对应的问题信息及所述分块对应的答案信息；

又一方面，本申请还提供了存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上任一项所述的问答对的生成方法。

由上述方案可知，本申请所提供的一种问答对的生成方法、装置及服务器，在获得包含对目标对象的描述内容的文档之后，对文档中的段落基于描述内容进行划分，从而将文档划分成由段落组成的分块，再对各分块对应的问题和答案进行获取，由此生成由问题和答案组成的目标对象的问答对，用以提供问答服务。可见，本申请中不再需要专业工作人员进行问答对提取，避免大量的工作时长的消耗，而采用对文档的段落进行分块的方式，从分块中获得对应的问答对，由此节省生成问答对的耗时，从而达到提高生成问答对的效率的目的。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例的一种智能客服系统的组成架构图；

图2示出了本申请实施例用于生成问答对的服务器的组成架构图；

图3示出了本申请实施例的一种问答对的生成方法的流程示意图；

图4示出了本申请实施例中文档分块的示意图；

图5示出了本申请实施例中分块与问答对的示意图；

图6示出了本申请实施例中服务器生成问答对的逻辑架构图；

图7示出了本申请实施例中文档分块的实现流程图；

图8示出了本申请实施例中问题生成的实现流程图；

图9示出了本申请实施例的一种问答对的生成装置的结构示意图；

图10示出了本申请实施例中数据共享系统的架构图；

图11示出了本申请实施例中区块链的组成示意图；

图12示出了本申请实施例中产生新区块的过程示意图。

具体实施方式

本申请的方案可以在智能客服系统中，对各种目标对象如各种产品的描述文档生成问答对。其中，本申请中通过获得包含对目标对象如产品的描述内容的文档，进而对文档中的段落按照段落中的描述内容进行划分，从而在将文档划分成由段落组成的分块之后，再对各个分块中对应的问题和答案进行获取，由此生成由问题和答案组成的问答对，不再需要专业工作人员进行问答对提取，避免大量的工作时长的消耗，由此节省生成问答对的耗时，从而达到提高生成问答对的效率的目的。

其中，智能客服系统可以理解为各类服务行业中为客户提供产品售前或售后等咨询服务的系统，可以通过建立客户终端与客服系统服务器之间的通信连接后，客户通过其终端向客服系统的服务器发送需要解决的产品问题信息，如“这个手机能不能拍照？”或者“这个笔记本保修几年？”等问题，客服系统的服务器在接收到客户通过终端发来的问题之后，对问题进行答复，例如，在问答数据库中查找与该问题对应的产品问答对，并在产品问答对中获得针对问题的答案信息，如“可以拍照”或“三年”等答案信息，进而将答案信息通过连接发送到客户的终端，以提供给客户进行参考。

可见，为了能够对客户提供优质的咨询服务，客服系统服务器需要预先建立针对各种产品的产品问答对，在问答数据库即问答知识库中存储更多更优质的产品问答对，从而在客户提出问题时，能够快速为客户提供更准确有效的答案，实现客服的问答服务。

而本申请的发明人在经过研究后发现：客服系统在建立问答知识库时，通常需要人工干预，例如，由专业工作人员手动从产品文档中抽取问答对，才能组建问答知识库，为客户提供问答咨询服务，明显的，这样会消耗大量的工作时长，导致问答对的生成效率较低。而为了能够提高效率，也有方案提出对产品文档的每个语句通过算法自动抽取问答对，但由于语句之间可能存在语义重复或不完整的情况，所生成的问答对就存在重复或者不准确的情况，仍然需要对问答对进行筛选或组合，才能组建更加优质的问答数据库，因此，这种方案仍然存在耗时较长且问答对质量较差的技术问题。

因此，本申请的发明人进一步进行研究发现：产品的技术文档如维修说明书或使用说明书等跟普通的文章不同，产品技术文档的文本结构有很鲜明的特点，如文档中以段落为单位，可分为不同部分，而文档中每部分通常是围绕一个产品问题或方面进行完整地阐述，在每个部分中，对产品的描述存在中心突出且细节明确的特点。因此，为了避免过长的时长消耗、问答对重复或不完整等情况，可以通过合理地将产品文档划分成不同部分，进而对划分出的每个部分生成相应的问题和答案，组成相应的问答对，由此，能够提高生成问答对的效率，也能够保证问答对的质量。

为了便于理解，本文中先对本申请的方案所适用的系统进行介绍，参考图1，其示出了本申请一种智能客服系统的一种组成架构示意图。

由图1中可知，该系统中可以包括有：服务器10和终端20，服务器10、终端20之间通过网络实现通信连接。

其中，终端20可以为手机、pad、电脑等客户端，在终端20上可以配置有客服系统的应用，由此客户可以通过终端20上的客服应用输入产品问题，并通过终端20和服务器10之间的网络将产品问题发送到服务器10。

相应的，服务器10为向客户提供产品售前或售后等产品问题的答案，客户可以通过终端20接收服务器10发送来的答案，以此实现产品的咨询服务。

例如，客户(用户)在手机上打开针对某个网路游戏的客户服务应用的咨询界面，并在输入框中输入：“我的账号等级？”等问题之后，网络游戏的客户服务的服务器在其问答知识库中查找到针对用户输入问题的答案之后，将答案通过网络输出到用户手机，并在用户手机的咨询界面显示答案：“L5级”等。

再如，用户在电脑上打开客服页面，并在输入区域中输入“第59关怎么玩才能过关？”，网络游戏的客户服务的服务器在其问答知识库中查找到针对用户输入问题的答案之后，将答案通过网络上输出到用户电脑，并在用户电脑的客服页面显示答案：“第59关的游戏攻略，如下。。。”。

其中，服务器10在为终端20提供问答的客户服务之前，预先建立所设计的各种产品的问答知识库，具体可以通过各个产品的文档来生成每个产品的至少一个问答对，每个产品的问答对组成该产品各自的问答知识库。

需要说明的是，每个产品的问答知识库中可以有一个或多个问答对，服务器10在得到终端20所发送的问题之后，可以在包含所有产品问答对的知识库中查找相应的答案，或者，也可以先确定该问题对应的产品，进而在该产品的相应问答知识库中查找相应的答案。

需要说明的是，以上是以服务器10为一台独立的服务器为例进行说明，但是可以理解的是，在实际应用中，服务器1-也可以被替换为服务器集群，或者由多台服务器构成的分布式集群。

其中，为了实现服务器10上相应的功能，服务器的存储器中需要存储实现相应功能的程序。为了便于理解服务器的硬件构成，下面对服务器进行介绍。

如图2中所示，为本申请的服务器10的一种组成结构示意图，本实施例中的服务器10可以包括有：处理器201、存储器202、通信接口203、输入单元204、显示器205和通信总线206。

其中，处理器201、存储器202、通信接口203、输入单元204、显示器205、均通过通信总线206完成相互间的通信。

在本实施例中，该处理器201，可以为中央处理器(Central Processing Unit，CPU)，特定应用集成电路，数字信号处理器、现成可编程门阵列或者其他可编程逻辑器件等。

该处理器201可以调用存储器202中存储的程序。具体的，处理器201可以执行以下问答对生成方法的实施例中服务器侧所执行的操作。

存储器202中用于存放一个或者一个以上程序，程序可以包括程序代码，所述程序代码包括计算机操作指令，在本申请实施例中，该存储器中至少存储有用于实现以下功能的程序：

获得所述分块对应的问题信息及所述分块对应的答案信息；

在一种可能的实现方式中，该存储器202可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、以及至少一个功能(比如段落划分等)所需的应用程序等；存储数据区可存储根据计算机的使用过程中所创建的数据，比如，段落的分块以及问答对等等。

此外，存储器202可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。

该通信接口203可以为通信模块的接口，如GSM模块的接口。

当然，图2所示的服务器的结构并不构成对本申请实施例中服务器的限定，在实际应用中服务器可以包括比图2所示的更多或更少的部件，或者组合某些部件。

可见，本实施例中的服务器中可以首先获得各个产品的文档，如维修技术文档或使用说明书等，再对产品的文档按照段落中的描述内容进行段落的划分，由此产品文档被划分为至少一个分块，再对这些分块分别获得相应的问题和答案，组成问答对。

结合以上共性，参考图3，其示出了本申请中以产品为例进行问答对生成的一个实施例的流程示意图，本实施例中的方法可以包括有：

S301：获得文档。

其中，文档是指针对产品对象的描述文档，文档中包括至少一个段落，每个段落中均包括对目标对象的描述内容，目标对象可以为需要进行问答对生成的特定的物品或服务等，例如，目标对象可以为某个产品，产品的描述内容可以包括如产品的维修操作流程、产品的使用注意事项等描述语句。

需要说明的是，本案中的产品可以为实体的产品，如手机产品、笔记本产品或遮阳帽产品等，也可以为虚拟网络中的产品，如网络游戏等，也可以为服务体验类型的产品，如过山车项目或潜水等。本实施例中旨在对产品对象的描述文档生成相应的问答对，为客户提供咨询问答服务，如手机有没有拍照功能、游戏的通关攻略、潜水的注意事项等等问答服务。

在一种可能的实现方式中，本实施例中可以在产品的官方网站中通过网络爬虫等方式获得产品的产品文档，或者，也可以在获得产品出品方的授权后访问产品出品方的产品数据库来获得产品的产品文档。

S302：至少基于描述内容，对文档中的段落进行划分，得到至少一个分块。

其中，每个分块中可以包括有至少一个段落。每个分块中的各个段落之间关于其各自的描述内容具有关联关系。分块中段落之间的关联关系可以理解为段落之间关于描述内容具有关联关系，例如，分块中每个段落的描述内容均为针对产品某个属性的描述，或者，分块中的每个段落的描述内容为语义相似或相近的内容，或者，分块中的每个段落的描述内容为描述场景相似或相近的内容，等等。

在一种可能的实现方式中，本实施例中在对文档进行划分时，可以利用训练好的文档分块模型来实现文档划分，文档分块模型可以利用多个具有分块标签的文档样本训练得到，能够对本实施例中的文档进行划分，其中，分块标签可以理解为文档中属于同一分块的标签，由此，经过文档分块模型的划分之后，文档中属于同一分块的段落之间具有相似性。具体的，本实施例中对文档进行划分可以通过以下方式实现：

基于描述内容，将相似度值满足预设的阈值范围的段落划分到同一个分块，以得到文档中的至少一个分块，每个分块中包括至少一个段落。

其中，相似度值可以理解为：段落的描述内容之间的相似度值，相应的，在描述内容之间的相似度值满足阈值范围的情况下，将这些描述内容所属的段落划分到同一个分块中，以此类推，将文档中的各个段落进行分块，得到包含至少一个段落的分块。

可选的，本实施例中可以通过对段落的描述内容进行余弦相似性分析，由此得到每两个段落的描述内容之间的余弦相似度值，在余弦相似度值满足阈值范围如余弦相似度值低于设定阈值的情况下，认为这两个段落的描述内容之间具有语义上的相似性，此时将这两个段落划分到同一个分块中，以此类推，将文档中的所有段落均划分到相应地分块，得到至少一个分块。

可以理解的是，文档中每个分块内的段落可以在原始的文档中关于位置相邻，也可以相间隔。如图4中所示，每个分块中的段落是文档中前后依次相邻的段落，或者，分块中的段落可以是文档中位置分散的段落。

在一种可能的实现方式中，本实施例中在基于描述内容，将相似度值满足预设的阈值范围的段落划分到同一个分块时，可以将任意两个或更多个相似度值满足阈值范围的段落划分到同一个分块，也可以只将相邻的两个或更多个相似度值满足阈值范围的段落划分到同一个分块。具体的，可以通过以下方式实现：

首先，对文档中的段落依次进行编码，以得到段落的编号，如段落1、段落2、。。。、段落i，i为大于或等于1的正整数，段落i是指第i个段落。其中，本实施例中可以利用预设的段落编码器对段落进行编码。

之后，将编号相邻且关于描述内容的相似度值满足预设的阈值范围的段落划分到同一个分块，以得到文档中的至少一个分块。

具体的，本实施例中可以首先对段落1和段落2进行语义上的相似度值获取，如获取1和2两个段落在描述内容上的余弦相似度值，判断该余弦相似度值是否低于设定阈值，如果是，那么认为这两个段落具有在语义上的相似性，将这两个段落划分到同一个分块，同时对该分块设置分块编号即分块1，之后，获取下一个段落3，将段落3与段落1和段落2组成的分块进行相似度值获取，按照以上方式再次进行相似度值判断；而如果段落1和段落2在描述内容上的余弦相似度值不低于设定阈值，则将段落1作为分块1，在获取下一个段落3之后，对段落3与段落2进行相似度值获取，按照以上方式再进行相似度值判断，以此类推，直到将所有的段落均进行分块，得到文档中的分块：分块1、分块2、。。。、分块N，N为大于或等于1的正整数，分块N是指第N个分块。

或者，本实施例中在可以首先将段落1定义为分块1，然后获取分块1和段落2在语义上的相似度值获取，如获取分块1和段落2在描述内容上的余弦相似度值，判断该余弦相似度值是否低于设定阈值，如果是，那么认为段落2与分块1具有在语义上的相似性，此时将段落2划分到分块1中，之后，获取下一个段落3，将段落3与分块1再次进行相似度值获取，按照以上方式再次进行相似度值判断；而如果分块1和段落2在描述内容上的余弦相似度值不低于设定阈值，则将段落2作为新的分块，即分块2，在获取下一个段落3之后，对段落3与分块2进行相似度值获取，按照以上方式再进行相似度值判断，以此类推，直到将所有的段落均进行分块，得到文档中的分块：分块1、分块2、。。。、分块N。

可选的，本实施例中在通过对文档中的段落依次进行编码，并将编号相邻且关于描述内容的相似度值满足预设的阈值范围的段落划分到同一个分块时，也有另一种实现方式，如下：

本实施例中在可以首先获得第一个段落，并将其编码为段落1，将段落1定义为分块1，然后获取下一个段落，并编码为段落2，之后，对分块1和段落2在语义上的相似度值获取，如获取分块1和段落2在描述内容上的余弦相似度值，判断该余弦相似度值是否低于设定阈值，如果是，那么认为段落2与分块1具有在语义上的相似性，此时将段落2划分到分块1中同一个分块，之后，获取下一个段落并编码为段落3，将段落3与分块1再次进行相似度值获取，按照以上方式再次进行相似度值判断；而如果分块1和段落2在描述内容上的余弦相似度值不低于设定阈值，则将段落2作为新的分块，即分块2，在获取下一个段落并编码为段落3之后，对段落3与分块2进行相似度值获取，按照以上方式再进行相似度值判断，以此类推，直到将所有的段落均进行分块，得到文档中的分块：分块1、分块2、。。。、分块N。

可见，本实施例中可以首先完成对文档中所有段落的编码之后，再进行相似度值计算，并将编号相邻且关于描述内容的相似度值满足预设的阈值范围的段落划分到同一个分块，以得到所述文档中的至少一个分块；或者，本实施例中也可以在对段落进行编码的过程中，并行对段落之间在描述内容上的相似度值进行计算，进而将编号相邻且关于描述内容的相似度值满足预设的阈值范围的段落划分到同一个分块，以得到所述文档中的至少一个分块。

S303：获得分块对应的问题信息。

其中，针对文档中划分出的每个分块均可以得到一个问题信息，如图5中所示，每个分块均获得一个问题。

可选的，本实施例中可以针对每个分块中的文本内容进行文本提取，进而提取出一个问题信息；或者，本实施例中可以对每个分块中的文本内容进行语义分析，以分析出分块中对应的问题信息；或者，本实施例中可以对每个分块中的语句文本进行语句处理，以得到分块中的问题信息。

在一种可能的实现方式中，本实施例中在获得分块对应的问题信息时，具体可以通过以下方式实现：

首先，获得分块中的至少一个关键语句，例如，本实施例中对分块中最具有针对性的描述核心技术或问题的核心语句进行提取，将提取到的核心语句进行标记，如核心语句标记为1，其他语句标记为0，由此，标记为1的核心语句即为关键语句。

可选的，本实施例中在获得关键语句时，可以将分块中的所有语句均输入到序列标注模型中，以得到该序列标注模型所输出的至少一个关键语句，此时的关键语句中具有标记1。

其中，序列标注模型基于预设的序列标注的算法构建，如能够实现序列标注的多分类器所实现的算法等，并且序列标注模型为利用至少两个具有关键语句标签的样本训练得到。例如，本实施例中预先利用已经标注好关键语句的段落或文档样本进行训练，从而使得训练完成的序列标注模型能够对分块或段落中的语句进行标记，由此将核心的一个或多个关键语句标记为1。

其中，本实施例中所获得的分块中的关键语句可能有一句，也可能有多句，此时，可以将所有关键语句均作为后续问题信息获取的基础数据，也可以在这些关键语句中按照预设的选取算法只选取出一个语句作为后续问题信息获取的基础数据，这里的选取算法可以为随机算法或者具有权重参数的算法等，例如，在多个关键语句中随机选取一个语句作为后续问题信息获取的基础数据。

之后，基于关键语句，生成分块对应的问题信息。其中，本实施例中可以通过对关键语句中的字符或字符组合重新进行排序，从而得到分块对应的问题信息；或者，本实施例中可以对关键语句进行语义分析，以生成分块对应的问题信息，等等。

在一种可能的实现方式中，本实施例中可以将关键语句输入到序列生成模型中，以得到序列生成模型所输出的问题信息。其中，序列生成模型所输出的问题信息即为由多个字符或多个字符组合组成的序列，该序列中包含问号或者其他表征疑惑的符号，或者如果序列中不包含表征疑惑的符号，那么可以为该序列添加相应的符号，即可得到分块对应的问题信息。

其中，序列生成模型基于预设的序列生成的算法构建，如能够实现序列生成的最大似然估计算法或增强学习算法等，并且序列生成模型为利用至少两个具有字符序列标签的样本训练得到。例如，本实施例中预先利用已经标注好字符序列的语句或段落样本进行训练，从而使得训练完成的序列生成模型能够对语句或段落中的字符序列进行标记，并将标记的字符序列组成问题，进而输出语句或段落对应的问题语句。

也就是说，本实施例中利用序列生成模型对关键语句重新组织语言，例如提取出关键语句中的关键词，如关键字符或关键字符组合等，再对关键词重新进行排列，从而得到包含关键词的问句，即问题信息。

需要说明的是，本实施例中每个分块均可以生成一个问题信息。当然，在分块中所提取出的关键语句为多个且不对关键语句进行筛选时，本实施例中针对分块能够生成多个问题，这些问题中由于对应的关键语句相关联，如属于根据相似度值满足阈值范围的同一个分块，那么相应得到的问题之间也是相关联的。进一步的，本实施例中可以对分块中多个问题进行筛选或者合并，以得到分块的一个问题，以提高所得到的问题的质量。

S304：获得分块对应的答案信息。

其中，所述分块对应的问题信息及所述答案信息组成所述产品的问答对，所述问答对用于提供问答服务。可见，本实施例中对于文档中所划分出的分块，一个分块中对应一个问题信息，且，一个分块对应一个答案信息，如图5中所示。

在一种可能的实现方式中，本实施例在获得分块对应的答案信息时，可以直接将整个分块中的描述内容作为该分块对应的问题信息的答案信息，或者，本实施例中可以通过对分块中的描述内容进行语义解析，以生成该分块对应的问题信息的答案信息，或者，本实施例中也可以通过对分块的文本内容进行文本压缩，以得到分块对应的问题信息的答案信息。

可选的，本实施例中在对分块的文本内容进行文本压缩时，可以通过以下方式实现：

将分块中的文本内容输入文本摘要模型中，以得到文本摘要模型所输出的经过压缩的答案信息。其中，文本摘要模型为利用至少两个具有摘要标签的样本训练得到，具有摘要标签的样本可以为一个或多个具有摘要标签的字符或字符组合的语句、段落或文档等文本样本。

其中，本实施例中的文本摘要模型可以为基于深度学习的摘要模型，利用语句、段落或文档等文本样本中所包含的具有摘要标签的字符或字符组合进行训练，从而使得训练好的文本摘要模型能够对文本进行压缩，以得到文本摘要。由此，在本实施例中，利用文本摘要模型可以对分块中的文本内容进行文本压缩，以得到每个分块的文本摘要作为相应分块对应的答案信息，由此与分块对应的问题信息组成分块的问答对，相应的，所有分块对应的问答对组成产品的问答对，用于加入到产品的问答知识库中，为客户提供问答服务。

由上述方案可知，本实施例中，在获得包含描述内容的文档之后，对文档中的段落基于描述内容进行划分，从而将文档划分成由段落组成的分块，再对各分块对应的问题和答案进行获取，由此生成由问题和答案组成的问答对，用以提供问答服务。可见，本申请中不再需要专业工作人员进行问答对提取，避免大量的工作时长的消耗，而采用对文档的段落进行分块的方式，从分块中获得对应的问答对，由此节省生成问答对的耗时，从而达到提高生成问答对的效率的目的。

为了便于理解，以下结合图6所示的服务器在生成问答对时的系统逻辑架构图，对本方案在实际应用中的示例进行介绍：

本实施例中依赖于两个模型：文档分块模型和问答生成模型，其中，本实施例首先将获取到的产品文档输入到文档分块模型，文档分块模型会将文档按描述内容的语义信息的不同，切分成不同分块。之后，对于每一个分块，本实施例中通过问答生成模型，将每个分块分别转化成一个问答对，并写入到产品的问答知识库中，用以提供问答服务。

以下对文档分块模型和问答生成模型的具体实现进行举例说明：

一、文档分块模型

本实施例在文档分块模型中以文档中的段落为单位，可以采用无监督的方式来进行语义块分割，由此得到文档中由段落组成的分块，结合图7中的流程图，文档分块模型的具体实现算法如下：

Step1.取文档的第1段，通过段落编码器编码成一个文档向量para_1，假设第1段属于分块1，记为part_1＝{1}，表示分块1包含第1段；

Step2.取文档的第2段，类似Step1的方法得到para_2，计算para_1和para_2之间的相似性，可以用余弦相似度来衡量，即cos(para_1,para_2)表示para_1和para_2之间的相似性，如果余弦相似度小于或等于一个预先设定的阈值th，则认为para_1和para_2有语义上的相似性，则将第2段归为分块1，即part_1＝{1,2}，表示分块1现在由第1和第2段构成；反之，将第2段归为一个新的分块，记为part_2＝{2}；

Step3.按照step1和step2中的方法如此重复，对第i+1段进行编码得到para_i+1，计算与part_k即分块k(第i段所属的分块)或与第i段之间的相似性，可以用余弦相似度来衡量，即cos(part_k，para_i+1)表示part_k和para_i+1之间的相似性，或者cos(para_i，para_i+1)表示para_i和para_i+1之间的相似性，如果余弦相似度小于或等于阈值，则认为part_k或para_i和para_i+1有语义上的相似性，则将第i+1段归为分块k，即part_k包含第i+1段；反之，如果大于阈值，将第i+1段归为一个新的分块k+1，记为part_k+1中包含第i+1段，以此类推，直至所有段落都进行编码并判断完毕，得到N个分块part_1，…，part_N。

其中，本实施例中的段落编码器可以使用预训练好的编码模型，不需要额外去进行数据标注等处理。

二、问答生成模型

本实施例中从分块生成问题和答案的过程，主要包括两部分：1.找出核心的关键语句，并转换成问题语句的形式；2.如果分块的文本过长或繁琐，可以对作为答案的分块进行文本压缩。由此，问答生成模型中可以在功能上分为三个子模型，每个子模型都可以基于有监督的样本预先训练，用于实现相应的功能，结合图8中所示的逻辑架构图，问题生产模型中三个模型的具体实现如下。

1.序列标注模型，即关键句抽取模型，主要用于对分块中最能描述问题的核心语句进行抽取或标注。具体的，关键句抽取模型中可以采用序列标注算法进行构建，并语句为单位进行标注，将选中的语句标记为1，表示为关键语句，未选中的标记为0，表示为非关键语句。其中，训练序列标注模型可以采用具有关键语句标签的文本样本实现，由此训练好的序列标注模型能够对分块中的语句进行标注，进而选取出核心的一个或多个关键语句。

2.序列生成模型，即问题生成模型，主要用于将关键语句重新组织语言，形成问题的形式进行输出。在序列生成模型中可以采用序列生成算法，在序列模型中输入原始的关键语句，输出包含有原始关键语句中关键词等信息的问句，这个问句与分块中的文本内容组成这个分块对应的问答对。其中，这个序列生成模型的训练数样本，不仅可以包括当前的产品文档，也可以包含外部语料。

进一步的，在一个分块中存在多个关键语句时，本实施例中对一个分块中的多个关键语句进行筛选或合并等，以得到一个分块中的一个关键语句，进而得到一个分块的一个问题语句，该问题语句与分块中的文本内容组成一个问答对；或者，本实施例中不对关键语句进行筛选或合并，而是对每个关键语句分别生成一个问题语句，此时，一个分块有多个问题语句，每个问题语句分别与分块中的文本内容组成一个问答对，或者，本实施例中可以进一步对一个分块中的多个问题语句进行合并或筛选，以得到一个问题语句，就此该问题语句与分块中的文本内容组成一个问答对。

3.文本摘要模型，主要用于在分块中的文本内容过长的情况下，将分块文本压缩成简短的文本，作为问答对中的答案，从而实现答案的简化，用来回答客户的提问。这个文本摘要模型的训练样本可以包括有各种外部数据的文本。

可见，本实施例中的技术方案提出了一种全新的、系统化自动化的实现方案，能够从产品文档中提取问答对，来扩充产品的问答知识库，极大提高智能客服、客服助手的能力，同时能够极大的降低生成问答对所消耗的时长。

又一方面，本申请还提供了一种问答对的生成装置，如图9中所示，其示出了本申请一种问答对的生成装置一个实施例的组成示意图，本实施例的装置可以应用于服务器，该装置可以包括：

文档获得单元901，用于获得文档，所述文档中包括至少一个段落，所述段落中包括对目标对象的描述内容；

文档划分单元902，用不至少基于所述描述内容，对所述文档中的段落进行划分，得到至少一个分块，所述分块中包括至少一个所述段落；

问答获得单元903，用于获得所述分块对应的问题信息及所述分块对应的答案信息；

可选的，所述文档划分单元902具体用于：

基于所述描述内容，将相似度值满足预设的阈值范围的段落划分到同一个分块，以得到所述文档中的至少一个分块。例如，对所述文档中的段落进行编码，以得到所述段落的编号；将所述编号相邻且关于所述描述内容的相似度值满足预设的阈值范围的段落划分到同一个分块，以得到所述文档中的至少一个分块。

可选的，所述文档划分单元902具体用于：获取所述文档中的第一个段落作为当前分块；获取所述文档中所述第一个段落的下一个段落作为当前段落，并将所述当前段落与所述当前分块进行相似度值获取；

如果所述当前分块与所述当前段落的相似度值满足预设的阈值范围，将所述当前段落划分到所述当前分块中，并获取所述文档中所述当前段落的下一个段落作为新的当前段落，返回执行所述步骤将所述当前段落与当前分块进行相似度值获取，直到所述文档中的所有段落划分完成；

如果所述当前分块与所述当前段落的相似度值不满足所述阈值范围，将所述当前段落划分到所述当前分块的下一个分块，并获取所述文档中所述当前段落的下一个段落作为新的当前段落，将所述下一个分块做为新的当前分块，返回执行所述步骤所述当前段落与当前分块进行相似度值获取，直到所述文档中的所有段落划分完成。

可选的，所述问答获得单元903在获得所述分块对应的问题信息时，具体用于：获得所述分块中的至少一个关键语句，例如将所述分块中的语句输入序列标注模型中，以得到所述序列标注模型输出的至少一个关键语句；其中，所述序列标注模型为利用至少两个具有关键语句标签的样本训练得到，且所述序列标注模型基于预设的序列标注的算法构建

之后，基于所述关键语句，生成所述分块对应的问题信息。例如，将所述关键语句输入序列生成模型，以得到所述序列生成模型输出的问题信息；其中，所述序列生成模型为利用至少两个具有字符序列标签的样本训练得到，且所述训练生成模型基于预设的序列生成算法构建。

可选的，所述问答获得单元903在获得所述分块对应的答案信息时具体用于：对所述分块中的文本内容进行压缩，以得到所述分块对应的答案信息。例如，将所述分块中的文本内容输入文本摘要模型中，以得到所述文本摘要模型输出的经过压缩的答案信息；其中，所述文本摘要模型为利用至少两个具有摘要标签的样本训练得到。

另一方面，本申请实施例还提供了一种存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上任意一个实施例中服务器侧所执行的问答对的生成方法。

又一方面，参见图10所示的数据共享系统，数据共享系统100是指用于进行节点与节点之间数据共享的系统，该数据共享系统中可以包括多个节点101，多个节点101可以是指数据共享系统中的各个服务器，如图1和图2中的服务器10。每个节点101可以用于：

获得所述分块对应的问题信息及所述分块对应的答案信息；其中，所述分块对应的问题信息及所述答案信息组成所述目标对象的问答对，所述问答对用于提供问答服务。

其中，数据共享系统中的节点101可以在获得问答对之后，将问答对作为输入信息存储到数据共享系统的区块链中。

需要说明的是，为了保证数据共享系统内的信息互通，数据共享系统中的每个节点之间可以存在信息连接，节点之间可以通过上述信息连接进行信息传输。例如，当数据共享系统中的任意节点接收到问答对等输入信息时，数据共享系统中的其他节点便根据共识算法获取该输入信息，将该信息作为共享数据中的数据进行存储，使得数据共享系统中全部节点上存储的问答对均一致。

对于数据共享系统中的每个节点，均具有与其对应的节点标识，而且数据共享系统中的每个节点均可以存储有数据共享系统中其他节点的节点标识，以便后续根据其他节点的节点标识，将生成的区块广播至数据共享系统中的其他节点。每个节点中可维护一个如下表1所示的节点标识列表，将节点名称和节点标识对应存储至该节点标识列表中。其中，节点标识可为IP(Internet Protocol，网络之间互联的协议)地址以及其他任一种能够用于标识该节点的信息，表1中仅以IP地址为例进行说明。

表1标识列表

节点名称	节点标识
		节点1	117.114.151.174
节点2	117.116.189.145
		…	…
节点N	119.123.789.258

数据共享系统中的每个节点均存储一条相同的区块链。区块链由多个区块组成，参见图11，区块链由多个区块组成，创始块中包括区块头和区块主体，区块头中存储有输入信息特征值、版本号、时间戳和难度值，区块主体中存储有输入信息；创始块的下一区块以创始块为父区块，下一区块中同样包括区块头和区块主体，区块头中存储有当前区块的输入信息特征值、父区块的区块头特征值、版本号、时间戳和难度值，并以此类推，使得区块链中每个区块中存储的区块数据均与父区块中存储的区块数据存在关联，保证了区块中输入信息的安全性。

在生成区块链中的各个区块时，参考图12的流程1-9所示，区块链所在的节点监听全网，并在接收到输入信息时，对输入信息进行校验，完成校验后，将输入信息存储至内存池中，并更新其用于记录输入信息的哈希树；之后，将更新时间戳更新为接收到输入信息的时间，并尝试不同的随机数，多次进行特征值计算，使得计算得到的特征值可以满足下述公式(1)：SHA256(SHA256(version+prev_hash+merkle_root+ntime+nbits+x))＜TARGET公式(1)

其中，SHA256为计算特征值所用的特征值算法；version(版本号)为区块链中相关区块协议的版本信息；prev_hash为当前区块的父区块的区块头特征值；merkle_root为输入信息的特征值；ntime为更新时间戳的更新时间；nbits为当前难度，在一段时间内为定值，并在超出固定时间段后再次进行确定；x为随机数；TARGET为特征值阈值，该特征值阈值可以根据nbits确定得到。

这样，当计算得到满足上述公式的随机数时，便可将问答对等输入信息对应存储，生成区块头和区块主体，得到当前区块。随后，区块链所在节点根据数据共享系统中其他节点的节点标识，将新生成的区块分别发送给其所在的数据共享系统中的其他节点，由其他节点对新生成的区块进行校验，并在完成校验后将新生成的区块添加至其存储的区块链中。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种问答对的生成方法，其特征在于，包括：

获取所述文档中的第一个段落作为当前分块；

如果所述当前分块与所述当前段落的相似度值满足预设的阈值范围，将所述当前段落划分到所述当前分块中，并获取所述文档中所述当前段落的下一个段落作为新的当前段落，返回执行所述将所述当前段落与所述当前分块进行相似度值获取的步骤，直到所述文档中的所有段落划分完成；

如果所述当前分块与所述当前段落的相似度值不满足所述阈值范围，将所述当前段落划分到所述当前分块的下一个分块，并获取所述文档中所述当前段落的下一个段落作为新的当前段落，将所述下一个分块作为新的当前分块，返回执行所述步骤所述当前段落与所述当前分块进行相似度值获取，直到所述文档中的所有段落划分完成，所述分块中包括至少一个所述段落；所述分块中的段落包括文档中位置相邻和/或位置分散的段落；

获得所述分块对应的问题信息及所述分块对应的答案信息；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述文档中的段落进行编码，以得到所述段落的编号；

3.根据权利要求1~2任一项所述的方法，其特征在于，所述获得所述分块对应的问题信息，包括：

获得所述分块中的至少一个关键语句；

基于所述关键语句，生成所述分块对应的问题信息。

4.根据权利要求3所述的方法，其特征在于，获得所述分块中的至少一个关键语句，包括：

将所述分块中的语句输入序列标注模型中，以得到所述序列标注模型输出的至少一个关键语句；其中，所述序列标注模型为利用至少两个具有关键语句标签的样本训练得到，且所述序列标注模型基于预设的序列标注的算法构建；

其中，所述基于所述关键语句，生成所述分块对应的问题信息，包括：

将所述关键语句输入序列生成模型，以得到所述序列生成模型输出的问题信息；其中，所述序列生成模型为利用至少两个具有字符序列标签的样本训练得到，且所述序列生成模型基于预设的序列生成算法构建。

5.根据权利要求1所述的方法，其特征在于，获得所述分块对应的答案信息，包括：

6.根据权利要求1所述的方法，其特征在于，还包括：

将所述问答对存储到数据共享系统的区块链中。

7.一种问答对的生成装置，其特征在于，包括：

文档划分单元，用于获取所述文档中的第一个段落作为当前分块；获取所述文档中所述第一个段落的下一个段落作为当前段落，并将所述当前段落与所述当前分块进行相似度值获取；如果所述当前分块与所述当前段落的相似度值满足预设的阈值范围，将所述当前段落划分到所述当前分块中，并获取所述文档中所述当前段落的下一个段落作为新的当前段落，返回执行所述将所述当前段落与所述当前分块进行相似度值获取的步骤，直到所述文档中的所有段落划分完成；如果所述当前分块与所述当前段落的相似度值不满足所述阈值范围，将所述当前段落划分到所述当前分块的下一个分块，并获取所述文档中所述当前段落的下一个段落作为新的当前段落，将所述下一个分块作为新的当前分块，返回执行所述步骤所述当前段落与所述当前分块进行相似度值获取，直到所述文档中的所有段落划分完成，所述分块中包括至少一个所述段落；所述分块中的段落包括文档中位置相邻和/或位置分散的段落；

8.根据权利要求7所述的装置，其特征在于，所述问答获得单元具体用于：

获得所述分块中的至少一个关键语句；

基于所述关键语句，生成所述分块对应的问题信息。

9.一种服务器，其特征在于，包括：

处理器和存储器；

其中，所述处理器用于执行所述存储器中存储的程序；

所述存储器用于存储程序，所述程序至少用于：

获取所述文档中的第一个段落作为当前分块；

获得所述分块对应的问题信息及所述分块对应的答案信息，其中，所述分块对应的问题信息及所述答案信息组成所述目标对象的问答对，所述问答对用于提供问答服务。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如权利要求1~6任一项所述的问答对的生成方法。