CN114398909A

CN114398909A - 用于对话训练的问题生成方法、装置、设备和存储介质

Info

Publication number: CN114398909A
Application number: CN202210054985.0A
Authority: CN
Inventors: 袁梦菲; 赵亮
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2022-04-26

Abstract

本申请提供一种用于对话训练的问题生成方法、装置、设备和存储介质，属于人工智能技术领域。该方法包括：获取原始用户数据；其中，原始用户数据包括用户画像信息和对话信息；根据用户画像信息对预设的问题库进行第一筛选处理，得到初步问题数据；对初步问题数据进行匹配处理，得到第一特征向量；对用户画像信息进行特征提取处理和对对话信息进行特征提取处理，得到第二特征向量；计算第一特征向量与第二特征向量之间的相似度，得到相似度值数据；根据相似度值数据对初步问题数据进行第二筛选处理，得到目标问题。通过比较特征向量相似度的方式，可以使得最终生成的目标问题更符合当前的用户画像，从而使生成的目标问题更加准确。

Description

用于对话训练的问题生成方法、装置、设备和存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种用于对话训练的问题生成方法、装置、设备和存储介质。

背景技术

随着社会的发展和科技的进步，涌现出很多智能对话系统，如智能对话机器人、智能对话客服等。通过智能对话系统，用户可以完成信息查询、聊天打趣、对话训练等操作。在对话训练中，智能对话系统可以通过不断的提问，来对用户的对话水平进行训练。

相关技术中的用于对话训练的智能对话系统中，仅根据用户输入的关键词信息来生成对应的提问问题，但此种问题生成方式未考虑其他信息的影响，导致生成的问题不够准确。

发明内容

本申请实施例的主要目的在于提出一种用于对话训练的问题生成方法、装置、设备和存储介质，以提高生成的问题的准确性。

为实现上述目的，本申请实施例的第一方面提出了一种用于对话训练的问题生成方法，所述方法包括：

获取原始用户数据；其中，所述原始用户数据包括用户画像信息和对话信息；

根据所述用户画像信息对预设的问题库进行第一筛选处理，得到初步问题数据；

通过预设的问题向量库对所述初步问题数据进行匹配处理，得到与所述初步问题数据匹配的第一特征向量；

对所述用户画像信息进行特征提取处理和对所述对话信息进行特征提取处理，得到第二特征向量；

计算所述第一特征向量与所述第二特征向量之间的相似度，得到相似度值数据；

根据所述相似度值数据对所述初步问题数据进行第二筛选处理，得到目标问题。

在一些实施例中，所述用户画像信息包括兴趣标签信息，所述问题库包括多个问题信息，所述根据所述用户画像信息对预设的问题库进行第一筛选处理，得到初步问题数据，包括：

根据所述兴趣标签信息得到关键词信息；

通过所述关键词信息在所述问题库中进行查找，得到与所述关键词信息匹配的所述问题信息；

将与所述关键词信息匹配的所述问题信息作为所述初步问题数据。

在一些实施例中，所述通过预设的问题向量库对所述初步问题数据进行匹配处理，得到与所述初步问题数据匹配的第一特征向量之前，所述方法包括：

将多个所述问题信息进行第一独热编码，得到多个第一字向量数据；

将多个所述第一字向量数据依次输入训练好的深度语义匹配模型进行特征提取处理，得到问题特征向量数据；

将所述问题特征向量数据进行存储，得到所述问题向量库。

在一些实施例中，所述对所述用户画像信息进行特征提取处理和对所述对话信息进行特征提取处理，得到第二特征向量，包括：

将所述用户画像信息进行第二独热编码，得到画像字向量数据；

将所述对话信息进行第三独热编码，得到对话字向量数据；

将所述画像字向量数据和所述对话字向量数据进行拼接，得到第二字向量数据；

将所述第二字向量数据输入训练好的深度语义匹配模型进行特征提取处理，得到所述第二特征向量。

在一些实施例中，所述计算所述第一特征向量与所述第二特征向量之间的相似度，得到相似度值数据，包括：

计算所述第一特征向量与所述第二特征向量之间的余弦相似度，得到余弦值数据；

将所述余弦值数据作为所述相似度值数据。

在一些实施例中，所述根据所述相似度值数据对所述初步问题数据进行第二筛选处理，得到目标问题，包括：

从所述相似度值数据筛选出最大相似值；

根据所述最大相似值得到所述目标问题。

在一些实施例中，所述根据所述相似度值数据对所述初步问题数据进行第二筛选处理，得到目标问题之后，所述方法还包括：

将所述目标问题进行向量化，得到第三特征向量；

将所述第三特征向量输入训练好的语音合成模型中进行语音合成处理，得到问题语音；

输出所述问题语音，以进行提问。

为实现上述目的，本申请的第二方面提出了一种用于对话训练的问题生成装置，所述装置包括：

获取模块，所述获取模块用于获取原始用户数据；其中，所述原始用户数据包括用户画像信息和对话信息；

第一筛选模块，所述第一筛选模块用于根据所述用户画像信息对预设的问题库进行第一筛选处理，得到初步问题数据；

第一向量获取模块，所述第一向量获取模块用于通过预设的问题向量库对所述初步问题数据进行匹配处理，得到与所述初步问题数据匹配的第一特征向量；

第二向量获取模块，所述第二向量获取模块用于对所述用户画像信息进行特征提取处理和对所述对话信息进行特征提取处理，得到第二特征向量；

计算模块，所述计算模块用于计算所述第一特征向量与所述第二特征向量之间的相似度，得到相似度值数据；

第二筛选模块，所述第二筛选模块用于根据所述相似度值数据对所述初步问题数据进行第二筛选处理，得到目标问题。

在一些实施例中，所述用户画像信息包括兴趣标签信息，所述问题库包括多个问题信息，所述第一筛选模块用于根据所述用户画像信息对预设的问题库进行第一筛选处理，得到初步问题数据，具体包括：

根据所述兴趣标签信息得到关键词信息；

在一些实施例中，所述第一向量获取模块用于通过预设的问题向量库对所述初步问题数据进行匹配处理，得到与所述初步问题数据匹配的第一特征向量之前，还包括：

将所述问题特征向量数据进行存储，得到所述问题向量库。

在一些实施例中，所述第二向量获取模块用于对所述用户画像信息进行特征提取处理和对所述对话信息进行特征提取处理，得到第二特征向量，具体包括：

将所述对话信息进行第三独热编码，得到对话字向量数据；

在一些实施例中，所述计算模块用于计算所述第一特征向量与所述第二特征向量之间的相似度，得到相似度值数据，具体包括：

将所述余弦值数据作为所述相似度值数据。

在一些实施例中，所述第二筛选模块用于根据所述相似度值数据对所述初步问题数据进行第二筛选处理，得到目标问题，具体包括：

从所述相似度值数据筛选出最大相似值；

根据所述最大相似值得到所述目标问题。

在一些实施例中，所述第二筛选模块用于根据所述相似度值数据对所述初步问题数据进行第二筛选处理，得到目标问题之后，还包括：

第三向量获取模块，所述第三向量获取模块用于将所述目标问题进行向量化，得到第三特征向量；

语音合成模块，所述语音合成模块用于将所述第三特征向量输入训练好的语音合成模型中进行语音合成处理，得到问题语音；

提问模块，所述提问模块用于输出所述问题语音，以进行提问。

为实现上述目的，本申请的第三方面提出了一种电子设备，包括：

至少一个存储器；

至少一个处理器；

至少一个计算机程序；

所述计算机程序被存储在存储器中，处理器执行所述至少一个计算机程序以实现本申请如上述第一方面所述的方法。

为实现上述目的，本申请的第四方面提出了一种存储介质，该存储介质是计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行：

如上述第一方面所述的方法。

本申请实施例提出的一种用于对话训练的问题生成方法、装置、设备和存储介质，通过获取原始用户数据，并根据原始用户数据中的用户画像信息对预设的问题库进行筛选，从而得到初步问题数据，通过对初步问题数据进行匹配后，得到对应的第一特征向量，同时通过对原始用户数据中的用户画像信息和对话信息进行特征提取处理后，得到第二特征向量，最后计算得到的第一特征向量和第二特征向量之间的相似度，根据相似度值的大小来得到目标问题。通过上述的特征提取处理，得到的第一特征向量用于表征不同的问题数据，第二特征向量用于表征用户的用户画像与对话数据，通过比较特征向量相似度的方式，可以使得最终生成的目标问题更符合当前的用户画像，从而使生成的目标问题更加准确。

附图说明

图1是本申请实施例提供的问题生成方法的流程图；

图2是图1中步骤S200的流程图；

图3是本申请另一实施例提供的问题生成方法的流程图；

图4是图1中步骤S400的流程图；

图5是图1中步骤S500的流程图；

图6是图1中步骤S600的流程图；

图7是本申请又一实施例提供的问题生成方法的流程图；

图8是本申请实施例提供的问题生成装置的模块图；

图9是本申请实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

首先，对本申请中涉及的若干名词进行解析：

深度语义匹配模型(Deep Structured Semantic Models，DSSM)：深度语义匹配模型是一种应用于推荐领域的双塔模型，通过构建两个独立的子网络，在训练时分别用复杂深度学习网络构建query侧特征的特征向量和doc侧特征的特征向量。在线上预测时，通过计算两个语义特征向量之间相似度的方式，来得到两个特征向量之间的语义相似度。

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)：是一个基于密度的无监督的ML聚类算法，其不需要使用预先标记的目标来聚类数据点。与划分和层次聚类方法不同，它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类，可以用于替代KMeans和层次聚类等流行的聚类算法。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。人工智能(artificial intelligence，AI)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

相关技术中的对话机器人的对话功能更多的集中在聊天和回答方向，生成的提问问题仅仅是一些信息补全和闲聊打趣的问题，且生成提问问题的方式较为简单，无法结合用户的用户画像生成针对性的问题。例如，当对话机器人用于辅助销售人员进行销售训练时，不同的客户群体所提出的问题是不同的。如在保险销售领域，当客户为老年退休男性时，相比较“保险的保障范围有哪些”的问题，更容易提出“投保年龄的上限是多少”这样的问题；当客户为中年有孩子的女性时，相比较“我可以投保多少份”的问题，更容易提出“我未成年的孩子是否可以进行投保”这样的问题。

基于此，本申请实施例提供一种用于对话训练的问题生成方法、装置、设备和存储介质，可以通过结合用户画像信息来生成目标问题，从而使生成的目标问题更加准确。

本申请实施例提供一种用于对话训练的问题生成方法、装置、设备和存储介质，具体通过如下实施例进行说明，首先描述本申请实施例中的用于对话训练的问题生成方法。

本申请实施例提供的问题生成方法，涉及机器学习技术领域。本申请实施例提供的问题生成方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现问题生成方法的应用等，但并不局限于以上形式。

图1是本申请实施例提供的用于对话训练的问题生成方法的一个可选的流程图，图1中的方法可以包括但不限于包括步骤S100至步骤S600。

S100，获取原始用户数据；其中，原始用户数据包括用户画像信息和对话信息；

S200，根据用户画像信息对预设的问题库进行第一筛选处理，得到初步问题数据；

S300，通过预设的问题向量库对初步问题数据进行匹配处理，得到与初步问题数据匹配的第一特征向量；

S400，对用户画像信息进行特征提取处理和对对话信息进行特征提取处理，得到第二特征向量；

S500，计算第一特征向量与第二特征向量之间的相似度，得到相似度值数据；

S600，根据相似度值数据对初步问题数据进行第二筛选处理，得到目标问题。

本申请实施例的步骤S100至步骤S600，通过获取原始用户数据，并根据原始用户数据中的用户画像信息对预设的问题库进行筛选，从而得到初步问题数据，通过对初步问题数据进行匹配后，得到对应的第一特征向量，同时通过对原始用户数据中的用户画像信息和对话信息进行特征提取处理后，得到第二特征向量，最后计算得到的第一特征向量和第二特征向量之间的相似度，根据相似度值的大小来得到目标问题。通过上述的特征提取处理，得到的第一特征向量用于表征不同的问题数据，第二特征向量用于表征用户的用户画像与对话数据，通过比较特征向量相似度的方式，可以使得最终生成的目标问题更符合当前的用户画像，从而使生成的目标问题更加准确。

本申请的用于对话训练的问题生成方法可以应用于对话机器人上，辅助销售人员通过对话机器人进行销售话术训练，可以提高销售人员的销售能力。下面以问题生成方法应用于对话机器人上为例，详细描述本申请实施例提供的问题生成方法。

在一些实施例中，问题生成方法应用于对话机器人上时，对话机器人可以模拟不同类型的用户来辅助销售人员进行训练。步骤S100中，对话机器人可以通过多种方式获取原始用户数据。

当获取用户画像信息时，可以采用以下几种方式。例如，在对话机器人中存储了多个预先设置的模拟用户形象(如，青年男性、中年女性、老年男性等)，模拟用户形象中包括对应的用户画像信息，使用者通过用户操作界面选择特定的模拟用户形象，对话机器人即可获取到对应的用户画像信息；或者，对话机器人可以在显示界面上显示可选择的用户信息(如，用户年龄、用户性别、用户收入、用户学历、是否买过保险、婚姻状况、孩子状况、关注的保险类型等)，使用者需要分别选择对应的可选用户信息的具体参数(如，用户年龄选择为30岁、用户性别选择为男性等)，全部选择结束后，对话机器人即可获取对应的用户画像信息；或者，使用者可以通过文字、语音等方式，采用自定义用户画像的方式向对话机器人输入对应的用户画像信息。

对话信息是使用者对当前的提问所做出的回答信息，在获取对话信息时，可以采用以下几种方式。例如，对话机器人可以通过麦克风采集使用者的语音信息，通过语音识别后得到对应的对话信息；或者，使用者可以通过用户操作界面向对话机器人输入回答的文本信息，对话机器人将文本信息作为对应的对话信息。

在一些实施例中，用户画像信息包括兴趣标签信息，问题库包括多个问题信息，参照图2，步骤S200中，根据用户画像信息对预设的问题库进行第一筛选处理，得到初步问题数据，包括：

S210，根据兴趣标签信息得到关键词信息；

S220，通过关键词信息在问题库中进行查找，得到与关键词信息匹配的问题信息；

S230，将与关键词信息匹配的问题信息作为初步问题数据。

本申请实施例中的用户画像信息包括用户的兴趣标签信息，兴趣标签信息用于表征对应的用户所关注的重点。例如，年龄较大的用户可能更容易关注寿险信息，有孩子的用户可能更容易关注关于青少年的保险信息。预设的问题库中包括了多种不同类型的问题信息，问题信息为在实际的问题咨询过程中收集整理得到。通过使用用户画像信息先对预设的问题库进行一次筛选，可以过滤掉与当前用户身份较为不符的问题，减少后续处理时的计算量。

在筛选处理过程中，首先通过步骤S210，根据兴趣标签信息得到关键词信息。可以理解的是，兴趣标签信息中可以包括多个关键词信息。例如，当用户画像为一老龄用户时，对应的兴趣标签信息中可以包括：癌症、重疾险、健康险等关键词信息。然后通过步骤S220，通过关键词信息在问题库中进行查找，得到与关键词信息匹配的问题信息。可以理解的是，通过关键词信息进行查找时，可以直接通过关键词信息与问题库中的问题信息中的关键词进行匹配，当问题信息中存在对应的关键词时，即可将对应的问题信息筛选出来；或者在构建预设的问题库时，对问题库中的问题信息进行分类存储，当通过关键词信息进行匹配时，只需要通过关键词信息选择对应的类别，即可得到与关键词信息匹配的问题信息。

最后通过步骤S230，将与关键词信息匹配的问题信息作为初步问题数据。通过将对应的问题信息从预设的问题库中筛选出来，即可得到初步问题数据。

在一些其他实施例中，也可以通过结合用户画像中的其它信息(如用户的疾病信息等)，对预设的问题库进行筛选，来得到对应的初步问题数据。

在一些实施例中，参照图3，步骤S300中，通过预设的问题向量库对初步问题数据进行匹配处理，得到与初步问题数据匹配的第一特征向量之前，问题生成方法包括：

S310，将多个问题信息进行第一独热编码，得到多个第一字向量数据；

S320，将多个第一字向量数据依次输入训练好的深度语义匹配模型进行特征提取处理，得到问题特征向量数据；

S330，将问题特征向量数据进行存储，得到问题向量库；

本申请实施例的第一特征向量为根据初步问题数据在预设的问题向量库中通过匹配处理得到，可以理解的是，初步问题数据中包括多个问题信息，通过匹配得到的第一特征向量中也包括多个特征向量，问题信息与特征向量为一一对应的关系。

本申请实施例中的预设的问题向量库中的特征向量，由训练好的深度语义匹配模型，通过对预设的问题库中的多个问题信息依次进行特征提取处理后，再进行存储得到。训练深度语义匹配模型的训练集包括收集的用户画像信息、对话信息以及问题信息。

收集的用户画像信息中可以包括：用户年龄段、用户性别、用户收入范围、用户学历、是否买过保险、婚姻状况、孩子状况、关注的保险、兴趣爱好等信息。由于收集的多个用户画像信息可能存在重合的用户画像，因此首先对用户画像中相同的属性组合进行合并。例如，将“用户年龄段为25至30，用户性别为女，用户收入范围为12000元至22000元，用户学历为本科，买过保险，已婚无孩子”所有具备这些属性的用户画像进行聚拢，得到相应的用户画像群Si，Si中包括了多个用户的兴趣标签信息，此时选择出现频率较高的一个或多个兴趣标签，作为Si的代表属性集Fi，使用此步骤即可将大量的用户画像信息进行初步合并，以减少处理的用户画像数量。例如，通过处理后得到S＝{S1，S2，……，S250}，F＝{F1，F2，……，F250}，将两个整体对照的集合作为用户的用户画像。

然后将经过合并后的用户画像进行针对性的聚类处理，向量空间为Si中对应的兴趣标签是否高频出现，可以理解的是，此向量空间为无序稀疏的，因此通过使用基于密度聚类的DBSCAN算法，将集合S进行预设数量的聚类，例如聚类为25类，即将合并后的用户画像压缩为25个用户画像，此25张用户画像为最具有代表性的用户画像，相对应的集合F也聚类为25类。例如，“用户年龄段为25至30，用户性别为女，用户收入范围为12000元至22000元，用户学历为本科，买过保险，已婚无孩子”和“用户年龄段为30至35，用户性别为女，用户收入范围12000元至22000元，用户学历为大专，买过保险，已婚无孩子”，其在向量空间中的位置很接近，就把他们当作同一类。

训练集中的对话信息和问题信息为在日常的销售对话中采集得到。然后将训练集中采集的数据输入度语义匹配模型中，进行神经网络的训练。可以理解的是，将用户画像信息和对话信息作为query进行输入，将问题信息作为doc进行输入，通过表示层中的深度学习网络，进行特征提取，通过反向传播和训练，最终得到训练好的深度语义匹配模型。深度语义匹配模型的具体训练方式为本领域技术人员可知的，此处不再一一赘述。

通过步骤S310，将多个问题信息进行第一独热编码，得到多个第一字向量数据。首先获取预设的问题库中的多个问题信息，然后依次对问题信息进行独热编码，从而得到对应多个问题信息的多个第一字向量。然后通过步骤S320，将多个第一字向量数据依次输入训练好的深度语义匹配模型进行特征提取处理，得到问题特征向量数据。可以理解的是，第一字向量数据是作为doc输入至深度语义匹配模型中的，得到的问题特征向量数据中，包括了与多个问题信息一一对应的多个特征向量。经过特征提取处理后，通过步骤S330，将问题特征向量数据进行存储，得到问题向量库。问题向量库中存储有与输入的问题信息一一对应的特征向量，在进行匹配处理时，通过识别初步问题数据中包括的问题信息，再在问题向量库中进行查找，即可得到与初步问题数据中的问题信息一一对应的特征向量，并将查找得到的特征向量作为第一特征向量。通过在问题向量库中进行匹配查找处理，即可获取与初步问题数据对应的特征向量，从而得到对应的第一特征向量。通过本实施例中的预先计算并存储的方式，便于在线上仅通过简单的匹配查找即可获取到对应的第一特征向量，便于后续进行匹配度计算，在线上效率较高的同时，对计算资源的消耗较少。

在一些其他实施例中，也可以在线上使用时，将筛选得到的初步问题数据中的问题信息依次输入至深度语义匹配模型中，实时进行特征提取处理，也可以得到对应的第一特征向量。

在一些实施例中，参照图4，步骤S400中，对用户画像信息进行特征提取处理和对对话信息进行特征提取处理，得到第二特征向量，包括：

S410，将用户画像信息进行第二独热编码，得到画像字向量数据；

S420，将对话信息进行第三独热编码，得到对话字向量数据；

S430，将画像字向量数据和对话字向量数据进行拼接，得到第二字向量数据；

S440，将第二字向量数据输入训练好的深度语义匹配模型进行特征提取处理，得到第二特征向量。

由于用户画像信息和对话信息为使用者在使用时输入的，因此需要实时对用户画像信息和对话信息进行特征提取，以得到第二特征向量。

首先通过步骤S410和步骤S420，分别对用户画像信息和对话信息进行独热编码，得到对应的画像字向量数据和对话字向量数据。然后通过步骤S430将画像字向量数据和对话字向量数据进行拼接，并将拼接后的向量作为第二字向量数据。最后通过步骤S440将第二字向量数据输入训练好的深度语义匹配模型进行特征提取处理，得到第二特征向量。可以理解的是，第二字向量数据是作为query输入至深度语义匹配模型中的。经过特征提取后的第二特征向量中，仅包括用于表征当前用户画像和对话信息的一个特征向量。

在一些实施例中，参照图5，步骤S500中，计算第一特征向量与第二特征向量之间的相似度，得到相似度值数据，包括：

S510，计算第一特征向量与第二特征向量之间的余弦相似度，得到余弦值数据；

S520，将余弦值数据作为相似度值数据。

本申请实施例中，计算得到的第一特征向量包括多个表征不同问题信息的特征向量，第二特征向量包括一个用于表征当前用户画像和对话信息的特征向量。通过深度语义匹配模型进行特征提取后，得到的特征向量为128维的向量。此时通过步骤S510，计算第一特征向量与第二特征向量之间的余弦相似度，得到余弦值数据。可以理解的是，得到的余弦值数据中包括多个余弦相似度。然后通过步骤S520，将余弦值数据作为相似度值数据。余弦相似度的取值范围为[-1，1]，余弦相似度越接近1，说明两个向量越相似。为了便于后续计算，可以根据余弦值数据求得对应的余弦距离，将余弦距离作为相似度值数据，可以理解的是，余弦距离的取值范围为[0，2]，因此得到的相似度值数据的取值范围也为[0，2]，值越大说明两个特征向量之间的距离越接近。

在一些其他实施例中，也可以通过皮尔逊相关系数、欧几里得相似度等相似度计算方法来得到对应的相似度值数据。

在一些实施例中，参照图6，步骤S600中，根据相似度值数据对初步问题数据进行第二筛选处理，得到目标问题，包括：

S610，从相似度值数据筛选出最大相似值；

S620，根据最大相似值得到目标问题。

本实施例中，需要根据得到的相似度数据对初步问题数据进行筛选，从而得到最匹配、最相似的目标问题。当相似度值数据为通过计算余弦相似度得到时，相似度值越大，说明两个特征向量之间越相似。因此通过步骤S610，对相似度值数据进行最大值筛选处理，从相似度值数据筛选出最大相似值。然后通过步骤S620，根据最大相似值得到目标问题。得到最大相似值后，即可以得到求得最大值时第一特征向量中对应的目标特征向量，然后根据目标特征向量对初步问题数据进行匹配，即可得到对应的目标问题。得到的目标问题为在当前选择的用户画像信息与对话信息下，用户最可能提出的问题信息。对话机器人通过输出对应的目标问题，即可对销售人员进行提问训练。

在一些实施例中，参照图7，步骤S600中，根据相似度值数据对初步问题数据进行第二筛选处理，得到目标问题之后，问题生成方法还包括：

S700，将目标问题进行向量化，得到第三特征向量；

S800，将第三特征向量输入训练好的语音合成模型中进行语音合成处理，得到问题语音；

S900，输出问题语音，以进行提问。

本实施例中，得到的目标问题为文本信息，为了提高训练效率，需要将目标问题转换为对应的问题语音，再对使用者进行提问。首先通过步骤S700，将目标问题进行向量化，得到第三特征向量。然后通过步骤S800，将第三特征向量输入训练好的语音合成模型中进行语音合成处理，得到问题语音。语音合成模型可以采用常用的WaveNet、Tacotron&Tacotron-2、Tacotron+WaveNet等模型，训练集为目标问题及与目标问题对应的问题语音，语音合成模型的具体的训练过程为本领域技术人员可知的，此处不再一一赘述。得到问题语音后，再通过步骤S900，输出问题语音，以进行提问。当应用于对话机器人上时，对话机器人通过扬声器播放对应的问题语音，从而对待训练的销售人员进行提问。

在一些其他实施例中，可以将对应的目标问题通过人工朗读的方式进行录制，从而得到对应的语音库，根据得到的目标问题在语音库中进行查找匹配，即可得到对应的问题语音，通过此种方式获得的问题语音也可以进行提问。

在一个具体实施例中，当本申请的问题生成方法应用于对话机器人上，并用于训练销售人员进行话术训练时。销售人员首先通过用户操作界面在对话机器人上输入用户画像信息，此时对话机器人即会模拟对应的用户进行问题提问。可以理解的是，销售人员在首次与对话机器人进行对话交互时，销售人员可以先不输入对话信息，对话机器人通过用户画像信息也可以得到对应的目标问题。当对话机器人通过目标问题向销售人员播放问题语音后，销售人员即会根据对应的问题语音进行回答，此时对话机器人再采集销售人员的回答语音，并通过处理后，得到对话信息。对话机器人再根据用户画像信息与对应的对话信息得到新的目标问题，来对销售人员进行提问。可以理解的是，对话机器人可以记录每次得到的目标问题，在一次完整的训练过程中，可以通过预先设置，防止对话机器人提出同样的问题，以提高训练效果。

在一些实施例中，参照图8，本申请还提出一种用于对话训练的问题生成装置，装置包括：

获取模块，获取模块用于获取原始用户数据；其中，原始用户数据包括用户画像信息和对话信息；

第一筛选模块，第一筛选模块用于根据用户画像信息对预设的问题库进行第一筛选处理，得到初步问题数据；

第一向量获取模块，第一向量获取模块用于通过预设的问题向量库对初步问题数据进行匹配处理，得到与初步问题数据匹配的第一特征向量；

第二向量获取模块，第二向量获取模块用于对用户画像信息进行特征提取处理和对对话信息进行特征提取处理，得到第二特征向量；

计算模块，计算模块用于计算第一特征向量与第二特征向量之间的相似度，得到相似度值数据；

第二筛选模块，第二筛选模块用于根据相似度值数据对初步问题数据进行第二筛选处理，得到目标问题。

在一些实施例中，用户画像信息包括兴趣标签信息，问题库包括多个问题信息，第一筛选模块用于根据用户画像信息对预设的问题库进行第一筛选处理，得到初步问题数据，具体包括：

根据兴趣标签信息得到关键词信息；

通过关键词信息在问题库中进行查找，得到与关键词信息匹配的问题信息；

将与关键词信息匹配的问题信息作为初步问题数据。

在一些实施例中，第一向量获取模块用于通过预设的问题向量库对初步问题数据进行匹配处理，得到与初步问题数据匹配的第一特征向量之前，具体还包括：

将多个问题信息进行第一独热编码，得到多个第一字向量数据；

将多个第一字向量数据依次输入训练好的深度语义匹配模型进行特征提取处理，得到问题特征向量数据；

将问题特征向量数据进行存储，得到问题向量库。

在一些实施例中，第二向量获取模块用于对用户画像信息进行特征提取处理和对对话信息进行特征提取处理，得到第二特征向量，具体包括：

将用户画像信息进行第二独热编码，得到画像字向量数据；

将对话信息进行第三独热编码，得到对话字向量数据；

将画像字向量数据和对话字向量数据进行拼接，得到第二字向量数据；

将第二字向量数据输入训练好的深度语义匹配模型进行特征提取处理，得到第二特征向量。

在一些实施例中，计算模块用于计算第一特征向量与第二特征向量之间的相似度，得到相似度值数据，具体包括：

计算第一特征向量与第二特征向量之间的余弦相似度，得到余弦值数据；

将余弦值数据作为相似度值数据。

在一些实施例中，第二筛选模块用于根据相似度值数据对初步问题数据进行第二筛选处理，得到目标问题，具体包括：

从相似度值数据筛选出最大相似值；

根据最大相似值得到目标问题。

在一些实施例中，第二筛选模块用于根据相似度值数据对初步问题数据进行第二筛选处理，得到目标问题之后，还包括：

第三向量获取模块，第三向量获取模块用于将目标问题进行向量化，得到第三特征向量；

语音合成模块，语音合成模块用于将第三特征向量输入训练好的语音合成模型中进行语音合成处理，得到问题语音；

提问模块，提问模块用于输出问题语音，以进行提问。

本申请实施例提出的用于对话训练的问题生成装置，通过获取原始用户数据，并根据原始用户数据中的用户画像信息对预设的问题库进行筛选，从而得到初步问题数据，通过对初步问题数据进行匹配后，得到对应的第一特征向量，同时通过对原始用户数据中的用户画像信息和对话信息进行特征提取处理后，得到第二特征向量，最后计算得到的第一特征向量和第二特征向量之间的相似度，根据相似度值的大小来得到目标问题。通过上述的特征提取处理，得到的第一特征向量用于表征不同的问题数据，第二特征向量用于表征用户的用户画像与对话数据，通过比较特征向量相似度的方式，可以使得最终生成的目标问题更符合当前的用户画像，从而使生成的目标问题更加准确。

本申请实施例还提供了一种电子设备，包括：

至少一个存储器；

至少一个处理器；

至少一个计算机程序；

所述计算机程序被存储在存储器中，处理器执行所述至少一个计算机程序以实现本申请实施上述的问题生成方法。该电子设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，简称PDA)、车载电脑等任意智能终端。

请参阅图9，图9示意了另一实施例的电子设备的硬件结构，电子设备包括：

处理器，可以采用通用的CPU(CentralProcessingUnit，中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例所提供的技术方案；

存储器，可以采用ROM(ReadOnlyMemory，只读存储器)、静态存储设备、动态存储设备或者RAM(RandomAccessMemory，随机存取存储器)等形式实现。存储器可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器中，并由处理器来调用执行本申请实施例的问题生成方法；

输入/输出接口，用于实现信息输入及输出；

输入/通信接口，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；

总线，在设备的各个组件(例如处理器、存储器、输入/输出接口和输入/通信接口)之间传输信息；

其中处理器、存储器、输入/输出接口和输入/通信接口通过总线实现彼此之间在设备内部的通信连接。

本申请实施例还提供了一种存储介质，该存储介质是计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令用于使计算机执行上述问题生成方法。

本申请实施例提出的电子设备和存储介质，通过获取原始用户数据，并根据原始用户数据中的用户画像信息对预设的问题库进行筛选，从而得到初步问题数据，通过对初步问题数据进行匹配后，得到对应的第一特征向量，同时通过对原始用户数据中的用户画像信息和对话信息进行特征提取处理后，得到第二特征向量，最后计算得到的第一特征向量和第二特征向量之间的相似度，根据相似度值的大小来得到目标问题。通过上述的特征提取处理，得到的第一特征向量用于表征不同的问题数据，第二特征向量用于表征用户的用户画像与对话数据，通过比较特征向量相似度的方式，可以使得最终生成的目标问题更符合当前的用户画像，从而使生成的目标问题更加准确。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图中示出的技术方案并不构成对本申请实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

上面结合附图对本申请实施例作了详细说明，但是本申请不限于上述实施例，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本申请宗旨的前提下作出各种变化。此外，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

Claims

1.一种用于对话训练的问题生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述用户画像信息包括兴趣标签信息，所述问题库包括多个问题信息，所述根据所述用户画像信息对预设的问题库进行第一筛选处理，得到初步问题数据，包括：

根据所述兴趣标签信息得到关键词信息；

3.根据权利要求2所述的方法，其特征在于，所述通过预设的问题向量库对所述初步问题数据进行匹配处理，得到与所述初步问题数据匹配的第一特征向量之前，所述方法包括：

将所述问题特征向量数据进行存储，得到所述问题向量库。

4.根据权利要求1所述的方法，其特征在于，所述对所述用户画像信息进行特征提取处理和对所述对话信息进行特征提取处理，得到第二特征向量，包括：

将所述对话信息进行第三独热编码，得到对话字向量数据；

5.根据权利要求1所述的方法，其特征在于，所述计算所述第一特征向量与所述第二特征向量之间的相似度，得到相似度值数据，包括：

将所述余弦值数据作为所述相似度值数据。

6.根据权利要求5所述的方法，其特征在于，所述根据所述相似度值数据对所述初步问题数据进行第二筛选处理，得到目标问题，包括：

从所述相似度值数据筛选出最大相似值；

根据所述最大相似值得到所述目标问题。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述根据所述相似度值数据对所述初步问题数据进行第二筛选处理，得到目标问题之后，所述方法还包括：

将所述目标问题进行向量化，得到第三特征向量；

输出所述问题语音，以进行提问。

8.一种用于对话训练的问题生成装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

至少一个存储器；

至少一个处理器；

至少一个计算机程序；

所述计算机程序被存储在所述存储器中，处理器执行所述至少一个计算机程序以实现：

如权利要求1至7任一项所述的方法。

10.一种存储介质，所述存储介质为计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行：

如权利要求1至7任一项所述的方法。