CN109783617B

CN109783617B - 用于答复问题的模型训练方法、装置、设备及存储介质

Info

Publication number: CN109783617B
Application number: CN201811507887.8A
Authority: CN
Inventors: 林桂; 黎旭东; 谢国彤
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2024-01-26
Anticipated expiration: 2038-12-11
Also published as: CN109783617A; WO2020119030A1

Abstract

本发明公开了一种用于答复问题的模型训练方法、装置、设备及存储介质，应用于深度学习技术领域，用于解决用户咨询问题的答复率低下的问题。本方法包括：检测负面评价信息；若检测到，则获取负面评价信息所对应的评价问题；对各个评价问题聚类，聚类后得到各个问题集；确定各个问题集的向量中心；针对每个问题集，分别计算问题集的向量中心与各个预设问题组的向量中心的距离；针对每个问题集，若最小距离小于预设距离阈值，则将问题集合并至最小距离对应的预设问题组；针对每个问题集，若最小距离大于或等于预设距离阈值，则将问题集确定为新的预设问题组；采用更新后的各个预设问题组重新训练该目标深度学习模型，得到训练后的目标深度学习模型。

Description

用于答复问题的模型训练方法、装置、设备及存储介质

技术领域

本发明涉及深度学习技术领域，尤其涉及用于答复问题的模型训练方法、装置、设备及存储介质。

背景技术

目前，智能机器人的应用已经越来越广泛，其中，问答型机器人主要服务于医院、公司的前台、咨询台等地方，以供用户咨询。比如，现有很多大型医院在门诊大厅位置设置有问答型机器人，就诊人员可以在机器人前方语音输入自己的问题，机器人通过与后台服务器的通信搜索出问题的答案并提供给就诊人员。

然而，对于后台服务器来说，由于用户咨询的问题往往是多种多样的，且问题的种类和数量会随着时间的推移而增多，这就导致了后台服务器搜索的问题答案随着时间的推移会越来越不准确。

因此，寻找一种能够持续提高问题答复率的方法成为本领域技术人员亟需解决的问题。

发明内容

本发明实施例提供一种用于答复问题的模型训练方法、装置、计算机设备及存储介质，以解决用户咨询问题的答复率低下的问题。

一种用于答复问题的模型训练方法，包括：

每当在通过目标深度学习模型针对用户提出的问题反馈答案后，检测所述用户是否提交了关于答案的负面评价信息，所述目标深度学习模型由各个预设问题组作为训练数据预先训练得到；

若检测到所述用户提交了关于答案的负面评价信息，则获取所述负面评价信息所对应的评价问题；

当获取到的各个评价问题的数量达到预设第一数量阈值时，对所述各个评价问题进行无监督文本聚类，直到满足预设的条件，聚类后得到各个问题集，每个问题集包括一个以上的评价问题；

分别确定所述各个问题集的向量中心；

针对每个问题集，分别计算所述问题集的向量中心与各个所述预设问题组的向量中心的距离；

针对每个问题集，若计算得到的最小距离小于预设距离阈值，则将所述问题集合并至所述最小距离对应的预设问题组；

针对每个问题集，若计算得到的最小距离大于或等于预设距离阈值，则将所述问题集确定为新的预设问题组；

采用更新后的所述各个预设问题组重新对所述目标深度学习模型进行训练，得到训练后的目标深度学习模型。

一种用于答复问题的模型训练装置，包括：

负面评价检测模块，用于每当在通过目标深度学习模型针对用户提出的问题反馈答案后，检测所述用户是否提交了关于答案的负面评价信息，所述目标深度学习模型由各个预设问题组作为训练数据预先训练得到；

评价问题获取模块，用于若检测到所述用户提交了关于答案的负面评价信息，则获取所述负面评价信息所对应的评价问题；

问题聚类模块，用于当获取到的各个评价问题的数量达到预设第一数量阈值时，对所述各个评价问题进行无监督文本聚类，直到满足预设的条件，聚类后得到各个问题集，每个问题集包括一个以上的评价问题；

向量中心确定模块，用于分别确定所述各个问题集的向量中心；

问题距离计算模块，用于针对每个问题集，分别计算所述问题集的向量中心与各个所述预设问题组的向量中心的距离；

问题合并模块，用于针对每个问题集，若计算得到的最小距离小于预设距离阈值，则将所述问题集合并至所述最小距离对应的预设问题组；

新问题组确定模块，用于针对每个问题集，若计算得到的最小距离大于或等于预设距离阈值，则将所述问题集确定为新的预设问题组；

模型训练模块，用于采用更新后的所述各个预设问题组重新对所述目标深度学习模型进行训练，得到训练后的目标深度学习模型。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述用于答复问题的模型训练方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述用于答复问题的模型训练方法的步骤。

上述用于答复问题的模型训练方法、装置、计算机设备及存储介质，每当在通过目标深度学习模型针对用户提出的问题反馈答案后，检测所述用户是否提交了关于答案的负面评价信息，所述目标深度学习模型由各个预设问题组作为训练数据预先训练得到；若检测到所述用户提交了关于答案的负面评价信息，则获取所述负面评价信息所对应的评价问题；当获取到的各个评价问题的数量达到预设第一数量阈值时，对所述各个评价问题进行无监督文本聚类，直到满足预设的条件，聚类后得到各个问题集，每个问题集包括一个以上的评价问题；然后，分别确定所述各个问题集的向量中心；接着，针对每个问题集，分别计算所述问题集的向量中心与各个所述预设问题组的向量中心的距离；针对每个问题集，若计算得到的最小距离小于预设距离阈值，则将所述问题集合并至所述最小距离对应的预设问题组；针对每个问题集，若计算得到的最小距离大于或等于预设距离阈值，则将所述问题集确定为新的预设问题组；最后，采用更新后的所述各个预设问题组重新对所述目标深度学习模型进行训练，得到训练后的目标深度学习模型。可见，本发明利用用户提交的负面评价信息对应的问题作为新样本来更新目标深度学习模型，由于这些负面评价信息对应的问题是目标深度学习模型没有回答准确的问题，相当于该目标深度学习模型在训练过程中遗漏或缺失的部分，因此使用这些新样本更新目标深度学习模型，可以帮助目标深度学习模型完善自身，提升自身的答复准确率和适应性，即便面对日益更新的问题也能持续提高问题答复率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中用于答复问题的模型训练方法的一应用环境示意图；

图2是本发明一实施例中用于答复问题的模型训练方法的一流程图；

图3是本发明一实施例中用于答复问题的模型训练方法在一个应用场景下训练目标深度学习模型的流程示意图；

图4是本发明一实施例中用于答复问题的模型训练方法步骤103在一个应用场景下的流程示意图；

图5是本发明一实施例中用于答复问题的模型训练方法在一个应用场景下将稀疏问题转移至白名单的流程示意图；

图6是本发明一实施例中用于答复问题的模型训练装置的结构示意图；

图7是本发明一实施例中用于答复问题的模型训练装置的另一种结构示意图；

图8是本发明一实施例中问题聚类模块的结构示意图；

图9是本发明一实施例中计算机设备的一示意图；

图10是本发明一实施例中目标深度学习模型的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供的用于答复问题的模型训练方法，可应用在如图1的应用环境中，其中，客户端通过网络与服务器进行通信。其中，该客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种用于答复问题的模型训练方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

101、每当在通过目标深度学习模型针对用户提出的问题反馈答案后，检测所述用户是否提交了关于答案的负面评价信息，所述目标深度学习模型由各个预设问题组作为训练数据预先训练得到；

本实施例中，服务器在通过目标深度学习模型针对用户提出的问题反馈答案之后，服务器还会向用户发起关于本次反馈的答案是否有帮助的询问，用户在获取到答案后，根据个人判断可以在服务器询问的信息上回复“是”、“否”等评价信息，并会将这些评价信息反馈给服务器。此时，服务器可以检测该用户是否提交了关于答案的负面评价信息，若是，则执行下述步骤102。

需要说明的是，这里所说的负面评价信息是指用户认为反馈的答案没有帮助的评价信息，例如“否”、“踩”等评价。举例说明，在大型医院的应用场景下，用户可以输入问题“儿科应该怎么走？”，随后，放置在门诊大厅的机器人通过与服务器通信获取答案并回答“您好，儿科在门诊大楼二楼西侧。”随后会在机器人的显示屏上弹出“赞”和“踩”按钮供用户选择，用户根据回答是否符合预期给予反馈，反馈的信息存入服务器的系统日志保留。如果用户对答案不满意，则可以点“踩”按钮的，当用户选择“踩”按钮时，服务器在后台可以使用预设字段“feedback_type”值为2记录到系统日志中，其中“feedback_type”值为2代表负面评价，“feedback_type”值为1代表正面评价。在服务器需要检测负面评价信息时，只需在系统日志中检索所有“feedback_type”值为2的日志记录即可提取出对应的负面评价信息和用户提的问题。

需要说明的是，本实施例提供的用于答复问题的模型训练方法可以应用在几乎所有用户、客户、人员可能提问的场景下，本实施例为了便于表述和理解，在后续的内容中主要以在医院场景下进行举例说明，但需要强调的是，本方法可以应用于包括但不限于医院、酒店、餐厅、机场、公交站场、办公室、旅游接待厅等等场景下。

为便于理解，如图3所示，进一步地，在步骤101之前，所述目标深度学习模型可以通过以下步骤预先训练好：

201、获取所述各个预设问题组，每个预设问题组包括多个预先收集的问题语义相同的历史问题；

202、将获取到的各个所述历史问题两两配对，得到各个问题组合；

203、将两个配对的历史问题属于同一预设问题组的问题组合的标记值记为1，并将两个配对的历史问题不属于同一预设问题组的问题组合的标记值记为0；

204、对所述各个问题组合分别进行向量化处理，得到所述各个问题组合对应的组合向量；

205、将所有组合向量作为输入投入至所述目标深度学习模型，得到输出的各个样本概率值；

206、以输出的各个样本概率值作为调整目标，调整所述目标深度学习模型的参数，以最小化得到的所述各个样本概率值与各个问题组合对应的标记值之间的误差；

207、若所述各个样本概率值与各个问题组合对应的标记值之间的误差满足预设条件，则确定所述目标深度学习模型已训练好。

对于上述步骤201，可以理解的是，服务器可以收集相应的历史问题，这里所说的历史问题可以是指属于某些指定用户意图下的任何用户曾经咨询过的问题。比如，在大型医院的应用场景下，服务器可以通过多种渠道收集曾经的就诊人员在该医院中咨询过的问题，例如针对院内导航问询，可以在门诊大厅的接待处收集、整理得到大量的历史问题，另外，还可以从该医院的网站上收集到网络用户曾经提问的常见医院问题；再者，工作人员可以在这些收集到的历史问题的基础上进行发散、扩展和补充，把每个预设用户意图下的历史问题尽可能补充完整，力求涉及用户可能咨询的方方面面问题。另外，服务器针对这些收集回来的历史问题还需要进行分组，得到各个预设问题组。这是因为，不同问题之间根据是否语义相同可以归类为同一问题和不同问题，问题语义相同的历史问题归为一个预设问题组，从而服务器可以获取到该预设用户意图下各个预设问题组。在大型医院的应用场景下，“院内导航问询”的预设用户意图下便可划分出5大类、20小类的预设问题组，包括但不限于：“预约挂号”、“常规检查”、“挂号时间”等，例如，在“预约挂号”的预设问题组中可以包括“我没有带身份证，只有医保卡，可以挂号吗？”、“我能够帮别人挂号吗？”等历史问题。

对于上述步骤202和步骤203，可以理解的是，在进行目标深度学习模型训练之前，需要进行正负样本标注。由于目标深度学习模型的主要作用是判断目标问题(即用户提出的问题)是否与某个预设问题组在问题语义上相同，因此，用于训练该目标深度学习模型的正样本应当是一对问题语义相同的历史问题，而负样本则是一对问题语义不相同的历史问题。因此，服务器可以在各个预设问题组中随机抽取，两两配对历史问题，将两个配对的历史问题属于同一预设问题组的问题组合的标记值记为1，并将两个配对的历史问题不属于同一预设问题组的问题组合的标记值记为0。标记值为1的问题组合即为正样本，标记值为0的问题组合即为负样本。

对于步骤204，经过上述步骤202和步骤203，服务器整理出正负样本之后，还需要将这些正负样本向量化。具体地，服务器对所述各个问题组合分别进行向量化处理，得到所述各个问题组合对应的组合向量，特别地，可将每个问题组合对应的组合向量以数据矩阵的形式记载，在数据矩阵中，问题组合中的每句话均映射成一个等长的向量，这样更加有利于目标深度学习模型在训练过程中对组合向量识别。其中，在进行向量化映射时，针对每句话预留足够的向量长度，在每句话的文本均映射为向量之后，长度多出来的部分可以使用指定的常向量填充。

对于步骤205，在得到组合向量后，服务器可以将所有组合向量作为输入投入至所述目标深度学习模型，得到输出的各个样本概率值。可以理解的是，服务器每投入一个组合向量至该目标深度学习模型中，该目标深度学习模型输出一个对应的样本概率值，该样本概率值表征了该组合向量对应的两个历史问题之间是否问题语义相同，样本概率值越大，则表明这两个历史问题之间问题语义相同的概率越大，反之，样本概率值越小，则表明这两个历史问题之间问题语义相同的概率越小。因此，样本概率值为介于0-1之间的数值。

特别地，该目标深度学习模型具体可以为卷积神经网络，该卷积神经网络的网络结构主要为：卷积层、池化层、随机失活层、正则化层和softmax层，在进行模型训练时，将每个问题组合的两个向量在模型层面进行“加”、“减”、“乘”、“除”等运算，以交叉熵为目标函数，最小化交叉熵，持续迭代模型，最终输出样本概率值。为便于理解，如图10所示，在一个应用场景中，假设某个问题组包含问句1和问句2，将这两个问句向量化处理后，得到该问题组对应的组合向量。在将该组合向量投入到目标深度学习模型之后，问句1和问句2的向量经过输入层后向量化分别进入6个卷积层，其中，每个卷积层的卷积核的参数设置不同，每层卷积层之后都连接着最大池化层。经过6层卷积和相应的池化之后将得到的6个输出合并为一个向量矩阵，则问句1对应向量矩阵1，问句2对应向量矩阵2。向量矩阵1和2分别跟彼此进行矩阵“减”和“乘”的计算，然后将两个结果矩阵合并。同样的，将合并矩阵依次输入随机失活层，正则化层和全连接层，最终得到一个介于0和1的输出值，该输出值即为第二样本概率值，其表征了问句1和问句2的相似程度。

对于步骤206，可以理解的是，在训练目标深度学习模型的过程中，可以通过调整该目标深度学习模型的参数，尽量使得该目标深度学习模型输出的结果与问题组合对应的标记值逼近，也即误差最小。假设当前投入的组合向量对应的问题组合的标记值为1，也就是说这是一个正样本，则执行步骤206时，服务器调整目标深度学习模型中的各个参数，使得其输出的样本概率值尽可能接近1，远离0。

对于步骤207，在执行上述步骤205和步骤206，将所有组合向量均投入到目标深度学习模型中进行训练之后，为了验证该目标深度学习模型是否训练完成，服务器可以判断所述各个样本概率值与各个问题组合对应的标记值之间的误差是否满足预设条件，若满足，则说明该目标深度学习模型中的各个参数已经调整到位，可以确定该目标深度学习模型已训练完成；反之，若不满足，则说明该目标深度学习模型还需要继续训练。其中，该预设条件可以根据实际使用情况预先设定，具体地，可以将该预设条件设定为：若所述各个样本概率值与各个问题组合对应的标记值之间的误差均小于指定目标误差值，则认为其满足该预设条件。或者，也可以将其设为：使用目标验证集中的问题组合执行上述步骤204和步骤205，若目标深度学习模型输出的样本概率值与标记值之间的误差在一定范围内，则认为其满足该预设条件。其中，该验证集中的问题组合的收集与上述步骤202类似，具体地，可以执行上述步骤202获取到各个问题组合后，将这些问题组合中的一定比例划分为目标训练集，剩余的问题组合划分为目标验证集。比如，可以将两两配对出来的各个问题组合中随机划分80％作为后续训练目标深度学习模型的目标训练集的样本，将其它的20％划分为后续验证目标深度学习模型是否训练完成，也即是否满足预设目标条件的目标验证集的样本。

102、若检测到所述用户提交了关于答案的负面评价信息，则获取所述负面评价信息所对应的评价问题；

可以理解的是，服务器在检测到所述用户提交了关于答案的负面评价信息后，说明该负面评价信息对应的评价问题的答案没有帮助到用户，可以认为该目标深度学习模型反馈的答案不正确。因此，服务器可以获取该负面评价信息所对应的评价问题组作为新的负样本，以在后续步骤提供给目标深度学习模型训练。

103、当获取到的各个评价问题的数量达到预设第一数量阈值时，对所述各个评价问题进行无监督文本聚类，直到满足预设的条件，聚类后得到各个问题集，每个问题集包括一个以上的评价问题；

本实施例中，服务器预先设置有第一数量阈值，当服务器获取到的各个评价问题的数量达到预设第一数量阈值时，比如达到100个，则服务器对所述各个评价问题进行无监督文本聚类，将文本内容相近的评价问题聚类为一个问题集，共可以得到一个、两个或多个问题集，其中，每个问题集包括一个以上的评价问题。可以理解的是，对这些评价问题进行聚类需要设定聚类的终止条件，即将这些评价问题聚类到何种程度时停止。本实施例中，服务器上可以预设一个条件，该条件具体可以根据实际情况来确定。

为便于理解，下面对聚类过程以及聚类的终止条件进行详细描述。如图4所示，进一步地，所述对所述各个评价问题进行无监督文本聚类，直到满足预设的条件，聚类后得到各个问题集包括：

301、将所述各个评价问题确定为各个初始的簇；

302、针对每个簇，分别计算所述簇与各个其它簇之间的距离；

303、针对每个簇，将距离所述簇最近的一个其它簇与所述簇合并，得到一个新的簇；

304、重复执行上述步骤302和303，直到当前的各个簇满足预设的条件，将当前的各个簇确定为各个问题集。

对于上述步骤301，可以理解的是，簇是聚类时针对的对象，本实施例中，可以将各个评价问题确定为各个初始的簇。

对于上述步骤302，服务器在计算两个簇之间的距离时，可以分别将这些簇进行向量化处理，得到各个簇向量，然后计算两个簇向量之间的距离。可以理解的是，两个簇向量的距离越小，则代表了这两个簇越相近，也即对应的两个评价问题越相似；反之，若两个簇向量的距离越大，则代表了这两个簇越不相近，也即对应的两个评价问题越不近似。在执行步骤302时，服务器可以针对每个簇，先计算该簇与其它簇之间的各个距离，然后针对下一个簇，计算该下一个簇与其它簇之间的距离，依次类推，从而把各个簇各自之间的距离计算出来。

对于上述步骤303，服务器在计算得到各个簇两两之间的距离之后，可以将两个距离相近的簇合并，在合并时，一般将距离最近的簇优先合并，两个簇合并得到一个新的簇。

对于上述步骤304，可以理解的是，通过反复执行上述步骤302和303，上述各个簇的数量经过多次合并将越来越少，同时，任意两个簇之间的距离也会越来越远，因此，服务器可以针对聚类后任意两个簇之间的距离或者所有簇的数量来设定该预设的条件作为聚类的终止条件，具体终止条件的展开见下述内容。当当前的各个簇满足预设的条件时，服务器可以将当前的各个簇确定为各个问题集。

为便于理解，更进一步地，上述步骤304可以具体包括下述步骤401-403和/或下述步骤404-406。

401、判断当前的各个簇的数量是否小于或等于预设第二数量阈值；

402、若当前的各个簇的数量大于预设第二数量阈值，则返回执行上述步骤302和步骤303；

403、若当前的各个簇的数量小于或等于预设第二数量阈值，则将当前的各个簇确定为各个问题集；

或者

404、判断当前的各个簇中任意两个簇的距离是否均大于预设的距离阈值；

405、若当前的各个簇中任意两个簇的距离不均大于预设的距离阈值，则返回执行上述步骤302和步骤303；

406、若当前的各个簇中任意两个簇的距离均大于预设的距离阈值，则将当前的各个簇确定为各个问题集。

对于上述步骤401-403，可以理解的是，服务器可以预先设定第二数量阈值作为聚类程度的量化标准，服务器可以判断当前的各个簇的数量是否小于或等于预设第二数量阈值，若当前的各个簇的数量大于预设第二数量阈值，则说明各个簇的数量还较多，各个评价问题的聚类程度还不够，因此可以返回执行上述步骤302和步骤303；反之，若当前的各个簇的数量小于或等于预设第二数量阈值，则说明各个簇的数量已经达标，各个评价问题的聚类程度已足够，因此可以将当前的各个簇确定为各个问题集。

对于上述步骤404-406，可以理解的是，服务器可以预先设定针对任意两个簇的距离阈值作为聚类程度的指标，该距离阈值界定了当前的各个簇的聚类程度是否达到服务器要求。具体地，服务器可以判断当前的各个簇中任意两个簇的距离是否均大于预设的距离阈值，若当前的各个簇中任意两个簇的距离不均大于预设的距离阈值，则说明还存在至少一对簇的距离足够接近、能够聚类在一起，即各个评价问题的聚类程度还不够，因此可以返回执行上述步骤302和步骤303；反之，若当前的各个簇中任意两个簇的距离均大于预设的距离阈值，则说明当前的各个簇中所有距离足够接近的簇均已聚类完成，剩下的簇均距离较远，代表了各个评价问题的聚类程度已足够，因此可以将当前的各个簇确定为各个问题集。

104、分别确定所述各个问题集的向量中心；

为了便于后续计算这些问题集与各个预设问题组之间的距离，服务器需要先分别确定所述各个问题集的向量中心，这里的向量中心代表了问题集的中心。

进一步地，上述步骤104可以具体采用下述方式一或方式二进行处理。其中方式一包括下述步骤501-502。

501、从所述各个问题集中分别随机选取一个评价问题；

502、对选取出的各个评价问题分别进行向量化处理，得到各个问题向量作为所述各个问题集的向量中心。

对于上述步骤501和步骤502，考虑到在同一问题集中的每个评价问题相互之间均距离相近，也即问题内容相似，因此服务器可以从问题集中随机选取一个评价问题作为该问题集的中心，以代表该问题集，这是具有可行性的。针对每个问题集随机选取其中一个评价问题后，服务器可以对选取出的各个评价问题分别进行向量化处理，得到各个问题向量作为所述各个问题集的向量中心。

方式二包括下述步骤503-504，具体为：

503、针对每个问题集，对所述问题集中每个评价问题分别进行向量化处理，得到所述问题集中各个评价问题对应的问题向量；

504、针对每个问题集，计算所述问题集中各个问题向量的平均值，得到向量均值作为所述问题集的向量中心。

对于上述步骤503和步骤504，为了提升问题集的中心的准确性，服务器可以针对每个问题集，对所述问题集中每个评价问题分别进行向量化处理，得到所述问题集中各个评价问题对应的问题向量，然后，计算所述问题集中各个问题向量的平均值，得到向量均值作为所述问题集的向量中心。可以理解的是，在一个问题集中包括了多个评价问题，若要严格计算该问题集的中心，最准确的方式就是考虑问题集中每个评价问题对应的问题向量的影响，因此，服务器可以计算这些问题向量的平均值，该向量均值可以代表该问题集中各个向量的平均，从而可以用作该问题集的向量中心。

105、针对每个问题集，分别计算所述问题集的向量中心与各个所述预设问题组的向量中心的距离；

服务器在确定出各个问题集的向量中心之后，针对每个问题集，可以分别计算所述问题集的向量中心与各个所述预设问题组的向量中心的距离。可知，两个向量中心的距离越接近，代表这两个向量中心代表的对象越相似，在本实施例中，代表了问题集与预设问题组之间越相似。

106、针对每个问题集，若计算得到的最小距离小于预设距离阈值，则将所述问题集合并至所述最小距离对应的预设问题组；

107、针对每个问题集，若计算得到的最小距离大于或等于预设距离阈值，则将所述问题集确定为新的预设问题组；

对于上述步骤106和步骤107，针对每个问题集，在上述步骤105计算得到的两向量中心之间距离的基础上，若计算得到的最小距离小于预设距离阈值，则可以认为该问题集与最小距离对应的预设问题组之间足够相似，因此可以将所述问题集合并至所述最小距离对应的预设问题组；反之，若计算得到的最小距离大于或等于预设距离阈值，则可以认为该问题集与最小距离对应的预设问题组相似程度不足，因此该问题集与所有要素和问题组的相似程度必然也不够，服务器可以将所述问题集确定为新的预设问题组。

108、采用更新后的所述各个预设问题组重新对所述目标深度学习模型进行训练，得到训练后的目标深度学习模型。

可以理解的是，在执行上述步骤106和步骤107之后，这些问题集要么合并至了预设问题组中，要么确定为了新的预设问题组，总之，服务器获取到的原来的预设问题组必然得到的更新，且更新的来源为用户反馈的负面评价信息对应的问题，也即负样本，可知这些更新后的预设问题组将对目标深度学习模型的完善很有帮助。因此，服务器之后可以采用更新后的所述各个预设问题组重新对所述目标深度学习模型进行训练，得到训练后的目标深度学习模型。

在某些应用场景下，考虑到服务器确定出的各个问题集中，有些问题集包含的评价问题数量可能很少，比如一个问题集只包含1个评价问题，这些问题集中的评价问题可以认为是稀疏问题，即用户很少提问的偏门问题。而将这些稀疏问题提供给目标深度学习模型进行训练的意义也不大，因此，本实施例可以对这些稀疏问题进行处理，将其转移至预设的白名单中，而不将其作为负样本提供给目标深度学习模型进行学习、训练。进一步地，如图5所示，在将所述问题集确定为新的预设问题组之前，本方法还可以包括：

601、判断所述问题集中评价问题的数量是否小于或等于预设第三数量阈值，若否，则执行步骤602，若是，则执行步骤603；

602、若所述问题集中评价问题的数量大于预设第三数量阈值，则执行所述将所述问题集确定为新的预设问题组的步骤；

603、若所述问题集中评价问题的数量小于或等于预设第三数量阈值，则将所述问题集加入至预设的问题白名单中，所述问题白名单中记录的各个问题均预设有对应的答案，当所述目标深度学习模型针对用户提出的问题无法反馈答案时，将匹配问题对应的答案反馈给所述用户，所述匹配问题是指所述问题白名单中与所述用户提出的问题匹配的问题。

对于上述步骤601，服务器可以预先设定第三数量阈值作为判断问题集是否为稀疏问题的标准，当所述问题集中评价问题的数量大于预设第三数量阈值，则认为该问题集不属于稀疏问题，从而执行步骤602，执行所述将所述问题集确定为新的预设问题组的步骤；反之，当所述问题集中评价问题的数量小于或等于预设第三数量阈值，则认为该问题集中的评价问题数量过少，属于稀疏问题，从而执行步骤603，将所述问题集加入至预设的问题白名单中，所述问题白名单中记录的各个问题均预设有对应的答案，当所述目标深度学习模型针对用户提出的问题无法反馈答案时，将匹配问题对应的答案反馈给所述用户，所述匹配问题是指所述问题白名单中与所述用户提出的问题匹配的问题。可以理解的是，服务器针对问题白名单中记录的各个问题均设有对应的答案，对新加入的稀疏问题，服务器可以统一告知工作人员在后续为其添加对应的答案。在某些情况下，当目标深度学习模型无法提供答案时，可以将用户提出的问题与问题白名单中的问题进行匹配，若匹配上，则取问题白名单中匹配成功的问题对应的答案提供给用户，实现稀疏问题的有效处理和答案反馈。

综上所述，本发明实施例利用用户提交的负面评价信息对应的问题作为新样本来更新目标深度学习模型，由于这些负面评价信息对应的问题是目标深度学习模型没有回答准确的问题，相当于该目标深度学习模型在训练过程中遗漏或缺失的部分，因此使用这些新样本更新目标深度学习模型，可以帮助目标深度学习模型完善自身，提升自身的答复准确率和适应性，即便面对日益更新的问题也能持续提高问题答复率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种用于答复问题的模型训练装置，该用于答复问题的模型训练装置与上述实施例中用于答复问题的模型训练方法一一对应。如图6所示，该用于答复问题的模型训练装置包括负面评价检测模块701、评价问题获取模块702、问题聚类模块703、向量中心确定模块704、问题距离计算模块705、问题合并模块706、新问题组确定模块707和模型训练模块708。各功能模块详细说明如下：

负面评价检测模块701，用于每当在通过目标深度学习模型针对用户提出的问题反馈答案后，检测所述用户是否提交了关于答案的负面评价信息，所述目标深度学习模型由各个预设问题组作为训练数据预先训练得到；

评价问题获取模块702，用于若检测到所述用户提交了关于答案的负面评价信息，则获取所述负面评价信息所对应的评价问题；

问题聚类模块703，用于当获取到的各个评价问题的数量达到预设第一数量阈值时，对所述各个评价问题进行无监督文本聚类，直到满足预设的条件，聚类后得到各个问题集，每个问题集包括一个以上的评价问题；

向量中心确定模块704，用于分别确定所述各个问题集的向量中心；

问题距离计算模块705，用于针对每个问题集，分别计算所述问题集的向量中心与各个所述预设问题组的向量中心的距离；

问题合并模块706，用于针对每个问题集，若计算得到的最小距离小于预设距离阈值，则将所述问题集合并至所述最小距离对应的预设问题组；

新问题组确定模块707，用于针对每个问题集，若计算得到的最小距离大于或等于预设距离阈值，则将所述问题集确定为新的预设问题组；

模型训练模块708，用于采用更新后的所述各个预设问题组重新对所述目标深度学习模型进行训练，得到训练后的目标深度学习模型。

如图7所示，进一步地，所述目标深度学习模型可以通过以下模块预先训练好：

问题组获取模块709，用于获取所述各个预设问题组，每个预设问题组包括多个预先收集的问题语义相同的历史问题；

问题配对模块710，用于将获取到的各个所述历史问题两两配对，得到各个问题组合；

问题组合标记模块711，用于将两个配对的历史问题属于同一预设问题组的问题组合的标记值记为1，并将两个配对的历史问题不属于同一预设问题组的问题组合的标记值记为0；

组合向量化模块712，用于对所述各个问题组合分别进行向量化处理，得到所述各个问题组合对应的组合向量；

组合向量输入模块713，用于将所有组合向量作为输入投入至所述目标深度学习模型，得到输出的各个样本概率值；

模型参数调整模块714，用于以输出的各个样本概率值作为调整目标，调整所述目标深度学习模型的参数，以最小化得到的所述各个样本概率值与各个问题组合对应的标记值之间的误差；

训练完成确定模块715，用于若所述各个样本概率值与各个问题组合对应的标记值之间的误差满足预设条件，则确定所述目标深度学习模型已训练好。

如图8所示，进一步地，所述问题聚类模块703可以包括：

初始簇确定单元7031，用于将所述各个评价问题确定为各个初始的簇；

簇距离计算单元7032，用于针对每个簇，分别计算所述簇与各个其它簇之间的距离；

簇合并单元7033，用于针对每个簇，将距离所述簇最近的一个其它簇与所述簇合并，得到一个新的簇；

触发单元7034，用于触发所述簇距离计算单元和所述簇合并单元，直到当前的各个簇满足预设的条件，将当前的各个簇确定为各个问题集。

进一步地，所述用于答复问题的模型训练装置还可以包括：

问题数量判断模块，用于判断所述问题集中评价问题的数量是否小于或等于预设第三数量阈值；

触发模块，用于若所述问题数量判断模块的判断结果为否，则触发所述新问题组确定模块；

问题集加入模块，用于若所述问题数量判断模块的判断结果为是，则将所述问题集加入至预设的问题白名单中，所述问题白名单中记录的各个问题均预设有对应的答案，当所述目标深度学习模型针对用户提出的问题无法反馈答案时，将匹配问题对应的答案反馈给所述用户，所述匹配问题是指所述问题白名单中与所述用户提出的问题匹配的问题。

进一步地，所述向量中心确定模块可以包括：

问题选取单元，用于从所述各个问题集中分别随机选取一个评价问题；

第一向量化处理单元，用于对选取出的各个评价问题分别进行向量化处理，得到各个问题向量作为所述各个问题集的向量中心；

或

第二向量化处理单元，用于针对每个问题集，对所述问题集中每个评价问题分别进行向量化处理，得到所述问题集中各个评价问题对应的问题向量；

向量均值计算单元，用于针对每个问题集，计算所述问题集中各个问题向量的平均值，得到向量均值作为所述问题集的向量中心。

关于用于答复问题的模型训练装置的具体限定可以参见上文中对于用于答复问题的模型训练方法的限定，在此不再赘述。上述用于答复问题的模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储用于答复问题的模型训练方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用于答复问题的模型训练方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中用于答复问题的模型训练方法的步骤，例如图2所示的步骤101至步骤108。或者，处理器执行计算机程序时实现上述实施例中用于答复问题的模型训练装置的各模块/单元的功能，例如图6所示模块701至模块708的功能。为避免重复，这里不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中用于答复问题的模型训练方法的步骤，例如图2所示的步骤101至步骤108。或者，计算机程序被处理器执行时实现上述实施例中用于答复问题的模型训练装置的各模块/单元的功能，例如图6所示模块701至模块708的功能。为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种用于答复问题的模型训练方法，其特征在于，包括：

分别确定所述各个问题集的向量中心；

采用更新后的所述各个预设问题组重新对所述目标深度学习模型进行训练，得到训练后的目标深度学习模型；

在将所述问题集确定为新的预设问题组之前，还包括：

判断所述问题集中评价问题的数量是否小于或等于预设第三数量阈值；

若所述问题集中评价问题的数量大于预设第三数量阈值，则执行所述将所述问题集确定为新的预设问题组的步骤；

若所述问题集中评价问题的数量小于或等于预设第三数量阈值，则将所述问题集加入至预设的问题白名单中，所述问题白名单中记录的各个问题均预设有对应的答案，当所述目标深度学习模型针对用户提出的问题无法反馈答案时，将匹配问题对应的答案反馈给所述用户，所述匹配问题是指所述问题白名单中与所述用户提出的问题匹配的问题。

2.根据权利要求1所述的用于答复问题的模型训练方法，其特征在于，所述目标深度学习模型通过以下步骤预先训练好：

获取所述各个预设问题组，每个预设问题组包括多个预先收集的问题语义相同的历史问题；

将获取到的各个所述历史问题两两配对，得到各个问题组合；

将两个配对的历史问题属于同一预设问题组的问题组合的标记值记为1，并将两个配对的历史问题不属于同一预设问题组的问题组合的标记值记为0；

对所述各个问题组合分别进行向量化处理，得到所述各个问题组合对应的组合向量；

将所有组合向量作为输入投入至所述目标深度学习模型，得到输出的各个样本概率值；

以输出的各个样本概率值作为调整目标，调整所述目标深度学习模型的参数，以最小化得到的所述各个样本概率值与各个问题组合对应的标记值之间的误差；

若所述各个样本概率值与各个问题组合对应的标记值之间的误差满足预设条件，则确定所述目标深度学习模型已训练好。

3.根据权利要求1所述的用于答复问题的模型训练方法，其特征在于，所述对所述各个评价问题进行无监督文本聚类，直到满足预设的条件，聚类后得到各个问题集包括：

将所述各个评价问题确定为各个初始的簇；

针对每个簇，分别计算所述簇与各个其它簇之间的距离；

针对每个簇，将距离所述簇最近的一个其它簇与所述簇合并，得到一个新的簇；

返回执行所述针对每个簇，分别计算所述簇与各个其它簇之间的距离的步骤，直到当前的各个簇满足预设的条件，将当前的各个簇确定为各个问题集。

4.根据权利要求1至3中任一项所述的用于答复问题的模型训练方法，其特征在于，所述分别确定所述各个问题集的向量中心包括：

从所述各个问题集中分别随机选取一个评价问题；

对选取出的各个评价问题分别进行向量化处理，得到各个问题向量作为所述各个问题集的向量中心；

或

针对每个问题集，对所述问题集中每个评价问题分别进行向量化处理，得到所述问题集中各个评价问题对应的问题向量；

针对每个问题集，计算所述问题集中各个问题向量的平均值，得到向量均值作为所述问题集的向量中心。

5.一种用于答复问题的模型训练装置，其特征在于，包括：

模型训练模块，用于采用更新后的所述各个预设问题组重新对所述目标深度学习模型进行训练，得到训练后的目标深度学习模型；

在将所述问题集确定为新的预设问题组之前，还包括：

6.根据权利要求5所述的用于答复问题的模型训练装置，其特征在于，所述目标深度学习模型通过以下模块预先训练好：

问题组获取模块，用于获取所述各个预设问题组，每个预设问题组包括多个预先收集的问题语义相同的历史问题；

问题配对模块，用于将获取到的各个所述历史问题两两配对，得到各个问题组合；

问题组合标记模块，用于将两个配对的历史问题属于同一预设问题组的问题组合的标记值记为1，并将两个配对的历史问题不属于同一预设问题组的问题组合的标记值记为0；

组合向量化模块，用于对所述各个问题组合分别进行向量化处理，得到所述各个问题组合对应的组合向量；

组合向量输入模块，用于将所有组合向量作为输入投入至所述目标深度学习模型，得到输出的各个样本概率值；

模型参数调整模块，用于以输出的各个样本概率值作为调整目标，调整所述目标深度学习模型的参数，以最小化得到的所述各个样本概率值与各个问题组合对应的标记值之间的误差；

训练完成确定模块，用于若所述各个样本概率值与各个问题组合对应的标记值之间的误差满足预设条件，则确定所述目标深度学习模型已训练好。

7.根据权利要求5或6所述的用于答复问题的模型训练装置，其特征在于，所述问题聚类模块包括：

初始簇确定单元，用于将所述各个评价问题确定为各个初始的簇；

簇距离计算单元，用于针对每个簇，分别计算所述簇与各个其它簇之间的距离；

簇合并单元，用于针对每个簇，将距离所述簇最近的一个其它簇与所述簇合并，得到一个新的簇；

触发单元，用于触发所述簇距离计算单元和所述簇合并单元，直到当前的各个簇满足预设的条件，将当前的各个簇确定为各个问题集。

8.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述用于答复问题的模型训练方法。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述用于答复问题的模型训练方法。