CN114691838A

CN114691838A - 聊天机器人搜索推荐模型的训练、推荐方法及电子设备

Info

Publication number: CN114691838A
Application number: CN202011617062.9A
Authority: CN
Inventors: 苏国曦; 胡文辉; 郑敏; 吴华挚; 孙立军; 谭俊; 卓彩霞; 肖献骏; 陈蕾宇; 邵韵潮; 黄世欢; 陈钊佳; 冼恩圳; 郭骏逸; 姚德生; 陈炎森; 农嘉锴; 王绮媛; 张强; 钟夏瑜
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Internet Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Internet Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2022-07-01
Anticipated expiration: 2040-12-30
Also published as: CN114691838B

Abstract

本申请公开了一种聊天机器人搜索推荐模型的训练方法、推荐方法及电子设备、存储介质，包括：基于多个用户对应的历史行为信息、搜索关键词和候选聊天机器人描述信息，得到对应的初始特征数据；将用户对应的多个历史正向行为作为正样本标签，历史非正向行为作为负样本标签，与初始特征数据进行特征融合，得到每个用户对应的第一特征数据；将第一特征数据分别输入到DBN网络和FM网络，并基于DBN网络的最后一层输出的第二特征数据和FM网络输出的第三特征数据生成第四特征数据；将第四特征数据输入输出层，以对输出层、DBN网络和FM网络的参数进行训练，得到收敛的聊天机器人搜索推荐模型。本申请可以避免过拟合，提高训练模型泛化能力。

Description

聊天机器人搜索推荐模型的训练、推荐方法及电子设备

技术领域

本申请涉及人工智能技术领域，尤其涉及一种聊天机器人搜索推荐模型的训练方法、聊天机器人搜索推荐方法及电子设备、计算机可读存储介质。

背景技术

随着人工智能技术的快速发展，聊天机器人(Chatbot)逐渐普及。Chatbot为5G消息的一种形态，终端用户可以与聊天机器人在5G消息原生对聊页面中进行消息交互。同时，用户可以通过搜索发现需要的Chatbot服务。

针对聊天机器人搜索推荐场景，需要综合用户的各种行为结果进行最终预测。现有技术针对每个行为的预测需要单独训练学习模型，各个不同行为对应的单一模型必须使用不同的训练数据集，因此模型训练时使用的训练数据量有限，因此非常容易出现过拟合问题，降低模型泛化能力。

如何避免聊天机器人搜索推荐模型训练过程中存在的过拟合，是目前亟待解决的技术问题。

发明内容

本申请实施例的目的是提供一种聊天机器人搜索推荐模型的训练方法、聊天机器人搜索推荐方法及电子设备、计算机可读存储介质，用以解决现有推荐模型泛化能力低的问题。

为了解决上述技术问题，本说明书是这样实现的：

第一方面，提供了一种聊天机器人搜索推荐模型的训练方法，包括：基于多个用户对应的历史行为信息、搜索关键词和多个候选聊天机器人对应的候选聊天机器人描述信息，得到所述历史行为信息、搜索关键词和候选聊天机器人描述信息各自对应的初始特征数据；

将用户对应的多个历史正向行为作为正样本标签，历史非正向行为作为负样本标签，与所述初始特征数据进行特征融合，得到每个用户对应的第一特征数据，其中正向行为类型包括用户点击、交互和关注候选聊天机器人；

将所述第一特征数据分别输入到DBN网络和FM网络，并基于所述DBN网络的最后一层输出的第二特征数据和所述FM网络输出的第三特征数据生成第四特征数据；

将所述第四特征数据输入输出层，以对所述输出层、所述DBN网络和FM网络的参数进行训练，得到收敛的聊天机器人搜索推荐模型，其中所述输出层包括与用户多个正向行为一一对应的多个转移矩阵，所述输出层输出所述多个转移矩阵对应的各个候选机器人对用户多个正向行为的预测值及所述初始特征数据中各个特征组合的预测值。

可选的，所述候选聊天机器人描述信息包括候选聊天机器人的名称、地址、简介、编号、分类、点击热度、交互次数和关注次数；

所述历史行为信息包括用户ID、用户搜索、点击、投诉、关注候选聊天机器人、与候选聊天机器人交互的历史行为、用户所有历史行为的次数和用户历史正向行为的次数。

可选的，基于多个用户对应的历史行为信息、搜索关键词和多个候选聊天机器人对应的候选聊天机器人描述信息，得到所述历史行为信息、搜索关键词和候选聊天机器人描述信息各自对应的初始特征数据，包括：

将所述历史行为信息、搜索关键词和候选聊天机器人描述信息中包括的原始文本信息转换为词向量数据特征的初始特征数据，所述原始文本信息包括候选聊天机器人的名称、地址、简介和用户搜索关键词；

将所述历史行为信息、搜索关键词和候选聊天机器人描述信息中包括的原始离散数据转换为稀疏数据的初始特征数据，所述原始离散数据特征包括候选聊天机器人编号、分类和用户ID、用户的历史行为；

将所述历史行为信息、搜索关键词和候选聊天机器人描述信息中包括的数值特征作为所述初始特征数据，所述数值特征包括搜索评分、候选聊天机器人的点击热度、用户所有历史行为的次数和用户历史正向行为的次数。

可选的，将用户对应的多个历史正向行为作为正样本标签，历史非正向行为作为负样本标签，与所述初始特征数据进行特征融合，得到每个用户对应的第一特征数据，包括：

将每个用户对应的历史行为信息、搜索关键词和候选聊天机器人描述信息中包括的数值特征与转换后的词向量数据特征、离散数据特征进行特征拼接得到所述第一特征数据。

可选的，基于所述DBN网络的最后一层输出的第二特征数据和所述FM网络输出的第三特征数据生成第四特征数据，包括：将所述第二特征数据和所述第三特征数据进行特征拼接得到所述第四特征数据。

可选的，所述DBN网络的最后一层为全连接层，将所述第四特征数据输入输出层，以对所述输出层、所述DBN网络和FM网络的参数进行训练，得到收敛的聊天机器人搜索推荐模型，包括：

利用所述第四特征数据对所述DBN网络和所述输出层进行训练，直至所述DBN网络和所述输出层的参数收敛，输出各个候选机器人对用户多个正向行为的预测值；

利用所述第四特征数据对所述FM网络进行训练，直至所述FM网络的参数收敛，输出所述初始特征数据的各个特征组合的预测值；

将所述各个候选机器人对用户多个正向行为的预测值和所述初始特征数据的各个特征组合的预测值拼接作为所述聊天机器人搜索推荐模型的输出预测值。

可选的，所述多个用户对应的历史行为信息、搜索关键词和多个候选聊天机器人对应的候选聊天机器人描述信息为获取的真实用户数据，利用所述真实用户数据训练的初始的DBN网络、FM网络和输出层为利用预训练特征数据进行预训练后得到的，利用所述预训练特征数据对所述DBN网络、FM网络和输出层进行预训练的步骤与利用所述真实用户数据对所述DBN网络、FM网络和输出层进行训练的步骤相同，所述方法还包括：

生成所述预训练特征数据以作为用于所述预训练的初始特征数据的步骤，其中，所述预训练特征数据为基于部分的所述真实用户数据生成的无标签的多个用户对应的历史行为信息、搜索关键词和多个候选聊天机器人对应的候选聊天机器人描述信息。

可选的，生成所述预训练特征数据，包括：

获取预定数量不同维度的真实聊天机器人描述信息特征并进行组合，生成无标签的聊天机器人描述信息，所述聊天机器人描述信息特征包括聊天机器人的名称、地址、简介、编号、分类、点击热度、交互次数和关注次数中的至少一项；

采样用户的行为类型、聊天机器人编号，并与随机生成的用户ID、用户所有行为的次数和用户正向行为的次数拼接得到所述用户历史行为信息，所述用户的行为类型包括用户搜索、点击、投诉、关注候选聊天机器人以及与候选聊天机器人交互中的至少一项；

对生成的所述聊天机器人描述信息进行分词处理，得到对应的搜索关键词列表。

第二方面，提供了一种聊天机器人搜索推荐方法，包括：

接收用户输入的搜索关键词；

获取多个候选聊天机器人对应的描述信息、所述用户对应的历史行为信息，并与所述用户输入的搜索关键词拼接得到对应的输入特征数据；

将所述输入特征数据输入聊天机器人搜索推荐模型中；

通过所述聊天机器人搜索推荐模型输出各个候选机器人对所述用户的多个正向行为的预测值和所述输入特征中各个特征组合的预测值，所述用户的正向行为类型包括所述用户点击、交互和关注各个候选聊天机器人；

显示各个候选机器人对所述用户的多个正向行为的预测值排序以及基于所述输入特征中各个特征组合的预测值生成的推荐理由。

第三方面，提供了一种电子设备，包括处理器和与所述存储器电连接的处理器，所述存储器存储有可在所述处理器运行的计算机程序，该计算机程序被该处理器执行时实现如第一方面或第二方面所述的方法的步骤。

第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质上存储计算机程序，该计算机程序被处理器执行时实现如第一方面或第二方面所述的方法的步骤。

在本申请实施例中，通过将对应用户多个正向行为的历史行为信息、候选聊天机器人描述信息和搜索关键词融合作为输入特征，对DBN网络、FM网络和输出层进行训练，通过多个子任务对应的训练数据共享一个底层的特征网络结构，参数在优化的时候会被所有子任务的训练数据影响，从而在所有任务收敛的时候，得到的聊天机器人搜索推荐模型的泛化能力更好。本申请可以避免过拟合，提高训练模型泛化能力。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本申请实施例的聊天机器人搜索推荐模型的训练方法的流程示意图。

图2是本申请实施例的聊天机器人描述信息示意图。

图3是本申请实施例的用户行为信息示意图。

图4是本申请实施例的搜索信息示意图。

图5是本申请实施例的嵌入特征转换示意图。

图6是本申请实施例的聊天机器人搜索模型训练/推荐方法模型图。

图7是本申请实施例的聊天机器人搜索推荐方法的流程示意图。

图8是本申请的电子设备的结构方框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。本申请中附图编号仅用于区分方案中的各个步骤，不用于限定各个步骤的执行顺序，具体执行顺序以说明书中描述为准。

为了解决现有技术中存在的问题，本申请实施例提供一种聊天机器人搜索推荐模型的训练方法，图1是本申请实施例的聊天机器人搜索推荐模型的训练方法的流程示意图。

如图1所示，包括以下步骤：

步骤102，基于多个用户对应的历史行为信息、搜索关键词和多个候选聊天机器人对应的候选聊天机器人描述信息，得到所述历史行为信息、搜索关键词和候选聊天机器人描述信息各自对应的初始特征数据。

可选的，候选聊天机器人描述信息包括候选聊天机器人的名称、地址、简介、编号、分类、点击热度、交互次数和关注次数。

图2显示了本申请实施例的聊天机器人描述信息，如图2所示，聊天机器人描述信息主要至少由图2所示的信息拼接而成。例如某条聊天机器人的描述信息为名称“中国移动”、地址“北京市”、简介“中国移动是…”、编号“10086”、分类“金融”、热度“1”、交互度“1”、关注度“1”，则表示该聊天机器人主要负责与搜索关于北京市中国移动10086金融方面的内容的用户进行聊天互动。

其中聊天机器人名称、地址、简介等信息为词向量形式，编号、分类、热度(聊天机器人点击率，量化为1-10十种级别)为one-hot编码特征，交互度(聊天机器人交互次数)、关注度(聊天机器人被关注次数)为数值型特征。

可选的，所述历史行为信息包括用户ID、用户搜索、点击、投诉、关注候选聊天机器人、与候选聊天机器人交互的历史行为、用户所有历史行为的次数和用户历史正向行为的次数。

业务场景中，用户常见的行为类型有：搜索聊天机器人、点击某聊天机器人获取详情、与某聊天机器人交互、投诉/关注某聊天机器人等。图3是本申请实施例的用户行为信息示意图，如图3所示，用户行为信息由包括用户行为序列、用户ID、行为时间、位置、用户活跃度与关注度等信息拼接成为某用户行为信息，其中用户行为序列由用户的行为类型、聊天机器人编号拼接得到。

用户的搜索关键词例如为用户输入的与聊天机器人描述信息有关的词语，例如聊天机器人的名称、地址、简介等，以用于根据用户输入的搜索关键词推荐聊天机器人。作为训练样本，搜索关键词还包括部分与业务场景下的聊天机器人描述信息不相关的词语。

在一个实施例中，还可以根据搜索关键词与聊天机器人描述信息中的关键词，计算出相关关键词的匹配度评分，以及根据用户行为信息中的位置与聊天机器人描述信息中的位置，计算出二者之间的距离评分。并由搜索关键词、匹配度评分、距离评分组成用户的搜索信息，如图4所示，图4是本申请实施例的搜索信息示意图。

在一个实施例中，可选的，基于多个用户对应的历史行为信息、搜索关键词和多个候选聊天机器人对应的候选聊天机器人描述信息，得到所述历史行为信息、搜索关键词和候选聊天机器人描述信息各自对应的初始特征数据，包括：

图5是本申请实施例的嵌入特征转换示意图，如图5所示，对于候选聊天机器人描述信息、搜索信息和用户行为信息按数据类型进行不同类别的特征域分域处理得到对应的分域嵌入特征，包括：

a)文本嵌入特征：对聊天机器人名称、简介、地址等原始文本信息，采用大语料word2vec模型进行嵌入特征转换，得到对应特征域的词向量数据特征。

b)离散值嵌入特征：对候选聊天机器人的编号、分类、用户ID、用户历史行为序列等离散值原始数据，采用独热(one-hot)编码转换为稀疏数值数据后，再通过Keras深度学习的嵌入方法(item2vec)，得到离散型数据的低维特征表示，即离散值嵌入特征。

c)行为序列嵌入特征：针对具体用户ID，提取该用户最近最多10次历史行为嵌入特征，每一项行为嵌入特征拼接对应的聊天机器人编号嵌入特征，对拼接好的特征进行均值池化操作，得到该用户的行为序列域嵌入特征。

d)数值特征：关注度、搜索评分、候选聊天机器人的热度、用户所有历史行为的次数和用户历史正向行为的次数等数值类特征不需转换为嵌入特征，直接拼接在上述三类分域嵌入特征后。

步骤104，将用户对应的多个历史正向行为作为正样本标签，历史非正向行为作为负样本标签，与所述初始特征数据进行特征融合，得到每个用户对应的第一特征数据，其中正向行为类型包括用户点击、交互和关注候选聊天机器人。非正向行为类别例如包括拉黑、投诉候选聊天机器人，或者无任何与聊天机器人互动的行为。

可选的，在步骤104中，将用户对应的多个历史正向行为作为正样本标签，历史非正向行为作为负样本标签，与所述初始特征数据进行特征融合，得到每个用户对应的第一特征数据，包括：将每个用户对应的历史行为信息、搜索关键词和候选聊天机器人描述信息中包括的数值特征与转换后的词向量数据特征、离散数据特征进行特征拼接得到所述第一特征数据。

即，所有生成的样本数据的各类原始数据经过上述预处理后拼接成分域嵌入特征，作为训练聊天机器人搜索推荐模型的输入样本集。

步骤106，将所述第一特征数据分别输入到DBN网络和FM网络，并基于所述DBN网络的最后一层输出的第二特征数据和所述FM网络输出的第三特征数据生成第四特征数据。

可选的，在步骤106中，基于所述DBN网络的最后一层输出的第二特征数据和所述FM网络输出的第三特征数据生成第四特征数据，包括：将所述第二特征数据和所述第三特征数据进行特征拼接得到所述第四特征数据。

步骤108，将所述第四特征数据输入输出层，以对所述输出层、所述DBN网络和FM网络的参数进行训练，得到收敛的聊天机器人搜索推荐模型，其中所述输出层包括与用户多个正向行为一一对应的多个转移矩阵，所述输出层输出所述多个转移矩阵对应的各个候选机器人对用户多个正向行为的预测值及所述初始特征数据中各个特征组合的预测值。

在本申请实施例中，训练聊天机器人搜索推荐模型用到深度信念网络(DeepBelief Network，DBN)网络和因子分解机网络(factor Machine，FM)。如图6所示，DBN网络由自下而上的三层RBM组成，FM网络与DBN网络的参数均为多任务间共享。多任务也即融合了多个子任务，例如点击、交互、关注等用户的多个正向行为对应的预测子任务，将步骤104中对候选聊天机器人信息、用户输入的搜索关键词及用户历史行为信息对应的数据特征转换得到的嵌入特征作为样本分别输入到DBN网络和FM网络，其中每个样本中同时包括用户多个正向行为的特征，并用于聊天机器人搜索推荐模型训练。FM网络预测的结果与DBN网络的最后一层隐层特征拼接在一起，并输入作为最后一层输出层的特征，输出层特征与各个子任务输出之间为不同享的全连接层。

可选的，在步骤108中，DBN网络的最后一层为全连接层，将所述第四特征数据输入输出层，以对所述输出层、所述DBN网络和FM网络的参数进行训练，得到收敛的聊天机器人搜索推荐模型，包括：利用所述第四特征数据对所述DBN网络和所述输出层进行训练，直至所述DBN网络和所述输出层的参数收敛，输出各个候选机器人对用户多个正向行为的预测值；利用所述第四特征数据对所述FM网络进行训练，直至所述FM网络的参数收敛，输出所述初始特征数据的各个特征组合的预测值；将所述各个候选机器人对用户多个正向行为的预测值和所述初始特征数据的各个特征组合的预测值拼接作为所述聊天机器人搜索推荐模型的输出预测值。

下面，对本申请使用嵌入特征作为输入、对应该次用户正向行为类型(点击、关注、交互)作为训练标签，对DBN网络以及FM网络参数分别基于随机梯度下降法(SGD)进行有监督的离线迭代训练的步骤进行展开说明。

(1)DBN有监督训练方法

本申请实施例的DBN网络融合了多任务的学习方法，三个子学习任务(点击、交互、关注)底层共享同一个DBN网络模型，本申请从最终目标函数(损失函数)出发，重新计算各任务对DBN网络模型的SGD优化公式。本申请中输出函数及目标函数(损失函数)如下：

p＝α·y_C+β·y_I+γ·y_A

其中，p为模型最终预测结果，代表模型综合考虑三项子任务的预测结果后，对用户本次搜索返回的某候选聊天机器人可能产生正向行为的概率预测值。y＝sigmoid(W_final·(h_L|y_FM))表示各子任务DBN网络的最后一层隐层向量拼接FM网络的输出，为输出层的输入向量h|y_FM，再通过与输出层参数矩阵W_final相乘以及Sigmoid激活函数后得到的各子任务模型输出结果。这里，输出层看作是DBN网络的一个层，与DBN网络作为一个整体进行训练。

输出层参数矩阵W_final＝(W_L|w_FM)为DBN网络的输出层拼接FM网络输出结果对应的输出参数向量w_FM＝[w_C，w_I，w_A]，w_FM为模型的超参数，用于调整各子任务的FM输出结果影响子任务输出结果的权重。α为点击任务影响最终输出结果的权重，β为交互任务影响最终输出结果的权重，γ为关注任务影响最终输出结果的权重，同样为超参数，限制α+β+γ＝1，以确保最终结果仍为[0，1]区间的结果。logloss(y，Y)为各子任务模型输出与真实训练标签之间的损失函数，本申请中，例如采取logloss损失函数，但本申请不局限该具体实施例。

由上式通过贪婪算法可以使用各子任务模型在学习时的梯度对DBN网络进行迭代更新：

W_l←W_l-αH_l-1 ^TU_l

对每一层l，如果是最后一层：

则：U_l＝H_l.*(1-H_l)y^(t)

否则：U_l＝H_l.*(1-H_l)U_l+1W_l+1 ^T

其中，W_l为当前层权值矩阵，α为当前子任务(例如点击任务)影响最终结果的权重，当训练交互任务时，该值替换为β，H_l-1为下一层隐层变量值，上标T表示转置，U_l为当前层误差的反向传播值，根据不同情况计算。本申请中多任务的权重影响因子通过梯度传播到共享网络的更新率参数中，可以直观理解为对最终结果影响越大的任务，DBN网络的收敛也会偏向其最优极值点。

(2)FM网络有监督训练

本申请实施例采用特征分域的FM网络模型(FFM，Field-aware FM)来进行特征交叉建模，网络模型预测的输出可以表示为：

其中，x为输入嵌入特征向量，x_i为输入嵌入特征向量的第i个元素，w_i为第i个输入元素的权值，

是隐向量矩阵V中第i维特征对应第f_j个域学习的隐向量，f_j是第j个特征所属的域，

代表向量点积。根据逻辑回归的损失函数及分析，可以得出FFM的目标函数为

上述公式左侧为L2范式对模型参数隐向量矩阵V的复杂度的约束，λ为约束项的权值，右侧为使用logloss函数计算的损失函数，m为样本数，

为对应样本的预测值，y_i为对应第i个样本的真实值，exp()为以自然对数为底的指数函数，log()为以自然对数为底的对数函数。

本申请实际应用中，每次推荐给用户10个聊天机器人，用户对推荐列表中点击/关注/交互三种正向行为对应的标签值均为1,无行为的聊天机器人则标记为-1。

对于每一个样本的每一对特征组合都要首先计算以下梯度向量：

g_j1,f2＝·V_j1,f2+·V_j2,f1

g_j2,f1＝·V_j2,f1+·V_j1,f2

其中λ为目标函数中约束项的权值，κ为目标函数右侧部分的梯度，即：

计算从第一个样本到当前样本(第d个)以来的累积梯度平方和：

使用下式迭代更新FFM模型隐变量V直至收敛：

上述DBN网络和FM网络可以利用共享的嵌入特征为各自独立训练，直至参数收敛，得到收敛的聊天机器人搜索推荐模型。

为了进一步提高聊天机器人搜索推荐模型的泛化能力，避免出现过拟合问题，在一个实施例中还提出了利用少量的真实用户数据，生成大量预训练的样本数据对初始的DBN网络和FM网络进行无监督的预训练，再得到具有一定泛化能力的聊天机器人搜索推荐模型之后，再利用真实用户数据作为样本进行有监督的DBN网络和FM网络训练。

可选的，上述步骤102中，多个用户对应的历史行为信息、搜索关键词和多个候选聊天机器人对应的候选聊天机器人描述信息为获取的真实用户数据，利用所述真实用户数据训练的初始的DBN网络、FM网络和输出层为利用预训练特征数据进行预训练后得到的，利用所述预训练特征数据对所述DBN网络、FM网络和输出层进行预训练的步骤与利用所述真实用户数据对所述DBN网络、FM网络和输出层进行训练的步骤相同。

所述方法还包括：生成所述预训练特征数据以作为用于所述预训练的初始特征数据的步骤，其中，所述预训练特征数据为基于部分的所述真实用户数据生成的无标签的多个用户对应的历史行为信息、搜索关键词和多个候选聊天机器人对应的候选聊天机器人描述信息。

可选的，生成所述预训练特征数据，包括：

(1)生成聊天机器人描述信息：

生成的非真实聊天机器人描述信息包括的特征维度与图2相同，每个维度的特征只需人工列举出10条不同的数据，即可组合产生10^7＝1000000条不相同的聊天机器人描述信息的无标签数据。实际应用中采取人工列举更多的名称、地址、简介等描述信息，并对全样本空间进行随机采样以增强预训练模型的泛化能力。

(2)生成用户历史行为信息：

生成的非真实用户历史行为信息包括的特征维度与图3相同，本申请根据以下表1的状态转移概率矩阵，通过随机采样的方式生成100-200个用户行为序列，每个序列长度为5-10(随机决定)的非真实行为数据用于预训练。

表1

概率	搜索	点击	交互	投诉	关注
						搜索	0.2	0.8	0	0	0
点击	0.2	0	0.65	0.05	0.1
						交互	0.15	0	0.7	0.05	0.1
投诉	0.6	0.4	0	0	0
						关注	0.4	0.3	0.4	0	0

例如当前状态为交互、查表可得用户有P(交互|交互)＝0.7，即70％的概率继续交互，有P(关注|交互)＝0.1，即10％的概率转移至关注状态。

(3)生成搜索信息：

生成的非真实搜索信息包括的特征维度与图4相同，使用上述列举生成的聊天机器人名称、地址、简介等信息，使用停用词过滤以及分词算法得到的分词结果，作为所有可能的搜索关键词列表。例如根据聊天机器人描述信息“和包是中国移动面向用户提供的一项综合性移动支付服务,用户开立手机支付账户并预存资金(充值)后,可使用支付账户完成缴话费、网上购物、水电燃气账单支付等远程消费。”，可以通过分词算法列举出以下关键词：“和包、中国、中国移动、用户、提供、移动、移动支付、服务…”。根据关键词列表，穷举其1-3阶的所有可能组合作为无标签搜索关键词训练数据。若某段描述信息可以通过分词算法列举出100个关键词，则可以生成C(100,1)+C(100,2)+C(100,3)＝166750种相关搜索词。实际应用中，采取混入50％的不相关搜索词再通过组合生成用于无监督预训练的搜索词库。

生成搜索词库后，对上述生成的所有聊天机器人描述信息，每一条对应在搜索词库中随机抽取10-20条搜索关键词进行拼接，并由例如Elasticsearch搜索引擎根据搜索词库与聊天机器人描述信息计算出相关搜索评分，包括关键词匹配度评分和用户与聊天机器人地理位置的距离评分，然后拼接生成搜索信息。

然后，使用上述生成的用户历史行为信息、搜索信息、聊天机器人描述信息等数据分别经过数据预处理，处理过程与上述步骤102及图5生成对应的分域嵌入特征过程一样，这里不再赘述，然后生成用于预训练的嵌入特征。

所有生成的样本数据的各类原始数据经过上述预处理后拼接成分域嵌入特征作为DBN网络的输入，预训练数据样本总数为N1*N2*N3*R，其中N1为生成的候选聊天机器人描述信息的数量，实际应用中取8-12万，N2为生成搜索信息的数量，实际应用取1-2千，N3为生成的用户行为信息的数量，实际应用中取1-2千，R为随机采样比例，实际应用中例如取0.001，则共有N1*N2*N3*R生成的样本数用于包括DBN网络、FM网络和输出层的聊天机器人搜索推荐模型预训练。

使用上述生成的嵌入特征作为输入、对应该次用户行为类型(点击、关注、交互)作为训练样本标签，对本申请的多任务DBN网络、FM网络及输出层的参数分别基于随机梯度下降法进行无监督的离线迭代训练。

在本申请的一个实施例中，还提供了一种聊天机器人搜索推荐方法，图7为本申请实施例的聊天机器人搜索推荐方法的流程示意图。

如图7所示，包括以下步骤：

步骤202，接收用户输入的搜索关键词；

步骤204，获取多个候选聊天机器人对应的描述信息、所述用户对应的历史行为信息，并与所述用户输入的搜索关键词拼接得到对应的输入特征数据；

步骤206，将所述输入特征数据输入聊天机器人搜索推荐模型中；

步骤208，通过所述聊天机器人搜索推荐模型输出各个候选机器人对所述用户的多个正向行为的预测值和所述输入特征中各个特征组合的预测值，所述用户的正向行为类型包括所述用户点击、交互和关注各个候选聊天机器人；

步骤210，显示各个候选机器人对所述用户的多个正向行为的预测值排序以及基于所述输入特征中各个特征组合的预测值生成的推荐理由。

在上述预训练和真实用户数据训练完毕，得到收敛的聊天机器人搜索推荐模型则可以部署上线，通过接收用户搜索关键词，拼接候选聊天机器人描述信息、用户历史行为信息，得到预测的嵌入特征后通过模型逐层往上计算得到用户对待排序列表的各个候选聊天机器人的预测点击率、交互率以及关注率。输出的各子任务预测率将用于后续推荐理由生成以及综合排序结果输出，下文中将展开说明。

在步骤210中，对于FM网络输出的预测值，提取FM网络中对预测贡献最大的特征，综合各项子任务的预测输出，经过预定义的规则，转换生成对应的推荐理由。

具体的，本申请根据对各项子任务的预测输出以及FM网络算法对各特征域的预测值的排序结果，预定义以下推荐理由生成规则，仅列举部分主要规则：

首先判断预测综合得分，例如综合得分大于等于0.05(经验值)时才会生成第一条推荐理由。

对三个子任务模型输出的预测值排序，若预测关注率最高，则生成推荐理由：“猜你可能想关注它”；若预测交互率最高，则生成推荐理由：“猜你想与它交互”。

其次判断FM网络的输出结果，例如

(经验值)时才会生成第二条推荐理由。

对FM模型的各域特征线性加权结果及交叉特征线性加权结果同样进行排序，取其中值最高的一项，生成其对应的推荐理由。举例如：

若距离域特征特征结果最高，则生成推荐理由：“离你较近，仅有xxx米”；若用户行为域特征结果最高，则生成推荐理由：“最近经常交互”；若热度域特征结果最高，则生成推荐理由：“最近热门”；

若某一项交叉特征的结果最高，则生成的推荐理由根据两者交叉生成，如用户位置域与交互度域交叉特征的结果最高，则生成推荐理由：“最近xx地区交互度高”。

例如对某次用户输入的搜索关键词，某候选聊天机器人的最终综合得分为y＝0.03(点击率预测)+0.05(交互率预测，最高值)+0.01(关注率预测)＝0.09，FM网络的输出预测为0.12＝0.01(距离域特征结果)+0.05(用户历史行为域特征结果，最高值)+0.04(关键词匹配域结果)+0.01(其他域)，则返回推荐理由为：“猜你想与它交互/最近经常交互”。

可以理解，由于本申请对候选聊天机器人的综合得分为点击、交互、关注三个子任务预测率的加权结果，某项子任务的预测率越高，则表示模型对该项行为预测发生的概率越大，其在最终结果中占的比重也越大，其作为推荐理由的可信度也自然越高。

同样，如下所示，FM网络的预测输出中，

也可以等效理解为FM网络的预测输出为各域特征的加权线性组合之和以及各域交叉特征的加权线性组合之和，某项结果越大，则表示FM网络对该项特征的预测有正向行为(在FM网络的训练中，点击、交互、关注均为正向行为)的可能性越大，其作为推荐理由的可信度自然也越高。

{线性加权和}{交叉项线性加权}

通过加权综合多任务的聊天机器人推荐模型对点击率、关注率、交互率的预测结果，对所有召回列表内的聊天机器人进行综合排序(各子任务对最终排序结果的影响权重会作为超参数在模型上线时进行持续地迭代调优)，并将FM网络返回的推荐理由拼接在返回请求内返回至用户。

用户得到本申请的搜索推荐列表后，记录用户对该批次返回结果的点击、交互以及关注等行为，可作为下一次聊天机器人推荐模型离线训练时的样本数据。

本申请通过将对应用户多个正向行为的历史行为信息、候选聊天机器人描述信息和搜索关键词融合作为输入特征，对DBN网络、FM网络和输出层进行训练，通过多个子任务对应的训练数据共享一个底层的特征网络结构，参数在优化的时候会被所有子任务的训练数据影响，从而在所有任务收敛的时候，得到的聊天机器人搜索推荐模型的泛化能力更好。

此外，本申请使用大量生成的无标签数据进行预训练，可以加快聊天机器人搜索推荐模型训练时梯度下降的收敛速度，从而容易获得低模型误差和低泛化误差的聊天机器人搜索推荐模型，降低因未初始化或初始化不当导致的梯度消失或者梯度爆炸问题。同时，使用无监督预训练可以显著减少训练聊天机器人搜索推荐模型所需的标签量，大大提升学习效率，可以解决现有深度学习技术模型的训练极度依赖大量的标签数据，尤其是在业务启动阶段，缺乏用户数据量的情况下非常容易导致过拟合的问题。

本申请通过FM网络输出的各个特征组合的预测值，综合各项子任务对应的各个候选机器人对用户多个正向行为的预测值，经过预定义的规则，转换生成对应的推荐理由。针对业务聊天机器人搜索推荐场景，本申请可以生成易解释、易信服的推荐理由并返回给终端用户展示，解决了现有技术模型性能仅依赖于深度网络学习出来的高阶特征，可解释性较差、无法快速生成推荐理由的技术问题。

可选的，本申请实施例还提供一种电子设备，图8是本申请的电子设备的结构方框图。

如图8所示，电子设备2000包括存储器2200和与所述存储器2200电连接的处理器2400，所述存储器2200存储有可在所述处理器2400运行的计算机程序，所述计算机程序被所述处理器执行时实现上述任意一种聊天机器人搜索推荐模型的训练方法或聊天机器人搜索推荐方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述任意一种聊天机器人搜索推荐模型的训练方法或聊天机器人搜索推荐方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-OnlyMemory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种聊天机器人搜索推荐模型的训练方法，其特征在于，包括：

基于多个用户对应的历史行为信息、搜索关键词和多个候选聊天机器人对应的候选聊天机器人描述信息，得到所述历史行为信息、搜索关键词和候选聊天机器人描述信息各自对应的初始特征数据；

2.如权利要求1所述的方法，其特征在于，

所述候选聊天机器人描述信息包括候选聊天机器人的名称、地址、简介、编号、分类、点击热度、交互次数和关注次数；

3.如权利要求1所述的方法，其特征在于，基于多个用户对应的历史行为信息、搜索关键词和多个候选聊天机器人对应的候选聊天机器人描述信息，得到所述历史行为信息、搜索关键词和候选聊天机器人描述信息各自对应的初始特征数据，包括：

4.如权利要求3所述的方法，其特征在于，将用户对应的多个历史正向行为作为正样本标签，历史非正向行为作为负样本标签，与所述初始特征数据进行特征融合，得到每个用户对应的第一特征数据，包括：

5.如权利要求1所述的方法，其特征在于，基于所述DBN网络的最后一层输出的第二特征数据和所述FM网络输出的第三特征数据生成第四特征数据，包括：将所述第二特征数据和所述第三特征数据进行特征拼接得到所述第四特征数据。

6.如权利要求5所述的方法，其特征在于，所述DBN网络的最后一层为全连接层，将所述第四特征数据输入输出层，以对所述输出层、所述DBN网络和FM网络的参数进行训练，得到收敛的聊天机器人搜索推荐模型，包括：

7.如权利要求1至6中任一项所述的方法，其特征在于，所述多个用户对应的历史行为信息、搜索关键词和多个候选聊天机器人对应的候选聊天机器人描述信息为获取的真实用户数据，利用所述真实用户数据训练的初始的DBN网络、FM网络和输出层为利用预训练特征数据进行预训练后得到的，利用所述预训练特征数据对所述DBN网络、FM网络和输出层进行预训练的步骤与利用所述真实用户数据对所述DBN网络、FM网络和输出层进行训练的步骤相同，

所述方法还包括：

8.如权利要求7所述的方法，其特征在于，生成所述预训练特征数据，包括：

9.一种聊天机器人搜索推荐方法，其特征在于，包括：

接收用户输入的搜索关键词；

将所述输入特征数据输入聊天机器人搜索推荐模型中；

10.一种电子设备，其特征在于，包括：存储器和与所述存储器电连接的处理器，所述存储器存储有可在所述处理器运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至9中任一项所述的方法的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的方法的步骤。