CN110909136B

CN110909136B - 满意度预估模型的训练方法、装置、电子设备及存储介质

Info

Publication number: CN110909136B
Application number: CN201910959770.1A
Authority: CN
Inventors: 李艾宇; 殷超
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2023-05-23
Anticipated expiration: 2039-10-10
Also published as: CN110909136A

Abstract

本申请公开了满意度预估模型的训练方法、装置、电子设备及存储介质，涉及人工智能领域。具体实现方案为：根据智能对话系统的线上日志，训练意图预测模型；基于训练好的所述意图预测模型，根据所述线上日志，训练满意度预估模型，其中，所述满意度预估模型的结构中包括有所述意图预测模型的结构。本申请的技术方案，能够克服现有技术的满意度预估模型缺乏同类意图的泛化能力的不足，通过训练好的意图预测模型来实现对满意度预估模型的训练，可以实现对同类意图的泛化能力，使得同类意图具有相似的满意度，进而能够有效地提高满意度预估模型的准确性。

Description

满意度预估模型的训练方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机应用技术领域，尤其涉及人工智能技术领域，具体涉及一种满意度预估模型的训练方法、装置、电子设备及存储介质。

背景技术

在智能对话系统中，用户输入的请求语句（即Query）的交互满意度可以通过Query满意度即Query本身的满意度、用户与智能对话系统的交互情况（如用户消费时间、用户打断等行为）以及资源的满足情况（如没有某歌曲的版权等情况）等方面来进行综合考量。其中Query满意度是Query的交互满意度的一个重要的考量指标。Query满意度预估是指在智能对话系统中，不考虑用户与系统交互的上下文，仅对用户的Query本身进行满意度预估的技术。

现有技术的Query满意度预估时，人工分析并标注Query的满意度，并利用已标注的满意度标注数据直接训练满意度预估模型。该训练方法是一种监督学习方法，将Query作为输入，以标注的满意度作为训练标签，从而训练该满意度预估模型。这种方式缺乏对同类意图的Query的泛化能力。例如训练数据中包含Query“给我设置一个闹钟”，但不包含如“帮我定一个提醒”等意图相似的Query，将会使满意度预估模型难以对后者准确预估。因此，现有的Query满意度预估模型预估的Query满意度的准确性较差。

发明内容

本申请提供了一种满意度预估模型的训练方法、装置、电子设备及存储介质，用于提高满意度预估的准确性。

一方面，本申请提供一种满意度预估模型的训练方法，包括：

根据智能对话系统的线上日志，训练意图预测模型；

基于训练好的所述意图预测模型，根据所述线上日志，训练满意度预估模型，其中，所述满意度预估模型的结构中包括有所述意图预测模型的结构。

可选地，在如上所述的方法中，根据智能对话系统的线上日志，训练意图预测模型，包括：

根据所述线上日志，生成数条第一训练数据和各所述第一训练数据对应的训练意图；

采用所述数条第一训练数据以及各所述第一训练数据对应的训练意图对所述意图预测模型进行训练。

可选地，在如上所述的方法中，根据所述线上日志，生成数条第一训练数据和各所述第一训练数据对应的训练意图，包括：

从所述线上日志中抽取预设时间周期内的日志数据；

从抽取的所述日志数据中获取多个请求语句；

并统计各所述请求语句的出现频次、包括的实体、意图以及出现所述意图的频次；

从所述多个请求语句中过滤出出现频次大于或者等于预设频次阈值的请求语句作为训练请求语句，共得到数个训练请求语句；

获取各所述训练请求语句的频次最高的意图；

将所述频次最高的意图作为对应的所述训练请求语句的训练意图；

将各所述训练请求语句中的实体采用预设的字符替换，作为相应的所述第一训练数据。

可选地，在如上所述的方法中，获取各所述训练请求语句的频次最高的意图之后，将所述频次最高的意图作为对应的所述训练请求语句的训练意图之前，所述方法还包括：

判断并确定频次最高的所述意图的频次与对应的所述训练请求语句的频次的比值是否大于预设比例阈值。

可选地，在如上所述的方法中，采用所述数条第一训练数据以及各所述第一训练数据对应的训练意图对所述意图预测模型进行训练，包括：

对于各所述第一训练数据，将所述第一训练数据进行分词，得到顺序排列的多个分词；

在所述第一训练数据的所述多个分词之前增加预设的起始符，构成所述第一训练数据对应的训练词序列；

将所述第一训练数据的所述训练词序列经过嵌入处理后，输入至第一多头注意力层；

将所述第一多头注意力层输出的所述起始符对应位置的输出结果，通过软最大化处理层，映射出所述第一训练数据的预测意图；

判断所述预测意图与所述训练意图是否一致；

若不一致调整所述意图预测模型的参数，使得所述预测意图与所述训练意图一致；

采用数条所述第一训练数据，按照上述方式不断地进行训练，直至所述预测意图与所述训练意图在连续的预设轮数的训练中始终一致，确定所述意图预测模型的参数，进而确定所述意图预测模型。

可选地，在如上所述的方法中，基于训练好的所述意图预测模型，根据所述线上日志，训练满意度预估模型，包括：

根据所述线上日志，生成数条第二训练数据和各所述第二训练数据对应的满意度；

根据各所述第二训练数据和对应的所述满意度，训练所述满意度预估模型中所述意图预测模型的结构之外的结构，进而训练所述满意度预估模型。

可选地，在如上所述的方法中，根据所述线上日志，生成数条第二训练数据和各所述第二训练数据对应的满意度，包括：

从所述线上日志中抽取预设时间周期内的日志数据；

从抽取的所述日志数据中获取多个请求语句；

并统计各所述请求语句的出现频次、包括的实体、以及所述请求语句的交互满意度；

将各所述训练请求语句的实体采用预设的字符替换，得到第二训练数据；

根据各所述第二训练数据的交互满意度为所述第二训练数据标注对应的所述满意度。

可选地，在如上所述的方法中，根据各所述第二训练数据的交互满意度为所述第二训练数据标注对应的所述满意度，包括：

若所述第二训练数据的所述交互满意度大于预设满意度阈值，则标注所述第二训练数据的满意度为1，否则标注所述第二训练数据的所述满意度为0。

可选地，在如上所述的方法中，根据各所述第二训练数据和对应的所述满意度，训练所述满意度预估模型中所述意图预测模型的结构之外的结构，进而训练所述满意度预估模型，包括：

对于各所述第二训练数据，将所述第二训练数据进行分词，得到顺序排列的多个分词；

在所述第二训练数据的所述多个分词之前增加预设的起始符，构成所述第二训练数据对应的训练词序列；

将所述第二训练数据的所述训练词序列经过嵌入处理后，输入至训练好的所述意图预测模型的结构中；

将所述意图预测模型的第一多头注意力层输出的全部输出结果输入至第二多头注意力层；

将所述第二多头注意力层对所述起始符对应位置的输出结果与所述意图预测模型的软最大化处理层输出的预测意图表达拼接在一起，并做线性变换和sigmoid变换后，输出最终的满意度预测结果；

判断所述满意度预测结果与标注的所述满意度是否一致；

若不一致，调整所述满意度预估模型中所述意图预测模型的结构之外的结构中的参数，使得所述满意度预测结果与标注的所述满意度趋于一致；

采用数条所述第二训练数据，按照上述方式不断地进行训练，直至所述满意度预测结果与标注的所述满意度在连续的预设轮数的训练中始终一致，确定所述满意度预估模型中所述意图预测模型的结构之外的结构中的参数，进而确定所述满意度预估模型。

另一方面，本申请还提供了一种满意度评估方法，将待评估的指定请求语句进行分词，得到顺序排列的多个分词；

在所述多个分词之前增加预设的起始符，构成所述指定请求语句对应的词序列；

将所述词序列输入至预先训练好的满意度预估模型中，获取所述指定请求语句的满意度；所述满意度预估模型的结构中包括有意图预测模型的结构，且训练时，先基于智能对话系统的线上日志训练所述意图预测模型；再基于训练好的所述意图预测模型，根据所述线上日志训练所述满意度预估模型。

再一方面，本申请还一种满意度预估模型的训练装置，包括：

意图模型训练模块，用于根据智能对话系统的线上日志，训练意图预测模型；

满意度模型训练模块，用于基于训练好的所述意图预测模型，根据所述线上日志，训练满意度预估模型，其中，所述满意度预估模型的结构中包括有所述意图预测模型的结构。…

又一方面，本申请还提供了一种满意度评估装置，包括：

分词模块，用于将待评估的指定请求语句进行分词，得到顺序排列的多个分词；

构成模块，用于在所述多个分词之前增加预设的起始符，构成所述指定请求语句对应的词序列；

评估模块，用于将所述词序列输入至预先训练好的满意度预估模型中，获取所述指定请求语句的满意度；所述满意度预估模型的结构中包括有意图预测模型的结构，且训练时，先基于智能对话系统的线上日志训练所述意图预测模型；再基于训练好的所述意图预测模型，根据所述线上日志训练所述满意度预估模型。

再另一方面，本申请还提供一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上任一项所述的方法。

再又一方面，本申请还提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上任一项所述的方法。

上述申请中的一个实施例具有如下优点或有益效果：先根据智能对话系统的线上日志，训练意图预测模型；再基于训练好的意图预测模型，根据线上日志，训练满意度预估模型，其中，满意度预估模型的结构中包括有意图预测模型的结构，能够克服现有技术的满意度预估模型缺乏同类意图的泛化能力的不足，通过训练好的意图预测模型来实现对满意度预估模型的训练，可以实现对同类意图的泛化能力，使得同类意图具有相似的满意度，进而能够有效地提高满意度预估模型的准确性。

进一步可选地，本申请在训练意图预测模型和满意度预估模型的时候，均在训练数据中对实体进行泛化，进一步提高了模型的泛化能力，能够有效地提高意图预测模型的准确性，进而能够进一步提高满意度预估模型的准确性。

进一步可选地，本申请中，在训练意图预测模型和满意度预估模型的时候，仅过滤出出现频次大于或者等于预设频次阈值的请求语句，生成第一训练数据和第二训练数据，以有效地提高训练数据的质量，从而有效地提高意图预测模型的准确性，进而能够进一步提高满意度预估模型的准确性。

另外，本申请中，由于采用包括有意图预测模型的结构的满意度预估模型，且训练时，先基于智能对话系统的线上日志训练意图预测模型；再基于训练好的意图预测模型，根据线上日志训练该满意度预估模型，可以有效地提高训练得到的该满意度预估模型的准确性。这样，可以使用该满意度预估模型来评估指定请求语句的满意度时，可以有效地保证评估的满意度的准确性。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的示意图；

图2为本申请实施例提供的意图预测模型的网络结构图。

图3为本申请实施例提供的满意度预估模型的网络结构图。

图4是根据本申请第二实施例的示意图；

图5是根据本申请第三实施例的示意图；

图6是用来实现本申请实施例的满意度预估模型的训练方法的电子设备的框图。

实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1为本申请的满意度预估模型的训练方法实施例的流程图。如图1所示，本实施例的满意度预估模型的训练方法，具体可以包括如下步骤：

S101、根据智能对话系统的线上日志，训练意图预测模型；

S102、基于训练好的意图预测模型，根据线上日志，训练满意度预估模型，其中，满意度预估模型的结构中包括有意图预测模型的结构。

本实施例的满意度预估模型的训练方法的执行主体为一满意度预估模型的训练装置，该满意度预估模型的训练装置可以为大型的电子实体，如计算机装置，也可以为采用软件集成的应用系统，部署在计算机设备上，能够对满意度预估模型进行训练。

本实施例的满意度预估模型的网络结构中还包括有意图预测模型的网络结构，即意图预测模型嵌套在满意度预估模型中，所以，本实施例中，需要先训练意图预测模型，然后基于训练好的意图预测模型，再训练满意度预估模型。在训练满意度预估模型的过程中，训练好的意图预测模型的结构参数是固定的，不再参与训练。

例如，本实施例的步骤S101“根据智能对话系统的线上日志，训练意图预测模型”，具体可以包括如下步骤：

（a1）根据线上日志，生成数条第一训练数据和各第一训练数据对应的训练意图；

（b1）采用数条第一训练数据以及各第一训练数据对应的训练意图对意图预测模型进行训练。

本实施例中，训练意图预测模型，采用的数条第一训练数据以及各第一训练数据对应的训练意图来实现训练。

具体地，步骤（a1）“根据线上日志，生成数条第一训练数据和各第一训练数据对应的训练意图”，具体可以包括如下步骤：

（a2）从线上日志中抽取预设时间周期内的日志数据；

本实施例的预设时间周期可以根据实际需求来设置，例如可以选取当前时刻之前的最近邻的一定时间长度如1个月、2个月、1季度、1年或者其他时间长度，以获取最新的日志数据，进行意图预测模型的训练。

（b2）从抽取的日志数据中获取多个Query；

具体地，可以抽取的日志数据中抽取所有的Query，抽取的Query为最近邻的预设时间周期内用户向智能对话系统发出的Query，基于抽取的多个Query可以生成有效地第一训练数据。

（c2）并统计各Query的出现频次、包括的实体、意图以及出现意图的频次；

基于步骤（b2）抽取的所有Query，可以基于抽取的所有Query的数据，统计每个Query的出现频次。然后，还可以参考预设的实体库，识别每个Query中出现的每个实体。再者，还可以根据每个Query的上下文、Query本身、Query对应的端口提供的服务能力、和/或后台提供服务的能力等等，分析每个Query的意图。并且，还可以基于对抽取的每个Query的分析，统计每个Query出现每种意图的频次。

（d2）从多个Query中过滤出出现频次大于或者等于预设频次阈值的Query作为训练Query，共得到数个训练Query；

考虑到不是每个Query都是有效地训练数据，可选地，本实施例中，可以从抽取的多个Query中过滤出出现频次大于或者等于预设频次阈值的Query作为训练Query，这样可以得到数个训练Query。

（e2）获取各训练Query的频次最高的意图；

（f2）将频次最高的意图作为对应的训练Query的训练意图；

基于上述抽取的每个Query的意图及意图的频次，可以取各训练Query的频次最高的意图作为该训练Query的训练意图。

（g2）将各训练Query中的实体采用预设的字符替换，作为相应的第一训练数据。

本实施例中，为了提高第一训练数据的泛化能力，将每个训练Query中的实体采用预设的字符替换。例如，某个训练Query为“播放周XX的稻香”，采用预设的字符“#”替换实体后，可以表示为“播放#的#”，可以得到相应的第一训练数据。

进一步可选地，在步骤（e2）“获取各训练Query的频次最高的意图”之后，步骤（f2）“将频次最高的意图作为对应的训练Query的训练意图”之前，还可以包括：判断频次最高的意图的频次与对应的训练Query的频次的比值是否大于预设比例阈值，若是，才确定该意图的该Query具有参考意义，可以用于训练意图预测模型，此时可以保留该训练Query，否则，过滤掉该训练Query和对应的训练意图。

具体地，步骤（b1）“采用数条第一训练数据以及各第一训练数据对应的训练意图对意图预测模型进行训练”，具体可以包括如下步骤：

（a3）对于各第一训练数据，将第一训练数据进行分词，得到顺序排列的多个分词；

本实施例的分词可以基于预设的分词策略来实现，不删除任何词，务必保留第一训练数据中的每个词。

（b3）在第一训练数据的多个分词之前增加预设的起始符，构成第一训练数据对应的训练词序列；

为了保证训练效果，本实施例中，可以在分词后的多个分词之前增加起始符，构成第一训练数据对应的训练词序列。例如，本实施例的起始符可以为<SOS>，或者也可以采用其他字符。

（c3）将第一训练数据的训练词序列经过嵌入（Embedding）处理后，输入至第一多头注意力层；

（d3）将第一多头注意力层输出的起始符对应位置的输出结果，通过软最大化（Softmax）处理层，映射出第一训练数据的预测意图；

（e3）判断预测意图与训练意图是否一致；若不一致；执行步骤（f3）；若一致，执行步骤（g3）；

（f3）调整意图预测模型的参数，使得预测意图与训练意图一致；

（g3）判断预测意图与训练意图在连续预设轮数的训练中是否始终一致；若不是，返回步骤（a3）继续开始训练，若一致，确定意图预测模型的参数，进而确定意图预测模型。

图2为本申请实施例提供的意图预测模型的网络结构图。如图2所示，本申请的意图预测模型的网络结构包括嵌入层（Embedding Layer）、第一多头注意力层（Multi HeadAttention Layer），其中第一多头注意力层中包括有多层（Layers）网络结构，第一多头注意力层的输出层以及Softmax处理层。

具体训练时，将每个第一训练数据的训练词序列输入至Embedding层，经过嵌入处理后，得到每个词对应的向量表达，输入至第一多头注意力层，该第一多头注意力层可以参考每个词语与同一训练数据中其他词的相关程度，来更新表达每个词，使得每个词的表达中包含有与同一训练数据中其他词语的相关程度的信息。所以对应地图2中输出有多个单元（Units），每个单元对应一个输入词处理后的表达结果。多个单元的排列顺序，与对应的训练词序列中对应的各词的排列顺序一致。即如图2所示，第一多头注意力层的输出层中第一个单元为起始符<SOS>对应的更新后的表达，后面顺序排列的四个单元，分别对应为“播放”、第一个“#”、“的”、第二个“#”的更新后的表达。本实施例中更新后的表达仍然为向量的形式。本实施例中，仅取起始符对应位置的输出结果，通过Softmax处理层，映射出相应的预测的意图。

在训练之前，对意图预测模型的参数初始化。然后随机抽取一条或者一组第一训练数据，分词并增加起始符后，得到相应的训练词序列，将相应的词序列输入至意图预测模型中，并获取意图预测模型的预测结果。然后判断预测的意图与已知的训练意图是否一致，若不一致，调整意图预测模型的参数，使得预测的意图与已知的训练意图一致。采用数条第一训练数据和对应的训练意图，按照上述方式不断地对意图预测模型进行训练，直至在连续预设轮数的训练中预测的意图与已知的训练意图始终一致；此时训练结束，确定意图预测模型的参数，进而确定意图预测模型。其中连续预设轮数可以为连续的50轮、100轮、200轮、或者其他轮数，在此不做限定。

例如，本实施例的步骤S102“基于训练好的意图预测模型，根据线上日志，训练满意度预估模型”，具体可以包括如下步骤：

（a4）根据线上日志，生成数条第二训练数据和各第二训练数据对应的满意度；

（b4）根据各第二训练数据和对应的满意度，训练满意度预估模型中意图预测模型的结构之外的结构，进而训练满意度预估模型。

本实施例中，训练满意度预估模型时，对于嵌套在其中的意图预测模型已经训练好，此时意图预测模型的结构部分的参数已经确定，采用数条第二训练数据和对应的满意度训练满意图预估模型时，仅训练满意图预估模型中意图预测模型的结构之外的结构。

具体地，步骤（a4）“根据线上日志，生成数条第二训练数据和各第二训练数据对应的满意度”，具体可以包括如下步骤：

（a5）从线上日志中抽取预设时间周期内的日志数据；

（b5）从抽取的日志数据中获取多个Query；

（c5）并统计各Query的出现频次、包括的实体、以及Query的交互满意度；

本实施例中，第二训练数据的生成过程与第一训练数据类似，也需要先从线上日志中抽取预设时间周期内的日志数据，并从抽取的日志数据中先抽取多个Query。另外，Query的出现频次和包括的实体的获取可以参考上述第一训练数据中的获取方式。本实施例中，Query的交互满意度可以由研发人员从Query的满意度、用户与智能对话系统的交互情况以及智能对话系统的资源满足情况等多方面来考量，并进行打分得到。

（d5）从多个Query中过滤出出现频次大于或者等于预设频次阈值的Query作为训练Query，共得到数个训练Query；

同理，由于频次小于预设频次阈值的Query，在实际场景中被使用的概率较低，参考价值不大，不用作为训练数据来训练。经过该步骤的处理，可以过滤出训练Query中频次小于预设频次阈值的Query，以提高训练数据的质量。

（e5）将各训练Query的实体采用预设的字符替换，得到第二训练数据；

同理，参考上述第一训练数据的处理方式，可以采用预设的字符“#”替换实体后，可以得到相应的第二训练数据。

（f5）根据各第二训练数据的交互满意度为第二训练数据标注对应的满意度。

例如，可以判断第二训练数据的交互满意度是否大于预设满意度阈值，若第二训练数据的交互满意度大于预设满意度阈值，则标注第二训练数据的满意度为1，否则标注第二训练数据的满意度为0。

经过上述处理，可以得到数条第二训练数据中每条第二训练数据及其满意度，以备进行后续满意度预估模型的训练。

进一步可选地，其中步骤（b4）“根据各第二训练数据和对应的满意度，训练满意度预估模型中意图预测模型的结构之外的结构，进而训练满意度预估模型”，具体可以包括如下步骤：

（a6）对于各第二训练数据，将第二训练数据进行分词，得到顺序排列的多个分词；

（b6）在第二训练数据的多个分词之前增加预设的起始符，构成第二训练数据对应的训练词序列；

（c6）将第二训练数据的训练词序列经过Embedding处理后，输入至训练好的意图预测模型的结构中；

（d6）将意图预测模型的第一多头注意力层输出的全部输出结果输入至第二多头注意力层；

（e6）将第二多头注意力层对起始符对应位置的输出结果与意图预测模型的Softmax处理层输出的预测意图表达拼接在一起，并做线性变换和sigmoid变换后，输出最终的满意度预测结果；

（f6）判断满意度预测结果与标注的满意度是否一致；若不一致，执行步骤（g6）；若一致，则执行步骤（h6）；

（g6）调整满意度预估模型中意图预测模型的结构之外的结构中的参数，使得满意度预测结果与标注的满意度趋于一致；

（h6）判断满意度预测结果与标注的满意度在连续的预设轮数的训练中是否始终一致，若不是，返回步骤（a6）继续开始训练，若一致，确定满意度预估模型中意图预测模型的结构之外的结构中的参数，进而确定满意度预估模型。

图3为本申请实施例提供的满意度预估模型的网络结构图。如图3所示，其中虚线框部分为图2所示实施例中的意图预测模型中实现部分的网络结构，这部分网络结构在训练满意度预估模型之前，已经预训练（Pretrained）好的。在训练满意度预估模型时，仅仅训练图3中虚线框之上的其他部分的网络结构。

如上述步骤（a6）-（c6）的实施，可以参考上述图2所示相关实施例的介绍，此时意图预测模型已经预训练好，具有确定的参数，此时可以直接在输出层输出每个输入的词的准确的表达。在满意度预估模型的训练中，将意图预测模型的第一多头注意力层输出的全部输出结果输入至第二多头注意力层；由第二注意力层再次经过多头注意力处理，使得每个词的表达，携带更多的同一训练数据中其他词的相关信息，并输出更新后的每个词的表达。同样，满意度预估模型的训练中，也仅取第二多头注意力层对起始符对应位置的输出结果，并将其与意图预测模型的Softmax层输出的预测意图表达拼接在一起，并做线性变换和sigmoid变换后，输出最终的满意度预测结果。本实施例中，最终的满意度预测结果为一个打分（Score）的形式，分值的高低表示满意度的程度。分值越高，满意度越高，反之亦然。

训练时，对于每一个第二训练数据，可以按照上述图3所示结构，预测一个满意度预测结果，然后判断该满意度预测结果与标注的满意度是否一致；若不一致，调整满意度预估模型中意图预测模型的结构之外的结构中的参数，使得满意度预测结果与标注的满意度趋于一致，直到在连续的预设轮数的训练中满意度预测结果与标注的满意度始终一致，训练才结束，才能确定满意度预估模型中意图预测模型的结构之外的结构中的参数，进而确定满意度预估模型。

本实施例的满意度预估模型的训练方法中，通过先根据智能对话系统的线上日志，训练意图预测模型；再基于训练好的意图预测模型，根据线上日志，训练满意度预估模型，其中，满意度预估模型的结构中包括有意图预测模型的结构，能够克服现有技术的满意度预估模型缺乏同类意图的泛化能力的不足，通过训练好的意图预测模型来实现对满意度预估模型的训练，可以实现对同类意图的泛化能力，使得同类意图具有相似的满意度，进而能够有效地提高满意度预估模型的准确性。

进一步可选地，本实施例在训练意图预测模型和满意度预估模型的时候，均在训练数据中对实体进行泛化，进一步提高了模型的泛化能力，能够有效地提高意图预测模型的准确性，进而能够进一步提高满意度预估模型的准确性。

进一步可选地，本实施例中，在训练意图预测模型和满意度预估模型的时候，仅过滤出出现频次大于或者等于预设频次阈值的Query，生成第一训练数据和第二训练数据，以有效地提高训练数据的质量，从而有效地提高意图预测模型的准确性，进而能够进一步提高满意度预估模型的准确性。

图4为本申请的满意度评估方法实施例的流程图。如图4所示，本实施例的满意度评估方法，具体可以包括如下步骤：

S201、将待评估的指定Query进行分词，得到顺序排列的多个分词；

S202、在多个分词之前增加预设的起始符，构成指定Query对应的词序列；

S203、将词序列输入至预先训练好的满意度预估模型中，获取指定Query的满意度；其中满意度预估模型的结构中包括有意图预测模型的结构，且训练时，先基于智能对话系统的线上日志训练意图预测模型；再基于训练好的意图预测模型，根据线上日志训练满意度预估模型。

本实施例的满意度评估方法的执行主体为满意度评估装置，该满意度评估装置可以为一电子实体，或者也可以采用软件集成的应用。

具体地，本实施例的满意度评估装置，先对待评估的指定Query进行分词，得到顺序排列的多个分词；并在多个分词之前增加预设的起始符，构成指定Query对应的词序列，详细可以参考上述图1所示实施例中，训练模型中的相类似步骤的处理过程，在此不再赘述。同理，本实施例中词序列中在多个分词之前增加的预设的起始符可以为<SOS>，或者也可以为其他符号，在此不做限定。

最后，将词序列输入至预先训练好的满意度预估模型中，该满意度预估模型可以输出该指定Query的满意度。其中本实施例的满意度预估模型的结构中可以包括有意图预测模型的结构，且满意度预估模型的训练过程可以参考上述图1所示实施例的记载，在此不再赘述。

本实施例的满意度评估方法，由于采用包括有意图预测模型的结构的满意度预估模型，且训练时，先基于智能对话系统的线上日志训练意图预测模型；再基于训练好的意图预测模型，根据线上日志训练该满意度预估模型，可以有效地提高训练得到的该满意度预估模型的准确性。这样，可以使用该满意度预估模型来评估指定Query的满意度时，可以有效地保证评估的满意度的准确性。

图5为本申请的满意度预估模型的训练装置实施例的结构图。如图5所示，本实施例的满意度预估模型的训练装置500，具体可以包括：

意图模型训练模块501用于根据智能对话系统的线上日志，训练意图预测模型；

满意度模型训练模块502用于基于训练好的意图预测模型，根据线上日志，训练满意度预估模型，其中，满意度预估模型的结构中包括有意图预测模型的结构。

进一步可选地，本实施例的满意度预估模型的训练装置500中，意图模型训练模块501，具体用于：

根据线上日志，生成数条第一训练数据和各第一训练数据对应的训练意图；

采用数条第一训练数据以及各第一训练数据对应的训练意图对意图预测模型进行训练。

进一步可选地，意图模型训练模块501，具体用于：

从线上日志中抽取预设时间周期内的日志数据；

从抽取的日志数据中获取多个Query；

并统计各Query的出现频次、包括的实体、意图以及出现意图的频次；

从多个Query中过滤出出现频次大于或者等于预设频次阈值的Query作为训练Query，共得到数个训练Query；

获取各训练Query的频次最高的意图；

将频次最高的意图作为对应的训练Query的训练意图；

将各训练Query中的实体采用预设的字符替换，作为相应的第一训练数据。

进一步可选地，意图模型训练模块501，具体用于：

判断并确定频次最高的意图的频次与对应的训练Query的频次的比值是否大于预设比例阈值。

进一步可选地，意图模型训练模块501，具体用于：

对于各第一训练数据，将第一训练数据进行分词，得到顺序排列的多个分词；

在第一训练数据的多个分词之前增加预设的起始符，构成第一训练数据对应的训练词序列；

将第一训练数据的训练词序列经过Embedding处理后，输入至第一多头注意力层；

将第一多头注意力层输出的起始符对应位置的输出结果，通过Softmax处理层，映射出第一训练数据的预测意图；

判断预测意图与训练意图是否一致；

若不一致调整意图预测模型的参数，使得预测意图与训练意图一致；

采用数条第一训练数据，按照上述方式不断地进行训练，直至预测意图与训练意图在连续的预设轮数的训练中始终一致，确定意图预测模型的参数，进而确定意图预测模型。

另外，可选地，本实施例的满意度预估模型的训练装置500中，满意度模型训练模块502具体用于：

根据线上日志，生成数条第二训练数据和各第二训练数据对应的满意度；

根据各第二训练数据和对应的满意度，训练满意度预估模型中意图预测模型的结构之外的结构，进而训练满意度预估模型。

进一步可选地，满意度模型训练模块502具体用于：

从线上日志中抽取预设时间周期内的日志数据；

从抽取的日志数据中获取多个Query；

并统计各Query的出现频次、包括的实体、以及Query的交互满意度；

将各训练Query的实体采用预设的字符替换，得到第二训练数据；

根据各第二训练数据的交互满意度为第二训练数据标注对应的满意度。

进一步可选地，满意度模型训练模块502具体用于：

若第二训练数据的交互满意度大于预设满意度阈值，则标注第二训练数据的满意度为1，否则标注第二训练数据的满意度为0。

进一步可选地，满意度模型训练模块502具体用于：

对于各第二训练数据，将第二训练数据进行分词，得到顺序排列的多个分词；

在第二训练数据的多个分词之前增加预设的起始符，构成第二训练数据对应的训练词序列；

将第二训练数据的训练词序列经过Embedding处理后，输入至训练好的意图预测模型的结构中；

将意图预测模型的第一多头注意力层输出的全部输出结果输入至第二多头注意力层；

将第二多头注意力层对起始符对应位置的输出结果与意图预测模型的Softmax处理层输出的预测意图表达拼接在一起，并做线性变换和sigmoid变换后，输出最终的满意度预测结果；

判断满意度预测结果与标注的满意度是否一致；

若不一致，调整满意度预估模型中意图预测模型的结构之外的结构中的参数，使得满意度预测结果与标注的满意度趋于一致；

采用数条第二训练数据，按照上述方式不断地进行训练，直至满意度预测结果与标注的满意度在连续的预设轮数的训练中始终一致，确定满意度预估模型中意图预测模型的结构之外的结构中的参数，进而确定满意度预估模型。

本实施例的满意度预估模型的训练装置500，通过采用上述模块实现满意度预估模型的训练，与上述相关方法实施例的实现原理以及实现效果相同，详细可以参考上述相关方法实施例的相关记载，在此不再赘述。

图6为本申请的满意度评估装置实施例的结构图。如图6所示，本实施例的满意度评估装置600，具体可以包括：

分词模块601用于将待评估的指定Query进行分词，得到顺序排列的多个分词；

构成模块602用于在分词模块601得到的多个分词之前增加预设的起始符，构成指定Query对应的词序列；

评估模块603用于将构成模块602得到的词序列输入至预先训练好的满意度预估模型中，获取指定Query的满意度；满意度预估模型的结构中包括有意图预测模型的结构，且训练时，先基于智能对话系统的线上日志训练意图预测模型；再基于训练好的意图预测模型，根据线上日志训练满意度预估模型。

本实施例的满意度评估装置600，通过采用上述模块实现满意度评估，与上述相关方法实施例的实现原理以及实现效果相同，详细可以参考上述相关方法实施例的相关记载，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图6所示，是根据本申请实施例的满意度预估模型的训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置（诸如，耦合至接口的显示设备）上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作（例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统）。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的满意度预估模型的训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的满意度预估模型的训练方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的满意度预估模型的训练方法对应的程序指令/模块（例如，附图5所示的相关模块）。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的满意度预估模型的训练方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据满意度预估模型的训练的电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至满意度预估模型的训练的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

满意度预估模型的训练方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与满意度预估模型的训练的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置（例如，LED）和触觉反馈装置（例如，振动电机）等。该显示设备可以包括但不限于，液晶显示器（LCD）、发光二极管（LED）显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC（专用集成电路）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序（也称作程序、软件、软件应用、或者代码）包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置（例如，磁盘、光盘、存储器、可编程逻辑装置（PLD）），包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

另外，可选地，图6所示的电子设备还可以为实现本申请实施例的满意度评估方法的电子设备的框图。对应用于实现图4所示的满意度评估方法，详细参考上述相关实施例记载，在此不再赘述。

根据本申请实施例的技术方案，先根据智能对话系统的线上日志，训练意图预测模型；再基于训练好的意图预测模型，根据线上日志，训练满意度预估模型，其中，满意度预估模型的结构中包括有意图预测模型的结构，能够克服现有技术的满意度预估模型缺乏同类意图的泛化能力的不足，通过训练好的意图预测模型来实现对满意度预估模型的训练，可以实现对同类意图的泛化能力，使得同类意图具有相似的满意度，进而能够有效地提高满意度预估模型的准确性。

进一步可选地，本申请中，在训练意图预测模型和满意度预估模型的时候，仅过滤出出现频次大于或者等于预设频次阈值的Query，生成第一训练数据和第二训练数据，以有效地提高训练数据的质量，从而有效地提高意图预测模型的准确性，进而能够进一步提高满意度预估模型的准确性。

根据本申请实施例的技术方案，由于采用包括有意图预测模型的结构的满意度预估模型，且训练时，先基于智能对话系统的线上日志训练意图预测模型；再基于训练好的意图预测模型，根据线上日志训练该满意度预估模型，可以有效地提高训练得到的该满意度预估模型的准确性。这样，可以使用该满意度预估模型来评估指定Query的满意度时，可以有效地保证评估的满意度的准确性。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种满意度预估模型的训练方法，其特征在于，包括：

根据智能对话系统的线上日志，训练意图预测模型；

基于训练好的所述意图预测模型，根据所述线上日志，训练满意度预估模型，其中，所述满意度预估模型的结构中包括有所述意图预测模型的结构；在训练所述满意度预估模型的过程中，训练好的所述意图预测模型的结构参数固定，不再参与训练；

根据智能对话系统的线上日志，训练意图预测模型，包括：

采用所述数条第一训练数据以及各所述第一训练数据对应的训练意图对所述意图预测模型进行训练；

其中，采用所述数条第一训练数据以及各所述第一训练数据对应的训练意图对所述意图预测模型进行训练，包括：

判断所述预测意图与所述训练意图是否一致；

若不一致调整所述意图预测模型的参数，使得所述预测意图与所述训练意图一致。

2.根据权利要求1所述的方法，其特征在于，根据所述线上日志，生成数条第一训练数据和各所述第一训练数据对应的训练意图，包括：

从所述线上日志中抽取预设时间周期内的日志数据；

从抽取的所述日志数据中获取多个请求语句；

获取各所述训练请求语句的频次最高的意图；

3.根据权利要求2所述的方法，其特征在于，获取各所述训练请求语句的频次最高的意图之后，将所述频次最高的意图作为对应的所述训练请求语句的训练意图之前，所述方法还包括：

4.根据权利要求1-3任一所述的方法，其特征在于，基于训练好的所述意图预测模型，根据所述线上日志，训练满意度预估模型，包括：

5.根据权利要求4所述的方法，其特征在于，根据所述线上日志，生成数条第二训练数据和各所述第二训练数据对应的满意度，包括：

从所述线上日志中抽取预设时间周期内的日志数据；

从抽取的所述日志数据中获取多个请求语句；

6.根据权利要求5所述的方法，其特征在于，根据各所述第二训练数据的交互满意度为所述第二训练数据标注对应的所述满意度，包括：

7.根据权利要求5所述的方法，其特征在于，根据各所述第二训练数据和对应的所述满意度，训练所述满意度预估模型中所述意图预测模型的结构之外的结构，进而训练所述满意度预估模型，包括：

判断所述满意度预测结果与标注的所述满意度是否一致；

8.一种满意度评估方法，其特征在于，包括：

将待评估的指定请求语句进行分词，得到顺序排列的多个分词；

将所述词序列输入至预先训练好的满意度预估模型中，获取所述指定请求语句的满意度；所述满意度预估模型的结构中包括有意图预测模型的结构，所述满意度预估模型采用如上权利要求1-7任一所述的训练方法进行训练。

9.一种满意度预估模型的训练装置，其特征在于，包括：

满意度模型训练模块，用于基于训练好的所述意图预测模型，根据所述线上日志，训练满意度预估模型，其中，所述满意度预估模型的结构中包括有所述意图预测模型的结构；在训练所述满意度预估模型的过程中，训练好的所述意图预测模型的结构参数固定，不再参与训练；

所述意图模型训练模块，具体用于：

采用所述数条第一训练数据以及各所述第一训练数据对应的训练意图对所述意图预测模型进行训练，包括：

判断所述预测意图与所述训练意图是否一致；

10.根据权利要求9所述的装置，其特征在于，所述意图模型训练模块，具体用于：

从所述线上日志中抽取预设时间周期内的日志数据；

从抽取的所述日志数据中获取多个请求语句；

获取各所述训练请求语句的频次最高的意图；

11.根据权利要求10所述的装置，其特征在于，所述意图模型训练模块，还用于：

12.根据权利要求9-11任一所述的装置，其特征在于，所述满意度模型训练模块，具体用于：

13.根据权利要求12所述的装置，其特征在于，所述满意度模型训练模块，具体用于：

从所述线上日志中抽取预设时间周期内的日志数据；

从抽取的所述日志数据中获取多个请求语句；

14.根据权利要求13所述的装置，其特征在于，所述满意度模型训练模块，具体用于：

15.根据权利要求13所述的装置，其特征在于，所述满意度模型训练模块，具体用于：

判断所述满意度预测结果与标注的所述满意度是否一致；

16.一种满意度评估装置，其特征在于，包括：

评估模块，用于将所述词序列输入至预先训练好的满意度预估模型中，获取所述指定请求语句的满意度；所述满意度预估模型的结构中包括有意图预测模型的结构，所述满意度预估模型采用如上权利要求9-15任一所述的满意度预估模型的训练装置训练得到。

17.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法，或者执行权利要求8所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法，或者执行权利要求8所述的方法。