CN109241256A

CN109241256A - 对话处理方法、装置、计算机设备和可读存储介质

Info

Publication number: CN109241256A
Application number: CN201810948061.9A
Authority: CN
Inventors: 刘路; 石莹莹
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-08-20
Filing date: 2018-08-20
Publication date: 2019-01-18
Anticipated expiration: 2038-08-20
Also published as: CN109241256B

Abstract

本申请提出一种对话处理方法、装置、计算机设备和可读存储介质，其中，方法包括：获取对话上文；根据对话上文关联的目标对象，将对话上文分类至目标对象的结构树中，以在结构树中确定与对话上文匹配的分类节点；其中，分类节点对应目标对象的功能，各分类节点之间的层级关系是根据对应功能的层级关系确定的；确定分类节点对应的对话生成模型的准召率；根据准召率，确定是否采用对话生成模型生成对话上文对应的对话下文。该方法能够实现在人力成本不变的情况下，提升智能回复占比，减少流入人工处理的数据量。并且，可以提升对话下文与对话上文之间的逻辑性，保证输出的对话下文的准确性，以及降低接入成本，提升该方法的适用性。

Description

对话处理方法、装置、计算机设备和可读存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种对话处理方法、装置、计算机设备和可读存储介质。

背景技术

随着软件的不断发展，用户口碑对软件越来越重要，其中，可以从软件内部的用户反馈数据或者软件外部的用户舆情数据中，获取用户口碑。目前，对于大量的用户舆情数据，可以通过机器人智能回复或者人工手动回复，智能回复占比较低，以及增加了运营人力成本。

相关技术中，可以基于相似搜索词(Query)检索的智能机器人对话系统和基于槽点填充的智能机器人对话系统，对用户舆情数据进行处理，输出对应的答复。其中，基于相似Query检索的智能机器人对话系统是：在语料库中检索与用户问题最相近的问题，而后输出上述最相近的问题对应的答案；基于槽点填充的智能机器人对话系统是：通过定义问题模板以及词槽，识别用户意图，当用户问题匹配到模板中槽点时，进行回复。其中，词槽是满足用户对话意图时的关键信息或限定条件，可以理解为用户需要提供的筛选条件。例如，在查询天气时，词槽可以是地点和时间。

然而第一种方式，需要大量语料训练模型；第二种方式，需要人工配置足够多的问题模板，因此，上述两个系统均存在使用成本较高以及适用性较低的问题。

发明内容

本申请提出一种对话处理方法、装置、计算机设备和可读存储介质，以实现在人力成本不变的情况下，提升智能回复占比，减少流入人工处理的数据量。并且，根据准召率，采用合适的处理策略，对对话上文进行处理，可以提升对话下文与对话上文之间的逻辑性，保证输出的对话下文的准确性。此外，通过挖掘结构树的方式，对对话上文进行分类，可以实现提供少量对话样本即可完成结构树的初始化与算法优化，降低接入成本，提升该方法的适用性，用于解决现有技术中使用成本较高以及适用性较低的技术问题。

本申请一方面实施例提出了一种对话处理方法，包括：

获取对话上文；

根据所述对话上文关联的目标对象，将所述对话上文分类至所述目标对象的结构树中，以在所述结构树中确定与所述对话上文匹配的分类节点；其中，所述分类节点对应所述目标对象的功能，各分类节点之间的层级关系是根据对应功能的层级关系确定的；

确定所述分类节点对应的对话生成模型的准召率；

根据所述准召率，确定是否采用所述对话生成模型生成所述对话上文对应的对话下文。

本申请实施例的对话处理方法，通过获取对话上文，而后根据对话上文关联的目标对象，将对话上文分类至目标对象的结构树中，以在结构树中确定与对话上文匹配的分类节点，接着确定分类节点对应的对话生成模型的准召率，最后根据准召率，确定是否采用对话生成模型生成对话上文对应的对话下文。由此，可以实现在人力成本不变的情况下，提升智能回复占比，减少流入人工处理的数据量。并且，根据准召率，采用合适的处理策略，对对话上文进行处理，可以提升对话下文与对话上文之间的逻辑性，保证输出的对话下文的准确性。此外，通过挖掘结构树的方式，对对话上文进行分类，可以实现提供少量对话样本即可完成结构树的初始化与算法优化，降低接入成本，提升该方法的适用性。

本申请又一方面实施例提出了一种对话处理装置，包括：

获取模块，用于获取对话上文；

分类模块，用于根据所述对话上文关联的目标对象，将所述对话上文分类至所述目标对象的结构树中，以在所述结构树中确定与所述对话上文匹配的分类节点；其中，所述分类节点对应所述目标对象的功能，各分类节点之间的层级关系是根据对应功能的层级关系确定的；

确定模块，用于确定所述分类节点对应的对话生成模型的准召率；

处理模块，用于根据所述准召率，确定是否采用所述对话生成模型生成所述对话上文对应的对话下文。

本申请实施例的对话处理装置，通过获取对话上文，而后根据对话上文关联的目标对象，将对话上文分类至目标对象的结构树中，以在结构树中确定与对话上文匹配的分类节点，接着确定分类节点对应的对话生成模型的准召率，最后根据准召率，确定是否采用对话生成模型生成对话上文对应的对话下文。由此，可以实现在人力成本不变的情况下，提升智能回复占比，减少流入人工处理的数据量。并且，根据准召率，采用合适的处理策略，对对话上文进行处理，可以提升对话下文与对话上文之间的逻辑性，保证输出的对话下文的准确性。此外，通过挖掘结构树的方式，对对话上文进行分类，可以实现提供少量对话样本即可完成结构树的初始化与算法优化，降低接入成本，提升该方法的适用性。

本申请又一方面实施例提出了一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如本申请前述实施例提出的对话处理方法。

本申请又一方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本申请前述实施例提出的对话处理方法。

本申请又一方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行如本申请前述实施例提出的对话处理方法。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例一所提供的对话处理方法的流程示意图；

图2为本申请实施例二所提供的对话处理方法的流程示意图；

图3为本申请实施例三所提供的对话处理方法的流程示意图；

图4为本申请实施例中的频繁树示意图；

图5为本申请实施例中的结构树示意图；

图6为本申请实施例四所提供的对话处理方法的流程示意图；

图7为本申请实施例的应用场景示意图；

图8为本申请实施例五所提供的对话处理方法的流程示意图；

图9为本申请实施例六所提供的对话处理方法的流程示意图；

图10为本申请实施例的算法流程示意图；

图11为本申请实施例七所提供的对话处理装置的结构示意图；

图12为本申请实施例八所提供的对话处理装置的结构示意图；

图13示出了适于用来实现本申请实施方式的示例性计算机设备的框图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

随着软件的不断发展，用户口碑对软件越来越重要，其中，可以从软件内部的用户反馈数据或者软件外部的用户舆情数据中，获取用户口碑。目前，对于大量的用户舆情数据，可以通过机器人智能回复或者人工手动回复。

例如，根据百度反馈舆情产品统计，2018年“百度”相关月均舆情量1105984，日均3.6w，根据2018年3月的统计，上述舆情数据中，使用智能回复的回复占比为19.13％，而工人回复的回复占比为1-19.13％＝80.87％，如果按照每人日均运营处理200条舆情数据计算,则每天处理舆情数据需要的总人力数为：[36000*(1-19.13％)]/200＝146人。

因此，在不增加现有运营人力的情况下，如何提高智能回复占比，对舆情数据进行智能处理至关重要。

相关技术中，可以基于相似Query检索的智能机器人对话系统和基于槽点填充的智能机器人对话系统，对用户舆情数据进行处理，输出对应的答复。

其中，基于相似Query检索的智能机器人对话系统，需要不断积累语料，来提升模型回复的准确率，从而导致使用成本较高。

基于槽点填充的智能机器人对话系统，需要人工配置足够多的问题模板，当用户问题匹配到模板中槽点时，进行回复，同样导致使用成本较高。

本申请主要针对现有技术中使用成本较高以及适用性较低的技术问题，提出一种对话处理方法。

下面参考附图描述本申请实施例的对话处理方法、装置、计算机设备和可读存储介质。

图1为本申请实施例一所提供的对话处理方法的流程示意图。

本申请实施例的对话处理方法，可以由本申请实施例提供的对话处理装置执行，该对话处理装置可以被配备在任何电子设备或者计算机设备中，以使该电子设备或者计算机设备实现对话处理功能。

其中，电子设备可以为手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。

如图1所示，该对话处理方法包括以下步骤：

步骤101，获取对话上文。

本申请实施例中，对话上文为用户输入的。例如，终端设备或者计算机设备的显示界面可以提供有语音输入控件，用户可以通过语音输入控件，语音输入对话上文，或者，显示界面可以提供有文本输入框，用户可以通过文本输入框，手动输入对话上文。例如，用户输入的对话上文可以为“离线地图如何使用？”

终端设备或者计算机设备中可以设置有监听器，以对用户触发语音输入控件或者文本输入框的操作进行监听，当监听器监听到用户触发语音输入控件或者文本输入框时，本申请实施例的对话处理装置可以获取用户输入的对话上文。

或者，本申请实施例的对话处理装置，还可以基于网络爬虫等技术，在线获取未回复的对话上文，对此不作限制。

举例而言，用户可以在某个网站、论坛、软件上发表评论或者发出提问，可以将用户输入的内容作为对话上文，当用户提交或发表对话上文后，本申请实施例的对话处理装置，可以基于网络爬虫技术，在线获取未回复的对话上文。

步骤102，根据对话上文关联的目标对象，将对话上文分类至目标对象的结构树中，以在结构树中确定与对话上文匹配的分类节点；其中，分类节点对应目标对象的功能，各分类节点之间的层级关系是根据对应功能的层级关系确定的。

本申请实施例中，目标对象是与对话上文关联的对象，例如可以为软件。可以基于语义识别的方式，确定与对话上文关联的目标对象。例如，当对话上文为“离线地图如何使用？”时，目标对象可以为导航类软件。或者，当对话上文为“账号密码忘记了怎么办？”时，目标对象可以为需要账号和密码登录的软件，例如为社交类软件、支付类软件、游戏类软件等。

其中，目标对象具有对应的结构树，用于组织展现目标对象的知识结构。在智能机器人对话系统中，目标对象的结构树为目标对象的功能结构树，该结构树中具有不同的分类节点，不同的分类节点对应目标对象不同的功能，各分类节点之间的层级关系可以根据对应功能的层级关系来确定。

作为一种可能的实现方式，针对不同对象，可以预先根据每个对象对应的功能，确定该对象对应的结构树，在确定与所述对话上文关联的目标对象后，可以将所述对话上文分类至所述目标对象的结构树中，例如，可以基于分类器，将对话上文分类至目标对象的结构树中，从而可以在所述结构树中确定与所述对话上文匹配的分类节点。

步骤103，确定分类节点对应的对话生成模型的准召率。

本申请实施例中，准召率包括准确率和召回率。

本申请实施例中，每个分类节点均具有对应的对话生成模型，对于目标对象，标记对话样本数量为Total，对于分类节点i，分类准确的对话样本数据量定义为TP_i，分类错误的对话样本数量定义为FP_i，原属于分类节点i，而被分类到其他分类节点的对话样本数量定义为FN_i，则分类节点i对应的对话生成模型的准确率P_i可以通过下述公式确定：

分类节点i对应的对话生成模型的召回率R_i可以通过下述公式确定：

目标对象对应的整体的准确率P_Total可以通过下述公式确定：

目标对象对应的整体的召回率R_Total可以通过下述公式确定：

步骤104，根据准召率，确定是否采用对话生成模型生成对话上文对应的对话下文。

本申请实施例中，当准召率不同时，可以采用不同的处理策略对对话上文进行处理，得到对话上文。

具体地，当准召率较高时，表明对话生成模型的精度较高，输出的准确性较高，此时，可以采用对话生成模型生成对话上文对应的对话下文，而当准召率较低时，表明对话生成模型的精度较低，输出的准确性较低，此时，不宜采用对话生成模型生成对话上文对应的对话下文，例如，可以采用人工对对话下文进行处理，生成对话下文，或者，可以查询与对话上文相似的标准问答，而后根据标准问答生成对话下文，比如可以预先针对结构树中的每个节点，配置其对应的标准问答，从而当准召率较低时，可以查询与对话上文相似的标准问答，而后根据标准问答生成对话下文，对此不作限制。

本申请实施例中，当算法初始化时，大部分的提问，即对话上文，可以由人工客服进行回复，通过迭代结构树中每个分类节点对应的对话生成模型，可以提升对话生成模型输出的准确性，提升算法处理效果。随着对话生成模型的输出的不断增多，以及根据标准问答生成对话下文的数量不断增多，可以提升智能回复占比。也就是说，本申请中，通过挖掘结构树的方式，对对话上文进行分类，可以实现提供少量样本即可完成结构树的初始化与算法优化，降低接入成本，提升该方法的适用性。

作为一种可能的实现方式，本申请实施例中，可以预先划分不同的准召率区间，在不同的准召率区间，可以采用不同的处理策略，对对话上文进行处理，以获得对话下文。下面结合图2，对上述过程进行详细说明。

图2为本申请实施例二所提供的对话处理方法的流程示意图。

如图2所示，在图1所示实施例的基础上，步骤104具体可以包括以下子步骤：

步骤201，查询分类节点适用的准召率区间。

本申请实施例中，可以预先划分不同的准召率区间，例如可以采用从大到小的第一阈值、第二阈值和第三阈值对准召率取值范围划分得到四个准召率区间，其中，0≤第三阈值<第二阈值<第一阈值≤1，即准召率区间为：[0,第三阈值)、[第三阈值,第二阈值)、[第二阈值,第一阈值)、[第一阈值,100％]。

其中，第一阈值、第二阈值和第三阈值可以为电子设备或者计算机设备的内置程序预先设置的，或者可以由用户进行设置，对此不作限制。例如，当第一阈值、第二阈值和第三阈值分别为90％、70％、30％时，则准召率区间为[0,30％)、[30％,70％)、[70％,90％)、[90％,100％]。

本申请实施例中，在确定分类节点对应的对话生成模型的准召率时，可以查询预先划分的准召率区间，确定分类节点适用的准召率区间。举例而言，当分类节点对应的对话生成模型的准召率为85％时，可以确定分类节点适用的准召率区间为：[70％,90％)。

步骤202，根据对话生成模型的准召率所属的准召率区间，确定采用准召率区间对应的处理策略对对话上文进行处理。

其中，处理策略包括：采用对话生成模型对对话上文进行处理，以生成对话下文；以及，查询与所述对话上文相似的标准问答，根据所述标准问答生成所述对话下文。

本申请实施例中，当对话生成模型的准召率所属的准召率区间不同时，对应的处理策略可以不同。例如，当准召率较高时，表明对话生成模型的精度较高，输出的准确性较高，此时，可以采用对话生成模型生成对话上文对应的对话下文，而当准召率较低时，表明对话生成模型的精度较低，输出的准确性较低，此时，不宜采用对话生成模型生成对话上文对应的对话下文，可以查询与所述对话上文相似的标准问答，根据所述标准问答生成所述对话下文。

例如，在准召率大于或等于第一阈值时，即准召率∈[第一阈值,100％]，此时，对话生成模型的精度较高，输出的准确性较高，因此，可以采用对话生成模型生成对话上文对应的对话下文。

在准召率小于第一阈值，且大于或等于第二阈值时，即准召率∈[第二阈值,第一阈值)，此时，可以查询与所述对话上文相似的标准问答，根据所述标准问答生成所述对话下文。

例如，本申请中，可以预先针对结构树中的每个节点，配置其对应的标准问答。在准召率∈[第二阈值,第一阈值)，可以查询与对话上文相似的标准问答，而后根据所述标准问答生成所述对话下文。

在准召率小于第二阈值，且大于或等于第三阈值时，即准召率∈[第三阈值,第二阈值)，此时，可以根据对话上文生成对应的分类节点，将对话上文对应的分类节点增加到结构树中。也就是说，可以对未能回复的对话上文进行挖掘，发现新的问题和新的功能，以完善结构树。

在准召率小于第三阈值时，即准召率∈[0，第三阈值]，此时，可以推荐人工对对话上文处理，也就是说，对于准确率比较差，且以上三种方式均不能解决的问题，可以由人工进行处理。

作为一种示例，准召率区间、对应的处理策略、回复的数据占比可以如表1所示。

表1准召率区间以及对应的处理策略

本申请实施例中，当算法初始化时，大部分的提问，即对话上文，可以由人工客服进行回复，通过迭代结构树中每个分类节点对应的对话生成模型，可以提升对话生成模型输出的准确性，提升算法处理效果，随着对话生成模型的输出的不断增多，以及根据标准问答生成对话下文的数量不断增多，可以提升智能回复占比。

本申请实施例的对话处理方法，通过查询分类节点适用的准召率区间，而后根据对话生成模型的准召率所属的准召率区间，确定采用准召率区间对应的处理策略对对话上文进行处理。由此，可以针对不同的准召率，采取对应的处理策略对对话上文进行处理，提升对话下文与对话上文之间的逻辑性，保证输出的对话下文的准确性。此外，针对不同的准召率，采取对应的处理策略，可以实现人力成本不变的情况下，提高智能回复的占比，减少流入人工处理的数据量。

作为一种可能的实现方式，参见图3，在图1所示实施例的基础上，步骤102具体可以包括以下子步骤：

步骤301，对结构树中各分类节点，获取对应的频繁树；其中，频繁树，是预先对属于相应分类节点对应功能的对话样本进行频繁项挖掘，将各频繁项作为频繁树节点得到的。

作为一种可能的实现方式，针对每个分类节点，可以对属于该分类节点对应功能的对话样本进行频繁项挖掘，将各频繁项作为频繁树节点，得到该分类节点对应的频繁树。

步骤302，对对话上文进行分词，将与分词匹配的频繁项所对应的频繁树节点作为目标节点。

本申请实施例中，可以利用相关技术中的分词处理算法，对对话上文进行分词处理，得到各个分词。例如，当对话上文为“账号密码忘记了怎么办？”时，对对话上文进行分词处理，得到的分词可以为：账号、密码、忘记。在得到分词后，可以将分词与各频繁项进行匹配，而后将与分词匹配的频繁项所对应的频繁树节点作为目标节点。

仍以上述例子示例，与分词匹配的频繁项所对应的频繁树可以如图4所示，则频繁树中的各个节点可以为目标节点。

步骤303，根据目标节点在频繁树中的层级，以及目标节点对应频繁项在对话样本中出现频次占比，确定对话上文与频繁树对应的分类节点的匹配度。

可选地，标记目标节点对应频繁项在对话样本中出现频次占比为weight，目标节点在频繁树中的层级为k，则对话上文与频繁树对应的分类节点的匹配度score为：

仍以上述例子示例，当对话上文为“账号密码忘记了怎么办？”，则对该对话上文进行分词后，在频繁树中的得分为：1*0.7+2*0.7＝2.1。

步骤304，根据各分类节点的匹配度，在结构树中确定与对话上文匹配的分类节点。

具体地，可以将匹配度最高的分类节点，作为与对话上文匹配的分类节点。

作为一种可能的实现方式，可以在结构树中，从根节点的各子节点开始，确定匹配度最高的分类节点，而后将确定出的匹配度最高的分类节点作为父节点，从父节点的各子节点中确定匹配度最高的分类节点，循环执行本步骤，直至不存在子节点，将最后一次循环执行时确定出的分类节点，作为与对话上文匹配的分类节点。

作为一种示例，参见图5，假设对话上文关联的目标对象为软件A，可以计算对话上文与分类节点1和分类节点2的匹配度，假设对话上文与分类节点1的匹配度高于分类节点2，此时，还可以进一步计算对话上文与分类节点1-1和分类节点1-2的匹配度，假设对话上文与分类节点1-1的匹配度高于分类节点1-2，则结构树中与对话上文匹配的分类节点为：分类节点1-1。

作为一种可能的实现方式，为了提升对话生成模型的精度，从而提升对话生成模型输出的准召率，本申请中，还可以根据发送对话上文的终端的场景信息，对对话生成模型进行配置。下面结合图6，对上述过程进程详细说明。

图6为本申请实施例四所提供的对话处理方法的流程示意图。

如图6所示，在图1所示实施例的基础上，该对话处理方法还可以包括以下步骤：

步骤401，对发送对话上文的终端，获取场景信息；其中，场景信息包括作为目标对象的软件的版本、网络环境、地区和/或机型。

可选地，可以根据终端的配置信息，获取目标对象的软件的版本、网络环境、机型，可以基于终端中的定位装置(卫星定位装置、WiFi辅助定位装置等)，获取地区信息。卫星定位装置例如为全球定位系统(Global Position System简称GPS)、北斗、伽利略、全球导航卫星系统(GLObal NAvigation Satellite System，简称Glonass)等等。

步骤402，根据场景信息，对对话生成模型进行配置。

本申请实施例中，可以根据用户的实际使用场景，对对话生成模型进行配置，从而针对不同用户输入的对话上文，可以输出不同的对话下文，从而使得对话模型输出的对话下文更加符合用户的实际需求，满足不同用户的个性化对话需求，提升用户的使用体验。

作为一种示例，当用户输入的对话上文为“离线地图如何使用时”，目标对象可以为导航类软件，假设用户终端中安装的导航类软件为百度地图，且版本为10.5.0、10.4.9，则对话生成模型输出的对话下文可以如图7所示。

作为一种可能的实现方式，当对话上文未与结构树中的任一分类节点匹配时，可以通过聚类的方式，挖掘新的问题以及新的功能点，而后新的功能点更新到结构树中，从而对结构树进行动态维护和补充。下面结合图8，对上述过程进行详细说明。

图8为本申请实施例五所提供的对话处理方法的流程示意图。

参见图8，在图1-图6所示实施例的基础上，该对话处理方法还可以包括以下步骤：

步骤501，若在结构树中未确定出与对话上文匹配的分类节点，将对话上文与预设的对话样本进行聚类，确定对话上文所属的聚簇。

可选地，可以基于FP-Growth的K-Means聚类算法，将对话上文与预设的对话样本进行聚类，确定对话上文所属的聚簇。通过使用FP-Growth初始化K-Means的聚类个数K以及质心，从而可以提高k-means算法准确性和收敛速度。

其中，K-Means具体用于将n个点划分到k个聚类中，使得每个点都属于离他最近的均值(此即聚类中心)对应的聚类，以之作为聚类的标准。

FP-Growth是一种优化的Apriori算法，Apriori算法是一种先产生候选项集，再检验是否频繁的“产生-测试”的方法。Apriori算法的缺点为：当数据集较大时，需要不断扫描数据集，由此，将导致运行效率很低。而FP-Growth算法是将数据集中的事务映射到一棵频繁树上，再根据频繁树找出频繁项集。其中，频繁树的构建过程只需要扫描两次数据集，可以有效提升运行效率。

步骤502，根据聚簇中包含的对话样本和对话上文，生成对话上文对应的分类节点。

可以理解的是，同一聚簇中，对话样本所涉及的对象的功能应相同，因此，在将对话上文与预设的对话样本进行聚类，得到对话上文所属的聚簇后，可以根据聚簇中包含的对话样本和对话上文，确定对话上文所涉及到的目标对象的功能，而后根据所涉及到的目标对象的功能，生成对话上文对应的分类节点。

步骤503，将对话上文对应的分类节点增加到结构树中。

本申请实施例中，在生成对话上文对应的分类节点后，可以将对话上文对应的分类节点增加到结构树中，从而可以实现对结构树的动态维护和补充。并且，在结构树中未确定出与对话上文匹配的分类节点时，即对于未分类数据，挖掘出新的功能点更新到结构树中，可以实现提供少量的对话样本即可完成结构树的初始化与算法训练，降低了接入成本。

作为一种可能的实现方式，本申请中，针对各分类节点，可以设置不同的上线要求，例如，对于能够达到要求的分类节点，可优先上线，从而处理一部分数据，减轻人工客服的压力。而对于准确率比较低的分类节点，可再积累样本，当准确率达到要求后再进行上线。下面结合图9，对上述过程进行详细说明。

图9为本申请实施例六所提供的对话处理方法的流程示意图。

如图9所示，该对话处理方法可以包括以下步骤：

步骤601，根据各分类节点对应的功能，确定适用的上线阈值。

本申请实施例中，分类节点对应的功能不同时，适用的上线阈值可以相同或者不同，例如，参见表2，与账号相关的分类节点，其上线阈值可以为70％，与支付相关的分类节点，其上线阈值可以为95％，与导航相关的分类节点，其上线阈值可以为70％。

表2不同分类节点对应的上线阈值

其中，不同分类节点对应的上线阈值为预先设置的，例如可以为电子设备或者计算机设备的内置程序预先设置的，或者可以由用户进行设置，对此不作限制。

步骤602，当各分类节点对应的对话生成模型的准召率大于上线阈值时，允许相应分类节点对应的对话生成模型上线运行。

本申请实施例中，当各分类节点对应的对话生成模型的准召率大于上线阈值时，允许相应分类节点对应的对话生成模型上线运行，从而处理一部分数据，减轻人工客服的压力。而对于当各分类节点对应的对话生成模型的准召率未大于上线阈值时，不允许相应分类节点对应的对话生成模型上线运行，此时，可再积累样本，当准召率大于上线阈值后再进行上线。

例如，参见表2，与账号相关的分类节点对应的对话生成模型的准确率和召回率均高于上线阈值，此时，可以上线，而与支付相关的分类节点对应的对话生成模型的精确率和召回率均低于上线阈值，此时，不可以上线。

由此，可以确保敏感分类节点，例如与金钱相关的分类节点，达到非常高的准确率情况下才能上线，而又不影响其它对准确率要求不高的分类节点的回复。

作为一种示例，对于一个新接入的软件，需要对该软件的结构树进行初始化，然后在结构树的基础上，对用户提出的问题进行分类以及智能回复，而对于未分类数据，可以挖掘出新的功能点更新到结构树中。具体地，算法流程图可以为图10所示，图10为本申请实施例的算法流程示意图。

该算法流程主要包括以下两个过程：1、通过分类器，将输入的对话样本确定到已知分类；2、通过聚类过程，将未分类对话样本，确定出新的分类节点。其中，对于任一算法，需要进行模型训练、模型生成、模型存储、模型应用和效果验证等过程。

图10中，信息样本池为：待分类对话样本，例如为用户反馈的对话样本；

分词：将待分类对话样本进行分词处理，作为分类器的输入，对于具体的软件反馈场景，需要建立软件相关词典；

结构树：软件的知识结构，以树形式展现组织。在智能机器人对话系统中，结构树一般表现为软件的功能结构树；

分类器：将输入对话样本分类到现有的结构树中；

需要说明的是，为了便于用户参与算法效果的调整，可以采用基于频繁树的分类方式，由用户增加或者删除词语，对算法效果进行干预。可以理解的是，为了避免用户调整不当而导致分类效果太差，可以结合多种分类算法，进行投票分类。

分类模型验证：计算结构树中分类节点的准确率和召回率；

聚类器：对话样本通过分类器进行分类后，可能发生对话样本与结构树中的任一分类节点均不匹配的情况，对于这类对话样本，可以通过聚类的方式，挖掘新的问题或功能点；

聚类模型验证：计算类内距离和类间距离，通过距离衡量聚类效果。其中，类内距离为类内所有点两两之间的距离的平均，例如，可以使用欧式距离计算类内距离和类间距离。

为了实现上述实施例，本申请还提出一种对话处理装置。

图11为本申请实施例七所提供的对话处理装置的结构示意图。

如图11所示，该对话处理装置100包括：获取模块101、分类模块102、确定模块103，以及处理模块104。其中，

获取模块101，用于获取对话上文。

分类模块102，用于根据对话上文关联的目标对象，将对话上文分类至目标对象的结构树中，以在结构树中确定与对话上文匹配的分类节点；其中，分类节点对应目标对象的功能，各分类节点之间的层级关系是根据对应功能的层级关系确定的。

作为一种可能的实现方式，分类模块102，具体用于：对结构树中各分类节点，获取对应的频繁树；其中，频繁树，是预先对属于相应分类节点对应功能的对话样本进行频繁项挖掘，将各频繁项作为频繁树节点得到的；对对话上文进行分词，将与分词匹配的频繁项所对应的频繁树节点作为目标节点；根据目标节点在频繁树中的层级，以及目标节点对应频繁项在对话样本中出现频次占比，确定对话上文与频繁树对应的分类节点的匹配度；根据各分类节点的匹配度，在结构树中确定与对话上文匹配的分类节点。

作为一种可能的实现方式，分类模块102，还用于：在结构树中，从根节点的各子节点开始，确定匹配度最高的分类节点；将确定出的匹配度最高的分类节点作为父节点，从父节点的各子节点中确定匹配度最高的分类节点，循环执行本步骤直至不存在子节点；将最后一次循环执行时确定出的分类节点作为与对话上文匹配的分类节点。

确定模块103，用于确定分类节点对应的对话生成模型的准召率。

处理模块104，用于根据准召率，确定是否采用对话生成模型生成对话上文对应的对话下文。

作为一种可能的实现方式，处理模块104，具体用于：查询分类节点适用的准召率区间；根据对话生成模型的准召率所属的准召率区间，确定采用准召率区间对应的处理策略对对话上文进行处理。

作为一种可能的实现方式，准召率区间是采用从大到小的第一阈值、第二阈值和第三阈值对准召率取值范围划分得到的。

则处理模块104，具体用于：若准召率大于或等于第一阈值，确定采用对话生成模型生成对话上文对应的对话下文；若准召率小于第一阈值，且大于或等于第二阈值，查询与所述对话上文相似的标准问答，根据所述标准问答生成所述对话下文；若准召率小于第二阈值，且大于或等于第三阈值，根据对话上文生成对应的分类节点，将对话上文对应的分类节点增加到结构树中；若准召率小于第三阈值，推荐人工对对话上文处理。

进一步地，在本申请实施例的一种可能的实现方式中，参见图12，在图11所示实施例的基础上，该对话处理装置100还可以包括：

场景获取模块105，用于对发送对话上文的终端，获取场景信息；其中，场景信息包括作为目标对象的软件的版本、网络环境、地区和/或机型。

配置模块106，用于根据场景信息，对对话生成模型进行配置。

聚类模块107，用于若在结构树中未确定出与对话上文匹配的分类节点，将对话上文与预设的对话样本进行聚类，确定对话上文所属的聚簇。

生成模块108，用于根据聚簇中包含的对话样本和对话上文，生成对话上文对应的分类节点。

增加模块109，用于将对话上文对应的分类节点增加到结构树中。

上线阈值确定模块110，用于根据各分类节点对应的功能，确定适用的上线阈值。

运行模块111，用于当各分类节点对应的对话生成模型的准召率大于上线阈值时，允许相应分类节点对应的对话生成模型上线运行。

需要说明的是，前述对对话处理方法实施例的解释说明也适用于该实施例的对话处理装置100，此处不再赘述。

为了实现上述实施例，本申请还提出一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如本申请前述实施例提出的对话处理方法。

为了实现上述实施例，本申请还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本申请前述实施例提出的对话处理方法。

为了实现上述实施例，本申请还提出一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行本申请前述实施例提出的对话处理方法。

图13示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图13显示的计算机设备12仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图13所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图13未显示，通常称为“硬盘驱动器”)。尽管图13中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的对话处理方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种对话处理方法，其特征在于，所述方法包括以下步骤：

获取对话上文；

确定所述分类节点对应的对话生成模型的准召率；

2.根据权利要求1所述的对话处理方法，其特征在于，所述根据所述准召率，确定是否采用所述对话生成模型生成所述对话上文对应的对话下文，包括：

查询所述分类节点适用的准召率区间；

根据所述对话生成模型的准召率所属的准召率区间，确定采用所述准召率区间对应的处理策略对所述对话上文进行处理；

其中，所述处理策略包括：

采用所述对话生成模型对所述对话上文进行处理，以生成所述对话下文；

以及，查询与所述对话上文相似的标准问答，根据所述标准问答生成所述对话下文。

3.根据权利要求2所述的对话生成方法，其特征在于，所述准召率区间是采用从大到小的第一阈值、第二阈值和第三阈值对准召率取值范围划分得到的，所述根据所述对话生成模型的准召率所属的准召率区间，确定采用所述准召率区间对应的处理策略对所述对话上文进行处理，包括：

若所述准召率大于或等于所述第一阈值，确定采用所述对话生成模型生成所述对话上文对应的至少一个对话下文；

若所述准召率小于所述第一阈值，且大于或等于所述第二阈值，查询与所述对话上文相似的标准问答，根据所述标准问答生成所述对话下文；

若所述准召率小于所述第二阈值，且大于或等于所述第三阈值，根据所述对话上文生成对应的分类节点，将所述对话上文对应的分类节点增加到所述结构树中；

若所述准召率小于所述第三阈值，推荐人工对所述对话上文处理。

4.根据权利要求1所述的对话处理方法，其特征在于，所述将所述对话上文分类至所述目标对象的结构树中，以在所述结构树中确定与所述对话上文匹配的分类节点，包括：

对所述结构树中各分类节点，获取对应的频繁树；其中，所述频繁树，是预先对属于相应分类节点对应功能的对话样本进行频繁项挖掘，将各频繁项作为频繁树节点得到的；

对所述对话上文进行分词，将与所述分词匹配的频繁项所对应的频繁树节点作为目标节点；

根据所述目标节点在所述频繁树中的层级，以及所述目标节点对应频繁项在所述对话样本中出现频次占比，确定所述对话上文与所述频繁树对应的分类节点的匹配度；

根据各分类节点的匹配度，在所述结构树中确定与所述对话上文匹配的分类节点。

5.根据权利要求4所述的对话处理方法，其特征在于，所述根据各分类节点的匹配度，在所述结构树中确定与所述对话上文匹配的分类节点，包括：

在所述结构树中，从根节点的各子节点开始，确定匹配度最高的分类节点；

将确定出的匹配度最高的分类节点作为父节点，从所述父节点的各子节点中确定匹配度最高的分类节点，循环执行本步骤直至不存在子节点；

将最后一次循环执行时确定出的分类节点作为与所述对话上文匹配的分类节点。

6.根据权利要求1所述的对话处理方法，其特征在于，所述方法还包括：

对发送所述对话上文的终端，获取场景信息；其中，所述场景信息包括作为目标对象的软件的版本、网络环境、地区和/或机型；

根据所述场景信息，对所述对话生成模型进行配置。

7.根据权利要求1-6任一项所述的对话处理方法，其特征在于，所述方法还包括：

若在所述结构树中未确定出与所述对话上文匹配的分类节点，将所述对话上文与预设的对话样本进行聚类，确定所述对话上文所属的聚簇；

根据所述聚簇中包含的对话样本和所述对话上文，生成所述对话上文对应的分类节点；

将所述对话上文对应的分类节点增加到所述结构树中。

8.根据权利要求1-6任一项所述的对话处理方法，其特征在于，所述方法还包括：

根据各分类节点对应的功能，确定适用的上线阈值；

当各分类节点对应的对话生成模型的准召率大于所述上线阈值时，允许相应分类节点对应的对话生成模型上线运行。

9.一种对话处理装置，其特征在于，所述装置包括：

获取模块，用于获取对话上文；

10.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1-8中任一所述的对话处理方法。

11.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一所述的对话处理方法。

12.一种计算机程序产品，其特征在于，当所述计算机程序产品中的指令由处理器执行时，执行如权利要求1-8中任一所述的对话处理方法。