CN112487186A

CN112487186A - 一种人人对话日志分析方法、系统、设备及存储介质

Info

Publication number: CN112487186A
Application number: CN202011356175.8A
Authority: CN
Inventors: 潘仰耀; 张琛; 李锋; 汪贇; 张彤; 彭新俊; 毛振苏
Original assignee: Shanghai Pudong Development Bank Co Ltd
Current assignee: Shanghai Pudong Development Bank Co Ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-03-12

Abstract

本文提供了一种人人对话日志分析方法、系统、设备及存储介质，其中，方法包括：对收集的人人对话日志进行预处理；利用人机对话语义模型对预处理所得的客户问题数据进行打标签处理，得到客户问题对应的标签信息及置信度；将置信度小于预定阈值的客户问题数据作为待标识问题数据，对待标识问题数据进行聚类处理，确定簇标签信息。本文将人人对话日志分析与机器人客服相结合，充分地多维度挖掘人人对话日志中的知识，避免重复分析人机对话语义模型准确识别出的问题，提高人人对话日志分析的效率及精度。

Description

一种人人对话日志分析方法、系统、设备及存储介质

技术领域

本文涉及数据分析领域，尤其涉及一种人人对话日志分析方法、系统、设备及存储介质。

背景技术

现有技术中，智能客服人机对话机器人已经广泛地应用于银行、电商等实际场景中，但仍有大量转人工服务的人人对话(客户与人工客服人员)日志，这些对话日志中包含了大量有用的信息，现有技术中，对于人人对话日志的分析包括两类方式：一种是通过对人人对话日志数据进行聚类，得到高质量客户的问题作为知识库中的标准问题，另一种是将一个簇内的问题标注成一个意图标签。这两种方式均从数据标注的角度进行处理的，没有充分地多维度地挖掘日志中的知识。

另外，现有技术中的人人对话日志与机器人客服之间是独立分割存在的，也就是说机器人客服部署完成后，转接人工的对话没有得到充分挖掘和利用，不能反哺机器人客服，帮助提升人机对话效果。

发明内容

本文用于解决现有技术中没有充分地多维度挖掘人人对话日志中的知识，且人人对话日志分析与机器人客服之间相互独立的缺陷。

为了解决上述技术问题，本文第一方面提供一种人人对话日志分析方法，包括：

对收集的人人对话日志进行预处理；

利用人机对话语义模型对预处理所得的客户问题数据进行打标签处理，得到客户问题对应的标签信息及置信度；

将置信度小于预定阈值的客户问题数据作为待标识问题数据，对所述待标识问题数据进行聚类处理，确定簇标签信息。

本文进一步实施例中，对收集的人人对话日志进行预处理包括：

对所述人人对话日志进行数据脱敏处理；

剔除脱敏处理所得数据中噪声大于预定噪声值的数据；

根据所述人人对话日志所属行业的关键词典，利用预设规则，过滤剩余数据中不通顺、冗余重复及不完整的数据。

本文进一步实施例中，对所述待标识问题数据进行聚类处理，确定簇标签信息，包括：

对所述待标识问题数据进行基于业务信息表的粗粒度聚类，得到类别簇及其关键词；

对每一类别簇进行基于语义的细粒度聚类，得到类别子簇及其关键词；

所述类别簇及其关键词和所述类别子簇及其关键词构成簇标签信息。

本文进一步实施例中，对所述待标识问题数据进行基于业务信息表的粗粒度聚类，得到类别簇，包括：

基于业务信息表，生成问题标识规则；

匹配所述待标识问题数据与所述问题标识规则；

将匹配到同一问题标识规则的待标识问题数据，划分为一类别簇。

本文进一步实施例中，对每一类别簇进行基于语义的细粒度聚类，得到类别子簇及其关键词，包括：

将每一类别簇中的每一问题数据编码成一问题向量；

计算同一类别簇中各问题向量之间的L2范数距离；

将L2范数距离小于预定距离阈值的问题向量，划分为一类别子簇；

计算每一类别子簇下主题的频率；

将频率大于预定值的主题作为该类别子簇的关键词。

本文进一步实施例中，人人对话日志分析方法还包括：

计算每两个类别子簇之间的中心向量的余弦相似度；

计算每两个类别子簇之间关键词的重复量；

若两个类别子簇的余弦相似度大于预定相似度，且该两个类别簇中存在类子簇的关键词重复量大于预定重复量，则从所述簇标签信息中剔除该两个类别子簇及其关键词，并将该两个类别子簇发送至业务人员终端。

本文进一步实施例中，人人对话日志分析方法还包括：利用所述簇标签信息，重新训练所述人机对话语义模型。

本文的第二方面提供一种人人对话日志分析系统，包括：

预处理模块，用于对收集的人人对话日志进行预处理；

机器人识别模块，利用人机对话语义模型对预处理所得的客户问题数据进行打标签处理，得到客户问题对应的标签信息及置信度；

聚类模块，将置信度小于预定阈值的客户问题数据作为待标识问题数据，对所述待标识问题数据进行聚类处理，确定簇标签信息。

本文的第三方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述任一项所述的人人对话日志分析方法。

本文的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行计算机程序，所述计算机程序被处理器执行时实现前述任一实施例所述的人人对话日志分析方法。

本文提供的人人对话日志分析方法，通过先利用人机对话语义模型对预处理所得的客户问题数据进行打标识处理，得到问题对应的标签信息及置信度，将置信度小于预定阈值的客户问题数据作为待标识问题数据，对待标识问题数据进行聚类处理，确定簇标签信息，能够将人人对话日志分析与机器人客服相结合，充分地多维度挖掘人人对话日志中的知识，避免重复分析人机对话语义模型准确识别出的问题，提高人人对话日志分析的效率及精度。

为让本文的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

为了更清楚地说明本文实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本文的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本文实施例人人对话日志分析方法的第一流程图；

图2示出了本文实施例预处理过程的流程图；

图3示出了本文实施例聚类过程的第一流程图；

图4A示出了本文实施例粗粒度聚类过程的流程图；

图4B示出了本文实施例细粒度聚类过程的流程图；

图5示出了本文实施例聚类过程的第二流程图；

图6示出了本文实施例人人对话日志分析方法的第二流程图；

图7A及图7B示出了本文实施例人人对话日志分析系统的结构图；

图8示出了本文实施例聚类模块的结构图；

图9示出了本文一具体实施例的人人对话日志分析方法的流程图；

图10示出了本文实施例计算机设备的结构图。

附图符号说明：

710、预处理模块；

720、机器人识别模块；

730、聚类模块；

740、更新模块；

810、粗粒度聚类单元；

820、细粒度聚类单元；

830、组合单元；

840、筛选单元；

1002、计算机设备；

1004、处理器；

1006、存储器；

1008、驱动机构；

1010、输入/输出模块；

1012、输入设备；

1014、输出设备；

1016、呈现设备；

1018、图形用户接口；

1020、网络接口；

1022、通信链路；

1024、通信总线。

具体实施方式

下面将结合本文实施例中的附图，对本文实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本文一部分实施例，而不是全部的实施例。基于本文中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本文保护的范围。

本文所述的人人对话日志分析方法、系统、设备及存储介质适用于任何提供人机对话及人人对话(即机器人客服及在线人工客服)的业务场景，例如银行客服、通信公司客服、生产商客服等等，本文对具体应用的业务场景不做具体限定。

本文一实施例中，如图1所示，提供一种人人对话日志分析方法，该方法可以运行于独立数据来源的第三方系统、智能终端，包括智能手机、平板电脑、台式计算机等，还可以为单独的应用程序、内嵌于其他程序中的小程序等，或者也可以为网页形式等，本文对具体实现方式不做限定。本实施例用于解决现有技术中没有充分地多维度挖掘人人对话日志中的知识且人人对话日志分析与机器人客服之间相互独立的缺陷，具体的，人人对话日志分析方法包括：

步骤110，对收集的人人对话日志进行预处理；

步骤120，利用人机对话语义模型对预处理所得的客户问题数据进行打标签处理，得到客户问题对应的标签信息及置信度；

步骤130，将置信度小于预定阈值的客户问题数据作为待标识问题数据，对待标识问题数据进行聚类处理，确定簇标签信息。

详细的说，本文所述的人人对话日志为从人人对话语音转换成的文本(例如ASR自动语言识别方法)，由客户的问题及客服的回答语句构成。其中，人人对话语音适用于各行业的人工客服与客户之间的通话。

本文所述的人机对话语义模型为机器人客服答复客户问题的依据，用于识别人机对话时客户所提问题，确定客户的业务意图，并根据识别结果匹配答案，反馈给客户。人机对话语义模型预先训练得到，为在已标注问题数据的基础上，通过机器学习、深度学习等训练得到的预测模型，可以判断输入的问题数据是否已经命中已有意图或FAQ知识库中的问题。具体的，人机对话语义模型可采用现有的神经网络模型，也可根据需求自行设定，本文对此不作限定，人机对话语义模型的训练过程也可直接参考现有技术，本文不再详述。

本文所述的置信度能够反应人机对话语义模型识别的准确率，置信度越高，准确率越高，相反，置信度越低，准确率越低。置信度低于预定阈值时，代表没有命中已有意图和标准问，即遇到了人机对话语义模型不能识别的问题数据。预定阈值的取值可根据需求的识别精度进行确定，本文对其取值不做具体限定。

本实施例提供的人人对话日志分析方法，通过先利用人机对话语义模型对预处理所得的客户问题数据进行打标识处理，得到问题对应的标签信息及置信度，将置信度小于预定阈值的客户问题数据作为待标识问题数据，对待标识问题数据进行聚类处理，确定簇标签信息，能够将人人对话日志分析与机器人客服相结合，实现已知知识挖掘(由人机对话语义模型实现)与未知知识挖掘(由聚类处理实现)的融合，充分地、完整地、多维度地挖掘人人对话日志中的知识，避免重复分析人机对话语义模型准确识别出的问题，提高人人对话日志分析的效率及精度。

进一步的，因客户转接人工的原因有多种，例如客户不知道机器人客服的存在、机器人客服答复错误(对应为识别错误)导致无法解决客户问题、没有对机器人客服进行某些业务的配置等，本实施例还可以找出机器人客服(即人机对话语义模型)配置但识别不了的问题数据，说明机器人客服对该类问题数据的识别能力弱，或者对话服务流程配置不合理，或与已有业务相关性低，进而通过对该类问题数据的分析，帮助运营人员回溯原因。

本文一实施例中，考虑到不同时间段，客户询问的问题会有所不同，这将导致新的数据分布不同于原来的人机对话语义模型拟合的数据分布特点，人人对话日志分析方法还包括：对于上述置信度大于预定阈值的标注数据，将其存储于标注数据池中，等待被人机对话语义模型训练。

本实施例能够提高人机对话语音模型的鲁棒性。

本文一实施例中，如图2所示，上述步骤110对收集的人人对话日志进行预处理包括：

步骤210，对人人对话日志进行数据脱敏处理；

步骤220，剔除脱敏处理所得数据中噪声大于预定噪声值的数据；

步骤230，根据人人对话日志所属行业的关键词典，利用预设规则，过滤剩余数据中不通顺、冗余重复及不完整的数据。

详细的说，上述步骤210数据脱敏处理包括但不限于对人名、手机号、身份证号等涉及个人隐私的数据进行脱敏处理，脱敏的方法例如为在部分数据处打*处理，或做其他处理，本文对此不做限定。通过步骤210能够保护客户隐私，消除客户疑虑。

因人人对话日志中的数据为通过语音识别转换后的文本，因此会给语义解析引入大量噪声，若不对数据进行去噪处理，将会应影响数据分析的准确性。因此，通过步骤220能够获得流畅度高的文本数据(即符合正常表达习惯的自然语言)。

上述步骤230中行业的关键词典为行业内常用术语，以银行领域为例，关键词典中例如包括查询、余额、转账、开户等，本文对行业的关键词典不做具体限定。预设规则用于筛选不通顺、冗余及不完整的数据，本文对其具体包括的内容不做限定。通过步骤230能够过滤掉闲聊型、语病型等对分析无益的对话脏数据，得到最终可用的干净流畅的问题数据。

本实施例能够过滤掉脏数据(闲聊型、语病型等语句)，仅保留最终可用的数据。

本文一实施例中，如图3所示，上述步骤130对待标识问题数据进行聚类处理，确定簇标签信息，包括：

步骤310，对待标识问题数据进行基于业务信息表的粗粒度聚类，得到类别簇及其关键词；

步骤320，对每一类别簇进行基于语义的细粒度聚类，得到类别子簇及其关键词；

步骤330，类别簇及其关键词和类别子簇及其关键词构成簇标签信息。

本实施例通过分级聚类的方式，能够精确地实现问题分类，自动从人人对话日志中获取两级标签信息，提高分类精度及日志处理的维度，进而充分挖掘更多的未知知识。

详细的说，类别簇与业务大类相对应，以银行领域为例，类别簇包括贷款、存款等业务大类。类别子簇与业务大类中包含的业务小类相对应，同样以银行领域为例，贷款的类别子类例如包括：房贷、车贷、首付贷等等。

具体的，如图4A所示，上述步骤310对待标识问题数据进行基于业务信息表的粗粒度聚类，得到类别簇，包括：

步骤311，基于业务信息表，生成问题标识规则；

步骤312，匹配待标识问题数据与所述问题标识规则；

步骤313，将匹配到同一问题标识规则的待标识问题数据，划分为一类别簇。

详细的说，业务信息表为行业/领域的业务知识库/词典，包含常用的业务类别和业务的关联词汇，例如类别为贷款，与之关联的词汇有房贷、车贷、首付等。问题标识规则用于识别待识别问题数据，例如为关键词是否术语同一类别等，本文对问题标注规则具体内容不做限定。

上述步骤312中，匹配待识别问题数据与问题标识规则，用于判断待识别问题中的关键词是否匹配问题标识规则中的关键词，若匹配，则将待识别问题划分至相应条问题标识规则对应的类别下。

将问题标识规则对应的业务类别作为类别簇的关键词。

本实施例还可以根据待识别问题的频次分析业务被询问的概率大小，以便给相关人员提供优化对话流程的指导信息。

本实施例通过字面信息匹配，可以快速地粗略的确定待识别问题数据的类型。

本文一实施例中，上述步骤320实施时，可采用single-pass聚类方法(单便聚类方法)实现语义聚类，当然，还可以采用其它聚类方法，本文对此不作具体限定。

一具体实施方式中，如图4B所示，上述步骤320对每一类别簇进行基于语义的细粒度聚类，得到类别子簇及其关键词，包括：

步骤321，将每一类别簇中的每一问题数据编码成一问题向量；

步骤322，利用如下公式计算同一类别簇中各问题向量之间的L2范数距离：

其中，X和Y是两个问题向量，x_i和y_i是第i维的数值。

步骤323，将L2范数距离小于预定距离阈值的问题向量，划分为一类别子簇；

步骤324，计算每一类别子簇下主题(即分词)的频率；

步骤325，将频率大于预定值的主题作为该类别子簇的关键词。

具体实施时，还可通过如下方式判断是否属于一类别子簇：每一类别子簇维护一中心向量，中心向量为类别子簇中所有问题向量的平均向量，判断一个问题数据是否属于一类别子簇，只需要计算该问题数据的向量与中心向量的距离是否校园阈值即可。

本实施例通过对每一类别簇下的数据进行二次语义聚类，能够获得更精确地簇，且能大大降低人工标注的时间。具体实施时，对于那些没有人机对话语义模型的领域，上述步骤110之后，可直接进入二次语义聚类的过程。

本文一实施例中，类别子簇之间聚类时没有相互约束，因此，存在类别子簇的关键词相同的情况，而该种情况说明聚类划分存在不准确的问题，基于此，如图5所示，聚类过程除了包括上述步骤310～步骤330外，还包括：

步骤340，计算每两个类别子簇之间的中心向量的余弦相似度；

步骤350，计算每两个类别子簇之间关键词的重复量；

步骤360，比较两个类别子簇余弦相似度与预定相似度，比较两个类别子簇之间关键词的重复量与预定重复量，若两个类别子簇的余弦相似度大于预定相似度，且该两个类别簇中存在类子簇的关键词重复量大于预定重复量，则执行步骤370；其余情况，说明两个类别子簇划分合理，无需人工判断；

步骤370，从簇标签信息中剔除该两个类别子簇及其关键词，并将该两个类别子簇发送至业务人员终端。

详细的说，步骤340中所述的余弦相似度为通过两向量的夹角余弦值来评估两向量的相似度。步骤350中所述的重复量例如为2，具体实施时，可根据精度需求继续设定，本文对此不作限定。

本实施例能够进一步提高聚类结果的准确度，将划分不准确的类别子簇发送业务人员，能够帮助业务人员完善业务意图。

本文一实施例中，为了扩展人机对话语义模型的识别范围，如图6所示，人人对话日志分析方法除了包括上述步骤110至步骤130外，还包括：

步骤140，将簇标签信息反馈给运营人员，以便运营人员利用簇标签信息，重新训练人机对话语义模型。

本实施例将簇标签信息反馈给运营人员，能够大大降低运营人员标注问题的时间，完善机器人客服的业务意图识别，提高客服服务器的服务能力。将人人对话日志充分挖掘的结果，用来反哺人机对话语义模型，能够提升人机对话语义模型的对话效果。

基于同一发明构思，本文还提供一种人人对话日志分析系统，如下面的实施例所述。由于人人对话日志分析系统解决问题的原理与人人对话日志分析方法相似，因此人人对话日志分析系统的实施可以参见人人对话日志分析方法，重复之处不再赘述。

本实施例提供的人人对话日志分析系统包括多个功能模块，均可以由专用或者通用芯片实现，还可以通过软件程序实现，本文对此不作限定。具体的，如图7A所示，人人对话日志分析系统包括：

预处理模块710，用于对收集的人人对话日志进行预处理；

机器人识别模块720，利用人机对话语义模型对预处理所得的客户问题数据进行打标签处理，得到问题对应的标签信息及置信度；

聚类模块730，将置信度小于预定阈值的客户问题数据作为待标识问题数据，对所述待标识问题数据进行聚类处理，确定簇标签信息。

本实施例通过先利用人机对话语义模型对预处理所得的客户问题数据进行打标识处理，得到问题对应的标签信息及置信度，将置信度小于预定阈值的客户问题数据作为待标识问题数据，对待标识问题数据进行聚类处理，确定簇标签信息，能够将人人对话日志分析与机器人客服相结合，充分地多维度挖掘人人对话日志中的知识，避免重复分析人机对话语义模型准确识别出的问题，提高人人对话日志分析的效率及精度。

进一步实施例中，如图7B所示，人人对话日志分析系统还包括：

更新模块740，用于利用上述置信度高于预定阈值的标注数据，重新训练人机对话语义模型，和/或利用簇标签信息，补充完善人机对话语义模型。

本文一实施例中，预处理模块710对收集的人人对话日志进行预处理包括：对所述人人对话日志进行数据脱敏处理；剔除脱敏处理所得数据中噪声大于预定噪声值的数据；根据所述人人对话日志所属行业的关键词典，利用预设规则，过滤剩余数据中不通顺、冗余重复及不完整的数据。

本文一实施例中，如图8所示，聚类模块730包括：粗粒度聚类单元810，用于对所述待标识问题数据进行基于业务信息表的粗粒度聚类，得到类别簇及其关键词；

细粒度聚类单元820，用于对每一类别簇进行基于语义的细粒度聚类，得到类别子簇及其关键词；

组合单元830，用于将类别簇及其关键词和类别子簇及其关键词组合到一起构成簇标签信息。

其中，粗粒度聚类单元810对待标识问题数据进行基于业务信息表的粗粒度聚类，得到类别簇，包括：基于业务信息表，生成问题标识规则；匹配所述待标识问题数据与所述问题标识规则；将匹配到同一问题标识规则的待标识问题数据，划分为一类别簇。

细粒度聚类单元820对每一类别簇进行基于语义的细粒度聚类，得到类别子簇及其关键词，包括：将每一类别簇中的每一问题数据编码成一问题向量；计算同一类别簇中各问题向量之间的L2范数距离；将L2范数距离小于预定距离阈值的问题向量，划分为一类别子簇；计算每一类别子簇下主题的频率；将频率大于预定值的主题作为该类别子簇的关键词。

为了进一步保证聚类精度，聚类模块730除了包括粗粒度聚类单元810、细粒度聚类单元820及组合单元830外，还包括：筛选单元840，用于计算每两个类别子簇之间的中心向量的余弦相似度；计算每两个类别子簇之间关键词的重复量；若两个类别子簇的余弦相似度大于预定相似度，且该两个类别簇中存在类子簇的关键词重复量大于预定重复量，则从所述簇标签信息中剔除该两个类别簇及其关键词，并将该两个类别簇发送至业务人员终端。

为了更清楚说明本文技术方案，下面以一具体实施例进行详细说明，如图9所示，人人对话日志分析方法包括：

步骤910，采集人人对话音频，将采集的人人对话音频转换为人人对话日志；

步骤920，对人人对话日志进行数据脱敏处理、去噪声处理、过滤处理，得到干净数据，其中，过滤处理用于过滤不通顺、冗余重复及不完整的数据；

步骤930，利用人机对话语义模型对预处理所得的客户问题数据进行打标签处理，得到问题对应的标签信息及置信度；

步骤940，将置信度大于预定阈值的标注数据存储与标注数据池中，等待被人机对话语义模型训练；

步骤950，将置信度小于预定阈值的客户问题数据作为待标识问题数据，对待标识问题数据进行二级聚类(粗粒度聚类及细粒度聚类)处理，确定簇标签信息；

步骤960，利用如下过程过滤类别子簇：计算每两个类别子簇之间的中心向量的余弦相似度；计算每两个类别子簇之间关键词的重复量；比较两个类别子簇余弦相似度与预定相似度，依据两个类别子簇之间关键词的重复量与预定重复量，若两个类别子簇的余弦相似度大于预定相似度，且该两个类别簇中存在类子簇的关键词重复量大于预定重复量，则执行步骤970；其余情况，说明两个类别子簇划分合理，必须人工判断；

步骤970，从簇标签信息中剔除该两个类别簇及其关键词，并将该两个类别簇发送至业务人员终端。

本文一实施例中，如图10所示，还提供一种计算机设备1002，计算机设备1002可以包括一个或多个处理器1004，诸如一个或多个中央处理单元(CPU)，每个处理单元可以实现一个或多个硬件线程。计算机设备1002还可以包括任何存储器1006，其用于存储诸如代码、设置、数据等之类的任何种类的信息。非限制性的，比如，存储器1006可以包括以下任一项或多种组合：任何类型的RAM，任何类型的ROM，闪存设备，硬盘，光盘等。更一般地，任何存储器都可以使用任何技术来存储信息。进一步地，任何存储器可以提供信息的易失性或非易失性保留。进一步地，任何存储器可以表示计算机设备1002的固定或可移除部件。在一种情况下，当处理器1004执行被存储在任何存储器或存储器的组合中的相关联的指令时，计算机设备1002可以执行相关联指令的任一操作，从而实现前述任一实施例所述的人人对话日志分析方法。计算机设备1002还包括用于与任何存储器交互的一个或多个驱动机构1008，诸如硬盘驱动机构、光盘驱动机构等。

计算机设备1002还可以包括输入/输出模块1010(I/O)，其用于接收各种输入(经由输入设备1012)和用于提供各种输出(经由输出设备1014))。一个具体输出机构可以包括呈现设备1016和相关联的图形用户接口1018(GUI)。在其他实施例中，还可以不包括输入/输出模块1010(I/O)、输入设备1012以及输出设备1014，仅作为网络中的一台计算机设备。计算机设备1002还可以包括一个或多个网络接口1020，其用于经由一个或多个通信链路1022与其他设备交换数据。一个或多个通信总线1024将上文所描述的部件耦合在一起。

通信链路1022可以以任何方式实现，例如，通过局域网、广域网(例如，因特网)、点对点连接等、或其任何组合。通信链路1022可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。

本文一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述任一实施例所述人人对话日志分析方法的步骤。

本文一实施例中，还提供一种计算机可读指令，其中当处理器执行所述指令时，其中的程序使得处理器执行前述任一实施例所述的人人对话日志分析方法的步骤。

应理解，在本文的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本文实施例的实施过程构成任何限定。

还应理解，在本文实施例中，术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本文的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本文所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本文实施例方案的目的。

另外，在本文各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本文的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本文各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本文中应用了具体实施例对本文的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本文的方法及其核心思想；同时，对于本领域的一般技术人员，依据本文的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本文的限制。

Claims

1.一种人人对话日志分析方法，其特征在于，包括：

对收集的人人对话日志进行预处理；

2.如权利要求1所述的方法，其特征在于，对收集的人人对话日志进行预处理包括：

对所述人人对话日志进行数据脱敏处理；

剔除脱敏处理所得数据中噪声大于预定噪声值的数据；

3.如权利要求1所述的方法，其特征在于，对所述待标识问题数据进行聚类处理，确定簇标签信息，包括：

4.如权利要求3所述的方法，其特征在于，对所述待标识问题数据进行基于业务信息表的粗粒度聚类，得到类别簇，包括：

基于业务信息表，生成问题标识规则；

匹配所述待标识问题数据与所述问题标识规则；

5.如权利要求3所述的方法，其特征在于，对每一类别簇进行基于语义的细粒度聚类，得到类别子簇及其关键词，包括：

将每一类别簇中的每一问题数据编码成一问题向量；

计算同一类别簇中各问题向量之间的L2范数距离；

计算每一类别子簇下主题的频率；

将频率大于预定值的主题作为该类别子簇的关键词。

6.如权利要求3所述的方法，其特征在于，还包括：

计算每两个类别子簇之间的中心向量的余弦相似度；

计算每两个类别子簇之间关键词的重复量；

若两个类别子簇的余弦相似度大于预定相似度，且该两个类别簇中存在类子簇的关键词重复量大于预定重复量，则从所述簇标签信息中剔除该两个类别子簇及其关键词，并将该两个类子别簇发送至业务人员终端。

7.如权利要求1所述的方法，其特征在于，还包括：利用所述簇标签信息，重新训练所述人机对话语义模型。

8.一种人人对话日志分析系统，其特征在于，包括：

预处理模块，用于对收集的人人对话日志进行预处理；

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的人人对话日志分析方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行计算机程序，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的人人对话日志分析方法。