CN111061815A

CN111061815A - 会话数据分类方法

Info

Publication number: CN111061815A
Application number: CN201911279131.7A
Authority: CN
Inventors: 黎建辉; 邹亚鹏; 胡泓
Original assignee: Ctrip Computer Technology Shanghai Co Ltd
Current assignee: Ctrip Computer Technology Shanghai Co Ltd
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2020-04-24
Anticipated expiration: 2039-12-13
Also published as: CN111061815B

Abstract

本发明公开了一种会话数据分类方法，包括以下步骤：获取训练用会话数据；对训练用会话数据进行结构化处理，以得到结构化数据；构建深度模型网络；根据结构化数据和深度模型网络建立分类模型，根据分类模型将待分类会话数据分类为已解决会话和未解决会话本发明的会话数据分类方法利用深度学习的方法，对会话数据进行分类，识别出未解决问题的会话数据，提高了效率和准确率。

Description

会话数据分类方法

技术领域

本发明属于会话数据分类技术领域，尤其涉及一种会话数据分类方法。

背景技术

对客即时对话系统，其主要功能是完成用户与客服的实时对话，回答并解决用户在线提出的问题，其中用户与客服的对话场景又分为智能机器人与人工客服，人工客服主要处理复杂业务场景及问题的解答，目前人工客服依旧是提供客服服务的主要组成部分，酒店的人工客服又分为售前与售后，目前有的平台为了提高运营效率售前很多的量都直接切给了酒店的前台，由酒店前台的工作人员担当客服的角色负责在线解决用户问题，目前酒店前台售前人工客服问题未解决率较高。现有技术尚需要人工对客服问题是否解决进行判断和分类，以获取解决率，效率低、准确度差。

发明内容

本发明要解决的技术问题是为了克服现有技术中识别客服问题是否解决的手段效率低、准确率低的缺陷，提供一种会话数据分类方法。

本发明是通过下述技术方案来解决上述技术问题：

本发明提供一种会话数据分类方法，包括以下步骤：

获取训练用会话数据；

对训练用会话数据进行结构化处理，以得到结构化数据；

构建深度模型网络；

根据结构化数据和深度模型网络建立分类模型，根据分类模型将待分类会话数据分类为已解决会话和未解决会话。

较佳地，在获取训练用会话数据的步骤之后，会话数据分类方法还包括以下步骤：

对训练用会话数据进行预处理，以得到预处理的数据；

则对训练用会话数据进行结构化处理，以得到结构化数据的步骤包括：

对预处理的数据进行结构化处理，以得到结构化数据。

较佳地，预处理包括根据时间戳和会话标识ID(身份)将会话串接。

较佳地，预处理包括通过预设过滤话术筛除对象会话数据以得到预处理的数据。

较佳地，会话数据分类方法还包括以下步骤：

将分类结果推送至IM+(一种即时通讯平台)监控系统。

较佳地，会话数据为JSON(JavaScript Object Notation，JS对象简谱)格式，则预处理包括：生成日跑的清洗JOB(工作)以对训练用会话数据进行清洗提取以得到预处理的数据。

较佳地，预处理包括提取用户发起问题是否解决标记时间之前的会话数据作为预处理的数据。

较佳地，对预处理的数据进行结构化处理的步骤包括：采用BERT(通用语义表示模型)的Tokenizer(一种分词工具)分词工具对预处理的数据进行分词处理，根据停顿词表去除停顿词及预设符号，使用Keras(一种人工神经网络库)的文本处理API(应用程序接口)将会话ID化表示，对预处理的数据中的回复时间间隔提取统计变量特征。

较佳地，构建深度模型网络的步骤包括：

采用NLP(Natural Language Processing，自然语言处理)预训练模型BERT作为整个网络的上游提取文本特征，使用python(一种跨平台的计算机程序设计语言)版本的Keras深度学习框架搭建eLMo+Attention(一种模型)的多输入模型，其中采用CuDNNLSTM(一种记忆网络)实现加速训练与预测，引入注意力网络和dropout(随机失活)层。

较佳地，待分类会话数据包括过去7天的未标记的会话数据。

本发明的积极进步效果在于：本发明的会话数据分类方法利用深度学习的方法，对会话数据进行分类，识别出未解决问题的会话数据，提高了效率和准确率。

附图说明

图1为本发明的实施例1的会话数据分类方法的流程图。

图2为本发明的实施例2的会话数据分类方法的流程图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例提供一种会话数据分类方法。参照图1，该会话数据分类方法包括以下步骤：

步骤S101、获取训练用会话数据。

步骤S102、对训练用会话数据进行结构化处理，以得到结构化数据。

步骤S103、构建深度模型网络。

步骤S104、根据结构化数据和深度模型网络建立分类模型，根据分类模型将待分类会话数据分类为已解决会话和未解决会话。

本实施例的会话数据分类方法利用深度学习的方法，对会话数据进行分类，识别出未解决问题的会话数据，提高了效率和准确率。

实施例2

在实施例1的会话数据分类方法的基础上，本实施例提供一种会话数据分类方法。参照图2，该会话数据分类方法包括以下步骤：

步骤S101、获取训练用会话数据。

步骤S1011、对训练用会话数据进行预处理，以得到预处理的数据。

步骤S102、对预处理的数据进行结构化处理，以得到结构化数据。

步骤S103、构建深度模型网络。

具体实施时，在步骤S101中，获取训练用会话数据。训练用会话数据使用JSON格式存储，每个JSON数据对象中有价值数据较少，因此在步骤S1011中，生成日跑的清洗JOB以对训练用会话数据进行清洗提取以得到第一数据。作为一种可选的实施方式，对历史所有会话清洗提取并做成日跑的清洗JOB，每日完成T+1线上数据的清洗工作，在此基础上还要对已评的数据完成历史得分清洗，标记12分的。

在步骤S1011中，还根据时间戳和会话标识ID将会话串接。获取的原始IM+聊天数据(训练用会话数据)按聊天轮次存储，需要使用时间戳与聊天标识ID将会话串接，同时删除系统自定义无用消息及添加上聊天身份标识；历史已标记问题是否已解决的对话中存在部分对话内容有对问题是否已解决的描述话术，如果引入将会对模型有干扰的影响，针对该问题指定过滤话术，将存在对模型干扰的话术去除；其次用户对问题是否已解决标记存在时间点，对标记时间点之后的数据内容采取截断处理，即只取用户发起问题是否解决标记时间之前的对话内容数据。

在步骤S102中，对预处理的数据进行结构化处理，以得到结构化数据。首先在上一步的基础上使用BERT的Tokenizer分词工具对会话内容分词处理，再利用停顿词表去除停顿词及无用符号，最后使用Keras的文本处理API将会话ID化表示(并且每个会话的长度处理成一致)，其次对对话场景数据中客服回复时间间隔提取统计变量特征。

在步骤S103中，利用谷歌开源的NLP预训练模型BERT作为整个网络的上游提取文本高阶特征，再使用python版本的Keras深度学习框架搭建在此基础上搭建eLMo+Attention的多输入模型，其中替换传统的LSTM为CuDNNLSTM实现加速训练与预测，引入注意力网络(AttentionNet)可以更加全面的捕获长文本上下文信息，网络搭建过程中引入dropout层有效的防止模型过拟合。

在步骤S104中，利用上一步构建的结构化数据及深度模型网络建立分类模型，模型的输入分为文本部分与对话场景数据部分，最后根据上文描述的技术方案训练深度学习模型，模型每天预测过去7天结束未标记的对话数据，将判为问题未解决的对话数据及时推送给IM+监控系统。

本实施例的会话数据分类方法利用深度学习的方法，通过预测IM+酒店前台售前人工客服中用户未标记问题是否已解决的对话，及时发现未标记对话数据中潜在的未解决问题的服务对话。运用本实施例的方法之前，使用的是两层BiLSTM(一种记忆网络)网络再接sigmoid(一种函数)做分类，数据的输入只使用文本数据，模型最后效果是：针对未解决用户问题的类别数据模型在准确率70％的时候召回率只有33.7％；运用本实施例的方法之后，针对未解决用户问题的类别数据模型在准确率70％的时候召回率能达到41.5％，从模型效果数据上可见提升显著。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种会话数据分类方法，其特征在于，包括以下步骤：

获取训练用会话数据；

对所述训练用会话数据进行结构化处理，以得到结构化数据；

构建深度模型网络；

根据所述结构化数据和所述深度模型网络建立分类模型，根据所述分类模型将待分类会话数据分类为已解决会话和未解决会话。

2.如权利要求1所述的会话数据分类方法，其特征在于，在所述获取训练用会话数据的步骤之后，所述会话数据分类方法还包括以下步骤：

对所述训练用会话数据进行预处理，以得到预处理的数据；

则对所述训练用会话数据进行结构化处理，以得到结构化数据的步骤包括：

对所述预处理的数据进行结构化处理，以得到结构化数据。

3.如权利要求2所述的会话数据分类方法，其特征在于，所述预处理包括根据时间戳和会话标识ID将会话串接。

4.如权利要求2所述的会话数据分类方法，其特征在于，所述预处理包括通过预设过滤话术筛除对象会话数据以得到所述预处理的数据。

5.如权利要求1所述的会话数据分类方法，其特征在于，所述会话数据分类方法还包括以下步骤：

将分类结果推送至IM+监控系统。

6.如权利要求2所述的会话数据分类方法，其特征在于，所述会话数据为JSON格式，则所述预处理包括：生成日跑的清洗JOB以对所述训练用会话数据进行清洗提取以得到所述预处理的数据。

7.如权利要求2所述的会话数据分类方法，其特征在于，所述预处理包括提取用户发起问题是否解决标记时间之前的所述会话数据作为所述预处理的数据。

8.如权利要求2所述的会话数据分类方法，其特征在于，对所述预处理的数据进行结构化处理的步骤包括：采用BERT的Tokenizer分词工具对所述预处理的数据进行分词处理，根据停顿词表去除停顿词及预设符号，使用Keras的文本处理API将会话ID化表示，对所述预处理的数据中的回复时间间隔提取统计变量特征。

9.如权利要求8所述的会话数据分类方法，其特征在于，所述构建深度模型网络的步骤包括：

采用NLP预训练模型BERT作为整个网络的上游提取文本特征，使用python版本的Keras深度学习框架搭建eLMo+Attention的多输入模型，其中采用CuDNNLSTM实现加速训练与预测，引入注意力网络和dropout层。

10.如权利要求1所述的会话数据分类方法，其特征在于，所述待分类会话数据包括过去7天的未标记的会话数据。