CN111061815A - 会话数据分类方法 - Google Patents

会话数据分类方法 Download PDF

Info

Publication number
CN111061815A
CN111061815A CN201911279131.7A CN201911279131A CN111061815A CN 111061815 A CN111061815 A CN 111061815A CN 201911279131 A CN201911279131 A CN 201911279131A CN 111061815 A CN111061815 A CN 111061815A
Authority
CN
China
Prior art keywords
data
session
classification method
training
conversational
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911279131.7A
Other languages
English (en)
Other versions
CN111061815B (zh
Inventor
黎建辉
邹亚鹏
胡泓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ctrip Computer Technology Shanghai Co Ltd
Original Assignee
Ctrip Computer Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ctrip Computer Technology Shanghai Co Ltd filed Critical Ctrip Computer Technology Shanghai Co Ltd
Priority to CN201911279131.7A priority Critical patent/CN111061815B/zh
Publication of CN111061815A publication Critical patent/CN111061815A/zh
Application granted granted Critical
Publication of CN111061815B publication Critical patent/CN111061815B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种会话数据分类方法,包括以下步骤:获取训练用会话数据;对训练用会话数据进行结构化处理,以得到结构化数据;构建深度模型网络;根据结构化数据和深度模型网络建立分类模型,根据分类模型将待分类会话数据分类为已解决会话和未解决会话本发明的会话数据分类方法利用深度学习的方法,对会话数据进行分类,识别出未解决问题的会话数据,提高了效率和准确率。

Description

会话数据分类方法
技术领域
本发明属于会话数据分类技术领域,尤其涉及一种会话数据分类方法。
背景技术
对客即时对话系统,其主要功能是完成用户与客服的实时对话,回答并解决用户在线提出的问题,其中用户与客服的对话场景又分为智能机器人与人工客服,人工客服主要处理复杂业务场景及问题的解答,目前人工客服依旧是提供客服服务的主要组成部分,酒店的人工客服又分为售前与售后,目前有的平台为了提高运营效率售前很多的量都直接切给了酒店的前台,由酒店前台的工作人员担当客服的角色负责在线解决用户问题,目前酒店前台售前人工客服问题未解决率较高。现有技术尚需要人工对客服问题是否解决进行判断和分类,以获取解决率,效率低、准确度差。
发明内容
本发明要解决的技术问题是为了克服现有技术中识别客服问题是否解决的手段效率低、准确率低的缺陷,提供一种会话数据分类方法。
本发明是通过下述技术方案来解决上述技术问题:
本发明提供一种会话数据分类方法,包括以下步骤:
获取训练用会话数据;
对训练用会话数据进行结构化处理,以得到结构化数据;
构建深度模型网络;
根据结构化数据和深度模型网络建立分类模型,根据分类模型将待分类会话数据分类为已解决会话和未解决会话。
较佳地,在获取训练用会话数据的步骤之后,会话数据分类方法还包括以下步骤:
对训练用会话数据进行预处理,以得到预处理的数据;
则对训练用会话数据进行结构化处理,以得到结构化数据的步骤包括:
对预处理的数据进行结构化处理,以得到结构化数据。
较佳地,预处理包括根据时间戳和会话标识ID(身份)将会话串接。
较佳地,预处理包括通过预设过滤话术筛除对象会话数据以得到预处理的数据。
较佳地,会话数据分类方法还包括以下步骤:
将分类结果推送至IM+(一种即时通讯平台)监控系统。
较佳地,会话数据为JSON(JavaScript Object Notation,JS对象简谱)格式,则预处理包括:生成日跑的清洗JOB(工作)以对训练用会话数据进行清洗提取以得到预处理的数据。
较佳地,预处理包括提取用户发起问题是否解决标记时间之前的会话数据作为预处理的数据。
较佳地,对预处理的数据进行结构化处理的步骤包括:采用BERT(通用语义表示模型)的Tokenizer(一种分词工具)分词工具对预处理的数据进行分词处理,根据停顿词表去除停顿词及预设符号,使用Keras(一种人工神经网络库)的文本处理API(应用程序接口)将会话ID化表示,对预处理的数据中的回复时间间隔提取统计变量特征。
较佳地,构建深度模型网络的步骤包括:
采用NLP(Natural Language Processing,自然语言处理)预训练模型BERT作为整个网络的上游提取文本特征,使用python(一种跨平台的计算机程序设计语言)版本的Keras深度学习框架搭建eLMo+Attention(一种模型)的多输入模型,其中采用CuDNNLSTM(一种记忆网络)实现加速训练与预测,引入注意力网络和dropout(随机失活)层。
较佳地,待分类会话数据包括过去7天的未标记的会话数据。
本发明的积极进步效果在于:本发明的会话数据分类方法利用深度学习的方法,对会话数据进行分类,识别出未解决问题的会话数据,提高了效率和准确率。
附图说明
图1为本发明的实施例1的会话数据分类方法的流程图。
图2为本发明的实施例2的会话数据分类方法的流程图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
本实施例提供一种会话数据分类方法。参照图1,该会话数据分类方法包括以下步骤:
步骤S101、获取训练用会话数据。
步骤S102、对训练用会话数据进行结构化处理,以得到结构化数据。
步骤S103、构建深度模型网络。
步骤S104、根据结构化数据和深度模型网络建立分类模型,根据分类模型将待分类会话数据分类为已解决会话和未解决会话。
本实施例的会话数据分类方法利用深度学习的方法,对会话数据进行分类,识别出未解决问题的会话数据,提高了效率和准确率。
实施例2
在实施例1的会话数据分类方法的基础上,本实施例提供一种会话数据分类方法。参照图2,该会话数据分类方法包括以下步骤:
步骤S101、获取训练用会话数据。
步骤S1011、对训练用会话数据进行预处理,以得到预处理的数据。
步骤S102、对预处理的数据进行结构化处理,以得到结构化数据。
步骤S103、构建深度模型网络。
步骤S104、根据结构化数据和深度模型网络建立分类模型,根据分类模型将待分类会话数据分类为已解决会话和未解决会话。
具体实施时,在步骤S101中,获取训练用会话数据。训练用会话数据使用JSON格式存储,每个JSON数据对象中有价值数据较少,因此在步骤S1011中,生成日跑的清洗JOB以对训练用会话数据进行清洗提取以得到第一数据。作为一种可选的实施方式,对历史所有会话清洗提取并做成日跑的清洗JOB,每日完成T+1线上数据的清洗工作,在此基础上还要对已评的数据完成历史得分清洗,标记12分的。
在步骤S1011中,还根据时间戳和会话标识ID将会话串接。获取的原始IM+聊天数据(训练用会话数据)按聊天轮次存储,需要使用时间戳与聊天标识ID将会话串接,同时删除系统自定义无用消息及添加上聊天身份标识;历史已标记问题是否已解决的对话中存在部分对话内容有对问题是否已解决的描述话术,如果引入将会对模型有干扰的影响,针对该问题指定过滤话术,将存在对模型干扰的话术去除;其次用户对问题是否已解决标记存在时间点,对标记时间点之后的数据内容采取截断处理,即只取用户发起问题是否解决标记时间之前的对话内容数据。
在步骤S102中,对预处理的数据进行结构化处理,以得到结构化数据。首先在上一步的基础上使用BERT的Tokenizer分词工具对会话内容分词处理,再利用停顿词表去除停顿词及无用符号,最后使用Keras的文本处理API将会话ID化表示(并且每个会话的长度处理成一致),其次对对话场景数据中客服回复时间间隔提取统计变量特征。
在步骤S103中,利用谷歌开源的NLP预训练模型BERT作为整个网络的上游提取文本高阶特征,再使用python版本的Keras深度学习框架搭建在此基础上搭建eLMo+Attention的多输入模型,其中替换传统的LSTM为CuDNNLSTM实现加速训练与预测,引入注意力网络(AttentionNet)可以更加全面的捕获长文本上下文信息,网络搭建过程中引入dropout层有效的防止模型过拟合。
在步骤S104中,利用上一步构建的结构化数据及深度模型网络建立分类模型,模型的输入分为文本部分与对话场景数据部分,最后根据上文描述的技术方案训练深度学习模型,模型每天预测过去7天结束未标记的对话数据,将判为问题未解决的对话数据及时推送给IM+监控系统。
本实施例的会话数据分类方法利用深度学习的方法,通过预测IM+酒店前台售前人工客服中用户未标记问题是否已解决的对话,及时发现未标记对话数据中潜在的未解决问题的服务对话。运用本实施例的方法之前,使用的是两层BiLSTM(一种记忆网络)网络再接sigmoid(一种函数)做分类,数据的输入只使用文本数据,模型最后效果是:针对未解决用户问题的类别数据模型在准确率70%的时候召回率只有33.7%;运用本实施例的方法之后,针对未解决用户问题的类别数据模型在准确率70%的时候召回率能达到41.5%,从模型效果数据上可见提升显著。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (10)

1.一种会话数据分类方法,其特征在于,包括以下步骤:
获取训练用会话数据;
对所述训练用会话数据进行结构化处理,以得到结构化数据;
构建深度模型网络;
根据所述结构化数据和所述深度模型网络建立分类模型,根据所述分类模型将待分类会话数据分类为已解决会话和未解决会话。
2.如权利要求1所述的会话数据分类方法,其特征在于,在所述获取训练用会话数据的步骤之后,所述会话数据分类方法还包括以下步骤:
对所述训练用会话数据进行预处理,以得到预处理的数据;
则对所述训练用会话数据进行结构化处理,以得到结构化数据的步骤包括:
对所述预处理的数据进行结构化处理,以得到结构化数据。
3.如权利要求2所述的会话数据分类方法,其特征在于,所述预处理包括根据时间戳和会话标识ID将会话串接。
4.如权利要求2所述的会话数据分类方法,其特征在于,所述预处理包括通过预设过滤话术筛除对象会话数据以得到所述预处理的数据。
5.如权利要求1所述的会话数据分类方法,其特征在于,所述会话数据分类方法还包括以下步骤:
将分类结果推送至IM+监控系统。
6.如权利要求2所述的会话数据分类方法,其特征在于,所述会话数据为JSON格式,则所述预处理包括:生成日跑的清洗JOB以对所述训练用会话数据进行清洗提取以得到所述预处理的数据。
7.如权利要求2所述的会话数据分类方法,其特征在于,所述预处理包括提取用户发起问题是否解决标记时间之前的所述会话数据作为所述预处理的数据。
8.如权利要求2所述的会话数据分类方法,其特征在于,对所述预处理的数据进行结构化处理的步骤包括:采用BERT的Tokenizer分词工具对所述预处理的数据进行分词处理,根据停顿词表去除停顿词及预设符号,使用Keras的文本处理API将会话ID化表示,对所述预处理的数据中的回复时间间隔提取统计变量特征。
9.如权利要求8所述的会话数据分类方法,其特征在于,所述构建深度模型网络的步骤包括:
采用NLP预训练模型BERT作为整个网络的上游提取文本特征,使用python版本的Keras深度学习框架搭建eLMo+Attention的多输入模型,其中采用CuDNNLSTM实现加速训练与预测,引入注意力网络和dropout层。
10.如权利要求1所述的会话数据分类方法,其特征在于,所述待分类会话数据包括过去7天的未标记的会话数据。
CN201911279131.7A 2019-12-13 2019-12-13 会话数据分类方法 Active CN111061815B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911279131.7A CN111061815B (zh) 2019-12-13 2019-12-13 会话数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911279131.7A CN111061815B (zh) 2019-12-13 2019-12-13 会话数据分类方法

Publications (2)

Publication Number Publication Date
CN111061815A true CN111061815A (zh) 2020-04-24
CN111061815B CN111061815B (zh) 2023-04-25

Family

ID=70300895

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911279131.7A Active CN111061815B (zh) 2019-12-13 2019-12-13 会话数据分类方法

Country Status (1)

Country Link
CN (1) CN111061815B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112053145A (zh) * 2020-07-20 2020-12-08 深圳市博瑞得科技有限公司 一种网络红包动作的识别方法、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017067153A1 (zh) * 2015-10-22 2017-04-27 腾讯科技(深圳)有限公司 基于文本分析的信用风险评估方法及装置、存储介质
CN107861951A (zh) * 2017-11-17 2018-03-30 康成投资(中国)有限公司 智能客服中的会话主题识别方法
CN108241984A (zh) * 2016-12-23 2018-07-03 北京国双科技有限公司 一种访客分类方法及装置
CN110309967A (zh) * 2019-06-27 2019-10-08 携程计算机技术(上海)有限公司 客服会话评分等级的预测方法、系统、设备和存储介质
CN110413788A (zh) * 2019-07-30 2019-11-05 携程计算机技术(上海)有限公司 会话文本的场景类别的预测方法、系统、设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017067153A1 (zh) * 2015-10-22 2017-04-27 腾讯科技(深圳)有限公司 基于文本分析的信用风险评估方法及装置、存储介质
CN108241984A (zh) * 2016-12-23 2018-07-03 北京国双科技有限公司 一种访客分类方法及装置
CN107861951A (zh) * 2017-11-17 2018-03-30 康成投资(中国)有限公司 智能客服中的会话主题识别方法
CN110309967A (zh) * 2019-06-27 2019-10-08 携程计算机技术(上海)有限公司 客服会话评分等级的预测方法、系统、设备和存储介质
CN110413788A (zh) * 2019-07-30 2019-11-05 携程计算机技术(上海)有限公司 会话文本的场景类别的预测方法、系统、设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘婷婷;朱文东;刘广一;: "基于深度学习的文本分类研究进展" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112053145A (zh) * 2020-07-20 2020-12-08 深圳市博瑞得科技有限公司 一种网络红包动作的识别方法、装置及存储介质
CN112053145B (zh) * 2020-07-20 2023-01-31 博瑞得科技有限公司 一种网络红包动作的识别方法、装置及存储介质

Also Published As

Publication number Publication date
CN111061815B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
CN107578769B (zh) 语音数据标注方法和装置
WO2020147395A1 (zh) 基于情感的文本分类处理方法、装置和计算机设备
CN106407178A (zh) 一种会话摘要生成方法及装置
CN111597818B (zh) 呼叫质检方法、装置、计算机设备和计算机可读存储介质
CN116644145B (zh) 会话数据处理方法、装置、设备和存储介质
CN114639386A (zh) 文本纠错及文本纠错词库构建方法
CN110633475A (zh) 基于计算机场景的自然语言理解方法、装置、系统和存储介质
CN110825839A (zh) 一种对文本信息中目标的关联关系分析方法
CN110689357B (zh) 基于机器学习的用于在线客服的工单生成方法
CN106569996A (zh) 一种面向中文微博的情感倾向分析方法
CN111062211A (zh) 信息提取方法、装置、电子设备及存储介质
CN110750626B (zh) 一种基于场景的任务驱动的多轮对话方法及系统
CN111061815A (zh) 会话数据分类方法
CN108962281B (zh) 一种语言表达的评价和辅助方法及装置
CN110362828B (zh) 网络资讯风险识别方法及系统
CN116303951A (zh) 对话处理方法、装置、电子设备和存储介质
CN110580899A (zh) 语音识别方法及装置、存储介质、计算设备
CN114254088A (zh) 自动应答模型的构建方法和自动应答方法
CN114118937A (zh) 基于任务的信息推荐方法、装置、电子设备及存储介质
CN114356982A (zh) 营销合规性检查方法、装置、计算机设备及存储介质
CN115080732A (zh) 投诉工单处理方法、装置、电子设备和存储介质
CN113515642A (zh) 电话营销关键断点确定方法及装置
CN111666755A (zh) 一种复述句识别的方法及装置
CN108073804B (zh) 一种风险识别方法和装置
CN113254595B (zh) 闲聊识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant