CN110955754A - 一种用于重复来电分析识别的模型构建方法 - Google Patents

一种用于重复来电分析识别的模型构建方法 Download PDF

Info

Publication number
CN110955754A
CN110955754A CN201911209736.9A CN201911209736A CN110955754A CN 110955754 A CN110955754 A CN 110955754A CN 201911209736 A CN201911209736 A CN 201911209736A CN 110955754 A CN110955754 A CN 110955754A
Authority
CN
China
Prior art keywords
work order
incoming call
repeated
repeated incoming
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911209736.9A
Other languages
English (en)
Inventor
朱龙珠
张明杰
宫立华
刘鲲鹏
刘莉莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dataocean Smart Technology Co ltd
State Grid Co Ltd Customer Service Center
Original Assignee
Beijing Dataocean Smart Technology Co ltd
State Grid Co Ltd Customer Service Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dataocean Smart Technology Co ltd, State Grid Co Ltd Customer Service Center filed Critical Beijing Dataocean Smart Technology Co ltd
Priority to CN201911209736.9A priority Critical patent/CN110955754A/zh
Publication of CN110955754A publication Critical patent/CN110955754A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • G06Q30/015Providing customer assistance, e.g. assisting a customer within a business location or via helpdesk
    • G06Q30/016After-sales
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Primary Health Care (AREA)
  • Human Resources & Organizations (AREA)
  • Water Supply & Treatment (AREA)
  • Public Health (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种用于重复来电分析识别的模型构建方法,该方法包括将语音转译为文本内容并记录于单独工单表中,通过分析坐席人员以及客户之间的通话内容,判定重复来电;结合工单内容中的受理内容和处理情况进行判定,当包含指定文字时,判定为重复来电;将关联工单表中具有相同电话号码的主工单及关联工单判定为一组重复来电,并将该工单记为母工单,其他工单记为子工单;将工单受理内容记录的信息为“关联工单编号为”但不包含在关联工单表的工单进行提取。本发明将处理结构化的工单信息同处理非结构化的文本内容的思想引入到重复来电识别上,扩充了用于重复来电识别的数据范围,对模型覆盖率、准确率的提升提供了保证。

Description

一种用于重复来电分析识别的模型构建方法
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种用于重复来电分析识别的模型构建方法。
背景技术
数据挖掘(Data mining)又译为资料探勘、数据采矿。它是数据库知识发现(Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
近年来,随着电力业务的迅猛发展,供电公司的客户数量与业务类型随之增长,客户来电反映的内容复杂多变,如何从巨大的话务量中挖掘出有用信息是客服面临的巨大挑战。根据对重复来电记录中的信息进行分析与挖掘,重点关注重复来电次数较多的客户,对来电出现的热点问题和检测能力及时发现与跟踪,以便能把握处理问题的最佳时机,从而提高处理问题的能力与检测能力。因此,如何在来电信息中对重复来电记录进行汇总与发现,准确定位重复来电客户,对有效地提高客服的服务质量具有十分重要的现实意义。
目前重复来电分析面临诸多问题:95598除了工单编号、客户编号、用户电话号码等一类结构化字段以外,还包括一些非结构化字段,如受理内容以及处理情况等,这使得使得针对重复来电分析与识别更加困难。而工单受理内容为文本信息,信息量大、非结构化,需要人工逐条进行查阅,使得工作繁琐且效率偏低,这也会导致无法及时了解客户重复来电的原因,产生客户服务滞后问题,以至于无法对热点问题及时作出反映。
发明内容
为克服相关技术中存在的问题,本发明实施例提供一种用于重复来电分析识别的模型构建方法,解决了工单受理内容为文本信息,信息量大、非结构化,需要人工逐条进行查阅的问题。
本发明实施例提供一种用于重复来电分析识别的模型构建方法,包括以下步骤:
将语音转译为文本内容并记录于单独工单表中,通过分析坐席人员以及客户之间的通话内容,判定重复来电;
结合工单内容中的受理内容和处理情况进行判定,当包含指定文字时,判定为重复来电;
将关联工单表中具有相同电话号码的主工单及关联工单判定为一组重复来电,并将该工单记为母工单,其他工单记为子工单;
将工单受理内容记录的信息为“关联工单编号为...”但不包含在关联工单表的工单进行提取,并按序逐条进行记录并汇集成原始表;
将原始表中相同电话号码对应的工单记录同原始表按照受理时间的先后次序逐一进行整合形成重复来电候选组;
将重复来电候选组按照规则划分成重复来电组;
重复来电组中的第一条记录是通过语音转译文本或基于工单内容中方式获得的,则补充其最近的来电作为第一通来电。
进一步地,采用正则表达式提取实体的方法并结合业务规则,分别从坐席人员以及客户角度出发,对语音转译文本中存在的重复来电进行识别与提取。
进一步地,将采用正则表达式得到的重复来电记录同利用工单关联规则得到的重复来电记录相结合,并按照受理时间的先后顺序对重复来电记录的顺序进行调整。
进一步地,所述指定文字包括催办、重复来电、前期问题、前期来电、补充信息、处理进度。
进一步地,判定重复来电时将重复来电记录的标记记为A,限定工单的重复来电识别范围。
进一步地,将所述母工单标记为C,子工单标记为S。
进一步地,所述关联工单表的工单进行提取,并按序逐条进行记录并汇集成原始表,进一步地将原始表标记为D。
进一步地,将语音转译为文本内容标记为B。
进一步地,判断单独工单表与关联工单表是否相同,相同时,将单独工单表与关联工单表进行合并,不同时,将单独工单表与关联工单表分为两组,部分相同时,即出现漏报情况,在单独工单表中不在关联工单表中,则归为单独工单表,在关联工单表中不在单独工单表中,则归为关联工单表,并按序进行排列。
进一步地,所述将重复来电候选组按照规则划分成重复来电组,规则为关联工单表子工单优先级高于单独工单表,单独工单表高于语音转译文本,语音转译文本高于关联工单表子工单,关联工单表子工单高于不符合上述任意重复来电记录。
本发明的实施例提供的技术方案具有以下有益效果:
1、将处理结构化的工单信息同处理非结构化的文本内容的思想引入到重复来电识别上,扩充了用于重复来电识别的数据范围,对模型覆盖率、准确率的提升提供了保证,达到了提升模型准确率的效果。
2、对重复来电进行识别时,分别从语音转译文本、单独工单表以及关联工单表三方面出发,对相同电话对应的所有工单信息进行整合形成重复来电候选组,并对组内的每条工单信息的来源使用数字进行标注;结合重复来电组划分规则,从而将复杂的重复来电识别问题转换为对数字的分组划分问题。
3、通过比较模型运行效率,使模型的运行效率达到最优。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是本发明实施例中用于重复来电分析识别的模型构建方法的流程图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置及相关应用、方法的例子。
图1是本发明实施例中用于重复来电分析识别的模型构建方法的流程图,如图1所示,该用于重复来电分析识别的模型构建方法,包括以下步骤:
步骤101、将语音转译为文本内容并记录于单独工单表中。
语音转译为文本内容标记为B。
通过分析坐席人员以及客户之间的通话内容,判定重复来电。
采用正则表达式提取实体的方法并结合业务规则,分别从坐席人员以及客户角度出发,对语音转译文本中存在的重复来电进行识别与提取,扩大了用于重复来电识别的数据范围。
步骤102、结合工单内容中的受理内容和处理情况进行判定,当包含指定文字时,判定为重复来电。
指定文字包括催办、重复来电、前期问题、前期来电、补充信息、处理进度。
判定重复来电时将重复来电记录的标记记为A,限定工单的重复来电识别范围。
步骤103、将关联工单表中具有相同电话号码的主工单及关联工单判定为一组重复来电,并将该工单记为母工单,其他工单记为子工单。
将母工单标记为C,子工单标记为S,解决了人工报送中可能存在的疏漏,同时,引入“母工单-子工单”的思想,能够使得后续对重复来电的识别更加准确。
判断单独工单表与关联工单表是否相同,相同时,将单独工单表与关联工单表进行合并,不同时,将单独工单表与关联工单表分为两组,部分相同时,即出现漏报情况,在单独工单表中不在关联工单表中,则归为单独工单表,在关联工单表中不在单独工单表中,则归为关联工单表,并按序进行排列。
步骤104、将工单受理内容记录的信息为“关联工单编号为...”但不包含在关联工单表的工单进行提取,并按序逐条进行记录并汇集成原始表。
将原始表标记为D。
步骤105、将原始表中相同电话号码对应的工单记录同原始表按照受理时间的先后次序逐一进行整合形成重复来电候选组。
将采用正则表达式得到的重复来电记录同利用工单关联规则得到的重复来电记录相结合,并按照受理时间的先后顺序对重复来电记录的顺序进行调整。
步骤106、将重复来电候选组按照规则划分成重复来电组。
规则为关联工单表子工单优先级高于单独工单表,单独工单表高于语音转译文本,语音转译文本高于关联工单表子工单,关联工单表子工单高于不符合上述任意重复来电记录,将复杂的重复来电识别转化成对数字按照规则进行分组记录,提升了模型的运行效率。
步骤107、重复来电组中的第一条记录是通过语音转译文本或基于工单内容中方式获得的,则补充其最近的来电作为第一通来电。
采用了上述实施例中的技术方案,将处理结构化的工单信息同处理非结构化的文本内容的思想引入到重复来电识别上,扩充了用于重复来电识别的数据范围,对模型覆盖率、准确率的提升提供了保证,达到了提升模型准确率的效果;对重复来电进行识别时,分别从语音转译文本、单独工单表以及关联工单表三方面出发,对相同电话对应的所有工单信息进行整合形成重复来电候选组,并对组内的每条工单信息的来源使用数字进行标注;结合重复来电组划分规则,从而将复杂的重复来电识别问题转换为对数字的分组划分问题;通过比较模型运行效率,使模型的运行效率达到最优。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (10)

1.一种用于重复来电分析识别的模型构建方法,其特征在于,包括以下步骤:
将语音转译为文本内容并记录于单独工单表中,通过分析坐席人员以及客户之间的通话内容,判定重复来电;
结合工单内容中的受理内容和处理情况进行判定,当包含指定文字时,判定为重复来电;
将关联工单表中具有相同电话号码的主工单及关联工单判定为一组重复来电,并将该工单记为母工单,其他工单记为子工单;
将工单受理内容记录的信息为“关联工单编号为...”但不包含在关联工单表的工单进行提取,并按序逐条进行记录并汇集成原始表;
将原始表中相同电话号码对应的工单记录同原始表按照受理时间的先后次序逐一进行整合形成重复来电候选组;
将重复来电候选组按照规则划分成重复来电组;
重复来电组中的第一条记录是通过语音转译文本或基于工单内容中方式获得的,则补充其最近的来电作为第一通来电。
2.根据权利要求1所述的用于重复来电分析识别的模型构建方法,其特征在于,进一步地,采用正则表达式提取实体的方法并结合业务规则,分别从坐席人员以及客户角度出发,对语音转译文本中存在的重复来电进行识别与提取。
3.根据权利要求1所述的用于重复来电分析识别的模型构建方法,其特征在于,将采用正则表达式得到的重复来电记录同利用工单关联规则得到的重复来电记录相结合,并按照受理时间的先后顺序对重复来电记录的顺序进行调整。
4.根据权利要求1所述的用于重复来电分析识别的模型构建方法,其特征在于,所述指定文字包括催办、重复来电、前期问题、前期来电、补充信息、处理进度。
5.根据权利要求1所述的用于重复来电分析识别的模型构建方法,其特征在于,判定重复来电时将重复来电记录的标记记为A,限定工单的重复来电识别范围。
6.根据权利要求1所述的用于重复来电分析识别的模型构建方法,其特征在于,进一步地,将所述母工单标记为C,子工单标记为S。
7.根据权利要求1所述的用于重复来电分析识别的模型构建方法,其特征在于,所述关联工单表的工单进行提取,并按序逐条进行记录并汇集成原始表,进一步地将原始表标记为D。
8.根据权利要求1所述的用于重复来电分析识别的模型构建方法,其特征在于,将语音转译为文本内容标记为B。
9.根据权利要求1所述的用于重复来电分析识别的模型构建方法,其特征在于,还包括,判断单独工单表与关联工单表是否相同,相同时,将单独工单表与关联工单表进行合并,不同时,将单独工单表与关联工单表分为两组,部分相同时,即出现漏报情况,在单独工单表中不在关联工单表中,则归为单独工单表,在关联工单表中不在单独工单表中,则归为关联工单表,并按序进行排列。
10.根据权利要求1所述的用于重复来电分析识别的模型构建方法,其特征在于,进一步地,所述将重复来电候选组按照规则划分成重复来电组,规则为关联工单表子工单优先级高于单独工单表,单独工单表高于语音转译文本,语音转译文本高于关联工单表子工单,关联工单表子工单高于不符合上述任意重复来电记录。
CN201911209736.9A 2019-12-01 2019-12-01 一种用于重复来电分析识别的模型构建方法 Pending CN110955754A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911209736.9A CN110955754A (zh) 2019-12-01 2019-12-01 一种用于重复来电分析识别的模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911209736.9A CN110955754A (zh) 2019-12-01 2019-12-01 一种用于重复来电分析识别的模型构建方法

Publications (1)

Publication Number Publication Date
CN110955754A true CN110955754A (zh) 2020-04-03

Family

ID=69979177

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911209736.9A Pending CN110955754A (zh) 2019-12-01 2019-12-01 一种用于重复来电分析识别的模型构建方法

Country Status (1)

Country Link
CN (1) CN110955754A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114996432A (zh) * 2022-08-08 2022-09-02 广东电网有限责任公司佛山供电局 重复诉求的识别方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389341A (zh) * 2015-10-22 2016-03-09 国网山东省电力公司电力科学研究院 一种客服电话重复来电工单的文本聚类与分析方法
CN105630976A (zh) * 2015-12-24 2016-06-01 北京奇虎科技有限公司 训练语料的获取方法和装置
US20170019534A1 (en) * 2015-07-13 2017-01-19 Xiaomi Inc. Method, device, and system for determining spam caller phone number
CN109214009A (zh) * 2018-11-27 2019-01-15 国网山东省电力公司电力科学研究院 一种服务调度重复来电的工单文本语义向量分析方法
CN109871378A (zh) * 2019-02-21 2019-06-11 杭州市商务委员会(杭州市粮食局) 大数据平台的数据采集和处理方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170019534A1 (en) * 2015-07-13 2017-01-19 Xiaomi Inc. Method, device, and system for determining spam caller phone number
CN105389341A (zh) * 2015-10-22 2016-03-09 国网山东省电力公司电力科学研究院 一种客服电话重复来电工单的文本聚类与分析方法
CN105630976A (zh) * 2015-12-24 2016-06-01 北京奇虎科技有限公司 训练语料的获取方法和装置
CN109214009A (zh) * 2018-11-27 2019-01-15 国网山东省电力公司电力科学研究院 一种服务调度重复来电的工单文本语义向量分析方法
CN109871378A (zh) * 2019-02-21 2019-06-11 杭州市商务委员会(杭州市粮食局) 大数据平台的数据采集和处理方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114996432A (zh) * 2022-08-08 2022-09-02 广东电网有限责任公司佛山供电局 重复诉求的识别方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110245981B (zh) 一种基于手机信令数据的人群类型识别方法
CN106874134B (zh) 工单类型的处理方法、装置及系统
CN109697233A (zh) 一种知识图谱体系搭建方法
CN112183036B (zh) 一种格式文档生成方法、装置、设备及存储介质
CN111563190B (zh) 一种区域网络用户行为的多维度分析与监管方法及系统
CN102915493A (zh) 信息处理装置和方法
CN116186359B (zh) 一种高校多源异构数据的集成管理方法、系统及存储介质
CN111159334A (zh) 用于房源跟进信息处理的方法及系统
CN111061696A (zh) 一种交易报文日志的解析方法及装置
CN113946657A (zh) 一种基于知识推理的电力业务意图自动识别方法
CN116302829A (zh) 数据监控方法、装置、设备及存储介质
CN111369133A (zh) 一种大数据风险监测系统
CN110955754A (zh) 一种用于重复来电分析识别的模型构建方法
CN114491010A (zh) 信息抽取模型的训练方法及装置
CN111179101A (zh) 一种基于共享网络的互联网保险营销数据处理系统
CN110955835A (zh) 一种基于大数据技术的共享平台信息发布系统
CN107066450B (zh) 一种基于学习的即时通信会话切分方法
CA3146125A1 (en) Method and system for returning customer service log feedback to database
CN110311943A (zh) 一种电力企业大数据平台中数据的查询与展示方法
CN114066506A (zh) 网络行为ai分析算法
CN110569435B (zh) 智能双端推荐引擎系统和方法
CN109388649B (zh) 一种土地智能推荐方法及系统
CN114385899A (zh) 一种基于大数据分析的用户群体精准识别系统及方法
CN110147980A (zh) 工单处理方法及装置
CN111400375A (zh) 一种基于财务业务数据商机挖掘方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200403

RJ01 Rejection of invention patent application after publication