CN108924371A - 电力客服过程中通过来电号码识别户号的方法 - Google Patents

电力客服过程中通过来电号码识别户号的方法 Download PDF

Info

Publication number
CN108924371A
CN108924371A CN201810946145.9A CN201810946145A CN108924371A CN 108924371 A CN108924371 A CN 108924371A CN 201810946145 A CN201810946145 A CN 201810946145A CN 108924371 A CN108924371 A CN 108924371A
Authority
CN
China
Prior art keywords
call
incoming call
incoming
duration
family
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810946145.9A
Other languages
English (en)
Other versions
CN108924371B (zh
Inventor
刘鲲鹏
盛妍
张全
李俊峰
肖敏
王秀春
马永波
王艳
孙蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Co Ltd Customer Service Center
Original Assignee
State Grid Co Ltd Customer Service Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Co Ltd Customer Service Center filed Critical State Grid Co Ltd Customer Service Center
Priority to CN201810946145.9A priority Critical patent/CN108924371B/zh
Publication of CN108924371A publication Critical patent/CN108924371A/zh
Application granted granted Critical
Publication of CN108924371B publication Critical patent/CN108924371B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/5125Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing with remote located operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/5183Call or contact centers with computer-telephony arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉电力客服过程中通过来电号码识别户号的方法。步骤1:对数据进行清洗;步骤2:选取特定加工因子指标;步骤3:文本相似度计算;步骤4:构建权重划分模型,计算对应关系匹配度得分,根据分值校验关系可靠性。本发明相对于现有技术的进步在于:客服接听电话过程中无需核对客户户号信息和地址信息,大大缩短了服务时长,提高了服务效率,降低了高峰时段客户持机排队等待的时长,提高了客户的体验感。

Description

电力客服过程中通过来电号码识别户号的方法
技术领域:
本发明涉及智能客服系统,进一步涉及电力客服过程中通过来电号码识别户号的方法。
背景技术:
国网95598客服人员在受理客户来电业务时,需核对客户户号信息,以便解决客户来电诉求。由于大部分客户无法提供客户户号,坐席人员往往询问客户用电地址信息,通过用电地址与档案用电地址匹配,来寻找客户户号。通过这种方式获取客户户号,势必造成坐席服务效率低下,引起客户情绪浮躁等问题。
另一方面,国网客服中心加强标签深化应用,实现中心标签与省公司标签共享。目前,中心标签是以电话号码为对象构建,省公司标签是以用户号为对象构建,为实现中心和省公司标签共享,需要构建电话号码和用户号之间的动态精准匹配关系,支撑以电话号码为对象的客户画像和以用户号为对象的客户画像,实现中心和省公司在标签对象上的融合应用,支撑个体用户、家庭用户行为特征的关联分析。鉴于此,识别客户来电号码与户号的对应关系势在必行,在提升坐席服务效率、客户满意度以及标签深化应用、标签共享等方面有一定的促进作用。
发明内容:
本发明目的是通过构建数据模型,实现来电号码与户号匹配的有效性。
(一)技术方案一具体如下:
电力客服过程中通过来电号码识别户号的方法,所需基础数据为95598工单数据、通话数据、客户基本档案数据,如果来电号码与户号对应信息关系与客户档案信息完全匹配情况,则判定此类对应关系为有效对应关系;此类情况中,针对号码与户号对应关系与客户档案信息部匹配情况,对此对应关系进行校验,以判定此类关系有效性,包括如下过程:
步骤1:对数据进行清洗,剔除骚扰电话客户、黑名单、红名单客户、中介来电客户;
步骤2:选取如下加工因子指标:地址相似度得分,姓名相似度得分,对应关系来电总次数,对应关系近3月来电次数,对应关系近6月来电次数,平均通话时长,最小通话时长,最大通话时长,拨打事件数,最近来电时间,历史拨打记录中是否存在该对应关系,工作日、非工作日、节假日不同时间点偏好,包含户号信息的来电呼叫总次数,包含户号信息的来电呼叫平均通话时长,包含户号信息的来电呼叫最大通话时长,包含户号信息的来电呼叫最小通话时长,包含户号信息的来电呼叫是否为历史拨打号码,该来电号码来电总次数,该来电号码来电平均通话时长,该来电号码来电最大通话时长,该来电号码来电最小通话时长,该来电最近记录户号是否为历史来电对应户号;
步骤3:文本相似度计算:对用电地址、客户姓名、受理内容、处理意见进行文本分词处理,并基于相似度度量,计算地址相似度、客户姓名相似度,作为校验因素;
步骤4:构建权重划分模型,计算对应关系匹配度得分,根据分值校验关系可靠性。
(二)技术方案二具体如下:
电力客服过程中通过来电号码识别户号的方法,所需基础数据为95598工单数据、通话数据、客户基本档案数据,工单中未记录户号,但来电号码记录在客户基本档案数据中,包括如下过程:
步骤11:对数据进行清洗,剔除骚扰电话客户、黑名单、红名单客户、中介来电客户;
步骤12:选取如下加工因子指标:地址相似度得分,姓名相似度得分,对应关系来电总次数,对应关系近3月来电次数,对应关系近6月来电次数,平均通话时长,最小通话时长,最大通话时长,拨打事件数,最近来电时间,历史拨打记录中是否存在该对应关系,工作日、非工作日、节假日不同时间点偏好,包含户号信息的来电呼叫总次数,包含户号信息的来电呼叫平均通话时长,包含户号信息的来电呼叫最大通话时长,包含户号信息的来电呼叫最小通话时长,包含户号信息的来电呼叫是否为历史拨打号码,该来电号码来电总次数,该来电号码来电平均通话时长,该来电号码来电最大通话时长,该来电号码来电最小通话时长,该来电最近记录户号是否为历史来电对应户号;
步骤13:文本相似度计算:对用电地址、客户姓名、受理内容、处理意见进行文本分词处理,并基于相似度度量,计算地址相似度、客户姓名相似度,作为校验因素;
步骤14:构建权重划分模型,计算对应关系匹配度得分,根据分值校验关系可靠性。
(三)技术方案三具体如下:
电力客服过程中通过来电号码识别户号的方法,所需基础数据为95598工单数据、通话数据、客户基本档案数据,工单中未记录户号,且来电号码未记录在客户基本档案数据中,包括如下过程:
步骤21:对数据进行清洗,剔除骚扰电话客户、黑名单、红名单客户、中介来电客户;
步骤22:选取如下加工因子指标:地址相似度得分,姓名相似度得分,对应关系来电总次数,对应关系近3月来电次数,对应关系近6月来电次数,平均通话时长,最小通话时长,最大通话时长,拨打事件数,最近来电时间,历史拨打记录中是否存在该对应关系,工作日、非工作日、节假日不同时间点偏好,包含户号信息的来电呼叫总次数,包含户号信息的来电呼叫平均通话时长,包含户号信息的来电呼叫最大通话时长,包含户号信息的来电呼叫最小通话时长,包含户号信息的来电呼叫是否为历史拨打号码,该来电号码来电总次数,该来电号码来电平均通话时长,该来电号码来电最大通话时长,该来电号码来电最小通话时长,该来电最近记录户号是否为历史来电对应户号;
步骤23:文本相似度计算:对用电地址、客户姓名、受理内容、处理意见进行文本分词处理,并基于相似度度量,计算地址相似度、客户姓名相似度,作为校验因素;
步骤24:构建KNN模型,通过计算因子指标之间的距离,计算KNN得分,根据KNN模型输出特性,选取Topk作为模型输出结果,来判别该号码对应的疑似户号。
(四)技术方案四具体如下:
电力客服过程中通过来电号码识别户号的方法,所需基础数据为95598工单数据、通话数据、客户基本档案数据,包括如下过程:
步骤0:判断如果来电号码与户号对应信息关系与客户档案信息完全匹配情况,则判定此类对应关系为有效对应关系,转步骤1;如果工单中未记录户号,但来电号码记录在客户基本档案数据中,转步骤11;如果工单中未记录户号,且来电号码未记录在客户基本档案数据中,转步骤21;
步骤1:对数据进行清洗,剔除骚扰电话客户、黑名单、红名单客户、中介来电客户;
步骤2:选取如下加工因子指标:地址相似度得分,姓名相似度得分,对应关系来电总次数,对应关系近3月来电次数,对应关系近6月来电次数,平均通话时长,最小通话时长,最大通话时长,拨打事件数,最近来电时间,历史拨打记录中是否存在该对应关系,工作日、非工作日、节假日不同时间点偏好,包含户号信息的来电呼叫总次数,包含户号信息的来电呼叫平均通话时长,包含户号信息的来电呼叫最大通话时长,包含户号信息的来电呼叫最小通话时长,包含户号信息的来电呼叫是否为历史拨打号码,该来电号码来电总次数,该来电号码来电平均通话时长,该来电号码来电最大通话时长,该来电号码来电最小通话时长,该来电最近记录户号是否为历史来电对应户号;
步骤3:文本相似度计算:对用电地址、客户姓名、受理内容、处理意见进行文本分词处理,并基于相似度度量,计算地址相似度、客户姓名相似度,作为校验因素;
步骤4:构建权重划分模型,计算对应关系匹配度得分,根据分值校验关系可靠性;如果关系检验成功,结束;如果关系检验失败,转步骤11;
步骤11:对数据进行清洗,剔除骚扰电话客户、黑名单、红名单客户、中介来电客户;
步骤12:选取如下加工因子指标:地址相似度得分,姓名相似度得分,对应关系来电总次数,对应关系近3月来电次数,对应关系近6月来电次数,平均通话时长,最小通话时长,最大通话时长,拨打事件数,最近来电时间,历史拨打记录中是否存在该对应关系,工作日、非工作日、节假日不同时间点偏好,包含户号信息的来电呼叫总次数,包含户号信息的来电呼叫平均通话时长,包含户号信息的来电呼叫最大通话时长,包含户号信息的来电呼叫最小通话时长,包含户号信息的来电呼叫是否为历史拨打号码,该来电号码来电总次数,该来电号码来电平均通话时长,该来电号码来电最大通话时长,该来电号码来电最小通话时长,该来电最近记录户号是否为历史来电对应户号;
步骤13:文本相似度计算:对用电地址、客户姓名、受理内容、处理意见进行文本分词处理,并基于相似度度量,计算地址相似度、客户姓名相似度,作为校验因素;
步骤14:构建权重划分模型,计算对应关系匹配度得分,根据分值校验关系可靠性;如果关系检验成功,结束;如果关系检验失败,转步骤21;
步骤21:对数据进行清洗,剔除骚扰电话客户、黑名单、红名单客户、中介来电客户;
步骤22:选取如下加工因子指标:地址相似度得分,姓名相似度得分,对应关系来电总次数,对应关系近3月来电次数,对应关系近6月来电次数,平均通话时长,最小通话时长,最大通话时长,拨打事件数,最近来电时间,历史拨打记录中是否存在该对应关系,工作日、非工作日、节假日不同时间点偏好,包含户号信息的来电呼叫总次数,包含户号信息的来电呼叫平均通话时长,包含户号信息的来电呼叫最大通话时长,包含户号信息的来电呼叫最小通话时长,包含户号信息的来电呼叫是否为历史拨打号码,该来电号码来电总次数,该来电号码来电平均通话时长,该来电号码来电最大通话时长,该来电号码来电最小通话时长,该来电最近记录户号是否为历史来电对应户号;
步骤23:文本相似度计算:对用电地址、客户姓名、受理内容、处理意见进行文本分词处理,并基于相似度度量,计算地址相似度、客户姓名相似度,作为校验因素;
步骤24:构建KNN模型,通过计算因子指标之间的距离,计算KNN得分,根据KNN模型输出特性,选取Topk作为模型输出结果,来判别该号码对应的疑似户号。
作为上述技术方案一、二、三、四的优选方案,文本相似度计算中的词向量技术为文本编辑距离,从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。编辑距离,表示从一个字符串转化为另一个字符串所需要的最少编辑次数,这里的编辑是指将字符串中的一个字符替换成另一个字符,或者插入删除字符。编辑距离的核心就是如何计算出一对字符串间的最小编辑次数,考虑到问题的特点,我们可以使用动态规划的思想来计算其最小编辑次数。两个字符串分别为a=a1a2…an,b=b1b2…bm,二者的编辑距离递归计算方法如下:
其中,w表示增删改三种操作的权重,一般定义为:
其中,w表示增删改三种操作的权重,一般定义为:
di0表示从b′=b1…bi删除为空的编辑次数;d0j表示从空插入成a′=a1…aj所需的编辑次数;dij则是对动态规划中分解子问题的过程。
作为上述技术方案一、二、四的优选方案,构建权重划分模型的过程如下:
数据矩阵如下:
其中,Xij为第i个方案第j个指标的数值;
步骤4-1:数据的非负数化处理:由于熵值法计算采用的是各个方案某一指标占同一指标值总和的比值,因此不存在量纲的影响,不需要进行标准化处理,若数据中有负数,就需要对数据进行非负化处理;此外,为了避免求熵值时对数的无意义,需要进行数据平移:
对于越大越好的指标:
对于越小越好的指标:
为了方便起见,仍记非负化处理后的数据为Xij
步骤4-2:计算第j项指标下第i个方案占该指标的比重:
步骤4-3:计算第j项指标的熵值:
其中k>0,ln为自然对数,ej≥0。式中常数k与样本数m有关,一般令k=1/lnm,则0≤e≤1
步骤4-4:计算第j项指标的差异系数:对于第j项指标,指标值Xij的差异越大,对方案评价的作用越大,熵值就越小;
gj=1-ej,则:gj越大指标越重要
步骤4-5:求权数:
步骤4-6:计算各方案的综合得分:
作为上述技术方案三、四的优选方案,所述KNN模型包括如下过程:
步骤24-1:计算测试数据与各个训练数据之间的距离;
步骤24-2:按照距离的递增关系进行排序;
步骤24-3:选取距离最小的K个点;
最常见的两点之间或多点之间的距离表示法,又称之为欧几里得度量,它定义于欧几里得空间中,如点x=(x1,...,xn)和y=(y1,...,yn)之间的距离为:
步骤24-4:确定前K个点所在类别的出现频率;
步骤24-5:返回前K个点中出现频率最高的类别作为测试数据的预测分类。
KNN是通过测量不同特征值之间的距离进行分类。它的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。K通常是不大于20的整数。KNN模型中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
下面通过一个简单的例子说明一下:如图1,中心的圆要被决定赋予哪个类,是三角形还是四方形?如果K=3,由于三角形所占比例为2/3,中心的圆将被赋予三角形那个类,如果K=5,由于四方形比例为3/5,因此中心的圆被赋予四方形类。
本发明相对于现有技术的进步在于:引入大数据分析挖掘方法,文本挖掘方法,通过构建数据模型,实现了来电号码与户号的匹配,并计算匹配度得分,根据匹配度得分判别对应关系有效性;客服接听电话过程中无需核对客户户号信息和地址信息,大大缩短了服务时长,提高了服务效率,降低了高峰时段客户持机排队等待的时长,提高了客户的体验感;实现客服中心和省公司标签共享,构建了电话号码和用户号之间的动态精准匹配关系,支撑以电话号码为对象的客户画像和以用户号为对象的客户画像,实现客服中心和省公司在标签对象上的融合应用,支撑个体用户、家庭用户行为特征的关联分析。
附图说明:
图1是KNN模型算法的形象示意图。
具体实施方式:
实施例:
电力客服过程中通过来电号码识别户号的方法,所需基础数据为95598工单数据、通话数据、客户基本档案数据,包括如下过程:
步骤0:判断如果来电号码与户号对应信息关系与客户档案信息完全匹配情况,则判定此类对应关系为有效对应关系,转步骤1;如果工单中未记录户号,但来电号码记录在客户基本档案数据中,转步骤11;如果工单中未记录户号,且来电号码未记录在客户基本档案数据中,转步骤21;
步骤1-步骤4,是工单中记录户号情况的识别过程,
步骤1:对数据进行清洗,剔除骚扰电话客户、黑名单、红名单客户、中介来电客户;
步骤2:选取如下加工因子指标:地址相似度得分,姓名相似度得分,对应关系来电总次数,对应关系近3月来电次数,对应关系近6月来电次数,平均通话时长,最小通话时长,最大通话时长,拨打事件数,最近来电时间,历史拨打记录中是否存在该对应关系,工作日、非工作日、节假日不同时间点偏好,包含户号信息的来电呼叫总次数,包含户号信息的来电呼叫平均通话时长,包含户号信息的来电呼叫最大通话时长,包含户号信息的来电呼叫最小通话时长,包含户号信息的来电呼叫是否为历史拨打号码,该来电号码来电总次数,该来电号码来电平均通话时长,该来电号码来电最大通话时长,该来电号码来电最小通话时长,该来电最近记录户号是否为历史来电对应户号;
步骤3:文本相似度计算:对用电地址、客户姓名、受理内容、处理意见进行文本分词处理,并基于相似度度量,计算地址相似度、客户姓名相似度,作为校验因素;
步骤4:构建权重划分模型,计算对应关系匹配度得分,根据分值校验关系可靠性;如果关系检验成功,结束;如果关系检验失败,转步骤11;
步骤11-步骤14,是工单中未记录户号且号码记录在档案情况识别过程,
步骤11:对数据进行清洗,剔除骚扰电话客户、黑名单、红名单客户、中介来电客户;
步骤12:选取如下加工因子指标:地址相似度得分,姓名相似度得分,对应关系来电总次数,对应关系近3月来电次数,对应关系近6月来电次数,平均通话时长,最小通话时长,最大通话时长,拨打事件数,最近来电时间,历史拨打记录中是否存在该对应关系,工作日、非工作日、节假日不同时间点偏好,包含户号信息的来电呼叫总次数,包含户号信息的来电呼叫平均通话时长,包含户号信息的来电呼叫最大通话时长,包含户号信息的来电呼叫最小通话时长,包含户号信息的来电呼叫是否为历史拨打号码,该来电号码来电总次数,该来电号码来电平均通话时长,该来电号码来电最大通话时长,该来电号码来电最小通话时长,该来电最近记录户号是否为历史来电对应户号;
步骤13:文本相似度计算:对用电地址、客户姓名、受理内容、处理意见进行文本分词处理,并基于相似度度量,计算地址相似度、客户姓名相似度,作为校验因素;
步骤14:构建权重划分模型,计算对应关系匹配度得分,根据分值校验关系可靠性;如果关系检验成功,结束;如果关系检验失败,转步骤21;
步骤21-步骤24,是工单中未记录户号且号码未记录在档案情况识别过程,
步骤21:对数据进行清洗,剔除骚扰电话客户、黑名单、红名单客户、中介来电客户;
步骤22:选取如下加工因子指标:地址相似度得分,姓名相似度得分,对应关系来电总次数,对应关系近3月来电次数,对应关系近6月来电次数,平均通话时长,最小通话时长,最大通话时长,拨打事件数,最近来电时间,历史拨打记录中是否存在该对应关系,工作日、非工作日、节假日不同时间点偏好,包含户号信息的来电呼叫总次数,包含户号信息的来电呼叫平均通话时长,包含户号信息的来电呼叫最大通话时长,包含户号信息的来电呼叫最小通话时长,包含户号信息的来电呼叫是否为历史拨打号码,该来电号码来电总次数,该来电号码来电平均通话时长,该来电号码来电最大通话时长,该来电号码来电最小通话时长,该来电最近记录户号是否为历史来电对应户号;
步骤23:文本相似度计算:对用电地址、客户姓名、受理内容、处理意见进行文本分词处理,并基于相似度度量,计算地址相似度、客户姓名相似度,作为校验因素;
步骤24:构建KNN模型,通过计算因子指标之间的距离,计算KNN得分,根据KNN模型输出特性,选取Topk作为模型输出结果,来判别该号码对应的疑似户号。
文本相似度计算中的词向量技术为文本编辑距离,两个字符串分别为a=a1a2…an,b=b1b2…bm,二者的编辑距离递归计算方法如下:
其中,w表示增删改三种操作的权重,一般定义为:
其中,w表示增删改三种操作的权重,一般定义为:
di0表示从b′=b1…bi删除为空的编辑次数;d0j表示从空插入成a′=a1…aj所需的编辑次数;dij则是对动态规划中分解子问题的过程。
构建权重划分模型的过程如下:
数据矩阵如下:
其中,Xij为第i个方案第j个指标的数值;
步骤4-1:数据的非负数化处理:由于熵值法计算采用的是各个方案某一指标占同一指标值总和的比值,因此不存在量纲的影响,不需要进行标准化处理,若数据中有负数,就需要对数据进行非负化处理;此外,为了避免求熵值时对数的无意义,需要进行数据平移:
对于越大越好的指标:
对于越小越好的指标:
为了方便起见,仍记非负化处理后的数据为Xij
步骤4-2:计算第j项指标下第i个方案占该指标的比重:
步骤4-3:计算第j项指标的熵值:
其中k>0,ln为自然对数,ej≥0。式中常数k与样本数m有关,一般令k=1/lnm,则0≤e≤1
步骤4-4:计算第j项指标的差异系数:对于第j项指标,指标值Xij的差异越大,对方案评价的作用越大,熵值就越小;
gj=1-ej,则:gj越大指标越重要
步骤4-5:求权数:
步骤4-6:计算各方案的综合得分:
所述KNN模型包括如下过程:
步骤24-1:计算测试数据与各个训练数据之间的距离;
步骤24-2:按照距离的递增关系进行排序;
步骤24-3:选取距离最小的K个点;
最常见的两点之间或多点之间的距离表示法,又称之为欧几里得度量,它定义于欧几里得空间中,如点x=(x1,...,xn)和y=(y1,...,yn)之间的距离为:
步骤24-4:确定前K个点所在类别的出现频率;
步骤24-5:返回前K个点中出现频率最高的类别作为测试数据的预测分类。

Claims (7)

1.电力客服过程中通过来电号码识别户号的方法,所需基础数据为95598工单数据、通话数据、客户基本档案数据,如果来电号码与户号对应信息关系与客户档案信息完全匹配情况,则判定此类对应关系为有效对应关系;此类情况中,针对号码与户号对应关系与客户档案信息部匹配情况,对此对应关系进行校验,以判定此类关系有效性,其特征在于,包括如下过程:
步骤1:对数据进行清洗,剔除骚扰电话客户、黑名单、红名单客户、中介来电客户;
步骤2:选取如下加工因子指标:地址相似度得分,姓名相似度得分,对应关系来电总次数,对应关系近3月来电次数,对应关系近6月来电次数,平均通话时长,最小通话时长,最大通话时长,拨打事件数,最近来电时间,历史拨打记录中是否存在该对应关系,工作日、非工作日、节假日不同时间点偏好,包含户号信息的来电呼叫总次数,包含户号信息的来电呼叫平均通话时长,包含户号信息的来电呼叫最大通话时长,包含户号信息的来电呼叫最小通话时长,包含户号信息的来电呼叫是否为历史拨打号码,该来电号码来电总次数,该来电号码来电平均通话时长,该来电号码来电最大通话时长,该来电号码来电最小通话时长,该来电最近记录户号是否为历史来电对应户号;
步骤3:文本相似度计算:对用电地址、客户姓名、受理内容、处理意见进行文本分词处理,并基于相似度度量,计算地址相似度、客户姓名相似度,作为校验因素;
步骤4:构建权重划分模型,计算对应关系匹配度得分,根据分值校验关系可靠性。
2.电力客服过程中通过来电号码识别户号的方法,所需基础数据为95598工单数据、通话数据、客户基本档案数据,工单中未记录户号,但来电号码记录在客户基本档案数据中,其特征在于,包括如下过程:
步骤11:对数据进行清洗,剔除骚扰电话客户、黑名单、红名单客户、中介来电客户;
步骤12:选取如下加工因子指标:地址相似度得分,姓名相似度得分,对应关系来电总次数,对应关系近3月来电次数,对应关系近6月来电次数,平均通话时长,最小通话时长,最大通话时长,拨打事件数,最近来电时间,历史拨打记录中是否存在该对应关系,工作日、非工作日、节假日不同时间点偏好,包含户号信息的来电呼叫总次数,包含户号信息的来电呼叫平均通话时长,包含户号信息的来电呼叫最大通话时长,包含户号信息的来电呼叫最小通话时长,包含户号信息的来电呼叫是否为历史拨打号码,该来电号码来电总次数,该来电号码来电平均通话时长,该来电号码来电最大通话时长,该来电号码来电最小通话时长,该来电最近记录户号是否为历史来电对应户号;
步骤13:文本相似度计算:对用电地址、客户姓名、受理内容、处理意见进行文本分词处理,并基于相似度度量,计算地址相似度、客户姓名相似度,作为校验因素;
步骤14:构建权重划分模型,计算对应关系匹配度得分,根据分值校验关系可靠性。
3.电力客服过程中通过来电号码识别户号的方法,所需基础数据为95598工单数据、通话数据、客户基本档案数据,工单中未记录户号,且来电号码未记录在客户基本档案数据中,其特征在于,包括如下过程:
步骤21:对数据进行清洗,剔除骚扰电话客户、黑名单、红名单客户、中介来电客户;
步骤22:选取如下加工因子指标:地址相似度得分,姓名相似度得分,对应关系来电总次数,对应关系近3月来电次数,对应关系近6月来电次数,平均通话时长,最小通话时长,最大通话时长,拨打事件数,最近来电时间,历史拨打记录中是否存在该对应关系,工作日、非工作日、节假日不同时间点偏好,包含户号信息的来电呼叫总次数,包含户号信息的来电呼叫平均通话时长,包含户号信息的来电呼叫最大通话时长,包含户号信息的来电呼叫最小通话时长,包含户号信息的来电呼叫是否为历史拨打号码,该来电号码来电总次数,该来电号码来电平均通话时长,该来电号码来电最大通话时长,该来电号码来电最小通话时长,该来电最近记录户号是否为历史来电对应户号;
步骤23:文本相似度计算:对用电地址、客户姓名、受理内容、处理意见进行文本分词处理,并基于相似度度量,计算地址相似度、客户姓名相似度,作为校验因素;
步骤24:构建KNN模型,通过计算因子指标之间的距离,计算KNN得分,根据KNN模型输出特性,选取Topk作为模型输出结果,来判别该号码对应的疑似户号。
4.电力客服过程中通过来电号码识别户号的方法,所需基础数据为95598工单数据、通话数据、客户基本档案数据,其特征在于,包括如下过程:
步骤0:判断如果来电号码与户号对应信息关系与客户档案信息完全匹配情况,则判定此类对应关系为有效对应关系,转步骤1;如果工单中未记录户号,但来电号码记录在客户基本档案数据中,转步骤11;如果工单中未记录户号,且来电号码未记录在客户基本档案数据中,转步骤21;
步骤1:对数据进行清洗,剔除骚扰电话客户、黑名单、红名单客户、中介来电客户;
步骤2:选取如下加工因子指标:地址相似度得分,姓名相似度得分,对应关系来电总次数,对应关系近3月来电次数,对应关系近6月来电次数,平均通话时长,最小通话时长,最大通话时长,拨打事件数,最近来电时间,历史拨打记录中是否存在该对应关系,工作日、非工作日、节假日不同时间点偏好,包含户号信息的来电呼叫总次数,包含户号信息的来电呼叫平均通话时长,包含户号信息的来电呼叫最大通话时长,包含户号信息的来电呼叫最小通话时长,包含户号信息的来电呼叫是否为历史拨打号码,该来电号码来电总次数,该来电号码来电平均通话时长,该来电号码来电最大通话时长,该来电号码来电最小通话时长,该来电最近记录户号是否为历史来电对应户号;
步骤3:文本相似度计算:对用电地址、客户姓名、受理内容、处理意见进行文本分词处理,并基于相似度度量,计算地址相似度、客户姓名相似度,作为校验因素;
步骤4:构建权重划分模型,计算对应关系匹配度得分,根据分值校验关系可靠性;如果关系检验成功,结束;如果关系检验失败,转步骤11;
步骤11:对数据进行清洗,剔除骚扰电话客户、黑名单、红名单客户、中介来电客户;
步骤12:选取如下加工因子指标:地址相似度得分,姓名相似度得分,对应关系来电总次数,对应关系近3月来电次数,对应关系近6月来电次数,平均通话时长,最小通话时长,最大通话时长,拨打事件数,最近来电时间,历史拨打记录中是否存在该对应关系,工作日、非工作日、节假日不同时间点偏好,包含户号信息的来电呼叫总次数,包含户号信息的来电呼叫平均通话时长,包含户号信息的来电呼叫最大通话时长,包含户号信息的来电呼叫最小通话时长,包含户号信息的来电呼叫是否为历史拨打号码,该来电号码来电总次数,该来电号码来电平均通话时长,该来电号码来电最大通话时长,该来电号码来电最小通话时长,该来电最近记录户号是否为历史来电对应户号;
步骤13:文本相似度计算:对用电地址、客户姓名、受理内容、处理意见进行文本分词处理,并基于相似度度量,计算地址相似度、客户姓名相似度,作为校验因素;
步骤14:构建权重划分模型,计算对应关系匹配度得分,根据分值校验关系可靠性;如果关系检验成功,结束;如果关系检验失败,转步骤21;
步骤21:对数据进行清洗,剔除骚扰电话客户、黑名单、红名单客户、中介来电客户;
步骤22:选取如下加工因子指标:地址相似度得分,姓名相似度得分,对应关系来电总次数,对应关系近3月来电次数,对应关系近6月来电次数,平均通话时长,最小通话时长,最大通话时长,拨打事件数,最近来电时间,历史拨打记录中是否存在该对应关系,工作日、非工作日、节假日不同时间点偏好,包含户号信息的来电呼叫总次数,包含户号信息的来电呼叫平均通话时长,包含户号信息的来电呼叫最大通话时长,包含户号信息的来电呼叫最小通话时长,包含户号信息的来电呼叫是否为历史拨打号码,该来电号码来电总次数,该来电号码来电平均通话时长,该来电号码来电最大通话时长,该来电号码来电最小通话时长,该来电最近记录户号是否为历史来电对应户号;
步骤23:文本相似度计算:对用电地址、客户姓名、受理内容、处理意见进行文本分词处理,并基于相似度度量,计算地址相似度、客户姓名相似度,作为校验因素;
步骤24:构建KNN模型,通过计算因子指标之间的距离,计算KNN得分,根据KNN模型输出特性,选取Topk作为模型输出结果,来判别该号码对应的疑似户号。
5.根据权利要求1至4任何一项所述电力客服过程中通过来电号码识别户号的方法,文本相似度计算中的词向量技术为文本编辑距离,两个字符串分别为a=a1a2…an,b=b1b2…bm,其特征在于,二者的编辑距离递归计算方法如下:
其中,w表示增删改三种操作的权重,一般定义为:
其中,w表示增删改三种操作的权重,一般定义为:
di0表示从b′=b1…bi删除为空的编辑次数;d0j表示从空插入成a′=a1…aj所需的编辑次数;dij则是对动态规划中分解子问题的过程。
6.根据权利要求1、2、4任何一项所述电力客服过程中通过来电号码识别户号的方法,其特征在于,构建权重划分模型的过程如下:
数据矩阵如下:
其中,Xij为第i个方案第j个指标的数值;
步骤4-1:数据的非负数化处理:由于熵值法计算采用的是各个方案某一指标占同一指标值总和的比值,因此不存在量纲的影响,不需要进行标准化处理,若数据中有负数,就需要对数据进行非负化处理;此外,为了避免求熵值时对数的无意义,需要进行数据平移:
对于越大越好的指标:
对于越小越好的指标:
为了方便起见,仍记非负化处理后的数据为Xij
步骤4-2:计算第j项指标下第i个方案占该指标的比重:
步骤4-3:计算第j项指标的熵值:
其中k>0,ln为自然对数,ej≥0。式中常数k与样本数m有关,一般令k=1/lnm,则0≤e≤1
步骤4-4:计算第j项指标的差异系数:对于第j项指标,指标值Xij的差异越大,对方案评价的作用越大,熵值就越小;
gj=1-ej,则:gj越大指标越重要
步骤4-5:求权数:
步骤4-6:计算各方案的综合得分:
7.根据权利要求3、4所述电力客服过程中通过来电号码识别户号的方法,其特征在于,所述KNN模型包括如下过程:
步骤24-1:计算测试数据与各个训练数据之间的距离;
步骤24-2:按照距离的递增关系进行排序;
步骤24-3:选取距离最小的K个点;
最常见的两点之间或多点之间的距离表示法,又称之为欧几里得度量,它定义于欧几里得空间中,如点x=(x1,...,xn)和y=(y1,...,yn)之间的距离为:
步骤24-4:确定前K个点所在类别的出现频率;
步骤24-5:返回前K个点中出现频率最高的类别作为测试数据的预测分类。
CN201810946145.9A 2018-08-20 2018-08-20 电力客服过程中通过来电号码识别户号的方法 Active CN108924371B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810946145.9A CN108924371B (zh) 2018-08-20 2018-08-20 电力客服过程中通过来电号码识别户号的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810946145.9A CN108924371B (zh) 2018-08-20 2018-08-20 电力客服过程中通过来电号码识别户号的方法

Publications (2)

Publication Number Publication Date
CN108924371A true CN108924371A (zh) 2018-11-30
CN108924371B CN108924371B (zh) 2020-05-22

Family

ID=64406375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810946145.9A Active CN108924371B (zh) 2018-08-20 2018-08-20 电力客服过程中通过来电号码识别户号的方法

Country Status (1)

Country Link
CN (1) CN108924371B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826589A (zh) * 2019-09-10 2020-02-21 国网浙江省电力有限公司杭州供电公司 用于电力系统内基于knn算法的公司分类方法
CN111092999A (zh) * 2019-11-13 2020-05-01 泰康保险集团股份有限公司 一种数据请求处理方法和装置
CN112115144A (zh) * 2020-09-15 2020-12-22 中电科华云信息技术有限公司 一种基于标准地址矩阵加权映射比对地址匹配的方法
CN113538011A (zh) * 2021-07-24 2021-10-22 深圳供电局有限公司 一种电力系统中非在册联系信息与在册用户的关联方法
CN113672703A (zh) * 2021-08-26 2021-11-19 国家电网有限公司大数据中心 一种用户信息的更新方法、装置、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100172488A1 (en) * 2009-01-08 2010-07-08 Soundbite Communications, Inc. Method and system for managing interactive communications campaign with reduced customer-to-agent connection latency
US20110150206A1 (en) * 2004-09-22 2011-06-23 Altisource Solutions S.a.r.L Call center services system and method
CN102387423A (zh) * 2010-09-01 2012-03-21 中兴通讯股份有限公司 基于智能网的呼叫方法、系统和呼叫装置
CN103118043A (zh) * 2011-11-16 2013-05-22 阿里巴巴集团控股有限公司 一种用户账号的识别方法及设备
CN203192003U (zh) * 2013-04-12 2013-09-11 南京亿数信息科技有限公司 一种电费交费卡识别设备
CN105389341A (zh) * 2015-10-22 2016-03-09 国网山东省电力公司电力科学研究院 一种客服电话重复来电工单的文本聚类与分析方法
CN106851026A (zh) * 2017-01-23 2017-06-13 北京奇虎科技有限公司 无效电话号码识别及清理方法、装置及移动终端
CN107798046A (zh) * 2017-07-25 2018-03-13 平安科技(深圳)有限公司 客户身份信息处理方法、装置、存储介质和计算机设备
US10049155B2 (en) * 2016-01-20 2018-08-14 Bank Of America Corporation System for mending through automated processes

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110150206A1 (en) * 2004-09-22 2011-06-23 Altisource Solutions S.a.r.L Call center services system and method
US20100172488A1 (en) * 2009-01-08 2010-07-08 Soundbite Communications, Inc. Method and system for managing interactive communications campaign with reduced customer-to-agent connection latency
CN102387423A (zh) * 2010-09-01 2012-03-21 中兴通讯股份有限公司 基于智能网的呼叫方法、系统和呼叫装置
CN103118043A (zh) * 2011-11-16 2013-05-22 阿里巴巴集团控股有限公司 一种用户账号的识别方法及设备
CN203192003U (zh) * 2013-04-12 2013-09-11 南京亿数信息科技有限公司 一种电费交费卡识别设备
CN105389341A (zh) * 2015-10-22 2016-03-09 国网山东省电力公司电力科学研究院 一种客服电话重复来电工单的文本聚类与分析方法
US10049155B2 (en) * 2016-01-20 2018-08-14 Bank Of America Corporation System for mending through automated processes
CN106851026A (zh) * 2017-01-23 2017-06-13 北京奇虎科技有限公司 无效电话号码识别及清理方法、装置及移动终端
CN107798046A (zh) * 2017-07-25 2018-03-13 平安科技(深圳)有限公司 客户身份信息处理方法、装置、存储介质和计算机设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
吕辉等: "《基于电力大数据的标签画像技术与应用研究》", 《电力信息与通信技术》 *
李蓉等: "《SVM-KNN分类器——一种提高SVM分类精度的新方法》", 《科学技术与工程》 *
罗辛等: "《通过相似度支持度优化基于K近邻的协同过滤算法》", 《计算机学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826589A (zh) * 2019-09-10 2020-02-21 国网浙江省电力有限公司杭州供电公司 用于电力系统内基于knn算法的公司分类方法
CN111092999A (zh) * 2019-11-13 2020-05-01 泰康保险集团股份有限公司 一种数据请求处理方法和装置
CN112115144A (zh) * 2020-09-15 2020-12-22 中电科华云信息技术有限公司 一种基于标准地址矩阵加权映射比对地址匹配的方法
CN113538011A (zh) * 2021-07-24 2021-10-22 深圳供电局有限公司 一种电力系统中非在册联系信息与在册用户的关联方法
CN113538011B (zh) * 2021-07-24 2024-02-09 深圳供电局有限公司 一种电力系统中非在册联系信息与在册用户的关联方法
CN113672703A (zh) * 2021-08-26 2021-11-19 国家电网有限公司大数据中心 一种用户信息的更新方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN108924371B (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN108924371A (zh) 电力客服过程中通过来电号码识别户号的方法
CN104731976B (zh) 数据表中隐私数据的发现与分类方法
KR101276602B1 (ko) 표의문자적 내용을 가지는 데이터를 서치하고 매칭하기위한 시스템 및 방법
CN108415980A (zh) 问答数据处理方法、电子装置及存储介质
CN104077407B (zh) 一种智能数据搜索系统及方法
US7281001B2 (en) Data quality system
CN110334241A (zh) 客服录音的质检方法、装置、设备及计算机可读存储介质
CN107092592B (zh) 一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法
CN109918556B (zh) 一种综合微博用户社交关系和文本特征抑郁情绪识别方法
CN109492222A (zh) 基于概念树的意图识别方法、装置及计算机设备
CN105787025A (zh) 网络平台公共账号分类方法及装置
CN101236550B (zh) 一种处理树型结构数据的方法及系统
CN111027323A (zh) 一种基于主题模型和语义分析的实体指称项识别方法
CN111191051B (zh) 一种基于中文分词技术的应急知识图谱的构建方法及系统
CN112668323B (zh) 基于自然语言处理的文本要素提取方法及其文本审查系统
CN109684157A (zh) 基于报错日志的告警方法、设备、存储介质及装置
CN112016313A (zh) 口语化要素识别方法及装置、警情分析系统
CN112541077B (zh) 一种用于电网用户服务评价的处理方法及系统
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
JP5098631B2 (ja) メール分類システム、メール検索システム
CN109902154A (zh) 信息处理方法、装置、服务设备及计算机可读存储介质
CN103929499B (zh) 一种物联网异构标识识别方法和系统
CN114611515B (zh) 一种基于企业舆情信息识别企业实际控制人的方法和系统
WO2024001102A1 (zh) 一种通信行业家庭圈智能识别的方法、装置及设备
CN115544235A (zh) 一种基于文本解析的电网规划智能问答系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant