CN108924371A

CN108924371A - 电力客服过程中通过来电号码识别户号的方法

Info

Publication number: CN108924371A
Application number: CN201810946145.9A
Authority: CN
Inventors: 刘鲲鹏; 盛妍; 张全; 李俊峰; 肖敏; 王秀春; 马永波; 王艳; 孙蓉
Original assignee: State Grid Co Ltd Customer Service Center
Current assignee: State Grid Co Ltd Customer Service Center
Priority date: 2018-08-20
Filing date: 2018-08-20
Publication date: 2018-11-30
Anticipated expiration: 2038-08-20
Also published as: CN108924371B

Abstract

本发明涉电力客服过程中通过来电号码识别户号的方法。步骤1：对数据进行清洗；步骤2：选取特定加工因子指标；步骤3：文本相似度计算；步骤4：构建权重划分模型，计算对应关系匹配度得分，根据分值校验关系可靠性。本发明相对于现有技术的进步在于：客服接听电话过程中无需核对客户户号信息和地址信息，大大缩短了服务时长，提高了服务效率，降低了高峰时段客户持机排队等待的时长，提高了客户的体验感。

Description

电力客服过程中通过来电号码识别户号的方法

技术领域：

本发明涉及智能客服系统，进一步涉及电力客服过程中通过来电号码识别户号的方法。

背景技术：

国网95598客服人员在受理客户来电业务时，需核对客户户号信息，以便解决客户来电诉求。由于大部分客户无法提供客户户号，坐席人员往往询问客户用电地址信息，通过用电地址与档案用电地址匹配，来寻找客户户号。通过这种方式获取客户户号，势必造成坐席服务效率低下，引起客户情绪浮躁等问题。

另一方面，国网客服中心加强标签深化应用，实现中心标签与省公司标签共享。目前，中心标签是以电话号码为对象构建，省公司标签是以用户号为对象构建，为实现中心和省公司标签共享，需要构建电话号码和用户号之间的动态精准匹配关系，支撑以电话号码为对象的客户画像和以用户号为对象的客户画像，实现中心和省公司在标签对象上的融合应用，支撑个体用户、家庭用户行为特征的关联分析。鉴于此，识别客户来电号码与户号的对应关系势在必行，在提升坐席服务效率、客户满意度以及标签深化应用、标签共享等方面有一定的促进作用。

发明内容：

本发明目的是通过构建数据模型，实现来电号码与户号匹配的有效性。

(一)技术方案一具体如下：

电力客服过程中通过来电号码识别户号的方法，所需基础数据为95598工单数据、通话数据、客户基本档案数据，如果来电号码与户号对应信息关系与客户档案信息完全匹配情况，则判定此类对应关系为有效对应关系；此类情况中，针对号码与户号对应关系与客户档案信息部匹配情况，对此对应关系进行校验，以判定此类关系有效性，包括如下过程：

步骤1：对数据进行清洗，剔除骚扰电话客户、黑名单、红名单客户、中介来电客户；

步骤2：选取如下加工因子指标：地址相似度得分，姓名相似度得分，对应关系来电总次数，对应关系近3月来电次数，对应关系近6月来电次数，平均通话时长，最小通话时长，最大通话时长，拨打事件数，最近来电时间，历史拨打记录中是否存在该对应关系，工作日、非工作日、节假日不同时间点偏好，包含户号信息的来电呼叫总次数，包含户号信息的来电呼叫平均通话时长，包含户号信息的来电呼叫最大通话时长，包含户号信息的来电呼叫最小通话时长，包含户号信息的来电呼叫是否为历史拨打号码，该来电号码来电总次数，该来电号码来电平均通话时长，该来电号码来电最大通话时长，该来电号码来电最小通话时长，该来电最近记录户号是否为历史来电对应户号；

步骤3：文本相似度计算：对用电地址、客户姓名、受理内容、处理意见进行文本分词处理，并基于相似度度量，计算地址相似度、客户姓名相似度，作为校验因素；

步骤4：构建权重划分模型，计算对应关系匹配度得分，根据分值校验关系可靠性。

(二)技术方案二具体如下：

电力客服过程中通过来电号码识别户号的方法，所需基础数据为95598工单数据、通话数据、客户基本档案数据，工单中未记录户号，但来电号码记录在客户基本档案数据中，包括如下过程：

步骤11：对数据进行清洗，剔除骚扰电话客户、黑名单、红名单客户、中介来电客户；

步骤12：选取如下加工因子指标：地址相似度得分，姓名相似度得分，对应关系来电总次数，对应关系近3月来电次数，对应关系近6月来电次数，平均通话时长，最小通话时长，最大通话时长，拨打事件数，最近来电时间，历史拨打记录中是否存在该对应关系，工作日、非工作日、节假日不同时间点偏好，包含户号信息的来电呼叫总次数，包含户号信息的来电呼叫平均通话时长，包含户号信息的来电呼叫最大通话时长，包含户号信息的来电呼叫最小通话时长，包含户号信息的来电呼叫是否为历史拨打号码，该来电号码来电总次数，该来电号码来电平均通话时长，该来电号码来电最大通话时长，该来电号码来电最小通话时长，该来电最近记录户号是否为历史来电对应户号；

步骤13：文本相似度计算：对用电地址、客户姓名、受理内容、处理意见进行文本分词处理，并基于相似度度量，计算地址相似度、客户姓名相似度，作为校验因素；

步骤14：构建权重划分模型，计算对应关系匹配度得分，根据分值校验关系可靠性。

(三)技术方案三具体如下：

电力客服过程中通过来电号码识别户号的方法，所需基础数据为95598工单数据、通话数据、客户基本档案数据，工单中未记录户号，且来电号码未记录在客户基本档案数据中，包括如下过程：

步骤21：对数据进行清洗，剔除骚扰电话客户、黑名单、红名单客户、中介来电客户；

步骤22：选取如下加工因子指标：地址相似度得分，姓名相似度得分，对应关系来电总次数，对应关系近3月来电次数，对应关系近6月来电次数，平均通话时长，最小通话时长，最大通话时长，拨打事件数，最近来电时间，历史拨打记录中是否存在该对应关系，工作日、非工作日、节假日不同时间点偏好，包含户号信息的来电呼叫总次数，包含户号信息的来电呼叫平均通话时长，包含户号信息的来电呼叫最大通话时长，包含户号信息的来电呼叫最小通话时长，包含户号信息的来电呼叫是否为历史拨打号码，该来电号码来电总次数，该来电号码来电平均通话时长，该来电号码来电最大通话时长，该来电号码来电最小通话时长，该来电最近记录户号是否为历史来电对应户号；

步骤23：文本相似度计算：对用电地址、客户姓名、受理内容、处理意见进行文本分词处理，并基于相似度度量，计算地址相似度、客户姓名相似度，作为校验因素；

步骤24：构建KNN模型，通过计算因子指标之间的距离，计算KNN得分，根据KNN模型输出特性，选取Topk作为模型输出结果，来判别该号码对应的疑似户号。

(四)技术方案四具体如下：

电力客服过程中通过来电号码识别户号的方法，所需基础数据为95598工单数据、通话数据、客户基本档案数据，包括如下过程：

步骤0：判断如果来电号码与户号对应信息关系与客户档案信息完全匹配情况，则判定此类对应关系为有效对应关系，转步骤1；如果工单中未记录户号，但来电号码记录在客户基本档案数据中，转步骤11；如果工单中未记录户号，且来电号码未记录在客户基本档案数据中，转步骤21；

步骤4：构建权重划分模型，计算对应关系匹配度得分，根据分值校验关系可靠性；如果关系检验成功，结束；如果关系检验失败，转步骤11；

步骤14：构建权重划分模型，计算对应关系匹配度得分，根据分值校验关系可靠性；如果关系检验成功，结束；如果关系检验失败，转步骤21；

作为上述技术方案一、二、三、四的优选方案，文本相似度计算中的词向量技术为文本编辑距离，从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。定义两个字的互现信息，计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计，不需要切分词典，因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性，会经常抽出一些共现频度高、但并不是词的常用字组，例如“这一”、“之一”、“有的”、“我的”、“许多的”等，并且对常用词的识别精度差，时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词，同时使用统计方法识别一些新的词，即将串频统计和串匹配结合起来，既发挥匹配分词切分速度快、效率高的特点，又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。编辑距离，表示从一个字符串转化为另一个字符串所需要的最少编辑次数，这里的编辑是指将字符串中的一个字符替换成另一个字符，或者插入删除字符。编辑距离的核心就是如何计算出一对字符串间的最小编辑次数，考虑到问题的特点，我们可以使用动态规划的思想来计算其最小编辑次数。两个字符串分别为a＝a1a2…an，b＝b1b2…bm，二者的编辑距离递归计算方法如下：

其中，w表示增删改三种操作的权重，一般定义为：

d_i0表示从b′＝b1…bi删除为空的编辑次数；d_0j表示从空插入成a′＝a1…aj所需的编辑次数；d_ij则是对动态规划中分解子问题的过程。

作为上述技术方案一、二、四的优选方案，构建权重划分模型的过程如下：

数据矩阵如下：

其中，X_ij为第i个方案第j个指标的数值；

步骤4-1：数据的非负数化处理：由于熵值法计算采用的是各个方案某一指标占同一指标值总和的比值，因此不存在量纲的影响，不需要进行标准化处理，若数据中有负数，就需要对数据进行非负化处理；此外，为了避免求熵值时对数的无意义，需要进行数据平移：

对于越大越好的指标：

对于越小越好的指标：

为了方便起见，仍记非负化处理后的数据为X_ij

步骤4-2：计算第j项指标下第i个方案占该指标的比重：

步骤4-3：计算第j项指标的熵值：

其中k>0,ln为自然对数，e_j≥0。式中常数k与样本数m有关，一般令k＝1/lnm,则0≤e≤1

步骤4-4：计算第j项指标的差异系数：对于第j项指标，指标值X_ij的差异越大，对方案评价的作用越大，熵值就越小；

g_j＝1-e_j，则：g_j越大指标越重要

步骤4-5：求权数：

步骤4-6：计算各方案的综合得分：

作为上述技术方案三、四的优选方案，所述KNN模型包括如下过程：

步骤24-1：计算测试数据与各个训练数据之间的距离；

步骤24-2：按照距离的递增关系进行排序；

步骤24-3：选取距离最小的K个点；

最常见的两点之间或多点之间的距离表示法，又称之为欧几里得度量，它定义于欧几里得空间中，如点x＝(x1,...,xn)和y＝(y1,...,yn)之间的距离为：

步骤24-4：确定前K个点所在类别的出现频率；

步骤24-5：返回前K个点中出现频率最高的类别作为测试数据的预测分类。

KNN是通过测量不同特征值之间的距离进行分类。它的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。K通常是不大于20的整数。KNN模型中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

下面通过一个简单的例子说明一下：如图1，中心的圆要被决定赋予哪个类，是三角形还是四方形？如果K＝3，由于三角形所占比例为2/3，中心的圆将被赋予三角形那个类，如果K＝5，由于四方形比例为3/5，因此中心的圆被赋予四方形类。

本发明相对于现有技术的进步在于：引入大数据分析挖掘方法，文本挖掘方法，通过构建数据模型，实现了来电号码与户号的匹配，并计算匹配度得分，根据匹配度得分判别对应关系有效性；客服接听电话过程中无需核对客户户号信息和地址信息，大大缩短了服务时长，提高了服务效率，降低了高峰时段客户持机排队等待的时长，提高了客户的体验感；实现客服中心和省公司标签共享，构建了电话号码和用户号之间的动态精准匹配关系，支撑以电话号码为对象的客户画像和以用户号为对象的客户画像，实现客服中心和省公司在标签对象上的融合应用，支撑个体用户、家庭用户行为特征的关联分析。

附图说明：

图1是KNN模型算法的形象示意图。

具体实施方式：

实施例：

步骤1-步骤4，是工单中记录户号情况的识别过程，

步骤11-步骤14，是工单中未记录户号且号码记录在档案情况识别过程，

步骤21-步骤24，是工单中未记录户号且号码未记录在档案情况识别过程，

文本相似度计算中的词向量技术为文本编辑距离，两个字符串分别为a＝a1a2…an，b＝b1b2…bm，二者的编辑距离递归计算方法如下：

其中，w表示增删改三种操作的权重，一般定义为：

构建权重划分模型的过程如下：

数据矩阵如下：

其中，X_ij为第i个方案第j个指标的数值；

对于越大越好的指标：

对于越小越好的指标：

为了方便起见，仍记非负化处理后的数据为X_ij

步骤4-2：计算第j项指标下第i个方案占该指标的比重：

步骤4-3：计算第j项指标的熵值：

g_j＝1-e_j，则：g_j越大指标越重要

步骤4-5：求权数：

步骤4-6：计算各方案的综合得分：

所述KNN模型包括如下过程：

步骤24-1：计算测试数据与各个训练数据之间的距离；

步骤24-2：按照距离的递增关系进行排序；

步骤24-3：选取距离最小的K个点；

步骤24-4：确定前K个点所在类别的出现频率；

Claims

1.电力客服过程中通过来电号码识别户号的方法，所需基础数据为95598工单数据、通话数据、客户基本档案数据，如果来电号码与户号对应信息关系与客户档案信息完全匹配情况，则判定此类对应关系为有效对应关系；此类情况中，针对号码与户号对应关系与客户档案信息部匹配情况，对此对应关系进行校验，以判定此类关系有效性，其特征在于，包括如下过程：

2.电力客服过程中通过来电号码识别户号的方法，所需基础数据为95598工单数据、通话数据、客户基本档案数据，工单中未记录户号，但来电号码记录在客户基本档案数据中，其特征在于，包括如下过程：

3.电力客服过程中通过来电号码识别户号的方法，所需基础数据为95598工单数据、通话数据、客户基本档案数据，工单中未记录户号，且来电号码未记录在客户基本档案数据中，其特征在于，包括如下过程：

4.电力客服过程中通过来电号码识别户号的方法，所需基础数据为95598工单数据、通话数据、客户基本档案数据，其特征在于，包括如下过程：

5.根据权利要求1至4任何一项所述电力客服过程中通过来电号码识别户号的方法，文本相似度计算中的词向量技术为文本编辑距离，两个字符串分别为a＝a1a2…an，b＝b1b2…bm，其特征在于，二者的编辑距离递归计算方法如下：

其中，w表示增删改三种操作的权重，一般定义为：

6.根据权利要求1、2、4任何一项所述电力客服过程中通过来电号码识别户号的方法，其特征在于，构建权重划分模型的过程如下：

数据矩阵如下：

其中，X_ij为第i个方案第j个指标的数值；

对于越大越好的指标：

对于越小越好的指标：

为了方便起见，仍记非负化处理后的数据为X_ij

步骤4-2：计算第j项指标下第i个方案占该指标的比重：

步骤4-3：计算第j项指标的熵值：

g_j＝1-e_j，则：g_j越大指标越重要

步骤4-5：求权数：

步骤4-6：计算各方案的综合得分：

7.根据权利要求3、4所述电力客服过程中通过来电号码识别户号的方法，其特征在于，所述KNN模型包括如下过程：

步骤24-1：计算测试数据与各个训练数据之间的距离；

步骤24-2：按照距离的递增关系进行排序；

步骤24-3：选取距离最小的K个点；

步骤24-4：确定前K个点所在类别的出现频率；