CN110913081B

CN110913081B - 一种识别呼叫中心骚扰电话的方法及系统

Info

Publication number: CN110913081B
Application number: CN201911195920.2A
Authority: CN
Inventors: 周晓勇; 梁淑云; 刘胜; 马影; 陶景龙; 王启凡; 魏国富; 徐�明; 殷钱安; 余贤喆
Original assignee: Information and Data Security Solutions Co Ltd
Current assignee: Information and Data Security Solutions Co Ltd
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2021-04-20
Anticipated expiration: 2039-11-28
Also published as: CN110913081A

Abstract

本发明公开了一种识别呼叫中心骚扰电话的方法及系统，具体为，先进行电话通话因子基准向量的建模，建模过程为：获取呼叫中心全量电话第一通话数据基础表，构建通话特征，生成第一通话特征宽表，生成通话因子挖掘表，生成电话号码的分类，其类中心确定为骚扰电话通话因子基准向量；然后进行骚扰电话识别，具体为：获取待识别电话的第二通话数据基础表；生成第二通话特征宽表，再生成待识别电话的通话因子向量，计算骚扰电话通话因子基准向量与通话因子向量之间的相似度。建模过程仅需要一次聚类和专家经验，此后不再需要人工参与，降低主观性；识别过程仅提取待识别电话的短周期通话数据，数据获取工作量小、运算量小、耗时短。

Description

一种识别呼叫中心骚扰电话的方法及系统

技术领域

本发明涉及电信行业所提供的呼叫中心服务技术领域，具体来说是一种识别呼叫中心骚扰电话的方法及系统。

背景技术

电信行业基础运营商为企业提供呼叫中心服务，企业通过租赁呼叫中心坐席实现集中化的客户运营，运营内容包括但不限于客户发展、客户关怀、客户维系等。呼叫中心为企业降低了运营成本，避免了不必要的重复建设，但个别企业利用呼叫中心向电信用户进行过度的电话营销，构成了事实上的电话骚扰，部分还涉及电话欺诈。

电信行业基础运营商需要对呼叫中心的企业进行监管，杜绝电话骚扰行为，但不良企业会通过假冒行业和伪造运营内容来绕过运营商的监管。

在以往的专利申请(CN201910548703.0)中，提出在获取客户通话数据的通话时间，通信对象、通信频次和通话时长作为主要的聚类特征后，利用K-means聚类算法对通话数据进行分类，确定骚扰电话所属分类，并对骚扰电话进行有效拦截，从而大大降低电话的骚扰频率，为客户提供最佳用户体验。但是该技术依然存在以下缺点：

1、每次识别都需要全量电话的长周期通话数据，数据获取工作量大、运算量大、耗时长；

2、每次识别都需要业务专家对聚类结果进行分析，人工参与度和主观性高；

3、每次识别的聚类结果可能存在很大差异，缺乏对骚扰电话稳定的通话特征刻画；

4、具有大量通话特征的情况时，聚类之间的差异性可解释性低，特别是骚扰电话分类主要特点无法描述。

发明内容

本发明所要解决的技术问题为现有技术中骚扰电话识别技术运算量、主观性强。

本发明通过以下技术手段实现解决上述技术问题的：

一种识别呼叫中心骚扰电话的方法，包括以下步骤：

先进行骚扰电话基准向量建模：

S01，获取呼叫中心全量电话在长周期内的第一通话数据基础表；

S02，基于S01中第一通话数据基础表，构建通话特征，生成第一通话特征宽表；

S03，基于S02通话特征宽表，使用因子分析降维，生成通话因子挖掘表；

S04，基于S03中的通话因子挖掘表，使用聚类算法，生成电话号码的分类；

S05，根据S04中K个分类的类中心，选出骚扰电话所属分类，其类中心确定为骚扰电话通话因子基准向量V_basic；

再进行骚扰电话识别：

S06，获取待识别电话在短周期内的第二通话数据基础表；

S07，基于S06中第二通话数据基础表，按S02中的通话特征构建方法，生成第二通话特征宽表，并使用S03中的因子得分计算模型M_fa，生成待识别电话的通话因子向量V_nbr；

S08，使用相似度算法，计算S05中骚扰电话通话因子基准向量V_basic与S07中待识别电话的通话因子向量V_nbr之间的相似度Sim_nbr；

S09，根据S09中的相似度Sim_nbr和既设的骚扰等级区间，判定待识别电话的骚扰等级L_nbr。

建模过程仅需要一次聚类和专家经验，此后不再需要人工参与，降低主观性；识别过程仅提取待识别电话的短周期通话数据，数据获取工作量小、运算量小、耗时短；建立骚扰电话稳定的通话因子基准向量；使用因子分析(FA)技术对高维通话特征空间进行降维，提高骚扰电话分类主要特点的可解释性。

优选的，所述步骤S01中，所述第一通话数据基础表为信令数据中呼叫中心全量电话的主被叫数据；所述第一通话数据基础表至少包括主被叫标识、是否接通、主叫号码、被叫号码、起始时间、结束时间、通话时长。

优选的，所述步骤S02中，所述第一通话特征宽表中表征性指标至少包括主被叫占比、接通率、不同时段内通话占比、不同通话时长段内通话占比、被叫号码回拨率、被叫号码平均呼叫次数。

优选的，所述步骤S03中具体包括：

S0301，对通话特征做是否适合因子分析的检验，如通过检验，则进入下一步骤S0302，如不通过检验，则返回S02重新构建通话特征；

S0302，提取公因子，使用累计方差贡献率阈值选取TOP-N个公因子；

S0303，采用最大方差法进行因子旋转，提高公因子含义的可解释性；

S0304，计算因子得分，即每个样本在TOP-N个公因子上的分值，生成通话因子挖掘表，保存为因子得分计算模型M_fa。

优选的，所述步骤S04中采用K-means聚类算法生成电话号码的分类。

优选的，所述步骤S05具体为通过业务专家人工选出骚扰电话所属分类。

优选的，所述步骤S06中，所述第二通话数据基础表为信令数据中待识别电话的主被叫数据；第二通话数据基础表至少包括主被叫标识、是否接通、主叫号码、被叫号码、起始时间、结束时间、通话时长。

优选的，所述步骤S08中具体为：采用余弦相似度算法计算Sim_nbr，

余弦相似度的计算公式如下：

其中：Sim_nbr为相似度，V_nbr为待识别电话的通话因子向量，V_basic为骚扰电话通话因子基准向量，θ为V_nbr、V_basic两个向量之间的夹角，V_nbr ⁱ、V_basic ⁱ为V_nbr、V_basic两个向量的分量，n为V_nbr、V_basic两个向量的维数。

优选的，所述步骤S09中具体为：

S0901，设定骚扰等级区间，不失一般性，例如[-1,0.5)为非骚扰，[0.5,0.8]为疑似骚扰，(0.8,1]为认定骚扰；

S0902，以S08输出的相似度Sim_nbr匹配S0901的骚扰等级区间，输出相应的骚扰等级L_nbr。

本发明基于上述方法提供的识别呼叫中心骚扰电话的系统，包括

第一数据获取模块，用于获取通话数据，建立通话第一数据基础表；

特征加工模块，用于从通话数据基础表生成通话特征宽表；

因子分析模块，用于从通话特征宽表生成通话因子挖掘表；

聚类算法模块，用于从通话因子挖掘表，使用聚类算法，生成电话号码的分类；

骚扰电话通话因子基准向量生成模块，用于根据分类的类中心，选出骚扰电话所属分类，其类中心确定为骚扰电话通话因子基准向量Vbasic；

第二数据获取模块，用于获取通话数据，建立通话第二数据基础表；

数据处理模块，基于第二通话数据基础表，按特征加工模块进行特征构建方法，生成第二通话特征宽表，并采用因子分析模块中因子得分计算模型Mfa，生成待识别电话的通话因子向量Vnbr；

相似度计算模块，用于使用相似度算法，计算骚扰电话通话因子基准向量与待识别电话的通话因子向量之间的余弦相似度；

骚扰等级计算模块，用于根据既设区间对待识别电话输出骚扰等级。本发明的优点在于：

1、建模过程仅需要一次聚类和专家经验，此后不再需要人工参与，降低主观性；

2、识别过程仅提取待识别电话的短周期通话数据，数据获取工作量小、运算量小、耗时短；

3、建立骚扰电话稳定的通话因子基准向量；

4、使用因子分析(FA)技术对高维通话特征空间进行降维，提高骚扰电话分类主要特点的可解释性。

附图说明

图1为本发明实施例中识别呼叫中心骚扰电话的方法的流程框图；

图2为本发明实施例中识别呼叫中心骚扰电话的方法中骚扰电话基准向量建模的流程框图；

图3为本发明实施例中识别呼叫中心骚扰电话的方法中识别骚扰电话的流程框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1、图2、图3所示，本实施例提供一种识别呼叫中心骚扰电话的方法，包括如下步骤：

所述之长周期为第一通话数据基础表的数据时间范围，不失一般性，可定义为一个月。

所述之第一通话数据基础表为信令数据中呼叫中心全量电话的主被叫数据，包括但不限于主被叫标识、是否接通、主叫号码、被叫号码、起始时间、结束时间、通话时长等。

所述之通话特征为通过组合次数、比例等指标和是否接通、时段、通话时长等维度，构建的表征性指标，包括但不限于主被叫占比、接通率、不同时段内通话占比、不同通话时长段内通话占比、被叫号码回拨率、被叫号码平均呼叫次数等。

S03，基于S02通话特征宽表，使用因子分析(FA)降维，生成通话因子挖掘表；

因子分析是指从多变量中提取共性因子的统计技术，可在多变量中找出隐藏的具有代表性的因子。通过将相同本质的变量归入一个因子，可减少变量的数目。

由于S02中构建的通话特征数量较大，部分指标间存在相关性，不利于后面聚类结果的解释，所以在本步骤使用因子分析，将数十甚至上百的通话特征降维至个位数的通话因子。

S0301，对通话特征做是否适合因子分析的检验，检验方法例如巴特利特球形检验、反映像相关矩阵检验、KMO检验等；如通过检验，则进入下一步骤S0302，如不通过检验，则返回S02重新构建通话特征；

S0302，提取公因子，例如主成分分析法，使用累计方差贡献率阈值选取TOP-N个公因子；

S0303，采用最大方差法进行因子旋转，提高公因子含义的可解释性，并对其命名，例如呼叫方向因子、响应率因子、通话时段因子、通话时长因子、呼叫离散度因子等；

S0304，计算因子得分，即每个样本在TOP-N个公因子上的分值，生成通话因子挖掘表。因子得分计算的常用方法是回归(regression)估计法或Bartlett估计法(也称加权最小二乘法)，保存为因子得分计算模型M_fa。

所述之聚类算法采用K-means，因为S03输出的因子得分为连续值，并且因子得分是经过标准化之后的数值，不受量纲影响(反之，通话特征具有不同量纲，如次、百分比)，所以基于距离的K-means更加适合。通过聚类建模，将输入的全量电话划分到K个分类中(K的数量通过模型优化获得)。

K-means是一种迭代求解的聚类分析算法，其步骤是随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类，没有(或最小数目)聚类中心再发生变化，误差平方和局部最小。

S05，业务专家根据S04中K个分类的类中心，选出骚扰电话所属分类，其类中心确定为骚扰电话通话因子基准向量V_basic；

在S04中，K-means输出的K个分类，每个分类都具有一个类中心，类中心由TOP-N个公因子上的数值分量组合而成。

类中心之间具有差异性，即在至少一个数值分量上存在大小差异，反映了不同分类在通话特点上的差异。业务专家通过对差异进行分析，可以人为选出骚扰电话所属分类，如表1所示。

表1骚扰电话所属分类表

S06，获取待识别电话在短周期内的第二通话数据基础表；

所述之短周期为第二通话数据基础表的数据时间范围，不失一般性，可定义为一天。

所述之第二通话数据基础表为信令数据中待识别电话的主被叫数据，数据构成同S01中第一通话数据基础表。

S07，基于S06中第二通话数据基础表，按S02中的通话特征构建方法，生成第二通话特征宽表，并使用S0304中的因子得分计算模型M_fa，生成待识别电话的通话因子向量V_nbr；

所述之相似度算法选用余弦相似度。余弦相似度通过计算两个向量的夹角的余弦值来度量向量之间的相似性。在本发明实施例中，骚扰电话通话因子基准向量与待识别电话的通话因子向量之间的余弦相似度的值域为-1到1，当值趋近1时，代表待识别电话与骚扰电话的相似度高，当值趋近-1时，代表待识别电话与骚扰电话的相似度低。

余弦相似度的计算公式如下：

S09，根据S09中的相似度Sim_nbr和既设的骚扰等级区间，判定待识别电话的骚扰等级。

实施例2

与实施例1对应的，提供一种识别呼叫中心骚扰电话的系统，包括

特征加工模块，用于从通话数据基础表生成通话特征宽表；生成第一通话特征宽表；

因子分析模块，用于从通话特征宽表生成通话因子挖掘表；因子分析是指从多变量中提取共性因子的统计技术，可在多变量中找出隐藏的具有代表性的因子。通过将相同本质的变量归入一个因子，可减少变量的数目。由于特征加工模块中构建的通话特征数量较大，部分指标间存在相关性，不利于后面聚类结果的解释，所以在本步骤使用因子分析，将数十甚至上百的通话特征降维至个位数的通话因子。具体过程如下：

聚类算法模块，用于从通话因子挖掘表，使用聚类算法，生成电话号码的分类；所述之聚类算法采用K-means，因为S03输出的因子得分为连续值，并且因子得分是经过标准化之后的数值，不受量纲影响(反之，通话特征具有不同量纲，如次、百分比)，所以基于距离的K-means更加适合。通过聚类建模，将输入的全量电话划分到K个分类中(K的数量通过模型优化获得)。

骚扰电话通话因子基准向量生成模块，用于根据分类的类中心，选出骚扰电话所属分类，其类中心确定为骚扰电话通话因子基准向量V_basic；

在聚类算法模块中，K-means输出的K个分类，每个分类都具有一个类中心，类中心由TOP-N个公因子上的数值分量组合而成。

表1骚扰电话所属分类表

第二数据获取模块，用于获取通话数据，建立通话第二数据基础表；所述之短周期为第二通话数据基础表的数据时间范围，不失一般性，可定义为一天。

所述之第二通话数据基础表为信令数据中待识别电话的主被叫数据，数据构成同第一数据获取模块中第一通话数据基础表。

数据处理模块，基于第二通话数据基础表，按特征加工模块进行特征构建方法，生成第二通话特征宽表，并采用因子分析模块中因子得分计算模型M_fa，生成待识别电话的通话因子向量V_nbr；

余弦相似度的计算公式如下：

骚扰等级计算模块，用于根据既设区间对待识别电话输出骚扰等级。具体为：

先设定骚扰等级区间，不失一般性，例如[-1,0.5)为非骚扰，[0.5,0.8]为疑似骚扰，(0.8,1]为认定骚扰；再以相似度计算模块输出的相似度Sim_nbr匹配上述的骚扰等级区间，输出相应的骚扰等级L_nbr。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种识别呼叫中心骚扰电话的方法，其特征在于：包括以下步骤：

先进行骚扰电话基准向量建模：

S01，获取呼叫中心全量电话在长周期内的第一通话数据基础表；所述第一通话数据基础表为信令数据中呼叫中心全量电话的主被叫数据；

S05，根据S04中分类的类中心，选出骚扰电话所属分类，其类中心确定为骚扰电话通话因子基准向量V_basic；

再进行骚扰电话识别：

S06，获取待识别电话在短周期内的第二通话数据基础表；所述第二通话数据基础表与第一通话数据基础表结构相同；

2.根据权利要求1所述的一种识别呼叫中心骚扰电话的方法，其特征在于：所述步骤S01中，所述第一通话数据基础表为信令数据中呼叫中心全量电话的主被叫数据；所述第一通话数据基础表至少包括主被叫标识、是否接通、主叫号码、被叫号码、起始时间、结束时间、通话时长。

3.根据权利要求1所述的一种识别呼叫中心骚扰电话的方法，其特征在于：所述步骤S02中，所述第一通话特征宽表中表征性指标至少包括主被叫占比、接通率、不同时段内通话占比、不同通话时长段内通话占比、被叫号码回拨率、被叫号码平均呼叫次数。

4.根据权利要求1所述的一种识别呼叫中心骚扰电话的方法，其特征在于：所述步骤S03中具体包括：

5.根据权利要求1所述的一种识别呼叫中心骚扰电话的方法，其特征在于：所述步骤S04中采用K-means聚类算法生成电话号码的分类。

6.根据权利要求1所述的一种识别呼叫中心骚扰电话的方法，其特征在于：所述步骤S05具体为通过业务专家人工选出骚扰电话所属分类。

7.根据权利要求1所述的一种识别呼叫中心骚扰电话的方法，其特征在于：所述步骤S06中，所述第二通话数据基础表为信令数据中待识别电话的主被叫数据；第二通话数据基础表至少包括主被叫标识、是否接通、主叫号码、被叫号码、起始时间、结束时间、通话时长。

8.根据权利要求1所述的一种识别呼叫中心骚扰电话的方法，其特征在于：所述步骤S08中具体为：采用余弦相似度算法计算Sim_nbr，

余弦相似度的计算公式如下：

9.根据权利要求1所述的一种识别呼叫中心骚扰电话的方法，其特征在于：所述步骤S09中具体为：

10.一种识别呼叫中心骚扰电话的系统，其特征在于，包括

第一数据获取模块，用于获取通话数据，建立第一通话数据基础表；所述第一通话数据基础表为信令数据中呼叫中心全量电话的主被叫数据；

特征加工模块，用于从通话数据基础表生成通话特征宽表；

因子分析模块，用于从通话特征宽表生成通话因子挖掘表；

第二数据获取模块，用于获取通话数据，建立第二通话数据基础表；所述第二通话数据基础表与第一通话数据基础表结构相同；

骚扰等级计算模块，用于根据既设区间对待识别电话输出骚扰等级。