CN110913081B - 一种识别呼叫中心骚扰电话的方法及系统 - Google Patents
一种识别呼叫中心骚扰电话的方法及系统 Download PDFInfo
- Publication number
- CN110913081B CN110913081B CN201911195920.2A CN201911195920A CN110913081B CN 110913081 B CN110913081 B CN 110913081B CN 201911195920 A CN201911195920 A CN 201911195920A CN 110913081 B CN110913081 B CN 110913081B
- Authority
- CN
- China
- Prior art keywords
- call
- factor
- data
- crank
- nbr
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
- H04M3/2281—Call monitoring, e.g. for law enforcement purposes; Call tracing; Detection or prevention of malicious calls
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/436—Arrangements for screening incoming calls, i.e. evaluating the characteristics of a call before deciding whether to answer it
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/42025—Calling or Called party identification service
- H04M3/42085—Called party identification service
- H04M3/42093—Notifying the calling party of information on the called or connected party
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/51—Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
- H04M3/5175—Call or contact centers supervision arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/20—Aspects of automatic or semi-automatic exchanges related to features of supplementary services
- H04M2203/2027—Live party detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/55—Aspects of automatic or semi-automatic exchanges related to network data storage and management
- H04M2203/555—Statistics, e.g. about subscribers but not being call statistics
- H04M2203/556—Statistical analysis and interpretation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Business, Economics & Management (AREA)
- Marketing (AREA)
- Computer Security & Cryptography (AREA)
- Technology Law (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种识别呼叫中心骚扰电话的方法及系统,具体为,先进行电话通话因子基准向量的建模,建模过程为:获取呼叫中心全量电话第一通话数据基础表,构建通话特征,生成第一通话特征宽表,生成通话因子挖掘表,生成电话号码的分类,其类中心确定为骚扰电话通话因子基准向量;然后进行骚扰电话识别,具体为:获取待识别电话的第二通话数据基础表;生成第二通话特征宽表,再生成待识别电话的通话因子向量,计算骚扰电话通话因子基准向量与通话因子向量之间的相似度。建模过程仅需要一次聚类和专家经验,此后不再需要人工参与,降低主观性;识别过程仅提取待识别电话的短周期通话数据,数据获取工作量小、运算量小、耗时短。
Description
技术领域
本发明涉及电信行业所提供的呼叫中心服务技术领域,具体来说是一种识别呼叫中心骚扰电话的方法及系统。
背景技术
电信行业基础运营商为企业提供呼叫中心服务,企业通过租赁呼叫中心坐席实现集中化的客户运营,运营内容包括但不限于客户发展、客户关怀、客户维系等。呼叫中心为企业降低了运营成本,避免了不必要的重复建设,但个别企业利用呼叫中心向电信用户进行过度的电话营销,构成了事实上的电话骚扰,部分还涉及电话欺诈。
电信行业基础运营商需要对呼叫中心的企业进行监管,杜绝电话骚扰行为,但不良企业会通过假冒行业和伪造运营内容来绕过运营商的监管。
在以往的专利申请(CN201910548703.0)中,提出在获取客户通话数据的通话时间,通信对象、通信频次和通话时长作为主要的聚类特征后,利用K-means聚类算法对通话数据进行分类,确定骚扰电话所属分类,并对骚扰电话进行有效拦截,从而大大降低电话的骚扰频率,为客户提供最佳用户体验。但是该技术依然存在以下缺点:
1、每次识别都需要全量电话的长周期通话数据,数据获取工作量大、运算量大、耗时长;
2、每次识别都需要业务专家对聚类结果进行分析,人工参与度和主观性高;
3、每次识别的聚类结果可能存在很大差异,缺乏对骚扰电话稳定的通话特征刻画;
4、具有大量通话特征的情况时,聚类之间的差异性可解释性低,特别是骚扰电话分类主要特点无法描述。
发明内容
本发明所要解决的技术问题为现有技术中骚扰电话识别技术运算量、主观性强。
本发明通过以下技术手段实现解决上述技术问题的:
一种识别呼叫中心骚扰电话的方法,包括以下步骤:
先进行骚扰电话基准向量建模:
S01,获取呼叫中心全量电话在长周期内的第一通话数据基础表;
S02,基于S01中第一通话数据基础表,构建通话特征,生成第一通话特征宽表;
S03,基于S02通话特征宽表,使用因子分析降维,生成通话因子挖掘表;
S04,基于S03中的通话因子挖掘表,使用聚类算法,生成电话号码的分类;
S05,根据S04中K个分类的类中心,选出骚扰电话所属分类,其类中心确定为骚扰电话通话因子基准向量Vbasic;
再进行骚扰电话识别:
S06,获取待识别电话在短周期内的第二通话数据基础表;
S07,基于S06中第二通话数据基础表,按S02中的通话特征构建方法,生成第二通话特征宽表,并使用S03中的因子得分计算模型Mfa,生成待识别电话的通话因子向量Vnbr;
S08,使用相似度算法,计算S05中骚扰电话通话因子基准向量Vbasic与S07中待识别电话的通话因子向量Vnbr之间的相似度Simnbr;
S09,根据S09中的相似度Simnbr和既设的骚扰等级区间,判定待识别电话的骚扰等级Lnbr。
建模过程仅需要一次聚类和专家经验,此后不再需要人工参与,降低主观性;识别过程仅提取待识别电话的短周期通话数据,数据获取工作量小、运算量小、耗时短;建立骚扰电话稳定的通话因子基准向量;使用因子分析(FA)技术对高维通话特征空间进行降维,提高骚扰电话分类主要特点的可解释性。
优选的,所述步骤S01中,所述第一通话数据基础表为信令数据中呼叫中心全量电话的主被叫数据;所述第一通话数据基础表至少包括主被叫标识、是否接通、主叫号码、被叫号码、起始时间、结束时间、通话时长。
优选的,所述步骤S02中,所述第一通话特征宽表中表征性指标至少包括主被叫占比、接通率、不同时段内通话占比、不同通话时长段内通话占比、被叫号码回拨率、被叫号码平均呼叫次数。
优选的,所述步骤S03中具体包括:
S0301,对通话特征做是否适合因子分析的检验,如通过检验,则进入下一步骤S0302,如不通过检验,则返回S02重新构建通话特征;
S0302,提取公因子,使用累计方差贡献率阈值选取TOP-N个公因子;
S0303,采用最大方差法进行因子旋转,提高公因子含义的可解释性;
S0304,计算因子得分,即每个样本在TOP-N个公因子上的分值,生成通话因子挖掘表,保存为因子得分计算模型Mfa。
优选的,所述步骤S04中采用K-means聚类算法生成电话号码的分类。
优选的,所述步骤S05具体为通过业务专家人工选出骚扰电话所属分类。
优选的,所述步骤S06中,所述第二通话数据基础表为信令数据中待识别电话的主被叫数据;第二通话数据基础表至少包括主被叫标识、是否接通、主叫号码、被叫号码、起始时间、结束时间、通话时长。
优选的,所述步骤S08中具体为:采用余弦相似度算法计算Simnbr,
余弦相似度的计算公式如下:
其中:Simnbr为相似度,Vnbr为待识别电话的通话因子向量,Vbasic为骚扰电话通话因子基准向量,θ为Vnbr、Vbasic两个向量之间的夹角,Vnbr i、Vbasic i为Vnbr、Vbasic两个向量的分量,n为Vnbr、Vbasic两个向量的维数。
优选的,所述步骤S09中具体为:
S0901,设定骚扰等级区间,不失一般性,例如[-1,0.5)为非骚扰,[0.5,0.8]为疑似骚扰,(0.8,1]为认定骚扰;
S0902,以S08输出的相似度Simnbr匹配S0901的骚扰等级区间,输出相应的骚扰等级Lnbr。
本发明基于上述方法提供的识别呼叫中心骚扰电话的系统,包括
第一数据获取模块,用于获取通话数据,建立通话第一数据基础表;
特征加工模块,用于从通话数据基础表生成通话特征宽表;
因子分析模块,用于从通话特征宽表生成通话因子挖掘表;
聚类算法模块,用于从通话因子挖掘表,使用聚类算法,生成电话号码的分类;
骚扰电话通话因子基准向量生成模块,用于根据分类的类中心,选出骚扰电话所属分类,其类中心确定为骚扰电话通话因子基准向量Vbasic;
第二数据获取模块,用于获取通话数据,建立通话第二数据基础表;
数据处理模块,基于第二通话数据基础表,按特征加工模块进行特征构建方法,生成第二通话特征宽表,并采用因子分析模块中因子得分计算模型Mfa,生成待识别电话的通话因子向量Vnbr;
相似度计算模块,用于使用相似度算法,计算骚扰电话通话因子基准向量与待识别电话的通话因子向量之间的余弦相似度;
骚扰等级计算模块,用于根据既设区间对待识别电话输出骚扰等级。本发明的优点在于:
1、建模过程仅需要一次聚类和专家经验,此后不再需要人工参与,降低主观性;
2、识别过程仅提取待识别电话的短周期通话数据,数据获取工作量小、运算量小、耗时短;
3、建立骚扰电话稳定的通话因子基准向量;
4、使用因子分析(FA)技术对高维通话特征空间进行降维,提高骚扰电话分类主要特点的可解释性。
附图说明
图1为本发明实施例中识别呼叫中心骚扰电话的方法的流程框图;
图2为本发明实施例中识别呼叫中心骚扰电话的方法中骚扰电话基准向量建模的流程框图;
图3为本发明实施例中识别呼叫中心骚扰电话的方法中识别骚扰电话的流程框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1、图2、图3所示,本实施例提供一种识别呼叫中心骚扰电话的方法,包括如下步骤:
S01,获取呼叫中心全量电话在长周期内的第一通话数据基础表;
所述之长周期为第一通话数据基础表的数据时间范围,不失一般性,可定义为一个月。
所述之第一通话数据基础表为信令数据中呼叫中心全量电话的主被叫数据,包括但不限于主被叫标识、是否接通、主叫号码、被叫号码、起始时间、结束时间、通话时长等。
S02,基于S01中第一通话数据基础表,构建通话特征,生成第一通话特征宽表;
所述之通话特征为通过组合次数、比例等指标和是否接通、时段、通话时长等维度,构建的表征性指标,包括但不限于主被叫占比、接通率、不同时段内通话占比、不同通话时长段内通话占比、被叫号码回拨率、被叫号码平均呼叫次数等。
S03,基于S02通话特征宽表,使用因子分析(FA)降维,生成通话因子挖掘表;
因子分析是指从多变量中提取共性因子的统计技术,可在多变量中找出隐藏的具有代表性的因子。通过将相同本质的变量归入一个因子,可减少变量的数目。
由于S02中构建的通话特征数量较大,部分指标间存在相关性,不利于后面聚类结果的解释,所以在本步骤使用因子分析,将数十甚至上百的通话特征降维至个位数的通话因子。
S0301,对通话特征做是否适合因子分析的检验,检验方法例如巴特利特球形检验、反映像相关矩阵检验、KMO检验等;如通过检验,则进入下一步骤S0302,如不通过检验,则返回S02重新构建通话特征;
S0302,提取公因子,例如主成分分析法,使用累计方差贡献率阈值选取TOP-N个公因子;
S0303,采用最大方差法进行因子旋转,提高公因子含义的可解释性,并对其命名,例如呼叫方向因子、响应率因子、通话时段因子、通话时长因子、呼叫离散度因子等;
S0304,计算因子得分,即每个样本在TOP-N个公因子上的分值,生成通话因子挖掘表。因子得分计算的常用方法是回归(regression)估计法或Bartlett估计法(也称加权最小二乘法),保存为因子得分计算模型Mfa。
S04,基于S03中的通话因子挖掘表,使用聚类算法,生成电话号码的分类;
所述之聚类算法采用K-means,因为S03输出的因子得分为连续值,并且因子得分是经过标准化之后的数值,不受量纲影响(反之,通话特征具有不同量纲,如次、百分比),所以基于距离的K-means更加适合。通过聚类建模,将输入的全量电话划分到K个分类中(K的数量通过模型优化获得)。
K-means是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。
S05,业务专家根据S04中K个分类的类中心,选出骚扰电话所属分类,其类中心确定为骚扰电话通话因子基准向量Vbasic;
在S04中,K-means输出的K个分类,每个分类都具有一个类中心,类中心由TOP-N个公因子上的数值分量组合而成。
类中心之间具有差异性,即在至少一个数值分量上存在大小差异,反映了不同分类在通话特点上的差异。业务专家通过对差异进行分析,可以人为选出骚扰电话所属分类,如表1所示。
表1骚扰电话所属分类表
S06,获取待识别电话在短周期内的第二通话数据基础表;
所述之短周期为第二通话数据基础表的数据时间范围,不失一般性,可定义为一天。
所述之第二通话数据基础表为信令数据中待识别电话的主被叫数据,数据构成同S01中第一通话数据基础表。
S07,基于S06中第二通话数据基础表,按S02中的通话特征构建方法,生成第二通话特征宽表,并使用S0304中的因子得分计算模型Mfa,生成待识别电话的通话因子向量Vnbr;
S08,使用相似度算法,计算S05中骚扰电话通话因子基准向量Vbasic与S07中待识别电话的通话因子向量Vnbr之间的相似度Simnbr;
所述之相似度算法选用余弦相似度。余弦相似度通过计算两个向量的夹角的余弦值来度量向量之间的相似性。在本发明实施例中,骚扰电话通话因子基准向量与待识别电话的通话因子向量之间的余弦相似度的值域为-1到1,当值趋近1时,代表待识别电话与骚扰电话的相似度高,当值趋近-1时,代表待识别电话与骚扰电话的相似度低。
余弦相似度的计算公式如下:
其中:Simnbr为相似度,Vnbr为待识别电话的通话因子向量,Vbasic为骚扰电话通话因子基准向量,θ为Vnbr、Vbasic两个向量之间的夹角,Vnbr i、Vbasic i为Vnbr、Vbasic两个向量的分量,n为Vnbr、Vbasic两个向量的维数。
S09,根据S09中的相似度Simnbr和既设的骚扰等级区间,判定待识别电话的骚扰等级。
S0901,设定骚扰等级区间,不失一般性,例如[-1,0.5)为非骚扰,[0.5,0.8]为疑似骚扰,(0.8,1]为认定骚扰;
S0902,以S08输出的相似度Simnbr匹配S0901的骚扰等级区间,输出相应的骚扰等级Lnbr。
实施例2
与实施例1对应的,提供一种识别呼叫中心骚扰电话的系统,包括
第一数据获取模块,用于获取通话数据,建立通话第一数据基础表;
所述之长周期为第一通话数据基础表的数据时间范围,不失一般性,可定义为一个月。
所述之第一通话数据基础表为信令数据中呼叫中心全量电话的主被叫数据,包括但不限于主被叫标识、是否接通、主叫号码、被叫号码、起始时间、结束时间、通话时长等。
特征加工模块,用于从通话数据基础表生成通话特征宽表;生成第一通话特征宽表;
所述之通话特征为通过组合次数、比例等指标和是否接通、时段、通话时长等维度,构建的表征性指标,包括但不限于主被叫占比、接通率、不同时段内通话占比、不同通话时长段内通话占比、被叫号码回拨率、被叫号码平均呼叫次数等。
因子分析模块,用于从通话特征宽表生成通话因子挖掘表;因子分析是指从多变量中提取共性因子的统计技术,可在多变量中找出隐藏的具有代表性的因子。通过将相同本质的变量归入一个因子,可减少变量的数目。由于特征加工模块中构建的通话特征数量较大,部分指标间存在相关性,不利于后面聚类结果的解释,所以在本步骤使用因子分析,将数十甚至上百的通话特征降维至个位数的通话因子。具体过程如下:
S0301,对通话特征做是否适合因子分析的检验,检验方法例如巴特利特球形检验、反映像相关矩阵检验、KMO检验等;如通过检验,则进入下一步骤S0302,如不通过检验,则返回S02重新构建通话特征;
S0302,提取公因子,例如主成分分析法,使用累计方差贡献率阈值选取TOP-N个公因子;
S0303,采用最大方差法进行因子旋转,提高公因子含义的可解释性,并对其命名,例如呼叫方向因子、响应率因子、通话时段因子、通话时长因子、呼叫离散度因子等;
S0304,计算因子得分,即每个样本在TOP-N个公因子上的分值,生成通话因子挖掘表。因子得分计算的常用方法是回归(regression)估计法或Bartlett估计法(也称加权最小二乘法),保存为因子得分计算模型Mfa。
聚类算法模块,用于从通话因子挖掘表,使用聚类算法,生成电话号码的分类;所述之聚类算法采用K-means,因为S03输出的因子得分为连续值,并且因子得分是经过标准化之后的数值,不受量纲影响(反之,通话特征具有不同量纲,如次、百分比),所以基于距离的K-means更加适合。通过聚类建模,将输入的全量电话划分到K个分类中(K的数量通过模型优化获得)。
K-means是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。
骚扰电话通话因子基准向量生成模块,用于根据分类的类中心,选出骚扰电话所属分类,其类中心确定为骚扰电话通话因子基准向量Vbasic;
在聚类算法模块中,K-means输出的K个分类,每个分类都具有一个类中心,类中心由TOP-N个公因子上的数值分量组合而成。
类中心之间具有差异性,即在至少一个数值分量上存在大小差异,反映了不同分类在通话特点上的差异。业务专家通过对差异进行分析,可以人为选出骚扰电话所属分类,如表1所示。
表1骚扰电话所属分类表
第二数据获取模块,用于获取通话数据,建立通话第二数据基础表;所述之短周期为第二通话数据基础表的数据时间范围,不失一般性,可定义为一天。
所述之第二通话数据基础表为信令数据中待识别电话的主被叫数据,数据构成同第一数据获取模块中第一通话数据基础表。
数据处理模块,基于第二通话数据基础表,按特征加工模块进行特征构建方法,生成第二通话特征宽表,并采用因子分析模块中因子得分计算模型Mfa,生成待识别电话的通话因子向量Vnbr;
相似度计算模块,用于使用相似度算法,计算骚扰电话通话因子基准向量与待识别电话的通话因子向量之间的余弦相似度;
所述之相似度算法选用余弦相似度。余弦相似度通过计算两个向量的夹角的余弦值来度量向量之间的相似性。在本发明实施例中,骚扰电话通话因子基准向量与待识别电话的通话因子向量之间的余弦相似度的值域为-1到1,当值趋近1时,代表待识别电话与骚扰电话的相似度高,当值趋近-1时,代表待识别电话与骚扰电话的相似度低。
余弦相似度的计算公式如下:
其中:Simnbr为相似度,Vnbr为待识别电话的通话因子向量,Vbasic为骚扰电话通话因子基准向量,θ为Vnbr、Vbasic两个向量之间的夹角,Vnbr i、Vbasic i为Vnbr、Vbasic两个向量的分量,n为Vnbr、Vbasic两个向量的维数。
骚扰等级计算模块,用于根据既设区间对待识别电话输出骚扰等级。具体为:
先设定骚扰等级区间,不失一般性,例如[-1,0.5)为非骚扰,[0.5,0.8]为疑似骚扰,(0.8,1]为认定骚扰;再以相似度计算模块输出的相似度Simnbr匹配上述的骚扰等级区间,输出相应的骚扰等级Lnbr。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种识别呼叫中心骚扰电话的方法,其特征在于:包括以下步骤:
先进行骚扰电话基准向量建模:
S01,获取呼叫中心全量电话在长周期内的第一通话数据基础表;所述第一通话数据基础表为信令数据中呼叫中心全量电话的主被叫数据;
S02,基于S01中第一通话数据基础表,构建通话特征,生成第一通话特征宽表;
S03,基于S02通话特征宽表,使用因子分析降维,生成通话因子挖掘表;
S04,基于S03中的通话因子挖掘表,使用聚类算法,生成电话号码的分类;
S05,根据S04中分类的类中心,选出骚扰电话所属分类,其类中心确定为骚扰电话通话因子基准向量Vbasic;
再进行骚扰电话识别:
S06,获取待识别电话在短周期内的第二通话数据基础表;所述第二通话数据基础表与第一通话数据基础表结构相同;
S07,基于S06中第二通话数据基础表,按S02中的通话特征构建方法,生成第二通话特征宽表,并使用S03中的因子得分计算模型Mfa,生成待识别电话的通话因子向量Vnbr;
S08,使用相似度算法,计算S05中骚扰电话通话因子基准向量Vbasic与S07中待识别电话的通话因子向量Vnbr之间的相似度Simnbr;
S09,根据S09中的相似度Simnbr和既设的骚扰等级区间,判定待识别电话的骚扰等级Lnbr。
2.根据权利要求1所述的一种识别呼叫中心骚扰电话的方法,其特征在于:所述步骤S01中,所述第一通话数据基础表为信令数据中呼叫中心全量电话的主被叫数据;所述第一通话数据基础表至少包括主被叫标识、是否接通、主叫号码、被叫号码、起始时间、结束时间、通话时长。
3.根据权利要求1所述的一种识别呼叫中心骚扰电话的方法,其特征在于:所述步骤S02中,所述第一通话特征宽表中表征性指标至少包括主被叫占比、接通率、不同时段内通话占比、不同通话时长段内通话占比、被叫号码回拨率、被叫号码平均呼叫次数。
4.根据权利要求1所述的一种识别呼叫中心骚扰电话的方法,其特征在于:所述步骤S03中具体包括:
S0301,对通话特征做是否适合因子分析的检验,如通过检验,则进入下一步骤S0302,如不通过检验,则返回S02重新构建通话特征;
S0302,提取公因子,使用累计方差贡献率阈值选取TOP-N个公因子;
S0303,采用最大方差法进行因子旋转,提高公因子含义的可解释性;
S0304,计算因子得分,即每个样本在TOP-N个公因子上的分值,生成通话因子挖掘表,保存为因子得分计算模型Mfa。
5.根据权利要求1所述的一种识别呼叫中心骚扰电话的方法,其特征在于:所述步骤S04中采用K-means聚类算法生成电话号码的分类。
6.根据权利要求1所述的一种识别呼叫中心骚扰电话的方法,其特征在于:所述步骤S05具体为通过业务专家人工选出骚扰电话所属分类。
7.根据权利要求1所述的一种识别呼叫中心骚扰电话的方法,其特征在于:所述步骤S06中,所述第二通话数据基础表为信令数据中待识别电话的主被叫数据;第二通话数据基础表至少包括主被叫标识、是否接通、主叫号码、被叫号码、起始时间、结束时间、通话时长。
9.根据权利要求1所述的一种识别呼叫中心骚扰电话的方法,其特征在于:所述步骤S09中具体为:
S0901,设定骚扰等级区间,不失一般性,例如[-1,0.5)为非骚扰,[0.5,0.8]为疑似骚扰,(0.8,1]为认定骚扰;
S0902,以S08输出的相似度Simnbr匹配S0901的骚扰等级区间,输出相应的骚扰等级Lnbr。
10.一种识别呼叫中心骚扰电话的系统,其特征在于,包括
第一数据获取模块,用于获取通话数据,建立第一通话数据基础表;所述第一通话数据基础表为信令数据中呼叫中心全量电话的主被叫数据;
特征加工模块,用于从通话数据基础表生成通话特征宽表;
因子分析模块,用于从通话特征宽表生成通话因子挖掘表;
聚类算法模块,用于从通话因子挖掘表,使用聚类算法,生成电话号码的分类;
骚扰电话通话因子基准向量生成模块,用于根据分类的类中心,选出骚扰电话所属分类,其类中心确定为骚扰电话通话因子基准向量Vbasic;
第二数据获取模块,用于获取通话数据,建立第二通话数据基础表;所述第二通话数据基础表与第一通话数据基础表结构相同;
数据处理模块,基于第二通话数据基础表,按特征加工模块进行特征构建方法,生成第二通话特征宽表,并采用因子分析模块中因子得分计算模型Mfa,生成待识别电话的通话因子向量Vnbr;
相似度计算模块,用于使用相似度算法,计算骚扰电话通话因子基准向量与待识别电话的通话因子向量之间的余弦相似度;
骚扰等级计算模块,用于根据既设区间对待识别电话输出骚扰等级。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911195920.2A CN110913081B (zh) | 2019-11-28 | 2019-11-28 | 一种识别呼叫中心骚扰电话的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911195920.2A CN110913081B (zh) | 2019-11-28 | 2019-11-28 | 一种识别呼叫中心骚扰电话的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110913081A CN110913081A (zh) | 2020-03-24 |
CN110913081B true CN110913081B (zh) | 2021-04-20 |
Family
ID=69820437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911195920.2A Active CN110913081B (zh) | 2019-11-28 | 2019-11-28 | 一种识别呼叫中心骚扰电话的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110913081B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111708887B (zh) * | 2020-06-15 | 2022-09-23 | 国家计算机网络与信息安全管理中心 | 一种自定义规则的多模型融合的不良呼叫识别方法 |
GB202104475D0 (en) * | 2021-03-30 | 2021-05-12 | British Telecomm | Communications network |
CN114025041B (zh) * | 2021-11-29 | 2023-10-13 | 号百信息服务有限公司 | 一种基于信令的非频率特征快速识别骚扰电话系统和方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103002164A (zh) * | 2012-11-21 | 2013-03-27 | 江苏省电力公司电力科学研究院 | 电力呼叫中心话务量预测方法 |
CN104469025B (zh) * | 2014-11-26 | 2017-08-25 | 杭州东信北邮信息技术有限公司 | 一种基于聚类算法的实时拦截诈骗电话的方法和系统 |
CN107734200B (zh) * | 2017-11-03 | 2019-08-13 | 中国人民解放军信息工程大学 | 一种基于最大似然的通信网用户呼叫行为预测方法及装置 |
US10484532B1 (en) * | 2018-10-23 | 2019-11-19 | Capital One Services, Llc | System and method detecting fraud using machine-learning and recorded voice clips |
CN109447180A (zh) * | 2018-11-14 | 2019-03-08 | 山东省通信管理局 | 一种基于大数据和机器学习的电信诈骗上当人发现方法 |
CN109587350B (zh) * | 2018-11-16 | 2021-06-22 | 国家计算机网络与信息安全管理中心 | 一种基于滑动时间窗口聚合的电信诈骗电话的序列异常检测方法 |
CN109600752B (zh) * | 2018-11-28 | 2022-01-14 | 国家计算机网络与信息安全管理中心 | 一种深度聚类诈骗检测的方法和装置 |
CN109688275A (zh) * | 2018-12-27 | 2019-04-26 | 中国联合网络通信集团有限公司 | 骚扰电话识别方法、装置及存储介质 |
CN110072017A (zh) * | 2019-04-28 | 2019-07-30 | 济南大学 | 基于特征选择与集成学习的异常电话识别方法及系统 |
-
2019
- 2019-11-28 CN CN201911195920.2A patent/CN110913081B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110913081A (zh) | 2020-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110913081B (zh) | 一种识别呼叫中心骚扰电话的方法及系统 | |
CN107872593B (zh) | 坐席分配的方法及装置 | |
US20210319375A1 (en) | Churn prediction in a broadband network | |
CN110992167B (zh) | 银行客户业务意图识别方法及装置 | |
US20210073669A1 (en) | Generating training data for machine-learning models | |
CN111459922A (zh) | 用户识别方法、装置、设备及存储介质 | |
US11735188B2 (en) | System and method for detecting fraud rings | |
US20210406743A1 (en) | Personalized approach to modeling users of a system and/or service | |
CN113206909A (zh) | 骚扰电话拦截方法及装置 | |
CN113746822A (zh) | 一种远程会议管理方法及系统 | |
CN114268839A (zh) | 视频发布账户筛选方法、装置、电子设备及存储介质 | |
CN111367782A (zh) | 回归测试数据自动生成的方法及装置 | |
CN111275453A (zh) | 一种物联网设备的行业识别方法及系统 | |
CN117132391A (zh) | 一种基于人机交互的授信审批方法与系统 | |
CN107871213B (zh) | 一种交易行为评价方法、装置、服务器以及存储介质 | |
US20220246153A1 (en) | System and method for detecting fraudsters | |
US20220318819A1 (en) | Risk clustering and segmentation | |
CN111859057B (zh) | 数据特征处理方法及数据特征处理装置 | |
CN114154556A (zh) | 样本预测模型的训练方法、装置、电子设备及存储介质 | |
CN113450011A (zh) | 任务分配方法和装置 | |
CN113313386A (zh) | 汽车金融风险智能语音调查系统及调查方法 | |
CN112766981A (zh) | 一种基于机器学习的商圈树构建方法及系统 | |
CN113645356A (zh) | 一种基于网内开卡行为分析的诈骗电话识别方法及系统 | |
US20110055145A1 (en) | Method and apparatus for insightful dimensional clustering | |
CN114268939B (zh) | 一种移动通信中异常用户识别的方法及智能设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |