CN109274834B

CN109274834B - 一种基于通话行为的快递号码识别方法

Info

Publication number: CN109274834B
Application number: CN201811131645.3A
Authority: CN
Inventors: 杨谨宁; 刘瑶; 王昊; 王娜; 吉立妍
Original assignee: EB INFORMATION TECHNOLOGY Ltd
Current assignee: Xinxun Digital Technology Hangzhou Co ltd
Priority date: 2018-09-27
Filing date: 2018-09-27
Publication date: 2021-04-20
Anticipated expiration: 2038-09-27
Also published as: CN109274834A

Abstract

一种基于通话行为的快递号码识别方法，包括：构建黑白名单通话记录表，并提取表中所有号码在时间周期内的话单记录，计算每个号码在时间周期内的若干通信指标；基于黑白名单通话记录表中每个号码的通信指标，采用机器学习算法，构建快递特征识别规则，并获取每个通信指标的阈值；判断待识别号码在时间周期内的若干通信指标是否符合快递特征识别规则，如果是，则待识别号码是快递号码；如果否，则继续下一步；根据快递特征识别规则和通信指标阈值，计算待识别号码每个通信指标的指标差异度，再计算快递行为差异度，然后基于快递行为差异度判断待识别号码是否是快递号码。本发明属于信息技术领域，能仅基于现网的通话行为来快速精准的识别快递号码。

Description

一种基于通话行为的快递号码识别方法

技术领域

本发明涉及一种基于通话行为的快递号码识别方法，属于信息技术领域。

背景技术

随着互联网时代的到来，快递行业已经深度渗入到人们的生活中，由于巨大的业务量导致了快递公司规模的持续增长以及庞大的快递员群体。如何能从现网中识别出快递号码，从而为用户提供来电号码的精准识别和提示，已成为移动运营商们普遍关注的技术问题。

专利CN 201410666023.6(专利名称：针对快递员周边人群营销中快递员数据的识别方法，申请日：2014-11-19，申请人：杭州亚信软件有限公司)公开了一种针对快递员周边人群营销中快递员数据的识别方法，其首先从经分数据仓库和流量数据仓库中获取快递员用户基本信息、通信信息和位置信息，并关联形成事实宽表；对事实宽表中的多个样本数据进行正负样本分类，然后以相同正负样本比例将事实宽表中数据分为训练集、验证集；再对训练集正、负样本数据进行预处理，进而利用DTRA算法，生成快递员用户特征规则集，并依据特征规则验证验证集中的正、负样本用户；再利用DTRA算法生成潜在快递员数据；最后进行模型效果评估。该技术方案需要同时获取快递员用户基本信息、通信信息和位置信息，在实际应用中会导致较复杂的计算过程。

因而，如何仅基于现网的通话行为来快速精准的识别快递号码，从而为广大用户提供来电号码的精准识别和提示，已成为技术人员急需解决的技术问题。

发明内容

有鉴于此，本发明的目的是提供一种基于通话行为的快递号码识别方法，能仅基于现网的通话行为来快速精准的识别快递号码，从而为广大用户提供来电号码的精准识别和提示。

为了达到上述目的，本发明提供了一种基于通话行为的快递号码识别方法，包括有：

步骤一、构建黑白名单通话记录表，并提取表中所有号码在一定时间周期内的话单记录，然后计算每个号码在时间周期内的若干通信指标；

步骤二、基于黑白名单通话记录表中每个号码的通信指标，采用机器学习算法，构建快递特征识别规则，并从中获取每个通信指标的阈值；

步骤三、提取待识别号码在一定时间周期内的话单记录，并计算待识别号码在时间周期内的通信指标，然后判断待识别号码在时间周期内的若干通信指标是否符合快递特征识别规则，如果是，则待识别号码是快递号码，本流程结束；如果否，则继续下一步；

步骤四、根据通信指标对应的快递特征识别规则和通信指标阈值，计算待识别号码的每个通信指标的指标差异度，再计算待识别号码的快递行为差异度，最后基于待识别号码的快递行为差异度来判断待识别号码是否是快递号码，

还包括有：

步骤A1、判断所提取的话单是否是主叫端话单，如果否，则转向步骤A2；如果是，则提取话单中的主叫号码为统计号码、被叫号码为关联号码，转向步骤A3；

步骤A2、判断所提取的话单是否是被叫端话单，如果是，则提取话单中的被叫号码为统计号码、主叫号码为关联号码，转向步骤A3；如果否，则本流程结束；

步骤A3、判断本地是否已存在该统计号码和关联号码所标识的话单分组，如果是，则将提取话单加入到该统计号码和关联号码标识的话单分组中；如果否，则新建一个话单分组，并采用统计号码和关联号码对新建的话单分组进行标识，然后将提取话单加入到新建的话单分组中，

时间周期内的通信指标包括但不限于呼叫top频数占比，每个统计号码的呼叫top频数占比的计算过程如下：

提取统计号码对应的所有话单分组，根据话单分组所包括的话单记录，计算统计号码和每个话单分组对应的关联号码在时间周期内的互通频次，然后按照互通频次从高到低的顺序进行排序，并按顺序挑选出top-n个排序位置在最前的互通频次，最后计算统计号码在一定时间周期内的呼叫top频数占比：

其中，top_freq(i)是将统计号码和所有关联号码在时间周期内的互通频次按照从高到低的顺序进行排序后排序在第i位的互通频次，

是将统计号码和所有关联号码在时间周期内的互通频次按照从高到低的顺序进行排序后排在前top-n位的所有互通频次之和，called_freq(j)是统计号码和第j个关联号码在时间周期内的互通频次，

是统计号码和所有关联号码在时间周期内的互通频次之和，n是统计号码的所有关联号码数，top-n是呼叫top数，

时间周期内的通信指标包括但不限于关联号码熵，每个统计号码的关联号码熵的计算过程如下：

提取统计号码和关联号码z所标识的话单分组，根据话单分组所包括的话单记录，计算统计号码和关联号码z在一定时间周期内的关联号码熵：called_entropy(z)＝e_perc(z)*ln(e_perc(z))，其中，called_entropy(z)是统计号码和关联号码z在时间周期内的关联号码熵，e_perc(z)是统计号码和关联号码z在时间周期内的频次占比，

called_freq(z)、called_freq(j)分别是统计号码和关联号码z、j在时间周期内的互通频次，

是统计号码和其所有关联号码在时间周期内的互通频次之和，

时间周期内的通信指标包括但不限于接通通话时长三分位数，每个统计号码的接通通话时长三分位数jt_cd_qt_75的计算过程如下：

提取统计号码对应的所有话单分组，根据话单分组所包括的话单记录，逐一计算统计号码和每个话单分组对应的关联号码在时间周期内的接通通话时长，并将接通通话时长按照从小到大的顺序进行排序，然后选取排序位置为第S_3/4位的接通通话时长即是统计号码在一定时间周期内的接通通话时长三分位数，其中，S_3/4＝[n*0.75]，n是统计号码的所有关联号码数，[]表示取整，即S_3/4是对n*0.75取整后的数值，

时间周期内的通信指标包括但不限于P2最大频次占比，每个统计号码的P2最大频次占比P2_max_freq_perc的计算过程如下：

提取统计号码对应的所有话单分组，根据话单分组所包括的话单记录，逐一计算统计号码和每个话单分组对应的关联号码在时间周期内的互通频次，截取每个关联号码的前两位，并将所有关联号码按照号码的前两位数字进行分组，即前两位数字相同的关联号码在同一号码组，前两位数字不同的关联号码在不同号码组，然后计算统计号码和每个号码组中的所有关联号码在时间周期内的互通频次之和，最后从中挑选出互通频次之和的最大值max_p2_freq，计算统计号码在一定时间周期内的P2最大频次占比：

其中，called_freq(j)是统计号码和第j个关联号码在时间周期内的互通频次，

是统计号码和所有关联号码在时间周期内的互通频次之和，n是统计号码的所有关联号码数，

步骤二中，采用决策树得到如下快递特征识别规则：当top-n＝3时，top_freq_perc≥0.38；当top-n＝2时，top_freq_perc≤0.27；called_entropy(z)＞3.01 and jt_cd_qt_75≤68.98 and P2_max_freq_perc≤0.72％，根据上述快递特征识别规则，获取相应的通信指标的阈值：当top-n＝3时，呼叫top频数占比阈值top_freq_perc_yz＝0.38；当top-n＝2时，top_freq_perc_yz＝0.27；关联号码熵阈值called_entropy_yz＝3.01，接通通话时长三分位数阈值jt_cd_qt_75_yz＝68.98，P2最大频次占比阈值P2_max_freq_perc_yz＝0.72％，

步骤四中待识别号码的第x个通信指标的指标差异度的计算过程如下：

步骤41、读取待识别号码的第x个通信指标所对应的快递特征识别规则，并判断快递特征识别规则中通信指标和通信指标阈值之间的关系是否是大于或等于，如果是，则计算第x个通信指标的指标差异度：

其中，δ_x是待识别号码的第x个通信指标的指标差异度，a_x是待识别号码的第x个通信指标值，k_x是第x个通信指标的阈值，本流程结束；如果否，则继续下一步；

步骤42、判断快递特征识别规则中通信指标和通信指标阈值之间的关系是否是小于或等于，如果是，则计算第x个通信指标的指标差异度：

待识别号码的快递行为差异度δ的计算公式如下:

q_x是第x个通信指标的重要度权值，M是所构建的快递特征识别规则数，

步骤四还包括有：

计算待识别号码是否属于快递的决策度量值：

其中，s是待识别号码的快递行为相似度，s＝1-δ，λ是指标相似度权值，并判断L(s)是否小于决策度量阈值，如果是，则待识别号码不是快递号码；如果否，则待识别号码是快递号码。

与现有技术相比，本发明的有益效果是：本发明基于现网中主被叫的通话行为来计算其行为特征，从而能快速、精准的识别出快递号码，计算方法简单且有效，并通过大量实验验证，本发明能取得极高的识别准确率，适于全网推广和应用。

附图说明

图1是本发明一种基于通话行为的快递号码识别方法的流程图。

图2是本发明从每个话单记录中提取统计号码和关联号码，并采用统计号码和关联号码来对所有话单进行分组的实现步骤流程图。

图3是图1步骤四中计算待识别号码的第x个通信指标的指标差异度的计算过程流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

如图1所示，本发明一种基于通话行为的快递号码识别方法，包括有：

例如可以查询话单库，筛选呼叫记录既有主叫端也有被叫端，且天通话次数>5的快递类号码作为黑名单，以及138|139正常类号码作为白名单；

步骤二、基于黑白名单通话记录表中每个号码的通信指标，采用机器学习算法，构建快递特征识别规则，并从中获取每个通信指标的阈值；机器学习算法可以采用逻辑回归、决策树等算法；

步骤四、根据通信指标对应的快递特征识别规则和通信指标阈值，计算待识别号码的每个通信指标的指标差异度，再计算待识别号码的快递行为差异度，最后基于待识别号码的快递行为差异度来判断待识别号码是否是快递号码。

日常事件往往是具有模糊性的，比如，判定一个人高不高，而判定高的标准往往是模糊的。同样号码的行为是否是快递类行为，其往往不只依赖于各指标值是否满足对应的规则要求——事件本身的模糊性，且此类事件是决策环境中常出现的形式，因此本发明可以通过快递特征识别规则和快递行为差异度的计算来多角度的识别快递类号码。

为了充分对主、被叫号码对之间的行为特征进行分析，本发明从每个话单记录中提取统计号码和关联号码，并采用统计号码和关联号码来对所有话单进行分组，然后基于分组后的话单来计算每个统计号码在一定时间周期内的通信指标，如图2所示，进一步包括有：

步骤A1、判断所提取的话单是否是主叫端话单？如果否，则转向步骤A2；如果是，则提取话单中的主叫号码为统计号码、被叫号码为关联号码，转向步骤A3；

步骤A2、判断所提取的话单是否是被叫端话单？如果是，则提取话单中的被叫号码为统计号码、主叫号码为关联号码，转向步骤A3；如果否，则本流程结束；

步骤A3、判断本地是否已存在该统计号码和关联号码所标识的话单分组，如果是，则将提取话单加入到该统计号码和关联号码标识的话单分组中；如果否，则新建一个话单分组，并采用统计号码和关联号码对新建的话单分组进行标识，然后将提取话单加入到新建的话单分组中。

通常诈骗号码的分析只需从它作为主叫号码的主叫行为特征来判定是否具有典型的诈骗特征，从而识别诈骗电话。而正常类号码的分析，往往是需要融合主被叫来分析的，且可通过特征指标来识别不同的朋友圈，类似于家庭圈、工作圈等，快递做为一种特殊的朋友圈，具有强有力的识别价值。本发明新构建和定义了若干通信指标，从而能融合主、被叫号码的行为特征来对快递号码实现精准识别。步骤一和步骤三中，计算黑白名单通话记录表中的每个号码和待识别号码在时间周期内的通信指标即是上述号码作为统计号码在时间周期内的通信指标，通信指标可以包括但不限于：呼叫频次、通话时长、振铃时长、被叫个数、离散度、呼叫top频数占比、关联号码熵、接通通话时长三分位数、P2(手机号前两位)最大频次占比等。下面将针对本发明新定义的通信指标的计算过程进行详细介绍：

1、每个统计号码的呼叫top频数占比的计算过程可以如下：

提取统计号码对应的所有话单分组，根据话单分组所包括的话单记录，计算统计号码和每个话单分组对应的关联号码在时间周期内的互通频次，然后按照互通频次从高到低的顺序进行排序，并按顺序挑选出top-n个排序位置在最前的互通频次(例如最高、次高、和第三高)，最后计算统计号码在一定时间周期内的呼叫top频数占比：

是统计号码和所有关联号码在时间周期内的互通频次之和，n是统计号码的所有关联号码数，top-n是呼叫top数，其值可以根据实际业务需要而设定，例如top-n＝2或3。呼叫top频数占比计算了统计号码和关联号码之间的top互通频次占比，能准确表征统计号码的“朋友圈”程度。

2、每个统计号码的关联号码熵的计算过程可以如下：

是统计号码和其所有关联号码在时间周期内的互通频次之和。关联号码熵用于表示统计号码和关联号码对之间不确定性关联度的度量值，可用于判定互通号码之间的关联程度。

3、每个统计号码的接通通话时长三分位数jt_cd_qt_75的计算过程可以如下：

提取统计号码对应的所有话单分组，根据话单分组所包括的话单记录，逐一计算统计号码和每个话单分组对应的关联号码在时间周期内的接通通话时长，并将接通通话时长按照从小到大的顺序进行排序，然后选取排序位置为第S_3/4位的接通通话时长即是统计号码在一定时间周期内的接通通话时长三分位数，其中，S_3/4＝[n*0.75]，n是统计号码的所有关联号码数，[]表示取整，即S_3/4是对n*0.75取整后的数值。快递类号码的通话时长具有明显特点，通过统计号码的通话时长三分位数可以有效识别快递类号码。

4、每个统计号码的P2(手机号前两位)最大频次占比P2_max_freq_perc的计算过程可以如下：

通过实验分析，P2最大频次占比对识别快递类号码能起到最大的作用。

步骤二中，根据大量实验验证，采用决策树得到如下的快递特征识别规则可以取得较好的技术效果：当top-n＝3时，top_freq_perc≥0.38；当top-n＝2时，top_freq_perc≤0.27；called_entropy(z)＞3.01 and jt_cd_qt_75≤68.98 and P2_max_freq_perc≤0.72％。根据上述快递特征识别规则，可以获取相应的通信指标的阈值：当top-n＝3时，呼叫top频数占比阈值top_freq_perc_yz＝0.38；当top-n＝2时，top_freq_perc_yz＝0.27；关联号码熵阈值called_entropy_yz＝3.01，接通通话时长三分位数阈值jt_cd_qt_75_yz＝68.98，P2最大频次占比阈值P2_max_freq_perc_yz＝0.72％。

如图3所示，步骤四中待识别号码的第x个通信指标的指标差异度的计算过程可以如下：

步骤41、读取待识别号码的第x个通信指标所对应的快递特征识别规则，并判断快递特征识别规则中通信指标和通信指标阈值之间的关系是否是大于或等于？如果是，则计算第x个通信指标的指标差异度：

其中，δ_x是待识别号码的第x个通信指标的指标差异度，a_x是待识别号码的第x个通信指标值，k_x是第x个通信指标的阈值，本流程结束；如果否，则继续下一步；例如，快递特征识别规则top_freq_perc>＝0.38中，通信指标和通信指标阈值之间的关系即是大于或等于；

步骤42、判断快递特征识别规则中通信指标和通信指标阈值之间的关系是否是小于或等于？如果是，则计算第x个通信指标的指标差异度：

例如，快递特征识别规则top_freq_perc<＝0.27中，通信指标和通信指标阈值之间的关系即是小于或等于。

待识别号码的快递行为差异度δ的计算公式可以如下:

q_x是第x个通信指标的重要度权值，其值根据实际业务需要而设定，M是所构建的快递特征识别规则数。

当计算出待识别号码的快递行为差异度δ时，则其相似度为s＝1-δ，可以定义快递行为决策的公认参数L(s)为相似度s的一种决策度量参数，即基于水平为s的截集所做出的决策的公认程度，s越大(或小)，相似度越高(或低)，则对应决策越趋于肯定(或否定)。步骤四还包括有：

计算待识别号码是否属于快递的决策度量值：

其中，s是待识别号码的快递行为相似度，s＝1-δ，λ是指标相似度权值，并判断L(s)是否小于决策度量阈值？如果是，则待识别号码不是快递号码；如果否，则待识别号码是快递号码。L(s)为递增函数，0≤L(s)≤2/(1-λ)，例如设置λ＝0.001，则0≤L(s)≤2.002。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。