CN109274834B - 一种基于通话行为的快递号码识别方法 - Google Patents

一种基于通话行为的快递号码识别方法 Download PDF

Info

Publication number
CN109274834B
CN109274834B CN201811131645.3A CN201811131645A CN109274834B CN 109274834 B CN109274834 B CN 109274834B CN 201811131645 A CN201811131645 A CN 201811131645A CN 109274834 B CN109274834 B CN 109274834B
Authority
CN
China
Prior art keywords
call
time period
statistical
express
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811131645.3A
Other languages
English (en)
Other versions
CN109274834A (zh
Inventor
杨谨宁
刘瑶
王昊
王娜
吉立妍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinxun Digital Technology Hangzhou Co ltd
Original Assignee
EB INFORMATION TECHNOLOGY Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EB INFORMATION TECHNOLOGY Ltd filed Critical EB INFORMATION TECHNOLOGY Ltd
Priority to CN201811131645.3A priority Critical patent/CN109274834B/zh
Publication of CN109274834A publication Critical patent/CN109274834A/zh
Application granted granted Critical
Publication of CN109274834B publication Critical patent/CN109274834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2218Call detail recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/12Detection or prevention of fraud
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/08Testing, supervising or monitoring using real traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Security & Cryptography (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种基于通话行为的快递号码识别方法,包括:构建黑白名单通话记录表,并提取表中所有号码在时间周期内的话单记录,计算每个号码在时间周期内的若干通信指标;基于黑白名单通话记录表中每个号码的通信指标,采用机器学习算法,构建快递特征识别规则,并获取每个通信指标的阈值;判断待识别号码在时间周期内的若干通信指标是否符合快递特征识别规则,如果是,则待识别号码是快递号码;如果否,则继续下一步;根据快递特征识别规则和通信指标阈值,计算待识别号码每个通信指标的指标差异度,再计算快递行为差异度,然后基于快递行为差异度判断待识别号码是否是快递号码。本发明属于信息技术领域,能仅基于现网的通话行为来快速精准的识别快递号码。

Description

一种基于通话行为的快递号码识别方法
技术领域
本发明涉及一种基于通话行为的快递号码识别方法,属于信息技术领域。
背景技术
随着互联网时代的到来,快递行业已经深度渗入到人们的生活中,由于巨大的业务量导致了快递公司规模的持续增长以及庞大的快递员群体。如何能从现网中识别出快递号码,从而为用户提供来电号码的精准识别和提示,已成为移动运营商们普遍关注的技术问题。
专利CN 201410666023.6(专利名称:针对快递员周边人群营销中快递员数据的识别方法,申请日:2014-11-19,申请人:杭州亚信软件有限公司)公开了一种针对快递员周边人群营销中快递员数据的识别方法,其首先从经分数据仓库和流量数据仓库中获取快递员用户基本信息、通信信息和位置信息,并关联形成事实宽表;对事实宽表中的多个样本数据进行正负样本分类,然后以相同正负样本比例将事实宽表中数据分为训练集、验证集;再对训练集正、负样本数据进行预处理,进而利用DTRA算法,生成快递员用户特征规则集,并依据特征规则验证验证集中的正、负样本用户;再利用DTRA算法生成潜在快递员数据;最后进行模型效果评估。该技术方案需要同时获取快递员用户基本信息、通信信息和位置信息,在实际应用中会导致较复杂的计算过程。
因而,如何仅基于现网的通话行为来快速精准的识别快递号码,从而为广大用户提供来电号码的精准识别和提示,已成为技术人员急需解决的技术问题。
发明内容
有鉴于此,本发明的目的是提供一种基于通话行为的快递号码识别方法,能仅基于现网的通话行为来快速精准的识别快递号码,从而为广大用户提供来电号码的精准识别和提示。
为了达到上述目的,本发明提供了一种基于通话行为的快递号码识别方法,包括有:
步骤一、构建黑白名单通话记录表,并提取表中所有号码在一定时间周期内的话单记录,然后计算每个号码在时间周期内的若干通信指标;
步骤二、基于黑白名单通话记录表中每个号码的通信指标,采用机器学习算法,构建快递特征识别规则,并从中获取每个通信指标的阈值;
步骤三、提取待识别号码在一定时间周期内的话单记录,并计算待识别号码在时间周期内的通信指标,然后判断待识别号码在时间周期内的若干通信指标是否符合快递特征识别规则,如果是,则待识别号码是快递号码,本流程结束;如果否,则继续下一步;
步骤四、根据通信指标对应的快递特征识别规则和通信指标阈值,计算待识别号码的每个通信指标的指标差异度,再计算待识别号码的快递行为差异度,最后基于待识别号码的快递行为差异度来判断待识别号码是否是快递号码,
还包括有:
步骤A1、判断所提取的话单是否是主叫端话单,如果否,则转向步骤A2;如果是,则提取话单中的主叫号码为统计号码、被叫号码为关联号码,转向步骤A3;
步骤A2、判断所提取的话单是否是被叫端话单,如果是,则提取话单中的被叫号码为统计号码、主叫号码为关联号码,转向步骤A3;如果否,则本流程结束;
步骤A3、判断本地是否已存在该统计号码和关联号码所标识的话单分组,如果是,则将提取话单加入到该统计号码和关联号码标识的话单分组中;如果否,则新建一个话单分组,并采用统计号码和关联号码对新建的话单分组进行标识,然后将提取话单加入到新建的话单分组中,
时间周期内的通信指标包括但不限于呼叫top频数占比,每个统计号码的呼叫top频数占比的计算过程如下:
提取统计号码对应的所有话单分组,根据话单分组所包括的话单记录,计算统计号码和每个话单分组对应的关联号码在时间周期内的互通频次,然后按照互通频次从高到低的顺序进行排序,并按顺序挑选出top-n个排序位置在最前的互通频次,最后计算统计号码在一定时间周期内的呼叫top频数占比:
Figure GDA0002758658890000021
其中,top_freq(i)是将统计号码和所有关联号码在时间周期内的互通频次按照从高到低的顺序进行排序后排序在第i位的互通频次,
Figure GDA0002758658890000022
是将统计号码和所有关联号码在时间周期内的互通频次按照从高到低的顺序进行排序后排在前top-n位的所有互通频次之和,called_freq(j)是统计号码和第j个关联号码在时间周期内的互通频次,
Figure GDA0002758658890000023
是统计号码和所有关联号码在时间周期内的互通频次之和,n是统计号码的所有关联号码数,top-n是呼叫top数,
时间周期内的通信指标包括但不限于关联号码熵,每个统计号码的关联号码熵的计算过程如下:
提取统计号码和关联号码z所标识的话单分组,根据话单分组所包括的话单记录,计算统计号码和关联号码z在一定时间周期内的关联号码熵:called_entropy(z)=e_perc(z)*ln(e_perc(z)),其中,called_entropy(z)是统计号码和关联号码z在时间周期内的关联号码熵,e_perc(z)是统计号码和关联号码z在时间周期内的频次占比,
Figure GDA0002758658890000031
called_freq(z)、called_freq(j)分别是统计号码和关联号码z、j在时间周期内的互通频次,
Figure GDA0002758658890000032
是统计号码和其所有关联号码在时间周期内的互通频次之和,
时间周期内的通信指标包括但不限于接通通话时长三分位数,每个统计号码的接通通话时长三分位数jt_cd_qt_75的计算过程如下:
提取统计号码对应的所有话单分组,根据话单分组所包括的话单记录,逐一计算统计号码和每个话单分组对应的关联号码在时间周期内的接通通话时长,并将接通通话时长按照从小到大的顺序进行排序,然后选取排序位置为第S3/4位的接通通话时长即是统计号码在一定时间周期内的接通通话时长三分位数,其中,S3/4=[n*0.75],n是统计号码的所有关联号码数,[]表示取整,即S3/4是对n*0.75取整后的数值,
时间周期内的通信指标包括但不限于P2最大频次占比,每个统计号码的P2最大频次占比P2_max_freq_perc的计算过程如下:
提取统计号码对应的所有话单分组,根据话单分组所包括的话单记录,逐一计算统计号码和每个话单分组对应的关联号码在时间周期内的互通频次,截取每个关联号码的前两位,并将所有关联号码按照号码的前两位数字进行分组,即前两位数字相同的关联号码在同一号码组,前两位数字不同的关联号码在不同号码组,然后计算统计号码和每个号码组中的所有关联号码在时间周期内的互通频次之和,最后从中挑选出互通频次之和的最大值max_p2_freq,计算统计号码在一定时间周期内的P2最大频次占比:
Figure GDA0002758658890000033
其中,called_freq(j)是统计号码和第j个关联号码在时间周期内的互通频次,
Figure GDA0002758658890000041
是统计号码和所有关联号码在时间周期内的互通频次之和,n是统计号码的所有关联号码数,
步骤二中,采用决策树得到如下快递特征识别规则:当top-n=3时,top_freq_perc≥0.38;当top-n=2时,top_freq_perc≤0.27;called_entropy(z)>3.01 and jt_cd_qt_75≤68.98 and P2_max_freq_perc≤0.72%,根据上述快递特征识别规则,获取相应的通信指标的阈值:当top-n=3时,呼叫top频数占比阈值top_freq_perc_yz=0.38;当top-n=2时,top_freq_perc_yz=0.27;关联号码熵阈值called_entropy_yz=3.01,接通通话时长三分位数阈值jt_cd_qt_75_yz=68.98,P2最大频次占比阈值P2_max_freq_perc_yz=0.72%,
步骤四中待识别号码的第x个通信指标的指标差异度的计算过程如下:
步骤41、读取待识别号码的第x个通信指标所对应的快递特征识别规则,并判断快递特征识别规则中通信指标和通信指标阈值之间的关系是否是大于或等于,如果是,则计算第x个通信指标的指标差异度:
Figure GDA0002758658890000042
其中,δx是待识别号码的第x个通信指标的指标差异度,ax是待识别号码的第x个通信指标值,kx是第x个通信指标的阈值,本流程结束;如果否,则继续下一步;
步骤42、判断快递特征识别规则中通信指标和通信指标阈值之间的关系是否是小于或等于,如果是,则计算第x个通信指标的指标差异度:
Figure GDA0002758658890000043
待识别号码的快递行为差异度δ的计算公式如下:
Figure GDA0002758658890000044
qx是第x个通信指标的重要度权值,M是所构建的快递特征识别规则数,
步骤四还包括有:
计算待识别号码是否属于快递的决策度量值:
Figure GDA0002758658890000045
其中,s是待识别号码的快递行为相似度,s=1-δ,λ是指标相似度权值,并判断L(s)是否小于决策度量阈值,如果是,则待识别号码不是快递号码;如果否,则待识别号码是快递号码。
与现有技术相比,本发明的有益效果是:本发明基于现网中主被叫的通话行为来计算其行为特征,从而能快速、精准的识别出快递号码,计算方法简单且有效,并通过大量实验验证,本发明能取得极高的识别准确率,适于全网推广和应用。
附图说明
图1是本发明一种基于通话行为的快递号码识别方法的流程图。
图2是本发明从每个话单记录中提取统计号码和关联号码,并采用统计号码和关联号码来对所有话单进行分组的实现步骤流程图。
图3是图1步骤四中计算待识别号码的第x个通信指标的指标差异度的计算过程流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
如图1所示,本发明一种基于通话行为的快递号码识别方法,包括有:
步骤一、构建黑白名单通话记录表,并提取表中所有号码在一定时间周期内的话单记录,然后计算每个号码在时间周期内的若干通信指标;
例如可以查询话单库,筛选呼叫记录既有主叫端也有被叫端,且天通话次数>5的快递类号码作为黑名单,以及138|139正常类号码作为白名单;
步骤二、基于黑白名单通话记录表中每个号码的通信指标,采用机器学习算法,构建快递特征识别规则,并从中获取每个通信指标的阈值;机器学习算法可以采用逻辑回归、决策树等算法;
步骤三、提取待识别号码在一定时间周期内的话单记录,并计算待识别号码在时间周期内的通信指标,然后判断待识别号码在时间周期内的若干通信指标是否符合快递特征识别规则,如果是,则待识别号码是快递号码,本流程结束;如果否,则继续下一步;
步骤四、根据通信指标对应的快递特征识别规则和通信指标阈值,计算待识别号码的每个通信指标的指标差异度,再计算待识别号码的快递行为差异度,最后基于待识别号码的快递行为差异度来判断待识别号码是否是快递号码。
日常事件往往是具有模糊性的,比如,判定一个人高不高,而判定高的标准往往是模糊的。同样号码的行为是否是快递类行为,其往往不只依赖于各指标值是否满足对应的规则要求——事件本身的模糊性,且此类事件是决策环境中常出现的形式,因此本发明可以通过快递特征识别规则和快递行为差异度的计算来多角度的识别快递类号码。
为了充分对主、被叫号码对之间的行为特征进行分析,本发明从每个话单记录中提取统计号码和关联号码,并采用统计号码和关联号码来对所有话单进行分组,然后基于分组后的话单来计算每个统计号码在一定时间周期内的通信指标,如图2所示,进一步包括有:
步骤A1、判断所提取的话单是否是主叫端话单?如果否,则转向步骤A2;如果是,则提取话单中的主叫号码为统计号码、被叫号码为关联号码,转向步骤A3;
步骤A2、判断所提取的话单是否是被叫端话单?如果是,则提取话单中的被叫号码为统计号码、主叫号码为关联号码,转向步骤A3;如果否,则本流程结束;
步骤A3、判断本地是否已存在该统计号码和关联号码所标识的话单分组,如果是,则将提取话单加入到该统计号码和关联号码标识的话单分组中;如果否,则新建一个话单分组,并采用统计号码和关联号码对新建的话单分组进行标识,然后将提取话单加入到新建的话单分组中。
通常诈骗号码的分析只需从它作为主叫号码的主叫行为特征来判定是否具有典型的诈骗特征,从而识别诈骗电话。而正常类号码的分析,往往是需要融合主被叫来分析的,且可通过特征指标来识别不同的朋友圈,类似于家庭圈、工作圈等,快递做为一种特殊的朋友圈,具有强有力的识别价值。本发明新构建和定义了若干通信指标,从而能融合主、被叫号码的行为特征来对快递号码实现精准识别。步骤一和步骤三中,计算黑白名单通话记录表中的每个号码和待识别号码在时间周期内的通信指标即是上述号码作为统计号码在时间周期内的通信指标,通信指标可以包括但不限于:呼叫频次、通话时长、振铃时长、被叫个数、离散度、呼叫top频数占比、关联号码熵、接通通话时长三分位数、P2(手机号前两位)最大频次占比等。下面将针对本发明新定义的通信指标的计算过程进行详细介绍:
1、每个统计号码的呼叫top频数占比的计算过程可以如下:
提取统计号码对应的所有话单分组,根据话单分组所包括的话单记录,计算统计号码和每个话单分组对应的关联号码在时间周期内的互通频次,然后按照互通频次从高到低的顺序进行排序,并按顺序挑选出top-n个排序位置在最前的互通频次(例如最高、次高、和第三高),最后计算统计号码在一定时间周期内的呼叫top频数占比:
Figure GDA0002758658890000071
其中,top_freq(i)是将统计号码和所有关联号码在时间周期内的互通频次按照从高到低的顺序进行排序后排序在第i位的互通频次,
Figure GDA0002758658890000072
是将统计号码和所有关联号码在时间周期内的互通频次按照从高到低的顺序进行排序后排在前top-n位的所有互通频次之和,called_freq(j)是统计号码和第j个关联号码在时间周期内的互通频次,
Figure GDA0002758658890000073
是统计号码和所有关联号码在时间周期内的互通频次之和,n是统计号码的所有关联号码数,top-n是呼叫top数,其值可以根据实际业务需要而设定,例如top-n=2或3。呼叫top频数占比计算了统计号码和关联号码之间的top互通频次占比,能准确表征统计号码的“朋友圈”程度。
2、每个统计号码的关联号码熵的计算过程可以如下:
提取统计号码和关联号码z所标识的话单分组,根据话单分组所包括的话单记录,计算统计号码和关联号码z在一定时间周期内的关联号码熵:called_entropy(z)=e_perc(z)*ln(e_perc(z)),其中,called_entropy(z)是统计号码和关联号码z在时间周期内的关联号码熵,e_perc(z)是统计号码和关联号码z在时间周期内的频次占比,
Figure GDA0002758658890000074
called_freq(z)、called_freq(j)分别是统计号码和关联号码z、j在时间周期内的互通频次,
Figure GDA0002758658890000075
是统计号码和其所有关联号码在时间周期内的互通频次之和。关联号码熵用于表示统计号码和关联号码对之间不确定性关联度的度量值,可用于判定互通号码之间的关联程度。
3、每个统计号码的接通通话时长三分位数jt_cd_qt_75的计算过程可以如下:
提取统计号码对应的所有话单分组,根据话单分组所包括的话单记录,逐一计算统计号码和每个话单分组对应的关联号码在时间周期内的接通通话时长,并将接通通话时长按照从小到大的顺序进行排序,然后选取排序位置为第S3/4位的接通通话时长即是统计号码在一定时间周期内的接通通话时长三分位数,其中,S3/4=[n*0.75],n是统计号码的所有关联号码数,[]表示取整,即S3/4是对n*0.75取整后的数值。快递类号码的通话时长具有明显特点,通过统计号码的通话时长三分位数可以有效识别快递类号码。
4、每个统计号码的P2(手机号前两位)最大频次占比P2_max_freq_perc的计算过程可以如下:
提取统计号码对应的所有话单分组,根据话单分组所包括的话单记录,逐一计算统计号码和每个话单分组对应的关联号码在时间周期内的互通频次,截取每个关联号码的前两位,并将所有关联号码按照号码的前两位数字进行分组,即前两位数字相同的关联号码在同一号码组,前两位数字不同的关联号码在不同号码组,然后计算统计号码和每个号码组中的所有关联号码在时间周期内的互通频次之和,最后从中挑选出互通频次之和的最大值max_p2_freq,计算统计号码在一定时间周期内的P2最大频次占比:
Figure GDA0002758658890000081
通过实验分析,P2最大频次占比对识别快递类号码能起到最大的作用。
步骤二中,根据大量实验验证,采用决策树得到如下的快递特征识别规则可以取得较好的技术效果:当top-n=3时,top_freq_perc≥0.38;当top-n=2时,top_freq_perc≤0.27;called_entropy(z)>3.01 and jt_cd_qt_75≤68.98 and P2_max_freq_perc≤0.72%。根据上述快递特征识别规则,可以获取相应的通信指标的阈值:当top-n=3时,呼叫top频数占比阈值top_freq_perc_yz=0.38;当top-n=2时,top_freq_perc_yz=0.27;关联号码熵阈值called_entropy_yz=3.01,接通通话时长三分位数阈值jt_cd_qt_75_yz=68.98,P2最大频次占比阈值P2_max_freq_perc_yz=0.72%。
如图3所示,步骤四中待识别号码的第x个通信指标的指标差异度的计算过程可以如下:
步骤41、读取待识别号码的第x个通信指标所对应的快递特征识别规则,并判断快递特征识别规则中通信指标和通信指标阈值之间的关系是否是大于或等于?如果是,则计算第x个通信指标的指标差异度:
Figure GDA0002758658890000082
其中,δx是待识别号码的第x个通信指标的指标差异度,ax是待识别号码的第x个通信指标值,kx是第x个通信指标的阈值,本流程结束;如果否,则继续下一步;例如,快递特征识别规则top_freq_perc>=0.38中,通信指标和通信指标阈值之间的关系即是大于或等于;
步骤42、判断快递特征识别规则中通信指标和通信指标阈值之间的关系是否是小于或等于?如果是,则计算第x个通信指标的指标差异度:
Figure GDA0002758658890000091
例如,快递特征识别规则top_freq_perc<=0.27中,通信指标和通信指标阈值之间的关系即是小于或等于。
待识别号码的快递行为差异度δ的计算公式可以如下:
Figure GDA0002758658890000092
qx是第x个通信指标的重要度权值,其值根据实际业务需要而设定,M是所构建的快递特征识别规则数。
当计算出待识别号码的快递行为差异度δ时,则其相似度为s=1-δ,可以定义快递行为决策的公认参数L(s)为相似度s的一种决策度量参数,即基于水平为s的截集所做出的决策的公认程度,s越大(或小),相似度越高(或低),则对应决策越趋于肯定(或否定)。步骤四还包括有:
计算待识别号码是否属于快递的决策度量值:
Figure GDA0002758658890000093
其中,s是待识别号码的快递行为相似度,s=1-δ,λ是指标相似度权值,并判断L(s)是否小于决策度量阈值?如果是,则待识别号码不是快递号码;如果否,则待识别号码是快递号码。L(s)为递增函数,0≤L(s)≤2/(1-λ),例如设置λ=0.001,则0≤L(s)≤2.002。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (1)

1.一种基于通话行为的快递号码识别方法,其特征在于,包括有:
步骤一、构建黑白名单通话记录表,并提取表中所有号码在一定时间周期内的话单记录,然后计算每个号码在时间周期内的若干通信指标;
步骤二、基于黑白名单通话记录表中每个号码的通信指标,采用机器学习算法,构建快递特征识别规则,并从中获取每个通信指标的阈值;
步骤三、提取待识别号码在一定时间周期内的话单记录,并计算待识别号码在时间周期内的通信指标,然后判断待识别号码在时间周期内的若干通信指标是否符合快递特征识别规则,如果是,则待识别号码是快递号码,本流程结束;如果否,则继续下一步;
步骤四、根据通信指标对应的快递特征识别规则和通信指标阈值,计算待识别号码的每个通信指标的指标差异度,再计算待识别号码的快递行为差异度,最后基于待识别号码的快递行为差异度来判断待识别号码是否是快递号码,
还包括有:
步骤A1、判断所提取的话单是否是主叫端话单,如果否,则转向步骤A2;如果是,则提取话单中的主叫号码为统计号码、被叫号码为关联号码,转向步骤A3;
步骤A2、判断所提取的话单是否是被叫端话单,如果是,则提取话单中的被叫号码为统计号码、主叫号码为关联号码,转向步骤A3;如果否,则本流程结束;
步骤A3、判断本地是否已存在该统计号码和关联号码所标识的话单分组,如果是,则将提取话单加入到该统计号码和关联号码标识的话单分组中;如果否,则新建一个话单分组,并采用统计号码和关联号码对新建的话单分组进行标识,然后将提取话单加入到新建的话单分组中,
时间周期内的通信指标包括但不限于呼叫top频数占比,每个统计号码的呼叫top频数占比的计算过程如下:
提取统计号码对应的所有话单分组,根据话单分组所包括的话单记录,计算统计号码和每个话单分组对应的关联号码在时间周期内的互通频次,然后按照互通频次从高到低的顺序进行排序,并按顺序挑选出top-n个排序位置在最前的互通频次,最后计算统计号码在一定时间周期内的呼叫top频数占比:
Figure FDA0002758658880000011
其中,top_freq(i)是将统计号码和所有关联号码在时间周期内的互通频次按照从高到低的顺序进行排序后排序在第i位的互通频次,
Figure FDA0002758658880000021
是将统计号码和所有关联号码在时间周期内的互通频次按照从高到低的顺序进行排序后排在前top-n位的所有互通频次之和,called_freq(j)是统计号码和第j个关联号码在时间周期内的互通频次,
Figure FDA0002758658880000022
是统计号码和所有关联号码在时间周期内的互通频次之和,n是统计号码的所有关联号码数,top-n是呼叫top数,
时间周期内的通信指标包括但不限于关联号码熵,每个统计号码的关联号码熵的计算过程如下:
提取统计号码和关联号码z所标识的话单分组,根据话单分组所包括的话单记录,计算统计号码和关联号码z在一定时间周期内的关联号码熵:called_entropy(z)=e_perc(z)*ln(e_perc(z)),其中,called_entropy(z)是统计号码和关联号码z在时间周期内的关联号码熵,e_perc(z)是统计号码和关联号码z在时间周期内的频次占比,
Figure FDA0002758658880000023
called_freq(z)、called_freq(j)分别是统计号码和关联号码z、j在时间周期内的互通频次,
Figure FDA0002758658880000024
是统计号码和其所有关联号码在时间周期内的互通频次之和,
时间周期内的通信指标包括但不限于接通通话时长三分位数,每个统计号码的接通通话时长三分位数jt_cd_qt_75的计算过程如下:
提取统计号码对应的所有话单分组,根据话单分组所包括的话单记录,逐一计算统计号码和每个话单分组对应的关联号码在时间周期内的接通通话时长,并将接通通话时长按照从小到大的顺序进行排序,然后选取排序位置为第S3/4位的接通通话时长即是统计号码在一定时间周期内的接通通话时长三分位数,其中,S3/4=[n*0.75],n是统计号码的所有关联号码数,[]表示取整,即S3/4是对n*0.75取整后的数值,
时间周期内的通信指标包括但不限于P2最大频次占比,每个统计号码的P2最大频次占比P2_max_freq_perc的计算过程如下:
提取统计号码对应的所有话单分组,根据话单分组所包括的话单记录,逐一计算统计号码和每个话单分组对应的关联号码在时间周期内的互通频次,截取每个关联号码的前两位,并将所有关联号码按照号码的前两位数字进行分组,即前两位数字相同的关联号码在同一号码组,前两位数字不同的关联号码在不同号码组,然后计算统计号码和每个号码组中的所有关联号码在时间周期内的互通频次之和,最后从中挑选出互通频次之和的最大值max_p2_freq,计算统计号码在一定时间周期内的P2最大频次占比:
Figure FDA0002758658880000031
其中,called_freq(j)是统计号码和第j个关联号码在时间周期内的互通频次,
Figure FDA0002758658880000032
是统计号码和所有关联号码在时间周期内的互通频次之和,n是统计号码的所有关联号码数,
步骤二中,采用决策树得到如下快递特征识别规则:当top-n=3时,top_freq_perc≥0.38;当top-n=2时,top_freq_perc≤0.27;called_entropy(z)>3.01 and jt_cd_qt_75≤68.98 and P2_max_freq_perc≤0.72%,根据上述快递特征识别规则,获取相应的通信指标的阈值:当top-n=3时,呼叫top频数占比阈值top_freq_perc_yz=0.38;当top-n=2时,top_freq_perc_yz=0.27;关联号码熵阈值called_entropy_yz=3.01,接通通话时长三分位数阈值jt_cd_qt_75_yz=68.98,P2最大频次占比阈值P2_max_freq_perc_yz=0.72%,
步骤四中待识别号码的第x个通信指标的指标差异度的计算过程如下:
步骤41、读取待识别号码的第x个通信指标所对应的快递特征识别规则,并判断快递特征识别规则中通信指标和通信指标阈值之间的关系是否是大于或等于,如果是,则计算第x个通信指标的指标差异度:
Figure FDA0002758658880000033
其中,δx是待识别号码的第x个通信指标的指标差异度,ax是待识别号码的第x个通信指标值,kx是第x个通信指标的阈值,本流程结束;如果否,则继续下一步;
步骤42、判断快递特征识别规则中通信指标和通信指标阈值之间的关系是否是小于或等于,如果是,则计算第x个通信指标的指标差异度:
Figure FDA0002758658880000034
待识别号码的快递行为差异度δ的计算公式如下:
Figure FDA0002758658880000041
qx是第x个通信指标的重要度权值,M是所构建的快递特征识别规则数,
步骤四还包括有:
计算待识别号码是否属于快递的决策度量值:
Figure FDA0002758658880000042
其中,s是待识别号码的快递行为相似度,s=1-δ,λ是指标相似度权值,并判断L(s)是否小于决策度量阈值,如果是,则待识别号码不是快递号码;如果否,则待识别号码是快递号码。
CN201811131645.3A 2018-09-27 2018-09-27 一种基于通话行为的快递号码识别方法 Active CN109274834B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811131645.3A CN109274834B (zh) 2018-09-27 2018-09-27 一种基于通话行为的快递号码识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811131645.3A CN109274834B (zh) 2018-09-27 2018-09-27 一种基于通话行为的快递号码识别方法

Publications (2)

Publication Number Publication Date
CN109274834A CN109274834A (zh) 2019-01-25
CN109274834B true CN109274834B (zh) 2021-04-20

Family

ID=65198561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811131645.3A Active CN109274834B (zh) 2018-09-27 2018-09-27 一种基于通话行为的快递号码识别方法

Country Status (1)

Country Link
CN (1) CN109274834B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110519466A (zh) * 2019-08-30 2019-11-29 北京泰迪熊移动科技有限公司 一种快递号码识别方法、设备及计算机存储介质
CN113361807A (zh) * 2021-06-30 2021-09-07 中国电信股份有限公司 号码识别模型优化方法及装置、电子设备
CN113556697B (zh) * 2021-07-21 2022-04-26 智慧足迹数据科技有限公司 基于手机信令的快递员识别方法及相关装置
CN116418913A (zh) * 2023-03-20 2023-07-11 上海昱耀信息科技有限公司 信息显示方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106954218A (zh) * 2017-03-15 2017-07-14 中国联合网络通信集团有限公司 一种骚扰号码分类方法、装置和系统
WO2018027138A1 (en) * 2016-08-04 2018-02-08 Pindrop Security, Inc. Fraud detection in interactive voice response systems
CN107770777A (zh) * 2017-09-30 2018-03-06 杭州东信北邮信息技术有限公司 一种录音诈骗电话的识别方法
CN107889111A (zh) * 2016-09-30 2018-04-06 北京金山安全软件有限公司 基于深层类神经网络的骚扰电话识别方法和装置
CN108093405A (zh) * 2017-11-06 2018-05-29 北京邮电大学 一种诈骗电话号码分析方法和设备
CN108256542A (zh) * 2016-12-29 2018-07-06 北京搜狗科技发展有限公司 一种通信标识的特征确定方法、装置及设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10111094B2 (en) * 2014-09-25 2018-10-23 United States Of America, As Represented By The Secretary Of The Air Force Wireless intrusion detection and device fingerprinting through preamble manipulation
US9338289B1 (en) * 2015-06-26 2016-05-10 Velocify, Inc. Automatic determination of caller identification data in outgoing calls

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018027138A1 (en) * 2016-08-04 2018-02-08 Pindrop Security, Inc. Fraud detection in interactive voice response systems
CN107889111A (zh) * 2016-09-30 2018-04-06 北京金山安全软件有限公司 基于深层类神经网络的骚扰电话识别方法和装置
CN108256542A (zh) * 2016-12-29 2018-07-06 北京搜狗科技发展有限公司 一种通信标识的特征确定方法、装置及设备
CN106954218A (zh) * 2017-03-15 2017-07-14 中国联合网络通信集团有限公司 一种骚扰号码分类方法、装置和系统
CN107770777A (zh) * 2017-09-30 2018-03-06 杭州东信北邮信息技术有限公司 一种录音诈骗电话的识别方法
CN108093405A (zh) * 2017-11-06 2018-05-29 北京邮电大学 一种诈骗电话号码分析方法和设备

Also Published As

Publication number Publication date
CN109274834A (zh) 2019-01-25

Similar Documents

Publication Publication Date Title
CN109274834B (zh) 一种基于通话行为的快递号码识别方法
CN107248082B (zh) 养卡识别方法及装置
CN109640312B (zh) “黑卡”识别方法、电子设备及计算机可读取存储介质
CN108924371B (zh) 电力客服过程中通过来电号码识别户号的方法
CN102083010A (zh) 一种用户信息筛选方法和设备
CN115759640A (zh) 一种智慧城市的公共服务信息处理系统及方法
CN112866486A (zh) 一种基于多源特征的诈骗电话识别方法、系统及设备
CN115222303B (zh) 基于大数据的行业风险数据分析方法、系统及存储介质
CN113961712A (zh) 一种基于知识图谱的诈骗电话分析方法
CN110213449B (zh) 一种漫游诈骗号码的识别方法
CN110348215B (zh) 异常对象识别方法、装置、电子设备及介质
CN108810290A (zh) 一种诈骗电话的识别的方法及系统
CN107222319B (zh) 一种通信操作分析方法及装置
CN108874619B (zh) 一种信息监控方法、存储介质和服务器
CN114817518B (zh) 基于大数据档案识别的证照办理方法、系统及介质
CN116627781A (zh) 目标模型验证方法以及装置
WO2024001102A1 (zh) 一种通信行业家庭圈智能识别的方法、装置及设备
CN114339639B (zh) 通话识别方法、装置、存储介质和电子设备
CN112153220B (zh) 一种基于社交评价动态更新的通信行为识别方法
CN109510903B (zh) 一种识别国际诈骗号码的方法
CN110458707B (zh) 基于分类模型的行为评估方法、装置及终端设备
CN112380323A (zh) 一种基于中文分词识别技术的垃圾信息剔除系统及方法
CN112615966B (zh) 一种猫池终端识别方法
Andreswari et al. Comparative Analysis of K-Means and K-Nearest Neighbor Algorithm for Telecom Fraud Detection
CN113709747B (zh) 一种骚扰号码识别方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 310013 4th floor, No.398 Wensan Road, Xihu District, Hangzhou City, Zhejiang Province

Patentee after: Xinxun Digital Technology (Hangzhou) Co.,Ltd.

Address before: 310013 4th floor, No.398 Wensan Road, Xihu District, Hangzhou City, Zhejiang Province

Patentee before: EB Information Technology Ltd.

CP01 Change in the name or title of a patent holder