CN105578514B - 一种低值终端的识别方法和装置 - Google Patents
一种低值终端的识别方法和装置 Download PDFInfo
- Publication number
- CN105578514B CN105578514B CN201410542189.7A CN201410542189A CN105578514B CN 105578514 B CN105578514 B CN 105578514B CN 201410542189 A CN201410542189 A CN 201410542189A CN 105578514 B CN105578514 B CN 105578514B
- Authority
- CN
- China
- Prior art keywords
- terminal
- group
- stand
- alone
- communication
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Abstract
本发明提供一种低值终端识别方法和装置。所述方法包括:获取归属于第一通信系统且在第一时间段内新增的至少一个第一终端;根据所述第一终端的通信信息,建立所述第一终端和第二终端之间的通信网络;所述第二终端为与所述第一终端具有通信关系且为归属于第二通信系统且在第二时间段内新增的终端;将组成所述通信网络的所述第一终端和所述第二终端,集合为终端群;判断所述终端群中的终端是否能组合为至少两个独立终端群,生成判断结果;当所述判断结果为是时,将所述独立终端群中的第四终端,作为低值终端输出。本发明能够识别通过渠道合作形式造假的低值终端群体。
Description
技术领域
本发明涉及通讯领域,特别是指一种低值终端识别方法和装置。
背景技术
定制终端是移动公司存量客户保有的重要手段,是客户流量的唤醒和激发的重要媒介。近年来,移动定制终端的销量逐年快速增长,全国销量从2010 年的940万台飞跃到2013年的过亿台,其中“裸机”占比高达70%,“裸机”的特性使得套利空间加大,为渠道管理带来了巨大的挑战。
现有的低值终端(低值终端指:渠道商为了获得移动的酬金而虚假销售的终端)识别模式大部分是基于“单个渠道为分析目标”,通常是利用关联分析、决策树等数据挖掘算法工具,发现渠道商的套利方式,然后对识别的渠道商进行审核和审计等工作,达到节能减支、构造良好的渠道环境的战略目标。这样会导致两个问题:一方面,以单个渠道为分析目标,无法识别渠道商之间联合套利的情况,有大量漏网之鱼;另一方面,渠道商套利行为变化多端,通过传统方法训练的模型规则较呆板,无法与时俱进,容易造成误判,引起渠道商的投诉。
互联网领域应用广泛的社交挖掘技术从跟踪客户互动的行为出发,能够解决上述识别模式的问题。其原理是根据新激活终端的主要使用号码和其对端通信号码,与其他新增激活终端的主要使用号码和其对端通信号码的通信情况,推算终端之间是否存在互打行为,从而捕获大批量互相拨打的客户群,破解渠道商利用互打通信制造虚假通信行为的模式。社交圈挖掘运用最常见的两种算法为“GN算法”和“最大团算法”。其中,“GN算法”通过删除一些边,使得网络由一个连接不是很紧密的大社群变为几个内部连接很紧密的小社群。而“最大团算法”则是通过找出一个个社群,而这些社群内部的端点两两之间都有边连接。
无论是“GN算法”还是“最大团算法”,都是寻找紧密度(群体中连接边总条数多)很强的社群,“最大团算法”甚至要求两两用户均需要有连接,但是两个算法都无法获取所有互相联系的大群体。而通过探索发现,渠道商的造假行为,往往是一批终端拨打另外一批终端,而另外一批终端又拨打第三批终端,“GN算法”和“最大团算法”,都无法识别这种通过渠道合作形式造假的终端群体。
发明内容
本发明要解决的技术问题是,提供一种低值终端识别方法和装置,能够识别通过渠道合作形式造假的低值终端群体。
为解决上述技术问题,一方面,提供一种低值终端识别方法,包括:
获取第一通信系统中第一时间段内新增的至少一个第一终端;
根据所述第一终端的通信信息,建立所述第一终端和第二终端之间的通信网络;所述第二终端为与所述第一终端具有通信关系,且为第二通信系统中第二时间段内新增的终端;
将组成所述通信网络的所述第一终端和所述第二终端,集合为终端群;
判断使用所述终端群中的终端是否能组合为至少两个独立终端群,生成判断结果;所述独立终端群为:同一独立终端群中的第四终端之间具有通信关系,且不同独立终端群中的第四终端之间不具有通信关系;
当所述判断结果为是时,将所述独立终端群中的第四终端,作为低值终端输出。
所述独立终端群中的第四终端,作为低值终端输出的步骤包括:
计算所述独立终端群中的第四终端的群体通信关联度,所述第四终端的群体通信关联度表示所述独立终端群中的一第四终端与同一所述独立终端群中的所有其他第四终端的通信关联度;
从所述独立终端群中去掉所述群体通信关联度小于强度阈值的所述第四终端,得到剩余的第四终端;
将所述剩余的第四终端作为低值终端,进行输出。
所述根据所述第一终端的通信信息,建立所述第一终端和第二终端之间的通信网络的步骤包括:
选取一所述第一终端;
根据所述第一终端的通信信息,选取与所述第一终端的通信关联度排名位于前N名、且为第二通信系统中第二时间段内的新增的第二终端,N为大于或等于1的自然数;
建立所述第一终端与N个所述第二终端之间的通信网络。
组合所述至少两个独立终端群的步骤包括:
选择步骤:在所述终端群中选择一第三终端;
查找步骤:在所述终端群中查找与所述第三终端具有通信关系的所有第五终端;
递归步骤:在所述终端群中查找与所述第五终端具有通信关系的所有第六终端;
循环步骤:循环执行所述递归步骤,直到搜索完所述终端群;
组合步骤:将所述第三终端、第五终端、第六终端组成第一独立终端群;
循环执行所述选择步骤至所述组合步骤,组成第二独立终端群。
所述计算所述独立终端群中的第四终端的群体通信关联度的步骤具体为:
计算所述独立终端群中所述第四终端与同一所述独立终端群中的各个其他第四终端的终端通信关联度,所述终端通信关联度表示所述独立终端群中一所述第四终端与同一所述独立终端群中的一其他第四终端的通信关联度;
将所述独立终端群中所述第四终端与同一所述独立终端群中的各个其他第四终端的终端通信关联度的和,作为所述第四终端的群体通信关联度。
所述计算所述独立终端群中所述第四终端与同一所述独立终端群中的各个其他第四终端的终端通信关联度的步骤具体为根据以下公式计算:
f(ccnt,cdur,mcnt)=x*ccnt+y*cdur+z*mcnt;
其中,
f(ccnt,cdur,mcnt)为所述独立终端群的一第四终端与同一所述独立终端群中的一其他第四终端之间的通信关联度;
ccnt为所述独立终端群的一第四终端与同一所述独立终端群中的一其他终端之间的通话次数;
cdur为所述独立终端群的一第四终端与同一所述独立终端群中的一其他第四终端之间的通话总时长;
mcnt为所述独立终端群的一第四终端与同一所述独立终端群中的一其他第四终端之间的短信次数;
x为所述独立终端群的一第四终端与同一所述独立终端群中的其他第四终端之间的通话次数的权值;
y为所述独立终端群的一第四终端与同一所述独立终端群中的其他第四终端之间的通话总时长的权值;
z为所述独立终端群的一第四终端与同一所述独立终端群中的其他第四终端之间的短信次数的权值;
avg(ccnt)为所述独立终端群的一第四终端与同一所述独立终端群中的各个其他第四终端之间的通话次数的平均值;
avg(cdur)为所述独立终端群的一第四终端与同一所述独立终端群中的各个其他第四终端之间的通话总时长的平均值;
avg(mcnt)为所述独立终端群的一第四终端与同一所述独立终端群中的各个其他第四终端之间的短信次数的的平均值。
所述从所述独立终端群中去掉所述群体通信关联度小于强度阈值的所述第四终端,得到剩余终端的步骤包括:
当所述独立终端群中的所述第四终端仅与同一所述独立终端群中的一个其他第四终端有通信关系时,则当所述第四终端的群体通信关联度小于第一强度阈值时,从所述独立终端群中去掉所述第四终端;
当所述独立终端群中的所述第四终端与所述独立终端群内的至少两个其他第四终端有通信关系时,则当所述第四终端的群体通信关联度小于第二强度阈值时,从所述独立终端群中去掉所述第四终端。
当所述判断结果为是时,所述将所述独立终端群中的第四终端,作为低值终端输出的步骤之前,所述方法还包括:
判断所述独立终端群中的第四终端数量是否小于数量阈值;
如果为是,则结束步骤;
否则,则将所述独立终端群中的第四终端,作为低值终端输出。
所述第二终端与第一终端的通信关联度根据以下因素排名:所述第二终端与所述第一终端之间的通话总时长、所述第二终端与所述第一终端之间的通话次数、或所述第二终端与所述第一终端之间的短信次数。
另一方面,提供一种低值终端的识别装置,包括:
获取单元,获取第一通信系统中第一时间段内新增的至少一个第一终端;
建立单元,根据所述第一终端的通信信息,建立所述第一终端和第二终端之间的通信网络;所述第二终端为与所述第一终端具有通信关系,且为第二通信系统中第二时间段内新增的终端;
集合单元,将组成所述通信网络的所述第一终端和所述第二终端,集合为终端群;
判断单元,判断使用所述终端群中的终端是否能组合为至少两个独立终端群,生成判断结果;所述独立终端群为:同一独立终端群中的第四终端之间具有通信关系,且不同独立终端群中的第四终端之间不具有通信关系;
输出单元,当所述判断结果为是时,将所述独立终端群中的第四终端,作为低值终端输出。
所述输出单元包括:
计算子单元,计算所述独立终端群中的第四终端的群体通信关联度,所述第四终端的群体通信关联度表示所述独立终端群中的一第四终端与同一所述独立终端群中的所有其他第四终端的通信关联度;
过滤子单元,从所述独立终端群中去掉所述群体通信关联度小于强度阈值的所述第四终端,得到剩余的第四终端;
输出子单元,将所述剩余的第四终端作为低值终端,进行输出。
所述建立单元包括:
第一选取子单元,选取一所述第一终端;
第二选取子单元,根据所述第一终端的通信信息,选取与所述第一终端的通信关联度排名位于前N名、且为第二通信系统中第二时间段内的新增的第二终端,N为大于或等于1的自然数;
建立子单元,建立所述第一终端与N个所述第二终端之间的通信网络。
所述计算子单元包括:
计算子模块,计算所述独立终端群中所述第四终端与同一所述独立终端群中的各个其他第四终端的终端通信关联度,所述终端通信关联度表示所述独立终端群中一所述第四终端与同一所述独立终端群中的一其他第四终端的通信关联度;
和运算子模块,将所述独立终端群中所述第四终端与同一所述独立终端群中的各个其他终端的终端通信关联度的和,作为所述第四终端的群体通信关联度。
所述过滤子单元包括:
第一过滤子模块,当所述独立终端群中的所述第四终端仅与同一所述独立终端群中的一个其他第四终端有通信关系时,则当所述第四终端的群体通信关联度小于第一强度阈值时,从所述独立终端群中去掉所述第四终端;
第二过滤子模块,当所述独立终端群中的所述第四终端与所述独立终端群内的至少两个其他第四终端有通信关系时,则当所述第四终端的群体通信关联度小于第二强度阈值时,从所述独立终端群中去掉所述第四终端
本发明的上述技术方案的有益效果如下:
本发明根据新增终端间的互打行为识别出所有存在联系的群体,能很好的圈出通信互打的完整群体,不会遗漏通过渠道合作形式造假终的端群体,解决了渠道间新增终端互打造假模式的识别问题。
附图说明
图1为本发明所述的一种低值终端的识别方法的流程示意图;
图2为本发明的实施例中终端之间组建通信网络的示意图;
图3A、3B、3C、3D为本发明的实施例中组合至少两个独立终端群的示意图;
图4为本发明的实施例中四个相互独立的独立终端群的示意图;
图5A为本发明的实施例中终端通信关联度的示意图;
图5B为本发明的实施例中通过终端通信关联度从独立终端群中过滤终端的示意图;
图6为本发明所述的一种低值终端的识别装置的结构示意图;
图7A为现有技术中低值终端的识别示意图;
图7B为本发明的实施例中低值终端的识别示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
如图1所示,为本发明所述的一种低值终端的识别方法,包括:
步骤11,获取第一通信系统中第一时间段内新增的至少一个第一终端;例如,2014年5月新增终端(即新入网终端或者叫新激活终端)A和B。
步骤12,根据所述第一终端的通信信息,建立所述第一终端和第二终端之间的通信网络;所述第二终端为与所述第一终端具有通信关系,且为第二通信系统中第二时间段内新增的终端;其中,第一时间段和第二时间段可以相同,例如,第一时间段和第二时间段均为2014年5月份内;或者,第一时间段和第二时间段可以不相同。第一种情况为:第一时间段包括第二时间段;例如,第一时间段为2014年5和6月份内,第二时间段为2014年5月份内;第二种情况为:第二时间段包括第一时间段;例如,第一时间段为2014年5月份,第二时间段为2014年5和6月份;第三种情况为:第一时间段与第二时间段不重叠,例如第一时间段为2014年5月份内,第二时间段为2014年6月份内。第二通信系统可以与第一通信系统相同,例如第一终端和第二终端都属于移动的用户;第二通信系统可以与第一通信系统不相同,例如第一终端归属于移动的用户,第二终端属于电信的用户。这样,可以来检查不同通信系统的渠道商来合作套利的行为。例如,终端A和终端B在5月有过通话或者发短信行为,则认为终端A和终端B和通信关系,终端A和终端B组成通信网络;终端A 和终端C在5月通话或者发短信,则认为终端A和终端C和通信关系,终端A 和终端C组成通信网络。终端B和终端C在5月通话或者发短信,则认为终端 B和终端C和通信关系,终端B和终端C组成通信网络。
步骤13,将组成所述通信网络的所述第一终端和所述第二终端,集合为终端群;例如,第一种例为:终端A和终端B组成通信网络、终端A和终端C 组成通信网络、终端B和终端C组成通信网络,集合为终端群A、B、C。
步骤14,判断使用所述终端群中的终端是否能组合为至少两个独立终端群,生成判断结果;所述独立终端群为:同一独立终端群中的第四终端之间具有通信关系,且不同独立终端群中的第四终端之间不具有通信关系;例如,,第一种例子为:第一独立终端群A、B、C,第二独立终端群为D、E、F,其中, A、B、C之间有通信关系,D、E、F之间有通信关系;A、B、C和D、E、F之间没有通信关系。第二种例子为:组合不成两个独立终端群,也就是说,不存在所述独立终端群具备下述条件:同一独立终端群中的第四终端之间具有通信关系,且不同独立终端群中的第四终端之间不具有通信关系。
步骤15,当所述判断结果为是时,将所述独立终端群中的第四终端,作为低值终端输出。例如,第一独立终端群A、B、C,第二独立终端群为D、E、 F,其中,A、B、C之间有通信关系,D、E、F之间有通信关系;A、B、C和D、 E、F之间没有通信关系,则将A、B、C和D、E、F分别作为低价值终端输出。
步骤16,当所述判断结果为否时,结束处理。
可选的,当所述判断结果为是时,所述将所述独立终端群中的第四终端,作为低值终端输出的步骤之前,所述方法还包括:
判断所述独立终端群中的第四终端数量是否小于数量阈值;
如果为是,则结束后续处理步骤;
否则,则将所述独立终端群中的第四终端,作为低值终端输出。
该步骤中,可以过滤掉规模小的独立终端群,减少了数据的计算量,提高了效率。例如,当独立终端群中的终端的数量超过M(这里推荐为50,为一地市互打造假的最小规模数),则认为这个群体为互打群体,即为低值群体;否则,对该群体直接剔除,不认为低值群体,或者说,该群体终端数量太少,可以忽略不计。
步骤15包括:
步骤151,计算所述独立终端群中的第四终端的群体通信关联度,所述第四终端的群体通信关联度表示所述独立终端群中的一第四终端与同一所述独立终端群中的所有其他第四终端的通信关联度;
步骤152,从所述独立终端群中去掉所述群体通信关联度小于强度阈值的所述第四终端,得到剩余的第四终端;
步骤153,将所述剩余的第四终端作为低值终端,进行输出。例如,第一独立终端群A、B、C,当终端B的群体通信关联度小于阈值时,将终端B去掉,得到A、C,将终端A、C作为低值终端输出.
步骤12包括:
步骤121,选取一所述第一终端;
步骤122,根据所述第一终端的通信信息,选取与所述第一终端的通信关联度排名位于前N名、且为第二通信系统中第二时间段内的新增的第二终端, N为大于或等于1的自然数;所述第二终端与第一终端的通信关联度根据以下因素排名:所述第二终端与所述第一终端之间的通话总时长、所述第二终端与所述第一终端之间的通话次数、或所述第二终端与所述第一终端之间的短信次数。例如,两个终端B1、B2与终端A通信关联度最高,终端B1为第二通信系统中第二时间段内的新增终端,终端B2不是第二通信系统中第二时间段内的新增终端,则终端A与B1构成通信网络。
步骤123,建立所述第一终端与N个所述第二终端之间的通信网络。例如图2中,情况1为:终端A与通信次数前二的新增对端B1、B2构成通信网络。
情况2为:终端B2与通信次数前二的新增对端A和C4构成通信网络。
情况3为:终端B1的通信次数前二并不是A,而为新终端C1和C2,终端 B1与通信次数前二的新增对端C1和C2构成通信网络。
情况4为:终端D1的通信次数前二只有C4,这是由于D1通信前2里只有一个是新增终端,或者当月只与C4产生通话,终端D1与通信次数前二的新增对端C4构成通信网络。
情况5为:终端H1通话次数前2都不是新增终端,终端H1没有构成通信网络。
重复步骤121-步骤123,遍历所有的第一终端,为所有的第一终端与符合条件的第二终端建立通信网络。
所述组合至少两个独立终端群包括:
步骤141,选择步骤:在所述终端群中选择一第三终端;
步骤142,查找步骤:在所述终端群中查找与所述第三终端具有通信关系的所有第五终端;
步骤143,递归步骤:在所述终端群中查找与所述第五终端具有通信关系的所有第六终端;
步骤143,循环步骤:循环执行所述递归步骤,直到搜索完所述终端群;
步骤144,组合步骤:将所述第三终端、第五终端、第六终端组成第一一独立终端群。
步骤145,循环执行所述选择步骤至所述组合步骤,组成第二独立终端群。
例如,步骤14包括:
步骤b1:如图3A所示,选择新终端A;
步骤b2:如图3B所示,选取与终端A有通信关系的新增终端B,合并为新的群体;
步骤b3:如图3C所示,选取与终端B有通信关系的新增终端C,合并为新的群体;
步骤b4:如图3D所示,重复第三步,直到没法再添加有通信关系的新增终端到群体里面,即为一个完整的整体,组成第一独立终端群。
步骤b5:识别出第一个独立终端群后,再选取第一个独立终端群外的单个终端,重复上述b1至步骤b4的操作,形成新的独立终端群,以此类推,直到所有新增终端都划分为不同的独立终端群。最后效果示例如图4所示,形成了四个相互独立的群体(独立终端群)。
步骤151具体为:
步骤1511,计算所述独立终端群中所述第四终端与同一所述独立终端群中的各个其他第四终端的终端通信关联度,所述终端通信关联度表示所述独立终端群中一所述第四终端与同一所述独立终端群中的一其他第四终端的通信关联度;
步骤1512,将所述独立终端群中所述第四终端与同一所述独立终端群中的各个其他第四终端的终端通信关联度的和,作为所述第四终端的群体通信关联度。例如,如图5所示,B1与C1的终端通信关联度为1.7;B1与A的终端通信关联度为3.3;B1与c2的终端通信关联度为2.2;B1与c3的终端通信关联度1.1;则终端B1群体通信关联度为1.7+3.3+2.2+1.1=8.8。
步骤1511具体为根据以下公式计算:
f(ccnt,cdur,mcnt)=x*ccnt+y*cdur+z*mcnt;
其中,
f(ccnt,cdur,mcnt)为所述独立终端群的一第四终端与同一所述独立终端群中的一其他第四终端之间的通信关联度;
ccnt为所述独立终端群的一第四终端与同一所述独立终端群中的一其他终端之间的通话次数;
cdur为所述独立终端群的一第四终端与同一所述独立终端群中的一其他第四终端之间的通话总时长;
mcnt为所述独立终端群的一第四终端与同一所述独立终端群中的一其他第四终端之间的短信次数;
x为所述独立终端群的一第四终端与同一所述独立终端群中的其他第四终端之间的通话次数的权值;
y为所述独立终端群的一第四终端与同一所述独立终端群中的其他第四终端之间的通话总时长的权值;
z为所述独立终端群的一第四终端与同一所述独立终端群中的其他第四终端之间的短信次数的权值;
avg(ccnt)为所述独立终端群的一第四终端与同一所述独立终端群中的各个其他第四终端之间的通话次数的平均值;
avg(cdur)为所述独立终端群的一第四终端与同一所述独立终端群中的各个其他第四终端之间的通话总时长的平均值;
avg(mcnt)为所述独立终端群的一第四终端与同一所述独立终端群中的各个其他第四终端之间的短信次数的的平均值。
步骤152包括:
步骤1521,当所述独立终端群中的所述第四终端仅与同一所述独立终端群中的一个其他终端有通信关系时,则当所述第四终端的群体通信关联度小于第一强度阈值时,从所述独立终端群中去掉所述第四终端;
步骤1522,当所述独立终端群中的所述第四终端与所述独立终端群内的至少两个其他终端有通信关系时,则当所述第四终端的群体通信关联度小于第二强度阈值时,从所述独立终端群中去掉所述第四终端。也就是说,当第四终端仅与同一所述独立终端群中的一个其他终端有通信关系或者所述第四终端与所述独立终端群内的至少两个其他终端有通信关系时,可以采用不同的阈值。
本发明第一实施例的处理流程包括:
首先,获取各渠道的第一时间段内(例如,M月)新激活的终端(即新增终端),根据这些终端之间的通话信息构建终端的通信网络;
然后,通过终端之间的通信网络,算出相互联系的独立终端群,即独立终端群内的终端是有互打关系而独立终端群间的终端没有互打关系;
最后,通过计算这些独立终端群的通信强度,修剪过滤掉与群体通信强度非常低的终端,最终得出低值终端群体。
本发明第二实施例的处理流程包括:
首先,通信网络抽取模块抽取新增终端的交往圈通信信息,计算交往圈的通话次数,并选出通话次数最大(或者为联系强度最大)的两台新增终端,并将群体信息推送到独立子集计算模块;
然后,计算出每个内部相互联系、外部不联系的群体集合,得出疑似低值终端群体;具体的识别方法步骤如下:步骤A,选取任意一个渠道任意一台新激活终端A作为初始群体。步骤B,选取与终端A有联系的同一个月激活的终端B1、B2等,合并为新群体。步骤C,选取与终端B1(或B2)有联系的同一个月激活的终端C1、C2等,合并至新群体中。重复C步骤,直到无法再添加有联系的新增终端到群体里为止,即为一个完整的独立子集。
然后,圈出互打数量>M的群体,即选出群体规模达到M的群体;
然后,计算得到每个互打群体内部通信强度,抽取通信强度>P的终端,输出到相应的服务管理接口。即过滤互打群体里面与群体其他终端联系非常弱的终端,然而把低值终端名单输出至运营商的服务管理平台,配置作业进行识别,为惩罚渠道商提供依据。
本发明第三实施例的处理流程包括:
步骤1,抽取M月激活终端的交往圈信息。交往圈信息包括:终端的通话和/或发短信的信息。
该步骤具体为:根据抽取的交网圈信息,构建终端通信网络,选取每个与激活终端通话次数排名前N的对端终端。N取低值终端的平均联系人个数,推荐为2,可以根据近一地市的统计值来确定。对通信网络里面的终端使用改进后深度优先搜索算法找出互相独立的群体。具体包括:
步骤a.选取每个激活终端通话次数排名前二的终端,减去其他的通信分支,构建网络的数据结构,如图2为几台新增终端的通信网络分布示意图。
其中,图中的情况1为:终端A与通信次数前二的新增对端B1、B2构成通信网络。
情况2为:终端B2与通信次数前二的新增对端A和C4构成通信网络。
情况3为:终端B1的通信次数前二并不是A,而为新终端C1和C2。
情况4为:终端D1的通信次数前二只有C4,这是由于D1通信前2里只有一个是新增终端,或者当月只与C4产生通话。
情况5为:终端H1通话次数前2都不是新增终端。
步骤b.以上面得出的新增终端的通信网络为基础,随机选取一台新增终端,从单个终端出发,根据改进后深度优先搜索算法进行独立子集的求解。以终端A为例,在新增终端里面搜索与A构成通信网络的终端B,合成一个群体。然后利用递归的思想,对终端B也进行同样的操作,直到无法从新增终端里面添加新的成员到群体里面。独立子集为同一独立子集内部终端相互联系、与另一独立子集的终端不联系的群体集合。
步骤b的流程下所示:
步骤b1:如图3A所示,选择新终端A;
步骤b2:如图3B所示,选取与终端A有联系的新增终端B,合并为新的群体;
步骤b3:如图3C所示,选取与终端B有联系的新增终端C,合并为新的群体.
步骤b4:如图3D所示,重复第三步,直到没法再添加有联系的新增终端到群体里面,即为一个完整的整体。
步骤c.识别出第一个独立终端群后,再选取群体外的单个终端,重复上述b操作,形成新的独立终端群,以此类推,直到所有新增终端都划分为不同的独立终端群。最后效果示例如图4所示,形成了四个相互独立的群体。
步骤3,根据改进后深度优先算法圈出来的独立终端群构建互打群体。当独立终端群中的终端的数量超过M(这里推荐为50,为一地市互打造假的最小规模数),则认为这个群体为互打群体,即为低值群体;否则,对该群体直接剔除,不认为低值群体,或者说,该群体终端数量太少,可以忽略不计。
步骤4,为了降低误判率,在判断某个群体为互打群体后,需要过滤与群体通信强度很低的用户。(因为对于一个正常终端,如果一个互打终端群体中的一台终端主动与之发生通话行为,并且此通话行为属于低值终端的topN通话,那么此正常终端也会被误判为低值终端。)使用赋权无向图的数据结构来表示群体内部成员通信网络的强度,其中,权值可以用终端之间的互动度表示,互动度可定义为t=f(通话次数,通话时长,短信次数),记ccnt为相互之间通话次数,cdur为相互之间的通话总时长,mcnt为相互之间的短信次数:
f(ccnt,cdur,mcnt)=x*ccnt+y*cdur+z*mcnt
x,y,z分别为相互之间通话次数、相互之间的通话总时长、相互之间的短信次数的权值,x,y,z的使用相对应的指标的平均数倒数来计算,即
根据上述方法,对识别的互打群体进行过滤修剪。具体步骤如下:
步骤a,计算每个群体里的用户与该群体的通信强度和,如图5A所示,群体的B1终端与群体的通信度和为1.7+3.3+2.2+1.1=8.8。
步骤b,对于群体里面只与群体单边相连(等同与上述的第四终端仅与同一所述独立终端群中的一个其他第四终端有通信关系)的终端(如图5A所示,群体的终端C1,终端C2,终端D1和终端D2),如果此终端的通信度和小于P (推荐为0.8,P为终端所属地市所有互打群体的通信强度和的5%分位数),即把此终端从该群体中去除,例如图6中群体里面的D2终端。
步骤5,如图5B中方框所示,过滤后的互打群体,就是最终识别出的低值终端群体。
如图6所示,为本发明所述的一种低值终端的识别装置,包括:
获取单元21,获取第一通信系统中第一时间段内新增的至少一个第一终端;
建立单元22,根据所述第一终端的通信信息,建立所述第一终端和第二终端之间的通信网络;所述第二终端为与所述第一终端具有通信关系,且为第二通信系统中第二时间段内新增的终端;
集合单元23,将组成所述通信网络的所述第一终端和所述第二终端,集合为终端群;
判断单元24,判断使用所述终端群中的终端是否能组合为至少两个独立终端群,生成判断结果;所述独立终端群为:同一独立终端群中的第四终端之间具有通信关系,且不同独立终端群中的第四终端之间不具有通信关系;
输出单元25,当所述判断结果为是时,将所述独立终端群中的第四终端,作为低值终端输出。
所述输出单元25包括:
计算子单元,计算所述独立终端群中的第四终端的群体通信关联度,所述第四终端的群体通信关联度表示所述独立终端群中的一第四终端与同一所述独立终端群中的所有其他第四终端的通信关联度;
过滤子单元,从所述独立终端群中去掉所述群体通信关联度小于强度阈值的所述第四终端,得到剩余的第四终端;
输出子单元,将所述剩余的第四终端作为低值终端,进行输出。
所述建立单元22包括:
第一选取子单元,选取一所述第一终端;
第二选取子单元,根据所述第一终端的通信信息,选取与所述第一终端的通信关联度排名位于前N名、且为第二通信系统中第二时间段内的新增的第二终端,N为大于或等于1的自然数;
建立子单元,建立所述第一终端与N个所述第二终端之间的通信网络。
所述过滤子单元包括:
第一过滤子模块,当所述独立终端群中的所述第四终端仅与同一所述独立终端群中的一个其他第四终端有通信关系时,则当所述第四终端的群体通信关联度小于第一强度阈值时,从所述独立终端群中去掉所述第四终端;
第二过滤子模块,当所述独立终端群中的所述第四终端与所述独立终端群内的至少两个其他第四终端有通信关系时,则当所述第四终端的群体通信关联度小于第二强度阈值时,从所述独立终端群中去掉所述第四终端。
本发明具有以下有益效果:
1、本发明提高了终端的识别效率,同样的系统时间可找出更多的低值终端。
2、现有技术无法识别渠道间互打套利的终端,本发明的识别率更高,能够把渠道间互打的终端识别出来。
3、由于识别样本不停在变,传统技术训练的模型误判率高;本发明通过外呼验证,能够提高识别准确率。
4、本本发明提出一种独立子集加权过滤算法,实现了跨渠道、高质量的低值终端识别。
5、对比于现有的关联规则、决策树和社交圈挖掘等识别技术,本技术方案面向所有渠道新增终端群体,从渠道内和渠道间双向识别低值终端,具有针对性撒网识别的效果,能提高识别效率、识别率和准确率。
6、本发明设计的数据挖掘算法是利用改进后深度优先的思想,根据新增终端间的互打行为识别出所有存在联系的群体,能很好的圈出通信互打的完整群体,不会遗漏通过渠道合作形式造假终的端群体。也就是说,新增终端只要与同一个月新增的终端互打群体的任意一个用户有通信行为,即被判断为该群体,很好地解决渠道间新增终端互打造假模式识别。
7、传统数据挖掘方法无法识别所有相互联系的完整群体,存在漏判问题。以两个渠道X月新增终端为例,已有方法是直接抛弃联系不紧密的个体或群体,如图7A所示,没有圈定的群体,但此群体低值嫌疑非常大.
本技术方案利用低值终端之间互打通话的特征,采用了改进后深度优先的思想,寻找出所有相互联系的独立子集,识别同一渠道或不同渠道之间有联系的群体,如图7B所示,变革后,将所有有联系的终端都圈出来作为低值终端。
本发明所述的一种跨渠道的低值终端识别方法和装置,能够识别跨渠道套利行为,可以应用于数据挖掘技术以及渠道运营管理领域,
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (14)
1.一种低值终端的识别方法,其特征在于,包括:
获取归属于第一通信系统且在第一时间段内新增的至少一个第一终端;
根据所述第一终端的通信信息,建立所述第一终端和第二终端之间的通信网络;所述第二终端为与所述第一终端具有通信关系且为归属于第二通信系统且在第二时间段内新增的终端;
将组成所述通信网络的所述第一终端和所述第二终端,集合为终端群;
判断所述终端群中的终端是否能组合为至少两个独立终端群,生成判断结果;所述独立终端群为:同一独立终端群中的第四终端之间具有通信关系,且不同独立终端群中的第四终端之间不具有通信关系;
当所述判断结果为是时,将所述独立终端群中的第四终端,作为低值终端输出。
2.根据权利要求1所述的低值终端的识别方法,其特征在于,所述将所述独立终端群中的第四终端,作为低值终端输出的步骤包括:
计算所述独立终端群中的第四终端的群体通信关联度,所述第四终端的群体通信关联度表示所述独立终端群中的一第四终端与同一所述独立终端群中的所有其他第四终端的通信关联度;
从所述独立终端群中去掉所述群体通信关联度小于强度阈值的所述第四终端,得到剩余的第四终端;
将所述剩余的第四终端作为低值终端,进行输出。
3.根据权利要求1所述的低值终端的识别方法,其特征在于,所述根据所述第一终端的通信信息,建立所述第一终端和第二终端之间的通信网络的步骤包括:
选取一所述第一终端;
根据所述第一终端的通信信息,选取与所述第一终端的通信关联度排名位于前N名、且为第二通信系统中第二时间段内的新增的第二终端,N为大于或等于1的自然数;
建立所述第一终端与N个所述第二终端之间的通信网络。
4.根据权利要求1所述的低值终端的识别方法,其特征在于,组合所述至少两个独立终端群的步骤包括:
选择步骤:在所述终端群中选择一第三终端;
查找步骤:在所述终端群中查找与所述第三终端具有通信关系的所有第五终端;
递归步骤:在所述终端群中查找与所述第五终端具有通信关系的所有第六终端;
循环步骤:循环执行所述递归步骤,直到搜索完所述终端群;
组合步骤:将所述第三终端、第五终端、第六终端组成第一独立终端群;
循环执行所述选择步骤至所述组合步骤,组成第二独立终端群。
5.根据权利要求2所述的低值终端的识别方法,其特征在于,所述计算所述独立终端群中的第四终端的群体通信关联度的步骤具体为:
计算所述独立终端群中所述第四终端与同一所述独立终端群中的各个其他第四终端的终端通信关联度,所述终端通信关联度表示所述独立终端群中一所述第四终端与同一所述独立终端群中的一其他第四终端的通信关联度;
将所述独立终端群中所述第四终端与同一所述独立终端群中的各个其他第四终端的终端通信关联度的和,作为所述第四终端的群体通信关联度。
6.根据权利要求5所述的低值终端的识别方法,其特征在于,所述计算所述独立终端群中所述第四终端与同一所述独立终端群中的各个其他第四终端的终端通信关联度的步骤具体为根据以下公式计算:
f(ccnt,cdur,mcnt)=x*ccnt+y*cdur+z*mcnt;
其中,
f(ccnt,cdur,mcnt)为所述独立终端群的一第四终端与同一所述独立终端群中的一其他第四终端之间的通信关联度;
ccnt为所述独立终端群的一第四终端与同一所述独立终端群中的一其他终端之间的通话次数;
cdur为所述独立终端群的一第四终端与同一所述独立终端群中的一其他第四终端之间的通话总时长;
mcnt为所述独立终端群的一第四终端与同一所述独立终端群中的一其他第四终端之间的短信次数;
x为所述独立终端群的一第四终端与同一所述独立终端群中的其他第四终端之间的通话次数的权值;
y为所述独立终端群的一第四终端与同一所述独立终端群中的其他第四终端之间的通话总时长的权值;
z为所述独立终端群的一第四终端与同一所述独立终端群中的其他第四终端之间的短信次数的权值;
avg(ccnt)为所述独立终端群的一第四终端与同一所述独立终端群中的各个其他第四终端之间的通话次数的平均值;
avg(cdur)为所述独立终端群的一第四终端与同一所述独立终端群中的各个其他第四终端之间的通话总时长的平均值;
avg(mcnt)为所述独立终端群的一第四终端与同一所述独立终端群中的各个其他第四终端之间的短信次数的的平均值。
7.根据权利要求2所述的低值终端的识别方法,其特征在于,所述从所述独立终端群中去掉所述群体通信关联度小于强度阈值的所述第四终端,得到剩余终端的步骤包括:
当所述独立终端群中的所述第四终端仅与同一所述独立终端群中的一个其他第四终端有通信关系时,则当所述第四终端的群体通信关联度小于第一强度阈值时,从所述独立终端群中去掉所述第四终端;
当所述独立终端群中的所述第四终端与所述独立终端群内的至少两个其他第四终端有通信关系时,则当所述第四终端的群体通信关联度小于第二强度阈值时,从所述独立终端群中去掉所述第四终端。
8.根据权利要求1所述的低值终端的识别方法,其特征在于,当所述判断结果为是时,所述将所述独立终端群中的第四终端,作为低值终端输出的步骤之前,所述方法还包括:
判断所述独立终端群中的第四终端数量是否小于数量阈值;
如果为是,则结束步骤;
否则,则将所述独立终端群中的第四终端,作为低值终端输出。
9.根据权利要求3所述的低值终端的识别方法,其特征在于,所述第二终端与第一终端的通信关联度根据以下因素排名:所述第二终端与所述第一终端之间的通话总时长、所述第二终端与所述第一终端之间的通话次数、或所述第二终端与所述第一终端之间的短信次数。
10.一种低值终端的识别装置,其特征在于,包括:
获取单元,获取归属于第一通信系统且在第一时间段内新增的至少一个第一终端;
建立单元,根据所述第一终端的通信信息,建立所述第一终端和第二终端之间的通信网络;所述第二终端为与所述第一终端具有通信关系且为归属于第二通信系统且在第二时间段内新增的终端;
集合单元,将组成所述通信网络的所述第一终端和所述第二终端,集合为终端群;
判断单元,判断所述终端群中的终端是否能组合为至少两个独立终端群,生成判断结果;所述独立终端群为:同一独立终端群中的第四终端之间具有通信关系,且不同独立终端群中的第四终端之间不具有通信关系;
输出单元,当所述判断结果为是时,将所述独立终端群中的第四终端,作为低值终端输出。
11.根据权利要求10所述的装置,其特征在于,所述输出单元包括:
计算子单元,计算所述独立终端群中的第四终端的群体通信关联度,所述第四终端的群体通信关联度表示所述独立终端群中的一第四终端与同一所述独立终端群中的所有其他第四终端的通信关联度;
过滤子单元,从所述独立终端群中去掉所述群体通信关联度小于强度阈值的所述第四终端,得到剩余的第四终端;
输出子单元,将所述剩余的第四终端作为低值终端,进行输出。
12.根据权利要求10所述的装置,其特征在于,所述建立单元包括:
第一选取子单元,选取一所述第一终端;
第二选取子单元,根据所述第一终端的通信信息,选取与所述第一终端的通信关联度排名位于前N名、且为第二通信系统中第二时间段内的新增的第二终端,N为大于或等于1的自然数;
建立子单元,建立所述第一终端与N个所述第二终端之间的通信网络。
13.根据权利要求11所述的装置,其特征在于,所述计算子单元包括:
计算子模块,计算所述独立终端群中所述第四终端与同一所述独立终端群中的各个其他第四终端的终端通信关联度,所述终端通信关联度表示所述独立终端群中一所述第四终端与同一所述独立终端群中的一其他第四终端的通信关联度;
和运算子模块,将所述独立终端群中所述第四终端与同一所述独立终端群中的各个其他终端的终端通信关联度的和,作为所述第四终端的群体通信关联度。
14.根据权利要求11所述的装置,其特征在于,所述过滤子单元包括:
第一过滤子模块,当所述独立终端群中的所述第四终端仅与同一所述独立终端群中的一个其他第四终端有通信关系时,则当所述第四终端的群体通信关联度小于第一强度阈值时,从所述独立终端群中去掉所述第四终端;
第二过滤子模块,当所述独立终端群中的所述第四终端与所述独立终端群内的至少两个其他第四终端有通信关系时,则当所述第四终端的群体通信关联度小于第二强度阈值时,从所述独立终端群中去掉所述第四终端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410542189.7A CN105578514B (zh) | 2014-10-14 | 2014-10-14 | 一种低值终端的识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410542189.7A CN105578514B (zh) | 2014-10-14 | 2014-10-14 | 一种低值终端的识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105578514A CN105578514A (zh) | 2016-05-11 |
CN105578514B true CN105578514B (zh) | 2019-02-26 |
Family
ID=55888062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410542189.7A Active CN105578514B (zh) | 2014-10-14 | 2014-10-14 | 一种低值终端的识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105578514B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830608B (zh) * | 2017-04-28 | 2021-08-06 | 北京嘀嘀无限科技发展有限公司 | 作弊检测方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102081774A (zh) * | 2009-11-26 | 2011-06-01 | 中国移动通信集团广东有限公司 | 养卡识别方法及系统 |
CN102083010A (zh) * | 2009-11-26 | 2011-06-01 | 中国移动通信集团公司 | 一种用户信息筛选方法和设备 |
CN102196366A (zh) * | 2010-03-08 | 2011-09-21 | 中国移动通信集团公司 | 通信用户组的识别方法及系统 |
CN102215504A (zh) * | 2010-04-08 | 2011-10-12 | 中国移动通信集团甘肃有限公司 | 新入网用户的类别识别方法及系统 |
CN102393843A (zh) * | 2011-06-29 | 2012-03-28 | 广州市动景计算机科技有限公司 | 利用移动终端通讯信息建立用户关系的方法及系统 |
CN102541886A (zh) * | 2010-12-20 | 2012-07-04 | 郝敬涛 | 一种识别用户群和用户之间关系的系统和方法 |
CN103593393A (zh) * | 2013-09-13 | 2014-02-19 | 微梦创科网络科技(中国)有限公司 | 基于微博互动关系挖掘社交圈的方法及装置 |
-
2014
- 2014-10-14 CN CN201410542189.7A patent/CN105578514B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102081774A (zh) * | 2009-11-26 | 2011-06-01 | 中国移动通信集团广东有限公司 | 养卡识别方法及系统 |
CN102083010A (zh) * | 2009-11-26 | 2011-06-01 | 中国移动通信集团公司 | 一种用户信息筛选方法和设备 |
CN102196366A (zh) * | 2010-03-08 | 2011-09-21 | 中国移动通信集团公司 | 通信用户组的识别方法及系统 |
CN102215504A (zh) * | 2010-04-08 | 2011-10-12 | 中国移动通信集团甘肃有限公司 | 新入网用户的类别识别方法及系统 |
CN102541886A (zh) * | 2010-12-20 | 2012-07-04 | 郝敬涛 | 一种识别用户群和用户之间关系的系统和方法 |
CN102393843A (zh) * | 2011-06-29 | 2012-03-28 | 广州市动景计算机科技有限公司 | 利用移动终端通讯信息建立用户关系的方法及系统 |
CN103593393A (zh) * | 2013-09-13 | 2014-02-19 | 微梦创科网络科技(中国)有限公司 | 基于微博互动关系挖掘社交圈的方法及装置 |
Non-Patent Citations (2)
Title |
---|
基于移动社交群的互联网内容适配系统的搭建;张湛梅,罗芸,屈强;《互联网天地》;20130228;全文 |
移动通信重入网用户识别算法分析研究;艾 达,罗爱平;《西 安 邮 电 学 院 学 报》;20120531;全文 |
Also Published As
Publication number | Publication date |
---|---|
CN105578514A (zh) | 2016-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108681936B (zh) | 一种基于模块度和平衡标签传播的欺诈团伙识别方法 | |
CN109299811B (zh) | 一种基于复杂网络的欺诈团伙识别和风险传播预测的方法 | |
CN104424235B (zh) | 实现用户信息聚类的方法和装置 | |
CN102083010B (zh) | 一种用户信息筛选方法和设备 | |
CN105824813B (zh) | 一种挖掘核心用户的方法及装置 | |
CN107403326A (zh) | 一种基于电信数据的保险欺诈识别方法及装置 | |
CN104408149A (zh) | 基于社交网络分析的犯罪嫌疑人挖掘关联方法及系统 | |
CN113961712B (zh) | 一种基于知识图谱的诈骗电话分析方法 | |
CN106686261A (zh) | 一种信息处理方法及系统 | |
CN108833720A (zh) | 诈骗电话号码识别方法与系统 | |
CN106228371A (zh) | 一种基于交往频度和交往指数的超大规模用户的社交网络分析及家庭关系识别算法 | |
CN109711746A (zh) | 一种基于复杂网络的信用评估方法和系统 | |
CN103605791A (zh) | 信息推送系统和信息推送方法 | |
RU2011140609A (ru) | Способ и устройство для извлечения круга взаимосвязей участников в сети службы социальной сети (ссс (sns) | |
CN110072017A (zh) | 基于特征选择与集成学习的异常电话识别方法及系统 | |
CN109474756B (zh) | 一种基于协同网络表示学习的电信异常检测方法 | |
CN106570014A (zh) | 用于确定用户的家庭属性信息的方法与设备 | |
CN107767055A (zh) | 一种基于串谋检测的众包结果汇聚方法及装置 | |
CN106506880A (zh) | 一种从黑名单号码库中自动识别可释放号码的方法 | |
CN110532399A (zh) | 面向游戏问答系统的知识图谱更新方法、系统及装置 | |
CN110166344A (zh) | 一种身份标识识别方法、装置以及相关设备 | |
US20130211873A1 (en) | Determining a churn risk | |
CN113641827A (zh) | 一种基于知识图谱的网络诈骗识别方法及系统 | |
CN104731937B (zh) | 用户行为数据的处理方法及装置 | |
CN108810290A (zh) | 一种诈骗电话的识别的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |