CN102387512B - 基于向量空间模型的重入网分析方法 - Google Patents

基于向量空间模型的重入网分析方法 Download PDF

Info

Publication number
CN102387512B
CN102387512B CN201110318477.0A CN201110318477A CN102387512B CN 102387512 B CN102387512 B CN 102387512B CN 201110318477 A CN201110318477 A CN 201110318477A CN 102387512 B CN102387512 B CN 102387512B
Authority
CN
China
Prior art keywords
matched
ticket
subscriber number
user
subscriber
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110318477.0A
Other languages
English (en)
Other versions
CN102387512A (zh
Inventor
刘云
韩少春
张振江
程辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN201110318477.0A priority Critical patent/CN102387512B/zh
Publication of CN102387512A publication Critical patent/CN102387512A/zh
Application granted granted Critical
Publication of CN102387512B publication Critical patent/CN102387512B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明属于信息通信技术领域,尤其涉及一种基于向量空间模型的重入网分析方法。包括:确定待匹配用户号码集合和新增用户号码集合;提取待匹配用户号码的特征项;提取新增用户号码的特征项;待匹配用户号码话单和新增用户号码话单;组成待匹配用户号码话单集合和新增用户号码话单集合;分别确定待匹配用户号码话单集合和新增用户号码话单集合中的不同的特征项;计算每个待匹配用户号码话单和每个新增用户号码话单中的特征项权值;通过计算两个用户号码话单之间的相似度,确定用户号码是否为重入网的用户号码。本发明提供的方法计算速度更快,识别准确率更高。

Description

基于向量空间模型的重入网分析方法
技术领域
本发明属于信息通信技术领域,尤其涉及一种基于向量空间模型的重入网分析方法。
背景技术
目前,电信运营商面临一个重要问题就是重入网现象,即移动用户在已经拥有一个移动号码的情况下,再次购买所归属的同一移动运营商的新号码入网,新号码全部或者部分替代原有旧号码。
1.造成大量的重入网用户的原因很多,主要有如下几点:
(1)存在大量对资费敏感客户。客户对资费比较敏感,当新的资费套餐出现或者某种套餐出现优惠,这些资费敏感客户便在网内跳转。通常这部分客户,是ARPU(ARPU-Average Revenue Per User,每用户平均收入)较低的低价值客户,对号码依附关系不大。
(2)部分市场营销政策之间相互影响。新增市场政策和存量市场政策冲突,新推出的市场营销策略,影响到原有的资费套餐,使得原有资费套餐用户,转向新套餐。
(3)存在大量定位不准客户。对于新客户,没有合适的分析手段来分析和准确识别,以至于这部分客户,在入网后很短时间内重入网,选择更适合自己的品牌或套餐。
基于上述原因,有效地识别重入网用户,并分析用户重入网的原因,可以有效地减少重入网用户量,进而能够减少运营商日常的成本支出,节省系统的存储空间,减少前台营业成本和客服成本。所以,对于电信运营商来说,识别重入网用户是所有上述工作的基础,具有很大的现实意义。
目前常用的识别重入网用户的方法及其问题:
(1)基于用户资料的识别技术,通过诸如身份证号码、用户姓名、登记地址、联系人信息等用户资料信。缺点:目前很多用户在移动通信商的客户管理系统中没有用户资料。
(2)基于IMEI(International Mobile Equipment Identity)的识别技术。缺点:很多手机上没有IMEI,所以用此办法根本无法有效识别。
(3)呼叫指纹:所谓“呼叫指纹”就是指用户在使用移动运营商的产品及服务过程中所产生的交往圈、呼叫特征、短信特征、位置特征、客服特征、终端特征等信息。这些特征对每一用户是相对稳定的,且存在个体差异,因此可以作为识别重入网用户的特征。缺点:基于交往圈信息的呼叫指纹算法由于识别准确率低、识别时间过长、因此,在控制重入网用户方面不是十分有效。
文献《概念推理网及其在文本分类中的应用》(计算机研究与发展,李晓黎、刘继敏、史忠植,2000,37(9):1032~1038)和文献《文档中词语权重计算方法的改进》(中文信息学报,鲁松、李晓黎、白硕,2000,14(6):8-13)介绍了一种基于向量空间模型的信息检索技术,该技术是较为成熟且应用广泛的信息检索技术,它将文档和查询信息均用向量空间表示,查询匹配问题转化为向量空间的矢量匹配问题,文档与查询的相似度可用向量之间的夹角来度量。在移动通信领域中,用户的通话详单就相当于一个一个的文档,只要能够提取每个用户的通话详单中的特征项,就可以通过计算特征向量和向量之间的夹角余弦来得到用户与用户之间的相似度,从而找到重入网的用户。
发明内容
本发明的目的在于,提供一种基于向量空间模型的重入网分析方法,用于解决常用的重入网计算方法存在的问题。
为了实现上述目的,本发明采用的技术方案是,一种基于向量空间模型的重入网分析方法,其特征是所述分析方法包括:
步骤1:确定待匹配用户号码集合和新增用户号码集合;
步骤2:提取待匹配用户号码集合中的每个待匹配用户号码和与该用户号码通话次数最多的设定个号码,将其作为该待匹配用户号码的特征项;提取新增用户号码集合中的每个新增用户号码和与该新增用户号码通话次数最多的设定个号码,将其作为该新增用户号码的特征项;
步骤3:将每个待匹配用户号码和该待匹配用户号码的特征项作为待匹配用户号码话单,从而建立待匹配用户号码和待匹配用户号码话单的对应关系;将新增用户号码和该新增用户号码的特征项作为新增用户号码话单,从而建立新增用户号码和新增用户号码话单的对应关系;
步骤4:将所有待匹配用户号码话单组成待匹配用户号码话单集合;将所有新增用户号码话单组成新增用户号码话单集合;
步骤5:分别确定待匹配用户号码话单集合和新增用户号码话单集合中的不同的特征项;
步骤6:计算每个待匹配用户号码话单和每个新增用户号码话单中的特征项权值,具体利用公式ωik=tfik×(log2(N/nk)+1)计算;
其中,ωik为特征项权值,tfik为特征项tk在待匹配/新增用户号码话单di中出现的频率,i=1,2,...,N,N为待匹配/新增用户号码话单集合中的元素个数,nk为待匹配/新增用户号码话单集合中特征项tk出现的个数,k=1,2,...m,m为待匹配/新增用户号码话单集合中的不同的特征项的个数。
步骤7:从待匹配用户号码话单集合中任取一个待匹配用户号码话单,从新增用户号码话单集合中任取一个新增用户号码话单,通过计算两个用户号码话单之间的相似度,确定上述两个用户号码话单对应的用户号码是否为重入网的用户号码;
所述计算两个用户号码话单之间的相似度具体利用公式 cos θ = Σ k = - 1 m ω ik × ω jk ( Σ k = 1 m ω ik 2 ) ( Σ k = 1 m ω jk 2 ) ; 其中,ωjk和ωik分别为待匹配用户号码话单di和新增用户号码话单dj的特征项权值,m为号码话单集合中的不同的特征项的个数;
所述确定上述两个用户号码话单对应的用户号码是否为重入网的用户号码具体是,当两个用户号码话单之间的相似度大于设定阈值时,则上述两个用户号码话单对应的用户号码为重入网的用户号码。
本发明将用户号码对应的通话详单作为文档,通过提取通话详单中的特征项,计算特征向量和向量之间的夹角余弦,获取用户与用户之间的相似度,从而找到重入网的用户;与常用的重入网识别方法相比,本发明提供的方法计算速度更快,识别准确率更高。
附图说明
图1基于向量空间模型的重入网分析方法流程图。
具体实施方式
下面结合附图,对优选实施例作详细说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。
实施例
以联通的老CDMA用户和新入网的CDMA用户分别作为待匹配的用户号码集合和新增用户号码集合,并计算集合中每个用户对其每个联系人的通话总次数,从中提取前20个通话频率最长的号码,这20个号码就是用户的特征项,并通过计算特征项权值ωik,获取重入网用户号码。
图1基于向量空间模型的重入网分析方法流程图。图1中,本发明提供的方法包括:
步骤1:确定待匹配用户号码集合和新增用户号码集合。
根据联通规范,待匹配用户号码是指目前在网用户(包括零次通话用户)及半年内离网的用户。新增用户号码是指已经入网而且有一个完整月的通话行为数据的用户。根据上述规范,可以确定确定待匹配用户号码集合和新增用户号码集合。
步骤2:提取待匹配用户号码集合中的每个待匹配用户号码和与该用户号码通话次数最多的设定个号码,将其作为该待匹配用户号码的特征项;提取新增用户号码集合中的每个新增用户号码和与该新增用户号码通话次数最多的设定个号码,将其作为该新增用户号码的特征项。
在本实施例中,设定数量为20个。分别提取待匹配用户号码集合和新增用户号码集合中的每个用户号码和与该用户号码通话次数最多的20个号码。与每个用户通话次数最多的20个号码即为该用户号码的特征项。
步骤3:将每个待匹配用户号码和该待匹配用户号码的特征项作为待匹配用户号码话单,从而建立待匹配用户号码和待匹配用户号码话单的对应关系;将新增用户号码和该新增用户号码的特征项作为新增用户号码话单,从而建立新增用户号码和新增用户号码话单的对应关系。
建立用户号码话单,将每个用户号码和该用户号码的特征项作为用户号码详单,这样就建立用户号码和该用户号码详单的对应关系。
步骤4:将所有待匹配用户号码话单组成待匹配用户号码话单集合;将所有新增用户号码话单组成新增用户号码话单集合。
步骤5:分别确定待匹配用户号码话单集合和新增用户号码话单集合中的不同的特征项。
由于每个用户号码话单都有各自的特征项,因此用户号码话单集合中很可能会有重复的特征项,去掉重复的特征项,剩下的特征项即为用户号码话单集合中的不同的特征项。
步骤6:计算每个待匹配用户号码话单和每个新增用户号码话单中的特征项权值。
特征项权值利用公式:
ωik=tfik×(log2(N/nk)+1)
进行计算。其中,ωik为特征项权值,tfik为特征项tk在待匹配/新增用户号码话单中出现的频率,i=1,2,...,N,N为待匹配/新增用户号码话单集合中的元素个数,nk为待匹配/新增用户号码话单集合中特征项tk出现的个数,k=1,2,...m,m为待匹配/新增用户号码话单集合中的不同的特征项的个数。
步骤7:从待匹配用户号码话单集合中任取一个待匹配用户号码话单,从新增用户号码话单集合中任取一个新增用户号码话单,通过计算两个用户号码话单之间的相似度,确定上述两个用户号码话单对应的用户号码是否为重入网的用户号码。
计算两个用户号码话单之间的相似度具体利用公式:
cos θ = Σ k = - 1 m ω ik × ω jk ( Σ k = 1 m ω ik 2 ) ( Σ k = 1 m ω jk 2 )
其中,ωik和ωjk分别为待匹配用户号码话单di和新增用户号码话单dj的特征项权值,m为号码话单集合中的不同的特征项的个数。当两个用户号码话单之间的相似度,即cosθ的值大于设定阈值时,则上述两个用户号码话单对应的用户号码为重入网的用户号码。
通过实验,我们将上述方法和常用方法进行了对比。取1600个新入网的用户和30万老用户,其常用方法的运算量超过了4.8亿,用普通的处理器需要将近7天的运算时间,根本无法满足现实需要。但是由于在所有数据集中,匹配不上的用户数据(非重入网用户)占绝大部分,所以从逆向思维的角度,首先提取新用户话单中通话次数最多的前20个号码,然后去和老用户中的数据进行比对,从而老用户中只会留下和这20个号码匹配上的数据,这样就会把可能是重入网用户的数据筛选出来,极大的提高了运算效率。经测试,整个的运算时间从7天降到了1个小时,已经完全可以满足目前联通C网的重入网分析的需要。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (1)

1.一种基于向量空间模型的重入网分析方法,其特征是所述分析方法包括:
步骤1:确定待匹配用户号码集合和新增用户号码集合;
步骤2:提取待匹配用户号码集合中的每个待匹配用户号码和与该用户号码通话次数最多的设定个号码,将其作为该待匹配用户号码的特征项;提取新增用户号码集合中的每个新增用户号码和与该新增用户号码通话次数最多的设定个号码,将其作为该新增用户号码的特征项;
步骤3:将每个待匹配用户号码和该待匹配用户号码的特征项作为待匹配用户号码话单,从而建立待匹配用户号码和待匹配用户号码话单的对应关系;将新增用户号码和该新增用户号码的特征项作为新增用户号码话单,从而建立新增用户号码和新增用户号码话单的对应关系;
步骤4:将所有待匹配用户号码话单组成待匹配用户号码话单集合;将所有新增用户号码话单组成新增用户号码话单集合;
步骤5:分别确定待匹配用户号码话单集合和新增用户号码话单集合中的不同的特征项;
步骤6:计算每个待匹配用户号码话单和每个新增用户号码话单中的特征项权值,具体利用公式ωik=tfik×(log2(N/nk)+1)计算;
其中,ωik为特征项权值,tfik为特征项tk在待匹配/新增用户号码话单di中出现的频率,i=1,2,...,N,N为待匹配/新增用户号码话单集合中的元素个数,nk为待匹配/新增用户号码话单集合中特征项tk出现的个数,k=1,2,...m,m为待匹配/新增用户号码话单集合中的不同的特征项的个数;
步骤7:从待匹配用户号码话单集合中任取一个待匹配用户号码话单,从新增用户号码话单集合中任取一个新增用户号码话单,通过计算两个用户号码话单之间的相似度,确定上述两个用户号码话单对应的用户号码是否为重入网的用户号码;
计算两个用户号码话单之间的相似度具体利用公式 cos θ = Σ k = - 1 m ω ik × ω jk ( Σ k = 1 m ω ik 2 ) ( Σ k = 1 m ω jk 2 ) ;
其中,ωjk和ωik分别为待匹配用户号码话单di和新增用户号码话单dj的特征项权值,m为号码话单集合中的不同的特征项的个数;
确定上述两个用户号码话单对应的用户号码是否为重入网的用户号码具体是,当两个用户号码话单之间的相似度大于设定阈值时,则上述两个用户号码话单对应的用户号码为重入网的用户号码。
CN201110318477.0A 2011-10-19 2011-10-19 基于向量空间模型的重入网分析方法 Expired - Fee Related CN102387512B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110318477.0A CN102387512B (zh) 2011-10-19 2011-10-19 基于向量空间模型的重入网分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110318477.0A CN102387512B (zh) 2011-10-19 2011-10-19 基于向量空间模型的重入网分析方法

Publications (2)

Publication Number Publication Date
CN102387512A CN102387512A (zh) 2012-03-21
CN102387512B true CN102387512B (zh) 2014-07-16

Family

ID=45826349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110318477.0A Expired - Fee Related CN102387512B (zh) 2011-10-19 2011-10-19 基于向量空间模型的重入网分析方法

Country Status (1)

Country Link
CN (1) CN102387512B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593799B (zh) 2012-08-16 2016-10-26 腾讯科技(深圳)有限公司 自然人信息设置方法、系统及相应的好友推荐方法、系统
WO2014094302A1 (zh) * 2012-12-21 2014-06-26 华为技术有限公司 一种多次入网用户的判断方法及装置
CN105959934B (zh) * 2016-06-17 2019-04-02 中国联合网络通信集团有限公司 重入网识别方法和系统
CN106791222A (zh) * 2016-12-07 2017-05-31 广州杰赛科技股份有限公司 识别重入网用户的方法和装置
CN108712269A (zh) * 2018-05-30 2018-10-26 中国联合网络通信集团有限公司 离网用户的找回方法及装置
CN112188474B (zh) * 2020-10-21 2022-08-02 中国联合网络通信集团有限公司 重入网用户识别方法、平台、计算机设备及存储介质
CN113887551B (zh) * 2021-08-17 2022-09-09 厦门市美亚柏科信息股份有限公司 基于话单数据的目标人分析方法、终端设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050021637A (ko) * 2003-08-25 2005-03-07 에스케이텔레텍주식회사 고해상도 휴대폰 카메라와 데이터 통신을 이용한지문(指紋) 조회 및 전송 방법
CN102215504A (zh) * 2010-04-08 2011-10-12 中国移动通信集团甘肃有限公司 新入网用户的类别识别方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050021637A (ko) * 2003-08-25 2005-03-07 에스케이텔레텍주식회사 고해상도 휴대폰 카메라와 데이터 통신을 이용한지문(指紋) 조회 및 전송 방법
CN102215504A (zh) * 2010-04-08 2011-10-12 中国移动通信集团甘肃有限公司 新入网用户的类别识别方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
何瑞江.利用呼叫指纹挖掘电信重入网客户.《中国优秀硕士学位论文全文数据库 信息科技辑》.2009,(第12期),
利用呼叫指纹挖掘电信重入网客户;何瑞江;《中国优秀硕士学位论文全文数据库 信息科技辑》;20091231(第12期);图4.3,第16-23页第4.2-4.5.4节 *
移动电话用户重入网识别及营销研究;罗亚;《中国优秀硕士学位论文全文数据库 经济与管理学辑》;20110331(第3期);第22-24页第4.2.1-4.2.2节 *
罗亚.移动电话用户重入网识别及营销研究.《中国优秀硕士学位论文全文数据库 经济与管理学辑》.2011,(第3期),

Also Published As

Publication number Publication date
CN102387512A (zh) 2012-03-21

Similar Documents

Publication Publication Date Title
CN102387512B (zh) 基于向量空间模型的重入网分析方法
CN110222170B (zh) 一种识别敏感数据的方法、装置、存储介质及计算机设备
CN110046929B (zh) 一种欺诈团伙识别方法、装置、可读存储介质及终端设备
CN107248082B (zh) 养卡识别方法及装置
CN107026831B (zh) 一种身份识别方法和装置
CN110032583B (zh) 一种欺诈团伙识别方法、装置、可读存储介质及终端设备
CN106713579B (zh) 一种电话号码识别方法及装置
CN109640312B (zh) “黑卡”识别方法、电子设备及计算机可读取存储介质
CN107423613A (zh) 依据相似度确定设备指纹的方法、装置及服务器
CN110609908A (zh) 案件串并方法及装置
CN107644098A (zh) 一种欺诈行为识别方法、装置、设备及存储介质
CN111125118B (zh) 关联数据查询方法、装置、设备及介质
CN105389488A (zh) 身份认证方法及装置
CN111104521A (zh) 一种基于图分析的反欺诈检测方法及检测系统
CN109978020A (zh) 一种基于多维特征的社交网络账号马甲身份辨识方法
CN109308615A (zh) 基于统计序列特征的实时欺诈交易检测方法、系统、存储介质及电子终端
CN111127062A (zh) 一种基于空间搜索算法的群体欺诈识别方法及装置
CN113989859B (zh) 一种防刷机设备指纹相似度识别方法和装置
CN111091408A (zh) 用户识别模型创建方法、装置与识别方法、装置
CN106910092A (zh) 一种基于商业wifi行业属性的主动营销方法和系统
US20190068745A1 (en) Method and apparatus for setting mobile device identifier
CN109711984B (zh) 一种基于催收的贷前风险监控方法及装置
CN111260372B (zh) 资源转移用户群确定方法、装置、计算机设备和存储介质
CN107222319B (zh) 一种通信操作分析方法及装置
CN107633006B (zh) 一种词典格式生成方法及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140716

Termination date: 20151019

EXPY Termination of patent right or utility model