CN109740675A - 一种基于大数据的同一用户识别分析模型 - Google Patents
一种基于大数据的同一用户识别分析模型 Download PDFInfo
- Publication number
- CN109740675A CN109740675A CN201910011958.3A CN201910011958A CN109740675A CN 109740675 A CN109740675 A CN 109740675A CN 201910011958 A CN201910011958 A CN 201910011958A CN 109740675 A CN109740675 A CN 109740675A
- Authority
- CN
- China
- Prior art keywords
- same user
- data
- mobile phone
- card number
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003068 static effect Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 230000004069 differentiation Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 abstract description 2
- 230000002596 correlated effect Effects 0.000 abstract 1
- 230000000875 corresponding effect Effects 0.000 abstract 1
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 238000000034 method Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Landscapes
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种基于大数据的同一用户识别分析模型,其将聚类算法和呼叫指纹识别算法进行组合的算法,运用组合算法以及通过挖掘与某一车辆相匹配的乘客手机数据,根据手机乘客携带手机的交往圈特征、位置特征、手机开关机上报日志时间等相关特征进行研究分析,首先,通过手机开关机上报日志时间进行初步判断,其次,基于凝聚层次聚类算法对位置特征进行分析,找出疑似同一用户的卡号,再对这些卡号基于改进的呼叫指纹识别算法得出车辆内乘客携带手机数量实际对应的乘客人数。本发明可以有效判别出车辆内乘客实际人数,尤其可以对当前HOV车道的车辆内乘客数进行实时监测。
Description
技术领域
本发明涉及智能交通、数据挖掘及大数据处理分析领域,尤其涉及一种基于大数据的同一用户识别分析模型。
背景技术
凝聚层次聚类算法(Condensed Hierarchical Clustering Algorithm)是指在最初数据集中将每个样本点均作为一个簇,其次,根据制定的条件,每一步对这些最接近的簇进行合并,知道达到制定的条件方可结束迭代。呼叫指纹算法是基于TF-IDF权重算法对用户的交际圈号码的权重进行分析,生成用户的呼叫指纹。TF-IDF(term frequency–inversedocument frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
发明内容
本发明主要解决的技术问题是提供一种基于大数据的同一用户识别分析模型。
本发明所采用的技术方案是:
一种基于大数据的同一用户识别分析模型,包括以下步骤:
S1:采集道路上与行驶车辆相匹配的乘客手机数据,乘客手机数据包括用户的语音详单、短信详单、手机开关机上报日志以及经纬度位置数据;
S2:对采集的基础数据进行筛选与标准化;
S3:对用户实际的语音详单、短信详单和位置信息表的数据进行特征提取;
S4:基于获取手机数据中的开关机日志对所需判别的卡号进行分析,若存在两卡号在同一时刻向网络发送attach消息或detach消息,则可以判定该两卡号属于同一用户,对属于同一用户的卡号进行标记;
S5:读取数据库数据,对所有卡号前一周的静态位置信息中,每次采集的数据均进行聚类分析,将小于或等于设定的阈值d合并为一类簇的卡号进行标记,说明合并类簇中的卡号在该时刻疑似为同一用户使用,将一周的标记结果进行汇总,若存在某些卡号一周中标记次数不小于阈值f,则说明这些卡号疑似属于同一用户;
S6:对这些疑似属于同一用户的卡号通过语音特征及短信特征,基于改进的呼叫指纹识别算法分析确定是否属于同一用户,若属于同一用户将卡号划为一类;
S7:最后将模型分析得出的实际用户数和对应的卡号入对应的数据库,完成同一用户识别分析模型的建立。
较佳的,所述对采集的基础数据进行筛选与标准化包括对运营商提供的号码中包括“86”、“0086”、区号开头在内的号码进行标准化,将其变成规范的11位电话号码,并剔除干扰语音及短信详单中的噪声数据。
较佳的,所述对用户实际的语音详单、短信详单和位置信息表的数据进行特征提取包括将一天24小时中,每个小时选取同一时刻采集卡号所在位置,Vx(ti,logi,lati,LBSi)表示手机卡号x在时刻ti在基站LBSi釜盖范围并由经纬度(logi,lati)标记所在位置,统计行驶车辆匹配手机卡号当前时间前一周的位置数据,汇总成位置信息分析表,包含加密后的IMEI码、采集的时间,经纬度(logi,lati),小区代码。
较佳的,所述改进的呼叫指纹识别算法是在TF-IDF权重算法的基础上,将语音频次TF-IDFt与短信频次TF-IDFm进行结合,并在语音频次的基础上,增加参数通话时长。
与现有技术相比,本发明的有益效果是:
本发明将聚类算法和呼叫指纹识别算法进行组合的算法CHC-CFA(CondensedHierarchical Clustering-Call fingerprint Algorithm),运用组合算法结合车辆内乘客携带手机的实时轨迹数据以及历史呼叫指纹数据建立同一用户识别模型,可以有效的判别出车辆内乘客实际人数,尤其可以对当前HOV车道的车辆内乘客数进行实时监测。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的全部优点。
附图说明
图1为本发明的一种基于大数据的同一用户识别分析模型的流程图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
参考图1,一种基于大数据的同一用户识别分析模型,包括以下步骤:
Step1:采集道路上与行驶车辆相匹配的乘客手机数据,包括用户的语音详单、短信详单、手机开关机上报日志以及经纬度位置数据在内的乘客手机数据作为本次模型的基础数据;
Step2:对采集的基础数据进行筛选与标准化;
所述对采集的基础数据进行筛选与标准化包括对运营商提供的号码中包括“86”、“0086”、区号开头在内的号码进行标准化,将其变成规范的11位电话号码,并剔除干扰语音及短信详单中的噪声数据。一些可能对语音或短信的有效数据进行干扰的噪声数据如表1所示。
表1
Step3:对用户实际的语音详单(Voice Detail)、短信详单(SMS List)和位置信息表的数据进行特征提取;
所述对用户实际的语音详单、短信详单和位置信息表的数据进行特征提取包括将一天24小时中,每个小时选取同一时刻采集卡号所在位置,Vx(ti,logi,lati,LBSi)表示手机卡号x在时刻ti在基站LBSi釜盖范围并由经纬度(logi,lati)标记所在位置,统计行驶车辆匹配手机卡号当前时间前一周的位置数据,汇总成位置信息分析表,包含加密后的IMEI码、采集的时间,经纬度(logi,lati),小区代码。
Step4:基于获取手机数据中的开关机日志(attach消息和detach消息)对所需判别的卡号进行分析,若存在两卡号在同一时刻向网络发送attach消息或detach消息,则可以判定该两卡号属于同一用户,对属于同一用户的卡号进行标记;
Step5:读取数据库数据,对所有卡号前一周的静态位置信息中,每次采集的数据均进行聚类分析,将小于或等于设定的阈值d合并为一类簇的卡号进行标记,说明合并类簇中的卡号在该时刻疑似为同一用户使用,将一周的标记结果进行汇总,若存在某些卡号一周中标记次数不小于阈值f,则说明这些卡号疑似属于同一用户;
由Step5可知,阈值d指两卡号静态位置之间的距离;阈值f是指设定存在某些卡号一周中通过静态位置聚类分析属于同一类簇进行标记的次数。
Step6:对这些疑似属于同一用户的卡号进行语音特征及短信特征识别,基于改进的呼叫指纹识别算法分析确定是否属于同一用户,若属于同一用户将卡号划为一类;
所述改进的呼叫指纹识别算法是在TF-IDF权重算法的基础上,将语音频次TF-IDFt与短信频次TF-IDFm进行结合,并在语音频次的基础上,增加参数通话时长。
其中,TFIDF是指用户a与其在该月交际圈b号码的权重值;TF-IDFt_ab为用户a与其在该月语音详单中b号码的语音频次,TF-IDFm_ab为用户a与其在该月短信详单中b号码的短信频次,TFt_ab为用户a与其在该月语音详单中b号码的语音频率;IDFt_ab为用户a与其在该月语音详单中b号码的语音逆频率;TFm_ab为用户a与其在该月短信详单中b号码的短信频率;IDFm_ab为用户a与其在该月短信详单中b号码的短信逆频率;α与β分别表示语音频次和短信频次的权重,根据试验数据分析,本文中设α=0.8,β=0.2,Tab表示用户a与其在该月语音详单中b号码的语音总时长;Ta表示用户a在该月语音详单中与所有号码的语音总时长;mt_b表示用户a与该月语音详单中号码b的语音次数;∑kmt_k表示用户a在该月语音详单中与所有号码的语音次数;|A|表示该地区的所有用户数;|{a:tt_b∈a}|表示该地区与号码b在该月有过语音的用户数;mm_b表示用户a与该月短信详单中号码b的短信次数;∑kmm_k表示用户a在该月短信详单中与所有号码的短信次数;|{a:tm_b∈a}|表示该地区与号码b在该月有过短信的用户数。
Step7:最后将模型分析得出的实际用户数和对应的卡号入对应的数据库,完成同一用户识别分析模型的建立。
本发明采用的凝聚层次聚类算法定义两个簇之间的邻近性,以不同簇的两个最近点之间的邻近度为依据,即采用单链技术,最终迭代终止条件是两个簇之间的距离大于阈值d,则结束迭代。其次,本发明应用改进的呼叫指纹识别算法对用户的交际号码的权重进行分析,生成用户的呼叫指数。
本发明的主要步骤为:首先,基于获取手机数据中的开关机日志(attach消息和detach消息)对所需判别的卡号进行分析,若存在两卡号在同一时刻向网络发送attach消息或detach消息,则可以判定该两卡号属于同一用户,对属于同一用户的卡号进行标记;其次,读取数据库数据,对所有卡号前一周的静态位置信息中,每次采集的数据均进行聚类分析,将小于或等于设定的阈值d合并为一类簇的卡号进行标记,即说明合并类簇中的卡号在该时刻疑似为同一用户所使用,将一周的标记结果进行汇总,若存在某些卡号在一周中标记次数不小于阈值f,则说明这些卡号疑似属于同一用户;再次,对这些疑似属于同一用户的卡号通过语音特征和短信特征,基于改进的呼叫指纹识别算法分析确定是否属于同一用户,若属于同一用户将其卡号划为一类;最后,将模型分析得出的实际用户数与对应的卡号导入对应的数据库,完成同一用户识别分析模型的建立。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (4)
1.一种基于大数据的同一用户识别分析模型,其特征在于,包括以下步骤:
S1:采集道路上与行驶车辆相匹配的乘客手机数据,乘客手机数据包括用户的语音详单、短信详单、手机开关机上报日志以及经纬度位置数据;
S2:对采集的基础数据进行筛选与标准化;
S3:对用户实际的语音详单、短信详单和位置信息表的数据进行特征提取;
S4:基于获取手机数据中的开关机日志对所需判别的卡号进行分析,若存在两卡号在同一时刻向网络发送attach消息或detach消息,则可以判定该两卡号属于同一用户,对属于同一用户的卡号进行标记;
S5:读取数据库数据,对所有卡号前一周的静态位置信息中,每次采集的数据均进行聚类分析,将小于或等于设定的阈值d合并为一类簇的卡号进行标记,说明合并类簇中的卡号在该时刻疑似为同一用户使用,将一周的标记结果进行汇总,若存在某些卡号一周中标记次数不小于阈值f,则说明这些卡号疑似属于同一用户;
S6:对这些疑似属于同一用户的卡号通过语音特征及短信特征,基于改进的呼叫指纹识别算法分析确定是否属于同一用户,若属于同一用户将卡号划为一类;
S7:最后将模型分析得出的实际用户数和对应的卡号入对应的数据库,完成同一用户识别分析模型的建立。
2.根据权利要求1所述的一种基于大数据的同一用户识别分析模型,其特征在于,所述对采集的基础数据进行筛选与标准化包括对运营商提供的号码中包括“86”、“0086”、区号开头在内的号码进行标准化,将其变成规范的11位电话号码,并剔除干扰语音及短信详单中的噪声数据。
3.根据权利要求1所述的一种基于大数据的同一用户识别分析模型,其特征在于,所述对用户实际的语音详单、短信详单和位置信息表的数据进行特征提取包括将一天24小时中,每个小时选取同一时刻采集卡号所在位置,Vx(ti,logi,lati,LBSi)表示手机卡号x在时刻ti在基站LBSi釜盖范围并由经纬度(logi,lati)标记所在位置,统计行驶车辆匹配手机卡号当前时间前一周的位置数据,汇总成位置信息分析表,包含加密后的IMEI码、采集的时间,经纬度(logi,lati),小区代码。
4.根据权利要求1所述的一种基于大数据的同一用户识别分析模型,其特征在于,所述改进的呼叫指纹识别算法是在TF-IDF权重算法的基础上,将语音频次TF-IDFt与短信频次TF-IDFm进行结合,并在语音频次的基础上,增加参数通话时长。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910011958.3A CN109740675A (zh) | 2019-01-07 | 2019-01-07 | 一种基于大数据的同一用户识别分析模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910011958.3A CN109740675A (zh) | 2019-01-07 | 2019-01-07 | 一种基于大数据的同一用户识别分析模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109740675A true CN109740675A (zh) | 2019-05-10 |
Family
ID=66363608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910011958.3A Pending CN109740675A (zh) | 2019-01-07 | 2019-01-07 | 一种基于大数据的同一用户识别分析模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109740675A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113709669A (zh) * | 2021-09-16 | 2021-11-26 | 珠海世纪鼎利科技股份有限公司 | 一种5g终端双卡用户识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105959934A (zh) * | 2016-06-17 | 2016-09-21 | 中国联合网络通信集团有限公司 | 重入网识别方法和系统 |
CN106791222A (zh) * | 2016-12-07 | 2017-05-31 | 广州杰赛科技股份有限公司 | 识别重入网用户的方法和装置 |
CN107945352A (zh) * | 2017-11-10 | 2018-04-20 | 同济大学 | 公交客流数据采集设备及od分析系统 |
-
2019
- 2019-01-07 CN CN201910011958.3A patent/CN109740675A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105959934A (zh) * | 2016-06-17 | 2016-09-21 | 中国联合网络通信集团有限公司 | 重入网识别方法和系统 |
CN106791222A (zh) * | 2016-12-07 | 2017-05-31 | 广州杰赛科技股份有限公司 | 识别重入网用户的方法和装置 |
CN107945352A (zh) * | 2017-11-10 | 2018-04-20 | 同济大学 | 公交客流数据采集设备及od分析系统 |
Non-Patent Citations (2)
Title |
---|
李铁钢等: "基于"呼叫指纹"的重入网识别算法及其在移动市场占有率预测中的应用", 《现代情报》 * |
蒋仕宝等: "基于呼叫指纹的重入网识别算法研究", 《移动通信》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113709669A (zh) * | 2021-09-16 | 2021-11-26 | 珠海世纪鼎利科技股份有限公司 | 一种5g终端双卡用户识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110245981B (zh) | 一种基于手机信令数据的人群类型识别方法 | |
CN105787025B (zh) | 网络平台公共账号分类方法及装置 | |
CN105244031A (zh) | 说话人识别方法和装置 | |
CN106709370B (zh) | 一种基于文本内容的长词识别方法及系统 | |
CN104965867A (zh) | 基于chi特征选取的文本事件分类方法 | |
CN101692639A (zh) | 一种基于url的不良网页识别方法 | |
CN107092592B (zh) | 一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法 | |
CN103838754B (zh) | 信息搜索装置及方法 | |
CN106843941B (zh) | 信息处理方法、装置和计算机设备 | |
CN104217087B (zh) | 一种基于运营商网络数据的常住人口分析方法 | |
CN101894134A (zh) | 一种基于空间布局的钓鱼网页检测及其实现方法 | |
CN111274338B (zh) | 一种基于移动大数据的预出境用户识别方法 | |
CN108363717B (zh) | 一种数据安全级别的识别检测方法及装置 | |
CN108388929A (zh) | 基于代价敏感和半监督分类的客户分类方法及装置 | |
CN112765659B (zh) | 针对大数据云服务的数据泄露防护方法及大数据服务器 | |
CN106682236A (zh) | 基于机器学习的专利数据处理方法及其处理系统 | |
CN109191828B (zh) | 基于集成学习的交通参与者事故风险预测方法 | |
CN104850868A (zh) | 一种基于k-means和神经网络聚类的客户细分方法 | |
CN109933648A (zh) | 一种真实用户评论的区分方法和区分装置 | |
CN110162958A (zh) | 用于计算设备的综合信用分的方法、装置和记录介质 | |
Zubiaga et al. | Political homophily in independence movements: analyzing and classifying social media users by national identity | |
CN104361015A (zh) | 一种邮件分类识别方法 | |
CN115100395A (zh) | 一种融合poi预分类和图神经网络的城市街区功能分类方法 | |
CN109740675A (zh) | 一种基于大数据的同一用户识别分析模型 | |
CN101923650A (zh) | 基于对比模式的随机森林分类方法和分类器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190510 |
|
RJ01 | Rejection of invention patent application after publication |