CN110648172A - 一种融合多种移动设备的身份识别方法和系统 - Google Patents
一种融合多种移动设备的身份识别方法和系统 Download PDFInfo
- Publication number
- CN110648172A CN110648172A CN201910831509.3A CN201910831509A CN110648172A CN 110648172 A CN110648172 A CN 110648172A CN 201910831509 A CN201910831509 A CN 201910831509A CN 110648172 A CN110648172 A CN 110648172A
- Authority
- CN
- China
- Prior art keywords
- user
- data
- information
- responsible
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000013507 mapping Methods 0.000 claims abstract description 43
- 230000000694 effects Effects 0.000 claims abstract description 37
- 238000001914 filtration Methods 0.000 claims abstract description 14
- 238000004140 cleaning Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000013500 data storage Methods 0.000 claims description 7
- 238000009826 distribution Methods 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000007499 fusion processing Methods 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000007500 overflow downdraw method Methods 0.000 claims description 3
- 230000008685 targeting Effects 0.000 claims 1
- 230000006399 behavior Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 4
- 241000220225 Malus Species 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000005315 distribution function Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 235000021016 apples Nutrition 0.000 description 1
- 238000009933 burial Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/257—Belief theory, e.g. Dempster-Shafer
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Software Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Mobile Radio Communication Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种融合多种移动设备的身份识别方法和系统。该方法包括:1)获取来源于不同移动设备的数据,从中抽取出标识用户身份的ID信息;2)根据抽取的ID信息生成<用户ID,ID类别,ID信息>的三元映射关系,并计算所述三元映射关系的权重;3)根据用户使用移动设备的时间距离当前时间的差值,以及所述三元映射关系的权重,计算移动设备的活跃度参数,根据所述活跃度参数识别并过滤无效ID,得到有效ID;4)应用D‑S证据理论并结合所述活跃度参数,计算各种有效ID的可信度;5)根据有效ID的可信度和目标判定规则对用户进行识别。本发明能够融合多种移动设备的ID信息,准确地标识一个用户。
Description
技术领域
本发明属于信息技术、数据挖掘技术领域,涉及构建精准用户画像、精准营销、程序化广告投放等领域,具体涉及一种融合多种移动设备的身份识别方法。
背景技术
随着移动广告高峰期的到来以及电商活动的增多,中国移动互联网市场规模进一步增长,市场整体规模已超过8万亿,且处于活跃的移动设备数量已达到10亿以上。
用户在使用过程中,一个用户的行为信息、属性数据等往往被分散在很多不同的数据源中,每个数据源皆有各自定义的UID(User Identification,即用户身份标识,用户在注册或登录后,系统会自动生成)用来标识用户,从而造成了用户ID的零碎化。因此,根据单一的数据源进行用户的分析、挖掘,只能获取其片面的信息,而融合多种移动设备的身份识别方法致力于将碎片化的信息融合起来,准确的识别用户,使得在不同的领域都能提供完整的用户画像。
当前一个用户可以利用如下多种硬件设备码生成的统一的移动设备唯一标识产生关联,包括:
IDFA,苹果设备的广告标识,一定程度上可以认为是苹果的设备号;
IDFV,苹果设备提供给供应商的唯一标识符;
IMEI,安卓设备可获取的设备号,在移动电话网络中识别每一部独立的手机等行动通讯装置;
IMSI,手机SIM卡的标识信息;
MAC,网络设备号,为网卡的标识,用来定义网络设备的位置;
IP,运营商分配给上网设备的地址;
GPS,终端设备采集到的用户地理位置信息;
DEVICENAME,用户所填写设备昵称。
那么如何融合一个用户的多个身份标识以精准地标识一个用户?传统方式存在以下三个方面的难点:
一是数据采集系统的需求变化。在移动互联网流量剧增的背景下,目前传统的基于PC网站或者访问日志的方式采集用户数据的系统已经无法满足实时分析用户行为、实时统计流量属性等方面的需求。
二是身份ID标识的有效性。对于行业中各类造假,例如:虚拟机造假,安卓系统常用的IMEI,MAC,设备序列号,以及IMSI和IOS系统常用的IDFA、IDFV等设备信息,可被篡改,随Rom或者软件的卸载与重新安装等而发生改变。同时,因用户对移动设备的更换频率、刷机等因素需求不同,会存在大量无效身份ID标识,导致存在一个用户有多种不同的身份ID或多种不同类型的身份ID。
三是精准地标识一个用户。对于一个用户有效的多种身份ID标识,存在大量多值映射问题,即用户与身份ID标识之间是“多对多”的关系,导致单一的ID标识可能存在于多个用户中,无法进行准确的标识。这些都是实际应用中亟待解决的问题。
当前大部分方法为了解决上述问题,仅通过一对一ID映射数据的关联及多对多ID映射时的人工分析,效率非常低,且准确率难以控制。因此,亟需在复杂的ID标识关联关系中构建ID Mapping(ID映射)系统,通过设计合理的ID抽取算法,使用ID映射技术,并过滤无效ID标识,将单个用户的多种有效身份标识信息融合,准确的识别用户。
发明内容
本发明针对上述问题,提出一种融合多种移动设备的身份识别方法和系统,用于准确地标识一个用户。
本发明利用无痕埋点技术实时采集用户行为数据,写入消息队列,获取到结构化、非结构化(文本信息)数据。首先,进行数据解析,抽取出唯一标识用户身份的ID信息,避免无用信息对身份融合过程中的干扰;其次,进行ID映射,识别无效ID;最后,针对有效ID计算可信度,进而实现一种融合多种移动设备的身份识别方法。
本发明采用的技术方案如下:
一种融合多种移动设备的身份识别方法,主要包括如下步骤:
1)获取来源于不同移动设备的数据,从中抽取出标识用户身份的ID信息;
2)根据抽取的ID信息生成<用户ID,ID类别,ID信息>的三元映射关系,并计算所述三元映射关系的权重;
3)根据用户使用移动设备的时间距离当前时间的差值,以及所述三元映射关系的权重,计算移动设备的活跃度参数,根据所述活跃度参数识别并过滤无效ID,得到有效ID;
4)应用D-S证据理论并结合所述活跃度参数,计算各种有效ID的可信度;
5)根据有效ID的可信度和目标判定规则对用户进行准确地识别。
进一步地,步骤1)包括:
1.1)利用无痕埋点,获取多种移动设备的不同页面来源的用户行为数据(目的是较全面的获取一个人的多种移动设备的数据);
1.2)对不同的数据定义及数据存储形式,利用统一的标准对数据进行规范化处理;
1.3)对规范化处理后的数据抽取ID信息;
1.4)对抽取ID信息进行数据清洗,检测异常设备,初步过滤ID标识;
进一步地,步骤1.1)所述埋点相关技术为客户端SDK(Software DevelopmentKit,软件开发工具包)通过Http(s)/Tcp/Udp协议根据特定的网络环境采用特定的策略将数据发送到服务器,服务器将采集的数据实时写入Kafka分布式消息队列系统,同时获取由客户端SDK统一生成的用户标识,然后服务器将用户业务操作日志信息写入Kafka队列,最后将其写入到数据存储层HDFS,通过Hive或Spark进行数据的分析。
进一步地,步骤1.2)所述规范化处理包括:统一中英文,统一全角半角字符,以及繁体中文转简体中文,滤除test、iphone等。
进一步地,步骤1.3)所述抽取ID信息即从采集的数据中抽取出能唯一标识一个用户的身份信息,包括:IDFA、IMEI、NICKNAME等。
进一步地,步骤1.4)所述数据清洗(Data cleaning)首先,通过先验知识进行初步清洗,其次,除了手动检查数据或者数据样本之外,通过详尽的数据分析来检测数据中的错误或不一致情况,及通过获得数据属性的元数据,从而发现数据集中存在的质量问题。
进一步地,步骤2)所述<用户ID,ID标识,ID信息>的三元映射关系,其中,用户ID为不同来源的内部ID,例如,UID;ID标识即上述提到的能唯一标识用户的身份标识;ID信息即该类ID标识对应的值。采用CDF-AICF算法计算每种标识对不同用户的指示程度,即在传统的TF-IDF算法基础上,充分考虑特征与类别的关系。传统的算法是用以评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度,而CDF-AICF算法充分利用了词语的频率信息,把文档频率分成不同词频在不同类别下的文档频率,本发明中主要作为一个ID标识与用户之间相关程度的度量或评级。
进一步地,步骤3)所述过滤无效ID标识,根据统计的方法分析用户行为数据,确定用户使用该设备的时间距离当前时间的差值,结合CDF-AICF结果,计算设备活跃度参数,进而过滤长期不活跃的身份ID标识。
进一步地,步骤4)所述计算可信度,包括:首先,进行融合问题的数学建模,即确定融合问题的识别框架,即{A,B,C,......,N},其中A~N分别表示一个用户,是一个表示识别结果可能答案的互不相容事件的完备集合;其次,给出各种有效ID标识在识别框架上的基础概率分配m(A)、m(B)、m(C)、……m(N);最后,进行知识的融合过程。
进一步地,步骤5)所述采用基于基本可信度分配的方法,确定目标判定规则,进而准确的识别用户。
基于同一发明构思,本发明还提供一种融合多种移动设备的身份识别系统,其包括:
ID抽取模块,负责获取来源于不同移动设备的数据,从中抽取出标识用户身份的ID信息;
ID映射模块,负责根据抽取的ID信息生成<用户ID,ID类别,ID信息>的三元映射关系,并计算所述三元映射关系的权重;
ID过滤模块,负责根据用户使用移动设备的时间距离当前时间的差值,以及所述三元映射关系的权重,计算移动设备的活跃度参数,根据所述活跃度参数识别并过滤无效ID,得到有效ID;
可信度计算模块,负责应用D-S证据理论并结合所述活跃度参数,计算各种有效ID的可信度;
目标判定模块,负责根据有效ID的可信度和目标判定规则对用户进行识别。
进一步地,所述ID抽取模块包括:
数据采集子模块,负责利用无痕埋点获取不同来源的数据;
文本规范化子模块,负责对不同的数据定义及数据存储形式,利用统一的标准对数据进行规范化处理;
ID抽取子模块,负责对规范化处理后的数据抽取ID信息;
数据清洗子模块,负责对抽取的ID信息进行数据清洗。
与现有技术相比,本发明的积极效果为:
本发明相较于基于单一ID标识进行的用户识别,有效用户占比降低了6%,同时用户识别的准确率提高10%。而且,使用的历史数据时间窗越长就越精准。
附图说明
图1是本发明的融合多种移动设备的身份识别方法的步骤流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实例和附图,对本发明做进一步说明。
本发明是一种融合多种移动设备的身份识别方法,用于融合多种身份标识准确的识别用户。本发明思路是:首先,抽取ID信息,通过采集多种来源的数据,对初始数据进行相关预处理,包括:数据规范化、用户唯一标识ID信息抽取、数据清洗等;其次,进行ID映射,并基于CDF-AICF算法结合活跃度参数识别无效ID;然后,应用D-S证据理论,通过融合多种身份信息计算可信度;最后,基于可信度和判别准则准确的识别用户。
本发明的融合多种移动设备的身份识别方法分为五大阶段:
1、ID信息抽取。ID信息是指唯一标识一个用户的信息,例如MAC地址、IDFA、设备名称等等。该阶段从不同埋点的信息中,抽取出关键的能标识一个用户身份的ID信息。该阶段更具体的步骤如下:
1)数据采集。利用无痕埋点技术采集到一些基本的用户行为数据,比如设备的基本信息,用户执行的基本操作等,是ID信息的抽取基础。
2)数据规范化。该步骤包括统一数据标准,并过滤无用信息。
3)ID信息抽取。该步骤确定要抽取的ID信息,并将其从用户行为数据中抽取出来。
4)数据清洗。该步骤先根据先验知识进行初步清洗,之后通过规则和统计的方法进一步清洗。
2、ID映射。生成<用户ID,ID类别,ID信息>的三元映射关系,并给出该映射关系的权重。
3、识别无效ID。根据用户使用移动设备的时间距离当前时间的差值,例如:一个月内使用,以及上述映射关系的权重,计算活跃度参数以判断设备是否有效。
4、计算可信度。可信度是指所有身份标识融合成一个新的标识后对识别出的用户的信任程度。该阶段我们使用第一阶段抽取的ID信息,进行ID映射,过滤掉无效ID后,通过使用D-S证据理论的知识融合方法计算各种有效ID对识别出的用户的最大可信度,用于准确的识别用户。
5、用户识别。根据可信度,采用一定的判别准则,确定获得最大可信度的可能性,并准确的识别用户。
图1是本发明一个实施例的融合多种移动设备的身份识别方法的步骤流程图,主要包括如下步骤:
步骤1:数据采集。
该数据采集主要是利用无痕埋点相关技术,实时获取并将用户行为数据存储至kafka消息队列,便于进行实时的数据分析,减少开发人员工作量,获取的数据全面且无遗漏。
步骤2:文本规范化。
一是将拥有相同意义的不同文本转换成统一格式,二是将文本中无意义并且干扰后续处理的内容进行删除。具体的规范化的内容有:
1、统一中英文
对于身份ID标识“UnKnown”、“unknown”、“unknow”、“未知”等皆处理为“unknown”,即未获取到该身份ID标识
2、统一全角半角字符
设备昵称中包含字符,将其格式统一。
3、繁体中文转简体中文
设备昵称中包含繁体和简体中文,统一转换成简体。
4、滤除test、iphone、空值、administrator、异常值
步骤3:抽取ID信息。
抽取ID信息,目的是从采集的数据中抽取出能唯一标识一个用户的身份信息,经过该步骤后,得到的是每个内部用户及其对应的多种ID标识类型及标识值。
1、人工查看多来源数据。因不同来源数据获取的特征不同,因此,查看过程中,每个来源不低于100条,整理各个来源数据中ID标识的类型,形成ID标识类型集合,将该集合记为Lex。
2、提取唯一ID标识。根据ID标识的类型集合Lex进行提取并结构化。比如,将不属于ID标识集合的内容替换成OTHER。例如:将ID为“IDFA”的内容结构化为{"IDFA":"***14066-4953-4A7D-BBDC-663D9EE9F***"}
步骤4:数据清洗
首先,根据现有经验知识进行清洗,例如,根据IOS 7中苹果封杀MAC地址,使用之前的方法获取到的MAC地址全部都变成了“02:00:00:00:00:00”;因刷机等行为可能使IMEI号为“00000000”。
然后,根据数据特有的形式建立规则,并进行人工校验。基于统计的方法,例如,经统计分析,IDFA存在“idfv_34105D98-5890-444E-AB22-3AB5C6C88CB6”,IMEI存在“a0000004f628342”等形式。因此,定义IMEI应符合规则“^[0-9a-zA-Z]{14,15}$”;IDFA应符合规则“^([0-9a-zA-Z]{1,})(([-][0-9a-zA-Z]{1,}){4})$”等。
步骤5:ID映射
该步骤主要目的是生成<用户ID,ID类别,ID信息>的三元映射关系,并给出该映射关系的可信程度。其中,三元映射关系中的用户ID即不同来源的能标识一个用户的内部ID,例如:uid或clientid等;ID类别,即能唯一标识用户的ID标识,例如:MAC、IDFA、IMEI等;ID信息即为ID标识对应的值信息。而映射关系的可信程度,即利用CDF-AICF算法计算不同标识对某一用户的指示程度。
CDF-类别相关文档频率。即特征对类别的表现力,类别中出现特征的文档数越多,特征对类别越重要,应赋予越高的权重。在本发明中主要指的是某一个给定的ID标识与给定用户同时出现的文档频率。该频次越高,则该用户使用该设备越频繁,即ID标识对用户的指示程度越高。它可表示为:CDF(ti,fj)。
CDF(ti,fj)=dfi,c,其中,ti为特征词,即身份ID标识;fj为词频;dfi,c为关联类别c中包含特征ti的文档数。
获取CDF的主要步骤为:首先根据特征词的词频信息,获取特征词在该词频下的文档频率在类别中的分布,把文档频率的类别作为该特征词在该词频下与之关联的类别,把该类别下的文档频率作为特征的CDF值。
某一特定用户的高ID标识频次,以及ID标识在整个用户集合汇总的低用户频率,可以产生出高权重的CDF-AICF。因此,CDF-AICF倾向于过滤掉垃圾ID标识,保留重要的ID标识。例如:过滤掉“NICKNAME”为“iphone”的映射关系。
步骤6:识别无效ID
对于僵尸用户(仅搜索、浏览,未曾下过订单的用户),或者长期不用的设备,数据长期不更新后可能数据不准确。因此,对每个ID加入活跃度参数,一方面代表设备的活跃程度,一方面可以增强数据的准确性。
用户行为数据:代表了设备的活跃情况,数据入表活跃度(可以理解为“初始默认值”,以方便计算)设置为0,之后利用ID映射技术计算CDF-AICF,该值越大则对于用户j设备i越活跃。
设备活跃度指数:代表了设备活跃程度,指用户使用该设备的时间距离当前时间的差值的倒数,时间越是接近当前时间,则该设备活跃度程度越大,整理各个来源数据的该值(即用户使用该设备的时间距离当前时间的差值的倒数)形成集合,记为Period。
Δt=tin_use-tcurrent
其中,P(t)表示设备活跃度指数,tin_use表示用户使用该设备的时间,tcurrent表示当前时间。
如果该ID标识在当前正在使用中,就会导致分母为零,因此一般情况下使用1+Δt作为分母。
活跃度参数:该参数受设备活跃度指数与CDF-AICF影响,其中,CDF-AICF描述了某段时间该设备属于某一用户的指示程度,为了突出时间序列的重要性,引入设备活跃度参数。
活跃度参数计算公式如下:
其中,F(activeij)表示设备i对用户j的活跃度参数,g(x)表示Sigmoid函数,x为CDF与AICF的乘积。
由于本发明更注重身份ID标识的有效性,故选取比例或者绝对阈值进行截断得到排名靠前的身份ID标识判别为有效ID,其他为无效ID标识,可以根据具体应用加以调整。
步骤7:计算可信度
通过使用D-S证据理论的知识融合方法计算可信度。可信度是对识别框架中每一个主体的判决结果的可信程度,本发明中主要指移动设备对识别出的每个用户的信任程度。
所述计算可信度,包括:首先,进行融合问题的数学建模,即确定融合问题的识别框架,即{A,B,C,......,N},其中A~N分别表示一个用户,是一个表示识别结果可能答案的互不相容事件的完备集合;其次,给出各种有效ID标识在识别框架上的基础概率分配m(A)、m(B)、m(C)、……m(N);最后,进行知识的融合过程(即后文描述的有限个mass函数的Dempster合成规则)。
其中,设U为识别框架,则函数m:2U→[0,1]满足下列条件:
式中:Bj(j=1,2…n)和Ai(i=1,2…q)分别为BPA函数(Basic ProbabilityAssignment Functions,基本概率分配函数)的焦元,n为有效ID个数,q为有效ID识别的用户个数;Bj∩Ai=φ表示分配到空集上的信质;Bj∩Ai=A表示分配到A的总信质。
上式中,mj(Ai)值则为步骤6中第j个有效ID对于用户A的CDF-AICF权重值,即g(x)。
另,信任函数(Belief Function):
Bel:2U→[0,1]
表示A的全部子集的基本概率分配函数之和。信任函数的结果,则为对A的可信度。
似然函数(plausibility Function):
pl(A)=1-Bel(A)
表示不否认A的信任度,是所有与A相交的子集的基本概率分配之和。
步骤8:用户识别
本发明采用基于基本可信度分配的方法,确定如下4条目标判定规则:
1)目标类别A应具有最大的可信度;
2)目标类别A的可信度与其他类别的可信度之差必须大于某阈值λ1,也即每一有效ID对所有不同类别的支持程度应保持足够大的差异;
3)不确定性概率必须小于某阈值λ2,也即对目标类别证据的不确定性不能太大;
4)目标类别的可信度必须大于不确定性概率的阈值λ2,即对目标知道很少时,不能对其分类。
在身份融合中,通过多次试验统计得出,判决规则中的门限λ1=0.25,λ2=0.1。结合上述公式,可以融合一个用户的多种移动设备的身份标识进而准确的识别用户,在实际应用中该方法也得到了很好的市场和客户反馈。
基于同一发明构思,本发明另一实施例提供一种融合多种移动设备的身份识别系统,其包括:
ID抽取模块,负责获取来源于不同移动设备的数据,从中抽取出标识用户身份的ID信息;
ID映射模块,负责根据抽取的ID信息生成<用户ID,ID类别,ID信息>的三元映射关系,并计算所述三元映射关系的权重;
ID过滤模块,负责根据用户使用移动设备的时间距离当前时间的差值,以及所述三元映射关系的权重,计算移动设备的活跃度参数,根据所述活跃度参数识别并过滤无效ID,得到有效ID;
可信度计算模块,负责应用D-S证据理论并结合所述活跃度参数,计算各种有效ID的可信度;
目标判定模块,负责根据有效ID的可信度和目标判定规则对用户进行识别。
进一步地,所述ID抽取模块包括:
数据采集子模块,负责利用无痕埋点获取不同来源的数据;
文本规范化子模块,负责对不同的数据定义及数据存储形式,利用统一的标准对数据进行规范化处理;
ID抽取子模块,负责对规范化处理后的数据抽取ID信息;
数据清洗子模块,负责对抽取的ID信息进行数据清洗。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (10)
1.一种融合多种移动设备的身份识别方法,其特征在于,包括以下步骤:
1)获取来源于不同移动设备的数据,从中抽取出标识用户身份的ID信息;
2)根据抽取的ID信息生成<用户ID,ID类别,ID信息>的三元映射关系,并计算所述三元映射关系的权重;
3)根据用户使用移动设备的时间距离当前时间的差值,以及所述三元映射关系的权重,计算移动设备的活跃度参数,根据所述活跃度参数识别并过滤无效ID,得到有效ID;
4)应用D-S证据理论并结合所述活跃度参数,计算各种有效ID的可信度;
5)根据有效ID的可信度和目标判定规则对用户进行识别。
2.根据权利要求1所述的方法,其特征在于,步骤1)包括:
1.1)利用无痕埋点获取不同来源的数据;
1.2)对不同的数据定义及数据存储形式,利用统一的标准对数据进行规范化处理;
1.3)对规范化处理后的数据抽取ID信息。
3.根据权利要求2所述的方法,其特征在于,步骤1)还包括:对步骤1.3)抽取的ID信息进行数据清洗,以检测异常设备并初步过滤ID标识。
4.根据权利要求2所述的方法,其特征在于,步骤1.1)所述利用无痕埋点获取不同来源的数据包括:客户端SDK通过Http(s)/Tcp/Udp协议根据特定的网络环境采用特定的策略将数据发送到服务器,服务器将采集的数据实时写入Kafka分布式消息队列系统,同时获取由客户端SDK统一生成的用户标识,然后服务器将用户业务操作日志信息写入Kafka队列,最后将其写入到数据存储层HDFS,通过Hive或Spark进行数据的分析。
5.根据权利要求1所述的方法,其特征在于,步骤2)计算所述三元映射关系的权重,是采用CDF-AICF算法计算每种标识对不同用户的指示程度;其中:CDF为类别相关文档频率,即特征对类别的表现力,指某一个给定的ID标识与给定用户同时出现的文档频率,该频率越高则ID标识对用户的指示程度越高;AICF为平均逆类频率,即特征对类别的区分力,是一个ID标识普遍重要性的度量。
6.根据权利要求5所述的方法,其特征在于,步骤3)所述活跃度参数的计算公式为:
其中,F(activeij)表示设备i对用户j的活跃度参数,g(x)表示Sigmoid函数,x为CDF与AICF的乘积。
7.根据权利要求1所述的方法,其特征在于,步骤4)通过使用D-S证据理论的知识融合方法计算可信度,包括:首先,进行融合问题的数学建模,即确定融合问题的识别框架,即{A,B,C,......,N},其中A~N分别表示一个用户,是一个表示识别结果可能答案的互不相容事件的完备集合;其次,给出各种有效ID标识在识别框架上的基础概率分配m(A)、m(B)、m(C)、……m(N);最后,进行知识的融合过程。
8.根据权利要求1所述的方法,其特征在于,步骤5)所述目标判定规则包括:
5.1)目标类别应具有最大的可信度;
5.2)目标类别的可信度与其他类别的可信度之差必须大于某阈值λ1;
5.3)不确定性概率必须小于某阈值λ2;
5.4)目标类别的可信度必须大于不确定性概率的阈值λ2。
9.一种融合多种移动设备的身份识别系统,其特征在于,包括:
ID抽取模块,负责获取来源于不同移动设备的数据,从中抽取出标识用户身份的ID信息;
ID映射模块,负责根据抽取的ID信息生成<用户ID,ID类别,ID信息>的三元映射关系,并计算所述三元映射关系的权重;
ID过滤模块,负责根据用户使用移动设备的时间距离当前时间的差值,以及所述三元映射关系的权重,计算移动设备的活跃度参数,根据所述活跃度参数识别并过滤无效ID,得到有效ID;
可信度计算模块,负责应用D-S证据理论并结合所述活跃度参数,计算各种有效ID的可信度;
目标判定模块,负责根据有效ID的可信度和目标判定规则对用户进行识别。
10.根据权利要求9所述的系统,其特征在于,所述ID抽取模块包括:
数据采集子模块,负责利用无痕埋点获取不同来源的数据;
文本规范化子模块,负责对不同的数据定义及数据存储形式,利用统一的标准对数据进行规范化处理;
ID抽取子模块,负责对规范化处理后的数据抽取ID信息;
数据清洗子模块,负责对抽取的ID信息进行数据清洗。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910831509.3A CN110648172B (zh) | 2019-09-04 | 2019-09-04 | 一种融合多种移动设备的身份识别方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910831509.3A CN110648172B (zh) | 2019-09-04 | 2019-09-04 | 一种融合多种移动设备的身份识别方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110648172A true CN110648172A (zh) | 2020-01-03 |
CN110648172B CN110648172B (zh) | 2023-07-14 |
Family
ID=68991486
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910831509.3A Active CN110648172B (zh) | 2019-09-04 | 2019-09-04 | 一种融合多种移动设备的身份识别方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110648172B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340062A (zh) * | 2020-02-04 | 2020-06-26 | 恩亿科(北京)数据科技有限公司 | 一种映射关系确定方法及装置 |
CN111988294A (zh) * | 2020-08-10 | 2020-11-24 | 中国平安人寿保险股份有限公司 | 基于人工智能的用户身份识别方法、装置、终端及介质 |
CN112073407A (zh) * | 2020-09-04 | 2020-12-11 | 上海浦东发展银行股份有限公司 | 高并发业务中实时判断异常设备的系统、方法及存储介质 |
WO2021238445A1 (zh) * | 2020-05-29 | 2021-12-02 | 京东方科技集团股份有限公司 | 身份信息的统一方法、装置以及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102393912A (zh) * | 2011-11-01 | 2012-03-28 | 中国电子科技集团公司第二十八研究所 | 一种基于不确定推理的目标综合识别方法 |
CN104077601A (zh) * | 2014-07-08 | 2014-10-01 | 中国航空无线电电子研究所 | 一种利用不同类型信息进行目标综合识别的方法 |
US9070088B1 (en) * | 2014-09-16 | 2015-06-30 | Trooly Inc. | Determining trustworthiness and compatibility of a person |
CN105610841A (zh) * | 2015-12-31 | 2016-05-25 | 国网智能电网研究院 | 一种基于可溯源的用户信息认证方法 |
CN106874378A (zh) * | 2017-01-05 | 2017-06-20 | 北京工商大学 | 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法 |
CN107622275A (zh) * | 2017-08-21 | 2018-01-23 | 西安电子科技大学 | 一种基于证据合成的信息融合目标识别方法 |
CN108536831A (zh) * | 2018-04-11 | 2018-09-14 | 上海驰骛信息科技有限公司 | 一种基于多参数的用户识别系统及方法 |
-
2019
- 2019-09-04 CN CN201910831509.3A patent/CN110648172B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102393912A (zh) * | 2011-11-01 | 2012-03-28 | 中国电子科技集团公司第二十八研究所 | 一种基于不确定推理的目标综合识别方法 |
CN104077601A (zh) * | 2014-07-08 | 2014-10-01 | 中国航空无线电电子研究所 | 一种利用不同类型信息进行目标综合识别的方法 |
US9070088B1 (en) * | 2014-09-16 | 2015-06-30 | Trooly Inc. | Determining trustworthiness and compatibility of a person |
CN105610841A (zh) * | 2015-12-31 | 2016-05-25 | 国网智能电网研究院 | 一种基于可溯源的用户信息认证方法 |
CN106874378A (zh) * | 2017-01-05 | 2017-06-20 | 北京工商大学 | 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法 |
CN107622275A (zh) * | 2017-08-21 | 2018-01-23 | 西安电子科技大学 | 一种基于证据合成的信息融合目标识别方法 |
CN108536831A (zh) * | 2018-04-11 | 2018-09-14 | 上海驰骛信息科技有限公司 | 一种基于多参数的用户识别系统及方法 |
Non-Patent Citations (2)
Title |
---|
张羚等: "基于词频类别相关的特征权重算法", 《计算机应用研究》 * |
张羚等: "基于词频类别相关的特征权重算法", 《计算机应用研究》, no. 02, 28 February 2017 (2017-02-28), pages 386 - 391 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340062A (zh) * | 2020-02-04 | 2020-06-26 | 恩亿科(北京)数据科技有限公司 | 一种映射关系确定方法及装置 |
WO2021238445A1 (zh) * | 2020-05-29 | 2021-12-02 | 京东方科技集团股份有限公司 | 身份信息的统一方法、装置以及电子设备 |
CN111988294A (zh) * | 2020-08-10 | 2020-11-24 | 中国平安人寿保险股份有限公司 | 基于人工智能的用户身份识别方法、装置、终端及介质 |
CN111988294B (zh) * | 2020-08-10 | 2022-04-12 | 中国平安人寿保险股份有限公司 | 基于人工智能的用户身份识别方法、装置、终端及介质 |
CN112073407A (zh) * | 2020-09-04 | 2020-12-11 | 上海浦东发展银行股份有限公司 | 高并发业务中实时判断异常设备的系统、方法及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110648172B (zh) | 2023-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110648172B (zh) | 一种融合多种移动设备的身份识别方法和系统 | |
CN107577688B (zh) | 基于媒体信息采集的原创文章影响力分析系统 | |
CN106649831B (zh) | 一种数据过滤方法及装置 | |
CN109905288B (zh) | 一种应用服务分类方法及装置 | |
CN111325463A (zh) | 数据质量检测方法、装置、设备及计算机可读存储介质 | |
CN104834668A (zh) | 基于知识库的职位推荐系统 | |
CN110019703B (zh) | 数据标记方法及装置、智能问答方法及系统 | |
WO2022247955A1 (zh) | 非正常账号识别方法、装置、设备和存储介质 | |
CN108335165B (zh) | 兴趣标签确定方法和装置 | |
CN109698798B (zh) | 一种应用的识别方法、装置、服务器和存储介质 | |
CN110020161B (zh) | 数据处理方法、日志处理方法和终端 | |
CN113918526A (zh) | 日志处理方法、装置、计算机设备和存储介质 | |
CN106294406B (zh) | 一种用于处理应用访问数据的方法与设备 | |
CN112333185A (zh) | 一种基于dns解析的域名阴影检测方法和装置 | |
CN106982147B (zh) | 一种Web通讯应用的通讯监控方法和装置 | |
CN115599345A (zh) | 一种基于知识图谱的应用安全需求分析推荐方法 | |
CN106411879B (zh) | 一种软件识别特征的获取方法和装置 | |
CN115051859A (zh) | 情报分析方法、情报分析装置、电子设备及介质 | |
CN114625714A (zh) | 日志处理方法及装置 | |
CN114722385A (zh) | 一种流量信息分析方法、系统及相关组件 | |
CN114218569A (zh) | 数据分析方法、装置、设备、介质和产品 | |
CN114422168A (zh) | 一种恶意机器流量识别方法及系统 | |
CN112685652A (zh) | 面向企业用户的信息推送方法及系统 | |
CN107784080B (zh) | 自动建立用户知识框架的方法、装置、系统及存储介质 | |
CN111611483A (zh) | 一种对象画像构建方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |