CN105630978A - 信息收集方法和装置 - Google Patents

信息收集方法和装置 Download PDF

Info

Publication number
CN105630978A
CN105630978A CN201510993530.5A CN201510993530A CN105630978A CN 105630978 A CN105630978 A CN 105630978A CN 201510993530 A CN201510993530 A CN 201510993530A CN 105630978 A CN105630978 A CN 105630978A
Authority
CN
China
Prior art keywords
user
information
data
identification
real identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510993530.5A
Other languages
English (en)
Inventor
惠润海
李晋钢
郭庆
谢莹莹
宋怀明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dawning Information Industry Beijing Co Ltd
Original Assignee
Dawning Information Industry Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN201510993530.5A priority Critical patent/CN105630978A/zh
Publication of CN105630978A publication Critical patent/CN105630978A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种信息收集方法和装置,该方法包括:通过收集各类身份认证数据,将用户的真实数据与用户的虚拟数据相关联;根据真实数据确认用户真实身份;将与真实数据相关联的所有虚拟数据收集为与用户真实身份相关联的挖掘数据。本发明通过采集多种身份认证数据来实现用户真实身份相关联的挖掘数据,在数据量大的场景下提供有力的数据支持。

Description

信息收集方法和装置
技术领域
本发明涉及信息收集领域,具体来说,涉及一种信息收集方法和装置。
背景技术
在大数据时代背景下,各行各业都在产生大量的数据,而在海量数据的背景下,同一个人在不同的场景下会使用不同的身份、电话等信息,在很多数据分析系统中,需要从大量数据中将信息进行归一化,以便对有效数据加以利用。
现有技术通常采用简单的映射方式,比如手机号,在快递系统中直接和人映射,而实际中很可能不是手机的真实拥有者。在部分系统中,通过简单的映射也可以做到一定程度的信息识别,但在海量数据,尤其是情报信息分析中则需要根据多方数据来确定信息的置信度,从而为数据分析做合理的支撑。
现有技术基本局限在各自业务系统的范围内,没有有效的多方数据源,同时,简单的分析模型使得各类信息的可信度大打折扣,在数据量大的场景下很难提供有力的数据支持。
针对相关技术中的上述问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的上述问题,本发明提出一种信息收集方法和装置,能够通过采集多种身份认证数据来实现用户真实身份相关联的挖掘数据,在数据量大的场景下提供有力的数据支持。
本发明的技术方案是这样实现的:
根据本发明的一个方面,提供了一种信息收集方法。
该信息收集方法包括:
通过收集各类身份认证数据,将用户的真实数据与用户的虚拟数据相关联;
根据真实数据确认用户真实身份;
将与真实数据相关联的所有虚拟数据收集为与用户真实身份相关联的挖掘数据。
此外,该信息收集方法进一步包括:
通过收集各类网络应用的用户信息,获取网络用户的身份认证信息和属性信息;
从各类网络应用的用户信息中查找一种网络应用的身份认证信息与另一种网络应用的属性信息之间的关联关系的目标身份认证信息,直至该目标身份认证信息所对应的网络用户的属性信息中包括该网络用户的唯一确定用户真实身份的信息;
根据唯一确定用户真实身份的信息确定该网络用户的真实身份;
将与唯一确定用户真实身份的信息存在关联关系的用户信息收集为与用户真实身份相关联的挖掘信息。
其中,唯一确定用户真实身份的信息包括以下至少之一:
身份证号、社会保险号、护照号。
根据本发明的另一方面,提供了一种信息收集装置。
该信息收集装置包括:
关联模块,用于通过收集各类身份认证数据,将用户的真实数据与用户的虚拟数据相关联;
第一确定模块,用于根据真实数据确认用户真实身份;
第一收集模块,将与真实数据相关联的所有虚拟数据收集为与用户真实身份相关联的挖掘数据。
此外,该信息收集装置进一步包括:
获取模块,用于通过收集各类网络应用的用户信息,获取网络用户的身份认证信息和属性信息;
查找模块,用于从各类网络应用的用户信息中查找一种网络应用的身份认证信息与另一种网络应用的属性信息之间的关联关系的目标身份认证信息,直至该目标身份认证信息所对应的网络用户的属性信息中包括该网络用户的唯一确定用户真实身份的信息;
第二确定模块,用于根据唯一确定用户真实身份的信息确定该网络用户的真实身份;
第二收集模块,用于将与唯一确定用户真实身份的信息存在关联关系的用户信息收集为与用户真实身份相关联的挖掘信息。
其中,唯一确定用户真实身份的信息包括以下至少之一:
身份证号、社会保险号、护照号。
本发明通过采集多种身份认证数据来实现用户真实身份相关联的挖掘数据,在数据量大的场景下提供有力的数据支持。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的信息收集方法的流程图;
图2是根据本发明实施例的属性与标识的关联示意图;
图3是根据本发明实施例的信息收集装置的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的实施例,提供了一种信息收集方法。
如图1所示,根据本发明实施例的信息收集方法包括:
步骤S101,通过收集各类身份认证数据,将用户的真实数据与用户的虚拟数据相关联;
步骤S103,根据真实数据确认用户真实身份;
步骤S105,将与真实数据相关联的所有虚拟数据收集为与用户真实身份相关联的挖掘数据。
此外,在一个实施例中,根据本发明实施例的信息收集方法进一步包括:
通过收集各类网络应用的用户信息,获取网络用户的身份认证信息和属性信息;
从各类网络应用的用户信息中查找一种网络应用的身份认证信息与另一种网络应用的属性信息之间的关联关系的目标身份认证信息,直至该目标身份认证信息所对应的网络用户的属性信息中包括该网络用户的唯一确定用户真实身份的信息;
根据唯一确定用户真实身份的信息确定该网络用户的真实身份;
将与唯一确定用户真实身份的信息存在关联关系的用户信息收集为与用户真实身份相关联的挖掘信息。
其中,唯一确定用户真实身份的信息包括以下至少之一:
身份证号、社会保险号、护照号。
下面结合一具体实例来对本发明的上述技术方案进行详细阐述。在本实施例中,本发明从多种数据源中的数据进行分析,通过关联处理,对信息进行归一化。即将不同的网络应用身份、现实身份关联到一起,归为一个人。具体包括三种模型:
1、通过认证数据进行虚实关联
(1)通过移动网GTP-C、信令等各种认证数据可以将手机号、IMSI与网络应用账号进行关联,手机号、IMSI等号码可以与真实人在运营商的基础注册信息如身份证号码关联,这样网络应用账号也就与真实身份进行了关联,绝大部分人都是用自己的手机登录自己的手机应用,只有极个别的手机用户会共享WiFi给其他人,也只有极个别的手机登记的身份非本人,因此对于手机关联的真实用户可以基本认定就是真实身份。对于共享WiFi的例外情况,可以通过IMEI、终端ID等各种识别不同手机设备的方法识别出同时用一个手机账号的多个XXNXID。
(2)通过固网Radius认证数据可以将Radius账号与网络应用账号进行关联,再与注册人关联,当然这个关联出来的真实身份只是注册人,对于ADSL很多人都采用一个账号多个人共同上网的方式,所以注册人有较大概率与网络应用身份是同一个人,但也很可能并不能百分百确定,需要统计存在多少ADSL是一个账号多人共用的,1减去这个概率,就是通过ADSL的Radius账号关联真实身份准确度的概率,再结合其他方式进一步确认。
(3)除了固网、移动网认证外,还有酒店、网吧等其他各种认证数据,也可以将网络应用身份与真实身份关联起来,这种可信度也是较高,但同样对一些管理不严的酒店网吧存在随便登记的情况,可以采用统计的方式,统计估计有多少酒店网吧管理不严格,算出这个比例,可以得出。
2、通过不同系统中人的属性与标识进行关联
如图2所示,通过一个系统中人对象的属性与另一个系统中人对象的主唯一标识或唯一标识关联,如一个可靠网络应用账号的个人设置中的身份证号属性,就与真实人关联,及虚实关联;网络应用账号的个人设置中的QQ号,与QQ身份关联,即虚虚关联。
3、通过统计概率关联
通过多个身份同时出现的频率得出多个虚拟对象为同一真实身份的概率,具体而言可以采用的方法
(1)一直在同一手机上出现的两个XXNXID,就可以极大概率基本认为两个XXNXID为同一真实身份。
(2)两个网络应用身份的个人设置除了唯一标识不一样,其他各个属性全都一样,如年龄、性别、血型、住址、个人喜好、个人说明、个性签名等都一样,则我们可以认为两个身份有很大的概率为同一人,一致的越多概率越大。
(3)通过相同字段或不同字段的语气、风格、生僻字、关键字、笔迹等等各种相似度得出为同一人的概率。
以上所有归一化方法其实都存在虚实关联概率问题,只是有些概率极高可基本认定,但有些概率高但还不能认定。对于一个模型不能完全确认身份的情况,可以通过多个模型复合计算概率,如果模型1的身份准确率为P1,模型2的准确率P2,则同时符合模型1和模型2的身份准确率就是P=1-(1-P1)(1-P2),依次类推,如果有n个模型,则同时符合n个模型的身份准确率就是P=P=1-(1-P1)(1-P2)……(1-Pn)。
假设用Radius方式得出真实身份的概率是70%,用用户设置中的身份证号得出真实身份的概率是90%,则两个同时发生情况下身份准确率就是P=1-(1-70%)(1-90%)=97%,如果我们把认定阈值设为95%,则此种情况我们就可基本认定此人的真实身份。
本发明通过提供一种数据信息归一化的方法,可以在多方数据源、海量数据的背景下,从大量数据中分析出人的虚实身份和信息及相应的置信度,在不同系统中分析出人相关信息的关联关系,从而为各类信息挖掘、情报分析提供关键数据支撑。
根据本发明的实施例,还提供了一种信息收集装置。
如图3所示,根据本发明实施例的信息收集装置包括:
关联模块31,用于通过收集各类身份认证数据,将用户的真实数据与用户的虚拟数据相关联;
第一确定模块32,用于根据真实数据确认用户真实身份;
第一收集模块33,将与真实数据相关联的所有虚拟数据收集为与用户真实身份相关联的挖掘数据。
此外,在一个实施例中,根据本发明实施例的信息收集装置进一步包括:
获取模块(未示出),用于通过收集各类网络应用的用户信息,获取网络用户的身份认证信息和属性信息;
查找模块(未示出),用于从各类网络应用的用户信息中查找一种网络应用的身份认证信息与另一种网络应用的属性信息之间的关联关系的目标身份认证信息,直至该目标身份认证信息所对应的网络用户的属性信息中包括该网络用户的唯一确定用户真实身份的信息;
第二确定模块(未示出),用于根据唯一确定用户真实身份的信息确定该网络用户的真实身份;
第二收集模块(未示出),用于将与唯一确定用户真实身份的信息存在关联关系的用户信息收集为与用户真实身份相关联的挖掘信息。
其中,唯一确定用户真实身份的信息包括以下至少之一:
身份证号、社会保险号、护照号。
综上所述,借助于本发明的上述技术方案,通过基于多数据源进行信息归一化,并对多数据源基于认证数据、基于不同系统间属性关联以及基于统计概率关联的多种模型分析方法并协同阈值来分析置信度,从而实现信息的收集。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种信息收集方法,其特征在于,包括:
通过收集各类身份认证数据,将用户的真实数据与用户的虚拟数据相关联;
根据所述真实数据确认用户真实身份;
将与所述真实数据相关联的所有虚拟数据收集为与所述用户真实身份相关联的挖掘数据。
2.根据权利要求1所述的信息收集方法,其特征在于,进一步包括:
通过收集各类网络应用的用户信息,获取网络用户的身份认证信息和属性信息;
从所述各类网络应用的用户信息中查找一种网络应用的身份认证信息与另一种网络应用的属性信息之间的关联关系的目标身份认证信息,直至该目标身份认证信息所对应的网络用户的属性信息中包括该网络用户的唯一确定用户真实身份的信息;
根据所述唯一确定用户真实身份的信息确定该网络用户的真实身份;
将与所述唯一确定用户真实身份的信息存在所述关联关系的用户信息收集为与所述用户真实身份相关联的挖掘信息。
3.根据权利要求1所述的信息收集方法,其特征在于,所述唯一确定用户真实身份的信息包括以下至少之一:
身份证号、社会保险号、护照号。
4.一种信息收集装置,其特征在于,包括:
关联模块,用于通过收集各类身份认证数据,将用户的真实数据与用户的虚拟数据相关联;
第一确定模块,用于根据所述真实数据确认用户真实身份;
第一收集模块,将与所述真实数据相关联的所有虚拟数据收集为与所述用户真实身份相关联的挖掘数据。
5.根据权利要求4所述的信息收集装置,其特征在于,进一步包括:
获取模块,用于通过收集各类网络应用的用户信息,获取网络用户的身份认证信息和属性信息;
查找模块,用于从所述各类网络应用的用户信息中查找一种网络应用的身份认证信息与另一种网络应用的属性信息之间的关联关系的目标身份认证信息,直至该目标身份认证信息所对应的网络用户的属性信息中包括该网络用户的唯一确定用户真实身份的信息;
第二确定模块,用于根据所述唯一确定用户真实身份的信息确定该网络用户的真实身份;
第二收集模块,用于将与所述唯一确定用户真实身份的信息存在所述关联关系的用户信息收集为与所述用户真实身份相关联的挖掘信息。
6.根据权利要求4所述的信息收集装置,其特征在于,所述唯一确定用户真实身份的信息包括以下至少之一:
身份证号、社会保险号、护照号。
CN201510993530.5A 2015-12-25 2015-12-25 信息收集方法和装置 Pending CN105630978A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510993530.5A CN105630978A (zh) 2015-12-25 2015-12-25 信息收集方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510993530.5A CN105630978A (zh) 2015-12-25 2015-12-25 信息收集方法和装置

Publications (1)

Publication Number Publication Date
CN105630978A true CN105630978A (zh) 2016-06-01

Family

ID=56045911

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510993530.5A Pending CN105630978A (zh) 2015-12-25 2015-12-25 信息收集方法和装置

Country Status (1)

Country Link
CN (1) CN105630978A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106230829A (zh) * 2016-08-03 2016-12-14 浪潮通用软件有限公司 面向网络威胁发现的虚拟身份知识图谱的构建方法
CN110110218A (zh) * 2018-02-01 2019-08-09 重庆邮电大学 一种身份关联方法及终端

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101034984A (zh) * 2006-09-22 2007-09-12 北京国政通网络科技有限公司 利用用户提交的个人信息建立用户真实身份数据库
CN103164416A (zh) * 2011-12-12 2013-06-19 阿里巴巴集团控股有限公司 一种用户关系的识别方法及设备
CN103166968A (zh) * 2013-03-08 2013-06-19 深圳市华科远讯科技开发有限公司 有效实现网络实名制的方法
CN103475485A (zh) * 2013-09-16 2013-12-25 浙江汇信科技有限公司 基于数字证书互联互通的身份认证支撑平台及认证方法
CN103778162A (zh) * 2012-10-26 2014-05-07 广州市邦富软件有限公司 一种互联网人物搜索信息整合分析方法
CN103905194A (zh) * 2012-12-26 2014-07-02 中国电信股份有限公司 身份溯源认证方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101034984A (zh) * 2006-09-22 2007-09-12 北京国政通网络科技有限公司 利用用户提交的个人信息建立用户真实身份数据库
CN103164416A (zh) * 2011-12-12 2013-06-19 阿里巴巴集团控股有限公司 一种用户关系的识别方法及设备
CN103778162A (zh) * 2012-10-26 2014-05-07 广州市邦富软件有限公司 一种互联网人物搜索信息整合分析方法
CN103905194A (zh) * 2012-12-26 2014-07-02 中国电信股份有限公司 身份溯源认证方法及系统
CN103166968A (zh) * 2013-03-08 2013-06-19 深圳市华科远讯科技开发有限公司 有效实现网络实名制的方法
CN103475485A (zh) * 2013-09-16 2013-12-25 浙江汇信科技有限公司 基于数字证书互联互通的身份认证支撑平台及认证方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106230829A (zh) * 2016-08-03 2016-12-14 浪潮通用软件有限公司 面向网络威胁发现的虚拟身份知识图谱的构建方法
CN106230829B (zh) * 2016-08-03 2019-06-11 浪潮通用软件有限公司 面向网络威胁发现的虚拟身份知识图谱的构建方法
CN110110218A (zh) * 2018-02-01 2019-08-09 重庆邮电大学 一种身份关联方法及终端
CN110110218B (zh) * 2018-02-01 2023-10-31 西安华企众信科技发展有限公司 一种身份关联方法及终端

Similar Documents

Publication Publication Date Title
US11727053B2 (en) Entity recognition from an image
CN107483416A (zh) 身份验证的方法及装置
CN110462604A (zh) 基于设备使用关联互联网设备的数据处理系统和方法
CN106651603A (zh) 基于位置服务的风险评估方法及装置
WO2019196303A1 (zh) 用户身份验证方法、服务器及存储介质
CN109524065A (zh) 医疗数据查询方法、医疗数据平台及相关装置
CN108491709A (zh) 用于识别权限的方法和装置
WO2018233393A1 (zh) 投保校验的方法、装置、计算机设备及存储介质
CN111192153A (zh) 人群关系网络构建方法、装置、计算机设备和存储介质
CN110020161B (zh) 数据处理方法、日志处理方法和终端
CN111177481B (zh) 用户标识映射方法及装置
CN109359689B (zh) 一种数据识别方法及装置
CN105630978A (zh) 信息收集方法和装置
CN112925899B (zh) 排序模型建立方法、案件线索推荐方法、装置及介质
CN112084293B (zh) 用于公安领域的数据鉴真系统及数据鉴真方法
CN106131070A (zh) 一种手机应用软件账号安全保护系统
CN112420172A (zh) 一种医学影像信息管理系统
CN105988998B (zh) 关系网络构建方法及装置
CN106156046B (zh) 一种信息化管理方法、装置、系统及分析设备
CN111414364B (zh) 用户信息生成方法、装置、电子设备
CN113283410B (zh) 基于数据关联分析的人脸增强识别方法、装置和设备
CN109842482A (zh) 一种信息同步方法、系统及终端设备
CN114781517A (zh) 风险识别的方法、装置及终端设备
CN112258009B (zh) 一种智慧政务请求处理方法
CN114090076A (zh) 应用程序的合规性判别方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160601

RJ01 Rejection of invention patent application after publication