CN112800176B - 一种基于身份标识和终端标识的组织成员挖掘方法及装置 - Google Patents
一种基于身份标识和终端标识的组织成员挖掘方法及装置 Download PDFInfo
- Publication number
- CN112800176B CN112800176B CN202011542209.2A CN202011542209A CN112800176B CN 112800176 B CN112800176 B CN 112800176B CN 202011542209 A CN202011542209 A CN 202011542209A CN 112800176 B CN112800176 B CN 112800176B
- Authority
- CN
- China
- Prior art keywords
- terminal identifier
- terminal
- organization
- terminal identification
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008520 organization Effects 0.000 title claims abstract description 140
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000005065 mining Methods 0.000 title claims abstract description 20
- 238000004891 communication Methods 0.000 claims abstract description 85
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 21
- 238000010586 diagram Methods 0.000 description 13
- 238000004590 computer program Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000012937 correction Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003012 network analysis Methods 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computational Linguistics (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于身份标识和终端标识的组织成员挖掘方法及装置,涉及通信技术领域。该方法包括:根据种子身份信息在时间上的出行规律和空间上的位置规律进行时空碰撞,确定与所述种子身份信息相匹配的第一终端标识;基于密度的空间聚类算法,从所述第一终端标识的通联数据中得到第二终端标识;根据关键词从第一终端标识和第二终端标识得到第三终端标识;根据第一已核定终端标识的文本内容,确定的文本群发关系中,将满足条件的文本接收终端标识确定为第四终端标识;根据第二已核实终端标识确定组织常驻位置,将所述组织常驻位置对应的范围内所包括的满足条件的位置终端标识确定为第五终端标识。
Description
技术领域
本发明涉及通信技术领域,更具体的涉及一种基于身份标识和终端标识的组织成员挖掘方法及装置。
背景技术
随着现代信息技术的不断发展,大数据、人工智能、机器学习等技术手段不断应用到一些特殊需求领域。移动终端(例如智能手机、智能手表、手环等)越来越成为人们日常生活中不可或缺的工具,智能终端的普及极大地带动了运营商的网络流量需求,在为运营商带来巨大利润的同时,基于这些基础数据的挖掘往往能带来更多的附加价值。
发明内容
本发明实施例提供一种基于身份标识和终端标识的组织成员挖掘方法及装置,该方法通过已知组织成员的身份信息,通过不同维度,使用大数据挖掘未知组织成员的身份信息和终端标识。
本发明实施例提供一种基于身份标识和终端标识的组织成员挖掘方法,包括:
根据种子身份信息在时间上的出行规律和空间上的位置规律进行时空碰撞,确定与所述种子身份信息相匹配的第一终端标识;其中,所述种子身份信息包括身份标识和姓名;
基于密度的空间聚类算法,从所述第一终端标识的通联数据中得到第二终端标识;
根据关键词从第一终端标识和第二终端标识得到第三终端标识;
根据第一已核定终端标识的文本内容,确定的文本群发关系中,将满足条件的文本接收终端标识确定为第四终端标识;
根据第二已核实终端标识确定组织常驻位置,将所述组织常驻位置对应的范围内所包括的满足条件的位置终端标识确定为第五终端标识。
优选地,所述根据种子身份信息在时间上的出行规律和空间上的位置规律进行时空碰撞,确定与所述种子身份信息相匹配的第一终端标识,具体包括:
从查询系统中获取与所述种子身份信息相对应的出行记录信息,根据所述出行记录信息进行时空碰撞,得到电信终端标识;
根据人员风险指标体系,确定每个所述电信终端标识的置信度,根据所述置信度确定与每个所述种子身份信息相匹配的第一终端标识。
优选地,所述基于密度的空间聚类算法,从所述第一终端标识的通联数据中得到第二终端标识,具体包括:
从查询系统中获取所述第一终端标识的一级通联人,将符合要求的所述一级通联人按照通联种子终端标识和通联时长进行聚类;
根据聚类结果确定一级通联频度、组织常驻位置和组织内通联的聚类分值以及总聚类分值;
将满足所述聚类分值条件的一级通联人确定为第二终端标识。
优选地,所述根据关键词确定所述组织成员的全量碎片化信息中包括的组织成员信息,具体包括:
根据第一终端标识和第二终端标识设置关键词;
所述关键词与所述第一终端标识和所述第二终端标识所对应的组织成员的进行匹配,将匹配结果作为第三终端标识;其中,所述组织成员信息包含电信终端标识号码、姓名、身份标识号码、地址、匹配的关键词;所述关键词包括以下任意一种或多种:组织名称、组织代码、组织简称、组织成员姓名。
优选地,所述第一已核定终端标识的文本内容,确定的文本群发关系中,将满足条件的文本接收终端标识确定为第四终端标识,具体包括:
根据第一已核定终端标识从查询系统中获取每个第一已核定终端标识的文本发送记录和文本接收记录,根据所述文本发送记录和所述文本接收记录构建文本群发关系;其中,所述文本群发关系表示每个第一已核定终端标识在设定时间内向多个第一已核定终端标识或未核定终端标识发送相同文本内容;其中,第一已核定终端标识包括第一终端标识、第二终端标识和第三终端标识;
根据文本群发关系中的文本内容以及群发信息,将多个文本接收终端中满足条件的文本接收终端标识确定为第四终端标识。
优选地,所述根据第二已核实终端标识确定组织常驻位置,将所述组织常驻位置对应的范围内所包括的满足条件的位置终端标识确定为第五终端标识,具体包括:
根据所述第二已核定终端标识的活动范围,从多个活动范围内将满足条件的活动范围确定为所述组织常驻位置,根据所述组织常驻位置从查询系统中获取设定时间范围内位于所述组织常驻位置的位置终端标识,将满足条件的所述位置终端标识确定为第五终端标识;其中,所述第二已核定终端标识包括第一终端标识、第二终端标识、第三终端标识和第四终端标识。
本发明实施例还提供一种基于身份标识和终端标识的组织成员挖掘装置,包括:
第一确定单元,用于根据种子身份信息在时间上的出行规律和空间上的位置规律进行时空碰撞,确定与所述种子身份信息相匹配的第一终端标识;其中,所述种子身份信息包括身份标识和姓名;
第二确定单元,用于基于密度的空间聚类算法,从所述第一终端标识的通联数据中得到第二终端标识;
第三确定单元,用于根据关键词从第一终端标识和第二终端标识得到第三终端标识;
第四确定单元,用于根据第一已核定终端标识的文本内容,确定的文本群发关系中,将满足条件的文本接收终端标识确定为第四终端标识;
第五确定单元,用于根据第二已核实终端标识确定组织常驻位置,将所述组织常驻位置对应的范围内所包括的满足条件的位置终端标识确定为第五终端标识。
优选地,所述第一确定单元具体用于:
从查询系统中获取与所述种子身份信息相对应的出行记录信息,根据所述出行记录信息进行时空碰撞,得到电信终端标识;
根据人员风险指标体系,确定每个所述电信终端标识的置信度,根据所述置信度确定与每个所述种子身份信息相匹配的第一终端标识。
优选地,所述第二确定单元具体用于:
从查询系统中获取所述第一终端标识的一级通联人,将符合要求的所述一级通联人按照通联种子终端标识和通联时长进行聚类;
根据聚类结果确定一级通联频度、组织常驻位置和组织内通联的聚类分值以及总聚类分值;
将满足所述聚类分值条件的一级通联人确定为第二终端标识。
优选地,所述第三确定单元具体用于:
根据第一终端标识和第二终端标识设置关键词;
所述关键词与所述第一终端标识和所述第二终端标识所对应的组织成员的进行匹配,将匹配结果作为第三终端标识;其中,所述组织成员信息包含电信终端标识号码、姓名、身份标识号码、地址、匹配的关键词;所述关键词包括以下任意一种或多种:组织名称、组织代码、组织简称、组织成员姓名。
本发明实施例提供一种基于身份标识和终端标识的组织成员挖掘方法及装置,该方法包括:根据种子身份信息在时间上的出行规律和空间上的位置规律进行时空碰撞,确定与所述种子身份信息相匹配的第一终端标识;其中,所述种子身份信息包括身份标识和姓名;基于密度的空间聚类算法,从所述第一终端标识的通联数据中得到第二终端标识;根据关键词从第一终端标识和第二终端标识得到第三终端标识;根据第一已核定终端标识的文本内容,确定的文本群发关系中,将满足条件的文本接收终端标识确定为第四终端标识;根据第二已核实终端标识确定组织常驻位置,将所述组织常驻位置对应的范围内所包括的满足条件的位置终端标识确定为第五终端标识。该方法将最新的大数据技术应用到特殊领域来进行组织人员发现,通过不同维度,不同模型,力求尽可能全面准确的掌握某个组织成员的身份信息。尤其是从出行、通联、文本、聚类、位置等五个方面,根据已掌握的成员身份,从已知到未知,从局部到整体,对组织成员间的关系进行深刻剖析,关联和发现新的组织成员。本文为特殊领域,尤其针对组织成员信息的发现和掌握提供了一种有益思路。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于身份标识和终端标识的组织成员挖掘方法流程示意图;
图2为本发明实施例提供的时空碰撞流程示意图;
图3为本发明实施例提供的社会网络关系推荐流程示意图;
图4为本发明实施例提供的一种基于身份标识和终端标识的组织成员挖掘装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示例性的示出了本发明实施例提供的一种基于身份标识和终端标识的组织成员挖掘方法流程示意图。如图1所示,该方法主要包括以下几个步骤:
步骤101,根据种子身份信息在时间上的出行规律和空间上的位置规律进行时空碰撞,确定与所述种子身份信息相匹配的第一终端标识;其中,所述种子身份信息包括身份标识和姓名;
步骤102,基于密度的空间聚类算法,从所述第一终端标识的通联数据中得到第二终端标识;
步骤103,根据关键词从第一终端标识和第二终端标识得到第三终端标识;
步骤104,根据第一已核定终端标识的文本内容,确定的文本群发关系中,将满足条件的文本接收终端标识确定为第四终端标识;
步骤105,根据第二已核实终端标识确定组织常驻位置,将所述组织常驻位置对应的范围内所包括的满足条件的位置终端标识确定为第五终端标识。
需要说明的是,在本发明实施所提供技术实现的前提条件是需要采集运营商网络节点的信令数据,从节点的信令数据解析出终端设备定位数据和通联数据,从管控类数据解析出行记录数据,将上述两类数据加工、处理建立分布式大数据查询系统,可以对终端标识的时空关系和标识间的通联关系进行查询。
在步骤101之前,需要先获取已经掌握的组织成员身份信息,该身份信息可以包括组织成员的身份标识号码,还可以包括组织成员的姓名等,在本发明实施例中,将组织成员的身份标识号码和组织成员的姓名确认为种子身份信息。进一步地,根据确认的种子身份信息来挖掘未知的可能会归属于该组织的成员信息。
在步骤101中,根据已经确定的组织成员的种子身份信息所包括的身份标识号码,在查询系统中进行查询,得到归属于组织的每个组织成员的出行记录信息,进一步地,每个组织成员的出现记录按照时间进行排序,取出行记录条数大于5条的种子信息进行时空碰撞。
图2为本发明实施例提供的时空碰撞流程示意图,以下结合图2,介绍种子身份信息碰撞得到终端标识的过程:在本发明实施例中,出行记录进行时空碰撞具体包括:根据出行记录判断得到目标成员离开常驻地和抵达常驻地的日期,其中,常驻地指代的是目标成员当前所在城市。进一步地,分析得到目标成员在常驻地和不再常驻地两个日期集合。当目标成员在常驻地的日期个数大于五个时进行碰撞,碰撞参数包括目标成员的身份标识、姓名、在常驻地日期个数、在常驻地日期集合、不在常驻地日期集合、进入修正参数x、离开修正参数y。
需要说明的是,本发明实施例中,进入修正参数x和离开修正参数y的表达式如下所示:
其中,m为在常驻地日期个数,n为不在常驻地日期个数。
进一步地,从查询系统查询民航旅客进港数据和离港数据中电信终端标识不为空,日期为在常驻地日期的记录,按照终端标识进行分组,取出现次数大于进入修正参数的记录作为在常驻地电信终端标识表。同理,从查询系统查询民航旅客进港数据和离港数据中电信终端标识不为空,日期为不在常驻地日期的记录,按终端标识进行分组,取出现次数大于离开修正参数的记录,作为不在常驻地电信终端标识表。最后,在常驻地电信终端标识表中的电信终端标识排除不在常驻地电信终端标识表中的电信终端标识,结果按出现次数排序取前20条,该20条电信终端标识即为依据证件号码碰撞出来的电信终端标识。
进一步地,使用组织内部通联、文本姓名出现、文本关键词出现、组织常驻地出现等作为评价指标,构造人员风险指标体系。根据人员风险指标体系对碰撞出的电信终端标识进行评分,每个指标的加权求和作为最终得分。根据评分确认电信终端标识归属于该组织的置信度,在实际应用中,置信度越高,该电信终端标识归属于该组织的可能性越大。
在实际应用中,组织内通联指从前述查询系统中查询电信终端标识通联详情,统计电信终端标识是该组织内已核定标识的通联个数,按照表1得到对应的分数,表1提供了不同通联个数对应的分值。
表1.通联分值表
通联个数 | 分值 |
0 | 0 |
1 | 10% |
2-5 | 30% |
5-10 | 50% |
10-20 | 80% |
>20 | 100% |
文本姓名出现首先提取种子人员的所有姓名文本,依据每个电信终端标识从查询系统查找包含该姓名的文本,如果匹配,该项得分增加平均权重,不匹配得分加零。其中,平均权重指每个指标平均占比,例如有4种指标参与计算得分,则平均权重为25%。
文本关键词出现指通过预设与该组织相关的关键字词,如组织名称、代号等关键字,从上述查询系统查询匹配包含关键字的文本,如果匹配,得分增加平均权重,不匹配得分加零。进一步扩展,可以根据关键字的重要性参考组织内通联预设不同的分值,加权得到最终分值。
组织常驻地出现首先需要知道该组织成员常驻地的geohash值,从查询系统查询终端标识常驻地,按照geohash出现次数排序,取前三位geohash,判断这三个geohash是否在组织常驻geohash中,如果是则得分增加平均权重,否则该项得分加零。其中,geohash是一种地理编码系统,把地理空间分为网格,把二维的经纬度转换为一维的字符串序列,字符串长度越长,表示的精度越高。
在本发明实施例中,因为在步骤101中不知道组织成员的电信终端标识,所以无法计算组织内通联,因而将以上三个指标(文本姓名出现、文本关键词出现和组织常驻地出现)计算得到的得分求和,得到最终得分,得分越高,表示该终端标识归属于该身份标识的可能性越高,再依据其他辅助信息,核定出每个身份标识对应的第一终端标识,即证件号码对应的手机号码。
需要说明的是,这里的电信终端标识表示每个用户所使用的电话号码,进一步地,第一终端标识表示从多个电信终端标识内通过步骤101所提供对的方法选择出满足条件的电信终端标识。
图3为本发明实施例提供的社会网络关系推荐流程示意图,以下结合图3,介绍步骤102,在上述步骤中已经得到已核定的组织成员第一终端标识集合,根据种子身份信息,借助社会网络分析算法,可以对尚未掌握的组织其他成员信息进行推荐。具体如下:从上述步骤得到的已核定的组织成员的第一终端标识集合,通过查询系统查询已核对的组织成员的第一终端标识,将已核对的组织成员的第一终端标识确定为一级通联人,过滤掉公共标识并取通联次数大于两次的标识,按照组织成员已核定终端标识集合个数,通联时长进行聚类。
需要说明的是,本发明实施例中所述的聚类方法使用经典的DBSCAN(Density-Based Spatial Clustering of Application with Noise)算法,它是一种基于密度的聚类方法,将簇定义为密度相连的点的最大集合,能够把具有足够密度的区域划分为簇,并可以在有噪音的空间数据集中发现任意形状的簇。DBSCAN聚类算法是数据挖掘领域的重要研究方向之一,广泛应用于数据处理、图像分析、机器学习等领域。
从上述过滤掉公共标识以及通联次数大于两次的第一终端标识结果中,取第一终端标识作为第一种子标识,第一种子标识个数X作为聚类算法第一个参数,取结果标识中每个标识距离当前时间的通联时间间隔Y作为第二个参数,如果有多次通联则求取平均值,时间精确到天,终端标识M作为第三个参数,种子标识集合S作为第四个参数,种子标识个数N作为第五个参数,是否组织内通联F1作为第六个参数、是否常驻地F2出现作为第七个参数,构造聚类的点,点去重以后输入DBSCAN算法进行聚类。
聚类结果点过滤掉空值,获取通联总数,使用通联总数、聚类结果点、通联开始结束时间、是否组织内通联、常驻地geohash等参数计算聚类得分。在实际应用中,确定通联频度占比50%、常驻地出现占比35%、组织内通联占比15%。其中,通联频度是种子终端标识个数与通联总数的比值,常驻地为查询查询系统获取该终端标识的常驻地geohash,判断该常驻地geohash是否包含组织常驻地geohash;组织内通联占表示该终端标识是否与已掌握的组织内标识通联。
组织常驻地出现与组织内通联的计算使用人员风险指标体系计算,它是根据通联详情以及通联发生的位置、组织常驻地geohash去匹配,如果匹配则结果值大于零,否则值为零。当常驻地出现结果值大于零,则常驻地出现值设为0.35,否则为0,同理,当组织内通联结果值大于零,则组织内出现值设为0.15,否则为0,将上述三项得分值求和作为总的聚类得分。
聚类结果过滤掉聚类得分小于0.3的聚类,每个聚类结果的中的点过滤掉点的得分小于0.35的点,取剩余点作为最终结果标识进行推荐,可以认为剩余点位第二终端标识,且第二终端标识归属于该组织成员的可能性最大。
使用上述人员风险指标体系计算推荐第二终端标识得分,得分越高,该第二终端标识归属于该组织成员的可能性越大,使用推荐标识得分作为辅助信息进行核定和排除,核定标识通过上述查询系统查询姓名、身份标识号码等身份信息,最终结果(第二终端标识)作为社会网络分析算法新发现的组织成员。
在步骤104中,根据第一已核定终端标识所包括的组织成员的共性文本,找出与已核定终端标识所对应的组织成员有相同文本特征的人员终端标识和身份信息。具体地,从上述已核定终端标识集合和排除终端标识集合,取核定终端标识集合查询上述查询系统,得到已核定终端标识的文本发送记录和文本接收记录,过滤掉公共终端标识的文本,从而构造文本群发关系。此处的文本群发关系指同一个第一已核定终端标识向多个第一已核定终端标识或未核定终端标识发送相同文本内容,且发送时间相近。
过滤掉文本内容长度小于5的文本后进行聚类,取发送方是已核定终端标识的聚类或者接收方至少有两个已核定终端标识的聚类作为最终结果,依据文本内容以及群发关系判断文本接收终端标识是否为组织成员,是则加入核定终端标识集合并修改为待核定终端标识,否则加入排除终端标识集合。使用人员风险指标体系计算待核定终端标识(文本接收终端标识)的得分,同样,得分越高,待核定终端标识归属于该组织成员的可能性越大,得分辅助核定,最后,待核定终端标识通过上述查询系统查询姓名、身份标识号码等身份信息,将满足条件的文本接收终端标识确定为第四终端标识。
需要说明的是,为了方便介绍,将上述步骤中确定的第一终端标识、第二终端标识和第三终端标识称为第一已核定终端标识,在实际应用中,第一终端标识、第二终端标识、第三终端标识称和第一已核定终端标识均为电信终端标识。
在步骤105中,根据已经确定的组织成员的特定位置,对该位置出现的常驻人员进行推荐。具体地,获取第二已核定终端标识对应的组织成员的特定位置,如果该组织有常驻机构,可以通过地图工具圈选获得该机构所在位置范围的geohash,如果该组织没有固定的常驻机构,则需要获取上述几个模块核定的组织成员终端标识,然后通过上述查询系统查询标识号码常驻地geohash,取前几位出现次数最多的geohash作为该组织的geohash,获取上述几个模块得到的核定终端标识集合与排除终端标识集合。
使用前述查询系统传入上述geohash,按照工作时间和居住时间分别查询近一个月出现在该geohash范围内的电信终端标识,工作时间范围为上午9点到下午5点,居住时间为晚上11点到次日凌晨5点,结果按照电信终端标识出现次数排序,取出现次数大于15次的电信终端标识。过滤掉公共终端标识,排除掉包含在第二已核定终端标识集合和排除终端标识集合中的标识,剩余电信终端标识可以认为是在该组织geohash范围内工作和居住的位置终端标识,即为潜在的组织成员终端标识或与组织成员共同居住和生活的终端标识,进一步地,将上述潜在的组织成员终端标识或与组织成员共同居住和生活的终端标识确定为第五终端标识。
综上所述,本发明实施例提供一种基于身份标识和终端标识的组织成员挖掘方法及装置,该方法包括:根据种子身份信息在时间上的出行规律和空间上的位置规律进行时空碰撞,确定与所述种子身份信息相匹配的第一终端标识;其中,所述种子身份信息包括身份标识和姓名;基于密度的空间聚类算法,从所述第一终端标识的通联数据中得到第二终端标识;根据关键词从第一终端标识和第二终端标识得到第三终端标识;根据第一已核定终端标识的文本内容,确定的文本群发关系中,将满足条件的文本接收终端标识确定为第四终端标识;根据第二已核实终端标识确定组织常驻位置,将所述组织常驻位置对应的范围内所包括的满足条件的位置终端标识确定为第五终端标识。该方法将最新的大数据技术应用到特殊领域来进行组织人员发现,通过不同维度,不同模型,力求尽可能全面准确的掌握某个组织成员的身份信息。尤其是从出行、通联、文本、聚类、位置等五个方面,根据已掌握的成员身份,从已知到未知,从局部到整体,对组织成员间的关系进行深刻剖析,关联和发现新的组织成员。本文为特殊领域,尤其针对组织成员信息的发现和掌握提供了一种有益思路。
基于同一发明构思,本发明实施例提供了一种基于身份标识和终端标识的组织成员挖掘装置,由于该装置解决技术问题的原理与一种基于身份标识和终端标识的组织成员挖掘方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
图4为本发明实施例提供的一种基于身份标识和终端标识的组织成员挖掘装置结构示意图,如图4所示,该装置主要包括:第一确定单元401,第二确定单元402,第三确定单元403,第四确定单元404和第五确定单元405。
第一确定单元401,用于根据种子身份信息在时间上的出行规律和空间上的位置规律进行时空碰撞,确定与所述种子身份信息相匹配的第一终端标识;其中,所述种子身份信息包括身份标识和姓名;
第二确定单元402,用于基于密度的空间聚类算法,从所述第一终端标识的通联数据中得到第二终端标识;
第三确定单元403,用于根据关键词从第一终端标识和第二终端标识得到第三终端标识;
第四确定单元404,用于根据第一已核定终端标识的文本内容,确定的文本群发关系中,将满足条件的文本接收终端标识确定为第四终端标识;
第五确定单元405,用于根据第二已核实终端标识确定组织常驻位置,将所述组织常驻位置对应的范围内所包括的满足条件的位置终端标识确定为第五终端标识。
优选地,所述第一确定单元401具体用于:
从查询系统中获取与所述种子身份信息相对应的出行记录信息,根据所述出行记录信息进行时空碰撞,得到电信终端标识;
根据人员风险指标体系,确定每个所述电信终端标识的置信度,根据所述置信度确定与每个所述种子身份信息相匹配的第一终端标识。
优选地,所述第二单元402具体用于:
从查询系统中获取所述第一终端标识的一级通联人,将符合要求的所述一级通联人按照通联种子终端标识和通联时长进行聚类;
根据聚类结果确定一级通联频度、组织常驻位置和组织内通联的聚类分值以及总聚类分值;
将满足所述聚类分值条件的一级通联人确定为第二终端标识。
优选地,所述第三确定单元403具体用于:
根据第一终端标识和第二终端标识设置关键词;
所述关键词与所述第一终端标识和所述第二终端标识所对应的组织成员的进行匹配,将匹配结果作为第三终端标识;其中,所述组织成员信息包含电信终端标识号码、姓名、身份标识号码、地址、匹配的关键词;所述关键词包括以下任意一种或多种:组织名称、组织代码、组织简称、组织成员姓名。
优选地,所述第四确定单元404具体用于:
根据第一已核定终端标识从查询系统中获取每个第一已核定终端标识的文本发送记录和文本接收记录,根据所述文本发送记录和所述文本接收记录构建文本群发关系;其中,所述文本群发关系表示每个第一已核定终端标识在设定时间内向多个第一已核定终端标识或未核定终端标识发送相同文本内容;其中,第一已核定终端标识包括第一终端标识、第二终端标识和第三终端标识;
根据文本群发关系中的文本内容以及群发信息,将多个文本接收终端中满足条件的文本接收终端标识确定为第四终端标识。
优选地,所述第五确定单元405具体用于:根据所述第二已核定终端标识的活动范围,从多个活动范围内将满足条件的活动范围确定为所述组织常驻位置,根据所述组织常驻位置从查询系统中获取设定时间范围内位于所述组织常驻位置的位置终端标识,将满足条件的所述位置终端标识确定为第五终端标识;其中,所述第二已核定终端标识包括第一终端标识、第二终端标识、第三终端标识和第四终端标识。
应当理解,以上一种基于身份标识和终端标识的组织成员挖掘装置包括的单元仅为根据该设备装置实现的功能进行的逻辑划分,实际应用中,可以进行上述单元的叠加或拆分。并且该实施例提供的一种基于身份标识和终端标识的组织成员挖掘装置所实现的功能与上述实施例提供的一种基于身份标识和终端标识的组织成员挖掘方法一一对应,对于该装置所实现的更为详细的处理流程,在上述方法实施例一中已做详细描述,此处不再详细描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (6)
1.一种基于身份标识和终端标识的组织成员挖掘方法,其特征在于,包括:
根据种子身份信息在时间上的出行规律和空间上的位置规律进行时空碰撞,确定与所述种子身份信息相匹配的第一终端标识;其中,所述种子身份信息包括身份标识和姓名;
基于密度的空间聚类算法,从所述第一终端标识的通联数据中得到第二终端标识;
根据关键词从第一终端标识和第二终端标识得到第三终端标识;
根据第一已核定终端标识的文本内容,确定的文本群发关系中,将满足条件的文本接收终端标识确定为第四终端标识;
根据第二已核定终端标识确定组织常驻位置,将所述组织常驻位置对应的范围内所包括的满足条件的位置终端标识确定为第五终端标识;
所述基于密度的空间聚类算法,从所述第一终端标识的通联数据中得到第二终端标识,具体包括:
从查询系统中获取所述第一终端标识的一级通联人,将符合要求的所述一级通联人按照通联种子终端标识和通联时长进行聚类;
根据聚类结果确定一级通联频度、组织常驻位置和组织内通联的聚类分值以及总聚类分值;
将满足所述聚类分值条件的一级通联人确定为第二终端标识;
所述基于密度的空间聚类算法为DBSCAN算法,所述第一终端标识的通联数据包括一级通联人;
所述根据关键词从第一终端标识和第二终端标识得到第三终端标识,具体包括:
根据第一终端标识和第二终端标识设置关键词;
所述关键词与所述第一终端标识和所述第二终端标识所对应的组织成员的进行匹配,将匹配结果作为第三终端标识;其中,所述组织成员信息包含电信终端标识号码、姓名、身份标识号码、地址、匹配的关键词;所述关键词包括以下任意一种或多种:组织名称、组织代码、组织简称、组织成员姓名;
所述第一已核定终端标识包括第一终端标识、第二终端标识和第三终端标识;所述第二已核定终端标识包括第一终端标识、第二终端标识、第三终端标识和第四终端标识。
2.如权利要求1所述的方法,其特征在于,所述根据种子身份信息在时间上的出行规律和空间上的位置规律进行时空碰撞,确定与所述种子身份信息相匹配的第一终端标识,具体包括:
从查询系统中获取与所述种子身份信息相对应的出行记录信息,根据所述出行记录信息进行时空碰撞,得到电信终端标识;
根据人员风险指标体系,确定每个所述电信终端标识的置信度,根据所述置信度确定与每个所述种子身份信息相匹配的第一终端标识。
3.如权利要求1所述的方法,其特征在于,所述第一已核定终端标识的文本内容,确定的文本群发关系中,将满足条件的文本接收终端标识确定为第四终端标识,具体包括:
根据第一已核定终端标识从查询系统中获取每个第一已核定终端标识的文本发送记录和文本接收记录,根据所述文本发送记录和所述文本接收记录构建文本群发关系;其中,所述文本群发关系表示每个第一已核定终端标识在设定时间内向多个第一已核定终端标识或未核定终端标识发送相同文本内容;
根据文本群发关系中的文本内容以及群发信息,将多个文本接收终端中满足条件的文本接收终端标识确定为第四终端标识。
4.如权利要求1所述的方法,其特征在于,所述根据第二已核定终端标识确定组织常驻位置,将所述组织常驻位置对应的范围内所包括的满足条件的位置终端标识确定为第五终端标识,具体包括:
根据所述第二已核定终端标识的活动范围,从多个活动范围内将满足条件的活动范围确定为所述组织常驻位置,根据所述组织常驻位置从查询系统中获取设定时间范围内位于所述组织常驻位置的位置终端标识,将满足条件的所述位置终端标识确定为第五终端标识。
5.一种基于身份标识和终端标识的组织成员挖掘装置,其特征在于,包括:
第一确定单元,用于根据种子身份信息在时间上的出行规律和空间上的位置规律进行时空碰撞,确定与所述种子身份信息相匹配的第一终端标识;其中,所述种子身份信息包括身份标识和姓名;
第二确定单元,用于基于密度的空间聚类算法,从所述第一终端标识的通联数据中得到第二终端标识;
第三确定单元,用于根据关键词从第一终端标识和第二终端标识得到第三终端标识;
第四确定单元,用于根据第一已核定终端标识的文本内容,确定的文本群发关系中,将满足条件的文本接收终端标识确定为第四终端标识;
第五确定单元,用于根据第二已核定终端标识确定组织常驻位置,将所述组织常驻位置对应的范围内所包括的满足条件的位置终端标识确定为第五终端标识;
所述第二确定单元被配置为执行:
从查询系统中获取所述第一终端标识的一级通联人,将符合要求的所述一级通联人按照通联种子终端标识和通联时长进行聚类;
根据聚类结果确定一级通联频度、组织常驻位置和组织内通联的聚类分值以及总聚类分值;
将满足所述聚类分值条件的一级通联人确定为第二终端标识;
所述基于密度的空间聚类算法为DBSCAN算法,所述第一终端标识的通联数据包括一级通联人;
所述第三确定单元被配置为执行:
根据第一终端标识和第二终端标识设置关键词;
所述关键词与所述第一终端标识和所述第二终端标识所对应的组织成员的进行匹配,将匹配结果作为第三终端标识;其中,所述组织成员信息包含电信终端标识号码、姓名、身份标识号码、地址、匹配的关键词;所述关键词包括以下任意一种或多种:组织名称、组织代码、组织简称、组织成员姓名;
所述第一已核定终端标识包括第一终端标识、第二终端标识和第三终端标识;所述第二已核定终端标识包括第一终端标识、第二终端标识、第三终端标识和第四终端标识。
6.如权利要求5所述的装置,其特征在于,所述第一确定单元具体用于:
从查询系统中获取与所述种子身份信息相对应的出行记录信息,根据所述出行记录信息进行时空碰撞,得到电信终端标识;
根据人员风险指标体系,确定每个所述电信终端标识的置信度,根据所述置信度确定与每个所述种子身份信息相匹配的第一终端标识。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011542209.2A CN112800176B (zh) | 2020-12-23 | 2020-12-23 | 一种基于身份标识和终端标识的组织成员挖掘方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011542209.2A CN112800176B (zh) | 2020-12-23 | 2020-12-23 | 一种基于身份标识和终端标识的组织成员挖掘方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112800176A CN112800176A (zh) | 2021-05-14 |
CN112800176B true CN112800176B (zh) | 2024-02-06 |
Family
ID=75804125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011542209.2A Active CN112800176B (zh) | 2020-12-23 | 2020-12-23 | 一种基于身份标识和终端标识的组织成员挖掘方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112800176B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106339428A (zh) * | 2016-08-16 | 2017-01-18 | 东方网力科技股份有限公司 | 基于视频大数据的嫌疑人身份识别方法和装置 |
CN106844585A (zh) * | 2017-01-10 | 2017-06-13 | 广东精规划信息科技股份有限公司 | 一种基于多源物联网位置感知的时空关系分析系统 |
CN110263703A (zh) * | 2019-06-18 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 人员流量统计方法、装置和计算机设备 |
CN111814629A (zh) * | 2020-06-29 | 2020-10-23 | 深圳市商汤科技有限公司 | 人员检测方法及装置、电子设备和存储介质 |
CN111814630A (zh) * | 2020-06-29 | 2020-10-23 | 深圳市商汤科技有限公司 | 行为分析方法及装置、电子设备和存储介质 |
CN111814627A (zh) * | 2020-06-29 | 2020-10-23 | 深圳市商汤科技有限公司 | 人员检测方法及装置、电子设备和存储介质 |
CN111814631A (zh) * | 2020-06-29 | 2020-10-23 | 深圳市商汤科技有限公司 | 人员检测方法及装置、电子设备和存储介质 |
CN111881379A (zh) * | 2020-09-27 | 2020-11-03 | 武汉中科通达高新技术股份有限公司 | 交管数据处理方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020069312A1 (en) * | 2000-07-10 | 2002-06-06 | Jones Gad Quentin | System and method for the storage, management and sharing of spatial-temporal based information |
US20160140663A1 (en) * | 2014-11-17 | 2016-05-19 | Click-Ins Ltd. | System and method for providing selectable temporospatial insurance coverage |
US20160321679A1 (en) * | 2015-04-30 | 2016-11-03 | International Business Machines Corporation | Device and membership identity matching |
US11562168B2 (en) * | 2018-07-16 | 2023-01-24 | Here Global B.V. | Clustering for K-anonymity in location trajectory data |
-
2020
- 2020-12-23 CN CN202011542209.2A patent/CN112800176B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106339428A (zh) * | 2016-08-16 | 2017-01-18 | 东方网力科技股份有限公司 | 基于视频大数据的嫌疑人身份识别方法和装置 |
CN106844585A (zh) * | 2017-01-10 | 2017-06-13 | 广东精规划信息科技股份有限公司 | 一种基于多源物联网位置感知的时空关系分析系统 |
CN110263703A (zh) * | 2019-06-18 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 人员流量统计方法、装置和计算机设备 |
CN111814629A (zh) * | 2020-06-29 | 2020-10-23 | 深圳市商汤科技有限公司 | 人员检测方法及装置、电子设备和存储介质 |
CN111814630A (zh) * | 2020-06-29 | 2020-10-23 | 深圳市商汤科技有限公司 | 行为分析方法及装置、电子设备和存储介质 |
CN111814627A (zh) * | 2020-06-29 | 2020-10-23 | 深圳市商汤科技有限公司 | 人员检测方法及装置、电子设备和存储介质 |
CN111814631A (zh) * | 2020-06-29 | 2020-10-23 | 深圳市商汤科技有限公司 | 人员检测方法及装置、电子设备和存储介质 |
CN111881379A (zh) * | 2020-09-27 | 2020-11-03 | 武汉中科通达高新技术股份有限公司 | 交管数据处理方法及装置 |
Non-Patent Citations (2)
Title |
---|
基于多源出行数据的居民行为模式分析方法;徐晓伟;杜一;周园春;;计算机应用(第08期);第240-245页 * |
基于时空密度的船载AIS数据聚类分析方法研究;李永攀;刘正江;郑中义;;重庆交通大学学报(自然科学版)(10);第121-126页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112800176A (zh) | 2021-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107194623B (zh) | 一种团伙欺诈的发现方法及装置 | |
CN107526807B (zh) | 信息推荐方法及装置 | |
CN110462604A (zh) | 基于设备使用关联互联网设备的数据处理系统和方法 | |
CN110688495A (zh) | 一种事件信息的知识图谱模型构建方法、装置、存储介质 | |
CN110825883A (zh) | 一种基于知识图谱的混合式团伙发现方法 | |
CN110807085B (zh) | 故障信息的查询方法及装置、存储介质、电子装置 | |
US20060112133A1 (en) | System and method for creating and maintaining data records to improve accuracy thereof | |
CN109859054A (zh) | 网络社团挖掘方法、装置、计算机设备及存储介质 | |
CN101699440B (zh) | 按业务检索的方法及系统 | |
CN106878939A (zh) | 基于联系人信息来标注被访问的位置的方法和系统 | |
CN106933883B (zh) | 基于检索日志的兴趣点常用检索词分类方法、装置 | |
CN105824813A (zh) | 一种挖掘核心用户的方法及装置 | |
CN113961712B (zh) | 一种基于知识图谱的诈骗电话分析方法 | |
CN105045911A (zh) | 一种用于用户进行标记的标签生成方法及设备 | |
CN107092651B (zh) | 一种基于通信网络数据分析的关键人物挖掘方法及系统 | |
CN110442774A (zh) | 信息获取方法及装置 | |
CN112800176B (zh) | 一种基于身份标识和终端标识的组织成员挖掘方法及装置 | |
CN112925899B (zh) | 排序模型建立方法、案件线索推荐方法、装置及介质 | |
CN110941757A (zh) | 一种基于大数据的政策信息查询推送系统及方法 | |
CN106980644A (zh) | 一种异构城市数据的个体人际关系可视推理方法 | |
CN111325255B (zh) | 特定人群圈定方法、装置、电子设备及存储介质 | |
CN111695047A (zh) | 用户聚类方法及装置,电子设备及存储介质 | |
CN108427744B (zh) | 一种基于信息运维的智能数据关联关系确定方法 | |
CN111368060A (zh) | 对话机器人的自学习方法、装置、系统、电子设备及介质 | |
CN112416922B (zh) | 一种群体关联数据挖掘方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |