CN109582806B - 一种基于图计算的个人信息处理方法及系统 - Google Patents

一种基于图计算的个人信息处理方法及系统 Download PDF

Info

Publication number
CN109582806B
CN109582806B CN201811483979.7A CN201811483979A CN109582806B CN 109582806 B CN109582806 B CN 109582806B CN 201811483979 A CN201811483979 A CN 201811483979A CN 109582806 B CN109582806 B CN 109582806B
Authority
CN
China
Prior art keywords
personal information
data
node
graph
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn - After Issue
Application number
CN201811483979.7A
Other languages
English (en)
Other versions
CN109582806A (zh
Inventor
徐杰
万佳骏
吴超伟
郭丰俊
张彬
龙腾
丁凯
陈青山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Linguan Data Technology Co ltd
Shanghai Shengteng Data Technology Co ltd
Shanghai Yingwuchu Data Technology Co ltd
Shanghai Hehe Information Technology Development Co Ltd
Original Assignee
Shanghai Linguan Data Technology Co ltd
Shanghai Shengteng Data Technology Co ltd
Shanghai Yingwuchu Data Technology Co ltd
Shanghai Hehe Information Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Linguan Data Technology Co ltd, Shanghai Shengteng Data Technology Co ltd, Shanghai Yingwuchu Data Technology Co ltd, Shanghai Hehe Information Technology Development Co Ltd filed Critical Shanghai Linguan Data Technology Co ltd
Priority to CN201811483979.7A priority Critical patent/CN109582806B/zh
Publication of CN109582806A publication Critical patent/CN109582806A/zh
Application granted granted Critical
Publication of CN109582806B publication Critical patent/CN109582806B/zh
Withdrawn - After Issue legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于图计算的个人信息处理方法,包括如下步骤:步骤102:对个人信息的原始数据进行数据清洗。步骤104:基于图计算的数据结构对经过数据清洗后的个人信息的数据记录进行建模。步骤106:将建模形成的完整的图切分连通子图。步骤108:对每个连通子图中的节点进行聚类,形成一个或多个节点社区。步骤110:对每个连通子图中的每个节点社区分析时效信息,获取一个自然人根据时间分布的个人信息。本申请取得的技术效果是计算成本低、时效性高、准确性高。

Description

一种基于图计算的个人信息处理方法及系统
技术领域
本申请涉及一种对个人信息的数据挖掘(Data Mining)方法。
背景技术
个人信息是指个人在不同时期产生的反映个人属性的数据记录。例如,个人职业信息在商务及社会活动中发挥着重要作用。个人信息可以由名片、社交网络数据、求职网络数据、电商消费数据等媒介所承载。随着时代发展,个人信息的承载媒介日趋多样,如何从大量媒介中抽取出有效的个人信息就变得越来越重要。
数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的数据或模式的过程。现有的对个人信息的数据挖掘方法往往采用关系数据库(Relational Database)存储原始数据,采用SQL(Structured Query Language,结构化查询语言)或使用一般机器学习(MachineLearning)算法处理原始数据。这种方法在面对海量个人信息时,需要关联各条数据记录以寻求正确数据和关键数据,容易存在计算资源消耗大的问题。导致性能欠佳的最主要原因是多表的关联查询,以及复杂的数据分析类型的SQL查询。
图论(graph theory)是数学的一个分支,它以图(graph)为研究对象。图论中的图是由若干给定的节点(也称顶点、点、vertice、node或point)及连接两点的边(也称线、edge、arc或line)所构成的图形,这种图形通常用来描述某些事物之间的某种特定关系,用节点代表事物,用边表示相应两个事物间具有某种关系。
图计算(graph computation)是以图论为基础的对现实世界的抽象表达,以及在这种数据结构上的计算模式。图计算中,基本的数据结构表达是G=(V,E,D)。其中,G指图,V指节点,E指边,D指边的权重。使用图计算处理个人信息既具有可行性,同时具备创新性。
发明内容
本申请所要解决的技术问题是提供一种基于图计算的个人信息处理方法,可以减少对计算资源的要求,同时显著地提高个人信息的准确性。为此,本申请还要提供相应的个人信息处理系统。
为解决上述技术问题,本申请公开了一种基于图计算的个人信息处理方法,包括如下步骤:步骤102:对个人信息的原始数据进行数据清洗。步骤104:基于图计算的数据结构对经过数据清洗后的个人信息的数据记录进行建模。步骤106:将建模形成的完整的图切分连通子图。步骤108:对每个连通子图中的节点进行聚类,形成一个或多个节点社区。步骤110:对每个连通子图中的每个节点社区分析时效信息,获取一个自然人根据时间分布的个人信息。
优选地,所述步骤102中,所述数据清洗包括手机合法性规则清洗、邮箱合法性规则清洗、检查数据一致性、消除无效数据、填充缺失数据中的一项或多项。这是数据清洗的优选实现方式。
进一步地,所述步骤104中,所述基于图计算的数据建模包括建立节点,建立边,确定边的权重。首先,将每条经过数据清洗后的个人信息的数据记录抽象为一个节点;每个节点具备以下属性的一项或多项:ID标识、姓名、单位、部门、职位、各种联系方式、该条数据记录的创建时间、该条数据记录的修改时间、该条数据记录的上传时间。其次,将两个节点之间的相同属性抽象为这两个节点的边。再次,根据每条边所具有的相同属性确定边的权重值。这是对个人信息基于图计算的数据建模的详细说明。
优选地,所述步骤104中,将节点中的各种联系方式属性作为第一类属性,其余属性作为第二类属性,仅将两个节点之间的相同的第一类属性抽象为这两个节点的边。这是用来根据相同的联系方式确定个人信息的不同数据记录,而将分属于不同自然人的数据记录相分离。
优选地,采用有监督学习算法对每个节点中的各个属性进行有监督学习,从而计算出各条边的权重值。这是确定边的权重的一种实现方式。
优选地,根据每条边所具有的相同的第一类属性计算权重值;并且,某条边所具有的相同的第一类属性的数量越多,这条边的权重值越大;反之亦然。这是确定边的权重的另一种实现方式以及原则说明。
可选地,在步骤104和步骤106之间增加步骤105:在建模形成的完整的图中,通过黑名单规则过滤掉部分节点和边。同时所述步骤106改为:将建模形成且经过过滤后的图切分连通子图。这可以减小后续的计算规模,节约算力,减小对硬件资源的计算要求。
可选地,所述步骤106中,还对切分出的连通子图采用黑名单规则过滤掉部分节点和边。这可以减小后续的计算规模,节约算力,减小对硬件资源的计算要求。
进一步地,所述步骤105和步骤106中,所述黑名单规则是为节点的某一项或几项属性的特定取值的出现频率确定一个阈值,如果图中所有节点的相应属性出现所述特定取值的次数高于所述阈值,则将相应节点从图中删除,将所删除的节点的边也从图中删除。这是对黑名单规则的详细说明。
优选地,所述步骤108中,采用社区发现算法进行聚类,每个节点社区表征一个自然人的个人信息的多条数据记录的聚合,其中的每个节点就表示该自然人的个人信息的一条数据记录。这是聚类的一种实现方式。
优选地,所述步骤108中,所述社区发现算法包括LPA、SLPA、HANP算法、BMLPA中的任一种,其中算法迭代的次数为5~10次。这是社区发现算法的几种实现方式以及优选的参数设置。
进一步地,所述步骤110中,个人信息的原始数据如果包含了时效信息,那么基于图计算进行数据建模后相应节点的相应属性也包含了时效信息,则采用这些属性自带的时效信息。个人信息的原始数据如果不包含时效信息,那么基于图计算进行数据建模后相应节点的相应属性也不包含时效信息;此时采用该条数据记录的修改时间、创建时间、上传时间中的一项作为该节点的部分或全部属性的时效信息。这是分析时效信息的优选实现方式。
优选地,所述方法在第一次处理个人信息时,对全部的原始数据进行数据清洗、基于图计算的数据建模、切分连通子图、节点聚类、分析节点社区时效信息以获取根据时间分布的个人信息。所述方法在以后处理个人信息时,仅对增量的原始数据进行数据清洗、基于图计算的数据建模、切分连通子图、节点聚类、分析节点社区时效信息以获取根据时间分布的增量个人信息,再与之前处理个人信息时所获取的根据时间分布的个人信息相叠加。这可以节约第二次及以后处理个人信息的计算规模。
本申请还提供了一种基于图计算的个人信息处理系统,沿着信号处理方向依次包括数据清洗单元、数据建模单元、切分连通子图单元、聚类单元和时效性获取单元。所述数据清洗单元用于对个人信息的原始数据进行数据清洗。所述数据建模单元用于对经过数据清洗后的个人信息的数据记录基于图计算的数据结构进行建模。所述切分连通子图单元用于将建模形成的完整的图切分连通子图。所述聚类单元用于对每个连通子图中的节点进行聚类,形成一个或多个节点社区。所述时效性获取单元用于对每个连通子图中的每个节点社区分析时效信息,获取一个自然人根据时间分布的个人信息。这是与本申请的基于突击孙的个人信息处理方法相对应的系统架构。
可选地,在数据建模单元和切分连通子图单元之间增加过滤单元;所述过滤单元用于在建模形成的完整的图中通过黑名单规则过滤掉部分节点和边。同时所述切分连通子图单元改为将建模形成且经过过滤后的图切分连通子图。这可以减小后续的计算规模,节约算力,减小对硬件资源的计算要求。
可选地,所述切分连通子图单元还用于将切分出的连通子图也采用黑名单规则过滤掉部分节点和边。这可以减小后续的计算规模,节约算力,减小对硬件资源的计算要求。
本申请提供的个人信息处理方法及系统具有计算成本低、时效性高、准确性高的特点。
附图说明
图1是本申请基于图计算的个人信息处理方法的实施例一的流程图。
图2是基于图计算的数据建模所形成的一个图的示意图。
图3是对完整的图切分连通子图的示意图。
图4是对图中的节点进行聚类的示意图。
图5是对节点的属性分析时效信息的示意图。
图6是对一个节点社区中的每个节点分析时效信息的示意图。
图7是本申请基于图计算的个人信息处理系统的实施例一的结构示意图。
图8是本申请基于图计算的个人信息处理方法的实施例二的流程图。
图9是采用黑名单规则进行过滤的示意图。
图10是本申请基于图计算的个人信息处理系统的实施例二的结构示意图。
具体实施方式
请参阅图1,本申请基于图计算的个人信息处理方法的实施例一包括如下步骤。在该实施例中,个人信息例如是指个人职业信息。
步骤102:对个人信息的原始数据进行数据清洗。例如,采用基于Hadoop的数据仓库工具Hive存储个人信息的原始数据。
以个人职业信息为例,原始数据是指自然人在不同时期产生的反映个人职业属性的数据记录,例如某人的名片被拍照或扫描后传输到数据库中,某人在使用某软件产品时填写的注册信息被采集而传输到数据库中,某人在网络上出于社交、求职、购物等目的而填写的职业信息、地址信息、联系信息等被采集而传输到数据库中等。这些数据记录反映出自然人在不同时期分别属于哪些单位及部门、分别担任哪些职位、分别具有哪些联系方式(例如固定电话、传真、手机、电子邮箱、聊天软件账号、社交软件账号)等。通过对这些数据记录进行梳理,可以发现自然人发生单位更换、部门调整、职位变迁、联系信息变动等情况。但是,原始数据往往存在大量的冗余信息。例如同一条数据记录可能被不同的媒介收录,不同的媒介之间存在相互引用的情况等。原始数据的质量也往往较差,可能存在无效甚至误导的数据记录,例如某人为测试某软件产品而填写的虚假信息等。原始数据往往还缺乏时效性,例如某一张名片在多年以后被拍照或扫描后传输到数据库中,而名片信息实际上已过期。
为了对原始数据中的冗余信息进行精简、提升其质量,就需要对其进行数据清洗(data cleaning)。这是指基于规则和统计分析对数据记录中可识别的错误进行发现和纠正。所述基于规则的数据清洗例如包括手机合法性规则清洗和邮箱合法性规则清洗。其中手机合法性规则是指验证手机归属地合法性、手机号码格式合法性等;邮箱合法性规则是指验证邮箱格式合法性及特殊邮箱限定等。所述基于统计分析的数据清洗主要包括检查数据一致性、消除无效(噪声)数据、填充缺失数据等;这是指基于统计方法确定数据记录的置信水平,选取准确度最高的数据记录,从而对信息进行补全修正。例如某个手机号码同时对应自然人A与自然人B,统计表明大部分数据记录对应于自然人A,仅有个别数据记录对应于自然人B,那么就判定该手机号码对应于自然人A,而可选地再根据其他数据补全自然人B的手机号码。
原始数据具有高维度(high dimensionality)、低信息量且时效性差的特征与缺陷,通过数据清洗可以对高维度的原始数据进行降维,对低维度或无维度的原始数据进行抽象,解决无关信息和字段冗余,解决多指标数值、单位不同问题,让数据更适合作挖掘,保证后续运算结果的合法性及合理性。
步骤104:基于图计算的数据结构对经过数据清洗后的个人信息的数据记录进行建模。例如,采用Spark GraphX实现图计算的数据建模。
所述基于图计算的数据建模包括建立节点,建立边,确定边的权重。
首先,将每条经过数据清洗后的个人信息的数据记录抽象为一个节点。每个节点具备多个属性,包括唯一的ID标识、姓名、工作单位(及其可能具有的时效信息)、所在部门(及其可能具有的时效信息)、职位(及其可能具有的时效信息)、联系方式(及其可能具有的时效信息)、该条数据记录的创建时间、该条数据记录的修改时间、该条数据记录的上传时间等。
其次,当任意两个节点之间如有部分属性相同,则将相同属性抽象为这两个节点的边,使这两个节点之间建立联系。
优选地,节点中的第一类属性例如与联系方式有关的属性特别适合用来为节点之间建立边。例如,相同的工作电话、相同的手机、相同的电子邮箱等。
优选地,节点中的第二类属性不适宜用来为节点之间建立边。例如相同的姓名可能是重名,相同的部门可能属于不同单位,相同的职位可能属于不同单位等。
优选地,如果任意两个节点之间有一项或多项属性相同,其中至少包括一个第一类属性,则将相同的第一类属性抽象为这两个节点的边。如果任意两个节点之间有一项或多项属性相同,这些相同的属性均为第二类属性,则不为这两个节点建立边。
再次,根据每条边所具有的相同属性确定边的权重值。例如,采用有监督学习(supervised learning)算法对每个节点中的各个属性进行有监督学习,从而计算出各条边的权重值。
优选地,根据每条边所具有的相同的第一类属性计算权重值。并且,某条边所具有的相同的第一类属性的数量越多,这条边的权重值越大;反之亦然。例如,边M表示所连接的两个节点同时具有相同的手机和相同的电子邮箱,边N表示所连接的两个节点仅具有相同的手机,那么边M的权重值大于边N的权重值。
优选地,为边所具有的不同的第一类属性赋予不同的权重值,权重值越高表示两个节点的关系越紧密。例如,为相同的手机号码赋予的权重值大于为相同的电子邮箱赋予的权重值。
请参阅图2,这是基于图计算的数据建模所形成的一个图的示意图。其中,节点1与节点2之间就通过相同的工作电话号码建立了一条边,节点1与节点3之间通过相同的手机号码建立了一条边,节点1与节点4之间通过相同的手机号码建立了一条边。节点2与节点3之间则通过相同的邮箱地址建立了一条边。节点5与节点6之间就通过相同的手机号码建立了一条边。节点7与任何其他节点都没有边相连接。
步骤106:将步骤104建模形成的完整的图切分连通子图。切分连通子图是指将完整的图切分出若干个互不相连的连通子图。每个连通子图中,任意两个节点之间均可通过一条或多条边相连接。任意一个连通子图中的任意节点与其他连通子图中的任意节点之间均没有边相连接。切分连通子图的意义在于减小后续的计算规模,从而减小对计算能力的要求。
请参阅图3,这是对图2所示的完整的图切分连通子图的示意图。节点1、节点2、节点3、节点4之间通过多条边连接在一起,构成了连通子图1。节点5和节点6通过一条边相连接,构成了连通子图2。节点7与任何其他节点都没有边相连接,构成了连通子图3。
步骤108:对每个连通子图中的节点进行聚类(Cluster),将各个连通子图中的节点形成一个或多个节点社区。聚类(Cluster)是指将相似的事物聚集在一起,而将不相似的事物划分到不同的类别的过程,是数据分析的一种技术手段。聚类的目标是使同一类对象的相似度尽可能地大;不同类对象之间的相似度尽可能地小。这一步例如采用聚类算法中的社区发现算法,用来将具有稠密连接关系的多个节点形成一个节点社区。每个节点社区表征一个自然人的个人信息的多条数据记录的聚合,其中的每个节点就表示该自然人的个人信息的一条数据记录。
优选地,这一步采用的社区发现算法包括LPA(Label Propagation Algorithm,标签传播算法)、SLPA(Speaker-listener Label Propagation Algorithm,说-听标签传播算法)、HANP(Hop Attenuation & Node Preference,跳跃衰减与节点偏好)算法、BMLPA(Balanced Multi-Label Propagation Algorithm,平衡多标签传播算法)等。其中算法迭代的次数为5~10次,优选为5次,兼顾了聚类效果与计算成本。
请参阅图4,这是对某一个连通子图中的节点进行聚类的示意图。图4中,每个黑点表示一个节点,节点之间的连线表示边。根据聚类算法将整个连通子图分为了三个节点社区,每个节点社区用一块灰色阴影区域表示。显然,每个节点社区中的各个节点具有稠密的连接关系,而不同的节点社区之间的连接关系较为稀疏。
步骤110:对每个连通子图中的每个节点社区的分析时效信息,获取一个自然人根据时间分布的个人信息。其中,对一个节点社区分析时效信息就是对该节点社区中的每个节点分析时效信息。以个人职业信息为例,对一个节点分析时效信息应包括该节点中与自然人的单位、部门、职位、联系方式有关的属性分析时效信息。
个人信息的原始数据如果包含了时效信息,例如在社交网站、求职网站等数据源得到的数据记录,往往包含了工作单位、所在部门、职位、联系方式的时效信息,那么基于图计算进行数据建模后相应节点的相应属性也包含了时效信息,则采用这些属性自带的时效信息。
个人信息的原始数据如果不包含时效信息,例如从名片拍照或扫描得到的数据记录,往往并不包含工作单位、所在部门、职位、联系方式的时效信息,那么基于图计算进行数据建模后相应节点的相应属性也不包含时效信息。此时,优选用该条数据记录的修改时间、次选用该条数据记录的创建时间、再次选用该条数据的上传时间作为该节点的部分或全部属性的时效信息。
请参阅图5,这是对某一个节点分析时效信息的示意图。节点1例如是通过名片拍照或扫描获取的一条个人信息的数据记录。在节点1中,单位X、手机D并不具有时效信息。本申请将该条数据记录的修改时间、创建时间、上传时间中的一条为单位属性、手机属性添加时效信息2018年。为简化示意,图5中的时效信息仅精确到年,在实际应用中可精确到月份、日期、分钟、秒钟等。
请参阅图6,这是对一个节点社区中的每个节点分析时效信息的示意图。假设图6所示的节点1至节点4构成了一个节点社区,那么一个节点社区就表示一个自然人的个人信息的多条数据记录的聚合。由节点1和节点2可知,该自然人在2018年在单位X中,手机号码包括D和E,由节点3可知,该自然人在2017年在单位Y,手机号码为D。由节点4可知,该自然人在2016年在单位Z,手机号码为D。因此将节点1至节点4所代表的4条数据记录及分析所添加的时效信息进行合并,就可得到该自然人根据时间分布的个人信息,例如包括如下内容。
姓名:A。
单位:X(2018年)、Y(2017年)、Z(2016年)。
手机号码:D(2016年至2018年)、E(2018年)。
这样便通过数据挖掘,获取到一个自然人根据时间分布的个人信息,从而提升了个人信息的时效性与准确性。
优选地,所述方法在第一次处理个人信息时,对全部的原始数据进行数据清洗、基于图计算的数据建模、切分连通子图、节点聚类、分析节点社区时效信息以获取根据时间分布的个人信息;所述方法在以后处理个人信息时,仅对增量的原始数据进行数据清洗、基于图计算的数据建模、切分连通子图、节点聚类、分析节点社区时效信息以获取根据时间分布的增量个人信息,再与之前处理个人信息时所获取的根据时间分布的个人信息相叠加。
与本申请的个人信息处理方法的实施例一相对应的,请参阅图7,这是本申请的基于图计算的个人信息处理系统的实施例一,其沿着信号处理方向依次包括数据清洗单元72、数据建模单元74、切分连通子图单元76、聚类单元78和时效性获取单元710。
所述数据清洗单元72用于对个人信息的原始数据进行数据清洗。
所述数据建模单元74用于对经过数据清洗后的个人信息的数据记录基于图计算的数据结构进行建模。
所述切分连通子图单元76用于将建模形成的完整的图切分连通子图。
所述聚类单元78用于对每个连通子图中的节点进行聚类,在各个连通子图中形成一个或多个节点社区。每个节点社区表征一个自然人的个人信息的多条数据记录的聚合。
所述时效性获取单元710用于对每个连通子图中的每个节点社区中每个节点分析时效信息,获取一个自然人根据时间分布的个人信息。
与现有技术相比,本申请的基于图计算的个人信息处理方法及其系统具有如下有益效果。
其一,不采用关系数据库或SQL语言,改为采用图计算的数据结构与处理算法,特别适合采用分布式的计算机集群进行处理,对计算资源的要求低、成本也低。
其二,为个人信息的各个属性添加了时效信息,所获取的根据时间分布的个人信息的准确性高。
请参阅图8,这是本申请基于图计算的个人信息处理方法的实施例二。与个人信息处理方法的实施例一相比,个人信息处理方法的实施例二在步骤104和步骤106之间增加了步骤105。
步骤105:在步骤104建模形成的完整的图中,通过黑名单规则过滤掉部分节点和边。所述黑名单规则是根据数据记录的总体分布、硬件资源的计算能力等因素为节点的某一项或几项属性的特定取值的出现频率确定一个阈值,如果图中所有节点的相应属性出现所述特定取值的次数高于所述阈值,则将相应节点从图中删除,将所删除的节点的边也从图中删除。这样做的目的是为了有效控制图计算的规模、减小后续计算量、达到最优计算速度。优选地,所述阈值可以进行调整,从而在计算机集群的计算能力允许情况下,最大程度地保留最接近原始的图信息。例如,当硬件资源的计算能力较强时,所述阈值可以较大。当硬件资源的计算能力较弱时,所述阈值应该较小。这样可根据硬件资源的计算能力合理地处理原始图。
在个人信息处理方法的实施例二中,步骤106不再是将步骤104建模形成的完整的图切分连通子图,而是改为将步骤104建模形成且经过步骤105处理后的图切分连通子图。
请参阅图9,这是采用黑名单规则进行过滤的示意图。假设为图中的某个手机号码的出现频率确定一个阈值10000次。通过计算发现完整的图中有超过10000个节点的手机号码相同,这显然表示这些节点出现了某种错误或不合理、不正常之处。为此,判定这些节点需要删除掉,如图9中删除掉方框所示范围内的节点和边。所删除的节点之间所连接的边,所删除的节点与未删除的节点之间所连接的边,例如某个删除节点与仍保留的节点A之间的边B都需要删除掉。除了手机号码以外,节点中的第一类属性例如与联系方式有关的属性均适合用来建立黑名单规则。
与本申请的个人信息处理方法的实施例一相比,本申请的个人信息处理方法的实施例二通过新增的步骤105可以进一步降低对硬件资源的计算能力的要求,从而降低计算成本。
与本申请的个人信息处理方法的实施例二相对应的,请参阅图10,这是本申请的基于图计算的个人信息处理系统的实施例二,其沿着信号处理方向依次包括数据清洗单元72、数据建模单元74、过滤单元75、切分连通子图单元76、聚类单元78和时效性获取单元710。
与个人信息处理系统的实施例一相比,个人信息处理系统的实施例二在数据建模单元74和切分连通子图单元76之间增加了过滤单元75。所述过滤单元75用于在数据建模单元74建模形成的完整的图中,通过黑名单规则过滤掉部分节点和边。相应地,切分连通子图单元76不再是将数据建模单元74建模形成的完整的图切分连通子图,而是改为将数据建模单元74建模形成且经过过滤单元75处理后的图切分连通子图。
与本申请的个人信息处理系统的实施例一相比,本申请的个人信息处理系统的实施例二通过新增的过滤单元75可以进一步降低对硬件资源的计算能力的要求,从而降低计算成本。
可选地,在个人信息处理方法的两个实施例的步骤106中,如果切分出的某个连通子图包含了过多的节点和/或过多的边,为了减小后续的计算规模,对该连通子图也采用黑名单规则过滤掉部分节点和边。所述过多的节点例如是节点数量≥100万个。所述过多的边例如是边的数量≥50万条。所采用的黑名单规则中的阈值可根据硬件资源的计算能力进行选取。
可选地,在个人信息处理系统的两个实施例中,所述切分连通子图单元76还用于将切分出的连通子图也采用黑名单规则过滤掉部分节点和边。这通常是在切分出的连通子图包含了过多的节点和/或过多的边,而给后续的计算带来较大的负担时进行的。所述过多的节点例如是节点数量≥100万个。所述过多的边例如是边的数量≥50万条。所采用的黑名单规则中的阈值可根据硬件资源的计算能力进行选取。
以上仅为本申请的优选实施例,并不用于限定本申请。对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种基于图计算的个人信息处理方法,其特征是,包括如下步骤:
步骤102:对个人信息的原始数据进行数据清洗;
步骤104:基于图计算的数据结构进行建模;具体包括将每条经过数据清洗后的个人信息的数据记录抽象为一个节点,每个节点具有多个属性;个人信息的原始数据如包含时效信息,那么相应节点的属性也包含时效信息;将两个节点之间的相同的联系方式属性抽象为这两个节点的边;
步骤106:将建模形成的完整的图切分连通子图;
步骤108:对每个连通子图中的节点进行聚类,形成一个或多个节点社区;每个节点社区表征一个自然人的个人信息的多条数据记录的聚合;
步骤110:对每个连通子图中的每个节点社区中的每个节点的属性分析时效信息,个人信息的原始数据如不含时效信息,那相应节点的属性也不含时效信息,则采用数据记录的修改时间、创建时间、上传时间中的一项作为相应节点的属性的时效信息;获取一个自然人根据时间分布的个人信息。
2.根据权利要求1所述的个人信息处理方法,其特征是,所述步骤102中,所述数据清洗包括手机合法性规则清洗、邮箱合法性规则清洗、检查数据一致性、消除无效数据、填充缺失数据中的一项或多项。
3.根据权利要求1所述的个人信息处理方法,其特征是,所述步骤104中,每个节点具备以下属性的一项或多项:ID标识、姓名、单位、部门、职位、各种联系方式、该条数据记录的创建时间、该条数据记录的修改时间、该条数据记录的上传时间;还根据每条边所具有的相同属性确定边的权重值。
4.根据权利要求3所述的个人信息处理方法,其特征是,所述步骤104中,将节点中的各种联系方式属性作为第一类属性,其余属性作为第二类属性,仅将两个节点之间的相同的第一类属性抽象为这两个节点的边。
5.根据权利要求3所述的个人信息处理方法,其特征是,所述步骤104中,采用有监督学习算法对每个节点中的各个属性进行有监督学习,从而计算出各条边的权重值。
6.根据权利要求3所述的个人信息处理方法,其特征是,所述步骤104中,根据每条边所具有的相同的第一类属性计算权重值;并且,某条边所具有的相同的第一类属性的数量越多,这条边的权重值越大;反之亦然。
7.根据权利要求1所述的个人信息处理方法,其特征是,在步骤104和步骤106之间增加步骤105:在建模形成的完整的图中,通过黑名单规则过滤掉部分节点和边;
所述步骤106改为:将建模形成且经过过滤后的图切分连通子图。
8.根据权利要求1或7所述的个人信息处理方法,其特征是,所述步骤106中,还对切分出的连通子图采用黑名单规则过滤掉部分节点和边。
9.根据权利要求7所述的个人信息处理方法,其特征是,所述步骤105和步骤106中,所述黑名单规则是为节点的某一项或几项属性的特定取值的出现频率确定一个阈值,如果图中所有节点的相应属性出现所述特定取值的次数高于所述阈值,则将相应节点从图中删除,将所删除的节点的边也从图中删除。
10.根据权利要求1所述的个人信息处理方法,其特征是,所述步骤108中,采用社区发现算法进行聚类,每个节点社区中的每个节点就表示该自然人的个人信息的一条数据记录。
11.根据权利要求10所述的个人信息处理方法,其特征是,所述步骤108中,所述社区发现算法包括LPA、SLPA、HANP算法、BMLPA中的任一种,其中算法迭代的次数为5~10次。
12.根据权利要求1所述的个人信息处理方法,其特征是,
所述方法在第一次处理个人信息时,对全部的原始数据进行数据清洗、基于图计算的数据建模、切分连通子图、节点聚类、分析节点社区时效信息以获取根据时间分布的个人信息;
所述方法在以后处理个人信息时,仅对增量的原始数据进行数据清洗、基于图计算的数据建模、切分连通子图、节点聚类、分析节点社区时效信息以获取根据时间分布的增量个人信息,再与之前处理个人信息时所获取的根据时间分布的个人信息相叠加。
13.一种基于图计算的个人信息处理系统,其特征是,沿着信号处理方向依次包括数据清洗单元、数据建模单元、切分连通子图单元、聚类单元和时效性获取单元;
所述数据清洗单元用于对个人信息的原始数据进行数据清洗;
所述数据建模单元用于基于图计算的数据结构进行建模;具体包括将每条经过数据清洗后的个人信息的数据记录抽象为一个节点,每个节点具有多个属性;个人信息的原始数据如包含时效信息,那么相应节点的属性也包含时效信息;将两个节点之间的相同的联系方式属性抽象为这两个节点的边;
所述切分连通子图单元用于将建模形成的完整的图切分连通子图;
所述聚类单元用于对每个连通子图中的节点进行聚类,形成一个或多个节点社区;每个节点社区表征一个自然人的个人信息的多条数据记录的聚合;
所述时效性获取单元用于对每个连通子图中的每个节点社区中的每个节点的属性分析时效信息,个人信息的原始数据如不含时效信息,那相应节点的属性也不含时效信息,则采用数据记录的修改时间、创建时间、上传时间中的一项作为相应节点的属性的时效信息;获取一个自然人根据时间分布的个人信息。
14.根据权利要求13所述的个人信息处理系统,其特征是,在数据建模单元和切分连通子图单元之间增加过滤单元;所述过滤单元用于在建模形成的完整的图中通过黑名单规则过滤掉部分节点和边;
所述切分连通子图单元改为将建模形成且经过过滤后的图切分连通子图。
15.根据权利要求13或14所述的基于图计算的个人信息处理系统,其特征是,所述切分连通子图单元还用于将切分出的连通子图也采用黑名单规则过滤掉部分节点和边。
CN201811483979.7A 2018-12-06 2018-12-06 一种基于图计算的个人信息处理方法及系统 Withdrawn - After Issue CN109582806B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811483979.7A CN109582806B (zh) 2018-12-06 2018-12-06 一种基于图计算的个人信息处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811483979.7A CN109582806B (zh) 2018-12-06 2018-12-06 一种基于图计算的个人信息处理方法及系统

Publications (2)

Publication Number Publication Date
CN109582806A CN109582806A (zh) 2019-04-05
CN109582806B true CN109582806B (zh) 2022-07-15

Family

ID=65927543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811483979.7A Withdrawn - After Issue CN109582806B (zh) 2018-12-06 2018-12-06 一种基于图计算的个人信息处理方法及系统

Country Status (1)

Country Link
CN (1) CN109582806B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232078B (zh) * 2019-04-26 2021-03-30 上海合合信息科技股份有限公司 一种企业集团关系获取方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8762298B1 (en) * 2011-01-05 2014-06-24 Narus, Inc. Machine learning based botnet detection using real-time connectivity graph based traffic features
CN104408149A (zh) * 2014-12-04 2015-03-11 威海北洋电气集团股份有限公司 基于社交网络分析的犯罪嫌疑人挖掘关联方法及系统
CN106778872A (zh) * 2016-12-19 2017-05-31 北京天广汇通科技有限公司 基于密度的连通图的聚类方法与装置
CN108509614A (zh) * 2018-04-03 2018-09-07 中山大学 一种基于图数据库的任务履历管理及分析方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4720853B2 (ja) * 2008-05-19 2011-07-13 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
CN103699653A (zh) * 2013-12-26 2014-04-02 沈阳航空航天大学 数据聚类方法和装置
CN104035983A (zh) * 2014-05-29 2014-09-10 西安理工大学 基于属性权重相似度的分类变量聚类方法
CN105159911B (zh) * 2015-07-06 2018-07-10 西北工业大学 基于主题交互的社区发现方法
CN105224606B (zh) * 2015-09-02 2019-04-02 新浪网技术(中国)有限公司 一种用户标识的处理方法及装置
CN106934509A (zh) * 2015-12-30 2017-07-07 平安科技(深圳)有限公司 客户信息合并方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8762298B1 (en) * 2011-01-05 2014-06-24 Narus, Inc. Machine learning based botnet detection using real-time connectivity graph based traffic features
CN104408149A (zh) * 2014-12-04 2015-03-11 威海北洋电气集团股份有限公司 基于社交网络分析的犯罪嫌疑人挖掘关联方法及系统
CN106778872A (zh) * 2016-12-19 2017-05-31 北京天广汇通科技有限公司 基于密度的连通图的聚类方法与装置
CN108509614A (zh) * 2018-04-03 2018-09-07 中山大学 一种基于图数据库的任务履历管理及分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Key-Node-Separated Graph Clustering and Layouts for Human Relationship Graph Visualization;Takayuki Itoh等;《IEEE Computer Graphics and Applications》;20150923;第35卷(第6期);30-40 *
基于海量数据的社会网络链接预测分析;朱索格;《中国优秀硕士学位论文全文数据(基础科学辑)》;20141015(第10期);A002-68 *

Also Published As

Publication number Publication date
CN109582806A (zh) 2019-04-05

Similar Documents

Publication Publication Date Title
US9916350B2 (en) Automated creation of join graphs for unrelated data sets among relational databases
JP2021518024A (ja) 機械学習アルゴリズムのためのデータを生成する方法、システム
CN104573130B (zh) 基于群体计算的实体解析方法及装置
WO2016101628A1 (zh) 一种数据建模中的数据处理方法及装置
CN107895038B (zh) 一种链路预测关系推荐方法及装置
CN111159184B (zh) 元数据追溯方法、装置及服务器
CN112906826B (zh) 基于多维度的知识图谱的融合方法、装置及计算机设备
CN104820708B (zh) 一种基于云计算平台的大数据聚类方法和装置
CN111177473B (zh) 人员关系分析方法、装置和可读存储介质
CN104809244B (zh) 一种大数据环境下的数据挖掘方法和装置
CN110929105B (zh) 一种基于大数据技术的用户id关联方法
CN109165119B (zh) 一种电子商务数据处理方法和系统
Ebden et al. Network analysis on provenance graphs from a crowdsourcing application
CN104965846B (zh) MapReduce平台上的虚拟人建立方法
CN117221087A (zh) 告警根因定位方法、装置及介质
CN116881430A (zh) 一种产业链识别方法、装置、电子设备及可读存储介质
CN109582806B (zh) 一种基于图计算的个人信息处理方法及系统
US12013855B2 (en) Trimming blackhole clusters
CN113572721A (zh) 一种异常访问检测方法、装置、电子设备及存储介质
CN111107493B (zh) 一种移动用户位置预测方法与系统
CN114969018B (zh) 一种数据监控方法及系统
CN116415957A (zh) 异常交易对象识别方法、装置、计算机设备和存储介质
CN108509531B (zh) 一种基于Spark平台的不确定数据集频繁项挖掘方法
CN114238433B (zh) 一种基于大数据的人口监测方法、系统和存储介质
Jalali et al. A new clustering approach based on graph partitioning for navigation patterns mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Xu Jie

Inventor after: Wan Jiajun

Inventor after: Wu Chaowei

Inventor after: Guo Fengjun

Inventor after: Zhang Bin

Inventor after: Long Teng

Inventor after: Ding Kai

Inventor after: Chen Qingshan

Inventor before: Xu Jie

Inventor before: Wan Jiajun

Inventor before: Wu Chaowei

CB02 Change of applicant information
CB02 Change of applicant information

Address after: 200433 room 335, No. 8008-34, National Road, Shanghai, Yangpu District

Applicant after: Shanghai hehe Information Technology Co.,Ltd.

Address before: 200433 room 335, No. 8008-34, National Road, Shanghai, Yangpu District

Applicant before: INTSIG INFORMATION Co.,Ltd.

CB02 Change of applicant information

Address after: Room 1105-1123, No. 1256, 1258, Wanrong Road, Jing'an District, Shanghai, 200436

Applicant after: Shanghai hehe Information Technology Co.,Ltd.

Address before: 200433 room 335, No. 8008-34, National Road, Shanghai, Yangpu District

Applicant before: Shanghai hehe Information Technology Co.,Ltd.

CB02 Change of applicant information
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210303

Address after: Room 1105-1123, 1256 and 1258 Wanrong Road, Jing'an District, Shanghai, 200436

Applicant after: Shanghai hehe Information Technology Co.,Ltd.

Applicant after: Shanghai Shengteng Data Technology Co.,Ltd.

Applicant after: Shanghai Linguan Data Technology Co.,Ltd.

Applicant after: Shanghai yingwuchu Data Technology Co.,Ltd.

Address before: Room 1105-1123, 1256 and 1258 Wanrong Road, Jing'an District, Shanghai, 200436

Applicant before: Shanghai hehe Information Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
AV01 Patent right actively abandoned
AV01 Patent right actively abandoned
AV01 Patent right actively abandoned

Granted publication date: 20220715

Effective date of abandoning: 20230315

AV01 Patent right actively abandoned

Granted publication date: 20220715

Effective date of abandoning: 20230315