CN107862047B - 基于多个数据源的自然人数据处理方法和系统 - Google Patents

基于多个数据源的自然人数据处理方法和系统 Download PDF

Info

Publication number
CN107862047B
CN107862047B CN201711088455.3A CN201711088455A CN107862047B CN 107862047 B CN107862047 B CN 107862047B CN 201711088455 A CN201711088455 A CN 201711088455A CN 107862047 B CN107862047 B CN 107862047B
Authority
CN
China
Prior art keywords
data
information
natural person
user time
data sources
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711088455.3A
Other languages
English (en)
Other versions
CN107862047A (zh
Inventor
钱志龙
朱俊赢
冯磊
管大业
徐兆鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital key network technology (Hangzhou) Co.,Ltd.
Original Assignee
Aicai Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aicai Technology Co ltd filed Critical Aicai Technology Co ltd
Priority to CN201711088455.3A priority Critical patent/CN107862047B/zh
Publication of CN107862047A publication Critical patent/CN107862047A/zh
Application granted granted Critical
Publication of CN107862047B publication Critical patent/CN107862047B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明公开了一种基于多个数据源的自然人数据处理方法和系统,其中方法包括对多个数据源的自然人数据表的用户数据中添加唯一编号信息和加入当前时间信息,得到用户时间编码数据;根据列表列名信息对数据源两两进行并行处理,得到自然人数据表内列表列名的相似度信息;在当前时间,根据图中的相似度信息和预设阈值将数据源进行合并,同时将合并的自然人数据表所有时间对应的用户时间编码数据按照编码极值分配为超级身份标识;最后根据超级身份标识对自然人数据表进行回溯处理得到多个数据源归类后的自然人信息表。本发明有效避免了相同超级身份标识的产生;减少后续数据处理对资源造成的浪费,而且提高数据处理效率,简化自然人识别的计算复杂度。

Description

基于多个数据源的自然人数据处理方法和系统
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于多个数据源的自然人数据处理方法和系统。
背景技术
倒排索引是现代搜索引擎中使用最广泛的数据结构,它由字典和倒排列表两部分组成。其中字典保存了对文档集合进行处理后得到的词项、词项的文档频率以及一个指向该词项所对应倒排列表的指针;倒排列表由多个倒排记录构成,其中每个倒排记录对应包含该词项的一篇文档,倒排记录中记录的信息包括:文档序号(称为docID),词项频率(词项在该文档中出现的次数),位置信息(词项在文档中的出现位置)等。
目前,自然人识别的主要方案是利用倒排索引技术根据自然人的多维度信息识别自然人,再根据两自然人的信息匹配数量是否超过某一阈值来识别自然人是否为同一自然人。而当前识别自然人算法为T+1方式定时执行,虽然对于同一自然人的多条记录在T时和T+1时仍合并为同一自然人,但是对于同一自然人的多条记录不同时间分配到的super_id(超级身份标识)可能相同,这就导致了数据冗余,在后续数据处理时,不仅需要花费大量的资源处理相同super_id,浪费存储资源;而且降低数据处理效率,响应时间长。
发明内容
本发明的目的是提供一种基于多个数据源的自然人数据处理方法和系统,在对同一自然人的多条记录在T时和T+1时合并为同一自然人时,有效避免了相同超级身份标识的产生;减少后续数据处理对资源造成的浪费,而且提高数据处理效率,同时简化自然人识别的计算复杂度,避免后续倒排索引算法对自然人识别算法的影响。
本发明提供了一种基于多个数据源的自然人数据处理方法,包括以下步骤;
获取来自多个数据源的自然人数据表,所述自然人数据表中包括用户数据、列表表名信息以及列表列名信息;对各个所述用户数据添加唯一编号信息,得到用户编号数据;
根据当前时间信息对用户编号数据做时间识别处理,得到用户时间编码数据;同时,根据所述列表表名信息将所述用户时间编码数据存入到图的顶点集;
根据所述列表列名信息对数据源两两进行并行处理,得到自然人数据表内列表列名的相似度信息;根据预设阈值将所述相似度信息存入图的边集;
根据图中的所述相似度信息和预设阈值将数据源进行合并,并根据合并结果获取对应的当前用户时间编码数据和前一次用户时间编码数据;
根据编码极值选取所述当前用户时间编码数据和前一次用户时间编码数据分配为超级身份标识;并根据所述超级身份标识对自然人数据表进行回溯处理,得到多个数据源归类后的自然人信息表。
作为一种可实施方式,所述根据所述列表列名信息对数据源两两进行并行处理,得到自然人数据表内列表列名的相似度信息;根据预设阈值将所述相似度信息存入图的边集,包括以下步骤;
任意选取两个数据源的列列表列名的公共列信息,并对所述公共列信息的相同列宽进行求同处理,得到共同列宽值;
并根据每个所述共同列宽值对数据源的自然人数据表中进行合并分组,得到自然人分组数据;
对每个同组的自然人分组数据之间的关联关系进行相似度处理,得到相似度信息;并将相似度信息与预设阈值的进行比较,根据比较结果将相似度信息存入图的边集。
作为一种可实施方式,本发明提供的基于多个数据源的自然人数据处理方法还包括以下步骤;
在根据所述列表列名信息对数据源两两进行并行处理之前,根据预设需求信息配置并行参数,根据所述并行参数和所述列表列名信息对数据源两两进行并行处理。
作为一种可实施方式,所述根据编码极值选取所述当前用户时间编码数据和前一次用户时间编码数据分配为超级身份标识,包括以下步骤;
分别对所述当前用户时间编码数据和前一次用户时间编码数据进行处理,得到各个对应的编码极值;
将各个对应的编码极值之间进行比较,选取最小或最大的编码极值对应的当前用户时间编码数据或前一次用户时间编码数据;
再将所述当前用户时间编码数据或前一次用户时间编码数据分配为超级身份标识。
作为一种可实施方式,本发明提供的基于多个数据源的自然人数据处理方法还包括以下步骤;
在每个所述用户数据中添加唯一编号信息之前,对每个所述用户数据进行随机排列,再对随机排列结果添加唯一编号信息。
相应的,本发明还提供一种基于多个数据源的自然人数据处理系统,包括获取添加模块、时间处理模块、相似度处理模块、合并获取模块以及分配回溯模块;
所述获取添加模块,用于获取来自多个数据源的自然人数据表,所述自然人数据表中包括用户数据、列表表名信息以及列表列名信息;对各个所述用户数据添加唯一编号信息,得到用户编号数据;
所述时间处理模块,用于根据当前时间信息对用户编号数据做时间识别处理,得到用户时间编码数据;同时,根据所述列表表名信息将所述用户时间编码数据存入到图的顶点集;
所述相似度处理模块,用于根据所述列表列名信息对数据源两两进行并行处理,得到自然人数据表内列表列名的相似度信息;根据预设阈值将所述相似度信息存入图的边集;
所述合并获取模块,用于根据图中的所述相似度信息和预设阈值将数据源进行合并,并根据合并结果获取对应的当前用户时间编码数据和前一次用户时间编码数据;
所述分配回溯模块,用于根据编码极值选取所述当前用户时间编码数据和前一次用户时间编码数据分配为超级身份标识;并根据所述超级身份标识对自然人数据表进行回溯处理,得到多个数据源归类后的自然人信息表。
作为一种可实施方式,所述相似度处理模块包括选取单元、合并单元以及比较存储单元;
所述选取单元,用于任意选取两个数据源的列列表列名的公共列信息,并对所述公共列信息的相同列宽进行求同处理,得到共同列宽值;
所述合并单元,用于并根据每个所述共同列宽值对数据源的自然人数据表中进行合并分组,得到自然人分组数据;
所述比较存储单元,用于对每个同组的自然人分组数据之间的关联关系进行相似度处理,得到相似度信息;并将相似度信息与预设阈值的进行比较,根据比较结果将相似度信息存入图的边集。
作为一种可实施方式,本发明提供的基于多个数据源的自然人数据处理系统还包括配置模块;
所述配置模块,用于在根据所述列表列名信息对数据源两两进行并行处理之前,根据预设需求信息配置并行参数,根据所述并行参数和所述列表列名信息对数据源两两进行并行处理。
作为一种可实施方式,所述分配回溯模块包括编码极值计算单元、比较选取单元以及分配单元;
所述编码极值计算单元,用于分别对所述当前用户时间编码数据和前一次用户时间编码数据进行处理,得到各个对应的编码极值;
所述比较选取单元,用于将各个对应的编码极值之间进行比较,选取最小或最大的编码极值对应的当前用户时间编码数据或前一次用户时间编码数据;
所述分配单元,用于再将所述当前用户时间编码数据或前一次用户时间编码数据分配为超级身份标识。
作为一种可实施方式,所述获取添加模块包括排列单元;
所述排列单元,用于在每个所述用户数据中添加唯一编号信息之前,对每个所述用户数据进行随机排列,再对随机排列结果添加唯一编号信息。
与现有技术相比,本技术方案具有以下优点:
本发明提供的基于多个数据源的自然人数据处理方法和系统,其中,方法包括获取来自多个数据源的自然人数据表,自然人数据表中包括用户数据、列表表名信息以及列表列名信息;对用户数据中添加唯一编号信息和加入当前时间信息,得到用户时间编码数据;根据列表列名信息对数据源两两进行并行处理,得到自然人数据表内列表列名的相似度信息;根据预设阈值将相似度信息存入图的边集;在当前时间,根据图中的相似度信息和预设阈值将数据源进行合并,完成同一自然人的在自然人数据表合并;同时将合并的自然人数据表所有时间对应的用户时间编码数据按照编码极值分配为超级身份标识;最后根据超级身份标识对自然人数据表进行回溯处理,得到多个数据源归类后的自然人信息表。本发明在对同一自然人的多条记录在T时和T+1时合并为同一自然人时,有效避免了相同超级身份标识的产生;减少后续数据处理对资源造成的浪费,而且提高数据处理效率,同时简化自然人识别的计算复杂度,避免后续倒排索引算法对自然人识别算法的影响。
附图说明
图1为本发明实施例一提供的基于多个数据源的自然人数据处理方法的流程示意图;
图2为本发明实施例二提供的基于多个数据源的自然人数据处理系统的结构示意图;
图3为图2中相似度处理模块的结构示意图;
图4为图2中分配回溯模块的结构示意图。
图中:100、获取添加模块;110、排列单元;200、时间处理模块;300、相似度处理模块;310、选取单元;320、合并单元;330、比较存储单元;400、合并获取模块;500、分配回溯模块;510、编码极值计算单元;520、比较选取单元;530、分配单元;600、配置模块。
具体实施方式
以下结合附图,对本发明上述的和另外的技术特征和优点进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的部分实施例,而不是全部实施例。
请参阅图1,本发明实施例一提供的基于多个数据源的自然人数据处理方法,包括以下步骤;
S100、获取来自多个数据源的自然人数据表,自然人数据表中包括用户数据、列表表名信息以及列表列名信息;对各个用户数据添加唯一编号信息,得到用户编号数据;
S200、根据当前时间信息对用户编号数据做时间识别处理,得到用户时间编码数据;同时,根据列表表名信息将用户时间编码数据存入到图的顶点集;
S300、根据列表列名信息对数据源两两进行并行处理,得到自然人数据表内列表列名的相似度信息;根据预设阈值将相似度信息存入图的边集;
S400、根据图中的相似度信息和预设阈值将数据源进行合并,并根据合并结果获取对应的当前用户时间编码数据和前一次用户时间编码数据;
S500、根据编码极值选取当前用户时间编码数据和前一次用户时间编码数据分配为超级身份标识;并根据超级身份标识对自然人数据表进行回溯处理,得到多个数据源归类后的自然人信息表。
需要说明的是,数据源的自然人数据表中存储着自然人的多维度数据;由于数据源的不同,每个数据源中的同一自然人的多维度数据不完全一致,根据两自然人的信息匹配数量是否超过某一阈值来识别自然人是否为同一自然人。通过对各个用户数据添加唯一编号信息,使得得到的用户编号数据均为唯一不重复的数据;比如,可以直接采用不同的数值作为唯一编号,使得用户编号数据为datasrcname_datetime_1、datasrcname_datetime_2、datasrcname_datetime_3,...;于其他实施例中,可以采用字母、字符或者他们的组合作为唯一编号,在此并不进行限制。
当前时间信息可以是对用户编号数据做时间识别处理的时候的系统时间;同一批次处理的当前时间信息相同,也就是说在定时执行的T时默认为一个相同的当前时间信息;在T+1时,才会默认为另一个当前时间信息;那么根据当前时间的不同每一次对相同的用户编号数据做时间识别处理后得到的用户时间编码数据也会不同;比如,在2017-01-0100:00:00时对三个自然人的数据源datasrc1,datasrc2,datasrc3做时间识别处理,则将数据源的datasrc1的每条用户编号数据编码为datasrc1_20170101000000_1,datasrc1_20170101000000_2,datasrc1_20170101000000_3,…;其他自然人的数据源按同样方式编码。使得每个数据源中的每个自然人数据表都有其对应的唯一的用户时间编码数据;由于日期时间的字符串格式具有全序性,可以根据用户时间编码数据排除相同的超级身份标识。
而上述提到图为并行计算框架,允许由顶点集合和边集合构造一个点和边都带属性的有向图(Graph),并提供面向点和边的属性操作符以及消息传递机制,在此就不进行详细说明。在根据列表列名信息对数据源两两进行并行处理的时候,可以根据不同的策略进行;比如,采用单量遍询策略,每次对任意两个数据源进行处理,直至完成所有数据源的处理;也可以是采用全量策略,一次同时对多对数据源进行处理,直至完成所有数据源的处理。
步骤S300和步骤S400中的预设阈值为同一个值,主要用于作为基准将相似度信息存入图的边集,相似度信息超过预设阈值识别为同一自然人,也就是说将超过预设阈值的相似度信息存入图的边集,再根据图中的相似度信息将数据源进行合并,使得数据源中的同一自然人合并。
由于当前时间信息为字符串格式具有全序性,而编码极值就是对各个当前用户时间编码数据和前一次用户时间编码数据进行计算得到的。这里选取具有最大或者最小的编码极值的当前用户时间编码数据和前一次用户时间编码数据分配为超级身份标识;达到排除由于T和T+1时分配重复的超级身份标识。也可以说若T时刻已经通过已有数据源生成自然人的超级身份标识关联的自然人信息表,则在T+1时刻认为T时刻的自然人信息表为新的数据源并加入到数据源组中依次重新运行,由于超级身份标识的生成方式以及T和T+1时刻操作时T+1的当前用户时间编号数据大于T时的前一次用户时间编号数据,从而保证了T+1时分配的超级身份标识与T时分配的超级身份标识相同。而根据超级身份标识对自然人数据表进行回溯处理主要是为了将分配好超级身份标识的数据合并到一张表。因为每个数据源的自然人数据表都分配了super_id,根据简单的sql便可为每条记录新增super_id列。
本发明提供的基于多个数据源的自然人数据处理方法,包括获取来自多个数据源的自然人数据表,自然人数据表中包括用户数据、列表表名信息以及列表列名信息;对用户数据中添加唯一编号信息和加入当前时间信息,得到用户时间编码数据;根据列表列名信息对数据源两两进行并行处理,得到自然人数据表内列表列名的相似度信息;根据预设阈值将相似度信息存入图的边集;在当前时间,根据图中的相似度信息和预设阈值将数据源进行合并,完成同一自然人的在自然人数据表合并;同时将合并的自然人数据表所有时间对应的用户时间编码数据按照编码极值分配为超级身份标识;最后根据超级身份标识对自然人数据表进行回溯处理,得到多个数据源归类后的自然人信息表。本发明在对同一自然人的多条记录在T时和T+1时合并为同一自然人时,有效避免了相同超级身份标识的产生;减少后续数据处理对资源造成的浪费,而且提高数据处理效率,同时简化自然人识别的计算复杂度,避免后续倒排索引算法对自然人识别算法的影响。
进一步的,步骤S300包括以下步骤;
S310、任意选取两个数据源的列列表列名的公共列信息,并对公共列信息的相同列宽进行求同处理,得到共同列宽值;
S320、并根据每个共同列宽值对数据源的自然人数据表中进行合并分组,得到自然人分组数据;
S320、对每个同组的自然人分组数据之间的关联关系进行相似度处理,得到相似度信息;并将相似度信息与预设阈值的进行比较,根据比较结果将相似度信息存入图的边集。
列表列名和列表表名均可以通过api获取,根据两个数据源的列表列名求公共列,并对公共列循环执行分组。具体为对这两个数据源的共同字段列宽为钥匙,将相同的列宽值的记录分为一组,得到自然人分组数据;在组内分别计算自然人分组数据两两之间的相似度(如Hamming距离或Jaccard距离),并将相似度超过某一阙值的记录存入边集。以保证某些数据源的特殊条件比如:手机号相同的记录认为是同一自然人的情况。
在此,对如何根据预设阈值和相似度信息确认为同一自然人进行详细说明:
比如,预设阈值为k;那么将同一自然人的相似度信息(编码关联关系)不超过k个(如k=3)点时,合并为同一自然人。即如果a与b是临近的,b与c临近,c与d临近,且a到d的步长为3;当k=2时,a与b,c是同一自然人,a与d不认为是同一自然人。并分配图顶点集中的当前用户时间编码数据和前一次用户时间编码数据的最小者作为自然人的super_id(如a,b,c是同一自然人,则将它们的编码极值最小或最大者作为这三条记录的super_id)。
进一步的,本发明实施例一提供的基于多个数据源的自然人数据处理方法还包括以下步骤;
在根据列表列名信息对数据源两两进行并行处理之前,根据预设需求信息配置并行参数,根据并行参数和列表列名信息对数据源两两进行并行处理。根据并行参数和列表列名信息对数据源两两进行并行处理也可以是根据单量遍询策略或全量策略进行。根据实际情况人为配置来实现哪些数据源两两之间进行自然人识别;并行参数配置提高了运行效率,减少一些不必要数据的运算。
进一步的,步骤S500包括以下步骤;
分别对当前用户时间编码数据和前一次用户时间编码数据进行处理,得到各个对应的编码极值;
将各个对应的编码极值之间进行比较,选取最小或最大的编码极值对应的当前用户时间编码数据或前一次用户时间编码数据;
再将当前用户时间编码数据或前一次用户时间编码数据分配为超级身份标识。
如果设定选取最小的编码极值;则对各个对应的编码极值之间进行比较,如果得到的最小的编码极值为当前用户时间编码数据;则将当前用户时间编码数据分配为超级身份标识;如果得到的最小的编码极值为前一次用户时间编码数据;则将前一次用户时间编码数据分配为超级身份标识。
如果设定选取最大的编码极值;则对各个对应的编码极值之间进行比较,如果得到的最大的编码极值为当前用户时间编码数据;则将当前用户时间编码数据分配为超级身份标识;如果得到的最大的编码极值为前一次用户时间编码数据;则将前一次用户时间编码数据分配为超级身份标识。使得在不同时间次处理时,排除分配到重复的超级身份标识,减少后续数据处理对资源造成的浪费,而且提高数据处理效率,同时简化自然人识别的计算复杂度,避免后续倒排索引算法对自然人识别算法的影响。
进一步的,本发明实施例一提供的基于多个数据源的自然人数据处理方法还包括以下步骤;
在每个用户数据中添加唯一编号信息之前,对每个用户数据进行随机排列,再对随机排列结果添加唯一编号信息。通过随机排列,保障对每个用户数据都能添加唯一编号信息,提高处理效率。
基于同一发明构思,本发明实施例还提供一种基于多个数据源的自然人数据处理系统,该系统的实施可参照上述方法的过程实现,重复之处不再冗述。
如图2所示,是本发明实施例二提供的基于多个数据源的自然人数据处理系统的结构示意图,包括获取添加模块100、时间处理模块200、相似度处理模块300、合并获取模块400以及分配回溯模块500;
获取添加模块100用于获取来自多个数据源的自然人数据表,自然人数据表中包括用户数据、列表表名信息以及列表列名信息;对各个用户数据添加唯一编号信息,得到用户编号数据;
时间处理模块200用于根据当前时间信息对用户编号数据做时间识别处理,得到用户时间编码数据;同时,根据列表表名信息将用户时间编码数据存入到图的顶点集;
相似度处理模块300用于根据列表列名信息对数据源两两进行并行处理,得到自然人数据表内列表列名的相似度信息;根据预设阈值将相似度信息存入图的边集;
合并获取模块400用于根据图中的相似度信息和预设阈值将数据源进行合并,并根据合并结果获取对应的当前用户时间编码数据和前一次用户时间编码数据;
分配回溯模块500用于根据编码极值选取当前用户时间编码数据和前一次用户时间编码数据分配为超级身份标识;并根据超级身份标识对自然人数据表进行回溯处理,得到多个数据源归类后的自然人信息表。
本发明提供的基于多个数据源的自然人数据处理系统,包括获取添加模块100、时间处理模块200、相似度处理模块300、合并获取模块400以及分配回溯模块500;使得在对同一自然人的多条记录在T时和T+1时合并为同一自然人时,有效避免了相同超级身份标识的产生;减少后续数据处理对资源造成的浪费,而且提高数据处理效率,同时简化自然人识别的计算复杂度,避免后续倒排索引算法对自然人识别算法的影响。
如图3所示,是相似度处理模块300的结构示意图包括选取单元310、合并单元320以及比较存储单元330;
选取单元310用于任意选取两个数据源的列列表列名的公共列信息,并对公共列信息的相同列宽进行求同处理,得到共同列宽值;
合并单元320用于并根据每个共同列宽值对数据源的自然人数据表中进行合并分组,得到自然人分组数据;
比较存储单元330用于对每个同组的自然人分组数据之间的关联关系进行相似度处理,得到相似度信息;并将相似度信息与预设阈值的进行比较,根据比较结果将相似度信息存入图的边集。
进一步的,本发明实施例二提供的基于多个数据源的自然人数据处理系统还包括配置模块600;
配置模块600用于在根据列表列名信息对数据源两两进行并行处理之前,根据预设需求信息配置并行参数,根据并行参数和列表列名信息对数据源两两进行并行处理。
如图4所示,是分配回溯模块500的结构示意图包括编码极值计算单元510、比较选取单元520以及分配单元530;
编码极值计算单元510用于分别对当前用户时间编码数据和前一次用户时间编码数据进行处理,得到各个对应的编码极值;
比较选取单元520用于将各个对应的编码极值之间进行比较,选取最小或最大的编码极值对应的当前用户时间编码数据或前一次用户时间编码数据;
分配单元530用于再将当前用户时间编码数据或前一次用户时间编码数据分配为超级身份标识。
进一步的,获取添加模块100包括排列单元110;
排列单元110用于在每个用户数据中添加唯一编号信息之前,对每个用户数据进行随机排列,再对随机排列结果添加唯一编号信息。
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。

Claims (8)

1.一种基于多个数据源的自然人数据处理方法,其特征在于,包括以下步骤;
获取来自多个数据源的自然人数据表,所述自然人数据表中包括用户数据、列表表名信息以及列表列名信息;对各个所述用户数据添加唯一编号信息,得到用户编号数据;
根据当前时间信息对用户编号数据做时间识别处理,得到用户时间编码数据;同时,根据所述列表表名信息将所述用户时间编码数据存入到图的顶点集;
根据所述列表列名信息对数据源两两进行并行处理,得到自然人数据表内列表列名的相似度信息;根据预设阈值将所述相似度信息存入图的边集;
根据图中的所述相似度信息和预设阈值将数据源进行合并,并根据合并结果获取对应的当前用户时间编码数据和前一次用户时间编码数据;
根据编码极值选取所述当前用户时间编码数据和前一次用户时间编码数据分配为超级身份标识;并根据所述超级身份标识对自然人数据表进行回溯处理,得到多个数据源归类后的自然人信息表;
所述根据所述列表列名信息对数据源两两进行并行处理,得到自然人数据表内列表列名的相似度信息;根据预设阈值将所述相似度信息存入图的边集,包括以下步骤;
任意选取两个数据源的列表列名的公共列信息,并对所述公共列信息的相同列宽进行求同处理,得到共同列宽值;
并根据每个所述共同列宽值对数据源的自然人数据表中进行合并分组,得到自然人分组数据;
对每个同组的自然人分组数据之间的关联关系进行相似度处理,得到相似度信息;并将相似度信息与预设阈值的进行比较,根据比较结果将相似度信息存入图的边集。
2.如权利要求1所述的基于多个数据源的自然人数据处理方法,其特征在于,还包括以下步骤;
在根据所述列表列名信息对数据源两两进行并行处理之前,根据预设需求信息配置并行参数,根据所述并行参数和所述列表列名信息对数据源两两进行并行处理。
3.如权利要求1所述的基于多个数据源的自然人数据处理方法,其特征在于,所述根据编码极值选取所述当前用户时间编码数据和前一次用户时间编码数据分配为超级身份标识,包括以下步骤;
分别对所述当前用户时间编码数据和前一次用户时间编码数据进行处理,得到各个对应的编码极值;
将各个对应的编码极值之间进行比较,选取最小或最大的编码极值对应的当前用户时间编码数据或前一次用户时间编码数据;
再将所述当前用户时间编码数据或前一次用户时间编码数据分配为超级身份标识。
4.如权利要求1所述的基于多个数据源的自然人数据处理方法,其特征在于,还包括以下步骤;
在每个所述用户数据中添加唯一编号信息之前,对每个所述用户数据进行随机排列,再对随机排列结果添加唯一编号信息。
5.一种基于多个数据源的自然人数据处理系统,其特征在于,包括获取添加模块、时间处理模块、相似度处理模块、合并获取模块以及分配回溯模块;
所述获取添加模块,用于获取来自多个数据源的自然人数据表,所述自然人数据表中包括用户数据、列表表名信息以及列表列名信息;对各个所述用户数据添加唯一编号信息,得到用户编号数据;
所述时间处理模块,用于根据当前时间信息对用户编号数据做时间识别处理,得到用户时间编码数据;同时,根据所述列表表名信息将所述用户时间编码数据存入到图的顶点集;
所述相似度处理模块,用于根据所述列表列名信息对数据源两两进行并行处理,得到自然人数据表内列表列名的相似度信息;根据预设阈值将所述相似度信息存入图的边集;
所述合并获取模块,用于根据图中的所述相似度信息和预设阈值将数据源进行合并,并根据合并结果获取对应的当前用户时间编码数据和前一次用户时间编码数据;
所述分配回溯模块,用于根据编码极值选取所述当前用户时间编码数据和前一次用户时间编码数据分配为超级身份标识;并根据所述超级身份标识对自然人数据表进行回溯处理,得到多个数据源归类后的自然人信息表;
所述相似度处理模块包括选取单元、合并单元以及比较存储单元;
所述选取单元,用于任意选取两个数据源的列表列名的公共列信息,并对所述公共列信息的相同列宽进行求同处理,得到共同列宽值;
所述合并单元,用于并根据每个所述共同列宽值对数据源的自然人数据表中进行合并分组,得到自然人分组数据;
所述比较存储单元,用于对每个同组的自然人分组数据之间的关联关系进行相似度处理,得到相似度信息;并将相似度信息与预设阈值的进行比较,根据比较结果将相似度信息存入图的边集。
6.如权利要求5所述的基于多个数据源的自然人数据处理系统,其特征在于,还包括配置模块;
所述配置模块,用于在根据所述列表列名信息对数据源两两进行并行处理之前,根据预设需求信息配置并行参数,根据所述并行参数和所述列表列名信息对数据源两两进行并行处理。
7.如权利要求5所述的基于多个数据源的自然人数据处理系统,其特征在于,所述分配回溯模块包括编码极值计算单元、比较选取单元以及分配单元;
所述编码极值计算单元,用于分别对所述当前用户时间编码数据和前一次用户时间编码数据进行处理,得到各个对应的编码极值;
所述比较选取单元,用于将各个对应的编码极值之间进行比较,选取最小或最大的编码极值对应的当前用户时间编码数据或前一次用户时间编码数据;
所述分配单元,用于再将所述当前用户时间编码数据或前一次用户时间编码数据分配为超级身份标识。
8.如权利要求5所述的基于多个数据源的自然人数据处理系统,其特征在于,所述获取添加模块包括排列单元;
所述排列单元,用于在每个所述用户数据中添加唯一编号信息之前,对每个所述用户数据进行随机排列,再对随机排列结果添加唯一编号信息。
CN201711088455.3A 2017-11-08 2017-11-08 基于多个数据源的自然人数据处理方法和系统 Active CN107862047B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711088455.3A CN107862047B (zh) 2017-11-08 2017-11-08 基于多个数据源的自然人数据处理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711088455.3A CN107862047B (zh) 2017-11-08 2017-11-08 基于多个数据源的自然人数据处理方法和系统

Publications (2)

Publication Number Publication Date
CN107862047A CN107862047A (zh) 2018-03-30
CN107862047B true CN107862047B (zh) 2020-06-16

Family

ID=61699921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711088455.3A Active CN107862047B (zh) 2017-11-08 2017-11-08 基于多个数据源的自然人数据处理方法和系统

Country Status (1)

Country Link
CN (1) CN107862047B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110751568B (zh) * 2018-07-20 2024-04-30 武汉烽火众智智慧之星科技有限公司 一种人员关系亲密度分析方法及装置
CN110738558B (zh) * 2018-07-20 2024-03-05 京东科技控股股份有限公司 信息修复方法、装置、电子设备及计算机可读介质
CN110825717B (zh) * 2019-10-10 2022-05-20 厦门市美亚柏科信息股份有限公司 一种身份识别的数据归一方法、装置及介质
CN111460246B (zh) * 2019-12-19 2020-12-08 南京柏跃软件有限公司 基于数据挖掘和密度检测的实时活动异常人员发现方法
CN111625596B (zh) * 2020-05-14 2023-12-26 国网辽宁省电力有限公司 新能源实时消纳调度的多源数据同步共享方法及系统
CN112182240B (zh) * 2020-09-23 2024-04-02 成都数联铭品科技有限公司 同名自然人实体超级节点识别处理方法及系统、电子设备
CN113282677A (zh) * 2020-12-09 2021-08-20 苏州律点信息科技有限公司 一种基于大数据的智慧交通数据处理方法、装置及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102186173A (zh) * 2011-04-26 2011-09-14 广州市动景计算机科技有限公司 身份认证方法及系统
CN104270654A (zh) * 2014-10-23 2015-01-07 北京国双科技有限公司 互联网视频播放监测方法和装置
CN105426441A (zh) * 2015-11-05 2016-03-23 华中科技大学 一种时间序列自动预处理方法
CN106533899A (zh) * 2016-09-30 2017-03-22 宇龙计算机通信科技(深圳)有限公司 一种信息显示处理的方法、装置及系统
CN106959949A (zh) * 2016-01-08 2017-07-18 中国科学院声学研究所 一种用于推荐系统的数据结构化处理方法
CN107040603A (zh) * 2017-05-02 2017-08-11 华为机器有限公司 用于确定应用程序App活跃场景的方法和装置
CN107203849A (zh) * 2017-05-26 2017-09-26 山东省科学院情报研究所 基于大数据的区域人才供给量化分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016154603A1 (en) * 2015-03-25 2016-09-29 Pypestream Inc. Channel based communication and transaction system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102186173A (zh) * 2011-04-26 2011-09-14 广州市动景计算机科技有限公司 身份认证方法及系统
CN104270654A (zh) * 2014-10-23 2015-01-07 北京国双科技有限公司 互联网视频播放监测方法和装置
CN105426441A (zh) * 2015-11-05 2016-03-23 华中科技大学 一种时间序列自动预处理方法
CN106959949A (zh) * 2016-01-08 2017-07-18 中国科学院声学研究所 一种用于推荐系统的数据结构化处理方法
CN106533899A (zh) * 2016-09-30 2017-03-22 宇龙计算机通信科技(深圳)有限公司 一种信息显示处理的方法、装置及系统
CN107040603A (zh) * 2017-05-02 2017-08-11 华为机器有限公司 用于确定应用程序App活跃场景的方法和装置
CN107203849A (zh) * 2017-05-26 2017-09-26 山东省科学院情报研究所 基于大数据的区域人才供给量化分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种社会网络用户身份特征识别方法;胡开先 等;《计算机研究与发展》;20161115;第53卷(第11期);2630-2644 *

Also Published As

Publication number Publication date
CN107862047A (zh) 2018-03-30

Similar Documents

Publication Publication Date Title
CN107862047B (zh) 基于多个数据源的自然人数据处理方法和系统
CN107609186B (zh) 信息处理方法及装置、终端设备及计算机可读存储介质
US8611617B1 (en) Similar image selection
CN110413611B (zh) 数据存储、查询方法及装置
US10083195B2 (en) System and method for composing a multidimensional index key in data blocks
US9934324B2 (en) Index structure to accelerate graph traversal
EP3767483A1 (en) Method, device, system, and server for image retrieval, and storage medium
CN108108436B (zh) 数据存储方法、装置、存储介质及电子设备
CN108920611B (zh) 文章生成方法、装置、设备及存储介质
KR20090075885A (ko) 개별적으로 액세스 가능한 데이터 유닛의 기억 관리 방법 및 시스템
CN109857803B (zh) 数据同步方法、装置、设备、系统及计算机可读存储介质
CN109145003B (zh) 一种构建知识图谱的方法及装置
WO2013143278A1 (zh) 数据的索引查询方法、装置及系统
CN106649360B (zh) 数据重复性校验方法及装置
US20190258619A1 (en) Data compression method, data compression device, computer program, and database system
CN106777258B (zh) 一种医疗大数据存储中Hbase行键的编码及压缩方法
CN103761298B (zh) 一种基于分布式架构的实体匹配方法
CN112068812B (zh) 一种微服务生成方法、装置、计算机设备和存储介质
CN109597804A (zh) 基于大数据的客户合并方法及装置、电子设备及存储介质
CN111190937B (zh) 籍贯信息的查询方法、装置、电子设备及存储介质
CN108647243B (zh) 基于时间序列的工业大数据存储方法
CN110147396B (zh) 一种映射关系生成方法及装置
CN114707174A (zh) 一种数据处理方法、装置、电子设备和存储介质
CN113407702B (zh) 员工合作关系强度量化方法、系统、计算机和存储介质
CN107291712B (zh) 数据的生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 310000 room 504, building 3, No. 96, Huaxing Road, Xihu District, Hangzhou, Zhejiang Province

Patentee after: Aicai Technology Group Co.,Ltd.

Address before: 310000 room 504, building 3, No. 96, Huaxing Road, Xihu District, Hangzhou, Zhejiang Province

Patentee before: AICAI TECHNOLOGY CO.,LTD.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220722

Address after: 310000 room 121, building 6, No. 513, Tianmushan Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Patentee after: Digital key network technology (Hangzhou) Co.,Ltd.

Address before: 310000 room 504, building 3, No. 96, Huaxing Road, Xihu District, Hangzhou, Zhejiang Province

Patentee before: Aicai Technology Group Co.,Ltd.