CN112231283A - 基于多源异构数据统一实体标识码的生成管理方法及系统 - Google Patents

基于多源异构数据统一实体标识码的生成管理方法及系统 Download PDF

Info

Publication number
CN112231283A
CN112231283A CN202010932676.XA CN202010932676A CN112231283A CN 112231283 A CN112231283 A CN 112231283A CN 202010932676 A CN202010932676 A CN 202010932676A CN 112231283 A CN112231283 A CN 112231283A
Authority
CN
China
Prior art keywords
entity
key
source data
entity identification
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010932676.XA
Other languages
English (en)
Other versions
CN112231283B (zh
Inventor
刘培彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suning Financial Technology Nanjing Co Ltd
Original Assignee
Suning Financial Technology Nanjing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Financial Technology Nanjing Co Ltd filed Critical Suning Financial Technology Nanjing Co Ltd
Priority to CN202010932676.XA priority Critical patent/CN112231283B/zh
Publication of CN112231283A publication Critical patent/CN112231283A/zh
Application granted granted Critical
Publication of CN112231283B publication Critical patent/CN112231283B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/176Support for shared access to files; File sharing support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2291User-Defined Types; Storage management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/256Integrating or interfacing systems involving database management systems in federated or virtual databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开一种基于多源异构数据统一实体标识码的生成管理方法及系统,涉及大数据技术领域。该方法包括获取源数据进行授权验证,源数据包括异构数据类型、关键识别特征字段和接口授权码;在源数据授权验证通过后,基于关键识别特征字段从多条实体记录中搜索实体标识码,若搜索成功则返回相应的实体标识码,若搜索失败则根据异构数据类型和关键识别特征字段生成新的实体标识码并返回;实体记录包括实体标识码以及与实体标识码对应的至少一个关键识别特征字段。该系统应用有上述方案所提的方法。

Description

基于多源异构数据统一实体标识码的生成管理方法及系统
技术领域
本发明涉及大数据技术领域,尤其涉及一种基于多源异构数据统一实体标识码的生成管理方法及系统。
背景技术
随着社会发展,大数据与人工智能等技术的应用普及,越来越多的数据被收集和分析,海量的多源异构数据急剧增加。大数据的特征就是数据类型繁多、数据价值密度低、数据增长速度快,准确性和可信度低等特点。为了处理大规模数据,信息系统通常采用分布式的体系结构,导致数据具有多源、异构的特点,即数据通常分布在多个数据源中,数据源之间的种类、结构、实现、版本、部署环境等各不相同,导致数据处理难度大,多源异构的数据需要经过关联,实现数据的共享访问才能产生更大价值。
在多源异构数据的处理过程中,通常有一个主数据保存有主要的实体关键识别特征,可以用来区分不同数据来源中的不同实体,在数据库概念中可以将这个关键识别特征理解为数据库主键,这些关键识别特征能够针对不同数据类型用一个或者多个识别特征字段做实体标识码。考虑到不同数据源的识别特征字段可能不尽相同,一个识别特征字段在一个数据源中存在,但在另外一个数据源中有可能是没有值的。
现有技术中,对多源异构数据生成实体标识码的方法包括:
1、在数据库端生成唯一编码或者直接使用关键识别特征字段作为实体标识码。在数据库端生成唯一编码,常用的方法是通过GUID生成唯一字符串,或者是通过数据库内置的自增函数,直接在数据库端生成ID作为实体标识码。
2、通过数据库中搜索匹配的关键识别特征字段,判断实体是新增还是变更。如果在数据库中找到对应记录则判断当前实体已经存在可以变更,如果在数据库中没有找到对应记录则判断当前实体可以新增,系统通过上述步骤生成新的ID并创建一条实体标识码。
现有技术方案中,采用GUID或者自增函数表示的实体标识码,当数据暴露在外部页面时,很容易被有经验的系统分析人员分析出数据规律,并通过同样接口模拟调用而得到其它实体数据,对数据的防护能力不强。而使用关键识别特征字段作为实体标识码对数据的质量要求高,数据在输入时需要对数据的正确性、唯一性进行验证,通过验证后才能保存进数据库中,这种方法在大数据处理中很难被采用。
发明内容
本发明的目的在于提供一种基于多源异构数据统一实体标识码的生成管理方法及系统,通过对实体标识码进行统一的管理和分配,能够实现对多源异构源数据的互联互通和高效利用。
为了实现上述目的,本发明的第一方面提供一种基于多源异构数据统一实体标识码的生成管理系统,包括调用端、管理中心模块、搜索引擎模块和ID生成模块;
所述调用端用于获取源数据并上传至所述管理中心模块进行授权验证,所述源数据包括异构数据类型、关键识别特征字段和调用端的接口授权码;
所述搜索引擎模块用于在所述源数据的授权验证通过后,基于所述关键识别特征字段从多条实体记录中搜索实体标识码,若搜索成功则返回相应的实体标识码,若搜索失败则调用所述ID生成模块根据所述异构数据类型和所述关键识别特征字段生成新的实体标识码并返回;
所述实体记录包括实体标识码以及与所述实体标识码对应的至少一个所述关键识别特征字段。
优选地,还包括存储有与不同异构数据类型对应加密配置文件的配置中心模块;
所述配置中心模块用于根据所述源数据的异构数据类型,向所述ID生成模块提供与所述异构数据类型相匹配的加密配置文件,以使所述ID生成模块利用加密配置文件对所述源数据中的关键识别特征字段加密生成新的实体标识码。
较佳地,所述管理中心模块对所述调用端上传的源数据授权验证的方法包括:
所述接口授权码由所述调用端的唯一身份标识、所述源数据的调用时间戳以及所述调用端的签名共同组合而成,所述签名由所述调用端的唯一身份标识、所述源数据的关键识别特征字段、以及由所述管理中心模块定期更新下发的秘钥共同组合而成;
所述管理中心模块使用与所述秘钥匹配的密匙对所述接口授权码进行解码,若解码通过表示所述源数据授权验证通过,否则表示所述源数据授权验证失败。
优选地,还包括存储多条实体记录的主数据库;
所述主数据库用于保存通过所述管理中心模块上报新生成的实体标识码及对应的关键识别特征字段。
较佳地,所述搜索引擎模块包括索引查询单元和相互备份的两个存储单元,所述存储单元中划分有多个分片,每个所述分片存储有多个实体记录;
所述索引查询单元用于根据所述源数据中的关键识别特征字段从分片中的实体记录中搜索与之匹配的关键识别特征字段,若搜索成功则将对应的实体标识码返回至所述调用端,若搜索失败则调用所述ID生成模块生成新的实体标识码返回至所述调用端。
进一步地,所述搜索引擎模块中设置有用于监控主数据库中发生增量或者变更实体记录的监控工具,用于将主数据库中发生增量或者变更的实体记录同步至搜索引擎模块中。
优选地,当所述源数据中的关键识别特征字段存在多个时,基于预设的优先级规则识别每个关键识别特征字段的优先级并排序,通过依次调用优先级高的关键识别特征字段在所述搜索引擎模块搜索匹配的实体标识码,直至搜索成功为止返回相应的实体标识码。
与现有技术相比,本发明提供的基于多源异构数据统一实体标识码的生成管理系统具有以下有益效果:
本发明提供的基于多源异构数据统一实体标识码的生成管理系统中,包括调用端、管理中心模块、搜索引擎模块和ID生成模块,其中,通过调用端将源数据上传管理中心模块进行实体标识码查询前的授权验证,且源数据包括异构数据类型、关键识别特征字段和调用端的接口授权码,管理中心模块对源数据验证通过后,搜索引擎模块利用关键识别特征字段从存储的多条实体记录中搜索实体标识码,若搜索成功则向调用端返回相应的实体标识码,若搜索失败则调用ID生成模块根据异构数据类型和关键识别特征字段生成新的实体标识码返回给调用端。
可见,本发明根据多源异构数据的特性,通过对实体标识码进行统一的生成和管理,使得每条源数据都能获取到统一且唯一的实体标识码,打通了数据层面的数据壁垒,让各个源数据互联互通,激发数据产生更大的价值。
本发明的第二方面提供一种基于多源异构数据统一实体标识码的生成管理方法,包括:
获取源数据进行授权验证,所述源数据包括异构数据类型、关键识别特征字段和接口授权码;
在所述源数据授权验证通过后,基于所述关键识别特征字段从多条实体记录中搜索实体标识码,若搜索成功则返回相应的实体标识码,若搜索失败则根据所述异构数据类型和所述关键识别特征字段生成新的实体标识码并返回;
所述实体记录包括实体标识码以及与所述实体标识码对应的至少一个所述关键识别特征字段。
优选地,对所述源数据授权验证的方法包括:
所述接口授权码由调用端的唯一身份标识、所述源数据的调用时间戳以及所述调用端的签名组合而成,所述签名由所述调用端的唯一身份标识、所述源数据的关键识别特征字段以及定期更新的秘钥组合而成;
利用与所述秘钥匹配的密匙对所述接口授权码进行解码,若解码通过表示所述源数据授权验证通过,否则表示所述源数据授权验证失败。
与现有技术相比,本发明提供的基于多源异构数据统一实体标识码的生成管理方法的有益效果与上述技术方案提供的基于多源异构数据统一实体标识码的生成管理系统的有益效果相同,在此不做赘述。
本发明的第三方面提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述基于多源异构数据统一实体标识码的生成管理方法的步骤。
与现有技术相比,本发明提供的计算机可读存储介质的有益效果与上述技术方案提供的基于多源异构数据统一实体标识码的生成管理方法的有益效果相同,在此不做赘述。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例中基于多源异构数据统一实体标识码的生成管理系统的结构示意图;
图2为本发明实施例中搜索引擎模块的结构示意图;
图3为本发明实施例中多源异构数据统一实体标识码的生成管理系统的交互时序图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,均属于本发明保护的范围。
实施例一
请参阅图1,本实施例提供一种基于多源异构数据统一实体标识码的生成管理系统,包括:
调用端、管理中心模块、搜索引擎模块和ID生成模块;调用端用于获取源数据并上传至管理中心模块进行授权验证,源数据包括异构数据类型、关键识别特征字段和调用端的接口授权码;搜索引擎模块用于在源数据的授权验证通过后,基于关键识别特征字段从多条实体记录中搜索实体标识码,若搜索成功则返回相应的实体标识码至调用端,若搜索失败则调用ID生成模块根据异构数据类型和关键识别特征字段生成新的实体标识码并返回至调用端;实体记录包括实体标识码以及与实体标识码对应的至少一个关键识别特征字段。
本实施例提供的基于多源异构数据统一实体标识码的生成管理系统中,过调用端将源数据上传管理中心模块进行实体标识码查询前的授权验证,且源数据包括异构数据类型、关键识别特征字段和调用端的接口授权码,管理中心模块对源数据验证通过后,搜索引擎模块利用关键识别特征字段从存储的多条实体记录中搜索实体标识码,若搜索成功则向调用端返回相应的实体标识码,若搜索失败则调用ID生成模块根据异构数据类型和关键识别特征字段生成新的实体标识码返回给调用端。
可见,本实施例根据多源异构数据的特性,通过对实体标识码进行统一的生成和管理,使得每条源数据都能获取到统一且唯一的实体标识码,打通了数据层面的数据壁垒,让各个源数据互联互通,激发数据产生更大的价值。
具体实施时,本实施例提供的系统采用微服务架构,调用端支持跨平台访问,如支持PC端、移动端的直接调用,也支持内部清洗程序的直接调用。调用端根据管理中心模块对外提供标准API接口,将源数据等参数传入管理中心模块进行授权验证,其中,源数据不仅包括异构数据类型、关键识别特征字段、接口授权码等参数,还可以包括是否查询搜索引擎模块、是否更新搜索引擎模块等参数。
异构数据类型参数,用来区分调用端查询哪一类的异构数据,如使用E表示查询企业类异构数据,使用P表示查询人员类异构数据。
关键识别特征字段参数,是指能够表示企业实体或个人实体的字段,如在企业源数据中,其关键识别特征字段包括企业名称、公司曾用名、统一社会信用代码、企业注册号、组织机构代码等,源数据中关键识别特征字段越多,搜索引擎模块匹配到实体标识码的机率也就越高。
是否查询搜索引擎模块参数,其属于布尔类型变量,1表示需要利用源数据中的关键识别特征字段查询搜索引擎,0表示不需要利用源数据中的关键识别特征字段查询搜索引擎,在不需要的情况下可直接调用ID生成模块利用关键识别特征字段及加密配置文件生成一新的实体标识码。
是否更新搜索引擎模块参数,其属于布尔类型变量,1表示允许更新搜索引擎模块,0表示不允许更新搜索引擎模块。为了保持主数据库中实体记录数据的准确性和一致性,仅在允许内部清洗时设置是否更新搜索引擎模块的参数为1,其它情况默认设置为0。当参数为1时,管理中心模块将获取到的实体标识码连同从调用端接收到的关键识别特征字段更新进主数据库中,如果当前获取到的实体标识码在搜索引擎模块中已经存在,则将源数据中的关键识别特征字段更新入主数据库中对应实体标识码的实体记录中,也即在相应的实体记录中更新相应的关键识别特征字段,如新增或变更关键识别特征字段,如果当前获取到的实体标识码是ID生成模块新产生的,还需要利用管理中心模块在主数据库中新插入该条实体记录。
接口授权码参数,由调用端唯一身份标识、时间戳和签名Sign组成,签名Sign是由调用端唯一身份标识(AppKey)、关键识别特征字段、时间戳和秘钥(ScrectKey)接结后加密得到,其中,秘钥由管理中心模块管理并分发给调用端使用,该秘钥可定期更新,以防止调用端长期使用存在泄露风险事件的发生。当然,为了进一步提升安全性,秘钥可设置过期时间阈值,也即秘钥仅在一定时间内有效,过期后管理中心模块将不对其进行授权验证。
上述实施例中,还包括存储有与不同异构数据类型对应加密配置文件的配置中心模块;
配置中心模块用于根据源数据的异构数据类型,向ID生成模块提供与异构数据类型相匹配的加密配置文件,以使ID生成模块利用加密配置文件对源数据中的关键识别特征字段加密生成新的实体标识码。
上述实施例中,管理中心模块对调用端上传的源数据进行授权验证的方法包括:
接口授权码由调用端的唯一身份标识、源数据的调用时间戳以及调用端的签名共同组合而成,签名由调用端的唯一身份标识、源数据的关键识别特征字段、以及由管理中心模块定期更新下发的秘钥共同组合而成;管理中心模块使用与秘钥匹配的密匙对接口授权码进行解码,若解码通过表示源数据授权验证通过,否则表示源数据授权验证失败。
上述实施例中,还包括存储有多条实体记录的主数据库;
主数据库用于保存通过管理中心模块上报的新生成的实体标识码及对应的关键识别特征字段。
主数据库中保存有多条实体记录,其中的每个关键识别特征字段均标记有更新时的时间字段(updatedTime),当主数据库中的任一条实体记录的关键识别特征字段发生更新时,需同步更新时间字段,以便搜索引擎模块能够识别出更新时间。
上述实施例中,搜索引擎模块包括索引查询单元和相互备份的两个存储单元,存储单元中划分有多个分片,每个分片存储有多个实体记录;索引查询单元用于根据源数据中的关键识别特征字段从分片中的实体记录中搜索与之匹配的关键识别特征字段,若搜索成功则将对应的实体标识码返回至调用端,若搜索失败则调用ID生成模块生成新的实体标识码返回至调用端。
如图2所示,搜索引擎模块主要以ElasticSearch为核心载体,ElasticSearch是一个分布式、高扩展、高实时的搜索与数据分析引擎,它能很方便的使大量数据具有搜索、分析和探索的能力。Elasticsearch对外提供的是索引(index)概念,可以类比为MySQL库,查询是在索引查询单元上完成的,每个存储单元由若干个分片组成,查询时通过索引查询单元输入的关键识别特征字段,从存储有实体记录的分片查找对应的实体标识码。另外,本实施例采用相互备份的两个存储单元的设计方案,能够在其中一台存储单元故障时迅速切换至另一台存储单元继续完成搜索功能。
示例性地,Elasticsearch是面向文档型数据库,一条实体记录在这里就是一个文档,用JSON作为文档序列化的格式,比如企业的实体记录在搜索引擎中存储格式为:
“id”:“0ef527f7a12c405dad1a755ef55abe8d”;
“companyName”:“小米科技有限责任公司”;
“oldName”:“北京小米科技有限责任公司”;
“creditCode”:“91110108551385082Q”;
“registerNo”:“110108012660422”;
“organizationNo”:“551385082”。
其中,“id”表示实体标识码,“companyName”表示企业名称,“oldName”表示公司曾用名,“creditCode”表示统一社会信用代码,“registerNo”表示企业注册号,“organizationNo”表示组织机构代码。
相比现有技术,本实施例通过搜索引擎模块执行对关键识别特征字段的搜索任务,能够显著提升搜索速度。以6500万条实体记录为例,直接在搜索引擎模块中产生新的实体标识码的用时不到1ms,通过搜索引擎模块匹配单条实体标识码的用时平均为50ms,而使用传统MySQL数据库的匹配平均用时平均为1200ms。可见,通过搜索引擎模块的应用能够显著提升数据的处理效率。
具体实施时,如果搜索引擎模块不能根据关键识别特征字段匹配到对应的实体标识码,则调用ID生成模块根据与源数据对应异构数据类型的加密配置文件,对关键识别特征字段加密生成新的实体标识码。其中,加密配置文件中包括实体标识码生成规则,该实体标识码生成规则为:通过关键识别特征字段以及对应异构数据类型的混淆key经一定Hash加密产生新的实体标识码。
本实施例中的实体标识码生成方法为多重混合哈希(Hash)生成法,通过对关键识别特征字段与混淆Key进行混合加密,得到一个统一固定长度的实体标识码。其中混淆Key可以设置成很复杂的随机字符串,避免外部人员通过关键特征字段的组合尝试破解生成规则。常用的Hash算法有MD5、SHA-1、RIPEMD以和Haval等。示例性地,实体标识码生成规则为:
R=MD5(MD5(关键特征字段1+关键特征字段2)+SHA1(Key));
上述生成规则中,关键特征字段1和关键特征字段2为源数据中优先级最高的两个关键特征字段,通过将关键特征字段1和关键特征字段2拼接后使用MD5算法加密,然后与混淆Key加密的随机字符串拼接,最终对拼接后的字符串使用MD5算法二次加密,得到字符串R,然后截取固定长度的字符串R得到实体标识码。
上述实施例中,搜索引擎模块中设置有用于监控主数据库中发生增量或者变更实体记录的监控工具,用于将主数据库中发生增量或者变更的实体记录同步至搜索引擎模块中。
具体实施时,为了确保搜索引擎模块与主数据库中数据的一致性,搜索引擎模块利用监控工具监控主数据库中更新的实体记录及更新时间,并将变量数据同步进搜索引擎模块。可选地,监控工具为logstash-input-jdbc,使用的关键SQL语句为wheret.updatedTime>:sql_last_value。
上述实施例中,当源数据中的关键识别特征字段存在多个时,基于预设的优先级规则识别每个关键识别特征字段的优先级并排序,依次调用优先级高的关键识别特征字段在搜索引擎模块搜索匹配的实体标识码,直至搜索成功为止返回相应的实体标识码。
具体实施时,搜索引擎模块在接收到管理中心模块传过来的包括至少一个关键识别特征字段的源数据后,通过基于预设的优先级规则识别每个关键识别特征字段的优先级并排序,例如源数据包括统一社会信用代码、企业名称和公司曾用名三个关键识别特征字段,然后基于预设的优先级规则认定的优先级从高往低依次为统一社会信用代码、企业名称和公司曾用名,接下来,搜索引擎模块首先调用最高优先级的关键识别特征字段,也即统一社会信用代码进行搜索匹配,若匹配成功则返回相应的实体标识码并结束此次搜索,若匹配失败则调用第二优先级的关键识别特征字段,也即企业名称进行搜索匹配,以此类推直至最低优先级的关键识别特征字段搜索完毕后仍未匹配到对应的实体标识码,则通过ID生成模块新生成一条实体记录,并返回其中的实体标识码。
可以理解的是,优先级规则是人为设定得到的,例如优先级规则可以设置为统一社会信用代码的优先级高于企业注册号的优先级,企业注册号的优先级高于组织机构代码的优先级,组织机构代码的优先级高于企业名称的优先级,企业名称的优先级高于公司曾用名的优先级。当然,本领域技术人员在实际实施时可基于需要设置其他的优先级规则,本实施例对此不做限制。
请参阅图3,以处理企业多维度数据融合为例进行说明,通过使用本实施例的系统可以对企业构建统一的实体标识码,通过该实体标识码可以将不同企业相关数据进行关联融合。具体实施步骤如下:
步骤1:调用端将源数据的异构数据类型、关键识别特征字段、是否查询搜索引擎模块、是否更新搜索引擎模块和接口授权码等参数传入管理中心模块,请求获取当前源数据的实体标识码;
步骤2:管理中心模块对调用端的接口授权码进行验证,查看时间戳是否在允许的阈值范围内;
步骤2-1:授权验证通过,进入步骤3;
步骤2-2:授权验证失败,直接返回“调用拒绝”等错误信息给调用端;
步骤3:根据“是否查询搜索引擎”参数为0或者1,进入下一步;
步骤3-1:“是否查询搜索引擎”参数为0,直接将异构数据类型、关键识别特征字段传入ID生成模块,进入步骤5;
步骤3-2:“是否查询搜索引擎”参数为1,将关键识别特征字段传入搜索引擎模块进行搜索匹配,进入步骤4;
步骤4:搜索引擎模块根据传入的参数,通过关键特征字段优先级依次匹配;
步骤4-1:如果搜索引擎模块匹配到对应的实体标识码,系统将获取到的实体标识码返回给调用端;
步骤4-2:如果搜索引擎模块根据关键识别特征字段匹配不到实体标识码,系统将调用ID生成模块;
步骤5:ID生成模块将异构数据类型和关键识别特征字段,传递进配置中心模板获取加密配置文件;
步骤6:配置中心模块根据异构数据类型,返回所对应的加密规则和混淆Key;
步骤7:将关键识别特征字段,如企业名称、企业信用代码字段,连同混淆Key利用加密配置文件计算加密,截取一个固定长度的字符串作为实体标识码;
步骤8:将ID生成模块生成的实体标识码,返回到管理中心模块;
步骤9:当“是否需要更新搜索引擎模块”参数为0时,不需要做任何操作。当“是否需要更新搜索引擎模块”参数为1时,如实体标识码由步骤4-1在搜索引擎模块中直接匹配返回,则系统将关键识别特征字段更新入主数据库中,如果实体标识码由步骤8新生成,则系统将新生成的实体标识码对应的关键识别特征新增入主数据库中;
步骤10:搜索引擎模块通过logstash-input-jdbc监控插件监控主数据库中的时间字段,并将增量数据自动同步进搜索引擎模块;
步骤11:管理中心模块将实体标识码返回给调用端。
综上,本实施的有益效果如下:
1、本实施例能够根据多源异构数据的特性,通过加密配置文件即多重混合HASH算法生成统一的实体标识码,在数据层面打通信息壁垒,让各个数据互联互通,这样能够使数据产生更大价值。同时基于上述算法,使得实体标识码对于了解加密配置文件的开发者来说具有一定的含义,但对外展现无规律的特征,保证了数据的安全性。
2、本系统具有处理大规模异构数据源的能力,同时可以对接多个异构数据源。基于搜索引擎模块的实体标识码匹配方法,提升了数据处理计算效率。另外,当前系统框架支持水平扩展,在处理上千万、亿级的多源数据清洗时,可以满足性能要求。在对新的源数据进行初始关联清洗时,将“是否查询搜索引擎”,“是否需要更新搜索引擎模块”参数设置成0,系统将在搜索引擎模块中快速生成新的实体标识码,并直接将实体标识码跟新的数据源关联起来,大大加快了数据的清洗效率。
实施例二
本实施例提供一种基于多源异构数据统一实体标识码的生成管理方法,包括:
通过调用端获取源数据并上传至管理中心模块进行授权验证,所述源数据包括异构数据类型、关键识别特征字段和调用端的接口授权码;
利用搜索引擎模块对所述源数据授权验证通过后,基于所述关键识别特征字段从多条实体记录中搜索实体标识码,若搜索成功则返回相应的实体标识码,若搜索失败则调用所述ID生成模块根据所述异构数据类型和所述关键识别特征字段生成新的实体标识码并返回;
所述实体记录包括实体标识码以及与所述实体标识码对应的至少一个所述关键识别特征字段。
优选地,所述管理中心模块对所述调用端上传的源数据授权验证的方法包括:
所述接口授权码由所述调用端的唯一身份标识、所述源数据的调用时间戳以及所述调用端的签名组合而成,所述签名由所述调用端的唯一身份标识、所述源数据的关键识别特征字段以及由所述管理中心模块定期更新的秘钥组合而成;
所述管理中心模块使用与所述秘钥匹配的密匙对所述接口授权码进行解码,若解码通过表示所述源数据授权验证通过,否则表示所述源数据授权验证失败。
与现有技术相比,本发明实施例提供的基于多源异构数据统一实体标识码的生成管理方法的有益效果与上述实施例一提供的基于多源异构数据统一实体标识码的生成管理系统的有益效果相同,在此不做赘述。
实施例三
本实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述基于多源异构数据统一实体标识码的生成管理方法的步骤。
与现有技术相比,本实施例提供的计算机可读存储介质的有益效果与上述技术方案提供的基于多源异构数据统一实体标识码的生成管理方法的有益效果相同,在此不做赘述。
本领域普通技术人员可以理解,实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,上述程序可以存储于计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种基于多源异构数据统一实体标识码的生成管理方法,其特征在于,包括:
获取源数据进行授权验证,所述源数据包括异构数据类型、关键识别特征字段和接口授权码;
在所述源数据授权验证通过后,基于所述关键识别特征字段从多条实体记录中搜索实体标识码,若搜索成功则返回相应的实体标识码,若搜索失败则根据所述异构数据类型和所述关键识别特征字段生成新的实体标识码并返回;
所述实体记录包括实体标识码以及与所述实体标识码对应的至少一个所述关键识别特征字段。
2.根据权利要求1所述的方法,其特征在于,对所述源数据授权验证的方法包括:
所述接口授权码由调用端的唯一身份标识、所述源数据的调用时间戳以及所述调用端的签名组合而成,所述签名由所述调用端的唯一身份标识、所述源数据的关键识别特征字段以及定期更新的秘钥组合而成;
利用与所述秘钥匹配的密匙对所述接口授权码进行解码,若解码通过表示所述源数据授权验证通过,否则表示所述源数据授权验证失败。
3.一种基于多源异构数据统一实体标识码的生成管理系统,其特征在于,包括调用端、管理中心模块、搜索引擎模块和ID生成模块;
所述调用端用于获取源数据并上传至所述管理中心模块进行授权验证,所述源数据包括异构数据类型、关键识别特征字段和调用端的接口授权码;
所述搜索引擎模块用于在所述源数据的授权验证通过后,基于所述关键识别特征字段从多条实体记录中搜索实体标识码,若搜索成功则返回相应的实体标识码至所述调用端,若搜索失败则调用所述ID生成模块根据所述异构数据类型和所述关键识别特征字段生成新的实体标识码并返回至所述调用端;
所述实体记录包括实体标识码以及与所述实体标识码对应的至少一个所述关键识别特征字段。
4.根据权利要求3所述的系统,其特征在于,还包括配置中心模块;
所述配置中心模块用于根据所述源数据的异构数据类型,向所述ID生成模块提供与所述异构数据类型相匹配的加密配置文件,以使所述ID生成模块利用加密配置文件对所述源数据中的关键识别特征字段加密生成新的实体标识码。
5.根据权利要求3或4所述的系统,其特征在于,所述管理中心模块对所述调用端上传的源数据授权验证的方法包括:
所述接口授权码由所述调用端的唯一身份标识、所述源数据的调用时间戳以及所述调用端的签名共同组合而成,所述签名由所述调用端的唯一身份标识、所述源数据的关键识别特征字段、以及由所述管理中心模块定期更新下发的秘钥共同组合而成;
所述管理中心模块使用与所述秘钥匹配的密匙对所述接口授权码进行解码,若解码通过表示所述源数据授权验证通过,否则表示所述源数据授权验证失败。
6.根据权利要求3所述的系统,其特征在于,还包括存储多条实体记录的主数据库;
所述主数据库用于保存通过所述管理中心模块上报的新生成的实体标识码及对应的关键识别特征字段。
7.根据权利要求6所述的系统,其特征在于,所述搜索引擎模块包括索引查询单元和相互备份的两个存储单元,所述存储单元中划分有多个分片,每个所述分片存储有多个实体记录;
所述索引查询单元用于根据所述源数据中的关键识别特征字段从分片中的实体记录中搜索与之匹配的关键识别特征字段,若搜索成功则将对应的实体标识码返回至所述调用端,若搜索失败则调用所述ID生成模块生成新的实体标识码返回至所述调用端。
8.根据权利要求7所述的系统,其特征在于,所述搜索引擎模块中设置有用于监控主数据库中发生增量或者变更实体记录的监控工具,用于将主数据库中发生增量或者变更的实体记录同步至搜索引擎模块中。
9.根据权利要求3-8任一项所述的系统,其特征在于,当所述源数据中的关键识别特征字段存在多个时,基于预设的优先级规则识别每个关键识别特征字段的优先级并排序,依次调用优先级高的关键识别特征字段在所述搜索引擎模块搜索匹配的实体标识码,直至搜索成功为止返回相应的实体标识码。
10.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,计算机程序被处理器运行时执行上述权利要求1或2所述方法的步骤。
CN202010932676.XA 2020-09-08 2020-09-08 基于多源异构数据统一实体标识码的生成管理方法及系统 Active CN112231283B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010932676.XA CN112231283B (zh) 2020-09-08 2020-09-08 基于多源异构数据统一实体标识码的生成管理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010932676.XA CN112231283B (zh) 2020-09-08 2020-09-08 基于多源异构数据统一实体标识码的生成管理方法及系统

Publications (2)

Publication Number Publication Date
CN112231283A true CN112231283A (zh) 2021-01-15
CN112231283B CN112231283B (zh) 2022-07-29

Family

ID=74116710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010932676.XA Active CN112231283B (zh) 2020-09-08 2020-09-08 基于多源异构数据统一实体标识码的生成管理方法及系统

Country Status (1)

Country Link
CN (1) CN112231283B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113573306A (zh) * 2021-04-29 2021-10-29 中国南方电网有限责任公司 一种融合5g的异构组网网关加密方法及系统
CN114398379A (zh) * 2021-11-29 2022-04-26 平安科技(深圳)有限公司 一种数据更新方法、装置、设备及介质
CN114826601A (zh) * 2022-03-22 2022-07-29 南京宁东远信息科技有限公司 混合识别码及其生成方法、编译方法和系统
CN114969041A (zh) * 2022-05-27 2022-08-30 河北省科学技术情报研究院(河北省科技创新战略研究院) 一种多源主附实体同一性甄别及数据自补的处理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846020A (zh) * 2018-05-22 2018-11-20 北京易知创新数据科技有限公司 基于多源异构数据进行知识图谱自动化构建方法、系统
CN110502654A (zh) * 2019-08-26 2019-11-26 长光卫星技术有限公司 一种适用于多源异构遥感数据的目标库生成系统
CN110716952A (zh) * 2019-09-24 2020-01-21 中国电子科技集团公司电子科学研究院 一种多源异构数据处理方法、装置和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846020A (zh) * 2018-05-22 2018-11-20 北京易知创新数据科技有限公司 基于多源异构数据进行知识图谱自动化构建方法、系统
CN110502654A (zh) * 2019-08-26 2019-11-26 长光卫星技术有限公司 一种适用于多源异构遥感数据的目标库生成系统
CN110716952A (zh) * 2019-09-24 2020-01-21 中国电子科技集团公司电子科学研究院 一种多源异构数据处理方法、装置和存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113573306A (zh) * 2021-04-29 2021-10-29 中国南方电网有限责任公司 一种融合5g的异构组网网关加密方法及系统
CN114398379A (zh) * 2021-11-29 2022-04-26 平安科技(深圳)有限公司 一种数据更新方法、装置、设备及介质
CN114398379B (zh) * 2021-11-29 2024-03-01 平安科技(深圳)有限公司 一种数据更新方法、装置、设备及介质
CN114826601A (zh) * 2022-03-22 2022-07-29 南京宁东远信息科技有限公司 混合识别码及其生成方法、编译方法和系统
CN114826601B (zh) * 2022-03-22 2024-04-02 南京宁东远信息科技有限公司 混合识别码及其生成方法、编译方法和系统
CN114969041A (zh) * 2022-05-27 2022-08-30 河北省科学技术情报研究院(河北省科技创新战略研究院) 一种多源主附实体同一性甄别及数据自补的处理方法
CN114969041B (zh) * 2022-05-27 2023-06-30 河北省科学技术情报研究院(河北省科技创新战略研究院) 一种多源主附实体同一性甄别及数据自补的处理方法

Also Published As

Publication number Publication date
CN112231283B (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN112231283B (zh) 基于多源异构数据统一实体标识码的生成管理方法及系统
Xu et al. vChain: Enabling verifiable boolean range queries over blockchain databases
Zhu et al. Enabling generic, verifiable, and secure data search in cloud services
Anagnostopoulos et al. Persistent authenticated dictionaries and their applications
Yiu et al. Enabling search services on outsourced private spatial data
US8533489B2 (en) Searchable symmetric encryption with dynamic updating
CN112800088A (zh) 基于双向安全索引的数据库密文检索系统及方法
US20120209822A1 (en) System and methods for ensuring integrity, authenticity, indemnity, and assured provenance for untrusted, outsourced, or cloud databases
Zhu et al. A novel verifiable and dynamic fuzzy keyword search scheme over encrypted data in cloud computing
US11256662B2 (en) Distributed ledger system
CN114424182A (zh) 区块链数据库管理系统
Arshad et al. Efficient and scalable integrity verification of data and query results for graph databases
CN112511599B (zh) 一种基于区块链的人防数据共享系统及方法
Sun et al. Research on logistics information blockchain data query algorithm based on searchable encryption
Shi et al. ESVSSE: Enabling efficient, secure, verifiable searchable symmetric encryption
Fernando et al. SciBlock: A blockchain-based tamper-proof non-repudiable storage for scientific workflow provenance
Goodrich et al. Efficient verification of web-content searching through authenticated web crawlers
CN111737720A (zh) 数据处理方法、装置及电子设备
Li et al. Towards efficient verifiable boolean search over encrypted cloud data
Zhang et al. Integrity authentication for SQL query evaluation on outsourced databases: A survey
Hahn et al. Poly-logarithmic range queries on encrypted data with small leakage
Wang et al. Ess: An efficient storage scheme for improving the scalability of bitcoin network
Papadopoulos et al. Separating authentication from query execution in outsourced databases
CN109918451A (zh) 基于区块链的数据库管理方法及系统
CN111339193B (zh) 类别的编码方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant