CN116881262B - 一种智能化的多格式数字身份映射方法及系统 - Google Patents
一种智能化的多格式数字身份映射方法及系统 Download PDFInfo
- Publication number
- CN116881262B CN116881262B CN202311140332.5A CN202311140332A CN116881262B CN 116881262 B CN116881262 B CN 116881262B CN 202311140332 A CN202311140332 A CN 202311140332A CN 116881262 B CN116881262 B CN 116881262B
- Authority
- CN
- China
- Prior art keywords
- data
- mapping
- data set
- idmapping
- identifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013507 mapping Methods 0.000 title claims abstract description 145
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000007781 pre-processing Methods 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000006243 chemical reaction Methods 0.000 claims abstract description 11
- 238000011156 evaluation Methods 0.000 claims abstract description 4
- 238000012800 visualization Methods 0.000 claims abstract description 4
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 3
- 238000004422 calculation algorithm Methods 0.000 claims description 53
- 238000012795 verification Methods 0.000 claims description 12
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 238000013480 data collection Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 239000013598 vector Substances 0.000 description 16
- 230000008569 process Effects 0.000 description 12
- 239000011159 matrix material Substances 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 6
- 238000012217 deletion Methods 0.000 description 5
- 230000037430 deletion Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000011985 exploratory data analysis Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 238000007630 basic procedure Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010924 continuous production Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013506 data mapping Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/252—Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种智能化的多格式数字身份映射方法及系统,所述方法包括如下步骤:步骤S1.数据探查与收集;针对多端多业务数据进行数据探查;步骤S2.数据预处理;对于每个业务数据库,进行数据预处理,以应对数据中存在的缺失、错误或冗余项;步骤S3.创建IDmapping映射表;根据业务数据库中的ID,创建IDmapping映射表,将不同数据库中相同的基因ID对应起来;步骤S4.进行IDmapping;将需要进行IDmapping的数据文件加载到程序或工具中,并使用IDmapping映射表进行匹配和转换;步骤S5.结果评估和持续迭代;对于IDmapping的结果,进行结果评估和可视化处理。通过标准化和协同工作,使不同格式的数字身份得到高效映射。
Description
技术领域
本发明涉及计算机及数据处理技术领域,尤其是涉及一种智能化的多格式数字身份映射方法及系统。
背景技术
在金融、集团、政府等业务场景业务下,越来越庞杂的业务场景,信息系统与日俱增,基于不同服务器或系统之间用户账号信息的不兼容性问题。在不同的网络环境中,用户可能需要创建多个账号,同时这些账号也可能存在不同的格式和标识符,使得用户需要不断地手动输入和管理不同的账号信息。
业务场景下,账号管理难度大:由于不同系统和应用使用不同的账号管理方式,用户需要记住大量的用户名和密码,并且还需要经常更改和维护这些账号信息,增加了用户的负担和工作量;数据共享障碍重重:在不同系统和部门之间共享数据时,往往需要进行繁琐的数据转换和格式调整,而且还需要考虑数据的安全性和合规性,增加了数据集成的难度和成本。
运营场景下,数据来源不全面:用户画像的数据来源通常包括第一方数据(自有数据)、第二方数据(合作方数据)和第三方数据(公共数据),但是这些数据并不总是完备和全面,因此可能难以准确描述用户;数据精度不够高:由于数据收集和处理过程中存在误差,例如采样偏差、数据清洗错误等,导致用户画像数据的精度不够高,影响了后续的分析和应用。
发明内容
针对现有技术存在的问题,本发明的目的在于提供一种智能化的多格式数字身份映射系统,该系统通过标准化和协同工作,使不同格式的数字身份得到高效映射。该系统可支持多种数字身份表示方式,包括数字证书、数字指纹、数字签名等多种格式。该系统采用智能映射技术,可以将不同格式的身份信息转换为一致的可读格式,通过智能匹配,实现数字身份的映射。此外,该系统还支持多主体数据管理,可以将身份信息关联到其他数字身份和数据实体中,实现全面的身份管理和查询。本发明所描述的ID Mapping系统具有智能化、高效性和兼容性等特点,适用于金融、电商、政府等各个领域,为保护用户数字身份和便捷管理数字身份提供了一种可持续的解决方案。
本发明提供一种智能化的多格式数字身份映射方法,所述方法包括如下步骤:
步骤S1.数据探查与收集;针对多端多业务数据进行数据探查,收集需要进行IDmapping的业务数据库,并将它们以表格或文本文件的形式加载到一个计算机程序或工具中,探查业务ID的数据量、填值率及样例数据;
步骤S2.数据预处理;对于每个业务数据库,进行数据预处理,以应对数据中存在的缺失、错误或冗余项;
步骤S3.创建IDmapping映射表;根据业务数据库中的ID,创建IDmapping映射表,将不同数据库中相同的基因ID对应起来;
步骤S4.进行IDmapping;将需要进行IDmapping的数据文件加载到程序或工具中,并使用IDmapping映射表进行匹配和转换;
步骤S5.结果评估和持续迭代;对于IDmapping的结果,进行结果评估和可视化处理。
进一步,在步骤S1中,数据探查与收集流程如下:
S1.1.基于业务需求,明确IDmapping的数据源范围,框定涉及的库、表及业务字段;
S1.2.数据收集,确保可以通过连接数据库实现数据汇聚;
S1.3.数据探查,输出各库表相关字段的数据量、填值率及样例数据。
进一步,在步骤S2中,数据预处理是指对源数据集和目标数据集进行标准化和格式化。
进一步,数据预处理的具体步骤包括:
S2.1.去除重复数据:检查源数据集中是否存在重复的记录,如果存在,则删除其中一个或多个记录;
S2.2.剔除无效数据:检查源数据集中是否存在缺失值、异常值或错误值,如果存在,则将其删除或替换为合适的值;
S2.3.统一命名规则:检查源数据集中是否存在不同的命名规则,若存在,则进行标准化处理;
S2.4.将数据转换为标准格式:检查源数据集和目标数据集中是否存在不同的数据格式,若存在,则进行转换为标准格式;
S2.5.提取关键信息:从源数据集和目标数据集中提取关键信息,所述关键信息为标识符、名称和描述,以便进行 ID Mapping。
进一步,在步骤S3中,创建映射关系是将源数据集中的标识符与目标数据集中的标识符进行对应,以建立二者之间的关系。
进一步,创建映射关系的具体步骤如下:
S3.1.确定标识符类型:首先确定源数据集和目标数据集中的标识符类型,所述标识符类型包括手机号码、证件号、设备ID等;不同类型的标识符采取不同的映射策略;
S3.2.确定命名规则:每个数据集中的标识符都有其命名规则,所述命名规则包括大小写、缩写或符号;在创建映射关系之前,需要对源数据集和目标数据集中的标识符命名规则进行统一和标准化;
S3.3.确定映射算法:根据源数据集和目标数据集中的标识符类型和命名规则,选择合适的映射算法进行映射操作;所述映射算法包括字符串匹配算法、基于知识库的匹配算法或基于网络的匹配算法;
S3.4.构建映射关系表:将源数据集中的标识符与目标数据集中的标识符进行对应,构建映射关系表;映射关系表采用表格形式存储,其中每一行代表一个映射关系,包括源数据集中的标识符、目标数据集中的标识符以及映射算法;
S3.5.验证映射关系:创建映射关系后,对映射关系进行验证,所述验证方法包括人工验证、交叉验证和基于统计学方法的验证。
进一步,在步骤S4中,完成数据预处理和建立好映射关系之后,使用最优算法将不同数据库中的生物实体标识符进行ID mapping操作。
进一步,所述方法采用基于双向映射的IDmapping实现。
进一步,在步骤S5中,对结果进行评估和验证,包括比较不同ID mapping算法的效果和与已知数据的对比,以验证ID mapping结果的准确性和可靠性。
另一方面,本发明提供一种智能化的多格式数字身份映射系统,所述系统用于实现根据本发明所述的智能化的多格式数字身份映射方法。
本发明的有益效果如下:
数据隐私:IDmapping需要获取和处理多个数据库中的标识符信息,因此本发明侧重于确保数据的隐私和安全,以防止未经授权的访问或泄露。
数据准确性:IDmapping的映射结果对后续的分析和研究非常重要。因此,本发明侧重于确保映射结果的准确性和可靠性,以避免错误的解释和结论。
数据完整性:IDmapping需要跨越多个数据库来获取标识符信息,并将它们相互映射。因此,本发明侧重于确保数据的完整性,以避免信息丢失或损坏导致映射失败。
可扩展性:IDmapping需要支持各种类型的标识符和多个数据库。因此,本发明的技术方案具有良好的可扩展性和灵活性,以满足不断增长的需求和挑战。
映射算法的优化:IDmapping需要采用高效的算法来完成映射任务。因此,本发明通过对映射算法进行优化,以提高映射速度和准确性。
附图说明
图1示出了根据本发明实施例的智能化的多格式数字身份映射方法流程图;
图2示出了数据探查与收集流程图;
图3示出了数据预处理流程图;
图4示出了创建映射关系步骤流程图。
具体实施方式
下面将结合附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
以下结合图1-图4对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
本发明的基本构思在于:ID Mapping系统可以从多个不同的源收集身份信息,然后针对每一种身份信息类型应用不同的转换规则来将其转换为标准化的身份格式。同时,可以描述该系统支持对现有的数字身份进行映射,并提供了可靠的数据映射方法,使得不同的组织可以在不同平台上无缝使用其数字身份。
如图1所示,根据本发明的一种智能化的多格式数字身份映射方法,基本流程为:
步骤S1.数据探查与收集;
针对多端多业务数据进行数据探查,收集需要进行IDmapping的业务数据库,并将业务数据以表格或文本文件的形式加载到本地数据库或云端中,探查业务ID的数据量、填值率及样例数据。
步骤S2.数据预处理;
对于每个业务ID数据库,需要进行数据预处理,以应对数据中可能存在的缺失、错误或冗余项。比如,对于缺失项可以使用填充的方式进行补全;对于错误项可以使用替换或删除的方式进行修正;对于冗余项可以使用分析的方式进行去重。
步骤S3.创建IDmapping映射表;
根据业务数据库中的ID,创建一个IDmapping映射表,将不同数据库中相同的基因ID对应起来。其中,需要考虑多个数据库中可能存在同名但不同业务的情况,因此需要进行精细的匹配和比较,以确保最终的映射结果准确无误。
步骤S4.进行IDmapping;
将需要进行IDmapping的数据文件加载到程序或工具中,并使用之前创建的IDmapping映射表进行匹配和转换。在这个过程中,需要注意不同数据库的数据格式和数据结构的差异,以保证匹配和转换的正确执行。
步骤S5.结果评估和持续迭代;
对于IDmapping的结果,可以进行后续的结果评估和可视化处理,以验证其准确性和有效性。比如,可以使用统计分析、图表显示等方式,对结果进行可视化,以找出可能存在的问题和改进的空间。
具体的,在步骤S1中,数据探查与收集主要从下面几个方面进行,如图2所示:
S1.1.基于业务需求,明确IDmapping的数据源范围,框定涉及的库、表及业务字段;
S1.2.数据收集,确保可以通过连接数据库实现数据汇聚;
S1.3.数据探查,输出各数据库表相关字段的数据量、填值率及样例数据。
在步骤S2中,数据预处理是指对源数据集和目标数据集进行标准化和格式化,以便进行 ID Mapping。如附图3所示,数据预处理的具体步骤包括:
S2.1.去除重复数据:检查源数据集中是否存在重复的记录,如果存在,则删除其中一个或多个记录。
S2.2.剔除无效数据:检查源数据集中是否存在缺失值、异常值、错误值等无效数据,如果存在,则将其删除或替换为合适的值。
S2.3.统一命名规则:检查源数据集中是否存在不同的命名规则,如大小写不一致、缩写不一致等,如果存在,则进行标准化处理。制定一套命名规则标准并遵循。
对于大小写不一致的问题,可以使用以下标准化处理:
使用小写字母进行命名。
对于多个单词组成的名称,使用下划线 "_ "分隔。
对于缩写不一致的问题,可以使用以下标准化处理:
避免使用缩写,尽可能使用完整的单词描述。如果必须要使用缩写,则应该建立一个缩写词典,以便团队成员之间的理解和协作。
对于已经存在的缩写,应该使用全大写形式,并在可能的情况下使用下划线进行单词分隔。
针对上述命名问题,本发明通过数据清洗工具,实现自动检测处理。具体地,数据清洗包括以下方面:
1、数据加载: 使用工具加载原始数据集,从文件、数据库或API中获取数据。确保数据正确加载并进行预览。
2、探索性数据分析: 对数据进行探索性数据分析,以识别命名规则不一致问题。检查字段中的唯一值、分布情况、缺失值等。
3、数据清洗规则定义: 定义一套数据清洗规则,以实现命名规则的统一。针对每个字段定义规则,包括转换为小写、删除多余空格、处理拼写错误等。具体规则参考上面S2.3定义。
4、正则表达式和字符串处理: 使用正则表达式和字符串处理函数来识别和转换命名规则。使用正则表达式来匹配特定模式的字符串,并进行替换、删除等操作。
5、条件和转换操作: 使用条件和转换操作来执行数据清洗规则。根据规则,对数据进行不同的操作,包括修改、替换、删除等。具体规则参考上面S2.3定义。
6、批量处理: 支持批量处理,同时对多个数据行应用相同的规则。确保选择正确的字段和规则,以避免误操作。
S2.4.将数据转换为标准格式:检查源数据集和目标数据集中是否存在不同的数据格式,如日期格式、数值格式等,若存在,则进行转换为标准格式。以下是一些数据格式的例子:
数字格式:通常使用数字、小数点、千位分隔符等表示方式。
日期格式:通常使用年-月-日、月/日/年等表示方式。
货币格式:通常使用货币符号、数字、小数点等表示方式。
地址格式:通常使用地址元素,如街道、城市、邮编、国家等表示方式。
电子邮件格式:通常使用电子邮件地址,包括用户名、域名、后缀等表示方式。
S2.5.提取关键信息:从源数据集和目标数据集中提取关键信息,包括标识符、名称和描述等,以便进行 ID Mapping。
在步骤S2中,数据预处理场景中,针对手机号码、证件号码、邮箱、企业名称等大量应用正则表达式来进行分词、过滤、转换、分组以及匹配,大大提升数据预处理的效率和质量。
在步骤S3中,创建映射关系是 ID Mapping 过程中的核心步骤,它将源数据集中的标识符与目标数据集中的标识符进行对应,以建立它们之间的关系。如图4所示,以下是创建映射关系的具体步骤:
S3.1.确定标识符类型:首先需要确定源数据集和目标数据集中的标识符类型。不同类型的标识符需要采取不同的映射策略,以确保映射的准确性。
S3.2.确定命名规则:每个数据集中的标识符都有其独特的命名规则,如大小写、缩写、符号等。在创建映射关系之前,需要对源数据集和目标数据集中的标识符命名规则进行统一和标准化,以便进行映射操作。
S3.3.确定映射算法:根据源数据集和目标数据集中的标识符类型和命名规则,选择合适的映射算法进行映射操作。常用的映射算法包括字符串匹配算法、基于知识库的匹配算法、基于网络的匹配算法等。本发明基于业务场景通过数据探查,统计分析不同业务场景中ID的填值率及关联情况,可以将一个数据集中的标识符作为查询,通过映射关系找到另一个数据集中对应的标识符。这样可以方便地将不同数据集中的信息整合起来,为后续的分析和研究提供支持。
S3.4.构建映射关系表:将源数据集中的标识符与目标数据集中的标识符进行对应,构建映射关系表。映射关系表采用表格形式存储,其中每一行代表一个映射关系,包括源数据集中的标识符、目标数据集中的标识符以及映射算法信息。使用映射算法作为字符串相似性算法,使用字符串相似性算法衡量两个字符串之间的相似程度,返回一个介于0和1之间的值,其中0表示完全不相似,1表示完全相似。构建映射关系的具体算法包括余弦相似性算法和编辑距离算法。具体如下:
1、余弦相似性算法
余弦相似性衡量两个向量在多维空间中的夹角,用来衡量文本的相似性。在文本处理中,将字符串看作向量,每个维度表示词语在文本中的出现次数。
在一个实施例中,有两个向量A和B,余弦相似性的计算公式如下:
cosine_similarity=A⋅B∥A∥⋅∥B∥cosine_similarity=∥A∥⋅∥B∥A⋅B
其中:
A⋅BA⋅B 表示向量A和向量B的内积(点积)。
∥A∥∥A∥ 表示向量A的范数(长度)。
∥B∥∥B∥ 表示向量B的范数。
余弦相似性的取值范围在-1到1之间,其中:
1表示两个向量方向完全一致,即夹角为0度,具有最高的相似性。
0表示两个向量方向正交,夹角为90度,表示不相似。
-1表示两个向量方向完全相反,夹角为180度,表示完全不相似。
在文本处理中,将每个文本看作一个向量,向量的维度表示每个词语的出现次数或者TF-IDF值。计算余弦相似性可以帮助衡量文本之间的相似程度,用于文本分类、信息检索等任务。
在本实施例中,文本A和B,它们分别表示为词向量;其中:
A=[1,2,0,1]A=[1,2,0,1] 和B=[0,1,2,1]B=[0,1,2,1],则计算余弦相似性的过程如下:
计算内积:
A⋅B=(1×0)+(2×1)+(0×2)+(1×1)=3A⋅B=(1×0)+(2×1)+(0×2)+(1×1)=3
计算向量范数:∥A∥=12+22+02+12=2.449∥A∥=12+22+02+12
=2.449,∥B∥=02+12+22+12=2.236∥B∥=02+12+22+12
=2.236
计算余弦相似性:
cosine_similarity=32.449×2.236=0.650cosine_similarity=2.449×2.2363=0.650
所以,文本A和文本B的余弦相似性为0.650,表示它们在向量空间中的方向相对较近,具有一定的相似性。
2、编辑距离算法
编辑距离算法衡量将一个字符串转换为另一个字符串所需的最小编辑操作次数,包括插入、删除和替换字符。
编辑距离的计算过程基于动态规划的思想,具体步骤如下:
首先,创建一个矩阵,矩阵的行表示第一个字符串的字符,矩阵的列表示第二个字符串的字符。矩阵的大小是(m+1)×(n+1)(m+1)×(n+1),其中mm是第一个字符串的长度,nn是第二个字符串的长度。
其次,初始化矩阵的第一行和第一列,表示从空字符串转换到对应子字符串的编辑距离。即第一行的元素为0到nn,第一列的元素为0到mm。
从左上角开始,逐步填充矩阵的每个单元格。对于每个单元格(i,j)(i,j),计算以下三种情况的最小值:
若第一个字符串的第ii个字符等于第二个字符串的第jj个字符,不需要编辑操作,距离等于左上角单元格的值,即d[i−1][j−1]d[i−1][j−1]。
否则,需要执行编辑操作,可以选择插入、删除或替换,分别对应左侧、上方和左上角的单元格值加1,取其中的最小值,即min(d[i][j−1],d[i−1][j],d[i−1][j−1])+1min(d[i][j−1],d[i−1][j],d[i−1][j−1])+1。
由此,d[i][j]d[i][j]表示从第一个字符串的前ii个字符转换到第二个字符串的前jj个字符的编辑距离。
填充完整个矩阵后,右下角的元素d[m][n]d[m][n]即为两个字符串的编辑距离。
最后,编辑距离的应用: 编辑距离用于拼写纠错、字符串相似性匹配领域。通过搜索引擎可以通过计算查询字符串与文档标题之间的编辑距离,来找到拼写错误的查询建议。
示例: 假设有两个字符串"kitten"和"sitting",计算它们的编辑距离的步骤如下:
创建矩阵,大小为(7×8)(7×8)。
初始化第一行和第一列。
填充矩阵,得到最终的编辑距离矩阵。
最终得到编辑距离为3,表示从"kitten"转换到"sitting"需要执行3次编辑操作,如删除"k"、替换"e"为"s",添加"g"。
编辑距离算法能够衡量字符串之间的相似性,但在实际应用中可能会因为字符串长度较长而计算复杂度较高。
以手机号为例映射关系表建立如下:
S3.5.验证映射关系:创建映射关系后,需要对映射关系进行验证,以确保映射的准确性和可靠性。常用的验证方法包括人工验证、交叉验证和基于统计学方法的验证等。
总之,创建映射关系是 ID Mapping 过程中的关键步骤,需要仔细考虑标识符类型、命名规则、映射算法等因素,以确保映射的准确性和可靠性。
在步骤S4中,完成数据预处理和建立好映射关系之后,需要使用合适的算法将不同数据库中的生物实体标识符进行ID mapping操作。根据具体情况,可以采用不同的IDmapping算法,并对算法进行优化和调整,以达到最佳的ID mapping效果。IDmapping通常需要注意:
选择库表优先级:基于业务场景需要,明确字段取值的库表优先级排序;
选择ID优先级:根据用户的需求和使用场景来确定ID的优先级顺序。
以下是一些常见的数据库类型以及它们可能的数据格式和结构差异的示例:
1. 关系型数据库(如MySQL、PostgreSQL、Oracle):
- 数据格式:表格形式,每行代表一个记录,每列代表一个字段。
- 数据结构:支持定义主键、外键等约束关系,支持多表连接查询,具有丰富的数据类型(整数、字符串、日期等)。
2. NoSQL数据库(如MongoDB、Cassandra、Redis):
- 数据格式:文档、键值对、列族等不同的数据存储方式。
- 数据结构:文档数据库使用类似JSON的结构存储数据,键值对数据库将数据存储为键值对,列族数据库以列族的形式存储数据。
3. 图数据库(如Neo4j、Amazon Neptune、ArangoDB):
- 数据格式:节点和边的图形结构。
- 数据结构:以节点和边为基本单位,适合存储复杂关系和图形数据。
4. 时序数据库(如InfluxDB、OpenTSDB):
- 数据格式:按时间顺序存储的时序数据。
- 数据结构:通常包括时间戳和测量值,用于存储时间序列数据,如传感器数据、日志等。
5. 列式数据库(如HBase、Cassandra):
- 数据格式:以列为存储单位,适合存储大规模的结构化数据。
- 数据结构:数据以列族的形式存储,每个列族包含多个列,支持快速读取指定列。
在步骤S5中,完成ID mapping操作之后,需要对结果进行评估和验证,包括比较不同ID mapping算法的效果、与已知数据的对比等操作,以验证ID mapping结果的准确性和可靠性。
本发明提供了一种基于多重身份映射的 IDmapping 方法,能够自动识别和映射不同数据库中的 ID,并建立对应关系,具有准确性高、自动化程度高等优点。创建oneID信息汇总表,自动识别基于多重ID的优先级来实现,举例如下:
映射准确性保证:IDmapping的映射结果对后续的用户身份分析和研究具有重要意义。因此,必须确保映射结果的准确性和可靠性,避免错误结果对后续分析产生影响,本发明通过采用高质量的参考序列和算法优化等手段来提高映射准确性。基于多个样本的拼接组装:通过对多个相关样本的ID组序列进行比对,可以找到共同的序列段并将其拼接起来,得到一个更完整、更准确的参考序列。
本发明的技术优势如下:
数据隐私:IDmapping需要获取和处理多个数据库中的标识符信息,因此必须确保数据的隐私和安全,以防止未经授权的访问或泄露。
其中,MD5计算过程在于用于将任意长度的输入消息转换为固定长度的哈希值(128位,以32个十六进制字符表示)。
MD5的计算过程如下:
1. 初始化变量:MD5算法会初始化一组变量(A、B、C、D),这些变量将用于哈希计算的不同阶段。
2. 填充消息:MD5处理的消息长度必须是64字节的整数倍。如果消息长度不是64的倍数,会进行填充。填充的方式是在消息末尾添加一个1比特,然后添加足够的0比特,使得消息长度满足条件:\( \text{消息长度} \mod 64 \equiv 56 \)。接下来,会将消息原始长度的64位二进制表示添加到消息末尾。
3. 分块处理:将填充后的消息分为一系列64字节的块,每个块包含16个32位的字。每个块会依次被处理。
4. 初始化散列值:每个块开始时,会使用上一块处理后的散列值(或初始散列值)来初始化变量(A、B、C、D)。
5. 四轮循环:每个块会经过四轮循环处理,每轮循环都包含16次操作。在每一轮中,根据特定的逻辑函数(F、G、H、I)和常量值,对变量进行更新。
6. 计算最终散列值:经过所有块的处理后,四个变量(A、B、C、D)的值组合起来就形成了最终的散列值。通常,将这些变量以大端字节序连接起来,得到最终的128位哈希值。
数据准确性:IDmapping的映射结果对后续的分析和研究非常重要。因此,必须确保映射结果的准确性和可靠性,以避免错误的解释和结论。
数据完整性:IDmapping需要跨越多个数据库来获取标识符信息,并将它们相互映射。因此,必须确保数据的完整性,以避免信息丢失或损坏导致映射失败。主要采用如下策略:
选择可靠的数据源:根据业务场景需求和数据探查进行质量评估,选择可靠的数据库或数据集作为 ID mapping 的来源,尽量避免使用不完整或不准确的数据源。
利用多个数据源进行交叉验证:为了提高 ID mapping 结果的准确性,同时使用多个数据源进行 ID mapping,并对结果进行交叉验证。
及时更新 ID 映射关系:及时更新 ID 映射关系,避免使用过时的映射关系导致结果失效。
可扩展性:IDmapping需要支持各种类型的标识符和多个数据库。因此,必须具有良好的可扩展性和灵活性,以满足不断增长的需求和挑战。可扩展性方明,数据源接入方明采用统一接口服务、标准化的建模服务;数据处理上,采用分布式计算进行并行处理。
映射算法的优化:IDmapping需要采用高效的算法来完成映射任务。因此,必须对映射算法进行优化,以提高映射速度和准确性。ID mapping 的映射算法优化是一个持续不断的过程,需要根据不同任务和场景,选择合适的算法,并结合实际的数据进行测试和验证,以提高结果的准确性和可靠性。本发明主要从
基于相似度的匹配算法:具体实现时,可以先选择合适的特征向量,比如对于手机号码和证件号码,可以将其转化为数字向量。然后对于不同数据库或数据集中命名不一致的 ID,使用文本相似度算法进行匹配。参考S3.4相似性算法说明。
基于规则的方法:该方法通过对数据分析和处理,定义一系列规则和转换方法,从而将两个数据集之间的映射关系建立起来。例如,可以制定一系列规则,将不同格式的身份证号码转化为标准格式后再进行匹配。
基于统计模型的算法:通过分析 ID 在不同数据集中的共现情况,利用统计模型进行 ID mapping。
本发明流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为表示包括一个或多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,可以实现在任何计算机刻度介质中,以供指令执行系统、装置或设备,所述计算机可读介质可以是任何包含存储、通信、传播或传输程序以供执行系统、装置或设备使用。包括只读存储器、磁盘或光盘等。
在本说明书的描述中,参考术语“实施例”、“示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。此外,本领域的技术人员可以在不产生矛盾的情况下,将本说明书中描述的不同实施例或示例以及其中的特征进行结合或组合。
上述内容虽然已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型等更新操作。
Claims (8)
1.一种智能化的多格式数字身份映射方法,其特征在于,所述方法包括如下步骤:
步骤S1.数据探查与收集;针对多端多业务数据进行数据探查,收集需要进行IDmapping的业务数据库,并将它们以表格或文本文件的形式加载到一个计算机程序或工具中,探查业务ID的数据量、填值率及样例数据;
步骤S2.数据预处理;对于每个业务数据库,进行数据预处理,以应对数据中存在的缺失、错误或冗余项;
步骤S3.创建IDmapping映射表;根据业务数据库中的ID,创建IDmapping映射表,将不同数据库中相同的基因ID对应起来;
步骤S4.进行IDmapping;将需要进行IDmapping的数据文件加载到程序或工具中,并使用IDmapping映射表进行匹配和转换;
步骤S5.结果评估和持续迭代;对于IDmapping的结果,进行结果评估和可视化处理;
其中,在步骤S3中,创建映射关系是将源数据集中的标识符与目标数据集中的标识符进行对应,以建立二者之间的关系;
创建映射关系的具体步骤如下:
S3.1.确定标识符类型:首先确定源数据集和目标数据集中的标识符类型,所述标识符类型包括手机号码、证件号码和设备ID等;不同类型的标识符采取不同的映射策略;
S3.2.确定命名规则:每个数据集中的标识符都有其命名规则,所述命名规则包括大小写、缩写或符号;在创建映射关系之前,需要对源数据集和目标数据集中的标识符命名规则进行统一和标准化;
S3.3.确定映射算法:根据源数据集和目标数据集中的标识符类型和命名规则,选择合适的映射算法进行映射操作;所述映射算法包括字符串匹配算法、基于知识库的匹配算法或基于网络的匹配算法;
S3.4.构建映射关系表:将源数据集中的标识符与目标数据集中的标识符进行对应,构建映射关系表;映射关系表采用表格形式存储,其中每一行代表一个映射关系,包括源数据集中的标识符、目标数据集中的标识符以及映射算法;
S3.5.验证映射关系:创建映射关系后,对映射关系进行验证,所述验证方法包括人工验证、交叉验证和基于统计学方法的验证。
2.根据权利要求1所述的一种智能化的多格式数字身份映射方法,其特征在于,在步骤S1中,数据探查与收集流程如下:
S1.1.基于业务需求,明确IDmapping的数据源范围,框定涉及的库、表及业务字段;
S1.2.数据收集,确保可以通过连接数据库实现数据汇聚;
S1.3.数据探查,输出各库表相关字段的数据量、填值率及样例数据。
3.根据权利要求1所述的一种智能化的多格式数字身份映射方法,其特征在于,在步骤S2中,数据预处理是指对源数据集和目标数据集进行标准化和格式化。
4.根据权利要求3所述的一种智能化的多格式数字身份映射方法,其特征在于,数据预处理的具体步骤包括:
S2.1.去除重复数据:检查源数据集中是否存在重复的记录,如果存在,则删除其中一个或多个记录;
S2.2.剔除无效数据:检查源数据集中是否存在缺失值、异常值或错误值,如果存在,则将其删除或替换为合适的值;
S2.3.统一命名规则:检查源数据集中是否存在不同的命名规则,若存在,则进行标准化处理;
S2.4.将数据转换为标准格式:检查源数据集和目标数据集中是否存在不同的数据格式,若存在,则进行转换为标准格式;
S2.5.提取关键信息:从源数据集和目标数据集中提取关键信息,所述关键信息为标识符、名称和描述,以便进行 ID Mapping。
5.根据权利要求1所述的一种智能化的多格式数字身份映射方法,其特征在于,在步骤S4中,完成数据预处理和建立好映射关系之后,使用最优算法将不同数据库中的生物实体标识符进行ID mapping操作。
6.根据权利要求1所述的一种智能化的多格式数字身份映射方法,其特征在于,所述方法采用基于双向映射的IDmapping实现。
7.根据权利要求1所述的一种智能化的多格式数字身份映射方法,其特征在于,在步骤S5中,对结果进行评估和验证,包括比较不同ID mapping算法的效果和与已知数据的对比,以验证ID mapping结果的准确性和可靠性。
8.一种智能化的多格式数字身份映射系统,其特征在于,所述系统用于实现根据权利要求1-7任一项所述的智能化的多格式数字身份映射方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311140332.5A CN116881262B (zh) | 2023-09-06 | 2023-09-06 | 一种智能化的多格式数字身份映射方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311140332.5A CN116881262B (zh) | 2023-09-06 | 2023-09-06 | 一种智能化的多格式数字身份映射方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116881262A CN116881262A (zh) | 2023-10-13 |
CN116881262B true CN116881262B (zh) | 2023-11-24 |
Family
ID=88260889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311140332.5A Active CN116881262B (zh) | 2023-09-06 | 2023-09-06 | 一种智能化的多格式数字身份映射方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116881262B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2011213842A1 (en) * | 2010-09-03 | 2012-03-22 | Tata Consultancy Services Limited | A system and method of managing mapping information |
CN112765245A (zh) * | 2020-12-31 | 2021-05-07 | 广西中科曙光云计算有限公司 | 一种电子政务大数据处理平台 |
CN114385723A (zh) * | 2020-10-22 | 2022-04-22 | 腾讯科技(深圳)有限公司 | 数据读取方法、装置、电子设备及存储介质 |
CN116685912A (zh) * | 2020-11-19 | 2023-09-01 | 弗劳恩霍夫应用研究促进协会 | 用于处理输入值的方法和系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8521838B2 (en) * | 2011-07-28 | 2013-08-27 | Sap Ag | Managing consistent interfaces for communication system and object identifier mapping business objects across heterogeneous systems |
US10642854B2 (en) * | 2016-10-07 | 2020-05-05 | Sudeep Pattnaik | Clinical data aggregation architecture and platform |
US11100134B2 (en) * | 2017-03-15 | 2021-08-24 | Microsoft Technology Licensing, Llc | Identity mapping for cloud migrations |
US11392606B2 (en) * | 2019-10-30 | 2022-07-19 | Disney Enterprises, Inc. | System and method for converting user data from disparate sources to bitmap data |
-
2023
- 2023-09-06 CN CN202311140332.5A patent/CN116881262B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2011213842A1 (en) * | 2010-09-03 | 2012-03-22 | Tata Consultancy Services Limited | A system and method of managing mapping information |
CN114385723A (zh) * | 2020-10-22 | 2022-04-22 | 腾讯科技(深圳)有限公司 | 数据读取方法、装置、电子设备及存储介质 |
CN116685912A (zh) * | 2020-11-19 | 2023-09-01 | 弗劳恩霍夫应用研究促进协会 | 用于处理输入值的方法和系统 |
CN112765245A (zh) * | 2020-12-31 | 2021-05-07 | 广西中科曙光云计算有限公司 | 一种电子政务大数据处理平台 |
Non-Patent Citations (2)
Title |
---|
HNPG步态特征数据库管理系统设计与实现;匡晓红;汤丹;;计算机工程与设计(07);全文 * |
数字图书馆用户画像建模与应用实践;张洁;仲跻亮;岳怡然;寇远涛;;数字图书馆论坛(03);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116881262A (zh) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102713834B (zh) | 管理记录格式信息 | |
US20190332606A1 (en) | A system and method for processing big data using electronic document and electronic file-based system that operates on RDBMS | |
US20190236102A1 (en) | System and method for differential document analysis and storage | |
US7092956B2 (en) | Deduplication system | |
US20180144061A1 (en) | Edge store designs for graph databases | |
CN113297238B (zh) | 基于历史变更记录进行信息挖掘的方法和装置 | |
US11074133B2 (en) | Method, electronic device and computer readable medium of file management | |
CN112463774B (zh) | 文本数据的去重方法、设备及存储介质 | |
US20180357330A1 (en) | Compound indexes for graph databases | |
CN111506608A (zh) | 一种结构化文本的比较方法和装置 | |
US10628421B2 (en) | Managing a single database management system | |
CN109902070B (zh) | 一种面向WiFi日志数据的解析存储搜索方法 | |
CN111984745B (zh) | 数据库字段动态扩展方法、装置、设备及存储介质 | |
CN116881262B (zh) | 一种智能化的多格式数字身份映射方法及系统 | |
US20180144060A1 (en) | Processing deleted edges in graph databases | |
CN110704635B (zh) | 一种知识图谱中三元组数据的转换方法及装置 | |
CN111984640A (zh) | 基于多元异构数据的画像构建方法 | |
CN111680082A (zh) | 基于数据整合的政府财政数据采集系统及数据采集方法 | |
CN113407538B (zh) | 一种多源异构关系型数据库数据的增量采集方法 | |
CN115794861A (zh) | 基于特征摘要的离线数据查询复用方法及其应用 | |
Černjeka et al. | NoSQL document store translation to data vault based EDW | |
CN116438603A (zh) | 用于将基因组数据存储在包括信息元数据结构的文件结构中的方法和系统 | |
CN112596719A (zh) | 一种生成前后端代码的方法和系统 | |
CN115292297B (zh) | 一种构建数据仓库数据质量监测规则的方法和系统 | |
CN113792048B (zh) | 非关系型数据库的表单校验规则生成方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |