CN112988698A - 一种数据处理方法以及装置 - Google Patents
一种数据处理方法以及装置 Download PDFInfo
- Publication number
- CN112988698A CN112988698A CN201911211509.XA CN201911211509A CN112988698A CN 112988698 A CN112988698 A CN 112988698A CN 201911211509 A CN201911211509 A CN 201911211509A CN 112988698 A CN112988698 A CN 112988698A
- Authority
- CN
- China
- Prior art keywords
- index
- data
- similarity
- sequence
- index sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 109
- 238000004364 calculation method Methods 0.000 claims abstract description 37
- 238000010276 construction Methods 0.000 claims abstract description 24
- 239000013598 vector Substances 0.000 claims description 169
- 238000009826 distribution Methods 0.000 claims description 161
- 238000012545 processing Methods 0.000 claims description 30
- 238000005070 sampling Methods 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 20
- 239000008280 blood Substances 0.000 claims description 18
- 210000004369 blood Anatomy 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 18
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 239000000126 substance Substances 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 33
- 238000013523 data management Methods 0.000 abstract description 14
- 238000013500 data storage Methods 0.000 abstract description 10
- 238000003860 storage Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000005295 random walk Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 2
- 230000036765 blood level Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004141 dimensional analysis Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据处理方法以及装置,该方法包括:获得第一原始数据表和第二原始数据表;对第一原始数据表进行拆分,获得第一指标序列,并对第二原始数据表进行拆分,获得第二指标序列;如果第一指标序列与第二指标序列之间的相似度达到预定的相似度阈值,则根据第一指标序列或第二指标序列,获得目标通用数据表。通过使用该方法,可在已有的众多个性化数据表中快速查找出具有较高相似度的指标序列,并基于此建立通用数据表,使得一次建设的通用数据表供各数据需求方进行多次使用,可避免数据表重复建设,减少现有的因重复建设数据表所造成的数据存储资源和数据计算资源的耗费、降低数据管理过程的复杂度。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种数据处理方法。本申请同时涉及一种数据处理装置以及一种电子设备。
背景技术
在电商、金融、物流、制造业、医疗、文娱等行业的业务运营过程中,会产生大量业务数据,需建立企业级数据仓库,以此为企业提供决策支持,同时,为满足企业各业务部门(如风控部门、财务部门、营销部门等)的决策需求,也需建立相应的数据集市。
为了满足快速增长的业务个性化需求,各数据需求方也需在数据集市层或数据应用层衍生出各类数据表。然而,由于数据需求方的数量增长、数据需求的不断扩张、以及各数据需求方的数据共享度较差等原因,会出现大量数据表被重复建设的现象,使得各数据需求方因重复建设数据表而耗费过多的数据存储资源和数据计算资源,并且使得各数据需求方的数据管理过程的复杂度较高。
发明内容
本申请实施例提供一种数据处理方法、装置以及电子设备,以解决现有的因重复建设数据表而耗费过多的数据存储资源和数据计算资源、以及数据管理过程的复杂度较高的问题。
本申请实施例提供一种数据处理方法,包括:
获得第一原始数据表和第二原始数据表;
对所述第一原始数据表进行拆分,获得第一指标序列,并对所述第二原始数据表进行拆分,获得第二指标序列;
如果所述第一指标序列与所述第二指标序列之间的相似度达到预定的相似度阈值,则根据所述第一指标序列或所述第二指标序列,获得目标通用数据表。
可选的,还包括:将所述第一指标序列中的指标数据与所述第二指标序列中的指标数据进行相似性比对,获得指标数据相似度数值;
如果所述指标数据相似度数值达到预定的指标数据相似度阈值,则确定所述第一指标序列与所述第二指标序列之间的相似度达到预定的相似度阈值。
可选的,还包括:将所述第一指标序列的元数据与所述第二指标序列的元数据进行相似性比对,获得元数据相似度数值;
如果所述元数据相似度数值达到预定的元数据相似度阈值,则将所述第一指标序列中的指标数据与所述第二指标序列中的指标数据进行相似性比对,获得指标数据相似度数值;
如果所述指标数据相似度数值达到预定的指标数据相似度阈值,则确定所述第一指标序列与所述第二指标序列之间的相似度达到预定的相似度阈值。
可选的,还包括:将第一指标序列中的指标数据的分布统计与第二指标序列中的指标数据的分布统计进行相似性比对,获得分布统计相似度数值;
如果所述分布统计相似度数值达到预定的分布统计相似度阈值,则将所述第一指标序列中的指标数据与所述第二指标序列中的指标数据进行相似性比对,获得指标数据相似度数值;
如果所述指标数据相似度数值达到预定的指标数据相似度阈值,则确定所述第一指标序列与所述第二指标序列之间的相似度达到预定的相似度阈值。
可选的,还包括:将所述第一指标序列的元数据与所述第二指标序列的元数据进行相似性比对,获得元数据相似度数值;
如果所述元数据相似度数值达到预定的元数据相似度阈值,则将所述第一指标序列中的指标数据的分布统计与所述第二指标序列中的指标数据的分布统计进行相似性比对,获得分布统计相似度数值;
如果所述分布统计相似度数值达到预定的分布统计相似度阈值,则将所述第一指标序列中的指标数据与所述第二指标序列中的指标数据进行相似性比对,获得指标数据相似度数值;
如果所述指标数据相似度数值达到预定的指标数据相似度阈值,则确定所述第一指标序列与所述第二指标序列之间的相似度达到预定的相似度阈值。
可选的,所述将所述第一指标序列中的指标数据与所述第二指标序列中的指标数据进行相似性比对,获得指标数据相似度数值,包括:
获得主键数据相匹配的第一指标数据和第二指标数据,以及获得所述第一指标数据或所述第二指标数据的第一数量信息,所述第一指标数据来自所述第一指标序列,所述第二指标数据来自所述第二指标序列;
对所述第一指标数据和所述第二指标数据进行相似性计算,获得相似性达到目标相似性阈值的指标数据对的第二数量信息;
将所述第二数量信息与所述第一数量信息的比值确定为所述指标数据相似度数值。
可选的,所述第一指标数据和所述第二指标数据为数值型指标数据,所述对所述第一指标数据与所述第二指标数据进行相似性计算,获得相似性达到目标相似性阈值的指标数据对的第二数量信息,包括:
将所述第一指标数据和所述第二指标数据转换为数字型指标数据;
对所述数字型指标数据进行精度换算;
将经过精度换算后的第一指标数据和第二指标数据进行相似性计算,获得相似性达到第一目标相似性阈值的第一目标指标数据和第二目标指标数据,所述第一目标指标数据所属于所述第一指标数据,所述第二目标指标数据所属于所述第二指标数据,所述第一目标指标数据和第二目标指标数据组成所述指标数据对;
对所述指标数据对的数量进行汇总,获得所述第二数量信息。
可选的,所述第一指标数据和所述第二指标数据为字符型指标数据,所述对所述第一指标数据和所述第二指标数据进行相似性计算,获得相似性达到目标相似性阈值的指标数据对的第二数量信息,包括:
对所述第一指标数据进行向量化处理,获得第一指标向量,并且对所述第二指标数据进行向量化处理,获得第二指标向量;
对所述第一指标向量和所述第二指标向量进行余弦相似度计算,获得相似度达到第二目标相似度阈值的第一目标指标向量和第二目标指标向量,所述第一目标指标向量所属于所述第一指标向量,所述第二目标指标向量所属于所述第二指标向量,所述第一目标指标向量对应的第一目标指标数据与所述第二目标指标向量对应的第二目标指标数据组成所述指标数据对;
对所述指标数据对的数量进行汇总,获得所述第二数量信息。
可选的,所述获得主键数据相匹配的第一指标数据和第二指标数据,包括:
针对所述第一指标序列中的指标数据进行随机抽样处理,获得第一指标数据矩阵,并针对所述第一指标序列中的指标数据进行随机抽样处理,获得第二指标数据矩阵;
关联所述第一指标数据矩阵和所述第二指标数据矩阵,获得所述主键数据相匹配的第一指标数据和第二指标数据。
可选的,所述将所述第一指标序列的元数据与所述第二指标序列的元数据进行相似性比对,获得元数据相似度数值,包括:
获得所述第一指标序列的第一元数据,并获得所述第二指标序列的第二元数据,所述第一元数据与所述第二元数据为相同类别的元数据;
将所述第一元数据转化为第一特征向量,以及将所述第二元数据转化为第二特征向量;
计算所述第一特征向量与所述第二特征向量之间的相似性,获得元数据相似度数值。
可选的,所述获得所述第一指标序列的第一元数据,并获得所述第二指标序列的第二元数据,包括:获得所述第一指标序列的多个第一元数据,并获得所述第二指标序列的多个第二元数据;
对应的,所述根据所述同源表的级别信息,将所述第一元数据转化为第一特征向量,以及将所述第二元数据转化为第二特征向量,包括:
根据所述同源表的级别信息,将所述多个第一元数据转化为多个第一特征向量,以及将所述多个第二元数据转化为多个第二特征向量;
对应的,所述计算所述第一特征向量与所述第二特征向量的相似性,获得元数据相似度数值,包括:
将所述多个第一特征向量合并为第一目标向量,并将所述多个第二特征向量合并为第二目标向量;
计算所述第一目标向量与所述第二目标向量之间的相似度,获得所述元数据相似度数值。
可选的,所述第一指标序列的元数据包括第一指标序列的指标血缘数据,所述第二指标序列的元数据包括第二指标序列的指标血缘数据,所述将所述第一元数据转化为第一特征向量,以及将所述第二元数据转化为第二特征向量,包括:
根据所述第一指标序列的指标血缘数据和所述第二指标序列的指标血缘数据构建关系图,在该关系图中,点代表第一指标序列和第二指标序列,边代表根据第一指标序列和第二指标序列所对应的同源表的级别信息所分配的权重信息;
根据所述关系图获得第一特征向量和第二特征向量。
可选的,所述将所述第一指标序列中的指标数据的分布统计与所述第二指标序列中的指标数据的分布统计进行相似性比对,获得分布统计相似度数值,包括:
对所述第一指标序列中的指标数据进行抽样处理,获得第一备选指标数据,并对所述第二指标序列中的指标数据进行抽样处理,获得第二备选指标数据;
获得所述第一备选指标数据的第一分布统计数据,并获得所述第二备选指标数据的第二分布统计数据,所述第一分布统计数据与所述第二分布统计数据为相同类型的分布统计数据;
计算所述第一分布统计数据和所述第二分布统计数据之间的相似度,获得所述分布统计相似度数值。
可选的,所述获得所述第一备选指标数据的第一分布统计数据,并获得所述第二备选指标数据的第二分布统计数据,包括:
获得所述第一备选指标数据的多个第一分布统计数据,并获得所述第二备选指标数据的多个第二分布统计数据;
对应的,所述计算所述第一分布统计数据和所述第二分布统计数据之间的相似度,获得所述分布统计相似度数值,包括:
采用聚类算法计算所述多个第一分布统计数据与所述多个第二分布统计数据之间的相似度,获得所述分布统计相似度数值。
可选的,所述获得第一原始数据表和第二原始数据表,包括:
获得名称匹配的备选原始数据表;
对所述备选原始数据表的元数据进行分析,获得元数据相似度数值达到目标元数据相似度阈值的第一原始数据表和第二原始数据表。
可选的,所述对所述第一原始数据表进行拆分,获得第一指标序列,并对所述第二原始数据表进行拆分,获得第二指标序列,包括:
按照一个主键序列对应一个指标序列的方式对所述第一原始数据表进行拆分,获得第一组主键-指标序列对,并且按照所述一个主键序列对应一个指标序列的方式对所述第二原始数据表进行拆分,获得第二组主键-指标序列对;
从所述第一组主键-指标序列对中获得所述第一指标序列,并从所述第二组主键-指标序列对中获得所述第二指标序列。
可选的,所述根据所述第一指标序列或所述第二指标序列,获得目标通用数据表,包括:
按照预定的数据仓库主题域建设标准,根据所述第一指标序列以及所述第一指标序列对应的第一主键序列建立目标通用数据表,或者根据所述第二指标序列以及所述第二指标序列对应的第二主键序列建立目标通用数据表。
可选的,还包括:根据所述目标数据通用表,对所述第一原始数据表进行整改。
可选的,还包括:根据所述目标数据通用表,对所述第二原始数据表进行整改。
可选的,还包括:验证所述第一指标序列的口径信息与所述第二指标序列的口径信息是否匹配;
所述根据所述第一指标序列或所述第二指标序列,获得目标通用数据表,包括:
在确定所述第一指标序列的口径信息与所述第二指标序列的口径信息相匹配之后,根据所述第一指标序列或所述第二指标序列,获得目标通用数据表。
本申请另一实施例还提供一种数据处理装置,该装置包括:
原始数据表获得单元,用于获得第一原始数据表和第二原始数据表;
指标序列获得单元,用于对所述第一原始数据表进行拆分,获得第一指标序列,并对所述第二原始数据表进行拆分,获得第二指标序列;
目标通用数据表获得单元,用于在确定所述第一指标序列与所述第二指标序列之间的相似度达到预定的相似度阈值时,根据所述第一指标序列或所述第二指标序列,获得目标通用数据表。
本申请另一实施例还提供一种电子设备,包括处理器和存储器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如下操作:
获得第一原始数据表和第二原始数据表;
对所述第一原始数据表进行拆分,获得第一指标序列,并对所述第二原始数据表进行拆分,获得第二指标序列;
如果所述第一指标序列与所述第二指标序列之间的相似度达到预定的相似度阈值,则根据所述第一指标序列或所述第二指标序列,获得目标通用数据表。
本申请另一实施例还提供一种数据处理方法,包括:
接收输入的多个原始数据表;
根据所述多个原始数据表获得目标通用数据表,并输出所述目标通用数据表;其中,所述目标通用数据表的任意一个指标序列,为所述多个原始数据表中至少两个原始数据表之间的相似指标序列中的一个指标序列,所述相似指标序列之间的相似度达到预定的相似度阈值。
本申请另一实施例还提供一种数据处理方法,包括:
获得目标通用数据表;
获得所述目标通用数据表的生成来源数据;
根据所述目标通用数据表的生成来源数据,获得生成所述目标通用数据表所需的至少两个源数据表;
其中,所述目标通用数据表的指标序列,为所述至少两个源数据表之间的相似指标序列,所述相似指标序列之间的相似度达到预定的相似度阈值。
本申请另一实施例还提供一种数据处理方法,包括:
获得目标主体欲建设的数据表的待建设指标序列;
如果所述待建设指标序列与目标通用数据表的目标指标序列之间的相似度达到预定的相似度阈值,则将所述目标通用数据表推送给所述目标主体。
与现有技术相比,本申请实施例具有以下优点:
本申请实施例提供的数据处理方法,包括:获得第一原始数据表和第二原始数据表;对所述第一原始数据表进行拆分,获得第一指标序列,并对所述第二原始数据表进行拆分,获得第二指标序列;如果所述第一指标序列与所述第二指标序列之间的相似度达到预定的相似度阈值,则根据所述第一指标序列或所述第二指标序列,获得目标通用数据表。该方法通过对第一原始数据表和第二原始数据表进行拆分的方式获得多个指标序列,在确定拆分自上述不同原始数据表的指标序列之间的相似度数值达到预定的相似度阈值之后,根据上述拆分自不同原始数据表的指标序列建设目标通用数据表。通过使用该方法,可在已有的众多个性化数据表中快速查找出具有较高相似度的指标序列,并基于此建立通用数据表,使得一次建设的通用数据表供各数据需求方进行多次使用,而无需各数据需求方针对相同或相似的数据内容重复建设数据表,可减少现有的因重复建设数据表所造成的数据存储资源和数据计算资源的耗费,降低数据管理过程的复杂度。
附图说明
图1是本申请第一实施例提供的数据处理方法的流程图;
图1-A是本申请第一实施例提供的实施数据处理方法的示意图;
图1-B是本申请第一实施例提供的数据处理方法的应用场景示意图;
图2是本申请第二实施例提供的数据处理装置的单元框图;
图3是本申请第三实施例提供的电子设备的逻辑结构示意图;
图4是本申请第四实施例提供的数据处理方法的流程图;
图5是本申请第五实施例提供的数据处理方法的流程图;
图6是本申请第六实施例提供的数据处理方法的流程图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在业务运行过程中,为解决数据的一致性、复用性等问题,企业级数据仓库可以为企业提供决策支持,数据集市为企业的各业务部门(如风控部门、财务部门、营销部门等)提供决策支持。例如,电商企业会建立企业级的数据仓库和部门级的数据集市,以此满足日常决策的需求,该过程从业务关注点出发,建立会员、商品、渠道、交易、日志、风险、互动、环境、设备、财务、关系等不同的主题域,并按照原始层、明细层、轻粒度汇总层、各数据集市层、各数据应用层分层建设数据仓库。
随着业务规模的扩大和时间推移,各数据需求方会有各式各样的数据需求,由于各数据需求方无法感知数据仓库中的所有通用表,并且由于电商、金融、物流等行业快速变化的特点,即使通过联机分析处理(Online Analytical Processing,OLAP)方式或其它产品化处理方式获取所需的通用数据表,也无法满足全部数据需求。因此,数据仓库以及数据集市的通用数据表均无法满足快速增长的业务个性化需求。基于此,数据需求方会在数据集市层或数据应用层衍生出各类数据表,用于满足其业务发展需求。
然而,随着建设数据表用户数和数据需求增多,会出现较多数据表重复建设的现象,例如,业务方A开发一张基于不同周期不同商品类目的会员交易量表,业务方B在不知情的前提下也开发一张相同或相似的表,该过程会造成数据管理成本增加、数据保障程度低、数据共享度差、数据重复计算、数据重复存储等问题。
针对上述数据表重复建设的问题,现有的解决方式包括以下几种:
指示各数据需求方按照预先制定的标准建设规范建设数据表,然而,该过程对数据表的设计能力要求较高,需预先对各数据需求方进行培训,以及对建设的数据表进行监控和整改,该过程的数据管理成本较高;
指示数据需求方在建设数据表之前通过预先开发的数据大图查询数据仓库中是否包含其需要的数据表,以此减少重复建设数据表。然而,数据仓库中的通用数据表的数量和类型有限,无法满足所有数据需求方的业务需求;
通过联机分析处理(OLAP)方式让用户自定义统计的维度和指标,该过程基于固定基础模型(例如星型模型)的多维分析实现,该模型需要预先定义事实表(例如,用于记录交易时间、交易渠道、交易商品、交易金额的数据表)和维表(例如,用于记录时间维度、交易渠道维度、交易商品维度的数据表),而实际应用过程中,由于互联网业务变化更新变化较快,电商行业对业务响应的要求较高,因此,上述基于固定基础模型的多维分析无法满足业务快速拓展的需求。
针对上述场景,为了避免各数据需求方重复建设数据表,减少现有的因重复建设数据表所造成的数据存储资源和数据计算资源的耗费,降低数据管理过程的复杂度,本申请提供了一种数据处理方法、与该方法相对应的数据处理装置以及电子设备。以下提供实施例对所述方法、装置以及电子设备进行详细说明。
本申请第一实施例提供一种数据处理方法,该方法的应用主体可以为用于建设数据仓库的应用程序,图1为本申请第一实施例提供的数据处理方法的流程图,以下结合图1对本实施例提供的方法进行详细描述。以下描述所涉及的实施例是用来解释说明方法原理,不是实际使用的限定。
如图1所示,本实施例提供的数据处理方法包括如下步骤:
S101,获得第一原始数据表和第二原始数据表。
原始数据表可以是指上述业务需求方为了满足其快速增长的业务个性化需求而在数据集市层或数据应用层衍生出的数据表。本步骤用于获得第一原始数据表和第二原始数据表,该第一原始数据表和第二原始数据表可以为不同业务需求方所建设的数据表,例如,第一原始数据表可以为业务方A所开发的一张基于不同周期不同商品类目的会员交易量表,第二原始数据表为业务方B所开发的另一张基于不同周期不同商品类目的会员交易量表。
在本实施例中,获得第一原始数据表和第二原始数据表的过程可以包括如下内容:首先,获得名称匹配的备选原始数据表,例如,从数据需求方所建设的大量原始数据表中查找出名称相同或相似的数据表,将其作为备选原始数据表;其次,对所述备选原始数据表的元数据进行分析,获得元数据相似度数值达到目标元数据相似度阈值的第一原始数据表和第二原始数据表,例如,对备选原始数据表的主键数据(例如,用于标识数据表或者用于标识数据表中各指标序列的唯一数据编号)及数据类型(例如,字符型、数值型、枚举型)进行分析,如果两个备选原始数据表的主键数据及其数据类型的相似度达到预定的目标元数据相似度阈值,则将其确定为第一原始数据表和第二原始数据表。需要说明的是,主键数据及其数据类型的相似度达到预定的目标元数据相似度阈值的数据表可以对应有多个,本实施例中任选其中两个数据表作为需处理的第一原始数据表和第二原始数据表,在将该两个数据表处理结束后,可将剩余的备选原始数据表按相同方式进行迭代处理。
S102,对第一原始数据表进行拆分,获得第一指标序列,并对第二原始数据表进行拆分,获得第二指标序列。
在上述步骤获得第一原始数据表和第二原始数据表之后,本步骤用于对上述第一原始数据表进行拆分,获得第一指标序列,并对所述第二原始数据表进行拆分,获得第二指标序列。在本实施例中,该拆分过程如图1-A所示,具体可以为:按照一个主键序列对应一个指标序列的方式对所述第一原始数据表进行拆分,获得第一组主键-指标序列对,并且按照所述一个主键序列对应一个指标序列的方式对所述第二原始数据表进行拆分,获得第二组主键-指标序列对;从所述第一组主键-指标序列对中获得所述第一指标序列,并从所述第二组主键-指标序列对中获得所述第二指标序列。
S103,如果第一指标序列与第二指标序列之间的相似度达到预定的相似度阈值,则根据第一指标序列或第二指标序列,获得目标通用数据表。
在上述步骤完成对第一原始数据表和第二原始数据表的拆分而获得第一指标序列和第二指标序列之后,本步骤用于根据该第一指标序列和第二指标序列之间的相似度,确定是否可根据该第一指标序列或第二指标序列建设目标通用数据表。该过程需首先判断上述第一指标序列与第二指标序列之间的相似度是否达到预定的相似度阈值。
在本实施例中,可通过如下四种方式判断上述第一指标序列与第二指标序列之间的相似度是否达到预定的相似度阈值:
方式一:将第一指标序列中的指标数据与第二指标序列中的指标数据进行相似性比对,获得指标数据相似度数值;如果指标数据相似度数值达到预定的指标数据相似度阈值,则确定第一指标序列与第二指标序列之间的相似度达到预定的相似度阈值。
指标数据为指标序列中的具体数据内容,将第一指标序列中的指标数据与第二指标序列中的指标数据进行相似性比对,获得指标数据相似度数值的过程具体包括如下内容:
首先,获得主键数据相匹配的第一指标数据和第二指标数据,以及获得第一指标数据或第二指标数据的第一数量信息,该第一指标数据为上述第一指标序列中的指标数据,该第二指标数据为上述第二指标序列中的指标数据。该第一指标数据可以为数值型指标数据,也可以为字符型指标数据。在本实施例中,获得主键数据相匹配的第一指标数据和第二指标数据,具体可以为:针对第一指标序列中的指标数据进行随机抽样处理,获得第一指标数据矩阵,并针对第一指标序列中的指标数据进行随机抽样处理,获得第二指标数据矩阵,随机抽样的目的在于保证指标数据的分布不变,并且降低后续相似性比对过程的计算量,例如,针对包含海量数据的互联网行业,通过随机抽样可以在保证后续的数据处理结果不受影响的情况下减少后续数据处理的计算量;关联第一指标数据矩阵和第二指标数据矩阵,获得主键数据相匹配的第一指标数据和第二指标数据。需要说明的是,上述第一数量信息也可以为第一指标数据所对应的主键数据与第二指标数据所对应的主键数据中,相匹配的主键数据的数量信息。针对指标数据的数量有限的场景,上述获得主键数据相匹配的第一指标数据和第二指标数据的过程还可以为:获取第一指标序列中预定数量的指标数据以及该指标数据对应的主键数据,将该主键数据与第二指标序列中的全量指标数据所对应的主键数据进行匹配,获得相匹配的主键数据,并将相匹配的主键数据所对应的第一指标序列中的指标数据作为第一指标数据,将相匹配的主键数据所对应的第二指标序列中的指标数据作为第二指标数据。
其次,对第一指标数据和第二指标数据进行相似性计算,获得相似性达到目标相似性阈值的指标数据对的第二数量信息。
在本实施例中,如果第一指标数据和第二指标数据为数值型指标数据,则该过程具体包括如下内容:将第一指标数据和第二指标数据转换为数字型指标数据,例如,将文本类型的数值转换为数字;对数字型指标数据进行精度换算,例如对所有数字型指标数据进行四舍五入计算,保留小数点后两位;将经过精度换算后的第一指标数据和第二指标数据进行相似性计算,获得相似性达到第一目标相似性阈值的第一目标指标数据和第二目标指标数据,第一目标指标数据所属于第一指标数据,第二目标指标数据所属于第二指标数据,第一目标指标数据和第二目标指标数据组成指标数据对;对指标数据对的数量进行汇总,获得第二数量信息。
如果第一指标数据和第二指标数据为字符型指标数据,则上述过程具体包括如下内容:对第一指标数据进行向量化处理,获得第一指标向量,并且对第二指标数据进行向量化处理,获得第二指标向量;对第一指标向量和第二指标向量进行余弦相似度计算,获得相似度达到第二目标相似度阈值的第一目标指标向量和第二目标指标向量,第一目标指标向量所属于第一指标向量,第二目标指标向量所属于第二指标向量,第一目标指标向量对应的第一目标指标数据与第二目标指标向量对应的第二目标指标数据组成指标数据对;对指标数据对的数量进行汇总,获得第二数量信息。上述第一目标相似性阈值以及第二目标相似度阈值仅用于区分数值型指标数据和字符型指标数据在进行相似度计算时所参考的相似性阈值为不同类别的相似性阈值。
最后,将第二数量信息与第一数量信息的比值确定为指标数据相似度数值。例如,第二数量信息与第一数量信息的比值高于预定比值,则表明第一指标数据和第二指标数据中相似的指标数据占比较高,进一步表明第一指标序列与第二指标序列之间的相似度较高。例如,针对记录会员信息的数据表,指标序列A和指标序列B都取相同主键数据所对应的10000个会员,查看该10000个会员在指标序列A和指标序列B中对应的指标数据(例如,交易量),如果有9999个会员在指标序列A和指标序列B中对应的指标数据是相同的,则指标序列A和指标序列B的相似度为9999/10000*100%。
方式二:将第一指标序列的元数据与第二指标序列的元数据进行相似性比对,获得元数据相似度数值;如果元数据相似度数值达到预定的元数据相似度阈值,则将第一指标序列中的指标数据与第二指标序列中的指标数据进行相似性比对,获得指标数据相似度数值,例如,采用上述方式一中的方法获得指标数据相似度数值;如果指标数据相似度数值达到预定的指标数据相似度阈值,则确定第一指标序列与第二指标序列之间的相似度达到预定的相似度阈值。指标序列的元数据可以为指标序列所对应的指标名称、指标类型、第一原始数据表或第二原始数据表的名称以及字段名称等属性信息,也可以为指标血缘数据,指标血缘数据可以是指指标序列向上追溯所获得的源数据表的名称。
上述将第一指标序列的元数据与第二指标序列的元数据进行相似性比对的过程可以为:获得第一指标序列的第一元数据,并获得第二指标序列的第二元数据,第一元数据与第二元数据为相同类别的元数据,该第一元数据或第二元数据可以为上述指标名称、指标类型、第一原始数据表或第二原始数据表的名称、字段名称以及指标血缘数据等数据中的一种;将第一元数据转化为第一特征向量,以及将第二元数据转化为第二特征向量;计算第一特征向量与第二特征向量之间的相似性,获得元数据相似度数值,例如,可采用聚类算法计算不同指标序列的元数据之间的相似性,聚类算法可根据指标元数据的特征向量将相似度达到预定的相似度阈值的指标序列进行聚类。
在本实施例中,可采用Word2Vec算法将指标名称转化为特征向量,可采用One-Hot编码算法将指标类型转化为特征向量,可采用One-Hot编码算法将第一原始数据表或第二原始数据表的名称转化为特征向量,采用Word2Vec算法将字段名称转化为特征向量,以及采用Node2Vec算法将指标血缘数据转化为特征向量。上述Word2Vec算法能生成词向量,通过词向量可度量词与词之间的相似性,其采用的模型包含了连续词袋模型(CBOW)和Skip-Gram模型,其可以针对大数据量进行高效训练而得到词向量。上述Node2vec算法通过构造节点在网络上的随机游走路径,以此模仿文本生成的过程,其提供一个随机游走节点序列,并利用Skip-gram模型和Hierarchical Softmax模型对随机游走节点序列中的每个局部窗口内的节点对进行概率建模,最大化随机游走节点序列的似然概率,该算法通过引入的参数将宽度优先搜索和深度优先搜索引入到随机游走节点序列的生成过程中,输出每个节点的特征向量。上述One-Hot编码算法用于将分类变量表示为二进制向量,其将分类值映射到整数值,并将每个整数值表示为二进制向量。
其中,将指标血缘数据转化为特征向量的过程如下所示:根据所述第一指标序列的指标血缘数据和所述第二指标序列的指标血缘数据构建关系图,在该关系图中,“节点”代表指标序列,“边”代表根据不同指标序列所对应的同源表的级别信息所分配的权重信息,例如,指标序列A溯源一级的表有数据表A1-1和数据表A1-2,指标序列B溯源一级的表有数据表B1-1数据表B1-2,指标序列B溯源二级的表有数据表B2-1数据表B2-2,指标序列B溯源三级的表有数据表B3-1、数据表B3-2以及数据表A1-1,则指标序列A溯源一级和指标序列B溯源三级后对应同一个数据表A1-1,因此,可认为指标序列A与指标序列B三级同源,并基于此构造指标序列A与指标序列B的边,该边所对应的权重可配置为0.3。多个指标序列可构成该多个指标序列之间的关系图,如果指标序列A和指标序列B一级同源(表),则节点A和节点B的边的权重为1;如果指标序列A和指标序列C二级同源(表),则节点A和节点C的边的权重为0.5;如果指标序列A和指标序列D三级同源(表),则节点A和节点D的边的权重为0.3;如果指标序列A和指标序列E四级同源(表),则节点A和节点E的边的权重为0.2;如果指标序列A和指标序列F五级同源(表),则节点A和节点F的边的权重为0.1。基于上述关系图,采用Node2Vec算法可将每个指标序列转向量空间,获得每个指标序列的特征向量。
在本实施例中,上述获得第一指标序列的第一元数据,并获得第二指标序列的第二元数据,可以是指:获得第一指标序列的多个第一元数据,并获得第二指标序列的多个第二元数据,例如,多个第一元数据可以为第一指标序列对应的指标名称、指标类型、第一原始数据表的名称、字段名称、指标血缘等信息;对应的,将第一元数据转化为第一特征向量,以及将第二元数据转化为第二特征向量,具体可以是指:将多个第一元数据转化为多个第一特征向量,以及将多个第二元数据转化为多个第二特征向量;对应的,计算第一特征向量与第二特征向量的相似性,获得元数据相似度数值,具体可以是指:将上述多个第一特征向量合并为第一目标向量,并将上述多个第二特征向量合并为第二目标向量;采用聚类算法计算第一目标向量与第二目标向量之间的相似度,获得元数据相似度数值。
方式三:将第一指标序列中的指标数据的分布统计数据与第二指标序列中的指标数据的分布统计数据进行相似性比对,获得分布统计相似度数值;如果分布统计相似度数值达到预定的分布统计相似度阈值,则将第一指标序列中的指标数据与第二指标序列中的指标数据进行相似性比对,获得指标数据相似度数值,例如,采用上述方式一中所提供的方法获得指标数据相似度数值;如果指标数据相似度数值达到预定的指标数据相似度阈值,则确定第一指标序列与第二指标序列之间的相似度达到预定的相似度阈值。第一指标序列中的指标数据的分布统计数据可以为第一指标序列中的指标数据的平均数、中位数、众数、各分位数、方差、标准差、最大值、最小值等数据。在将第一指标序列中的指标数据的分布统计数据与第二指标序列中的指标数据的分布统计数据进行相似性比对之前,需对上述分布统计数据进行归一化处理。
将第一指标序列中的指标数据的分布统计数据与第二指标序列中的指标数据的分布统计数据进行相似性比对的过程具体包括如下内容:对第一指标序列中的指标数据进行抽样处理,获得第一备选指标数据,并对第二指标序列中的指标数据进行抽样处理,获得第二备选指标数据;获得第一备选指标数据的第一分布统计数据,并获得第二备选指标数据的第二分布统计数据,第一分布统计数据与第二分布统计数据为相同类型的分布统计数据;计算第一分布统计数据和第二分布统计数据之间的相似度,获得分布统计相似度数值。
在本实施例中,获得第一备选指标数据的第一分布统计数据,并获得第二备选指标数据的第二分布统计数据,可以是指:获得第一备选指标数据的多个第一分布统计数据,并获得第二备选指标数据的多个第二分布统计数据;对应的,计算第一分布统计数据和第二分布统计数据之间的相似度,具体可以是指:采用聚类算法计算多个第一分布统计数据与多个第二分布统计数据之间的相似度,获得分布统计相似度数值。
方式四:将第一指标序列的元数据与第二指标序列的元数据进行相似性比对,获得元数据相似度数值,例如采用上述方式二中所提供的方法获得元数据相似度数值;如果元数据相似度数值达到预定的元数据相似度阈值,则将第一指标序列中的指标数据的分布统计数据与第二指标序列中的指标数据的分布统计数据进行相似性比对,获得分布统计相似度数值,例如采用上述方式三中所提供的方法获得分布统计相似度数值;如果分布统计相似度数值达到预定的分布统计相似度阈值,则将第一指标序列中的指标数据与第二指标序列中的指标数据进行相似性比对,获得指标数据相似度数值;如果指标数据相似度数值达到预定的指标数据相似度阈值,则确定第一指标序列与第二指标序列之间的相似度达到预定的相似度阈值。
上述方式二、方式三以及方式四均为对方式一的补充,从多个维度对指标序列的相似性进行比对,其目的在于缩减比对范围,使得指标序列的相似性比对过程更具针对性和准确性。
在本实施例中,如图1-A所示,上述根据第一指标序列或第二指标序列,获得目标通用数据表,可以是指:按照预定的数据仓库主题域建设标准,根据第一指标序列以及第一指标序列对应的第一主键序列建立目标通用数据表,或者根据第二指标序列以及第二指标序列对应的第二主键序列建立目标通用数据表,所获得的目标通用数据表如图1-A所示。
在本实施例中,在建设目标通用数据表之前,还可验证第一指标序列的口径信息与第二指标序列的口径信息是否匹配,例如,查询第一指标序列与第二指标序列的代码生成逻辑是否一致;在确定第一指标序列的口径信息与第二指标序列的口径信息相匹配之后,根据第一指标序列或第二指标序列,获得目标通用数据表。通过指标序列的口径匹配过程,可在上述元数据相似性比对、指标序列的分布统计数据相似性比对以及指标数据相似性比对等相似性比对方式的基础上进一步提升相似性比对的精准度。
在上述获得目标通用数据表之后,还可基于该目标通用数据表对第一原始数据表以及第二原始数据表进行整改。例如,如图1-B所示,业务方A开发的交易量表A包含交易量指标A1、交易量指标A2、交易量指标A3三个指标序列,业务方B开发的交易量表B包含交易量指标B1,如果指标序列A1和指标序列B1的之间的相似度达到预定的相似度阈值,则基于指标序列A1或指标序列B1开发通用数据表C,通用数据表C的字段C1的取数加工逻辑即为指标序列A1对应字段的取数加工逻辑或指标序列B1对应字段的取数加工逻辑。交易量表A可通过如下方式进行整改:去除A1的取数加工逻辑,业务方A后续使用指标序列A1的数据时,直接从通用数据表C获取C1;交易量表B可通过如下方式进行整改:删除交易量表B,业务方B后续使用指标序列B1的数据时,直接从通用数据表C获取C1字段即可。通过该方式,可满足通用数据表C一次建设,多次使用,节省了对交易量表A中A1指标序列和交易量表B中指标序列B1的加工计算成本和数据存储成本。
本实施例提供的上述方法通过从两个原始数据表中分别选取一个指标序列进行相似性比对,并基于比对结果建立通用数据表。需要说明的是,本实施例提供的方法同样适用于针对大批量数据表的多个指标序列进行相似性比对,并基于比对结果建立适用于多个原始数据表的通用数据表,例如,对多个原始数据表进行同步拆分,获得多个指标序列,通过上述元数据相似性比对、指标序列的分布统计数据相似性比对以及指标数据相似性比对等相似性比对方式对该多个指标序列进行两两比对,获得多个指标序列中相似度达到预定相似度阈值的相同或相似指标序列,并基于该相同或相似指标序列建立通用数据表。
本实施例提供的数据处理方法,通过对第一原始数据表和第二原始数据表进行拆分的方式获得多个指标序列,在确定拆分自上述不同原始数据表的指标序列之间的相似度数值达到预定的相似度阈值之后,根据上述拆分自上述不同原始数据表的指标序列建设目标通用数据表。通过使用该方法,可在已有的众多个性化数据表中快速查找出具有较高相似度的指标序列,并基于此建立通用数据表,使得一次建设的通用数据表供各数据需求方进行多次使用,可避免各数据需求方重复建设数据表,减少了现有的因重复建设数据表所造成的数据存储资源和数据计算资源的耗费,降低了数据管理过程的复杂度,避免重复建设数据表所导致的数据表高速度、高数量增长的不可控状态,提升数据的复用性,且该方法无需指示各数据需求方按照预先制定的标准建设规范建设数据表,无需对数据进行过多管理,可避免现有的防止数据表重复建设过程中的数据管理成本高、无法满足所有数据需求方的业务需求、以及基于固定基础模型的多维分析无法满足业务拓展需求的问题。
上述第一实施例提供了一种数据处理方法,与之相对应的,本申请第二实施例还提供了一种数据处理装置,由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关的技术特征的细节部分请参见上述提供的方法实施例的对应说明即可,下述对装置实施例的描述仅仅是示意性的。
请参考图2理解该实施例,图2为本实施例提供的装置的单元框图,如图2所示,本实施例提供的装置包括:
原始数据表获得单元201,用于获得第一原始数据表和第二原始数据表;
指标序列获得单元202,用于对所述第一原始数据表进行拆分,获得第一指标序列,并对所述第二原始数据表进行拆分,获得第二指标序列;
目标通用数据表获得单元203,用于在确定所述第一指标序列与所述第二指标序列之间的相似度达到预定的相似度阈值时,根据所述第一指标序列或所述第二指标序列,获得目标通用数据表。
可选的,还包括:将所述第一指标序列中的指标数据与所述第二指标序列中的指标数据进行相似性比对,获得指标数据相似度数值;
如果所述指标数据相似度数值达到预定的指标数据相似度阈值,则确定所述第一指标序列与所述第二指标序列之间的相似度达到预定的相似度阈值。
可选的,还包括:将所述第一指标序列的元数据与所述第二指标序列的元数据进行相似性比对,获得元数据相似度数值;
如果所述元数据相似度数值达到预定的元数据相似度阈值,则将所述第一指标序列中的指标数据与所述第二指标序列中的指标数据进行相似性比对,获得指标数据相似度数值;
如果所述指标数据相似度数值达到预定的指标数据相似度阈值,则确定所述第一指标序列与所述第二指标序列之间的相似度达到预定的相似度阈值。
可选的,还包括:将第一指标序列中的指标数据的分布统计与所述第二指标序列中的指标数据的分布统计进行相似性比对,获得分布统计相似度数值;
如果所述分布统计相似度数值达到预定的分布统计相似度阈值,则将所述第一指标序列中的指标数据与所述第二指标序列中的指标数据进行相似性比对,获得指标数据相似度数值;
如果所述指标数据相似度数值达到预定的指标数据相似度阈值,则确定所述第一指标序列与所述第二指标序列之间的相似度达到预定的相似度阈值。
可选的,还包括:将所述第一指标序列的元数据与所述第二指标序列的元数据进行相似性比对,获得元数据相似度数值;
如果所述元数据相似度数值达到预定的元数据相似度阈值,则将所述第一指标序列中的指标数据的分布统计与所述第二指标序列中的指标数据的分布统计进行相似性比对,获得分布统计相似度数值;
如果所述分布统计相似度数值达到预定的分布统计相似度阈值,则将所述第一指标序列中的指标数据与所述第二指标序列中的指标数据进行相似性比对,获得指标数据相似度数值;
如果所述指标数据相似度数值达到预定的指标数据相似度阈值,则确定所述第一指标序列与所述第二指标序列之间的相似度达到预定的相似度阈值。
可选的,所述将所述第一指标序列中的指标数据与所述第二指标序列中的指标数据进行相似性比对,获得指标数据相似度数值,包括:
获得主键数据相匹配的第一指标数据和第二指标数据,以及获得所述第一指标数据或所述第二指标数据的第一数量信息,所述第一指标数据来自所述第一指标序列,所述第二指标数据来自所述第二指标序列;
对所述第一指标数据和所述第二指标数据进行相似性计算,获得相似性达到目标相似性阈值的指标数据对的第二数量信息;
将所述第二数量信息与所述第一数量信息的比值确定为所述指标数据相似度数值。
可选的,所述第一指标数据和所述第二指标数据为数值型指标数据,所述对所述第一指标数据与所述第二指标数据进行相似性计算,获得相似性达到目标相似性阈值的指标数据对的第二数量信息,包括:
将所述第一指标数据和所述第二指标数据转换为数字型指标数据;
对所述数字型指标数据进行精度换算;
将经过精度换算后的第一指标数据和第二指标数据进行相似性计算,获得相似性达到第一目标相似性阈值的第一目标指标数据和第二目标指标数据,所述第一目标指标数据所属于所述第一指标数据,所述第二目标指标数据所属于所述第二指标数据,所述第一目标指标数据和第二目标指标数据组成所述指标数据对;
对所述指标数据对的数量进行汇总,获得所述第二数量信息。
可选的,所述第一指标数据和所述第二指标数据为字符型指标数据,所述对所述第一指标数据和所述第二指标数据进行相似性计算,获得相似性达到目标相似性阈值的指标数据对的第二数量信息,包括:
对所述第一指标数据进行向量化处理,获得第一指标向量,并且对所述第二指标数据进行向量化处理,获得第二指标向量;
对所述第一指标向量和所述第二指标向量进行余弦相似度计算,获得相似度达到第二目标相似度阈值的第一目标指标向量和第二目标指标向量,所述第一目标指标向量所属于所述第一指标向量,所述第二目标指标向量所属于所述第二指标向量,所述第一目标指标向量对应的第一目标指标数据与所述第二目标指标向量对应的第二目标指标数据组成所述指标数据对;
对所述指标数据对的数量进行汇总,获得所述第二数量信息。
可选的,所述获得主键数据相匹配的第一指标数据和第二指标数据,包括:
针对所述第一指标序列中的指标数据进行随机抽样处理,获得第一指标数据矩阵,并针对所述第一指标序列中的指标数据进行随机抽样处理,获得第二指标数据矩阵;
关联所述第一指标数据矩阵和所述第二指标数据矩阵,获得所述主键数据相匹配的第一指标数据和第二指标数据。
可选的,所述将所述第一指标序列的元数据与所述第二指标序列的元数据进行相似性比对,获得元数据相似度数值,包括:
获得所述第一指标序列的第一元数据,并获得所述第二指标序列的第二元数据,所述第一元数据与所述第二元数据为相同类别的元数据;
将所述第一元数据转化为第一特征向量,以及将所述第二元数据转化为第二特征向量;
计算所述第一特征向量与所述第二特征向量之间的相似性,获得元数据相似度数值。
可选的,所述获得所述第一指标序列的第一元数据,并获得所述第二指标序列的第二元数据,包括:获得所述第一指标序列的多个第一元数据,并获得所述第二指标序列的多个第二元数据;
对应的,所述根据所述同源表的级别信息,将所述第一元数据转化为第一特征向量,以及将所述第二元数据转化为第二特征向量,包括:
根据所述同源表的级别信息,将所述多个第一元数据转化为多个第一特征向量,以及将所述多个第二元数据转化为多个第二特征向量;
对应的,所述计算所述第一特征向量与所述第二特征向量的相似性,获得元数据相似度数值,包括:将所述多个第一特征向量合并为第一目标向量,并将所述多个第二特征向量合并为第二目标向量;计算所述第一目标向量与所述第二目标向量之间的相似度,获得所述元数据相似度数值。
可选的,第一指标序列的元数据包括第一指标序列的指标血缘数据,第二指标序列的元数据包括第二指标序列的指标血缘数据,所述将所述第一元数据转化为第一特征向量,以及将所述第二元数据转化为第二特征向量,包括:
根据所述第一指标序列的指标血缘数据和所述第二指标序列的指标血缘数据构建关系图,在该关系图中,点代表第一指标序列和第二指标序列,边代表根据第一指标序列和第二指标序列所对应的同源表的级别信息所分配的权重信息;
根据所述关系图获得第一特征向量和第二特征向量。
可选的,将第一指标序列中的指标数据的分布统计与第二指标序列中的指标数据的分布统计进行相似性比对,获得分布统计相似度数值,包括:
对所述第一指标序列中的指标数据进行抽样处理,获得第一备选指标数据,并对所述第二指标序列中的指标数据进行抽样处理,获得第二备选指标数据;
获得所述第一备选指标数据的第一分布统计数据,并获得所述第二备选指标数据的第二分布统计数据,所述第一分布统计数据与所述第二分布统计数据为相同类型的分布统计数据;
计算所述第一分布统计数据和所述第二分布统计数据之间的相似度,获得所述分布统计相似度数值。
可选的,所述获得所述第一备选指标数据的第一分布统计数据,并获得所述第二备选指标数据的第二分布统计数据,包括:
获得所述第一备选指标数据的多个第一分布统计数据,并获得所述第二备选指标数据的多个第二分布统计数据;
对应的,所述计算所述第一分布统计数据和所述第二分布统计数据之间的相似度,获得所述分布统计相似度数值,包括:
采用聚类算法计算所述多个第一分布统计数据与所述多个第二分布统计数据之间的相似度,获得所述分布统计相似度数值。
可选的,所述获得第一原始数据表和第二原始数据表,包括:
获得名称匹配的备选原始数据表;
对所述备选原始数据表的元数据进行分析,获得元数据相似度数值达到目标元数据相似度阈值的第一原始数据表和第二原始数据表。
可选的,所述对所述第一原始数据表进行拆分,获得第一指标序列,并对所述第二原始数据表进行拆分,获得第二指标序列,包括:
按照一个主键序列对应一个指标序列的方式对所述第一原始数据表进行拆分,获得第一组主键-指标序列对,并且按照所述一个主键序列对应一个指标序列的方式对所述第二原始数据表进行拆分,获得第二组主键-指标序列对;
从所述第一组主键-指标序列对中获得所述第一指标序列,并从所述第二组主键-指标序列对中获得所述第二指标序列。
可选的,所述根据所述第一指标序列或所述第二指标序列,获得目标通用数据表,包括:按照预定的数据仓库主题域建设标准,根据第一指标序列以及第一指标序列对应的第一主键序列建立目标通用数据表,或者根据所述第二指标序列以及所述第二指标序列对应的第二主键序列建立目标通用数据表。
可选的,还包括:根据所述目标数据通用表,对所述第一原始数据表进行整改。
可选的,还包括:根据所述目标数据通用表,对所述第二原始数据表进行整改。
可选的,还包括:验证所述第一指标序列的口径信息与所述第二指标序列的口径信息是否匹配;
所述根据所述第一指标序列或所述第二指标序列,获得目标通用数据表,包括:在确定所述第一指标序列的口径信息与所述第二指标序列的口径信息相匹配之后,根据所述第一指标序列或所述第二指标序列,获得目标通用数据表。
本实施例提供的数据处理装置,通过对第一原始数据表和第二原始数据表进行拆分的方式获得多个指标序列,在确定拆分自上述不同原始数据表的指标序列之间的相似度数值达到预定的相似度阈值之后,根据上述拆分自上述不同原始数据表的指标序列建设目标通用数据表。通过使用该装置,可在已有的众多个性化数据表中快速查找出具有较高相似度的指标序列,并基于此建立通用数据表,使得一次建设的通用数据表供各数据需求方进行多次使用,可减少现有的因重复建设数据表所造成的数据存储资源和数据计算资源的耗费,降低数据管理过程的复杂度。且该装置无需指示各数据需求方按照预先制定的标准建设规范建设数据表,可避免现有的防止数据表重复建设过程中的数据管理成本高、以及无法满足所有数据需求方的业务需求的问题。
在上述的实施例中,提供了一种数据处理方法以及一种数据处理装置,此外,本申请第三实施例还提供一种电子设备,由于电子设备实施例基本相似于方法实施例,所以描述得比较简单,相关的技术特征的细节部分请参见上述提供的方法实施例的对应说明即可,下述对电子设备实施例的描述仅仅是示意性的。该电子设备实施例如下:
请参考图3理解本实施例,图3为本实施例提供的电子设备的示意图。
如图3所示,所述电子设备包括:处理器301;存储器302;
所述存储器302用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如下步骤:
获得第一原始数据表和第二原始数据表;
对所述第一原始数据表进行拆分,获得第一指标序列,并对所述第二原始数据表进行拆分,获得第二指标序列;
如果所述第一指标序列与所述第二指标序列之间的相似度达到预定的相似度阈值,则根据所述第一指标序列或所述第二指标序列,获得目标通用数据表。
可选的,还包括:将所述第一指标序列中的指标数据与所述第二指标序列中的指标数据进行相似性比对,获得指标数据相似度数值;
如果所述指标数据相似度数值达到预定的指标数据相似度阈值,则确定所述第一指标序列与所述第二指标序列之间的相似度达到预定的相似度阈值。
可选的,还包括:
将所述第一指标序列的元数据与所述第二指标序列的元数据进行相似性比对,获得元数据相似度数值;
如果所述元数据相似度数值达到预定的元数据相似度阈值,则将所述第一指标序列中的指标数据与所述第二指标序列中的指标数据进行相似性比对,获得指标数据相似度数值;
如果所述指标数据相似度数值达到预定的指标数据相似度阈值,则确定所述第一指标序列与所述第二指标序列之间的相似度达到预定的相似度阈值。
可选的,还包括:将所述第一指标序列中的指标数据的分布统计与所述第二指标序列中的指标数据的分布统计进行相似性比对,获得分布统计相似度数值;如果所述分布统计相似度数值达到预定的分布统计相似度阈值,则将所述第一指标序列中的指标数据与所述第二指标序列中的指标数据进行相似性比对,获得指标数据相似度数值;如果所述指标数据相似度数值达到预定的指标数据相似度阈值,则确定所述第一指标序列与所述第二指标序列之间的相似度达到预定的相似度阈值。
可选的,还包括:将所述第一指标序列的元数据与所述第二指标序列的元数据进行相似性比对,获得元数据相似度数值;
如果所述元数据相似度数值达到预定的元数据相似度阈值,则将所述第一指标序列中的指标数据的分布统计与所述第二指标序列中的指标数据的分布统计进行相似性比对,获得分布统计相似度数值;
如果所述分布统计相似度数值达到预定的分布统计相似度阈值,则将所述第一指标序列中的指标数据与所述第二指标序列中的指标数据进行相似性比对,获得指标数据相似度数值;
如果所述指标数据相似度数值达到预定的指标数据相似度阈值,则确定所述第一指标序列与所述第二指标序列之间的相似度达到预定的相似度阈值。
可选的,所述将所述第一指标序列中的指标数据与所述第二指标序列中的指标数据进行相似性比对,获得指标数据相似度数值,包括:
获得主键数据相匹配的第一指标数据和第二指标数据,以及获得所述第一指标数据或所述第二指标数据的第一数量信息,所述第一指标数据来自所述第一指标序列,所述第二指标数据来自所述第二指标序列;
对所述第一指标数据和所述第二指标数据进行相似性计算,获得相似性达到目标相似性阈值的指标数据对的第二数量信息;
将所述第二数量信息与所述第一数量信息的比值确定为所述指标数据相似度数值。
可选的,所述第一指标数据和所述第二指标数据为数值型指标数据,所述对所述第一指标数据与所述第二指标数据进行相似性计算,获得相似性达到目标相似性阈值的指标数据对的第二数量信息,包括:
将所述第一指标数据和所述第二指标数据转换为数字型指标数据;
对所述数字型指标数据进行精度换算;
将经过精度换算后的第一指标数据和第二指标数据进行相似性计算,获得相似性达到第一目标相似性阈值的第一目标指标数据和第二目标指标数据,所述第一目标指标数据所属于所述第一指标数据,所述第二目标指标数据所属于所述第二指标数据,所述第一目标指标数据和第二目标指标数据组成所述指标数据对;
对所述指标数据对的数量进行汇总,获得所述第二数量信息。
可选的,所述第一指标数据和所述第二指标数据为字符型指标数据,所述对所述第一指标数据和所述第二指标数据进行相似性计算,获得相似性达到目标相似性阈值的指标数据对的第二数量信息,包括:
对所述第一指标数据进行向量化处理,获得第一指标向量,并且对所述第二指标数据进行向量化处理,获得第二指标向量;
对所述第一指标向量和所述第二指标向量进行余弦相似度计算,获得相似度达到第二目标相似度阈值的第一目标指标向量和第二目标指标向量,所述第一目标指标向量所属于所述第一指标向量,所述第二目标指标向量所属于所述第二指标向量,所述第一目标指标向量对应的第一目标指标数据与所述第二目标指标向量对应的第二目标指标数据组成所述指标数据对;
对所述指标数据对的数量进行汇总,获得所述第二数量信息。
可选的,所述获得主键数据相匹配的第一指标数据和第二指标数据,包括:
针对所述第一指标序列中的指标数据进行随机抽样处理,获得第一指标数据矩阵,并针对所述第一指标序列中的指标数据进行随机抽样处理,获得第二指标数据矩阵;
关联所述第一指标数据矩阵和所述第二指标数据矩阵,获得所述主键数据相匹配的第一指标数据和第二指标数据。
可选的,所述将所述第一指标序列的元数据与所述第二指标序列的元数据进行相似性比对,获得元数据相似度数值,包括:
获得所述第一指标序列的第一元数据,并获得所述第二指标序列的第二元数据,所述第一元数据与所述第二元数据为相同类别的元数据;
将所述第一元数据转化为第一特征向量,以及将所述第二元数据转化为第二特征向量;
计算所述第一特征向量与所述第二特征向量之间的相似性,获得元数据相似度数值。
可选的,所述获得所述第一指标序列的第一元数据,并获得所述第二指标序列的第二元数据,包括:获得所述第一指标序列的多个第一元数据,并获得所述第二指标序列的多个第二元数据;
对应的,所述根据所述同源表的级别信息,将所述第一元数据转化为第一特征向量,以及将所述第二元数据转化为第二特征向量,包括:
根据所述同源表的级别信息,将所述多个第一元数据转化为多个第一特征向量,以及将所述多个第二元数据转化为多个第二特征向量;
对应的,所述计算所述第一特征向量与所述第二特征向量的相似性,获得元数据相似度数值,包括:将所述多个第一特征向量合并为第一目标向量,并将所述多个第二特征向量合并为第二目标向量;计算所述第一目标向量与所述第二目标向量之间的相似度,获得所述元数据相似度数值。
可选的,所述第一指标序列的元数据包括第一指标序列的指标血缘数据,所述第二指标序列的元数据包括第二指标序列的指标血缘数据,所述将所述第一元数据转化为第一特征向量,以及将所述第二元数据转化为第二特征向量,包括:
根据第一指标序列的指标血缘数据和第二指标序列的指标血缘数据构建关系图,在该关系图中,点代表第一指标序列和第二指标序列,边代表根据第一指标序列和第二指标序列所对应的同源表的级别信息所分配的权重信息;
根据所述关系图获得第一特征向量和第二特征向量。
可选的,将所述第一指标序列中的指标数据的分布统计与所述第二指标序列中的指标数据的分布统计进行相似性比对,获得分布统计相似度数值,包括:
对所述第一指标序列中的指标数据进行抽样处理,获得第一备选指标数据,并对所述第二指标序列中的指标数据进行抽样处理,获得第二备选指标数据;
获得所述第一备选指标数据的第一分布统计数据,并获得所述第二备选指标数据的第二分布统计数据,所述第一分布统计数据与所述第二分布统计数据为相同类型的分布统计数据;
计算所述第一分布统计数据和所述第二分布统计数据之间的相似度,获得所述分布统计相似度数值。
可选的,所述获得所述第一备选指标数据的第一分布统计数据,并获得所述第二备选指标数据的第二分布统计数据,包括:
获得所述第一备选指标数据的多个第一分布统计数据,并获得所述第二备选指标数据的多个第二分布统计数据;
对应的,计算所述第一分布统计数据和第二分布统计数据之间的相似度,获得分布统计相似度数值,包括:采用聚类算法计算所述多个第一分布统计数据与该多个第二分布统计数据之间的相似度,获得所述分布统计相似度数值。
可选的,所述获得第一原始数据表和第二原始数据表,包括:
获得名称匹配的备选原始数据表;
对所述备选原始数据表的元数据进行分析,获得元数据相似度数值达到目标元数据相似度阈值的第一原始数据表和第二原始数据表。
可选的,所述对所述第一原始数据表进行拆分,获得第一指标序列,并对所述第二原始数据表进行拆分,获得第二指标序列,包括:
按照一个主键序列对应一个指标序列的方式对所述第一原始数据表进行拆分,获得第一组主键-指标序列对,并且按照所述一个主键序列对应一个指标序列的方式对所述第二原始数据表进行拆分,获得第二组主键-指标序列对;
从所述第一组主键-指标序列对中获得所述第一指标序列,并从所述第二组主键-指标序列对中获得所述第二指标序列。
可选的,所述根据所述第一指标序列或所述第二指标序列,获得目标通用数据表,包括:按照预定的数据仓库主题域建设标准,根据第一指标序列以及第一指标序列对应的第一主键序列建立目标通用数据表,或者根据第二指标序列以及第二指标序列对应的第二主键序列建立目标通用数据表。
可选的,还包括:根据所述目标数据通用表,对所述第一原始数据表进行整改。
可选的,还包括:根据所述目标数据通用表,对所述第二原始数据表进行整改。
可选的,还包括:验证所述第一指标序列的口径信息与所述第二指标序列的口径信息是否匹配;
所述根据所述第一指标序列或所述第二指标序列,获得目标通用数据表,包括:在确定所述第一指标序列的口径信息与所述第二指标序列的口径信息相匹配之后,根据所述第一指标序列或所述第二指标序列,获得目标通用数据表。
本实施例提供的电子设备,当其存储器上存储的计算机指令被其处理器执行后,可通过对第一原始数据表和第二原始数据表进行拆分的方式获得多个指标序列,在确定拆分自上述不同原始数据表的指标序列之间的相似度数值达到预定的相似度阈值之后,根据上述拆分自上述不同原始数据表的指标序列建设目标通用数据表。通过使用该电子设备,可在已有的众多个性化数据表中快速查找出具有较高相似度的指标序列,并基于此建立通用数据表,使得一次建设的通用数据表供各数据需求方进行多次使用,可减少现有的因重复建设数据表所造成的数据存储资源和数据计算资源的耗费,降低数据管理过程的复杂度。且该电子设备无需指示各数据需求方按照预先制定的标准建设规范建设数据表,可避免现有的防止数据表重复建设过程中的数据管理成本高、以及无法满足所有数据需求方的业务需求的问题。
本申请第四实施例还提供一种数据处理方法,该方法可作为上述第一实施例所提供的数据处理方法的产品化部署方案,该方法的实施主体可以为提供数据表压缩服务的计算设备应用,例如,在SaaS(软件即服务,Software-as-a-Service)模式下的数据表压缩服务软件,如图4所示,该方法包括如下步骤:
S401,接收输入的多个原始数据表。例如,接收用户A输入的多个原始数据表,或者接收来自不同用户的多个原始数据表。
S402,根据所述多个原始数据表获得目标通用数据表,并输出所述目标通用数据表;其中,所述目标通用数据表的任意一个指标序列,为所述多个原始数据表中至少两个原始数据表之间的相似指标序列中的一个指标序列,所述相似指标序列之间的相似度达到预定的相似度阈值。例如,在采用本申请第一实施例提供的数据处理方法对上述多个原始数据表进行处理后,获得目标通用数据表,并将该目标通用数据表提供给上述用户A,或者将该目标通用数据表分别提供给上述不同用户。
本申请第五实施例还提供一种数据处理方法,如图5所示,该方法包括如下步骤:
S501,获得目标通用数据表。
S502,获得所述目标通用数据表的生成来源数据。例如,获得生成该目标通用数据表所使用的生成算法以及用于对目标通用数据表的源数据表进行追溯的血缘数据。
S503,根据所述目标通用数据表的生成来源数据,获得生成所述目标通用数据表所需的至少两个源数据表。其中,所述目标通用数据表的指标序列,为所述至少两个源数据表之间的相似指标序列,所述相似指标序列之间的相似度达到预定的相似度阈值。
通过使用该方法,可实现对目标通用数据表的生成来源进行追溯,获得历史上生成该目标通用数据表的源数据表,该目标通用数据表的使用主体(例如,欲建设数据表的用户A,在其建设数据表之前,为其推荐目标通用数据表)可将上述获得的源数据表的内容与其自身的业务需求进行比对,以此确定目标通用数据表与其业务需求的匹配度。
本申请第六实施例还提供一种数据处理方法,如图6所示,该方法包括如下步骤:
S601,获得目标主体欲建设的数据表的待建设指标序列。例如,获得业务方A在建设数据表时所选取的指标序列的信息(例如“交易量指标”、“成交率指标”、“商品类别指标”),该指标序列的信息可反映业务方A的业务需求信息及其所属的行业信息。
S602,如果所述待建设指标序列与目标通用数据表的目标指标序列之间的相似度达到预定的相似度阈值,则将所述目标通用数据表推送给所述目标主体。例如,采用本申请第一实施例中步骤S103中提供的方式(优选待建设指标序列与目标指标序列之间的元数据相似度数值)判断该待建设指标序列与目标通用数据表的目标指标序列之间的相似度是否达到预定的相似度阈值,如果是,则将目标通用数据表推送给业务方A,业务方A可从该目标通用数据表中获取相应的业务信息及行业信息。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
Claims (25)
1.一种数据处理方法,其特征在于,包括:
获得第一原始数据表和第二原始数据表;
对所述第一原始数据表进行拆分,获得第一指标序列,并对所述第二原始数据表进行拆分,获得第二指标序列;
如果所述第一指标序列与所述第二指标序列之间的相似度达到预定的相似度阈值,则根据所述第一指标序列或所述第二指标序列,获得目标通用数据表。
2.根据权利要求1所述的方法,其特征在于,还包括:将所述第一指标序列中的指标数据与所述第二指标序列中的指标数据进行相似性比对,获得指标数据相似度数值;
如果所述指标数据相似度数值达到预定的指标数据相似度阈值,则确定所述第一指标序列与所述第二指标序列之间的相似度达到预定的相似度阈值。
3.根据权利要求1所述的方法,其特征在于,还包括:
将所述第一指标序列的元数据与所述第二指标序列的元数据进行相似性比对,获得元数据相似度数值;
如果所述元数据相似度数值达到预定的元数据相似度阈值,则将所述第一指标序列中的指标数据与所述第二指标序列中的指标数据进行相似性比对,获得指标数据相似度数值;
如果所述指标数据相似度数值达到预定的指标数据相似度阈值,则确定所述第一指标序列与所述第二指标序列之间的相似度达到预定的相似度阈值。
4.根据权利要求1所述的方法,其特征在于,还包括:
将所述第一指标序列中的指标数据的分布统计数据与所述第二指标序列中的指标数据的分布统计数据进行相似性比对,获得分布统计相似度数值;
如果所述分布统计相似度数值达到预定的分布统计相似度阈值,则将所述第一指标序列中的指标数据与所述第二指标序列中的指标数据进行相似性比对,获得指标数据相似度数值;
如果所述指标数据相似度数值达到预定的指标数据相似度阈值,则确定所述第一指标序列与所述第二指标序列之间的相似度达到预定的相似度阈值。
5.根据权利要求1所述的方法,其特征在于,还包括:
将所述第一指标序列的元数据与所述第二指标序列的元数据进行相似性比对,获得元数据相似度数值;
如果所述元数据相似度数值达到预定的元数据相似度阈值,则将所述第一指标序列中的指标数据的分布统计数据与所述第二指标序列中的指标数据的分布统计数据进行相似性比对,获得分布统计相似度数值;
如果所述分布统计相似度数值达到预定的分布统计相似度阈值,则将所述第一指标序列中的指标数据与所述第二指标序列中的指标数据进行相似性比对,获得指标数据相似度数值;
如果所述指标数据相似度数值达到预定的指标数据相似度阈值,则确定所述第一指标序列与所述第二指标序列之间的相似度达到预定的相似度阈值。
6.根据权利要求2-5中任一项所述的方法,其特征在于,所述将所述第一指标序列中的指标数据与所述第二指标序列中的指标数据进行相似性比对,获得指标数据相似度数值,包括:
获得主键数据相匹配的第一指标数据和第二指标数据,以及获得所述第一指标数据或所述第二指标数据的第一数量信息,所述第一指标数据来自所述第一指标序列,所述第二指标数据来自所述第二指标序列;
对所述第一指标数据和所述第二指标数据进行相似性计算,获得相似性达到目标相似性阈值的指标数据对的第二数量信息;
将所述第二数量信息与所述第一数量信息的比值确定为所述指标数据相似度数值。
7.根据权利要求6所述的方法,其特征在于,所述第一指标数据和所述第二指标数据为数值型指标数据,所述对所述第一指标数据与所述第二指标数据进行相似性计算,获得相似性达到目标相似性阈值的指标数据对的第二数量信息,包括:
将所述第一指标数据和所述第二指标数据转换为数字型指标数据;
对所述数字型指标数据进行精度换算;
将经过精度换算后的第一指标数据和第二指标数据进行相似性计算,获得相似性达到第一目标相似性阈值的第一目标指标数据和第二目标指标数据,所述第一目标指标数据所属于所述第一指标数据,所述第二目标指标数据所属于所述第二指标数据,所述第一目标指标数据和第二目标指标数据组成所述指标数据对;
对所述指标数据对的数量进行汇总,获得所述第二数量信息。
8.根据权利要求6所述的方法,其特征在于,所述第一指标数据和所述第二指标数据为字符型指标数据,所述对所述第一指标数据和所述第二指标数据进行相似性计算,获得相似性达到目标相似性阈值的指标数据对的第二数量信息,包括:
对所述第一指标数据进行向量化处理,获得第一指标向量,并且对所述第二指标数据进行向量化处理,获得第二指标向量;
对所述第一指标向量和所述第二指标向量进行余弦相似度计算,获得相似度达到第二目标相似度阈值的第一目标指标向量和第二目标指标向量,所述第一目标指标向量所属于所述第一指标向量,所述第二目标指标向量所属于所述第二指标向量,所述第一目标指标向量对应的第一目标指标数据与所述第二目标指标向量对应的第二目标指标数据组成所述指标数据对;
对所述指标数据对的数量进行汇总,获得所述第二数量信息。
9.根据权利要求6所述的方法,其特征在于,所述获得主键数据相匹配的第一指标数据和第二指标数据,包括:
针对所述第一指标序列中的指标数据进行随机抽样处理,获得第一指标数据矩阵,并针对所述第一指标序列中的指标数据进行随机抽样处理,获得第二指标数据矩阵;
关联所述第一指标数据矩阵和所述第二指标数据矩阵,获得所述主键数据相匹配的第一指标数据和第二指标数据。
10.根据权利要求3或5所述的方法,其特征在于,所述将所述第一指标序列的元数据与所述第二指标序列的元数据进行相似性比对,获得元数据相似度数值,包括:
获得所述第一指标序列的第一元数据,并获得所述第二指标序列的第二元数据,所述第一元数据与所述第二元数据为相同类别的元数据;
将所述第一元数据转化为第一特征向量,以及将所述第二元数据转化为第二特征向量;
计算所述第一特征向量与所述第二特征向量之间的相似性,获得元数据相似度数值。
11.根据权利要求10所述的方法,其特征在于,所述获得所述第一指标序列的第一元数据,并获得所述第二指标序列的第二元数据,包括:
获得所述第一指标序列的多个第一元数据,并获得所述第二指标序列的多个第二元数据;
对应的,所述根据所述同源表的级别信息,将所述第一元数据转化为第一特征向量,以及将所述第二元数据转化为第二特征向量,包括:
根据所述同源表的级别信息,将所述多个第一元数据转化为多个第一特征向量,以及将所述多个第二元数据转化为多个第二特征向量;
对应的,所述计算所述第一特征向量与所述第二特征向量的相似性,获得元数据相似度数值,包括:
将所述多个第一特征向量合并为第一目标向量,并将所述多个第二特征向量合并为第二目标向量;
计算所述第一目标向量与所述第二目标向量之间的相似度,获得所述元数据相似度数值。
12.根据权利要求10所述的方法,其特征在于,所述第一指标序列的元数据包括第一指标序列的指标血缘数据,所述第二指标序列的元数据包括第二指标序列的指标血缘数据,所述将所述第一元数据转化为第一特征向量,以及将所述第二元数据转化为第二特征向量,包括:
根据所述第一指标序列的指标血缘数据和所述第二指标序列的指标血缘数据构建关系图,在该关系图中,点代表第一指标序列和第二指标序列,边代表根据第一指标序列和第二指标序列所对应的同源表的级别信息所分配的权重信息;
根据所述关系图获得第一特征向量和第二特征向量。
13.根据权利要求4或5所述的方法,其特征在于,所述将所述第一指标序列中的指标数据的分布统计数据与所述第二指标序列中的指标数据的分布统计数据进行相似性比对,获得分布统计相似度数值,包括:
对所述第一指标序列中的指标数据进行抽样处理,获得第一备选指标数据,并对所述第二指标序列中的指标数据进行抽样处理,获得第二备选指标数据;
获得所述第一备选指标数据的第一分布统计数据,并获得所述第二备选指标数据的第二分布统计数据,所述第一分布统计数据与所述第二分布统计数据为相同类型的分布统计数据;
计算所述第一分布统计数据和所述第二分布统计数据之间的相似度,获得所述分布统计相似度数值。
14.根据权利要求13所述的方法,其特征在于,所述获得所述第一备选指标数据的第一分布统计数据,并获得所述第二备选指标数据的第二分布统计数据,包括:
获得所述第一备选指标数据的多个第一分布统计数据,并获得所述第二备选指标数据的多个第二分布统计数据;
对应的,所述计算所述第一分布统计数据和所述第二分布统计数据之间的相似度,获得所述分布统计相似度数值,包括:
采用聚类算法计算所述多个第一分布统计数据与所述多个第二分布统计数据之间的相似度,获得所述分布统计相似度数值。
15.根据权利要求1所述的方法,其特征在于,所述获得第一原始数据表和第二原始数据表,包括:
获得名称匹配的备选原始数据表;
对所述备选原始数据表的元数据进行分析,获得元数据相似度数值达到目标元数据相似度阈值的第一原始数据表和第二原始数据表。
16.根据权利要求1所述的方法,其特征在于,所述对所述第一原始数据表进行拆分,获得第一指标序列,并对所述第二原始数据表进行拆分,获得第二指标序列,包括:
按照一个主键序列对应一个指标序列的方式对所述第一原始数据表进行拆分,获得第一组主键-指标序列对,并且按照所述一个主键序列对应一个指标序列的方式对所述第二原始数据表进行拆分,获得第二组主键-指标序列对;
从所述第一组主键-指标序列对中获得所述第一指标序列,并从所述第二组主键-指标序列对中获得所述第二指标序列。
17.根据权利要求1所述的方法,其特征在于,所述根据所述第一指标序列或所述第二指标序列,获得目标通用数据表,包括:
按照预定的数据仓库主题域建设标准,根据所述第一指标序列以及所述第一指标序列对应的第一主键序列建立目标通用数据表,或者根据所述第二指标序列以及所述第二指标序列对应的第二主键序列建立目标通用数据表。
18.根据权利要求1所述的方法,其特征在于,还包括:
根据所述目标数据通用表,对所述第一原始数据表进行整改。
19.根据权利要求1所述的方法,其特征在于,还包括:
根据所述目标数据通用表,对所述第二原始数据表进行整改。
20.根据权利要求1所述的方法,其特征在于,还包括:验证所述第一指标序列的口径信息与所述第二指标序列的口径信息是否匹配;
所述根据所述第一指标序列或所述第二指标序列,获得目标通用数据表,包括:
在确定所述第一指标序列的口径信息与所述第二指标序列的口径信息相匹配之后,根据所述第一指标序列或所述第二指标序列,获得目标通用数据表。
21.一种数据处理装置,其特征在于,包括:
原始数据表获得单元,用于获得第一原始数据表和第二原始数据表;
指标序列获得单元,用于对所述第一原始数据表进行拆分,获得第一指标序列,并对所述第二原始数据表进行拆分,获得第二指标序列;
目标通用数据表获得单元,用于在确定所述第一指标序列与所述第二指标序列之间的相似度达到预定的相似度阈值时,根据所述第一指标序列或所述第二指标序列,获得目标通用数据表。
22.一种电子设备,其特征在于,包括处理器和存储器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如权利要求1-20所述的方法。
23.一种数据处理方法,其特征在于,包括:
接收输入的多个原始数据表;
根据所述多个原始数据表获得目标通用数据表,并输出所述目标通用数据表;
其中,所述目标通用数据表的任意一个指标序列,为所述多个原始数据表中至少两个原始数据表之间的相似指标序列中的一个指标序列,所述相似指标序列之间的相似度达到预定的相似度阈值。
24.一种数据处理方法,其特征在于,包括:
获得目标通用数据表;
获得所述目标通用数据表的生成来源数据;
根据所述目标通用数据表的生成来源数据,获得生成所述目标通用数据表所需的至少两个源数据表;
其中,所述目标通用数据表的指标序列,为所述至少两个源数据表之间的相似指标序列,所述相似指标序列之间的相似度达到预定的相似度阈值。
25.一种数据处理方法,其特征在于,包括:
获得目标主体欲建设的数据表的待建设指标序列;
如果所述待建设指标序列与目标通用数据表的目标指标序列之间的相似度达到预定的相似度阈值,则将所述目标通用数据表推送给所述目标主体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911211509.XA CN112988698A (zh) | 2019-12-02 | 2019-12-02 | 一种数据处理方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911211509.XA CN112988698A (zh) | 2019-12-02 | 2019-12-02 | 一种数据处理方法以及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112988698A true CN112988698A (zh) | 2021-06-18 |
Family
ID=76330942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911211509.XA Pending CN112988698A (zh) | 2019-12-02 | 2019-12-02 | 一种数据处理方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112988698A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113920381A (zh) * | 2021-12-15 | 2022-01-11 | 深圳市明源云科技有限公司 | 重复派生指标识别方法、电子设备及可读存储介质 |
CN114443783A (zh) * | 2022-04-11 | 2022-05-06 | 浙江大学 | 一种供应链数据分析和增强处理方法及装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999039174A2 (en) * | 1998-01-29 | 1999-08-05 | Yissum Research Development Company Of The Hebrew University Of Jerusalem | An automatic method of classifying molecules |
JP2005326897A (ja) * | 2003-10-21 | 2005-11-24 | Ipb:Kk | 技術・知財評価装置及び技術・知財評価方法 |
CN103902582A (zh) * | 2012-12-27 | 2014-07-02 | 中国移动通信集团湖北有限公司 | 一种减少数据仓库数据冗余的方法和装置 |
US20160196306A1 (en) * | 2015-01-07 | 2016-07-07 | International Business Machines Corporation | Technology for join processing |
CN107291672A (zh) * | 2016-03-31 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 数据表的处理方法和装置 |
CN109165119A (zh) * | 2018-08-07 | 2019-01-08 | 泾县麦蓝网络技术服务有限公司 | 一种电子商务数据处理方法和系统 |
CN109739894A (zh) * | 2019-01-04 | 2019-05-10 | 深圳前海微众银行股份有限公司 | 补充元数据描述的方法、装置、设备及存储介质 |
CN109783611A (zh) * | 2018-12-29 | 2019-05-21 | 北京明略软件系统有限公司 | 一种字段匹配的方法、装置、计算机存储介质及终端 |
CN109783498A (zh) * | 2019-01-17 | 2019-05-21 | 北京三快在线科技有限公司 | 数据处理方法及装置、电子设备、存储介质 |
WO2019127282A1 (zh) * | 2017-12-28 | 2019-07-04 | 深圳配天智能技术研究院有限公司 | 一种数据库合并的方法以及装置 |
CN110309143A (zh) * | 2018-03-21 | 2019-10-08 | 华为技术有限公司 | 数据相似度确定方法、装置及处理设备 |
-
2019
- 2019-12-02 CN CN201911211509.XA patent/CN112988698A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999039174A2 (en) * | 1998-01-29 | 1999-08-05 | Yissum Research Development Company Of The Hebrew University Of Jerusalem | An automatic method of classifying molecules |
JP2005326897A (ja) * | 2003-10-21 | 2005-11-24 | Ipb:Kk | 技術・知財評価装置及び技術・知財評価方法 |
CN103902582A (zh) * | 2012-12-27 | 2014-07-02 | 中国移动通信集团湖北有限公司 | 一种减少数据仓库数据冗余的方法和装置 |
US20160196306A1 (en) * | 2015-01-07 | 2016-07-07 | International Business Machines Corporation | Technology for join processing |
CN107291672A (zh) * | 2016-03-31 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 数据表的处理方法和装置 |
WO2019127282A1 (zh) * | 2017-12-28 | 2019-07-04 | 深圳配天智能技术研究院有限公司 | 一种数据库合并的方法以及装置 |
CN110309143A (zh) * | 2018-03-21 | 2019-10-08 | 华为技术有限公司 | 数据相似度确定方法、装置及处理设备 |
CN109165119A (zh) * | 2018-08-07 | 2019-01-08 | 泾县麦蓝网络技术服务有限公司 | 一种电子商务数据处理方法和系统 |
CN109783611A (zh) * | 2018-12-29 | 2019-05-21 | 北京明略软件系统有限公司 | 一种字段匹配的方法、装置、计算机存储介质及终端 |
CN109739894A (zh) * | 2019-01-04 | 2019-05-10 | 深圳前海微众银行股份有限公司 | 补充元数据描述的方法、装置、设备及存储介质 |
CN109783498A (zh) * | 2019-01-17 | 2019-05-21 | 北京三快在线科技有限公司 | 数据处理方法及装置、电子设备、存储介质 |
Non-Patent Citations (2)
Title |
---|
PRAVEEN SESHADRI ET AL: "The Design and Implementation of a Sequence database Systems", 《PROCEEDINGS OF THE 22ND VLDB CONFERENCE》, 31 December 1996 (1996-12-31) * |
李国祥;夏国恩;王继军;: "多维数据特征相似性测量的目标预测方法", 统计与决策, no. 09, 11 May 2018 (2018-05-11) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113920381A (zh) * | 2021-12-15 | 2022-01-11 | 深圳市明源云科技有限公司 | 重复派生指标识别方法、电子设备及可读存储介质 |
CN114443783A (zh) * | 2022-04-11 | 2022-05-06 | 浙江大学 | 一种供应链数据分析和增强处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10726356B1 (en) | Target variable distribution-based acceptance of machine learning test data sets | |
US20210357697A1 (en) | Techniques to embed a data object into a multidimensional frame | |
Pichler et al. | Quantitative stability analysis for minimax distributionally robust risk optimization | |
CN107622326B (zh) | 用户分类、可用资源预测方法、装置及设备 | |
CN111966886A (zh) | 对象推荐方法、对象推荐装置、电子设备及存储介质 | |
CN112527970A (zh) | 数据字典标准化处理方法、装置、设备及存储介质 | |
CN112988698A (zh) | 一种数据处理方法以及装置 | |
Afuecheta et al. | Flexible models for stock returns based on Student's t distribution | |
Lee et al. | Introduction to support vector machines and their applications in bankruptcy prognosis | |
CN110458581B (zh) | 商户业务周转异常的识别方法及装置 | |
CN112508119A (zh) | 特征挖掘组合方法、装置、设备及计算机可读存储介质 | |
US20230016044A1 (en) | Techniques for creating and utilizing multidimensional embedding spaces | |
Glassen et al. | Finding the mean in a partition distribution | |
US11487964B2 (en) | Comprehensive data science solution for segmentation analysis | |
US11715037B2 (en) | Validation of AI models using holdout sets | |
CN112732891A (zh) | 办公课程推荐方法、装置、电子设备及介质 | |
CN111639260A (zh) | 内容推荐方法及其装置、存储介质 | |
Wang et al. | Differentiated management strategies on cloud computing data security driven by data value | |
Yaremchuck et al. | Search of similar programs using code metrics and big data-based assessment of software reliability | |
CN112085522A (zh) | 一种工程项目的造价数据处理方法、系统、装置及介质 | |
Siudak | The effect of self-organizing map architecture based on the value migration network centrality measures on stock return. Evidence from the US market | |
CN117149999B (zh) | 基于法律要素层次网络和文本特征的类案推荐方法及装置 | |
Li et al. | A clustering algorithm for fuzzy numbers based on fast search and find of density peaks | |
Sevier | Text Classification of installation Support Contract Topic Models for Category Management | |
Atif et al. | The least sample size essential for detecting changes in clustering solutions of streaming datasets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |