CN110019164A

CN110019164A - 一种异构结构化数据融合概率的计算方法及系统

Info

Publication number: CN110019164A
Application number: CN201711292720.XA
Authority: CN
Inventors: 张鹏飞
Original assignee: Shanghai Instrument Electric (group) Co Ltd Central Research Institute
Current assignee: Shanghai Instrument Electric (group) Co Ltd Central Research Institute
Priority date: 2017-12-08
Filing date: 2017-12-08
Publication date: 2019-07-16

Abstract

本发明公开一种异构结构化数据融合概率的计算方法，包括以下步骤：S1数据读取，读取数据集，将数据集的各字段信息读入系统；S2数据分析，将S1读取的数据集，按其结构化表项进行整理和统计，得到表项特征向量；S3人工标注，将已融合过的数据集进行融合度人工标注，通过对比已融合过的数据集的表项特征向量与融合度人工标注结果，得到表项特征向量与融合度之间的概率模型；S4建立机器学习模型，将S2和S3得到的结果进行机器学习训练，得到各数据集不同字段之间融合概率；本发明还公开了一种异构结构化数据融合概率的计算系统；本发明提供了一种能快速、智能进行数据融合概率计算的方法和系统。

Description

一种异构结构化数据融合概率的计算方法及系统

技术领域

本发明涉及大数据应用领域，尤其涉及一种异构结构化数据融合概率的计算方法及系统。

背景技术

随着信息爆炸和数据的指数型增长，越来越多的公司、机构和部门积累了各自丰富多样的数据。在实际的数据融合分析过程中，往往需要数据分析师对于结构化数据的不同表项、字段加以人工的理解、标注、区分和对照，来判断某两个不同的数据表格之间是否具有相应的数据融合可能性。然而，这种人工的识别和判断速度远远赶不上数据量和数据源数目的增长，因此，需要通过机器学习和人工智能的手段，对于多来源、异构的结构化数据不同字段进行读取、统计、对比和判断，以从繁多的数据表格中找到具有相同、接近字段或者具有数据融合可能性的数据集。

因此,现有技术的数据融合概率的计算方法存在依赖人工带来的速度慢的问题。

发明内容

为解决上述技术问题，本发明提供了一种能快速、智能进行数据融合概率计算的方法和系统

一种异构结构化数据融合概率的计算方法，包括以下步骤：

S1数据读取，读取数据集，将数据集的各字段信息读入系统；

S2数据分析，将S1读取的数据集，按其结构化表项进行整理和统计，得到表项特征向量；

S3人工标注，将已融合过的数据集进行融合度人工标注，通过对比已融合过的数据集的表项特征向量与融合度人工标注结果，得到表项特征向量与融合度之间的概率模型；

S4建立机器学习模型，将S2和S3得到的结果进行机器学习训练，得到各数据集不同字段之间融合概率。

优选地，所述S1数据读取包括循环读取。

优选地，所述特征向量包括字段名称、字段数据类型、字段数据出现概率、缺失值概率、异常址概率和高概率值元数据；

字段名称，重点支持字段名称的模糊匹配，如“name”和“姓名”的对应可能性更大；

字段数据类型，重点关注数字、字符串等数字类型及数据长度；

字段数据出现概率，包括不同数值的概率分布，以及每个字符串中不同字母出现概率分布；

缺失值概率，即空白值占总表项的百分比；

异常址概率，包括数值异常和数据格式异常；

高概率值元数据，主要描述在字段中反复出现的高概率值的记录和出现频率规律。

优选地，所述S1包括优先读取目标数据集。

优选地，还包括：S5降维处理，对S2得到的特征向量进行降低维度处理。

本发明还提供了一种异构结构化数据融合概率的计算系统，包括：

数据载入模块，读取并输入数据集；

数据特征抽取模块，对于读取的每个数据集，按其结构化表项进行整理和统计，得到表项特征向量；

数据相关度训练标注模块，将已经融合过的数据集进行人工标注，通过对比其表项特征向量与标注结果，得到表项特征向量与融合度之间的概率模型；

融合训练模块，综合进行机器学习的训练，得到各数据集不同字段之间融合概率。

优选地，所述数据载入模块包括分布式平台，所述分布式平台可以用于循环读取各数据集。

优选的，本发明提供的异构结构化数据融合概率的计算系统可以部署在任意架构的大数据环境中，仅需要能够通过API调用数据集读取的接口，即可进行环境内各数据集之间融合概率的估计和展示。

与现有技术相比，本发明的技术方案具有以下优点：本发明是通过人工智能自动检验、统计和判断不同数据表格不同字段之间的关联关系的方法和系统；本发明能够实现自动化的数据融合概率推断，节约了人工成本、提高了工作效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种异构结构化数据融合概率的计算系统的结构示意图。

图2是本发明实施例的一种异构结构化数据融合概率的计算方法的流程图。

具体实施方式

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

如图1所示，一种异构结构化数据融合概率的计算系统，用于对不同数据表格各字段进行统计特征抽取和比对，并机器学习其数据融合概率；本系统由数据载入模块1、数据特征抽取模块2、融合训练模块3及数据相关度训练标注模块4组成。

数据载入模块1通过在分布式平台循环读取各数据集，将每个数据集的各字段信息读入系统以进行下一步的统计分析和比对。由于通常环境中需要处理的数据集数量巨大，因此数据载入模块1将优先满足业务给定需求的部分数据集的读取工作，而在任务完成后再行自动比对其余数据集的融合概率；

进一步的，对于读取的每个数据集，数据特征抽取模块2按其结构化表项进行整理和统计，得到各数据集、各表项的特征向量。值得说明的是，该特征向量维数较高，因此对于大规模多表格融合概率推断的业务，需要针对计算量进行适当的降维处理；

另一方面，数据相关度训练标注模块4将已有的、已经融合过的数据集进行人工标注，通过对比其表项特征向量与标注结果，得到数据集特征与融合度之间的概率经验；

最后，将上述两个模块的特征向量和标注结果综合进行机器学习的训练，得到各数据集不同字段之间融合概率的估计结果。

本实施例的系统可以部署在任意架构的大数据环境中，仅需要能够通过API调用数据集读取的接口，即可进行环境内各数据集之间融合概率的估计和展示。

本实施例的特征向量包括(但不限于)：

(1)字段名称，重点支持字段名称的模糊匹配，如“name”和“姓名”的对应可能性更大；

(2)字段数据类型，重点关注数字、字符串等数字类型及数据长度；

(3)字段数据出现概率，包括不同数值的概率分布，以及每个字符串中不同字母出现概率分布；

(4)缺失值概率，即空白值占总表项的百分比；

(5)异常址概率，包括数值异常和数据格式异常；

(6)高概率值元数据，主要描述在字段中反复出现的高概率值的记录和出现频率规律。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种异构结构化数据融合概率的计算方法，其特征在于，包括以下步骤：

2.如权利要求1所述的异构结构化数据融合概率的计算方法，其特征在于，所述S1数据读取包括循环读取。

3.如权利要求1所述的异构结构化数据融合概率的计算方法，其特征在于，所述特征向量包括字段名称、字段数据类型、字段数据出现概率、缺失值概率、异常址概率和高概率值元数据。

4.如权利要求1所述的异构结构化数据融合概率的计算方法，其特征在于，所述S1包括优先读取目标数据集。

5.如权利要求1所述异构结构化数据融合概率的计算方法，其特征在于，还包括：S5降维处理，对S2得到的表项特征向量进行降低维度处理。

6.一种异构结构化数据融合概率的计算系统，其特征在于，包括：

数据载入模块，读取并输入数据集；

7.如权利要求6所述的系统，其特征在于，所述数据载入模块包括分布式平台，所述分布式平台用于循环读取各数据集。