CN110019164A - 一种异构结构化数据融合概率的计算方法及系统 - Google Patents

一种异构结构化数据融合概率的计算方法及系统 Download PDF

Info

Publication number
CN110019164A
CN110019164A CN201711292720.XA CN201711292720A CN110019164A CN 110019164 A CN110019164 A CN 110019164A CN 201711292720 A CN201711292720 A CN 201711292720A CN 110019164 A CN110019164 A CN 110019164A
Authority
CN
China
Prior art keywords
data
probability
data set
fusion
heterogeneous structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711292720.XA
Other languages
English (en)
Inventor
张鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Instrument Electric (group) Co Ltd Central Research Institute
Original Assignee
Shanghai Instrument Electric (group) Co Ltd Central Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Instrument Electric (group) Co Ltd Central Research Institute filed Critical Shanghai Instrument Electric (group) Co Ltd Central Research Institute
Priority to CN201711292720.XA priority Critical patent/CN110019164A/zh
Publication of CN110019164A publication Critical patent/CN110019164A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种异构结构化数据融合概率的计算方法,包括以下步骤:S1数据读取,读取数据集,将数据集的各字段信息读入系统;S2数据分析,将S1读取的数据集,按其结构化表项进行整理和统计,得到表项特征向量;S3人工标注,将已融合过的数据集进行融合度人工标注,通过对比已融合过的数据集的表项特征向量与融合度人工标注结果,得到表项特征向量与融合度之间的概率模型;S4建立机器学习模型,将S2和S3得到的结果进行机器学习训练,得到各数据集不同字段之间融合概率;本发明还公开了一种异构结构化数据融合概率的计算系统;本发明提供了一种能快速、智能进行数据融合概率计算的方法和系统。

Description

一种异构结构化数据融合概率的计算方法及系统
技术领域
本发明涉及大数据应用领域,尤其涉及一种异构结构化数据融合概率的计算方法及系统。
背景技术
随着信息爆炸和数据的指数型增长,越来越多的公司、机构和部门积累了各自丰富多样的数据。在实际的数据融合分析过程中,往往需要数据分析师对于结构化数据的不同表项、字段加以人工的理解、标注、区分和对照,来判断某两个不同的数据表格之间是否具有相应的数据融合可能性。然而,这种人工的识别和判断速度远远赶不上数据量和数据源数目的增长,因此,需要通过机器学习和人工智能的手段,对于多来源、异构的结构化数据不同字段进行读取、统计、对比和判断,以从繁多的数据表格中找到具有相同、接近字段或者具有数据融合可能性的数据集。
因此,现有技术的数据融合概率的计算方法存在依赖人工带来的速度慢的问题。
发明内容
为解决上述技术问题,本发明提供了一种能快速、智能进行数据融合概率计算的方法和系统
一种异构结构化数据融合概率的计算方法,包括以下步骤:
S1数据读取,读取数据集,将数据集的各字段信息读入系统;
S2数据分析,将S1读取的数据集,按其结构化表项进行整理和统计,得到表项特征向量;
S3人工标注,将已融合过的数据集进行融合度人工标注,通过对比已融合过的数据集的表项特征向量与融合度人工标注结果,得到表项特征向量与融合度之间的概率模型;
S4建立机器学习模型,将S2和S3得到的结果进行机器学习训练,得到各数据集不同字段之间融合概率。
优选地,所述S1数据读取包括循环读取。
优选地,所述特征向量包括字段名称、字段数据类型、字段数据出现概率、缺失值概率、异常址概率和高概率值元数据;
字段名称,重点支持字段名称的模糊匹配,如“name”和“姓名”的对应可能性更大;
字段数据类型,重点关注数字、字符串等数字类型及数据长度;
字段数据出现概率,包括不同数值的概率分布,以及每个字符串中不同字母出现概率分布;
缺失值概率,即空白值占总表项的百分比;
异常址概率,包括数值异常和数据格式异常;
高概率值元数据,主要描述在字段中反复出现的高概率值的记录和出现频率规律。
优选地,所述S1包括优先读取目标数据集。
优选地,还包括:S5降维处理,对S2得到的特征向量进行降低维度处理。
本发明还提供了一种异构结构化数据融合概率的计算系统,包括:
数据载入模块,读取并输入数据集;
数据特征抽取模块,对于读取的每个数据集,按其结构化表项进行整理和统计,得到表项特征向量;
数据相关度训练标注模块,将已经融合过的数据集进行人工标注,通过对比其表项特征向量与标注结果,得到表项特征向量与融合度之间的概率模型;
融合训练模块,综合进行机器学习的训练,得到各数据集不同字段之间融合概率。
优选地,所述数据载入模块包括分布式平台,所述分布式平台可以用于循环读取各数据集。
优选的,本发明提供的异构结构化数据融合概率的计算系统可以部署在任意架构的大数据环境中,仅需要能够通过API调用数据集读取的接口,即可进行环境内各数据集之间融合概率的估计和展示。
与现有技术相比,本发明的技术方案具有以下优点:本发明是通过人工智能自动检验、统计和判断不同数据表格不同字段之间的关联关系的方法和系统;本发明能够实现自动化的数据融合概率推断,节约了人工成本、提高了工作效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种异构结构化数据融合概率的计算系统的结构示意图。
图2是本发明实施例的一种异构结构化数据融合概率的计算方法的流程图。
具体实施方式
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
如图1所示,一种异构结构化数据融合概率的计算系统,用于对不同数据表格各字段进行统计特征抽取和比对,并机器学习其数据融合概率;本系统由数据载入模块1、数据特征抽取模块2、融合训练模块3及数据相关度训练标注模块4组成。
数据载入模块1通过在分布式平台循环读取各数据集,将每个数据集的各字段信息读入系统以进行下一步的统计分析和比对。由于通常环境中需要处理的数据集数量巨大,因此数据载入模块1将优先满足业务给定需求的部分数据集的读取工作,而在任务完成后再行自动比对其余数据集的融合概率;
进一步的,对于读取的每个数据集,数据特征抽取模块2按其结构化表项进行整理和统计,得到各数据集、各表项的特征向量。值得说明的是,该特征向量维数较高,因此对于大规模多表格融合概率推断的业务,需要针对计算量进行适当的降维处理;
另一方面,数据相关度训练标注模块4将已有的、已经融合过的数据集进行人工标注,通过对比其表项特征向量与标注结果,得到数据集特征与融合度之间的概率经验;
最后,将上述两个模块的特征向量和标注结果综合进行机器学习的训练,得到各数据集不同字段之间融合概率的估计结果。
本实施例的系统可以部署在任意架构的大数据环境中,仅需要能够通过API调用数据集读取的接口,即可进行环境内各数据集之间融合概率的估计和展示。
本实施例的特征向量包括(但不限于):
(1)字段名称,重点支持字段名称的模糊匹配,如“name”和“姓名”的对应可能性更大;
(2)字段数据类型,重点关注数字、字符串等数字类型及数据长度;
(3)字段数据出现概率,包括不同数值的概率分布,以及每个字符串中不同字母出现概率分布;
(4)缺失值概率,即空白值占总表项的百分比;
(5)异常址概率,包括数值异常和数据格式异常;
(6)高概率值元数据,主要描述在字段中反复出现的高概率值的记录和出现频率规律。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (7)

1.一种异构结构化数据融合概率的计算方法,其特征在于,包括以下步骤:
S1数据读取,读取数据集,将数据集的各字段信息读入系统;
S2数据分析,将S1读取的数据集,按其结构化表项进行整理和统计,得到表项特征向量;
S3人工标注,将已融合过的数据集进行融合度人工标注,通过对比已融合过的数据集的表项特征向量与融合度人工标注结果,得到表项特征向量与融合度之间的概率模型;
S4建立机器学习模型,将S2和S3得到的结果进行机器学习训练,得到各数据集不同字段之间融合概率。
2.如权利要求1所述的异构结构化数据融合概率的计算方法,其特征在于,所述S1数据读取包括循环读取。
3.如权利要求1所述的异构结构化数据融合概率的计算方法,其特征在于,所述特征向量包括字段名称、字段数据类型、字段数据出现概率、缺失值概率、异常址概率和高概率值元数据。
4.如权利要求1所述的异构结构化数据融合概率的计算方法,其特征在于,所述S1包括优先读取目标数据集。
5.如权利要求1所述异构结构化数据融合概率的计算方法,其特征在于,还包括:S5降维处理,对S2得到的表项特征向量进行降低维度处理。
6.一种异构结构化数据融合概率的计算系统,其特征在于,包括:
数据载入模块,读取并输入数据集;
数据特征抽取模块,对于读取的每个数据集,按其结构化表项进行整理和统计,得到表项特征向量;
数据相关度训练标注模块,将已经融合过的数据集进行人工标注,通过对比其表项特征向量与标注结果,得到表项特征向量与融合度之间的概率模型;
融合训练模块,综合进行机器学习的训练,得到各数据集不同字段之间融合概率。
7.如权利要求6所述的系统,其特征在于,所述数据载入模块包括分布式平台,所述分布式平台用于循环读取各数据集。
CN201711292720.XA 2017-12-08 2017-12-08 一种异构结构化数据融合概率的计算方法及系统 Pending CN110019164A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711292720.XA CN110019164A (zh) 2017-12-08 2017-12-08 一种异构结构化数据融合概率的计算方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711292720.XA CN110019164A (zh) 2017-12-08 2017-12-08 一种异构结构化数据融合概率的计算方法及系统

Publications (1)

Publication Number Publication Date
CN110019164A true CN110019164A (zh) 2019-07-16

Family

ID=67185959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711292720.XA Pending CN110019164A (zh) 2017-12-08 2017-12-08 一种异构结构化数据融合概率的计算方法及系统

Country Status (1)

Country Link
CN (1) CN110019164A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750588A (zh) * 2019-10-29 2020-02-04 珠海格力电器股份有限公司 面向多源异构的数据融合方法、系统、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391596A (zh) * 2017-06-29 2017-11-24 中国电力科学研究院 一种配电网海量数据融合方法及装置
CN107402976A (zh) * 2017-07-03 2017-11-28 国网山东省电力公司经济技术研究院 一种基于多元异构模型的电网多源数据融合方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391596A (zh) * 2017-06-29 2017-11-24 中国电力科学研究院 一种配电网海量数据融合方法及装置
CN107402976A (zh) * 2017-07-03 2017-11-28 国网山东省电力公司经济技术研究院 一种基于多元异构模型的电网多源数据融合方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750588A (zh) * 2019-10-29 2020-02-04 珠海格力电器股份有限公司 面向多源异构的数据融合方法、系统、装置及存储介质

Similar Documents

Publication Publication Date Title
CN109189901B (zh) 一种智能客服系统中自动发现新分类以及对应语料的方法
CN110209764A (zh) 语料标注集的生成方法及装置、电子设备、存储介质
CN101937445B (zh) 一种文件自动分类系统
CN106095928A (zh) 一种事件类型识别方法及装置
CN106547915B (zh) 基于模型库的智能数据提取方法
CN104504151B (zh) 微信舆情监测系统
CN110704616B (zh) 设备告警工单识别方法及装置
CN109783637A (zh) 基于深度神经网络的电力检修文本挖掘方法
CN114519524A (zh) 基于知识图谱的企业风险预警方法、装置及存储介质
CN112613569A (zh) 图像识别方法、图像分类模型的训练方法及装置
CN113657461A (zh) 基于文本分类的日志异常检测方法、系统、设备及介质
CN109062951A (zh) 基于意图分析和对话聚类的对话流程抽取方法、设备及存储介质
CN112328792A (zh) 一种基于dbscan聚类算法识别信用事件的优化方法
Rigaud et al. What do we expect from comic panel extraction?
CN114090601B (zh) 一种数据筛选方法、装置、设备以及存储介质
CN105335446A (zh) 一种基于词矢量的短文本分类模型生成方法与分类方法
CN110019164A (zh) 一种异构结构化数据融合概率的计算方法及系统
CN110147482A (zh) 用于获取突发热点主题的方法和装置
CN106157106A (zh) 商品信息的展示方法和装置
KR20210001649A (ko) 기업 부실 예측 프로그램
CN113282686A (zh) 一种不平衡样本的关联规则确定方法及装置
CN113220843A (zh) 确定信息关联关系的方法、装置、存储介质和设备
CN112084408A (zh) 名单数据筛选方法、装置、计算机设备及存储介质
CN112968941B (zh) 一种基于边缘计算的数据采集和人机协同标注方法
KR20210001645A (ko) 기업 부실 예측 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination