CN112765150A - 大数据异构融合提取方法及装置 - Google Patents

大数据异构融合提取方法及装置 Download PDF

Info

Publication number
CN112765150A
CN112765150A CN202110205206.8A CN202110205206A CN112765150A CN 112765150 A CN112765150 A CN 112765150A CN 202110205206 A CN202110205206 A CN 202110205206A CN 112765150 A CN112765150 A CN 112765150A
Authority
CN
China
Prior art keywords
heterogeneous data
fused
data
heterogeneous
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110205206.8A
Other languages
English (en)
Inventor
王芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yongcheng Vocational College
Original Assignee
Yongcheng Vocational College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yongcheng Vocational College filed Critical Yongcheng Vocational College
Priority to CN202110205206.8A priority Critical patent/CN112765150A/zh
Publication of CN112765150A publication Critical patent/CN112765150A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了大数据异构融合提取方法及装置,该方法包括获取至少两个源的原始异构数据;从所述原始异构数据提取高相关性异构数据构成待融合异构数据集;对所述待融合异构数据集合进行权值分配运算,构成融合异构数据集;通过从获取的清洁结构化原始异构数据中提取高相关性语义向量或属性数值的异构数据进行权值分配运算存储并构成融合异构数据集。优点:可根据实际业务应用需要,查询数据源的索引,根据配置文件信息获取相应数据源的数据表进行融合数据,无需对全局数据进行融合,在保证数据融合准确性的前提下,能够提高数据融合效率,能满足不同业务应用的数据融合需求,避免了由于操作不规范或忽略系统之间的关联性而导致无法自动匹配融合的问题。

Description

大数据异构融合提取方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种大数据异构融合提取方法及装置。
背景技术
数据是当前企业中的重要的资源,通过分析各个业务系统中数据关系为产品或服务提供全流程的监控,为领导者决策提供数据支持。随着大数据、人工智能、云计算技术越来越成熟,企业IT系统的建设,数据被不可避免的割裂到不同的IT系统中,信息孤岛的现象越来越明显。而大数据的各种应用告诉我们,融合后的多维度的数据,所能产生的价值是远超想象的,因而企业目前越来越重视“数据资产”。而数据资产的前提,就是一份融合了企业各个方面的,有统一结构和规范的“完整”数据,因而数据融合应用也越来越普遍。
数据融合是指将多个来源的数据(以下简称为多源数据)进行分析、综合、组合,以完成所需的决策和评估任务而进行的信息处理技术,其目的就是将原来分散的、独立的多个数据融合在一起,从而发现数据规律、趋势,提升数据价值。传统数据融合方案中,针对需要融合的数据,采用相等字段值关联的方式进行融合。通常,进行数据融合的数据数量多并且复杂,数据融合时需要进行多次相等字段值关联关系的处理,处理过程中需要对多源数据的原数据表中的融合字段进行清洗,导致处理程序庞大,处理数据量大。并且清洗后还需将进行相等字段值关联关系处理后的数据另存一张数据表,增加了存储的占用。或有的根据业务需求,需要有经验的业务人员首先识别出表之间关联关系,从而实现多个数据源的数据融合。企业中使用的各个业务系统,在设计之初仅为满足某一业务需要所设计,或者外键关系不明显,没有考虑到多个业务系统之间的关联性。因此,当分散在各个业务系统中的相关数据汇入数据仓库后,无法通过简单的逻辑匹配方法得到数据之间的关系,这就需要数据开发者寻求新的数据融合技术来挖掘数据之间的关联关系。这样,相关数据融合方案,存在流程繁琐、数据处理成本高等缺陷。
针对上述这种情况,本发明提出了一种大数据异构融合提取方法及装置,能够有效地对现有技术进行改进,以克服其不足。
发明内容
本发明针对现有技术的不足,本发明提供了一种大数据异构融合提取方法及装置,以解决现有技术的上述问题,其具体方案如下:
第一方面,本发明提供了一种大数据异构融合提取方法,所述方法包括:
获取至少两个源的原始异构数据;
从所述原始异构数据提取高相关性异构数据构成待融合异构数据集;
对所述待融合异构数据集合进行权值分配运算,构成融合异构数据集。
优选地,所述权值分配运算方法包括加权平均法、神经网络法中的任意一种,所述从所述原始异构数据提取高相关性异构数据构成待融合异构数据集,所述方法包括:
提取所述至少两个源的原始异构数据属性,并利用预设词义模型获取所述至少两个源的原始异构数据属性对应语义向量;
计算所述至少两个源的原始异构数据属性对应语义向量之间的语义相似度值,并比较所述语义相似度值与预设语义相似度值大小关系;
将所述语义相似度值大于所述预设语义相似度值的原始异构数据集标识为高相关性异构数据集,并将所述高相关性异构数据集作为待融合异构数据集。
优选地,所述对所述待融合异构数据集合进行权值分配运算,构成融合异构数据集,所述方法包括:
计算任一所述待融合异构数据集数据属性对应语义向量范值与所述数据属性对应语义向量之间的语义相似度值的权值比例;
将所述待融合异构数据集数据属性对应语义向量范值与对应的权重比例的乘积进行累加,构成得到所述融合异构数据集。
优选地,所述权值分配运算方法包括加权平均法、最小二乘法中的任意一种,所述从所述原始异构数据提取高相关性异构数据构成待融合异构数据集,所述方法包括:
提取所述至少两个源的原始异构数据属性;
计算所述至少两个源的原始异构数据属性对应属性值之间的语义相似度值,并比较所述语义相似度值与预设语义相似度值大小关系;
将所述语义相似度值大于所述预设语义相似度值的原始异构数据集标识为高相关性异构数据集,并将所述高相关性异构数据集作为待融合异构数据集。
优选地,所述对所述待融合异构数据集合进行权值分配运算,构成融合异构数据集,所述方法包括:
计算任一所述待融合异构数据集数据属性值与所述数据属性对应属性值之间的语义相似度值的权值比例;
将所述待融合异构数据集数据属性值与对应的权重比例的乘积进行累加,构成得到所述融合异构数据集。
优选地,所述构成融合异构数据集,所述方法包括:
查询所述异构数据的数据库索引,获取相应数据库的数据表;
根据数据库配置文件中的配置信息,从所述数据表提取累加后的异构数据,并将所述累加后的异构数据存储至相应类型数据库的数据表中,以构成所述融合异构数据集。
优选地,所述从所述原始异构数据提取高相关性异构数据构成待融合异构数据集之前,所述方法还包括:
利用预设数据清洗规则对所述原始异构数据进行清洗,去除重复数据;
对已清洗的所述原始异构数据进行类型分类,并将不同类型的所述原始异构数据转变为结构化异构数据。
第二方面,本发明提供了一种大数据异构融合提取装置,所述装置包括:
获取模块,用于获取至少两个源的原始异构数据;
提取模块,用于从所述原始异构数据提取高相关性异构数据构成待融合异构数据集;
加权模块,用于对所述待融合异构数据集合进行权值分配运算,构成融合异构数据集。
第三方面,本发明提供了一种大数据异构融合提取设备,所述设备包括:
通信总线,用于实现处理器与存储器间的连接通信;
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如下步骤:
获取至少两个源的原始异构数据;
从所述原始异构数据提取高相关性异构数据构成待融合异构数据集;
对所述待融合异构数据集合进行权值分配运算,构成融合异构数据集。
第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的方法。
本发明的有益效果:本发明的大数据异构融合提取方法及装置,通过从获取的清洁结构化原始异构数据中提取高相关性语义向量或属性数值的异构数据进行权值分配运算存储并构成融合异构数据集。可根据实际业务应用需要,查询数据源的索引,根据配置文件信息获取相应数据源的数据表进行融合数据,无需对全局数据进行融合,在保证数据融合准确性的前提下,能够提高数据融合效率,能满足不同业务应用的数据融合需求,避免了由于操作不规范或忽略系统之间的关联性而导致无法自动匹配融合的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,附图中的实施例不构成对本发明的任何限制,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明大数据异构融合提取方法一实施例流程示意图。
图2是本发明大数据异构融合提取方法一实施例流程示意图。
图3是本发明大数据异构融合提取装置一实施例结构示意图。
图4是本发明大数据异构融合提取设备一实施例结构示意图。
具体实施方式
下面结合附图与实施例对本发明技术方案作进一步详细的说明,这是本发明的较佳实施例。应当理解,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例技术方案的主要思想:获取至少两个源的原始异构数据;从所述原始异构数据提取高相关性异构数据构成待融合异构数据集;对所述待融合异构数据集合进行权值分配运算,构成融合异构数据集。
为了更好的理解上述的技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
实施例一
本发明一实施例提供了一种大数据异构融合提取方法,该大数据异构融合提取方法,如图1所示,具体可以包括如下步骤:
S101,获取至少两个源的原始异构数据;
示例性的,执行主体可以以有线或无线通讯方式通过智能手表、Leap Motion体感控制器和摄像头等智能硬件获取,也可以通过采用网页抓取方法从资源网站中获取。
需要说明的是,本实施例中各步骤的执行主体还可为其他可实现相同或相似功能的设备,例如:手机、个人电脑,PAD等,本实施例对此不作限制。
其中,各个数据源可以为来源于不同获取渠道的数据,这里的获取渠道也可以为各个网站、数据平台或者创建的数据库等等,对象可以为源数据中描述现实世界的对象或概念,实体的异构数据可为描述为实体特征的文字。
S102,从所述原始异构数据提取高相关性异构数据构成待融合异构数据集;
本实施例中,异构数据属性与语义向量存在相应的对应关系。在实际应用中,首先提取异构数据属性,从而确定相应的语义向量。
具体地是,从所述原始异构数据中提取所述至少两个源的原始异构数据属性,并利用预设词义模型获取所述至少两个源的原始异构数据属性对应语义向量;计算所述至少两个源的原始异构数据属性对应语义向量之间的语义相似度值,并比较所述语义相似度值与预设语义相似度值大小关系;将所述语义相似度值大于所述预设语义相似度值的原始异构数据集标识为高相关性异构数据集,并将所述高相关性异构数据集作为待融合异构数据集。
这样,在实际应用中我们可根据与属性存在相应的对应关系的语义向量来确定不同异构源数据的高相关匹配程度来帅选出待融合异构数据集,而不必从抽象的属性去进行耗时的模糊查询,高效且节时。
S103,对所述待融合异构数据集合进行权值分配运算,构成融合异构数据集。
计算任一所述待融合异构数据集数据属性对应语义向量范值与所述数据属性对应语义向量之间的语义相似度值的权值比例;
将所述待融合异构数据集数据属性对应语义向量范值与对应的权重比例的乘积进行累加,构成得到所述融合异构数据集。
优选地,所述构成融合异构数据集,所述方法包括:
查询所述异构数据的数据库索引,获取相应数据库的数据表;
根据数据库配置文件中的配置信息,从所述数据表提取累加后的异构数据,并将所述累加后的异构数据存储至相应类型数据库的数据表中,以构成所述融合异构数据集。
实施例二
本发明一实施例提供了一种大数据异构融合提取方法,该大数据异构融合提取方法,步骤内容同图1所示,具体可以包括如下:
S201,获取至少两个源的原始异构数据;
示例性的,执行主体可以以有线或无线通讯方式通过智能手表、Leap Motion体感控制器和摄像头等智能硬件获取,也可以通过采用网页抓取方法从资源网站中获取。
需要说明的是,本实施例中各步骤的执行主体还可为其他可实现相同或相似功能的设备,例如:手机、个人电脑,PAD等,本实施例对此不作限制。
其中,各个数据源可以为来源于不同获取渠道的数据,这里的获取渠道也可以为各个网站、数据平台或者创建的数据库等等,对象可以为源数据中描述现实世界的对象或概念,实体的异构数据可为描述为实体特征的文字。
S202,从所述原始异构数据提取高相关性异构数据构成待融合异构数据集;
本实施例中,异构数据属性与属性值存在相应的对应关系。在实际应用中,首先提取异构数据属性,从而确定相应的属性值。
具体地是,从所述原始异构数据中提取所述至少两个源的原始异构数据属性;计算所述至少两个源的原始异构数据属性对应属性值之间的语义相似度值,并比较所述语义相似度值与预设语义相似度值大小关系;将所述语义相似度值大于所述预设语义相似度值的原始异构数据集标识为高相关性异构数据集,并将所述高相关性异构数据集作为待融合异构数据集。
这样,在实际应用中我们可根据与属性存在相应的对应关系的属性值来确定不同异构源数据的高相关匹配程度来帅选出待融合异构数据集,而不必从抽象的属性去进行耗时的模糊查询,高效且节时。
S203,对所述待融合异构数据集合进行权值分配运算,构成融合异构数据集。
计算任一所述待融合异构数据集数据属性值与所述数据属性对应属性值之间的语义相似度值的权值比例;
将所述待融合异构数据集数据属性值与对应的权重比例的乘积进行累加,构成得到所述融合异构数据集。
优选地,所述构成融合异构数据集,所述方法包括:
查询所述异构数据的数据库索引,获取相应数据库的数据表;
根据数据库配置文件中的配置信息,从所述数据表提取累加后的异构数据,并将所述累加后的异构数据存储至相应类型数据库的数据表中,以构成所述融合异构数据集。
实施例三
本发明一实施例提供了一种大数据异构融合提取方法,该大数据异构融合提取方法,如图2所示,具体可以包括如下步骤:
S301,对原始异构数据进行清洗、分类,将分类的所述原始异构数据进行格式变换。
具体地,本实施例中是首先利用预设数据清洗规则对所述原始异构数据进行清洗,去除重复数据,然后对已清洗的所述原始异构数据进行类型分类,最后将不同类型的所述原始异构数据转变为结构化异构数据。
需要说明的是,由于各个数据源中实体的描述信息可能是杂乱无章的,这里可以在获取各个数据源中实体的描述信息的过程中,针对不同领域的数据源来获取实体描述信息,并将相同领域的数据源获取的实体描述信息划分到一块,例如,将从金融领域类数据源获取的实体描述信息放入金融类的实体描述信息中,计算机领域类数据源获取的实体描述信息放入计算机类的实体描述信息中,这里不进行限定,针对各个领域还可以继续对实体的描述信息进行划分,例如,针对计算机领域,可以根据应用系统类型对实体的描述信息进行划分,还可以针对应用终端类型对实体的描述信息进行划分。
对多源异构数据的原始文本数据基于词法、语法和/或语义分析进行结构化处理和分词处理等操作,得到标准化文本数据。
S302,获取至少两个源的原始异构数据;
示例性的,执行主体可以以有线或无线通讯方式通过智能手表、Leap Motion体感控制器和摄像头等智能硬件获取,也可以通过采用网页抓取方法从资源网站中获取。
需要说明的是,本实施例中各步骤的执行主体还可为其他可实现相同或相似功能的设备,例如:手机、个人电脑,PAD等,本实施例对此不作限制。
其中,各个数据源可以为来源于不同获取渠道的数据,这里的获取渠道也可以为各个网站、数据平台或者创建的数据库等等,对象可以为源数据中描述现实世界的对象或概念,实体的异构数据可为描述为实体特征的文字。
S303,从所述原始异构数据提取高相关性异构数据构成待融合异构数据集;
本实施例中,异构数据属性与语义向量或属性值存在相应的对应关系。在实际应用中,首先提取异构数据属性,从而确定相应的语义向量或属性值。
因而,当原始异构数据属性与语义向量存在相应的对应关系时,从所述原始异构数据提取高相关性异构数据构成待融合异构数据集相应的一个可选实施例中,具体方法是提取所述至少两个源的原始异构数据属性,并利用预设词义模型获取所述至少两个源的原始异构数据属性对应语义向量;计算所述至少两个源的原始异构数据属性对应语义向量之间的语义相似度值,并比较所述语义相似度值与预设语义相似度值大小关系;将所述语义相似度值大于所述预设语义相似度值的原始异构数据集标识为高相关性异构数据集,并将所述高相关性异构数据集作为待融合异构数据集。
同理,当原始异构数据属性与属性值存在相应的对应关系时,从所述原始异构数据提取高相关性异构数据构成待融合异构数据集相应的另一可选实施例中,具体方法是提取所述至少两个源的原始异构数据属性;计算所述至少两个源的原始异构数据属性对应属性值之间的语义相似度值,并比较所述语义相似度值与预设语义相似度值大小关系;将所述语义相似度值大于所述预设语义相似度值的原始异构数据集标识为高相关性异构数据集,并将所述高相关性异构数据集作为待融合异构数据集。
这样,在实际应用中我们可根据与属性存在相应的对应关系的语义向量或属性值来确定不同异构源数据的高相关匹配程度来帅选出待融合异构数据集,而不必从抽象的属性去进行耗时的模糊查询,高效且节时。
S304,对所述待融合异构数据集合进行权值分配运算,构成融合异构数据集。
在一个可选实施例中,对所述待融合异构数据集合进行权值分配运算的具体实现方式可以是,计算任一所述待融合异构数据集数据属性对应语义向量范值与所述数据属性对应语义向量之间的语义相似度值的权值比例;将所述待融合异构数据集数据属性对应语义向量范值与对应的权重比例的乘积进行累加,构成得到所述融合异构数据集。
在另一可选实施例中,对所述待融合异构数据集合进行权值分配运算的具体实现方式可以是,计算任一所述待融合异构数据集数据属性值与所述数据属性对应属性值之间的语义相似度值的权值比例;将所述待融合异构数据集数据属性值与对应的权重比例的乘积进行累加,构成得到所述融合异构数据集。
进一步,在本实施例中可通过查询所述异构数据的数据库索引,获取相应数据库的数据表;根据数据库配置文件中的配置信息,从所述数据表提取累加后的异构数据,并将所述累加后的异构数据存储至相应类型数据库的数据表中,以构成所述融合异构数据集。
实施例四
本发明一实施例提供了一种大数据异构融合提取装置,如图3所示,该大数据异构融合提取装置具体可以包括如下模块:
获取模块,用于获取至少两个源的原始异构数据;
示例性的,执行主体可以以有线或无线通讯方式通过智能手表、Leap Motion体感控制器和摄像头等智能硬件获取,也可以通过采用网页抓取方法从资源网站中获取。
需要说明的是,本实施例中各步骤的执行主体还可为其他可实现相同或相似功能的设备,例如:手机、个人电脑,PAD等,本实施例对此不作限制。
其中,各个数据源可以为来源于不同获取渠道的数据,这里的获取渠道也可以为各个网站、数据平台或者创建的数据库等等,对象可以为源数据中描述现实世界的对象或概念,实体的异构数据可为描述为实体特征的文字。
提取模块,用于从所述原始异构数据提取高相关性异构数据构成待融合异构数据集;
本实施例中,异构数据属性与语义向量或属性值存在相应的对应关系。在实际应用中,首先提取异构数据属性,从而确定相应的语义向量或属性值。
因而,当原始异构数据属性与语义向量存在相应的对应关系时,从所述原始异构数据提取高相关性异构数据构成待融合异构数据集相应的一个可选实施例中,具体方法是提取所述至少两个源的原始异构数据属性,并利用预设词义模型获取所述至少两个源的原始异构数据属性对应语义向量;计算所述至少两个源的原始异构数据属性对应语义向量之间的语义相似度值,并比较所述语义相似度值与预设语义相似度值大小关系;将所述语义相似度值大于所述预设语义相似度值的原始异构数据集标识为高相关性异构数据集,并将所述高相关性异构数据集作为待融合异构数据集。
同理,当原始异构数据属性与属性值存在相应的对应关系时,从所述原始异构数据提取高相关性异构数据构成待融合异构数据集相应的另一可选实施例中,具体方法是提取所述至少两个源的原始异构数据属性;计算所述至少两个源的原始异构数据属性对应属性值之间的语义相似度值,并比较所述语义相似度值与预设语义相似度值大小关系;将所述语义相似度值大于所述预设语义相似度值的原始异构数据集标识为高相关性异构数据集,并将所述高相关性异构数据集作为待融合异构数据集。
这样,在实际应用中我们可根据与属性存在相应的对应关系的语义向量或属性值来确定不同异构源数据的高相关匹配程度来帅选出待融合异构数据集,而不必从抽象的属性去进行耗时的模糊查询,高效且节时。
加权模块,用于对所述待融合异构数据集合进行权值分配运算,构成融合异构数据集。
在一个可选实施例中,对所述待融合异构数据集合进行权值分配运算的具体实现方式可以是,计算任一所述待融合异构数据集数据属性对应语义向量范值与所述数据属性对应语义向量之间的语义相似度值的权值比例;将所述待融合异构数据集数据属性对应语义向量范值与对应的权重比例的乘积进行累加,构成得到所述融合异构数据集。
在另一可选实施例中,对所述待融合异构数据集合进行权值分配运算的具体实现方式可以是,计算任一所述待融合异构数据集数据属性值与所述数据属性对应属性值之间的语义相似度值的权值比例;将所述待融合异构数据集数据属性值与对应的权重比例的乘积进行累加,构成得到所述融合异构数据集。
进一步,在本实施例中可通过查询所述异构数据的数据库索引,获取相应数据库的数据表;根据数据库配置文件中的配置信息,从所述数据表提取累加后的异构数据,并将所述累加后的异构数据存储至相应类型数据库的数据表中,以构成所述融合异构数据集。
实施例五
本发明一实施例提供了一种大数据异构融合提取设备,如图4所示,该大数据异构融合提取设备具体可以包括如下模块:
通信总线,用于实现处理器与存储器间的连接通信;
存储器,用于存储计算机程序;存储器可能包含高速RAM存储器,也可能还包含非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器可选的可以包含至少一个存储装置。
处理器,用于执行上述计算机程序以实现如下步骤:
首先,对原始异构数据进行清洗、分类,将分类的所述原始异构数据进行格式变换。
具体地,本实施例中是首先利用预设数据清洗规则对所述原始异构数据进行清洗,去除重复数据,然后对已清洗的所述原始异构数据进行类型分类,最后将不同类型的所述原始异构数据转变为结构化异构数据。
需要说明的是,由于各个数据源中实体的描述信息可能是杂乱无章的,这里可以在获取各个数据源中实体的描述信息的过程中,针对不同领域的数据源来获取实体描述信息,并将相同领域的数据源获取的实体描述信息划分到一块,例如,将从金融领域类数据源获取的实体描述信息放入金融类的实体描述信息中,计算机领域类数据源获取的实体描述信息放入计算机类的实体描述信息中,这里不进行限定,针对各个领域还可以继续对实体的描述信息进行划分,例如,针对计算机领域,可以根据应用系统类型对实体的描述信息进行划分,还可以针对应用终端类型对实体的描述信息进行划分。
对多源异构数据的原始文本数据基于词法、语法和/或语义分析进行结构化处理和分词处理等操作,得到标准化文本数据。
其次,获取至少两个源的原始异构数据;
示例性的,执行主体可以以有线或无线通讯方式通过智能手表、Leap Motion体感控制器和摄像头等智能硬件获取,也可以通过采用网页抓取方法从资源网站中获取。
需要说明的是,本实施例中各步骤的执行主体还可为其他可实现相同或相似功能的设备,例如:手机、个人电脑,PAD等,本实施例对此不作限制。
其中,各个数据源可以为来源于不同获取渠道的数据,这里的获取渠道也可以为各个网站、数据平台或者创建的数据库等等,对象可以为源数据中描述现实世界的对象或概念,实体的异构数据可为描述为实体特征的文字。
然后,从所述原始异构数据提取高相关性异构数据构成待融合异构数据集;
本实施例中,异构数据属性与语义向量或属性值存在相应的对应关系。在实际应用中,首先提取异构数据属性,从而确定相应的语义向量或属性值。
因而,当原始异构数据属性与语义向量存在相应的对应关系时,从所述原始异构数据提取高相关性异构数据构成待融合异构数据集相应的一个可选实施例中,具体方法是提取所述至少两个源的原始异构数据属性,并利用预设词义模型获取所述至少两个源的原始异构数据属性对应语义向量;计算所述至少两个源的原始异构数据属性对应语义向量之间的语义相似度值,并比较所述语义相似度值与预设语义相似度值大小关系;将所述语义相似度值大于所述预设语义相似度值的原始异构数据集标识为高相关性异构数据集,并将所述高相关性异构数据集作为待融合异构数据集。
同理,当原始异构数据属性与属性值存在相应的对应关系时,从所述原始异构数据提取高相关性异构数据构成待融合异构数据集相应的另一可选实施例中,具体方法是提取所述至少两个源的原始异构数据属性;计算所述至少两个源的原始异构数据属性对应属性值之间的语义相似度值,并比较所述语义相似度值与预设语义相似度值大小关系;将所述语义相似度值大于所述预设语义相似度值的原始异构数据集标识为高相关性异构数据集,并将所述高相关性异构数据集作为待融合异构数据集。
这样,在实际应用中我们可根据与属性存在相应的对应关系的语义向量或属性值来确定不同异构源数据的高相关匹配程度来帅选出待融合异构数据集,而不必从抽象的属性去进行耗时的模糊查询,高效且节时。
最后,对所述待融合异构数据集合进行权值分配运算,构成融合异构数据集。
在一个可选实施例中,对所述待融合异构数据集合进行权值分配运算的具体实现方式可以是,计算任一所述待融合异构数据集数据属性对应语义向量范值与所述数据属性对应语义向量之间的语义相似度值的权值比例;将所述待融合异构数据集数据属性对应语义向量范值与对应的权重比例的乘积进行累加,构成得到所述融合异构数据集。
在另一可选实施例中,对所述待融合异构数据集合进行权值分配运算的具体实现方式可以是,计算任一所述待融合异构数据集数据属性值与所述数据属性对应属性值之间的语义相似度值的权值比例;将所述待融合异构数据集数据属性值与对应的权重比例的乘积进行累加,构成得到所述融合异构数据集。
进一步,在本实施例中可通过查询所述异构数据的数据库索引,获取相应数据库的数据表;根据数据库配置文件中的配置信息,从所述数据表提取累加后的异构数据,并将所述累加后的异构数据存储至相应类型数据库的数据表中,以构成所述融合异构数据集。
本实施例中的处理器可能是一种集成电路芯片,具有信号处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。上述处理器可以是微处理器或者上述处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
实施例六
本发明一实施例提供了一种计算机可读存储介质,其上存储有计算机程序,上述计算机程序被处理器执行时实现上述的大数据异构融合提取方法。
综上所述,本发明实施例提供的一种大数据异构融合提取方法及装置,通过从获取的清洁结构化原始异构数据中提取高相关性语义向量或属性数值的异构数据进行权值分配运算存储并构成融合异构数据集。可根据实际业务应用需要,查询数据源的索引,根据配置文件信息获取相应数据源的数据表进行融合数据,无需对全局数据进行融合,在保证数据融合准确性的前提下,能够提高数据融合效率,能满足不同业务应用的数据融合需求,避免了由于操作不规范或忽略系统之间的关联性而导致无法自动匹配融合的问题。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本发明所必须的。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行该计算机程序指令时,全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明是参照本发明实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种大数据异构融合提取方法,其特征在于,所述方法包括:
获取至少两个源的原始异构数据;
从所述原始异构数据提取高相关性异构数据构成待融合异构数据集;
对所述待融合异构数据集合进行权值分配运算,构成融合异构数据集。
2.根据权利要求1所述的方法,其特征在于,所述权值分配运算方法包括加权平均法、神经网络法中的任意一种,所述从所述原始异构数据提取高相关性异构数据构成待融合异构数据集,所述方法包括:
提取所述至少两个源的原始异构数据属性,并利用预设词义模型获取所述至少两个源的原始异构数据属性对应语义向量;
计算所述至少两个源的原始异构数据属性对应语义向量之间的语义相似度值,并比较所述语义相似度值与预设语义相似度值大小关系;
将所述语义相似度值大于所述预设语义相似度值的原始异构数据集标识为高相关性异构数据集,并将所述高相关性异构数据集作为待融合异构数据集。
3.根据权利要求2所述的方法,其特征在于,所述对所述待融合异构数据集合进行权值分配运算,构成融合异构数据集,所述方法包括:
计算任一所述待融合异构数据集数据属性对应语义向量范值与所述数据属性对应语义向量之间的语义相似度值的权值比例;
将所述待融合异构数据集数据属性对应语义向量范值与对应的权重比例的乘积进行累加,构成得到所述融合异构数据集。
4.根据权利要求1所述的方法,其特征在于,所述权值分配运算方法包括加权平均法、最小二乘法中的任意一种,所述从所述原始异构数据提取高相关性异构数据构成待融合异构数据集,所述方法包括:
提取所述至少两个源的原始异构数据属性;
计算所述至少两个源的原始异构数据属性对应属性值之间的语义相似度值,并比较所述语义相似度值与预设语义相似度值大小关系;
将所述语义相似度值大于所述预设语义相似度值的原始异构数据集标识为高相关性异构数据集,并将所述高相关性异构数据集作为待融合异构数据集。
5.根据权利要求2所述的方法,其特征在于,所述对所述待融合异构数据集合进行权值分配运算,构成融合异构数据集,所述方法包括:
计算任一所述待融合异构数据集数据属性值与所述数据属性对应属性值之间的语义相似度值的权值比例;
将所述待融合异构数据集数据属性值与对应的权重比例的乘积进行累加,构成得到所述融合异构数据集。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述构成融合异构数据集,所述方法包括:
查询所述异构数据的数据库索引,获取相应数据库的数据表;
根据数据库配置文件中的配置信息,从所述数据表提取累加后的异构数据,并将所述累加后的异构数据存储至相应类型数据库的数据表中,以构成所述融合异构数据集。
7.根据权利要求6所述的方法,其特征在于,所述从所述原始异构数据提取高相关性异构数据构成待融合异构数据集之前,所述方法还包括:
利用预设数据清洗规则对所述原始异构数据进行清洗,去除重复数据;
对已清洗的所述原始异构数据进行类型分类,并将不同类型的所述原始异构数据转变为结构化异构数据。
8.一种大数据异构融合提取装置,其特征在于,所述装置包括:
获取模块,用于获取至少两个源的原始异构数据;
提取模块,用于从所述原始异构数据提取高相关性异构数据构成待融合异构数据集;
加权模块,用于对所述待融合异构数据集合进行权值分配运算,构成融合异构数据集。
9.一种大数据异构融合提取设备,其特征在于,所述设备包括:
通信总线,用于实现处理器与存储器间的连接通信;
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如下步骤:
获取至少两个源的原始异构数据;
从所述原始异构数据提取高相关性异构数据构成待融合异构数据集;
对所述待融合异构数据集合进行权值分配运算,构成融合异构数据集。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的方法。
CN202110205206.8A 2021-02-24 2021-02-24 大数据异构融合提取方法及装置 Withdrawn CN112765150A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110205206.8A CN112765150A (zh) 2021-02-24 2021-02-24 大数据异构融合提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110205206.8A CN112765150A (zh) 2021-02-24 2021-02-24 大数据异构融合提取方法及装置

Publications (1)

Publication Number Publication Date
CN112765150A true CN112765150A (zh) 2021-05-07

Family

ID=75704074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110205206.8A Withdrawn CN112765150A (zh) 2021-02-24 2021-02-24 大数据异构融合提取方法及装置

Country Status (1)

Country Link
CN (1) CN112765150A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434571A (zh) * 2021-06-18 2021-09-24 竹间智能科技(上海)有限公司 一种知识挖掘方法、平台、系统及存储介质
CN113919409A (zh) * 2021-08-20 2022-01-11 平高集团有限公司 综合能源数据融合方法、装置及设备
CN115145991A (zh) * 2022-08-31 2022-10-04 南京三百云信息科技有限公司 适用于异构数据的数据处理方法及系统
CN115186156A (zh) * 2022-09-14 2022-10-14 天云融创数据科技(北京)有限公司 一种多源数据的融合方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434571A (zh) * 2021-06-18 2021-09-24 竹间智能科技(上海)有限公司 一种知识挖掘方法、平台、系统及存储介质
CN113434571B (zh) * 2021-06-18 2023-08-22 竹间智能科技(上海)有限公司 一种知识挖掘方法、平台、系统及存储介质
CN113919409A (zh) * 2021-08-20 2022-01-11 平高集团有限公司 综合能源数据融合方法、装置及设备
CN115145991A (zh) * 2022-08-31 2022-10-04 南京三百云信息科技有限公司 适用于异构数据的数据处理方法及系统
CN115145991B (zh) * 2022-08-31 2022-11-15 南京三百云信息科技有限公司 适用于异构数据的数据处理方法及系统
CN115186156A (zh) * 2022-09-14 2022-10-14 天云融创数据科技(北京)有限公司 一种多源数据的融合方法及系统
CN115186156B (zh) * 2022-09-14 2022-12-09 天云融创数据科技(北京)有限公司 一种多源数据的融合方法及系统

Similar Documents

Publication Publication Date Title
CN112765150A (zh) 大数据异构融合提取方法及装置
JP7453143B2 (ja) データ記憶およびクエリ方法並びにデバイス
CN107391502B (zh) 时间间隔的数据查询方法、装置及索引构建方法、装置
CN109241159B (zh) 一种数据立方体的分区查询方法、系统及终端设备
CN106708844A (zh) 一种用户群体的划分方法和装置
CN109508879B (zh) 一种风险的识别方法、装置及设备
US20150032708A1 (en) Database analysis apparatus and method
CN110888981B (zh) 基于标题的文档聚类方法、装置、终端设备及介质
WO2021047021A1 (zh) 信息挖掘方法、装置、设备和存储介质
CN111563382A (zh) 文本信息的获取方法、装置、存储介质及计算机设备
CN115408546A (zh) 一种时序数据管理方法、装置、设备及存储介质
CN114881508A (zh) 一种电网指标报表的数据处理方法、装置及设备
CN117150138B (zh) 一种基于高维空间映射的科技资源组织方法及系统
CN110874366A (zh) 数据处理、查询方法和装置
CN110826845B (zh) 一种多维组合成本分摊装置及方法
CN110765100B (zh) 标签的生成方法、装置、计算机可读存储介质及服务器
CN110781211B (zh) 一种数据的解析方法及装置
KR20200000208A (ko) 소셜 데이터 수집 분석 시스템
CN114297236A (zh) 一种数据血缘分析方法、终端设备及存储介质
CN113641705A (zh) 一种基于计算引擎的营销处置规则引擎方法
CN110427558B (zh) 资源处理事件的推送方法及装置
CN110059272B (zh) 一种页面特征识别方法和装置
CN113641654A (zh) 一种基于实时事件的营销处置规则引擎方法
CN107992556B (zh) 一种站点管理方法、装置、电子设备以及存储介质
Ethirajan et al. Adoption of E-governance applications towards big data approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210507

WW01 Invention patent application withdrawn after publication