CN117009921B - 一种数据融合引擎的优化数据处理方法及系统 - Google Patents

一种数据融合引擎的优化数据处理方法及系统 Download PDF

Info

Publication number
CN117009921B
CN117009921B CN202310973825.0A CN202310973825A CN117009921B CN 117009921 B CN117009921 B CN 117009921B CN 202310973825 A CN202310973825 A CN 202310973825A CN 117009921 B CN117009921 B CN 117009921B
Authority
CN
China
Prior art keywords
data
fusion
processing
scheme
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310973825.0A
Other languages
English (en)
Other versions
CN117009921A (zh
Inventor
李宁
赵鑫龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhenning Wuxi Intelligent Technology Co ltd
Original Assignee
Zhenning Wuxi Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhenning Wuxi Intelligent Technology Co ltd filed Critical Zhenning Wuxi Intelligent Technology Co ltd
Priority to CN202310973825.0A priority Critical patent/CN117009921B/zh
Publication of CN117009921A publication Critical patent/CN117009921A/zh
Application granted granted Critical
Publication of CN117009921B publication Critical patent/CN117009921B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据融合引擎的优化数据处理方法及系统,涉及数据处理技术领域,所述方法包括:通过获取多源异构数据存储中台中的待融合数据;通过数据融合模型融合分析得到数据融合结果,并将数据融合结果存储至多源异构数据存储中台中的融合数据中台;获取目标用户的目标检索信息,并调取得到目标需求数据;采集数据处理记录并分析得到目标处理数据;将目标处理数据动态更新至融合数据中台。解决了现有企业在对各类数据进行管理时无法对海量数据进行融合优化,影响数据管理效率和利用率,导致数据价值未被开发利用,并无法为业务决策提供理论支持的问题。达到了提高数据管理水平,并为业务决策提供可靠有效的数据基础的效果。

Description

一种数据融合引擎的优化数据处理方法及系统
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据融合引擎的优化数据处理方法及系统。
背景技术
随着物联网、云计算、大数据、人工智能、增强现实、虚拟仿真、5G通信等技术的快速发展,各行各业逐步认识到数字化转型和互联网思维对传统产业的重要性和影响,纷纷开始转型和升级以适应数字化时代的商业模式和竞争环境。现有在对企业生产、销售业务等数据进行数字化管理时,存在无法将不同数据来源、不同类型的数据进行高效融合整理,从而影响数据的有效利用,最终影响相关业务决策的问题。研究利用数据融合引擎对海量数据进行有机融合整理,对于促进企业数字化转型和可持续发展具有重要意义。
然而,现有技术中企业在对各类数据进行管理时,存在无法对海量数据进行融合优化,影响数据管理效率和利用率,最终导致数据价值未被开发利用,并无法为业务决策提供理论支持的技术问题。
发明内容
本发明的目的是提供一种数据融合引擎的优化数据处理方法及系统,用以解决现有技术中企业在对各类数据进行管理时,存在无法对海量数据进行融合优化,影响数据管理效率和利用率,最终导致数据价值未被开发利用,并无法为业务决策提供理论支持的技术问题。
鉴于上述问题,本发明提供了一种数据融合引擎的优化数据处理方法及系统。
第一方面,本发明提供了一种数据融合引擎的优化数据处理方法,所述方法通过一种数据融合引擎的优化数据处理系统实现,其中,所述方法包括:通过获取多源异构数据存储中台中的待融合数据,其中,所述待融合数据包括数值型数据、分类型数据、文本数据和图像数据;通过数据融合模型对所述待融合数据进行融合分析,得到数据融合结果,并将所述数据融合结果存储至所述多源异构数据存储中台中的融合数据中台;获取目标用户的目标检索信息,并基于所述目标检索信息在所述融合数据中台中进行数据调取,得到目标需求数据;采集所述目标用户对所述目标需求数据的数据处理记录,并分析所述数据处理记录得到目标处理数据;将所述目标处理数据动态更新至所述融合数据中台。
第二方面,本发明还提供了一种数据融合引擎的优化数据处理系统,用于执行如第一方面所述的一种数据融合引擎的优化数据处理方法,其中,所述系统包括:数据获取模块11,其用于获取所述多源异构数据存储中台中的待融合数据,其中,所述待融合数据包括数值型数据、分类型数据、文本数据和图像数据;数据融合模块12,其用于通过数据融合模型对所述待融合数据进行融合分析,得到数据融合结果,并将所述数据融合结果存储至所述多源异构数据存储中台中的融合数据中台;数据调取模块13,其用于获取目标用户的目标检索信息,并基于所述目标检索信息在所述融合数据中台中进行数据调取,得到目标需求数据;数据处理模块14,其用于采集所述目标用户对所述目标需求数据的数据处理记录,并分析所述数据处理记录得到目标处理数据;数据更新模块15,其用于将所述目标处理数据动态更新至所述融合数据中台。
第三方面,本发明还提供了一种电子设备,包括:
至少一个处理器;
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述第一方面中任一项所述的方法。
第四方面,一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序在执行时实现上述第一方面中任一项所述方法的步骤。
本发明中提供的一个或多个技术方案,至少具有如下技术效果或优点:
通过获取多源异构数据存储中台中的待融合数据,其中,所述待融合数据包括数值型数据、分类型数据、文本数据和图像数据;通过数据融合模型对所述待融合数据进行融合分析,得到数据融合结果,并将所述数据融合结果存储至所述多源异构数据存储中台中的融合数据中台;获取目标用户的目标检索信息,并基于所述目标检索信息在所述融合数据中台中进行数据调取,得到目标需求数据;采集所述目标用户对所述目标需求数据的数据处理记录,并分析所述数据处理记录得到目标处理数据;将所述目标处理数据动态更新至所述融合数据中台。通过对多源异构数据进行融合处理得到数据融合结果,并聚类存储至融合数据中台,从而得到了完整、准确、有价值,同时方便调用的数据集,达到了提高数据管理水平,并为业务决策提供可靠有效的数据基础的技术效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明一种数据融合引擎的优化数据处理方法的流程示意图;
图2为本发明一种数据融合引擎的优化数据处理方法中组成数据融合结果的流程示意图;
图3为本发明一种数据融合引擎的优化数据处理方法中组成多个可视化数据导图的流程示意图;
图4为本发明一种数据融合引擎的优化数据处理系统的结构示意图。
附图标记说明:
数据获取模块11,数据融合模块12,数据调取模块13,数据处理模块14,数据更新模块15。
具体实施方式
本发明通过提供一种数据融合引擎的优化数据处理方法及系统,解决了现有技术中企业在对各类数据进行管理时,存在无法对海量数据进行融合优化,影响数据管理效率和利用率,最终导致数据价值未被开发利用,并无法为业务决策提供理论支持的技术问题。通过对多源异构数据进行融合处理得到数据融合结果,并聚类存储至融合数据中台,从而得到了完整、准确、有价值,同时方便调用的数据集,达到了提高数据管理水平,并为业务决策提供可靠有效的数据基础的技术效果。
下面,将参考附图对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部。
实施例一
请参阅附图1,本发明提供了一种数据融合引擎的优化数据处理方法,其中,所述方法应用于一种数据融合引擎的优化数据处理系统,所述方法具体包括如下步骤:
步骤S100:获取所述多源异构数据存储中台中的待融合数据,其中,所述待融合数据包括数值型数据、分类型数据、文本数据和图像数据;
具体而言,所述一种数据融合引擎的优化数据处理方法应用于一种数据融合引擎的优化数据处理系统,可以通过将企业研发、生产以及销售业务等各方来源的多种类数据进行融合处理,并聚类存储至融合数据中台以提高数据调用效率和数据的实际利用价值。
所述多源异构数据存储中台与所述优化数据处理系统通信连接,因此在所述优化数据处理系统中可实时调用所述多源异构数据存储中台中的数据。其中,所述多源异构数据存储中台为一个数字中台,该数据中台通过将企业研发、生产以及销售业务等多方数据信息按照数据类型进行分类存储,以提高优化数据处理系统对多源数据信息的调用效率。其中,所述多源异构数据存储中台中有研发产品数量、生产数量、仓储数量以及产品销售数据等数值型数据,同时也包括研发的A类新品、B类新品等分类型数据,此外,还包括销售电子合同、产品研发提案等文本数据和新产品成品图像、新产品结构设计图等图像数据。
通过将企业中的各类电子数据按照类别进行划分,从而得到不同格式类型的数据信息,并在多源异构数据存储中台中进行分类存储,达到了为后续数据融合提供全面、完整的数据信息基础的技术效果。
步骤S200:通过数据融合模型对所述待融合数据进行融合分析,得到数据融合结果,并将所述数据融合结果存储至所述多源异构数据存储中台中的融合数据中台;
进一步的,如附图2所示,本发明步骤S200包括:
步骤S210:所述数据融合模型包括第一融合通道、第二融合通道、第三融合通道和第四融合通道;
步骤S220:基于第一预定融合方案,通过所述第一融合通道对所述数值型数据进行融合处理,得到数值型数据融合结果;
步骤S230:基于第二预定融合方案,通过所述第二融合通道对所述分类型数据进行融合处理,得到分类型数据融合结果;
步骤S240:基于第三预定融合方案,通过所述第三融合通道对所述文本数据进行融合处理,得到文本数据融合结果;
步骤S250:基于第四预定融合方案,通过所述第四融合通道对所述图像数据进行融合处理,得到图像数据融合结果;
步骤S260:所述数值型数据融合结果、所述分类型数据融合结果、所述文本数据融合结果和所述图像数据融合结果组成所述数据融合结果。
具体而言,所述数据融合模型包括多个数据融合通道,分别用于对不同格式类型的数据进行针对性的融合处理。首先获取所述数据融合模型中的第一融合通道,并结合第一预定融合方案对所述多源异构数据存储中台中的所述数值型数据进行融合处理,相应地得到数值型数据融合结果。其中,所述第一预定融合方案是指对数值型数据进行处理的方案。然后获取所述数据融合模型中的第二融合通道,并结合第二预定融合方案对所述多源异构数据存储中台中的所述分类型数据进行融合处理,相应地得到分类型数据融合结果。其中,所述第二预定融合方案是指对分类型数据进行处理的方案。接着获取所述数据融合模型中的第三融合通道,并结合第三预定融合方案对所述多源异构数据存储中台中的所述文本数据进行融合处理,相应地得到文本数据融合结果。其中,所述第三预定融合方案是指对文本数据进行处理的方案。最后获取所述数据融合模型中的第四融合通道,并结合第四预定融合方案对所述多源异构数据存储中台中的所述图像数据进行融合处理,相应地得到图像数据融合结果。其中,所述第四预定融合方案是指对图像数据进行处理的方案。最终所述数值型数据融合结果、所述分类型数据融合结果、所述文本数据融合结果和所述图像数据融合结果组成所述数据融合结果。
进一步的,本发明步骤S220包括:
步骤S221:提取所述第一预定融合方案中的第一方案,其中,所述第一方案是指基于数值区间量化原理的融合方案;
步骤S222:根据所述第一方案对所述数值型数据进行处理,得到第一处理结果;
步骤S223:提取所述第一预定融合方案中的第二方案,其中,所述第二方案是指基于归一化原理的融合方案;
步骤S224:根据所述第二方案对所述数值型数据进行处理,得到第二处理结果;
步骤S225:提取所述第一预定融合方案中的第三方案,其中,所述第三方案是指基于方差稳定变换原理的融合方案;
步骤S226:根据所述第三方案对所述数值型数据进行处理,得到第三处理结果;
步骤S227:所述第一处理结果、所述第二处理结果与所述第三处理结果组成所述数值型数据融合结果。
具体而言,首先提取所述第一预定融合方案中的第一方案,其中,所述第一方案是指基于数值区间量化原理的融合方案,并根据所述第一方案对所述数值型数据进行处理,相应地得到第一处理结果。示范性的如预先设置多个数值区间,然后为各个数值数据匹配对应的区间,从而实现数值数据的区间量化过程,进一步对区间进行缩放等处理,以实现数据的标准化过程。然后提取所述第一预定融合方案中的第二方案,其中,所述第二方案是指基于归一化原理的融合方案,并根据所述第二方案对所述数值型数据进行处理,相应地得到第二处理结果。示范性的如将有量纲的表达式经过变换转化为无量纲的表达式,即成为标量,以简化计算,如Min-Max归一化、均值归一化、小数定标归一化等。接着,提取所述第一预定融合方案中的第三方案,其中,所述第三方案是指基于方差稳定变换原理的融合方案,并根据所述第三方案对所述数值型数据进行处理,相应地得到第三处理结果。示范性的如对连续的响应变量不满足正态分布的情况进行数据转换,使其整体数据呈正态分布,便于使用后续的差异分析。具体来说,首先引入一个参数,并通过数据本身估计该参数进而确定应采取的数据变换形式,Box-Cox变换可以明显地改善数据的正态性、对称性和方差相等性,对许多实际数据都是行之有效的。最终所述第一处理结果、所述第二处理结果与所述第三处理结果组成所述数值型数据融合结果。
进一步的,本发明步骤S230包括:
步骤S231:提取所述第二预定融合方案中的第四方案,其中,所述第四方案是指基于独热编码原理的融合方案;
步骤S232:根据所述第四方案对所述分类型数据进行处理,得到第四处理结果;
步骤S233:提取所述第二预定融合方案中的第五方案,其中,所述第五方案是指基于特征散列化原理的融合方案;
步骤S234:根据所述第五方案对所述分类型数据进行处理,得到第五处理结果;
步骤S235:所述第四处理结果与所述第五处理结果组成所述分类型数据融合结果。
具体而言,首先提取所述第二预定融合方案中的第四方案,其中,所述第四方案是指基于独热编码原理的融合方案,并根据所述第四方案对所述分类型数据进行处理,相应地得到第四处理结果。示范性的如使用N位状态寄存器来对N个状态进行编码,则每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。例如自然编码为:0,1,对应独热编码为:10,01,也就是说,对有m个取值的特征经过独热编码处理后转为m个二元特征,每次只有一个激活。例如,有三个特征,性别特征:[“女”,“男”]、国籍特征:[“中国”,“美国”,“俄罗斯”,“英国”]、年龄特征:[18,19,20],那么对一个20岁中国国籍的男生,其特征为:[“男”,“中国”,“20”],将特征数字化,即表示为:[1,0,2]。但是,这样的特征放入Machine Learning中是不可以的,因为类别之间是无序的,因此,可以进一步利用one-hot编码对其进行融合编码处理,首先对于性别特征,有两种取值:女/男,用10(二进制)表示女,用01(二进制)表示男,对于国籍特征,有四种取值,用1000(二进制)表示中国,0100(二进制)表示美国,0010(二进制)表示俄罗斯,0001(二进制)表示英国,对于年龄特征,有三种取值,用100(二进制)表示18岁,010(二进制)表示19岁,001(二进制)表示20岁,最终得出20岁中国国籍的男生表示为:[011000001]。然后提取所述第二预定融合方案中的第五方案,其中,所述第五方案是指基于特征散列化原理的融合方案,并根据所述第五方案对所述分类型数据进行处理,相应地得到第五处理结果。示范性的如将每一类映射以特殊的映射方式到一个较小的区间里,然后用一个较小的向量表示原有类。最终所述第四处理结果与所述第五处理结果组成所述分类型数据融合结果。
进一步的,本发明步骤S240包括:
步骤S241:提取所述第三预定融合方案中的第六方案,其中,所述第六方案是指基于词汇特性原理的融合方案;
步骤S242:根据所述第六方案对所述文本数据进行处理,得到第六处理结果,并将所述第六处理结果作为所述文本数据融合结果。
具体而言,首先提取所述第三预定融合方案中的第六方案,其中,所述第六方案是指基于词汇特性原理的融合方案,并根据所述第六方案对所述文本数据进行处理,得到第六处理结果。示范性的如对于固有特性,如停用词“的”“们”等词汇首先进行剔除,然后从中将高频词筛选出来,进一步在高频词中筛选罕见的高频词进行针对性识别等。最终将所述第六处理结果作为所述文本数据融合结果。
进一步的,本发明步骤S250包括:
步骤S251:提取所述第四预定融合方案中的第七方案,其中,所述第七方案是指基于图像特征值原理的融合方案;
步骤S252:根据所述第七方案对所述图像数据进行处理,得到第七处理结果,并将所述第七处理结果作为所述图像数据融合结果。
具体而言,首先提取所述第四预定融合方案中的第七方案,其中,所述第七方案是指基于图像特征值原理的融合方案,并根据所述第七方案对所述图像数据进行处理,相应地得到第七处理结果。示范性的如对某新产品的成品图像进行颜色特征和纹理特征分析,并加权得到图像对应的特征值,将该新品特征值与旧品特征值进行对比可用于表征新品的区别性特点。最终将所述第七处理结果作为所述图像数据融合结果。
步骤S300:获取目标用户的目标检索信息,并基于所述目标检索信息在所述融合数据中台中进行数据调取,得到目标需求数据;
步骤S400:采集所述目标用户对所述目标需求数据的数据处理记录,并分析所述数据处理记录得到目标处理数据;
具体而言,所述目标用户是指任意一个通过所述优化数据处理系统对企业数据进行调用查看、管理编辑等操作的企业员工、合作用户等。例如企业中利用该优化数据处理系统进行财务管理的财务部员工等。首先获取所述目标用户的目标检索信息,具体包括该目标用户要查看或者管理编辑的数据类型、调取目的等相关信息,然后根据目标检索信息在所述融合数据中台中对该目标用户所需要的数据进行调取,相应地得到目标需求数据。接下来,采集所述目标用户对所述目标需求数据的数据处理记录,包括其下载、打印、截屏或者更改编辑等所有操作的日志信息,并分析所述数据处理记录得到目标处理数据。其中,所述目标处理数据是指在所述目标用户对所述目标需求数据进行相应处理操作后的数据。
步骤S500:将所述目标处理数据动态更新至所述融合数据中台。
进一步的,如图3所示,本发明还包括步骤S600:
步骤S610:基于不同聚类原则对所述数据融合结果进行聚类,得到多种聚类结果;
步骤S620:依次获取所述多种聚类结果中各聚类结果的可视化数据导图,组成多个可视化数据导图,并存储至所述融合数据中台。
具体而言,基于不同聚类原则对所述数据融合结果进行聚类,得到多种聚类结果。示范性的如基于各数据的部门标签,如财务部、生产部、销售部等数据来源的部门标签,对所述数据融合结果进行聚类,得到不同部门的不同融合数据结果。再如,根据数据记录的时间序列标签,如2018年、2019年等,对数据融合结果进行年份聚类,得到企业在不同年份的相关数据信息。此外,基于多个标签对数据进行聚类,如企业在2020年财务部产生的所有数据、或企业在2020年财务部产生的数值型数据等。最后,依次获取所述多种聚类结果中各聚类结果的可视化数据导图,组成多个可视化数据导图,并存储至所述融合数据中台。也就是说,通过对数据融合结果进行多方式聚类,实现对数据的智能化整理目标,进而生成对应可视化数据导图,为管理人员等系统用户直观快速了解数据信息提供可视化数字模型基础。通过将不同聚类原则下聚类的数据打包存储至融合数据中台,为数据的调用处理等提供基础,达到了提高数据调用效率和管理质量的技术效果。
综上所述,本发明所提供的一种数据融合引擎的优化数据处理方法具有如下技术效果:
1.通过获取多源异构数据存储中台中的待融合数据,其中,所述待融合数据包括数值型数据、分类型数据、文本数据和图像数据;通过数据融合模型对所述待融合数据进行融合分析,得到数据融合结果,并将所述数据融合结果存储至所述多源异构数据存储中台中的融合数据中台;获取目标用户的目标检索信息,并基于所述目标检索信息在所述融合数据中台中进行数据调取,得到目标需求数据;采集所述目标用户对所述目标需求数据的数据处理记录,并分析所述数据处理记录得到目标处理数据;将所述目标处理数据动态更新至所述融合数据中台。通过利用数据融合模型对不同类型的数据进行融合处理,得到数据融合结果,实现了提高数据的质量,降低数据的冗余性和错误率的技术目标,通过对各类数据进行聚类存储,实现了数据关联匹配的目标,达到了提高数据融合准确性和完整性的效果。
2.通过构建可视化数据导图,实现了将融合后的数据信息可视化展现的目标,为提高用户对数据的理解性和利用率提供基础,达到了为业务决策提供直观有效的参考信息的技术效果。
实施例二
基于与前述实施例中一种数据融合引擎的优化数据处理方法,同样发明构思,本发明还提供了一种数据融合引擎的优化数据处理系统,所述优化数据处理系统与多源异构数据存储中台通信连接,请参阅附图4,所述系统包括:
数据获取模块11,其用于获取所述多源异构数据存储中台中的待融合数据,其中,所述待融合数据包括数值型数据、分类型数据、文本数据和图像数据;
数据融合模块12,其用于通过数据融合模型对所述待融合数据进行融合分析,得到数据融合结果,并将所述数据融合结果存储至所述多源异构数据存储中台中的融合数据中台;
数据调取模块13,其用于获取目标用户的目标检索信息,并基于所述目标检索信息在所述融合数据中台中进行数据调取,得到目标需求数据;
数据处理模块14,其用于采集所述目标用户对所述目标需求数据的数据处理记录,并分析所述数据处理记录得到目标处理数据;
数据更新模块15,其用于将所述目标处理数据动态更新至所述融合数据中台。
进一步的,所述系统中的所述数据融合模块12还用于:
所述数据融合模型包括第一融合通道、第二融合通道、第三融合通道和第四融合通道;
基于第一预定融合方案,通过所述第一融合通道对所述数值型数据进行融合处理,得到数值型数据融合结果;
基于第二预定融合方案,通过所述第二融合通道对所述分类型数据进行融合处理,得到分类型数据融合结果;
基于第三预定融合方案,通过所述第三融合通道对所述文本数据进行融合处理,得到文本数据融合结果;
基于第四预定融合方案,通过所述第四融合通道对所述图像数据进行融合处理,得到图像数据融合结果;
所述数值型数据融合结果、所述分类型数据融合结果、所述文本数据融合结果和所述图像数据融合结果组成所述数据融合结果。
进一步的,所述系统中的所述数据融合模块12还用于:
提取所述第一预定融合方案中的第一方案,其中,所述第一方案是指基于数值区间量化原理的融合方案;
根据所述第一方案对所述数值型数据进行处理,得到第一处理结果;
提取所述第一预定融合方案中的第二方案,其中,所述第二方案是指基于归一化原理的融合方案;
根据所述第二方案对所述数值型数据进行处理,得到第二处理结果;
提取所述第一预定融合方案中的第三方案,其中,所述第三方案是指基于方差稳定变换原理的融合方案;
根据所述第三方案对所述数值型数据进行处理,得到第三处理结果;
所述第一处理结果、所述第二处理结果与所述第三处理结果组成所述数值型数据融合结果。
进一步的,所述系统中的所述数据融合模块12还用于:
提取所述第二预定融合方案中的第四方案,其中,所述第四方案是指基于独热编码原理的融合方案;
根据所述第四方案对所述分类型数据进行处理,得到第四处理结果;
提取所述第二预定融合方案中的第五方案,其中,所述第五方案是指基于特征散列化原理的融合方案;
根据所述第五方案对所述分类型数据进行处理,得到第五处理结果;
所述第四处理结果与所述第五处理结果组成所述分类型数据融合结果。
进一步的,所述系统中的所述数据融合模块12还用于:
提取所述第三预定融合方案中的第六方案,其中,所述第六方案是指基于词汇特性原理的融合方案;
根据所述第六方案对所述文本数据进行处理,得到第六处理结果,并将所述第六处理结果作为所述文本数据融合结果。
进一步的,所述系统中的所述数据融合模块12还用于:
提取所述第四预定融合方案中的第七方案,其中,所述第七方案是指基于图像特征值原理的融合方案;
根据所述第七方案对所述图像数据进行处理,得到第七处理结果,并将所述第七处理结果作为所述图像数据融合结果。
进一步的,所述系统还包括数据可视化模块,其中,所述数据可视化模块用于:
基于不同聚类原则对所述数据融合结果进行聚类,得到多种聚类结果;
依次获取所述多种聚类结果中各聚类结果的可视化数据导图,组成多个可视化数据导图,并存储至所述融合数据中台。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,前述图1实施例一中的一种数据融合引擎的优化数据处理方法和具体实例同样适用于本实施例的一种数据融合引擎的优化数据处理系统,通过前述对一种数据融合引擎的优化数据处理方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种数据融合引擎的优化数据处理系统,所以为了说明书的简洁,在此不再详述。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本发明还提供一种电子设备,包括:
至少一个处理器;
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行实施例一中任一项所述的方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序在执行时实现实施例一中任一项所述方法的步骤。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (5)

1.一种数据融合引擎的优化数据处理方法,其特征在于,所述优化数据处理方法应用于优化数据处理系统,所述优化数据处理系统与多源异构数据存储中台通信连接,在所述优化数据处理系统中可实时调用所述多源异构数据存储中台中的数据,所述优化数据处理方法包括:
获取所述多源异构数据存储中台中的待融合数据,其中,所述待融合数据包括数值型数据、分类型数据、文本数据和图像数据;
通过数据融合模型对所述待融合数据进行融合分析,得到数据融合结果,并将所述数据融合结果存储至所述多源异构数据存储中台中的融合数据中台;
获取目标用户的目标检索信息,并基于所述目标检索信息在所述融合数据中台中进行数据调取,得到目标需求数据;
采集所述目标用户对所述目标需求数据的数据处理记录,并分析所述数据处理记录得到目标处理数据;
将所述目标处理数据动态更新至所述融合数据中台;
所述通过数据融合模型对所述待融合数据进行融合分析,得到数据融合结果,包括:
所述数据融合模型包括第一融合通道、第二融合通道、第三融合通道和第四融合通道;
基于第一预定融合方案,通过所述第一融合通道对所述数值型数据进行融合处理,得到数值型数据融合结果;
基于第二预定融合方案,通过所述第二融合通道对所述分类型数据进行融合处理,得到分类型数据融合结果;
基于第三预定融合方案,通过所述第三融合通道对所述文本数据进行融合处理,得到文本数据融合结果;
基于第四预定融合方案,通过所述第四融合通道对所述图像数据进行融合处理,得到图像数据融合结果;
所述数值型数据融合结果、所述分类型数据融合结果、所述文本数据融合结果和所述图像数据融合结果组成所述数据融合结果;
所述得到数值型数据融合结果,包括:
提取所述第一预定融合方案中的第一方案,其中,所述第一方案是指基于数值区间量化原理的融合方案;
根据所述第一方案对所述数值型数据进行处理,得到第一处理结果;
提取所述第一预定融合方案中的第二方案,其中,所述第二方案是指基于归一化原理的融合方案;
根据所述第二方案对所述数值型数据进行处理,得到第二处理结果;
提取所述第一预定融合方案中的第三方案,其中,所述第三方案是指基于方差稳定变换原理的融合方案;
根据所述第三方案对所述数值型数据进行处理,得到第三处理结果;
所述第一处理结果、所述第二处理结果与所述第三处理结果组成所述数值型数据融合结果;
所述得到分类型数据融合结果,包括:
提取所述第二预定融合方案中的第四方案,其中,所述第四方案是指基于独热编码原理的融合方案;
根据所述第四方案对所述分类型数据进行处理,得到第四处理结果;
提取所述第二预定融合方案中的第五方案,其中,所述第五方案是指基于特征散列化原理的融合方案;
根据所述第五方案对所述分类型数据进行处理,得到第五处理结果;
所述第四处理结果与所述第五处理结果组成所述分类型数据融合结果;
所述得到文本数据融合结果,包括:
提取所述第三预定融合方案中的第六方案,其中,所述第六方案是指基于词汇特性原理的融合方案;
根据所述第六方案对所述文本数据进行处理,得到第六处理结果,并将所述第六处理结果作为所述文本数据融合结果;
所述得到图像数据融合结果,包括:
提取所述第四预定融合方案中的第七方案,其中,所述第七方案是指基于图像特征值原理的融合方案;
根据所述第七方案对所述图像数据进行处理,得到第七处理结果,并将所述第七处理结果作为所述图像数据融合结果。
2.根据权利要求1所述优化数据处理方法,其特征在于,在所述将所述数据融合结果存储至所述多源异构数据存储中台中的融合数据中台之后,还包括:
基于不同聚类原则对所述数据融合结果进行聚类,得到多种聚类结果;
依次获取所述多种聚类结果中各聚类结果的可视化数据导图,组成多个可视化数据导图,并存储至所述融合数据中台。
3.一种数据融合引擎的优化数据处理系统,其特征在于,所述优化数据处理系统与多源异构数据存储中台通信连接,在所述优化数据处理系统中可实时调用所述多源异构数据存储中台中的数据,所述优化数据处理系统用于执行权利要求1-2所述的优化数据处理方法,所述优化数据处理系统包括:
数据获取模块,其用于获取所述多源异构数据存储中台中的待融合数据,其中,所述待融合数据包括数值型数据、分类型数据、文本数据和图像数据;
数据融合模块,其用于通过数据融合模型对所述待融合数据进行融合分析,得到数据融合结果,并将所述数据融合结果存储至所述多源异构数据存储中台中的融合数据中台;
数据调取模块,其用于获取目标用户的目标检索信息,并基于所述目标检索信息在所述融合数据中台中进行数据调取,得到目标需求数据;
数据处理模块,其用于采集所述目标用户对所述目标需求数据的数据处理记录,并分析所述数据处理记录得到目标处理数据;
数据更新模块,其用于将所述目标处理数据动态更新至所述融合数据中台。
4.一种电子设备,包括:
至少一个处理器;
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-2中任一项所述的方法。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序在执行时实现权利要求1-2中任一项所述方法的步骤。
CN202310973825.0A 2023-08-04 2023-08-04 一种数据融合引擎的优化数据处理方法及系统 Active CN117009921B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310973825.0A CN117009921B (zh) 2023-08-04 2023-08-04 一种数据融合引擎的优化数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310973825.0A CN117009921B (zh) 2023-08-04 2023-08-04 一种数据融合引擎的优化数据处理方法及系统

Publications (2)

Publication Number Publication Date
CN117009921A CN117009921A (zh) 2023-11-07
CN117009921B true CN117009921B (zh) 2024-02-23

Family

ID=88565069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310973825.0A Active CN117009921B (zh) 2023-08-04 2023-08-04 一种数据融合引擎的优化数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN117009921B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107545046A (zh) * 2017-08-17 2018-01-05 北京奇安信科技有限公司 一种多源异构数据的融合方法及装置
CN107798137A (zh) * 2017-11-23 2018-03-13 霍尔果斯智融未来信息科技有限公司 一种基于可加模型的多源异构数据融合架构系统
CN111242318A (zh) * 2020-01-13 2020-06-05 拉扎斯网络科技(上海)有限公司 基于异构特征库的业务模型训练方法及装置
CN113392646A (zh) * 2021-07-07 2021-09-14 上海软中信息技术有限公司 一种数据中台系统、构建方法及装置
US11409270B1 (en) * 2021-02-18 2022-08-09 Institute Of Automation, Chinese Academy Of Sciences Optimization decision-making method of industrial process fusing domain knowledge and multi-source data
CN115269743A (zh) * 2022-07-22 2022-11-01 湖北长江传媒数字出版有限公司 一种用于数据融合的数据收集处理系统
CN116340437A (zh) * 2023-03-24 2023-06-27 南京邮电大学 一种面向大规模多源异构数据的多聚类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10430417B2 (en) * 2016-03-10 2019-10-01 Tata Consultancy Services Limited System and method for visual bayesian data fusion

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107545046A (zh) * 2017-08-17 2018-01-05 北京奇安信科技有限公司 一种多源异构数据的融合方法及装置
CN107798137A (zh) * 2017-11-23 2018-03-13 霍尔果斯智融未来信息科技有限公司 一种基于可加模型的多源异构数据融合架构系统
CN111242318A (zh) * 2020-01-13 2020-06-05 拉扎斯网络科技(上海)有限公司 基于异构特征库的业务模型训练方法及装置
US11409270B1 (en) * 2021-02-18 2022-08-09 Institute Of Automation, Chinese Academy Of Sciences Optimization decision-making method of industrial process fusing domain knowledge and multi-source data
CN113392646A (zh) * 2021-07-07 2021-09-14 上海软中信息技术有限公司 一种数据中台系统、构建方法及装置
CN115269743A (zh) * 2022-07-22 2022-11-01 湖北长江传媒数字出版有限公司 一种用于数据融合的数据收集处理系统
CN116340437A (zh) * 2023-03-24 2023-06-27 南京邮电大学 一种面向大规模多源异构数据的多聚类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于物联网的企业共享大数据融合研究;李光荣;王志亮;李翔英;;南京工程学院学报(自然科学版)(第01期);全文 *
李光荣 ; 王志亮 ; 李翔英 ; .基于物联网的企业共享大数据融合研究.南京工程学院学报(自然科学版).2018,(第01期),全文. *
林瑀 ; 陈日成 ; 金涛 ; .面向复杂信息系统的多源异构数据融合技术.中国测试.2020,(第07期),全文. *
面向复杂信息系统的多源异构数据融合技术;林瑀;陈日成;金涛;;中国测试(第07期);全文 *

Also Published As

Publication number Publication date
CN117009921A (zh) 2023-11-07

Similar Documents

Publication Publication Date Title
CN110968701A (zh) 用于图神经网络的关系图谱建立方法以及装置、设备
CN106447066A (zh) 一种大数据的特征提取方法和装置
CN106445988A (zh) 一种大数据的智能处理方法和系统
WO2023124191A1 (zh) 基于深度图匹配的医疗数据元自动化分类方法及系统
CN111274817A (zh) 一种基于自然语言处理技术的智能化软件成本度量方法
CN113345080A (zh) 一种供应商画像建模方法及系统
CN110544035A (zh) 一种内控检测方法、系统和计算机可读存储介质
CN116610818A (zh) 一种输变电工程项目知识库的构建方法及系统
CN114818710A (zh) 表格信息提取方法、装置、设备及介质
CN115564071A (zh) 一种电力物联网设备数据标签生成方法及系统
CN113254517A (zh) 一种基于互联网大数据的服务提供方法
CN117009921B (zh) 一种数据融合引擎的优化数据处理方法及系统
CN115034278A (zh) 性能指标异常检测方法、装置、电子设备和存储介质
CN115687788A (zh) 一种智能化商机推荐方法和系统
CN115034812B (zh) 基于大数据的钢铁行业销售量预测方法及装置
CN110597796A (zh) 基于全生命周期的大数据实时建模方法及系统
CN106816871B (zh) 一种电力系统状态相似性分析方法
CN113642291B (zh) 上市公司报告的逻辑结构树构建方法、系统、存储介质及终端
CN113516454B (zh) 一种基于云计算平台的企业信息管理系统及方法
CN113468203B (zh) 基于循环神经网络与注意力机制的金融用户画像方法
CN112699271B (zh) 一种提升用户视频网站留存时间的推荐方法
CN114842301A (zh) 一种图像注释模型的半监督训练方法
CN113837307A (zh) 数据相似度计算方法、装置、可读介质及电子设备
Yang RETRACTED ARTICLE: Financial Information Extraction Using the Improved Hidden Markov Model and Deep Learning
CN111125198A (zh) 一种基于时间序列的计算机数据挖掘聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant