CN117828539B - 数据智能融合分析系统及方法 - Google Patents
数据智能融合分析系统及方法 Download PDFInfo
- Publication number
- CN117828539B CN117828539B CN202410254772.1A CN202410254772A CN117828539B CN 117828539 B CN117828539 B CN 117828539B CN 202410254772 A CN202410254772 A CN 202410254772A CN 117828539 B CN117828539 B CN 117828539B
- Authority
- CN
- China
- Prior art keywords
- data
- fusion
- column
- strategy
- columns
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 218
- 238000004458 analytical method Methods 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000002159 abnormal effect Effects 0.000 claims abstract description 36
- 238000005457 optimization Methods 0.000 claims abstract description 30
- 238000012216 screening Methods 0.000 claims abstract description 10
- 238000007405 data analysis Methods 0.000 claims abstract description 7
- 238000012360 testing method Methods 0.000 claims description 42
- 238000012545 processing Methods 0.000 claims description 16
- 238000007781 pre-processing Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 11
- 238000007499 fusion processing Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 238000010801 machine learning Methods 0.000 claims description 6
- 230000000875 corresponding effect Effects 0.000 description 45
- 230000010354 integration Effects 0.000 description 8
- 238000003860 storage Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了数据智能融合分析系统及方法,涉及数据分析技术领域,以任意两个数据列间的相似度作为目标距离,进而构建若干个数据列间的密集度;分析获取数据列的数据质量系数,若数据列的数据质量低于预期,则筛选出数据列中的异常值,对异常值做出替换以实现对数据列的优化;由数据列间的相似度及数据质量系数,预先构建各个数据列的融合优先级,以融合优先级对相应的数据列进行标记;依据数据特征与融合策略的对应性,从预先搭建的数据融合知识图谱内匹配出相应的融合策略;以优化系数最高的融合策略作为目标策略。在对各个数据列内的数据进行融合时,能够快速地给出相应融合策略,提高数据融合的效率,产生错误的风险也较低。
Description
技术领域
本发明涉及数据分析技术领域,具体为数据智能融合分析系统及方法。
背景技术
多源数据融合是一个涉及多个领域和技术的概念,它主要是指将来自不同数据源的数据进行综合、整合和分析,以提取出更丰富、更准确的信息。多源数据融合的目的是将不同来源、不同格式、不同特征的数据进行整合,从而形成一个统一的、完整的数据分析基础,提高数据分析和应用的效率和准确性。
多源数据融合先需要确定多源数据融合的策略,包括数据整合的方式、融合的时间窗口、数据匹配的规则等。确定分析目标:明确需要分析的问题和目标,这有助于确定所需的数据源和分析方法。收集数据源:找到并收集相关的数据源。数据源可以包括结构化数据(如数据库、表格)和非结构化数据(如文本、图像、音频等)。数据清洗和预处理:对收集的数据进行清洗和预处理,包括去除噪声、处理缺失值、处理异常值、标准化数据格式等。数据整合:将不同数据源中的数据进行整合,使其能够在同一个分析环境中进行处理。这可以通过数据集成、数据匹配、数据转换等技术来实现。
在申请公布号为CN113961649A的中国发明专利中,公开了一种多源数据融合方法和系统,包括:获取历史多源数据;根据所述多源数据的数据含义对所述多源数据进行分类,对分类结果中的每一类数据设置一个数据项,将第i类数据中的子数据构建关联关系,并将对应的关联关系映射到对应的第i数据项中,根据所有数据项构建数据融合结构,获取输入的多源数据,根据所述数据融合结构将所述输入的多源数据存入对应的数据项类别中,通过获取输入的当前多源数据,根据数据融合结构将当前多源存入对应的数据项类别中。
以上申请中记载的技术方案中,可以实现实时对当前输入的业务数据进行数据分类融合处理,有序管理实时多业务数据,但是结合现有技术和以上申请,在获取到多源数据并对其做融合前,需要预先选择对应的融合策略,而由于各个数据源之间的数据差别较大,数据质量不高,若不能依据数据的实际使用场景对其进行快速匹配,会导致在对多源数据做融合时,预先构建或选择的融合策略和实际数据之间对应性难以达到预期,使多源数据融合的效果难以达到预期。
为此,本发明提供了数据智能融合分析系统及方法。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了数据智能融合分析系统及方法,分析获取数据列的数据质量系数,若数据列的数据质量低于预期,则筛选出数据列中的异常值,对异常值做出替换以实现对数据列的优化;由数据列间的相似度及数据质量系数,预先构建各个数据列的融合优先级,以融合优先级对相应的数据列进行标记;依据数据特征与融合策略的对应性,从预先搭建的数据融合知识图谱内匹配出相应的融合策略;以优化系数最高的融合策略作为目标策略。在对各个数据列内的数据进行融合时,能够快速地给出相应融合策略,提高数据融合的效率,从而解决了背景技术记载的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
数据智能融合分析方法,包括,接收多源数据并构建对应的数据列,计算数据列间的相似度,并以任意两个数据列间的相似度作为目标距离,进而构建若干个数据列间的密集度/>;其中,以所述两个数据列间的相似度作为目标距离/>,计算若干个目标距离间的密集度/>,其具体方式如下:
其中,,n为目标距离的个数,/>为目标距离均值,/>为第i个目标距离;若所述密集度/>不超过密集阈值,发出预警指令;
对数据列内的数据预处理后,分析获取数据列的数据质量系数,若数据列的数据质量低于预期,则筛选出数据列中的异常值,对异常值做出替换以实现对数据列的优化;
由数据列间的相似度及数据质量系数,预先构建各个数据列的融合优先级/>,以融合优先级/>对相应的数据列进行标记;
依据融合优先级依次对各个数据列做特征识别后,依据数据特征与融合策略的对应性,从预先搭建的数据融合知识图谱内匹配出相应的融合策略;
使用训练后的策略测试模型对匹配出的融合策略进行测试,以测试数据构建各个融合策略的优化系数,以优化系数/>最高的融合策略作为目标策略。
进一步的,预先设置接收周期且使接收周期内分布有若干个等间隔的接收节点,于各个接收节点处接收各个数据源的数据;沿着时间轴的延伸方向,将接收到的数据沿着时间轴沿着做有序排列,以获取若干个数据列,对数据列内数据做归一化处理后,做相似性分析,以任意两个数据列之间的欧氏距离作为相似度。
进一步的,在接收到预警指令后,对与数据源相对应的数据列做预处理,计算完成预处理后的各个数据列的数据质量,获取数据质量系数,若数据质量系数/>低于质量阈值时,则将对应的数据列确定为低质量数据列。
进一步的,数据质量系数的获取方式为:通过数据分析获取当前数据列内的峰态系数K及偏态系数S,对两者做线性归一化处理,并将相应的数据值映射至区间/>内,再依照如下方式构建数据质量系数:
其中,i为数据列的序号,,n为数据列的个数;权重系数:,/>;所述/>为n个数据列峰态系数的均值,所述/>为n个数据列偏态系数的均值,/>为第i个数据列的峰态系数,/>为第i个数据列的偏态系数。
进一步的,依据低质量数据列内的数据构建异常阈值,若数据列内的对应数据不在异常阈值/>内,则将其作为异常值,并将异常值在数据列上标记;在确定出异常值后,对数据列内的数据进行函数拟合,
在确定出异常值在数据列内的位置后,由拟合函数对所述位置上的值进行拟合,以拟合值作为替代值;以替代值对异常值进行替换,获取优化后的数据列,并再次获取相应的数据质量系数。
进一步的,在获取优化后数据列的基础上,以任意两个数据列之间的目标距离计算出各个数据列的中心度/>,为各个数据列分析获取相应的融合优先级/>,方式如下:
权重系数:,/>,i为数据列序号,/>;/>为/>个中心度的均值,/>为/>个数据质量系数的均值;/>为第/>个数据列的中心度,/>为第/>个数据列的数据质量系数。
进一步的,在获取到各个数据列的融合优先级后,依据融合优先级/>依次对数据列内的数据做出特征识别,将识别获取的若干个数据特征汇总,构建数据特征集合;依据训练获取网络表示学习模型,以多源数据融合及其相关词作为目标词,采用深度优先搜索从公开渠道检索并采集数据,汇总后生成图谱数据集;
使用训练后的基于机器学习的语义网络模型从图谱数据集中选择数据进行融合处理,预先构建数据融合知识图谱;以各个数据列的数据特征作为输入,从数据融合知识图谱内为各个数据列的融合匹配出若干个融合策略。
进一步的,采集对多源数据融合过程进行采集数据,从采集的数据内抽取部分数据作为样本数据,由样本数据训练获取策略测试模型;
使用训练后的策略测试策略模型对融合策略进行预测分析,并对优化策略连续经过若干次预测分析后,从预测数据内获取融合策略在执行时的数据融合速度Sv及数据完整率Dv,将以上数据汇总后构建策略测试数据集合。
进一步的,由策略测试数据集生成优化系数,以其中优化系数/>最高的融合策略作为目标策略,使用目标策略对来自于多个数据源的数据列做数据融合;
优化系数的获取方式如下:将数据融合速度/>及数据完整率/>做线性归一化处理,并将相应的数据值映射至区间/>内,再依照如下公式:
其中,为数据融合速度的均值,/>为数据完整率的均值,/>,n,n为预测次数;/> ,/> ,且/>,/>为第i次测试的数据融合速度,为第i次测试的数据完整率。
数据智能融合分析系统,包括:
分析单元,接收多源数据并构建对应的数据列,计算数据列间的相似度,并以任意两个数据列间的相似度作为目标距离,进而构建若干个数据列间的密集度;
优化单元,对数据列内的数据预处理后,分析获取数据列的数据质量系数,若数据列的数据质量低于预期,则筛选出数据列中的异常值,对异常值做出替换以实现对数据列的优化;
规划单元,由数据列间的相似度及数据质量系数,预先构建各个数据列的融合优先级,以融合优先级对相应的数据列进行标记;
输出单元,依据融合优先级依次对各个数据列做特征识别后,依据数据特征与融合策略的对应性,从预先搭建的数据融合知识图谱内匹配出相应的融合策略;
筛选单元,使用训练后的策略测试模型对匹配出的融合策略进行测试,以测试数据构建各个融合策略的优化系数,以优化系数最高的融合策略作为目标策略。
(三)有益效果
本发明提供了数据智能融合分析系统及方法,具备以下有益效果:
1、在对各个数据源间的数据相似度进行分析之后,计算获取密集度,以密集度对数据列间相似性的分布状态进行表征,若密集度/>的值较低,各个数据源间的数据相似性较高,在数据融合的整体性难度较高时,则需要对数据融合策略进行筛选,提高融合策略的可靠性和匹配性。
2、在筛选出其中的异常值后,分析获取对应位置的替代值,以替代值对异常值做出替换,在已经对数据列做出预处理的基础上,再次对相应的数据列做出针对性的优化,进一步地提高了部分低质量数据列的数据质量,在将其用于数据融合时,也能够降低融合的难度。
3、构建融合优先级,在将多个数据源的数据做融合时,以此作为融合顺序,使融合过程能够有序地进行,从而能够避免无序融合带来的混乱,提高数据融合的效率,在获取到数据融合的顺序时,在确定具体的融合策略时,也可以更具有针对性。
4、在完成数据融合知识图谱的基础上,在对各个数据列内的数据进行融合时,能够快速地给出相应融合策略,减少设计融合策略时间,提高数据融合的效率,通过数据融合知识图谱给出融合策略,可靠性也相对较高,产生错误的风险也较低。
5、在当前融合策略具有若干个时,依据优化系数对融合策略进行筛选,筛选出其中融合效果最佳或较佳的,在以目标策略对多源数据进行融合时,能够达到更好的融合效果,以其对预先设定的融合策略进行替代,在完成对数据做出二次优化,并确定出相应的融合顺序的基础上,能够使多源数据融合效率更高,融合后的数据可靠性也更高,通过由知识图谱给出融合策略再对其进行筛选,也能使该融合策略与实际使用场景更加匹配,减少人工的错误干预,使融合效果达到预期。
附图说明
图1为本发明数据智能融合分析方法流程示意图;
图2为本发明数据智能融合分析系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供数据智能融合分析方法,包括:
步骤一、接收多源数据并构建对应的数据列,计算数据列间的相似度,并以任意两个数据列间的相似度作为目标距离,进而构建若干个数据列间的密集度/>;
所述步骤一包括如下内容:
步骤101、在需要对多源数据做智能融合时,对各个数据源进行编号;并且在接收各个数据源的数据时,预先设置接收周期,且使接收周期内分布有若干个等间隔的接收节点,于各个接收节点处接收各个数据源的数据;
步骤102、沿着时间轴的延伸方向,将接收到的数据沿着时间轴沿着做有序排列,以获取若干个数据列,对数据列内数据做归一化处理后,计算任意两个数据列之间的欧氏距离,并以此作为相似度;
使用时,通过计算两个数据列之间的相似度,以此对不同数据源间的数据相似性进行判断,如果数据相似性较高,则可以说明后续的数据融合的难度相对较低;
步骤103、以所述两个数据列间的相似度作为目标距离,计算若干个目标距离间的密集度/>,其具体方式如下:
其中,,n为目标距离的个数,/>为目标距离的均值,/>为第i个目标距离;
结合历史数据及对各个数据源的管理预期,预先设置密集阈值;若所述密集度不超过密集阈值,说明当前各个数据源间的数据相似度较低,因此,在多个数据源间的数据做出融合时,发出预警指令;
使用时,结合步骤101至103中的内容:
在对各个数据源间的数据相似度进行分析之后,再依据所述相似度计算获取密集度,以密集度/>对数据列间相似性的分布状态进行表征,若密集度/>的值较低,各个数据源间的数据相似性较高,那在对若干个数据源做数据融合时,整体性难度较低,反之,则较高;在数据融合的整体性难度较高时,则需要对数据融合策略进行筛选,提高融合策略的可靠性和匹配性。
步骤二、对数据列内的数据预处理后,分析获取数据列的数据质量系数,若数据列的数据质量低于预期,则筛选出数据列中的异常值,对异常值做出替换以实现对数据列的优化;
所述步骤二包括如下内容:
步骤201、在接收到预警指令后,对与数据源相对应的数据列做预处理,例如:数据预处理通常包括以下几个主要步骤:
数据清洗:处理缺失值:填充缺失值或进行缺失值删除;处理异常值:检测和处理异常值,如剔除或者进行平滑处理;处理重复数据:发现并移除重复的数据记录;数据转换:数据标准化:将数据按比例缩放,使之落入某个特定的范围,例如使用z-score标准化或min-max标准化;数据归一化:将数值特征缩放到一个标准的范围,例如将数值特征缩放到[0,1]范围内,数据编码及数据集成等。
计算完成预处理后的各个数据列的数据质量,具体包括:
通过数据分析获取当前数据列内的峰态系数K及偏态系数S,对两者做线性归一化处理,并将相应的数据值映射至区间内,再依照如下方式构建数据质量系数:
其中,i为数据列的序号,,n为数据列的个数;权重系数:,/>;所述/>为n个数据列峰态系数的均值,所述/>为n个数据列偏态系数的均值,作为补充说明,/>为第i个数据列的峰态系数,/>为第i个数据列的偏态系数;权重系数的获取可以参考层次分析法;
依据对数据质量的管理预期以及历史数据,预先设置质量阈值,若数据质量系数低于质量阈值时,则将对应的数据列确定为低质量数据列;
使用时,在对数据列做初步的预处理后,以获取的数据质量系数对各个数据列的数据质量进行评估,若数据列的数据质量过低,则在做数据融合时,难度会较大;因此,在保持数据质量可靠的前提下,还需要对数据做进一步的处理;
步骤202、依据低质量数据列内的数据构建异常阈值,方式如下:
其中,,k为数据列内数据的个数,/>为数据列内数据的均值;/>为数据列内第i个数据。
若数据列内的对应数据不在异常阈值内,则将其作为异常值,并将异常值在数据列上标记;
步骤203、在确定出异常值后,对数据列内的数据进行函数拟合,并将拟合获取的函数做K-S验证,将经过K-S验证的拟合函数作为目标函数;
在确定出异常值在数据列内的位置后,由目标函数对所述位置上的值进行拟合,以拟合值作为替代值;以替代值对异常值进行替换,获取优化后的数据列,并再次获取相应的数据质量系数;
使用时,结合步骤201至203中的内容:
对于低质量数据列,在筛选出其中的异常值后,分析获取对应位置的替代值,以替代值对异常值做出替换,此时,在已经对数据列做出预处理的基础上,再次对相应的数据列做出针对性的优化,进一步地提高了部分低质量数据列的数据质量,在提高了数据可靠性的基础上,在将其用于数据融合时,也能够降低融合的难度。
步骤三、由数据列间的相似度及数据质量系数,预先构建各个数据列的融合优先级/>,以融合优先级/>对相应的数据列进行标记;
所述步骤三包括如下内容:
步骤301、在获取优化后数据列的基础上,以任意两个数据列之间的目标距离计算出各个数据列的中心度,具体方式如下:
其中,k为数据列的个数,是数据列i与数据列j的目标距离;以获取到的中心度对数据列进行标记;
使用时,以计算获取的中心度能够对单一数据列与其他数据列之间的相似性进行评价,若是计算获取到中心度/>越低,则说明该数据列与其他数据列间的相似性越低,其融合难度越高,在实际进行融合时,应当将该数据列最后融合,以提高前期融合的效率;
步骤302、在获取到各个数据列的中心度及数据质量系数/>后,为各个数据列分析获取相应的融合优先级/>,其具体的方式如下:
权重系数:,/>,可以由层次分析法获取,其中,i为数据列序号,;/>为/>个中心度的均值,/>为/>个数据质量系数的均值;/>为第个数据列的中心度,/>为第/>个数据列的数据质量系数;
使用时,结合步骤301至302中的内容:
在数据列的中心度及数据质量系数/>的基础上构建融合优先级/>,从而在将多个数据源的数据做融合时,能够以此作为融合顺序,使融合过程能够有序地进行,从而能够避免无序融合带来的混乱,提高数据融合的效率,同时,在获取到数据融合的顺序时,在确定具体的融合策略时,也可以更具有针对性。
步骤四、依据融合优先级依次对各个数据列做特征识别后,依据数据特征与融合策略的对应性,从预先搭建的数据融合知识图谱内匹配出相应的融合策略;
所述步骤四包括如下内容:
步骤401、在获取到各个数据列的融合优先级后,依据融合优先级/>依次对数据列内的数据做出特征识别,以提取出最具有代表性的特征,这可以通过统计分析、机器学习等方法来实现,将识别获取的若干个数据特征汇总,构建数据特征集合;
步骤402、依据训练获取网络表示学习模型,以多源数据融合及其相关词作为目标词,采用深度优先搜索从公开渠道检索并采集数据,汇总后生成图谱数据集;使用训练后的基于机器学习的语义网络模型从图谱数据集中选择数据进行融合处理,预先构建数据融合知识图谱;以各个数据列的数据特征作为输入,从数据融合知识图谱中为各个数据列的融合匹配出若干个融合策略;
使用时,结合步骤401及402中的内容:
在获取到融合优先级后,以此作为识别顺序,依次对若干个数据列内的数据进行特征识别,获取相应的数据属性;而在获取各组数据列的顺序及数据特征后,以此作为识别特征;在完成数据融合知识图谱的基础上,在对各个数据列内的数据进行融合时,能够快速地给出相应融合策略,减少设计融合策略时间,提高数据融合的效率,同时,通过数据融合知识图谱给出融合策略,可靠性也相对较高,产生错误的风险也较低。
步骤五、使用训练后的策略测试模型对匹配出的融合策略进行测试,以测试数据构建各个融合策略的优化系数,以优化系数/>最高的融合策略作为目标策略;
所述步骤五包括如下内容:
步骤501、采集对多源数据融合过程进行采集数据,例如,数据识别、整合及实体识别等,以及融合前后的数据集合等;从采集的数据内抽取部分数据作为样本数据,使用机器学习构建初始模型,使用样本数据对初始模型进行训练和测试后,将训练后的初始模型作为策略测试模型,将策略测试模型输出;
步骤502、在设置测试频率后,使用训练后的策略测试策略模型对融合策略进行预测分析,并对优化策略连续经过若干次预测分析后,从预测数据内获取融合策略在执行时的数据融合速度Sv及数据完整率Dv,其中,数据融合速度依据单位时长内的数据融合量计算获取,数据完整率/>依据单位数据量内的数据完整比例计算获取;将以上数据汇总后构建策略测试数据集合;
使用时,通过对各个数据列的融合做出多次测试和分析并获取相应的测试数据,通过获取的多组数据进行综合评估,能够提高测试数据的可靠性;
步骤503、由策略测试数据集生成优化系数,方式如下:将数据融合速度/>及数据完整率/>做线性归一化处理,并将相应的数据值映射至区间/>内,再依照如下公式:
其中,为数据融合速度的均值,/>为数据完整率的均值,/>,n,n为预测次数;/> ,/> ,且/>,其具体值由用户调整设置,或者通过模拟软件分析获取;/>为第i次测试的数据融合速度,/>为第i次测试的数据完整率;
以其中优化系数最高的融合策略作为目标策略,使用目标策略,依据预先搭建的多源数据融合模型对来自于多个数据源的数据列做数据融合;
使用时,结合步骤501至503中的内容:
在以训练后的测试训练模型对由数据融合知识图谱给出的融合策略进行测试后,依据测试获取的数据构优化系数,在当前融合策略具有若干个时,能够依据优化系数/>对融合策略进行筛选,筛选出其中融合效果最佳或较佳的,以此作为目标策略;因此,在以目标策略对多源数据进行融合时,能够达到更好的融合效果,以其对预先设定的融合策略进行替代,在完成对数据做出二次优化,并确定出相应的融合顺序的基础上,能够使多源数据融合效率更高,融合后的数据可靠性也更高。
而且,通过由知识图谱给出融合策略再对其进行筛选,也能使该融合策略与实际使用场景更加匹配,减少人工的错误干预;使融合效果达到预期。
其中,多源数据融合模型可以参考如下内容:构建多源数据融合模型通常包括以下步骤:确定融合策略:首先需要确定多源数据融合的策略,包括数据整合的方式、融合的时间窗口、数据匹配的规则等。这需要结合具体业务场景和数据特点来确定,比如是以时间为基准进行融合,还是通过某种关键字段进行数据匹配。数据预处理:对不同数据源的数据进行预处理,包括数据清洗、格式转换、特征提取等。确保数据能够在相同的语义空间下进行融合。数据匹配和整合:根据确定的融合策略,对不同数据源的数据进行匹配和整合。这可能涉及到实体识别、记录链接、数据聚合等技术,确保不同数据源的数据能够对应起来。特征工程:在数据融合之后,可能需要进行特征提取、特征选择等工作,以生成可以用于建模的特征集。模型建立:在进行数据融合后,可以利用各种机器学习或统计模型进行建模,根据具体任务选择合适的模型,如回归模型、分类模型、聚类模型等。
请参阅图2,本发明提供数据智能融合分析系统,包括:
分析单元,接收多源数据并构建对应的数据列,计算数据列间的相似度,并以任意两个数据列间的相似度作为目标距离,进而构建若干个数据列间的密集度;
优化单元,对数据列内的数据预处理后,分析获取数据列的数据质量系数,若数据列的数据质量低于预期,则筛选出数据列中的异常值,对异常值做出替换以实现对数据列的优化;
规划单元,由数据列间的相似度及数据质量系数,预先构建各个数据列的融合优先级,以融合优先级对相应的数据列进行标记;
输出单元,依据融合优先级依次对各个数据列做特征识别后,依据数据特征与融合策略的对应性,从预先搭建的数据融合知识图谱内匹配出相应的融合策略;
筛选单元,使用训练后的策略测试模型对匹配出的融合策略进行测试,以测试数据构建各个融合策略的优化系数,以优化系数最高的融合策略作为目标策略。
需要说明的是:层次分析法是一种定性和定量相结合的分析方法,它可以将复杂的问题分解为多个层次,通过比较各层次因素的重要性,可以帮助决策者对复杂问题进行决策,确定最终的决策方案,在这个过程中,层次分析法可以用来确定这些指标的权重系数。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一些逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-onlymemory,ROM)、随机存取存储器(randomaccessmemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。
Claims (7)
1.数据智能融合分析方法,其特征在于:包括,
接收多源数据并构建对应的数据列,计算数据列间的相似度,并以任意两个数据列间的相似度P作为目标距离,进而构建若干个数据列间的密集度Mp;其中,计算若干个目标距离间的密集度Mp的方式如下:
其中,i=1,2,…,n,n为目标距离的个数,Pavg为目标距离均值,Pi为第i个目标距离;若所述密集度Mp不超过密集阈值,发出预警指令;
对数据列内的数据预处理后,分析获取数据列的数据质量系数Sp,若数据列的数据质量低于预期,则筛选出数据列中的异常值,对异常值做出替换以实现对数据列的优化;
由数据列间的相似度及数据质量系数Sp,预先构建各个数据列的融合优先级Yes,以融合优先级Yes对相应的数据列进行标记;其中,在接收到预警指令后,对与数据源相对应的数据列做预处理,计算完成预处理后的各个数据列的数据质量,获取数据质量系数Sp,若数据质量系数Sp低于质量阈值时,则将对应的数据列确定为低质量数据列;
数据质量系数Sp的获取方式为:通过数据分析获取当前数据列内的峰态系数K及偏态系数S,对两者做线性归一化处理,并将相应的数据值映射至区间[0,1]内,再依照如下方式构建数据质量系数Sp:
其中,i为数据列的序号,i=1,2,…,n,n为数据列的个数;权重系数:0≤F1≤1,0≤F2≤1;所述Kavg为n个数据列峰态系数的均值,所述Savg为n个数据列偏态系数的均值,Ki为第i个数据列的峰态系数,Si为第i个数据列的偏态系数;
依据融合优先级Yes依次对各个数据列做特征识别后,依据数据特征与融合策略的对应性,从预先搭建的数据融合知识图谱内匹配出相应的融合策略;
使用训练后的策略测试模型对匹配出的融合策略进行测试,以测试数据构建各个融合策略的优化系数Sd,以优化系数Sd最高的融合策略作为目标策略。
2.根据权利要求1所述的数据智能融合分析方法,其特征在于:
预先设置接收周期且使接收周期内分布有若干个等间隔的接收节点,于各个接收节点处接收各个数据源的数据,将接收到的数据沿着时间轴沿着做有序排列,以获取若干个数据列,对数据列内数据做归一化处理后,做相似性分析,以任意两个数据列之间的欧氏距离作为相似度。
3.根据权利要求1所述的数据智能融合分析方法,其特征在于:
依据低质量数据列内的数据构建异常阈值[Qa,Qb],若数据列内的对应数据不在异常阈值[Qa,Qb]内,则将其作为异常值,并将异常值在数据列上标记;在确定出异常值后,对数据列内的数据进行函数拟合;
在确定出异常值在数据列内的位置后,由拟合函数对所述位置上的值进行拟合,以拟合值作为替代值;以替代值对异常值进行替换,获取优化后的数据列,并再次获取相应的数据质量系数Sp。
4.根据权利要求1所述的数据智能融合分析方法,其特征在于:
在获取优化后数据列的基础上,以任意两个数据列之间的目标距离P计算出各个数据列的中心度Cn,具体方式如下:
其中,k为数据列的个数,Sij是数据列i与数据列j的目标距离;以获取到的中心度Cn对数据列进行标记;
为各个数据列分析获取相应的融合优先级Yes,方式如下:
权重系数:0≤ζ≤1,0≤χ≤1,i为数据列序号,i=1,2,…,k;Cnavg为k个中心度的均值,Spavg为k个数据质量系数的均值;Cni为第i个数据列的中心度,Spi为第i个数据列的数据质量系数,其中。
5.根据权利要求4所述的数据智能融合分析方法,其特征在于:
在获取到各个数据列的融合优先级Yes后,依据融合优先级Yes依次对数据列内的数据做出特征识别,将识别获取的若干个数据特征汇总,构建数据特征集合;依据训练获取网络表示学习模型,以多源数据融合及其相关词作为目标词,采用深度优先搜索从公开渠道检索并采集数据,汇总后生成图谱数据集;
使用训练后的基于机器学习的语义网络模型从图谱数据集中选择数据进行融合处理,预先构建数据融合知识图谱;以各个数据列的数据特征作为输入,从数据融合知识图谱内为各个数据列的融合匹配出若干个融合策略。
6.根据权利要求1所述的数据智能融合分析方法,其特征在于:
采集对多源数据融合过程进行采集数据,从采集的数据内抽取部分数据作为样本数据,由样本数据训练获取策略测试模型;
使用训练后的策略测试策略模型对融合策略进行预测分析,并对优化策略连续经过若干次预测分析后,从预测数据内获取融合策略在执行时的数据融合速度Sv及数据完整率Dv,将以上数据汇总后构建策略测试数据集合。
7.根据权利要求6所述的数据智能融合分析方法,其特征在于:
由策略测试数据集生成优化系数Sd,以其中优化系数Sd最高的融合策略作为目标策略,使用目标策略对来自于多个数据源的数据列做数据融合;
优化系数Sd的获取方式如下:将数据融合速度Sv及数据完整率Dv做线性归一化处理,并将相应的数据值映射至区间[0,1]内,再依照如下公式:
其中,Svavg为数据融合速度的均值,Dvavg为数据完整率的均值,i=1,2,…,n,n为预测次数;0≤β≤1,0≤α≤1,且α+β=1,Svi为第i次测试的数据融合速度,Dvi为第i次测试的数据完整率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410254772.1A CN117828539B (zh) | 2024-03-06 | 2024-03-06 | 数据智能融合分析系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410254772.1A CN117828539B (zh) | 2024-03-06 | 2024-03-06 | 数据智能融合分析系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117828539A CN117828539A (zh) | 2024-04-05 |
CN117828539B true CN117828539B (zh) | 2024-05-24 |
Family
ID=90517677
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410254772.1A Active CN117828539B (zh) | 2024-03-06 | 2024-03-06 | 数据智能融合分析系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117828539B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118070199A (zh) * | 2024-04-18 | 2024-05-24 | 云南钧衡电力检测技术有限公司 | 一种电力设备检测方法及检测系统 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111274301A (zh) * | 2020-01-20 | 2020-06-12 | 启迪数华科技有限公司 | 一种基于数据资产智能治理方法及系统 |
AU2020103923A4 (en) * | 2020-12-07 | 2021-02-11 | Ocean University Of China | Fault diagnosis method and system for gear bearing based on multi-source information fusion |
CN112781183A (zh) * | 2019-11-07 | 2021-05-11 | 厦门邑通软件科技有限公司 | 一种空调系统智能降耗的方法、系统和空调 |
CN113722509A (zh) * | 2021-09-07 | 2021-11-30 | 中国人民解放军32801部队 | 一种基于实体属性相似度的知识图谱数据融合方法 |
CN114330550A (zh) * | 2021-12-29 | 2022-04-12 | 杭州海康威视数字技术股份有限公司 | 模型融合策略的选择方法、装置及电子设备 |
CN114461813A (zh) * | 2022-01-17 | 2022-05-10 | 上海师范大学 | 一种基于知识图谱的数据推送方法、系统和存储介质 |
CN116662371A (zh) * | 2023-06-13 | 2023-08-29 | 国网信通亿力科技有限责任公司 | 一种跨域数据融合方法 |
CN116662307A (zh) * | 2023-07-25 | 2023-08-29 | 苏州盈天地资讯科技有限公司 | 一种基于多源数据融合的智能预警方法、系统及设备 |
CN116678421A (zh) * | 2023-06-12 | 2023-09-01 | 深圳沧穹科技有限公司 | 基于多模块ble发射装置的多源融合定位方法及系统 |
CN117056867A (zh) * | 2023-10-12 | 2023-11-14 | 中交第四航务工程勘察设计院有限公司 | 一种可用于数字孪生的多源异构数据融合方法及系统 |
CN117116382A (zh) * | 2023-10-18 | 2023-11-24 | 水利部交通运输部国家能源局南京水利科学研究院 | 引水工程影响下受水湖泊水质时空预测方法和系统 |
CN117349273A (zh) * | 2023-10-23 | 2024-01-05 | 国网福建省电力有限公司 | 一种电力数据融合方法及设备 |
CN117457173A (zh) * | 2023-12-25 | 2024-01-26 | 中国人民解放军总医院第二医学中心 | 一种用于心内科的可穿戴设备心律失常监测系统 |
CN117593298A (zh) * | 2024-01-18 | 2024-02-23 | 深圳市思博威激光科技有限公司 | 一种基于机器视觉的激光焊接质量检测系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016151352A1 (en) * | 2015-03-26 | 2016-09-29 | Centralesupelec | Method for real-time deformable fusion of a source multi-dimensional image and a target multi-dimensional image of an object |
CN114757309B (zh) * | 2022-06-16 | 2022-09-02 | 青岛理工大学 | 多物理场监测数据协同融合的工程灾害预警方法及系统 |
-
2024
- 2024-03-06 CN CN202410254772.1A patent/CN117828539B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112781183A (zh) * | 2019-11-07 | 2021-05-11 | 厦门邑通软件科技有限公司 | 一种空调系统智能降耗的方法、系统和空调 |
CN111274301A (zh) * | 2020-01-20 | 2020-06-12 | 启迪数华科技有限公司 | 一种基于数据资产智能治理方法及系统 |
AU2020103923A4 (en) * | 2020-12-07 | 2021-02-11 | Ocean University Of China | Fault diagnosis method and system for gear bearing based on multi-source information fusion |
CN113722509A (zh) * | 2021-09-07 | 2021-11-30 | 中国人民解放军32801部队 | 一种基于实体属性相似度的知识图谱数据融合方法 |
CN114330550A (zh) * | 2021-12-29 | 2022-04-12 | 杭州海康威视数字技术股份有限公司 | 模型融合策略的选择方法、装置及电子设备 |
CN114461813A (zh) * | 2022-01-17 | 2022-05-10 | 上海师范大学 | 一种基于知识图谱的数据推送方法、系统和存储介质 |
CN116678421A (zh) * | 2023-06-12 | 2023-09-01 | 深圳沧穹科技有限公司 | 基于多模块ble发射装置的多源融合定位方法及系统 |
CN116662371A (zh) * | 2023-06-13 | 2023-08-29 | 国网信通亿力科技有限责任公司 | 一种跨域数据融合方法 |
CN116662307A (zh) * | 2023-07-25 | 2023-08-29 | 苏州盈天地资讯科技有限公司 | 一种基于多源数据融合的智能预警方法、系统及设备 |
CN117056867A (zh) * | 2023-10-12 | 2023-11-14 | 中交第四航务工程勘察设计院有限公司 | 一种可用于数字孪生的多源异构数据融合方法及系统 |
CN117116382A (zh) * | 2023-10-18 | 2023-11-24 | 水利部交通运输部国家能源局南京水利科学研究院 | 引水工程影响下受水湖泊水质时空预测方法和系统 |
CN117349273A (zh) * | 2023-10-23 | 2024-01-05 | 国网福建省电力有限公司 | 一种电力数据融合方法及设备 |
CN117457173A (zh) * | 2023-12-25 | 2024-01-26 | 中国人民解放军总医院第二医学中心 | 一种用于心内科的可穿戴设备心律失常监测系统 |
CN117593298A (zh) * | 2024-01-18 | 2024-02-23 | 深圳市思博威激光科技有限公司 | 一种基于机器视觉的激光焊接质量检测系统 |
Non-Patent Citations (4)
Title |
---|
Multi-source and multimodal data fusion for improved management of a wastewater treatment plant;Eugeniu Strelet等;《Journal of Environmental Chemical Engineering》;20231120;第11卷(第6期);第1-16页 * |
基于以太网的列车通信网络多业务调度优化策略研究;简捷;《中国博士学位论文全文数据库 工程科技Ⅱ辑》;20210315(第3期);第C033-46页 * |
多源信息融合技术在滑坡灾害评估中的应用研究;刘鸿扬;《中国优秀硕士学位论文全文数据库 基础科学辑》;20230815(第8期);第A011-33页 * |
面向多源关系数据的融合;丁玥等;《中国科学:信息科学》;20200423;第50卷(第5期);第649-661页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117828539A (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111367961B (zh) | 基于图卷积神经网络的时序数据事件预测方法、系统及其应用 | |
CN117828539B (zh) | 数据智能融合分析系统及方法 | |
CN111027615B (zh) | 基于机器学习的中间件故障预警方法和系统 | |
CN108959395B (zh) | 一种面向多源异构大数据的层次约减联合清洗方法 | |
Deming et al. | Exploratory Data Analysis and Visualization for Business Analytics | |
CN114722746B (zh) | 一种芯片辅助设计方法、装置、设备及可读介质 | |
CN112330095A (zh) | 一种基于决策树算法的质量管理方法 | |
CN113177643A (zh) | 一种基于大数据的自动建模系统 | |
CN117371933A (zh) | 一种基于物联网的智慧实验室管理系统 | |
CN115481841A (zh) | 基于特征提取和改进随机森林的物资需求预测方法 | |
CN110990384B (zh) | 一种大数据平台bi分析方法 | |
CN116976318A (zh) | 基于深度学习和模型推理的电网倒闸操作票智能审核系统 | |
CN116126807A (zh) | 一种日志分析方法及相关装置 | |
CN115858763A (zh) | 多模态数据融合的城管事件分析方法及其应用 | |
CN115691702A (zh) | 一种化合物可视化分类方法及系统 | |
CN113971213A (zh) | 智慧城市管理公共信息共享系统 | |
de Sousa et al. | Integrated detection and localization of concept drifts in process mining with batch and stream trace clustering support | |
Wang et al. | Rail steel health analysis based on a novel genetic density-based clustering technique and manifold representation of acoustic emission signals | |
CN117786182B (zh) | 基于erp系统的业务数据存储系统及方法 | |
Widad et al. | Quality Anomaly Detection Using Predictive Techniques: An Extensive Big Data Quality Framework for Reliable Data Analysis | |
CN117272198B (zh) | 一种基于商旅行程业务数据的异常用户生成内容识别方法 | |
CN117271796B (zh) | 一种中医典籍知识库反馈修正方法及系统 | |
CN107944003A (zh) | 一种古诗词收集和数据分析方法 | |
CN113989015A (zh) | 一种基于单调有序决策树集成的信贷等级评定方法 | |
KR20240078684A (ko) | 이종 데이터 융합 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |