CN113609360A - 一种基于场景化多源数据融合分析的方法和系统 - Google Patents

一种基于场景化多源数据融合分析的方法和系统 Download PDF

Info

Publication number
CN113609360A
CN113609360A CN202110958424.9A CN202110958424A CN113609360A CN 113609360 A CN113609360 A CN 113609360A CN 202110958424 A CN202110958424 A CN 202110958424A CN 113609360 A CN113609360 A CN 113609360A
Authority
CN
China
Prior art keywords
source data
scene
data
feature
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110958424.9A
Other languages
English (en)
Other versions
CN113609360B (zh
Inventor
杜乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Donghu Big Data Trading Center Co ltd
Original Assignee
Wuhan Donghu Big Data Trading Center Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Donghu Big Data Trading Center Co ltd filed Critical Wuhan Donghu Big Data Trading Center Co ltd
Priority to CN202110958424.9A priority Critical patent/CN113609360B/zh
Publication of CN113609360A publication Critical patent/CN113609360A/zh
Application granted granted Critical
Publication of CN113609360B publication Critical patent/CN113609360B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于场景化多源数据融合分析的方法和系统,该方法包括:获取设定场景多源数据的样本,对多源数据进行预处理,预处理包括特征提取;利用概率密度估计方法将预处理后的多源数据进行特征融合后并进行归一化处理,形成该设定场景下的多源数据特征集合;利用关联规则挖掘算法提取多源数据特征集合中的特征与对应具体场景业务之间的关联规则,匹配推理对应的目标场景下业务应用及解决方案;通过从中提取具体场景下业务特征和知识特征作为构建具体场景下知识和业务库的基础数据,随后进行特征与知识的融合,使人们更好地从海量、复杂的多源数据中获得更多洞察,从而实现在具体场景下多源数据的智能认知和自动分析,为各类场景业务赋能。

Description

一种基于场景化多源数据融合分析的方法和系统
技术领域
本发明涉及数据融合领域,尤其涉及一种基于场景化多源数据融合分析的方法和系统。
背景技术
随着大数据的普及,所有形式的数据都在不断积累成一种等待被利用的资源,但是由于数据种类繁多、来源广泛且协议多样化不统一,存在数据杂乱、质量不高和数据架构混乱、存储不一等问题,能够准确理解这类数据的内容目前只有人脑,但在大数据洪流面前早已不堪重负,大部分乃至至少有 80%的数据无法被目前的IT系统处理或理解。
发明内容
本发明针对现有技术中存在的技术问题,提供一种基于场景化多源数据融合分析的方法和系统,以具体场景下多源数据为原始数据,通过从中提取具体场景下业务特征和知识特征作为构建具体场景下知识和业务库的基础数据,随后进行特征与知识的融合,使人们更好地从海量、复杂的多源数据中获得更多洞察,从而实现在具体场景下多源数据的智能认知和自动分析,为各类场景业务赋能。
根据本发明的第一方面,提供了一种基于场景化多源数据融合分析方法,包括:步骤1,获取设定场景多源数据的样本,所述多源数据包括:结构化数据、半结构数据和非结构化数据;
步骤2,对所述多源数据进行预处理,所述预处理包括特征提取;
步骤3,利用概率密度估计方法将预处理后的多源数据进行特征融合后并进行归一化处理,形成该设定场景下的多源数据特征集合;
步骤4,利用关联规则挖掘算法提取所述多源数据特征集合中的特征与对应具体场景业务之间的关联规则,匹配推理对应的目标场景下业务应用及解决方案。
在上述技术方案的基础上,本发明还可以作出如下改进。
可选的,所述步骤1中获取所述多源数据的方法包括:从该设定场景的物联网获取的业务本身的数据,以及从网络上抓取的公开的相关数据。
可选的,所述步骤2包括:
步骤201,根据设定场景的特点对所述多源数据进行文本分词的预处理;
步骤202,根据设定的标注策略,对文本中的实体关系进行标注;
步骤203,以所述标注后的文本作为训练数据进行模型训练学习;
步骤204,用训练好的所述模型对预处理后的所述多源数据进行实体关系联合提取,得到所需要的实体关系;对于不完整的实体关系,以设定的关键词作为种子爬虫,采集对应的相关信息完成对所述实体关系的数据补齐。
可选的,所述步骤3中形成该设定场景下的多源数据特征集合的过程包括:用各个特征的训练样本训练一组分类器,将分类器输出的概率密度值作为进行特征融合后的特征向量。
可选的,进行融合的所述特征为:A=[a1,a2,a3,a4.....an]和 B=[b1,b2,b3,b4....bm]时,所特征融合过程包括:
利用特征的训练样本的A特征训练n个分类器f:f1,f2....fn;计算 xi=fi(ai),i=1.2.3....n;
利用特征的训练样本的B特征训练m个分类器g:g1,g2....gn,计算 yj=gj(bj),j=1.2.3....m;
所述分类器f和分类器g为相同的模型,且所述分类器f和分类器g的输出为某一类别的概率将得到的概率密度值作为进行特征融合后的特征向量:C=[x1.x2.x3.....xn.y1.y2.y3......ym]。
可选的,所述步骤3得到多源数据特征集合之后还包括:对所述多源数据进行融合处理;
该融合处理过程采用Adaboost算法实现,包括:
初始化特征集合的训练样本的权重分布;
使用具有权值分布Dm(m=1,2,3…N)特征集合的训练样本集进行学习,得到弱分类器;所述弱分类器训练过程中,对于已经被准确的分类的特征集合的训练样本,构造下一个训练样本集时降低该特征结合的训练样本的权重;对于没有被准确的分类的特征集合的训练样本,构造下一个训练样本集时提高该特征结合的训练样本的权重;更新权重后的所述训练样本集被用于训练下一个分类器;同时根据所述弱分类器分错的特征集合的训练样本x对应的权重之和得到给弱分类器对应的话语权;
将各个所述弱分类器组合成强分类器,根据各个所述弱分类器的话语权大小决定该弱分类器在所述强分类器中占的比例大小。
可选的,所述步骤4中进行匹配推理过程基于的基础包括:
本体系统类之间的关系是由类之间的蕴涵或同义关系组成;所述类的意义由属性集(al,a2,…am)特征子集Ⅸl,X2…xn)来描述;
如果两个类cs和ct有共同的属性集,在所有属性上均有真值,值域是相关的,则类cs和类ct是同义关系;
如果两个类Cs和Ct中的一个类cs的一个实例在另一个类ct的所有属性上均有真值,值域是相关的,并且反之不成立,则类Cs语义包含类Ct。
根据本发明的第二方面,提供一种基于场景化多源数据融合分析系统,包括:数据获取模块、预处理模块、特征融合模块和匹配推理模块;
所述数据获取模块,用于获取设定场景多源数据的样本,所述多源数据包括:结构化数据、半结构数据和非结构化数据;
所述预处理模块,用于对所述多源数据进行预处理,所述预处理包括特征提取;
所述特征融合模块,用于利用概率密度估计方法将预处理后的多源数据进行特征融合后并进行归一化处理,形成该设定场景下的多源数据特征集合;
所述匹配推理模块,用于利用关联规则挖掘算法提取所述多源数据特征集合中的特征与对应具体场景业务之间的关联规则,匹配推理对应的目标场景下业务应用及解决方案。
根据本发明的第三方面,提供了一种电子设备,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现基于场景化多源数据融合分析方法的步骤。
根据本发明的第四方面,提供了一种计算机可读存储介质,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现基于场景化多源数据融合分析方法的步骤。
本发明提供的一种基于场景化多源数据融合分析方法、系统、电子设备及存储介质,获取的多源数据包括从该设定场景的物联网获取的业务本身的数据,以及从网络上抓取的公开的相关数据,保证数据的全面性;对数据进行特征提取后,利用概率密度估计方法,用于将预处理后的多源数据特征融合在一起,并进行归一化处理,形成具体场景下的多源数据特征集合,然后按特征信息对多源数据进行分类、聚集和综合,产生特征矢量,融合处理过程采用Adaboost算法实现,解决了:两类问题、多类单标签问题、多类多标签问题、大类单标签问题及回归问题;基于类的特点设置匹配推理过程基于的理论基础;以具体场景下多源数据为原始数据,通过从中提取具体场景下业务特征和知识特征作为构建具体场景下知识和业务库的基础数据,随后进行特征与知识的融合,使人们更好地从海量、复杂的多源数据中获得更多洞察,从而实现在具体场景下多源数据的智能认知和自动分析,为各类场景业务赋能。
附图说明
图1为本发明提供的一种基于场景化多源数据融合分析方法的流程图;
图2为本发明提供的一种基于场景化多源数据融合分析系统的结构框图;
图3为本发明提供的一种可能的电子设备的硬件结构示意图;
图4为本发明提供的一种可能的计算机可读存储介质的硬件结构示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示为本发明提供的一种基于场景化多源数据融合分析方法的流程图,如图1所示,该方法包括:
步骤1,获取设定场景多源数据的样本,多源数据包括:结构化数据、半结构数据和非结构化数据;具体的,该非结构化数据包括:文本、语音和图像等数据。
步骤2,对多源数据进行预处理,预处理包括特征提取。
步骤3,利用概率密度估计方法将预处理后的多源数据进行特征融合后并进行归一化处理,形成该设定场景下的多源数据特征集合。
步骤4,利用关联规则挖掘算法提取多源数据特征集合中的特征与对应具体场景业务之间的关联规则,匹配推理对应的目标场景下业务应用及解决方案。实现场景业务认知与分析。
针对现有技术的缺陷,本发明推出一种新的多源数据融合分析处理方法和系统,以具体场景下多源数据为原始数据,通过从中提取具体场景下业务特征和知识特征作为构建具体场景下知识和业务库的基础数据,随后进行特征与知识的融合,使人们更好地从海量、复杂的多源数据中获得更多洞察,从而实现在具体场景下多源数据的智能认知和自动分析,为各类场景业务赋能。
实施例1
本发明提供的实施例1为本发明提供的一种基于场景化多源数据融合分析的方法的实施例,结合图1可知,该实施例包括:
步骤1,获取设定场景多源数据的样本,多源数据包括:结构化数据、半结构数据和非结构化数据。
在一种可能的实施例方式中,获取多源数据的方法包括:从该设定场景的物联网获取的业务本身的数据,以及从网络上抓取的公开的相关数据。
具体的,物联网中的物联网设备产生的数据往往是结构化的,而且是数值型的,这部分数据通常包含在场景内部数据库表并以结构化的方式存储,是一种非公开或半公开的数据。抓取的网络上公开的相关数据通常是以网页或者的形式存在,是非结构化的数据。
步骤2,对多源数据进行预处理,预处理包括特征提取。
由于多源数据结构的不同,所以根据不同的数据类型,一般采用不同的方法进行预处理。在一种可能的实施例方式中,步骤2包括:
步骤201,根据设定场景的特点对多源数据进行文本分词的预处理;具体的,可以预先收录该设定场景的常用词语进行分词。
步骤202,根据设定的标注策略,对文本中的实体关系进行标注。
步骤203,以标注后的文本作为训练数据进行模型训练学习。
步骤204,用训练好的模型对预处理后的多源数据进行实体关系联合提取,得到所需要的实体关系;对于不完整的实体关系,以设定的关键词作为种子爬虫,采集对应的相关信息完成对实体关系的数据补齐。
本发明提供的实施例中,以某一疾病电子病历特征提取为例:由于电子病历一般是以文本形式存在,所以预处理的方式一般为:
1)、先对电子病历进行信息脱敏,然后进行医疗文本分词,完成预处理工作。
2)、根据标注策略,只对文本中的实体关系进行标注,“忽视”文本中不属于实体关系的部分。
可以理解的是,在进行标注时,一般要根据医院专家的指导下对电子病历进行标注。如对“患者自诉伤后即感腰部疼痛,未做特殊处理,……初步诊断:气滞血瘀证”这句话进行标注时,“腰部疼痛”是“气滞血瘀证”的一个症状,因此文中的需要提取的实体为“腰部疼痛”和“气滞血瘀证”这两个实体,而他们之间的关系属于疾病对应的症状,“腰部”作为第一个实体的开始部分,因此“腰部”的标签为“B-SOD-1”;“疼痛”作为第一个实体的结尾部分,标签为“E-SOD-2”,“气滞血瘀证”在分词时分为一个单独的词,作为第二个单独的实体,标签为“SSOD-2”;其他不相关的词如“患者”或者标点,都标记为“O”。最后标注结果为:“患者/O自诉/O伤后/即感/O腰部/B-SOD-1疼痛/E-SOD2,/O未做/O特殊/O处理/O,/O……初步/O 诊断/O:/O气滞血瘀证/S-SOD-2”。
3)、把标注好的语料作为训练数据开始模型训练学习。
将标注后的文本生成词向量,送入Bi-LSTM模型分别开始向前层和向后层的编码,然后将两个LSTM层所得到的隐向量进行拼接得到一个向量,接着通过一个Softmax层将Bi-LSTM层得到的向量归一化处理,使之处于0-1 之间;最后再维特比算法来预测其标签概率,选择概率最高的标签作为该词的标签输出;如果是图像,常用的颜色特征表示方法有:颜色直方图、颜色矩、颜色聚合向量、颜色集等;纹理特征,纹理特征描述方法大致可以分为四类:统计法、结构法、模型法、频谱法;形状特征,形状特征的描述主要有基于边界和基于区域两大类,傅立叶形状描述符法和区域不变矩法等。
4)、用训练好的模型对预处理后的电子病历进行实体关系联合联合提取,直接得到所需要的实体关系。
5)、以不完整的实体关系中的疾病名称作为种子爬虫,采集相关的疾病症状信息完成对实体关系的数据补齐。
步骤3,利用概率密度估计方法将预处理后的多源数据进行特征融合后并进行归一化处理,形成该设定场景下的多源数据特征集合。
在一种可能的实施例方式中,形成该设定场景下的多源数据特征集合的过程中,利用概率密度估计方法,用于将预处理后的多源数据特征融合在一起,并进行归一化处理,形成具体场景下的多源数据特征集合,然后按特征信息对多源数据进行分类、聚集和综合,产生特征矢量,包括:用各个特征的训练样本训练一组分类器,将分类器输出的概率密度值作为进行特征融合后的特征向量。
在一种可能的实施例方式中,进行融合的特征为: A=[a1,a2,a3,a4.....an]和B=[b1,b2,b3,b4....bm]时,所特征融合过程包括:
利用特征的训练样本的A特征训练n个分类器f:f1,f2....fn;计算 xi=fi(ai),i=1.2.3....n。
利用特征的训练样本的B特征训练m个分类器g:g1,g2....gn,计算 yj=gj(bj),j=1.2.3....m。
分类器f和分类器g为相同的模型,例如可以同为贝叶斯或者同为svm,且分类器f和分类器g的输出为某一类别的概率,而不是将分类器的输出设为类别,将得到的概率密度值作为进行特征融合后的特征向量: C=[x1.x2.x3.....xn.y1.y2.y3......ym]。
在一种可能的实施例方式中,得到多源数据特征集合之后还包括:构建常用的数据融合常见算法的算法库,以便能够支持对文本数据分析和图像数据分析,以及对来自多源的结构化数据和非结构化数据进行融合分析,由于先前已经对多源数据进行了特征提取,提取的特征信息而且已经是原始信息的充分表示量或充分统计量,并按特征信息对多源数据进行了分类、聚集和综合,产生了特征矢量,所有这里主要采用一些基于特征级融合方法融合这些特征矢量,作出基于融合特征矢量的属性说明。
该融合处理过程采用Adaboost算法实现,Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这 Adaboost些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。使用adaboost分类器可以排除一些不必要的训练数据特征,并将关键放在关键的训练数据上面。目前,对adaBoost算法的研究以及应用大多集中于分类问题,同时近年也出现了一些在回归问题上的应用。就其应用adaboost系列主要解决了:两类问题、多类单标签问题、多类多标签问题、大类单标签问题,回归问题。它用全部的训练样本进行学习。
Adaboost算法原理为:
输入:训练数据集χ={(x1,y1),(x2,y2),...,(xn,yn)};输出:最终的强分类器G(x)。
具体可以包括:
初始化特征集合的训练样本χ={(x1,y1),(x2,y2),...,(xn,yn)}的权重分布。
具体的,如果有N个样本,则每一个训练的样本点最开始时都被赋予相同的权重w=:1/N。
每一次迭代每个特征集合的训练样本的权重D1为:
D1=(w11,w12…w1i…,w1N),
Figure RE-GDA0003252755480000091
其中,w11表示,第1次迭代时的第一个样本的权值。
使用具有权值分布Dm(m=1,2,3…N)特征集合的训练样本集进行学习,得到弱分类器;弱分类器训练过程中,对于已经被准确的分类的特征集合的训练样本,构造下一个训练样本集时降低该特征结合的训练样本的权重;对于没有被准确的分类的特征集合的训练样本,构造下一个训练样本集时提高该特征结合的训练样本的权重;更新权重后的训练样本集被用于训练下一个分类器,整个训练过程如此迭代地进行下去;同时根据弱分类器分错的特征集合的训练样本x对应的权重之和得到给弱分类器对应的话语权。
具体的,第m次迭代时的弱分类器表示为Gm(x):χ→{-1,+1},特征集合的训练样本x要么分类成-1,要么分类成1。
弱分类器准则:该弱分类器的误差函数最小,也就是分错的特征集合的训练样本x对应的权重之和最小。
弱分类器Gm(x)的话语权αm表示Gm(x)在最终分类器中的重要程度。
Figure RE-GDA0003252755480000101
话语权αm随误差函数的值em的减小而增大,即误差率小的分类器,在最终分类器的重要程度大。
更新训练样本集的权值分布,用于下一轮迭代。其中,被误分的样本的权值会增大,被正确分的权值减小。
Dm+1=(wm+1,1,wm+1,2…wm+1,i…,wm+1,N),
Figure RE-GDA0003252755480000102
Dm+1是用于下次迭代时样本的权值,Wm+1,i是下一次迭代时,第i个样本的权值。
其中,yi代表第i个样本对应的类别(1或-1),Gm(xi)表示弱分类器对样本xi的分类(1或-1)。若果分对,yi*Gm(xi)的值为1,反之为-1。其中Zm是归一化因子,使得所有样本对应的权值之和为1。
Figure RE-GDA0003252755480000111
将各个弱分类器组合成强分类器,根据各个弱分类器的话语权大小决定该弱分类器在强分类器中占的比例大小。
各个弱分类器的训练过程结束后,分类误差率小的弱分类器的话语权较大,其在最终的分类函数中起着较大的决定作用,而分类误差率大的弱分类器的话语权较小,其在最终的分类函数中起着较小的决定作用。换言之,误差率低的弱分类器在最终分类器中占的比例较大,反之较小。
具体的,强分类器
Figure RE-GDA0003252755480000112
其中,sign函数用于求数值的正负:数值大于0,为1;小于0,为-1;等于0,为0。f(x)为合成弱分类器的函数,
Figure RE-GDA0003252755480000113
通过上述预分类模型对输入的待识别多源参数子集进行分类后,得到多源参数子集集合与目标场景下业务的对应关系、知识库,匹配推理对应的目标场景下业务应用及解决方案。
步骤4,利用关联规则挖掘算法提取多源数据特征集合中的特征与对应具体场景业务之间的关联规则,匹配推理对应的目标场景下业务应用及解决方案。实现场景业务认知与分析。
在一种可能的实施例方式中,进行匹配推理过程基于的基础包括:
本体系统类之间的关系是由类之间的蕴涵或同义关系组成;类的意义由属性集(al,a2,…am)特征子集Ⅸl,X2…xn)来描述。
如果两个类cs和ct的属性是完全可比的,即两个类有共同的属性集,在所有属性上均有真值,值域是相关的,则两个类cs和ct是同义关系。记为:如果{Xsl,…Xsk}={Xtl,Xtk},则Cs=ct表示语义相等。
如果两个类Cs和Ct的属性集部分可比,即一个类cs的一个实例在另一个类ct的所有属性上均有真值,值域是相关的,并且反之不成立,那么 Cs语义包含Ct。记为:如果{xs1,…xsk}包含{Xtl,…xtI),则CS包含Ct,表示语义包含。
实施例2
本发明提供的实施例2为本发明提供的一种基于场景化多源数据融合分析系统的实施例,图2为本发明实施例提供的一种基于场景化多源数据融合分析系统结构图,结合图2可知,该实施例包括:数据获取模块、预处理模块、特征融合模块和匹配推理模块。
数据获取模块,用于获取设定场景多源数据的样本,多源数据包括:结构化数据、半结构数据和非结构化数据。
具体的,该数据获取模块可以包括系统融合采集、互联网数据采集和物联网数据采集单元。
预处理模块,用于对多源数据进行预处理,预处理包括特征提取。
特征融合模块,用于利用概率密度估计方法将预处理后的多源数据进行特征融合后并进行归一化处理,形成该设定场景下的多源数据特征集合。
具体的,该特征融合模块可以包括特征归一化模块和数据融合模块。
匹配推理模块,用于利用关联规则挖掘算法提取多源数据特征集合中的特征与对应具体场景业务之间的关联规则,匹配推理对应的目标场景下业务应用及解决方案。实现场景业务认知与分析。
可以理解的是,本发明提供的一种基于场景化多源数据融合分析系统与前述各实施例提供的基于场景化多源数据融合分析方法相对应,基于场景化多源数据融合分析系统的相关技术特征可参考基于场景化多源数据融合分析方法的相关技术特征,在此不再赘述。
请参阅图3,图3为本发明实施例提供的电子设备的实施例示意图。如图3所示,本发明实施例提了一种电子设备,包括存储器1310、处理器1320 及存储在存储器1310上并可在处理器1320上运行的计算机程序1311,处理器1320执行计算机程序1311时实现以下步骤:获取设定场景多源数据的样本,多源数据包括:结构化数据、半结构数据和非结构化数据;对多源数据进行预处理,预处理包括特征提取;利用概率密度估计方法将预处理后的多源数据进行特征融合后并进行归一化处理,形成该设定场景下的多源数据特征集合;利用关联规则挖掘算法提取多源数据特征集合中的特征与对应具体场景业务之间的关联规则,匹配推理对应的目标场景下业务应用及解决方案。
请参阅图4,图4为本发明提供的一种计算机可读存储介质的实施例示意图。如图4所示,本实施例提供了一种计算机可读存储介质1400,其上存储有计算机程序1411,该计算机程序1411被处理器执行时实现如下步骤:获取设定场景多源数据的样本,多源数据包括:结构化数据、半结构数据和非结构化数据;对多源数据进行预处理,预处理包括特征提取;利用概率密度估计方法将预处理后的多源数据进行特征融合后并进行归一化处理,形成该设定场景下的多源数据特征集合;利用关联规则挖掘算法提取多源数据特征集合中的特征与对应具体场景业务之间的关联规则,匹配推理对应的目标场景下业务应用及解决方案。
本发明实施例提供的一种基于场景化多源数据融合分析方法、系统及存储介质,获取的多源数据包括从该设定场景的物联网获取的业务本身的数据,以及从网络上抓取的公开的相关数据,保证数据的全面性;对数据进行特征提取后,利用概率密度估计方法,用于将预处理后的多源数据特征融合在一起,并进行归一化处理,形成具体场景下的多源数据特征集合,然后按特征信息对多源数据进行分类、聚集和综合,产生特征矢量,融合处理过程采用 Adaboost算法实现,解决了:两类问题、多类单标签问题、多类多标签问题、大类单标签问题及回归问题;基于类的特点设置匹配推理过程基于的理论基础;以具体场景下多源数据为原始数据,通过从中提取具体场景下业务特征和知识特征作为构建具体场景下知识和业务库的基础数据,随后进行特征与知识的融合,使人们更好地从海量、复杂的多源数据中获得更多洞察,从而实现在具体场景下多源数据的智能认知和自动分析,为各类场景业务赋能。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

Claims (10)

1.一种基于场景化多源数据融合分析的方法,其特征在于,所述方法包括:
步骤1,获取设定场景多源数据的样本,所述多源数据包括:结构化数据、半结构数据和非结构化数据;
步骤2,对所述多源数据进行预处理,所述预处理包括特征提取;
步骤3,利用概率密度估计方法将预处理后的多源数据进行特征融合后并进行归一化处理,形成该设定场景下的多源数据特征集合;
步骤4,利用关联规则挖掘算法提取所述多源数据特征集合中的特征与对应具体场景业务之间的关联规则,匹配推理对应的目标场景下业务应用及解决方案。
2.根据权利要求1所述的方法,其特征在于,所述步骤1中获取所述多源数据的方法包括:从该设定场景的物联网获取的业务本身的数据,以及从网络上抓取的公开的相关数据。
3.根据权利要求1所述的方法,其特征在于,所述步骤2包括:
步骤201,根据设定场景的特点对所述多源数据进行文本分词的预处理;
步骤202,根据设定的标注策略,对文本中的实体关系进行标注;
步骤203,以所述标注后的文本作为训练数据进行模型训练学习;
步骤204,用训练好的所述模型对预处理后的所述多源数据进行实体关系联合提取,得到所需要的实体关系;对于不完整的实体关系,以设定的关键词作为种子爬虫,采集对应的相关信息完成对所述实体关系的数据补齐。
4.根据权利要求1所述的方法,其特征在于,所述步骤3中形成该设定场景下的多源数据特征集合的过程包括:用各个特征的训练样本训练一组分类器,将分类器输出的概率密度值作为进行特征融合后的特征向量。
5.根据权利要求4所述的方法,其特征在于,进行融合的所述特征为:A=[a1,a2,a3,a4.....an]和B=[b1,b2,b3,b4....bm]时,所特征融合过程包括:
利用特征的训练样本的A特征训练n个分类器f:f1,f2....fn;计算xi=fi(ai),i=1.2.3....n;
利用特征的训练样本的B特征训练m个分类器g:g1,g2....gn,计算yj=gj(bj),j=1.2.3....m;
所述分类器f和分类器g为相同的模型,且所述分类器f和分类器g的输出为某一类别的概率将得到的概率密度值作为进行特征融合后的特征向量:C=[x1.x2.x3.....xn.y1.y2.y3......ym]。
6.根据权利要求1、4或5所述的方法,其特征在于,所述步骤3得到多源数据特征集合之后还包括:对所述多源数据进行融合处理;
该融合处理过程采用Adaboost算法实现,包括:
初始化特征集合的训练样本的权重分布;
使用具有权值分布Dm(m=1,2,3…N)特征集合的训练样本集进行学习,得到弱分类器;所述弱分类器训练过程中,对于已经被准确的分类的特征集合的训练样本,构造下一个训练样本集时降低该特征结合的训练样本的权重;对于没有被准确的分类的特征集合的训练样本,构造下一个训练样本集时提高该特征结合的训练样本的权重;更新权重后的所述训练样本集被用于训练下一个分类器;同时根据所述弱分类器分错的特征集合的训练样本x对应的权重之和得到给弱分类器对应的话语权;
将各个所述弱分类器组合成强分类器,根据各个所述弱分类器的话语权大小决定该弱分类器在所述强分类器中占的比例大小。
7.根据权利要求1所述的方法,其特征在于,所述步骤4中进行匹配推理过程基于的基础包括:
本体系统类之间的关系是由类之间的蕴涵或同义关系组成;所述类的意义由属性集(al,a2,…am)特征子集Ⅸl,X2…xn)来描述;
如果两个类cs和ct有共同的属性集,在所有属性上均有真值,值域是相关的,则类cs和类ct是同义关系;
如果两个类Cs和Ct中的一个类cs的一个实例在另一个类ct的所有属性上均有真值,值域是相关的,并且反之不成立,则类Cs语义包含类Ct。
8.一种基于场景化多源数据融合分析系统,其特征在于,包括:数据获取模块、预处理模块、特征融合模块和匹配推理模块;
所述数据获取模块,用于获取设定场景多源数据的样本,所述多源数据包括:结构化数据、半结构数据和非结构化数据;
所述预处理模块,用于对所述多源数据进行预处理,所述预处理包括特征提取;
所述特征融合模块,用于利用概率密度估计方法将预处理后的多源数据进行特征融合后并进行归一化处理,形成该设定场景下的多源数据特征集合;
所述匹配推理模块,用于利用关联规则挖掘算法提取所述多源数据特征集合中的特征与对应具体场景业务之间的关联规则,匹配推理对应的目标场景下业务应用及解决方案。
9.一种电子设备,其特征在于,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现如权利要求1-7任一项所述的基于场景化多源数据融合分析方法的步骤。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现如权利要求1-7任一项所述的基于场景化多源数据融合分析方法的步骤。
CN202110958424.9A 2021-08-19 2021-08-19 一种基于场景化多源数据融合分析的方法和系统 Active CN113609360B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110958424.9A CN113609360B (zh) 2021-08-19 2021-08-19 一种基于场景化多源数据融合分析的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110958424.9A CN113609360B (zh) 2021-08-19 2021-08-19 一种基于场景化多源数据融合分析的方法和系统

Publications (2)

Publication Number Publication Date
CN113609360A true CN113609360A (zh) 2021-11-05
CN113609360B CN113609360B (zh) 2024-07-05

Family

ID=78341407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110958424.9A Active CN113609360B (zh) 2021-08-19 2021-08-19 一种基于场景化多源数据融合分析的方法和系统

Country Status (1)

Country Link
CN (1) CN113609360B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114661792A (zh) * 2022-03-25 2022-06-24 北京感易智能科技有限公司 金融数据处理方法、装置、电子设备、介质及产品
CN114723257A (zh) * 2022-03-25 2022-07-08 中国能源建设集团广东省电力设计研究院有限公司 一种电力行业数字化的业务数据处理方法、装置及设备

Citations (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080086493A1 (en) * 2006-10-09 2008-04-10 Board Of Regents Of University Of Nebraska Apparatus and method for organization, segmentation, characterization, and discrimination of complex data sets from multi-heterogeneous sources
DE102009035377A1 (de) * 2009-07-30 2011-02-03 Eads Deutschland Gmbh Einrichtung und Verfahren zur Transformation von Objektklassifikation-Ergebnissen
CN102013095A (zh) * 2010-12-09 2011-04-13 哈尔滨工业大学 基于分布变换的多传感器图像融合方法
US20130304683A1 (en) * 2010-01-19 2013-11-14 James Ting-Ho Lo Artificial Neural Networks based on a Low-Order Model of Biological Neural Networks
CN104834813A (zh) * 2015-04-28 2015-08-12 南京邮电大学 物联网多源异构数据统计分析处理方法和装置
CN105893593A (zh) * 2016-04-18 2016-08-24 国网山东省电力公司信息通信公司 一种数据融合的方法
CN105893526A (zh) * 2016-03-30 2016-08-24 上海坤士合生信息科技有限公司 多源数据融合系统和方法
US20170201562A1 (en) * 2016-01-12 2017-07-13 Electronics And Telecommunications Research Institute System and method for automatically recreating personal media through fusion of multimodal features
CN109086804A (zh) * 2018-07-12 2018-12-25 中石化石油机械股份有限公司 一种基于多源状态监测信息和可靠性特征融合的液压设备早期故障预测方法
CN110070118A (zh) * 2019-04-10 2019-07-30 广东电网有限责任公司 一种多时空数据融合方法
CN110298409A (zh) * 2019-07-03 2019-10-01 广东电网有限责任公司 面向电力可穿戴设备的多源数据融合方法
CN110580304A (zh) * 2019-07-26 2019-12-17 平安科技(深圳)有限公司 数据融合方法、装置、计算机设备及计算机存储介质
CN110717052A (zh) * 2019-10-15 2020-01-21 山东大学 服务机器人智能化服务中的环境表征方法
CN110738167A (zh) * 2019-10-14 2020-01-31 武汉大学 一种基于多域空间属性关联分析的行人辨识方法
WO2020147265A1 (zh) * 2019-01-14 2020-07-23 南京信息工程大学 一种基于多源信息融合的移动电子商务推荐方法和系统
CN111897875A (zh) * 2020-07-31 2020-11-06 平安科技(深圳)有限公司 城市多源异构数据的融合处理方法、装置和计算机设备
CN112364950A (zh) * 2020-09-30 2021-02-12 北京智汇云舟科技有限公司 一种基于三维地理信息场景的事件定位方法和系统
WO2021051630A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 基于数据关系分析的知识融合方法、装置、计算机设备和存储介质
CN112907222A (zh) * 2021-03-25 2021-06-04 清华大学 一种多源异构电网运监业务数据融合方法
CN113010572A (zh) * 2021-03-18 2021-06-22 杭州码全信息科技有限公司 基于深度贝叶斯网络的公共数字生活场景规则模型预测预警方法
CN113066070A (zh) * 2021-03-31 2021-07-02 广东电网有限责任公司 三维场景中多源数据融合交互方法
CN113091736A (zh) * 2021-04-02 2021-07-09 京东数科海益信息科技有限公司 机器人定位方法、装置、机器人及存储介质
CN113259486A (zh) * 2021-06-24 2021-08-13 国网天津市电力公司营销服务中心 一种基于数字孪生的计量设备自动化检定线运维系统

Patent Citations (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080086493A1 (en) * 2006-10-09 2008-04-10 Board Of Regents Of University Of Nebraska Apparatus and method for organization, segmentation, characterization, and discrimination of complex data sets from multi-heterogeneous sources
DE102009035377A1 (de) * 2009-07-30 2011-02-03 Eads Deutschland Gmbh Einrichtung und Verfahren zur Transformation von Objektklassifikation-Ergebnissen
US20130304683A1 (en) * 2010-01-19 2013-11-14 James Ting-Ho Lo Artificial Neural Networks based on a Low-Order Model of Biological Neural Networks
CN102013095A (zh) * 2010-12-09 2011-04-13 哈尔滨工业大学 基于分布变换的多传感器图像融合方法
CN104834813A (zh) * 2015-04-28 2015-08-12 南京邮电大学 物联网多源异构数据统计分析处理方法和装置
US20170201562A1 (en) * 2016-01-12 2017-07-13 Electronics And Telecommunications Research Institute System and method for automatically recreating personal media through fusion of multimodal features
CN105893526A (zh) * 2016-03-30 2016-08-24 上海坤士合生信息科技有限公司 多源数据融合系统和方法
CN105893593A (zh) * 2016-04-18 2016-08-24 国网山东省电力公司信息通信公司 一种数据融合的方法
CN109086804A (zh) * 2018-07-12 2018-12-25 中石化石油机械股份有限公司 一种基于多源状态监测信息和可靠性特征融合的液压设备早期故障预测方法
WO2020147265A1 (zh) * 2019-01-14 2020-07-23 南京信息工程大学 一种基于多源信息融合的移动电子商务推荐方法和系统
CN110070118A (zh) * 2019-04-10 2019-07-30 广东电网有限责任公司 一种多时空数据融合方法
CN110298409A (zh) * 2019-07-03 2019-10-01 广东电网有限责任公司 面向电力可穿戴设备的多源数据融合方法
CN110580304A (zh) * 2019-07-26 2019-12-17 平安科技(深圳)有限公司 数据融合方法、装置、计算机设备及计算机存储介质
WO2021051630A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 基于数据关系分析的知识融合方法、装置、计算机设备和存储介质
CN110738167A (zh) * 2019-10-14 2020-01-31 武汉大学 一种基于多域空间属性关联分析的行人辨识方法
CN110717052A (zh) * 2019-10-15 2020-01-21 山东大学 服务机器人智能化服务中的环境表征方法
CN111897875A (zh) * 2020-07-31 2020-11-06 平安科技(深圳)有限公司 城市多源异构数据的融合处理方法、装置和计算机设备
CN112364950A (zh) * 2020-09-30 2021-02-12 北京智汇云舟科技有限公司 一种基于三维地理信息场景的事件定位方法和系统
CN113010572A (zh) * 2021-03-18 2021-06-22 杭州码全信息科技有限公司 基于深度贝叶斯网络的公共数字生活场景规则模型预测预警方法
CN112907222A (zh) * 2021-03-25 2021-06-04 清华大学 一种多源异构电网运监业务数据融合方法
CN113066070A (zh) * 2021-03-31 2021-07-02 广东电网有限责任公司 三维场景中多源数据融合交互方法
CN113091736A (zh) * 2021-04-02 2021-07-09 京东数科海益信息科技有限公司 机器人定位方法、装置、机器人及存储介质
CN113259486A (zh) * 2021-06-24 2021-08-13 国网天津市电力公司营销服务中心 一种基于数字孪生的计量设备自动化检定线运维系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
L. RU, B. DU AND C. WU: "Multi-Temporal Scene Classification and Scene Change Detection With Correlation Based Fusion", 《 IEEE TRANSACTIONS ON IMAGE PROCESSING》, pages 270 - 51 *
孙柳: "基于多种群协同进化算法的数据并行聚类算法", 《智能计算机与应用》 *
张继东: "融合多源数据的移动社交网络用户行为感知研究", 《情报科学》 *
杜乐: "大数据视角下高校图书馆信息技术工作拓展思考", 《科技风》 *
梁杨: "大数据背景下关联规则挖掘算法研究", 《全国优秀硕士学位论文全文数据库 信息科技辑》 *
米捷: "基于语义关联性特征融合的大数据挖掘方法", 《信阳师范学院学报(自然科学版)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114661792A (zh) * 2022-03-25 2022-06-24 北京感易智能科技有限公司 金融数据处理方法、装置、电子设备、介质及产品
CN114723257A (zh) * 2022-03-25 2022-07-08 中国能源建设集团广东省电力设计研究院有限公司 一种电力行业数字化的业务数据处理方法、装置及设备

Also Published As

Publication number Publication date
CN113609360B (zh) 2024-07-05

Similar Documents

Publication Publication Date Title
Jiang et al. Exploiting feature and class relationships in video categorization with regularized deep neural networks
WO2020248376A1 (zh) 情绪检测方法、装置、电子设备及存储介质
CN113961705B (zh) 一种文本分类方法及服务器
US20050278362A1 (en) Knowledge discovery system
CN111858940A (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
Islam et al. Exploring video captioning techniques: A comprehensive survey on deep learning methods
CN112580362B (zh) 一种基于文本语义监督的视觉行为识别方法、系统及计算机可读介质
Meena et al. Image-based sentiment analysis using InceptionV3 transfer learning approach
CN113609360B (zh) 一种基于场景化多源数据融合分析的方法和系统
CN112256866A (zh) 一种基于深度学习的文本细粒度情感分析方法
CN109271516A (zh) 一种知识图谱中实体类型分类方法及系统
Sun et al. Multi-channel CNN based inner-attention for compound sentence relation classification
CN110765285A (zh) 基于视觉特征的多媒体信息内容管控方法及系统
Cheng et al. Stack-VS: Stacked visual-semantic attention for image caption generation
CN116227594A (zh) 面向多源数据的医疗行业高可信度知识图谱的构建方法
CN116341519A (zh) 基于背景知识的事件因果关系抽取方法、装置及存储介质
CN118133785A (zh) 基于关系模板证据抽取的文档关系抽取方法
Zeng et al. Multimodal reaction: Information modulation for cross-modal representation learning
CN117852523A (zh) 一种学习鉴别性语义和多视角上下文的跨域小样本关系抽取方法和装置
CN116719840A (zh) 一种基于病历后结构化处理的医疗信息推送方法
CN116933164A (zh) 基于相似性的医康养服务需求分类方法
CN116257616A (zh) 面向音乐领域的实体关系抽取方法及系统
Wei et al. Stack-vs: Stacked visual-semantic attention for image caption generation
Verma et al. Multimodal Sentiment Sensing and Emotion Recognition Based on Cognitive Computing Using Hidden Markov Model with Extreme Learning Machine
CN114582449A (zh) 基于XLNet-BiGRU-CRF模型的电子病历命名实体标准化方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Country or region after: China

Address after: Room 1101, 11th Floor, Building B4, Future Science and Technology City, No. 999 Gaoxin Avenue, Donghu New Technology Development Zone, Wuhan City, Hubei Province, 430000

Applicant after: Wuhan Donghu Big Data Technology Co.,Ltd.

Address before: 430000 Room 2101, F3 Building, Phase I, Longshan Innovation Park, 999 High-tech Avenue, Donghu New Technology Development Zone, Wuhan City, Hubei Province

Applicant before: WUHAN DONGHU BIG DATA TRADING CENTER Co.,Ltd.

Country or region before: China

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant