发明内容
本发明针对现有技术中存在的技术问题,提供一种基于场景化多源数据融合分析的方法和系统,以具体场景下多源数据为原始数据,通过从中提取具体场景下业务特征和知识特征作为构建具体场景下知识和业务库的基础数据,随后进行特征与知识的融合,使人们更好地从海量、复杂的多源数据中获得更多洞察,从而实现在具体场景下多源数据的智能认知和自动分析,为各类场景业务赋能。
根据本发明的第一方面,提供了一种基于场景化多源数据融合分析方法,包括:步骤1,获取设定场景多源数据的样本,所述多源数据包括:结构化数据、半结构数据和非结构化数据;
步骤2,对所述多源数据进行预处理,所述预处理包括特征提取;
步骤3,利用概率密度估计方法将预处理后的多源数据进行特征融合后并进行归一化处理,形成该设定场景下的多源数据特征集合;
步骤4,利用关联规则挖掘算法提取所述多源数据特征集合中的特征与对应具体场景业务之间的关联规则,匹配推理对应的目标场景下业务应用及解决方案。
在上述技术方案的基础上,本发明还可以作出如下改进。
可选的,所述步骤1中获取所述多源数据的方法包括:从该设定场景的物联网获取的业务本身的数据,以及从网络上抓取的公开的相关数据。
可选的,所述步骤2包括:
步骤201,根据设定场景的特点对所述多源数据进行文本分词的预处理;
步骤202,根据设定的标注策略,对文本中的实体关系进行标注;
步骤203,以所述标注后的文本作为训练数据进行模型训练学习;
步骤204,用训练好的所述模型对预处理后的所述多源数据进行实体关系联合提取,得到所需要的实体关系;对于不完整的实体关系,以设定的关键词作为种子爬虫,采集对应的相关信息完成对所述实体关系的数据补齐。
可选的,所述步骤3中形成该设定场景下的多源数据特征集合的过程包括:用各个特征的训练样本训练一组分类器,将分类器输出的概率密度值作为进行特征融合后的特征向量。
可选的,进行融合的所述特征为:A=[a1,a2,a3,a4.....an]和 B=[b1,b2,b3,b4....bm]时,所特征融合过程包括:
利用特征的训练样本的A特征训练n个分类器f:f1,f2....fn;计算 xi=fi(ai),i=1.2.3....n;
利用特征的训练样本的B特征训练m个分类器g:g1,g2....gn,计算 yj=gj(bj),j=1.2.3....m;
所述分类器f和分类器g为相同的模型,且所述分类器f和分类器g的输出为某一类别的概率将得到的概率密度值作为进行特征融合后的特征向量:C=[x1.x2.x3.....xn.y1.y2.y3......ym]。
可选的,所述步骤3得到多源数据特征集合之后还包括:对所述多源数据进行融合处理;
该融合处理过程采用Adaboost算法实现,包括:
初始化特征集合的训练样本的权重分布;
使用具有权值分布Dm(m=1,2,3…N)特征集合的训练样本集进行学习,得到弱分类器;所述弱分类器训练过程中,对于已经被准确的分类的特征集合的训练样本,构造下一个训练样本集时降低该特征结合的训练样本的权重;对于没有被准确的分类的特征集合的训练样本,构造下一个训练样本集时提高该特征结合的训练样本的权重;更新权重后的所述训练样本集被用于训练下一个分类器;同时根据所述弱分类器分错的特征集合的训练样本x对应的权重之和得到给弱分类器对应的话语权;
将各个所述弱分类器组合成强分类器,根据各个所述弱分类器的话语权大小决定该弱分类器在所述强分类器中占的比例大小。
可选的,所述步骤4中进行匹配推理过程基于的基础包括:
本体系统类之间的关系是由类之间的蕴涵或同义关系组成;所述类的意义由属性集(al,a2,…am)特征子集Ⅸl,X2…xn)来描述;
如果两个类cs和ct有共同的属性集,在所有属性上均有真值,值域是相关的,则类cs和类ct是同义关系;
如果两个类Cs和Ct中的一个类cs的一个实例在另一个类ct的所有属性上均有真值,值域是相关的,并且反之不成立,则类Cs语义包含类Ct。
根据本发明的第二方面,提供一种基于场景化多源数据融合分析系统,包括:数据获取模块、预处理模块、特征融合模块和匹配推理模块;
所述数据获取模块,用于获取设定场景多源数据的样本,所述多源数据包括:结构化数据、半结构数据和非结构化数据;
所述预处理模块,用于对所述多源数据进行预处理,所述预处理包括特征提取;
所述特征融合模块,用于利用概率密度估计方法将预处理后的多源数据进行特征融合后并进行归一化处理,形成该设定场景下的多源数据特征集合;
所述匹配推理模块,用于利用关联规则挖掘算法提取所述多源数据特征集合中的特征与对应具体场景业务之间的关联规则,匹配推理对应的目标场景下业务应用及解决方案。
根据本发明的第三方面,提供了一种电子设备,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现基于场景化多源数据融合分析方法的步骤。
根据本发明的第四方面,提供了一种计算机可读存储介质,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现基于场景化多源数据融合分析方法的步骤。
本发明提供的一种基于场景化多源数据融合分析方法、系统、电子设备及存储介质,获取的多源数据包括从该设定场景的物联网获取的业务本身的数据,以及从网络上抓取的公开的相关数据,保证数据的全面性;对数据进行特征提取后,利用概率密度估计方法,用于将预处理后的多源数据特征融合在一起,并进行归一化处理,形成具体场景下的多源数据特征集合,然后按特征信息对多源数据进行分类、聚集和综合,产生特征矢量,融合处理过程采用Adaboost算法实现,解决了:两类问题、多类单标签问题、多类多标签问题、大类单标签问题及回归问题;基于类的特点设置匹配推理过程基于的理论基础;以具体场景下多源数据为原始数据,通过从中提取具体场景下业务特征和知识特征作为构建具体场景下知识和业务库的基础数据,随后进行特征与知识的融合,使人们更好地从海量、复杂的多源数据中获得更多洞察,从而实现在具体场景下多源数据的智能认知和自动分析,为各类场景业务赋能。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示为本发明提供的一种基于场景化多源数据融合分析方法的流程图,如图1所示,该方法包括:
步骤1,获取设定场景多源数据的样本,多源数据包括:结构化数据、半结构数据和非结构化数据;具体的,该非结构化数据包括:文本、语音和图像等数据。
步骤2,对多源数据进行预处理,预处理包括特征提取。
步骤3,利用概率密度估计方法将预处理后的多源数据进行特征融合后并进行归一化处理,形成该设定场景下的多源数据特征集合。
步骤4,利用关联规则挖掘算法提取多源数据特征集合中的特征与对应具体场景业务之间的关联规则,匹配推理对应的目标场景下业务应用及解决方案。实现场景业务认知与分析。
针对现有技术的缺陷,本发明推出一种新的多源数据融合分析处理方法和系统,以具体场景下多源数据为原始数据,通过从中提取具体场景下业务特征和知识特征作为构建具体场景下知识和业务库的基础数据,随后进行特征与知识的融合,使人们更好地从海量、复杂的多源数据中获得更多洞察,从而实现在具体场景下多源数据的智能认知和自动分析,为各类场景业务赋能。
实施例1
本发明提供的实施例1为本发明提供的一种基于场景化多源数据融合分析的方法的实施例,结合图1可知,该实施例包括:
步骤1,获取设定场景多源数据的样本,多源数据包括:结构化数据、半结构数据和非结构化数据。
在一种可能的实施例方式中,获取多源数据的方法包括:从该设定场景的物联网获取的业务本身的数据,以及从网络上抓取的公开的相关数据。
具体的,物联网中的物联网设备产生的数据往往是结构化的,而且是数值型的,这部分数据通常包含在场景内部数据库表并以结构化的方式存储,是一种非公开或半公开的数据。抓取的网络上公开的相关数据通常是以网页或者的形式存在,是非结构化的数据。
步骤2,对多源数据进行预处理,预处理包括特征提取。
由于多源数据结构的不同,所以根据不同的数据类型,一般采用不同的方法进行预处理。在一种可能的实施例方式中,步骤2包括:
步骤201,根据设定场景的特点对多源数据进行文本分词的预处理;具体的,可以预先收录该设定场景的常用词语进行分词。
步骤202,根据设定的标注策略,对文本中的实体关系进行标注。
步骤203,以标注后的文本作为训练数据进行模型训练学习。
步骤204,用训练好的模型对预处理后的多源数据进行实体关系联合提取,得到所需要的实体关系;对于不完整的实体关系,以设定的关键词作为种子爬虫,采集对应的相关信息完成对实体关系的数据补齐。
本发明提供的实施例中,以某一疾病电子病历特征提取为例:由于电子病历一般是以文本形式存在,所以预处理的方式一般为:
1)、先对电子病历进行信息脱敏,然后进行医疗文本分词,完成预处理工作。
2)、根据标注策略,只对文本中的实体关系进行标注,“忽视”文本中不属于实体关系的部分。
可以理解的是,在进行标注时,一般要根据医院专家的指导下对电子病历进行标注。如对“患者自诉伤后即感腰部疼痛,未做特殊处理,……初步诊断:气滞血瘀证”这句话进行标注时,“腰部疼痛”是“气滞血瘀证”的一个症状,因此文中的需要提取的实体为“腰部疼痛”和“气滞血瘀证”这两个实体,而他们之间的关系属于疾病对应的症状,“腰部”作为第一个实体的开始部分,因此“腰部”的标签为“B-SOD-1”;“疼痛”作为第一个实体的结尾部分,标签为“E-SOD-2”,“气滞血瘀证”在分词时分为一个单独的词,作为第二个单独的实体,标签为“SSOD-2”;其他不相关的词如“患者”或者标点,都标记为“O”。最后标注结果为:“患者/O自诉/O伤后/即感/O腰部/B-SOD-1疼痛/E-SOD2,/O未做/O特殊/O处理/O,/O……初步/O 诊断/O:/O气滞血瘀证/S-SOD-2”。
3)、把标注好的语料作为训练数据开始模型训练学习。
将标注后的文本生成词向量,送入Bi-LSTM模型分别开始向前层和向后层的编码,然后将两个LSTM层所得到的隐向量进行拼接得到一个向量,接着通过一个Softmax层将Bi-LSTM层得到的向量归一化处理,使之处于0-1 之间;最后再维特比算法来预测其标签概率,选择概率最高的标签作为该词的标签输出;如果是图像,常用的颜色特征表示方法有:颜色直方图、颜色矩、颜色聚合向量、颜色集等;纹理特征,纹理特征描述方法大致可以分为四类:统计法、结构法、模型法、频谱法;形状特征,形状特征的描述主要有基于边界和基于区域两大类,傅立叶形状描述符法和区域不变矩法等。
4)、用训练好的模型对预处理后的电子病历进行实体关系联合联合提取,直接得到所需要的实体关系。
5)、以不完整的实体关系中的疾病名称作为种子爬虫,采集相关的疾病症状信息完成对实体关系的数据补齐。
步骤3,利用概率密度估计方法将预处理后的多源数据进行特征融合后并进行归一化处理,形成该设定场景下的多源数据特征集合。
在一种可能的实施例方式中,形成该设定场景下的多源数据特征集合的过程中,利用概率密度估计方法,用于将预处理后的多源数据特征融合在一起,并进行归一化处理,形成具体场景下的多源数据特征集合,然后按特征信息对多源数据进行分类、聚集和综合,产生特征矢量,包括:用各个特征的训练样本训练一组分类器,将分类器输出的概率密度值作为进行特征融合后的特征向量。
在一种可能的实施例方式中,进行融合的特征为: A=[a1,a2,a3,a4.....an]和B=[b1,b2,b3,b4....bm]时,所特征融合过程包括:
利用特征的训练样本的A特征训练n个分类器f:f1,f2....fn;计算 xi=fi(ai),i=1.2.3....n。
利用特征的训练样本的B特征训练m个分类器g:g1,g2....gn,计算 yj=gj(bj),j=1.2.3....m。
分类器f和分类器g为相同的模型,例如可以同为贝叶斯或者同为svm,且分类器f和分类器g的输出为某一类别的概率,而不是将分类器的输出设为类别,将得到的概率密度值作为进行特征融合后的特征向量: C=[x1.x2.x3.....xn.y1.y2.y3......ym]。
在一种可能的实施例方式中,得到多源数据特征集合之后还包括:构建常用的数据融合常见算法的算法库,以便能够支持对文本数据分析和图像数据分析,以及对来自多源的结构化数据和非结构化数据进行融合分析,由于先前已经对多源数据进行了特征提取,提取的特征信息而且已经是原始信息的充分表示量或充分统计量,并按特征信息对多源数据进行了分类、聚集和综合,产生了特征矢量,所有这里主要采用一些基于特征级融合方法融合这些特征矢量,作出基于融合特征矢量的属性说明。
该融合处理过程采用Adaboost算法实现,Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这 Adaboost些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。使用adaboost分类器可以排除一些不必要的训练数据特征,并将关键放在关键的训练数据上面。目前,对adaBoost算法的研究以及应用大多集中于分类问题,同时近年也出现了一些在回归问题上的应用。就其应用adaboost系列主要解决了:两类问题、多类单标签问题、多类多标签问题、大类单标签问题,回归问题。它用全部的训练样本进行学习。
Adaboost算法原理为:
输入:训练数据集χ={(x1,y1),(x2,y2),...,(xn,yn)};输出:最终的强分类器G(x)。
具体可以包括:
初始化特征集合的训练样本χ={(x1,y1),(x2,y2),...,(xn,yn)}的权重分布。
具体的,如果有N个样本,则每一个训练的样本点最开始时都被赋予相同的权重w=:1/N。
每一次迭代每个特征集合的训练样本的权重D1为:
其中,w11表示,第1次迭代时的第一个样本的权值。
使用具有权值分布Dm(m=1,2,3…N)特征集合的训练样本集进行学习,得到弱分类器;弱分类器训练过程中,对于已经被准确的分类的特征集合的训练样本,构造下一个训练样本集时降低该特征结合的训练样本的权重;对于没有被准确的分类的特征集合的训练样本,构造下一个训练样本集时提高该特征结合的训练样本的权重;更新权重后的训练样本集被用于训练下一个分类器,整个训练过程如此迭代地进行下去;同时根据弱分类器分错的特征集合的训练样本x对应的权重之和得到给弱分类器对应的话语权。
具体的,第m次迭代时的弱分类器表示为Gm(x):χ→{-1,+1},特征集合的训练样本x要么分类成-1,要么分类成1。
弱分类器准则:该弱分类器的误差函数最小,也就是分错的特征集合的训练样本x对应的权重之和最小。
弱分类器Gm(x)的话语权αm表示Gm(x)在最终分类器中的重要程度。
话语权αm随误差函数的值em的减小而增大,即误差率小的分类器,在最终分类器的重要程度大。
更新训练样本集的权值分布,用于下一轮迭代。其中,被误分的样本的权值会增大,被正确分的权值减小。
Dm+1=(wm+1,1,wm+1,2…wm+1,i…,wm+1,N),
Dm+1是用于下次迭代时样本的权值,Wm+1,i是下一次迭代时,第i个样本的权值。
其中,yi代表第i个样本对应的类别(1或-1),Gm(xi)表示弱分类器对样本xi的分类(1或-1)。若果分对,yi*Gm(xi)的值为1,反之为-1。其中Zm是归一化因子,使得所有样本对应的权值之和为1。
将各个弱分类器组合成强分类器,根据各个弱分类器的话语权大小决定该弱分类器在强分类器中占的比例大小。
各个弱分类器的训练过程结束后,分类误差率小的弱分类器的话语权较大,其在最终的分类函数中起着较大的决定作用,而分类误差率大的弱分类器的话语权较小,其在最终的分类函数中起着较小的决定作用。换言之,误差率低的弱分类器在最终分类器中占的比例较大,反之较小。
其中,sign函数用于求数值的正负:数值大于0,为1;小于0,为-1;等于0,为0。f(x)为合成弱分类器的函数,
通过上述预分类模型对输入的待识别多源参数子集进行分类后,得到多源参数子集集合与目标场景下业务的对应关系、知识库,匹配推理对应的目标场景下业务应用及解决方案。
步骤4,利用关联规则挖掘算法提取多源数据特征集合中的特征与对应具体场景业务之间的关联规则,匹配推理对应的目标场景下业务应用及解决方案。实现场景业务认知与分析。
在一种可能的实施例方式中,进行匹配推理过程基于的基础包括:
本体系统类之间的关系是由类之间的蕴涵或同义关系组成;类的意义由属性集(al,a2,…am)特征子集Ⅸl,X2…xn)来描述。
如果两个类cs和ct的属性是完全可比的,即两个类有共同的属性集,在所有属性上均有真值,值域是相关的,则两个类cs和ct是同义关系。记为:如果{Xsl,…Xsk}={Xtl,Xtk},则Cs=ct表示语义相等。
如果两个类Cs和Ct的属性集部分可比,即一个类cs的一个实例在另一个类ct的所有属性上均有真值,值域是相关的,并且反之不成立,那么 Cs语义包含Ct。记为:如果{xs1,…xsk}包含{Xtl,…xtI),则CS包含Ct,表示语义包含。
实施例2
本发明提供的实施例2为本发明提供的一种基于场景化多源数据融合分析系统的实施例,图2为本发明实施例提供的一种基于场景化多源数据融合分析系统结构图,结合图2可知,该实施例包括:数据获取模块、预处理模块、特征融合模块和匹配推理模块。
数据获取模块,用于获取设定场景多源数据的样本,多源数据包括:结构化数据、半结构数据和非结构化数据。
具体的,该数据获取模块可以包括系统融合采集、互联网数据采集和物联网数据采集单元。
预处理模块,用于对多源数据进行预处理,预处理包括特征提取。
特征融合模块,用于利用概率密度估计方法将预处理后的多源数据进行特征融合后并进行归一化处理,形成该设定场景下的多源数据特征集合。
具体的,该特征融合模块可以包括特征归一化模块和数据融合模块。
匹配推理模块,用于利用关联规则挖掘算法提取多源数据特征集合中的特征与对应具体场景业务之间的关联规则,匹配推理对应的目标场景下业务应用及解决方案。实现场景业务认知与分析。
可以理解的是,本发明提供的一种基于场景化多源数据融合分析系统与前述各实施例提供的基于场景化多源数据融合分析方法相对应,基于场景化多源数据融合分析系统的相关技术特征可参考基于场景化多源数据融合分析方法的相关技术特征,在此不再赘述。
请参阅图3,图3为本发明实施例提供的电子设备的实施例示意图。如图3所示,本发明实施例提了一种电子设备,包括存储器1310、处理器1320 及存储在存储器1310上并可在处理器1320上运行的计算机程序1311,处理器1320执行计算机程序1311时实现以下步骤:获取设定场景多源数据的样本,多源数据包括:结构化数据、半结构数据和非结构化数据;对多源数据进行预处理,预处理包括特征提取;利用概率密度估计方法将预处理后的多源数据进行特征融合后并进行归一化处理,形成该设定场景下的多源数据特征集合;利用关联规则挖掘算法提取多源数据特征集合中的特征与对应具体场景业务之间的关联规则,匹配推理对应的目标场景下业务应用及解决方案。
请参阅图4,图4为本发明提供的一种计算机可读存储介质的实施例示意图。如图4所示,本实施例提供了一种计算机可读存储介质1400,其上存储有计算机程序1411,该计算机程序1411被处理器执行时实现如下步骤:获取设定场景多源数据的样本,多源数据包括:结构化数据、半结构数据和非结构化数据;对多源数据进行预处理,预处理包括特征提取;利用概率密度估计方法将预处理后的多源数据进行特征融合后并进行归一化处理,形成该设定场景下的多源数据特征集合;利用关联规则挖掘算法提取多源数据特征集合中的特征与对应具体场景业务之间的关联规则,匹配推理对应的目标场景下业务应用及解决方案。
本发明实施例提供的一种基于场景化多源数据融合分析方法、系统及存储介质,获取的多源数据包括从该设定场景的物联网获取的业务本身的数据,以及从网络上抓取的公开的相关数据,保证数据的全面性;对数据进行特征提取后,利用概率密度估计方法,用于将预处理后的多源数据特征融合在一起,并进行归一化处理,形成具体场景下的多源数据特征集合,然后按特征信息对多源数据进行分类、聚集和综合,产生特征矢量,融合处理过程采用 Adaboost算法实现,解决了:两类问题、多类单标签问题、多类多标签问题、大类单标签问题及回归问题;基于类的特点设置匹配推理过程基于的理论基础;以具体场景下多源数据为原始数据,通过从中提取具体场景下业务特征和知识特征作为构建具体场景下知识和业务库的基础数据,随后进行特征与知识的融合,使人们更好地从海量、复杂的多源数据中获得更多洞察,从而实现在具体场景下多源数据的智能认知和自动分析,为各类场景业务赋能。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。