CN114154572A

CN114154572A - 一种基于异构平台的异构数据集中接入分析方法

Info

Publication number: CN114154572A
Application number: CN202111462375.6A
Authority: CN
Inventors: 马越; 李启龙; 李启鑫; 张金戈; 李英飞; 刘志岐
Original assignee: Liaoning Mingpin Technology Co ltd
Current assignee: Liaoning Mingpin Technology Co ltd
Priority date: 2021-12-02
Filing date: 2021-12-02
Publication date: 2022-03-08

Abstract

本发明公开了一种基于异构平台的异构数据集中接入分析方法，通过将各异构数据源的分类结果融合起来，得到最优的分类分析结果。首先，数据的预处理及分类：针对异构平台数据存在的异构多模态现象，通过数据结构对其进行划分，对不同结构的数据采用了不同的算法实现了分类模型的构建；其次，异构数据的融合：采用决策级别的融合策略设计了投票法和权重法两种融合方法，对各异构数据的不同分类结果进行融合；最后，将不同融合方法得到的最终结果通过文本、表格或图表等形式进行可视化展现，更好的对数据进行分析和判断。本发明是考虑各方数据的异构性和多模态性，以深度学习为主要分析技术，并结合不同的融合策略，实现异构多模态的数据的融合判断。

Description

一种基于异构平台的异构数据集中接入分析方法

技术领域

本发明涉及数据分析技术领域，更具体的是，本发明涉及一种基于异构平台的异构数据集中接入分析方法。

背景技术

当前处于大数据迅速发展的时代，数据量大、数据结构多样化成为较为鲜明的特点，各应用领域产生了大量的多源异构数据。如何对这些数据统一整合和处理,得到准确的分类结果，挖掘出有价值的信息,引起了学术界的大量关注与研究。突破非同源数据的差异完成数据融合，是多源异构数据融合的关键问题。数据结构差异是每一条数据在数据属性、数据表达和数据质量上差异明显。当前主要用到深度学习模型进行训练，得到一种可以汇集识别多种异构数据的分类模型。当前研究大多针对一种结构或模态的数据进行分析，这种做法可能会遗漏其他检查数据中的重要信息，从而限制得出的结论的可靠性和准确性。

发明内容

本发明的目的是设计开发了一种基于异构平台的异构数据集中接入分析方法，对多元异构数据采用数据融合技术和可视化分析技术，建立统一整合的可视化平台，全面深入分析各类数据，从而可以快速高效的获取到想要的信息。

本发明提供的技术方案为：

一种基于异构平台的异构数据集中接入分析方法，包括如下步骤：

包括如下步骤：

步骤一、对异构数据进行预处理；

步骤二、对所述异构数据进行分类模型的构建并进行分类；

步骤三、对所述异构数据的分类结果进行融合；

步骤四、基于异构平台对融合后的分类结果进行可视化展示。

优选的是，所述预处理具体包括：

所述异构数据为文本数据时，对所述文本数据进行分词、去停用词及词向量生成；

所述异构数据为影像数据时，对所述影像数据统一输入数据格式，并同时对影响进行裁剪、大小重整及体素归一化后，正确输入到网络中；

所述异构数据为结构化数据时，对所述结构化数据转换为表格形式的文件后进行特征选择。

优选的是，所述步骤二包括：

所述异构数据为文本数据时，所述分类模型为Text CNN模型或Text RNN模型；

所述异构数据为影像数据时，所述分类模型为3D Alex Net模型、3D Res Net18模型或3D Resnet50模型；

所述异构数据为结构化数据时，所述分类模型通过XGBoost算法进行模型构建，在所述模型训练时使用十折交叉进行验证。

优选的是，所述3D Alex Net模型、3D Res Net18模型或3D Resnet50模型均满足：

式中，N_(h,w,d)为新生成的特征图大小，h为特征图的深度，w为特征图的\宽度，d为特征图的长度，W_(h,w,d)为，上一层输出的图像大小，S为卷积步幅。

优选的是，所述步骤三通过特征级融合策略或决策级融合策略对所述异构数据进行融合。

优选的是，所述决策级融合策略为投票融合法或权重融合法。

优选的是，所述投票融合法具体包括如下过程：

将各个子模型的决策值作为类别标签进行统计，每个类别标签为一票，以相对多数表决法获得得票最高的类别并作为最终结论输出。

优选的是，所述权重融合法具体包括如下过程：

将各个子模型的决策值按照类别对齐后转换并拼接为决策矩阵，使用所述决策矩阵与权重数组的对应元素相乘，并按列对加权后的各类别概率进行求和，将概率最大的类别作为最终结论输出。

本发明所述的有益效果：

(1)、本发明设计开发的一种基于异构平台的异构数据集中接入分析方法，针对异构平台数据存在的异构多模态现象，通过数据结构对其进行划分，对不同结构的数据采用了不同的算法实现了分类模型的构建。

(2)、本发明设计开发的一种基于异构平台的异构数据集中接入分析方法，在异构数据的融合方面，采用决策级别的融合策略设计了投票法和权重法两种融合方法，实现异构多模块数据的融合。

(3)、本发明设计开发的一种基于异构平台的异构数据集中接入分析方法，设计了一个异构数据分析系统，通过考虑到各方数据的异构性和多模态性，由此，以深度学习为主要分析技术，并结合适合的融合策略，实现异构多模态的数据的融合判断，最终实现分析结果可视化，可通过文本、表格或图表等形式对分析结果进行可视化展现，更高的对数据进行分析和判断。

附图说明

图1为本发明所述异构数据分析平台的处理流程示意图。

图2为本发明所述基于异构平台的异构数据集中接入分析方法的流程示意图。

具体实施方式

下面结合对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

如图1所示，本发明提供的一种基于异构平台的异构数据集中接入分析方法，设计了一个异构数据分析平台来辅助进行数据分析，所述异构数据分析平台由前端模块、数据预处理模块、数据分析模块和数据存储模块四部分组成。

其中，所述前端模块主要包括数据预处理、数据分析及结果可视化及模型下载三个功能；所述数据预处理模块为训练或待分析数据提供了分词、格式转换、数据增广等预处理方法，而数据分析模块则负责调用诊断模型对预处理完毕的数据进行类别判断，并返回结果；数据存储模块主要分为文件存储和数据库存储，文件存储是将占用资源较大的系统模型或用户数据以文件的形式存储。

如图2所示，本发明设计开发的一种基于异构平台的异构数据集中接入分析方法，包括如下步骤：

步骤一、对异构数据进行预处理：将搜集的数据进行预处理；

为了使分类数据更具有鲁棒性，需对不同数据的输入形式进行预处理，例如统一格式等；

对于文本数据，由于深度学习模型无法直接处理自然语言文本，因此需要对数据进行分词、去停用词及词向量生成等预处理，将单词映射到词向量中从而实现自然语言文本的数值化。

影像数据首先要统一输入数据格式，并确保正确输入到网络，另外还对影像进行裁剪、大小重整及体素归一化等通用预处理方法。

结构化数据大多以数据表的形式存在，需要将其转换为表格形式的文件以进行后续处理，并对输入的数据进行降维等特征选择。

步骤二、对所述异构数据进行分类：针对各数据进行模型设计，实现分类；

针对异构平台数据存在的异构多模态现象，通过数据结构对其进行划分，对不同结构的数据采用了不同的算法实现了分类模型的构建，如对影像、文档等非结构化数据，本发明就基于深度学习技术设计并实现了多个辅助判断模型，针对数据表等结构化的数据，采用结合机器学习算法进行实现；

对于不同数据进行不同的模型设计，进一步包括：

2.1、文本数据：采用了Text CNN和Text RNN两种模型，本发明在原始Text CNN模型的基础上对嵌入层及部分参数做了修改和调整，模型架构如下：

表一文本数据的模型架构

2.2、影像数据：基于三维卷积算法实现了3D Alex Net、3D Res Net18及3DResnet50三个分类模型，以适用于不同数据集规模下的影像分类任务，在实现的多个网络模型中，均使用了三维卷积核进行特征的捕捉和计算，避免了三维重建步骤可能导致的数据误差，不同于一般卷积核是wh的平面，三维卷积核是一个dwh的立方体，根据设定的不同大小，将三维卷积核投影到特征图的下一层，见以下式子：

式中，N_(h,w,d)为新生成的特征图大小，h为特征图的深度，w为特征图的\宽度，d为特征图的长度，W_(h,w,d)为，上一层输出的图像大小，S为卷积步幅；

对于文本数据和影像数据进行的模型设计中，均采用了Tesorflow框架进行模型权重恢复；

2.3、结构化数据：使用XGBoost算法对异构数据进行模型构建，为了防止模型在训练过程中出现的过拟合现象，同时使得模型能够在数据量级不大的情况下尽可能多的使用数据进行训练，在模型训练时使用十折交叉验证，以保证模型准确率的可靠性；

对于结构化数据，通过joblib库实现了模型的持久化和读取恢复。

步骤三、异构数据融合：对于不同的异构数据，采取适合的融合技术以获得综合分析结果，进一步包括为：

3.1、特征级融合策略，通常发生在数据预处理阶段，因此也称为早期融合策略。通常会采用机器学习或深度学习的方式对各模态数据进行特征提取，并编码成特定的结构(向量、数组等)，再对相同结构的特征采取叠加或拼接的方式进行融合；

3.2、决策级融合策略，决策级融合策略是将不同模态数据分别训练好的模型的最终决策作为融合对象，依据任务的不同，选择适合的融合方法对获得的多个最终决策进行进一步计算以得到最终结果；

对异构多模态数据的融合分析方法进行选择时，采用一种较灵活的，适用范围较广的多模态数据融合策略，即决策级融合策略，允许不同模态数据训练各自的模型，在决策级层面对所有子模型的结果进行融合分析，实现异构多模块数据的融合，最终得到全局最优决策。

所述决策级融合策略为投票融合法或权重融合法：

3.21投票融合法：在投票融合法中，各子模型的决策值为对相应模态数据进行分析后的类别标签，投票时将该类别标签视作一票进行统计，最终得票最多的类别即为融合所得诊断结论，而在统计方法上，采用了相对多数表决法，即只要某一类别的得票数多于其他类别，就输出这一类别作为最终结论。而当出现多个类别得票数相同的情况时，相对多数表决发将在得票相等且最高的多个类别中随机选取一个类别作为最终结论；

相对多数表决法的优点在于不论类别的最高得票是否过半都能做出最终预测，其伪代码如下所示：

所述投票融合法的具体实施过程为：

首先，建立疾病类别字典，用于统计投票情况；然后，通过循环读取各子模型的决策值，采用字典进行类别和得票数统计，并对票数进行排序；接下来，采用相对多数表决法对投票结构进行统计计算的过程，当某一类别的得票数唯一最多时，算法将输出这一类别作为最终结论。

3.22权重融合方法：各数据信息所占重要程度可能并不完全相同，依据各数据应用时的重要程度，系统为处理该模态数据的模型分配相应权重的融合方法则更加适用于这种情形，权重法的伪代码如下所示：

所述权重融合方法的具体实施过程为：

依据各模态数据作为分析来源时的重要程度，分配给各模态不同的权重值，形成权重分组。将各模态数据进行分析后的类别概率看作其决策值，并以此作为算法的输入，子模型决策值组成列表，按照类别顺序，由列表类型转换成矩阵类型，变为决策矩阵。接着，使用该决策矩阵与权重数组的对应元素相乘，并按列对加权后的各类别概率进行求和，最后将概率最大的类别作为最终结论输出；

步骤四、异构数据分析：

如图2所示，基于异构平台对最终的分类结果通过文本、表格或图表等形式可视化展现，返回分类结果及数据的重要特征。是通过对不同形态数据训练各自的模型，面对各模型的分类结果，进行融合分析，得到全局最优的决策。最终将决策可视化展示出来，由此得到了更直接全面的信息。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的实施例。

Claims

1.一种基于异构平台的异构数据集中接入分析方法，其特征在于，包括如下步骤：

步骤一、对异构数据进行预处理；

步骤二、对所述异构数据进行分类模型的构建并进行分类；

步骤三、对所述异构数据的分类结果进行融合；

2.如权利要求1所述的基于异构平台的异构数据集中接入分析方法，其特征在于，所述预处理具体包括：

3.如权利要求2所述的基于异构平台的异构数据集中接入分析方法，其特征在于，所述步骤二包括：

4.如权利要求3所述的基于异构平台的异构数据集中接入分析方法，其特征在于，所述3D Alex Net模型、3D Res Net18模型或3D Resnet50模型均满足：

5.如权利要求1所述的基于异构平台的异构数据集中接入分析方法，其特征在于，所述步骤三通过特征级融合策略或决策级融合策略对所述异构数据进行融合。

6.如权利要求5所述的基于异构平台的异构数据集中接入分析方法，其特征在于，所述决策级融合策略为投票融合法或权重融合法。

7.如权利要求6所述的基于异构平台的异构数据集中接入分析方法，其特征在于，所述投票融合法具体包括如下过程：

8.如权利要求7所述的基于异构平台的异构数据集中接入分析方法，其特征在于，所述权重融合法具体包括如下过程：