CN114883007A

CN114883007A - 基于大数据的数据模型构建方法、系统、介质及计算机

Info

Publication number: CN114883007A
Application number: CN202210812182.7A
Authority: CN
Inventors: 乐爱平; 刘威; 胡嘉梅; 刘强; 曹磊; 吴承高; 熊伟; 洪文涛; 闵鹏宇
Original assignee: Nanchang Shengyuan Software Co ltd; First Affiliated Hospital of Nanchang University
Current assignee: Nanchang Shengyuan Software Co ltd; First Affiliated Hospital of Nanchang University
Priority date: 2022-07-12
Filing date: 2022-07-12
Publication date: 2022-08-09

Abstract

本发明提供一种基于大数据的数据模型构建方法、系统、介质及计算机，该方法包括：利用基于平均权重特征的选择方法对所采集到的输血大数据的初始数据进行特征评分；对特征评分后的数据进行归一化处理，并利用主成分分析法对归一化处理后的数据进行降维；对降维后的数据划分为训练数据和测试数据，并对训练数据是否平衡进行判断，将不平衡的训练数据进行过采样处理后按照预设比例生成多个数据样本，利用预设机器学习算法在多个数据样本上进行建模，以获得最优的新数据集；将新数据集输入模型进行训练，以获得最优的数据模型。本发明通过整合多种需求，将各步骤整合为一个完整的建模方法，为输血数据的建模分析和使用提供完善的处理过程。

Description

基于大数据的数据模型构建方法、系统、介质及计算机

技术领域

本发明涉及数据处理技术领域，特别涉及一种基于大数据的数据模型构建方法、系统、介质及计算机。

背景技术

在医疗领域当中，每一个医疗数据系统存储着大量病患的健康服务业务数据。对于输血大数据的使用与研究，能够进一步强化基于输血大数据建立的数据模型的分类预测准确性，但是由于输血相关数据源特征高维，并且经常出现数据不均衡的现象。与此同时，数据模型构建的过程中，多种分析处理过程的实现无法形成流程化，从而加大了数据模型构建的难度。

现有技术中，针对输血大数据的模型构建方法，通常是划分成多个步骤对整个流程进行处理，并且每个部分都需要根据实际需求的变动而进行调整，没有一种完善的整体应用于输血大数据模型构建方法。因此，如何构建一个完善的数据模型构建方法，成为输血数据处理的难题。

发明内容

基于此，本发明的目的是提供一种基于大数据的数据模型构建方法、系统、介质及计算机，以至少解决现有技术中输血大数据的数据模型在构建过程中无法实现流程化，存在数据模型构建难度增加，最终导致输血数据处理困难等问题。

本发明提出一种基于大数据的数据模型构建方法，所述方法包括以下步骤：

步骤一：利用基于平均权重特征的选择方法对所采集到的输血大数据的初始数据进行特征评分；

步骤二：对特征评分后的数据进行归一化处理，并利用主成分分析法对归一化处理后的数据进行降维；

步骤三：对降维后的数据划分为训练数据和测试数据，并对所述训练数据是否平衡进行判断，将不平衡的训练数据进行过采样处理后按照预设比例生成多个数据样本，

利用预设机器学习算法在所述多个数据样本上进行建模，以获得最优的新数据集；

步骤四：将所述新数据集输入模型进行训练，以获得最优的数据模型。

进一步的，所述步骤一具体包括：

分别建立随机森林算法模型、卡方检验方法模型以及逻辑回归算法模型，并依次利用所述随机森林算法模型、所述卡方检验方法模型以及所述逻辑回归算法模型计算出所述初始数据中各特征的评分；

将所述初始数据中各特征的评分进行累加，并计算出累加后的评分的平均值，以获得所述初始数据中各特征的最终评分。

进一步的，所述步骤三包括：

统计所述训练数据中各类型数据的数据量，并判断所述各类型数据的数据量是否处于不平衡状态；

若所述各类型数据的数据量处于不平衡状态，则将所述各类型数据的数据量按照数据量划分为多数类数据和少数类数据，并利用SMOTE算法对所述少数类数据进行过采样；

根据所述少数类数据和所述多数类数据之间的比例，调整所述少数类数据的数据量，分别生成多个数据样本；

采用预设的机器学习模型对各所述数据样本进行拟合，以获得最优的新数据集。

进一步的，所述步骤四包括：

建立多种基本模型，并分别对所述多种基本模型进行交叉验证；

计算出所述多种基本模型的平均准确率得分，并根据各所述基本模型的平均准确率得分选出最高得分的基本模型；

对所述最高得分的基本模型进行调参，选定最优参数，并利用所述新数据集进行模型训练，以获得最优的数据模型。

进一步的，所述方法还包括：

根据所述测试数据对所述步骤四中获得的最优的数据模型进行评估，以生成评估报告。

进一步的，对所述步骤四中获得的最优的数据模型进行评估的指标包括准确率、召回率、F值以及ROC曲线。

本发明还提出一种基于大数据的数据模型构建系统，用于执行上述的基于大数据的数据模型构建方法，所述基于大数据的数据模型构建系统包括：

特征选择模块，用于利用基于平均权重特征的选择方法对所采集到的输血大数据的初始数据进行特征评分；

特征预处理模块，用于对特征评分后的数据进行归一化处理，并利用主成分分析法对归一化处理后的数据进行降维；

数据划分模块，用于对降维后的数据划分为训练数据和测试数据，并对所述训练数据是否平衡进行判断，将不平衡的训练数据进行过采样处理后按照预设比例生成多个数据样本，

模型选择模块，用于将所述新数据集输入模型进行训练，以获得最优的数据模型。

进一步的，所述基于大数据的数据模型构建系统还包括：

模型评估模块，用于根据所述测试数据对所述模型选择模块中获得的最优的数据模型进行评估，以生成评估报告。

进一步的，所述特征选择模块包括：

模型建立单元，用于分别建立随机森林算法模型、卡方检验方法模型以及逻辑回归算法模型，并依次利用所述随机森林算法模型、所述卡方检验方法模型以及所述逻辑回归算法模型计算出所述初始数据中各特征的评分；

评分处理单元，用于将所述初始数据中各特征的评分进行累加，并计算出累加后的评分的平均值，以获得所述初始数据中各特征的最终评分。

进一步的，所述数据划分模块包括：

数据统计单元，用于统计所述训练数据中各类型数据的数据量，并判断所述各类型数据的数据量是否处于不平衡状态；

数据划分单元，用于若所述各类型数据的数据量处于不平衡状态，则将所述各类型数据的数据量按照数据量划分为多数类数据和少数类数据，并利用SMOTE算法对所述少数类数据进行过采样；

数据调整单元，用于根据所述少数类数据和所述多数类数据之间的比例，调整所述少数类数据的数据量，分别生成多个数据样本；

数据拟合单元，用于采用预设的机器学习模型对各所述数据样本进行拟合，以获得最优的新数据集。

进一步的，所述模型选择模块包括：

基础模型建立单元，用于建立多种基本模型，并分别对所述多种基本模型进行交叉验证；

基础模型评分单元，用于计算出所述多种基本模型的平均准确率得分，并根据各所述基本模型的平均准确率得分选出最高得分的基本模型；

模型选择单元，用于对所述最高得分的基本模型进行调参，选定最优参数，并利用所述新数据集进行模型训练，以获得最优的数据模型。

本发明还提出一种介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的基于大数据的数据模型构建方法。

本发明还提出一种计算机，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的基于大数据的数据模型构建方法。

与现有技术相比，本发明的有益效果是：本发明中的基于输血大数据的模型构建方法，能够对输血数据的处理提供一种完善的处理方法；针对输血数据进行相应分析，并选取合适的机器学习算法用于对输血数据进行建模。本发明通过整合多种需求，将各步骤整合为一个完整的建模方法，为输血数据的建模分析和使用提供完善的处理过程。

附图说明

图1为本发明第一实施例中基于大数据的数据模型构建方法的流程图；

图2为图1中步骤S101的详细流程图；

图3为图1中步骤S103的详细流程图；

图4为图1中步骤S104的详细流程图；

图5为本发明第二实施例中基于大数据的数据模型构建系统的结构框图；

图6为本发明第三实施例中计算机的结构框图。

主要元件符号说明：

存储器	10	特征预处理模块	12
				处理器	20	数据划分模块	13
计算机程序	30	模型选择模块	14
				特征选择模块	11

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

需要说明的是，当元件被称为“固设于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及／或”包括一个或多个相关的所列项目的任意的和所有的组合。

实施例一

请参阅图1，所示为本发明第一实施例中的基于大数据的数据模型构建方法，所述方法具体包括步骤S101至S104：

S101，利用基于平均权重特征的选择方法对所采集到的输血大数据的初始数据进行特征评分；

进一步的，请参阅图2，所述步骤S101具体包括步骤S1011~S1012：

S1011，分别建立随机森林算法模型、卡方检验方法模型以及逻辑回归算法模型，并依次利用所述随机森林算法模型、所述卡方检验方法模型以及所述逻辑回归算法模型计算出所述初始数据中各特征的评分；

S1012，将所述初始数据中各特征的评分进行累加，并计算出累加后的评分的平均值，以获得所述初始数据中各特征的最终评分。

需要说明的是，由于输血大数据存在较高的特征维度，若采用全部特征进行建模，其建模的效率较低，因此，本申请采用特征选择算法，对输入的输血数据进行特征选择，以降低输血数据的维度；特征选择处理之后的输血数据，使用PCA等降维方法，继续降低数据维度，以提高建模效率；

传统的特征评分主要有随机森林法以及卡方法等，由于单独一种的评分方法会出现极端的情况，因此，本实施例采用基于平均权重特征的选择方法，首先，利用随机森林算法建立模型，随后得出对输血大数据的初始数据的所有特征的评分，得到第一评分数据；其次，利用卡方检验建立模型，随后得出对输血大数据的初始数据的所有特征的评分，卡方评分的公式如下：

；

式中，A为实际值，T为理论值，将上述卡方检验方法模型得到的评分进行开根号处理得到第二评分数据；

利用逻辑回归算法建立模型，随后得出对输血大数据的初始数据的所有特征的评分，并将得到的评分全部取绝对值，得到第三评分数据；

将上述的第一评分数据、第二评分数据以及第三评分数据进行累加，随后求出累加后的评分的平均值，最终即为输血大数据的初始数据的所有特征的最终评分。

S102，对特征评分后的数据进行归一化处理，并利用主成分分析法对归一化处理后的数据进行降维；

在具体实施时，对特征评分后的数据进行标准化处理，本申请采用归一化方式，并利用主成分分析法（PCA方法）对归一化处理后的数据进行降维，以提升模型建模的速度。

S103，对降维后的数据划分为训练数据和测试数据，并对所述训练数据是否平衡进行判断，将不平衡的训练数据进行过采样处理后按照预设比例生成多个数据样本，

进一步的，请参阅图3，所述步骤S103具体包括步骤S1031~S1034：

S1031，统计所述训练数据中各类型数据的数据量，并判断所述各类型数据的数据量是否处于不平衡状态；

S1032，若所述各类型数据的数据量处于不平衡状态，则将所述各类型数据的数据量按照数据量划分为多数类数据和少数类数据，并利用SMOTE算法对所述少数类数据进行过采样；

S1033，根据所述少数类数据和所述多数类数据之间的比例，调整所述少数类数据的数据量，分别生成多个数据样本；

S1034，采用预设的机器学习模型对各所述数据样本进行拟合，以获得最优的新数据集。

在具体实施时，对上述降维后的数据进行自定义划分，根据用户需求比例划分为训练数据和测试数据，以便于后续模型训练及评估；

由于输血大数据经常存在数据不平衡的情况，因此，本实施例中需要对训练数据是否平衡进行判断，对不平衡情况下的数据使用不平衡数据分类算法（SMOTE算法）的人工少数类过采样处理；采用多种机器学习模型对数据进行拟合，选择拟合效果最好的机器学习模型。

在本实施例中，对训练数据存在不平衡的情况下，需要对不平衡的数据进行处理，以提升后续模型的训练和预测效果。并且，在对数据过采样的基础之上，生成了多个数据样本，并预设了机器学习模型用于检验最优比例的数据样本。

具体的，先统计上述训练数据中各类型数据的数据量，根据各类型数据的数据量来判断该训练数据是否处于平衡状态，例如：假设训练数据中存在三种类型的数据，分别为一类数据、二类数据以及三类数据，其中，一类数据的数据量为10，二类数据的数据量为20，三类数据的数据量为30，则意味着该训练数据处于不平衡状态。

进一步的，当各类型数据的数据量处于不平衡状态，则将各类型数据的数据量按照数据量划分为多数类数据和少数类数据，并利用SMOTE算法对所述少数类数据进行过采样，根据所述少数类数据和所述多数类数据之间的比例，调整所述少数类数据的数据量，分别生成多个数据样本。

以上述示例说明，将上述的一类数据和二类数据划分为少数类数据，将三类数据划分为多数类数据，并利用SMOTE算法对该一类数据和二类数据进行过采样，根据少数类数据和多数类数据之间的比例来调整少数类数据的数据量，分别生成以下几个新样本集合，即数据样本：

1、原始少数类数据（即一类数据和二类数据）+多数类数据的数据样本；

2、原始少数类数据的数据量的两倍（即一类数据和二类数据的数据量的两倍）+多数类数据的数据样本；

3、依次递增原始少数类数据的数据量的倍数，直到原始少数类数据的数据量的n倍超过多数类数据的数据量时，输出原始少数类数据与多数类数据的数据量相同的数量的数据样本（即一类数据和二类数据的数据量的数据量的n倍+多数类数据）。

利用预设的机器学习模型对上述的数据样本进行实验，以找到最优的新数据集（即最优的数据样本）。

S104，将所述新数据集输入模型进行训练，以获得最优的数据模型。

进一步的，请参阅图4，所述步骤S104具体包括步骤S1041~S1043：

S1041，建立多种基本模型，并分别对所述多种基本模型进行交叉验证；

S1042，计算出所述多种基本模型的平均准确率得分，并根据各所述基本模型的平均准确率得分选出最高得分的基本模型；

S1043，对所述最高得分的基本模型进行调参，选定最优参数，并利用所述新数据集进行模型训练，以获得最优的数据模型。

在具体实施时，本实施例中建立8种基本模型，8种基本模型分别为逻辑回归模型、朴素贝叶斯模型、决策树模型、随机森林模型、支持向量机模型、KNN模型、XGBoost模型以及Lightgbm模型，通过对应的模型进行交叉验证及模型评分；

计算出上述8种基本模型的平均准确率得分，并选出得分最高的模型，并对得分最高的模型进行调参，选定最优参数，并利用所述新数据集进行模型训练，以获得最优的数据模型。

本发明将原有零散的模型整合在了一个完整的系统中，可以自动选择出模型并自动探寻到最优参数，相较于现有方法，简化了操作流程。

在一些可选实施例中，在所述步骤S104之后，所述方法还包括：

根据所述测试数据对所述步骤S104中获得的最优的数据模型进行评估，以生成评估报告。

本实施例提供多种评估参数进行模型性能的验证，包括准确率，召回率和F值，以及ROC曲线等评价指标，并能够自动生成一份模型的评估报告。

综上，本发明上述实施例当中的基于大数据的数据模型构建方法，能够对输血数据的处理提供一种完善的处理方法；针对输血数据进行相应分析，并选取合适的机器学习算法用于对输血数据进行建模。本发明通过整合多种需求，将各步骤整合为一个完整的建模方法，为输血数据的建模分析和使用提供完善的处理过程。

实施例二

本发明另一方面还提出一种基于大数据的数据模型构建系统，请查阅图5，所示为本发明第二实施例中的基于大数据的数据模型构建系统，用于执行上述的基于大数据的数据模型构建方法，所述基于大数据的数据模型构建系统包括：

特征选择模块11，用于利用基于平均权重特征的选择方法对所采集到的输血大数据的初始数据进行特征评分；

进一步的，所述特征选择模块11包括：

特征预处理模块12，用于对特征评分后的数据进行归一化处理，并利用主成分分析法对归一化处理后的数据进行降维；

数据划分模块13，用于对降维后的数据划分为训练数据和测试数据，并对所述训练数据是否平衡进行判断，将不平衡的训练数据进行过采样处理后按照预设比例生成多个数据样本，

进一步的，所述数据划分模块13包括：

模型选择模块14，用于将所述新数据集输入模型进行训练，以获得最优的数据模型。

进一步的，所述模型选择模块14包括：

在一些可选实施例中，所述基于大数据的数据模型构建系统还包括：

上述各模块、单元被执行时所实现的功能或操作步骤与上述方法实施例大体相同，在此不再赘述。

本发明实施例所提供的基于大数据的数据模型构建系统，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

实施例三

本发明还提出一种计算机，请参阅图6，所示为本发明第三实施例中的计算机，包括存储器10、处理器20以及存储在所述存储器10上并可在所述处理器20上运行的计算机程序30，所述处理器20执行所述计算机程序30时实现上述的基于大数据的数据模型构建方法。

其中，存储器10至少包括一种类型的介质，所述介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、磁性存储器、磁盘、光盘等。存储器10在一些实施例中可以是计算机的内部存储单元，例如该计算机的硬盘。存储器10在另一些实施例中也可以是外部存储装置，例如插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（SecureDigital, SD）卡，闪存卡（Flash Card）等。进一步地，存储器10还可以既包括计算机的内部存储单元也包括外部存储装置。存储器10不仅可以用于存储安装于计算机的应用软件及各类数据，还可以用于暂时地存储已经输出或者将要输出的数据。

其中，处理器20在一些实施例中可以是电子控制单元 (Electronic ControlUnit，简称ECU，又称行车电脑)、中央处理器（Central Processing Unit, CPU）、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器10中存储的程序代码或处理数据，例如执行访问限制程序等。

需要指出的是，图6示出的结构并不构成对计算机的限定，在其它实施例当中，该计算机可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

本发明实施例还提出一种介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述的基于大数据的数据模型构建方法。

本领域技术人员可以理解，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或它们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于大数据的数据模型构建方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的基于大数据的数据模型构建方法，其特征在于，所述步骤一具体包括：

3.根据权利要求1所述的基于大数据的数据模型构建方法，其特征在于，所述步骤三包括：

4.根据权利要求1所述的基于大数据的数据模型构建方法，其特征在于，所述步骤四包括：

5.根据权利要求1所述的基于大数据的数据模型构建方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的基于大数据的数据模型构建方法，其特征在于，对所述步骤四中获得的最优的数据模型进行评估的指标包括准确率、召回率、F值以及ROC曲线。

7.一种基于大数据的数据模型构建系统，用于执行如权利要求1-6任一项所述的基于大数据的数据模型构建方法，其特征在于，所述基于大数据的数据模型构建系统包括：

8.根据权利要求7所述的基于大数据的数据模型构建系统，其特征在于，所述基于大数据的数据模型构建系统还包括：

9.一种介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一所述的基于大数据的数据模型构建方法。

10.一种计算机，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一所述的基于大数据的数据模型构建方法。