CN115510969A

CN115510969A - 一种基于机器学习的公共卫生数据可靠性评估系统

Info

Publication number: CN115510969A
Application number: CN202211165934.1A
Authority: CN
Inventors: 夏寒; 付晨; 夏天; 张�诚; 刘星航; 道理; 毛丹; 林维晓
Original assignee: Shanghai Municipal Center For Disease Control & Prevention
Current assignee: Shanghai Municipal Center For Disease Control & Prevention
Priority date: 2022-09-23
Filing date: 2022-09-23
Publication date: 2022-12-23

Abstract

本发明公开了一种基于机器学习的公共卫生数据可靠性评估系统，包括以下阶段：数据准备阶段、特征工程阶段以及模型评估与评价阶段，所述模型评估与评价阶段包括以下步骤：S1，采用半监督学习的方法，探索逻辑回归、支持向量机、神经网络、随机森林与XGBoost模型在公共卫生数据可靠性评估方面的应用；S2，将半监督机器学习分为自主训练与合作训练两种模式，在总体特征可划分为两组子特征，使用合作训练通常会有更好的效果；具有提高半监督机器学习的效率及模型性能的好处，探索并构建多种类模型，并对各模型性能进行量化评估与比较，在此基础上进行模型选择，解决了单一模型无法达到最优效果的问题，进一步提升模型的性能和实用性。

Description

一种基于机器学习的公共卫生数据可靠性评估系统

技术领域

本发明涉及数据分析处理技术领域，尤其涉及一种基于机器学习的公共卫生数据可靠性评估系统。

背景技术

随着信息技术的发展和大数据时代的到来，越来越多的科学研究开始青睐使用已有的数据开展研究，同时，横跨多学科、多领域的融合研究逐渐增多，需要在研究中使用多个学科领域和来源的数据，在研究开展前，应对拟纳入研究的数据可靠性进行评估，并根据评估结果采取相应措施，以提高研究结果的真实性与准确性，数据可靠性是指数据完整、一致、准确、值得信赖和可靠的程度，以及这些特性在数据全生命周期内被维护的程度，数据的可靠性会因为数据中存在偏差而降低，常见的数据偏差主要包括选择偏差、信息偏差和混杂偏差等，甚至还包括对数据的编造和篡改等情况，如果在科学研究中使用了可靠性较低的数据，则研究结果将偏离真实情况，使得研究成果的价值大大降低，在大数据时代，数据可靠性评估是非常重要的，其关乎研究的成败和成果的价值，在开展科学研究前，采用科学的方法对拟纳入研究的数据可靠性进行准确的评估，是大数据时代科学研究的必要步骤。

现有技术中的公共卫生领域内，数据可靠性评估方法主要分为基于规则的评估方法、基于内容的评估方法和基于统计的评估方法三类：

基于规则的评估方法主要通过设置规则库，并利用规则库中的规则对数据进行校验，通过校验结果评估数据的可靠性，基于规则的评估方法虽然可以对全量数据进行评估，可以发现一些信息偏差造成的数据可靠性问题，但是评估的深度较浅，对符合检验规则的数据编造、篡改也无能为力，此外，规则库的制定需要对数据所在的业务领域相当熟悉，使这种方法在评估跨行业数据的可靠性时存在较高的实施门槛。

基于内容的评估方法主要通过其它来源数据，对待评估的数据内容进行交叉验证，从而对数据的可靠性进行评估，常用的其它来源数据包括电话/上门回访收集的数据、查阅原始病史获得的数据等。基于内容的评估方法可以提供深层次的评估，对于信息偏差具有更好的评估效果，也可一定程度上提供选择偏差和混杂偏差的线索，但是获取其它来源的数据通常需要耗费大量的时间、精力和经济成本，有时还可能存在其他来源数据不可及的情况，使得这种方法很难对全量数据进行可靠性评估，一般需要与抽样的方法结合使用，评估得出的数据可靠性可能存在偏差。

基于统计的评估方法主要通过对待评估数据整体统计结果和分布情况的计算与分析来整体评估数据的可靠性。例如血压值的末位数字是否符合随机分布、数据中男女人数比例是否与全人群的男女人数比例存在显著偏差等。基于统计的评估方法对选择偏差与信息偏差有着良好的评估效果，也可对全量数据进行评估，但这种方法对于待评估数据的数据量有着一定的要求，同时也只能得出整体数据的可靠性评估结果，无法针对每条数据形成独立的评估结果。

因此，现有的公共卫生数据可靠性评估方法分别存在一些不足，无法完全满足大数据时代针对海量数据的可靠性评估需求，需要探索一种新的方法，弥补现有方法的不足之处，更准确地对公共卫生数据的可靠性进行评估，发现更多数据可靠性问题的线索，针对获得的数据拟对多种类型的机器学习模型进行构建，覆盖简单模型、深度学习模型与集成学习模型，在各模型构建完成后，通过量化指标对各类模型的性能进行评价和横向比较，判断各类模型在公共卫生数据可靠性评估方面的适用情况，作为模型选择的依据，在必要时，将选择合适的模型进行融合，构建综合模型，以改善模型性能，提升其在真实业务场景中的实用性，因此，我们以糖尿病随访数据为研究实例，提出了一种基于机器学习的公共卫生数据可靠性评估系统。

发明内容

本发明的目的是为了解决现有技术中存在的缺点，而提出的一种基于机器学习的公共卫生数据可靠性评估系统。

为了实现上述目的，本发明采用了如下技术方案：

一种基于机器学习的公共卫生数据可靠性评估系统，包括以下阶段：数据准备阶段、特征工程阶段以及模型评估与评价阶段，所述模型评估与评价阶段包括以下步骤：

S1，采用半监督学习的方法，探索逻辑回归、支持向量机、神经网络、随机森林与XGBoost模型在公共卫生数据可靠性评估方面的应用；

S2，将半监督机器学习分为自主训练与合作训练两种模式，在总体特征可划分为两组子特征，使用合作训练通常会有更好的效果；

S3，将数据特征划分成两组子特征，并分别基于已有的带可靠性标签数据对模型进行训练，训练出两个独立的模型，两个模型采用的算法可以不同，合作训练方法为：

1)将数据特征划分成两组子特征，并分别基于已有的带可靠性标签数据对模型进行训练，训练出两个独立的模型。两个模型采用的算法可以不同；

2)每个模型分别对无标签的数据进行分类；

3)分别选择两个模型分类结果中最有把握的数据(分类概率接近0或者1)，将分类结果作为伪标签；

4)将这些带伪标签的数据分别加入另一个模型的训练集中；

重复步骤2)至4)，直到满足停止条件，得到最终模型；

S4，总体特征无法划分为两组子特征时，可使用自我训练，也可以得到性能良好的模型，自我训练的大致方法为：

1)利用具有可靠性标签的少量数据作为训练集，训练出一个初始模型；

2)利用初始模型对剩余的无可靠性标签数据进行分类，并选择其中最有把握的数据(分类概率接近0或者1)，将模型预测的分类作为这些数据的伪标签；

3)从无标签数据集中去除这些数据，将其加入有标签数据集，形成新的训练集；

4)根据新的训练集训练新的模型，取代初始模型或上一轮迭代的模型

重复步骤2)至4)，直到满足停止条件，得到最终模型；

S5，通过上述的半监督机器学习方法，在训练集上分别对拟探索的模型进行训练与构建，得到基础的数据可靠性评估模型；

S6，模型构建完成后，在验证集上对各模型进行验证，根据验证结果对学习迭代次数、学习速率等超参数进行多轮次调优，使得模型拟合程度合适。将各模型在测试集上进行测试，并计算量化评估指标，评估各模型在数据可靠性评估方面的适用情况；

S7，在超参数调整过程中加入可视化技术，使用图表直观展现模型损失值与迭代次数和学习速率之间的关系，从而寻找最优的超参数，使训练得到的模型性能尽可能令人满意；

S8，在模型的量化评价方面，拟采用混淆矩阵对各模型性能进行直观展示，并使用F1分数作为量化评价标准，F1分数兼顾了模型的准确率与召回率，是机器学习模型常用的评价指标，其公式为：

S9，根据各模型的量化评价结果，选择性能最优的模型作为最终使用的数据可靠性评估模型，如果在所有备选模型中，未能找到在全区间内性能均最优的模型(即存在多个在局部区间性能最优的模型)，则应通过模型融合的方法将多个局部最优模型进行融合，构建综合模型，提升模型在全区间内的性能，模型融合策略一般包括加权法、投票法及学习法，本研究采用学习法，通过堆叠方法，将各模型对同一条标签数据做出的可靠性评估结果作为特征，将该数据已知的可靠性情况作为标签，产生训练集并训练学习器，从而融合各模型的初步结果，产生最终的数据可靠性评估结果；

S10，完成糖尿病随访场景下的公共卫生数据可靠性评估模型的构建后，对整体实施过程进行总结，复盘该过程中的详细步骤与方法，记录注意事项和经验教训，在此基础上，脱离特定的糖尿病随访场景，归纳基于机器学习的公共卫生数据可靠性评估一般方法，并确定其适用范围，完善其数据可靠性评估效果的评价机制，形成基于机器学习的公共卫生数据可靠性评估模式，指导该方法在公共卫生领域其它业务条线和业务场景的数据可靠性评估过程中落地应用。

本发明具有以下有益效果；

1、采用半监督机器学习的方法，降低了对标签数据量的要求，同时避免构建出无法解释或无效的模型，适应公共卫生领域数据的实际情况。此外，在特征可以划分为两组子特征的情况下，将优先采用合作训练的方式，提高半监督机器学习的效率及模型性能。

2、探索并构建多种类模型，并对各模型性能进行量化评估与比较，在此基础上进行模型选择，解决了单一模型无法达到最优效果的问题，在研究过程中，还将视情况使用模型融合方法，通过若干基础模型构建综合模型，进一步提升模型的性能和实用性。

具体实施方式

下面将结合实施例对本发明中的技术方案进行清楚、完整地描述。

实施例一

本发明提出的一种基于机器学习的公共卫生数据可靠性评估系统，包括以下阶段：数据准备阶段、特征工程阶段以及模型评估与评价阶段，所述模型评估与评价阶段包括以下步骤：

2)每个模型分别对无标签的数据进行分类；

4)将这些带伪标签的数据分别加入另一个模型的训练集中；

重复步骤2)至4)，直到满足停止条件，得到最终模型；

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于机器学习的公共卫生数据可靠性评估系统，其特征在于，包括以下阶段：数据准备阶段、特征工程阶段以及模型评估与评价阶段，所述模型评估与评价阶段包括以下步骤：

2)每个模型分别对无标签的数据进行分类；

4)将这些带伪标签的数据分别加入另一个模型的训练集中；

重复步骤2)至4)，直到满足停止条件，得到最终模型；