CN113536072A

CN113536072A - 一种认知筛查数据处理建模的模型投票组合的方法及装置

Info

Publication number: CN113536072A
Application number: CN202011275969.1A
Authority: CN
Inventors: 陈智轩; 陈立典; 雷彪; 李湄珍; 陶静; 杨珊莉; 薛偕华; 吴劲松; 姚凌翔; 林腾达; 肖衍
Original assignee: Xiamen Hejia Jiannao Intelligent Technology Co ltd; Fujian University of Traditional Chinese Medicine
Current assignee: Xiamen Hejia Jiannao Intelligent Technology Co ltd; Fujian University of Traditional Chinese Medicine
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2021-10-22

Abstract

本发明提出了一种认知筛查数据处理建模的模型投票组合的方法及装置，该方法包括：采集步骤，获取用户在终端设备上输入的调查数据；预处理步骤，对所述调查数据进行预处理后得到一特征向量；处理步骤，使用多个不同的机器学习模型对所述特征向量进行投票处理得到分类结果。本发明对用户的认知筛查表的作答数据进行分析处理，作答数据全面反映了用户答题的过程，如作答时间等，还使用了多种机器模型基于投票的方式获取分类结果，从而可以防止不同模型出现在小规模数据上的偏差，提高了用户体验。

Description

一种认知筛查数据处理建模的模型投票组合的方法及装置

技术领域

本发明涉及人工智能技术领域，具体涉及一种认知筛查数据处理建模的模型投票组合的方法及装置。

背景技术

机器学习是近20多年兴起的一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论，机器学习与统计推断学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。很多推论问题属于无程序可循难度，所以部分的机器学习研究是开发容易处理的近似算法。

机器学习已经有了十分广泛的应用，例如：数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用。

现有技术中对用户进行评估，如认知功能的评估(正常、疑似MCI、疑似痴呆、主观记忆下降)主要采用纸质问卷的方式，难以采集用户作答方面的各个数据，如作答反应时间等，导致评估结果不准确。

发明内容

本发明针对上述现有技术中一个或多个技术缺陷，设计专门的硬件、软件以解决上述技术问题，并提出了如下技术方案。

一种认知筛查数据处理建模的模型投票组合的方法，该方法包括：

采集步骤，获取用户在终端设备上输入的调查数据；

预处理步骤，对所述调查数据进行预处理后得到一特征向量；

处理步骤，使用多个不同的机器学习模型对所述特征向量进行投票处理得到分类结果。

更进一步地，所述获取用户在终端设备上输入的调查数据的操作为：在所述终端设备的显示屏上向用户展示一调查问卷，获取用户针对该调查问卷的作答及作答响应时间，所述调查问卷包括N个问题，每个问题编号为QI，其中I≤N。

更进一步地，所述对所述调查数据进行预处理后得到一特征向量的操作为：对所述调查数据进行自动化数据清洗后每个问题的需采集的数据录入问答结果QI_j，其中j≤N，每个问答结果包括作答字符、作答数值、作答时间响应、空值和缺失值，所有问题的问答结果形成一数据表，每一列数值数据作为一个特征，所有的特征构成一特征向量。

更进一步地，所述多个机器学习模型为准确率最高的模型、查准率最高的模型、均衡准确率最高、召回率最高和F1值最高中的至少两个，所述使用多个机器学习模型对所述特征向量进行处理得到分类结果的操作为：构建所述至少两个不同的机器学习模型，并使用样本数据对所述至少两个不同的机器学习模型进行训练得到训练后的至少两个不同的机器学习模型，将所述特征向量分别输入到所述训练后的至少两个不同的机器学习模型输出对应的分类结果，将至少两个分类结果进行处理后得到分类结果。

更进一步地，所述将至少两个分类结果进行处理后得到分类结果的操作为：

将所述至少两个不同的机器学习模型的对应的分类概率相加，然后取最大概率的分类作为分类结果，或者，

将所述至少两个不同的机器学习模型的对应的分类概率进行加权相加，然后取最大概率的分类作为分类结果。

本发明还提出了一种认知筛查数据处理建模的模型投票组合的装置，该装置包括：

采集单元，获取用户在终端设备上输入的调查数据；

预处理单元，对所述调查数据进行预处理后得到一特征向量；

处理单元，使用多个不同的机器学习模型对所述特征向量进行投票处理得到分类结果。

本发明的技术效果在于：本发明提出了一种认知筛查数据处理建模的模型投票组合的方法及装置，该方法包括：采集步骤，获取用户在终端设备上输入的调查数据；预处理步骤，对所述调查数据进行预处理后得到一特征向量；处理步骤，使用多个不同的机器学习模型对所述特征向量进行投票处理得到分类结果。本发明对用户的调查问卷的作答数据进行分析处理，作答数据全面反映了用户答题的过程，如作答时间等，还使用了多种机器模型基于投票的方式获取分类结果，从而可以防止不同模型出现在小规模数据上的偏差。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显。

图1是根据本发明的实施例的认知筛查数据处理建模的模型投票组合的方法的流程图。

图2是根据本发明的实施例的认知筛查数据处理建模的模型投票组合的装置的示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了本发明的认知筛查数据处理建模的模型投票组合的方法，该方法包括：

采集步骤S101，获取用户在终端设备上输入的调查数据；具体地，所述获取用户在终端设备上输入的调查数据的操作为：在所述终端设备的显示屏上向用户展示一调查问卷，获取用户针对该调查问卷的作答及作答响应时间，所述调查问卷包括N个问题，每个问题编号为QI，其中I≤N。

本发明设计的调查问卷也称为采集量表，其采集的数据形态包括字符、数值、时间响应、空值和缺失值，设计的N个问题包含图形、调查问答、响应时间等量表问题。

本发明所使用的用户终端可以是智能手机、智能平板、笔记本电脑等等，具有网络连接、显示、输入功能的机器设备。

预处理步骤S102，对所述调查数据进行预处理后得到一特征向量。

在一个实施例中，所述对所述调查数据进行预处理后得到一特征向量的操作为：对所述调查数据进行自动化数据清洗后每个问题的需采集的数据录入问答结果QI_j，其中j≤N，每个问答结果包括作答字符、作答数值、作答时间响应、空值和缺失值，所有问题的问答结果形成一数据表，每一列数值数据作为一个特征，所有的特征构成一特征向量。本发明所采用的自动化数据清洗的清洗方案包括“one-hot编码”、缺失值补-1，0/1编码，将所有的量表采集的处理后为数值数据，处理为数值数据是便于处理，处理速度较快。

处理步骤S103，使用多个不同的机器学习模型对所述特征向量进行投票处理得到分类结果。

在一个实施例中，所述多个机器学习模型为准确率最高的模型、查准率最高的模型、均衡准确率最高、召回率最高和F1值最高中的至少两个，所述使用多个机器学习模型对所述特征向量进行处理得到分类结果的操作为：构建所述至少两个不同的机器学习模型，并使用样本数据对所述至少两个不同的机器学习模型进行训练得到训练后的至少两个不同的机器学习模型，将所述特征向量分别输入到所述训练后的至少两个不同的机器学习模型输出对应的分类结果，将至少两个分类结果进行处理后得到分类结果。

优选地，比如，所述多个机器学习模型的个数为三个，所述使用多个机器学习模型对所述特征向量进行处理得到分类结果的操作为：构建三个不同的机器学习模型，并使用样本数据对所述三个不同的机器学习模型进行训练得到训练后的三个不同的机器学习模型，将所述特征向量分别输入到所述训练后的三个不同的机器学习模型输出对应的分类结果，将三个分类结果进行处理后得到分类结果。

在一种示例性的说明中，本发明实施例中使用的3个Top的AI模型，其结构如下所述。

AI模型1结构：Input→LogisticRegression，对应数据项训练产生的参数：neuralLogisticRegression_op 1C。

AI模型2结构：Input→ExtraTreesClassifier，对应数据项训练产生的参数：neural ExtraTreesClassifier op 1n_estimators、neural ExtraTreesClassifier_op1max_leaf_nodes、neural ExtraTreesClassifier_op 1max_depth、neuralExtraTreesClassifier_op 1oob_score。

AI模型3结构：Input→FactorAnalysis→ExtraTreesClassifier，对应数据项训练产生的参数：neural FactorAnalysis_op 1n_components、neuralExtraTreesClassifier_op 2n_estimators、neural ExtraTreesClassifier_op2max_leaf_nodes、neural ExtraTreesClassifier_op 2max_depth、neuralExtraTreesClassifier_op 2oob_score。

本发明中的模型是通过应用了自动投票组合模型后得到的模型，可以是准确率最高的模型、查准率最高的模型、均衡准确率最高、召回率最高和F1值最高的等模型中任意多个模型组成的投票模型，用于调查数据的投票处理。

本发明所使用的机器学习模型为卷积神经网络模型，深度神经网络模型，对抗网络模型等等，或者是同类型结构不同或参数不同的网络模型。

各种机器学习模型在使用前，需要对其进行训练，先获取带标签的样本数据，用户所处于的标签类型，快筛(认知功能正常、疑似MCI、疑似痴呆)，初诊(认知功能正常、疑似MCI、疑似痴呆、主观记忆下降)等，使用样本数据对机器学习模型进行训练后使用。训练好的机器学习模型存储后，通过调用API，调用已经训练好的机器学习模型，进行数据的处理。

本发明中，可以在服务器也可以在终端本身进行使用多个不同的机器学习模型对所述特征向量进行处理得到分类结果，如果机器学习模型较大，一般在服务器上进行，一般来说模型的训练一般在服务器上训练，训练后可以在服务器或者发送到终端进行使用。

在一个实施例中，所述将至少两个分类结果进行处理后得到分类结果的操作为：将所述至少两个不同的机器学习模型的对应的分类概率相加，然后取最大概率的分类作为分类结果，或者，将所述至少两个不同的机器学习模型的对应的分类概率进行加权相加，然后取最大概率的分类作为分类结果，所述分类结果显示在用户终端的界面上，供用户查看。

本方法对用户的调查问卷的作答数据进行分析处理，作答数据全面反映了用户答题的过程，如作答时间等，还使用了多种机器模型基于投票的方式获取分类结果，从而可以防止不同模型出现在小规模数据上的偏差，这是本发明的重要发明点。

图2示出了本发明的认知筛查数据处理建模的模型投票组合的装置，该装置包括：

采集单元201，获取用户在终端设备上输入的调查数据；具体地，所述获取用户在终端设备上输入的调查数据的操作为：在所述终端设备的显示屏上向用户展示一调查问卷，获取用户针对该调查问卷的作答及作答响应时间，所述调查问卷包括N个问题，每个问题编号为QI，其中I≤N。

预处理单元202，对所述调查数据进行预处理后得到一特征向量。

处理单元203，使用多个不同的机器学习模型对所述特征向量进行投票处理得到分类结果。

本发明中的模型是通过应用了自动投票组合模型后得到的模型，可以是准确率最高的模型、查准率最高的模型、均衡准确率最高、召回率最高和F1值最高的等模型中任意多个模型组成的投票模型，用于调查数据的投票处理。本发明所使用的机器学习模型为卷积神经网络模型，深度神经网络模型，对抗网络模型等等，或者是同类型结构不同或参数不同的网络模型。

本装置对用户的调查问卷的作答数据进行分析处理，作答数据全面反映了用户答题的过程，如作答时间等，还使用了多种机器模型基于投票的方式获取分类结果，从而可以防止不同模型出现在小规模数据上的偏差，这是本发明的重要发明点。

本发明的为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的装置。

最后所应说明的是：以上实施例仅以说明而非限制本发明的技术方案，尽管参照上述实施例对本发明进行了详细说明，本领域的普通技术人员应当理解：依然可以对本发明进行修改或者等同替换，而不脱离本发明的精神和范围的任何修改或局部替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种认知筛查数据处理建模的模型投票组合的方法，其特征在于，该方法包括：

采集步骤，获取用户在终端设备上输入的调查数据；

2.根据权利要求1所述的方法，其特征在于，所述获取用户在终端设备上输入的调查数据的操作为：在所述终端设备的显示屏上向用户展示一调查问卷，获取用户针对该调查问卷的作答及作答响应时间，所述调查问卷包括N个问题，每个问题编号为QI，其中I≤N。

3.根据权利要求2所述的方法，其特征在于，所述对所述调查数据进行预处理后得到一特征向量的操作为：对所述调查数据进行自动化数据清洗后每个问题的需采集的数据录入问答结果QI_j，其中j≤N，每个问答结果包括作答字符、作答数值、作答时间响应、空值和缺失值，所有问题的问答结果形成一数据表，每一列数值数据作为一个特征，所有的特征构成一特征向量。

4.根据权利要求3所述的方法，其特征在于，所述多个机器学习模型为准确率最高的模型、查准率最高的模型、均衡准确率最高、召回率最高和F1值最高中的至少两个，所述使用多个机器学习模型对所述特征向量进行处理得到分类结果的操作为：构建所述至少两个不同的机器学习模型，并使用样本数据对所述至少两个不同的机器学习模型进行训练得到训练后的至少两个不同的机器学习模型，将所述特征向量分别输入到所述训练后的至少两个不同的机器学习模型输出对应的分类结果，将至少两个分类结果进行处理后得到分类结果。

5.根据权利要求4所述的方法，其特征在于，所述将至少两个分类结果进行处理后得到分类结果的操作为：

6.一种认知筛查数据处理建模的模型投票组合的装置，其特征在于，该装置包括：

采集单元，获取用户在终端设备上输入的调查数据；

7.根据权利要求6所述的装置，其特征在于，所述获取用户在终端设备上输入的调查数据的操作为：在所述终端设备的显示屏上向用户展示一调查问卷，获取用户针对该调查问卷的作答及作答响应时间，所述调查问卷包括N个问题，每个问题编号为QI，其中I≤N。

8.根据权利要求7所述的装置，其特征在于，所述对所述调查数据进行预处理后得到一特征向量的操作为：对所述调查数据进行自动化数据清洗后每个问题的需采集的数据录入问答结果QI_j，其中j≤N，每个问答结果包括作答字符、作答数值、作答时间响应、空值和缺失值，所有问题的问答结果形成一数据表，每一列数值数据作为一个特征，所有的特征构成一特征向量。

9.根据权利要求8所述的装置，其特征在于，所述多个机器学习模型为准确率最高的模型、查准率最高的模型、均衡准确率最高、召回率最高和F1值最高中的至少两个，所述使用多个机器学习模型对所述特征向量进行处理得到分类结果的操作为：构建所述至少两个不同的机器学习模型，并使用样本数据对所述至少两个不同的机器学习模型进行训练得到训练后的至少两个不同的机器学习模型，将所述特征向量分别输入到所述训练后的至少两个不同的机器学习模型输出对应的分类结果，将至少两个分类结果进行处理后得到分类结果。

10.根据权利要求9所述的装置，其特征在于，所述将至少两个分类结果进行处理后得到分类结果的操作为：