CN116028870B

CN116028870B - 一种数据检测的方法、装置、电子设备及存储介质

Info

Publication number: CN116028870B
Application number: CN202310316272.1A
Authority: CN
Inventors: 洪永婷; 张佳翊; 梁伟; 史磊; 温博; 李永鹏
Original assignee: BOE Art Cloud Suzhou Technology Co Ltd
Current assignee: BOE Art Cloud Suzhou Technology Co Ltd
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2023-06-13
Anticipated expiration: 2043-03-29
Also published as: CN116028870A

Abstract

本申请提供了一种数据检测的方法、装置、电子设备及存储介质，该方法包括：根据预设的多个类型的清洗标准对原始数据进行清洗，得到清洗后的待检测数据；根据待检测数据的数量和预设的数量阈值，使用对应的目标分类模型对待检测数据进行分类，得到初选有效数据；根据初选有效数据中包含的用户标识，确定各个用户对应的初选有效数据；若存在目标用户对应有多个连续检测的目标初选有效数据，根据目标初选有效数据所在组内其他初选有效数据，确定出终选有效数据；响应针对终选有效数据的确认操作，在所述终选有效数据确认有效时，根据终选有效数据生成指导意见。本申请方法能够有效去除原始数据中的无效数据，使得生成的指导意见更加的准确。

Description

一种数据检测的方法、装置、电子设备及存储介质

技术领域

本申请涉及数据检测技术领域，具体而言，涉及一种数据检测的方法、装置、电子设备及存储介质。

背景技术

电子视力表是儿童青少年可实现随时随地自测视力的便捷视力产品。为了关注用户视力变化，适时提醒用户保护视力健康，通过获取视力检测记录以及用屏时长等数据，跟踪用户的用眼习惯和视力变化，分析用户视力变化的周期和可能原因，并对视力不良风险上升的用户进行护眼提醒，培养用户持续使用护眼产品的习惯，持续使用的用户群体往往也会更加重视视力变化并注重眼健康。如此正向循环模式下的电子视力表应用为提升产品定位群体对视力健康的关注度具有显著意义。

通过电子视力表检测得到的数据对于厂商对于产品升级和科研等项目具有重要意义。但是电子视力表得到的数据中存在异常数据或者无效数据，如果不对这些数据进行区分的话，将会对产品升级和科研工作带来负面的影响，所以对于电子视力表的数据进行检测是非常有必要的。

发明内容

有鉴于此，本申请的目的在于提供一种数据检测的方法、装置、电子设备及存储介质，以克服现有技术中的问题。

第一方面，本申请实施例提供了一种数据检测的方法，通过终端设备提供一图形用户界面，所述方法包括：

针对所有用户通过电子视力表检测得到的原始数据，根据预设的多个类型的清洗标准对所述原始数据进行清洗，得到清洗后的待检测数据；

根据所述待检测数据的数量和预设的数量阈值，使用与该待检测数据对应的目标分类模型对所述待检测数据的有效率性进行分类，得到所述待检测数据的分类结果；所述分类结果包括初选有效数据和无效数据；

根据所述初选有效数据中包含的用户标识，确定各个用户对应的所述初选有效数据；若存在任一目标用户对应有多个连续检测的目标初选有效数据，根据所述目标初选有效数据所在组内其他初选有效数据，对该目标用户的多个目标初选有效数据进行筛选，确定出所述目标用户的终选有效数据，并在所述图形用户界面显示所述终选有效数据；

响应用户针对所述终选有效数据的确认操作，在所述终选有效数据确认有效时，通过对各个用户的终选有效数据进行分析，为后续工作生成指导意见。

在本申请一些技术方案中，上述目标分类模型为分类预测模型，所述分类预测模型为组合学习器，所述组合学习器包括多个子学习器；

所述根据所述待检测数据的数量和预设的数量阈值，使用与该待检测数据对应的目标分类模型对所述待检测数据的有效率性进行分类，包括：

若所述待检测数据的数量大于等于预设的数量阈值，使用各个子学习器分别对所述待检测数据的有效率性进行判断；

根据各个子学习器的判断结果，对所述待检测数据的有效率性进行分类。

在本申请一些技术方案中，上述方法通过以下方式得到所述分类预测模型：

获取训练数据，并根据所述训练数据中首检眼别数据，将所述训练数据划分为正样本数据和负样本数据；

根据预设的宽表列表中包含的各个特征，分别确定出所述正样本数据和所述负样本数据中包含的初始特征数据，并从所述初始特征数据中筛选出目标特征数据；

根据所述正样本数据的目标特征数据和所述负样本数据的目标特征数据，构建多个训练样本；

使用各个训练样本生成对应的决策树，并使用决策树对初始学习器进行训练，得到该决策树对应的子学习器；

对各个所述决策树对应的子学习器进行整合，得到所述分类预测模型。

在本申请一些技术方案中，上述目标分类模型为距离计算模型，所述根据所述待检测数据的数量和预设的数量阈值，使用与该待检测数据对应的目标分类模型对所述待检测数据的有效率性进行分类，包括：

若所述待检测数据的数量小于预设的数量阈值，使用预设的所述距离计算模型计算所述待检测数据与预设的对比样本数据之间的距离；

根据所述待检测数据与预设的目标对比样本数据之间的距离，对所述待检测数据的有效率性进行分类。

在本申请一些技术方案中，上述方法通过以下方式得到所述距离计算模型：

获取多组训练数据，并计算各组所述训练数据的中心数据与初始计算模型中初始对比样本数据之间的距离；

根据该组中心数据的训练属性的类型，对初始对比样本数据进行调整，直至所述中心数据与初始计算模型中初始对比样本数据之间的距离小于等于预设的距离阈值，得到目标对比样本数据；

将包含有目标对比样本数据的计算模型作为所述距离计算模型。

在本申请一些技术方案中，上述根据所述目标初选有效数据所在组内其他初选有效数据，对该目标用户的多个目标初选有效数据进行筛选，确定出所述目标用户的终选有效数据，包括：

根据所述目标初选有效数据所在组内其他初选有效数据，确定出异常临界值；

将所述目标初选有效数据中未超过所述异常临界值的数据作为第一再选有效数据，并从所述第一再选有效数据中，确定出所述目标用户的终选有效数据；

响应针对所述目标初选有效数据中超过所述异常临界值数据的确认操作，确定超过所述异常临界值数据是否为有效数据。

在本申请一些技术方案中，上述从所述第一再选有效数据中，确定出所述目标用户的终选有效数据，包括；

根据所述目标初选有效数据所在组内其他初选有效数据中各个视标对应的迟疑时长，确定出所述目标初选有效数据所在的组对应的迟疑时长变异系数值；

根据各个所述目标初选有效数据中各个视标对应的迟疑时长和所述迟疑时长变异系数值，确定该目标初选有效数据的波动系数阈值；

将所述第一再选有效数据中未超过所述波动系数阈值的数据作为第二再选有效数据，并从所述第二再选有效数据中，确定出所述目标用户的终选有效数据；

响应针对所述第一再选有效数据中超过所述波动系数阈值数据的确认操作，确定超过所述波动系数阈值数据是否为有效数据。

在本申请一些技术方案中，上述所述第二再选有效数据中，确定出所述目标用户的终选有效数据，包括：

若所述第二再选有效数据与历史有效数据同眼别最值差小于预设置信阈值且与最近一次历史有效数据的时间间隔小于预设的时间区间，将该第二再选有效数据作为所述目标用户的终选有效数据；

否则，响应针对第二再选有效数据的确认操作，确定所述第二再选有效数据是否有效。

第二方面，本申请实施例提供了一种数据检测的装置，所述装置包括：

清洗模块，用于针对所有用户通过电子视力表检测得到的原始数据，根据预设的多个类型的清洗标准对所述原始数据进行清洗，得到清洗后的待检测数据；

第一筛选模块，用于根据所述待检测数据的数量和预设的数量阈值，使用与该待检测数据对应的目标分类模型对所述待检测数据的有效率性进行分类，得到所述待检测数据的分类结果；所述分类结果包括初选有效数据和无效数据；

第二筛选模块，用于根据所述初选有效数据中包含的用户标识，确定各个用户对应的所述初选有效数据；若存在任一目标用户对应有多个连续检测的目标初选有效数据，根据所述目标初选有效数据所在组内其他初选有效数据，对该目标用户的多个目标初选有效数据进行筛选，确定出所述目标用户的终选有效数据，并在所述图形用户界面显示所述终选有效数据；

分析模块，用于响应用户针对所述终选有效数据的确认操作，在所述终选有效数据确认有效时，通过对各个用户的终选有效数据进行分析，为后续工作生成指导意见。

第三方面，本申请实施例提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的数据检测的方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述的数据检测的方法的步骤。

本申请的实施例提供的技术方案可以包括以下有益效果：

本申请方法包括针对所有用户通过电子视力表检测得到的原始数据，根据预设的多个类型的清洗标准对所述原始数据进行清洗，得到清洗后的待检测数据；根据所述待检测数据的数量和预设的数量阈值，使用与该待检测数据对应的目标分类模型对所述待检测数据的有效率性进行分类，得到所述待检测数据的分类结果；所述分类结果包括初选有效数据和无效数据；根据所述初选有效数据中包含的用户标识，确定各个用户对应的所述初选有效数据；若存在任一目标用户对应有多个连续检测的目标初选有效数据，根据所述目标初选有效数据所在组内其他初选有效数据，对该目标用户的多个目标初选有效数据进行筛选，确定出所述目标用户的终选有效数据，并在所述图形用户界面显示所述终选有效数据；响应用户针对所述终选有效数据的确认操作，在所述终选有效数据确认有效时，通过对各个用户的终选有效数据进行分析，为后续工作生成指导意见。本申请对用户通过电子视力表检测得到的原始数据进行清洗，得到待检测数据，然后对待监测数据进行两次判断过程，从待检测数据中确定出终选有效数据，最后使用终选有效数据生成指导意见；通过本申请方法能够有效去除原始数据中的无效数据，使得生成的指导意见更加的准确。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种数据检测的方法的流程示意图；

图2示出了本申请实施例所提供的第一种实施例示意图；

图3示出了本申请实施例所提供的第二种实施例示意图；

图4示出了本申请实施例所提供的第三种实施例示意图；

图5示出了本申请实施例所提供的一种数据检测的装置的示意图；

图6为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

基于此，本申请实施例提供了一种数据检测的方法、装置、电子设备及存储介质，下面通过实施例进行描述。

图1示出了本申请实施例所提供的一种数据检测的方法的流程示意图，其中，通过终端设备提供一图形用户界面，该方法包括步骤S101-S104；具体的：

S101、针对所有用户通过电子视力表检测得到的原始数据，根据预设的多个类型的清洗标准对所述原始数据进行清洗，得到清洗后的待检测数据；

S102、根据所述待检测数据的数量和预设的数量阈值，使用与该待检测数据对应的目标分类模型对所述待检测数据的有效率性进行分类，得到所述待检测数据的分类结果；所述分类结果包括初选有效数据和无效数据；

S103、根据所述初选有效数据中包含的用户标识，确定各个用户对应的所述初选有效数据；若存在任一目标用户对应有多个连续检测的目标初选有效数据，根据所述目标初选有效数据所在组内其他初选有效数据，对该目标用户的多个目标初选有效数据进行筛选，确定出所述目标用户的终选有效数据，并在所述图形用户界面显示所述终选有效数据；

S104、响应用户针对所述终选有效数据的确认操作，在所述终选有效数据确认有效时，通过对各个用户的终选有效数据进行分析，为后续工作生成指导意见。

本申请对用户通过电子视力表检测得到的原始数据进行清洗，得到待检测数据，然后对待监测数据进行两次判断过程，从待检测数据中确定出终选有效数据，最后使用终选有效数据生成指导意见；通过本申请方法能够有效去除原始数据中的无效数据，使得生成的指导意见更加的准确。

下面对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

本申请实施例提供一种数据检测的方法，用于对电子视力表。电子视力表又称为电子视力检查仪，包括多个视标，用户通过观察视标是否清楚能够确定出用户的视力情况。本申请的电子视标表还包括有摄像机、距离传感器等数据采集装置，通过这些数据采集装置对用户在进行视力测试时的相关数据进行采集。例如，通过距离传感器采集用户与电子视力表之间的距离。本申请实施例中的电子视力表还包括有数据反馈模块，用户通过数据反馈模块能够向电子视力表中输入相关数据。例如，用户在通过视力检测之后将自己的用户标识（身份证号、姓名等）、年龄、性别等信息输入电子视力表中。用户通过电子视力表进行一次视力测试，电子视力表保存该次视力测试的原始数据。这里的原始数据包括了电子视力表采集的数据和用户反馈的数据。例如，原始数据包括用户标识、年龄、性别、左眼视力、右眼视力、每个视标的测试情况等。这里视标的测试情况包括了测试时长、迟疑时长、是否回答正确等。

在通过上述方式得到了用户通过电子视力表检测得到的原始数据之后，由于用户在测试的过程中存在不规范等因素，导致原始数据中存在一些无效数据。如果直接使用原始数据进行后续分析的话，将会得到不够准确的分析结果。所以本申请实施例需要对原始数据进行筛选，从原始数据中将无效数据进行剔除，得到原始数据中的终选有效数据。对终选有效数据进行后续分析能够得到更加准确的分析结果。

针对用户通过电力视力表检测得到的原始数据，本申请实施例先对该原始数据进行了清洗，通过对原始数据进行清洗能够排除原始数据中较为明显的无效数据。在对原始数据进行清洗时，本申请实施例根据历史工作经验预先设置了多个类型的清洗标准，根据这些清洗标准对原始数据进行清洗，得到清洗后的待检测数据。这里的清洗标准包括了设备角度、完整标准、年龄标准、距离标准和视力标准。这里的设备角度表征用户在视力检测时的设备的使用角度。若角度不规范，则数据无效。完整标准表征的是完整走完视力测试整个流程。如果原始数据仅是完整流程中的部分数据的话，直接进行剔除。这里的年龄标准表征的是用户的年龄大小，本申请实施例认为小于一定年龄阈值的用户没有自主能力，不具有遵循指令完成视力检测的能力，所以本申请实施例将剔除小于年龄阈值用户的原始数据。这里的距离标准表征的是用户在进行视力测试是距离电子视力表的距离，本申请实施例认为未按照预设的距离标准进行测试的数据是无效的。这里的视力标准表征的是用户的视力情况，本申请实施例认为如果若戴镜视力值较低的话，该用户的戴镜视力记录是无意义的，需剔除。

在具体实施的时候，本申请实施例中的清理标准可以如下实施：剔除无效检测记录。无效检测记录即为检测未完成记录。剔除年龄小于3岁用户群。视力表用户需要能遵指令完成视标选择，本分析认为3岁及以下没有遵指令完成视力检测的能力。剔除测距非2.5m的检测记录。本申请实施例认为2.5m是一个标准的检查距离，在未按照该距离进行检测时的数据不够准确。考虑到一般情况下视力矫正用户进行戴镜视力检测是由于裸眼视力值偏低所以仅需要戴镜测视力即可。正常情况下戴镜测视力不会出现用户不自知视力风险较高的情况，所以本申请实施例会剔除戴镜测视力值小于4.8的记录。

在通过对原始数据进行清洗得到了待检测数据之后，本申请实施例还需要对待监测数据进行判断。在对待检测数据进行判断的时候，本申请实施例为了进一步提高判断的准确性，本申请实施例根据待监测数据的数量为该待检测数据匹配了与之数量对应的目标分类模型。也就是说，本申请实施例中对于不同数量的待检测数据，使用了不同的目标分类模型进行处理。

本申请实施例中的目标分类模型包括了分类预测模型和距离计算模型。当待检测数据的数量大于等于预设的数量阈值时，使用分类预测模型进行处理。当待检测数据的数量小于预设的数量阈值时，使用距离计算模型进行处理。

本申请实施例中的分类预测模型为一个组合学习器，该组合学习器中包含有多个子学习器。在使用分类预测模型对待监测数据进行处理时，将待检测数据输入到分类预测模型中，分类预测模型使用多个子学习器分别对待检测数据的有效性进行判断，得到各个子学习器的判断结果。根据各个子学习器的判断结果，确定出待检测数据的有效性。在确定待检测数据的有效性时，可以根据各个子学习器判断结果的数量进行确定，也可以根据不同子学习器对应的权重进行确定。例如，分类预测模型中包括了十个子学习器，其中，八个子学习器的判断结果是有效，两个子学习器的判断结果是无效；则分类预测模型输出的结果为该待检测数据有效。再例如，分类预测模型中有三个子学习器，其中，A学习器的权重为3，B学习器的权重为1，C学习器的权重为5。A学习器和B学习器的输出结果为有效，C学习器的输出结果为无效，由于C学习器的权重较A学习器和B学习器相加权重高，则分类预测模型的输出结果为无效。

本申请实施里中的分类预测模型是通过训练得到的，对于分类预测模型的训练过程如图2所示：获取训练数据，并根据所述训练数据中首检眼别数据，将所述训练数据划分为正样本数据和负样本数据；根据预设的宽表列表中包含的各个特征，分别确定出所述正样本数据和所述负样本数据中包含的初始特征数据，并从所述初始特征数据中筛选出目标特征数据；根据所述正样本数据的目标特征数据和所述负样本数据的目标特征数据，构建多个训练样本；使用各个训练样本生成对应的决策树，并使用决策树对初始学习器进行训练，得到该决策树对应的子学习器；对各个所述决策树对应的子学习器进行整合，得到所述分类预测模型。

在对样本数据进行划分的时候，主要依据首检眼别数据。本申请实施例认为不同年龄段不同视力等级的检测状态和检测用时会不同，且一次检测左右眼检测流程一致，正负样本的区别点主要在于首检眼别数据，所以正负类样本分别按照不同年龄段用户不同视力等级的首检眼别数据划分群体。比如3-5岁用户首检眼别是4.0-5.1视力等级眼数分别作为单个群体；6岁及以上用户视力在4.0-5.1不同等级眼数分别作为单个群体等。构建正负样本集合表示年龄段为i视力等级为j的样本集合，分别表示3-5岁，6岁+，分别表示视力等级4.0，…,5.1。

本申请实施例中正样本特征：检测过程操作规范，顺畅完成检测。负样本特征：整体检测较为随意，未能完全按规范操作。在得到了正负样本之后，本申请还需要对正负样本的特征进行提取。在对正负样本进行特征提取时，本申请实施例设置了宽表列表（宽表：把多个维度的字段都放在一张表存储，列表，是一种对象集合；宽表列表表征很多个存储表的集合），通过将正负样本数据与宽表列表进行计算，确定出该正负样本对应的初始特征数据。这里的宽表列表中的特征包括了：正负样本标签，检测id，视标选择个数，首个视标是否答错，首个视标选择迟疑时长占比，第二个视标选择迟疑时长占比，第三个视标选择迟疑时长占比，右眼检测时长，检测时长，平均视标迟疑时长，视标迟疑时长中位数，视标迟疑时长最大值，视标迟疑时长最小值，检测过程中检测距离不规范提醒次数，看不清视标个数占比，答错非看不清视标个数占比，答错或者看不清视标个数占比等。在得到了正负样本数据的初始特征数据之后，考虑到特征之间的相关性以及各个特征对于后续训练模型的重要程度，本申请实施例需要通过相关性分析，从初始特征数据中确定出目标特征数据。进而通过特征重要程度的计算，简化模型分析的待输入特征。具体的，本申请实施例使用xgboost算法从初始特征数据中筛选出N个目标特征数据。

在得到目标特征数据（即图2中单样本集合Uk）之后，需要构建训练样本。在构建训练样本时，本申请实施例使用变体的Extra trees算法从Uk中构建出多个训练样本。具体的训练样本数量可以根据工作需要具体确定。在构建出各个训练样本之后，生成该训练样本的CART决策树，使用CART决策树对初始学习器进行训练得到该决策树对应的子学习器（图2中的C1学习器、C2学习器……Cn学习器）。之后在将各个学习器整合在一起生成一个组合学习器，该组合学习器即本申请实施例中的分类预测模型。

本申请实施例中在使用距离计算模型对待监测数据进行处理时，将待检测数据输入到距离计算模型中，距离计算模型计算待检测数据与预设的目标对比样本数据之间的距离。这里的目标对比样本数据包括了目标对比正样本和目标对比负样本。通过计算待检测数据与目标对比正样本之间的距离和待检测数据与目标对比负样本之间的距离，能够确定出该待检测数据的有效性。如果待检测数据与目标对比正样本之间的距离大于待检测数据与目标对比负样本之间的距离，则待检测数据距离目标对比正样本较近，本申请实施例认为该待检测数据为有效。如果待检测数据与目标对比正样本之间的距离小于待检测数据与目标对比负样本之间的距离，则待检测数据距离目标对比负样本较近，本申请实施例认为该待检测数据为无效。如果待检测数据与目标对比正样本之间的距离等于待检测数据与目标对比负样本之间的距离，则需要人工进行判断，确定该待检测数据的有效性。

在具体计算距离的时候，本申请实施例首先利用中心定理计算每组正负样本组内的中心A1（向量：

）和B1（向量：/>

），然后计算待分类样本点X（向量：/>

）和A1，B1的1-abs(余弦相似度)以及标准化欧式距离值，取两者最小值作为最终‘距离’值。若与A1的‘距离’近，则待分类点归属正样本，若与B1的‘距离’近，则待分类点归属负样本。最终‘距离值’计算方法如下：

N维空间的余弦相似度计算公式如下，以A1计算为例：

标准化的欧式距离值公式：

其中，

为 A1和X对应的方差。

则最终距离值计算公式为：

综上模型输出待分类样本归属类别，若归属正样本类别则属有效样本，否则为无效样本。

本申请实施例中的距离计算模型是通过训练得到的，具体包括使用训练数据对初始计算模型进行训练，满足截止条件时得到距离计算模型。对初始计算模型训练的过程，即对于初始计算模型中初始对比样本数据调整的过程。计算训练数据的中心数据（中心点对应的数据）与初始对比样本数据之间的距离。这里的中心数据的训练属性的类型是已知的，即中心数据是正样本数据还是负样本数据。根据中心数据的样本类型与中心数据与初始对比样本数据之间的距离，对初始样本数据进行调整。直至所述中心数据与初始计算模型中初始对比样本数据之间的距离小于等于预设的距离阈值，得到目标对比样本数据；此时包含有目标对比样本数据的计算模型为距离计算模型。

在通过目标分类模型对待监测数据的有效性进行分类之后，得到待检测数据的分类结果，这里的分类结果将待检测数据分为了初选有效数据和无效数据。对于此次分类得到的无效数据需要进行用户确认，即在分类结果包括初选无效数据时，所述方法还包括：在图形用户界面显示所述初选无效数据，响应针对初选无效数据的确认操作，若所述初选无效数据被确认为有效数据则将该初选无效数据修改为初选有效数据，并进行后续操作；若初选无效数据被确认为无效数据，进行剔除即可。而对于初选有效数据来说，可能存在一个用户对应有多个目标初选有效数据的情况，所以本申请实施例需要对初选有效数据再次进行筛选。这里一个用户对应有多个目标初选有效数据是由于模型在进行训练的时候是对由同一视力等级的单眼检测样本数据训练得到的，导致保存了用户不同视力等级的数据；还可能是由于用户既有裸眼测试数据又有戴镜测试数据导致（正常情况下戴镜测视力值>=裸眼测视力值）的。

根据初选有效数据中包含的用户标识，确定出各个用户对应的所有的初选有效数据，并进行统计。如果任一目标用户仅对应有一个目标初选有效数据的话，则将该目标用户对应的这一个目标初选有效数据作为该目标用户的终选有效数据。如果任一目标用户对应有多个连续检测的目标初选有效数据的话，需要从多个目标初选有效数据中为该目标用户筛选出终选有效数据。这里的连续检测表征的是在预设的时间段进行检测，例如设置的检测时间段为一个月，则用户在一月一号的检测数据和二月一号的检测数据则为连续检测得到的。若多次检测含戴镜和裸眼两种检测，剔除戴镜值小于裸眼值的戴镜记录。在对在对裸眼和戴镜进行区分时，本申请是根据目标初选有效数据所在组内其他初选有效数据进行的。这里的组如上述模型训练过程一样是根据用户的年龄和视力情况进行区分的。例如，将十岁、4.0-4.0的初选有效数据分为一组。

在从多个目标初选有效数据中为该目标用户筛选出终选有效数据包括了三个阶段，如图4所示：

第一阶段为组内异常值检测，包括：根据所述目标初选有效数据所在组内其他初选有效数据，确定出异常临界值；

具体的，在进行组内异常值检测时，利用异常值检测方法来剔除异常记录。判断指标包括总检测时长，右眼检测时长与左眼检测时长比例值。根据如上正样本计算同一年龄段同一视标等级异常检测时长临界值，剔除临近10%以内的异常记录。根据如上正样本计算同一年龄段右眼检测时长与左眼检测时长比例值的异常临界值，剔除临近10%以内的异常记录。判断指标包括总检测时长(total_dur)，右眼检测时长与左眼检测时长比例值(rt_lf_dur_tr)。根据如上正样本对同一年龄段同视力组合样本t计算指标total_dur的异常临界值，对于临近上下10%以内的异常记录，即大于

或小于

的即检记录（最近一次检测记录），需要用户判断该记录是否准确。

；

。

根据如上正样本对同一年龄段同视力组合样本集k计算指标rt_lf_dur_tr的异常临界值，对于临近上下10%以内的异常记录，需要用户判断该记录是否准确。

；

。

第二阶段为组内波动系数判定，针对第一再选有效数据中，包括：

在具体实施时，本申请实施例对于视标选择大于3个视标的检测记录，利用首检第一个视标迟疑时长占比

，第二个视标迟疑时长占比/>

，第三个视标迟疑时长占比/>

和迟疑时长变异系数值/>

计算加权的波动系数，若波动系数大于等于0.5，则需要用户判断该记录是否准确。波动系数/>

计算如下：

通过计算出各个目标初选有效数据的波动系数，将对应最小波动系数的初选有效数据作为终选有效数据。

第三阶段为置信判定，针对第二再选有效数据，包括：若所述第二再选有效数据与历史有效数据同眼别最值差小于预设置信阈值且与最近一次历史有效数据的时间间隔小于预设的时间区间，将该第二再选有效数据作为所述目标用户的终选有效数据；否则，响应针对第二再选有效数据的确认操作，确定所述第二再选有效数据是否有效。

在具体实施的时候，根据眼视光业内专家经验判断以及视力风险等级划分（间隔0.2一个等级）标准，本分析考虑如下划分阈值设定为

。如果多次有效视力值同眼别最值差距小于/>

，保留最近一次有效检测记录。如果多次视力值同眼别最值差距大于等于/>

，保留最接近同眼别均值的视力记录。

如果即检记录与历史有效视力值同眼别最值差小于

，且与最近一次记录时间差小于等于连续时间区间，则即检记录为有效记录，否则需用户判定即检记录是否有效。对于有戴镜记录的用户，若即检裸眼视力值大于历史有效戴镜视力值，则需要用户判断记录是否准确。/>

在得到了各个用户的终选有效数据之后，还需要用户进行最后的确认操作。本申请实施例就从原始数据中去除了所有的无效数据，通过对终选有效数据进行分析，能够为后续的工作生成指导性意见。这里的后续工作包括了电子视力表的升级、对用户进行用眼分析等。通过对终选有效数据进行分析能够为电子视力表的升级，提供参考；还能够为用户的提供用眼建议等。

作为一种可选的实施例，在具体实施时如图3所示，包括异常值判断-模型选择-置信判断-入库-分析。

实时有效检测数据获取步骤：

1）异常值判断：对实时完成检测的记录（即检记录），对单眼检测时长和单视标检测时长进行异常值判断，若在异常区间内，则产品界面提醒用户本次检测检测时长异常，用户自行判断是否保存本次记录。

2）模型选择：对异常判断检测为正常的记录，根据记录视力值判断预测模型选择。通过分类预测模型或者距离度量模型进行结果预测，若预测为有效记录，则到下一步置信判断。若预测为无效的记录，则界面提醒用户本次检测记录无效，提醒用户重新检测。

3）置信判断：对预测为有效的记录，若该实时检测记录是用户首次检测记录，可直接入库。若该实时检测记录不是首次有效检测记录，会根据用户的历史的有效检测记录（装置的第一方面检测结果输出）综合判断本次记录的有效性。综合判定方法：和历史最近一次有效检测在一定时间范围内（比如30天）满足视力差阈值<=0.1 ，则认为本次记录有效，则入库，若无效，则界面提醒用户本次检测记录与历史最近一次有效检测记录差值，用户根据该提醒自行判断是否入库。

4）打标入库：实时结果置信判断为有效的记录，直接入库，标签为conf_score=100。产品界面用户判定有效，则入库，标签为defi_score=1。后续分析所需数据为conf_score=100&&defi_score=1&&conf_score=90，其中conf_score=90 表示装置的第一方面有效结果输出。

图5示出了本申请实施例所提供的一种数据检测的装置的结构示意图，所述装置包括：

所述目标分类模型为分类预测模型，所述分类预测模型为组合学习器，所述组合学习器包括多个子学习器；

通过以下方式得到所述分类预测模型：

所述目标分类模型为距离计算模型，所述根据所述待检测数据的数量和预设的数量阈值，使用与该待检测数据对应的目标分类模型对所述待检测数据的有效率性进行分类，包括：

通过以下方式得到所述距离计算模型：

所述根据所述目标初选有效数据所在组内其他初选有效数据，对该目标用户的多个目标初选有效数据进行筛选，确定出所述目标用户的终选有效数据，包括：

所述从所述第一再选有效数据中，确定出所述目标用户的终选有效数据，包括：

所述第二再选有效数据中，确定出所述目标用户的终选有效数据，包括：

如图6所示，本申请实施例提供了一种电子设备，用于执行本申请中的数据检测的方法，该设备包括存储器、处理器、总线及存储在该存储器上并可在该处理器上运行的计算机程序，其中，上述处理器执行上述计算机程序时实现上述的数据检测的方法的步骤。

具体地，上述存储器和处理器可以为通用的存储器和处理器，这里不做具体限定，当处理器运行存储器存储的计算机程序时，能够执行上述的数据检测的方法。

对应于本申请中的数据检测的方法，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述的数据检测的方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述的数据检测的方法。

在本申请所提供的实施例中，应该理解到，所揭露系统和方法，可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，系统或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory， ROM）、随机存取存储器（Random Access Memory ，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种数据检测的方法，其特征在于，通过终端设备提供一图形用户界面，所述方法包括：

根据所述初选有效数据中包含的用户标识，确定各个用户对应的所述初选有效数据；若存在任一目标用户对应有多个在预设的时间段进行检测的目标初选有效数据，根据所述目标初选有效数据所在等级内其他初选有效数据，对该目标用户的多个目标初选有效数据进行筛选，确定出所述目标用户的终选有效数据，并在所述图形用户界面显示所述终选有效数据；所述等级是根据用户的年龄和视力情况进行区分的；

根据所述目标初选有效数据所在等级内其他初选有效数据，对该目标用户的多个目标初选有效数据进行筛选，确定出所述目标用户的终选有效数据，包括：等级内异常值检测、等级内波动系数判定和置信判定；

2.根据权利要求1所述的方法，其特征在于，所述目标分类模型为分类预测模型，所述分类预测模型为组合学习器，所述组合学习器包括多个子学习器；

3.根据权利要求2所述的方法，其特征在于，所述方法通过以下方式得到所述分类预测模型：

4.根据权利要求1所述的方法，其特征在于，所述目标分类模型为距离计算模型，所述根据所述待检测数据的数量和预设的数量阈值，使用与该待检测数据对应的目标分类模型对所述待检测数据的有效率性进行分类，包括：

5.根据权利要求4所述的方法，其特征在于，所述方法通过以下方式得到所述距离计算模型：

6.根据权利要求1所述的方法，其特征在于，所述根据所述目标初选有效数据所在等级内其他初选有效数据，对该目标用户的多个目标初选有效数据进行筛选，确定出所述目标用户的终选有效数据，包括：

根据所述目标初选有效数据所在等级内其他初选有效数据，确定出异常临界值；

响应针对所述目标初选有效数据中超过所述异常临界值数据的确认操作，确定超过所述异常临界值数据是否为有效数据；

根据所述目标初选有效数据所在等级内其他初选有效数据中各个视标对应的迟疑时长，确定出所述目标初选有效数据所在的组对应的迟疑时长变异系数值；

7.根据权利要求6所述的方法，其特征在于，所述第二再选有效数据中，确定出所述目标用户的终选有效数据，包括：

8.一种数据检测的装置，其特征在于，所述装置包括：

第二筛选模块，用于根据所述初选有效数据中包含的用户标识，确定各个用户对应的所述初选有效数据；若存在任一目标用户对应有多个在预设的时间段进行检测的目标初选有效数据，根据所述目标初选有效数据所在等级内其他初选有效数据，对该目标用户的多个目标初选有效数据进行筛选，确定出所述目标用户的终选有效数据；所述等级是根据用户的年龄和视力情况进行区分的；

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的数据检测的方法的步骤。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一所述的数据检测的方法的步骤。