CN116259337B

CN116259337B - 磁盘异常检测方法及模型训练方法、相关装置

Info

Publication number: CN116259337B
Application number: CN202310547755.2A
Authority: CN
Inventors: 江海洋; 刘浩; 袁振华; 张学钢; 钟权; 王骏荣
Original assignee: Hefei Lianbao Information Technology Co Ltd
Current assignee: Hefei Lianbao Information Technology Co Ltd
Priority date: 2023-05-15
Filing date: 2023-05-15
Publication date: 2023-09-05
Anticipated expiration: 2043-05-15
Also published as: CN116259337A

Abstract

本申请公开了一种磁盘异常检测方法及模型训练方法、相关装置，所述磁盘异常检测方法包括：获取磁盘的自我检测分析与报告技术SMART数据；确定SMART数据的数据类型；基于SMART数据的数据类型，对SMART数据进行预处理，得到待检测SMART数据；将待检测SMART数据输入至检测模型，得到对SMART数据的检测结果，所述检测结果用于表征所述磁盘是否发生异常；其中，检测模型由通过带正常SMART数据样本标签和带异常SMART数据样本标签的SMART样本数据而得到的目标SMART样本数据对待训练模型进行训练而得到。为实现高效检测磁盘是否发生异常提供了技术支持。

Description

磁盘异常检测方法及模型训练方法、相关装置

技术领域

本申请涉及数据处理领域，尤其涉及一种磁盘异常检测方法及模型训练方法、相关装置。

背景技术

当发现磁盘出现异常情况时，往往已经处于售后阶段，通常直接对异常磁盘进行换件处理，造成了成本资源的浪费。如何在生产阶段实现对磁盘是否发生异常的高效检测，成为亟待解决的技术问题。

发明内容

本申请提供了一种磁盘异常检测方法及模型训练方法、相关装置，以至少解决现有技术中存在的以上技术问题。

本申请提供了一种磁盘异常检测方法，所述方法包括：

获取磁盘的自我检测分析与报告技术SMART数据；

确定SMART数据的数据类型；

基于所述SMART数据的数据类型，对SMART数据进行预处理，得到待检测SMART数据；

将待检测SMART数据输入至检测模型，得到对所述SMART数据的检测结果，所述检测结果用于表征所述磁盘是否发生异常；其中，所述检测模型由通过带正常SMART数据样本标签和带异常SMART数据样本标签的SMART样本数据而得到的目标SMART样本数据对待训练模型进行训练而得到。

上述方案中，所述基于所述SMART数据的数据类型，对SMART数据进行预处理，得到待检测SMART数据，包括：

当SMART数据为第一数据类型时，获得SMART数据的属性信息，所述属性信息表征为SMART数据的量纲信息；

对SMART数据的属性信息进行统一；

将属性信息统一后的SMART数据作为待检测SMART数据。

当SMART数据为第二数据类型时，

将为第二数据类型的SMART数据转换为目标数据类型的SMART数据；

将转换为目标数据类型的SMART数据作为待检测SMART数据。

上述方案中，所述获取磁盘的自我检测分析与报告技术SMART数据，包括：

获取磁盘的初始SMART数据；

基于预设的筛选条件，对初始SMART数据进行筛选，得到有效SMART数据；

将所述有效SMART数据作为所述磁盘的自我检测分析与报告技术SMART数据。

上述方案中，所述方法还包括：对有效SMART数据中的缺失值进行填充；

将缺失值填充后的有效SMART数据作为自我检测分析与报告技术SMART数据。

上述方案中，所述检测模型由通过带正常SMART数据样本标签和带异常SMART数据样本标签的SMART样本数据而得到的目标SMART样本数据对待训练模型进行训练而得到，包括：

确定SMART样本数据的数据类型；

基于SMART样本数据的数据类型，对SMART样本数据进行预处理，得到目标SMART样本数据；

将目标SMART样本数据输入至待训练模型，对待训练模型进行训练；

所述待训练模型经训练得到的检测模型用于对磁盘的自我检测分析与报告技术SMART数据是否发生异常进行检测。

本申请提供了一种磁盘异常检测模型的训练方法，所述方法包括：

获取磁盘的SMART样本数据以及SMART样本数据的样本标签；所述样本标签包括正常SMART数据和异常SMART数据；

确定SMART样本数据的数据类型；

上述方案中，所述基于SMART样本数据的数据类型，对SMART样本数据进行预处理，得到目标SMART样本数据，包括：

当SMART样本数据为第一数据类型时，获得SMART样本数据的属性信息，所述属性信息表征为SMART样本数据的量纲信息；

对SMART样本数据的属性信息进行统一；

将属性信息统一后的SMART样本数据作为目标SMART样本数据。

当SMART样本数据为第二数据类型时，

将为第二数据类型的SMART样本数据转换为目标数据类型的SMART样本数据；

将转换为目标数据类型的SMART样本数据作为目标SMART样本数据。

本申请提供了一种磁盘异常检测装置，所述装置包括：

第一获取单元，用于获取磁盘的自我检测分析与报告技术SMART数据；

第一确定单元，用于确定SMART数据的数据类型；

第一预处理单元，用于基于所述SMART数据的数据类型，对SMART数据进行预处理，得到待检测SMART数据；

检测单元，用于将待检测SMART数据输入至检测模型，得到对所述SMART数据的检测结果，所述检测结果用于表征所述磁盘是否发生异常；其中，所述检测模型由带正常SMART数据样本标签和带异常SMART数据样本标签的SMART样本数据对待训练模型进行训练而得到。

本申请提供了一种磁盘异常检测模型的训练装置，所述装置包括：

第二获取单元，用于获取磁盘的SMART样本数据以及SMART样本数据的样本标签；所述样本标签包括正常SMART数据和异常SMART数据；

第二确定单元，用于确定SMART样本数据的数据类型；

第二预处理单元，用于基于SMART样本数据的数据类型，对SMART样本数据进行预处理，得到目标SMART样本数据；

训练单元，用于将目标SMART样本数据输入待训练模型，对待训练模型进行训练；所述待训练模型经训练得到的检测模型用于对磁盘的自我检测分析与报告技术SMART数据是否发生异常进行检测。

本申请中，获取磁盘的自我检测分析与报告技术SMART数据以及SMART数据的数据类型，基于SMART数据的数据类型，对SMART数据进行预处理。将处理结果输入检测模型即可得到检测结果，实现流程不繁琐，实现了在生产阶段对磁盘是否发生异常的高效检测，能够在生产阶段快速有效的完成磁盘的异常拦截和修复。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过参考附图阅读下文的详细描述，本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本申请的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1示出了本申请实施例磁盘异常检测模型的训练方法的实现流程示意图；

图2示出了本申请实施例磁盘异常检测方法的实现流程示意图；

图3示出了本申请实施例磁盘异常检测装置的组成结构示意图；

图4示出了本申请实施例磁盘异常检测模型的训练装置的组成结构示意图。

具体实施方式

为使本申请的目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

可以理解，在诸如笔记本电脑的生产过程中，通常需要对磁盘是否发生异常进行科学的度量，以保证笔记本电脑的整体质量。相关技术中，在产品的研发或生产阶段，会对磁盘在笔记本电脑上的性能表现和/或功能表现进行测试。但是，研发阶段的磁盘测试只针对少量的笔记本电脑进行测试，无法对生产阶段的大批量磁盘提供度量数据。生产阶段的磁盘检测只定性的关注笔记本电脑能不能正常运转，对于磁盘整体的性能和状态缺乏科学的量化。因此，当售后阶段出现磁盘异常情况时，工厂端的历史测试数据缺乏对售后异常的数据备案。并且，由于售后异常通常直接对异常磁盘进行换件处理，并未对发生异常的磁盘进行数据的采集和监测，造成了大量的成本和资源浪费。如果能够在生产阶段实现对磁盘是否发生异常的高效检测，势必会节约大量成本和资源，进一步保证笔记本电脑的质量。

本申请实施例的技术方案涉及到对磁盘异常检测模型进行训练的方案，以及利用训练好的检测模型对获取到的磁盘的自我检测分析与报告技术SMART（Self-MonitoringAnalysis and Reporting Technology，自我检测分析与报告技术）数据进行异常检测的方案。本申请技术方案可在生产阶段实现对磁盘是否发生异常的高效检测。

本申请实施例提供一种磁盘异常检测模型的训练方法，如图1所示，所述方法包括：

S101：获取磁盘的SMART样本数据以及SMART样本数据的样本标签；所述样本标签包括正常SMART数据和异常SMART数据。

本步骤中，通过采集磁盘的SMART样本数据，进而获取磁盘的SMART样本数据。所获取的磁盘的SMART样本数据均带有表征该SMART样本数据为正常SMART数据或异常SMART数据的样本标签。

在实际应用中，磁盘在售后阶段通过用户使用反馈或工厂的报修记录，对磁盘的SMART样本数据进行是否异常的标注。如果磁盘在售后阶段有报修记录，针对该磁盘的序列号将磁盘的SMART样本数据标注为1作为样本标签，表示该序列号所对应的磁盘的SMART样本数据为异常SMART数据。如果磁盘在售后阶段没有报修记录，针对该磁盘的序列号将磁盘的SMART样本数据标注为0作为样本标签，表示该序列号所对应的磁盘的SMART样本数据为正常SMART数据。

S102：确定SMART样本数据的数据类型。

本步骤中，磁盘的SMART样本数据包括磁盘可用空间、磁盘警告温度临界值、磁盘使用的百分比、磁盘数据单位已读取、磁盘数据单位已写入、磁盘控制器繁忙时长、磁盘媒体和资料完整性错误、以及磁盘错误资料记录项目数等等。这些样本数据被划分为两类：数值型样本数据和类别型样本数据。通过读取磁盘的SMART样本数据，判断SMART样本数据所属的数据类型。其中，数值型样本数据通常表示为数值，如磁盘的警告温度时长等。类别型样本数据通常表示为文本，如磁盘的型号等。

在实施时，通过判断SMART样本数据的取值是数值还是文本来实现对SMART样本数据的数据类型的确定。如果是数值，那么确定该样本数据为数值型样本数据。如果是文本，那么确定该样本数据为类别型样本数据。

S103：基于SMART样本数据的数据类型，对SMART样本数据进行预处理，得到目标SMART样本数据。

本步骤中，SMART样本数据需要经过预处理才能够输入待训练模型进行训练。而数据类型不同，采用的预处理方式也会有所不同。示例性地，当SMART样本数据的数据类型为数值型样本数据如磁盘吞吐量时，对磁盘吞吐量这个样本数据采用第一处理方式进行预处理。当SMART样本数据的数据类型为类别型样本数据如磁盘型号时，对磁盘型号这个样本数据采用第二处理方式进行预处理。相当于针对不同数据类型的样本数据，采用不同的处理方式（第一处理方式或第二处理方式），对SMART样本数据进行预处理。对不同数据类型的样本数据采用不同的处理方式进行预处理，能够使不同类型的样本数据都能被待训练模型所识别、处理，为待训练模型进行训练提供了数据基础。

SMART样本数据经预处理后的数据即可作为目标SMART样本数据使用。

S104：将目标SMART样本数据输入至待训练模型，对待训练模型进行训练；所述待训练模型经训练得到的检测模型用于对磁盘的自我检测分析与报告技术SMART数据是否发生异常进行检测。

通过对磁盘的SMART样本数据进行预处理得到目标SMART样本数据。本步骤中，将目标SMART样本数据输入至待训练模型，以对待训练模型进行训练，训练完成的模型即可作为检测模型使用。

磁盘的SMART数据是一个记录硬盘驱动器或磁盘运行状况数据的工具，在磁盘工作的时候对电机、电路、磁盘、磁头的状态进行数据监控及记录。利用磁盘的目标SMART样本数据对待训练模型进行训练，能够更好地还原磁盘总体数据分布情况，为实现高效检测磁盘是否发生异常提供了技术支持。

在一个可选的方案中，所述基于SMART样本数据的数据类型，对SMART样本数据进行预处理，得到目标SMART样本数据，包括：

对SMART样本数据的属性信息进行统一；

将属性信息统一后的SMART样本数据作为目标SMART样本数据。

本申请中，第一数据类型为数值型样本数据。采用前述的第一处理方式，对第一数据类型的SMART样本数据进行预处理。针对数值型样本数据，由于不同的数值型样本数据的量纲不同，如果要进行训练，需要对样本数据的量纲进行统一。

示例性地，不同数值型样本数据的量纲不同，比如样本数据C取值范围为[0，10]，样本数据D取值范围为[0，1000]。样本数据D采用的量纲明显大于样本数据C采用的量纲。这就体现在：当样本数据C取值为9时在C的取值范围里是一个很高的数值，但是当把C的值9放在D的取值范围里时，C的值就是一个很小的值。当样本数据C和样本数据D在各自范围内均取处于中间的数值时，如C取值为5，D取值为500。由于样本数据D的范围本身比样本数据C的范围要大，所以从数值上看D的值比C的大，待训练模型会自动认为数值大的样本数据所占的权重高，进而把数值太小的样本数据如C取值为5的样本数据进行丢弃不做机器学习操作。而实际上，取值为5的样本数据C应属于数值大的样本数据，如果将其丢弃不做机器学习，会导致对待训练模型的训练不准确的问题。

为避免前述问题的产生，需要将不同样本数据的取值范围进行统一。具体的，将取值范围大的样本数据的取值范围等比例压缩，或者，将取值范围小的样本数据的取值范围等比例扩大，以实现取值范围大的样本数据和取值范围小的样本数据的量纲的统一。比如，将样本数据C的取值范围从[0，10]等比例扩大到[0，100]。或者，将样本数据D的取值范围从[0，100]等比例压缩到[0，10]。

将不同样本数据进行量纲统一，可视为将不同样本数据映射到了同一维度。将所有的样本数据都放在统一维度下进行训练，能够保证待训练模型训练结果的准确性。

在实施时，采用量纲统一方法进行量纲统一。其中，量纲统一的方法包括标准化、归一化等，本申请不做具体限定。

本申请中，将第一数据类型的SMART样本数据统一到同一量纲下，能够避免不同样本数据的量纲不同而导致的机器学习发生混乱的情况，保证了待训练模型训练结果的准确性。

当SMART样本数据为第二数据类型时，

本申请中，第二数据类型为类别型样本数据。如，磁盘的型号，一般以文本形式表现。目标数据类型为可以供机器学习算法进行数学计算的样本数据，一般以数值形式表现。采用第二处理方式，对第二数据类型的SMART样本数据进行预处理。

由于待训练模型的拟合是通过算法来实现的，而算法通过数学计算来进行。文本形式的样本数据不能进行数学计算，因此需要将文本形式的样本数据转化为可以供机器学习算法进行数学计算的样本数据，如数值形式的样本数据。

将文本形式的样本数据转化为可以供机器学习算法进行数学计算的样本数据的方法包括独热编码、标签编码等类别编码方法，本申请不做具体限定。

本申请中，将第二数据类型的SMART样本数据转换为可以供机器学习算法进行数学计算的样本数据，为待训练模型进行数据计算提供了便利。

在一个可选的方案中，所述获取磁盘的SMART样本数据，包括：

获取磁盘的初始SMART样本数据；

基于预设的筛选条件，对初始SMART样本数据进行筛选，得到有效SMART样本数据；

将所述有效SMART样本数据作为所述磁盘的SMART样本数据。

本申请中，初始SMART样本数据为在售后阶段获取到的磁盘的原始SMART样本数据，有效SMART样本数据为需要经过预处理得到目标SMART样本数据以供待训练模型进行训练的SMART样本数据。可以理解，在售后阶段获取到的磁盘的原始SMART样本数据包括各种维度数据，如磁盘可用空间、磁盘警告温度临界值、磁盘使用的百分比、磁盘数据单位已读取、磁盘数据单位已写入、磁盘控制器繁忙时长、磁盘媒体和资料完整性错误等等。

如果将前述的每种类型数据视为一个维度的数据，则待训练模型训练时需要进行模型计算的维度可以是售后阶段获取到的全部维度的SMART样本数据，也可以是部分维度的SMART样本数据。基于此，在获取到磁盘的初始SMART样本数据后，根据预设的筛选条件对初始SMART样本数据进行筛选，得到有效SMART样本数据。将有效SMART样本数据作为磁盘的SMART样本数据。

在实施时，获取到磁盘的初始SMART样本数据后，根据实际业务需求对初始SMART样本数据进行筛选。如获得的初始SMART样本数据包括磁盘可用空间、磁盘警告温度临界值、磁盘使用的百分比、磁盘数据单位已读取、磁盘数据单位已写入、磁盘控制器繁忙时长等等，根据业务需求，只需从磁盘使用的百分比、磁盘数据单位已读取、磁盘数据单位已写入这三个数据维度来对待训练模型进行训练，则通过识别这三个数据维度的初始SMART样本数据，将这三个维度的数据筛选出来作为有效SMART样本数据进行后续处理，其他样本数据在待训练模型的训练过程中不做任何处理。在这种情况下，筛选条件可视为按照预先设定的数据指定维度进行筛选，如前述内容中，预先设定的数据指定维度包括磁盘使用的百分比、磁盘数据单位已读取和磁盘数据单位等维度，筛选出这些指定维度的SMART样本数据作为有效SMART样本数据使用。

本申请中，对磁盘的初始SMART样本数据进行筛选得到有效SMART样本数据，去除了无用数据，留下了有用的数据，减少了模型的数据计算量，提高了模型的运算速度。

在一个可选的方案中，所述方法还包括：对有效SMART样本数据中的缺失值进行填充；

将缺失值填充后的有效SMART样本数据作为SMART样本数据。

本申请中，得到的有效SMART样本数据在采集的过程中可能在一些数据维度下会出现数据的缺失和遗漏，在得到有效SMART样本数据之后，统计有效SMART样本数据中各个数据维度的缺失情况，对每个数据维度下的缺失值，采用该维度下样本数据的众数进行填充。对于缺失值比例较高的数据维度，可以直接选择删除该数据维度。

示例性地，当有效SMART样本数据包括的数据维度为前述的磁盘使用的百分比、磁盘数据单位已读取、磁盘数据单位已写入等三个数据维度时，有的磁盘在其中的一个或多个数据维度下采集到的数据为空值，即磁盘在该数据维度下存在数据的缺失。则对于该存在缺失的数据，可以采用该数据维度下其他磁盘数据的众数进行填充。如采集100个磁盘的有效SMART样本数据，其中有一个磁盘在磁盘使用的百分比这一数据维度下存在数据缺失，而其余99个磁盘在磁盘使用的百分比这一数据维度下均存在对应的值，则将99个磁盘在磁盘使用的百分比这一数据维度下的对应值中的众数，作为在该数据维度下存在数据缺失的磁盘的对应值对其进行填充。如果100个磁盘中有50个或者更多磁盘在某一数据维度或某些数据维度下均存在数据缺失的情况，由于在该数据维度下的缺失值比例较高，利用少数不存在数据缺失的数据对应值中的众数对其进行填充，结果不具有普遍性，填充的意义不大，因此对于缺失值比例较高的数据维度可以直接选择删除该数据维度，不对其进行后续处理。

本申请中，对有效SMART样本数据中的缺失值进行填充的方案，保证了训练样本数据的完整性，提高了待训练模型训练结果的准确率。

以上内容为本申请对磁盘异常检测模型的训练方案，训练得到的检测模型的具体应用可参见后面的相关说明。

本申请实施例还提供一种磁盘异常检测方法，如图2所示，所述方法包括：

S201：获取磁盘的自我检测分析与报告技术SMART数据。

本步骤中，通过采集磁盘的自我检测分析与报告技术SMART数据，进而获取磁盘的自我检测分析与报告技术SMART数据。

磁盘的SMART数据是一个记录硬盘驱动器或磁盘运行状况数据的工具，在磁盘工作的时候对电机、电路、磁盘、磁头的状态进行数据监控及记录。在实际应用中，获取处于生产阶段的磁盘的SMART数据，基于磁盘的SMART数据对磁盘是否发生异常进行检测，能够更好的还原磁盘总体数据分布情况。

S202：确定SMART数据的数据类型。

本步骤中，磁盘的SMART数据包括磁盘可用空间、磁盘警告温度临界值、磁盘使用的百分比、磁盘数据单位已读取、磁盘数据单位已写入、磁盘控制器繁忙时长、磁盘媒体和资料完整性错误、以及磁盘错误资料记录项目数等等。这些数据被划分为两类：数值型数据和类别型数据。通过读取磁盘的SMART数据，判断SMART数据所属的数据类型。其中，数值型数据通常表示为数值，如磁盘的警告温度时长等。类别型数据通常表示为文本，如磁盘的型号等。

在实施时，通过判断SMART数据的取值是数值还是文本来实现对SMART数据的数据类型的确定。如果是数值，那么确定该数据为数值型数据。如果是文本，那么确定该数据为类别型数据。

S203：基于所述SMART数据的数据类型，对SMART数据进行预处理，得到待检测SMART数据。

本步骤中，SMART数据需要经过预处理才能够输入检测模型进行检测。而数据类型不同，采用的预处理方式也会有所不同。示例性地，当SMART数据的数据类型为数值型数据如磁盘吞吐量时，对磁盘吞吐量这个数据采用第三处理方式（与前述的第一处理方式为相同的处理方式）进行预处理。当SMART数据的数据类型为类别型数据如磁盘型号时，对磁盘型号这个数据采用第四处理方式（与前述的第二处理方式为相同的处理方式）进行预处理。相当于针对不同数据类型的数据，采用不同的处理方式（第三处理方式或第四处理方式），对SMART数据进行预处理。对不同数据类型的数据采用不同的处理方式进行预处理，能够使不同类型的数据都能被检测模型所识别、处理，为检测模型进行异常检测提供了数据基础。

SMART数据经预处理后的数据即可作为待检测SMART数据使用。

将经过预处理得到的待检测SMART数据输入检测模型，即可得到对SMART数据的检测结果。

S204：将待检测SMART数据输入至检测模型，得到对所述SMART数据的检测结果，所述检测结果用于表征所述磁盘是否发生异常；其中，所述检测模型由通过带正常SMART数据样本标签和带异常SMART数据样本标签的SMART样本数据而得到的目标SMART样本数据对待训练模型进行训练而得到。

本步骤中，将待检测SMART数据输入到训练后的检测模型中，可以得到磁盘是否发生异常的检测结果。基于磁盘是否发生异常的检测结果，能够在生产阶段实时监控每一个或每一批次的高风险磁盘，及时完成异常拦截或针对性抽检等工作。模型还会对输入的待检测SMART数据进行推理，得到每一个磁盘发生异常的概率。通过设定健康等级，不同的异常概率会被划分到不同的健康等级中。如将异常概率小于5%的等级设定为“健康”、将异常概率为5%~10%的等级设定为“亚健康”、将异常概率为10%~35%的等级设定为“待观察”、将异常概率为35%~50%的等级设定为“需复检”、将异常概率大于50%的等级设定为“不健康”。根据每个磁盘的健康等级对磁盘进行健康评估并生成健康报告。

本申请中，步骤S201~S204获取磁盘的SMART数据以及SMART数据的数据类型，基于SMART数据的数据类型，对SMART数据进行预处理。将处理结果输入检测模型即可得到检测结果，实现流程不繁琐。并且，利用磁盘的SMART数据对磁盘是否发生异常进行检测，能够更好地还原磁盘总体数据分布情况，实现了在生产阶段对磁盘是否发生异常的高效检测。

在一个可选的方案中，所述基于所述SMART数据的数据类型，对SMART数据进行预处理，得到待检测SMART数据，包括：

对SMART数据的属性信息进行统一；

将属性信息统一后的SMART数据作为待检测SMART数据。

本申请中，第一数据类型为数值型数据。采用前述的第三处理方式，对第一数据类型的SMART数据进行预处理。针对数值型数据，由于不同的数值型数据的量纲不同，如果要进行异常检测，需要对数据的量纲进行统一。

示例性地，不同数值型数据的量纲不同，比如数据A取值范围为[0，10]，数据B取值范围为[0，1000]。数据B采用的量纲明显大于数据A采用的量纲。这就体现在：当数据A取值为9时在A的取值范围里是一个很高的数值，但是当把A的值9放在B的取值范围里时，A的值就是一个很小的值。当数据A和数据B在各自范围内均取处于中间的数值时，如A取值为5，B取值为500。由于数据B的范围本身比数据A的范围要大，所以从数值上看B的值比A的大，检测模型会自动认为数值大的数据所占的权重高，进而把数值太小的数据如A取值为5的数据进行丢弃不做机器学习操作。而实际上，取值为5的数据A应属于数值大的数据，如果将其丢弃不做机器学习，会导致检测模型的检测结果不准确的问题。

为避免前述问题的产生，需要将不同数据的取值范围进行统一。具体的，将取值范围大的数据的取值范围等比例压缩，或者，将取值范围小的数据的取值范围等比例扩大，以实现取值范围大的数据和取值范围小的数据的量纲的统一。比如，将数据A的取值范围从[0，10]等比例扩大到[0，100]。或者，将数据B的取值范围从[0，100]等比例压缩到[0，10]。

将不同数据进行量纲统一，可视为将不同数据映射到了同一维度。将所有的数据都放在统一维度下进行检测，能够保证检测模型检测结果的准确性。

本申请中，将第一数据类型的SMART数据统一到同一量纲下，能够避免不同数据的量纲不同而导致的机器学习发生混乱的情况，保证了检测模型检测结果的准确性。

当SMART数据为第二数据类型时，

将转换为目标数据类型的SMART数据作为待检测SMART数据。

本申请中，第二数据类型为类别型数据。如，磁盘的型号，一般以文本形式表现。目标数据类型为可以供机器学习算法进行数学计算的数据，一般以数值形式表现。采用前述的第四处理方式，对第二数据类型的SMART数据进行预处理。

由于检测模型的拟合是通过算法来实现的，而算法通过数学计算来进行。文本形式的数据不能进行数学计算，因此需要将文本形式的数据转化为可以供机器学习算法进行数学计算的数据，如数值形式的数据。

将文本形式的数据转化为可以供机器学习算法进行数学计算的数据的方法包括独热编码、标签编码等类别编码方法，本申请不做具体限定。

本申请中，将第二数据类型的SMART数据转换为可以供机器学习算法进行数学计算的数据，为检测模型进行数据计算提供了便利。

在一个可选的方案中，所述获取磁盘的自我检测分析与报告技术SMART数据，包括：

获取磁盘的初始SMART数据；

本申请中，初始SMART数据为在生产阶段获取到的磁盘的原始SMART数据，有效SMART数据为需要经过预处理得到待检测SMART数据以供检测模型进行检测的SMART数据。可以理解，在生产阶段获取到的磁盘的原始SMART数据包括各种维度数据，如磁盘可用空间、磁盘警告温度临界值、磁盘使用的百分比、磁盘数据单位已读取、磁盘数据单位已写入、磁盘控制器繁忙时长、磁盘媒体和资料完整性错误等等。

如果将前述的每种类型数据视为一个维度的数据，则磁盘异常检测时需要进行模型计算的维度可以是生产阶段获取到的全部维度的SMART数据，也可以是部分维度的SMART数据。基于此，在获取到磁盘的初始SMART数据后，根据预设的筛选条件对初始SMART数据进行筛选，得到有效SMART数据。将有效SMART数据作为磁盘的SMART数据。

在实施时，获取到磁盘的初始SMART数据后，根据实际业务需求对初始SMART数据进行筛选。如获得的初始SMART数据包括磁盘可用空间、磁盘警告温度临界值、磁盘使用的百分比、磁盘数据单位已读取、磁盘数据单位已写入、磁盘控制器繁忙时长等等，根据业务需求，只需从磁盘使用的百分比、磁盘数据单位已读取、磁盘数据单位已写入这三个数据维度来进行异常检测，则通过识别这三个数据维度的初始SMART数据，将这三个维度的数据筛选出来作为有效SMART数据进行后续处理，其他数据在检测模型的检测过程中不做任何处理。在这种情况下，筛选条件可视为按照预先设定的数据指定维度进行筛选，如前述内容中，预先设定的数据指定维度包括磁盘使用的百分比、磁盘数据单位已读取和磁盘数据单位等维度，筛选出这些指定维度的SMART数据作为有效SMART数据使用。

本申请中，对磁盘的初始SMART数据进行筛选得到有效SMART数据，去除了无用数据，留下了有用的数据，减少了模型的数据计算量，提高了模型的运算速度。

在一个可选的方案中，所述方法还包括：对有效SMART数据中的缺失值进行填充；

本申请中，得到的有效SMART数据在采集的过程中可能在一些数据维度下会出现数据的缺失和遗漏，在得到有效SMART数据之后，统计有效SMART数据中各个数据维度的缺失情况，对每个数据维度下的缺失值采用该维度下数据的众数进行填充。对于缺失值比例较高的数据维度，可以直接选择删除该数据维度。

示例性地，当有效SMART数据包括的数据维度为前述的磁盘使用的百分比、磁盘数据单位已读取、磁盘数据单位已写入等三个数据维度时，有的磁盘在其中的一个或多个数据维度下采集到的数据为空值，即磁盘在该数据维度下存在数据的缺失。则对于该存在缺失的数据，可以采用该数据维度下其他磁盘数据的众数进行填充。如采集100个磁盘的有效SMART数据，其中有一个磁盘在磁盘使用的百分比这一数据维度下存在数据缺失，而其余99个磁盘在磁盘使用的百分比这一数据维度下均存在对应的值，则将99个磁盘在磁盘使用的百分比这一数据维度下的对应值中的众数，作为在该数据维度下存在数据缺失的磁盘的对应值对其进行填充。如果100个磁盘中有50个或者更多磁盘在某一数据维度或某些数据维度下均存在数据缺失的情况，由于在该数据维度下的缺失值比例较高，利用少数不存在数据缺失的数据对应值的众数对其进行填充，结果不具有普遍性，填充的意义不大，因此对于缺失值比例较高的数据维度可以直接选择删除该数据维度，不对其进行后续处理。

本申请中，对有效SMART数据中的缺失值进行填充的方案，保证了检测数据的完整性，提高了检测结果的准确率。

在一个可选的方案中，所述检测模型由通过带正常SMART数据样本标签和带异常SMART数据样本标签的SMART样本数据而得到的目标SMART样本数据对待训练模型进行训练而得到，包括：

确定SMART样本数据的数据类型；

本申请中，通过采集磁盘的SMART样本数据，进而获取磁盘的SMART样本数据。所获取的磁盘的SMART样本数据均带有表征该SMART样本数据为正常SMART数据或异常SMART数据的样本标签。

磁盘的SMART样本数据包括磁盘可用空间、磁盘警告温度临界值、磁盘使用的百分比、磁盘数据单位已读取、磁盘数据单位已写入、磁盘控制器繁忙时长、磁盘媒体和资料完整性错误、以及磁盘错误资料记录项目数等等。这些样本数据被划分为两类：数值型样本数据和类别型样本数据。通过读取磁盘的SMART样本数据，判断SMART样本数据所属的数据类型。其中，数值型样本数据通常表示为数值，如磁盘的警告温度时长等。类别型样本数据通常表示为文本，如磁盘的型号等。

SMART样本数据需要经过预处理才能够输入待训练模型进行训练。而数据类型不同，采用的预处理方式也会有所不同。示例性地，当SMART样本数据的数据类型为数值型样本数据如磁盘吞吐量时，对磁盘吞吐量这个样本数据采用第一处理方式进行预处理。当SMART样本数据的数据类型为类别型样本数据如磁盘型号时，对磁盘型号这个样本数据采用第二处理方式进行预处理。将经过预处理得到的目标SMART样本数据输入待训练模型进行训练，即可得到检测模型。相当于针对不同数据类型的样本数据，采用不同的处理方式（第一处理方式或第二处理方式），对SMART样本数据进行预处理。对不同数据类型的样本数据采用不同的处理方式进行预处理，能够使不同类型的样本数据都能被待训练模型所识别、处理，为待训练模型进行训练提供了数据基础。

本申请中，通过对磁盘的SMART样本数据进行预处理得到目标SMART样本数据，将目标SMART样本数据输入至待训练模型进行训练得到检测模型。由于磁盘的SMART数据是一个记录硬盘驱动器或磁盘运行状况数据的工具，在磁盘工作的时候对电机、电路、磁盘、磁头的状态进行数据监控及记录。利用磁盘的SMART样本数据对待训练模型进行训练，能够更好地还原磁盘总体数据分布情况，为实现高效检测磁盘是否发生异常提供了技术支持。

具体的训练过程请参见前述对训练方案的说明，重复之处不赘述。

本申请实施例提供一种磁盘异常检测装置，如图3所示，所述装置包括：

第一获取单元301，用于获取磁盘的自我检测分析与报告技术SMART数据；

第一确定单元302，用于确定SMART数据的数据类型；

第一预处理单元303，用于基于所述SMART数据的数据类型，对SMART数据进行预处理，得到待检测SMART数据；

检测单元304，用于将待检测SMART数据输入至检测模型，得到对所述SMART数据的检测结果，所述检测结果用于表征所述磁盘是否发生异常；其中，所述检测模型由带正常SMART数据样本标签和带异常SMART数据样本标签的SMART样本数据对待训练模型进行训练而得到。

在一个可选的方案中，所述第一预处理单元303，用于当SMART数据为第一数据类型时，获得SMART数据的属性信息，所述属性信息表征为SMART数据的量纲信息；对SMART数据的属性信息进行统一；将属性信息统一后的SMART数据作为待检测SMART数据。

在一个可选的方案中，所述第一预处理单元303，用于当SMART数据为第二数据类型时，将为第二数据类型的SMART数据转换为目标数据类型的SMART数据；将转换为目标数据类型的SMART数据作为待检测SMART数据。

在一个可选的方案中，所述第一获取单元301，用于获取磁盘的初始SMART数据；基于预设的筛选条件，对初始SMART数据进行筛选，得到有效SMART数据；将所述有效SMART数据作为所述磁盘的自我检测分析与报告技术SMART数据。

在一个可选的方案中，所述装置还包括：

第一填充单元，用于对有效SMART数据中的缺失值进行填充；将缺失值填充后的有效SMART数据作为自我检测分析与报告技术SMART数据。

在一个可选的方案中，所述检测单元304，用于确定SMART样本数据的数据类型；基于SMART样本数据的数据类型，对SMART样本数据进行预处理，得到目标SMART样本数据；将目标SMART样本数据输入至待训练模型，对待训练模型进行训练；所述待训练模型经训练得到的检测模型用于对磁盘的自我检测分析与报告技术SMART数据是否发生异常进行检测。

本申请实施例提供一种磁盘异常检测模型的训练装置，如图4所示，所述装置包括：

第二获取单元401，用于获取磁盘的SMART样本数据以及SMART样本数据的样本标签；所述样本标签包括正常SMART数据和异常SMART数据；

第二确定单元402，用于确定SMART样本数据的数据类型；

第二预处理单元403，用于基于SMART样本数据的数据类型，对SMART样本数据进行预处理，得到目标SMART样本数据；

训练单元404，用于将目标SMART样本数据输入至待训练模型，对待训练模型进行训练；所述待训练模型经训练得到的检测模型用于对磁盘的自我检测分析与报告技术SMART数据是否发生异常进行检测。

在一个可选的方案中，所述第二预处理单元403，用于当SMART样本数据为第一数据类型时，获得SMART样本数据的属性信息，所述属性信息表征为SMART样本数据的量纲信息；对SMART样本数据的属性信息进行统一；将属性信息统一后的SMART样本数据作为目标SMART样本数据。

在一个可选的方案中，所述第二预处理单元403，用于当SMART样本数据为第二数据类型时，将为第二数据类型的SMART样本数据转换为目标数据类型的SMART样本数据；将转换为目标数据类型的SMART样本数据作为目标SMART样本数据。

在一个可选的方案中，所述第二获取单元401，用于获取磁盘的初始SMART样本数据；基于预设的筛选条件，对初始SMART样本数据进行筛选，得到有效SMART样本数据；将所述有效SMART样本数据作为所述磁盘的SMART样本数据。

在一个可选的方案中，所述装置还包括：

第二填充单元，用于对有效SMART样本数据中的缺失值进行填充；将缺失值填充后的有效SMART样本数据作为SMART样本数据。

需要说明的是，本申请实施例的磁盘异常检测装置以及磁盘异常检测模型的训练装置，由于该磁盘异常检测装置以及磁盘异常检测模型的训练装置解决问题的原理与前述的磁盘异常检测方法以及磁盘异常检测模型的训练方法相似，因此磁盘异常检测装置以及磁盘异常检测模型的训练装置的实施过程及实施原理、有益效果均可以参见前述方法的实施过程及实施原理、有益效果的描述，重复之处不再赘述。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种磁盘异常检测方法，其特征在于，所述方法包括：

获取磁盘的自我检测分析与报告技术SMART数据；

确定SMART数据的数据类型；

对SMART数据的属性信息进行统一；

将属性信息统一后的SMART数据作为待检测SMART数据；

当SMART数据为第二数据类型时，

将转换为目标数据类型的SMART数据作为待检测SMART数据；

2.根据权利要求1所述的方法，其特征在于，所述获取磁盘的自我检测分析与报告技术SMART数据，包括：

获取磁盘的初始SMART数据；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：对有效SMART数据中的缺失值进行填充；

4.根据权利要求1所述的方法，其特征在于，所述检测模型由通过带正常SMART数据样本标签和带异常SMART数据样本标签的SMART样本数据而得到的目标SMART样本数据对待训练模型进行训练而得到，包括：

确定SMART样本数据的数据类型；

5.一种磁盘异常检测模型的训练方法，其特征在于，所述方法包括：

确定SMART样本数据的数据类型；

对SMART样本数据的属性信息进行统一；

将属性信息统一后的SMART样本数据作为目标SMART样本数据；

当SMART样本数据为第二数据类型时，

将转换为目标数据类型的SMART样本数据作为目标SMART样本数据；

6.一种磁盘异常检测装置，其特征在于，所述装置包括：

第一确定单元，用于确定SMART数据的数据类型；

第一预处理单元，用于当SMART数据为第一数据类型时，获得SMART数据的属性信息，所述属性信息表征为SMART数据的量纲信息；对SMART数据的属性信息进行统一；将属性信息统一后的SMART数据作为待检测SMART数据；当SMART数据为第二数据类型时，将为第二数据类型的SMART数据转换为目标数据类型的SMART数据；将转换为目标数据类型的SMART数据作为待检测SMART数据；

7.一种磁盘异常检测模型的训练装置，其特征在于，所述装置包括：

第二确定单元，用于确定SMART样本数据的数据类型；

第二预处理单元，用于当SMART样本数据为第一数据类型时，获得SMART样本数据的属性信息，所述属性信息表征为SMART样本数据的量纲信息；对SMART样本数据的属性信息进行统一；将属性信息统一后的SMART样本数据作为目标SMART样本数据；当SMART样本数据为第二数据类型时，将为第二数据类型的SMART样本数据转换为目标数据类型的SMART样本数据；将转换为目标数据类型的SMART样本数据作为目标SMART样本数据；

训练单元，用于将目标SMART样本数据输入至待训练模型，对待训练模型进行训练；所述待训练模型经训练得到的检测模型用于对磁盘的自我检测分析与报告技术SMART数据是否发生异常进行检测。