CN113239989A

CN113239989A - 气体浓度识别方法、系统、电子设备及存储介质

Info

Publication number: CN113239989A
Application number: CN202110455423.2A
Authority: CN
Inventors: 李震; 邹启贤; 孙锋; 黄红杉
Original assignee: Shenzhen Water Group Co ltd; Shenzhen Water Technology Co ltd
Current assignee: Shenzhen Water Group Co ltd; Shenzhen Water Technology Co ltd
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2021-08-10

Abstract

本申请公开了一种气体浓度识别方法、系统、电子设备及存储介质，涉及气体识别技术领域。通过获取气体样本数据集，气体样本数据集包括浓度等级标签，对气体样本数据集进行预处理得到气体处理数据集，根据气体处理数据集进行训练得到气体分类模型，该气体分类模型为KNN模型，通过气体分类模型对待测气体数据进行预测分类，得到标识待测气体数据的浓度等级的标准浓度等级标签，能够通过机器学习的方式对气体浓度进行等级划分，减少人为主观的参与，提高对气体浓度识别的准确率。

Description

气体浓度识别方法、系统、电子设备及存储介质

技术领域

本申请涉及气体识别技术领域，尤其是涉及一种气体浓度识别方法、系统、电子设备及存储介质。

背景技术

城市污水处理厂排放的恶臭气体属于一类污染物，是影响大气质量的主要原因。目前，通过有效的除臭技术限制恶臭气体排放的方法没有引起企业和科学家的重视。臭气浓度作为人群感官性指标，在大气污染标准控制项目中占有比较重要的地位，因此需要对臭气浓度进行评测，以确定是否符合大气污染标准。

但是目前对臭气综合浓度的识别方法存在一定的局限性，例如其中一种方式为由专门的臭气评价师通过人体嗅觉的方式对臭气综合浓度进行划分，但是由于臭气属于有害气体，这种采用人体嗅觉来划分臭气综合浓度的方式，对人体存在较大危害；而另外一种臭气浓度划分方式则是对多种气体浓度直接进行测定，然后再对臭气综合浓度进行划分，其测定成本较高并且由于需要人力进行臭气综合浓度划分，存在一定的主观性，影响浓度测定的准确率。

发明内容

本申请旨在至少解决现有技术中存在的技术问题之一。为此，本申请提出一种气体浓度识别方法，能够通过机器学习的方式对气体浓度进行等级划分，减少人为主观的参与，提高对气体浓度识别的准确率。

本申请还提出一种具有上述气体浓度识别方法的气体浓度识别系统。

本申请还提出一种具有上述气体浓度识别方法的电子设备。

本申请还提出一种具有上述气体浓度识别方法的计算机可读存储介质。

根据本申请的第一方面实施例的气体浓度识别方法，包括：获取气体样本数据集，所述气体样本数据集包括浓度等级标签；对所述气体样本数据集进行预处理得到气体处理数据集；根据所述气体处理数据集进行分类学习得到具有最优模型参数的气体分类模型，所述气体分类模型为KNN模型；通过所述气体分类模型对待测气体数据进行预测分类，得到所述待测气体数据的标准浓度等级标签，所述标准浓度等级标签用于标识所述待测气体数据的浓度等级。

根据本申请实施例的气体浓度识别方法，至少具有如下有益效果：通过获取气体样本数据集，气体样本数据集包括浓度等级标签，对气体样本数据集进行预处理得到气体处理数据集，根据气体处理数据集进行训练得到气体分类模型，该气体分类模型为KNN模型，通过气体分类模型对待测气体数据进行预测分类，得到标识待测气体数据的浓度等级的标准浓度等级标签，能够通过机器学习的方式对气体浓度进行等级划分，减少人为主观的参与，提高对气体浓度识别的准确率。

根据本申请的一些实施例，获取多个预设模型参数；所述根据所述气体处理数据集进行训练得到具有最优模型参数的气体分类模型，包括：获取多个预设模型参数；根据所述多个预设模型参数从所述气体处理数据集中选取多个训练样本集；遍历计算所述气体处理数据集中的每一训练数据与所述多个训练样本集，得到多个平均距离参数；选取最小平均距离参数所对应的预设模型参数作为所述气体分类模型的最优模型参数。

根据本申请的一些实施例，还包括：从所述气体处理数据集中获取验证样本数据集和测试样本数据集；计算所述验证样本数据集和所述测试样本数据集的距离参数；根据所述最优模型参数和多个所述距离参数获取对应的测试样本数据集和所述测试样本数据集的多个浓度等级标签；根据所述多个浓度等级标签和所述验证样本数据集获取所述气体分类模型的识别准确率。

根据本申请的一些实施例，还包括：根据所述识别准确率对所述最优模型参数进行调整。

根据本申请的一些实施例，所述通过所述气体分类模型对待测气体数据进行预测分类，得到所述待测气体数据的标准浓度等级标签，包括：获取测试样本数据集，所述测试样本数据集包括多个测试样本数据和多个浓度等级标签；计算所述待测气体数据和所述测试样本数据集的多个距离参数；根据所述多个距离参数和所述最优模型参数获取对应的所述测试样本数据和对应的浓度等级标签；根据所述多个浓度等级标签确定所述待测气体数据的标准浓度等级标签。

根据本申请的一些实施例，所述计算所述待测气体数据和所述测试样本数据集的多个距离参数，包括：获取所述待测气体数据的待测特征参数，获取所述测试样本数据集的样本特征参数；根据所述待测特征参数和所述样本特征参数计算得到所述距离参数。

根据本申请的一些实施例，所述对所述气体样本数据集进行预处理得到气体处理数据，包括：根据预设的无用特征获取所述气体样本数据集中的无用数据；移除所述无用数据得到所述气体处理数据集。

根据本申请的第二方面实施例的气体浓度识别系统，包括：获取模块，所述获取模块用于获取气体样本数据集，所述气体样本数据集包括浓度等级标签；预处理模块，所述预处理模块用于对所述气体样本数据集进行预处理得到气体处理数据集；建模模块，所述建模模块用于根据所述气体处理数据集进行分类学习得到具有最优模型参数的气体分类模型，所述气体分类模型为KNN模型；分类模块，所述分类模块用于通过所述气体分类模型对待测气体数据进行预测分类，得到所述待测气体数据的标准浓度等级标签，所述标准浓度等级标签用于标识所述待测气体数据的浓度等级。

根据本申请实施例的气体浓度识别系统，至少具有如下有益效果：通过获取模块100获取气体样本数据集，气体样本数据集包括浓度等级标签，预处理模块200对气体样本数据集进行预处理得到气体处理数据集，建模模块300根据气体处理数据集进行训练得到气体分类模型，该气体分类模型为KNN模型，分类模块400通过气体分类模型对待测气体数据进行预测分类，得到标识待测气体数据的浓度等级的标准浓度等级标签，能够通过机器学习的方式对气体浓度进行等级划分，减少人为主观的参与，提高对气体浓度识别的准确率。

根据本申请的第三方面实施例的电子设备，包括：至少一个处理器，以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行所述指令时实现如第一方面所述的气体浓度识别方法。

根据本申请的电子设备，至少具有如下有益效果：通过执行第一方面实施例中提到的气体浓度识别方法，能够通过机器学习的方式对气体浓度进行等级划分，减少人为主观的参与，提高对气体浓度识别的准确率。

根据本申请的第四方面实施例的计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如第一方面所述的气体浓度识别方法。

根据本申请的计算机可读存储介质，至少具有如下有益效果：通过执行第一方面实施例中提到的气体浓度识别方法，能够通过机器学习的方式对气体浓度进行等级划分，减少人为主观的参与，提高对气体浓度识别的准确率。

本申请的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

图1为本申请实施例中气体浓度识别方法的一具体流程示意图；

图2为本申请实施例中气体浓度识别方法中步骤S300的第一具体流程示意图；

图3为本申请实施例中气体浓度识别方法中步骤S300的第二具体流程示意图；

图4为本申请实施例中气体浓度识别方法中步骤S300的第三具体流程示意图；

图5为本申请实施例中气体浓度识别方法中步骤S400的一具体流程示意图；

图6为本申请实施例中气体浓度识别方法的一具体示例图；

图7为本申请实施例中气体浓度识别系统的一具体模块图。

附图标记：

获取模块100、预处理模块200、建模模块300、分类模块400。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。

需要说明的是，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同流程图中的顺序执行所示出或描述的步骤。如果涉及到“若干”，其含义是一个以上，如果涉及到“多个”，其含义是两个以上，如果涉及到“以下”，均应理解为包括本数。本文所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本申请的实施例，并且除非另外要求，否则不会对本申请的范围施加限制。大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。

需要说明的是，如无特殊说明，在实施例中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。此外，除非另有定义，本文所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本文说明书中所使用的术语只是为了描述具体的实施例，而不是为了限制本申请。

基于此，本申请实施例提供了一种气体浓度识别方法、系统、电子设备及存储介质，能够通过机器学习的方式对气体浓度进行等级划分，减少人为主观的参与，提高对气体浓度识别的准确率。

需要说明的是，本申请实施例中所提到的气体以臭气为例进行说明，其中臭气包括硫化氢、氨气和甲硫醇等成分，基于该三类气体成分作为臭气的主体进行识别检测。

第一方面，本申请实施例提供了一种气体浓度识别方法。

在一些实施例中，参照图1，示出了本申请实施例中气体浓度识别方法的流程示意图。其具体包括步骤：

S100，获取气体样本数据集；

S200，对气体样本数据集进行预处理得到气体处理数据集；

S300，根据气体处理数据集进行训练得到气体分类模型；

S400，通过气体分类模型对待测气体数据进行预测分类，得到待测气体数据的标准浓度等级标签。

在步骤S100中，获取用于训练生成气体分类模型的气体样本数据集，其中气体样本数据集中包括多个气体样本数据，每一个气体样本数据有对应的浓度等级标签，该浓度等级标签用于标识当前气体样本数据的浓度等级，而气体样本数据集作为训练数据，训练生成气体分类模型。在可能实施的应用实例中，本申请所采集的气体样本数据为臭气气体的相关数据，例如采集臭气气体相关的气体成分的数据，例如硫化氢、氨气和甲硫醇三种气体成分，可以通过在需要监测的监测点，通过气体采集装置等方式采集实时数据作为样本数据；为了避免采集到的气体样本数据集存在质量问题，可以通过增设多个监测点进行数据采集，并且在同一时间获取该监测点的气体浓度等级等相关数据作为采集到的气体样本数据的浓度等级标签，进行数据匹配。在实际应用中，以监测某一厂区的气体浓度为例进行说明，可以选用该厂区的多个区域作为不同的监测点进行数据采集，以获取对应的气体样本数据和对应的浓度等级标签，从而汇集成气体样本数据集。

在步骤S200中，对获取到的气体样本数据集进行预处理，得到预处理后的气体处理数据集，其中预处理是指移除气体样本数据集中不适用于训练的气体样本数据，以得到符合训练标准的气体样本数据集。

在一些实施例中，步骤S200中对获取到的气体样本数据集进行预处理，具体通过预设的无用特征获取气体样本数据集中的无用数据，移除该无用数据得到预处理后的气体处理数据集。其中无用数据是指对气体样本数据集中无法用于训练的无效数据，例如不具备代表性的气体样本数据、存在数据缺失的气体样本数据、数据格式错误的气体样本数据、数据逻辑错误的气体样本数据。经过预处理后所得到的气体处理数据集也包括对应的浓度等级标签，气体处理数据集为气体样本数据集的部分数据量。

在可能实施的应用实例中，针对不具备代表性的气体样本数据的预处理进行说明，可以基于气体样本数据的元数据进行查看，例如元数据中的字段解释、数据来源、代码表等描述数据的信息；也可以基于人工查看的方式，对气体样本数据本身进行查看，通过人工筛查的方式进行处理，并且可以采用抽取气体样本数据的方式进行预处理，可以基于固定的数据步长，对气体样本数据集进行切片的方式抽取数据。

针对存在数据缺失的气体样本数据的预处理进行说明，由于数据采集密度较小，获取的数据量较大，因此对于缺失的气体样本数据集，可以通过直接移除的方式进行预处理，对整个气体样本数据集的数据准确性影响较小，其中数据缺失的气体样本数据有全空值的气体样本数据，或者全零值的气体样本数据。

针对数据格式错误的气体样本数据的预处理进行说明，数据格式错误是由于采集气体样本数据的方式不正确所导致，或者由于人为修改所导致，或者气体样本数据的整合错误所导致；数据格式错误是指气体样本数据的显示格式不一致例如全角、半角等，或者气体样本数据中存在非法字符，或者气体样本数据中不应该存在的字符等。

针对数据逻辑错误的气体样本数据的预处理进行说明，数据逻辑错误是指气体样本数据与实际情况或者实际逻辑不符合所出现的错误，例如重复的气体样本数据、数值不合理的气体样本数据、相互矛盾的气体样本数据等。

在步骤S300中，基于预处理后的气体处理数据集进行训练，得到气体分类模型，该气体分类模型为KNN模型，即基于KNN分类算法进行建模。针对KNN分类算法进行说明，KNN(K-Nearest Neighbor)分类算法是机器学习算法中用于分类，也用于回归。KNN通过测量不同特征值之间的距离来进行分类，利用训练数据对特征向量空间进行划分，并将划分结果作为最终算法模型。气体分类模型即基于KNN算法所建立的KNN模型存在一个样本数据集合，也称作训练样本集，并且样本集中的每个数据都存在标签，即样本集中每一数据与所属分类的对应关系。输入没有标签的数据后，将这个没有标签的数据的每个特征与样本集中的数据对应的特征进行比较，然后提取样本中特征最相近的数据的分类标签。

在一些实施例中，参考图2，步骤S300具体还包括步骤：

S311，获取多个预设模型参数；

S312，根据多个预设模型参数从气体处理数据集中选取多个训练样本集；

S313，遍历计算气体处理数据集中的每一训练数据与多个训练样本集，得到多个平均距离参数；

S314，选取最小平均距离参数所对应的预设模型参数作为气体分类模型的最优模型参数。

在步骤S311中，获取多个预设模型参数，其中预设模型参数是指未经过数据训练的初始KNN模型中需要与实际例子最邻近的具体数量，该预设模型参数能够影响生产的气体分类模型最终的分类结果，基于预设模型参数进行最优模型参数的确定。关于预设模型参数的选用，可以基于气体样本数据中的特征参数的数量进行确定，例如选用的特征参数数量为三个时，预设模型参数定义为k，k为正整数，k∈{1,2,3,4,5,6}，即k的取值可以分别是1、2、3、4、5、6。

在步骤S312中，根据不同的预设模型参数从气体处理数据集中选取生成多个训练样本集，不同的训练样本集根据不同的预设模型参数能够包含不同数量的气体样本数据，例如预设模型参数k为1时，则对应的训练样本集包含1个训练样本数据；预设模型参数k为2时，则对应的训练样本集包含2个训练样本数据；预设模型参数k为3时，则对应的训练样本集包含3个训练样本数据；预设模型参数k为4时，则对应的训练样本集包含4个训练样本数据；预设模型参数k为5时，则对应的训练样本集包含5个训练样本数据；预设模型参数k为6时，则对应的训练样本集包含6个训练样本数据，以此类推。

在步骤S313中，遍历气体处理数据集中的每一个训练数据，对每一个训练数据进行计算，计算与选取的多个训练样本集中的每一个训练样本数据的距离参数，基于该距离参数得到训练数据与训练样本集的平均距离参数，一个训练数据对多个训练样本集分别有对应的平均距离参数；平均距离参数则是基于训练数据与每一训练样本数据的距离参数的总和与预设模型参数的数值进行计算得到。在可能实施的应用实例中，气体样本数据中的特征参数为三个，分别为硫化氢、氨气、甲硫醇，基于三个特征参数计算空间特征距离，得到对应的距离参数，例如对于第i个样本的特征参数为(a_i,b_i,c_i)，第k个训练样本数据的特征参数为(x_k,y_k,z_k),则距离参数

基于该公式进行计算，得到平均距离参数。

在步骤S314中，确定所有计算得到最小平均距离参数，根据最小值的平均距离参数确定对应的预设模型参数，例如当预设模型参数k为3时所计算得到的平均距离参数为最小时，则确定该预设模型参数k＝3为该气体分类模型的最优模型参数，基于此，气体分类模型构建完成。

在一些实施例中，本申请实施例中具体还包括对生成的气体分类模型的识别准确性进行计算。参考图3，具体还包括步骤：

S321，从气体处理数据集中获取验证样本数据集和测试样本数据集；

S322，计算验证样本数据集和测试样本数据的距离参数；

S323，根据最优模型参数和多个距离参数获取对应的测试样本数据集和测试样本数据集的多个浓度等级标签；

S324，根据多个浓度等级标签和验证样本数据集获取气体分类模型的识别准确率。

在步骤S321中，从气体处理数据集中获取验证样本数据集和测试样本数据集，其中气体处理数据集可以划分为测试样本数据和验证样本数据，测试样本数据集可用于在步骤S311至步骤S315中进行模型训练生成，而验证样本数据集则用于对生成的气体分类模型的识别准确率进行验证。需要说明的是，验证样本数据集中包含多个验证样本数据，测试样本数据集包括多个测试样本数据。验证样本数据集和测试样本数据集中的数据量的分配比例可以根据实际需求进行分配，例如验证样本数据和测试样本数据的比例为7:3。测试样本数据和验证样本数据都有对应的浓度等级标签。其中浓度等级标签可以根据实际需求进行设定，例如浓度等级标签分为七类标签，其中0类标签为无臭，1类标签为无臭气味，2类标签为勉强可感觉气味，3类标签为稍可感觉气味，4类标签为易感觉气味，5类标签为较强气味，6类标签为强烈气味。根据等级标签越大，标识当前气体浓度等级越高，气味越重。

在步骤S322中，分别计算验证样本数据集中每一验证样本数据和测试样本数据集中每一测试样本数据的距离参数，例如针对单个验证样本数据进行说明，即单个验证样本数据与测试样本数据集中每一个测试样本数据进行计算，得到对应的距离参数。

在步骤S323中，针对单个验证样本数据进行说明，根据气体分类模型的最优模型参数以及计算得到的多个距离参数，选取其中对应数量的最小的距离参数所对应的测试样本数据，该选取数量基于最优模型参数进行选取，例如最优模型参数k为4时，则选取4个距离参数最小的所对应的测试样本数据以及测试样本数据的浓度等级标签。

在步骤S324中，根据获取到的多个浓度等级标签以及验证样本数据的数量进行计算，以获取该气体分类模型对验证样本数据集的识别结果，例如根据对不同浓度等级标签进行计数，确定其中数量最多的浓度等级标签作为气体分类模型对验证样本数据集中某一验证样本数据的识别结果，并且根据该浓度等级标签与该验证样本数据实际对应的浓度等级标签进行比对，确定是否一致，若一致则判断为气体分类模型对待测气体数据识别准确，若不一致则判断为气体分类模型对待测气体数据识别不准确。通过计算准确识别的个数和全部的验证样本数据的数量的比例，得到该气体分类模型的识别准确率。

在一些实施例中，参考图4，本申请实施例中还包括：

步骤S325，根据识别准确率对最优模型参数进行调整。

在步骤S325中，基于步骤S324中计算得到的气体分类模型的识别准确率，对气体分类模型的最优模型参数进行适应性调整，例如识别准确率较低，可以重新执行步骤S311至步骤S315，重新获得新的最优模型参数，也可以直接进行最优参数的调整，具体调整方式可以根据实际需求继续调整，本申请实施例不做具体限定。通过对最优模型参数的调整，以提高气体分类模型的识别准确率。

在步骤S400中，将待测气体数据输入到气体分类模型中进行分类预测，以得到对待测气体数据的识别结果，即待测气体数据的浓度等级。在实际应用中，气体分类模型对待测气体数据进行识别后，会得到对应的浓度等级标签，该浓度等级标签作为待测气体数据的浓度等级标签，以确定该待测气体数据的浓度等级。

在一些实施例中，参考图5，本申请实施例中，步骤S400具体还包括步骤：

S410，获取测试样本数据集；

S420，计算待测气体数据和测试样本数据集的多个距离参数；

S430，根据多个距离参数和最优模型参数获取对应的测试样本数据和对应的浓度等级标签；

S440，根据多个浓度等级标签确定待测气体数据的标准浓度等级标签。

在步骤S410中，获取用于对待测气体数据进行识别的测试样本数据集，其中测试样本数据集中包括多个测试样本数据，并且测试样本数据有对应的浓度等级标签，需要说明的是，测试样本数据的数量可以整个气体分类模型的全部训练数据，也可以是部分训练数据，具体数量可以根据实际需求进行选用。

在步骤S420中，计算待测气体数据和测试样本数据集的多个距离参数，通过待测气体数据的特征参数和测试样本数据集中的多个测试样本数据进行空间距离计算，以得到对应的多个距离参数。

在一些实施例中，关于计算待测气体数据和测试样本数据集的距离参数，具体通过获取待测气体数据的待测特征参数和测试样本数据集中的样本特征参数，根据待测特征参数和不同测试样本数据的样本特征参数分别进行计算，以得到待测气体数据与多个测试样本数据对应的距离参数。

需要说明的是，关于本申请实施例中所提到的步骤S313、S322以及步骤S420中关于距离参数或者平均距离参数的计算，均是基于数据的特征参数进行空间距离计算得到，以确定对应的距离参数或者平均距离参数。

在步骤S430中，根据气体分类模型的最优模型参数以及计算得到的待测气体数据与测试样本数据集的多个距离参数，选取其中与最优模型参数对应数量的最小的距离参数，并且确定对应的测试样本数据，该测试样本数据标识有对应的浓度等级标签。该最小距离参数的选取数量基于最优模型参数进行选取，例如最优模型参数k为4时，则选取4个距离参数最小的所对应的测试样本数据以及测试样本数据的浓度等级标签。

在步骤S440中，当获取到多个浓度等级标签后，对浓度等级标签进行计数，确定相同的浓度等级标签有多少个，选取其中数目最多的相同的浓度等级标签作为待测气体数据的标准浓度等级标签，该标准浓度等级标签即是气体分类模型对待测气体数据的识别结果，通过该标准浓度等级标签确定待测气体数据的浓度等级。

在可能实施的应用实例中，以图6为例，预先采集相关的数据，例如多个气体样本数据作为气体样本数据集，对气体样本数据进行预处理后即可移除气体样本数据中的无用数据，得到气体处理数据集，以保证气体处理数据集的有效性。基于气体处理数据集进行建模得到气体分类模型，该气体分类模型具备最优模型参数，对气体分类模型进行模型评估，确定该气体分类模型的可用性及准确性。将生成的气体分类模型进行应用，将待测气体数据作为气体分类模型的输入，以得到待测气体数据所预测分类的标准浓度等级标签，基于该标准浓度等级标签确定待测气体数据的浓度等级。

在本申请实施例中，通过获取气体样本数据集，气体样本数据集包括浓度等级标签，对气体样本数据集进行预处理得到气体处理数据集，根据气体处理数据集进行训练得到气体分类模型，该气体分类模型为KNN模型，通过气体分类模型对待测气体数据进行预测分类，得到标识待测气体数据的浓度等级的标准浓度等级标签，能够通过机器学习的方式对气体浓度进行等级划分，减少人为主观的参与，提高对气体浓度识别的准确率。

第二方面，本申请实施例提供了一种用于执行第一方面实施例中提到的气体浓度识别方法的气体浓度识别系统。

在一些实施例中，参照图7，示出了本申请实施例中气体浓度识别系统的模块示意图。其具体包括：获取模块100、预处理模块200、建模模块300和分类模块400，

其中，获取模块100用于获取气体样本数据集，气体样本数据集包括浓度等级标签；

预处理模块200用于对气体样本数据集进行预处理得到气体处理数据集；

建模模块300用于根据气体处理数据集进行分类学习得到具有最优模型参数的气体分类模型，气体分类模型为KNN模型；

分类模块400用于通过气体分类模型对待测气体数据进行预测分类，得到待测气体数据的标准浓度等级标签，标准浓度等级标签用于标识待测气体数据的浓度等级。

需要说明的是，本申请实施例中所提到的各个功能模块的具体功能及描述已在第一方面实施中详细论述，故不在此赘述。

在本申请实施例中，通过获取模块100获取气体样本数据集，气体样本数据集包括浓度等级标签，预处理模块200对气体样本数据集进行预处理得到气体处理数据集，建模模块300根据气体处理数据集进行训练得到气体分类模型，该气体分类模型为KNN模型，分类模块400通过气体分类模型对待测气体数据进行预测分类，得到标识待测气体数据的浓度等级的标准浓度等级标签，能够通过机器学习的方式对气体浓度进行等级划分，减少人为主观的参与，提高对气体浓度识别的准确率。

第三方面，本申请实施例还提供了一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器；

其中，所述处理器通过调用所述存储器中存储的计算机程序，用于执行第一方面实施例中的气体浓度识别方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序，如本申请第一方面实施例中的气体浓度识别方法。处理器通过运行存储在存储器中的非暂态软件程序以及指令，从而实现上述第一方面实施例中的气体浓度识别方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储执行上述第一方面实施例中的气体浓度识别方法。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现上述第一方面实施例中的气体浓度识别方法所需的非暂态软件程序以及指令存储在存储器中，当被一个或者多个处理器执行时，执行上述第一方面实施例中的气体浓度识别方法。

第四方面，本申请实施例还提供了计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于：执行第一方面实施例中的气体浓度识别方法；

在一些实施例中，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个控制处理器执行，例如，被第三方面实施例的电子设备中的一个处理器执行，可使得上述一个或多个处理器执行上述第一方面实施例中的气体浓度识别方法。

以上所描述的设备实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

在本说明书的描述中，参考术语“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。

Claims

1.气体浓度识别方法，其特征在于，包括：

获取气体样本数据集，所述气体样本数据集包括浓度等级标签；

对所述气体样本数据集进行预处理得到气体处理数据集；

根据所述气体处理数据集进行训练得到气体分类模型，所述气体分类模型为KNN模型；

通过所述气体分类模型对待测气体数据进行预测分类，得到所述待测气体数据的标准浓度等级标签，所述标准浓度等级标签用于标识所述待测气体数据的浓度等级。

2.根据权利要求1所述的气体浓度识别方法，其特征在于，所述根据所述气体处理数据集进行训练得到具有最优模型参数的气体分类模型，包括：

获取多个预设模型参数；

根据所述多个预设模型参数从所述气体处理数据集中选取多个训练样本集；

遍历计算所述气体处理数据集中的每一训练数据与所述多个训练样本集，得到多个平均距离参数；

选取最小平均距离参数所对应的预设模型参数作为所述气体分类模型的最优模型参数。

3.根据权利要求2所述的气体浓度识别方法，其特征在于，还包括：

从所述气体处理数据集中获取验证样本数据集和测试样本数据集；

计算所述验证样本数据集和所述测试样本数据集的距离参数；

根据所述最优模型参数和多个所述距离参数获取对应的测试样本数据集和所述测试样本数据集的多个浓度等级标签；

根据所述多个浓度等级标签和所述验证样本数据集获取所述气体分类模型的识别准确率。

4.根据权利要求3所述的气体浓度识别方法，其特征在于，还包括：

根据所述识别准确率对所述最优模型参数进行调整。

5.根据权利要求4所述的气体浓度识别方法，其特征在于，所述通过所述气体分类模型对待测气体数据进行预测分类，得到所述待测气体数据的标准浓度等级标签，包括：

获取测试样本数据集，所述测试样本数据集包括多个测试样本数据和多个浓度等级标签；

计算所述待测气体数据和所述测试样本数据集的多个距离参数；

根据所述多个距离参数和所述最优模型参数获取对应的所述测试样本数据和对应的浓度等级标签；

根据所述多个浓度等级标签确定所述待测气体数据的标准浓度等级标签。

6.根据权利要求5所述的气体浓度识别方法，其特征在于，所述计算所述待测气体数据和所述测试样本数据集的多个距离参数，包括：

获取所述待测气体数据的待测特征参数，获取所述测试样本数据集的样本特征参数；

根据所述待测特征参数和所述样本特征参数计算得到所述距离参数。

7.根据权利要求1所述的气体浓度识别方法，其特征在于，所述对所述气体样本数据集进行预处理得到气体处理数据，包括：

根据预设的无用特征获取所述气体样本数据集中的无用数据；

移除所述无用数据得到所述气体处理数据集。

8.气体浓度识别系统，其特征在于，包括：

获取模块，所述获取模块用于获取气体样本数据集，所述气体样本数据集包括浓度等级标签；

预处理模块，所述预处理模块用于对所述气体样本数据集进行预处理得到气体处理数据集；

建模模块，所述建模模块用于根据所述气体处理数据集进行分类学习得到具有最优模型参数的气体分类模型，所述气体分类模型为KNN模型；

分类模块，所述分类模块用于通过所述气体分类模型对待测气体数据进行预测分类，得到所述待测气体数据的标准浓度等级标签，所述标准浓度等级标签用于标识所述待测气体数据的浓度等级。

9.电子设备，其特征在于，包括：

至少一个处理器，以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行所述指令时实现如权利要求1至7任一项所述的气体浓度识别方法。

10.计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至7任一项所述的气体浓度识别方法。