CN114970772B

CN114970772B - 用于肺部疾病检测的模型训练方法、设备、装置和介质

Info

Publication number: CN114970772B
Application number: CN202210883388.9A
Authority: CN
Inventors: 熊先华; 刘立波; 董骧
Original assignee: Beijing Natong Medical Robot Technology Co ltd
Current assignee: Beijing Natong Medical Robot Technology Co ltd
Priority date: 2022-07-26
Filing date: 2022-07-26
Publication date: 2022-11-04
Anticipated expiration: 2042-07-26
Also published as: CN114970772A

Abstract

本公开提供了一种用于肺部疾病检测的模型训练方法、设备、装置和介质，其中，方法包括：获取样本数据的集合，样本数据用于指示对应受试者的身体状态、呼出气体的气体检测信息和受试者所处环境的环境信息；获取集合中各样本数据的标注，标注用于指示对应样本数据中的受试者是否具有目标肺部疾病；采用经过标注的样本数据的集合，对识别模型进行训练，以得到经过训练的目标识别模型。由此，同时基于受试者的身体状态、受试者呼出气体的气体检测信息和受试者所处环境的环境信息，对识别模型进行训练，可以提升模型的预测效果，即提升模型预测结果的准确性和可靠性。

Description

用于肺部疾病检测的模型训练方法、设备、装置和介质

技术领域

本公开涉及医疗检测设备技术领域，尤其涉及一种用于肺部疾病检测的模型训练方法、设备、装置和介质。

背景技术

肺部是人体重要的呼吸道器官，用于过滤人们吸入进肺部的气体。如果人们在生活中未重视对肺部的保护，可能会增加人们患上肺部疾病的概率。由于部分肺部疾病无法根治、不可完全逆转，甚至危及患者生命，因此，如何实现对肺部疾病进行自动检测，以使患者能够及时发现肺部疾病，是很有必要的。

发明内容

本公开提供了一种用于肺部疾病检测的模型训练方法、设备、装置和介质，以至少在一定程度上解决相关技术中的技术问题之一。本公开的技术方案如下：

根据本公开的一方面，提供了一种用于肺部疾病检测的模型训练方法，包括：

获取样本数据的集合；其中，所述样本数据用于指示对应受试者的身体状态、所述受试者呼出气体的气体检测信息和所述受试者所处环境的环境信息；

获取所述集合中各所述样本数据的标注，其中，所述标注，用于指示对应样本数据中的受试者是否具有目标肺部疾病；

采用经过标注的样本数据的集合，对识别模型进行训练，以得到经过训练的目标识别模型。

根据本公开的另一方面，提供了一种电子设备，所述电子设备包括存储器，收发机，处理器；

存储器，用于存储计算机程序；收发机，用于在所述处理器的控制下收发数据；处理器，用于读取所述存储器中的计算机程序并执行以下操作：

根据本公开的又一方面，提供了另一种电子设备，所述电子设备包括存储器，收发机，处理器；

获取待处理数据，其中，所述待处理数据包括检测者的身体状态、所述检测者呼出气体的气体检测信息和所述检测者所处环境的环境信息；

采用目标识别模型对所述待处理数据进行识别，以得到关键信息；其中，所述关键信息，用于指示所述检测者是否具有目标肺部疾病。

根据本公开的又一方面，提供了一种用于肺部疾病检测的模型训练装置，包括：

第一获取模块，用于获取样本数据的集合；其中，所述样本数据用于指示对应受试者的身体状态、所述受试者呼出气体的气体检测信息和所述受试者所处环境的环境信息；

第二获取模块，用于获取所述集合中各所述样本数据的标注，其中，所述标注，用于指示对应样本数据中的受试者是否具有目标肺部疾病；

训练模块，用于采用经过标注的样本数据的集合，对识别模型进行训练，以得到经过训练的目标识别模型。

根据本公开的又一方面，提供了一种肺部疾病检测装置，包括：

获取模块，用于获取待处理数据，其中，所述待处理数据包括检测者的身体状态、所述检测者呼出气体的气体检测信息和所述检测者所处环境的环境信息；

识别模块，用于采用目标识别模型对所述待处理数据进行识别，以得到关键信息；其中，所述关键信息，用于指示所述检测者是否具有目标肺部疾病。

根据本公开的再一方面，提供了一种计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开上述一方面提出的用于肺部疾病检测的模型训练方法。

根据本公开的还一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开上述一方面提出的用于肺部疾病检测的模型训练方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

获取样本数据的集合；其中，样本数据用于指示对应受试者的身体状态、受试者呼出气体的气体检测信息和受试者所处环境的环境信息；获取集合中各样本数据的标注，其中，标注，用于指示对应样本数据中的受试者是否具有目标肺部疾病；采用经过标注的样本数据的集合，对识别模型进行训练，以得到经过训练的目标识别模型。由此，同时基于受试者的身体状态、受试者呼出气体的气体检测信息和受试者所处环境的环境信息，对识别模型进行训练，可以提升模型的预测效果，即提升模型预测结果的准确性和可靠性。

本公开附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为二维空间最优超平面示意图；

图2为本公开实施例一所提供的用于肺部疾病检测的模型训练方法的流程示意图；

图3为本公开实施例二所提供的用于肺部疾病检测的模型训练方法的流程示意图；

图4为本公开所提供的电压信号最大值示意图；

图5为本公开所提供的电压信号最大正斜率示意图；

图6为本公开所提供的电压信号最大负斜率示意图；

图7为本公开所提东的电压信号全峰面积示意图；

图8为本公开所提供的电压信号半峰宽示意图；

图9为本公开实施例三所提供的用于肺部疾病检测的模型训练方法的流程示意图；

图10为本公开实施例四所提供的用于肺部疾病检测的模型训练方法的流程示意图；

图11为本公开实施例五所提供的肺部疾病检测方法的流程示意图；

图12为根据本公开实施例所提供的一种电子设备的结构示意图；

图13为根据本公开实施例所提供的另一种电子设备的结构示意图；

图14为本公开一实施例所提供的用于肺部疾病检测的模型训练装置的结构示意图；

图15为本公开一实施例所提供的肺部疾病检测装置的结构示意图；

图16示出了适于用来实现本公开实施方式的示例性电子设备的框图。

具体实施方式

下面详细描述本公开的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本公开，而不能理解为对本公开的限制。

目前，相关技术中，在对受试者呼出气体中的挥发性有机物的信号进行处理时，选择部分有机物的信号，并根据这部分有机物的信号建立数据模型，得出参数指标，从而建立参数指标与肺部疾病（比如肺癌）之间的对应关系，以达到肺部疾病检测的目的。

然而，上述模型存在的不足之处有：

1.在患有肺部疾病的患者的呼出气体中，与肺部疾病有关的挥发性有机物质较多，目前在医学中尚未达成一个共识，用于确定患者是否患有肺部疾病的挥发性有机物质的种类尚不明确，模型的普适性不高。

2.上述模型只是针对几种待测的挥发性有机物质的浓度值进行处理与建模，但是模型中依赖的这几种待测的挥发性有机物质的浓度值，在实际检测工作中，容易受环境状态影响，模型的可靠性不高。

3.在建立上述模型过程中，没有考虑到受试者的身体状态对挥发性有机物的信号的影响。

针对上述问题，本公开提出一种用于肺部疾病检测的模型训练方法、设备、装置和介质。

下面参考附图描述本公开实施例的用于肺部疾病检测的模型训练方法、设备、装置和介质。在具体描述本公开实施例之前，为了便于理解，首先对常用技术词进行介绍：

支持向量机（Support Vector Machine, 简称SVM）：是一类按监督学习（supervised learning）方式对数据进行二元分类的广义线性分类器（generalizedlinear classifier），其决策边界是对学习样本求解的最大边距超平面（maximum-marginhyperplane）。

其中，SVM的基本思想是将样本数据非线性的映射到一个更高维的特征空间（希尔伯特空间（Hilbert space））中，在这个高维的特征空间中寻找一个超平面使得正例和反例两者间的隔离边缘被最大化，这个超平面又可以称为最优超平面。

作为一种示例，以利用二维空间中两类问题寻找最优超平面，来对SVM的基本思想进行示例性说明，C₁和C₂表示两类数据样本，C₁和C₂在二维空间中显示如图1中所示，图1中的直线P0和直线P1均可以将数据样本完全分为两类，直线P0和直线P1可以被称为线性分类函数。如果一个线性函数可以完全地将两类数据样本分开，那么就称这些样本数据是线性可分的；否则称样本数据是非线性可分的。

希尔伯特空间（Hilbert space）：又称为Hilbert空间，是一个内积空间，其不再局限于有限维的情形。

核函数变换的基本思想为：支持向量机通过某种非线性变换ɸ，将n维输入空间中矢量X映射到高维特征空间，其中，该高维特征空间的维数可能非常高，使得计算变得复杂。如果支持向量机的求解，又可以说在高维特征空间构造分类面（或者称为超平面）时，只运用到空间中内积运算，没有运用到单独的ɸ(X)，而在低维输入空间又存在某个函数K(X,X')，它恰好等于在高维空间中的内积，即K(X,X')=〈ɸ(X),ɸ(X')〉，那么支持向量机可以不用计算复杂的非线性变换，而由函数K(X,X')直接得到非线性变换的内积，极大的简化了计算，而这样的函数K(X,X')称为核函数。

其中，核函数有：线性核函数、多项式核函数、径向基核函数（Radial BasisFunction kernel，简称RBF kernel）、Sigmoid函数等。

线性核函数的表达式可以为：K(X,X')=〈X,X'〉；（1）

多项式核函数的表达式可以为：K(X,X')=[〈X,X'〉+1]^d；（2）

公式（2）中，d为多项式的阶，d可以为正整数。

RBF核函数的表达式可以为：K(X_i,X)=exp﹛﹣║X-X'║²/(2σ²)﹜；（3）

公式（3）中，σ为超参数。

Sigmoid函数的表达式为：K(X,X')=tanh[ν〈X,X'〉+a]；（4）

公式（4）中，ν和a为参数。

图2为本公开实施例一所提供的用于肺部疾病检测的模型训练方法的流程示意图。

本公开实施例以该用于肺部疾病检测的模型训练方法被配置于用于肺部疾病检测的模型训练装置中来举例说明，该用于肺部疾病检测的模型训练装置可以应用于任一电子设备中，以使该电子设备可以执行用于肺部疾病检测的模型训练功能。

其中，电子设备可以为任一具有计算能力的设备，例如可以为医疗检测设备、个人电脑、移动终端、服务器等，移动终端例如可以为手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。

如图2所示，该用于肺部疾病检测的模型训练方法可以包括以下步骤：

步骤201，获取样本数据的集合；其中，样本数据用于指示对应受试者的身体状态、受试者呼出气体的气体检测信息和受试者所处环境的环境信息。

在本公开实施例中，受试者可以包括患有（或具有）目标肺部疾病的受试者和/或未患有（或未具有）目标肺部疾病的受试者。其中，受试者的个数可以为一个，或者也可以为多个，本公开对此不做限制。

在本公开实施例中，样本数据的集合中可以包括至少一个样本数据，其中，每个样本数据与一个受试者对应，用于指示对应受试者的身体状态、对应受试者呼出气体的气体检测信息和对应受试者所处环境的环境信息。

其中，受试者的身体状态可以包括受试者的吸咽类状况、饮酒状况、咳嗽、咳痰、咯血、胸痛、胸闷、喘累、呼吸困难、消瘦、发热、声音嘶哑、其它疼痛、麻木、杵状指等信息，本公开对此不做限制。

在本公开实施例的一种可能的实现方式中，受试者的身体状态可以在线采集或者线下采集，比如，可以通过在线或者线下调查问卷采集，或者，通过人工检查采集，等等，本公开对此不做限制。

在本公开实施例的另一种可能的实现方式中，受试者的身体状态可以以数值形式存储于数据库中，以便于从数据库中获取受试者的身体状态，并根据受试者的身体状态生成样本数据。

比如，当受试者的身体状态为受试者的吸烟类状况时，可以用0代表不吸烟的情形，用1代表每日吸烟次数大于0次且小于10次的情形，用2代表每日吸烟次数大于或者等于10次的情形，并将代表各受试者吸烟类状况的数值与各受试者进行对应存储，存储于数据库中。

需要说明的是，与上述对受试者吸烟类状况用数值做对应存储类似，也可以对受试者的其他身体状态用数值形式做对应存储。

还需要说明的是，本公开上述对受试者吸烟类状况进行的分类及采用的数值仅是示例行的，在实际应用中，也可以根据不同的需求对受试者吸烟类状况进行其他类型的分类，和/或，采用其他的数值。

比如，可以用1代表不吸烟的情形，用0代表每日吸烟次数大于0次且小于10次的情形，用-1代表每日吸烟次数大于或者等于10次的情形，等等。

在本公开实施例中，受试者呼出气体的气体检测信息是对受试者呼出气体进行检测而获得的信息。其中，受试者呼出气体的气体检测信息可以包括呼出气体中挥发性有机物的浓度等信息，本公开对此不做限制。

在本公开实施例中，在对受试者呼出气体进行检测时，可以同时检测受试者所处环境的环境信息。其中，环境信息可以包括环境温度信息、空气湿度信息、压力信息、设备的供电电压信息等，本公开对此不做限制。

在本公开实施例的一种可能的实现方式中，受试者呼出气体的气体检测信息和受试者所处环境的环境信息可以存储于数据处理系统、数据库或目标文件（比如txt文件）中，以从数据处理系统、数据库或目标文件中，获取受试者呼出气体的气体检测信息和受试者所处环境的环境信息。其中，受试者呼出气体的气体检测信息和受试者所处环境的环境信息可以存储在文本文档格式的文件中，并将上述文件存储于数据处理系统中。

步骤202，获取集合中各样本数据的标注，其中，标注，用于指示对应样本数据中的受试者是否具有目标肺部疾病。

在本公开实施例中，目标肺部疾病是指待识别的肺部疾病，比如肺癌。

在本公开实施例中，在获取样本数据的集合后，可以获取集合中各样本数据的标注。

在本公开实施例的一种可能的实现方式，可以通过人工标注的方式，对集合中的各样本数据进行标注，得到各样本数据对应的标注（或称为标注信息）。

需要说明的是，当样本数据较少时，可以采用人工标注的方式，操作简单且准确率较高，比如可以通过目标肺部疾病领域的专家，对各样本数据进行标注，得到各样本数据对应的标注。但是，当样本数据较多时，如果继续采用人工标注的方式，不仅费时费力，而且成本较高，还易造成人力资源浪费。因此，作为本公开实施例的一种可能的实现方式，在样本数据的数量大于第一设定个数（比如，300、500、700等）的情况下，可以采用机器标注的方式，对样本数据进行标注，即可以采用经过训练好的标注模型对样本数据进行标注，同时，为了提升标注结果的准确性和可靠性，还可以由人工对机器标注结果进行审核，以对机器标注错误的样本数据进行修正。

步骤203，采用经过标注的样本数据的集合，对识别模型进行训练，以得到经过训练的目标识别模型。

在本公开实施例中，可以采用经过标注的样本数据的集合，对识别模型进行训练，以得到经过训练的目标识别模型。可以理解的是，通过对识别模型进行训练，可以使得经过训练后的目标识别模型学习到样本数据和目标肺部疾病之间的对应关系，从而在获取到新的样本数据后，能够自动识别该样本数据中的受试者是否具有目标肺部疾病。

需要说明的是，本公开对识别模型的结构和类型不作限制。

在本公开实施例的一种可能的实现方式中，识别模型可以采用支持向量机（Support Vector Machine, 简称SVM）二分类模型；其中，SVM二分类模型的激活函数采用径向基（Radial Basis Function，简称RBF）核函数。

在本公开实施例的另一种可能的实现方式中，识别模型还可以采用前馈（BackPropagation，简称BP）神经网络等模型。

其中，识别模型可以采用K最邻近（K-Nearest Neighbor，简称KNN）算法、Fisher线性判别等机器学习算法，本公开对此不做限制。

需要说明的是，在识别模型为SVM二分类模型的情况下，SVM二分类模型的激活函数还可以采用线性函数，或者也可以采用多项式函数，或者也可以采用Sigmoid函数等，本公开对此不做限制。

需要说明的是，样本数据的个数是有限的，为了能够根据有限的样本数据，对识别模型进行训练，提高目标识别模型的稳定性和准确性，在本公开实施例的一种可能的实现方式中，可以对集合中的样本数据进行分组，以得到k个子集；其中k为大于1的自然数；根据k个子集，采用k折交叉验证算法，对识别模型进行训练，以确定模型超参数。

在本公开实施例中，k为预先设定的，且k为大于1的自然数，比如，k可以为5、7等等，本公开对此不做限制。

在本公开实施例中，k个子集中的任意两个子集的交集为空集。

在本公开实施例中，模型超参数比如可以包括惩罚因子、识别模型的激活函数的超参数等等，本公开对此不做限制。

在本公开实施例中，在得到k个子集后，可以根据k个子集，采用k折交叉验证算法，对识别模型进行训练，以确定模型超参数。

作为一种示例，在根据k个子集，采用k折交叉验证算法，对识别模型进行训练时，可以依次选取k个子集中的一个子集作为测试集，将除测试集之外的剩余子集作为训练集，本公开中，可以根据训练集对识别模型进行训练，得到对应的模型超参数，并采用经过训练的识别模型对测试集进行测试，以根据测试结果确定模型的评估指标（比如准确率、召回率等），从而可以根据评估指标，校验模型超参数的合理性、可用性或可信度。比如，可以求取各评估指标的均值，当评估指标大于均值时，表明对应的模型超参数可用，而当评估指标小于均值时，表明对应的模型超参数不可用。

本公开中，可以根据可用的模型超参数，确定最终的模型超参数。比如，可以将最大评估指标对应的模型超参数，作为最终的模型超参数，或者，可以对可用的模型超参数求取均值，将均值作为最终的模型超参数，或者，可以对可用的模型超参数进行加权求和，得到最终的模型超参数，等等，本公开对此并不做限制。其中，模型超参数为一组数据。

比如，根据经验值选定了模型超参数1，可以通过不重复抽样将样本数据分为5个子集，分别为子集1、子集2、子集3、子集4和子集5，可以选取子集1作为测试集，将子集2、子集3、子集4和子集5生成的集合作为训练集，并根据训练集对识别模型进行训练，并采用经过训练的识别模型对子集1进行测试，以得到模型的中间评估指标；再选取子集2作为测试集，将子集1、子集3、子集4和子集5生成的集合作为训练集，并根据训练集对识别模型进行训练，并采用经过训练的识别模型对子集2进行测试，以得到模型的中间评估指标2；依次选取子集3、子集4、子集5作为测试集，并重复执行上述操作，总共可以得到5个中间评估指标。

从而本公开中，可以采用设定规则，从5个中间评估指标中确定模型超参数1对应的评估指标，比如，可以将5个中间评估指标中的最大值、均值、中间值、加权平均值等，作为模型超参数1对应的评估指标，从而可以根据模型超参数1对应的评估指标，校验模型超参数1的合理性、可用性或可信度。在确定模型超参数1可用时，可将该模型超参数1作为确定识别模型对应的最终模型超参数。

通过上述方式，可以确定各模型超参数的评估指标，比如，当共有5个模型超参数时，可以对每个模型超参数进行5次训练与测试，即一共进行25次训练与测试，即可得到各模型超参数对应的评估指标。进而可以根据各模型超参数的评估指标，确定识别模型对应的最终模型超参数。

作为一种示例，在实际应用中，以激活函数采用径向基RBF核函数的SVM二分类模型作为识别模型进行示例，模型超参数可以包括惩罚因子C和RBF核函数的参数σ，对识别模型采用5折交叉验证算法，确定C的取值范围为[1,10]，σ的取值范围为[-8,5]时，识别模型具有最佳的预测效果。

本公开实施例的用于肺部疾病检测的模型训练方法，通过获取样本数据的集合；其中，样本数据用于指示对应受试者的身体状态、受试者呼出气体的气体检测信息和受试者所处环境的环境信息；获取集合中各样本数据的标注，其中，标注，用于指示对应样本数据中的受试者是否具有目标肺部疾病；采用经过标注的样本数据的集合，对识别模型进行训练，以得到经过训练的目标识别模型。由此，同时基于受试者的身体状态、受试者呼出气体的气体检测信息和受试者所处环境的环境信息，对识别模型进行训练，可以提升模型的预测效果，即提升模型预测结果的准确性和可靠性。

为了清楚说明本公开上述实施例是如何获取样本数据的集合的，本公开还提出一种用于肺部疾病检测的模型训练方法。

图3为本公开实施例二所提供的用于肺部疾病检测的模型训练方法的流程示意图。

如图3所示，该用于肺部疾病检测的模型训练方法可以包括以下步骤：

步骤301，获取多个受试者中任意一个目标受试者的多个采样时刻下的气体检测数据和环境检测数据。

在本公开实施例中，目标受试者可以为多个受试者中的任意一个受试者。针对任一目标受试者，可以采用传感器或者检测器，对该目标受试者呼出的气体进行检测，以采集得到多个采样时刻下目标受试者呼出气体的气体检测数据。且，可以在相同的采样时刻下，对该目标受试者所处的环境进行检测，以采集得到上述多个采样时刻下目标受试者所处环境的环境检测数据。

比如，可以采用气体传感器阵列对受试者呼出气体进行检测。在采用气体传感器阵列对受试者呼出气体进行检测时，可以获取气体传感器阵列在多个采样时刻下反馈的电压信号（在本公开记为气体检测数据），该电压信号用于指示挥发性有机物的浓度等。并且，可以通过环境监测传感器对受试者所处环境进行检测，以采集上述多个采样时刻下受试者所处环境的环境检测数据。

需要说明的是，采集到的多个采样时刻下的气体检测数据和环境检测数据可能存在缺失数据，因此，作为本公开实施例的一种可能的实现方式，在采集到多个采样时刻下的气体检测数据和环境检测数据后，可以对气体检测数据和环境检测数据进行检测，以确定气体检测数据和环境检测数据中是否存在缺失数据；在确定气体检测数据和/或环境检测数据中存在缺失数据的情况下，可以对缺失数据进行填补，以实现提升数据的完整，便于后续的数据处理。

在本公开实施例中，对缺失数据进行填补，可以采用比如线性插值等方法，本公开对此不做限制。

还需要说明的是，采集到的多个采样时刻下的气体检测数据和环境检测数据可能存在异常值（或称为噪声），因此，在本公开实施例的一种可能的实现方式中，可以采用均值滤波算法，对多个采样时刻下的气体检测数据进行滤波，和/或，对多个采样时刻下的环境检测数据进行滤波，以去除异常值和噪声，从而提升模型的稳定性。

比如，可以根据以下公式，对数据进行滤波处理：

；（5）

其中，x_i表示某一个维度下第i个样本数据中对应维度的取值，i=n-1,…,m，m>>n，m为样本数据总个数，n为设定取值，比如n可以为15，y_i表示对x_i基于该维度下第i个样本数据之前的n-2个样本数据按照公式（5）进行滤波操作后的数值，x_max和x_min分别为该维度下样本数据[x_i,x_i-1,…,x_i-n+1]中的最大值和最小值。

步骤302，根据多个采样时刻下的气体检测数据，进行特征提取，以将提取到的气体检测数据的统计特征作为目标受试者的气体检测信息。

在本公开实施例中，可以对多个采样时刻下的气体检测数据进行特征提取，从而将提取到的气体检测数据的统计特征作为目标受试者的气体检测信息。

作为本公开实施例的一种可能的实现方式，气体检测数据的统计特征，可以包括多个采样时刻下气体检测数据中的最大值、最大正斜率、最大负斜率、全峰面积和半峰宽中的一个，或者，气体检测数据的统计特征也可以包括多个采样时刻下气体检测数据中的最大值、最大正斜率、最大负斜率、全峰面积和半峰宽中的多个，本公开对此不做限制。

在本公开实施例中，正斜率指的是电压信号上升曲线切线的斜率，其中，上升曲线切线的斜率中最大值为最大正斜率。

在本公开实施例中，负斜率指的是电压信号下降曲线切线的斜率的绝对值，其中，下降曲线切线的斜率的绝对值中的最大值为最大负斜率。

在本公开实施例中，全峰面积指的是电压信号曲线与基线围成区域的面积，其中，基线是采用传感器采集空气中惰性气体的电压信号所确定的直线。

在本公开实施例中，半峰宽指的是呼出气体电压信号起始位置至电压信号最大值位置所用的时间。

作为一种示例，当气体检测数据的统计特征，包括多个采样时刻下气体检测数据中的最大值、最大正斜率、最大负斜率、全峰面积和半峰宽时，针对任一目标受试者，可以对该目标受试者的多个采样时刻下的气体检测数据进行特征提取，从而将提取到的气体检测数据的最大值、最大正斜率、最大负斜率、全峰面积和半峰宽，作为该目标受试者的气体检测信息。

比如，在对任一目标受试者呼出的气体进行检测时，可以采用22路气体传感器，其中，每一路传感器反馈的是呼出气体中一种挥发性有机物的电压信号。针对任一路传感器，在采集到多个采样时刻下的电压信号后，可以提取电压信号的最大值（如图4所示）、最大正斜率（如图5所示）、最大负斜率（如图6所示）、全峰面积（如图7所示）、半峰宽（如图8所示）这5个统计特征，作为该目标受试者呼出气体中对应挥发性有机物的气体检测信息。与之相对应的，针对22路气体传感器，将对应的110个统计特征作为该目标受试者呼出气体的气体检测信息。

步骤303，根据多个采样时刻下的环境检测数据，进行特征提取，以将提取到的环境检测数据的统计特征作为目标受试者的环境信息。

在本公开实施例中，可以对多个采样时刻下的环境检测数据进行特征提取，从而将提取到的环境检测数据的统计特征作为目标受试者的环境信息。

作为本公开实施例的一种可能的实现方式，环境检测数据的统计特征，可以包括多个采样时刻下环境检测数据的平均值。

具体而言，可以对多个采样时刻下的环境检测数据求取平均值，并将该平均值作为目标受试者的环境信息。

比如，环境信息包括温度信息、湿度信息、压力信息、供电电压信息这4路信息，针对任一目标受试者，对7个采样时刻下的环境检测数据进行特征提取时，分别对7个采样时刻下的温度、湿度、压力、供电电压求取平均值，并将温度、湿度、压力和供电电压分别对应的平均值作为目标受试者的环境信息。

步骤304，根据目标受试者的气体检测信息、目标受试者的环境信息和目标受试者的身体状态，分别确定目标受试者的样本数据中对应的维度的取值。

在本公开实施例中，针对任一目标受试者，可以根据目标受试者的气体检测信息、目标受试者的环境信息和目标受试者的身体状态，分别确定该目标受试者的样本数据中对应的维度的取值。

作为一种示例，针对任一目标受试者，可以根据目标受试者的身体状态，确定该目标受试者的样本数据中对应维度的取值。

需要解释的是，采集到的目标受试者身体状态可以包括多个，该多个身体状态中可以存在至少两个状态具有关联关系，且其共同决定了目标受试者的样本数据中对应维度的取值。比如，目标受试者的身体状态包括咳嗽、咳痰、胸闷、呼吸困难、胸痛、咳血、消瘦，其中，咳嗽和咳痰之间具有关联关系，其共同决定了该目标受试者的样本数据中维度L对应的取值；再比如，上述例子中，胸闷、呼吸困难及胸痛之间具有关联关系，其共同决定了该目标受试者的样本数据中维度K对应的取值。

需要说明的是，上述例子仅是示例性的，实际应用中，可以根据需要，确定目标受试者的身体状态在该目标受试者的样本数据中对应维度的取值。

作为另一种示例，针对任一目标受试者，可以根据目标受试者的气体检测信息，确定该目标受试者的样本数据中对应维度的取值。

同上述情况类似，采集到的目标受试者的气体检测信息可以包括多个信息，该多个信息中可以存在至少两个信息具有关联关系，其共同决定了目标受试者的样本数据中对应维度的取值。

作为再一种示例，针对任一目标受试者，可以根据目标受试者的环境信息，确定该目标受试者的样本数据中对应维度的取值。

同上述情况类似，采集到的目标受试者的环境信息可以包括多个信息，该多个信息中可以存在至少两个信息具有关联关系，其共同决定了目标受试者的样本数据中对应维度的取值。

步骤305，获取各样本数据的标注，其中，标注，用于指示对应样本数据中的受试者是否具有目标肺部疾病。

步骤306，采用经过标注的样本数据的集合，对识别模型进行训练，以得到经过训练的目标识别模型。

步骤305至306的执行过程可以参见本公开任一实施例的执行过程，在此不做赘述。

本公开实施例的用于肺部疾病检测的模型训练方法，通过采用传感器对多个受试者中任意的一个目标受试者，采集多个采样时刻下的气体检测数据和环境检测数据；根据多个采样时刻下的气体检测数据，进行特征提取，以将提取到的气体检测数据的统计特征作为目标受试者的气体检测信息；根据多个采样时刻下的环境检测数据，进行特征提取，以将提取到的环境检测数据的统计特征作为目标受试者的环境信息；根据目标受试者的气体检测信息、目标受试者的环境信息和目标受试者的身体状态，分别确定目标受试者的样本数据中对应的维度的取值。由此，可以实现通过传感器有效获取目标受试者的气体检测数据和环境检测数据，从而可以对目标受试者的气体检测数据和环境检测数据的特征进行有效提取，得到目标受试者的气体检测信息和环境信息，从而可以根据上述信息，有效构建样本数据。

需要说明的是，获取到的样本数据集合中，各样本数据均可以包括多个维度。针对任一具有多个维度的样本数据，可能存在异常值，或者各样本数据在同一维度下的取值相差较大，从而采用上述样本数据对识别模型进行训练，将无法保证识别模型预测结果的准确性。因此，为了提高模型预测结果的准确性和稳定性，本公开还提出一种用于肺部疾病检测的模型训练方法。

图9为本公开实施例三所提供的用于肺部疾病检测的模型训练方法的流程示意图。

如图9所示，该用于肺部疾病检测的模型训练方法可以包括以下步骤：

步骤901，获取样本数据的集合；其中，样本数据用于指示对应受试者的身体状态、受试者呼出气体的气体检测信息和受试者所处环境的环境信息。

步骤902，获取集合中各样本数据的标注，其中，标注，用于指示对应样本数据中的受试者是否具有目标肺部疾病。

步骤901至902的执行过程可以参见本公开任一实施例的执行过程，在此不做赘述。

步骤903，根据各维度的取值范围，对集合中的样本数据，剔除异常数据，以得到保留的训练样本；其中，异常数据中取值未处于对应维度的取值范围内的维度数量为至少设定数目。

在本公开实施例中，针对集合中的各样本数据，同一维度下的数据可以具有对应的取值范围。其中，各维度的取值范围可以是根据人工经验设置的，或者也可以是根据实际应用需求动态调整的，或者也可以是在实际实验数据基础上得出的等等，本公开对此不做限制。

在本公开实施例中，设定数目为预先设定的数目，且设定数目可以小于样本数据包括的维度个数。比如，样本数据的维度个数为15，设定数目的取值可以为3、5等等，本公开对此不做限制。

在本公开实施例中，针对任一受试者，可以根据各维度对应的取值范围，对该受试者的样本数据进行逐维度检测。在对该受试者的样本数据进行逐维度检测过程中，可以将该样本数据中各维度下的取值与对应维度的取值范围进行比较，当该样本数据中取值未处于对应维度的取值范围内的维度数量为至少设定数目时，在本公开中，可以将此样本数据记为异常数据。

比如，样本数据的维度为15，设定数目为5，针对任一受试者，在对该受试者的样本数据中的15个维度的取值进行逐个检测时，当某个维度的取值未处于对应维度的取值范围内时，可以将该取值对应的维度标记异常标签，在完成对该样本数据中的15个维度的取值进行逐个检测后，通过统计算法，获取具有异常标签的维度数量。在具有异常标签的维度数量至少为5个的情况下，确定该样本数据为异常数据。

在本公开实施例中，根据各维度的取值范围，可以对集合中的样本数据进行检测，以确定集合中是否存在异常数据，在确定存在异常数据后，可以从集合中剔除该异常数据，以得到保留的训练样本。

需要理解的是，为了提高模型的收敛速度和模型精度，保证模型的稳定性，在本公开实施例的一种可能的实现方式中，可以根据集合中保留的多个训练样本在至少一个维度上的取值，进行对应维度的取值归一化处理。

作为一种示例，当集合中保留的多个训练样本在某一个维度上的取值，服从正态分布时，比如，可以通过公式（6）、（7）和（8）对该维度上的取值进行归一化处理，并用新的取值代替该维度上的取值，使得归一化处理后的数据符合标准正态分布：

；（6）

；（7）

；（8）

其中，x_i为保留的训练样本中第i个样本中该维度上对应的取值，保留的训练样本个数为N个，

为N个训练样本中该维度上对应取值的平均值，s²为训练样本方差，x_i ^new代替x_i作为第i个样本中该维度上对应的取值。

步骤904，采用保留的训练样本，对识别模型进行训练，以得到经过训练的目标识别模型。

在本公开实施例中，可以采用保留的训练样本，对识别模型进行训练，从而得到经过训练的目标识别模型。

本公开实施例的用于肺部疾病检测的模型训练方法，通过根据各维度的取值范围，对集合中的样本数据，剔除异常数据，以得到保留的训练样本；其中，异常数据中取值未处于对应维度的取值范围内的维度数量为至少设定数目；采用保留的训练样本，对识别模型进行训练，以得到经过训练的目标识别模型。由此，通过从集合中的各样本数据中，剔除异常数据，从而基于保留的训练样本，对识别模型进行训练，可以提升经过训练的目标识别模型的预测效果，即提升模型预测结果的可靠性和准确性。

作为本公开实施例的一种可能的实现方式，在识别模型为支持向量机SVM二分类模型的情况下，为了清楚说明本公开中是如何对SVM二分类模型进行训练的，本公开还提出一种用于肺部疾病检测的模型训练方法。

图10为本公开实施例四所提供的用于肺部疾病检测的模型训练方法的流程示意图。

如图10所示，该用于肺部疾病检测的模型训练方法可以包括以下步骤：

步骤1001，获取样本数据的集合；其中，样本数据用于指示对应受试者的身体状态、受试者呼出气体的气体检测信息和受试者所处环境的环境信息。

步骤1002，获取集合中各所述样本数据的标注，其中，标注，用于指示对应样本数据中的受试者是否具有目标肺部疾病。

步骤1001至1002的执行过程可以参见本公开任一实施例的执行过程，在此不做赘述。

步骤1003，采用经过标注的样本数据的集合，对SVM二分类模型进行训练，以得到经过训练的目标识别模型。

在本公开实施例中，SVM二分类模型的激活函数可以采用径向基RBF核函数。

在本公开实施例中，可以采用经过标注的样本数据的集合，对SVM二分类模型进行训练，从而得到经过训练的目标识别模型。

具体而言，SVM二分类模型可以将样本数据非线性地映射到一个更高维的特征空间（Hilbert空间）中，在这个高维的特征空间中可以寻找一个最优超平面（又称最优分类面），使得正例（比如，具有目标肺部疾病的受试者的样本数据）和反例（比如，未具有目标肺部疾病的受试者的样本数据）两者间的隔离边缘被最大化，从而可以线性地将样本数据分为两类，一类为具有目标肺部疾病的受试者的样本数据，另一类为未具有目标肺部疾病的受试者的样本数据。

作为一种示例，以将N个受试者的样本数据分为两类（一类为具有目标肺部疾病的受试者的样本数据（比如类别1），另一类为未具有目标肺部疾病的受试者的样本数据（比如类别2））的SVM二分类模型进行示例性说明。线性判别函数的公式可以为：

f(X)=W*X+b；（9）

假设有最优超平面可以线性地将N个样本数据完全分为两类，需要确定的超平面为：

W*X+b=0；（10）

其中，W为超平面的法向量，决定超平面的方向；b为位移，决定超平面与原点之间的距离，X∈R^d，d为样本维度。

可以理解的是，一般情况下，线性判别函数（9）的值是连续的实数，而在分类问题中，需要线性判别函数（9）输出的是离散值。其中，可以用数值+1和-1表示不同的类别，比如，+1表示类别1，-1表示类别2。为了便于理解和后续的计算，针对每一个样本数据X，当其判别函数的值是大于或者等于设定阈值（比如0等）时，可以确定此样本数据为类别1，当其判别函数的值是小于设定阈值（比如0等）时，可以确定此样本数据为类别2。

作为一种示例，假设上述超平面可以将N个样本数据完全分为两类，y_i(i=1,…,N)代表第i个样本数据被分为哪一类，若y_i=+1，则第i个样本数据被分为类别1；若y_i=-1，则第i个样本数据被分为类别2，则样本数据可以表示为：

(X₁,y₁),(X₂,y₂),…,(X_N,y_N)；

将判别函数进行归一化处理，使得所有样本均满足｜f(X)｜≥1，此时离分类面近的样本有｜f(X)｜=1。因为上述超平面可以将N个样本数据完全分类，对任一样本数据(X_i,y_i)均满足：

y_i[(W*X_i)+b]-1≥0；（11）

满足公式（11）的点，经过这些点作超平面的平行线形成的虚线为边界，类别1和类别2的边界之间的距离（即分类间隔）为2/║W║。在寻求最优分类面时，分类间隔2/║W║最大，即与║W║²/2最小等价。

因此，最优分类面问题可以表示成以下的约束优化问题：

；（12）

其约束条件为公式（11），此问题是关于W和b的一个二元函数附带条件求极值的问题，又可以将其转化为求以下拉格朗日（Lagrange）函数的无条件极值问题，其中，拉格朗日函数为：

；（13）

其中，λ_i为Lagrange乘子，且λ_i≥0。

为了求║W║²/2的最小值，对W，b和λ分别求导有：

；（14）

综上，上述最优化分类面的求解问题，可以转化为以下凸二次规划寻优的对偶问题：

；（15）

其约束条件为：

；（16）

上述二次函数寻优的问题存在唯一解，若λ_i ^*为最优解，则：

；（17）

其中，样本数据中对应λ_i ^*>0的样本点(X_i,y_i)为支持向量，样本数据中对应λ_i ^*=0的样本点(X_j,y_j)为非支持向量，且最优分类面的权系数向量是支持向量的线性组合。

分类阈值b^*可以根据以下公式确定：

b^*=-〈W^*,X_r+X_s〉/2；（18）

其中，X_r，X_s分别是类别1和类别2中任意支持向量，X_r对应的λ_r ^*>0，X_s对应的λ_s ^*>0，y_r=-1,y_s=1。

除了支持向量外，非支持向量所对应的λ_i ^*=0，最优分类面函数可以由以下公式确定：

f(X)=sgn｛∑λ_i ^*y_i〈X,X'〉+b^*｝；（19）

其中，λ_i ^*为拉格朗日算子，y_i∈﹛-1,+1﹜，X_i为样本数据中第i个样本，i=1,…,N。

在本公开实施例的一种可能的实现方式中，SVM二分类模型的激活函数可以采用径向基（Radial basis function，简称RBF）核函数，以方便计算。

其中，径向基核函数可以为以下公式：

K(X_i,X)=exp﹛﹣║X_i-X║²/(2σ²)﹜；（20）

本公开实施例的用于肺部疾病检测的模型训练方法，通过对支持向量机SVM二分类模型进行训练，以得到经过训练的目标识别模型；其中，SVM二分类模型的激活函数采用径向基RBF核函数。由此，可以实现对识别模型进行有效训练，从而可以使得经过训练后的目标识别模型学习得到受试者的身体状态、受试者呼出气体的气体检测信息和受试者所处环境的环境信息与肺部疾病之间的对应关系，进而可以采用经过训练后的目标识别模型自动识别肺部疾病。

上述为识别模型的训练方法所对应的各实施例，本公开还提出一种识别模型的应用方法，即肺部疾病检测方法。

图11为本公开实施例五所提供的肺部疾病检测方法的流程示意图。

如图11所示，该肺部疾病检测方法可以包括以下步骤：

步骤1101，获取待处理数据，其中，待处理数据包括检测者的身体状态、检测者呼出气体的气体检测信息和检测者所处环境的环境信息。

在本公开实施例中，待处理数据可以包括检测者的身体状态、检测者呼出气体的气体检测信息和检测者所处环境的环境信息。

在本公开实施例中，检测者的身体状态可以包括检测者的吸咽类状况、饮酒状况、咳嗽、咳痰、咯血、胸痛、胸闷、喘累、呼吸困难、消瘦、发热、声音嘶哑、其它疼痛、麻木、杵状指等身体状态信息，本公开对此不做限制。

在本公开实施例中，检测者的身体状态可以在线采集或者线下采集，比如，可以通过在线或者线下调查问卷采集，或者，通过人工检查采集检测者身体状态，等等，本公开对此不做限制。

在本公开实施例中，检测者呼出气体的气体检测信息是对检测者呼出气体进行检测而获得的信息。其中，检测者呼出气体的气体检测信息可以包括呼出气体中挥发性有机物的浓度等信息，本公开对此不做限制。

在本公开实施例中，在对检测者呼出气体进行检测时，可以同时检测该检测者所处环境的环境信息。其中，环境信息可以包括环境温度信息、空气湿度信息、压力信息、供电电压信息等，本公开对此不做限制。

在本公开实施例中，可以根据检测者的身体状态、检测者呼出气体的气体检测信息和检测者所处环境的环境信息，生成待处理数据。

步骤1102，采用目标识别模型对待处理数据进行识别，以得到关键信息；其中，关键信息，用于指示检测者是否具有目标肺部疾病。

其中，目标识别模型是指经过训练后的识别模型，可以采用上述图2至图10中任一方法实施例训练得到，在此不做赘述。

在本公开实施例中，可以将待处理数据输入至目标检测模型，由目标识别模型对检测者的待处理数据进行识别以得到关键信息，其中，关键信息用于指示检测者是否具有目标肺部疾病。

本公开实施例的肺部疾病检测方法，通过获取待处理数据，其中，待处理数据包括检测者的身体状态、检测者呼出气体的气体检测信息和检测者所处环境的环境信息；采用目标识别模型对待处理数据进行识别，以得到关键信息；其中，关键信息，用于指示检测者是否具有目标肺部疾病。由此，采用目标识别模型，对检测者的待处理数据进行识别，以确定检测者是否具有目标肺部疾病，可以提升识别结果的准确性和可靠性。

为了实现图2至图10实施例，本公开提出一种电子设备。

图12是根据本公开实施例所提供的一种电子设备的结构示意图。

如图12所示，该电子设备可以包括收发机1200，处理器1210，存储器1220，其中：

收发机1200，用于在处理器1210的控制下接收和发送数据。

其中，在图12中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器1210代表的一个或多个处理器和存储器1220代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机1200可以是多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元，这些传输介质包括无线信道、有线信道、光缆等传输介质。处理器1210负责管理总线架构和通常的处理，存储器1220可以存储处理器1210在执行操作时所使用的数据。

处理器1210可以是中央处埋器（Central Processing Unit，简称CPU）、专用集成电路（Application Specific Integrated Circuit，简称ASIC）、现场可编程门阵列（Field－Programmable Gate Array，简称FPGA）或复杂可编程逻辑器件（ComplexProgrammable Logic Device，简称CPLD），处理器也可以采用多核架构。

处理器1210通过调用存储器存储的计算机程序，并执行以下操作：

获取样本数据的集合；其中，样本数据用于指示对应受试者的身体状态、受试者呼出气体的气体检测信息和受试者所处环境的环境信息；

获取集合中各样本数据的标注，其中，标注，用于指示对应样本数据中的受试者是否具有目标肺部疾病；

可选地，作为另一种实施例，处理器1210具体用于执行以下操作：

获取多个受试者中任意一个目标受试者的多个采样时刻下的气体检测数据和环境检测数据；

根据多个采样时刻下的气体检测数据，进行特征提取，以将提取到的气体检测数据的统计特征作为目标受试者的气体检测信息；

根据多个采样时刻下的环境检测数据，进行特征提取，以将提取到的环境检测数据的统计特征作为目标受试者的环境信息；

根据目标受试者的气体检测信息、目标受试者的环境信息和目标受试者的身体状态，分别确定目标受试者的样本数据中对应的维度的取值。

可选地，作为另一种实施例，气体检测数据的统计特征，包括多个采样时刻下气体检测数据中的最大值、最大正斜率、最大负斜率、全峰面积和半峰宽中的一个或多个组合；和/或，

环境检测数据的统计特征，包括多个采样时刻下环境检测数据的平均值。

采用均值滤波算法，对多个采样时刻下的气体检测数据进行滤波；

和/或，采用均值滤波算法，对多个采样时刻下的环境检测数据进行滤波。

根据各维度的取值范围，对集合中的样本数据，剔除异常数据，以得到保留的训练样本；其中，异常数据中取值未处于对应维度的取值范围内的维度数量为至少设定数目；

采用保留的训练样本，对识别模型进行训练，以得到经过训练的目标识别模型。

根据集合中保留的多个训练样本在至少一个维度上的取值，进行对应维度的取值归一化处理。

对集合中的样本数据进行分组，以得到k个子集；其中k为大于1的自然数；

根据k个子集，采用k折交叉验证算法，对识别模型进行训练，以确定模型超参数。

可选地，作为另一种实施例，识别模型为支持向量机SVM二分类模型；其中，SVM二分类模型的激活函数采用径向基RBF核函数。

为了实现图11实施例，本公开还提出一种电子设备。

如图13所示，该电子设备可以包括收发机1300，处理器1310，存储器1320，其中：

收发机1300，用于在处理器1310的控制下接收和发送数据。

其中，在图13中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器1310代表的一个或多个处理器和存储器1320代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机1300可以是多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元，这些传输介质包括无线信道、有线信道、光缆等传输介质。处理器1310负责管理总线架构和通常的处理，存储器1320可以存储处理器1310在执行操作时所使用的数据。

处理器1310可以是中央处埋器（Central Processing Unit，简称CPU）、专用集成电路（Application Specific Integrated Circuit，简称ASIC）、现场可编程门阵列（Field－Programmable Gate Array，简称FPGA）或复杂可编程逻辑器件（ComplexProgrammable Logic Device，简称CPLD），处理器也可以采用多核架构。

处理器1310通过调用存储器存储的计算机程序，并执行以下操作：

获取待处理数据，其中，待处理数据包括检测者的身体状态、检测者呼出气体的气体检测信息和检测者所处环境的环境信息；

采用目标识别模型对待处理数据进行识别，以得到关键信息；其中，关键信息，用于指示检测者是否具有目标肺部疾病。

与上述图2至图10实施例提供的用于肺部疾病检测的模型训练方法相对应，本公开还提供一种用于肺部疾病检测的模型训练装置，由于本公开实施例提供的用于肺部疾病检测的模型训练装置与上述图2至图10实施例提供的用于肺部疾病检测的模型训练方法相对应，因此在用于肺部疾病检测的模型训练方法的实施方式也适用于本公开实施例提供的用于肺部疾病检测的模型训练装置，在本公开实施例中不再详细描述。

图14为本公开一实施例所提供的用于肺部疾病检测的模型训练装置的结构示意图。

如图14所示，该用于肺部疾病检测的模型训练装置1400可以包括：第一获取模块1401、第二获取模块1402、训练模块1403。

其中，第一获取模块1401，用于获取样本数据的集合；其中，样本数据用于指示对应受试者的身体状态、受试者呼出气体的气体检测信息和受试者所处环境的环境信息。

第二获取模块1402，用于获取集合中各样本数据的标注，其中，标注，用于指示对应样本数据中的受试者是否具有目标肺部疾病。

训练模块1403，用于采用经过标注的样本数据的集合，对识别模型进行训练，以得到经过训练的目标识别模型。

在本公开实施例的一种可能的实现方式中，第一获取模块1401，具体用于：获取多个受试者中任意一个目标受试者的多个采样时刻下的气体检测数据和环境检测数据；根据多个采样时刻下的气体检测数据，进行特征提取，以将提取到的气体检测数据的统计特征作为目标受试者的气体检测信息；根据多个采样时刻下的环境检测数据，进行特征提取，以将提取到的环境检测数据的统计特征作为目标受试者的环境信息；根据目标受试者的气体检测信息、目标受试者的环境信息和目标受试者的身体状态，分别确定目标受试者的样本数据中对应的维度的取值。

在本公开实施例的一种可能的实现方式中，气体检测数据的统计特征，包括多个采样时刻下气体检测数据中的最大值、最大正斜率、最大负斜率、全峰面积和半峰宽中的一个或多个组合；和/或，环境检测数据的统计特征，包括多个采样时刻下环境检测数据的平均值。

在本公开实施例的一种可能的实现方式中，该用于肺部疾病检测的模型训练装置1400还可以包括：

滤波模块，用于采用均值滤波算法，对多个采样时刻下的气体检测数据进行滤波；和/或，用于采用均值滤波算法，对多个采样时刻下的环境检测数据进行滤波。

在本公开实施例的一种可能的实现方式中，各样本数据均包括多个维度，训练模块1403，具体用于：根据各维度的取值范围，对集合中的样本数据，剔除异常数据，以得到保留的训练样本；其中，异常数据中取值未处于对应维度的取值范围内的维度数量为至少设定数目；采用保留的训练样本，对识别模型进行训练，以得到经过训练的目标识别模型。

处理模块，用于根据集合中保留的多个训练样本在至少一个维度上的取值，进行对应维度的取值归一化处理。

在本公开实施例的一种可能的实现方式中，训练模块1403，具体用于：对集合中的样本数据进行分组，以得到k个子集；其中k为大于1的自然数；根据k个子集，采用k折交叉验证算法，对识别模型进行训练，以确定模型超参数。

在本公开实施例的一种可能的实现方式中，识别模型为支持向量机SVM二分类模型；其中，SVM二分类模型的激活函数采用径向基RBF核函数。

本公开实施例的该用于肺部疾病检测的模型训练装置，通过同时基于受试者的身体状态、受试者呼出气体的气体检测信息和受试者所处环境的环境信息，对识别模型进行训练，可以提升模型的预测效果，即提升模型预测结果的准确性和可靠性。

与上述图11实施例提供的肺部疾病检测方法相对应，本公开还提供一种肺部疾病检测装置。由于本公开实施例提供的肺部疾病检测装置与上述图11实施例提供的肺部疾病检测方法相对应，因此在肺部疾病检测方法的实施方式也适用于本公开实施例提供的肺部疾病检测装置，在本公开实施例中不再详细描述。

图15为本公开一实施例所提供的肺部疾病检测装置的结构示意图。

如图15所示，该肺部疾病检测装置1500可以包括：获取模块1501和识别模块1502。

其中，获取模块1501，用于获取待处理数据，其中，待处理数据包括检测者的身体状态、检测者呼出气体的气体检测信息和检测者所处环境的环境信息。

识别模块1502，用于采用目标识别模型对待处理数据进行识别，以得到关键信息；其中，关键信息，用于指示检测者是否具有目标肺部疾病。

本公开实施例的肺部疾病检测装置，通过采用目标识别模型，对检测者的待处理数据进行识别，以确定检测者是否具有目标肺部疾病，可以提升识别结果的准确性和可靠性。

为了实现上述实施例，本公开还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如本公开前述任一实施例提出的用于肺部疾病检测的模型训练方法。

为了实现上述实施例，本公开还提出一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行如本公开前述任一实施例提出的用于肺部疾病检测的模型训练方法。

如图16所示，电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件（包括系统存储器28和处理单元16）的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构（Industry StandardArchitecture；以下简称：ISA）总线，微通道体系结构（Micro Channel Architecture；以下简称：MAC）总线，增强型ISA总线、视频电子标准协会（Video Electronics StandardsAssociation；以下简称：VESA）局域总线以及外围组件互连（Peripheral ComponentInterconnection；以下简称：PCI）总线。

电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器（Random Access Memory；以下简称：RAM）30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质（图6未显示，通常称为“硬盘驱动器”）。尽管图6中未示出，可以提供用于对可移动非易失性磁盘（例如“软盘”）读写的磁盘驱动器，以及对可移动非易失性光盘（例如：光盘只读存储器（Compact Disc Read OnlyMemory；以下简称：CD-ROM）、数字多功能只读光盘（Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM）或者其它光介质）读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组（例如至少一个）程序模块，这些程序模块被配置以执行本公开各实施例的功能。

具有一组（至少一个）程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本公开所描述的实施例中的功能和/或方法。

电子设备12也可以与一个或多个外部设备14（例如键盘、指向设备、显示器24等）通信，还可与一个或者多个使得用户能与该电子设备12交互的设备通信，和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备（例如网卡，调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口22进行。并且，电子设备12还可以通过网络适配器20与一个或者多个网络（例如局域网（Local Area Network；以下简称：LAN），广域网（Wide Area Network；以下简称：WAN）和/或公共网络，例如因特网）通信。如图所示，网络适配器20通过总线18与电子设备12的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本公开各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本公开的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本公开的限制，本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种用于肺部疾病检测的模型训练方法，其特征在于，包括：

获取样本数据的集合，其中，获取多个受试者中任意一个目标受试者的多个采样时刻下的气体检测数据和环境检测数据，根据所述多个采样时刻下的气体检测数据进行特征提取，以将提取到的气体检测数据的统计特征作为所述目标受试者的气体检测信息，根据所述多个采样时刻下的环境检测数据进行特征提取，以将提取到的环境检测数据的统计特征作为所述目标受试者的环境信息，根据所述目标受试者的气体检测信息、所述目标受试者的环境信息和所述目标受试者的身体状态，分别确定所述目标受试者的样本数据中对应的维度的取值，所述样本数据用于指示对应受试者的身体状态、所述受试者呼出气体的气体检测信息和所述受试者所处环境的环境信息，所述气体检测数据的统计特征包括多个采样时刻下所述气体检测数据中的最大值、最大正斜率、最大负斜率、全峰面积和半峰宽中的一个或多个组合，和/或，所述环境检测数据的统计特征包括多个采样时刻下所述环境检测数据的平均值；

2.根据权利要求1所述的模型训练方法，其特征在于，所述获取多个受试者中任意一个目标受试者的多个采样时刻下的气体检测数据和环境检测数据之后，还包括：

采用均值滤波算法，对所述多个采样时刻下的所述气体检测数据进行滤波；

和/或，采用均值滤波算法，对所述多个采样时刻下的所述环境检测数据进行滤波。

3.根据权利要求1或2所述的模型训练方法，其特征在于，各所述样本数据均包括多个维度，所述采用经过标注的样本数据的集合，对识别模型进行训练，以得到经过训练的目标识别模型，包括：

根据各维度的取值范围，对所述集合中的样本数据，剔除异常数据，以得到保留的训练样本；其中，所述异常数据中取值未处于对应维度的取值范围内的维度数量为至少设定数目；

4.根据权利要求3所述的模型训练方法，其特征在于，所述根据各维度的取值范围，对所述集合中的样本数据，剔除异常数据，以得到保留的训练样本之后，还包括：

根据所述集合中保留的多个训练样本在至少一个维度上的取值，进行对应维度的取值归一化处理。

5.根据权利要求1或2所述的模型训练方法，其特征在于，所述采用经过标注的样本数据的集合，对识别模型进行训练，以得到经过训练的目标识别模型，包括：

对所述集合中的样本数据进行分组，以得到k个子集；其中k为大于1的自然数；

根据所述k个子集，采用k折交叉验证算法，对识别模型进行训练，以确定模型超参数。

6.根据权利要求1或2所述的模型训练方法，其特征在于，

所述识别模型为支持向量机SVM二分类模型；其中，所述SVM二分类模型的激活函数采用径向基RBF核函数。

7.一种电子设备，其特征在于，所述电子设备包括存储器，收发机，处理器；

8.根据权利要求7所述的电子设备，其特征在于，所述处理器，具体用于执行以下操作：

9.根据权利要求7或8所述的电子设备，其特征在于，所述处理器，具体用于执行以下操作：

10.根据权利要求9所述的电子设备，其特征在于，所述处理器，具体用于执行以下操作：

11.根据权利要求7或8所述的电子设备，其特征在于，所述处理器，具体用于执行以下操作：

12.根据权利要求7或8所述的电子设备，其特征在于，所述识别模型为支持向量机SVM二分类模型；其中，所述SVM二分类模型的激活函数采用径向基RBF核函数。

13.一种电子设备，其特征在于，所述电子设备包括存储器，收发机，处理器；

采用如权利要求1-6任一所述的目标识别模型对所述待处理数据进行识别，以得到关键信息；其中，所述关键信息，用于指示所述检测者是否具有目标肺部疾病。

14.一种用于肺部疾病检测的模型训练装置，所述装置包括：

第一获取模块，用于获取样本数据的集合，其中，获取多个受试者中任意一个目标受试者的多个采样时刻下的气体检测数据和环境检测数据，根据所述多个采样时刻下的气体检测数据进行特征提取，以将提取到的气体检测数据的统计特征作为所述目标受试者的气体检测信息，根据所述多个采样时刻下的环境检测数据进行特征提取，以将提取到的环境检测数据的统计特征作为所述目标受试者的环境信息，根据所述目标受试者的气体检测信息、所述目标受试者的环境信息和所述目标受试者的身体状态，分别确定所述目标受试者的样本数据中对应的维度的取值，所述样本数据用于指示对应受试者的身体状态、所述受试者呼出气体的气体检测信息和所述受试者所处环境的环境信息，所述气体检测数据的统计特征包括多个采样时刻下所述气体检测数据中的最大值、最大正斜率、最大负斜率、全峰面积和半峰宽中的一个或多个组合，和/或，所述环境检测数据的统计特征包括多个采样时刻下所述环境检测数据的平均值；

15.一种肺部疾病检测装置，所述装置包括：

识别模块，用于采用如权利要求1-6任一所述的目标识别模型对所述待处理数据进行识别，以得到关键信息；其中，所述关键信息，用于指示所述检测者是否具有目标肺部疾病。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。