CN110222785A

CN110222785A - 用于气体传感器漂移校正的自适应置信度主动学习方法

Info

Publication number: CN110222785A
Application number: CN201910511847.9A
Authority: CN
Inventors: 刘涛; 李东琦; 陈艳兵; 杨桃; 曹建华
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2019-09-10
Anticipated expiration: 2039-06-13
Also published as: CN110222785B

Abstract

本发明涉及电子鼻的气味识别领域，具体涉及用于气体传感器漂移校正的自适应置信度主动学习方法，包括以下步骤：输入训练样本集和测试样本；计算测试样本中样本的信息熵；选取信息熵最大或最小的样本作为标记样本；预测标记样本的类型，并对其初次标记；将初次标记的样本加入训练样本集；更新分类器；使用更新后的分类器再次预测标记样本的类型，并对其进行再次标记；判断初次标记和再次标记是否相同，不同，返回样本选取步骤中选取测试样本集中信息熵最大的样本作为标记样本，相同，返回样本选取步骤中则选取测试样本集中信息熵最小的样本作为标记样本，以此解决漂移校正精度不高的问题，本发明主要用于气体传感器漂移校正。

Description

用于气体传感器漂移校正的自适应置信度主动学习方法

技术领域

本发明涉及电子鼻的气味识别领域，具体涉及用于气体传感器漂移校正的自适应置信度主动学习方法。

背景技术

典型的电子鼻系统通常由气体传感器阵列和模式识别算法两部分构成。通过电子鼻系统可对气体进行识别。当待检测的气体进入检测室时，气体传感器会对其产生一个瞬态响应信号，利用模式识别算法根据传感器响应，进行数据分析识别气体，在这种结构上，电子鼻可以用低成本的气体传感器阵列识别复杂的气体。由于低成本和简单操作的优势，电子鼻系统已被用于环境监测、食品工业、农业和医学等领域。

电子鼻系统中的气体传感器漂移是一种概念漂移，通常由表面老化、环境干扰和传感器中毒引起。这种现象使气体传感器响应与算法模型之间的兼容性随时间恶化，最终导致电子鼻的性能下降。换句话说，算法模型在没有任何漂移校准的情况下将毫无意义。因此，电子鼻系统在其在线工作过程中需要漂移校准方法。

为了减少电子鼻的漂移效应，可以进行传感器改进和算法改进。根据目前的研究，由于人工智能和机器学习的成就，算法修改方法受到越来越多的关注。信号预处理和分类器更新是算法修改的两个主流。信号预处理是从原始气体传感器响应中提取漂移样分量，然后重新构建漂移校准后的响应。在分类器更新方面，分类器集成方法是目前使用较多的方法之一。此外，一些学者使用自适应分类器来动态处理漂移分布自适应，包括自组织映射，自适应共振理论和免疫算法等。最近，算法修改方式已经扩展到半监督领域。所有上述方法都有一个共同的前提，即应准备具有完整类别和良好标记的样本校准集以进行漂移校正。然而，在线情景中几乎不能满足这种需求，因此急需一种主动学习方法来解决在线漂移校正问题。

发明内容

本发明的目的在于提供用于气体传感器漂移校正的自适应置信度主动学习方法，解决在线情景中由于不可能拥有完整类别和良好标记的样本校准集，造成的漂移校正精度不高的问题。

为解决上述技术问题，本发明的基础方案如下：

用于气体传感器漂移校正的自适应置信度主动学习方法，包括以下步骤：

训练样本集输入步骤：向分类器输入训练样本集；

测试样本输入步骤：向分类器输入若干测试样本；

计算步骤：计算由若干测试样本组成的测试样本集中样本的信息熵；

样本选取步骤：选取测试样本集中信息熵最大或信息熵最小的样本作为标记样本；

样本预测步骤：预测标记样本的类型，并根据标记样本的类型对其进行初次标记；

训练样本集扩充步骤：将初次标记完成的标记样本通过人工标记的方式加入训练样本集；

分类器更新步骤：使用扩充后的训练样本集更新分类器；

重复预测步骤：使用更新后的分类器再次预测标记样本的类型，并根据标记样本的类型对其进行再次标记；

判断步骤：判断初次标记和再次标记是否相同，若不同，返回样本选取步骤中选取测试样本集中信息熵最大的样本作为标记样本，若相同，返回样本选取步骤中则选取测试样本集中信息熵最小的样本作为标记样本。

本申请相比于现在主要使用的传感器漂移校正方法：

传感器漂移目前主要使用基于监督学习的离线校正，信号预处理方式校正和基于半监督学习的在线校正。

基于监督学习的离线校正：停止系统对未标记样本的识别，均匀的收集足够量各类带标记的样本对系统进行校准，校准后再进行对未标记样本的识别。

信号预处理方式校正：通过监督学习算法对训练集(带标记样本集)进行计算，得到漂移量，系统对漂移补偿后的未标记样本进行识别。

基于半监督学习的在线校正：在系统对未标记样本的识别过程中，通过样本选择方法得到最可靠的样本并使用分类器的预测结果作为其标记，再将其加入训练集并更新分类器。

而监督方法需要具备完整类别的校准集以进行漂移校正，除此之外，半监督方法还要求分类器分类精度较高。然而，由于获得这种校准装置的时间和劳动力不足，在线情景中几乎不能满足监督学习方法的需求，并且由于数据存在漂移，分类器在对后续样本进行识别时，预测准确率很难达到半监督方法所需的分类精度。但是，本申请通过自适应的主动学习方法很好的解决了这个问题。

本申请中由于初次标记和再次标记选择的标记样本为同一个标记样本，若初次标记和再次标记不同，说明经过扩充更新后的分类器，其分类边界偏移过多或偏移不够，致使将两个原本相同的标记样本，分到不同类别，而此时选择测试样本集中信息熵最大的样本作为标记样本，即选择测试样本集中与该标记样本属于同一类的样本，而此时由于测试样本集中信息熵最大的标记样本已经加入训练样本集中，因此本次选择的标记样本为排除了已经加入训练样本集中的标记样本，因此本次选择的标记样本的信息熵小于已经加入训练样本集中的标记样本的信息熵，将该标记样本进行初次标记后扩充到训练样本集中对分类器进行再次更新，就可更加明确最新的测试样本的分类边界，如此循环分类器就可将分类边界更新得越来越准确。

当有一组初次标记和再次标记相同，证明更新后的分类器形成的分类边界为与当前选择的样本的真实标记(人工标记)类别相关的分类边界，此时选取测试样本集中信息熵最小的样本作为标记样本(选择信息熵最小的样本作为标记样本是希望以更大概率的选到其它类别的样本)，即选择测试样本集中与该标记样本属于不同类的样本，以此就可明确其它类别的分类边界，增加样本的多样性。

通过上述这种方式可以均匀的选择各类别的标记样本进行标记，而且选取的标记样本包含很多信息量大的标记样本，即选择测试样本集中与该标记样本属于同一类的样本，也就是最接近分类边界的标记样本，也就是最不能确定其分类的标记样本，这些样本对分类器识别分类边界更有利，即对提高分类器的分类精度更有利，同时也使得分类边界更加清晰。

并且本申请相比于现有的一些常用主动学习方法如：

1.成员资格查询综合(membership query synthesis，MQS)：主动学习使用查询学习的最早想法。在该方法中，假设学习系统可以向专家提问，即MQS通过查询确定某些实例的标签。例如，选择MQS时，无论人工成本和数据分布如何，所有未标记的样本都将交给专家进行标记。

2.基于流的主动学习(stream-based AL)：该方法根据信息熵或分布相似性选择实例，并以逐个实例的方式标记它们。

3.基于池的主动学习(pool-based AL)：该方法选择性地标记数据集中存在的实例以增强分类器的性能。实际上，当池中只存在一个未标记的样本时，此方法等同于基于流的AL。换句话说，基于流的AL是基于池的AL的特例。基于池的主动学习还包括以下三种类型：

(1)基于不确定度缩减的方法，这类方法选择那些当前基准分类器最不能确定其分类的样例进行标注。这种方法以信息熵作为衡量样例所含信息量大小的度量，而信息熵最大的样例正是当前分类器最不能确定其分类的样例。从几何角度看，这种方法优先选择靠近分类边界的样例，所以又可以称为最近边界方法。

(2)基于版本空间缩减的方法：这类方法选择那些训练后能够最大程度缩减版本空间的样例进行标注。委员会查询策略是其中的代表方法，该方法从版本空间中随机选择若干假设构成一个委员会，然后选择委员会中的假设预测分歧最大的样例进行标注。

(3)基于泛化误差缩减的方法：这类方法试图选择那些能够使未来泛化误差最大程度减小的样例。其一般过程为:首先选择一种损失函数用于估计未来错误率，然后将未标注样例集中的每一个样例都作为下一个可能的选择，分别估计其能给基准分类器带来的误差缩减，选择估计误差缩减最大的那个样例进行标注。

然而上述的常用主动学习方法存在如下缺陷：

成员资格查询综合(membership query synthesis，MQS)：每一个样本都去查询标记，标记工作量太大，时间太长，人力、经济成本太高。

基于流的主动学习(stream-based AL)：虽然基于流的主动学习已经在一定程度上解决了MQS的缺点，但它仍然需要固定的阈值来测量每个输入样本中包含的信息。因此，不稳定的标记密度和刚性参数适应将限制基于流的主动学习方法的性能。

基于池的主动学习(pool-based AL)：基于不确定度缩减的方法只选择很可靠的样本，基于版本空间缩减的方法只选择信息量较大的样本，基于泛化误差缩减的方法只选择误差缩减量较大的样本，这很可能导致标记样本的类别不均衡性，使分类器的综合性能只有很小的提升。

而本申请相比于成员资格查询综合(membership query synthesis，MQS)，采用信息熵的算法，只针对信息熵最大和最小的标记样本进行标记，大大缩短了标记工作量，减少了人力和经济成本。

本申请相比于基于流的主动学习(stream-based AL)，采用信息熵的算法，确定测试样本集中的样本的信息，通过计算的方式，得到的标记密度更加稳定，并且本申请是通过自适应的方式，可根据测试样本的信息熵逐渐改变分类边界，使分类边界更加准确清晰，克服了刚性参数适应将限制基于流的主动学习方法的性能的问题。

本申请相比于基于池的主动学习(pool-based AL)，不仅选择了靠近分类边界的样本，而且也选择了远离分类边界的样本，因此还克服了标记样本的类别不均衡性的问题。

综上所述，本申请解决了在线情景中由于不可能拥有完整类别和良好标记的样本校准集，造成的漂移校正精度不高的问题。

进一步，所述训练样本集输入步骤和测试样本集输入步骤之间还包括：

分类器训练步骤：使用训练样本集训练分类器。

分类器可根据训练样本集中的训练样本初步确定出一个分类边界。

进一步，所述测试样本集输入步骤和计算步骤之间还包括：

分类器识别步骤：识别测试样本，并在测试样本达到指定数量时，生成测试样本集。

以此方式，就可将若干测试样本，组成一个测试样本集，便于统计。

进一步，所述测试样本输入步骤为：向分类器在线持续输入若干测试样本。

目前大多工作系统都是不间断收到最新的大量无标记的测试样本。由于本申请的应用场景为真实场景，因此需设置样本的在线持续输入。

进一步，所述测试样本集中的样本为无标记样本。

通过将测试样本集中的样本设为无标记样本，便于后续对测试样本进行标记和分类识别。

进一步，所述训练样本集中的样本为带标记样本。

带标记的训练样本集中的样本为已经被准确分类的样本，便于通过训练样本集训练分类器后对测试样本进行分类预测。

进一步，还包括：

终止步骤：当标记的标记样本数量达标时，停止测试样本集的标记。

标记的标记样本数量达标，说明一批测试样本的预测以及样本选取完成，此时分类器确定的分类边界对于该测试样本集可以达到很高的分类精度。

进一步，还包括：

重新启动步骤：当标记样本数量达标时，重新执行测试样本输入步骤、计算步骤、样本选取步骤、样本预测步骤、训练样本集扩充步骤、分类器更新步骤、重复预测步骤和判断步骤。

以此方式，可对下一个测试样本集进行再次测试，使分类器可以适应新的测试样本集，并确定出适应该测试样本集的分类边界，从而达到自适应置信度主动学习的效果。

进一步，所述初次标记和再次标记均采用分类器的输出结果进行自动标记。

分类器在训练样本集训练过后，可以初步确定测试样本的类别，通过采用分类器的输出结果进行初次标记，之后将该初次标记的测试样本采用人工标记的方式加入训练样本集中，是由于人工标记给出的标记准确度非常高，确保被加入训练样本集中的初次标记样本被准确的分类，使被扩充了训练样本集的分类器具备更加准确的分类边界，为后续通过被扩充了训练样本集的分类器再次标记该测试样本，提供更加准确的分类边界。

进一步，所述分类器为支持向量机、极限学习机、采用K-最近邻算法的分类器或采用径向基函数神经网络的分类器。

支持向量机(Support Vector Machine,SVM)、极限学习机(Extreme LearningMachine,ELM)、采用K-最近邻(k-Nearest Neighbor,k-NN)算法的分类器、采用径向基函数神经网络(Radial Basis Function neural network,RBF)的分类器，通过上述分类器，就可完成对测试样本的分类，并根据测试样本自适应的调整分类边界，使分类更加准确。

附图说明

图1为本发明用于气体传感器漂移校正的自适应置信度主动学习方法实施例一的流程图；

图2为本发明用于气体传感器漂移校正的自适应置信度主动学习方法实施例二的流程图。

具体实施方式

下面通过具体实施方式进一步详细说明：

实施例基本如附图1所示：用于气体传感器漂移校正的自适应置信度主动学习方法，包括以下步骤：

训练样本集输入步骤：向分类器输入训练样本集，训练样本集中的样本为带标记样本，并且训练样本集中的样本是分类很明确的样本。

分类器训练步骤：使用训练样本集训练分类器，分类器中的训练意在通过分类很明确的训练样本集，形成初步的分类边界。

测试样本输入步骤：向分类器在线持续输入测试样本，本实施例中测试样本用P表示。

分类器识别步骤：识别测试样本P，并在测试样本P达到1000个时，生成测试样本集，测试样本集中的样本为无标记样本。

计算步骤：计算由1000个测试样本P组成的测试样本集中样本的信息熵。根据公式(1)和(2)计算测试样本集中所有测试样本P的信息熵e_i(i是样本在测试样本集中的序号)。

其中：K-表示委员会成员(分类器)的个数；

k-第k个委员会成员(分类器)；

P_k(C|p_i)-表示样本p_i由第k个委员预测属于类别C类的概率。

样本选取步骤：选取测试样本集中信息熵最大或信息熵最小的样本作为标记样本。

样本预测步骤：使用分类器输出结果预测标记样本的类型，并根据标记样本的类型对其进行初次标记，给出初次标记T1。

训练样本集扩充步骤：将初次标记完成的标记样本通过人工标记的方式加入训练样本集。

分类器更新步骤：使用扩充后的训练样本集更新分类器。

重复预测步骤：使用更新后的分类器再次预测标记样本的类型，并根据标记样本的类型使用更新后的分类器对其进行再次标记，给出再次标记T2。

判断步骤：判断初次标记T1和再次标记T2是否相同。设置旗标F(FLAG，是计算机程序中用于记录程序状态的单比特大小的标记，用来帮助程序做复杂条件的判断，Flag只有1和0两个数值，程序在某种状态改变的同时改变FLAG的值，并在其他操作中通过flag了解状态，并决定接下来的操作)。

若T1≠T2，意味着需要进一步明确分类器对该类的分类边界，应该选择具有最大信息熵(置信度最小)的测试样本，此时设置F＝0,返回样本选取步骤中选取测试样本集中信息熵最大的测试样本作为标记样本。

若T1＝T2，说明当前测试样本的类别被很好地分类，那么应该根据标签多样性(分类器是由主动学习方法挑选的样本不断进行更新的。如果挑选的样本具有标签越丰富，即样本的种类越丰富，分类器的性能越好)和分布均衡的原则使用其它类别样本中最小信息熵(置信度最大)的测试样本，设置F＝1,返回样本选取步骤中则选取测试样本集中信息熵最小的样本作为标记样本。本实施例中初始化时F＝0，当F＝0时，选取测试样本集中信息熵最大的样本作为标记样本。

例如：将1000个测试样本分为6类，分别为类别1至类别6,每一类别均包含多个测试样本，若其初次标记为类别1，再次标记为类别2，人工标记为类别2。初次标记和再次标记的结果不一致，即T1≠T2，则说明分类器在标记之前还不能很好的识别类别2，则将“类别2”作为下一次的“测试样本集”，从而在下一次选出“类别2”中信息熵最大的样本。

若初次标记为类别2，再次标记为类别2，人工标记为类别2，初次标记和再次标记的结果一致，即T1＝T2，则说明分类器在标记之前能很好的识别类别2，所以需要将“类别1至类别6”作为下一次的“测试样本集”，从而在下一次选出“类别1至类别6”中信息熵最小的样本。

终止步骤：当标记的标记样本数量达标时，停止测试样本集的标记，本实施例中选取20个标记样本数量为达标数量。

实施例二

实施例二与实施例一的不同之处在于：将终止步骤替换为重新启动步骤，如图2所示。

重新启动步骤：当标记的标记样本数量达标时，即测试样本存储量达到要求时，重新执行测试样本输入步骤、计算步骤、样本选取步骤、样本预测步骤、训练样本集扩充步骤、分类器更新步骤、重复预测步骤和判断步骤，本实施例中选取20个标记样本数量为达标数量。如此就可循环开始下一轮测试样本集的标记选择工作。

以上所述的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.用于气体传感器漂移校正的自适应置信度主动学习方法，其特征在于，包括以下步骤：

训练样本集输入步骤：向分类器输入训练样本集；

测试样本输入步骤：向分类器输入若干测试样本；

分类器更新步骤：使用扩充后的训练样本集更新分类器；

2.根据权利要求1所述的用于气体传感器漂移校正的自适应置信度主动学习方法，其特征在于，所述训练样本集输入步骤和测试样本集输入步骤之间还包括：

分类器训练步骤：使用训练样本集训练分类器。

3.根据权利要求1所述的用于气体传感器漂移校正的自适应置信度主动学习方法，其特征在于，所述测试样本集输入步骤和计算步骤之间还包括：

4.根据权利要求1所述的用于气体传感器漂移校正的自适应置信度主动学习方法，其特征在于，所述测试样本输入步骤为：向分类器在线持续输入若干测试样本。

5.根据权利要求1所述的用于气体传感器漂移校正的自适应置信度主动学习方法，其特征在于：所述测试样本集中的样本为无标记样本。

6.根据权利要求1所述的用于气体传感器漂移校正的自适应置信度主动学习方法，其特征在于：所述训练样本集中的样本为带标记样本。

7.根据权利要求3所述的用于气体传感器漂移校正的自适应置信度主动学习方法，其特征在于，还包括：

8.根据权利要求3所述的用于气体传感器漂移校正的自适应置信度主动学习方法，其特征在于，还包括：

9.根据权利要求1所述的用于气体传感器漂移校正的自适应置信度主动学习方法，其特征在于：所述初次标记和再次标记均采用分类器的输出结果进行自动标记。

10.根据权利要求9所述的用于气体传感器漂移校正的自适应置信度主动学习方法，其特征在于：所述分类器为支持向量机、极限学习机、采用K-最近邻算法的分类器或采用径向基函数神经网络的分类器。