一种基于改进RANSAC理论的快速气味指纹检测方法
技术领域
本发明属于环境气体监测技术领域,特别是涉及一种基于改进RANSAC理论的快速气味指纹检测方法。
背景技术
随着工业化进程的逐步加快和人民生活水平的提高,各种各样的空气污染源越来越多,存在空气污染的场所也越来越广泛。从化工厂、热电厂、炼钢厂的排出的废气,到垃圾填埋场或者排污沟散发的恶臭气体,还有室内不当装修散发的有害气体,使得对有害气体的监控难度越来越高。由于有害气体的排放的时域不平均性,使得对有害气体的检测的时效性和实时性要求非常高。
电子鼻近十年来快速兴起一种新的气味指纹检测方法,是利用气味传感器和数据处理分析设备来检测气味指纹图谱。电子鼻模拟人的嗅觉系统,将探测到的气味分子信号转换成图谱数据库空间中的点,然后对这些信号点进行,最后利用模式分类的方法将探测结果显示出来。
电子鼻内部对传感器阵列探测到的数据进行处理和识别的算法是其关键技术所在。由于大气中存在非常多的干扰分子,因此对特定污染物分子进行探测的关键,就在于如何能从这些干扰分子中快速准确的探测到目标污染分子。这就对气味传感器得到的观测数据集的数据处理算法提出了很高的要求。
传统的电子鼻的数据预处理方法耗时过长,没有对观测数据中的干扰数据进行剔除的方法,在一些后端管理软件中,应用一些类似PCA的降维方法虽然能够稍微提高一下运算效率,但是也远远不能适应气味检测的实时性要求。
发明内容
本发明为了解决上述现有检测方法中存在的耗时过长,不能有效去除干扰信息等技术问题,而提供了一种基于改进RANSAC理论的快速气味指纹检测方法,该方法应用于电子鼻内,能够有效提出观测数据集中的干扰分子,并且能够大大提高运算效率,有效适应目前气味指纹检测的实时性要求。
本发明为解决这一问题所采取的技术方案是:
本发明的基于改进RANSAC理论的快速气味指纹检测方法,包括观测数据集的采集、计算临时模型、验证临时模型、计算候选模型支集、验证候选模型、优化目标标模型六个步骤。具体实现方法如下:
第一步,观测数据集的采集
将气味阵列传感器采集的信号,转换成气味图谱数据库空间的观测数据集,将观测数据集均分成n+1个子集;
第二步,计算临时模型
从每个子集中随机选择一个点,得到n+1个点组成的随机样本集S(S1, S2, ……, Sn, Sn+1),由前n个点(S1, S2, ……, Sn ),得到临时模型P(P1, P2,…,Pn);
第三步,验证临时模型
检测第n+1个点是否在P上,否,则返回第二步,重新选n+1个点;是,则此临时模型P为候选模型P1;
第四步:计算候选模型支集
由P及其模型距离阈值L,检测在此候选模型上的点,得到候选模型的支集M,该支集M中包含m个点。
第五步,验证候选模型
检测m是否大于阈值T,否,则返回第二步重新选n+1个点,继续以上进程;是,则此候选模型P1为目标模型P2;
第六步,优化目标模型
用候选模型支集M对目标模型P2进行优化,优化的核心思想是使支集M中的所有点相对于目标模型P2的距离绝对值最小。经过优化后的模型成为模型P*。
本发明具有的优点和积极效果是:
本发明的基于改进RANSAC理论的快速气味指纹检测方法,能够有效提出观测数据集中的干扰分子,并且能够大大提高运算效率,有效适应目前气味指纹检测的实时性要求。本发明主要应用在固定或者手持式电子鼻内,对于需要实时检测的场合尤其适用。适用本发明的固定或者手持式电子鼻,可以大大提高检测速度和准确性。
附图说明
图1是本发明的基于改进RANSAC理论的快速气味指纹检测方法的流程图。
具体实施方式
以下参照附图及实施例对本发明的基于改进RANSAC理论的快速气味指纹检测方法进行详细的说明,其中与现有技术相同的部件使用了相同的附图标记。
图1是本发明的基于改进RANSAC理论的快速气味指纹检测方法的流程图。如图1所示,本发明的基于改进RANSAC理论的快速气味指纹检测方法,包括如下具体步骤:
第一步,观测数据集的采集
将气味阵列传感器采集的信号,转换成气味图谱数据库空间的观测数据集,将观测数据集均分成n+1个子集;
第二步,计算临时模型
从每个子集中随机选择一个点,得到n+1个点组成的随机样本集S(S1, S2, ……, Sn, Sn+1),由前n个点(S1, S2, ……, Sn ),得到临时模型P(P1, P2,…,Pn);
第三步,验证临时模型
检测第n+1个点是否在P上,否,则返回第二步,重新选n+1个点;是,则此临时模型P为候选模型P1;
第四步:计算候选模型支集
由P及其模型距离阈值L,检测在此候选模型上的点,得到候选模型的支集M,该支集M中包含m个点。
第五步,验证候选模型
检测m是否大于阈值T,否,则返回第二步重新选n+1个点,继续以上进程;是,则此候选模型P1为目标模型P2;
第六步,优化目标模型
用候选模型支集M对目标模型P2进行优化,优化的核心思想是使支集M中的所有点相对于目标模型P2的距离绝对值最小。经过优化后的模型成为模型P*。
对于改进的RANSAC算法,一共有三个参数需确定, 。代表循环次数上限。是模型距离阈值,它决定一个数据点是否在模型上。是一致集元素数量阈值,一个候选模型的支集数量只有大于,才能被认为是目标模型。这三个参数的具体计算方法为:
计算循环次数上限:k
确定k的方法是:在概率上,经过k次循环可以找出n个点,使得这n个点确定的模型就是待求的目标模型。
设是随机从中选一点,此点在目标模型上的概率。则。得出连续选取个样本点都在目标模型上的概率为:。从而推出最大循环次数k的期望值为:
其中E(k)代表k的期望。令,由上式可得到:
利用等比级数(几何级数)的性质,又,得到:
至此可以得到了k的期望值。但在实际应用中,选择的k值往往要高出一到两个标准方差。下面来求k的标准方差,代表k的方差:
由以上推导,可知:
其中:
由上式得到:
至此,找到了k的期望值:和k的标准差:。在本发明的改进RANSAC方法中,取k值为k的期望值加标准差。即:
也可以从另外一个角度来推导估计k。在推导k的过程中,没有规定在进行了k次循环之后,算法以多大的概率找到目标模型。假设规定这个概率为g,则:
计算模型距离阈值: L
观测数据点到模型的距离可以看作一个函数,这个函数的自变量是观测数据的误差和模型的误差,模型的误差也就是用来确定此模型的随机样本集的误差。如果模型是随机样本集的一个简单函数,是可以通过解析的方式推导出模型距离阈值L的。但是,在实际应用中,这种方式基本上是不可行的。在这种情况下,模型距离阈值L为支集中所有数据点距离模型P1的平均距离的1/5 。
计算一致集元素阈值:T
对于一个候选模型,算法找出其支集的数量m。如果m大于一致集元素阈值T,就说明有足够多的观测数据点在候选模型上,此候选模型就被认为是我们要找的目标模型。否则,重新选取含有n+1个数据点的随机样本集。T的选择必须要考虑到以下两点:
第一,足够的点在候选模型上以保证其为目标模型
第二,一致集里的点之间有足够的连续性以保证在随后的优化参数步骤能够顺利进行。所谓参数优化就是利用一致集来提高目标模型精度的步骤。
本发明利用以下步骤来确定T值:
假设:P一个候选模型,但不是目标模型。是任意选择一个观测数据点,此点在P上的概率。我们无法精确的知道的值,但一般说来,(是随机从中选一点,此点在目标模型上的概率。)。设。
本发明要求尽量小。当的时候,就已经非常小了。对于电子鼻中的气味指纹的检测来说,就可以了,本发明在实际应用中都取50以上,以保证定位的准确率。