CN108240978B - 基于拉曼光谱的自学习式定性分析方法 - Google Patents
基于拉曼光谱的自学习式定性分析方法 Download PDFInfo
- Publication number
- CN108240978B CN108240978B CN201611220308.2A CN201611220308A CN108240978B CN 108240978 B CN108240978 B CN 108240978B CN 201611220308 A CN201611220308 A CN 201611220308A CN 108240978 B CN108240978 B CN 108240978B
- Authority
- CN
- China
- Prior art keywords
- substance
- similarity
- false
- self
- list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/62—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
- G01N21/63—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
- G01N21/65—Raman scattering
- G01N21/658—Raman scattering enhancement Raman, e.g. surface plasmons
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/62—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
- G01N21/63—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
- G01N21/65—Raman scattering
Landscapes
- Health & Medical Sciences (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
Abstract
本发明的实施例提供了一种基于拉曼光谱进行自学习式定性分析的方法,包括:拉曼光谱采集步骤,其采集拉曼光谱;特征提取和对比步骤,其提取光谱数据与谱图库的光谱特征库比较而获取原始识别物质ID列表;相似度比较步骤,针对拉曼光谱计算获取原始识别物质ID列表中物质ID的相似度来生成相似度列表,并且与谱图库中的相似度阈值库进行对比;和物质ID选择步骤,基于自学习库来对经与相似度阈值比较后所获相似度超阈值的相似度识别物质ID列表进行验证,包括当相似度列表中存在超过相似度阈值库中的物质ID对应阈值的物质ID时,执行误报检测;当相似度列表中不存在超过相似度阈值库中的物质ID对应阈值的物质ID时,执行漏报检测。
Description
技术领域
本发明涉及拉曼光谱检测领域,尤其涉及一种基于拉曼光谱的自学习式定性分析方法。
背景技术
拉曼光谱分析技术是一种以激发光的拉曼散射效应为基础的非接触式光谱分析技术,它能对物质的成分进行定性、定量分析。拉曼光谱是一种分子振动光谱,它可以反映分子的指纹特征,每种物质的拉曼光谱具有独特性。通过将测量得到的拉曼光谱与已知的各种物质拉曼光谱数据库的谱图进行比对来识别出被测物质的成份,从而可用于对物质的检测,具体地已经广泛应用于液体安检、珠宝检测、爆炸物检测、毒品检测、药品检测等领域。
在现有技术中,常规拉曼光谱检测装置通常基于光谱数据库进行搜索测量来实现定性分析,最后显示测量结果,其大致工作流程可概括为:采集谱图数据;对所采集谱图进行预处理;将经预处理后的所采集谱图与谱图库进行比对;获取定性分析结果;显示定性分析结果。
两种物质的拉曼光谱相似性例如可以用“相似度”参数来定量地表示,诸如通常较为普遍地采用相似性函数来计算相似度。
然而,这种常规的用于定性分析的拉曼光谱检测方法通常对于纯度不高的物质而言误报率和漏报率均较高,且仅仅是重复且机械地执行与光谱数据库的穷尽性对比直至获得一致的比对结果以完成定性分析,从而分析处理的时间较长;且对两种成份相差很小的样品采用全局的简单重复的拉曼光谱相似度比对分析,很难从相似度计算结果将样品进行区分,从而当前常规的相似度计算方法和相似 度判别阈值也遇到了一定困难。
因此,亟需一种改进的对拉曼光谱进行定性分析的方法,其具备自学习能力,且能够充分利用相似度方法、自学习方法以及与可选人工识别方法的组合与来实现高效快速筛分的光谱处理从而达到快速收敛且准确的物质检测。
发明内容
至少部分地解决上述问题的至少一个方面,以及减少或至少部分消除现有技术中存在的缺陷和不足,本发明的目的是提供一种基于拉曼光谱的自学习式定性分析方法,其通过结合自学习与人工对比两种方式来完成拉曼光谱检测,能够降低定性分析中由于物质纯度不足导致的误报和漏报发生率,提高定性分析的准确性;缩短分析处理时间;以及缩短系统启动时间。
本发明的实施例提供了一种基于拉曼光谱进行自学习式定性分析的方法,包括:拉曼光谱采集步骤:采集待实测物品的拉曼光谱;特征提取和对比步骤:提取拉曼光谱数据与谱图库中的光谱特征库比较,获取原始识别物质ID列表;相似度比较步骤:针对拉曼光谱计算获取原始识别物质ID列表中每个物质ID的相似度来生成相似度列表,并且与谱图库中的相似度阈值库进行对比;以及物质ID选择步骤:基于自学习库来对经与相似度阈值比较后所获相似度超相似度阈值的相似度识别物质ID列表进行验证检测,包括误报检测和漏报检测,当相似度列表中存在超过相似度阈值库中所储存的物质ID对应相似度阈值的物质ID时,执行误报检测;当相似度列表中不存在超过相似度阈值库中所储存的物质ID对应相似度阈值的物质ID时,执行漏报检测。
在一实施例中,,当相似度列表中存在超过相似度阈值库中所储存的物质ID对应相似度阈值的物质ID时,先执行误报检测之后再额外地执行漏报检测。
在一实施例中,所述误报检测和所述漏报检测中任一种均设置成选择性地执行三种并行的物质ID选择方法,包括:统计选择方法: 对自学习库中的所有误报或漏报物质ID进行统计选择;特征识别方法:对于自学习库中“自学习类型”取值为“特征识别”的误报或漏报物质ID进行特征识别方式的选择;和二次识别方法:对于自学习库中“自学习类型”取值为“二次识别”的误报或漏报物质ID进行二次识别方式的选择。
在一实施例中,所述误报检测和所述漏报检测中任一种均设置成包括前处理步骤和后处理步骤,所述前处理步骤包括:通过将已识别物质ID列表中的ID与自学习库中对于所有误报或漏报物质ID、对于自学习库中“自学习类型”取值为“特征识别”的误报或漏报物质ID、以及对于自学习库中“自学习类型”取值为“二次识别”的误报或漏报物质ID分别比较,来针对分别生成所述统计选择方法、所述特征识别方法和所述二次识别方法的最高正确物质ID次数;以及所述后处理步骤基于所述统计选择方法、所述特征识别方法和所述二次识别方法的最高正确物质ID次数与各自次数阈值的对比来选择性地执行所述三种物质ID选择方法。
在一实施例中,所述误报检测的前处理步骤中的已识别物质ID列表选择为所述相似度识别物质ID列表。
在一实施例中,所述漏报检测的前处理步骤中的已识别物质ID列表选择为所述原始识别物质ID列表。
在一实施例中,对于所述自学习库中的所有误报或漏报物质ID获得的所述最高正确物质ID次数的次数阈值被设置为大于对于所述自学习库中“自学习类型”取值为“特征识别”和“二次识别”之一的误报或漏报物质ID获得的所述最高正确物质ID次数的次数阈值。
在一实施例中,当所述统计选择方法、所述特征识别方法和所述二次识别方法的最高正确物质ID次数与各自相应次数阈值比较时,在条件“最高正确物质ID次数大于次数阈值”成立至少两次的情况下,继续选择性地执行三种并行的物质ID选择方法中满足该条件的方法来生成相应的至少两种识别物质ID列表。
在一实施例中,所生成的至少两种识别物质ID列表若相等,则 确认为经验证检测后的识别物质ID列表。
在一实施例中,所生成的至少两种识别物质ID列表若存在交集,则确认交集为经验证检测后的识别物质ID列表。
在一实施例中,针对所生成的至少两种识别物质ID列表中的交集以外的部分再次执行所述物质ID选择步骤。
在一实施例中,再次执行的所述物质ID选择步骤包括利用待实测物品与增强剂混合获取增强拉曼光谱来进行的增强检测。
在一实施例中,所述误报检测的前处理步骤中,仅当统计的误报次数大于误报次数阈值时,执行所述误报检测的后处理步骤。
在一实施例中,所述的方法还包括在对待实测物品执行定性分析完成之后,将获得的误报物质ID列表和漏报物质ID列表按照“自学习类型”字段加入自学习库。
在一实施例中,在对待实测物品执行定性分析之前,所述方法还包括利用学习样本物质对自学习库进行初始学习和输入预置的初始自学习库之一来创建自学习库。
在一实施例中,所述方法还包括选择性地利用人工对比方法识别物质。
本发明至少具备以下有益效果:其能够充分利用相似度方法、自学习方法以及与可选人工识别方法的组合来实现高效快速的物质识别的光谱处理。
附图说明
现在参照随附的示意性附图,仅以举例的方式,描述本发明的实施例,其中,在附图中相应的附图标记表示相应的部件。附图的简要描述如下:
图1示出根据本发明实施例的一种基础流程示意图,图示成分为学习阶段和实际检测阶段两个阶段;
图2示出如图1所示的根据本发明实施例的实际检测阶段的总体流程示意图;
图3(a)和3(b)分别示出如图2所示的实际检测阶段的总体流程 中的预处理步骤前后的拉曼光谱谱图的示意图;
图4(a)示出如图2所示的总体流程示意图中步骤S31中所获取的示例性的相似度列表;图4(b)示出如图2所示的总体流程示意图中步骤S32中拉曼光谱谱图库中所包括的用于阈值对比的示例性的阈值库;图4(c)示出如图2所示的总体流程示意图中步骤S32中经阈值对比后生成的示例性的超过阈值物质列表;图4(d)示出如图2所示的总体流程示意图中步骤S10所生成的示例性自学习库的示意性内容;
图5示出如图2所示的实际检测阶段中误报检测的基本示意性流程图;
图6示出如图2所示的实际检测阶段中误报检测的关于“三种方法选举”实现方式的扩展的示意性流程图;
图7是如图6所示的误报检测的一种扩展的示例性实施例的示意性流程图;
图8是如图6所示的误报检测的另一种扩展的示例性实施例的示意性流程图;
图9是如图8所示的误报检测的另一种扩展的示例性实施例中的利用增强拉曼光谱执行的重新误报检测的子流程图,示出如图8所示的重新误报检测的示例性分解步骤;
图10示出如图2所示的实际检测阶段中漏报检测的基本示意性流程图;
图11示出如图2所示的实际检测阶段中漏报检测的关于“三种方法选举”实现方式的扩展的示意性流程图;
图12是如图11所示的漏报检测的一种扩展的示例性实施例的示意性流程图;
图13是如图11所示的漏报检测的另一种扩展的示例性实施例的示意性流程图;
图14是如图13所示的漏报检测的另一种扩展的示例性实施例中的利用增强拉曼光谱执行的重新漏报检测的子流程图,示出如图13所示的重新漏报检测的示例性分解步骤;
图15示出根据本发明的如图1所示实施例的方法的操作示意图;
图16示出根据本发明实施例的又一流程示意图,图示成也分为学习阶段和实际检测阶段两个阶段,其中示出关于同时存在误报和漏报可能的检测方式;
图17是示出了根据本发明的又一实施例的一种电子设备的示例硬件布置的框图。
具体实施方式
为使本公开的上述目的、特征和优点能够更加显而易见,下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。在说明书中,相同或相似的附图标号表示相同或相似的部件。下述参照附图对本发明实施方式的说明旨在对本发明的总体发明构思进行解释,而不应当理解为对本发明的一种限制。
另外,在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本披露实施例的全面理解。然而明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。在其他情况下,公知的结构和装置以图示的方式体现以简化附图。
根据本发明的总体构思,提供一种基于拉曼光谱的自学习式定性分析方法,包括:拉曼光谱采集步骤:采集待实测物品的拉曼光谱;特征提取和对比步骤:提取拉曼光谱数据与谱图库中的光谱特征库比较,获取原始识别物质ID列表;相似度比较步骤:针对拉曼光谱计算获取原始识别物质ID列表中每个物质ID的相似度来生成相似度列表,并且与谱图库中的相似度阈值库进行对比;以及物质ID选择步骤:基于自学习库来对经与相似度阈值比较后所获相似度超相似度阈值的相似度识别物质ID列表进行验证检测,包括误报检测和漏报检测,当相似度列表中存在超过相似度阈值库中所储存的物质ID对应相似度阈值的物质ID时,执行误报检测;当相似度列表中不存在超过相似度阈值库中所储存的物质ID对应相似度阈值的物质ID时,执行漏报检测。
另外,在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本披露实施例的全面理解。然而明显地,一个或更多 个实施例在没有这些具体细节的情况下也可以被实施。
图1示出根据本发明实施例的一种基础流程示意图,图示成分为学习阶段和实际检测阶段两个阶段。
在学习阶段,主要目的是建立供实际检测使用的样品的拉曼光谱自学习库。在实际检测阶段,则是利用自学习库,并且诸如结合人工对比拉曼光谱,来对实际的待测样品进行检测,以得出定性分析的结果。
上述学习阶段也可等效地视为自学习库的预设置阶段或标定阶段,例如典型地包括以下步骤:测量学习样本的拉曼光谱,诸如通过提取其光谱特征并且与光谱特征库比较;并且例如通过基于光谱特征的比较,来获取相似度列表并且与相似度阈值库进行比较;判断是否有超过阈值的物质存在,并且基于判断结果,(1)如果经与阈值库比较存在超过其中所列相似度阈值的物质ID,则执行误报检测(即判断当前检出的超过相似度阈值的物质之中是否有因误报而实质上并未包括于当前学习样本内的物质),所述误报检测例如通过与已有自学习库中的误报物质ID或名称进行比较、并且进一步选择性地采用不同自学习类型的方法来选择出误报物质ID,以及(2)如果不存在超过其中所列相似度阈值的物质ID,则执行漏报检测(即判断当前是否有因漏报而实质上包括于当前学习样本内但被测量为不超过相似度阈值的物质),所述漏报检测例如通过与已有自学习库中的漏报物质ID或名称进行比较、并且进一步选择性地采用不同自学习类型的方法来选择出漏报物质ID;之后可选地判断是否进行人工对比并且基于判断结果选择性地执行人工对比;最后将诸如正确识别的物质ID及其校正识别类型(即误报、漏报)的信息录入到自学习库汇中作为自学习库的初始预置值的一部分。上述过程可以对于一种或多种学习样本分别实施,直至不再有所需的新的学习样本的拉曼光谱需要采集和定性检测为止。
上述实际检测阶段也可等效地视为基于已生成的自学习库来对待实测样品进行定性分析的阶段,例如典型地包括以下步骤:测量待实测样品的拉曼光谱,诸如通过提取其光谱特征并且与光谱特征 库比较;并且例如通过基于光谱特征的比较,来获取相似度列表并且与相似度阈值库进行比较;判断是否有超过阈值的物质存在,并且基于判断结果,(1)如果经与阈值库比较存在超过其中所列相似度阈值的物质ID,则执行误报检测(即判断当前检出的超过相似度阈值的物质之中是否有因误报而实质上并未包括于当前待实测样品内的物质),所述误报检测例如通过与已有自学习库中的误报物质ID或名称进行比较、并且进一步选择性地采用不同自学习类型的方法来选择出误报物质ID,以及(2)如果不存在超过其中所列相似度阈值的物质ID,则执行漏报检测(即判断当前是否有因漏报而实质上包括于当前待实测样品内但被测量为不超过相似度阈值的物质),所述漏报检测例如通过与已有自学习库中的漏报物质ID或名称进行比较、并且进一步选择性地采用不同自学习类型的方法来选择出漏报物质ID;之后可选地判断是否进行人工对比并且基于判断结果选择性地执行人工对比;最后显示定性分析的识别结果;继而将诸如正确识别的物质ID及其校正识别类型(即误报、漏报)的信息录入到自学习库汇中作为自学习库的初始预置值的一部分。
对于常规的拉曼光谱测量方法而言,如果仅采用直接对待实测样品进行检测并根据原始拉曼光谱数据进行判定,在一些情况下检测的准确性对于某些样品例如纯度不足的样品难以保证;且如果仅采用人工比对的方法,通常基于检测者的经验进行,也无法得到客观准确的测试结果;并且,常规的拉曼光谱检测方法至多生成初始的标定样品数据库用于直接对比,没有自学习能力,在例如对不同组分的混合物中的物质执行定性分析时适应灵活性不足。而且,常规的拉曼光谱测量方法普遍存在分析处理时间较长的问题。
从上述如图1所示的本发明实施例的示意性基础流程图可知,根据本发明的实施例的基于拉曼光谱的自学习式定性分析方法利用了自学习与人工对比相结合的方式对待实测样品进行检测。这种方式诸如通过在预先进行的学习阶段中利用学习样本进行的学习、以及在实际使用中对于不同的待测物质样品的定性分析的结果,来不断对自学习库进行增补完善,从而通过自学习而提升识别结果准确 度和效率,使得能够将对基于拉曼光谱的物质定性分析的检测效率和检测准确性进行最佳的优化,特别是在物质纯度不足,无法被常规的拉曼检测方法所直接识别的情况下。
作为示例,为了防止由于所述学习样本本身给校准工作带来误差,所述所述学习样本例如可选择为生成的谱图中特征峰清晰、峰位均匀、干扰小的物质样本。并且,期望所述学习样本被选择为峰位间隔更加均匀且有一定间隔,以利于更准确的进行预学习。在本发明的实施例中,所述学习样本例如为液体或固体样品。并且,例如考虑到通常待实测样品为多种物质的混合物,所述学习样本例如选择为单一组分纯度并不占绝对优势的多种组分的混合物以适应于后期实测中进行比对匹配的要求。
作为示例,所述学习样本的拉曼光谱图例如具有至少四个特征峰。较多的特征峰数量对于初始学习的准确度以提高后续基于自学习库进行的定性检测操作的准确性是有益的。但这不是必须的,所述学习样本也例如可以具有两个或三个特征峰。
在根据本发明的基于拉曼光谱的自学习式定性分析方法中,一方面,可以先利用代表性的学习样本物品建立起来初始的自学习库;另一方面,上述学习阶段并不是必需的。例如,操作者能够利用预先输入的自学习库而非经训练而新生成的自学习库,来进行待实测样品物质的定性分析。再一方面,上述预先的自学习阶段也不必在实际检测之前进行很久,例如,替代地在检测现场对实测样品物质进行检测的同时进行自学习,在使用过程中通过累积对新增的检测样品物质而向自学习库中添加。
图2示出如图1所示的根据本发明实施例的实际检测阶段的总体流程示意图。在本发明的实施例的定性分析中,为了缩短分析处理时间和系统启动时间,将通常的拉曼检测中的整体的谱图库细分为包括多个子库:光谱特征库,诸如是通过将谱图的峰个数、峰位、峰强等一些基本物征抽取出来而生成所述光谱特征库以供算法对比识别使用,在软件启动时载入;(相似度)阈值库,包括识别谱图的相似度最低阈值、物质ID、库号等信息,供显示处理使用,在软件 启动时载入;物质名称库,包括物质ID、名称、别名等信息,供软件显示处理时使用。由此,各个细分的子库分别在相应的检测步骤处载入用于比较,而不必总是将完整的谱图库整体地或多次载入,从而缩短了各个步骤的响应时间,提高了检测速度。
则如图2所示可知,实际检测阶段例如包括:
步骤S0:开始;
步骤S1:生成待检测拉曼光谱并且提取拉曼光谱数据;
步骤S2:利用所提取拉曼光谱数据与光谱特征库进行比较;
步骤S3:运用相似度计算和相似度阈值对比来生成初步确定物质列表;
步骤S4:判断是否存在超过阈值的物质?
步骤S5:针对判断为存在超过阈值的物质的情况,进一步执行误报检测;
步骤S6:针对判断为不存在超过阈值的物质的情况,进一步执行漏报检测;
步骤S7:生成经误报(或漏报)检验后确认的物质列表;
(可选的)步骤S8:人工比对拉曼光谱的检测;
步骤S9:生成最终检测确认的物质列表,并且从物质库中找出物质名称;
步骤S10:本次的全部检验结果写入自学习库;
以及步骤S11:显示定性分析的检测结果,本次检测过程终止。
作为示例性实施例,具体而言,上述步骤S1例如具体还包括:
步骤S11:采集拉曼光谱,例如可以通过光束发射、收集、分光等已知过程获得;
步骤S12:对所采集到的拉曼光谱进行预处理,得到待测的原始拉曼光谱;
步骤S13:从待测的原始拉曼光谱中提取光谱数据。
由于拉曼光谱仪采集到的样品原始光谱包含荧光背景、检测器(CCD)噪声、发射器功率波动等干扰信息,会影响后续的比对和信号处理。因此,需要对测量得到的原始光谱数据进行如上述步骤S12 所示的预处理,以利于后续有效信息的提取。上述步骤S12的预处理光谱预处理一般包括插值、去噪、基线校正、归一化处理等,特别是主要目的旨在对输入的光谱图信号进行平滑去噪处理。预处理前后的光谱图信号如图3(a)和3(b)分别示出。在本发明实施例中,采集的原始光谱一般需要经过预处理,为了简洁,下文不再赘述。
并且,上述步骤S3例如具体地包括:
步骤S31:计算获取相似度列表;
步骤S32:相似度列表与相似度阈值库进行对比,并且获取超过阈值的物质列表。
在上述实施例中,为清楚起见,图4(a)示出如图2所示的总体流程示意图中步骤S31中所获取的示例性的相似度列表;图4(b)示出如图2所示的总体流程示意图中步骤S32中拉曼光谱谱图库中所包括的用于阈值对比的示例性的阈值库;图4(c)示出如图2所示的总体流程示意图中步骤S32中经阈值对比后生成的示例性的超过阈值物质列表;图4(d)示出如图2所示的总体流程示意图中步骤S10所生成的示例性自学习库的示意性内容。
对于待实测物质样品的拉曼光谱图的定性分析,仍基于拉曼光谱识别的典型思路,即与参考拉曼光谱图的比对,即判定待实测物质样品的测量拉曼光谱图与参考拉曼光谱图的误差是否在预定范围内,例如通过计算两者的相似度来进行。作为示例,如上述步骤S31中的相似度的计算例如有多种方法,例如,基于作为用于光谱搜索的工业标准算法的欧氏距离算法来计算相似度;更具体而言,作为示例,假定已学习过的样品的参考拉曼光谱图曲线为A(x),待实测样品的测量拉曼光谱图曲线为B(x),在一示例中,采用最大似然算法,基于欧氏距离算法,可以通过式(1)对两者的相似度进行计算:
其中Corr表示已学习过的样品的参考拉曼光谱图和待实测样品 的测量拉曼光谱图的相似度,“·”表示点积运算。
在另一替代示例中,以与上述类似的算法计算相似度,但在执行算法之前先减去光谱的平均值。具体而言,可以对A(x)和B(x)分别进行采样以各获得n个采样点,分别表示为A1,A2,…,An以及B1,B2,…,Bn,则已学习的参考拉曼光谱图和待实测样品的测量拉曼光谱图的相似度Corr可以根据式(2)进行计算:
其中,“·”也表示点积运算。
在又一替代示例中,亦可以对A(x)和B(x)分别进行采样以各获得n个采样点,分别表示为A1,A2,…,An以及B1,B2,…,Bn,则已学习的参考拉曼光谱图和待实测样品的测量拉曼光谱图的相似度Corr可以根据式(3)进行计算:
上述相似度计算可以针对整个拉曼光谱图进行,也可以仅针对于拉曼光谱图中具有特征部分的局部进行。相似度值越接近于1,表明相似程度越高。以上仅是给出了一些相似度计算的示例,本领域技术人员所知的一些其他的相似度计算方法也是可行的。判定待实测样品的测量拉曼光谱图与已学习的参考拉曼光谱图的误差是否在预定范围内,可以通过上述相似度大于一定的阈值来确定。作为示例,该相似度的阈值可以设定为0.9,0.8等等。所述相似度阈值例如更加实际的检测灵敏度需要,检测仪器的精度等因素来给出。
在本发明中,术语“特征部分”是指某种待测样品的拉曼光谱曲线中有别于其它样品的拉曼光谱曲线的关键部分。例如,所述特 征部分可以是一个或更多个特征峰、特征谷、相位拐点等等。并且,例如,在待实测样品的拉曼光谱曲线包括特征峰的情况下,上述相似度可以基于所述特征峰的峰位、峰宽和/或峰高来进行加权计算。在一示例中,在计算所述相似度之前,还可以对所述特征峰进行搜索和排序。
以上仅是给出了一些相似度计算的示例,本领域技术人员所知的一些其他的相似度计算方法也是可行的。例如,与以上基于作为光谱搜索的工业标准算法的欧氏距离的相似度算法相区别,还替代地例如采用基于闵氏距离公式中不同于p=2的欧氏距离以外的其它p取值的距离来计算相似度。闵氏距离公式如下式(4)所示,当p=2时即为欧氏距离。
作为另外的实施例,由于每种物质的拉曼光谱是组成该物质分子结构的反映,具有独特的结构和模式特性。通过将光谱数据点数视为模式空间的维数,由此,一张拉曼光谱谱图在模式空间中即可表达为一个模式向量,N张图谱间相似性的分析就转化为计算模式空间中N个模式向量的相似度。相应地,还诸如替代地采用夹角余弦方法、或基于杰卡德距离的杰卡德相似系数方法的相似度计算,使得计算HQI值的方法简便快速,且其计算值也与基于上述欧氏距离算法的相似度计算类似地具备介于0至1之间的固定区间范围,易于衡量。进一步地,还如可选择性地采用调整余弦相似度算法。
作为示例,补充地或替代地,例如,判定待实测样品的拉曼光谱图与参考拉曼光谱图的误差是否在预定范围内,也可以直接通过峰强检测(幅值检测)和峰位检测(相位检测或拐点检测)来提取特征峰的信息,从而直接将测量拉曼光谱图与参考拉曼光谱图中的这些特征峰的信息进行比较来实现。
在拉曼光谱测量中,由于存在样品均匀性差异、仪器噪声、荧 光背景等,使得拉曼光谱产生偏差;且在光谱处理过程中,去噪、基线校正等也会产生误差。在识别过程中仅采用相似度进行物质识别的准确率不高,因此,在本发明实施例中,例如通过引入自学习识别方法和人工对比识别方法的组合来进一步对待检物品进行物品定性分析。
图5示出如图2所示的实际检测阶段中误报检测步骤S5的基本示意性流程图。如图所示,在本发明的示例性示例中,针对与阈值库进行的相似度对比之后判断为存在超过阈值的物质的情况,进一步执行误报检测所示误报检测步骤S5,所述误报检测步骤S5包括两个阶段即:误报检验前处理步骤S50、S50′和S50″;以及误报检测后处理步骤S51。
一方面,作为本发明的示例性示例,例如如图5所示,误报检测前处理步骤S50、S50′和S50″是三个在逻辑上并行的分流程,分别对应于后续的后处理步骤S51中的待采用的第n种(n=1,2,3)物质ID选择方法:S50对应于第一种物质ID选择方法,即利用统计方式逐一核实来选择,也称为“统计选择”方法;S50′对应于第二种物质ID选择方法,即调用预设的“特征识别接口”的相应算法来选择验证的物质ID,也称为“特征识别”方法;以及S50″对应于第三种物质ID选择方法,即调用预设的“二次识别接口”的相应算法来选择验证的物质ID,也称为“二次识别”方法。相应地,基于下文中各自待用的物质ID选择方法的特性,S50也称为“统计选择”的前处理步骤,S50′也称为“特征识别”的前处理步骤,S50″也称为“二次识别”的前处理步骤。上述三个前处理步骤S50、S50′和S50″在逻辑上并行是指彼此独立地执行,在时间上例如基本同时执行、或顺序地执行、或时间上彼此无关地执行。
具体地,如图5所示,所述误报检验前处理步骤,即“统计选择”的前处理步骤S50、“特征识别”的前处理步骤S50′和“二次识别”的前处理步骤S50″例如包括:
步骤S500,S500′,S500":误报检验子流程开始。
步骤S501,S501′,S501":将阈值比较后获取的相似度超阈值的识 别物质ID列表(下文称为“阈值识别列表”)中的物质ID依次与自学习库中的(整个/或对应单个)“误报物质ID”字段进行比较。
此处,具体而言,如图5所示,例如,步骤S501是将经阈值比较后的阈值识别列表中的ID依次与整个自学习库中的“误报物质ID”字段进行比较;步骤S501′是将经阈值比较后的阈值识别列表中的ID依次与在自学习库中的“自学习类型”字段取值为“特征识别”情况下的“误报物质ID”字段进行比较;且步骤S501"是将经阈值比较后的阈值识别列表中的ID依次与在自学习库中的“自学习类型”字段取值为“二次识别”情况下的“误报物质ID”字段进行比较;
步骤S502,S502′,S502":判断是否匹配到相同的ID(即:是否识别到误报物质ID存在?)。
步骤S503,S503′,S503":若匹配到相同的物质ID,则相当于发现一次误报物质ID,从而误报次数计数器加1。
步骤S504,S504′,S504":若未能匹配到相同的物质ID,则相当于当前物质ID并非是误报的而是认为实际存在的,则正确物质ID次数计数器加1。
步骤S505,S505′,S505":判断识别物质ID列表对比是否完成,若对比未完成则转向至步骤S501,S501′,S501"循环执行;若对比完成则进入下一步骤S506,S506′,S506"。
步骤S506,S506′,S506":判断误报次数是否大于10,若误报次数小于等于10,则认为误报次数不足以确保自学习检测的顺利进行,从而跳转至人工对比识别;若识别次数大于10,则进入“最高正确物质ID次数”字段的赋值步骤。
此处,误报次数设置为10是一种经验值,当确认发生的误报次数超过该值的情况下,则认定所发生的误报数量足以产生一个充分大的待核实物质ID集合,以供后续的后处理步骤S51进行物质ID选择。具体地,以上三种误报检验前处理步骤,即“统计选择”步骤S50、“特征识别”步骤S50′和“二次识别”步骤S50″分别对应于后处理步骤中采用的第n种(n=1,2,3)物质ID选择方法:第一种 物质ID选择方法为利用统计方式逐一核实来选择;第二种物质ID选择方法为调用预设的“特征识别接口”的相应算法来选择验证的物质ID;以及第三种物质ID选择方法为调用预设的“二次识别接口”的相应算法来选择验证的物质ID。
步骤S507,S507′,S507":将各自当前“正确物质ID次数计数器”分别赋值给相应“最高正确物质ID次数”字段MaxRightIDNum(n),以作为后处理步骤S51中判断是否需执行后续对应的第n种物质ID选择方法的判据。
另一方面,作为本发明的示例性示例,如图5所示,误报检测后处理步骤S51例如包括:
S511:判断对于以上三组分流程S50、S50′和S50″而言,比较公式“字段MaxRightIDNum(n)>相应阈值THR(n)?”是否对于至少有两组成立。此判断是作为划分是否最高正确物质ID次数足以确保执行相应物质ID选择方法的判据,若满足则表示可利用至少两种物质ID选择方法用于获取至少两组物质ID列表来共同验证能以程控方式识别的物质ID的存在性。反之,若该对于以上三组分流程S50、S50′和S50″而言,所述比较公式均不成立或仅对一组成立,则表示无法通过将以上至少两种物质ID选择方法各自识别的物质ID列表进行选举来定性分析,从而实质上此自学习过程继续进行无意义,则终止操作并跳转至人工对比识别。
S512:在公式“字段MaxRightIDNum(n)>相应阈值THR(n)?”成立的情况下,分别以第n种方法获取各自相应物质列表IDn(例如,ID1或ID2或ID3)。
S513:判断所生成的(即经误报检验后确认的)各物质列表IDn中是否至少两个相同。若“是”则继续执行后续步骤S514,若“非”则实质上此自学习过程继续进行无意义,则终止操作并跳转至人工对比识别。
S514:相同的至少两个物质列表作为对应的至少两个物质ID选择方法各自辨识并共同确认的识别物质列表。
其中,对于上述步骤S511而言,字段MaxRightIDNum(n)的相 应阈值THR(n)例如分别设置为:对于“统计选择”方法、“特征识别”方法、“二次识别”方法而言,其阈值分别为第一阈值THR(1)、第二阈值THR(2)、和第三阈值THR(3)。由于“特征识别”方法是模式识别中用于从原始特征集中剔除不相关或冗余特征的降维方法,“二次识别”方法则诸如在特征提取后通过估计均值与协方差矩阵,建立和训练分类器,进行分类来识别,从而二者能够达到减少特征个数,提高检测精确度,减少运行时间的目的;而“统计选择”方法则是不加选择地逐一比较确认,由此“统计选择”方法的可信度相比于采用模式识别的“特征识别”方法或“二次识别”方法较小,相应地,第一阈值THR(1)设置为相比于第二阈值THR(2)和第三阈值THR(3)更大。例如,在本发明实施例中,THR(n)分别设置为THR(1)=10、THR(2)=5、THR(3)=6。
对于上述步骤S512而言,一方面,在本发明的示例性示例中,例如,“特征识别”方法是模式识别中用于从原始特征集中剔除不相关或冗余特征的降维方法,例如在本发明实施例中通过调用预置于自学习库的“特征识别接口”字段中的多个特征识别接口来实现,并且可以选择为如下至少之一:
过滤/筛选法(Filter),其通过选定一个指标来表征每个特征的重要性,然后根据特征的指标值来对特征排序,诸如通过设定阈值并去掉达不到阈值的特征、或通过设定待选择特征的个数并且选择前N个或者排序为最前一定百分比的特征,来进行特征筛选。换言之,通过给每一维的特征赋予权重,权重代表该维特征的重要性,然后依据权重排序。通常的过滤法利用训练集自身的特点筛选出特征子集,一般考虑的是特征的独立性或者与因变量的关系,例如卡方检验、信息增益、相关系数等。
包裹/封装法(Wrapper),其根据目标函数(通常是预测效果的评估),每次对训练集选择若干分组特征,或者排除若干分组特征。换言之,包裹/封装法实质上是将特征子集的选择看作是一个搜索寻优问题,通过打包生成不同的组合(特征子集),对组合进行评价、再与其他的组合进行比较,例如将分类的精度作为衡量特征子集好 坏的标准。由此,子集的选择被视为一个优化问题,例如可通过很多的优化算法解决,尤其是启发式优化算法,诸如遗传算法,粒子群算法,差分进化算法,人工蜂群算法等。包裹/封装法例如递归特征消除算法。
嵌入/集成法(Embedded):其先使用某些机器学习的算法和模型进行训练,得到各个特征的权重系数,再根据权重系数从大到小选择特征。类似于Filter方法,但是通过训练来确定特征的优劣,即在模型既定的情况下学习出对提高模型准确性最好的属性。具体而言,是在确立模型的过程中,挑选出对模型的训练有重要意义(例如对于提升准确率贡献最大)的特征。最常见的Embedded方法例如正则化方法。
另一方面,在本发明的示例性示例中,例如,“二次识别”方法例如是通过调用预置于自学习库的“特征识别接口”字段中的多个二次识别接口来实现,并且例如以如下方式构建:诸如采用模式识别中常用的二次判别方程QDF分类器、MQDF改进二次判别方程分类器等来执行,通过估计均值与协方差矩阵训练分类器,协方差矩阵反映出特征之间的散布情况,协方差越大,包含的信息量就越多,则最终分类就越准确。
由此,在本发明的示例性实施例中,当如前所述,例如,在各个阈值的取值分别设置为THR(1)=10、THR(2)=5、THR(3)=6的前提下,若字段MaxRightIDNum(1)>10成立,则以统计方式从整个自学习库的“误报物质ID”字段中选择出所获得的统计选择物质列表ID1;若字段MaxRightIDNum(2)>5成立,则调用特征识别接口来获得特征识别物质列表ID2;若字段MaxRightIDNum(3)>6成立,则调用二次识别接口来获得二次识别物质列表ID3。
对于上述步骤S514而言,利用至少两组物质ID选择方法来各自独立地进行物质识别验证,然后将所确认的物质ID列表对比,一旦相同,则意味着在基于相似度判断的基础上,进一步利用至少两种独立的方法来共同确认了识别物质ID列表,从而获得相比常规的仅基于相似度判断的拉曼光谱检验和人工执行的拉曼光谱检验而言 更准确的自学习物质识别ID列表。
在本发明的示例性实施例中,在以上误报检测后处理步骤S51之后,跳转至S7即生成经误报检验后确认的物质列表。
类似地,讨论漏报检测S6。图10示出如图2所示的实际检测阶段中漏报检测的基本示意性流程图。如图所示,在本发明的示例性示例中,针对与阈值库进行的相似度对比之后判断为不存在超过阈值的物质的情况,进一步执行漏报检测所示漏报检测步骤S6,所述漏报检测步骤S6包括两个阶段即:漏报检验前处理步骤S60、S60′和S60″;以及漏报检测后处理步骤S61。
一方面,作为本发明的示例性示例,例如如图10所示,漏报检测前处理步骤S60、S60′和S60″是三个在逻辑上并行的分流程,分别对应于后续的后处理步骤S61中的待采用的第n种(n=1,2,3)物质ID选择方法:S60对应于第一种即前述“统计选择”方法;S60′对应于第二种即前述“特征识别”方法;以及S60″对应于第三种即前述“二次识别”方法。相应地,基于下文中各自待用的物质ID选择方法的特性,S60也称为“统计选择”的前处理步骤,S60′也称为“特征识别”的前处理步骤,S60″也称为“二次识别”的前处理步骤。上述三个前处理步骤S60、S60′和S60″在逻辑上并行是指彼此独立执行,在时间上例如基本同时执行、或顺序地执行、或时间上彼此无关地执行。
具体地,如图10所示,大致与前述误报检验前处理步骤S50、S50′和S50″相似,所述漏报检验前处理步骤,即“统计选择”的前处理步骤S60、“特征识别”的前处理步骤S60′和“二次识别”的前处理步骤S60″例如包括:
步骤S600,S600′,S600":漏报检验子流程开始。
步骤S601,S601′,S601":将原始识别物质ID列表中的物质ID依次与自学习库中的(整个/或对应单个)“漏报物质ID”字段进行比较。
此处,具体而言,如图10所示,例如,步骤S601是将原始识别物质ID列表中的ID依次与整个自学习库中的“漏报物质ID” 字段进行比较;步骤S601′是将原始识别物质ID列表中的ID依次与在自学习库中的“自学习类型”字段取值为“特征识别”情况下的“漏报物质ID”字段进行比较;且步骤S601"是原始识别物质ID列表中的ID依次与在自学习库中的“自学习类型”字段取值为“二次识别”情况下的“漏报物质ID”字段进行比较;
步骤S602,S602′,S602":判断是否匹配到相同的ID(即:是否识别到漏报物质ID存在?)。
步骤S603,S603′,S603":若匹配到相同的物质ID,则相当于发现一次漏报物质ID,从而正确物质ID次数(此处即等效于漏报物质ID次数)计数器加1。
步骤S604,S604′,S604":判断识别物质ID列表对比是否完成,若对比未完成则转向至步骤S601,S601′,S601"循环执行;若对比完成则进入下一步骤S605,S605′,S605"。
步骤S605,S605′,S605":将各自当前“正确物质ID次数计数器”分别赋值给相应“最高正确物质ID次数”字段MaxRightIDNum(n),以作为后处理步骤S61中判断是否需执行后续对应的第n种物质ID选择方法的判据。
另一方面,作为本发明的示例性示例,如图10所示,大致与图5所示的前述误报检测后处理步骤S51类似,漏报检测后处理步骤S61例如包括:
S611:判断对于以上三组分流程S60、S60′和S60″而言,比较公式“字段MaxRightIDNum(n)>相应阈值THR(n)′?”是否对于至少有两组成立。此判断是作为划分是否最高正确物质ID次数足以确保执行相应物质ID选择方法的判据,若满足则表示可利用至少两种物质ID选择方法用于获取至少两组物质ID列表来共同验证能以程控方式识别的物质ID的存在性。反之,若该对于以上三组分流程S60、S60′和S60″而言,所述比较公式均不成立或仅对一组成立,则表示无法通过将以上至少两种物质ID选择方法各自识别的物质ID列表进行选举来定性分析,从而实质上此自学习过程继续进行无意义,则终止操作并跳转至人工对比识别。
S612:在公式“字段MaxRightIDNum(n)>相应阈值THR(n)′?”成立的情况下,分别以第n种方法获取各自相应物质列表IDn′(例如,ID1′或ID2′或ID3′)。
S613:判断所生成的(即经漏报检验后确认的)各物质列表IDn′中是否至少两个相同。若“是”则继续执行后续步骤S614,若“非”则实质上此自学习过程继续进行无意义,则终止操作并跳转至人工对比识别。
S614:相同的至少两个物质列表作为对应的至少两个物质ID选择方法各自辨识并共同确认的识别物质列表。
其中,对于上述步骤S611而言,字段MaxRightIDNum(n)的相应阈值THR(n)′的选择和设置与误报检测相同或类似。例如,第一阈值THR(1)′设置为相比于第二阈值THR(2)和第三阈值THR(3)更大。例如,在本发明实施例中,THR(n)′分别设置为THR(1)′=10、THR(2)′=5、THR(3)′=6。并且采用的“特征识别”方法和“二次识别”方法也相同或类似,分别通过调用多个不同“特征识别接口”和多个“二次识别接口”而执行。
由此,在本发明的示例性实施例中,当如前所述,例如,在各个阈值的取值分别设置为THR(1)′=10、THR(2)′=5、THR(3)′=6的前提下,若字段MaxRightIDNum(1)′>10成立,则以统计方式从整个自学习库的“漏报物质ID”字段中选择出所获得的统计选择物质列表ID1′;若字段MaxRightIDNum(2)′>5成立,则调用特征识别接口来获得特征识别物质列表ID2′;若字段MaxRightIDNum(3)′>6成立,则调用二次识别接口来获得二次识别物质列表ID3′。
对于上述步骤S614而言,利用至少两组物质ID选择方法来各自独立地进行物质识别验证,然后将所确认的物质ID列表对比,一旦相同,则意味着在基于相似度判断的基础上,进一步利用至少两种独立的方法来共同确认了识别物质ID列表,从而获得相比常规的仅基于相似度判断的拉曼光谱检验和人工执行的拉曼光谱检验而言更准确的自学习物质识别ID列表。
在本发明的示例性实施例中,在以上漏报检测后处理步骤S61 之后,跳转至S7即生成经漏报检验后确认的物质列表。
为示意起见,图15给出了利用根据本发明的一实施例的方法对待实测样品的拉曼光谱进行检测的操作的示意图。在该示例中的主要流程包括:
1)准备好样品后,采集数据;
2)调用算法接口进行光谱预处理,提取光谱特征数据;
3)与光谱特征库比较;
4)获取相似度列表,如图2所示;
5)与阈值库比较,如图3所示;
6)获取超过阈值物质列表,如图4所示;
7)有超过阈值物质吗?如果是“No”,跳转到14);
8)如果是“Yes”,则在自学习库查找是否有误报物质ID,如果是“No”,跳转到21);
9)如果是“Yes“,调用“统计选择”算法选择误报物质ID;
10)调用“特征选择”算法选择误报物质ID;
11)调用“二次识别”算法选择误报物质ID;
12)调用“三种方案选举确定结果”算法选择最终的可能正确的物质ID;
13)根据物质ID从谱图库中找出物质名称,跳转到21);
14)自学习库中有漏报物质ID吗?如果是“No”,跳转到21);
15)如果是“Yes”,调用“统计选择”算法选择漏报物质ID;
16)调用“特征选择”算法选择漏报物质ID;
17)调用“二次识别”算法选择漏报物质ID;
18)调用“三种方案选举确定结果”算法选择最终的可能正确的物质ID;
19)“有漏报物质ID吗”,如果是“No”,跳转到21);
20)如果是“Yes”,从谱图库中找出物质名称;
21)显示测量结果;
22)进行“人工对比”吗?如果选择“No”,跳转到26);
23)如果是“Yes”,列出样品谱图与谱图库所有谱图对比结果,包括相似度、峰个数、峰位、峰强等,进行人工分析与筛查、判断;
24)“有误报、漏报吗?”,如果是“No”,跳转到26);
25)如果是“Yes”,选择正确的物质、选择类型等信息写入自学习库,供分析处理及自学习;
26)结束。
类似地,在其它实施例中,基于上述优选实施例实现多个修改和变型。
图6示出如图2所示的实际检测阶段中误报检测的关于“三种方法选举”实现方式的扩展的示意性流程图。在图6的示例中的误报检测流程S5与图5的示例中的误报检测流程S5的区别主要在于,如图6所示,例如,在完成基于“至少两个(由各种物质ID选择方法分别地)所识别的物质ID列表”之后,所述误报检测后处理步骤S51还额外地包括可选的步骤S515即基于“交集”的进一步“三方法选举”。为简洁起见,其余相同的子步骤不再赘述。
进一步地,图7是如图6所示的误报检测的一种基本扩展的示例性实施例的示意性流程图。在图7的示例中的误报检测流程S5与图15的示例中的误报检测流程S5的区别主要在于,如图7所示,例如,所述误报检测后处理步骤S51的可选步骤S515具体地包括:
步骤S5150:判断所生成的各物质列表ID1、ID2、ID3中至少两个存在交集?若成立则继续执行步骤S5150,即认为利用至少两种独立的方法所分别选择生成的物质ID列表存在重叠部分,该重叠部分可用来生成一种经共同确认的识别物质ID列表;否则,则跳转至人工对比识别。
步骤S5151:在步骤S5150成立的情况下,将所述交集赋值给第一识别列表。
此后,第一识别列表在后续步骤S7直接作为经误报检验后确认的物质列表。
图7所示的误报检测S5的扩展流程图在基于相似度识别和利用至少两种独立的方法的相同结果的判断来共同确认了识别物质ID列表之后,进一步利用至少两种独立的方法的结果的重叠部分即交 集的判断来共同确认了识别物质ID列表,确保了识别准确度又被进一步提高。
图8是如图6所示的误报检测的另一种进一步扩展的示例性实施例的示意性流程图。在图8的示例中的误报检测流程S5与图7的示例中的误报检测流程S5的区别主要在于,如图8所示,例如,所述误报检测后处理步骤S51的可选步骤S515还额外地包括,针对至少两种独立的方法各自选择出的物质ID列表,除了对交集部分进行确认之外,还进一步对非交集部分进行进一步验证。例如,在步骤S5150和S5151之后,所述误报检测后处理步骤S51的可选步骤S515还额外地包括:
S5152:以所述至少两个物质列表ID1、ID2、ID3的并集减去交集得到待重检物质列表。
S5153:待重检物质列表再次进行增强误报检测。
S5154:判断重新进行增强误报检测后是否有新确认的物质列表生成。若有则继续执行步骤S5155,否则跳转至步骤S5156。
S5155:生成重新识别列表。
S5156:重新识别列表被赋值为空(NONE)。
S5157:将重新识别列表赋值给第二识别列表。
S5158:第一与第二识别列表合并生成识别物质列表。
其中,如上子步骤所述,图8的误报检测S5实质上在图7所示示例的基础上,实质上是对于经“交集判断”之后仍无法确认的“交集之外的补集”部分进行进一步分析验证。其具体步骤在下文中详细阐述。例如,图9是如图8所示的误报检测的另一种扩展的示例性实施例中的利用增强拉曼光谱执行的重新误报检测S5153的子流程图,示出如图8所示的重新误报检测S5153的示例性分解步骤。
在本发明的示例性实施例中,如图9所示,针对交集以外的补集部分,所述重新误报检测S5153例如包括:
S51531:利用待测样品与增强剂混合获取增强拉曼光谱。
S51532:执行误报检测。具体而言,例如:基于增强拉曼光谱,嵌套利用前述步骤S5。
S51533:(例如人为确认)判断是否跳转至人工对比。
S51534:跳转至人工对比的误报检测。
S51535:生成利用增强拉曼光谱重新执行误报检测而确认存在的物质列表。
作为示例,上述步骤S51531中,在利用实测物质样品的增强拉曼光谱数据进行检测时,所述待测样品与增强剂的混合物可以由待测样品与增强剂直接混合而成或由待测样品的水溶液或有机溶液与增强剂混合而成。同样,所述实测物质样品与增强剂的混合物由实测物质样品与增强剂直接混合而成或由实测物质样品的水溶液或有机溶液与增强剂混合而成。作为示例,增强剂可以包含金属纳米颗粒材料、金属纳米线、金属纳米团簇、碳纳米管和碳纳米颗粒中任一种或它们的组合。在另一示例中,增强剂可以包含金属纳米材料,也可在包含金属纳米材料的同时还包含氯离子、溴离子、钠离子、钾离子或硫酸根离子。所述金属例如可以包括金、银、铜、镁、铝、铁、钴、镍、钯或铂中的任一种或它们的组合。在实测物质样品与增强剂的混合物中,实测物质样品分子会附着于增强剂材料的表面,而增强剂材料表面的电磁场会使得实测物质样品的拉曼光谱信号得到增强。
类似地,在本发明的其它示例性实施例中,也得到关于漏报检测S6的变型。
图11示出如图2所示的实际检测阶段中漏报检测的关于“三种方法选举”实现方式的扩展的示意性流程图。在图11的示例中的漏报检测流程S6与图10的优选实施例中的漏报检测流程S6的区别主要在于,如图11所示,例如,在完成基于“至少两个(由各种物质ID选择方法分别地)所识别的物质ID列表”之后,所述漏报检测后处理步骤S61还额外地包括可选的步骤S615即基于“交集”的进一步“三方法选举”。为简洁起见,其余相同的子步骤不再赘述。
进一步地,图12是如图11所示的漏报检测的一种基本扩展的示例性实施例的示意性流程图。在图12的示例中的漏报检测流程S6与图15的示例中的漏报检测流程S6的区别主要在于,如图12 所示,例如,所述漏报检测后处理步骤S61的可选步骤S615具体地包括:
步骤S6150:判断所生成的各物质列表ID1′、ID2′、ID3′中至少两个存在交集?若成立则继续执行步骤S6150,即认为利用至少两种独立的方法所分别选择生成的物质ID列表存在重叠部分,该重叠部分可用来生成一种经共同确认的识别物质ID列表;否则,则跳转至人工对比识别。
步骤S6151:在步骤S6150成立的情况下,将所述交集赋值给第一识别列表。
此后,第一识别列表在后续步骤S7直接作为经漏报检验后确认的物质列表。
图12所示的漏报检测S6的扩展流程图在基于相似度识别和利用至少两种独立的方法的相同结果的判断来共同确认了识别物质ID列表之后,进一步利用至少两种独立的方法的结果的重叠部分即交集的判断来共同确认了识别物质ID列表,确保了识别准确度又被进一步提高。
图13是如图11所示的漏报检测的另一种进一步扩展的示例性实施例的示意性流程图。在图13的示例中的漏报检测流程S6与图12的示例中的漏报检测流程S6的区别主要在于,如图13所示,例如,所述漏报检测后处理步骤S61的可选步骤S615还额外地包括,针对至少两种独立的方法各自选择出的物质ID列表,除了对交集部分进行确认之外,还进一步对非交集部分进行进一步验证。例如,在步骤S6150和S6151之后,所述漏报检测后处理步骤S61的可选步骤S615还额外地包括:
S6152:以所述至少两个物质列表ID1、ID2、ID3的并集减去交集得到待重检物质列表。
S6153:待重检物质列表再次进行增强漏报检测。
S6154:判断重新进行增强漏报检测后是否有新确认的物质列表生成。若有则继续执行步骤S6155,否则跳转至步骤S6156。
S6155:生成重新识别列表。
S6156:重新识别列表被赋值为空(NONE)。
S6157:将重新识别列表赋值给第二识别列表。
S6158:第一与第二识别列表合并生成识别物质列表。
其中,如上子步骤所述,图13的漏报检测S6实质上在图12所示示例的基础上,实质上是对于经“交集判断”之后仍无法确认的“交集之外的补集”部分进行进一步分析验证。其具体步骤在下文中详细阐述。例如,图14是如图13所示的漏报检测的另一种扩展的示例性实施例中的利用增强拉曼光谱执行的重新漏报检测S6153的子流程图,示出如图13所示的重新漏报检测S6153的示例性分解步骤。
在本发明的示例性实施例中,如图14所示,针对交集以外的补集部分,所述重新漏报检测S6153例如包括:
S61531:利用待测样品与增强剂混合获取增强拉曼光谱。
S61532:执行漏报检测。具体而言,例如:基于增强拉曼光谱,嵌套利用前述步骤S6。
S61533:(例如人为确认)判断是否跳转至人工对比。
S61534:跳转至人工对比的漏报检测。
S61535:生成利用增强拉曼光谱重新执行漏报检测而确认存在的物质列表。
上述具体的操作流程具有严密的逻辑性,能够规避用户的非正常操作。为了实现本发明的目的,还例如替代地使用自学习混合物分析方法替换上述的自学习。
在本发明的另一变型的实施例中,例如,现实中,在步骤S4即判断是否存在超过阈值的物质中,存在着这样一种可能性,即,虽然确认判断有超过阈值的物质,然而不排除仍然有漏报实际存在物质的可能性。具体地,图16示出根据本发明实施例的又一流程示意图,图示成也分为学习阶段和实际检测阶段两个阶段,其中示出关于同时存在误报和漏报可能的检测方式。
如图16示意性地示出,若判断不存在超过阈值的物质,仍然如前述实施例所述,仅执行漏报检测。然而,若判断存在超过阈值的物质,则例如顺序地执行误报检测和漏报检测。由此可以实现更全面的物质ID的定性识别。
根据本发明的又一实施例,还提供一种电子设备,图17是示出了该电子设备的示例硬件布置100的框图。硬件布置100包括处理器106(例如,微处理器(μP)、数字信号处理器(DSP)等)。处理器106可以是用于执行本文描述的方法步骤的不同动作的单一处理单元或者是多个处理单元。布置100还可以包括用于从其他实体接收信号的输入单元102、以及用于向其他实体提供信号的输出单元104。输入单元102和输出单元104可以被布置为单一实体或者是分离的实体。
此外,布置100可以包括具有非易失性或易失性存储器形式的至少一个可读存储介质108,例如是电可擦除可编程只读存储器(EEPROM)、闪存、和/或硬盘驱动器。可读存储介质108包括计算机程序110,该计算机程序110包括代码/计算机可读指令,其在由布置100中的处理器106执行时使得硬件布置100和/或包括硬件布置100在内的设备可以执行例如上面结合上述实施例所描述的流程及其任何变形。
计算机程序110可被配置为具有例如计算机程序模块110A~110C架构的计算机程序代码。因此,在例如设备中使用硬件布置100时的示例实施例中,布置100的计算机程序中的代码包括多个模块,包括但不限于例如图示的模块110A、110B和110C,所述多个模块分别被配置成用以执行不同的判断或运行步骤,如之前的图1-2、和图5-16中所示的任意流程、分流程、子流程中的一个或多个判断和或执行步骤。
计算机程序模块实质上可以执行上述实施例中所描述的流程中的各个动作,以模拟设备。换言之,当在处理器106中执行不同计算机程序模块时,它们可以对应于设备中的上述不同单元。
尽管上面结合图17所公开的实施例中的代码手段被实现为计算机程序模块,其在处理器106中执行时使得硬件布置100执行上面结合上述实施例所描述的动作,然而在备选实施例中,该代码手段中的至少一项可以至少被部分地实现为硬件电路。
处理器可以是单个CPU(中央处理单元),但也可以包括两个或更多个处理单元。例如,处理器可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))。处理器还可以包括用于缓存用途的板载存储器。计算机程序可以由连接到处理器的计算机程序产品来承载。计算机程序产品可以包括其上存储有计算机程序的计算机可读介质。例如,计算机程序产品可以是闪存、随机存取存储器(RAM)、只读存储器(ROM)、EEPROM,且上述计算机程序模块在备选实施例中可以用UE内的存储器的形式被分布到不同计算机程序产品中。
虽然结合附图对本发明进行了说明,但是附图中公开的实施例旨在对本发明优选实施方式进行示例性说明,而不能理解为对本发明的一种限制。附图中的尺寸比例仅仅是示意性的,并不能理解为对本发明的限制。
虽然本发明总体构思的一些实施例已被显示和说明,本领域普通技术人员将理解,在不背离本总体发明构思的原则和精神的情况下,可对这些实施例做出改变,本发明的范围以权利要求和它们的等同物限定。
Claims (17)
1.一种基于拉曼光谱进行自学习式定性分析的方法,包括:
拉曼光谱采集步骤:采集待实测物品的拉曼光谱;
特征提取和对比步骤:提取拉曼光谱数据与谱图库中的光谱特征库比较,获取原始识别物质ID列表;
相似度比较步骤:针对拉曼光谱计算获取原始识别物质ID列表中每个物质ID的相似度来生成相似度列表,并且与谱图库中的相似度阈值库进行对比;以及
物质ID选择步骤:基于自学习库来对经与相似度阈值比较后所获相似度超相似度阈值的相似度识别物质ID列表进行验证检测,包括误报检测和漏报检测,当相似度列表中存在超过相似度阈值库中所储存的物质ID对应相似度阈值的物质ID时,执行误报检测;当相似度列表中不存在超过相似度阈值库中所储存的物质ID对应相似度阈值的物质ID时,执行漏报检测。
2.根据权利要求1所述的方法,其中,当相似度列表中存在超过相似度阈值库中所储存的物质ID对应相似度阈值的物质ID时,先执行误报检测之后再额外地执行漏报检测。
3.根据权利要求1所述的方法,其中,所述误报检测和所述漏报检测中任一种均设置成选择性地执行三种并行的物质ID选择方法,包括:
统计选择方法:对自学习库中的所有误报或漏报物质ID进行统计选择;
特征识别方法:对于自学习库中“自学习类型”取值为“特征识别”的误报或漏报物质ID进行特征识别方式的选择;和
二次识别方法:对于自学习库中“自学习类型”取值为“二次识别”的误报或漏报物质ID进行二次识别方式的选择。
4.根据权利要求3所述的方法,其中,所述误报检测和所述漏报检测中任一种均设置成包括前处理步骤和后处理步骤,
所述前处理步骤包括:通过将已识别物质ID列表中的ID与自学习库中对于所有误报或漏报物质ID、对于自学习库中“自学习类型”取值为“特征识别”的误报或漏报物质ID、以及对于自学习库中“自学习类型”取值为“二次识别”的误报或漏报物质ID分别比较,来针对分别生成所述统计选择方法、所述特征识别方法和所述二次识别方法的最高正确物质ID次数;以及
所述后处理步骤基于所述统计选择方法、所述特征识别方法和所述二次识别方法的最高正确物质ID次数与各自次数阈值的对比来选择性地执行所述三种物质ID选择方法。
5.根据权利要求4所述的方法,其中,所述误报检测的前处理步骤中的已识别物质ID列表选择为所述相似度识别物质ID列表。
6.根据权利要求4所述的方法,其中,所述漏报检测的前处理步骤中的已识别物质ID列表选择为所述原始识别物质ID列表。
7.根据权利要求4所述的方法,其中,对于所述自学习库中的所有误报或漏报物质ID获得的所述最高正确物质ID次数的次数阈值被设置为大于对于所述自学习库中“自学习类型”取值为“特征识别”和“二次识别”之一的误报或漏报物质ID获得的所述最高正确物质ID次数的次数阈值。
8.根据权利要求4或7所述的方法,其中,当所述统计选择方法、所述特征识别方法和所述二次识别方法的最高正确物质ID次数与各自相应次数阈值比较时,在条件“最高正确物质ID次数大于次数阈值”成立至少两次的情况下,继续选择性地执行三种并行的物质ID选择方法中满足该条件的方法来生成相应的至少两种识别物质ID列表。
9.根据权利要求8所述的方法,其中,所生成的至少两种识别物质ID列表若相等,则确认为经验证检测后的识别物质ID列表。
10.根据权利要求8所述的方法,其中,所生成的至少两种识别物质ID列表若存在交集,则确认交集为经验证检测后的识别物质ID列表。
11.根据权利要求10所述的方法,其中,针对所生成的至少两种识别物质ID列表中的交集以外的部分再次执行所述物质ID选择步骤。
12.根据权利要求11所述的方法,其中,再次执行的所述物质ID选择步骤包括利用待实测物品与增强剂混合获取增强拉曼光谱来进行的增强检测。
13.根据权利要求4所述的方法,其中,所述误报检测的前处理步骤中,仅当统计的误报次数大于误报次数阈值时,执行所述误报检测的后处理步骤。
14.根据权利要求3至13中任一项所述的方法,还包括:
在对待实测物品执行定性分析完成之后,将获得的误报物质ID列表和漏报物质ID列表按照“自学习类型”字段加入自学习库。
15.根据权利要求1所述的方法,在对待实测物品执行定性分析之前,还包括:
利用学习样本物质对自学习库进行初始学习和输入预置的初始自学习库之一来创建自学习库。
16.根据权利要求1所述的方法,还包括:
选择性地利用人工对比方法识别物质。
17.一种电子设备,包括:
存储器,用于存储可执行指令;以及
处理器,用于执行存储器中存储的可执行指令,以执行如权利要求1-16中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611220308.2A CN108240978B (zh) | 2016-12-26 | 2016-12-26 | 基于拉曼光谱的自学习式定性分析方法 |
PCT/CN2017/109712 WO2018121082A1 (zh) | 2016-12-26 | 2017-11-07 | 基于拉曼光谱的自学习式定性分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611220308.2A CN108240978B (zh) | 2016-12-26 | 2016-12-26 | 基于拉曼光谱的自学习式定性分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108240978A CN108240978A (zh) | 2018-07-03 |
CN108240978B true CN108240978B (zh) | 2020-01-21 |
Family
ID=62702114
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611220308.2A Active CN108240978B (zh) | 2016-12-26 | 2016-12-26 | 基于拉曼光谱的自学习式定性分析方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108240978B (zh) |
WO (1) | WO2018121082A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210559B (zh) * | 2019-05-31 | 2021-10-08 | 北京小米移动软件有限公司 | 对象筛选方法及装置、存储介质 |
CN111709637B (zh) * | 2020-06-11 | 2023-08-22 | 中国科学院西安光学精密机械研究所 | 一种光谱曲线受干扰程度的定性分析方法 |
CN112395803B (zh) * | 2020-09-11 | 2023-10-13 | 北京工商大学 | 基于粒子群算法的icp-aes多峰谱线分离方法 |
CN112763477B (zh) * | 2020-12-30 | 2022-11-08 | 山东省食品药品检验研究院 | 一种基于拉曼光谱的仿制药质量快速评价系统 |
CN113466206A (zh) * | 2021-06-23 | 2021-10-01 | 上海仪电(集团)有限公司中央研究院 | 一种基于大数据的拉曼光谱分析系统 |
CN114814593B (zh) * | 2022-04-29 | 2024-06-11 | 哈尔滨工业大学(威海) | 一种两步检测策略的电池组多故障快速诊断方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4406768A1 (de) * | 1994-03-02 | 1995-09-07 | Mnogotrasslevoe N Proizv Ob Ed | Verfahren und Einrichtung zur Identifizierung von Natur- und synthetischen Edelsteinen |
US20050225758A1 (en) * | 2004-03-23 | 2005-10-13 | Knopp Kevin J | Raman optical identification tag |
CN101324544A (zh) * | 2007-06-15 | 2008-12-17 | 徐向阳 | 利用特征指纹图谱识别样品的方法 |
CN101458214A (zh) * | 2008-12-15 | 2009-06-17 | 浙江大学 | 有机聚合物溶液浓度的检测方法 |
CN101995395B (zh) * | 2009-08-14 | 2013-07-31 | 上海镭立激光科技有限公司 | 一种激光诱导多种光谱联合指纹网络在线检测材料的方法 |
WO2013001549A1 (en) * | 2011-06-29 | 2013-01-03 | Shetty Ravindra K | Devices connect and operate universally by learning |
CN102507532A (zh) * | 2011-11-11 | 2012-06-20 | 上海化工研究院 | 基于拉曼光谱的化学成分快速识别系统 |
CN104215623B (zh) * | 2013-05-31 | 2018-09-25 | 欧普图斯(苏州)光学纳米科技有限公司 | 面向多行业检测的激光拉曼光谱智能化辨识方法及系统 |
CN104458693B (zh) * | 2013-09-25 | 2018-06-01 | 同方威视技术股份有限公司 | 用于毒品检测的拉曼光谱测量方法 |
CN104749158B (zh) * | 2013-12-27 | 2020-12-11 | 同方威视技术股份有限公司 | 珠宝玉石鉴定方法及装置 |
CN106198482B (zh) * | 2015-05-04 | 2019-07-05 | 清华大学 | 基于拉曼光谱的检测保健品中是否添加有西药的方法 |
CN106020508A (zh) * | 2016-07-18 | 2016-10-12 | 南京医健通信息科技有限公司 | 一种自学习型智能数据快速输入的方法 |
-
2016
- 2016-12-26 CN CN201611220308.2A patent/CN108240978B/zh active Active
-
2017
- 2017-11-07 WO PCT/CN2017/109712 patent/WO2018121082A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2018121082A1 (zh) | 2018-07-05 |
CN108240978A (zh) | 2018-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108240978B (zh) | 基于拉曼光谱的自学习式定性分析方法 | |
CN108254351B (zh) | 用于物品查验的拉曼光谱检测方法 | |
US11587644B2 (en) | Methods of profiling mass spectral data using neural networks | |
US8731839B2 (en) | Method and system for robust classification strategy for cancer detection from mass spectrometry data | |
JP6743892B2 (ja) | 質量分析データ解析装置及び解析方法 | |
WO2018121121A1 (zh) | 用于扣除谱图本底的方法、通过拉曼谱图识别物质的方法和电子设备 | |
CN107818298B (zh) | 用于机器学习物质识别算法的通用拉曼光谱特征提取方法 | |
US20030078739A1 (en) | Feature list extraction from data sets such as spectra | |
US20130064441A1 (en) | Methods and Apparatus for Fast Identification of Relevant Features for Classification or Regression | |
JP5964983B2 (ja) | 質量分析法により微生物を特定するための方法 | |
CN108844941B (zh) | 一种基于拉曼光谱和pca-hca的不同品位磷矿的鉴别和分类方法 | |
JP2003521687A (ja) | スペクトル較正を行うための方法および装置 | |
US11630135B2 (en) | Method and apparatus for non-intrusive program tracing with bandwidth reduction for embedded computing systems | |
Cordero Hernandez et al. | Targeted feature extraction in MALDI mass spectrometry imaging to discriminate proteomic profiles of breast and ovarian cancer | |
CN114611582A (zh) | 一种基于近红外光谱技术分析物质浓度的方法及系统 | |
TWI493168B (zh) | 分析質譜的方法、電腦程式及系統 | |
US20120239309A1 (en) | Automatic chemical assay identification | |
JP6280910B2 (ja) | 分光システムの性能を測定するための方法 | |
CN113722238B (zh) | 一种实现对源码文件快速开源成分检测的方法和系统 | |
CN108241846B (zh) | 用于识别拉曼谱图的方法 | |
US20180137270A1 (en) | Method and apparatus for non-intrusive program tracing for embedded computing systems | |
Monakhova et al. | Methodology of chemometric modeling of spectrometric signals in the analysis of complex samples | |
CN113963225B (zh) | 目标类别判定方法 | |
Grissa et al. | A hybrid data mining approach for the identification of biomarkers in metabolomic data | |
Innocente et al. | A comprehensive pipeline to integrate preprocessing and machine learning techniques for accurate classification in Raman spectroscopy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |