CN117078960A - 一种基于图像特征提取的近红外光谱分析方法及系统 - Google Patents
一种基于图像特征提取的近红外光谱分析方法及系统 Download PDFInfo
- Publication number
- CN117078960A CN117078960A CN202311057789.XA CN202311057789A CN117078960A CN 117078960 A CN117078960 A CN 117078960A CN 202311057789 A CN202311057789 A CN 202311057789A CN 117078960 A CN117078960 A CN 117078960A
- Authority
- CN
- China
- Prior art keywords
- near infrared
- infrared spectrum
- image
- feature extraction
- key points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002329 infrared spectrum Methods 0.000 title claims abstract description 129
- 238000004458 analytical method Methods 0.000 title claims abstract description 64
- 238000000605 extraction Methods 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 54
- 238000012360 testing method Methods 0.000 claims abstract description 35
- 239000013598 vector Substances 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000013528 artificial neural network Methods 0.000 claims abstract description 17
- 238000012937 correction Methods 0.000 claims abstract description 14
- 238000006243 chemical reaction Methods 0.000 claims abstract description 6
- 230000008569 process Effects 0.000 claims description 26
- 238000004422 calculation algorithm Methods 0.000 claims description 18
- 238000004497 NIR spectroscopy Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 5
- 238000003064 k means clustering Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 14
- 238000003860 storage Methods 0.000 description 11
- 239000011159 matrix material Substances 0.000 description 10
- 230000003595 spectral effect Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 238000001228 spectrum Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000011161 development Methods 0.000 description 5
- 238000004451 qualitative analysis Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000007423 decrease Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 239000010779 crude oil Substances 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000007430 reference method Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000011426 transformation method Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 239000003350 kerosene Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000004445 quantitative analysis Methods 0.000 description 2
- 238000010521 absorption reaction Methods 0.000 description 1
- 238000000862 absorption spectrum Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012569 chemometric method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 125000004435 hydrogen atom Chemical group [H]* 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/763—Non-hierarchical techniques, e.g. based on statistics of modelling distributions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
本发明涉及近红外光谱分析技术领域,更具体的说,涉及一种基于图像特征提取的近红外光谱分析方法及系统。本方法,包括以下步骤:获取一批样品对应理化性质,测量样品的近红外光谱并绘制近红外光谱图像;将所采集样品的近红外光谱图像、理化性质和标签值作为样本集,将样本集划分为训练集,校正集和测试集;提取近红外光谱图像关键点;规范化关键点生成特征向量;根据特征向量建立神经网络分析模型;输入待分析样品的近红外光谱图像至神经网络分析模型,输出近红外光谱分析预测结果。本发明采用尺度不变特征转换图像特征提取技术,减少对人工经验的依赖,可以有效降低模型训练的复杂度,提升近红外光谱分析的智能化水平。
Description
技术领域
本发明涉及近红外光谱分析技术领域,更具体的说,涉及一种基于图像特征提取的近红外光谱分析方法及系统。
背景技术
近红外光是介于可见光和红外光之间的电磁波。有机分子中的氢基团化学键(X-H)伸缩振动的倍频和合频吸收区位于近红外光谱区。通过选择适合的化学计量学方法,可以建立样品在近红外光谱区的吸收光谱与其理化性质的定性或定量描述。
传统的化学计量学应用需要仔细选择算法和调试参数,并依赖人工经验来建立分析模型。
随着计算机视觉技术的不断发展,利用图像特征提取技术解决实际生产问题已逐渐成为热门方法。
在现有的近红外光谱分析技术中,近红外光谱图像在不同尺度空间下容易形成梯度偏差,并且在数据串处理过程中容易出现基线不一致的问题。此外,近红外光谱建模过程的复杂度也较高。
因此,目前亟需一种分析精准、智能程度高的近红外光谱分析技术。
发明内容
本发明的目的是提供一种基于图像特征提取的近红外光谱分析方法及系统,解决现有的近红外光谱分析技术智能化程度低、复杂程度高、分析准确度低的问题。
为了实现上述目的,本发明提供了一种基于图像特征提取的近红外光谱分析方法,包括以下步骤:
步骤S1、获取一批样品对应理化性质,测量样品的近红外光谱并绘制近红外光谱图像;
步骤S2、将所采集样品的近红外光谱图像、理化性质和标签值作为样本集,将样本集划分为训练集,校正集和测试集;
步骤S3、提取近红外光谱图像关键点;
步骤S4、规范化关键点生成特征向量;
步骤S5、根据特征向量建立神经网络分析模型;
步骤S6、输入待分析样品的近红外光谱图像至神经网络分析模型,输出近红外光谱分析预测结果。
在一实施例中,所述步骤S1中,测量样品的近红外光谱并绘制近红外光谱图像,进一步包括:
直接获取或采用图像记录设备获取近红外光谱仪配套设备输出的近红外光谱图像,或者;
依据近红外光谱仪配套设备输出的近红外光谱数据串,绘制或采用图像记录设备获取近红外光谱图像。
在一实施例中,所述步骤S3,进一步包括:采用尺度不变特征转换方法,提取近红外光谱图像关键点。
在一实施例中,所述步骤S3,进一步包括以下步骤:
步骤S31、搜索尺度空间上的所有图像,通过高斯微分函数识别潜在的对尺度和选择不变的兴趣点,进行尺度空间的极值检测,获得若干候选位置;
步骤S32、在每个候选的位置上,通过拟合精细模型确定位置尺度,依据稳定程度选取近红外光谱图像关键点;
步骤S33、基于图像局部的梯度方向,分配给每个关键点位置一个或多个方向;
步骤S34、在每个关键点周围的邻域内,测量图像的局部梯度。
在一实施例中,所述步骤S4,进一步包括:采用k均值聚类算法,规范化关键点生成特征向量。
在一实施例中,所述步骤S4,进一步包括以下步骤:
步骤S41、采用k均值聚类算法生成k个聚类中心集合;
步骤S42、对于每一张近红外光谱图像,遍历近红外光谱图像中的每一个关键点,并计算关键点与所有聚类中心的欧几里得距离,选择距离最近的聚类中心作为该关键点的映射;
步骤S43、定义一个长度为n的向量,记录每个聚类中心在近红外光谱图像上出现的次数;
步骤S44、统计每个聚类中心在图像中出现的频率,以获得一个n维的特征向量,其中,n等于聚类的数量。
在一实施例中,所述步骤S41,进一步包括以下步骤:
在关键点的特征空间内,随机选取k个关键点作为聚类中心;
计算其他关键点与k个聚类中心之间的欧式距离,并将其他关键点分配到距离最近的聚类中心所属的簇中;
计算每个簇内所有关键点的平均值,并将所述平均值设为当前簇新的聚类中心;
根据新的聚类中心重新对所有的关键点进行分类;
重复上述分类过程直至满足截止条件,停止计算并返回最终的聚类中心集合。
在一实施例中,所述截止条件包括:
所有关键点与所属簇的聚类中心之间的距离之和达到预先设置的阈值;
迭代次数满足预先设定的次数。
在一实施例中,所述步骤S41,进一步包括以下步骤:
根据误差平方和的下降幅度变化的极值点,选择聚类数k的最佳值。
在一实施例中,所述步骤S6,进一步包括:
通过检验指标对近红外光谱分析预测结果进行检验;
所述检验指标包括定性指标和定量指标;
所述定性指标包括:准确率、召回率、精确率、F1分数、F2分数;
所述定量指标包括:预测标准偏差、绝对系数。
为了实现上述目的,本发明提供了一种基于图像特征提取的近红外光谱分析系统,包括:
存储器,用于存储可由处理器执行的指令;
处理器,用于执行所述指令以实现如上述任一项所述的方法。
为了实现上述目的,本发明提供了一种计算机可读介质,其上存储有计算机指令,其中当计算机指令被处理器执行时,执行如上述任一项所述的方法。
本发明提出的基于图像特征提取的近红外光谱分析方法及系统,采用尺度不变特征转换图像特征提取技术,减少对人工经验的依赖,可以有效降低模型训练的复杂度,提升近红外光谱分析的智能化水平。
附图说明
本发明上述的以及其他的特征、性质和优势将通过下面结合附图和实施例的描述而变的更加明显,在附图中相同的附图标记始终表示相同的特征,其中:
图1揭示了根据本发明一实施例的基于图像特征提取的近红外光谱分析方法步骤图;
图2揭示了根据本发明的第一实施例的样本原始光谱图;
图3揭示了根据本发明的第一实施例的网络结构图;
图4揭示了根据本发明的第一实施例的测试样本真实值和预测值的回归图;
图5揭示了根据本发明的第二实施例的1类近红外光谱总览图;
图6揭示了根据本发明的第二实施例的2类近红外光谱总览图;
图7揭示了根据本发明一实施例的基于图像特征提取的近红外光谱分析系统原理框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释发明,并不用于限定发明。
本发明提出的基于图像特征提取的近红外光谱分析方法及系统,采用尺度不变特征转换图像特征提取技术,可广泛应用于农业、食品、石油化工等行业。
引入尺度不变特征转换图像特征提取技术有利于近红外光谱分析领域的进一步发展。该技术的尺度不变性,不仅能够避免近红外光谱图像在不同尺度空间下形成的梯度偏差,同时解决数据串处理过程中容易出现的基线不一致问题。
因此,尺度不变特征转换图像特征提取技术的出现能够显著简化近红外光谱建模过程的复杂度,并推动近红外光谱分析技术的智能化发展。
图1揭示了根据本发明一实施例的基于图像特征提取的近红外光谱分析方法步骤图,如图1所示,本发明提出的基于图像特征提取的近红外光谱分析方法,包括以下步骤:
步骤S1、获取一批样品对应理化性质,测量样品的近红外光谱并绘制近红外光谱图像;
步骤S2、将所采集样品的近红外光谱图像、理化性质和标签值作为样本集,将样本集划分为训练集,校正集和测试集;
步骤S3、提取近红外光谱图像关键点;
步骤S4、规范化关键点生成特征向量;
步骤S5、根据特征向量建立神经网络分析模型;
步骤S6、输入待分析样品的近红外光谱图像至神经网络分析模型,输出近红外光谱分析结果。
本发明提出的基于图像特征提取的近红外光谱分析方法,通过对近红外光谱图像进行特征提取,建立一个准确、便利的定量定性分析模型;首先,采用尺度不变特征转换图像特征提取技术,自动查找近红外光谱图像的关键点,从而减少对人工经验的依赖;然后,通过对这些关键点规划化处理,生成特征向量,并将图像信息的维度进行压缩,可以有效的降低模型训练的复杂度,提升了近红外光谱分析的智能化水平。
下面将对本发明的上述步骤进行详细描述。应理解,在本发明范围内,本发明的上述各技术特征和在下文(如实施例)中具体描述的各技术特征之间都可以互相组合,相互关联,从而构成优选的技术方案。
步骤S1、获取一批样品对应理化性质,测量样品的近红外光谱并绘制近红外光谱图像。
可以直接获取近红外光谱仪配套设备及其软件输出的近红外光谱图像;
或者可以依据近红外光谱仪配套设备及其软件输出的近红外光谱数据串,绘制光谱图像;
或者使用具有摄像、摄影、扫描等图像记录功能的图像记录设备,获取如上两种方式得到的近红外光谱图像。
步骤S2、将所采集样品的近红外光谱图像、理化性质和标签值作为样本集,将样本集划分为训练集、校正集和测试集。
训练集,用于训练的样本集合,主要用来训练神经网络中的参数;
验证集,用于为了快速调参、验证模型性能的样本集合。神经网络在训练集上训练结束后,通过验证集来判断模型的性能;
对于训练完成的神经网络,测试集用于客观的评价神经网络的性能。
步骤S3、提取近红外光谱图像关键点。
在本实施例中,采用尺度不变特征转换方法,提取近红外光谱图像关键点。
从而,更进一步地,所述步骤S3,具体包括以下步骤:
步骤S31、搜索尺度空间上的所有图像,通过高斯微分函数来识别潜在的对尺度和选择不变的兴趣点,进行尺度空间的极值检测,获得若干候选位置;
步骤S32、在每个候选的位置上,通过一个拟合精细模型来确定位置尺度,依据稳定程度选取近红外光谱图像关键点;
步骤S33、基于图像局部的梯度方向,分配给每个关键点位置一个或多个方向,后续的所有操作都是对于关键点的方向、尺度和位置进行变换,从而提供这些特征的不变性;
步骤S34、在每个关键点周围的邻域内,测量图像的局部梯度;
在本实施例中,在8×8的尺度上测量图像的局部梯度,这些梯度被变换成一种表示,这种表示允许比较大的局部形状的变形和光照变换,并且每一个关键点的维度都是128维的。
步骤S4、规范化关键点生成特征向量。
在本实施例中,采用k均值聚类算法,规范化关键点生成特征向量。
k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法。
输入训练集图像样本数据,经过上一步的操作生成(m,128)的矩阵,m是所有近红外光谱图像训练集样本关键点的数量。
所述步骤S4,进一步包括以下步骤:
步骤S41、采用k均值聚类算法生成k个聚类中心集合;
步骤S42、对于每一张近红外光谱图像,遍历近红外光谱图像中的每一个关键点,并计算关键点与所有聚类中心的欧几里得距离,选择距离最近的聚类中心作为该关键点的映射;
步骤S43、定义一个长度为k的向量,记录每个聚类中心在近红外光谱图像上出现的次数,即该聚类中心对应的特征在该图像上出现的频率;
步骤S44、统计每个聚类中心在图像中出现的频率,以获得一个k维的特征向量,其中,k等于聚类的数量。
所述步骤S41,进一步包括以下步骤:
在关键点的特征空间内,随机选取k个关键点作为聚类中心;
对于其它所有的关键点,计算其他关键点与k个聚类中心之间的欧式距离,并将其他关键点分配到距离最近的聚类中心所属的簇中;
计算每个簇内所有关键点的平均值,并将所述平均值设为当前簇新的聚类中心;
根据这些新的聚类中心重新对所有的关键点进行分类,即将每个关键点分配到距离其最近的新聚类中心所属的簇中;
重复上述分类过程直至满足截止条件,停止计算并返回最终的聚类中心集合。
所述截止条件包括:
所有关键点与所属簇的聚类中心之间的距离之和达到预先设置的阈值;
迭代次数满足预先设定的次数。
具体的说,计算所有关键点与其所属簇的聚类中心之间的距离之和,若该值达到预先设置的阈值,则停止聚类算法并返回最终的聚类中心集合。
否则,根据计算得到的新聚类中心,继续重新分类关键点、更新聚类中心等操作,直到达到预定的迭代次数。
更进一步的,所述步骤S41,进一步包括以下步骤:
根据误差平方和的下降幅度变化的极值点,选择聚类数k的最佳值。
在确定最佳k值的过程中,随着聚类数k的增加,样本的划分将变得更加精细,每个簇的聚合程度也会逐渐提高,这会导致误差平方和SSE逐渐减小。
当k小于真实的聚类数时,增加k值会导致每个簇的聚合程度大幅提高,因此SSE的下降幅度会非常大。然而,当k达到真实聚类数时,进一步增加k值所得到的聚合程度会迅速降低,因此SSE的下降幅度会突然减小,然后随着k值的继续增加而趋于平缓。
最佳k值即为SSE下降幅度突然骤减的那个点,即下降幅度变化的极值点。根据最佳k值,可以采用聚类算法生成(k,128)的矩阵,并将其保存在本地。
通过步骤S3和步骤S4,获得近红外光谱数据之后直接绘制成图像,基于图像提取关键点并生成特征向量,没有采用数据预处理、基线校正和波长筛选方法,一定程度上降低了对技术人员的要求和建模过程的复杂度,只需要求控制人员在线输入近红外光谱图像即可在线生成报告。
步骤S5、根据特征向量建立神经网络分析模型。
在本实施例中,依据特征向量建立神经网络分析模型,进一步包括:
利用神经网络建立定量定性分析模型,将上一步骤n维的特征向量作为神经网络模型的输入节点;
先定一个比较小的隐藏层节点数,进行训练,如果训练次数过多或者在规定训练次数内没有收敛,则停止训练,逐步增加隐藏层节点数量,多次迭代重新训练,建立神经网络分析模型,得到预测值。
步骤S6、输入待分析样品的近红外光谱图像至神经网络分析模型,输出近红外光谱分析预测结果。
更进一步的,所述步骤S6中,进一步包括:
通过检验指标对近红外光谱分析预测结果进行测试集检验。
所述检验指标包括定性指标和定量指标;
所述定性指标包括:准确率公式(1)、召回率公式(2)、精确率公式(3)、F1分数、F2分数;
由于精确率和召回率指标本身具有矛盾,因此,引入F分数作为精确率和召回率的一种调和平均,F1分数、F2分数根据公式(4)、(5)作为参考;
所述定量指标包括:预测标准偏差Rmsep公式(6)、绝对系数R2公式(7)并参考数据本身标准差。
表1常见模式评价术语
预测为正 | 预测为负 | |
真值为正 | TP | FN |
真值为负 | FP | TN |
准确率
召回率
精确度
其中,β为F1分数、F2分数的系数,P为精确度,R为召回率。
预测标准偏差
其中,m为验证集光谱数量,yi,actual为第i个光谱参考方法的测定值,yi,predicted为测试集预测过程第i个光谱的预测值。
绝对系数
其中,n为验证集光谱数量,yi为第i个光谱参考方法的测定值,为测试集预测过程第i个光谱的预测值,/>为参考方法测定值光谱的平均值。
下面通过两个实施例说明本发明提出的基于图像特征提取的近红外光谱分析方法。
第一实施例
本实施例中,采用华东某地区航煤样品作为试验对象,对近红外光谱图像定量分析方法进行具体详细的说明。
步骤S1、获取50个航煤样品并记录对应的密度值,具体过程为:
经过近红外光谱仪获取50个样本的光谱数据串,光谱数据串的数据点数为2074,把这些数据串绘制成近红外光谱图像,样本原始光谱图像如图2所示,将近红外光谱图像与实验室分析报告的密度值对应。
步骤S2、对样本集进行训练集、校正集和测试集划分,具体过程为:
随机打乱样本,将25个样本作为训练集,11个样本作为校正集,14个样本作为测试集,校正集样本用于模型建立,测试集样本用于检验模型预测的准确度。
步骤S3、采用尺度不变特征转换方法提取近红外光谱图像关键点,每一张近红外光谱图像生成(2951,128)的矩阵。
步骤S4、规范化关键点生成特征向量,具体过程为:
输入训练集图像样本数据,经过上一步的操作生成(2951,128)的矩阵,2951是所有近红外光谱图像训练集样本关键点的数量。
在本实施例中,SSE下降幅度突然骤减时最佳聚类数k值为20,最终生成(20,128)的矩阵,并将这个矩阵保存在本地;
对于每一张近红外光谱图像,遍历其中的每一个关键点,并计算其与所有聚类中心的欧几里得距离,以选择距离最近的聚类中心作为该关键点的映射。
然后,定义一个长度为20的向量来记录每个聚类中心在该图像上出现的次数。
最后,统计每个聚类中心在向量中出现的频率,以获得一个20维的特征向量。
步骤S5、根据特征向量建立BP神经网络模型进行定量分析,具体过程为:
图3揭示了根据本发明的第一实施例的网络结构图,如图3所示,输入层的节点个数为20,隐含层的节点个数为8,输出层的节点个数为1,学习速率为0.01,当算法迭代次数达到500,则算法结束得到预测值。
步骤S6、对建立的模型进行测试集检验,具体过程为:
将14个测试样本和样本密度值导入模型,得出密度预测值。
图4揭示了根据本发明的第一实施例的测试样本真实值和预测值的回归图,如图4所示,样品密度标准试验分析方法的测定值与本方法的预测值的分布。
模型测试集的测定值和预测值如表2所示。
表2测试集预测结果
序号 | 测定值(kg/m3) | 预测值(kg/m3) | 偏差(kg/m3) |
1 | 792.80 | 793.52 | 0.72 |
2 | 792.00 | 792.97 | 0.97 |
3 | 791.80 | 792.82 | 1.02 |
4 | 793.00 | 793.46 | 0.46 |
5 | 794.40 | 793.27 | -1.13 |
6 | 791.80 | 793.29 | 1.49 |
7 | 792.30 | 793.62 | 1.32 |
8 | 794.50 | 792.74 | -1.76 |
9 | 791.30 | 791.97 | 0.67 |
10 | 792.60 | 793.37 | 0.77 |
11 | 795.30 | 793.74 | -1.56 |
12 | 786.40 | 788.31 | 1.91 |
13 | 792.90 | 793.25 | 0.35 |
14 | 792.66 | 793.80 | 1.14 |
测试集数据的标准差为1.34,本模型的测试集检验预测标准偏差Rmsep为1.23,绝对系数R2为0.86,R2证明该方法能够解释预测值的程度高,该方法误差小,表明该方法的预测精度高,预测标准偏差Rmsep与标准差的比值表现了全光谱图像预测方法的预测效果较好。
第二实施例
本实施例中,采用一批原油样品作为试验对象,对近红外光谱图像定性分析方法进行具体详细的说明。
步骤S1、获取51个原油样品并记录对应的生产产地,具体过程为:
经过近红外光谱仪获取51个样本的光谱数据串,光谱数据串的数据点数为2074,把这些数据串绘制成近红外光谱图像,并将近红外光谱图像对应定性分类标签,其他产地源的定性分类标签是1,华东地区某炼厂的定性分类标签是2,如图5和图6所示。
步骤S2、对样本集进行训练集,校正集和测试集划分,具体过程为:
随机打乱样本,将26个样本作为训练集,10个样本作为校正集,15个样本作为测试集,校正集样本用于模型建立,测试集样本用于检验模型预测的准确度。
步骤S3、采用尺度不变特征转换方法提取近红外光谱图像关键点,每一张近红外光谱图像生成(2951,128)的矩阵。
步骤S4、规范化关键点生成特征向量,具体过程为:
输入训练集图像样本数据,经过上一步的操作生成(2951,128)的矩阵,2951是所有近红外光谱图像训练集样本关键点的数量。
在本实施例中,SSE下降幅度突然骤减时最佳聚类数k值为20,最终生成(20,128)的矩阵,并将这个矩阵保存在本地;
对于每一张近红外光谱图像,遍历其中的每一个关键点,并计算其与所有聚类中心的欧几里得距离,以选择距离最近的聚类中心作为该关键点的映射。
然后,定义一个长度为20的向量来记录每个聚类中心在该图像上出现的次数,即该聚类中心对应的特征在该图像上出现的频率。
最后,统计每个聚类中心在向量中出现的频率,以获得一个20维的特征向量。
步骤S5,建立BP神经网络模型进行定性分析,具体过程为:
输入层的节点个数为20,隐含层的节点个数为8,输出层的节点个数为3,学习速率为0.01,当算法迭代次数达到500,则算法结束得到分类结果。
步骤S6、对建立好的模型进行测试集检验,具体过程为:
将15个测试样本导入模型,得出最后的分类结果如表2所示。
表2图像分类指标表
从上述指标可以看出,该方法经测试集验证后,分类准确率在85%说明该模型能够具有较高准度查找出来自原油样品生产地,分类精确度100%说明该模型能够避免出现“假阴性”分类结果,能够建立一个高效的定性模型。
图7揭示了根据本发明一实施例的基于图像特征提取的近红外光谱分析系统原理框图。基于图像特征提取的近红外光谱分析系统可包括内部通信总线701、处理器(processor)702、只读存储器(ROM)703、随机存取存储器(RAM)704、通信端口705、以及硬盘707。内部通信总线701可以实现基于图像特征提取的近红外光谱分析系统组件间的数据通信。处理器702可以进行判断和发出提示。在一些实施例中,处理器702可以由一个或多个处理器组成。
通信端口705可以实现基于图像特征提取的近红外光谱分析系统与外部的输入/输出设备之间进行数据传输与通信。在一些实施例中,基于图像特征提取的近红外光谱分析系统可以通过通信端口705从网络发送和接收信息及数据。在一些实施例中,基于图像特征提取的近红外光谱分析系统可以通过输入/输出端706以有线的形式与外部的输入/输出设备之间进行数据传输与通信。
基于图像特征提取的近红外光谱分析系统还可以包括不同形式的程序储存单元以及数据储存单元,例如硬盘707,只读存储器(ROM)703和随机存取存储器(RAM)704,能够存储计算机处理和/或通信使用的各种数据文件,以及处理器702所执行的可能的程序指令。处理器702执行这些指令以实现方法的主要部分。处理器702处理的结果通过通信端口705传给外部的输出设备,在输出设备的用户界面上显示。
举例来说,上述的基于图像特征提取的近红外光谱分析方法的实施过程文件可以为计算机程序,保存在硬盘707中,并可记载到处理器702中执行,以实施本申请的方法。
基于图像特征提取的近红外光谱分析方法的实施过程文件为计算机程序时,也可以存储在计算机可读存储介质中作为制品。例如,计算机可读存储介质可以包括但不限于磁存储设备(例如,硬盘、软盘、磁条)、光盘(例如,压缩盘(CD)、数字多功能盘(DVD))、智能卡和闪存设备(例如,电可擦除可编程只读存储器(EPROM)、卡、棒、键驱动)。此外,本文描述的各种存储介质能代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可以包括但不限于能存储、包含和/或承载代码和/或指令和/或数据的无线信道和各种其它介质(和/或存储介质)。
与现有技术相比较,本发明提出的基于图像特征提取的近红外光谱分析方法及系统,具体具有以下有效效果:
1)相较于传统的化学计量学应用需要进行的对数据串进行预处理、基线校正、光谱波长筛选等过程,本发明直接利用近红外光谱图像的特征信息,仅需控制人员在线输入近红外光谱图像,即可在线生成报告,有效避免了复杂的数据预处理、基线校正和波长筛选过程,降低了对技术人员的要求,并简化了建模过程的复杂度;
2)尺度不变特征变换技术能够充分提取近红外光谱图像的有效特征信息,且特征信息的低维度有助于加速网络的训练速度,具有适应性强、容错性好等优点,能够提升预测性能;
3)本技术一定程度上弥补了近红外光谱分析工作中缺失的图像定量定性分析技术,证实了计算机视觉技术在近红外光谱领域的应用可行性,而这一图像分析技术的挖掘开拓为近红外光谱领域引入新技术的新契机,有助于近红外光谱分析技术向更广泛、准确、便利的方向发展和应用。
尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
本领域技术人员将可理解,信息、信号和数据可使用各种不同技术和技艺中的任何技术和技艺来表示。例如,以上描述通篇引述的数据、指令、命令、信息、信号、位(比特)、码元、和码片可由电压、电流、电磁波、磁场或磁粒子、光场或光学粒子、或其任何组合来表示。
本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。
结合本文所公开的实施例描述的各种解说性逻辑模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。
结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
上述实施例是提供给熟悉本领域内的人员来实现或使用本发明的,熟悉本领域的人员可在不脱离本发明的发明思想的情况下,对上述实施例做出种种修改或变化,因而本发明的保护范围并不被上述实施例所限,而应该是符合权利要求书提到的创新性特征的最大范围。
Claims (10)
1.一种基于图像特征提取的近红外光谱分析方法,其特征在于,包括以下步骤:
步骤S1、获取一批样品对应理化性质,测量样品的近红外光谱并绘制近红外光谱图像;
步骤S2、将所采集样品的近红外光谱图像、理化性质和标签值作为样本集,将样本集划分为训练集,校正集和测试集;
步骤S3、提取近红外光谱图像关键点;
步骤S4、规范化关键点生成特征向量;
步骤S5、根据特征向量建立神经网络分析模型;
步骤S6、输入待分析样品的近红外光谱图像至神经网络分析模型,输出近红外光谱分析预测结果。
2.根据权利要求1所述的基于图像特征提取的近红外光谱分析方法,其特征在于,所述步骤S1中,测量样品的近红外光谱并绘制近红外光谱图像,进一步包括:
直接获取或采用图像记录设备获取近红外光谱仪配套设备输出的近红外光谱图像,或者;
依据近红外光谱仪配套设备输出的近红外光谱数据串,绘制或采用图像记录设备获取近红外光谱图像。
3.根据权利要求1所述的基于图像特征提取的近红外光谱分析方法,其特征在于,所述步骤S3,进一步包括:采用尺度不变特征转换方法,提取近红外光谱图像关键点。
4.根据权利要求3所述的基于图像特征提取的近红外光谱分析方法,其特征在于,所述步骤S3,进一步包括以下步骤:
步骤S31、搜索尺度空间上的所有图像,通过高斯微分函数识别潜在的对尺度和选择不变的兴趣点,进行尺度空间的极值检测,获得若干候选位置;
步骤S32、在每个候选的位置上,通过拟合精细模型确定位置尺度,依据稳定程度选取近红外光谱图像关键点;
步骤S33、基于图像局部的梯度方向,分配给每个关键点位置一个或多个方向;
步骤S34、在每个关键点周围的邻域内,测量图像的局部梯度。
5.根据权利要求1所述的基于图像特征提取的近红外光谱分析方法,其特征在于,所述步骤S4,进一步包括:采用k均值聚类算法,规范化关键点生成特征向量。
6.根据权利要求5所述的基于图像特征提取的近红外光谱分析方法,其特征在于,所述步骤S4,进一步包括以下步骤:
步骤S41、采用k均值聚类算法生成k个聚类中心集合;
步骤S42、对于每一张近红外光谱图像,遍历近红外光谱图像中的每一个关键点,并计算关键点与所有聚类中心的欧几里得距离,选择距离最近的聚类中心作为该关键点的映射;
步骤S43、定义一个长度为k的向量,记录每个聚类中心在近红外光谱图像上出现的次数;
步骤S44、统计每个聚类中心在图像中出现的频率,以获得一个k维的特征向量,其中,k等于聚类的数量。
7.根据权利要求6所述的基于图像特征提取的近红外光谱分析方法,其特征在于,所述步骤S41,进一步包括以下步骤:
在关键点的特征空间内,随机选取k个关键点作为聚类中心;
计算其他关键点与k个聚类中心之间的欧式距离,并将其他关键点分配到距离最近的聚类中心所属的簇中;
计算每个簇内所有关键点的平均值,并将所述平均值设为当前簇新的聚类中心;
根据新的聚类中心重新对所有的关键点进行分类;
重复上述分类过程直至满足截止条件,停止计算并返回最终的聚类中心集合。
8.根据权利要求1所述的基于图像特征提取的近红外光谱分析方法,其特征在于,所述步骤S6,进一步包括:
通过检验指标对近红外光谱分析预测结果进行检验;
所述检验指标包括定性指标和定量指标;
所述定性指标包括:准确率、召回率、精确率、F1分数、F2分数;
所述定量指标包括:预测标准偏差、绝对系数。
9.一种基于图像特征提取的近红外光谱分析系统,包括:
存储器,用于存储可由处理器执行的指令;
处理器,用于执行所述指令以实现如权利要求1-8任一项所述的方法。
10.一种计算机可读介质,其上存储有计算机指令,其中当计算机指令被处理器执行时,执行如权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311057789.XA CN117078960A (zh) | 2023-08-22 | 2023-08-22 | 一种基于图像特征提取的近红外光谱分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311057789.XA CN117078960A (zh) | 2023-08-22 | 2023-08-22 | 一种基于图像特征提取的近红外光谱分析方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117078960A true CN117078960A (zh) | 2023-11-17 |
Family
ID=88701864
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311057789.XA Pending CN117078960A (zh) | 2023-08-22 | 2023-08-22 | 一种基于图像特征提取的近红外光谱分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117078960A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118015685A (zh) * | 2024-04-09 | 2024-05-10 | 湖北楚天龙实业有限公司 | 一种一卡通的识别方法及系统 |
-
2023
- 2023-08-22 CN CN202311057789.XA patent/CN117078960A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118015685A (zh) * | 2024-04-09 | 2024-05-10 | 湖北楚天龙实业有限公司 | 一种一卡通的识别方法及系统 |
CN118015685B (zh) * | 2024-04-09 | 2024-07-02 | 湖北楚天龙实业有限公司 | 一种一卡通的识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107515895B (zh) | 一种基于目标检测的视觉目标检索方法与系统 | |
CN106203523B (zh) | 基于梯度提升决策树半监督算法融合的高光谱图像分类方法 | |
Chauhan et al. | An efficient data mining classification approach for detecting lung cancer disease | |
CN112613536B (zh) | 一种基于smote和深度学习的近红外光谱柴油牌号识别方法 | |
CN114970605A (zh) | 一种多模态特征融合神经网络的制冷设备故障诊断方法 | |
CN112508105A (zh) | 一种采油机故障检测与检索方法 | |
CN111338950A (zh) | 一种基于谱聚类的软件缺陷特征选择方法 | |
CN106709997B (zh) | 基于深度神经网络和稀疏自编码器的三维关键点检测方法 | |
CN114564982A (zh) | 雷达信号调制类型的自动识别方法 | |
CN108681742B (zh) | 用于分析司机驾驶行为对车辆能耗敏感性的分析方法 | |
CN115828140A (zh) | 邻域互信息与随机森林相融合故障检测方法、系统及应用 | |
CN107704883A (zh) | 一种菱镁矿矿石的品级的分类方法及系统 | |
CN117078960A (zh) | 一种基于图像特征提取的近红外光谱分析方法及系统 | |
CN116257759A (zh) | 一种深度神经网络模型的结构化数据智能分类分级系统 | |
CN104616022A (zh) | 一种近红外光谱的分类方法 | |
CN113837266B (zh) | 一种基于特征提取和Stacking集成学习的软件缺陷预测方法 | |
CN107526946A (zh) | 融合自学习和低秩表示的基因表达数据癌症分类方法 | |
Devanta | Optimization of the K-Means Clustering Algorithm Using Davies Bouldin Index in Iris Data Classification | |
CN117079741A (zh) | 一种基于神经网络的分子绝缘强度预测方法、装置及介质 | |
CN110879821A (zh) | 评分卡模型衍生标签生成方法、装置、设备及存储介质 | |
CN115527193A (zh) | 一种中药材种类识别方法 | |
CN115392375A (zh) | 一种多源数据融合度智能评估方法及其系统 | |
CN104778478A (zh) | 一种手写数字识别方法 | |
CN114818845A (zh) | 一种噪声稳健的高分辨距离像特征选择方法 | |
JP7272582B2 (ja) | 類似材料検索システム、試験装置およびコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |