CN115060663B - 一种基于机器学习定量测试香蕉品质的方法 - Google Patents
一种基于机器学习定量测试香蕉品质的方法 Download PDFInfo
- Publication number
- CN115060663B CN115060663B CN202210700117.5A CN202210700117A CN115060663B CN 115060663 B CN115060663 B CN 115060663B CN 202210700117 A CN202210700117 A CN 202210700117A CN 115060663 B CN115060663 B CN 115060663B
- Authority
- CN
- China
- Prior art keywords
- banana
- points
- data
- point
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 235000018290 Musa x paradisiaca Nutrition 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000010801 machine learning Methods 0.000 title claims abstract description 21
- 238000012360 testing method Methods 0.000 title claims abstract description 16
- 240000005561 Musa balbisiana Species 0.000 title 1
- 241000234295 Musa Species 0.000 claims abstract description 100
- CIWBSHSKHKDKBQ-JLAZNSOCSA-N Ascorbic acid Chemical compound OC[C@H](O)[C@H]1OC(=O)C(O)=C1O CIWBSHSKHKDKBQ-JLAZNSOCSA-N 0.000 claims abstract description 36
- 229960005070 ascorbic acid Drugs 0.000 claims abstract description 18
- 235000010323 ascorbic acid Nutrition 0.000 claims abstract description 18
- 239000011668 ascorbic acid Substances 0.000 claims abstract description 18
- 235000000346 sugar Nutrition 0.000 claims abstract description 18
- 238000011156 evaluation Methods 0.000 claims abstract description 17
- 238000012937 correction Methods 0.000 claims abstract description 14
- 235000021015 bananas Nutrition 0.000 claims abstract description 12
- 230000002159 abnormal effect Effects 0.000 claims abstract description 7
- 238000009499 grossing Methods 0.000 claims abstract description 7
- 238000010606 normalization Methods 0.000 claims abstract description 7
- 239000002253 acid Substances 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 24
- 239000004382 Amylase Substances 0.000 claims description 16
- 102000013142 Amylases Human genes 0.000 claims description 16
- 108010065511 Amylases Proteins 0.000 claims description 16
- 235000019418 amylase Nutrition 0.000 claims description 16
- 239000000523 sample Substances 0.000 claims description 15
- 238000003646 Spearman's rank correlation coefficient Methods 0.000 claims description 12
- HEMHJVSKTPXQMS-UHFFFAOYSA-M Sodium hydroxide Chemical compound [OH-].[Na+] HEMHJVSKTPXQMS-UHFFFAOYSA-M 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 239000003153 chemical reaction reagent Substances 0.000 claims description 5
- 239000003086 colorant Substances 0.000 claims description 5
- 238000013139 quantization Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- 230000001174 ascending effect Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000004448 titration Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 238000004321 preservation Methods 0.000 claims description 2
- CCBICDLNWJRFPO-UHFFFAOYSA-N 2,6-dichloroindophenol Chemical compound C1=CC(O)=CC=C1N=C1C=C(Cl)C(=O)C(Cl)=C1 CCBICDLNWJRFPO-UHFFFAOYSA-N 0.000 claims 1
- 239000000126 substance Substances 0.000 abstract description 13
- 210000002615 epidermis Anatomy 0.000 abstract description 4
- 238000000691 measurement method Methods 0.000 abstract description 3
- 238000012067 mathematical method Methods 0.000 abstract 1
- 238000004445 quantitative analysis Methods 0.000 abstract 1
- 235000019589 hardness Nutrition 0.000 description 13
- 235000019587 texture Nutrition 0.000 description 4
- 150000007513 acids Chemical class 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 3
- 235000013339 cereals Nutrition 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- -1 pH value Substances 0.000 description 2
- 238000000611 regression analysis Methods 0.000 description 2
- 230000005070 ripening Effects 0.000 description 2
- FBWADIKARMIWNM-UHFFFAOYSA-N N-3,5-dichloro-4-hydroxyphenyl-1,4-benzoquinone imine Chemical compound C1=C(Cl)C(O)=C(Cl)C=C1N=C1C=CC(=O)C=C1 FBWADIKARMIWNM-UHFFFAOYSA-N 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 244000098338 Triticum aestivum Species 0.000 description 1
- 240000008042 Zea mays Species 0.000 description 1
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 1
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 1
- 239000004480 active ingredient Substances 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 150000001720 carbohydrates Chemical class 0.000 description 1
- 235000014633 carbohydrates Nutrition 0.000 description 1
- 229930002875 chlorophyll Natural products 0.000 description 1
- 235000019804 chlorophyll Nutrition 0.000 description 1
- ATNHDLDRLWWWCB-AENOIHSZSA-M chlorophyll a Chemical compound C1([C@@H](C(=O)OC)C(=O)C2=C3C)=C2N2C3=CC(C(CC)=C3C)=[N+]4C3=CC3=C(C=C)C(C)=C5N3[Mg-2]42[N+]2=C1[C@@H](CCC(=O)OC\C=C(/C)CCC[C@H](C)CCC[C@H](C)CCCC(C)C)[C@H](C)C2=C5 ATNHDLDRLWWWCB-AENOIHSZSA-M 0.000 description 1
- 235000005822 corn Nutrition 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000005336 cracking Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013325 dietary fiber Nutrition 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 235000021022 fresh fruits Nutrition 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 230000000050 nutritive effect Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000012372 quality testing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 210000003491 skin Anatomy 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N3/00—Investigating strength properties of solid materials by application of mechanical stress
- G01N3/40—Investigating hardness or rebound hardness
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N31/00—Investigating or analysing non-biological materials by the use of the chemical methods specified in the subgroup; Apparatus specially adapted for such methods
- G01N31/16—Investigating or analysing non-biological materials by the use of the chemical methods specified in the subgroup; Apparatus specially adapted for such methods using titration
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/02—Food
- G01N33/025—Fruits or vegetables
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N5/00—Analysing materials by weighing, e.g. weighing small particles separated from a gas or liquid
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N2203/00—Investigating strength properties of solid materials by application of mechanical stress
- G01N2203/0058—Kind of property studied
- G01N2203/0076—Hardness, compressibility or resistance to crushing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Food Science & Technology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medicinal Chemistry (AREA)
- Probability & Statistics with Applications (AREA)
- Molecular Biology (AREA)
- Algebra (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Operations Research (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Spectrometry And Color Measurement (AREA)
Abstract
本发明公开了基于机器学习定量测试香蕉品质的方法,该方法将传统化学测定方法与曲线拟合等数学方法相结合,根据香蕉表皮颜色预估质构、还原糖浓度、酸度、抗坏血酸含量等内部性质:基于传统化学方法测定香蕉颜色、酸度、质构等指标,利用归一化、去除异常值、数据平滑等数据预处理,衡量颜色与其他性质的单调性关系,通过初步多项式曲线拟合,加权最小二乘法拟合与评估预测香蕉品质。本发明首次建立了基于机器学习预测香蕉品质的方法,并利用该方法对香蕉内部性质进行预估,计算量小,准确率高,校正决定系数达95%以上。本发明提供了一种容易落地工业化应用的,无破坏即可精准评估香蕉内部性质的定量新方法。
Description
技术领域
本发明涉及一种香蕉品质测试方法,特别是涉及一种基于机器学习定量测试香蕉品质的方法,属于食品科学与工程技术领域。
背景技术
香蕉是重要的热带经济作物,被联合国粮食及农业组织定位于仅次于水稻、小麦、玉米的第四大粮食作物。香蕉含有多种功能活性成分,富含蛋白质、脂肪、碳水化合物、不溶性膳食纤维及各种人体必需的微量元素,具有极高的营养价值。由于其生产特性,香蕉鲜果可全年提供,且属于典型的呼吸跃变型水果,采后具有明显的后熟现象。后熟过程中伴随着营养成分和理化指标的显著变化。主要表现为表观颜色、可溶性总糖、可滴定酸、抗坏血酸含量、硬度等指标。香蕉在正常的后熟过程中,叶绿素随着成熟度的增加而逐渐降解,果皮由绿色转为有光泽的黄色。
传统化学方法可测定香蕉内部化学物质的含量,其过程复杂,耗时长,有损害性,不可直观知道内部具体化学物质含量。而多次实验证明了香蕉外部性质和内部性质的强相关性,且关系曲线形态相对固定。因此可采用加权最小二乘法来着重拟合曲率变化大的部分,从而较为精准地、无损害地估计某香蕉的内部性质。
中国发明专利申请CN10978822A公开了一种基于机器视觉的香蕉成熟度评判建模方法和评判方法,该方法主要是定位香蕉彩色图像中的特征区域,提取其颜色统计量采用机器学习方法建立基于色泽特征的香蕉成熟度判别模型。中国发明专利申请CN112990063A公开了一种基于形状与颜色信息的香蕉成熟度分级方法,该方法提取香蕉图片中的颜色信息,进行形状信息和香蕉颜色信息的重建模型利用BP神经网络算法构建香蕉成熟度分级模型。此外还存在利用其他机器学习方法判定香蕉成熟度的,但都是针对香蕉图像进行特征提取判定成熟度。
综上,目前智能识别香蕉成熟度的研究方法主要集中于拍摄香蕉图片,提取图像特征实现香蕉分级及成熟度判定。图像拍摄受外界环境条件影响较大,且目前未有和内部化学物质相结合的方法,判定指标单一,预测不稳定,不利于快速判定香蕉成熟度及其后续应用。
发明内容
本发明的目的在于针对现有技术的不足,提供一种无损测定香蕉内部性质、准确率高、计算量小的基于加权最小二乘法拟合香蕉内部性质的预估方法。
本发明方法将传统化学测定方法与机器学习方法相结合,通过算法依次进行数据预处理,单调性判断,初步拟合,加权最小二乘法拟合与评估。基于色差仪和传统化学测定方法观察采集的香蕉量化指标数据集,通过算法依次进行数据预处理,单调性判断,初步拟合,加权最小二乘法拟合与评估。
本发明的目的通过如下技术方案实现。
一种基于机器学习定量测试香蕉品质的方法,包括如下步骤:
(1)香蕉数据采集:分别采取香蕉颜色、硬度、pH值、还原糖含量、淀粉酶含量、抗坏血酸含量、可滴定酸含量和质量损失率八个评价香蕉品质的指标;
(2)香蕉量化指标数据集构建:将所得的八个指标的原始数据保留两位小数分类记录到Excel表格中,并进行升序排列,导出只保留八个指标具体数据的纯文本格式的香蕉数据集csv文件,构建初始数据集;
(3)数据预处理:将所得的csv文件中的八个指标数据进行归一化处理,基于DBSCAN算法去除异常点,并对数据作平滑处理;
(4)单调性评估:调用python软件中的spearman秩函数,分别计算颜色与其他七个指标的spearman秩相关系数矩阵,衡量所有数据指标两两之间单调性关系的强弱,若spearman秩相关系数的绝对值大于0.9,界定数据指标两两之间的相关性强;
(5)初步拟合:通过步骤(4)得到颜色与其他七个指标两两之间有强相关性,采用加权最小二乘法对颜色与硬度、pH值、还原糖含量、淀粉酶含量、抗坏血酸含量、可滴定酸含量、质量损失率分别进行多项式拟合,得到硬度、pH值、还原糖含量、淀粉酶含量、抗坏血酸含量、可滴定酸含量、质量损失率的七个初步拟合好的多项式和曲线;
(6)加权最小二乘法拟合与评估:对于步骤(5)中拟合曲线上偏离原始数据的数据进行线性插值,计算邻近三个点确定的二次曲线曲率,作为近似曲率,确定各个样本点的权值并基于曲率对数据进行加权最小二乘多项式拟合;
(7)多项式拟合效果评估:计算步骤(6)中的七个多项式的曲线拟合的校正决定系数,校正决定系数均大于0.99,则界定拟合效果良好;
(8)香蕉品质评估:测定颜色值后,通过步骤(7)中的七个多项式分别计算得到硬度、可滴定酸含量、还原糖含量、淀粉酶含量、抗坏血酸含量、可滴定酸含量、质量损失率七个指标的具体含量。
为进一步实现本发明目的,优选地,步骤(1)中,通过色差仪、质构仪和手持式pH计分别测定香蕉颜色、硬度和pH值;采用PAHBAH试剂法测定还原糖含量和淀粉酶含量;采用2,6-二氯靛酚法和氢氧化钠滴定法分别测定抗坏血酸含量和可滴定酸的含量;测定每日香蕉质量获取质量损失率;
步骤(1)中,所述香蕉的保存条件为20℃,90±2%RH;
步骤(1)中,香蕉颜色的测定方法为使用WSC-S色差仪进行测定,在Lab模式下进行测量,参考原始值为Lr *为94.63,ar *为1,br *为-0.05,a为所测物体偏绿的程度,b为偏黄的程度;
步骤(1)中,香蕉硬度的测定方法为使用TA-XT plus质构仪进行测定,探针为P/2。
优选地,步骤(3)所述的归一化处理是指将数据映射到区间[0,1]之间:
x指原始数据,x*指归一化后的数据,max指每组数据中的最大值,min指每组数据中的最小值。
优选地,步骤(3)中,所述的基于DBSCAN算法去除异常点通过以下步骤实现:
1)将数据集中所有对象标记为未处理状态;
2)对于数据集中的某个点,若当前点已经归入某个簇或已被标记为噪声点,则跳过当前点;
3)若当前点的邻域内包含的点不超过某个既定阈值,则将当前点标记为边界点或噪声点;
4)若当前点的邻域内包含的点大于某个阈值,则将该点标记为核心点,建立新簇,并将其邻域内所有点归入该簇;
5)若某两个簇交集不为空,则合并这两个簇;
6)重复步骤2)至5),直到所有点都被处理。
优选地,所述的簇为数据集内同类点的集合;所述的核心点为邻域内包含的点数大于某个阈值的点;所述的边界点为在其他核心点的邻域内,但其邻域内包含的点不超过某个阈值的点;所述的噪声点为既不是核心点也不是边界点的点。
优选地,步骤(3)中,所述的对数据作平滑处理是指对每个点的每一个分量,更新为左边若干个点以及右边若干个点的均值。
优选地,步骤(4)中,若一个变量是另外一个变量的严格单调函数,则spearman秩相关系数为+1或-1;spearman秩相关系数的计算公式为:
其中 和/>分别为xi和yi的秩次,n为样本数。
优选地,步骤(5)中,所述的最小二乘法是指通过最小化误差的平方和寻找最佳参数的数学优化技术,即需找到令残差函数
达到最小的参数wi,i=1,2,…,m.
步骤(5)中所述的多项式拟合是指需拟合的函数形式为多项式。
优选地,步骤(6)中,所述的加权最小二乘拟合包括以下步骤:
1)去除无效值:某些数对中的一个分量或两个分量为空值,应去除这些数对;
2)采用线性插值的办法扩充样本点,直至样本点较为稀疏的地方达到平均密度;
3)从第3个点开始到倒数第3个点,用当前点、左边第二个点以及右边第二个点的二次曲线曲率代替该点的曲率;
4)将2)中计算得到的近似曲率归一化得到qi,计算每个样本点的权重:
5)令残差函数L(x)关于多项式函数系数的一阶偏导为0,求解方程可得多项式函数拟合系数的值。
优选地,步骤(7)中,所述的校正决定系数计算方式如下:
其中,n为样本数量,p为特征,Yactual是原始值,Ypredict是预测值,Ymean原始数据的平均值。
与现有技术相比,本发明具有如下优点和有益效果:
1)本发明方法直接利用色差仪测定表皮颜色,消除光照等外界环境条件的影响,和内部化学物质相结合,判定指标多样化,减少误差。
2)本发明方法计算简单,香蕉表皮颜色与其内部性质具有极强的相关性,因此通过颜色可以较为精确地估计香蕉内部性质。
3)本发明通过数据预处理,降低异常值、量纲和测量误差的影响,使得拟合曲线更加精确描述数据的发展趋势。
4)本发明利用spearman秩相关系数矩阵,衡量所有变量两两之间的单调性关系强弱;spearman秩相关系数高是可以用曲线拟合来量化香蕉外表皮颜色与内部性质关系的必要条件。
5)本发明利用基于曲率的加权最小二乘拟合量化香蕉表皮颜色与其内部性质的关系,更加注重数据趋势变化大的部分;在曲线形式固定时,加权最小二乘拟合会比普通拟合更加精确。
6)本发明建立的基于机器学习预测香蕉品质的方法预测准确率高,使用便捷,利于工业化应用。
附图说明
图1为本发明基于加权最小二乘拟合的预估香蕉内部性质的方法流程图;
图2为本发明实施例关于可滴定酸的初步多项式拟合曲线图;
图3为本发明实施例关于可滴定酸的加权最小二乘多项式拟合曲线图。
具体实施方式
以下结合附图和具体实施例来进一步说明本发明。需要说明的是,以下实施例并不对本发明的保护范围做任何形式的限定。除非特别说明,本发明采用的试剂、方法和设备为本技术领域常规试剂、方法和设备。
除非特别说明,以下实施例所用试剂和材料均为市购。
实施例1
为了精准测定香蕉成熟过程中各品质的具体含量,指导加工产品的精准加工,需要对不同成熟阶段的香蕉样品进行定量的品质预测。
如图1所示,一种基于机器学习定量测试香蕉品质的方法,包括如下步骤:
(1)香蕉数据采集:从果园新鲜采摘的广东一号香蕉在20℃,90%湿度的恒温恒湿箱中保存,每天通过色差仪和质构仪分别测定香蕉颜色和硬度、采用PAHBAH试剂法测定还原糖含量和淀粉酶含量、2,6-二氯靛酚法和氢氧化钠滴定法分别测定抗坏血酸含量和可滴定酸的含量,测定每日香蕉质量以获取质量损失率,计算公式如下:
其中m1:新鲜果实质量;m2:贮存后果实质量。
完成香蕉量化指标数据的采集;
(2)香蕉量化指标数据集构建:将步骤(1)所得的八个指标的原始数据保留两位小数分类记录到Excel表格中,导出八个指标具体数据的纯文本格式的香蕉数据集csv文件,构建初始数据集;
(3)数据预处理:将步骤(2)中的数据归一化;将颜色指标(Lab模式中的b值)和其他性质分别组成(颜色,性质)数对,按照颜色将数对按升序排列,再分别基于DBSCAN算法去除异常点;对数据做平滑处理,完成数据预处理。
(颜色,性质)数对包括如下类别:(b值,质量损失率)、(b值,可滴定酸)、(b值,pH值)、(b值,抗坏血酸)、(b值,还原糖浓度)、(b值,淀粉酶浓度)、(b值,质构);
数据归一化的具体操作为,将数据映射到区间[0,1]之间:
x指原始数据,x*指归一化后的数据,max指每组数据中的最大值,min指每组数据中的最小值。
基于DBSCAN去除异常点的具体操作为:
1)将数据集中所有对象标记为未处理状态;
2)对于数据集中的某个点,若当前点已经归入某个簇或已被标记为噪声点,则跳过当前点;
3)若当前点的ε=0.09邻域内包含的点不超过2个,则将当前点标记为边界点或噪声点;
4)若当前点的ε=0.09邻域内包含的点大于2个,则将该点标记为核心点,建立新簇,并将其邻域内所有点归入该簇;
5)若某两个簇交集不为空,则合并这两个簇;
6)重复步骤2)至5),直到所有点都被处理;
其中,簇为数据集内同类点的集合;核心点为邻域内包含的点数大于某个阈值的点;边界点为在其他核心点的邻域内,但其邻域内包含的点不超过某个阈值的点。噪声点为既不是核心点也不是边界点的点。
对数据作平滑处理的具体操作为:对每个点的每一个分量,更新为左边4个点以及右边4个点的均值;
(4)单调性评估:单调性评估基于spearman秩相关系数来衡量两个变量之间单调性关系强弱:
其中,ps为两个变量之间单调性关系; 和/>分别为xi和yi的秩次,n为样本量;计算结果如表1所示;
表1 spearman秩相关系数矩阵
由表1可知,香蕉外观颜色和质量损失率、可滴定酸、pH值、抗坏血酸、还原糖、淀粉酶、硬度的相关性系数分别为0.946、0.987、-0.994、-0.944、0.993、0.989、-0.989。相关系数的绝对值均大于0.9,可以表明彼此之间呈现强相关性。因此以香蕉外观颜色判定内部化学品质的含量是可取的,可实现的。
(5)初步拟合:设定需拟合地函数为最高次幂为5次的多项式形式;用python的scipy.optimize中导入curve_fit函数,并导入香蕉数据集csv文件进行拟合;本发明实施例关于可滴定酸的初步多项式拟合曲线图如图2所示。
(6)加权最小二乘多项式拟合:以多项式函数为目标函数,求得参数值使得残差函数最小的数学优化技术;其中,残差函数为对误差的平方和进行加权求和,权重基于近似曲率计算得到;
加权最小二乘拟合具体包括以下步骤:
1)去除无效值:某些数对中的一个分量会两个分量为空值,应去除这些数对;
2)等间距分割[0,1]区间,以0.2为一段,计算每个区间含有的点的数量;计算给定长度区间下的平均含有点的数量;采用线性插值的办法扩充样本点,直至样本点较为稀疏的地方达到平均密度;
3)从第3个点开始到倒数第3个点,用当前点、左边第二个点以及右边第二个点的二次曲线曲率代替该点的曲率;
4)将2)中计算得到的近似曲率归一化得到qi,计算每个样本点的权重:
5)令残差函数L(x)关于多项式函数系数的一阶偏导为0,可得到一组以拟合系数为未知数的线性方程;求解方程可得线性多项式函数拟合系数的值。
本实施例关于可滴定酸的加权最小二乘多项式拟合曲线图如图3所示。
(7)多项式拟合效果评估:计算步骤(6)中的七个多项式的曲线拟合的校正决定系数,校正决定系数均大于0.99,则界定拟合效果良好;
校正决定系数计算方式如下:
其中,
n为样本数量,p为特征,Yactual是原始值,Ypredict是预测值,Ymean原始数据的平均值。本实施例中校正决定系数如表2所示。
表2校正决定系数
由表2可知,基于加权最小二乘法进行的曲线拟合的校正决定系数均大于0.99,其中硬度可达0.99948,可以说明拟合效果表现良好,得出的线性多项式函数可以用来准确定量预测香蕉的内部化学品质。
(8)香蕉品质评估:测定颜色值后,通过步骤(7)中的七个多项式分别计算得到硬度、可滴定酸含量、还原糖含量、淀粉酶含量、抗坏血酸含量、可滴定酸含量、质量损失率七个指标的具体含量,对照表3可对香蕉的品质进行评估。
基于香蕉品质预测数据集,依托spearman秩相关系数理论,研究外部特征(颜色)和内部品质的相关性,分析可得颜色和可滴定酸、pH值、抗坏血酸、还原糖、淀粉酶、质量损失率、硬度的相关性系数分别为0.987、-0.994、-0.944、0.993、0.989、0.946、-0.989,呈现强相关性;结合Min-Max标准化算法、DBSCAN算法、Meanfiltering算法,组建一体化数据预处理算法,实现对原始数据的优化处理(数据归一化、异常点去除、滤波降噪),可减少不同指标之间的单位与量纲影响及消除个别偏离总体趋势的样本点及误差噪声影响;基于相关性分析和数据预处理算法,引入加权最小二乘法进行回归分析,得到以外观颜色为自变量,各内部品质指标含量为因变量的多项式方程,成功构建定量预测体系。回归分析获得的拟合曲线的校正决定系数分别为0.99897、0.99243、0.99273、0.99581、0.99310、0.99547、0.99948(均大于0.99),曲线拟合结果精准。
由此,可见香蕉品质预测体系能仅通过香蕉颜色值就预测出可滴定酸、pH值、抗坏血酸、还原糖、淀粉酶、质量损失率、硬度的含量,再通过香蕉评估标准获得香蕉的成熟度,实现将颜色(可视化指标)与内部多种化学成分有效量化关联,解决了加工过程中化学品质评估的数据收集与分析割裂化,时间消耗长、评估效率低等问题。
表3香蕉不同成熟阶段品质含量的区间划分
Claims (10)
1.一种基于机器学习定量测试香蕉品质的方法,其特征在于包括如下步骤:
(1)香蕉数据采集:分别采取香蕉颜色、硬度、pH值、还原糖含量、淀粉酶含量、抗坏血酸含量、可滴定酸含量和质量损失率八个评价香蕉品质的指标;
(2)香蕉量化指标数据集构建:将所得的八个指标的原始数据保留两位小数分类记录到Excel表格中,并进行升序排列,导出只保留八个指标具体数据的纯文本格式的香蕉数据集csv文件,构建初始数据集;
(3)数据预处理:将所得的csv文件中的八个指标数据进行归一化处理,基于DBSCAN算法去除异常点,并对数据作平滑处理;
(4)单调性评估:调用python软件中的spearman秩函数,分别计算颜色与其他七个指标的spearman秩相关系数矩阵,衡量所有数据指标两两之间单调性关系的强弱,若spearman秩相关系数的绝对值大于0.9,界定数据指标两两之间的相关性强;
(5)初步拟合:通过步骤(4)得到颜色与其他七个指标两两之间有强相关性,采用加权最小二乘法对颜色与硬度、pH值、还原糖含量、淀粉酶含量、抗坏血酸含量、可滴定酸含量、质量损失率分别进行多项式拟合,得到硬度、pH值、还原糖含量、淀粉酶含量、抗坏血酸含量、可滴定酸含量、质量损失率的七个初步拟合好的多项式和曲线;
(6)加权最小二乘法拟合与评估:对于步骤(5)中拟合曲线上偏离原始数据的数据进行线性插值,计算邻近三个点确定的二次曲线曲率,作为近似曲率,确定各个样本点的权值并基于曲率对数据进行加权最小二乘多项式拟合;
(7)多项式拟合效果评估:计算步骤(6)中的七个多项式的曲线拟合的校正决定系数,校正决定系数均大于0.99,则界定拟合效果良好;
(8)香蕉品质评估:测定颜色值后,通过步骤(7)中的七个多项式分别计算得到硬度、可滴定酸含量、还原糖含量、淀粉酶含量、抗坏血酸含量、可滴定酸含量、质量损失率七个指标的具体含量。
2.根据权利要求1所述的基于机器学习定量测试香蕉品质的方法,其特征在于,步骤(1)中,通过色差仪、质构仪和手持式pH计分别测定香蕉颜色、硬度和pH值;采用PAHBAH试剂法测定还原糖含量和淀粉酶含量;采用2,6-二氯靛酚法和氢氧化钠滴定法分别测定抗坏血酸含量和可滴定酸的含量;测定每日香蕉质量获取质量损失率;
步骤(1)中,所述香蕉的保存条件为20℃,90±2%RH;
步骤(1)中,香蕉颜色的测定方法为使用WSC-S色差仪进行测定,在Lab模式下进行测量,参考原始值为Lr *为94.63,ar *为1,br *为-0.05,a为所测物体偏绿的程度,b为偏黄的程度;
步骤(1)中,香蕉硬度的测定方法为使用TA-XT plus质构仪进行测定,探针为P/2。
3.根据权利要求1所述的基于机器学习定量测试香蕉品质的方法,其特征在于,步骤(3)所述的归一化处理是指将数据映射到区间[0,1]之间:
x指原始数据,x*指归一化后的数据,max指每组数据中的最大值,min指每组数据中的最小值。
4.根据权利要求1所述的基于机器学习定量测试香蕉品质的方法,其特征在于,步骤(3)中,所述的基于DBSCAN算法去除异常点通过以下步骤实现:
1)将数据集中所有对象标记为未处理状态;
2)对于数据集中的某个点,若当前点已经归入某个簇或已被标记为噪声点,则跳过当前点;
3)若当前点的邻域内包含的点不超过某个既定阈值,则将当前点标记为边界点或噪声点;
4)若当前点的邻域内包含的点大于某个阈值,则将该点标记为核心点,建立新簇,并将其邻域内所有点归入该簇;
5)若某两个簇交集不为空,则合并这两个簇;
6)重复步骤2)至5),直到所有点都被处理。
5.根据权利要求4所述的基于机器学习定量测试香蕉品质的方法,其特征在于,所述的簇为数据集内同类点的集合;所述的核心点为邻域内包含的点数大于某个阈值的点;所述的边界点为在其他核心点的邻域内,但其邻域内包含的点不超过某个阈值的点;所述的噪声点为既不是核心点也不是边界点的点。
6.根据权利要求1所述的基于机器学习定量测试香蕉品质的方法,其特征在于,步骤(3)中,所述的对数据作平滑处理是指对每个点的每一个分量,更新为左边若干个点以及右边若干个点的均值。
7.根据权利要求1所述的基于机器学习定量测试香蕉品质的方法,其特征在于,步骤(4)中,若一个变量是另外一个变量的严格单调函数,则spearman秩相关系数为+1或-1;spearman秩相关系数的计算公式为:
其中 和/>分别为xi和yi的秩次,n为样本数。
8.根据权利要求1所述的基于机器学习定量测试香蕉品质的方法,其特征在于,步骤(5)中,所述的最小二乘法是指通过最小化误差的平方和寻找最佳参数的数学优化技术,即需找到令残差函数
达到最小的参数wi,i=1,2,…,m;
步骤(5)中所述的多项式拟合是指需拟合的函数形式为多项式。
9.根据权利要求1所述的基于机器学习定量测试香蕉品质的方法,其特征在于,步骤(6)中,所述的加权最小二乘多项式拟合包括以下步骤:
1)去除无效值:某些数对中的一个分量或两个分量为空值,应去除这些数对;
2)采用线性插值的办法扩充样本点,直至样本点较为稀疏的地方达到平均密度;
3)从第3个点开始到倒数第3个点,用当前点、左边第二个点以及右边第二个点的二次曲线曲率代替该点的曲率;
4)将2)中计算得到的近似曲率归一化得到qi,计算每个样本点的权重:
5)令残差函数L(x)关于多项式函数系数的一阶偏导为0,求解方程可得多项式函数拟合系数的值。
10.根据权利要求1所述的基于机器学习定量测试香蕉品质的方法,其特征在于,步骤(7)中,所述的校正决定系数计算方式如下:
其中,n为样本数量,p为特征,Yactual是原始值,Ypredict是预测值,Ymean原始数据的平均值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210700117.5A CN115060663B (zh) | 2022-06-20 | 2022-06-20 | 一种基于机器学习定量测试香蕉品质的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210700117.5A CN115060663B (zh) | 2022-06-20 | 2022-06-20 | 一种基于机器学习定量测试香蕉品质的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115060663A CN115060663A (zh) | 2022-09-16 |
CN115060663B true CN115060663B (zh) | 2024-04-19 |
Family
ID=83202444
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210700117.5A Active CN115060663B (zh) | 2022-06-20 | 2022-06-20 | 一种基于机器学习定量测试香蕉品质的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115060663B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107389601A (zh) * | 2017-08-25 | 2017-11-24 | 天津商业大学 | 基于高光谱的芒果冲击损伤后可滴定酸含量预测方法 |
CN112418130A (zh) * | 2020-11-30 | 2021-02-26 | 华南农业大学 | 一种基于bp神经网络的香蕉成熟度检测方法及装置 |
CN112990063A (zh) * | 2021-03-30 | 2021-06-18 | 北京林业大学 | 一种基于形状与颜色信息的香蕉成熟度分级方法 |
-
2022
- 2022-06-20 CN CN202210700117.5A patent/CN115060663B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107389601A (zh) * | 2017-08-25 | 2017-11-24 | 天津商业大学 | 基于高光谱的芒果冲击损伤后可滴定酸含量预测方法 |
CN112418130A (zh) * | 2020-11-30 | 2021-02-26 | 华南农业大学 | 一种基于bp神经网络的香蕉成熟度检测方法及装置 |
CN112990063A (zh) * | 2021-03-30 | 2021-06-18 | 北京林业大学 | 一种基于形状与颜色信息的香蕉成熟度分级方法 |
Non-Patent Citations (1)
Title |
---|
基于近红外光谱的香蕉品质检测方法研究;胡耀华;刘聪;熊来怡;蒋国振;郭康权;;农机化研究;20110901(09);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115060663A (zh) | 2022-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Khulal et al. | Intelligent evaluation of total volatile basic nitrogen (TVB-N) content in chicken meat by an improved multiple level data fusion model | |
CN108663339B (zh) | 基于光谱和图像信息融合的霉变玉米在线检测方法 | |
Huang et al. | A data fusion detection method for fish freshness based on computer vision and near-infrared spectroscopy | |
Huang et al. | Non-destructively sensing pork’s freshness indicator using near infrared multispectral imaging technique | |
CN109470648B (zh) | 一种单籽粒作物不完善粒快速无损判定方法 | |
Fadock et al. | Visible-near infrared reflectance spectroscopy for nondestructive analysis of red wine grapes | |
CN111523542A (zh) | 一种菌落总数回归预测模型的构建及运用该模型检测鱼肉新鲜度的方法 | |
CN112213281A (zh) | 一种基于透射近红外光谱快速测定淡水鱼新鲜度综合评价的方法 | |
CN117591905A (zh) | 基于高光谱特征的猪肉安全性检测方法 | |
CN110609011A (zh) | 单籽粒玉米种子淀粉含量近红外高光谱检测方法及系统 | |
CN118333447A (zh) | 一种食用菌品质监测方法及系统 | |
CN115060663B (zh) | 一种基于机器学习定量测试香蕉品质的方法 | |
CN117871428A (zh) | 基于高光谱成像和优化算法的牛奶掺假快速无损定量检测方法 | |
CN110163459A (zh) | 一种构建多指标评价模型对小麦品质分级的方法 | |
CN108279212B (zh) | 一种基于高光谱的动物肉松金属元素含量的预测和评估方法 | |
CN115630332A (zh) | 一种小麦粉粉质特性预测方法 | |
Liu et al. | A novel wavelength selection strategy for chlorophyll prediction by MWPLS and GA | |
CN109765197A (zh) | 一种冰鲜大西洋鲑鱼与冻融大西洋鲑鱼的快速鉴别方法 | |
CN113324941A (zh) | 原料牛奶保存时间的快速鉴定方法 | |
CN113310933A (zh) | 原料水牛奶保存天数的光谱鉴定方法 | |
CN113866119A (zh) | 一种注水鸡快速鉴别方法及应用 | |
CN107463942B (zh) | 一种基于边界点的抗噪支持向量机的水蜜桃品质分级的方法 | |
CN113791049B (zh) | 一种融合nirs和cv对冷鲜鸭肉新鲜度进行快速检测的方法 | |
CN112285144B (zh) | 一种利用低场核磁共振检测白羽肉鸡鸡胸肉肌病的方法 | |
Huang et al. | Study of progress on application of hyperspectral imaging combined with deep learning approaches in detecting foods content |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |