CN115273987B - 一种特征品质成分的识别方法、系统、设备及存储介质 - Google Patents

一种特征品质成分的识别方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN115273987B
CN115273987B CN202211161366.8A CN202211161366A CN115273987B CN 115273987 B CN115273987 B CN 115273987B CN 202211161366 A CN202211161366 A CN 202211161366A CN 115273987 B CN115273987 B CN 115273987B
Authority
CN
China
Prior art keywords
component
vector
equidistant
parameter
quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211161366.8A
Other languages
English (en)
Other versions
CN115273987A (zh
Inventor
陈志军
刘艳
钱永忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Agricultural Quality Standards and Testing Technology for Agro Products of CAAS
Original Assignee
Institute of Agricultural Quality Standards and Testing Technology for Agro Products of CAAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Agricultural Quality Standards and Testing Technology for Agro Products of CAAS filed Critical Institute of Agricultural Quality Standards and Testing Technology for Agro Products of CAAS
Priority to CN202211161366.8A priority Critical patent/CN115273987B/zh
Publication of CN115273987A publication Critical patent/CN115273987A/zh
Application granted granted Critical
Publication of CN115273987B publication Critical patent/CN115273987B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioethics (AREA)
  • Biotechnology (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种特征品质成分的识别方法、系统、设备及存储介质,应用于蛋白组学与生物信息学技术领域,该方法包括:获得交替等距对数比转换模型中排序第一的成分向量的参数估计值;按照各个成分向量的编号依次对组学成分矩阵的各个成分向量进行交替排序,重复交替等距对数比转换模型构建与排序第一的成分向量的参数估计过程,获得所有成分向量所对应的参数估计值,生成待检测参数向量;运用重抽样技术对待检测参数向量进行显著性统计检验,并根据显著性统计检验结果筛选出产品的特征品质成分;本申请通过对所有成分向量所生成的待检测参数向量进行显著性统计检测,筛选出产品的特征品质成分,实现了对不同品种同类品质中特征成分品质的鉴别。

Description

一种特征品质成分的识别方法、系统、设备及存储介质
技术领域
本申请涉及蛋白组学与生物信息学技术领域,具体而言,涉及一种特征品质成分的识别方法、系统、设备及存储介质。
背景技术
识别特征品质成分是保护与利用食用农产品品质资源,提高产品附加值的重要技术手段之一,识别方法的准确性与灵敏度制约着品质资源的识别能力,随着检验检测技术的发展,基于组学分析技术开展品质资源调查成为可能,然而,组学成分的检测数据在理论上遵从“定和约束”,统计上称为成分数据,需要进行对数比变换后才能转换为常规数据进行分析,目前,等距对数比变换法能有效消除“定和约束”,亦能保持变换前后数据点之间的相对距离不变,但是,应用等距对数比变换法构建转换模型只能对第一个成分数据的参数估计值在变换前后有对应关系,其他成分数据的参数估计值尚无法同时获取并做显著性测验,这对通过显著性统计检验结果筛选出产品的特征品质成分极为不利,亟待提出一种在等距对数比变换法的基础上,获取所有成分数据的参数估计值,用于鉴别特征品质成分的方法。
发明内容
有鉴于此,本申请实施例提供了一种特征品质成分的识别方法,运用统计学习机对交替等距对数比转换模型中成分向量进行估计,从而获取所有成分向量所对应的待检测参数向量,再运用重抽样技术从待检测参数向量中筛选出通过显著性统计检验的待检测参数,进而预测出每种产品的特征品质成分, 实现了对不同品种同类品质中特征成分品质的鉴别等研究。
第一方面,本申请实施例提供了一种特征品质成分的识别方法,包括:
基于品质组学成分表中包含的产品类别、品质成分检测结果信息,生成产品向量、组学成分矩阵和预定参数向量;
根据所述产品向量、所述组学成分矩阵和所述预定参数向量,构建特征品质成分识别统计模型;
对所述特征品质成分识别统计模型中组学成分矩阵的各个成分向量进行编号并排序,并对完成编号后的组学成分矩阵进行等距对数比转换,生成交替等距对数比转换模型;
运用统计学习机获得交替等距对数比转换模型中排序第一的成分向量的参数估计值;
按照所述各个成分向量的编号依次对组学成分矩阵的各个成分向量进行交替排序,重复所述交替等距对数比转换模型构建与排序第一的成分向量的参数估计过程,获得所有成分向量所对应的参数估计值,并生成待检测参数向量;
运用重抽样技术对所述待检测参数向量进行显著性统计检验,获取显著性统计检验结果,并根据所述显著性统计检验结果筛选出产品的特征品质成分。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,基于品质组学成分表中包含的产品类别、品质成分检测结果信息,生成产品向量、组学成分矩阵和预定参数向量,包括:
在品质组学成分表中获取产品类别、品质成分检测结果信息;
运用稳健极大似然估计法对所述品质成分检测结果信息中的未检出值用进行估计,得到未检出值估计值;
根据所述未检出值估计值对所述品质成分检测结果信息中的未检出值进行替换,生成组学成分矩阵及产品向量、预定参数向量。
结合第一方面的第一种可能的实施方式,本申请实施例提供了第一方面的第二种可能的实施方式,其中,根据所述产品向量、所述组学成分矩阵和所述预定参数向量,构建特征品质成分识别统计模型,具体包括:
利用SQL命令语句分别提取产品向量、组学成分矩阵和预定参数向量,构建特征品质成分识别统计模型:
y=XB+e
其中,y表示由产品分类信息组成的产品向量,X表示组学成分矩阵,B表示品种成分的预定参数向量,e表示误差向量。
结合第一方面的第一种可能的实施方式或第二种可能的实施方式,本申请实施例提供了第一方面的第三种可能的实施方式,其中,针对所述特征品质成分识别统计模型中组学成分矩阵的各个成分向量进行编号并排序,并对完成编号后的组学成分矩阵进行等距对数比转换,生成交替等距对数比转换模型,包括:
将所述组学成分矩阵X中所有成分向量按1到D进行编号,并对编号后的所有成分向量进行排序;
针对排序后所述组学成分矩阵X进行空间维度的等距对数比转换,得到交替等距对数比转换模型;
y=Z (l) Γ (l) +e
其中,y表示由产品类别组成的产品向量; Z (l)表示等距对数比转换后的组学成分矩阵;Γ (l) 表示等距对数比应转换后对应的转化后的预定参数向量;e表示误差向量,l表示在组学成分矩阵X中,编号为l的成分向量排在第一位,l=1, 2, ..., D
结合第一方面的第一种可能的实施方式或第二种可能的实施方式,本申请实施例提供了第一方面的第四种可能的实施方式,其中,运用统计学习机获得交替等距对数比转换模型中排序第一的成分向量的参数估计值,包括:
初始时,将组学成分矩阵X中的成分向量按1到D的排列顺序,令l=1,将第1列成分向量排在第一位,则生成交替等距对数比转换模型y=Z (1) Γ (1) +e
选择统计学习机中偏最小二乘算法对y=Z (1) Γ (1) +e交替等距对数比转换模型进行求解运算,得到求解运算结果;
根据该求解运算结果进行k折交叉检验,得到转化后预定参数向量Γ (1)的参数估计值,并记录所述参数估计值中第1个待检参数
Figure P_220922101658244_244478001
,舍弃其他待检测参数。
结合第一方面的第一种可能的实施方式或第二种可能的实施方式,本申请实施例提供了第一方面的第五种可能的实施方式,其中,按照所述各个成分向量的编号依次对组学成分矩阵的各个成分向量进行交替排序,重复所述交替等距对数比转换模型构建与排序第一的成分向量的参数估计过程,获得所有成分向量所对应的参数估计值,并生成待检测参数向量,包括:
l=2时,将所述组学成分矩阵X中编号为2的成分向量排在第一位,生成交替等距对数比转换模型y=Z (2) Γ (2) +e
运用统计学习机中偏最小二乘算法对y=Z (2) Γ (2)+e交替等距对数比转换模型进行求解运算,得到求解运算结果;
根据该求解运算结果进行相同的k折交叉检验,得到转化后预定参数向量Γ (2) 的参数估计值,并记录所述参数估计值中第1个待检测参数
Figure P_220922101658260_260099001
,舍弃其他参数;
l依次等于3至D时,依次重复上述交替等距对数比转换模型的求解运算及k折交叉检验过程,获得所有待检测参数
Figure P_220922101658292_292296001
l=1, 2, ..., D
将所有D个待检参数组成如下待检测参数向量:
Figure P_220922101658324_324086001
结合第一方面的第一种可能的实施方式或第二种可能的实施方式,本申请实施例提供了第一方面的第六种可能的实施方式,其中,运用重抽样技术对所述待检测参数向量进行显著性统计检验,获取显著性统计检验结果,并根据所述显著性统计检验结果筛选出产品的特征品质成分,包括:
计算M次重抽样所有的所述待检测参数向量g中待检测参数
Figure P_220922101658355_355346001
的方差s l M>=200次,
Figure P_220922101658370_370975002
服从于标准正态分布N(0,1);
为提升本方法的灵敏度,令α adj =α/D,其中,α adj 为矫正显著水平,α为显著水平;
依照α adj 对待检测参数向量g中所有待检测参数进行显著性统计检验,筛选出通过显著性统计检验的待检测参数,确定产品的特征品质成分。
第二方面,本申请实施例还提供了一种特征品质成分的识别系统,所述识别系统包括:
基于品质组学成分表中包含的产品类别、品质成分检测结果信息,生成产品向量、组学成分矩阵和预定参数向量;
根据所述产品向量、所述组学成分矩阵和所述预定参数向量,构建特征品质成分识别统计模型;
对所述特征品质成分识别统计模型中组学成分矩阵的各个成分向量进行编号并排序,并对完成编号后的组学成分矩阵进行等距对数比转换,生成交替等距对数比转换模型;
运用统计学习机获得交替等距对数比转换模型中排序第一的成分向量的参数估计值;
按照所述各个成分向量的编号依次对组学成分矩阵的各个成分向量进行交替排序,重复所述交替等距对数比转换模型构建与排序第一的成分向量的参数估计过程,获得所有成分向量所对应的参数估计值,并生成待检测参数向量;
运用重抽样技术对所述待检测参数向量进行显著性统计检验,获取显著性统计检验结果,并根据所述显著性统计检验结果筛选出产品的特征品质成分。
第三方面,本申请实施例还提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述特征品质成分的识别方法步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如特征品质成分的识别方法步骤。
本申请实施例提供的一种特征品质成分的识别方法,与现有技术应用等距对数比变换法构建转换模型无法获取所有成分数据的参数估计值相比;本方法基于品质组学成分表中包含的产品类别、品质成分检测结果信息,生成产品向量、组学成分矩阵和预定参数向量;根据产品向量、组学成分矩阵和预定参数向量,构建特征品质成分识别统计模型;对特征品质成分识别统计模型中组学成分矩阵的各个成分向量进行编号并排序,并对完成编号后的组学成分矩阵进行等距对数比转换,生成交替等距对数比转换模型;运用统计学习机获得交替等距对数比转换模型中排序第一的成分向量的参数估计值;按照各个成分向量的编号依次对组学成分矩阵的各个成分向量进行交替排序,重复交替等距对数比转换模型构建与排序第一的成分向量的参数估计过程,获得所有成分向量所对应的参数估计值,并生成待检测参数向量;运用重抽样技术对待检测参数向量进行显著性统计检验,获取显著性统计检验结果,并根据显著性统计检验结果筛选出产品的特征品质成分。具体来说,根据产品向量、各个成分向量及参数向量,构建特征品质成分识别统计模型,有利于进一步对不同品种同类品质菜籽油的特征成分进行研究,针对编号后的特征品质成分识别统计模型进行等距对数比转换,得到交替等距对数比转换模型,通过等距对数比转换后有效消除了成分向量的“定和约束”,并能保持交替等距对数比转换模型中成分向量之间的相对距离不变,然后按照编号对各个成分向量进行交替排序,并运用统计学习机对交替等距对数比转换模型中排序后的各个成分向量进行估计,从而获取所有成分向量所对应待检测参数向量,并对待检测参数向量的显著性进行分析,筛选出产品的特征品质成分,实现了对不同品种同类品质中特征成分品质的鉴别等研究,有助于根据特征品种成分的检测参数进行评估,有助于系统性研究不同品种的菜籽油对人体健康的影响,从而为提高食用油品质提供依据。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种特征品质成分的识别方法中实施例工作原理流程示意图。
图2示出了本申请实施例所提供的一种特征品质成分的识别方法的流程图。
图3示出了本申请实施例所提供的一种特征品质成分的识别方法的特征品质成分的鉴别结果示意图。
图4示出了本申请实施例所提供的一种特征品质成分的识别系统示意图。
图5示出了本申请实施例所提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
考虑到现阶段食用油的生产规范仅对生产、运输、保管、质量检测等进行规范,并未根据特征成分进行显著性统计检验,从而确定初产品的特征品质成分,基于此,本申请实施例提供了一种特征品质成分的识别方法,下面通过实施例进行描述。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
图1示出了本申请实施例所提供的一种特征品质成分的识别方法中实施步骤工作原理流程示意图;图2示出了本申请实施例所提供的一种特征品质成分的识别方法流程示意图;如图1、2所示,具体包括以下步骤:
步骤S10,基于品质组学成分表中包含的产品类别、品质成分检测结果信息,生成产品向量、组学成分矩阵和预定参数向量。
步骤S10在具体实施时,先在品质组学成分检测数据库中利用SQL命令语句创建品质成分检测结果信息的表数据名称,该表数据名称中包含有至少一个列存储字段和至少一个列数据类型,品质组学成分检测数据库根据创建的列存储字段和列数据类型及时间戳,生成品质组学成分表;基于品质组学成分表的存储地址,确定品质组学成分表的主键ID,解析品质组学成分表对应的列存储字段和列数据类型,确定品质成分检测结果信息各自对应的从键ID,根据品质组学成分表的主键ID与品质成分检测结果信息各自对应的从键ID进行关联绑定,确定产品类别、品质成分检测结果信息,运用稳健极大似然估计法对品质成分检测结果信息进行估计,得到评估检测数据,根据估检测数据替换品质成分检测结果信息中未检出值,生成组学成分矩阵及产品向量、预定参数向量。
步骤S20,根据产品向量、组学成分矩阵和预定参数向量,构建特征品质成分识别统计模型。
步骤S20在具体实施时,利用贝叶斯分类器将产品类别的产品向量判别为多个不同类,按照不同类别的产品向量,确定相同类型之间的相似性,给定每个产品类别的一组训练模式,根据每个模式的特征或测量值,在特征空间中建立决策边界,得到属于不同类别的产品向量、组学成分矩阵和预定参数向量,根据生成的产品向量、组学成分矩阵和预定参数向量,构建特征品质成分识别统计模型;本实施例中还可以选用判别函数法或K近邻分类法或非线性映射法或特征分析法进行特征提取。
步骤S30,对特征品质成分识别统计模型中组学成分矩阵的各个成分向量进行编号并排序,并对完成编号后的组学成分矩阵进行等距对数比转换,生成交替等距对数比转换模型。
步骤S30在具体实施时,选用标签编码、二值化编码、计算编码中任意一种编码方式对特征品质成分识别统计模型中组学成分矩阵的各个成分向量按1到D进行编号,再根据自变量函数对组学成分矩阵的各个成分向量的特征值进行排序,得到完成编号排序后的组学成分矩阵,并将组学成分矩阵进行等距对数比转换,即组学成分矩阵从单形空间转换到多维空间变换,生成交替等距对数比转换模型。
步骤S40,运用统计学习机获得交替等距对数比转换模型中排序第一的成分向量的参数估计值。
步骤S40在具体实施时,选择统计学习机中偏最小二乘算法、随机森林算法、支持向量机算法或其他任意一种可实现该计算的算法,对交替等距对数比转换模型中当前排序在第一位的成分向量进行求解运算,得到当前第一位的成分向量运算结果,并对求解运算结果进行k折交叉检验,得到该成分向量对应的预定参数向量的参数估计值,并记录该参数估计值为第1个待检参数,且舍弃本次运算的其他待检测参数。
步骤S50,按照各个成分向量的编号依次对组学成分矩阵的各个成分向量进行交替排序,重复交替等距对数比转换模型构建与排序第一的成分向量的参数估计过程,获得所有成分向量所对应的参数估计值,并生成待检测参数向量。
步骤S50在具体实施时,按照组学成分矩阵X中的成分向量按2到D的编号顺序,对不同品种同类品质的组学成分矩阵中2到D个成分向量进行交替排序,生成所有成分向量排在第一位的交替等距对数比转换模型,依次重复上述交替等距对数比转换模型的求解运算及k折交叉检验过程,获取成分向量对应的预定参数向量的参数估计值,并记录所有待检测参数,根据所有待检测参数,生成待检测参数向量。
步骤S60,运用重抽样技术对待检测参数向量进行显著性统计检验,获取显著性统计检验结果,并根据显著性统计检验结果筛选出产品的特征品质成分。
步骤S60在具体实施时,将待检测参数向量输入到三组不同的鉴别模型中;运用Boostrap重抽样技术分别对三组不同的鉴别模型中待检测参数向量进行显著性统计检验,确定三组不同的鉴别模型的显著性统计检验结果;从显著性统计检验结果中筛选出具有显著性的参数估计值及成分向量对应的编号作为存在显著性差异的特征品质成分。
在一个可行的实现方案中,在执行上述步骤S10之前,该方法还包括:
步骤01,根据品种成分组学数据库中已保存的不同品种同类品质的待检测样本,创建待检测样本对应的数据表名称,数据表名称包括至少一个列存储字段和一个列数据类型。
步骤02,根据待检测样本对应的列存储字段和列数据类型,生成不同品种同类品质的品质组学成分表。
步骤01、02在具体实施时,按照试验设计方案中两种油菜品种设置的采样点开展采样,基于每个采样点采集3个重复样本,本实施例中设有75个采样点,共计采集225分待检测样本,运用气相色谱法对两种油菜品种的待检测样本中特征成分进行检测分析,确定每种待检测样本中多种特征成分的指标参数,在目标表格模板中录入每种待检测样本中多种特征成分的指标参数,根据目标表格模板中每种待检测样本与每种待检测样本中多种特征成分的指标参数的对应关系,将每种待检测样本存入品质组学成分检测数据库中;其中,上述两种油菜品种为华油杂62和秦优10,华油杂62(HYZ62,登记编号:GPD油菜<2018>420200)、秦优10(QY10,登记编号:GPD油菜<2017>610193);从品质组学成分检测数据库中获取两种油菜品种的每种待检测样本;每种待检测样本中芥酸含量均低于3%,以及硫代葡萄糖甙含量低于30 umol/g。
在品质组学成分检测数据库中利用SQL命令语句创建每种待检测样本的表名称的命名空间,再该表名称的命名空间中预设华油杂62的待检测样本对应的列存储字段1和列数据类型1和秦优10的待检测样本对应的列存储字段2和列数据类型2,上述华油杂62的列存储字段1和列数据类型1与上述秦优10的列存储字段2和列数据类型2中均携带有多种特征成分的指标参数:分别为豆蔻酸C14:0、棕榈酸C16:0、棕榈一烯酸C16:1、十七碳烷酸C17:0、十七碳一烯酸C17:1、硬脂酸C18:0、油酸C18:1、亚油酸C18:2、亚麻酸C18:3、花生酸C20:0、花生一烯酸C20:1、花生二烯酸C20:2、山嵛酸C22:0、芥酸C22:1、二十四碳烷酸C24:0、二十四碳一烯酸C24:1,根据表名称的命名空间中设置的华油杂62中列存储字段1和一个列数据类型1和秦优10的列存储字段2和列数据类型2,生成多种特征成分的指标参数的品质组学成分表;还可以利用SQL命令语句针对多种油菜品种的表名称的命名空间中预设第三油菜品种的列存储字段3和列数据类型3或第四油菜品种的列存储字段4和列数据类型4,生成多种油菜品种多种特征成分的指标参数的品质组学成分表。
在一个可行的实现方案中,上述步骤S10 、S20中,基于品质组学成分表中包含的产品类别、品质成分检测结果信息,生成产品向量、组学成分矩阵和预定参数向量,根据产品向量、组学成分矩阵和预定参数向量,构建特征品质成分识别统计模型,具体包括:
步骤101,在品质组学成分表中获取产品类别、品质成分检测结果信息。
步骤102,运用稳健极大似然估计法对品质成分检测结果信息中的未检出值用进行估计,得到未检出值估计值。
步骤103,根据未检出值估计值对品质成分检测结果信息中的未检出值进行替换,生成组学成分矩阵及产品向量、预定参数向量。
步骤104,利用SQL命令语句分别提取产品向量、组学成分矩阵和参数向量,构建特征品质成分识别统计模型:
y=XB+e
步骤101、102、103、104在具体实施时,根据品质组学成分表的存储地址自动创建一个主键ID的唯一索引,通过品种成分组学数据库中创建表名称的时间戳,按照产品类别:如第一类华油杂62、第二类秦优10,解析每类品质成分检测结果信息中华油杂62对应的列存储字段1和列数据类型1和秦优10对应的列存储字段2和列数据类型2的存储地址和数据长度,确定每种类别各自对应的从键ID,将品质组学成分表的主键ID与华油杂62对应的列存储字段1和列数据类型1和秦优10对应的列存储字段2和列数据类型2各自对应的从键ID进行关联绑定,得到两种产品的品质成分检测结果信息,运用稳健极大似然估计法对组学成分矩阵中各个成分向量进行类先验概率估计和类条件概率密度估计,得到估计分布中的未检出值估计值,根据未检出值估计值对品质成分检测结果信息中的未检出值进行替换,生成组学成分矩阵及产品向量、预定参数向量,利用SQL命令语句分别提取产品向量、组学成分矩阵和预定参数向量,利用贝叶斯分类器将产品类别的产品向量判别为多个不同类,按照不同类别的产品向量,确定相同类型之间的相似性,给定每个产品类别的一组训练模式,根据每个模式的特征或测量值,在特征空间中建立决策边界,得到属于不同类别的产品向量、组学成分矩阵和预定参数向量,根据生成的产品向量、组学成分矩阵和预定参数向量,构建特征品质成分识别统计模型y=XB+e;其中,y表示由产品分类信息组成的产品向量,X表示组学成分矩阵,B表示品种成分的预定参数向量,e表示误差向量。
在一个可行的实现方案中,上述步骤S30中,对特征品质成分识别统计模型中组学成分矩阵的各个成分向量进行编号并排序,并对完成编号后的组学成分矩阵进行等距对数比转换,生成交替等距对数比转换模型,包括:
步骤301,将组学成分矩阵X中所有成分向量按1到D进行编号,并对编号后的所有成分向量进行排序。
步骤302,针对排序后组学成分矩阵X进行空间维度的等距对数比转换,得到交替等距对数比转换模型:
y=Z (l) Γ (l) +e
其中,y表示由产品类别组成的产品向量; Z (l)表示等距对数比转换后的组学成分矩阵;Γ (l) 表示等距对数比应转换后对应的转化后的预定参数向量;e表示误差向量,l表示在组学成分矩阵X中,编号为l的成分向量排在第一位,l=1, 2, ..., D
步骤301、302在具体实施时,选用二值化编码方式对对特征品质成分识别统计模型中组学成分矩阵X的各个成分向量,按l=1, 2, ..., D进行编号,根据完成编号后的组学成分矩阵X中1到D的成分向量l,确定各列成分向量l对应的特征值,根据各列特征向量l的特征值大小进行升序排列或者降序排列,运用自变量函数对排序后组学成分矩阵X进行空间维度的等距对数比转换,得到等距对数比转换后的组学成分矩阵Z (l)、等距对数比应转换后对应的转化后的预定参数向量Γ (l) ,组学成分矩阵从单形空间转换到多维空间变换,生成交替等距对数比转换模型:y=Z (l) Γ (l) +e
在一个可行的实现方案中,上述步骤S40,运用统计学习机获得交替等距对数比转换模型中排序第一的成分向量的参数估计值,包括:
步骤401,初始时,将组学成分矩阵X中的成分向量按1到D的排列顺序,令l=1,将第1列成分向量排在第一位,则生成交替等距对数比转换模型y=Z (1) Γ (1) +e
步骤402,选择统计学习机中偏最小二乘算法对y=Z (1) Γ (1) +e交替等距对数比转换模型进行求解运算,得到求解运算结果。
步骤403,根据该求解运算结果进行k折交叉检验,得到转化后预定参数向量Γ (1)的参数估计值,并记录参数估计值中第1个待检参数
Figure P_220922101658402_402199001
,舍弃其他待检测参数。
步骤401、402、403在具体实施时,将组学成分矩阵X中的成分向量按1到D的排列顺序,令l=1时,将组学成分矩阵X中第1列成分向量排在第一位,生成第1列成分向量对应的交替等距对数比转换模型y=Z (1) Γ (1) +e,选择统计学习机中偏最小二乘算法、随机森林算法、支持向量机算法(本实施例不限于以上几种算法),对第1列成分向量对应的交替等距对数比转换模型y=Z (1) Γ (1) +e进行求解运算,得到第1列成分向量的求解运算结果,对该求解运算结果进行k折交叉检验,得到第1列成分向量转化后预定参数向量Γ (1)的参数估计值,并记录该参数估计值为第1个待检参数
Figure P_220922101658433_433430001
,且舍弃本次运算的其他待检测参数。
在一个可行的实现方案中,上述步骤S50中,按照各个成分向量的编号依次对组学成分矩阵的各个成分向量进行交替排序,重复交替等距对数比转换模型构建与排序第一的成分向量的参数估计过程,获得所有成分向量所对应的参数估计值,并生成待检测参数向量,包括:
步骤501,令l=2时,将组学成分矩阵X中编号为2的列成分向量排在第一位,生成交替等距对数比转换模型y=Z (2) Γ (2) +e
步骤502,运用统计学习机中偏最小二乘算法对y=Z (2) Γ (2)+e交替等距对数比转换模型进行求解运算,得到求解运算结果。
步骤503,根据该求解运算结果进行相同的k折交叉检验,得到转化后预定参数向量Γ (2) 的参数估计值,并记录参数估计值中第1个待检测参数
Figure P_220922101658449_449069001
,舍弃其他参数。
步骤504,令l依次等于3至D时,依次重复上述交替等距对数比转换模型的求解运算及k折交叉检验过程,获得所有待检测参数
Figure P_220922101658483_483681001
l=1, 2, ..., D
步骤505,将所有D个待检参数组成如下待检测参数向量:
Figure P_220922101658499_499848001
步骤501、502、503、504、505在具体实施时,令l=2时,将组学成分矩阵X中编号为2的列成分向量排在第一位,生成第2列成分向量对应的交替等距对数比转换模型y=Z (2) Γ (2) +e,选择统计学习机中偏最小二乘算法、随机森林算法、支持向量机算法或其他任意一种算法对对第2列成分向量对应的交替等距对数比转换模型y=Z (2) Γ (2) +e进行求解运算,得到第2列成分向量的求解运算结果,对该求解运算结果进行k折交叉检验,得到第2列成分向量转化后预定参数向量Γ (2)的参数估计值,并记录参数估计值中第1个待检测参数
Figure P_220922101658531_531103001
,舍弃本次运算的其他待检测参数;
l=3时,将组学成分矩阵X中编号为3的列成分向量排在第一位,生成第3列成分向量对应的交替等距对数比转换模型y=Z (3) Γ (3) +e,选择统计学习机中偏最小二乘算法、随机森林算法、支持向量机算法或其他任意一种算法对对第3列成分向量对应的交替等距对数比转换模型y=Z (3) Γ (3) +e进行求解运算,得到第3列成分向量的求解运算结果,对该求解运算结果进行k折交叉检验,得到第3列成分向量转化后预定参数向量Γ (3)的参数估计值,并记录参数估计值中第1个待检测参数
Figure P_220922101658561_561875001
,舍弃本次运算的其他待检测参数;
l=4时,将组学成分矩阵X中编号为4的列成分向量排在第一位,生成第4列成分向量对应的交替等距对数比转换模型y=Z (4) Γ (4) +e,选择统计学习机中偏最小二乘算法、随机森林算法、支持向量机算法或其他任意一种算法对对第4列成分向量对应的交替等距对数比转换模型y=Z (4) Γ (4) +e进行求解运算,得到第4列成分向量的求解运算结果,对该求解运算结果进行k折交叉检验,得到第4列成分向量转化后预定参数向量Γ (4)的参数估计值,并记录参数估计值中第1个待检测参数
Figure P_220922101658593_593625001
,舍弃本次运算的其他待检测参数;
l依次等于5至D时,依次重复上述交替等距对数比转换模型的求解运算及k折交叉检验过程,获得所有待检测参数
Figure P_220922101658608_608769001
,即l=1, 2, ..., D,将所有D个待检参数组成如下待检测参数向量:
Figure P_220922101658640_640471002
图3示出了本申请实施例所提供的一种特征品质成分的识别方法的特征品质成分的鉴别结果示意图;上述步骤S60中,运用重抽样技术对待检测参数向量进行显著性统计检验,获取显著性统计检验结果,并根据显著性统计检验结果筛选出产品的特征品质成分,包括:
步骤601,计算M次重抽样所有的待检测参数向量g中待检测参数
Figure P_220922101658671_671240001
的方差s l M>=200次,
Figure P_220922101658703_703466002
服从于标准正态分布N(0,1)。
步骤602,为提升本方法的灵敏度,令α adj =α/D,其中,α adj 为矫正显著水平,α为显著水平。
步骤603,依照α adj 对待检测参数向量g中所有待检测参数进行显著性统计检验,筛选出通过显著性统计检验的待检测参数,确定产品的特征品质成分。
步骤601、602、603在具体实施时,在自助法中对所有的待检测参数向量g待检测参数
Figure P_220922101658719_719599001
进行有放回地采样,选取一组待检测参数作为验证集,再选取一组待检测参数作为训练集,将训练集的一组待检测参数输入到分类向量机中进行训练,得到模型分类器,通过验证集对训练后的模型分类器进行评价,得到评价分类器,根据评价分类器计算M次重抽样所有的待检测参数向量g中待检测参数
Figure P_220922101658750_750808002
的方差s l
Figure P_220922101658782_782066003
服从于标准正态分布N(0,1),为提升本方法的灵敏度,令α adj =α/D,依照α adj 矫正显著水平对待检测参数向量g中所有待检测参数进行显著性统计检验,获取显著性统计检验结果,并根据显著性统计检验结果筛选出通过显著性统计检验的待检测参数,根据得到的待检测参数,从而确定产品的特征品质成分,本方案具体实施过程中,能够得到图3所示的存在特征品质成分差异性的分析结果,其两种油菜品种的差异性特征品质成分分别为stearic acid硬脂酸、docosanoic acid山嵛酸、palmitic acid棕榈酸、linolenic acid亚麻酸、palmitenoicacid棕榈一烯酸。
图4示出了本申请实施例所提供的一种特征品质成分的识别系统结构示意图,如图4所示,上述系统包括:
生成模块701,用于基于品质组学成分表中包含的产品类别、品质成分检测结果信息,生成产品向量、组学成分矩阵和预定参数向量;
构建模块702,用于根据产品向量、组学成分矩阵和预定参数向量,构建特征品质成分识别统计模型;
转换模块703,用于对特征品质成分识别统计模型中组学成分矩阵的各个成分向量进行编号并排序,并对完成编号后的组学成分矩阵进行等距对数比转换,生成交替等距对数比转换模型;
估计模块704,用于运用统计学习机获得交替等距对数比转换模型中排序第一的成分向量的参数估计值;
重复估计模块705,按照各个成分向量的编号依次对组学成分矩阵的各个成分向量进行交替排序,重复交替等距对数比转换模型构建与排序第一的成分向量的参数估计过程,获得所有成分向量所对应的参数估计值,并生成待检测参数向量;
统计检验模块706,用于运用重抽样技术对待检测参数向量进行显著性统计检验,获取显著性统计检验结果,并根据显著性统计检验结果筛选出产品的特征品质成分。
对应于图1中的特征品质成分的识别方法,本申请实施例还提供了一种计算机设备80,图5,如图5所示,该设备包括存储器801、处理器802及存储在该存储器801上并可在该处理器802上运行的计算机程序,其中,上述处理器802执行上述计算机程序时实现上述的方法。
基于品质组学成分表中包含的产品类别、品质成分检测结果信息,生成产品向量、组学成分矩阵和预定参数向量;
根据产品向量、组学成分矩阵和预定参数向量,构建特征品质成分识别统计模型;
对特征品质成分识别统计模型中组学成分矩阵的各个成分向量进行编号并排序,并对完成编号后的组学成分矩阵进行等距对数比转换,生成交替等距对数比转换模型;
运用统计学习机获得交替等距对数比转换模型中排序第一的成分向量的参数估计值;
按照各个成分向量的编号依次对组学成分矩阵的各个成分向量进行交替排序,重复交替等距对数比转换模型构建与排序第一的成分向量的参数估计过程,获得所有成分向量所对应的参数估计值,并生成待检测参数向量;
运用重抽样技术对待检测参数向量进行显著性统计检验,获取显著性统计检验结果,并根据显著性统计检验结果筛选出产品的特征品质成分。
对应于图1中的特征品质成分的识别方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行以下步骤:
基于品质组学成分表中包含的产品类别、品质成分检测结果信息,生成产品向量、组学成分矩阵和预定参数向量;
根据产品向量、组学成分矩阵和预定参数向量,构建特征品质成分识别统计模型;
对特征品质成分识别统计模型中组学成分矩阵的各个成分向量进行编号并排序,并对完成编号后的组学成分矩阵进行等距对数比转换,生成交替等距对数比转换模型;
运用统计学习机获得交替等距对数比转换模型中排序第一的成分向量的参数估计值;
按照各个成分向量的编号依次对组学成分矩阵的各个成分向量进行交替排序,重复交替等距对数比转换模型构建与排序第一的成分向量的参数估计过程,获得所有成分向量所对应的参数估计值,并生成待检测参数向量;
运用重抽样技术对待检测参数向量进行显著性统计检验,获取显著性统计检验结果,并根据显著性统计检验结果筛选出产品的特征品质成分。
基于上述分析可知,与相关技术鉴别组学成分的检测数据对食用油品质评估处于技术空白相比,本申请实施例提供的根据产品向量、各个成分向量及参数向量,构建特征品质成分识别统计模型,有利于进一步对不同品种同类品质菜籽油的特征成分进行研究,针对编号后的特征品质成分识别统计模型进行等距对数比转换,得到交替等距对数比转换模型,通过等距对数比转换后有效消除了成分向量的“定和约束”,并能保持交替等距对数比转换模型中成分向量之间的相对距离不变,然后按照编号对各个成分向量进行交替排序,并运用统计学习机对交替等距对数比转换模型中排序后的各个成分向量进行估计,从而获取所有成分向量所对应待检测参数向量,并对待检测参数向量的显著性进行分析,筛选出产品的特征品质成分,实现了对不同品种同类品质中特征成分品质的鉴别等研究,有助于根据特征品种成分的检测参数进行评估,有助于系统性研究不同品种的菜籽油对人体健康的影响,从而为提高食用油品质提供依据。
本申请实施例所提供的特征品质成分的识别系统可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的系统,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,系统实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露系统和方法,可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (5)

1.一种特征品质成分的识别方法,其特征在于,所述识别方法包括:
基于品质组学成分表中包含的产品类别、品质成分检测结果信息,生成产品向量、组学成分矩阵和预定参数向量;
根据所述产品向量、所述组学成分矩阵和所述预定参数向量,构建特征品质成分识别统计模型;
对所述特征品质成分识别统计模型中组学成分矩阵的各个成分向量进行编号并排序,并对完成编号后的组学成分矩阵进行等距对数比转换,生成交替等距对数比转换模型;
运用统计学习机获得交替等距对数比转换模型中排序第一的成分向量的参数估计值;
按照所述各个成分向量的编号依次对组学成分矩阵的各个成分向量进行交替排序,重复所述交替等距对数比转换模型构建与排序第一的成分向量的参数估计过程,获得所有成分向量所对应的参数估计值,并生成待检测参数向量;
运用重抽样技术对所述待检测参数向量进行显著性统计检验,获取显著性统计检验结果,并根据所述显著性统计检验结果筛选出产品的特征品质成分;
所述基于品质组学成分表中包含的产品类别、品质成分检测结果信息,生成产品向量、组学成分矩阵和预定参数向量,包括:
在品质组学成分表中获取产品类别、品质成分检测结果信息;
运用稳健极大似然估计法对所述品质成分检测结果信息中的未检出值用进行估计,得到未检出值估计值;
根据所述未检出值估计值对所述品质成分检测结果信息中的未检出值进行替换,生成组学成分矩阵及产品向量、预定参数向量;
所述根据所述产品向量、所述组学成分矩阵和所述预定参数向量,构建特征品质成分识别统计模型,具体包括:
利用SQL命令语句分别提取产品向量、组学成分矩阵和预定参数向量,构建特征品质成分识别统计模型:
y=XB+e
其中,y表示由产品类别组成的产品向量,X表示组学成分矩阵,B表示品种成分的预定参数向量,e表示误差向量;
所述对所述特征品质成分识别统计模型中组学成分矩阵的各个成分向量进行编号并排序,并对完成编号后的组学成分矩阵进行等距对数比转换,生成交替等距对数比转换模型,包括:
将所述组学成分矩阵X中所有成分向量按1到D进行编号,并对编号后的所有成分向量进行排序;
针对排序后所述组学成分矩阵X进行空间维度的等距对数比转换,得到交替等距对数比转换模型;
y=Z (l) Γ (l) +e
其中,y表示由产品类别组成的产品向量;Z (l)表示等距对数比转换后的组学成分矩阵;Γ (l)表示等距对数比应转换后对应的转化后的预定参数向量;e表示误差向量,l表示在组学成分矩阵X中,编号为l的成分向量排在第一位,l=1, 2, ..., D
所述运用统计学习机获得交替等距对数比转换模型中排序第一的成分向量的参数估计值,包括:
初始时,将组学成分矩阵X中的成分向量按1到D的排列顺序,令l=1,将第1列成分向量排在第一位,则生成交替等距对数比转换模型y=Z (1) Γ (1) +e
选择统计学习机中偏最小二乘算法对y=Z (1) Γ (1) +e交替等距对数比转换模型进行求解运算,得到求解运算结果;
根据该求解运算结果进行k折交叉检验,得到转化后预定参数向量Γ (1)的参数估计值,并记录所述参数估计值中第1个待检参数
Figure 779334DEST_PATH_IMAGE001
,舍弃其他待检测参数;
所述按照所述各个成分向量的编号依次对组学成分矩阵的各个成分向量进行交替排序,重复所述交替等距对数比转换模型构建与排序第一的成分向量的参数估计过程,获得所有成分向量所对应的参数估计值,并生成待检测参数向量,包括:
l=2时,将所述组学成分矩阵X中编号为2的成分向量排在第一位,生成交替等距对数比转换模型y=Z (2) Γ (2) +e
运用统计学习机中偏最小二乘算法对y=Z (2) Γ (2)+e交替等距对数比转换模型进行求解运算,得到求解运算结果;
根据该求解运算结果进行相同的k折交叉检验,得到转化后预定参数向量Γ (2)的参数估计值,并记录所述参数估计值中第1个待检测参数
Figure 241539DEST_PATH_IMAGE002
,舍弃其他参数;
l依次等于3至D时,依次重复上述交替等距对数比转换模型的求解运算及k折交叉检验过程,获得所有待检测参数
Figure 261448DEST_PATH_IMAGE003
l=1, 2, ..., D
将所有D个待检参数组成如下待检测参数向量:
Figure 342667DEST_PATH_IMAGE004
2.根据权利要求1所述的方法,其特征在于,运用重抽样技术对所述待检测参数向量进行显著性统计检验,获取显著性统计检验结果,并根据所述显著性统计检验结果筛选出产品的特征品质成分,包括:
计算M次重抽样所有的所述待检测参数向量g中待检测参数
Figure 69315DEST_PATH_IMAGE005
的方差s l M>=200次,
Figure 92635DEST_PATH_IMAGE006
/s l 服从于标准正态分布N(0,1);
为提升本方法的灵敏度,令α adj =α/D,其中,α adj 为矫正显著水平,α为显著水平;
依照α adj 对待检测参数向量g中所有待检测参数进行显著性统计检验,筛选出通过显著性统计检验的待检测参数,确定产品的特征品质成分。
3.一种特征品质成分的识别系统,其特征在于,所述识别系统包括:
生成模块,用于基于品质组学成分表中包含的产品类别、品质成分检测结果信息,生成产品向量、组学成分矩阵和预定参数向量;
构建模块,用于根据所述产品向量、所述组学成分矩阵和所述预定参数向量,构建特征品质成分识别统计模型;
转换模块,用于对所述特征品质成分识别统计模型中组学成分矩阵的各个成分向量进行编号并排序,并对完成编号后的组学成分矩阵进行等距对数比转换,生成交替等距对数比转换模型;
估计模块,用于运用统计学习机获得交替等距对数比转换模型中排序第一的成分向量的参数估计值;
重复估计模块,用于按照所述各个成分向量的编号依次对组学成分矩阵的各个成分向量进行交替排序,重复所述交替等距对数比转换模型构建与排序第一的成分向量的参数估计过程,获得所有成分向量所对应的参数估计值,并生成待检测参数向量;
统计检验模块,用于运用重抽样技术对所述待检测参数向量进行显著性统计检验,获取显著性统计检验结果,并根据所述显著性统计检验结果筛选出产品的特征品质成分;
所述基于品质组学成分表中包含的产品类别、品质成分检测结果信息,生成产品向量、组学成分矩阵和预定参数向量,包括:
在品质组学成分表中获取产品类别、品质成分检测结果信息;
运用稳健极大似然估计法对所述品质成分检测结果信息中的未检出值用进行估计,得到未检出值估计值;
根据所述未检出值估计值对所述品质成分检测结果信息中的未检出值进行替换,生成组学成分矩阵及产品向量、预定参数向量;
所述根据所述产品向量、所述组学成分矩阵和所述预定参数向量,构建特征品质成分识别统计模型,具体包括:
利用SQL命令语句分别提取产品向量、组学成分矩阵和预定参数向量,构建特征品质成分识别统计模型:
y=XB+e
其中,y表示由产品分类信息组成的产品向量,X表示组学成分矩阵,B表示品种成分的预定参数向量,e表示误差向量;
所述对所述特征品质成分识别统计模型中组学成分矩阵的各个成分向量进行编号并排序,并对完成编号后的组学成分矩阵进行等距对数比转换,生成交替等距对数比转换模型,包括:
将所述组学成分矩阵X中所有成分向量按1到D进行编号,并对编号后的所有成分向量进行排序;
针对排序后所述组学成分矩阵X进行空间维度的等距对数比转换,得到交替等距对数比转换模型;
y=Z (l) Γ (l) +e
其中,y表示由产品类别组成的产品向量;Z (l)表示等距对数比转换后的组学成分矩阵;Γ (l)表示等距对数比应转换后对应的转化后的预定参数向量;e表示误差向量,l表示在组学成分矩阵X中,编号为l的成分向量排在第一位,l=1, 2, ..., D
所述运用统计学习机获得交替等距对数比转换模型中排序第一的成分向量的参数估计值,包括:
初始时,将组学成分矩阵X中的成分向量按1到D的排列顺序,令l=1,将第1列成分向量排在第一位,则生成交替等距对数比转换模型y=Z (1) Γ (1) +e
选择统计学习机中偏最小二乘算法对y=Z (1) Γ (1) +e交替等距对数比转换模型进行求解运算,得到求解运算结果;
根据该求解运算结果进行k折交叉检验,得到转化后预定参数向量Γ (1)的参数估计值,并记录所述参数估计值中第1个待检参数
Figure 599839DEST_PATH_IMAGE001
,舍弃其他待检测参数;
所述按照所述各个成分向量的编号依次对组学成分矩阵的各个成分向量进行交替排序,重复所述交替等距对数比转换模型构建与排序第一的成分向量的参数估计过程,获得所有成分向量所对应的参数估计值,并生成待检测参数向量,包括:
l=2时,将所述组学成分矩阵X中编号为2的成分向量排在第一位,生成交替等距对数比转换模型y=Z (2) Γ (2) +e
运用统计学习机中偏最小二乘算法对y=Z (2) Γ (2)+e交替等距对数比转换模型进行求解运算,得到求解运算结果;
根据该求解运算结果进行相同的k折交叉检验,得到转化后预定参数向量Γ (2)的参数估计值,并记录所述参数估计值中第1个待检测参数
Figure 78225DEST_PATH_IMAGE002
,舍弃其他参数;
l依次等于3至D时,依次重复上述交替等距对数比转换模型的求解运算及k折交叉检验过程,获得所有待检测参数
Figure 567369DEST_PATH_IMAGE003
l=1, 2, ..., D
将所有D个待检参数组成如下待检测参数向量:
Figure 168114DEST_PATH_IMAGE007
4.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至2中任一项所述方法的步骤。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至2任一项所述方法的步骤。
CN202211161366.8A 2022-09-23 2022-09-23 一种特征品质成分的识别方法、系统、设备及存储介质 Active CN115273987B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211161366.8A CN115273987B (zh) 2022-09-23 2022-09-23 一种特征品质成分的识别方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211161366.8A CN115273987B (zh) 2022-09-23 2022-09-23 一种特征品质成分的识别方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115273987A CN115273987A (zh) 2022-11-01
CN115273987B true CN115273987B (zh) 2023-01-20

Family

ID=83756686

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211161366.8A Active CN115273987B (zh) 2022-09-23 2022-09-23 一种特征品质成分的识别方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115273987B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111508565A (zh) * 2019-01-30 2020-08-07 布鲁克道尔顿有限公司 用于确定分析物中是否存在化学元素的质谱法
WO2021021735A1 (en) * 2019-07-30 2021-02-04 Children's Medical Center Corporation Methods and compositions for characterizing inflammatory bowel disease
CN113641960A (zh) * 2021-08-30 2021-11-12 北京航空航天大学 一种基于Givens变换的成分数据时间序列预测方法和系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11621055B2 (en) * 2017-09-14 2023-04-04 Psomagen, Inc. Microorganism-related significance index metrics
CN109657733B (zh) * 2018-12-28 2019-11-22 中国农业科学院农业质量标准与检测技术研究所 基于成分结构特征的品种鉴别方法与系统
US11164658B2 (en) * 2019-05-28 2021-11-02 International Business Machines Corporation Identifying salient features for instances of data
WO2022192854A1 (en) * 2021-03-09 2022-09-15 Baylor College Of Medicine Methods to induce biopterin and related metabolites
CN113254497A (zh) * 2021-05-19 2021-08-13 中国地质大学(北京) 一种基于地球化学成分数据的综合分析及异常提取方法
CN114530249A (zh) * 2022-02-15 2022-05-24 北京浩鼎瑞生物科技有限公司 一种基于肠道微生物的疾病风险评估模型构建方法及应用

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111508565A (zh) * 2019-01-30 2020-08-07 布鲁克道尔顿有限公司 用于确定分析物中是否存在化学元素的质谱法
WO2021021735A1 (en) * 2019-07-30 2021-02-04 Children's Medical Center Corporation Methods and compositions for characterizing inflammatory bowel disease
CN113641960A (zh) * 2021-08-30 2021-11-12 北京航空航天大学 一种基于Givens变换的成分数据时间序列预测方法和系统

Also Published As

Publication number Publication date
CN115273987A (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
Libungan et al. ShapeR: an R package to study otolith shape variation among fish populations
Garamszegi Uncertainties due to within-species variation in comparative studies: measurement errors and statistical weights
CN112288723A (zh) 缺陷检测方法、装置、计算机设备及存储介质
CN110687072B (zh) 一种基于光谱相似度的校正集和验证集的选择及建模方法
Dackermann et al. Identification of member connectivity and mass changes on a two-storey framed structure using frequency response functions and artificial neural networks
Liu et al. Detecting outliers in species distribution data
KR20160130422A (ko) 화물을 검사하는 방법 및 그 시스템
JP7063389B2 (ja) 処理装置、処理方法、およびプログラム
CN113053535B (zh) 一种医疗信息预测系统及医疗信息预测方法
CN112129741A (zh) 绝缘油老化分析方法、装置、计算机设备和存储介质
CN113807612A (zh) 一种基于心理量表数据的预测方法和装置
JP2018049004A5 (zh)
EP1845479B1 (fr) L&#39;analyse comparative d&#39;un échantillon par rapport à une base de données
Raies et al. In silico toxicology: comprehensive benchmarking of multi‐label classification methods applied to chemical toxicity data
Rodríguez et al. Fast and efficient food quality control using electronic noses: adulteration detection achieved by unfolded cluster analysis coupled with time-window selection
CN107480630B (zh) 一种利用遥感技术进行森林生态功能区划的方法
Jiang et al. A Bayesian modified Ising model for identifying spatially variable genes from spatial transcriptomics data
JP6884389B2 (ja) 解析装置、解析方法およびプログラム
CN115273987B (zh) 一种特征品质成分的识别方法、系统、设备及存储介质
Veenman et al. Bayesian hierarchical modeling: An introduction and reassessment
Guttmann et al. Cluster detection tests in spatial epidemiology: a global indicator for performance assessment
CN115760822B (zh) 一种图像质量检测模型建立方法及系统
Soomlek et al. Automatic human-like detection of code smells
CN110728315A (zh) 一种实时质量控制方法,系统和设备
CN115910320A (zh) 一种icu重症患者用的急性呼吸窘迫综合征预警系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant