CN111487384B

CN111487384B - 处理脂质含量模拟训练样品和预测掺合配方的方法和系统

Info

Publication number: CN111487384B
Application number: CN202010076889.7A
Authority: CN
Inventors: 林俊良
Original assignee: Wilmar International Ltd
Current assignee: Wilmar International Ltd
Priority date: 2019-01-28
Filing date: 2020-01-23
Publication date: 2023-05-02
Anticipated expiration: 2040-01-23
Also published as: EP3686596A2; SG10201900755WA; CN111487384A; EP3686596A3; WO2020159438A1

Abstract

根据实施方案，提供了用于处理至少一种油样品的脂质含量并模拟至少一种训练样品的方法。所述方法包括：接收与所述至少一种油样品的脂质含量相关的值的第一数据集；将多变量混合模型应用于所述值的第一数据集以模拟中间数据集；以及基于模拟的中间数据集的至少部分模拟至少一种训练样品。根据进一步的实施方案，还提供了一种用于预测掺合配方的方法。所述预测方法包括：接收与掺合油样品的脂质含量相关的值的数据集；以及使用能够生成掺合油样品中至少两种组分油的预测的单一预测模型来处理数据集。还描述了用于所述方法的系统。

Description

处理脂质含量模拟训练样品和预测掺合配方的方法和系统

技术领域

各种实施方案涉及用于处理至少一种油样品的脂质含量并模拟至少一种训练样品的方法，用于预测掺合配方的方法，以及用于鉴定盲油(blind oil)样品的方法及用于所述方法的设备或系统。

背景技术

基于脂质含量如脂肪酸谱(profile)定量预测掺合油比例是困难的任务。困难之处在于对可能的掺合配方的空间进行建模。现有技术中的方法集中于少量可能的组分油，从而所述空间大大减小。对于多于三种油的掺合配方，可能的组分油的组合呈指数增长。

定量建模需要对每组组分油配制物进行大量训练实例，增加了这一困难。另外的困难是，常规的建模技术，如偏最小二乘法(PLS1/PLS2)和线性回归(MLR)，受到信息的数据集大小的限制。建模所需的大量样品(如上所提及的)使得该任务在计算上非常昂贵，几乎不可能解决。

更大的(upscaling)困难在于，PLS1/PLS2和MLR依赖于可以在特征(脂肪酸含量)与掺合配方之间观察到线性关系的假设。现有方法可以表明，在具有少量组分油的掺合油的空间中，该线性关系可以成立。然而，对于涉及超过三种油的更复杂的掺合物，该假设可能是无效的。

已经公开了掺合油配方的预测。例如，已经探索了在预测芥末油、菜籽油和大豆油掺合物中的应用。与多达九种油类型可用于掺合配制物的实际工业场景相比，三元掺合体系要简单得多。

例如，在一份出版物中，公开了组分油的随机选取和从归一化的随机均匀分布选取的混合比例。该方法简单而直接。然而，如果组分油的样品量很大，那么随机选取可能不会考虑全部的纯组分油。此外，所得的混合比例可能不关于组分油对称。当考虑较少数量的组分时，这样的影响可能不非常明显。然而，当涉及大量的组分油时(例如，多达九种组分油掺合物)，这些影响不能被忽略。

在另一份出版物中，描述了使用PERT分布来模拟组分油和穷举混合比例。尽管探索了每种成分油的群体的样品，其因采样偏差而增加，但是如上所述，PERT分布采用单变量视图。这是因为，每种脂肪酸都是独立生成的，且不影响其它脂肪酸值。这并不代表其中需要考虑脂肪酸值之间的多变量方差(multivariate variance)的实际场景。使用混合比例的穷举的方法是相对受限的，因为其可能仅适用于具有少量组分油(例如，三元)的体系。

现有方法通过偏最小二乘法(PLS)或典型判别分析(CDA)推断掺合油FAC(脂肪酸含量)与掺合配方(混合比例)之间的线性关系。这些技术的共同之处在于，多变量特征和多变量响应的矩阵分解是以与目标响应的相关性最大化的方式进行的。

矩阵分解仅适用于少量组分油(例如，在三元体系中使用不超过三种油)。如前面所提及的，对于降维(reduced dimension)空间中明显不同的少量组分油，可以测试线性关系。如果要考虑较大量的组分油，那么该线性关系不成立的机会可能增加。此外，由于可能的混合比的组合的增加，基于矩阵分解的算法不能良好地扩展到(scale well to)增加数量的组分油。为了可能地降低复杂性，另一篇出版物建议将该问题改为表述成分类问题(定性)，即，仅鉴定掺合与否，或掺杂与否。

因此，需要处理油样品的脂质含量并模拟训练样品，以及用于定量预测掺合配方的方法和系统，从而设法解决(address)至少上文提到的问题，并为处理复杂掺合物和不明样品的特定工业需求做准备。

发明内容

根据实施方案，提供一种用于处理至少一种油样品的脂质含量并模拟至少一种训练样品的方法。所述方法可以包括：接收与所述至少一种油样品的脂质含量相关的值的第一数据集，其中所述至少一种油样品的脂质含量包括第一脂质含量和第二脂质含量；将多变量混合模型应用于值的第一数据集以模拟中间数据集，其中所述多变量混合模型至少能够解释(accounting for)与第一脂质含量相关的值和与第二脂质含量相关的值之间的多变量方差；以及基于模拟的中间数据集的至少部分来模拟所述至少一种训练样品，其中所述至少一种模拟的训练样品由与所述至少一种训练样品的脂质含量相关的值的第二数据集表示。

根据实施方案，提供一种用于预测掺合油样品的掺合配方的方法。所述方法包括：接收与掺合油样品的脂质含量相关的值的数据集；提供能够生成掺合油样品中至少两种组分油的预测的单一预测模型；以及使用所述单一预测模型处理所述数据集的至少部分，其中所述单一预测模型由训练数据集进行训练，其中所述训练数据集包括与通过根据多个实施方案的方法模拟的至少一种训练样品的脂质含量相关的值的第二数据集。

根据实施方案，提供一种用于鉴定盲油样品的方法。所述方法包括：接收与所述盲油样品的脂质含量相关的值的数据集；以及将包括多组脂质参数的多变量混合模型应用于所述值的数据集以鉴定所述盲油样品，其中所述多变量混合模型基于至少一种先前的油样品的脂质含量学习到所述多组脂质参数，其中所述至少一种先前的油样品的脂质含量包括第一脂质含量和第二脂质含量，并且其中所述多变量混合模型至少能够解释与所述第一脂质含量相关的值和与所述第二脂质含量相关的值之间的多变量方差。

根据实施方案，提供一种用于处理至少一种油样品的脂质含量以模拟至少一种掺合样品并确定所述至少一种掺合样品符合规定的要求的方法。所述方法包括：接收与所述至少一种油样品的脂质含量相关的值的第一数据集；基于所述第一数据集的至少部分模拟所述至少一种掺合样品，其中所述至少一种模拟的掺合样品由与所述至少一种模拟的掺合样品的脂质含量相关的值的第二数据集表示；以及确定每个模拟的掺合样品的所述第二数据集的每个值是否落在根据所述规定的要求预定的相应脂质含量的范围内，这样，如果确定为肯定的，则所述模拟的掺合样品符合所述规定的要求，以及如果确定为否定的，则所述模拟的掺合样品不符合所述规定的要求。

根据实施方案，提供一种计算机可读存储介质，其包括计算机可读指令，所述计算机可读指令在由计算机执行以处理至少一种油样品的脂质含量并模拟至少一种训练样品；和/或预测掺合油样品的掺合配方；和/或鉴定盲油样品；和/或处理至少一种油样品的脂质含量以模拟至少一种掺合样品并确定所述至少一种掺合样品符合规定的要求时，是可操作的。所述计算机可读指令可以被配置为进行根据多个实施方案所述的方法。

根据实施方案，提供一种设备或系统。所述设备或系统可以包括：接收单元，其配置为接收与至少一种油样品或掺合油样品或盲油样品的脂质含量相关的值的数据集；存储器，其用于至少存储多变量混合模型、单一预测模型以及概率分布模型，所述多变量混合模型至少能够解释所述至少一种油样品的脂质含量之间的多变量方差，所述单一预测模型能够生成所述掺合油样品的掺合配方的预测，所述概率分布模型能够基于所述数据集的至少部分来模拟掺合样品；以及处理器，其配置为访问所述多变量混合模型以进行根据多个实施方案的方法的步骤以处理至少一种油样品的脂质含量并模拟至少一种训练样品，或者进行根据多个实施方案的方法的步骤以鉴定所述盲油样品；访问存储在所述存储器中的所述单一预测模型以进行根据多个实施方案的方法的步骤以生成所述掺合油样品的掺合配方的预测；以及访问存储在所述存储器中的所述概率分布模型以进行根据多个实施方案的方法的步骤以处理所述至少一种油样品的脂质含量以模拟至少一种掺合样品并确定所述至少一种掺合样品符合规定的要求。

附图说明

在附图中，在不同的视图中，相同的附图标记通常指代相同的部分。附图不一定按比例绘制，而是通常将重点放在说明本发明的原理上。在以下描述中，参考以下附图描述了本发明的多个实施方案，其中：

图1A示出了说明根据多个实施方案的用于处理至少一种油样品的脂质含量并模拟至少一种训练样品的方法的流程图。

图1B示出了说明根据多个实施方案的用于预测掺合油样品的掺合配方的方法的流程图。

图1C示出了根据多个实施方案的用于处理至少一种油样品的脂质含量并模拟至少一种训练样品；以及用于预测掺合油样品的掺合配方的设备或系统的示意图。

图2A示出了说明对形状参数具有约束的高斯混合模型的多种示例性构型的图形表示(摘自Scurucca等，mclust 5:Clustering,Classification and Density EstimationUsing Gaussian Finite Mixture Models,The R Journal Vol.8/1，2016年8月)。

图2B示出了涉及两种纯油样品的简化的假设实例的几何表示，每个具有两种脂肪酸含量作为变量。

图2C示出了说明基于脂肪酸含量的在隐空间中的9种原始油类型的簇(clusters)的图形表示。

图2D示出了说明由高斯混合模型基于脂肪酸含量(FAC)鉴定的12组油的簇的图形表示。

图2E示出了基于三酰基甘油酯(TAG)含量对5种原始油类型(原始标签)进行成簇的实例的图形表示。

图2F示出了说明由高斯混合模型基于三酰基甘油酯(TAG)含量鉴定的5组油的簇的图形表示。

图2G示出了说明根据一个实施方案的来自线性变换空间中的高斯混合模型的纯油的真实数据和模拟数据的图形表示。

图2H示出了说明根据一个实施方案的来自非线性变换空间中的高斯混合模型的纯油的真实数据和模拟数据的图形表示。

图3A示出了如现有方法所提供的使用三种油类型(A、B、C)进行掺合并说明从归一化的随机均匀分布进行提取的简化图形表示。

图3B示出了根据一个实施方案的使用与图3A中相同的三种油类型(A、B、C)进行掺合并说明从狄利克雷分布(Dirichlet distribution)进行提取的简化图形表示。

图4A示出了描绘如现有方法所提供的从均匀分布归一化的9种混合比例的箱形图。

图4B示出了描绘根据一个实施方案的来自狄利克雷分布的9种混合比例的箱形图。

图5示出了根据多个实施方案的深度学习模型的示意图。

图6A示出了表示9种组分油的最终PLS结果的图表。

图6B示出了表示根据一个实施方案的相同的9种组分油的最终深度学习结果的图表。

发明详述

以下详细描述涉及附图，所述附图通过说明的方式示出了可以实施本发明的具体细节和实施方案。足够详细地描述这些实施方案，以使本领域技术人员能够实施本发明。在不脱离本发明范围的情况下，可以利用其它实施方案，并且可以进行结构、逻辑和电气方面的改变。多个实施方案不一定相互排斥，因为一些实施方案可以与一个或多个其它实施方案组合以形成新的实施方案。

在所述方法或装置/设备之一的上下文中描述的实施方案对于其它方法或装置/设备类似地有效。相似地，在方法的上下文中描述的实施方案对于装置类似地有效，反之亦然。

在实施方案的上下文中描述的特征可以相应地适用于其它实施方案中相同或相似的特征。在实施方案的上下文中描述的特征可以相应地适用于其它实施方案，即便在这些其它实施方案中没有明确地描述也是如此。此外，对于在实施方案的上下文中的特征描述的添加和/或组合和/或替换可以相应地适用于其它实施方案中的相同或相似特征。

在多个实施方案的上下文中，关于特征或要素使用的冠词“一(a)”、“一(an)”和“所述”包括对一个或多个所述特征或要素的引用。

在多个实施方案的上下文中，短语“基本上”可以包括“精确地”和合理的偏差。

在多个实施方案的上下文中，应用于数值的术语“约”或“近似”包括精确值和合理的偏差。

如本文所使用的，术语“和/或”包括相关的列出项目的一个或多个的任意和所有组合。

如本文所使用的，“A或B中的至少一个”的形式的短语可以包括A或B，或者A和B两者。相应地，“A或B或C中的至少一个”的形式或包括进一步列出的项目的短语，可以包括相关的列出项目的一个或多个的任意和所有组合。

多个实施方案可以提供模拟的掺合油脂肪酸含量(FAC)，用于进行掺合油组分和掺合配方的建模和预测。

多个实施方案可以提供整合多种机器学习技术(包括高斯混合模型和深度学习)的应用程序，以构建能够预测多达九种油类型的油掺合物的模型。

多个实施方案可以为大量的组分油(例如，多于三种的组分油)提供计算机内掺合油FAC模拟和掺合油配制物的检测。

计算机内掺合油FAC模拟可以被认为是组分油比例的加权和，并且通常包括两个步骤：(i)确定组分油的选择和(ii)确定混合比例。

多个实施方案可以使用从高斯混合模型中学习到的参数和从狄利克雷分布中提取的混合比例来提供组分油的蒙特卡罗模拟(Monte Carlo simulation)。该方法考虑多变量视图。

关于掺合油配制物的检测，深度学习可用于解决或至少设法解决由掺合油FAC与掺合配方之间的线性关系推断出的问题。例如，深度学习能够对非线性关系进行建模。换言之，深度学习模型可以很好地处理数据中的非线性结构。

进一步，深度学习基于正向传播和反向传播，而不是矩阵分解。由于深度学习是在批量数据上训练的，该方法能够随着训练实例的组合增加而扩展良好。

图1A示出了说明根据多个实施方案的用于处理至少一种油样品的脂质含量并模拟至少一种训练样品的方法100的流程图。在图1A中，在步骤102，接收与至少一种油样品的脂质含量相关的值的第一数据集。所述油样品的脂质含量可以包括第一脂质含量和第二脂质含量。在步骤104，将多变量混合模型应用于所述值的第一数据集以模拟中间数据集。所述多变量混合模型至少能够解释与第一脂质含量相关的值和与第二脂质含量相关的值之间的多变量方差。与第一脂质含量和第二脂质含量有关的术语“第一”和“第二”仅指一种脂质含量不同于另一种脂质含量。在这种情况下，术语“第一”和“第二”不是指列表中任何特定顺序的要素。例如，脂质含量可以包括C8:0、C10:1、C12:0、C12:1、C14:2、C14:1、C16:1、C18:1、C18:2、C18:3、C20:4、C20:5、C22:1、C22:6等的脂肪酸含量。因此，如果第一脂质含量是指C16:1的脂肪酸含量，那么第二脂质含量可以指除C16:1之外的任何碳键的脂肪酸含量。在步骤106，基于模拟的中间数据集的至少部分模拟至少一种训练样品。所述至少一种模拟的训练样品由与所述至少一种模拟的训练样品的脂质含量相关的值的第二数据集表示。

在多个实施方案的上下文中，术语“处理(processed)”或“处理(processing)”可以指分析，或者数学或计算评估。

处理脂质含量包括处理包括或含有脂质含量的数据。

方法100可以是处理至少一种油样品的脂质含量并模拟至少一种训练样品的方法，所述至少一种训练样品用于训练预测掺合配方的预测模型，例如，预测掺合油样品中的至少两种组分油。

在多个实施方案中，多变量混合模型可以包括高斯混合模型或多变量高斯混合模型。多变量混合模型可以生成具有多变量视图的概率分布(子群体)。例如，多变量混合模型可以由几何特征构建和约束。所述几何特征可以包括具有相等体积和相等形状的对角分布或椭圆形分布。其它几何特征可以包括具有不相等体积和相等形状；或者不相等的体积和不相等的形状；或者相等的体积和不相等的形状的对角分布或椭圆形分布。

在多个实施方案中，在104将多变量混合模型应用于所述值的第一数据集的步骤可以包括：从所述值的第一数据集学习到多组脂质参数；以及基于所述多组脂质参数模拟中间数据集。

换言之，当将多变量混合模型用于分析所述至少一种油样品(其可以是已知样品)的脂质含量时，可以通过多变量混合模型学习到或生成每组脂质参数。例如，所述至少一种油样品可以包括纯油样品。在其它实例中，所述至少一种油样品也可以包括油掺合物。

每组脂质参数可以包括表示所述至少一种油样品的可能脂质百分比的平均(平均)值的向量和表示所述至少一种油样品的可能脂质百分比之内和两端间的广度(spread)的协方差矩阵。

在多个实施方案中，模拟至少一种训练样样品的步骤106可以包括进行蒙特卡罗模拟。所述模拟可以用于从概率分布生成提取(draw)，从而得出组分油的类型。

换言之，模拟至少一种训练样品的步骤106可以包括从模拟的中间数据集的至少部分选择，并从概率分布提取混合比例，以获得至少一种模拟的训练样品。例如，概率分布可以包括狄利克雷分布。

在多个实施方案中，狄利克雷分布可以包括对称或非对称特性。在一个实施方案中，狄利克雷分布的使用消除了采样偏差，因为狄利克雷分布能够以在所有组分油之间对称的方式进行采样。

狄利克雷分布的维数可以由来自模拟的中间数据集的组分油的数量决定。

例如，狄利克雷分布的维数可以大于或等于2。

在多个实施方案中，维数可以是3、4、或5、或6、或7、或8、或9、或更多。

应当理解，其它概率分布，例如，归一化的均匀分布、正态分布或任何其它的连续分布，也可以以不同的效果和效率应用于训练数据集，所述训练数据集包括至少一种模拟的训练样品。在一个实例中，通过选择从归一化的均匀分布确定的混合比例，可能导致需要更多数量的训练样品来训练单一预测模型以预测掺合配方。

在多个实施方案中，油样品的脂质含量可以包括使用气相色谱-火焰离子化检测器(GC-FID)或光子检测可获得的油样品的脂肪酸含量。例如，光子检测可以包括表面增强的拉曼光谱(SERS)。还应当理解，可以考虑其它脂质含量，例如，包括但不限于三酰基甘油酯(TAG)含量。

多个实施方案可以提供用于鉴定盲油样品的方法。所述方法可以包括：接收与盲油样品的脂质含量相关的值的数据集；以及将包括多组脂质参数的多变量混合模型应用于所述值的数据集以鉴定所述盲油样品。所述多组脂质参数可以通过多变量混合模型基于至少一种先前的油样品的脂质含量学习到。所述至少一种先前的油样品的脂质含量可以包括第一脂质含量和第二脂质含量，所述多变量混合模型至少能够解释与第一脂质含量相关的值和与第二脂质含量相关的值之间的多变量方差。这里的多变量混合模型可以在与图1A的步骤104中描述的多变量混合模型相似的上下文中进行描述。所述至少一种先前的油样品可以包括已知的纯油或掺合物样品。在多个实施方案的上下文中，用于鉴定盲油样品的方法也可以指对盲油样品进行分类的方法。

图1B示出了说明根据多个实施方案的用于预测掺合油样品的掺合配方的方法120的流程图。在图1B中，在步骤122，接收与掺合油样品的脂质含量相关的值的数据集。在步骤124，提供能够生成掺合油样品中至少两种组分油的预测的单一预测模型。在步骤126，使用所述单一预测模型处理所述数据集的至少部分。所述单一预测模型可以由训练数据集进行训练，其中所述训练数据集可以包括与由图1A的方法100模拟的至少一种训练样品的脂质含量相关的值的第二数据集。当训练所述单一预测模型时，所述训练数据集可以进一步包括与已知的油掺合物的脂质含量相关的值的数据集。换言之，所述训练数据集可以涉及已知的油掺合物的脂质含量，以及从图1A的方法100可获得的至少一种模拟的训练样品的脂质含量。在一个示例中，步骤122的接收的值的数据集可以包括与由图1A的方法100模拟的至少一个训练样品的脂质含量相关联的值的第二数据集的至少一部分。所述至少一种模拟的训练样品可以包括一种或多种模拟的组分油，或一种或多种模拟的掺合油，或其混合物。另一方面，当将训练的单一预测模型用于盲法测试时，掺合油样品是盲样品。单一预测模型也可以从盲法测试的结果中学习到，以用于进一步训练。

多个实施方案可以在一个单一模型中提供对多个定量组分油的结果建模。这有利地消除了在现有方法中(例如，在执行PLS1时)使用多个模型和人工解释中间结果。

单一预测模型可以是线性模型。例如，可以使用PLS2实现两个变量的定量预测。通常，与PLS1相比，PLS2可以实现通常不需要确证的结果预测，并且可以更容易地解释。

在一个实施方案中，所述单一预测模型可以是非线性模型。所述单一预测模型可以包括深度神经网络(DNN)。所述DNN可以在输入层与输出层之间具有多个层。所述DNN可以是前馈网络，其中数据从输入层流向输出层，而不回送。输入层可以接收一个或多个输入。输出层可以提供一个或多个输出。例如，可以监督所述深度神经网络。

单一预测模型可用于对复杂性状和掺合物建模。认为这些性状导致数据(脂质含量，例如，脂肪酸含量)具有非线性结构。深度学习模型旨在发现非线性模式，从而为分析和评估数据的非线性提供非常好且有用的工具。

在多个实施方案中，单一预测模型可以由特征的矩阵构建或者由特征的矩阵训练。例如，每个特征可以对应于掺合油样品的每个脂质含量或训练数据集的每个脂质含量。

在多个实施方案中，掺合油样品可以包括选自以下的纯油的混合物：花生油样品、橄榄油样品、玉米油样品、椰子油样品、棉籽油样品、棕榈油样品、芥花油样品、红花油样品、芝麻油样品、大豆油样品、葵花油样品、山茶籽油样品、胡麻籽(亚麻籽)油样品以及具有相对较高比例的某些脂肪酸的油样品，例如，高芥酸菜籽油、低芥酸菜籽油或高油酸葵花油。

在多个实施方案中，方法120可以进一步包括预测掺合油样品中的至少两种组分油。可以在步骤126中使用单一预测模型处理数据集的至少一部分的步骤之后执行生成混合油样品中的至少两种组分油的预测的步骤。换言之，所述单一预测模型的输出层可以提供至少两种组分油或变量的多个输出。例如，方法120可以包括生成掺合油样品中九种组分油的预测。

在多个实施方案的上下文中，术语“生成”可以意指“确定”。

所述至少两种组分油的预测可以基本上同时生成。不需要数据的进一步确证和人为干预。

所述预测可以包括所述至少两种组分油中的每一种的至少类型或百分比量。

多个实施方案可以提供一种用于处理至少一种油样品的脂质含量以模拟至少一种掺合样品并确定所述至少一种掺合样品符合规定的要求的方法。所述方法可以包括：接收与至少一种油样品的脂质含量相关的值的第一数据集；基于所述第一数据集的至少部分模拟所述至少一种掺合样品，其中所述至少一种模拟的掺合样品由与所述至少一种模拟的掺合样品的脂质含量相关的值的第二数据集表示；以及确定每个模拟的掺合样品的所述第二数据集的每个值是否落在根据所述规定的要求预定的相应脂质含量的范围内，这样如果确定为肯定的，则所述模拟的掺合样品符合所述规定的要求，以及如果确定为否定的，则所述模拟的掺合样品不符合所述规定的要求。

在多个实施方案中，模拟至少一种掺合样品的步骤可以包括从第一数据集的至少部分中选择，并从概率分布中提取混合比例，以获得所述至少一种模拟的掺合样品。所述概率分布可以如上所述。例如，模拟至少一种掺合样品的步骤可以包括从第一数据集的至少部分中选择，并从概率分布中提取多个混合比例，以获得多个模拟的掺合样品；并且其中在概率分布的最大值与最小值之间的范围内，每个混合比例不同于另一个混合比例。

在多个实施方案中，所述规定的要求可以包括在中国实施的油掺合物的国家标准。应当理解，也可以考虑其它国家标准。

虽然以上所述方法的每一种都被说明和描述为一系列步骤或事件，但是应当理解，这样的步骤或事件的任何顺序都不作限制性解释。例如，一些步骤可以以不同的顺序发生和/或与除了本文说明和/或描述的步骤或事件之外的其它步骤或事件同时发生。此外，可能不需要所有说明的步骤来实施本文所述的一个或多个方面或实施方案。此外，本文所描绘的步骤的一个或多个可以在一个或多个单独的动作和/或阶段中进行。

多个实施方案进一步提供一种计算机可读存储介质，包括计算机可读指令，在由计算机执行以处理油样品的脂质含量并模拟训练样品，和/或预测掺合油样品的掺合配方，和/或鉴定盲油样品；和/或处理至少一种油样品的脂质含量以模拟至少一种掺合样品并确定所述至少一种掺合样品符合规定的要求时，所述计算机可读指令是可操作的。根据多个实施方案，计算机可读指令可以被配置为进行方法100和/或方法120；和/或鉴定盲油样品的方法；和/或处理至少一种油样品的脂质含量以模拟至少一种掺合样品并确定所述至少一种掺合样品符合规定的要求的方法，如上所述。

图1C示出了根据多个实施方案的设备或系统140的示意图，所述设备或系统140用于处理至少一种油样品的脂质含量并模拟至少一种训练样品，和/或用于预测掺合油样品的掺合配方；和/或鉴定盲油样品；和/或处理至少一种油样品的脂质含量以模拟至少一种掺合样品并确定所述至少一种掺合样品符合规定的要求。在图1C中，根据多个实施方案，设备或系统140包括：接收单元142，其配置为接收与至少一种油样品或掺合油样品或盲油样品的脂质含量相关的值的数据集；存储器144，其用于至少存储多变量混合模型、单一预测模型以及概率分布模型，所述多变量混合模型至少能够解释至少一种油样品的脂质含量之间的多变量方差，所述单一预测模型能够生成掺合油样品的掺合配方的预测，所述概率分布模型能够基于数据集的至少部分模拟掺合样品；以及处理器146，其配置为访问存储在存储器144中的多变量混合模型和单一预测模型，以分别进行方法100(图1A)的步骤或鉴定盲油样品的方法的步骤，以及方法120(图1B)的步骤，以分别处理至少一种油样品的脂质含量并模拟至少一种训练样品，或者鉴定盲油样品，以及生成掺合油样品的掺合配方的预测。根据多个实施方案，处理器146可以进一步被配置为访问存储在存储器中的概率分布模型，以进行处理至少一种油样品的脂质含量以模拟至少一种掺合样品并确定所述至少一种掺合样品符合规定的要求的方法的步骤。接收单元142、存储器144和处理器146可以彼此通信，如线148、150所示。通信可以是双向的。

设备或系统140可以包括与在图1A的方法100和/或图1B的方法120中描述的那些相同或相似的元件或部件，因此，相似的元件可以与在图1A的方法100和/或图1B的方法120的上下文中描述的一样，因此这里省略了相应的描述。

在一个方面，多个实施方案可以以机器学习技术的组合的应用的形式来描述，即：(a)高斯混合模型，用以推导出纯组分油的脂肪酸参数，(b)蒙特卡罗模拟，用以从以上(a)中学习的参数生成新的样品，具体地使用从狄利克雷分布中提取的混合比例，以及(c)使用深度学习来预测掺合配制物的定量测量。

将关于纯油类型(例如，九种纯油类型)的脂肪酸含量特征的多种机器学习技术进行组合，能够定量预测油混合物。

由方法100、120和设备或系统140提供的优点可以包括以下：

·对多变量高斯混合模型进行建模，以分离与每种油类型的多变量分布的形状和广度相关的脂肪酸参数。在这样做时，可以对纯油进行均匀的或基本上均匀的采样以代表群体。换言之，这些参数还可用于推断预测未知纯油的身份。

·使用狄利克雷分布模拟大而复杂的掺合物混合比例，从而确保所得掺合混合物的对称性质。

·使用解释数据中的非线性关系的深度学习对复杂掺合物进行建模。

以下将以实验的形式描述实施例，进行所述实验以提供对方法100、120和设备或系统140的更好理解。

样品

使用GC-FID对包括9种油类型的总共19,765种样品的脂肪酸含量进行打谱(profiled)。

多变量高斯混合模型

通过以下几何特征构建并约束多变量高斯混合模型：对角分布，相等的体积和形状。

图2A示出了说明高斯混合模型的多种示例性构型的图形表示，所述高斯混合模型对三个簇的形状参数具有约束。下文所述的实施例基于所述构型之一的类似上下文(例如，EEI的图形表示)。应当理解，根据其它实施方案，也可以将其它构型应用于约束高斯混合模型。

基于所述构型，可以确定多组脂肪酸参数。每组脂肪酸参数可以包括表示可能的脂肪酸百分比的平均(平均)值的向量和表示可能的脂肪酸百分比之内和两端间的广度的协方差矩阵。仅出于说明以使得能够更好地理解所述多组脂肪酸参数的确定的目的，图2B示出了涉及两种纯油样品(P1,P2)的简化假设实例的几何表示，其中每种样品具有两个脂肪酸含量作为变量(C_x,C_y)，并且其中采用了图2A的EEI构型。在图2B中，用于P₁的那组脂肪酸参数包括向量(μ_Cx,P1,μ_Cy,P1)和协方差矩阵

而用于P₂的那组脂肪酸参数包括向量(μ_Cx,P2,μ_Cy,P2)和协方差矩阵

将所得的学习到的模型参数(在这种情况下为脂肪酸参数)用于验证纯油的身份，并模拟新样品以降低数据集的复杂性。通过模型鉴定了十二(12)组油，其中每组含有>99％的9种原始油类型中的每一种。这意味着一些油类型被分解为更小的亚组，但鉴定准确度仍>99％，如表1所示，表1总结了基于脂肪酸含量(FAC)获得的结果。

表1

表1中的上标a至m对应于图2D中具有相应标签a至m的点。

在下表3中解释了表1中所示的缩写的油类型。

图2C示出了说明隐空间中的9种原始油类型的簇的表1的图形表示，其中x轴和y轴表示任意值。图2D示出了说明由高斯混合模型鉴定的12组油的簇的表1的图形表示，其中x轴和y轴表示任意值。从这些图形表示中，观察到高斯混合模型以相当高水平的准确度鉴定纯油。

可以将类似的方法应用于TAG(代替如上所述的脂肪酸)。在这种情况下，所得的学习到的模型参数(例如，TAG参数)可用于验证纯油的身份。图2E示出了基于TAG将5种原始油类型成簇的实施例的图形表示，其中x₁和x₂轴表示任意值。图2F示出了说明由高斯混合模型基于TAG鉴定的5组油的簇的图形表示，其中x₁和x₂轴表示任意值。高斯混合模型能够基于TAG鉴定纯油。表2总结了基于TAG获得的结果。

表2

表2中的上标a至h：对应于图2F中具有相应标签a至h的点。

现在回到FAC，将原始的和模拟的纯油样品变换成降维的空间，以观察FAC特征能多好地分离纯油。

应用两个不同的空间，即线性变换的空间和非线性变换的空间来说明对比效果。

图2G示出了说明来自线性变换空间中的高斯混合模型(基于FAC)的纯油的真实数据和模拟数据的图形表示。如下表3所述，在2016年1月至2017年12月期间，在中国市场上从不同生产商和供应商处商购了9种原始油类型。

表3

油类型	油缩写
		CO	玉米油
SBO	大豆油
		PNO	花生油
LNO	胡麻籽油
		RBO	米糠油
LERSO	低芥酸菜籽油
		HERSO	高芥酸菜子油
SSO	芝麻油
		SFO	葵花油

在线性变换(PLS)空间中，图2G描绘了9种油中只有4组被分离出来。在这四种油组的掺合物中可能存在任何线性关系(如现有方法中所指出的)。其它重叠样品表明，这些样品的其它掺合物之间不太可能存在线性关系。

图2H示出了说明来自非线性变换空间(例如，在t分布随机邻域嵌入(t-SNE)空间中)的高斯混合模型的纯油的真实数据和模拟数据的图形表示。探索了相同的9种原始油类型。

在非线性变换的(t-SNE)空间中，图2H描绘了所有的油类型被清楚地分离。在线性变换(PLS)与非线性变换(t-SNE)之间观察到的差异进一步支持对于复杂的掺合物，可能需要非线性模型。

蒙特卡罗模拟

使用如上所提及的模拟的纯油，进行掺合油脂肪酸含量的另外模拟。这通过以下完成：首先，从9种纯油中选择组分油，给出2⁹-9＝493种组合；第二，从9维狄利克雷分布提取随机数。对于493种组合和9种纯油(总共512种选择)中的每一种，提取了100,000种混合比例，从而得出总共约4,900万种模拟的掺合物。可能需要这样大的数量来充分表示掺合物的空间，所述掺合物的空间是由从群体中采样的代表性纯油构建的。由于对称特性，从狄利克雷分布中提取的方法是重要的，否则其无法由现有方法中描述的程序完成。这可以通过如图3A和3B所示的简化实施例来证明。

图3A示出了由现有方法提供的使用三种油类型(A、B、C)进行掺合并说明从归一化的随机均匀分布中进行提取的简化图形表示。图3B示出了根据一个实施方案的使用相同的三种油类型(A、B、C)进行掺合并说明从狄利克雷分布进行提取的简化图形表示。从图3A观察到，分布点向着三角形表示的形心聚集。同时，图3B中的分布点显示为基本上均匀地散布在三角形表示中，从而证明了在狄利克雷分布中观察到的对称特性和掺合配方的对称性。图3B中的三角形表示中的每个点代表总和为100％的三个值，其中每个值与每种油类型(A、B、C)相关。

当考虑更大数量的组成油例如9种油类型时，狄利克雷分布中的对称特性可能更加显著。

虽然将狄利克雷分布的对称性质用于本文所述的实施例，但是狄利克雷分布的不对称性质也可以用于其它实施方案中。

图4A示出了描绘由现有方法提供的从均匀分布归一化的9种混合比例的箱形图。图4B示出了描绘根据一个实施方案的来自狄利克雷分布的9种混合比例的箱形图。应当注意，9种油中的两种(如表2所示)，更具体地，高芥酸菜籽油和低芥酸菜籽油被共同表示为菜籽油，从而在各个箱形图中产生8个离散变量。

从图4A可以观察到，尽管每个变量(油类型)的平均值为约0.13的归一化值，但是一个变量的下四分位数和上四分位数与另一个变量不同。一个变量的须(whisker)外部的数据点也与另一个变量不同。同时，图4B示出了每个变量(油类型)具有基本相似的平均值、下四分位数、上四分位数以及各个须外部的数据点，从而更清楚地证明了当使用大量油类型时狄利克雷分布中的对称特性。

上述模拟提供了为建模而创建的数据集，所述数据集包括模拟的掺合油和纯油样品。

深度学习模型

深度学习用于对如上所述通过模拟生成的FAC与混合比例(包括纯油)之间的关系进行建模。所述模型可以包括多个层，且每一层都与数学运算相关联。所述模型发现了正确的数学运算来将输入(例如，含有模拟的油掺合物和纯油的脂肪酸含量的数据)转换成输出。所述模型可以通过用计算输出的概率来检查(go through)所述层而鉴定正确的数学运算。

在简单的形式中，对于数学运算，每个深度学习模型包括特征(f₁至f_X)的矩阵，每个特征由权重来运算。权重可以表示对输出的影响水平，或者可以与对输出的影响水平相关。所述特征可以对应于与模拟的油掺合物和纯油的脂肪酸含量相关的值。应当理解，也可以考虑本文没有提到的其它特征。

更具体地，深度学习模型，或者可互换地称为深度神经网络，接受数据作为输入。每个神经网络层由一些节点表示，用随机权重初始化。通过正向传播过程，数据输入和与节点相关的权重相乘而流经该网络。合适的激活函数转换该结果，使得可以对非线性进行建模。所述激活函数可以是sigmoid函数或tanh函数。该过程可以在网络中的多个层上重复，直到最终到达输出层，其中累计结果以表示油及其掺杂物的定量比例。图5示出了根据多个实施方案的深度学习模型500的示意图。在图5中，输入(i_m)502包括m个数量的特征，例如，与用于建模的模拟的油掺合物和纯油的脂肪酸含量相关的值。隐藏节点(h_r,k)504的大小为r和k，表示隐藏节点504的深度和宽度。每个隐藏节点504(如虚线区域506中展开和描绘的)计算由Σ508表示的权重(w)之和，并应用激活函数(f)510来估计数据中的非线性关系。输出(o_s)包括用于估计每种组分油的类型和量的s个数量的输出。输出的初始估计通常具有大的误差，因为网络500的节点(例如，504)被初始分配随机权重。反向传播算法重新调整这些权重(w)，从而可以减少输出512中的误差。该正向传播和反向传播的迭代过程改变深度神经网络500中的权重(w)，直到误差足够小，或者如果误差已经停止减小。为了防止数据的过度拟合，通常可以为正向传播保存一组维持(hold-out)数据，以基本上同时检查未在深度神经网络500上训练的独立数据集上的误差是否也具有足够小的误差。

PLS模型

PLS模型是线性模型。例如，PLS2对应于有若干因变量的情况。这不同于PLS1，PLS1对应于只有一个因变量的情况。对于PLS1，将特征X投射到隐变量空间T和一个因变量y中。对于PLS2，特征X和因变量Y二者都是矩阵，并且都被投射到隐变量空间T和U中，其中回归模型可用于确保协方差最大化。

实验

深度学习模型和PLS模型中的每一种都通过交叉验证进行训练，并通过划分90％的数据用于训练和10％的样品用于盲法测试来进行。

图6A示出了表示9种组分油的最终PLS结果的图表。图6B示出了表示相同的9种组分油的最终深度学习结果的图表。

将来自两个模型的最终结果进行相互比较，以反映准确度的对比。

从最终PLS结果可以看出，一些样品的预测可能不能正确反映实际百分比。这可能会在掺合油样品中组分油的类型和数量的预测中造成一些不确定性。换言之，大量的掺合实例可能会使现有方法中所述的依赖于线性矩阵分解的方法无效。然而，PLS模型可能适用于其中组分油的数量相对较少(例如<3)且不同组分油的区别不重要的掺合油样品。

相比之下，图6B示出了使用深度学习模型在整个归一化范围内接近实际值的基本一致的预测值。

根据最终结果，深度学习模型能够以较高的准确度定量预测掺合的混合。均方根误差(RMSE)为0.02，相比之下，PLS的RMSE为0.11。

在另一方面，多个实施方案可以提供一种方法，所述方法涉及用于检查国家标准的模拟的掺合油脂质含量。例如，中国的掺合油国家标准要求脂质含量满足一定的范围，并且没有已知的无计算方法来对照该标准进行检查。可以从组分油推断掺合油的脂质含量，所述推断通过计算组分油的脂质含量的线性组合进行，例如，C14_掺合物＝比值1*C14_组分1+比值2*C14_组分2。同样的概念可以应用于推断其它脂质含量，如饱和脂肪酸(SFA)、不饱和脂肪酸(USFA)、多不饱和脂肪酸(PUFA)、ω3(n3)和ω6(n6)。换言之，可以将该总和(线性组合)用作检查步骤。然而，在上文提及的线性组合中，推断的掺合油脂质含量很少满足该等式。

所述概率分布可以是狄利克雷分布，并可用于模拟可能的混合比例和计算相应的掺合油脂质含量。由于国家标准(NS)是为了确保SFA、USFA、PUFA、n3和n6在一定范围内，所以可以检查模拟的脂质含量，以找到接近推断的混合比例的混合比。如果指定范围内没有可能的混合比例，那么所述计算方法可以确定推断的混合比例不应该用于混合。

为了说明的目的，这里将描述对由P1和P2表示的两种组分油使用三种脂质含量(SFA、USFA、PUFA)的实施例，以便能够更好地理解该方面。

输入(第一)数据集可以表示为：

假设两种可能的混合比例，如(M1，M2)和(M3，M4)所示，则以下两种模拟的掺合物可以是:

和

如果满足下式，则(M1，M2)可用于掺合：

其中，根据国家标准，SFA_NS±Range_SFA是SFA的特定范围，USFA_NS±Range_USFA是USFA的特定范围，并且PSFA_NS±Range_PSFA是PSFA的特定范围。

否则，(M1，M2)不应该用于掺合。

类似地，如果满足下式，则(M3，M4)可用于掺合，

否则，(M3，M4)不应该用于掺合。

尽管上文在FAC的上下文中解释了从狄利克雷分布的选择和深度学习模型的应用，但是应当领会和理解，类似的选择步骤和深度学习模型可以应用于TAG以鉴定油的组。

虽然已经参照具体实施方案具体地示出和描述了本发明，但是本领域技术人员应当理解，在不脱离由所附权利要求限定的本发明的精神和范围的情况下，可以在其中进行形式和细节上的多种改变。因此，本发明的范围由所附权利要求指定，并且因此，旨在包括落入权利要求的等同含义和范围内的所有改变。

Claims

1.一种用于处理至少一种油样品的脂质含量并模拟至少一种训练样品用于训练预测掺合配方的预测模型的方法，所述方法包括：

接收与所述至少一种油样品的脂质含量相关的值的第一数据集，其中所述至少一种油样品的脂质含量包括第一脂质含量和第二脂质含量；

将多变量混合模型应用于所述值的第一数据集以模拟中间数据集，其中所述多变量混合模型至少能够解释与所述第一脂质含量相关的值和与所述第二脂质含量相关的值之间的多变量方差；以及

基于模拟的中间数据集的至少部分来模拟所述至少一种训练样品，其中所述至少一种模拟的训练样品由与所述至少一种模拟的训练样品的脂质含量相关的值的第二数据集表示，以及

所述至少一种模拟的训练样品包括一或多种模拟的组分油，或一或多种模拟的掺合油，或其混合物。

2.权利要求1的方法，其中所述多变量混合模型包括高斯混合模型或多变量高斯混合模型。

3.权利要求1或2的方法，其中所述多变量混合模型由几何特征构建和约束。

4.权利要求3的方法，其中所述几何特征包括具有相等体积和相等形状的对角分布。

5.权利要求1或2的方法，其中将所述多变量混合模型应用于所述值的第一数据集的步骤包括：

从所述值的第一数据集学习到多组脂质参数；以及

基于所述多组脂质参数模拟所述中间数据集。

6.权利要求5的方法，其中每组脂质参数包括表示可能脂质百分比的平均值的向量和表示所述可能脂质百分比之内和两端间的广度的协方差矩阵。

7.权利要求1或2的方法，其中所述至少一种油样品包括纯油样品。

8.权利要求5的方法，其中模拟所述至少一种训练样品的步骤包括进行蒙特卡罗模拟。

9.权利要求5的方法，其中模拟所述至少一种训练样品的步骤包括：

从所述模拟的中间数据集的至少部分选择，并从概率分布中提取混合比例，以获得所述至少一种模拟的训练样品。

10.权利要求9的方法，其中所述概率分布包括狄利克雷分布。

11.权利要求10的方法，其中所述狄利克雷分布的维数大于或等于2。

12.权利要求10或11的方法，其中所述狄利克雷分布的维数为9或更大。

13.权利要求1或2的方法，其中所述油样品的脂质含量包括使用气相色谱-火焰离子化检测器或光子检测可获得的所述油样品的脂肪酸含量。

14.权利要求1或2的方法，其中所述油样品的脂质含量包括三酰基甘油酯(TAG)含量。

15.一种用于预测掺合油样品的掺合配方的方法，所述方法包括：

接收与所述掺合油样品的脂质含量相关的值的数据集；

提供能够生成所述掺合油样品中至少两种组分油的预测的单一预测模型；以及

使用所述单一预测模型处理所述数据集的至少部分，

其中所述单一预测模型由训练数据集训练，其中所述训练数据集包括与通过权利要求1至14中任一项的方法模拟的所述至少一种训练样品的脂质含量相关的值的第二数据集。

16.权利要求15的方法，其中所述单一预测模型包括深度神经网络。

17.权利要求15或16的方法，其进一步包括生成所述掺合油样品中至少两种组分油的预测。

18.权利要求17的方法，其中所述预测包括所述至少两种组分油的每一种的至少类型或百分比量。

19.一种用于鉴定盲油样品的方法，所述方法包括:

接收与所述盲油样品的脂质含量相关的值的数据集；以及

将包括多组脂质参数的多变量混合模型应用于所述值的数据集以鉴定所述盲油样品，

其中所述多变量混合模型基于至少一种先前的油样品的脂质含量学习到所述多组脂质参数，每组脂质参数包括表示所述至少一种先前的油样品的可能脂质百分比的平均值的向量和表示所述至少一种先前的油样品的可能脂质百分比之内和两端间的广度的协方差矩阵，其中所述至少一种先前的油样品的脂质含量包括第一脂质含量和第二脂质含量，并且其中所述多变量混合模型至少能够解释与第一脂质含量相关的值和与第二脂质含量相关的值之间的多变量方差。

20.一种用于处理至少一种油样品的脂质含量以模拟至少一种掺合样品并确定所述至少一种掺合样品符合规定的要求的方法，所述方法包括：

接收与所述至少一种油样品的脂质含量相关的值的第一数据集；

基于所述第一数据集的至少部分模拟所述至少一种掺合样品，其中所述至少一种模拟的掺合样品由与所述至少一种模拟的掺合样品的脂质含量相关的值的第二数据集表示，并且模拟至少一种掺合样品的步骤包括使用概率分布模拟可能的混合比例并计算所述至少一种模拟的掺合样品的相应的脂质含量；以及

确定每种模拟的掺合样品的所述第二数据集的每个值是否落在根据所述规定的要求预定的相应脂质含量的范围内，这样，如果确定为肯定的，则所述模拟的掺合样品符合所述规定的要求，以及如果确定为否定的，则所述模拟的掺合样品不符合所述规定的要求。

21.权利要求20的方法，其中所述模拟所述至少一种掺合样品的步骤包括从所述第一数据集的至少部分选择并从概率分布提取混合比例，以获得所述至少一种模拟的掺合样品。

22.权利要求21的方法，其中所述模拟所述至少一种掺合样品的步骤包括从所述第一数据集的至少部分选择并从所述概率分布提取多个混合比例，以获得多个模拟的掺合样品；并且其中在所述概率分布的最大值与最小值之间的范围内，每个混合比例不同于另一个混合比例。

23.权利要求20至22中任一项的方法，其中所述规定的要求包括在中国实施的油掺合物的国家标准。

24.一种计算机可读存储介质，包括可操作的计算机可读指令，在由计算机执行以处理至少一种油样品的脂质含量并模拟至少一种训练样品时，所述计算机可读指令被配置为进行权利要求1至14中任一项的方法；和/或在由计算机执行以预测掺合油样品的掺合配方时，所述计算机可读指令被配置为进行权利要求15至18中任一项的方法；和/或在由计算机执行以鉴定盲油样品时，所述计算机可读指令被配置为进行权利要求19的方法；和/或在由计算机执行以处理至少一种油样品的脂质含量以模拟至少一种掺合样品并确定所述至少一种掺合样品符合规定的要求时，所述计算机可读指令被配置为进行根据权利要求20至23中任一项所述的方法。

25.一种设备，包括：

接收单元，期配置为接收与至少一种油样品或掺合油样品或盲油样品的脂质含量相关的值的数据集；

存储器，其用于至少存储多变量混合模型、单一预测模型和概率分布模型，所述多变量混合模型至少能够解释所述至少一种油样品的脂质含量之间的多变量方差，所述单一预测模型能够生成所述掺合油样品的掺合配方的预测，所述概率分布模型能够基于所述数据集的至少部分来模拟掺合样品；以及

处理器，其配置为访问存储在所述存储器中的所述多变量混合模型，以进行权利要求1至14中任一项的方法的步骤以处理所述至少一种油样品的脂质含量并模拟至少一种训练样品，或者进行权利要求19的方法的步骤以鉴定所述盲油样品；访问存储在所述存储器中的所述单一预测模型，以进行权利要求15至18中任一项的方法的步骤用于生成所述掺合油样品的掺合配方的预测；以及访问存储在所述存储器中的所述概率分布模型，以进行权利要求20至23中任一项的方法的步骤以处理所述至少一种油样品的脂质含量以模拟至少一种掺合样品并确定所述至少一种掺合样品符合规定的要求。

26.一种系统，包括：