CN114580934A

CN114580934A - 基于无监督异常检测的食品检测数据风险的早预警方法

Info

Publication number: CN114580934A
Application number: CN202210235241.9A
Authority: CN
Inventors: 左恩光; 吕小毅; 陈晨; 陈程; 严紫薇; 吴伟
Original assignee: Xinjiang University
Current assignee: Xinjiang University
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2022-06-03

Abstract

本发明为基于无监督异常检测的食品检测数据风险的早预警方法。基于无监督异常检测的食品检测数据风险的早预警方法，包括以下步骤：(1)数据预处理：将原始数据转换成特征提取器可识别的特征矩阵，得到处理好的数据；(2)将所述的处理好的数据输入进自编码器或降噪自编码器进行数据拟合，再通过AE模型训练得到风险值；(3)根据所述的风险值进行风险等级的划分。本发明所述的基于无监督异常检测的食品检测数据风险的早预警方法，大大提高了预警效率。

Description

基于无监督异常检测的食品检测数据风险的早预警方法

技术领域

本发明具体涉及基于无监督异常检测的食品检测数据风险的早预警方法。

背景技术

随着互联网经济的迅猛发展，消费者选择食品的渠道也变得更加丰富，线下堂食以及线上外卖。然而，这对食品安全和质量的防控提出了更高的要求。为了降低食品安全问题对人体健康的危害，如何对食品质量安全风险做出正确评估、及时的预警是目前的研究热点问题。这有助于把握食品安全风险变化趋势，为市场监管部门做好风险防控工作提供支持。

食品安全风险预警通常通过风险分析来发现潜在危害，并在食品决策过程中进行风险管理，为制定和改进食品质量监管决策提供科学的数据支持。因此，建立一个好的风险分析模型是高效风险早预警的关键。

目前，常见的食品安全风险分析方法包括基于灰色关系的分析方法、基于贝叶斯网络的方法、基于机器学习的方法和基于人工神经网络的方法。然而，这些方法有以下两个缺陷：

(1)目前的方法训练过程是有监督的，但风险标签的获取使得工人和时间成本增加。即在模型训练阶段，目前的方法需要先人为的给定或者计算训练标签，然后再让模型去拟合训练标签，从而对未知样本进行标签预测，如图1中的a。

(2)需要手动做特征工程(复杂的数据预处理)，训练过程复杂，难以充分利用数据原始信息。例如会将第一步计算的风险值作为第二步风险模型的期望输出标签。

有鉴于此，本发明的目的在于提供一种新的食品检测数据风险的早预警方法，是基于无监督异常检测的基础，可以快速高效地解决样本类别不均衡等问题，从而实现快速检测。

发明内容

本发明的目的在于提供基于无监督异常检测的食品检测数据风险的早预警方法，通过重构误差来划分合格和不合格产品；同时，合格样本的早预警分析是通过风险阈值进行的。

为了实现上述目的，所采用的技术方案为：

基于无监督异常检测的食品检测数据风险的早预警方法，包括以下步骤：

(1)数据预处理：将原始数据转换成特征提取器可识别的数据矩阵，得处理好的数据；

(2)将所述的处理好的数据输入进自编码器或降噪自编码器进行数据拟合，再通过AE模型训练得到风险值；

(3)根据所述的风险值进行风险等级的划分。

进一步的，所述的步骤(1)中，采用最小-最大归一化方法，将原数据转化为无量纲数据。

再进一步的，所述的转换公式为：

其中，

和

分别表示环境指标或营养指标下样本i数据归一化的结果。

进一步的，所述的步骤(2)中，自编码器包括编码阶段和解码阶段，且结构对称；

自编码器的编码解码过程为：

y＝f_θ(x)＝σ(Wx+b)；

其中，x＝(x₁，x₂，...，x_n)^T属于n维空间的样本表示；y＝(y₁，y₂，...，y_n)^T属于m维空间的新表示；

是对输入x设置的同等输出；θ 为参数，

W∈R^n×m和

是输入层的权重矩阵；

是偏置向量，σ(·)是激活函数。

进一步的，所述的步骤(2)中，自编码器的优化目标函数为：

其中，λ是超参数，取值在0～1之间；q_(x)表示训练数据相关的分布； L(x，z)为平方误差，L(x，z)＝∑||z-x||²。

进一步的，所述的步骤(2)中，去噪自编码器的优化目标函数为：

其中，

表示训练数据相关的分布。

进一步的，所述的步骤(2)中，将所述的处理好的数据输入进降噪自编码器进行数据拟合。

进一步的，所述的步骤(3)中，分险等级分为0、1、2、3级。

再进一步的，所述的步骤(3)中，风险分级具体为：当r_qi＜r_top-52时为0级：表示安全；

当r_top-41＜r_qi≤r_top-52时为1级：表示低风险；

当r_qi≤r_top-41时为2级：表示中等风险；

当r_si∈E时为3级：表示高食品安全风险；

其中，所述的r_qi为合格产品风险得分；

所述的r_top-52为最后检测到的不合格产品得分；

所述的r_top-41为不合格样本总数产品风险得分；

所述的E表示不合格产品集合。

与现有技术相比，本发明的有益效果在于：

1、介绍了两种自编码器用于食品安全风险预警，首次从异常检测的思路解决食品质量安全预警问题，为食品风险分析提供了一种新可能。

2、采用端到端的无监督风险预警模型，大大提高了预警效率(运行时间)，也更加实用。

附图说明

图1为机器学习算法划分；其中，a为有监督学习，b为无监督学习；

图2为整体框架图；

图3为标准自编码器；

图4为降噪自编码器；

图5为各模型在不同噪声比例下FDR和FAR性能表现图；

图6为Top-n风险得分可视化；

图7为检测产品风险等级划分；

图8为专家验证示意图。

具体实施方式

为了进一步阐述本发明基于无监督异常检测的食品检测数据风险的早预警方法，达到预期发明目的，以下结合较佳实施例，对依据本发明提出的基于无监督异常检测的食品检测数据风险的早预警方法，其具体实施方式、结构、特征及其功效，详细说明如后。在下述说明中，不同的“一实施例”或“实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

在详细阐述本发明基于无监督异常检测的食品检测数据风险的早预警方法之前，有必要对本发明中提及的相关背景做进一步说明，以达到更好的效果。

1、基于机器学习的食品质量安全风险分析模型

风险评估模型的性能是食品安全风险预警的关键。随着人工智能的发展，机器学习技术也广泛应用于食品安全分析评估，并取得了显著成果。具体来说，Bouzembak等人建立了贝叶斯网络模型来分析和预测食品安全风险的化学危害和食品欺诈类型。对于贝叶斯网络，由于网络结构通常是由专家经验决定的，所以分析性能受经验影响很大。相比之下，ANN具有非线性和容错性的特点，且建立的模型不依赖于专家的经验，可以很好地拟合数据并准确预测。因此，ANN技术已经被广泛应用于食品安全预警领域。Samuel等人使用模糊分析层次分析法(AHP)技术根据属性的个体贡献计算属性的整体权重，并通过训练人工神经网络(ANN)分类器预测患者的高频风险。Wang等人在食品安全实时监控中制定了食品运输安全风险预警策略，以降低食品供应链风险。随着科技的发展，越来越多的研究者成功地改进了食品安全预警领域的风险模型。

此外，还衍生出多种网络模型，如反向传播(BP)神经网络，RBF神经网络和ELM(extreme learning machine)。Liu等人使用BP构建预警模型来预测食品的检测是否合格。基于监测数据，Zhang等人利用BP建立了食品安全预警模型。耿等人提出了一种新的基于深度径向基函数(DRBF)的风险预警模型，结合层次分析法，利用风险加权的概念对复杂的食品安全检测数据进行建模，实现了灭菌乳的预警。但是，传统的BP和RBF收敛速度较慢，通常需要成千上万次的迭代，当网络有很多层和节点时，计算复杂性迅速增加。与传统的神经网络相比，ELM具有更快的学习速度和更好的泛化性能。因此，与极限学习机相结合的风险评估建模方式也取得了很好的效果。然而，现有的研究方法要么需要引入外部专家知识，要么收敛速度慢，要么需要对食品数据预处理计算模型期望输出。作为对比，本发明采用的基于自编码器的异常检测方法能够简洁快速的进行食品安全风险评估。

在了解了本发明中提及的相关背景之后，下面将结合具体的实施例，对本发明基于无监督异常检测的食品检测数据风险的早预警方法做进一步的详细介绍：

食品安全是一个全球各个国家高度重视的问题。对食品安全检测数据的预警分析和风险控制对于食品安全管理实践具有重要意义。为了有效地对检测产品进行早预警，本发明提出了基于异常检测的无监督自编码器预警方法，该方法通过重构误差来划分合格和不合格产品。同时，合格样本的早预警分析是通过风险阈值进行的。所提出的方法被应用于中国某省的一批乳制品检测数据上。实验结果表明，无监督的异常检测模型AE能够对乳制品检测数据进行有效分析，预测正确率(Acc)和误报率(FDR)分别达到了0.9954和0.9024且仅用时0.54s。本发明为现有的检测数据早预警研究提供了新思路，快速高效地解决了样本类别不均衡等问题。食品安全监管部门可以根据检测结果加强对相关食品生产企业的监管。

本发明的技术方案是：

(1)数据预处理：将原始数据转换成特征提取器可识别的特征矩阵，得处理好的数据；

(3)根据所述的风险值进行风险等级的划分。

优选的，所述的步骤(1)中，采用最小-最大归一化方法，将原数据转化为无量纲数据。

进一步优选的，所述的转换公式为：

其中，

和

分别表示环境指标或营养指标下样本i数据归一化的结果。

优选的，所述的步骤(2)中，自编码器包括编码阶段和解码阶段，且结构对称；

自编码器的编码解码过程为：

y＝f_θ(x)＝σ(Wx+b)；

是对输入x设置的同等输出；θ 为参数，

W∈R^n×m和

是输入层的权重矩阵；

是偏置向量，σ(·)是激活函数。

优选的，所述的步骤(2)中，自编码器的优化目标函数为：

优选的，所述的步骤(2)中，去噪自编码器的优化目标函数为：

其中，

表示训练数据相关的分布。

优选的，所述的步骤(3)中，分险等级分为0、1、2、3级；

进一步优选的，所述的步骤(3)中，风险分级具体为：当r_qi＜r_top-52时为0级：表示安全；

当r_top-41＜r_qi≤r_top-52时为1级：表示低风险；

当r_qi≤r_top-41时为2级：表示中等风险；

当r_si∈E时为3级：表示高食品安全风险；

其中，所述的r_qi为合格产品风险得分；

所述的r_top-52为最后检测到的不合格产品得分；

所述的r_top-41为不合格样本总数产品风险得分；

所述的E表示不合格产品集合。

优选的，所述的步骤(2)中，将所述的处理好的数据输入进降噪自编码器进行数据拟合。

异常检测(也称为离群点检测)的目标是以数据驱动的方式确定所有“少数派”的过程。异常检测是机器学习中一个非常重要的子分支，在各种人工智能落地应用例如计算机视觉、数据挖掘、自然语言处理中。食品质量安全检测数据的分布符合异常检测任务的特性，对于大多数的合格样本而言，不合格的高风险样本属于异常。因此，异常检测算法有潜力实现食品安全风险评估。

本发明中有两种基于无监督的自编码器的异常检测算法，用于食品安全风险评估。第一种是经典的自编码器，其具有重建过程简单，可堆叠多层，以神经科学为支撑点的优点。在无监督的情况下，假设是风险样本服从不同的概率分布。因为食品检测数据样本不均衡，训练出来的自编码器，能够将合格样本重建还原，但是却无法将风险样本分布的数据点较好地还原，导致还原误差较大。然而由于在食品安全实际应用场景中会出现部分检测指标数据缺失的情况，因此，本发明优选改进的自编码器，降噪自编码器(DenoisingAuto-Encoders)。首先，对输入数据加了一个高斯白噪声，使干净的输入数据受到局部的损坏，再将其送入传统自编码器，最后让其尽量重建一个与干净输入相同的输出。因此，降噪自编码器对输入数据中的噪声具有一定的鲁棒性。

实施例1.

以中国新疆维吾尔自治区乌鲁木齐市产品质量监督检验所提供的2013 年11月至2021年10月的2158份灭菌乳制品数据为例，进行食品风险评估的实验。所选原始数据均为乳制品数据。本文采用乳糖、酸度、非脂乳固体(NMS)、脂肪、蛋白质和黄曲霉素M1(AM1)作为乳制品的检测指标。本文使用的乳制品数据见表1。

表1.2013年至2021年期间食品检验的部分原始数据(检验标准 ″Q/NFRY 0025S-2020″)

在本文中，我们用粗体小写字母(如x)，粗体大写字母(如X)，和书法字体(如V)分别表示向量、矩阵和集合。

据此，属性网络的定义如下(异常检测应用于食品质量安全风险评估)：

给定食品质量检测数据X∈R^n×m，其中n是检测样本的数量，m是指标的数量。目标是学习一个评分函数f来计算每个样本的风险值k_i＝f(x_i)。风险值k_i可以代表样本x_i的预警程度。通过对所有样本的风险值进行排序，可以根据其位置检测出异常风险样本。

值得注意的是，通过异常检测进行的食品质量安全风险评估是在无监督的情况下进行的。

基于异常评分的风险预警系统

本实施例提出建立一个食品安全风险早筛查系统，该系统利用食品检验检测数据快速筛查出存在潜在安全风险的产品。如图2所示，该系统可分为原始数据处理、特征提取和产品风险划分三个部分组成。首先第一步是将原始检测数据转换成特征提取器可识别的数据矩阵。第二步将处理好的数据输入进本文采用的人工智能模型自编码器或降噪自编码器进行数据拟合，再通过模型训练得到各个产品的风险值。第三步，合格产品通过风险值划分为安全、低风险和中等风险三个风险等级。值得指出的是，不合格产品将被直接划分到高风险等级。值得指出的是，本发明提出的早筛查系统虽然能够大幅提升当前食品安全监测速度和效率，但它不能作为监测食品安全的唯一方法，筛选出的风险产品需要配合专家小组做进一步的评估再上报给食品监管部门。

其中，具体操作步骤如下：

(1)数据预处理

该步骤为本发明提出的食品安全风险早筛查系统的第一步。为了对食品安全进行全面的风险预警，所选择的风险评价指标涵盖我国《消毒乳食品安全国家标准》中理化指标、污染物限量、霉菌毒素限量和微生物四项技术要求。其中，乳糖，脂肪、蛋白质和非脂乳固体是营养指标，酸度和黄曲霉毒素M1是环境指标。营养指标含量不足或环境指标含量过高将导致食品安全风险。

由于数据分析的结果受到不同风险评价指标维度的影响，我们采用最小-最大归一化方法，将原数据转化为无量纲数据。在综合风险评价中，正指数表示指数值越高，风险越大。负指数表示指数越高，风险越低。正负指数的数据归一化正负指数的数据归一化是由公式(1)和(2)实现的。

数据归一化后，数据值越高数据值越高，风险就越大。

其中，

和

分别表示环境指标或营养指标下样本i数据归一化的结果。

(2)特征提取

该步骤为本文提出的食品安全风险早筛查系统的第二步。本发明采用自编码器或降噪自编码器作为系统框架的特征提取器以应对实际环境下的不同场景。

①标准自编码器

自编码器是一类人工神经网络，它以无监督的方式学习高效的数据值编码。自编码器主要包括编码阶段和解码阶段，且结构对称，编码器的作用是用来发现给定数据的压缩表示，解码器是用来重建原始输入，如图3 所示。

标准自编码器的编码解码过程可描述为：

y＝f_θ(x)＝σ(Wx+b) (3)

其中x＝(x₁，x₂，…，x_n)^T属于n维空间的样本表示，y＝(y₁，y₂，…，y_n)^T属于m维空间的新表示，

是我们对输入x设置的同等输出， θ为参数，

W∈R^n×m和

是输入层的权重矩阵。

是偏置向量，σ(·)是激活函数，如Sigmoid激活函数。因此，参数优化目标J是使x和z之间的误差最小化。如式(6)所示。

其中L是损失函数，我们使用了平方误差L(x，z)＝∑//z-x//²。为了防止过拟合，我们在损失函数上加上了正则项来控制权重减小的程度。最后本文的自编码器损失函数，即优化目标函数为公式(7)所示。

其中q_(x)表示与我们的训练乳制品相关的分布。λ是超参数，用来控制正则化的强度，取值在0～1之间。

在训练时，解码器强迫自编码器选择最有信息量的特征，最终保存在压缩表示中。最终压缩后的表示就在中间的编码层当中。解码器和编码器的参数是单独学习的，这样自编码器尝试从降维后的编码中生成尽可能接近其原始输入的表达。

②降噪自编码器

在现实场景中有许多样本的检测指标并不全面，但食品专家仍然能够准确发现风险样本。为了风险分析模型能够捕获输入特征的稳定结构，具有一定鲁棒性，同时对重建特征是有用的。本发明采用降噪自编码器应用于乳制品风险分析，对如输入表示加人为的局部损坏(Corruputed)

使得模型学习到更加具有鲁棒性的特征表达。

如图4所示，具体来说，加入噪声的策略和Vincent的一样，局部损坏的

通过一个随机映射从干净输入x获得：

然后，损坏的输入

像普通自编码器一样被映射，但关键的区别在于参数优化目标J，它使重构的表征z与干净的输入x而不是损坏的输入

之间的误差尽可能小。去噪自编码器的目标函数如式(8)所示。

其中，

表示与我们的训练乳制品样本相关的分布，AE和DAE的优化器均为Adam优化器。

在无监督的情况下，我们假设是乳制品风险样本服从不同的分布。因为绝大多数为非风险样本，训练出来的自动编码器优先将正常样本重建还原，但是却无法将异于正常分布的数据点较好地还原，导致还原误差较大。

(3)模型训练

①基线模型：

a：KNN

这种方法认为异常点距离正常点比较远，因此可以对于每一个数据点，计算它的K-近邻距离(或平均距离)，并将距离与阈值进行比较。若大于阈值，则认为是异常点。

b：LOF

首先对于每一个数据点，找出它的K个近邻，然后计算LOF得分，得分越高越可能是异常点。

c：COF

基于连通性的离群点因子类似于LOF，但是记录的密度估计是不同的。在LOF中，k近邻是依据的是欧式距离。这间接地假定数据以球形的方式分布在样本周围。但如果特征有一个直接线性相关，这个密度估算就有问题了。COF希望弥补这一不足，并使用一种称为链接距离的最短路径方法估计邻域的局部密度。从数学上讲，这个链接距离是连接所有k个邻居样本的所有距离之和的最小值。

d：Isolation Forest(iForest)

基本原理是利用树模型把数据进行分割，一直分到只有一个独立点为止。越快分割成单独数据点，说明这个数据越异常。可以理解为分布稀疏且离密度高的群体较远的点。用统计学来解释，在数据空间里面，分布稀疏的区域表示数据发生在此区域的概率很低，因而可以认为落在这些区域里的数据是异常的。

②评价指标

通过引入了三个层次的指标来确定模型的性能。有四个一级指标 (TP，TN，FP和FN)，分别代表真阳性、真阴性、假阳性和假阴性。二级指标使用精度和召回率来评价两个不同维度的指标。具体计算方法见公式(9)、公式(10)和公式(11)。

其中，精度(Precision)是检查准确率，代表被标记为安全隐患的样本在所有预测为食品安全隐患的样本中的比例。错误发现率(FDR)是检查完成率，是指过滤器成功发现的示例在所有标记为安全隐患的样本中的比例。误识率(FAR)是指安全样本被误检测为不安全(实际类别是安全的，预测类别是不安全的)的概率。

ROC曲线下方面积(AUC)表示分别从安全和不安全样本集中随机抽取一个安全和不安全样本，安全样本的预测值大于不安全样本。公式(12)和公式(13)代表总体评价指数和准确度，结合了精度和召回率的结果。

③参数设置：

所有的实验都是在个人电脑上进行的，操作系统为Ubuntu 18.04，两个NVIDIAGeforce RTX2080Ti(11GB内存)GPU。

④结果分析：

表2.所有模型随机初始化运行超过五次并取平均结果

Models	FDR	FAR	AUC	Acc	Time/(s)
						KNN	0.8048	0.3779	0.9951	0.9925	0.11
LOF	0.7073	0.5668	0.9959	0.9889	9.33
						COF	0.7317	0.5196	0.9956	0.9898	48.78
iForest	0.6829	0.6141	0.9931	0.9879	17.22
						AE	0.9024	0.1889	0.9963	0.9954	0.58

在乳制品检测数据上首先对比了不同的异常检测方法，验证了本文提出方法的性能。结果如表2所示，通过计算乳制品检测数据的多种评价指标来全方位比较各个模型的性能表现。通过这些结果，有以下结论：

I：所有异常检测模型的AUC和Acc值都很高，证明异常检测算法能够对绝大多数样本正确预测。实验结果表明异常检测算法在食品安全风险分析具有良好的应用场景。

II：除了在时间花费上不如KNN模型，AE的性能均取得了最好的检测结果。尤其在FDR指标上，AE的0.9024比最好的基线性能0.8048还显著高出0.0976。主要的原因是能够捕获每个样本检测值之间的隐藏表示，从而能将聚集在安全样本内的风险样本筛查出来。

III：在基线模型中，相比于基于距离的KNN、LOF和COF，基于群体的 iForest不能达到可观的效果，可能的原因是部分食品风险样本在大多指标都是无风险的，这就导致了其在高维空间的位置与正常样本聚集在一起难以孤立。

IV：AE在FAR指标达到了上取得了很大成功，相对于其他模型。比第二高的KNN模型0.3779显著提升了0.189，提升超过100％。这表明AE能够有效避免无风险样本被错误预测成有风险样本。

(4)对比分析：自编码器、降噪自编码器的强度噪音下的风险分析性能，进行风险划分

①为了评估实际场景下检测数据的缺失对模型预测的影响，人为加入噪声，对AE、DAE、LOF模型进行实验对比，具体来说，随机选取了一定比例的样本对其一个正常指标的检测值进行mask，并对不同mask比例的实验结果进行汇总，如图5所示。

从图5中可以看出：1)在不同加入噪声的样本数占总数的比例下，与其他模型相比DAE模型的在乳制品异常检测中性能稳定且优秀，一个可能的原因是，DAE对低资源的噪声具有较强的鲁棒性，能够有效过滤噪声。相反，AE随着噪声的比例增加对异常样本的识别显著下降。2)在受污染的比例很小的时候，即加入噪声的样本数占总数的比例为3％时，FDR值相对较低，一个可能的原因是当受污染的样本过少时，缺少足够的信息让模型去拟合这些缺失信息，导致模型普遍的鲁棒性较差。3)然后当加入噪声的样本数占总数的比例为5％时，除了AE外其余模型的性能都有不同程度的提高。

②为了直观的展现自编码器对乳制品风险分析的效果，采取top-n的方式对所有样本的风险值进行可视化，如图6所示。具体来说，因为数据集中共41个不合格样本，我们首先选取风险值最大的前41一个样本进行可视化，结果算法能够检测出37个不合格样本，检测率达到了90.24％。接下来，依此进行了top-45，top50，top-51，top-52的检测，到top-52时所有不合格样本均被算法检测出来，因此得到了这批样本的风险得分临界点。最后我们展示所有样本的风险值分布如图6中top-2158所示。

目前的食品安全监管仅对不合格样本进行惩处，但合格产品同样也具有一定的风险。因此，我们输出了模型的预测结果并进行了风险划分。如图7所示，风险标准为0(安全)，1(低风险)，2(中等风险)或3(高风险)。评价的总体要求如下：

总体要求：要求专家从风险可能性和严重性两个方面进行打分。打分范围为0-3。分数越高，产品的潜在食品安全危害越严重。

各级别的描述：

0级：r_qi＜r_top-52：表示安全，没有明显的食品安全风险。指合格产品风险得分r_qi低于最后检测到的不合格产品得分r_top-52。

1级：r_top-41＜r_qi≤r_top-52：表示低风险，存在食品安全风险，但不是很明显。指合格产品风险得分r_qj高于不合格样本总数产品风险得分 r_top-41，但低于最后检测出不合格产品的的得分r_top-52。

2级：r_qi≤r_top-41：表示中等风险，有一定的食品安全风险。指合格产品风险得分r_qi高于不合格样本总数产品风险得分r_top-41。

3级：r_si∈E：表示高食品安全风险。r_si表示不合格产品得分，E代表所有不合格产品的集合。

值得一提的是，对于新输入的检测样本，同样的根据模型输出的重构误差进行风险划分。

考虑到由人工智能模型直接生成的结果不应该直接指导政府部门工作，引入了专家小组的实例分析环节，由专家小组对模型产生的风险预警结果进行人工修正。这样人工智能提高了专家小组的工作效率，专家小组提升了模型的可靠性。为了在食品安全层面验证所提出的方法，我们邀请了乌鲁木齐市产品质量监督检验所的三位食品安全专家对该方法的预测结果进行分析。

最终如图8所示，专家小组对合格样本的中、低风险产品发布早预警公告，并通知食品监管部门对不合格的高风险产品进行管治。

为了有效的对检测合格产品进行早预警，本发明提出了基于异常检测的无监督自编码器预警方法，该方法通过重构误差来划分合格不合格产品。同时，合格样本的早预警分析是通过风险阈值进行的。所提出的方法被应用于中国某省的一批乳制品检测数据上。实验结果表明，无监督的异常检测模型能够对乳制品检测数据进行有效分析。与其他方法相比，AE具有更高的泛化和预测精度，DAE能够有效降低真实场景下检测值缺失带来的噪声。本发明为现有的检测数据早预警研究提供了新思路，快速高效的解决了样本类别不均衡等问题。食品安全监管部门可以根据检测结果加强对相关食品生产企业的监管。为在未来的工作中，可以考虑更多的影响因素来进行综合风险分析，如环境指数、环境质量等。

以上所述，仅是本发明实施例的较佳实施例而已，并非对本发明实施例作任何形式上的限制，依据本发明实施例的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明实施例技术方案的范围内。