CN116562615A

CN116562615A - 一种用于乳制品食品安全的风险预警方法

Info

Publication number: CN116562615A
Application number: CN202310385853.0A
Authority: CN
Inventors: 冉文生; 孙蕾; 左恩光; 陈晨; 范田丽; 周皓; 廖毅凡; 王勇
Original assignee: Xinjiang Aiqi Side Testing Technology Co ltd
Current assignee: Xinjiang Aiqi Side Testing Technology Co ltd
Priority date: 2023-04-12
Filing date: 2023-04-12
Publication date: 2023-08-08

Abstract

本发明为一种用于乳制品食品安全的风险预警方法。一种用于乳制品食品安全的风险预警方法，包括以下步骤：(1)检测数据预处理：使用Python对各检测样本得检测数据进行标准化处理：(2)通过计算所述的各检测样本的每个检验指标的经验积累分布，以非参数的方式估计检测数据的潜在分布；(3)依据所述的潜在分布来估计各所述的检测样本每个检验指标的尾部概率，并将其聚合获得样本风险值；(4)对合格样本的可解释性风险划分，并依据各检验指标的风险得分追溯导致样本不合格的原因。本发明一种用于乳制品食品安全的风险预警方法，稳定性好，效率高，准确性好，实现了对合格样本的可解释性风险划分与不合格样本的风险追溯。

Description

一种用于乳制品食品安全的风险预警方法

技术领域

本发明属于食品检测技术领域，具体涉及一种用于乳制品食品安全的风险预警方法。

背景技术

食品安全是公共卫生中的重点问题，不仅关系到人类的身体健康和生命安全，还密切影响着各国经济的稳定发展。近年来，全球的食品安全事故数不胜数。据统计，全球每年约有600百万例食源性疾病病例出现，导致420,000人死亡。沙门氏菌是常见的人畜共患细菌食源性病原体，已被发现是导致食源性疾病的主要原因。李斯特菌可渗透到食品加工环境中对人类健康造成威胁。因此，为了有效控制食品安全问题对人类健康和经济发展造成的一系列影响，监管部门有必要对食品安全进行科学全面的风险预警。

风险检测方法广泛应用于食品安全，主要包括基于贝叶斯的方法、基于层次分析的方法和基于人工神经网络的方法等。它们存在以下局限性：

(1)模型的稳健性较差。在不同类型的检测数据中，模型检测性能表现不稳定，受主观因素影响较大或受限于模型中超参数的取值选择，难以保证对每一批检测数据提供具有可靠性和准确性的检测结果。

(2)风险划分缺乏解释性。检测指标被计算权重比例后进行风险融合，融合结果作为预警模型的输入完成风险划分。风险等级划分过程中存在风险等级边界的人为设置，具有很强的主观性。因此，不能提供可解释性的风险划分方案，极大地限制了精准化食品安全监管举措的落实。

(3)风险追溯能力不足。重点关注对检测样本的风险划分，却无法依据检测结果查找不合格产品的产生原因，难以提供支撑性数据引导监管方向并定位重点监管指标。

有鉴于此，本发明提出一种端到端的对稳健性、可解释性和追溯性统一思考的无监督风险预警框架，应用于乳制品食品安全。

发明内容

本发明的目的在于提供一种用于乳制品食品安全的风险预警方法，在无监督的前提下无参数地针对检测数据的特征分布进行估计，实现了稳定高效的食品安全风险预警。

为了实现上述目的，所采用的技术方案为：

一种用于乳制品食品安全的风险预警方法，包括以下步骤：

(1)检测数据预处理：使用Python对各检测样本得检测数据进行标准化处理：

(2)通过计算所述的各检测样本的每个检验指标的经验积累分布，以非参数的方式估计检测数据的潜在分布；

(3)依据所述的潜在分布来估计各所述的检测样本每个检验指标的尾部概率，并将其聚合获得样本风险值；

(4)对合格样本的可解释性风险划分，并依据各检验指标的风险得分追溯导致样本不合格的原因。

进一步的，所述的步骤(1)中，用最小-最大归一化方法转化原始数据为无单位数据，消除不同检验指标之间的量纲差异

再进一步的，所述的步骤(1)中，按照食品安全标准对检测指标的不同要求，将食品安全检验指标统一划分为正向指标、逆向指标和振荡性指标三类

进一步的，所述的步骤(2)中，使用联合累积分布函数对样本的所有检测指标进行概率计算，对于任意x_i∈R^d，以左尾概率来衡量样本X_i，公式如下：

式中，随机变量X_i,j表示样本X_i的第j个检测指标。

进一步的，所述的步骤(3)中，依据所述的潜在分布估计样本各检验指标的左尾和右尾概率，使用偏态聚合的方式从全局的角度汇总尾部概率并在负对数概率空间中获得样本风险值。

再进一步的，所述的步骤(3)中，样本风险值的公式如下：

r_i＝max{r^left(X_i),r^right(X_i),r^combined(X_i)}。

进一步的，所述的步骤(4)中，采用基于3σ-原则的方式依据样本的风险值与均值的偏离程度进行可解释性的风险划分，并在各检验指标的风险得分中对比不合格样本与top k％样本风险得分的分布关系来追溯导致样本不合格的检验指标。

再进一步的，所述的步骤(4)中，进行可解释性的风险划分，划分为3个等级，具体公式为：

其中，r_i为样本风险值，μ为平均值，σ为标准差。

与现有技术相比，本发明的有益效果在于：

首先，本发明分别为每个检验指标计算经验积累分布函数以无参数的方式来估计检测数据的潜在分布。其次，依据潜在分布估计样本各检验指标的左尾和右尾概率，使用偏态聚合的方式从全局的角度汇总尾部概率并在负对数概率空间中获得样本风险值。检测过程直接针对检测数据的特征分布完成计算而无需进行超参数设置，确保了模型的客观性与稳健性。最后，采用基于“3σ”-原则的方式依据样本的风险值与均值的偏离程度进行可解释性的风险划分，并在各检验指标的风险得分中对比不合格样本与top k％样本风险得分的分布关系来追溯导致样本不合格的检验指标。本发明的模型在无监督的前提下无参数地针对检测数据的特征分布进行估计，实现了稳定高效的食品安全风险预警。本方面提出的食品安全风险预警框架的优点有：

(1)提出了一个兼备稳健性和追溯性的无监督风险预警框架。对于任一检测样本，本发明的框架无参数地以检验指标为单位进行左尾和右尾的概率估计，追溯了各检验指标对每个样本风险值的影响，能够为食品安全监管部门提供导致样本不合格的检验指标追溯信息。

(2)本发明首次提出“3σ”-原则的食品安全风险划分方式。该方式依据模型获取的检测数据风险值分布整体规律，通过度量样本风险值与均值的偏离程度进行可解释性的样本风险等级划分，为食品安全的精准监管提供更全面的支撑信息。

(3)本发明在实际应用场景下的2个不同的乳制品数据集中验证了EWFED模型的风险预警效果优于目前的主流模型。实验结果表明，本发明的模型在两个数据集上AUC性能分别达到了0.9924和0.9667，对应时间消耗仅为0.0321s和0.0262s，综合性能平均排名第一。同时，实现了对合格样本的可解释性风险划分与不合格样本的风险追溯。

附图说明

图1为EWFED模型框架图；

图2为Camel milk数据集上不同尾部概率对检测性能的影响，a为原始分布，b为左尾概率，c为右尾概率，d为偏态聚合；

图3为Pure milk数据集上不同尾部概率对检测性能的影响，a为原始分布，b为左尾概率，c为右尾概率，d为偏态聚合；

图4为EWFED模型对Camel milk数据集中测试集的风险划分，a为样本风险值分布，b为风险划分结果；

图5为EWFED模型对Pure milk数据集中测试集的风险划分，a为样本风险值分布，b为风险划分结果；

图6为EWFED模型对两个数据集中不合格样本的风险追溯，a为Camel milk数据集中第131个样本的风险追溯，b为Pure milk数据集中第591个样本的风险追溯。

具体实施方式

为了进一步阐述本发明一种用于乳制品食品安全的风险预警方法，达到预期发明目的，以下结合较佳实施例，对依据本发明提出的一种用于乳制品食品安全的风险预警方法，其具体实施方式、结构、特征及其功效，详细说明如后。在下述说明中，不同的“一实施例”或“实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

在详细阐述本发明一种用于乳制品食品安全的风险预警方法之前，有必要对本发明中提及的相关背景做进一步说明，以达到更好的效果。

目前，基于风险检测的方法在金融风险预警、交通事故风险检测和食品安全风险检测等领域的应用取得了前所未有的成果。在食品安全领域中，主流的模型包括基于贝叶斯的方法、基于层次分析的方法和基于人工神经网络的方法等。

贝叶斯网络(BN)是一种概率网络，在环境的风险评估、工业风险分析、交通运输风险评估和食品安全风险评估等领域中表现突出。但由于其网络结构通常由专家经验决定，所以模型的分析性能很大程度上存在主观依赖，这严重影响了模型在食品安全检测任务中的稳健性。

基于层次分析法(AHP)的方法是结合定性与定量的综合风险评估方法，在处理多检验指标的复杂关系中性能表现突出。Geng等人将深度神经网络与AHP结合有效解决了食品安全风险预警问题，然而，该方法依赖于研究者的经验来构建各检验指标的相对重要性判断矩阵，容易产生判断失误，导致了该方法完成风险评估的不确定性。

人工神经网络广泛应用于疾病的风险检测、地震风险评估和工程建筑风险评估和食品安全风险检测中。反向传播神经网络(BP)是常见的人工神经网络算法之一，Wang等人基于BP神经网络的数据挖掘方法实现了对食品抽检数据中不合格样本的检出，但受限于抽检数据所提供的信息不足，无法进一步对合格样本进行风险划分，因此模型不能提供详尽的信息用于定位监管方向。Zhang等人基于BP神经网络建立食品安全预警模型。虽然如此，但研究表明，这种基于梯度下降的算法会面临局部最优和收敛速度慢的问题。径向基函数(RBF)神经网络是一种具有全局逼近能力的前馈神经网络，能有效解决局部最优问题。然而，当食品检测数据中的检验指标数量增加或指标间关系变复杂时，BP和RBF等浅层神经网络的表达能力较弱。因此，有必要建立深度学习模型来增强数据表示能力。基于长短期记忆神经网络(LSTM)和基于深度径向基函数(DRBF)神经网络的深度学习方法分别被提出应用于一定规模的复杂食品安全检测数据的风险预警建模。基于人工神经网络的方法可视为黑箱模型，虽然它们能较高效地处理检验指标之间关系不明确的食品安全检测数据，但无法进行风险评估的可解释性和可追溯性工作，这极大地限制了模型对精准监管工作的支撑性理论与信息的提供。

异常检测在数据挖掘、机器学习和统计等各领域中表现出了重要突破，它的目的是检测与大部分数据实例有显著差异的数据实例，风险检测任务对风险数据进行检出的过程与该目的相符。为了更好地分析和评估检测数据的潜在风险，本发明采用“3σ”-原则进一步对合格样本进行风险划分。针对目前食品安全风险评估现有方法的局限性，本发明基于经验积累分布函数提出了一个端到端的对稳健性、可解释性和追溯性统一思考的无监督风险早预警框架，辅助监管部门制定精准的食品安全风险防控措施。

在了解了本发明中提及的相关背景之后，下面将结合具体的实施例，对本发明一种用于乳制品食品安全的风险预警方法做进一步的详细介绍：

对于食品检测数据，不合格样本属于数据中的异常值。异常值可以被视为数据中的“罕见事件”，通常出现在数据分布的尾部之一。例如，对于一维高斯分布的数据，异常值往往出现在左尾和右尾部分，本发明从估计检测数据潜在分布的角度进行食品安全风险评估。本发明基于经验积累分布函数提出了一个端到端的对稳健性、可解释性和追溯性统一思考的无监督风险预警框架应用于乳制品食品安全。

本发明的技术方案为：

一种用于乳制品食品安全的风险预警方法，包括以下步骤：

优选的，所述的步骤(1)中，用最小-最大归一化方法转化原始数据为无单位数据，消除不同检验指标之间的量纲差异

进一步优选的，所述的步骤(1)中，按照食品安全标准对检测指标的不同要求，将食品安全检验指标统一划分为正向指标、逆向指标和振荡性指标三类

优选的，所述的步骤(2)中，使用联合累积分布函数对样本的所有检测指标进行概率计算，对于任意x_i∈R^d，以左尾概率来衡量样本X_i，公式如下：

式中，随机变量X_i,j表示样本X_i的第j个检测指标。

优选的，所述的步骤(3)中，依据所述的潜在分布估计样本各检验指标的左尾和右尾概率，使用偏态聚合的方式从全局的角度汇总尾部概率并在负对数概率空间中获得样本风险值。

进一步优选的，所述的步骤(3)中，样本风险值的公式如下：

r_i＝max{r^left(X_i),r^right(X_i),r^combined(X_i)}。

进一步优选的，所述的步骤(4)中，进行可解释性的风险划分，划分为3个等级，具体公式为：

其中，r_i为样本风险值，μ为平均值，σ为标准差。

食品安全是国际关注的公共卫生问题，高效的食品安全风险评估对食品安全的监管有重要的影响。然而，不同类型和批次的食品检测数据呈现出不同的特征分布，导致大多数风险评估模型的检测结果不稳定，风险划分缺乏可解释性且风险追溯能力不足。本发明通过对稳健性、可解释性和追溯性的统一思考提出了一个基于经验积累分布函数的无监督风险预警框架(命名为EWFED)，应用于乳制品食品安全。首先，通过计算每个检验指标的经验积累分布以非参数的方式估计检测数据的潜在分布；其次，依据这些分布来估计各检测样本每个检验指标的尾部概率并将其聚合获得样本风险值；最后，采用“3σ”-原则实现对合格样本的可解释性风险划分，并依据各检验指标的风险得分追溯导致样本不合格的原因。本发明实施例在中国某省两批不同类型的灭菌乳制品检测数据上验证了EWFED模型的有效性，实验结果表明，EWFED模型在两个数据集上AUC性能分别达到了0.9924和0.9667，对应时间消耗仅为0.0321s和0.0262s，同时，实现了对合格样本的可解释性风险划分与不合格样本的风险追溯。因此，本发明提供了一种更健全的系统化食品安全风险评估方式，能为监管部门提供更全面可靠的科学支撑信息，促进食品安全风险的精准控制。

实施例1.

具体操作步骤如下：

A材料和方法

(1)问题定义与数据源

①问题定义

给定含有n个检测样本，d个检测指标的食品检测数据X₁,X₂,…,X_n∈R^d，本实施例用X∈R^n×d表示该批检测数据。目标是通过一个风险计算函数F来获得每个样本的风险值r_i＝F(x_i)，其中r_i∈[0,+∞)，并据此计算n个检测样本的风险值对应的均值当样本的风险值r_i偏离μ的程度越大时该样本的风险程度越大。

②数据源

本实施例使用的2个数据集来自中国某省食品检测机构的2种类别不同的灭菌乳制品检测数据，分别为Camel milk和Pure milk。其中Pure milk为2013年11月至2021年10月的2158份灭菌乳制品数据，包括乳糖、非脂乳固体、蛋白质、酸度、脂肪和黄曲霉毒素M1，共计6个检验指标。Camel milk为2020年2月至2021年12月的477份灭菌乳制品数据，包括蛋白质、脂肪、酸度等共计14个检验指标。表1和表2中分别列出了Camel milk和Pure milk数据集的检验指标及国家要求标准。

表1 Camel milk数据集上的检验指标及国家要求标准

表2 Pure milk数据集上数据集上的检验指标及国家要求标准

其中，I_p表示该检验指标有最大值限制，I_i表示该检验指标有最小值限制，I_o表示该检验指标有特定的区间限制。此外，对于Camel milk数据集中的菌落总数、大肠菌群和金黄色葡萄球菌，它们要求中的n表示同一批次样本应采集的个数，c表示最大可允许超出m值的样本数，m表示指标可接受水平的限量值，M表示指标的最高安全限量值，意味着该指标值只要有多于c个样本超出m即为不合格。

(2)EWFED模型

在本实施例中，对模型的整体框架进行详细描述，如图1所示。模型由检测数据预处理、基于经验-积累-分布的建模和风险评估与分析三部分构成。

首先，为了消除检测数据中检验指标之间的量纲差异，本实施例对原始数据进行了预处理。接下来，使用基于经验-积累-分布的方式进行建模，通过估计尾部分布的思路来计算尾部概率，并获得样本风险值。最后，实现对检测样本的风险评估与分析，模型对检测样本进行检测之后，对合格样本进行可解释性的风险划分，并对不合格样本完成风险追溯，实现了从稳健性、可解释性和追溯性统一思考的无监督食品安全风险早预警。

①检测数据预处理

按照国家的要求标准(China’s National food safety standards for thesterilized milk)《中国灭菌乳制品食品安全标准》，灭菌乳制品应在感官指标、理化指标、真菌毒素限量、微生物限量和污染物限量等5项内容均符合国家标准，检测机构提供的Camel milk和Pure milk数据集的检验指标均属于以上内容，本实施例使用Python对其进行了如下标准化处理：

1)移除感官指标(色泽、组织状态、滋味和气味等)和未检测到的物质(如污染物)。由于它们难以用数值表现，本实施例使用该方法来简化检验指标。

2)消除多余的符号，如果样本的检测值为“>0.5”，本实施例会将“>”消除并只保留数值“0.2”。

3)转化同一批次样本应采集个数(c值)不为1的检测指标为多个检验指标。例如，对于Camel milk数据集中的菌落总数、大肠菌群和金黄色葡萄球菌，它们的c＝5,因此本实施例将每个检验指标按照顺序拆为5个检验指标，为数据集添加更多的检验指标信息。

4)对于Camel milk数据集，将难以表现区分度的检验指标(多数样本指标值相同)中符合国家要求标准的样本指标设置均值与标准差进行随机重置，具体处理方式见表3。

表3Camel milk数据集上的部分检验指标预处理。

最终的Camel milk和Pure milk数据集各样本分别有26和6个检验指标，为了更详细地展示数据集的详细信息，本实施例在表4和表5中分别列出了两个数据集的部分原始样本。

表4.Camel milk数据集的部分原始样本(食品安全地方标准《驼乳粉》”DBS 65/014-2017)

表5Pure milk数据集的部分原始样本(国家食品安全标准“灭菌乳”GB 25190-2010”)

从两个数据集的原始样本数据中可以发现，检测数据中的检验指标之间存在明显的量纲差异。为了避免检验指标之间的量纲差异对食品安全风险评估结果造成的影响，受启发于，本实施例采用最小-最大归一化方法转化原始数据为无单位数据，以消除不同检验指标之间的量纲差异。按照食品安全标准对检测指标的不同要求，本实施例将食品安全检验指标统一划分为正向指标、逆向指标和振荡性指标三类。两个数据集的检验指标具体分类已在表1和表2中展示。正向指标是指风险性与指标值正相关的指标，用I_p表示；逆向指标则指风险性与指标值负相关的指标，用I_i表示；振荡性指标是指风险性与指标值到标准区间的距离正相关的指标，用I_o表示，具体公式如下：

其中，x_i,j表示第i个样本的第j个检验指标，X_i＝{x_i,1,x_i,2,…,x_i,d}，

本实施例将三种类型的检验指标进行汇总得到集合I＝{I_p,I_i,I_o}，对于任意一批食品检测数据，其所有的检验指标均能在I中找到对应类别。因此，这种预处理方式可以推广至任何类型任何批次的食品检测数据的归一化处理，本实施例将其作为食品安全风险早预警框架的第一部分，归一化之后的数据数值越大，则其风险性越大。

②基于经验-积累-分布的建模

异常值在数据中的罕见程度很高，且总是存在于概率分布低密度的部分(当概率分布是单峰时，异常值存在于分布的尾部)，不合格样本可以被视为检测数据中的异常值，因此，本实施例的动机是通过估计检测数据概率分布的方式计算样本的风险值，并依据风险值完成对不合格样本的可追溯性的检出与合格样本的可解释性的风险划分。

估计尾部分布：

本实施例使用联合累积分布函数(CDF)对样本的所有检测指标进行概率计算，随机变量X_i，j表示样本X_i的第j个检测指标，对于任意x_i∈R^d，以左尾概率来衡量样本X_i的“罕见”程度的情况为例，具体公式如下：

当F(X_i)越小时，表示在该分布中存在检测样本满足不等式X≤X_i的可能性就越小(该不等式需要在所有检测指标中符合)，这意味着X_i在X中表现出极其明显的“罕见”程度，因此，样本很可能是不合格样本。右尾概率用于衡量样本X_i的“罕见”程度时同理。

计算尾部概率：

为了有效追溯导致样本“罕见”程度差异表现的原因，本实施例假设不同的检验指标之间独立存在，对样本在每个检验指标中的具体表现进行逐一考查，公式如下：

其中F_i，j：R→[0，1]表示第i个样本的第j维检验指标的CDF：F_i，j(a)＝P(X_i，j≤a)for a∈R。

进一步地，本实施例将上述的样本独立检验指标CDF使用empirical CDF(ECDF)来精确估计，分别使用左尾和右尾的概率来进行计算，公式如下：

其中，为指示函数(indicator function)，当运算对象为逻辑真时，其值为1，反之其值为0，公式如下：

此时，本实施例可以将公式(3)详细化为估计累积所有检验指标的联合左尾和右尾ECDF，公式如下：

获取样本风险值：

考虑到以下两个原因：(1)检测数据中各样本的检验指标值之间不可避免地会表现出较大区分度。(2)当检测数据中的检验指标数量过多时，使用左尾概率或右尾概率的所有可能组合来完成分布估计将产生大得不切实际的数据量。因此，对于不同类型不同批次的检测数据，分别考虑每个检验指标的左尾概率和右尾概率可能并不总是高效合理的，这将在一定程度上限制模型对异常值的判断，本实施例需要采用更有效的方式来聚合和/>受启发于,为了更有效地对检测数据在不同检测指标中应考虑的左尾和右尾情况，对于每个检测数据X_i，本实施例考虑使用检测指标分布的偏态来聚合/>和/>因此，本实施例将样本第j维的偏态系数θ_j计算如下：/>

当θ_j<0时，表示左尾的点更偏离分布。当θ_j>0时，表示右尾的点更偏离分布。当θ_j＝0时，表示数据为连续型随机变量，这种情况发生在检测数据中的可能性几乎为0,因此本实施例将其简单地归纳于左尾或右尾其中一个。

本实施例选择使用负对数概率空间来计算检测样本的最终异常得分，得出每个样本的风险值r_i∈[0,+∞)，左尾和右尾的计算公式如下:

此外，使用检测指标分布的偏态来综合考虑左尾和右尾概率使模型自动确定在任意一个检测指标上选择左尾概率或右尾概率，该方式的有效性在“偏态聚合估计尾部概率的效果”部分基于数据集进行了验证，具体公式如下：

综合三种情况获得的异常得分，本实施例将其中最极端的得分作为样本的风险值。考虑到计算是在负对数概率空间中完成的操作，较高的负对数概率意味着概率越低，即对应的“罕见”程度越高，最终样本风险值的确定公式如下：

r_i＝max{r^left(X_i),r^right(X_i),r^combined(X_i)}(10)

③风险评估与分析

模型依据样本的风险值r_i将不合格样本从合格样本中检出。此外，为了进一步提供更全面和可靠的信息来引导监管方向，本实施例对合格样本进行了风险划分，并对不合格样本展开了风险追溯。

“3σ”-原则是一种简单的启发式异常检测方法。传统的“3σ”-原则将偏离μ±3σ(其中μ为平均值，σ为标准差)的数据判定为异常值，受启发于这个思路，本实施例对“3σ”-原则进行调整使其应用于检测数据中合格样本的风险分析与划分。具体来说，本实施例将所有的不合格样本的风险等级判定为High risk(3)，进一步地，对于合格样本，依据它们的风险值r_i在所有样本的风险值中的分布情况，其划分为Safe(0)、Low risk(1)和Medium risk(2)三个等级，具体公式如下：

值得注意的是，依据数据量的大小，风险等级为Medium risk(2)的确定可进一步按照r_i∈(μ-3σ,μ-2σ)∪(μ+2σ,μ+3σ)和r_i∈(-∞,μ-3σ)∪(μ+3σ,+∞)划分为Medium risk(2-1)和Medium risk(2-2)。对于数据量较大的检测数据，这样的划分将会提供更精细化的监管指导信息。考虑到Pure milk和Camel milk数据集的样本规模不大，本实施例并未在实验中对Medium risk(2)继续细化。

依据“②基于经验-积累-分布的建模”中对样本X_i的每个检验指标进行的概率计算，对于检测数据中的不合格样本，本实施例试图探究检测样本被判定为不合格样本的“原因”，即检测样本的哪一个或哪几个检验指标明显的“罕见”程度导致了样本的风险性，显然，这种检验指标不合格的追溯在引导监管方向过程中是至关重要的。本实施例通过将检验指标作为评估对象的方式使用模型为检验指标“罕见”程度的追溯器。从公式10中，不难发现导致一个检测样本的风险值偏大的原因至少是r^left(X_i)、r^right(X_i)和r^combined(X_i)中存在一个值偏大。因此，本实施例使用r_i，j表示样本X_i的第j个检验指标的风险得分，由于对数函数的单调性，它可以用来衡量X_i的第j个检验指标的“罕见”程度。与r_i的计算原理相同，r_i，j与X_i的第j个检验指标X_i，j的关系为r_i，j＝max{r^left(X_i，j)，r^right(X_i，j)，r^combined(X_i，j)}。同时本实施例将第j个检验指标的top k％个样本的风险得分的情况进行表示，对比风险样本各指标的风险得分r_i，j与top k％个样本的风险得分的分布情况将详细追溯导致样本不合格的检验指标，本实施例通过绘制不合格样本的检验指标风险追溯图(详细见不合格样本的风险追溯)的方式给监管部门提供检验指标层面的信息帮助其更好地落实精准监管。

B实验和结果分析

(1)评估指标

表6 4个基础指标的具体含义。

食品安全风险评估模型的评价指标可以定量地衡量模型对不合格样本的检出性能。本实施例将四个基础指标TP、FP、FN和TN的具体含义表示在表6(在2个数据集中，使用标签1标记不合格样本，标签0标记合格样本)中。考虑到检测数据具有类别失衡的特点(不合格样本总是极少数的，绝大多数是合格样本)，基于基础指标，本实施例使用AUC、不合格-recall、FAR和Run-Time从不同角度考察了模型的检测性能，公式如下：

/>

其中，ROC曲线下面积(AUC)表示随机抽取一个合格样本和一个不合格样本时模型对合格样本的判断正确得分高于对不合格样本的判断正确得分的概率，它不受类别失衡数据的影响，能够综合评估模型的检测能力。

召回率(Recall)又称查全率，不合格样本-召回率(Recall_unqualified)反映了不合格样本被误检为合格样本的概率，食品安全风险评估的核心问题是对不合格样本进行检出，因此，本实施例使用Recall_unqualified来评估模型对不合格样本的查全能力。

误识率(FAR)反映了合格样本检测被为不合格样本的概率，食品安全风险检测允许一定数量的合格样本被误检，但过大的误检量将影响检测的效率，因此，本实施例用FAR来评估模型对合格样本的风险判定程度。

(2)基线模型

①Isolation Forest

Isolation Forest(Iforest)是基于Ensemble的异常检测方法，通过构造多棵二叉树的方式来区分数据集中的样本点。由于异常样本总占据数据集中的少部分且具有与正常样本不同的特征信息，因此，异常样本会分布在二叉树的根节点附近(密集)，而正常样本则分布在离根节点更远的位置(稀疏)，最终通过衡量二叉树中区分样本时所需的路径长度来确定是否为异常样本。

②Local Outlier Factor

Local Outlier Factor(LOF)是基于密度的经典的异常检测方法，通过衡量数据点与其周围邻近的数据点的相对密度情况来确定异常样本。模型依据每个样本的局部可达密度来计算其对应的异常得分，异常得分越高则样本是异常的可能性越大。

③Gaussian Mixture Model

Gaussian mixture model(GMM)是基于概率的异常检测方法，通过多个高斯分布函数估计数据的特征分布。模型由多个单高斯密度分布组成其概率密度函数，将数据划分为若干个均值和标准差不同的高斯分布，且这些分布被分配相应的权重参数(正数)，所有分布的权重参数的和为1。

④Copula-Based Outlier Detection

Copula-Based Outlier Detection(COPOD)也是一种基于概率的异常检测方法，它使用经验(empirical)copula估计数据分布的尾部概率来完成检测。模型计算的异常得分是样本与数据集中其他样本相比的异常情况的相对度量，即异常得分越大，样本是异常的可能性越大。

⑤Extreme Learning Machine

Extreme Learning Machine(ELM)是一种单隐层前馈神经网络，在食品安全风险评估中表现出令人满意的效果，与常见的食品安全风险预警模型BP和RBF相比，ELM具有更强的泛化能力与更快的训练速度，并被成功用于完成故障诊断等。

(3)偏态聚合估计尾部概率的效果

在Camel milk和Pure milk数据集上，本实施例对“基于经验-积累-分布的建模”部分提到的采用偏态聚合方式自动确定是否选择检验指标对应的左尾或右尾进行了分布对比，如图3和4所示。从图中本实施例不难发现：对于不同类型不同批次的检测数据差异较大的分布情况，左尾和右尾概率计算难以保证均能提供可靠的估计结果，而偏态聚合方式能综合左尾和右尾的概率信息自动确定对应尾部，更精准地从检测数据中捕获不合格样本。

(4)结果分析

①检测结果

本实施例在Camel milk和Pure milk数据集上展开了5个基线模型和EWFED模型的对比实验，并使用多个评价指标来衡量各模型的食品安全风险评估性能，结果分别如表7和8所示。依据这些结果，本实施例有如下观察：

表7 Camel milk数据集上所有模型随机初始化运行五次并取平均结果

注：括号中显示了模型的排名(越低越好)。

表8 Pure milk数据集上所有模型随机初始化运行五次并取平均结果

注：括号中显示了模型的排名(越低越好)。

结合表7-8的内容可知以下内容：

1)各模型在食品安全风险评估中的AUC性能均存在不错的表现，但EWFED模型和COPOD模型在两个数据集上呈现出更稳健的性能表现。尤其是ELM模型，它在两个数据集上表现出排名第一和第六的AUC性能，表明模型难以对不同类型不同批次的检测数据提供可靠的检测结果。而EWFED模型和COPOD模型在两个数据集中的AUC性能表现排名第一或第二，表现出基于概率估计的方式在食品安全风险评估中的良好的前景。

2)各模型在两个检测数据集上的Recall_unqualified和FAR均存在不错的表现，但只有EWFED模型在两个数据集上的Recall_unqualified和FAR同时表现良好性能。EWFED模型在两个数据集中的Recall_unqualified均表现为1.0000，表明模型能将检测数据中的所有不合格样本成功检出；EWFED模型的FAR在Camel milk和Pure milk数据集上分别排名第2(0.0153)和第3(0.0666)，能将合格样本的误检数量控制在不影响检测效率的范围之内。

3)EWFED模型在保证检测性能的前提下，检测的时间消耗在6个模型中综合最好。虽然ELM在Camel milk这种小样本数据集上表现出排名第一的检测速度，但在样本量较大的Pure milk数据集上却排名第六，可能的原因是神经网络的训练速度受样本量的影响较明显。而EWFED模型基于经验积累函数进行概率估计，运行速度不易受样本量影响，在两个数据集中的时间消耗分别排名第二和第一。

4)EWFED模型在两个数据集中表现出更稳健的综合性能。在Camel milk和Puremilk数据集上，EWFED模型的4个评价指标中的平均排名分别表现为1.75和1.50，合计为3.25，在六个模型中综合排名第一，表现出了在不同规模不同类型检测数据集中可靠的稳健性。

②合格样本的风险划分

依据“EWFED模型”中阐述的原理，本实施例分别对Camel milk和Pure milk数据集中的测试集数据的风险值分布进行了可视化并依据风险值完成了风险划分，如图4和图5所示。观察这些结果，本实施例有如下发现：

1)由于检测数据中的不合格样本总是检测数据中的“罕见”样本，因此模型获得的两个数据集的样本风险值分布均服从明显的正态分布，这也论证了本实施例使用“3σ”-原则完成对合格样本风险划分的有效性。

2)模型能依据样本的风险值实现对两个数据集中合格样本有可解释性的风险划分。对于样本量较少的Camel milk数据集，模型依然能将原始131个合格样本进一步划分至Safe(0)、Low risk(1)和Medium risk(2)三个风险等级中，其中Medium risk(2)等级没有划分样本的可能原因是这批数据中合格样本的检验指标值较好，不存在检验指标在标准要求范围之内但明显偏离标准值的合格样本。对于Pure milk数据集，模型成功将原始631个合格样本按照风险值划分至三个风险等级中。此外，两个数据集中不合格样本全部被检出并划分至High risk(3)的风险等级中。

③不合格样本的风险追溯

依据“风险评估与分析”中阐述对不合格样本的风险追溯原理，本实施例分别在Camel milk和Pure milk数据集上举例展示了EWFED模型对不合格样本实现了怎样的风险追溯，如图6所示。本实施例绘制了样本在每个检验指标上的风险得分r_i,j以表现样本各检验指标的“罕见”程度。此外，本实施例分别将第90％和99％的线作为参考线(参考线表示了对应检验指标topk％个样本风险得分的情况，k％分别取90％和99％)。本实施例分别追溯了Camel milk数据集中第139个样本和Pure milk数据集中第63个样本的不合格原因，它们已经被模型成功检出。观察追溯信息，本实施例有如下发现：

1)Camel milk数据集中第131个样本，本实施例看到第11、13和14个检验指标的风险得分已经触及或超出第99％参考线，而所有其他检验指标的风险得分均处于该参考线之内。此外，第2、4、10、12和15个检验指标的风险得分处于第90％参考线和第99％参考线之间，这表明可能由于这些检验指标值与其他多数样本的表现差异较大而导致其“罕见”程度较大。为了验证模型风险追溯的有效性，本实施例检查了该样本各检验指标的数据表现，第2、4、10、11-15个检测指标分别对应脂肪、杂质度、黄曲霉毒素和5组菌落总数，其中脂肪(18％)、杂质度(36mg/kg)和黄曲霉毒素M1(34μg/kg)小幅度超出标准范围，而5组菌落总数则因存在两组大幅度超出了标准范围(760000CFU/g，870000CFU/g)导致其整体被标记，这正是该样本为不合格样本的真正原因。

2)Pure milk数据集中第591个样本，本实施例看到第1个检验指标的风险得分已经触及第99％参考线，而所有其他检验指标的风险得分均处于该参考线之内，此外，第3和5个检验指标的风险得分处于第90％参考线和第99％参考线之间，这表明可能由于这两个检验指标值与其他多数样本的表现差异较大而导致样本“罕见”程度较大。值得注意的是，第6个检验指标在第90％参考线和第99％参考线处的风险得分无明显波动，且该值与该样本对应值重合，表明该样本在这个指标上的表现至少符合基本标准，因此，虽然它触及第99％参考线，本实施例仍不认为其可能存在风险性。本实施例同样检查了该样本各检验指标的数据表现，第1、3和5个检验指标分别对应乳糖、非脂乳固体和蛋白质，其中乳糖(1.74g/100g)虽然在标准范围之内，但与其他样本存在较差异；而非脂乳固体(7.6g/100g)和蛋白质(2.7g/100g)超出了标准范围，这也正是该样本为不合格样本的真正原因。

为了实现兼具稳健性、可解释性和追溯性的食品安全风险评估，本发明创新性地提出了一个名为EWFED的端到端的无监督风险预警框架，它基于经验积累分布函数来衡量检测样本的“罕见”程度。具体来说，对于每个样本，EWFED模型对各检验指标进行尾部概率估计，并将这些尾部概率聚合获得样本对应的风险值，依据风险值采用“3σ”-原则实现对合格样本的风险划分，并对导致样本不合格的检验指标完成了追溯。所提出的模型应用于中国某省两个不同类型不同批次的灭菌乳制品检测数据中，实验结果表明，EWFED模型能够为乳制品食品安全提供稳定可靠的检测结果，且时间消耗更低。基于“3σ”-原则的风险划分通过衡量风险值与均值间偏离程度的方式更具可解释性地评估样本的风险等级，将为监管部门提供等级鲜明的划分结果来强化监管效能。本发明为食品安全风险评估的现有研究提供了更高效健全的新思路，并能为相关监管部门提供更系统精准的信息推动食品安全监管的发展。

以上所述，仅是本发明实施例的较佳实施例而已，并非对本发明实施例作任何形式上的限制，依据本发明实施例的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明实施例技术方案的范围内。

Claims

1.一种用于乳制品食品安全的风险预警方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的风险预警方法，其特征在于，

所述的步骤(1)中，用最小-最大归一化方法转化原始数据为无单位数据，消除不同检验指标之间的量纲差异。

3.根据权利要求2所述的风险预警方法，其特征在于，

所述的步骤(1)中，按照食品安全标准对检测指标的不同要求，将食品安全检验指标统一划分为正向指标、逆向指标和振荡性指标三类。

4.根据权利要求1所述的风险预警方法，其特征在于，

所述的步骤(2)中，使用联合累积分布函数对样本的所有检测指标进行概率计算，对于任意x_i∈R^d，以左尾概率来衡量样本X_i，公式如下：

式中，随机变量X_i,j表示样本X_i的第j个检测指标。

5.根据权利要求1所述的风险预警方法，其特征在于，

所述的步骤(3)中，依据所述的潜在分布估计样本各检验指标的左尾和右尾概率，使用偏态聚合的方式从全局的角度汇总尾部概率并在负对数概率空间中获得样本风险值。

6.根据权利要求5所述的风险预警方法，其特征在于，

所述的步骤(3)中，样本风险值的公式如下：

r_i＝maxr^leftX_i,r^rightX_i,r^combinedX_i。

7.根据权利要求1所述的风险预警方法，其特征在于，

所述的步骤(4)中，采用基于3σ-原则的方式依据样本的风险值与均值的偏离程度进行可解释性的风险划分，并在各检验指标的风险得分中对比不合格样本与topk％样本风险得分的分布关系来追溯导致样本不合格的检验指标。

8.根据权利要求7所述的风险预警方法，其特征在于，

所述的步骤(4)中，进行可解释性的风险划分，划分为3个等级，具体公式为：

其中，r_i为样本风险值，μ为平均值，σ为标准差。