CN114580934A - 基于无监督异常检测的食品检测数据风险的早预警方法 - Google Patents

基于无监督异常检测的食品检测数据风险的早预警方法 Download PDF

Info

Publication number
CN114580934A
CN114580934A CN202210235241.9A CN202210235241A CN114580934A CN 114580934 A CN114580934 A CN 114580934A CN 202210235241 A CN202210235241 A CN 202210235241A CN 114580934 A CN114580934 A CN 114580934A
Authority
CN
China
Prior art keywords
risk
data
early warning
encoder
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210235241.9A
Other languages
English (en)
Inventor
左恩光
吕小毅
陈晨
陈程
严紫薇
吴伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinjiang University
Original Assignee
Xinjiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinjiang University filed Critical Xinjiang University
Priority to CN202210235241.9A priority Critical patent/CN114580934A/zh
Publication of CN114580934A publication Critical patent/CN114580934A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • Educational Administration (AREA)
  • Biomedical Technology (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Primary Health Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • General Preparation And Processing Of Foods (AREA)

Abstract

本发明为基于无监督异常检测的食品检测数据风险的早预警方法。基于无监督异常检测的食品检测数据风险的早预警方法,包括以下步骤:(1)数据预处理:将原始数据转换成特征提取器可识别的特征矩阵,得到处理好的数据;(2)将所述的处理好的数据输入进自编码器或降噪自编码器进行数据拟合,再通过AE模型训练得到风险值;(3)根据所述的风险值进行风险等级的划分。本发明所述的基于无监督异常检测的食品检测数据风险的早预警方法,大大提高了预警效率。

Description

基于无监督异常检测的食品检测数据风险的早预警方法
技术领域
本发明具体涉及基于无监督异常检测的食品检测数据风险的早预警方 法。
背景技术
随着互联网经济的迅猛发展,消费者选择食品的渠道也变得更加丰富, 线下堂食以及线上外卖。然而,这对食品安全和质量的防控提出了更高的 要求。为了降低食品安全问题对人体健康的危害,如何对食品质量安全风 险做出正确评估、及时的预警是目前的研究热点问题。这有助于把握食品 安全风险变化趋势,为市场监管部门做好风险防控工作提供支持。
食品安全风险预警通常通过风险分析来发现潜在危害,并在食品决策 过程中进行风险管理,为制定和改进食品质量监管决策提供科学的数据支 持。因此,建立一个好的风险分析模型是高效风险早预警的关键。
目前,常见的食品安全风险分析方法包括基于灰色关系的分析方法、 基于贝叶斯网络的方法、基于机器学习的方法和基于人工神经网络的方法。 然而,这些方法有以下两个缺陷:
(1)目前的方法训练过程是有监督的,但风险标签的获取使得工人和 时间成本增加。即在模型训练阶段,目前的方法需要先人为的给定或者计 算训练标签,然后再让模型去拟合训练标签,从而对未知样本进行标签预 测,如图1中的a。
(2)需要手动做特征工程(复杂的数据预处理),训练过程复杂,难 以充分利用数据原始信息。例如会将第一步计算的风险值作为第二步风险 模型的期望输出标签。
有鉴于此,本发明的目的在于提供一种新的食品检测数据风险的早预 警方法,是基于无监督异常检测的基础,可以快速高效地解决样本类别不 均衡等问题,从而实现快速检测。
发明内容
本发明的目的在于提供基于无监督异常检测的食品检测数据风险的早 预警方法,通过重构误差来划分合格和不合格产品;同时,合格样本的早 预警分析是通过风险阈值进行的。
为了实现上述目的,所采用的技术方案为:
基于无监督异常检测的食品检测数据风险的早预警方法,包括以下步 骤:
(1)数据预处理:将原始数据转换成特征提取器可识别的数据矩阵, 得处理好的数据;
(2)将所述的处理好的数据输入进自编码器或降噪自编码器进行数据 拟合,再通过AE模型训练得到风险值;
(3)根据所述的风险值进行风险等级的划分。
进一步的,所述的步骤(1)中,采用最小-最大归一化方法,将原数据 转化为无量纲数据。
再进一步的,所述的转换公式为:
Figure BDA0003539762030000021
Figure BDA0003539762030000022
其中,
Figure BDA0003539762030000023
Figure BDA0003539762030000024
分别表示环境指标或营养指标下样本i数据归一化的结 果。
Figure BDA0003539762030000025
进一步的,所述的步骤(2)中,自编码器包括编码阶段和解码阶段, 且结构对称;
自编码器的编码解码过程为:
y=fθ(x)=σ(Wx+b);
Figure BDA0003539762030000026
Figure BDA0003539762030000027
其中,x=(x1,x2,...,xn)T属于n维空间的样本表示;y=(y1,y2,...,yn)T属于m维空间的新表示;
Figure BDA0003539762030000031
是对输入x设置的同等输出;θ 为参数,
Figure BDA0003539762030000032
W∈Rn×m
Figure BDA0003539762030000033
是输入层的权重矩阵;
Figure BDA0003539762030000034
是偏置向量,σ(·)是激活函数。
进一步的,所述的步骤(2)中,自编码器的优化目标函数为:
Figure BDA0003539762030000035
其中,λ是超参数,取值在0~1之间;q(x)表示训练数据相关的分布; L(x,z)为平方误差,L(x,z)=∑||z-x||2
进一步的,所述的步骤(2)中,去噪自编码器的优化目标函数为:
Figure BDA0003539762030000036
其中,
Figure BDA0003539762030000037
表示训练数据相关的分布。
进一步的,所述的步骤(2)中,将所述的处理好的数据输入进降噪自 编码器进行数据拟合。
进一步的,所述的步骤(3)中,分险等级分为0、1、2、3级。
再进一步的,所述的步骤(3)中,风险分级具体为:当rqi<rtop-52时 为0级:表示安全;
当rtop-41<rqi≤rtop-52时为1级:表示低风险;
当rqi≤rtop-41时为2级:表示中等风险;
当rsi∈E时为3级:表示高食品安全风险;
其中,所述的rqi为合格产品风险得分;
所述的rtop-52为最后检测到的不合格产品得分;
所述的rtop-41为不合格样本总数产品风险得分;
所述的E表示不合格产品集合。
与现有技术相比,本发明的有益效果在于:
1、介绍了两种自编码器用于食品安全风险预警,首次从异常检测的 思路解决食品质量安全预警问题,为食品风险分析提供了一种新可能。
2、采用端到端的无监督风险预警模型,大大提高了预警效率(运行时 间),也更加实用。
附图说明
图1为机器学习算法划分;其中,a为有监督学习,b为无监督学习;
图2为整体框架图;
图3为标准自编码器;
图4为降噪自编码器;
图5为各模型在不同噪声比例下FDR和FAR性能表现图;
图6为Top-n风险得分可视化;
图7为检测产品风险等级划分;
图8为专家验证示意图。
具体实施方式
为了进一步阐述本发明基于无监督异常检测的食品检测数据风险的早 预警方法,达到预期发明目的,以下结合较佳实施例,对依据本发明提出 的基于无监督异常检测的食品检测数据风险的早预警方法,其具体实施方 式、结构、特征及其功效,详细说明如后。在下述说明中,不同的“一实 施例”或“实施例”指的不一定是同一实施例。此外,一或多个实施例中 的特定特征、结构或特点可由任何合适形式组合。
在详细阐述本发明基于无监督异常检测的食品检测数据风险的早预警 方法之前,有必要对本发明中提及的相关背景做进一步说明,以达到更好 的效果。
1、基于机器学习的食品质量安全风险分析模型
风险评估模型的性能是食品安全风险预警的关键。随着人工智能的发 展,机器学习技术也广泛应用于食品安全分析评估,并取得了显著成果。 具体来说,Bouzembak等人建立了贝叶斯网络模型来分析和预测食品安全风 险的化学危害和食品欺诈类型。对于贝叶斯网络,由于网络结构通常是由 专家经验决定的,所以分析性能受经验影响很大。相比之下,ANN具有非线 性和容错性的特点,且建立的模型不依赖于专家的经验,可以很好地拟合数据并准确预测。因此,ANN技术已经被广泛应用于食品安全预警领域。Samuel等人使用模糊分析层次分析法(AHP)技术根据属性的个体贡献计算 属性的整体权重,并通过训练人工神经网络(ANN)分类器预测患者的高频 风险。Wang等人在食品安全实时监控中制定了食品运输安全风险预警策略, 以降低食品供应链风险。随着科技的发展,越来越多的研究者成功地改进 了食品安全预警领域的风险模型。
此外,还衍生出多种网络模型,如反向传播(BP)神经网络,RBF神经 网络和ELM(extreme learning machine)。Liu等人使用BP构建预警模型 来预测食品的检测是否合格。基于监测数据,Zhang等人利用BP建立了食 品安全预警模型。耿等人提出了一种新的基于深度径向基函数(DRBF)的 风险预警模型,结合层次分析法,利用风险加权的概念对复杂的食品安全 检测数据进行建模,实现了灭菌乳的预警。但是,传统的BP和RBF收敛速 度较慢,通常需要成千上万次的迭代,当网络有很多层和节点时,计算复 杂性迅速增加。与传统的神经网络相比,ELM具有更快的学习速度和更好的 泛化性能。因此,与极限学习机相结合的风险评估建模方式也取得了很好 的效果。然而,现有的研究方法要么需要引入外部专家知识,要么收敛速 度慢,要么需要对食品数据预处理计算模型期望输出。作为对比,本发明采用的基于自编码器的异常检测方法能够简洁快速的进行食品安全风险评 估。
在了解了本发明中提及的相关背景之后,下面将结合具体的实施例, 对本发明基于无监督异常检测的食品检测数据风险的早预警方法做进一步 的详细介绍:
食品安全是一个全球各个国家高度重视的问题。对食品安全检测数据 的预警分析和风险控制对于食品安全管理实践具有重要意义。为了有效地 对检测产品进行早预警,本发明提出了基于异常检测的无监督自编码器预 警方法,该方法通过重构误差来划分合格和不合格产品。同时,合格样本 的早预警分析是通过风险阈值进行的。所提出的方法被应用于中国某省的 一批乳制品检测数据上。实验结果表明,无监督的异常检测模型AE能够对 乳制品检测数据进行有效分析,预测正确率(Acc)和误报率(FDR)分别达到 了0.9954和0.9024且仅用时0.54s。本发明为现有的检测数据早预警研究 提供了新思路,快速高效地解决了样本类别不均衡等问题。食品安全监管 部门可以根据检测结果加强对相关食品生产企业的监管。
本发明的技术方案是:
基于无监督异常检测的食品检测数据风险的早预警方法,包括以下步 骤:
(1)数据预处理:将原始数据转换成特征提取器可识别的特征矩阵, 得处理好的数据;
(2)将所述的处理好的数据输入进自编码器或降噪自编码器进行数据 拟合,再通过AE模型训练得到风险值;
(3)根据所述的风险值进行风险等级的划分。
优选的,所述的步骤(1)中,采用最小-最大归一化方法,将原数据转 化为无量纲数据。
进一步优选的,所述的转换公式为:
Figure BDA0003539762030000061
Figure BDA0003539762030000062
其中,
Figure BDA0003539762030000063
Figure BDA0003539762030000064
分别表示环境指标或营养指标下样本i数据归一化的结 果。
Figure BDA0003539762030000065
优选的,所述的步骤(2)中,自编码器包括编码阶段和解码阶段,且 结构对称;
自编码器的编码解码过程为:
y=fθ(x)=σ(Wx+b);
Figure BDA0003539762030000066
Figure BDA0003539762030000067
其中,x=(x1,x2,...,xn)T属于n维空间的样本表示;y=(y1,y2,...,yn)T属于m维空间的新表示;
Figure BDA0003539762030000068
是对输入x设置的同等输出;θ 为参数,
Figure BDA0003539762030000069
W∈Rn×m
Figure BDA00035397620300000610
是输入层的权重矩阵;
Figure BDA00035397620300000611
是偏置向量,σ(·)是激活函数。
优选的,所述的步骤(2)中,自编码器的优化目标函数为:
Figure BDA00035397620300000612
其中,λ是超参数,取值在0~1之间;q(x)表示训练数据相关的分布; L(x,z)为平方误差,L(x,z)=∑||z-x||2
优选的,所述的步骤(2)中,去噪自编码器的优化目标函数为:
Figure BDA0003539762030000071
其中,
Figure BDA0003539762030000072
表示训练数据相关的分布。
优选的,所述的步骤(3)中,分险等级分为0、1、2、3级;
进一步优选的,所述的步骤(3)中,风险分级具体为:当rqi<rtop-52时为0级:表示安全;
当rtop-41<rqi≤rtop-52时为1级:表示低风险;
当rqi≤rtop-41时为2级:表示中等风险;
当rsi∈E时为3级:表示高食品安全风险;
其中,所述的rqi为合格产品风险得分;
所述的rtop-52为最后检测到的不合格产品得分;
所述的rtop-41为不合格样本总数产品风险得分;
所述的E表示不合格产品集合。
优选的,所述的步骤(2)中,将所述的处理好的数据输入进降噪自编 码器进行数据拟合。
异常检测(也称为离群点检测)的目标是以数据驱动的方式确定所有“少 数派”的过程。异常检测是机器学习中一个非常重要的子分支,在各种人工 智能落地应用例如计算机视觉、数据挖掘、自然语言处理中。食品质量安 全检测数据的分布符合异常检测任务的特性,对于大多数的合格样本而言, 不合格的高风险样本属于异常。因此,异常检测算法有潜力实现食品安全 风险评估。
本发明中有两种基于无监督的自编码器的异常检测算法,用于食品安 全风险评估。第一种是经典的自编码器,其具有重建过程简单,可堆叠多 层,以神经科学为支撑点的优点。在无监督的情况下,假设是风险样本服 从不同的概率分布。因为食品检测数据样本不均衡,训练出来的自编码器, 能够将合格样本重建还原,但是却无法将风险样本分布的数据点较好地还 原,导致还原误差较大。然而由于在食品安全实际应用场景中会出现部分检测指标数据缺失的情况,因此,本发明优选改进的自编码器,降噪自编 码器(DenoisingAuto-Encoders)。首先,对输入数据加了一个高斯白噪声, 使干净的输入数据受到局部的损坏,再将其送入传统自编码器,最后让其 尽量重建一个与干净输入相同的输出。因此,降噪自编码器对输入数据中 的噪声具有一定的鲁棒性。
实施例1.
以中国新疆维吾尔自治区乌鲁木齐市产品质量监督检验所提供的2013 年11月至2021年10月的2158份灭菌乳制品数据为例,进行食品风险评 估的实验。所选原始数据均为乳制品数据。本文采用乳糖、酸度、非脂乳 固体(NMS)、脂肪、蛋白质和黄曲霉素M1(AM1)作为乳制品的检测指标。 本文使用的乳制品数据见表1。
表1.2013年至2021年期间食品检验的部分原始数据(检验标准 ″Q/NFRY 0025S-2020″)
Figure BDA0003539762030000081
在本文中,我们用粗体小写字母(如x),粗体大写字母(如X),和书 法字体(如V)分别表示向量、矩阵和集合。
据此,属性网络的定义如下(异常检测应用于食品质量安全风险评估):
给定食品质量检测数据X∈Rn×m,其中n是检测样本的数量,m是指 标的数量。目标是学习一个评分函数f来计算每个样本的风险值ki=f(xi)。 风险值ki可以代表样本xi的预警程度。通过对所有样本的风险值进行排序, 可以根据其位置检测出异常风险样本。
值得注意的是,通过异常检测进行的食品质量安全风险评估是在无监 督的情况下进行的。
基于异常评分的风险预警系统
本实施例提出建立一个食品安全风险早筛查系统,该系统利用食品检 验检测数据快速筛查出存在潜在安全风险的产品。如图2所示,该系统可 分为原始数据处理、特征提取和产品风险划分三个部分组成。首先第一步 是将原始检测数据转换成特征提取器可识别的数据矩阵。第二步将处理好 的数据输入进本文采用的人工智能模型自编码器或降噪自编码器进行数据 拟合,再通过模型训练得到各个产品的风险值。第三步,合格产品通过风 险值划分为安全、低风险和中等风险三个风险等级。值得指出的是,不合 格产品将被直接划分到高风险等级。值得指出的是,本发明提出的早筛查 系统虽然能够大幅提升当前食品安全监测速度和效率,但它不能作为监测 食品安全的唯一方法,筛选出的风险产品需要配合专家小组做进一步的评 估再上报给食品监管部门。
其中,具体操作步骤如下:
(1)数据预处理
该步骤为本发明提出的食品安全风险早筛查系统的第一步。为了对食 品安全进行全面的风险预警,所选择的风险评价指标涵盖我国《消毒乳食 品安全国家标准》中理化指标、污染物限量、霉菌毒素限量和微生物四项 技术要求。其中,乳糖,脂肪、蛋白质和非脂乳固体是营养指标,酸度和 黄曲霉毒素M1是环境指标。营养指标含量不足或环境指标含量过高将导致 食品安全风险。
由于数据分析的结果受到不同风险评价指标维度的影响,我们采用最 小-最大归一化方法,将原数据转化为无量纲数据。在综合风险评价中,正 指数表示指数值越高,风险越大。负指数表示指数越高,风险越低。正负 指数的数据归一化正负指数的数据归一化是由公式(1)和(2)实现的。
数据归一化后,数据值越高数据值越高,风险就越大。
Figure BDA0003539762030000091
Figure BDA0003539762030000092
其中,
Figure BDA0003539762030000093
Figure BDA0003539762030000094
分别表示环境指标或营养指标下样本i数据归一化的结 果。
Figure BDA0003539762030000095
(2)特征提取
该步骤为本文提出的食品安全风险早筛查系统的第二步。本发明采用 自编码器或降噪自编码器作为系统框架的特征提取器以应对实际环境下的 不同场景。
①标准自编码器
自编码器是一类人工神经网络,它以无监督的方式学习高效的数据值 编码。自编码器主要包括编码阶段和解码阶段,且结构对称,编码器的作 用是用来发现给定数据的压缩表示,解码器是用来重建原始输入,如图3 所示。
标准自编码器的编码解码过程可描述为:
y=fθ(x)=σ(Wx+b) (3)
Figure BDA0003539762030000101
Figure BDA0003539762030000102
其中x=(x1,x2,…,xn)T属于n维空间的样本表示,y=(y1,y2,…,yn)T属于m维空间的新表示,
Figure BDA0003539762030000103
是我们对输入x设置的同等输出, θ为参数,
Figure BDA0003539762030000104
W∈Rn×m
Figure BDA0003539762030000105
是输入层的权重矩 阵。
Figure BDA0003539762030000106
是偏置向量,σ(·)是激活函数,如Sigmoid激活函数。因此, 参数优化目标J是使x和z之间的误差最小化。如式(6)所示。
Figure BDA0003539762030000107
其中L是损失函数,我们使用了平方误差L(x,z)=∑//z-x//2。为 了防止过拟合,我们在损失函数上加上了正则项来控制权重减小的程度。 最后本文的自编码器损失函数,即优化目标函数为公式(7)所示。
Figure BDA0003539762030000108
其中q(x)表示与我们的训练乳制品相关的分布。λ是超参数,用来控制 正则化的强度,取值在0~1之间。
在训练时,解码器强迫自编码器选择最有信息量的特征,最终保存在 压缩表示中。最终压缩后的表示就在中间的编码层当中。解码器和编码器 的参数是单独学习的,这样自编码器尝试从降维后的编码中生成尽可能接 近其原始输入的表达。
②降噪自编码器
在现实场景中有许多样本的检测指标并不全面,但食品专家仍然能够 准确发现风险样本。为了风险分析模型能够捕获输入特征的稳定结构,具 有一定鲁棒性,同时对重建特征是有用的。本发明采用降噪自编码器应用 于乳制品风险分析,对如输入表示加人为的局部损坏(Corruputed)
Figure BDA0003539762030000111
使得模型学习到更加具有鲁棒性的特征表达。
如图4所示,具体来说,加入噪声的策略和Vincent的一样,局部损 坏的
Figure BDA0003539762030000112
通过一个随机映射从干净输入x获得:
Figure BDA0003539762030000113
然后,损坏的 输入
Figure BDA0003539762030000114
像普通自编码器一样被映射,但关键的区别在于参数优化目标J,它 使重构的表征z与干净的输入x而不是损坏的输入
Figure BDA0003539762030000115
之间的误差尽可能小。 去噪自编码器的目标函数如式(8)所示。
Figure BDA0003539762030000116
其中,
Figure BDA0003539762030000117
表示与我们的训练乳制品样本相关的分布,AE和DAE的 优化器均为Adam优化器。
在无监督的情况下,我们假设是乳制品风险样本服从不同的分布。因 为绝大多数为非风险样本,训练出来的自动编码器优先将正常样本重建还 原,但是却无法将异于正常分布的数据点较好地还原,导致还原误差较大。
(3)模型训练
①基线模型:
a:KNN
这种方法认为异常点距离正常点比较远,因此可以对于每一个数据点, 计算它的K-近邻距离(或平均距离),并将距离与阈值进行比较。若大于阈 值,则认为是异常点。
b:LOF
首先对于每一个数据点,找出它的K个近邻,然后计算LOF得分,得 分越高越可能是异常点。
c:COF
基于连通性的离群点因子类似于LOF,但是记录的密度估计是不同的。 在LOF中,k近邻是依据的是欧式距离。这间接地假定数据以球形的方式分 布在样本周围。但如果特征有一个直接线性相关,这个密度估算就有问题 了。COF希望弥补这一不足,并使用一种称为链接距离的最短路径方法估计 邻域的局部密度。从数学上讲,这个链接距离是连接所有k个邻居样本的 所有距离之和的最小值。
d:Isolation Forest(iForest)
基本原理是利用树模型把数据进行分割,一直分到只有一个独立点为 止。越快分割成单独数据点,说明这个数据越异常。可以理解为分布稀疏 且离密度高的群体较远的点。用统计学来解释,在数据空间里面,分布稀 疏的区域表示数据发生在此区域的概率很低,因而可以认为落在这些区域 里的数据是异常的。
②评价指标
通过引入了三个层次的指标来确定模型的性能。有四个一级指标 (TP,TN,FP和FN),分别代表真阳性、真阴性、假阳性和假阴性。二级指标 使用精度和召回率来评价两个不同维度的指标。具体计算方法见公式(9)、 公式(10)和公式(11)。
Figure BDA0003539762030000121
Figure BDA0003539762030000122
Figure BDA0003539762030000123
其中,精度(Precision)是检查准确率,代表被标记为安全隐患的样本 在所有预测为食品安全隐患的样本中的比例。错误发现率(FDR)是检查完成 率,是指过滤器成功发现的示例在所有标记为安全隐患的样本中的比例。 误识率(FAR)是指安全样本被误检测为不安全(实际类别是安全的,预测类 别是不安全的)的概率。
Figure BDA0003539762030000124
Figure BDA0003539762030000131
ROC曲线下方面积(AUC)表示分别从安全和不安全样本集中随机抽取 一个安全和不安全样本,安全样本的预测值大于不安全样本。公式(12)和 公式(13)代表总体评价指数和准确度,结合了精度和召回率的结果。
③参数设置:
所有的实验都是在个人电脑上进行的,操作系统为Ubuntu 18.04,两 个NVIDIAGeforce RTX2080Ti(11GB内存)GPU。
④结果分析:
表2.所有模型随机初始化运行超过五次并取平均结果
Models FDR FAR AUC Acc Time/(s)
KNN 0.8048 0.3779 0.9951 0.9925 0.11
LOF 0.7073 0.5668 0.9959 0.9889 9.33
COF 0.7317 0.5196 0.9956 0.9898 48.78
iForest 0.6829 0.6141 0.9931 0.9879 17.22
AE 0.9024 0.1889 0.9963 0.9954 0.58
在乳制品检测数据上首先对比了不同的异常检测方法,验证了本文提 出方法的性能。结果如表2所示,通过计算乳制品检测数据的多种评价指 标来全方位比较各个模型的性能表现。通过这些结果,有以下结论:
I:所有异常检测模型的AUC和Acc值都很高,证明异常检测算法能 够对绝大多数样本正确预测。实验结果表明异常检测算法在食品安全风险 分析具有良好的应用场景。
II:除了在时间花费上不如KNN模型,AE的性能均取得了最好的检测 结果。尤其在FDR指标上,AE的0.9024比最好的基线性能0.8048还显著 高出0.0976。主要的原因是能够捕获每个样本检测值之间的隐藏表示,从 而能将聚集在安全样本内的风险样本筛查出来。
III:在基线模型中,相比于基于距离的KNN、LOF和COF,基于群体的 iForest不能达到可观的效果,可能的原因是部分食品风险样本在大多指标 都是无风险的,这就导致了其在高维空间的位置与正常样本聚集在一起难 以孤立。
IV:AE在FAR指标达到了上取得了很大成功,相对于其他模型。比第 二高的KNN模型0.3779显著提升了0.189,提升超过100%。这表明AE能 够有效避免无风险样本被错误预测成有风险样本。
(4)对比分析:自编码器、降噪自编码器的强度噪音下的风险分析性 能,进行风险划分
①为了评估实际场景下检测数据的缺失对模型预测的影响,人为加入 噪声,对AE、DAE、LOF模型进行实验对比,具体来说,随机选取了一定比 例的样本对其一个正常指标的检测值进行mask,并对不同mask比例的实验 结果进行汇总,如图5所示。
从图5中可以看出:1)在不同加入噪声的样本数占总数的比例下,与 其他模型相比DAE模型的在乳制品异常检测中性能稳定且优秀,一个可能 的原因是,DAE对低资源的噪声具有较强的鲁棒性,能够有效过滤噪声。相 反,AE随着噪声的比例增加对异常样本的识别显著下降。2)在受污染的比 例很小的时候,即加入噪声的样本数占总数的比例为3%时,FDR值相对较 低,一个可能的原因是当受污染的样本过少时,缺少足够的信息让模型去 拟合这些缺失信息,导致模型普遍的鲁棒性较差。3)然后当加入噪声的样 本数占总数的比例为5%时,除了AE外其余模型的性能都有不同程度的提高。
②为了直观的展现自编码器对乳制品风险分析的效果,采取top-n的 方式对所有样本的风险值进行可视化,如图6所示。具体来说,因为数据 集中共41个不合格样本,我们首先选取风险值最大的前41一个样本进行 可视化,结果算法能够检测出37个不合格样本,检测率达到了90.24%。接 下来,依此进行了top-45,top50,top-51,top-52的检测,到top-52时 所有不合格样本均被算法检测出来,因此得到了这批样本的风险得分临界 点。最后我们展示所有样本的风险值分布如图6中top-2158所示。
目前的食品安全监管仅对不合格样本进行惩处,但合格产品同样也具 有一定的风险。因此,我们输出了模型的预测结果并进行了风险划分。如 图7所示,风险标准为0(安全),1(低风险),2(中等风险)或3(高风 险)。评价的总体要求如下:
总体要求:要求专家从风险可能性和严重性两个方面进行打分。打分 范围为0-3。分数越高,产品的潜在食品安全危害越严重。
各级别的描述:
0级:rqi<rtop-52:表示安全,没有明显的食品安全风险。指合格产 品风险得分rqi低于最后检测到的不合格产品得分rtop-52
1级:rtop-41<rqi≤rtop-52:表示低风险,存在食品安全风险,但 不是很明显。指合格产品风险得分rqj高于不合格样本总数产品风险得分 rtop-41,但低于最后检测出不合格产品的的得分rtop-52
2级:rqi≤rtop-41:表示中等风险,有一定的食品安全风险。指合 格产品风险得分rqi高于不合格样本总数产品风险得分rtop-41
3级:rsi∈E:表示高食品安全风险。rsi表示不合格产品得分,E代 表所有不合格产品的集合。
值得一提的是,对于新输入的检测样本,同样的根据模型输出的重构 误差进行风险划分。
考虑到由人工智能模型直接生成的结果不应该直接指导政府部门工作, 引入了专家小组的实例分析环节,由专家小组对模型产生的风险预警结果 进行人工修正。这样人工智能提高了专家小组的工作效率,专家小组提升 了模型的可靠性。为了在食品安全层面验证所提出的方法,我们邀请了乌 鲁木齐市产品质量监督检验所的三位食品安全专家对该方法的预测结果进 行分析。
最终如图8所示,专家小组对合格样本的中、低风险产品发布早预警 公告,并通知食品监管部门对不合格的高风险产品进行管治。
为了有效的对检测合格产品进行早预警,本发明提出了基于异常检测 的无监督自编码器预警方法,该方法通过重构误差来划分合格不合格产品。 同时,合格样本的早预警分析是通过风险阈值进行的。所提出的方法被应 用于中国某省的一批乳制品检测数据上。实验结果表明,无监督的异常检 测模型能够对乳制品检测数据进行有效分析。与其他方法相比,AE具有更 高的泛化和预测精度,DAE能够有效降低真实场景下检测值缺失带来的噪声。 本发明为现有的检测数据早预警研究提供了新思路,快速高效的解决了样 本类别不均衡等问题。食品安全监管部门可以根据检测结果加强对相关食 品生产企业的监管。为在未来的工作中,可以考虑更多的影响因素来进行 综合风险分析,如环境指数、环境质量等。
以上所述,仅是本发明实施例的较佳实施例而已,并非对本发明实施 例作任何形式上的限制,依据本发明实施例的技术实质对以上实施例所作 的任何简单修改、等同变化与修饰,均仍属于本发明实施例技术方案的范 围内。

Claims (9)

1.基于无监督异常检测的食品检测数据风险的早预警方法,其特征在于,包括以下步骤:
(1)数据预处理:将原始数据转换成特征提取器可识别的特征矩阵,得处理好的数据;
(2)将所述的处理好的数据输入进自编码器或降噪自编码器进行数据拟合,再通过AE模型训练得到风险值;
(3)根据所述的风险值进行风险等级的划分。
2.根据权利要求1所述的早预警方法,其特征在于,
所述的步骤(1)中,采用最小-最大归一化方法,将原数据转化为无量纲数据。
3.根据权利要求2所述的早预警方法,其特征在于,
所述的转换公式为:
Figure FDA0003539762020000011
Figure FDA0003539762020000012
其中,
Figure FDA0003539762020000013
Figure FDA0003539762020000014
分别表示环境指标或营养指标下样本i数据归一化的结果。
Figure FDA0003539762020000015
4.根据权利要求1所述的早预警方法,其特征在于,
所述的步骤(2)中,自编码器包括编码阶段和解码阶段,且结构对称;
自编码器的编码解码过程为:
y=fθ(x)=σ(Wx+b);
Figure FDA0003539762020000016
Figure FDA0003539762020000017
其中,x=(x1,x2,...,xn)T属于n维空间的样本表示;y=(y1,y2,...,yn)T属于m维空间的新表示;
Figure FDA0003539762020000018
是对输入x设置的同等输出;θ为参数,
Figure FDA0003539762020000019
W∈Rn×m
Figure FDA00035397620200000110
是输入层的权重矩阵;
Figure FDA00035397620200000111
是偏置向量,σ(·)是激活函数。
5.根据权利要求1所述的早预警方法,其特征在于,
所述的步骤(2)中,自编码器的优化目标函数为:
Figure FDA0003539762020000021
其中,λ是超参数,取值在0~1之间;q(x)表示训练数据相关的分布;L(x,z)为平方误差,L(x,z)=∑||z-x||2
6.根据权利要求1所述的早预警方法,其特征在于,
所述的步骤(2)中,去噪自编码器的优化目标函数为:
Figure FDA0003539762020000022
其中,
Figure FDA0003539762020000023
表示训练数据相关的分布。
7.根据权利要求1所述的早预警方法,其特征在于,
所述的步骤(2)中,将所述的处理好的数据输入进降噪自编码器进行数据拟合。
8.根据权利要求1所述的早预警方法,其特征在于,
所述的步骤(3)中,分险等级分为0、1、2、3级。
9.根据权利要求8所述的早预警方法,其特征在于,
所述的步骤(3)中,风险分级具体为:当rqi<rtop-52时为0级:表示安全;
当rtop-41<rqi≤rtop-52时为1级:表示低风险;
当rqi≤rtop-41时为2级:表示中等风险;
当rsi∈E时为3级:表示高食品安全风险;
其中,所述的rqi为合格产品风险得分;
所述的rtop-52为最后检测到的不合格产品得分;
所述的rtop-41为不合格样本总数产品风险得分;
所述的E表示不合格产品集合。
CN202210235241.9A 2022-03-10 2022-03-10 基于无监督异常检测的食品检测数据风险的早预警方法 Pending CN114580934A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210235241.9A CN114580934A (zh) 2022-03-10 2022-03-10 基于无监督异常检测的食品检测数据风险的早预警方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210235241.9A CN114580934A (zh) 2022-03-10 2022-03-10 基于无监督异常检测的食品检测数据风险的早预警方法

Publications (1)

Publication Number Publication Date
CN114580934A true CN114580934A (zh) 2022-06-03

Family

ID=81780964

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210235241.9A Pending CN114580934A (zh) 2022-03-10 2022-03-10 基于无监督异常检测的食品检测数据风险的早预警方法

Country Status (1)

Country Link
CN (1) CN114580934A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116166978A (zh) * 2023-04-23 2023-05-26 山东民生集团有限公司 一种用于供应链管理的物流数据压缩存储方法
CN117665224A (zh) * 2024-01-31 2024-03-08 深圳海关食品检验检疫技术中心 一种用于食品检测的智能实验室管理方法
CN117665224B (zh) * 2024-01-31 2024-05-28 深圳海关食品检验检疫技术中心 一种用于食品检测的智能实验室管理方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116166978A (zh) * 2023-04-23 2023-05-26 山东民生集团有限公司 一种用于供应链管理的物流数据压缩存储方法
CN117665224A (zh) * 2024-01-31 2024-03-08 深圳海关食品检验检疫技术中心 一种用于食品检测的智能实验室管理方法
CN117665224B (zh) * 2024-01-31 2024-05-28 深圳海关食品检验检疫技术中心 一种用于食品检测的智能实验室管理方法

Similar Documents

Publication Publication Date Title
WO2019237492A1 (zh) 一种基于半监督学习的异常用电用户检测方法
Huang et al. Structure dictionary learning-based multimode process monitoring and its application to aluminum electrolysis process
Tang et al. A probabilistic classifier for transformer dissolved gas analysis with a particle swarm optimizer
CN109948000B (zh) 异质网络的异常目标检测方法、装置、设备及存储介质
Sun et al. Fault diagnosis of power transformers using computational intelligence: A review
CN113255848B (zh) 基于大数据学习的水轮机空化声信号辨识方法
CN109389171B (zh) 基于多粒度卷积降噪自动编码器技术的医疗图像分类方法
CN114724043B (zh) 基于对比学习的自编码器异常检测方法
CN111445103B (zh) 一种基于工业互联网的输电线缆生产质量管理反馈系统
EP2410312A1 (en) A method for computer-assisted analyzing of a technical system
CN115563563A (zh) 基于变压器油色谱分析的故障诊断方法及装置
CN110851654A (zh) 基于张量化数据降维的工业设备故障检测分类方法
CN111310722A (zh) 一种基于改进神经网络的电力设备图像的故障识别方法
CN115859058A (zh) 一种基于宽度学习网络的ups故障预测方法和系统
CN115310837A (zh) 基于因果图注意力神经网络的复杂机电系统故障检测方法
CN114580934A (zh) 基于无监督异常检测的食品检测数据风险的早预警方法
CN114861778A (zh) 一种改进宽度迁移学习的不同负载下滚动轴承状态快速分类方法
CN113110398B (zh) 基于动态时间归整和图卷积网络的工业过程故障诊断方法
CN110779988A (zh) 一种基于深度学习的螺栓寿命预测方法
CN114037001A (zh) 基于wgan-gp-c和度量学习的机械泵小样本故障诊断方法
CN116776209A (zh) 一种关口计量装置运行状态辨识方法、系统、设备及介质
CN114298413A (zh) 一种水电机组振摆趋势预测方法
CN112765148A (zh) 一种基于改进svm多分类的网络入侵检测方法
Zhang et al. Two-step Convolutional Neural Network for Image Defect Detection
Chen et al. Online DGA Sensor Calibration Using GANN and Data Augmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination