CN116502887A - 基于无监督聚类和极限学习机的大米加工链风险评价方法 - Google Patents

基于无监督聚类和极限学习机的大米加工链风险评价方法 Download PDF

Info

Publication number
CN116502887A
CN116502887A CN202310347225.3A CN202310347225A CN116502887A CN 116502887 A CN116502887 A CN 116502887A CN 202310347225 A CN202310347225 A CN 202310347225A CN 116502887 A CN116502887 A CN 116502887A
Authority
CN
China
Prior art keywords
risk
processing chain
rice processing
comprehensive
pollutant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310347225.3A
Other languages
English (en)
Inventor
于家斌
马欣玥
范依云
赵峙尧
张新
崔晓玉
白玉廷
白文帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Technology and Business University
Original Assignee
Beijing Technology and Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Technology and Business University filed Critical Beijing Technology and Business University
Priority to CN202310347225.3A priority Critical patent/CN116502887A/zh
Publication of CN116502887A publication Critical patent/CN116502887A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/02Computing arrangements based on specific mathematical models using fuzzy logic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/02Agriculture; Fishing; Forestry; Mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Human Resources & Organizations (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Primary Health Care (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mining & Mineral Resources (AREA)
  • Marine Sciences & Fisheries (AREA)
  • Automation & Control Theory (AREA)
  • Animal Husbandry (AREA)
  • Fuzzy Systems (AREA)
  • Agronomy & Crop Science (AREA)
  • Quality & Reliability (AREA)
  • Algebra (AREA)

Abstract

本发明是一种基于无监督聚类和极限学习机的大米加工链风险评价方法,属于食品安全技术领域。本发明方法将污染物指标毒理学特性融入到熵权中,使得到的加工链综合风险指数更加可靠;根据确定的污染物指标的综合权重,基于模糊综合分析对其进行风险分级,得到大米加工链单节点的风险评价结果;采用聚类算法对大米加工链的综合污染指数样本进行聚类分析,从而得到聚类中心,即大米加工链风险程度的分级标准;利用极限学习机神经网络建立大米加工链风险评价模型,模型输入是大米加工链的各风险关键节点的风险评价结果,输出是大米加工链风险等级。本发明提升了加工链综合风险指数的精度,达到了精准高效的综合评价大米加工链风险的目的。

Description

基于无监督聚类和极限学习机的大米加工链风险评价方法
技术领域
本发明属于食品安全技术领域,具体是一种基于无监督聚类和极限学习机的大米加工链全链条风险评价方法。
背景技术
我国是粮食食品生产消费大国,因此食品安全问题不仅仅影响着公众健康,还关系到社会稳定和经济发展等问题。近些年来,关于大米的食品安全事件屡见不鲜,如“镉大米”、“麻雀大米”等,这些事件严重危害了公众健康,因此,保障食用大米安全非常重要。
在整条大米加工链食品供应链中,加工环节可以说是处在核心地位,因为加工链是可以控制食品质量安全的重要环节。大米加工链的加工过程包括:原粮采购、投料、除杂(包括初步清理、去石)、砻谷、碾米分级、色选抛光等。由此可见大米加工过程周期较长,可能发生风险的节点较多,有的加工环节可能会对大米造成二次污染。因此,想要对大米加工链主要污染物风险进行准确评价,就需要深入研究大米加工链各个环节的内容、特点以及涉及到的污染物种类。
对于食品安全领域的多节点综合风险评价问题,目前的研究存在以下几方面的问题:首先,在对多节点指标进行赋权时,多采用层次分析法、专家打分法等主观方法,这类方法在确定风险指标的重要程度时多依赖于研究者的主观判断;同时,现有研究中在针对污染物指标进行赋权时并未充分考虑加工链节点指标的特性,只进行单一赋权可能会导致得到的权重不合理,无法精确高效评估生产环节中的安全风险;且由于粮油食品种类繁多,每类食品从生产到成品所经过的环节不尽相同,无法根据一个统一的标准来对全链条的综合风险进行等级划分,目前的研究多是依据专家经验对链条当中的每个节点进行分析,再对全链条的综合风险进行等级划分。这样一来,确定全链条综合风险等级需要耗费大量时间和人工成本,且划分结果的主观性较强,同时最终的结果只适用于某一类链条,方法的普适性较弱。
发明内容
为解决现有技术存在的局限,本发明提出了一种基于无监督聚类和极限学习机的大米加工链风险评价方法,通过融合污染指标的毒理学特性,使研究指标的权重更加客观,通过采用聚类算法得到加工链风险程度的分级标准,为全链条综合风险等级划分节约了大量时间和人力成本,且划分结果更可靠、客观。本发明方法还基于智能数据驱动方法构建大米加工链主要污染物风险评价模型,最终达到精准高效的综合评价大米加工链风险的目的。
本发明的一种基于无监督聚类和极限学习机的大米加工链风险评价方法,包括如下步骤:
步骤1:确定大米加工链中各环节涉及到的污染物指标,将污染物指标的毒理学特性融入到熵权中,以确定各个污染物指标的权重;计算大米加工链上各风险关键节点的各类污染物指标的权重以及整条大米加工链的综合污染指数;
步骤2:根据确定的污染物指标的综合权重,基于模糊综合分析对其进行风险分级,得到大米加工链单节点的风险评价结果;
步骤3:采用聚类算法对大米加工链的综合污染指数样本进行聚类分析,从而得到聚类中心,即大米加工链风险程度的分级标准;
步骤4:利用极限学习机神经网络建立大米加工链风险评价模型;
所述极限学习机神经网络的输入是大米加工链的各风险关键节点的风险评价结果,输出是大米加工链风险等级;训练极限学习机神经网络得到训练好的大米加工链风险评价模型;
检测大米供应链上各风险关键节点上各类污染物值,根据步骤2计算得到各风险关键节点的风险评价结果,输入训练好的大米加工链风险评价模型,然后获得当前大米供应链的风险等级。
所述的步骤1包括:
步骤101:以LD50值和致癌性为基础,对污染物毒理学的风险危害程度进行量化;
步骤102:分别计算污染物指标基于数据的熵权权重,以及融合了污染物毒理学特性的毒理学权重,将两类权重有效计算融合,得到污染物指标的综合权重;
第j类污染物指标的综合权重
其中,wdj为第j类污染物的毒理学权重,wsj为第j类污染物的熵权,m表示污染物指标数量;
步骤103:根据大米加工链的工序环节设置风险关键节点,在各风险关键节点对各污染物进行抽样检测,计算各风险关键节点下各类污染物指标的综合权重,以及各风险关键节点的权重;
步骤104:计算各风险节点的综合污染指数,然后进一步结合风险关键节点的权重可得到整条大米加工链的综合污染指数。
所述的步骤2包括:
步骤201:以国家标准为基础设定5等级安全风险评语集,每个风险等级对应不同的量化值为:0.25a、0.5a、0.75a、a和2a;a为污染物指标的国家标准限量;
步骤202:在各个风险关键节点进行污染物检测,计算各节点的综合风险值,计算得到大米加工链污染物评价模型的期望输出标签;期望输出标签Y计算如下:
对于第i个风险关键节点的第j类污染物的检测值xij经无量纲化处理后得到的相对风险值Pij=xij/aj,aj为第j类污染物指标的国家标准限量;
期望输出标签Y计算如下:
其中,Y=[y1,y2,...,yk]T为所有风险关键节点的综合风险评价序列,yi是第i个风险关键节点的综合风险值,k为风险关键节点数量;P为相对风险矩阵;w为所有风险关键节点的各类污染物的综合权重向量,wij是第i个风险关键节点的第j类污染物指标的综合权重;
步骤203:构建隶属度函数,计算各风险关键节点对5个安全风险等级的隶属度;
设q表示安全风险等级,取值从1到5,分别对应低风险、中风险、警报风险、高风险和极高风险5个模糊评语级;Zq表示q等级所对应的量化值除以国家标准限量后的无量纲值,{Z1,Z2,Z3,Z4,Z5}={0.25,0.5,0.75,1,2};第i个风险关键节点的综合风险值yi对5个安全风险等级的隶属度hiq计算如下:
当q=1时,
当q=2,3,4时,
当q=5时,
计算出yi所对应5个安全风险等级的隶属度hiq后,根据最大隶属度原则即可判断出大米加工链第i个风险关键节点所属的安全风险等级。
所述的步骤3包括:利用Kmeans++算法,以大米加工链综合污染指数为特征变量进行聚类;设置不同聚类个数,通过计算所有样本的平均轮廓系数选取最优聚类数,确定聚类中心;然后进行大米加工链风险级别计算;
设最优聚类数为Q,对一个大米加工链综合污染指数样本,计算该样本与每个聚类中心之间的距离dr,r=1,2,...,Q,其中最小距离为dlevel=min{d1,d2,...,dQ},该最小距离对应的聚类r即该样本的风险级别。
所述的步骤4包括:获取训练样本集合{(xdi,s,ts),i∈1,2,...k,s=1,2,...N},N为样本数量,xdi,s,i∈1,2,...k为第s个输入样本,表示大米加工链的k个风险关键节点的风险评价结果,ts为第s个输入样本对应的大米加工链风险等级;
所述极限学习机神经网络的激活函数为g(.),则大米加工链风险评价模型的输出表达为:
os=∑βjg(ωjxdi,s+dj)
其中,os为大米加工链风险评价模型对于输入样本xdi,s的评价结果,βj为极限学习机神经网络第j个隐层的输出权重,ωj和dj分别是随机产生的第j个隐层的输入权重和偏置;
将上式表示为Hβ=T,H为极限学习机神经网络的隐层输出矩阵,β为隐层输出权重矩阵,T为目标输出,转变为最小二乘问题求取权重矩阵β;
转变的最小二乘问题表示为 为求出的权重矩阵;
求得 为H的Moore-Penrose广逆。
本发明的优点和积极效果在于:
(1)本发明方法采用融合毒理学特性的熵权法对污染物指标进行赋权,使污染物指标的权重更加客观,使评价模型也更具客观性,提高了评价模型的准确率和鲁棒性。
(2)本发明方法用聚类算法Kmeans++对污染指数进行聚类得到对加工链有针对性的风险分类标准,为全链条综合风险等级划分节约了大量时间和人力成本,且划分结果更可靠、客观;再用泛化能力较好的ELM网络对大米加工链进行风险评价,基于智能数据驱动方法构建大米加工链主要污染物风险评价模型,提高了最终评价结果的精度,达到精准高效的综合评价大米加工链风险的目的。
(3)本发明方法对各类污染物量化综合评价结果进行模糊综合分析,划分了风险等级以供相关部门参考,从而进行有效的风险控制。本发明实现了层次赋权并考虑了污染物自身特性,从而提升了加工链综合风险指数的精度,得到风险分类标准,并将其运用至风险评价中,有助于有关部门加强对相关大米生产企业的监管,从而提高大米安全水平,降低大米安全风险。
附图说明
图1是本发明的基于无监督聚类和极限学习机的大米加工链风险评价方法的流程图;
图2是本发明实施例中对大米加工链污染物数据在不同聚类个数下聚类的轮廓系数图;
图3是本发明实施例大米加工链综合污染指数分为3类时的各组样本轮廓系数图。
具体实施方式
下面结合附图和实施例对本发明进行详细说明。
如图1所示,本发明的一种基于无监督聚类和极限学习机的大米加工链风险评价方法,包括如下4个步骤。
步骤1:确定大米加工链中各环节涉及到的污染物指标,将污染物指标的毒理学特性融入到熵权中,以确定各个污染物指标的权重。具体包括如下步骤101~104。
步骤101:以LD50(半数致死量)值和致癌性为基础,对污染物的毒理学的风险危害程度进行量化。LD50和致癌性的量化标准如表1所示,对风险程度的赋值越高,则该污染物指标的毒理学风险越高。
表1食品毒理学程度赋值表
本发明实施例中,大米加工过程中涉及到的污染物有铅、镉、汞、黄曲霉毒素B1、玉米赤霉烯酮和脱氧雪腐镰刀菌烯醇。通过查阅大量文献资料,污染物指标的毒理学特性如下表2所示。
表2污染物毒理学特性
污染物 LD50/(mg.kg-1) 致癌性 危害程度赋值
2000 - 2
2330 - 2
210 3类 3
黄曲霉毒素B1 6 1类 5
玉米赤霉烯酮 20 3类 4
脱氧雪腐镰刀菌烯醇 46 3类 4
遵循不同污染物指标毒理学风险值取高值的原则,如脱氧雪腐镰刀菌烯醇的LD50值为46mg·kg-1,急性毒性赋值为4,而致癌性属于3类,致癌性赋值为3,则根据取最高值原则得到脱氧雪腐镰刀菌烯醇的危害程度赋值为4。依此类推得到6类污染物的毒理学风险程度赋值。
步骤102:分别计算污染物指标基于数据的熵权权重,和融合了污染物毒理学特性的权重,将两类权重有效计算融合,得到污染物指标的综合权重。
对于m类污染物指标以及相对应的n个检测结果可构成样本信息矩阵X=(xi,j)n×m,其中i=1,2,3,…,n,j=1,2,3,…,m,首先进行熵值计算:
归一化处理第j类污染物指标中各检测值,如下:
Vij=(xi,j-xj(min))/(xj(max)-xj(min))
其中,Vij为第j类污染物指标的第i个检测值xi,j经归一化后的结果;xj(max)为第j类污染物指标的n个检测结果的最大值;xj(min)为第j类污染物指标的n个检测结果的最小值。
根据熵值定义,计算第j类污染物指标的熵值ej,如下:
其中,pij为第j类污染物指标的第i个检测值所占的比重:
然后进行熵权计算,第j类污染物指标的熵权wsj为:
且满足
设第j类污染物的毒理学权重为wdj,计算如下:
得到污染物指标铅、镉、汞、黄曲霉毒素B1、玉米赤霉烯酮和脱氧雪腐镰刀菌烯醇的毒理学权重分别为0.1、0.1、0.15、0.25、0.2和0.2。本发明的污染物即危害物。
将熵权法与毒理学特性结合,计算污染物指标的综合权重:
其中,wdj为第j类污染物的毒理学权重,wsj为第j类污染物的熵权,wj为第j类污染物的综合权重。
步骤103:在步骤102得到污染物指标的综合权重后,根据熵强可加原理,对污染物指标的风险因子差异系数进行迭代求和及归一计算,得到取样的各风险关键节点的权重,可知加工链中毒性最大的污染物指标,以便重点检测并清理。
本发明在大米全加工链中根据工序环节设置检测点,也称风险关键节点,在每个检测点对如表2所述的6类污染物进行抽样检测。本发明实施例中,通过原料采购得到原粮,经过清理去石得到净谷,经过砻谷得到糙米,再经碾米分级得到合格米,最后进行色选抛光得到精米,所以设置风险关键节点分别为原粮、净谷、糙米、合格米和精米五类。
对于k类风险关键节点和m类污染物指标所构建的评价指标体系,第l类风险关键节点的效用值Dl为其下m类污染物指标信息效用值dj之和,则可通过熵权法计算其权重:
且满足其中:
dj=1-ej
其中,Wl(l=1,2,...5)为大米加工链的第l个风险关键节点的权重,Dl为其下m类污染物指标信息效用值dj之和。
本发明实施例得到大米加工链中原粮,净谷,糙米,合格米和精米的风险关键节点的权重分别为0.1386、0.1478、0.1889、0.1926、0.3320。
步骤104:计算各风险关键节点的综合污染指数,其是由每个节点对应污染物指标赋权得到的,公式如下:
其中xi是第i个风险关键节点的风险指数,i=1,2,...,5,wij是第i个风险关键节点的第j类污染物指标对应的综合权重,本发明实施例m=6,即j=1,2,...,6,xij是第i个风险关键节点的第j类污染物指标的检测值,经抽样检测得到。
本发明实施例大米加工链的5个风险关键节点的风险指数如下式所示:
在不同风险关键节点下,经过上面步骤102的计算可以得到各节点下各类污染物指标的综合权重wj,可知加工链中毒性最大的污染物指标,以便可以重点检测并清理。
在得到各个节点的风险指数后,则可得到整条大米加工链的综合污染指数:
其中,x为大米加工链综合污染指数,本发明实施例m=6,x1~x5为加工链各个风险节点的风险指数,各个节点风险指数由各个节点所对应污染物指标赋权得到。
步骤2:根据确定的污染物指标的综合权重,基于模糊综合分析对其进行风险分级,得到大米加工链单节点的风险评价结果。
步骤201:以国家标准为基础设定5等级安全风险评语集,每个风险等级对应不同的量化值为:0.25a、0.5a、0.75a、a和2a;5等级安全风险模糊评语集分别对应是低风险,中风险,警报风险,高风险和极高风险。其中,a为污染物指标的国家标准限量,也即关键限值。
步骤202:在各个风险关键节点进行污染物检测,计算各节点的综合风险评价值,得到大米加工链污染物评价模型的期望输出标签。首先需要进行无量纲化处理,具体为污染物的实际检测值与污染物指标关键限值aj的比值所表示的相对风险值:
Pij=xij/aj
其中,Pij为第i个风险关键节点的第j类污染物的检测含量结果xij经无量纲化处理后得到的相对风险值,aj为第j类污染物指标的关键限值,其中i=1,2,...,5,j=1,2,...,6。
将污染物的综合权重向量与得到的各污染物指标的相对风险矩阵相乘,即:
其中,Y=[y1,y2,...,y5]T为所有风险关键节点的综合风险评价序列,yi是第i个风险关键节点的综合风险值,P为相对风险矩阵,w为所有风险关键节点的各类污染物的综合权重向量,至此模型的期望输出标签计算完成。
步骤203:构建隶属度函数,大米加工链单节点的6类污染物指标均属于负效应类指标,即指标检测值需小于关键限值,适用于降半梯形隶属度函数。
设q表示安全风险等级,取值从1到5;Zq表示q等级所对应的量化值除以国家标准限量后的无量纲值,5个等级的安全风险的无量纲值{Z1,Z2,Z3,Z4,Z5}={0.25,0.5,0.75,1,2},分别与模糊评语级低风险,中风险,警报风险,高风险和极高风险相对应。
对于第i个风险节点的综合风险值yi,计算其对应5个安全风险等级的隶属度hiq,如下:
当q=1时,
当q=2,3,4时,
当q=5时,
计算出第i条综合风险值yi所对应5个风险等级的隶属度hiq后,根据最大隶属度原则即可判断出大米加工链单节点所属的安全风险等级。
步骤3:采用聚类算法对综合污染指数进行聚类分析,从而得到聚类中心,即大米加工链风险程度的分级标准。
步骤301:利用改进算法Kmeans++算法,以大米加工链综合污染指数为特征变量进行聚类,采用轮廓系数评价聚类情况;
轮廓系数sj可表示为:
其中aj是第j个样本到同一簇中所有其他样本的平均距离;bj是第j个样本到不同簇中的点之间的最小平均距离,即计算与第j个样本最接近的簇中的点与该样本的平均距离。aj表示第j个样本所在簇中数据的聚合程度,bj表示第j个样本所在簇与其余临近簇的分离程度。
通过历史检测数据获取大米加工链综合污染指数样本集{Xi,i=1,2…n},n为样本数量,每个样本Xi包含一组5个风险关键节点的综合风险值,对样本进行聚类。使用的Kmeans++算法的伪代码如下:
s1:从样本中均匀选取μ1作为初始聚类中心;
s2:对于每一个样本Xi,计算样本Xi到已经选择的最近中心之间最短距离D(Xi);
s3:根据加权概率分布p选择其中一个样本作为新的聚类中心μi,如下式所示:
s4:重复步骤s1和s2,直到选择出聚类中心。
s5:更新标签Y1,Y2,...,Yn(Yi∈{1,2,…,c}):
s6:更新每个集群的新中心μ12,...,μc
其中nr表示属于标签r的样本的数量。
s7:如标签达到收敛精度,则终止该过程。否则,重复s5和s6。
设通过自适应聚类获得c个类别,μr(r=1,2…c)表示第r个聚类的中心,c个类别代表c个标签。
步骤302:设置不同聚类个数,根据步骤301的计算得到各个轮廓系数,bj越大,aj越小,聚类效果越好,轮廓系数取值范围为[-1,1],通过计算所有样本的平均轮廓系数,得到最优聚类数。再根据平均轮廓系数的值确定最优的聚类结果;
对于c个类别的一个聚类情况,平均轮廓系数指所有样本的轮廓系数的平均值:
其中,n是样本数据集中的样本总数。平均轮廓系数值越高,表示聚类质量越好,根据平均轮廓系数来获得最优的聚类结果。
在75组大米加工链污染物数据中,选取60组用于聚类分析,聚类个数分别设为3、4、5、6和7,并分别计算轮廓系数,各个轮廓系数如图2所示。由图2可以看出,对本发明实施例的研究对象大米加工链综合污染指数聚类为3类时,聚类效果最好,轮廓系数为0.7345,因此将加工链综合风险分为低风险(L)、中风险(M)和高风险(H)三个等级,分别由低到高对应三个聚类中心。
当大米加工链综合污染指数等级分为3类时,各组样本的轮廓系数情况如图3所示。如图3所示,所有样本轮廓系数均为正,说明无错误分类情况,60组数据中,低风险共有24个,中风险共有31个,高风险共有5个。
步骤303:根据步骤302中最优的聚类结果确定最优的聚类个数,进行风险等级的分类。最优聚类数为Q,对第j个样本基于聚类算法的风险级别计算为:
dlevel=min{d1,d2,...,dQ}
其中,dr(r=1,2,...,Q)表示第j个样本与第r个簇的类别中心之间的距离;dlevel表示第j个样本与每个簇中心之间的距离最小值。如果dlevel等于dr,则第j个样本被标记为第r个级别。基于数据之间的相似度,以数据驱动的方式获取聚类中心,并根据样本到每个聚类中心的距离进行风险分类。
本发明实施例中,通过步骤302将归一化后的特征数据划为3类,每个聚类中心的指标如表3所示,根据归一化指标计算聚类中心到原点的距离,并将1到3的风险等级分别定义低风险、中风险和高风险。
表3聚类中心及对应风险等级
分类类别 聚类中心 风险等级
1 0.1709 低风险
2 0.2069 中风险
3 0.2640 高风险
步骤4:对得到的风险分级标准,用极限学习机(Extreme learning machine,ELM)神经网络进行评价,得到大米加工链风险评价等级。
步骤401:将步骤203得到的单节点风险评价结果作为ELM网络的输入,将步骤303得到的大米加工链风险分类作为ELM网络的输出,建立大米加工链风险评价模型。
步骤402:设获取训练样本集合{(xdi,s,ts),i∈1,2,...k,s=1,2,...N},N为样本数量,xdi,s,i∈1,2,...k为第s个输入样本,表示大米加工链的k个风险关键节点的风险评价结果,ts为第s个输入样本对应的大米加工链风险等级;
若模型的激活函数为g(.),则ELM风险评价模型的数学表达式为:
os=∑βjg(ωjxdi,s+dj)
其中,将xdi输入模型,经评价模型输出大米加工链风险分类等级oi,βj为ELM网络第j个隐层的输出权重,ωj为随机产生的第j个隐层的输入权重,dj是随机产生的第j个隐层节点偏置。上式还可以表示为:
Hβ=T
式中,H是隐层的输出矩阵,T为ELM加工链风险评价模型的目标输出,则于是上两式便转变成为最小二乘问题,其最终目标是求解出权值矩阵,如下式所示:
可求出ELM风险评价模型的输出权值矩阵为:
其中,为H的Moore-Penrose广逆。
在本发明方法中,通过历史检测数据获取训练样本,获得各风险关键节点的各类污染物检测值,由步骤2能计算得到各风险关键节点所属的安全风险等级,作为ELM模型的输入,在步骤202中能得到一组风险关键节点的期望输出标签,检测数据对应的大米供应链综合风险评价值根据步骤303可得到对应的大米供应链风险等级,将该大米供应链风险等级作为ELM模型的期望输出。利用获得的训练样本集合对ELM模型进行训练。
为了验证ELM网络风险分类的准确性,本发明实施例选取75组加工链污染物指标数据中剩下的15组作为测试集,表4是15组测试集各节点风险和对应加工链综合风险的情况,其中关键节点风险评语集低风险、中风险、警报风险、高风险和极高风险由数字1~5表示。
表4大米加工链评价结果
ELM网络的风险分类结果和真实值的对比如下表5所示,从结果可知,ELM网络性能良好,15个测试样本中只有第3个评价等级与真实等级不同,这意味着ELM的风险分类在测试集的准确率达到93.3%。
表5 ELM评价结果与真实值对比
样本序号 1 2 3 4 5 6 7 8
真实值 M L L L M M M L
ELM M L M L M M M L
样本序号 9 10 11 12 13 14 15
真实值 L L H L L L L
ELM L L H L L L L
在获得训练好的ELM网络评价模型后,在实际使用时,测量大米供应链上各风险关键节点上各类污染物值,然后根据步骤2计算得到各风险关键节点的综合风险值Y,再步骤203中计算各风险关键节点的安全风险等级,输入训练好的ELM网络评价模型,然后获得当前大米供应链的风险等级。
本发明方法以大米供应链安全风险等级的测评进行说明,当适用于其他粮食供应链的安全风险等级评估时,也可以按照上述步骤来实现。本发明方法具有普适性。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。本发明省略了对公知组件和公知技术的描述,以避免赘述和不必要地限制本发明。上述实施例中所描述的实施方式也并不代表与本申请相一致的所有实施方式,在本发明技术方案的基础上,本领域技术人员不需要付出创造性的劳动即可做出的各种修改或变形仍在本发明的保护范围内。

Claims (6)

1.一种基于无监督聚类和极限学习机的大米加工链风险评价方法,其特征在于,该方法包括如下步骤:
步骤1:确定大米加工链中各环节涉及到的污染物,将污染物的毒理学特性融入到熵权中,以确定各类污染物指标的权重;计算大米加工链上各风险关键节点的各类污染物指标的权重以及整条大米加工链的综合污染指数;
所述步骤1包括:
步骤101:以LD50值和致癌性为基础,对污染物毒理学的风险危害程度进行量化;
步骤102:计算各污染物基于数据的熵权和污染物的毒理学权重,进行融合得到污染物指标的综合权重;
第j类污染物指标的综合权重
其中,wdj为第j类污染物的毒理学权重,wsj为第j类污染物的熵权,m表示污染物类别数量;
步骤103:根据大米加工链的工序环节设置风险关键节点,在各风险关键节点对各污染物进行抽样检测,计算各风险关键节点下各类污染物指标的综合权重,以及各风险关键节点的权重;
步骤104:计算各风险关键节点的综合污染指数,然后结合风险关键节点的权重计算得到整条大米加工链的综合污染指数;
步骤2:根据确定的污染物指标的综合权重,基于模糊综合分析对其进行风险分级,得到大米加工链的各风险关键节点的风险评价结果;
步骤3:采用聚类算法对大米加工链的综合污染指数样本进行聚类分析,将得到的聚类中心作为大米加工链风险程度的分级标准;
步骤4:利用极限学习机神经网络建立大米加工链风险评价模型;
所述极限学习机神经网络的输入是大米加工链的各风险关键节点的风险评价结果,输出是大米加工链风险等级;训练极限学习机神经网络得到训练好的大米加工链风险评价模型;
检测大米供应链上各风险关键节点上各类污染物值,根据步骤2计算得到各风险关键节点的风险评价结果,输入训练好的大米加工链风险评价模型,然后获得当前大米供应链的风险等级。
2.如权利要求1所述的基于无监督聚类和极限学习机的大米加工链风险评价方法,其特征在于,所述的步骤103中,计算各风险关键节点权重的方式包括:
设有k个风险关键节点和m类污染物,通过熵权法计算第l个风险关键节点的权重如下:
且满足其中,Dl为第l类风险关键节点下的m类污染物指标信息效用值dj之和,表示为:/>ej表示第j类污染物的熵值。
3.如权利要求1所述的基于无监督聚类和极限学习机的大米加工链风险评价方法,其特征在于,所述的步骤104中,由步骤102计算获得在各风险关键节点下的各类污染物指标的综合权重,则第i个风险关键节点的风险指数其中wij是第i个风险关键节点的第j类污染物指标的综合权重,xij是第i个风险关键节点的第j类污染物指标的检测值;
进一步得到整条大米加工链的综合污染指数其中,k为风险关键节点数量,Wi为第i个风险关键节点的权重。
4.如权利要求1所述的基于无监督聚类和极限学习机的大米加工链风险评价方法,其特征在于,所述的步骤2包括:
步骤201:设定5等级安全风险评语集,5个风险等级的量化值分别为0.25a、0.5a、0.75a、a和2a;其中,a为污染物指标的国家标准限量;
步骤202:在各个风险关键节点进行污染物检测,计算各节点的综合风险值,计算得到大米加工链污染物评价模型的期望输出标签;期望输出标签Y计算如下:
其中,Y=[y1,y2,...,yk]T为所有风险关键节点的综合风险评价序列,yi是第i个风险关键节点的综合风险值,k为风险关键节点数量;w为所有风险关键节点的各类污染物的综合权重向量,wij是第i个风险关键节点的第j类污染物指标的综合权重;P为相对风险矩阵,Pij为第i个风险关键节点的第j类污染物的检测值xij经无量纲化处理后得到的相对风险值,Pij=xij/aj,aj为第j类污染物指标的国家标准限量;
步骤203:构建隶属度函数,计算各风险关键节点对5个安全风险等级的隶属度;
设q表示安全风险等级,取值从1到5,分别对应低风险、中风险、警报风险、高风险和极高风险5个模糊评语级;Zq表示q等级所对应的量化值除以国家标准限量后的无量纲值,{Z1,Z2,Z3,Z4,Z5}={0.25,0.5,0.75,1,2};第i个风险关键节点的综合风险值yi对5个安全风险等级的隶属度hiq计算如下:
当q=1时,
当q=2,3,4时,
当q=5时,
计算出yi对应5个安全风险等级的隶属度hiq后,根据最大隶属度原则判断第i个风险关键节点所属的安全风险等级。
5.如权利要求1所述的基于无监督聚类和极限学习机的大米加工链风险评价方法,其特征在于,所述的步骤3包括:利用Kmeans++算法,以大米加工链综合污染指数为特征变量进行聚类;设置不同聚类个数,通过计算所有样本的平均轮廓系数选取最优聚类数,确定聚类中心;然后进行大米加工链风险级别计算;
设最优聚类数为Q,对一个大米加工链综合污染指数样本,计算该样本与每个聚类中心之间的距离dr,r=1,2,...,Q,其中最小距离dlevel=min{d1,d2,...,dQ},该最小距离对应的聚类r即该样本的风险级别。
6.如权利要求1所述的基于无监督聚类和极限学习机的大米加工链风险评价方法,其特征在于,所述的步骤4包括:
获取训练样本集合{(xdi,s,ts),i∈1,2,...k,s=1,2,...N},N为样本数量,xdi,s,i∈1,2,...k为第s个输入样本,表示大米加工链的k个风险关键节点的风险评价结果,ts为第s个输入样本对应的大米加工链风险等级;
所述极限学习机神经网络的激活函数为g(.),则大米加工链风险评价模型的输出表达为:
os=∑βjg(ωjxdi,s+dj)
其中,os为大米加工链风险评价模型对于输入样本xdi,s的评价结果,βj为极限学习机神经网络第j个隐层的输出权重,ωj和dj分别是随机产生的第j个隐层的输入权重和偏置;
将上式表示为Hβ=T,H为极限学习机神经网络的隐层输出矩阵,β为隐层输出权重矩阵,T为目标输出,转变为最小二乘问题求取权重矩阵β;
转变的最小二乘问题表示为 为求出的权重矩阵;
求得 为H的Moore-Penrose广逆。
CN202310347225.3A 2023-04-03 2023-04-03 基于无监督聚类和极限学习机的大米加工链风险评价方法 Pending CN116502887A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310347225.3A CN116502887A (zh) 2023-04-03 2023-04-03 基于无监督聚类和极限学习机的大米加工链风险评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310347225.3A CN116502887A (zh) 2023-04-03 2023-04-03 基于无监督聚类和极限学习机的大米加工链风险评价方法

Publications (1)

Publication Number Publication Date
CN116502887A true CN116502887A (zh) 2023-07-28

Family

ID=87323892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310347225.3A Pending CN116502887A (zh) 2023-04-03 2023-04-03 基于无监督聚类和极限学习机的大米加工链风险评价方法

Country Status (1)

Country Link
CN (1) CN116502887A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117556339A (zh) * 2023-11-17 2024-02-13 中国标准化研究院 一种网络违法行为风险危险等级评估方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117556339A (zh) * 2023-11-17 2024-02-13 中国标准化研究院 一种网络违法行为风险危险等级评估方法
CN117556339B (zh) * 2023-11-17 2024-04-26 中国标准化研究院 一种网络违法行为风险危险等级评估方法

Similar Documents

Publication Publication Date Title
CN111080356A (zh) 一种利用机器学习回归模型计算住宅价格影响因素的方法
CN116502887A (zh) 基于无监督聚类和极限学习机的大米加工链风险评价方法
CN114764682B (zh) 一种基于多机器学习算法融合的大米安全风险评估方法
CN111291822A (zh) 基于模糊聚类最优k值选择算法的设备运行状态判断方法
CN109300040A (zh) 基于全媒体大数据技术的海外投资风险评估方法及系统
CN115640526A (zh) 钻井风险识别模型及建立方法、识别方法和计算机设备
CN109886314B (zh) 一种基于pnn神经网络的餐厨废弃油检测方法及其装置
CN107992613A (zh) 一种基于机器学习的文本挖掘技术消费维权指标分析方法
CN109597944B (zh) 一种基于深度信念网络的单分类微博谣言检测模型
Pugazhenthi et al. Selection of optimal number of clusters and centroids for k-means and fuzzy c-means clustering: A review
CN113159535A (zh) 一种基于熵权法的软件服务绩效评价方法
CN112541636A (zh) 输电线路覆冰风险预警方法、装置、介质和电子设备
CN117332287A (zh) 一种基于聚类分析的评估指标权重数据处理方法
CN112241808A (zh) 路面技术状况预测方法、装置、电子设备及存储介质
CN112151185A (zh) 一种儿童呼吸疾病与环境数据关联分析方法及系统
CN113657726B (zh) 基于随机森林的人员的危险性分析方法
CN106709522B (zh) 一种基于改进模糊三角数的高压电缆施工缺陷分级方法
CN113205366B (zh) 一种基于产品销售数据的客户偏好信息量化与挖掘的方法
CN115130343A (zh) 一种基于ga深度优化机器学习的管道缺陷类型识别方法
CN112733903B (zh) 基于svm-rf-dt组合的空气质量监测与告警方法、系统、装置和介质
CN115392618A (zh) 一种基于ahp-ew和ae-rnn融合的食品安全风险预警模型及其建立方法
CN115115414A (zh) 一种基于机器学习的二手车估价方法
CN113205274A (zh) 一种施工质量定量化排名方法
CN114757495A (zh) 一种基于逻辑回归的会员价值量化评估方法
CN113191636A (zh) 基于深度学习技术的水产品安全预警监测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination