CN109657123A - 一种基于信息熵的食品安全事件聚类分析方法 - Google Patents

一种基于信息熵的食品安全事件聚类分析方法 Download PDF

Info

Publication number
CN109657123A
CN109657123A CN201811523039.6A CN201811523039A CN109657123A CN 109657123 A CN109657123 A CN 109657123A CN 201811523039 A CN201811523039 A CN 201811523039A CN 109657123 A CN109657123 A CN 109657123A
Authority
CN
China
Prior art keywords
cluster
attribute
data set
food safety
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811523039.6A
Other languages
English (en)
Other versions
CN109657123B (zh
Inventor
辜萍萍
董敏辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University Tan Kah Kee College
Original Assignee
Xiamen University Tan Kah Kee College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University Tan Kah Kee College filed Critical Xiamen University Tan Kah Kee College
Priority to CN201811523039.6A priority Critical patent/CN109657123B/zh
Publication of CN109657123A publication Critical patent/CN109657123A/zh
Application granted granted Critical
Publication of CN109657123B publication Critical patent/CN109657123B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Human Resources & Organizations (AREA)
  • Educational Administration (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Primary Health Care (AREA)

Abstract

本发明涉及一种基于信息熵的食品安全事件分析方法,包括以下步骤:步骤S1:采集食品安全网站上的数据,并清洗整理生成待分析视食品安全事件数据集;步骤S2:构建改进聚类分析算法;步骤S3:根据得到的改进聚类分析算法对待分析视食品安全事件数据集进行分析,得到聚类结果。本发明利用改进的聚类分析方法从获得的食品安全事件数据出发,结合大数据分析,得到食品安全时间的聚类结果,有助于加强食品安全的检测及监管。

Description

一种基于信息熵的食品安全事件聚类分析方法
技术领域
本发明涉及大数据分析技术与食品安全管理领域,具体涉及一种基于信息熵的食品安全事件聚类分析方法。
背景技术
目前,我国的食品安全危机主要集中在以下几个方面:
食品的源头遭受污染。例如,农产品的种植畜养环境不够天然,非法添加化学制剂,农药严重等。
食品制造企业缺乏诚信与质量安全意识,生产流通环节卫生状况差。
我国食品安全标准还不够完善,需要提高科学性与实用性,以便于检验参考。
监管队伍需要进一步提高专业水平,需要加强打击食品犯罪的力度。因此在智能信息化时代背景下,急需建立一个“互联网+”食品安全监管项目,推进食品安全监管大数据资源共享和应用,提高监管效能。
发明内容
有鉴于此,本发明的目的在于提供一种基于信息熵的食品安全事件分析方法,分析出食品安全事件发生的规律,为各地区在食品安全的监控管理方面提供决策支持。
为实现上述目的,本发明采用如下技术方案:
一种基于信息熵的食品安全事件分析方法,包括以下步骤:
步骤S1:采集食品安全网站上的数据,并清洗整理生成待分析视食品安全事件数据集;
步骤S2:构建改进聚类分析算法;
步骤S3:根据得到的改进聚类分析算法对待分析视食品安全事件数据集进行分析,得到聚类结果。
进一步的,所述步骤S1具体为:
步骤S11:搭建页面抓取框架Scrapy,设置目标网站URL,设置食品安全事件信息起始URL;
步骤S12:创建爬虫文件,并写入将要读取的URL和爬行域名范围;
步骤S13:发起http请求,获取目标网站网页信息,页面抓取框架把目标网站URL封装成一个请求传给下载器,下载器把资源下载下来,并封装成应答包,爬虫再解析Response;
步骤S14:爬虫根据url_token提取目标网站网页信息,并保存在MongoDB中,并将数据输出在csv中;
步骤S15:若页面抓取框架中的调度器传来下一个URL,爬虫会接着处理响应请求并返回项目,再将新的数据请求发送给引擎,即返回步骤S12,否则,信息爬取完成,步骤结束。
进一步的,所述改进聚类分析算法具体为:
步骤S21:设定输入目标的初始聚类中心数k,k≥1;
步骤S22:根据下式计算属性总集合A的信息熵E(A)
E(A)表示整体的信息熵,即所有的属性将数据集U划分的情况。其中,A将数据集U划分成了一个新的的集合C,C={A1,A2,A3,……,Ap},对于C中的任意一个元素Ai表示数据集U中与Bi的属性值完全相等的数据集子集,所以且|A1|+|A2|+|A3|+……+|Ap|=|U|,所以|Ai|/|U|即是表示属性值与Ai完全相等的元素在数据集U中出现的概率;
步骤S23:计算属性总集合中缺少每个属性后的信息熵E(A-{a});
其中E(A-{a})表示去掉a属性后,剩余的属性对U的划分情况,计算公式与E(A)相同;
步骤S24:根据步骤S21和步骤2S2获取的结果,计算每个属性
的权值Sig(a),
若属性a对数据集U毫无影响则E(A)=E(A-{a}),说明a对数据集U的划分没有起到作用,即Sig(a)=0,说明a的属性重要性为0;反之若属性a对数据集U影响越大,则少了a属性的E(A-{a})与E(A)就相差越大;
步骤S25:遍历数据集U计算每个属性的平均密度:
其中,Densa(x)表示对于A中的任意元素a,
对象x在属性a上的平均密度计算方法如下:
步骤S26:对于数据集U中的每一个对象x,计算其加权密度WDens(x):
步骤S27:选取所有对象中加权密度WDens(x)最大的一个,将其设为第一个初始聚类中心,加入聚类中心集合Z;
步骤S28:遍历数据集U中已经选取为聚类中心以外的每个对象x,保存对象的加权密度WDens(x),计算公式与上述步骤S26所述相同;
步骤S29:采用0-1相异度度量方法计算对象x与每个已分配好的初始聚类中心的距离之和d(x):
其中,xi,al与xj,al分别表示数据集中xi和xj两个对象在对应属性上的属性值,如果相等则当前属性间的距离赋值为0,如果不想等则赋值为1,累加所有属性的属性间距离,最后得出两个对象之间的距离,即差异度;;
步骤S210:对每一个对象x,计算m(x)=WDens(x)+d(x)。
步骤S211:比较所有的m(x),选取m(x)最大的那个对象作为新的初始聚类中心,加入聚类中心集合Z;
步骤S212:判断聚类中心数是否达到k个,即|Z|>k是否成立,若成立跳转到步骤S13,若不成立则跳转到步骤S8,继续选择新的初始聚类中心;
步骤S213:根据步骤S24得到的Sig(a)计算每个属性的权值
weight(a):
步骤S214:用改进的相异度度量方法计算相异度矩阵:
wd(xi,xj)=∑a∈Aweight(a)×δa(xi,xj)
步骤S215:计算隶属度矩阵Wl×n
其中,k表示当前数据集划分为k个簇,即存在k个聚类中心,Zi表示当前第i个类的聚类中心,Zh表示其它类的聚类中心;
步骤S216:根据隶属度更新聚类中心集合Z,采用属性众数作为聚类中心的新的属性值。即遍历每一个类簇,计算类簇里每一个属性的每一个属性值的总数,用总数最高的属性值替换当前该类簇的聚类中心;
步骤S217:回到步骤S15重新计算隶属度,根据每个样本的最大隶属度重新归类;如果隶属度没有变化,那么k类的聚类已经完成,跳转至步骤S18;
步骤S218:根据当前隶属度矩阵与相异度矩阵计算聚类准则函数,聚类准则函数为:
其中,n是聚类对象的数量;Zl=[zl1,zl2,...,zlm]代表聚类l的向量,即聚类中心;wi,l∈[0,1]是隶属度矩阵Wl×n的一个元素,它表示对象Xi划分到聚类l中的隶属度,wd是改进后的相异度(距离),α>1是加权指数。
步骤S219:聚类数量k递增1,并回到步骤S21,直到为止,聚类准则函数最小的那一轮聚类为最后的聚类结果。
本发明与现有技术相比具有以下有益效果:
1、本发明采用的聚类分析算法采用信息熵理论对初始聚类中心进行优选,并对每个聚类对象的属性重要性进行重新计算聚类的准确率进一步提高。
2、本发明基于改进聚类分析算法和大数据,可发现不同时不同地区食品安全事件发生的规律,这些潜藏在数据中的知识可以辅助决策,进一步加强食品行业的监管,对食品安全管理人员以及广大消费者提供信息参考。
附图说明
图1是本发明一实施例中系统架构图;
图2是本发明一实施例中数据爬取流程图;
图3是本发明一实施例中改进的聚类分析算法流程图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于信息熵的食品安全事件分析方法,包括以下步骤:
步骤S1:采集食品安全网站上的数据,并清洗整理生成待分析视食品安全事件数据集;
步骤S2:构建改进聚类分析算法;
步骤S3:根据得到的改进聚类分析算法对待分析视食品安全事件数据集进行分析,得到聚类结果。
如图1所示的食品安全事件数据分析系统架构图中,在过程1中完成数据收集,获取对建立算法和数据模型有关的数据,具体操作即是由数据爬虫系统从“掷出窗外”网站(网址:http://www.zccw.info/)上爬取截止到2018年2月的合计3517条食品安全事件数据。一般原始数据都会有大量的无关项,而筛选的标准则是有助于构建规律挖掘模型,所以需要完成特征选择与特征工程的相关工作,如所述的过程2所示。在过程1中获取到的数据记录中确实存在不统一的属性标签,属性值也有缺失,因此需要将这些属性标签统一化做数据集的预处理,将多余属性排除,将残缺数据补全。最后,如所述的过程3所示,将标准化的数据集发送给数据分析系统接受聚类算法分析,分析的结果将有助于食品安全监督部门与普通消费者了解近几年我们国家食品安全事件发生的规律,对于监督管理工作提供决策性参考。
聚类分析模型必须从食品安全网站上获取所要分析的数据集。如图2所示,设置所要爬取的目标网站,该网站的事件数据集存放在其“资料库”板块中,该板块的每个页面存放50条事件记录,可翻页显示下一个50条,每条记录包含新闻标题、新闻日期、事件发生地区、事件主题、相关食品、品牌、不安全因素等多个标签,但是标签类别不统一,所以需要后续的数据集预处理工作。“资料库”板块首页的URL为http://www.zccw.info/index,因此将其设置为起始URL,根据网站URL的命名规律,下一页URL构造策略为http://www.zccw.info/index/page/{id},以id递增的方式发起http请求并获得当前网页信息。数据信息提取后输出在.csv格式的文件中留待处理。
在本实施例中,每一个食品安全事件都是一个数据样本,这些数据样本的所有属性值都是文本型数据,各属性的取值范围如表1所示。
表1
在数据存储方面,采用EXCEL工具以CSV纯文本形式存取数据。文件内容中的每一行表示一条食品安全事件,每一列表示其中一种属性。
在本实施例中,经过上述预处理后得到的食品安全事件数据表如表2所示(因篇幅所限,此处仅提供数据表片段)。
表5
日期 地区 食品品牌 食品种类 不安全因素
2017年 未知 未知品牌 中药 不合格
2017年 未知 三只松鼠 饮品 添加剂
2017年 陕西 未知品牌 饮品 大肠菌
2016年 多地区 未知品牌 肉类 淋巴肉
…… …… …… …… ……
对于离散型的文本型数据,在本发明中采用改进的模糊K-Modes算法实现聚类。传统的模糊K-Modes算法采用了简单的0-1匹配方法作为计算两个对象在同一属性下面的属性值之间的相异度。这个算法的理念是对文本型的数据集进行划分归类,如对于一个由n个对象构成的非空集合U={x1,x2,…,xn},首先随机选取k个对象作为k个初始聚类中心,然后通过0-1匹配的方法计算相异度矩阵,再根据相异度矩阵计算隶属度矩阵,而后通过隶属度矩阵将n个对象划分到最近的初始聚类中心中,形成k个聚类簇,完成一次聚类,然后计算收敛函数,再通过更新聚类中心的方法在每个聚类簇中重新定义一个新的中心,重复之前的内容计算相异度矩阵、隶属度矩阵、分配对象,形成新的k个聚类簇,计算收敛函数,比较两次的收敛函数。多次迭代这样的过程,当收敛函数的值不再改变时,即聚类中心不再发生偏移时,算法结束。但是,该算法具有一些缺点,例如:算法收敛太慢、算法仅能达到局部最优结果而不能达到全局最优结果、算法采用简单的0-1匹配方法来计算对象之间的距离则不能够很好的表现出对象与类之间的相异度、算法结果会受到数据集的输入顺序和初始聚类中心的影响。
参考图3,在本实施例中,所述改进聚类分析算法具体为:
步骤S21:设定输入目标的初始聚类中心数k,k≥1;
步骤S22:根据下式计算属性总集合A的信息熵E(A)
E(A)表示整体的信息熵,即所有的属性将数据集U划分的情况。其中,A将数据集U划分成了一个新的的集合C,C={A1,A2,A3,……,Ap},对于C中的任意一个元素Ai表示数据集U中与Bi的属性值完全相等的数据集子集,所以且|A1|+|A2|+|A3|+……+|Ap|=|U|,所以|Ai|/|U|即是表示属性值与Ai完全相等的元素在数据集U中出现的概率;
步骤S23:计算属性总集合中缺少每个属性后的信息熵E(A-{a})
其中E(A-{a})表示去掉a属性后,剩余的属性对U的划分情况,计算公式与E(A)相同;
步骤S24:根据步骤S21和步骤2S2获取的结果,计算每个属性
的权值Sig(a),
若属性a对数据集U毫无影响则E(A)=E(A-{a}),说明a对数据集U的划分没有起到作用,即Sig(a)=0,说明a的属性重要性为0;反之若属性a对数据集U影响越大,则少了a属性的E(A-{a})与E(A)就相差越大;
步骤S25:遍历数据集U计算每个属性的平均密度:
其中,Densa(x)表示对于A中的任意元素a,
对象x在属性a上的平均密度计算方法如下:
步骤S26:对于数据集U中的每一个对象x,计算其加权密度WDens(x):
步骤S27:选取所有对象中加权密度WDens(x)最大的一个,将其设为第一个初始聚类中心,加入聚类中心集合Z;
步骤S28:遍历数据集U中已经选取为聚类中心以外的每个对象x,保存对象的加权密度WDens(x),计算公式与上述步骤S26所述相同;
步骤S29:采用0-1相异度度量方法计算对象x与每个已分配好的初始聚类中心的距离之和d(x):
其中,xi,al与xj,al分别表示数据集中xi和xj两个对象在对应属性上的属性值,如果相等则当前属性间的距离赋值为0,如果不想等则赋值为1,累加所有属性的属性间距离,最后得出两个对象之间的距离,即差异度;;
步骤S210:对每一个对象x,计算m(x)=WDens(x)+d(x)。
步骤S211:比较所有的m(x),选取m(x)最大的那个对象作为新的初始聚类中心,加入聚类中心集合Z;
步骤S212:判断聚类中心数是否达到k个,即|Z|>k是否成立,若成立跳转到步骤S13,若不成立则跳转到步骤S8,继续选择新的初始聚类中心;
步骤S213:根据步骤S24得到的Sig(a)计算每个属性的权值weight(a):
步骤S214:用改进的相异度度量方法计算相异度矩阵:
wd(xi,xj)=∑a∈Aweight(a)×δa(xi,xj)
步骤S215:计算隶属度矩阵Wl×n
其中,k表示当前数据集划分为k个簇,即存在k个聚类中心,Zi表示当前第i个类的聚类中心,Zh表示其它类的聚类中心;
步骤S216:根据隶属度更新聚类中心集合Z,采用属性众数作为聚类中心的新的属性值。即遍历每一个类簇,计算类簇里每一个属性的每一个属性值的总数,用总数最高的属性值替换当前该类簇的聚类中心;
步骤S217:回到步骤S15重新计算隶属度,根据每个样本的最大隶属度重新归类;如果隶属度没有变化,那么k类的聚类已经完成,跳转至步骤S18;
步骤S218:根据当前隶属度矩阵与相异度矩阵计算聚类准则函数,聚类准则函数为:
其中,n是聚类对象的数量;Zl=[zl1,zl2,...,zlm]代表聚类l的向量,即聚类中心;wi,l∈[0,1]是隶属度矩阵Wl×n的一个元素,它表示对象Xi划分到聚类l中的隶属度,wd是改进后的相异度(距离),α>1是加权指数。
步骤S219:聚类数量k递增1,并回到步骤S21,直到为止,聚类准则函数最小的那一轮聚类为最后的聚类结果。
在本实施例中,为了验证算法的有效性,利用著名的算法有效性指标正确率AC(accuracy)、类精度PC(preci sion)、召回率RE(recall)进行实验比对:
其中k表示数据集当前的聚类数目,令ai代表被正确分配到第i类的数据数量,令bi代表被错误分配到第i类的数据数量,令ci代表被错误排除出第i类的数据数量。实验中,除了准备好有效性指标之外,还需要有明确分类结果的实验数据集,因此,在本实施例中选择加州大学欧文分校提出的用于机器学习的数据库——UCI数据库作为实验数据,目前UCI总共包含335个数据集,是一个常用的标准测试数据集。该数据集中分别含有数值型数据集与文本型数据集,其中的文本型数据集适用于本发明的算法有效性实验。每个数据集提供了一份完整的数据记录、分类属性和分类结果集,实验中将数据集导入数据分析系统并执行改进的聚类算法进而计算PC,AC,RE三项指标值从而检验算法的有效性。
本实施例选择了UCI数据库中的文本型数据集Soybean和Zoo来检验算法。并通过与其他的K-Modes算法进行PC,AC,RE指标值的对比,来展现本发明中算法的优越性。实验中选择随机选取初始聚类中心的K-Modes算法(Huang’s k-modes with random)和基于平均密度选取初始聚类中心的K-Modes算法(Huang’s k-modes with Cao’s method)参与比较。数据表明,本发明中的算法具有较高的聚类有效性。实验结果如表3与表4所示。
表3Soybean聚类有效指标表
表4zoo的聚类有效指标表
在本实施例中,将改进的聚类算法应用于爬虫系统所爬取的食品安全数据集进行规律挖掘,由于数据记录中部分存在信息缺失,经过筛选整理最后留下2751条有效记录。通过上述算法中对最大聚类数的计算,本实施例需要进行52轮聚类,并分别计算聚类准则函数值,取值最小的那一轮聚类为最后的聚类结果。表5显示的是聚类完成后有代表性的聚类中心,由于被曝光事件中没有特别多关于食品品牌的数据,因此在预处理数据时都标记为“未知品牌”,所以在最后的聚类中心中该属性也都是该赋值。
表5
日期 地区 食品品牌 食品种类 不安全因素
2006 北京 未知品牌 零食 添加剂
2011 北京 未知品牌 饮品 不合格
2011 广东 未知品牌 肉类 致癌物
2012 广东 未知品牌 粮油 不合格
2011 山东 未知品牌 水产品 添加剂
2012 山东 未知品牌 水果 农药
2009 浙江 未知品牌 饮品 添加剂
2012 江苏 未知品牌 零食 添加剂
2011 上海 未知品牌 零食 添加剂
2012 上海 未知品牌 饮品 添加剂
2012 福建 未知品牌 肉类 不合格
2012 福建 未知品牌 饮品 不合格
2011 四川 未知品牌 粮油 不合格
2013 湖南 未知品牌 粮油 不合格
2009 湖北 未知品牌 粮油 添加剂
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (3)

1.一种基于信息熵的食品安全事件分析方法,其特征在于,包括以下步骤:
步骤S1:采集食品安全网站上的数据,并清洗整理生成待分析视食品安全事件数据集;
步骤S2:构建改进聚类分析算法;
步骤S3:根据得到的改进聚类分析算法对待分析视食品安全事件数据集进行分析,得到聚类结果。
2.根据权利要求1所述的一种基于信息熵的食品安全事件分析方法,其特征在于:所述步骤S1具体为:
步骤S11:搭建页面抓取框架Scrapy,设置目标网站URL,设置食品安全事件信息起始URL;
步骤S12:创建爬虫文件,并写入将要读取的URL和爬行域名范围;
步骤S13:发起http请求,获取目标网站网页信息,页面抓取框架把目标网站URL封装成一个请求传给下载器,下载器把资源下载下来,并封装成应答包,爬虫再解析Response;
步骤S14:爬虫根据url_token提取目标网站网页信息,并保存在MongoDB中,并将数据输出在csv中;
步骤S15:若页面抓取框架中的调度器传来下一个URL,爬虫会接着处理响应请求并返回项目,再将新的数据请求发送给引擎,即返回步骤S12,否则,信息爬取完成,步骤结束。
3.根据权利要求1所述的一种基于信息熵的食品安全事件分析方法,其特征在于:所述改进聚类分析算法具体为:
步骤S21:设定输入目标的初始聚类中心数k,k≥1;
步骤S22:根据下式计算属性总集合A的信息熵E(A)
E(A)表示整体的信息熵,即所有的属性将数据集U划分的情况,其中,A将数据集U划分成了一个新的的集合C,C={A1,A2,A3,……,Ap},对于C中的任意一个元素Ai表示数据集U中与Bi的属性值完全相等的数据集子集,所以且|A1|+|A2|+|A3|+……+|Ap|=|U|,|Ai|/|U|即是表示属性值与Ai完全相等的元素在数据集U中出现的概率;
步骤S23:计算属性总集合中缺少每个属性后的信息熵E(A-{a})其中E(A-{a})表示去掉a属性后,剩余的属性对U的划分情况;
步骤S24:根据步骤S21和步骤2S2获取的结果,计算每个属性的权值Sig(a),
若属性a对数据集U毫无影响则E(A)=E(A-{a}),说明a对数据集U的划分没有起到作用,即Sig(a)=0,说明a的属性重要性为0;反之若属性a对数据集U影响越大,则少了a属性的E(A-{a})与E(A)就相差越大;
步骤S25:遍历数据集U计算每个属性的平均密度:
其中,Densa(x)表示对于A中的任意元素a,
对象x在属性a上的平均密度计算方法如下:
步骤S26:对于数据集U中的每一个对象x,计算其加权WDens(x):
步骤S27:选取所有对象中加权密度WDens(x)最大的一个,将其设为第一个初始聚类中心,加入聚类中心集合Z;
步骤S28:遍历数据集U中已经选取为聚类中心以外的每个对象x,保存对象的加权密度WDens(x);
步骤S29:采用0-1相异度度量方法计算对象x与每个已分配好的初始聚类中心的距离之和d(x):
其中,xi,al与xj,al分别表示数据集中xi和xj两个对象在对应属性上的属性值,如果相等则当前属性间的距离赋值为0,如果不想等则赋值为1,累加所有属性的属性间距离,最后得出两个对象之间的距离,即差异度;
步骤S210:对每一个对象x,计算m(x)=WDens(x)+d(x);
步骤S211:比较所有的m(x),选取m(x)最大的那个对象作为新的初始聚类中心,加入聚类中心集合Z;
步骤S212:判断聚类中心数是否达到k个,即|Z|>k是否成立,若成立跳转到步骤S13,若不成立则跳转到步骤S8,继续选择新的初始聚类中心;
步骤S213:根据步骤S24得到的Sig(a)计算每个属性weight(a):
步骤S214:用改进的相异度度量方法计算相异度矩阵:
wd(xi,xj)=∑a∈Aweight(a)×δa(xi,xj)
步骤S215:计算隶属度矩阵Wl×n
其中,k表示当前数据集划分为k个簇,即存在k个聚类中心,Zi表示当前第i个类的聚类中心,Zh表示其它类的聚类中心;
步骤S216:根据隶属度更新聚类中心集合Z,采用属性众数作为聚类中心的新的属性值。即遍历每一个类簇,计算类簇里每一个属性的每一个属性值的总数,用总数最高的属性值替换当前该类簇的聚类中心;
步骤S217:回到步骤S15重新计算隶属度,根据每个样本的最大隶属度重新归类;如果隶属度没有变化,那么k类的聚类已经完成,跳转至步骤S18;
步骤S218:根据当前隶属度矩阵与相异度矩阵计算聚类准则函数,聚类准则函数为:
其中,n是聚类对象的数量;Zl=[zl1,zl2,...,zlm]代表聚类l的向量,即聚类中心;wi,l∈[0,1]是隶属度矩阵Wl×n的一个元素,它表示对象Xi划分到聚类l中的隶属度,wd是改进后的相异度(距离),α>1是加权指数。
步骤S219:聚类数量k递增1,并回到步骤S21,直到为止,聚类准则函数最小的那一轮聚类为最后的聚类结果。
CN201811523039.6A 2018-12-13 2018-12-13 一种基于信息熵的食品安全事件聚类分析方法 Active CN109657123B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811523039.6A CN109657123B (zh) 2018-12-13 2018-12-13 一种基于信息熵的食品安全事件聚类分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811523039.6A CN109657123B (zh) 2018-12-13 2018-12-13 一种基于信息熵的食品安全事件聚类分析方法

Publications (2)

Publication Number Publication Date
CN109657123A true CN109657123A (zh) 2019-04-19
CN109657123B CN109657123B (zh) 2022-10-11

Family

ID=66114503

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811523039.6A Active CN109657123B (zh) 2018-12-13 2018-12-13 一种基于信息熵的食品安全事件聚类分析方法

Country Status (1)

Country Link
CN (1) CN109657123B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270191A (zh) * 2020-11-18 2021-01-26 国网北京市电力公司 提取工单文本主题的方法及装置
CN113239859A (zh) * 2021-05-28 2021-08-10 合肥工业大学 一种焦点引导的人脸子空间模糊聚类方法及系统
CN117670378A (zh) * 2024-02-02 2024-03-08 烟台市食品药品检验检测中心(烟台市药品不良反应监测中心、烟台市粮油质量检测中心) 一种基于大数据的食品安全监控方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140075327A1 (en) * 2012-09-07 2014-03-13 Splunk Inc. Visualization of data from clusters
CN106022359A (zh) * 2016-05-12 2016-10-12 武汉理工大学 基于有序信息熵的模糊熵空间聚类分析方法
CN107220831A (zh) * 2017-04-06 2017-09-29 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于防伪溯源系统的用户群体划分方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140075327A1 (en) * 2012-09-07 2014-03-13 Splunk Inc. Visualization of data from clusters
CN106022359A (zh) * 2016-05-12 2016-10-12 武汉理工大学 基于有序信息熵的模糊熵空间聚类分析方法
CN107220831A (zh) * 2017-04-06 2017-09-29 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于防伪溯源系统的用户群体划分方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
小田大梦想: "Scrapy框架流程图解析", 《公开网址:HTTPS://BLOG.CSDN.NET/QQ_37143745/ARTICLE/DETAILS/80996707》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270191A (zh) * 2020-11-18 2021-01-26 国网北京市电力公司 提取工单文本主题的方法及装置
CN113239859A (zh) * 2021-05-28 2021-08-10 合肥工业大学 一种焦点引导的人脸子空间模糊聚类方法及系统
CN117670378A (zh) * 2024-02-02 2024-03-08 烟台市食品药品检验检测中心(烟台市药品不良反应监测中心、烟台市粮油质量检测中心) 一种基于大数据的食品安全监控方法及系统
CN117670378B (zh) * 2024-02-02 2024-04-30 烟台市食品药品检验检测中心(烟台市药品不良反应监测中心、烟台市粮油质量检测中心) 一种基于大数据的食品安全监控方法及系统

Also Published As

Publication number Publication date
CN109657123B (zh) 2022-10-11

Similar Documents

Publication Publication Date Title
US9147154B2 (en) Classifying resources using a deep network
CN103914478B (zh) 网页训练方法及系统、网页预测方法及系统
US8312049B2 (en) News group clustering based on cross-post graph
CN110909164A (zh) 一种基于卷积神经网络的文本增强语义分类方法及系统
CN104346425B (zh) 一种层次化的互联网舆情指标体系的方法及系统
CN110458324B (zh) 风险概率的计算方法、装置和计算机设备
CN110351301A (zh) 一种http请求双层递进式异常检测方法
CN109657123A (zh) 一种基于信息熵的食品安全事件聚类分析方法
CN101819573A (zh) 一种自适应的网络舆情识别方法
CN108470022A (zh) 一种基于运维管理的智能工单质检方法
CN107291755B (zh) 一种终端推送方法及装置
CN112258223B (zh) 一种基于决策树的营销广告点击的预测方法
CN106557558A (zh) 一种数据分析方法及装置
Haddad et al. Temporalnode2vec: Temporal node embedding in temporal networks
Ji et al. Attention based meta path fusion for heterogeneous information network embedding
Aljumah IoT-based intrusion detection system using convolution neural networks
CN113645238B (zh) 一种面向Handle标识体系的DDoS防御方法
Wang et al. Soft-label for multi-domain fake news detection
CN113010705B (zh) 标签预测方法、装置、设备及存储介质
CN113762703A (zh) 确定企业画像的方法和装置、计算设备和存储介质
CN103823847A (zh) 一种关键词的扩充方法及装置
CN116227989A (zh) 多维度的业务信息化监督方法及系统
Cuzzola et al. Automated classification and localization of daily deal content from the Web
CN112581177B (zh) 结合自动特征工程及残差神经网络的营销预测方法
Xu et al. Gcnrdm: A social network rumor detection method based on graph convolutional network in mobile computing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20190419

Assignee: FUJIAN LVQUAN FOOD Co.,Ltd.

Assignor: XIAMEN UNIVERSITY TAN KAH KEE College

Contract record no.: X2023980050300

Denomination of invention: A Clustering Analysis Method for Food Safety Events Based on Information Entropy

Granted publication date: 20221011

License type: Common License

Record date: 20231226

Application publication date: 20190419

Assignee: FUJIAN MEIYI FOODS Co.,Ltd.

Assignor: XIAMEN UNIVERSITY TAN KAH KEE College

Contract record no.: X2023980050288

Denomination of invention: A Clustering Analysis Method for Food Safety Events Based on Information Entropy

Granted publication date: 20221011

License type: Common License

Record date: 20231226

EE01 Entry into force of recordation of patent licensing contract