CN110008279A

CN110008279A - 一种基于“关系-权值”有序矩阵的可视分析方法与应用

Info

Publication number: CN110008279A
Application number: CN201910237189.9A
Authority: CN
Inventors: 陈谊; 吕程; 王现发
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2019-03-27
Filing date: 2019-03-27
Publication date: 2019-07-12
Anticipated expiration: 2039-03-27
Also published as: CN110008279B

Abstract

本发明公布了一种基于“关系‑权值”有序矩阵的可视分析方法与应用，将实体表示为实体集合中的元素；实体关联数据有且只有两个实体集合，不同集合的实体之间具有关联关系，并根据关联关系建立二部图模型；采用RW‑Rank排序方法计算实体的RW值，根据RW值大小对实体进行排序；再采用矩阵热力图对数据进行可视化，可用于分析学生选课数据、农药残留检测数据等具有关联关系的数据。本发明还提供了一个基于RW‑Rank排序方法的食品农药残留可视分析系统，提供多个联动的视图，包括矩阵热力图、词云、饼图以及平行坐标，可帮助分析人员理解和分析农药残留检测数据，并可交互式地探索发现关键的农药、农产品及它们之间的关联关系。

Description

一种基于“关系-权值”有序矩阵的可视分析方法与应用

技术领域

本发明涉及信息可视化、数据分析和食品安全技术领域，主要涉及一种基于“关系-权值”有序矩阵的可视分析方法、系统及应用。

背景技术

随着大数据时代的到来，各领域产生的数据不仅仅维度增加了，而且形式更复杂、多样，这为关联数据的研究带来了许多新的机遇与挑战。关联数据广泛存在于各行各业，如食品安全领域农药-农产品的关联数据、教育领域学生-课程成绩的关联数据等等。通常，关联数据是指具有某种关联关系的实体的集合，可以用一个关系矩阵来表达。在对关联数据进行分析中，往往存在具有两个实体集合的关联数据。其数据特征是所有的实体有且只有两个类别，构成两个子集，不同子集的实体之间存在多对多的关系，同一个子集内的实体之间无关系。食品安全领域的农产品中农药残留检测数据就具备这一特征。在农药残留检测数据中存在农药和农产品两个实体集合，且农药和农产品之间具有检出关系，而农药与农药之间、农产品与农产品之间无直接关系。在关联关系的分析中，如何清晰地表示数据之间的关联关系以及关联权值，特别是极端值(如最大或最小值)是一个亟待解决的基本问题。关联数据在可视化领域中可以通过不同的方式展现，包括节点-链接、树图、弦图与矩阵热力图等等。这些可视化方法需要清晰地表示数据之间的关系以及关联权值。在节点-链接、树图中，由于实体之间的关系通过节点之间的连线进行表示，容易出现实体关系之间连线的遮挡和交叉问题。在矩阵热力图中可以将关联数据的一个子集映射为矩阵的行，另一个子集映射为列，每个矩阵单元的值则为每一行、每一列对应的关系权值。矩阵热力图可以很好解决节点-链接与树图中存在的遮挡和交叉问题，并且对于稠密图空间利用率较高。

在大量无规律的数据中用户往往需要花费较多的时间和精力才能发现有用的信息。通常在数据分析中会对数据进行排序(升序或降序)以便于人们理解数据并探索数据特征。目前排序算法有很多，大致可以分为两类。第一类用于对简单的数值进行排序。这类排序算法有冒泡排序、选择排序、快速排序、堆排序、基数排序、桶排序等等。第二类用于对相互关联的实体进行排序，例如因特网中的网页。这类排序算法有PageRank算法、HITS算法、RLR算法、LambdaMART算法等。PageRank算法典型应用是解决链接分析中网页排名的问题。其核心思想是若一个网页被很多其他网页链接，则说明该网页重要性较大，排序的次序较高；若一个重要性大的网页链接到其他网页，那么被链接到的网页的重要性会相应地提高。但是PageRank算法只考虑实体的关联关系，忽略了关联权值。所以，关联数据可视分析的一个难点是如何在关联分析中兼顾实体关系和关联权值。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于“关系-权值”有序矩阵的可视分析方法及应用。

本发明首先提出基于“关系-权值”的有序矩阵可视分析方法，结合实体间的关系和关联权值对实体进行排序，称为RW-Rank(Relation-Weight Rank)方法。在RW-Rank方法中，首先为每行、列实体定义一个RW值来定量地评估其重要性，并通过其关系与关联权值进行迭代计算。根据RW值对矩阵的行、列重新排序。最后，通过可视化映射生成一个有序的矩阵热力图。通过可视化的颜色映射可以清晰地找到过大或过小的权值。在矩阵热力图中，实体行、列的位置则代表了实体在同一个集合内的重要程度。本发明还结合农药残留检测数据提供一个基于RW-Rank方法的食品农药残留可视分析系统。该系统提供了多个联动的视图，包括有序矩阵热力图、词云、饼图和平行坐标。此外，系统还提供交互方式，如过滤、高亮、套索等，帮助分析人员理解和分析农药残留检测数据，并且可交互式地探索发现关键的农药和农产品以及它们之间的关联关系。

本发明提供的技术方案如下：

一种基于“关系-权值”的有序矩阵可视分析方法，将实体关联数据抽象成二部图模型，采用矩阵热力图进行可视化；其数据特征是有且只有两个实体集合构成，不同集合的实体之间具有关联关系。例如，学生选课数据，全部学生构成一个学生集，所有的可选课程构成一个课程集，只有学生与课程之间存在选课关系。实体是指集合中的元素。然后，结合实体的关联关系与关联权值计算集合中每个实体的RW值，根据RW值的大小分别对两个子集中的实体进行重新排序；RW值是衡量实体重要性的一个指标，在不同的数据集中实体重要性具有不同的含义。具体包括如下步骤：

A.将实体关联数据抽象成二部图模型，并采用矩阵热力图进行可视化。

A1.将实体关联数据抽象成二部图模型。抽象后的实体关联数据可以表示为二部图G＝(V,E)，V＝{P,R}，P＝{p₁,p₂,...p_i...,p_n}表示一个数据子集，p_i表示一个数据子集中的元素，代表现实世界中的实体，R＝{r₁,r₂,r₃,...r_j...,r_m}表示另一个数据子集，r_j表示另一个数据子集中的元素，代表现实世界中与p_i表示的实体具有关联关系的另一实体，E＝{e₁₁,e₁₂,e₁₃,...e_ij...,e_nm}，其中e_ij表示两个数据子集中实体之间的关联权值。

A2.将A1中抽象后生成的二部图，使用矩阵热力图进行可视化。二部图中上、下(即分别P、R)两个数据子集中所有的实体分别映射为矩阵热力图的行、列。二部图中实体与实体之间的连线则表示实体与实体之间的关联权值，在矩阵热力图中采用分位数划分的方式对权值进行划分，并映射到给定的颜色区间。

B.根据实体的关联关系与关联权值计算集合中每个实体的RW值，具体包括如下步骤：

B1.根据关联数据中两个数据子集的关联关系构造关系矩阵A。关系矩阵的行数与列数是两个数据子集中所有实体的总和，构成N*N的关系方阵。此外，两个数据子集中的关联关系是双向的，即实体i和实体j之间的关系等于实体j和实体i之间的关系。构造关系矩阵如下：

其中，N＝n+m，表示两个数据子集中所有实体数量的总和。n、m分别表示两个数据子集的实体数量；关系矩阵的所有行的实体依次是{p₁,p₂,...,p_n,r₁,r₂,r₃,....,r_m},所有列的实体依次是{r₁,r₂,...,r_m,p₁,p₂,p₃,...,p_n}。x_ij是指一个数据子集中第i个实体与另一个数据子集中第j个实体的关联权值；而在关系矩阵中x_ij则表示第i行第j列数据项的取值，其计算方式如公式1。

其中，e_ij表示两个子集中实体之间的关联权值，通过实体之间的关系直接得到；例如，在具体实施例中e_ij表示农药i在农产品j中的残留含量值。

B2.进一步地，根据B1生成的关系矩阵A构造转移矩阵M。

首先，计算关系矩阵A中每一行实体的出度，即该行中关系权值非零的元素个数，记作O_i；然后，将该行中关系权值非零的元素所在的位置使用1/O_i替换。依次对关系矩阵A中所有实体进行上述操作，最后将矩阵进行整体转置则可以得到转移矩阵M。转移矩阵M的构造如下：

其中，y_ij是指实体j对实体i的RW值的影响比例系数，在具体的实施例中是指影响农产品(或农药)i的RW值中农药(或农产品)j的占比。计算方式如公式2，O_i表示第i行实体的出度，在具体实施例中是指对农产品(或农药)的RW值有影响的农药(或农产品)个数。

B3.计算实体的RW值。

一个实体的RW值表示其在关联关系结构中的重要程度，计算方式如公式3。计算过程加入α阻尼系数是为了综合权衡与实体无直接关联关系的实体对其排序结果的影响。

其中，RW_j表示实体j的RW值；RW_i表示实体i的RW值；K表示对实体i与实体j之间的关联权值的计算方式；α是值为0到1的阻尼系数，一般取0.85。在具体的实施例中K指的是对关联权值取对数、取倒数两种计算方式。

C.构造一个N行1列的特征向量T，初始化的值全部为1；通过迭代计算，生成特征向量T’，T’为B3中生成的转移矩阵中对应实体的RW值。

将特征向量T与B3中生成的转移矩阵相乘得到新的特征向量T’。若新生成的特征向量T’与特征向量T的差值小于给定的阈值ε，则新生成的特征向量T’为B3中生成的转移矩阵中对应实体的RW值；否则，将新生成的特征向量T’赋值给特征向量T继续与转移矩阵相乘，接着进行判断，直到满足差值小于阈值则迭代过程结束。因计算过程最终会收敛，阈值ε取很小的数即可，如0.0001或者0。

D.按照C中计算生成的特征向量T’中对应实体RW值的大小对矩阵热力图的实体进行重新排序，形成行列有序矩阵热力图。每行的实体按从上到下依次递减的顺序进行排序，每列的实体按从左往右的依次递减的顺序进行排序。

本发明还提供了一个基于RW-Rank方法的食品农药残留可视分析系统，用于对比可视分析食品安全领域的农药残留检测数据。系统由四个视图组成，分别是矩阵热力图、词云、饼图以及平行坐标，并使用Colorbrewer中离散和连续的配色方案来为农药残留含量值的大小进行可视化的映射。其中，矩阵热力图由主视图与子视图两部分组成；词云视图，分别表示农药的检出频次和农产品的采样次数；饼图可以用来分析农药污染等级的占比分布情况；最后，平行坐标从农药残留含量、MRL标准、农药分类、污染等级以及农药名称展示2014年或2015年的详细数据信息，帮助用户了解数据的分布情况。此外，系统为用户提供联合高亮、多图联动、过滤、套索的交互方式。当用户悬停在矩阵热力图中任意一个单元格时，单元格变为蓝色，相应的农药和农产品高亮显示。同时，另一个矩阵热力图也相应地高亮，便于用户进行对比。饼图和平行坐标可以通过鼠标点击农药词云和农产品词云联动更新。对平行坐标进行过滤可以保留特定范围内的信息，从而减轻视觉混乱。用户还可以使用平行坐标右上角的套索工具来圈选感兴趣的数据。该系统既可以分析单个时间段中农产品的受污染情况，也可以对比分析两个时间段中相同农产品的残留含量的变化。

系统上半部分由参数面板、矩阵热力图视图和词云视图组成。用户通过设置左边的参数面板对感兴趣的数据进行筛选，点击确定按钮，系统自动地生成该数据的可视化图表。在矩阵热力图中每一行表示一个农药实体，每一列表示一个农产品实体。不同的颜色编码表示不同的农药残留含量。系统的主视图记作矩阵A，用户可以通过“Single_Data”、“Combine_Data”两个标签选择数据进行分析，其中“Single_Data”是2014年或者2015年的农药残留检测数据生成的矩阵热力图；“Combine_Data”是将2014年与2015年的农药残留检测数据进行合并后生成的矩阵热力图。系统的子视图记作矩阵B，它提供四个标签让用户进行交互切换。“Weight_1”展示的是结合实体的关联权值使用RW-Rank方法生成的有序矩阵热力图。“Relation_1”展示使用PageRank算法对“Single_Data”数据进行计算生成的有序矩阵热力图。同样地，“Weight_2”和“Relation_2”展示的是对“Combine_Data”数据进行计算后生成的有序矩阵热力图。为了便于用户更好的挖掘有用的信息和对比排序前后数据的变化，使用并列与并置两种方式进行可视化展示。在词云视图中，视图上半部分为农药子集中的实体，下半部分为农产品子集中的实体。用户可调整时间与检测地区参数对数据进行筛选。农药的检出频次和农产品的采样次数映射为词云的大小，且不同的数值范围使用不同的颜色进行可视化展示。当用户将鼠标悬停到词云上时可以查看具体的数值大小，点击农药词云可以联动更新左下方的饼图，点击农产品词云可以联动更新右下方的平行坐标视图。

系统下半部分由饼图和平行坐标组成。饼图的圆心处显示的是用户在农药词云中选择查看的农药。农药的污染等级一共有四种情况，其中1级为污染程度最轻的，3级为污染程度较严重的，采用不同的颜色进行可视化，弧形面积的大小代表具体一种污染程度的记录数量在这种农药的所有检出记录数量中占多少比例。农药污染等级判断条件如下：

1级污染为农药残留含量(记为PRC)＜0.1MRL；

2级污染为0.1MRL≤PRC＜MRL；

3级污染为PRC≥MRL；

待定为农产品中未对该农药残留限量进行规定。

用户可以点击饼图下方的图例自定义设置查看污染等级的类型与个数，饼图会自动地进行更新。在平行坐标视图中有农药残留含量、MRL(最大残留限量)、污染等级、农药类别与农药名称5个轴，可以直观地将这5个维度中数据的分布情况展示给用户。平行坐标中折线的颜色代表农药残留含量的大小，也就是矩阵热力图中的关联权值。农药残留含量与MRL轴间的线段的趋势可用于进一步分析农药污染，作为饼图中污染程度的细节分析。线段向上倾斜表示农药残留含量小于MRL值，则表示污染程度较轻；而向下倾斜表示农药残留含量大于MRL值，则表示污染程度较严重。当数据量较大时，用户可以使用左侧的颜色图例对数据进行过滤，或者使用右上方的套索工具圈选感兴趣的数据。

针对上述基于“关系-权值”有序矩阵的可视分析方法及应用，本发明具体实施例中，关系子集分别为农药子集与农产品子集、关联权值为农产品中农药的残留含量值、检测地区有5个，检测时间为2014年和2015年，共涉及73种农产品，276中农药。一条检出记录是指在一个农产品中检测到一种农药的残留含量。特别地，检出记录中的MRL属性是农药的残留最大限量(Maximum Residue Limits的简称，它是指在某种农产品中农药残留的法定最高允许浓度，以每千克农产品中农药残留的毫克数(mg/kg)计算。

与现有技术相比，本发明的有益效果是：

本发明提出一种基于“关系-权值”有序矩阵的可视分析方法及应用，根据实体的关联关系与关联权值对实体进行排序，并通过可视化映射生成有序矩阵热力图。与现有的排序方法对比，RW-Rank方法可以根据关联关系与关联权值对实体进行排序，即综合结构和属性值对实体进行排序，辅助用户完成分析任务。采用RW-Rank对数据进行排序，用户可以快速发现异常的实体、对比实体关联权值的变化，为后续的决策提供依据。此外，本方法可应用于其他具有关联关系的数据，如学术界中根据文献的之间的引用量与引用关系对文献的重要程度进行排序、社交网络中根据人际间的通信次数与人际关系对人的影响力进行排序。

本发明设计并实现的基于RW-Rank方法的食品农药残留可视分析系统，包括矩阵热力图、词云、饼图以及平行坐标。此外，系统提供过滤、高亮、套索等交互方式，允许分析人员对关联数据进行分析，探索隐含的模式以及验证假设。针对农药残留检测数据系统可以展示所有的农产品、农药以及农药的残留含量，对比2014年与2015年农药残留含量的变化。通过RW-Rank对农产品、农药进行排序后，可以分析矩阵热力图中差异显著的残留含量，根据农药或农产品所在行、列来判断异常值。

附图说明

图1为本发明实施例中基于关联关系与关联权值排序的RW-Rank方法的流程图；

图2为本发明实施例中基于RW-Rank方法的食品农药残留可视分析系统的流程图；

图3为本发明具体实施例中将数据抽象成二部图的示意图；

其中，(a)是农药残留检测数据；(b)是抽象后的二部图，二部图中上、下两个数据子集指的是P、R两个子集，上半部分表示农产品子集中的实体，下半部分表示农药子集中的实体，上下两部分的连线表示农产品中农药的残留含量。

图4为本发明实施例中根据用户设置的参数对数据进行筛选后采用矩阵热力图可视化的界面；

其中，(a)为参数面板；(b)为2014年A市蔬菜数据按字母顺序采用矩阵热力图可视化的界面；(c)为相同的数据经过RW-Rank方法对农药和农产品进行排序后生成有序矩阵热力图的界面；每个矩阵单元的颜色映射为农产品中农药的残留含量大小。

图5为本发明实施例中将2014年与2015年的A市的蔬菜数据进行合并后使用矩阵热力图进行可视化的界面；

其中，(a)为合并后的数据按字母顺序采用矩阵热力图可视化的界面；(b)为相同的数据经过RW-Rank方法对农药和农产品进行排序后生成有序矩阵热力图的界面。在农产品中农药的残留含量的差异映射为蓝色、红色的区间内。具体来说，蓝色表示农药的残留含量2014年小于2015年，红色表示农药的残留含量2014年大于2015年。

图6为本发明实施例中使用词云将农药子集与农产品子集中的实体个数进行展示的界面；其中，词云的大小分别表示农药的检出频次与农产品的采样次数。用户可以通过鼠标悬停在词云上精确地查看数值的大小。

图7为本发明实施例中用户点击农药词云中procymidone时，联动生成饼图的界面，共有四种污染等级以及相应等级所占比例的大小。

图8为本发明实施例中用户点击农产品词云中韭菜时，联动生成平行坐标的界面。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种基于“关系-权值”有序矩阵的可视分析方法及应用。RW-Rank方法综合考虑实体的关联关系与关联权值对实体进行排序，辅助用户探索分析重要或异常的实体以及隐含的模式，挖掘数据中有用的信息。基于RW-Rank方法的食品农药残留可视分析系统，由四个视图组成分别是矩阵热力图、词云、饼图以及平行坐标，用于对比可视分析食品安全领域的农药残留检测数据。同时系统提供了联合高亮、多图联动、过滤、套索的交互技术帮助用户向下钻取挖掘深层次的知识。可面向食品安全领域的农药残留关联数据、学术界中论文引用的关联数据、社交网络中人际的关联数据等进行探索分析。

以下实施例是使用本发明提供的基于“关系-权值”的有序矩阵可视分析方法对2014、2015年A市的蔬菜中各类农产品的农药残留含量数据进行分析的过程。图2为本发明实施中基于RW-Rank方法的食品农药残留可视分析系统的流程图。原始数据如表1、表2所示：

表1 2014年A市蔬菜中各类农产品的农药残留含量部分原始数据

表2 2015年A市蔬菜中各类农产品的农药残留含量部分原始数据

采用本发明提出的一种基于“关系-权值”有序矩阵的可视分析方法及应用，对上述农药残留检测数据进行分析，该方法的具体步骤为：

A.将农药残留检测数据抽象成二部图模型，并采用矩阵热力图进行可视化。抽象后的数据可以表示为G＝(V,E)，V＝{P,R}，P＝{菠菜,西葫芦,...p_i...,苹果}表示农产品子集，p_i表示一个农产品实体，R＝{bifenthrin,carbendazim,...r_j...,propamocarb}表示农药子集，r_j表示一个农药实体，E＝{0.0074,0.0290,...e_ij...,0.02}表示在一个农产品中一种农药的残留含量大小(单位mg/kg)。采用矩阵热力图可视化的结果如图4(a)、图5(a)所示。

在具体的实施中，用户可以通过参数面板的筛选框选择A、B、C、D、E五个地区，选择蔬菜、水果两个大类以及2014年、2015年两个时间。选择完毕后使用鼠标点击确认按钮即可将筛选后的数据可视化呈现出来。从图4(a)的矩阵热力图中可以清晰的看到农药残留含量相对集中在0.007～0.3mg/kg之间。在生菜中thiophanate-methyl农药的残留含量最大，达到2.446mg/kg。农药监管部门需要加强对生菜中thiophanate-methyl农药的管理。

B.结合实体的关联关系与关联权值计算集合中每个实体的RW值。

在具体的实施例中，因在2014年中对农产品j中农药i的检测次数较多，因此需要将所有的检测结果取平均值，并将均值作为在农产品j中农药i的残留含量。首先将农药和农产品的实体数量作为矩阵的行、列，然后结合农药残留检测数据找到矩阵中对应单元格的位置，取值则为残留含量值，生成关系方阵。统计关系方阵中每一行的农药或农产品中残留含量值不为0的个数，并将残留含量值不为0的位置使用计数结果的倒数替换。最后将方阵进行转置。

C.根据RW值的计算方式迭代进行计算生成的特征向量T’。此处，为了在检出关系与残留含量之间进行权衡，需要对农药残留含量值取对数。最后在农产品子集中生菜、豆角、黄瓜、甜椒和韭菜的RW值较大。在农产品中RW值较大意味着它们受污染程度较大。其中，导致生菜和甜椒的RW值较大的原因却不一样。对于生菜，原因是检出农药的残留含量较大。在农药子集中thiophanate-methyl农药的RW值最大，procymidone、hlorothalonil、boscalid和pyrimethanil农药的RW值较大。虽然thiophanate-methyl农药只在两种农产品中检测到，但是它们的残留含量都比较大。另一方面，isodrin、pendimethalin,kresoxim-methyl、prochloraz和pentachlorobenzene农药仅在一种农产品中检测到RW值相对较小。在农药中RW值大意味着它们的普适性较强，专用性较差。农产品受污染程度大是因为它施用的农药污染程度大，而农药的污染程度由它所作用的农产品的受污染程度决定。

D.按照C中计算生成的特征向量T’中对应农药、农产品实体RW值的大小对矩阵热力图中的农药、农产品进行重新排序，形成有序矩阵热力图。在具体的实例中，将矩阵热力图中的农药和农产品实体按照C中计算生成的特征向量T’进行排序，可视化结果如图4(b)所示。

为分析两个时间段的差异，将2014年和2015年两个矩阵热力图进行合并，并按照上述步骤进行计算，结果如图5(a)、(b)所示。图中可以看到蓝色的矩阵单元比红色稍微多一些，推测可能是2014年食品安全监管部门的监督制度相对严格。其中，图5(a)显示差异较大的是在菠菜中检出的diethofencarb农药、在豆角中检出的thiophanate-methyl农药、在生菜中检出的oxadixyl农药和在韭菜中检出的endosulfan农药。通过使用RW-Rank方法对实体进行排序后，RW值大的实体在整体结构中的处于比较重要的位置，作为异常值的判断依据具有更高的可信度。比如在图5(b)的芹菜中endosulfan农药的残留含量较大，该值有可能异常。结合endosulfan农药所在的行和列，我们可以验证该可疑数据。chlorothalonil农药和procymidone农药的残留含量比endosulfan农药的残留含量还大，且它们的排序位于endosulfan农药之前。因此chlorothalonil农药和procymidone农药作为判断依据具有更高的可信度。据此可知，endosulfan农药的残留含量是正确的。在生菜和韭菜中检出的endosulfan农药的残留含量也比芹菜中的残留含量大，进一步支持上述的结论。

词云是矩阵热力图的补充视图，如附图6所示。图中不仅可以直观地展示农产品子集和农药子集中的实体，还能够展示农药被检出的频次和农产品的采样次数，使用户能够识别最常检测到的农药和采样最多的农产品。其中，procymidone农药、carbendazim农药、endosulfan农药和pyrimethanil农药的被检出的次数最多，具体检出频次为83、83、80和71。鼠标悬停到词云上提示框显示具体的检出频次或者采样次数。

附图7为饼图展示农药浓度等级占比情况。图中procymidone农药的浓度等级分布情况是1级占比46.99％，2级占比8.43％、三级占比9.64％、待定占比34.94％。其他农药的分布情况可以通过交互查看。

附图8为平行坐标展现了用户所选择的农产品的分布情况。在韭菜中所有的检出农药的残留含量集中在0.5mg/kg，与矩阵热力图的一致。MRL轴中-1表示该在韭菜中该农药的最大残留限量值是待定的。农药残留含量与MRL轴间的线段向上倾斜，则污染等级为2级或3级。若线段向下倾斜，则污染等级为1级。在农药残留含量与MRL两个刻度轴中最上方的两条线段可以发现此结论，也就是carbendazim农药和procymindone农药所在的折线。将残留含量的数据分布情况与MRL轴的分布情况对比，发现MRL标准的制定还是较宽松的。从平行坐标中可以看到，在韭菜中检出的农药一共有5个分类，以有机氮类农药为主。基于RW-Rank方法的食品农药残留可视分析系统，我们有以下的发现：首先，thiophanate-methyl农药和procymidone农药是比较关键的农药；其次，生菜和豆角受污染程度比较严重；然后，农药的污染等级中1、2级比较多，3级污染较少；最后，尚有一部分农药的MRL标准未制定，为确保食品安全需要尽快进行完善。

本发明实施例中，最终可视化分析系统的整体界面如下：左上角是参数面板；中间是两个矩阵热力图；右上角为词云，其中上半部分是农药词云，下半部分是农产品词云；左下角为饼图；右下角是平行坐标。

此外，本发明的可视化方法与系统也可以应用到学术界中论文引用的关联关系数据。每个学者的学术论文都有引用与被引用的关系，同时每个学者具有多篇学术论文的引用量等的关联权值。通过本发明的基于“关系-权值”有序矩阵的可视分析方法用户可以通过论文的引用关系找到对学术界影响较大的论文或者学者。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例中所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于关系-权值有序矩阵的可视分析方法，其特征是，将现实实体表示为实体集合中的元素；实体关联数据有且只有两个实体集合，且不同实体集合的实体之间具有关联关系；对排序方法根实体关联数据建立二部图模型；通过采用RW-Rank据实体间的关系和关联权值对实体进行排序；再采用矩阵热力图对数据进行可视化；

所述RW-Rank排序方法根据实体的关联关系与关联权值计算实体集合中每个实体的关系-权值即RW值，根据RW值对实体集合中的实体进行排序；

包括如下步骤：

A.将实体关联数据抽象成二部图模型，并采用矩阵热力图进行可视化；执行如下操作：

A1.将实体关联数据抽象成二部图模型，表示为二部图G＝(V,E)；

其中，V＝{P,R}，P＝{p₁,p₂,...p_i...,p_n}表示一个数据子集，p_i表示一个数据子集中的元素，代表现实世界中的实体；R＝{r₁,r₂,r₃,...r_j...,r_m}表示另一个数据子集，r_j表示另一个数据子集中的元素，代表现实世界中与p_i表示的实体具有关联关系的另一实体；E＝{e₁₁,e₁₂,e₁₃,...e_ij...,e_nm}，其中e_ij表示两个数据子集中实体之间的关联权值；

A2.将二部图使用矩阵热力图进行可视化；

将二部图中两个数据子集中所有的实体分别映射为矩阵热力图的行、列；二部图中实体与实体之间的连线表示实体与实体之间的关联权值；在矩阵热力图中采用分位数划分的方式对权值进行划分，并映射到给定颜色区间；

B1.根据关联数据中两个数据子集的关联关系构造关系矩阵A；

关系矩阵的行数与列数是两个数据子集中所有实体的总和，构成N*N的关系方阵；两个数据子集中的关联关系是双向关系，即实体i和实体j之间的关系等于实体j和实体i之间的关系；构造关系矩阵为：

其中，N＝n+m，表示两个数据子集中所有实体数量的总和；n、m分别表示两个数据子集的实体数量；关系矩阵的所有行的实体依次是{p₁,p₂,...,p_n,r₁,r₂,r₃,....,r_m}；所有列的实体依次是{r₁,r₂,...,r_m,p₁,p₂,p₃,...,p_n}；x_ij是一个数据子集中第i个实体与另一个数据子集中第j个实体的关联权值；x_ij通过式1计算得到：

其中，e_ij表示两个子集中实体之间的关联权值；

B2.根据步骤B1生成的关系矩阵A构造转移矩阵M；具体执行如下操作：

B21.首先，计算关系矩阵A中每一行实体的出度，即每一行中关系权值非零的元素个数，记作O_i；

B22.然后，将矩阵的行中的关系权值非零的元素所在的位置均使用1/O_i替换；即将矩阵进行整体转置，得到转移矩阵M，表示为：

其中，y_ij是指实体j对实体i的RW值的影响比例系数；

B3.通过式3计算实体的RW值，RW值表示表示实体在关联关系结构中的重要程度；

其中，RW_j表示实体j的RW值；RW_i表示实体i的RW值；K表示对实体i与实体j之间的关联权值的计算方式；α是值为0到1的阻尼系数；

C.生成的特征向量T’，T’为步骤B3中生成的转移矩阵中对应实体的RW值；执行如下操作：

C1.构造一个N行1列的特征向量T，初始化为值全部为1；

C2.通过以下迭代计算，生成特征向量T；

C21.若新生成的特征向量T’与特征向量T的差值小于设定阈值ε，则新生成的特征向量T’为B3中生成的转移矩阵中对应实体的RW值；

C22.否则，将新生成的特征向量T’赋值给特征向量T，再与转移矩阵相乘；转到操作C21；

D.按照C中计算生成的特征向量T’中对应实体RW值的大小对矩阵热力图的实体进行排序，形成行列有序的矩阵热力图；

通过上述步骤，即对实体关联数据实现基于关系-权值有序矩阵的可视分析。

2.如权利要求1所述的可视分析方法，其特征是，实体关联数据可包括：学生选课数据、农药残留检测数据；学生选课数据中的实体为学生与课程；农药残留检测数据中的实体为农产品与农药。

3.如权利要求1所述的可视分析方法，其特征是，步骤B2中，矩阵中实体j对实体i的RW值的影响比例系数y_ij，具体通过式2计算得到：

其中，O_i表示矩阵中第i行实体的出度。

4.如权利要求1所述的可视分析方法，其特征是，步骤B3利用式3计算实体的RW值时，阻尼系数α取值为0.85；和/或，K具体采用的方式为对关联权值取对数或取倒数计算方式。

5.如权利要求1所述的可视分析方法，其特征是，步骤C中，设定阈值ε取值为0.0001或0。

6.如权利要求1所述的可视分析方法，其特征是，步骤D中，形成行列有序矩阵热力图中，每行实体的RW值按从上到下的顺序依次递减，每列实体的RW值按从左往右的顺序依次递减。

7.一种利用权利要求1的RW-Rank方法的食品农药残留可视分析方法，其特征是，

实体关联数据为农药残留检测数据，农药残留检测数据中的实体为农产品与农药；将农药残留检测数据表示为二部图模型G＝(V,E)；其中，V＝{P,R}，P表示农产品子集，p_i表示一个农产品实体，R＝表示农药子集，r_j表示一个农药实体，E＝{0.0074,0.0290,...e_ij...,0.02}表示在一个农产品中一种农药的残留含量大小；

将农药和农产品的实体数量作为矩阵的行、列，确定农药残留检测数据矩阵中对应单元格的位置，取值为残留含量值，生成关系方阵；统计关系方阵中每一行的农药或农产品中残留含量值不为0的个数，并将残留含量值不为0的位置使用计数结果的倒数替换；再将方阵进行转置；

采用对农药残留含量值取对数的方式进行迭代计算RW值，生成的特征向量T’；

按照特征向量T’中对应农药、农产品实体RW值的大小对矩阵热力图中的农药、农产品进行排序，形成有序矩阵热力图。

8.如权利要求7所述的食品农药残留可视分析方法，其特征是，具体采用四个视图进行可视化，包括：矩阵热力图、词云、饼图和平行坐标；其中，矩阵热力图包括主视图与子视图；采用词云视图分别表示农药的检出频次和农产品的采样次数；采用饼图表示农药污染等级的占比分布情况；采用平行坐标展示农药残留含量、MRL标准、农药分类、污染等级及农药名称。

9.如权利要求8所述的食品农药残留可视分析方法，其特征是，进一步采用交互方式包括：联合高亮、多图联动、过滤、套索中的一种或多种。

10.如权利要求8所述的食品农药残留可视分析方法，其特征是，可视化界面的上半部分包括：参数面板、矩阵热力图视图和词云视图；下半部分包括：饼图和平行坐标；

用户通过设置参数面板对感兴趣的数据进行筛选，自动生成该数据的可视化图表；

在矩阵热力图中，每一行表示一个农药实体，每一列表示一个农产品实体；采用不同的颜色编码表示不同的农药残留含量；

矩阵热力图视图包括主视图和子视图；子视图可进行交互切换；

在词云视图中，上半部分为农药子集中的实体，下半部分为农产品子集中的实体；农药的检出频次和农产品的采样次数映射为词云的大小，且不同的数值范围使用不同的颜色进行可视化展示；

通过农药词云联动更新左下方的饼图；

通过农产品词云联动更新右下方的平行坐标视图；

饼图的圆心处显示用户在农药词云中选择查看的农药；采用不同的颜色进行可视化，弧形面积代表在农药的所有检出记录数量中占的比例；通过饼图下方的图例自定义设置查看污染等级的类型与个数，饼图自动进行更新；

在平行坐标视图中包括5个轴为：农药残留含量、最大残留限量、污染等级、农药类别与农药名称；平行坐标中折线的颜色代表农药残留含量的大小，即矩阵热力图中的关联权值。