CN114896477A

CN114896477A - 一种支持多种语言算法的数据挖掘安全可视化系统及方法

Info

Publication number: CN114896477A
Application number: CN202210643532.1A
Authority: CN
Inventors: 吴响; 夏有兵; 张潇; 李书艳
Original assignee: Xuzhou Medical University
Current assignee: Xuzhou Medical University
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2022-08-12

Abstract

本发明涉及支持多种语言算法的数据挖掘安全可视化系统及方法，该系统包括数据层、逻辑层、表现层和控制层；该方法基于系统实施，包括：用户上传多种编程语言的挖掘算法代码，形成支持多种编程语言的数据挖掘过程；根据用户选择的参数和字段进行智能化图表类型推荐，并将挖掘结果以图表形式进行展示；支持挖掘结果的隐私化推荐及安全可视化，针对挖掘过程安全需求，采用隐私保护建模方法建立挖掘结果的隐私评价模型，根据评价函数为用户推荐隐私参数设置，实现挖掘结果安全发布的可视化方案。本发明能有效解决多语言进行数据挖掘的可视化问题，以及挖掘结果的隐私化保护，能够有效提升数据挖掘的工作效率并安全地从图表数据中挖掘数据价值的能力。

Description

一种支持多种语言算法的数据挖掘安全可视化系统及方法

技术领域

本发明涉及数据挖掘及安全可视化技术领域，具体涉及一种支持多种语言算法的数据挖掘安全可视化系统及方法。

背景技术

数据挖掘是从大数据集中挖掘和发现知识的新模式，可视化技术是一种表示数据对象的技术，在数据挖掘中主要可以应用于数据对象与数据挖掘过程可视化方面，通常需要对大量数据进行处理。可视化与数据挖掘技术之间的关系是松散且低效的，将可视化技术有效应用于数据挖掘中，实现高效便捷的可视化过程是有关可视化与数据挖掘研究的重要课题。

目前数据挖掘在产业界和研究界通常可能需要采用不同的编程语言，然而有的编程语言对数据可视化过程并不友好，一方面多种编程语言之间需要进行互连通信，当前使用的编程语言实现可视化需要使用到其他语言增加开发过的一段业务逻辑；另一方面不同的挖掘算法在重复应用时需要重新设计实现可视化，增加了额外的时间和工作量。因此通过集成多种编程语言的挖掘算法实现可视化过程非常具有应用价值。

此外，数据挖掘本身涉及到大量数据，数据挖掘结果也有展示发布的必要需求，针对包含隐私信息的数据发布需求，提供限制发布、互补发布等技术手段保护数据隐私，从而全面保障数据挖掘场景下的各类隐私保护安全需求，具有重要的现实意义。

发明内容

本发明的目的是提供一种支持多种语言算法的数据挖掘安全可视化系统及方法，能有效解决多语言进行数据挖掘的可视化问题，以及挖掘结果的隐私化保护，能够有效提升数据挖掘的工作效率并安全地从图表数据中挖掘数据价值的能力。

为解决上述技术问题，本发明采用了以下技术方案：

一种支持多种语言算法的数据挖掘安全可视化系统，包括数据层、逻辑层、表现层和控制层；其中：

数据层：包含上传代码处理模块，系统通过用户上传获取挖掘数据和相应的挖掘算法代码，发送到服务器端转换为目标语言代码；

逻辑层：包含数据挖掘功能模块，处理复杂的数据挖掘业务逻辑，实现对目标语言分类、聚类、主成分分析等数据挖掘方法的封装，调用相关函数算法对数据集进行数据挖掘和统计分析操作；

表现层：包含可视化展示模块，将收集来的数据、经过预处理后的数据集用表格以及各种图形化方式展现出来，同时将用户数据进行排序和按条件查询，将数据挖掘结果进行可视化显示以及与用户进行交互；

控制层：包含隐私化处理模块，进行挖掘结果的可视化隐私安全评估，针对包含隐私信息的数据发布需求，提供限制发布、互补发布的技术手段，采用差分隐私处理方法对可视化结果进行相应的隐私化处理，同时兼顾完成每个流程的可视化任务，将挖掘结果返回客户端并安全地展现给用户。

同时本发明还提供一种基于上述支持多种语言算法的数据挖掘安全可视化系统的方法，该方法包括以下步骤：

步骤A.首先用户上传多种编程语言的挖掘算法代码，通过代码格式检查、逻辑抽象、模块划分和语法映射实现挖掘系统的灵活自由扩展，形成支持多种编程语言的数据挖掘过程；

步骤B.采用个性化挖掘结果动态可视化方案，根据用户选择的参数和字段进行智能化图表类型推荐，提供数据图表布局和呈现风格，并将挖掘结果以图表形式进行展示；

步骤C.支持挖掘结果的隐私化推荐及安全可视化，针对挖掘过程安全需求，采用隐私保护建模方法建立挖掘结果的隐私评价模型，根据评价函数为用户推荐隐私参数设置，实现挖掘结果安全发布的可视化方案。

其中，步骤A多种编程语言的挖掘算法代码处理过程包括：

用户通过系统上传多种编程语言的数据挖掘算法代码，对代码进行格式检查和逻辑抽象，分别识别代码中的数据处理和数据挖掘核心功能，并进行模块划分和语法映射。

将各个模块转换形成格式化功能的目标语言脚本，并分别执行数据处理和数据挖掘过程，获取挖掘结果。

多种编程语言包括除目标语言之外的至少两种额外的编程语言，代码包括数据挖掘、数据处理和数据统计分析的完整算法过程。

代码上传是通过HTTP请求将数据挖掘算法代码以文件或文本的形式上传至系统所部署服务器或网络环境；代码检查过程包括对上传的多种编程语言代码进行文件格式检查、编程语言识别和语法逻辑检查，匹配相应的挖掘算法逻辑功能。

模块划分具体为：根据数据挖掘算法逻辑，划分相关的数据处理、数据模型和挖掘结果功能模块，明确相应模块的输入、输出参数类型；

语法映射过程为：将模块划分一一匹配目标语言所对应的功能模块，按照原挖掘算法的处理流程重新组合目标语言相应功能模块，形成格式化的目标语言挖掘脚本。

其中，步骤B个性化挖掘结果动态可视化方案包括：

首先根据个性化挖掘结果提供动态可视化展示，实现数据挖掘结果可视化构件；之后根据用户选择的参数和字段要素进行图表类型、数据图表布局和呈现风格的智能化推荐；最后提供图表内部的自适应模式，通过标准适应、宽度适应、高度适应和整体适应，满足不同的布局需求。

挖掘结果可视化构件包括：将数据挖掘结果数据绘制出相应的可视化结果展示给用户，并提供适当的交互功能，其中可视化图形包括2D和3D形式的数据统计图表。

图表智能化推荐过程为：用户根据展示需求选择制定数据字段和数据类型，系统根据用户需求从图表库智能化匹配推荐合适的图表类型、图表布局和图表展示风格；

图表内部的自适应模式包括：

标准适应：当横纵向数据较多时，图表内部自动调整对应方向的坐标轴；

宽度适应：横向填充满数据，纵向根据数据情况，自适应调整横向坐标轴；

高度适应：纵向填充满数据，横向根据数据情况，自适应调整纵向坐标轴；

整体适应：横、纵向填充缩放当前可视化展示组件。

其中，步骤C挖掘结果发布的隐私化推荐及安全可视化过程包括：

C1.根据数据挖掘隐私保护方法建立挖掘结果的隐私评价模型；

C2.利用隐私保护模型评价函数为用户推荐挖掘结果隐私参数设置；

C3.采用推荐的隐私参数对挖掘结果进行隐私化处理，实现挖掘结果的安全可视化发布。

挖掘隐私保护方法为：基于差分隐私理论为数据挖掘结果提供个性化隐私保护的方法；

隐私保护模型评价函数具体为：根据隐私保护模型制定的多指标量化综合隐私评估技术，对用户输入隐私预算计算出相应数据挖掘结果的输出损失，以衡量挖掘结果的隐私泄露风险；隐私保护参数包括满足差分隐私机制的隐私预算、敏感度、综合隐私评价值和损失风险阈值。

上述技术方案中提供的支持多种语言算法的数据挖掘安全可视化系统及方法，主要支持多种编程语言算法代码的上传和数据挖掘，包括能够对多种编程语言进行格式检查、逻辑抽象、模块划分和语法映射最终形成目标语言的数据挖掘脚本；采用个性化挖掘结果动态可视化方案，能够根据用户选择的参数和字段进行智能化图表类型推荐，提供灵活的数据图表布局和呈现风格；支持挖掘结果的隐私化推荐及安全可视化过程，采用隐私保护建模方法建立挖掘结果的隐私评价模型，实现数据挖掘安全可视化系统。

本发明的系统和方法解决了多语言进行数据挖掘的可视化问题，以及挖掘结果的隐私化保护，能够有效提升数据挖掘的工作效率以及安全地从图表数据中挖掘数据价值的能力。

附图说明

图1为本发明支持多种语言算法的数据挖掘安全可视化系统的模块划分示意图；

图2为本发明支持多种语言算法的数据挖掘安全可视化系统的结构框图；

图3为本发明支持多种语言算法的数据挖掘安全可视化系统的运行流程图；

图4为支持多种语言算法的数据挖掘安全可视化系统多语言挖掘算法处理示意图；

图5为支持多种语言算法的数据挖掘安全可视化系统挖掘结果动态可视化方案示意图；

图6为本发明支持多种语言算法的数据挖掘安全可视化系统挖掘结果的隐私化发布处理流程示意图。

具体实施方式

为了使本发明的目的及优点更加清楚明白，以下结合实施例对本发明进行具体说明。应当理解，以下文字仅仅用以描述本发明的一种或几种具体的实施方式，并不对本发明具体请求的保护范围进行严格限定。

实施例1

本实施例采取的技术方案如图1所示，一种支持多种语言算法的数据挖掘安全可视化系统，包括数据层、逻辑层、表现层和控制层；其中：

数据层：包含上传代码处理模块，系统通过用户上传获取挖掘数据和相应的挖掘算法代码，发送到服务器端转换为目标语言代码，实现根据实际需要选择合适的数据处理和异常值检查等方法对数据预处理操作。

逻辑层：包含数据挖掘功能模块，主要用来处理复杂的数据挖掘业务逻辑，实现对目标语言分类、聚类、主成分分析等数据挖掘方法的封装，调用相关函数算法对数据集进行数据挖掘和统计分析操作。

表现层：包含可视化展示模块，主要用来将收集来的数据、经过预处理后的数据集用表格以及各种图形化方式展现出来，并且还可以将用户数据进行排序和按条件查询等，将数据挖掘结果进行可视化显示以及与用户进行交互。

控制层：包含隐私化处理模块，主要用来进行挖掘结果的可视化隐私安全评估，针对包含隐私信息的数据发布需求，提供限制发布、互补发布等技术手段，采用差分隐私处理方法对可视化结果进行相应的隐私化处理，以满足隐私度量要求，同时兼顾完成每个流程的可视化任务，将挖掘结果返回客户端并安全地展现给用户。

实施例2

本实施例采取的技术方案为图2～图6所示，一种支持多种语言算法的数据挖掘安全可视化方法，包括以下步骤：

(1)多种编程语言数据挖掘：用户上传多种编程语言的挖掘算法代码，通过代码格式检查、逻辑抽象、模块划分和语法映射实现挖掘系统的灵活自由扩展，形成支持多种编程语言的数据挖掘过程；

(2)挖掘结果动态可视化：采用个性化挖掘结果动态可视化方案，能够根据用户选择的参数和字段选择进行智能化图表类型推荐，提供灵活的数据图表布局和呈现风格，将挖掘结果以最适合的图表形式进行展示；

(3)挖掘结果隐私化处理发布：支持挖掘结果发布的隐私化推荐及安全可视化，针对挖掘过程安全需求，采用隐私保护建模方法建立挖掘结果的隐私评价模型，根据评价函数为用户推荐隐私参数设置，实现挖掘结果安全发布的可视化方案。

图3为支持多种语言算法的数据挖掘安全可视化系统的运行流程图，具体包括以下步骤：

步骤1：用户通过系统上传以多种编程语言实现的数据挖掘算法代码和相应的待挖掘分析数据；

步骤2：系统对上传的代码进行格式检查和逻辑抽象，以映射目标语言算法实例，有必要地可以通过该脚本对上传的数据进行相应数据预处理；

步骤3：通过转换后的目标语言脚本对目标数据进行数据挖掘过程，获取相应的挖掘结果；

步骤4：采用个性化挖掘结果动态可视化方案，根据用户选择的参数和字段进行智能化图表类型推荐，对挖掘结果进行展示；

步骤5：使用数据挖掘隐私保护方法建立挖掘结果的隐私评价模型，对可视化结果进行隐私安全评价，衡量挖掘结果的隐私泄露风险；

步骤6：根据挖掘结果隐私安全评价结果向用户推荐合适的隐私化处理配置参数；

步骤7：结合用户自定义参数配置及推荐选择的隐私化处理参数，对挖掘结果进行必要的隐私化保护处理，并重新进行安全评价，反复迭代直至满足隐私保护要求；

步骤8：将满足隐私安全的数据挖掘结果进行可视化发布。

图4为支持多种语言算法的数据挖掘安全可视化系统的多语言挖掘算法处理流程示意图，具体包括以下内容：

(1)标准上传接口：通过Web服务功能设计相关上传组件和文件接收服务接口，实现数据和文件的标准化上传功能；

(2)多语言挖掘算法上传：通过HTTP请求建立客户端与服务器之间的TCP连接，以数据流的形式将用户待挖掘的数据集和算法代码上传至服务器中，服务器保存接收到的数据和代码文件；

(3)算法代码检查：对接收的多种编程语言代码进行文件格式检查、编程语言识别和语法逻辑检查，并匹配相应的挖掘算法逻辑功能；

(4)模块划分：根据数据挖掘算法逻辑，划分相关的数据处理、算法模型和挖掘结果功能模块，明确相应模块的输入、输出参数类型；

(5)语法映射：匹配原算法编程语言与目标语言语法规则，将原代码划分模块转换为目标语言所对应的功能模块；

(6)目标语言挖掘脚本：按照原算法的处理流程重新组合目标语言相应功能模块，形成格式化的目标语言挖掘脚本；

(7)挖掘模型构建：使用目标语言脚本实现数据预处理功能，将预处理解析得到的数据进行目标语言挖掘模型构建；

(8)数据挖掘：使用封装目标语言数据挖掘模型，对目标数据进行数据挖掘和统计分析，获取相应数据挖掘结果。

图5为支持多种语言算法的数据挖掘安全可视化系统的挖掘结果动态可视化方案示意图，其具体包括以下步骤：

(1)字段选择：系统对处理后的数据进行因子统计，识别相应数据字段类型，输出数据各属性的数值-频数矩阵，选择用于可视化的合适字段，与用户自主选择字段整合构建输出字段列表，用于进一步的可视化类型选择分析。

(2)可视化内容分析：针对数据内容特征进行分析，与主要图表类型特征进行内容匹配，基于度量指标的可视化技术对可视对象分析处理，借助适用的数学方法建模与评测，建立数据对象关联可视化模型的一般数学形式，选择最适合表征的图表类型。

(3)推荐图表类型：根据匹配的图表类型从系统图表库中筛选相应的图表进行推荐，图表类型包括散点图、折线图、饼状图、条形图和区域图。其中，散点图能够表现出相关因子的整体分布情况；折线图能使因子的变化趋势直观地呈现在用户面前；饼状图能够清晰地展现出相应因子的不同值所占比例；条形图则是一种表征频数分布最常用的表现形式；区域曲线图能够比较两个或多个数据集之间的差异。

(4)图表风格布局：对所推荐的图表根据样式进行整体颜色风格选择，根据图表类型和呈现形式实现自适应布局，整合形成完整图表组合，并将数据挖掘结果数据绘制出相应的可视化结果展示给用户，提供适当的交互功能。所述可视化图形包括2D和3D形式的数据统计图表，图表内部自适应模式包括四种类型，标准适应：当横纵向数据较多时，图表内部自动调整对应方向的坐标轴；宽度适应：横向填充满数据，纵向根据数据情况，自适应调整横向坐标轴；高度适应：纵向填充满数据，横向根据数据情况，自适应调整纵向坐标轴；整体适应：横、纵向填充缩放当前可视化展示组件。

图6为支持多种语言算法的数据挖掘安全可视化系统的挖掘结果的隐私化发布处理流程示意图，具体包括以下步骤：

(1)隐私保护模型：基于目标数据的隐私安全状态，对挖掘结果进行数据特征提取以及可视化图表信息分析，实现隐私泄露风险分析和建模。分析过程为，利用数据类型特征、图表信息指标和敏感属性规则，根据数据安全需求，构建针对目标数据的隐私保护模型，从多个因素的关联性视角展开隐私风险评估，确定数据挖掘结果隐私安全性，研判可视化隐私风险程度。

(2)综合评价函数：根据所述隐私保护模型和特定规则，制定多指标量化综合隐私评估方法反映挖掘结果安全状态的指数，解读指数在不同区间范围内对应的数据隐私安全状态，以衡量挖掘结果的隐私泄露风险。利用分析评估结果，识别、预测安全风险，根据特定策略，匹配单一基础隐私处理手段或多个基础隐私处理方法，反馈隐私化处理实施后的挖掘结果的隐私安全状态，并改进处理实施效果，形成安全评价闭环，并为隐私化处理过程推荐满足差分隐私机制的隐私预算、敏感度、综合隐私评价值和损失风险阈值。

(3)结果隐私化处理：基于差分隐私理论为数据挖掘结果提供个性化隐私保护的方法，使用推荐的满足差分隐私机制的隐私预算、敏感度、综合隐私评价值和损失风险阈值相关配置参数，在输出结果中添加相应噪声来干扰存在安全泄露风险的可视化结果。采用目标综合评价指标评价差分噪声扰动后数据的可用性损失。该指标由多个评价函数组成，采用线性加权和法。对于可视化结果V，任意图表Vi都存在以评价指标I＝{I₁，I₂，...，I_n}(n∈N)。

具体计算过程为：首先，对于差分扰动后的可视化图表V_i，将其分析结果转化为矩阵。其次，每个评估函数I_n依次计算这些结果的可用性损失。然后，对于每个I_n随机分配初始权重W＝{W₁，W₂，...，W_n}(n∈N)。最后，使用线性加权求和法形成综合评价指标。为了平衡大数据可视化发布的可用性和隐私性的权衡，使用KL散度、欧几里得距离和绝对误差来评估已发布图表的损失。

本发明提供的支持多语言算法的数据挖掘安全可视化系统及方法，通过支持多种编程语言挖掘算法的代码模块化映射、个性化挖掘结果动态可视化图表展示、以及隐私保护推荐挖掘结果安全可视化等过程，解决了多语言进行数据挖掘的可视化问题，以及挖掘结果的隐私化保护，能够有效提升数据挖掘的工作效率并安全地从图表数据中挖掘数据价值的能力。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，对于本技术领域的普通技术人员来说，在获知本发明中记载内容后，在不脱离本发明原理的前提下，还可以对其作出若干同等变换和替代，这些同等变换和替代也应视为属于本发明的保护范围。

Claims

1.一种支持多种语言算法的数据挖掘安全可视化系统，其特征在于，包括数据层、逻辑层、表现层和控制层；其中：

逻辑层：包含数据挖掘功能模块，处理复杂的数据挖掘业务逻辑，实现对目标语言分类、聚类、主成分分析数据挖掘方法的封装，调用相关函数算法对数据集进行数据挖掘和统计分析操作；

2.一种基于权利要求1所述的支持多种语言算法的数据挖掘安全可视化系统的方法，其特征在于，包括以下步骤：

3.根据权利要求2所述的支持多种语言算法的数据挖掘安全可视化方法，其特征在于，步骤A多种编程语言的挖掘算法代码处理过程包括：

用户通过系统上传多种编程语言的数据挖掘算法代码，对代码进行格式检查和逻辑抽象，分别识别代码中的数据处理和数据挖掘核心功能，并进行模块划分和语法映射；将各个模块转换形成格式化功能的目标语言脚本，并分别执行数据处理和数据挖掘过程，获取挖掘结果。

4.根据权利要求3所述的支持多种语言算法的数据挖掘安全可视化方法，其特征在于：

多种编程语言包括除目标语言之外的至少两种额外的编程语言，代码包括数据挖掘、数据处理和数据统计分析的完整算法过程；

5.根据权利要求3所述的支持多种语言算法的数据挖掘安全可视化方法，其特征在于，

6.根据权利要求2所述的支持多种语言算法的数据挖掘安全可视化方法，其特征在于，步骤B个性化挖掘结果动态可视化方案包括：

7.根据权利要求6所述的支持多种语言算法的数据挖掘安全可视化方法，其特征在于，

8.根据权利要求6所述的支持多种语言算法的数据挖掘安全可视化方法，其特征在于，

图表内部的自适应模式包括：

整体适应：横、纵向填充缩放当前可视化展示组件。

9.根据权利要求2所述的支持多种语言算法的数据挖掘安全可视化方法，其特征在于，步骤C挖掘结果发布的隐私化推荐及安全可视化过程包括：

10.根据权利要求9所述的支持多种语言算法的数据挖掘安全可视化方法，其特征在于，