CN107908732B

CN107908732B - 一种相互隔离的多来源大数据融合分析方法及系统

Info

Publication number: CN107908732B
Application number: CN201711123885.4A
Authority: CN
Inventors: 王江; 刘文龙
Original assignee: Beijing Kassey 2007 Information Technology Co Ltd
Current assignee: Beijing Kassey 2007 Information Technology Co Ltd
Priority date: 2017-11-14
Filing date: 2017-11-14
Publication date: 2020-02-07
Anticipated expiration: 2037-11-14
Also published as: CN107908732A

Abstract

本发明提供一种相互隔离的多来源大数据融合分析方法及系统，方法包括：每个数据提供客户端在本地自定义数据变换规则，并私密保存自定义的数据变换规则；每个所述数据提供客户端自定义的数据变换规则对其他数据提供客户端和所述数据挖掘平台均保密；每个数据提供客户端对原始数据采用数据变换规则进行处理，再将所述变换后的数据上传给所述数据挖掘平台，由此实现数据挖掘平台获取相互隔离的多来源大数据。优点为：有效保护了数据隐私，防止用户隐私泄漏，具有用户隐私保护安全级别高的优点；方便数据挖掘平台对不同数据来源的同一个ID对应的数据进行融合计算；彻底消除可阅读的信息量，消灭交叉验证的可能性，保证隐私的绝对安全。

Description

一种相互隔离的多来源大数据融合分析方法及系统

技术领域

本发明属于大数据融合分析技术领域，具体涉及一种相互隔离的多来源大数据融合分析方法及系统。

背景技术

随着智慧城市、智慧交通、智能家居、智能电网、智慧医疗、在线社交网络等数字化技术的发展，促成了大数据时代的到来。大数据蕴含着巨大的商业价值，目前，各行各业都在进行大数据分析和挖掘。然而，在享受大数据挖掘得到的各种各样有价值信息的同时，也不可避免地泄露了人们的隐私。如何在不泄露用户隐私的前提下，提高大数据的利用率，挖掘大数据的价值，是目前大数据研究领域的关键问题。

目前，在大数据分析和挖掘领域，主要采取的方案为：数据挖掘平台和多个数据提供客户端连接，数据提供客户端向数据挖掘平台上传原始数据之前，对原始数据进行隐私保护处理，再将处理后的数据上传给数据挖掘平台。具体的，原始数据格式为：{ID₁，A₁:V₁，A₂:V₂，A₃:V₃，...)，其中，ID为对应现实实体的键值，如身份证号，手机号等；A:V表示属性:值，A为所有属性的集合，如“性别”“年龄”“学历”“收入”等。每个属性的所有可能取值构成该属性的值域集合。当一条数据中的ID、A、V皆以明文显示时，该客体的隐私就暴露了。如：{13601193825，sex:M，age:44，education:phd，salary:10000...}。因此，为保护用户隐私，目前，数据提供客户端采用的隐私保护方法为：数据提供客户端通过某种变换算法将ID变换为不可阅读的ID’，即：

{ID₁，A₁:V₁，A₂:V₂，A₃:V₃，...}→{ID′₁，A₁:V₁，A₂:V₂，A₃:V₃，...}

，从而使该数据中的属性:值A:V无法对应到现实客体。如：将{13601193825，sex:M，age:44，education:phd，salary:10000...}变换为：{61df800c717206c4bdda8e1f966e1fa2，sex:M，age:44，education:phd，salary:10000...}，然后再开放该数据，将其上传给数据挖掘平台进行分析。

上述隐私保护方法主要存在以下不足：

(1)由于不同数据提供客户端采用的对ID进行变换的方法不同，例如，对于同一个ID号，数据提供客户端1将其变换为ID’，而数据提供客户端2将其变换为ID”，ID’和ID”不相同，因此，数据挖掘平台无法对不同数据来源的同一个ID对应的数据进行融合计算，不利于全方面进行数据挖掘分析。

(2)因为ID的变换是在有限空间内进行，通过枚举、撞库等方法也可以被解密，从而仍然会导致用户隐私泄漏，具有用户隐私保护安全级别低的问题。

(3)由于保留了属性:值A:V的信息，因此，剩余可阅读信息量仍然过大，一方面，存在交叉验证的可能性，导致数据提供客户端对数据挖掘平台的信任度偏低，拥有大量数据的数据提供方不敢提供自有的数据给数据挖掘平台使用，因此，不利于数据提供客户端和数据挖掘平台达成合作，由此不利于数据挖掘平台的发展。另一方面，一旦不慎发生数据泄露，可能造成重大损失。

由此可见，如何有效保证数据挖掘平台在大数据的分析使用过程中，用户的隐私不被泄露，既实现数据高效利用，又实现用户隐私保护，是目前急需解决的事情。

发明内容

针对现有技术存在的缺陷，本发明提供一种相互隔离的多来源大数据融合分析方法及系统，可有效解决上述问题。

本发明采用的技术方案如下：

本发明提供一种相互隔离的多来源大数据融合分析方法，包括以下步骤：

步骤1，数据挖掘平台分别与若干个数据提供客户端通信连接；其中，每个数据提供客户端在本地自定义数据变换规则，并私密保存自定义的数据变换规则；每个所述数据提供客户端自定义的数据变换规则对其他数据提供客户端和所述数据挖掘平台均保密；

步骤2，每个数据提供客户端对待上传的原始数据采用私密保存自定义的数据变换规则进行处理，得到变换后的数据；再将所述变换后的数据上传给所述数据挖掘平台，由此实现数据挖掘平台获取相互隔离的多来源大数据；

本步骤具体为：

步骤2.1，每个数据提供客户端获取待上传的原始数据，所述原始数据格式为:{ID，A₁:V₁，A₂:V₂，...，A_n:V_n}，其中，ID为对应现实实体的键值；A₁:V₁表示第1属性:第1属性的值；A₂:V₂表示第2属性:第2属性的值；依此类推，A_n:V_n表示第n属性:第n属性的值；n代表原始数据中包括的属性的总数量；

步骤2.2，所述数据提供客户端基于本地私密保存的自定义的数据变换规则，对所述原始数据进行数据变换，得到隐私保护处理并具有可计算性的变换后数据；

其中，所述数据变换规则是指：保留原始数据的键值ID不变，仅对原始数据的属性A和属性的值V进行数据变换，使属性A和属性的值V去语义化但具有可计算性；即，将{ID，A₁:V₁，A₂:V₂，...，A_n:V_n}变换为：{ID，A′₁:V′₁，A′₂:V′₂，...，A′_n:′_n}，其中，A′₁为A₁进行数据变换后的属性；V′₁为V₁进行数据变换后的属性的值；A′₂为A₂进行数据变换后的属性；V′₂为V₂进行数据变换后的属性的值；依此类推，A′_n为A_n进行数据变换后的属性；V′_n为V_n进行数据变换后的属性的值；

步骤2.3，所述数据提供客户端将变换后的数据上传给所述数据挖掘平台；

步骤3，所述数据挖掘平台采用数据库存储各个数据提供客户端上传的变换后的数据，并对步骤2获得的相互隔离的多来源大数据进行数据融合挖掘，得到数据融合挖掘结果。

优选的，步骤2.2中，对原始数据的属性A和属性的值V进行数据变换，使属性A和属性的值V去语义化但具有可计算性，具体为：

对于属性，按预设定属性变换规则，将属性直接转换为属性描述字段；属性描述字段为实数、字符或实数和字符的组合形式；其中，对于相同的属性，映射为相同的属性描述字段；

对于属性的值，如果属性的值为数值类，按预设定数值类属性的值变换规则，将每个数值类属性的值映射为实数；其中，各个数值类属性的值之间的数值大小关系与映射后实数之间的数值大小关系保持不变；如果属性的值为文字描述类，按预设定文字描述类属性的值变换规则，将每个文字描述类属性的值映射为实数；其中，对于相同的文字描述类属性的值，映射为相同的实数。

优选的，所述文字描述类属性的值变换规则为：

对于原始数据{ID，A₁:V₁，A₂:V₂，...，A_n:V_n}，假设V₁，V₂，...，V_n均为文字描述类属性的值，将相同属性的值归为一类，每类属性的值包括的属性的值数量即为归属于该类的每个属性的值转换后的实数的值；

所述数值类属性的值变换规则为：采用单调函数对各个数值类属性的值进行变换，得到变换后的实数。

优选的，所述单调函数为单调递增函数。

优选的，步骤3具体为：

步骤3.1，数据挖掘平台与数据使用客户端通信连接；所述数据使用客户端在本地自定义数据变换规则和数据反变换规则，并私密保存自定义的数据变换规则和数据反变换规则；所述数据使用客户端自定义的数据变换规则和数据反变换规则对其他数据提供客户端和所述数据挖掘平台均保密；

保留原始数据的键值ID不变，仅对原始数据的属性A和属性的值V进行数据变换，使属性A和属性的值V去语义化但具有可计算性；所述数据反变换规则为所述数据变换规则的可逆变换规则；

步骤3.2，数据使用客户端根据业务需求，获得待分析的原始数据，并采用本地自定义数据变换规则对所述原始数据进行数据变换，得到隐私保护处理并具有可计算性的变换后数据；

步骤3.3，数据使用客户端将步骤3.2得到的变换后数据上传给所述数据挖掘平台；

步骤3.4，所述数据挖掘平台对数据使用客户端上传的变换后数据进行分析，提取到键值ID；然后，所述数据挖掘平台分析所述数据库，提取到同一键值ID涉及到的多条数据；然后，所述数据挖掘平台对数据使用客户端上传的变换后数据和提取到的同一键值ID涉及到的多条数据进行数据融合分析，得到有关于该键值ID的数据分析结果；

步骤3.5，所述数据挖掘平台将所述数据分析结果发送给所述数据使用客户端；

步骤3.6，所述数据使用客户端采用自定义的数据反变换规则对所述数据分析结果进行反变换处理，得到最终的数据分析结果。

优选的，所述步骤3.4中，所述数据挖掘平台对数据使用客户端上传的变换后数据和提取到的同一键值ID涉及到的多条数据进行数据融合分析，具体指：

所述数据挖掘平台将数据使用客户端上传的变换后数据和提取到的同一键值ID涉及到的多条数据的属性和属性的值拼接到一起；然后，对拼接后得到的数据的属性和属性的值进行相关性分析，得到有关于该键值ID的数据分析结果。

本发明还提供一种相互隔离的多来源大数据融合分析系统，包括数据挖掘平台和若干个数据提供客户端；所述数据挖掘平台分别与各个所述数据提供客户端通信连接；

所述数据提供客户端包括：

第一原始数据获取模块，用于获取待上传给所述数据挖掘平台的原始数据；

第一数据变换规则定义模块，用于在本地自定义并私密保存数据变换规则；每个所述数据提供客户端自定义的数据变换规则对其他数据提供客户端和所述数据挖掘平台均保密；所述数据变换规则是指：保留原始数据的键值ID不变，仅对原始数据的属性A和属性的值V进行数据变换，使属性A和属性的值V去语义化但具有可计算性；

第一变换模块，用于根据所述第一数据变换规则定义模块定义的数据变换规则，对所述第一原始数据获取模块获取到的所述原始数据进行变换处理，得到隐私保护处理并具有可计算性的变换后数据；

第一上传模块，用于将所述第一变换模块变换得到的数据上传给所述数据挖掘平台；

所述数据挖掘平台包括：

第一平台接收模块，用于接收各个所述数据提供客户端的第一上传模块所上传的变换后的数据；

存储模块，用于存储所述平台接收模块接收到的变换后的数据；

数据融合挖掘模块，用于对所述存储模块存储的变换后的数据进行数据融合挖掘，得到数据融合挖掘结果。

优选的，所述第一变换规则定义模块具体用于：

优选的，所述文字描述类属性的值变换规则为：

优选的，还包括数据使用客户端；

所述数据使用客户端包括：

第二数据变换规则定义模块，用于在本地自定义并私密保存数据变换规则；每个所述数据使用客户端自定义的数据变换规则对其他数据提供客户端和所述数据挖掘平台均保密；所述数据变换规则是指：保留原始数据的键值ID不变，仅对原始数据的属性A和属性的值V进行数据变换，使属性A和属性的值V去语义化但具有可计算性；

数据反变换规则定义模块，用于在本地自定义并私密保存数据反变换规则；所述数据反变换规则为所述数据变换规则的可逆变换规则；

第二原始数据获取模块，用于根据业务需求，获得待分析的原始数据；

第二变换模块，用于根据所述第二数据变换规则定义模块定义的数据变换规则，对所述第二原始数据获取模块获取到的所述原始数据进行变换处理，得到隐私保护处理并具有可计算性的变换后数据；

第二上传模块，用于将所述第二变换模块变换得到的数据上传给所述数据挖掘平台；

所述数据挖掘平台还包括：

第二平台接收模块，用于接收各个所述数据使用客户端的第二上传模块所上传的变换后的数据；

所述数据挖掘平台的数据融合挖掘模块具体用于：数据融合挖掘模块对第二平台接收模块接收到的变换后数据进行分析，提取到键值ID；然后，所述数据挖掘平台分析所述数据库，提取到同一键值ID涉及到的多条数据；然后，所述数据融合挖掘模块对数据使用客户端上传的变换后数据和提取到的同一键值ID涉及到的多条数据进行数据融合分析，得到有关于该键值ID的数据分析结果；

所述数据挖掘平台还包括：

下发模块，用于将所述数据融合挖掘模块得到的数据分析结果下发给对应的数据使用客户端；

所述数据使用客户端包括：

接收模块，用于接收所述数据挖掘平台的下发模块下发的数据分析结果；

数据反变换模块，用于根据数据反变换规则定义模块定义的数据反变换规则，对所述接收模块接收到的数据分析结果进行反变换处理，得到最终的数据分析结果。

本发明提供的一种相互隔离的多来源大数据融合分析方法及系统具有以下优点：

(1)有效保护了数据隐私，防止用户隐私泄漏，具有用户隐私保护安全级别高的优点；

(2)方便数据挖掘平台对不同数据来源的同一个ID对应的数据进行融合计算；

(3)彻底消除可阅读的信息量，消灭交叉验证的可能性，保证隐私的绝对安全。

附图说明

图1为本发明提供的相互隔离的多来源大数据融合分析方法的整体流程示意图；

图2为本发明提供的相互隔离的多来源大数据融合分析方法中步骤2的流程示意图；

图3为本发明提供的相互隔离的多来源大数据融合分析方法中步骤3的流程示意图；

图4为本发明提供的相互隔离的多来源大数据融合分析系统的架构示意图；

图5示出了一种具体的数据提供客户端进行数据变换和数据反变换的示意图；

图6示出了一种数据挖掘平台进行数据融合的示意图。

具体实施方式

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

人工智能及大数据技术的发展，对于不同来源的数据融合分析的需求越来越高。但是，目前，出于隐私保护和数据安全的要求，拥有大量数据的数据提供方无法信任的将自有的数据提供给数据使用方使用，因此催生了大数据孤岛，限制了全社会的数据创造更新价值，压抑了大数据和人工智能领域的创新。

基于此，本发明提供一种相互隔离的多来源大数据融合分析方法及系统，涉及数据挖掘平台、数据提供客户端和数据使用客户端；数据提供客户端采用本地自定义的自有的数据变换规则对原始数据进行变换，并且，在进行数据变换过程中，保留原始数据的键值ID不变，仅对原始数据的属性A和属性的值V进行数据变换，使属性A和属性的值V去语义化但具有可计算性；然后，数据提供客户端再将变换后数据上传给数据挖掘平台。由此实现以下优点：

(1)由于数据变换规则由数据提供客户端自定义并本地私密保存，保证任何其他方都无法还原数据的原值而解读数据，由此有效保护了数据隐私，防止用户隐私泄漏，具有用户隐私保护安全级别高的优点，消除了数据提供方和数据挖掘平台进行合作的疑虑，可以更有效达成合作，从而使数据挖掘平台可更为全面的收集多个数据提供方提供的数据，进而进行更为全面有价值的数据挖掘；

(2)本发明保留原始数据的键值ID不变，因此，方便数据挖掘平台对不同数据来源的同一个ID对应的数据进行融合计算，有利于全方面进行数据挖掘分析。

(3)本发明对原始数据的属性A和属性的值V进行数据变换，彻底消除可阅读的信息量，消灭交叉验证的可能性，保证隐私的绝对安全。通过完全消灭可阅读信息量，既使发生数据泄露也无法直接使用，损失大大降低，同时也为挽回损失提供了更长的时间。

通过本发明提供的相互隔离的多来源大数据融合分析方法及系统，可以将社会上各大数据源公司的数据在保证安全和隐私的条件下开放出来，从而创造更大价值，同时也可推动大数据和人工智能领域的小公司创业创新。

参考图1，本发明提供的一种相互隔离的多来源大数据融合分析方法，具体包括以下步骤：

本步骤具体参考图2，包括：

例如，数据1原始数据：{13601193825，sex:M，age:44...}

数据1变换后数据：{13601193825，3c3662bcb661d6de679c636744c66b62:1，7d637d275668ed6d41a9b97e6ad3a556:0.22...}

数据2原始数据：{13601193825，education:phd，salary:10000...}

数据2变换后数据：{13601193825，d0bb80aabb8619b6e35113f02e72752b:7，28aa838315633f0e44049ce88de36803:10.0...}。

本步骤中，对原始数据的属性A和属性的值V进行数据变换，使属性A和属性的值V去语义化但具有可计算性，具体为：

对于属性的值，如果属性的值为数值类，按预设定数值类属性的值变换规则，将每个数值类属性的值映射为实数；其中，各个数值类属性的值之间的数值大小关系与映射后实数之间的数值大小关系保持不变；

其中，数值类属性的值变换规则为：采用单调函数，例如，单调递增函数，对各个数值类属性的值进行变换，得到变换后的实数。

例如，采用如下p范数转换，其中p为大于等于1的正整数

最简单的1范数，2范数如下

1-范数：

2-范数：

以1范数为例，属性的值共有3条数据，分别为F(1，2，3)，经过1范数转换变为F’(1/6，2/6，3/6)；但如果仅知道F’结果为(1/6，2/6，3/6)，则F结果会存在无数情形(0.1，0.2，0.3)或(10，20，30)或(2，4，6)等，所以无法反向求解，保证数据安全。在应用中，使用者还可以根据不同属性使用不同P值。

如果属性的值为文字描述类，按预设定文字描述类属性的值变换规则，将每个文字描述类属性的值映射为实数；其中，对于相同的文字描述类属性的值，映射为相同的实数。例如，原始数据地区属性的值为文字描述类，如有6条记录，分别为：海淀、朝阳、昌平、海淀、海淀和昌平，则地区属性中海淀数量为3个排名第1，朝阳数量为1个排名第3，昌平数量为2个排名第2，因此，(海淀、朝阳、昌平、海淀、海淀、昌平)变换为(1，3，2，1，1，2)"。即：文字描述类属性的值变换规则为：对于原始数据{ID，A₁:V₁，A₂:V₂，...，A_n:V_n}，假设V₁，V₂，...，V_n均为文字描述类属性的值，将相同属性的值归为一类，每类属性的值包括的属性的值数量即为归属于该类的每个属性的值转换后的实数的值。

本步骤具体参考图3，包括：

其中，所述数据挖掘平台对数据使用客户端上传的变换后数据和提取到的同一键值ID涉及到的多条数据进行数据融合分析，具体指：

例如，数据提供客户端1的原始数据：{13601193825，sex:M，age:44...}

数据提供客户端1对原始数据进行变换后，得到变换后数据:{13601193825，3c3662bcb661d6de679c636744c66b62:1，7d637d275668ed6d41a9b97e6ad3a556:0.22...}

数据提供客户端2的原始数据：{13601193825，education:phd，salary:10000...}

数据提供客户端2对原始数据进行变换后，得到变换后数据：

{13601193825，d0bb80aabb8619b6e35113f02e72752b:7，28aa838315633f0e44049ce88de36803:10.0...}

数据提供客户端1和数据提供客户端2将变换后的数据上传给数据挖掘平台，数据挖掘平台对相互隔离的两条变换后的数据进行数据融合，得到融合后数据：

{13601193825，3c3662bcb661d6de679c636744c66b62:1，7d637d275668ed6d41a9b97e6ad3a556:0.22，d0bb80aabb8619b6e35113f02e72752b:7，28aa838315633f0e44049ce88de36803:10.0...}。

再例如，参考图5，示出了一种具体的数据提供客户端进行数据变换和数据反变换的示意图。

参考图6，示出了一种数据挖掘平台进行数据融合的示意图。具体的，数据挖掘平台接收到来自多个数据提供端的变换后数据，并根据唯一键值进行数据融合，成为融合数据集。这个唯一键值是各个数据提供端提供的数据集都包括的，比如某种用户id。虽然数据挖掘平台基于融合数据进行计算，可解读到各数据提供端上传的数据。但由于数据挖掘平台无法解读到属性变换规则和属性的值的变换规则，因此，数据挖掘平台仅可解读到的无意义的数字，无法还原原始值，因此，有效保护了数据提供端原始数据的隐私和数据安全。但是，由于变换后数据具有可计算性，因此，数据挖掘平台仍然可对变换后的数据进行挖掘分析，生成数据使用方期望的结果。

例如，数据使用端1获得原始数据为{13601193825，1月：100元，2月:200元，3月：300元}。含义为：手机号为13601193825的用户，在1月份消费100元；在2月份消费200元，在3月份消费300元。

数据使用端1基于本地自定义的变换规则，将原始数据转换为：{13601193825，10a:0.1，11a:0.2，12a:0.3}。

数据使用端1将{13601193825，10a:0.1，11a:0.2，12a:0.3}上传给数据挖掘平台，并需要数据挖掘平台分析出13a属性的值。

数据挖掘平台搜集同一手机号的其他数据提供端上传的经变换后的数据，例如，为：{13601193825，100c:1，101c:2，102c:3}，通过对数据相关性进行分析，数据挖掘平台分析出13a属性的值为0.4，然后将0.4返回给数据使用端1。

数据使用端1再基于本地的数据反变换规则，将0.4反变换为400，由此得到手机号为13601193825的用户，在4月份消费400元。

因此，本发明中，数据提供端将原始数据进行变换，对数据项名称进行去语义化，对数据项的值进行转化后，上传到数据挖掘平台；数据挖掘平台基于融合数据，按照数学方法进行加工和计算，给出数据使用端所需的结果，提供给数据使用端使用。

参考图4，本发明还提供一种相互隔离的多来源大数据融合分析系统，包括数据挖掘平台和若干个数据提供客户端；所述数据挖掘平台分别与各个所述数据提供客户端通信连接；

所述数据提供客户端包括：

所述第一变换规则定义模块具体用于：

对于属性的值，如果属性的值为数值类，按预设定数值类属性的值变换规则，将每个数值类属性的值映射为实数；其中，各个数值类属性的值之间的数值大小关系与映射后实数之间的数值大小关系保持不变；其中，数值类属性的值变换规则为：采用单调函数对各个数值类属性的值进行变换，得到变换后的实数。

如果属性的值为文字描述类，按预设定文字描述类属性的值变换规则，将每个文字描述类属性的值映射为实数；其中，对于相同的文字描述类属性的值，映射为相同的实数。

其中，文字描述类属性的值变换规则为：

所述数据挖掘平台包括：

数据融合挖掘模块，用于对所述存储模块存储的变换后的数据进行数据融合挖掘，得到数据融合挖掘结果。数据融合挖掘模块具体采用的数据挖掘算法，本发明对此并不限制。例如，对数据进行统计，建模，预测。数据挖掘平台由平台运营方操作管理，其功能包括但不限于：数据访问控制/安全传输，算法选择/控制/建模，数据融合模块，数据分析模块，结果输出模块。数据访问控制/安全传输，根据数据提供方/数据使用方客户端的权限分别上传、下载各方有权访问的数据，使各方无法访问其他方的数据。其中，算法选择/控制/建模，由平台运营方或者平台运营方授权者使用，控制数据融合模块，数据分析模块，数据输出模块的运行。数据融合模块，将各个数据提供方和数据使用方提供的数据根据约定的键值进行融合，并进行存储。数据分析模块，提供多种数据计算算法，按要求对数据进行计算。结果输出模块，将计算结果输出

还包括数据使用客户端；

所述数据使用客户端包括：

所述数据挖掘平台还包括：

所述数据使用客户端包括：

本发明提供的一种相互隔离的多来源大数据融合分析方法及系统，数据变换规则由数据提供端定义并保存在本地，保证任何其他方都无法解读该数据，并无法还原数据的原值，同时又能保证转换后的数据的可计算性及大数据分析结果的正确性。兼顾了以前无法同时实现的三大需求：1)多个来源的数据进行融合计算的需求。2)数据提供端提供数据的隐私和安全的需求。3)降低万一数据泄露所造成损失的需求。具体具有以下特点：

(1)数据提供客户端采用本地自定义的自有的数据变换规则对原始数据进行变换，数据变换规则仅数据提供客户端自己知道，保证其他的数据提供客户端和数据挖掘平台等均无法解读和恢复出原始数据；数据挖掘平台虽然可以获取各数据提供客户端提供的经数据变换后的数据，但是，由于数据挖掘平台无法解读到数据变换规则，因此，无法了解其他方数据的语义，亦无法还原到数据原值，由此保护了数据提供客户端原始数据的数据隐私和数据安全。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种相互隔离的多来源大数据融合分析方法，其特征在于，包括以下步骤：

本步骤具体为：

步骤2.1，每个数据提供客户端获取待上传的原始数据，所述原始数据格式为：{ID，A₁：V₁，A₂：V₂，...，A_n：V_n}，其中，ID为对应现实实体的键值；A₁：V₁表示第1属性:第1属性的值；A₂：V₂表示第2属性:第2属性的值；依此类推，A_n：V_n表示第n属性:第n属性的值；n代表原始数据中包括的属性的总数量；

其中，所述数据变换规则是指：保留原始数据的键值ID不变，仅对原始数据的属性A和属性的值V进行数据变换，使属性A和属性的值V去语义化但具有可计算性；即，将{ID，A₁：V₁，A₂：V₂，…，A_n：V_n}变换为：{ID，A′₁：V′₁，A′₂：V′₂，...，A′_n：V′_n}，其中，A′₁为A₁进行数据变换后的属性；V′₁为V₁进行数据变换后的属性的值；A′₂为A₂进行数据变换后的属性；V′₂为V₂进行数据变换后的属性的值；依此类推，A′_n为A_n进行数据变换后的属性；V′_n为V_n进行数据变换后的属性的值；

步骤3，所述数据挖掘平台采用数据库存储各个数据提供客户端上传的变换后的数据，并对步骤2获得的相互隔离的多来源大数据进行数据融合挖掘，得到数据融合挖掘结果；

其中，步骤2.2中，对原始数据的属性A和属性的值V进行数据变换，使属性A和属性的值V去语义化但具有可计算性，具体为：

2.根据权利要求1所述的相互隔离的多来源大数据融合分析方法，其特征在于，所述文字描述类属性的值变换规则为：

对于原始数据{ID，A₁：V₁，A₂：V₂，...，A_n：V_n}，假设V₁，V₂，...，V_n均为文字描述类属性的值，将相同属性的值归为一类，每类属性的值包括的属性的值数量即为归属于该类的每个属性的值转换后的实数的值；

3.根据权利要求2所述的相互隔离的多来源大数据融合分析方法，其特征在于，所述单调函数为单调递增函数。

4.根据权利要求1所述的相互隔离的多来源大数据融合分析方法，其特征在于，步骤3具体为：

5.根据权利要求4所述的相互隔离的多来源大数据融合分析方法，其特征在于，所述步骤3.4中，所述数据挖掘平台对数据使用客户端上传的变换后数据和提取到的同一键值ID涉及到的多条数据进行数据融合分析，具体指：

6.一种相互隔离的多来源大数据融合分析系统，其特征在于，包括数据挖掘平台和若干个数据提供客户端；所述数据挖掘平台分别与各个所述数据提供客户端通信连接；

所述数据提供客户端包括：

所述数据挖掘平台包括：

数据融合挖掘模块，用于对所述存储模块存储的变换后的数据进行数据融合挖掘，得到数据融合挖掘结果；

其中，所述第一变换规则定义模块具体用于：

7.根据权利要求6所述的相互隔离的多来源大数据融合分析系统，其特征在于，所述文字描述类属性的值变换规则为：

8.根据权利要求6所述的相互隔离的多来源大数据融合分析系统，其特征在于，还包括数据使用客户端；

所述数据使用客户端包括：

所述数据挖掘平台还包括：

所述数据使用客户端包括：

接收模块，用于接收所述数据挖掘平台的下发模块下发的数据分析结果；数据反变换模块，用于根据数据反变换规则定义模块定义的数据反变换规则，对所述接收模块接收到的数据分析结果进行反变换处理，得到最终的数据分析结果。