CN117313154B - 基于隐私保护的数据关联关系评估方法及装置 - Google Patents
基于隐私保护的数据关联关系评估方法及装置 Download PDFInfo
- Publication number
- CN117313154B CN117313154B CN202311307047.8A CN202311307047A CN117313154B CN 117313154 B CN117313154 B CN 117313154B CN 202311307047 A CN202311307047 A CN 202311307047A CN 117313154 B CN117313154 B CN 117313154B
- Authority
- CN
- China
- Prior art keywords
- data
- original data
- correlation
- matrix
- desensitization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 135
- 239000011159 matrix material Substances 0.000 claims abstract description 135
- 238000000586 desensitisation Methods 0.000 claims abstract description 99
- 238000012545 processing Methods 0.000 claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000012847 principal component analysis method Methods 0.000 claims abstract description 11
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000007405 data analysis Methods 0.000 abstract description 7
- 230000009467 reduction Effects 0.000 abstract description 3
- 230000000875 corresponding effect Effects 0.000 description 89
- 238000000513 principal component analysis Methods 0.000 description 9
- 230000002596 correlated effect Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000012097 association analysis method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 231100000279 safety data Toxicity 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Complex Calculations (AREA)
Abstract
本发明涉及一种基于隐私保护的数据关联关系评估方法及装置,其中,方法采用主成分分析法对各所述原始数据集进行数据脱敏处理,获得对应的得分矩阵,并根据得分矩阵组成的脱敏矩阵生成评估基准向量数据,然后获取各个所述数据域中的各个所述原始数据信息与所述评估基准向量数据之间的相关系数,根据各个所述数据域中的各个所述原始数据信息与所述评估基准向量数据之间的相关系数确定各个所述数据域间存在关联关系的原始数据信息,从而可在不公开数据的前提下,对不同数据域中的数据的关联关系进行评估。该数据关联关系评估方法及装置具备处理逻辑简单、运行方便、有效减少数据分析成本、并能够对信息进行隐蔽,有效保护信息,适应性好的的特点。
Description
技术领域
本发明涉及数据关联性评估技术领域,尤其涉及一种基于隐私保护的数据关联关系评估方法及装置。
背景技术
在一些领域中需要在不公开数据的前提下,对不同数据域中的数据的关联关系进行评估。
如在一些应用场景下,一些业务会由多家公司负责经营,用户(即可以是自然人也可以是企业)可自行选择去各公司注册账号并办理相关业务(同一用户即可以选择一家公司进行账号注册,也可选择多家公司进行账号注册)。其中,某些业务会要求限定同一用户的买卖数量、购买及售卖的间隔频率等操作,以保障市场的正常运行。然而在实际操作中,由于同一用户可在多家公司进行账号的注册及业务的办理,而各家公司之间一般不会进行信息共享,这就导致一些用户会利用这一漏洞进行违规操作,以谋求自身利益。特别是对于一些企业用户而已,其进行账户注册时,未必采用了同一身份进行账号注册,这就导致监管难度进一步地提升了。
为保障能够有效对各业务买卖情况进行监管,了解各业务之间的关联关系,需对各公司的业务交易的关联关系进行评估分析,但同时也需注意到对用户隐私的保护。
故现需要一种能够克服数据孤岛困境、对跨数据域间的数据(如多家公司负责的业务)进行合并分析、且在分析过程中还需避免因数据出域而导致数据泄露的技术方案,对交易的关联关系进行评估分析,以找到多个数据域中包含关联关系的异常账户,保障交易市场的正常运行。
发明内容
有鉴于现有技术的上述缺陷,本发明有鉴于现有技术的上述缺陷,本发明提出了一种能够在关联组数未知、且对用户信息隐私进行保护的前提下,可有效识别出多个数据域中包含关联关系的异常账户,并具备实施方便、准确性高、适应性好等特点的基于隐私保护的数据关联关系评估方法及装置。
为了实现上述目的,本发明的基于隐私保护的数据关联关系评估方法及装置如下:
第一方面,本发明的实施例提出,一种基于隐私保护的数据关联关系评估方法,包括:
步骤1:获取各个数据域中待比对的原始数据集,各个所述待比对的原始数据集均包含对应的原始数据信息;
步骤2:基于主成分分析法对各所述待比对的原始数据集进行数据脱敏处理,获取包含各所述待比对的原始数据集的最大特征的得分矩阵,并将各个所述得分矩阵从各所述数据域中提取出;
步骤3:整合从各个所述数据域中提取出的与所述待比对的原始数据集对应的各所述得分矩阵,确定脱敏矩阵;
步骤4:获取所述脱敏矩阵的最大特征值所对应的特征向量,并以所述脱敏矩阵的最大特征值所对应的特征向量确定评估基准向量数据;
步骤5:将所述评估基准向量数据传输回各个对应的所述数据域,并获取各个所述待比对的原始数据集中的各个所述原始数据信息与所述评估基准向量数据之间的相关系数,根据各个所述原始数据信息与所述评估基准向量数据之间的相关系数确定各个所述待比对的原始数据集间存在关联关系的原始数据信息。
在一些实施例中,所述步骤3包括:
利用下式1整合从各个所述数据域中提取出的与各所述待比对的原始数据集对应的各所述得分矩阵,确定所述脱敏矩阵:
其中,T代表所述脱敏矩阵,T1,T2,...,TK分别代表各个所述数据域中的待比对的原始数据集所对应的各得分矩阵,其中,k等于所述得分矩阵的数量,R代表脱敏矩阵的集合实数集,m代表所述脱敏矩阵的集合实数集的行数,n代表所述脱敏矩阵的集合实数集的列数。
在一些实施例中,所述步骤4包括:
步骤4.1:
基于预设于系统中的下式2获取所述脱敏矩阵的特征值向量λ;
其中,T为所述脱敏矩阵,TT为所述脱敏矩阵T的转置,n为所述脱敏矩阵T的列数,为所述脱敏矩阵的特征向量矩阵;
步骤4.2:以所述脱敏矩阵的特征值向量λ中的最大特征值λi对应所述脱敏矩阵的特征向量矩阵中对应的特征向量确定评估基准向量数据t。。
在一些实施例中,所述步骤5包括:
步骤5.1:将所述评估基准向量数据t传输回各个对应的所述数据域;
步骤5.2:获取与各个所述数据域中的各所述待比对的原始数据集中的各个所述原始数据信息xi与所述评估基准向量数据t之间的相关性对应的各个相关系数r(xi,t),并输出,其中,i=[1,2,…,z],z为所有所述待比对的原始数据集中的原始数据信息xi的总数;
步骤5.3:获取各个所述相关系数r(xi,t)的绝对值,确定相关系数绝对值丨r(xi,t)丨,并按从大到小的顺序对所有所述相关系数绝对值丨r(xi,t)丨进行排序,得到排序序列B=[rs1,rs2,...,rsi],并判断所有所述相关系数绝对值丨r(xi,t)丨中最小的相关系数的绝对值rsi是否大于系统预设相关度阈值r0;
步骤5.4:若所有所述相关系数绝对值丨r(xi,t)丨中最小的相关系数的绝对值rsi大于系统预设相关度阈值r0,则确定当前所有所述数据域中的待比对的原始数据集中的各个原始数据信息之间均存在关联关系;若所有所述相关系数绝对值丨r(xi,t)丨中最小的相关系数的绝对值rsi未大于系统预设相关度阈值r0,则执行后续步骤5.5;
步骤5.5:通过不相关评估标准,对所有所述数据域中的原始数据信息之间的相关关系进行划分,其中,所述不相关评估标准为:
依次通过下式4计算排序序列B=[rs1,rs2,...,rsi]中的第k个相关系数的绝对值rk与第k+1个相关系数的绝对值rk+1之间的不相关系数rate::
若第k个相关系数的绝对值rk与第k+1个相关系数的绝对值rk+1之间的不相关系数rate大于系统预设不相关系数阈值rate0,则确定排序后第k个相关系数的绝对值rk所对应的原始数据信息与第k+1个相关系数的绝对值rk+1所对应的原始数据信息不存在相关可能性,对不存在相关可能性的原始数据信息间进行分离,并将存在相关可能性的原始数据信息组成新的待比对的原始数据集,形成对应的候选关联数据组后返回上述步骤1,对各所述关联数据组所对应的所述数据域中的新的待比对的原始数据集中的原始数据信息进行相关性评估。
在一些实施例中,所述方法还包括以下步骤:
当确定各所述候选关联数据组对应的待比对的原始数据集中的各个所述原始数据信息xi与对应的所述评估基准向量数据t之间的相关性对应的各个相关系数绝对值丨r(xi,t)丨中最小的相关系数的绝对值rsi大于系统预设相关度阈值r0,则确定该候选关联数据组中的所有原始数据信息均存在关联关系,并结束对该候选关联数据组中的原始数据信息间的关联关系的判断;或所述候选关联数据组对应的待比对的原始数据集总共仅存在二个不存在相关可能性的原始数据信息xi时,则确定该候选关联数据组对应的待比对的原始数据集间的两个原始数据信息xi不存在关联性,并结束对该候选关联数据组中的原始数据信息间的关联关系的判断。
第二方面,本发明实施例提出,在一些实施例中,一种基于隐私保护的数据关联关系评估装置,所述装置包括:
数个数据域处理模块,分别用于存储对应的数据域中的原始数据集,并用于根据主成分分析法对各待比对的原始数据集进行数据脱敏处理,获取包含各所述待比对的原始数据集的最大特征的得分矩阵,并输出,其中,各个所述待比对的原始数据集均包含对应的原始数据信息;
外数据处理模块,用于获取各个所述数据域处理模块输出的所述得分矩阵,并进行整合确定脱敏矩阵,获取所述脱敏矩阵的最大特征值所对应的特征向量,并以所述脱敏矩阵的最大特征值所对应的特征向量确定评估基准向量数据;
所述外数据处理模块还用于将所述评估基准向量数据传输回各对应的所述数据域处理模块,并通过各所述数据域处理模块获取各个所述数据域中的待比对的原始数据集中各个所述原始数据信息与所述评估基准向量数据之间的相关系数,同时,根据所述外数据处理模块根据各个所述待比对的原始数据集中的各个所述原始数据信息与所述评估基准向量数据之间的相关系数确定各个所述数据域间存在关联关系的原始数据信息。
第三方面,本发明实施例还提供一种数据关联关系评估装置,所述装置包括:
至少一个处理器;
与所述至少一个处理器耦合的存储器,所述存储器存储有可执行指令,其中,所述可执行指令在被所述至少一个处理器执行时使得实现第一方面的所述的方法。
第四方面,本发明实施例还提供一种芯片,用于执行上述第一方面中的方法。具体地,该芯片包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有该芯片的设备用于执行上述第一方面中的方法。
第五方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上第一方面的任一项所述的方法。
与现有技术相比,本发明具有以下有益效果:
本发明采用主成分分析法对各所述原始数据集进行数据脱敏处理,获取包含各所述原始数据集最大特征的各得分矩阵,并根据得分矩阵组成的脱敏矩阵生成评估基准向量数据,然后将所述评估基准向量数据传输回各个所述数据域,并获取各个所述数据域中的各个所述原始数据信息与所述评估基准向量数据之间的相关系数,根据各个所述数据域中的各个所述原始数据信息与所述评估基准向量数据之间的相关系数确定各个所述数据域间存在关联关系的原始数据信息。从而可在不公开数据的前提下,对不同数据域中的数据的关联关系进行评估。同时由于本发明中的数据关联关系评估方法采用主成分分析法对各所述原始数据集进行数据脱敏处理,故使得脱敏后的数据仍然保留了最大特征,从而在完成信息脱敏后不影响关联性的识别。该数据关联关系评估方法、装置、芯片及可读存储介质具备处理逻辑简单、运行方便、有效减少数据分析成本、并能够对信息进行隐蔽,有效保护信息,适应性好的的特点。
附图说明
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
图1是本发明的基于隐私保护的数据关联关系评估方法一实施例流程示意图。
具体实施方式
为了使发明实现的技术手段、创造特征、达成目的和功效易于明白了解,下结合具体图示,进一步阐述本发明。但本发明不仅限于以下实施的案例。
须知,本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
在进行数据关联关系评估时,常常面临数据孤岛困境。若对跨数据域间的数据进行合并分析,势必会导致至少一家数据出域,其过程可能面临数据泄露的风险。目前常用的解决方法是对数据进行脱敏或加密,再进行传输。然而,数据脱敏可能会破坏原有的数据域中的数据信息,数据加密使得数据更加复杂,对算力有极高的要求,给后续的数据分析过程带来了一定的挑战。
此外,目前常用的数据关联关系评估方法主要有两类,一类是利用枚举法计算对任意数据组的皮尔森等相关系数来衡量数据组的相关性强度,这类方法在面临海量数据(数据集)时,存在一定的效率问题,且仅能评估任意两个数据组的相关性,难以高效精准的在海量数据(数据集)中找到关联数据组;另一类方法是基于聚类模型,将海量数据若干个关联数据组,使得类内关联性最强,类间关联性最弱,然而这类方法受聚类中心的数量影响显著,也存在一定的局限性。
图1是本发明的基于隐私保护的数据关联关系评估方法一实施例流程示意图。如图1所示,第一方面,本发明实施例一基于隐私保护的数据关联关系评估方法,包括:
步骤1:获取各个数据域中待比对的原始数据集,各个所述待比对的原始数据集均包含对应的原始数据信息;(即对夸数据源的多个数据集的数据进行提取,此时原始数据不出域);
步骤2:基于主成分分析法(即PCA,全称Principal Component Analysis)对各所述待比对的原始数据集进行数据脱敏处理,获取包含各所述待比对的原始数据集的最大特征的得分矩阵,并将各个所述得分矩阵从各所述数据域中提取出;(即利通过PCA提取特征得到对应的得分矩阵);
步骤3:整合从各个所述数据域中提取出的与所述待比对的原始数据集对应的各所述得分矩阵,确定脱敏矩阵;
步骤4:获取所述脱敏矩阵的最大特征值所对应的特征向量,并以所述脱敏矩阵的最大特征值所对应的特征向量确定评估基准向量数据;(即以所述脱敏矩阵的最大特征值所对应的特征向量作为评估基准向量数据,评估基准向量数据为计算线性评估向量);
步骤5:将所述评估基准向量数据传输回各个所述数据域,并获取各个所述待比对的原始数据集中的各个所述原始数据信息与所述评估基准向量数据之间的相关系数,根据各个所述原始数据信息与所述评估基准向量数据之间的相关系数确定各个所述待比对的原始数据集间存在关联关系的原始数据信息。
其中,数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。当前存在如下数据脱敏方式:
在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如采用一些无效数据段对身份证号、手机号、卡号、客户号等个人信息中的部分信息进行隐藏、或采用数据替换的方式将原始数据随机转换成其他数据表达方式,以进行数据脱敏。但这种脱敏方法可能会破坏原有的数据结构,为后续数据分析带来困难。该类方法可能会破坏原有的数据结构,为后续数据分析带来困难。
数据加密是指通过加密算法和加密密钥将明文转变为密文,它利用密码技术对信息进行加密,实现信息隐蔽,从而起到保护信息的安全的作用。但这类方法使得数据变得更加复杂,需要极高的算力,给数据分析带来了不少的成本。
而本发明采用主成分分析法(PCA)对原始数据集进行数据脱敏,PCA是最常见的线性特征提取方法之一,例如,基于PCA,数据域矩阵X可被分解为:
其中,T是得分矩阵,P是投影矩阵,PT是投影矩阵的转置,E是残差矩阵,为数据域矩阵X的特征向量矩阵,基于此,特征矩阵也就是得分矩阵可以被提取如下所示:
T=XP
其可在对数据进行脱敏后任保留了数据的最大特征,从而后续可根据具备各原始数据集最大特征的得分矩阵生成评估基准向量数据,再根据评估基准向量数据进行相关度分析,从而即满足了数据脱敏的目的,也无需增加相关度运算复杂度,具有操作方便、适应性强的特点。
具体操作时,所述步骤3包括:
利用下式1整合从各个所述数据域中提取出的与各所述待比对的原始数据集对应的各所述得分矩阵,确定所述脱敏矩阵:
其中,T代表所述脱敏矩阵,T1,T2,...,TK分别代表各个所述数据域中的待比对的原始数据集所对应的各得分矩阵,其中,k等于所述得分矩阵的数量,R代表脱敏矩阵的集合实数集,m代表所述脱敏矩阵的集合实数集的行数,n代表所述脱敏矩阵的集合实数集的列数。
所述步骤4包括:
步骤4.1:
基于预设于系统中的下式2获取所述脱敏矩阵的特征值向量λ;
其中,T为所述脱敏矩阵,TT为所述脱敏矩阵T的转置,n为所述脱敏矩阵T的列数,为所述脱敏矩阵的特征向量矩阵;
步骤4.2:以所述脱敏矩阵的特征值向量λ中的最大特征值λi对应所述脱敏矩阵的特征向量矩阵中对应的特征向量确定评估基准向量数据t(即以所述脱敏矩阵的特征值向量λ中的最大特征值λi对应所述脱敏矩阵的特征向量矩阵/>中对应的特征向量作为评估基准向量数据t)。
该实施例中利用上式2可获取脱敏矩阵的特征值λ,然后选取所述脱敏矩阵的特征值λ中的最大特征值向量λi在所述脱敏矩阵的特征向量矩阵中对应的特征向量确定评估基准向量数据t。
在评估基准向量数据的求取过程中,通常需要构建下式3形成目标函数:
利用上面构建的目标函数使得评估基准向量数据t尽可能与每一原始数据信息相关,但利用上式3形成目标函数在实际应用中难以对评估基准向量数据t进行求取,故本申请中利用上式2去求取脱敏矩阵的特征值λ,然后在通过获得脱敏矩阵的特征值λ中的最大特征值向量λi在所述脱敏矩阵的特征向量矩阵从而可更容易地获取得到对应的特征向量确定评估基准向量数据t。
所述步骤5包括:
步骤5.1:将所述评估基准向量数据t传输回各个所述数据域;
步骤5.2:获取与各个所述数据域中的各所述待比对的原始数据集中的各个所述原始数据信息xi与所述评估基准向量数据t之间的相关性对应的各个相关系数r(xi,t),并输出,其中,i=[1,2,…,z],z为所有所述待比对的原始数据集中的原始数据信息xi的总数;
步骤5.3:获取各个所述相关系数r(xi,t)的绝对值,确定相关系数绝对值丨r(xi,t)丨,并按从大到小的顺序对所有所述相关系数绝对值丨r(xi,t)丨进行排序,得到排序序列B=[rs1,rs2,...,rsi],并判断所有所述相关系数绝对值丨r(xi,t)丨中最小的相关系数的绝对值rsi是否大于系统预设相关度阈值r0,其中,r0选取趋近于1的数;(即利用评估层进行相关性评估标准验证);
步骤5.4:若所有所述相关系数绝对值丨r(xi,t)丨中最小的相关系数的绝对值rsi大于系统预设相关度阈值r0,(r0是系统预设常数,且r0→1,即r0越趋近于1,原始数据信息与评估基准向量数据t的相关度越高),则确定当前所有所述数据域中的待比对的原始数据集中的各个原始数据信息之间均存在关联关系;若所有所述相关系数绝对值丨r(xi,t)丨中最小的相关系数的绝对值rsi未大于系统预设相关度阈值r0,则执行后续步骤5.5;
步骤5.5:通过不相关评估标准,对所有所述数据域中的原始数据信息之间的相关关系进行划分,其中,所述不相关评估标准为:
依次通过下式4计算排序序列B=[rs1,rs2,...,rsi]中的第k个相关系数的绝对值rk与第k+1个相关系数的绝对值rk+1之间的不相关系数rate::
若第k个相关系数的绝对值rk与第k+1个相关系数的绝对值rk+1之间的不相关系数rate大于系统预设不相关系数阈值rate0,rate0是预设常数,rate0∈[0,1],则确定排序后第k个相关系数的绝对值rk所对应的原始数据信息与第k+1个相关系数的绝对值rk+1所对应的原始数据信息不存在相关可能性,对不存在相关可能性的原始数据信息间进行分离,并将存在相关可能性的原始数据信息组成新的待比对的原始数据集,形成对应的候选关联数据组后返回上述步骤1,对各所述关联数据组所对应的所述数据域中的新的待比对的原始数据集中的原始数据信息进行相关性评估。(即利用分离层进行不相关评估标准验证,然后再进行对潜在相关变量集的评估)。
所述方法还包括以下步骤:
当确定各所述候选关联数据组对应的待比对的原始数据集中的各个所述原始数据信息xi与对应的所述评估基准向量数据t之间的相关性对应的各个相关系数绝对值丨r(xi,t)丨中最小的相关系数的绝对值rsi大于系统预设相关度阈值r0,则确定该候选关联数据组中的所有原始数据信息均存在关联关系,并结束对该候选关联数据组中的原始数据信息间的关联关系的判断(即满足终止条件1,得到相关变量集);或所述候选关联数据组对应的待比对的原始数据集总共仅存在二个不存在相关可能性的原始数据信息xi时,则确定该候选关联数据组对应的待比对的原始数据集间的两个原始数据信息xi不存在关联性,并结束对该候选关联数据组中的原始数据信息间的关联关系的判断(即满足终止条件2得到不相关变量及)。
该实施例中的基于隐私保护的数据关联关系评估装置具备下述特点:
1、提出一种高效精准的数据集中发现关联数据组的方法,避免枚举带来的繁琐;
2、无需事前定义关联数据组的数量;
3、解决跨数据域间数据孤岛问题,避免因加密或脱敏导致加重后续分析的负担;
4、在进行跨数据域数据协同分析时,原始数据不出域,增强隐私数据保护能力;可在关联组数未知的前提下,得到多个关联数据组。
该基于隐私保护的数据关联关系评估方法解决了跨数据域关联分析的数据安全问题,同时弥补了传统关联分析方法在效率和可靠性方面的短板。该方法利用PCA提取数据特征,通过传递得分矩阵,保护隐私数据,提升了跨数据域的数据安全交互能力。此外,该方法基于全新的相关评估标准和不相关评估标准,构建相关性评估递归网络,提升跨数据域的数据关联评估能力。在实际业务场景中,该方法可用于协助金融监管机构发现潜在的违规交易行为,维护金融市场的公平性。
为便于理解下面举一该基于隐私保护的数据关联关系评估方法的应用实例对该方法进行进一步地说明:
现有技术中,当一些不法分子通过关联交易等违规手段操纵证券期货交易市场,这些关联账户可能在不同的证券期货公司进行开户,极难监管。若将本发明的基于隐私保护的数据关联关系评估方法应用于证券交易领域,则可有效对上述问题进行管理。该关联分析方法有效解决了跨数据域关联关系评估时面临的数据安全问题,兼顾了数据处理效率和可靠性方面的问题。具体处理过程如下:
首先,获取各个数据域(X1,X2,…,Xk,其中,k代表数据域的数量)中待比对的原始数据集Xi=[x11,x12,…,x1ni],各个所述待比对的原始数据集均包含对应的原始数据信息,其中ni代表每个待比对的原始数据集中原始数据信息的个数,即每一原始数据信息是指一账户及该账号对应的交易状态(交易状态是指账号的交易金额及交易时间节点等信息);
然后,在各个数据域中基于主成分分析法对各所述待比对的原始数据集进行数据脱敏处理,即利用PCA对每个数据域中的待比对的原始数据集进行特征提取,表示如下:
Tj=XjPj(j=1,2,…,k)
其中,Xj是原始数据集,Pj是原始数据集对应的投影矩阵,Tj是原始数据集对应的得分矩阵,即特征矩阵。值得注意的是Xj和Pj始终保存在原始数据集所在域内(即数据域内),仅对外传递Tj(即各所述待比对的原始数据集的最大特征的得分矩阵)进行交互计算。这样做的优势是首先原始数据集Xj不出域,保证了原始数据的安全。其次,原始数据集对应的投影矩阵Pj不对外公开,外部无法通过得分矩阵Tj反向推导原始数据集Xj。最后,得分矩阵Tj保留了原始数据的最大特征,为后续关联关系评估基准向量数据提供了先决条件。
通过上述步骤获取包含各所述待比对的原始数据集的最大特征的得分矩阵后,将各个所述得分矩阵从各所述数据域中提取出;
由于跨数据域的关联关系评估时,原始数据Xj不能出域,因此需要找到一条基准向量用于衡量变量间的相关关系。若基准向量与大多数原始数据的变量正交或相关关系较小,则难以完成后续的关联关系评估,因此基础向量应尽可能和原始数据相关。
为了解决上述问题,本申请采用得分矩阵最大特征值对应的特征向量确定评估基准向量数据t,即通过下式整合从各个所述数据域中提取出的与所述待比对的原始数据集对应的各所述得分矩阵,确定脱敏矩阵(其中,根据多个得分矩阵确定脱敏矩阵的构建方法可采样常规的数学公式进行处理):
为了使得t尽可能和原始数据X相关,那么t需要应尽可能和T相关,故将获取所述脱敏矩阵的最大特征值所对应的特征向量,并以所述脱敏矩阵的最大特征值所对应的特征向量确定评估基准向量数据,具体操作为:
构建目标函数如下所示:
上述问题可以等效于如下的特征值分解问题:
故通过构建目标函数及特征值分解问题可选取最大特征值对应的特征向量确定评估基准向量数据t。系统运行时,可将上述两个公式预存于系统中,然后系统采集相关参数后,通过上述两个公式即可确定评估基准向量数据。
接着将评估基准向量数据传输至各数据域,并获取各个所述待比对的原始数据集中的各个所述原始数据信息与所述评估基准向量数据之间的相关系数;
在真实的数据中,由于噪声的存在,几乎不可能使得两个变量与评估基准向量数据t的皮尔森系数的绝对值(即相关系数绝对值)一致。但是当相关系数绝对值|r(x1,t)|和相关系数绝对值|r(x2,t)|的差距大于一定阈值时,与|r(x1,t)|和|r(x2,t)|对应的原始数据信息x1和原始数据信息x2一定是不相关的。因此,本申请提出一种线性评估标准如下所示:
如果那么与|r(x1,t)|和|r(x2,t)|对应的原始数据信息x1和原始数据信息x2是不相关的变量。
其中,rate代表系统预设不相关系数阈值(即rate0),系统预设不相关系数阈值的数值越小,评估标准越严格。
值得注意的是上述理论是一个充分非必要条件。也就是说,当原始数据信息x1和原始数据信息x2相关,那么|r(x1,t)|和|r(x2,t)|。然而,若|r(x1,t)|等于|r(x2,t)|,那么与|r(x1,t)|和|r(x2,t)|对应的原始数据信息x1和原始数据信息x2不一定相关,故本申请基于该条件设置了不相关评估标准。而对于原始数据信息间是否存在相关性需要进一步的相关性评估标准进行评估,本申请把与评估基准向量数据t的皮尔森系数的绝对值一致的变量称为潜在相关变量。
依次通过下式4计算排序序列B=[rs1,rs2,...,rsi]中的第k个相关系数的绝对值rk与第k+1个相关系数的绝对值rk+1之间的不相关系数rate::
若第k个相关系数的绝对值rk与第k+1个相关系数的绝对值rk+1之间的不相关系数rate大于系统预设不相关系数阈值rate0,则确定排序后第k个相关系数的绝对值rk所对应的原始数据信息与第k+1个相关系数的绝对值rk+1所对应的原始数据信息不存在相关可能性,对不存在相关可能性的原始数据信息间进行分离,并将存在相关可能性的原始数据信息组成新的待比对的原始数据集,形成对应的候选关联数据组后返回上述步骤1,对各所述关联数据组所对应的所述数据域中的新的待比对的原始数据集中的原始数据信息进行相关性评估。
本申请采用相关性评估标准对原始数据信息是否存在关联关系进行划分:
对于变量集X和评估基准向量数据t,如果变量集中与评估基准向量数据t相关系数绝对值丨r(xi,t)丨中最小的相关系数的绝对值min|r(xi,t)|>r0(r0→1)(其中xi为变量集X中的任意变量),那么变量集X中的所有变量均为相关变量。
由于经过单独一轮的相关关系评估后可能并不能完全获取到所有原始数据信息之间的关联关系,故在实际操作中,往往会对划分后的候选关联数据组中的原始数据信息进行多轮相关性评估,直到当确定各所述候选关联数据组对应的待比对的原始数据集中的各个所述原始数据信息xi与对应的所述评估基准向量数据t之间的相关性对应的各个相关系数绝对值丨r(xi,t)丨中最小的相关系数的绝对值rsi大于系统预设相关度阈值r0,则确定该候选关联数据组中的所有原始数据信息均存在关联关系,并结束对该候选关联数据组中的原始数据信息间的关联关系的判断;或所述候选关联数据组对应的待比对的原始数据集总共仅存在二个不存在相关可能性的原始数据信息xi时,则确定该候选关联数据组对应的待比对的原始数据集间的两个原始数据信息xi不存在关联性,并结束对该候选关联数据组中的原始数据信息间的关联关系的判断。即满足跳出递归条件,完成对各个数据域间的原始数据信息的相关性进行评估。
即假设2个数据域中的待比对的原始数据集总共包括18个原始数据信息,其中,A数据域中包括10个原始数据信息,这10个原始数据信息与评估基准向量数据t之间的相关系数的绝对值分别为:0.1、0.6、0.9、0.9、0.6、0.7、0.9、0.6、0.1、.0.7,B数据域中包括8个原始数据信息,这8个原始数据信息与评估基准向量数据t之间的相关系数的绝对值分别为:0.5、0.5、0.6、0.7、0.9、0.7、0.9、0.8,
然后,将各个原始数据信息与评估基准向量数据t之间的相关系数从数据域中提取并对相关系数的绝对值进行从大到小的排序,得到如下排序序列:
0.9、0.9、0.9、0.9、0.9、0.8、0.7、0.7、0.7、0.7、0.6、0.6、0.6、0.6、0.5、0.5、0.1、0.1;
假设,系统预设不相关系数阈值rate0=0.08,那么,就可将上述相关系数的绝对值对应的划分为如下A至F6组,并按以下分组方式将与对应的相关系数的绝对值对应的原始数据信息划分为存在相关可能性的原始数据信息组成新的待比对的原始数据集,形成对应的候选关联数据组:
A(0.9、0.9、0.9、0.9、0.9)、B(0.8)、C(0.7、0.7、0.7、0.7)、D(0.6、0.6、0.6、0.6)、E(0.5、0.5)、F(0.1、0.1);
后续在对上述每一组候选关联数据组中的原始数据信息再分别进行关联关系评估,如将A组相关系数的绝对值对应的原始数据信息进行关联关系评估时,需再次获取对应的评估基准向量数据进行评估,假设A组中各个相关系数的绝对值对应的原始数据信息中3个原始数据信息属于A数据域,2个原始数据信息属于B数据域,那么后续根据A数据域中的3个原始数据信息构成的待比对的原始数据集得到对应的得分矩阵,根据B数据域中的2个原始数据信息构成的待比对的原始数据集得到对应的得分矩阵,然后根据这两个得分矩阵确定脱敏矩阵,并生成新的评估基准向量数据;
然后再确定新的评估基准向量数据与A数据域中的3个原始数据信息之间的相关系数,及新的评估基准向量数据与B数据域中的2个原始数据信息之间的相关系数,并对相关系数的绝对值进行排列,得到如下排序序列:
0.9、0.9、0.9、0.9、0.6;
那么可以确定与0.6对应的原始数据信息与其他原始数据信息必然不存在相关性,而对于其他4个原始数据信息将再次执行上述操作步骤,直到确定各所述候选关联数据组对应的待比对的原始数据集中的各个所述原始数据信息xi与对应的所述评估基准向量数据t之间的相关性对应的各个相关系数绝对值丨r(xi,t)丨中最小的相关系数的绝对值rsi大于系统预设相关度阈值r0,则确定该候选关联数据组中的所有原始数据信息均存在关联关系,并结束对该候选关联数据组中的原始数据信息间的关联关系的判断;或所述候选关联数据组对应的待比对的原始数据集总共仅存在二个不存在相关可能性的原始数据信息xi时,则确定该候选关联数据组对应的待比对的原始数据集间的两个原始数据信息xi不存在关联性,并结束对该候选关联数据组中的原始数据信息间的关联关系的判断。
即假设经过新一轮的迭代后,得到的排列序列为:
0.99、0.99、0.98、0.97;
而相关度阈值r0等于0.93,那么由于上述排列序列中最小的相关系数绝对值(即0.97)都大于0.93,那么可确定这4个相关系数绝对值所对应的原始数据信息均相关,退出对该候选关联数据组的关联性判断,或若经过一些列迭代后一候选关联数据组中仅包括2个原始数据信息,而这两个原始数据信息经过判断确定不存在关联性则同样退出对该候选关联数据组的关联性判断。
对于上述C至F组所对应的原始数据信息进行同样的迭代判断流程,从而确定各个数据域中所有原始数据集间存在关联关系的数据。
第二方面,本发明实施例提出,一种基于隐私保护的数据关联关系评估装置,所述装置包括:
数个数据域处理模块,分别用于存储对应的数据域中的原始数据集,并用于根据主成分分析法对各待比对的原始数据集进行数据脱敏处理,获取包含各所述待比对的原始数据集的最大特征的得分矩阵,并输出,其中,各个所述待比对的原始数据集均包含对应的原始数据信息;
外数据处理模块,用于获取各个所述数据域处理模块输出的所述得分矩阵,并进行整合确定脱敏矩阵,获取所述脱敏矩阵的最大特征值所对应的特征向量,并以所述脱敏矩阵的最大特征值所对应的特征向量确定评估基准向量数据;
所述外数据处理模块还用于将所述评估基准向量数据传输回各所述数据域处理模块,并通过各所述数据域处理模块获取各个所述数据域中的待比对的原始数据集中各个所述原始数据信息与所述评估基准向量数据之间的相关系数,同时,根据所述外数据处理模块根据各个所述待比对的原始数据集中的各个所述原始数据信息与所述评估基准向量数据之间的相关系数确定各个所述数据域间存在关联关系的原始数据信息。
上述的涉及到的数据关联关系评估装置具体技术细节和数据关联关系评估方法中类似,在数据关联关系评估装置的实施方式中所能达到的技术效果在数据关联关系评估方法数据关联关系评估方法的实施方式中也同样可以实现,为了减少重复,这里不再赘述。相应地,在数据关联关系评估方法实施方式中提到的相关技术细节也可应用在数据关联关系评估装置的实施方式中。
本说明书中的各个实施方式均采用递进的方式描述,各个实施方式之间相同相似的部分互相参见即可,每个实施方式重点说明的都是与其他实施方式的不同之处。
在第三方面,本发明还提供一种数据关联关系评估装置,包括:
至少一个处理器;与至少一个处理器耦合的存储器,存储器存储有可执行指令,其中,可执行指令在被至少一个处理器执行时使得实现本发明第一方面的方法。
本实施例提供一种数据关联关系评估装置,包括:至少一个处理器;与至少一个处理器耦合的存储器。处理器和存储器可以单独设置,也可以集成在一起。
例如,存储器可以包括随机存储器、闪存、只读存储器、可编程只读存储器、非易失性存储器或寄存器等。处理器可以是中央处理器(Central Processing Unit,CPU)等。或者是图像处理器(Graphic Processing Unit,GPU)存储器可以存储可执行指令。处理器可以执行在存储器中存储的可执行指令,从而实现本文描述的各个过程。
可以理解,本实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是ROM(Read-OnlyMemory,只读存储器)、PROM(ProgrammableROM,可编程只读存储器)、EPROM(ErasablePROM,可擦除可编程只读存储器)、EEPROM(ElectricallyEPROM,电可擦除可编程只读存储器)或闪存。易失性存储器可以是RAM(RandomAccessMemory,随机存取存储器),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如SRAM(StaticRAM,静态随机存取存储器)、DRAM(DynamicRAM,动态随机存取存储器)、SDRAM(SynchronousDRAM,同步动态随机存取存储器)、DDRSDRAM(DoubleDataRate SDRAM,双倍数据速率同步动态随机存取存储器)、ESDRAM(Enhanced SDRAM,增强型同步动态随机存取存储器)、SLDRAM(SynchlinkDRAM,同步连接动态随机存取存储器)和DRRAM(DirectRambusRAM,直接内存总线随机存取存储器)。本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器存储了如下的元素,升级包、可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。
其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序,包含各种应用程序,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序中。
在本发明实施例中,处理器通过调用存储器存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器用于执行第一方面所提供的方法步骤。
第四方面,本发明实施例还提供一种芯片,用于执行上述第一方面中的方法。具体地,该芯片包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有该芯片的设备用于执行上述第一方面中的方法。
此外,在第五方面,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现本发明第二方面的方法的步骤。
例如,机器可读存储介质可以包括但不限于各种已知和未知类型的非易失性存储器。
与现有技术相比,本发明具有以下有益效果:
本发明采用主成分分析法对各所述原始数据集进行数据脱敏处理,获取包含各所述原始数据集最大特征的各得分矩阵,并根据得分矩阵组成的脱敏矩阵生成评估基准向量数据,然后将所述评估基准向量数据传输回各个所述数据域,并获取各个所述数据域中的各个所述原始数据信息与所述评估基准向量数据之间的相关系数,根据各个所述数据域中的各个所述原始数据信息与所述评估基准向量数据之间的相关系数确定各个所述数据域间存在关联关系的原始数据信息。从而可在不公开数据的前提下,对不同数据域中的数据的关联关系进行评估。同时由于本发明中的数据关联关系评估方法采用主成分分析法对各所述原始数据集进行数据脱敏处理,故使得脱敏后的数据仍然保留了最大特征,从而在完成信息脱敏后不影响关联性的识别。该数据关联关系评估方法、装置、芯片及可读存储介质具备处理逻辑简单、运行方便、有效减少数据分析成本、并能够对信息进行隐蔽,有效保护信息,适应性好的的特点。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (8)
1.一种基于隐私保护的数据关联关系评估方法,其特征在于,包括:
步骤1:获取各个数据域中待比对的原始数据集,各个所述待比对的原始数据集均包含对应的原始数据信息;
步骤2:基于主成分分析法对各所述待比对的原始数据集进行数据脱敏处理,获取包含各所述待比对的原始数据集的最大特征的得分矩阵,并将各个所述得分矩阵从各所述数据域中提取出;
步骤3:整合从各个所述数据域中提取出的与所述待比对的原始数据集对应的各所述得分矩阵,以确定脱敏矩阵;
步骤4:获取所述脱敏矩阵的最大特征值所对应的特征向量,并以所述脱敏矩阵的最大特征值所对应的特征向量确定评估基准向量数据;
步骤5:将所述评估基准向量数据传输回各个对应的所述数据域,并获取各个所述待比对的原始数据集中的各个所述原始数据信息与所述评估基准向量数据之间的相关系数,根据各个所述原始数据信息与所述评估基准向量数据之间的相关系数确定各个所述待比对的原始数据集间存在关联关系的原始数据信息;
所述步骤3包括:
利用下式1整合从各个所述数据域中提取出的与各所述待比对的原始数据集对应的各所述得分矩阵,确定所述脱敏矩阵:
其中,T代表所述脱敏矩阵,T1,T2,...,TK分别代表各个所述数据域中的待比对的原始数据集所对应的各得分矩阵,其中,k等于所述得分矩阵的数量,R代表脱敏矩阵的集合实数集,m代表所述脱敏矩阵的集合实数集的行数,n代表所述脱敏矩阵的集合实数集的列数。
2.根据权利要求1所述的基于隐私保护的数据关联关系评估方法,其特征在于,所述步骤4包括:
步骤4.1:基于预设于系统中的下式2获取所述脱敏矩阵的特征值向量λ;
其中,T为所述脱敏矩阵,TT为所述脱敏矩阵T的转置,n为所述脱敏矩阵T的列数,为所述脱敏矩阵的特征向量矩阵;
步骤4.2:以所述脱敏矩阵的特征值向量λ中的最大特征值λi对应所述脱敏矩阵的特征向量矩阵中对应的特征向量确定评估基准向量数据t。
3.根据权利要求1所述的基于隐私保护的数据关联关系评估方法,其特征在于,所述步骤5包括:
步骤5.1:将所述评估基准向量数据t传输回各个对应的所述数据域;
步骤5.2:获取与各个所述数据域中的各所述待比对的原始数据集中的各个所述原始数据信息xi与所述评估基准向量数据t之间的相关性对应的各个相关系数r(xi,t),并输出,其中,i=[1,2,…,z],z为所有所述待比对的原始数据集中的原始数据信息xi的总数;
步骤5.3:获取各个所述相关系数r(xi,t)的绝对值,确定相关系数绝对值丨r(xi,t)丨,并按从大到小的顺序对所有所述相关系数绝对值丨r(xi,t)丨进行排序,得到排序序列B=[rs1,rs2,...,rsi],并判断所有所述相关系数绝对值丨r(xi,t)丨中最小的相关系数的绝对值rsi是否大于系统预设相关度阈值r0;
步骤5.4:若所有所述相关系数绝对值丨r(xi,t)丨中最小的相关系数的绝对值rsi大于系统预设相关度阈值r0,则确定当前所有所述数据域中的待比对的原始数据集中的各个原始数据信息之间均存在关联关系;若所有所述相关系数绝对值丨r(xi,t)丨中最小的相关系数的绝对值rsi未大于系统预设相关度阈值r0,则执行后续步骤5.5;
步骤5.5:通过不相关评估标准,对所有所述数据域中的原始数据信息之间的相关关系进行划分,其中,所述不相关评估标准为:
依次通过下式4计算排序序列B=[rs1,rs2,...,rsi]中的第k个相关系数的绝对值rk与第k+1个相关系数的绝对值rk+1之间的不相关系数rate::
若第k个相关系数的绝对值rk与第k+1个相关系数的绝对值rk+1之间的不相关系数rate大于系统预设不相关系数阈值rate0,则确定排序后第k个相关系数的绝对值rk所对应的原始数据信息与第k+1个相关系数的绝对值rk+1所对应的原始数据信息不存在相关可能性,对不存在相关可能性的原始数据信息间进行分离,并将存在相关可能性的原始数据信息组成新的待比对的原始数据集,形成对应的候选关联数据组后返回上述步骤1,对各所述关联数据组所对应的所述数据域中的新的待比对的原始数据集中的原始数据信息进行相关性评估。
4.根据权利要求3所述的基于隐私保护的数据关联关系评估方法,其特征在于,所述方法还包括以下步骤:
当确定各所述候选关联数据组对应的待比对的原始数据集中的各个所述原始数据信息xi与对应的所述评估基准向量数据t之间的相关性对应的各个相关系数绝对值丨r(xi,t)丨中最小的相关系数的绝对值rsi大于系统预设相关度阈值r0,则确定该候选关联数据组中的所有原始数据信息均存在关联关系,并结束对该候选关联数据组中的原始数据信息间的关联关系的判断;或所述候选关联数据组对应的待比对的原始数据集总共仅存在二个不存在相关可能性的原始数据信息xi时,则确定该候选关联数据组对应的待比对的原始数据集间的两个原始数据信息xi不存在关联性,并结束对该候选关联数据组中的原始数据信息间的关联关系的判断。
5.一种基于隐私保护的数据关联关系评估装置,其特征在于,所述装置包括:
数个数据域处理模块,分别用于存储对应的数据域中的原始数据集,并用于根据主成分分析法对各待比对的原始数据集进行数据脱敏处理,获取包含各所述待比对的原始数据集的最大特征的得分矩阵,并输出,其中,各个所述待比对的原始数据集均包含对应的原始数据信息;
外数据处理模块,用于获取各个所述数据域处理模块输出的所述得分矩阵,并进行整合确定脱敏矩阵,获取所述脱敏矩阵的最大特征值所对应的特征向量,并以所述脱敏矩阵的最大特征值所对应的特征向量确定评估基准向量数据;
所述外数据处理模块还用于将所述评估基准向量数据传输回各所述数据域处理模块,并通过各所述数据域处理模块获取各个所述数据域中的待比对的原始数据集中各个所述原始数据信息与所述评估基准向量数据之间的相关系数,同时,根据所述外数据处理模块根据各个所述待比对的原始数据集中的各个所述原始数据信息与所述评估基准向量数据之间的相关系数确定各个所述数据域间存在关联关系的原始数据信息;
其中,获取各个所述数据域处理模块输出的所述得分矩阵,并进行整合确定脱敏矩阵,包括:
利用下式1整合从各个所述数据域中提取出的与各所述待比对的原始数据集对应的各所述得分矩阵,确定所述脱敏矩阵:
其中,T代表所述脱敏矩阵,T1,T2,...,TK分别代表各个所述数据域中的待比对的原始数据集所对应的各得分矩阵,其中,k等于所述得分矩阵的数量,R代表脱敏矩阵的集合实数集,m代表所述脱敏矩阵的集合实数集的行数,n代表所述脱敏矩阵的集合实数集的列数。
6.一种基于隐私保护的数据关联关系评估装置,其特征在于,所述装置包括:
至少一个处理器;
与所述至少一个处理器耦合的存储器,所述存储器存储有可执行指令,其中,所述可执行指令在被所述至少一个处理器执行时使得实现根据权利要求1至4中任一项所述的方法。
7.一种芯片,其特征在于,包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行:如权利要求1至4中任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上权利要求1至4中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311307047.8A CN117313154B (zh) | 2023-10-10 | 2023-10-10 | 基于隐私保护的数据关联关系评估方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311307047.8A CN117313154B (zh) | 2023-10-10 | 2023-10-10 | 基于隐私保护的数据关联关系评估方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117313154A CN117313154A (zh) | 2023-12-29 |
CN117313154B true CN117313154B (zh) | 2024-05-31 |
Family
ID=89288076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311307047.8A Active CN117313154B (zh) | 2023-10-10 | 2023-10-10 | 基于隐私保护的数据关联关系评估方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117313154B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118053596B (zh) * | 2024-03-04 | 2024-08-06 | 飞图云科技(山东)有限公司 | 一种智能化医疗平台数据管理方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492435A (zh) * | 2019-01-10 | 2019-03-19 | 贵州财经大学 | 基于数据开放共享的隐私泄露风险评估方法、装置及系统 |
CN111899890A (zh) * | 2020-08-13 | 2020-11-06 | 东北电力大学 | 基于比特串哈希的医疗数据相似度检测系统与方法 |
CN112800467A (zh) * | 2021-02-18 | 2021-05-14 | 支付宝(杭州)信息技术有限公司 | 基于数据隐私保护的在线模型训练方法、装置以及设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3049958B1 (en) * | 2013-09-27 | 2020-01-22 | Intel Corporation | Methods and apparatus to identify privacy relevant correlations between data values |
-
2023
- 2023-10-10 CN CN202311307047.8A patent/CN117313154B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492435A (zh) * | 2019-01-10 | 2019-03-19 | 贵州财经大学 | 基于数据开放共享的隐私泄露风险评估方法、装置及系统 |
CN111899890A (zh) * | 2020-08-13 | 2020-11-06 | 东北电力大学 | 基于比特串哈希的医疗数据相似度检测系统与方法 |
CN112800467A (zh) * | 2021-02-18 | 2021-05-14 | 支付宝(杭州)信息技术有限公司 | 基于数据隐私保护的在线模型训练方法、装置以及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN117313154A (zh) | 2023-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kokoszka et al. | Determining the order of the functional autoregressive model | |
EP3627759B1 (en) | Method and apparatus for encrypting data, method and apparatus for training machine learning model, and electronic device | |
Smid et al. | Data encryption standard: past and future | |
Jarrow et al. | How to detect an asset bubble | |
CN111539769A (zh) | 基于差分隐私的异常检测模型的训练方法及装置 | |
CN117313154B (zh) | 基于隐私保护的数据关联关系评估方法及装置 | |
CN113407987B (zh) | 保护隐私的确定业务数据特征有效值的方法及装置 | |
US20060236395A1 (en) | System and method for conducting surveillance on a distributed network | |
US20110125658A1 (en) | Method and System for Performing Fraud Detection for Users with Infrequent Activity | |
Gai et al. | Anti-counterfeit scheme using Monte Carlo simulation for E-commerce in cloud systems | |
CN111506922B (zh) | 多方联合对隐私数据进行显著性检验的方法和装置 | |
CN112787971A (zh) | 侧信道攻击模型的构建方法、密码攻击设备及计算机存储介质 | |
Laurini et al. | A noisy principal component analysis for forward rate curves | |
CN115456766A (zh) | 信用风险预测方法及装置 | |
Wang et al. | ezDPS: an efficient and zero-knowledge machine learning inference pipeline | |
Ye et al. | Feature reconstruction attacks and countermeasures of DNN training in vertical federated learning | |
Mirhashemi et al. | Evaluation of Supervised Machine Learning Algorithms for Credit Card Fraud Detection: A Comparison | |
Kumar et al. | Customer behavior-based fraud detection of credit card using a random forest algorithm | |
CN111026087B (zh) | 基于数据的含权重非线性工业系统故障检测方法及装置 | |
CN105991609B (zh) | 一种风险事件确定方法及装置 | |
Kinai et al. | Multi-factor authentication for users of non-internet based applications of blockchain-based platforms | |
Tuccella et al. | Protecting retail investors from order book spoofing using a gru-based detection model | |
Abdullahi et al. | The reversibility of cancelable biometric templates based on iterative perturbation stochastic approximation strategy | |
Korauš et al. | AWARENESS OF SECURITY RISKS ASSOCIATED WITH PAYMENT SYSTEMS ANALYSED BY THE METHODS OF MULTIDIMENSIONAL STATISTICS. | |
CN115409512A (zh) | 异常信息检测方法、装置、计算机设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |