CN113342810A - 记录链接数据匹配方法及装置 - Google Patents

记录链接数据匹配方法及装置 Download PDF

Info

Publication number
CN113342810A
CN113342810A CN202110605430.6A CN202110605430A CN113342810A CN 113342810 A CN113342810 A CN 113342810A CN 202110605430 A CN202110605430 A CN 202110605430A CN 113342810 A CN113342810 A CN 113342810A
Authority
CN
China
Prior art keywords
data
sequence
random
encoding
range
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110605430.6A
Other languages
English (en)
Inventor
黄思创
鲁金彪
陆杰文
罗鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110605430.6A priority Critical patent/CN113342810A/zh
Publication of CN113342810A publication Critical patent/CN113342810A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/58Random or pseudo-random number generators
    • G06F7/588Random number generators, i.e. based on natural stochastic processes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种记录链接数据匹配方法及装置,属于信息安全技术领域。该记录链接数据匹配方法包括:根据数据范围和编码长度生成随机数据序列;根据随机数据序列分别对第一原始数据和第二原始数据进行编码,得到第一编码数据和第二编码数据;根据第一编码数据、第二编码数据、数据范围和编码长度确定数据距离矩阵;根据数据距离矩阵与预设距离阈值的比较结果生成数据匹配结果。本发明可以在匿名空间进行数据匹配,在保护数据隐私、不降低记录链接效果的情况下提高了记录链接在实际运用中的效率。

Description

记录链接数据匹配方法及装置
技术领域
本发明涉及信息安全技术领域,具体地,涉及一种记录链接数据匹配方法及装置。
背景技术
在数据库管理、信息检索和机器学习等领域中,如何从不同的数据源中提取、匹配并解析出描述同一个实体的数据是一项长期以来难以解决的问题。这一问题被称为记录链接问题。准确而快速地完成记录链接的任务在商业和科学领域都有着重大的实际意义。
近年来随着物联网和云计算等技术的发展,各大互联网公司收集到的用户数据越来越多,由于不同厂商之间的商业利益等因素,这些数据通常不能够进行共享,导致了许多冗余数据的存在。在当前大数据的背景下,为了让数据更好的服务于人类,综合不同数据源的数据进行分析是一个很有意义的研究,并且综合分析出的数据更加具有代表性与说服性。而目前实现该目标所用到的一个重要技术就是记录链接,记录链接技术是利用统计学原理找出不同数据集中的相关记录是否是同一个体的技术。一个典型的应用场景就是医疗记录中的记录链接。用户看病时可能会在不同的医院进行就诊,而不同医院的就诊记录又是不相通的。对于医生来说,如果可以知道患者以往的就医记录,那么对于下一次的就医就会提供更精确的指导意见。而记录链接技术允许在不同的数据集中找到相同的实体,所以可用来完成这个任务。
记录链接的过程一般包含一下几个步骤,分别是数据预处理、索引、比较和分类。首先是数据预处理,由于现实生活中收集到的数据一般是含噪声的,不完整的或者是不连续的,因此需要通过数据清洗的方式对数据进行预处理。其次是数据索引,相似的数据通过索引被分成一组,在匹配的过程中可以大大减少匹配的数量,加快匹配的过程。经过索引后将可能的记录再进行匹配,这一过程叫做比较过程。经过比较过程之后,记录之间被分为相似记录、不相似记录和可能相似记录。通常对于相似记录,在匹配算法足够有效和阈值设置足够合理的前提下倾向于这些来自于不同数据集的记录描述的是同一个实体。对于可能相似的记录,还需要根据人为经验进行进一步的评估。
当前,记录链接技术的一大挑战就是如何在记录匹配的过程中保护用户的隐私。通常来说,用来匹配的字段都是区分性很强的属性,如姓名和年龄等,直接用明文的方式匹配虽然可以达到很高的精确度,但是在不加任何隐私保护措施的情况下侵犯了用户的隐私。基于这个出发点,保护隐私的记录链接技术也被提了出来,用来在保护用户隐私的同时完成记录链接的任务。一类可以实现保持隐私的记录链接的方法是匿名化方法。匿名化的方法在一定程度上解决了保护隐私的需求,但是由于匿名化方法的使用,如何在匿名空间中进行数据匹配便成了一大挑战。
发明内容
本发明实施例的主要目的在于提供一种记录链接数据匹配方法及装置,以在匿名空间进行数据匹配,在保护数据隐私、不降低记录链接效果的情况下提高了记录链接在实际运用中的效率。
为了实现上述目的,本发明实施例提供一种记录链接数据匹配方法,包括:
根据数据范围和编码长度生成随机数据序列;
根据随机数据序列分别对第一原始数据和第二原始数据进行编码,得到第一编码数据和第二编码数据;
根据第一编码数据、第二编码数据、数据范围和编码长度确定数据距离矩阵;
根据数据距离矩阵与预设距离阈值的比较结果生成数据匹配结果。
本发明实施例还提供一种记录链接数据匹配装置,包括:
随机数据序列模块,用于根据数据范围和编码长度生成随机数据序列;
编码数据模块,用于根据随机数据序列分别对第一原始数据和第二原始数据进行编码,得到第一编码数据和第二编码数据;
数据距离矩阵模块,用于根据第一编码数据、第二编码数据、数据范围和编码长度确定数据距离矩阵;
数据匹配结果模块,用于根据数据距离矩阵与预设距离阈值的比较结果生成数据匹配结果。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,处理器执行计算机程序时实现所述的记录链接数据匹配方法的步骤。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现所述的记录链接数据匹配方法的步骤。
本发明实施例的记录链接数据匹配方法及装置先根据数据范围和编码长度生成随机数据序列,再根据随机数据序列对原始数据进行编码得到编码数据,然后根据编码数据、数据范围和编码长度确定数据距离矩阵以生成数据匹配结果,可以在匿名空间进行数据匹配,在保护数据隐私、不降低记录链接效果的情况下提高了记录链接在实际运用中的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中记录链接数据匹配方法的流程图;
图2是本发明另一实施例中记录链接数据匹配方法的流程示意图;
图3是本发明实施例中一实施例中S101的流程图;
图4是本发明实施例中一实施例中编码的流程图;
图5是发明实施例中数据序列置换的示意图;
图6是本发明实施例中S102的流程图;
图7是本发明实施例中具体编码的示意图;
图8是本发明实施例中记录链接数据匹配装置的结构框图;
图9是本发明实施例中计算机设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
鉴于现有技术无法在匿名空间中进行数据匹配,本发明实施例提供一种记录链接数据匹配方法,在处理数值类型的记录链接方面具有极高的准确率和召回率,可以在匿名空间进行数据匹配,在保护数据隐私、不降低记录链接效果的情况下提高了记录链接在实际运用中的效率。以下结合附图对本发明进行详细说明。
图1是本发明一实施例中记录链接数据匹配方法的流程图。图2是本发明另一实施例中记录链接数据匹配方法的流程示意图。如图1和图2所示,记录链接数据匹配方法包括:
S101:根据数据范围和编码长度生成随机数据序列。
如图2所示,设两个数据拥有者Alice和Bob分别维护一组由字符串和数值组成的记录。数据拥有者将其保管的记录匿名化提交给可信第三方TTP(Trusted Third Party),TTP的任务是识别属于同一实体的匿名记录,除了将该匿名记录返回给拥有者之外,不会将任何其他信息泄露给任何数据保管人。TTP遵循Honest-But-Curious(HBC)模型,因为它遵循规定的步骤,同时可以推断出有关基础数据的任何信息。用A和B分别表示每个数据拥有者持有的原始数据(记录),在执行S101之前,数据拥有者Ailce和Bob之间通过安全信道协商IBV编码方案的参数,包括数据上界U、数据下界L、数据范围u、编码长度s和原距离阈值Tdist
图3是本发明实施例中一实施例中S101的流程图。图4是本发明实施例中一实施例中编码的流程图。图5是发明实施例中数据序列置换的示意图。如图3-图5所示,S101包括:
S201:根据数据范围和编码长度生成均匀数据序列。
一实施例中,S201包括:根据数据上界和数据下界确定数据范围;根据数据范围、编码长度和数据下界生成均匀数据序列。
其中,数据范围u=[L,U]。将数据范围u分为s+1份,每份为u/(s+1),则原始均匀分布(均匀数据序列)ri=L+i·u/(s+1),i∈[s]。如图5所示,当L=0.5,U=11.5,s=10时,均匀数据序列ri=[1.5,2.5,3.5,4.5,5.5,6.5,7.5,8.5,9.5,10.5]。
S202:根据预设的置换规则对均匀数据序列进行置换,生成随机数据序列。
如图5所示,数据拥有者在交换参数时协商出一个相同的置换机制P。该置换机制可以采用列置换,对均匀数据序列不进行任何修改,通过置换使均匀数据序列的位置和次序发生混淆,得到随机数据序列P(ri)=[6.5,4.5,3.5,8.5,1.5,10.5,5.5,9.5,2.5,7.5]。
S102:根据随机数据序列分别对第一原始数据和第二原始数据进行编码,得到第一编码数据和第二编码数据。
图6是本发明实施例中S102的流程图。图7是本发明实施例中具体编码的示意图。如图6-图7所示,数据拥有者Ailce和Bob根据协商好的参数在本地对各自的记录(第一原始数据和第二原始数据)进行编码处理,得到匿名数据A'(第一编码数据)和B'(第二编码数据),从而将数据从明文空间映射到密文空间。S102包括:
S301:根据随机数据序列和预设的区间阈值生成随机数据区间序列。
其中,设预设的区间阈值为t,则随机数据区间序列Ii=[ri-t,ri+t]。如图7所示,t=2,随机数据序列P(ri)=[7.4,18.2,,46.5,8.3,76.4,9.1……80.1],则对应的随机数据区间序列Ii={[5.4,9.4],[16.2,20.2],[44.5,48.5],[6.3,10.3],[74.4,78.4],[7.1,11.1]……[78.1,82.1]。
S302:根据随机数据区间序列对第一原始数据进行编码,得到第一编码数据。
具体实施时,当原始数据x∈[ri-t,ri+t],则编码为1,否则编码为0,最后产生一个s位的比特向量(编码数据),编码方式如下所示:
Figure BDA0003093931430000051
以图7为例,第一原始数据x1=9,将9与随机数据区间序列Ii进行比较,可得到第一编码数据
Figure BDA0003093931430000052
S303:根据随机数据区间序列对第二原始数据进行编码,得到第二编码数据。
以图7为例,第二原始数据x2=10,将10与随机数据区间序列Ii进行比较,可得到第二编码数据
Figure BDA0003093931430000053
S103:根据第一编码数据、第二编码数据、数据范围和编码长度确定数据距离矩阵。
具体实施时,可以将第一编码数据和第二编码数据交给可信第三方TTP,可信第三方TTP先确定第一编码数据和第二编码数据之间的汉明距离,再根据汉明距离、数据范围和编码长度确定数据距离矩阵。可以通过如下公式确定数据距离矩阵:
Figure BDA0003093931430000054
其中,
Figure BDA0003093931430000055
为数据距离矩阵,dH为汉明距离,数据范围u=U-L。例如年龄范围[L,U]=[0,100],则u的值为100。
S104:根据数据距离矩阵与预设距离阈值的比较结果生成数据匹配结果。
其中,预设距离阈值为原距离阈值Tdist与修正因子
Figure BDA0003093931430000056
的积。当数据距离矩阵小于或等于预设距离阈值时,表明第一编码数据(匿名数据A')和第二编码数据(匿名数据B')匹配,得到A'与B'匹配的数据并对A'与B'进行标记。
图1所示的记录链接数据匹配方法的执行主体可以为计算机。由图1所示的流程可知,本发明实施例的记录链接数据匹配方法先根据数据范围和编码长度生成随机数据序列,再根据随机数据序列对原始数据进行编码得到编码数据,然后根据编码数据、数据范围和编码长度确定数据距离矩阵以生成数据匹配结果,可以在匿名空间进行数据匹配,在保护数据隐私、不降低记录链接效果的情况下提高了记录链接在实际运用中的效率。
本发明通过如下公式进行理论分析以证明本发明方案的合理性:
记录链接的匹配过程形式定义如下:对于d维数据,给定相似度阈值Tsim,如果记录Ra和Rb满足以下条件,则认为这两条记录属于同一实体:
Figure BDA0003093931430000061
其中,Ra为数据持有者A持有的记录(第一记录),Rb为数据持有者B持有的记录(第二记录),d为记录的维数,wi为第i个数据维度的相似度权重,sim(Ra,i,Rb,i)为Ra,i与Rb,i的相似度函数,Ra,i为第一记录的第i维数据,Rb,i为第二记录的第i维数据。
在用距离来衡量相似性的记录链接中,上述公式可以转换为以下公式:
Figure BDA0003093931430000062
其中,dist(Ra,i,Rb,i)为Ra,i与Rb,i的距离函数,Tdist为链接任务中协商的阈值(原距离阈值)。
改进的比特向量(编码数据)依然可以用于记录链接,由于其距离的不完全准确性,本发明在基于距离的记录链接相似性比较中也需要考虑估计误差所带来的影响。在一维坐标下即为欧几里得距离,Tdist为给定的阈值,由于估计会带来误差σ,因此对于距离dE,其估计距离可表示为
Figure BDA0003093931430000063
当dE=Tdist时,处于[dE,dE+σ]的阈值就会大于Tdist,因而会被认为数据不匹配。为了防止这种情况导致的准确率减低,本发明引入了修正因子
Figure BDA0003093931430000064
所以对于记录链接任务,利用改进的比特向量算法的等价任务可写成:
Figure BDA0003093931430000065
其中,
Figure BDA0003093931430000066
IBV(Ra,i)为第一记录的第i维数据Ra,i在IBV(改进的比特向量编码机制)下的二进制编码结果(第一编码数据),IBV(Rb,i)为第二记录的第i维数据Rb,i在IBV(改进的比特向量编码机制)下的二进制编码结果(第二编码数据)。
由于不同方法的误差不一样,其修正因子也需要根据数据分布重新设定,本发明可以通过实验的方式探究修正因子对正确率和召回率的影响。基于比特向量的记录链接匹配方法的具体实现步骤如下:
Figure BDA0003093931430000071
本发明实施例的具体流程如下:
1、根据数据上界和数据下界确定数据范围。
2、根据数据范围、编码长度和数据下界生成均匀数据序列。
2、根据预设的置换规则对均匀数据序列进行置换,生成随机数据序列。
3、根据随机数据序列和预设的区间阈值生成随机数据区间序列。
4、根据随机数据区间序列对第一原始数据进行编码,得到第一编码数据,根据随机数据区间序列对第二原始数据进行编码,得到第二编码数据。
5、根据第一编码数据、第二编码数据、数据范围和编码长度确定数据距离矩阵。
6、根据数据距离矩阵与预设距离阈值的比较结果生成数据匹配结果。
综上所述,本发明实施例的记录链接数据匹配方法改变了编码产生随机数的方式,通过使用均匀分布的数据代替原有的随机数来降低误差,拥有更低的最坏误差和平均误差。此外,本发明在处理数值类型的记录链接问题中拥有更高的准确率和召回率,可以在匿名空间进行数据匹配,在保护数据隐私、不降低记录链接效果的情况下提高了记录链接在实际运用中的效率,具有较好的应用场景。
基于同一发明构思,本发明实施例还提供了一种记录链接数据匹配装置,由于该装置解决问题的原理与记录链接数据匹配方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
图8是本发明实施例中记录链接数据匹配装置的结构框图。如图8所示,记录链接数据匹配装置包括:
随机数据序列模块,用于根据数据范围和编码长度生成随机数据序列;
编码数据模块,用于根据随机数据序列分别对第一原始数据和第二原始数据进行编码,得到第一编码数据和第二编码数据;
数据距离矩阵模块,用于根据第一编码数据、第二编码数据、数据范围和编码长度确定数据距离矩阵;
数据匹配结果模块,用于根据数据距离矩阵与预设距离阈值的比较结果生成数据匹配结果。
在其中一种实施例中,随机数据序列模块包括:
均匀数据序列单元,用于根据数据范围和编码长度生成均匀数据序列;
随机数据序列单元,用于根据预设的置换规则对均匀数据序列进行置换,生成随机数据序列。
在其中一种实施例中,均匀数据序列单元包括:
数据范围子单元,用于根据数据上界和数据下界确定数据范围;
均匀数据序列子单元,用于根据数据范围、编码长度和数据下界生成均匀数据序列。
在其中一种实施例中,编码数据模块包括:
随机数据区间序列单元,用于根据随机数据序列和预设的区间阈值生成随机数据区间序列;
第一编码数据单元,用于根据随机数据区间序列对第一原始数据进行编码,得到第一编码数据;
第二编码数据单元,用于根据随机数据区间序列对第二原始数据进行编码,得到第二编码数据。
综上,本发明实施例的记录链接数据匹配装置先根据数据范围和编码长度生成随机数据序列,再根据随机数据序列对原始数据进行编码得到编码数据,然后根据编码数据、数据范围和编码长度确定数据距离矩阵以生成数据匹配结果,可以在匿名空间进行数据匹配,在保护数据隐私、不降低记录链接效果的情况下提高了记录链接在实际运用中的效率。
本发明实施例还提供能够实现上述实施例中的记录链接数据匹配方法中全部步骤的一种计算机设备的具体实施方式。图9是本发明实施例中计算机设备的结构框图,参见图9,所述计算机设备具体包括如下内容:
处理器(processor)901和存储器(memory)902。
所述处理器901用于调用所述存储器902中的计算机程序,所述处理器执行所述计算机程序时实现上述实施例中的记录链接数据匹配方法中的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
根据数据范围和编码长度生成随机数据序列;
根据随机数据序列分别对第一原始数据和第二原始数据进行编码,得到第一编码数据和第二编码数据;
根据第一编码数据、第二编码数据、数据范围和编码长度确定数据距离矩阵;
根据数据距离矩阵与预设距离阈值的比较结果生成数据匹配结果。
综上,本发明实施例的计算机设备先根据数据范围和编码长度生成随机数据序列,再根据随机数据序列对原始数据进行编码得到编码数据,然后根据编码数据、数据范围和编码长度确定数据距离矩阵以生成数据匹配结果,可以在匿名空间进行数据匹配,在保护数据隐私、不降低记录链接效果的情况下提高了记录链接在实际运用中的效率。
本发明实施例还提供能够实现上述实施例中的记录链接数据匹配方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的记录链接数据匹配方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
根据数据范围和编码长度生成随机数据序列;
根据随机数据序列分别对第一原始数据和第二原始数据进行编码,得到第一编码数据和第二编码数据;
根据第一编码数据、第二编码数据、数据范围和编码长度确定数据距离矩阵;
根据数据距离矩阵与预设距离阈值的比较结果生成数据匹配结果。
综上,本发明实施例的计算机可读存储介质先根据数据范围和编码长度生成随机数据序列,再根据随机数据序列对原始数据进行编码得到编码数据,然后根据编码数据、数据范围和编码长度确定数据距离矩阵以生成数据匹配结果,可以在匿名空间进行数据匹配,在保护数据隐私、不降低记录链接效果的情况下提高了记录链接在实际运用中的效率。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元,或装置都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

Claims (10)

1.一种记录链接数据匹配方法,其特征在于,包括:
根据数据范围和编码长度生成随机数据序列;
根据所述随机数据序列分别对第一原始数据和第二原始数据进行编码,得到第一编码数据和第二编码数据;
根据所述第一编码数据、所述第二编码数据、所述数据范围和所述编码长度确定数据距离矩阵;
根据所述数据距离矩阵与预设距离阈值的比较结果生成数据匹配结果。
2.根据权利要求1所述的记录链接数据匹配方法,其特征在于,根据数据范围和编码长度生成随机数据序列包括:
根据数据范围和编码长度生成均匀数据序列;
根据预设的置换规则对所述均匀数据序列进行置换,生成随机数据序列。
3.根据权利要求2所述的记录链接数据匹配方法,其特征在于,根据数据范围和编码长度生成均匀数据序列包括:
根据数据上界和数据下界确定数据范围;
根据所述数据范围、所述编码长度和所述数据下界生成均匀数据序列。
4.根据权利要求1所述的记录链接数据匹配方法,其特征在于,根据所述随机数据序列分别对第一原始数据和第二原始数据进行编码,得到第一编码数据和第二编码数据包括:
根据所述随机数据序列和预设的区间阈值生成随机数据区间序列;
根据所述随机数据区间序列对所述第一原始数据进行编码,得到第一编码数据;
根据所述随机数据区间序列对所述第二原始数据进行编码,得到第二编码数据。
5.一种记录链接数据匹配装置,其特征在于,包括:
随机数据序列模块,用于根据数据范围和编码长度生成随机数据序列;
编码数据模块,用于根据所述随机数据序列分别对第一原始数据和第二原始数据进行编码,得到第一编码数据和第二编码数据;
数据距离矩阵模块,用于根据所述第一编码数据、所述第二编码数据、所述数据范围和所述编码长度确定数据距离矩阵;
数据匹配结果模块,用于根据所述数据距离矩阵与预设距离阈值的比较结果生成数据匹配结果。
6.根据权利要求5所述的记录链接数据匹配装置,其特征在于,所述随机数据序列模块包括:
均匀数据序列单元,用于根据数据范围和编码长度生成均匀数据序列;
随机数据序列单元,用于根据预设的置换规则对所述均匀数据序列进行置换,生成随机数据序列。
7.根据权利要求6所述的记录链接数据匹配装置,其特征在于,所述均匀数据序列单元包括:
数据范围子单元,用于根据数据上界和数据下界确定数据范围;
均匀数据序列子单元,用于根据所述数据范围、所述编码长度和所述数据下界生成均匀数据序列。
8.根据权利要求5所述的记录链接数据匹配装置,其特征在于,所述编码数据模块包括:
随机数据区间序列单元,用于根据所述随机数据序列和预设的区间阈值生成随机数据区间序列;
第一编码数据单元,用于根据所述随机数据区间序列对所述第一原始数据进行编码,得到第一编码数据;
第二编码数据单元,用于根据所述随机数据区间序列对所述第二原始数据进行编码,得到第二编码数据。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4任一项所述的记录链接数据匹配方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4任一项所述的记录链接数据匹配方法的步骤。
CN202110605430.6A 2021-05-31 2021-05-31 记录链接数据匹配方法及装置 Pending CN113342810A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110605430.6A CN113342810A (zh) 2021-05-31 2021-05-31 记录链接数据匹配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110605430.6A CN113342810A (zh) 2021-05-31 2021-05-31 记录链接数据匹配方法及装置

Publications (1)

Publication Number Publication Date
CN113342810A true CN113342810A (zh) 2021-09-03

Family

ID=77473597

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110605430.6A Pending CN113342810A (zh) 2021-05-31 2021-05-31 记录链接数据匹配方法及装置

Country Status (1)

Country Link
CN (1) CN113342810A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110609831A (zh) * 2019-08-27 2019-12-24 浙江工商大学 基于隐私保护和安全多方计算的数据链接方法
CN110866283A (zh) * 2019-11-25 2020-03-06 浙江工商大学 基于区块链和部分同态加密多方可验证数据记录链接方法
CN111046422A (zh) * 2019-12-09 2020-04-21 支付宝(杭州)信息技术有限公司 防止隐私数据泄漏的编码模型训练方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110609831A (zh) * 2019-08-27 2019-12-24 浙江工商大学 基于隐私保护和安全多方计算的数据链接方法
CN110866283A (zh) * 2019-11-25 2020-03-06 浙江工商大学 基于区块链和部分同态加密多方可验证数据记录链接方法
CN111046422A (zh) * 2019-12-09 2020-04-21 支付宝(杭州)信息技术有限公司 防止隐私数据泄漏的编码模型训练方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄思创: "《数据共享与发布中的隐私保护方法研究》", 《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》, pages 1 - 59 *

Similar Documents

Publication Publication Date Title
US11468192B2 (en) Runtime control of automation accuracy using adjustable thresholds
Martinez et al. Record and reward federated learning contributions with blockchain
US20020073138A1 (en) De-identification and linkage of data records
US20020073099A1 (en) De-identification and linkage of data records
CN103886376A (zh) 用于基于规则的内容过滤的系统和方法
CN105190636A (zh) 基因信息存储装置、基因信息检索装置、基因信息存储程序、基因信息检索程序、基因信息存储方法、基因信息检索方法以及基因信息检索系统
CN111669366A (zh) 一种本地化差分隐私数据交换方法及存储介质
WO2022089227A1 (zh) 地址参数处理方法及相关设备
CN109840401A (zh) 针对数据文本的水印嵌入方法
KR102321608B1 (ko) 블록체인을 이용한 최초 저작권자 인증 시스템 및 그 방법
CN111461191B (zh) 为模型训练确定图像样本集的方法、装置和电子设备
CN113764062B (zh) 一种患者数据信息处理方法、装置、系统和存储介质
CN106464486A (zh) 高效存储和无条件安全私有信息检索
CN113806350B (zh) 一种提高大数据交易平台安全性的管理方法及系统
Wang et al. A privacy-preserving cross-media retrieval on encrypted data in cloud computing
CN112632051B (zh) 基于神经网络的数据库清理方法及系统
CN113902039A (zh) 黑产用户识别方法、系统、电子设备及存储介质
CN116414875A (zh) 数据处理装置和数据处理方法
CN113269179A (zh) 数据处理方法、装置、设备及存储介质
CN110957003B (zh) 一种面向用户隐私保护的高效基因比对方法
CN111628996A (zh) 一种基于物联网的电子数据通信方法及系统
CN113342810A (zh) 记录链接数据匹配方法及装置
CN109726589B (zh) 一种面向众智云环境的隐私数据访问方法
CN115344783A (zh) 基于知识图谱的产品推荐方法及装置
CN109063097B (zh) 基于区块链的数据对比及共识方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination