CN114741728A - 保护隐私数据的第三方识别类别的方法和装置 - Google Patents

保护隐私数据的第三方识别类别的方法和装置 Download PDF

Info

Publication number
CN114741728A
CN114741728A CN202210421776.5A CN202210421776A CN114741728A CN 114741728 A CN114741728 A CN 114741728A CN 202210421776 A CN202210421776 A CN 202210421776A CN 114741728 A CN114741728 A CN 114741728A
Authority
CN
China
Prior art keywords
data
ciphertext
sample
party
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210421776.5A
Other languages
English (en)
Inventor
李正煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ant Blockchain Technology Shanghai Co Ltd
Original Assignee
Ant Blockchain Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ant Blockchain Technology Shanghai Co Ltd filed Critical Ant Blockchain Technology Shanghai Co Ltd
Priority to CN202210421776.5A priority Critical patent/CN114741728A/zh
Publication of CN114741728A publication Critical patent/CN114741728A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/008Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols involving homomorphic encryption

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供一种保护隐私数据的第三方识别类别的方法和装置。方法包括:数据持有方将其持有的待识别样本的明文样本数据利用同态加密算法进行加密,得到第一密文样本数据;将第一密文样本数据发送给第三方,以使第三方利用第一密文样本数据和预先训练得到的统计学习模型,确定待识别样本的类别识别结果;统计学习模型是利用训练样本的密文样本数据进行训练得到的;训练样本的密文样本数据是对训练样本的明文样本数据利用同态加密算法进行加密得到的;数据持有方接收第三方返回的类别识别结果,并根据类别识别结果确定待识别样本的目标类别。能够保证安全性和识别精度。

Description

保护隐私数据的第三方识别类别的方法和装置
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及保护隐私数据的第三方识别类别的方法和装置。
背景技术
数据安全是众多技术创新的目标领域。对于数据安全的服务与应用,数据识别能力是不可或缺的一环,比如识别客户数据是否属于敏感数据,从而支持敏感数据相应的分类、打标、脱敏、审计等。数据安全:根据国家数据安全法等相关法律的规定,组织和个人都应该对敏感数据进行符合法律法规的安全存储和使用。比如对敏感数据,如手机号码等个人信息,需要脱敏使用。敏感数据也称为隐私数据:根据国家数据安全法等相关法律的规定,包含隐私,机密信息的数据属于敏感数据,如企业客户的手机号、身份证、员工工资等。
在数据的类别识别中,企业或机构作为数据持有方,在将其大量真实数据传输到提供数据安全服务的第三方进行识别的过程中,可能会存在隐私数据泄露的风险。
因此,需要提供改进的方案,以避免数据持有方在借助第三方识别类别的过程中产生新的数据安全问题,保证安全性和识别精度。
发明内容
本说明书一个或多个实施例描述了一种保护隐私数据的第三方识别类别的方法和装置,能够保证安全性和识别精度。
第一方面,提供了一种保护隐私数据的第三方识别类别的方法,方法包括:
数据持有方将其持有的待识别样本的明文样本数据利用同态加密算法进行加密,得到第一密文样本数据;
所述数据持有方将所述第一密文样本数据发送给所述第三方,以使所述第三方利用所述第一密文样本数据和预先训练得到的统计学习模型,确定所述待识别样本的类别识别结果;所述统计学习模型是利用训练样本的密文样本数据进行训练得到的;所述训练样本的密文样本数据是对训练样本的明文样本数据利用所述同态加密算法进行加密得到的;
所述数据持有方接收所述第三方返回的所述类别识别结果,并根据所述类别识别结果确定所述待识别样本的目标类别。
在一种可能的实施方式中,所述训练样本来自所述数据持有方。
在一种可能的实施方式中,所述统计学习模型为命名实体识别(named entityrecognition,NER)模型,所述目标类别为隐私类别。
在一种可能的实施方式中,所述方法还包括:
所述数据持有方将其持有的各个训练样本对应的各个明文样本数据利用所述同态加密算法分别进行加密,得到各个第二密文样本数据;
所述数据持有方将所述各个第二密文样本数据发送给所述第三方,以使所述第三方利用所述各个第二密文样本数据训练所述统计学习模型,在模型训练过程中通过同态计算的方式计算预测损失。
进一步地,所述各个明文样本数据属于不同样本对象的同一样本特征的各个特征值。
进一步地,所述各个明文样本数据属于数据库中的同一字段的各个字段取值。
进一步地,所述方法还包括:
所述数据持有方根据其维护的类别明文与密文标签的对应关系,确定其持有的各个明文样本数据分别对应的密文标签;
所述数据持有方将所述各个第二密文样本数据发送给所述第三方,包括:
所述数据持有方将所述各个第二密文样本数据和对应的各个密文标签发送给所述第三方,以使所述第三方利用所述各个第二密文样本数据和对应的各个密文标签训练所述统计学习模型。
进一步地,所述类别识别结果为目标密文标签;
所述根据所述类别识别结果确定所述待识别样本的目标类别,包括:
所述数据持有方根据所述目标密文标签,以及其维护的类别明文与密文标签的对应关系,确定所述目标类别。
在一种可能的实施方式中,所述待识别样本为数据库中目标字段的字段值;
所述方法还包括:
根据所述待识别样本的目标类别,确定所述目标字段的目标类别。
在一种可能的实施方式中,所述待识别样本的数目为多个;
所述数据持有方接收所述第三方返回的所述类别识别结果,包括:
所述数据持有方接收所述第三方返回的第一密文样本数据和所述类别识别结果;
所述方法还包括:
所述数据持有方对第一密文样本数据进行解密,得到第一待识别样本的明文样本数据;
确定所述第一待识别样本对应于所述目标类别。
第二方面,提供了一种保护隐私数据的第三方识别类别的方法,方法包括:
数据持有方将其持有的多个待识别样本各自的明文样本数据利用保序加密算法进行加密,得到多个密文样本数据;
所述数据持有方将所述多个密文样本数据发送给所述第三方,以使所述第三方利用所述多个密文样本数据的排序和无监督的统计学习算法,确定所述多个待识别样本各自的目标类别;无监督的统计学习算法用于根据样本之间的距离,确定所属类别;
所述数据持有方接收所述第三方返回的所述多个密文样本数据和各自的目标类别。
在一种可能的实施方式中,所述无监督的统计学习算法包括,聚类算法。
第三方面,提供了一种保护隐私数据的第三方识别类别的装置,该装置设置于数据持有方,包括:
加密单元,用于将其持有的待识别样本的明文样本数据利用同态加密算法进行加密,得到第一密文样本数据;
发送单元,用于将所述加密单元得到的第一密文样本数据发送给所述第三方,以使所述第三方利用所述第一密文样本数据和预先训练得到的统计学习模型,确定所述待识别样本的类别识别结果;所述统计学习模型是利用训练样本的密文样本数据进行训练得到的;所述训练样本的密文样本数据是对训练样本的明文样本数据利用所述同态加密算法进行加密得到的;
接收单元,用于接收所述第三方返回的所述类别识别结果,并根据所述类别识别结果确定所述待识别样本的目标类别。
第四方面,提供了一种保护隐私数据的第三方识别类别的装置,该装置设置于数据持有方,包括:
加密单元,用于将其持有的多个待识别样本各自的明文样本数据利用保序加密算法进行加密,得到多个密文样本数据;
发送单元,用于将所述加密单元得到的多个密文样本数据发送给所述第三方,以使所述第三方利用所述多个密文样本数据的排序和无监督的统计学习算法,确定所述多个待识别样本各自的目标类别;无监督的统计学习算法用于根据样本之间的距离,确定所属类别;
接收单元,用于接收所述第三方返回的所述多个密文样本数据和各自的目标类别。
第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面或第二方面的方法。
第六方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面或第二方面的方法。
通过本说明书实施例提供的一种方法和装置,首先数据持有方将其持有的待识别样本的明文样本数据利用同态加密算法进行加密,得到第一密文样本数据;然后所述数据持有方将所述第一密文样本数据发送给所述第三方,以使所述第三方利用所述第一密文样本数据和预先训练得到的统计学习模型,确定所述待识别样本的类别识别结果;所述统计学习模型是利用训练样本的密文样本数据进行训练得到的;所述训练样本的密文样本数据是对训练样本的明文样本数据利用所述同态加密算法进行加密得到的;最后所述数据持有方接收所述第三方返回的所述类别识别结果,并根据所述类别识别结果确定所述待识别样本的目标类别。由上可见,本说明书实施例,数据持有方将利用同态加密算法得到的加密态的数据传输给第三方,第三方通过预先训练得到的统计学习模型对加密态的数据进行类别识别,从而使得数据持有方可以放心将其待识别的数据在第三方进行识别,第三方获得的是加密态的数据,不会因为第三方的环境问题,或人为故意原因造成隐私数据的泄露,安全性高。其中,上述统计学习模型是采用加密态的数据进行训练的,训练得到的模型参数已经包含密态数据的特征,从而可以直接对密文进行计算,产出类别识别结果,并且,由于上述加密态的数据是利用同态加密算法进行加密的,从而便于模型训练过程中和模型识别过程中采用同态计算方式对密文进行计算,能够保证安全性和识别精度。
通过本说明书实施例提供的另一种方法和装置,首先数据持有方将其持有的多个待识别样本各自的明文样本数据利用保序加密算法进行加密,得到多个密文样本数据;然后所述数据持有方将所述多个密文样本数据发送给所述第三方,以使所述第三方利用所述多个密文样本数据的排序和无监督的统计学习算法,确定所述多个待识别样本各自的目标类别;无监督的统计学习算法用于根据样本之间的距离,确定所属类别;最后所述数据持有方接收所述第三方返回的所述多个密文样本数据和各自的目标类别。由上可见,本说明书实施例,数据持有方将利用保序加密算法得到的加密态的数据传输给第三方,第三方基于加密态的数据进行类别识别,从而使得数据持有方可以放心将其待识别的数据在第三方进行识别,第三方获得的是加密态的数据,不会因为第三方的环境问题,或人为故意原因造成隐私数据的泄露,安全性高。其中,上述保序加密算法是一种保持明文特征的算法,能够使得多个密文的顺序与相应的多个明文的顺序相一致,从而便于采用无监督的统计学习算法对密文进行类别识别,能够保证安全性和识别精度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书披露的一个实施例的实施场景示意图;
图2示出根据一个实施例的保护隐私数据的第三方识别类别的方法交互示意图;
图3示出根据另一个实施例的保护隐私数据的第三方识别类别的方法交互示意图;
图4示出根据一个实施例的保护隐私数据的第三方识别类别的装置的示意性框图;
图5示出根据另一个实施例的保护隐私数据的第三方识别类别的装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及保护隐私数据的第三方识别类别。参照图1,数据持有方持有待识别样本的明文样本数据,并且具有识别该待识别样本的类别的需求,但是其不具有相应的类别识别的能力,该明文样本数据可能属于隐私数据,如果将该明文样本数据传输给第三方,则存在安全隐患;第三方具有类别识别的能力,并且可以针对待识别样本的密态样本数据直接进行类别识别,以获得该待识别样本的类别识别结果,从而不需要从数据持有方获得待识别样本的明文样本数据,而只需获取待识别样本的密态样本数据即可,具备很高的安全性。
可以理解的是,隐私数据可以是任何不便于公开的数据,可以但不限于代表用户的个人信息的数据,或者商业秘密等。
其中,前述数据持有方和第三方可以实现为任何具有计算、处理能力的设备、平台、服务器或设备集群。双方要在保护数据隐私的情况下,联合确定待识别样本的类别。
第三方,用于向数据持有方提供类别识别服务,因此也可以称为服务提供方。
本说明书实施例可以通过安全多方计算,由数据持有方和前述第三方联合确定待识别样本的类别。安全多方计算又称为多方安全计算,即多方共同计算出一个函数的结果,而不泄露这个函数各方的输入数据,计算的结果公开给其中的一方或多方。
本说明书实施例,提出采用保序加密算法或同态加密算法对待识别样本的明文样本数据进行加密,得到密态样本数据。其中,保序加密算法是一种保持明文特征的算法,能够使得多个密文的顺序与相应的多个明文的顺序相一致,从而便于采用无监督的统计学习算法对密文进行类别识别,能够保证安全性和识别精度。同态加密算法便于后续对密文进行计算,模型训练过程中和模型识别过程中采用同态计算方式对密文进行计算,能够保证安全性和识别精度。
图2示出根据一个实施例的保护隐私数据的第三方识别类别的方法交互示意图,该方法可以基于图1所示的实施场景,由数据持有方和第三方共同执行,采用了同态加密算法。如图2所示,该实施例中保护隐私数据的第三方识别类别的方法包括以下步骤:步骤21,数据持有方将其持有的待识别样本的明文样本数据利用同态加密算法进行加密,得到第一密文样本数据;步骤22,数据持有方将所述第一密文样本数据发送给所述第三方;步骤23,第三方利用所述第一密文样本数据和预先训练得到的统计学习模型,确定所述待识别样本的类别识别结果;所述统计学习模型是利用训练样本的密文样本数据进行训练得到的;所述训练样本的密文样本数据是对训练样本的明文样本数据利用所述同态加密算法进行加密得到的;步骤24,第三方向数据持有方发送所述类别识别结果;步骤25,数据持有方根据所述类别识别结果确定所述待识别样本的目标类别。下面描述以上各个步骤的具体执行方式。
首先在步骤21,数据持有方将其持有的待识别样本的明文样本数据利用同态加密算法进行加密,得到第一密文样本数据。可以理解的是,可以由数据持有方与第三方预先约定好具体采用的同态加密算法,比如同态加密(homomorphic encryption),或变种近似同态加密(somewhat homomorphic encryption),或分级同态加密(leveled homomorphicencryption)等。
其中,待识别样本可以来自于多数据源中的任一数据源,上述数据源可以是结构化数据的数据源,也可以是非结构化数据的数据源,例如,结构化数据的数据源包括数据仓库maxCompute、hologres、hive等,或者数据库mysql oracle,非结构化数据的数据源包括文本文件、图片等。
在一个示例中,所述待识别样本为数据库中目标字段的字段值。
可以理解的是,通常地,数据库包括多个数据表,每个数据表包括多个字段,每个字段对应于数据表中的一列数据,同一列数据通常具有相同的类别,因此,通过对目标字段的各个字段值进行抽样识别,从而可以根据各个字段值的目标类别,确定所述目标字段的目标类别。
然后在步骤22,数据持有方将所述第一密文样本数据发送给所述第三方。可以理解的是,第三方无法对第一密文样本数据进行解密。
本说明书实施例,数据持有方可以将第一密文样本数据发送给所述第三方的大数据存储引擎,实现在第三方的大数据存储引擎仅存储加密数据,数据持有方的明文数据只在其本地存储不流出。
接着在步骤23,第三方利用所述第一密文样本数据和预先训练得到的统计学习模型,确定所述待识别样本的类别识别结果;所述统计学习模型是利用训练样本的密文样本数据进行训练得到的;所述训练样本的密文样本数据是对训练样本的明文样本数据利用所述同态加密算法进行加密得到的。可以理解的是,在模型训练时和模型识别时,采用了相同的加密算法。
在一个示例中,所述训练样本来自所述数据持有方。
该示例中,训练专用于所述数据持有方的统计学习模型,有利于提高类别识别的精度。
统计学习模型:基于统计方法和学习过程算法,对海量数据进行训练,提取特征,生成参数,从而对新数据进行识别的模型。主要针对仅用规则无法准确识别的数据类型,如人名。
在一个示例中,所述统计学习模型为命名实体识别(named entity recognition,NER)模型,所述目标类别为隐私类别。
NER模型,一种统计学习模型,用于识别一条数据是哪一种实体类型,比如把“蚂蚁集团”这条数据,识别为公司名这个实体类型。
在一个示例中,所述方法还包括:
所述数据持有方将其持有的各个训练样本对应的各个明文样本数据利用所述同态加密算法分别进行加密,得到各个第二密文样本数据;
所述数据持有方将所述各个第二密文样本数据发送给所述第三方,以使所述第三方利用所述各个第二密文样本数据训练所述统计学习模型,在模型训练过程中通过同态计算的方式计算预测损失。
本说明书实施例,以统计学习模型为NER模型为例,模型训练情况可以根据损失函数和学习率曲线判断,对于NER模型中的超参数,通过自动机器学习AutoML自动在合理范围调参的算法,根据收敛结果选择超参数,认为训练完成。接触到训练过程的技术人员无法看到数据持有方的真实数据。
进一步地,所述各个明文样本数据属于不同样本对象的同一样本特征的各个特征值。
可以理解的是,由于上述各个特征值对应于同一样本特征,因此可以具有相同的类别。
进一步地,所述各个明文样本数据属于数据库中的同一字段的各个字段取值。
可以理解的是,由于上述各个字段取值对应于同一字段,因此可以具有相同的类别。
本说明书实施例,可以选择使用部分存量真实的数据训练用户场景中的专用模型。这部分数据在存储引擎中是结构化的,比如字段名为姓名,则原则上存储的数据都是姓名数据。通过利用数据源中加密数据的训练,由于是使用同态加密的密文数据,便于模型训练过程中的计算。
进一步地,所述方法还包括:
所述数据持有方根据其维护的类别明文与密文标签的对应关系,确定其持有的各个明文样本数据分别对应的密文标签;
所述数据持有方将所述各个第二密文样本数据发送给所述第三方,包括:
所述数据持有方将所述各个第二密文样本数据和对应的各个密文标签发送给所述第三方,以使所述第三方利用所述各个第二密文样本数据和对应的各个密文标签训练所述统计学习模型。
该示例中,数据持有方将所述各个第二密文样本数据和对应的各个密文标签发送给所述第三方,使得第三方无法获得类别明文,可以进一步提升安全性。
可以理解的是,数据持有方还可以将所述各个第二密文样本数据和对应的各个类别明文发送给所述第三方,以使所述第三方利用所述各个第二密文样本数据和对应的各个类别明文训练所述统计学习模型。这种方式中,虽然第三方获得了类别明文,但是无法获得明文样本数据,因此也具有较高的安全性。
进一步地,所述类别识别结果为目标密文标签。
该示例中,第三方得到的类别识别结果也是密文数据,后续可以传输给数据持有方,由数据持有方进行解密,安全性高。
再在步骤24,第三方向数据持有方发送所述类别识别结果。可以理解的是,该类别识别结果可以是目标类别的类别明文,也可以是目标类别对应的目标密文标签。
最后在步骤25,数据持有方根据所述类别识别结果确定所述待识别样本的目标类别。可以理解的是,若该类别识别结果是目标类别的类别明文,则可以直接确定所述待识别样本的目标类别;若该类别识别结果是目标类别对应的目标密文标签,则需要通过预先存储的映射关系确定所述待识别样本的目标类别。
在一个示例中,所述待识别样本为数据库中目标字段的字段值;
所述方法还包括:
根据所述待识别样本的目标类别,确定所述目标字段的目标类别。
本说明书实施例,第三方提供功能可以包括数据分类分级,有不同类型和分级的元数据,对多数据源的训练集数据进行专用模型训练,对数据持有方的数据进行抽样与识别。识别后根据识别结果配置相应的脱敏和审计的功能。
在一个示例中,所述待识别样本的数目为多个;
第三方向数据持有方发送所述类别识别结果,包括:
第三方向数据持有方发送第一密文样本数据和所述类别识别结果;
所述方法还包括:
所述数据持有方对第一密文样本数据进行解密,得到第一待识别样本的明文样本数据;
确定所述第一待识别样本对应于所述目标类别。
本说明书实施例,可以在用户的多数据源中,进行抽样识别,对于抽样出来的加密数据,使用预训练的算法模型参数进行预测,生成识别结果,在数据安全服务中对用户元数据信息进行打标,同时与加密数据一同传输到用户侧机器,过程中依然保持加密状态。在用户侧,再次调用加密算法,对传回的数据进行解密,同时使用结果在用户侧对刚识别的数据进行打标,看到的是明文数据与识别结果的对应关系。实现用户侧全明文,在传输和传回以及训练或识别过程中全密文形态,实现隐私计算。
本说明书实施例,可以使用密文全同态进行识别并将识别结果打标到元数据上,其余依赖功能包括数据脱敏、审计等可以直接基于识别打标的结果,在用户侧正常执行。最终实现用户在不泄露,向外传输内部数据的情况下,实现自身场景定制模型的训练,以及识别服务。可以理解的是,用户侧对应于数据持有方,数据安全服务由第三方提供。
通过本说明书实施例提供的方法,首先数据持有方将其持有的待识别样本的明文样本数据利用同态加密算法进行加密,得到第一密文样本数据;然后所述数据持有方将所述第一密文样本数据发送给所述第三方,以使所述第三方利用所述第一密文样本数据和预先训练得到的统计学习模型,确定所述待识别样本的类别识别结果;所述统计学习模型是利用训练样本的密文样本数据进行训练得到的;所述训练样本的密文样本数据是对训练样本的明文样本数据利用所述同态加密算法进行加密得到的;最后所述数据持有方接收所述第三方返回的所述类别识别结果,并根据所述类别识别结果确定所述待识别样本的目标类别。由上可见,本说明书实施例,数据持有方将利用同态加密算法得到的加密态的数据传输给第三方,第三方通过预先训练得到的统计学习模型对加密态的数据进行类别识别,从而使得数据持有方可以放心将其待识别的数据在第三方进行识别,第三方获得的是加密态的数据,不会因为第三方的环境问题,或人为故意原因造成隐私数据的泄露,安全性高。其中,上述统计学习模型是采用加密态的数据进行训练的,训练得到的模型参数已经包含密态数据的特征,从而可以直接对密文进行计算,产出类别识别结果,并且,由于上述加密态的数据是利用同态加密算法进行加密的,从而便于模型训练过程中和模型识别过程中采用同态计算方式对密文进行计算,能够保证安全性和识别精度。
图3示出根据另一个实施例的保护隐私数据的第三方识别类别的方法交互示意图,该方法可以基于图1所示的实施场景,由数据持有方和第三方共同执行,采用了保序加密算法。如图3所示,该实施例中保护隐私数据的第三方识别类别的方法包括以下步骤:步骤31,数据持有方将其持有的多个待识别样本各自的明文样本数据利用保序加密算法进行加密,得到多个密文样本数据;步骤32,数据持有方将所述多个密文样本数据发送给所述第三方;步骤33,第三方利用所述多个密文样本数据的排序和无监督的统计学习算法,确定所述多个待识别样本各自的目标类别;无监督的统计学习算法用于根据样本之间的距离,确定所属类别;步骤34,数据持有方接收所述第三方返回的所述多个密文样本数据和各自的目标类别。下面描述以上各个步骤的具体执行方式。
首先在步骤31,数据持有方将其持有的多个待识别样本各自的明文样本数据利用保序加密算法进行加密,得到多个密文样本数据。可以理解的是,保序加密算法能使密文的大小顺序与明文保持一致。
其中,上述待识别样本可以是数值型的样本,例如,金额、日期等,也可以是文本型的样本,例如,城市、职业等;对于文本型的样本也可以转化为数值型的样本,例如,将文本型的样本对应的编码向量作为其转化的数值型的样本,从而使其具备大小顺序。
然后在步骤32,数据持有方将所述多个密文样本数据发送给所述第三方。可以理解的是,第三方无法对多个密文样本数据进行解密。
接着在步骤33,第三方利用所述多个密文样本数据的排序和无监督的统计学习算法,确定所述多个待识别样本各自的目标类别;无监督的统计学习算法用于根据样本之间的距离,确定所属类别。可以理解的是,样本之间的距离与样本之间的排序具有相关性。
在一个示例中,所述无监督的统计学习算法包括,聚类算法。
最后在步骤34,数据持有方接收所述第三方返回的所述多个密文样本数据和各自的目标类别。可以理解的是,数据持有方可以对多个密文样本数据进行解密,从而得到多个待识别样本和各自的目标类别。
通过本说明书实施例提供的方法,首先数据持有方将其持有的多个待识别样本各自的明文样本数据利用保序加密算法进行加密,得到多个密文样本数据;然后所述数据持有方将所述多个密文样本数据发送给所述第三方,以使所述第三方利用所述多个密文样本数据的排序和无监督的统计学习算法,确定所述多个待识别样本各自的目标类别;无监督的统计学习算法用于根据样本之间的距离,确定所属类别;最后所述数据持有方接收所述第三方返回的所述多个密文样本数据和各自的目标类别。由上可见,本说明书实施例,数据持有方将利用保序加密算法得到的加密态的数据传输给第三方,第三方基于加密态的数据进行类别识别,从而使得数据持有方可以放心将其待识别的数据在第三方进行识别,第三方获得的是加密态的数据,不会因为第三方的环境问题,或人为故意原因造成隐私数据的泄露,安全性高。其中,上述保序加密算法是一种保持明文特征的算法,能够使得多个密文的顺序与相应的多个明文的顺序相一致,从而便于采用无监督的统计学习算法对密文进行类别识别,能够保证安全性和识别精度。
根据另一方面的实施例,还提供一种保护隐私数据的第三方识别类别的装置,该装置用于执行本说明书图2所示实施例提供的方法中数据持有方的动作。图4示出根据一个实施例的保护隐私数据的第三方识别类别的装置的示意性框图。如图4所示,该装置400包括:
加密单元41,用于将其持有的待识别样本的明文样本数据利用同态加密算法进行加密,得到第一密文样本数据;
发送单元42,用于将所述加密单元41得到的第一密文样本数据发送给所述第三方,以使所述第三方利用所述第一密文样本数据和预先训练得到的统计学习模型,确定所述待识别样本的类别识别结果;所述统计学习模型是利用训练样本的密文样本数据进行训练得到的;所述训练样本的密文样本数据是对训练样本的明文样本数据利用所述同态加密算法进行加密得到的;
接收单元43,用于接收所述第三方返回的所述类别识别结果,并根据所述类别识别结果确定所述待识别样本的目标类别。
可选地,作为一个实施例,所述训练样本来自所述数据持有方。
可选地,作为一个实施例,所述统计学习模型为命名实体识别NER模型,所述目标类别为隐私类别。
可选地,作为一个实施例,所述加密单元41,还用于将其持有的各个训练样本对应的各个明文样本数据利用所述同态加密算法分别进行加密,得到各个第二密文样本数据;
所述发送单元42,还用于将所述加密单元41得到的各个第二密文样本数据发送给所述第三方,以使所述第三方利用所述各个第二密文样本数据训练所述统计学习模型,在模型训练过程中通过同态计算的方式计算预测损失。
进一步地,所述各个明文样本数据属于不同样本对象的同一样本特征的各个特征值。
进一步地,所述各个明文样本数据属于数据库中的同一字段的各个字段取值。
进一步地,所述装置还包括:
标签确定单元,用于根据其维护的类别明文与密文标签的对应关系,确定其持有的各个明文样本数据分别对应的密文标签;
所述发送单元42,具体用于将所述各个第二密文样本数据和对应的所述标签确定单元确定的各个密文标签发送给所述第三方,以使所述第三方利用所述各个第二密文样本数据和对应的各个密文标签训练所述统计学习模型。
进一步地,所述类别识别结果为目标密文标签;
所述接收单元43,具体用于根据所述目标密文标签,以及其维护的类别明文与密文标签的对应关系,确定所述目标类别。
根据另一方面的实施例,还提供一种保护隐私数据的第三方识别类别的装置,该装置用于执行本说明书图3所示实施例提供的方法中数据持有方的动作。图5示出根据另一个实施例的保护隐私数据的第三方识别类别的装置的示意性框图。如图5所示,该装置500包括:
加密单元51,用于将其持有的多个待识别样本各自的明文样本数据利用保序加密算法进行加密,得到多个密文样本数据;
发送单元52,用于将所述加密单元51得到的多个密文样本数据发送给所述第三方,以使所述第三方利用所述多个密文样本数据的排序和无监督的统计学习算法,确定所述多个待识别样本各自的目标类别;无监督的统计学习算法用于根据样本之间的距离,确定所属类别;
接收单元53,用于接收所述第三方返回的所述多个密文样本数据和各自的目标类别。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2或图3所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2或图3所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (23)

1.一种保护隐私数据的第三方识别类别的方法,所述方法包括:
数据持有方将其持有的待识别样本的明文样本数据利用同态加密算法进行加密,得到第一密文样本数据;
所述数据持有方将所述第一密文样本数据发送给所述第三方,以使所述第三方利用所述第一密文样本数据和预先训练得到的统计学习模型,确定所述待识别样本的类别识别结果;所述统计学习模型是利用训练样本的密文样本数据进行训练得到的;所述训练样本的密文样本数据是对训练样本的明文样本数据利用所述同态加密算法进行加密得到的;
所述数据持有方接收所述第三方返回的所述类别识别结果,并根据所述类别识别结果确定所述待识别样本的目标类别。
2.如权利要求1所述的方法,其中,所述训练样本来自所述数据持有方。
3.如权利要求1所述的方法,其中,所述统计学习模型为命名实体识别NER模型,所述目标类别为隐私类别。
4.如权利要求1所述的方法,其中,所述方法还包括:
所述数据持有方将其持有的各个训练样本对应的各个明文样本数据利用所述同态加密算法分别进行加密,得到各个第二密文样本数据;
所述数据持有方将所述各个第二密文样本数据发送给所述第三方,以使所述第三方利用所述各个第二密文样本数据训练所述统计学习模型,在模型训练过程中通过同态计算的方式计算预测损失。
5.如权利要求4所述的方法,其中,所述各个明文样本数据属于不同样本对象的同一样本特征的各个特征值。
6.如权利要求4所述的方法,其中,所述各个明文样本数据属于数据库中的同一字段的各个字段取值。
7.如权利要求4所述的方法,其中,所述方法还包括:
所述数据持有方根据其维护的类别明文与密文标签的对应关系,确定其持有的各个明文样本数据分别对应的密文标签;
所述数据持有方将所述各个第二密文样本数据发送给所述第三方,包括:
所述数据持有方将所述各个第二密文样本数据和对应的各个密文标签发送给所述第三方,以使所述第三方利用所述各个第二密文样本数据和对应的各个密文标签训练所述统计学习模型。
8.如权利要求7所述的方法,其中,所述类别识别结果为目标密文标签;
所述根据所述类别识别结果确定所述待识别样本的目标类别,包括:
所述数据持有方根据所述目标密文标签,以及其维护的类别明文与密文标签的对应关系,确定所述目标类别。
9.如权利要求1所述的方法,其中,所述待识别样本为数据库中目标字段的字段值;
所述方法还包括:
根据所述待识别样本的目标类别,确定所述目标字段的目标类别。
10.如权利要求1所述的方法,其中,所述待识别样本的数目为多个;
所述数据持有方接收所述第三方返回的所述类别识别结果,包括:
所述数据持有方接收所述第三方返回的第一密文样本数据和所述类别识别结果;
所述方法还包括:
所述数据持有方对第一密文样本数据进行解密,得到第一待识别样本的明文样本数据;
确定所述第一待识别样本对应于所述目标类别。
11.一种保护隐私数据的第三方识别类别的方法,所述方法包括:
数据持有方将其持有的多个待识别样本各自的明文样本数据利用保序加密算法进行加密,得到多个密文样本数据;
所述数据持有方将所述多个密文样本数据发送给所述第三方,以使所述第三方利用所述多个密文样本数据的排序和无监督的统计学习算法,确定所述多个待识别样本各自的目标类别;无监督的统计学习算法用于根据样本之间的距离,确定所属类别;
所述数据持有方接收所述第三方返回的所述多个密文样本数据和各自的目标类别。
12.如权利要求11所述的方法,其中,所述无监督的统计学习算法包括,聚类算法。
13.一种保护隐私数据的第三方识别类别的装置,所述装置设置于数据持有方,包括:
加密单元,用于将其持有的待识别样本的明文样本数据利用同态加密算法进行加密,得到第一密文样本数据;
发送单元,用于将所述加密单元得到的第一密文样本数据发送给所述第三方,以使所述第三方利用所述第一密文样本数据和预先训练得到的统计学习模型,确定所述待识别样本的类别识别结果;所述统计学习模型是利用训练样本的密文样本数据进行训练得到的;所述训练样本的密文样本数据是对训练样本的明文样本数据利用所述同态加密算法进行加密得到的;
接收单元,用于接收所述第三方返回的所述类别识别结果,并根据所述类别识别结果确定所述待识别样本的目标类别。
14.如权利要求13所述的装置,其中,所述训练样本来自所述数据持有方。
15.如权利要求13所述的装置,其中,所述统计学习模型为命名实体识别NER模型,所述目标类别为隐私类别。
16.如权利要求13所述的装置,其中,所述加密单元,还用于将其持有的各个训练样本对应的各个明文样本数据利用所述同态加密算法分别进行加密,得到各个第二密文样本数据;
所述发送单元,还用于将所述加密单元得到的各个第二密文样本数据发送给所述第三方,以使所述第三方利用所述各个第二密文样本数据训练所述统计学习模型,在模型训练过程中通过同态计算的方式计算预测损失。
17.如权利要求16所述的装置,其中,所述各个明文样本数据属于不同样本对象的同一样本特征的各个特征值。
18.如权利要求16所述的装置,其中,所述各个明文样本数据属于数据库中的同一字段的各个字段取值。
19.如权利要求16所述的装置,其中,所述装置还包括:
标签确定单元,用于根据其维护的类别明文与密文标签的对应关系,确定其持有的各个明文样本数据分别对应的密文标签;
所述发送单元,具体用于将所述各个第二密文样本数据和对应的所述标签确定单元确定的各个密文标签发送给所述第三方,以使所述第三方利用所述各个第二密文样本数据和对应的各个密文标签训练所述统计学习模型。
20.如权利要求19所述的装置,其中,所述类别识别结果为目标密文标签;
所述接收单元,具体用于根据所述目标密文标签,以及其维护的类别明文与密文标签的对应关系,确定所述目标类别。
21.一种保护隐私数据的第三方识别类别的装置,所述装置设置于数据持有方,包括:
加密单元,用于将其持有的多个待识别样本各自的明文样本数据利用保序加密算法进行加密,得到多个密文样本数据;
发送单元,用于将所述加密单元得到的多个密文样本数据发送给所述第三方,以使所述第三方利用所述多个密文样本数据的排序和无监督的统计学习算法,确定所述多个待识别样本各自的目标类别;无监督的统计学习算法用于根据样本之间的距离,确定所属类别;
接收单元,用于接收所述第三方返回的所述多个密文样本数据和各自的目标类别。
22.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-12中任一项的所述的方法。
23.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-12中任一项的所述的方法。
CN202210421776.5A 2022-04-21 2022-04-21 保护隐私数据的第三方识别类别的方法和装置 Pending CN114741728A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210421776.5A CN114741728A (zh) 2022-04-21 2022-04-21 保护隐私数据的第三方识别类别的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210421776.5A CN114741728A (zh) 2022-04-21 2022-04-21 保护隐私数据的第三方识别类别的方法和装置

Publications (1)

Publication Number Publication Date
CN114741728A true CN114741728A (zh) 2022-07-12

Family

ID=82282651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210421776.5A Pending CN114741728A (zh) 2022-04-21 2022-04-21 保护隐私数据的第三方识别类别的方法和装置

Country Status (1)

Country Link
CN (1) CN114741728A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118018335A (zh) * 2024-04-10 2024-05-10 北京大学 数据分级加密方法、装置、设备及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118018335A (zh) * 2024-04-10 2024-05-10 北京大学 数据分级加密方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US9858426B2 (en) Computer-implemented system and method for automatically identifying attributes for anonymization
US11263344B2 (en) Data management method and registration method for an anonymous data sharing system, as well as data manager and anonymous data sharing system
TW202123049A (zh) 保護隱私安全的多方聯合進行特徵評估的方法及裝置
CN110086817B (zh) 可靠的用户服务系统和方法
CN111539009B (zh) 保护隐私数据的有监督特征分箱方法及装置
US20190087589A1 (en) Privacy-preserving analysis system for secure multiparty computing
CN107798253A (zh) 数据脱敏方法及装置
CN106059760B (zh) 一种从用户端密码模块调用系统私钥的密码系统
CN113362048B (zh) 数据标签分布确定方法、装置、计算机设备和存储介质
CN114661992A (zh) 一种基于不经意传输协议的排序查询系统及方法
CN111368328A (zh) 数据存储方法、装置、计算机可读存储介质及电子设备
CN114741728A (zh) 保护隐私数据的第三方识别类别的方法和装置
CN113779534B (zh) 一种基于数字身份的个人信息提供方法和业务平台
Zhang et al. Privacyasst: Safeguarding user privacy in tool-using large language model agents
US20240022397A1 (en) Data file encryption and transmission/reception system and data file encryption and transmission/reception method
CN113434555B (zh) 一种基于可搜索加密技术的数据查询方法和装置
CN112948883B (zh) 保护隐私数据的多方联合建模的方法、装置和系统
US11641274B2 (en) Systems and methods for manipulation of private information on untrusted environments
US11496316B1 (en) System and method for identity verification for online dating
CN111414636A (zh) 识别模型的更新方法、装置、设备及存储介质
CN115422582A (zh) 数据查询方法和风险管控方法、装置、设备和介质
CN115225391A (zh) 问卷加密方法、装置、电子设备及可读存储介质
CN111431918B (zh) 一种基于区块链确定目标用户状态标签的方法和系统
CN113904865A (zh) 一种基于非对称算法的日志传输方法及装置
Almishari et al. Privacy-preserving matching of community-contributed content

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination