CN114398681A - 训练隐私信息分类模型、识别隐私信息的方法和装置 - Google Patents

训练隐私信息分类模型、识别隐私信息的方法和装置 Download PDF

Info

Publication number
CN114398681A
CN114398681A CN202210065736.1A CN202210065736A CN114398681A CN 114398681 A CN114398681 A CN 114398681A CN 202210065736 A CN202210065736 A CN 202210065736A CN 114398681 A CN114398681 A CN 114398681A
Authority
CN
China
Prior art keywords
target
data
samples
training
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210065736.1A
Other languages
English (en)
Inventor
鲍梦瑶
刘佳伟
章鹏
张谦
贾茜
殷雪梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Ant Blockchain Technology Shanghai Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Ant Blockchain Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd, Ant Blockchain Technology Shanghai Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202210065736.1A priority Critical patent/CN114398681A/zh
Publication of CN114398681A publication Critical patent/CN114398681A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供一种训练隐私信息分类模型、识别隐私信息的方法和装置,训练隐私信息分类模型的方法包括:获取预训练的编码器,所述编码器基于数据库中的无标签样本和预设训练目标训练得到,所述预设训练目标包括,使得所述无标签样本中同一字段内数据的表征相似度,大于不同字段间数据的表征相似度;获取具有目标隐私类别标签的训练样本集合;将所述训练样本集合输入所述编码器和其后连接的分类器,根据分类器的预测输出,调整所述编码器和所述分类器,得到训练后的分类模型。能够有效识别数据库中的隐私数据。

Description

训练隐私信息分类模型、识别隐私信息的方法和装置
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及训练隐私信息分类模型、识别隐私信息的方法和装置。
背景技术
个人信息(personal information)指以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反应特定自然人活动状况的各种信息。
个人敏感信息(personal sensitive information)即隐私信息或隐私数据(private data),指一旦泄露、非法提供或滥用可能危害人身和财产安全,极易导致个人名誉、身心健康受到损害或歧视性待遇等的个人信息。
随着信息化技术的发展和移动智能设备的普及,人们无时无刻不在产生数据,各大公司和机构都收集和积累大量的用户数据,其中有不少数据都属于用户隐私数据。在做隐私数据保护工作前,先要识别出哪些数据是隐私数据,或者说识别出数据对应的隐私信息类别。对于数据库中存储的大量的用户数据,如何识别出哪些字段的数据是隐私数据已经成为一个比较棘手的问题。
发明内容
本说明书一个或多个实施例描述了一种训练隐私信息分类模型、识别隐私信息的方法和装置,能够有效识别数据库中的隐私数据。
第一方面,提供了一种训练隐私信息分类模型的方法,方法包括:
获取预训练的编码器,所述编码器基于数据库中的无标签样本和预设训练目标训练得到,所述预设训练目标包括,使得所述无标签样本中同一字段内数据的表征相似度,大于不同字段间数据的表征相似度;
获取具有目标隐私类别标签的训练样本集合;
将所述训练样本集合输入所述编码器和其后连接的分类器,根据分类器的预测输出,调整所述编码器和所述分类器,得到训练后的分类模型。
在一种可能的实施方式中,所述编码器通过以下步骤预训练得到:
从数据库的第一字段中,获取若干原始数据作为第一组衍生样本;
从所述数据库的第二字段中,获取若干原始数据作为第二组衍生样本;
将所述第一组衍生样本和所述第二组衍生样本中的各原始数据分别输入编码器,通过所述编码器输出各原始数据分别对应的表征向量;
基于各表征向量,确定各原始数据之间的相似度;
在总编码损失减小的方向,调整所述编码器的参数;其中,属于同一组衍生样本的两个原始数据之间的相似度越高,属于不同组衍生样本的两个原始数据之间的相似度越低,所述总编码损失越小。
进一步地,所述从数据库的第一字段中,获取若干原始数据作为第一组衍生样本,包括:
从数据库的第一字段的各原始数据中,采用随机抽样的方式获取若干原始数据作为第一组衍生样本;
所述从所述数据库的第二字段中,获取若干原始数据作为第二组衍生样本,包括:
从所述数据库的第二字段的各原始数据中,采用随机抽样的方式获取若干原始数据作为第二组衍生样本。
在一种可能的实施方式中,所述训练样本集合包括目标隐私类别的正样本和负样本,所述分类模型用于识别输入样本是否属于目标隐私类别的隐私数据。
在一种可能的实施方式中,所述获取具有目标隐私类别标签的训练样本集合,包括:
获取用户指定的目标隐私信息类别的正样本;
根据所述正样本,利用数据增强的方式生成对应的负样本。
进一步地,所述根据所述正样本,利用数据增强的方式生成对应的负样本,包括:
将所述正样本包括的多个字符中的至少一个字符替换为其他字符,得到对应的负样本;或者,
将所述正样本包括的多个字符的顺序进行更改,得到对应的负样本;或者,
将所述正样本对应的第一译文通过回译的方式,得到对应的负样本。
第二方面,提供了一种识别隐私信息的方法,方法包括:
获取根据第一方面的方法训练的分类模型;
从目标数据库的目标字段的各原始数据中,获取若干原始数据分别作为输入样本;
通过所述分类模型,得到各输入样本是否属于目标隐私类别的隐私数据的识别结果;
当各识别结果中属于目标隐私类别的识别结果所占的比例超过预设阈值时,确定目标数据库的目标字段存有目标隐私信息类别的隐私数据。
在一种可能的实施方式中,所述从目标数据库的目标字段的各原始数据中,获取若干原始数据分别作为输入样本,包括:
从目标数据库的目标字段的各原始数据中,采用随机抽样的方式获取若干原始数据分别作为输入样本。
第三方面,提供了一种训练隐私信息分类模型的装置,装置包括:
第一获取单元,用于获取预训练的编码器,所述编码器基于数据库中的无标签样本和预设训练目标训练得到,所述预设训练目标包括,使得所述无标签样本中同一字段内数据的表征相似度,大于不同字段间数据的表征相似度;
第二获取单元,用于获取具有目标隐私类别标签的训练样本集合;
训练单元,用于将所述第二获取单元获取的训练样本集合输入所述第一获取单元获取的编码器和其后连接的分类器,根据分类器的预测输出,调整所述编码器和所述分类器,得到训练后的分类模型。
第四方面,提供了一种识别隐私信息的装置,装置包括:
第一获取单元,用于获取根据第三方面的装置训练的分类模型;
第二获取单元,用于从目标数据库的目标字段的各原始数据中,获取若干原始数据分别作为输入样本;
识别单元,用于通过所述第一获取单元获取的分类模型,得到所述第二获取单元获取的各输入样本是否属于目标隐私类别的隐私数据的识别结果;
确定单元,用于当所述识别单元得到的各识别结果中属于目标隐私类别的识别结果所占的比例超过预设阈值时,确定目标数据库的目标字段存有目标隐私信息类别的隐私数据。
第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面或第二方面的方法。
第六方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面或第二方面的方法。
通过本说明书实施例提供的训练隐私信息分类模型的方法和装置,首先获取预训练的编码器,所述编码器基于数据库中的无标签样本和预设训练目标训练得到,所述预设训练目标包括,使得所述无标签样本中同一字段内数据的表征相似度,大于不同字段间数据的表征相似度;然后获取具有目标隐私类别标签的训练样本集合;最后将所述训练样本集合输入所述编码器和其后连接的分类器,根据分类器的预测输出,调整所述编码器和所述分类器,得到训练后的分类模型。由上可见,本说明书实施例,采用自监督学习的方式,利用大量无标签样本得到预训练的编码器,大大降低了对后续标注数据的需求量,基于该预训练的编码器和少量的具有目标隐私类别标签的训练样本集合,得到训练后的分类模型,在只有少量的标注隐私信息样本下,分类模型仍然能够获得很好的训练效果,从而能够有效识别数据库中的隐私数据。
通过本说明书实施例提供的识别隐私信息的方法和装置,首先获取根据第一方面的方法训练的分类模型;然后从目标数据库的目标字段的各原始数据中,获取若干原始数据分别作为输入样本;接着通过所述分类模型,得到各输入样本是否属于目标隐私类别的隐私数据的识别结果;最后当各识别结果中属于目标隐私类别的识别结果所占的比例超过预设阈值时,确定目标数据库的目标字段存有目标隐私信息类别的隐私数据。由上可见,本说明书实施例,利用训练好的分类模型,通过对目标数据库的目标字段的若干原始数据进行识别,以及对识别结果的统计分析,使得在海量数据场景下,可以快速判断数据库中表的某个字段是否为指定的隐私信息类别,从而能够有效识别数据库中的隐私数据。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书披露的一个实施例的实施场景示意图;
图2示出根据一个实施例的训练隐私信息分类模型的方法流程图;
图3示出根据一个实施例的编码器的预训练过程示意图;
图4示出根据一个实施例的分类模型的训练过程示意图;
图5示出根据一个实施例的编码器的结构示意图;
图6示出根据一个实施例的编码器的两阶段训练示意图;
图7示出根据一个实施例的识别隐私信息的方法流程图;
图8示出根据一个实施例的分类模型的测试过程示意图;
图9示出根据一个实施例的训练隐私信息分类模型的装置的示意性框图;
图10示出根据一个实施例的识别隐私信息的装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及识别隐私信息,尤其是识别数据库中各个字段数据的隐私信息类别。数据库包括多个数据表,每个数据表包括多个字段,其中,字段对应于列。参照图1,数据库中包括n个数据表,分别记为表1、表2、…、表n,其中,表1包括i列,表2包括j列,…,表n包括k列。
通常地,在识别数据库中的隐私信息时,针对表中的每列数据分别进行隐私信息识别,判断该列数据是否属于隐私数据,或者判断该列数据属于的隐私信息类别。由于隐私数据对应的隐私信息类别通常会有数十种之多,有些隐私信息识别可能会基于深度学习模型,需要大量的有标签的训练样本,在大数据场景下,隐私数据只是数据库中很小的一部分,大部分的数据都是非隐私数据,很难获取大量的分布均衡的有标签的训练样本,采用通常的有监督学习的训练方式会使得模型的训练效果不佳,导致模型不能够有效识别数据库中的隐私数据。
本说明书实施例,对通常的有监督学习的训练方式进行改进,引入了自监督学习的训练方式,在只有少量的标注隐私信息样本下,分类模型仍然能够获得很好的训练效果,从而能够有效识别数据库中的隐私数据。
有监督学习(supervised learning)是机器学习的一种方法,指在利用一组已知类别的样本调整分类模型的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。
无监督学习(unsupervised learning)是机器学习的一种方法,指在没有给定事先标记过的训练示例,自动对输入的数据进行分类或分群,也称为无监督训练或无教师学习。
自监督学习,采用自我监督方法,可以看作是一种具有监督形式的特殊形式的非监督学习方法,这里的监督是由自我监督任务而不是预设先验知识诱发的。与完全不受监督的设置相比,自监督学习使用数据集本身的信息来构造伪标签。
图2示出根据一个实施例的训练隐私信息分类模型的方法流程图,该实施例可以基于图1所示的实施场景。如图2所示,该实施例中训练隐私信息分类模型的方法包括以下步骤:步骤21,获取预训练的编码器,所述编码器基于数据库中的无标签样本和预设训练目标训练得到,所述预设训练目标包括,使得所述无标签样本中同一字段内数据的表征相似度,大于不同字段间数据的表征相似度;步骤22,获取具有目标隐私类别标签的训练样本集合;步骤23,将所述训练样本集合输入所述编码器和其后连接的分类器,根据分类器的预测输出,调整所述编码器和所述分类器,得到训练后的分类模型。下面描述以上各个步骤的具体执行方式。
首先在步骤21,获取预训练的编码器,所述编码器基于数据库中的无标签样本和预设训练目标训练得到,所述预设训练目标包括,使得所述无标签样本中同一字段内数据的表征相似度,大于不同字段间数据的表征相似度。可以理解的是,上述预训练属于自监督学习,无标签样本可以为数据库中某一字段的原始数据,该原始数据不具有对应的隐私类别标签,所述预设训练目标属于自我监督任务。
本说明书实施例,对于数据库中各字段数据的字符结构不做限定,可以是数字和/或字母组成的字符串,例如身份证号,也可以是文本类型的字符串,例如个人的收货地址。
在一个示例中,所述编码器通过以下步骤预训练得到:
从数据库的第一字段中,获取若干原始数据作为第一组衍生样本;
从所述数据库的第二字段中,获取若干原始数据作为第二组衍生样本;
将所述第一组衍生样本和所述第二组衍生样本中的各原始数据分别输入编码器,通过所述编码器输出各原始数据分别对应的表征向量;
基于各表征向量,确定各原始数据之间的相似度;
在总编码损失减小的方向,调整所述编码器的参数;其中,属于同一组衍生样本的两个原始数据之间的相似度越高,属于不同组衍生样本的两个原始数据之间的相似度越低,所述总编码损失越小。
进一步地,所述从数据库的第一字段中,获取若干原始数据作为第一组衍生样本,包括:
从数据库的第一字段的各原始数据中,采用随机抽样的方式获取若干原始数据作为第一组衍生样本;
所述从所述数据库的第二字段中,获取若干原始数据作为第二组衍生样本,包括:
从所述数据库的第二字段的各原始数据中,采用随机抽样的方式获取若干原始数据作为第二组衍生样本。
图3示出根据一个实施例的编码器的预训练过程示意图。参照图3,数据库中的数据列天然地保存同一类型的数据,因此直接在同一数据列中进行采样,获得的若干原始数据属于同一组衍生样本,例如,样本1和样本2都来源于数据列1,因此样本1和样本2属于一组衍生样本,样本3和样本4都来源于数据列2,因此样本3和样本4属于另一组衍生样本。各样本经过编码器(encoder)后生成相应的初始表征向量,该初始表征向量为高维矢量,例如,样本1对应的初始表征向量为h1,样本2对应的初始表征向量为h2,样本3对应的初始表征向量为h3,样本4对应的初始表征向量为h4,再经过输出层(output layer)对初始表征向量进行一些变换后得到各样本分别对应的转化表征向量,例如,样本1对应的转化表征向量为z1,样本2对应的转化表征向量为z2,样本3对应的转化表征向量为z3,样本4对应的转化表征向量为z4,由转化表征向量可以计算任意两个样本之间的相似度,进而计算任意两个样本对应的编码损失,再计算整个样本集合对应的总编码损失(loss)。利用这种在同一数据列中采样的方式得到各组衍生样本,可以让编码器掌握一些隐私数据的关键特征。例如,对于身份证号的一列数据,其关键特征在于固定的18位长度,其中前6位的数字地址码、中间8位的出生日期码、以及最后一位的数字校验码。这种直接抽取原始数据作为样本的方式,不会破坏这些关键特征,有利于模型对这类隐私信息的刻画,有利于提升模型效果。
本说明书实施例,任意两个样本之间的相似度可以采用如下公式计算:
Si,j=zi Tzj/(|zi||zj|);
其中,zi和zj分别表示样本i和样本j的转化表征向量,Si,j表示样本i和样本j之间的矢量相似度,上标T表示转置运算,|·|表示矢量的L2范数。
任意两个样本对应的编码损失可以采用如下公式计算:
Figure BDA0003480202230000071
其中,i和j表示任意的两个样本,τ是可调节的参数使得损失范围控制在[-1,1];I[k≠i]为符号函数,表示当k不等于i时,函数值取1,否则函数值取0;exp表示指数函数;N为衍生样本组的数目,以每组衍生样本包括2个样本为例,2N为样本的总数目。在训练过程中会不断调整模型中的参数,使得编码损失越来越小。编码损失越小意味着,同一组的两个样本之间的相似度越高,不同组的两个样本之间的相似度越低。
整个样本集合对应的总编码损失可以采用如下公式计算:
Figure BDA0003480202230000072
可以理解的是,前述编码损失和总编码损失对应的公式中,均以每组衍生样本包括2个样本为例,实际应用中并不限定于此,每组衍生样本可以包括更多个样本,并且,各组衍生样本的数目可以相同也可以不同,与实际情况相适应,对公式略微改动即可。
通过上述预训练过程获得的编码器在对样本进行编码的时候,可以使得同一类的样本的矢量在特征空间的距离更近,不同类样本的矢量在特征空间的距离更远。
然后在步骤22,获取具有目标隐私类别标签的训练样本集合。可以理解的是,上述目标隐私类别标签可以指示出相应的样本是否属于目标隐私类别。
目前常见的隐私数据的隐私类别如表一所示。
表一:常见的隐私类别
Figure BDA0003480202230000081
Figure BDA0003480202230000091
参见表一,隐私类别多样,目标隐私类别标签可以标注为比较宽泛的隐私类别,例如,个人身份信息,也可以标注为比较具体的隐私类别,例如,身份证。
在一个示例中,所述训练样本集合包括目标隐私类别的正样本和负样本,所述分类模型用于识别输入样本是否属于目标隐私类别的隐私数据。
在一个示例中,所述获取具有目标隐私类别标签的训练样本集合,包括:
获取用户指定的目标隐私信息类别的正样本;
根据所述正样本,利用数据增强的方式生成对应的负样本。
进一步地,所述根据所述正样本,利用数据增强的方式生成对应的负样本,包括:
将所述正样本包括的多个字符中的至少一个字符替换为其他字符,得到对应的负样本;或者,
将所述正样本包括的多个字符的顺序进行更改,得到对应的负样本;或者,
将所述正样本对应的第一译文通过回译的方式,得到对应的负样本。
最后在步骤23,将所述训练样本集合输入所述编码器和其后连接的分类器,根据分类器的预测输出,调整所述编码器和所述分类器,得到训练后的分类模型。可以理解的是,分类模型包括编码器和分类器,该步骤中训练分类模型时,编码器的参数不是随机初始化,而是利用预训练获得的参数。
图4示出根据一个实施例的分类模型的训练过程示意图。参照图4,该分类模型由预训练后的编码器和一个分类器组成,该分类器可以理解为分类模型的输出层,该输出层与对编码器预训练时采用的输出层不同,编码器的参数会利用用户指定的正样本和通过数据增强生成的对应的负样本进行微调,而分类器的参数是直接利用上述正样本和负样本训练得来。
图5示出根据一个实施例的编码器的结构示意图。参照图5,常见的编码器包括编码层和隐藏层,输入的是一串字符,该字符可以为文字,也可以为数字或其他符号,输出的是输入对应的高维矢量特征,即前述初始表征向量。在预训练阶段,该高维矢量特征将经过输出层后计算总编码损失;在微调阶段,该高维矢量特征将经过分类器计算样本分类的预测损失。隐藏层可以但不限于采用Transformer等结构。
图6示出根据一个实施例的编码器的两阶段训练示意图。参照图6,编码器经过预训练和微调两个阶段,得到训练后的分类模型。数据通常都存储在数据库中,常见的数据库有ODPS、MaxCompute、MySQL、Oracle等。如果数据量特别大,可以经过一定的抽样,通常采用随机抽样。首先从数据库中抽取大量的无标签样本,通过对比学习建构自监督任务,训练获得一个预训练后的编码器;接着通过用户指定少量的隐私信息样本,对该预训练后的编码器进行微调,即可获得该隐私信息的分类模型,用于自动识别数据库中的隐私信息。例如,在获得预训练后的编码器后,用户指定了少量的手机号样本作为正样本,在此基础上通过随机生成等方法产生负样本,利用这些正负样本对预训练后的编码器中的参数进行调整,获得一个手机号的分类模型,可以用于自动识别数据库中的手机号信息。需要说明的是,预训练后的编码器在保存后可以反复利用,在相关正负样本的微调下可以生成多种隐私信息的分类模型,例如,利用少量A类正样本数据和生成的A类负样本数据,对编码器进行微调,得到分类模型A,该分类模型A用于识别A类隐私信息;利用少量B类正样本数据和生成的B类负样本数据,对编码器进行微调,得到分类模型B,该分类模型B用于识别B类隐私信息。
对比学习是典型的判别式自监督学习,其指导原则是:通过自动构造相似实例和不相似实例,要求习得一个表征学习模型,通过这个模型,使得相似的实例在投影空间中比较接近,而不相似的实例在投影空间中距离比较远。可以理解的是,前述同一组的两个样本就属于相似示例,而不是同一组的两个样本就属于不相似示例。
通过本说明书实施例提供的方法,首先获取预训练的编码器,所述编码器基于数据库中的无标签样本和预设训练目标训练得到,所述预设训练目标包括,使得所述无标签样本中同一字段内数据的表征相似度,大于不同字段间数据的表征相似度;然后获取具有目标隐私类别标签的训练样本集合;最后将所述训练样本集合输入所述编码器和其后连接的分类器,根据分类器的预测输出,调整所述编码器和所述分类器,得到训练后的分类模型。由上可见,本说明书实施例,采用自监督学习的方式,利用大量无标签样本得到预训练的编码器,大大降低了对后续标注数据的需求量,基于该预训练的编码器和少量的具有目标隐私类别标签的训练样本集合,得到训练后的分类模型,在只有少量的标注隐私信息样本下,分类模型仍然能够获得很好的训练效果,从而能够有效识别数据库中的隐私数据。
图7示出根据一个实施例的识别隐私信息的方法流程图,该实施例可以基于图1所示的实施场景。如图7所示,该实施例中识别隐私信息的方法包括以下步骤:步骤71,获取根据图2的方法训练的分类模型;步骤72,从目标数据库的目标字段的各原始数据中,获取若干原始数据分别作为输入样本;步骤73,通过所述分类模型,得到各输入样本是否属于目标隐私类别的隐私数据的识别结果;步骤74,当各识别结果中属于目标隐私类别的识别结果所占的比例超过预设阈值时,确定目标数据库的目标字段存有目标隐私信息类别的隐私数据。下面描述以上各个步骤的具体执行方式。
首先在步骤71,获取根据图2的方法训练的分类模型。可以理解的是,该分类模型能够识别出输入样本是否属于目标隐私类别的隐私数据,如果将数据库中存储的数据作为输入样本,就能够有效识别数据库中的隐私数据。
然后在步骤72,从目标数据库的目标字段的各原始数据中,获取若干原始数据分别作为输入样本。可以理解的是,通常地,数据库中存储的数据数量很大,可以不必对目标字段中的各原始数据逐一识别,而只对其中的部分原始数据进行识别即可。
在一个示例中,所述从目标数据库的目标字段的各原始数据中,获取若干原始数据分别作为输入样本,包括:
从目标数据库的目标字段的各原始数据中,采用随机抽样的方式获取若干原始数据分别作为输入样本。
接着在步骤73,通过所述分类模型,得到各输入样本是否属于目标隐私类别的隐私数据的识别结果。可以理解的是,属于同一字段的各输入样本的识别结果未必一致,可能存在有些输入样本的识别结果为属于目标隐私类别的隐私数据,而另一些输入样本的识别结果为不属于目标隐私类别的隐私数据。
最后在步骤74,当各识别结果中属于目标隐私类别的识别结果所占的比例超过预设阈值时,确定目标数据库的目标字段存有目标隐私信息类别的隐私数据。可以理解的是,通常地,同一字段的数据属于相同的类型,因此可以通过对若干数据的识别结果的统计分析,得到目标数据库的目标字段的隐私数据识别结果。
图8示出根据一个实施例的分类模型的测试过程示意图。参照图8,该分类模型由编码器和分类器组成,通过预训练和微调两个阶段的训练而得到。利用该训练后的分类模型可以对数据库中的数据列进行采样检测,自动识别数据库中是否存在属于目标隐私类别的隐私数据。例如数据库中的某一列数据采样K条,得到待检测样本1、待检测样本2、……、待检测样本K,将各待检测样本输入分类模型,得到K条采样的检测结果依次为检测结果1、检测结果2、……、检测结果K,确定各检测结果中被分类为目标隐私类别的检测结果的比例,通过对比阈值,得到数据列检测结果,也就是说,若该比例超过预设阈值,则相应的数据列存有目标隐私信息类别的隐私数据,若该比例未超过预设阈值,则相应的数据列未存有目标隐私信息类别的隐私数据,上述预设阈值可由用户自行设定。举例来说,目标隐私类别为身份证号码,预设阈值为50%,则待检测样本中有超过50%条的数据都被分类为身份证号码,则认为这一列数据为存有身份证号码的隐私信息。
通过本说明书实施例提供的方法,首先获取根据图2的方法训练的分类模型;然后从目标数据库的目标字段的各原始数据中,获取若干原始数据分别作为输入样本;接着通过所述分类模型,得到各输入样本是否属于目标隐私类别的隐私数据的识别结果;最后当各识别结果中属于目标隐私类别的识别结果所占的比例超过预设阈值时,确定目标数据库的目标字段存有目标隐私信息类别的隐私数据。由上可见,本说明书实施例,利用训练好的分类模型,通过对目标数据库的目标字段的若干原始数据进行识别,以及对识别结果的统计分析,使得在海量数据场景下,可以快速判断数据库中表的某个字段是否为指定的隐私信息类别,从而能够有效识别数据库中的隐私数据。
根据另一方面的实施例,还提供一种训练隐私信息分类模型的装置,该装置用于执行本说明书实施例提供的训练隐私信息分类模型的方法。图9示出根据一个实施例的训练隐私信息分类模型的装置的示意性框图。如图9所示,该装置900包括:
第一获取单元91,用于获取预训练的编码器,所述编码器基于数据库中的无标签样本和预设训练目标训练得到,所述预设训练目标包括,使得所述无标签样本中同一字段内数据的表征相似度,大于不同字段间数据的表征相似度;
第二获取单元92,用于获取具有目标隐私类别标签的训练样本集合;
训练单元93,用于将所述第二获取单元92获取的训练样本集合输入所述第一获取单元91获取的编码器和其后连接的分类器,根据分类器的预测输出,调整所述编码器和所述分类器,得到训练后的分类模型。
可选地,作为一个实施例,所述第一获取单元91,具体用于获取预训练单元通过预训练得到的所述编码器;
所述预训练单元包括:
第一获取子单元,用于从数据库的第一字段中,获取若干原始数据作为第一组衍生样本;
第二获取子单元,用于从所述数据库的第二字段中,获取若干原始数据作为第二组衍生样本;
编码子单元,用于将所述第一获取子单元获取的第一组衍生样本和所述第二获取子单元获取的第二组衍生样本中的各原始数据分别输入编码器,通过所述编码器输出各原始数据分别对应的表征向量;
确定子单元,用于基于所述编码子单元得到的各表征向量,确定各原始数据之间的相似度;
预训练子单元,用于在总编码损失减小的方向,调整所述编码器的参数;其中,所述确定子单元确定的属于同一组衍生样本的两个原始数据之间的相似度越高,属于不同组衍生样本的两个原始数据之间的相似度越低,所述总编码损失越小。
进一步地,所述第一获取子单元,具体用于从数据库的第一字段的各原始数据中,采用随机抽样的方式获取若干原始数据作为第一组衍生样本;
所述第二获取子单元,具体用于从所述数据库的第二字段的各原始数据中,采用随机抽样的方式获取若干原始数据作为第二组衍生样本。
可选地,作为一个实施例,所述训练样本集合包括目标隐私类别的正样本和负样本,所述分类模型用于识别输入样本是否属于目标隐私类别的隐私数据。
可选地,作为一个实施例,所述第二获取单元92包括:
获取子单元,用于获取用户指定的目标隐私信息类别的正样本;
生成子单元,用于根据所述获取子单元获取的正样本,利用数据增强的方式生成对应的负样本。
进一步地,所述生成子单元,具体用于将所述正样本包括的多个字符中的至少一个字符替换为其他字符,得到对应的负样本;或者,将所述正样本包括的多个字符的顺序进行更改,得到对应的负样本;或者,将所述正样本对应的第一译文通过回译的方式,得到对应的负样本。
通过本说明书实施例提供的装置,首先第一获取单元91获取预训练的编码器,所述编码器基于数据库中的无标签样本和预设训练目标训练得到,所述预设训练目标包括,使得所述无标签样本中同一字段内数据的表征相似度,大于不同字段间数据的表征相似度;然后第二获取单元92获取具有目标隐私类别标签的训练样本集合;最后训练单元93将所述训练样本集合输入所述编码器和其后连接的分类器,根据分类器的预测输出,调整所述编码器和所述分类器,得到训练后的分类模型。由上可见,本说明书实施例,采用自监督学习的方式,利用大量无标签样本得到预训练的编码器,大大降低了对后续标注数据的需求量,基于该预训练的编码器和少量的具有目标隐私类别标签的训练样本集合,得到训练后的分类模型,在只有少量的标注隐私信息样本下,分类模型仍然能够获得很好的训练效果,从而能够有效识别数据库中的隐私数据。
根据另一方面的实施例,还提供一种识别隐私信息的装置,该装置用于执行本说明书实施例提供的识别隐私信息的方法。图10示出根据一个实施例的识别隐私信息的装置的示意性框图。如图10所示,该装置1000包括:
第一获取单元1001,用于获取根据图9的装置训练的分类模型;
第二获取单元1002,用于从目标数据库的目标字段的各原始数据中,获取若干原始数据分别作为输入样本;
识别单元1003,用于通过所述第一获取单元1001获取的分类模型,得到所述第二获取单元1002获取的各输入样本是否属于目标隐私类别的隐私数据的识别结果;
确定单元1004,用于当所述识别单元1003得到的各识别结果中属于目标隐私类别的识别结果所占的比例超过预设阈值时,确定目标数据库的目标字段存有目标隐私信息类别的隐私数据。
可选地,作为一个实施例,所述第二获取单元1002,具体用于从目标数据库的目标字段的各原始数据中,采用随机抽样的方式获取若干原始数据分别作为输入样本。
通过本说明书实施例提供的装置,首先第一获取单元1001获取根据图9的装置训练的分类模型;然后第二获取单元1002从目标数据库的目标字段的各原始数据中,获取若干原始数据分别作为输入样本;接着识别单元1003通过所述分类模型,得到各输入样本是否属于目标隐私类别的隐私数据的识别结果;最后确定单元1004在各识别结果中属于目标隐私类别的识别结果所占的比例超过预设阈值时,确定目标数据库的目标字段存有目标隐私信息类别的隐私数据。由上可见,本说明书实施例,利用训练好的分类模型,通过对目标数据库的目标字段的若干原始数据进行识别,以及对识别结果的统计分析,使得在海量数据场景下,可以快速判断数据库中表的某个字段是否为指定的隐私信息类别,从而能够有效识别数据库中的隐私数据。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2或图7所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2或图7所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (18)

1.一种训练隐私信息分类模型的方法,所述方法包括:
获取预训练的编码器,所述编码器基于数据库中的无标签样本和预设训练目标训练得到,所述预设训练目标包括,使得所述无标签样本中同一字段内数据的表征相似度,大于不同字段间数据的表征相似度;
获取具有目标隐私类别标签的训练样本集合;
将所述训练样本集合输入所述编码器和其后连接的分类器,根据分类器的预测输出,调整所述编码器和所述分类器,得到训练后的分类模型。
2.如权利要求1所述的方法,其中,所述编码器通过以下步骤预训练得到:
从数据库的第一字段中,获取若干原始数据作为第一组衍生样本;
从所述数据库的第二字段中,获取若干原始数据作为第二组衍生样本;
将所述第一组衍生样本和所述第二组衍生样本中的各原始数据分别输入编码器,通过所述编码器输出各原始数据分别对应的表征向量;
基于各表征向量,确定各原始数据之间的相似度;
在总编码损失减小的方向,调整所述编码器的参数;其中,属于同一组衍生样本的两个原始数据之间的相似度越高,属于不同组衍生样本的两个原始数据之间的相似度越低,所述总编码损失越小。
3.如权利要求2所述的方法,其中,所述从数据库的第一字段中,获取若干原始数据作为第一组衍生样本,包括:
从数据库的第一字段的各原始数据中,采用随机抽样的方式获取若干原始数据作为第一组衍生样本;
所述从所述数据库的第二字段中,获取若干原始数据作为第二组衍生样本,包括:
从所述数据库的第二字段的各原始数据中,采用随机抽样的方式获取若干原始数据作为第二组衍生样本。
4.如权利要求1所述的方法,其中,所述训练样本集合包括目标隐私类别的正样本和负样本,所述分类模型用于识别输入样本是否属于目标隐私类别的隐私数据。
5.如权利要求1所述的方法,其中,所述获取具有目标隐私类别标签的训练样本集合,包括:
获取用户指定的目标隐私信息类别的正样本;
根据所述正样本,利用数据增强的方式生成对应的负样本。
6.如权利要求5所述的方法,其中,所述根据所述正样本,利用数据增强的方式生成对应的负样本,包括:
将所述正样本包括的多个字符中的至少一个字符替换为其他字符,得到对应的负样本;或者,
将所述正样本包括的多个字符的顺序进行更改,得到对应的负样本;或者,
将所述正样本对应的第一译文通过回译的方式,得到对应的负样本。
7.一种识别隐私信息的方法,所述方法包括:
获取根据权利要求1的方法训练的分类模型;
从目标数据库的目标字段的各原始数据中,获取若干原始数据分别作为输入样本;
通过所述分类模型,得到各输入样本是否属于目标隐私类别的隐私数据的识别结果;
当各识别结果中属于目标隐私类别的识别结果所占的比例超过预设阈值时,确定目标数据库的目标字段存有目标隐私信息类别的隐私数据。
8.如权利要求7所述的方法,其中,所述从目标数据库的目标字段的各原始数据中,获取若干原始数据分别作为输入样本,包括:
从目标数据库的目标字段的各原始数据中,采用随机抽样的方式获取若干原始数据分别作为输入样本。
9.一种训练隐私信息分类模型的装置,所述装置包括:
第一获取单元,用于获取预训练的编码器,所述编码器基于数据库中的无标签样本和预设训练目标训练得到,所述预设训练目标包括,使得所述无标签样本中同一字段内数据的表征相似度,大于不同字段间数据的表征相似度;
第二获取单元,用于获取具有目标隐私类别标签的训练样本集合;
训练单元,用于将所述第二获取单元获取的训练样本集合输入所述第一获取单元获取的编码器和其后连接的分类器,根据分类器的预测输出,调整所述编码器和所述分类器,得到训练后的分类模型。
10.如权利要求9所述的装置,其中,所述第一获取单元,具体用于获取预训练单元通过预训练得到的所述编码器;
所述预训练单元包括:
第一获取子单元,用于从数据库的第一字段中,获取若干原始数据作为第一组衍生样本;
第二获取子单元,用于从所述数据库的第二字段中,获取若干原始数据作为第二组衍生样本;
编码子单元,用于将所述第一获取子单元获取的第一组衍生样本和所述第二获取子单元获取的第二组衍生样本中的各原始数据分别输入编码器,通过所述编码器输出各原始数据分别对应的表征向量;
确定子单元,用于基于所述编码子单元得到的各表征向量,确定各原始数据之间的相似度;
预训练子单元,用于在总编码损失减小的方向,调整所述编码器的参数;其中,所述确定子单元确定的属于同一组衍生样本的两个原始数据之间的相似度越高,属于不同组衍生样本的两个原始数据之间的相似度越低,所述总编码损失越小。
11.如权利要求10所述的装置,其中,所述第一获取子单元,具体用于从数据库的第一字段的各原始数据中,采用随机抽样的方式获取若干原始数据作为第一组衍生样本;
所述第二获取子单元,具体用于从所述数据库的第二字段的各原始数据中,采用随机抽样的方式获取若干原始数据作为第二组衍生样本。
12.如权利要求9所述的装置,其中,所述训练样本集合包括目标隐私类别的正样本和负样本,所述分类模型用于识别输入样本是否属于目标隐私类别的隐私数据。
13.如权利要求9所述的装置,其中,所述第二获取单元包括:
获取子单元,用于获取用户指定的目标隐私信息类别的正样本;
生成子单元,用于根据所述获取子单元获取的正样本,利用数据增强的方式生成对应的负样本。
14.如权利要求13所述的装置,其中,所述生成子单元,具体用于将所述正样本包括的多个字符中的至少一个字符替换为其他字符,得到对应的负样本;或者,将所述正样本包括的多个字符的顺序进行更改,得到对应的负样本;或者,将所述正样本对应的第一译文通过回译的方式,得到对应的负样本。
15.一种识别隐私信息的装置,所述装置包括:
第一获取单元,用于获取根据权利要求9的装置训练的分类模型;
第二获取单元,用于从目标数据库的目标字段的各原始数据中,获取若干原始数据分别作为输入样本;
识别单元,用于通过所述第一获取单元获取的分类模型,得到所述第二获取单元获取的各输入样本是否属于目标隐私类别的隐私数据的识别结果;
确定单元,用于当所述识别单元得到的各识别结果中属于目标隐私类别的识别结果所占的比例超过预设阈值时,确定目标数据库的目标字段存有目标隐私信息类别的隐私数据。
16.如权利要求15所述的装置,其中,所述第二获取单元,具体用于从目标数据库的目标字段的各原始数据中,采用随机抽样的方式获取若干原始数据分别作为输入样本。
17.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-8中任一项的所述的方法。
18.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-8中任一项的所述的方法。
CN202210065736.1A 2022-01-20 2022-01-20 训练隐私信息分类模型、识别隐私信息的方法和装置 Pending CN114398681A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210065736.1A CN114398681A (zh) 2022-01-20 2022-01-20 训练隐私信息分类模型、识别隐私信息的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210065736.1A CN114398681A (zh) 2022-01-20 2022-01-20 训练隐私信息分类模型、识别隐私信息的方法和装置

Publications (1)

Publication Number Publication Date
CN114398681A true CN114398681A (zh) 2022-04-26

Family

ID=81233545

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210065736.1A Pending CN114398681A (zh) 2022-01-20 2022-01-20 训练隐私信息分类模型、识别隐私信息的方法和装置

Country Status (1)

Country Link
CN (1) CN114398681A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115622764A (zh) * 2022-10-09 2023-01-17 深圳市君思科技有限公司 web网络流量中隐私数据发现与归类方法
CN116090006A (zh) * 2023-02-01 2023-05-09 北京三维天地科技股份有限公司 一种基于深度学习的敏感识别方法及系统
CN116361859A (zh) * 2023-06-02 2023-06-30 之江实验室 基于深度隐私编码器的跨机构患者记录链接方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115622764A (zh) * 2022-10-09 2023-01-17 深圳市君思科技有限公司 web网络流量中隐私数据发现与归类方法
CN116090006A (zh) * 2023-02-01 2023-05-09 北京三维天地科技股份有限公司 一种基于深度学习的敏感识别方法及系统
CN116090006B (zh) * 2023-02-01 2023-09-08 北京三维天地科技股份有限公司 一种基于深度学习的敏感识别方法及系统
CN116361859A (zh) * 2023-06-02 2023-06-30 之江实验室 基于深度隐私编码器的跨机构患者记录链接方法及系统
CN116361859B (zh) * 2023-06-02 2023-08-25 之江实验室 基于深度隐私编码器的跨机构患者记录链接方法及系统

Similar Documents

Publication Publication Date Title
CN107526799B (zh) 一种基于深度学习的知识图谱构建方法
CN111444723B (zh) 信息抽取方法、计算机设备和存储介质
CN114398681A (zh) 训练隐私信息分类模型、识别隐私信息的方法和装置
Singh et al. A study of moment based features on handwritten digit recognition
CN111460820A (zh) 一种基于预训练模型bert的网络空间安全领域命名实体识别方法和装置
CN111898550B (zh) 建立表情识别模型方法、装置、计算机设备及存储介质
Shirbhate et al. Sign language recognition using machine learning algorithm
CN113033438A (zh) 一种面向模态非完全对齐的数据特征学习方法
Yousaf et al. A robust and efficient convolutional deep learning framework for age‐invariant face recognition
Lv et al. Chinese character CAPTCHA recognition based on convolution neural network
CN111563373A (zh) 聚焦属性相关文本的属性级情感分类方法
Xu et al. Multi‐pyramid image spatial structure based on coarse‐to‐fine pyramid and scale space
Inunganbi et al. Recognition of handwritten Meitei Mayek script based on texture feature
Walavalkar et al. Support vector learning for gender classification using audio and visual cues
Su et al. Discriminative transformation for multi-dimensional temporal sequences
Meena et al. Face recognition based on local derivative ternary pattern
CN116629266A (zh) 面向小样本的文本命名实体识别方法
Kishan et al. Handwritten character recognition using CNN
CN113723111B (zh) 一种小样本意图识别方法、装置、设备及存储介质
Pallavi et al. Retrieval of facial sketches using linguistic descriptors: an approach based on hierarchical classification of facial attributes
CN111159405B (zh) 基于背景知识的讽刺检测方法
Nagendraswamy et al. LBPV for recognition of sign language at sentence level: An approach based on symbolic representation
Shylaja et al. Illumination Invariant Novel Approaches for Face Recognition
Zhou et al. Improved multi-kernel SVM for multi-modal and imbalanced dialogue act classification
Hsiao et al. A hybrid face recognition system based on multiple facial features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination