CN113987309B - 个人隐私数据识别方法、装置、计算机设备及存储介质 - Google Patents

个人隐私数据识别方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113987309B
CN113987309B CN202111633204.5A CN202111633204A CN113987309B CN 113987309 B CN113987309 B CN 113987309B CN 202111633204 A CN202111633204 A CN 202111633204A CN 113987309 B CN113987309 B CN 113987309B
Authority
CN
China
Prior art keywords
data
personal privacy
deep learning
learning network
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111633204.5A
Other languages
English (en)
Other versions
CN113987309A (zh
Inventor
莫波
刘小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Hongtu Technology Co ltd
Original Assignee
Shenzhen Hongtu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Hongtu Technology Co ltd filed Critical Shenzhen Hongtu Technology Co ltd
Priority to CN202111633204.5A priority Critical patent/CN113987309B/zh
Publication of CN113987309A publication Critical patent/CN113987309A/zh
Application granted granted Critical
Publication of CN113987309B publication Critical patent/CN113987309B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioethics (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了个人隐私数据识别方法、装置、计算机设备及存储介质。所述方法包括:加载数据自动采集插件;通过所述数据自动采集插件获取WEB应用程序运行过程中的数据,以得到初始数据;将所述初始数据输入至识别模型内进行个人隐私数据识别,以得到识别结果;将所述初始数据与预设的数据识别策略进行匹配,以得到匹配分值;根据所述匹配分值以及所述识别结果确定数据类别;判断所述数据类别是否是个人隐私数据;若所述数据类别是个人隐私数据,则输出所述数据类别。通过实施本发明实施例的方法可实现快速和准确识别WEB应用个人隐私类数据,效率高且覆盖全面,不易发生错漏。

Description

个人隐私数据识别方法、装置、计算机设备及存储介质
技术领域
本发明涉及数据识别方法,更具体地说是指个人隐私数据识别方法、装置、计算机设备及存储介质。
背景技术
数字革命正以前所未有的速度和规模改变社会和生活,带来巨大机遇的同时,数字经济也带了新的风险,包括数据安全、挑战隐私概念等。为应对这些挑战,各国都从法律层面对数据安全、个人信息和隐私保护予以监管、规制。对个人隐私数据处理的相关组织或企业越来越关注于其业务应用中是否涉及到、涉及到多少、涉及到哪些个人隐私类数据,着重于对WEB应用系统中的个人隐私类数据是否得到全面、有效的发现和识别。
个人隐私数据处理的相关组织或企业旗下往往业务板块众多、业务种类丰富,WEB应用系统自然也是庞大而繁杂的,其涉及到的数据更是复杂多样。但是,现有技术基本上是通过传统人工的方式对WEB应用系统全域的个人隐私类数据进行识别和标识,仍然存在工作效率低、覆盖不全面、易发生错漏等问题。
因此,有必要设计一种新的方法,实现快速和准确识别WEB应用个人隐私类数据,效率高且覆盖全面,不易发生错漏。
发明内容
本发明的目的在于克服现有技术的缺陷,提供个人隐私数据识别方法、装置、计算机设备及存储介质。
为实现上述目的,本发明采用以下技术方案:个人隐私数据识别方法,包括:
加载数据自动采集插件;
通过所述数据自动采集插件获取WEB应用程序运行过程中的数据,以得到初始数据;
将所述初始数据输入至识别模型内进行个人隐私数据识别,以得到识别结果;
将所述初始数据与预设的数据识别策略进行匹配,以得到匹配分值;
根据所述匹配分值以及所述识别结果确定数据类别;
判断所述数据类别是否是个人隐私数据;
若所述数据类别是个人隐私数据,则输出所述数据类别。
其进一步技术方案为:所述识别模型是通过若干个带有个人隐私数据具体类型标签的数据作为样本集且采用多GPU并行计算框架对深度学习网络进行训练所得的。
其进一步技术方案为:所述识别模型是通过若干个带有个人隐私数据具体类型标签的数据作为样本集且采用多GPU并行计算框架对深度学习网络进行训练所得的,包括:
获取若干个带有个人隐私数据具体类型标签的数据,以得到样本集,且将所述样本集划分为训练集;
构建ResNet深度学习网络;
将所述训练集装载到多个GPU节点,以进行梯度求导,得到所有节点的求导结果;
对所有节点的求导结果进行加权平均并更新ResNet深度学习网络的网络参数,同步更新所有GPU节点;
判断所述ResNet深度学习网络是否收敛;
若所述ResNet深度学习网络收敛,则确定所述ResNet深度学习网络为识别模型;
若所述ResNet深度学习网络未收敛,则执行所述将所述训练集装载到多个GPU节点,以进行梯度求导,得到所有节点的求导结果。
其进一步技术方案为:所述将所述初始数据与预设的数据识别策略进行匹配,以得到匹配分值,包括:
定义个人隐私类数据具体类型的正则表达式、字典、关键字识别规则,并对识别规则进行多模式组合,形成多种数据识别策略;
将所述初始数据与预设的数据识别策略进行匹配,以得到匹配分值。
其进一步技术方案为:所述根据所述匹配分值以及所述识别结果确定数据类别,包括:
将所述匹配分值以及所述识别结果进行加权平均,以得到各个具体类型的分值;
筛选出分值最高的具体类型,以得到数据类别。
本发明还提供了个人隐私数据识别装置,包括:
插件加载单元,用于加载数据自动采集插件;
数据获取单元,用于通过所述数据自动采集插件获取WEB应用程序运行过程中的数据,以得到初始数据;
模型识别单元,用于将所述初始数据输入至识别模型内进行个人隐私数据识别,以得到识别结果;
匹配单元,用于将所述初始数据与预设的数据识别策略进行匹配,以得到匹配分值;
加权平均单元,用于根据所述匹配分值以及所述识别结果确定数据类别;
判断单元,用于判断所述数据类别是否是个人隐私数据;
输出单元,用于若所述数据类别是个人隐私数据,则输出所述数据类别。
其进一步技术方案为:还包括:
模型生成单元,用于通过若干个带有个人隐私数据具体类型标签的数据作为样本集且采用多GPU并行计算框架对深度学习网络进行训练,以得到识别模型。
其进一步技术方案为:所述模型生成单元包括:
样本集获取子单元,用于获取若干个带有个人隐私数据具体类型标签的数据,以得到样本集,且将所述样本集划分为训练集;
网络构建子单元,用于构建ResNet深度学习网络;
求导子单元,用于将所述训练集装载到多个GPU节点,以进行梯度求导,得到所有节点的求导结果;
参数更新子单元,用于对所有节点的求导结果进行加权平均并更新ResNet深度学习网络的网络参数,同步更新所有GPU节点;
判断子单元,用于判断所述ResNet深度学习网络是否收敛;若所述ResNet深度学习网络收敛,则确定所述ResNet深度学习网络为识别模型;若所述ResNet深度学习网络未收敛,则执行所述将所述训练集装载到多个GPU节点,以进行梯度求导,得到所有节点的求导结果。
本发明还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。
本发明与现有技术相比的有益效果是:本发明通过加载数据自动采集插件,进行WEB应用程序运行过程中的数据的获取,结合深度学习算法与预设的数据识别策略确定数据的具体类别,以此判断初始数据是否是个人隐私数据,全自动执行,效率更高,且多种规则结合,提高识别准确率,且覆盖全面,实现快速和准确识别WEB应用个人隐私类数据,效率高且覆盖全面,不易发生错漏。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的个人隐私数据识别方法的应用场景示意图;
图2为本发明实施例提供的个人隐私数据识别方法的流程示意图;
图3为本发明实施例提供的个人隐私数据识别方法的子流程示意图;
图4为本发明实施例提供的个人隐私数据识别方法的子流程示意图;
图5为本发明实施例提供的个人隐私数据识别方法的子流程示意图;
图6为本发明实施例提供的个人隐私数据识别装置的示意性框图;
图7为本发明实施例提供的个人隐私数据识别装置的匹配单元的示意性框图;
图8为本发明实施例提供的个人隐私数据识别装置的加权平均单元的示意性框图;
图9为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的个人隐私数据识别方法的应用场景示意图。图2为本发明实施例提供的个人隐私数据识别方法的示意性流程图。可在金融、互联网、运营商、数据安全等行业推广应用。该个人隐私数据识别方法应用于服务器中。该服务器与终端进行数据交互,通过数据自动采集插件获取WEB应用程序运行过程中的数据,结合深度学习识别和策略匹配的程度,综合判断是否是个人隐私数据,并将结果输出至终端,为个人隐私数据处理的相关组织或企业提供全面覆盖其WEB应用系统、快速和准确识别WEB应用个人隐私类数据的方法。
图2是本发明实施例提供的个人隐私数据识别方法的流程示意图。如图2所示,该方法包括以下步骤S110至S180。
S110、加载数据自动采集插件。
在本实施例中,数据自动采集插件是指用于自动获取WEB应用程序运行过程中的数据的插件。
通过增加相关组织或企业的WEB应用系统的启动参数,加载数据自动采集插件。
S120、通过所述数据自动采集插件获取WEB应用程序运行过程中的数据,以得到初始数据。
在本实施例中,初始数据是指所有接口参数、接口请求字段、数据库SQL语句及接口请求的返回值等相关数据。
数据自动采集插件伴随WEB应用的启动而启动,因其工作于JAVA运行态中,在JVM层面获取WEB应用程序运行过程中的所有接口参数、接口请求字段、数据库SQL语句及接口请求的返回值等,所以能够将WEB应用全范围,包括WEB应用所属的服务、功能接口等使用的所有数据进行高效化、自动化的收集,且采用不重复采集的技术原则来避免重复收集相同数据。
S130、将所述初始数据输入至识别模型内进行个人隐私数据识别,以得到识别结果。
在本实施例中,识别结果是指初始数据属于个人隐私数据的具体类型的概率,也就是相似度分值。
将采集到的所有数据传输至识别模型完成计算、识别和标识。在数据传输过程中,为保障数据的完整性,根据对WEB应用系统资源和网络带宽的监控和计算,自动选择异步传输或本地缓存、传输队列的传输控制策略。
在本实施例中,所述识别模型是通过若干个带有个人隐私数据具体类型标签的数据作为样本集且采用多GPU并行计算框架对深度学习网络进行训练所得的。
在一实施例中,上述的识别模型是通过若干个带有个人隐私数据具体类型标签的数据作为样本集且采用多GPU并行计算框架对深度学习网络进行训练所得的,可包括步骤S131~ S136。
S131、获取若干个带有个人隐私数据具体类型标签的数据,以得到样本集,且将所述样本集划分为训练集。
在本实施例中,样本集是指若干个带有个人隐私数据具体类型标签的数据构成的集合。
训练集是指由样本集划分出来用于训练模型的数据集。
S132、构建ResNet深度学习网络;
S133、将所述训练集装载到多个GPU节点,以进行梯度求导,得到所有节点的求导结果;
S134、对所有节点的求导结果进行加权平均并更新ResNet深度学习网络的网络参数,同步更新所有GPU节点;
S135、判断所述ResNet深度学习网络是否收敛;
S136、若所述ResNet深度学习网络收敛,则确定所述ResNet深度学习网络为识别模型;
若所述ResNet深度学习网络未收敛,则执行步骤S133。
具体地,采用ResNet深度学习算法,优化改进网络的层数深度,从几十层网络层数向一百层网络层数进行逐步递增 ,直到算法模型能够有效地从数据中学习并提取到更多的个人隐私类数据特征,数据特征包括数字、字母、汉字等字符类型,以及特定的字符长度、符号、格式等。
通过将自有业务系统中的原始数据,如身份证号码、手机号码、地址、有个人隐私类数据的各种办公文档、各含有个人隐私类数据的图片等,构建成一个样本集,整个样本集规模约10万条。采用基于数据的多GPU并行计算框架进行算法模型训练,将样本集的样本数据随机分成多份训练集,装载到多个GPU节点中去进行梯度求导;然后将所有节点的求导结果进行加权平均并更新网络参数,再同步更新所有GPU节点;最后继续进行下一步的训练,直到模型收敛、训练结束。然后,生成个人隐私类数据的具体类型,包括身份证、手机号码、家庭地址、电子邮箱、车牌号、银行账号、社保号、公积金号码。GPU可前向传输获取预测结果,反向传输获取模型参数的更新值。
S140、将所述初始数据与预设的数据识别策略进行匹配,以得到匹配分值。
在本实施例中,匹配分值是指初始数据与各种数据识别策略匹配后得到的分值。
在一实施例中,请参阅图4,上述的步骤S140可包括步骤S141~S142。
S141、定义个人隐私类数据具体类型的正则表达式、字典、关键字识别规则,并对识别规则进行多模式组合,形成多种数据识别策略。
在本实施例中,多种数据识别策略包括关键字与正则表达式规则组合识别策略、正则表达式与字典规则组合识别策略、字典与关键字规则组合识别策略等。
具体地,定义身份证、手机号码、家庭地址、电子邮箱、车牌号、银行账号、社保号、公积金号码等个人隐私类数据具体类型的正则表达式、字典、关键字等识别规则,并对识别规则进行多模式组合,形成多种数据识别策略。
S142、将所述初始数据与预设的数据识别策略进行匹配,以得到匹配分值。
具体地,将全部的数据识别策略加载成链表形式,对每种数据识别策略,核理出数据可能的最大长度、最小长度,包含的最多字符类型,至少包含的字符类型。然后计算初始数据的长度,包含的字符类型,在计算包含的数据类型时,只检查是否包含数字、字母,与一条数据识别策略的最大长度,最小长度,包含的最多字符类型,至少包含的字符类型进行对比,得出策略匹配分值。
S150、根据所述匹配分值以及所述识别结果确定数据类别。
在本实施例中,数据类别是指数据属于个人隐私数据中的哪一种具体类型,或者不属于个人隐私数据。
在一实施例中,请参阅图5,上述的步骤S150可包括步骤S151~S152。
S151、将所述匹配分值以及所述识别结果进行加权平均,以得到各个具体类型的分值;
S152、筛选出分值最高的具体类型,以得到数据类别。
采用ResNet深度学习算法自动提取该初始数据的长度、字符类型、符号、格式等特征,判别初始数据与个人隐私类数据的具体类型的相似度分值。同时,该初始数据与各种数据识别策略进行依次匹配,得出策略匹配分值。最后采用加权平均的方式,得分最高的类表明该初始数据是否属于个人隐私类数据。
S160、判断所述数据类别是否是个人隐私数据;
S170、若所述数据类别是个人隐私数据,则输出所述数据类别。
S180、若所述数据类别不是个人隐私数据,则输出所述初始数据不属于个人隐私数据的信息。
举个例子:Web应用系统中使用的数据中含有用户身份证号码,当数据自动采集插件采集到数据,并将其传输至识别模型。识别模型通过ResNet深度学习算法,将身份证号码的字符长度、字符类型、固定格式等特征提取出来,然后进行个人隐私类数据的具体类型进行相似判别,得出与身份证、手机号码、家庭地址、电子邮箱、车牌号、银行账号、社保号、公积金号码等个人隐私类数据具体类型的相似度分值。将用户身份证号码与数据识别策略集的每一种识别策略依次进行匹配相似判别,得出与身份证、手机号码、家庭地址、电子邮箱、车牌号、银行账号、社保号、公积金号码等个人隐私类数据具体类型的相似度分值。最后,将所有相似度分值进行加权平均,得分最高的为身份证,即表示该数据被识别为身份证。
利用个人隐私类数据自动采集插件,自动对WEB应用系统全范围的所有数据进行采集,并上传到数据自动识别系统,最终WEB应用系统全范围使用的数据标识信息。更高效,实现自动采集数据并自动识别、标识,无须人工参与;更准确,对WEB应用使用的结构化和非结构化个人隐私类数据有效识别;更全面,覆盖WEB应用及其所属的服务、功能接口等,不会出现错漏。
上述的个人隐私数据识别方法,通过加载数据自动采集插件,进行WEB应用程序运行过程中的数据的获取,结合深度学习算法与预设的数据识别策略确定数据的具体类别,以此判断初始数据是否是个人隐私数据,全自动执行,效率更高,且多种规则结合,提高识别准确率,且覆盖全面,实现快速和准确识别WEB应用个人隐私类数据,效率高且覆盖全面,不易发生错漏。
图6是本发明实施例提供的一种个人隐私数据识别装置300的示意性框图。如图6所示,对应于以上个人隐私数据识别方法,本发明还提供一种个人隐私数据识别装置300。该个人隐私数据识别装置300包括用于执行上述个人隐私数据识别方法的单元,该装置可以被配置于服务器中。具体地,请参阅图6,该个人隐私数据识别装置300包括插件加载单元301、数据获取单元302、模型识别单元303、匹配单元304、加权平均单元305、判断单元306以及输出单元307。
插件加载单元301,用于加载数据自动采集插件;数据获取单元302,用于通过所述数据自动采集插件获取WEB应用程序运行过程中的数据,以得到初始数据;模型识别单元303,用于将所述初始数据输入至识别模型内进行个人隐私数据识别,以得到识别结果;匹配单元304,用于将所述初始数据与预设的数据识别策略进行匹配,以得到匹配分值;加权平均单元305,用于根据所述匹配分值以及所述识别结果确定数据类别;判断单元306,用于判断所述数据类别是否是个人隐私数据;输出单元307,用于若所述数据类别是个人隐私数据,则输出所述数据类别。
在一实施例中,上述的个人隐私数据识别装置300还包括模型生成单元,用于通过若干个带有个人隐私数据具体类型标签的数据作为样本集且采用多GPU并行计算框架对深度学习网络进行训练,以得到识别模型。
在一实施例中,所述模型生成单元包括样本集获取子单元、网络构建子单元、求导子单元、参数更新子单元以及判断子单元。
样本集获取子单元,用于获取若干个带有个人隐私数据具体类型标签的数据,以得到样本集,且将所述样本集划分为训练集;网络构建子单元,用于构建ResNet深度学习网络;求导子单元,用于将所述训练集装载到多个GPU节点,以进行梯度求导,得到所有节点的求导结果;参数更新子单元,用于对所有节点的求导结果进行加权平均并更新ResNet深度学习网络的网络参数,同步更新所有GPU节点;判断子单元,用于判断所述ResNet深度学习网络是否收敛;若所述ResNet深度学习网络收敛,则确定所述ResNet深度学习网络为识别模型;若所述ResNet深度学习网络未收敛,则执行所述将所述训练集装载到多个GPU节点,以进行梯度求导,得到所有节点的求导结果。
在一实施例中,如图7所示,所述匹配单元304包括策略定义子单元3041以及策略匹配子单元3042。
策略定义子单元3041,用于定义个人隐私类数据具体类型的正则表达式、字典、关键字识别规则,并对识别规则进行多模式组合,形成多种数据识别策略;策略匹配子单元3042,用于将所述初始数据与预设的数据识别策略进行匹配,以得到匹配分值。
在一实施例中,如图8所示,所述加权平均单元305包括类型分值计算子单元3051以及筛选子单元3052。
类型分值计算子单元3051,用于将所述匹配分值以及所述识别结果进行加权平均,以得到各个具体类型的分值;筛选子单元3052,用于筛选出分值最高的具体类型,以得到数据类别。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述个人隐私数据识别装置300和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述个人隐私数据识别装置300可以实现为一种计算机程序的形式,该计算机程序可以在如图9所示的计算机设备上运行。
请参阅图9,图9是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器,其中,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图9,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种个人隐私数据识别方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种个人隐私数据识别方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
加载数据自动采集插件;通过所述数据自动采集插件获取WEB应用程序运行过程中的数据,以得到初始数据;将所述初始数据输入至识别模型内进行个人隐私数据识别,以得到识别结果;将所述初始数据与预设的数据识别策略进行匹配,以得到匹配分值;根据所述匹配分值以及所述识别结果确定数据类别;判断所述数据类别是否是个人隐私数据;若所述数据类别是个人隐私数据,则输出所述数据类别。
其中,所述识别模型是通过若干个带有个人隐私数据具体类型标签的数据作为样本集且采用多GPU并行计算框架对深度学习网络进行训练所得的。
在一实施例中,处理器502在实现所述识别模型是通过若干个带有个人隐私数据具体类型标签的数据作为样本集且采用多GPU并行计算框架对深度学习网络进行训练所得的步骤时,具体实现如下步骤:
获取若干个带有个人隐私数据具体类型标签的数据,以得到样本集,且将所述样本集划分为训练集;
构建ResNet深度学习网络;将所述训练集装载到多个GPU节点,以进行梯度求导,得到所有节点的求导结果;对所有节点的求导结果进行加权平均并更新ResNet深度学习网络的网络参数,同步更新所有GPU节点;判断所述ResNet深度学习网络是否收敛;若所述ResNet深度学习网络收敛,则确定所述ResNet深度学习网络为识别模型;若所述ResNet深度学习网络未收敛,则执行所述将所述训练集装载到多个GPU节点,以进行梯度求导,得到所有节点的求导结果。
在一实施例中,处理器502在实现所述将所述初始数据与预设的数据识别策略进行匹配,以得到匹配分值步骤时,具体实现如下步骤:
定义个人隐私类数据具体类型的正则表达式、字典、关键字识别规则,并对识别规则进行多模式组合,形成多种数据识别策略;将所述初始数据与预设的数据识别策略进行匹配,以得到匹配分值。
在一实施例中,处理器502在实现所述根据所述匹配分值以及所述识别结果确定数据类别步骤时,具体实现如下步骤:
将所述匹配分值以及所述识别结果进行加权平均,以得到各个具体类型的分值;筛选出分值最高的具体类型,以得到数据类别。
应当理解,在本申请实施例中,处理器502可以是中央处理单元 (CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路 (Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中该计算机程序被处理器执行时使处理器执行如下步骤:
加载数据自动采集插件;通过所述数据自动采集插件获取WEB应用程序运行过程中的数据,以得到初始数据;将所述初始数据输入至识别模型内进行个人隐私数据识别,以得到识别结果;将所述初始数据与预设的数据识别策略进行匹配,以得到匹配分值;根据所述匹配分值以及所述识别结果确定数据类别;判断所述数据类别是否是个人隐私数据;若所述数据类别是个人隐私数据,则输出所述数据类别。
其中,所述识别模型是通过若干个带有个人隐私数据具体类型标签的数据作为样本集且采用多GPU并行计算框架对深度学习网络进行训练所得的。
在一实施例中,所述处理器在执行所述计算机程序而实现所述识别模型是通过若干个带有个人隐私数据具体类型标签的数据作为样本集且采用多GPU并行计算框架对深度学习网络进行训练所得的步骤时,具体实现如下步骤:
获取若干个带有个人隐私数据具体类型标签的数据,以得到样本集,且将所述样本集划分为训练集;构建ResNet深度学习网络;将所述训练集装载到多个GPU节点,以进行梯度求导,得到所有节点的求导结果;对所有节点的求导结果进行加权平均并更新ResNet深度学习网络的网络参数,同步更新所有GPU节点;判断所述ResNet深度学习网络是否收敛;若所述ResNet深度学习网络收敛,则确定所述ResNet深度学习网络为识别模型;若所述ResNet深度学习网络未收敛,则执行所述将所述训练集装载到多个GPU节点,以进行梯度求导,得到所有节点的求导结果。
在一实施例中,所述处理器在执行所述计算机程序而实现所述将所述初始数据与预设的数据识别策略进行匹配,以得到匹配分值步骤时,具体实现如下步骤:
定义个人隐私类数据具体类型的正则表达式、字典、关键字识别规则,并对识别规则进行多模式组合,形成多种数据识别策略;将所述初始数据与预设的数据识别策略进行匹配,以得到匹配分值。
在一实施例中,所述处理器在执行所述计算机程序而实现所述根据所述匹配分值以及所述识别结果确定数据类别步骤时,具体实现如下步骤:
将所述匹配分值以及所述识别结果进行加权平均,以得到各个具体类型的分值;筛选出分值最高的具体类型,以得到数据类别。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (6)

1.个人隐私数据识别方法,其特征在于,包括:
加载数据自动采集插件;
通过所述数据自动采集插件获取WEB应用程序运行过程中的数据,以得到初始数据;
将所述初始数据输入至识别模型内进行个人隐私数据识别,以得到识别结果;
将所述初始数据与预设的数据识别策略进行匹配,以得到匹配分值;
根据所述匹配分值以及所述识别结果确定数据类别;
判断所述数据类别是否是个人隐私数据;
若所述数据类别是个人隐私数据,则输出所述数据类别;所述识别模型是通过若干个带有个人隐私数据具体类型标签的数据作为样本集且采用多GPU并行计算框架对深度学习网络进行训练所得的;
所述识别模型是通过若干个带有个人隐私数据具体类型标签的数据作为样本集且采用多GPU并行计算框架对深度学习网络进行训练所得的,包括:
获取若干个带有个人隐私数据具体类型标签的数据,以得到样本集,且将所述样本集划分为训练集;
构建ResNet深度学习网络;
将所述训练集装载到多个GPU节点,以进行梯度求导,得到所有节点的求导结果;
对所有节点的求导结果进行加权平均并更新ResNet深度学习网络的网络参数,同步更新所有GPU节点;
判断所述ResNet深度学习网络是否收敛;
若所述ResNet深度学习网络收敛,则确定所述ResNet深度学习网络为识别模型;
若所述ResNet深度学习网络未收敛,则执行所述将所述训练集装载到多个GPU节点,以进行梯度求导,得到所有节点的求导结果。
2.根据权利要求1所述的个人隐私数据识别方法,其特征在于,所述将所述初始数据与预设的数据识别策略进行匹配,以得到匹配分值,包括:
定义个人隐私类数据具体类型的正则表达式、字典、关键字识别规则,并对识别规则进行多模式组合,形成多种数据识别策略;
将所述初始数据与预设的数据识别策略进行匹配,以得到匹配分值。
3.根据权利要求2所述的个人隐私数据识别方法,其特征在于,所述根据所述匹配分值以及所述识别结果确定数据类别,包括:
将所述匹配分值以及所述识别结果进行加权平均,以得到各个具体类型的分值;
筛选出分值最高的具体类型,以得到数据类别。
4.个人隐私数据识别装置,其特征在于,包括:
插件加载单元,用于加载数据自动采集插件;
数据获取单元,用于通过所述数据自动采集插件获取WEB应用程序运行过程中的数据,以得到初始数据;
模型识别单元,用于将所述初始数据输入至识别模型内进行个人隐私数据识别,以得到识别结果;
匹配单元,用于将所述初始数据与预设的数据识别策略进行匹配,以得到匹配分值;
加权平均单元,用于根据所述匹配分值以及所述识别结果确定数据类别;
判断单元,用于判断所述数据类别是否是个人隐私数据;
输出单元,用于若所述数据类别是个人隐私数据,则输出所述数据类别;
还包括:
模型生成单元,用于通过若干个带有个人隐私数据具体类型标签的数据作为样本集且采用多GPU并行计算框架对深度学习网络进行训练,以得到识别模型;
所述模型生成单元包括:
样本集获取子单元,用于获取若干个带有个人隐私数据具体类型标签的数据,以得到样本集,且将所述样本集划分为训练集;
网络构建子单元,用于构建ResNet深度学习网络;
求导子单元,用于将所述训练集装载到多个GPU节点,以进行梯度求导,得到所有节点的求导结果;
参数更新子单元,用于对所有节点的求导结果进行加权平均并更新ResNet深度学习网络的网络参数,同步更新所有GPU节点;
判断子单元,用于判断所述ResNet深度学习网络是否收敛;若所述ResNet深度学习网络收敛,则确定所述ResNet深度学习网络为识别模型;若所述ResNet深度学习网络未收敛,则执行所述将所述训练集装载到多个GPU节点,以进行梯度求导,得到所有节点的求导结果。
5.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述的方法。
6.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的方法。
CN202111633204.5A 2021-12-29 2021-12-29 个人隐私数据识别方法、装置、计算机设备及存储介质 Active CN113987309B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111633204.5A CN113987309B (zh) 2021-12-29 2021-12-29 个人隐私数据识别方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111633204.5A CN113987309B (zh) 2021-12-29 2021-12-29 个人隐私数据识别方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN113987309A CN113987309A (zh) 2022-01-28
CN113987309B true CN113987309B (zh) 2022-03-11

Family

ID=79734835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111633204.5A Active CN113987309B (zh) 2021-12-29 2021-12-29 个人隐私数据识别方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113987309B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2187338A1 (en) * 2008-11-13 2010-05-19 Berner Fachhochschule, Technik und Informatik (TI) Biometric pseudonyms of a fixed-sized template
CN109960727A (zh) * 2019-02-28 2019-07-02 天津工业大学 针对非结构化文本的个人隐私信息自动检测方法及系统
CN110781204A (zh) * 2019-09-09 2020-02-11 腾讯大地通途(北京)科技有限公司 目标对象的标识信息确定方法、装置、设备及存储介质
CN111062236A (zh) * 2019-05-05 2020-04-24 杭州魔蝎数据科技有限公司 一种基于人工智能的数据授权方法和装置
CN111405562A (zh) * 2020-03-11 2020-07-10 中国科学院信息工程研究所 一种基于通信行为规律的移动恶意用户识别方法及系统
CN111460494A (zh) * 2020-03-24 2020-07-28 广州大学 面向多模态深度学习的隐私保护方法及系统
CN111539021A (zh) * 2020-04-26 2020-08-14 支付宝(杭州)信息技术有限公司 一种数据隐私类型识别方法、装置及设备
CN112132238A (zh) * 2020-11-23 2020-12-25 支付宝(杭州)信息技术有限公司 一种识别隐私数据的方法、装置、设备和可读介质
CN113221747A (zh) * 2021-05-13 2021-08-06 支付宝(杭州)信息技术有限公司 一种基于隐私保护的隐私数据处理方法、装置及设备
CN113807399A (zh) * 2021-08-16 2021-12-17 华为技术有限公司 一种神经网络训练方法、检测方法以及装置
CN113849852A (zh) * 2021-08-27 2021-12-28 杭州逗酷软件科技有限公司 隐私权限检测方法、装置、电子设备以及存储介质
CN113849702A (zh) * 2021-10-12 2021-12-28 北京锐安科技有限公司 一种确定目标数据的方法、装置、电子设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959961B (zh) * 2018-06-26 2022-03-22 安徽大学 一种查询平均成绩的隐私保护方法
CN109145829A (zh) * 2018-08-24 2019-01-04 中共中央办公厅电子科技学院 一种基于深度学习和同态加密的安全高效的人脸识别方法
US11574186B2 (en) * 2019-10-31 2023-02-07 International Business Machines Corporation Cognitive data pseudonymization
CN111107074B (zh) * 2019-12-13 2022-04-08 支付宝(杭州)信息技术有限公司 一种防止网络爬虫窃取隐私数据的方法、训练方法及装置
CN112800468B (zh) * 2021-02-18 2022-04-08 支付宝(杭州)信息技术有限公司 一种基于隐私保护的数据处理方法、装置及设备

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2187338A1 (en) * 2008-11-13 2010-05-19 Berner Fachhochschule, Technik und Informatik (TI) Biometric pseudonyms of a fixed-sized template
CN109960727A (zh) * 2019-02-28 2019-07-02 天津工业大学 针对非结构化文本的个人隐私信息自动检测方法及系统
CN111062236A (zh) * 2019-05-05 2020-04-24 杭州魔蝎数据科技有限公司 一种基于人工智能的数据授权方法和装置
CN110781204A (zh) * 2019-09-09 2020-02-11 腾讯大地通途(北京)科技有限公司 目标对象的标识信息确定方法、装置、设备及存储介质
CN111405562A (zh) * 2020-03-11 2020-07-10 中国科学院信息工程研究所 一种基于通信行为规律的移动恶意用户识别方法及系统
CN111460494A (zh) * 2020-03-24 2020-07-28 广州大学 面向多模态深度学习的隐私保护方法及系统
CN111539021A (zh) * 2020-04-26 2020-08-14 支付宝(杭州)信息技术有限公司 一种数据隐私类型识别方法、装置及设备
CN112132238A (zh) * 2020-11-23 2020-12-25 支付宝(杭州)信息技术有限公司 一种识别隐私数据的方法、装置、设备和可读介质
CN113221747A (zh) * 2021-05-13 2021-08-06 支付宝(杭州)信息技术有限公司 一种基于隐私保护的隐私数据处理方法、装置及设备
CN113807399A (zh) * 2021-08-16 2021-12-17 华为技术有限公司 一种神经网络训练方法、检测方法以及装置
CN113849852A (zh) * 2021-08-27 2021-12-28 杭州逗酷软件科技有限公司 隐私权限检测方法、装置、电子设备以及存储介质
CN113849702A (zh) * 2021-10-12 2021-12-28 北京锐安科技有限公司 一种确定目标数据的方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于云计算的社交网络安全隐私数据融合方法;傅江辉;《济南大学学报(自然科学版)》;20200908;第29-33页 *

Also Published As

Publication number Publication date
CN113987309A (zh) 2022-01-28

Similar Documents

Publication Publication Date Title
US20230013306A1 (en) Sensitive Data Classification
US20230205610A1 (en) Systems and methods for removing identifiable information
CN109829155B (zh) 关键词的确定方法、自动评分方法、装置、设备及介质
US11956272B2 (en) Identifying legitimate websites to remove false positives from domain discovery analysis
CN110415107B (zh) 数据处理方法、装置、存储介质及电子设备
CN111460250B (zh) 用于画像的数据的清洗方法、装置、介质及电子设备
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN114760149B (zh) 数据跨境合规管控方法、装置、计算机设备及存储介质
CN111309822A (zh) 用户身份识别方法及装置
CN113268768B (zh) 一种敏感数据的脱敏方法、装置、设备及介质
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
CN111259952A (zh) 异常用户识别方法、装置、计算机设备及存储介质
CN107809370B (zh) 用户推荐方法及装置
WO2021120587A1 (zh) 基于oct的视网膜分类方法、装置、计算机设备及存储介质
CN113704623A (zh) 一种数据推荐方法、装置、设备及存储介质
CN114064872B (zh) 对话数据信息的智能存储方法、装置、设备及介质
CN115115369A (zh) 数据处理方法、装置、设备及存储介质
CN113988226B (zh) 数据脱敏有效性验证方法、装置、计算机设备及存储介质
CN113987309B (zh) 个人隐私数据识别方法、装置、计算机设备及存储介质
CN114297713A (zh) 隐私数据采集比对方法、装置、计算机设备及存储介质
JP2022153339A (ja) データベースシステムにおけるレコードマッチング(データベースシステムにおけるレコードマッチングのコンピュータ実装方法、コンピュータプログラム、コンピュータシステム)
CN114528378A (zh) 文本分类方法、装置、电子设备及存储介质
CN115964478A (zh) 网络攻击检测方法、模型训练方法及装置、设备及介质
CN114528908A (zh) 网络请求数据分类模型训练方法、分类方法及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant