CN114168995A - 一种基于隐私保护的隐私数据风险防控方法、装置及设备 - Google Patents

一种基于隐私保护的隐私数据风险防控方法、装置及设备 Download PDF

Info

Publication number
CN114168995A
CN114168995A CN202111326404.6A CN202111326404A CN114168995A CN 114168995 A CN114168995 A CN 114168995A CN 202111326404 A CN202111326404 A CN 202111326404A CN 114168995 A CN114168995 A CN 114168995A
Authority
CN
China
Prior art keywords
data
vector
prevention
control
target privacy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111326404.6A
Other languages
English (en)
Inventor
唐溶
陈帅
朱敏杰
严鹏鹤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202111326404.6A priority Critical patent/CN114168995A/zh
Publication of CN114168995A publication Critical patent/CN114168995A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例公开了一种基于隐私保护的隐私数据风险防控方法、装置及设备,该方法包括:获取待处理的文本类的目标隐私数据,然后,对目标隐私数据进行内容变种防控处理,并基于预设的第一自然语言处理规则对变种防控的目标隐私数据进行切分处理,得到一个或多个第一切分数据,基于预设的第二自然语言处理规则对变种防控的目标隐私数据中包含的预设类型的数据进行切分处理,得到一个或多个第二切分数据,之后,对第一切分数据进行向量化处理,得到第一向量,并对第二切分数据进行向量化处理,得到第二向量,最终,基于第一向量和第二向量,对目标隐私数据进行风险防控处理。

Description

一种基于隐私保护的隐私数据风险防控方法、装置及设备
技术领域
本文件涉及计算机技术领域,尤其涉及一种基于隐私保护的隐私数据风险防控方法、装置及设备。
背景技术
在国际风控的各类场景中,地址的匹配和定性是风险管控非常重要的一环,地址上的黑名单和velocity变量对风险控制提供了有效的决策依据。而黑产为了绕过地址防控体系,通常采取对真实地址进行变种,或填入不精确、不规范,甚至不存在的地址,这类攻击会造成原始的地址库和velocity变量失准,同时,由于隐私合规方面原因,各风险域之间的明文地址数据难以直接共享,导致各域地址防控形成孤岛,无法联合达到更好的效果,为此,需要提供一种将明文地址进行隐私保护处理,并实现地址的联防联控的技术方案。
发明内容
本说明书实施例的目的是提供一种将明文地址进行隐私保护处理,并实现地址的联防联控的技术方案。
为了实现上述技术方案,本说明书实施例是这样实现的:
本说明书实施例提供的一种基于隐私保护的隐私数据风险防控方法,所述方法包括:获取待处理的文本类的目标隐私数据。对所述目标隐私数据进行内容变种防控处理,得到变种防控的所述目标隐私数据。基于预设的第一自然语言处理规则对变种防控的所述目标隐私数据进行切分处理,得到变种防控的所述目标隐私数据对应的一个或多个第一切分数据,并基于预设的第二自然语言处理规则对变种防控的所述目标隐私数据中包含的预设类型的数据进行切分处理,得到预设类型的数据对应的一个或多个第二切分数据。对变种防控的所述目标隐私数据对应的一个或多个第一切分数据进行向量化处理,得到变种防控的所述目标隐私数据对应的第一向量,并对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,得到预设类型的数据对应的第二向量。基于所述第一向量和所述第二向量,对所述目标隐私数据进行风险防控处理。
本说明书实施例提供的一种基于隐私保护的隐私数据风险防控方法,应用于区块链系统,所述方法包括:获取对文本类的隐私数据进行风险防控的规则信息,基于对文本类的隐私数据进行风险防控的规则信息生成相应的智能合约,并将所述智能合约部署到所述区块链系统中。在获取到待处理的文本类的目标隐私数据时,调用所述智能合约对所述目标隐私数据进行内容变种防控处理,得到变种防控的所述目标隐私数据。基于所述智能合约,通过预设的第一自然语言处理规则对变种防控的所述目标隐私数据进行切分处理,得到变种防控的所述目标隐私数据对应的一个或多个第一切分数据,并基于预设的第二自然语言处理规则对变种防控的所述目标隐私数据中包含的预设类型的数据进行切分处理,得到预设类型的数据对应的一个或多个第二切分数据。基于所述智能合约,对变种防控的所述目标隐私数据对应的一个或多个第一切分数据进行向量化处理,得到变种防控的所述目标隐私数据对应的第一向量,并对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,得到预设类型的数据对应的第二向量。基于所述智能合约、所述第一向量和所述第二向量,对所述目标隐私数据进行风险防控处理。
本说明书实施例提供的一种基于隐私保护的隐私数据风险防控装置,所述装置包括:隐私获取模块,获取待处理的文本类的目标隐私数据。变种防控模块,对所述目标隐私数据进行内容变种防控处理,得到变种防控的所述目标隐私数据。切分模块,基于预设的第一自然语言处理规则对变种防控的所述目标隐私数据进行切分处理,得到变种防控的所述目标隐私数据对应的一个或多个第一切分数据,并基于预设的第二自然语言处理规则对变种防控的所述目标隐私数据中包含的预设类型的数据进行切分处理,得到预设类型的数据对应的一个或多个第二切分数据。向量化模块,对变种防控的所述目标隐私数据对应的一个或多个第一切分数据进行向量化处理,得到变种防控的所述目标隐私数据对应的第一向量,并对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,得到预设类型的数据对应的第二向量。风险防控模块,基于所述第一向量和所述第二向量,对所述目标隐私数据进行风险防控处理。
本说明书实施例提供的一种基于隐私保护的隐私数据风险防控装置,所述装置为区块链系统中的装置,所述装置包括:合约部署模块,获取对文本类的隐私数据进行风险防控的规则信息,基于对文本类的隐私数据进行风险防控的规则信息生成相应的智能合约,并将所述智能合约部署到所述区块链系统中。变种防控模块,在获取到待处理的文本类的目标隐私数据时,调用所述智能合约对所述目标隐私数据进行内容变种防控处理,得到变种防控的所述目标隐私数据。切分模块,基于所述智能合约,通过预设的第一自然语言处理规则对变种防控的所述目标隐私数据进行切分处理,得到变种防控的所述目标隐私数据对应的一个或多个第一切分数据,并基于预设的第二自然语言处理规则对变种防控的所述目标隐私数据中包含的预设类型的数据进行切分处理,得到预设类型的数据对应的一个或多个第二切分数据。向量化模块,基于所述智能合约,对变种防控的所述目标隐私数据对应的一个或多个第一切分数据进行向量化处理,得到变种防控的所述目标隐私数据对应的第一向量,并对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,得到预设类型的数据对应的第二向量。风险防控模块,基于所述智能合约、所述第一向量和所述第二向量,对所述目标隐私数据进行风险防控处理。
本说明书实施例提供的一种基于隐私保护的隐私数据风险防控设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取待处理的文本类的目标隐私数据。对所述目标隐私数据进行内容变种防控处理,得到变种防控的所述目标隐私数据。基于预设的第一自然语言处理规则对变种防控的所述目标隐私数据进行切分处理,得到变种防控的所述目标隐私数据对应的一个或多个第一切分数据,并基于预设的第二自然语言处理规则对变种防控的所述目标隐私数据中包含的预设类型的数据进行切分处理,得到预设类型的数据对应的一个或多个第二切分数据。对变种防控的所述目标隐私数据对应的一个或多个第一切分数据进行向量化处理,得到变种防控的所述目标隐私数据对应的第一向量,并对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,得到预设类型的数据对应的第二向量。基于所述第一向量和所述第二向量,对所述目标隐私数据进行风险防控处理。
本说明书实施例提供的一种基于隐私保护的隐私数据风险防控设备,所述设备为区块链系统中的设备,所述基于隐私保护的隐私数据风险防控设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取对文本类的隐私数据进行风险防控的规则信息,基于对文本类的隐私数据进行风险防控的规则信息生成相应的智能合约,并将所述智能合约部署到所述区块链系统中。在获取到待处理的文本类的目标隐私数据时,调用所述智能合约对所述目标隐私数据进行内容变种防控处理,得到变种防控的所述目标隐私数据。基于所述智能合约,通过预设的第一自然语言处理规则对变种防控的所述目标隐私数据进行切分处理,得到变种防控的所述目标隐私数据对应的一个或多个第一切分数据,并基于预设的第二自然语言处理规则对变种防控的所述目标隐私数据中包含的预设类型的数据进行切分处理,得到预设类型的数据对应的一个或多个第二切分数据。基于所述智能合约,对变种防控的所述目标隐私数据对应的一个或多个第一切分数据进行向量化处理,得到变种防控的所述目标隐私数据对应的第一向量,并对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,得到预设类型的数据对应的第二向量。基于所述智能合约、所述第一向量和所述第二向量,对所述目标隐私数据进行风险防控处理。
本说明书实施例还提供了一种存储介质,其中,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:获取待处理的文本类的目标隐私数据。对所述目标隐私数据进行内容变种防控处理,得到变种防控的所述目标隐私数据。基于预设的第一自然语言处理规则对变种防控的所述目标隐私数据进行切分处理,得到变种防控的所述目标隐私数据对应的一个或多个第一切分数据,并基于预设的第二自然语言处理规则对变种防控的所述目标隐私数据中包含的预设类型的数据进行切分处理,得到预设类型的数据对应的一个或多个第二切分数据。对变种防控的所述目标隐私数据对应的一个或多个第一切分数据进行向量化处理,得到变种防控的所述目标隐私数据对应的第一向量,并对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,得到预设类型的数据对应的第二向量。基于所述第一向量和所述第二向量,对所述目标隐私数据进行风险防控处理。
本说明书实施例还提供了一种存储介质,其中,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:获取对文本类的隐私数据进行风险防控的规则信息,基于对文本类的隐私数据进行风险防控的规则信息生成相应的智能合约,并将所述智能合约部署到所述区块链系统中。在获取到待处理的文本类的目标隐私数据时,调用所述智能合约对所述目标隐私数据进行内容变种防控处理,得到变种防控的所述目标隐私数据。基于所述智能合约,通过预设的第一自然语言处理规则对变种防控的所述目标隐私数据进行切分处理,得到变种防控的所述目标隐私数据对应的一个或多个第一切分数据,并基于预设的第二自然语言处理规则对变种防控的所述目标隐私数据中包含的预设类型的数据进行切分处理,得到预设类型的数据对应的一个或多个第二切分数据。基于所述智能合约,对变种防控的所述目标隐私数据对应的一个或多个第一切分数据进行向量化处理,得到变种防控的所述目标隐私数据对应的第一向量,并对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,得到预设类型的数据对应的第二向量。基于所述智能合约、所述第一向量和所述第二向量,对所述目标隐私数据进行风险防控处理。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一种基于隐私保护的隐私数据风险防控方法实施例;
图2为本说明书一种基于隐私保护的隐私数据风险防控系统的结构示意图;
图3为本说明书另一种基于隐私保护的隐私数据风险防控方法实施例;
图4为本说明书又一种基于隐私保护的隐私数据风险防控方法实施例;
图5A为本说明书又一种基于隐私保护的隐私数据风险防控方法实施例;
图5B为本说明书一种基于隐私保护的隐私数据风险防控过程示意图;
图6为本说明书一种基于隐私保护的隐私数据风险防控装置实施例;
图7为本说明书另一种基于隐私保护的隐私数据风险防控装置实施例;
图8为本说明书一种基于隐私保护的隐私数据风险防控设备实施例。
具体实施方式
本说明书实施例提供一种基于隐私保护的隐私数据风险防控方法、装置及设备。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
实施例一
如图1所示,本说明书实施例提供一种基于隐私保护的隐私数据风险防控方法,该方法的执行主体可以为服务器,其中,该服务器可以是独立的一个服务器,还可以是由多个服务器构成的服务器集群等,该服务器可以是如金融业务或网络购物业务等的后台服务器,也可以是某应用程序的后台服务器等。该方法可以应用于某区域内涉及金融领域的相关场景,也可以应用于跨区域的数据交互、验证、风险防控等场景,该方法具体可以包括以下步骤:
在步骤S102中,获取待处理的文本类的目标隐私数据。
其中,目标隐私数据可以是某些场景(如某区域内涉及金融领域的相关场景或跨区域的数据交互、验证、风险防控等场景)下的敏感数据,且目标隐私数据的内容中包括文本形式的数据(即文本类的数据),目标隐私数据可以包括多种,例如地址等,其中的地址可以是某个人的居住地址,也可以是某个人的工作地址,还可以是某个组织或机构所处的地址等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在实施中,在国际风控的各类场景中,地址的匹配和定性是风险管控非常重要的一环,地址上的黑名单和velocity变量对风险控制提供了有效的决策依据。而黑产为了绕过地址防控体系,通常采取对真实地址进行变种,或填入不精确、不规范,甚至不存在的地址,这类攻击会造成原始的地址库和velocity变量失准,同时,由于隐私合规方面原因,各风险域之间的明文地址数据难以直接共享,导致各域地址防控形成孤岛,无法联合达到更好的效果,为此,需要提供一种将明文地址进行隐私保护处理,并实现地址的联防联控的技术方案。本说明书实施例提供一种可实现的技术方案,具体可以包括以下内容:
可以通过多种不同的方式获取待处理的文本类的目标隐私数据,例如,可以预先设置有隐私数据的输入页面,该页面中可以包括隐私数据的输入框、确定按键和取消按键等,当需要对某隐私数据(即目标隐私数据)进行风险防控时,可以获取上述页面的数据,并可以显示该页面。如图2所示,用户可以在该页面的隐私数据的输入框中输入目标隐私数据,输入完成后,可以点击该页面中的确定按键,此时,服务器可以获取目标隐私数据,并可以将目标隐私数据作为待处理的文本类的目标隐私数据。
在步骤S104中,对目标隐私数据进行内容变种防控处理,得到变种防控的目标隐私数据。
在实施中,为了防止黑产对隐私数据的内容进行修改而绕过风控体系,可以根据实际情况预先设定内容变种防控机制,该内容变种防控机制可以基于不同的算法构建,也可以基于不同操作或处理方式的相应规则构建,具体可以根据实际情况设定,本说明书实施例对此不做限定。该内容变种防控机制可以设置有多种不同的数据处理规则或算法等,例如,可以包括将目标隐私数据中的指定标点符号删除、将目标隐私数据的内容转换为指定的语种(如英语或汉语等)、目标隐私数据中的指定字符转换为指定格式的字符等,具体可以根据实际情况设定,本说明书实施例对此不做限定。然后,可以使用内容变种防控机制对目标隐私数据进行内容变种防控处理,例如,可以将目标隐私数据中的标点符号删除,并将目标隐私数据中的半角的字符转换为全角的字符,最终可以得到变种防控的目标隐私数据,即不包含标点符号,且其中的字符为全角字符的目标隐私数据。
在步骤S106中,基于预设的第一自然语言处理规则对变种防控的目标隐私数据进行切分处理,得到变种防控的目标隐私数据对应的一个或多个第一切分数据,并基于预设的第二自然语言处理规则对变种防控的目标隐私数据中包含的预设类型的数据进行切分处理,得到预设类型的数据对应的一个或多个第二切分数据。
其中,第一自然语言处理规则可以是指定的一种自然语言处理的规则,第一自然语言处理规则可以通过多种不同的算法构建,例如可以使用worktokenize方法、TreebankWordTokenizer方法或RegexpTokenizer方法等构建第一自然语言处理规则,第一自然语言处理规则可以用于对变种防控的目标隐私数据中的文本内容进行词语的切分,将一个句子切分为多个词语。第二自然语言处理规则可以是指定的一种自然语言处理的规则,第二自然语言处理规则可以与第一自然语言处理规则相同,也可以与第一自然语言处理规则不同,第二自然语言处理规则可以通过多种不同的算法构建,例如可以使用worktokenize方法、TreebankWordTokenizer方法或RegexpTokenizer方法等构建第二自然语言处理规则,第二自然语言处理规则可以用于对指定数据的文本内容进行词语的切分,得到切分的多个词语。预设类型可以包括多种,例如数字、字母、指定的特殊字符(如拉丁语字符等),具体可以根据实际情况设定,本说明书实施例对此不做限定。
在实施中,可以获取第一自然语言处理规则,并可以使用第一自然语言处理规则对变种防控的目标隐私数据进行切分处理,使得变种防控的目标隐私数据被切分为多个不同的部分,每个部分可以包括指定数量(如2个或3个等)的字符,每个部分可以作为一个第一切分数据,从而可以得到变种防控的目标隐私数据对应的一个或多个第一切分数据。
此外,还可以获取变种防控的目标隐私数据中包含的预设类型的数据,例如,可以获取变种防控的目标隐私数据中包含的数字等,然后,可以获取第二自然语言处理规则,并可以使用第二自然语言处理规则对变种防控的目标隐私数据中包含的预设类型的数据进行切分处理,使得变种防控的目标隐私数据中包含的预设类型的数据被切分为多个不同的部分,每个部分可以包括指定数量(如2个或3个等)的字符,每个部分可以作为一个第二切分数据,从而可以得到变种防控的目标隐私数据中包含的预设类型的数据对应的一个或多个第二切分数据。
在步骤S108中,对变种防控的目标隐私数据对应的一个或多个第一切分数据进行向量化处理,得到变种防控的目标隐私数据对应的第一向量,并对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,得到预设类型的数据对应的第二向量。
在实施中,可以根据实际情况预先设定不同的词语或不同的字符组合对应的向量,例如可以获取多种不同的词语,如“风险”、“数据”等,然后,可以基于预设的向量构建算法,为上述的每个词语构建相应的向量,如词语“风险”对应的向量可以为向量A,词语“数据”对应的向量可以为向量B等,通过上述方式,可以为多种不同的词语或字符组合构建相应的向量,从而得到不同词语或字符组合的向量库。
通过上述处理得到变种防控的目标隐私数据对应的一个或多个第一切分数据后,可以从上述向量库中获取每个第一切分数据对应的向量,例如,第一切分数据中包括“风险”,则可以从上述向量库中获取“风险”对应的向量,即向量A,可以将向量A作为该第一切分数据对应的向量。相应的,可以从上述向量库中获取每个第二切分数据对应的向量。从而可以得到变种防控的目标隐私数据对应的第一向量和预设类型的数据对应的第二向量。
需要说明的是,上述第一向量可以是每个第一切分数据对应的向量的集合,也可以是将多个不同的第一切分数据对应的向量进行融合,得到的一个向量,相应的,上述第二向量也可以是每个第二切分数据对应的向量的集合,也可以是将多个不同的第二切分数据对应的向量进行融合,得到的一个向量等。此外,除了可以通过上述方式对第一切分数据和第二切分数据进行向量化处理外,还可以通过多种不同的方式对第一切分数据和第二切分数据进行向量化处理,例如可以预先设定向量构建算法,通过该向量构建算法为每个第一切分数据和第二切分数据构建相应的向量等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在步骤S110中,基于第一向量和第二向量,对目标隐私数据进行风险防控处理。
在实施中,可以基于指定业务的历史数据获取存在风险的数据,并可以通过上述方式,将该数据进行切分处理,再将切分后得到的数据进行向量化处理,得到每个切分后得到的数据对应的向量。通过上述方式得到第一向量和第二向量后,可以将第一向量与相应的存在风险的数据对应的向量进行相似度计算,得到两者之间的相似度数值,同时,可以将第二向量与相应的存在风险的数据对应的向量进行相似度计算,得到两者之间的相似度数值,可以基于上述两个相似度数值,判断存在风险的数据中是否包括目标隐私数据,如果存在风险的数据中包括目标隐私数据,则表明目标风险数据存在风险,此时,可以输出报警信号,并可以将目标隐私数据提供给管理终端,以便管理人员可以对目标隐私数据进行分析,可以基于分析结果对目标隐私数据进行相应的处理。如果存在风险的数据中不包括目标隐私数据,则表明目标风险数据不存在风险,此时,可以继续执行后续处理。
需要说明的是,两个向量之间进行相似度计算可以通过多种不同的相似度算法实现,具体如余弦相似度算法、欧式距离相似度算法、Jaccard相似系数算法等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
本说明书实施例提供一种基于隐私保护的隐私数据风险防控方法,获取待处理的文本类的目标隐私数据,然后,对目标隐私数据进行内容变种防控处理,并基于预设的第一自然语言处理规则对变种防控的目标隐私数据进行切分处理,得到一个或多个第一切分数据,基于预设的第二自然语言处理规则对变种防控的目标隐私数据中包含的预设类型的数据进行切分处理,得到一个或多个第二切分数据,之后,对第一切分数据进行向量化处理,得到第一向量,并对第二切分数据进行向量化处理,得到第二向量,最终,基于第一向量和第二向量,对目标隐私数据进行风险防控处理,这样,利用数据切分和向量化处理等,将文本类可变长度的数据内容转变为固定长度的数值向量,而且,可以在各个风险域直接将原始文本类的隐私数据转换为数值型向量,且切分过程不可逆,因此,可以保护用户的隐私数据,并且可以进行统一化的比对和处理,以保护原始文本的隐私,此外,通过上述方式,可以提高数据的处理效率。
实施例二
如图3所示,本说明书实施例提供一种基于隐私保护的隐私数据风险防控方法,该方法的执行主体可以为服务器,其中,该服务器可以是独立的一个服务器,还可以是由多个服务器构成的服务器集群等,该服务器可以是如金融业务或网络购物业务等的后台服务器,也可以是某应用程序的后台服务器等。该方法可以应用于某区域内涉及金融领域的相关场景,也可以应用于跨区域的数据交互、验证、风险防控等场景,该方法具体可以包括以下步骤:
在步骤S302中,获取待处理的文本类的目标隐私数据。
在步骤S304中,对目标隐私数据进行文本清洗处理,处理后的目标隐私数据作为变种防控的目标隐私数据,其中,文本清洗处理包括大写字符转换、小写字符转换、全角与半角的转换、标点符号剔除中的一种或多种。
在实施中,为了应对各种文本变种带来的风险,可以对目标隐私数据进行文本清洗处理,从而将目标隐私数据中的大写字符转换为小写字符或者将目标隐私数据中的小写字符转换为大写字符,也可以将目标隐私数据中的全角字符转换为半角字符或者将目标隐私数据中的半角字符转换为全角字符,还可以将目标隐私数据中的标点符号剔除或者将目标隐私数据中指定的标点符号剔除,通过上述方式,可以将目标隐私数据中包含的特殊内容调整为统一的样式或形式,从而消除文本变种带来的风险。
在步骤S306中,确定目标隐私数据所属的语种类别,并获取与该语种类别对应的第一数据切分规则,将获取的第一数据切分规则作为第一自然语言处理规则。
其中,该语种类别可以包括第一语种类和第二语种类,本实施例中,第一语种类对应的自然语言可以包括中文、日文、韩文等,第二语种类对应的自然语言可以包括除第一语种类对应的自然语言之外的自然语言。数据切分规则可以包括基于N-Gram算法构建的规则,N-Gram算法是一种基于统计语言模型的算法,它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成长度为N的字节片段序列,每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定的阈值进行过滤,形成关键gram列表,也就是该文本的向量特征空间,关键gram列表中的每一种gram就是一个特征向量维度。该算法基于以下假设:第N个词语的出现只与前面N-1个词语相关,而与其它任何词语都不相关,整个语句的概率即为各个词语出现概率的乘积,具体如N-Gram算法中的N为2,则某个词语的出现只与前面1个词语相关(如第2个词语的出现只与前面第1个词语相关,或第3个词语的出现只与前面第2个词语相关等),而与其它任何词语都不相关,整个语句的概率即为各个词语出现概率的乘积,再如N-Gram算法中的N为3,则某个词语的出现只与前面2个词语相关(如第3个词语的出现只与前面第1个词语和第2个词语相关,或第4个词语的出现只与前面的第3个词语和第2个词语相关等),而与其它任何词语都不相关,整个语句的概率即为各个词语出现概率的乘积,各个词语出现的概率可以通过直接从语料中统计N个词语同时出现的次数得到,常用的是二元的Bi-Gram算法(即2-Gram算法)和三元的Tri-Gram算法(3-Gram算法)。本实施例中,第一语种类对应的数据切分规则可以为基于2-Gram算法构建的规则,第二语种类对应的数据切分规则可以为基于3-Gram算法构建的规则。
在实施中,可以对目标隐私数据所属的语种进行分析,确定目标隐私数据所属的语种类别,如果目标隐私数据所属的语种为中文、日文或韩文等,则可以确定目标隐私数据所属的语种类别为第一语种类,如果目标隐私数据所属的语种不是中文、日文或韩文等,则可以确定目标隐私数据所属的语种类别为第二语种类。基于确定的语种类别,获取与该语种类别对应的第一数据切分规则,具体地,如果目标隐私数据所属的语种类别为第一语种类,则第一数据切分规则可以为基于2-Gram算法构建的规则,如果目标隐私数据所属的语种类别为第二语种类,则第一数据切分规则可以为基于3-Gram算法构建的规则,将获取的第一数据切分规则作为第一自然语言处理规则。
在步骤S308中,基于第一自然语言处理规则对变种防控的目标隐私数据进行切分处理,得到变种防控的目标隐私数据对应的一个或多个第一切分数据。
在实施中,如果确定目标隐私数据所属的语种类别为第一语种类,则基于2-Gram算法构建的第一自然语言处理规则对变种防控的目标隐私数据进行切分处理,得到变种防控的目标隐私数据对应的一个或多个第一切分数据,其中,基于2-Gram算法构建的第一自然语言处理规则对变种防控的目标隐私数据进行切分处理可以参见上述2-Gram算法的相关内容,在此不再赘述。如果确定目标隐私数据所属的语种类别为第二语种类,则基于3-Gram算法构建的第一自然语言处理规则对变种防控的目标隐私数据进行切分处理,得到变种防控的目标隐私数据对应的一个或多个第一切分数据,其中,基于3-Gram算法构建的第一自然语言处理规则对变种防控的目标隐私数据进行切分处理可以参见上述3-Gram算法的相关内容,在此不再赘述。
在步骤S310中,基于预设的第二自然语言处理规则对变种防控的目标隐私数据中包含的预设类型的数据进行切分处理,得到预设类型的数据对应的一个或多个第二切分数据。
其中,第二自然语言处理规则可以包括基于N-Gram算法构建的规则,预设类型的数据包括数值型数据。第二自然语言处理规则可以与第一自然语言处理规则相同,也可以与第一自然语言处理规则不同,具体可以根据实际情况设定。
在实施中,可以对变种防控的目标隐私数据中包含的数据内容进行分析,确定其中包含的预设类型的数据,即获取变种防控的目标隐私数据中包含的数值型数据,该处理的目的是提取关键的门牌号码、邮编等数值型数据,后续可以对数值型数据在比对中给予更高权重。然后,可以基于2-Gram算法构建的第二自然语言处理规则对变种防控的目标隐私数据中包含的预设类型的数据进行切分处理,得到预设类型的数据对应的一个或多个第二切分数据,其中,基于2-Gram算法构建的第二自然语言处理规则对变种防控的目标隐私数据中包含的预设类型的数据进行切分处理可以参见上述2-Gram算法的相关内容,在此不再赘述。
在步骤S312中,基于minhash算法对变种防控的目标隐私数据对应的一个或多个第一切分数据进行向量化处理,得到预设数量的维度、且预设数据位的无符号整数数组构成的第一向量。
其中,预设数量的维度和预设数据位可以根据实际情况设定,具体如,预设数量的维度可以为512维或256维等,预设数据位可以为16位或32位等。
在实施中,在数据挖掘中,一个最基本的问题就是比较两个集合的相似度,通常通过遍历两个集合中的元素,并统计两个集合中相同元素的个数,以此表示集合的相似度,上述过程也可以看成特征向量间相似度的计算,当两个集合里的元素数量异常多(特征空间维数很多),同时又有很多个集合需要判断两两间的相似度时,上述方式会变得十分耗时,而最小哈希(minhash)可以用来解决上述问题。可以预先设置多个数据集合,为了得到各数据集合的最小哈希值,首先定义一个最小哈希函数h,用于对多个数据集合构成的矩阵(1和0构成的矩阵)进行随机行打乱,则某集合(某一列)的最小哈希值就等于打乱后的该列第一个值为1的行所在的行号,其中,对于minhash算法,对于一个随机的排列,两个集合的minHash相等的概率等于两个集合的Jaccard相似度。
基于上述的minhash算法,可以对变种防控的目标隐私数据对应的一个或多个第一切分数据进行向量化处理,从而可以得到第一向量,其中,第一向量中可以包括第一预设数量的维度,且可以包括第二预设数量的数据位,本实施例中,第一向量中可以包括512个维度,且包括32位的uint型数据,即可以将基于2-Gram算法或3-Gram算法构建的第一自然语言处理规则得到的变种防控的目标隐私数据对应的一个或多个第一切分数据转换为512维的uint32的第一向量。
在步骤S314中,基于minhash算法对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,得到预设数量的维度、且预设数据位的无符号整数数组构成的第二向量。
在实施中,基于上述的minhash算法,可以对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,从而可以得到第二向量,其中,第二向量中可以包括第一预设数量的维度,且可以包括第二预设数量的数据位,本实施例中,第二向量中可以包括512个维度,且包括32位的uint型数据,即可以将基于2-Gram算法构建的第二自然语言处理规则得到的变种防控的目标隐私数据中的预设类型的数据对应的一个或多个第二切分数据转换为512维的uint32的第二向量。
针对每一个隐私数据,可以得到两个512维的minhash向量,其中一个为该隐私数据对应的第一向量,另一个为该隐私数据中的预设类型的数据(如数值型数据)对应的第二向量,上述两个向量的处理过程是不可逆的,上述流程通常在各风险域独立进行。两个向量生成后,可以与黑名单的对应向量进行比对,或存储在数据枢纽或其他数据库以便后期其他应用,通过上述处理隐私数据的保护过程即可完成。
在步骤S316中,分别基于第一向量和第二向量,从预设的黑名单中包含的风险数据对应的第三向量和黑名单中包含的风险数据中预设类型的数据对应的第四向量中进行检索,以确定黑名单中是否包括目标隐私数据,并基于检索结果对目标隐私数据进行风险防控处理。
在实施中,可以根据上述确定第一向量和第二向量的处理过程,对黑名单中包含的各个风险数据进行处理,即针对黑名单中的某个风险数据,对该风险数据进行文本清洗处理,处理后的该风险数据作为变种防控的风险数据,其中,文本清洗处理包括大写字符转换、小写字符转换、全角与半角的转换、标点符号剔除中的一种或多种,然后,确定该风险数据所属的语种类别,并获取与该语种类别对应的第三数据切分规则,将获取的第三数据切分规则作为第三自然语言处理规则,基于第三自然语言处理规则对变种防控的风险数据进行切分处理,得到变种防控的风险数据对应的一个或多个第三切分数据,基于预设的第四自然语言处理规则对变种防控的风险数据中包含的预设类型的数据进行切分处理,得到变种防控的风险数据中包含的预设类型的数据对应的一个或多个第四切分数据,基于minhash算法对变种防控的风险数据对应的一个或多个第三切分数据进行向量化处理,得到预设数量的维度、且预设数据位的无符号整数数组构成的第三向量,基于minhash算法对变种防控的风险数据中包含的预设类型的数据对应的一个或多个第四切分数据进行向量化处理,得到预设数量的维度、且预设数据位的无符号整数数组构成的第四向量。
可以将上述得到的目标隐私数据对应的第一向量和目标隐私数据中的预设类型的数据对应的第二向量分别与黑名单中的各个风险数据对应的第三向量和风险数据中的预设类型的数据对应的第四向量进行比对,如果第一向量与第三向量的匹配数量,以及第二向量与第四向量的匹配数量均满足指定的条件,则可以确定黑名单中是否包括目标隐私数据。如果确定黑名单中包括目标隐私数据,则可以对目标隐私数据进行风险防控处理,如果确定黑名单中不包括目标隐私数据,则可以继续执行后续处理。
在实际应用中上述步骤S316的处理可以多种多样,以下提供一种可选的处理方式,具体可以包括以下步骤A2~步骤A6的处理。
在步骤A2中,将第一向量切分为多个向量段,其中,每个向量段的长度相同。
在实施中,可以对目标隐私数据赋予一个唯一的标识,即uuid,该标识用于在隐私保护下无法返回目标隐私数据的场景下用于追溯匹配到哪一条目标隐私数据。将黑名单中的风险数据对应的第三向量切分为相同大小的多个向量段,每个向量段都存入一个哈希表中,该哈希表的索引为上述向量段,该哈希表的值为该风险数据对应的唯一标识。在实际应用中,每个向量段的长度可以为8,向量段的数量可以为64等,具体可以根据实际情况设定,本说明书实施例对此不做限定。相应的,通过相同的处理方式,可以将第一向量切分为相同大小的多个向量段,如将第一向量切分为相同大小的64个向量段,每个向量段的长度可以为8。
在步骤A4中,将第二向量切分为多个向量段,其中,每个向量段的长度相同。
其中,第一向量对应的多个向量段与第二向量对应的多个向量段的数量相同,第一向量对应的多个向量段中的向量段与第二向量对应的多个向量段中的向量段的长度相同。
在实施中,采用与上述相同的处理方式,将第二向量切分为相同大小的多个向量段,如将第二向量切分为相同大小的64个向量段,每个向量段的长度可以为8。
在步骤A6中,分别基于第一向量对应的多个向量段和第二向量对应的多个向量段,从预设的黑名单中包含的风险数据对应的第三向量的多个向量段和黑名单中包含的风险数据中预设类型的数据对应的第四向量的多个向量段中进行检索,以确定黑名单中是否包括目标隐私数据。
在实施中,可以分别到多个上面的哈希表中去寻找是否已有与黑名单中的风险数据拥有相同长度的向量段。如果有,则可以认为目标隐私数据与黑名单中的风险数据的近似度的概率大于(1/b)^(1/r),其中,b为向量段的数量,r为每个向量段的长度,这样,可以将黑名单中与目标隐私数据相似的风险数据进行粗粒度的召回。如果没有匹配到黑名单中的任何风险数据,则可以认为目标隐私数据与黑名单中的任何风险数据都不相似。
在实际应用中,上述步骤A6的处理可以多种多样,以下提供一种可选的处理方式,具体可以包括以下步骤A62和步骤A64的处理。
在步骤A62中,通过第二向量对应的多个向量段中的每个向量段与每个第四向量的多个向量段中的每个向量段之间的相似度进行加权,并基于预设的相似度算法分别计算第一向量对应的多个向量段中的每个向量段与每个第三向量的多个向量段中的每个向量段之间的相似度。
在实施中基于预设的相似度算法分别计算第一向量对应的多个向量段中的每个向量段与每个第三向量的多个向量段中的每个向量段之间的相似度,具体地,可以对召回的黑名单中的风险数据的多维向量进行逐一的汉明距离比对,并通过第二向量对应的多个向量段中的每个向量段与每个第四向量的多个向量段中的每个向量段之间的相似度进行加权,即通过第二向量对应的多个向量段中的每个向量段与每个第四向量的多个向量段中的每个向量段之间的汉明距离进行加权,相应的,相似性的公式为Sim(p1,p2)=Hamming(V_text1,V_text2)*log(1+Hamming(V_num1,V_num2))/log(2),其中,p1和p2分别表示两个比对的向量段,V_text1和V_text2分别表示两个比对的向量段(如第一向量的某个向量段和第三向量的相应向量段),V_num1和V_num2分别表示两个比对的预设类型的数据对应的向量段(如第二向量的某个向量段和第四向量的相应向量段)。
在步骤A64中,基于计算得到的相似度确定黑名单中是否包括目标隐私数据。
通过上述处理,可以找到相似度最高的黑名单中的风险数据,以及对应的标识(即uuid),以上的检索与匹配的过程在数据枢纽上完成,所有计算均脱离目标隐私数据,所以能在保护隐私的前提下完成匹配。
本说明书实施例提供一种基于隐私保护的隐私数据风险防控方法,获取待处理的文本类的目标隐私数据,然后,对目标隐私数据进行内容变种防控处理,并基于预设的第一自然语言处理规则对变种防控的目标隐私数据进行切分处理,得到一个或多个第一切分数据,基于预设的第二自然语言处理规则对变种防控的目标隐私数据中包含的预设类型的数据进行切分处理,得到一个或多个第二切分数据,之后,对第一切分数据进行向量化处理,得到第一向量,并对第二切分数据进行向量化处理,得到第二向量,最终,基于第一向量和第二向量,对目标隐私数据进行风险防控处理,这样,利用数据切分和向量化处理等,将文本类可变长度的数据内容转变为固定长度的数值向量,而且,可以在各个风险域直接将原始文本类的隐私数据转换为数值型向量,且切分过程不可逆,因此,可以保护用户的隐私数据,并且可以进行统一化的比对和处理,以保护原始文本的隐私,此外,通过上述方式,可以提高数据的处理效率。
此外,该方案在各个风险域可以直接将目标隐私数据的文本哈希为512维的数值型向量,且切换过程不可逆,因此,可以保护用户的隐私数据,此外,还可以利用64个哈希表存储所有黑名单的风险数据,检索时效大大提高。
实施例三
本实施例将结合具体的应用场景,对本发明实施例提供的一种基于隐私保护的隐私数据风险防控方法进行详细的阐述,相应的应用场景为跨区域(如不同国家之间)的应用场景,其中,目标隐私信息可以是目标地址,隐私信息可以是地址。
如图4所示,本说明书实施例提供一种基于隐私保护的隐私数据风险防控方法,该方法的执行主体可以为服务器,其中,该服务器可以是独立的一个服务器,还可以是由多个服务器构成的服务器集群等,该服务器可以是如金融业务或网络购物业务等的后台服务器,也可以是某应用程序的后台服务器等。该方法可以应用于某区域内涉及金融领域的相关场景,也可以应用于跨区域的数据交互、验证、风险防控等场景,该方法具体可以包括以下步骤:
在步骤S402中,获取待处理的目标地址。
在步骤S404中,对目标地址进行文本清洗处理,处理后的目标地址作为变种防控的目标地址,其中,文本清洗处理包括大写字符转换、小写字符转换、全角与半角的转换、标点符号剔除中的一种或多种。
在步骤S406中,确定目标地址所属的语种类别,并获取与该语种类别对应的第一数据切分规则,将获取的第一数据切分规则作为第一自然语言处理规则。
在实施中,可以对目标地址所属的语种进行分析,确定目标地址所属的语种类别,如果目标地址所属的语种为中文、日文或韩文等,则可以确定目标地址所属的语种类别为第一语种类,如果目标地址所属的语种不是中文、日文或韩文等,则可以确定目标地址所属的语种类别为第二语种类。基于确定的语种类别,获取与该语种类别对应的第一数据切分规则,具体地,如果目标地址所属的语种类别为第一语种类,则第一数据切分规则可以为基于2-Gram算法构建的规则,如果目标地址所属的语种类别为第二语种类,则第一数据切分规则可以为基于3-Gram算法构建的规则,将获取的第一数据切分规则作为第一自然语言处理规则。
在步骤S408中,基于第一自然语言处理规则对变种防控的目标地址进行切分处理,得到变种防控的目标地址对应的一个或多个第一切分数据。
在步骤S410中,基于预设的第二自然语言处理规则对变种防控的目标地址中包含的数值型数据进行切分处理,得到数值型数据对应的一个或多个第二切分数据。
在步骤S412中,基于minhash算法对变种防控的目标地址对应的一个或多个第一切分数据进行向量化处理,得到512维uint32的第一向量。
在步骤S414中,基于minhash算法对数值型数据对应的一个或多个第二切分数据进行向量化处理,得到512维uint32的第二向量。
在步骤S416中,将第一向量切分为64个向量段,其中,每个向量段的长度为8。
在步骤S418中,将第二向量切分为64个向量段,其中,每个向量段的长度为8。
在步骤S420中,通过第二向量对应的64个向量段中的每个向量段与每个第四向量的64个向量段中的每个向量段之间的相似度进行加权,并基于预设的相似度算法分别计算第一向量对应的64个向量段中的每个向量段与每个第三向量的64个向量段中的每个向量段之间的相似度。
在步骤S422中,基于计算得到的相似度确定黑名单中是否包括目标地址,以对目标地址进行风险防控处理。
本说明书实施例提供一种基于隐私保护的隐私数据风险防控方法,获取待处理的文本类的目标隐私数据,然后,对目标隐私数据进行内容变种防控处理,并基于预设的第一自然语言处理规则对变种防控的目标隐私数据进行切分处理,得到一个或多个第一切分数据,基于预设的第二自然语言处理规则对变种防控的目标隐私数据中包含的预设类型的数据进行切分处理,得到一个或多个第二切分数据,之后,对第一切分数据进行向量化处理,得到第一向量,并对第二切分数据进行向量化处理,得到第二向量,最终,基于第一向量和第二向量,对目标隐私数据进行风险防控处理,这样,利用数据切分和向量化处理等,将文本类可变长度的数据内容转变为固定长度的数值向量,而且,可以在各个风险域直接将原始文本类的隐私数据转换为数值型向量,且切分过程不可逆,因此,可以保护用户的隐私数据,并且可以进行统一化的比对和处理,以保护原始文本的隐私,此外,通过上述方式,可以提高数据的处理效率。
此外,该方案在各个风险域可以直接将目标隐私数据的文本哈希为512维的数值型向量,且切换过程不可逆,因此,可以保护用户的隐私数据,此外,还可以利用64个哈希表存储所有黑名单的风险数据,检索时效大大提高。
实施例四
如图5A和图5B所示,本说明书实施例提供一种基于隐私保护的隐私数据风险防控方法,该方法的执行主体可以为区块链系统,该区块链系统可以由服务器等组成,其中的该服务器可以是为某项业务(如进行交易的业务或金融业务等)或提供某交易对象的访问的后台服务器,具体如,该服务器可以是支付业务的服务器,也可以是与金融或即时通讯等相关业务的服务器等。该方法可以应用于某区域内涉及金融领域的相关场景,也可以应用于跨区域的数据交互、验证、风险防控等场景,该方法具体可以包括以下步骤:
在步骤S502中,获取对文本类的隐私数据进行风险防控的规则信息,基于对文本类的隐私数据进行风险防控的规则信息生成相应的智能合约,并将该智能合约部署到区块链系统中。
其中,智能合约可以是一种旨在以信息化方式传播、验证或执行合同的计算机协议,智能合约允许在没有第三方的情况下进行可信交互,进行的上述交互过程可追踪且不可逆转,智能合约中包括合约参与方可以在上面执行合约参与方同意的权利和义务的协议。
在实施中,为了使得对文本类的隐私数据进行风险防控处理的可追溯性更好,可以创建或加入指定的区块链系统,这样,可以基于区块链系统对文本类的隐私数据进行风险防控处理,具体地,区块链节点中可以安装有相应的应用程序,该应用程序中可以设置有对文本类的隐私数据进行风险防控的规则信息的输入框和/或选择框等,可以在上述输入框和/或选择框中设置相应的信息。然后,区块链系统可以接收对文本类的隐私数据进行风险防控的规则信息。区块链系统可以基于对文本类的隐私数据进行风险防控的规则信息生成相应的智能合约,并可以向该区块链系统中部署该智能合约,这样,区块链系统中存储了对文本类的隐私数据进行风险防控的规则信息和相应的智能合约,其他用户无法篡改对文本类的隐私数据进行风险防控的规则信息和相应的智能合约,而且,区块链系统通过智能合约对文本类的隐私数据进行风险防控处理。
在步骤S504中,在获取到待处理的文本类的目标隐私数据时,调用该智能合约对目标隐私数据进行内容变种防控处理,得到变种防控的目标隐私数据。
在实施中,智能合约中可以设置有对目标隐私数据进行内容变种防控处理的相关规则信息,这样,基于智能合约中的上述规则信息可以实现上述相应的处理,具体可以参见上述相关内容,在此不再赘述。
上述步骤S504的具体处理可以包括多种,以下提供一种可选的处理方式,具体可以包括以下内容:基于该智能合约对目标隐私数据进行文本清洗处理,处理后的目标隐私数据作为变种防控的目标隐私数据,其中,文本清洗处理包括大写字符转换、小写字符转换、全角与半角的转换、标点符号剔除中的一种或多种。
在步骤S506中,基于该智能合约,通过预设的第一自然语言处理规则对变种防控的目标隐私数据进行切分处理,得到变种防控的目标隐私数据对应的一个或多个第一切分数据,并基于预设的第二自然语言处理规则对变种防控的目标隐私数据中包含的预设类型的数据进行切分处理,得到预设类型的数据对应的一个或多个第二切分数据。
在实施中,智能合约中可以设置有通过预设的第一自然语言处理规则对变种防控的目标隐私数据进行切分处理,并基于预设的第二自然语言处理规则对变种防控的目标隐私数据中包含的预设类型的数据进行切分处理的相关规则信息,这样,基于智能合约中的上述规则信息可以实现上述相应的处理,具体可以参见上述相关内容,在此不再赘述。
上述步骤S506的具体处理可以包括多种,以下提供一种可选的处理方式,具体可以包括以下内容:基于该智能合约确定目标隐私数据所属的语种类别,并获取与该语种类别对应的第一数据切分规则,将获取的第一数据切分规则作为第一自然语言处理规则;基于该智能合约和第一自然语言处理规则对变种防控的目标隐私数据进行切分处理,得到变种防控的目标隐私数据对应的一个或多个第一切分数据。
其中,该语种类别包括第一语种类和第二语种类,数据切分规则包括基于N-Gram算法构建的规则,第一语种类对应的数据切分规则为基于2-Gram算法构建的规则,第二语种类对应的数据切分规则为基于3-Gram算法构建的规则。第二自然语言处理规则包括基于N-Gram算法构建的规则,预设类型的数据包括数值型数据。
在步骤S508中,基于该智能合约,对变种防控的目标隐私数据对应的一个或多个第一切分数据进行向量化处理,得到变种防控的目标隐私数据对应的第一向量,并对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,得到预设类型的数据对应的第二向量。
在实施中,智能合约中可以设置有对变种防控的目标隐私数据对应的一个或多个第一切分数据进行向量化处理,并对预设类型的数据对应的一个或多个第二切分数据进行向量化处理的相关规则信息,这样,基于智能合约中的上述规则信息可以实现上述相应的处理,具体可以参见上述相关内容,在此不再赘述。
上述步骤S508的具体处理可以包括多种,以下提供一种可选的处理方式,具体可以包括以下内容:基于该智能合约和minhash算法对变种防控的目标隐私数据对应的一个或多个第一切分数据进行向量化处理,得到预设数量的维度、且预设数据位的无符号整数数组构成的所述第一向量;和/或;基于该智能合约和minhash算法对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,得到预设数量的维度、且预设数据位的无符号整数数组构成的第二向量。
在步骤S510中,基于该智能合约、第一向量和第二向量,对目标隐私数据进行风险防控处理。
在实施中,智能合约中可以设置有基于第一向量和第二向量,对目标隐私数据进行风险防控处理的相关规则信息,这样,基于智能合约中的上述规则信息可以实现上述相应的处理,具体可以参见上述相关内容,在此不再赘述。
上述步骤S510的具体处理可以包括多种,以下提供一种可选的处理方式,具体可以包括以下内容:分别基于该智能合约、第一向量和第二向量,从预设的黑名单中包含的风险数据对应的第三向量和黑名单中包含的风险数据中预设类型的数据对应的第四向量中进行检索,以确定黑名单中是否包括目标隐私数据,并基于检索结果对目标隐私数据进行风险防控处理。
上述具体处理可以包括多种,以下提供一种可选的处理方式,具体可以包括以下内容:基于该智能合约将第一向量切分为多个向量段,其中,每个向量段的长度相同;基于该智能合约将第二向量切分为多个向量段,其中,每个向量段的长度相同;分别基于该智能合约、第一向量对应的多个向量段和第二向量对应的多个向量段,从预设的黑名单中包含的风险数据对应的第三向量的多个向量段和黑名单中包含的风险数据中预设类型的数据对应的第四向量的多个向量段中进行检索,以确定黑名单中是否包括目标隐私数据。
其中,第一向量对应的多个向量段与第二向量对应的多个向量段的数量相同,第一向量对应的多个向量段中的向量段与第二向量对应的多个向量段中的向量段的长度相同。
上述分别基于该智能合约、第一向量对应的多个向量段和第二向量对应的多个向量段,从预设的黑名单中包含的风险数据对应的第三向量的多个向量段和黑名单中包含的风险数据中预设类型的数据对应的第四向量的多个向量段中进行检索,以确定黑名单中是否包括目标隐私数据的具体处理可以包括多种,以下提供一种可选的处理方式,具体可以包括以下内容:基于该智能合约,通过第二向量对应的多个向量段中的每个向量段与每个第四向量的多个向量段中的每个向量段之间的相似度进行加权,并基于预设的相似度算法分别计算第一向量对应的多个向量段中的每个向量段与每个第三向量的多个向量段中的每个向量段之间的相似度;基于该智能合约和计算得到的相似度确定黑名单中是否包括目标隐私数据。
上述步骤S504~步骤S510的具体处理,可以参见上述实施例一~实施例三中的相关内容,即可以通过智能合约,实现如上述实施例一~实施例三中的涉及的各种处理。
本说明书实施例提供一种基于隐私保护的隐私数据风险防控方法,应用于区块链系统,获取对文本类的隐私数据进行风险防控的规则信息,基于对文本类的隐私数据进行风险防控的规则信息生成相应的智能合约,并将智能合约部署到所述区块链系统中,在获取到待处理的文本类的目标隐私数据时,调用智能合约对目标隐私数据进行内容变种防控处理,并基于智能合约和预设的第一自然语言处理规则对变种防控的目标隐私数据进行切分处理,得到一个或多个第一切分数据,基于预设的第二自然语言处理规则对变种防控的目标隐私数据中包含的预设类型的数据进行切分处理,得到一个或多个第二切分数据,之后,对第一切分数据进行向量化处理,得到第一向量,并对第二切分数据进行向量化处理,得到第二向量,最终,基于第一向量和第二向量,对目标隐私数据进行风险防控处理,这样,利用数据切分和向量化处理等,将文本类可变长度的数据内容转变为固定长度的数值向量,而且,可以在各个风险域直接将原始文本类的隐私数据转换为数值型向量,且切分过程不可逆,因此,可以保护用户的隐私数据,并且可以进行统一化的比对和处理,以保护原始文本的隐私,此外,通过上述方式,可以提高数据的处理效率。
此外,该方案在各个风险域可以直接将目标隐私数据的文本哈希为512维的数值型向量,且切换过程不可逆,因此,可以保护用户的隐私数据,此外,还可以利用64个哈希表存储所有黑名单的风险数据,检索时效大大提高。
实施例五
以上为本说明书实施例提供的基于隐私保护的隐私数据风险防控方法,基于同样的思路,本说明书实施例还提供一种基于隐私保护的隐私数据风险防控装置,如图6所示。
该基于隐私保护的隐私数据风险防控装置包括:隐私获取模块601、变种防控模块602、切分模块603、向量化模块604和风险防控模块605,其中:
隐私获取模块601,获取待处理的文本类的目标隐私数据;
变种防控模块602,对所述目标隐私数据进行内容变种防控处理,得到变种防控的所述目标隐私数据;
切分模块603,基于预设的第一自然语言处理规则对变种防控的所述目标隐私数据进行切分处理,得到变种防控的所述目标隐私数据对应的一个或多个第一切分数据,并基于预设的第二自然语言处理规则对变种防控的所述目标隐私数据中包含的预设类型的数据进行切分处理,得到预设类型的数据对应的一个或多个第二切分数据;
向量化模块604,对变种防控的所述目标隐私数据对应的一个或多个第一切分数据进行向量化处理,得到变种防控的所述目标隐私数据对应的第一向量,并对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,得到预设类型的数据对应的第二向量;
风险防控模块605,基于所述第一向量和所述第二向量,对所述目标隐私数据进行风险防控处理。
本说明书实施例中,所述风险防控模块605,分别基于所述第一向量和所述第二向量,从预设的黑名单中包含的风险数据对应的第三向量和所述黑名单中包含的风险数据中预设类型的数据对应的第四向量中进行检索,以确定所述黑名单中是否包括所述目标隐私数据,并基于检索结果对所述目标隐私数据进行风险防控处理。
本说明书实施例中,所述风险防控模块605,包括:
第一向量切分单元,将所述第一向量切分为多个向量段,其中,每个所述向量段的长度相同;
第二向量切分单元,将所述第二向量切分为多个向量段,其中,每个所述向量段的长度相同;
检索单元,分别基于所述第一向量对应的多个向量段和所述第二向量对应的多个向量段,从预设的黑名单中包含的风险数据对应的第三向量的多个向量段和所述黑名单中包含的风险数据中预设类型的数据对应的第四向量的多个向量段中进行检索,以确定所述黑名单中是否包括所述目标隐私数据。
本说明书实施例中,所述检索单元,通过所述第二向量对应的多个向量段中的每个向量段与每个所述第四向量的多个向量段中的每个向量段之间的相似度进行加权,并基于预设的相似度算法分别计算所述第一向量对应的多个向量段中的每个向量段与每个所述第三向量的多个向量段中的每个向量段之间的相似度;基于计算得到的相似度确定所述黑名单中是否包括所述目标隐私数据。
本说明书实施例中,所述第一向量对应的多个向量段与所述第二向量对应的多个向量段的数量相同,所述第一向量对应的多个向量段中的向量段与所述第二向量对应的多个向量段中的向量段的长度相同。
本说明书实施例中,所述变种防控模块602,对所述目标隐私数据进行文本清洗处理,处理后的所述目标隐私数据作为变种防控的所述目标隐私数据,其中,文本清洗处理包括大写字符转换、小写字符转换、全角与半角的转换、标点符号剔除中的一种或多种。
本说明书实施例中,所述切分模块603,包括:
语种确定单元,确定所述目标隐私数据所属的语种类别,并获取与所述语种类别对应的第一数据切分规则,将获取的所述第一数据切分规则作为第一自然语言处理规则;
切分单元,基于所述第一自然语言处理规则对变种防控的所述目标隐私数据进行切分处理,得到变种防控的所述目标隐私数据对应的一个或多个第一切分数据。
本说明书实施例中,所述语种类别包括第一语种类和第二语种类,数据切分规则包括基于N-Gram算法构建的规则,所述第一语种类对应的数据切分规则为基于2-Gram算法构建的规则,所述第二语种类对应的数据切分规则为基于3-Gram算法构建的规则。
本说明书实施例中,所述第二自然语言处理规则包括基于N-Gram算法构建的规则,所述预设类型的数据包括数值型数据。
本说明书实施例中,所述向量化模块604,包括:
第一向量化单元,基于minhash算法对变种防控的所述目标隐私数据对应的一个或多个第一切分数据进行向量化处理,得到预设数量的维度、且预设数据位的无符号整数数组构成的所述第一向量;
和/或;
第二向量化单元,基于minhash算法对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,得到预设数量的维度、且预设数据位的无符号整数数组构成的所述第二向量。
本说明书实施例提供一种基于隐私保护的隐私数据风险防控装置,获取待处理的文本类的目标隐私数据,然后,对目标隐私数据进行内容变种防控处理,并基于预设的第一自然语言处理规则对变种防控的目标隐私数据进行切分处理,得到一个或多个第一切分数据,基于预设的第二自然语言处理规则对变种防控的目标隐私数据中包含的预设类型的数据进行切分处理,得到一个或多个第二切分数据,之后,对第一切分数据进行向量化处理,得到第一向量,并对第二切分数据进行向量化处理,得到第二向量,最终,基于第一向量和第二向量,对目标隐私数据进行风险防控处理,这样,利用数据切分和向量化处理等,将文本类可变长度的数据内容转变为固定长度的数值向量,而且,可以在各个风险域直接将原始文本类的隐私数据转换为数值型向量,且切分过程不可逆,因此,可以保护用户的隐私数据,并且可以进行统一化的比对和处理,以保护原始文本的隐私,此外,通过上述方式,可以提高数据的处理效率。
此外,该方案在各个风险域可以直接将目标隐私数据的文本哈希为512维的数值型向量,且切换过程不可逆,因此,可以保护用户的隐私数据,此外,还可以利用64个哈希表存储所有黑名单的风险数据,检索时效大大提高。
实施例六
基于同样的思路,本说明书实施例还提供一种基于隐私保护的隐私数据风险防控装置,该装置为区块链系统中的装置,如图7所示。
该基于隐私保护的隐私数据风险防控装置包括:合约部署模块701、变种防控模块702、切分模块703、向量化模块704和风险防控模块705,其中:
合约部署模块701,获取对文本类的隐私数据进行风险防控的规则信息,基于对文本类的隐私数据进行风险防控的规则信息生成相应的智能合约,并将所述智能合约部署到所述区块链系统中;
变种防控模块702,在获取到待处理的文本类的目标隐私数据时,调用所述智能合约对所述目标隐私数据进行内容变种防控处理,得到变种防控的所述目标隐私数据;
切分模块703,基于所述智能合约,通过预设的第一自然语言处理规则对变种防控的所述目标隐私数据进行切分处理,得到变种防控的所述目标隐私数据对应的一个或多个第一切分数据,并基于预设的第二自然语言处理规则对变种防控的所述目标隐私数据中包含的预设类型的数据进行切分处理,得到预设类型的数据对应的一个或多个第二切分数据;
向量化模块704,基于所述智能合约,对变种防控的所述目标隐私数据对应的一个或多个第一切分数据进行向量化处理,得到变种防控的所述目标隐私数据对应的第一向量,并对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,得到预设类型的数据对应的第二向量;
风险防控模块705,基于所述智能合约、所述第一向量和所述第二向量,对所述目标隐私数据进行风险防控处理。
本说明书实施例中,所述风险防控模块705,分别基于所述智能合约、所述第一向量和所述第二向量,从预设的黑名单中包含的风险数据对应的第三向量和所述黑名单中包含的风险数据中预设类型的数据对应的第四向量中进行检索,以确定所述黑名单中是否包括所述目标隐私数据,并基于检索结果对所述目标隐私数据进行风险防控处理。
本说明书实施例中,所述风险防控模块705,基于所述智能合约将所述第一向量切分为多个向量段,其中,每个所述向量段的长度相同;基于所述智能合约将所述第二向量切分为多个向量段,其中,每个所述向量段的长度相同;分别基于所述智能合约、所述第一向量对应的多个向量段和所述第二向量对应的多个向量段,从预设的黑名单中包含的风险数据对应的第三向量的多个向量段和所述黑名单中包含的风险数据中预设类型的数据对应的第四向量的多个向量段中进行检索,以确定所述黑名单中是否包括所述目标隐私数据。
本说明书实施例中,所述风险防控模块705,基于所述智能合约,通过所述第二向量对应的多个向量段中的每个向量段与每个所述第四向量的多个向量段中的每个向量段之间的相似度进行加权,并基于预设的相似度算法分别计算所述第一向量对应的多个向量段中的每个向量段与每个所述第三向量的多个向量段中的每个向量段之间的相似度;基于所述智能合约和计算得到的相似度确定所述黑名单中是否包括所述目标隐私数据。
本说明书实施例中,所述第一向量对应的多个向量段与所述第二向量对应的多个向量段的数量相同,所述第一向量对应的多个向量段中的向量段与所述第二向量对应的多个向量段中的向量段的长度相同。
本说明书实施例中,所述变种防控模块702,基于所述智能合约对所述目标隐私数据进行文本清洗处理,处理后的所述目标隐私数据作为变种防控的所述目标隐私数据,其中,文本清洗处理包括大写字符转换、小写字符转换、全角与半角的转换、标点符号剔除中的一种或多种。
本说明书实施例中,所述切分模块703,基于所述智能合约确定所述目标隐私数据所属的语种类别,并获取与所述语种类别对应的第一数据切分规则,将获取的所述第一数据切分规则作为第一自然语言处理规则;基于所述智能合约和所述第一自然语言处理规则对变种防控的所述目标隐私数据进行切分处理,得到变种防控的所述目标隐私数据对应的一个或多个第一切分数据。
本说明书实施例中,所述语种类别包括第一语种类和第二语种类,数据切分规则包括基于N-Gram算法构建的规则,所述第一语种类对应的数据切分规则为基于2-Gram算法构建的规则,所述第二语种类对应的数据切分规则为基于3-Gram算法构建的规则。
本说明书实施例中,所述第二自然语言处理规则包括基于N-Gram算法构建的规则,所述预设类型的数据包括数值型数据。
本说明书实施例中,所述向量化模块704,基于所述智能合约和minhash算法对变种防控的所述目标隐私数据对应的一个或多个第一切分数据进行向量化处理,得到预设数量的维度、且预设数据位的无符号整数数组构成的所述第一向量;和/或;基于所述智能合约和minhash算法对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,得到预设数量的维度、且预设数据位的无符号整数数组构成的所述第二向量。
本说明书实施例提供一种基于隐私保护的隐私数据风险防控装置,获取待处理的文本类的目标隐私数据,然后,对目标隐私数据进行内容变种防控处理,并基于预设的第一自然语言处理规则对变种防控的目标隐私数据进行切分处理,得到一个或多个第一切分数据,基于预设的第二自然语言处理规则对变种防控的目标隐私数据中包含的预设类型的数据进行切分处理,得到一个或多个第二切分数据,之后,对第一切分数据进行向量化处理,得到第一向量,并对第二切分数据进行向量化处理,得到第二向量,最终,基于第一向量和第二向量,对目标隐私数据进行风险防控处理,这样,利用数据切分和向量化处理等,将文本类可变长度的数据内容转变为固定长度的数值向量,而且,可以在各个风险域直接将原始文本类的隐私数据转换为数值型向量,且切分过程不可逆,因此,可以保护用户的隐私数据,并且可以进行统一化的比对和处理,以保护原始文本的隐私,此外,通过上述方式,可以提高数据的处理效率。
此外,该方案在各个风险域可以直接将目标隐私数据的文本哈希为512维的数值型向量,且切换过程不可逆,因此,可以保护用户的隐私数据,此外,还可以利用64个哈希表存储所有黑名单的风险数据,检索时效大大提高。
实施例七
以上为本说明书实施例提供的基于隐私保护的隐私数据风险防控装置,基于同样的思路,本说明书实施例还提供一种基于隐私保护的隐私数据风险防控设备,如图8所示。
所述基于隐私保护的隐私数据风险防控设备可以为上述实施例提供服务器或区块链系统中的设备等。
基于隐私保护的隐私数据风险防控设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器801和存储器802,存储器802中可以存储有一个或一个以上存储应用程序或数据。其中,存储器802可以是短暂存储或持久存储。存储在存储器802的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对基于隐私保护的隐私数据风险防控设备中的一系列计算机可执行指令。更进一步地,处理器801可以设置为与存储器802通信,在基于隐私保护的隐私数据风险防控设备上执行存储器802中的一系列计算机可执行指令。基于隐私保护的隐私数据风险防控设备还可以包括一个或一个以上电源803,一个或一个以上有线或无线网络接口804,一个或一个以上输入输出接口805,一个或一个以上键盘806。
具体在本实施例中,基于隐私保护的隐私数据风险防控设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对基于隐私保护的隐私数据风险防控设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取待处理的文本类的目标隐私数据;
对所述目标隐私数据进行内容变种防控处理,得到变种防控的所述目标隐私数据;
基于预设的第一自然语言处理规则对变种防控的所述目标隐私数据进行切分处理,得到变种防控的所述目标隐私数据对应的一个或多个第一切分数据,并基于预设的第二自然语言处理规则对变种防控的所述目标隐私数据中包含的预设类型的数据进行切分处理,得到预设类型的数据对应的一个或多个第二切分数据;
对变种防控的所述目标隐私数据对应的一个或多个第一切分数据进行向量化处理,得到变种防控的所述目标隐私数据对应的第一向量,并对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,得到预设类型的数据对应的第二向量;
基于所述第一向量和所述第二向量,对所述目标隐私数据进行风险防控处理。
本说明书实施例中,所述基于所述第一向量和所述第二向量,对所述目标隐私数据进行风险防控处理,包括:
分别基于所述第一向量和所述第二向量,从预设的黑名单中包含的风险数据对应的第三向量和所述黑名单中包含的风险数据中预设类型的数据对应的第四向量中进行检索,以确定所述黑名单中是否包括所述目标隐私数据,并基于检索结果对所述目标隐私数据进行风险防控处理。
本说明书实施例中,所述分别基于所述第一向量和所述第二向量,从预设的黑名单中包含的风险数据对应的第三向量和所述黑名单中包含的风险数据中预设类型的数据对应的第四向量中进行检索,以确定所述黑名单中是否包括所述目标隐私数据,包括:
将所述第一向量切分为多个向量段,其中,每个所述向量段的长度相同;
将所述第二向量切分为多个向量段,其中,每个所述向量段的长度相同;
分别基于所述第一向量对应的多个向量段和所述第二向量对应的多个向量段,从预设的黑名单中包含的风险数据对应的第三向量的多个向量段和所述黑名单中包含的风险数据中预设类型的数据对应的第四向量的多个向量段中进行检索,以确定所述黑名单中是否包括所述目标隐私数据。
本说明书实施例中,所述分别基于所述第一向量对应的多个向量段和所述第二向量对应的多个向量段,从预设的黑名单中包含的风险数据对应的第三向量的多个向量段和所述黑名单中包含的风险数据中预设类型的数据对应的第四向量的多个向量段中进行检索,以确定所述黑名单中是否包括所述目标隐私数据,包括:
通过所述第二向量对应的多个向量段中的每个向量段与每个所述第四向量的多个向量段中的每个向量段之间的相似度进行加权,并基于预设的相似度算法分别计算所述第一向量对应的多个向量段中的每个向量段与每个所述第三向量的多个向量段中的每个向量段之间的相似度;
基于计算得到的相似度确定所述黑名单中是否包括所述目标隐私数据。
本说明书实施例中,所述第一向量对应的多个向量段与所述第二向量对应的多个向量段的数量相同,所述第一向量对应的多个向量段中的向量段与所述第二向量对应的多个向量段中的向量段的长度相同。
本说明书实施例中,所述对所述目标隐私数据进行内容变种防控处理,得到变种防控的所述目标隐私数据,包括:
对所述目标隐私数据进行文本清洗处理,处理后的所述目标隐私数据作为变种防控的所述目标隐私数据,其中,文本清洗处理包括大写字符转换、小写字符转换、全角与半角的转换、标点符号剔除中的一种或多种。
本说明书实施例中,所述基于预设的第一自然语言处理规则对变种防控的所述目标隐私数据进行切分处理,得到变种防控的所述目标隐私数据对应的一个或多个第一切分数据,包括:
确定所述目标隐私数据所属的语种类别,并获取与所述语种类别对应的第一数据切分规则,将获取的所述第一数据切分规则作为第一自然语言处理规则;
基于所述第一自然语言处理规则对变种防控的所述目标隐私数据进行切分处理,得到变种防控的所述目标隐私数据对应的一个或多个第一切分数据。
本说明书实施例中,所述语种类别包括第一语种类和第二语种类,数据切分规则包括基于N-Gram算法构建的规则,所述第一语种类对应的数据切分规则为基于2-Gram算法构建的规则,所述第二语种类对应的数据切分规则为基于3-Gram算法构建的规则。
本说明书实施例中,所述第二自然语言处理规则包括基于N-Gram算法构建的规则,所述预设类型的数据包括数值型数据。
本说明书实施例中,所述对变种防控的所述目标隐私数据对应的一个或多个第一切分数据进行向量化处理,得到变种防控的所述目标隐私数据对应的第一向量,包括:
基于minhash算法对变种防控的所述目标隐私数据对应的一个或多个第一切分数据进行向量化处理,得到预设数量的维度、且预设数据位的无符号整数数组构成的所述第一向量;
和/或;
所述对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,得到预设类型的数据对应的第二向量,包括:
基于minhash算法对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,得到预设数量的维度、且预设数据位的无符号整数数组构成的所述第二向量。
具体在本实施例中,基于隐私保护的隐私数据风险防控设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对基于隐私保护的隐私数据风险防控设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取对文本类的隐私数据进行风险防控的规则信息,基于对文本类的隐私数据进行风险防控的规则信息生成相应的智能合约,并将所述智能合约部署到区块链系统中;
在获取到待处理的文本类的目标隐私数据时,调用所述智能合约对所述目标隐私数据进行内容变种防控处理,得到变种防控的所述目标隐私数据;
基于所述智能合约,通过预设的第一自然语言处理规则对变种防控的所述目标隐私数据进行切分处理,得到变种防控的所述目标隐私数据对应的一个或多个第一切分数据,并基于预设的第二自然语言处理规则对变种防控的所述目标隐私数据中包含的预设类型的数据进行切分处理,得到预设类型的数据对应的一个或多个第二切分数据;
基于所述智能合约,对变种防控的所述目标隐私数据对应的一个或多个第一切分数据进行向量化处理,得到变种防控的所述目标隐私数据对应的第一向量,并对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,得到预设类型的数据对应的第二向量;
基于所述智能合约、所述第一向量和所述第二向量,对所述目标隐私数据进行风险防控处理。
本说明书实施例提供一种基于隐私保护的隐私数据风险防控设备,获取待处理的文本类的目标隐私数据,然后,对目标隐私数据进行内容变种防控处理,并基于预设的第一自然语言处理规则对变种防控的目标隐私数据进行切分处理,得到一个或多个第一切分数据,基于预设的第二自然语言处理规则对变种防控的目标隐私数据中包含的预设类型的数据进行切分处理,得到一个或多个第二切分数据,之后,对第一切分数据进行向量化处理,得到第一向量,并对第二切分数据进行向量化处理,得到第二向量,最终,基于第一向量和第二向量,对目标隐私数据进行风险防控处理,这样,利用数据切分和向量化处理等,将文本类可变长度的数据内容转变为固定长度的数值向量,而且,可以在各个风险域直接将原始文本类的隐私数据转换为数值型向量,且切分过程不可逆,因此,可以保护用户的隐私数据,并且可以进行统一化的比对和处理,以保护原始文本的隐私,此外,通过上述方式,可以提高数据的处理效率。
此外,该方案在各个风险域可以直接将目标隐私数据的文本哈希为512维的数值型向量,且切换过程不可逆,因此,可以保护用户的隐私数据,此外,还可以利用64个哈希表存储所有黑名单的风险数据,检索时效大大提高。
实施例八
进一步地,基于上述图1到图5B所示的方法,本说明书一个或多个实施例还提供了一种存储介质,用于存储计算机可执行指令信息,一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令信息在被处理器执行时,能实现以下流程:
获取待处理的文本类的目标隐私数据;
对所述目标隐私数据进行内容变种防控处理,得到变种防控的所述目标隐私数据;
基于预设的第一自然语言处理规则对变种防控的所述目标隐私数据进行切分处理,得到变种防控的所述目标隐私数据对应的一个或多个第一切分数据,并基于预设的第二自然语言处理规则对变种防控的所述目标隐私数据中包含的预设类型的数据进行切分处理,得到预设类型的数据对应的一个或多个第二切分数据;
对变种防控的所述目标隐私数据对应的一个或多个第一切分数据进行向量化处理,得到变种防控的所述目标隐私数据对应的第一向量,并对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,得到预设类型的数据对应的第二向量;
基于所述第一向量和所述第二向量,对所述目标隐私数据进行风险防控处理。
本说明书实施例中,所述基于所述第一向量和所述第二向量,对所述目标隐私数据进行风险防控处理,包括:
分别基于所述第一向量和所述第二向量,从预设的黑名单中包含的风险数据对应的第三向量和所述黑名单中包含的风险数据中预设类型的数据对应的第四向量中进行检索,以确定所述黑名单中是否包括所述目标隐私数据,并基于检索结果对所述目标隐私数据进行风险防控处理。
本说明书实施例中,所述分别基于所述第一向量和所述第二向量,从预设的黑名单中包含的风险数据对应的第三向量和所述黑名单中包含的风险数据中预设类型的数据对应的第四向量中进行检索,以确定所述黑名单中是否包括所述目标隐私数据,包括:
将所述第一向量切分为多个向量段,其中,每个所述向量段的长度相同;
将所述第二向量切分为多个向量段,其中,每个所述向量段的长度相同;
分别基于所述第一向量对应的多个向量段和所述第二向量对应的多个向量段,从预设的黑名单中包含的风险数据对应的第三向量的多个向量段和所述黑名单中包含的风险数据中预设类型的数据对应的第四向量的多个向量段中进行检索,以确定所述黑名单中是否包括所述目标隐私数据。
本说明书实施例中,所述分别基于所述第一向量对应的多个向量段和所述第二向量对应的多个向量段,从预设的黑名单中包含的风险数据对应的第三向量的多个向量段和所述黑名单中包含的风险数据中预设类型的数据对应的第四向量的多个向量段中进行检索,以确定所述黑名单中是否包括所述目标隐私数据,包括:
通过所述第二向量对应的多个向量段中的每个向量段与每个所述第四向量的多个向量段中的每个向量段之间的相似度进行加权,并基于预设的相似度算法分别计算所述第一向量对应的多个向量段中的每个向量段与每个所述第三向量的多个向量段中的每个向量段之间的相似度;
基于计算得到的相似度确定所述黑名单中是否包括所述目标隐私数据。
本说明书实施例中,所述第一向量对应的多个向量段与所述第二向量对应的多个向量段的数量相同,所述第一向量对应的多个向量段中的向量段与所述第二向量对应的多个向量段中的向量段的长度相同。
本说明书实施例中,所述对所述目标隐私数据进行内容变种防控处理,得到变种防控的所述目标隐私数据,包括:
对所述目标隐私数据进行文本清洗处理,处理后的所述目标隐私数据作为变种防控的所述目标隐私数据,其中,文本清洗处理包括大写字符转换、小写字符转换、全角与半角的转换、标点符号剔除中的一种或多种。
本说明书实施例中,所述基于预设的第一自然语言处理规则对变种防控的所述目标隐私数据进行切分处理,得到变种防控的所述目标隐私数据对应的一个或多个第一切分数据,包括:
确定所述目标隐私数据所属的语种类别,并获取与所述语种类别对应的第一数据切分规则,将获取的所述第一数据切分规则作为第一自然语言处理规则;
基于所述第一自然语言处理规则对变种防控的所述目标隐私数据进行切分处理,得到变种防控的所述目标隐私数据对应的一个或多个第一切分数据。
本说明书实施例中,所述语种类别包括第一语种类和第二语种类,数据切分规则包括基于N-Gram算法构建的规则,所述第一语种类对应的数据切分规则为基于2-Gram算法构建的规则,所述第二语种类对应的数据切分规则为基于3-Gram算法构建的规则。
本说明书实施例中,所述第二自然语言处理规则包括基于N-Gram算法构建的规则,所述预设类型的数据包括数值型数据。
本说明书实施例中,所述对变种防控的所述目标隐私数据对应的一个或多个第一切分数据进行向量化处理,得到变种防控的所述目标隐私数据对应的第一向量,包括:
基于minhash算法对变种防控的所述目标隐私数据对应的一个或多个第一切分数据进行向量化处理,得到预设数量的维度、且预设数据位的无符号整数数组构成的所述第一向量;
和/或;
所述对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,得到预设类型的数据对应的第二向量,包括:
基于minhash算法对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,得到预设数量的维度、且预设数据位的无符号整数数组构成的所述第二向量。
在另一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令信息在被处理器执行时,能实现以下流程:
获取对文本类的隐私数据进行风险防控的规则信息,基于对文本类的隐私数据进行风险防控的规则信息生成相应的智能合约,并将所述智能合约部署到所述区块链系统中;
在获取到待处理的文本类的目标隐私数据时,调用所述智能合约对所述目标隐私数据进行内容变种防控处理,得到变种防控的所述目标隐私数据;
基于所述智能合约,通过预设的第一自然语言处理规则对变种防控的所述目标隐私数据进行切分处理,得到变种防控的所述目标隐私数据对应的一个或多个第一切分数据,并基于预设的第二自然语言处理规则对变种防控的所述目标隐私数据中包含的预设类型的数据进行切分处理,得到预设类型的数据对应的一个或多个第二切分数据;
基于所述智能合约,对变种防控的所述目标隐私数据对应的一个或多个第一切分数据进行向量化处理,得到变种防控的所述目标隐私数据对应的第一向量,并对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,得到预设类型的数据对应的第二向量;
基于所述智能合约、所述第一向量和所述第二向量,对所述目标隐私数据进行风险防控处理。
本说明书实施例提供一种存储介质,获取待处理的文本类的目标隐私数据,然后,对目标隐私数据进行内容变种防控处理,并基于预设的第一自然语言处理规则对变种防控的目标隐私数据进行切分处理,得到一个或多个第一切分数据,基于预设的第二自然语言处理规则对变种防控的目标隐私数据中包含的预设类型的数据进行切分处理,得到一个或多个第二切分数据,之后,对第一切分数据进行向量化处理,得到第一向量,并对第二切分数据进行向量化处理,得到第二向量,最终,基于第一向量和第二向量,对目标隐私数据进行风险防控处理,这样,利用数据切分和向量化处理等,将文本类可变长度的数据内容转变为固定长度的数值向量,而且,可以在各个风险域直接将原始文本类的隐私数据转换为数值型向量,且切分过程不可逆,因此,可以保护用户的隐私数据,并且可以进行统一化的比对和处理,以保护原始文本的隐私,此外,通过上述方式,可以提高数据的处理效率。
此外,该方案在各个风险域可以直接将目标隐私数据的文本哈希为512维的数值型向量,且切换过程不可逆,因此,可以保护用户的隐私数据,此外,还可以利用64个哈希表存储所有黑名单的风险数据,检索时效大大提高。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书的实施例是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程欺诈案例的串并设备的处理器以产生一个机器,使得通过计算机或其他可编程欺诈案例的串并设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程欺诈案例的串并设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程欺诈案例的串并设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (17)

1.一种基于隐私保护的隐私数据风险防控方法,所述方法包括:
获取待处理的文本类的目标隐私数据;
对所述目标隐私数据进行内容变种防控处理,得到变种防控的所述目标隐私数据;
基于预设的第一自然语言处理规则对变种防控的所述目标隐私数据进行切分处理,得到变种防控的所述目标隐私数据对应的一个或多个第一切分数据,并基于预设的第二自然语言处理规则对变种防控的所述目标隐私数据中包含的预设类型的数据进行切分处理,得到预设类型的数据对应的一个或多个第二切分数据;
对变种防控的所述目标隐私数据对应的一个或多个第一切分数据进行向量化处理,得到变种防控的所述目标隐私数据对应的第一向量,并对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,得到预设类型的数据对应的第二向量;
基于所述第一向量和所述第二向量,对所述目标隐私数据进行风险防控处理。
2.根据权利要求1所述的方法,所述基于所述第一向量和所述第二向量,对所述目标隐私数据进行风险防控处理,包括:
分别基于所述第一向量和所述第二向量,从预设的黑名单中包含的风险数据对应的第三向量和所述黑名单中包含的风险数据中预设类型的数据对应的第四向量中进行检索,以确定所述黑名单中是否包括所述目标隐私数据,并基于检索结果对所述目标隐私数据进行风险防控处理。
3.根据权利要求2所述的方法,所述分别基于所述第一向量和所述第二向量,从预设的黑名单中包含的风险数据对应的第三向量和所述黑名单中包含的风险数据中预设类型的数据对应的第四向量中进行检索,以确定所述黑名单中是否包括所述目标隐私数据,包括:
将所述第一向量切分为多个向量段,其中,每个所述向量段的长度相同;
将所述第二向量切分为多个向量段,其中,每个所述向量段的长度相同;
分别基于所述第一向量对应的多个向量段和所述第二向量对应的多个向量段,从预设的黑名单中包含的风险数据对应的第三向量的多个向量段和所述黑名单中包含的风险数据中预设类型的数据对应的第四向量的多个向量段中进行检索,以确定所述黑名单中是否包括所述目标隐私数据。
4.根据权利要求3所述的方法,所述分别基于所述第一向量对应的多个向量段和所述第二向量对应的多个向量段,从预设的黑名单中包含的风险数据对应的第三向量的多个向量段和所述黑名单中包含的风险数据中预设类型的数据对应的第四向量的多个向量段中进行检索,以确定所述黑名单中是否包括所述目标隐私数据,包括:
通过所述第二向量对应的多个向量段中的每个向量段与每个所述第四向量的多个向量段中的每个向量段之间的相似度进行加权,并基于预设的相似度算法分别计算所述第一向量对应的多个向量段中的每个向量段与每个所述第三向量的多个向量段中的每个向量段之间的相似度;
基于计算得到的相似度确定所述黑名单中是否包括所述目标隐私数据。
5.根据权利要求4所述的方法,所述第一向量对应的多个向量段与所述第二向量对应的多个向量段的数量相同,所述第一向量对应的多个向量段中的向量段与所述第二向量对应的多个向量段中的向量段的长度相同。
6.根据权利要求1-5中任一项所述的方法,所述对所述目标隐私数据进行内容变种防控处理,得到变种防控的所述目标隐私数据,包括:
对所述目标隐私数据进行文本清洗处理,处理后的所述目标隐私数据作为变种防控的所述目标隐私数据,其中,文本清洗处理包括大写字符转换、小写字符转换、全角与半角的转换、标点符号剔除中的一种或多种。
7.根据权利要求6所述的方法,所述基于预设的第一自然语言处理规则对变种防控的所述目标隐私数据进行切分处理,得到变种防控的所述目标隐私数据对应的一个或多个第一切分数据,包括:
确定所述目标隐私数据所属的语种类别,并获取与所述语种类别对应的第一数据切分规则,将获取的所述第一数据切分规则作为第一自然语言处理规则;
基于所述第一自然语言处理规则对变种防控的所述目标隐私数据进行切分处理,得到变种防控的所述目标隐私数据对应的一个或多个第一切分数据。
8.根据权利要求7所述的方法,所述语种类别包括第一语种类和第二语种类,数据切分规则包括基于N-Gram算法构建的规则,所述第一语种类对应的数据切分规则为基于2-Gram算法构建的规则,所述第二语种类对应的数据切分规则为基于3-Gram算法构建的规则。
9.根据权利要求6所述的方法,所述第二自然语言处理规则包括基于N-Gram算法构建的规则,所述预设类型的数据包括数值型数据。
10.根据权利要求1所述的方法,所述对变种防控的所述目标隐私数据对应的一个或多个第一切分数据进行向量化处理,得到变种防控的所述目标隐私数据对应的第一向量,包括:
基于minhash算法对变种防控的所述目标隐私数据对应的一个或多个第一切分数据进行向量化处理,得到预设数量的维度、且预设数据位的无符号整数数组构成的所述第一向量;
和/或;
所述对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,得到预设类型的数据对应的第二向量,包括:
基于minhash算法对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,得到预设数量的维度、且预设数据位的无符号整数数组构成的所述第二向量。
11.一种基于隐私保护的隐私数据风险防控方法,应用于区块链系统,所述方法包括:
获取对文本类的隐私数据进行风险防控的规则信息,基于对文本类的隐私数据进行风险防控的规则信息生成相应的智能合约,并将所述智能合约部署到所述区块链系统中;
在获取到待处理的文本类的目标隐私数据时,调用所述智能合约对所述目标隐私数据进行内容变种防控处理,得到变种防控的所述目标隐私数据;
基于所述智能合约,通过预设的第一自然语言处理规则对变种防控的所述目标隐私数据进行切分处理,得到变种防控的所述目标隐私数据对应的一个或多个第一切分数据,并基于预设的第二自然语言处理规则对变种防控的所述目标隐私数据中包含的预设类型的数据进行切分处理,得到预设类型的数据对应的一个或多个第二切分数据;
基于所述智能合约,对变种防控的所述目标隐私数据对应的一个或多个第一切分数据进行向量化处理,得到变种防控的所述目标隐私数据对应的第一向量,并对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,得到预设类型的数据对应的第二向量;
基于所述智能合约、所述第一向量和所述第二向量,对所述目标隐私数据进行风险防控处理。
12.一种基于隐私保护的隐私数据风险防控装置,所述装置包括:
隐私获取模块,获取待处理的文本类的目标隐私数据;
变种防控模块,对所述目标隐私数据进行内容变种防控处理,得到变种防控的所述目标隐私数据;
切分模块,基于预设的第一自然语言处理规则对变种防控的所述目标隐私数据进行切分处理,得到变种防控的所述目标隐私数据对应的一个或多个第一切分数据,并基于预设的第二自然语言处理规则对变种防控的所述目标隐私数据中包含的预设类型的数据进行切分处理,得到预设类型的数据对应的一个或多个第二切分数据;
向量化模块,对变种防控的所述目标隐私数据对应的一个或多个第一切分数据进行向量化处理,得到变种防控的所述目标隐私数据对应的第一向量,并对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,得到预设类型的数据对应的第二向量;
风险防控模块,基于所述第一向量和所述第二向量,对所述目标隐私数据进行风险防控处理。
13.一种基于隐私保护的隐私数据风险防控装置,所述装置为区块链系统中的装置,所述装置包括:
合约部署模块,获取对文本类的隐私数据进行风险防控的规则信息,基于对文本类的隐私数据进行风险防控的规则信息生成相应的智能合约,并将所述智能合约部署到所述区块链系统中;
变种防控模块,在获取到待处理的文本类的目标隐私数据时,调用所述智能合约对所述目标隐私数据进行内容变种防控处理,得到变种防控的所述目标隐私数据;
切分模块,基于所述智能合约,通过预设的第一自然语言处理规则对变种防控的所述目标隐私数据进行切分处理,得到变种防控的所述目标隐私数据对应的一个或多个第一切分数据,并基于预设的第二自然语言处理规则对变种防控的所述目标隐私数据中包含的预设类型的数据进行切分处理,得到预设类型的数据对应的一个或多个第二切分数据;
向量化模块,基于所述智能合约,对变种防控的所述目标隐私数据对应的一个或多个第一切分数据进行向量化处理,得到变种防控的所述目标隐私数据对应的第一向量,并对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,得到预设类型的数据对应的第二向量;
风险防控模块,基于所述智能合约、所述第一向量和所述第二向量,对所述目标隐私数据进行风险防控处理。
14.一种基于隐私保护的隐私数据风险防控设备,所述基于隐私保护的隐私数据风险防控设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取待处理的文本类的目标隐私数据;
对所述目标隐私数据进行内容变种防控处理,得到变种防控的所述目标隐私数据;
基于预设的第一自然语言处理规则对变种防控的所述目标隐私数据进行切分处理,得到变种防控的所述目标隐私数据对应的一个或多个第一切分数据,并基于预设的第二自然语言处理规则对变种防控的所述目标隐私数据中包含的预设类型的数据进行切分处理,得到预设类型的数据对应的一个或多个第二切分数据;
对变种防控的所述目标隐私数据对应的一个或多个第一切分数据进行向量化处理,得到变种防控的所述目标隐私数据对应的第一向量,并对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,得到预设类型的数据对应的第二向量;
基于所述第一向量和所述第二向量,对所述目标隐私数据进行风险防控处理。
15.一种基于隐私保护的隐私数据风险防控设备,所述设备为区块链系统中的设备,所述基于隐私保护的隐私数据风险防控设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取对文本类的隐私数据进行风险防控的规则信息,基于对文本类的隐私数据进行风险防控的规则信息生成相应的智能合约,并将所述智能合约部署到所述区块链系统中;
在获取到待处理的文本类的目标隐私数据时,调用所述智能合约对所述目标隐私数据进行内容变种防控处理,得到变种防控的所述目标隐私数据;
基于所述智能合约,通过预设的第一自然语言处理规则对变种防控的所述目标隐私数据进行切分处理,得到变种防控的所述目标隐私数据对应的一个或多个第一切分数据,并基于预设的第二自然语言处理规则对变种防控的所述目标隐私数据中包含的预设类型的数据进行切分处理,得到预设类型的数据对应的一个或多个第二切分数据;
基于所述智能合约,对变种防控的所述目标隐私数据对应的一个或多个第一切分数据进行向量化处理,得到变种防控的所述目标隐私数据对应的第一向量,并对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,得到预设类型的数据对应的第二向量;
基于所述智能合约、所述第一向量和所述第二向量,对所述目标隐私数据进行风险防控处理。
16.一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被处理器执行时实现以下流程:
获取待处理的文本类的目标隐私数据;
对所述目标隐私数据进行内容变种防控处理,得到变种防控的所述目标隐私数据;
基于预设的第一自然语言处理规则对变种防控的所述目标隐私数据进行切分处理,得到变种防控的所述目标隐私数据对应的一个或多个第一切分数据,并基于预设的第二自然语言处理规则对变种防控的所述目标隐私数据中包含的预设类型的数据进行切分处理,得到预设类型的数据对应的一个或多个第二切分数据;
对变种防控的所述目标隐私数据对应的一个或多个第一切分数据进行向量化处理,得到变种防控的所述目标隐私数据对应的第一向量,并对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,得到预设类型的数据对应的第二向量;
基于所述第一向量和所述第二向量,对所述目标隐私数据进行风险防控处理。
17.一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被处理器执行时实现以下流程:
获取对文本类的隐私数据进行风险防控的规则信息,基于对文本类的隐私数据进行风险防控的规则信息生成相应的智能合约,并将所述智能合约部署到区块链系统中;
在获取到待处理的文本类的目标隐私数据时,调用所述智能合约对所述目标隐私数据进行内容变种防控处理,得到变种防控的所述目标隐私数据;
基于所述智能合约,通过预设的第一自然语言处理规则对变种防控的所述目标隐私数据进行切分处理,得到变种防控的所述目标隐私数据对应的一个或多个第一切分数据,并基于预设的第二自然语言处理规则对变种防控的所述目标隐私数据中包含的预设类型的数据进行切分处理,得到预设类型的数据对应的一个或多个第二切分数据;
基于所述智能合约,对变种防控的所述目标隐私数据对应的一个或多个第一切分数据进行向量化处理,得到变种防控的所述目标隐私数据对应的第一向量,并对预设类型的数据对应的一个或多个第二切分数据进行向量化处理,得到预设类型的数据对应的第二向量;
基于所述智能合约、所述第一向量和所述第二向量,对所述目标隐私数据进行风险防控处理。
CN202111326404.6A 2021-11-10 2021-11-10 一种基于隐私保护的隐私数据风险防控方法、装置及设备 Pending CN114168995A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111326404.6A CN114168995A (zh) 2021-11-10 2021-11-10 一种基于隐私保护的隐私数据风险防控方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111326404.6A CN114168995A (zh) 2021-11-10 2021-11-10 一种基于隐私保护的隐私数据风险防控方法、装置及设备

Publications (1)

Publication Number Publication Date
CN114168995A true CN114168995A (zh) 2022-03-11

Family

ID=80478575

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111326404.6A Pending CN114168995A (zh) 2021-11-10 2021-11-10 一种基于隐私保护的隐私数据风险防控方法、装置及设备

Country Status (1)

Country Link
CN (1) CN114168995A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118506955A (zh) * 2024-07-19 2024-08-16 西南医科大学附属医院 一种用于医疗康复的用户康复数据的处理方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118506955A (zh) * 2024-07-19 2024-08-16 西南医科大学附属医院 一种用于医疗康复的用户康复数据的处理方法及系统

Similar Documents

Publication Publication Date Title
CN106055574B (zh) 一种识别非法统一资源标识符url的方法与装置
CN112200132B (zh) 一种基于隐私保护的数据处理方法、装置及设备
CN111930809A (zh) 数据处理方法、装置及设备
CN114429222A (zh) 一种模型的训练方法、装置及设备
CN112199416A (zh) 数据规则生成方法及装置
CN115238250B (zh) 一种模型的处理方法、装置及设备
CN110502902A (zh) 一种漏洞分类方法、装置及设备
CN114417411A (zh) 一种端云开发系统、模型的处理方法、装置及设备
CN114819614A (zh) 数据处理方法、装置、系统及设备
CN116049761A (zh) 数据处理方法、装置及设备
CN114168995A (zh) 一种基于隐私保护的隐私数据风险防控方法、装置及设备
CN109492401B (zh) 一种内容载体风险检测方法、装置、设备及介质
CN113961704A (zh) 一种基于文本的风险防控处理方法、装置及设备
CN113221717A (zh) 一种基于隐私保护的模型构建方法、装置及设备
CN111538925B (zh) 统一资源定位符url指纹特征的提取方法及装置
CN112883192A (zh) 一种异构领域用户与资源关联挖掘方法及系统
CN110443007B (zh) 一种多媒体数据的溯源检测方法、装置及设备
CN113992429B (zh) 一种事件的处理方法、装置及设备
An et al. Deep learning based webshell detection coping with long text and lexical ambiguity
CN113989043A (zh) 一种事件的风险识别方法、装置及设备
CN111552706B (zh) 一种舆情信息的分组方法、装置及设备
CN115204395A (zh) 数据的处理方法、装置及设备
CN112925955A (zh) 一种信息的处理方法、装置及设备
CN117271653B (zh) 一种多维度专利地图构建方法与系统
Průša Complexity of Two-Dimensional Rank-Reducing Grammars

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination