CN112632600A - 非侵入式数据脱敏方法、装置、计算机设备及存储介质 - Google Patents

非侵入式数据脱敏方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112632600A
CN112632600A CN202011483721.4A CN202011483721A CN112632600A CN 112632600 A CN112632600 A CN 112632600A CN 202011483721 A CN202011483721 A CN 202011483721A CN 112632600 A CN112632600 A CN 112632600A
Authority
CN
China
Prior art keywords
data
response data
sensitive
desensitization
response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011483721.4A
Other languages
English (en)
Inventor
肖来龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An International Smart City Technology Co Ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN202011483721.4A priority Critical patent/CN112632600A/zh
Publication of CN112632600A publication Critical patent/CN112632600A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • H04L67/63Routing a service request depending on the request content or context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2107File encryption

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种非侵入式数据脱敏方法、装置、计算机设备及存储介质,涉及人工智能技术领域。所述方法包括:将终端的访问请求转发给服务器;若接收到服务器返回的应答数据,获取应答数据的类别;根据应答数据的类别从预设的类别‑策略对应表获取应答数据的敏感数据检测策略;根据敏感数据检测策略判断应答数据中是否包含敏感数据;若应答数据中包含敏感数据,对应答数据进行脱敏处理以得到脱敏数据,并将脱敏数据发送给终端,从而能够避免了敏感数据的泄露。同时,以上数据脱敏过程在网关设备中进行,可灵活配置数据检测算法和保护策略,无需对后端应用系统进行改造,不会侵入到后端应用系统中,不会影响后端应用系统的正常业务流程。

Description

非侵入式数据脱敏方法、装置、计算机设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种非侵入式数据脱敏方法、装置、计算机设备及存储介质。
背景技术
当今是信息社会,每天都在产生海量数据,数据是一种重要资产,要保证数据安全需要从各方面入手,包括数据存储安全、传输安全和数据被合法使用。
为了确保数据安全需要对数据进行脱敏处理,现有技术中通常在后端应用系统中对数据进行脱敏处理。然而,在后端应用系统中进行数据脱敏需要对后端应用系统进行改造,其改造的工作量巨大,且会影响后端应用系统的正常业务过程。
发明内容
本发明实施例提供了一种非侵入式数据脱敏方法、装置、计算机设备及存储介质,旨在解决现有数据脱敏方法需要对后端应用系统进行改造且会影响后端应用系统的正常业务过程的问题。
第一方面,本发明实施例提供了一种非侵入式数据脱敏方法,所述非侵入式数据脱敏方法应用于网关设备中,所述非侵入式数据脱敏方法包括:
若接收到终端发送的访问请求,将所述访问请求转发给服务器;
若接收到服务器返回的应答数据,获取所述应答数据的类别;
根据所述应答数据的类别从预设的类别-策略对应表获取所述应答数据的敏感数据检测策略,所述类别-策略对应表用于记录应答数据的类别与应答数据的敏感数据检测策略之间的映射关系;
根据所述敏感数据检测策略判断所述应答数据中是否包含敏感数据;
若所述应答数据中包含敏感数据,对应答数据进行脱敏处理以得到脱敏数据,并将所述脱敏数据发送给终端。
第二方面,本发明实施例还提供了一种非侵入式数据脱敏装置,所述非侵入式数据脱敏装置应用于网关设备中,所述非侵入式数据脱敏装置包括:
转发单元,用于若接收到终端发送的访问请求,将所述访问请求转发给服务器;
第一获取单元,用于若接收到服务器返回的应答数据,获取所述应答数据的类别;
第二获取单元,用于根据所述应答数据的类别从预设的类别-策略对应表获取所述应答数据的敏感数据检测策略,所述类别-策略对应表用于记录应答数据的类别与应答数据的敏感数据检测策略之间的映射关系;
判断单元,用于根据所述敏感数据检测策略判断所述应答数据中是否包含敏感数据;
脱敏单元,用于若所述应答数据中包含敏感数据,对应答数据进行脱敏处理以得到脱敏数据,并将所述脱敏数据发送给终端。
第三方面,本发明实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现上述方法。
本发明实施例提供了一种非侵入式数据脱敏方法、装置、计算机设备及存储介质。其中,所述方法包括:若接收到终端发送的访问请求,将所述访问请求转发给服务器;若接收到服务器返回的应答数据,获取所述应答数据的类别;根据所述应答数据的类别从预设的类别-策略对应表获取所述应答数据的敏感数据检测策略,所述类别-策略对应表用于记录应答数据的类别与应答数据的敏感数据检测策略之间的映射关系;根据所述敏感数据检测策略判断所述应答数据中是否包含敏感数据;若所述应答数据中包含敏感数据,对应答数据进行脱敏处理以得到脱敏数据,并将所述脱敏数据发送给终端。本发明的方案能够实现对敏感数据进行脱敏操作,避免了敏感数据的泄露,保护了用户隐私。同时,以上数据脱敏过程在网关设备中进行,可灵活配置数据检测算法和保护策略,无需对后端应用系统进行改造,不会侵入到后端应用系统中,不会影响后端应用系统的正常业务流程。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种非侵入式数据脱敏方法的应用场景示意图;
图2为本发明实施例提供的一种非侵入式数据脱敏方法的流程示意图;
图3为本发明实施例提供的一种非侵入式数据脱敏方法的子流程示意图;
图4为本发明实施例提供的一种非侵入式数据脱敏方法的子流程示意图;
图5为本发明实施例提供的一种非侵入式数据脱敏方法的子流程示意图;
图6为本发明实施例提供的一种非侵入式数据脱敏方法的子流程示意图;
图7为本发明实施例提供的一种非侵入式数据脱敏方法的子流程示意图;
图8为本发明实施例提供的一种非侵入式数据脱敏装置的示意性框图;
图9为本发明实施例提供的一种计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
请参阅图1和图2,图1为本发明实施例提供的非侵入式数据脱敏方法的应用场景示意图。图2为本发明实施例提供的非侵入式数据脱敏方法的示意性流程图。该非侵入式数据脱敏方法应用于网关设备20中。若接收到终端10发送的访问请求,网关设备20将所述访问请求转发给服务器30;若接收到服务器30返回的应答数据,网关设备20获取所述应答数据的类别;网关设备20根据所述应答数据的类别从预设的类别-策略对应表获取所述应答数据的敏感数据检测策略,所述类别-策略对应表用于记录应答数据的类别与应答数据的敏感数据检测策略之间的映射关系;网关设备20根据所述敏感数据检测策略判断所述应答数据中是否包含敏感数据;若所述应答数据中包含敏感数据,网关设备20对应答数据进行脱敏处理以得到脱敏数据,并将所述脱敏数据发送给终端10。
图2是本发明实施例提供的非侵入式数据脱敏方法的流程示意图。本发明可应用于智慧政务/智慧城管/智慧社区/智慧安防/智慧物流/智慧医疗/智慧教育/智慧环保/智慧交通场景中,从而推动智慧城市的建设。如图所示,该方法包括以下步骤S1-S5。
S1,若接收到终端发送的访问请求,将所述访问请求转发给服务器。
具体实施中,本发明提出的技术方案应用在网关设备中。如果接收到终端发送的访问请求,网关设备将所述访问请求转发给服务器。
具体地,访问请求中包含服务器的IP地址,网关设备根据该IP地址将访问请求转发给相应地服务器。
S2,若接收到服务器返回的应答数据,获取所述应答数据的类别。
具体实施中,如果接收到服务器返回的应答数据,网关设备获取所述应答数据的类别。应答数据的类别预先由用户设定,例如,应答数据的类别可根据应答数据的来源划分,即应答数据来自哪个服务器(该服务器指后端应用系统的服务器),应答数据来自哪个接口,甚至是应答数据来自哪个具有特定接口参数的接口。或者,应答数据的类别可根据应答数据的格式划分,格式可例如为JSON格式。
应答数据的类别的划分方式,可由本领域技术人员根据实际情况进行设定,对此本发明不作具体限定。
参见图3,在一实施例中,以上步骤S2具体包括如下步骤:
S21,获取所述应答数据的唯一标识符。
具体实施中,网关设备获取所述应答数据的唯一标识符。唯一标识符可具体为应答数据的URL(Uniform Resource Locator,统一资源定位符)。
URL是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。
S22,根据所述应答数据的唯一标识符从预设的标识-类别对应表中获取所述应答数据的类别,所述标识-类别对应表用于记录应答数据的唯一标识符与所述应答数据的类别之间的映射关系。
具体实施中,预先构建标识-类别对应表。标识-类别对应表用于记录应答数据的唯一标识符与所述应答数据的类别之间的映射关系。
在获取到应答数据的唯一标识符后,根据应答数据的唯一标识符到标识-类别对应表中查询应答数据的类别。
S3,根据所述应答数据的类别从预设的类别-策略对应表获取所述应答数据的敏感数据检测策略,所述类别-策略对应表用于记录应答数据的类别与应答数据的敏感数据检测策略之间的映射关系。
具体实施中,应答数据的类别对应的敏感数据检测策略是预先由本领域技术人员设定。每一类别的应答数据至少对应一种敏感数据检测策略。比如可以选择只检测返回数据格式是JSON的数据,可以只检测应用系统A的数据而对其他应用系统的数据放行,还可以配置针对接口1检测是否含有敏感手机号,针对接口2则检测是否含有敏感手机号和身份证。
预先构建类别-策略对应表。所述类别-策略对应表用于记录应答数据的类别与应答数据的敏感数据检测策略之间的映射关系。网关设备在确定了所述应答数据的类别后,进一步根据所述应答数据的类别从预设的类别-策略对应表中查询所述应答数据的敏感数据检测策略。
S4,根据所述敏感数据检测策略判断所述应答数据中是否包含敏感数据。
具体实施中,敏感数据检测策略是指敏感数据的检测方式。针对不同类型的敏感数据,其检测方式是不相同的。可以理解地,敏感数据检测策略是由本领域技术人员配置在网关设备中,并且可以根据实际情况进行变更。
参见图4,在一实施例中,所述敏感数据检测策略为身份证信息检测策略,身份证信息检测策略即只检测应答数据中是否包含身份证信息。以上步骤S4具体包括如下步骤:
S41,判断所述应答数据中是否包含长度为第一预设长度的第一数字字符串。
具体实施中,由于身份证信息为18位数字字符串,因此可设定第一预设长度为18位。即判断应答数据中是否包含长度为18位的第一数字字符串。
S42,若所述应答数据中包含长度为第一预设长度的第一数字字符串,判断所述第一数字字符串是否储存在预设的身份证数据库中。
具体实施中,预先在身份证数据库中储存需要保护的身份证信息。并判断检测到的第一数字字符串是否储存在预设的身份证数据库中,若是,则说明第一数字字符串是受保护的敏感数据。
S43,若所述第一数字字符串在预设的身份证数据库中,判定所述应答数据中包含敏感数据。
具体实施中,如果所述第一数字字符串在预设的身份证数据库中,判定所述应答数据中包含敏感数据。该敏感数据即为所述第一数字字符串。
参见图5,在一实施例中,所述敏感数据检测策略为手机号信息检测策略,手机号信息检测策略即只检测应答数据中是否包含手机号信息。以上步骤S4具体包括如下步骤:
S51,判断所述应答数据中是否包含长度为第二预设长度的第二数字字符串。
具体实施中,由于手机号信息为11位数字字符串,因此可设定第二预设长度为11位。即判断应答数据中是否包含长度为11位的第二数字字符串。
S52,若所述应答数据中包含长度为第二预设长度的第二数字字符串,判断所述第二数字字符串是否储存在预设的手机号数据库中。
具体实施中,预先在手机号数据库中储存需要保护的手机号信息。并判断检测到的第二数字字符串是否储存在预设的手机号数据库中,若是,则说明第二数字字符串是受保护的敏感数据。
S53,若所述第二数字字符串在预设的手机号数据库中,判定所述应答数据中包含敏感数据。
具体实施中,如果所述第二数字字符串在预设的手机号数据库中,判定所述应答数据中包含敏感数据。该敏感数据即为所述第二数字字符串。
参见图6,在一实施例中,所述敏感数据检测策略为全面检测策略,全面检测策略即全面检测所述应答数据中的敏感数据。以上步骤S4具体包括如下步骤:
S61,对所述应答数据进行分词处理以得到候选词。
具体实施中,分词处理是指将应答数据划分成若干个词语。分词处理可通过分词工具执行。对所述应答数据进行分词处理得到的词语可作为候选词。
参见图7,在一实施例中,以上步骤S61具体包括如下步骤:
S611通过预设的分词工具对所述应答数据进行分词处理以得到分词集合。
具体实施中,分词工具可例如为jieba分词工具。通过预设的分词工具对所述应答数据进行分词处理以得到分词集合。分词集合中包含对所述应答数据进行分词处理后得到的词语。
S612将所述分词集合中的停止词去除,并将分词集合中剩余的词语作为所述候选词。
具体实施中,停止词(stop word),常为介词、副词或连词等。例如,"在"、"里面"、"也"、"的"、"它"、"为"等都为停止词。
因此,将所述分词集合中的停止词去除,并将分词集合中剩余的词语作为所述候选词。
S62,将所述候选词输入到预训练的文本分类模型中,以由所述文本分类模型预测所述候选词的标签,所述标签包括敏感信息以及非敏感信息。
具体实施中,预先通过大量的标注的样本对文本分类模型进行训练,使得文本分类模型具备识别候选词的标签的能力。标签具体包括敏感信息以及非敏感信息。
在对文本分类模型训练结束后,将所述候选词输入到预训练的文本分类模型中,以由所述文本分类模型预测所述候选词的标签。
需要说明的是,所述文本分类模型可具体为BERT(Bidirectional EncoderRepresentation from Transformers,双向编码表示变换模型)。
S63,若候选词的标签为敏感信息,则判定应答数据中包含敏感数据。
具体实施中,如果候选词的标签为敏感信息,则判定应答数据中包含敏感数据。即,该候选词为敏感数据。
S5,若所述应答数据中包含敏感数据,对应答数据进行脱敏处理以得到脱敏数据,并将所述脱敏数据发送给终端。
具体实施中,如果所述应答数据中包含敏感数据,对应答数据进行脱敏处理以得到脱敏数据,并将所述脱敏数据发送给终端。通过对应答数据进行脱敏处理得到脱敏数据,确保了数据的安全性,避免了数据泄露,保护了用户隐私。
在一实施例中,以上步骤S5具体包括如下步骤:将所述应答数据中的敏感数据替换为预设的脱敏字符。
脱敏字符由本领域技术人员预先设定,本发明对此不做具体限定。
在一实施例中,以上步骤S5具体包括如下步骤:对所述应答数据中的敏感数据进行加密处理。在本实施例中,仅仅对应答数据中的敏感数据进行加密处理。
在一实施例中,以上步骤S5具体包括如下步骤:对所述应答数据整体进行加密处理。在本实施例中,是将所述应答数据作为整体进行加密处理。
本发明能带来的有益效果包括:
本发明的方案能够实现对敏感数据进行脱敏操作,避免了敏感数据的泄露,保护了用户隐私。同时,以上数据脱敏过程在网关设备中进行,可灵活配置数据检测算法和保护策略,无需对后端应用系统进行改造,不会侵入到后端应用系统中,不会影响后端应用系统的正常业务流程。
参见图8,图8是本发明实施例提供的一种非侵入式数据脱敏装置70的示意性框图。对应于以上非侵入式数据脱敏方法,本发明还提供一种非侵入式数据脱敏装置70。该非侵入式数据脱敏装置70包括用于执行上述非侵入式数据脱敏方法的单元,该非侵入式数据脱敏装置70应用于网关设备中。具体地,该非侵入式数据脱敏装置70包括转发单元71、第一获取单元72、第二获取单元73、判断单元74以及脱敏单元75。
转发单元71,用于若接收到终端发送的访问请求,将所述访问请求转发给服务器;
第一获取单元72,用于若接收到服务器返回的应答数据,获取所述应答数据的类别;
第二获取单元73,用于根据所述应答数据的类别从预设的类别-策略对应表获取所述应答数据的敏感数据检测策略,所述类别-策略对应表用于记录应答数据的类别与应答数据的敏感数据检测策略之间的映射关系;
判断单元74,用于根据所述敏感数据检测策略判断所述应答数据中是否包含敏感数据;
脱敏单元75,用于若所述应答数据中包含敏感数据,对应答数据进行脱敏处理以得到脱敏数据,并将所述脱敏数据发送给终端。
在一实施例中,所述获取所述应答数据的类别,包括:
获取所述应答数据的唯一标识符;
根据所述应答数据的唯一标识符从预设的标识-类别对应表中获取所述应答数据的类别,所述标识-类别对应表用于记录应答数据的唯一标识符与所述应答数据的类别之间的映射关系。
在一实施例中,所述敏感数据检测策略为身份证信息检测策略,所述根据所述敏感数据检测策略判断所述应答数据中是否包含敏感数据,包括:
判断所述应答数据中是否包含长度为第一预设长度的第一数字字符串;
若所述应答数据中包含长度为第一预设长度的第一数字字符串,判断所述第一数字字符串是否储存在预设的身份证数据库中;
若所述第一数字字符串在预设的身份证数据库中,判定所述应答数据中包含敏感数据。
在一实施例中,所述敏感数据检测策略为手机号信息检测策略,所述根据所述敏感数据检测策略判断所述应答数据中是否包含敏感数据,包括:
判断所述应答数据中是否包含长度为第二预设长度的第二数字字符串;
若所述应答数据中包含长度为第二预设长度的第二数字字符串,判断所述第二数字字符串是否储存在预设的手机号数据库中;
若所述第二数字字符串在预设的手机号数据库中,判定所述应答数据中包含敏感数据。
在一实施例中,所述敏感数据检测策略为全面检测策略,所述根据所述敏感数据检测策略判断所述应答数据中是否包含敏感数据,包括:
对所述应答数据进行分词处理以得到候选词;
将所述候选词输入到预训练的文本分类模型中,以由所述文本分类模型预测所述候选词的标签,所述标签包括敏感信息以及非敏感信息;
若候选词的标签为敏感信息,则判定应答数据中包含敏感数据。
在一实施例中,所述对所述应答数据进行分词处理以得到候选词,包括:
通过预设的分词工具对所述应答数据进行分词处理以得到分词集合;
将所述分词集合中的停止词去除,并将分词集合中剩余的词语作为所述候选词。
在一实施例中,所述对应答数据进行脱敏处理得到脱敏数据,包括:
将所述应答数据中的敏感数据替换为预设的脱敏字符,或,对所述应答数据中的敏感数据进行加密处理,或,对所述应答数据整体进行加密处理。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述非侵入式数据脱敏装置70和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述非侵入式数据脱敏装置70可以实现为一种计算机程序的形式,该计算机程序可以在如图9所示的计算机设备上运行。
请参阅图9,图9是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500是网关设备。
该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行一种非侵入式数据脱敏方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种非侵入式数据脱敏方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,上述结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
若接收到终端发送的访问请求,将所述访问请求转发给服务器;
若接收到服务器返回的应答数据,获取所述应答数据的类别;
根据所述应答数据的类别从预设的类别-策略对应表获取所述应答数据的敏感数据检测策略,所述类别-策略对应表用于记录应答数据的类别与应答数据的敏感数据检测策略之间的映射关系;
根据所述敏感数据检测策略判断所述应答数据中是否包含敏感数据;
若所述应答数据中包含敏感数据,对应答数据进行脱敏处理以得到脱敏数据,并将所述脱敏数据发送给终端。
在一实施例中,所述获取所述应答数据的类别,包括:
获取所述应答数据的唯一标识符;
根据所述应答数据的唯一标识符从预设的标识-类别对应表中获取所述应答数据的类别,所述标识-类别对应表用于记录应答数据的唯一标识符与所述应答数据的类别之间的映射关系。
在一实施例中,所述敏感数据检测策略为身份证信息检测策略,所述根据所述敏感数据检测策略判断所述应答数据中是否包含敏感数据,包括:
判断所述应答数据中是否包含长度为第一预设长度的第一数字字符串;
若所述应答数据中包含长度为第一预设长度的第一数字字符串,判断所述第一数字字符串是否储存在预设的身份证数据库中;
若所述第一数字字符串在预设的身份证数据库中,判定所述应答数据中包含敏感数据。
在一实施例中,所述敏感数据检测策略为手机号信息检测策略,所述根据所述敏感数据检测策略判断所述应答数据中是否包含敏感数据,包括:
判断所述应答数据中是否包含长度为第二预设长度的第二数字字符串;
若所述应答数据中包含长度为第二预设长度的第二数字字符串,判断所述第二数字字符串是否储存在预设的手机号数据库中;
若所述第二数字字符串在预设的手机号数据库中,判定所述应答数据中包含敏感数据。
在一实施例中,所述敏感数据检测策略为全面检测策略,所述根据所述敏感数据检测策略判断所述应答数据中是否包含敏感数据,包括:
对所述应答数据进行分词处理以得到候选词;
将所述候选词输入到预训练的文本分类模型中,以由所述文本分类模型预测所述候选词的标签,所述标签包括敏感信息以及非敏感信息;
若候选词的标签为敏感信息,则判定应答数据中包含敏感数据。
在一实施例中,所述对所述应答数据进行分词处理以得到候选词,包括:
通过预设的分词工具对所述应答数据进行分词处理以得到分词集合;
将所述分词集合中的停止词去除,并将分词集合中剩余的词语作为所述候选词。
在一实施例中,所述对应答数据进行脱敏处理得到脱敏数据,包括:
将所述应答数据中的敏感数据替换为预设的脱敏字符,或,对所述应答数据中的敏感数据进行加密处理,或,对所述应答数据整体进行加密处理。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序。该计算机程序被处理器执行时使处理器执行如下步骤:
若接收到终端发送的访问请求,将所述访问请求转发给服务器;
若接收到服务器返回的应答数据,获取所述应答数据的类别;
根据所述应答数据的类别从预设的类别-策略对应表获取所述应答数据的敏感数据检测策略,所述类别-策略对应表用于记录应答数据的类别与应答数据的敏感数据检测策略之间的映射关系;
根据所述敏感数据检测策略判断所述应答数据中是否包含敏感数据;
若所述应答数据中包含敏感数据,对应答数据进行脱敏处理以得到脱敏数据,并将所述脱敏数据发送给终端。
在一实施例中,所述获取所述应答数据的类别,包括:
获取所述应答数据的唯一标识符;
根据所述应答数据的唯一标识符从预设的标识-类别对应表中获取所述应答数据的类别,所述标识-类别对应表用于记录应答数据的唯一标识符与所述应答数据的类别之间的映射关系。
在一实施例中,所述敏感数据检测策略为身份证信息检测策略,所述根据所述敏感数据检测策略判断所述应答数据中是否包含敏感数据,包括:
判断所述应答数据中是否包含长度为第一预设长度的第一数字字符串;
若所述应答数据中包含长度为第一预设长度的第一数字字符串,判断所述第一数字字符串是否储存在预设的身份证数据库中;
若所述第一数字字符串在预设的身份证数据库中,判定所述应答数据中包含敏感数据。
在一实施例中,所述敏感数据检测策略为手机号信息检测策略,所述根据所述敏感数据检测策略判断所述应答数据中是否包含敏感数据,包括:
判断所述应答数据中是否包含长度为第二预设长度的第二数字字符串;
若所述应答数据中包含长度为第二预设长度的第二数字字符串,判断所述第二数字字符串是否储存在预设的手机号数据库中;
若所述第二数字字符串在预设的手机号数据库中,判定所述应答数据中包含敏感数据。
在一实施例中,所述敏感数据检测策略为全面检测策略,所述根据所述敏感数据检测策略判断所述应答数据中是否包含敏感数据,包括:
对所述应答数据进行分词处理以得到候选词;
将所述候选词输入到预训练的文本分类模型中,以由所述文本分类模型预测所述候选词的标签,所述标签包括敏感信息以及非敏感信息;
若候选词的标签为敏感信息,则判定应答数据中包含敏感数据。
在一实施例中,所述对所述应答数据进行分词处理以得到候选词,包括:
通过预设的分词工具对所述应答数据进行分词处理以得到分词集合;
将所述分词集合中的停止词去除,并将分词集合中剩余的词语作为所述候选词。
在一实施例中,所述对应答数据进行脱敏处理得到脱敏数据,包括:
将所述应答数据中的敏感数据替换为预设的脱敏字符,或,对所述应答数据中的敏感数据进行加密处理,或,对所述应答数据整体进行加密处理。
所述存储介质为实体的、非瞬时性的存储介质,例如可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。所述计算机可读存储介质可以是非易失性,也可以是易失性。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,尚且本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种非侵入式数据脱敏方法,其特征在于,应用于网关设备中,所述非侵入式数据脱敏方法包括:
若接收到终端发送的访问请求,将所述访问请求转发给服务器;
若接收到服务器返回的应答数据,获取所述应答数据的类别;
根据所述应答数据的类别从预设的类别-策略对应表获取所述应答数据的敏感数据检测策略,所述类别-策略对应表用于记录应答数据的类别与应答数据的敏感数据检测策略之间的映射关系;
根据所述敏感数据检测策略判断所述应答数据中是否包含敏感数据;
若所述应答数据中包含敏感数据,对应答数据进行脱敏处理以得到脱敏数据,并将所述脱敏数据发送给终端。
2.根据权利要求1所述的非侵入式数据脱敏方法,其特征在于,所述获取所述应答数据的类别,包括:
获取所述应答数据的唯一标识符;
根据所述应答数据的唯一标识符从预设的标识-类别对应表中获取所述应答数据的类别,所述标识-类别对应表用于记录应答数据的唯一标识符与所述应答数据的类别之间的映射关系。
3.根据权利要求1所述的非侵入式数据脱敏方法,其特征在于,所述敏感数据检测策略为身份证信息检测策略,所述根据所述敏感数据检测策略判断所述应答数据中是否包含敏感数据,包括:
判断所述应答数据中是否包含长度为第一预设长度的第一数字字符串;
若所述应答数据中包含长度为第一预设长度的第一数字字符串,判断所述第一数字字符串是否储存在预设的身份证数据库中;
若所述第一数字字符串在预设的身份证数据库中,判定所述应答数据中包含敏感数据。
4.根据权利要求1所述的非侵入式数据脱敏方法,其特征在于,所述敏感数据检测策略为手机号信息检测策略,所述根据所述敏感数据检测策略判断所述应答数据中是否包含敏感数据,包括:
判断所述应答数据中是否包含长度为第二预设长度的第二数字字符串;
若所述应答数据中包含长度为第二预设长度的第二数字字符串,判断所述第二数字字符串是否储存在预设的手机号数据库中;
若所述第二数字字符串在预设的手机号数据库中,判定所述应答数据中包含敏感数据。
5.根据权利要求1所述的非侵入式数据脱敏方法,其特征在于,所述敏感数据检测策略为全面检测策略,所述根据所述敏感数据检测策略判断所述应答数据中是否包含敏感数据,包括:
对所述应答数据进行分词处理以得到候选词;
将所述候选词输入到预训练的文本分类模型中,以由所述文本分类模型预测所述候选词的标签,所述标签包括敏感信息以及非敏感信息;
若候选词的标签为敏感信息,则判定应答数据中包含敏感数据。
6.根据权利要求5所述的非侵入式数据脱敏方法,其特征在于,所述对所述应答数据进行分词处理以得到候选词,包括:
通过预设的分词工具对所述应答数据进行分词处理以得到分词集合;
将所述分词集合中的停止词去除,并将分词集合中剩余的词语作为所述候选词。
7.根据权利要求1所述的非侵入式数据脱敏方法,其特征在于,所述对应答数据进行脱敏处理得到脱敏数据,包括:
将所述应答数据中的敏感数据替换为预设的脱敏字符,或,对所述应答数据中的敏感数据进行加密处理,或,对所述应答数据整体进行加密处理。
8.一种非侵入式数据脱敏装置,其特征在于,应用于网关设备中,所述非侵入式数据脱敏装置包括:
转发单元,用于若接收到终端发送的访问请求,将所述访问请求转发给服务器;
第一获取单元,用于若接收到服务器返回的应答数据,获取所述应答数据的类别;
第二获取单元,用于根据所述应答数据的类别从预设的类别-策略对应表获取所述应答数据的敏感数据检测策略,所述类别-策略对应表用于记录应答数据的类别与应答数据的敏感数据检测策略之间的映射关系;
判断单元,用于根据所述敏感数据检测策略判断所述应答数据中是否包含敏感数据;
脱敏单元,用于若所述应答数据中包含敏感数据,对应答数据进行脱敏处理以得到脱敏数据,并将所述脱敏数据发送给终端。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现如权利要求1-7中任一项所述的方法。
CN202011483721.4A 2020-12-16 2020-12-16 非侵入式数据脱敏方法、装置、计算机设备及存储介质 Pending CN112632600A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011483721.4A CN112632600A (zh) 2020-12-16 2020-12-16 非侵入式数据脱敏方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011483721.4A CN112632600A (zh) 2020-12-16 2020-12-16 非侵入式数据脱敏方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN112632600A true CN112632600A (zh) 2021-04-09

Family

ID=75313526

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011483721.4A Pending CN112632600A (zh) 2020-12-16 2020-12-16 非侵入式数据脱敏方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112632600A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114499954A (zh) * 2021-12-21 2022-05-13 海光信息技术股份有限公司 一种用于敏感数据的管理装置和方法
CN115622764A (zh) * 2022-10-09 2023-01-17 深圳市君思科技有限公司 web网络流量中隐私数据发现与归类方法
CN116484410A (zh) * 2023-06-16 2023-07-25 鱼快创领智能科技(南京)有限公司 一种无侵入式动态脱敏加密方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130167192A1 (en) * 2011-12-27 2013-06-27 Wellpoint, Inc. Method and system for data pattern matching, masking and removal of sensitive data
WO2017088683A1 (zh) * 2015-11-24 2017-06-01 阿里巴巴集团控股有限公司 一种数据脱敏的方法及系统
CN110188565A (zh) * 2019-04-17 2019-08-30 平安科技(深圳)有限公司 数据脱敏方法、装置、计算机设备及存储介质
CN110532797A (zh) * 2019-07-24 2019-12-03 方盈金泰科技(北京)有限公司 大数据的脱敏方法和系统
CN110704853A (zh) * 2019-09-28 2020-01-17 咪付(深圳)网络技术有限公司 一种基于脱敏策略的敏感数据脱敏方法及系统
CN110955914A (zh) * 2019-12-02 2020-04-03 智器云南京信息科技有限公司 一种待脱敏数据的处理方法、系统、终端设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130167192A1 (en) * 2011-12-27 2013-06-27 Wellpoint, Inc. Method and system for data pattern matching, masking and removal of sensitive data
WO2017088683A1 (zh) * 2015-11-24 2017-06-01 阿里巴巴集团控股有限公司 一种数据脱敏的方法及系统
CN110188565A (zh) * 2019-04-17 2019-08-30 平安科技(深圳)有限公司 数据脱敏方法、装置、计算机设备及存储介质
CN110532797A (zh) * 2019-07-24 2019-12-03 方盈金泰科技(北京)有限公司 大数据的脱敏方法和系统
CN110704853A (zh) * 2019-09-28 2020-01-17 咪付(深圳)网络技术有限公司 一种基于脱敏策略的敏感数据脱敏方法及系统
CN110955914A (zh) * 2019-12-02 2020-04-03 智器云南京信息科技有限公司 一种待脱敏数据的处理方法、系统、终端设备和存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114499954A (zh) * 2021-12-21 2022-05-13 海光信息技术股份有限公司 一种用于敏感数据的管理装置和方法
CN114499954B (zh) * 2021-12-21 2024-05-10 海光信息技术股份有限公司 一种用于敏感数据的管理装置和方法
CN115622764A (zh) * 2022-10-09 2023-01-17 深圳市君思科技有限公司 web网络流量中隐私数据发现与归类方法
CN116484410A (zh) * 2023-06-16 2023-07-25 鱼快创领智能科技(南京)有限公司 一种无侵入式动态脱敏加密方法及系统

Similar Documents

Publication Publication Date Title
CN112632600A (zh) 非侵入式数据脱敏方法、装置、计算机设备及存储介质
CN110532797A (zh) 大数据的脱敏方法和系统
CN102144227A (zh) 与基于文档类型的文档处理相关的方法及设备
CN112347511A (zh) 基于权限的数据屏蔽方法、装置、计算机设备及存储介质
CN113722758B (zh) 日志脱敏方法、装置、计算机设备及存储介质
CN112685771A (zh) 日志脱敏方法、装置、设备及存储介质
CN112487447A (zh) 数据安全处理方法、装置、设备及存储介质
CN112765673A (zh) 一种敏感数据统计方法及相关装置
CN110895587B (zh) 用于确定目标用户的方法和装置
JP2021503117A (ja) 個人情報保護基盤のクエリ処理サービス提供システム
CN116340989A (zh) 一种数据脱敏方法、装置、电子设备及存储介质
CN113111153B (zh) 一种数据分析方法、装置、设备及存储介质
CN116303937A (zh) 回复方法、装置、电子设备及可读存储介质
CN114006735B (zh) 一种数据保护方法、装置、计算机设备和存储介质
CN110414251B (zh) 数据监测方法和装置
CN113674083A (zh) 互联网金融平台信用风险监测方法、装置及计算机系统
CN111159509A (zh) 数据处理方法及相关产品
CN114362979B (zh) 一种管理应用的方法和系统
JP2007299093A (ja) 文書管理システム
CN116450745B (zh) 基于多设备的笔记文件操作方法、系统和可读存储介质
CN114818645B (zh) 基于数据主体的自动化报告生成方法、装置、设备及介质
CN113660277B (zh) 一种基于复用埋点信息的反爬虫方法及处理终端
KR102178048B1 (ko) 개인정보 다운로드 탐지를 통한 데이터 모니터링 방법
CN114401104B (zh) 网络爬虫处置方法、装置、服务器及存储介质
CN116846568A (zh) 一种网络攻击检测方法以及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination