CN112000980A - 数据处理方法及装置 - Google Patents

数据处理方法及装置 Download PDF

Info

Publication number
CN112000980A
CN112000980A CN202010641758.9A CN202010641758A CN112000980A CN 112000980 A CN112000980 A CN 112000980A CN 202010641758 A CN202010641758 A CN 202010641758A CN 112000980 A CN112000980 A CN 112000980A
Authority
CN
China
Prior art keywords
data
rule
desensitization
confusion
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010641758.9A
Other languages
English (en)
Other versions
CN112000980B (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lakala Payment Co ltd
Original Assignee
Lakala Payment Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lakala Payment Co ltd filed Critical Lakala Payment Co ltd
Priority to CN202010641758.9A priority Critical patent/CN112000980B/zh
Publication of CN112000980A publication Critical patent/CN112000980A/zh
Application granted granted Critical
Publication of CN112000980B publication Critical patent/CN112000980B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification

Abstract

本公开实施例公开了一种数据处理方法及装置。其中,该方法包括:对原始数据进行脱敏处理,获得初次脱敏的数据;提取所述原始数据中的至少一个数据特征,对每个所述数据特征进行脱敏处理并分别保存;根据分析需求选取脱敏处理后的一个或多个数据特征,按照二次混淆规则插入到所述初次脱敏的数据中,得到二次混淆后的数据;将二次混淆后的数据、二次混淆规则和特征提取规则发送给数据分析方。

Description

数据处理方法及装置
技术领域
本公开涉及数据安全技术领域,具体涉及一种数据处理方法、装置、电子设备及存储介质。
背景技术
随着移动互联网的普及和大数据分析技术的发展,与用户个人紧密相关的敏感数据被越来越多地采集和使用。大数据分析虽然可以在日常生活的很多方面提供帮助和支持,比如个性化推荐、关联信息搜索、地图数据处理和社交网络服务等,都可以借助于大数据分析提供更精准的服务。此外,在本次流行病爆发过程中也进一步发现,基于大数据分析的流行病调查和流动人员监控在处理效率和监控范围等方面也具有相当明显的优势,可以更快速准确地完成更大规模的调查和监控,为个人和公众提供更全面更安全的防控措施,从而为流行病控制赢取更多的时间和空间。
但不可否认的是,大数据分析势必会侵犯到用户的个人隐私,其中大数据分析经常会搜集的敏感数据一般包括电话、姓名、身份证号码、当前位置、输入记录、浏览记录、交易记录、住址、银行账号、邮箱、密码和个人履历等,这些个人信息与用户生活、工作密切相关,对用户的财产安全甚至人身安全有重大影响,因而被视作是个人隐私信息受到不同行业和政府数据隐私法规的保护和管制。
为了在保护用户隐私的同时也能进行有效的大数据分析,现有技术一般采用脱敏技术对敏感数据进行预处理,将敏感数据通过不可逆算法处理成脱敏的特征数据,在保留原数据的某些特性(比如身份证号的唯一性)的同时,又保证数据在传输和使用过程中不泄露用户隐私(比如脱敏后身份证号部分不会暴露用户出生地、出生日期和性别等隐私),从而实现了隐私保护和大数据分析的兼顾。
然而,发明人在实现本公开实施例相关技术方案的过程中发现,现有技术至少存在以下问题:原则上说,脱敏后的数据可以具备用户原始数据的部分特性,但不可能具备全部特性,因而不可能满足全部大数据分析需求;在某些场景中,很可能会产生新的或临时的需求来要求获取一些新的用户特征,当前的脱敏数据大概率无法满足要求。而为了保护用户隐私,通常的脱敏处理都是不可逆算法完成,这导致脱敏数据无法被还原成原始数据,新需求必须由再次获取的原始数据来满足(或是设计新的脱敏算法,对原始数据进行再次脱敏处理,使得脱敏后数据可体现出新的用户特征)。很显然,对用户特征的新需求与脱敏数据的不可逆特性之间产生了矛盾,这给动态变化的系统或是动态产生需求的应用场景的设计实现带来了很大麻烦,严重影响了敏捷开发的成本和效率。
发明内容
针对现有技术中的上述技术问题,本公开实施例提出了一种数据处理方法、装置、电子设备及计算机可读存储介质,以解决现有技术中脱敏数据难以适应新特征需求的问题。
本公开实施例的第一方面提供了一种数据处理方法,包括:
对原始数据进行脱敏处理,获得初次脱敏的数据;
提取所述原始数据中的至少一个数据特征,对每个所述数据特征进行脱敏处理并分别保存;
根据分析需求选取脱敏处理后的一个或多个数据特征,按照二次混淆规则插入到所述初次脱敏的数据中,得到二次混淆后的数据;
将二次混淆后的数据、二次混淆规则和特征提取规则发送给数据分析方。
在一些实施例中,所述方法还包括:
所述数据分析方根据所述二次混淆规则和所述特征提取规则,从所述二次混淆后的数据中获得所述一个或多个数据特征的摘要信息,完成相关数据分析。
在一些实施例中,所述方法中:
所述初次脱敏的数据和脱敏处理后的每个数据特征都是固定长度的数据,所述二次混淆规则里规定了各个数据特征的插入位置;
所述二次混淆规则是固定的预设规则和/或随机生成的规则;所述插入位置为固定位置和/或随机位置。
在一些实施例中,所述二次混淆后的数据、二次混淆规则和特征提取规则分多次分别发送给所述数据分析方。
在一些实施例中,所述方法还包括:
对所述二次混淆规则和/或所述特征提取规则进行安全处理后再发送。
本公开实施例的第二方面提供了一种数据处理装置,包括:
初次脱敏模块,用于对原始数据进行脱敏处理,获得初次脱敏的数据;
特征脱敏模块,用于提取所述原始数据中的至少一个数据特征,对每个所述数据特征进行脱敏处理并分别保存;
混淆模块,用于根据分析需求选取脱敏处理后的一个或多个数据特征,按照二次混淆规则插入到所述初次脱敏的数据中,得到二次混淆后的数据;
发送模块,用于将二次混淆后的数据、二次混淆规则和特征提取规则发送给数据分析方。
在一些实施例中,所述装置还包括:
分析模块,用于由所述数据分析方根据所述二次混淆规则和所述特征提取规则,从所述二次混淆后的数据中获得所述一个或多个数据特征的摘要信息,完成相关数据分析。
在一些实施例中,所述初次脱敏的数据和脱敏处理后的每个数据特征都是固定长度的数据,所述二次混淆规则里规定了各个数据特征的插入位置;
所述二次混淆规则是固定的预设规则和/或随机生成的规则;所述插入位置为固定位置和/或随机位置。
在一些实施例中,所述发送模块包括:
分次发送模块,用于将所述二次混淆后的数据、二次混淆规则和特征提取规则分多次分别发送给所述数据分析方。
在一些实施例中,所述装置还包括:
安全处理模块,用于对所述二次混淆规则和/或所述特征提取规则进行安全处理后再发送。
本公开实施例的第三方面提供了一种电子设备,包括:
存储器以及一个或多个处理器;
其中,所述存储器与所述一个或多个处理器通信连接,所述存储器中存储有可被所述一个或多个处理器执行的指令,所述指令被所述一个或多个处理器执行时,所述电子设备用于实现如前述各实施例所述的方法。
本公开实施例的第四方面提供了一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令被计算装置执行时,可用来实现如前述各实施例所述的方法。
本公开实施例的第五方面提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,可用来实现如前述各实施例所述的方法。
本公开实施例的技术方案通过特征提取和二次混淆来更新脱敏数据,以在不浪费前次脱敏处理结果的基础上插入脱敏的新特征,快速满足新的数据分析需求。
附图说明
通过参考附图会更加清楚的理解本公开的特征和优点,附图是示意性的而不应理解为对本公开进行任何限制,在附图中:
图1是根据本公开的一些实施例所示的一种数据处理方法的流程示意图;
图2是根据本公开的一些实施例所示的一种数据处理装置的模块结构示意图;
图3是根据本公开的一些实施例所示的实现其功能的一种电子设备的结构示意图。
具体实施方式
在下面的详细描述中,通过示例阐述了本公开的许多具体细节,以便提供对相关披露的透彻理解。然而,对于本领域的普通技术人员来讲,本公开显而易见的可以在没有这些细节的情况下实施。应当理解的是,本公开中使用“系统”、“装置”、“单元”和/或“模块”术语,是用于区分在顺序排列中不同级别的不同部件、元件、部分或组件的一种方法。然而,如果其他表达式可以实现相同的目的,这些术语可以被其他表达式替换。
应当理解的是,当设备、单元或模块被称为“在……上”、“连接到”或“耦合到”另一设备、单元或模块时,其可以直接在另一设备、单元或模块上,连接或耦合到或与其他设备、单元或模块通信,或者可以存在中间设备、单元或模块,除非上下文明确提示例外情形。例如,本公开所使用的术语“和/或”包括一个或多个相关所列条目的任何一个和所有组合。
本公开所用术语仅为了描述特定实施例,而非限制本公开范围。如本公开说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的特征、整体、步骤、操作、元素和/或组件,而该类表述并不构成一个排它性的罗列,其他特征、整体、步骤、操作、元素和/或组件也可以包含在内。
参看下面的说明以及附图,本公开的这些或其他特征和特点、操作方法、结构的相关元素的功能、部分的结合以及制造的经济性可以被更好地理解,其中说明和附图形成了说明书的一部分。然而,可以清楚地理解,附图仅用作说明和描述的目的,并不意在限定本公开的保护范围。可以理解的是,附图并非按比例绘制。
本公开中使用了多种结构图用来说明根据本公开的实施例的各种变形。应当理解的是,前面或下面的结构并不是用来限定本公开。本公开的保护范围以权利要求为准。
用户隐私数据的脱敏可以采用多种算法实现,但安全系数高的脱敏算法都是不可逆的,这使得脱敏后的数据只能具备固定的特性,无法满足动态的分析需求,现有技术中只能通过重新设计脱敏算法、重新进行脱敏处理来解决问题,这显然给系统的敏捷开发带来极大影响,其成本和效率均难以接受。
有鉴于此,本公开实施例提供了一种数据处理方法,通过特征提取和二次混淆来更新脱敏数据,以在不浪费前次脱敏处理结果的基础上插入脱敏的新特征,快速满足新的数据分析需求。如图1所示,在本公开的一个实施例中,数据处理方法包括步骤:
S101,对原始数据进行脱敏处理,获得初次脱敏的数据。
在本公开的实施例中,脱敏处理可以采用任何已知的算法进行,在此不做限制;不过为便于统一记录和传输,通常建议采用定长脱敏算法处理固定的原始数据,比如采用MD5信息摘要算法处理身份证号信息等,得到固定长度(即同一类型的原始数据得到的脱敏数据长度相同,假设为k位)的脱敏后数据。其中,原始数据指任何需要脱敏处理的用户数据的原始形态,可以是用户隐私信息,或是用户隐私信息的片段,又或是包含用户隐私信息的大段数据等,亦即原始数据虽然通常涉及用户隐私,但具体形式不受限制,可以按需求对任何用户数据进行脱敏处理。初次脱敏的数据依照预定的规则存储和分发,比如开辟特定的脱敏区或脱敏表来记录初次脱敏的数据,对于没有特定要求的应用,也可将初次脱敏的数据直接发送出,以使其完成初步的大数据分析。在本公开的实施例中,对初次脱敏数据的管理和使用不做具体的限定,采用任何可行的现有技术即可。
S102,提取所述原始数据中的至少一个数据特征,对每个所述数据特征进行脱敏处理并分别保存。
其中,用户隐私信息的原始数据中可能包括多个用户特征,比如一个身份证号中就同时包括出生地、出生日期和性别等特征,现有技术对身份证号整体脱敏时这些由部分信息表示的特征就会消失,以MD5信息摘要算法为例,对身份证号110101199001011001进行脱敏处理后,得到的数据为字符串56Sgjeofw093820,再无法从中得出上述出生地、出生日期和性别等特征。现有技术也曾尝试通过部分脱敏或使用独立字段记录来保留特征,但这些方式事实上是把用户隐私以低密级(甚至是明文)记录和提供,不可避免地增大了隐私泄露的危险。在本公开的实施例中,对各个数据特征也分别提取并进行脱敏处理,使得保存的特征也是经处理后的信息,从而降低了隐私泄露的风险,增强了安全性。
S103,根据分析需求选取脱敏处理后的一个或多个数据特征,按照二次混淆规则插入到所述初次脱敏的数据中,得到二次混淆后的数据。
其中,分析需求由数据分析方提出,在初次脱敏的数据已可满足需求时可不做调整,比如使用身份证号来唯一标识用户,前述脱敏后的字符串已可在保护隐私的同时实现该目的,显然无需再获得更多的数据特征。因而本公开的实施例通常是在系统发生较大变化、产生新的功能需求时的补充方案,以较低的成本满足系统的新需求,使得在先的数据处理结果仍可继续使用,从而避免大批量地对数据重复处理。当然,也可以针对多个不同的数据分析方分别提供数据,对于不同的需求,可以通过不同的二次混淆方式来提供与之匹配的不同数据,因而也无需为每一需求单独进行脱敏处理。
在本公开的实施例中,通过二次混淆将初次脱敏的数据和新需求的数据特征混合,利用初次脱敏的数据来帮助掩盖数据特征,使得信息量较少的数据特征不会因意外泄漏而被暴力破解。可选地,脱敏处理后的数据特征也是定长的数据,二次混淆规则里规定了各个数据特征的插入位置。比如前述示例的身份证号,提取性别特征并脱敏处理后得到一位数据y,二次混淆规则里规定将其插入到初次脱敏的数据字符串的第3位,则得到二次混淆后的数据为56ySgjeofw093820。其中,二次混淆规则可以是固定的预设规则,也可以是随机生成的规则,随机规则可进一步提升数据安全性。更优选地,对于多位的数据特征,每一位的插入位置都可以随机设置,而无需按照固定位置固定顺序插入,从而实现完全的混淆。
S104,将二次混淆后的数据、二次混淆规则和特征提取规则发送给数据分析方。
在本公开的实施例中,单纯获得二次混淆后的数据并不能从中得到任何有效信息,这充分保护了用户隐私的,保证了数据传输和存储的安全性。对于可信的数据分析方,只有获得对应的二次混淆规则和特征提取规则之后才能正确使用其中的数据特征。可选地,二次混淆后的数据、二次混淆规则和特征提取规则将分多次分别发送给数据分析方,避免在同一次传输中并集中截获。进一步地,二次混淆规则和特征提取规则优选在加密后再进行传输,两规则可一起加密或分别加密,视具体的安全要求而定。此外,对于某些场景,发送给数据分析方的二次混淆规则可以是不完整的,数据分析方只能根据相关规则得到数据特征的统计特性,而无法提取出完整的数据特征,更无法通过逆向破解方式获得原始数据特征,从而保证脱敏后的数据对分析方来说是不可逆的,最大限度地保护用户隐私和数据安全。特征提取规则通常表明了特征的含义和使用方式,优选仅提供统计学意义上的规则而模糊关键信息;在某些实施例中,特征提取规则也可单独使用,即仅提供特征提取规则也是可行的。
通过本公开实施例的技术方案,可以只处理部分数据特征,而无需重新设计全新的脱敏算法,也无需对全部用户数据重新进行脱敏处理,因而显著减少了系统的数据处理量,可以用更高的效率实现对新需求的动态支持。此外,借助初次脱敏的数据对数据特征进行二次混淆,也可以进一步增强用户数据的安全性,降低隐私泄露的风险。
其中,数据特征的提取和脱敏处理可以在产生新需求时再开始,也可以在对原始数据处理的同时就一起处理,前一方式可以适当减少系统存储空间的占用,而后一种方式则在效率上更有优势,可以根据系统设计的需求来选择合适的处理策略。
进一步地,在本公开的实施例中,数据提供方和数据分析方可以不是同一个机构的设备,数据提供方采集、处理和存储相关数据。而数据分析方将自己的数据需求发请求给数据提供方,数据提供方按需整理、二次混淆数据后提供给数据分析方。数据分析方再根据二次混淆规则和特征提取规则,从二次混淆后的数据中获得一个或多个数据特征的摘要信息,完成相关数据分析。
图2是根据本公开的一些实施例所示的一种数据处理装置200,包括:初次脱敏模块210、特征脱敏模块220、混淆模块230和发送模块240;其中,
初次脱敏模块210,用于对原始数据进行脱敏处理,获得初次脱敏的数据;
特征脱敏模块220,用于提取所述原始数据中的至少一个数据特征,对每个所述数据特征进行脱敏处理并分别保存;
混淆模块230,用于根据分析需求选取脱敏处理后的一个或多个数据特征,按照二次混淆规则插入到所述初次脱敏的数据中,得到二次混淆后的数据;
发送模块240,用于将二次混淆后的数据、二次混淆规则和特征提取规则发送给数据分析方。
在一些实施例中,所述装置还包括:
分析模块,用于由所述数据分析方根据所述二次混淆规则和所述特征提取规则,从所述二次混淆后的数据中获得所述一个或多个数据特征的摘要信息,完成相关数据分析。
在一些实施例中,所述初次脱敏的数据和脱敏处理后的每个数据特征都是固定长度的数据,所述二次混淆规则里规定了各个数据特征的插入位置;
所述二次混淆规则是固定的预设规则和/或随机生成的规则;所述插入位置为固定位置和/或随机位置。
在一些实施例中,所述发送模块包括:
分次发送模块,用于将所述二次混淆后的数据、二次混淆规则和特征提取规则分多次分别发送给所述数据分析方。
在一些实施例中,所述装置还包括:
安全处理模块,用于对所述二次混淆规则和/或所述特征提取规则进行安全处理后再发送。
参见图3,为本申请一个实施例提供的电子设备示意图。如图3所示,该电子设备300包括:
存储器330以及一个或多个处理器310;
其中,所述存储器330与所述一个或多个处理器310通信连接,所述存储器330中存储有可被所述一个或多个处理器执行的程序指令332,所述程序指令332被所述一个或多个处理器310执行,以使所述一个或多个处理器310执行上述方法实施例中的各个步骤。进一步地,该电子设备300还可通过通信接口320与外部设备进行交互。
本申请的一个实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被执行后执行上述方法实施例中的各个步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法和/或装置实施例中的对应描述,在此不再赘述。
尽管此处所述的主题是在结合操作系统和应用程序在计算机系统上的执行而执行的一般上下文中提供的,但本领域技术人员可以认识到,还可结合其他类型的程序模块来执行其他实现。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、组件、数据结构和其他类型的结构。本领域技术人员可以理解,此处所述的本主题可以使用其他计算机系统配置来实践,包括手持式设备、多处理器系统、基于微处理器或可编程消费电子产品、小型计算机、大型计算机等,也可使用在其中任务由通过通信网络连接的远程处理设备执行的分布式计算环境中。在分布式计算环境中,程序模块可位于本地和远程存储器存储设备的两者中。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对原有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的计算机可读取存储介质包括以存储如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方式或技术来实现的物理易失性和非易失性、可移动和不可因东介质。计算机可读取存储介质具体包括,但不限于,U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、可擦除可编程只读存储器(EPROM)、电可擦可编程只读存储器(EEPROM)、闪存或其他固态存储器技术、CD-ROM、数字多功能盘(DVD)、HD-DVD、蓝光(Blue-Ray)或其他光存储设备、磁带、磁盘存储或其他磁性存储设备、或能用于存储所需信息且可以由计算机访问的任何其他介质。
综上所述,本公开提出了一种数据处理方法、装置、电子设备及其计算机可读存储介质。通过本公开实施例的技术方案,可以只处理部分数据特征,而无需重新设计全新的脱敏算法,也无需对全部用户数据重新进行脱敏处理,因而显著减少了系统的数据处理量,可以用更高的效率实现对新需求的动态支持。此外,借助初次脱敏的数据对数据特征进行二次混淆,也可以进一步增强用户数据的安全性,降低隐私泄露的风险。
应当理解的是,本公开的上述具体实施方式仅仅用于示例性说明或解释本公开的原理,而不构成对本公开的限制。因此,在不偏离本公开的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。此外,本公开所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
对原始数据进行脱敏处理,获得初次脱敏的数据;
提取所述原始数据中的至少一个数据特征,对每个所述数据特征进行脱敏处理并分别保存;
根据分析需求选取脱敏处理后的一个或多个数据特征,按照二次混淆规则插入到所述初次脱敏的数据中,得到二次混淆后的数据;
将二次混淆后的数据、二次混淆规则和特征提取规则发送给数据分析方。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
所述数据分析方根据所述二次混淆规则和所述特征提取规则,从所述二次混淆后的数据中获得所述一个或多个数据特征的摘要信息,完成相关数据分析。
3.根据权利要求1所述的方法,其特征在于,所述方法中:
所述初次脱敏的数据和脱敏处理后的每个数据特征都是固定长度的数据,所述二次混淆规则里规定了各个数据特征的插入位置;
所述二次混淆规则是固定的预设规则和/或随机生成的规则;所述插入位置为固定位置和/或随机位置。
4.根据权利要求1所述的方法,其特征在于,所述二次混淆后的数据、二次混淆规则和特征提取规则分多次分别发送给所述数据分析方。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述二次混淆规则和/或所述特征提取规则进行安全处理后再发送。
6.一种数据处理装置,其特征在于,包括:
初次脱敏模块,用于对原始数据进行脱敏处理,获得初次脱敏的数据;
特征脱敏模块,用于提取所述原始数据中的至少一个数据特征,对每个所述数据特征进行脱敏处理并分别保存;
混淆模块,用于根据分析需求选取脱敏处理后的一个或多个数据特征,按照二次混淆规则插入到所述初次脱敏的数据中,得到二次混淆后的数据;
发送模块,用于将二次混淆后的数据、二次混淆规则和特征提取规则发送给数据分析方。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
分析模块,用于由所述数据分析方根据所述二次混淆规则和所述特征提取规则,从所述二次混淆后的数据中获得所述一个或多个数据特征的摘要信息,完成相关数据分析。
8.根据权利要求6所述的装置,其特征在于,所述初次脱敏的数据和脱敏处理后的每个数据特征都是固定长度的数据,所述二次混淆规则里规定了各个数据特征的插入位置;
所述二次混淆规则是固定的预设规则和/或随机生成的规则;所述插入位置为固定位置和/或随机位置。
9.根据权利要求6所述的装置,其特征在于,所述发送模块包括:
分次发送模块,用于将所述二次混淆后的数据、二次混淆规则和特征提取规则分多次分别发送给所述数据分析方。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:
安全处理模块,用于对所述二次混淆规则和/或所述特征提取规则进行安全处理后再发送。
CN202010641758.9A 2020-07-06 2020-07-06 数据处理方法及装置 Active CN112000980B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010641758.9A CN112000980B (zh) 2020-07-06 2020-07-06 数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010641758.9A CN112000980B (zh) 2020-07-06 2020-07-06 数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN112000980A true CN112000980A (zh) 2020-11-27
CN112000980B CN112000980B (zh) 2022-02-22

Family

ID=73466996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010641758.9A Active CN112000980B (zh) 2020-07-06 2020-07-06 数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN112000980B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115688184A (zh) * 2022-12-26 2023-02-03 平安银行股份有限公司 日志脱敏方法、装置、电子设备和存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080270370A1 (en) * 2007-04-30 2008-10-30 Castellanos Maria G Desensitizing database information
US20160034715A1 (en) * 2014-08-04 2016-02-04 International Business Machines Corporation Data privacy employing a k-anonymity model with probabalistic match self-scoring
CN106959955A (zh) * 2016-01-11 2017-07-18 中国移动通信集团陕西有限公司 一种数据库的数据处理方法及装置
CN107798253A (zh) * 2017-10-31 2018-03-13 新华三大数据技术有限公司 数据脱敏方法及装置
CN108984588A (zh) * 2018-05-28 2018-12-11 国政通科技股份有限公司 一种数据处理方法及装置
CN109726585A (zh) * 2018-12-14 2019-05-07 银江股份有限公司 一种面向身份证号码的集成数据脱敏系统及方法
CN110096897A (zh) * 2019-04-15 2019-08-06 山东三未信安信息科技有限公司 数据脱敏方法及装置、数据泄露源头定位方法及装置
CN110443059A (zh) * 2018-05-02 2019-11-12 中兴通讯股份有限公司 数据保护方法及装置
CN110457934A (zh) * 2019-04-19 2019-11-15 南京大学 一种基于哈希算法的高仿真数据脱敏算法
CN110489997A (zh) * 2019-08-16 2019-11-22 北京计算机技术及应用研究所 一种基于模式匹配算法的敏感信息脱敏方法
US20200034568A1 (en) * 2017-03-22 2020-01-30 International Business Machines Corporation Securely transferring data over a computer network
CN110889134A (zh) * 2019-11-11 2020-03-17 北京中电飞华通信股份有限公司 一种数据脱敏方法、装置与电子设备
CN111105856A (zh) * 2019-12-24 2020-05-05 中电数据服务有限公司 一种医疗数据脱敏、关联系统及方法
CN111143880A (zh) * 2019-12-27 2020-05-12 中电长城网际系统应用有限公司 数据处理方法和装置、电子设备、可读介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080270370A1 (en) * 2007-04-30 2008-10-30 Castellanos Maria G Desensitizing database information
US20160034715A1 (en) * 2014-08-04 2016-02-04 International Business Machines Corporation Data privacy employing a k-anonymity model with probabalistic match self-scoring
CN106959955A (zh) * 2016-01-11 2017-07-18 中国移动通信集团陕西有限公司 一种数据库的数据处理方法及装置
US20200034568A1 (en) * 2017-03-22 2020-01-30 International Business Machines Corporation Securely transferring data over a computer network
CN107798253A (zh) * 2017-10-31 2018-03-13 新华三大数据技术有限公司 数据脱敏方法及装置
CN110443059A (zh) * 2018-05-02 2019-11-12 中兴通讯股份有限公司 数据保护方法及装置
CN108984588A (zh) * 2018-05-28 2018-12-11 国政通科技股份有限公司 一种数据处理方法及装置
CN109726585A (zh) * 2018-12-14 2019-05-07 银江股份有限公司 一种面向身份证号码的集成数据脱敏系统及方法
CN110096897A (zh) * 2019-04-15 2019-08-06 山东三未信安信息科技有限公司 数据脱敏方法及装置、数据泄露源头定位方法及装置
CN110457934A (zh) * 2019-04-19 2019-11-15 南京大学 一种基于哈希算法的高仿真数据脱敏算法
CN110489997A (zh) * 2019-08-16 2019-11-22 北京计算机技术及应用研究所 一种基于模式匹配算法的敏感信息脱敏方法
CN110889134A (zh) * 2019-11-11 2020-03-17 北京中电飞华通信股份有限公司 一种数据脱敏方法、装置与电子设备
CN111105856A (zh) * 2019-12-24 2020-05-05 中电数据服务有限公司 一种医疗数据脱敏、关联系统及方法
CN111143880A (zh) * 2019-12-27 2020-05-12 中电长城网际系统应用有限公司 数据处理方法和装置、电子设备、可读介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姬鸣扬 等: "P2P网贷用户数据脱敏技术研究", 《通信技术》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115688184A (zh) * 2022-12-26 2023-02-03 平安银行股份有限公司 日志脱敏方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN112000980B (zh) 2022-02-22

Similar Documents

Publication Publication Date Title
AU2014237406B2 (en) Method and apparatus for substitution scheme for anonymizing personally identifiable information
CN107301350B (zh) 一种数据处理方法和系统
EP1909211B1 (en) Data management device, data management method, data processing method, and program
US20150026462A1 (en) Method and system for access-controlled decryption in big data stores
US20120047097A1 (en) Secure Handling of Documents with Fields that Possibly Contain Restricted Information
CN111967024A (zh) 一种文件敏感数据保护方法及装置
CN109165526B (zh) 一种大数据安全与隐私保护方法、装置及存储介质
CN115238286A (zh) 一种数据防护方法、装置、计算机设备及存储介质
CN106161095B (zh) 数据泄露的预警方法及装置
CN115795538B (zh) 脱敏文档的反脱敏方法、装置、计算机设备和存储介质
CN112395630A (zh) 基于信息安全的数据加密方法、装置、终端设备及介质
CN112000980B (zh) 数据处理方法及装置
CN113553583A (zh) 信息系统资产安全风险评估方法与装置
Malderle et al. Gathering and analyzing identity leaks for a proactive warning of affected users
US20120047553A1 (en) Secure distributed storage of documents containing restricted information, via the use of keysets
US20110209053A1 (en) Shuffling Documents Containing Restricted Information
US20120066176A1 (en) Methods, Systems, and Products for Anonymous Loan Documents
KR101349762B1 (ko) 개인정보를 보호하고 관리하는 방법
CN112182555A (zh) 弱密码检测方法、装置、电子设备、存储介质和程序
US20120047552A1 (en) Dynamically updated secure handling of documents containing restricted information
CN111881480A (zh) 隐私数据加密方法、装置、计算机设备及存储介质
CN115098877A (zh) 一种文件加解密的方法、装置、电子设备及介质
CN114417397A (zh) 行为画像的构建方法、装置、存储介质及计算机设备
CN116246745A (zh) 一种基于医疗数据的高安全性存储数据库系统
CN106845273A (zh) 一种保护智能终端本地文件的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant