CN111639360A - 智能数据脱敏方法、装置、计算机设备及存储介质 - Google Patents

智能数据脱敏方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111639360A
CN111639360A CN202010355763.3A CN202010355763A CN111639360A CN 111639360 A CN111639360 A CN 111639360A CN 202010355763 A CN202010355763 A CN 202010355763A CN 111639360 A CN111639360 A CN 111639360A
Authority
CN
China
Prior art keywords
data
field name
test
desensitization
subdata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010355763.3A
Other languages
English (en)
Inventor
温桂龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN202010355763.3A priority Critical patent/CN111639360A/zh
Publication of CN111639360A publication Critical patent/CN111639360A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例属于数据处理技术领域,涉及一种智能数据脱敏方法,包括获取当前数据库中的总数据,切分总数据为单个的子数据,子数据的格式为由第一字段名和字段值组成的格式;根据第一测试模型确定是否存在与第一字段名匹配的第二字段名;在确定存在与第一字段名匹配的第二字段名时,调用第二字段名对应的脱敏方案,根据脱敏方案对子数据进行脱敏处理;在不存在匹配的第二字段名时,则根据第二测试模型确定子数据是否为敏感数据,在确定子数据为敏感数据时,对子数据进行脱敏处理。本申请提高了数据脱敏效率,有效地保证了信息数据的安全性。此外,本发明还涉及区块链技术,敏感数据可存储于区块链节点中。

Description

智能数据脱敏方法、装置、计算机设备及存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及智能数据脱敏方法、装置、计算机设备及存储介质。
背景技术
随着信息技术行业的不断发展,无纸化办公、移动办公等技术已经逐渐普及,使用计算机、手机等设备开展工作、阅览信息、提交信息等已经成为人们在工作、生活过程中不可或缺的一部分。然而,信息技术在一方面给我们带来便利信息交换方式的同时,在另一方面,也不可避免地带来了很多的信息安全问题。在互联网应用中,有不少的信息都是相对敏感的信息,这些信息直接在网络中进行传输,很容易就会造成信息泄漏、隐私泄漏的问题。为了避免这些问题,可行的方法之一,就是数据脱敏。
数据脱敏,指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。这样就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的数据。目前数据脱敏,基本都是依靠人工规定哪些数据需要进行脱敏处理,以及定义好脱敏方式,目前的数据脱敏方案,一般都是在特定的场景下,通过人工识别并进行脱敏处理。在数据种类较多时,由于敏感数据识别效率低下,则进一步导致数据脱敏处理效率低下的技术问题。
发明内容
本申请实施例的目的在于提出一种智能数据脱敏方法、装置、计算机设备及存储介质,旨在解决数据脱敏效率低下的技术问题。
为了解决上述技术问题,本申请实施例提供一种智能数据脱敏方法,采用了如下所述的技术方案:
一种智能数据脱敏方法,包括以下步骤:
获取当前数据库中的总数据,切分所述总数据为单个的子数据,所述子数据的格式为由第一字段名和字段值组成的格式;
获取预设的第一测试模型,其中,所述第一测试模型为点互信息计算模型,根据所述第一测试模型计算所述第一字段名与预设的测试数据库中第二字段名的含义匹配值,根据所述含义匹配值确定所述测试数据库中是否存在与所述第一字段名匹配的第二字段名;
在确定所述测试数据库中存在与所述第一字段名匹配的第二字段名时,调用所述第二字段名对应的脱敏方案,根据所述脱敏方案对所述子数据进行脱敏处理;
在确定所述测试数据库中不存在与所述第一字段名匹配的第二字段名时,根据所述第一字段名的场景类别,获取所述场景类别下预设的第二测试模型,根据所述第二测试模型确定所述第一字段名是否为敏感数据的名称,在确定所述第一字段名为所述名称时,则根据所述字段值确定所述子数据是否为敏感数据,其中,在确定所述子数据为敏感数据时,对所述子数据进行脱敏处理。
进一步的,所述根据所述第一测试模型计算所述第一字段名与预设的测试数据库中第二字段名的含义匹配值的步骤包括:
根据所述第一测试模型,计算所述第一字段名与测试数据库中第二字段名的点互信息;
根据所述点互信息确定所述第一字段名与所述第二字段名的含义匹配值。
进一步的,所述根据所述含义匹配值确定所述测试数据库中是否存在与所述第一字段名匹配的第二字段名的步骤包括:
获取预设阈值;
确定所述含义匹配值是否不小于所述预设阈值,在确定所述含义匹配值不小于所述预设阈值时,确定所述测试数据库中存在与所述第一字段名匹配的第二字段名。
进一步的,所述获取所述场景类别类下预设的第二测试模型的步骤之前,所述智能数据脱敏方法还包括:
采集测试数据,获取所述测试数据对应的不同应用场景;
在不同的所述应用场景下,根据所述测试数据训练基础测试模型得到不同场景类别的第二测试模型。
进一步的,所述根据所述测试数据训练基础测试模型得到不同场景类别的第二测试模型的步骤包括:
划分同一应用场景的测试数据为训练数据和验证数据;
根据所述训练数据对基础训练模型进行训练;
在达到预设训练次数后,通过所述验证数据对多次训练后的基础训练模型进行验证;
若验证通过,则得到对应场景类别的第二测试模型。
进一步的,所述划分同一应用场景的测试数据为训练数据和验证数据的步骤包括:
构建K邻近模型;
根据所述K邻近模型,划分同一应用场景的测试数据为训练数据和验证数据。
进一步的,所述敏感数据存储在区块链中,所述在确定所述子数据为敏感数据时,对所述子数据进行脱敏处理的步骤包括:
识别所述子数据的字段名,确定所述子数据的字段名是否为主流数据;
若所述子数据的字段名为主流数据,则根据所述字段名对应的预设脱敏方式对所述子数据进行脱敏处理;
若所述子数据的字段名为非主流数据,获取所述子数据的字段值并进行类型识别,根据所述字段值的类型对应的预设脱敏方式对所述子数据进行脱敏处理。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
一种智能数据脱敏装置,包括:
切分模块,用于获取当前数据库中的总数据,切分所述总数据为单个的子数据,所述子数据的格式为由第一字段名和字段值组成的格式;
判定模块,用于获取预设的第一测试模型,其中,所述第一测试模型为点互信息计算模型,根据所述第一测试模型计算所述第一字段名与预设的测试数据库中第二字段名的含义匹配值,根据所述含义匹配值确定所述测试数据库中是否存在与所述第一字段名匹配的第二字段名;
第一脱敏模块,用于在确定所述测试数据库中存在与所述第一字段名匹配的第二字段名时,调用所述第二字段名对应的脱敏方案,根据所述脱敏方案对所述子数据进行脱敏处理;
第二脱敏模块,用于在确定所述测试数据库中不存在与所述第一字段名匹配的第二字段名时,根据所述第一字段名的场景类别,获取所述场景类别下预设的第二测试模型,根据所述第二测试模型确定所述第一字段名是否为敏感数据的名称,在确定所述第一字段名为所述名称时,则根据所述字段值确定所述子数据是否为敏感数据,其中,在确定所述子数据为敏感数据时,对所述子数据进行脱敏处理。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,包括存储器和处理器,以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述智能数据脱敏方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述智能数据脱敏方法的步骤。
上述智能数据脱敏方法、装置、计算机设备及存储介质,通过获取当前数据库中的总数据,切分所述总数据为单个的子数据,所述子数据的格式为由第一字段名和字段值组成的格式,以便根据该字段名和字段值对数据进行进一步的处理;而后获取预设的第一测试模型,该第一测试模型为检验模型,根据所述第一测试模型,可以确定预设的测试数据库中是否存在与所述第一字段名匹配的第二字段名,其中,该测试数据库为预先设定的数据库,其中存储了大量的敏感数据及其对应的脱敏方案;在确定所述测试数据库中存在与所述第一字段名匹配的第二字段名时,调用所述第二字段名对应的脱敏方案,根据所述脱敏方案对所述子数据进行脱敏处理;在确定所述测试数据库中不存在与所述第一字段名匹配的第二字段名时,根据所述第一字段名的场景类别,获取所述场景类别下预设的第二测试模型,该第二测试模型为训练得到的训练模型,根据所述第二测试模型则可以进一步确定所述子数据是否为敏感数据,在确定所述子数据为敏感数据时,则对所述子数据进行脱敏处理。由此,解决了在同时处理多种敏感数据时,数据脱敏效率低下的技术问题。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2为智能数据脱敏方法的流程示意图;
图3是根据本申请的智能数据脱敏装置的一个实施例的结构示意图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
附图标记:610切分模块;620判定模块;630第一脱敏模块;640第二脱敏模块。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本申请的目的、技术方案及优点更加清楚明白,下面结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的智能数据脱敏方法一般由服务端/终端执行,相应地,智能数据脱敏装置一般设置于服务端/终端设备中。
应该理解,图1中的终端、网络和服务端的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的智能数据脱敏方法的流程图。所述智能数据脱敏方法,包括以下步骤:
步骤S200,获取当前数据库中的总数据,切分所述总数据为单个的子数据,所述子数据的格式为由第一字段名和字段值组成的格式;
总数据为当前数据库中的所有数据,其中,该当前数据库为目标数据库,即目标检测数据是否需要进行脱敏处理的数据库。在获取到该总数据时,切分该总数据为单个的子数据,其中,切分该总数据的过程即为从总数据中提取出该子数据的过程,由于总数据为结构化的数据,根据导出指令可以直接导出当前数据库中的子数据。将该子数据用key-value的格式表示;其中,key为该子数据的字段名,即第一字段名,value为该子数据的字段值。具体地,在获取到总数据时,该总数据已为结构化的数据,即该总数据中每个数据的字段名和字段值均被直接存储于当前数据库中。因此,在获取到总数据时,可以直接得到该当前数据库中每个子数据对应的第一字段名及字段值。确定该子数据的格式为由该第一字段名和字段值组成的格式。
步骤S300,获取预设的第一测试模型,其中,所述第一测试模型由点互信息构建得到,根据所述第一测试模型计算所述第一字段名与预设的测试数据库中第二字段名的含义匹配值,根据所述含义匹配值确定所述测试数据库中是否存在与所述第一字段名匹配的第二字段名;
第一测试模型为构建的数学匹配模型,如点互信息计算模型或余弦相似度计算模型,以点互信息计算模型为例。具体地,点互信息为衡量两个事件之间相关性的指标,在构建第一测试模型时,需要预先确定当前需要解决的问题为计算字段的相似度,并确定当前问题中的变量为字段名。根据该问题,搭建各变量之间的参数关系,该参数关系则可用点互信息的计算公式表示。由此即可得到基于点互信息计算公式构建的第一测试模型。根据该第一测试模型可以判断不同词汇之间是否具有相同或相似含义。在获取到第一字段名时,通过该第一测试模型则可对两个不同子数据分别对应的第一字段名进行判断,由此确定该两个子数据的第一字段名是否表示相同的含义。
具体地,测试数据库为预先建立的数据库,该测试数据库中存储有不同类型的敏感数据,该敏感数据亦以(字段名字段值)的格式存储于该测试数据库中。在该测试数据库中存储的敏感数据的字段名即为第二字段名。在获取到第一字段名时,则通过第一测试模型对该第一字段名与测试数据库中存储的敏感数据对应的第二字段名的含义匹配值进行计算,确定当前测试数据库中是否存在与该第一字段名匹配的第二字段名。其中,该含义匹配值为第一字段名与第二字段名的匹配度,该含义匹配值可根据计算第一字段名与第二字段名的点互信息得到,亦可根据计算第一字段名与第二字段名之间的余弦相似度得到。若确定该第一字段名与该第二字段名的含义匹配,则确定当前测试数据库中存在与该第一字段名匹配的第二字段名;若确定该第一字段名与该第二字段名的含义不匹配,则确定当前测试数据库中不存在与该第一字段名匹配的第二字段名。
需要强调的是,为进一步保证上述敏感数据的私密和安全性,上述敏感数据还可以存储于一区块链的节点中。
步骤S400,在确定所述测试数据库中存在与所述第一字段名匹配的第二字段名时,调用所述第二字段名对应的脱敏方案,根据所述脱敏方案对所述子数据进行脱敏处理;
在确定测试数据库中存在与该第一字段名匹配的第二字段名时,调用该第二字段对应的脱敏方案,该脱敏方案亦被预先存储在该测试数据库中,与所述第二字段名关联存储。根据该脱敏方案对该第一字段名对应的子数据进行脱敏处理。
步骤S500,在确定所述测试数据库中不存在与所述第一字段名匹配的第二字段名时,根据所述第一字段名的场景类别,获取所述场景类别下预设的第二测试模型,根据所述第二测试模型确定所述第一字段名是否为敏感数据的名称,在确定所述第一字段名为所述名称时,则根据所述字段值确定所述子数据是否为敏感数据,其中,在确定所述子数据为敏感数据时,对所述子数据进行脱敏处理。
在确定测试数据库中不存在与该第一字段名匹配的第二字段名时,则根据第一字段名的场景类别,获取该场景类别下预设的第二测试模型。其中,该场景类别为当前第一字段名对应的应用场景的类别,如保险应用场景、银行应用场景等。在获取到该第一字段名时,则获取该第一字段名对应的场景类别,该场景类别为预先设定,即预先给定的场景类别。每个不同的场景类别下则对应有不同的预设第二测试模型。
通过该第二测试模型可以对该第一字段名对应的子数据是否需要进行脱敏进行判断。具体地,根据该第二测试模型对该第一字段名的含义进行分类,如通过K邻近模型对该第一字段名的含义进行分类,K邻近模型为分类与回归算法模型,通过该K邻近模型即可确定该第一字段名对应含义的所属分类,即是否属于敏感数据类别的名称。若该第一字段名为敏感数据的名称,则对该子数据的字段值进行验证,以进一步地确定该子数据是否为敏感数据,其中,根据该字段值确定子数据是否为敏感数据包括根据字段值的类型、长度及含义确定子数据是否为敏感数据。在确定该子数据为敏感数据时,则对该子数据进行脱敏处理。其中,对于特定的数据其字段值会有固定的特征,如身份证号码对应的字段名为:idCardNo,其对应字段值为18的数字,则确定为敏感数据,确定需要进行脱敏处理;若该字段名:idCardNo对应的字段值为true,则表示为身份证号存在,即该身份证号码对应的字段值并未实际显示为具体的18位数字,因此,此时则确定不需要对该身份证号码进行脱敏处理。
在本实施例中,实现了对数据库中数据的智能识别,以及对数据是否需要脱敏处理的快速确认,进一步地实现了对敏感隐私数据的可靠保护,有效地保证了信息数据的安全性。
在本申请的一些实施例中,步骤S300:根据所述第一测试模型计算所述第一字段名与预设的测试数据库中第二字段名的含义匹配值包括:
根据所述第一测试模型,计算所述第一字段名与测试数据库中第二字段名的点互信息;
根据所述点互信息确定所述第一字段名与所述第二字段名的含义匹配值。
获取测试数据库中存储的所有第二字段名,逐一计算第一字段名与该测试数据库中第二字段名的含义匹配值,该含义匹配值可通过该第一字段名与第二字段名之间的点互信息计算得到。该点互信息(Pointwise Mutual Information,PMI)的计算公式如下所示:
Figure BDA0002473419860000101
其中,x、y分别为第一字段名和第二字段名,pmi(x,y)为第一字段名和第二字段名的点互信息,p(x)表示x在当前数据库中出现的概率,p(y)表示y在当前数据库中出现的概率,p(x,y)表示x,y同时在当前数据库中出现的概率,p(x|y)表示在y情况下x出现的条件概率,p(y|x)表示在x情况下y出现的条件概率。
在计算得到该点互信息时,根据该点互信息则可确定该测试数据库中是否存在于该第一字段名匹配的第二字段名。
在本实施例中,实现了对字段名之间点互信息的计算,提高了对敏感数据的识别精度,进一步提高了对敏感数据的识别效率。
在本申请的一些实施例中,上述根据所述含义匹配值确定所述测试数据库中是否存在与所述第一字段名匹配的第二字段名包括:
获取预设阈值;
确定所述含义匹配值是否不小于所述预设阈值,在确定所述含义匹配值不小于所述预设阈值时,确定所述测试数据库中存在与所述第一字段名匹配的第二字段名。
获取预设阈值,该预设阈值为确定第一字段名与该第二字段名是否相似的限定阈值,该预设阈值可以通过对大量的数据字段名与敏感数据对应的字段计算名点互信息分析得到,亦可通过自定义设定。若计算第一字段名与第二字段名得到的含义匹配值不小于预设阈值,则确定该测试数据库中存在与该第一字段名匹配的第二字段名;若计算得到的该含义匹配值小于预设阈值,则确定该测试数据库中不存在与该第一字段名匹配的第二字段名。
在本实施例中,实现了对第一字段名与第二字段名是否匹配的精确判断,进一步提高了对敏感数据的识别准确率,实现了对敏感数据的精确识别。
在本申请的一些实施例中,还包括:
采集测试数据,获取所述测试数据对应的不同应用场景;
在不同的所述应用场景下,根据所述测试数据训练基础测试模型得到不同场景类别的第二测试模型。
测试数据为预先采集的大量测试数据,该测试数据中即包括了敏感数据亦包括了非敏感数据。不同的数据在不同的应用场景下,可能敏感程度不同,即有的数据在某些应用场景下为敏感数据,在其他应用场景下则非敏感数据。因此获取预设的测试数据的场景类别,根据不同场景类别的应用场景对测试数据进行归类。其中,具体归类方式可以为,根据预先确定的某一应用场景,检测该应用场景下测试数据中对应的敏感数据及非敏感数据,并将该敏感数据和非敏感数据的标签设定为该应用场景的场景类别的名称。在根据测试数据对基础训练模型进行训练时,则根据属于同一标签的敏感数据及非敏感数据,对基础训练模型进行训练。对于不属于同一标签的敏感数据和非敏感数据,则不会同时对基础训练模型进行训练。最终训练得到的第二测试模型,则根据不同标签对应的应用场景可以划分为多种类型。
在本实施例中,实现了根据不同的应用场景对第二测试模型的分类,避免了在不同应用场景下,敏感数据的识别混乱,提高了敏感数据的识别效率及准确率。
在本申请的一些实施例中,上述根据所述测试数据训练基础测试模型得到不同场景类别的第二测试模型包括:
划分同一应用场景的测试数据为训练数据和验证数据;
根据所述训练数据对基础训练模型进行训练;
在达到预设训练次数后,通过所述验证数据对多次训练后的基础训练模型进行验证;
若验证通过,则得到对应场景类别的第二测试模型。
对于同一应用场景,即同一标签的测试数据,对该测试数据中的敏感数据和非敏感数据进行进一步地划分,即将该测试数据进一步地划分为训练数据和验证数据。根据该训练数据对基础训练模型进行训练,在达到预设训练次数后,则通过该验证数据对多次训练后的基础训练模型进行验证,以验证该模型是否训练成功。若将验证数据投入到该多次训练后的基础训练模型中,通过该多次训练后的基础训练模型分析得到的该验证数据的结果与该验证数据是否为敏感数据的事实相同,则确定该应用场景下的模型训练成功。训练成功的模型即为第二测试模型。
在本实施例中,实现了对不同应用场景下不同类型的第二测试模型的获取,进一步使得通过不同类型的第二测试模型实现了对数据的精确识别,提高了数据处理效率。
在本申请的一些实施例中,上述划分同一应用场景的测试数据为训练数据和验证数据包括:
构建K邻近模型;
根据所述K邻近模型,划分同一应用场景的测试数据为训练数据和验证数据。
构建K邻近模型(K Nearest Neighbor,KNN),K邻近模型是一种基于分类与回归算法模型。在通过K邻近模型进行分类时,假定给定一个训练数据集,该训练数据集中的实例类别已经确定,分类时对于新的实例的类别,则可以根据该新的实例的k个最近邻的训练实例的类别,通过多数表决等方式进行预测。
因此,根据K邻近模型可以对测试数据中的字段名进行检测归类。具体地,在不同应用场景下,根据该K邻近模型对测试数据中字段名的含义进行分类,从而根据该字段名的含义进一步确定在该应用场景下,该字段名对应的测试数据是否为敏感数据。在获取到不同应用场景下测试数据中的敏感数据时,将敏感数据按应用场景和预设比例划分为训练数据和验证数据,如将A应用场景下的敏感数据按照7:3的比例划分为训练数据和验证数据。除此之外,该验证数据还可以包括在应用场景下确定的敏感数据以外的其他非敏感数据。
在本实施例中,实现了根据K邻近模型对数据的精确划分,提高了数据划分效率及准确率,进一步实现了对隐私数据的有效保护。
在本申请的一些实施例中,上述在确定所述子数据为敏感数据时,对所述子数据进行脱敏处理包括:
识别所述子数据的字段名,确定所述子数据的字段名是否为主流数据;
若所述子数据的字段名为主流数据,则根据所述字段名对应的预设脱敏方式对所述子数据进行脱敏处理;
若所述子数据的字段名为非主流数据,获取所述子数据的字段值并进行类型识别,根据所述字段值的类型对应的预设脱敏方式对所述子数据进行脱敏处理。
在对子数据进行脱敏处理时,则根据语义判断确定字段名是否为主流数据,其中,主流数据包括姓名、证件号码、密码、金额等数据。在确定字段名为主流数据时,则获取当前该主流数据对应的预设脱敏方式。如姓名和证据号码类的主流数据对应的预设脱敏方式为掩码处理,金额类的主流数据对应的预设脱敏方式为偏移取整等。根据不同的预设脱敏方式对敏感数据进行脱敏处理。若子数据为敏感数据,而字段名非主流数据,则根据字段值的类型进一步确定对应的预设脱敏方式,其中,字段值的类型包括数值类型、字符串类型等。如数值对应的预设脱敏方式为偏移取整,短字符串对应的预设脱敏方式为无效化脱敏、长字符串对应的预设脱敏方式为掩码处理等。
在本实施例中,实现了根据字段名和字段值进一步对敏感数据脱敏方式的确认,提高了对敏感数据的脱敏处理效率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图3,作为对上述图2所示方法的实现,本申请提供了一种智能数据脱敏装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例所述的智能数据脱敏装置600包括:
切分模块610,用于获取当前数据库中的总数据,切分所述总数据为单个的子数据,所述子数据的格式为由第一字段名和字段值组成的格式;
总数据为当前数据库中的所有数据,其中,该当前数据库为目标数据库,即目标检测数据是否需要进行脱敏处理的数据库。在获取到该总数据时,切分该总数据为单个的子数据,其中,切分该总数据的过程即为从总数据中提取出该子数据的过程,由于总数据为结构化的数据,根据导出指令可以直接导出当前数据库中的子数据。将该子数据用key-value的格式表示;其中,key为该子数据的字段名,即第一字段名,value为该子数据的字段值。具体地,在获取到总数据时,该总数据已为结构化的数据,即该总数据中每个数据的字段名和字段值均被直接存储于当前数据库中。因此,在获取到总数据时,可以直接得到该当前数据库中每个子数据对应的第一字段名及字段值。确定该子数据的格式为由该第一字段名和字段值组成的格式。
判定模块620,用于获取预设的第一测试模型,其中,所述第一测试模型为点互信息计算模型,根据所述第一测试模型计算所述第一字段名与预设的测试数据库中第二字段名的含义匹配值,根据所述含义匹配值确定所述测试数据库中是否存在与所述第一字段名匹配的第二字段名;
其中,所述判定模块620包括:
计算单元,用于根据所述第一测试模型,计算所述第一字段名与测试数据库中第二字段名的点互信息;
第一判定单元,用于根据所述点互信息确定所述第一字段名与所述第二字段名的含义匹配值。
所述判定模块620还包括:
获取单元,用于获取预设阈值;
第二判定单元,用于确定所述含义匹配值是否不小于所述预设阈值,在确定所述含义匹配值不小于所述预设阈值时,确定所述测试数据库中存在与所述第一字段名匹配的第二字段名。
第一测试模型为构建的数学匹配模型,如点互信息计算模型或余弦相似度计算模型,以点互信息计算模型为例。具体地,点互信息为衡量两个事件之间相关性的指标,在构建第一测试模型时,需要预先确定当前需要解决的问题为计算字段的相似度,并确定当前问题中的变量为字段名。根据该问题,搭建各变量之间的参数关系,该参数关系则可用点互信息的计算公式表示。由此即可得到基于点互信息计算公式构建的第一测试模型。根据该第一测试模型可以判断不同词汇之间是否具有相同或相似含义。在获取到第一字段名时,通过该第一测试模型则可对两个不同子数据分别对应的第一字段名进行判断,由此确定该两个子数据的第一字段名是否表示相同的含义。
具体地,测试数据库为预先建立的数据库,该测试数据库中存储有不同类型的敏感数据,该敏感数据亦以(字段名字段值)的格式存储于该测试数据库中。在该测试数据库中存储的敏感数据的字段名即为第二字段名。在获取到第一字段名时,则通过第一测试模型对该第一字段名与测试数据库中存储的敏感数据对应的第二字段名的含义匹配值进行计算,确定当前测试数据库中是否存在与该第一字段名匹配的第二字段名。其中,该含义匹配值为第一字段名与第二字段名的匹配度,该含义匹配值可根据计算第一字段名与第二字段名的点互信息得到,亦可根据计算第一字段名与第二字段名之间的余弦相似度得到。若确定该第一字段名与该第二字段名的含义匹配,则确定当前测试数据库中存在与该第一字段名匹配的第二字段名;若确定该第一字段名与该第二字段名的含义不匹配,则确定当前测试数据库中不存在与该第一字段名匹配的第二字段名。
第一脱敏模块630,用于在确定所述测试数据库中存在与所述第一字段名匹配的第二字段名时,调用所述第二字段名对应的脱敏方案,根据所述脱敏方案对所述子数据进行脱敏处理;
在确定测试数据库中存在与该第一字段名匹配的第二字段名时,调用该第二字段对应的脱敏方案,该脱敏方案亦被预先存储在该测试数据库中。根据该脱敏方案对该第一字段名对应的子数据进行脱敏处理。
第二脱敏模块640,用于在确定所述测试数据库中不存在与所述第一字段名匹配的第二字段名时,根据所述第一字段名的场景类别,获取所述场景类别下预设的第二测试模型,根据所述第二测试模型确定所述第一字段名是否为敏感数据的名称,在确定所述第一字段名为所述名称时,则根据所述字段值确定所述子数据是否为敏感数据,其中,在确定所述子数据为敏感数据时,对所述子数据进行脱敏处理。
其中,所述第二脱敏模块640包括:
采集单元,用于采集测试数据,获取所述测试数据对应的不同应用场景;
第一训练单元,用于在不同的所述应用场景下,根据所述测试数据训练基础测试模型得到不同场景类别的第二测试模型。
其中,所述第一训练单元包括:
划分单元,用于划分同一应用场景的测试数据为训练数据和验证数据;
第二训练单元,用于根据所述训练数据对基础训练模型进行训练;
验证单元,用于在达到预设训练次数后,通过所述验证数据对多次训练后的基础训练模型进行验证;
第一确认单元,用于若验证通过,则得到对应场景类别的第二测试模型。
其中,所述划分单元包括:
构建单元,用于构建K邻近模型;
第二确认单元,用于根据所述K邻近模型,划分同一应用场景的测试数据为训练数据和验证数据。
其中,所述第二脱敏模块640还包括:
识别单元,用于识别所述子数据的字段名,确定所述子数据的字段名是否为主流数据;
第一脱敏单元,用于若所述子数据的字段名为主流数据,则根据所述字段名对应的预设脱敏方式对所述子数据进行脱敏处理;
第二脱敏单元,用于若所述子数据的字段名为非主流数据,获取所述子数据的字段值并进行类型识别,根据所述字段值的类型对应的预设脱敏方式对所述子数据进行脱敏处理。
在确定测试数据库中不存在与该第一字段名匹配的第二字段名时,则根据第一字段名的场景类别,获取该场景类别下预设的第二测试模型。其中,该场景类别为当前第一字段名对应的应用场景的类别,如保险应用场景、银行应用场景等。在获取到该第一字段名时,则获取该第一字段名对应的场景类别,该场景类别为预先设定,即预先给定的场景类别。每个不同的场景类别下则对应有不同的预设第二测试模型。
通过该第二测试模型可以对该第一字段名对应的子数据是否需要进行脱敏进行判断。具体地,根据该第二测试模型对该第一字段名的含义进行分类,如通过K邻近模型对该第一字段名的含义进行分类,K邻近模型为分类与回归算法模型,通过该K邻近模型即可确定该第一字段名对应含义的所属分类,即是否属于敏感数据类别的名称。若该第一字段名为敏感数据的名称,则对该子数据的字段值进行验证,以进一步地确定该子数据是否为敏感数据,其中,根据该字段值确定子数据是否为敏感数据包括根据字段值的类型、长度及含义确定子数据是否为敏感数据。在确定该子数据为敏感数据时,则对该子数据进行脱敏处理。其中,对于特定的数据其字段值会有固定的特征,如身份证号码对应的字段名为:idCardNo,其对应字段值为18的数字,则确定为敏感数据,确定需要进行脱敏处理;若该字段名:idCardNo对应的字段值为true,则表示为身份证号存在,即该身份证号码对应的字段值并未实际显示为具体的18位数字,因此,此时则确定不需要对该身份证号码进行脱敏处理。
在本实施例中,实现了对数据库中数据的智能识别,以及对数据是否需要脱敏处理的快速确认,进一步地实现了对敏感隐私数据的可靠保护,有效地保证了信息数据的安全性。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备6包括通过系统总线相互通信连接存储器61、处理器62、网络接口63。需要指出的是,图中仅示出了具有组件61-63的计算机设备6,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器61至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器61可以是所述计算机设备6的内部存储单元,例如该计算机设备6的硬盘或内存。在另一些实施例中,所述存储器61也可以是所述计算机设备6的外部存储设备,例如该计算机设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器61还可以既包括所述计算机设备6的内部存储单元也包括其外部存储设备。本实施例中,所述存储器61通常用于存储安装于所述计算机设备6的操作系统和各类应用软件,例如智能数据脱敏方法的程序代码等。此外,所述存储器61还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器62在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器62通常用于控制所述计算机设备6的总体操作。本实施例中,所述处理器62用于运行所述存储器61中存储的程序代码或者处理数据,例如运行所述智能数据脱敏方法的程序代码。
所述网络接口63可包括无线网络接口或有线网络接口,该网络接口63通常用于在所述计算机设备6与其他电子设备之间建立通信连接。
本实施例提出的计算机设备,实现了对数据库中数据的智能识别,以及对数据是否需要脱敏处理的快速确认,进一步地实现了对敏感隐私数据的可靠保护,有效地保证了信息数据的安全性。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有智能数据脱敏程序,所述智能数据脱敏程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的智能数据脱敏方法的步骤。
本实施例提出的计算机可读存储介质,实现了对数据库中数据的智能识别,以及对数据是否需要脱敏处理的快速确认,进一步地实现了对敏感隐私数据的可靠保护,有效地保证了信息数据的安全性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种智能数据脱敏方法,其特征在于,包括下述步骤:
获取当前数据库中的总数据,切分所述总数据为单个的子数据,所述子数据的格式为由第一字段名和字段值组成的格式;
获取预设的第一测试模型,其中,所述第一测试模型为点互信息计算模型,根据所述第一测试模型计算所述第一字段名与预设的测试数据库中第二字段名的含义匹配值,根据所述含义匹配值确定所述测试数据库中是否存在与所述第一字段名匹配的第二字段名;
在确定所述测试数据库中存在与所述第一字段名匹配的第二字段名时,调用所述第二字段名对应的脱敏方案,根据所述脱敏方案对所述子数据进行脱敏处理;
在确定所述测试数据库中不存在与所述第一字段名匹配的第二字段名时,根据所述第一字段名的场景类别,获取所述场景类别下预设的第二测试模型,根据所述第二测试模型确定所述第一字段名是否为敏感数据的名称,在确定所述第一字段名为所述名称时,则根据所述字段值确定所述子数据是否为敏感数据,其中,在确定所述子数据为敏感数据时,对所述子数据进行脱敏处理。
2.根据权利要求1所述的智能数据脱敏方法,其特征在于,所述根据所述第一测试模型计算所述第一字段名与预设的测试数据库中第二字段名的含义匹配值的步骤包括:
根据所述第一测试模型,计算所述第一字段名与测试数据库中第二字段名的点互信息;
根据所述点互信息确定所述第一字段名与所述第二字段名的含义匹配值。
3.根据权利要求1所述的智能数据脱敏方法,其特征在于,所述根据所述含义匹配值确定所述测试数据库中是否存在与所述第一字段名匹配的第二字段名的步骤包括:
获取预设阈值;
确定所述含义匹配值是否不小于所述预设阈值,在确定所述含义匹配值不小于所述预设阈值时,确定所述测试数据库中存在与所述第一字段名匹配的第二字段名。
4.根据权利要求1所述的智能数据脱敏方法,其特征在于,所述获取所述场景类别类下预设的第二测试模型的步骤之前,所述智能数据脱敏方法还包括:
采集测试数据,获取所述测试数据对应的不同应用场景;
在不同的所述应用场景下,根据所述测试数据训练基础测试模型得到不同场景类别的第二测试模型。
5.根据权利要求4所述的智能数据脱敏方法,其特征在于,所述根据所述测试数据训练基础测试模型得到不同场景类别的第二测试模型的步骤包括:
划分同一应用场景的测试数据为训练数据和验证数据;
根据所述训练数据对基础训练模型进行训练;
在达到预设训练次数后,通过所述验证数据对多次训练后的基础训练模型进行验证;
若验证通过,则得到对应场景类别的第二测试模型。
6.根据权利要求5所述的智能数据脱敏方法,其特征在于,所述划分同一应用场景的测试数据为训练数据和验证数据的步骤包括:
构建K邻近模型;
根据所述K邻近模型,划分同一应用场景的测试数据为训练数据和验证数据。
7.根据权利要求1所述的智能数据脱敏方法,其特征在于,所述敏感数据存储在区块链中,所述在确定所述子数据为敏感数据时,对所述子数据进行脱敏处理的步骤包括:
识别所述子数据的字段名,确定所述子数据的字段名是否为主流数据;
若所述子数据的字段名为主流数据,则根据所述字段名对应的预设脱敏方式对所述子数据进行脱敏处理;
若所述子数据的字段名为非主流数据,获取所述子数据的字段值并进行类型识别,根据所述字段值的类型对应的预设脱敏方式对所述子数据进行脱敏处理。
8.一种智能数据脱敏装置,其特征在于,包括:
切分模块,用于获取当前数据库中的总数据,切分所述总数据为单个的子数据,所述子数据的格式为由第一字段名和字段值组成的格式;
判定模块,用于获取预设的第一测试模型,其中,所述第一测试模型为点互信息计算模型,根据所述第一测试模型计算所述第一字段名与预设的测试数据库中第二字段名的含义匹配值,根据所述含义匹配值确定所述测试数据库中是否存在与所述第一字段名匹配的第二字段名;
第一脱敏模块,用于在确定所述测试数据库中存在与所述第一字段名匹配的第二字段名时,调用所述第二字段名对应的脱敏方案,根据所述脱敏方案对所述子数据进行脱敏处理;
第二脱敏模块,用于在确定所述测试数据库中不存在与所述第一字段名匹配的第二字段名时,根据所述第一字段名的场景类别,获取所述场景类别下预设的第二测试模型,根据所述第二测试模型确定所述第一字段名是否为敏感数据的名称,在确定所述第一字段名为所述名称时,则根据所述字段值确定所述子数据是否为敏感数据,其中,在确定所述子数据为敏感数据时,对所述子数据进行脱敏处理。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的智能数据脱敏方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的智能数据脱敏方法的步骤。
CN202010355763.3A 2020-04-29 2020-04-29 智能数据脱敏方法、装置、计算机设备及存储介质 Pending CN111639360A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010355763.3A CN111639360A (zh) 2020-04-29 2020-04-29 智能数据脱敏方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010355763.3A CN111639360A (zh) 2020-04-29 2020-04-29 智能数据脱敏方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN111639360A true CN111639360A (zh) 2020-09-08

Family

ID=72330989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010355763.3A Pending CN111639360A (zh) 2020-04-29 2020-04-29 智能数据脱敏方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111639360A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591127A (zh) * 2021-08-16 2021-11-02 京东科技控股股份有限公司 数据脱敏方法以及装置
CN114880049A (zh) * 2022-03-09 2022-08-09 深圳萨摩耶数字科技有限公司 一种数据处理方法、装置、电子设备及存储介质
CN115880826A (zh) * 2023-02-22 2023-03-31 肯特智能技术(深圳)股份有限公司 基于访问数据的园区访问方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591127A (zh) * 2021-08-16 2021-11-02 京东科技控股股份有限公司 数据脱敏方法以及装置
CN114880049A (zh) * 2022-03-09 2022-08-09 深圳萨摩耶数字科技有限公司 一种数据处理方法、装置、电子设备及存储介质
CN115880826A (zh) * 2023-02-22 2023-03-31 肯特智能技术(深圳)股份有限公司 基于访问数据的园区访问方法及系统

Similar Documents

Publication Publication Date Title
CN112863683B (zh) 基于人工智能的病历质控方法、装置、计算机设备及存储介质
CN113326991B (zh) 自动授权方法、装置、计算机设备及存储介质
CN111784528A (zh) 异常社群检测方法、装置、计算机设备及存储介质
CN113726784B (zh) 一种网络数据的安全监控方法、装置、设备及存储介质
CN111783138A (zh) 敏感数据检测方法、装置、计算机设备及存储介质
CN112468658B (zh) 语音质量检测方法、装置、计算机设备及存储介质
CN111639360A (zh) 智能数据脱敏方法、装置、计算机设备及存储介质
CN112181835B (zh) 自动化测试方法、装置、计算机设备及存储介质
CN112686301A (zh) 基于交叉验证的数据标注方法及相关设备
CN114493255A (zh) 基于知识图谱的企业异常监控方法及其相关设备
CN112733645A (zh) 手写签名校验方法、装置、计算机设备及存储介质
CN115936895A (zh) 基于人工智能的风险评估方法、装置、设备及存储介质
CN116453125A (zh) 基于人工智能的数据录入方法、装置、设备及存储介质
CN114971642A (zh) 基于知识图谱的异常识别方法、装置、设备及存储介质
CN114219664A (zh) 产品推荐方法、装置、计算机设备及存储介质
CN113918949A (zh) 基于多模态融合的诈骗app的识别方法
CN112417886A (zh) 意图实体信息抽取方法、装置、计算机设备及存储介质
CN112396048A (zh) 图片信息提取方法、装置、计算机设备及存储介质
CN115545753A (zh) 一种基于贝叶斯算法的合作伙伴预测方法及相关设备
CN112085469B (zh) 基于向量机模型的数据审批方法、装置、设备及存储介质
CN112395450B (zh) 图片文字检测方法、装置、计算机设备及存储介质
CN115378806A (zh) 流量分配方法、装置、计算机设备及存储介质
CN115373634A (zh) 随机码生成方法、装置、计算机设备及存储介质
CN112084408A (zh) 名单数据筛选方法、装置、计算机设备及存储介质
CN112949317B (zh) 文本语义识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination