CN116432243A

CN116432243A - 一种线上商城的数据脱敏方法、装置、设备及存储介质

Info

Publication number: CN116432243A
Application number: CN202310706268.6A
Authority: CN
Inventors: 林世琴; 陈晓冲
Original assignee: Kaientai Nanjing Technology Co ltd
Current assignee: Kaientai Nanjing Technology Co ltd
Priority date: 2023-06-15
Filing date: 2023-06-15
Publication date: 2023-07-14
Anticipated expiration: 2043-06-15
Also published as: CN116432243B

Abstract

本发明公开了一种线上商城的数据脱敏方法、装置、设备及存储介质，涉及数据处理技术领域，包括：获取至少一种用户类型发送的查询请求，并根据查询请求调取初始交易订单表；初始交易订单表包括m个订单属性和m条属性内容数据；基于每个订单属性对初始交易订单表进行分词处理，得到m条属性内容数据的n个数据字段；根据对应用户类型匹配搜索预构建模型库，以获取对应隶属权重模型；根据对应隶属权重模型提取每条属性内容数据中每个数据字段的隶属权重；根据每条属性内容数据中每个数据字段的隶属权重对初始交易订单表进行数据脱敏，得到脱敏交易订单表，并将脱敏交易订单表向用户进行查询反馈。

Description

一种线上商城的数据脱敏方法、装置、设备及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种线上商城的数据脱敏方法、装置、设备及存储介质。

背景技术

当前，随着生活水平的不断提高以及线上平台的不断完善，并且由于线上服务的便利性和及时性等，越来越多的人倾向于通过线上商城进行信息资讯获取或者是商品购买，然而现有的线上电商平台防攻击性能较弱，一旦遭到入侵，容易泄露或篡改交易过程中交易订单信息，给用户和平台方都带来较大损失，此外现有线上电商平台存在多用户主体，由于多用户主体的管理复杂性，也易提高交易订单信息中隐私信息的泄露风险性。

数据脱敏是指对某些敏感信息通过脱敏规则进行数据的替代、混洗、数值变换、加密、遮挡、空值插入和删除等，以实现敏感隐私数据的可靠保护，相较于数据加密，其更加方便，且能尽可能地保留数据的有用性。

目前，现有的数据脱敏方法大多针对单一使用场景进行设计实现，未考虑多用户主体场景下的数据安全性和可实现性，例如授权公告号为CN110532805B的中国专利公开了一种数据脱敏方法及装置，其虽然通过对特征分词之外的分词进行加密处理，实现了数据记录的安全保障，但此类数据脱敏方法无法根据不同用户类型对交易订单信息中不同类型的数据进行不同范围的数据脱敏，从而导致在多用户视角下，无法在保障数据高可用的情况下同时提高数据的高安全性，从而难以避免或降低交易订单中隐私数据的泄露。

鉴于此，本发明提出一种线上商城的数据脱敏方法、装置、设备及存储介质以解决上述问题。

发明内容

本发明的目的是为了解决现有技术中存在的缺陷，而提出一种线上商城的数据脱敏方法、装置、设备及存储介质。

为了实现上述目的，本发明采用了如下技术方案：

一种线上商城的数据脱敏方法，所述方法应用于数据分析处理设备，所述方法包括：

获取至少一种用户类型发送的查询请求，并根据查询请求调取初始交易订单表；所述初始交易订单表包括m个订单属性和m条属性内容数据，m∈N^＊，N^＊为正整数集合；

基于每个所述订单属性对所述初始交易订单表进行分词处理，得到m条属性内容数据的n个数据字段，n∈N^＊；

根据对应所述用户类型匹配搜索预构建模型库，以获取对应隶属权重模型；所述预构建模型库包括至少一种隶属权重模型；

根据对应所述隶属权重模型提取每条属性内容数据中每个数据字段的隶属权重；

根据每条属性内容数据中每个数据字段的隶属权重对初始交易订单表进行数据脱敏，得到脱敏交易订单表，并将脱敏交易订单表向用户进行查询反馈。

进一步地，基于每个所述订单属性对所述初始交易订单表进行分词处理，包括：

根据订单属性链接到属性内容数据，并判断所述属性内容数据的数据类型，所述数据类型包括数值型和文本型；

基于数值型的分词方法针对数值型的属性内容数据进行分词处理；

基于文本型的分词方法针对文本型的属性内容数据进行分词处理。

进一步地，所述隶属权重模型的生成过程如下：

获取若干份分词后的交易订单表，并提取每份分词后的交易订单中每条属性内容数据的每个数据字段；

根据用户类型针对每个数据字段进行权重标注；

将权重标注后的若干份分词后的交易订单表作为训练集；

将所述训练集输入预构建神经网络模型进行训练，以得到隶属权重模型。

进一步地，根据每条属性内容数据中每个数据字段的隶属权重对初始交易订单表进行数据脱敏，包括：

接收每条属性内容数据中每个数据字段的隶属权重；

判断每个数据字段的隶属权重是否大于预设权重阈值，若某个数据字段的隶属权重大于预设权重阈值，则对对应数据字段进行数据脱敏；

重复上述步骤，直至大于预设权重阈值的每个订单属性中每条属性内容数据的每个数据字段被数据脱敏，则停止循环，得到脱敏交易订单表。

进一步地，根据每条属性内容数据中每个数据字段的隶属权重对初始交易订单表进行数据脱敏，还包括：

获取脱敏交易订单表；

计算脱敏数据与非脱敏数据在对应属性内容数据中的字符字序；

判断所述字符字序是否等于预设标准字符字序，若所述字符字序不等于预设标准字符字序，则针对对应属性内容数据进行脱敏校正，得到校正后的脱敏交易订单表。

一种线上商城的数据脱敏装置，包括：

数据获取模块，用于获取至少一种用户类型发送的查询请求，并根据查询请求调取初始交易订单表；所述初始交易订单表包括m个订单属性和m条属性内容数据，m∈N^＊，N^＊为正整数集合；

分词处理模块，用于基于每个所述订单属性对所述初始交易订单表进行分词处理，得到m条属性内容数据的n个数据字段，n∈N^＊；

模型匹配模块，用于根据对应所述用户类型匹配搜索预构建模型库，以获取对应隶属权重模型；所述预构建模型库包括至少一种隶属权重模型；

权重提取模块，用于根据对应所述隶属权重模型提取每条属性内容数据中每个数据字段的隶属权重；

脱敏反馈模块，用于根据每条属性内容数据中每个数据字段的隶属权重对初始交易订单表进行数据脱敏，得到脱敏交易订单表，并将脱敏交易订单表向用户进行查询反馈。

进一步地，所述隶属权重模型的生成过程如下：

根据用户类型针对每个数据字段进行权重标注；

将权重标注后的若干份分词后的交易订单表作为训练集；

接收每条属性内容数据中每个数据字段的隶属权重；

获取脱敏交易订单表；

一种数据分析处理设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述线上商城的数据脱敏方法。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述线上商城的数据脱敏方法。

相比于现有技术，本发明的有益效果在于：

本申请公开了一种线上商城的数据脱敏方法、装置、设备及存储介质，通过获取至少一种用户类型发送的查询请求，并根据查询请求调取初始交易订单表；基于每个订单属性对初始交易订单表进行分词处理，得到m条属性内容数据的n个数据字段；根据对应用户类型匹配搜索预构建模型库，以获取对应隶属权重模型；根据对应隶属权重模型提取每条属性内容数据中每个数据字段的隶属权重；根据每条属性内容数据中每个数据字段的隶属权重对初始交易订单表进行数据脱敏，得到脱敏交易订单表，并将脱敏交易订单表向用户进行查询反馈，本发明能够根据不同用户类型对交易订单信息中不同类型的数据进行不同范围的数据脱敏，有利于在多用户视角下，实现在保障数据高可用的同时提高数据的高安全性。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明提出的一种线上商城的数据脱敏方法的整体流程图；

图2为本发明提出的一种线上商城的数据脱敏装置的整体结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

实施例一

请参阅图1所示，本实施例公开提供了一种线上商城的数据脱敏方法，所述方法应用于数据分析处理设备，所述方法包括：

S1：获取至少一种用户类型发送的查询请求，并根据查询请求调取初始交易订单表；所述初始交易订单表包括m个订单属性和m条属性内容数据，m∈N^＊，N^＊为正整数集合；

需要说明的是：m个订单属性与m条属性内容数据一一对应，所述订单属性包括但不限于账号、姓名、联系电话、地址、订单编号和商品名称等等，其详情可参照下表1，还需要说明的是，所述订单属性的设定取决于所应用的线上商城的要求和标准，在此本发明不做过多赘述；

表1：初始交易订单表

需要说明的是：上述表格中的信息只是为了方便理解而作出的假设性举例，其并非实际交易订单，且其中的具体信息也并非真实数据，仅供理解参考，实际交易订单可能会包括更多或不同的细节，这具体取决于所应用的线上商城的要求和标准，在此本发明不做过多赘述；

还需要说明的是：所述用户类型包括但不限于超级管理员、一般管理员、仓库管理员、运营管理员、财务管理员、快递员、注册用户、游客用户和入侵访问者；

需要了解的是：超级管理员具备对所有交易订单中所有信息的查看权；注册用户只具备对自身交易订单中所有信息的查看权；而一般管理员、仓库管理员、运营管理员、财务管理员、快递员和游客用户只具备对交易订单中部分信息的查看权，且向不同用户类型所展示的部分信息均存在不同；

S2：基于每个所述订单属性对所述初始交易订单表进行分词处理，得到m条属性内容数据的n个数据字段，n∈N^＊；

具体地，基于每个所述订单属性对所述初始交易订单表进行分词处理，包括：

具体地，所述数值型的分词方法为引入智能识别的固定位数分割法；

需要说明的是：所述引入智能识别的固定位数分割法是指通过智能模型获取数值型的属性内容数据字符长度，再根据不同类型数据值的预设固定位数，结合固定位数分割法对所述数值型的属性内容数据进行分割，例如：通过智能模型识别得到一份联系电话为18008888888（示例性，非真实电话号码），根据电话类型数据值的预设固定位数，将其划分为1800-888-8888（示例性，非真实电话号码），再例如，通过智能模型识别得到一份身份证号为440524199910152345（示例性，非真实身份证号码），根据身份证类型数据值的预设固定位数，将其划分为440524-19991015-234-5（示例性，非真实身份证号码）；还需要说明的是：所述智能模型为决策树、支持向量机、朴素贝叶斯或K近邻算法，其根据标注后数值长度训练得到；所述不同类型数据值的预设固定位数为人为设定得出；

基于文本型的分词方法针对文本型的属性内容数据进行分词处理；

需要说明的是：所述文本型的分词方法具体为基于规则的分词、基于统计的分词和基于深度学习的分词中的一种；

S3：根据对应所述用户类型匹配搜索预构建模型库，以获取对应隶属权重模型；所述预构建模型库包括至少一种隶属权重模型；

需要说明的是：所述预构建模型库中的隶属权重模型根据用户类型确定，每一种用户类型对应着一种隶属权重模型；

具体地，所述隶属权重模型的生成过程如下：

根据用户类型针对每个数据字段进行权重标注；

需要说明的是：每份分词后的交易订单表中的数据字段，根据用户类型不同会被赋予多种权重，每种赋值后的权重对应于一种隶属权重模型的训练，所述每个数据字段的权重标注可以人为输入得到，也可以为多次实验得出；

将权重标注后的若干份分词后的交易订单表作为训练集；

将所述训练集输入预构建神经网络模型进行训练，以得到隶属权重模型；

S4：根据对应所述隶属权重模型提取每条属性内容数据中每个数据字段的隶属权重；

S5：根据每条属性内容数据中每个数据字段的隶属权重对初始交易订单表进行数据脱敏，得到脱敏交易订单表，并将脱敏交易订单表向用户进行查询反馈；

具体地，根据每条属性内容数据中每个数据字段的隶属权重对初始交易订单表进行数据脱敏，包括：

接收每条属性内容数据中每个数据字段的隶属权重；

重复上述步骤，直至大于预设权重阈值的每个订单属性中每条属性内容数据的每个数据字段被数据脱敏，则停止循环，得到脱敏交易订单表；

在一个实施例中，根据每条属性内容数据中每个数据字段的隶属权重对初始交易订单表进行数据脱敏，还包括：

获取脱敏交易订单表；

判断所述字符字序是否等于预设标准字符字序，若所述字符字序不等于预设标准字符字序，则针对对应属性内容数据进行脱敏校正，得到校正后的脱敏交易订单表；通过对对应属性内容数据进行脱敏校正，本发明有利于解决由于分词或隶属权重处理不当所产生的脱敏误差；

需要说明的是，为保证数据的安全性，本发明采用的是不可逆脱敏算法，任何一种不可逆脱敏算法都可作为本发明的应用对象，在此不做过多赘述；因此，在对对应属性内容数据进行脱敏校正时，会再次调取初始交易订单表；

在本实施例中，将校正后的脱敏交易订单表向用户进行查询反馈；

举例来说就是：假设需对用户的姓名“王美丽”和电话“13812345678”（示例性，非真实电话号码）进行部分数据脱敏，在通过上述隶属权重进行数据脱敏得到脱敏姓名“*美*”和脱敏电话“***1234****”时，由于权重或分词产生的错误或误差，此时部分脱敏后的数据处于不可用状态，若此时处于快递员角度，则无法获完成派送，因此，通过计算脱敏数据与非脱敏数据的字符字序，并基于预设标准字符字序进行校正，得到校正后的脱敏姓名“王*丽”和脱敏电话“138****5678”；通过对以隶属权重进行数据脱敏得到的脱敏交易订单表进行校正，本发明有利于在保障数据高可用的情况下同时提高数据的高安全性。

针对本发明进行举例说明理解就是：假设现接收快递员对上述表1订单的查询请求，通过上述处理我们得到脱敏交易订单表（见表2）；

表2：快递员角度的脱敏交易订单表

通过上述表2可知，账号、姓名、商品名称、付款金额和付款方式等信息，对于快递员而言是非必要信息，因此通过调取与快递员对应的隶属权重模型计算上述非必要信息的隶属权重，之后再判断不同隶属权重的大小，最后将大于预设权重阈值的对应数据字段进行数据脱敏，从而保证了用户订单在快递员角度的隐私性和安全性；

为了进一步促使了解本发明的发明原理，我们在上述示例的基础上作出又一举例，假设现又接收到财务管理员对上述表1订单的查询请求，通过上述处理我们得到脱敏交易订单表（见表3）

表3：财务管理员角度的脱敏交易订单表

通过上述表3可知，联系电话、邮编、地址等信息，对于财务管理员而言是非必要信息，因此通过调取与财务管理员对应的隶属权重模型计算上述非必要信息的隶属权重，之后再判断不同隶属权重的大小，最后将大于预设权重阈值的对应数据字段进行数据脱敏，从而保证了用户订单在财务管理员角度的隐私性和安全性；

结合表2和表3，我们可以知晓本发明会根据不同用户类型调取不同隶属权重模型，并根据其获取不同用户角度交易订单表中每个数据字段隶属权重，最后根据每种隶属权重实现不同用户角度的数据脱敏，因此本发明能够根据不同用户类型对交易订单信息中不同类型的数据进行不同范围的数据脱敏，有利于在多用户视角下，在保障数据高可用的同时提高数据的高安全性。

实施例二

请参阅图2所示，本实施例公开提供了一种线上商城的数据脱敏装置，包括：

数据获取模块210，用于获取至少一种用户类型发送的查询请求，并根据查询请求调取初始交易订单表；所述初始交易订单表包括m个订单属性和m条属性内容数据，m∈N^＊，N^＊为正整数集合；

需要说明的是：m个订单属性与m条属性内容数据一一对应，所述订单属性包括但不限于账号、姓名、联系电话、地址、订单编号和商品名称等等，其详情可参照上述表1，还需要说明的是，所述订单属性的设定取决于所应用的线上商城的要求和标准，在此本发明不做过多赘述；

分词处理模块220，用于基于每个所述订单属性对所述初始交易订单表进行分词处理，得到m条属性内容数据的n个数据字段，n∈N^＊；

模型匹配模块230，用于根据对应所述用户类型匹配搜索预构建模型库，以获取对应隶属权重模型；所述预构建模型库包括至少一种隶属权重模型；

具体地，所述隶属权重模型的生成过程如下：

根据用户类型针对每个数据字段进行权重标注；

将权重标注后的若干份分词后的交易订单表作为训练集；

权重提取模块240，用于根据对应所述隶属权重模型提取每条属性内容数据中每个数据字段的隶属权重；

脱敏反馈模块250，用于根据每条属性内容数据中每个数据字段的隶属权重对初始交易订单表进行数据脱敏，得到脱敏交易订单表，并将脱敏交易订单表向用户进行查询反馈；

接收每条属性内容数据中每个数据字段的隶属权重；

获取脱敏交易订单表；

判断所述字符字序是否等于预设标准字符字序，若所述字符字序不等于预设标准字符字序，则针对对应属性内容数据进行脱敏校正，得到校正后的脱敏交易订单表；通过对对应属性内容数据进行脱敏校正本发明有利于解决由于分词或隶属权重处理不当所产生的脱敏误差；

举例来说就是：假设需对用户的姓名“王美丽”和电话“13812345678”（示例性，非真实电话号码）进行部分数据脱敏，在通过上述隶属权重进行数据脱敏得到脱敏姓名“*美*”和脱敏电话“***1234****”时，由于权重或分词产生的错误或误差，此时部分脱敏后的数据处于不可用状态，若此时处于快递员角度，则无法获完成派送，因此，通过计算脱敏数据与非脱敏数据的字符字序，并基于预设标准字符字序进行校正，得到校正后的脱敏姓名“王*丽”和脱敏电话“138****5678”；通过对以隶属权重进行数据脱敏得到的脱敏交易订单表进行校正，本发明有利于在保障数据高可用的情况下并提高数据的高安全性。

实施例三

本实施例提供了一种数据分析处理设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述各方法所提供的任一项线上商城的数据脱敏方法。

实施例四

本实施例提供了一种计算机可读存储介质，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述各方法所提供的任一项所述线上商城的数据脱敏方法。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种线上商城的数据脱敏方法，其特征在于，所述方法应用于数据分析处理设备，所述方法包括：

2.根据权利要求1所述的一种线上商城的数据脱敏方法，其特征在于，基于每个所述订单属性对所述初始交易订单表进行分词处理，包括：

3.根据权利要求2所述的一种线上商城的数据脱敏方法，其特征在于，所述隶属权重模型的生成过程如下：

根据用户类型针对每个数据字段进行权重标注；

将权重标注后的若干份分词后的交易订单表作为训练集；

4.根据权利要求3所述的一种线上商城的数据脱敏方法，其特征在于，根据每条属性内容数据中每个数据字段的隶属权重对初始交易订单表进行数据脱敏，包括：

接收每条属性内容数据中每个数据字段的隶属权重；

5.根据权利要求4所述的一种线上商城的数据脱敏方法，其特征在于，根据每条属性内容数据中每个数据字段的隶属权重对初始交易订单表进行数据脱敏，还包括：

获取脱敏交易订单表；

6.一种线上商城的数据脱敏装置，其特征在于，包括：

7.根据权利要求6所述的一种线上商城的数据脱敏装置，其特征在于，基于每个所述订单属性对所述初始交易订单表进行分词处理，包括：

8.根据权利要求7所述的一种线上商城的数据脱敏装置，其特征在于，所述隶属权重模型的生成过程如下：

根据用户类型针对每个数据字段进行权重标注；

将权重标注后的若干份分词后的交易订单表作为训练集；

9.根据权利要求8所述的一种线上商城的数据脱敏装置，其特征在于，根据每条属性内容数据中每个数据字段的隶属权重对初始交易订单表进行数据脱敏，包括：

接收每条属性内容数据中每个数据字段的隶属权重；

10.根据权利要求9所述的一种线上商城的数据脱敏装置，其特征在于，根据每条属性内容数据中每个数据字段的隶属权重对初始交易订单表进行数据脱敏，还包括：

获取脱敏交易订单表；

11.一种数据分析处理设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5任一项所述线上商城的数据脱敏方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至5任一项所述线上商城的数据脱敏方法。