CN115081006A

CN115081006A - 一种敏感数据的处理方法、装置及设备

Info

Publication number: CN115081006A
Application number: CN202110274653.9A
Authority: CN
Inventors: 吴琦颖; 刘旭华; 赵智勇
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Fujian Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Fujian Co Ltd
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2022-09-20

Abstract

本发明实施例公开了一种敏感数据的处理方法、装置及设备，用于解决现有技术中排查敏感数据的泄露需要耗费大量的人力和时间的问题。所述方法包括：获取目标服务的交互报文日志；将所述目标服务的交互报文日志输入到敏感数据预测模型中，以确定所述目标服务的交互报文日志中是否存在敏感数据，其中，所述敏感数据预测模型为基于多个服务的交互报文日志和对应的标签训练得到的；如果所述目标服务的交互报文日志中存在敏感数据，则确定与所述目标服务的交互报文日志中的敏感数据的类别相匹配的目标脱敏规则；基于所述目标脱敏规则，对所述目标服务的交互报文日志中的敏感数据进行脱敏处理。

Description

一种敏感数据的处理方法、装置及设备

技术领域

本发明实施例涉及移动业务技术领域，尤其涉及一种敏感数据的处理方法、装置及设备。

背景技术

目前，运营商领域的应用系统中存储着大量用户的敏感数据。而随着互联网技术的快速发展，运营商领域的应用系统和各个互联网应用或渠道进行了大量的数据对接。显然，在此过程中，难免会涉及到运营商与互联网应用之间进行用户的身份证号、手机号码等敏感数据的对接，也就存在运营商将用户敏感数据泄露给互联网应用的问题。

为了解决这一问题，运营商系统内部开发的服务应用在与互联网应用对接敏感数据时，通常由运营商系统内部开发的服务应用本身对这些敏感数据进行加密，即通过服务应用内部的代码模块对敏感数据实现逐一的脱敏处理。

然而，基于上述现有技术，通常难以对敏感数据的外泄进行主动发现，往往都是在敏感数据泄漏后，由相关客户投诉才会发现某些渠道存在敏感数据的泄露。并且要在海量的接口里排查哪个接口中的哪个字段导致的泄漏，定位到泄露的目标服务后再对该目标服务进行代码级调整。显然，整个过程需要耗费极大的人力，且时间耗时长，难以满足对敏感数据展示的安全需求。

发明内容

本发明实施例提供一种敏感数据的处理方法及服务器，用于解决现有技术中排查敏感数据的泄露需要耗费大量的人力和时间的问题。

本发明实施例采用下述技术方案：

第一方面，提供了一种敏感数据的处理方法，包括：

获取目标服务的交互报文日志；

将所述目标服务的交互报文日志输入到敏感数据预测模型中，以确定所述目标服务的交互报文日志中是否存在敏感数据，其中，所述敏感数据预测模型为基于多个服务的交互报文日志和对应的标签训练得到的，所述多个服务的交互报文日志的敏感数据和正常数据被标记有对应的标签；

如果所述目标服务的交互报文日志中存在敏感数据，则确定与所述目标服务的交互报文日志中的敏感数据的类别相匹配的目标脱敏规则；

基于所述目标脱敏规则，对所述目标服务的交互报文日志中的敏感数据进行脱敏处理。

第二方面，提供了一种敏感数据的处理装置，包括：

获取目标服务的交互报文日志；

第三方面，提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如下操作：

获取目标服务的交互报文日志；

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如下操作：

获取目标服务的交互报文日志；

本发明实施例采用的上述至少一个技术方案能够达到以下有益效果：

本发明实施例提供的敏感数据的处理方法，通过获取目标服务的交互报文日志，并将目标服务的交互报文日志输入到敏感数据预测模型中，确定目标服务的交互报文日志中是否存在敏感数据；在目标服务的交互报文日志中存在敏感数据时，则确定与目标服务的交互报文日志中的敏感数据的类别相匹配的目标脱敏规则；最后，基于目标脱敏规则，对目标服务的交互报文日志中的敏感数据进行脱敏处理。通过预先训练好的敏感数据预测模型对服务的交互报文日志中可能存在的敏感数据进行预测，一方面提高了预测准确度；另一方面也减小了为确定敏感数据的泄露情况而去耗费人力进行逐一排查各个服务的工作量。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本说明书的一个实施例提供的一种敏感数据的处理方法流程示意图；

图2为本说明书的一个实施例提供的敏感数据的处理系统的结构示意图；

图3为本说明书的一个实施例提供的一种敏感数据的处理装置的结构示意图；

图4为本说明书的另一个实施例提供的一种电子设备的硬件结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为解决现有技术中排查敏感数据的泄露需要耗费大量的人力和时间的问题，本说明书实施例提供一种敏感数据的处理方法。本说明书实施例提供的方法的执行主体可以但不限于个人电脑、服务器等能够被配置为执行本发明实施例提供的该方法装置中的至少一种。

为便于描述，下文以该方法的执行主体为能够执行该方法的服务器为例，对该方法的实施方式进行介绍。可以理解，该方法的执行主体为服务器只是一种示例性的说明，并不应理解为对该方法的限定。

具体地，本说明书一个或多个实施例提供的一种敏感数据的处理方法的实现流程示意图如图1所示，包括：

步骤110，获取目标服务的交互报文日志。

其中，目标服务可以是流量查询服务、用户信息查询服务等服务，该目标服务可以是运营商系统提供给互联网应用的任意一类服务。应理解，在将目标服务提供给互联网应用之后，互联网应用在使用该目标服务时，难免会涉及到用户的身份证号码、手机号码、姓名、通信地址等敏感数据。在此过程中，为了避免用户敏感数据的大量泄漏，可对目标服务的交互报文日志进行实时监控。

图2为本说明书实施例提供的敏感数据的处理系统的结构示意图。在图2中，可由日志采集模块从向互联网应用提供目标服务的服务应用采集交互报文日志。再由该日志采集模块将实时采集到的目标服务的交互报文日志发送给敏感数据预测模块，由敏感数据预测模块对日志采集模块实时采集到的目标服务的交互报文日志是否存在敏感数据泄露的风险进行预测。

在实际应用中，为了不影响服务应用向互联网应用提供服务，日志采集模块可利用filebeat组件实现目标服务的交互报文日志的实时异步采集。

步骤120，将目标服务的交互报文日志输入到敏感数据预测模型中，以确定目标服务的交互报文日志中是否存在敏感数据。

其中，敏感数据预测模型为基于多个服务的交互报文日志和对应的标签训练得到的，多个服务的交互报文日志的敏感数据和正常数据被标记有对应的标签。

其中，上述用于训练敏感数据预测模型的多个服务的交互报文日志，可由图2所示的日志采集模块从服务应用中采集并发送给图2所示的敏感数据预测模块，由敏感数据预测模块基于采集到的多个服务的交互报文日志训练得到敏感数据预测模型。

可选地，目标服务的交互报文日志可包括多个数据节点标识，每个数据节点标识对应于一个数据节点内容。具体地，将目标服务的交互报文日志输入到敏感数据预测模型中，以确定目标服务的交互报文日志中是否存在敏感数据，包括：

从目标服务的交互报文日志中获取数据节点标识和数据节点内容；

将目标服务的交互报文日志中的数据节点标识和数据节点内容输入到敏感数据预测模型中，以确定目标服务的交互报文日志中是否存在涉及敏感数据的数据节点标识。

可选地，数据节点标识可分为敏感数据标识和非敏感数据标识。其中敏感数据标识可包括用户姓名、身份证号码、通信地址、邮箱地址、护照号码、银行卡号和公司名称等敏感数据的标识。非敏感数据标识可包括用户每日流量使用状况、用户每月流量使用状况、用户每日话费消费状况、用户每日语音通话时长等不涉及用户敏感数据的非敏感数据的标识。

可选地，上述敏感数据预测模型为基于多个服务的交互报文日志中的数据节点标识和数据节点内容以及对应的标签训练得到的，该多个服务的交互报文日志中涉及敏感数据和正常数据的数据节点标识和数据节点内容被标记有对应的标签。该多个服务的交互报文日志中可包括一个类型的服务的多个交互报文日志，也可包括多个不同类型的服务的交互报文日志。

具体地，上述敏感数据预测模型的训练过程可包括：

S1，获取日志采集获取异步采集的多个服务的交互报文日志，清洗并解析多个服务的交互报文日志，分别获得多个服务的交互报文日志中的服务标识、数据节点标识和数据节点内容。

S2，采用Antlr4(ANother Tool for Language Recognition)工具逐个解析S1中获得数据节点标识和数据节点内容，将所有数据节点标识和数据节点内容按序组成一个向量矩阵。

S3，按照预设的敏感数据类别的判定规则，逐个将S2中的数据节点标识和数据节点内容标记为正常数据和敏感数据，作为训练数据的标签。

S4，使用S1～S3已预处理好的语料训练深度神经网络模型，即敏感数据预测模型。具体可以将此问题抽象为一个二分类问题，采用一个输入层，一个隐藏层，一个输出的多层感知器(MLP)，激活函数使用sigmoid函数。将训练好的模型存储于图2所示的敏感数据预测模块中，以便后续对服务的交互报文日志中是否存在敏感数据进行预测。

步骤130，如果目标服务的交互报文日志中存在敏感数据，则确定与目标服务的交互报文日志中的敏感数据的类别相匹配的目标脱敏规则。

可选地，为了便于确定敏感数据对应的脱敏规则，可预先针对不同类别的敏感数据设置敏感数据类别的判定规则和对应的脱敏规则，即下文所述的预设的敏感数据类别的判定规则与脱敏规则。具体地，确定与目标服务的交互报文日志中的敏感数据的类别相匹配的目标脱敏规则，包括：

通过预设的敏感数据类别的判定规则，从多个敏感数据的类别中，确定目标服务的交互报文日志中的敏感数据的类别；

基于多个敏感数据的类别与脱敏规则之间的映射关系，确定与目标服务的交互报文日志中的敏感数据的类别相匹配的目标脱敏规则。

可选地，所述多个敏感数据的类别包括下述至少一种：

用户姓名；

身份证号码；

通信地址；

邮箱地址；

护照号码；

银行卡号；

公司名称。

应理解，与上述多个敏感数据的类别相匹配的脱敏规则可包括：

脱敏规则1(名称替换之尾部):首字之后全部替换成*；

脱敏规则2(名称替换之头部):尾字之前全部替换成*；

脱敏规则3(全部模糊):全部用N个*代替，默认N＝8；

脱敏规则4(邮箱替换规则):@之前的部分替换成N个*,默认N＝8；

脱敏规则5(身份证替换规则):出生年月用*替换；

脱敏规则6(护照号码/军官证替换规则):替换最后N位,默认为4；

脱敏规则7(银行卡号替换规则):保留前5位和末四位，中间用*代替；

脱敏规则8(证件号替换规则):身份证按脱敏规则5，其他证件按脱敏规则6。

可选地，由于数据节点标识中可包括敏感数据标识和非敏感数据标识，因此，可确定目标服务的交互报文日志中涉及敏感数据的数据节点标识的敏感数据的类别。具体地，通过预设的敏感数据类别的判定规则，从多个敏感数据的类别中，确定目标服务的交互报文日志中的敏感数据的类别，包括：

通过预设的敏感数据类别的判定规则，从多个敏感数据的类别中，确定目标服务的交互报文日志中涉及敏感数据的数据节点标识的敏感数据的类别。

步骤140，基于目标脱敏规则，对目标服务的交互报文日志中的敏感数据进行脱敏处理。

可选地，当目标服务的交互报文日志中存在涉及敏感数据的数据节点标识时，具体可对目标服务的交互报文日志中涉及敏感数据的数据节点标识对应的数据节点内容进行脱敏处理。具体地，基于目标脱敏规则，对目标服务的交互报文日志中的敏感数据进行脱敏处理，包括：

基于目标脱敏规则，对目标服务的交互报文日志中涉及敏感数据的数据节点标识对应的数据节点内容进行脱敏处理。

以目标服务的交互报文日志中涉及敏感数据的数据节点标识的敏感数据类别为银行卡号为例，可按照脱敏规则7对目标服务的交互报文日志中涉及敏感数据的数据节点标识对应的数据节点内容进行脱敏处理。具体可将目标服务的交互报文日志中的银行卡号的前五位和末四位保留，同时中间数字用*代替。

图3是本说明书提供的敏感数据的处理装置300的结构示意图。请参考图3，在一种软件实施方式中，敏感数据的处理装置300可包括获取模块301、预测模块302、确定模块303和脱敏模块304，其中：

获取模块301，用于获取目标服务的交互报文日志；

预测模块302，用于将所述目标服务的交互报文日志输入到敏感数据预测模型中，以确定所述目标服务的交互报文日志中是否存在敏感数据，其中，所述敏感数据预测模型为基于多个服务的交互报文日志和对应的标签训练得到的，所述多个服务的交互报文日志的敏感数据和正常数据被标记有对应的标签；

确定模块303，用于如果所述目标服务的交互报文日志中存在敏感数据，则确定与所述目标服务的交互报文日志中的敏感数据的类别相匹配的目标脱敏规则；

脱敏模块304，用于基于所述目标脱敏规则，对所述目标服务的交互报文日志中的敏感数据进行脱敏处理。

可选地，在一种实施方式中，所述预测模块302，用于：

从所述目标服务的交互报文日志中获取数据节点标识和数据节点内容；

将所述目标服务的交互报文日志中的数据节点标识和数据节点内容输入到敏感数据预测模型中，以确定所述目标服务的交互报文日志中是否存在涉及敏感数据的数据节点标识。

可选地，在一种实施方式中，所述敏感数据预测模型为基于多个服务的交互报文日志中的数据节点标识和数据节点内容以及对应的标签训练得到的，所述多个服务的交互报文日志中涉及敏感数据和正常数据的数据节点标识和数据节点内容被标记有对应的标签。

可选地，在一种实施方式中，所述确定模块303，用于：

通过预设的敏感数据类别的判定规则，从多个敏感数据的类别中，确定所述目标服务的交互报文日志中的敏感数据的类别；

基于所述多个敏感数据的类别与脱敏规则之间的映射关系，确定与所述目标服务的交互报文日志中的敏感数据的类别相匹配的目标脱敏规则。

可选地，在一种实施方式中，所述确定模块303，用于：

通过预设的敏感数据类别的判定规则，从多个敏感数据的类别中，确定所述目标服务的交互报文日志中涉及敏感数据的数据节点标识的敏感数据的类别。

可选地，在一种实施方式中，所述多个敏感数据的类别包括下述至少一种：

用户姓名；

身份证号码；

通信地址；

邮箱地址；

护照号码；

银行卡号；

公司名称。

可选地，在一种实施方式中，所述脱敏模块304，用于：

基于所述目标脱敏规则，对所述目标服务的交互报文日志中涉及敏感数据的数据节点标识对应的数据节点内容进行脱敏处理。

敏感数据的处理装置300能够实现图1～图2的方法实施例的方法，具体可参考图1～图2所示实施例的敏感数据的处理方法，不再赘述。

图4是本说明书的一个实施例提供的电子设备的结构示意图。请参考图4，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成敏感数据的处理装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

获取目标服务的交互报文日志；

上述如本说明书图1所示实施例揭示的敏感数据的处理方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书一个或多个实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书一个或多个实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图1的敏感数据的处理方法，本说明书在此不再赘述。

当然，除了软件实现方式之外，本说明书的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

总之，以上所述仅为本说明书的较佳实施例而已，并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例的保护范围之内。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种敏感数据的处理方法，其特征在于，包括：

获取目标服务的交互报文日志；

2.如权利要求1所述的方法，其特征在于，将所述目标服务的交互报文日志输入到敏感数据预测模型中，以确定所述目标服务的交互报文日志中是否存在敏感数据，包括：

3.如权利要求2所述的方法，其特征在于，所述敏感数据预测模型为基于多个服务的交互报文日志中的数据节点标识和数据节点内容以及对应的标签训练得到的，所述多个服务的交互报文日志中涉及敏感数据和正常数据的数据节点标识和数据节点内容被标记有对应的标签。

4.如权利要求2或3所述的方法，其特征在于，确定与所述目标服务的交互报文日志中的敏感数据的类别相匹配的目标脱敏规则，包括：

5.如权利要求4所述的方法，其特征在于，通过预设的敏感数据类别的判定规则，从多个敏感数据的类别中，确定所述目标服务的交互报文日志中的敏感数据的类别，包括：

6.如权利要求5所述的方法，其特征在于，所述多个敏感数据的类别包括下述至少一种：

用户姓名；

身份证号码；

通信地址；

邮箱地址；

护照号码；

银行卡号；

公司名称。

7.如权利要求2所述的方法，其特征在于，基于所述目标脱敏规则，对所述目标服务的交互报文日志中的敏感数据进行脱敏处理，包括：

8.一种敏感数据的处理装置，其特征在于，包括：

获取模块，用于获取目标服务的交互报文日志；

预测模块，用于将所述目标服务的交互报文日志输入到敏感数据预测模型中，以确定所述目标服务的交互报文日志中是否存在敏感数据，其中，所述敏感数据预测模型为基于多个服务的交互报文日志和对应的标签训练得到的，所述多个服务的交互报文日志的敏感数据和正常数据被标记有对应的标签；

确定模块，用于如果所述目标服务的交互报文日志中存在敏感数据，则确定与所述目标服务的交互报文日志中的敏感数据的类别相匹配的目标脱敏规则；

脱敏模块，用于基于所述目标脱敏规则，对所述目标服务的交互报文日志中的敏感数据进行脱敏处理。

9.一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如下步骤：

获取目标服务的交互报文日志；

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如下步骤：

获取目标服务的交互报文日志；