CN104966032B

CN104966032B - 一种云端数据库中敏感信息随机化拟态方法

Info

Publication number: CN104966032B
Application number: CN201510434350.3A
Authority: CN
Inventors: 吴春明; 邢骏驰
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2015-07-22
Filing date: 2015-07-22
Publication date: 2017-11-17
Anticipated expiration: 2035-07-22
Also published as: CN104966032A

Abstract

本发明公开了一种云端数据库中敏感信息随机化拟态方法，借助于本发明方法，不但可以将攻击者收集的真实敏感信息的内容基于随机化拟态算法进行替换，而且替换后的拟态敏感信息严格按照真实敏感信息的格式和上下文语法进行生成，可令攻击者误以为其获得了真实的敏感信息，从而一定程度上增加其攻击成本。合法用户不会对此类敏感信息有需求或需要一系列标准的授权过程，所以本发明不会对合法用户的使用造成影响。

Description

一种云端数据库中敏感信息随机化拟态方法

技术领域

本发明涉及信息安全技术领域，尤其涉及一种云端数据库中敏感信息随机化拟态方法。

背景技术

目前，随着云计算技术的日益发达，众多普通用户会将其个人资料以及各类的账户密码等敏感信息存放在大中小型企业的云端数据库。然而，各类企业在安全上的技术水平参差不齐，导致云数据库的架构与配置往往存在大量漏洞，当恶意的攻击者借助于某些攻击方法(如SQL注入攻击、爬虫攻击等)，即可较为轻易地对数据库内部的用户敏感信息进行收集，给广大正常用户带来经济上的严重损失或个人隐私的泄露。

现有的技术大多采取将敏感信息在云端数据库内加密保存，然而考虑到各类加密算法的公开性，一旦攻击者获取到敏感信息的密文形式，通过穷举法等方式即可破解出敏感信息的明文形式，即造成敏感信息的泄露。

发明内容

为了克服当前云端数据库存在的敏感信息泄露的问题，本发明提供一种敏感信息随机化拟态方法。借助于本发明方法，不但可以将攻击者收集的真实敏感信息的内容基于随机化拟态算法进行替换，而且替换后的拟态敏感信息严格按照真实敏感信息的格式和上下文语法进行生成，可令攻击者误以为其获得了真实的敏感信息，从而一定程度上增加其攻击成本。合法用户不会对此类敏感信息有需求或需要一系列标准的授权过程，所以本发明不会对合法用户的使用造成影响。

本发明解决以上问题所采用的技术方案是：一种云端数据库中敏感信息随机化拟态方法，包括以下步骤：

(1)在云端数据库所在的服务器所对应的应用层网关中向数据库管理员提供配置接口，该接口用于制定判定经过网关的内容是否为敏感信息的规则；将某一类的敏感信息用一个正则表达式表示，管理员只需在相应的配置文件中书写目标正则表达式即可；此处将敏感信息判别正则表达集合用向量R＝{r₁，r₂，r₃,…,r_k,…,r_n}表示，其中r_k表示第k个敏感信息判别正则表达式，该向量的维度为n；

(2)当恶意攻击者利用工具从云端数据库采集敏感信息时，应用层网关根据配置文件的内容进行随机化拟态处理，该步骤通过以下子步骤来实现：

(2.1)云端数据库经过网关的响应内容具体表现形式为HTTP包体，其包含若干用户真实敏感信息，用text_real表示；当text_real经过网关，网关读取配置文件内容，将text_real作为主串，敏感信息判别正则表达集合R中的每一个元素作为模式串，利用KMP算法进行匹配查询；匹配的过程基于正则表达式regex引擎库中的regex.Ismatch函数，查找到主串中需要替换的字符串集合，用OBJ＝{obj₁,obj₂,obj₃,…,obj_k,…,obj_m}表示，其中，m表示需要替换字符串的数量，并且由KMP算法生成的每一个obj_k对应一个三维数组mark＝{loc，len，i}，其中loc表示obj_k原来在text_real中的位置、len表示obj_k的字符串长度，i表示obj_k所依赖的规则r_i在R中的次序；

(2.2)将OBJ＝{obj₁,obj₂,obj₃,…,obj_k,…,obj_m}中的每一个元素基于正则表达式regex引擎库中regex.StringRand函数产生一个随机的字符串，所依赖的正则表达式即为r_i，最终替换为经过随机化拟态处理过后的虚假敏感信息，用TAR＝{tar₁,tar₂,tar₃,…,tar_m}表示；

(2.3)将TAR中的元素依次取代text_real中相应OBJ中的元素的原有内容，其位置和长度根据预先生成的三维数组mark，在相同位置替换相同长度的字符串，即：text_real中的obj_k--->tar_k；最终生成虚假的HTTP协议包体text_false；

(3)通过网关将虚假的HTTP协议包体text_false返还给恶意的攻击者。

本发明的有益效果是：

(1)可以将用户存储在云数据库中的敏感信息进行有效的随机动态保护，克服了传统的防护方法中静态加密简单直接、易被破解的问题。

(2)对恶意攻击者具有错误的引导作用。通过本发明的保护，攻击者得到似是而非的虚假用户敏感信息，对其造成迷惑的效果，一定程度上增加其攻击所用成本。

附图说明

图1是本发明的总架构图。

图2是本发明的总流程图。

具体实施方式

下面以一个真实攻击场景为背景，结合图1和图2，通过一个应用随机化拟态方法的实例详细描述本发明。

如图1所示，本发明方法将随机化拟态方法固化或植入到云端数据库所在的服务器所对应的应用层Nginx网关中。攻击者向服务器发送HTTP请求后，服务器的HTTP响应包头与包体会经过该应用层网关，对包体内容进行随机化拟态，最后将虚假的包体内容返还给恶意攻击者。具体包括以下步骤：

(1)在云端数据库所在的服务器所对应的应用层网关中向数据库管理员提供配置接口，该接口用于制定判定经过网关的内容是否为敏感信息的规则；将某一类的敏感信息用一个正则表达式表示，管理员只需在相应的配置文件中书写目标正则表达式即可；此处将敏感信息判别正则表达集合用向量R＝{r₁，r₂，r₃,…,r_k,…,r_n}表示，其中r_k表示第k个敏感信息判别正则表达式，该向量的维度为n；并且敏感信息判别正则表达集合可以随着使用过程中迭代更新。

(2)如图2所示，当恶意攻击者利用Sqlmap工具从云端数据库采集敏感信息时，应用层网关根据配置文件的内容进行随机化拟态处理，该步骤通过以下子步骤来实现：

(2.1)云端数据库经过网关的响应内容具体表现形式为HTTP包体，其带有真实敏感信息，用text_real表示，HTTP包体包含若干用户密码的md5加密后的结果。当text_real经过网关，网关读取配置文件内容，将text_real作为主串，敏感信息判别正则表达集合R中的每一个元素作为模式串(本实例应用[a-fA-F0-9]{32,32}这一正则表达式)，利用KMP算法进行匹配查询。匹配的过程基于正则表达式regex引擎库中的regex.Ismatch函数，查找到主串中需要替换的字符串集合，用OBJ＝{obj₁,obj₂,obj₃,…,obj_k,…,obj_m}表示，其中，m表示需要替换字符串的数量，并且由KMP算法生成的每一个obj_k对应一个三维数组mark＝{loc，len，i}，其中loc表示obj_k原来在text_real中的位置、len表示obj_k的字符串长度，i表示obj_k所依赖的规则r_i在R中的次序。

(2.2)将OBJ＝{obj₁,obj₂,obj₃,…,obj_k,…,obj_m}中的每一个元素基于正则表达式regex引擎库中regex.StringRand函数产生一个随机的字符串，所依赖的正则表达式即为r_i，如obj₁为5f4dcc3b5aa765d61d8327deb882cf99，所依赖的正则表达式即为[a-fA-F0-9]{32,32}，最终替换为经过随机化拟态处理过后的虚假敏感信息，用TAR＝{tar₁,tar₂,tar₃,…,tar_m}表示，根据obj₁，生成tar₁为3e14537bd41a69f42a1a6b7823fc2649。

(2.3)将TAR中的元素依次取代text_real中相应OBJ中的元素的原有内容，其位置和长度根据预先生成的三维数组mark，在相同位置替换相同长度的字符串，即：text_real中的obj_k--->tar_k。最终生成虚假的HTTP协议包体text_false。

Claims

1.一种云端数据库中敏感信息随机化拟态方法，其特征在于，包括以下步骤：

(1)在云端数据库所在的服务器所对应的应用层网关中向数据库管理员提供配置接口，该接口用于制定判定经过网关的内容是否为敏感信息的规则；将某一类的敏感信息用一个正则表达式表示，管理员只需在相应的配置文件中书写目标正则表达式即可；此处将敏感信息判别正则表达集合用向量R＝{r₁，r₂，r₃,…,r_k,…,r_n}表示，其中r_k表示第k个敏感信息判别的正则表达式，该向量的维度为n；

(2.1)云端数据库经过网关的响应内容具体表现形式为HTTP包体，其包含若干用户真实敏感信息，用text_real表示；当text_real经过网关，网关读取配置文件内容，将text_real作为主串，敏感信息判别正则表达集合R中的每一个元素作为模式串，利用KMP算法进行匹配查询；匹配的过程基于正则表达式regex引擎库中的regex.Ismatch函数，查找到主串中需要替换的字符串集合，用OBJ＝{obj₁,obj₂,obj₃,…,obj_k,…,obj_m}表示，其中，m表示需要替换字符串的数量，并且由KMP算法生成的每一个obj_k对应一个三维数组mark＝{loc，len，i}，其中loc表示obj_k原来在text_real中的位置、len表示obj_k的字符串长度，i表示obj_k所依赖的正则表达式r_i在R中的次序；