CN113420141A

CN113420141A - 基于哈希聚类和上下文信息的敏感数据搜索方法

Info

Publication number: CN113420141A
Application number: CN202110703515.8A
Authority: CN
Inventors: 张磊; 潘志松; 潘雨; 王帅辉; 蒋考林; 谢艺菲; 李红梅; 黎维; 刘鑫
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2021-09-21
Anticipated expiration: 2041-06-24
Also published as: CN113420141B

Abstract

基于哈希聚类和上下文信息的敏感数据搜索方法，涉及一种数据脱敏技术，特别是一种基于在线敏感词汇识别、扩充、搜索、删除等数据脱敏方法。包括如下三个步骤：基于敏感词汇的哈希局部聚类：采用哈希的方法，对敏感词汇的局部特征点进行聚类；根据聚类目标构造上下文语义信息进行语义建模；最后引入相对熵方法利用构造的上下文语义信息对全文内容进行相似度度量完成对敏感词汇的检索。本发明同时集成了哈希局部聚类方法、上下文文本语义信息模型构造、相对熵计算相似度等功能，在敏感数据识别的关键环节采用该方法，可辅助人工实现脱敏策略制定。提供了敏感数据识别判别的新思路，大大提高了大规模敏感数据识别判别的效率。

Description

基于哈希聚类和上下文信息的敏感数据搜索方法

技术领域

本发明涉及一种数据脱敏技术，特别是一种基于在线敏感词汇识别、扩充、搜索、删除等数据脱敏方法。

背景技术

近年来，随着信息技术和因特网的持续发展，数据安全问题的形势越来越严峻，数据脱敏逐渐受到众多单位的重视。传统的数据脱敏研究大多侧重于脱敏方法的实现，缺少权限判决、敏感识别等功能，系统化水平不够高。同时，脱敏算法的选择多为人工指定和自定义配置，智能化水平不够高。此外，模式识别的发展对实现脱敏信息的自动识别提供了技术支持，但在敏感信息分类定级问题上缺少对企业需求的考虑，专业化水平不高。

数据脱敏又可称为数据去隐私化、数据变形，是指在保留数据初始特征的条件下，按需制定脱敏策略和任务，对敏感数据进行变换、修改的技术机制，可以在很大程度上解决敏感数据在非安全环境下使用的问题。数据脱敏实现的难点在于如何同时保障数据的安全及其可用性，其关键就是脱敏算法的选择，但是现阶段而言更多的是一种基于经验进行的决策。

同时，传统的人工标记敏感数据效率低，不适用于大规模文本数据进行脱敏，本发明可通过人工少量标记敏感数据样本，通过上下文语义信息等方法对大规模文本数据的敏感信息进行搜索匹配，尔后进行相应的数据脱敏操作，大大提高了数据脱敏的效率。

发明内容

本发明为解决数据脱敏的过程中过度依靠人工判别，效率低效等弱点，提出了一种基于上下文信息的敏感数据搜索方法技术。该方法同时集成了哈希局部聚类方法、上下文文本语义信息模型构造、相对熵计算相似度等功能，在敏感数据识别的关键环节采用该方法，可辅助人工实现脱敏策略制定。将大规模文本数据中的敏感信息进行检索与匹配，相较于传统数据脱敏方式，本发明提供了敏感数据识别判别的新思路，为数据脱敏方法改进提供了新方法，大大提高了大规模敏感数据识别判别的效率。

本发明对大规模文本数据的敏感信息进行识别判别，便于后期对数据进行脱敏操作，从而大大提高大规模文本数据脱敏的效率。

基于哈希聚类和上下文信息的敏感数据搜索方法，包括如下三个步骤：

1)基于敏感词汇的哈希局部聚类：采用哈希的方法，对敏感词汇的局部特征点进行聚类；

2)根据聚类目标构造上下文语义信息进行语义建模；

3)最后引入相对熵方法利用构造的上下文语义信息对全文内容进行相似度度量完成对敏感词汇的检索。

基于敏感词汇的哈希局部聚类具体包括如下过程：

首先对每个敏感词汇函数g_i(i＝1,…,L)，利用其分别对训练的敏感词汇点进行哈希映射，空间中距离很近的点就会存入哈希表的同一个桶中，以每个桶中心代表一个单词，则每个函数g_i都能生成一个哈希表，即一个随机化词典，那么，L个函数g₁,…,g_L就生成一个词典库。

单个词典生成的详细过程可描述如下：

(1)训练人工确定敏感词汇库的特征提取：采用人工的方法确定若干的敏感数据信息作为训练数据库I＝{I₁,I₂,…,I_k,…,I_T-1,I_T}，检测出I中所有词汇的特征点，得到包含K个点的特征库R＝{r₁,r₂,…,r_i,…,r_K-1,r_K}，其中每个点r_i都是一个特征向量；

(2)进行降维映射：对R中的每个点r_i，利用哈希函数对其进行降维映射，得到k维的向量g_i(r)；

(3)进行桶哈希：分别计算r的主哈希值h₁(g_i(r))和次哈希值h₂(g_i(r))，其中，主哈希值

其中，r_i'和r_i”是两个随机的整数，tablesize是哈希表的大小，它的大小应为数据点的数量，prime是一个素数，取值为5-2³²。将所有的主哈希值和次哈希值相同的点放入同一个桶中，生成一张哈希表T_i＝{b₁ ⁽ⁱ⁾,b₂ ⁽ⁱ⁾,…,b_k ⁽ⁱ⁾,…,b_Ni-1 ⁽ⁱ⁾,b_Ni ⁽ⁱ⁾}，b_k ⁽ⁱ⁾表示哈希表T_i的第k个桶，N_i为哈希表T_i中包含桶的个数，将每个桶的中心看作一个单词，便得到词典W_i＝{w₁ ⁽ⁱ⁾,w₂ ⁽ⁱ⁾,…,w_k ⁽ⁱ⁾,…,w_{N i-1} ⁽ⁱ⁾,w_Ni(i)}，其中w_k ⁽ⁱ⁾＝b_k ⁽ⁱ⁾；

(4)单词过滤：在信息损失很小的前提下，可以将包含信息量很少的单词滤除掉，为每个词典都保留M个单词，即

根据聚类目标构造上下文语义信息进行语义建模的具体过程为：在语言模型的基础上引入敏感词汇空间位置信息并利用目标周围的词典单元估计各词组的检索意图得分，分数的高低分别表示由该单词表征的与敏感词汇相关度的大小。

假设搜索目标和目标区域出现的概率是相互独立的，则有

p(p_i|q)∝p(q^b|p_i)p(q^l|p_i) (1)

其中，p_i为搜索目标在所查询目标区域q中所处的位置，p代表的是出现的概率，而整个查询目标区域定义为q＝{q^b，q^I}。其中，q^I＝[(q_i,p_i)]i,q^b＝[x_l,y_l,x_r,y_r]分别表示整个查询目标中由矩形边框界定的目标区域,[]i表示在目标中的任一数据。由贝叶斯准则将其转化为：

p(p_i|q)∝p(p_i|q^b)p(p_i|qI) (2)

而在这里有

p(p_i|q)∝exp(-γ(A_i-1)²) (3)

其中，A_i为p_i处的文本显著度得分，γ为检索的影响因子，为保证效率，在空间对文本进行意图检测并计算不同位置的得分；假设p(p_i|q^b)在文本中的位置是相互独立的，得到p_i处单词的检索意图得分S(p_i,q)

S(p_i,q)＝exp(-γ(A_i-1)²)×f(x_i；x_l,x_r,δ)f(y_i；y_l,y_r,δ) (4)

其中，x,y分别代表文本中的方向位置，δ表示对上下文语义信息目标模型对周围单元利用范围的大小。

本发明的有益效果

(1)本发明提出了基于哈希的敏感数据聚类：考虑到敏感数据本身的特性，提出了基于哈希敏感数据聚类方法，将哈希方法的优点应用于敏感数据中词汇的聚类中。

(2)本发明提出了基于上下文的敏感数据语义信息建模方法，在语言模型的基础上引入敏感词汇空间位置信息并利用目标周围的词典单元估计各词组的检索意图得分，并且实时性高，达到了又快又准的目的。

(3)本发明在的引入相对熵方法进行相似度度量完成对敏感词汇的检索，在选择子集时，相对熵可以衡量两个随机分布之间的距离，当两个随机分布相同时，它们的相对熵为零，当两个随机分布的差别增大时，它们的相对熵也会增大。所以相对熵用来比较文本的相似度，提高了方法的准确率。

具体实施方式

下面结合实验对本发明作进一步详细说明。

本发明实现了一种基于哈希聚类和上下文语义信息的敏感词汇搜索技术方法，包括人工确定若干敏感词汇，然后利用哈希方法对人工确定的敏感词汇欧式位置特征进行聚类，进而生成一组动态扩充的随机化词典组；之后，利用其周围目标构造包含上下文语义信息模型，最后，引入相对熵对全发明进行相似度度量完成对全发明的敏感词汇检索并进行隐藏或删除。

2)根据聚类目标构造上下文语义信息进行语义建模；

优选的是，本发明基于敏感词汇的哈希局部聚类具体包括如下过程：

优选的是，本发明单个词典生成的详细过程可描述如下：

(3)进行桶哈希：分别计算r的主哈希值h₁(g_i(r))和次哈希值h₂(g_i(r))，将所有的主哈希值和次哈希值相同的点放入同一个桶中，生成一张哈希表T_i＝{b₁ ⁽ⁱ⁾,b₂ ⁽ⁱ⁾,…,b_k ⁽ⁱ⁾,…,b_Ni-1 ⁽ⁱ⁾,b_Ni ⁽ⁱ⁾}，b_k ⁽ⁱ⁾表示哈希表T_i的第k个桶，N_i为哈希表T_i中包含桶的个数，将每个桶的中心看作一个单词，便得到词典W_i＝{w₁ ⁽ⁱ⁾,w₂ ⁽ⁱ⁾,…,w_k ⁽ⁱ⁾,…,w_N _i-1 ⁽ⁱ⁾,w_Ni(i)}，其中w_k ⁽ⁱ⁾＝b_k ⁽ⁱ⁾；

优选的是，本发明根据聚类目标构造上下文语义信息进行语义建模的具体过程为：在语言模型的基础上引入敏感词汇空间位置信息并利用目标周围的词典单元估计各词组的检索意图得分，分数的高低分别表示由该单词表征的与敏感词汇相关度的大小。

优选的是，本发明假设搜索目标和目标区域出现的概率是相互独立的，则有

p(p_i|q)∝p(q^b|p_i)p(q^l|p_i) (1)

由贝叶斯准则将其转化为：

p(p_i|q)∝p(p_i|q^b)p(p_i|qI) (2)

而在这里有

p(p_i|q)∝exp(-γ(A_i-1)²) (3)

S(p_i,q)＝exp(-γ(A_i-1)²)×f(x_i；x_l,x_r,δ)f(y_i；y_l,y_r,δ) (4)

其中，x,y分别代表文本中的方向位置，x_l,y_l,x_r,y_r分别表示整个查询目标中由矩形边框界定的目标区域，x_i,y_i分别代表文本中i的方向位置，δ表示对上下文语义信息目标模型对周围单元利用范围的大小,当,δ→∞时,表示查询目标仅为矩形框内的内容,当δ＝0时表示将整幅查询图像作为查询目标。

本发明相对熵用于比较文本的相似度，先统计出词的频率，然后计算相对熵，它们的相对熵越小，说明两段文本词典越相似，当两段文本的相对熵超过设置的相关阈值时，即可判断为敏感数据。

我们选用的实验数据为github上提供的brightmart/nlp_chinese_corpus数据集。此外，为了验证在大规模数据下的实验性能，本文又引入了相关干扰项。性能评价采用查全率、查准率。

众所周知，哈希表个数L以及哈希函数个数k是哈希算法中非常关键的两个参数。不难得出，L取值越大，算法的随机性越小，但算法的效率会随之降低，而参数k对哈希表中的桶数目具有较大影响。本文以提取约13668560个特征点，然后采用不同的k、L值的对其聚类生成不同规模的词典组，并分析其对目标检索结果的影响，综合考虑到算法的精度和效率，我们取L＝25,k＝10。

由上述可知，在构造上下文语义信息目标模型时有两个较为重要的参数γ和δ。其中γ为词汇的检索影响因子，δ表示对上下文语义信息目标模型对周围单元利用范围的大小，本发明分析了参数γ和δ对检索的平均查准率均值的影响，当参数γ和δ的值分别为0.005和10时，检索结果较好，因此取γ＝0.005，δ＝10。

首先，通过哈希方法聚类生成一组随机化词典组，并映射完成特征点与单词间匹配的方法，为克服视觉单词同义性和歧义性问题的有效性，将其与传统的硬分配和常用的软分配作比较，基于随机化视觉词典组的方法相较于硬分配方法和软分配方法具有更高的检索精度。而软分配方法对克服单词同义性和歧义性问题具有有效性，因此，我们提出的特征点聚类能够更为有效地克服视觉单词的同义性和歧义性问题。

其次，我们将本发明所述方法与经典的查询扩展方法进行比较，未考虑上下文语义信息的语言模型方法以及将随机化视觉词典组与语言模型相结合的方法在数据库上对部分目标的检索准确度作了比较，总结了上下文语义信息对检索结果的影响，得到了平均查准率均值。对不同的查询目标而言，经典的方法的平均查准率均值均低于我们所提的方法。由于随机化词典组能有效克服单词同义性与歧义性问题，因此，我们所提的方法的平均查准率值相较于经典的方法是有所提高的，而且经典的方法因没有构建信息量丰富准确的目标模型，所以与我们所提出的方法相比效果较差，由此也说明如果克服了单词同义性与歧义性问题及构建信息量丰富准确的目标模型都能够提高目标检索准确度。我们的方法在随机化词典组的基础上又利用目标周围的单元构建包含上下文语义信息的目标模型，因此它的平均查准率值均高于其它方法，由此也充分说明上下文语义信息目标模型对提高检索准确度的有效性。

在加入干扰项的数据库我们同样进行相同的实验，进行相关检索时，经典的方法因没有构建信息量更为准确、丰富的目标模型，因此其检索性能都有明显的下降，而我们所提的方法却下降不明显，并且我们的方法仍优于其他方法。由此说明本文方法在大规模数据情况下仍有较高的准确度。

最后，我们还将我们所提的方法和其他算法在构建词典及特征点与单词匹配的时间消耗作了对比。首先，从数据集中提取约2130000个特征点，然后分别采用不同的算法进行聚类生成词典，并分别进行映射，完成特征点与单词的匹配，随着词典规模增大，我们所提的方法和经典的方法时间消耗都以近乎对数的形式增加，但经典的方法的时间效率与特征点数的多少成正比，而我们所提的方法则几乎不受特征点数量的影响。经典方法的耗时随着词典规模增大而线性增加，而我们所提的方法随着词典规模增大，其耗时基本保持不变。可以看出，我们所提的方法在数据规模增大的情况下，依然可以保持较高的时间效率，具有更强的实用性。

Claims

1.基于哈希聚类和上下文信息的敏感数据搜索方法，其特征在于包括如下三个步骤：

2)根据聚类目标构造上下文语义信息进行语义建模；

2.根据权利要求1所述的基于哈希聚类和上下文信息的敏感数据搜索方法，其特征在于：上述基于敏感词汇的哈希局部聚类具体包括如下过程：

3.根据权利要求2所述的基于哈希聚类和上下文信息的敏感数据搜索方法，其特征在于：单个词典生成的详细过程可描述如下：

其中，r_i'和r_i”是两个随机的整数，tablesize是哈希表的大小，它的大小应为数据点的数量，prime是一个素数，取值为5-2³²。将所有的主哈希值和次哈希值相同的点放入同一个桶中，生成一张哈希表T_i＝{b₁ ⁽ⁱ⁾,b₂ ⁽ⁱ⁾,…,b_k ⁽ⁱ⁾,…,b_Ni-1 ⁽ⁱ⁾,b_Ni ⁽ⁱ⁾}，b_k ⁽ⁱ⁾表示哈希表T_i的第k个桶，N_i为哈希表T_i中包含桶的个数，将每个桶的中心看作一个单词，便得到词典W_i＝{w₁ ⁽ⁱ⁾,w₂ ⁽ⁱ⁾,…,w_k ⁽ⁱ⁾,…,w_Ni-1 ⁽ⁱ⁾,w_Ni(i)}，其中w_k ⁽ⁱ⁾＝b_k ⁽ⁱ⁾；

(4)单词过滤：在信息损失很小的前提下，可以将包含信息量很少的单词滤除掉，为每个词典都保留M个单词，即W_i＝{w₁ ⁽ⁱ⁾,w₂ ⁽ⁱ⁾,…,w_k ⁽ⁱ⁾,…,w_M-1 ⁽ⁱ⁾,w_M ⁽ⁱ⁾},i＝1,…,L。

4.根据权利要求3所述的基于哈希聚类和上下文信息的敏感数据搜索方法，其特征在于：上述根据聚类目标构造上下文语义信息进行语义建模的具体过程为：在语言模型的基础上引入敏感词汇空间位置信息并利用目标周围的词典单元估计各词组的检索意图得分，分数的高低分别表示由该单词表征的与敏感词汇相关度的大小。

5.根据权利要求4所述的基于哈希聚类和上下文信息的敏感数据搜索方法，其特征在于：假设搜索目标和目标区域出现的概率是相互独立的，则有

p(p_i|q)∝p(q^b|p_i)p(q^I|p_i) (1)

其中，p_i为搜索目标在所查询目标区域q中所处的位置，p代表的是出现的概率，而整个查询目标区域定义为q＝{q^b，q^I}，其中，q^I＝[(q_i,p_i)]i,q^b＝[x_l,y_l,x_r,y_r]分别表示整个查询目标中由矩形边框界定的目标区域,[]i表示在目标中的任一数据，由贝叶斯准则将其转化为：

p(p_i|q)∝p(p_i|q^b)p(p_i|qI) (2)

而在这里有

p(p_i|q)∝exp(-γ(A_i-1)²) (3)

S(p_i,q)＝exp(-γ(A_i-1)²)×f(x_i；x_l,x_r,δ)f(y_i；y_l,y_r,δ) (4)

其中，x,y分别代表文本中的方向位置，x_l,y_l,x_r,y_r分别表示整个查询目标中由矩形边框界定的目标区域，x_i,y_i分别代表文本中i的方向位置，δ表示对上下文语义信息目标模型对周围单元利用范围的大小,当δ→∞时,表示查询目标仅为矩形框内的内容,当δ＝0时表示将整幅查询图像作为查询目标。

6.根据权利要求5所述的引入相对熵方法进行相似度度量完成对敏感词汇的检索，其特征在于：相对熵用于比较文本的相似度，先统计出词的频率，然后计算相对熵，它们的相对熵越小，说明两段文本词典越相似，当两段文本的相对熵超过设置的相关阈值时，即可判断为敏感数据。