CN113420141A - 基于哈希聚类和上下文信息的敏感数据搜索方法 - Google Patents
基于哈希聚类和上下文信息的敏感数据搜索方法 Download PDFInfo
- Publication number
- CN113420141A CN113420141A CN202110703515.8A CN202110703515A CN113420141A CN 113420141 A CN113420141 A CN 113420141A CN 202110703515 A CN202110703515 A CN 202110703515A CN 113420141 A CN113420141 A CN 113420141A
- Authority
- CN
- China
- Prior art keywords
- hash
- sensitive
- clustering
- target
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 230000006870 function Effects 0.000 claims abstract description 16
- 230000008569 process Effects 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000011524 similarity measure Methods 0.000 claims 1
- 238000000586 desensitisation Methods 0.000 abstract description 23
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000004364 calculation method Methods 0.000 abstract description 2
- 238000010276 construction Methods 0.000 abstract description 2
- 238000012217 deletion Methods 0.000 abstract description 2
- 230000037430 deletion Effects 0.000 abstract description 2
- 238000009472 formulation Methods 0.000 abstract description 2
- 239000000203 mixture Substances 0.000 abstract description 2
- 238000009826 distribution Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 8
- 230000000007 visual effect Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/325—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
基于哈希聚类和上下文信息的敏感数据搜索方法,涉及一种数据脱敏技术,特别是一种基于在线敏感词汇识别、扩充、搜索、删除等数据脱敏方法。包括如下三个步骤:基于敏感词汇的哈希局部聚类:采用哈希的方法,对敏感词汇的局部特征点进行聚类;根据聚类目标构造上下文语义信息进行语义建模;最后引入相对熵方法利用构造的上下文语义信息对全文内容进行相似度度量完成对敏感词汇的检索。本发明同时集成了哈希局部聚类方法、上下文文本语义信息模型构造、相对熵计算相似度等功能,在敏感数据识别的关键环节采用该方法,可辅助人工实现脱敏策略制定。提供了敏感数据识别判别的新思路,大大提高了大规模敏感数据识别判别的效率。
Description
技术领域
本发明涉及一种数据脱敏技术,特别是一种基于在线敏感词汇识别、扩充、搜索、删除等数据脱敏方法。
背景技术
近年来,随着信息技术和因特网的持续发展,数据安全问题的形势越来越严峻,数据脱敏逐渐受到众多单位的重视。传统的数据脱敏研究大多侧重于脱敏方法的实现,缺少权限判决、敏感识别等功能,系统化水平不够高。同时,脱敏算法的选择多为人工指定和自定义配置,智能化水平不够高。此外,模式识别的发展对实现脱敏信息的自动识别提供了技术支持,但在敏感信息分类定级问题上缺少对企业需求的考虑,专业化水平不高。
数据脱敏又可称为数据去隐私化、数据变形,是指在保留数据初始特征的条件下,按需制定脱敏策略和任务,对敏感数据进行变换、修改的技术机制,可以在很大程度上解决敏感数据在非安全环境下使用的问题。数据脱敏实现的难点在于如何同时保障数据的安全及其可用性,其关键就是脱敏算法的选择,但是现阶段而言更多的是一种基于经验进行的决策。
同时,传统的人工标记敏感数据效率低,不适用于大规模文本数据进行脱敏,本发明可通过人工少量标记敏感数据样本,通过上下文语义信息等方法对大规模文本数据的敏感信息进行搜索匹配,尔后进行相应的数据脱敏操作,大大提高了数据脱敏的效率。
发明内容
本发明为解决数据脱敏的过程中过度依靠人工判别,效率低效等弱点,提出了一种基于上下文信息的敏感数据搜索方法技术。该方法同时集成了哈希局部聚类方法、上下文文本语义信息模型构造、相对熵计算相似度等功能,在敏感数据识别的关键环节采用该方法,可辅助人工实现脱敏策略制定。将大规模文本数据中的敏感信息进行检索与匹配,相较于传统数据脱敏方式,本发明提供了敏感数据识别判别的新思路,为数据脱敏方法改进提供了新方法,大大提高了大规模敏感数据识别判别的效率。
本发明对大规模文本数据的敏感信息进行识别判别,便于后期对数据进行脱敏操作,从而大大提高大规模文本数据脱敏的效率。
基于哈希聚类和上下文信息的敏感数据搜索方法,包括如下三个步骤:
1)基于敏感词汇的哈希局部聚类:采用哈希的方法,对敏感词汇的局部特征点进行聚类;
2)根据聚类目标构造上下文语义信息进行语义建模;
3)最后引入相对熵方法利用构造的上下文语义信息对全文内容进行相似度度量完成对敏感词汇的检索。
基于敏感词汇的哈希局部聚类具体包括如下过程:
首先对每个敏感词汇函数gi(i=1,…,L),利用其分别对训练的敏感词汇点进行哈希映射,空间中距离很近的点就会存入哈希表的同一个桶中,以每个桶中心代表一个单词,则每个函数gi都能生成一个哈希表,即一个随机化词典,那么,L个函数g1,…,gL就生成一个词典库。
单个词典生成的详细过程可描述如下:
(1)训练人工确定敏感词汇库的特征提取:采用人工的方法确定若干的敏感数据信息作为训练数据库I={I1,I2,…,Ik,…,IT-1,IT},检测出I中所有词汇的特征点,得到包含K个点的特征库R={r1,r2,…,ri,…,rK-1,rK},其中每个点ri都是一个特征向量;
(2)进行降维映射:对R中的每个点ri,利用哈希函数对其进行降维映射,得到k维的向量gi(r);
(3)进行桶哈希:分别计算r的主哈希值h1(gi(r))和次哈希值h2(gi(r)),其中,主哈希值 其中,ri'和ri”是两个随机的整数,tablesize是哈希表的大小,它的大小应为数据点的数量,prime是一个素数,取值为5-232。将所有的主哈希值和次哈希值相同的点放入同一个桶中,生成一张哈希表Ti={b1 (i),b2 (i),…,bk (i),…,bNi-1 (i),bNi (i)},bk (i)表示哈希表Ti的第k个桶,Ni为哈希表Ti中包含桶的个数,将每个桶的中心看作一个单词,便得到词典Wi={w1 (i),w2 (i),…,wk (i),…,wN i-1 (i),wNi(i)},其中wk (i)=bk (i);
根据聚类目标构造上下文语义信息进行语义建模的具体过程为:在语言模型的基础上引入敏感词汇空间位置信息并利用目标周围的词典单元估计各词组的检索意图得分,分数的高低分别表示由该单词表征的与敏感词汇相关度的大小。
假设搜索目标和目标区域出现的概率是相互独立的,则有
p(pi|q)∝p(qb|pi)p(ql|pi) (1)
其中,pi为搜索目标在所查询目标区域q中所处的位置,p代表的是出现的概率,而整个查询目标区域定义为q={qb,qI}。其中,qI=[(qi,pi)]i,qb=[xl,yl,xr,yr]分别表示整个查询目标中由矩形边框界定的目标区域,[]i表示在目标中的任一数据。由贝叶斯准则将其转化为:
p(pi|q)∝p(pi|qb)p(pi|qI) (2)
而在这里有
p(pi|q)∝exp(-γ(Ai-1)2) (3)
其中,Ai为pi处的文本显著度得分,γ为检索的影响因子,为保证效率,在空间对文本进行意图检测并计算不同位置的得分;假设p(pi|qb)在文本中的位置是相互独立的,得到pi处单词的检索意图得分S(pi,q)
S(pi,q)=exp(-γ(Ai-1)2)×f(xi;xl,xr,δ)f(yi;yl,yr,δ) (4)
其中,x,y分别代表文本中的方向位置,δ表示对上下文语义信息目标模型对周围单元利用范围的大小。
本发明的有益效果
(1)本发明提出了基于哈希的敏感数据聚类:考虑到敏感数据本身的特性,提出了基于哈希敏感数据聚类方法,将哈希方法的优点应用于敏感数据中词汇的聚类中。
(2)本发明提出了基于上下文的敏感数据语义信息建模方法,在语言模型的基础上引入敏感词汇空间位置信息并利用目标周围的词典单元估计各词组的检索意图得分,并且实时性高,达到了又快又准的目的。
(3)本发明在的引入相对熵方法进行相似度度量完成对敏感词汇的检索,在选择子集时,相对熵可以衡量两个随机分布之间的距离,当两个随机分布相同时,它们的相对熵为零,当两个随机分布的差别增大时,它们的相对熵也会增大。所以相对熵用来比较文本的相似度,提高了方法的准确率。
具体实施方式
下面结合实验对本发明作进一步详细说明。
本发明实现了一种基于哈希聚类和上下文语义信息的敏感词汇搜索技术方法,包括人工确定若干敏感词汇,然后利用哈希方法对人工确定的敏感词汇欧式位置特征进行聚类,进而生成一组动态扩充的随机化词典组;之后,利用其周围目标构造包含上下文语义信息模型,最后,引入相对熵对全发明进行相似度度量完成对全发明的敏感词汇检索并进行隐藏或删除。
基于哈希聚类和上下文信息的敏感数据搜索方法,包括如下三个步骤:
1)基于敏感词汇的哈希局部聚类:采用哈希的方法,对敏感词汇的局部特征点进行聚类;
2)根据聚类目标构造上下文语义信息进行语义建模;
3)最后引入相对熵方法利用构造的上下文语义信息对全文内容进行相似度度量完成对敏感词汇的检索。
优选的是,本发明基于敏感词汇的哈希局部聚类具体包括如下过程:
首先对每个敏感词汇函数gi(i=1,…,L),利用其分别对训练的敏感词汇点进行哈希映射,空间中距离很近的点就会存入哈希表的同一个桶中,以每个桶中心代表一个单词,则每个函数gi都能生成一个哈希表,即一个随机化词典,那么,L个函数g1,…,gL就生成一个词典库。
优选的是,本发明单个词典生成的详细过程可描述如下:
(1)训练人工确定敏感词汇库的特征提取:采用人工的方法确定若干的敏感数据信息作为训练数据库I={I1,I2,…,Ik,…,IT-1,IT},检测出I中所有词汇的特征点,得到包含K个点的特征库R={r1,r2,…,ri,…,rK-1,rK},其中每个点ri都是一个特征向量;
(2)进行降维映射:对R中的每个点ri,利用哈希函数对其进行降维映射,得到k维的向量gi(r);
(3)进行桶哈希:分别计算r的主哈希值h1(gi(r))和次哈希值h2(gi(r)),将所有的主哈希值和次哈希值相同的点放入同一个桶中,生成一张哈希表Ti={b1 (i),b2 (i),…,bk (i),…,bNi-1 (i),bNi (i)},bk (i)表示哈希表Ti的第k个桶,Ni为哈希表Ti中包含桶的个数,将每个桶的中心看作一个单词,便得到词典Wi={w1 (i),w2 (i),…,wk (i),…,wN i-1 (i),wNi(i)},其中wk (i)=bk (i);
优选的是,本发明根据聚类目标构造上下文语义信息进行语义建模的具体过程为:在语言模型的基础上引入敏感词汇空间位置信息并利用目标周围的词典单元估计各词组的检索意图得分,分数的高低分别表示由该单词表征的与敏感词汇相关度的大小。
优选的是,本发明假设搜索目标和目标区域出现的概率是相互独立的,则有
p(pi|q)∝p(qb|pi)p(ql|pi) (1)
由贝叶斯准则将其转化为:
p(pi|q)∝p(pi|qb)p(pi|qI) (2)
而在这里有
p(pi|q)∝exp(-γ(Ai-1)2) (3)
其中,Ai为pi处的文本显著度得分,γ为检索的影响因子,为保证效率,在空间对文本进行意图检测并计算不同位置的得分;假设p(pi|qb)在文本中的位置是相互独立的,得到pi处单词的检索意图得分S(pi,q)
S(pi,q)=exp(-γ(Ai-1)2)×f(xi;xl,xr,δ)f(yi;yl,yr,δ) (4)
其中,x,y分别代表文本中的方向位置,xl,yl,xr,yr分别表示整个查询目标中由矩形边框界定的目标区域,xi,yi分别代表文本中i的方向位置,δ表示对上下文语义信息目标模型对周围单元利用范围的大小,当,δ→∞时,表示查询目标仅为矩形框内的内容,当δ=0时表示将整幅查询图像作为查询目标。
本发明相对熵用于比较文本的相似度,先统计出词的频率,然后计算相对熵,它们的相对熵越小,说明两段文本词典越相似,当两段文本的相对熵超过设置的相关阈值时,即可判断为敏感数据。
我们选用的实验数据为github上提供的brightmart/nlp_chinese_corpus数据集。此外,为了验证在大规模数据下的实验性能,本文又引入了相关干扰项。性能评价采用查全率、查准率。
众所周知,哈希表个数L以及哈希函数个数k是哈希算法中非常关键的两个参数。不难得出,L取值越大,算法的随机性越小,但算法的效率会随之降低,而参数k对哈希表中的桶数目具有较大影响。本文以提取约13668560个特征点,然后采用不同的k、L值的对其聚类生成不同规模的词典组,并分析其对目标检索结果的影响,综合考虑到算法的精度和效率,我们取L=25,k=10。
由上述可知,在构造上下文语义信息目标模型时有两个较为重要的参数γ和δ。其中γ为词汇的检索影响因子,δ表示对上下文语义信息目标模型对周围单元利用范围的大小,本发明分析了参数γ和δ对检索的平均查准率均值的影响,当参数γ和δ的值分别为0.005和10时,检索结果较好,因此取γ=0.005,δ=10。
首先,通过哈希方法聚类生成一组随机化词典组,并映射完成特征点与单词间匹配的方法,为克服视觉单词同义性和歧义性问题的有效性,将其与传统的硬分配和常用的软分配作比较,基于随机化视觉词典组的方法相较于硬分配方法和软分配方法具有更高的检索精度。而软分配方法对克服单词同义性和歧义性问题具有有效性,因此,我们提出的特征点聚类能够更为有效地克服视觉单词的同义性和歧义性问题。
其次,我们将本发明所述方法与经典的查询扩展方法进行比较,未考虑上下文语义信息的语言模型方法以及将随机化视觉词典组与语言模型相结合的方法在数据库上对部分目标的检索准确度作了比较,总结了上下文语义信息对检索结果的影响,得到了平均查准率均值。对不同的查询目标而言,经典的方法的平均查准率均值均低于我们所提的方法。由于随机化词典组能有效克服单词同义性与歧义性问题,因此,我们所提的方法的平均查准率值相较于经典的方法是有所提高的,而且经典的方法因没有构建信息量丰富准确的目标模型,所以与我们所提出的方法相比效果较差,由此也说明如果克服了单词同义性与歧义性问题及构建信息量丰富准确的目标模型都能够提高目标检索准确度。我们的方法在随机化词典组的基础上又利用目标周围的单元构建包含上下文语义信息的目标模型,因此它的平均查准率值均高于其它方法,由此也充分说明上下文语义信息目标模型对提高检索准确度的有效性。
在加入干扰项的数据库我们同样进行相同的实验,进行相关检索时,经典的方法因没有构建信息量更为准确、丰富的目标模型,因此其检索性能都有明显的下降,而我们所提的方法却下降不明显,并且我们的方法仍优于其他方法。由此说明本文方法在大规模数据情况下仍有较高的准确度。
最后,我们还将我们所提的方法和其他算法在构建词典及特征点与单词匹配的时间消耗作了对比。首先,从数据集中提取约2130000个特征点,然后分别采用不同的算法进行聚类生成词典,并分别进行映射,完成特征点与单词的匹配,随着词典规模增大,我们所提的方法和经典的方法时间消耗都以近乎对数的形式增加,但经典的方法的时间效率与特征点数的多少成正比,而我们所提的方法则几乎不受特征点数量的影响。经典方法的耗时随着词典规模增大而线性增加,而我们所提的方法随着词典规模增大,其耗时基本保持不变。可以看出,我们所提的方法在数据规模增大的情况下,依然可以保持较高的时间效率,具有更强的实用性。
Claims (6)
1.基于哈希聚类和上下文信息的敏感数据搜索方法,其特征在于包括如下三个步骤:
1)基于敏感词汇的哈希局部聚类:采用哈希的方法,对敏感词汇的局部特征点进行聚类;
2)根据聚类目标构造上下文语义信息进行语义建模;
3)最后引入相对熵方法利用构造的上下文语义信息对全文内容进行相似度度量完成对敏感词汇的检索。
2.根据权利要求1所述的基于哈希聚类和上下文信息的敏感数据搜索方法,其特征在于:上述基于敏感词汇的哈希局部聚类具体包括如下过程:
首先对每个敏感词汇函数gi(i=1,…,L),利用其分别对训练的敏感词汇点进行哈希映射,空间中距离很近的点就会存入哈希表的同一个桶中,以每个桶中心代表一个单词,则每个函数gi都能生成一个哈希表,即一个随机化词典,那么,L个函数g1,…,gL就生成一个词典库。
3.根据权利要求2所述的基于哈希聚类和上下文信息的敏感数据搜索方法,其特征在于:单个词典生成的详细过程可描述如下:
(1)训练人工确定敏感词汇库的特征提取:采用人工的方法确定若干的敏感数据信息作为训练数据库I={I1,I2,…,Ik,…,IT-1,IT},检测出I中所有词汇的特征点,得到包含K个点的特征库R={r1,r2,…,ri,…,rK-1,rK},其中每个点ri都是一个特征向量;
(2)进行降维映射:对R中的每个点ri,利用哈希函数对其进行降维映射,得到k维的向量gi(r);
(3)进行桶哈希:分别计算r的主哈希值h1(gi(r))和次哈希值h2(gi(r)),其中,主哈希值 其中,ri'和ri”是两个随机的整数,tablesize是哈希表的大小,它的大小应为数据点的数量,prime是一个素数,取值为5-232。将所有的主哈希值和次哈希值相同的点放入同一个桶中,生成一张哈希表Ti={b1 (i),b2 (i),…,bk (i),…,bNi-1 (i),bNi (i)},bk (i)表示哈希表Ti的第k个桶,Ni为哈希表Ti中包含桶的个数,将每个桶的中心看作一个单词,便得到词典Wi={w1 (i),w2 (i),…,wk (i),…,wNi-1 (i),wNi(i)},其中wk (i)=bk (i);
(4)单词过滤:在信息损失很小的前提下,可以将包含信息量很少的单词滤除掉,为每个词典都保留M个单词,即Wi={w1 (i),w2 (i),…,wk (i),…,wM-1 (i),wM (i)},i=1,…,L。
4.根据权利要求3所述的基于哈希聚类和上下文信息的敏感数据搜索方法,其特征在于:上述根据聚类目标构造上下文语义信息进行语义建模的具体过程为:在语言模型的基础上引入敏感词汇空间位置信息并利用目标周围的词典单元估计各词组的检索意图得分,分数的高低分别表示由该单词表征的与敏感词汇相关度的大小。
5.根据权利要求4所述的基于哈希聚类和上下文信息的敏感数据搜索方法,其特征在于:假设搜索目标和目标区域出现的概率是相互独立的,则有
p(pi|q)∝p(qb|pi)p(qI|pi) (1)
其中,pi为搜索目标在所查询目标区域q中所处的位置,p代表的是出现的概率,而整个查询目标区域定义为q={qb,qI},其中,qI=[(qi,pi)]i,qb=[xl,yl,xr,yr]分别表示整个查询目标中由矩形边框界定的目标区域,[]i表示在目标中的任一数据,由贝叶斯准则将其转化为:
p(pi|q)∝p(pi|qb)p(pi|qI) (2)
而在这里有
p(pi|q)∝exp(-γ(Ai-1)2) (3)
其中,Ai为pi处的文本显著度得分,γ为检索的影响因子,为保证效率,在空间对文本进行意图检测并计算不同位置的得分;假设p(pi|qb)在文本中的位置是相互独立的,得到pi处单词的检索意图得分S(pi,q)
S(pi,q)=exp(-γ(Ai-1)2)×f(xi;xl,xr,δ)f(yi;yl,yr,δ) (4)
其中,x,y分别代表文本中的方向位置,xl,yl,xr,yr分别表示整个查询目标中由矩形边框界定的目标区域,xi,yi分别代表文本中i的方向位置,δ表示对上下文语义信息目标模型对周围单元利用范围的大小,当δ→∞时,表示查询目标仅为矩形框内的内容,当δ=0时表示将整幅查询图像作为查询目标。
6.根据权利要求5所述的引入相对熵方法进行相似度度量完成对敏感词汇的检索,其特征在于:相对熵用于比较文本的相似度,先统计出词的频率,然后计算相对熵,它们的相对熵越小,说明两段文本词典越相似,当两段文本的相对熵超过设置的相关阈值时,即可判断为敏感数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110703515.8A CN113420141B (zh) | 2021-06-24 | 2021-06-24 | 基于哈希聚类和上下文信息的敏感数据搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110703515.8A CN113420141B (zh) | 2021-06-24 | 2021-06-24 | 基于哈希聚类和上下文信息的敏感数据搜索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113420141A true CN113420141A (zh) | 2021-09-21 |
CN113420141B CN113420141B (zh) | 2022-10-04 |
Family
ID=77716515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110703515.8A Active CN113420141B (zh) | 2021-06-24 | 2021-06-24 | 基于哈希聚类和上下文信息的敏感数据搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113420141B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115391642A (zh) * | 2022-07-28 | 2022-11-25 | 京信数据科技有限公司 | 一种基于秘密共享的隐私查询方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070038659A1 (en) * | 2005-08-15 | 2007-02-15 | Google, Inc. | Scalable user clustering based on set similarity |
US20080205774A1 (en) * | 2007-02-26 | 2008-08-28 | Klaus Brinker | Document clustering using a locality sensitive hashing function |
CN102693311A (zh) * | 2012-05-28 | 2012-09-26 | 中国人民解放军信息工程大学 | 基于随机化视觉词典组和上下文语义信息的目标检索方法 |
CN103744934A (zh) * | 2013-12-30 | 2014-04-23 | 南京大学 | 一种基于位置敏感哈希的分布式索引方法 |
WO2016180268A1 (zh) * | 2015-05-13 | 2016-11-17 | 阿里巴巴集团控股有限公司 | 一种文本聚合方法及装置 |
CN107103206A (zh) * | 2017-04-27 | 2017-08-29 | 福建师范大学 | 基于标准熵的局部敏感哈希的dna序列聚类 |
CN107391554A (zh) * | 2017-06-07 | 2017-11-24 | 中国人民解放军国防科学技术大学 | 高效分布式局部敏感哈希方法 |
CN108959478A (zh) * | 2018-06-21 | 2018-12-07 | 中南林业科技大学 | 一种云环境下的密文图像检索方法及系统 |
CN110288592A (zh) * | 2019-07-02 | 2019-09-27 | 中南大学 | 一种基于概率语义分析模型的锌浮选加药状态评价的方法 |
-
2021
- 2021-06-24 CN CN202110703515.8A patent/CN113420141B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070038659A1 (en) * | 2005-08-15 | 2007-02-15 | Google, Inc. | Scalable user clustering based on set similarity |
US20080205774A1 (en) * | 2007-02-26 | 2008-08-28 | Klaus Brinker | Document clustering using a locality sensitive hashing function |
CN102693311A (zh) * | 2012-05-28 | 2012-09-26 | 中国人民解放军信息工程大学 | 基于随机化视觉词典组和上下文语义信息的目标检索方法 |
CN103744934A (zh) * | 2013-12-30 | 2014-04-23 | 南京大学 | 一种基于位置敏感哈希的分布式索引方法 |
WO2016180268A1 (zh) * | 2015-05-13 | 2016-11-17 | 阿里巴巴集团控股有限公司 | 一种文本聚合方法及装置 |
CN107103206A (zh) * | 2017-04-27 | 2017-08-29 | 福建师范大学 | 基于标准熵的局部敏感哈希的dna序列聚类 |
CN107391554A (zh) * | 2017-06-07 | 2017-11-24 | 中国人民解放军国防科学技术大学 | 高效分布式局部敏感哈希方法 |
CN108959478A (zh) * | 2018-06-21 | 2018-12-07 | 中南林业科技大学 | 一种云环境下的密文图像检索方法及系统 |
CN110288592A (zh) * | 2019-07-02 | 2019-09-27 | 中南大学 | 一种基于概率语义分析模型的锌浮选加药状态评价的方法 |
Non-Patent Citations (2)
Title |
---|
蒋巍: "基于位置敏感哈希的海量文本数据查询算法研究", 《科技通报》 * |
陈兰兰等: "基于多视角聚类模型的微博文本数据挖掘算法研究", 《科技通报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115391642A (zh) * | 2022-07-28 | 2022-11-25 | 京信数据科技有限公司 | 一种基于秘密共享的隐私查询方法及系统 |
CN115391642B (zh) * | 2022-07-28 | 2023-03-10 | 京信数据科技有限公司 | 一种基于秘密共享的隐私查询方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113420141B (zh) | 2022-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021093755A1 (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
CN112434169B (zh) | 一种知识图谱的构建方法及其系统和计算机设备 | |
CN110851645B (zh) | 一种基于深度度量学习下相似性保持的图像检索方法 | |
CN103473283B (zh) | 一种文本案例匹配方法 | |
CN103365925B (zh) | 获取多音字拼音、基于拼音检索的方法及其相应装置 | |
CN103473327A (zh) | 图像检索方法与系统 | |
CN108614897B (zh) | 一种面向自然语言的内容多样化搜索方法 | |
CN106934005A (zh) | 一种基于密度的文本聚类方法 | |
CN109271640A (zh) | 文本信息的地域属性识别方法及装置、电子设备 | |
CN113032584B (zh) | 一种实体关联方法、装置、电子设备及存储介质 | |
CN111125299B (zh) | 一种基于用户行为分析的动态词库更新方法 | |
CN113420141B (zh) | 基于哈希聚类和上下文信息的敏感数据搜索方法 | |
CN107239554B (zh) | 一种基于匹配度检索英文文本的方法 | |
CN111917788A (zh) | 基于hmm模型的sql注入攻击检测方法 | |
CN111026787A (zh) | 网点检索方法、装置及系统 | |
KR102609616B1 (ko) | 이미지 처리 방법, 장치, 전자 기기 및 컴퓨터 판독 가능한 저장 매체 | |
CN110347812A (zh) | 一种面向司法文本的搜索排序方法及系统 | |
CN114266249A (zh) | 一种基于birch聚类的海量文本聚类方法 | |
CN109344233A (zh) | 一种中文人名识别方法 | |
CN107818078B (zh) | 汉语自然语言对话的语义关联与匹配方法 | |
CN114580556A (zh) | 专利文献的预评估方法及装置 | |
Williams | Results of classifying documents with multiple discriminant functions | |
CN113609247A (zh) | 一种基于改进Simhash算法的大数据文本去重技术 | |
CN108733824B (zh) | 考虑专家知识的交互式主题建模方法及装置 | |
JPH11110395A (ja) | 類似文書検索装置および類似文書検索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |