CN105373521B - 一种基于Minwise Hash动态多阈值过滤计算文本相似度的方法 - Google Patents

一种基于Minwise Hash动态多阈值过滤计算文本相似度的方法 Download PDF

Info

Publication number
CN105373521B
CN105373521B CN201510887828.8A CN201510887828A CN105373521B CN 105373521 B CN105373521 B CN 105373521B CN 201510887828 A CN201510887828 A CN 201510887828A CN 105373521 B CN105373521 B CN 105373521B
Authority
CN
China
Prior art keywords
document
similarity
text
threshold value
minwise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510887828.8A
Other languages
English (en)
Other versions
CN105373521A (zh
Inventor
袁鑫攀
何频捷
彭成
曹阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HUNAN YUN ZHI IOT NETWORKTECHNOLOGY Co.,Ltd.
Original Assignee
Hunan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University of Technology filed Critical Hunan University of Technology
Priority to CN201510887828.8A priority Critical patent/CN105373521B/zh
Publication of CN105373521A publication Critical patent/CN105373521A/zh
Application granted granted Critical
Publication of CN105373521B publication Critical patent/CN105373521B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于Minwise Hash动态多阈值过滤计算文本相似度的方法,该方法将比对过程划分为多个比对点,并设置各比对点的动态阈值,过滤相似度低于下界阈值TL(k)的文档,输出相似度高于上界阈值TU(k)的文档。这种提前过滤的方法减少了后续的比对次数,降低了工作量。针对数据的各种情况,对于文档集合全部都是重复的极端情况,基于文本相似度上界阈值的过滤策略会非常有效;对于文档集合全部都是不重复的极端情况,基于文本相似度下界阈值的过滤策略则会非常有效。

Description

一种基于Minwise Hash动态多阈值过滤计算文本相似度的 方法
技术领域
本发明属于信息检索领域,特别涉及一种基于Minwise Hash动态多阈值过滤计算文本相似度的方法。
背景技术
WEB正经历着爆炸性增长,越来越多的文献资料开始在网上公布,这种趋势使得网络上文档资源成几何级数增长,为人类共享知识和创造财富提供了前所未有的便利,也对我国的现代化建设有着积极的推动作用。然而,这些数字化资源给人们提供帮助的同时,资源的易获性也使得文档的非法复制、抄袭、剽窃等行为越来越猖獗,使得在各种论文和项目申请书等中,可能存在比较严重的抄袭现象。同时,随着国家对教育科研的大量投入,提供了各种教育和科技项目的资助,如:国家自然科学基金项目、教育部的博士点项目,各省市的基金项目、各种科技计划等。由于这些项目属于不同的职能部门单位分管,这就使得项目申请书存在着多次申报和多头申报的现象。申请书的抄袭、多次申报和多头申报现象严重影响了项目审批的客观性和公平性,对国家科研经费的合理分配产生不良的影响,造成科学研究经费可能得不到高效利用。为防止抄袭剽窃,端正学术风气,进行文档相似性检测技术的研究非常有意义。由此,世界各地的搜索引擎、图书馆、基金会、论文库、知识产权部门等都投入巨大的人力、物力和财力,正努力地在文档相似性检测上摸索和探究,以期尽快突破相似性检测的关键科学问题,为论文、项目申请书、奖励申报书、专利的查重或搜索引擎的网页去重等提供了良好的解决方案。
相似性检测数据具有海量性的特点,以国家自然科学基金申请书为例,目前就2013年申请量来说,申请书数量达17万份以上,每年还将以较快的速度增长。又如,近几年中国每年高校毕业生人数约为700万,其中大部分的毕业论文都需要进行相似性检测,每年5月份论文检测量达到高峰,日均在几万份以上,相似性检测不但要和当年的数据进行查重,还需要和历史数据进行检测,而如此海量的文档,光靠常规检测方式是根本行不通的,因此迫切需要借助哈希估计技术,建立一套精度和效率俱优的检测机制,实现对海量文档的相似性比对技术。文本相似度度量这一概念及相关技术也应运而生。一个好的文本相似度度量方法在相似性检测、自动问答系统、智能检索、网页去重、自然语言处理等研究领域具有重要的意义。
文本相似度是指两个或者多个文本之间的匹配程度的一个度量参数,相似度越高,表示两个文本之间的相似程度越大,反之越低。传统的文本相似度度量方法是向量空间模型(VSM)通过计算待查文档与数据集中某一篇文档带有权重的频率向量内积,得到两篇文档的相似度。算法需要存储大量的特征词汇、比对速度慢、准确率低等缺点,无法应用于海量数据中相似度度量。基于Minwise相似性度量算法作为最主流、成熟的相似性检测方法,通过将相似度问题转换为一个事件的发生概率问题,将文本词汇集合映射到hash值集合中,将字符串比对问题转化为特征指纹比对问题,适用于海量数据相似度度量。
基于Minwise相似性度量算法及其变种算法具有较高的估计精度,被大多数的文本相似性度量技术借鉴,广泛应用于计算机的各个领域中,有了相当多的理论和实验方法的创新和发展。目前,在海量数据的环境下对于Minwise哈希估计算法的研究趋势,集中在以下四个方面:1)降低存储空间,2)三者相似性估计,3)提高估计精度,4)提高算法效率。
1)降低存储空间方面:b位Minwise Hash[12]将b=64缩小到b=1,降低了存储空间和计算时间。分数位Minwise Hash算法[13]对各种精度和存储空间需求有着更加广泛的可选择性;2)三者相似性估计方面:文献[14]提出了基于b位Minwise哈希三者估计的估计子;3)在提高精度方面:文献[15]提出b位极大似然Minwise哈希,有效提高了在极端数据情况下的估计精度;4)在提高算法效率方面:One Permutation Hashing[16]只需一次置换,就能达到k次置换的效果(k次置换占Minwise哈希估计总消耗时间的80%),提升了指纹生成效率。
综上所述,目前在降低海量指纹存储空间和提高精度等方面已经有较多成熟的算法,已有明显的改进。在海量文档数据的环境下,算法效率成为最制约海量文档相似性检测系统能否可用的因素。缩短算法的运算时间是相似度估计算法必须考虑的要素。因此,Minwise哈希估计理论急需解决问题是提高算法效率。
发明内容
针对文档集中的文档更多是低相似性文档这个特点,本发明提供了一种基于Minwise Hash动态多阈值过滤计算文本相似度的方法,克服Minwise Hash估算时间的瓶颈问题。
一种基于Minwise Hash动态多阈值过滤计算文本相似度的方法,包括以下步骤:
步骤一,提取待计算文本相似度的文档对的文本特征:minwise指纹集合Sd,集合Sd的大小为K;
[在现有的文本相似度计算方法中,需要minwise指纹集合中所有的指纹进行一一比对,即比对次数为指纹集合的大小;]
步骤二,设置多个比对点k,将总比对次数K划分为若干个阶段;
[为了减少比对次数,依据设置的比对点作为比对次数进行文本相似度计算,提前预估文本相似度;]
步骤三,分别计算所设置的比对点k对应的文本相似度上界阈值TU(k)与文本相似度下界阈值TL(k):
TU(k)=ml/k,TU(k)=mu/k;
其中,ml表示比对点的下界阈值,按照计算获得的m即为ml
mu表示比对点的上界阈值,按照计算获得的m即为mu
X是文档对S1,S2的minwise特征指纹相等次数,m为比对次数阈值,0<m≤k;T0为预设文本相似度阈值;i表示第i次比对;Pr(·)表示括号中的事件发生的概率,且事件发生概率为小概率;
步骤四,计算文档对第k次比对时的文本相似度估计值并依据以下准则判断是否过滤当前文本对:
则过滤当前文档对;
则当前文档对的相似度较高,以当前的文本相似度估计值作为当前文档对的文本相似度,保留当前文档对;
否则,增大比对点k,返回步骤三,重新计算文档对的文本相似度。
Pr(·)的取值小于或等于1E-10。
所述步骤一提取待计算文本相似度的文档对的文本特征minwise指纹集合Sd,具体过程如下:
首先,提取文档的文本特征,获得文本特征集合Sshgs
其次,对文本特征集合进行数值映射,得到文档对应的数值集合Sd
最后,文档对应的数值集合Sd采用minwise指纹表征:
有益效果
本发明提供了一种基于Minwise Hash动态多阈值过滤计算文本相似度的方法,该方法将比对过程划分为多个比对点,并设置各比对点的动态阈值,过滤相似度低于下界阈值TL(k)的文档,输出相似度高于上界阈值TU(k)的文档。这种提前过滤的方法减少了后续的比对次数,降低了工作量。针对数据的各种情况,对于文档集合全部都是重复的极端情况,基于文本相似度上界阈值的过滤策略会非常有效;对于文档集合全部都是不重复的极端情况,基于文本相似度下界阈值的过滤策略则会非常有效。而在实际的文档集中,相似的文档毕竟占少数,不相似性的文档是大多数。实验结果表明过滤算法在选取了适当的参数时,计算时间仅为Minwise Hash的31%,较大地提升了算法的时间效率。所发明的估算方法不仅能应用于Minwise Hash,也能用于它的变种算法(如b位Minwise Hash),乃至所有符合二项分布的估计子。
在海量数据的相似度检测中,例如网页去重,常常有上亿的网页需要估计相似度。仅仅只需少量的比对次数(例如100次比对),就可过滤大多数文档的比对,可减少大量比对时间,具有较强的实际应用价值。
附图说明
图1是原始Minwise Hash输出相似度大于预设阈值T0的文档对的示意图;
图2是原始Minwise Hash在增设阈值Tk=100后输出相似度大于T0的文档对的示意图;
图3是原始Minwise Hash在增设上阈值和下阈值后输出相似度大于T0的文档对的示意图;
图4是原始Minwise Hash在增设多个上阈值和下阈值后输出相似度大于T0的文档对的示意图;
图5是选取的不同小概率和Minwise Hash动态多阈值过滤算法过滤率的关系图,其中,(a)是预设相似度阈值T0为0.3的情况,(b)是预设相似度阈值T0为0.5的情况,
(c)是预设相似度阈值T0为0.8的情况;
图6是不同小概率和下阈值TL(k)的关系图,(a)是预设相似度阈值T0为0.3的情况,(b)是预设相似度阈值T0为0.5的情况,(c)是预设相似度阈值T0为0.8的情况;
图7是原始Minwise Hash方法和Minwise Hash动态多阈值过滤算法时间性能在选取多种小概率的情况下的比较图,其中,(a)为RM和Rk(Pr=1E-10,1E-5,1E-3)计算时间;(b)为Rb和Ebk(Pr=1E-10,1E-5,1E-3)计算时间。
具体实施方式
下面将结合附图和实施例对本发明做进一步的说明。
本发明提出的查找相似文本的方法,具体包括如下步骤:
步骤一,文本特征提取步骤:该步骤用于提取文本特征集合Sd
首先,对文本信息进行扫描分析,利用中文分词算法对文档进行分词,利用停用词表过滤掉文本噪音数据后的分词集合即为文档的词集Sshgs。噪音即为文本中无意义的词语,一般是高频低义的助词、虚词等;
对词集Sshgs采用Rabin函数,映射32位的整数,映射后集合命名为Sd。假定全集Ω={0,1,...,D-1},a0a1,…aD-1恒指Ω上的一个排列,向量(a0,a1,…,aD-1)代表Ω的一个置换:
如果对于数据集X∈Ω且x∈X,存在一个排列π,使得
步骤二,在原始Minwise Hash过滤算法中设定若干个对比点;
给定2个文档S1和S2,两者的相似度定义为:其中,f1=|Sd1|,f2=|Sd1|,a=|Sd1∩Sd1|
在Minwise相似性估计算法中,两个文档的Minwise相似性估计子为:
式中,K表示两篇文档进行比对的minwise特征指纹的数量。一般而言,K必须要是一个比较大的值,如1000,即两个文档必须要比对足够多的minwise特征指纹才能得到相对精确的相似度。
选择若干个比对点将比对过程划分为数个阶段。若总比对次数K=1000,可设比对点为100,200,…等。
步骤三,计算比对点k处的上阈值TU和下阈值TL
在比对点k处,假设文档对{S1,S2}的相似度根据二项分布概率公式可知,对于参数m(0<m≤k),事件{X≤m}的概率:
事件{X>m}的概率:
可得定理1:
定理2:
其中,TL(k)为下界阈值,TU(k)为上界阈值。
下界阈值的计算方法为:
预设阈值T0=0.5,在比对点k上,选择小概率值Pr,代入公式(3)可以计算出ml。代入定理1中即可计算得出下界阈值TU(k)=ml/k。
如选择小概率为Pr=1E-10,k为100,T0为0.5的时候,代入公式(3)中可得方程:
解之得ml为21,可知给定条件下,k=100处的下界阈值为0.21。
上界阈值的计算方法为:
预设阈值T0,在比对点k上,选择小概率值Pr,代入公式(4)可以计算出mu。代入定理2中即可计算得出下界阈值TU(k)=mu/k。
如选择小概率为Pr=1E-10,k为100,T0为0.5的时候,代入公式(4)中可得方程:
解之得ml为81,可知给定条件下,k=100处的下界阈值为0.81。
步骤四,每一个文档对在进行第ki次比对的时候,若相似度大于TU,则提前输出;若相似度小于TL,则提前过滤;
否则,增大比对点k,返回步骤三,重新计算文档对的文本相似度。
当预设阈值T0为0.5,在比对点k=100上,若文档对{S1,S2}的相似度则在全部K次比对后,相似度不可能大于T0(大于T0的概率为1E-10,可看做不可能发生事件),可以提前过滤该文档对。若文档对的相似度则在全部K次比对后,相似度不可能小于T0(小于T0的概率为1E-10,可看做不可能发生事件),可以提前输出该文档对。
在选定的所有比对点k上分别计算上界阈值和下界阈值。文档对在进行第ki次比对时,若相似度小于下界阈值,则提前过滤;若相似度大于上界阈值,则提前输出。最终输出所有相似度大于T0的文档对。
图1表明了原始Minwise Hash输出相似度大于T0的文档。图2表明在k=100时,可增设下界阈值TL(100),若则不用后续900次比对,即可得出则还需进行剩下的900次比对,计算出
下面给出了Minwise Hash的动态双重阈值过滤器的完整实现过程。
设小概率为1E-10,由定理1、2经计算可得Minwise Hash的若干个动态相似度下界阈值TL(k)和上界阈值TU(k),如表1、2所示。
表1动态下界阈值TL(k)
表2动态上界阈值TU(k)
Minwise Hash的动态双重阈值过滤器具体过程如下:
以下从时间性能和参数优化选择论证该优势:
以某基金的申报项目为数据来源,对30万文档对,设定的小概率值Pr=1E-10、1E-5、1E-3进行下界阈值TL(k)的检测实验
比对点k时的过滤率为:
其中,Num为文档对的总数(30万)。
显然,过滤率和输入的文档数据有很大的关系。低相似性的数据越多,则过滤率越高。而本实验主要测试小概率和过滤率的关系,通过式(12),测得在不同小概率Pr(1E-10,1E-5,1E-3)下的过滤率,如图5所示。图5表明,选取的小概率Pr越大,则过滤率越高,例如当k=100,R0=0.3时,E(0.3,100,1E-10)=10%,E(0.3,100,1E-5)=60%,E(0.3,100,1E-3)=72%。其中,E(0.3,100,1E-10)=10%表明有10%文档节省了后面的900次比对。
测量RMinwise(原始Minwise Hash),在不同的小概率Pr(Pr=1E-10、1E-5、1E-3)下的Rk(Minwise Hash的下界阈值过滤)的计算时间,如图7(a)所示。测量Rbminwise(b位MinwiseHash),在不同的小概率Pr(Pr=1E-10、1E-5、1E-3)下Ebk(b位Minwise Hash的下界阈值过滤)的计算时间,如图7(b)所示。
图7表明在不同的小概率值(Pr=1E-10、1E-5、1E-3)下,比对10000个文档对,RMinwise的计算时间为7020s,Rk(Pr=1E-3)的计算时间最少,只需要2175s,计算时间仅为Minwise Hash的31%;Rbminwise的计算时间为6000s;Ebk(Pr=1E-3)的计算时间为2200s,仅为b位Minwise Hash的36%。
这表明:1)过滤算法能提升时间性能。2)若设置越大的小概率(Pr),则下界阈值也会越大,过滤率越大,则比对时间越少。

Claims (3)

1.一种基于Minwise Hash动态多阈值过滤计算文本相似度的方法,其特征在于,包括以下步骤:
步骤一,提取待计算文本相似度的文档对的文本特征:minwise指纹集合Sd,集合Sd的大小为K;
步骤二,设置多个比对点k,将总比对次数K划分为若干个阶段;
步骤三,分别计算所设置的比对点k对应的文本相似度上界阈值TU(k)与文本相似度下界阈值TL(k):
TU(k)=ml/k,TU(k)=mu/k;
其中,ml表示比对点的下界阈值,按照计算获得的m即为ml
mu表示比对点的上界阈值,按照计算获得的m即为mu
X是文档对S1,S2的minwise特征指纹相等次数,m为比对次数阈值,0<m≤k;T0为预设文本相似度阈值;i表示第i次比对;Pr(·)表示括号中的事件发生的概率,且事件发生概率为小概率;
步骤四,计算文档对第k次比对时的文本相似度估计值并依据以下准则判断是否过滤当前文本对:
则过滤当前文档对;
则当前文档对的相似度较高,以当前的文本相似度估计值作为当前文档对的文本相似度,保留当前文档对;
否则,增大比对点k,返回步骤三,重新计算文档对的文本相似度。
2.根据权利要求1所述的方法,其特征在于,Pr(·)的取值小于或等于1E-10。
3.根据权利要求1或2所述的方法,其特征在于,所述步骤一提取待计算文本相似度的文档对的文本特征minwise指纹集合Sd,具体过程如下:
首先,提取文档的文本特征,获得文本特征集合Sshgs
其次,对文本特征集合进行数值映射,得到文档对应的数值集合Sd
最后,文档对应的数值集合Sd采用minwise指纹表征:
CN201510887828.8A 2015-12-04 2015-12-04 一种基于Minwise Hash动态多阈值过滤计算文本相似度的方法 Active CN105373521B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510887828.8A CN105373521B (zh) 2015-12-04 2015-12-04 一种基于Minwise Hash动态多阈值过滤计算文本相似度的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510887828.8A CN105373521B (zh) 2015-12-04 2015-12-04 一种基于Minwise Hash动态多阈值过滤计算文本相似度的方法

Publications (2)

Publication Number Publication Date
CN105373521A CN105373521A (zh) 2016-03-02
CN105373521B true CN105373521B (zh) 2018-06-29

Family

ID=55375730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510887828.8A Active CN105373521B (zh) 2015-12-04 2015-12-04 一种基于Minwise Hash动态多阈值过滤计算文本相似度的方法

Country Status (1)

Country Link
CN (1) CN105373521B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110891010B (zh) * 2018-09-05 2022-09-16 百度在线网络技术(北京)有限公司 用于发送信息的方法和装置
CN111444325B (zh) * 2020-03-30 2023-06-20 湖南工业大学 一种位置编码单次随机置换哈希度量文档相似度的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063502A (zh) * 2014-07-08 2014-09-24 中南大学 一种基于语义模型的wsdl半结构化文档相似性分析及分类方法
CN104636325A (zh) * 2015-02-06 2015-05-20 中南大学 一种基于极大似然估计确定文档相似度的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101577376B1 (ko) * 2014-01-21 2015-12-14 (주) 아워텍 텍스트 기준점 기반의 저작권 침해 판단 시스템 및 그 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063502A (zh) * 2014-07-08 2014-09-24 中南大学 一种基于语义模型的wsdl半结构化文档相似性分析及分类方法
CN104636325A (zh) * 2015-02-06 2015-05-20 中南大学 一种基于极大似然估计确定文档相似度的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Asymmetric Minwise Hashing;Anshumali Shrivastava et al.;《Computer Science》;20141114;全文 *
Near-duplicate document detection with improved similarity measurement;YUAN Xin-pan et al.;《中南大学学报(英文版)》;20120831;第19卷(第8期);全文 *
基于minwise哈希的文档复制检测的研究及应用;袁鑫攀;《中国博士学位论文全文数据库 信息科技辑》;20140315(第03期);全文 *
基于连接位Minwise Hash的三者相似性估计算法;袁鑫攀 等;《上海交通大学学报》;20140731;第48卷(第7期);全文 *

Also Published As

Publication number Publication date
CN105373521A (zh) 2016-03-02

Similar Documents

Publication Publication Date Title
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN105389349B (zh) 词典更新方法及装置
US10346257B2 (en) Method and device for deduplicating web page
US10579661B2 (en) System and method for machine learning and classifying data
CN110321925B (zh) 一种基于语义聚合指纹的文本多粒度相似度比对方法
CN103514183B (zh) 基于交互式文档聚类的信息检索方法及系统
Buana et al. Combination of k-nearest neighbor and k-means based on term re-weighting for classify indonesian news
CN111581949B (zh) 学者人名的消歧方法、装置、存储介质及终端
CN104636325B (zh) 一种基于极大似然估计确定文档相似度的方法
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
Bleik et al. Text categorization of biomedical data sets using graph kernels and a controlled vocabulary
US11928879B2 (en) Document analysis using model intersections
CN107291895B (zh) 一种快速的层次化文档查询方法
CN111782797A (zh) 一种科技项目评审专家自动匹配方法及存储介质
AU2019200371A1 (en) Utilizing artificial intelligence to integrate data from multiple diverse sources into a data structure
CN110019820B (zh) 一种病历中主诉与现病史症状时间一致性检测方法
CN105373521B (zh) 一种基于Minwise Hash动态多阈值过滤计算文本相似度的方法
CN106815209B (zh) 一种维吾尔文农业技术术语识别方法
CN103150388A (zh) 一种提取关键词的方法及装置
CN108733733B (zh) 基于机器学习的生物医学文本分类方法、系统和存储介质
CN115129890A (zh) 回馈数据图谱生成方法、生成设备、问答设备及冰箱
CN110413782B (zh) 一种表自动主题分类方法、装置、计算机设备及存储介质
CN113987536A (zh) 数据表中字段安全等级确定方法、装置、电子设备及介质
CN105718430A (zh) 一种基于分组最小值作为指纹计算相似度的方法
Zandieh et al. Clustering data text based on semantic

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200529

Address after: Room g0044, headquarters building, Changsha Zhongdian Software Park Co., Ltd., No. 39, Jianshan Road, Changsha hi tech Development Zone, Changsha City, Hunan Province

Patentee after: HUNAN YUN ZHI IOT NETWORKTECHNOLOGY Co.,Ltd.

Address before: 412000 Hunan University of Technology, 88 Taishan Road, Hunan, Zhuzhou

Patentee before: HUNAN University OF TECHNOLOGY