CN116205236B - 基于实体命名识别的数据快速脱敏系统及方法 - Google Patents

基于实体命名识别的数据快速脱敏系统及方法 Download PDF

Info

Publication number
CN116205236B
CN116205236B CN202310501858.5A CN202310501858A CN116205236B CN 116205236 B CN116205236 B CN 116205236B CN 202310501858 A CN202310501858 A CN 202310501858A CN 116205236 B CN116205236 B CN 116205236B
Authority
CN
China
Prior art keywords
data
clustering
identification
target
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310501858.5A
Other languages
English (en)
Other versions
CN116205236A (zh
Inventor
代幻成
杨尧
周文
杨波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Sanlitong Technology Development Group Co ltd
Original Assignee
Sichuan Sanlitong Technology Development Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Sanlitong Technology Development Group Co ltd filed Critical Sichuan Sanlitong Technology Development Group Co ltd
Priority to CN202310501858.5A priority Critical patent/CN116205236B/zh
Publication of CN116205236A publication Critical patent/CN116205236A/zh
Application granted granted Critical
Publication of CN116205236B publication Critical patent/CN116205236B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于实体命名识别的数据快速脱敏系统及方法,涉及数据处理技术领域,该系统包括:聚类模块,用于对待处理文本数据进行聚类,得到多个目标聚类簇图;实体命名识别模块,用于对每个目标聚类簇团的聚类中心数据进行实体命名识别,得到聚类中心数据的识别标签;以及将聚类中心数据的识别标签与预设敏感信息标签进行对比,得到对比结果;脱敏模块,用于基于对比结果对存在敏感信息的目标聚类簇团进行脱敏处理;其中,存在敏感信息的目标聚类簇团为包括目标聚类中心数据所在的目标聚类簇团;目标聚类中心数据的识别标签与所述预设敏感信息标签相同。通过该方式可以减少识别所消耗的时间,进而可以加快整个脱敏过程的速度。

Description

基于实体命名识别的数据快速脱敏系统及方法
技术领域
本发明涉及数据处理技术领域,尤其是一种基于实体命名识别的数据快速脱敏系统及方法。
背景技术
数据脱敏是指将敏感数据中的关键信息替换成无效、无法识别的信息,以保护数据隐私和安全。数据脱敏的意义在于防止因数据泄露、数据丢失等原因导致的个人隐私暴露和潜在的安全风险,避免造成经济损失和信誉损失。在大数据时代,随着数据量的不断增加,数据脆弱性和数据挖掘技术的发展,数据泄露和隐私泄露的风险也越来越高,而数据脱敏技术可以降低这种风险。数据脱敏技术在金融、医疗等行业都得到广泛的应用,特别是在个人敏感信息保护领域,如社保卡、银行卡、医疗记录等。同时,数据脱敏的背景也与隐私保护法的制定有关,不同国家和地区的隐私保护法律都有数据脱敏方面的要求。作为企业和组织,保障用户信息安全和隐私是一项非常重要的社会责任和行业课题,而数据脱敏技术的应用可以很好地保护客户信息,保障用户的合法权益。因此,数据脱敏已经成为现代化信息安全体系中不可或缺的一环。现有数据脱敏技术由于其较高的计算复杂度导致处理数据时间花费长。
发明内容
为解决上述现有技术问题,本发明提供一种基于实体命名识别的数据快速脱敏系统及方法。
第一方面,本申请实施例提供一种基于实体命名识别的数据快速脱敏系统,包括:聚类模块,用于对待处理文本数据进行聚类,得到多个目标聚类簇图;实体命名识别模块,用于对每个所述目标聚类簇团的聚类中心数据进行实体命名识别,得到所述聚类中心数据的识别标签;以及将所述聚类中心数据的识别标签与预设敏感信息标签进行对比,得到对比结果;脱敏模块,用于基于所述对比结果对存在敏感信息的目标聚类簇团进行脱敏处理;其中,存在敏感信息的目标聚类簇团为包括目标聚类中心数据所在的目标聚类簇团;所述目标聚类中心数据的识别标签与所述预设敏感信息标签相同。
可选地,所述聚类模块,还具体用于采用混合采样法及三角不等式搜索策略对所述待处理文本数据进行聚类,得到所述多个目标聚类簇团。
可选地,所述聚类模块,还具体用于采用所述混合采样法对所述待处理文本数据进行采样,得到P个表征;基于预设聚类算法将所述P个表征分为Z个代表性聚类簇;采用所述三角不等式搜索策略从所述Z个代表性聚类簇搜查出所述待处理文本数据中的每个样本数据的K邻近表征;基于所述待处理文本数据中的每个样本数据的K邻近表征,得到所述多个目标聚类簇团。
可选地,所述聚类模块,还具体用于计算每个所述样本数据的K邻近表征的局部密度以及相对距离;基于每个所述样本数据的K邻近表征的局部密度以及相对距离重新确定聚类中心;并基于重新确定的聚类中心,生成多个所述目标聚类簇团。
可选地,所述待处理文本数据为X={x1,x2,…,xN};xi为所述样本数据,i∈{1,2,…,N};所述聚类模块还具体用于确定出距离xi最近的代表性聚类簇;采用所述三角不等式搜索策略从距离xi最近的代表性聚类簇中搜查出所述xi的K邻近表征;其中,xi依次为x1,x2,…,xN
可选地,所述聚类模块,还具体用于基于密度峰值聚类算法对所述待处理文本数据进行聚类,得到所述多个目标聚类簇团。
可选地,所述对比结果中还包括位置信息;其中,所述位置信息表征所述目标聚类中心数据的识别标签在所述待处理文本数据中的位置。
可选地,所述脱敏模块,还具体用于通过预设字符替换存在敏感信息的目标聚类簇团对应的文本数据。
可选地,所述脱敏模块,还具体用于基于所述目标聚类中心数据的识别标签,确定预设脱敏规则;基于所述预设脱敏规则对存在敏感信息的目标聚类簇团进行脱敏处理;其中,所述预设脱敏规则与所述预设敏感信息标签对应。
第二方面,本申请实施例提供一种基于实体命名识别的数据快速脱敏方法,包括:获取待处理文本数据;对所述待处理文本数据进行聚类,得到多个目标聚类簇图;对每个所述目标聚类簇团的聚类中心数据进行实体命名识别,得到所述聚类中心数据的识别标签;以及将所述聚类中心数据的识别标签与预设敏感信息标签进行对比,得到对比结果;基于所述对比结果对存在敏感信息的目标聚类簇团进行脱敏处理;其中,存在敏感信息的目标聚类簇团为包括目标聚类中心数据所在的目标聚类簇团;所述目标聚类中心数据的识别标签与所述预设敏感信息标签相同。
本发明的有益效果体包括:在发明中,先通过聚类模块对待处理文本数据进行聚类,得到多个目标聚类簇图;然后通过实体命名识别模块,用于对每个目标聚类簇团的聚类中心数据进行实体命名识别,得到聚类中心数据的识别标签;以及将聚类中心数据的识别标签与预设敏感信息标签进行对比,得到对比结果;最后利用脱敏模块基于对比结果对存在敏感信息的目标聚类簇团进行脱敏处理。在上述过程中,在对待处理文本数据进行聚类得到多个目标聚类簇图之后,是仅对每个目标聚类簇团的聚类中心数据进行实体命名识别,通过该方式可以减少识别所消耗的时间,进而可以加快整个脱敏过程的速度。
附图说明
图1为本发明所提供的一种基于实体命名识别的数据快速脱敏系统的模块框图。
图2为本发明所提供的一种基于实体命名识别的数据快速脱敏方法的步骤流程图。
图3为本发明所提供的另一种基于实体命名识别的数据快速脱敏方法的步骤流程图。
图4为本发明所提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在整个说明书中,对“一个实施例”、“一实施例”、“一个示例”或“示例”的提及意味着:结合该实施例或示例描述的特定特征、结构或特性被包含在本本发明至少一个实施例中。因此,在整个说明书的各个地方出现的短语“一个实施例”、“实施例”、“一个示例”或“示例”不一定都指同一实施例或示例。此外,可以以任何适当的组合和、或子组合将特定的特征、结构或特性组合在一个或多个实施例或示例中。此外,本领域普通技术人员应当理解,在此提供的示图都是为了说明的目的,并且示图不一定是按比例绘制的。这里使用的术语“和/或”包括一个或多个相关列出的项目的任何和所有组合。
实施例1:
请参阅图1,本申请实施例提供一种基于实体命名识别的数据快速脱敏系统100,包括:
聚类模块110,用于对待处理文本数据进行聚类,得到多个目标聚类簇图。
在这里,聚类模块110主要用于执行数据聚类,进而得到多个目标聚类簇图,同一个目标聚类簇图中的数据属性相同。
在这里,聚类模块110可以通过差分隐私算法、K匿名算法、密度峰值聚类算法等聚类算法以实现数据聚类,本申请不作限定。
在这里,待处理文本数据可以是多维数据。待处理文本数据可以来源于文档、网页、数据库、用户档案库等等。
示例性的,可以获取用户上传的医疗记录信息,进而将医疗记录信息作为此处的待处理文本数据;其中,医疗记录信息中可以包括用户的姓名、身份证、社保卡、支付记录等数据。
示例性的,可以获取学生的档案信息,进而将学生的档案信息作为此处的待处理文本数据;其中,学生的档案信息可以包括学生的姓名、年龄、学号、家庭情况等等。
实体命名识别模块120,用于对每个目标聚类簇团的聚类中心数据进行实体命名识别,得到聚类中心数据的识别标签;以及将聚类中心数据的识别标签与预设敏感信息标签进行对比,得到对比结果。
在通过聚类模块110生成多个目标聚类簇图之后,进行实体命名识别,在本发明中,实体命名识别模块120,用于对每个目标聚类簇团的聚类中心数据进行实体命名识别,进而得到聚类中心数据的识别标签。然后,实体命名识别模块120,再将聚类中心数据的识别标签与预设敏感信息标签进行对比,得到对比结果。
其中,预设敏感信息标签为用户预先设置的表征敏感信息的标签。通过将聚类中心数据的识别标签与预设敏感信息标签进行对比,以确定聚类中心数据是否属于敏感数据。
在这里,实体命名识别模块120可以采用Bert模型构建,本申请不作限定。
脱敏模块130,用于基于对比结果对存在敏感信息的目标聚类簇团进行脱敏处理;其中,存在敏感信息的目标聚类簇团为包括目标聚类中心数据所在的目标聚类簇团;目标聚类中心数据的识别标签与预设敏感信息标签相同。
最后,利用脱敏模块130实现数据脱敏。在这里,通过对比结果可以确定出存在敏感数据的聚类中心数据,即此处的目标聚类中心数据。由于目标聚类中心数据的识别标签与预设敏感信息标签相同,因此,将其确定为敏感数据。然后,对目标聚类中心数据所在的目标聚类簇团进行脱敏处理,即,对存在敏感信息的目标聚类簇团进行脱敏处理。
可以理解的是,此处相当于是通过对存在敏感信息的目标聚类簇团进行脱敏,进而实现对待处理文本数据中的敏感数据进行脱敏处理。
综上,在发明中,先通过聚类模块对待处理文本数据进行聚类,得到多个目标聚类簇图;然后通过实体命名识别模块,用于对每个目标聚类簇团的聚类中心数据进行实体命名识别,得到聚类中心数据的识别标签;以及将聚类中心数据的识别标签与预设敏感信息标签进行对比,得到对比结果;最后利用脱敏模块基于对比结果对存在敏感信息的目标聚类簇团进行脱敏处理。在上述过程中,在对待处理文本数据进行聚类得到多个目标聚类簇图之后,是仅对每个目标聚类簇团的聚类中心数据进行实体命名识别,通过该方式可以减少识别所消耗的时间,进而可以加快整个脱敏过程的速度。
一实施例中,聚类模块110,还具体用于基于密度峰值聚类算法对待处理文本数据进行聚类,得到多个目标聚类簇团。
一实施例中,聚类模块110,还具体用于基于改进后的密度峰值聚类算法对待处理文本数据进行聚类,得到多个目标聚类簇团。
其中,改进后的密度峰值聚类算法具体包括采用混合采样法及三角不等式搜索策略对待处理文本数据进行聚类,得到多个目标聚类簇团。
需要说明的是,在本发明中,提出了一种改进的密度峰值聚类算法,使用混合采样及三角不等式搜索策略提高了聚类的速度,以适应大规模数据的应用。
在一实施例中,聚类模块100,还可以具体用于采用混合采样法对待处理文本数据进行采样,得到P个表征;基于预设聚类算法将P个表征分为Z个代表性聚类簇;采用三角不等式搜索策略从Z个代表性聚类簇搜查出待处理文本数据中的每个样本数据的K邻近表征;基于待处理文本数据中的每个样本数据的K邻近表征,得到多个目标聚类簇团。
具体的,待处理文本数据还可以是将待处理原始文本数据进行编码后的数据。此处,待处理文本可以为X={x1,x2,…,xN};xN为待处理原始文本数据通过Bert进行Embedding过后的向量。然后,可以使用混合采样法对待处理文本数据进行采样,以获取得到P个表征R={r1,r2,…,rp}。在这里,表征表示特征。
然后,聚类模块100再基于预设聚类算法将P个表征分为Z个代表性聚类簇。在这里,预设距离算法可以是但不限于K-means++聚类算法。
示例性的,可以使用K-means++聚类算法将R={r1,r2,…,rp}分为Z个代表性聚类簇RC={rc1,rc2,…,rcz}。
接着,聚类模块110再采用三角不等式搜索策略从Z个代表性聚类簇搜查出待处理文本数据中的每个样本数据的K邻近表征。
在这里,待处理文本数据可以为X={x1,x2,…,xN};xi作为样本数据,i∈{1,2,…,N}。此处,聚类模块110还具体用于确定出距离xi最近的代表性聚类簇;采用三角不等式搜索策略从距离xi最近的代表性聚类簇中搜查出xi的K邻近表征;其中,xi依次为x1,x2,…,xN
需要说明的是,此处为包含以循环过程,循环条件为i=1到i=N,然后,聚类模块110寻找离样本数据xi最近的代表性聚类簇rcj,然后,再寻找出在rcj中离xi最近的点rl,即,采用三角不等式搜索策略从距离xi最近的代表性聚类簇中搜查出xi的K邻近表征。
最后,聚类模块110基于待处理文本数据中的每个样本数据的K邻近表征,得到多个目标聚类簇团。
在上述过程中,聚类模块110,还可以具体用于计算每个样本数据的K邻近表征的局部密度以及相对距离;基于每个样本数据的K邻近表征的局部密度以及相对距离重新确定聚类中心;并基于重新确定的聚类中心,生成多个目标聚类簇团。
需要说明的是,上述计算每个样本数据的K邻近表征的局部密度以及相对距离的过程也包括循环过程。循环条件为i=1到i=p,进而计算每个样本数据的K邻近表征的局部密度以及相对距离。
其中,计算每个样本数据的K邻近表征的局部密度ρ(ri)的公式可以采用如下表示:
其中,代表对象xj的K邻近表征集合,表征ri的密度等于其K邻近集中包含ri的对象的数量;φ表示判断符,括号里的为真,则值为1,否则为0。
其中,每个样本数据的K邻近表征的相对距离δi的公式,可以采用如下表示:其中,dij表示数据点i与数据点j的欧式距离;ρj表示数据点j的局部密度。
然后,聚类模块110,可以构造决策图,进而根据ρ(ri)×δi中相对较大确定为新的聚类中心,并将剩余的对象分配给簇作为其最接近的代表。最终,即可生成最后的目标聚类簇团C={c1,c2,…,cM}。
在一实施例中,对比结果中还包括位置信息;其中,位置信息表征目标聚类中心数据的识别标签在待处理文本数据中的位置。
具体的,可以使用实体命名识别模块120,对C={c1,c2,…,cM}的聚类中心数据进行实体命名识别,生成识别标签Y=(y1,y2,…,yu)及其对应位置信息M=(m1,m2,…,mu)。将Y=(y1,y2,…,yu)与预设敏感信息标签进行对比,得到敏感标签Y′=(y’1,y’2,…,y’t)及其位置信息M’=(m'1,m’2,…,m’t)。
在一实施例中,脱敏模块130,还具体用于通过预设字符替换存在敏感信息的目标聚类簇团对应的文本数据。
具体的,预设字符可以是“***”,预设字符还可以是“###”,当然,预设字符还可以不同字符的组合,如可以是“*#*”,对此,本申请不作限定。
在一实施例中,脱敏模块130,还具体用于基于目标聚类中心数据的识别标签,确定预设脱敏规则;基于预设脱敏规则对存在敏感信息的目标聚类簇团进行脱敏处理;其中,预设脱敏规则与预设敏感信息标签对应。
示例性的,针对预设敏感信息标签A,其对应的预设脱敏规可以为采用预设字符“***”进行脱敏处理。
示例性的,针对预设敏感信息标签B,其对应的预设脱敏规可以为采用预设字符“###”进行脱敏处理。
示例性的,针对预设敏感信息标签C,其对应的预设脱敏规可以为将脱敏数据通过“删除”方式进行脱敏处理。
可见,上述脱敏规则可以由用户自定义,方便用于不同场景的数据脱敏。
请参阅图2,本申请实施例还提供一种基于实体命名识别的数据快速脱敏方法,包括:步骤S201-步骤S204。
步骤S201:获取待处理文本数据。
步骤S202:对待处理文本数据进行聚类,得到多个目标聚类簇图。
步骤S203:对每个目标聚类簇团的聚类中心数据进行实体命名识别,得到聚类中心数据的识别标签;以及将聚类中心数据的识别标签与预设敏感信息标签进行对比,得到对比结果。
步骤S204:基于对比结果对存在敏感信息的目标聚类簇团进行脱敏处理。
其中,存在敏感信息的目标聚类簇团为包括目标聚类中心数据所在的目标聚类簇团;目标聚类中心数据的识别标签与预设敏感信息标签相同。
需要说明的是,上述步骤S201-步骤S204的具体过程可以参考前述实施例基于实体命名识别的数据快速脱敏系统中的说明,此处,不作赘述。
请参阅图3,可选地,上述步骤S202还可以具体包括:采用混合采样法及三角不等式搜索策略对所述待处理文本数据进行聚类,得到所述多个目标聚类簇团。
可选地,上述步骤S202还可以具体包括:步骤S301-S304。
步骤S301:采用混合采样法对待处理文本数据进行采样,得到P个表征。
步骤S302:基于预设聚类算法将P个表征分为Z个代表性聚类簇。
步骤S303:采用三角不等式搜索策略从Z个代表性聚类簇搜查出待处理文本数据中的每个样本数据的K邻近表征。
步骤S304:基于待处理文本数据中的每个样本数据的K邻近表征,得到多个目标聚类簇团。
上述步骤S301-步骤S304的具体过程可以参考前述实施例基于实体命名识别的数据快速脱敏系统中的说明,此处,不作赘述。
可选地,上述步骤S304基于待处理文本数据中的每个样本数据的K邻近表征,得到多个目标聚类簇团还可以具体包括:计算每个所述样本数据的K邻近表征的局部密度以及相对距离;基于每个所述样本数据的K邻近表征的局部密度以及相对距离重新确定聚类中心;并基于重新确定的聚类中心,生成多个所述目标聚类簇团。
可选地,所述待处理文本数据为X={x1,x2,…,xN};xi为所述样本数据,i∈{1,2,…,N};上述步骤步骤S303还可以具体包括:确定出距离xi最近的代表性聚类簇;采用所述三角不等式搜索策略从距离xi最近的代表性聚类簇中搜查出所述xi的K邻近表征;其中,xi依次为x1,x2,…,xN
可选地,上述步骤S204:基于对比结果对存在敏感信息的目标聚类簇团进行脱敏处理,还可以具体包括:通过预设字符替换存在敏感信息的目标聚类簇团对应的文本数据。
可选地,上述步骤S204:基于对比结果对存在敏感信息的目标聚类簇团进行脱敏处理,还可以具体包括:基于所述目标聚类中心数据的识别标签,确定预设脱敏规则;基于所述预设脱敏规则对存在敏感信息的目标聚类簇团进行脱敏处理;其中,所述预设脱敏规则与所述预设敏感信息标签对应。
需要说明的是,在本发明中提供的基于实体命名识别的数据快速脱敏方法的具体实现过程均可以参考前述实施例基于实体命名识别的数据快速脱敏系统中的相同部分,此处不作赘述。
下面再结合一个完整的示例,对本申请实施例提供的一种基于实体命名识别的数据快速脱敏过程进行说明。
Step1:聚类模块首先对目标数据(对应待处理文本数据)进行编码和聚类,编码阶段使用Bert对目标数据原始文本进行Embedding,聚类阶段本发明使用了改进的密度峰值聚类算法,算法描述如下:
(1)输入目标数据X={x1,x2,…,xN},xN为原始数据文本通过Bert进行Embedding过后的向量,使用混合采样从数据中获取P个表征R={r1,r2,…,rp}。
(2)使用K-means++聚类算法将R={r1,r2,…,rp}分为Z个代表性聚类簇RC={rc1,rc2,…,rcz}。
(3)开始循环,循环条件为i=1到i=N,寻找离样本xi最近的代表聚类簇rcj,寻找在rcj中离xi最近的点rl,使用三角不等式搜索策略搜索xi的K邻近表征。
(4)开始循环,循环条件为i=1到i=p,计算上述每个表征的局部密度ρ(ri),计算公式如下:
计算每个表征的相对距离δi,计算公式如下:
(5)构造决策图,根据ρ(ri)×δi相对较大的聚类中心,并将剩余的对象分配给簇作为其最接近的代表。
(6)生成最后聚类簇团C={c1,c2,…,cM}(对应前述实施例中的目标聚类簇团)。
Step2:使用任意实体命名识别模型(优选Bert),对C={c1,c2,…,cM}的聚类中心数据进行实体命名识别(此处使用的原始文本数据),生成识别标签Y=(y1,y2,…,yu)及其对应位置M=(m1,m2,…,mu)。将Y=(y1,y2,…,yu)与预设敏感信息标签进行对比,得到敏感标签Y’=(y’1,y’2,…,y’t)及其位置M’(m’1,m’2,…,m’t)。
此时,生成脱敏模板,脱敏模板的生成可以有两种方式:
(1)直接将敏感标签对应文本以“***”代替。
(2)使用“标签-脱敏规则”关系库(用户可自定义)将不同标签所对应文本根据标签-脱敏规则对应关系进行处理。
脱敏模板具体为数据处理程序(优选Python程序),该模板由(1)读取模块:文本读取;(2)处理模块:文本脱敏;(3)导出模块:脱敏文本导出;组成。使用脱敏模板对簇团内其他数据进行脱敏。
综上,本发明提出了一种改进的密度峰值聚类算法,使用混合采样及三角不等式搜索策略提高了聚类的速度,以适应大规模数据的应用。
其次,本发明中对多维数据进行聚类,在聚类完成后使用实体命名识别模型对聚类中心的敏感标签进行识别,并根据识别结果生成该簇团的脱敏策略,将脱敏策略应用于该簇团所有数据以实现快速脱敏。优点:由于实体命名识别模型进行推理需要一定时间,若对所有数据都进行识别会非常耗时,因此对数据进行聚类,只对聚类中心进行识别可以加快整个脱敏过程的速度。
再者,本发明中脱敏模板的脱敏规则可以由用户自定义,方便用于不同场景的数据脱敏。
参见图4所示,本实施例还提供了一种电子设备,其包括处理器401、存储器402、通信总线403、外部通信接口404。其中:
通信总线403用于实现处理器401、存储器402和外部通信接口404之间的连接通信。
外部通信接口404用于与外部设备进行通信连接。
处理器401用于执行存储器402中存储的一个或多个程序,以实现上述实施例一和/或实施例二中所描述的维护表项一致性的方法中,第一网络设备或第二网络设备所执行的各步骤。
可以理解,图4所示的结构仅为示意,电子设备还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。
本实施例还提供了一种计算机可读存储介质,如软盘、光盘、硬盘、闪存、U盘、SD(Secure Digital Memory Card,安全数码卡)卡、MMC(Multimedia Card,多媒体卡)卡等,在该计算机可读存储介质中存储有实现上述各个步骤的一个或者多个程序,这一个或者多个程序可被一个或者多个处理器执行,以实现上述实施例一和/或实施例二所描述的维护表项一致性的方法中,第一网络设备或第二网络设备所执行的各步骤。在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露系统和方法,可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明的实施例的描述中,术语“第一”、“第二”、“第三”、“第四”仅用以描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”、“第四”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明的实施例的描述中,需要理解的是,“-”和“~”表示的是两个数值之同的范围,并且该范围包括端点。例如:“A-B”表示大于或等于A,且小于或等于B的范围。“A~B”表示大于或等于A,且小于或等于B的范围。
在本发明的实施例的描述中,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (7)

1.一种基于实体命名识别的数据快速脱敏系统,其特征在于,包括:
聚类模块,用于对待处理文本数据进行聚类,得到多个目标聚类簇团;
实体命名识别模块,用于对每个所述目标聚类簇团的聚类中心数据进行实体命名识别,得到所述聚类中心数据的识别标签;以及将所述聚类中心数据的识别标签与预设敏感信息标签进行对比,得到对比结果;
脱敏模块,用于基于所述对比结果对存在敏感信息的目标聚类簇团进行脱敏处理;其中,存在敏感信息的目标聚类簇团为包括目标聚类中心数据所在的目标聚类簇团;所述目标聚类中心数据的识别标签与所述预设敏感信息标签相同;
所述聚类模块,还具体用于采用混合采样法对所述待处理文本数据进行采样,得到P个表征;基于预设聚类算法将所述P个表征分为Z个代表性聚类簇;采用三角不等式搜索策略从所述Z个代表性聚类簇搜查出所述待处理文本数据中的每个样本数据的K邻近表征;基于所述待处理文本数据中的每个样本数据的K邻近表征,得到所述多个目标聚类簇团;
所述聚类模块,还具体用于计算每个所述样本数据的K邻近表征的局部密度以及相对距离;基于每个所述样本数据的K邻近表征的局部密度以及相对距离重新确定聚类中心;并基于重新确定的聚类中心,生成多个所述目标聚类簇团。
2.根据权利要求1所述的基于实体命名识别的数据快速脱敏系统,其特征在于,所述待处理文本数据为;/>为所述样本数据,/>;所述聚类模块还具体用于确定出距离/>最近的代表性聚类簇;采用所述三角不等式搜索策略从距离/>最近的代表性聚类簇中搜查出所述/>的K邻近表征;其中,/>依次为/>
3.根据权利要求1所述的基于实体命名识别的数据快速脱敏系统,其特征在于,所述聚类模块,还具体用于基于密度峰值聚类算法对所述待处理文本数据进行聚类,得到所述多个目标聚类簇团。
4.根据权利要求1所述的基于实体命名识别的数据快速脱敏系统,其特征在于,所述对比结果中还包括位置信息;其中,所述位置信息表征所述目标聚类中心数据的识别标签在所述待处理文本数据中的位置。
5.根据权利要求1所述的基于实体命名识别的数据快速脱敏系统,其特征在于,所述脱敏模块,还具体用于通过预设字符替换存在敏感信息的目标聚类簇团对应的文本数据。
6.根据权利要求1所述的基于实体命名识别的数据快速脱敏系统,其特征在于,所述脱敏模块,还具体用于基于所述目标聚类中心数据的识别标签,确定预设脱敏规则;基于所述预设脱敏规则对存在敏感信息的目标聚类簇团进行脱敏处理;其中,所述预设脱敏规则与所述预设敏感信息标签对应。
7.一种基于实体命名识别的数据快速脱敏方法,其特征在于,包括:
获取待处理文本数据;
对所述待处理文本数据进行聚类,得到多个目标聚类簇团;
对每个所述目标聚类簇团的聚类中心数据进行实体命名识别,得到所述聚类中心数据的识别标签;以及将所述聚类中心数据的识别标签与预设敏感信息标签进行对比,得到对比结果;
基于所述对比结果对存在敏感信息的目标聚类簇团进行脱敏处理;其中,存在敏感信息的目标聚类簇团为包括目标聚类中心数据所在的目标聚类簇团;所述目标聚类中心数据的识别标签与所述预设敏感信息标签相同;
所述对所述待处理文本数据进行聚类,得到多个目标聚类簇团,包括:采用混合采样法对所述待处理文本数据进行采样,得到P个表征;基于预设聚类算法将所述P个表征分为Z个代表性聚类簇;采用三角不等式搜索策略从所述Z个代表性聚类簇搜查出所述待处理文本数据中的每个样本数据的K邻近表征;基于所述待处理文本数据中的每个样本数据的K邻近表征,得到所述多个目标聚类簇团;
所述方法还包括:计算每个所述样本数据的K邻近表征的局部密度以及相对距离;基于每个所述样本数据的K邻近表征的局部密度以及相对距离重新确定聚类中心;并基于重新确定的聚类中心,生成多个所述目标聚类簇团。
CN202310501858.5A 2023-05-06 2023-05-06 基于实体命名识别的数据快速脱敏系统及方法 Active CN116205236B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310501858.5A CN116205236B (zh) 2023-05-06 2023-05-06 基于实体命名识别的数据快速脱敏系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310501858.5A CN116205236B (zh) 2023-05-06 2023-05-06 基于实体命名识别的数据快速脱敏系统及方法

Publications (2)

Publication Number Publication Date
CN116205236A CN116205236A (zh) 2023-06-02
CN116205236B true CN116205236B (zh) 2023-08-18

Family

ID=86519505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310501858.5A Active CN116205236B (zh) 2023-05-06 2023-05-06 基于实体命名识别的数据快速脱敏系统及方法

Country Status (1)

Country Link
CN (1) CN116205236B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10247223A (ja) * 1997-03-04 1998-09-14 Mitsubishi Electric Corp 文字認識装置及び文字認識方法
CN107480549A (zh) * 2017-06-28 2017-12-15 银江股份有限公司 一种面向数据共享的敏感信息脱敏方法及系统
CN107563807A (zh) * 2017-08-29 2018-01-09 重庆邮电大学 一种基于数据挖掘的区域广告推送系统
CN109614816A (zh) * 2018-11-19 2019-04-12 平安科技(深圳)有限公司 数据脱敏方法、装置及存储介质
CN109739984A (zh) * 2018-12-25 2019-05-10 贵州商学院 一种基于Hadoop平台的改进并行KNN网络舆情分类算法
CN109961132A (zh) * 2017-12-22 2019-07-02 英特尔公司 用于学习深度卷积神经网络的结构的系统和方法
CN110188571A (zh) * 2019-06-05 2019-08-30 深圳市优网科技有限公司 基于敏感数据的脱敏方法及系统
CN110610196A (zh) * 2019-08-14 2019-12-24 平安科技(深圳)有限公司 脱敏方法、系统、计算机设备和计算机可读存储介质
CN112434331A (zh) * 2020-11-20 2021-03-02 百度在线网络技术(北京)有限公司 一种数据脱敏方法、装置、设备以及存储介质
WO2021051612A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 数据授权脱敏自动化方法、系统、装置及存储介质
CN115147632A (zh) * 2022-07-08 2022-10-04 哈尔滨工业大学(深圳) 基于密度峰值聚类算法的图像类别自动标注方法及装置
CN115544240A (zh) * 2022-11-24 2022-12-30 闪捷信息科技有限公司 文本类敏感信息识别方法、装置、电子设备和存储介质
CN115587315A (zh) * 2022-10-12 2023-01-10 天津光电通信技术有限公司 一种基于多聚类融合的目标自适应识别方法
CN115982765A (zh) * 2022-12-28 2023-04-18 中移信息技术有限公司 数据脱敏方法、装置、设备及计算机可读存储介质
CN116070263A (zh) * 2022-12-27 2023-05-05 中国电信股份有限公司 数据脱敏处理方法、网关及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11574122B2 (en) * 2018-08-23 2023-02-07 Shenzhen Keya Medical Technology Corporation Method and system for joint named entity recognition and relation extraction using convolutional neural network

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10247223A (ja) * 1997-03-04 1998-09-14 Mitsubishi Electric Corp 文字認識装置及び文字認識方法
CN107480549A (zh) * 2017-06-28 2017-12-15 银江股份有限公司 一种面向数据共享的敏感信息脱敏方法及系统
CN107563807A (zh) * 2017-08-29 2018-01-09 重庆邮电大学 一种基于数据挖掘的区域广告推送系统
CN109961132A (zh) * 2017-12-22 2019-07-02 英特尔公司 用于学习深度卷积神经网络的结构的系统和方法
CN109614816A (zh) * 2018-11-19 2019-04-12 平安科技(深圳)有限公司 数据脱敏方法、装置及存储介质
CN109739984A (zh) * 2018-12-25 2019-05-10 贵州商学院 一种基于Hadoop平台的改进并行KNN网络舆情分类算法
CN110188571A (zh) * 2019-06-05 2019-08-30 深圳市优网科技有限公司 基于敏感数据的脱敏方法及系统
CN110610196A (zh) * 2019-08-14 2019-12-24 平安科技(深圳)有限公司 脱敏方法、系统、计算机设备和计算机可读存储介质
WO2021051612A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 数据授权脱敏自动化方法、系统、装置及存储介质
CN112434331A (zh) * 2020-11-20 2021-03-02 百度在线网络技术(北京)有限公司 一种数据脱敏方法、装置、设备以及存储介质
CN115147632A (zh) * 2022-07-08 2022-10-04 哈尔滨工业大学(深圳) 基于密度峰值聚类算法的图像类别自动标注方法及装置
CN115587315A (zh) * 2022-10-12 2023-01-10 天津光电通信技术有限公司 一种基于多聚类融合的目标自适应识别方法
CN115544240A (zh) * 2022-11-24 2022-12-30 闪捷信息科技有限公司 文本类敏感信息识别方法、装置、电子设备和存储介质
CN116070263A (zh) * 2022-12-27 2023-05-05 中国电信股份有限公司 数据脱敏处理方法、网关及存储介质
CN115982765A (zh) * 2022-12-28 2023-04-18 中移信息技术有限公司 数据脱敏方法、装置、设备及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于密度优化的密度峰值聚类算法研究;施天豪;《中国优秀硕士学位论文全文数据库信息科技辑》(第02期);I138-920 *

Also Published As

Publication number Publication date
CN116205236A (zh) 2023-06-02

Similar Documents

Publication Publication Date Title
US10831927B2 (en) Noise propagation-based data anonymization
EP2812883B1 (en) System and method for semantically annotating images
CN110134965B (zh) 用于信息处理的方法、装置、设备和计算机可读存储介质
US11361030B2 (en) Positive/negative facet identification in similar documents to search context
MX2013005056A (es) Enfoque multimodal para entrada de busqueda de consulta.
CN111291571A (zh) 语义纠错方法、电子设备及存储介质
US10699112B1 (en) Identification of key segments in document images
CN111444387A (zh) 视频分类方法、装置、计算机设备和存储介质
CN114722141A (zh) 文本检测方法及装置
Zhang et al. Deep unsupervised self-evolutionary hashing for image retrieval
CN111339784A (zh) 一种新话题的自动挖掘方法和系统
JP2023517518A (ja) ヌル値又は同等の値を有するリレーショナル・テーブルのためのベクトル埋込モデル
CN111814481B (zh) 购物意图识别方法、装置、终端设备及存储介质
CN116205236B (zh) 基于实体命名识别的数据快速脱敏系统及方法
CN111597336A (zh) 训练文本的处理方法、装置、电子设备及可读存储介质
US11928107B2 (en) Similarity-based value-to-column classification
WO2022142032A1 (zh) 手写签名校验方法、装置、计算机设备及存储介质
CN115033880A (zh) 一种基于互联网的计算机软件管理系统
CN114519568A (zh) 审单方法、装置、电子设备和存储介质
US10970533B2 (en) Methods and systems for finding elements in optical character recognition documents
CN114386078B (zh) 一种基于bim的建设项目电子档案管理方法及装置
CN112417096B (zh) 问答对匹配方法、装置、电子设备及存储介质
CN116702024B (zh) 流水数据类型识别方法、装置、计算机设备和存储介质
Alzou’bi et al. Discovering informative features in large-scale landmark image collection
US20210081496A1 (en) Propagation of annotation metadata to overlapping annotations of synonymous type

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant