CN115618371B - 一种非文本数据的脱敏方法、装置及存储介质 - Google Patents

一种非文本数据的脱敏方法、装置及存储介质 Download PDF

Info

Publication number
CN115618371B
CN115618371B CN202210807875.7A CN202210807875A CN115618371B CN 115618371 B CN115618371 B CN 115618371B CN 202210807875 A CN202210807875 A CN 202210807875A CN 115618371 B CN115618371 B CN 115618371B
Authority
CN
China
Prior art keywords
data
text data
text
sensitive information
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210807875.7A
Other languages
English (en)
Other versions
CN115618371A (zh
Inventor
支晓繁
薛利
支文纲
赵博
赵慧婷
申震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Futures Information Technology Co ltd
Original Assignee
Shanghai Futures Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Futures Information Technology Co ltd filed Critical Shanghai Futures Information Technology Co ltd
Priority to CN202210807875.7A priority Critical patent/CN115618371B/zh
Publication of CN115618371A publication Critical patent/CN115618371A/zh
Application granted granted Critical
Publication of CN115618371B publication Critical patent/CN115618371B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开一种非文本数据的脱敏方法、装置及存储介质,方法包括:对非文本类型的非结构化数据进行转换,得到非结构化的文本数据;基于预先构建的文本准确度评估模型对所述非结构化的文本数据进行句级校验和/或词级校验,根据每一校验结果的预警信息,对预警信息所属区域的文本进行修正,获取修正后的正确的文本数据;采用预先建立的敏感信息识别模型捕获正确的文本数据中的敏感信息,并对捕获的敏感信息进行脱敏处理,得到脱敏后的文本数据;将脱敏后的文本数据还原为原始类型的非结构化数据。上述方法在脱敏之前可保证文本数据的准确性,进而节约了数据处理时间和使得后续敏感数据识别更准确,保证了数据的安全性。

Description

一种非文本数据的脱敏方法、装置及存储介质
技术领域
本发明实施例涉及数据安全技术领域,具体涉及一种非文本数据的脱敏方法、装置及存储介质。
背景技术
目前,数据脱敏技术与产品在数据保护市场的份额飞速增长,应用领域不断扩大,在处理对象、应用场景、脱敏算法、脱敏能力及脱敏性能等多个方面有了长足进步,逐步满足市场需求。然而,现阶段的数据脱敏技术及产品大多针对结构化数据,而面对非结构化数据时,脱敏性能大多难以令人满意。
另外,在数据脱敏实践方面,目前国内重点行业企业已意识到数据安全的重要性,但在数据采集、传输、存储、处理、交换共享等环节,存在未进行有效的数据脱敏、直接使用原始敏感数据等现象。
在脱敏技术方面,企业使用的数据脱敏工具虽然具备一定的数据脱敏功能,但在技术细节方面仍有不足。一方面,内置的数据脱敏算法较为单一,大多仅支持结构化数据的脱敏,难以解决非结构化数据脱敏的问题,无法满足多种场景下多类型工业数据脱敏后的开发和测试使用;另一方面,非结构化数据脱敏的常见解决思路之一是将不同类型的非结构化数据进行预处理,转化成文本,再从文本中捕获敏感信息进行脱敏。目前,图片、音频等非结构化数据大多基于人工智能模型进行预处理再转化为文本,受限于预处理中使用的算法本身的技术瓶颈,难以保证转化成文的本信息的准确性。
此外,现有技术中针对文本数据的敏感信息提取,大多依赖规则匹配等方法,对于无法满足规则及匹配特征的敏感信息,则难以精确地捕捉。因此,各不同类型的非结构化数据脱敏仍存在一定的挑战。
发明内容
为了解决现有技术存在的问题,本发明的至少一个实施例提供了一种非文本数据的脱敏方法、装置及存储介质。
第一方面,本发明实施例提出一种非文本数据的脱敏方法包括:
S1、对非文本类型的非结构化数据进行转换,得到非结构化的文本数据;
S2、基于预先构建的文本准确度评估模型对所述非结构化的文本数据进行句级校验和/或词级校验,根据每一校验结果的预警信息,对预警信息所属区域的文本进行修正,获取修正后的正确的文本数据;
S3、采用预先建立的敏感信息识别模型捕获正确的文本数据中的敏感信息,并对捕获的敏感信息进行脱敏处理,得到脱敏后的文本数据;
S4、将脱敏后的文本数据还原为原始类型的非结构化数据。
可选地,所述非文本类型的非结构化数据包括下述的一项或多项:音频格式的数据、图片类型的数据、视频格式的数据;
所述S1包括:
针对音频格式的数据,采用CTCloss将音频格式的数据转化为非结构化的文本数据;
针对图片类型的数据,采用OCR将图片格式的数据转化为非结构化的文本数据;
针对视频格式的数据,将视频格式的数据逐帧转化为图片数据,并利用矩阵相似性,筛选出不重复的图片数据;采用OCR将图片数据转化为非结构化的文本数据。
可选地,所述将视频格式的数据逐帧转化为图片数据,并利用矩阵相似性,筛选出不重复的图片数据,包括:
对于连续的两帧图片P1和P2,计算该每一帧图片中每个像素点的RGB均值,得到对应图片P1的m*n维的三原色均值矩阵M1 和对应图片P2的m*n维的三原色均值矩阵M2;m和n为大于等于 1的自然数;
获取M1和M2的行特征相似度,计算M1和M2每一行的均值及方差,得到2m*1维度的行特征R1和R2,计算R1和R2的余弦值,若余弦值大于第一预设数值,则认为P1和P2的行相似;
获取M1和M2的列特征相似度,计算M1和M2每一列的均值及方差,得到1*2n维度的列特征C1和C2,计算C1和C2的余弦值,若余弦值大于第二预设数值,则认为两帧图片列相似;
若P1和P2的行相似且列相似,则确定P1和P2为重复图片。
可选地,所述S2之前,还包括:
构建文本准确度评估模型;
具体地,构建文本准确度评估模型包括:
获取非文本类型的非结构化数据所属的行业属性;
获取基础语料库,同时根据所述行业属性,获取与行业属性对应的行业语料库、行业知识库组成建模语料库的正例,将历史时间段内转化识别错误的文本数据作为建模语料库的反例;以及反例中对应的错误词语,构建对应行业属性的常见错词库;
基于BERT构建所述行业属性对应的语句校验模型;
将所述建模语料库、常见错词库和语句校验模型组成所述文本准确度评估模型。
可选地,所述S2包括:
根据所述建模语料库,采用语句校验模型对所述非结构化的文本数据进行句级校验,若句级校验通过,则直接得到正确的文本数据;
若句级校验未通过,得到句级校验的至少一个预警信息,则对预警信息所属的错误语句进行分词处理,并基于常见错词库,对分词处理的各词语进行词级校验,定位存在的错误词语;
对定位的错误词语进行修正,得到修正后的正确的文本数据。
可选地,基于常见错词库,对分词处理的各词语进行词级校验,定位存在的错误词语,包括:
基于常见错词库,采用规则匹配方式对分词处理的各词语进行词级校验,定位存在的错误词语;
对定位的错误词语进行修正,得到修正后的正确的文本数据,包括:
对定位的错误词语进行自动修正,
和/或,对无法自动修正的已定位的错误词语,采用人工校正方式对定位的错误词语进行修正,得到修正后的正确的文本数据;
所述方法还包括:
将句级校验未通过的错误语句更新到所述建模语料库的反例;
以及,将词级校验中的错误词语更新到常见错词库中。
可选地,预先建立的敏感信息识别模型包括:
规则文本敏感信息识别模型、关键词信息的文本敏感信息识别模型和语义分析的敏感信息识别模型;
所述S3中的采用预先建立的敏感信息识别模型捕获正确的文本数据中的敏感信息,包括:
采用规则文本敏感信息识别模型捕获所述正确的文本数据中的规则文本的敏感信息;
采用关键词信息的文本敏感信息识别模型捕获所述正确的文本数据中关键词信息所属的敏感信息;
采用语义分析的敏感信息识别模型,对所述正确的文本数据进行语义分析,并深度挖掘敏感信息。
可选地,采用语义分析的敏感信息识别模型,对所述正确的文本数据进行语义分析,并深度挖掘敏感信息之前,所述方法还包括:
采用文本准确度评估模型中建模语料库的正例,获取词向量训练模型;
基于预先收集的敏感信息类别,采用所述词向量训练模型进行词向量的计算,获取一个以上的与敏感信息类别对应的第一词向量;
相应地,采用语义分析的敏感信息识别模型,对所述正确的文本数据进行语义分析,并深度挖掘敏感信息,包括:
对所述正确的文本数据进行分词处理,并采用所述词向量训练模型计算分词后词语的词向量,获取一个以上的与词语对应的第二词向量;
计算每一第一词向量和每一第二词向量的相似度,根据相似度结果,得到敏感信息及该敏感信息所属类别。
第二方面,本发明实施例还提供一种非文本数据的脱敏装置,其包括:
转换单元,用于对非文本类型的非结构化数据进行转换,得到非结构化的文本数据;
文本校验单元,用于基于预先构建的文本准确度评估模型对所述非结构化的文本数据进行句级校验和/或词级校验,根据每一校验结果的预警信息,对预警信息所属区域的文本进行修正,获取修正后的正确的文本数据;
敏感信息识别单元,用于采用预先建立的敏感信息识别模型捕获正确的文本数据中的敏感信息,并对捕获的敏感信息进行脱敏处理,得到脱敏后的文本数据;
数据恢复单元,用于将脱敏后的文本数据还原为原始类型的非结构化数据。
第三方面,本发明实施例还提供一种计算设备,其包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上第一方面任一项所述的非文本数据的脱敏方法的步骤。
第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上第一方面任一项所述的非文本数据的脱敏方法的步骤。
由此,本发明实施例的至少一个实施例中,通过将非文本数据转换为文本数据,然后,对转换后的文本数据进行句级校验和词级校验,进而便于快速修正校验后的存在错误的预警信息,再对修正的文本数据进行敏感信息的识别和处理,保证了数据的准确性,同时,节约了数据处理时间,使得后续敏感数据识别更准确,保证了数据的安全性。
进一步地,在本申请的方法中对于预警信息可以选择人工修正和/或自动修正,保证修正的准确性和及时性,同时相对于现有技术可以直接获取修正的位置,较好的节省现有人工全文校对的时间,提高处理速度。
另外,本发明在非结构化数据转化为文本数据后,通过预先构建的文本准确度评估模型对文本数据的准确性进行评估,一方面可通过人工修正提升文本数据的准确性,进而提升非结构化数据脱敏的性能;另一方面可通过文本准确度评估模型筛选正确的文本数据,并辅助定位到可能的错误词语,显著节约人工校对的时间成本。
此外,本发明在规则匹配的基础上,基于语义分析的敏感信息识别模型进行语义分析,深度识别文本数据中的敏感信息,进一步提升文本数据敏感信息识别的能力。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的非文本数据的脱敏方法的流程示意图;
图2至图4均为另一实施例中示出的非文本数据的脱敏方法的部分步骤的过程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
数据脱敏的分类说明:
数据脱敏处理可分为结构化数据脱敏和非结构化数据脱敏。其中,结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。而非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。
基于应用场景,数据脱敏技术又可以大体分为两类:静态数据脱敏与动态数据脱敏。静态数据脱敏一般都是对非实时访问的数据进行数据脱敏,数据脱敏前统一设置好脱敏策略,并将脱敏结果导入到新的数据中,包括文件或者数据库中。动态数据脱敏是指对实施访问的数据或者数据流进行数据脱敏,可以实时修改数据脱敏规则,数据脱敏仅针对通过数据脱敏产品的数据进行,并将数据脱敏结果展示到用户的过程。
现有数据脱敏的过程概述:
当前,数据脱敏的方法可以分为五个步骤,分别是元数据识别、脱敏数据识别、数据脱敏方案制定、任务执行及结果输出。在数据脱敏方案制定过程中常用的方法包括:仿真、数据替换、加密、数据截取、数据混淆等。其中,仿真是根据敏感数据的原始内容生成符合原始数据编码和校验规则的新数据,使用相同含义的数据替换原有的敏感数据;数据替换是指用某种规律字符对敏感内容进行替换,从而破坏数据的可读性,并不保留原有语义和格式;加密是指通过加密算法进行加密;数据截取术是指对原始数据选取部分内容进行截断;数据混淆是将敏感数据的内容进行无规则打乱,从而在隐藏敏感数据的同时能够保持原始数据的组成方式。
如图1所示,本实施例提供一种非文本数据的脱敏方法,其执行主体可为任一计算设备如计算机或其他处理设备,其具体包括如下的步骤:
S1、对非文本类型的非结构化数据进行转换,得到非结构化的文本数据。
举例来说,本实施例的非文本类型的非结构化数据可包括下述的一项或多项:音频格式的数据、图片类型的数据、视频格式的数据等等。
在该步骤中,可采用现有的任一图片处理技术,或者识别技术均可将非文本类型的数据转换为文本数据,本实施例不对其限定,根据需要选择,例如,针对音频格式的数据,采用CTC loss将音频格式的数据转化为非结构化的文本数据;
针对图片类型的数据,采用OCR将图片格式的数据转化为非结构化的文本数据;
针对视频格式的数据,将视频格式的数据逐帧转化为图片数据,并利用矩阵相似性,筛选出不重复的图片数据;采用OCR将图片数据转化为非结构化的文本数据。
S2、基于预先构建的文本准确度评估模型对所述非结构化的文本数据进行句级校验和/或词级校验,根据每一校验结果的预警信息,对预警信息所属区域的文本进行修正,获取修正后的正确的文本数据。
需要说明的是,在步骤S2之前,需要预先构建文本准确度评估模型。
具体地,构建文本准确度评估模型包括:
获取非文本类型的非结构化数据所属的行业属性;
获取基础语料库,同时根据所述行业属性,获取与行业属性对应的行业语料库、行业知识库组成建模语料库的正例,将历史时间段内转化识别错误的文本数据作为建模语料库的反例;以及反例中对应的错误词语,构建对应行业属性的常见错词库;
以及,基于BERT构建所述行业属性对应的语句校验模型;
将所述建模语料库、常见错词库和语句校验模型组成所述文本准确度评估模型。
上述的正例可为正确的信息,反例可为错误的信息。
S3、采用预先建立的敏感信息识别模型捕获正确的文本数据中的敏感信息,并对捕获的敏感信息进行脱敏处理,得到脱敏后的文本数据。
在实际应用中,预先建立的敏感信息识别模型可包括:规则文本敏感信息识别模型、关键词信息/关键词的文本敏感信息识别模型和语义分析的敏感信息识别模型等等,该处仅为举例说明,并不对其限定,根据实际需要配置。
则在该步骤中,可采用规则文本敏感信息识别模型捕获所述正确的文本数据中的规则文本的敏感信息;
采用关键词信息的文本敏感信息识别模型捕获所述正确的文本数据中关键词信息所属的敏感信息;
采用语义分析的敏感信息识别模型,对所述正确的文本数据进行语义分析,并深度挖掘敏感信息。
S4、将脱敏后的文本数据还原为原始类型的非结构化数据。
举例来说,若原始类型为图片类型,则将脱敏后的文本数据替换原图片中的文本数据;若原始类型为音频类型,则将脱敏后的文本数据替换原音频中的文本数据。
本实施例中,通过将非文本数据转换为文本数据,然后,对转换后的文本数据进行句级校验和词级校验,进而便于快速修正校验后的存在错误的预警信息,再对修正的文本数据进行敏感信息的识别和处理,保证了数据的准确性,同时,节约了数据处理时间,使得后续敏感数据识别更准确,保证了数据的安全性。
结合图2、图3和图4所示,本发明另一实施例提供一种非文本数据的脱敏方法,该方法可为图1所示方法的一个具体实现过程,为更好的理解,结合具体实例进行说明。本实施例的方法可包括下述的步骤:
201、构建各行业对应的文本准确度评估模型。
举例来说,文本准确度评估模型的构建过程可包括:
首先,确定行业属性;获取与行业属性对应的基础语料库、行业语料库、行业知识库组成建模语料库的正例,将历史时间段内转化识别错误的文本数据作为建模语料库的反例,以及反例中对应的错误词语,构建对应行业属性的常见错词库;
其次,基于BERT或其他可用的NLP模型构建所述行业属性对应的语句校验模型;
然后,将所述建模语料库、常见错词库和语句校验模型组成所述文本准确度评估模型。
202、对待处理的非文本类型的非结构化数据进行转换,得到非结构化的文本数据。
具体地,针对视频格式的数据,将视频格式的数据逐帧转化为图片数据,并利用矩阵相似性,筛选出不重复的图片数据;再利用 OCR或其他已知方法将图片中的数据转化为文本数据。
为更好的理解视频格式的数据的处理,以连续两帧图片P1和 P2的识别过程进行说明:
对于连续的两帧图片P1和P2,计算该每一帧图片中每个像素点的RGB均值,得到对应图片P1的m*n维的三原色均值矩阵M1 和对应图片P2的m*n维的三原色均值矩阵M2;m和n为大于0的自然数;
获取M1和M2的行特征相似度,计算M1和M2每一行的均值及方差,得到2m*1维度的行特征R1和R2,计算R1和R2的余弦值,若余弦值大于第一预设数值(如0.9或0.98),则认为P1和 P2的行相似;
获取M1和M2的列特征相似度,计算M1和M2每一列的均值及方差,得到1*2n维度的列特征C1和C2,计算C1和C2的余弦值,若余弦值大于第二预设数值(如0.9或0.95),则认为两帧图片列相似;
若P1和P2的行相似且列相似,则确定P1和P2为重复图片。由此,采用上述方式处理视频流的各视频帧,以快速合理的筛选出不重复的图片数据。
此外,本实施例中还可利用OCR或其他已知方法将视频中的不重复画面转化为文本数据,利用CTC Loss或其他已知方法将音频数据转化为文本数据,利用其他已知方法将其他类型非结构化数据转化为文本数据。
203、基于步骤201中预先构建的文本准确度评估模型对所述非结构化的文本数据进行句级校验,判断句级校验是否通过,若句级校验均正确,则执行下述步骤206,否则执行下述步骤204进行词级校验。
也就是说,根据文本准确度评估模型中的建模语料库,采用语句校验模型对所述非结构化的文本数据进行句级校验,若句级校验通过,则直接得到正确的文本数据;
若句级校验未通过,得到句级校验的至少一个预警信息。
204、在步骤203中句级校验存在错误,如至少一个预警信息时,可对预警信息所属的错误语句进行分词处理,并基于常见错词库,对分词处理的各词语进行词级校验,定位存在的错误词语。
举例来说,基于常见错词库,可采用规则匹配方式对分词处理的各词语进行词级校验,定位存在的错误词语。
针对定位存在的错误词语可实现自动修正,对于无法自动修正的已定位的错误词语,可采用人工校正方式对定位的错误词语进行修正,得到修正后的正确的文本数据。
在实际应用中,为保证文本数据的正确性,还可以针对无法定位的错误词语的语句,采用人工校正方式进行修正。
205、对定位的错误词语进行修正,得到修正后的正确的文本数据。
206、采用规则文本敏感信息识别模型捕获所述正确的文本数据中的规则文本的敏感信息(例如施加、日期、身份证号、手机号、银行卡号等);
采用关键词信息的文本敏感信息识别模型捕获所述正确的文本数据中关键词信息所属的敏感信息(如法人名称、企业名称、行业类别等);
采用语义分析的敏感信息识别模型,对所述正确的文本数据进行语义分析,并深度挖掘敏感信息。
207、将脱敏后的文本数据还原为原始类型的非结构化数据。
208、将句级校验未通过的错误语句更新到所述建模语料库的反例;以及,将词级校验中的错误词语更新到常见错词库中。
需要说明的是,针对步骤206中的采用语义分析的敏感信息识别模型,对所述正确的文本数据进行语义分析,并深度挖掘敏感信息之前,所述方法还包括:
A1、采用文本准确度评估模型中建模语料库的正例,获取词向量训练模型;例如,使用字典被自建的常用词库补充后的结巴分词或NLPIR等中文分词工具包对语料库的正例进行分词,然后使用 word2vec方法进行词向量训练。
A2、采用所述词向量训练模型计算预先收集的敏感信息类别的词向量,获取一个以上的与敏感信息类别对应的第一词向量;该处预先收集的敏感信息类别可包括:企业名称、行业类别、法人名称等。
本实施例中,为了缓解一词多义以及分词错误带来的影响,可采用基于多粒度网格LSTM模型对文本进行实体识别,并将LSTM 模型的隐状态向量作为该实体的词向量表示。
相应地,步骤206中的采用语义分析的敏感信息识别模型,对所述正确的文本数据进行语义分析,并深度挖掘敏感信息,包括:
对所述正确的文本数据进行分词处理,并采用所述词向量训练模型计算分词后词语的词向量,获取一个以上的与词语对应的第二词向量;
计算每一第一词向量和每一第二词向量的相似度,根据相似度结果,得到敏感信息及其所属类别。例如,利用余弦值、ESIM或其他已知模型,计算两类词向量的相似度,若大于阈值,则认为该词语属于指定类别的敏感词,若小于阈值,则认为该词语不属于敏感信息。
当然,在实际应用中,还可以根据预先划分的敏感信息的等级,确定当前的文本中筛选的敏感信息的等级。
本实施例的方法解决了现有技术中的无法解决非结构化数据脱敏的问题的缺陷,能够满足多种场景下多类型工业数据脱敏后的开发和测试使用;同时节约人力成本。
特别地,本实施例在非结构化数据转化为文本数据后,通过文本准确度评估模型对文本数据的准确性进行评估,一方面可通过人工校对提升文本数据的准确性,进而提升非结构化数据脱敏的性能;另一方面可通过文本准确度评估模型筛选掉正确的文本数据,并辅助定位到可能的错误词语,显著节约人工校对的时间成本。
在获取正确的文本数据之后,在规则匹配的基础上,基于智能模型进行语义分析,深度识别文本数据中的敏感信息,进一步提升文本数据敏感信息识别的能力,实现精确地捕捉敏感信息。
根据本发明实施例的另一方面,本发明实施例还提供一种非文本数据的脱敏装置,其包括:
转换单元,用于对非文本类型的非结构化数据进行转换,得到非结构化的文本数据;
文本校验单元,用于基于预先构建的文本准确度评估模型对所述非结构化的文本数据进行句级校验和/或词级校验,根据每一校验结果的预警信息,对预警信息所属区域的文本进行修正,获取修正后的正确的文本数据;
敏感信息识别单元,用于采用预先建立的敏感信息识别模型捕获正确的文本数据中的敏感信息,并对捕获的敏感信息进行脱敏处理,得到脱敏后的文本数据;
数据恢复单元,用于将脱敏后的文本数据还原为原始类型的非结构化数据。
本发明的装置在非结构化数据转化为文本数据后,通过预先构建的文本准确度评估模型对文本数据的准确性进行评估,一方面可通过人工修正提升文本数据的准确性,进而提升非结构化数据脱敏的性能;另一方面可通过文本准确度评估模型筛选正确的文本数据,并辅助定位到可能的错误词语,显著节约人工校对的时间成本。
根据本发明实施例的再一方面,本发明实施例还提供一种计算设备,该计算设备可包括:至少一个处理器、至少一个存储器、至少一个网络接口和/或其他的用户接口。收银设备中的各个组件通过总线系统耦合在一起。可理解,总线系统用于实现这些组件之间的连接通信。总线系统除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。
本实施例的计算设备可以执行图1至图4所示的方法,其中,用户接口可以包括显示器、键盘或者点击设备(例如,鼠标或者触感板等。
可以理解,本实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-OnlyMemory,ROM)、可编程只读存储器(ProgrammableROM,PROM)、可擦除可编程只读存储器(ErasablePROM,EPROM)、电可擦除可编程只读存储器 (ElectricallyEPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(RandomAccessMemory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(StaticRAM,SRAM)、动态随机存取存储器 (DynamicRAM,DRAM)、同步动态随机存取存储器(SynchronousDRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(DoubleDataRateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(SynchlinkDRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambusRAM,DRRAM)。本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。
其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序,包含各种应用程序,例如媒体播放器(MediaPlayer)、浏览器 (Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序中。
在本发明实施例中,处理器通过调用存储器存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器用于执行第一方面所提供的方法步骤。
上述本发明实施例揭示的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路 (ApplicationSpecific Integrated Circuit,ASIC)、现成可编程门阵列 (Field ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
另一方面,本发明实施例还提供一种计算机可读存储介质,其用于存储有计算机程序,所述计算机程序被处理器执行时实现上述任意实施例的非文本数据的脱敏方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPDevice,DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,方法实施例的步骤之间除非存在明确的先后顺序,否则执行顺序可任意调整。所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (7)

1.一种非文本数据的脱敏方法,其特征在于,包括:
S1、对非文本类型的非结构化数据进行转换,得到非结构化的文本数据;
构建文本准确度评估模型;
具体地,构建文本准确度评估模型包括:
获取非文本类型的非结构化数据所属的行业属性;
获取基础语料库,同时根据所述行业属性,获取与行业属性对应的行业语料库、行业知识库组成建模语料库的正例,将历史时间段内转化识别错误的文本数据作为建模语料库的反例;以及反例中对应的错误词语,构建对应行业属性的常见错词库;
基于BERT构建所述行业属性对应的语句校验模型;
将所述建模语料库、常见错词库和语句校验模型组成所述文本准确度评估模型;
S2、基于预先构建的文本准确度评估模型对所述非结构化的文本数据进行句级校验和词级校验,根据每一校验结果的预警信息,对预警信息所属区域的文本进行修正,获取修正后的正确的文本数据;
其中,所述根据每一校验结果的预警信息,对预警信息所属区域的文本进行修正,获取修正后的正确的文本数据,具体包括:
根据所述建模语料库,采用语句校验模型对所述非结构化的文本数据进行句级校验,若句级校验通过,则直接得到正确的文本数据;
若句级校验未通过,得到句级校验的至少一个预警信息,则对预警信息所属的错误语句进行分词处理,并基于常见错词库,采用规则匹配方式对分词处理的各词语进行词级校验,定位存在的错误词语;
对定位的错误词语进行修正,对无法自动修正的已定位的错误词语,采用人工校正方式对定位的错误词语进行修正,得到修正后的正确的文本数据;以及,
将句级校验未通过的错误语句更新到所述建模语料库的反例;
以及,将词级校验中的错误词语更新到常见错词库中;
S3、采用预先建立的敏感信息识别模型捕获正确的文本数据中的敏感信息,并对捕获的敏感信息进行脱敏处理,得到脱敏后的文本数据;
S4、将脱敏后的文本数据还原为原始类型的非结构化数据。
2.根据权利要求1所述的非文本数据的脱敏方法,其特征在于,所述非文本类型的非结构化数据包括下述的一项或多项:音频格式的数据、图片类型的数据、视频格式的数据;
所述S1包括:
针对音频格式的数据,采用CTC loss将音频格式的数据转化为非结构化的文本数据;
针对图片类型的数据,采用OCR将图片格式的数据转化为非结构化的文本数据;
针对视频格式的数据,将视频格式的数据逐帧转化为图片数据,并利用矩阵相似性,筛选出不重复的图片数据;采用OCR将图片数据转化为非结构化的文本数据。
3.根据权利要求2所述的非文本数据的脱敏方法,其特征在于,所述将视频格式的数据逐帧转化为图片数据,并利用矩阵相似性,筛选出不重复的图片数据,包括:
对于连续的两帧图片P1和P2,计算该每一帧图片中每个像素点的RGB均值,得到对应图片P1的m*n维的三原色均值矩阵M1和对应图片P2的m*n维的三原色均值矩阵M2;
获取M1和M2的行特征相似度,计算 M1和M2每一行的均值及方差,得到2m*1维度的行特征R1和R2,计算R1和R2的余弦值,若余弦值大于第一预设数值,则认为P1和P2的行相似;
获取M1和M2的列特征相似度,计算M1和M2每一列的均值及方差,得到1*2n维度的列特征C1和C2,计算C1和C2的余弦值,若余弦值大于第二预设数值,则认为两帧图片列相似;
若P1和P2的行相似且列相似,则确定P1和P2为重复图片。
4.根据权利要求1所述的非文本数据的脱敏方法,其特征在于,
预先建立的敏感信息识别模型包括:
规则文本敏感信息识别模型、关键词信息的文本敏感信息识别模型和语义分析的敏感信息识别模型;
所述S3中的采用预先建立的敏感信息识别模型捕获正确的文本数据中的敏感信息,包括:
采用规则文本敏感信息识别模型捕获所述正确的文本数据中的规则文本的敏感信息;
采用关键词信息的文本敏感信息识别模型捕获所述正确的文本数据中关键词信息所属的敏感信息;
采用语义分析的敏感信息识别模型,对所述正确的文本数据进行语义分析,并深度挖掘敏感信息。
5.根据权利要求4所述的非文本数据的脱敏方法,其特征在于,
采用语义分析的敏感信息识别模型,对所述正确的文本数据进行语义分析,并深度挖掘敏感信息之前,所述方法还包括:
采用文本准确度评估模型中建模语料库的正例,获取词向量训练模型;
基于预先收集的敏感信息类别,采用所述词向量训练模型进行词向量的计算,获取一个与所述敏感信息类别对应的第一词向量;
相应地,采用语义分析的敏感信息识别模型,对所述正确的文本数据进行语义分析,并深度挖掘敏感信息,包括:
对所述正确的文本数据进行分词处理,并采用所述词向量训练模型计算分词后词语的词向量,获取一个与所述词语对应的第二词向量;
计算每一第一词向量和每一第二词向量的相似度,根据相似度结果,得到敏感信息及该敏感信息所属类别。
6.一种非文本数据的脱敏装置,其特征在于,包括:
转换单元,用于对非文本类型的非结构化数据进行转换,得到非结构化的文本数据;
用于构建文本准确度评估模型的单元,具体用于获取非文本类型的非结构化数据所属的行业属性;获取基础语料库,同时根据所述行业属性,获取与行业属性对应的行业语料库、行业知识库组成建模语料库的正例,将历史时间段内转化识别错误的文本数据作为建模语料库的反例;以及反例中对应的错误词语,构建对应行业属性的常见错词库;基于BERT构建所述行业属性对应的语句校验模型;将所述建模语料库、常见错词库和语句校验模型组成所述文本准确度评估模型;
文本校验单元,用于基于预先构建的文本准确度评估模型对所述非结构化的文本数据进行句级校验和词级校验,根据所述建模语料库,采用语句校验模型对所述非结构化的文本数据进行句级校验,若句级校验通过,则直接得到正确的文本数据;若句级校验未通过,得到句级校验的至少一个预警信息,则对预警信息所属的错误语句进行分词处理,并基于常见错词库,采用规则匹配方式对分词处理的各词语进行词级校验,定位存在的错误词语;对定位的错误词语进行修正,对无法自动修正的已定位的错误词语,采用人工校正方式对定位的错误词语进行修正,得到修正后的正确的文本数据;以及,将句级校验未通过的错误语句更新到所述建模语料库的反例;以及,将词级校验中的错误词语更新到常见错词库中;
敏感信息识别单元,用于采用预先建立的敏感信息识别模型捕获正确的文本数据中的敏感信息,并对捕获的敏感信息进行脱敏处理,得到脱敏后的文本数据;
数据恢复单元,用于将脱敏后的文本数据还原为原始类型的非结构化数据。
7.一种计算设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上权利要求1至5任一项所述的非文本数据的脱敏方法的步骤。
CN202210807875.7A 2022-07-11 2022-07-11 一种非文本数据的脱敏方法、装置及存储介质 Active CN115618371B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210807875.7A CN115618371B (zh) 2022-07-11 2022-07-11 一种非文本数据的脱敏方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210807875.7A CN115618371B (zh) 2022-07-11 2022-07-11 一种非文本数据的脱敏方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN115618371A CN115618371A (zh) 2023-01-17
CN115618371B true CN115618371B (zh) 2023-08-04

Family

ID=84857039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210807875.7A Active CN115618371B (zh) 2022-07-11 2022-07-11 一种非文本数据的脱敏方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN115618371B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115859372B (zh) * 2023-03-04 2023-04-25 成都安哲斯生物医药科技有限公司 医疗数据脱敏方法及系统
CN116432208B (zh) * 2023-06-08 2023-09-05 长扬科技(北京)股份有限公司 工业互联网数据的安全管理方法、装置、服务器及系统
CN116502614B (zh) * 2023-06-26 2023-09-01 北京每日信动科技有限公司 一种数据校对方法、系统及存储介质
CN117112858B (zh) * 2023-10-24 2024-02-02 武汉博特智能科技有限公司 基于关联规则挖掘的对象筛选方法、处理器及存储介质
CN117633867A (zh) * 2023-10-26 2024-03-01 唐山启奥科技股份有限公司 医疗图像脱敏方法、装置、电子设备及可读存储介质
CN117272996B (zh) * 2023-11-23 2024-02-27 山东网安安全技术有限公司 一种数据脱敏系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191275A (zh) * 2019-11-28 2020-05-22 深圳云安宝科技有限公司 敏感数据识别方法、系统及其装置
CN113065330A (zh) * 2021-03-22 2021-07-02 四川大学 一种从非结构化数据中提取敏感信息的方法
CN113553846A (zh) * 2020-04-24 2021-10-26 华为技术有限公司 一种非结构化数据的处理方法、装置、设备及介质
CN114529741A (zh) * 2022-02-18 2022-05-24 飞书深诺数字科技(上海)股份有限公司 一种图片去重方法、装置及电子设备
CN114626097A (zh) * 2022-03-22 2022-06-14 中国平安人寿保险股份有限公司 脱敏方法、脱敏装置、电子设备及存储介质
CN114697751A (zh) * 2022-03-23 2022-07-01 成都智元汇信息技术股份有限公司 一种视频倒放防重切的方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10776583B2 (en) * 2018-11-09 2020-09-15 International Business Machines Corporation Error correction for tables in document conversion

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191275A (zh) * 2019-11-28 2020-05-22 深圳云安宝科技有限公司 敏感数据识别方法、系统及其装置
CN113553846A (zh) * 2020-04-24 2021-10-26 华为技术有限公司 一种非结构化数据的处理方法、装置、设备及介质
CN113065330A (zh) * 2021-03-22 2021-07-02 四川大学 一种从非结构化数据中提取敏感信息的方法
CN114529741A (zh) * 2022-02-18 2022-05-24 飞书深诺数字科技(上海)股份有限公司 一种图片去重方法、装置及电子设备
CN114626097A (zh) * 2022-03-22 2022-06-14 中国平安人寿保险股份有限公司 脱敏方法、脱敏装置、电子设备及存储介质
CN114697751A (zh) * 2022-03-23 2022-07-01 成都智元汇信息技术股份有限公司 一种视频倒放防重切的方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于空间变换密集卷积网络的图片敏感文字识别;林金朝 等;《计算机系统应用》;137-143 *

Also Published As

Publication number Publication date
CN115618371A (zh) 2023-01-17

Similar Documents

Publication Publication Date Title
CN115618371B (zh) 一种非文本数据的脱敏方法、装置及存储介质
CN111797210A (zh) 基于用户画像的信息推荐方法、装置、设备及存储介质
US20220414345A1 (en) Official document processing method, device, computer equipment and storage medium
CN110413787B (zh) 文本聚类方法、装置、终端和存储介质
WO2022048363A1 (zh) 网站分类方法、装置、计算机设备及存储介质
CN114547257B (zh) 类案匹配方法、装置、计算机设备及存储介质
CN113360654A (zh) 文本分类方法、装置、电子设备及可读存储介质
CN114528413B (zh) 众包标注支持的知识图谱更新方法、系统和可读存储介质
CN112395407B (zh) 企业实体关系的抽取方法、装置及存储介质
CN114117299A (zh) 一种网站入侵篡改检测方法、装置、设备及存储介质
CN111125704B (zh) 一种网页挂马识别方法及系统
CN111444906B (zh) 基于人工智能的图像识别方法和相关装置
CN112069808A (zh) 融资风控方法、装置、计算机设备及存储介质
CN116774973A (zh) 数据渲染方法、装置、计算机设备及存储介质
CN116561298A (zh) 基于人工智能的标题生成方法、装置、设备及存储介质
CN108875374B (zh) 基于文档节点类型的恶意pdf检测方法及装置
CN113705201B (zh) 基于文本的事件概率预测评估算法、电子设备及存储介质
CN110598115A (zh) 一种基于人工智能多引擎的敏感网页识别方法及系统
US20200226162A1 (en) Automated Reporting System
CN115618415A (zh) 敏感数据识别方法、装置、电子设备和存储介质
CN115186240A (zh) 基于关联性信息的社交网络用户对齐方法、装置、介质
CN113888760A (zh) 基于软件应用的违规信息监控方法、装置、设备及介质
CN113901817A (zh) 文档分类方法、装置、计算机设备和存储介质
US20220350814A1 (en) Intelligent data extraction
CN115880682A (zh) 图像文本识别方法、装置、设备、介质和产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant