CN112434331B - 一种数据脱敏方法、装置、设备以及存储介质 - Google Patents

一种数据脱敏方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN112434331B
CN112434331B CN202011314022.7A CN202011314022A CN112434331B CN 112434331 B CN112434331 B CN 112434331B CN 202011314022 A CN202011314022 A CN 202011314022A CN 112434331 B CN112434331 B CN 112434331B
Authority
CN
China
Prior art keywords
data
text
named entity
text information
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011314022.7A
Other languages
English (en)
Other versions
CN112434331A (zh
Inventor
王建奎
张所超
季石磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202011314022.7A priority Critical patent/CN112434331B/zh
Publication of CN112434331A publication Critical patent/CN112434331A/zh
Application granted granted Critical
Publication of CN112434331B publication Critical patent/CN112434331B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种数据脱敏方法、装置、设备以及存储介质,涉及人工智能、计算机视觉、深度学习和AI医疗技术领域。具体实现方案为:识别待处理数据的文本信息和所述文本信息的位置信息;通过命名实体识别模型对所述文本信息进行敏感命名实体识别,得到模型识别结果,并根据预设规则对所述模型识别结果进行处理,得到目标敏感命名实体;根据所述文本信息的位置信息和所述目标敏感命名实体,对所述待处理数据进行脱敏处理。能够准确且高效的进行数据脱敏,避免敏感数据被泄露,为数据脱敏提供了一种新思路。

Description

一种数据脱敏方法、装置、设备以及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及人工智能、计算机视觉、深度学习和AI医疗技术领域。具体涉及一种数据脱敏方法、装置、设备以及存储介质。
背景技术
随着移动互联网以及人工智能的发展,数据的来源也涉及到各个行业以及人们生活的方方面面。为了保证数据的安全,需要在数据使用过程中对其中的敏感信息进行数据脱敏处理,例如,对数据进行变形、屏蔽或者仿真处理等,以实现对敏感数据的可靠保护。目前,现有技术通常是通过人工处理的方式对待处理数据,如非结构化数据进行数据脱敏,存在成本高、效率低,以及敏感数据被泄露的风险,亟需改进。
发明内容
本公开提供了一种数据脱敏方法、装置、设备以及存储介质。
根据本公开的第一方面,提供了一种数据脱敏方法,包括:
识别待处理数据的文本信息和所述文本信息的位置信息;
通过命名实体识别模型对所述文本信息进行敏感命名实体识别,得到模型识别结果,并根据预设规则对所述模型识别结果进行处理,得到目标敏感命名实体;
根据所述文本信息的位置信息和所述目标敏感命名实体,对所述待处理数据进行脱敏处理。
根据本公开的第二方面,提供了一种数据脱敏装置,包括:
文本识别模块,用于识别待处理数据中的文本信息和所述文本信息的位置信息;
命名实体识别模块,用于通过命名实体识别模型对所述文本信息进行敏感命名实体识别,得到模型识别结果,并根据预设规则对所述模型识别结果进行处理,得到目标敏感命名实体;
脱敏处理模块,用于根据所述文本信息的位置信息和所述目标敏感命名实体,对所述待处理数据进行脱敏处理。
根据本公开的第三方面,提供了一种电子设备,该电子设备包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本申请任一实施例的数据脱敏方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质。计算机指令用于使计算机执行本申请任一实施例的数据脱敏方法。
根据本申请的技术能够准确且高效的自动进行数据脱敏,避免敏感数据被泄露,为数据脱敏提供了一种新思路。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请实施例提供的一种数据脱敏方法的流程图;
图2是根据本申请实施例提供的另一种数据脱敏方法的流程图;
图3是根据本申请实施例提供的另一种数据脱敏方法的流程图;
图4A是根据本申请实施例提供的另一种数据脱敏方法的流程图;
图4B是根据本申请实施例提供的执行数据脱敏操作的系统组件交互示意图;
图5是根据本申请实施例提供的一种数据脱敏装置的结构示意图;
图6是用来实现本申请实施例的数据脱敏方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本申请实施例提供的一种数据脱敏方法的流程图。本实施例适用于对包含敏感信息的结构化数据或非结构化数据进行脱敏处理的情况。尤其适用于对版本格式不固定的非结构化数据(如医疗领域的电子病历)中的敏感信息进行脱敏处理。该实施例可以由电子设备中配置的数据脱敏装置来执行,该装置可以采用软件和/或硬件来实现。
具体的,本申请实施例的方法如图1所示,该方法包括:
S101,识别待处理数据的文本信息和文本信息的位置信息。
其中,本申请实施例的待处理数据可以是需要进行脱敏处理的数据,其中包含有文本信息,本实施例主要是对其中的敏感文本信息进行脱敏处理。优选的,本申请实施例的待处理数据不但可以是包含文本信息的结构化数据,还可以包含文本信息的非结构化数据。也就是说本申请实施例的数据脱敏方法可适用于各种格式包含文本信息的数据,通用性更好。待处理数据的文本信息可以是待处理数据中包含的文字、字母、数字等信息。文本信息的位置信息可以是文本信息在待处理数据中的位置,例如,若待处理数据为文件,则该位置信息可以是文本信息位于哪一行的哪个字节处;若待处理数据为图像,则该位置信息可以是文本信息位于图像中的具体坐标区域。
可选的,在本申请实施例中,从待处理数据中识别文本信息和文本信息的位置信息的方式有很多,例如,若待处理数据为结构化数据,则此时可以直接从该结构化待处理数据中提取文本信息,并解析提取的文本信息的位置信息;若待处理数据为非结构化数据(如图像数据),则本步骤可以是采用光学字符识别(Optical Character Recognition,OCR)算法,对待处理数据进行处理,提取其中的文本信息和文本信息的位置信息;还可以是将结构化或非结构化的待处理数据输入到预先训练好的神经网络模型中,运行该神经网络模型来识别待处理数据中的文本信息和文本信息的位置信息。可选的,在采用神经网络模型识别文本信息及其位置信息时,可以是通过一个神经网络模型采用一段式识别得到文本信息及其位置信息;还可以是通过两个神经网络模型采用两段式识别,即先识别文本区域,再识别文本区域中的文本信息,得到文本信息及其位置信息。还可以采用其他方式来识别待处理数据中的文本信息及其位置信息,对此本实施例不进行限定。
S102,通过命名实体识别模型对文本信息进行敏感命名实体识别,得到模型识别结果,并根据预设规则对模型识别结果进行处理,得到目标敏感命名实体。
其中,敏感命名实体可以是指敏感数据对应的命名实体,例如,可以包括但不限于:姓名、电话、身份证号和地址等。可选的,针对不同的待处理数据可以设置不同的敏感命名实体。命名实体识别模型可以是预先训练好的能够从文本信息中识别出其中包含的敏感数据对应的命名实体(即敏感命名实体)的神经网络模型。模型识别结果可以是采用命名实体识别模型对待处理数据中的文本信息识别出的敏感命名实体。预设规则可以是为敏感命名实体识别专门设置的识别规则,例如,可以包括正则匹配规则和时间表达式匹配规则等。目标敏感命名实体可以是本申请实施例混合使用命名实体识别模型和预设规则进行敏感命名实体识别得到的最终敏感命名实体,后续的数据脱敏操作就是基于该目标敏感命名实体执行的。该目标敏感命名实体的数量可以为至少一个。
可选的,本申请实施例对文本信息进行敏感命名实体的识别包括两个阶段,第一阶段可以是先将文本信息输入到预先训练好的命名实体识别模型中,运行该命名实体识别模型,即可得到命名实体识别模型对文本信息进行识别得到的模型识别结果。此时该模型识别结果中包含有命名实体识别模型识别出的敏感命名实体,为了防止其识别出的敏感命名实体存在不准确的情况,本申请实施例可以是第一阶段得到模型识别结果的基础上,执行第二阶段,即采用预设规则对模型识别结果进行进一步的识别确认,将模型识别结果中不准确的敏感命名实体进行修正,以得到准确的目标敏感命名实体。具体的,本申请实施例根据预设规则对模型识别结果进行处理的方式也有很多,例如,可以针对模型识别结果中的每个敏感命名实体关联的文本信息,采用预设规则进行重新识别,并将预设规则识别结果与模型识别结果进行融合,确定目标敏感命名实体,如可以选择两识别结果中置信度高的作为目标敏感命名实体,或者将两识别结果相同的敏感命名实体作为目标敏感命名实体。可选的,本申请实施例还可以针对模型识别结果中的某一类别的敏感命名实体,采用预设规则重新识别,将预设规则识别到的敏感命名实体替换模型识别中该类别的敏感命名实体。还可以采用其他方式根据预设规则对模型识别结果进行处理,对此不进行限定。
S103,根据文本信息的位置信息和目标敏感命名实体,对待处理数据进行脱敏处理。
可选的,本申请实施例可以是针对每个目标敏感命名实体,确定其关联的文本信息,将该关联的文本信息的位置信息作为该目标敏感命名实体的位置信息,进而对待处理数据中各个目标敏感命名实体的位置信息处的文本信息(即敏感数据)进行脱敏处理。可选的,本申请实施例对敏感数据进行脱敏处理的方式有很多,例如,可以是执行高斯模糊处理算法对目标敏感命名实体的位置信息处的文本信息进行遮盖;还可以是针对不同的目标敏感命名实体,采用不同的策略进行脱敏处理,例如,对于手机号类型的目标敏感命名实体,将手机号的中间几位进行遮挡脱敏处理,对于姓名类型的目标敏感命名实体,保留姓氏对名字进行遮挡脱敏处理。其中,遮挡脱敏处理可以是采用星号进行数据遮挡,例如,将手机的中间几位替换为星号,或将名字部分替换为星号。
本申请实施例的技术方案,对于待处理数据识别出其中包含的文本信息和文本信息的位置信息,并通过命名实体识别模型对文本信息进行敏感命名实体识别,根据预设规则对模型识别结果进行再处理,确定精准的目标敏感命名实体,通过模型和规则的混合使用,确定的目标敏感命名实体的准确性更高,进而基于精准的目标敏感命名实体和文本信息的位置信息,对待处理数据进行脱敏处理,提高了数据脱敏处理的准确性。本申请实施例的方案,无需人工操作,即可自动对待处理数据进行脱敏处理,成本低、效率高,且避免了敏感数据被泄露。另外,本申请实施例的数据脱敏方法可支持对结构化和非结构等多种格式的数据进行脱敏处理,不受数据格式限定,通用性较强。
可选的,本申请实施例中的命名实体识别模型可以是基于模型训练平台(例如,飞浆Paddle ERNIE),使用训练样本进行训练得到的。该命名实体识别模型的训练样本至少包括:样本处理数据中包含的文本信息和待处理数据所属领域的专属词。
其中,样本处理数据可以是标注了敏感命名实体的结构化或非结构化的包含本文信息的数据,主要用于进行命名实体识别模型的训练。待处理数据所述领域的专属词可以是待脱敏处理的数据所属的行业领域中的专有词汇,例如,若待处理数据为电子病例,则待处理数据所属领域为医疗领域,该医疗领域的专属词可以是医疗术语和药品名称等。需要说明的是,本申请实施例的样本训练数据中不但包含样本处理数据中的文本信息;还包含特有的待处理数据所属领域的专属词。本申请实施例在命名实体识别模型的训练过程中,引入待处理数据所属领域的专属词,使得训练好的命名实体识别模型对待处理数据中的敏感命名实体的识别准确性更高。例如,假设待处理数据为医疗领域,当其中的文本信息为“白芍”时,采用常规的基于样本处理数据包含的文本信息训练的命名实体识别模型,可能将“白芍”的命名实体识别为姓名类型的敏感命名实体,而本申请实施例由于训练样本中包含了待处理数据所属领域的专属词,所以本申请实施例训练的命名实体识别模型就会准确判断出“白芍”属于药名,并非人名,进而将“白芍”的命名实体识别为药名类型的非敏感命名实体。避免后续将“白芍”作为姓名进行误脱敏处理。
图2是根据本申请实施例提供的另一种数据脱敏方法的流程图。本实施例在上述实施例的基础上,给出了根据预设规则对模型识别结果进行处理,得到目标敏感命名实体的具体情况介绍,如图2所示,该方法包括:
S201,识别待处理数据的文本信息和文本信息的位置信息。
S202,通过命名实体识别模型对文本信息进行敏感命名实体识别,得到模型识别结果。
S203,在模型识别结果包含预设命名实体的情况下,采用预设规则对预设命名实体关联的文本信息进行敏感命名实体识别,得到规则识别结果。
其中,预设命名实体可以是预先设置的一些特殊类型的命名实体,如可以是难以区分具体命名实体类型的命名实体。可选的,该预设命名实体可以是数字类型、字母类型以及数字和字母混合类型的命名实体。
可选的,本申请实施例中,针对预设命名实体关联的文本信息,命名实体识别模型会将其直接识别为敏感命名实体,但是却没有对其进行更细维度的划分,因此,可能存在误识别的情况。所以为了保证敏感命名实体确定的精准性,本步骤需要判断模型识别结果中是否存预设命名实体,若存在,则获取预设命名实体关联的文本信息,采用预设规则,如正则匹配规则,对所述预设命名实体关联的文本信息再次进行敏感命名实体的识别。具体的,通过预设规则识别预设命名实体关联的文本信息是否属于某种更细维度类型的敏感命名实体,以及属于哪种更细维度类型的敏感命名实体的识别结果即为规则识别结果。
示例性的,假设模型识别结果中包含数字类型的预设命名实体,则获取该预设命名实体关联的文本信息“13511110000”,采用正则匹配规则对其进行进一步的识别,此时得到的规则识别结果是该文本信息“13511110000”是手机号类型的敏感命名实体。
S204,根据规则识别结果和模型识别结果中的非预设命名实体,确定目标敏感命名实体。
可选的,本申请实施例可以是将规则识别结果中的敏感命名实体和模型识别结果中的非预设命名实体,即模型识别结果中除预设命名实体以外的其他各敏感命名实体作为最终确定的目标敏感命名实体。
S205,根据文本信息的位置信息和目标敏感命名实体,对待处理数据进行脱敏处理。
本申请实施例的技术方案,对于待处理数据识别出其中包含的文本信息和文本信息的位置信息后,先通过命名实体识别模型对文本信息进行敏感命名实体识别,在命名实体识别模型的识别结果中包含预设命名实体的情况下,采用预设规则对预设命名实体关联的文本信息再次进行敏感命名实体识别,将预设规则识别出的敏感命名实体和模型识别结果中的非预设命名实体作为目标敏感命名实体。进而基于目标敏感命名实体和文本信息的位置信息,对待处理数据进行脱敏处理。本实施例配合使用模型和预设规则,在模型识别结果的基础上,使用预设规则进一步优化模型识别结果,提高了文本信息的敏感命名实体识别的灵活性和准确性。为后续准确完成数据脱敏操作提供了保障。
图3是根据本申请实施例提供的另一种数据脱敏方法的流程图。本实施例在上述实施例的基础上,给出了识别待处理数据中的文本信息和文本信息的位置信息的具体情况介绍,如图3所示,该方法包括:
S301,通过文本区域识别模型识别待处理数据中的文本区域,以及文本区域的位置信息。
其中,本申请实施例中的待处理数据优选为非结构化待处理数据,如图片数据、视频数据等。所谓文本区域识别模型可以是用于从非结构化待处理数据中识别待处理数据中的文本区域,及其位置信息的模型。该文本区域识别模型可以是预先基于开源的数据集(如ICDAR2017等)对模型进行训练,然后根据后续进行数据脱敏的待处理数据的特殊格式,使用标注的符合该特殊格式要求的样本数据(如若后续需要对电子病例进行脱敏处理,则此时的样本数据可以为大量标注有文本区域的电子病例图像),利用模型的迁移学习特性进行参数微调得到。由于本申请实施例的文本区域识别模型在训练阶段使用了与待处理数据格式一样的样本数据,所以训练后的该文本区域识别模型能够更为精准的识别出待处理数据中的文本区域。可选的,该文本区域识别模型的种类有很多,对此本实施例不进行限定,例如,可以是区域检测EAST模型,还可以是区域检测DB模型等。
可选的,在文本区域识别模型的训练阶段,采用图像增广(pipline),对图片进行随机的扰动、颜色空间转换(cvtColor)、模糊(blur)、抖动(jitter)、噪声(Gasuss noise)、随机切割(random crop)、透视(perspective)、颜色反转(reverse),随机数据增强(RandAugment)等处理,来扩充提高样本数据的数量,很好的解决了小数据量的模型训练的难题,提高了模型对特殊文字区域识别的鲁棒性。
可选的,本步骤可以是将待处理数据输入到预先训练好的文本区域识别模型中,运行该文本区域识别模型,该文本区域识别模型即可按照训练时的算法对待处理数据(如电子病例图像)进行分析识别,确定出其中包含的文本信息在待处理数据中的区域(即文本区域),以及各个文本区域在整个待处理数据中对应的位置信息(如位置坐标范围)。
S302,通过文本信息识别模型识别文本区域中的文本信息,并根据文本区域的位置信息,确定文本信息的位置信息。
其中,所谓文本信息识别模型可以是用于从文本区域识别模型识别到的各文本区域中进一步识别其中包含的文本信息的模型。该文本信息识别模型可以是预先基于开源的数据集(如ICDAR2017等)对模型进行训练,然后根据与待处理数据中的文本信息类型相同的样本文本信息(如若后续需要对电子病例进行脱敏处理,则此时的样本文本信息可以为姓名、地址、病历号等),利用模型的迁移学习特性进行参数微调得到。由于本申请实施例的文本信息识别模型在训练阶段使用了与待处理数据中的文本信息相同类型的样本文本信息,所以训练后的该文本信息识别模型能够更为精准的识别出文本区域中包含的文本信息。可选的,该文本信息识别模型的种类有很多,对此本实施例不进行限定,例如,可以是文本检测CRNN模型,还可以是文本检测SRN模型等。
可选的,本步骤可以是将文本区域识别模型识别出的待处理数据中各个文本区域对应的区域内容输入到预先训练好的文本信息识别模型中,运行该文本信息识别模型,该文本信息识别模型即可按照训练时的算法对各个文本区域对应的区域内容进行分析识别,确定出各个文本区域中包含的文本信息。然后将文本区域识别模型识别出的各文本区域的位置信息,作为该文本区域内识别出的各文本信息的位置信息。
需要说明的是,根据文本区域的位置信息,确定文本信息的位置信息可以是文本信息识别模型自动确定并输出的,也可以是数据脱敏装置确定的。例如,若将文本区域识别模型识别的各个文本区域及其位置信息输入到文本信息识别模型中,则该文本信息识别模型即可自动识别并输出文本信息及其对应的位置信息;若仅将文本区域识别模型识别的各个文本区域输入到文本信息识别模型中,则此时文本信息识别模型就只输出识别到的各文本区域的文本信息,后续由数据脱敏装置进一步根据文本区域的位置信息,确定文本信息的位置信息。
S303,通过命名实体识别模型对文本信息进行敏感命名实体识别,得到模型识别结果,并根据预设规则对模型识别结果进行处理,得到目标敏感命名实体。
S304,根据文本信息的位置信息和目标敏感命名实体,对待处理数据进行脱敏处理。
本申请实施例的技术方案,对于待处理数据先采用文本区域识别模型识别待处理数据中的文本区域及其位置信息,再采用文本信息识别模型识别各文本区域中的文本信息,并根据文本区域的位置信息确定文本信息的位置信息。进而通过命名实体识别模型对文本信息进行敏感命名实体识别,根据预设规则对模型识别结果进行再处理,确定精准的目标敏感命名实体,根据目标敏感命名实体和文本信息的位置信息,对待处理数据进行脱敏处理。本申请实施例的方案,采用两段式来识别待处理数据中的文本信息及其位置信息,提高了文本信息识别的准确性。为后续精准对文本信息进行敏感命名实体识别,以及数据脱敏处理提供了保证。
可选的,在本申请实施例中,若文本信息的位置信息大于预设范围,则将文本信息划分为至少两个子文本信息,并确定至少两个子文本信息的位置信息。具体的,若本申请实施例中,某个文本区域中包含的文本信息的较多,例如,为一整段的文本信息。此时该文本信息中可能包含多个敏感命名实体,为了后续准确确定出敏感命名实体的准确位置信息,本申请实施例可以是在文本信息的位置信息大于预设范围时,对文本信息进行进一步的划分,例如,可以采用分词技术,将文本信息划分成多个词汇,每个词汇作为一个子文本信息,并确定每个子文本信息的具体位置信息。其中,预设范围可以是预先根据待处理数据中文本信息的字体大小、格式、间距等确定。需要说明的是,若本实施例将文本信息划分为成了至少两个子文本信息,则采用命名实体识别模型对文本信息进行敏感命名实体识别时,可以是采用命名实体识别模型分别对每个子文本信息进行敏感命名实体识别。本申请实施例这样设置的好处是,便于精准识别文本信息中的敏感命名实体,且提高了敏感命名实体的位置信息的准确性,为后续精准定位敏感数据的区域进行脱敏处理提供了保证。
图4A是根据本申请实施例提供的另一种数据脱敏方法的流程图;图4B是根据本申请实施例提供的执行数据脱敏操作的系统组件交互示意图。本实施例在上述实施例的基础上,给出了根据文本信息的位置信息和目标敏感命名实体,对待处理数据进行脱敏处理的具体情况介绍。如图4A-4B所示,该方法介绍如下:
可选的,由图4B可知,本申请实施例中,执行数据脱敏处理操作需要数据脱敏系统和离线训练系统训练好的模型进行交互实现。该数据脱敏系统主要由:主控服务、文本识别服务和实体识别服务构成,其中,主要的业务流程、参数配置以及对外接口都是由主控服务提供,文本识别服务和实体识别服务作为两种功能单一且资源消耗较大的服务彼此相互独立,各自以微服务的形式部署,便于根据需要随时调整各自服务节点数量提高吞吐量。此外,主控服务可以根据需求独立调用文本识别服务或实体识别服务来完成文本识别或敏感命名实体的识别操作。例如,若待处理数据为格式简单的结构化数据,则此时主控服务可以无需调用文本识别服务,直接按照主控服务中预设规则(如正则匹配规则),或者调用实体识别服务对结构化数据进行敏感命名实体的识别。若待处理数据为格式复杂且不统一的非结构化数据,则此时主控服务需要先调用文本识别服务执行S401识别待处理数据中的文本信息和文本信息的位置信息,再调用实体识别服务执行S402对识别出的文本信息进行敏感命名实体的识别。
S401,识别待处理数据的文本信息和文本信息的位置信息。
可选的,S401操作可以是通过两个模型实现,即通过文本区域识别模型识别待处理数据中的文本区域,以及所述文本区域的位置信息;通过文本信息识别模型识别所述文本区域中的文本信息,并根据所述文本区域的位置信息,确定所述文本信息的位置信息。其中,文本区域识别模型可以通过离线训练系统中的文本区域识别网络进行训练得到,文本信息识别模型可以通过离线训练系统中的文本信息识别网络进行训练得到。主控服务可以在需要进行文本信息及其位置信息确定时,调用文本识别服务,此时文本识别服务就会调用训练好的文本区域识别模型和文本信息识别模型两段式进行文本信息及其位置信息的识别。
S402,通过命名实体识别模型对文本信息进行敏感命名实体识别,得到模型识别结果,并根据预设规则对模型识别结果进行处理,得到目标敏感命名实体。
可选的,S402操作所需的命名实体识别模型可以通过离线训练系统中的命名实体识别网络训练得到,训练该命名实体识别模型的训练样本至少包括:样本处理数据中包含的文本信息和所述待处理数据所属领域的专属词。主控服务可以在需要对文本信息进行敏感命名实体识别时,调用实体识别服务,此时实体识别服务就会调用训练好的命名实体识别模型先对文本信息进行敏感命名实体的识别,得到模型识别结果,然后再在模型识别结果的基础上,引入预设规则进一步对模型识别结果进行处理,得到精准的目标敏感命名实体。例如,可以是在模型识别结果包含预设命名实体的情况下,采用预设规则对预设命名实体关联的文本信息进行敏感命名实体识别,得到规则识别结果,根据规则识别结果和模型识别结果中的非预设命名实体,确定目标敏感命名实体。
S403,将目标敏感命名实体关联的文本信息与预设文本内容进行比较。
其中,本申请实施例的预设文本内容可以是预先设置好的需要进行豁免或者脱敏处理的文本信息。例如,其可以是预先设置好的文本黑白名单。该预设文本内容可以是由图4B中实体识别服务中的黑白名单管理模块预先配置的。
可选的,本申请实施例中,实体识别服务可以是针对S402识别出的各个目标敏感命名实体,获取各个目标敏感命名实体在待处理数据中关联的文本信息,然后依次将各个关联的文本信息分别与预设文本内容进行比较,确定各个关联的文本信息是否命中了预设文本内容作为比较结果反馈给主控服务。
S404,根据比较结果、文本信息的位置信息和目标敏感命名实体,对待处理数据进行脱敏处理。
可选的,在本申请实施例中,主控服务根据实体识别服务反馈的比较结果、文本信息的位置信息和目标敏感命名实体,来对目标敏感命名实体进行过滤后执行对待处理数据进行脱敏处理操作。具体的,在预设文本内容为黑名单的情况下,可以是将比较结果中命中黑名单的文本信息对应的目标敏感命名实体,根据文本信息的位置信息,确定该目标敏感命名实体的位置信息,并对待处理数据中该目标敏感命名实体对应位置的数据进行脱敏处理。在预设文本内容为白名单的情况下,可以是将比较结果中命中白名单的文本信息对应的目标敏感命名实体,从S403确定出的目标敏感命名实体中剔除,然后根据剩余的目标敏感命名实体和文本信息的位置信息,确定剩余的目标敏感命名实体的位置信息,并对待处理数据中剩余的目标敏感命名实体对应位置的数据进行脱敏处理。
可选的,如图4B所示,主控服务在对待处理数据执行脱敏操作时,可以通过脱敏函数管理模块确定不同目标敏感命名实体所对应的脱敏策略(如采用高斯模糊处理算法,或进行星号遮掩等),然后采用脱敏执行引擎按照该脱敏策略,对目标敏感命名实体对应位置的数据进行脱敏处理。可选的,脱敏执行引擎脱敏处理后的脱敏数据可以通过对外接口发送至第三方(如发送至第三方的网页界面进行展示),由于脱敏数据中已经对敏感数据进行了处理,所以避免了将敏感数据泄露给第三方。
可选的,图4B中的主控服务中的敏感实体定义管理模块主要用于定义脱敏处理时的敏感命名实体,本申请实施例可以根据敏感实体定义管理模块中定义的敏感命名实体,来控制离线训练系统对命名实体识别模型的训练,使得训练得到的命名实体识别模型可以精准识别敏感实体定义管理模块定义的敏感命名实体。
本申请实施例的技术方案,对于待处理数据识别出其中包含的文本信息和文本信息的位置信息,并通过命名实体识别模型对文本信息进行敏感命名实体识别,根据预设规则对模型识别结果进行再处理,确定精准的目标敏感命名实体,将目标敏感命名实体关联的文本信息与预设文本内容进行比较,并根据比较结果,结合目标敏感命名实体和文本信息的位置信息,对待处理数据进行脱敏处理。本申请实施例的方案,在通过模型和预设规则确定出目标敏感命名实体后,进一步通过预设文本内容,对确定出的目标敏感命名实体进行过滤,在保证脱敏处理结果准确的前提下,提高了脱敏处理操作的灵活性,进而更好的满足不同用户的个性化需求。
图5是根据本申请实施例提供的一种数据脱敏装置的结构示意图。本实施例适用于对包含敏感信息的结构化数据或非结构化数据进行脱敏处理的情况。尤其适用于对版本格式不固定的非结构化数据(如医疗领域的电子病历)中的敏感信息进行脱敏处理。该装置可实现本申请任意实施例的数据脱敏方法。该装置500具体包括如下:
文本识别模块501,用于识别待处理数据中的文本信息和所述文本信息的位置信息;
命名实体识别模块502,用于通过命名实体识别模型对所述文本信息进行敏感命名实体识别,得到模型识别结果,并根据预设规则对所述模型识别结果进行处理,得到目标敏感命名实体;
脱敏处理模块503,用于根据所述文本信息的位置信息和所述目标敏感命名实体,对所述待处理数据进行脱敏处理。
本申请实施例的技术方案,对于待处理数据识别出其中包含的文本信息和文本信息的位置信息,并通过命名实体识别模型对文本信息进行敏感命名实体识别,根据预设规则对模型识别结果进行再处理,确定精准的目标敏感命名实体,通过模型和规则的混合使用,确定的目标敏感命名实体的准确性更高,进而基于精准的目标敏感命名实体和文本信息的位置信息,对待处理数据进行脱敏处理,提高了数据脱敏处理的准确性。本申请实施例的方案,无需人工操作,即可自动对待处理数据进行脱敏处理,成本低、效率高,且避免了敏感数据被泄露。另外,本申请实施例的数据脱敏方法可支持对结构化和非结构等多种格式的数据进行脱敏处理,不受数据格式限定,通用性较强。
进一步的,所述命名实体识别模块502具体用于:
在所述模型识别结果包含预设命名实体的情况下,采用预设规则对所述预设命名实体关联的文本信息进行敏感命名实体识别,得到规则识别结果;
根据所述规则识别结果和所述模型识别结果中的非预设命名实体,确定目标敏感命名实体。
进一步的,所述命名实体识别模型的训练样本至少包括:样本处理数据中包含的文本信息和所述待处理数据所属领域的专属词。
进一步的,所述文本识别模块501包括:
文本区域识别单元,用于通过文本区域识别模型识别待处理数据中的文本区域,以及所述文本区域的位置信息;
文本信息识别单元,用于通过文本信息识别模型识别所述文本区域中的文本信息,并根据所述文本区域的位置信息,确定所述文本信息的位置信息。
进一步的,所述文本区域识别模型为区域检测DB模型;所述文本信息识别模型为文本检测SRN模型。
进一步的,所述装置还包括:
文本划分模块,用于若所述文本信息的位置信息大于预设范围,则将所述文本信息划分为至少两个子文本信息,并确定所述至少两个子文本信息的位置信息。
进一步的,所述脱敏处理模块503包括:
文本比较单元,用于将所述目标敏感命名实体关联的文本信息与预设文本内容进行比较;
脱敏处理单元,用于根据比较结果、所述文本信息的位置信息和所述目标敏感命名实体,对所述待处理数据进行脱敏处理。
进一步的,所述待处理数据为包含文本信息的非结构化数据。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图6所示,是根据本申请实施例的数据脱敏方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的数据脱敏方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的数据脱敏方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的数据脱敏方法对应的程序指令/模块(例如,附图5所示的文本识别模块501、命名实体识别模块502和脱敏处理模块503)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的数据脱敏方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据数据脱敏方法的电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至数据脱敏方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
数据脱敏方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与数据脱敏方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
根据本申请实施例的技术方案,对于待处理数据识别出其中包含的文本信息和文本信息的位置信息,并通过命名实体识别模型对文本信息进行敏感命名实体识别,根据预设规则对模型识别结果进行再处理,确定精准的目标敏感命名实体,通过模型和规则的混合使用,确定的目标敏感命名实体的准确性更高,进而基于精准的目标敏感命名实体和文本信息的位置信息,对待处理数据进行脱敏处理,提高了数据脱敏处理的准确性。本申请实施例的方案,无需人工操作,即可自动对待处理数据进行脱敏处理,成本低、效率高,且避免了敏感数据被泄露。另外,本申请实施例的数据脱敏方法可支持对结构化和非结构等多种格式的数据进行脱敏处理,不受数据格式限定,通用性较强。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (16)

1.一种数据脱敏方法,包括:
识别待处理数据的文本信息和所述文本信息的位置信息;
通过命名实体识别模型对所述文本信息进行敏感命名实体识别,得到模型识别结果,并根据预设规则对所述模型识别结果进行处理,得到目标敏感命名实体;
根据所述文本信息的位置信息和所述目标敏感命名实体,对所述待处理数据进行脱敏处理;
其中,根据预设规则对所述模型识别结果进行处理,得到目标敏感命名实体,包括:
在所述模型识别结果包含预设命名实体的情况下,采用预设规则对所述预设命名实体关联的文本信息进行敏感命名实体识别,得到规则识别结果;
根据所述规则识别结果和所述模型识别结果中的非预设命名实体,确定目标敏感命名实体。
2.根据权利要求1所述的方法,其中,所述命名实体识别模型的训练样本至少包括:样本处理数据中包含的文本信息和所述待处理数据所属领域的专属词。
3.根据权利要求1所述的方法,其中,识别待处理数据中的文本信息和所述文本信息的位置信息,包括:
通过文本区域识别模型识别待处理数据中的文本区域,以及所述文本区域的位置信息;
通过文本信息识别模型识别所述文本区域中的文本信息,并根据所述文本区域的位置信息,确定所述文本信息的位置信息。
4.根据权利要求3所述的方法,其中,所述文本区域识别模型为区域检测DB模型;所述文本信息识别模型为文本检测SRN模型。
5.根据权利要求1所述的方法,还包括:
若所述文本信息的位置信息大于预设范围,则将所述文本信息划分为至少两个子文本信息,并确定所述至少两个子文本信息的位置信息。
6.根据权利要求1所述的方法,其中,根据所述文本信息的位置信息和所述目标敏感命名实体,对所述待处理数据进行脱敏处理,包括:
将所述目标敏感命名实体关联的文本信息与预设文本内容进行比较;
根据比较结果、所述文本信息的位置信息和所述目标敏感命名实体,对所述待处理数据进行脱敏处理。
7.根据权利要求1-6中任一项所述的方法,其中,所述待处理数据为包含文本信息的非结构化数据。
8.一种数据脱敏装置,包括:
文本识别模块,用于识别待处理数据中的文本信息和所述文本信息的位置信息;
命名实体识别模块,用于通过命名实体识别模型对所述文本信息进行敏感命名实体识别,得到模型识别结果,并根据预设规则对所述模型识别结果进行处理,得到目标敏感命名实体;
脱敏处理模块,用于根据所述文本信息的位置信息和所述目标敏感命名实体,对所述待处理数据进行脱敏处理;
其中,所述命名实体识别模块具体用于:
在所述模型识别结果包含预设命名实体的情况下,采用预设规则对所述预设命名实体关联的文本信息进行敏感命名实体识别,得到规则识别结果;
根据所述规则识别结果和所述模型识别结果中的非预设命名实体,确定目标敏感命名实体。
9.根据权利要求8所述的装置,其中,所述命名实体识别模型的训练样本至少包括:样本处理数据中包含的文本信息和所述待处理数据所属领域的专属词。
10.根据权利要求8所述的装置,其中,所述文本识别模块包括:
文本区域识别单元,用于通过文本区域识别模型识别待处理数据中的文本区域,以及所述文本区域的位置信息;
文本信息识别单元,用于通过文本信息识别模型识别所述文本区域中的文本信息,并根据所述文本区域的位置信息,确定所述文本信息的位置信息。
11.根据权利要求10所述的装置,其中,所述文本区域识别模型为区域检测DB模型;所述文本信息识别模型为文本检测SRN模型。
12.根据权利要求8所述的装置,还包括:
文本划分模块,用于若所述文本信息的位置信息大于预设范围,则将所述文本信息划分为至少两个子文本信息,并确定所述至少两个子文本信息的位置信息。
13.根据权利要求8所述的装置,其中,所述脱敏处理模块包括:
文本比较单元,用于将所述目标敏感命名实体关联的文本信息与预设文本内容进行比较;
脱敏处理单元,用于根据比较结果、所述文本信息的位置信息和所述目标敏感命名实体,对所述待处理数据进行脱敏处理。
14.根据权利要求8-13中任一项所述的装置,其中,所述待处理数据为包含文本信息的非结构化数据。
15. 一种电子设备,其中,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的数据脱敏方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行权利要求1-7中任一项所述的数据脱敏方法。
CN202011314022.7A 2020-11-20 2020-11-20 一种数据脱敏方法、装置、设备以及存储介质 Active CN112434331B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011314022.7A CN112434331B (zh) 2020-11-20 2020-11-20 一种数据脱敏方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011314022.7A CN112434331B (zh) 2020-11-20 2020-11-20 一种数据脱敏方法、装置、设备以及存储介质

Publications (2)

Publication Number Publication Date
CN112434331A CN112434331A (zh) 2021-03-02
CN112434331B true CN112434331B (zh) 2023-08-18

Family

ID=74693341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011314022.7A Active CN112434331B (zh) 2020-11-20 2020-11-20 一种数据脱敏方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN112434331B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204969A (zh) * 2021-05-31 2021-08-03 平安科技(深圳)有限公司 医疗命名实体识别模型的生成方法、装置和计算机设备
CN113569629B (zh) * 2021-06-11 2023-09-15 杭州玖欣物联科技有限公司 一种机加工图纸关键信息提取和敏感信息脱敏的模型方法
CN113472686B (zh) * 2021-07-06 2024-03-08 深圳乐信软件技术有限公司 信息识别方法、装置、设备及存储介质
CN115204164B (zh) * 2022-09-13 2022-12-02 国网湖北省电力有限公司信息通信公司 一种电力系统通信敏感信息识别方法、系统及存储介质
CN116361858B (zh) * 2023-04-10 2024-01-26 北京无限自在文化传媒股份有限公司 应用ai决策的用户会话资源数据保护方法及软件产品
CN116205236B (zh) * 2023-05-06 2023-08-18 四川三合力通科技发展集团有限公司 基于实体命名识别的数据快速脱敏系统及方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480549A (zh) * 2017-06-28 2017-12-15 银江股份有限公司 一种面向数据共享的敏感信息脱敏方法及系统
CN107818077A (zh) * 2016-09-13 2018-03-20 北京金山云网络技术有限公司 一种敏感内容识别方法及装置
CN109960727A (zh) * 2019-02-28 2019-07-02 天津工业大学 针对非结构化文本的个人隐私信息自动检测方法及系统
CN110737770A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 文本数据敏感性识别方法、装置、电子设备及存储介质
CN111079198A (zh) * 2020-03-10 2020-04-28 广州电力交易中心有限责任公司 一种基于电力交易的数据发布方法及系统
CN111143884A (zh) * 2019-12-31 2020-05-12 北京懿医云科技有限公司 数据脱敏方法与装置、电子设备及存储介质
CN111159770A (zh) * 2019-12-31 2020-05-15 医渡云(北京)技术有限公司 文本数据脱敏方法、装置、介质及电子设备
CN111274804A (zh) * 2020-01-17 2020-06-12 珠海市新德汇信息技术有限公司 基于命名实体识别的案件信息提取方法
CN111428273A (zh) * 2020-04-23 2020-07-17 北京中安星云软件技术有限公司 基于机器学习的动态脱敏方法及装置
CN111709052A (zh) * 2020-06-01 2020-09-25 支付宝(杭州)信息技术有限公司 一种隐私数据识别和处理方法、装置、设备和可读介质
CN111783144A (zh) * 2020-08-20 2020-10-16 支付宝(杭州)信息技术有限公司 基于区块链的数据处理方法以及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10984316B2 (en) * 2017-06-19 2021-04-20 International Business Machines Corporation Context aware sensitive information detection
US11397954B2 (en) * 2018-04-16 2022-07-26 International Business Machines Corporation Providing analytics on compliance profiles of type organization and compliance named entities of type organization
US11288294B2 (en) * 2018-04-26 2022-03-29 Accenture Global Solutions Limited Natural language processing and artificial intelligence based search system
US11062043B2 (en) * 2019-05-01 2021-07-13 Optum, Inc. Database entity sensitivity classification

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818077A (zh) * 2016-09-13 2018-03-20 北京金山云网络技术有限公司 一种敏感内容识别方法及装置
CN107480549A (zh) * 2017-06-28 2017-12-15 银江股份有限公司 一种面向数据共享的敏感信息脱敏方法及系统
CN110737770A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 文本数据敏感性识别方法、装置、电子设备及存储介质
CN109960727A (zh) * 2019-02-28 2019-07-02 天津工业大学 针对非结构化文本的个人隐私信息自动检测方法及系统
CN111143884A (zh) * 2019-12-31 2020-05-12 北京懿医云科技有限公司 数据脱敏方法与装置、电子设备及存储介质
CN111159770A (zh) * 2019-12-31 2020-05-15 医渡云(北京)技术有限公司 文本数据脱敏方法、装置、介质及电子设备
CN111274804A (zh) * 2020-01-17 2020-06-12 珠海市新德汇信息技术有限公司 基于命名实体识别的案件信息提取方法
CN111079198A (zh) * 2020-03-10 2020-04-28 广州电力交易中心有限责任公司 一种基于电力交易的数据发布方法及系统
CN111428273A (zh) * 2020-04-23 2020-07-17 北京中安星云软件技术有限公司 基于机器学习的动态脱敏方法及装置
CN111709052A (zh) * 2020-06-01 2020-09-25 支付宝(杭州)信息技术有限公司 一种隐私数据识别和处理方法、装置、设备和可读介质
CN111783144A (zh) * 2020-08-20 2020-10-16 支付宝(杭州)信息技术有限公司 基于区块链的数据处理方法以及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
大数据环境下的智能数据脱敏系统;陈天莹;陈剑锋;;通信技术(第07期);第915-921页 *

Also Published As

Publication number Publication date
CN112434331A (zh) 2021-03-02

Similar Documents

Publication Publication Date Title
CN112434331B (zh) 一种数据脱敏方法、装置、设备以及存储介质
US20230120985A1 (en) Method for training face recognition model
US20210312172A1 (en) Human body identification method, electronic device and storage medium
US11756332B2 (en) Image recognition method, apparatus, device, and computer storage medium
CN112001180A (zh) 多模态预训练模型获取方法、装置、电子设备及存储介质
EP3905122B1 (en) Video type detection method, apparatus, electronic device and storage medium
CN111078878B (zh) 文本处理方法、装置、设备及计算机可读存储介质
CN112153206B (zh) 一种联系人匹配方法、装置、电子设备及存储介质
JP7389824B2 (ja) オブジェクト識別方法と装置、電子機器及び記憶媒体
JP7267379B2 (ja) 画像処理方法、事前トレーニングモデルのトレーニング方法、装置及び電子機器
CN112380566A (zh) 用于对文档图像进行脱敏的方法、装置、电子设备及介质
CN111782785B (zh) 自动问答方法、装置、设备以及存储介质
EP3839799A1 (en) Method, apparatus, electronic device and readable storage medium for translation
CN114244795B (zh) 一种信息的推送方法、装置、设备及介质
US20220067350A1 (en) Method and apparatus for identifying image and electronic device
JP2023543964A (ja) 画像処理方法、画像処理装置、電子機器、記憶媒体およびコンピュータプログラム
CN111832070B (zh) 数据的掩码方法、装置、电子设备和存储介质
CN111783644B (zh) 检测方法、装置、设备和计算机存储介质
CN115565186B (zh) 文字识别模型的训练方法、装置、电子设备和存储介质
CN113139542B (zh) 目标检测方法、装置、设备和计算机可读存储介质
CN112329434B (zh) 文本信息识别方法、装置、电子设备和存储介质
CN113554062B (zh) 多分类模型的训练方法、设备和存储介质
CN112560459B (zh) 用于模型训练的样本筛选方法、装置、设备及存储介质
CN111767585A (zh) 对象识别方法、装置、电子设备及存储介质
CN113113017B (zh) 音频的处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant