CN113688837A - 图像脱敏方法、装置、电子设备及计算机可读存储介质 - Google Patents
图像脱敏方法、装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113688837A CN113688837A CN202111155091.2A CN202111155091A CN113688837A CN 113688837 A CN113688837 A CN 113688837A CN 202111155091 A CN202111155091 A CN 202111155091A CN 113688837 A CN113688837 A CN 113688837A
- Authority
- CN
- China
- Prior art keywords
- image
- sensitive
- target
- character
- desensitization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000586 desensitisation Methods 0.000 title claims abstract description 105
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000012545 processing Methods 0.000 claims abstract description 66
- 238000001514 detection method Methods 0.000 claims abstract description 26
- 230000015654 memory Effects 0.000 claims description 22
- 238000004891 communication Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 11
- 230000015556 catabolic process Effects 0.000 claims description 8
- 238000006731 degradation reaction Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 14
- 238000013473 artificial intelligence Methods 0.000 description 11
- 238000012216 screening Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000004927 fusion Effects 0.000 description 4
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000005764 inhibitory process Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种图像脱敏方法、装置、电子设备及计算机可读存储介质,属于图像处理技术领域。该方法包括获取待脱敏图像;对待脱敏图像进行敏感信息检测得到敏感字段和敏感字段的第一坐标位置;根据第一坐标位置对待脱敏图像进行裁剪处理得到包含敏感字段的图像切片;将图像切片输入到预先训练的图像识别模型中进行图像识别处理,得到图像切片对应的目标图像文本数据;利用预先训练的解码模型对目标图像文本数据进行解码处理,得到目标图像文本数据中的参考敏感字符;对参考敏感字符进行语义纠偏处理得到目标敏感字符;根据目标敏感字符以及预设的脱敏像素值,对待脱敏图像进行脱敏处理得到目标图像,能够提高脱敏的精确性。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种图像脱敏方法、装置、电子设备及计算机可读存储介质。
背景技术
随着互联网技术的不断发展,网络信息资源也不断地丰富起来,图像等视觉信息应用的领域也越来越广泛,由于很多图像中包含隐私等敏感信息,因此,为了保证相关信息不被恶意窃取,需要对图像中的敏感信息进行脱敏处理。目前的图像脱敏技术在进行脱敏时,常常采用模板匹配、模板覆盖等方式进行脱敏,往往存在着脱敏精确性不高的问题。因此,如何提供一种图像脱敏方法,提高脱敏的精确性,成为了亟待解决的技术问题。
发明内容
本申请实施例的主要目的在于提出一种图像脱敏方法、装置、电子设备及计算机可读存储介质,旨在提高脱敏的精确性。
为实现上述目的,本申请实施例的第一方面提出了一种图像脱敏方法,所述方法包括:
获取待脱敏图像;
对所述待脱敏图像进行敏感信息检测,得到敏感字段和所述敏感字段的第一坐标位置;
根据所述第一坐标位置,对所述待脱敏图像进行裁剪处理,得到包含敏感字段的图像切片;
将所述图像切片输入到预先训练的图像识别模型中进行图像识别处理,得到每一图像切片对应的目标图像文本数据;
利用预先训练的解码模型对所述目标图像文本数据进行解码处理,得到所述目标图像文本数据中的每一参考敏感字符的第二坐标位置和像素值;
对所述目标图像文本数据的参考敏感字符进行语义纠偏处理,得到目标敏感字符,其中,所述目标敏感字符的像素值与所述参考敏感字符的像素值相同,所述目标敏感字符的第二坐标位置与所述参考敏感字符的第二坐标位置相同;
根据所述目标敏感字符的像素值、第二坐标位置以及预设的脱敏像素值,对所述待脱敏图像进行脱敏处理,得到目标图像。
在一些实施例,所述对所述待脱敏图像进行敏感信息检测,得到敏感字段和所述敏感字段的第一坐标位置的步骤,包括:
利用预先训练的yolo目标检测模型对所述待脱敏图像进行敏感信息检测,得到所述敏感字段;
根据预设的参考坐标系,确定所述敏感字段的第一坐标位置。
在一些实施例,所述将所述图像切片输入到预先训练的图像识别模型中进行图像识别处理,得到每一图像切片对应的目标图像文本数据的步骤,包括:
将所述图像切片输入到预先训练的图像识别模型中进行退化处理,得到退化图像切片;
对所述退化图像切片进行卷积池化处理,得到图像特征数据;
对所述图像特征数据进行识别处理,得到所述图像特征数据对应的图像文本数据;
计算每一所述图像文本数据的置信度;
根据置信度的大小,确定目标图像文本数据。
在一些实施例,所述利用预先训练的解码模型对所述目标图像文本数据进行解码处理,得到所述目标图像文本数据中的每一参考敏感字符的第二坐标位置和像素值的步骤,还包括:
获取所述图像切片的像素值;
利用所述解码模型和所述像素值对所述目标图像文本数据进行定位处理,得到参考敏感字符以及每一参考敏感字符的像素占比;
根据每一参考敏感字符的像素占比,得到每一参考敏感字符的第二坐标位置和像素值。
在一些实施例,所述对所述目标图像文本数据的参考敏感字符进行语义纠偏处理,得到目标敏感字符的步骤,包括:
将所述参考敏感字符与预设的文本数据库中的文本字符进行比较,确定待修正的参考敏感字符;
计算所述待修正的参考敏感字符的编辑距离;
根据所述编辑距离对所述待修正的参考敏感字符进行语义纠偏处理,得到目标敏感字符。
在一些实施例,所述根据所述编辑距离对所述待修正的参考敏感字符进行语义纠偏处理,得到目标敏感字符的步骤,包括:
比较所述编辑距离与预设范围的关系;
若所述编辑距离在所述预设范围内,则对所述待修正的参考敏感字符进行语义纠偏处理,得到目标敏感字符。
在一些实施例,所述根据所述目标敏感字符的像素值、第二坐标位置以及预设的脱敏像素值,对所述待脱敏图像进行脱敏处理,得到目标图像的步骤,包括:
计算所述图像切片的像素均值,将所述像素均值作为预设的脱敏像素值;
根据所述目标敏感字符的像素值、第二坐标位置,得到所述待脱敏图像的脱敏区域;
利用所述像素均值对所述脱敏区域的目标敏感字符进行脱敏处理,得到目标图像。
为实现上述目的,本申请实施例的第二方面提出了一种图像脱敏装置,所述装置包括:
待脱敏图像获取模块,用于获取待脱敏图像;
敏感信息检测模块,用于对所述待脱敏图像进行敏感信息检测,得到敏感字段和敏感字段的第一坐标位置;
裁剪模块,用于根据所述第一坐标位置,对所述待脱敏图像进行裁剪处理,得到包含敏感字段的图像切片;
图像识别模块,用于将所述图像切片输入到预先训练的图像识别模型中进行图像识别处理,得到每一图像切片对应的目标图像文本数据;
解码模块,用于利用预先训练的解码模型对所述目标图像文本数据进行解码处理,得到所述目标图像文本数据中的每一参考敏感字符的第二坐标位置和像素值;
语义纠偏模块,用于对所述目标图像文本数据的参考敏感字符进行语义纠偏处理,得到目标敏感字符,其中,所述目标敏感字符的像素值与所述参考敏感字符的像素值相同,所述目标敏感字符的第二坐标位置与所述参考敏感字符的第二坐标位置相同;
脱敏模块,用于根据所述目标敏感字符的像素值、第二坐标位置以及预设的脱敏像素值,对所述待脱敏图像进行脱敏处理,得到目标图像。
为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现上述第一方面所述的方法。
为实现上述目的,本申请实施例的第四方面提出了一种计算机可读存储介质,用于计算机可读存储,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述第一方面所述的方法。
本申请提出的图像脱敏方法、装置、电子设备及计算机可读存储介质,其通过获取待脱敏图像,对待脱敏图像进行敏感信息检测,得到敏感字段和敏感字段的第一坐标位置,这一方式能够粗略地确定待脱敏图像的敏感字段及其坐标位置,能够从整体上判断待脱敏图像包含的敏感信息;进而根据第一坐标位置,对待脱敏图像进行裁剪处理,得到包含敏感字段的图像切片,剔除了待脱敏图像不包含敏字段的部分图像,只需要对待脱敏图像进行局部处理,相较于传统技术,该方法不需要对待脱敏图像内的文本信息进行全面识别,节省了脱敏时间。进而,将图像切片输入到预先训练的图像识别模型中进行图像识别处理,得到每一图像切片对应的目标图像文本数据,这一方式较为准确地识别出图像切片的目标图像文本数据,从而利用预先训练的解码模型对目标图像文本数据进行解码处理,得到目标图像文本数据中的每一参考敏感字符的第二坐标位置和像素值,实现对敏感字段的准确识别和定位。在得到目标图像文本数据中的每一参考敏感字符和每一参考敏感字符的第二坐标位置后,需要对目标图像文本数据的参考敏感字符进行语义纠偏处理,得到目标敏感字符,其中,目标敏感字符的像素值、第二坐标位置与参考敏感字符的像素值、第二坐标位置均相同,最后根据目标敏感字符的像素值、第二坐标位置以及预设的脱敏像素值,对待脱敏图像进行脱敏处理,得到目标图像。通过对参考敏感字符进行语义纠偏处理,能够对参考敏感字符进行修正,进一步地提高脱敏准确性,使得该脱敏过程中的目标敏感字符更加贴合脱敏要求。该方法实现了对敏感字段的准确识别和定位,提高了脱敏的精确性和脱敏效率。
附图说明
图1是本申请实施例提供的图像脱敏方法的流程图;
图2是图1中的步骤S102的流程图;
图3是图1中的步骤S104的流程图;
图4是图1中的步骤S105的流程图;
图5是图1中的步骤S106的流程图;
图6是图5中的步骤S503的流程图;
图7是图1中的步骤S107的流程图;
图8是本申请实施例提供的图像脱敏装置的结构示意图;
图9是本申请实施例提供的电子设备的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
首先,对本申请中涉及的若干名词进行解析:
人工智能(artificial intelligence,AI):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
自然语言处理(natural language processing,NLP):NLP用计算机来处理、理解以及运用人类语言(如中文、英文等),NLP属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息检索、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域,它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。
信息抽取(Information Extraction,NER):从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术。信息抽取是从文本数据中抽取特定信息的一种技术。文本数据是由一些具体的单位构成的,例如句子、段落、篇章,文本信息正是由一些小的具体的单位构成的,例如字、词、词组、句子、段落或是这些具体的单位的组合。抽取文本数据中的名词短语、人名、地名等都是文本信息抽取,当然,文本信息抽取技术所抽取的信息可以是各种类型的信息。
Opencv:OpenCV是一个基于BSD许可(开源)发行的跨平台计算机视觉和机器学习软件库,可以运行在Linux、Windows、Android和Mac OS操作系统上。OpenCV由一系列C函数和少量C++类构成,具备轻量级且高效的特点,同时提供了Python、Ruby、MATLAB等语言的接口,实现了图像处理和计算机视觉方面的很多通用算法。
目标检测算法(You Only Look Ones,yolo):yolo是基于深度学习端到端的实时目标检测系统,yolo将目标区域预测和目标类别预测整合于单个神经网络模型中,实现在准确率较高的情况下快速目标检测与识别,更加适合现场应用环境。算法思想是在图片上放置n*n的网格,并将图像分类和定位算法运用到每个网格上面去。
非极大值抑制法(non maximum suppression,NMS):NMS是一种获取局部最大值的有效方法。在A领域中,假设一个行向量的长度为w,从左向右,由第一个到第w个和A领域中的数值进行比对。如果某个i大于i+1并且小于i-1,则其为一个绝不最大值,同时也就意味着i+1不是一个局部最大值,所以将i移动2个步长,从i+2开始继续向后进行比较判断。如果某个i不满足上述条件,则将i+1,继续对i+1进行比对。当比对到最后一个w时,直接将w设置为局部最大值。非极大值抑制NMS在目标检测,定位等领域是一种被广泛使用的方法。
残差网络:残差网络的特点是容易优化,并且能够通过增加相当的深度来提高准确率。其内部的残差块使用了跳跃连接,缓解了在深度神经网络中增加深度带来的梯度消失问题。残差网络是由一系列残差块组成的。残差块分成两部分直接映射部分和残差部分。残差部分一般由两个或者三个卷积操作构成。
全连接层(fully connected layer,FC):全连接层的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来。由于其全相连的特性,一般全连接层的参数也是最多的。在整个卷积神经网络中起到“分类器”的作用。如果说卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间,全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用。在实际使用中,全连接层可由卷积操作实现:对前层是全连接的全连接层可以转化为卷积核为1×1的卷积;而前层是卷积层的全连接层可以转化为卷积核为H×W的全局卷积,H和W分别为前层卷积结果的高和宽。
置信度:在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数测量值的可信程度范围,即前面所要求的“一定概率”。这个概率被称为置信水平。
CTC解码器:解码是用特定方法把数码还原成它所代表的内容或将电脉冲信号、光信号、无线电波等转换成它所代表的信息、数据等的过程。CTC解码器常常被应用于图像文字识别的训练过程中。在预测过程中,当输入x,我们希望能够得到使得p(l∣x)概率最大的标签l。在序列学习问题中,这个问题被称为解码,在有限的时间内得到条件概率最大的序列$l^{*}$。
语义纠偏处理:识别出现偏差的语句,将偏差语句纠正回来的过程。
莱温斯坦距离(Levenshtein距离):是编辑距离的一种。指两个字串之间,由一个转成另一个所需的最少编辑操作次数。允许的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
基于此,本申请实施例提供一种图像脱敏方法、装置、电子设备及计算机可读存储介质,可以实现对敏感字段的准确识别和定位,提高脱敏的精确性和脱敏效率。
本申请实施例提供的图像脱敏方法、装置、电子设备及计算机可读存储介质,具体通过如下实施例进行说明,首先描述本申请实施例中的图像脱敏方法。
本申请实施例提供的图像脱敏方法,涉及图像处理技术领域。本申请实施例提供的图像脱敏方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的软件。在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等;服务器端可以配置成独立的物理服务器,也可以配置成多个物理服务器构成的服务器集群或者分布式系统,还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器;软件可以是实现图像脱敏方法的应用等,但并不局限于以上形式。
图1是本申请实施例提供的图像脱敏方法的一个可选的流程图,图1中的方法可以包括但不限于包括步骤S101至步骤S107。
步骤S101,获取待脱敏图像;
步骤S102,对待脱敏图像进行敏感信息检测,得到敏感字段和敏感字段的第一坐标位置;
步骤S103,根据第一坐标位置,对待脱敏图像进行裁剪处理,得到包含敏感字段的图像切片;
步骤S104,将图像切片输入到预先训练的图像识别模型中进行图像识别处理,得到每一图像切片对应的目标图像文本数据;
步骤S105,利用预先训练的解码模型对目标图像文本数据进行解码处理,得到目标图像文本数据中的每一参考敏感字符的第二坐标位置和像素值;
步骤S106,对目标图像文本数据的参考敏感字符进行语义纠偏处理,得到目标敏感字符;
步骤S107,根据目标敏感字符的像素值、第二坐标位置以及预设的脱敏像素值,对待脱敏图像进行脱敏处理,得到目标图像;
其中,目标敏感字符的像素值与参考敏感字符的像素值相同,目标敏感字符的第二坐标位置与参考敏感字符的第二坐标位置相同。
在对待脱敏图像进行脱敏时,首先获取待脱敏图像;根据预设的敏感信息类别等等,对待脱敏图像进行敏感信息检测,以确定待脱敏图像中的敏感字段以及敏感字段的第一坐标位置。例如,可以采用yolo目标检测算法等等对待脱敏图像进行敏感信息检测。需要说明的是,敏感字段可以包括姓名、身份证号码、银行卡号等等。将这一系列预设的敏感信息作为目标来进行目标检测,若检测到对应的目标数据,则表明待脱敏图像中包含敏感字段,同时,也能够通过预设的坐标系,确定检测到的目标的坐标位置;这一方式能够粗略地确定待脱敏图像的敏感字段及其坐标位置,能够从整体上判断待脱敏图像包含的敏感信息;若未检测到对应的目标数据,则表明待脱敏图像中未存在敏感字段。进而,通过opencv图像处理工具等对待脱敏图像进行裁剪处理,得到包含敏感字段的图像切片。具体地,首先读取包含敏感字段的待脱敏图像,获取待脱敏图像的尺寸数据,尺寸数据包括待脱敏图像的高度、宽度和通道数;根据数组切片的方式和敏感字段的第一坐标位置得到需要裁切的图像范围;利用opencv图像处理工具中的cv2函数在需要裁切的图像范围对待脱敏图像进行裁剪处理,得到包含敏感字段的图像切片。这一方式能够剔除待脱敏图像不包含敏字段的部分图像,只对待脱敏图像进行局部处理,相较于传统技术,该方法不需要对待脱敏图像内的文本信息进行全面识别,节省了脱敏时间。进而,将图像切片输入到预先训练的图像识别模型中进行图像识别处理,具体地,可以对图像切片的图像特征数据进行提取和识别,得到每一图像切片对应的目标图像文本数据,这一方式较为准确地识别出图像切片的目标图像文本数据。进而,利用预先训练的解码模型对目标图像文本数据进行解码处理,得到目标图像文本数据中的每一参考敏感字符的第二坐标位置和像素值,实现对敏感字符的准确识别和定位。在得到目标图像文本数据中的每一参考敏感字符和每一参考敏感字符的第二坐标位置后,需要对目标图像文本数据的参考敏感字符进行语义纠偏处理,得到目标敏感字符,最后根据目标敏感字符的像素值、第二坐标位置以及预设的脱敏像素值,确定待脱敏图像的脱敏区域,以对该脱敏区域内的字符进行脱敏处理,得到目标图像。通过对参考敏感字符进行语义纠偏处理,能够对参考敏感字符进行修正,进一步地提高脱敏的准确性,使得该脱敏过程中的目标敏感字符更加贴合脱敏要求。该方法实现了对敏感字段的准确识别和定位,提高了脱敏的精确性和脱敏效率。
请参阅图2,在一些实施例中,步骤S102可以包括但不限于包括步骤S201至步骤S202:
步骤S201,利用预先训练的yolo目标检测模型对待脱敏图像进行敏感信息检测,得到敏感字段;
步骤S202,根据预设的参考坐标系,确定敏感字段的第一坐标位置。
具体地,在利用预先训练的yolo目标检测模型对待脱敏图像进行敏感信息检测时,将待脱敏图像划分为N×N的网格,对每一网格进行图像分类和图像定位运算,输出待脱敏图像的边界框及每一边界框对应的置信度;采用非极大值抑制法对边界框进行筛选,得到最终的边界框,进而根据最终的边界框确定敏感字段。为了提高筛选准确性,在采用非极大值抑制法对边界框进行筛选时,可以先执行边界框排序步骤:根据置信度的大小,对边界框列表中的边界框进行排序,删除边界框列表中置信度最高的边界框,并将置信度最高的边界框添加至输出列表。计算边界框列表中所有边界框的面积及置信度最高的边界框与目标边界框的交并比,其中,交并比是指两个框的交集面积与两个框的并集面积之比,表示了两个框的相交程度。进而,执行筛选步骤,根据预设的筛选条件,对边界框进行筛选,即若交并比大于预设的交并比阈值,则在边界框列表中删除目标边界框,重复边界框排序步骤至筛选步骤,直至边界框列表为空,则输出列表中的边界框即为最终的边界框。通过这一方式可以较为方便地得到符合要求的边界框,该符合要求的边界框内包含的文本字段即为敏感字段,该检测方式提高了筛选准确性和筛选效率。进一步地,为了准确地对敏感字段进行识别和定位,需要预设参考坐标系,其中,预设的参考坐标系为二维坐标系,根据预设的坐标原点,构建二维直角坐标系,例如,可以将处于待脱敏图像的左上角的第一个字符所在位置作为坐标原点,分别构建x轴、y轴,以一个字符大小作为坐标间距,根据这一二维直角坐标系确定每一敏感字段的第一坐标位置,进而,根据敏感字段的第一坐标位置对敏感字段进行框选或者增强标记处理,使得能够清楚地表征出待脱敏图像中的敏感字段。例如,某一敏感字段的第一坐标位置可以是坐标点(1,2)至坐标点(1,8)这一区间等等。通过这一方式能够确定待脱敏图像的敏感字段及其坐标位置,使得能够从整体上判断待脱敏图像包含的敏感信息。
请参阅图3,在一些实施例中,步骤S104可以包括但不限于包括步骤S301至步骤S305:
步骤S301,将图像切片输入到预先训练的图像识别模型中进行退化处理,得到退化图像切片;
步骤S302,对退化图像切片进行卷积池化处理,得到图像特征数据;
步骤S303,对图像特征数据进行识别处理,得到图像特征数据对应的图像文本数据;
步骤S304,计算每一图像文本数据的置信度;
步骤S305,根据置信度的大小,确定目标图像文本数据。
具体地,图像识别模型包括残差网络、卷积池化层以及全连接层,将图像切片输入到预先训练的图像识别模型中,可以通过图像识别模型的残差网络对图像切片进行退化处理,得到退化图像切片。其中,残差网络包括M个残差密集块,M个残差密集块的中的任意一个残差密模块的输入信息均包括退化信息,M为大于或者等于1的整数。在一些其他实施例中,也可以是M个残差密集块中的部分残差密集块的输入包括退化信息,不限于此。通过残差网络可以对图像切片上的图像信息与退化信息进行融合,得到退化图像。进而,通过图像识别模型的卷积池化层对退化图像进行卷积池化处理,实现对退化图像的特征提取,得到图像特征数据,通过卷积池化层的卷积池化处理可以方便地将图像信息转换为文本信息。需要说明的是,由于残差密集块包含密集连通层和带有局部残差学习(LRL)的局部特征融合(LFF),局部特征融合可以通过自适应地保存信息来提取局部图像特征。此外,局部特征融合还通过稳定更大网络的训练来实现极高的增长率。在提取多层局部图像特征之后,可以进行全局特征融合(GFF)以全局方式自适应地保留分层特征,从而可以使得在卷积池化层对退化图像进行卷积池化处理,提取图像特征时,得到较为完整的图像特征数据。最后全连接层根据预设的特征类别标签对图像特征数据进行识别处理,使得图像特征数据指向对应的特征类别,得到图像特征数据对应的图像文本数据。为了进一步提高识别准确性,还需要通过全连接层对每一图像文本数据的置信度进行计算,得到每一图像文本数据的识别概率(即置信度);通过比较每一图像文本数据的置信度的大小,最终选取置信度最高的图像文本数据作为目标图像文本数据。该方法能够较为准确地识别出图像切片的目标图像文本数据。
请参阅图4,在一些实施例中,步骤S105可以包括但不限于包括步骤S401至步骤S403:
步骤S401,获取图像切片的像素值;
步骤S402,利用解码模型和像素值对目标图像文本数据进行定位处理,得到参考敏感字符以及每一参考敏感字符的像素占比;
步骤S403,根据每一参考敏感字符的像素占比,得到每一参考敏感字符的第二坐标位置和像素值。
具体地,解码模型包括CTC解码器。为了准确地识别每一敏感字符以及对敏感字符进行定位,首先需要获取图像切片的像素值,即图像切片的像素长度及像素宽度。进而,利用解码模型和像素值对目标图像文本数据进行定位处理,得到参考敏感字符以及每一参考敏感字符的像素占比。例如,获取图像切片的像素长度为128,目标图像文本数据包含3个字符,则通过解码模型的解码和定位处理,可以确定每一字符的像素占比为128/3=43,进而根据每一参考敏感字符的像素占比,确定每一字符在图像切片中的第二坐标位置和像素值。通过获取敏感字符的第二坐标位置和像素值实现了对敏感字段的准确识别和定位,能够有效地提高脱敏的准确性。
请参阅图5,在一些实施例中,步骤S106还可以包括但不限于包括步骤S501至步骤S503:
步骤S501,将参考敏感字符与预设的文本数据库中的文本字符进行比较,确定待修正的参考敏感字符;
步骤S502,计算待修正的参考敏感字符的编辑距离;
步骤S503,根据编辑距离对待修正的参考敏感字符进行语义纠偏处理,得到目标敏感字符。
为了进一步提高脱敏的准确性,还需要将参考敏感字符与预设的文本数据库中的文本字符进行比较,以识别参考敏感字符中的错别字符、错误字符顺序等等,从而确定待修正的参考敏感字符。进而,通过计算待修正的参考敏感字符的编辑距离,得到将待修正的参考敏感字符转换为正确的参考敏感字符的编辑操作次数,例如,可以通过计算待修正的参考敏感字符的莱文斯坦距离得到编辑距离。从而根据编辑距离对待修正的参考敏感字符进行语义纠偏处理,通过对待修正的参考敏感字符进行多次编辑操作(例如对待修正的参考敏感字符进行增加、删除、替换等操作),使得待修正的参考敏感字符变为正确的参考敏感字符,从而得到目标敏感字符。通过对参考敏感字符进行语义纠偏处理,能够对参考敏感字符进行修正,进一步地提高脱敏的准确性,使得该脱敏过程中的目标敏感字符更加贴合脱敏要求。
需要说明的是,在确定敏感字符的第二坐标位置之后,该敏感字符的坐标位置会固定下来。即在经过语义纠偏处理得到的每一目标敏感字符的像素值、坐标位置与对应的参考敏感字符的像素值和坐标位置均相同。
请参阅图6,在一些实施例的步骤S503可以包括但不限于包括步骤S601至步骤S602:
步骤S601,比较编辑距离与预设范围的关系;
步骤S602,若编辑距离在所述预设范围内,则对待修正的参考敏感字符进行语义纠偏处理,得到目标敏感字符。
在一些实施例中,为了提高脱敏效率,可以通过比较编辑距离与预设范围的关系,其中,预设范围的下限值可以为第一阈值,上限值可以为第二阈值,根据比较情况来确定是否对待修正的参考敏感字符进行编辑操作。具体地,若编辑距离处于预设范围(包括上限值和下限值)内,则对待修正的参考敏感字符进行语义纠偏处理,得到目标敏感字符;若编辑距离小于第一阈值(预设范围的下限值),则不必对待修正的参考敏感字符进行语义纠偏处理;若编辑距离大于第二阈值(预设范围的上限值),则将待修正的参考敏感字符标记为异常字符。例如,预设的第一阈值为1,第二阈值为3,若某一参考敏感字符的编辑距离为0,表示该参考敏感字符正确,无须修正;若某一参考敏感字符的编辑距离为2,则说明该参考敏感字符需要经过两次编辑操作的修正,才能够变为正确的参考敏感字符,则对该参考敏感字符进行语义纠偏处理;若某一参考敏感字符的编辑距离为3,则说明该参考敏感字符需要经过三次编辑操作的修正,才能够变为正确的参考敏感字符,则对该参考敏感字符进行语义纠偏处理;若某一参考敏感字符的编辑距离为4,则说明该参考敏感字符需要经过四次编辑操作的修正,与正确的参考敏感字符差异较大,可能是敏感字段的识别阶段被误识别到的普通字符,不应当作为敏感字符,因此将该参考敏感字符标记为异常字符,以便在后续的脱敏阶段进行剔除。该方法在提高脱敏的准确性的同时,也能够根据待修正的参考敏感字符的编辑距离对语义纠偏的过程进行简化,提高脱敏效率。
请参阅图7,在一些实施例中,步骤S107可以包括但不限于包括步骤S701至步骤S703:
步骤S701,计算图像切片的像素均值,将像素均值作为预设的脱敏像素值;
步骤S702,根据目标敏感字符的像素值、第二坐标位置,得到待脱敏图像的脱敏区域;
步骤S703,利用像素均值对脱敏区域的目标敏感字符进行脱敏处理,得到目标图像。
在一些实施例中,通过遍历图像切片的所有像素点的像素值,计算图像切片的像素均值,将像素均值作为预设的脱敏像素值。需要理解的是,所有像素点的像素值包括字符像素点的像素值以及背景像素点的像素值,例如,某一图像切片的字符像素点为黑色,背景像素点为灰色,则总像素值为黑色像素点的像素值与灰色像素点的像素值的总和,像素均值即为总像素值除以黑色像素点与灰色像素点的个数总和。在其他实施例中,预设的脱敏像素值也可以是预设的某一固定像素值,不限于此。进而,根据目标敏感字符的像素值、第二坐标位置,能够确定每一目标敏感字符的最小外接矩形框面积,这一系列的目标敏感字符的最小外接矩形框,构成待脱敏图像的脱敏区域。从而利用像素均值对脱敏区域的目标敏感字符进行脱敏处理,即以像素均值对脱敏区域的目标敏感字符进行覆盖,模糊目标敏感字符,达到脱敏的效果,最后得到目标图像。在目标图像中,目标敏感字符的信息均进行了模糊化处理,提高了信息安全性。该方法实现了对敏感字段的准确识别和定位,提高了脱敏的精确性和脱敏效率。
本申请实施例通过获取待脱敏图像,对待脱敏图像进行敏感信息检测,得到敏感字段和敏感字段的第一坐标位置,这一方式能够粗略地确定待脱敏图像的敏感字段及其坐标位置,能够从整体上判断待脱敏图像包含的敏感信息;进而根据第一坐标位置,对待脱敏图像进行裁剪处理,得到包含敏感字段的图像切片,剔除了待脱敏图像不包含敏字段的部分图像,只需要对待脱敏图像进行局部处理,相较于传统技术,该方法不需要对待脱敏图像内的文本信息进行全面识别,节省了脱敏时间。进而,将图像切片输入到预先训练的图像识别模型中进行图像识别处理,得到每一图像切片对应的目标图像文本数据,这一方式较为准确地识别出图像切片的目标图像文本数据,从而利用预先训练的解码模型对目标图像文本数据进行解码处理,得到目标图像文本数据中的每一参考敏感字符的第二坐标位置和像素值,实现对敏感字段的准确识别和定位。在得到目标图像文本数据中的每一参考敏感字符和每一参考敏感字符的第二坐标位置后,需要对目标图像文本数据的参考敏感字符进行语义纠偏处理,得到目标敏感字符,最后根据目标敏感字符的像素值、第二坐标位置以及预设的脱敏像素值,对待脱敏图像进行脱敏处理,得到目标图像。通过对参考敏感字符进行语义纠偏处理,能够对参考敏感字符进行修正,进一步地提高脱敏的准确性,使得该脱敏过程中的目标敏感字符更加贴合脱敏要求。该方法实现了对敏感字段的准确识别和定位,提高了脱敏的精确性和脱敏效率。
请参阅图8,本申请实施例还提供一种图像脱敏装置,可以实现上述图像脱敏方法,该装置包括:
待脱敏图像获取模块801,用于获取待脱敏图像;
敏感信息检测模块802,用于对待脱敏图像进行敏感信息检测,得到敏感字段和敏感字段的第一坐标位置;
裁剪模块803,用于根据第一坐标位置,对待脱敏图像进行裁剪处理,得到包含敏感字段的图像切片;
图像识别模块804,用于将图像切片输入到预先训练的图像识别模型中进行图像识别处理,得到每一图像切片对应的目标图像文本数据;
解码模块805,用于利用预先训练的解码模型对目标图像文本数据进行解码处理,得到目标图像文本数据中的每一参考敏感字符的第二坐标位置;
语义纠偏模块806,用于对目标图像文本数据的参考敏感字符进行语义纠偏处理,得到目标敏感字符,其中,目标敏感字符的像素值与参考敏感字符的像素值相同,目标敏感字符的第二坐标位置与参考敏感字符的第二坐标位置相同;
脱敏模块807,用于根据目标敏感字符的像素值、第二坐标位置以及预设的脱敏像素值,对待脱敏图像进行脱敏处理,得到目标图像。
该图像脱敏装置的具体实施方式与上述图像脱敏方法的具体实施例基本相同,在此不再赘述。
本申请实施例还提供了一种电子设备,电子设备包括:存储器、处理器、存储在存储器上并可在处理器上运行的程序以及用于实现处理器和存储器之间的连接通信的数据总线,程序被处理器执行时实现上述图像脱敏方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。
请参阅图9,图9示意了另一实施例的电子设备的硬件结构,电子设备包括:
处理器901,可以采用通用的CPU(CentralProcessingUnit,中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案;
存储器902,可以采用只读存储器(ReadOnlyMemory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory,RAM)等形式实现。存储器902可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器902中,并由处理器901来调用执行本申请实施例的图像脱敏方法;
输入/输出接口903,用于实现信息输入及输出;
通信接口904,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;和
总线905,在设备的各个组件(例如处理器901、存储器902、输入/输出接口903和通信接口904)之间传输信息;
其中处理器901、存储器902、输入/输出接口903和通信接口904通过总线905实现彼此之间在设备内部的通信连接。
本申请实施例还提供了一种计算机可读存储介质,用于计算机可读存储,计算机可读存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现上述图像脱敏方法。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本领域技术人员可以理解的是,图1-7中示出的技术方案并不构成对本申请实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序的介质。
以上参照附图说明了本申请实施例的优选实施例,并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本申请实施例的权利范围之内。
Claims (10)
1.一种图像脱敏方法,其特征在于,所述方法包括:
获取待脱敏图像;
对所述待脱敏图像进行敏感信息检测,得到敏感字段和所述敏感字段的第一坐标位置;
根据所述第一坐标位置,对所述待脱敏图像进行裁剪处理,得到包含敏感字段的图像切片;
将所述图像切片输入到预先训练的图像识别模型中进行图像识别处理,得到每一图像切片对应的目标图像文本数据;
利用预先训练的解码模型对所述目标图像文本数据进行解码处理,得到所述目标图像文本数据中的每一参考敏感字符的第二坐标位置和像素值;
对所述目标图像文本数据的参考敏感字符进行语义纠偏处理,得到目标敏感字符,其中,所述目标敏感字符的像素值与所述参考敏感字符的像素值相同,所述目标敏感字符的第二坐标位置与所述参考敏感字符的第二坐标位置相同;
根据所述目标敏感字符的像素值、第二坐标位置以及预设的脱敏像素值,对所述待脱敏图像进行脱敏处理,得到目标图像。
2.根据权利要求1所述的图像脱敏方法,其特征在于,所述对所述待脱敏图像进行敏感信息检测,得到敏感字段和所述敏感字段的第一坐标位置的步骤,包括:
利用预先训练的yolo目标检测模型对所述待脱敏图像进行敏感信息检测,得到所述敏感字段;
根据预设的参考坐标系,确定所述敏感字段的第一坐标位置。
3.根据权利要求1所述的图像脱敏方法,其特征在于,所述将所述图像切片输入到预先训练的图像识别模型中进行图像识别处理,得到每一图像切片对应的目标图像文本数据的步骤,包括:
将所述图像切片输入到预先训练的图像识别模型中进行退化处理,得到退化图像切片;
对所述退化图像切片进行卷积池化处理,得到图像特征数据;
对所述图像特征数据进行识别处理,得到所述图像特征数据对应的图像文本数据;
计算每一所述图像文本数据的置信度;
根据置信度的大小,确定目标图像文本数据。
4.根据权利要求1所述的图像脱敏方法,其特征在于,所述利用预先训练的解码模型对所述目标图像文本数据进行解码处理,得到所述目标图像文本数据中的每一参考敏感字符的第二坐标位置和像素值的步骤,包括:
获取所述图像切片的像素值;
利用所述解码模型和所述像素值对所述目标图像文本数据进行定位处理,得到参考敏感字符以及每一参考敏感字符的像素占比;
根据每一参考敏感字符的像素占比,得到每一参考敏感字符的第二坐标位置和像素值。
5.根据权利要求1至4任一项所述的图像脱敏方法,其特征在于,所述对所述目标图像文本数据的参考敏感字符进行语义纠偏处理,得到目标敏感字符的步骤,包括:
将所述参考敏感字符与预设的文本数据库中的文本字符进行比较,确定待修正的参考敏感字符;
计算所述待修正的参考敏感字符的编辑距离;
根据所述编辑距离对所述待修正的参考敏感字符进行语义纠偏处理,得到目标敏感字符。
6.根据权利要求5所述的图像脱敏方法,其特征在于,所述根据所述编辑距离对所述待修正的参考敏感字符进行语义纠偏处理,得到目标敏感字符的步骤,包括:
比较所述编辑距离与预设范围的关系;
若所述编辑距离在所述预设范围内,则对所述待修正的参考敏感字符进行语义纠偏处理,得到目标敏感字符。
7.根据权利要求1至4任一项所述的图像脱敏方法,其特征在于,所述根据所述目标敏感字符的像素值、第二坐标位置以及预设的脱敏像素值,对所述待脱敏图像进行脱敏处理,得到目标图像的步骤,包括:
计算所述图像切片的像素均值,将所述像素均值作为预设的脱敏像素值;
根据所述目标敏感字符的像素值、第二坐标位置,得到所述待脱敏图像的脱敏区域;
利用所述像素均值对所述脱敏区域的目标敏感字符进行脱敏处理,得到目标图像。
8.一种图像脱敏装置,其特征在于,所述装置包括:
待脱敏图像获取模块,用于获取待脱敏图像;
敏感信息检测模块,用于对所述待脱敏图像进行敏感信息检测,得到敏感字段和所述敏感字段的第一坐标位置;
裁剪模块,用于根据所述第一坐标位置,对所述待脱敏图像进行裁剪处理,得到包含敏感字段的图像切片;
图像识别模块,用于将所述图像切片输入到预先训练的图像识别模型中进行图像识别处理,得到每一图像切片对应的目标图像文本数据;
解码模块,用于利用预先训练的解码模型对所述目标图像文本数据进行解码处理,得到所述目标图像文本数据中的每一参考敏感字符的第二坐标位置和像素值;
语义纠偏模块,用于对所述目标图像文本数据的参考敏感字符进行语义纠偏处理,得到目标敏感字符,其中,所述目标敏感字符的像素值与所述参考敏感字符的像素值相同,所述目标敏感字符的第二坐标位置与所述参考敏感字符的第二坐标位置相同;
脱敏模块,用于根据所述目标敏感字符的像素值、第二坐标位置以及预设的脱敏像素值,对所述待脱敏图像进行脱敏处理,得到目标图像。
9.一种电子设备,其特征在于,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现如权利要求1至7任一项所述的图像脱敏方法的步骤。
10.一种计算机可读存储介质,用于计算机可读存储,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1至7中任一项所述的图像脱敏方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111155091.2A CN113688837B (zh) | 2021-09-29 | 图像脱敏方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111155091.2A CN113688837B (zh) | 2021-09-29 | 图像脱敏方法、装置、电子设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113688837A true CN113688837A (zh) | 2021-11-23 |
CN113688837B CN113688837B (zh) | 2024-06-28 |
Family
ID=
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114463168A (zh) * | 2022-02-11 | 2022-05-10 | 湖北亿咖通科技有限公司 | 数据脱敏处理的方法、装置和电子设备 |
CN114692202A (zh) * | 2022-03-31 | 2022-07-01 | 马上消费金融股份有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN114822781A (zh) * | 2022-04-24 | 2022-07-29 | 唐山启奥科技股份有限公司 | 基于检查图像的医疗图像脱敏方法 |
CN114943969A (zh) * | 2022-06-16 | 2022-08-26 | 平安普惠企业管理有限公司 | 智能识别敏感信息并脱敏的方法、装置、设备及存储介质 |
WO2023124565A1 (en) * | 2021-12-31 | 2023-07-06 | Huawei Technologies Co., Ltd. | Methods, apparatuses, and computer-readable storage media for image-based sensitive-text detection |
CN117993019A (zh) * | 2024-02-29 | 2024-05-07 | 阿里云计算有限公司 | 交通数据脱敏方法、设备、存储介质及计算机程序产品 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111582169A (zh) * | 2020-05-08 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 图像识别数据纠错方法、装置、计算机设备和存储介质 |
WO2020215571A1 (zh) * | 2019-04-25 | 2020-10-29 | 平安科技(深圳)有限公司 | 一种识别敏感数据的方法、装置、存储介质及计算机设备 |
CN112380566A (zh) * | 2020-11-20 | 2021-02-19 | 北京百度网讯科技有限公司 | 用于对文档图像进行脱敏的方法、装置、电子设备及介质 |
CN113255642A (zh) * | 2021-05-07 | 2021-08-13 | 北京精友时代信息技术发展有限公司 | 一种用于人伤理赔的医疗票据信息整合方法 |
CN113297623A (zh) * | 2021-06-23 | 2021-08-24 | 天道金科股份有限公司 | 基于数据库的敏感数据脱敏系统 |
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020215571A1 (zh) * | 2019-04-25 | 2020-10-29 | 平安科技(深圳)有限公司 | 一种识别敏感数据的方法、装置、存储介质及计算机设备 |
CN111582169A (zh) * | 2020-05-08 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 图像识别数据纠错方法、装置、计算机设备和存储介质 |
CN112380566A (zh) * | 2020-11-20 | 2021-02-19 | 北京百度网讯科技有限公司 | 用于对文档图像进行脱敏的方法、装置、电子设备及介质 |
CN113255642A (zh) * | 2021-05-07 | 2021-08-13 | 北京精友时代信息技术发展有限公司 | 一种用于人伤理赔的医疗票据信息整合方法 |
CN113297623A (zh) * | 2021-06-23 | 2021-08-24 | 天道金科股份有限公司 | 基于数据库的敏感数据脱敏系统 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023124565A1 (en) * | 2021-12-31 | 2023-07-06 | Huawei Technologies Co., Ltd. | Methods, apparatuses, and computer-readable storage media for image-based sensitive-text detection |
US11861923B2 (en) | 2021-12-31 | 2024-01-02 | Huawei Technologies Co., Ltd. | Methods, apparatuses, and computer-readable storage media for image-based sensitive-text detection |
CN114463168A (zh) * | 2022-02-11 | 2022-05-10 | 湖北亿咖通科技有限公司 | 数据脱敏处理的方法、装置和电子设备 |
CN114692202A (zh) * | 2022-03-31 | 2022-07-01 | 马上消费金融股份有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN114822781A (zh) * | 2022-04-24 | 2022-07-29 | 唐山启奥科技股份有限公司 | 基于检查图像的医疗图像脱敏方法 |
CN114943969A (zh) * | 2022-06-16 | 2022-08-26 | 平安普惠企业管理有限公司 | 智能识别敏感信息并脱敏的方法、装置、设备及存储介质 |
CN117993019A (zh) * | 2024-02-29 | 2024-05-07 | 阿里云计算有限公司 | 交通数据脱敏方法、设备、存储介质及计算机程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110851641B (zh) | 跨模态检索方法、装置和可读存储介质 | |
CN111738070A (zh) | 一种多个小目标的自动准确检测方法 | |
CN111191695A (zh) | 一种基于深度学习的网站图片篡改检测方法 | |
EP3885962A1 (en) | Method and system for extraction of key-terms and synonyms for the key-terms | |
CN112396049A (zh) | 文本纠错方法、装置、计算机设备及存储介质 | |
CN111507330B (zh) | 习题识别方法、装置、电子设备及存储介质 | |
CN114399454A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN114638960A (zh) | 模型的训练方法、图像描述生成方法和装置、设备、介质 | |
CN114595357A (zh) | 视频搜索方法和装置、电子设备、存储介质 | |
CN114723945A (zh) | 车损检测方法和装置、电子设备及存储介质 | |
CN114549859A (zh) | 骨龄预测方法、装置、电子设备及存储介质 | |
CN114627282A (zh) | 目标检测模型的建立方法、应用方法、设备、装置及介质 | |
CN116361502B (zh) | 一种图像检索方法、装置、计算机设备及存储介质 | |
CN112307749A (zh) | 文本检错方法、装置、计算机设备和存储介质 | |
CN113688837B (zh) | 图像脱敏方法、装置、电子设备及计算机可读存储介质 | |
CN115984886A (zh) | 表格信息抽取方法、装置、设备及存储介质 | |
CN114973285A (zh) | 图像处理方法和装置、设备、介质 | |
CN113688837A (zh) | 图像脱敏方法、装置、电子设备及计算机可读存储介质 | |
CN114648631A (zh) | 图像描述生成方法和装置、电子设备及存储介质 | |
CN114611501A (zh) | 生僻字检测方法、装置、设备及存储介质 | |
CN114663886A (zh) | 文本识别方法、模型的训练方法及装置 | |
CN108021918B (zh) | 文字识别方法及装置 | |
CN113627124A (zh) | 一种针对字体迁移模型的处理方法、装置、电子设备 | |
CN117332038B (zh) | 文本信息检测方法、装置、设备和存储介质 | |
CN117558007A (zh) | 图像识别方法、图像识别装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |