CN117593596B - 一种敏感信息检测方法、系统、电子设备及介质 - Google Patents
一种敏感信息检测方法、系统、电子设备及介质 Download PDFInfo
- Publication number
- CN117593596B CN117593596B CN202410076811.3A CN202410076811A CN117593596B CN 117593596 B CN117593596 B CN 117593596B CN 202410076811 A CN202410076811 A CN 202410076811A CN 117593596 B CN117593596 B CN 117593596B
- Authority
- CN
- China
- Prior art keywords
- picture data
- sensitive information
- semantic segmentation
- sample picture
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 27
- 230000011218 segmentation Effects 0.000 claims abstract description 97
- 238000013145 classification model Methods 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims description 38
- 238000012545 processing Methods 0.000 claims description 32
- 238000003672 processing method Methods 0.000 claims description 18
- 238000004891 communication Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012795 verification Methods 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 8
- 238000012015 optical character recognition Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 238000005520 cutting process Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 7
- 230000000694 effects Effects 0.000 abstract description 6
- 238000004422 calculation algorithm Methods 0.000 abstract description 3
- 238000005457 optimization Methods 0.000 abstract 1
- 238000013461 design Methods 0.000 description 6
- 230000002093 peripheral effect Effects 0.000 description 4
- 230000001788 irregular Effects 0.000 description 3
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 244000025254 Cannabis sativa Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本发明属于图片识别技术领域,其目的在于提供一种敏感信息检测方法、系统、电子设备及介质。本发明针对市面主流图片审核算法进行改善和优化,通过采用图像语义分割技术实现的训练后图像语义分割模型,以及基于小样本学习技术实现的训练后图像分类模型,在对所述待审核图片数据进行敏感信息识别时,可通过两种模型对待审核图片数据依次进行语义分割和敏感信息的串行预测,可精确理解图像场景与内容,获取像素级别的图片内容理解能力,从而对使其更好地识别一些抽象隐晦的敏感信息,进而满足不同业务场景的审核要求,使得本发明可作为主流图片审核方法的一种补充和完善手段,以加强完善现有的审核维度,更好地提升相应的敏感信息审核效果。
Description
技术领域
本发明属于图片识别技术领域,具体涉及一种敏感信息检测方法、系统、电子设备及介质。
背景技术
随着社会数字化、信息化的不断发展,信息的制造、采集、传播速度也达到了惊人的水平。针对内容敏感信息审核领域,目前市面产品主要通过加入审核机制,对内容生产全流程进行监督和管理,技术层面主要使用句法语义、文字黑库、图片黑库以及基于机器学习或者深度学习的图像音频敏感分类模型,通过视觉分析、人脸识别、OCR(OpticalCharacter Recognition,光学字符识别)、ASR(Automatic Speech Recognition,自动语音识别)或者自然语言等技术对文本内容进行抽取,从而从输入的文本、图片、视频或者音频进行内容敏感判定。
现有的敏感审核大多数主要基于实体、人脸、局部细节特征等或者文本黑库触发,从而对内容的敏感信息进行捕获,此类方法有一个特点是其识别的敏感信息必须被实例化,就是敏感信息被实例化、具体化才能被识别,例如图片审核,通过对图片进行遍历扫描,直到发现满足识别要求的部分局部特征,但是,在使用现有技术过程中,发明人发现现有技术中至少存在如下问题:
采用现有技术很难对一些比较抽象隐晦的敏感信息进行有效识别,而且经常对符合局部特征的图形无法进行上下文理解,导致识别有误,例如图片中的一个人衣服的图案和身后的草地衔接的部分被识别成一面旗帜,虽然从模型本身而言,这块特征确实符合旗帜的模型特征,但是放在图片本身的语义环境中,其实是误触发的,导致采用现有技术进行敏感信息审核的效果不佳。
发明内容
本发明旨在至少在一定程度上解决上述技术问题,本发明提供了一种敏感信息检测方法、系统、电子设备及介质。
为了实现上述目的,本发明采用以下技术方案:
第一方面,本发明提供了一种敏感信息检测方法,包括:
获取样本图片数据;
构建初始图像语义分割模型,并根据所述样本图片数据对所述初始图像语义分割模型进行训练,得到训练后图像语义分割模型;
根据所述训练后图像语义分割模型,得到与所述样本图片数据匹配的样本图片语义分割结果;
构建初始图像分类模型,并根据所述样本图片语义分割结果和与所述样本图片语义分割结果匹配的敏感类型标签对所述初始图像分类模型进行训练,得到训练后图像分类模型;
接收待审核图片数据,并通过所述训练后图像语义分割模型和所述训练后图像分类模型对所述待审核图片数据进行敏感信息识别,得到敏感信息识别结果。
本发明可提高对于抽象隐晦的敏感信息的识别和判断能力,利于提升现有的图像审核维度,敏感信息识别效果得以提升。具体地,本实施针对市面主流图片审核算法进行改善和优化,通过采用图像语义分割技术实现的训练后图像语义分割模型,以及基于小样本学习技术实现的训练后图像分类模型,在对所述待审核图片数据进行敏感信息识别时,可通过两种模型对待审核图片数据依次进行语义分割和敏感信息的串行预测,可精确理解图像场景与内容,获取像素级别的图片内容理解能力,从而对使其更好地识别一些抽象隐晦的敏感信息,进而满足不同业务场景的审核要求,使得本发明可作为主流图片审核方法的一种补充和完善手段,以加强完善现有的审核维度,更好地提升相应的敏感信息审核效果。
在一个可能的设计中,所述样本图片数据携带有预设敏感信息的敏感类型标签及图片语义标签;对应地,获取样本图片数据,包括:
获取初始样本图片数据;其中,所述初始样本图片数据携带有预设敏感信息的敏感类型标签;
对所述初始样本图片数据进行数据增强处理,得到增强后图片数据;其中,所述增强后图片数据携带有预设敏感信息的敏感类型标签;
分别获取所述初始样本图片数据和所述增强后图片数据的图片语义标签,并将所述初始样本图片数据的图片语义标签与所述初始样本图片数据进行绑定,将所述增强后图片数据的图片语义标签与所述增强后图片数据进行绑定;
根据所述初始样本图片数据和所述增强后图片数据,得到样本图片数据;其中,所述样本图片数据携带有预设敏感信息的敏感类型标签及图片语义标签。
在一个可能的设计中,获取所述初始样本图片数据或所述增强后图片数据的图片语义标签时,采用语义分割处理方法、多边形标注处理方法、OCR转写处理方法和/或属性判别处理方法实现。
在一个可能的设计中,所述初始图像语义分割模型采用U-Net模型。
在一个可能的设计中,所述样本图片数据携带有预设敏感信息的图片语义标签;对应地,根据所述样本图片数据对所述初始图像语义分割模型进行训练,得到训练后图像语义分割模型,包括:
根据所述图片语义标签,对所述样本图片数据进行图片剪裁处理,得到剪裁后样本图片数据;
对所述剪裁后样本图片数据依次进行图片锐化处理及图片边缘提取处理,得到预处理后样本图片数据;
将所述预处理后样本图片数据划分为训练集和验证集,并根据所述训练集和所述验证集对所述初始图像语义分割模型进行训练,得到训练后图像语义分割模型。
在一个可能的设计中,所述初始图像分类模型采用原型网络模型。
在一个可能的设计中,通过所述训练后图像语义分割模型和所述训练后图像分类模型对所述待审核图片数据进行敏感信息识别,得到敏感信息识别结果,包括:
将所述待审核图片数据输入所述训练后图像语义分割模型进行处理,得到与所述待审核图片数据对应的图片语义分割结果;
将所述图片语义分割结果和所述待审核图片数据输入所述训练后图像分类模型进行处理,得到与所述待审核图片数据对应的敏感类型标签;
将当前敏感类型标签作为所述待审核图片数据的敏感信息识别结果进行输出。
第二方面,本发明提供了一种敏感信息检测系统,用于实现如上述任一项所述的敏感信息检测方法;所述敏感信息检测系统包括:
样本获取模块,用于获取样本图片数据;
第一模型构建模块,与所述样本获取模块通信连接,用于构建初始图像语义分割模型,并根据所述样本图片数据对所述初始图像语义分割模型进行训练,得到训练后图像语义分割模型;还用于根据所述训练后图像语义分割模型,得到与所述样本图片数据匹配的样本图片语义分割结果;
第二模型构建模块,与所述第一模型构建模块通信连接,用于构建初始图像分类模型,并根据所述样本图片语义分割结果和与所述样本图片语义分割结果匹配的敏感类型标签对所述初始图像分类模型进行训练,得到训练后图像分类模型;
敏感信息识别模块,与所述第二模型构建模块通信连接,用于接收待审核图片数据,并通过所述训练后图像语义分割模型和所述训练后图像分类模型对所述待审核图片数据进行敏感信息识别,得到敏感信息识别结果。
第三方面,本发明提供了一种电子设备,包括:
存储器,用于存储计算机程序指令;以及,
处理器,用于执行所述计算机程序指令从而完成如上述任一项所述的敏感信息检测方法的操作。
第四方面,本发明提供了一种计算机可读存储介质,用于存储计算机可读取的计算机程序指令,所述计算机程序指令被配置为运行时执行如上述任一项所述的敏感信息检测方法的操作。
附图说明
图1是实施例中一种敏感信息检测方法的流程图;
图2是实施例中一种敏感信息检测系统的模块框图;
图3是实施例中一种电子设备的模块框图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将结合附图和实施例或现有技术的描述对本发明作简单地介绍,显而易见地,下面关于附图结构的描述仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在此需要说明的是,对于这些实施例方式的说明用于帮助理解本发明,但并不构成对本发明的限定。
实施例1:
本实施例公开了一种敏感信息检测方法,可以但不限于由具有一定计算资源的计算机设备或虚拟机执行,例如由个人计算机、智能手机、个人数字助理或可穿戴设备等电子设备执行,或者由虚拟机执行。
如图1所示,一种敏感信息检测方法,可以但不限于包括有如下步骤:
S1.获取样本图片数据;其中,所述样本图片数据携带有预设敏感信息的敏感类型标签及图片语义标签。
具体地,获取样本图片数据,包括:
S101.获取初始样本图片数据;其中,所述初始样本图片数据携带有预设敏感信息的敏感类型标签;需要说明的是,本实施例中,初始样本图片数据为用户自定义为包括敏感图片的图片数据,具体地,初始样本图片数据为基于预设的审核诉求,在指定敏感信息审核场景及范围下,用户自定义且无法采用现有技术中常规的敏感信息分类模型直接识别到的图片数据。本实施例在实施过程中,可预先根据初始样本图片数据中敏感信息的类型构建得到基础标签集合,以便用户对初始样本图片数据进行敏感类型标记,进而得到携带有敏感类型标签的初始样本图片数据;具体地,本实施例中,基础标签集合中包括所有初始样本图片数据的敏感类型标签,敏感类型标签用于表征初始样本图片数据中预设敏感信息的类型。
S102.对所述初始样本图片数据进行数据增强处理,得到增强后图片数据;其中,所述增强后图片数据携带有预设敏感信息的敏感类型标签;需要说明的是,数据增强处理指通过对原始训练数据进行一系列变换和修改,生成新的训练样本,从而扩展训练集的规模和多样性。本实施例中,通过对预先采集得到的初始样本图片数据进行数据增强处理,可利于实现对初始样本图片数据的数据拓充及泛化处理,便于减小用户采集样本图片数据的工作量,同时利于后续进行模型训练,避免模型过拟合,提升模型的鲁棒性和泛化能力。
S103.分别获取所述初始样本图片数据和所述增强后图片数据的图片语义标签,并将所述初始样本图片数据的图片语义标签与所述初始样本图片数据进行绑定,将所述增强后图片数据的图片语义标签与所述增强后图片数据进行绑定;
具体地,本实施例中,获取所述初始样本图片数据或所述增强后图片数据的图片语义标签时,采用语义分割处理方法、多边形标注处理方法、OCR转写处理方法和/或属性判别处理方法实现。
需要说明的是,语义分割处理方法是指根据物体的属性,对所述初始样本图片数据或所述增强后图片数据的图片数据中的复杂不规则图片进行进行区域划分,并标注对应上属性,得到图片语义标签;多边形标注处理方法是指在静态图片数据中,使用多边形框,标注出不规则的目标物体,相对于矩形框标注,其能够更精准地框定目标,同时对于不规则物体,也更具针对性;OCR转写处理方法是对图片数据中的文字内容进行标记与转写,进而得到图片语义标签;属性判别处理方法是指通过人工或机器配合的方式,识别出对应图片数据中的目标物体,并将其标注上对应属性,得到图片语义标签。
本实施例中,采用语义分割处理方法、多边形标注处理方法、OCR转写处理方法和/或属性判别处理方法等多种语义标注方法获取图片语义标签,可利于全方位获取所述初始样本图片数据或所述增强后图片数据中包含的各个维度的有效信息,以加深后续训练后图像语义分割模型对数据的细节感知及学习能力,丰富训练后图像语义分割模型的语义分割效果,满足对不同敏感粒度的识别需求。
S104.根据所述初始样本图片数据和所述增强后图片数据,得到样本图片数据;其中,所述样本图片数据携带有预设敏感信息的敏感类型标签及图片语义标签。
S2.构建初始图像语义分割模型,并根据所述样本图片数据对所述初始图像语义分割模型进行训练,得到训练后图像语义分割模型;
本实施例中,所述初始图像语义分割模型采用U-Net模型。具体地,U-Net模型为一种改进的FCN(Fully Convolutional Networks,全卷积神经网络)结构,由左半边的压缩通道(Contracting Path)和右半边扩展通道(Expansive Path)组成。
本实施例中,根据所述样本图片数据对所述初始图像语义分割模型进行训练,得到训练后图像语义分割模型,包括:
S201.根据所述图片语义标签,对所述样本图片数据进行图片剪裁处理,得到剪裁后样本图片数据;需要说明的是,对样本图片数据进行图片剪裁处理,得到的剪裁后样本图片数据可表征样本图片数据的主要特征信息,此时对其进行存储及后续处理,可利于节约内存及显存空间。
S202.对所述剪裁后样本图片数据依次进行图片锐化处理及图片边缘提取处理,得到预处理后样本图片数据;
S203.将所述预处理后样本图片数据划分为训练集和验证集,并根据所述训练集和所述验证集对所述初始图像语义分割模型进行训练,得到训练后图像语义分割模型。
本实施例中,根据所述训练集和所述验证集对所述初始图像语义分割模型进行训练后,通过将训练后得到的模型固化下来,从而得到训练后图像语义分割模型。
S3.根据所述训练后图像语义分割模型,得到与所述样本图片数据匹配的样本图片语义分割结果;
S4.构建初始图像分类模型,并根据所述样本图片语义分割结果和与所述样本图片语义分割结果匹配的敏感类型标签对所述初始图像分类模型进行训练,得到训练后图像分类模型;
具体地,本实施例中,所述初始图像分类模型采用原型网络模型。
需要说明的是,本实施例采用元学习方式,通过原型网络模型构建初始图像分类模型,使得本实施例只需要小样本标注数据即可完成图像分类模型的训练,可有效减少整个图像分类模型训练的迭代周期及相应的计算存储成本。
S5.接收待审核图片数据,并通过所述训练后图像语义分割模型和所述训练后图像分类模型对所述待审核图片数据进行敏感信息识别,得到敏感信息识别结果。
具体地,本实施例中,通过所述训练后图像语义分割模型和所述训练后图像分类模型对所述待审核图片数据进行敏感信息识别,得到敏感信息识别结果,包括:
S501.将所述待审核图片数据输入所述训练后图像语义分割模型进行图片语义特征抽取处理,得到与所述待审核图片数据对应的图片语义分割结果;
S502.将所述图片语义分割结果和所述待审核图片数据输入所述训练后图像分类模型进行处理,得到与所述待审核图片数据对应的敏感类型标签;
S503.将当前敏感类型标签作为所述待审核图片数据的敏感信息识别结果进行输出。
本实施例可提高对于抽象隐晦的敏感信息的识别和判断能力,利于提升现有的图像审核维度,敏感信息识别效果得以提升。具体地,本实施针对市面主流图片审核算法进行改善和优化,通过采用图像语义分割技术实现的训练后图像语义分割模型,以及基于小样本学习技术实现的训练后图像分类模型,在对所述待审核图片数据进行敏感信息识别时,可通过两种模型对待审核图片数据依次进行语义分割和敏感信息的串行预测,可精确理解图像场景与内容,获取像素级别的图片内容理解能力,从而对使其更好地识别一些抽象隐晦的敏感信息,进而满足不同业务场景的审核要求,使得本实施例可作为主流图片审核方法的一种补充和完善手段,以加强完善现有的审核维度,更好地提升相应的敏感信息审核效果。
实施例2:
本实施例公开了一种敏感信息检测系统,用于实现实施例1中敏感信息检测方法;如图2所示,所述敏感信息检测系统包括:
样本获取模块,用于获取样本图片数据;
第一模型构建模块,与所述样本获取模块通信连接,用于构建初始图像语义分割模型,并根据所述样本图片数据对所述初始图像语义分割模型进行训练,得到训练后图像语义分割模型;还用于根据所述训练后图像语义分割模型,得到与所述样本图片数据匹配的样本图片语义分割结果;
第二模型构建模块,与所述第一模型构建模块通信连接,用于构建初始图像分类模型,并根据所述样本图片语义分割结果和与所述样本图片语义分割结果匹配的敏感类型标签对所述初始图像分类模型进行训练,得到训练后图像分类模型;
敏感信息识别模块,与所述第二模型构建模块通信连接,用于接收待审核图片数据,并通过所述训练后图像语义分割模型和所述训练后图像分类模型对所述待审核图片数据进行敏感信息识别,得到敏感信息识别结果。
实施例3:
在实施例1或2的基础上,本实施例公开了一种电子设备,该设备可以是智能手机、平板电脑、笔记本电脑或者台式电脑等。电子设备可能被称为用户终端、便携式终端、台式终端等,如图3所示,电子设备包括:
存储器,用于存储计算机程序指令;以及,
处理器,用于执行所述计算机程序指令从而完成如实施例1中任一所述的敏感信息检测方法的操作。
具体地,处理器301可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器301可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable LogicArray,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器301也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(CentralProcessing Unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器301可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。
存储器302可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器302还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器302中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器301所执行以实现本申请中实施例1提供的敏感信息检测方法。
在一些实施例中,终端还可选包括有:通信接口303和至少一个外围设备。处理器301、存储器302和通信接口303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与通信接口303相连。具体地,外围设备包括:射频电路304、显示屏305和电源306中的至少一种。
通信接口303可被用于将I/O(Input/ Output,输入/输出)相关的至少一个外围设备连接到处理器301和存储器302。在一些实施例中,处理器301、存储器302和通信接口303被集成在同一芯片或电路板上;在一些其他实施例中,处理器301、存储器302和通信接口303中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路304用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路304通过电磁信号与通信网络以及其他通信设备进行通信。
显示屏305用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。
电源306用于为电子设备中的各个组件进行供电。
实施例4:
在实施例1至3任一项实施例的基础上,本实施例公开了一种计算机可读存储介质,用于存储计算机可读取的计算机程序指令,所述计算机程序指令被配置为运行时执行如实施例1所述的敏感信息检测方法的操作。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
最后应说明的是,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.一种敏感信息检测方法,其特征在于:包括:
获取样本图片数据;
构建初始图像语义分割模型,并根据所述样本图片数据对所述初始图像语义分割模型进行训练,得到训练后图像语义分割模型;
根据所述训练后图像语义分割模型,得到与所述样本图片数据匹配的样本图片语义分割结果;
构建初始图像分类模型,并根据所述样本图片语义分割结果和与所述样本图片语义分割结果匹配的敏感类型标签对所述初始图像分类模型进行训练,得到训练后图像分类模型;所述初始图像分类模型采用原型网络模型;采用元学习方式,通过原型网络模型构建初始图像分类模型;
接收待审核图片数据,并通过所述训练后图像语义分割模型和所述训练后图像分类模型对所述待审核图片数据进行敏感信息识别,得到敏感信息识别结果;
所述样本图片数据携带有预设敏感信息的敏感类型标签及图片语义标签;对应地,获取样本图片数据,包括:
获取初始样本图片数据;其中,所述初始样本图片数据携带有预设敏感信息的敏感类型标签;
对所述初始样本图片数据进行数据增强处理,得到增强后图片数据;其中,所述增强后图片数据携带有预设敏感信息的敏感类型标签;
分别获取所述初始样本图片数据和所述增强后图片数据的图片语义标签,并将所述初始样本图片数据的图片语义标签与所述初始样本图片数据进行绑定,将所述增强后图片数据的图片语义标签与所述增强后图片数据进行绑定;
根据所述初始样本图片数据和所述增强后图片数据,得到样本图片数据;其中,所述样本图片数据携带有预设敏感信息的敏感类型标签及图片语义标签;
所述样本图片数据携带有预设敏感信息的图片语义标签;对应地,根据所述样本图片数据对所述初始图像语义分割模型进行训练,得到训练后图像语义分割模型,包括:
根据所述图片语义标签,对所述样本图片数据进行图片剪裁处理,得到剪裁后样本图片数据;
对所述剪裁后样本图片数据依次进行图片锐化处理及图片边缘提取处理,得到预处理后样本图片数据;
将所述预处理后样本图片数据划分为训练集和验证集,并根据所述训练集和所述验证集对所述初始图像语义分割模型进行训练,得到训练后图像语义分割模型。
2.根据权利要求1所述的一种敏感信息检测方法,其特征在于:获取所述初始样本图片数据或所述增强后图片数据的图片语义标签时,采用多边形标注处理方法和/或OCR转写处理方法实现。
3.根据权利要求1所述的一种敏感信息检测方法,其特征在于:所述初始图像语义分割模型采用U-Net模型。
4.根据权利要求1所述的一种敏感信息检测方法,其特征在于:通过所述训练后图像语义分割模型和所述训练后图像分类模型对所述待审核图片数据进行敏感信息识别,得到敏感信息识别结果,包括:
将所述待审核图片数据输入所述训练后图像语义分割模型进行处理,得到与所述待审核图片数据对应的图片语义分割结果;
将所述图片语义分割结果和所述待审核图片数据输入所述训练后图像分类模型进行处理,得到与所述待审核图片数据对应的敏感类型标签;
将当前敏感类型标签作为所述待审核图片数据的敏感信息识别结果进行输出。
5.一种敏感信息检测系统,其特征在于:用于实现如权利要求1至4中任一项所述的敏感信息检测方法;所述敏感信息检测系统包括:
样本获取模块,用于获取样本图片数据;
第一模型构建模块,与所述样本获取模块通信连接,用于构建初始图像语义分割模型,并根据所述样本图片数据对所述初始图像语义分割模型进行训练,得到训练后图像语义分割模型;还用于根据所述训练后图像语义分割模型,得到与所述样本图片数据匹配的样本图片语义分割结果;
第二模型构建模块,与所述第一模型构建模块通信连接,用于构建初始图像分类模型,并根据所述样本图片语义分割结果和与所述样本图片语义分割结果匹配的敏感类型标签对所述初始图像分类模型进行训练,得到训练后图像分类模型;所述初始图像分类模型采用原型网络模型;采用元学习方式,通过原型网络模型构建初始图像分类模型;
敏感信息识别模块,与所述第二模型构建模块通信连接,用于接收待审核图片数据,并通过所述训练后图像语义分割模型和所述训练后图像分类模型对所述待审核图片数据进行敏感信息识别,得到敏感信息识别结果;
所述样本图片数据携带有预设敏感信息的敏感类型标签及图片语义标签;对应地,获取样本图片数据,包括:
获取初始样本图片数据;其中,所述初始样本图片数据携带有预设敏感信息的敏感类型标签;
对所述初始样本图片数据进行数据增强处理,得到增强后图片数据;其中,所述增强后图片数据携带有预设敏感信息的敏感类型标签;
分别获取所述初始样本图片数据和所述增强后图片数据的图片语义标签,并将所述初始样本图片数据的图片语义标签与所述初始样本图片数据进行绑定,将所述增强后图片数据的图片语义标签与所述增强后图片数据进行绑定;
根据所述初始样本图片数据和所述增强后图片数据,得到样本图片数据;其中,所述样本图片数据携带有预设敏感信息的敏感类型标签及图片语义标签;
所述样本图片数据携带有预设敏感信息的图片语义标签;对应地,根据所述样本图片数据对所述初始图像语义分割模型进行训练,得到训练后图像语义分割模型,包括:
根据所述图片语义标签,对所述样本图片数据进行图片剪裁处理,得到剪裁后样本图片数据;
对所述剪裁后样本图片数据依次进行图片锐化处理及图片边缘提取处理,得到预处理后样本图片数据;
将所述预处理后样本图片数据划分为训练集和验证集,并根据所述训练集和所述验证集对所述初始图像语义分割模型进行训练,得到训练后图像语义分割模型。
6.一种电子设备,其特征在于:包括:
存储器,用于存储计算机程序指令;以及,
处理器,用于执行所述计算机程序指令从而完成如权利要求1至4中任一项所述的敏感信息检测方法的操作。
7.一种计算机可读存储介质,用于存储计算机可读取的计算机程序指令,其特征在于:所述计算机程序指令被配置为运行时执行如权利要求1至4中任一项所述的敏感信息检测方法的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410076811.3A CN117593596B (zh) | 2024-01-19 | 2024-01-19 | 一种敏感信息检测方法、系统、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410076811.3A CN117593596B (zh) | 2024-01-19 | 2024-01-19 | 一种敏感信息检测方法、系统、电子设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117593596A CN117593596A (zh) | 2024-02-23 |
CN117593596B true CN117593596B (zh) | 2024-04-16 |
Family
ID=89915445
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410076811.3A Active CN117593596B (zh) | 2024-01-19 | 2024-01-19 | 一种敏感信息检测方法、系统、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117593596B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107122806A (zh) * | 2017-05-16 | 2017-09-01 | 北京京东尚科信息技术有限公司 | 一种敏感图像识别方法及装置 |
CN108764243A (zh) * | 2018-05-30 | 2018-11-06 | 北京奇艺世纪科技有限公司 | 一种图像处理方法及装置 |
CN110414620A (zh) * | 2019-08-06 | 2019-11-05 | 厦门大学 | 一种语义分割模型训练方法、计算机设备及存储介质 |
CN111428865A (zh) * | 2020-04-20 | 2020-07-17 | 杭州电子科技大学 | 一种用于理解dqn模型的可视分析方法 |
CN112396106A (zh) * | 2020-11-18 | 2021-02-23 | 腾讯科技(深圳)有限公司 | 内容识别方法、内容识别模型训练方法及存储介质 |
CN113505861A (zh) * | 2021-09-07 | 2021-10-15 | 广东众聚人工智能科技有限公司 | 基于元学习和记忆网络的图像分类方法及系统 |
CN113505247A (zh) * | 2021-07-02 | 2021-10-15 | 兰州理工大学 | 基于内容的高时长视频色情内容检测方法 |
CN113893548A (zh) * | 2020-12-31 | 2022-01-07 | 完美世界(北京)软件科技发展有限公司 | 游戏资源素材审核方法及装置、存储介质、计算机设备 |
CN113936195A (zh) * | 2021-12-16 | 2022-01-14 | 云账户技术(天津)有限公司 | 敏感图像识别模型的训练方法、训练装置和电子设备 |
US11450104B1 (en) * | 2020-03-24 | 2022-09-20 | Amazon Technologies, Inc. | Identification and obfuscation of objectionable content from video stream |
CN115409124A (zh) * | 2022-09-19 | 2022-11-29 | 小语智能信息科技(云南)有限公司 | 基于微调原型网络的小样本敏感信息识别方法 |
CN115546824A (zh) * | 2022-04-18 | 2022-12-30 | 荣耀终端有限公司 | 禁忌图片识别方法、设备及存储介质 |
CN115797642A (zh) * | 2023-02-13 | 2023-03-14 | 华东交通大学 | 基于一致性正则化与半监督领域自适应图像语义分割算法 |
CN116168060A (zh) * | 2023-01-13 | 2023-05-26 | 湖北大学 | 结合元学习的深度孪生网络目标跟踪算法 |
CN116363154A (zh) * | 2023-03-31 | 2023-06-30 | 北京飞象星球科技有限公司 | 图像处理方法及装置 |
CN117173608A (zh) * | 2023-08-23 | 2023-12-05 | 山东新一代信息产业技术研究院有限公司 | 视频内容审核方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102241724B1 (ko) * | 2020-05-22 | 2021-04-19 | 주식회사 루닛 | 레이블 정보를 보정하는 방법 및 시스템 |
AU2022375759A1 (en) * | 2021-10-25 | 2024-04-04 | PAIGE.AI, Inc. | Systems and methods to process electronic images for determining treatment |
-
2024
- 2024-01-19 CN CN202410076811.3A patent/CN117593596B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107122806A (zh) * | 2017-05-16 | 2017-09-01 | 北京京东尚科信息技术有限公司 | 一种敏感图像识别方法及装置 |
CN108764243A (zh) * | 2018-05-30 | 2018-11-06 | 北京奇艺世纪科技有限公司 | 一种图像处理方法及装置 |
CN110414620A (zh) * | 2019-08-06 | 2019-11-05 | 厦门大学 | 一种语义分割模型训练方法、计算机设备及存储介质 |
US11450104B1 (en) * | 2020-03-24 | 2022-09-20 | Amazon Technologies, Inc. | Identification and obfuscation of objectionable content from video stream |
CN111428865A (zh) * | 2020-04-20 | 2020-07-17 | 杭州电子科技大学 | 一种用于理解dqn模型的可视分析方法 |
CN112396106A (zh) * | 2020-11-18 | 2021-02-23 | 腾讯科技(深圳)有限公司 | 内容识别方法、内容识别模型训练方法及存储介质 |
CN113893548A (zh) * | 2020-12-31 | 2022-01-07 | 完美世界(北京)软件科技发展有限公司 | 游戏资源素材审核方法及装置、存储介质、计算机设备 |
CN113505247A (zh) * | 2021-07-02 | 2021-10-15 | 兰州理工大学 | 基于内容的高时长视频色情内容检测方法 |
CN113505861A (zh) * | 2021-09-07 | 2021-10-15 | 广东众聚人工智能科技有限公司 | 基于元学习和记忆网络的图像分类方法及系统 |
CN113936195A (zh) * | 2021-12-16 | 2022-01-14 | 云账户技术(天津)有限公司 | 敏感图像识别模型的训练方法、训练装置和电子设备 |
CN115546824A (zh) * | 2022-04-18 | 2022-12-30 | 荣耀终端有限公司 | 禁忌图片识别方法、设备及存储介质 |
CN115409124A (zh) * | 2022-09-19 | 2022-11-29 | 小语智能信息科技(云南)有限公司 | 基于微调原型网络的小样本敏感信息识别方法 |
CN116168060A (zh) * | 2023-01-13 | 2023-05-26 | 湖北大学 | 结合元学习的深度孪生网络目标跟踪算法 |
CN115797642A (zh) * | 2023-02-13 | 2023-03-14 | 华东交通大学 | 基于一致性正则化与半监督领域自适应图像语义分割算法 |
CN116363154A (zh) * | 2023-03-31 | 2023-06-30 | 北京飞象星球科技有限公司 | 图像处理方法及装置 |
CN117173608A (zh) * | 2023-08-23 | 2023-12-05 | 山东新一代信息产业技术研究院有限公司 | 视频内容审核方法及系统 |
Non-Patent Citations (4)
Title |
---|
A LOCATION-SENSITIVE LOCAL PROTOTYPE NETWORK FOR FEW-SHOT MEDICAL IMAGE SEGMENTATION;Qinji Yu 等;arXiv:2103.10178v1 [cs.CV];20120318;1-6 * |
CLIP-Driven Prototype Network for Few-Shot Semantic Segmentation;Guo C S 等;Entropy;20230901;第25卷(第9期);1-8 * |
基于卷积神经网络的少样本语义分割模型的研究与应用;I138-1188;中国优秀硕士学位论文全文数据库信息科技辑;20240115(第(2024)01期);I138-1188 * |
基于深度学习的敏感图片监测系统的设计与实现;王振阳;中国优秀硕士学位论文全文数据库 信息科技辑;20210815(第(2021)08期);I138-463 * |
Also Published As
Publication number | Publication date |
---|---|
CN117593596A (zh) | 2024-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110610510B (zh) | 目标跟踪方法、装置、电子设备及存储介质 | |
WO2022001623A1 (zh) | 基于人工智能的图像处理方法、装置、设备及存储介质 | |
CN112200062B (zh) | 一种基于神经网络的目标检测方法、装置、机器可读介质及设备 | |
CN114155543A (zh) | 神经网络训练方法、文档图像理解方法、装置和设备 | |
CN113395542B (zh) | 基于人工智能的视频生成方法、装置、计算机设备及介质 | |
CN112215171B (zh) | 目标检测方法、装置、设备及计算机可读存储介质 | |
WO2022089170A1 (zh) | 字幕区域识别方法、装置、设备及存储介质 | |
WO2021129466A1 (zh) | 检测水印的方法、装置、终端及存储介质 | |
WO2022161302A1 (zh) | 动作识别方法、装置、设备、存储介质及计算机程序产品 | |
CN111310725A (zh) | 一种对象识别方法、系统、机器可读介质及设备 | |
CN112001331A (zh) | 图像识别方法、装置、设备及存储介质 | |
CN114783070A (zh) | 活体检测模型的训练方法、装置、电子设备及存储介质 | |
CN111652878B (zh) | 图像检测方法、装置、计算机设备及存储介质 | |
CN111859893B (zh) | 图文排版方法、装置、设备及介质 | |
CN113791723A (zh) | 数据录入方法、设备及存储介质 | |
CN117593596B (zh) | 一种敏感信息检测方法、系统、电子设备及介质 | |
CN111818364B (zh) | 视频融合方法、系统、设备及介质 | |
CN116010545A (zh) | 一种数据处理方法、装置及设备 | |
CN117009577A (zh) | 一种视频数据处理方法、装置、设备及可读存储介质 | |
CN114691853A (zh) | 句子推荐方法、装置、设备及计算机可读存储介质 | |
CN111914850B (zh) | 图片特征提取方法、装置、服务器和介质 | |
CN113709584A (zh) | 视频划分方法、装置、服务器、终端及存储介质 | |
CN113221718A (zh) | 公式识别方法、装置、存储介质和电子设备 | |
CN112364682A (zh) | 一种案件搜索方法及装置 | |
CN113709559B (zh) | 视频划分方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |