CN117593596A

CN117593596A - 一种敏感信息检测方法、系统、电子设备及介质

Info

Publication number: CN117593596A
Application number: CN202410076811.3A
Authority: CN
Inventors: 李少博; 徐桢虎; 苏忠莹; 王子健; 高登科
Original assignee: Sichuan Cover Media Technology Co ltd
Current assignee: Sichuan Cover Media Technology Co ltd
Priority date: 2024-01-19
Filing date: 2024-01-19
Publication date: 2024-02-23
Anticipated expiration: 2044-01-19
Also published as: CN117593596B

Abstract

本发明属于图片识别技术领域，其目的在于提供一种敏感信息检测方法、系统、电子设备及介质。本发明针对市面主流图片审核算法进行改善和优化，通过采用图像语义分割技术实现的训练后图像语义分割模型，以及基于小样本学习技术实现的训练后图像分类模型，在对所述待审核图片数据进行敏感信息识别时，可通过两种模型对待审核图片数据依次进行语义分割和敏感信息的串行预测，可精确理解图像场景与内容，获取像素级别的图片内容理解能力，从而对使其更好地识别一些抽象隐晦的敏感信息，进而满足不同业务场景的审核要求，使得本发明可作为主流图片审核方法的一种补充和完善手段，以加强完善现有的审核维度，更好地提升相应的敏感信息审核效果。

Description

一种敏感信息检测方法、系统、电子设备及介质

技术领域

本发明属于图片识别技术领域，具体涉及一种敏感信息检测方法、系统、电子设备及介质。

背景技术

随着社会数字化、信息化的不断发展，信息的制造、采集、传播速度也达到了惊人的水平，在当前信息共享与交互快速便捷的年代，任何违反国家现行法律法规、破坏社会公共安全与稳定等的信息转播，都将会产生巨大的社会影响，把握内容安全风险就显得尤为重要。针对内容敏感信息审核领域，目前市面产品主要通过加入审核机制，对内容生产全流程进行监督和管理，技术层面主要使用句法语义、文字黑库、图片黑库以及基于机器学习或者深度学习的图像音频敏感分类模型，通过视觉分析、人脸识别、OCR（Optical CharacterRecognition,光学字符识别）、ASR（Automatic Speech Recognition，自动语音识别）或者自然语言等技术对文本内容进行抽取，从而从输入的文本、图片、视频或者音频进行内容敏感判定。

现有的敏感审核大多数主要基于实体、人脸、局部细节特征等或者文本黑库触发，从而对内容的敏感信息进行捕获，此类方法有一个特点是其识别的敏感信息必须被实例化，就是敏感信息被实例化、具体化才能被识别，例如图片审核，通过对图片进行遍历扫描，直到发现满足识别要求的部分局部特征，但是，在使用现有技术过程中，发明人发现现有技术中至少存在如下问题：

采用现有技术很难对一些比较抽象隐晦的敏感信息进行有效识别，而且经常对符合局部特征的图形无法进行上下文理解，导致识别有误，例如图片中的一个人衣服的图案和身后的草地衔接的部分被识别成一面旗帜，虽然从模型本身而言，这块特征确实符合旗帜的模型特征，但是放在图片本身的语义环境中，其实是误触发的，导致采用现有技术进行敏感信息审核的效果不佳。

发明内容

本发明旨在至少在一定程度上解决上述技术问题，本发明提供了一种敏感信息检测方法、系统、电子设备及介质。

为了实现上述目的，本发明采用以下技术方案：

第一方面，本发明提供了一种敏感信息检测方法，包括：

获取样本图片数据；

构建初始图像语义分割模型，并根据所述样本图片数据对所述初始图像语义分割模型进行训练，得到训练后图像语义分割模型；

根据所述训练后图像语义分割模型，得到与所述样本图片数据匹配的样本图片语义分割结果；

构建初始图像分类模型，并根据所述样本图片语义分割结果和与所述样本图片语义分割结果匹配的敏感类型标签对所述初始图像分类模型进行训练，得到训练后图像分类模型；

接收待审核图片数据，并通过所述训练后图像语义分割模型和所述训练后图像分类模型对所述待审核图片数据进行敏感信息识别，得到敏感信息识别结果。

本发明可提高对于抽象隐晦的敏感信息的识别和判断能力，利于提升现有的图像审核维度，敏感信息识别效果得以提升。具体地，本实施针对市面主流图片审核算法进行改善和优化，通过采用图像语义分割技术实现的训练后图像语义分割模型，以及基于小样本学习技术实现的训练后图像分类模型，在对所述待审核图片数据进行敏感信息识别时，可通过两种模型对待审核图片数据依次进行语义分割和敏感信息的串行预测，可精确理解图像场景与内容，获取像素级别的图片内容理解能力，从而对使其更好地识别一些抽象隐晦的敏感信息，进而满足不同业务场景的审核要求，使得本发明可作为主流图片审核方法的一种补充和完善手段，以加强完善现有的审核维度，更好地提升相应的敏感信息审核效果。

在一个可能的设计中，所述样本图片数据携带有预设敏感信息的敏感类型标签及图片语义标签；对应地，获取样本图片数据，包括：

获取初始样本图片数据；其中，所述初始样本图片数据携带有预设敏感信息的敏感类型标签；

对所述初始样本图片数据进行数据增强处理，得到增强后图片数据；其中，所述增强后图片数据携带有预设敏感信息的敏感类型标签；

分别获取所述初始样本图片数据和所述增强后图片数据的图片语义标签，并将所述初始样本图片数据的图片语义标签与所述初始样本图片数据进行绑定，将所述增强后图片数据的图片语义标签与所述增强后图片数据进行绑定；

根据所述初始样本图片数据和所述增强后图片数据，得到样本图片数据；其中，所述样本图片数据携带有预设敏感信息的敏感类型标签及图片语义标签。

在一个可能的设计中，获取所述初始样本图片数据或所述增强后图片数据的图片语义标签时，采用语义分割处理方法、多边形标注处理方法、OCR转写处理方法和/或属性判别处理方法实现。

在一个可能的设计中，所述初始图像语义分割模型采用U-Net模型。

在一个可能的设计中，所述样本图片数据携带有预设敏感信息的图片语义标签；对应地，根据所述样本图片数据对所述初始图像语义分割模型进行训练，得到训练后图像语义分割模型，包括：

根据所述图片语义标签，对所述样本图片数据进行图片剪裁处理，得到剪裁后样本图片数据；

对所述剪裁后样本图片数据依次进行图片锐化处理及图片边缘提取处理，得到预处理后样本图片数据；

将所述预处理后样本图片数据划分为训练集和验证集，并根据所述训练集和所述验证集对所述初始图像语义分割模型进行训练，得到训练后图像语义分割模型。

在一个可能的设计中，所述初始图像分类模型采用原型网络模型。

在一个可能的设计中，通过所述训练后图像语义分割模型和所述训练后图像分类模型对所述待审核图片数据进行敏感信息识别，得到敏感信息识别结果，包括：

将所述待审核图片数据输入所述训练后图像语义分割模型进行处理，得到与所述待审核图片数据对应的图片语义分割结果；

将所述图片语义分割结果和所述待审核图片数据输入所述训练后图像分类模型进行处理，得到与所述待审核图片数据对应的敏感类型标签；

将当前敏感类型标签作为所述待审核图片数据的敏感信息识别结果进行输出。

第二方面，本发明提供了一种敏感信息检测系统，用于实现如上述任一项所述的敏感信息检测方法；所述敏感信息检测系统包括：

样本获取模块，用于获取样本图片数据；

第一模型构建模块，与所述样本获取模块通信连接，用于构建初始图像语义分割模型，并根据所述样本图片数据对所述初始图像语义分割模型进行训练，得到训练后图像语义分割模型；还用于根据所述训练后图像语义分割模型，得到与所述样本图片数据匹配的样本图片语义分割结果；

第二模型构建模块，与所述第一模型构建模块通信连接，用于构建初始图像分类模型，并根据所述样本图片语义分割结果和与所述样本图片语义分割结果匹配的敏感类型标签对所述初始图像分类模型进行训练，得到训练后图像分类模型；

敏感信息识别模块，与所述第二模型构建模块通信连接，用于接收待审核图片数据，并通过所述训练后图像语义分割模型和所述训练后图像分类模型对所述待审核图片数据进行敏感信息识别，得到敏感信息识别结果。

第三方面，本发明提供了一种电子设备，包括：

存储器，用于存储计算机程序指令；以及，

处理器，用于执行所述计算机程序指令从而完成如上述任一项所述的敏感信息检测方法的操作。

第四方面，本发明提供了一种计算机可读存储介质，用于存储计算机可读取的计算机程序指令，所述计算机程序指令被配置为运行时执行如上述任一项所述的敏感信息检测方法的操作。

附图说明

图1是实施例中一种敏感信息检测方法的流程图；

图2是实施例中一种敏感信息检测系统的模块框图；

图3是实施例中一种电子设备的模块框图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将结合附图和实施例或现有技术的描述对本发明作简单地介绍，显而易见地，下面关于附图结构的描述仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在此需要说明的是，对于这些实施例方式的说明用于帮助理解本发明，但并不构成对本发明的限定。

实施例1：

本实施例公开了一种敏感信息检测方法，可以但不限于由具有一定计算资源的计算机设备或虚拟机执行，例如由个人计算机、智能手机、个人数字助理或可穿戴设备等电子设备执行，或者由虚拟机执行。

如图1所示，一种敏感信息检测方法，可以但不限于包括有如下步骤：

S1.获取样本图片数据；其中，所述样本图片数据携带有预设敏感信息的敏感类型标签及图片语义标签。

具体地，获取样本图片数据，包括：

S101.获取初始样本图片数据；其中，所述初始样本图片数据携带有预设敏感信息的敏感类型标签；需要说明的是，本实施例中，初始样本图片数据为用户自定义为包括敏感图片的图片数据，具体地，初始样本图片数据为基于预设的审核诉求，在指定敏感信息审核场景及范围下，用户自定义且无法采用现有技术中常规的敏感信息分类模型直接识别到的图片数据。本实施例在实施过程中，可预先根据初始样本图片数据中敏感信息的类型构建得到基础标签集合，以便用户对初始样本图片数据进行敏感类型标记，进而得到携带有敏感类型标签的初始样本图片数据；具体地，本实施例中，基础标签集合中包括所有初始样本图片数据的敏感类型标签，敏感类型标签用于表征初始样本图片数据中预设敏感信息的类型，其中，敏感类型标签如为广告及违禁等，或者用户自定义的其他敏感类型标签，此处不予限制。

S102.对所述初始样本图片数据进行数据增强处理，得到增强后图片数据；其中，所述增强后图片数据携带有预设敏感信息的敏感类型标签；需要说明的是，数据增强处理指通过对原始训练数据进行一系列变换和修改,生成新的训练样本,从而扩展训练集的规模和多样性。本实施例中，通过对预先采集得到的初始样本图片数据进行数据增强处理，可利于实现对初始样本图片数据的数据拓充及泛化处理，便于减小用户采集样本图片数据的工作量，同时利于后续进行模型训练，避免模型过拟合，提升模型的鲁棒性和泛化能力。

S103.分别获取所述初始样本图片数据和所述增强后图片数据的图片语义标签，并将所述初始样本图片数据的图片语义标签与所述初始样本图片数据进行绑定，将所述增强后图片数据的图片语义标签与所述增强后图片数据进行绑定；

具体地，本实施例中，获取所述初始样本图片数据或所述增强后图片数据的图片语义标签时，采用语义分割处理方法、多边形标注处理方法、OCR转写处理方法和/或属性判别处理方法实现。

需要说明的是，语义分割处理方法是指根据物体的属性，对所述初始样本图片数据或所述增强后图片数据的图片数据中的复杂不规则图片进行进行区域划分，并标注对应上属性，得到图片语义标签；多边形标注处理方法是指在静态图片数据中，使用多边形框，标注出不规则的目标物体，相对于矩形框标注，其能够更精准地框定目标，同时对于不规则物体，也更具针对性；OCR转写处理方法是对图片数据中的文字内容进行标记与转写，进而得到图片语义标签；属性判别处理方法是指通过人工或机器配合的方式，识别出对应图片数据中的目标物体，并将其标注上对应属性，得到图片语义标签。

本实施例中，采用语义分割处理方法、多边形标注处理方法、OCR转写处理方法和/或属性判别处理方法等多种语义标注方法获取图片语义标签，可利于全方位获取所述初始样本图片数据或所述增强后图片数据中包含的各个维度的有效信息，以加深后续训练后图像语义分割模型对数据的细节感知及学习能力，丰富训练后图像语义分割模型的语义分割效果，满足对不同敏感粒度的识别需求。

S104.根据所述初始样本图片数据和所述增强后图片数据，得到样本图片数据；其中，所述样本图片数据携带有预设敏感信息的敏感类型标签及图片语义标签。

S2.构建初始图像语义分割模型，并根据所述样本图片数据对所述初始图像语义分割模型进行训练，得到训练后图像语义分割模型；

本实施例中，所述初始图像语义分割模型采用U-Net模型。具体地，U-Net模型为一种改进的FCN（Fully Convolutional Networks，全卷积神经网络）结构，由左半边的压缩通道(Contracting Path)和右半边扩展通道(Expansive Path)组成。

本实施例中，根据所述样本图片数据对所述初始图像语义分割模型进行训练，得到训练后图像语义分割模型，包括：

S201.根据所述图片语义标签，对所述样本图片数据进行图片剪裁处理，得到剪裁后样本图片数据；需要说明的是，对样本图片数据进行图片剪裁处理，得到的剪裁后样本图片数据可表征样本图片数据的主要特征信息，此时对其进行存储及后续处理，可利于节约内存及显存空间。

S202.对所述剪裁后样本图片数据依次进行图片锐化处理及图片边缘提取处理，得到预处理后样本图片数据；

S203.将所述预处理后样本图片数据划分为训练集和验证集，并根据所述训练集和所述验证集对所述初始图像语义分割模型进行训练，得到训练后图像语义分割模型。

本实施例中，根据所述训练集和所述验证集对所述初始图像语义分割模型进行训练后，通过将训练后得到的模型固化下来，从而得到训练后图像语义分割模型。

S3.根据所述训练后图像语义分割模型，得到与所述样本图片数据匹配的样本图片语义分割结果；

S4.构建初始图像分类模型，并根据所述样本图片语义分割结果和与所述样本图片语义分割结果匹配的敏感类型标签对所述初始图像分类模型进行训练，得到训练后图像分类模型；

具体地，本实施例中，所述初始图像分类模型采用原型网络模型。

需要说明的是，本实施例采用元学习方式，通过原型网络模型构建初始图像分类模型，使得本实施例只需要小样本标注数据即可完成图像分类模型的训练，可有效减少整个图像分类模型训练的迭代周期及相应的计算存储成本。

S5.接收待审核图片数据，并通过所述训练后图像语义分割模型和所述训练后图像分类模型对所述待审核图片数据进行敏感信息识别，得到敏感信息识别结果。

具体地，本实施例中，通过所述训练后图像语义分割模型和所述训练后图像分类模型对所述待审核图片数据进行敏感信息识别，得到敏感信息识别结果，包括：

S501.将所述待审核图片数据输入所述训练后图像语义分割模型进行图片语义特征抽取处理，得到与所述待审核图片数据对应的图片语义分割结果；

S502.将所述图片语义分割结果和所述待审核图片数据输入所述训练后图像分类模型进行处理，得到与所述待审核图片数据对应的敏感类型标签；

S503.将当前敏感类型标签作为所述待审核图片数据的敏感信息识别结果进行输出。

本实施例可提高对于抽象隐晦的敏感信息的识别和判断能力，利于提升现有的图像审核维度，敏感信息识别效果得以提升。具体地，本实施针对市面主流图片审核算法进行改善和优化，通过采用图像语义分割技术实现的训练后图像语义分割模型，以及基于小样本学习技术实现的训练后图像分类模型，在对所述待审核图片数据进行敏感信息识别时，可通过两种模型对待审核图片数据依次进行语义分割和敏感信息的串行预测，可精确理解图像场景与内容，获取像素级别的图片内容理解能力，从而对使其更好地识别一些抽象隐晦的敏感信息，进而满足不同业务场景的审核要求，使得本实施例可作为主流图片审核方法的一种补充和完善手段，以加强完善现有的审核维度，更好地提升相应的敏感信息审核效果。

实施例2：

本实施例公开了一种敏感信息检测系统，用于实现实施例1中敏感信息检测方法；如图2所示，所述敏感信息检测系统包括：

样本获取模块，用于获取样本图片数据；

实施例3：

在实施例1或2的基础上，本实施例公开了一种电子设备，该设备可以是智能手机、平板电脑、笔记本电脑或者台式电脑等。电子设备可能被称为用户终端、便携式终端、台式终端等，如图3所示，电子设备包括：

存储器，用于存储计算机程序指令；以及，

处理器，用于执行所述计算机程序指令从而完成如实施例1中任一所述的敏感信息检测方法的操作。

具体地，处理器301可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器301可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable LogicArray，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器301也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(CentralProcessing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器301可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。

存储器302可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器302还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器302中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器301所执行以实现本申请中实施例1提供的敏感信息检测方法。

在一些实施例中，终端还可选包括有：通信接口303和至少一个外围设备。处理器301、存储器302和通信接口303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与通信接口303相连。具体地，外围设备包括：射频电路304、显示屏305和电源306中的至少一种。

通信接口303可被用于将I/O(Input/ Output，输入/输出)相关的至少一个外围设备连接到处理器301和存储器302。在一些实施例中，处理器301、存储器302和通信接口303被集成在同一芯片或电路板上；在一些其他实施例中，处理器301、存储器302和通信接口303中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路304用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路304通过电磁信号与通信网络以及其他通信设备进行通信。

显示屏305用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。

电源306用于为电子设备中的各个组件进行供电。

实施例4：

在实施例1至3任一项实施例的基础上，本实施例公开了一种计算机可读存储介质，用于存储计算机可读取的计算机程序指令，所述计算机程序指令被配置为运行时执行如实施例1所述的敏感信息检测方法的操作。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

最后应说明的是，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种敏感信息检测方法，其特征在于：包括：

获取样本图片数据；

2.根据权利要求1所述的一种敏感信息检测方法，其特征在于：所述样本图片数据携带有预设敏感信息的敏感类型标签及图片语义标签；对应地，获取样本图片数据，包括：

3.根据权利要求2所述的一种敏感信息检测方法，其特征在于：获取所述初始样本图片数据或所述增强后图片数据的图片语义标签时，采用语义分割处理方法、多边形标注处理方法、OCR转写处理方法和/或属性判别处理方法实现。

4.根据权利要求1所述的一种敏感信息检测方法，其特征在于：所述初始图像语义分割模型采用U-Net模型。

5.根据权利要求1所述的一种敏感信息检测方法，其特征在于：所述样本图片数据携带有预设敏感信息的图片语义标签；对应地，根据所述样本图片数据对所述初始图像语义分割模型进行训练，得到训练后图像语义分割模型，包括：

6.根据权利要求1所述的一种敏感信息检测方法，其特征在于：所述初始图像分类模型采用原型网络模型。

7.根据权利要求1所述的一种敏感信息检测方法，其特征在于：通过所述训练后图像语义分割模型和所述训练后图像分类模型对所述待审核图片数据进行敏感信息识别，得到敏感信息识别结果，包括：

8.一种敏感信息检测系统，其特征在于：用于实现如权利要求1至7中任一项所述的敏感信息检测方法；所述敏感信息检测系统包括：

样本获取模块，用于获取样本图片数据；

9.一种电子设备，其特征在于：包括：

存储器，用于存储计算机程序指令；以及，

处理器，用于执行所述计算机程序指令从而完成如权利要求1至7中任一项所述的敏感信息检测方法的操作。

10.一种计算机可读存储介质，用于存储计算机可读取的计算机程序指令，其特征在于：所述计算机程序指令被配置为运行时执行如权利要求1至7中任一项所述的敏感信息检测方法的操作。