CN111339995B

CN111339995B - 一种基于神经网络的敏感图像识别方法

Info

Publication number: CN111339995B
Application number: CN202010180833.6A
Authority: CN
Inventors: 张黎; 陈广辉; 詹金凯; 谢委员; 骆春山
Original assignee: Hefei Shenjie Information Technology Co ltd
Current assignee: Hefei Shenjie Information Technology Co ltd
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2024-02-20
Anticipated expiration: 2040-03-16
Also published as: CN111339995A

Abstract

本发明提供一种基于神经网络的敏感图像识别方法，涉及信息识别技术领域，包括以下步骤：S1：对获取的图片进行预处理；S2：判断图像中是否存在圆环形目标，若是则执行步骤S3；反之则图像中未检测到敏感目标；S3：定位圆环内文字的内外半径和文字的始末角度；S4：将圆环内文字拉直，获取圆环内文字数据并输出；S5：判断圆环内文字与敏感文字匹配度是否不低于预定阈值，若是则检测到敏感目标；反之则未检测到敏感目标。本发明一种基于神经网络的敏感图像识别方法执行简单，识别准确，符合现实运用，有效识别图像中的敏感目标，及时处理增强机密保护，可以结合传统DLP的算法，来增强DLP的功能，防止机密泄露。

Description

一种基于神经网络的敏感图像识别方法

技术领域

本发明涉及信息识别技术领域，

尤其是，本发明涉及一种识别带圆环区域文字的图像敏感对象的基于神经网络的敏感图像识别方法。

背景技术

带圆环区域文字的图形非常常见，例如公章就是我国特有的历史产物，是一种权威性的象征，能够使用到公章的地方，几乎都会含有一些敏感信息，所以能够对图章进行检测，能够更好的保护企业内部敏感信息的流出。

在已有的数据防泄漏产品中，都只是对数据的文本进行保护，忽略了图像在国内企业敏感数据中占有的重要位置。传统的DLP，都是使用关键字和正则等算法，对各类文本数据进行搜索，但是仅仅根据一些敏感词还是很难准确出敏感信息，很容易遗漏或者误检出机密信息。

如果能对网络中上传的图片是否含有敏感的图章进行自动识别，能够大大的减少上述行为造成的恶劣影响，再结合传统DLP所使用的算法，能极大地增强DLP的检测机密信息的准确性，从而进行及时的处理。

因此为了解决上述问题，设计一种合理的敏感图像识别方法对我们来说是很有必要的。

发明内容

本发明的目的在于提供一种执行简单，识别准确，符合现实运用，有效识别图像中的带圆环区域文字的敏感目标，及时处理增强机密保护，可以结合传统DLP的算法，来增强DLP的功能，防止机密泄露的基于神经网络的图像识别方法。

为达到上述目的，本发明采用如下技术方案得以实现的：

一种基于神经网络的敏感图像识别方法，包括以下步骤：

S1：对获取的图片进行预处理；

S2：判断图像中是否存在圆环形目标，若是则执行步骤S3；反之则图像中未检测到敏感目标；

S3：定位圆环内文字的内外半径和文字的始末角度；

S4：将圆环内文字拉直，获取圆环内文字数据并输出；

S5：判断圆环内文字与敏感文字匹配度是否不低于预定阈值，若是则检测到敏感目标；反之则未检测到敏感目标。

作为本发明的优选，执行步骤S1时，对图像的大小和颜色进行处理。

作为本发明的优选，执行步骤S2时，具体包括：

S21：判断图像中是否存在圆；若是则执行步骤S22；反之则图像中未检测到敏感目标；

S22：判断圆是否有圆环形目标；若是则执行步骤S3；反之则图像中未检测到敏感目标。

作为本发明的优选，执行步骤S21时，对图像使用hough变换算法检测圆，然后对检测出的结果加一层过滤条件，重复检测至少一次，获取所有圆。

作为本发明的优选，执行步骤S22时，获取对比目标样本进行训练得到神经网络训练模型，将步骤S21中检测的所有圆，依次输入神经网络训练模型，判断是否有敏感目标。

作为本发明的优选，执行步骤S22之前，提前进行神经网络模型训练。

作为本发明的优选，执行步骤S3时，以圆环的圆心为基准点，获取圆环内文字所处区域的内外径和始末角度。

作为本发明的优选，执行步骤S4时，获取步骤S3中获取的文字区域，使用坐标系变换和双线性插值，把圆环内的文字整体拉成横排，进行OCR识别，获取圆环内文字数据，将结果输出。

作为本发明的优选，执行步骤S5时，实时更新敏感文字并存储，并将获取的圆环内文字一一与敏感文字进行匹配，获取匹配度。

作为本发明的优选，执行步骤S5之前，提前设置预定阈值。

本发明一种基于神经网络的敏感图像识别方法有益效果在于：执行简单，识别准确，符合现实运用，有效识别图像中的敏感目标，及时处理增强机密保护，可以结合传统DLP的算法，来增强DLP的功能，防止机密泄露。

附图说明

图1为本发明一种基于神经网络的敏感图像识别方法的流程示意图；

图2为本发明一种基于神经网络的敏感图像识别方法的圆环目标的文字处理结果示意图；

图3为本发明一种基于神经网络的敏感图像识别方法的文字拉直后的效果示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步的说明。

实施例：如图1至 3所示，仅仅为本发明的其中一个的实施例，一种基于神经网络的敏感图像识别方法，识别图像中的公章对象，包括以下步骤：

S1：对获取的图片进行预处理；

执行步骤S1时，对图像的大小和颜色进行处理。

预处理主要包括对图像的大小，颜色等进行处理，考虑到产品的性能，过滤了非常小的图片，因为有理由相信，非常小的图片不可能是圆环目标，并且缩小大图片，减少了算法所需要的时间。

S2：判断图像中是否有圆环目标，若是则执行步骤S3；反之则图像中没有目标；

实际上，执行步骤S2时，具体包括以下两步：

S22：判断是否含有圆环目标；若是则执行步骤S3；反之则图像中未检测到敏感目标。

也就是说，先判断图像内是否存在圆环，然后判断圆环中是否为圆环目标的图章样式，只有两次判断均为是，则说明有圆环目标且需要对圆环目标进行识别；反之，说明图像中无圆环，无需识别。

执行步骤S21时，对图像使用hough变换算法检测圆，然后对检测出的结果加一层过滤条件，对圆周上的红色像素点所占的比例进行判断，重复检测至少一次，获取所有圆。

使用了霍夫变换检测圆，但对其进行了优化。针对真实的应用场景，灵活的使用了hough变化算法。

具体细节如下：

首先，对灰度图使用hough变换算法检测圆，然后对检测出的结果加一层过滤条件，对圆周上的红色像素点所占的比例进行判断。这个判断条件来源于，一般的圆环目标都是红色的这一特点，再加上是对灰度图进行hough变换检测圆，所以即使是彩色图像进行了灰度化，也能根据这一条件判断。

然后，通过不同的参数多次重复检测，对几次调用检测出的圆取并集，这一操作是为了确保真正的圆能够被检测出来，可以误检，不能漏检，因为误检了可以根据其他条件进行筛选，而漏检目前没有较好的方法替换。

需要注意的是，根据检测出的每个圆的圆心和半径，过滤掉相交的圆，这是根据现实场景中，文件中的圆环目标不会相交的特点，选定的判定条件。

还有，执行步骤S22时，获取对比圆环目标样本进行训练得到神经网络训练模型，将步骤S21中检测的所有圆，依次输入神经网络训练模型，判断是否有圆环。对一批圆环目标样本进行神经网络训练，训练时使用正负样本约400:200，提取出圆环目标的特征，作为预测是否是圆环目标的模型。

另外，考虑到该训练过程需要耗费一定的时间，为了不影响产品性能，所以在执行步骤S22之前，提前进行神经网络模型训练，提前训练好该预测模型。

S3：定位圆环内文字的内外半径和文字的始末角度；

执行步骤S3时，以圆的圆心为基准点，获取圆环内文字所处区域的内外径和始末角度。如图2所示。

S4：将圆环内文字拉直，获取圆环内文字数据并输出；

执行步骤S4时，获取步骤S3中获取的文字区域，使用坐标系变换和双线性插值，把圆环目标内的文字整体拉成横排，进行OCR识别，获取圆环内文字数据，将结果输出。

因为圆环目标上的文字都是环绕在圆环目标上的，所以想要对文字进行识别，还需要对文字进行处理，使文字能够水平排版。步骤S3中获取处理后的文字区域，使用坐标系变换（扇环变换到矩形）和双线性插值，把圆环目标内的文字整体拉成横排。如图3所示。

执行步骤S5时，实时更新敏感文字并存储，并将获取的圆环内文字一一与敏感文字进行匹配，获取匹配度。对处理拉直以后的文字，进行文字识别，识别出圆环目标上的具体文字，用来判断是否为用户想要保护的圆环目标。

当然，执行步骤S5之前，提前设置预定阈值，在实际运用中，由于需要保护的目标样式不仅仅为一个，且每个目标的安全程度不同，所以看可以根据每个需要保护的目标，以及其保护安全等级来针对每一个目标设置不同的预定（安全）阈值。

本发明一种基于神经网络的敏感图像识别方法执行简单，识别准确，符合现实运用，有效识别图像中的敏感目标，及时处理增强机密保护，可以结合传统DLP的算法，来增强DLP的功能，防止机密泄露。

本发明不局限于上述具体的实施方式，本发明可以有各种更改和变化。例如也可以识别其他带圆环区域文字的敏感图像目标，如圆形的机械零件、圆形的旗帜等等。凡是依据本发明的技术实质对以上实施方式所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围。

Claims

1.一种基于神经网络的敏感图像识别方法，其特征在于，包括以下步骤：

S1：对获取的图片进行预处理；

S3：定位圆环内文字的内外半径和文字的始末角度；

S4：将圆环内文字拉直，获取圆环内文字数据并输出；

S5：判断圆环内文字与敏感文字匹配度是否不低于预定阈值，若是则检测到敏感目标；反之则未检测到敏感目标；

其中，执行步骤S2时，具体包括：

S22：判断圆是否有圆环形目标；若是则执行步骤S3；反之则图像中未检测到敏感目标；

执行步骤S21时，对灰度图像使用hough变换算法检测圆，然后对检测出的结果加一层过滤条件，对圆周上的红色像素点所占的比例进行判断，通过不同的参数多次重复检测，对几次调用检测出的圆取并集，确保所有的圆能够被检测出来并获取，根据检测出的每个圆的圆心和半径，过滤掉相交的圆；

执行步骤S22时，获取对比目标样本进行训练得到神经网络训练模型，将步骤S21中检测的所有圆，依次输入神经网络训练模型，判断是否有敏感目标。

2.根据权利要求1所述的一种基于神经网络的敏感图像识别方法，其特征在于：

执行步骤S1时，对图像的大小和颜色进行处理。

3.根据权利要求1所述的一种基于神经网络的敏感图像识别方法，其特征在于：

执行步骤S22之前，提前进行神经网络模型训练。

4.根据权利要求1所述的一种基于神经网络的敏感图像识别方法，其特征在于：

执行步骤S3时，以圆的圆心为基准点，获取圆环内文字所处区域的内外径和始末角度。

5.根据权利要求1所述的一种基于神经网络的敏感图像识别方法，其特征在于：

执行步骤S4时，获取步骤S3中获取的文字区域，使用坐标系变换和双线性插值，把圆环内的文字整体拉成横排，进行OCR识别，获取圆环内文字数据，将结果输出。

6.根据权利要求1所述的一种基于神经网络的敏感图像识别方法，其特征在于：

执行步骤S5时，实时更新敏感文字并存储，并将获取的圆环内文字一一与敏感文字进行匹配，获取匹配度。

7.根据权利要求1所述的一种基于神经网络的敏感图像识别方法，其特征在于：

执行步骤S5之前，提前设置预定阈值。