CN116363664A

CN116363664A - 一种基于ocr技术的涉密文本检查标注方法及系统

Info

Publication number: CN116363664A
Application number: CN202310374284.XA
Authority: CN
Inventors: 陈莉; 乔勇; 符士侃; 曹晶; 王磊; 相增辉; 陈轩; 吴可人; 李瑾辉
Original assignee: Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Current assignee: Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2023-04-10
Filing date: 2023-04-10
Publication date: 2023-06-30

Abstract

本发明公开了一种基于OCR技术的涉密文本检查标注方法及系统，涉及计算机文本图像识别技术领域。其中所述方法包括，获取待识别的视频图像；对提取的视频图像，进行多个不同角度方向上的滤波操作，获取不同角度方向的纹理图像；构建并训练SVM分类网络，利用训练好的SVM分类网络对不同角度方向的纹理图像进行分类，获取每个角度方向纹理图像的文本区域和背景区域；利用cnocr文字识别框架对文本区域中的文本信息进行检测识别；识别出文本信息中的涉密文字并进行标注。通过本发明能够对复杂场景视频图像中的文本目标进行准确识别并针对其涉密特征进行标注。

Description

一种基于OCR技术的涉密文本检查标注方法及系统

技术领域

本发明涉及计算机文本图像识别技术领域，更具体的说是涉及基于OCR技术的涉密文本检查标注方法及系统。

背景技术

随着技术的进步，OCR技术逐步成熟，对质量较好的文档图像识别率达到了98％以上，广泛应用在邮政、金融、交通、保险、税务等行业进行文字识别，取得了显著的成绩。

自然场景图像和视频图像中的文字识别，与传统识别技术中的文档图像相比，视频、图像由于拍摄的随意性，产生的图像会产生变形、模糊、断裂等现象，视频、自然场景中的图像中的文字具有类别多样性和不确定性的特点。

目前商用的OCR软件以文档字符作为识别对象，对高质量的文档图像识别率很高，但应用到其他领域时，如视频和自然场景图像中的文字识别时，由于图像背景复杂，背景对文字识别的干扰较大，通常难以取得较好的识别效果，为了解决复杂场景图像中文本的识别问题，通常做法是先从复杂场景图像中检测出文字区域的位置，然后将图像中文字区域提取出来送给OCR引擎进行识别，从而减少复杂场景文字识别的干扰。

然而，由于文本检测和识别的复杂性，现有的方法在图像视频背景较简单时，都能取得较好的效果，但当图像视频的场景比较复杂时，图像中文本的颜色、对比度不均匀，文字的排列方式不固定，背景对文字识别的干扰较大，使得很难通过一种方法实现复杂场景中文本的检测。根据近些年的相关论文和实验结果可以看出，还没有一种方法能够处理所有类型的测试样本，至少需要将两种或两种以上的方法组合才能检测全部测试样本中的文字。现有的针对视频中的叠加文本的研究主要集中在视频字幕的检测和识别上，这种叠加文本的字符尺寸相对一致、颜色统一、排列方式固定，并且文本的叠加区域通常背景比较简单。然而，自然场景中叠加的文字通常不具有这些特性，文字大小不一且排列不固定，叠加区域的背景复杂，背景对文字的检测影响非常大。另外，文字像素常和场景像素融合在一起，就算能正确的检测出文本区域，也很难将文本区域中的背景像素和文本像素进行分离。

因此，如何对复杂场景的视频图像进行文字检测和识别，提供一种基于OCR技术的涉密文本检查标注方法及系统是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于OCR技术的涉密文本检查标注方法及系统，针对复杂场景视频图像中的文本目标进行识别并针对其涉密特征进行标注。

为了实现上述目的，本发明采用如下技术方案：

本发明一方面公开了一种基于OCR技术的涉密文本检查标注方法，包括以下步骤：

步骤a、获取待识别的视频图像；

步骤b、提取视频图像中的文本区域：

对视频图像，进行多个不同角度方向上的滤波操作，获取不同角度方向的纹理图像；

构建并训练SVM分类网络，利用训练好的SVM分类网络对不同角度方向的纹理图像进行分类，获取每个角度方向纹理图像的文本区域和背景区域；

步骤c、利用cnocr文字识别框架对文本区域中的文本信息进行检测识别：

步骤d、涉密文本信息标注：

将文本信息中的文字和涉密文本数据集中的文字进行对比，获取文本信息中的涉密文字并进行标记。

优选的，步骤b中，对视频图像，进行多个不同角度方向上的滤波操作，具体包括：

利用Gabor滤波器对视频图像进行多个不同角度方向上的滤波操作，所述多个不同角度方向包括，以图像中心为圆心各自相差72°的五个方向。

优选的，步骤b中训练SVM分类网络，具体包括：

获取不同角度方向的纹理图像样本，利用样本特征提取函数φ(x)对所述纹理图像样本进行文本区域特征和背景区域特征提取；

将文本区域特征和背景区域特征输入高斯核函数，计算出文本区域和背景区域的分类超平面；

利用所述分类超平面对纹理图像样本中的文本区域特征和背景区域特征进行分类，并不断调整SVM分类网络的权重向量，直到分类结果达到设定的稳定阈值。

优选的，步骤c具体包括:

步骤c具体包括：

将提取的文本区域进行多个颜色维度的分层操作，得到对应的多个分层文本区域图像；

将所述多个分层文本区域图像分别利用cnocr文字识别框架进行识别，获取每个分层文本区域图像中的文本信息；

将每个分层文本区域图像中的文本信息进行对比验证，获取文本区域中的最终文本信息。

本发明另一方面公开了一种基于OCR技术的涉密文本检查标注系统，包括：

视频图像提取模块：用于提取待识别的视频图像；

文本区域检测模块：用于提取视频图像中的文本区域；

文本信息识别模量：用于对文本区域中的文本信息进行检测识别；

涉密文本信息标注模块：用于检测文本信息中的涉密文本，并对涉密文本进行标注。

优选的，所述视频图像提取模块提取待识别的视频图像，包括以下步骤：

从视频文件中提取待识别的视频图像，并对视频图像的清晰度和尺寸进行验证，将验证通过的视频图像存储在视频图像提取模块，并记录视频图像的图片信息，所述图片信息包括图片路径、图片尺寸和图片格式。

优选的，所述文本区域检测模块提取视频图像中的文本区域，包括以下步骤：

构建并训练SVM分类网络，利用训练好的SVM分类网络对不同角度方向的纹理图像进行分类，获取每个角度方向纹理图像的文本区域和背景区域。

优选的，所述文本信息识别模量对文本区域中的文本信息进行检测识别，包括以下步骤：

优选的，所述涉密文本信息标注模块检测文本信息中的涉密文本，具体包括：

将文本信息中的文字和涉密文本数据集中的文字进行对比，获取文本信息中的涉密文字。

本发明还公开了一种存储介质，所述存储介质上存储有计算机代码，所述计算机代码被执行时，实现上述任意一项所述的基于OCR技术的涉密文本检查标注方法。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于OCR技术的涉密文本检查标注方法及系统，具有以下有益效果：

本发明能够对复杂场景视频图像中的文本目标进行准确识别，并对其中的涉密文本特征进行标注。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的方法整体流程示意图；

图2为本发明实施例提供的视频图像分方向检测流程示意图；

图3为本发明实施例提供的SVM分类网络训练流程示意图；

图4为本发明实施例提供的SVM分类网络分类流程示意图；

图5为本发明实施例提供的文本信息检测识别流程示意图；

图6为本发明实施例提供的视频图像提取模块工作流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例一方面公开了一种基于OCR技术的涉密文本检查标注方法，包括以下步骤：

步骤a、获取待识别的视频图像；

步骤b、提取视频图像中的文本区域：

步骤d、涉密文本信息标注：

在一个具体实施例中，步骤b具体包括以下步骤：

如图2所示，利用Gabor滤波器对视频图像进行多个不同角度方向上的滤波操作，所述多个不同角度方向包括，以图像中心为圆心各自相差72°的五个方向；

针对复杂背景下图像的文字区域检测，本发明根据目标文本特征，从目标文本出发，结合Gabor滤波器在目标图像笔画相差72°的五个方向上进行滤波，由于涉密文件通常由中文汉字和五角星字符标注，采用上述方法能够结合汉字的横、竖、撇、捺、提、点等笔画特征，有效的保持了文字区域部分的纹理，抑制了非文字区域部分的纹理。在得到这五个方向文字和背景区域的纹理图像后，使用SVM分类器训练一个分类网络，利用训练好的网络对图像中的纹理块进行分类，根据分类结果得到最终的文字区域。

本发明实施例中采用Gabor滤波，Gabor滤波是一种加窗的短时傅里叶变换，可以得到图片在不同尺度、不同方向上的纹理特征信息。Gabor滤波器在不同光照强度、不同图片姿态上都具有很好的鲁棒性，Gabor滤波器的算法如下：

x′＝xcosθ+ysinθ

y′＝-xsinθ+ycosθ

其中(x，y)为待滤波图片的像素坐标；λ为滤波波长，λ数值越大，得到的纹理间隔越大；θ为滤波倾斜角度，设置不同倾斜角度，可以得到不同方向上的纹理图像；

为相位偏移量，用来设置纹理图像的中心；σ为滤波条纹高斯标准差，用来控制纹理数量；γ为纹理区域的长宽比，γ数值越大，纹理高度越小；这些参数是在实验过程中会不断校对调整。经过实验得出，针对不同汉字的笔画粗细，Gabor滤波器的滤波周长为笔画宽度的二分之一，且滤波方向与笔画方向正交时，滤波器的文字纹理信息提取最好。考虑能够看清楚的文字笔画最少应为1～2个像素，本发明在滤波时笔画宽度设置为1.2，滤波方向设置为相差72度的5个方向；考虑滤波条纹位置、数量和清晰度情况，相位偏移量设置为0，条纹高斯标准差设置为1，图像椭圆长宽比为0.5。

经过上述滤波操作之后，将会得到五个方向上的滤波图像，本发明使用支持向量机SVM为每个纹理图像进行文字区域和背景区域分类。SVM是将向量映射到高维特征正空间，在这个空间中寻找最优分类超平面进行分类。

具体的，SVM分类网络的训练过程如图3所示，具体包括:获取不同角度方向的纹理图像样本，利用特征提取方法对所述纹理图像样本进行文本区域特征和背景区域特征提取，特征提取V1表示针对样本数据V1，计算样本的均值和方差指标作为样本特征。

利用所述分类超平面对纹理图像样本中的文本区域特征和背景区域特征进行分类，并不断调整SVM分类网络的权重向量，本发明实施例中，权重向量w＝[w1,w2,w3,w4,w5],其中w1+w2+w3+w4+w5＝1，权重向量w的五个分量分别为五个方向上的笔画特征权重，在训练过程中权重向量w会根据数据集中分类结果中的笔画强弱调整，直到分类结果达到设定的稳定阈值；

在本发明实施例中，高斯核函数的形式如下：

其计算值为两个像素x和x_i的距离度量，其中，函数的超参数s通过交叉验证方法获得。将五个方向上经过滤波得到的纹理图像使用SVM分类进行集成，就得到了一个分类网络，SVM分类网络的分类过程如图4所示，其中，SVM分类器K(z)是针对样本集z使用高斯核函数在高维空间中计算出分类超平面。权重向量W在每个方向上的分量数值在训练中不断反馈调整，最终训练出来的结果作为最终确认文字区域的模型输出G(W，K(z))。在经过多次交叉验证的训练之后，就可以用来给新的图像进行文本区域检测定位，从而得到图像文本区域。

在经过步骤b的文本区域检测之后，检测出来的文本区域就能够在图像中确认。进入步骤c，如图5所示，把图像在多个颜色维度上进行分层，在常用的RGB图像三层基础上加上灰度层总共四层，将得到的四层颜色图像分别提取出文本区域内容，将得到的文本区域单独交给cnocr文字识别框架进行识别，cnocr是识别中文准确率很高的开源包，可以通过参数设置，在输出识别文字结果的同时输出其对应的准确概率，针对每一种可能的识别结果，根据不同层次的准确概率，计算加权平均值，数值最高的识别结果将作为最终结果，从而达到了对比验证效果。通过不同颜色层的识别和对比验证，本发明能有效减少OCR识别时的背景干扰。

步骤d、涉密文本信息标注：文本识别结果和涉密文字数据集中的文字进行对比，如果文本中存在涉密词汇和一些特定名词相关内容，将会针对这部分内容进行标记，以提醒用户关注。

本发明实施例另一方面公开了一种基于OCR技术的涉密文本检查标注系统，包括：

视频图像提取模块：用于提取待识别的视频图像；

文本区域检测模块：用于提取视频图像中的文本区域；

具体的，在一个实施例中，视频图像提取模块提取待识别的视频图像，包括以下步骤：

如图6所示，视频图像提取模块主要是从数据库或视频等文件中提取需要识别目标的视频图像，每一张图像需要对其清晰度、尺寸等属性进行有效性验证，如果图片有效，则记录此图片信息，需要记录的图片信息包括图片路径、尺寸、格式，并交给文本区域检测模块进行处理，如果图片无效，需要重新提取图片。

具体的，在一个实施例中，文本区域检测模块提取视频图像中的文本区域，包括以下步骤：

具体的，在一个实施例中，文本信息识别模量对文本区域中的文本信息进行检测识别，包括以下步骤：

具体的，在一个实施例中，涉密文本信息标注模块检测文本信息中的涉密文本，具体包括：

本发明实施例还公开了一种存储介质，所述存储介质上存储有计算机代码，当所述计算机代码被执行时，能够实现上述任意一项所述的基于OCR技术的涉密文本检查标注方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于OCR技术的涉密文本检查标注方法，其特征在于，所述方法包括以下步骤：

步骤a、获取待识别的视频图像；

步骤b、提取所述视频图像中的文本区域：

步骤d、涉密文本信息标注：

2.根据权利要求1所述的基于OCR技术的涉密文本检查标注方法，其特征在于，步骤b中，对视频图像，进行多个不同角度方向上的滤波操作，具体包括：

3.根据权利要求1所述的基于OCR技术的涉密文本检查标注方法，其特征在于，步骤b中训练SVM分类网络，具体包括：

4.根据权利要求1所述的基于OCR技术的涉密文本检查标注方法，其特征在于，步骤c具体包括：

5.一种基于OCR技术的涉密文本检查标注系统，其特征在于，所述系统包括：

视频图像提取模块：用于提取待识别的视频图像；

文本区域检测模块：用于提取视频图像中的文本区域；

文本信息识别模量：用于利用cnocr文字识别框架对文本区域中的文本信息进行检测识别；

6.根据权利要求5所述的基于OCR技术的涉密文本检查标注系统，其特征在于，所述视频图像提取模块提取待识别的视频图像，包括以下步骤：

7.根据权利要求5所述的基于OCR技术的涉密文本检查标注系统，其特征在于，所述文本区域检测模块提取视频图像中的文本区域，包括以下步骤：

8.根据权利要求5所述的基于OCR技术的涉密文本检查标注系统，其特征在于，所述文本信息识别模量对文本区域中的文本信息进行检测识别，包括以下步骤：

9.根据权利要求5所述的基于OCR技术的涉密文本检查标注系统，其特征在于，所述涉密文本信息标注模块检测文本信息中的涉密文本，具体包括：

10.一种存储介质，其特征在于，所述存储介质上存储有计算机代码，所述计算机代码被执行时，实现如权利要求1至4任意一项所述的基于OCR技术的涉密文本检查标注方法。