CN111985483B

CN111985483B - 一种拍屏文件图片检测方法、装置及存储介质

Info

Publication number: CN111985483B
Application number: CN202010761222.0A
Authority: CN
Inventors: 黄仁裕; 吴坚; 高志鹏; 赵建强; 张辉极; 黄剑; 杜新胜; 尤俊生
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2022-08-26
Anticipated expiration: 2040-07-31
Also published as: CN111985483A

Abstract

本发明提出了一种拍屏文件图片检测方法、装置及存储介质，该方法包括：拍照设备中获取待检测的图片；使用第一卷积神经网络模型对所述待检测的图片进行检测，如果该图片为拍屏图片，则使用第二卷积神经网络检测该图片中是否包含文字，如果是，则进行文字识别；使用第三卷积神经网络模型对包含文字的拍屏图片进行文字识别，得到文本文件；使用所述文本文件与计算机系统中存储的文件进行匹配，如果匹配度大于第一阈值，则发出警报。本发明考虑到硬件的限制，设计了速度较快且准确率较好的图片分类模型，改进基于卷积神经网络的文字检测和文本识别算法，提升了文字检测和文本识别的速度，解决了拍屏文件图片检测和文本识别问题，可应用于低端手持设备，提升了用户体验。

Description

一种拍屏文件图片检测方法、装置及存储介质

技术领域

本发明涉及文本数据处理技术领域，具体涉及一种拍屏文件图片检测方法、装置及存储介质。

背景技术

近年来，随着带摄像头的移动终端设备在人们生活中的日益普及，平板电脑、智能手机在大大方便人们生活、工作的同时，也存在着敏感信息泄露的安全隐患。越来越多的企事业单位、政府部门，逐步推行无纸化办公，在低碳环保的理念下，传统的纸质资料，正不断被数字化资料所取代。绝大部分高密级文档或者尚未发布的文档都会优先使用电子文档编辑，只有保密期结束的保密文档和可对外发布的文档才能公开。人们在享受数字化、高效化办公带来巨大便利性，同时也在防范电子网络的安全保密。在安全密级较高的企事业或政府部门，自行组建内部网络，禁止使用usb口等措施防止敏感电子文件通过网络方式泄密，但是无法阻止使用拍照设备拍摄的泄密方式。为了防止电子文件被人为用拍照设备进行拍摄导致泄密，高密级单位部门会不定期检查这些设备，特别是随身携带且可联互联网的手机，但单靠人工检查这些设备里的图像，存在费时、费力的缺点。

拍摄显示屏的图片主要特点是图片会呈现波纹，主要有两个原因，一为显示屏和拍照拍摄快门频率不同，二为莫尔条纹的干扰。由于拍照设备拍摄显示屏时图片的产生波纹种类有多种，包含横向、纵向或者有弧度的波纹，这些波纹相当于在正常图片中添加了高频噪声，可以通过傅里叶变换后在频域上分析白色像素线进行分离，但随着拍照设备摄像头像素越来越高，拍照设备距离显示屏较远处就可以拍出较清晰的图片，拍照设备离显示屏越远，拍摄的图片中的波纹越不明显，同时人为调整拍摄设备和显示屏的角度，也可以降低波纹的明显程度，导致传统的使用傅里叶变换的频谱图进行区分是否为拍屏图像成为一个难题。

现有技术中，如何快速准确的检测出图像中的文本，进而进行基于光学字符的识别(OCR)，一直是相关领域学者的研究热点，图像文本的检测技术主要有传统的数字图像处理方法和基于深度学习方法。传统的数字图像处理方法总体上速度较快，但准确率还需提高，深度学习方法准确率高，但速度较慢。

现有技术中，还有些使用一个复杂的神经网络完成所有工作，但是，有些图片根本就不是拍屏图片，所以浪费了系统的存储空间及计算能力，即现有的网络模型不适合拍屏文件图片的检测，影响了用户体验。

发明内容

本发明针对上述现有技术中一个或多个技术缺陷，提出了如下技术方案。

一种拍屏文件图片检测方法，该方法包括：

获取步骤，从拍照设备中获取待检测的图片；

检测步骤，使用第一卷积神经网络模型对所述待检测的图片进行检测，如果该图片为拍屏图片，则使用第二卷积神经网络检测该图片中是否包含文字，如果是，则进行文字识别；

识别步骤，使用第三卷积神经网络模型对包含文字的拍屏图片进行文字识别，得到文本文件；

匹配步骤，使用所述文本文件与计算机系统中存储的文件进行匹配，如果匹配度大于第一阈值，则发出警报。

更进一步地，所述计算机系统中存储的文件为涉密文件，所述第一卷积神经网络模型和第二卷积神经网络的卷积层数少于所述第三卷积神经网络模型的卷积层数。

更进一步地，使用所述第一卷积神经网络模型的卷积层提取待检测的图片的波纹特征，将所述波纹特征输入至与全连接层连接的分类器，所述分类器输出为二维向量，所述二维向量中的第一维向量表示所述待检测的图片为拍屏文件图片的概率，所述二维向量中的第二维向量表示所述待检测的图片为非拍屏文件图片的概率，如果第一维向量大于第二维向量，所述待检测的图片为拍屏文件图片。

更进一步地，使用所述第二卷积神经网络模型的卷积层提取待检测的图片的文字特征，将所述文字特征输入至与全连接层连接的分类器，所述分类器输出表示是否包含文字的概率值，如果所述概率值大于第二阈值，所述第二卷积神经网络模型为每一行文字标记一个检测框，并输出每个检测框的坐标和倾斜角度；根据每个检测框的倾斜角度对所述拍屏文件图片进行水平旋转，旋转角度大小为所有检测框的倾斜角度的平均值，并重新计算旋转后的拍屏文件图片的每个检测框的坐标，根据旋转后的拍屏文件图片的每个检测框的坐标将旋转后的拍屏文件图片裁剪为多个长条形图片。

更进一步地，将所述多个长条形图片依次输入至第三卷积神经网络模型进行文字识别，将每一个长条形图片识别得到的文字依次相连后得到所述文本文件。

本发明还提出了一种拍屏文件图片检测装置，该装置包括：

获取单元，从拍照设备中获取待检测的图片；

检测单元，使用第一卷积神经网络模型对所述待检测的图片进行检测，如果该图片为拍屏图片，则使用第二卷积神经网络检测该图片中是否包含文字，如果是，则进行文字识别；

识别单元，使用第三卷积神经网络模型对包含文字的拍屏图片进行文字识别，得到文本文件；

匹配单元，使用所述文本文件与计算机系统中存储的文件进行匹配，如果匹配度大于第一阈值，则发出警报。

本发明还提出了一种计算机可读存储介质，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时执行上述之任一的方法。

本发明的技术效果在于：本发明的一种拍屏文件图片检测方法、装置及存储介质，该方法包括：获取步骤，从拍照设备中获取待检测的图片；检测步骤，使用第一卷积神经网络模型对所述待检测的图片进行检测，如果该图片为拍屏图片，则使用第二卷积神经网络检测该图片中是否包含文字，如果是，则进行文字识别；识别步骤，使用第三卷积神经网络模型对包含文字的拍屏图片进行文字识别，得到文本文件；匹配步骤，使用所述文本文件与计算机系统中存储的文件进行匹配，如果匹配度大于第一阈值，则发出警报。本发明的装置使用最新的人工智能技术，设计了速度较快且准确率较好的卷积神经网络进行图片分类，并设计该网络的损失函数，便于快速的训练该网络模型，考虑到硬件的限制，改进基于卷积神经网络的文字检测和文本识别算法，提升了文字检测和文本识别的速度，解决了拍屏文件图片检测和文本识别问题，可应用于低端手持设备，使用快速且可以为企业、政府部门或其他保密程度较高机构等提供此类的检测服务来代替人工的工作，可以极大减少了保密部门人力的投入，预防保密电子文件不慎发到互联网，同时手机等设备拍摄的图片属于个人隐私，使用本方案还可以减少查阅他人隐私，提升了用户体验。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显。

图1是根据本发明的实施例的一种拍屏文件图片检测方法的流程图。

图2是根据本发明的实施例的一种拍屏文件图片检测装置的结构图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了本发明的一种拍屏文件图片检测方法，该方法包括：

获取步骤S101，从拍照设备中获取待检测的图片；比如，用需要进行检查人员的拍照设备的相册和聊天软件缓存目录获取至少一张图片，若没有获取到图片则直接结束检测，拍照设备可以是手机、智能手表、IPAD、笔记本电脑等终端。

在进行检测之前，需要对图片进行预处理，预处理包括：由于拍照设备有可能会拍出非常高清的图片，而卷积神经网络对输入有一定的限制，为了防止高清图片信息丢失严重，根据图片像素大小先将图片进行切分，然后再归一化图片大小。其次在聊天软件的缓存中，会存在很多软件自带的表情图片，在进行后续的拍屏文件图片检测算法之前需要过滤这些表情图片，以免后续对大量的无关图片进行检测。

检测步骤S102，使用第一卷积神经网络模型对所述待检测的图片进行检测，如果该图片为拍屏图片，则使用第二卷积神经网络检测该图片中是否包含文字，如果是，则进行文字识别。

识别步骤S103，使用第三卷积神经网络模型对包含文字的拍屏图片进行文字识别，得到文本文件。

匹配步骤S104，使用所述文本文件与计算机系统中存储的文件进行匹配，如果匹配度大于第一阈值，则发出警报。将所述文本文件的每行文本与在计算机存储的电子原文件进行文本匹配查找，如果匹配度大于第一阈值则报警并累计命中图片张数，第一阈值可以为20％，阈值越小，噪声越大，但准确度越高，等等。

算法流程图如下所示

本发明使用三个独立的神经网络模型分别实现拍屏图片的检测、文字的检测以及文字的识别，当每一个模型的输出不满足后续检测条件时，无需后续流程的执行，由于各个环节所采用的模型必须足够小，降低了设备的内存使用及计算能力的占用，可以应用在普通计算机、手机，以及低端arm设备，这是本发明的一个重要发明点。

在一个实施例中，使用所述第一卷积神经网络模型的卷积层提取待检测的图片的波纹特征，将所述波纹特征输入至与全连接层连接的分类器，所述分类器输出为二维向量，所述二维向量中的第一维向量表示所述待检测的图片为拍屏文件图片的概率，所述二维向量中的第二维向量表示所述待检测的图片为非拍屏文件图片的概率，如果第一维向量大于第二维向量，所述待检测的图片为拍屏文件图片。

优选地，所述第一卷积神经网络模型采用5层卷积层的卷积神经网络来实现，网络输入的图片大小为160*160，卷积核个数分别为8,16,24,32,48，步长均为2，经过与全连接层连接的分类器后输出为表示类别数的二维向量，如果第一维度的值大于第二维度的值，则该图片为拍屏文件图片。若该图片不是拍屏文件图片，直接跳过该图片，对下一图片进行检测，无需执行后续的操作，节约了计算资源。本发明中的第一卷积神经网络模型具体参数为：

本发明中的第一卷积神经网络在训练阶段采用了增加角度惩罚的Softmax loss作为代价误差函数，使用人为控制角度大小来增加分类难度，提高分类精度。带角度惩罚的Softmax loss公式如下：

其中s,m为超参，根据样本分布和分类难易度设定。在本发明中，s＝40，m＝30。网络输出类别与样本标签一致时，对类别权重和特征之间的角度增加m度，增加训练难度，上式中，N为训练样本数量，i为训练样本集中的第i个样本的序号，y_i为第i个样本的类标，θ为类别权重和特征向量之间的角度，j为当前类别。通过本发明设计的具体的所述第一卷积神经网络模型具体结构及其损失函数，使得该模型的检测能力突出，检测效率极高，这是本发明的重要发明点之一。

在一个实施例中，使用所述第二卷积神经网络模型的卷积层提取待检测的图片的文字特征，将所述文字特征输入至与全连接层连接的分类器，所述分类器输出表示是否包含文字的概率值，如果所述概率值大于第二阈值，所述第二卷积神经网络模型为每一行文字标记一个检测框，并输出每个检测框的坐标和倾斜角度；根据每个检测框的倾斜角度对所述拍屏文件图片进行水平旋转，旋转角度大小为所有检测框的倾斜角度的平均值，并重新计算旋转后的拍屏文件图片的每个检测框的坐标，根据旋转后的拍屏文件图片的每个检测框的坐标将旋转后的拍屏文件图片裁剪为多个长条形图片。

优选地，拍照设备拍摄电子文件一般不存在曲线形状的文字，并且背景较单一，但无法避免倾斜角度的存在，所以实现文字检测算法的卷积神经网络模型也只需较小模型。比如，可以在开源文字检测算法TextBoxes++的基础上，改进其VGG-16网络基础框架，减少网络层数和每层卷积核个数。经过文字检测算法后，会输出每一行文字会有一个检测框，同时检测模型会输出每个框的坐标和倾斜角度，如果没有检测到文字则检测框个数为零，则进行下一图片的检测。

在一个实施例中，将所述多个长条形图片依次输入至第三卷积神经网络模型进行文字识别，将每一个长条形图片识别得到的文字依次相连后得到所述文本文件。

优选地，所述第三卷积神经网络模型基于开源CRNN文本识别算法，减少卷积网络部分的卷积核个数，全部卷积层的卷积核个数缩小4倍；在循环神经网络部分，减少隐藏单元，缩短循环神经网络长度。将上述获取的长条形图片输入所述第三卷积神经网络模型，得到一行文字，重复此步骤直到所有截取的长条形图片识别完成得到文本文件。

在一个实施例，所述计算机系统中存储的文件为涉密文件，所述第一卷积神经网络模型(也称为图片分类模型)和第二卷积神经网络(也称为文字检测模型)的卷积层数少于所述第三卷积神经网络模型(也称为文本识别模型)的卷积层数，这是因为拍屏文件的检测以及文字的检测所需要的特征数少于文字识别的特征数，优选地，所述第一卷积神经网络模型的卷积层数多于或等于第二卷积神经网络的卷积层。

本发明还包括三个模型的训练过程，需要采集图片作为后续算法的训练样本，使用不同分辨率手机、平板、摄像头等拍照设备，随机开启不同滤镜，对准不同分辨率的电脑屏幕、手机屏幕、平板屏幕和投影屏等显示屏，这些屏幕随机播放不同的含有较多文字的电子文件，拍照设备和屏幕的距离由远到近、不同角度进行拍摄，图片总量超过一万张，这些拍摄图片作为正样本，其他5万张非拍屏的图片作为负样本，使用这些样本对本发明的三个卷积神经网络模型进行训练后才可以使用。

本发明利用1万多张拍屏文件图片作为样本进行图片分类模型训练，超过10万个文本框作为文本检测样本和文本识别样本，3000张拍屏文件图片和10000张非拍屏文件图片作为图片分类模型测试样本，拍屏文件图片包含8000多个包含文字的文本框作为文字检测模型和文本识别模型的测试样本。测试样本不在训练样本中。在测试样本中分类模型准确率高于95％，文本检测率94％，文本识别率高于92％，本方案所有流程的准确率为82％。后续通过增加训练样本还可以继续提高准确率。

本发明的方法使用最新的人工智能技术，设计了速度较快且准确率较好的卷积神经网络进行图片分类，考虑到硬件的限制，改进基于卷积神经网络的文字检测和文本识别算法，提升了文字检测和文本识别的速度，解决了拍屏文件图片检测和文本识别问题，可应用于低端手持设备，使用快速且可以为企业、政府部门或其他保密程度较高机构等提供此类的检测服务来代替人工的工作，可以极大减少了保密部门人力的投入，预防保密电子文件不慎发到互联网，同时手机等设备拍摄的图片属于个人隐私，使用本方案还可以减少查阅他人隐私，这是本发明的重要发明点。

图2示出了本发明的本发明的一种拍屏文件图片检测装置，该装置包括：

获取单元201，从拍照设备中获取待检测的图片；比如，用需要进行检查人员的拍照设备的相册和聊天软件缓存目录获取至少一张图片，若没有获取到图片则直接结束检测，拍照设备可以是手机、智能手表、IPAD、笔记本电脑等终端。

检测单元202，使用第一卷积神经网络模型对所述待检测的图片进行检测，如果该图片为拍屏图片，则使用第二卷积神经网络检测该图片中是否包含文字，如果是，则进行文字识别。

识别单元203，使用第三卷积神经网络模型对包含文字的拍屏图片进行文字识别，得到文本文件。

匹配单元204，使用所述文本文件与计算机系统中存储的文件进行匹配，如果匹配度大于第一阈值，则发出警报。将所述文本文件的每行文本与在计算机存储的电子原文件进行文本匹配查找，如果匹配度大于第一阈值则报警并累计命中图片张数，第一阈值可以为20％，阈值越小，噪声越大，但准确度越高，等等。

其中s,m为超参，根据样本分布和分类难易度设定。在本发明中，s＝40，m＝30。网络输出类别与样本标签一致时，对类别权重和特征之间的角度增加m度，增加训练难度上式中，N为训练样本数量，i为训练样本集中的第i个样本的序号，y_i为第i个样本的类标，θ为类别权重和特征向量之间的角度，j为当前类别。通过本发明设计的具体的所述第一卷积神经网络模型具体结构及其损失函数，使得该模型的检测能力突出，检测效率极高，这是本发明的重要发明点之一。

本发明的装置使用最新的人工智能技术，设计了速度较快且准确率较好的卷积神经网络进行图片分类，考虑到硬件的限制，改进基于卷积神经网络的文字检测和文本识别算法，提升了文字检测和文本识别的速度，解决了拍屏文件图片检测和文本识别问题，可应用于低端手持设备，使用快速且可以为企业、政府部门或其他保密程度较高机构等提供此类的检测服务来代替人工的工作，可以极大减少了保密部门人力的投入，预防保密电子文件不慎发到互联网，同时手机等设备拍摄的图片属于个人隐私，使用本方案还可以减少查阅他人隐私，这是本发明的重要发明点。

本发明的为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的装置。

最后所应说明的是：以上实施例仅以说明而非限制本发明的技术方案，尽管参照上述实施例对本发明进行了详细说明，本领域的普通技术人员应当理解：依然可以对本发明进行修改或者等同替换，而不脱离本发明的精神和范围的任何修改或局部替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种拍屏文件图片检测方法，其特征在于，该方法包括：

获取步骤，从拍照设备中获取待检测的图片；

匹配步骤，使用所述文本文件与计算机系统中存储的文件进行匹配，如果匹配度大于第一阈值，则发出警报；

还包括：使用所述第一卷积神经网络模型的卷积层提取待检测的图片的波纹特征，将所述波纹特征输入至与全连接层连接的分类器，所述分类器输出为二维向量，所述二维向量中的第一维向量表示所述待检测的图片为拍屏文件图片的概率，所述二维向量中的第二维向量表示所述待检测的图片为非拍屏文件图片的概率，如果第一维向量大于第二维向量，所述待检测的图片为拍屏文件图片。

2.根据权利要求1所述的方法，其特征在于，所述计算机系统中存储的文件为涉密文件，所述第一卷积神经网络模型和第二卷积神经网络的卷积层数少于所述第三卷积神经网络模型的卷积层数。

3.根据权利要求2所述的方法，其特征在于，使用所述第二卷积神经网络模型的卷积层提取待检测的图片的文字特征，将所述文字特征输入至与全连接层连接的分类器，所述分类器输出表示是否包含文字的概率值，如果所述概率值大于第二阈值，所述第二卷积神经网络模型为每一行文字标记一个检测框，并输出每个检测框的坐标和倾斜角度；根据每个检测框的倾斜角度对所述拍屏文件图片进行水平旋转，旋转角度大小为所有检测框的倾斜角度的平均值，并重新计算旋转后的拍屏文件图片的每个检测框的坐标，根据旋转后的拍屏文件图片的每个检测框的坐标将旋转后的拍屏文件图片裁剪为多个长条形图片。

4.根据权利要求3所述的方法，其特征在于，将所述多个长条形图片依次输入至第三卷积神经网络模型进行文字识别，将每一个长条形图片识别得到的文字依次相连后得到所述文本文件。

5.一种拍屏文件图片检测装置，其特征在于，该装置包括：

获取单元，从拍照设备中获取待检测的图片；

匹配单元，使用所述文本文件与计算机系统中存储的文件进行匹配，如果匹配度大于第一阈值，则发出警报；

其中，使用所述第一卷积神经网络模型的卷积层提取待检测的图片的波纹特征，将所述波纹特征输入至与全连接层连接的分类器，所述分类器输出为二维向量，所述二维向量中的第一维向量表示所述待检测的图片为拍屏文件图片的概率，所述二维向量中的第二维向量表示所述待检测的图片为非拍屏文件图片的概率，如果第一维向量大于第二维向量，所述待检测的图片为拍屏文件图片。

6.根据权利要求5所述的装置，其特征在于，所述计算机系统中存储的文件为涉密文件，所述第一卷积神经网络模型和第二卷积神经网络的卷积层数少于所述第三卷积神经网络模型的卷积层数。

7.根据权利要求6所述的装置，其特征在于，使用所述第二卷积神经网络模型的卷积层提取待检测的图片的文字特征，将所述文字特征输入至与全连接层连接的分类器，所述分类器输出表示是否包含文字的概率值，如果所述概率值大于第二阈值，所述第二卷积神经网络模型为每一行文字标记一个检测框，并输出每个检测框的坐标和倾斜角度；根据每个检测框的倾斜角度对所述拍屏文件图片进行水平旋转，旋转角度大小为所有检测框的倾斜角度的平均值，并重新计算旋转后的拍屏文件图片的每个检测框的坐标，根据旋转后的拍屏文件图片的每个检测框的坐标将旋转后的拍屏文件图片裁剪为多个长条形图片。

8.根据权利要求7所述的装置，其特征在于，将所述多个长条形图片依次输入至第三卷积神经网络模型进行文字识别，将每一个长条形图片识别得到的文字依次相连后得到所述文本文件。

9.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时执行权利要求1-4之任一的方法。