CN114241407B

CN114241407B - 一种基于深度学习的近距离屏幕监控方法

Info

Publication number: CN114241407B
Application number: CN202111504793.7A
Authority: CN
Inventors: 杨路; 汪恺璇; 刘展望; 朱涛
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2023-05-23
Anticipated expiration: 2041-12-10
Also published as: CN114241407A

Abstract

本发明公开了一种基于深度学习的近距离屏幕监控方法，首先通过摄像头获取被监控屏幕的图像，并对其进行预处理；采用自适应的方法对从预处理后的屏幕图像进行近距离校正；并采用无监督的方法使用连接的三个W‑GAN网络从校正后的屏幕图像中分割出目标区域；采用DBNet的方法从分割出的目标区域中提取出所需数据文本的边框，获得相应的文本图像；后对文本图像进行识别，获得屏幕数据。本发明引用自适应的空间变化网络对近距离监测的文本进行校正，简单高效地实现了对医疗设备屏幕的监控，降低了医疗工作者设备监视的时间成本；使用三个W‑GAN网络采用无监督的方式完成目标区域的分割，有效的避免了图像中的背景对识别结果的干扰，降低了人工标记的时间成本。

Description

一种基于深度学习的近距离屏幕监控方法

技术领域

本发明涉及图像处理技术领域，具体为一种基于深度学习的近距离屏幕监控方法。

背景技术

近年来，人工智能在医疗卫生领域的应用变得日益流行。人工智能中的视觉图像识别技术在医疗场所中发挥着不可缺少的作用。其利用计算机及相关软硬件设备，通过对采集的图像信息进行特征信息提取，然后对图像进行相应的处理，可以为医疗工作人员提供相应的帮助。

传统医疗工作人员的工作中不仅仅需要对病人进行诊断，还需要对于一些特定的医疗设备进行长时间不断的监测。随着人们对于医疗越来越重视和目前人口老龄化、慢性病、新发突发传染病带来的医疗巨大挑战使得医疗工作者的工作负担增重，难以长时间不间断的进行设备的监测。传统的工作方式已经无法满足医疗工作者的需求。

随着深度学习在图像处理领域的快速发展，许多技术如OCR(Optical CharacterRecognition，光学字符识别)，图像识别等越来越成熟，已逐步应用到了医疗领域中，比如医学影像识别，辅助诊断等。它们在一定程度上减少了医疗工作者的压力并且提高了疾病的筛查和临床诊断能力。

但是，鉴于医疗设备上的监控问题一直没有很好的解决。医疗工作者每天在设备监控上尤其是重要的设备上花费了大量的时间与精力，极大的影响了医疗工作者的作用效率。

发明内容

针对上述问题，本发明的目的在于提供一种基于深度学习的近距离屏幕监控方法，能够简单高效地解决医疗工作者精力不足问题，大大提高医疗工作者的工作效率。技术方案如下：

一种基于深度学习的近距离屏幕监控方法，包括以下步骤：

步骤1：通过摄像头获取被监控屏幕的图像，并对屏幕图像进行预处理；

步骤2：近距离校正：采用自适应的方法对从预处理后的屏幕图像进行近距离校正；

步骤3：目标区域分割：采用无监督的方法使用连接的三个W-GAN网络从校正后的屏幕图像中分割出目标区域；

步骤4：所需文本区域检测：采用DBNet的方法从分割出的目标区域中提取出所需数据文本的边框，获得相应的文本图像；

步骤5：对文本图像进行识别，获得屏幕数据。

进一步，所述步骤2具体为：

步骤2.1：将预处理后的屏幕图像作为输入，对其进行卷积操作，然后全连接回归出空间变换系数；

步骤2.2：将变化后的目标图片的每个像素坐标位置通过矩阵运算的方式，与得到的仿射变换矩阵系数矩阵进行矩阵运算，计算出目标图片中的每个像素坐标位置所对应的原图片的坐标位置；矩阵变化公式如下：

其中，

和/>

表示原始图片的坐标，/>

和/>

表示目标图片的坐标，A_θ表示通过全连接所得到的仿射变换的系数，θ₁₁、θ₁₂、θ₁₃、θ₂₁、θ₂₂和θ₂₃为具体的6个仿射系数；

步骤2.3：根据所得到的原始像素坐标的位置信息，在原始图片中进行采样，采取双线性插值的方法，将原始图片中的像素复制到目标图片中去，得到校正后的屏幕图像。

更进一步的，所述步骤3具体为：

步骤3.1：训练第一个W-GAN网络建立原始图像和其边缘图像的映射：

将校正后的文本图像输入，使用Sobel算法获得输入图像的边缘图像，使用获得的边缘图像训练边缘图像的生成器，并在使用Sobel算法获得的边缘图片中添加高斯噪声；W-GAN的损失函数如下：

其中，θ_G，θ_D表示生成器和判别器的参数，e为使用Sobel算法生成的边缘图像，z为生成器生成的边缘图像；E_e～Pe和

分别表示判别器判断真实边缘图片和生成边缘图片的期望；D(e)和D(z)分别表示判别器判断真实图片和生成图片为真实图片的概率；

步骤3.2：训练第二个W-GAN网络建立边缘图像和分割后的边缘图像的映射：

将方形框和颜色差作为分割的先验信息，构造出理想分割后的边缘图像；

将构造的理想边缘图片与步骤3.1：生成的边缘图像进行融合，生成用来训练的图片：

Mixed＝α*edge+(1-α)*groundtruth

其中，Mixed表示融合后的图片，edge表示第一步生成的边缘图片，groundtruth表示生成的理想分割后的边缘图片，α为比例参数；

步骤3.3：训练第三个W-GAN网络建立原始图像和其分割后的边缘图像的映射：

将原始图像作为生成器的输入，分割后的边缘图像作为判断器的判断条件，训练第三个W-GAN网络，直接得到原始图像和分割后的边缘图像的映射；

总的损失函数定义如下：

其中，x为原始图像，G₁为第一个W-GAN网络的生成器，G₂为第二个W-GAN网络的生成器；

表示判别器判断原始图像的期望

最终三个网络一起训练，得到原始图像到分割后图像的映射，获得分割后的目标区域图像。

更进一步的，所述DBNet的方法具体为：

将分割后的目标区域图像输入可微二值化网络，经过特征提取和上采样融合并concat操作后得到特征图F，然后使用特征图F预测出概率图P和阈值图T，最后通过P和T计算出近似二值图

通过得到的近似二值图来获取文本框；其中采用的二值化的公式为：

其中，

表示近似的二值图，/>

为二值图中像素点(i,j)的值；P是生成的概率图，P_i,j为像素图中像素点(i,j)的值；T是生成的阈值图，T_i,j为阈值图中像素点(i,j)的值；k为放大系数。

更进一步的，所述步骤5具体为：

在自适应变化网络连接CRNN模型对文本图像进行OCR识别，得到所需的屏幕数据；CRNN的步骤为：首先将输入的文本图像通过CNN层进行缩放处理，使之保持相同高度，然后通过卷积运算提取出特征序列，得到的特征序列通过双向LSTM循环神经网络，预测特征序列中的每一个特征向量的标签分布；最后将LSTM网络预测的特征序列的结果通过CTC层进行整合，转换为最终输出的结果。

本发明的有益效果是：

1)本发明设计智能相机的装置提供对医疗设备的相关监控方法，可大程度地降低医疗工作者在医疗设备屏幕检测上所花的时间，进行定时的文件传输工作，便于医疗工作者统计医疗设备的数据，方便调查病人情况；同时，通过自适应的空间变化网络的引用，校正了近距离监控所带来的影响，解决了屏幕监控中实际存在的问题，即摄像头与屏幕之间的角度和距离对OCR产生的影响，拓宽了该方法的实际应用范围；

2)更重要的使用连接的三个W-GAN网络采用无监督的方式，三个网络分别负责不同的功能，最终实现了端到端的效果，输入原图像，输出分割后的图像。该技术的特别之处在于，利用目标区域的形状先验，将目标区域的形状和原始图片的边缘信息结合，使用GAN生成分割后的图片进行网络的训练。同时，还可以通过调节目标区域的位置，通过GAN生成更多的训练数据，实际的训练数据会多于拥有的原始数据，实现了数据增强。使用该方法，进行无监督分割的效果和有监督方法的效果相差不大，但是有效的避免图像中的背景对识别结果的干扰，大大降低人工标记所需的时间和成本。

附图说明

图1为本发明基于深度学习的近距离屏幕监控方法的流程图。

图2为本发明基于深度学习的近距离屏幕监控方法的监测设备示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步详细说明。一种基于机器学习的近距离屏幕监测方法，流程图如图1所示，具体步骤如下：

步骤1：通过摄像头获取被监控屏幕的图像，并对屏幕图像进行预处理。

如图2所示，监测设备包括摄像头，主机芯片等，基于机器学习和OCR技术，对屏幕进行近距离的识别。不需要医疗工作者长时间的监控，简单高效地解决了医疗工作者精力不足问题，大大提高了医疗工作者的工作效率。

本实施例选择具有计算和监控能力的智能相机，将其固定在屏幕上，进行近距离屏幕的监控。该设备具体为一个摄像头与具有计算功能的主机芯片通过USB线相连，并且摄像头可以通过金属软管伸出设备，金属软管可以拉伸，使得摄像头可以自由移动，与主机相连USB线固定在金属软管内。该装置下方有固定的支架，通过支架可以将该装置固定在医疗设备的屏幕上，通过可以拉伸的金属软管固定摄像头的位置，使其对屏幕进行实时监控。

本实施例的主机主要为一个具有较强计算功能的芯片，可以独立地进行运算。摄像头可以通过金属软管自由调整距离和角度，使得与被监控的屏幕的距离小于0.5m。金属软管为波纹金属软管，具有较好的柔软性，抗疲劳性和承压高的特点。

并对屏幕图像进行预处理具体为：摄像头获得屏幕图片后，对原始图片进行双边滤波，在保护图片边缘信息的同时去除图片中大部分噪声干扰。除此自外，考虑到环境光照的影响，对获得的图片进行局部自适应对比度增强，使得目标区域的信息更加清晰，便于识别。

步骤2：近距离校正：采用自适应的方法对从预处理后的屏幕图像进行近距离校正。

由于近距离监测屏幕，会使得所得到的屏幕图像出现一定的空间变化，因而采用自适应的方法对其进行校正。

由于该智能相机的摄像头需要近距离地监测屏幕而且为了不影响医疗人员正常工作，摄像头无法正对的屏幕，会倾斜一定的角度，因而导致屏幕图像会产生一定的形变。因此需要对由步骤1得到的预处理后的屏幕图像进行矫正。考虑到摄像头的角度和距离的影响，屏幕中的文字会相应地进行缩放和旋转的拉伸，该问题的具体情形相当于文本进行了平移，旋转，缩放等仿射变换，我们可以通过自适应的空间变化网络对其进行相应的矫正。将得到的屏幕图像作为自适应变化网络的输入，输出即为矫正后的文本图像。该网络可以通过一定的训练后，对于新的屏幕图像可以自动的进行校正，无需单独对其进行训练，具体原理如下：

首先，将屏幕图像作为输入，对其进行卷积操作，然后全连接回归出空间变换系数。由于是对仿射变换进行校正，因为会产生6个参数。

其次将变化后的目标图片的每个像素坐标位置通过矩阵运算的方式，与得到的仿射变换矩阵系数矩阵进行矩阵运算，计算出目标图片中的每个像素坐标位置所对应的原图片的坐标位置。矩阵变化公式如下：

其中，

和/>

表示原始图片的坐标，/>

和/>

表示目标图片的坐标，A_θ表示通过全连接所得到的仿射变换的系数，θ₁₁、θ₁₂、θ₁₃、θ₂₁、θ₂₂和θ₂₃为具体的6个仿射系数。

最后，根据所得到的原始像素坐标的位置信息，在原始图片中进行采样，采取双线性插值的方法，将原始图片中的像素复制到目标图片中去，可以得到校正后的屏幕图像。

步骤3：目标区域分割：采用无监督的方法使用连接的三个W-GAN网络从校正后的屏幕图像中分割出目标区域。由于屏幕图像中，除了需要识别的文本还有无关的文本信息，会使得最后识别的结果存在无关信息，因此采用无监督的方法对目标区域进行分割。

在获得的校正后的屏幕图像中，除了目标信息，还有许多无关信息，同时图像中的背景也会对识别结果存在干扰，因此需要在校正之后的图像中分割出目标信息所在的区域。由于没有现成的数据集可以使用，人工标记需要大量时间和成本，所以采用无监督的方式，完成目标区域的分割，使用连接的三个W-GAN完成不同的任务，具体原理如下：

(1)建立原始图像和其边缘图像的映射：

首先，将校正后的屏幕图像输入，使用Sobel算法获得输入图像的边缘图像，使用获得的边缘图像训练边缘图像的生成器。为了增加生成图像的多样性和复杂性，会在使用Sobel算法获得的边缘图片中添加高斯噪声。W-GAN的损失函数如下：

其中，θ_G，θ_D表示生成器和判别器的参数，x为使用Sobel算法生成的边缘图像，z为生成器生成的边缘图像。最终，W-GAN可以建立原始图片和边缘图片的映射

(2)建立边缘图像和分割后的边缘图像的映射：

第一步生成的边缘图像包含了太多无关的信息，无法直接得到分割后的边缘图像。

但是屏幕中目标信息都位于方形框中，而且和背景区域颜色亮度都有比较清楚的区分，因此将方形框和颜色差作为分割的先验信息，构造出理想分割后的边缘图像。

将构造的理想边缘图片与第一步生成的边缘图像进行融合，生成用来训练的图片：

Mixed＝α*edge+(1-α)*groundtruth

其中，Mixed表示融合后的图片，edge表示第一步生成的边缘图片，groundtruth表示生成的理想分割后的边缘图片，α为比例参数，由于理想分割图片更加重要，因此比例参数的取值应该比较小。

融合后的图片不仅包含了原始图片的信息，也包含了理想分割图片的信息。使用融合的图片，训练第二个W-GAN网络，得到边缘图像和分割后的边缘图像的映射

(3)建立原始图像和其分割后的边缘图像的映射：

经过第二步已经获得了分割后的边缘图像的映射，将原始图像作为生成器的输入，分割后的边缘图像作为判断器的判断条件，训练第三个W-GAN网络，直接得到原始图像和分割后的边缘图像的映射。

在整个目标区域分割算法中，三个W-GAN网络分别完成不同的任务，但又相互依赖。因此在训练过程中，首先分别训练三个网络，训练到一定程度后，三个网络一起训练，这样才能达到一致性的效果。总的损失函数定义如下：

其中，x为原始图像，G₁为第一个W-GAN网络的生成器，G₂为第二个W-GAN网络的生成器。最终，三个网络一起训练，得到原始图像到分割后图像的映射，获得了分割后的图像。

步骤4：所需文本区域检测：采用DBNet的方法从分割出的目标区域中提取出所需数据文本的边框，获得相应的文本图像。

采用DBNet的方法从分割出的目标区域中提取出所需数据文本的边框，获得相应的文本图像。DBNet的方法具体为将图片输入网络，经过特征提取和上采样融合并concat操作后得到特征图F，然后使用F预测出概率图P和阈值图T，最后通过P和T计算出近似二值图

通过得到的近似二值图来获取文本框。DBNet的优点是对每一个像素点进行自适应二值化，二值化的阈值由网络得到，将其加入网络中训练，因而输出图像对于阈值会非常鲁棒。其中采用的二值化的公式为：

其中，

表示近似的二值图，P是生成的概率图，T是生成的阈值图。

步骤5：对文本图像进行识别，获得屏幕数据。

在自适应变化网络连接CRNN模型对分割后的文本图像进行OCR识别，得到所需的屏幕数据。CRNN的步骤为：首先将文本图像通过CNN层进行缩放处理，使之保持相同高度，然后通过卷积运算提取出特征序列。然后得到的特征序列通过双向LSTM循环神经网络，预测特征序列中的每一个特征向量的标签分布。采用双向LSTM循环神经网络可以更加充分地利用上下文的信息，并且可以一定程度上提升识别的准确率。最后将LSTM网络预测的特征序列的结果通过CTC层进行整合，转换为最终输出的结果。