CN109886978B

CN109886978B - 一种基于深度学习的端到端告警信息识别方法

Info

Publication number: CN109886978B
Application number: CN201910124684.9A
Authority: CN
Inventors: 胡星; 邹欣; 张衡; 张大贵; 张承模; 张庆伟; 王亮; 田恩勇; 毛强; 辛丽娜; 吴玉柱; 娄方旭; 王俊杰; 付航
Original assignee: Guizhou Power Grid Co Ltd
Current assignee: Guizhou Power Grid Co Ltd
Priority date: 2019-02-20
Filing date: 2019-02-20
Publication date: 2020-03-13
Anticipated expiration: 2039-02-20
Also published as: CN109886978A

Abstract

本发明公开了一种基于深度学习的端到端告警信息识别方法，包括以下步骤：截取视频帧图像，对图像进行预处理；按告警信息的行切割图像，得到包含每一行告警信息的图像片；分别对每一个图像片进行文本信息检测；基于端到端的深度学习算法对检测到的文本信息进行识别，得到告警信息识别结果。本发明主要针对变电运行智能辅助系统，对后台电子屏幕上按行显示的多行动态告警信息进行视频图像监控时，基于深度学习的端到端识别方法可以精准地识别所有告警信息，从而可以高效地获取电子屏幕上的告警信息，及时将信息反馈给数据分析系统，以供后续设备根据告警信息排除变电运行系统故障。

Description

一种基于深度学习的端到端告警信息识别方法

技术领域

本发明属于计算机视觉技术领域，尤其涉及一种基于深度学习的端到端告警信息识别方法。

背景技术

告警信息识别实际上就是识别拍摄到的视频图像中的文字信息，文字识别能够将文字高速、快效的输入到计算机系统，实现人机交互，减轻人们的劳动，将人力从枯燥冗杂的工作中解放出来，提高处理效率。

传统文字识别过程分为字符预处理、特征提取、模式分类几大模块，由于文字识别受到的影响因素多，比如背景和噪声复杂、字符结构本身复杂、字符种类多、相似字符多。特别是传统算法在字符预处理时由于光线以及字符间隔小会导致字符分割误差大，从而影响后续处理，以至于传统的文字识别方法的精确度无法满足实际应用的要求。

最近几年来随着深度学习的兴起及不断发展,特别是深度卷积神经网络、深度置信网络、层叠自动编码机、深度递归神经网络等深度模型在图像识别及计算机视觉各领域的大量突破性成果的涌现,相关的方法也被逐步应用到文字识别领域,并取得了不少突破性发展。而目前现有的基于深度学习的文字识别算法多用于单句文字或短语的识别，对于大篇幅的文字识别效果并不理想，存在识别准确率差等问题；针对传统算法的缺陷和现有的基于深度学习的文字识别算法的不足，进一步发明研究应用于电子屏幕上大篇幅按行显示的复杂告警信息识别技术是非常有必要的。

发明内容

本发明要解决的技术问题是：提供一种基于深度学习的端到端告警信息识别方法，以解决现有技术基于深度学习的文字识别算法多用于单句文字或短语的识别，对于大篇幅的文字识别效果并不理想存在识别准确率差等技术问题。

本发明的技术方案是：

一种基于深度学习的端到端告警信息识别方法，它包括：

步骤S1：图像预处理：首先，截取由固定相机拍摄的视频帧图像，并且用该相机拍摄标定板图像；然后根据标定板图像获取相机内参和畸变参数，并且根据参数矫正原图像；最后，在截取到的第一帧图像上标定实际告警信息区域的四个顶点，同时矫正由于拍摄角度造成的告警信息倾斜，获得矫正后的只包含告警信息的矩形区域；

步骤S2：采用水平投影算法对步骤S1获得的告警信息矩形区域图像进行水平投影，根据投影结果将告警信息图像按行分割，获得告警信息的行图像片；

步骤S3：采用传统算法阈值分割、形态学变换和连通域筛选检测出步骤S2获得的所有图像片中的文字区域；

步骤S4：采用结合卷积神经网络、注意力模型和循环神经网络的深度学习算法端到端识别步骤S3检测到的所有文字区域，获得一帧图像上的所有告警信息。

所述固定相机是固定在正对电子屏幕的位置，在拍摄过程中拍摄角度以及相机参数恒定不变，同时电子屏幕的位置固定不变。

所述步骤S1中进行图像预处理的具体步骤为：

步骤S1.1：截取视频帧图像，并且用相机拍摄一组标定板图像；

步骤S1.2：用标定板图像计算获得相机内参和畸变参数，根据参数矫正原图像；

步骤S1.3：在第一帧图像上标定告警信息所在的实际区域，保存该区域四个顶点的坐标信息，根据标定的顶点坐标对步骤S1.2校正后的图像进行透视变换，然后保留只包含告警信息的矩形区域，该区域内的告警信息按行水平显示。

所述步骤S3的具体步骤包括：

步骤S3.1：首先，对告警信息行图像片进行阈值分割；

步骤S3.2：然后，对阈值分割后的二值图进行形态学变换，将所有相邻的文字信息经膨胀形成连通区域，不同类别的告警信息形成不同的连通区域；

步骤S3.3：最后，经连通域筛选排除噪声信息干扰，得到只包含不同类别告警信息的连通域，获得每个类别告警信息所在的位置，即实现文字信息的检测。

步骤S4所述采用结合卷积神经网络、注意力模型和循环神经网络的深度学习算法端到端识别步骤S3检测到的所有文字区域，获得一帧图像上的所有告警信息的方法包括：

步骤S4.1：构建网络结构，该结构由卷积神经网络、注意力模型和循环神经网络构成，首先，卷积神经网络在整个网络结构前端，从输入的图片中提取特征；接着，注意力模型根据循环神经网络的隐藏状态以及卷积神经网络输出的特征计算出注意力权重；最后，将卷积神经网络输出的特征图谱与注意力权重结合起来，输入循环神经网络进行编码，得到整个字符集的概率分布，概率最高的编号所对应的字符为最后的识别结果；

步骤S4.2:训练深度学习模型：首先采集每个类别告警信息的图片组成训练集，制作数据集的图片来源于拍摄到的电子屏幕告警信息的视频图像，对原图片上的告警信息按类分割，获得的每幅图像只包含一类告警信息，最后获得的图像涵盖所有告警信息，并且数据集由这些子图像组成；在获得数据集之后分别对文字信息进行标记，一幅图像对应一个标签，并且统计告警信息字符集；最后使用数据集根据构建出的网络结构迭代训练深度学习模型；

步骤S4.3:识别告警信息：告警信息识别是一次按行识别每一类告警信息，输入为包含文字的告警信息图片，将这些图片输入到训练好的深度学习模型，输出为对应的文字序列；识别过程中无需将这些文字依次分割。

步骤S4.1中，从输入的图片中提取特征的表达式为：

f＝{f_i,j,c}

式中：f表示特征图谱，i，j表示在特征图谱中的位置，c表示通道数；

注意力权重的计算方法为：

注意力模型根据循环神经网络的隐藏状态计算得到注意力掩模，表示为：

式中，α_t,i,j表示注意力掩模，V_α表示一个向量，s_t表示循环神经网络的隐藏状态，f_i,j表示特征图谱中坐标为i，j处的特征，e_i、e_j分别表示坐标i，j的独热编码，W表示对应的参数；

结合卷积神经网络输出的特征计算出注意力权重：

u_t,c＝α_t,i,jf_i,j,c

式中，u_t,c表示注意力权重，α_t,i,j表示注意力掩模，f_i,j,c表示卷积神经网络输出的特征。

所述将卷积神经网络输出的特征图谱与注意力权重结合起来，输入循环神经网络进行编码，得到整个字符集的概率分布的方法为：

循环神经网络中加入了长短时记忆模块(LSTM)，使得循环神经网络可以对任意长度的序列进行操作，将卷积神经网络输出的特征图谱与注意力权重结合起来，输入循环神经网络进行编码，得到整个字符集的概率分布；循环神经网络在t时刻的输入表示为：

式中，

表示循环神经网络在t时刻的输入，

表示前一时刻预测出的字符的独热编码，u_t-1表示前一时刻的注意力权重，W表示对应参数；

循环神经网络的输出表示为：

式中，(o_t,s_t)表示循环神经网络的输出，

分别表示输入和上一时刻的隐藏状态；

经过softmax层得到对应字符集的概率分布：

表示字符集概率分布，o_t表示t时刻循环神经网络的输出，u_t表示t时刻注意力权重，W表示对应参数；

概率最高的编号所对应的字符为最后的识别结果：

c_t表示字符最后识别结果，

表示字符对应的概率分布。

本发明有益效果：

本发明具有较强的工程适用性，通过所提出的图像预处理可以得到只包含告警信息的图像区域，排除了其他信息的干扰，并且经畸变和倾斜矫正后可以使告警信息按行水平显示，为后续处理提供关键依据；按行分割图像，依次检测识别行图像片文字信息，可以排除其他告警信息的干扰，使得整个识别结果更加准确；采用结合卷积神经网络、注意力模型和循环神经网络的深度学习算法端到端的识别每类告警信息，避免了文字分割对识别准确率的影响，对字体颜色、模糊具有一定的鲁棒性，在网络中融合的注意力模型进一步提高了识别结果的准确率；解决了解决现有技术基于深度学习的文字识别算法多用于单句文字或短语的识别，对于大篇幅的文字识别效果并不理想存在识别准确率差等技术问题。

附图说明

图1是本发明流程示意图；

图2是本发明中融合注意力模型的深度学习网络结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施方式，进一步阐明本发明。应当理解，此处所描述的具体实施方式仅用于说明本发明而不用于限制本发明，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均属于本申请所附权利要求所限定的范围。

本发明提出一种基于深度学习的端到端告警信息识别方法，该方法针对变电运行智能辅助系统，对后台电子屏幕上大篇幅按行显示的复杂告警信息进行视频图像监控时，精准地检测和识别所有告警信息，从而可以高效地获取电子屏幕上的告警信息，及时将信息反馈给数据分析系统，以供后续设备根据告警信息做出相应处理，从而及时排除变电运行系统的故障。

在实施过程中关键是要构建结合卷积神经网络、注意力模型和循环神经网络的深度神经网络结构，实现端到端地识别每类告警信息，避免了文字分割对识别准确率的影响，对字体颜色、模糊具有一定的鲁棒性，在网络中融合的注意力模型进一步提高了识别结果的准确率。如图1所示是本发明中一种基于深度学习的端到端告警信息识别的整体框图的，具体实施过程包括以下步骤：

步骤S1：首先，截取由固定相机拍摄的视频帧图像，并且用该相机拍摄标定板图像；然后，根据标定板图像获取相机内参和畸变参数，并且根据参数矫正原图像；最后，在截取到的第一帧图像上标定实际告警信息区域的四个顶点，同时矫正由于拍摄角度造成的告警信息倾斜，获得矫正后的只包含告警信息的矩形区域。

步骤S2：采用水平投影算法对步骤S1获得的告警信息矩形区域图像进行水平投影，根据投影结果将告警信息图像按行分割，获得告警信息的行图像片。

步骤S3：采用传统算法阈值分割、形态学变换、连通域筛选等检测出步骤S2获得的所有图像片中的文字区域。

步骤S4：采用结合卷积神经网络、注意力模型和循环神经网络的深度学习算法端到端识别步骤S3检测到的所有文字，获得一帧图像上的所有告警信息。

以下详细说明本发明方法涉及的关键点：

(1)在获取视频图像时需要固定相机，将相机固定在正对电子屏幕的位置，能保证可以拍下屏幕中所有的告警信息，并且在拍摄过程中拍摄角度以及相机相关参数都恒定不变，同时电子屏幕的位置必须固定。

(2)图像中的告警信息按行近似水平显示，文字背景为黑色，字体颜色相对于黑色对比度高但具体不固定，文字内容包括数字、英文、汉字、标点符号，每一行告警信息包含几类告警信息，每类告警信息长度不一定。

(3)图像预处理时标定告警信息区域可以得到只包含告警信息的图像区域，排除了其他信息的干扰，并且只需要标定第一帧图像，后续其他帧图像不需要标定，因为电子屏幕和相机位置及相机参数保持不变，所以后续帧图像可以使用第一帧图像的标定点；对图像进行畸变和倾斜矫正后可以使告警信息按行水平显示，为后续的图像按行分割提供了关键性依据。

(4)采用水平投影的方法可以将大篇幅的告警信息分割成多行，分别对每一行进行后续处理，并且每一行的告警信息分多个类别，每类信息间的间隔距离明显比字间距大。这样按行分割图像，依次检测识别行图像片文字信息，可以排除其他告警信息的干扰，使得整个识别结果更加准确。

(5)检测文字信息具体包括：首先，对告警信息行图像片进行阈值分割，由于黑色背景和文字的对比度高，阈值分割的效果好；然后，对阈值分割后的二值图进行形态学变换，将所有相邻的文字信息经膨胀形成连通区域，不同类别的告警信息形成不同的连通区域；最后，经连通域筛选排除噪声信息干扰，得到只包含不同类别告警信息的连通域，因此获得每个类别告警信息所在的位置，即实现文字信息的检测。

(6)识别告警信息的过程具体被分为构建网络结构、训练深度学习模型和识别告警信息三个阶段。其中每次识别的对象是一类不定长度的告警信息，输出则是该类告警信息的文字信息。

(6-1)如图2所示是融合注意力模型的深度学习网络结构示意图构建网络结构，该结构主要由卷积神经网络、注意力模型和循环神经网络构成。

卷积神经网络在整个网络结构前端，它结合inception-v2,inception-v3以及inception-resnet-v2这三种卷积神经网络而组成，从输入的图片中提取特征，特征图谱可以表示为：

f＝{f_i,j,c}

其中，f表示特征图谱，i，j表示在特征图谱中的位置，c表示通道数。

注意力模型根据循环神经网络的隐藏状态可以计算得到注意力掩模，可以表示为：

其中，α_t,i,j表示注意力掩模，V_α表示一个向量，s_t表示循环神经网络的隐藏状态，f_i,j表示特征图谱中坐标为i，j处的特征，e_i、e_j分别表示坐标i，j的独热编码，W表示对应的参数。

结合卷积神经网络输出的特征计算出注意力权重：

u_t,c＝α_t,i,jf_i,j,c

其中，u_t,c表示注意力权重，α_t,i,j表示注意力掩模，f_i,j,c表示卷积神经网络输出的特征。

循环神经网络中加入了长短时记忆模块(LSTM)，使得循环神经网络可以对任意长度的序列进行操作。将卷积神经网络输出的特征图谱与注意力权重结合起来，输入循环神经网络进行编码，得到整个字符集的概率分布。循环神经网络在t时刻的输入可以表示为：

其中，

表示循环神经网络在t时刻的输入，

表示前一时刻预测出的字符的独热编码，u_t-1表示前一时刻的注意力权重，W表示对应参数。

循环神经网络的输出可以表示为：

其中，(o_t,s_t)表示循环神经网络的输出，

分别表示输入和上一时刻的隐藏状态。

而经过softmax层得到对应字符集的概率分布：

其中，

表示字符集概率分布，o_t表示t时刻循环神经网络的输出，u_t表示t时刻注意力权重，W表示对应参数。

概率最高的编号所对应的字符为最后的识别结果：

其中，c_t表示字符最后识别结果，

表示字符对应的概率分布

(6-2)训练阶段首先是采集每个类别告警信息的图片组成训练集，在本发明实施过程中制作数据集的图片来源于前期拍摄到的电子屏幕告警信息的视频图像，每一帧图像上有26行告警信息，每一行有8类告警信息。对原图片上的告警信息按类分割，获得的每幅图像只包含一类告警信息，一帧原图像可以获得208幅这样的子图像。最后获得的子图像涵盖所有告警信息，并且数据集由这些子图像组成。在获得数据集之后还需要分别对他们的文字信息进行标记，一幅图像对应一个标签。

告警信息中包含52类大小写英文字符，10类数字，11类标点符号，1000类中文字符，并且每类告警信息的字符个数不超过40。

最后使用数据集根据(6-1)构建出的网络结构迭代训练深度学习模型，迭代次数为20000次，使用最大似然估计来训练模型，似然函数为：

其中，T为输入图像所含文字的最大个数40，x是输入的图像，y_1:t-1表示输入图像对应标签上的字符，y_t是在t时刻的预测结果。如果预测出的字符个数小于40，那么其他的字符被预测为了空字符。p(y_t|y_1:t-1,x)为(6-1)中网络结构最后识别结果对应的概率值。在训练过程中最大化L，模型参数W在训练过程中不断优化，直到迭代周期结束，最终的模型参数和网络结构形成深度学习模型。

(6-3)告警信息识别阶段是一次按行识别每一类告警信息，输入为包含多个文字的不定长的告警信息图片，将这些图片输入到训练好的深度学习模型，输出为对应的文字序列。识别过程中无需将这些文字依次分割，以这种端到端的方式完成识别，可以排除字符分割效果对识别结果的影响。

本发明提出的基于深度学习的端到端告警信息识别方法，对电子屏幕上大篇幅按行显示的复杂告警信息可以实现精准地检测和识别，对文字的颜色、模糊具有良好的鲁棒性，从而可以高效地获取电子屏幕上的告警信息，及时将信息反馈给数据分析系统，以供后续设备根据告警信息做出相应处理。

Claims

1.一种基于深度学习的端到端告警信息识别方法，它包括：

步骤S4：采用结合卷积神经网络、注意力模型和循环神经网络的深度学习算法端到端识别步骤S3检测到的所有文字区域，获得一帧图像上的所有告警信息；具体步骤包括：

步骤S4.1中，从输入的图片中提取特征的表达式为：

f＝{f_i，j，c}

注意力权重的计算方法为：

式中，α_t，i，j表示注意力掩模，V_α表示一个向量，s_t表示循环神经网络的隐藏状态，f_i，j表示特征图谱中坐标为i，j处的特征，e_i、e_j分别表示坐标i，j的独热编码，W表示对应的参数；

结合卷积神经网络输出的特征计算出注意力权重：

u_t，c＝α_t，i，jf_i，j，c

式中，u_t，c表示注意力权重，α_t，i，j表示注意力掩模，f_i，j，c表示卷积神经网络输出的特征；

式中，

表示循环神经网络在t时刻的输入，

循环神经网络的输出表示为：

式中，(o_t，s_t)表示循环神经网络的输出，

分别表示输入和上一时刻的隐藏状态；

经过softmax层得到对应字符集的概率分布：

概率最高的编号所对应的字符为最后的识别结果：

c_t表示字符最后识别结果，

表示字符对应的概率分布；

步骤S4.2：训练深度学习模型：首先采集每个类别告警信息的图片组成训练集，制作数据集的图片来源于拍摄到的电子屏幕告警信息的视频图像，对原图片上的告警信息按类分割，获得的每幅图像只包含一类告警信息，最后获得的图像涵盖所有告警信息，并且数据集由这些子图像组成；在获得数据集之后分别对文字信息进行标记，一幅图像对应一个标签，并且统计告警信息字符集；最后使用数据集根据构建出的网络结构迭代训练深度学习模型；

步骤S4.3：识别告警信息：告警信息识别是一次按行识别每一类告警信息，输入为包含文字的告警信息图片，将这些图片输入到训练好的深度学习模型，输出为对应的文字序列；识别过程中无需将这些文字依次分割。

2.根据权利要求1所述一种基于深度学习的端到端告警信息识别方法，其特征在于：所述固定相机是固定在正对电子屏幕的位置，在拍摄过程中拍摄角度以及相机参数恒定不变，同时电子屏幕的位置固定不变。

3.根据权利要求1所述一种基于深度学习的端到端告警信息识别方法，其特征在于：所述步骤S1中进行图像预处理的具体步骤为：

4.根据权利要求1所述一种基于深度学习的端到端告警信息识别方法，其特征在于：所述步骤S3的具体步骤包括：

步骤S3.1：首先，对告警信息行图像片进行阈值分割；