CN115588207A

CN115588207A - 一种基于ocr的监控视频日期识别方法

Info

Publication number: CN115588207A
Application number: CN202211252189.4A
Authority: CN
Inventors: 曹新东
Original assignee: Chengdu Zhuosi Zhitong Technology Co ltd
Current assignee: Chengdu Zhuosi Zhitong Technology Co ltd
Priority date: 2022-10-13
Filing date: 2022-10-13
Publication date: 2023-01-10

Abstract

本发明涉及一种基于OCR的监控视频日期识别方法，属于智能模型分析领域，所述日期识别方法包括：S1、通过改进后的YOLOv4‑tiny网络模型对获取的视频画面中的时间字符串进行检测；S2、通过CRNN网络模型对YOLOv4‑tiny网络模型检测得到的时间字符串依次进行特征提取和OCR识别；S3、根据视频画面业务逻辑规则对CRNN识别结果进行过滤校正，以提高识别结果。本发明的优点在于：通过YOLOv4‑tiny对时间字符串达到了99.6％mAP的检测性能，通过CRNN模型使用MobileNetv3轻量化网络提取图像特征，并使用双向LSTM模块来实现文字识别，其准确率达到97.43％。

Description

一种基于OCR的监控视频日期识别方法

技术领域

本发明涉及智能模型分析领域，尤其涉及一种基于OCR的监控视频日期识别方法。

背景技术

由于视频监控录像文件仅有内部相对时间戳，文件本身编码中并不携带真实时间戳，仅在视频画面中以OSD字幕叠加的方式，将真实时间叠加在画面中，在某些场景下需要以批量方式自动取得视频监控录像文件的真实起止时间，而现有的OCR技术对于如图1困难样本示意图中的字体变色、条纹干扰、前背景同黑、前背景同白、特殊字体、逻辑错误和花纹干扰等情况识别效果较差，导致整体识别准确性较低。

发明内容

本发明的目的在于克服现有技术的缺点，提供了一种基于OCR的监控视频日期识别方法，解决了现有OCR技术存在的问题。

本发明的目的通过以下技术方案来实现：一种基于OCR的监控视频日期识别方法，所述日期识别方法包括：

S1、通过改进后的YOLOv4-tiny网络模型对获取的视频画面中的时间字符串进行检测；

S2、通过CRNN网络模型对YOLOv4-tiny网络模型检测得到的时间字符串依次进行特征提取和OCR识别；

S3、根据视频画面业务逻辑规则对CRNN识别结果进行过滤校正，以提高识别结果。

所述YOLOv4-tiny网络模型的改进包括将CIOU Loss损失函数替换原始YOLOv4-tiny网络模型中的目标定位损失，CIOU Loss损失函数为

其中，b为预测目标框，b^gt为真实目标框，ρ(b,b^gt)预测目标框与真实目标框中心点之间的欧几里得距离，c代表预测框与真实框之间最小闭包的对角线长度，IOU代表预测框与真实框之间的交并比，v代表真实框和预测框宽高比一致性参数，β代表trade-off参数。

所述CRNN网络模型包括一个3×3卷积层、三个3×3深度可分离卷积模块、一个5×5深度可分离卷积模块、全局平均池化层和双向LSTM模块；输入的时间字符串检测结果图像依次经过一个3×3卷积层、三个3×3深度可分离卷积模块、一个5×5深度可分离卷积模块和全局平均池化层进行特征提取后再通过双向LSTM模块进行OCR识别。

所述根据视频画面业务逻辑规则对CRNN识别结果进行过滤校正包括：根据每个字符串位置的字符取值范围对识别结果进行字符范围校验，并对识别结果与取值范围之间进行相似值匹配修正。

所述CRNN网络模型在训练过程中使用改进的CTC损失函数进行训练，CTC损失函数为

其中，x_t为第t时间步的特征，c_yt为第t时间步特征对应的分类。

本发明具有以下优点：一种基于OCR的监控视频日期识别方法，通过YOLOv4-tiny对时间字符串达到了99.6％mAP的检测性能，通过CRNN模型使用MobileNetv3轻量化网络提取图像特征，并使用双向LSTM模块来实现文字识别，其准确率达到97.43％。

附图说明

图1为困难样本示意图；

图2为本发明的流程示意图；

图3为YOLOv4-tiny网络模型的结构图；

图4为CRNN网络模型的结构图；

图5为视频画面业务逻辑规则示意图1；

图6为视频画面业务逻辑规则示意图2。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下结合附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的保护范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。下面结合附图对本发明做进一步的描述。

如图2所示，本发明涉及一种基于OCR的监控视频日期识别方法，其具体包括以下内容：

进一步地，如图3所示，利用YOLOv4-tiny对视频画面中的时间字符串进行检测，为了更准确定位目标，利用CIOU Loss替换原始YOLOv4-tiny中目标定位损失，CIOU Loss函数的公式为

其中b为预测目标框，b^gt为真实目标框，ρ(b,b^gt)预测目标框与真实目标框中心点之间的欧几里得距离。c代表预测框与真实框之间最小闭包的对角线长度。IOU代表预测框与真实框之间的交并比。v代表真实框和预测框宽高比一致性参数，β代表trade-off参数。

YOLOv4-tiny的损失函数中其余部分主要分为置信度C的损失函数L_conf和目标框的分类损失函数L_cls。损失函数的公式如下：

L_loc＝L_CIOU

L_detL＝L_loc+L_conf+L_cls

进一步地，利用CRNN对YOLOv4-tiny检测得到时间字符串下图进行识别，为了实现实时识别，CRNN使用MobileNetv3作为backbone，其中深度可分离卷积模块中使用swish激活函数和SE注意力机制，其网络架构图如图4所示。其中图4中的3×3和5×5代表卷积层或者深度可分离卷积模块的中卷积层的卷积核。在图4中，GAP代表全局平均池化层，FC代表全连接层，ReLU代表ReLU激活函数，h-sigmoid代表Hard Sigmoid激活函数。然后将MobileNetv3提取得到特征送入双向LSTM模块进行OCR识别，在训练过程中使用改进的CTC损失，其损失函数公式为

其中x_t为第t时间步的特征，c_yt为第t时间步特征对应的分类。

进一步地，为了进一步提高模型识别结果的准确率，尤其是在图1中所展示的极端困难场景，在CRNN完成时间字符串识别后，再利用视频画面业务逻辑规则做进一步校正。由于本算法仅仅检测年月日和时分秒字符串，由于年月日字符串格式因摄像头而异，因此首先根据正则表达式获取年、月和日的子字符串然后转换成“yyyy-mm-dd”格式的年月日字符串，例如“2022-08-29”。时分秒字符串在不同摄像头中格式均为“HH:MM:SS”统一格式，例如“10:11:12”,因此无需再做格式转换。对于统一格式的年月日和时分秒字符串，每个字串位置都有其字符取值范围，对前序算法识别结果进行字符范围校验，并对识别结果与取值范围之间进行相似值匹配修正。具体视频画面业务逻辑校正规则如下：月的十位范围为0-1，日的十位范围为0-3，时分秒的个位范围为0-9，时的十位范围为0-2，分的十位范围为0-5，秒的十位范围为0-5。因此时的十位若识别成3-6或者8则强制转化为0，若识别成7、9或/则强制转化1；分的十位若识别成3-6则强制转化为0，若识别成7、9或/则强制转化1，若识别成8则随机转化为0或者3；秒的十位若识别成3-6则强制转化为0，若识别成7、9或/则强制转化1，若识别成8则随机转化为0或者3；月的十位若识别成3-6或者8则强制转化为0，若识别成7、9或/则强制转化1；日的十位若识别成3-6则强制转化为0，若识别成7、9或/则强制转化1，若识别成8则随机转化为0或者3。例如：如月份首位字符的前序识别结果为7，由于该字段只有0和1两种取值，则识别结果经业务规则逻辑修正为1；同时分和秒为60进制，其首位字符取值区间为0至5，如识别到了其它字符，则将其按照规则进行修正，例如识别到了6、8、9则修正为0、识别到了7则强制修正为1。上述视频画面业务逻辑规则示意图如图5和图6所示。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于OCR的监控视频日期识别方法，其特征在于：所述日期识别方法包括：

2.根据权利要求1所述的一种基于OCR的监控视频日期识别方法，其特征在于：所述YOLOv4-tiny网络模型的改进包括将CIOU Loss损失函数替换原始YOLOv4-tiny网络模型中的目标定位损失，CIOU Loss损失函数为

3.根据权利要求1所述的一种基于OCR的监控视频日期识别方法，其特征在于：所述CRNN网络模型包括一个3×3卷积层、三个3×3深度可分离卷积模块、一个5×5深度可分离卷积模块、全局平均池化层和双向LSTM模块；输入的时间字符串检测结果图像依次经过一个3×3卷积层、三个3×3深度可分离卷积模块、一个5×5深度可分离卷积模块和全局平均池化层进行特征提取后再通过双向LSTM模块进行OCR识别。

4.根据权利要求1所述的一种基于OCR的监控视频日期识别方法，其特征在于：所述根据视频画面业务逻辑规则对CRNN识别结果进行过滤校正包括：根据每个字符串位置的字符取值范围对识别结果进行字符范围校验，并对识别结果与取值范围之间进行相似值匹配修正。

5.根据权利要求3所述的一种基于OCR的监控视频日期识别方法，其特征在于：所述CRNN网络模型在训练过程中使用改进的CTC损失函数进行训练，CTC损失函数为