CN115588207A - 一种基于ocr的监控视频日期识别方法 - Google Patents

一种基于ocr的监控视频日期识别方法 Download PDF

Info

Publication number
CN115588207A
CN115588207A CN202211252189.4A CN202211252189A CN115588207A CN 115588207 A CN115588207 A CN 115588207A CN 202211252189 A CN202211252189 A CN 202211252189A CN 115588207 A CN115588207 A CN 115588207A
Authority
CN
China
Prior art keywords
ocr
network model
recognition
crnn
yolov4
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211252189.4A
Other languages
English (en)
Inventor
曹新东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Zhuosi Zhitong Technology Co ltd
Original Assignee
Chengdu Zhuosi Zhitong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Zhuosi Zhitong Technology Co ltd filed Critical Chengdu Zhuosi Zhitong Technology Co ltd
Priority to CN202211252189.4A priority Critical patent/CN115588207A/zh
Publication of CN115588207A publication Critical patent/CN115588207A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及一种基于OCR的监控视频日期识别方法,属于智能模型分析领域,所述日期识别方法包括:S1、通过改进后的YOLOv4‑tiny网络模型对获取的视频画面中的时间字符串进行检测;S2、通过CRNN网络模型对YOLOv4‑tiny网络模型检测得到的时间字符串依次进行特征提取和OCR识别;S3、根据视频画面业务逻辑规则对CRNN识别结果进行过滤校正,以提高识别结果。本发明的优点在于:通过YOLOv4‑tiny对时间字符串达到了99.6%mAP的检测性能,通过CRNN模型使用MobileNetv3轻量化网络提取图像特征,并使用双向LSTM模块来实现文字识别,其准确率达到97.43%。

Description

一种基于OCR的监控视频日期识别方法
技术领域
本发明涉及智能模型分析领域,尤其涉及一种基于OCR的监控视频日期识别方法。
背景技术
由于视频监控录像文件仅有内部相对时间戳,文件本身编码中并不携带真实时间戳,仅在视频画面中以OSD字幕叠加的方式,将真实时间叠加在画面中,在某些场景下需要以批量方式自动取得视频监控录像文件的真实起止时间,而现有的OCR技术对于如图1困难样本示意图中的字体变色、条纹干扰、前背景同黑、前背景同白、特殊字体、逻辑错误和花纹干扰等情况识别效果较差,导致整体识别准确性较低。
发明内容
本发明的目的在于克服现有技术的缺点,提供了一种基于OCR的监控视频日期识别方法,解决了现有OCR技术存在的问题。
本发明的目的通过以下技术方案来实现:一种基于OCR的监控视频日期识别方法,所述日期识别方法包括:
S1、通过改进后的YOLOv4-tiny网络模型对获取的视频画面中的时间字符串进行检测;
S2、通过CRNN网络模型对YOLOv4-tiny网络模型检测得到的时间字符串依次进行特征提取和OCR识别;
S3、根据视频画面业务逻辑规则对CRNN识别结果进行过滤校正,以提高识别结果。
所述YOLOv4-tiny网络模型的改进包括将CIOU Loss损失函数替换原始YOLOv4-tiny网络模型中的目标定位损失,CIOU Loss损失函数为
Figure BDA0003888272330000011
其中,b为预测目标框,bgt为真实目标框,ρ(b,bgt)预测目标框与真实目标框中心点之间的欧几里得距离,c代表预测框与真实框之间最小闭包的对角线长度,IOU代表预测框与真实框之间的交并比,v代表真实框和预测框宽高比一致性参数,β代表trade-off参数。
所述CRNN网络模型包括一个3×3卷积层、三个3×3深度可分离卷积模块、一个5×5深度可分离卷积模块、全局平均池化层和双向LSTM模块;输入的时间字符串检测结果图像依次经过一个3×3卷积层、三个3×3深度可分离卷积模块、一个5×5深度可分离卷积模块和全局平均池化层进行特征提取后再通过双向LSTM模块进行OCR识别。
所述根据视频画面业务逻辑规则对CRNN识别结果进行过滤校正包括:根据每个字符串位置的字符取值范围对识别结果进行字符范围校验,并对识别结果与取值范围之间进行相似值匹配修正。
所述CRNN网络模型在训练过程中使用改进的CTC损失函数进行训练,CTC损失函数为
Figure BDA0003888272330000021
其中,xt为第t时间步的特征,cyt为第t时间步特征对应的分类。
本发明具有以下优点:一种基于OCR的监控视频日期识别方法,通过YOLOv4-tiny对时间字符串达到了99.6%mAP的检测性能,通过CRNN模型使用MobileNetv3轻量化网络提取图像特征,并使用双向LSTM模块来实现文字识别,其准确率达到97.43%。
附图说明
图1为困难样本示意图;
图2为本发明的流程示意图;
图3为YOLOv4-tiny网络模型的结构图;
图4为CRNN网络模型的结构图;
图5为视频画面业务逻辑规则示意图1;
图6为视频画面业务逻辑规则示意图2。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下结合附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的保护范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。下面结合附图对本发明做进一步的描述。
如图2所示,本发明涉及一种基于OCR的监控视频日期识别方法,其具体包括以下内容:
S1、通过改进后的YOLOv4-tiny网络模型对获取的视频画面中的时间字符串进行检测;
进一步地,如图3所示,利用YOLOv4-tiny对视频画面中的时间字符串进行检测,为了更准确定位目标,利用CIOU Loss替换原始YOLOv4-tiny中目标定位损失,CIOU Loss函数的公式为
Figure BDA0003888272330000031
其中b为预测目标框,bgt为真实目标框,ρ(b,bgt)预测目标框与真实目标框中心点之间的欧几里得距离。c代表预测框与真实框之间最小闭包的对角线长度。IOU代表预测框与真实框之间的交并比。v代表真实框和预测框宽高比一致性参数,β代表trade-off参数。
YOLOv4-tiny的损失函数中其余部分主要分为置信度C的损失函数Lconf和目标框的分类损失函数Lcls。损失函数的公式如下:
Figure BDA0003888272330000032
Figure BDA0003888272330000033
Lloc=LCIOU
LdetL=Lloc+Lconf+Lcls
S2、通过CRNN网络模型对YOLOv4-tiny网络模型检测得到的时间字符串依次进行特征提取和OCR识别;
进一步地,利用CRNN对YOLOv4-tiny检测得到时间字符串下图进行识别,为了实现实时识别,CRNN使用MobileNetv3作为backbone,其中深度可分离卷积模块中使用swish激活函数和SE注意力机制,其网络架构图如图4所示。其中图4中的3×3和5×5代表卷积层或者深度可分离卷积模块的中卷积层的卷积核。在图4中,GAP代表全局平均池化层,FC代表全连接层,ReLU代表ReLU激活函数,h-sigmoid代表Hard Sigmoid激活函数。然后将MobileNetv3提取得到特征送入双向LSTM模块进行OCR识别,在训练过程中使用改进的CTC损失,其损失函数公式为
Figure BDA0003888272330000034
其中xt为第t时间步的特征,cyt为第t时间步特征对应的分类。
S3、根据视频画面业务逻辑规则对CRNN识别结果进行过滤校正,以提高识别结果。
进一步地,为了进一步提高模型识别结果的准确率,尤其是在图1中所展示的极端困难场景,在CRNN完成时间字符串识别后,再利用视频画面业务逻辑规则做进一步校正。由于本算法仅仅检测年月日和时分秒字符串,由于年月日字符串格式因摄像头而异,因此首先根据正则表达式获取年、月和日的子字符串然后转换成“yyyy-mm-dd”格式的年月日字符串,例如“2022-08-29”。时分秒字符串在不同摄像头中格式均为“HH:MM:SS”统一格式,例如“10:11:12”,因此无需再做格式转换。对于统一格式的年月日和时分秒字符串,每个字串位置都有其字符取值范围,对前序算法识别结果进行字符范围校验,并对识别结果与取值范围之间进行相似值匹配修正。具体视频画面业务逻辑校正规则如下:月的十位范围为0-1,日的十位范围为0-3,时分秒的个位范围为0-9,时的十位范围为0-2,分的十位范围为0-5,秒的十位范围为0-5。因此时的十位若识别成3-6或者8则强制转化为0,若识别成7、9或/则强制转化1;分的十位若识别成3-6则强制转化为0,若识别成7、9或/则强制转化1,若识别成8则随机转化为0或者3;秒的十位若识别成3-6则强制转化为0,若识别成7、9或/则强制转化1,若识别成8则随机转化为0或者3;月的十位若识别成3-6或者8则强制转化为0,若识别成7、9或/则强制转化1;日的十位若识别成3-6则强制转化为0,若识别成7、9或/则强制转化1,若识别成8则随机转化为0或者3。例如:如月份首位字符的前序识别结果为7,由于该字段只有0和1两种取值,则识别结果经业务规则逻辑修正为1;同时分和秒为60进制,其首位字符取值区间为0至5,如识别到了其它字符,则将其按照规则进行修正,例如识别到了6、8、9则修正为0、识别到了7则强制修正为1。上述视频画面业务逻辑规则示意图如图5和图6所示。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (5)

1.一种基于OCR的监控视频日期识别方法,其特征在于:所述日期识别方法包括:
S1、通过改进后的YOLOv4-tiny网络模型对获取的视频画面中的时间字符串进行检测;
S2、通过CRNN网络模型对YOLOv4-tiny网络模型检测得到的时间字符串依次进行特征提取和OCR识别;
S3、根据视频画面业务逻辑规则对CRNN识别结果进行过滤校正,以提高识别结果。
2.根据权利要求1所述的一种基于OCR的监控视频日期识别方法,其特征在于:所述YOLOv4-tiny网络模型的改进包括将CIOU Loss损失函数替换原始YOLOv4-tiny网络模型中的目标定位损失,CIOU Loss损失函数为
Figure FDA0003888272320000011
其中,b为预测目标框,bgt为真实目标框,ρ(b,bgt)预测目标框与真实目标框中心点之间的欧几里得距离,c代表预测框与真实框之间最小闭包的对角线长度,IOU代表预测框与真实框之间的交并比,v代表真实框和预测框宽高比一致性参数,β代表trade-off参数。
3.根据权利要求1所述的一种基于OCR的监控视频日期识别方法,其特征在于:所述CRNN网络模型包括一个3×3卷积层、三个3×3深度可分离卷积模块、一个5×5深度可分离卷积模块、全局平均池化层和双向LSTM模块;输入的时间字符串检测结果图像依次经过一个3×3卷积层、三个3×3深度可分离卷积模块、一个5×5深度可分离卷积模块和全局平均池化层进行特征提取后再通过双向LSTM模块进行OCR识别。
4.根据权利要求1所述的一种基于OCR的监控视频日期识别方法,其特征在于:所述根据视频画面业务逻辑规则对CRNN识别结果进行过滤校正包括:根据每个字符串位置的字符取值范围对识别结果进行字符范围校验,并对识别结果与取值范围之间进行相似值匹配修正。
5.根据权利要求3所述的一种基于OCR的监控视频日期识别方法,其特征在于:所述CRNN网络模型在训练过程中使用改进的CTC损失函数进行训练,CTC损失函数为
Figure FDA0003888272320000012
其中,xt为第t时间步的特征,cyt为第t时间步特征对应的分类。
CN202211252189.4A 2022-10-13 2022-10-13 一种基于ocr的监控视频日期识别方法 Pending CN115588207A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211252189.4A CN115588207A (zh) 2022-10-13 2022-10-13 一种基于ocr的监控视频日期识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211252189.4A CN115588207A (zh) 2022-10-13 2022-10-13 一种基于ocr的监控视频日期识别方法

Publications (1)

Publication Number Publication Date
CN115588207A true CN115588207A (zh) 2023-01-10

Family

ID=84779049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211252189.4A Pending CN115588207A (zh) 2022-10-13 2022-10-13 一种基于ocr的监控视频日期识别方法

Country Status (1)

Country Link
CN (1) CN115588207A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117094999A (zh) * 2023-10-19 2023-11-21 南京航空航天大学 一种跨尺度缺陷检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111105549A (zh) * 2019-12-19 2020-05-05 紫光云(南京)数字技术有限公司 光学字符识别方法、装置及计算机存储介质
CN113822880A (zh) * 2021-11-22 2021-12-21 中南大学 一种基于深度学习的裂缝识别方法
CN114419583A (zh) * 2022-01-05 2022-04-29 西安电子科技大学 一种大尺度特征的YOLOv4-tiny目标检测算法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111105549A (zh) * 2019-12-19 2020-05-05 紫光云(南京)数字技术有限公司 光学字符识别方法、装置及计算机存储介质
CN113822880A (zh) * 2021-11-22 2021-12-21 中南大学 一种基于深度学习的裂缝识别方法
CN114419583A (zh) * 2022-01-05 2022-04-29 西安电子科技大学 一种大尺度特征的YOLOv4-tiny目标检测算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
何杰等: "《道路交通安全分析方法体系与应用》", 28 February 2022, pages: 250 - 252 *
达观数据: "《智能RPA实战》", 30 June 2020, pages: 76 - 77 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117094999A (zh) * 2023-10-19 2023-11-21 南京航空航天大学 一种跨尺度缺陷检测方法
CN117094999B (zh) * 2023-10-19 2023-12-22 南京航空航天大学 一种跨尺度缺陷检测方法

Similar Documents

Publication Publication Date Title
WO2021142902A1 (zh) 基于DANet的无人机海岸线漂浮垃圾巡检系统
CN110969160B (zh) 一种基于深度学习的车牌图像校正、识别方法及系统
CN111414887B (zh) 基于yolov3算法的二次检测口罩人脸识别方法
CN109886161B (zh) 一种基于可能性聚类和卷积神经网络的道路交通标识识别方法
CN115994230A (zh) 一种融合人工智能和知识图谱技术的智慧档案构建方法
CN112766056B (zh) 一种基于深度神经网络的弱光环境车道线检测方法、装置
CN111444801A (zh) 一种无人机红外目标实时检测方法
CN112819837B (zh) 一种基于多源异构遥感影像的语义分割方法
CN115588207A (zh) 一种基于ocr的监控视频日期识别方法
Surekha et al. AUTOMATIC LICENSE PLATE RECOGNITION USING IMAGE PROCESSING AND NEURAL NETWORK.
Nejati et al. License plate recognition based on edge histogram analysis and classifier ensemble
CN115661569A (zh) 一种高精度的细粒度sar目标检测方法
CN111126303B (zh) 一种面向智能停车的多车位检测方法
CN116824726A (zh) 一种校园环境智能巡检方法及系统
CN116229347A (zh) 一种人群安全异常事件识别方法
Qu et al. Intelligent maritime surveillance framework driven by fusion of camera-based vessel detection and AIS data
CN114463800A (zh) 基于广义交并比的多尺度特征融合人脸检测与分割方法
CN113011408A (zh) 多帧图片序列的字符识别、车辆识别码识别方法及系统
CN115587950B (zh) 一种微光增强色彩恢复方法
CN117274690A (zh) 一种基于多模态的弱监督目标定位方法
CN112016434A (zh) 一种基于注意力机制3d残差网络的镜头运动识别方法
CN115331238A (zh) 一种多元融合的船舶身份识别方法
CN115798008A (zh) 一种基于关键点矫正的快速人脸检测识别方法
Zhang et al. Chinese license plate recognition using machine and deep learning models
CN113903002A (zh) 基于塔吊下方人员检测模型的塔吊下方异常闯入检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination