CN111126378B

CN111126378B - 一种视频osd提取与覆盖区域重建的方法

Info

Publication number: CN111126378B
Application number: CN201911130292.XA
Authority: CN
Inventors: 杨工明; 李衡; 徐勇; 周子容; 叶隽毅; 李嘉仪
Original assignee: Hangzhou Yisheng Information Technology Co ltd
Current assignee: Hangzhou Yisheng Information Technology Co ltd
Priority date: 2019-11-18
Filing date: 2019-11-18
Publication date: 2022-04-15
Anticipated expiration: 2039-11-18
Also published as: CN111126378A

Abstract

本发明公开了一种视频OSD提取与覆盖区域重建的方法。本发明方法采用视频分析及前后帧时间推算、位置推算及插值等方法进行信息提取和矫正，并对提取信息后的原被OSD遮挡区域进行视频重建还原。本发明方法通过视图分析实现视频监控图像的OSD信息提取，通过前后帧识别数字比对进行时间推算，通过设定OCR识别准确度阈值告警，通过前后帧校验+识别准确度预警+人工辅助的手段收集的标定数据作为OCR模型训练的样本集，提高识别准确度，将OSD信息作为视图结构化送至后台的视图中进行视图大数据的数据挖掘，通过前后帧间隔平均法插值实现OSD区域的背景重建。本发明方法提高了识别准确性，以及OSD信息提取的可信度。

Description

一种视频OSD提取与覆盖区域重建的方法

技术领域

本发明属于电子监控技术领域，具体是视频智能识别与无线通讯的交叉技术领域，涉及一种视频OSD提取与覆盖区域重建的方法。

背景技术

OSD(On Screen Display)是应用在CRT/LCD显示器上，在显示器的荧幕中产生一些特殊的字形或图形，让使用者得到一些讯息。常见于家用电视机或个人PC电脑之显示荧幕上，当使用者操作电视机换台或调整音量、画质等，电视荧幕就会显示目前状态让使用者知道，此控制IC可在荧幕上的任何位置显示一些特殊字形与图形，成为人机界面上重要的讯息产生装置。作为一种视频字符叠加显示技术，将文字信息以悬浮的形式叠加在视频监控的图像中，在视频监控中，主要是指视频采集时间、点位位置属性信息、电围采集的手机号码等相关信息。

在视频监控中，为了在视频图像中显示摄像头的名称或位置、属性及摄录时间等信息，摄像机通过系统配置，将需要显示的信息的字符叠加在视频图像上，一般处于图像的上部。而摄像机的位置等属性信息处于图像的下部，也有处于其他位置。字符叠加的主要目的是为了让监看视频以及事后检索回放视频图像的时候清楚当时的信息。OSD为用户提供友好的人机界面，能够使用户获得更多的附加信息。

但是在复合型多维采集的前端设备中，除了视频图像的采集外，前端设备中的电子侦码设备还采集了当前场景中的人员持有手机的手机号、IMSI/IMEI等信息。当更多的手机号码相关信息需要叠加到视频图像中时，如果固定在一个位置可能会遮盖关键人脸。

从字符叠加的原理看，字符叠加实际上就是将指定位置的图像的像素值替换为待叠加字符图像的像素值，经编码输出的视频图像在该指定位置已经没有原始的视图信息，提取OSD实际上就是对视频图像中的文字信息进行文字识别，而OSD还原则必须采用其他还原手段进行被覆盖位置视频图像的模拟重构。

OCR(Optical Character Recognition，光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程，即文字识别。如中安未来科技的文字OCR识别技术，集成进媒资管理系统或者其他媒体管理系统，对要处理的视频文件进行OCR识别，并把识别结果与视频关键帧相对应。OCR的主要工作流程是：

(1).获取视频的高清图像：从视频流中提取视频帧，如选择关键帧。

(2).利用OCR识别技术进行字符的亮暗检测、分割等预处理步骤：灰度化(如果是彩色图像)、降噪、二值化(经过二值化后，图像只剩下两种颜色，即黑和白，其中一个是图像背景，另一个颜色即要识别的文字)、字符切分(将图像中的文字分割成单个文字——识别的时候是一个字一个字识别的，如果文字行有倾斜，还要进行倾斜校正)以及归一化(将单个的文字图像规整到相同尺寸，在同一个规格下，才能应用统一的算法)等步骤。

(3).特征提取和降维：特征是用来识别文字的关键信息，每个不同的文字都能通过特征来和其他文字进行区分。对于数字和英文字母来说，这个特征提取是比较容易的，因为数字只有10个，英文字母只有52个，都是小字符集。对于汉字来说，特征提取比较困难，因为首先汉字是大字符集，国标中光是最常用的第一级汉字就有3755个；第二个汉字结构复杂，形近字多。在确定了使用何种特征后，视情况而定，还有可能要进行特征降维，这种情况就是如果特征的维数太高，分类器的效率会受到很大的影响，为了提高识别速率，往往就要进行降维。

(4).分类器设计、训练和实际识别：分类器是用来进行识别的，当对一个文字图像，提取出特征后，丢给分类器，分类器就对其进行分类，告诉你这个特征该识别成哪个文字。在进行实际识别前，往往还要对分类器进行训练，这是一个监督学习的案例。

(5).后处理校对：后处理是用来对分类结果进行优化，因为分类器的分类有时候不一定是完全正确的(实际上也做不到完全正确)，比如对汉字的识别，由于汉字中形近字的存在，很容易将一个字识别成其形近字。后处理中可以去解决这个问题，比如通过语言模型来进行校正——如果分类器将“在哪里”识别成“存哪里”，通过语言模型会发现“存哪里”是错误的，然后进行校正。另外，OCR的识别图像往往是有大量文字的，而且这些文字存在排版、字体大小等复杂情况，后处理中可以尝试去对识别结果进行格式化，比如按照图像中的排版排列什么的，举个栗子，一张图像，其左半部分的文字和右半部分的文字毫无关系，而在字符切分过程中，往往是按行切分的，那么识别结果中左半部分的第一行后面会跟着右半部分的第一行诸如此类。

(6).图片文字识别输出双层PDF：第一层是透明的文本格式，可编辑可检索，第二层是图片。

采用OCR识别技术，在视频监控的图像中，由于部分OSD信息以悬浮形式叠加后与背景高度重叠，在文字检测识别的过程中无法准确识别，即使有的OSD技术采用了反色处理，依然无法准确、完全分离出OSD信息。

还可以采用电子围栏采集信息通过视频分析选择在视频中OSD叠加的位置。当摄像机通过人脸比对发现预先输入系统的布控人员时，在视频图像上跟踪标注出人像位置；通过联动电子围栏诱导附近的手机注册到电子围栏侦码基站，电子围栏侦码基站将捕获到的手机号码、IMSI、IMEI等信息反馈给该摄像机；摄像机将此信息以OSD动态叠加在未标注人像的空白位置，或者优选相对低频(即色差小，纹理小)的区域叠加OSD。从而，便于工作人员在做视频监控中可以直观地看到关于布控人员的相关信息。

在视频监控的OSD中，采用视频分析选择非人像位置或相对低频区域，会导致OSD信息位置不确定，甚至导致手机信息(可能采集多个手机信息)拆分叠加在不同位置；依然无法避免背景的高度重合。

发明内容

本发明的目的就是针对现有技术的不足，提供一种视频OSD提取与覆盖区域重建的方法，采用视频分析及前后帧时间推算、位置推算及插值等方法进行信息提取和矫正，并对提取信息后的原被OSD遮挡区域进行视频重建还原。

本发明方法包括：

(1)通过视图分析实现视频监控图像的OSD信息提取；

(2)通过前后帧识别数字比对进行时间推算，准确计算受到背景重合干扰的OSD信息；

(3)通过设定OCR识别准确度阈值告警，采用前后帧校验+识别准确度预警+人工辅助的手段进行OCR可信度提供的手段；

(4)通过前后帧校验+识别准确度预警+人工辅助的手段收集的标定数据作为OCR模型训练的样本集，提高识别准确度；

(5)通过借用行业标准GA/T1400.4-2017中规定的采集接口可以将OSD信息作为视图结构化送至后台的视图中进行视图大数据的数据挖掘；

(6)通过前后帧间隔平均法插值实现OSD区域的背景重建。

本发明方法具体包括：

(1).接收视频图像，选帧：监控视频通过标准协议或开放型网络视频接口论坛接口协议接入，获取视频资源列表后开通视频流通道进行视频流持续接入；后端系统对视频流进行解码和YUV信号转换，选择并提取视频帧；

(2).进行OCR文字识别：后台系统通过视频图像对图像中的固定位置进行文字区域提取；

当视频图像采用了基于视频智能分析，回避人脸位置在空白区域或低频区域进行OSD信息叠加的图像，则基于OCR的模式检测、识别技术进行文字信息识别和提取；

(3).前后帧推算，进行OSD信息校准：

视频图像中提取的OSD信息包括：摄像机点位地理位置信息、摄像时间信息、电围采集的手机信息；对三种OSD信息分别进行OSD信息校准：

a.摄像机点位地理位置信息：直接在系统启动配置时输入，后续不做改变；

b.摄像时间信息：系统采用前后帧时间互相校验的形式；当采用前向帧时，采用已知第前n帧时间t，则本帧时间为

当采用后向帧时，采用已知第后n帧时间t，则本帧时间为

v为帧率；

c.电围采集的手机信息：采用前后帧校验+识别相似度预警+人工辅助的手段；

(4).OSD信息数据搬移：

前端叠加的OSD信息经过后端识别后，以独立信息悬浮形式显示在桌面或大屏幕显示屏上，支持客户端直接对该字符信息的选择、拷贝；

将OSD信息以结构化信息记录的形式传送给公共安全领域规定存储在视频图像信息数据库，作为大数据资源提供给公安情报大数据的数据挖掘、分析研判；当需要回溯时，通过查询并提取记录当时的画面截图实现，通过OSD信息的唯一ID号进行关联查询，并利用OSD信息识别时间戳到视频存储系统中，进行录像回放；

(5).原始视频OSD信息叠加区域的背景重建：

视频监控画面的OSD信息提取后，作为独立数据搬移至视频图像的视窗外进行清晰显示，提取OSD信息后的原叠加OSD信息，叠加的区域通过背景重建的方法进行复原；

(6).实况视频的OSD重建：

后端系统在接受实况视频时，同时进行解码并做OCR文字识别，并将识别后的文字缓存；当遇到无法识别的视频帧，则进行OSD重建，然后编码视频帧，替换目前的视频帧；OSD信息计算出来后，后端根据当前视频帧的背景，选择对比度强烈的颜色重新叠加OSD文字，然后编码整个视频帧，替换原来的视频帧，位置与原来的位置相同；

当后端系统在回放历史视频时，如果前面的视频画面的OSD清晰可识别，则当遇到无法识别OSD的视频时，根据前面视频的OSD信息实时计算，并实时叠加到当前视频，位置与原来的位置相同；如果当前的视频帧就无法识别OSD，则暂停视频，自动搜索后面的视频帧，从后面的视频中提取清晰的OSD，然后计算当前视频的OSD信息，进行叠加，并继续回放视频。

进一步，电围采集的手机信息具体方法是：

(i).如果当前字符识别相似度大于等于设定的当前相似度阈值τ₁，则判为该字符识别结果可接受，直接采用，无需进行前后帧校验，该字符识别进程结束；

如果当前字符识别相似度小于设定的当前相似度阈值τ₁，则触发系统进行前后帧校验；

当前相似度阈值τ₁可调，70％≤τ₁≤90％；

(ii).在前后帧校验的字符识别中，如果后一帧的字符识别相似度大于等于设定的前后相似度阈值τ₂，则判后一帧的字符识别结果为可接受，直接采用后一帧的字符识别结果，该字符识别进程结束；

如果后一帧的字符识别相似度小于设定的前后相似度阈值τ₂，则判该字符识别结果为待定，并触发系统自动进入人工辅助识别流程，并对该条识别信息进行告警，将前后帧图像均发至待人工识别消息队列，提示人工辅助识别，由人工识别进行最后复核确认；

前后相似度阈值τ₂可调，70％≤τ₂≤90％；

(iii).当采用人工辅助识别时，结合前帧和后帧中进行人工识别，如果可以识别并确认该字符，则输入人工辅助确认信息，如依然无法准确识别，则输入人工无法识别的信息，该字符以空白框代替；经人工识别复核进程结束后，该字符识别进程结束；

(iv).经过人工辅助识别确认的记录作为一部分人工标定样本数据，同时另行存储一个备份，并提供给OCR系统作为样本集，进行字符识别模型的优化训练；所述的备份包括前后帧字符图片、前后帧字符识别相似度、人工字符识别结果。

本发明有益效果包括：

(1)视频图像的OSD信息是直观描述视图即时信息，提取OSD信息可以作为视图结构化信息的有效组成部分，作为视图大数据的重要信息，可以提供公安等作为数据挖掘；

(2)在OSD信息提取过程中，由于背景重合的干扰可能影响OSD信息提取的可信度，利用前后帧的校验可以进一步提高识别准确性，提高OSD信息提取的可信度；

(3)OSD区域的背景信息作为整个视图背景信息的重要组成部分有时也值得关注，通过利用前后帧间隔平均法插值实现背景的重建。

具体实施方式

本发明方法具体包括：

(1).接收视频图像，选帧：监控视频通过标准协议(如公共安全视频监控可采用国标GB/T28181-2016)或开放型网络视频接口论坛接口协议(ONVIF)接入，获取视频资源列表后开通视频流通道进行视频流持续接入；后端系统对视频流进行解码和YUV信号转换，选择并提取视频帧(如可提取关键帧)。

(2).进行OCR文字识别：后台系统采用现有OCR技术，通过视频图像对图像中的固定位置按照《视频图像文字标注规范》(GA/T751-2008)要求进行文字区域提取，OSD信息一般固定于视频图像的上下部，也可以通过视频实际情况进行区域设定，背景重合无干扰时正常识别包括视频时间、位置信息的文字；

当视频图像采用了基于视频智能分析，回避人脸位置在空白区域或低频区域进行OSD信息叠加的图像，则基于OCR的模式检测、识别技术进行文字信息识别和提取。

(3).前后帧推算，进行OSD信息校准：

a.摄像机点位地理位置信息：因为按照GA/T751-2008标准的要求视频监控摄像机的位置信息一般是固定的,直接在系统启动配置时输入，后续不做改变；

b.摄像时间信息：在OCR中不易辨识的多是数字字符，系统采用前后帧时间互相校验的形式；当采用前向帧时，采用已知第前n帧时间t，则本帧时间为

当采用后向帧时，采用已知第后n帧时间t，则本帧时间为

v为帧率，v＝20～30帧/秒；

c.电围采集的手机信息：手机信息多为数字字符及英文字符，在OCR中不易辨识的为数字字符；

当采用现有方案进行手机信息的OSD信息叠加时，利用系统采集的手机信息是视图中的人员所持有，人员的移动过程必定在多帧范围内才会离开视图，利用前后帧多次提取的信息进行互相对照，当多次提取信息一致时，直接采用，当多次采集不一致时，采用识别相似度最高的一次；

当采用类似国标GB/T28181-2016要求的固定位置的OSD信息叠加形式：由于背景图案的重合引起的字符识别异常，采用前后帧校验+识别相似度预警+人工辅助的手段：

当前相似度阈值τ₁可调，70％≤τ₁≤90％；

前后相似度阈值τ₂可调，70％≤τ₂≤90％；

(iv).经过人工辅助识别确认的记录作为一部分人工标定样本数据，同时另行存储一个备份，并提供给OCR系统作为样本集，进行字符识别模型的优化训练；所述的备份包括前后帧字符图片、前后帧字符识别相似度、人工字符识别结果。经过一定规模数据集(一般1千条以上即可作为样板集)的训练后可以提高识别精度。

(4).OSD信息数据搬移：

视频监控的OSD信息经过字符识别并提取后，构成视频结构化的重要组成部分：

前端叠加的OSD信息经过后端识别后，以独立信息悬浮形式显示在桌面或大屏幕显示屏上，支持客户端直接对该字符信息的选择、拷贝。

通过公安行业标准GA/T1400.4-2017中规定的采集接口，将OSD信息以结构化信息记录的形式传送给公共安全领域规定存储在视频图像信息数据库(简称视图库，VIID)，作为大数据资源提供给公安情报大数据的数据挖掘、分析研判；当需要回溯时，通过查询并提取记录当时的画面截图实现，通过OSD信息的唯一ID号进行关联查询，并利用OSD信息识别时间戳通过GB/T28181-2016的历史视频回放请求接口到视频存储系统中，进行录像回放。

(5).原始视频OSD信息叠加区域的背景重建：

视频监控画面的OSD信息提取后，作为独立数据搬移至视频图像的视窗外进行清晰显示，提取OSD信息后的原叠加OSD信息，叠加的区域通过背景重建的方法进行复原，重建方法采用前后帧插值法：

①当OSD信息叠加区域背景场景无变化(如视场中的房屋建筑、自然景物、电线杆为固定背景场景，由于光线明暗造成的变化忽略不做考虑)，采用背景周边相同颜色/纹路填充；包括两种情况：一种是固定摄像机区域的背景是固定场景，没有移动目标出现；另一种是该区域无移动目标出现；这两种情况下对于视频OSD区域的背景信息并无额外需求，采用背景周边相同颜色/纹路填充。

②具有PTZ[云台全方位(左右/上下)移动及镜头变倍、变焦控制]功能摄像机：通过PTZ调整场景时的图像变化提取前后帧进行插值，鉴于摄像机PTZ变化的速率有限，采用多帧间隔平均法插值，插值大于等于两个关键帧。

③移动目标经过：动态目标经过OSD区域，被OSD区域遮挡，采用多帧间隔平均法进行插值，插值大于等于两个关键帧。

(6).实况视频的OSD重建：

后端系统在接受实况视频时，同时进行解码并做OCR文字识别，并将识别后的文字缓存；当遇到无法识别的视频帧，则进行OSD重建，然后编码视频帧，替换目前的视频帧。OSD重建的方法可以基于前帧进行推算，例如时间，参考前面的方法。OSD信息计算出来后，后端根据当前视频帧的背景，选择对比度强烈的颜色重新叠加OSD文字，然后编码整个视频帧，替换原来的视频帧，位置与原来的位置相同。

当后端系统在回放历史视频时，如果前面的视频画面的OSD清晰可识别，则当遇到无法识别OSD的视频时，根据前面视频的OSD信息实时计算，并实时叠加到当前视频，位置与原来的位置相同。如果当前的视频帧就无法识别OSD，则暂停视频，自动搜索后面的视频帧，从后面的视频中提取清晰的OSD，然后计算当前视频的OSD信息，进行叠加，并继续回放视频。

Claims

1.一种视频OSD提取与覆盖区域重建的方法，其特征在于具体包括：

(3).前后帧推算，进行OSD信息校准：

当采用后向帧时，采用已知第后n帧时间t，则本帧时间为

v为帧率；

(4).OSD信息数据搬移：

前端叠加的OSD信息经过后端识别后，以独立信息悬浮形式显示在桌面或大屏幕显示屏上，支持客户端直接对字符信息的选择、拷贝；

(5).原始视频OSD信息叠加区域的背景重建：

(6).实况视频的OSD重建：

2.如权利要求1所述的一种视频OSD提取与覆盖区域重建的方法，其特征在于，对电围采集的手机信息进行OSD信息校准的具体方法是：

如果后一帧的字符识别相似度小于设定的前后相似度阈值τ₂，则判该字符识别结果为待定，并触发系统自动进入人工辅助识别流程，并对识别信息进行告警，将前后帧图像均发至待人工识别消息队列，提示人工辅助识别，由人工识别进行最后复核确认；

3.如权利要求2所述的一种视频OSD提取与覆盖区域重建的方法，其特征在于：所述的当前相似度阈值τ₁可调，70％≤τ₁≤90％；所述的前后相似度阈值τ₂可调，70％≤τ₂≤90％。

4.如权利要求1所述的一种视频OSD提取与覆盖区域重建的方法，其特征在于，原始视频OSD信息叠加区域的背景重建方法采用前后帧插值法，具体是：

①当OSD信息叠加区域背景场景无变化，采用背景周边相同颜色/纹路填充；

②具有PTZ功能摄像机：通过PTZ调整场景时的图像变化提取前后帧进行插值，采用多帧间隔平均法插值，插值大于等于两个关键帧；