CN110807457A

CN110807457A - Osd字符识别方法、装置及存储装置

Info

Publication number: CN110807457A
Application number: CN201910969512.1A
Authority: CN
Inventors: 李宁钏; 赵诗云; 王赛捷; 熊剑平
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2020-02-18

Abstract

本发明公开了一种OSD字符识别方法、装置及存储装置。其中，OSD字符识别方法包括获取待识别图像；基于预设的第一灰度阈值对所述待识别图像进行二值化处理以获得第一图像，以及基于预设的第二灰度阈值对所述待识别图像进行二值化处理以获得第二图像，所述第一灰度阈值和所述第二灰度阈值分别根据OSD字符的灰度值和OSD字符边缘的灰度值设定；基于按位与组合所述第一图像和所述第二图像以获得第三图像；对所述第三图像中的文本进行定位以筛选出候选文本行。本发明提供的OSD字符识别方法、装置及存储装置能够快速定位字符区域，从而准确识别出字符，提高识别精度。

Description

OSD字符识别方法、装置及存储装置

技术领域

本申请涉及图像处理技术领域，特别是涉及一种OSD字符识别方法、装置及存储装置。

背景技术

由于OSD时间字符识别的结果通常要用作数据库索引，因此对识别精度要求非常高(99.99％以上)；而现有的字符识别技术发展已处于较成熟阶段，所以目前研究较多的是从字符区域的准确定位和字符识别结果校验策略的角度提高识别精度。现有技术中为解决字符区域的准确定位问题提供的方法较为复杂，计算量大且精度仍不够高，以及为解决字符识别结果校验策略问题提供的方法需要基于视频，利用帧间信息进行字符校正，不够通用。

发明内容

本申请提供一种OSD字符识别方法、装置及存储装置，能够快速定位字符区域，从而准确识别出字符，且该方法能够克服现有技术需要利用帧间信息进行字符校正的问题。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种OSD字符识别方法，包括：

获取待识别图像；

基于预设的第一灰度阈值对所述待识别图像进行二值化处理以获得第一图像，以及基于预设的第二灰度阈值对所述待识别图像进行二值化处理以获得第二图像，所述第一灰度阈值和所述第二灰度阈值分别根据OSD字符的灰度值和OSD字符边缘的灰度值设定；

基于按位与组合所述第一图像和所述第二图像以获得第三图像；

对所述第三图像中的文本进行定位以筛选出候选文本行。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种OSD字符识别装置，包括：

获取模块，用于获取待识别图像；

二值化模块，用于基于预设的第一灰度阈值对所述待识别图像进行二值化处理以获得第一图像，以及基于预设的第二灰度阈值对所述待识别图像进行二值化处理以获得第二图像，所述第一灰度阈值和所述第二灰度阈值分别根据OSD字符的灰度值和OSD字符边缘的灰度值设定；

按位与模块，用于基于按位与组合所述第一图像和所述第二图像以获得第三图像；

文本定位模块，对所述第三图像中的文本进行定位以筛选出候选文本行。

为解决上述技术问题，本申请采用的再一个技术方案是：提供一种OSD字符识别装置，该装置包括处理器、与所述处理器耦接的存储器，其中，

所述存储器存储有用于实现上述的OSD字符识别方法的程序指令；

所述处理器用于执行所述存储器存储的所述程序指令以对OSD字符进行识别。

为解决上述技术问题，本申请采用的再一个技术方案是：提供一种存储装置，存储有能够实现上述的OSD字符识别方法的程序文件。

本申请的有益效果是：本发明的OSD字符识别方法、装置及存储装置通过获取待识别图像；基于预设的第一灰度阈值对该待识别图像进行二值化处理以获得第一图像，以及基于预设的第二灰度阈值对该待识别图像进行二值化处理以获得第二图像，该第一灰度阈值和第二灰度阈值分别根据OSD字符的灰度值和OSD字符边缘的灰度值设定；基于按位与组合该第一图像和该第二图像以获得第三图像；对该第三图像中的文本进行定位以筛选出候选文本行。通过上述方式，能够快速定位字符区域，从而准确识别出字符，提高识别精度。

附图说明

图1是本发明第一实施例的OSD字符识别方法的流程示意图；

图2是本发明第一实施例中的待识别图像示意图；

图3是本发明第一实施例中的第一图像示意图；

图4是本发明第一实施例中的第二图像示意图；

图5是本发明第一实施例的OSD字符识别方法中对第三图像中的文本进行定位以筛选出候选文本行的子流程示意图；

图6是本发明第二实施例的OSD字符识别方法的流程示意图；

图7是本发明第二实施例中的形态学处理后的第一图像示意图；

图8是本发明第二实施例中的形态学处理后的第二图像示意图；

图9是本发明第二实施例中的第三图像示意图；

图10是本发明第二实施例中的去噪后的第三图像示意图；

图11是本发明第二实施例中的对第三图像中的文本进行定位后的示意图；

图12是本发明第二实施例中的字符识别结果示意图；

图13是本发明实施例的OSD字符识别装置的第一结构示意图；

图14是本发明实施例的OSD字符识别装置的第二结构示意图；

图15是本发明实施例的存储装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

图1是本发明第一实施例的OSD字符识别方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限。如图1所示，该方法包括步骤：

步骤S101：获取待识别图像。

在步骤S101中，该待识别图像为包含OSD字符的图片或从视频中提取的包含OSD字符的图像帧。

步骤S102：基于预设的第一灰度阈值对该待识别图像进行二值化处理以获得第一图像，以及基于预设的第二灰度阈值对该待识别图像进行二值化处理以获得第二图像，该第一灰度阈值和第二灰度阈值分别根据OSD字符的灰度值及OSD字符边缘的灰度值设定。

OSD字符信息大多为白色，如图2中所示的时间字符(2018-12-2000:00:14)和地点字符(13柳芳下行尾步梯上)，其灰度值均较大，基于该特性，在步骤S102中，基于预设的第一灰度阈值对该待识别图像进行二值化处理以获得第一图像，可选的，该第一灰度阈值的预设范围为200～230，优选为210～220，例如基于第一灰度阈值220对图2进行二值化处理后获得的第一图像如图3所示。

通过对大量视频进行分析发现，OSD字符边缘大多呈现黑色以保证OSD字符与背景清晰可分，OSD字符边缘的灰度值均较小，基于该特性，在步骤S102中，基于预设的第二灰度阈值对该待识别图像进行二值化处理以获得第二图像，可选的，该第二灰度阈值的预设范围为30～60，优选为40～50，例如基于第二灰度阈值50对图2进行二值化处理后获得的第二图像如图4所示。

也就是说，在步骤S102中，根据OSD字符的灰度值及OSD字符边缘的灰度值分别对待识别图像进行了二值化处理，分别保留了待识别图像中灰度值大于第一灰度阈值的像素点、和待识别图像中灰度值小于第二灰度阈值的像素点。

步骤S103：基于按位与组合第一图像和第二图像以获得第三图像。

在该步骤S103中，各个OSD字符的灰度值相同、以及各个OSD字符边缘的灰度值也均相同，基于该规律，通过按位与组合第一图像和第二图像以获得第三图像，具体地，可以将灰度值相同的像素点的灰度值统一化，如统一设为255，将灰度值不同的像素点的灰度值统一设为0。因此，该按位与操作不仅能够将OSD字符边缘信息很好的保留，同时还抑制了背景噪声。

步骤S104：对第三图像中的文本进行定位以筛选出候选文本行。

请参阅图5所示，该步骤S104包含如下子步骤：

步骤S1041：基于水平投影方法从第三图像中分割出候选文本区域。

在步骤S1041中，先采用水平投影方法统计第三图像中文本波峰波谷，然后根据自适应的阈值分割出候选文本区域。

步骤S1042：基于连通区域分析算法从候选文本区域中筛选出候选文本行。

由于文本具有特殊性，字符间隔大致一致，且与背景噪声的无规律分布有明显区别，因此，在步骤S1042中，采用连通区域分析算法从候选文本区域中筛选出候选文本行。

步骤S105：对候选文本行进行字符切分。

在步骤S105中，采用垂直投影方法对候选文本行进行字符切分，具体的，先采用垂直投影方法定位出单个字符，然后利用字符间隔和字符宽度对过宽和过窄的字符进行切分和合并。举例说明，若该字符的宽度超过字符平均宽度的1.5倍，则需要继续采用垂直投影的方法对该字符进行二次切分；若连续的两个字符的宽度都小于字符平均宽度的0.6倍时，则将这两个连续的字符进行合并。

步骤S106：对切分得到的字符进行识别。

在步骤S106中，对切分得到的字符进行识别可以采用本领域中任何合适的方式进行，例如OCR技术、深度学习的分类算法等；具体的，可以结合支持向量机SVM训练的字符分类器对切分出来的字符进行识别，并输出各个字符的置信度；然后计算每个候选文本行的平均置信度，假设一个候选文本行经字符切分后得到11个字符，则该候选文本行的平均置信度为将该11个字符的置信度累积相加后再除以11；判断该候选文本行的平均置信度是否超过预设置信度阈值，若超过，则将该候选文本行保留并输出显示；若不超过，则剔除该候选文本行，不超过的情况包括该候选文本行中无候选识别字符或者候选字符数远低于先验字符数的情况，其中，先验字符数表示已知该候选文本行中有多少个字符，比如出生日期：1999年09年09日，则先验字符数为11位。

因误检率与漏检率是两个相对的指标，而字符识别准确率不能出错，且OSD字符识别对实时性要求比较高，因此，步骤S106还可以采用第一模型(速度快低漏检)和第二模型(速度慢高准确率)相结合的识别策略进行，以在整体上能达到计算量少、耗时少的目的。具体的，先采用第一模型对切分得到的字符进行第一识别，当因先验字符数少于切分出来的字符数量时，则将未识别出的字符输入至第二模型中进行第二识别，该识别策略能够代替利用视频帧之间信息进行字符准确性校验工作，所以可以应用于图片，通用性强。

下面以深度学习的分类算法进行举例说明，如第一模型为resnet18识别算法，第二模型为resnet101识别算法；resnet18识别算法的网络层数不大，速度较快，但存在一定的误检，因此，为了减少误检，将置信度设置成较高的阈值如0.9；当经resnet18识别算法处理后的字符数量少于先验字符数时，再将未识别出的字符输入至resnet101识别算法中进行识别，resnet101网络层数多，识别速度慢，但是识别效果好；以上基于resnet18识别算法先进行快速识别，再基于resnet101识别算法确保识别准确率，从而达到计算量少、耗时少的目的。需要解释的是，该举例中的resnet识别算法也可以用其他算法来替换，如第一模型和第二模型均为SVM，通过调节SVM模型中的参数，比如扩大特征维度和缩小特征维度来分别实现第一识别和第二识别。

本发明第一实施例的OSD字符识别方法通过获取待识别图像；基于预设的第一灰度阈值对该待识别图像进行二值化处理以获得第一图像，以及基于预设的第二灰度阈值对该待识别图像进行二值化处理以获得第二图像，该第一灰度阈值和第二灰度阈值分别根据OSD字符的灰度值和OSD字符边缘的灰度值设定；基于按位与组合该第一图像和该第二图像以获得第三图像；对该第三图像中的文本进行定位以筛选出候选文本行；对候选文本行进行字符切分；对切分得到的字符进行识别。通过上述方式，能够快速定位字符区域，从而准确识别出字符，提高识别精度，且该方法不需要利用帧间信息进行字符准确性校正工作，可以用于图片，通用性强。

图6是本发明第二实施例的OSD字符识别方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图6所示的流程顺序为限。如图6所示，该方法包括步骤：

步骤S201：获取待识别图像。

步骤S202：基于预设的第一灰度阈值对该待识别图像进行二值化处理以获得第一图像，以及基于预设的第二灰度阈值对该待识别图像进行二值化处理以获得第二图像，该第一灰度阈值和第二灰度阈值分别根据OSD字符的灰度值及OSD字符边缘的灰度值设定。

在本实施例中，图6中的步骤S201和步骤S202分别与图1中的步骤S101和步骤S102类似，为简约起见，在此不再赘述。

步骤S203：分别对第一图像和第二图像进行形态学处理。

第一图像和第二图像中除了保留下来的OSD字符信息，还保留有大量的背景信息，因此，在步骤S203中，需要分别对第一图像和第二图像进行形态学处理，以消除背景干扰，使得OSD字符信息保留更丰富。承接第一实施例的步骤S102中的举例进行说明，分别对图3和图4进行形态学处理得到图7和图8。

步骤S204：基于按位与组合形态学处理后的第一图像和形态学处理后的第二图像以获得第三图像。

在本实施例中，图6中的步骤S204与图1中的步骤S103类似，为简约起见，在此不再赘述。承前举例说明，基于按位与组合图7和图8后获得的第三图像如图9所示。

步骤S205：基于小区域移除算法对第三图像进行去噪处理。

第三图像中还包含了部分背景噪声，为了消除背景噪声对文本定位造成的干扰，在步骤S205中，采用小区域移除算法对第三图像进行去噪处理，具体的，判断像素点8邻域范围内的像素数目是否低于设定的阈值，若是，则判定该像素点为噪声，并将该像素点移除；更具体地，该像素点为滑动窗口内的前景像素数，阈值的设定范围为2～10，优选3～5。承前举例说明，采用小区域移除算法对图9进行去噪处理后得到图10。

步骤S206：对去噪处理后的第三图像中的文本进行定位以筛选出候选文本行。

在本实施例中，图6中的步骤S206与图1中的步骤S104类似，为简约起见，在此不再赘述。承前举例说明，对图10中的文本进行定位筛选出的候选文本行如图11中所示。

步骤S207：对候选文本行进行字符切分。

步骤S208：对切分得到的字符进行识别。

在本实施例中，图6中的步骤S207和步骤S208与图1中的步骤S105和步骤S106类似，为简约起见，在此不再赘述。承前举例说明，对图11中所示的候选文本行依次进行字符切分和时间字符识别后，时间字符的识别结果如图12中所示，后续可以将该识别结果与系统中的时间进行校正，以当发现时间字符与系统中的时间不一致时及时更正。可以理解的是，步骤S207和步骤S208同样适用于图11左上角的地点字符，通过将地点字符识别出来以进行地点定位。

本发明第二实施例的OSD字符识别方法通过获取待识别图像；基于预设的第一灰度阈值对该待识别图像进行二值化处理以获得第一图像，以及基于预设的第二灰度阈值对该待识别图像进行二值化处理以获得第二图像，该第一灰度阈值和第二灰度阈值分别根据OSD字符的灰度值和OSD字符边缘的灰度值设定；分别对第一图像和第二图像进行形态学处理；基于按位与组合形态学处理后的第一图像和形态学处理后的第二图像以获得第三图像；基于小区域移除算法对第三图像进行去噪处理；对去噪处理后的第三图像中的文本进行定位以筛选出候选文本行；对候选文本行进行字符切分；对切分得到的字符进行识别。通过上述方式，能够快速定位字符区域，从而准确识别出字符，提高识别精度，且该方法不需要利用帧间信息进行字符准确性校正工作，可以用于图片，通用性强。

图13是本发明实施例的OSD字符识别装置的第一结构示意图。如图13所示，该装置30包括获取模块31、二值化模块32、按位与模块33和文本定位模块34。

获取模块31，用于获取待识别图像。

二值化模块32与获取模块31耦接，用于基于预设的第一灰度阈值对该待识别图像进行二值化处理以获得第一图像，以及基于预设的第二灰度阈值对该待识别图像进行二值化处理以获得第二图像，该第一灰度阈值和第二灰度阈值分别根据OSD字符的灰度值及OSD字符边缘的灰度值设定。

可选地，第一灰度阈值的预设范围为200～230；第二灰度阈值的预设范围为30～60。

按位与模块33与二值化模块32耦接，用于基于按位与组合该第一图像和该第二图像以获得第三图像。

文本定位模块34与按位与模块33耦接，用于对第三图像中的文本进行定位以筛选出候选文本行。

可选地，文本定位模块34对第三图像中的文本进行定位以筛选出候选文本行的操作可以为基于水平投影方法从第三图像中分割出候选文本区域；基于连通区域分析算法从该候选文本区域中筛选出候选文本行。

请参阅图14，图14为本发明实施例的OSD字符识别装置的第二结构示意图。如图14所示，该装置40包括处理器41及和处理器41耦接的存储器42。

存储器42存储有用于实现上述任一实施例所述的OSD字符识别方法的程序指令。

处理器41用于执行存储器42存储的程序指令以对OSD字符进行识别。

其中，处理器41还可以称为CPU(Central Processing Unit，中央处理单元)。处理器41可能是一种集成电路芯片，具有信号的处理能力。处理器41还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

参阅图15，图15为本发明实施例的存储装置的结构示意图。本发明实施例的存储装置存储有能够实现上述所有方法的程序文件51，其中，该程序文件51可以以软件产品的形式存储在上述存储装置中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储装置包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种OSD字符识别方法，其特征在于，包括：

获取待识别图像；

对所述第三图像中的文本进行定位以筛选出候选文本行。

2.根据权利要求1所述的方法，其特征在于，所述第一灰度阈值的预设范围为200～230；所述第二灰度阈值的预设范围为30～60。

3.根据权利要求1所述的方法，其特征在于，所述“基于预设的第一灰度阈值对所述待识别图像进行二值化处理以获得第一图像，以及基于预设的第二灰度阈值对所述待识别图像进行二值化处理以获得第二图像”的步骤之后包括：

分别对所述第一图像和所述第二图像进行形态学处理。

4.根据权利要求1所述的方法，其特征在于，所述“基于按位与组合所述第一图像和所述第二图像以获得第三图像”的步骤之后包括：

基于小区域移除算法对所述第三图像进行去噪处理。

5.根据权利要求1所述的方法，其特征在于，所述“对所述第三图像中的文本进行定位以筛选出候选文本行”的步骤包括：

基于水平投影方法从所述第三图像中分割出候选文本区域；

基于连通区域分析算法从所述候选文本区域中筛选出候选文本行。

6.根据权利要求1所述的方法，其特征在于，所述“对所述第三图像中的文本进行定位以筛选出候选文本行”的步骤之后还包括：

对所述候选文本行进行字符切分；

对切分得到的字符进行识别。

7.根据权利要求6所述的方法，其特征在于，所述“对切分得到的字符进行识别”的步骤包括：

基于第一模型对切分得到的字符进行第一识别；

基于第二模型对所述第一识别未识别出的字符进行第二识别。

8.一种OSD字符识别装置，其特征在于，包括：

获取模块，用于获取待识别图像；

文本定位模块，用于对所述第三图像中的文本进行定位以筛选出候选文本行。

9.一种OSD字符识别装置，其特征在于，所述装置包括处理器、与所述处理器耦接的存储器，其中，

所述存储器存储有用于实现如权利要求1-7中任一项所述的OSD字符识别方法的程序指令；

10.一种存储装置，其特征在于，存储有能够实现如权利要求1-7中任一项所述的OSD字符识别方法的程序文件。