CN112906686A

CN112906686A - 文字识别方法、装置、电子设备及存储介质

Info

Publication number: CN112906686A
Application number: CN202110265269.2A
Authority: CN
Inventors: 王栋
Original assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2021-06-04
Also published as: US11699276B2; EP4057236A1; US20220292293A1

Abstract

本公开是关于一种文字识别的处理方法、装置、电子设备及存储介质，所述方法包括：对获取的原始图像进行图像处理，得到包含文字的待识别区域；确定所述待识别区域与所述原始图像的面积占比；确定所述待识别区域与预设方向的角度；确定所述待识别区域的文字密度；响应于所述面积占比大于占比阈值、所述角度小于角度阈值，以及所述文字密度小于密度阈值，对所述待识别区域内的文字进行文字识别。如此，提高了文字识别的有效性。

Description

文字识别方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机图像处理技术领域，尤其涉及文字识别方法、装置、电子设备及存储介质。

背景技术

相关技术中，通常采用OCR光学字符识别技术对图像中的文字进行识别，但是通过OCR技术进行文字识别时，会将图像中出现的所有文字进行识别。而对于一些图像，特别是从一些特定的视频中抽取的图像中会出现较多的噪声文字，例如广告视频中可能会出现的未突出显示的产品的成分表或者应用界面内的文字非广告需要突出的文字等，如果利用OCR技术进行文字识别的话，同样会将这些噪声文字识别出来，从而使得得到的文字信息的有效性不高。因此，如何提高文字识别的有效性成为了亟需解决的技术问题。

发明内容

本公开提供一种文字识别方法、装置、电子设备及存储介质。

根据本公开实施例的第一方面，提供一种文字识别方法，应用于电子设备，包括：

对获取的原始图像进行图像处理，得到包含文字的待识别区域；

确定所述待识别区域与所述原始图像的面积占比；

确定所述待识别区域与预设方向的角度；

确定所述待识别区域的文字密度；

响应于所述面积占比大于占比阈值、所述角度小于角度阈值，以及所述文字密度小于密度阈值，对所述待识别区域内的文字进行文字识别。

可选地，所述方法还包括：

确定所述待识别区域内各像素点的第一平均灰度值，以及所述待识别区域向外延伸的预设区域内的各像素点的第二平均灰度值；

根据所述第一平均灰度值及所述第二平均灰度值，确定二值化阈值；

所述对所述待识别区域内的文字进行文字识别，包括：

根据所述二值化阈值对所述待识别区域进行二值化处理，对二值化处理后的所述待识别区域内的文字进行文字识别。

可选地，所述确定所述待识别区域与所述原始图像的面积占比，包括：

确定所述待识别区域的最大内接矩形；

根据所述最大内接矩形的面积，确定所述待识别区域的面积；

根据所述待识别区域的面积，确定所述待识别区域与所述原始图像的所述米娜及占比。

可选地，所述方法还包括：

确定所述待识别区域的高度与宽度；

所述响应于所述面积占比大于占比阈值、所述角度小于角度阈值，以及所述文字密度小于密度阈值，对所述待识别区域内的文字进行文字识别，包括：

响应于所述高度大于高度阈值和/或所述宽度大于宽度阈值，且所述面积占比大于占比阈值、所述角度小于角度阈值，对所述待识别区域内的文字进行文字识别。

可选地，所述确定所述待识别区域内的文字密度，包括：

确定所述待识别区域内的文字个数；

根据所述文字个数，确定所述待识别区域的所述文字密度。

可选地，所述确定所述待识别区域内的文字个数，包括：

将所述待识别区域向设置方向进行投影，得到投影区域，其中，所述设置方向为所述待识别区域内的文字所在的行的方向；

确定所述投影区域的像素密度分布；

根据所述像素密度分布，确定所述待识别区域的文字个数。

可选地，所述方法还包括：

按照轴帧周期，从待处理视频中抽取当前所述轴帧周期对应的帧图像，作为所述原始图像。

可选地，所述方法还包括：

根据所述待处理视频的总时长，确定所述轴帧周期。

可选地，所述对所述待识别区域的文字进行文字识别，包括：

对所述待识别区域的文字进行光学字符识别，得到第一文字信息；

对所述第一文字信息进行纠错处理，得到第二文字信息。

根据本公开实施例第二方面，提供一种文字识别装置，包括：

得到模块，用于对获取的原始图像进行图像处理，得到包含文字的待识别区域；

第一确定模块，用于确定所述待识别区域与所述原始图像的面积占比；

第二确定模块，用于确定所述待识别区域与预设方向的角度；

第三确定模块，用于确定所述待识别区域的文字密度；

识别模块，用于响应于所述面积占比大于占比阈值、所述角度小于角度阈值，以及所述文字密度小于密度阈值，对所述待识别区域内的文字进行文字识别。

可选地，所述装置还包括：

第四确定模块，用于确定所述待识别区域内各像素点的第一平均灰度值，以及所述待识别区域向外延伸的预设区域内的各像素点的第二平均灰度值；

所述识别模块，还用于：

可选地，所述第一确定模块，还用于：

确定所述待识别区域的最大内接矩形；

根据所述待识别区域的面积，确定所述待识别区域与所述原始图像的所述面积占比。

可选地，所述装置还包括：

第六确定模块，用于确定所述待识别区域的高度与宽度；

所述识别模块，还用于：

响应于所述高度大于高度阈值和/或所述宽度大于宽度阈值，且所述面积占比大于占比阈值、所述角度小于角度阈值，以及所述文字密度小于密度阈值，对所述待识别区域内的文字进行文字识别。

可选地，所述第三确定模块，还用于：

确定所述待识别区域内的文字个数；

根据所述文字个数，确定所述待识别区域的所述文字密度。

可选地，所述第三确定模块，还用于：

确定所述投影区域的像素密度分布；

根据所述像素密度分布，确定所述待识别区域的文字个数。

可选地，所述装置还包括：

作为模块，用于按照抽帧周期，从待处理视频中抽取当前所述抽帧周期对应的帧图像，作为所述原始图像。

可选地，所述识别模块，还用于：

对所述第一文字信息进行纠错处理，得到第二文字信息。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为：运行所述可执行指令时，实现上述任意所述的文字识别方法。

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行实现上述任意所述的方法步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开的实施例中，通过对获取的原始图像进行图像处理，得到包含文字的待识别区域；确定所述待识别区域与所述原始图像的面积占比；确定所述待识别区域与所述预设方向的角度；确定所述待识别区域的文字密度；响应于所述面积占比大于占比阈值、所述角度小于角度阈值，以及所述文字密度小于密度阈值，对所述待识别区域内的文字进行文字识别。相比相关技术中对所有包含文字的待识别区域进行文字识别而言，由于本公开实施例还会将待识别区域进行面积占比、角度以及文字密度进行判断，在待识别区域的面积占比、角度以及文字密度都满足条件的情况下，才对待识别区域内的文字进行识别，如此，可以减少对无效文字区域的识别，提高文字识别的有效性；且由于不对无效文字区域进行识别，还可以提高文字识别的效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种文字识别方法的流程图；

图2是相关技术中的文字识别中确定待识别区域的面积的场景示意图；

图3是根据一示例性实施例示出的确定待识别区域的面积的场景示意图；

图4是根据一示例性实施例示出的一种文字识别方法的另一流程图；

图5是根据一示例性实施例示出的确定文字密度的场景示意图；

图6是根据一具体实施例示出的文字识别方法的流程图；

图7是根据一示例性实施例示出的一种文字识别装置的框图；

图8是根据一示例性实施例示出的一种用于电子设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

OCR(Optical Character Recongnition，光学字符识别)是指电子设备检查纸上或图像上的符号，通过检测暗亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。即，针对印刷体字符，采用光学的方式将图像中的文字转换成黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

现有的OCR技术能够将图像中的所有文字都进行识别，然而在一些场景中，例如一些用于广告的图像中，由于存在所展示的产品的明细等，这些明细实际上并不是广告所要宣传的内容的时候，如果将这些文字也识别出来，显然会增加更多的识别内容，从而影响了识别效率；再例如，一些电视剧或者电影等影视剧视频中，特别是一些生活类的影视剧中可能会出现印刷体的物体或者有文字的背景等，然而这些文字并不是需要识别的文字，同样地，如果将这些文字也识别出来，显然也会增加更多的识别内容，从而影响识别效率；同时，由于识别出了较多的无效文字，使得文字识别的有效性不理想。当然，还有一些场景中，在拍摄主体的背景中出现了无效文字，这些文字如果也被识别出来，同样会影响文字识别的有效性。

基于此，图1是根据一示例性实施例示出的一种文字识别方法的流程图，如图1所示，所述方法包括以下步骤：

步骤101：对获取的原始图像进行图像处理，得到包含文字的待识别区域；

需要说明的是，本公开实施例的方法可以应用于电子设备中。这里的电子设备包括：移动设备或固定设备。其中，移动设备可以包括：手机、平板电脑、可穿戴式设备等；固定设备可以包括：台式电脑、一体机、智能家居设备等。总之任何具有处理器，且能对输入的图像或者存储的图像进行处理，并识别出文字的电子设备均可。

这里，原始图像可以包括：彩色图像，例如，RGB图像。当然，在另一些实施例中，所述原始图像也可以包括：灰度图像。

这里，所述获取的原始图像，可以包括：从电子设备自身获取的原始图像；也可以包括：从其他电子设备获取的原始图像。

进一步，所述从电子设备自身获取的原始图像，还可以包括：从电子设备现有存储的图像中获取的原始图像；或者，从播放的视频中截取的原始图像。

可以理解的是，若需要得到包含文字的待识别区域，应当对图像进行处理，即至少将图像中文字所在区域与非文字所在区域区分出来。而将图像中文字所在区域与非文字所在区域区分出来，需要对图像中的各个对象进行识别，从而需要对图像进行特征提取等。在一些实施例中，当原始图像为彩色图像时，由于彩色图像的信息量较大，特征提取的过程中需要分析的信息量大，必然会影响图像处理的效率，从而影响文字识别的效率。基于此，在一些实施例中，所述对获取的原始图像进行图像处理，可以包括：

对获取的原始图像进行灰度化处理，得到灰度图像。

在另一些实施例中，所述对获取的原始图像进行图像处理，得到包含文字的待识别区域，包括：

对获取的原始图像进行图像处理，得到原始图像中各个对象的轮廓；

根据原始图像中各个对象的轮廓，确定出包含文字的待识别区域。

可以理解的是，包含文字的待识别区域，也就是文字所在区域的特征是边缘非常齐整，可以连通成一个长矩形。如此，通过首先将各个对象的轮廓确定出来，能够快速确定出包含文字的待识别区域。

基于此，所述对获取的原始图像进行图像处理，得到原始图像中各个对象的轮廓，可以包括：

对获取的原始图像进行边缘检测，确定出各个对象的轮廓。

优选地，对获取的原始图像进行边缘检测，包括：对灰度图像进行边缘检测。

这里，对灰度图像进行边缘检测，可以包括：利用Sobel算子对灰度图进行边缘检测。当然，在其他实施例中，还可以利用Canny算子进行边缘检测，其中，Canny算子由于采用双阈值检测边缘并进行非极大值抑制。

为了提高所得到的边缘的准确性，在一些实施例中，所述确定出各个对象的轮廓后，所述方法还包括：对轮廓进行二值化处理。

这里，二值化处理是指，将图像中的像素点的灰度值设置为0或255。也就是说，将所得到的轮廓进一步进行灰度值的调整，从而可以降低边缘检测过程中的噪声点，提高边缘检测的准确性。

在另一些实施例中，为了能够进一步准确地区分出文字所在区域和非文字所在区域，所述方法还包括：对二值化处理后的轮廓进行膨胀和/腐蚀处理。

示例性的，对膨胀和/腐蚀处理的轮廓进行去噪处理，这里的去噪处理包括：去除参差不齐的轮廓。

示例性的，由于包含文字的待检测区域，也就是文字所在区域特征是边缘非常齐整，可以连通成一个长矩形。基于此，在一些实施例中，所述根据原始图像中各个对象的轮廓，确定出包含文字的待识别区域，可以包括：

根据原始图像中各个对象的轮廓，若所述轮廓为长矩形或者接近长矩形，确定为长矩形或者接近长矩形的轮廓对应的对象所在区域为包含文字的待识别区域。

如此，通过对获取的原始图像进行图像处理，可以得到原始图像中包含文字的所有区域。

步骤102：确定所述待识别区域与所述原始图像的面积占比；

步骤103：确定所述待识别区域与预设方向的角度；

步骤104：确定所述待识别区域的文字密度；

需要说明的是，上述步骤102、步骤103和步骤104的顺序不做限定，在一些实施例中，可以先执行步骤102、再执行步骤103，再执行步骤104；在另一些实施例中，可以先执行步骤103，再执行步骤104，再执行步骤102；在另一些实施例中，还可以先执行步骤104，再执行步骤103，再执行步骤102。

这里，预设方向，是指想要被识别的文字所在的方向。示例性的，预设方向，可以是电子设备中图像底部边缘所在的方向。通常，由于电子设备是垂直于地面放置的，而电子设备的图像通常也是垂直于地面的，以便用户观看，基于此，在一些实施例中，所述预设方向可以包括水平方向。

可以理解的是，由于上述识别出的包含文字的待识别区域中包括了所有的文字所在区域，正如上述所说，在一些场景中，有些文字并不需要被识别出来，例如，广告视频中的产品详情等噪声文字。

可以理解的是，通常噪声文字的文字区域的特征与有效文字的文字区域的特征有所区别，通常噪声文字所占的面积较小，或者在图像中的位置呈现为倾斜等状态，或者噪声文字的密度较大等。基于此，步骤105：响应于所述面积占比大于占比阈值、所述角度小于角度阈值，以及所述文字密度小于密度阈值，对所述待识别区域内的文字进行文字识别。

这里的占比阈值，可以通过人工经验来设定。可以理解的是，对于不同的识别需求，所要识别的文字的字体大小等有所差异。例如，对于影视类视频中的抽取的图像而言，主要想要识别的是影视类视频中的字幕，基于此，这里的占比阈值可以根据字幕的常用大小进行设定；而对于广告类图像，由于不同的广告想要宣传的内容不同，有些广告可能需要用夸张的手法来展示宣传的内容，显然，这种类型的图像如果采用自动设定阈值的方式，或者固定的阈值设定，显然会将真正想要识别的文字区域排除在外。因此，通过人工经验来设定可以减少这种特殊的文字识别需求下将有效文字确定为无效文字的误识别现象，且通过人工经验来设定可以适应于当前的识别需求，有利于文字识别的有效性。

需要补充的是，上述实施例中，所述原始图像的面积可以是电子设备的屏幕的面积。可以理解的是，电子设备的屏幕的面积与占比阈值正相关。基于此，在一些实施例中，占比阈值可以根据电子设备的屏幕的面积来设定。

在另一些实施例中，占比阈值可以自动设定，例如，可以根据用户的历史设定直接确定。在一些实施例中，所述占比阈值可以根据所要识别的图像类型自动确定。可以理解的是，不同类型的图像可以设定的占比阈值不同，例如，对于办公类或者学习类文件的图像，例如可以以四号字体的大小所占的面积作为参考来设定占比阈值；而对于海报等文件的图像，则可以以更大号的字体所占的面积作为参考来设定占比阈值。在另一些实施例中，所述占比阈值也可以根据识别需求来自动确定，例如，如果识别需求指示所要识别的是图像中的字幕，那么可以通过检测得到当前设定的字幕字体大小以及字幕的位置，确定所述占比阈值。如此，由于占比阈值可以自动设定，可以不依赖人工经验来设定，简化了人工操作，使得电子设备的智能性更高。

这里，角度阈值可以为接近平行于预设方向的角度，从而能够将那些与预设方向倾斜较大的待识别区域排除在外。

这里的文字密度，同样可以通过人工经验来设定，也可以自动设定。具体地，可以更加用户的历史设定直接确定，也可以根据所要识别的图像类型自动确定。可以理解的是，不同类型的图像可以设定的文字密度不同，例如，办公类或者学习类文件的图像的文字密度显然比海报类文件的图像的文字密度大。

本公开实施例，由于不仅将待识别区域与原始图像的面积占比作为判断是否为有效文字所在区域的考量因素，还将待识别区域与预设方向的角度与文字密度也作为考虑因素，提高了判断是否为有效文字所在区域的准确性，从而为提高文字识别的有效性提供了基础。本公开实施例中，由于是对面积占比大于占比阈值、角度小于角度阈值以及文字密度小于密度阈值的待识别区域进行文字识别，而对于面积占比小于或等于占比阈值，或者角度大于或等于角度阈值，或者文字密度大于或等于密度阈值的待识别区域确定为噪声文字的所在区域，从而对这些待识别区域不予文字识别。如此，可以减少对噪声文字所在区域的识别，也就是减少对无效文字区域的识别，提高文字识别的有效性，且由于不对无效文字区域进行识别，还可以提高文字识别的效率。

相关技术中，为了能够快速得到待识别区域的面积，通常会将待识别区域的最小外接矩形找出来，并以最小外接矩形的面积作为待识别区域的面积。具体地，请参阅图2，如图2所示，在一些情况下，由于在描绘对象的轮廓时，出现了一些噪声点，这些噪声点突出于文字所在区域，构成一个突出区域201，该突出区域201与文字所在区域202被识别为待识别区域20，这种情况下，如果将最小外接矩形30的面积作为待识别区域20的面积，显然会存在较大的误差。在一些可选的实施例中，所述步骤102，即所述确定所述待识别区域与所述原始图像的面积占比，包括：

确定所述待识别区域的最大内接矩形；

具体地，请参阅图3，如图3所示，待识别区域20可以包括：文字所在区域202和突出区域201，寻找出待识别区域20的最大内接矩形40，显然，这里的最大内接矩形40与待识别区域20中共文字所在区域202的面积接近。因此，本实施例中，通过确定待识别区域的最大内接矩形，并基于最大内接矩形面积来确定待识别区域的面积能够更加准确的得到待识别区域的面积，从而更加准确地得到待识别区域的面积与所述原始图像的面积的面积占比，从而为准确地确定该待识别区域是否为有效文字所在区域提供了基础。

在一些实施例中，为了能够更加准确的确定所述待识别区域的面积，所述根据所述最大内接矩形的面积，确定所述待识别区域的面积，可以包括：

根据所述最大内接矩形的面积以及面积误差，确定所述待识别区域的面积。

这里的面积误差，可以是通过大数据统计得到的，或者，基于其他识别方式得到的。总之，该面积误差用于对最大内接矩形的面积进行补偿，以更接近于所述待识别区域的面积，从而能够更加准确地确定出该待识别区域的面积。

在一些实施例中，所述对所述待识别区域内的文字进行文字识别，包括：

对待识别区域进行二值化处理。

需要补充的是，在对待识别区域进行OCR文字识别之前，可以先对待识别区域进行二值化处理。

这里，二值化处理是指，将图像中的像素点的灰度值设置为0或255。在实际应用中，二值化处理是指，将灰度值大于或等于二值化阈值的像素点的灰度值置为255，而将小于二值化阈值的像素点的灰度值置为0，从而可以将特定物体与背景区分开来。这里，二值化处理的目的是将文字所在的像素点突显出来，以便OCR进行文字识别。优选地，对待识别区域进行二值化处理，可以包括：对待识别区域的灰度图进行二值化处理。

如此，本公开实施例中，通过先将待识别区域进行二值化处理，能够更好地将待识别区域与待识别区域以外的区域区分出来，便于后续的文字识别。

这里的二值化阈值是固定的，可以是根据经验值设定的，也可以是通过云端获取的常用的二值化阈值。

在一些可选的实施例中，二值化阈值可以通过待识别区域的灰度值自适应确定。如此，通过自适应确定出的二值化阈值，能够更好地将文字部分与背景部分进行区分，从而在提高文字识别效率的同时，提高了文字识别的准确性。

示例性的，请参阅图4，图4是根据一示例性实施例示出的一种文字识别方法的另一流程图，所述方法还可以包括：

步骤401：确定所述待识别区域内的各个像素点的第一平均灰度值，以及所述待识别区域向外延伸的预设区域内的各像素点的第二平均灰度值；

步骤402：根据所述第一平均灰度值及所述第二平均灰度值，确定二值化阈值；

所述步骤105，即所述对所述待识别区域内的文字进行文字识别，包括：

步骤1051：根据所述二值化阈值对所述待识别区域进行二值化处理，对二值化处理后的所述待识别区域内的文字进行文字识别。

本公开实施例中，通过将待识别区域的各个像素点的第一平均灰度值，以及待识别区域向外延伸的预设区域内的各个像素向的第二平均灰度值，作为确定二值化阈值的考量参数，使得使用该二值化阈值作为当前的待识别区域的二值化处理的二值化阈值，能够更加适应于当前的待识别区域，从而使得二值化处理更加精准。

这里的预设区域，可以是向外延伸的预定距离的封闭区域，也可以是沿着预定方向向外延伸的半封闭区域。

在一些实施例中，所述对二值化处理的所述待识别区域内的文字进行文字识别，还可以包括：

对二值化处理的待识别区域进行膨胀去噪处理；

对二值化处理且膨胀去噪处理后的待识别区域内的文字进行文字识别。

如此，本实施例中，对二值化处理的待识别区域还会再进行一次膨胀去噪处理，可以减少由于二值化处理生成的毛边等对文字的覆盖等造成的文字遗漏现象，保证了待识别区域内文字的完整性，从而保证了文字识别的准确性。

在一些可选的实施例中，所述方法还包括：

确定所述待识别区域的高度与宽度；

所述步骤105，即所述响应于所述面积占比大于占比阈值、所述角度小于角度阈值，以及所述文字密度小于密度阈值，对所述待识别区域内的文字进行文字识别，还可以包括：

这里的高度阈值和/或宽度阈值可以根据经验设定，也可以根据图像的类型确定。

本实施例中，通过将待识别区域的高度和宽度也作为考量因素，能够更进一步地提高确定出待识别区域为有效文字所在区域的准确性。

在一些可选的实施例中，所述步骤104，即所述确定所述待识别区域内的文字密度，可以包括：

确定所述待识别区域内的文字个数；

根据所述文字个数，确定所述待识别区域的所述文字密度。

这里，所述确定所述待识别区域的文字个数，可以通过遍历所述待识别区域的像素点，确定出待识别区域的文字个数。示例性的是，所述通过遍历所述待识别区域的像素点，确定出待识别区域的文字个数，可以包括：通过遍历所述待识别区域的像素点，当像素点出现空白时，确定为字间隔；根据字间隔的数量，确定出待识别区域的文字个数。可以理解的是，文字个数与文字密度正相关。

需要补充的是，在一些场景下，仍以广告视频的图像为例，在广告视频的图像中，由于产品在展示时，产品的详情与产品都是在同一水平方向，故，产品的详情的文字所在区域虽然是无效文字所在区域，但是由于面积占比与角度都满足条件，仍然有可能会被判定为有效文字所在区域，而需要系统对该待识别区域进行文字识别，这显然会增加识别量，不利于文字识别的有效性和效率。

基于此，通过将文字密度也作为判断待识别区域是否为有效文字所在区域的考虑因素，可以减少因为面积占比大于占比阈值，角度小于角度阈值，但是文字密度过大的无效文字区域仍被判定为有效文字区域的现象，从而可以准确地确定出待识别区域是否为有效文字所在区域。

本公开实施例，通过确定文字个数的方式来确定文字密度，操作起来简单方便，算法简单，易于操作。

需要补充的是，通过遍历所述待识别区域的像素点来确定出待识别区域的文字个数的方式，由于是在像素点出现空白时，确定为字间隔，且鉴于汉字的特殊性，有些汉字可能会在扫描过程中出现空白，例如“为”，或者左右偏旁的字都有可能会被判定出有两个或者三个间隔，从而导致识别的文字个数并不准确。基于此，在一些可选的实施例中，所述确定所述待识别区域内的文字个数，可以包括：

将所述待识别区域向设置方向进行投影，得到投影区域；

确定所述投影区域的像素密度分布；

根据所述像素密度分布，确定所述待识别区域的文字个数。

这里的设置方向可以为所述待识别区域内的文字所在的行的方向，在一些实施例中，所述设置方向可以为水平方向。示例性的，请参阅图5，图5是根据一示例性实施例示出的确定文字密度的场景示意图，如图5所示，所述设置方向为X轴所在方向，这里，X轴所在方向为一行文字的行所在方向。

以两个待识别区域为第一待识别区域51和第二待识别区域52为例，第一待识别区域51的文字密度比第二识别区域52的文字密度大。这里，将待识别区域向设置方向进行投影，得到投影区域，可以理解为，将待识别区域向X轴纵向下压，即有文字的像素点被投影到X轴后会出现阴影部分，而未有文字的像素点被投影到X轴后则无阴影部分。具体地，第一待识别区域51投影到X轴后，出现了6个阴影部分，表明第一待识别区域51内有6个字，而第二待识别区域52投影到X轴后，出现了2个阴影部分，表明第二待识别区域52内有2个字。这里，投影区域的像素密度分布，即为阴影部分的分布，显然，像素密度分布越多，文字个数也就越多。

本公开实施例，通过将待识别区域向设置方向进行投影的方式来确定待识别区域的文字个数，可以更加准确地确定出待识别区域的文字个数，减少因为一些特殊文字被遍历为多个文字的现象。

以下，以原始图像为从播放的视频中截取的原始图像为例。

在一些可选的实施例中，所述方法还可以包括：

这里的待处理视频，可以是任何包含有噪声文字的视频，例如广告类视频，或者影视剧视频，例如，生活类影视剧视频中由于很多场景中包含了有文字的物品或者背景，而这些文字都是噪声文字。因此，对于这一类的视频有必要将噪声文字的区域去除后再进行文字的识别，可以提高文字识别的效率和有效性。

示例性的，轴帧周期至少小于画面变化的最小间隔，例如，画面五秒变化一次，那么抽帧周期至少小于五秒，如此，可以保证每个画面都能够被获取到，从而能够识别出整个待处理视频的有效文字。

在另一些可选的实施例中，所述方法还可以包括：

根据所述待处理视频的总时长，确定所述轴帧周期。

示例性的，待处理视频的总时长与轴帧周期正相关，即待处理视频的总时长越长，所设置的轴帧周期可以越长，相反，待处理视频的总时长越短，所设置的轴帧周期可以越短。

本公开实施例中，通过待处理视频的总时长，自动调整轴帧周期，可以减少长时长视频因为较多的帧图像的处理和识别导致的文字识别效率不高的现象，提高视频的文字识别效率。

在一些可选的实施例中，所述步骤105中，所述对所述待识别区域内的文字进行文字识别，还可以包括：

对所述第一文字信息进行纠错处理，得到第二文字信息。

这里，所述对所述第一文字信息进行纠错处理，可以包括：将所述第一文字信息输入至预训练的语言模型中，利用所述语言模型对所述第一文字信息进行纠错处理。

这里的语言模型可以是任何用于纠错处理的预训练的语言模型，为了提高文字识别的准确性，这里的语言模型可以是市场上使用率最高或者错误率最低的语言模型。

如此，本公开实施例，相比仅对待识别区域的文字进行光学字符识别来得到文字识别的结果而言，由于本公开实施例还会对所识别的第一文字信息进行纠错处理，从而提高了文字识别的准确性。

进一步地，本公开提供了一个具体实施例，以进一步理解本公开实施例所提供的文字识别方法。

本实施例可应用的场景包括：视频网站中，对电视剧、电影等抽取字幕；广告商对广告视频抽取有效文字，用于后续的广告分类、广告精准投放等。

请参阅图6，图6是根据一示例性实施例示出的一种文字识别的流程图，如图6所示，所述方法可以包括：

步骤601：待处理视频进行轴帧，得到原始图像；

这里，待处理视频可以是广告类视频，也可以是影视剧等视频。这里的原始图像可以是RGB图像。

需要补充的是，为了能够覆盖待处理视频的全部文字信息，所述待处理视频进行抽帧，可以包括：按照轴帧周期对待处理视频进行轴帧，得到所有帧的原始图像，并对每一帧原始图像进行下述的图像处理及文字识别。

步骤602：对所述原始图像进行灰度化，得到灰度图；

步骤603：对所述灰度图进行边缘检测并二值化处理，得到了具有轮廓的各个对象；

步骤604：对具有轮廓的对象进行膨胀和/或腐蚀处理，得到多个待识别区域；

步骤605：确定待识别区域的面积以及水平角度，删除面积占比小于面积阈值以及水平角度大于角度阈值的待识别区域；

这里，待识别区域的面积，可以取待识别区域的最大内接矩形的面积。

这里的面积阈值，可以根据视频的类型确定。例如，如果是电视剧、电影等对于字幕的抽取，可以当前设置的字幕字体大小所占的面积占比作为面积阈值。

步骤606：确定待识别区域的宽度和高度，删除高度小于或等于高度阈值和/或宽度小于或等于宽度阈值的待识别区域；

这里的高度阈值与宽度阈值，也可以根据视频的类型确定。同样以电视剧、电影类视频为例，高度阈值和宽度阈值可以以当前设置的字幕的字体大小对应的高度和宽度分别作为高度阈值和宽度阈值。

步骤607：确定待识别区域的文字密度，删除文字密度大于或等于密度阈值的待识别区域；

这里，确定待识别区域的文字密度，可以包括：将待识别区域向水平方向进行投影，得到投影区域；确定该投影区域的像素密度分布；根据像素密度分布；确定该待识别区域的文字个数；根据文字个数，确定该待识别区域的文字密度。

这里的密度阈值，也可以根据视频的类型确定。同样以电视剧、电影类视频为例，密度阈值可以以当前设置的字幕的密度作为密度阈值。

步骤608：根据自适应调整的二值化阈值，对剩余的待识别区域进行二值化处理；

这里，自适应调整的二值化阈值，是通过统计待识别区域内各个像素点的第一平均灰度值以及该待识别区域向外延伸的预设区域内的各个像素点的第二平均灰度值来确定的。

步骤609：对二值化处理的待识别区域进行膨胀去噪处理；

步骤610：对二值化处理且膨胀去噪处理后的待识别区域进行OCR识别，得到第一文字信息；

步骤611：将第一文字信息输入到预设的语言模型进行纠错处理，得到第二文字信息。

上述实施例，首先，通过计算待识别区域的最大内接矩形面积作为待识别区域的面积，可以使得面积的计算结果更加准确；其次，通过确定待识别区域的水平角度，可以将水平角度大于或等于角度阈值的明显倾斜于水平面的无效文字所在区域去除；然后通过对文字密度的统计，可以将明显密度过大的无效文字所在区域去除，且对于文字密度的统计是通过将待识别区域的向水平方向投影，再根据投影区域的像素密度分布来确定，如此提高了文字密度计算的准确性；再者，在屏蔽不需要进行识别的其他区域的时候，通过自适应计算得到的二值化阈值进行二值化处理，可以更好地适应于各个待识别区域，提高二值化的准确性；最后，对OCR的识别结果还会再用预训练的语言模型进行纠错，可以改进OCR的识别结果，进一步提高文字识别的准确性。

图7是根据一示例性实施例示出的一种文字识别装置的框图。参照图7，该装置包括得到模块71、第一确定模块72、第二确定模块73、第三确定模块74及识别模块75；其中，

所述得到模块71，用于对获取的原始图像进行图像处理，得到包含文字的待识别区域；

所述第一确定模块72，用于确定所述待识别区域与所述原始图像的面积占比；

所述第二确定模块73，用于确定所述待识别区域与预设方向的角度；

所述第三确定模块74，用于确定所述待识别区域的文字密度；

所述识别模块75，用于响应于所述面积占比大于占比阈值、所述角度小于角度阈值，以及所述文字密度小于密度阈值，对所述待识别区域内的文字进行文字识别。

在一可选的实施例中，所述装置还包括：

第五确定模块，用于根据所述第一平均灰度值与所述第二平均灰度值，确定二值化阈值；

所述识别模块75，还用于：

在一可选的实施例中，所述第一确定模块72，还用于：

确定所述待识别区域的最大内接矩形；

在一可选的实施例中，所述装置还包括：

第六确定模块，用于确定所述待识别区域的高度与宽度；

所述识别模块75，还用于：

在一可选的实施例中，所述第三确定模块74，还用于：

确定所述待识别区域内的文字个数；

根据所述文字个数，确定所述待识别区域的所述文字密度。

在一可选的实施例中，所述第三确定模块74，还用于：

确定所述投影区域的像素密度分布；

根据所述像素密度分布，确定所述待识别区域的文字个数。

在一可选的实施例中，所述装置还包括：

作为模块，用于按照轴帧周期，从待处理视频中抽取当前所述抽帧周期对应的帧图像，作为所述原始图像。

在一个可选的实施例中，所述装置还包括：

第七确定模块，用于根据所述待处理视频的总时长，确定所述轴帧周期。

在一个可选的实施例中，所述识别模块75，还用于：

对所述第一文字信息进行纠错处理，得到第二文字信息。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据一示例性实施例示出的一种用于电子设备800的框图。例如，电子设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图8，电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电力组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件806为电子设备800的各种组件提供电力。电力组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到电子设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他电子设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由电子设备800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述各实施例所述的文字识别方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种文字识别方法，其特征在于，包括：

确定所述待识别区域与所述原始图像的面积占比；

确定所述待识别区域与预设方向的角度；

确定所述待识别区域的文字密度；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述对所述待识别区域内的文字进行文字识别，包括：

3.根据权利要求1所述的方法，其特征在于，所述确定所述待识别区域与所述原始图像的面积占比，包括：

确定所述待识别区域的最大内接矩形；

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述待识别区域的高度与宽度；

5.根据权利要求1或4所述的方法，其特征在于，所述确定所述待识别区域内的文字密度，包括：

确定所述待识别区域内的文字个数；

根据所述文字个数，确定所述待识别区域的所述文字密度。

6.根据权利要求5所述的方法，其特征在于，所述确定所述待识别区域内的文字个数，包括：

确定所述投影区域的像素密度分布；

根据所述像素密度分度，确定所述待识别区域的文字个数。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

按照抽帧周期，从待处理视频中抽取当前所述抽帧周期对应的帧图像，作为所述原始图像。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

根据所述待处理视频的总时长，确定所述轴帧周期。

9.根据权利要求1所述的方法，其特征在于，所述对所述待识别区域内的文字进行文字识别，包括：

对所述第一文字信息进行纠错处理，得到第二文字信息。

10.一种文字识别装置，其特征在于，包括：

第三确定模块，用于确定所述待识别区域的文字密度；

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

所述识别模块，还用于：

12.根据权利要求10所述的装置，其特征在于，所述第一确定模块，还用于：

确定所述待识别区域的最大内接矩形；

13.根据权利要求4所述的装置，其特征在于，所述装置还包括：

第六确定模块，用于确定所述待识别区域的高度与宽度；

所述识别模块，还用于：

14.根据权利要求10或13所述的装置，其特征在于，所述第三确定模块，还用于：

确定所述待识别区域内的文字个数；

根据所述文字个数，确定所述待识别区域的所述文字密度。

15.根据权利要求14所述的装置，其特征在于，所述第三确定模块，还用于：

确定所述投影区域的像素密度分布；

根据所述像素密度分布，确定所述待识别区域的文字个数。

16.根据权利要求15所述的装置，其特征在于，所述装置还包括：

17.根据权利要求16所述的装置，其特征在于，所述装置还包括：

18.根据权利要求10所述的装置，其特征在于，所述识别模块，还用于：

对所述第一文字信息进行纠错处理，得到第二文字信息。

19.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为：运行所述可执行指令时，实现权利要求1至9任一项所述的文字识别方法。

20.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行实现权利要求1至9中任一项所述的方法步骤。