CN104794469A

CN104794469A - 基于图像异构计算的实时视频流文字定位方法

Info

Publication number: CN104794469A
Application number: CN201510185939.4A
Authority: CN
Inventors: 施文华; 干子轩; 蒋磊
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2015-04-17
Filing date: 2015-04-17
Publication date: 2015-07-22

Abstract

一种基于图像异构计算的实时视频流文字定位方法，包括构建异构计算平台，设置摄像头；安装操作系统并配置相关必要软件、驱动程序；建立标准字库，将字符集中的所有字符存储至数据库；抽象数字图像处理的计算步骤，构建并行计算API接口；从摄像头捕获一帧图像，转换成灰度图；按照固定大小分块，根据分块对比度进行直方图均衡和黑白二值化；将原图进行模糊，按固定宽度将原图分割成竖条状，得到每个竖条的每一行的起始和终止位置；根据得到的位置计算其斜率，将所有单词的相似度从大到小排列，与历史结果加权，将前5％的单词标定作为搜索结果。其计算量远小于传统技术；有非常强的对抗抖动、倾斜、光照不均等不利因素的能力；计算结果准确。

Description

基于图像异构计算的实时视频流文字定位方法

技术领域

本发明属于机器视觉技术领域，涉及嵌入式异构计算、数字图像处理和实时用户交互技术。

背景技术

在人们的日常生活中，总是遇到类似如下的场景：在翻阅繁复的资料时，想要快速的找到其中包含特定关键字的相关资料，抑或，当一个人来到了一个完全陌生的场景，要在这样一个陌生的环境里，找到其所急切需要的信息，运用传统方法是极其困难且效果不佳的。

比如光学字符识别(OCR)技术，将视频或者静态图中的文字位图提取出，并转化为可以被计算机识别的文本串流，这样以后，通过比对用户需要查找的文本来筛选出特定的信息。然而该方法存在以下弊端：

(1)OCR的计算量非常之大，现在以及今后很长一段时间内，凭借尖端硬件设备，都无法做到可以实用的实时性；

(2)OCR技术的准确性只能满足于帮助录入文本，对于查找特定的文本，不稳定的准确率和误识别率使得效果不佳；

(3)OCR对于图像的扭曲和倾斜的情况，几乎可以说是无能为力，无法识别大部分文本内容。

近些年，又有一种新的查找文本的技术流派产生了，这种流派基于21世纪初诞生的以尺度不变特征转换(SIFT)算法为代表图像匹配技术；这种技术简而言之，主要由以下几个步骤组成：通过将在不同视觉尺度上的得到的图像特征向量进行优选和组合，用来描述以图像局部的特征，在这个基础上，通过将两幅图像进行交叉匹配，用特征向量匹配数目的多少描述两幅图像的局部相似度。然而这种方法亦不适用于空间文字定位的场景，原因有以下几点：

(1)图像匹配技术需要的计算量远大于OCR技术，因而更不可能做到实时性；

(2)现有的图像匹配技术，对于色彩各异形状不同的实物物体的鉴别效果不俗，然而对于黑白两值，由细曲线构成的文字，鉴别能力不足，往往不能产生足够多有效的描述信息来表征文字的特性；

(3)要应用图像匹配技术用于文字定位，必须建立数以百计的图像数据库，这是非常不切实际的，但使运用即时演算技术，其时间、空间复杂度也不亚于匹配技术本身。

可见，在当前生产生活中，都会普通使用视频采集并进行数字图像处理，在这些海量的视频串流中提取出有价值的信息则成了当今的一个研究热点。传统的OCR(光学字符识别)技术不仅需要消耗巨大的计算性能无法做到实时性；并且，对于更普遍的类似于在交通监控视频串流中定位找到某一特定车牌号码的文字定位的应用场景也有很大难度。

发明内容

本发明的目的是提供一种基于图像异构计算的实时视频流文字定位方法，可以实时计算并且在视频串流中标定出所需要查找文字。

为实现上述目的，本发明采用如下技术方案：

构建x86异构计算平台，包括中央处理器单元和用于并行计算的通用计算显卡的确定，选购符合要求的Webcam摄像头。算法与所用平台相关性微乎其微，本发明以主流x86平台为例。

安装操作系统和相关必要软件、驱动程序。

建立标准字库，将字符集中的所有字符降采样至12×12点阵，存储至数据库。点阵尺寸越大，算法效果越好，但消耗计算资源越多，采用12×12的点阵已经能够满足要求。

抽象数字图像处理的计算步骤，构建并行计算API接口。

从摄像头捕获一帧图像，转换成灰度图。

按照固定大小分块，根据分块对比度进行直方图均衡和黑白二值化。

将原图进行模糊，按固定宽度将原图分割成竖条状，得到每个竖条的每一行的起始和终止位置。

将得到的位置进行进行拟合计算其斜率，本发明采用最小二乘法。

将斜率和历史计算值加权，对此时的图像进行倾斜校正。

按行求和，对结果进行统计，模糊，以前5％为基准线，作为行划分的依据，取5％效果最佳。

按列求和，对结果进行统计，模糊，并依次估计字符平均宽度。

以平均字宽为依据，进行单词的划分。

按照平均为依据，对单词进行划分为单个字符。对于没有充分划分依据的单字进行标定。

以词为单位，取出和待查找的字符串进行匹配，求出误差矩阵的平方和，定义为其与目标字符串的相似度。

将所有单词的相似度从大到小排列，与历史结果加权，将前5％的单词标定作为搜索结果，取5％效果最佳。

由于采用上述方案，本发明的有益效果是：

本发明相比较传统技术而言，有明显的以下几处优势：

(1)计算步骤虽然繁复，然而在计算过程中，计算量反而要远远小于传统技术；

(2)有非常强的对抗抖动、倾斜、光照不均等不利因素，这些因素是实际使用过程不可避免的情况，相比较于传统技术面对这些棘手问题的束手无策，本发明显得游刃有余；

(3)计算结果准确，本发明用的方法运用了模糊匹配的思想，因而对于各种抖动和不稳定情况都有着良好的包容性。

附图说明

图1为本发明实施例从视频文件中抽取的一帧用于二值化示例的示意图像。

图2为经过图1经过灰度处理的图像。

图3为第一个小范围模糊卷积核。

图4为第二格大范围模糊卷积核。

图5为经过第一个卷积核卷积后的图像。

图6为经过第二格卷积核卷积后的图像。

图7为将图像分割成若干正方形，并分别求灰度平均值后的图像。

图8为原图像二值化的判断条件。

图9为两个经过不同卷积核卷积后图像的差值图。

图10为应用二值化后的图像。

图11为用于倾斜校正示例的普通图像及其二值化图。

图12为行高信息矩阵二值化的判断条件。

图13为切片并按列二值化后的行高信息矩阵。

图14为一个正确行的示意图。

图15为按照计算所得倾斜斜率逆向校正过的二值化图像。

图16为二值化图像的行划分结果。

图17为示意图像字间距统计结果。

图18为示意图像单字间距图。

图19为对示意图像按照单词划分的结果。

图20为部分标准Arial字库。

图21为标准字母A和示意图像中的一个字母A对照图。

图22为用于二值化倾斜校正文字搜索后的示意图。

图23为文字搜索结果示意图。

具体实施方式

以下结合附图所示实施例对本发明作进一步的说明。

应用实例：

视频流文字提取

1 二值化

为了使输入的视频流中的一帧图像更加易于处理并且使得局部特征更加鲜明，首先将彩色图像转化为灰度图，然后分块分别进行直方图均衡，最后再选取阈值进行二值化。

1.1彩色位图转灰度位图

对于一副采用RGB编码的彩色图像，选取以下心理学公式来计算灰度值。

Gray＝R*0.299+G*0.587+B*0.114

对于一副采用YUV编码的彩色图像，直接将亮度信号Y分量取出，视作灰度值

Gray＝Y

如图1和图2所示。

注：文字图转灰度图示意不明显，故增加数字图像处理中被广泛使用的标准Lena灰度图

1.2抗尺度抖动

为了对抗尺度不同带来的抖动，本发明采用了以下两个不同大小的卷积核(图3和图4所示)来对生成图像不同尺度的模糊(如图5和图6所示)。

卷积核的大小应当适配于获取图像的景深和分辨率，景深越远，卷积核应减小，分辨率越清晰，卷积核应增大。

1.3抗光照强度变化

考虑到图像不同区域光照强度的不同，本发明将一副图像经过第二个卷积核后的模糊图像切片成数块，每一区块图像的大小为50×50，并计算每个区块的灰度平均值，并将每个像素点与所在区块的灰度平均值的差值作为后续二值化操作时的依据。(如图7所示)

对于处于图像边缘无法构成50×50区块的像素点，则直接采用邻近区块的平均值作为其平均值。

1.4二值化

基于上述1.2和1.3的结果，如图8所示，本发明给出了每一个像素点二值化的判断准则：

条件一：经过第一个和第二个卷积核之后，该像素点对应的两个灰度的差值(用经过第一个卷积核后的像素点的灰度值减去经过第二个后的)，小于所有这样的差值的最小值的5％；

条件二：经过第一个卷积核之后，该像素点的灰度值小于像素点所在局部分块的灰度平均值。

若同时满足上述两个条件则为1(白色)，否则为0(黑色)。图9为两个卷积核做差的示意图，图10为二值化结果。

2 倾斜校正

对于如图11所示的原始图，为了后续文字检索更加准确，需要进行倾斜校正来剔除倾斜带来的影响。

2.1行高信息的提取

为了突出行的信息而弱化单个字符元素的信息，要对二值化后的图像做按行切片并按列二值化的操作。

按行切片：将二值化后的图像按每1行每60列求和，白色记1，黑色记0。

按列二值化：将按行切片后得到的矩阵进行二值化，依据按图12。

所得到的矩阵称之为行高信息矩阵，如图13所示。

2.2平均行高的计算

为了评估出一个有意义的平均行高，本发明采用在行高信息矩阵选取随机点，观察其所在位置的行高，然后计算统计平均值的方法。

随机点个数可取25至35个，本发明取30个随机点。

行高判定步骤：

(1)对于一个随机点，如果其为黑色，则往下移动，直到所在位置为白色。

(2)计算从这个位置到往下下一个黑色的位置之间的距离。

(3)如果这个距离大于10并且没有触及图像底部，则记为一个有效的行高。

将有效的行高去掉一个最大值，去掉一个最小值，取平均，所得到的值视作这一帧图像的平均行高。

对于上一小节中行高信息矩阵，其计算所得平均行高为27个像素。

2.3平均倾角的计算

同样的，为了评估出一个有意义的平均倾角，本发明采用在行高信息矩阵中选取随机行，从左开始，如果所在位置的行高与2.2节得出的平均行高相差不超过3，则认定为一个正确的行的开始，反之则往右移动一个单位继续取随机行。观察从这个位置开始往右的行高信息矩阵，取出往右所有的有效相对偏移值，记为有效的倾角正切值。(如图14)计算所有的倾角正切值的线性回归，将所得结果中斜率的反正切角度记做平均倾角。

随机行个数可取10到20个，本发明取10个随机行。

对于所示图片，所得到的平均倾角为-5.8396°

2.4根据倾角旋转

根据2.3节得出的倾角，将二值化图进行逆向的旋转，得到水平放置的文字。如图15所示。

3 单词划分

在获得了二值化处理和倾斜校正后的图像(图15)后，为了进行单词的匹配，必须从中划分出不同的单词。为了划分出单词，首先要区分出不同的行，然后再根据字符间距，划分出不同的单词。

3.1行划分

将二值化处理和倾斜校正后的图像按行求和，满足下列条件的判断为一个正确的行：

一行之和大于所有行的和中最大值的40％

对于图15，其行划分结果如图16所示。

3.2单字间距统计

在行划分的基础之上，为了区分不同的单词，首先要知道各个单字之间的平均间距。

对行划分结果中的每一行进行处理，从左到右依次处理每一列，如果一列存在字符的一部分则将整列染成白色，反之染成黑色。观察所有的白色方块，统计两两之间的间距，取出最大值作为一帧图像的单字间距。

对图15的处理结果如图18所示，其统计结果如图17所示。间距为2的个数最多，因而作为这帧图像的单字间距。

3.3单词划分

有了3.2节的单字间距之后，就可以进一步划分不同的单词。本发明将字间距小于两倍这帧图像的单字间距的单词进行合并成一个单词，如图19所示。

4 单词相似度判定

在获得了一个单词之后，需要将其逐个与标准字库中的单字进行比对，最后计算出对应的相似度。

4.1标准字库建立

本发明实施例以Arail粗体字体为标准字体，列出所有字符，然后将其缩小成为12×12的矩阵，以备后用。图20展示了部分字库。

4.2比对方法

将一个单词按照字间距，划分为单字的有序数列{S_i}，其长度为L_S，将其每个元素放大或者缩小至12×12像素，使其靠左上角，并且左右顶格或者上下顶格，如图21所示。

4.3相似度判定

对于一个单字矩阵S_i，和其对应的标准字矩阵T_i，本发明定义其距离为：

d_i＝||S_i-T_i||₂

从而可以定义待搜索单词{S_i}和标准单词{T_i}的距离：

D＝∑d_i+|L_S-L_T|*C

式中常数C取10，L_S为{S_i}的长度，L_T为{T_i}的长度，第一项求和范围从1至min(L_S,L_T)。

将一帧图像中所有单词的相似度从高到低排序，取出前5项，并标注，作为最终结果，如图22和图23所示。

图23中搜索结果显示有4处，都以白色边框框定(实际操作中可以选择其它颜色的边框，例如绿色)，边框颜色越鲜艳，搜索结果越可靠。

5 视频抗抖动

为了去除视频中的抖动，本发明对上述计算过程中每一步的中间结果，都按照以下行业内常用公式去抖动：

V_new＝(V_current+V_old*7)/8

所述内容为行业公知技术，此不赘述。

上述的对实施例的描述是为便于该技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对这些实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于这里的实施例，本领域技术人员根据本发明的揭示，不脱离本发明范畴所做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种基于图像异构计算的实时视频流文字定位方法，其特征在于：包括：

构建异构计算平台，设置摄像头；

安装操作系统并配置相关必要软件、驱动程序；

建立标准字库，将字符集中的所有字符存储至数据库；

抽象数字图像处理的计算步骤，构建并行计算API接口；

从摄像头捕获一帧图像，转换成灰度图；

按照固定大小分块，根据分块对比度进行直方图均衡和黑白二值化；

将原图进行模糊，按固定宽度将原图分割成竖条状，得到每个竖条的每一行的起始和终止位置；

根据得到的位置计算其斜率；

将斜率和历史计算值加权，对此时的图像进行倾斜校正；

按行求和，对结果进行统计，模糊，以前5％为基准线，作为行划分的依据；

按列求和，对结果进行统计，模糊，并依次估计字符平均宽度；

以平均字宽为依据，进行单词的划分；

按照平均为依据，对单词进行划分为单个字符；对于没有充分划分依据的单字进行标定；以词为单位，取出和待查找的字符串进行匹配，求出误差矩阵的平方和，定义为其与目标字符串的相似度；

将所有单词的相似度从大到小排列，与历史结果加权，将前5％的单词标定作为搜索结果。

2.根据权利要求1所述的方法，其特征在于：所述异构计算平台为x86异构计算平台，包括中央处理器单元和用于并行计算的通用计算显卡的确定。

3.根据权利要求1所述的方法，其特征在于：所述发行版操作系统为Linux发行版操作系统。

4.根据权利要求1所述的方法，其特征在于：所述标准字库，将字符集中的所有字符降采样至12×12点阵。

5.根据权利要求1所述的方法，其特征在于：

所述斜率通过最小二乘法计算得到。