CN110059600B

CN110059600B - 一种基于指向手势的单行文字识别方法

Info

Publication number: CN110059600B
Application number: CN201910281744.8A
Authority: CN
Inventors: 严江江; 林龙庆; 于红雷; 孙俊伟
Original assignee: Hangzhou Kr Vision Technology Co ltd
Current assignee: Hangzhou Kr Vision Technology Co ltd
Priority date: 2019-04-09
Filing date: 2019-04-09
Publication date: 2021-07-06
Anticipated expiration: 2039-04-09
Also published as: CN110059600A

Abstract

本发明公开了一种基于指向手势的单行文字识别方法，通过检测用户指向手势，并获取指向位置，分割出上方文字图像，并实现倾斜矫正，弯曲文字行分割，获得完整一行文字区域图像，再对单行文字区域图像进行应用神经网络的文字识别。本发明能获取手指指向位置上方的单行文字，减少了识别耗时，且能实现弯曲的文字行分割。

Description

一种基于指向手势的单行文字识别方法

技术领域

本发明涉及计算机视觉领域，尤其涉及一种基于指向手势的单行文字识别方法。

背景技术

随着计算机视觉领域的发展，视觉辅助眼镜产业集聚了更多的科技成果。加在视觉辅助眼镜上的摄像头能够获取更多的图像信息。通过文本图像信息，可以提供给视觉障碍的用户文本内容的阅读。但是通过辅助设备自然场景中对手持文本进行拍照，图像存在文本变形、页面旋转、光照不均、多尺度等情况。现有技术方案中，传统的光学字符识别算法主要面向排版整齐的高质量文本图像，或者是应用神经网络算法进行自然场景图像文本识别。针对自然场景图像中多个文字区域只阅读单行文字的情况，现有技术方案存在以下问题。

自然场景图像中文字区域多，无法确定用户想要阅读的地方。自然场景图像中单行文字区域存在变形弯曲，传统的光学字符识别算法会存在文字排序错误。直接应用神经网络算法处理自然场景图像耗时大，单个字符识别后还存在重新排序问题。

发明内容

为解决上述技术问题，本发明提供了一种基于指向手势的单行文字识别方法。

本发明采用如下技术方案：一种基于指向手势的单行文字识别方法，包括以下步骤：

(1)获取带有指向手势的自然场景文字图像；

(2)识别出指向手势，获取指向位置；

(3)文本倾斜矫正；

(4)弯曲单行文本分割；

(5)识别单行文字。

进一步地，所述步骤1为：通过摄像头，获取用户使用食指指向文本的文本彩色图像。

进一步地，所述步骤2通过训练指向手势分类器，使用分类器识别图像中指向手势，获得手势图像。

进一步地，所述步骤2中：对手势图像进行基于颜色空间的手势分割，获得手势分割二值图像，对手势分割二值图像进行距离变换，获得距离变换图中重心点，检测手势分割二值图像的凸包点，筛选出离重心点最远的凸包点，作为指向位置坐标。

进一步地，所述步骤3具体为：文本彩色图像灰度变换，获得文本灰度图像，从文本灰度图像截取指向位置坐标上方矩形区域R1内图像，采用最大稳定极值区域(maximallystable extremal regions，MSER)算法，分割出文字，并使用K*K结构元素膨胀，其中K<5，获取指向位置处最近连通域。对连通域直线拟合，计算出直线角度angle，和连通域高度均值height。以指向位置为中心，以angle为角度旋转文本灰度图像，获得文本倾斜矫正图像。

进一步地，所述步骤4具体为：对文本倾斜矫正图像中截取指向位置处上方R2矩形区域内图像，采用MSER算法，分割出文字并使用M*N横向膨胀，其中M>N>5，得到R2矩形内二值图像。在R2矩形二值图像中，保留指向位置处最近的连通域，获得文字行定位二值图像。对文字行定位二值图像做垂直投影，划分成L个子图像，对每个子图像水平投影划分成H个子图像，其中L＝文字行定位图像的宽/height，H＝文字行定位图像的高/(2*height)。在L*H个子图中，剔除全部为背景的子图。遍历L组中子图像，以第一组单个子图开始向后连接下一组中满足质心距离条件且质心距离最小的单个子图，质心距离条件是前一个子图质心与后一个子图质心的距离小于1.5*height。连接后组成Z组子图序列。筛选Z组序列中与指向位置坐标最近的子图序列P。文本灰度图像中抠出子图序列P的连通区域作为弯曲文字行图像。

进一步地，所述步骤5具体为：具体为：构建文字识别模型，对输入的文本行图像进行识别，得到识别后的文本信息。

本发明的技术效果在于：本发明通过检测用户指向手势，并获取指向位置，分割出上方文字图像，并实现倾斜矫正，弯曲文字行分割，获得完整一行文字区域图像，再对单行文字区域图像进行应用神经网络的文字识别。本发明能获取手指指向位置上方的单行文字，减少了识别耗时，且能实现弯曲的文字行分割。

附图说明

图1为本发明的识别流程图；

图2为本实施例中获取的文本彩色图像；

图3为本实施例中识别出指向手势的手势图像；

图4为本实施例中获取的弯曲文字行图像。

具体实施方式

为了能够更清楚地理解本发明的目的，特征和优点，下面结合附图和具体实施方式对本发明做进一步的详细描述。

图1为本发明一种基于指向手势的单行文本图像识别方法的实施例的流程图。该方法包括：

步骤1：获取带有指向手势的自然场景文字图像。

通过用户佩戴的视觉辅助眼镜上的摄像头，获取用户使用食指指向文本的文本彩色图像,如图2所示。

步骤2：识别出指向手势。

收集指向手势的图像作为训练样本，采用机器学习方法训练指向手势分类器，使用分类器识别文本彩色图像中指向手势，获得手势位置handRect和手势图像,如图3所示。

步骤3：获取指向位置。

对手势图像进行基于颜色空间的手势分割，获得手势分割二值图像，对手势分割二值图像进行距离变换，获得距离变换图，以距离变换图中最大值点作为重心点，并检测手势分割二值图像的凸包点，筛选出离重心点最远的凸包点P点，作为指向位置F点,F_x＝P_x+handRect_x,F_y＝P_y+handRect_y。

步骤4：文本倾斜矫正。

文本彩色图像灰度变换，获得文本灰度图像，从文本灰度图像截取指向位置上方R1矩形区域内图像。采用最大稳定极值区域(maximally stable extremal regions，MSER)算法，分割出文字并使用K*K结构元素膨胀，其中K<5，得到膨胀后二值图像。获取指向位置处最近连通域，对连通域直线拟合，计算出直线角度angle，和行高height。以指向位置为中心，以angle为角度旋转文本灰度图像，获得文本倾斜矫正图像。

步骤5：弯曲单行文本分割。

对文本倾斜矫正图像中截取指向位置处上方R2矩形区域内图像，采用MSER算法，分割出文字并使用M*N横向膨胀，其中M>N>5，得到R2矩形内二值图像。在R2矩形二值图像中，保留指向位置处最近的连通域，获得文字行定位二值图像。对文字行定位二值图像做垂直投影，划分成L个子图像，对每个子图像水平投影划分成H个子图像，其中L＝文字行定位图像的宽/height，H＝文字行定位图像的高/(2*height)。在L*H个子图中，剔除无目标的黑色子图。遍历L组中子图像，以第一组单个子图开始向后连接相邻组单个子图，连接原则是前一个子图质心与后一个子图质心的距离小于1.5*height。连接后组成Z组子图序列。筛选Z组序列中与指向位置坐标最近的子图序列P。文本灰度图像中抠出以子图序列P连通的部分作为弯曲文字行图像，如图4所示。

步骤6：识别单行文字。

构建文字识别模型，对输入的文本行图像进行识别，得到识别后的文本信息。

Claims

1.一种基于指向手势的单行文字识别方法，其特征在于，包括以下步骤：

（1）获取带有指向手势的自然场景文字图像；

（2）识别出指向手势，获取指向位置；

（3）文本倾斜矫正；具体为：文本彩色图像灰度变换，获得文本灰度图像，从文本灰度图像截取指向位置坐标上方矩形区域R1内图像，采用最大稳定极值区域MSER算法，分割出文字，并使用K*K结构元素膨胀，其中K<5，获取指向位置处最近连通域；对连通域直线拟合，计算出直线角度angle，和连通域高度均值height，以指向位置为中心，以angle为角度旋转文本灰度图像，获得文本倾斜矫正图像；

（4）弯曲单行文本分割；具体为：对文本倾斜矫正图像中截取指向位置处上方R2矩形区域内图像，采用MSER算法，分割出文字并使用M*N横向膨胀，其中M>N>5，得到R2矩形内二值图像；在R2矩形二值图像中，保留指向位置处最近的连通域，获得文字行定位二值图像；对文字行定位二值图像做垂直投影，划分成L个子图像，对每个子图像水平投影划分成H个子图像，其中L = 文字行定位图像的宽/height，H=文字行定位图像的高/（2*height）；在L*H个子图中，剔除全部为背景的子图；遍历L组中子图像，以第一组单个子图开始向后连接下一组中满足质心距离条件且质心距离最小的单个子图，质心距离条件是前一个子图质心与后一个子图质心的距离小于1.5*height；连接后组成Z组子图序列；筛选Z组序列中与指向位置坐标最近的子图序列P；文本灰度图像中抠出子图序列P的连通区域作为弯曲文字行图像；

（5）识别单行文字。

2.根据权利要求1所述的文字识别方法，其特征在于，所述步骤（1）为：通过摄像头，获取用户使用食指指向文本的文本彩色图像。

3.根据权利要求1所述的文字识别方法，其特征在于，所述步骤（2）通过训练指向手势分类器，使用分类器识别图像中指向手势，获得手势图像。

4.根据权利要求1所述的文字识别方法，其特征在于，所述步骤（2）中：对手势图像进行基于颜色空间的手势分割，获得手势分割二值图像，对手势分割二值图像进行距离变换，获得距离变换图中重心点，检测手势分割二值图像的凸包点，筛选出离重心点最远的凸包点，作为指向位置坐标。

5.根据权利要求1所述的文字识别方法，其特征在于，所述步骤（5）具体为：构建文字识别模型，对输入的文本行图像进行识别，得到识别后的文本信息。