CN110059600B - 一种基于指向手势的单行文字识别方法 - Google Patents
一种基于指向手势的单行文字识别方法 Download PDFInfo
- Publication number
- CN110059600B CN110059600B CN201910281744.8A CN201910281744A CN110059600B CN 110059600 B CN110059600 B CN 110059600B CN 201910281744 A CN201910281744 A CN 201910281744A CN 110059600 B CN110059600 B CN 110059600B
- Authority
- CN
- China
- Prior art keywords
- image
- text
- line
- character
- pointing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/243—Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
- G06V40/11—Hand-related biometrics; Hand pose recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
- G06V40/113—Recognition of static hand signs
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种基于指向手势的单行文字识别方法,通过检测用户指向手势,并获取指向位置,分割出上方文字图像,并实现倾斜矫正,弯曲文字行分割,获得完整一行文字区域图像,再对单行文字区域图像进行应用神经网络的文字识别。本发明能获取手指指向位置上方的单行文字,减少了识别耗时,且能实现弯曲的文字行分割。
Description
技术领域
本发明涉及计算机视觉领域,尤其涉及一种基于指向手势的单行文字识别方法。
背景技术
随着计算机视觉领域的发展,视觉辅助眼镜产业集聚了更多的科技成果。加在视觉辅助眼镜上的摄像头能够获取更多的图像信息。通过文本图像信息,可以提供给视觉障碍的用户文本内容的阅读。但是通过辅助设备自然场景中对手持文本进行拍照,图像存在文本变形、页面旋转、光照不均、多尺度等情况。现有技术方案中,传统的光学字符识别算法主要面向排版整齐的高质量文本图像,或者是应用神经网络算法进行自然场景图像文本识别。针对自然场景图像中多个文字区域只阅读单行文字的情况,现有技术方案存在以下问题。
自然场景图像中文字区域多,无法确定用户想要阅读的地方。自然场景图像中单行文字区域存在变形弯曲,传统的光学字符识别算法会存在文字排序错误。直接应用神经网络算法处理自然场景图像耗时大,单个字符识别后还存在重新排序问题。
发明内容
为解决上述技术问题,本发明提供了一种基于指向手势的单行文字识别方法。
本发明采用如下技术方案:一种基于指向手势的单行文字识别方法,包括以下步骤:
(1)获取带有指向手势的自然场景文字图像;
(2)识别出指向手势,获取指向位置;
(3)文本倾斜矫正;
(4)弯曲单行文本分割;
(5)识别单行文字。
进一步地,所述步骤1为:通过摄像头,获取用户使用食指指向文本的文本彩色图像。
进一步地,所述步骤2通过训练指向手势分类器,使用分类器识别图像中指向手势,获得手势图像。
进一步地,所述步骤2中:对手势图像进行基于颜色空间的手势分割,获得手势分割二值图像,对手势分割二值图像进行距离变换,获得距离变换图中重心点,检测手势分割二值图像的凸包点,筛选出离重心点最远的凸包点,作为指向位置坐标。
进一步地,所述步骤3具体为:文本彩色图像灰度变换,获得文本灰度图像,从文本灰度图像截取指向位置坐标上方矩形区域R1内图像,采用最大稳定极值区域(maximallystable extremal regions,MSER)算法,分割出文字,并使用K*K结构元素膨胀,其中K<5,获取指向位置处最近连通域。对连通域直线拟合,计算出直线角度angle,和连通域高度均值height。以指向位置为中心,以angle为角度旋转文本灰度图像,获得文本倾斜矫正图像。
进一步地,所述步骤4具体为:对文本倾斜矫正图像中截取指向位置处上方R2矩形区域内图像,采用MSER算法,分割出文字并使用M*N横向膨胀,其中M>N>5,得到R2矩形内二值图像。在R2矩形二值图像中,保留指向位置处最近的连通域,获得文字行定位二值图像。对文字行定位二值图像做垂直投影,划分成L个子图像,对每个子图像水平投影划分成H个子图像,其中L=文字行定位图像的宽/height,H=文字行定位图像的高/(2*height)。在L*H个子图中,剔除全部为背景的子图。遍历L组中子图像,以第一组单个子图开始向后连接下一组中满足质心距离条件且质心距离最小的单个子图,质心距离条件是前一个子图质心与后一个子图质心的距离小于1.5*height。连接后组成Z组子图序列。筛选Z组序列中与指向位置坐标最近的子图序列P。文本灰度图像中抠出子图序列P的连通区域作为弯曲文字行图像。
进一步地,所述步骤5具体为:具体为:构建文字识别模型,对输入的文本行图像进行识别,得到识别后的文本信息。
本发明的技术效果在于:本发明通过检测用户指向手势,并获取指向位置,分割出上方文字图像,并实现倾斜矫正,弯曲文字行分割,获得完整一行文字区域图像,再对单行文字区域图像进行应用神经网络的文字识别。本发明能获取手指指向位置上方的单行文字,减少了识别耗时,且能实现弯曲的文字行分割。
附图说明
图1为本发明的识别流程图;
图2为本实施例中获取的文本彩色图像;
图3为本实施例中识别出指向手势的手势图像;
图4为本实施例中获取的弯曲文字行图像。
具体实施方式
为了能够更清楚地理解本发明的目的,特征和优点,下面结合附图和具体实施方式对本发明做进一步的详细描述。
图1为本发明一种基于指向手势的单行文本图像识别方法的实施例的流程图。该方法包括:
步骤1:获取带有指向手势的自然场景文字图像。
通过用户佩戴的视觉辅助眼镜上的摄像头,获取用户使用食指指向文本的文本彩色图像,如图2所示。
步骤2:识别出指向手势。
收集指向手势的图像作为训练样本,采用机器学习方法训练指向手势分类器,使用分类器识别文本彩色图像中指向手势,获得手势位置handRect和手势图像,如图3所示。
步骤3:获取指向位置。
对手势图像进行基于颜色空间的手势分割,获得手势分割二值图像,对手势分割二值图像进行距离变换,获得距离变换图,以距离变换图中最大值点作为重心点,并检测手势分割二值图像的凸包点,筛选出离重心点最远的凸包点P点,作为指向位置F点,Fx=Px+handRectx,Fy=Py+handRecty。
步骤4:文本倾斜矫正。
文本彩色图像灰度变换,获得文本灰度图像,从文本灰度图像截取指向位置上方R1矩形区域内图像。采用最大稳定极值区域(maximally stable extremal regions,MSER)算法,分割出文字并使用K*K结构元素膨胀,其中K<5,得到膨胀后二值图像。获取指向位置处最近连通域,对连通域直线拟合,计算出直线角度angle,和行高height。以指向位置为中心,以angle为角度旋转文本灰度图像,获得文本倾斜矫正图像。
步骤5:弯曲单行文本分割。
对文本倾斜矫正图像中截取指向位置处上方R2矩形区域内图像,采用MSER算法,分割出文字并使用M*N横向膨胀,其中M>N>5,得到R2矩形内二值图像。在R2矩形二值图像中,保留指向位置处最近的连通域,获得文字行定位二值图像。对文字行定位二值图像做垂直投影,划分成L个子图像,对每个子图像水平投影划分成H个子图像,其中L=文字行定位图像的宽/height,H=文字行定位图像的高/(2*height)。在L*H个子图中,剔除无目标的黑色子图。遍历L组中子图像,以第一组单个子图开始向后连接相邻组单个子图,连接原则是前一个子图质心与后一个子图质心的距离小于1.5*height。连接后组成Z组子图序列。筛选Z组序列中与指向位置坐标最近的子图序列P。文本灰度图像中抠出以子图序列P连通的部分作为弯曲文字行图像,如图4所示。
步骤6:识别单行文字。
构建文字识别模型,对输入的文本行图像进行识别,得到识别后的文本信息。
Claims (5)
1.一种基于指向手势的单行文字识别方法,其特征在于,包括以下步骤:
(1)获取带有指向手势的自然场景文字图像;
(2)识别出指向手势,获取指向位置;
(3)文本倾斜矫正;具体为:文本彩色图像灰度变换,获得文本灰度图像,从文本灰度图像截取指向位置坐标上方矩形区域R1内图像,采用最大稳定极值区域MSER算法,分割出文字,并使用K*K结构元素膨胀,其中K<5,获取指向位置处最近连通域;对连通域直线拟合,计算出直线角度angle,和连通域高度均值height,以指向位置为中心,以angle为角度旋转文本灰度图像,获得文本倾斜矫正图像;
(4)弯曲单行文本分割;具体为:对文本倾斜矫正图像中截取指向位置处上方R2矩形区域内图像,采用MSER算法,分割出文字并使用M*N横向膨胀,其中M>N>5,得到R2矩形内二值图像;在R2矩形二值图像中,保留指向位置处最近的连通域,获得文字行定位二值图像;对文字行定位二值图像做垂直投影,划分成L个子图像,对每个子图像水平投影划分成H个子图像,其中L = 文字行定位图像的宽/height,H=文字行定位图像的高/(2*height);在L*H个子图中,剔除全部为背景的子图;遍历L组中子图像,以第一组单个子图开始向后连接下一组中满足质心距离条件且质心距离最小的单个子图,质心距离条件是前一个子图质心与后一个子图质心的距离小于1.5*height;连接后组成Z组子图序列;筛选Z组序列中与指向位置坐标最近的子图序列P;文本灰度图像中抠出子图序列P的连通区域作为弯曲文字行图像;
(5)识别单行文字。
2.根据权利要求1所述的文字识别方法,其特征在于,所述步骤(1)为:通过摄像头,获取用户使用食指指向文本的文本彩色图像。
3.根据权利要求1所述的文字识别方法,其特征在于,所述步骤(2)通过训练指向手势分类器,使用分类器识别图像中指向手势,获得手势图像。
4.根据权利要求1所述的文字识别方法,其特征在于,所述步骤(2)中:对手势图像进行基于颜色空间的手势分割,获得手势分割二值图像,对手势分割二值图像进行距离变换,获得距离变换图中重心点,检测手势分割二值图像的凸包点,筛选出离重心点最远的凸包点,作为指向位置坐标。
5.根据权利要求1所述的文字识别方法,其特征在于,所述步骤(5)具体为:构建文字识别模型,对输入的文本行图像进行识别,得到识别后的文本信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910281744.8A CN110059600B (zh) | 2019-04-09 | 2019-04-09 | 一种基于指向手势的单行文字识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910281744.8A CN110059600B (zh) | 2019-04-09 | 2019-04-09 | 一种基于指向手势的单行文字识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110059600A CN110059600A (zh) | 2019-07-26 |
CN110059600B true CN110059600B (zh) | 2021-07-06 |
Family
ID=67317628
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910281744.8A Active CN110059600B (zh) | 2019-04-09 | 2019-04-09 | 一种基于指向手势的单行文字识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110059600B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110610177A (zh) * | 2019-09-16 | 2019-12-24 | 卓尔智联(武汉)研究院有限公司 | 字符识别模型的训练方法、字符识别方法及装置 |
CN113963355B (zh) * | 2021-12-22 | 2022-03-25 | 北京亮亮视野科技有限公司 | Ocr文字识别方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102208025A (zh) * | 2011-05-27 | 2011-10-05 | 中国科学院自动化研究所 | 一种文本图像几何畸变的矫正方法 |
CN103136523A (zh) * | 2012-11-29 | 2013-06-05 | 浙江大学 | 一种自然图像中任意方向文本行检测方法 |
US8666199B2 (en) * | 2009-10-07 | 2014-03-04 | Google Inc. | Gesture-based selection text recognition |
CN107992867A (zh) * | 2016-10-26 | 2018-05-04 | 深圳超多维科技有限公司 | 用于手势指点翻译的方法、装置及电子设备 |
CN108596066A (zh) * | 2018-04-13 | 2018-09-28 | 武汉大学 | 一种基于卷积神经网络的字符识别方法 |
-
2019
- 2019-04-09 CN CN201910281744.8A patent/CN110059600B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8666199B2 (en) * | 2009-10-07 | 2014-03-04 | Google Inc. | Gesture-based selection text recognition |
CN102208025A (zh) * | 2011-05-27 | 2011-10-05 | 中国科学院自动化研究所 | 一种文本图像几何畸变的矫正方法 |
CN103136523A (zh) * | 2012-11-29 | 2013-06-05 | 浙江大学 | 一种自然图像中任意方向文本行检测方法 |
CN107992867A (zh) * | 2016-10-26 | 2018-05-04 | 深圳超多维科技有限公司 | 用于手势指点翻译的方法、装置及电子设备 |
CN108596066A (zh) * | 2018-04-13 | 2018-09-28 | 武汉大学 | 一种基于卷积神经网络的字符识别方法 |
Non-Patent Citations (2)
Title |
---|
Handwritten Chinese text line segmentation by clustering with distance metric learning;Fei Yin 等;《Pattern Recognition》;20091231;第42卷(第12期);全文 * |
中文扭曲文本图像校正的研究与应用;王晓;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140915;第2014年卷(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110059600A (zh) | 2019-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325203B (zh) | 一种基于图像校正的美式车牌识别方法及系统 | |
CN106156761B (zh) | 面向移动终端拍摄的图像表格检测与识别方法 | |
CN109409366B (zh) | 基于角点检测的畸变图像校正方法及装置 | |
WO2021233266A1 (zh) | 边缘检测方法和装置、电子设备和存储介质 | |
CN109977723B (zh) | 大票据图片文字识别方法 | |
Dave | Segmentation methods for hand written character recognition | |
CN113486828B (zh) | 图像处理方法、装置、设备和存储介质 | |
CN113128442A (zh) | 基于卷积神经网络的汉字书法风格识别方法和评分方法 | |
CN110598566A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN107944451B (zh) | 一种藏文古籍文档的行切分方法及系统 | |
CN105027145B (zh) | 可标记表面的自动分类和颜色增强 | |
CN116071763B (zh) | 基于文字识别的教辅图书智能校编系统 | |
CN110059600B (zh) | 一种基于指向手势的单行文字识别方法 | |
CN107122775A (zh) | 一种基于特征匹配的安卓手机身份证字符识别方法 | |
CN113033558B (zh) | 一种用于自然场景的文本检测方法及装置、存储介质 | |
KR20110051374A (ko) | 단말기에서 데이터 처리 방법 및 그를 수행하는 장치 | |
CN113903024A (zh) | 一种手写票据数值信息识别方法、系统、介质及装置 | |
CN105225218A (zh) | 用于文档图像的畸变校正方法和设备 | |
CN111967286A (zh) | 信息承载介质的识别方法、识别装置、计算机设备和介质 | |
CN110427909B (zh) | 一种移动端驾驶证检测方法、系统及电子设备和存储介质 | |
CN108197624A (zh) | 证书图像校正识别方法及装置、计算机存储介质 | |
CN109508714B (zh) | 一种低成本多通道实时数字仪表盘视觉识别方法及系统 | |
CN109543525B (zh) | 一种通用表格图像的表格提取方法 | |
Sober et al. | Computer aided restoration of handwritten character strokes | |
CN114005127A (zh) | 一种基于深度学习的图像光学文字识别方法,存储装置及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |