CN106384112A - 基于多通道多尺度与级联过滤器的快速图像文本检测方法 - Google Patents
基于多通道多尺度与级联过滤器的快速图像文本检测方法 Download PDFInfo
- Publication number
- CN106384112A CN106384112A CN201610808517.2A CN201610808517A CN106384112A CN 106384112 A CN106384112 A CN 106384112A CN 201610808517 A CN201610808517 A CN 201610808517A CN 106384112 A CN106384112 A CN 106384112A
- Authority
- CN
- China
- Prior art keywords
- region
- character
- character candidates
- coarse filtration
- candidates region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多通道多尺度与级联过滤器的快速图像文本检测方法,主要解决现有技术查全率低和速度慢的问题。其过程是:1)在输入图像的不同通道和尺度下提取最大稳定极值区域作为字符候选区域;2)用由粗到细的级联过滤器去除字符候选区域中的背景区域,即先为字符候选区域的形态学特征设置阈值,进行第一级粗过滤;再为字符候选区域的笔画宽度和笔画宽度变异系数设置阈值,进行第二次级粗过滤,之后去除重叠的区域,利用卷积神经网络二分类器进行细过滤;3)根据级联过滤后的字符候选区域的几何和位置特征,用图模型将该区域聚合成字符串。本发明具有很高的查全率、较高的准确率和较快的速度,可用于各种干扰下的图像文本的检测。
Description
技术领域
本发明属于图像处理技术领域,特别涉及图像文本检测方法,可用车牌,路标等自然场景图像中的文本检测。
背景技术
随着计算机、手持移动拍照设备的高速发展和web 2.0技术的普及,包含文本的网络图像数量激增。通过从图像中提取文本信息,有助于加深图像理解,从海量数据中检索所需信息,有效节约时间和提升效率。传统的文档文本检测技术已趋成熟,但图像文本由于其复杂性,仍存在诸多挑战,比如,字体的多变性,背景的复杂性和其他干扰因素等。因此,有关图像中的文本检测逐渐成为图像处理领域的热点。
目前图像文本检测的方法主要分为以下两类:
第一类是基于滑动窗口检测。该方法使用子窗口多尺度在图像上滑动,然后通过一个预先训练的分类器判断子窗内是否含有文本信息。传统的分类器使用手工设计的特征。中国华中科技大学的Zhang等提出了一种基于对称性的文本行检测方法,该方法利用文本的对称特征和外观特征训练文本检测器。基于卷积神经网络的分类器能够自动提取高层和底层的特征,相比于传统的手工参数更加准确和有效。谷歌Deep Mind的Jaderberg等通过训练一个卷积神经网络CNN二分类器,多尺度滑动得到文本置信度图,从而定位文本。然而,基于滑动窗口的方法一般只能检测水平文本,并且对旋转和尺度很敏感。此外,这类方法要遍历所有的位置和尺度,故其速度一般很慢。
第二类是基于连通分量的方法。该方法成为自然场景中文本定位的主流方向。其实现方案是:首先计算图像中每个像素点的局部特征,然后使用连通分量分析把具有相似局部特征的像素点聚合成一个连通区域,连通区域通常是一个分割完整的字符。该方法主要分为两类:一类是微软公司的Epshteine针对一个字符具有相似的笔画宽度,提出的基于笔画宽度转换SWT的方法;另一类是捷克科技大学的Neumann针对一个字符具有相似的颜色信息,提出的在灰度,HSI,RGB和等8个通道下提取最大稳定极值区域MSER的方法。
上述已有的图像文本检测方法主要存在以下四个主要问题:
1)检测速度较慢。
2)对于大字符,点阵字体、半透明和非均匀光照等文本的检测性能较差。
3)字符串合成时容易产生断裂和丢失,且文本检测的查全率较低。
发明内容
本发明的目的在于针对上述已有技术的不足,提出一种基于多通道多尺度与级联过滤器的快速图像文本检测方法,以提高文本检测速度,加强对大字符,点阵字体和非均匀光照干扰文本的检测效果,提高单词合并的完整性和检测查全率。
为实现上述目的,本发明的技术方案包括如下:
A.分别在输入图像的不同通道和尺度下提取最大稳定极值区域,并将得到的最大稳定极值区域作为字符候选区域;
B.收集包含字符与背景两类样本的非平衡数据集,用该数据集对卷积神经网络进行训练,得到卷积神经网络二分类器;
C.采用由粗到细的级联过滤器去除字符候选区域中的背景区域,即先依据字符候选区域的形态学和笔画宽度特征进行粗过滤,再用卷积神经网络二分类器对粗过滤后的字符候选区域进行细过滤,得到级联过滤后的字符候选区域;
D.根据级联过滤后的字符候选区域的几何和位置特征,对该区域进行聚类;
D1)在级联过滤后的字符候选区域的左右方向上,将与其笔画宽度S、骨架灰度强度均值C和尺度H特征相似的级联过滤后的字符候选区域,归为邻近字符候选;
D2)利用图模型对邻近字符候选聚类,并去除没有邻近字符候选的级联过滤后的字符候选区域;
D3)用一个最小外接矩形将聚为一类的邻近字符候选框起,得到最终的文本检测框。
本发明与现有技术相比具有如下优点:
(1)本发明由于采用在输入图像的不同通道和尺度下提取字符候选区域,因而对于大字符、点阵字体、遮挡文本和透明文本有着很好的检测效果,相比现有技术有效提升了文本检测查全率。
(2)本发明由于采用由粗到细的级联过滤器滤除字符候选区域中的背景区域,相比于现有技术可有效去除误检,提高文本检测的准确性。
(3)本发明由于采用多种有效的几何特征和图模型用于单词合成,相比于现有技术可有效的避免字符串合成阶段产生的断裂,保证了合成的字符串的完整性。
(4)本发明结构简单明了,且采用相对于当前存在方法更大的Δ和更少的通道提取字符候选区域,有效的提高了本发明的速度。
附图说明
图1是本发明的实现流程图;
图2是本发明在不同通道下提取字符候选区域的示意图;
图3是本发明在不同尺度下提取字符候选区域的示意图;
图4是本发明在字符候选区域提取的骨架和笔画宽度示意图;
图5是本发明中使用的卷积神经网络二分类器示意图。
具体实施方式
参照图1,本发明的实现步骤如下:
步骤1:在输入图像的不同通道和尺度下,提取最大稳定极值区域作为字符候选区域。
1a)将输入图像I的长和宽均缩小至原来的0.125倍,得到缩小后的图像I1;
1b)将输入图像I和缩小后的图像I1从RGB颜色空间转换到YUV颜色空间,其中Y表示亮度分量,U是蓝色色度分量,V是红色色度分量;
1c)分别在输入图像I和缩小后图像I1的RGBUV通道中,按如下公式提取最大稳定极值区域作为字符候选,
其中,Qm表示灰度强度为m的区域,Δ是灰度强度变化量,本发明中将其设置为3,当q(m)为局部极小值时,则Qm称为最大稳定极值区域。
图2为本实例在不同通道下提取的字符候选区域,其中图2(a)表示输入图像I,图2(b)表示在R通道提取的字符候选区域,图2(c)表示在G通道下提取的字符候选区域,图2(d)表示在B通道下提取的字符候选区域,图2(e)表示在通道U下提取的字符候选区域,图2(f)表示在V通道下提取的字符候选区域;
图3为本实例在不同尺度下提取的字符候选区域,其中图3(a)表示输入图像I,图3(b)表示在输入图像I的灰度通道下提取的字符候选区域,图3(c)表示缩小后的图像I1在灰度通道提取的字符候选区域。
步骤2:为字符候选区域的形态学特征设定阈值,实现对字符候选区域中背景区域的第一级粗过滤。
2a)计算字符候选区域的长宽比,设置该长宽比的阈值为0.2~2.5;
2b)计算字符候选区域的最小凸多边形像素比,设置该最小凸多边形像素比的最小阈值的为0.25;
2c)计算字符候选区域的最小边界矩形的像素比,设置该最小边界矩形的像素比的阈值为0.15~0.85;
2d)计算字符候选区域的几何拓扑不变量——欧拉数,设置该欧拉数的最小阈值为-4;
2e)将上述特征值在阈值之外的字符候选区域滤除,完成第一级粗过滤。
步骤3:完成第二级粗过滤
3a)提取第一级粗过滤后字符候选区域的笔画特征,如图4。
3a1)提取第一级粗过滤后字符候选区域的二值图,并将其四周各扩充一个像素,得到扩充二值图,如图4(a)所示;
3a2)依次计算二值图中前景像素和与之最近的0像素的距离,得到距离图,如图4(b)所示;
3a3)根据距离图得到字符候选区域的骨架,如图4(c)所示;
3a4)依据字符候选区域的骨架,计算字符候选区域的笔画宽度S和笔画宽度变异系数V;
其中i表示字符候选区域中骨架的第i个像素,n表示骨架像素的数目,xi表示骨架像素i处笔画宽度值的一半,如图4(d)所示;
3b)将笔画宽度变异系数的阈值T1设置为0.45,笔画宽度的阈值T2设置为0.1×h,其中h为字符候选区域的高度;将V或S大于阈值T1或T2的第一级粗过滤后的字符候选区域滤除,完成第二级粗过滤;
步骤4:去除第二级粗过滤后字符候选区域中的重叠区域,完成粗过滤。
依次计算第二级粗过滤后字符候选区域之间的重叠率,若两者之间重叠率大于90%,则滤除最小凸多边形像素比最小的区域,完成粗过滤。
步骤5:设计非平衡数据集,对卷积神经网络二分类器进行训练。
5a)通过人工合成以及从自然场景图片中剪切,得到相同数量的字符与背景两类样本的数据集;
5b)利用自展法Bootstrap,迭代提取出B1)数据集中错误识别的背景样本,并将提取出的背景样本添加到B1)数据集中,最终得到一个字符与背景二分类的非平衡数据集,其中字符样本与背景样本的比例为1:2。
5c)将得到的非平衡数据集输入到卷积神经网络中进行训练,得到卷积神经网络二分类器,如图5所示。图5中的(a)为输入图,其大小为32×32,卷积核大小为5×5,(b)为第一次卷积后的图,其大小为28×28×20,卷积核大小为2×2,(c)为第一次池化后的图,其大小为14×14×20,卷积核大小为5×5,(d)为第二次卷积后的图,其大小为10×10×50,卷积核大小为2×2,(e)为第二次池化后的图,其大小为5×5×50,卷积核大小为5×5,(f)为全连接层,其大小为500×1,(g)为分类数目,其大小为2×1。
步骤6:利用卷积神经网络二分类器实现细过滤。
6a)将粗过滤后剩余的字符候选的四周均扩大0.1×h,得到扩大后的字符候选区域;
6b)将扩大后的字符候选区域的大小缩放到32×32;
6c)将缩放后的字符候选区域输入到卷积神经网络二分类器中,得到其属于字符或背景的分类结果;
6d)去除分类为背景的字符候选区域,得到级联过滤后的字符候选区域。
步骤7:字符串的合成。
7a)在级联过滤过滤器过滤后的字符候选区域的左右方向上,将与其笔画宽度S、骨架灰度强度均值C和尺度H相似的区域,归为邻近字符候选;
7b)利用图模型对邻近字符候选聚类,并去除没有邻近字符候选的级联过滤后的字符候选区域;
7c)用一个最小的矩形框将聚为一类的邻近字符框起,即为合成的字符串。
本发明的效果可通过以下实验进一步说明:
1.实验条件
本发明的实验在ICDAR2015的Challenge2——自然场景文本定位竞赛的官方网站上测得,该测试集一共包含233张自然场景文本图像,大小介于355×200与3888×2592之间,包含自然场景文本定位的各种干扰因素。
本发明的测试环境是Ubuntu下的MATLAB2015b,CNN模型的训练基于深度学习框架caffe。本发明依据DetEval规则,共三个评价标准,即查全率Recall,准确率Precision和综合评价F-score。
2.实验内容:
实验1:用本发明与当前Zhang的方法,在ICDAR2015测试集上进行运行速度的对比,如表1所示:
表1.本发明与当前Zhang的方法在运行速度上的对比
运行时间(秒) | 运行环境 | |
本发明 | 856.8 | Core i7CPU,3.4GHZ,16GRAM |
Zhang | 1376.6 | Core i7CPU,3.4GHZ,16GRAM |
表中Zhang的方法是:提取文本的对称性特征,设计文本对称性检测器,并使用文本对称性检测器多尺度在图像上滑动,实现文本检测。
通过表1的对比可见,在相同运行环境下,本发明对检测速度有很大提升。
实验2:用本发明与当前Zhang的方法,在ICDAR2015测试集上进行测试效果的对比,如表2所示;
表2.本发明与Zhang的方法在测试集上结果的对比
方法 | 年度 | Recall(%) | Precision(%) | F-score(%) |
本发明 | 2016 | 80.42 | 84.91 | 82.60 |
Zhang | 2015 | 76.05 | 87.96 | 81.58 |
通过表2的对比可见,可发现本发明在Recall和F-score两项评价标准上取得了最好的结果,尤其是Recall,较Zhang的方法有了较大的提升。
Claims (7)
1.一种基于多通道多尺度与级联过滤器的快速图像文本检测方法,包括如下:
A.分别在输入图像的不同通道和尺度下提取最大稳定极值区域,并将得到的最大稳定极值区域作为字符候选区域;
B.收集包含字符与背景两类样本的非平衡数据集,用该数据集对卷积神经网络进行训练,得到卷积神经网络二分类器;
C.采用由粗到细的级联过滤器去除字符候选区域中的背景区域,即先依据字符候选区域的形态学和笔画宽度S特征进行粗过滤,再用卷积神经网络二分类器对粗过滤后的字符候选区域进行细过滤,得到级联过滤后的字符候选区域;
D.根据级联过滤后的字符候选区域的几何和位置特征,对该区域进行聚类;
D1)在级联过滤后的字符候选区域的左右方向上,将与其笔画宽度S、骨架灰度强度均值C和尺度H特征相似的级联过滤后的字符候选区域,归为邻近字符候选;
D2)利用图模型对邻近字符候选聚类,并去除没有邻近字符候选的级联过滤后的字符候选区域;
D3)用一个最小外接矩形将聚为一类的邻近字符候选框起,得到最终的文本检测框。
2.根据权利要求1所述的方法,其特征在于所述步骤A中在输入图像的不同通道和尺度下提取最大稳定极值区域,按如下步骤进行:
A1)将输入图像I的长和宽均缩小至原来的0.125倍,得到缩小后的图像I1;
A2)将输入图像I和缩小后的图像I1从RGB颜色空间转换到YUV颜色空间;
A3)分别在输入图像I和缩小后的图像I1的RGBUV通道中,提取最大稳定极值区域。
3.根据权利要求1所述的方法,其特征在于步骤B中收集包含字符与背景两类样本的非平衡数据集,按如下步骤进行:
B1)通过人工合成以及从自然场景图片中剪切,得到相同数量的字符与背景两类样本的数据集;
B2)利用自展法Bootstrap,迭代提取出B1)数据集中错误识别的背景样本,并将提取出的背景样本添加到B1)数据集中,最终得到一个字符与背景二分类的非平衡数据集,其中字符样本与背景样本的比例为1:2。
4.根据权利要求1所述的方法,其特征在于步骤C中依据字符候选区域的形态学和笔画宽度特征进行粗过滤,按如下步骤进行:
C1)提取字符候选区域的几何特征:长宽比、最小凸多边形像素比、最小边界矩形像素比和欧拉数,分别设置这些特征的阈值,将特征值阈值之外的字符候选区域滤除,完成第一级粗过滤;
C2)提取第一级粗过滤后字符候选区域的骨架,进而得到其笔画宽度S和笔画宽度变异系数V,分别为这两个特征设置阈值,将特征值大于阈值的第一级粗过滤后的字符候选区域滤除,完成第二级粗过滤;
C3)依次计算第二级粗过滤后字符候选区域之间的重叠率,若两者之间重叠率大于90%,则滤除最小凸多边形像素比最小的区域,完成粗过滤。
5.根据权利要求1所述的方法,其特征在于步骤C中用卷积神经网络字符与背景二分类器对粗过滤后的字符候选区域进行细过滤,按如下步骤进行:
C4)提取粗过滤后的字符候选区域的高度h;
C5)将粗过滤后的字符候选区域的四周均扩大0.1×h,得到扩大后的字符候选区域,并将扩大后的字符候选区域的大小缩放为32×32;
C6)将缩放后的字符候选区域输入到卷积神经网络字符与背景二分类器中,得到其属于字符或背景的分类结果;
C7)将分类为背景的字符候选区域去除,完成细过滤。
6.根据权利要求4所示方法,其中C2)中的笔画宽度S,笔画宽度变异系数V,其计算公式如下:
其中i表示字符候选区域中骨架的第i个像素,n表示骨架像素的数目,xi表示骨架像素i处笔画宽度值的一半。
7.根据权利要求1所示方法,其中步骤D1)中的骨架灰度强度均值C,其公式如下:
其中CiR,CiG,CiB分别表示骨架像素i在R,G,B颜色通道下的强度值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610808517.2A CN106384112A (zh) | 2016-09-08 | 2016-09-08 | 基于多通道多尺度与级联过滤器的快速图像文本检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610808517.2A CN106384112A (zh) | 2016-09-08 | 2016-09-08 | 基于多通道多尺度与级联过滤器的快速图像文本检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106384112A true CN106384112A (zh) | 2017-02-08 |
Family
ID=57939650
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610808517.2A Pending CN106384112A (zh) | 2016-09-08 | 2016-09-08 | 基于多通道多尺度与级联过滤器的快速图像文本检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106384112A (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066972A (zh) * | 2017-04-17 | 2017-08-18 | 武汉理工大学 | 基于多通道极值区域的自然场景文本检测方法 |
CN107346420A (zh) * | 2017-06-19 | 2017-11-14 | 中国科学院信息工程研究所 | 一种基于深度学习的自然场景下文字检测定位方法 |
CN107609549A (zh) * | 2017-09-20 | 2018-01-19 | 北京工业大学 | 一种自然场景下证件图像的文本检测方法 |
CN107688821A (zh) * | 2017-07-11 | 2018-02-13 | 西安电子科技大学 | 基于视觉显著性与语义属性跨模态图像自然语言描述方法 |
CN107766860A (zh) * | 2017-10-31 | 2018-03-06 | 武汉大学 | 基于级联卷积神经网络的自然场景图像文本检测方法 |
CN108108746A (zh) * | 2017-09-13 | 2018-06-01 | 湖南理工学院 | 基于Caffe深度学习框架的车牌字符识别方法 |
CN108304761A (zh) * | 2017-09-25 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 文本检测方法、装置、存储介质和计算机设备 |
CN108345850A (zh) * | 2018-01-23 | 2018-07-31 | 哈尔滨工业大学 | 基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法 |
CN108492319A (zh) * | 2018-03-09 | 2018-09-04 | 西安电子科技大学 | 基于深度全卷积神经网络的运动目标检测方法 |
CN109117841A (zh) * | 2018-09-03 | 2019-01-01 | 厦门金龙联合汽车工业有限公司 | 基于笔画宽度变换与卷积神经网络的场景文本检测方法 |
CN109657671A (zh) * | 2018-12-19 | 2019-04-19 | 深圳供电局有限公司 | 铭牌文字识别方法、装置、计算机设备和存储介质 |
CN109993040A (zh) * | 2018-01-03 | 2019-07-09 | 北京世纪好未来教育科技有限公司 | 文本识别方法及装置 |
CN110110748A (zh) * | 2019-03-29 | 2019-08-09 | 广州思德医疗科技有限公司 | 一种原始图片的识别方法及装置 |
CN110163192A (zh) * | 2018-05-28 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 字符识别方法、装置及可读介质 |
CN111259764A (zh) * | 2020-01-10 | 2020-06-09 | 中国科学技术大学 | 文本检测方法、装置、电子设备及存储装置 |
CN111832390A (zh) * | 2020-05-26 | 2020-10-27 | 西南大学 | 一种手写古文字检测方法 |
CN112132215A (zh) * | 2020-09-22 | 2020-12-25 | 平安国际智慧城市科技股份有限公司 | 一种识别物体类型的方法、装置及计算机可读存储介质 |
CN112199545A (zh) * | 2020-11-23 | 2021-01-08 | 湖南蚁坊软件股份有限公司 | 基于图片文字定位的关键词显示方法、装置及存储介质 |
WO2021017998A1 (zh) * | 2019-07-26 | 2021-02-04 | 第四范式(北京)技术有限公司 | 文本位置定位方法和系统以及模型训练方法和系统 |
CN112861520A (zh) * | 2021-03-08 | 2021-05-28 | 成都字嗅科技有限公司 | 一种基于计算机的汉字结构优化方法及系统 |
-
2016
- 2016-09-08 CN CN201610808517.2A patent/CN106384112A/zh active Pending
Non-Patent Citations (7)
Title |
---|
LIUAN WANG等: "Globally Optimal Text Line Extraction based on K-Shortest Paths algorithm", 《2016 12TH IAPR WORKSHOP ON DOCUMENT ANALYSIS SYSTEMS》 * |
SHANGXUAN TIAN: "Text Flow: A Unified Text Detection System in Natural Scene Images", 《2015 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION》 * |
YAO LI等: "Scene Text Detection via Stroke Width", 《21ST INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR 2012)》 * |
刘亚亚: "图像中文本区域定位的研究", 《中国优秀硕士学位论文全文数据库-信息科技辑》 * |
刘亚亚等: "基于笔画宽度变换的场景文本定位", 《小型微型计算机系统》 * |
廖威敏: "面向自然场景的端对端英文文字识别研究", 《中国优秀硕士学位论文全文数据库-信息科技辑》 * |
江彤: "层次化的自然场景文本检测算法研究", 《中国优秀硕士学位论文全文数据库-信息科技辑》 * |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066972A (zh) * | 2017-04-17 | 2017-08-18 | 武汉理工大学 | 基于多通道极值区域的自然场景文本检测方法 |
CN107066972B (zh) * | 2017-04-17 | 2019-06-21 | 武汉理工大学 | 基于多通道极值区域的自然场景文本检测方法 |
CN107346420B (zh) * | 2017-06-19 | 2020-02-11 | 中国科学院信息工程研究所 | 一种基于深度学习的自然场景下文字检测定位方法 |
CN107346420A (zh) * | 2017-06-19 | 2017-11-14 | 中国科学院信息工程研究所 | 一种基于深度学习的自然场景下文字检测定位方法 |
CN107688821A (zh) * | 2017-07-11 | 2018-02-13 | 西安电子科技大学 | 基于视觉显著性与语义属性跨模态图像自然语言描述方法 |
CN108108746A (zh) * | 2017-09-13 | 2018-06-01 | 湖南理工学院 | 基于Caffe深度学习框架的车牌字符识别方法 |
CN108108746B (zh) * | 2017-09-13 | 2021-04-09 | 湖南理工学院 | 基于Caffe深度学习框架的车牌字符识别方法 |
CN107609549A (zh) * | 2017-09-20 | 2018-01-19 | 北京工业大学 | 一种自然场景下证件图像的文本检测方法 |
CN107609549B (zh) * | 2017-09-20 | 2021-01-08 | 北京工业大学 | 一种自然场景下证件图像的文本检测方法 |
CN108304761A (zh) * | 2017-09-25 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 文本检测方法、装置、存储介质和计算机设备 |
US11030471B2 (en) | 2017-09-25 | 2021-06-08 | Tencent Technology (Shenzhen) Company Limited | Text detection method, storage medium, and computer device |
CN107766860A (zh) * | 2017-10-31 | 2018-03-06 | 武汉大学 | 基于级联卷积神经网络的自然场景图像文本检测方法 |
CN109993040A (zh) * | 2018-01-03 | 2019-07-09 | 北京世纪好未来教育科技有限公司 | 文本识别方法及装置 |
CN109993040B (zh) * | 2018-01-03 | 2021-07-30 | 北京世纪好未来教育科技有限公司 | 文本识别方法及装置 |
CN108345850B (zh) * | 2018-01-23 | 2021-06-01 | 哈尔滨工业大学 | 基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法 |
CN108345850A (zh) * | 2018-01-23 | 2018-07-31 | 哈尔滨工业大学 | 基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法 |
CN108492319A (zh) * | 2018-03-09 | 2018-09-04 | 西安电子科技大学 | 基于深度全卷积神经网络的运动目标检测方法 |
CN110163192A (zh) * | 2018-05-28 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 字符识别方法、装置及可读介质 |
CN110163192B (zh) * | 2018-05-28 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 字符识别方法、装置及可读介质 |
CN109117841B (zh) * | 2018-09-03 | 2020-12-11 | 厦门金龙联合汽车工业有限公司 | 基于笔画宽度变换与卷积神经网络的场景文本检测方法 |
CN109117841A (zh) * | 2018-09-03 | 2019-01-01 | 厦门金龙联合汽车工业有限公司 | 基于笔画宽度变换与卷积神经网络的场景文本检测方法 |
CN109657671A (zh) * | 2018-12-19 | 2019-04-19 | 深圳供电局有限公司 | 铭牌文字识别方法、装置、计算机设备和存储介质 |
CN110110748A (zh) * | 2019-03-29 | 2019-08-09 | 广州思德医疗科技有限公司 | 一种原始图片的识别方法及装置 |
CN110110748B (zh) * | 2019-03-29 | 2021-08-17 | 广州思德医疗科技有限公司 | 一种原始图片的识别方法及装置 |
WO2021017998A1 (zh) * | 2019-07-26 | 2021-02-04 | 第四范式(北京)技术有限公司 | 文本位置定位方法和系统以及模型训练方法和系统 |
CN111259764A (zh) * | 2020-01-10 | 2020-06-09 | 中国科学技术大学 | 文本检测方法、装置、电子设备及存储装置 |
CN111832390A (zh) * | 2020-05-26 | 2020-10-27 | 西南大学 | 一种手写古文字检测方法 |
CN112132215A (zh) * | 2020-09-22 | 2020-12-25 | 平安国际智慧城市科技股份有限公司 | 一种识别物体类型的方法、装置及计算机可读存储介质 |
CN112132215B (zh) * | 2020-09-22 | 2024-04-16 | 平安国际智慧城市科技股份有限公司 | 一种识别物体类型的方法、装置及计算机可读存储介质 |
CN112199545A (zh) * | 2020-11-23 | 2021-01-08 | 湖南蚁坊软件股份有限公司 | 基于图片文字定位的关键词显示方法、装置及存储介质 |
CN112199545B (zh) * | 2020-11-23 | 2021-09-07 | 湖南蚁坊软件股份有限公司 | 基于图片文字定位的关键词显示方法、装置及存储介质 |
CN112861520A (zh) * | 2021-03-08 | 2021-05-28 | 成都字嗅科技有限公司 | 一种基于计算机的汉字结构优化方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106384112A (zh) | 基于多通道多尺度与级联过滤器的快速图像文本检测方法 | |
CN112508850B (zh) | 基于深度学习的甲状腺细胞病理切片恶性区域的检测方法 | |
CN111145209B (zh) | 一种医学图像分割方法、装置、设备及存储介质 | |
CN103984958B (zh) | 宫颈癌细胞分割方法及系统 | |
Zhang et al. | Saliency detection: A boolean map approach | |
CN102915438B (zh) | 一种视频字幕的提取方法及装置 | |
Wan et al. | Robust nuclei segmentation in histopathology using ASPPU-Net and boundary refinement | |
WO2018145470A1 (zh) | 一种图像检测方法和装置 | |
CN104408449B (zh) | 智能移动终端场景文字处理方法 | |
CN110008832A (zh) | 基于深度学习人物图像自动分割方法、信息数据处理终端 | |
CN105844228A (zh) | 一种基于卷积神经网络的遥感图像云检测方法 | |
CN102968637A (zh) | 一种复杂背景图像文字分割方法 | |
CN101122952A (zh) | 一种图片文字检测的方法 | |
CN105513066B (zh) | 一种基于种子点选取与超像素融合的通用物体检测方法 | |
CN106023145A (zh) | 基于超像素标注的遥感图像的分割与识别方法 | |
Tian et al. | Natural scene text detection with MC–MR candidate extraction and coarse-to-fine filtering | |
CN106203522A (zh) | 基于三维非局部均值滤波的高光谱图像分类方法 | |
CN112990282B (zh) | 一种细粒度小样本图像的分类方法及装置 | |
CN106650696A (zh) | 一种基于奇异值分解的手写电气元件符号识别方法 | |
CN103886319A (zh) | 一种基于机器视觉的举牌智能识别方法 | |
CN104966109A (zh) | 医疗化验单图像分类方法及装置 | |
CN104866850A (zh) | 一种文本图像二值化的优化方法 | |
CN106295627A (zh) | 用于识别文字牛皮癣图片的方法及装置 | |
CN109741351A (zh) | 一种基于深度学习的类别敏感型边缘检测方法 | |
Wang et al. | Scene text detection with novel superpixel based character candidate extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170208 |