CN104751153A - 一种识别场景文字的方法及装置 - Google Patents

一种识别场景文字的方法及装置 Download PDF

Info

Publication number
CN104751153A
CN104751153A CN201310753559.7A CN201310753559A CN104751153A CN 104751153 A CN104751153 A CN 104751153A CN 201310753559 A CN201310753559 A CN 201310753559A CN 104751153 A CN104751153 A CN 104751153A
Authority
CN
China
Prior art keywords
text
rbm
candidate
character
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310753559.7A
Other languages
English (en)
Other versions
CN104751153B (zh
Inventor
黄韡林
乔宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201310753559.7A priority Critical patent/CN104751153B/zh
Publication of CN104751153A publication Critical patent/CN104751153A/zh
Application granted granted Critical
Publication of CN104751153B publication Critical patent/CN104751153B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明适用于文字识别技术领域,提供了一种识别场景文字的方法及装置,包括:获取文本图像中的候选文本成分,对获取到的候选文本成分进行预处理,提取成分区域关联特征;获取该文本图像中的全局特征;将该成分区域关联特征以及该全局特征输入至预先建立的深信度网络模型;根据预先建立的深信度网络模型中的字符识别器,识别出该成分区域关联特征所属的字符;对识别出的字符进行配对,组成文本行或者词条。本发明避免了逐行扫描大量滑动窗口所带来的巨大运算量的情况,并避免了滑动窗口扫描仅局限于水平方向上的文本检测的情况,从而减少了运算量,在多个方向上进行检测,并且利用深信度网络有效地降低误检测率,提高了文字识别的效率和准确率。

Description

一种识别场景文字的方法及装置
技术领域
本发明属于文字识别技术领域,尤其涉及一种识别场景文字的方法及装置。
背景技术
场景文字为存在于日常生活的各种场景图像中的文字。通常,在文字和其他物体并存的场景图像中,用户往往首先更关注场景图像中的文本,因此将场景图像中出现的文字抽取出来,对场景图像的文字进行识别,会对用户提供很有意义的帮助。
通常,将场景图像中出现的文字抽取出来,对场景图像的文字进行识别的文本检测系统,可以分成两大类。
第一类是基于滑动窗口模型的文本检测系统,这种模型的基本原理是利用不同大小和形状的滑动窗口来遍历扫描场景图片的不同区域。
其存在两个主要问题:
第一,运算量大。系统需要扫描大量不同大小的子窗口来确定文本行的位置;
第二,扫描方向单一,滑动子窗口都是水平移动,逐行扫描的,因此它很难检测出倾斜的文本行。然而自然场景文本经常存在随意的方向,以及不同程度的倾斜。
第二类是基于成分(component)的底层(low-level)的文本检测系统。
这种系统的基本原理是通过设计一个低层过滤器(filter)快速地过滤掉大量的背景信息,保留下候选文本成分(candidate components)。该操作是像素层面的运算。例如,笔画宽度转换器(Stroke Width Transform,SWT)是近年常用的一种底层文本检测器。
其存在以下不足:
(1)这种逐像素操作的底层检测器对于噪声,图像失真和扭曲的影响非常敏感,因此生成很多不正确的候选成分(Component Candidates);
(2)这种基于笔画(stroke)宽度的成分检测和过滤的方法无法区分真实候选文本成分和类似文本物体(text-like objects)之间的差别,比如窗户,叶子和砖头等,因此生成很多类似文本的误检测成分。
因此,现有的文本检测系统存在运算量大、扫描方向单一、容易生成很多不正确的候选成分以及生成很多类似文本的误检测成分的问题。
发明内容
本发明实施例的目的在于提供一种识别场景文字的方法,旨在解决现有的文本检测系统存在运算量大、扫描方向单一、容易生成很多不正确的候选成分以及生成很多类似文本的误检测成分的问题。
本发明实施例是这样实现的,一种识别场景文字的方法,包括:
获取文本图像中的候选文本成分,对获取到的候选文本成分进行预处理,提取成分区域关联特征;
获取所述文本图像中的全局特征;
将所述成分区域关联特征以及所述全局特征输入至预先建立的深信度网络模型;
根据预先建立的深信度网络模型中的字符识别器,识别出所述成分区域关联特征所属的字符;
对识别出的字符进行配对,组成文本行或者词条。
本发明实施例的另一目的在于提供一种识别场景文字的装置,包括:
第一获取单元,用于获取文本图像中的候选文本成分,对获取到的候选文本成分进行预处理,提取成分区域关联特征;
第二获取单元,用于获取所述文本图像中的全局特征;
输入单元,用于将所述成分区域关联特征以及所述全局特征输入至预先建立的深信度网络模型;
识别单元,用于根据预先建立的深信度网络模型中的字符识别器,识别出所述成分区域关联特征所属的字符;
组成单元,用于对识别出的字符进行配对,组成文本行或者词条。
在本发明实施例中,通过根据预先建立的深信度网络模型中的字符识别器,识别出所述成分区域关联特征所属的字符,对识别出的字符进行配对,组成文本行或者词条避免了逐行扫描大量滑动窗口所带来的巨大运算量的情况,并避免了滑动窗口扫描仅局限于水平方向上的文本检测的情况,从而减少了运算量,在多个方向上进行检测,提高了文字识别的效率和准确率。
附图说明
图1是本发明实施例提供的识别场景文字的方法的实现流程图。
图2是本发明实施例提供的笔画宽度图较佳的样例图。
图3是本发明实施例提供的笔画宽度图较佳的样例图。
图4是本发明实施例提供的深信度网络模型较佳的样例图。
图5是本发明实施例提供的深信度网络模型在际应用中较佳的实施流程图。
图6是本发明实施例提供的识别场景文字的装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1是本发明实施例提供的一种识别场景文字的方法的实现流程图,详述如下:
在步骤S101中,获取文本图像中的候选文本成分,对获取到的候选文本成分进行预处理,提取成分区域关联特征;
在本实施例中,获取文本图像中的候选文本成分,对获取到的候选文本成分进行预处理,包括:
用笔画宽度转换器方法SWT逐点检测出文本笔画像素,
提取文本笔画像素,并生成笔画宽度图(stroke width map)。
参考图2,图2是本发明实施例提供的笔画宽度图较佳的样例图。
利用区域增长组合,把相似笔画宽度的像素组合,以获取候选文本成分。
利用区域增长组合法(Region Growing Grouping)把笔画宽度类似的文本笔画像素群组在一起,生成候选文本成分(Component Candidates)。
参考图3,图3是本发明实施例提供的笔画宽度图较佳的样例图。
在本实施例中,提取成分区域关联特征的步骤如下:
1、每一个文本笔画像素用8种特征表示,分别为像素灰度值(grayscale),彩色RGB三个值,笔画宽度值,像素点在成分区域的相对坐标值(水平和垂直两个方向),和是否是边缘像素(1或者0)。
2、计算一个8×8的共轨矩阵来表示成分区域关联特征,
C U = 1 n - 1 Σ i = 1 n ( u i - u ‾ ) ( u i - u ‾ ) T
其中,参数ui是像素的8维特征,参数n是候选文本成分的像素总数。参数Cu是候选文本成分的像素的特征的集合。因为矩阵是对称的,取半个三角矩阵的元素,并串联一起组成一个36维的特征向量作为成分区域关联特征。
在步骤S102中,获取所述文本图像中的全局特征;
其中,所述获取所述文本图像中的全局特征,包括:
获取所述候选文本成分外框的长度和宽度的比率,作为第一个全局特征。
获取所述文本图像中笔画宽度和所述候选文本成分外框的长度和宽度的比率,作为第二个全局特征。
获取所述候选文本成分中笔画像素的面积和所述候选文本成分外框的面积的比率,作为第三个全局特征。
在36维的成分区域关联特征后面,加入以上三个全局特征,作为描述候选文本成分的特征。
在步骤S103中,将所述成分区域关联特征以及所述全局特征输入至预先建立的深信度网络模型;
在本实施例中,深信度网络的第一层通常为输入层,并且每一层的节点个数通常是固定的(通常是预先设置的)。为了生成结构统一的成分区域关联特征和全局特征,可利用区域共轨描述器(region covariance descriptor)来提取成分区域关联特征和全局特征,从而获得有效的归一化特征,使不同大小的候选文本成分的成分区域关联特征和全局特征可以输入到统一结构的深信度网络,避免了成分区域关联特征和全局特征的元素个数(或维数)与深信度网络第一层的节点数不一致的情况。
在步骤S104中,根据预先建立的深信度网络模型中的字符识别器,识别出所述成分区域关联特征所属的字符;
在本实施例中,深信度网络模型的输出层含有63个节点,除了一个非文本节点外,其余的62个节点分别表示一个字符识别器,字符识别器识别成分区域关联特征所属的字符,以实现端到端的场景文本识别。
在步骤S105中,对识别出的字符进行配对,组成文本行或者词条。
在本实施例中,对识别出的字符进行配对,组成文本行或者词条,可根据文本启发式属性和几何属性的相似度,来对识别出的字符进行配对和聚合,以组成最终的文本行(text-lines)或者词条(words)。
例如,判断识别出的字符的成分区域关联特征是否相似,比如识别出的字符近的笔画宽度,颜色和高度是否相似,若相似,聚合到一起组成最后的文本行或者词条。
最后丢弃一些未匹配到的零散成分区域关联特征,并且可靠性低字符,以取得更加稳定的结果。
在本实施例中,有效地融合了深信度网络(Deep Belief Networks,DBN)网络和底层成分检测器的优点,同时利用多层深度学习网络强大的特征学习和表示功能和底层成分检测器运算速度快的特点,构成端到端的场景文本识别系统。首先,比起基于滑动窗口和卷积神经网络(Convolutional NeuralNetworks,CNN)的文本识别系统,避免了逐行扫描大量滑动窗口所带来的巨大运算量。因为自然场景文本信息通常呈现不同的大小,滑动窗口模型需要逐行遍历所有可能大小的子窗口,其子窗口总数可达到N2,N是图片像素总数。因此在检测阶段,CNN网络需要判别N2个子窗口。SWT的运算量则只有O(N),而经过滤后的成分数量通常小于N。
其次,场景文字通常呈现多向性,并且字体大小差异很大,利用底层成分检测器和区域共轨表示法生成更加灵活有效的成分区域关联特征,避免了基于滑动窗口扫描仅局限于水平方向上的文本检测,以及需要调整不同大小的滑动子窗口至固定的大小来作为CNN网络的输入层的重大缺陷。因此,本发明具有更强的鲁棒性和实用性。
作为本发明的一个优选实施例,在将所述成分区域关联特征以及所述全局特征输入至预先建立的深信度网络模型之前,包括:
建立深信度网络模型;
其中,深信度网络模型包括多个限制玻尔兹曼机RBM、多个字符识别器,
所述多个限制玻尔兹曼机RBM之间的调用接口逐层相连。
在本实施例中,深信度网络模型多个限制玻尔兹曼机RBM、多个字符识别器组成。
参考图4,图4是本发明实施例提供的深信度网络模型较佳的样例图。
其中,深信度网络模型分为5层,分别为一个输入层,三个隐藏层、一个输出层。每两层之间作为一个限制玻尔兹曼机(Restricted Boltzmann Machine,RBM),因此,存在三个RBM。
其中,输入层存在39个节点,对应着39维的成分区域关联特征。
其中,三个隐藏层(hidden layers)分别拥有200,1000和2000个节点。
输出层存在63个节点,有一个节点为非文本输出,剩余的62个节点分别对应着一个大写字符或小写字符或数字(共六十二类)。
作为本发明的一个优选实施例,还包括:
多个RBM之间逐层学习,每个RBM学习到自身的RBM参数;
当每个RBM学习到自身的RBM参数后,利用逻辑回归算法监督每两层的所述RBM,利用向后反馈算法优化每个RBM学习到的参数。
在本实施例中,训练深信度网络模型,以使多个RBM之间逐层学习,每个RBM学习到自身的RBM参数。
训练的第一步采用逐层无监督的(layer-wise unsupervised)学习方法来学习参数。训练出这个RBM的参数(Wi,ui),i=1,2,3。
在逐层学习,得到各层节点之间的RBM参数后,利用逻辑回归(LogisticRegression)的方法作有监督的学习,再利用向后反馈(Back Propagation(BP))的方法来进一步全局优化之前学习到的参数和最后一层的参数(Wr,ur),从而避免多层神经网络训练时需要手动调整参数的情况,实时调整参数,提高后续的识别效率。
参考图5,图5是本发明实施例提供的深信度网络模型在际应用中较佳的实施流程图。
1、输入场景图片;
2、轨迹宽度转换器SWT初步提取文本笔画区域像素,然后利用区域增长组合(region growing)把相似笔画宽度的像素组合在一起生成候选文本成分;
3、利区域共轨描述器(region covariance descriptor)来提取每个候选文本成分区域关联特征,以此来作为深信度网络的第一层输入;
4、深信度网络过滤掉类似文本的误检测成分(像砖头,窗户和树叶等);
5、识别出所述成分区域关联特征所属的字符;
6、对识别出的字符进行配对,组成文本行或者词条。
图6是本发明实施例提供的一种识别场景文字的装置的结构框图,为了便于说明,仅示出了与本实施例相关的部分。
参照图6,该识别场景文字的装置,包括:
第一获取单元61,用于获取文本图像中的候选文本成分,对获取到的候选文本成分进行预处理,提取成分区域关联特征;
第二获取单元62,用于获取所述文本图像中的全局特征;
输入单元63,用于将所述成分区域关联特征以及所述全局特征输入至预先建立的深信度网络模型;
识别单元64,用于根据预先建立的深信度网络模型中的字符识别器,识别出所述成分区域关联特征所属的字符;
组成单元65,用于对识别出的字符进行配对,组成文本行或者词条。
进一步地,在该装置中,所述第一获取单元包括:
采用子单元,用于采用笔画宽度转换器提取文本笔画像素;
获取子单元,用于利用区域增长组合,把相似笔画宽度的像素组合,以获取候选文本成分。
进一步地,在该装置中,所述第二获取单元包括:
第一获取子单元,用于获取所述候选文本成分外框的长度和宽度的比率,作为第一个全局特征;
第二获取子单元,用于获取所述文本图像中笔画宽度和所述候选文本成分外框的长度和宽度的比率,作为第二个全局特征;
第三获取子单元,用于获取所述候选文本成分中笔画像素的面积和所述候选文本成分外框的面积的比率,作为第三个全局特征。
进一步地,在该装置中,还包括:
建立单元,用于建立深信度网络模型;
其中,深信度网络模型包括多个限制玻尔兹曼机RBM、多个字符识别器,
所述多个限制玻尔兹曼机RBM之间的调用接口逐层相连。
进一步地,在该装置中,还包括:
学习单元,用于多个RBM之间逐层学习,每个RBM学习到自身的RBM参数;
反馈单元,用于当每个RBM学习到自身的RBM参数后,利用逻辑回归算法监督每两层的所述RBM,利用向后反馈算法优化每个RBM学习到的参数。本发明实施例提供的装置可以应用在前述对应的方法实施例中,详情参见上述实施例的描述,在此不再赘述。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种识别场景文字的方法,其特征在于,包括:
获取文本图像中的候选文本成分,对获取到的候选文本成分进行预处理,提取成分区域关联特征;
获取所述文本图像中的全局特征;
将所述成分区域关联特征以及所述全局特征输入至预先建立的深信度网络模型;
根据预先建立的深信度网络模型中的字符识别器,识别出所述成分区域关联特征所属的字符;
对识别出的字符进行配对,组成文本行或者词条。
2.根据权利要求1所述的方法,其特征在于,所述获取文本图像中的候选文本成分,包括:
采用笔画宽度转换器提取文本笔画像素;
利用区域增长组合,把相似笔画宽度的像素组合,以获取候选文本成分。
3.根据权利要求1所述的方法,其特征在于,所述获取所述文本图像中的全局特征,包括:
获取所述候选文本成分外框的长度和宽度的比率,作为第一个全局特征。
获取所述文本图像中笔画宽度和所述候选文本成分外框的长度和宽度的比率,作为第二个全局特征。
获取所述候选文本成分中笔画像素的面积和所述候选文本成分外框的面积的比率,作为第三个全局特征。
4.根据权利要求1所述的方法,其特征在于,在将所述成分区域关联特征以及所述全局特征输入至预先建立的深信度网络模型之前,包括:
建立深信度网络模型;
其中,深信度网络模型包括多个限制玻尔兹曼机RBM、多个字符识别器,所述多个限制玻尔兹曼机RBM之间的调用接口逐层相连。
5.根据权利要求4所述的方法,其特征在于,还包括:
多个RBM之间逐层学习,每个RBM学习到自身的RBM参数;
当每个RBM学习到自身的RBM参数后,利用逻辑回归算法监督每两层的所述RBM,利用向后反馈算法优化每个RBM学习到的参数。
6.一种识别场景文字的装置,其特征在于,包括:
第一获取单元,用于获取文本图像中的候选文本成分,对获取到的候选文本成分进行预处理,提取成分区域关联特征;
第二获取单元,用于获取所述文本图像中的全局特征;
输入单元,用于将所述成分区域关联特征以及所述全局特征输入至预先建立的深信度网络模型;
识别单元,用于根据预先建立的深信度网络模型中的字符识别器,识别出所述成分区域关联特征所属的字符;
组成单元,用于对识别出的字符进行配对,组成文本行或者词条。
7.根据权利要求6所述的装置,其特征在于,所述第一获取单元包括:
采用子单元,用于采用笔画宽度转换器提取文本笔画像素;
获取子单元,用于利用区域增长组合,把相似笔画宽度的像素组合,以获取候选文本成分。
8.根据权利要求6所述的装置,其特征在于,所述第二获取单元包括:
第一获取子单元,用于获取所述候选文本成分外框的长度和宽度的比率,作为第一个全局特征;
第二获取子单元,用于获取所述文本图像中笔画宽度和所述候选文本成分外框的长度和宽度的比率,作为第二个全局特征;
第三获取子单元,用于获取所述候选文本成分中笔画像素的面积和所述候选文本成分外框的面积的比率,作为第三个全局特征。
9.根据权利要求6所述的装置,其特征在于,还包括:
建立单元,用于建立深信度网络模型;
其中,深信度网络模型包括多个限制玻尔兹曼机RBM、多个字符识别器,
所述多个限制玻尔兹曼机RBM之间的调用接口逐层相连。
10.根据权利要求9所述的装置,其特征在于,还包括:
学习单元,用于多个RBM之间逐层学习,每个RBM学习到自身的RBM参数;
反馈单元,用于当每个RBM学习到自身的RBM参数后,利用逻辑回归算法监督每两层的所述RBM,利用向后反馈算法优化每个RBM学习到的参数。
CN201310753559.7A 2013-12-31 2013-12-31 一种识别场景文字的方法及装置 Active CN104751153B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310753559.7A CN104751153B (zh) 2013-12-31 2013-12-31 一种识别场景文字的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310753559.7A CN104751153B (zh) 2013-12-31 2013-12-31 一种识别场景文字的方法及装置

Publications (2)

Publication Number Publication Date
CN104751153A true CN104751153A (zh) 2015-07-01
CN104751153B CN104751153B (zh) 2018-08-14

Family

ID=53590810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310753559.7A Active CN104751153B (zh) 2013-12-31 2013-12-31 一种识别场景文字的方法及装置

Country Status (1)

Country Link
CN (1) CN104751153B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608456A (zh) * 2015-12-22 2016-05-25 华中科技大学 一种基于全卷积网络的多方向文本检测方法
CN105809164A (zh) * 2016-03-11 2016-07-27 北京旷视科技有限公司 文字识别方法和装置
CN107122785A (zh) * 2016-02-25 2017-09-01 中兴通讯股份有限公司 文本识别模型建立方法和装置
CN108038458A (zh) * 2017-12-20 2018-05-15 首都师范大学 基于特征摘要图的视频中的户外场景文本自动获取方法
CN108446718A (zh) * 2018-02-08 2018-08-24 同济大学 一种动态深度置信网络分析方法
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN111681290A (zh) * 2020-04-21 2020-09-18 华中科技大学鄂州工业技术研究院 一种基于dna编码技术的图片存储方法
TWI713922B (zh) * 2017-11-03 2020-12-21 大陸商北京嘀嘀無限科技發展有限公司 用於新道路確定的系統和方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101266654A (zh) * 2007-03-14 2008-09-17 中国科学院自动化研究所 基于连通分量和支持向量机的图像文本定位方法和装置
US20090285482A1 (en) * 2008-05-19 2009-11-19 Microsoft Corporation Detecting text using stroke width based text detection
CN101615252A (zh) * 2008-06-25 2009-12-30 中国科学院自动化研究所 一种自适应图像文本信息提取方法
CN101777124A (zh) * 2010-01-29 2010-07-14 北京新岸线网络技术有限公司 一种提取视频文本信息的方法及装置
CN103279753A (zh) * 2013-06-09 2013-09-04 中国科学院自动化研究所 一种基于树结构指导的英文场景文本块识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101266654A (zh) * 2007-03-14 2008-09-17 中国科学院自动化研究所 基于连通分量和支持向量机的图像文本定位方法和装置
US20090285482A1 (en) * 2008-05-19 2009-11-19 Microsoft Corporation Detecting text using stroke width based text detection
CN101615252A (zh) * 2008-06-25 2009-12-30 中国科学院自动化研究所 一种自适应图像文本信息提取方法
CN101777124A (zh) * 2010-01-29 2010-07-14 北京新岸线网络技术有限公司 一种提取视频文本信息的方法及装置
CN103279753A (zh) * 2013-06-09 2013-09-04 中国科学院自动化研究所 一种基于树结构指导的英文场景文本块识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郑华强: "自然场景图像中的文本检测与定位", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608456A (zh) * 2015-12-22 2016-05-25 华中科技大学 一种基于全卷积网络的多方向文本检测方法
CN105608456B (zh) * 2015-12-22 2017-07-18 华中科技大学 一种基于全卷积网络的多方向文本检测方法
CN107122785B (zh) * 2016-02-25 2022-09-27 中兴通讯股份有限公司 文本识别模型建立方法和装置
CN107122785A (zh) * 2016-02-25 2017-09-01 中兴通讯股份有限公司 文本识别模型建立方法和装置
CN105809164B (zh) * 2016-03-11 2019-05-14 北京旷视科技有限公司 文字识别方法和装置
CN105809164A (zh) * 2016-03-11 2016-07-27 北京旷视科技有限公司 文字识别方法和装置
TWI713922B (zh) * 2017-11-03 2020-12-21 大陸商北京嘀嘀無限科技發展有限公司 用於新道路確定的系統和方法
US11748860B2 (en) 2017-11-03 2023-09-05 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for new road determination
CN108038458A (zh) * 2017-12-20 2018-05-15 首都师范大学 基于特征摘要图的视频中的户外场景文本自动获取方法
CN108038458B (zh) * 2017-12-20 2021-04-09 首都师范大学 基于特征摘要图的视频中的户外场景文本自动获取方法
CN108446718A (zh) * 2018-02-08 2018-08-24 同济大学 一种动态深度置信网络分析方法
CN108446718B (zh) * 2018-02-08 2021-01-26 同济大学 一种动态深度置信网络分析方法
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN111681290A (zh) * 2020-04-21 2020-09-18 华中科技大学鄂州工业技术研究院 一种基于dna编码技术的图片存储方法
CN111681290B (zh) * 2020-04-21 2023-08-15 华中科技大学鄂州工业技术研究院 一种基于dna编码技术的图片存储方法

Also Published As

Publication number Publication date
CN104751153B (zh) 2018-08-14

Similar Documents

Publication Publication Date Title
CN104751153A (zh) 一种识别场景文字的方法及装置
CN109902622B (zh) 一种用于登机牌信息验证的文字检测识别方法
Kumar et al. Segmentation of isolated and touching characters in offline handwritten Gurmukhi script recognition
CN107784276B (zh) 微震事件识别方法和装置
US20140270489A1 (en) Learned mid-level representation for contour and object detection
CN106570497A (zh) 一种场景图像的文本检测方法和装置
CN103679189A (zh) 场景识别的方法和装置
CN105512611A (zh) 一种表格图像检测识别方法
CN105608454A (zh) 基于文字结构部件检测神经网络的文字检测方法及系统
US20180330018A1 (en) Methods and systems for part geometry extraction
CN103065122A (zh) 基于面部动作单元组合特征的人脸表情识别方法
CN106127222B (zh) 一种基于视觉的字符串相似度计算方法及相似性判断方法
CN104299009A (zh) 基于多特征融合的车牌字符识别方法
CN113239818B (zh) 基于分割和图卷积神经网络的表格跨模态信息提取方法
CN106023245A (zh) 基于中智集相似度量测的静态背景下运动目标检测方法
CN103336961A (zh) 一种交互式的自然场景文本检测方法
CN106255979A (zh) 行分割方法
Al-Dmour et al. Segmenting Arabic handwritten documents into text lines and words
CN104463242A (zh) 基于特征变换和词典学习的多特征动作识别方法
CN112241730A (zh) 一种基于机器学习的表格提取方法和系统
KR20230057646A (ko) 멀티-레벨 전이 영역 기반의 도메인 적응형 객체 검출 장치 및 방법
CN108460418A (zh) 一种基于文字识别与语义分析的发票分类方法
Henderson Analysis of engineering drawings and raster map images
Kieu et al. Ocr accuracy prediction method based on blur estimation
Zayene et al. Icpr2016 contest on arabic text detection and recognition in video frames-activcomp

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant