CN103279753B - 一种基于树结构指导的英文场景文本块识别方法 - Google Patents

一种基于树结构指导的英文场景文本块识别方法 Download PDF

Info

Publication number
CN103279753B
CN103279753B CN201310230927.XA CN201310230927A CN103279753B CN 103279753 B CN103279753 B CN 103279753B CN 201310230927 A CN201310230927 A CN 201310230927A CN 103279753 B CN103279753 B CN 103279753B
Authority
CN
China
Prior art keywords
character
node
class
parts
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310230927.XA
Other languages
English (en)
Other versions
CN103279753A (zh
Inventor
王春恒
史存召
肖柏华
高嵩
胡仅龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Infan Technology (beijing) Co Ltd
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201310230927.XA priority Critical patent/CN103279753B/zh
Publication of CN103279753A publication Critical patent/CN103279753A/zh
Application granted granted Critical
Publication of CN103279753B publication Critical patent/CN103279753B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开一种基于结构指导的英文场景文本块识别方法,S1在部件上对每类字符建立树结构,并为每类字符训练一个用于检测出该类字符结构的字符树结构模型;S2在待识别的文本块图像中使用每类字符树结构模型对每类字符进行检测,得到所有类别字符的检测结果;S3对检测结果进行非极大值抑制,抑制检测分数低的检测结果,保留检测分数高的检测结果,这些保留的检测结果所在位置代表了候选字符所在的位置,将这些候选字符中的每个候选字符所在的位置设为一个节点,利用这些节点建立条件随机场;S4为条件随机场定义损失函数,所述损失函数包括一元损失函数和二元损失函数;S5对损失函数做最小化处理,得到最终的文本块识别结果。

Description

一种基于树结构指导的英文场景文本块识别方法
技术领域
本发明涉及模式识别与机器视觉领域中的自然场景中文本块识别技术领域,具体地是一种基于结构指导的英文场景文本块识别方法。
背景技术
文字是人们进行交流的主要媒介,真正智能的计算机,需要有识别和理解我们人类语言和文字的能力,光学字符识别(OCR)的概念在计算机时代之前就已经产生了,经过约半个世纪的发展,现阶段扫描文档的识别已经成功地应用于各行各业,为文档的保存及快速检索提供了便利。近年来,智能手机迅速覆盖市场,智能手机一般都装配摄像头,让手机自动理解用户拍摄的图像及视频的高层语义信息无疑具有巨大的应用需求,因此,这也成为近年来的计算机视觉及模式识别领域的研究热点。图像和视频等多媒体文档中大都含有文本信息,与颜色、纹理、边缘、亮度、形状等底层信息相比,图像和视频中的文字直接承载了语义信息,因而文字成为理解图像内容的重要线索。基于识别出的文字信息,可以促成诸如自动翻译、交通监控、安全监察等多种多样的应用。然而,由于真实场景中字符本身的光照、分辨率、形变等各种退化,以及字符背景的不可预见性,即使直接利用传统的OCR识别效果较差,因此真实场景中文字识别方法具有很强的研究必要。
现有的文本块识别方法大致分为两类:传统的基于二值化、分割再识别的方法以及基于目标识别的方法。传统的方法基于成熟的OCR识别引擎,由于OCR识别引擎需要二值输入,因此需要对场景中文本块二值化。然而,由于场景文字的颜色、分辨率、光照的多变性,以及场景中各种背景的干扰,传统的二值化方法很多都会失效。如果二值化效果不好,后续的分割及识别效果将很差,而且由二值化带来的识别错误是不能通过后续处理纠正的。基于目标识别的方法无需二值化,直接在原始图像上识别文本块,现有的大部分方法通过多尺度扫描及分类来得到候选文字,再利用各种后处理来得到最终的识别效果。然而,现有的方法在检测时采用多尺度扫描策略,不能很好地利用文字的结构信息,因而会产生很多的误检,极大地影响后面的识别。
文字是由人类设计的,每个文字均有其特有的结构。当人类识别文字时,将文字从复杂的背景中分离开来与识别此文字的过程是相互依存的,即使文字受到很大的污染并且具有复杂的背景,只要其特有的结构保持不变,我们就能将本质的不变的结构信息从复杂背景中剥离出来并将其识别。因此,本发明将文字表示为基于部件的结构,并且将检测与识别无缝链接,在检测文字各个部件的同时就识别了该文字。
发明内容
为了解决现有技术的问题,本发明的目的是提供一种基于树结构指导的英文场景文本块识别方法。
为达到上述目的,本发明基于树结构指导的英文场景文本块识别方法的技术解决方案的步骤如下:
步骤S1:在部件上对每类字符建立树结构,并为每类字符训练一个用于检测出该类字符结构的字符树结构模型;
步骤S2:在待识别的文本块图像中使用每类字符树结构模型对每类字符进行检测,得到所有类别字符的检测结果;
步骤S3:对检测结果进行非极大值抑制,抑制检测分数低的检测结果,保留检测分数高的检测结果,这些保留的检测结果所在位置代表了候选字符所在的位置,将这些候选字符中的每个候选字符所在的位置设为一个节点,利用这些节点建立条件随机场;
步骤S4:为条件随机场定义损失函数,所述损失函数包括一元损失函数和二元损失函数,其中一元损失融入检测得分,二元损失融入字符空间位置约束及语言模型;
步骤S5:对损失函数做最小化处理,得到最终的文本块识别结果。
本发明的有益效果:本发明突破传统的完全依赖于统计特征的文字识别方法,另辟蹊径,利用文字的根本特征——结构信息对文字进行识别,将每类字符表示为—个建立在字符部件上的树结构,其中部件是文字的一部分,各个部件之间的拓扑关系反映了文字的结构。为每类字符训练一个与此字符结构相关的字符树结构模型。识别时,用每类字符的树结构模型在文本块中检测该类字符是否出现,这样以来,在检测字符各个部件的位置的同时就得到了该字符对应的识别结果,在这些候选检测结果上建立条件随机场,一元损失融入模型的检测识别结果,二元损失融入字符的空间位置约束及语言模型,最终通过能量函数最小化得到单词的识别结果。本发明利用了文字的全局结构信息及局部统计信息对字符进行建模,在检测文字各个部分的同时也识别了此文字的结构,将检测与识别无缝对接,并且将检测分数、空间约束以及二元语言模型融合到条件随机场的能量函数中,最终通过能量函数最小化来平衡各种信息得到识别结果。本方法对真实场景中的文本块具有较好的识别效果。
附图说明
图1是本发明基于树结构指导的英文场景文本块识别方法的流程图。
图2是本发明中字符树结构设计及样本标注示意图。
图3是本发明中模型训练过程示意图。
图4是本发明为字符模型在文本块图像上经过非极大值抑制检测结果示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
图1示出本发明所述方法的一个实例流程图,图1描述了如何用本发明识别给定的一个场景文本块图像。首先为每类字符训练一个建立在字符部件上的字符树结构模型,给定输入图像例如HOTEL,用所有类别的字符树结构模型进行字符结构检测,检测结果如图1中检测得分一行所示为:‘H’‘R’…‘O’‘a’…‘T’‘I’…‘E’‘L’…‘L’‘I’…,接着对检测结果进行非极大值抑制,在候选字符上建立条件随机场如图1中条件随机场部分所示为:Node1,…,Node5分别表示五个节点,在此五个节点上建立条件随机场,条件随机场一元损失融入检测得分二元损失融入空间位置约束及语言模型,其中语言模型是通过从词典中学习得到的,最后给出识别结果。本发明提出的一种基于结构指导的英文场景文本块识别方法具体包括以下步骤:
步骤S1:在部件上对每类字符建立树结构,并为每类字符训练一个用于检测该类字符结构的字符树结构模型;
将每类字符表示为一个建立在字符部件之上的树结构,所述部件是文字的一部分,所述文字由多个部件组成,各个部件之间的拓扑关系反映了每类字符的结构信息,用每类字符树结构来反映各个部件之间的拓扑关系。对于某类字符k,用树Tk=(Vk,Ek)来表示其各个部件及边的连接,Vk代表树的各个节点即字符的各个部件,Ek表示各个节点之间的拓扑关系即字符各个部件之间的结构约束。用I代表输入图像,li=(xi,yi)代表某个部件i的位置,xi,yi是部件i所在位置的坐标;将所有部件的位置安排在对于某类字符k的某种检测结果L={li,i∈Vk}时得到的分数为:
S(L,I,k)=SApp(L,I,k)+SStr(L,k)+αk
其中,
S App ( L , I , k ) = Σ i ∈ V k w i k · φ ( I , l i )
对于某类字符k的某个检测结果L的得分由局部部件得分SApp(L,I,k),全局形状得分SStr(L,k),及偏差系数αk构成。表示部件字符k的部件i的局部统计模型或者是局部卷积模板,φ(I,li)是在位置li处提取的局部特征,这里使用在计算机视觉领域表现优异的梯度方向直方图HOG特征,局部统计模型SApp(L,I,k)反映了将某个部件局部统计模型放在相应处的适合程度;是形变约束参数,可以控制每个子部件与其父部件之间的相对位置,其中dx=xi-xj,dy=yi-yj表示部件i与部件j之间的相对距离,全局结构模型SStr(L,k)可以对部件的相对位置依据设定好的拓扑结构进行约束,i为部件的索引,j为与部件i相邻的部件,i=1,2...,。
为每类字符训练基于部件的树结构模型时,首先要设定每种字符的树结构拓扑关系,然后人工标定训练样本的各个部件,最后通过有监督的学习方法学习出最终的字符树结构模型的参数,具体采用二次规划来学习模型参数,其中字符树结构模型的参数包括每个部件的卷积系数以及部件与部件之间的形变约束系数所述所有字符的类别包括英文大小写字母——‘A’‘B’‘C’…‘Y’‘Z’,‘a’‘b’‘c’…‘x’‘y’‘z’,及数字——‘0’‘1’‘2’…‘9’。
图2所示为字符树结构设计及样本标注示意图。图2中的(a)展示了字符‘X’、‘T’的拓扑树结构,圆点代表每个节点1-节点10,节点与节点之间通过边相连,其中‘1’代表根节点,每个节点2,3,4,5,6,7,8,9,10的箭头指向这些节点的父节点,对于‘T’,3的父节点为2,2的父节点为1,父节点为4,4的父节点为1,以此类推可以得到根节点除外的所有节点的父节点。图2中的(b)和图2中的(c)展示了标注样本的过程,在每个部件的中心标注,提取特征时,如图2(b)和图2(c)上的虚线方框所示,以根节点为例,提取以根节点‘1’为中心的区域的特征来表示节点‘1’所在的部件。
图3所示为字符‘2’标注样本、设计拓扑结构关系及训练得到的字符树模型的示意图。左图为标注好的训练样本,其中圆点为人工标记的每个部件的中心位置;中间为是设计好的树结构的拓扑结构,其中‘1’表示根节点,箭头连接了相邻的节点并且指向相邻节点中的父节点;最后通过二次规划训练得到右图的字符‘2’的建立在部件上的字符树结构模型。字符树结构模型的各个方框中表示训练得到的各个部件模型,而各个部件之间的位置关系通过拓扑结构约束。
步骤S2,在待识别的文本块图像中使用每类字符树结构模型对每类字符进行检测,得到所有类别字符的检测结果;所述依次在待识别的文本块上用各类字符树结构模型进行检测,由于字符的拓扑结构用树来表示,每个字符的检测可以通过动态规划实现。所述动态规划首先是计算树的叶节点所在的部件位置的得分,然后叶节点的父节点的得分可以计算得出,最终算出根节点的得分,选取得分最高的根节点作为最终的检测根节点,最后通过根节点往回反推计算依次得到最高得分的各个部件的位置。
步骤S3:对检测结果进行非极大值抑制,抑制检测分数低的检测结果,保留检测分数高的检测结果,这些保留的检测结果所在位置代表了候选字符所在的位置,将这些候选字符中的每个候选字符所在的位置设为一个节点,利用这些节点建立条件随机场;
所述非极大值抑制的具体方法为,如果两个检测结果的区域重合程度超过一定比例(70%),则抑制得分较低的检测结果,保留得分较高的检测结果。经过非极大值抑制,得到一些得分较高的字符检测结果,以这些检测结果所在位置为节点,节点按照从左向右的顺序排列,节点与节点之间通过边相连,在这些节点上构建条件随机场。
图4所示为字符树结果模型在文本块图像上进行检测并经过非极大值抑制得到的检测结果示意图。检测结果中粗线方框标注的是检测到的根节点所在位置,细线方框标注字符的其他节点。识别结果中的字符‘b’‘r’‘e’‘a’‘k’,‘T’‘E’‘A’‘M’对应图4中第一行文本块图像的非极大值抑制后的字符树结构类别,‘O’‘f’‘f’‘i’‘c’‘e’,‘f’‘i’‘s’‘h’对应图4中第二行文本块图像的非极大值抑制后的字符树结构类别。图1所示条件随机场右侧虚线框内为构造条件随机场过程示意图。在对检测结果进行非极大值抑制后得到一些候选字符的位置,在每个位置建立一个节点,按照从左向右的顺序依次在候选位置添加节点,相连节点之间用边相连。
步骤S4:为条件随机场定义损失函数,所述损失函数包括一元损失函数和二元损失函数,其中一元损失融入检测得分,二元损失融入字符空间位置约束及语言模型;
条件随机场是建立在随机变量之上的,这里每个节点代表一个随机变量,则总的损失函数可以表示为:
E ( x ) = Σ i = 1 n E i ( x i ) + ρ Σ { i , j } ∈ E E ij ( x i , x j ) ,
其中x={x1,x2,...,xn}带表随机变量集合,每个随机变量代表每个节点可能出现的字符类别,n代表节点的个数,Ei(xi)为一元损失函数,Eij(xi,xj)为二元损失函数。xj是与节点xi相邻的节点坐标,ρ是控制一元ε失与二元损失贡献大小的权衡参数,N表示条件随机场中所有相邻边构成的集合。
一元损失E(xi)表示为节点xi分配字符类别cj所带来的损失Ei(xi=cj),具体定义如下:
E i ( x i = c j ) = 1 - p ( c j | x i ) if c j ≠ ϵ max j p ( c j | x i ) otherwise ,
其中为节点xi分配非空类别的损失与非空类别的检测分数成反比,即某类别的检测分数越高,则分配为该字符类别的损失越小;而为节点xi分配空类别的损失为该节点处所有检测分数的最大值,即此节点的检测分数越高,为其分配空类别的损失越大,反之亦然。p(cj|xi)是节点xi处检测到字符类别cj的概率,使用字符树结构模型的相应检测分数来反映字符类别cj的概率。ε为空类别标注,即此节点不属于任何一种字符类别。如果字符类别cj的树结构模型在节点xi的位置没有检测到字符类别cj的出现,则将节点xi分配字符类别cj的损失设为一个常数10。
二元损失Eij(xi,xj)融入语言模型及空间位置约束,具体定义为:
其中P(ci,cj)是从词典中学习得到的二元语言模型,代表从类别ci转移到字符类别cj的概率,即字符类别ci与字符类别cj同时出现的概率,这里用SRI语言模型工具包训练二元语言模型;Dij是两个节点之间的相对距离,这里采用绝对值距离;Si表示节点xi处的最大检测分数,Sj表示节点xj处的最大检测分数,而Si,j表示Si,Sj中较大的检测得分。μ的值设置为1.5。以上二元损失的意义为,如果两个类别(ci,cj)同时出现的概率较大,则为相邻两节点(xi,xj)分配类别标签(ci,cj)的损失应该较小;如果两个相邻节点之间的距离较小并且某个节点处的最大检测分数较低,则为某个节点分配空类别标签的损失较小。
步骤S5:对损失函数做最小化处理,得到最终的文本块识别结果。
所述最小化处理是计算出所有节点各个类别的损失及所有边的损失后,利用序列加权树信息传递算法(TRW-S)来最小化损失函数,以求取出让损失函数最小时各个节点的标签,即识别出文本块中的单词。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (6)

1.一种基于树结构指导的英文场景文本块识别方法,其特征在于,包括以下步骤:
步骤S1:在部件上对每类字符建立树结构,并为每类字符训练一个用于检测出该类字符结构的字符树结构模型;
步骤S2:在待识别的文本块图像中使用每类字符树结构模型对每类字符进行检测,得到所有类别字符的检测结果;
步骤S3:对检测结果进行非极大值抑制,抑制检测分数低的检测结果,保留检测分数高的检测结果,这些保留的检测结果所在位置代表了候选字符所在的位置,将这些候选字符中的每个候选字符所在的位置设为一个节点,利用这些节点建立条件随机场;
步骤S4:为条件随机场定义损失函数,所述损失函数包括一元损失函数和二元损失函数,其中一元损失融入检测得分,二元损失融入字符空间位置约束及语言模型;
步骤S5:对损失函数做最小化处理,得到最终的文本块识别结果;
其中,所述部件是文字的一部分,所述文字由多个部件组成,各个部件之间的拓扑关系反映了每类字符的结构信息,用每类字符树结构来反映各个部件之间的拓扑关系;
其中,每类字符k用树Tk=(Vk,Ek)来表示其各个部件及边的连接,Vk代表树的各个节点即字符的各个部件,Ek表示各个节点之间的拓扑关系即字符各个部件之间的结构约束;
其中,将所有部件的位置安排在对于某类字符k的某种检测结果L={li,i∈Vk}时得到的分数为:
S(L,I,k)=SApp(L,I,k)+SStr(L,k)+αk
其中, S A p p ( L , I , k ) = Σ i ∈ V k w i k · φ ( I , l i ) ,
用I代表输入图像;li=(xi,yi)代表部件i的位置,xi,yi是部件i所在位置的坐标;对于某类字符k的某种检测结果L的得分由局部部件得分SApp(L,I,k),全局形状得分SStr(L,k),及偏差系数αk构成;表示字符k的部件i的局部统计模型或者是局部卷积模板;φ(I,li)是在位置li处提取的局部特征,这里使用在计算机视觉领域表现优异的梯度方向直方图(HOG)特征,局部统计模型SApp(L,I,k)反映了将某个部件局部统计模型放在相应处的适合程度;是形变约束参数,用于控制每个子部件与其父部件之间的相对位置,其中dx=xi-xj,dy=yi-yj表示部件i与部件j之间的相对距离,全局结构模型SStr(L,k)可以对部件的相对位置依据设定好的拓扑结构进行约束,i为部件的索引,j为与部件i相邻的部件,i=1,2...,;
其中,构建字符树结构模型的步骤包括:首先设定每类字符的树结构拓扑关系,然后人工标定训练样本的各个部件,最后通过有监督的学习方法学习出最终的字符树结构模型的参数,所述监督的学习方法是采用二次规划来学习字符树结构模型的参数,其中字符树结构模型的参数包括每一部件的局部卷积模板以及部件与部件之间的形变约束系数
2.如权利要求1所述的英文场景文本块识别方法,其特征在于,所述对每类字符进行检测的步骤如下:
依次在待识别的文本块用各类字符树结构模型进行检测,由于字符的拓扑结构用树来表示,每个字符的检测通过动态规划实现;所述动态规划首先是计算树的叶节点所在的部件的位置的得分,然后计算出叶节点的父节点的得分,最终算出根节点的得分,选取得分最高的根节点作为最终的检测根节点,最后通过根节点往回反推计算依次得到最高得分的各个部件的位置。
3.如权利要求1所述的英文场景文本块识别方法,其特征在于,所述条件随机场是建立在随机变量之上,这里每个节点代表一个随机变量,则总的损失函数E(x)可以表示为:
E ( x ) = Σ i = 1 R E i ( x i ) + ρΣ { i , j } ∈ N E i j ( x i , x j ) ,
其中x={x1,x2,…,xn}代表随机变量集合,每个随机变量代表每个节点可能出现的字符类别,n代表节点的个数,Ei(xi)为一元损失函数,Eij(xi,xj)为二元损失函数,xj是与节点xi相邻的节点坐标,ρ是控制一元损失与二元损失贡献大小的权衡参数,N表示条件随机场中所有相邻边构成的集合。
4.如权利要求3所述的英文场景文本块识别方法,其特征在于,所述一元损失Ei(xi)表示为节点xi分配字符类别cj所带来的损失Ei(xi=cj),定义如下:
E i ( x i = c j ) = { 1 - p ( c j | x i ) i f c j ≠ ϵ max j p ( c j | x i ) o t h e r w i s e ,
其中为节点xi分配非空类别的损失与非空类别的检测分数成反比,即某类别的检测分数越高,则分配为该类别的损失越小;而为节点xi分配空类别的损失为节点xi处所有检测分数的最大值,即此节点xi的检测分数越高,为节点xi分配空类别的损失越大,反之亦然;p(cj|xi)是节点xi处检测到字符类别cj的概率,使用字符树结构模型的相应检测分数来反映字符类别cj的概率;∈为空类别标注,即节点xi不属于任何一种字符类别;如果字符类别cj的树结构模型在节点xi的位置没有检测到字符类别cj的出现,则将节点xi分配字符类别cj的损失设为一个常数10。
5.如权利要求4所述的英文场景文本块识别方法,其特征在于,将所述二元损失Eij(xi,xj)融入语言模型及空间位置约束的步骤如下:
其中P(ci,cj)是从词典中学习得到的二元语言模型,代表从字符类别ci转移到字符类别cj的概率,即字符类别
ci与字符类别cj同时出现的概率;Dij是两个节点之间的相对距离,这里采用绝对值距离;Si表示节点xi处的最大检测分数,Sj表示节点xj处的最大检测分数,而Si,j表示Si,Sj中较大的检测得分;μ的值设置为1.5;以上二元损失的意义为,如果两个类别(ci,cj)同时出现的概率较大,则为相邻两节点(xi,xj)分配类别标签(ci,cj)的损失应该较小;如果两个相邻节点之间的距离较小并且某个节点处的最大检测分数较低,则为某个节点分配空类别标签的损失较小。
6.如权利要求1所述的英文场景文本块识别方法,其特征在于,所述最小化处理是计算出所有节点各个类别的损失及所有边的损失后,利用序列加权树信息传递算法(TRW-S)来最小化损失函数,以求取出让损失函数最小时各个节点的标签,即识别出文本块中的单词。
CN201310230927.XA 2013-06-09 2013-06-09 一种基于树结构指导的英文场景文本块识别方法 Active CN103279753B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310230927.XA CN103279753B (zh) 2013-06-09 2013-06-09 一种基于树结构指导的英文场景文本块识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310230927.XA CN103279753B (zh) 2013-06-09 2013-06-09 一种基于树结构指导的英文场景文本块识别方法

Publications (2)

Publication Number Publication Date
CN103279753A CN103279753A (zh) 2013-09-04
CN103279753B true CN103279753B (zh) 2016-03-09

Family

ID=49062268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310230927.XA Active CN103279753B (zh) 2013-06-09 2013-06-09 一种基于树结构指导的英文场景文本块识别方法

Country Status (1)

Country Link
CN (1) CN103279753B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104751153B (zh) * 2013-12-31 2018-08-14 中国科学院深圳先进技术研究院 一种识别场景文字的方法及装置
CN104573663B (zh) * 2015-01-16 2017-12-05 中国科学院自动化研究所 一种基于鉴别性笔画库的英文场景文字识别方法
US9524430B1 (en) * 2016-02-03 2016-12-20 Stradvision Korea, Inc. Method for detecting texts included in an image and apparatus using the same
CN106022363B (zh) * 2016-05-12 2019-02-12 南京大学 一种适用于自然场景下的中文文字识别方法
CN106778820B (zh) * 2016-11-25 2020-06-19 北京小米移动软件有限公司 识别模型确定方法及装置
CN109117836B (zh) * 2018-07-05 2022-05-24 中国科学院信息工程研究所 一种基于焦点损失函数的自然场景下文字检测定位方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101097600A (zh) * 2006-06-29 2008-01-02 北大方正集团有限公司 一种字体识别方法及系统
JP4263928B2 (ja) * 2003-03-05 2009-05-13 株式会社リコー 文字認識装置、文字認識方法、文字認識プログラム、及び記録媒体
CN101441713A (zh) * 2007-11-19 2009-05-27 汉王科技股份有限公司 一种pdf文件的光学字符识别方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4263928B2 (ja) * 2003-03-05 2009-05-13 株式会社リコー 文字認識装置、文字認識方法、文字認識プログラム、及び記録媒体
CN101097600A (zh) * 2006-06-29 2008-01-02 北大方正集团有限公司 一种字体识别方法及系统
CN101441713A (zh) * 2007-11-19 2009-05-27 汉王科技股份有限公司 一种pdf文件的光学字符识别方法及装置

Also Published As

Publication number Publication date
CN103279753A (zh) 2013-09-04

Similar Documents

Publication Publication Date Title
CN110163236B (zh) 模型的训练方法和装置、存储介质、电子装置
CN103279753B (zh) 一种基于树结构指导的英文场景文本块识别方法
He et al. Multi-scale FCN with cascaded instance aware segmentation for arbitrary oriented word spotting in the wild
CN104050471B (zh) 一种自然场景文字检测方法及系统
CN104463101B (zh) 用于文字性试题的答案识别方法及系统
CN103984943B (zh) 一种基于贝叶斯概率框架的场景文本识别方法
CN106326874A (zh) 一种人眼图像中的虹膜识别方法及其装置
CN111563452B (zh) 一种基于实例分割的多人体姿态检测及状态判别方法
Singh et al. Dock: Detecting objects by transferring common-sense knowledge
CN106570521A (zh) 多语言场景字符识别方法及识别系统
CN109801260A (zh) 牲畜个数的识别方法及装置
CN108121702A (zh) 数学主观题评阅方法及系统
CN107704859A (zh) 一种基于深度学习训练框架的文字识别方法
CN112001394A (zh) 基于ai视觉下的听写交互方法、系统、装置
CN103544504A (zh) 一种基于多尺度图匹配核的场景字符识别方法
CN113537227B (zh) 一种结构化文本识别方法及系统
CN110503103A (zh) 一种基于全卷积神经网络的文本行中的字符切分方法
CN109360179A (zh) 一种图像融合方法、装置及可读存储介质
CN106845513A (zh) 基于条件随机森林的人手检测器及方法
CN112069900A (zh) 基于卷积神经网络的票据文字识别方法及系统
CN111694959A (zh) 基于面部表情和文本信息的网络舆情多模态情感识别方法及系统
CN107958219A (zh) 基于多模型和多尺度特征的图像场景分类方法
CN111382727B (zh) 一种基于深度学习的犬脸识别方法
CN116012922A (zh) 一种适于口罩佩戴状态的人脸图像性别识别方法
CN114898472A (zh) 基于孪生视觉Transformer网络的签名鉴定方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20190704

Address after: 100098 Beijing Haidian District Zhichun Road 56 West District 8 Floor Central 801-803

Patentee after: INFAN TECHNOLOGY (BEIJING) CO., LTD.

Address before: 100190 Zhongguancun East Road, Haidian District, Haidian District, Beijing

Patentee before: Institute of Automation, Chinese Academy of Sciences

TR01 Transfer of patent right