CN103984943A - 一种基于贝叶斯概率框架的场景文本识别方法 - Google Patents
一种基于贝叶斯概率框架的场景文本识别方法 Download PDFInfo
- Publication number
- CN103984943A CN103984943A CN201410238427.5A CN201410238427A CN103984943A CN 103984943 A CN103984943 A CN 103984943A CN 201410238427 A CN201410238427 A CN 201410238427A CN 103984943 A CN103984943 A CN 103984943A
- Authority
- CN
- China
- Prior art keywords
- identification
- path
- character
- detection
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
一种基于贝叶斯概率框架的场景文本识别方法,涉及计算机视觉和模式识别。步骤S1:输入场景图像文本;步骤S2:字符检测和识别;步骤S3:构建检测-识别候选网格,具体方法如下:将候选字符区域和对应的字符类别和识别分数保存在一个检测与识别候选网格里,这样候选网格里每一条检测-识别路径对应一个文本检测和识别结果;设计路径评价函数,对候选网格里的每一条候选检测-识别路径进行评价;步骤S4:根据路径评价函数,从候选网格中用动态规划算法搜索得到最优检测-识别路径,即得到识别结果;步骤S5:输出文本识别结果。解决了集成检测与识别的场景文本识别的概率建模和参数学习问题。
Description
技术领域
本发明涉及计算机视觉和模式识别,具体的,是一种基于贝叶斯概率框架的场景文本识别方法。
背景技术
自然场景图像中的文本包含丰富的高层语义信息,对图像的场景理解、分析与处理具有重要的作用。场景文本识别技术可广泛应用于图像和视频的理解、存储和检索、车辆牌照识别、银行票据处理、路标识别和移动导盲等领域,因此成为计算机视觉和模式识别领域的研究热点。由于场景图像背景复杂,场景文字的大小、字体、颜色各异,且易受光照变化和图像退化的影响,这使场景文本的识别具有较大的挑战性。
传统的光学字符识别(OCR)技术能很好的识别背景比较简单的扫描文本文档,但是用来识别场景文本时,识别率非常低,还有很大的提升空间,要应用到实际系统中还有很多工作需要做。当前,对场景文本的识别主要采用计算机视觉中的目标识别的思想,其基本思想是,把每一类字符当作一个视觉目标,然后从场景文本图像中同时检测和识别字符区域,这实际上是一种集成的检测与识别的场景文本识别方法。这种集成的检测和识别的方法在国际顶级会议ICCV2011上提出来,表现出了优于传统OCR的识别性能。之后的几年有很多研究也进行了这方面的研究,提高了场景文本识别的性能。
虽然最近几年在这方面有很多研究工作且取得得了较大进展,但是至今未见有对集成的检测与识别的场景文本识别方法进行概率建模的有关报道,并在此基础上进行参数学习。
发明内容
本发明的目的在于针对当前场景文本识别方法没有一个统一的概率模型等问题,提供一种基于贝叶斯概率框架的场景文本识别方法。
本发明包括以下步骤:
步骤S1:输入场景图像文本;
步骤S2:字符检测和识别;
在步骤S2中,所述字符检测和识别的具体方法可为:
采用多尺度滑动窗口的方法,用字符分类器对图像中的窗口区域进行检测和识别,对每一个字符类别,将分类器输出较大的区域判定为候选字符区域,输出较小的区域认为是背景区域,找出图像中包含的候选字符区域;再采用非极大值抑制方法,对重叠率较大的区域只保留分类器输出值最大的区域和相应的字符类别,除去大量重复冗余的候选字符区域,得到字符检测结果。
步骤S3:构建检测-识别候选网格,具体方法如下:
将候选字符区域和对应的字符类别和识别分数保存在一个检测与识别候选网格里,这样候选网格里每一条检测-识别路径对应一个文本检测和识别结果;设计路径评价函数,对候选网格里的每一条候选检测-识别路径进行评价;
步骤S4:根据路径评价函数,从候选网格中用动态规划算法搜索得到最优检测-识别路径,即得到识别结果;
步骤S5:输出文本识别结果。
在步骤S3中,在构建检测-识别候选网格时,保存候选字符的字符类别和识别分数,并保存四种几何上下文模型,包括一元类别有关和类别无关几何模型、二元类别有关和类别无关几何模型;在检测-识别候选网格中,每一条检测-识别路径表示一种识别结果,将场景文本识别问题转化为路径搜索问题,用一个路径评价函数来评价每一条候选检测-识别路径,基于该路径评价函数,用动态规划算法搜索最优路径得到识别结果。
所述路径评价函数为:
其中,为字符分类器的输出,到分别表示语言模型的输出、一元和二元类别相关几何模型的输出、以及一元和二元类别无关几何模型的输出,P是一个常数,λ1到λ6是六个参数。
所述路径评价函数是通过对集成检测与切分的识别方法从贝叶斯决策角度进行建模得到的。所述建模过程如下:
输入场景文本图像记为X,文本行类别(一个词或者字符串)记为C=c1c2…cn,其中,c1到cn表示字符类别,n表示文本行包含字符的个数(即字符长度),则将场景文本图像X识别为C的后验概率为:
其中,第d条字符检测路径,P(d|X)表示给定输入图像得到第d条字符检测路径的后验概率,P(C|Xd)表示给定第d条字符检测路径识别为文本行类别C的后验概率;这里,将一条检测路径上的字符构成一个词或者字符串Xd,其可表示为一个字符序列,即Xd=x1x2…xn,其中xi对应为字符类别ci的候选检测字符。
从贝叶斯决策的角度,场景文本识别即是找到使后验概率P(C|X)最大的文本行类别C,为了避免式(2)中对大量的检测路径求和,最优的文本行类别C可以通过下式近似得到:
其中,P(d|X)表示文本检测,P(C|Xd)表示文本识别;
将文本检测的后验概率P(d|X)用几何上下文来表示(包括一元几何上下文和二元几何上下文)为:
其中,表示一个候选字符是一个有效字符区域的概率,为一元类别无关几何上下文;表示相邻两个候选检测字符之间的几何特征属于字符间特征的概率,为二元类别无关几何上下文;和分别表示提取的一元和二元类别无关几何特征。
文本检测的后验概率P(C|Xd)可以进一步的分解为:
其中,P(C)=P(c1c2…cn)表示文本行类别的先验概率,由语言模型给出;P(Xd|C)为类条件似然函数,可以分解为:
其中,和分别表示一元和二元类别相关几何上下文的输出;P(Xd)为几何上下文的边缘似然概率,类似的也可以分解为:
将式(6)和式(7)代入式(4)得到
其中,p1(ci),p2(ci)和p3(ci-1ci)可以认为是常数;
结合式(8),可得到式(5)变为:
其中,P=p1(ci)p2(ci)p3(ci-1ci)是一个常数;
结合式(9)和式(4),场景文本的识别公式(3)变为:
这里,并假定p(c1|c0)=p(c1)对所有类别是相等的。
最后,对式(10)取对数函数后,将乘积形式变为和的形式,这样得到了最终的路径评价函数为:
其中, 分别表示字符分类器输出、语言模型输出、一元类别相关几何上下文、二元类别相关几何上下文、一元类别无关几何上下文、二元类别无关几何上下文的输出,λ1至λ6为路径评价函数的参数,用来平衡各输出的贡献。
其中,所述字符分类器可以采用典型的特征提取算法(比如HOG等)和分类器算法(比如SVM等)进行建模,利用数据库进行训练得到。语言模型从大型语料库学习得到。四种几何模型的建模方法分别设计和提取相应的几何特征,用常用分类器(比如SVM等)进行建模。
其中,所述路径评价函数中的参数λ1至λ6采用最小分类错误(Minimum ClassificationError,即MCE)率训练算法学习得到。具体的,参数在一个训练集上学习得到,训练集记为其中,R表示训练样本的个数,表示真实文本类别,表示真实的检测路径,则和表示了真是的检测-识别路径,记为则错误分类度量表示为:
其中,为真实路径的判别函数值,为竞争路径的判别函数值,Λ为参数,这里,判别函数即为路径评价函数(式(1))。竞争路径定义为:
竞争路径通过集束搜索算法得到。将上述错误分类度量式(12)通过Sigmoid函数转化为0-1损失,即这样,参数通过随即梯度下降算法进行学习:
Λ(t+1)=Λ(t)-ε(t)U▽l(X,Λ)。 (14)
在学习得到参数后,在所述步骤S4中,根据路径评价函数,使用动态规划算法搜索检测-识别候选路径得到最优路径,即为最终的识别结果。动态规划搜索算法类似于Viterbi解码的前向算法。
本发明从贝叶斯决策的角度,对场景文本识别方法进行概率建模,提出了一个统一的场景文本识别的概率框架。在该框架下,场景文本识别问题转化为基于一个路径评价函数的最优检测-识别路径搜索问题,路径评价函数融合了字符识别输出、几何上下文输出和语言模型的输出,因此提高了场景文本识别率。本发明提出的基于贝叶斯概率框架的场景文本识别方法。
在该概率框架下,场景文本识别里的多种信息包括字符分类器的输出、几何上下文的输出和语言模型的输出在一个统一的框架下进行融合,从而有效提高场景文本识别率。概率模型的参数可以通过最小分类错误率自动学习得到,识别结果通过动态规划算法搜索最优路径得到。该方法为场景文本识别提供统一的概率框架和参数学习方法,能广泛应用于场景文本识别的各应用场景。
本发明提供的基于稀疏编码特征的场景文本识别方法,与其他方法相比,具有的优点和有益效果包括:
1、本发明从贝叶斯决策角度对集成的检测与识别的场景文本识别进行概率建模,提供了一个统一的框架和方法;
2、本发明提供的框架和方法有效融合了字符分类器的输出、几何上下文的输出和语言模型的输出,多种信息的融合提高了场景文本的识别率;
3、本发明提出的模型中,参数通过自动学习得到,从而能够更加有效的融合多种信息;
4、在本发明提出的概率模型和框架下,可以通过提高字符分类器和几何上下文的建模方法,来有效提高识别率。这为进一步的研究提供了框架和基本方法。
附图说明
图1是本发明提出的一种基于贝叶斯概率框架的场景文本识别方法的流程图。
图2为候选字符检测示例“MADE”的字符检测结果。
图3为构建的检测-识别候选网格。
图4为本发明实现的场景文本识别过程。
具体实施方式
下面结合附图和具体实施例,进一步阐释本发明的技术方法和优点,并对本发明做进一步详细说明。
图1是本发明提出的一种基于贝叶斯概率框架的场景文本识别方法的流程图,图2为候选字符检测示例“MADE”的字符检测结果。图3为构建的检测-识别候选网格。图4为本发明实现的场景文本识别过程。
本发明实施例包括以下步骤:
步骤S1:输入场景图像文本;
步骤S2:字符检测和识别,即采用多尺度滑动窗口的方法,用字符分类器对图像中的窗口区域进行检测和识别,对每一个字符类别,将分类器输出较大的区域判定为候选字符区域,输出较小的区域认为是背景区域,这样找出图像中包含的候选字符区域;再采用非极大值抑制方法,对重叠率较大的区域只保留分类器输出值最大的区域和相应的字符类别,这样除去大量重复冗余的候选字符区域,得到字符检测结果;
在这一步中,需要用一个字符分类器进行检测和识别。字符分类器可以根据应用需要(比如是识别英文还是中文)用相应的数据库进行训练,其中特征提取算法采用常用的梯度直方图特征(即Histogram of Gradients,HOG),字符分类器可采用SVM分类器器、学习矢量量化分类器(即Learning Vector Quantization,LVQ)、修正的二次判别函数(即Modified QuadraticDiscriminant Function,MQDF)等。
步骤S3:构建检测-识别候选网格,将候选字符区域和对应的字符类别和识别分数保存在一个检测-识别候选网格里,这样候选网格里每一条检测-识别路径对应一个文本检测和识别结果;设计路径评价函数,对候选网格里的每一条候选检测-识别路径进行评价;
在这一步中,几何上下文模型的特征提取要提取相应的几何特征,用常用的SVM分类器对几何模型进行建模。在构建好检测-识别候选网格里,提取几何特征并用分类器进行识别,输出相应的识别结果和识别分数。再根据本发明提出的路径评价函数,对候选路径进行评价,其中路径评价函数中的参数事先在训练数据库里学习得到。图2给出候选字符检测示例“MADE”的字符检测结果。图3给出构建的检测-识别候选网格。
步骤S4:根据路径评价函数,从候选网格中用动态规划算法搜索得到最优检测-识别路径,即得到识别结果;
在这一步骤中,所采用的路径搜索算法为动态规划算法,该算法类似于Viterbi解码的前向算法。如图4所示,为场景文本识别过程示例,其中,候选识别结果中,每个候选识别结果里的分数为路径评价函数对该结果的评价分数。将分数最大的那个候选识别结果作为最终的识别结果。
步骤S5:输出文本识别结果。
本发明针对场景文本识别的问题,对集成的场景文本检测与识别从贝叶斯决策理论的角度进行建模,得到一个统一的概率框架,来融合字符检测和识别的输出、几何模型的输出和语言模型的输出,从而有效提高场景文本的识别率。在本发明中,字符类别和字符识别的输出被保存在一个检测-识别候选网格里,场景文本识别问题转化为一个网格路径搜索问题。网格中的路径由一个路径评价函数进行评价,该路径评价函数融合了字符识别的输出、几何模型的输出和语言模型的输出。文本识别结果通过动态规划算法搜索最优检测-识别路径得到。该发明解决了集成检测与识别的场景文本识别的概率建模和参数学习问题。
Claims (9)
1.一种基于贝叶斯概率框架的场景文本识别方法,其特征在于包括以下步骤:
步骤S1:输入场景图像文本;
步骤S2:字符检测和识别;
步骤S3:构建检测-识别候选网格,具体方法如下:
将候选字符区域和对应的字符类别和识别分数保存在一个检测与识别候选网格里,这样候选网格里每一条检测-识别路径对应一个文本检测和识别结果;设计路径评价函数,对候选网格里的每一条候选检测-识别路径进行评价;
步骤S4:根据路径评价函数,从候选网格中用动态规划算法搜索得到最优检测-识别路径,即得到识别结果;
步骤S5:输出文本识别结果。
2.如权利要求1所述一种基于贝叶斯概率框架的场景文本识别方法,其特征在于在步骤S2中,所述字符检测和识别的具体方法为:
采用多尺度滑动窗口的方法,用字符分类器对图像中的窗口区域进行检测和识别,对每一个字符类别,将分类器输出较大的区域判定为候选字符区域,输出较小的区域认为是背景区域,找出图像中包含的候选字符区域;再采用非极大值抑制方法,对重叠率较大的区域只保留分类器输出值最大的区域和相应的字符类别,除去大量重复冗余的候选字符区域,得到字符检测结果。
3.如权利要求1所述一种基于贝叶斯概率框架的场景文本识别方法,其特征在于在步骤S3中,在构建检测-识别候选网格时,保存候选字符的字符类别和识别分数,并保存四种几何上下文模型,包括一元类别有关和类别无关几何模型、二元类别有关和类别无关几何模型。
4.如权利要求1所述一种基于贝叶斯概率框架的场景文本识别方法,其特征在于在步骤S3中,在检测-识别候选网格中,每一条检测-识别路径表示一种识别结果,将场景文本识别问题转化为路径搜索问题,用一个路径评价函数来评价每一条候选检测-识别路径,基于该路径评价函数,用动态规划算法搜索最优路径得到识别结果。
5.如权利要求1所述一种基于贝叶斯概率框架的场景文本识别方法,其特征在于在步骤S3中,所述路径评价函数为:
其中,为字符分类器的输出,到分别表示语言模型的输出、一元和二元类别相关几何模型的输出、以及一元和二元类别无关几何模型的输出,P是一个常数,λ1到λ6是六个参数。
6.如权利要求1所述一种基于贝叶斯概率框架的场景文本识别方法,其特征在于在步骤S3中,所述路径评价函数是通过对集成检测与切分的识别方法从贝叶斯决策角度进行建模得到的,所述建模过程如下:
输入场景文本图像记为X,文本行类别记为C=c1c2…cn,其中,文本行类别为一个词或者字符串,c1到cn表示字符类别,n表示文本行包含字符的个数,即字符长度,则将场景文本图像X识别为C的后验概率为:
其中,第d条字符检测路径,P(d|X)表示给定输入图像得到第d条字符检测路径的后验概率,P(C|Xd)表示给定第d条字符检测路径识别为文本行类别C的后验概率;这里,将一条检测路径上的字符构成一个词或者字符串Xd,其可表示为一个字符序列,即Xd=x1x2…xn,其中xi对应为字符类别ci的候选检测字符。
7.如权利要求1所述一种基于贝叶斯概率框架的场景文本识别方法,其特征在于在步骤S3中,所述文本检测的后验概率P(C|Xd)可以进一步分解为:
其中,P(C)=P(c1c2…cn)表示文本行类别的先验概率,由语言模型给出;P(Xd|C)为类条件似然函数,可以分解为:
其中,和分别表示一元和二元类别相关几何上下文的输出;P(Xd)为几何上下文的边缘似然概率,类似的也可以分解为:
将式(6)和式(7)代入式(4)得到:
其中,p1(ci),p2(ci)和p3(ci-1ci)可以认为是常数;
结合式(8),可得到式(5)变为:
其中,P=p1(ci)p2(ci)p3(ci-1ci)是一个常数;
结合式(9)和式(4),场景文本的识别公式(3)变为:
这里,并假定p(c1|c0)=p(c1)对所有类别是相等的;
最后,对式(10)取对数函数后,将乘积形式变为和的形式,这样得到了最终的路径评价函数为:
其中, 分别表示字符分类器输出、语言模型输出、一元类别相关几何上下文、二元类别相关几何上下文、一元类别无关几何上下文、二元类别无关几何上下文的输出,λ1至λ6为路径评价函数的参数,用来平衡各输出的贡献。
8.如权利要求7所述一种基于贝叶斯概率框架的场景文本识别方法,其特征在于所述字符分类器采用典型的特征提取算法和分类器算法进行建模,利用数据库进行训练得到,所述典型的特征提取算法为HOG,所述分类器算法为SVM;语言模型从大型语料库学习得到;四种几何模型的建模方法分别设计和提取相应的几何特征,用常用分类器进行建模,所述常用分类器为SVM。
9.如权利要求7所述一种基于贝叶斯概率框架的场景文本识别方法,其特征在于所述路径评价函数中的参数λ1至λ6采用最小分类错误率训练算法学习得到,具体的,参数在一个训练集上学习得到,训练集记为其中,R表示训练样本的个数,表示真实文本类别,表示真实的检测路径,则和表示了真是的检测-识别路径,记为则错误分类度量表示为:
其中,为真实路径的判别函数值,为竞争路径的判别函数值,Λ为参数,这里,判别函数即为路径评价函数即式(1),竞争路径定义为:
竞争路径通过集束搜索算法得到;将上述错误分类度量式(12)通过Sigmoid函数转化为0-1损失,即这样,参数通过随即梯度下降算法进行学习:
Λ(t+1)=Λ(t)-ε(t)U▽l(X,Λ) (14)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410238427.5A CN103984943B (zh) | 2014-05-30 | 2014-05-30 | 一种基于贝叶斯概率框架的场景文本识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410238427.5A CN103984943B (zh) | 2014-05-30 | 2014-05-30 | 一种基于贝叶斯概率框架的场景文本识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103984943A true CN103984943A (zh) | 2014-08-13 |
CN103984943B CN103984943B (zh) | 2018-06-19 |
Family
ID=51276905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410238427.5A Active CN103984943B (zh) | 2014-05-30 | 2014-05-30 | 一种基于贝叶斯概率框架的场景文本识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103984943B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239872A (zh) * | 2014-09-26 | 2014-12-24 | 南开大学 | 异态汉字识别方法 |
CN104298729A (zh) * | 2014-09-28 | 2015-01-21 | 小米科技有限责任公司 | 数据分类方法及装置 |
CN104616029A (zh) * | 2014-12-29 | 2015-05-13 | 小米科技有限责任公司 | 数据分类方法及装置 |
CN105069898A (zh) * | 2015-07-15 | 2015-11-18 | 广州敦和信息技术有限公司 | 一种发票字条自动定位的方法及装置 |
CN105404868A (zh) * | 2015-11-19 | 2016-03-16 | 电子科技大学 | 一种基于交互平台的复杂背景中文本的快速检测方法 |
CN105469047A (zh) * | 2015-11-23 | 2016-04-06 | 上海交通大学 | 基于无监督学习深度学习网络的中文检测方法及系统 |
CN107092902A (zh) * | 2016-02-18 | 2017-08-25 | 富士通株式会社 | 字符串的识别方法和系统 |
CN107169496A (zh) * | 2017-04-19 | 2017-09-15 | 北京三快在线科技有限公司 | 一种文字识别方法和装置 |
CN107220657A (zh) * | 2017-05-10 | 2017-09-29 | 中国地质大学(武汉) | 一种面向小数据集的高分辨率遥感影像场景分类的方法 |
CN108010527A (zh) * | 2017-12-19 | 2018-05-08 | 深圳市欧瑞博科技有限公司 | 语音识别方法、装置、计算机设备和存储介质 |
CN108121988A (zh) * | 2016-11-30 | 2018-06-05 | 富士通株式会社 | 信息处理方法和装置以及信息检测方法和装置 |
CN108229286A (zh) * | 2017-05-27 | 2018-06-29 | 北京市商汤科技开发有限公司 | 语言模型生成及应用方法、装置、电子设备和存储介质 |
CN109389124A (zh) * | 2018-10-29 | 2019-02-26 | 苏州派维斯信息科技有限公司 | 小票信息类目识别方法 |
CN109684928A (zh) * | 2018-11-22 | 2019-04-26 | 西交利物浦大学 | 基于互联网检索的中文文档识别方法 |
CN110858317A (zh) * | 2018-08-24 | 2020-03-03 | 北京搜狗科技发展有限公司 | 手写识别方法及装置 |
CN112581642A (zh) * | 2020-12-02 | 2021-03-30 | 四川铁投信息技术产业投资有限公司 | 一种基于高速公路门架计费数据的偷逃费车辆稽查方法 |
CN117998145A (zh) * | 2024-04-03 | 2024-05-07 | 海看网络科技(山东)股份有限公司 | 一种字幕实时监测方法、系统和设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853126A (zh) * | 2010-05-12 | 2010-10-06 | 中国科学院自动化研究所 | 一种联机手写句子实时识别方法 |
CN102184412A (zh) * | 2011-05-09 | 2011-09-14 | 东南大学 | 基于最小错误率贝叶斯分类器的车牌数字及字母识别方法 |
CN103577843A (zh) * | 2013-11-22 | 2014-02-12 | 中国科学院自动化研究所 | 一种空中手写字符串识别方法 |
-
2014
- 2014-05-30 CN CN201410238427.5A patent/CN103984943B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853126A (zh) * | 2010-05-12 | 2010-10-06 | 中国科学院自动化研究所 | 一种联机手写句子实时识别方法 |
CN102184412A (zh) * | 2011-05-09 | 2011-09-14 | 东南大学 | 基于最小错误率贝叶斯分类器的车牌数字及字母识别方法 |
CN103577843A (zh) * | 2013-11-22 | 2014-02-12 | 中国科学院自动化研究所 | 一种空中手写字符串识别方法 |
Non-Patent Citations (3)
Title |
---|
KAI WANG等: ""End-to-End Scene Text Recognition"", 《2011 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION》 * |
王大寒: ""联机中文手写文本识别方法研究"", 《中国科学院机构知识库网格》 * |
王秋锋: ""脱机手写中文文本识别方法研究"", 《中国科学院机构知识库网格》 * |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239872A (zh) * | 2014-09-26 | 2014-12-24 | 南开大学 | 异态汉字识别方法 |
CN104298729A (zh) * | 2014-09-28 | 2015-01-21 | 小米科技有限责任公司 | 数据分类方法及装置 |
CN104298729B (zh) * | 2014-09-28 | 2018-02-23 | 小米科技有限责任公司 | 数据分类方法及装置 |
CN104616029B (zh) * | 2014-12-29 | 2017-11-03 | 小米科技有限责任公司 | 数据分类方法及装置 |
CN104616029A (zh) * | 2014-12-29 | 2015-05-13 | 小米科技有限责任公司 | 数据分类方法及装置 |
CN105069898A (zh) * | 2015-07-15 | 2015-11-18 | 广州敦和信息技术有限公司 | 一种发票字条自动定位的方法及装置 |
CN105069898B (zh) * | 2015-07-15 | 2018-03-30 | 广州敦和信息技术有限公司 | 一种发票字条自动定位的方法及装置 |
CN105404868A (zh) * | 2015-11-19 | 2016-03-16 | 电子科技大学 | 一种基于交互平台的复杂背景中文本的快速检测方法 |
CN105404868B (zh) * | 2015-11-19 | 2019-05-10 | 电子科技大学 | 一种基于交互平台的复杂背景中文本的快速检测方法 |
CN105469047B (zh) * | 2015-11-23 | 2019-02-22 | 上海交通大学 | 基于无监督学习深度学习网络的中文检测方法及系统 |
CN105469047A (zh) * | 2015-11-23 | 2016-04-06 | 上海交通大学 | 基于无监督学习深度学习网络的中文检测方法及系统 |
CN107092902A (zh) * | 2016-02-18 | 2017-08-25 | 富士通株式会社 | 字符串的识别方法和系统 |
CN107092902B (zh) * | 2016-02-18 | 2021-04-06 | 富士通株式会社 | 字符串的识别方法和系统 |
CN108121988B (zh) * | 2016-11-30 | 2021-09-24 | 富士通株式会社 | 信息处理方法和装置以及信息检测方法和装置 |
CN108121988A (zh) * | 2016-11-30 | 2018-06-05 | 富士通株式会社 | 信息处理方法和装置以及信息检测方法和装置 |
CN107169496A (zh) * | 2017-04-19 | 2017-09-15 | 北京三快在线科技有限公司 | 一种文字识别方法和装置 |
CN107220657A (zh) * | 2017-05-10 | 2017-09-29 | 中国地质大学(武汉) | 一种面向小数据集的高分辨率遥感影像场景分类的方法 |
CN108229286A (zh) * | 2017-05-27 | 2018-06-29 | 北京市商汤科技开发有限公司 | 语言模型生成及应用方法、装置、电子设备和存储介质 |
CN108010527B (zh) * | 2017-12-19 | 2020-06-12 | 深圳市欧瑞博科技有限公司 | 语音识别方法、计算机设备和存储介质 |
CN108010527A (zh) * | 2017-12-19 | 2018-05-08 | 深圳市欧瑞博科技有限公司 | 语音识别方法、装置、计算机设备和存储介质 |
CN110858317A (zh) * | 2018-08-24 | 2020-03-03 | 北京搜狗科技发展有限公司 | 手写识别方法及装置 |
CN109389124B (zh) * | 2018-10-29 | 2019-09-13 | 苏州派维斯信息科技有限公司 | 小票信息类目识别方法 |
CN109389124A (zh) * | 2018-10-29 | 2019-02-26 | 苏州派维斯信息科技有限公司 | 小票信息类目识别方法 |
CN109684928A (zh) * | 2018-11-22 | 2019-04-26 | 西交利物浦大学 | 基于互联网检索的中文文档识别方法 |
CN109684928B (zh) * | 2018-11-22 | 2023-04-11 | 西交利物浦大学 | 基于互联网检索的中文文档识别方法 |
CN112581642A (zh) * | 2020-12-02 | 2021-03-30 | 四川铁投信息技术产业投资有限公司 | 一种基于高速公路门架计费数据的偷逃费车辆稽查方法 |
CN112581642B (zh) * | 2020-12-02 | 2022-03-25 | 四川铁投信息技术产业投资有限公司 | 一种基于高速公路门架计费数据的偷逃费车辆稽查方法 |
CN117998145A (zh) * | 2024-04-03 | 2024-05-07 | 海看网络科技(山东)股份有限公司 | 一种字幕实时监测方法、系统和设备 |
CN117998145B (zh) * | 2024-04-03 | 2024-06-18 | 海看网络科技(山东)股份有限公司 | 一种字幕实时监测方法、系统和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN103984943B (zh) | 2018-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103984943A (zh) | 一种基于贝叶斯概率框架的场景文本识别方法 | |
US20200285896A1 (en) | Method for person re-identification based on deep model with multi-loss fusion training strategy | |
Mao et al. | Explain images with multimodal recurrent neural networks | |
CN106682696B (zh) | 基于在线示例分类器精化的多示例检测网络及其训练方法 | |
CN110334213B (zh) | 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法 | |
CN109740676B (zh) | 基于相似目标的物体检测迁移方法 | |
CN103942550B (zh) | 一种基于稀疏编码特征的场景文本识别方法 | |
CN112733533B (zh) | 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法 | |
CN104463250B (zh) | 一种基于达芬奇技术的手语识别翻译方法 | |
CN110033008B (zh) | 一种基于模态变换与文本归纳的图像描述生成方法 | |
CN110516536A (zh) | 一种基于时序类别激活图互补的弱监督视频行为检测方法 | |
CN110598005A (zh) | 一种面向公共安全事件的多源异构数据知识图谱构建方法 | |
CN104573669A (zh) | 图像物体检测方法 | |
CN110415071B (zh) | 一种基于观点挖掘分析的汽车竞品对比方法 | |
CN110210433B (zh) | 一种基于深度学习的集装箱箱号检测与识别方法 | |
CN105930792A (zh) | 一种基于视频局部特征字典的人体动作分类方法 | |
CN105574489A (zh) | 基于层次级联的暴力群体行为检测方法 | |
CN109684928A (zh) | 基于互联网检索的中文文档识别方法 | |
CN116416503A (zh) | 一种基于多模态融合的小样本目标检测方法、系统及介质 | |
CN115860152A (zh) | 一种面向人物军事知识发现的跨模态联合学习方法 | |
CN115311465A (zh) | 一种基于双注意力模型的图像描述方法 | |
Amrouche et al. | Detection and localization of arabic text in natural scene images | |
CN114780775A (zh) | 一种基于内容选择和引导机制的图像描述文本生成方法 | |
WO2024093466A1 (zh) | 一种基于模型结构自主进化的行人图像重识别方法 | |
CN111242114B (zh) | 文字识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |