CN111368842A - 一种基于多层次最大稳定极值区域的自然场景文本检测方法 - Google Patents
一种基于多层次最大稳定极值区域的自然场景文本检测方法 Download PDFInfo
- Publication number
- CN111368842A CN111368842A CN202010132444.6A CN202010132444A CN111368842A CN 111368842 A CN111368842 A CN 111368842A CN 202010132444 A CN202010132444 A CN 202010132444A CN 111368842 A CN111368842 A CN 111368842A
- Authority
- CN
- China
- Prior art keywords
- mser
- text
- region
- image
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 32
- 238000012216 screening Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 5
- 238000003707 image sharpening Methods 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于多层次最大稳定极值区域的自然场景文本检测方法。所述方法包括:对待检测图像进行锐化处理;对所述锐化后图像进行候选文本区域的提取;对所述候选文本区域进行筛选,得到最终的文本区域。使用本方法可以有效提高传统MSER文本检测方法的文本召回率及检测准确率,且实时性较强。
Description
技术领域
本发明涉及自然场景下的文本检测技术领域,特别是,涉及一种基于多层次最大稳定极值区域的自然场景文本检测方法。
背景技术
目前,基于文本具有高度的概括性和抽象的描述能力,自然场景文本检测技术在智能交通系统、视障人导盲、基于内容的图像检索以及便携式视觉系统等方面具有重要的应用,随着互联网技术以及便携式移动设备的高速发展,越来越多的应用场景需要利用图像中的文本信息,目前自然场景文本检测已成为计算机视觉与模式识别、文档分析与识别领域的一个研究热点。
最大稳定极值区域(MSER)基于分水岭的概念,该方法取[0,255]范围的阈值对图像进行二值化处理,有些连通区域面积随阈值上升的变化很小,定义该类区域为最大稳定极值区域(MSER),根据此原理来初步获取图像的文本区域,是一种综合性能比较好的传统自然场景文本检测方法,但存在着文本召回率较低,且夹杂大量非文本区域的问题,基于此,设计了一种基于多层次最大稳定极值区域(MSER)的自然场景文本检测方法,着重解决上述两个问题。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
因此,本发明要解决的技术问题在于克服现有技术中的文本召回率较低,且夹杂大量非文本区域的缺陷,从而提供一种基于多层次最大稳定极值区域的自然场景文本检测方法。
为解决上述技术问题,本发明提供如下技术方案:一种基于多层次最大稳定极值区域的自然场景文本检测方法,包括如下步骤:
对待检测图像进行锐化处理;
对锐化后图像进行候选文本区域的提取;
对候选文本区域进行筛选,得到最终的文本区域。
作为本发明所述一种基于多层次最大稳定极值区域的自然场景文本检测方法的一种优选方案,其中:对所述图像进行基于拉普拉斯变换的图像锐化,可以起到对图像的文本区域边界的增强效果,其拉普拉斯算子如下所示:
0 -1 0
-1 4 -1
0 -1 0
则得到锐化图像:
作为本发明所述一种基于多层次最大稳定极值区域的自然场景文本检测方法的一种优选方案,其中:对所述锐化后的图像进行尺寸统一。
作为本发明所述一种基于多层次最大稳定极值区域的自然场景文本检测方法的一种优选方案,其中:对所述尺寸统一后图像(RGB图像),进行颜色通道的分离,具体为将其转化为R、G、B、H、S、I、Gray七种单颜色通道图像,具体为:
R=(r)
G=(g)
B=(b)
Gray=r*0.299+g*0.587+b*0.114;
其中:r,g,b分别为原RGB图像的三通道像素值。
作为本发明所述一种基于多层次最大稳定极值区域的自然场景文本检测方法的一种优选方案,其中::将所述七种单颜色通道图像,通过高斯卷积核构造尺度空间,获得不同尺度下的图像,高斯卷积核的求取公式为:
其中:H(i,j)为卷积核坐标;k为卷积核大小;σ为变量,通过调整σ为三种不同大小来改变高斯核的取值。
作为本发明所述一种基于多层次最大稳定极值区域的自然场景文本检测方法的一种优选方案,其中:将所述高斯卷积核与上述七种单颜色通道图像进行卷积操作,至此,对于原待测图像,共得到若干张不同尺度与不同颜色空间下的多层次图像。
作为本发明所述一种基于多层次最大稳定极值区域的自然场景文本检测方法的一种优选方案,其中:将所述多层次图像,根据最大稳定极值区域算法,分别进行候选文本区域的提取,并最后进行合并,具体如下:
MSER(1)=MSER(R,1)∪MSER(G,1)∪MSER(B,1)∪MSER(H,1)∪MSER(S,1)∪MSER(I,1)∪MSER(Gray,1)
MSER(3)=MSER(R,3)∪MSER(G,3)∪MSER(B,3)∪MSER(H,3)∪MSER(S,3)∪MSER(I,3)∪MSER(Gray,3)
MSER(5)=MSER(R,5)∪MSER(G,5)∪MSER(B,5)∪MSER(H,5)∪MSER(S,5)∪MSER(I,5)∪MSER(Gray,5)
MSER(mix)=MSER(1)∪MSER(3)∪MSER(5)
其中:MSER(,)表示不同颜色通道图像在不同尺度下根据最大稳定极值区域算法所求得的文本候选区域,MSER(mix)所有的文本候选区域。
作为本发明所述一种基于多层次最大稳定极值区域的自然场景文本检测方法的一种优选方案,其中:所述候选文本区域进行筛选具体有如下步骤:
基于卷积神经网络设计一个文本区域的判别网络,用于从上述候选文本区域中筛选出文本区域,网络结构采用VGG-16模型,损失函数采用softmax函数,可将网络近似看成一个二分类器;
准备上述判别网络的训练数据,使用ICDAR2015竞赛数据集,其已完成了对图像内文本区域的标注,用矩形框裁剪出,作为训练集的正样本,再通过人工标注,随机生成多处非文本区域矩形框,作为负样本。将训练集样进行缩放,统一大小;
导入上述训练数据,开始网络训练,保存训练好的网络模型。该网络模型可以判断上述候选文本区域是否为文本区域;
将所述所有候选文本区域输入所述判别网络,得到最终的文本区域。
本发明的有益效果:
本发明提供一种基于多层次最大稳定极值区域的自然场景文本检测方法,本发明可以有效提高传统MSER文本检测方法的文本召回率及检测准确率,且实时性较强。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明实施例的基于多层次最大稳定极值区域(MSER)的自然场景文本检测方法的流程图;
图2为本发明实施例的对所述锐化后图像进行候选文本区域的提取的流程图;
图3为是本发明实施例的对所述候选文本区域进行筛选,得到最终的文本区域的流程图;
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
本实施例提供了一种基于多层次最大稳定极值区域的自然场景文本检测方法,如图1~3所示,一种基于多层次最大稳定极值区域(MSER)的自然场景文本检测方法,包括以下步骤:
S1:对待检测图像进行锐化处理;
S2:对所述锐化后图像进行候选文本区域的提取;
S3:对所述候选文本区域进行筛选,得到最终的文本区域。
在其中一个实施例中,对待检测图像进行锐化处理包括以下步骤:
S101:对所述图像进行基于拉普拉斯变换的图像锐化,可以起到图像的文本区域边界增强效果。其拉普拉斯算子如下所示:
0 -1 0
-1 4 -1
0 -1 0
则得到锐化图像:
S102:对所述锐化后图像进行尺寸统一,裁剪为128*128大小。
如图2所示,在其中一个实施例中,对所述锐化后图像进行候选文本区域的提取包括以下步骤:
S201:对所述裁剪后图像(RGB图像),进行颜色通道的分离,具体为将其转化为R,G,B,H,S,I,Gray七种单颜色通道图像分别为:
R=(r);
G=(g);
B=(b);
Gray=r*0.299+g*0.587+b*0.114;;
其中.r,g,b分别为原RGB图像的三通道像素值。
S202:将上述所得的七种单颜色通道图像,通过高斯卷积核构造尺度空间,获得不同尺度下的图像,其中,高斯卷积核的求取公式为
其中:H(i,j)为卷积核坐标,k为卷积核大小,σ为变量,通过调整σ大小来改变高斯核的取值,分别取σ值为1,3,5,则得到三种不同的高斯卷积核。
S203:将上述所得高斯卷积核与上述七种单颜色通道图像进行卷积操作,至此,对于原1张待测图像,共得到7*3=21张不同尺度与不同颜色空间下的多层次图像。
S204:对所述21张多层次图像,根据最大稳定极值区域(MSER)算法,分别进行候选文本区域的提取,并最后进行合并:
MSER(1)=MSER(R,1)∪MSER(G,1)∪MSER(B,1)∪MSER(H,1)∪MSER(S,1)∪MSER(I,1)∪MSER(Gray,1)
MSER(3)=MSER(R,3)∪MSER(G,3)∪MSER(B,3)∪MSER(H,3)∪MSER(S,3)∪MSER(I,3)∪MSER(Gray,3)
MSER(5)=MSER(R,5)∪MSER(G,5)∪MSER(B,5)∪MSER(H,5)∪MSER(S,5)∪MSER(I,5)∪MSER(Gray,5)
MSER(mix)=MSER(1)∪MSER(3)∪MSER(5)
其中:MSER(,)表示不同颜色通道图像在不同尺度下根据MSER算法所求得的文本候选区域,MSER(mix)为所有的文本候选区域。
如图3所示,在其中一个实施例中,对所述候选文本区域进行筛选,得到最终的文本区域包括以下步骤:
S301:基于卷积神经网络(CNN)设计一个文本区域的判别网络,用于从上述候选文本区域中筛选出文本区域。网络结构采用VGG-16模型(是通过反复堆叠3*3的小型卷积核和2*2的最大池化层而构建的16层深的卷积神经网络,是目前最为流行的卷积神经网络模型),损失函数采用softmax函数,其作用是将候选文本区域是文本区域和非文本区域的概率映射到0-1之间,且相加和为1。以此,可将网络近似看成一个二分类器。
S302:准备上述判别网络的训练数据。使用国际文档分析与识别竞赛所提供的ICDAR2015数据集,其包含1000张随机拍摄的自然图像,且已完成了对图像内文本区域的标注,用矩形框将其文本区域裁剪出,作为训练集的正样本,再通过人工标注,随机生成多处非文本区域矩形框,作为负样本。将训练集样进行缩放,统一大小。S303:导入上述训练数据,开始网络训练,保存训练好的网络模型。该网络模型可以判断上述候选文本区域是否为文本区域。
S304:将所述所有候选文本区域输入所述判别网络,得到最终的文本区域。
采用数据库对应的竞赛评价准则来对本方法和传统MSER文本检测方法进行性能评价,所采用的评价指标分别为准确率P、召回率R、和F综合指标。准确率是指正确检测到的文本数与所有检测到的文本总数的比值,召回率是指正确检测到的文本数与真实文本总数的比值,而综合指标则是准确率和召回率之间的调和平均数,具体表达为
本方法与传统MSER文本检测方法的对比结果如下表所示:
由此结果可知,本专利方法的文本检测效果,明显优于传统MSER文本检测方法
重要的是,应注意,在多个不同示例性实施方案中示出的本申请的构造和布置仅是例示性的。尽管在此公开内容中仅详细描述了几个实施方案,但参阅此公开内容的人员应容易理解,在实质上不偏离该申请中所描述的主题的新颖教导和优点的前提下,许多改型是可能的(例如,各种元件的尺寸、尺度、结构、形状和比例、以及参数值(例如,温度、压力等)、安装布置、材料的使用、颜色、定向的变化等)。例如,示出为整体成形的元件可以由多个部分或元件构成,元件的位置可被倒置或以其它方式改变,并且分立元件的性质或数目或位置可被更改或改变。因此,所有这样的改型旨在被包含在本发明的范围内。可以根据替代的实施方案改变或重新排序任何过程或方法步骤的次序或顺序。在权利要求中,任何“装置加功能”的条款都旨在覆盖在本文中所描述的执行所述功能的结构,且不仅是结构等同而且还是等同结构。在不背离本发明的范围的前提下,可以在示例性实施方案的设计、运行状况和布置中做出其他替换、改型、改变和省略。因此,本发明不限制于特定的实施方案,而是扩展至仍落在所附的权利要求书的范围内的多种改型。
此外,为了提供示例性实施方案的简练描述,可以不描述实际实施方案的所有特征(即,与当前考虑的执行本发明的最佳模式不相关的那些特征,或于实现本发明不相关的那些特征)。
应理解的是,在任何实际实施方式的开发过程中,如在任何工程或设计项目中,可做出大量的具体实施方式决定。这样的开发努力可能是复杂的且耗时的,但对于那些得益于此公开内容的普通技术人员来说,不需要过多实验,所述开发努力将是一个设计、制造和生产的常规工作。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (8)
1.一种基于多层次最大稳定极值区域的自然场景文本检测方法,其特征在于,包括以下步骤:
对待检测图像进行锐化处理;
对锐化后图像进行候选文本区域的提取;
对候选文本区域进行筛选,得到最终的文本区域。
3.根据权利要求2所述一种基于多层次最大稳定极值区域的自然场景文本检测方法,其特征在于:对所述锐化后的图像进行尺寸统一。
6.根据权利要求5所述一种基于多层次最大稳定极值区域的自然场景文本检测方法,其特征在于:将所述高斯卷积核与上述七种单颜色通道图像进行卷积操作,至此,对于原待测图像,共得到若干张不同尺度与不同颜色空间下的多层次图像。
7.根据权利要求6所述一种基于多层次最大稳定极值区域的自然场景文本检测方法,其特征在于:将所述多层次图像,根据最大稳定极值区域算法,分别进行候选文本区域的提取,并最后进行合并,具体如下:
MSER(1)=MSER(R,1)∪MSER(G,1)∪MSER(B,1)∪MSER(H,1)∪MSER(S,1)∪MSER(I,1)∪MSER(Gray,1)
MSER(3)=MSER(R,3)∪MSER(G,3)∪MSER(B,3)∪MSER(H,3)∪MSER(S,3)∪MSER(I,3)∪MSER(Gray,3)
MSER(5)=MSER(R,5)∪MSER(G,5)∪MSER(B,5)∪MSER(H,5)∪MSER(S,5)∪MSER(I,5)∪MSER(Gray,5)
MSER(mix)=MSER(1)∪MSER(3)∪MSER(5)
其中:MSER(,)表示不同颜色通道图像在不同尺度下根据最大稳定极值区域算法所求得的文本候选区域,MSER(mix)所有的文本候选区域。
8.根据权利要求1所述一种基于多层次最大稳定极值区域的自然场景文本检测方法,其特征在于:所述候选文本区域进行筛选具体有如下步骤:
基于卷积神经网络设计一个文本区域的判别网络,用于从上述候选文本区域中筛选出文本区域,网络结构采用VGG-16模型,损失函数采用softmax函数,可将网络近似看成一个二分类器;
准备上述判别网络的训练数据,使用ICDAR2015竞赛数据集,其已完成了对图像内文本区域的标注,用矩形框裁剪出,作为训练集的正样本,再通过人工标注,随机生成多处非文本区域矩形框,作为负样本。将训练集样进行缩放,统一大小;
导入上述训练数据,开始网络训练,保存训练好的网络模型。该网络模型可以判断上述候选文本区域是否为文本区域;
将所述所有候选文本区域输入所述判别网络,得到最终的文本区域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010132444.6A CN111368842A (zh) | 2020-02-29 | 2020-02-29 | 一种基于多层次最大稳定极值区域的自然场景文本检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010132444.6A CN111368842A (zh) | 2020-02-29 | 2020-02-29 | 一种基于多层次最大稳定极值区域的自然场景文本检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111368842A true CN111368842A (zh) | 2020-07-03 |
Family
ID=71206463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010132444.6A Pending CN111368842A (zh) | 2020-02-29 | 2020-02-29 | 一种基于多层次最大稳定极值区域的自然场景文本检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111368842A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103310439A (zh) * | 2013-05-09 | 2013-09-18 | 浙江大学 | 一种基于尺度空间的图像最稳极值区域检测方法 |
CN104778466A (zh) * | 2015-04-16 | 2015-07-15 | 北京航空航天大学 | 一种联合多种上下文线索的图像关注区域检测方法 |
CN106846339A (zh) * | 2017-02-13 | 2017-06-13 | 广州视源电子科技股份有限公司 | 一种图像检测方法和装置 |
CN107609549A (zh) * | 2017-09-20 | 2018-01-19 | 北京工业大学 | 一种自然场景下证件图像的文本检测方法 |
CN109903275A (zh) * | 2019-02-13 | 2019-06-18 | 湖北工业大学 | 一种基于自适应多尺度滤波和直方图对比的酒醅发霉区域检测方法 |
CN110046673A (zh) * | 2019-04-25 | 2019-07-23 | 上海大学 | 基于多特征融合的无参考色调映射图像质量评价方法 |
-
2020
- 2020-02-29 CN CN202010132444.6A patent/CN111368842A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103310439A (zh) * | 2013-05-09 | 2013-09-18 | 浙江大学 | 一种基于尺度空间的图像最稳极值区域检测方法 |
CN104778466A (zh) * | 2015-04-16 | 2015-07-15 | 北京航空航天大学 | 一种联合多种上下文线索的图像关注区域检测方法 |
CN106846339A (zh) * | 2017-02-13 | 2017-06-13 | 广州视源电子科技股份有限公司 | 一种图像检测方法和装置 |
CN107609549A (zh) * | 2017-09-20 | 2018-01-19 | 北京工业大学 | 一种自然场景下证件图像的文本检测方法 |
CN109903275A (zh) * | 2019-02-13 | 2019-06-18 | 湖北工业大学 | 一种基于自适应多尺度滤波和直方图对比的酒醅发霉区域检测方法 |
CN110046673A (zh) * | 2019-04-25 | 2019-07-23 | 上海大学 | 基于多特征融合的无参考色调映射图像质量评价方法 |
Non-Patent Citations (4)
Title |
---|
廖佳: "网络图片中文本区域的定位技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 5, pages 15 * |
江彤: "《中国优秀硕士学位论文全文数据库 信息科技辑》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
江彤: "《中国优秀硕士学位论文全文数据库 信息科技辑》", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 3, 15 March 2016 (2016-03-15), pages 13 - 27 * |
江彤: "层次化的自然场景文本检测算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 3, pages 13 - 27 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109241861B (zh) | 一种数学公式识别方法、装置、设备及存储介质 | |
CN107644426A (zh) | 基于金字塔池化编解码结构的图像语义分割方法 | |
CN112199462A (zh) | 跨模态的数据处理方法、装置、存储介质以及电子装置 | |
CN112949476B (zh) | 基于图卷积神经网络的文本关系检测方法、装置及存储介质 | |
CN107766860A (zh) | 基于级联卷积神经网络的自然场景图像文本检测方法 | |
US20160132498A1 (en) | Color Sketch Image Searching | |
CN103020265B (zh) | 图像检索的方法和系统 | |
CN102779157B (zh) | 搜索图像的方法和装置 | |
CN102592148A (zh) | 基于非负矩阵分解和多种距离函数的人脸识别方法 | |
CN110503103B (zh) | 一种基于全卷积神经网络的文本行中的字符切分方法 | |
Termritthikun et al. | NU-InNet: Thai food image recognition using convolutional neural networks on smartphone | |
CN103761295A (zh) | 基于图片自动分类的艺术类图片的定制化特征量提取算法 | |
CN112560849B (zh) | 基于神经网络算法的文理分割方法及系统 | |
CN107958219A (zh) | 基于多模型和多尺度特征的图像场景分类方法 | |
CN109508639A (zh) | 基于多尺度带孔卷积神经网络的道路场景语义分割方法 | |
CN111325237A (zh) | 一种基于注意力交互机制的图像识别方法 | |
CN112287140A (zh) | 一种基于大数据的图像检索方法及系统 | |
CN115620322A (zh) | 一种基于关键点检测的全线表表格结构识别方法 | |
Sadique et al. | Content-based image retrieval using color layout descriptor, gray-level co-occurrence matrix and k-nearest neighbors | |
CN111611413A (zh) | 基于度量学习的深度哈希方法 | |
CN110147785B (zh) | 图像识别方法、相关装置和设备 | |
CN114387592A (zh) | 一种复杂背景下字符定位和识别方法 | |
Guo et al. | Tree Transformation and Neural Network Based Hand-written Formula Recognizer | |
CN111553442B (zh) | 一种分类器链标签序列的优化方法及系统 | |
Vinokurov | Tabular information recognition using convolutional neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |