CN109344815B - 一种文档图像分类方法 - Google Patents
一种文档图像分类方法 Download PDFInfo
- Publication number
- CN109344815B CN109344815B CN201811526387.9A CN201811526387A CN109344815B CN 109344815 B CN109344815 B CN 109344815B CN 201811526387 A CN201811526387 A CN 201811526387A CN 109344815 B CN109344815 B CN 109344815B
- Authority
- CN
- China
- Prior art keywords
- document image
- image
- network
- key information
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000001514 detection method Methods 0.000 claims abstract description 25
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 22
- 230000004927 fusion Effects 0.000 claims abstract description 6
- 238000012163 sequencing technique Methods 0.000 claims abstract description 4
- 239000010410 layer Substances 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 239000002356 single layer Substances 0.000 claims description 3
- 239000013598 vector Substances 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 241000282472 Canis lupus familiaris Species 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 241000283086 Equidae Species 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 210000000078 claw Anatomy 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
Abstract
本发明公开了一种文档图像分类方法,包括:1、基于深度卷积神经网络,对文档图像进行图像内容特征提取;2、以1为输入利用目标检测框架对文档中的各关键信息条目位置进行检测回归;3、通过2中回归的各关键信息条目的坐标信息,裁剪抽取出各关键信息条目所在位置对应的图像内容特征的特征信息集合;4、基于2中检测的各关键信息条目的相对位置关系,按照预设排序逻辑对3中提取的特征信息集合进行顺序重组;5、利用可变长输入的深度循环网络对4中重组后的特征信息集合,进行深度融合并最终给出文档图像的分类结果。本发明利用CNN+RNN的技术巧妙地组合了图像文本内容特征和图像中内容的布局特征信息;整体精度能达到98%的准确率。
Description
技术领域
本发明涉及文档图像分类技术领域,尤其涉及一种基于深度卷积与深度循环网络并结合字符块布局的文档图像分类方法。
背景技术
目前,主流的结构化文档图像分类方法,基本与文档图像分类技术一致:
方案之一:是单纯用基于CNN的深度神经网络进行分类识别或检测识别。
方案之二:是利用OCR技术对文档内容信息进行提取识别,进而将目标转换为文本文档分类识别问题。
其中,在现阶段,方案一在一些比较近似的图像上分类效果较差,如门诊发票与住院发票的区分等;而方案二的OCR标注成本很高,同时对一些内容信息比较像的文档区分能力较弱。
此外,基于深度卷积神经网络的图片分类方法,如:AlexNet,VGG,GoogleNet,ResNet,DenseNet等,它们都是通过卷积神经网络的方式获取图片的深层抽象特征,然后再对抽象特征进行分类。由于卷积神经网络的特性,这些方法可以获得:平移不变性、尺度不变性等优势。因而它们在处理一些图片分类任务时能获得极高的准确率。比如:ImageNet中提供1000个类别,包括:猫、狗,马,车,花等。这些类别在视觉上是有很好的区分度的,算法可达到98%以上的分类准确性。然而,对一些精细类别的区分,如:我们面临的文档图片分类是更精细的分类,类别间的差别很小,上述图片分类方法只能达到60-70%的准确率。这在生产环境下是无法接受的。
而带注意力模型的深度卷积神经网络的图片分类方法是对上述方法的改进,为了解决类别间差距比较小的分类问题。比如:不同种类的鸟的识别,不同品种的花的识别,不同款式的车的识别。该方法添加了注意力机制,重点突出各类别中差异最大的部位,比如鸟的爪子,车的车标是类别间差异很大的部位,因此该算法会突出这部分的权重,从而达到较好的分类效果。此算法虽然改善了第一种分类方法,对精细类别的区分准确率可达80%以上,但依然没有达到一个令人满意的准确率。
而对于文字识别方法(OCR)+文本分类的方式,其第一阶段是做文本图像中的文字提取:文字识别在其中至关重要,文字识别的方法也分传统方法和深度学习方法。传统的文字识别经历文字检测,单字分割,单字识别,后校验等步骤,识别准确率比较低,泛化能力有限。深度学习的方法是,深度卷积神经网络进行文字检测,深度循环网络进行文字串识别。识别结果准确高,处理简单,泛化能力强。深度学习文字方法包含以下模型:
文字检测的模型:Faster RCNN,EAST,RRCNN,TextBoxes;
文字识别的模型:CNN(多种CNN特征提取模型)+RNN(LSTM、GRU等结构)+CTC(ctc、warpctc等);
该类方法的第二阶段为:文本分类的方法,基本上都有以下处理步骤:文本分词,词向量表示,文档建模表示等。经上述步骤后,可以使用任意的分类方法来进行文本分类。例如:支持向量机(SVM),朴素贝叶斯分类器,K-近邻(KNN),决策树,随机森林等。或者使用深度神经网络的分类方法,将文档表示成词向量矩阵后,就可以使用卷积神经网络和循环神经网络进行分类。此方法对文本分类能达到95%以上的分类准确率。
对于各现有技术,其存在以下缺点:
图片分类的方法:目前基于深度卷积神经网络的图片分类方法取得了很大的突破,在一些图片分类的任务上甚至超越了人类的水平。但是,现有的图片分类技术是针对特征和差别显著的类别,比如:区分猫和狗,它还无法在精细的分类上确定好的准确率。因而,现有图片分类技术无法准确的区分某些差别微小的文档类型。
目标检测的方法:基于目标检测的方法其本质与图片分类方法没有大的区别,多了一步定位信息,让分类信息更加聚焦于图像中的目标的区域,基于深度学习的目标检测的方法在一般的任务下有很好的准确率。比如:它可以准确地从文档图片中判断是否有身份证、银行卡等目标。然而,面对细微差别的门诊发票和住院发票,目标检测方法也无能为力。
文字识别方法(OCR)+文本分类:该方法,第一阶段需要对图像做文字提取,因而在构建模型时,需要对图像中的文本区域标注拉框以及对内容进行文字标注,因而成本十分的高,另外第二阶段的文本分类一般采用词袋模型,也就是并不区分文本中字词出现的先后位置,因而降低了区分性,使得在内容较为类似的文本分类场景中,分类效果较差,同时该方法一般还需要对字词额外构建词向量,才能使特征更加稳定,词向量需要大量的场景相关语料才能训练得到,因而进一步的限制了该方法性能与使用广泛性。
发明内容
针对上述现有技术中存在的不足之处,同时结合到结构化文档图像的特点,本发明提供一种文档图像分类方法,其基于图像信息与布局信息的融合分类方案,利用CNN进行文档图像特征提取,并利用检测方法,定位出核心文本内容区域,然后基于一定的统一的位置顺序逻辑将上述定位出的核心文本区域对应的CNN特征输入给RNN网络,RNN网络把文本块特征进行有序的融合,并最终输出类别信息,从而提供一种内容与布局相结合的端到端的分类方法;具体地,本发明的文档图像分类方法包括以下步骤:
步骤一、基于深度卷积神经网络,对待分类的结构化文档图像进行图像内容特征提取;
步骤二、以步骤一中所提取到的图像内容特征为输入,利用目标检测框架对所述文档图像中的各关键信息条目位置进行检测回归;
步骤三、通过步骤二中回归的各关键信息条目的坐标信息,裁剪抽取出各关键信息条目所在位置对应的图像内容特征的特征信息集合;
步骤四、基于步骤二中检测的各关键信息条目的相对位置关系,按照预设排序逻辑对步骤三中提取的特征信息集合进行顺序重组;
步骤五、利用可变长输入的深度循环网络对步骤四中重组后的特征信息集合,进行深度融合并最终给出所述文档图像的分类结果。
可选地,所述步骤一中的所述深度卷积神经网络为VGG、RestNet,以及Inception中的任意一种。
可选地,所述步骤二中的所述目标检测框架为Faster RCNN、SSD、YOLO、EAST、CTPN、TextBoxes,以及RRCNN中的任意一种。
可选地,所述步骤四中的所述预设排序逻辑为:将文档图像的特征区域网格化,如果一个编号为m的目标框Tm的左上顶点为落在(gi,gj)网格里,则Tm的排序坐标Tm(x,y)=(gi,gj);各目标框按如下逻辑排序:Tm>Tn等价于Tm(x)>Tn(x)||[Tm(x)=Tn(x)&&Tm(y)>Tn(y)]。
可选地,所述步骤五中的所述深度循环网络为单层RNN网络、多层RNN网络、单向RNN网络,以及双向RNN网络中的任意一种。
本发明首先利用成熟的深度检测模型框架对结构化文档中关键信息进行定位,接着利用定位信息抽取对应位置的深度特征,按布局重组织特征顺序后,由于不同类别的文档结构不一样,导致关键信息条目数量也不一样,因而利用可变长输入的深度循环网络融合所有特征信息,并最终给出分类结果。整体精度能达到98%的准确率。
附图说明
图1为本发明实施例提供的文档图像分类方法的处理流程示意图;
图2至图4为以faster-rcnn框架为基础的一个可视化流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本实施例提供一种文档图像分类方法,其包括以下步骤:
步骤一、基于深度卷积神经网络,对待分类的结构化文档图像进行图像内容特征提取;
步骤二、以步骤一中所提取到的图像内容特征为输入,利用目标检测框架对所述文档图像中的各关键信息条目位置进行检测回归;
步骤三、通过步骤二中回归的各关键信息条目的坐标信息,裁剪抽取出各关键信息条目所在位置对应的图像内容特征的特征信息集合;
步骤四、基于步骤二中检测的各关键信息条目的相对位置关系,按照预设排序逻辑对步骤三中提取的特征信息集合进行顺序重组;
步骤五、利用可变长输入的深度循环网络对步骤四中重组后的特征信息集合,进行深度融合并最终给出所述文档图像的分类结果。
进一步地,请参阅图2至图4,其为以faster-rcnn框架为基础的一个可视化流程示意图,下面结合图2至图4的相关信息,对本实施例的方案进行更进一步地阐述:
1.图像特征提取&文本检测模块,此处使用的目标检测可以使用任何通用的目标检测算法,如:Faster RCNN,SSD,YOLO等。下面以Faster RCNN为例子阐述其原理:
a)特征提取模块:利用深度卷积神经网络(VGG,RestNet,Inception)结构提取图片整体抽象特征;
b)候选区域产生器:利用区域候选网络推荐候选证件区域,对均匀多尺度的初始化在整个页面上候选框进行,初步的关键文本区域进行定位,得到:
A.候选目标区域分类:判断该区域是否疑似有文本;
B.候选区域位置回归:对候选区域的位置进行初步调整,使其接近目标文本的位置;
候选区域分类器:利用b)中的初步信息,将判断为疑似有文本的候选区域的特征,通过对应的被调整后的坐标信息裁剪抽取出来,进一步进行:
A.物体目标多分类:给出精准的是否有文本信息的判断;
B.物体目标位置精度调整:给出对位置进一步调整,并给出高精准的位置信息。
2.基于深度循环网络的分类模块,该模块有三个任务:
a)特征抽取与尺寸归一化:使用上一模块产生的文本区域坐标集合,在CNN特征模块中,抽取全部的对应位置的特征,构成该区域的特征信息,并对把所有的特征信息,同RoiPooling的方式resize到同样尺寸。
b)利用文本相对位置,按一定的顺序逻辑,将a)中提取的特征信息集合,进行顺序的重组织,从而把布局信息隐含到了顺序中,特征集合的顺序逻辑可以有多种可行逻辑,考虑到多个目标文本区域重叠概率极低,这里给出一种示意逻辑:
定义:将特征区域网格化,如果一个编号为m目标框Tm的左上顶点为落在(gi,gj)网格里,则Tm排序坐标Tm(x,y)=(gi,gj),排序按优先如下逻辑排序:
Tm>Tn等价于Tm(x)>Tn(x)||[Tm(x)=Tn(x)&&Tm(y)>Tn(y)]。
利用深度循环网络进行特征信息的“有序”融合,最终基于特征给出分类结果,这里的深度循环网络结构可以是多层的、单向、双向的RNN网络,RNN的cell单元可以是现有的任意的RNNcell结构,如:lstm,GRU等结构。此处以一层双向LSTM层+一层单向的LSTM层为例。
可选地,上述文本位置检测回归模块可以是下面的任意方法:Faster RCNN,EAST,CTPN,TextBoxes,RRCNN。特征以布局信息排序方式可以是任何按照一定逻辑的排序方式,也包含随机排序方式。RNN层的结构可以单向、双向的,单层、多层的网络结构。
本发明是基于深度卷积网络+深度循环网络框架,结合图像文本内容特征和布局特征的结构化文档分类方法,其整体精度能达到98%的准确率;具体地,其具有以下几点优点:
·整体架构上是一个端到端的模型框架,不用分开成几个独立的模型组合起来做分类,这种端到端的框架,能够让模型的监督信号同时训练调整优化全局的参数,极大抑制了组合模型带来的误差放大效应,因而精度更好。
·基于位置抽取文本区域的CNN特征,而不用识别出具体的文字内容,有两点好处:
a)无需大量的文字识别标注信息,极大降低了成本,也简化了扩展了推广的简易性;
b)无需额外的收集大量场景文本进行构建文字的词向量特征工作,本发明中从CNN特征模块里,抽取出来的特征隐含了对应文本区域的文本内容信息,因而天然就是词向量。
·结合到了结构化文档的布局信息,即便文档中的文本内容高度相似,由于他们的排版结构有差异,因而输入各RNN的顺序不一样,从而使得模型具有能处理如“住院发票/门诊发票”这类近似文本的能力。
此外,需要说明的是,本发明实施例中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域技术人员来说,本发明可有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种文档图像分类方法,其特征在于,所述方法包括以下步骤:
步骤一、基于深度卷积神经网络,对待分类的结构化文档图像进行图像内容特征提取;
步骤二、以步骤一中所提取到的图像内容特征为输入,利用目标检测框架对所述文档图像中的各关键信息条目位置进行检测回归;
步骤三、通过步骤二中回归的各关键信息条目的坐标信息,裁剪抽取出各关键信息条目所在位置对应的图像内容特征的特征信息集合;
步骤四、基于步骤二中检测的各关键信息条目的相对位置关系,按照预设排序逻辑对步骤三中提取的特征信息集合进行顺序重组;其中,预设排序逻辑包括:将文档图像的特征区域网格化,如果一个编号为m的目标框Tm的左上顶点为落在(gi,gj)网格里,则Tm的排序坐标Tm(x,y)=(gi,gj);各目标框按如下逻辑排序:
Tm>Tn等价于Tm(x)>Tn(x)||[Tm(x)=Tn(x)&&Tm(y)>Tn(y)];
步骤五、利用可变长输入的深度循环网络对步骤四中重组后的特征信息集合,进行深度融合并最终给出所述文档图像的分类结果。
2.如权利要求1所述的文档图像分类方法,其特征在于,所述步骤一中的所述深度卷积神经网络为VGG、RestNet,以及Inception中的任意一种。
3.如权利要求1所述的文档图像分类方法,其特征在于,所述步骤二中的所述目标检测框架为Faster RCNN、SSD、YOLO、EAST、CTPN、TextBoxes,以及RRCNN中的任意一种。
4.如权利要求1所述的文档图像分类方法,其特征在于,所述步骤五中的所述深度循环网络为单层RNN网络、多层RNN网络、单向RNN网络,以及双向RNN网络中的任意一种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811526387.9A CN109344815B (zh) | 2018-12-13 | 2018-12-13 | 一种文档图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811526387.9A CN109344815B (zh) | 2018-12-13 | 2018-12-13 | 一种文档图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109344815A CN109344815A (zh) | 2019-02-15 |
CN109344815B true CN109344815B (zh) | 2021-08-13 |
Family
ID=65304492
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811526387.9A Active CN109344815B (zh) | 2018-12-13 | 2018-12-13 | 一种文档图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109344815B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111626076A (zh) * | 2019-02-27 | 2020-09-04 | 富士通株式会社 | 信息处理方法、信息处理设备和扫描仪 |
CN110084128B (zh) * | 2019-03-29 | 2021-12-14 | 安徽艾睿思智能科技有限公司 | 基于语义空间约束和注意力机制的场景图生成方法 |
CN110136810B (zh) * | 2019-06-12 | 2023-04-07 | 上海移视网络科技有限公司 | 心肌缺血冠脉血流储备的分析方法 |
CN110298338B (zh) * | 2019-06-20 | 2021-08-24 | 北京易道博识科技有限公司 | 一种文档图像分类方法及装置 |
CN110532448B (zh) * | 2019-07-04 | 2023-04-18 | 平安科技(深圳)有限公司 | 基于神经网络的文档分类方法、装置、设备及存储介质 |
CN110472524B (zh) * | 2019-07-25 | 2022-09-13 | 广东工业大学 | 基于深度学习的发票信息管理方法、系统和可读介质 |
CN110472545B (zh) * | 2019-08-06 | 2022-09-23 | 中北大学 | 基于知识迁移学习的航拍电力部件图像的分类方法 |
CN110704687B (zh) * | 2019-09-02 | 2023-08-11 | 平安科技(深圳)有限公司 | 文字布局方法、装置及计算机可读存储介质 |
CN110598686B (zh) * | 2019-09-17 | 2023-08-04 | 携程计算机技术(上海)有限公司 | 发票的识别方法、系统、电子设备和介质 |
CN110610210B (zh) * | 2019-09-18 | 2022-03-25 | 电子科技大学 | 一种多目标检测方法 |
CN111079511A (zh) * | 2019-10-25 | 2020-04-28 | 湖北富瑞尔科技有限公司 | 基于深度学习的文档自动归类及光学字符识别方法及系统 |
CN110751721B (zh) * | 2019-12-24 | 2020-10-30 | 广东博智林机器人有限公司 | 家具布局图纸的生成方法和装置、计算机设备及存储介质 |
CN111444876A (zh) * | 2020-04-08 | 2020-07-24 | 证通股份有限公司 | 一种图文处理方法、系统以及计算机可读存储介质 |
CN111539416A (zh) * | 2020-04-28 | 2020-08-14 | 深源恒际科技有限公司 | 一种基于深度神经网络的文本检测目标提取关系的端到端方法 |
CN111768820A (zh) * | 2020-06-04 | 2020-10-13 | 上海森亿医疗科技有限公司 | 纸质病历数字化及目标检测模型训练方法、装置、存储介质 |
CN111782808A (zh) * | 2020-06-29 | 2020-10-16 | 北京市商汤科技开发有限公司 | 文档处理方法、装置、设备及计算机可读存储介质 |
CN111931664B (zh) * | 2020-08-12 | 2024-01-12 | 腾讯科技(深圳)有限公司 | 混贴票据图像的处理方法、装置、计算机设备及存储介质 |
CN112733658B (zh) * | 2020-12-31 | 2022-11-25 | 北京华宇信息技术有限公司 | 电子文档归档方法及其装置 |
CN113449728A (zh) * | 2021-07-21 | 2021-09-28 | 北京有竹居网络技术有限公司 | 一种文字识别方法及其相关设备 |
CN113688872A (zh) * | 2021-07-28 | 2021-11-23 | 达观数据(苏州)有限公司 | 一种基于多模态融合的文档版面分类方法 |
CN113742483A (zh) * | 2021-08-27 | 2021-12-03 | 北京百度网讯科技有限公司 | 文档分类的方法、装置、电子设备和存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184312A (zh) * | 2015-08-24 | 2015-12-23 | 中国科学院自动化研究所 | 一种基于深度学习的文字检测方法及装置 |
CN105389557A (zh) * | 2015-11-10 | 2016-03-09 | 佛山科学技术学院 | 一种基于多区域特征的电子公文分类方法 |
CN107016417A (zh) * | 2017-03-28 | 2017-08-04 | 青岛伟东云教育集团有限公司 | 一种字符识别的方法及装置 |
CN107194400A (zh) * | 2017-05-31 | 2017-09-22 | 北京天宇星空科技有限公司 | 一种财务报销全票据图片识别处理方法 |
CN107423289A (zh) * | 2017-07-19 | 2017-12-01 | 东华大学 | 一种跨类型乳腺肿瘤临床文档的结构化处理方法 |
CN108229299A (zh) * | 2017-10-31 | 2018-06-29 | 北京市商汤科技开发有限公司 | 证件的识别方法和装置、电子设备、计算机存储介质 |
CN108564084A (zh) * | 2018-05-08 | 2018-09-21 | 北京市商汤科技开发有限公司 | 文字检测方法、装置、终端及存储介质 |
CN108595544A (zh) * | 2018-04-09 | 2018-09-28 | 深源恒际科技有限公司 | 一种文档图片分类方法 |
-
2018
- 2018-12-13 CN CN201811526387.9A patent/CN109344815B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184312A (zh) * | 2015-08-24 | 2015-12-23 | 中国科学院自动化研究所 | 一种基于深度学习的文字检测方法及装置 |
CN105389557A (zh) * | 2015-11-10 | 2016-03-09 | 佛山科学技术学院 | 一种基于多区域特征的电子公文分类方法 |
CN107016417A (zh) * | 2017-03-28 | 2017-08-04 | 青岛伟东云教育集团有限公司 | 一种字符识别的方法及装置 |
CN107194400A (zh) * | 2017-05-31 | 2017-09-22 | 北京天宇星空科技有限公司 | 一种财务报销全票据图片识别处理方法 |
CN107423289A (zh) * | 2017-07-19 | 2017-12-01 | 东华大学 | 一种跨类型乳腺肿瘤临床文档的结构化处理方法 |
CN108229299A (zh) * | 2017-10-31 | 2018-06-29 | 北京市商汤科技开发有限公司 | 证件的识别方法和装置、电子设备、计算机存储介质 |
CN108595544A (zh) * | 2018-04-09 | 2018-09-28 | 深源恒际科技有限公司 | 一种文档图片分类方法 |
CN108564084A (zh) * | 2018-05-08 | 2018-09-21 | 北京市商汤科技开发有限公司 | 文字检测方法、装置、终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109344815A (zh) | 2019-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109344815B (zh) | 一种文档图像分类方法 | |
Afzal et al. | Deepdocclassifier: Document classification with deep convolutional neural network | |
Espinosa et al. | Vehicle detection using alex net and faster R-CNN deep learning models: a comparative study | |
Lei et al. | Region-enhanced convolutional neural network for object detection in remote sensing images | |
EP3166020A1 (en) | Method and apparatus for image classification based on dictionary learning | |
CN108537240A (zh) | 基于领域本体的商品图像语义标注方法 | |
CN104850845A (zh) | 一种基于非对称卷积神经网络的交通标志识别方法 | |
CN107577702B (zh) | 一种社交媒体中交通信息的辨别方法 | |
Yang et al. | A vehicle real-time detection algorithm based on YOLOv2 framework | |
Kumar et al. | Content based fine-grained image retrieval using convolutional neural network | |
CN104615986A (zh) | 利用多检测器对场景变化的视频图像进行行人检测的方法 | |
CN112766170B (zh) | 基于簇类无人机图像的自适应分割检测方法及装置 | |
CN109886330A (zh) | 文本检测方法、装置、计算机可读存储介质和计算机设备 | |
CN111476210A (zh) | 基于图像的文本识别方法、系统、设备及存储介质 | |
CN110020669A (zh) | 一种车牌分类方法、系统、终端设备及计算机程序 | |
Prasad et al. | Using object information for spotting text | |
Aslam et al. | Image classification based on mid-level feature fusion | |
Onim et al. | Traffic surveillance using vehicle license plate detection and recognition in bangladesh | |
Yang et al. | Instance segmentation and classification method for plant leaf images based on ISC-MRCNN and APS-DCCNN | |
Bhujbal et al. | Vehicle type classification using deep learning | |
CN116975340A (zh) | 信息检索方法、装置、设备、程序产品及存储介质 | |
Abdi et al. | In-vehicle augmented reality TSR to improve driving safety and enhance the driver’s experience | |
Bhowmick et al. | Natural scene text detection using deep neural networks | |
Yu et al. | An Improved Faster R-CNN Method for Car Front Detection | |
Bai et al. | Categorizing scenes by exploring scene part information without constructing explicit models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: Room 203, Floor 2, Building 6, Qinghe Xisanqi East Road, Haidian District, Beijing 100,089 Patentee after: Beijing Shenzhi Hengji Technology Co.,Ltd. Address before: 0706-003, 113 Zhichun Road, Haidian District, Beijing 100086 Patentee before: SHENYUAN HENGJI TECHNOLOGY CO.,LTD. |
|
CP03 | Change of name, title or address |