CN112016547A - 基于深度学习的图像文字识别方法、系统及介质 - Google Patents
基于深度学习的图像文字识别方法、系统及介质 Download PDFInfo
- Publication number
- CN112016547A CN112016547A CN202010845724.1A CN202010845724A CN112016547A CN 112016547 A CN112016547 A CN 112016547A CN 202010845724 A CN202010845724 A CN 202010845724A CN 112016547 A CN112016547 A CN 112016547A
- Authority
- CN
- China
- Prior art keywords
- image
- text
- network
- target
- character recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013135 deep learning Methods 0.000 title claims abstract description 20
- 238000001514 detection method Methods 0.000 claims abstract description 28
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 22
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 20
- 238000004458 analytical method Methods 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 17
- 102100032202 Cornulin Human genes 0.000 claims abstract description 11
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims abstract description 11
- 230000008569 process Effects 0.000 claims abstract description 10
- 230000011218 segmentation Effects 0.000 claims abstract description 9
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 7
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 6
- 238000012937 correction Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000003708 edge detection Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/243—Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供了一种基于深度学习的图像文字识别方法、系统及介质,包括:判断图像的来源类别;通过卷积神经网络提取图像目标区域并对目标区域进行分类;对目标区域的图像进行朝向矫正,将图像旋转至正向朝向,并通过线段检测和频域信号分析法计算图像的倾斜角度;使用目标检测算法,用深度卷积网络计算图像的特征图,对文本行进行目标分割进行文字识别;根据CRNN算法将深度卷积网络和双向循环网络相结合,进行端到端的网络训练;通过训练得到图片中文字所在的位置及模型识别内容,提取文字信息。本发明通过采用计算机视觉及文字识别技术,解决了金融领域智能审核流程内票据卡证、表格文档数据的识别问题。
Description
技术领域
本发明涉及深度学习及图像识别技术领域,具体地,涉及一种基于深度学习的图像文字识别方法、系统及介质。
背景技术
随着智能手机和移动设备的普及,图片作为信息传播的载体在越来越多的场景中被使用。原有业务流程内手动对证照票据关键信息进行提取往往因为字段冗长而效率不高,因此随之而来的也有越来越多的图片文字识别的需求。通过OCR技术完成对票据、表格内关键信息的提取,成为一种提升信息录入效率手段。
传统OCR处理流程包括文本检测、单字符分割、单字符识别、后处理等过程,比较有代表性的为谷歌公司提出的PhotoOCR算法,包含文字区域检测、文本行归并、过分割、基于Beam Search的分割区域组合、基于HOG特征和全链接神经网络的单字符分类等内容,但该方法需要将OCR系统割裂成过多环节,需要在每个环节上引入过多的人工干预,需要根据场景设定方法集成,难以做到端对端的训练及部署,使用成本过高。
并且在识别服务生产流程中,原始系统间割裂导致数据采集流程长时间成本高,上下游信息传递效率差导致技术应用缓慢。
专利文献CN110532855A(申请号:201910630252.5)公开了一种基于深度学习的自然场景证件图像文字识别方法,实现的步骤为:(1)构建图像特征提取模块;(2)构建文字前景预测模块;(3)构建文字区域定位模块;(4)组成文字定位网络;(5)构建字符特征提取模块;(6)组成文字识别网络;(7)构建文字定位数据集;(8)构建文字识别数据集;(9)训练文字定位网络;(10)训练文字识别网络;(11)识别证件图像中的文字。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于深度学习的图像文字识别方法、系统及介质。
根据本发明提供的基于深度学习的图像文字识别方法,包括:
步骤1:对图像进行频域分析、边缘检测、亮度和色彩饱和度分析,判断图像的来源类别;
步骤2:根据图像的来源类别,通过卷积神经网络提取图像目标区域并对目标区域进行分类,获得一个或多个目标区域以及分类;
步骤3:通过卷积神经网络构建四分类分类器对目标区域的图像进行朝向矫正,将图像旋转至正向朝向,并通过线段检测和频域信号分析法计算图像的倾斜角度,实行角度矫正后,进行文字检测;
步骤4:使用目标检测算法,用深度卷积网络计算图像的特征图,对文本行进行目标分割,将每一行文本送入到训练好的识别模型中进行文字识别;
步骤5:根据CRNN算法将深度卷积网络和双向循环网络相结合,进行端到端的网络训练;
步骤6:通过训练得到图片中文字所在的位置及模型识别内容,并进行锚点定位、图片缩放和摆正、模板匹配、干扰文本过滤和识别文本二次纠正,提取文字信息。
优选的,所述步骤4中目标检测算法的骨架网络采用残差网络的FPN版本,在多尺寸的特征图上进行RPN目标提取,由RPN网络输出目标区域,再经分类定位的多任务损失判断目标的坐标和类别。
优选的,所述步骤5中CRNN算法,以CNN特征作为输入,通过注意力模型对RNN的状态和上一状态的注意力权重计算出新状态的注意力的权重,再将CNN特征和权重输入RNN,通过编码和解码得到训练结果。
优选的,所述步骤6中的锚点定位,通过一张正摆放的图片用于制作模板,把所在位置和内容固定的文本作为锚点,和当前图片中识别出来的文本进行比对,根据文本的相似度、文本规则完成锚点的定位。
优选的,所述步骤6中的图片缩放和摆正,在模板匹配的基础上根据图片中匹配的锚点与模板图上的锚点计算透视矩阵,对图片进行缩放和投影变换,完成图片的摆正。
优选的,所述步骤6中的模板匹配,使用摆正后图片新的透视投影矩阵与模板四顶点矩阵距离来计算匹配程度,当匹配程度较低时,进行再次摆正。
优选的,所述步骤6中的干扰文本过滤,根据字段所标注的待识别矩形框与匹配到的矩形框交并比来判断,匹配到的矩形框内文字是否属于某个字段,同时对匹配到文字根据字段类型进行过滤。
优选的,所述步骤6中的识别文本二次纠正,当文本过滤完成后,所保留识别结果置信度较低时,对该行文本使用识别模型进行二次识别,识别过程中引入上下文信息,并通过文本库对识别结果进行纠正,完成最终结构化信息的提取。
根据本发明提供的基于深度学习的图像文字识别系统,包括:
模块M1:对图像进行频域分析、边缘检测、亮度和色彩饱和度分析,判断图像的来源类别;
模块M2:根据图像的来源类别,通过卷积神经网络提取图像目标区域并对目标区域进行分类,获得一个或多个目标区域以及分类;
模块M3:通过卷积神经网络构建四分类分类器对目标区域的图像进行朝向矫正,将图像旋转至正向朝向,并通过线段检测和频域信号分析法计算图像的倾斜角度,实行角度矫正后,进行文字检测;
模块M4:使用目标检测算法,用深度卷积网络计算图像的特征图,对文本行进行目标分割,将每一行文本送入到训练好的识别模型中进行文字识别;
模块M5:根据CRNN算法将深度卷积网络和双向循环网络相结合,进行端到端的网络训练;
模块M6:通过训练得到图片中文字所在的位置及模型识别内容,并进行锚点定位、图片缩放和摆正、模板匹配、干扰文本过滤和识别文本二次纠正,提取文字信息。
根据本发明提供的一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现上述的方法的步骤。
与现有技术相比,本发明具有如下的有益效果:
1、本发明通过采用计算机视觉及文字识别技术,解决了金融领域智能审核流程内票据卡证、表格文档数据的识别问题;
2、本发明使用CRNN算法,将深度卷积网络和双向循环网络相结合,形成端到端的网络训练;
3、本发明通过CRNN算法引入上下文信息,可以用于长宽比不固定的文字框,并可以兼顾文字内容的上下文影响,进行更精准的文字识别。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明方法流程图;
图2为本发明的结构化信息提取步骤。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例:
根据本发明提供的基于深度学习的通用文档、票证等图像信息提取的方法,该方法操作步骤如下:
步骤1:通过对图像进行频域分析、边缘检测、亮度和色彩饱和度分析等方法,判断图片分别是否属于对屏拍摄、模糊图片、过曝图片、复印件图片。
步骤2:通过卷积神经网络提取输入图像中目标区域并实现对目标区域的分类,获得一个或者多个目标区域以及分类。
步骤3:通过卷积神经网络构建四分类分类器对目标区域的图像进行朝向矫正。将图像旋转至正向朝向,并通过线段检测、频域信号分析等方法计算图像的倾斜角度,实行角度矫正后,进行文字检测。
步骤4:使用目标检测算法,用深度卷积网络计算图像的特征图,对文本行进行目标分割;最后再将每一行文本送入到训练好的识别模型中进行文字识别。
步骤4.1:所述步骤中目标检测算法的骨架网络采用残差网络的FPN版本,可在多尺寸的特征图上进行RPN目标提取。由RPN网络输出目标区域,再经分类定位的多任务损失判断目标的精确坐标和类别。其中,FPN中的上卷积和侧连接设计,使金字塔网络中的高分辨率层依然保有良好的语义信息。RPN中的锚框设置使得检测范围可覆盖大小不同、长宽比不一致的各类目标,不受制于场景。整个网络流程可共享卷积神经网络提取的特征信息。
步骤5:传统方法通过识别每个字符以实现全文识别,这一过程导致了上下文信息的丢失,对于单个字符虽具有较高准确率但识别条目准确率难以保证,本专利中使用CRNN算法,CRNN算法将深度卷积网络和双向循环网络相结合,形成端到端的网络训练,引入上下文信息,可以用于长宽比不固定的文字框,并可以兼顾文字内容的上下文影响,进行更精准的文字识别。
步骤5.1:所述步骤中CRNN算法,以CNN特征作为输入,通过注意力模型对RNN的状态和上一状态的注意力权重计算出新状态的注意力的权重,之后将CNN特征和权重输入RNN,也提高了模型的泛化能力,通过编码和解码得到更加准确的结果。
步骤6:通过上述检测和识别步骤,可获得图片中文字所在的位置及模型识别内容。然后通过锚点定位、图片缩放和摆正、模板匹配、干扰文本过滤、识别文本二次纠正等步骤,最终实现结构化信息提取。
步骤6.1:所述步骤所涉及的锚点定位,支持通过一张摆放较正的图片用于制作模板,把所在位置和内容固定的文本作为锚点,和当前图片中识别出来的文本进行比对,根据文本的相似度、文本规则完成锚点的定位。
步骤6.2:所述步骤所涉及的图片缩放和摆正,在模板匹配的基础上根据图片中匹配的锚点与模板图上的锚点计算透视矩阵,对图片进行缩放和投影变换,完成图片的摆正。
步骤6.3:所述步骤所涉及的模板匹配,支持使用摆正后图片新的透视投影矩阵与模板四顶点矩阵距离来计算匹配程度。当匹配程度较低时,系统内部可进行再次摆正。
步骤6.4:所述步骤所涉及的干扰文本过滤,根据字段所标注的待识别矩形框与匹配到的矩形框交并比来判断,匹配到的矩形框内文字是否属于某个字段。同时支持对匹配到文字根据其字段类型对其进行过滤,增加信息提取准确性。
步骤6.5:所述步骤所涉及的识别文本二次纠正,当文本过滤完成后,所保留识别结果置信度较低时。支持对该行文本使用识别模型进行二次识别,识别过程中引入上下文信息,并支持通过文本库对识别结果进行纠正,完成最终结构化信息的提取。
根据本发明提供的基于深度学习的图像文字识别系统,包括:
模块M1:对图像进行频域分析、边缘检测、亮度和色彩饱和度分析,判断图像的来源类别;
模块M2:根据图像的来源类别,通过卷积神经网络提取图像目标区域并对目标区域进行分类,获得一个或多个目标区域以及分类;
模块M3:通过卷积神经网络构建四分类分类器对目标区域的图像进行朝向矫正,将图像旋转至正向朝向,并通过线段检测和频域信号分析法计算图像的倾斜角度,实行角度矫正后,进行文字检测;
模块M4:使用目标检测算法,用深度卷积网络计算图像的特征图,对文本行进行目标分割,将每一行文本送入到训练好的识别模型中进行文字识别;
模块M5:根据CRNN算法将深度卷积网络和双向循环网络相结合,进行端到端的网络训练;
模块M6:通过训练得到图片中文字所在的位置及模型识别内容,并进行锚点定位、图片缩放和摆正、模板匹配、干扰文本过滤和识别文本二次纠正,提取文字信息。
根据本发明提供的一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现上述的方法的步骤。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (10)
1.一种基于深度学习的图像文字识别方法,其特征在于,包括:
步骤1:对图像进行频域分析、边缘检测、亮度和色彩饱和度分析,判断图像的来源类别;
步骤2:根据图像的来源类别,通过卷积神经网络提取图像目标区域并对目标区域进行分类,获得一个或多个目标区域以及分类;
步骤3:通过卷积神经网络构建四分类分类器对目标区域的图像进行朝向矫正,将图像旋转至正向朝向,并通过线段检测和频域信号分析法计算图像的倾斜角度,实行角度矫正后,进行文字检测;
步骤4:使用目标检测算法,用深度卷积网络计算图像的特征图,对文本行进行目标分割,将每一行文本送入到训练好的识别模型中进行文字识别;
步骤5:根据CRNN算法将深度卷积网络和双向循环网络相结合,进行端到端的网络训练;
步骤6:通过训练得到图片中文字所在的位置及模型识别内容,并进行锚点定位、图片缩放和摆正、模板匹配、干扰文本过滤和识别文本二次纠正,提取文字信息。
2.根据权利要求1所述的基于深度学习的图像文字识别方法,其特征在于,所述步骤4中目标检测算法的骨架网络采用残差网络的FPN版本,在多尺寸的特征图上进行RPN目标提取,由RPN网络输出目标区域,再经分类定位的多任务损失判断目标的坐标和类别。
3.根据权利要求1所述的基于深度学习的图像文字识别方法,其特征在于,所述步骤5中CRNN算法,以CNN特征作为输入,通过注意力模型对RNN的状态和上一状态的注意力权重计算出新状态的注意力的权重,再将CNN特征和权重输入RNN,通过编码和解码得到训练结果。
4.根据权利要求1所述的基于深度学习的图像文字识别方法,其特征在于,所述步骤6中的锚点定位,通过一张正摆放的图片用于制作模板,把所在位置和内容固定的文本作为锚点,和当前图片中识别出来的文本进行比对,根据文本的相似度、文本规则完成锚点的定位。
5.根据权利要求4所述的基于深度学习的图像文字识别方法,其特征在于,所述步骤6中的图片缩放和摆正,在模板匹配的基础上根据图片中匹配的锚点与模板图上的锚点计算透视矩阵,对图片进行缩放和投影变换,完成图片的摆正。
6.根据权利要求5所述的基于深度学习的图像文字识别方法,其特征在于,所述步骤6中的模板匹配,使用摆正后图片新的透视投影矩阵与模板四顶点矩阵距离来计算匹配程度,当匹配程度较低时,进行再次摆正。
7.根据权利要求6所述的基于深度学习的图像文字识别方法,其特征在于,所述步骤6中的干扰文本过滤,根据字段所标注的待识别矩形框与匹配到的矩形框交并比来判断,匹配到的矩形框内文字是否属于某个字段,同时对匹配到文字根据字段类型进行过滤。
8.根据权利要求7所述的基于深度学习的图像文字识别方法,其特征在于,所述步骤6中的识别文本二次纠正,当文本过滤完成后,所保留识别结果置信度较低时,对该行文本使用识别模型进行二次识别,识别过程中引入上下文信息,并通过文本库对识别结果进行纠正,完成最终结构化信息的提取。
9.一种基于深度学习的图像文字识别系统,其特征在于,采用权利要求1-8中任一种或任多种所述的基于深度学习的图像文字识别方法,包括:
模块M1:对图像进行频域分析、边缘检测、亮度和色彩饱和度分析,判断图像的来源类别;
模块M2:根据图像的来源类别,通过卷积神经网络提取图像目标区域并对目标区域进行分类,获得一个或多个目标区域以及分类;
模块M3:通过卷积神经网络构建四分类分类器对目标区域的图像进行朝向矫正,将图像旋转至正向朝向,并通过线段检测和频域信号分析法计算图像的倾斜角度,实行角度矫正后,进行文字检测;
模块M4:使用目标检测算法,用深度卷积网络计算图像的特征图,对文本行进行目标分割,将每一行文本送入到训练好的识别模型中进行文字识别;
模块M5:根据CRNN算法将深度卷积网络和双向循环网络相结合,进行端到端的网络训练;
模块M6:通过训练得到图片中文字所在的位置及模型识别内容,并进行锚点定位、图片缩放和摆正、模板匹配、干扰文本过滤和识别文本二次纠正,提取文字信息。
10.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010845724.1A CN112016547A (zh) | 2020-08-20 | 2020-08-20 | 基于深度学习的图像文字识别方法、系统及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010845724.1A CN112016547A (zh) | 2020-08-20 | 2020-08-20 | 基于深度学习的图像文字识别方法、系统及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112016547A true CN112016547A (zh) | 2020-12-01 |
Family
ID=73505315
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010845724.1A Pending CN112016547A (zh) | 2020-08-20 | 2020-08-20 | 基于深度学习的图像文字识别方法、系统及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112016547A (zh) |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364837A (zh) * | 2020-12-09 | 2021-02-12 | 四川长虹电器股份有限公司 | 一种基于目标检测和文本识别的票据信息识别方法 |
CN112418813A (zh) * | 2020-12-02 | 2021-02-26 | 上海三稻智能科技有限公司 | 基于智能解析识别的aeo资质智能评级管理系统、方法及存储介质 |
CN112446351A (zh) * | 2020-12-09 | 2021-03-05 | 杭州米数科技有限公司 | 医疗票据智能识别系统解决方法 |
CN112464957A (zh) * | 2020-12-12 | 2021-03-09 | 广东电网有限责任公司 | 基于非结构化投标文件内容的结构化数据获取方法及装置 |
CN112541490A (zh) * | 2020-12-03 | 2021-03-23 | 广州城市规划技术开发服务部有限公司 | 一种基于深度学习的档案影像信息结构化构建方法及装置 |
CN112633116A (zh) * | 2020-12-17 | 2021-04-09 | 西安理工大学 | 一种智能解析pdf图文的方法 |
CN112668575A (zh) * | 2020-12-28 | 2021-04-16 | 中国平安人寿保险股份有限公司 | 关键信息提取方法、装置、电子设备及存储介质 |
CN112699740A (zh) * | 2020-12-10 | 2021-04-23 | 广州广电运通金融电子股份有限公司 | 一种银行卡信息结构化提取方法、系统及设备 |
CN112766255A (zh) * | 2021-01-19 | 2021-05-07 | 上海微盟企业发展有限公司 | 一种光学文字识别方法、装置、设备及存储介质 |
CN112836632A (zh) * | 2021-02-02 | 2021-05-25 | 浪潮云信息技术股份公司 | 自定义模板文字识别的实现方法及系统 |
CN112926469A (zh) * | 2021-03-04 | 2021-06-08 | 浪潮云信息技术股份公司 | 基于深度学习ocr与版面结构的证件识别方法 |
CN112966537A (zh) * | 2021-02-10 | 2021-06-15 | 北京邮电大学 | 基于二维码定位的表单识别方法及系统 |
CN112989921A (zh) * | 2020-12-31 | 2021-06-18 | 上海智臻智能网络科技股份有限公司 | 一种目标图像信息识别方法及其装置 |
CN112990212A (zh) * | 2021-02-05 | 2021-06-18 | 开放智能机器(上海)有限公司 | 热成像温度图的读数方法、装置、电子设备和存储介质 |
CN113191251A (zh) * | 2021-04-28 | 2021-07-30 | 北京有竹居网络技术有限公司 | 一种笔顺检测方法、装置、电子设备和存储介质 |
CN113313217A (zh) * | 2021-07-31 | 2021-08-27 | 北京惠朗世纪科技有限公司 | 一种基于鲁棒性模板的倾角文字精准识别方法及系统 |
CN113343967A (zh) * | 2021-05-27 | 2021-09-03 | 山东师范大学 | 光学字符快速识别方法及系统 |
CN113344003A (zh) * | 2021-08-05 | 2021-09-03 | 北京亮亮视野科技有限公司 | 目标检测方法及装置、电子设备和存储介质 |
CN113392844A (zh) * | 2021-06-15 | 2021-09-14 | 重庆邮电大学 | 一种基于深度学习的医用胶片上文字信息的识别方法 |
CN113627190A (zh) * | 2021-08-27 | 2021-11-09 | 上海复深蓝软件股份有限公司 | 可视化数据转换方法、装置、计算机设备及存储介质 |
CN113642401A (zh) * | 2021-07-13 | 2021-11-12 | 常州微亿智造科技有限公司 | 基于深度学习网络的文档行分割和分类的方法及系统 |
CN113762269A (zh) * | 2021-09-08 | 2021-12-07 | 深圳市网联安瑞网络科技有限公司 | 基于神经网络的中文字符ocr识别方法、系统、介质及应用 |
CN113936271A (zh) * | 2021-10-18 | 2022-01-14 | 北京有竹居网络技术有限公司 | 文本识别方法、装置、可读介质及电子设备 |
CN113936286A (zh) * | 2021-11-29 | 2022-01-14 | 中国平安人寿保险股份有限公司 | 图像文本识别方法、装置、计算机设备及存储介质 |
CN113963339A (zh) * | 2021-09-02 | 2022-01-21 | 泰康保险集团股份有限公司 | 一种信息提取方法和装置 |
CN114117533A (zh) * | 2021-11-30 | 2022-03-01 | 重庆理工大学 | 一种图片数据分类的方法和系统 |
CN114140282A (zh) * | 2021-11-19 | 2022-03-04 | 武汉东信同邦信息技术有限公司 | 一种基于深度学习的普教课堂答题快速评审方法及装置 |
CN114842487A (zh) * | 2021-12-09 | 2022-08-02 | 上海鹑火信息技术有限公司 | 一种婆罗米系文字的识别方法及系统 |
CN114842483A (zh) * | 2022-06-27 | 2022-08-02 | 齐鲁工业大学 | 基于神经网络和模板匹配的标准文件信息提取方法及系统 |
CN116052193A (zh) * | 2023-04-03 | 2023-05-02 | 杭州实在智能科技有限公司 | Rpa界面动态表格的拾取和匹配方法及系统 |
CN116701303A (zh) * | 2023-07-06 | 2023-09-05 | 浙江档科信息技术有限公司 | 基于深度学习的电子文件分类方法、系统及可读存储介质 |
CN117274972A (zh) * | 2023-11-22 | 2023-12-22 | 盛视科技股份有限公司 | 基于深度学习和传统算法的证件版面分析方法 |
CN117894004A (zh) * | 2023-12-27 | 2024-04-16 | 武汉科技大学 | 一种基于深度学习的热铸坯号识别方法及系统 |
CN117912027A (zh) * | 2024-03-18 | 2024-04-19 | 山东大学 | 一种适用于rpa流程自动化的智能识别方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241894A (zh) * | 2018-08-28 | 2019-01-18 | 南京安链数据科技有限公司 | 一种基于表格定位和深度学习的针对性票据内容识别系统和方法 |
CN109697440A (zh) * | 2018-12-10 | 2019-04-30 | 浙江工业大学 | 一种身份证信息提取方法 |
CN109886274A (zh) * | 2019-03-25 | 2019-06-14 | 山东浪潮云信息技术有限公司 | 基于opencv和深度学习的社保卡识别方法及系统 |
CN109919147A (zh) * | 2019-03-04 | 2019-06-21 | 上海宝尊电子商务有限公司 | 服装吊牌图像中文本识别的方法 |
CN109948604A (zh) * | 2019-02-01 | 2019-06-28 | 北京捷通华声科技股份有限公司 | 不规则排列文本的识别方法、装置、电子设备及存储介质 |
CN110245545A (zh) * | 2018-09-26 | 2019-09-17 | 浙江大华技术股份有限公司 | 一种文字识别方法及装置 |
CN110263708A (zh) * | 2019-06-19 | 2019-09-20 | 郭玮强 | 图像来源识别方法、设备及计算机可读存储介质 |
CN110659574A (zh) * | 2019-08-22 | 2020-01-07 | 北京易道博识科技有限公司 | 文档图像勾选框状态识别后输出文本行内容的方法及系统 |
CN110751143A (zh) * | 2019-09-26 | 2020-02-04 | 中电万维信息技术有限责任公司 | 一种电子发票信息的提取方法及电子设备 |
CN111191649A (zh) * | 2019-12-31 | 2020-05-22 | 上海眼控科技股份有限公司 | 一种识别弯曲多行文本图像的方法与设备 |
CN111401375A (zh) * | 2020-03-09 | 2020-07-10 | 苏宁云计算有限公司 | 文本识别模型训练方法、文本识别方法、装置及设备 |
-
2020
- 2020-08-20 CN CN202010845724.1A patent/CN112016547A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241894A (zh) * | 2018-08-28 | 2019-01-18 | 南京安链数据科技有限公司 | 一种基于表格定位和深度学习的针对性票据内容识别系统和方法 |
CN110245545A (zh) * | 2018-09-26 | 2019-09-17 | 浙江大华技术股份有限公司 | 一种文字识别方法及装置 |
CN109697440A (zh) * | 2018-12-10 | 2019-04-30 | 浙江工业大学 | 一种身份证信息提取方法 |
CN109948604A (zh) * | 2019-02-01 | 2019-06-28 | 北京捷通华声科技股份有限公司 | 不规则排列文本的识别方法、装置、电子设备及存储介质 |
CN109919147A (zh) * | 2019-03-04 | 2019-06-21 | 上海宝尊电子商务有限公司 | 服装吊牌图像中文本识别的方法 |
CN109886274A (zh) * | 2019-03-25 | 2019-06-14 | 山东浪潮云信息技术有限公司 | 基于opencv和深度学习的社保卡识别方法及系统 |
CN110263708A (zh) * | 2019-06-19 | 2019-09-20 | 郭玮强 | 图像来源识别方法、设备及计算机可读存储介质 |
CN110659574A (zh) * | 2019-08-22 | 2020-01-07 | 北京易道博识科技有限公司 | 文档图像勾选框状态识别后输出文本行内容的方法及系统 |
CN110751143A (zh) * | 2019-09-26 | 2020-02-04 | 中电万维信息技术有限责任公司 | 一种电子发票信息的提取方法及电子设备 |
CN111191649A (zh) * | 2019-12-31 | 2020-05-22 | 上海眼控科技股份有限公司 | 一种识别弯曲多行文本图像的方法与设备 |
CN111401375A (zh) * | 2020-03-09 | 2020-07-10 | 苏宁云计算有限公司 | 文本识别模型训练方法、文本识别方法、装置及设备 |
Non-Patent Citations (2)
Title |
---|
蔡若君等: "基于深度学习的二维码定位与检测技术", 《图形图像》 * |
陈榕等: "基于注意力机制的CRNN文本分类算法", 《计算机工程与设计》 * |
Cited By (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112418813A (zh) * | 2020-12-02 | 2021-02-26 | 上海三稻智能科技有限公司 | 基于智能解析识别的aeo资质智能评级管理系统、方法及存储介质 |
CN112418813B (zh) * | 2020-12-02 | 2024-04-05 | 上海三稻智能科技有限公司 | 基于智能解析识别的aeo资质智能评级管理系统、方法及存储介质 |
CN112541490A (zh) * | 2020-12-03 | 2021-03-23 | 广州城市规划技术开发服务部有限公司 | 一种基于深度学习的档案影像信息结构化构建方法及装置 |
CN112446351A (zh) * | 2020-12-09 | 2021-03-05 | 杭州米数科技有限公司 | 医疗票据智能识别系统解决方法 |
CN112446351B (zh) * | 2020-12-09 | 2022-08-09 | 杭州米数科技有限公司 | 医疗票据智能识别方法 |
CN112364837A (zh) * | 2020-12-09 | 2021-02-12 | 四川长虹电器股份有限公司 | 一种基于目标检测和文本识别的票据信息识别方法 |
CN112699740A (zh) * | 2020-12-10 | 2021-04-23 | 广州广电运通金融电子股份有限公司 | 一种银行卡信息结构化提取方法、系统及设备 |
CN112464957A (zh) * | 2020-12-12 | 2021-03-09 | 广东电网有限责任公司 | 基于非结构化投标文件内容的结构化数据获取方法及装置 |
CN112464957B (zh) * | 2020-12-12 | 2024-07-23 | 广东电网有限责任公司 | 基于非结构化投标文件内容的结构化数据获取方法及装置 |
CN112633116B (zh) * | 2020-12-17 | 2024-02-02 | 西安理工大学 | 一种智能解析pdf图文的方法 |
CN112633116A (zh) * | 2020-12-17 | 2021-04-09 | 西安理工大学 | 一种智能解析pdf图文的方法 |
CN112668575A (zh) * | 2020-12-28 | 2021-04-16 | 中国平安人寿保险股份有限公司 | 关键信息提取方法、装置、电子设备及存储介质 |
CN112668575B (zh) * | 2020-12-28 | 2024-05-21 | 中国平安人寿保险股份有限公司 | 关键信息提取方法、装置、电子设备及存储介质 |
CN112989921A (zh) * | 2020-12-31 | 2021-06-18 | 上海智臻智能网络科技股份有限公司 | 一种目标图像信息识别方法及其装置 |
CN112766255A (zh) * | 2021-01-19 | 2021-05-07 | 上海微盟企业发展有限公司 | 一种光学文字识别方法、装置、设备及存储介质 |
CN112836632A (zh) * | 2021-02-02 | 2021-05-25 | 浪潮云信息技术股份公司 | 自定义模板文字识别的实现方法及系统 |
CN112836632B (zh) * | 2021-02-02 | 2023-04-07 | 浪潮云信息技术股份公司 | 自定义模板文字识别的实现方法及系统 |
CN112990212A (zh) * | 2021-02-05 | 2021-06-18 | 开放智能机器(上海)有限公司 | 热成像温度图的读数方法、装置、电子设备和存储介质 |
CN112966537A (zh) * | 2021-02-10 | 2021-06-15 | 北京邮电大学 | 基于二维码定位的表单识别方法及系统 |
CN112926469B (zh) * | 2021-03-04 | 2022-12-27 | 浪潮云信息技术股份公司 | 基于深度学习ocr与版面结构的证件识别方法 |
CN112926469A (zh) * | 2021-03-04 | 2021-06-08 | 浪潮云信息技术股份公司 | 基于深度学习ocr与版面结构的证件识别方法 |
CN113191251A (zh) * | 2021-04-28 | 2021-07-30 | 北京有竹居网络技术有限公司 | 一种笔顺检测方法、装置、电子设备和存储介质 |
CN113343967A (zh) * | 2021-05-27 | 2021-09-03 | 山东师范大学 | 光学字符快速识别方法及系统 |
CN113392844A (zh) * | 2021-06-15 | 2021-09-14 | 重庆邮电大学 | 一种基于深度学习的医用胶片上文字信息的识别方法 |
CN113642401A (zh) * | 2021-07-13 | 2021-11-12 | 常州微亿智造科技有限公司 | 基于深度学习网络的文档行分割和分类的方法及系统 |
CN113313217A (zh) * | 2021-07-31 | 2021-08-27 | 北京惠朗世纪科技有限公司 | 一种基于鲁棒性模板的倾角文字精准识别方法及系统 |
CN113313217B (zh) * | 2021-07-31 | 2021-11-02 | 北京惠朗世纪科技有限公司 | 一种基于鲁棒性模板的倾角文字精准识别方法及系统 |
CN113344003A (zh) * | 2021-08-05 | 2021-09-03 | 北京亮亮视野科技有限公司 | 目标检测方法及装置、电子设备和存储介质 |
CN113627190A (zh) * | 2021-08-27 | 2021-11-09 | 上海复深蓝软件股份有限公司 | 可视化数据转换方法、装置、计算机设备及存储介质 |
CN113963339A (zh) * | 2021-09-02 | 2022-01-21 | 泰康保险集团股份有限公司 | 一种信息提取方法和装置 |
CN113762269B (zh) * | 2021-09-08 | 2024-03-22 | 深圳市网联安瑞网络科技有限公司 | 基于神经网络的中文字符ocr识别方法、系统及介质 |
CN113762269A (zh) * | 2021-09-08 | 2021-12-07 | 深圳市网联安瑞网络科技有限公司 | 基于神经网络的中文字符ocr识别方法、系统、介质及应用 |
CN113936271A (zh) * | 2021-10-18 | 2022-01-14 | 北京有竹居网络技术有限公司 | 文本识别方法、装置、可读介质及电子设备 |
CN114140282A (zh) * | 2021-11-19 | 2022-03-04 | 武汉东信同邦信息技术有限公司 | 一种基于深度学习的普教课堂答题快速评审方法及装置 |
CN113936286A (zh) * | 2021-11-29 | 2022-01-14 | 中国平安人寿保险股份有限公司 | 图像文本识别方法、装置、计算机设备及存储介质 |
CN114117533A (zh) * | 2021-11-30 | 2022-03-01 | 重庆理工大学 | 一种图片数据分类的方法和系统 |
CN114117533B (zh) * | 2021-11-30 | 2023-03-24 | 重庆理工大学 | 一种图片数据分类的方法和系统 |
CN114842487B (zh) * | 2021-12-09 | 2023-11-03 | 上海鹑火信息技术有限公司 | 一种婆罗米系文字的识别方法及系统 |
CN114842487A (zh) * | 2021-12-09 | 2022-08-02 | 上海鹑火信息技术有限公司 | 一种婆罗米系文字的识别方法及系统 |
CN114842483B (zh) * | 2022-06-27 | 2023-11-28 | 齐鲁工业大学 | 基于神经网络和模板匹配的标准文件信息提取方法及系统 |
CN114842483A (zh) * | 2022-06-27 | 2022-08-02 | 齐鲁工业大学 | 基于神经网络和模板匹配的标准文件信息提取方法及系统 |
CN116052193A (zh) * | 2023-04-03 | 2023-05-02 | 杭州实在智能科技有限公司 | Rpa界面动态表格的拾取和匹配方法及系统 |
CN116701303A (zh) * | 2023-07-06 | 2023-09-05 | 浙江档科信息技术有限公司 | 基于深度学习的电子文件分类方法、系统及可读存储介质 |
CN116701303B (zh) * | 2023-07-06 | 2024-03-12 | 浙江档科信息技术有限公司 | 基于深度学习的电子文件分类方法、系统及可读存储介质 |
CN117274972A (zh) * | 2023-11-22 | 2023-12-22 | 盛视科技股份有限公司 | 基于深度学习和传统算法的证件版面分析方法 |
CN117894004A (zh) * | 2023-12-27 | 2024-04-16 | 武汉科技大学 | 一种基于深度学习的热铸坯号识别方法及系统 |
CN117912027A (zh) * | 2024-03-18 | 2024-04-19 | 山东大学 | 一种适用于rpa流程自动化的智能识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112016547A (zh) | 基于深度学习的图像文字识别方法、系统及介质 | |
CN108898086B (zh) | 视频图像处理方法及装置、计算机可读介质和电子设备 | |
US8170340B2 (en) | Device, method and computer program for identifying a traffic sign in an image | |
CN111914838B (zh) | 一种基于文本行识别的车牌识别方法 | |
CN113052170B (zh) | 一种无约束场景下的小目标车牌识别方法 | |
CN106203454A (zh) | 证件版式分析的方法及装置 | |
CN114038004A (zh) | 一种证件信息提取方法、装置、设备及存储介质 | |
CN115512169B (zh) | 基于梯度和区域亲和力优化的弱监督语义分割方法及装置 | |
CN108491828B (zh) | 一种基于层次的成对相似性PVAnet的停车位检测系统及方法 | |
CN113158895A (zh) | 票据识别方法、装置、电子设备及存储介质 | |
CN111104941B (zh) | 图像方向纠正方法、装置及电子设备 | |
CN112861840A (zh) | 基于多特征融合卷积网络的复杂场景字符识别方法及系统 | |
CN116152824A (zh) | 一种发票信息提取方法及系统 | |
CN114820765A (zh) | 图像识别方法、装置、电子设备及计算机可读存储介质 | |
Liu et al. | SLPR: A deep learning based Chinese ship license plate recognition framework | |
Diaa | A Deep Learning Model to Inspect Image Forgery on SURF Keypoints of SLIC Segmented Regions | |
CN108241869A (zh) | 一种基于快速可变形模型和机器学习的图像目标识别方法 | |
CN116958919A (zh) | 目标检测方法、装置、计算机可读介质及电子设备 | |
Uskenbayeva et al. | Contour analysis of external images | |
CN114973268A (zh) | 文本识别方法、装置、存储介质及电子设备 | |
CN114927236A (zh) | 一种面向多重目标图像的检测方法及系统 | |
Kovbasiuk et al. | Detection of vehicles on images obtained from unmanned aerial vehicles using instance segmentation | |
Kong et al. | A key point-based license plate detection with pyramid network structure | |
CN116416672B (zh) | 一种基于GhostNetV2的轻量化人脸与人脸关键点检测方法 | |
WO2024000728A1 (zh) | 单目三维平面恢复方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201201 |
|
RJ01 | Rejection of invention patent application after publication |