CN109492630A - 一种基于深度学习的金融行业图像中的文字区域检测定位的方法 - Google Patents
一种基于深度学习的金融行业图像中的文字区域检测定位的方法 Download PDFInfo
- Publication number
- CN109492630A CN109492630A CN201811257204.8A CN201811257204A CN109492630A CN 109492630 A CN109492630 A CN 109492630A CN 201811257204 A CN201811257204 A CN 201811257204A CN 109492630 A CN109492630 A CN 109492630A
- Authority
- CN
- China
- Prior art keywords
- text
- candidate
- inception
- network
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1475—Inclination or skew detection or correction of characters or of image to be recognised
- G06V30/1478—Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的金融行业图像中的文字区域检测定位的方法,包括如下步骤:选取金融行业常用的汉字、词组和组合词,加上一些处理,形成变换后的数据集;生成文本区域候选框,计算每一个候选文本区域的得分;并入文本类别监督信息,融入多层次的区域下采样信息并将文本特征输入到LSTM网络模型中形成一种端到端的候选文本区域生成网络;最后再对所述的候选文本区域位置进行修正,使用候选框过滤多余的候选区域。这种发明可以实现对任意角度文本快速的检测。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于深度学习的金融行业图像中的文字区域检测定位的方法。
背景技术
基于OCR的针对金融领域文字区域检测定位识别技术是指通过计算机等设备,利用OCR技术(光学字符识别)将纸质材料中的有效信息自动提取和识别出来,并进行相应处理。它是实现银行无纸化的计算机自动处理的关键技术之一。
相关技术中,OCR文字识别方法分为文字行分割、单字分割、单字识别、语言模型解码等流程,对一张图像进行行分割之后,进行单个字的分割,然后对分割得到的单个字同时进行单字识别,最后进行语言模型解码。然而相关技术中,现有的OCR文字识别方法中对单个字的切割,然后分别对每一个字同时进行识别,一旦单字切割出现切割错误,则单字识别就错了,并且也影响到了其他的单个字的识别。从而,现有技术OCR单字分割定位然后再对文字进行识别的方法,并不准确,容易出现错误,识别率较低。
发明内容
本发明针对现有技术的不足,提供一种基于深度学习的金融行业图像中的文字区域检测定位的方法,可以准确识别金融领域文字区域的文本行,提高文本行识别的鲁棒性。具体技术方案如下:
一种基于深度学习的金融行业图像中的文字区域检测定位的方法,其特征在于,该方法包括如下步骤:
S1:选取金融行业常用的汉字、词组和组合词,生成不同字体类型的汉字图片,形成训练数据集;
S2:对训练数据集中的汉字图片进行随机的旋转、裁剪、模糊、反转、变换明暗度、和gamma变换中的任意一种或多种操作,再用泊松克隆的方式融合不同背景图,形成变换后的数据集;
S3:生成文本区域候选框,以缩放处理后的图像作为inception-RPN网络的输入,在VGG16模型的卷积特征响应图上滑动一个inception网络,并在每个滑动位置辅助一套文本特征先验框,计算每一个候选文本区域的得分;其中,所述的RPN网络是在CNN上增加全卷积层的分类层和边框回归层的全卷积网络,Inception Module中包含3种1x1,3x3,5x5的不同尺寸的卷积和一个最大3x3池化层,所述的Inception-RPN网络,是模仿Inception结构构造RPN网络,并只用了单层结构的Inception来提取候选文本区域;
S4:并入文本类别监督信息,融入多层次的区域下采样信息;
S5:将每一行的文本特征输入到LSTM网络模型中,对文本的高度、文本的起始位置和结束位置进行判断,以一种端到端的方式训练候选文本区域生成网络;
S6:对所述的候选文本区域位置进行修正,获得具有一定方向的倾斜文本候选文本区域;
S7:使用候选框过滤算法对候选文本区域进行过滤,移除远超出实际文本区域的多余的候选区域。
进一步地,所述的S3中所述的文本特征先验框共24种,其中每个滑动位置的滑动窗口宽度设为32、48、64和80,长宽比例为0.2、0.5、0.8、1.0、1.2和1.5;所述的inception网络由一个3*3的卷积层,5*5的卷积层和3*3的最大池化层连接到一个作为输入的VGG16模型的Conv5_3的特征响应图的相应的空间接受域上构建。
进一步地,S4的文本类别监督信息为:候选框IoU重叠大于等于0.5的指定为存在文本,把候选框IoU重叠大于等于0.2小于0.5的指定为模糊文本,其他指定为不包含文本信息。
进一步地,S4的区域下采样信息为:候选框IoU重叠大于等于0.5的指定为存在文本,把候选框IoU重叠大于等于0.2小于0.5的指定为模糊文本,其他指定为不包含文本信息。
进一步地,S6具体包括以下步骤:
S6.1:对候选文本区域进行大小归一化的旋转的池化操作,得到相同大小的特征图;
S6.2:特征图经过两次全连接层操作;
S6.3:根据所求特征对类别判断,并对文本区域进行位置的精确调整,获得具有一定方向的倾斜文本候选文本区域。
本发明的有益效果在于,与现有技术相比,本发明首先对文字的形状进行了完善,其次在融合了不同层次的特征图上采用了inception候选框生成网络的方法提取候选区域的特征,最后加入更多的监督信息,将文本区域分为文字、非文字和有歧义文字三种类别,在文字检测过程中使用循环神经网络(RNN)的方法,首先在VGG的特征图上取一些候选区域,计算每一个候选区域的得分。其次在计算得分的同时,充分考虑上下文的信息,并将每一行的文本特征输入到双向长短期记忆(LSTM)网络模型中,以更好地判断文字的得分。最后对文本的高度、文本的起始位置和结束位置进行了判断。同时设计了具有方向的inception-RPN。其次对倾斜候选区域池化的过程中采用了旋转的池化操作。最后对候选区域进行类别的判断和回归。这种方法可以实现对任意角度文本快速的检测。通过泊松克隆的方式扩大训练样本,有效防止模型过拟合,又丰富了训练样本的场景。
附图说明
图1是本发明基于深度学习的金融行业图像中的文字区域检测定位的流程图。
具体实施方式
下面根据附图和优选实施例详细描述本发明,本发明的目的和效果将变得更加明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,一种基于深度学习的金融行业图像中的文字区域检测定位的方法,该方法包括如下步骤:
S1:选取金融行业常用的汉字、词组和组合词,生成不同字体类型的汉字图片,形成训练数据集;
选取3816个常用汉字以及312个常见金融词汇,用宋体、黑体、楷体、隶书等不同字体类型制作汉字图片,并对其加入一定椒盐噪声、高斯噪声,形成训练数据集,其中,训练数据集中的训练图像为不同字体类型的汉字,标签为对应汉字的指定标号。
S2:对训练数据集中的汉字图片进行随机的旋转、裁剪、模糊、反转、变换明暗度、和gamma变换中的任意一种或多种操作,再用泊松克隆的方式融合不同背景图,形成变换后的数据集;
神经网络模型参数很多,需要大量数据训练,防止过拟合。由于标注样本的成本很高,需要对有限的标注样本进行扩充。对标注好的金融图像进行随机的旋转,旋转角度rotate∈[-30,30]。随机裁剪,原图像宽width,高height,新图片newWidth∈[0.7×width,width],newHeight∈[0.7×height,height]。随机高斯模糊,kernelSize∈[3,9],sigmma∈[1,9]。将BGR图像转换为HSV表示,分离通道后,对图像亮度H加上一个随机值hue_vari,hue_vari∈[-8,8],饱和度S随机乘以sat_vari,sat_vari∈[0.5,1.5],明度V随机乘以val_vari,val_vari∈[0.7,1.3];随机gamma变换,gamma∈[0.5,2.0]。根据gamma表对图像像素值pixeli进行映射。再通过泊松克隆的方式随机融合不同背景的图像,即能丰富样本,又能丰富图像场景。
S3:生成文本区域候选框,以缩放处理后的图像作为inception-RPN的输入,在VGG16模型的卷积特征响应图上滑动一个inception网络,并在每个滑动位置辅助一套文本特征先验框,计算每一个候选文本区域的得分;其中,所述的RPN网络是在CNN上增加全卷积层的分类层和边框回归层的全卷积网络,Inception Module中包含3种1x1,3x3,5x5的不同尺寸的卷积和一个最大3x3池化层,所述的Inception-RPN网络,是模仿Inception结构构造RPN网络,并只用了单层结构的Inception来提取候选文本区域;
所述的S3中所述的文本特征先验框共24种,其中每个滑动位置的滑动窗口宽度设为32、48、64和80,长宽比例为0.2、0.5、0.8、1.0、1.2和1.5;所述的inception网络由一个3*3的卷积层,5*5的卷积层和3*3的最大池化层连接到一个作为输入的VGG16模型的Conv5_3的特征响应图的相应的空间接受域上构建。
S4:并入文本类别监督信息,融入多层次的区域下采样信息;
所述的文本类别监督信息和区域下采样信息均为:候选框IoU重叠大于等于0.5的指定为存在文本,把候选框IoU重叠大于等于0.2小于0.5的指定为模糊文本,其他指定为不包含文本信息。
S5:将每一行的文本特征输入到LSTM网络模型中,对文本的高度、文本的起始位置和结束位置进行判断,以一种端到端的方式训练inception候选文本区域生成网络;
S6:对所述的候选文本区域位置进行修正,获得具有一定方向的倾斜文本候选文本区域;
在学习阶段,把与真实文本框交集除以并集大于0.5的指定为文本标签,反之把重叠区域除以并集区域小于0.3的指定为背景标签。设计的inception候选框生成网络由一个3*3的卷积层,5*5的卷积层和3*3的最大池化层连接到一个作为输入的Conv5_3的特征响应图的相应的空间接受域上。另外,为了降低维度,1*1的卷积操作被应用在3*3的最大池化层上。然后,把通道坐标上各个部分的特征连接起来,一个640维的连接特征向量被送往两个输出层:分类层预测该区域是否存在文本的得分,回归层改善每个滑动位置各种先验窗口的文本区域位置。
对于每一张训练图片,总共抽取128个样本,64正64负,如果正样本不够就用负样本补齐。这个和faster rcnn的做法是一样的。为了提高准确率,训练图片都将短边放缩到600像素。
通过反向传播和随机梯度下降的方法把inception候选框生成网络和文字检测网络以端到端的方式进行训练。共享的卷积网络由预先训练好的imageNet分类网络初始化。新层的权重由均值为0和偏差为0.01的高斯分布初始化。基准学习率为0.001,每迭代40000次缩小为原来的十分之一。动量和权值衰减量分别设为0.9和0.0005。
对候选区域进行修正的具体步骤如下:
S6.1对候选文本区域进行大小归一化的旋转的池化操作,得到相同大小的特征图;
S6.2特征图经过两次全连接层操作;
S6.3根据所求特征对类别判断,并对文本区域进行位置的精确调整,获得具有一定方向的倾斜文本候选文本区域。
S7:使用候选框过滤算法对候选文本区域进行过滤,移除远超出实际文本区域的多余的候选区域。
本领域普通技术人员可以理解,以上所述仅为发明的优选实例而已,并不用于限制发明,尽管参照前述实例对发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内,所做的修改、等同替换等均应包含在发明的保护范围之内。
Claims (5)
1.一种基于深度学习的金融行业图像中的文字区域检测定位的方法,其特征在于,该方法包括如下步骤:
S1:选取金融行业常用的汉字、词组和组合词,生成不同字体类型的汉字图片,形成训练数据集;
S2:对训练数据集中的汉字图片进行随机的旋转、裁剪、模糊、反转、变换明暗度、和gamma变换中的任意一种或多种操作,再用泊松克隆的方式融合不同背景图,形成变换后的数据集;
S3:生成文本区域候选框,以缩放处理后的图像作为inception-RPN网络的输入,在VGG16模型的卷积特征响应图上滑动一个inception网络,并在每个滑动位置辅助一套文本特征先验框,计算每一个候选文本区域的得分;其中,所述的RPN网络是在CNN上增加全卷积层的分类层和边框回归层的全卷积网络,Inception Module中包含3种1x1,3x3,5x5的不同尺寸的卷积和一个最大3x3池化层,所述的Inception-RPN网络,是模仿Inception结构构造RPN网络,并只用了单层结构的Inception来提取候选文本区域。
S4:并入文本类别监督信息,融入多层次的区域下采样信息;
S5:将每一行的文本特征输入到LSTM网络模型中,对文本的高度、文本的起始位置和结束位置进行判断,以一种端到端的方式训练候选文本区域生成网络;
S6:对所述的候选文本区域位置进行修正,获得具有一定方向的倾斜文本候选文本区域;
S7:使用候选框过滤算法对候选文本区域进行过滤,移除远超出实际文本区域的多余的候选区域。
2.根据权利要求1的基于深度学习的金融行业图像中的文字区域检测定位的方法,其特征在于:所述的S3中所述的文本特征先验框共24种,其中每个滑动位置的滑动窗口宽度设为32、48、64和80,长宽比例为0.2、0.5、0.8、1.0、1.2和1.5;所述的inception网络由一个3*3的卷积层,5*5的卷积层和3*3的最大池化层连接到一个作为输入的VGG16模型的Conv5_3的特征响应图的相应的空间接受域上构建。
3.根据权利要求1的基于深度学习的金融行业图像中的文字区域检测定位的方法,其特征在于:S4的文本类别监督信息为:候选框IoU重叠大于等于0.5的指定为存在文本,把候选框IoU重叠大于等于0.2小于0.5的指定为模糊文本,其他指定为不包含文本信息。
4.根据权利要求1的基于深度学习的金融行业图像中的文字区域检测定位的方法,其特征在于:S4的区域下采样信息为:候选框IoU重叠大于等于0.5的指定为存在文本,把候选框IoU重叠大于等于0.2小于0.5的指定为模糊文本,其他指定为不包含文本信息。
5.根据权利要求1的基于深度学习的金融行业图像中的文字区域检测定位的方法,其特征在于:S6具体包括以下步骤:
S6.1:对候选文本区域进行大小归一化的旋转的池化操作,得到相同大小的特征图;
S6.2:特征图经过两次全连接层操作;
S6.3:根据所求特征对类别判断,并对文本区域进行位置的精确调整,获得具有一定方向的倾斜文本候选文本区域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811257204.8A CN109492630A (zh) | 2018-10-26 | 2018-10-26 | 一种基于深度学习的金融行业图像中的文字区域检测定位的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811257204.8A CN109492630A (zh) | 2018-10-26 | 2018-10-26 | 一种基于深度学习的金融行业图像中的文字区域检测定位的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109492630A true CN109492630A (zh) | 2019-03-19 |
Family
ID=65693151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811257204.8A Pending CN109492630A (zh) | 2018-10-26 | 2018-10-26 | 一种基于深度学习的金融行业图像中的文字区域检测定位的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109492630A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135408A (zh) * | 2019-03-26 | 2019-08-16 | 北京捷通华声科技股份有限公司 | 文本图像检测方法、网络以及设备 |
CN110163202A (zh) * | 2019-04-03 | 2019-08-23 | 平安科技(深圳)有限公司 | 文字区域的定位方法、装置、终端设备及介质 |
CN110188751A (zh) * | 2019-05-20 | 2019-08-30 | 福建福清核电有限公司 | 一种m310核电机组设备标牌位号图像识别方法 |
CN110363196A (zh) * | 2019-06-20 | 2019-10-22 | 吴晓东 | 一种倾斜文本的文字精准识别的方法 |
CN110659574A (zh) * | 2019-08-22 | 2020-01-07 | 北京易道博识科技有限公司 | 文档图像勾选框状态识别后输出文本行内容的方法及系统 |
CN110909733A (zh) * | 2019-10-28 | 2020-03-24 | 世纪保众(北京)网络科技有限公司 | 基于ocr图片识别的模版定位方法、装置和计算机设备 |
CN110929614A (zh) * | 2019-11-14 | 2020-03-27 | 杨喆 | 模版定位方法、装置和计算机设备 |
CN110929721A (zh) * | 2019-10-28 | 2020-03-27 | 世纪保众(北京)网络科技有限公司 | 文本切割方法、装置、计算机设备和存储介质 |
CN111291759A (zh) * | 2020-01-17 | 2020-06-16 | 北京三快在线科技有限公司 | 文字检测方法、装置、电子设备及存储介质 |
CN111723789A (zh) * | 2020-02-19 | 2020-09-29 | 王春宝 | 一种基于深度学习的图像文本坐标定位方法 |
CN112766266A (zh) * | 2021-01-29 | 2021-05-07 | 云从科技集团股份有限公司 | 基于分阶段概率统计的文本方向矫正方法、系统及装置 |
CN113676465A (zh) * | 2021-08-10 | 2021-11-19 | 杭州民润科技有限公司 | 一种面向工业企业网络的图像过滤方法、存储器和处理器 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650725A (zh) * | 2016-11-29 | 2017-05-10 | 华南理工大学 | 基于全卷积神经网络的候选文本框生成和文本检测方法 |
CN106980858A (zh) * | 2017-02-28 | 2017-07-25 | 中国科学院信息工程研究所 | 一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法 |
CN107609549A (zh) * | 2017-09-20 | 2018-01-19 | 北京工业大学 | 一种自然场景下证件图像的文本检测方法 |
-
2018
- 2018-10-26 CN CN201811257204.8A patent/CN109492630A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650725A (zh) * | 2016-11-29 | 2017-05-10 | 华南理工大学 | 基于全卷积神经网络的候选文本框生成和文本检测方法 |
CN106980858A (zh) * | 2017-02-28 | 2017-07-25 | 中国科学院信息工程研究所 | 一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法 |
CN107609549A (zh) * | 2017-09-20 | 2018-01-19 | 北京工业大学 | 一种自然场景下证件图像的文本检测方法 |
Non-Patent Citations (1)
Title |
---|
黄孝平: "《当代机器深度学习方法与应用研究》", 30 November 2017, 电子科技大学出版社 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135408A (zh) * | 2019-03-26 | 2019-08-16 | 北京捷通华声科技股份有限公司 | 文本图像检测方法、网络以及设备 |
CN110135408B (zh) * | 2019-03-26 | 2021-02-19 | 北京捷通华声科技股份有限公司 | 文本图像检测方法、网络以及设备 |
CN110163202A (zh) * | 2019-04-03 | 2019-08-23 | 平安科技(深圳)有限公司 | 文字区域的定位方法、装置、终端设备及介质 |
CN110163202B (zh) * | 2019-04-03 | 2024-06-04 | 平安科技(深圳)有限公司 | 文字区域的定位方法、装置、终端设备及介质 |
CN110188751A (zh) * | 2019-05-20 | 2019-08-30 | 福建福清核电有限公司 | 一种m310核电机组设备标牌位号图像识别方法 |
CN110363196B (zh) * | 2019-06-20 | 2022-02-08 | 吴晓东 | 一种倾斜文本的文字精准识别的方法 |
CN110363196A (zh) * | 2019-06-20 | 2019-10-22 | 吴晓东 | 一种倾斜文本的文字精准识别的方法 |
CN110659574A (zh) * | 2019-08-22 | 2020-01-07 | 北京易道博识科技有限公司 | 文档图像勾选框状态识别后输出文本行内容的方法及系统 |
CN110659574B (zh) * | 2019-08-22 | 2022-02-22 | 北京易道博识科技有限公司 | 文档图像勾选框状态识别后输出文本行内容的方法及系统 |
CN110909733A (zh) * | 2019-10-28 | 2020-03-24 | 世纪保众(北京)网络科技有限公司 | 基于ocr图片识别的模版定位方法、装置和计算机设备 |
CN110929721A (zh) * | 2019-10-28 | 2020-03-27 | 世纪保众(北京)网络科技有限公司 | 文本切割方法、装置、计算机设备和存储介质 |
CN110929614A (zh) * | 2019-11-14 | 2020-03-27 | 杨喆 | 模版定位方法、装置和计算机设备 |
CN111291759A (zh) * | 2020-01-17 | 2020-06-16 | 北京三快在线科技有限公司 | 文字检测方法、装置、电子设备及存储介质 |
CN111723789A (zh) * | 2020-02-19 | 2020-09-29 | 王春宝 | 一种基于深度学习的图像文本坐标定位方法 |
CN112766266A (zh) * | 2021-01-29 | 2021-05-07 | 云从科技集团股份有限公司 | 基于分阶段概率统计的文本方向矫正方法、系统及装置 |
CN113676465A (zh) * | 2021-08-10 | 2021-11-19 | 杭州民润科技有限公司 | 一种面向工业企业网络的图像过滤方法、存储器和处理器 |
CN113676465B (zh) * | 2021-08-10 | 2024-02-27 | 杭州民润科技有限公司 | 一种面向工业企业网络的图像过滤方法、存储器和处理器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492630A (zh) | 一种基于深度学习的金融行业图像中的文字区域检测定位的方法 | |
Wigington et al. | Start, follow, read: End-to-end full-page handwriting recognition | |
Bissacco et al. | Photoocr: Reading text in uncontrolled conditions | |
CN110399845A (zh) | 一种图像中连续成段文本检测与识别方法 | |
CN110390251B (zh) | 一种基于多神经网络模型融合处理的图像文字语义分割方法 | |
Casey et al. | A survey of methods and strategies in character segmentation | |
Parvez et al. | Arabic handwriting recognition using structural and syntactic pattern attributes | |
CN110647829A (zh) | 一种票据的文本识别方法及系统 | |
CN103049763B (zh) | 一种基于上下文约束的目标识别方法 | |
Palacios et al. | A system for processing handwritten bank checks automatically | |
US8588529B2 (en) | Method and system for detecting text in raster images | |
US8023701B2 (en) | Method, apparatus, and program for human figure region extraction | |
Radwan et al. | Neural networks pipeline for offline machine printed Arabic OCR | |
CN108681735A (zh) | 基于卷积神经网络深度学习模型的光学字符识别方法 | |
CN112069900A (zh) | 基于卷积神经网络的票据文字识别方法及系统 | |
CN112580507A (zh) | 一种基于图像矩矫正的深度学习文本字符检测方法 | |
Liu et al. | ASTS: A unified framework for arbitrary shape text spotting | |
CN111666937A (zh) | 一种图像中的文本识别方法及系统 | |
CN116311310A (zh) | 一种结合语义分割和序列预测的通用表格识别方法和装置 | |
CN110503090B (zh) | 基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器 | |
CN114898372A (zh) | 一种基于边缘注意力引导的越南场景文字检测方法 | |
Gajjar et al. | Intersection over Union based analysis of Image detection/segmentation using CNN model | |
CN113378919B (zh) | 融合视觉常识和增强多层全局特征的图像描述生成方法 | |
Rajnoha et al. | Handwriting comenia script recognition with convolutional neural network | |
CN112507914A (zh) | 一种基于存折、票据字符ocr识别方法和识别系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Xinyada technology building, 3888 Jiangnan Avenue, Binjiang District, Hangzhou City, Zhejiang Province 310051 Applicant after: Sinyada Technology Co.,Ltd. Address before: Xinyada technology building, 3888 Jiangnan Avenue, Binjiang District, Hangzhou City, Zhejiang Province 310051 Applicant before: SUNYARD SYSTEM ENGINEERING Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190319 |