CN110969129A - 一种端到端税务票据文本检测与识别方法 - Google Patents
一种端到端税务票据文本检测与识别方法 Download PDFInfo
- Publication number
- CN110969129A CN110969129A CN201911220830.4A CN201911220830A CN110969129A CN 110969129 A CN110969129 A CN 110969129A CN 201911220830 A CN201911220830 A CN 201911220830A CN 110969129 A CN110969129 A CN 110969129A
- Authority
- CN
- China
- Prior art keywords
- text
- detection
- tax bill
- region
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明特别涉及一种端到端税务票据文本检测与识别方法。该端到端税务票据文本检测与识别方法,首先采用目标检测算法粗略检测文本区域,根据税务票据文本某些文字之间间距大的特性提出边界注意力机制,细化文本区域;然后利用语义分割技术检测税务印章中的弯曲文本,同时进行文本识别。该端到端税务票据文本检测与识别方法,利用检测加分割技术既可以检测水平和多方向文本又可以检测弯曲文本,同时利用注意力机制通过迭代的方式实现了字间距大的文本实例的检测,而且实现了端到端的检测与识别,既可以提高检测与识别的准确率又可以提高整个流程的效率。
Description
技术领域
本发明涉及深度学习中目标检测与语义分技术领域,特别涉及一种端到端税务票据文本检测与识别方法。
背景技术
近年来,由于文本检测与识别技术(OCR技术)巨大的应用前景,该项技术吸引了越来越多研究者的关注。文本检测与识别技术能够自动,快速地获取不同场景中的文本信息,为后续操作提供便利,例如手写文档录入,场景理解,自动驾驶,地理定位等诸多方面。
目前的工作基本都将检测和识别视为两个独立的任务——文本检测任务和文本识别任务。文本图片首先输入到检测模型定位出相应的文本区域,将文本区域裁剪出来输入到文本识别模型输出相应的识别结果。以往文本检测和文本识别技术使用的都是基于人工设计的特征,但随着深度学习的发展,现在大部分的文本检测和文本识别技术使用的都是深度神经网络自动学习特征。
文本检测技术大致可以分为两类。
首先是基于检测的方法,这类方法又可以细分为基于组件的方法和基于单词或文本行的方法。
(一)基于组件的方法首先检测文本的一部分(可能包含一个或多个字符),然后通过后处理的方式将这些组件分组,将同一组的组件合并,形成最终的文本。
(二)另一种方法是基于单词或文本行的方法,这类方法主要继承自一些流行的目标检测框架,例如Faster RCNN,SSD等。这类方法首先设置一些默认的文本框,通过卷积神经网络对文本框是否包含文本分类,并对文本框进行边框回归。
基于检测的方法在水平文本或多方向文本中取得了不错的表现,但是无法检测弯曲文本。
第二类是基于分割的方法,这类方法主要继承自语义分割,输入图片经过分割网络输出与原图片相同尺度的掩码图片,掩码图片每个像素的值都是0~1,表示有无文本。通过后处理的方式将像素分组,同一组的像素构成一个最终的文本区域。
基于分割的方法可以检测任意形状的文本,但是需要像素级别的标注,数据集的标注有巨大的困难。另外如何将像素分组也是目前遇到的难题,两个文本区域距离太近容易将相应的像素分到同一组中。
目前,文本识别技术主要基于编码-解码框架,在解码过程中利用各注意力机制提高识别准确率。2D attention可以用来识别弯曲文本。
虽然,现有的技术大多将文本检测和文本识别视为两个独立的任务,但是着两个任务在一定程度上是可以相辅相成的。最近虽然已经出现一些端到端的设计,但是这些模型大多数采用堆砌的策略,将检测和识别的模块堆积在一个模型里面,导致整体结构太过复杂,训练困难。另外目前流行的框架基本都是基于英文文本的,而专门用于中文的模型少之又少。
针对以上情况,本发明提出了一种端到端税务票据文本检测与识别方法。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的端到端税务票据文本检测与识别方法。
本发明是通过如下技术方案实现的:
一种端到端税务票据文本检测与识别方法,其特征在于:首先采用目标检测算法粗略检测文本区域,根据税务票据文本某些文字之间间距大的特性提出边界注意力机制,细化文本区域;然后利用语义分割技术检测税务印章中的弯曲文本,同时进行文本识别。
本发明端到端税务票据文本检测与识别方法,包括以下步骤:
第一步,原始税务票据图像输入到文本检测模块,所述文本检测模块基于SSD(Single Shot MultiBox Detector,目标检测算法)模型粗略定位文本,划定文本矩形框;
第二步,文本区域细化模块采用注意力机制,通过迭代的方式不断优化矩形文本框;
第三步,文本区域分割与识别模块将优化过的矩形文本区域的特征作为输入,通过语义分割技术定位出弯曲的文本区域,同时识别出3768类一级汉字。
所述第一步中,使用SSD模型粗略定位文本区域,SSD模型会输出若干个水平矩形框,每个矩形框都有相应的文本的分数,根据不同的分数选择不同的阈值对矩形文本框进行初步筛选。
所述第二步中,文本区域细化模块通过迭代的方式不断优化SSD模型产生的文本框,使得优化后的文本框能够将字间距较大的文本实例包含进来。
所述第二步中,通过迭代的方式不断优化矩形文本框,包括以下步骤:
(1)将SSD模型检测出的文本框映射到特征图(feature map)上,得到相应的文本区域特征;
(2)所述文本区域特征经过卷积操作得到具有4个channel通道的,与文本区域特征有相同尺度的注意力特征;分别表示当前文本框在进行调整时更应该关注左上、左下、右上或右下中的哪个位置;
(3)将4个注意力特征与每个文本区域特征分别进行点乘,然后再经过多次卷积,产生一个16维的输出向量,分别表示左上角、左下角、右上角和右下角在x坐标轴和y坐标轴方向上的偏移量;
(4)利用偏移量对文本框进行更新,多次重复步骤(1)~(3),最终产生的矩形文本框即可很好的包围字间距大的文本实例。
所述第三步中,通过语义分割技术定位出弯曲的文本区域并进行识别,包括以下步骤:
(1)将调整后的文本框再次映射到特征图(feature map)上得到相应的文本区域特征;
(2)利用全卷积的方式对文本区域特征进行分割,产生与输入文本区域有相同尺度的3769个channel通道的掩码图,从而检测出矩形文本框中所有形状的文本区域,同时对所有形状的文本区域中的内容进行识别,使得模型能够端到端检测并识别税务票据文字。
所述步骤(2)中,掩码图中每个像素的值均为0~1,第一个掩码图是文本区域掩码图;其中每个像素值表示该像素是否属于文本,剩余3768个分别表示一级汉字的掩码图,每个掩码图上每个像素的值表示该像素是否属于相应的汉字。
本发明端到端税务票据文本检测与识别方法,具体实施步骤如下。
第一步,单独训练SSD模型,训练k1轮,k1为自然数;
第二步,将图片输入SSD模型产生初始文本框,固定SSD模型,训练注意力(attention)模块,训练k2轮,k2为自然数;
第三步,固定SSD模型,注意力(attention)模块,训练分割模块,训练k3轮,k3为自然数;
第四步,将上述前三步交替进行,逐块优化模型;
第五步,将文本检测模块,文本区域细化模块和文本区域分割与识别模块协同训练,整体优化模型;
第六步,将图片输入训练好的模型,即可直接产生弯曲的文本区域和识别结果。
本发明的有益效果是:该端到端税务票据文本检测与识别方法,利用检测加分割技术既可以检测水平和多方向文本又可以检测弯曲文本,同时利用注意力机制通过迭代的方式实现了字间距大的文本实例的检测,而且实现了端到端的检测与识别,既可以提高检测与识别的准确率又可以提高整个流程的效率。
附图说明
附图1为本发明端到端税务票据文本检测与识别方法示意图。
具体实施方式
为了使本技术领域的人员更好的理解本发明中的技术方案,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚,完整的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
该端到端税务票据文本检测与识别方法,首先采用目标检测算法粗略检测文本区域,根据税务票据文本某些文字之间间距大的特性提出边界注意力机制,细化文本区域;然后利用语义分割技术检测税务印章中的弯曲文本,同时进行文本识别。
该端到端税务票据文本检测与识别方法,包括以下步骤:
第一步,原始税务票据图像输入到文本检测模块,所述文本检测模块基于SSD(Single Shot MultiBox Detector,目标检测算法)模型粗略定位文本,划定文本矩形框;
第二步,文本区域细化模块采用注意力机制,通过迭代的方式不断优化矩形文本框;
第三步,文本区域分割与识别模块将优化过的矩形文本区域的特征作为输入,通过语义分割技术定位出弯曲的文本区域,同时识别出3768类一级汉字。
所述第一步中,使用SSD模型粗略定位文本区域,SSD模型会输出若干个水平矩形框,每个矩形框都有相应的文本的分数,根据不同的分数选择不同的阈值对矩形文本框进行初步筛选。
税务票据中有些文本实例非常长(例如票据抬头),字符间的间距较大,所以上一步的检测很容易将一个文本实例识别成若干个独立的字。为了避免上述情况,该端到端税务票据文本检测与识别方法设计了一种新的边界注意力机制。所述第二步中,文本区域细化模块通过迭代的方式不断优化SSD模型产生的文本框,使得优化后的文本框能够将字间距较大的文本实例包含进来。
所述第二步中,通过迭代的方式不断优化矩形文本框,包括以下步骤:
(1)将SSD模型检测出的文本框映射到特征图(feature map)上,得到相应的文本区域特征;
(2)所述文本区域特征经过卷积操作得到具有4个channel通道的,与文本区域特征有相同尺度的注意力特征;分别表示当前文本框在进行调整时更应该关注左上、左下、右上或右下中的哪个位置;
(3)将4个注意力特征与每个文本区域特征分别进行点乘,然后再经过多次卷积,产生一个16维的输出向量,分别表示左上角、左下角、右上角和右下角在x坐标轴和y坐标轴方向上的偏移量;
(4)利用偏移量对文本框进行更新,多次重复步骤(1)~(3),最终产生的矩形文本框即可很好的包围字间距大的文本实例。
所述第三步中,通过语义分割技术定位出弯曲的文本区域并进行识别,包括以下步骤:
(1)将调整后的文本框再次映射到特征图(feature map)上得到相应的文本区域特征;
(2)利用全卷积的方式对文本区域特征进行分割,产生与输入文本区域有相同尺度的3769个channel通道的掩码图,从而检测出矩形文本框中所有形状的文本区域,同时对所有形状的文本区域中的内容进行识别,使得模型能够端到端检测并识别税务票据文字。
所述步骤(2)中,掩码图中每个像素的值均为0~1,第一个掩码图是文本区域掩码图;其中每个像素值表示该像素是否属于文本,剩余3768个分别表示一级汉字的掩码图,每个掩码图上每个像素的值表示该像素是否属于相应的汉字。
该端到端税务票据文本检测与识别方法,具体实施步骤如下。
第一步,单独训练SSD模型,训练k1轮,k1为自然数;
第二步,将图片输入SSD模型产生初始文本框,固定SSD模型,训练注意力(attention)模块,训练k2轮,k2为自然数;
第三步,固定SSD模型,注意力(attention)模块,训练分割模块,训练k3轮,k3为自然数;
第四步,将上述前三步交替进行,逐块优化模型;
第五步,将文本检测模块,文本区域细化模块和文本区域分割与识别模块协同训练,整体优化模型;
第六步,将图片输入训练好的模型,即可直接产生弯曲的文本区域和识别结果。
与现有技术相比,该端到端税务票据文本检测与识别方法,具有以下特定:
第一,实现了端到端的检测与识别,提高了文本检测与识别的效率和效果;
第二,利用注意力机制,通过迭代的方式实现了字间距大的文本实例的检测;
第三,利用检测加分割技术既可以检测水平和多方向文本又可以检测弯曲文本;
第四,检测部分和识别部分使用共享的卷积特征,大大减小了模型的复杂度,提高了模型的效率;
第五,文本检测模块,文本区域细化模块和文本区域分割与识别模块可以交替进行训练,相比于以往的端到端模型,模型的训练难度更低。
以上对本发明实例中的一种端到端税务票据文本检测与识别方法进行了详细的介绍。本部分采用具体实例对发明的原理及实施方式进行了阐述,以上实例仅用于帮助理解本发明的核心思想,在不脱离本发明原理的情况下,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
Claims (8)
1.一种端到端税务票据文本检测与识别方法,其特征在于:首先采用目标检测算法粗略检测文本区域,根据税务票据文本某些文字之间间距大的特性提出边界注意力机制,细化文本区域;然后利用语义分割技术检测税务印章中的弯曲文本,同时进行文本识别。
2.根据权利要求1所述的端到端税务票据文本检测与识别方法,其特征在于,包括以下步骤:
第一步,原始税务票据图像输入到文本检测模块,所述文本检测模块基于SSD模型粗略定位文本,划定文本矩形框;
第二步,文本区域细化模块采用注意力机制,通过迭代的方式不断优化矩形文本框;
第三步,文本区域分割与识别模块将优化过的矩形文本区域的特征作为输入,通过语义分割技术定位出弯曲的文本区域,同时识别出3768类一级汉字。
3.根据权利要求2所述的端到端税务票据文本检测与识别方法,其特征在于:所述第一步中,使用SSD模型粗略定位文本区域,SSD模型会输出若干个水平矩形框,每个矩形框都有相应的文本的分数,根据不同的分数选择不同的阈值对矩形文本框进行初步筛选。
4.根据权利要求2或3所述的端到端税务票据文本检测与识别方法,其特征在于:所述第二步中,文本区域细化模块通过迭代的方式不断优化SSD模型产生的文本框,使得优化后的文本框能够将字间距较大的文本实例包含进来。
5.根据权利要求4所述的端到端税务票据文本检测与识别方法,其特征在于:所述第二步中,通过迭代的方式不断优化矩形文本框,包括以下步骤:
(1)将SSD模型检测出的文本框映射到特征图上,得到相应的文本区域特征;
(2)所述文本区域特征经过卷积操作得到具有4个channel通道的,与文本区域特征有相同尺度的注意力特征;分别表示当前文本框在进行调整时更应该关注左上、左下、右上或右下中的哪个位置;
(3)将4个注意力特征与每个文本区域特征分别进行点乘,然后再经过多次卷积,产生一个16维的输出向量,分别表示左上角、左下角、右上角和右下角在x坐标轴和y坐标轴方向上的偏移量;
(4)利用偏移量对文本框进行更新,多次重复步骤(1)~(3),最终产生的矩形文本框即可很好的包围字间距大的文本实例。
6.根据权利要求5所述的端到端税务票据文本检测与识别方法,其特征在于:所述第三步中,通过语义分割技术定位出弯曲的文本区域并进行识别,包括以下步骤:
(1)将调整后的文本框再次映射到特征图上得到相应的文本区域特征;
(2)利用全卷积的方式对文本区域特征进行分割,产生与输入文本区域有相同尺度的3769个channel通道的掩码图,从而检测出矩形文本框中所有形状的文本区域,同时对所有形状的文本区域中的内容进行识别,使得模型能够端到端检测并识别税务票据文字。
7.根据权利要求6所述的端到端税务票据文本检测与识别方法,其特征在于:所述步骤(2)中,掩码图中每个像素的值均为0~1,第一个掩码图是文本区域掩码图;其中每个像素值表示该像素是否属于文本,剩余3768个分别表示一级汉字的掩码图,每个掩码图上每个像素的值表示该像素是否属于相应的汉字。
8.根据权利要求7所述的端到端税务票据文本检测与识别方法,其特征在于,实施步骤如下:
第一步,单独训练SSD模型,训练k1轮,k1为自然数;
第二步,将图片输入SSD模型产生初始文本框,固定SSD模型,训练注意力模块,训练k2轮,k2为自然数;
第三步,固定SSD模型,注意力模块,训练分割模块,训练k3轮,k3为自然数;
第四步,将上述前三步交替进行,逐块优化模型;
第五步,将文本检测模块,文本区域细化模块和文本区域分割与识别模块协同训练,整体优化模型;
第六步,将图片输入训练好的模型,即可直接产生弯曲的文本区域和识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911220830.4A CN110969129B (zh) | 2019-12-03 | 2019-12-03 | 一种端到端税务票据文本检测与识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911220830.4A CN110969129B (zh) | 2019-12-03 | 2019-12-03 | 一种端到端税务票据文本检测与识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110969129A true CN110969129A (zh) | 2020-04-07 |
CN110969129B CN110969129B (zh) | 2023-09-01 |
Family
ID=70032702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911220830.4A Active CN110969129B (zh) | 2019-12-03 | 2019-12-03 | 一种端到端税务票据文本检测与识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110969129B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111612009A (zh) * | 2020-05-21 | 2020-09-01 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置、设备和存储介质 |
CN111626294A (zh) * | 2020-05-27 | 2020-09-04 | 北京微智信业科技有限公司 | 一种基于自然语言语义分析的文本识别方法 |
CN111931666A (zh) * | 2020-08-13 | 2020-11-13 | 中国工商银行股份有限公司 | 凭证自动化处理系统及方法 |
CN112101355A (zh) * | 2020-09-25 | 2020-12-18 | 北京百度网讯科技有限公司 | 图像中文本检测方法、装置、电子设备以及计算机介质 |
CN112183549A (zh) * | 2020-10-26 | 2021-01-05 | 公安部交通管理科学研究所 | 一种基于语义分割的境外驾驶证版面文字定位方法 |
CN112528889A (zh) * | 2020-12-16 | 2021-03-19 | 中国平安财产保险股份有限公司 | Ocr信息检测修正方法、装置、终端及存储介质 |
CN112699860A (zh) * | 2021-03-24 | 2021-04-23 | 成都新希望金融信息有限公司 | 一种个税app操作视频中自动化提取和整理有效信息的方法 |
CN112906801A (zh) * | 2021-02-26 | 2021-06-04 | 北京房江湖科技有限公司 | 一种图像处理的方法、装置和存储介质 |
CN113011409A (zh) * | 2021-04-02 | 2021-06-22 | 北京世纪好未来教育科技有限公司 | 一种图像识别方法、装置、电子设备及存储介质 |
WO2022127384A1 (zh) * | 2020-12-15 | 2022-06-23 | 中兴通讯股份有限公司 | 文字识别方法、电子设备和计算机可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170060406A1 (en) * | 2015-08-25 | 2017-03-02 | Myscript | System and method of guiding handwriting input |
CN108549893A (zh) * | 2018-04-04 | 2018-09-18 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN109902622A (zh) * | 2019-02-26 | 2019-06-18 | 中国科学院重庆绿色智能技术研究院 | 一种用于登机牌信息验证的文字检测识别方法 |
CN109948533A (zh) * | 2019-03-19 | 2019-06-28 | 讯飞智元信息科技有限公司 | 一种文本检测方法、装置、设备及可读存储介质 |
CN110032969A (zh) * | 2019-04-11 | 2019-07-19 | 北京百度网讯科技有限公司 | 用于检测图像中的文本区域的方法、装置、设备以及介质 |
CN110033000A (zh) * | 2019-03-21 | 2019-07-19 | 华中科技大学 | 一种票据图像的文本检测与识别方法 |
-
2019
- 2019-12-03 CN CN201911220830.4A patent/CN110969129B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170060406A1 (en) * | 2015-08-25 | 2017-03-02 | Myscript | System and method of guiding handwriting input |
CN108549893A (zh) * | 2018-04-04 | 2018-09-18 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN109902622A (zh) * | 2019-02-26 | 2019-06-18 | 中国科学院重庆绿色智能技术研究院 | 一种用于登机牌信息验证的文字检测识别方法 |
CN109948533A (zh) * | 2019-03-19 | 2019-06-28 | 讯飞智元信息科技有限公司 | 一种文本检测方法、装置、设备及可读存储介质 |
CN110033000A (zh) * | 2019-03-21 | 2019-07-19 | 华中科技大学 | 一种票据图像的文本检测与识别方法 |
CN110032969A (zh) * | 2019-04-11 | 2019-07-19 | 北京百度网讯科技有限公司 | 用于检测图像中的文本区域的方法、装置、设备以及介质 |
Non-Patent Citations (1)
Title |
---|
刘桂雄,刘思洋.ET.AL: "基于深度学习的机器视觉目标检测算法及在票据检测中应用" * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111612009B (zh) * | 2020-05-21 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置、设备和存储介质 |
CN111612009A (zh) * | 2020-05-21 | 2020-09-01 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置、设备和存储介质 |
CN111626294A (zh) * | 2020-05-27 | 2020-09-04 | 北京微智信业科技有限公司 | 一种基于自然语言语义分析的文本识别方法 |
CN111931666A (zh) * | 2020-08-13 | 2020-11-13 | 中国工商银行股份有限公司 | 凭证自动化处理系统及方法 |
CN111931666B (zh) * | 2020-08-13 | 2024-02-13 | 中国工商银行股份有限公司 | 凭证自动化处理系统及方法 |
CN112101355A (zh) * | 2020-09-25 | 2020-12-18 | 北京百度网讯科技有限公司 | 图像中文本检测方法、装置、电子设备以及计算机介质 |
CN112101355B (zh) * | 2020-09-25 | 2024-04-02 | 北京百度网讯科技有限公司 | 图像中文本检测方法、装置、电子设备以及计算机介质 |
CN112183549A (zh) * | 2020-10-26 | 2021-01-05 | 公安部交通管理科学研究所 | 一种基于语义分割的境外驾驶证版面文字定位方法 |
CN112183549B (zh) * | 2020-10-26 | 2022-05-27 | 公安部交通管理科学研究所 | 一种基于语义分割的境外驾驶证版面文字定位方法 |
WO2022127384A1 (zh) * | 2020-12-15 | 2022-06-23 | 中兴通讯股份有限公司 | 文字识别方法、电子设备和计算机可读存储介质 |
CN112528889B (zh) * | 2020-12-16 | 2024-02-06 | 中国平安财产保险股份有限公司 | Ocr信息检测修正方法、装置、终端及存储介质 |
CN112528889A (zh) * | 2020-12-16 | 2021-03-19 | 中国平安财产保险股份有限公司 | Ocr信息检测修正方法、装置、终端及存储介质 |
CN112906801A (zh) * | 2021-02-26 | 2021-06-04 | 北京房江湖科技有限公司 | 一种图像处理的方法、装置和存储介质 |
CN112699860B (zh) * | 2021-03-24 | 2021-06-22 | 成都新希望金融信息有限公司 | 一种个税app操作视频中自动化提取和整理有效信息的方法 |
CN112699860A (zh) * | 2021-03-24 | 2021-04-23 | 成都新希望金融信息有限公司 | 一种个税app操作视频中自动化提取和整理有效信息的方法 |
CN113011409A (zh) * | 2021-04-02 | 2021-06-22 | 北京世纪好未来教育科技有限公司 | 一种图像识别方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110969129B (zh) | 2023-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110969129A (zh) | 一种端到端税务票据文本检测与识别方法 | |
Zhong et al. | An anchor-free region proposal network for Faster R-CNN-based text detection approaches | |
Yuliang et al. | Detecting curve text in the wild: New dataset and new solution | |
Liao et al. | Rotation-sensitive regression for oriented scene text detection | |
Noh et al. | Improving occlusion and hard negative handling for single-stage pedestrian detectors | |
Shahab et al. | ICDAR 2011 robust reading competition challenge 2: Reading text in scene images | |
CN109522900B (zh) | 自然场景文字识别方法及装置 | |
CN112418216B (zh) | 一种复杂自然场景图像中的文字检测方法 | |
Zhang et al. | Text detection in natural scene images based on color prior guided MSER | |
WO2022121039A1 (zh) | 银行卡倾斜矫正检测方法、装置、可读存储介质和终端 | |
Xu et al. | Page segmentation for historical handwritten documents using fully convolutional networks | |
CN113673338B (zh) | 自然场景文本图像字符像素弱监督自动标注方法、系统及介质 | |
CN110298343A (zh) | 一种手写黑板板书识别方法 | |
CN106875546A (zh) | 一种增值税发票的识别方法 | |
CN104751142A (zh) | 一种基于笔划特征的自然场景文本检测算法 | |
CN110502655B (zh) | 一种嵌入场景文字信息的图像自然描述语句生成方法 | |
Ma et al. | Segmentation and recognition for historical Tibetan document images | |
CN111460927A (zh) | 对房产证图像进行结构化信息提取的方法 | |
CN107122775A (zh) | 一种基于特征匹配的安卓手机身份证字符识别方法 | |
CN112766255A (zh) | 一种光学文字识别方法、装置、设备及存储介质 | |
Bijalwan et al. | Automatic text recognition in natural scene and its translation into user defined language | |
CN111507353B (zh) | 一种基于文字识别的中文字段检测方法及系统 | |
CN112070174A (zh) | 一种基于深度学习的自然场景下文本检测方法 | |
CN113780276B (zh) | 一种结合文本分类的文本识别方法及系统 | |
Vajda et al. | A method for camera-based interactive whiteboard reading |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230802 Address after: 250100 building S02, No. 1036, Langchao Road, high tech Zone, Jinan City, Shandong Province Applicant after: Shandong Inspur Scientific Research Institute Co.,Ltd. Address before: North 6th floor, S05 building, Langchao Science Park, 1036 Langchao Road, hi tech Zone, Jinan City, Shandong Province, 250100 Applicant before: SHANDONG INSPUR ARTIFICIAL INTELLIGENCE RESEARCH INSTITUTE Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |