CN111539416A - 一种基于深度神经网络的文本检测目标提取关系的端到端方法 - Google Patents
一种基于深度神经网络的文本检测目标提取关系的端到端方法 Download PDFInfo
- Publication number
- CN111539416A CN111539416A CN202010350060.1A CN202010350060A CN111539416A CN 111539416 A CN111539416 A CN 111539416A CN 202010350060 A CN202010350060 A CN 202010350060A CN 111539416 A CN111539416 A CN 111539416A
- Authority
- CN
- China
- Prior art keywords
- roi
- stage
- target
- foreground
- extracting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度神经网络的文本检测目标提取关系的端到端方法,属于计算机视觉技术领域。所述方法在现有的基于深度神经网络的二阶段的目标检测算法的第二阶段结构流程中增加检测目标的匹配关系判断模块,从而实现检测目标是否匹配的训练和预测。通过将文字结构化提取做到深度学习网络结构中,实现端到端的提取功能,从而达到节省提取功能的维护成本目的。本发明所述基于深度神经网络的方法,在文本检测中能够实现端到端的训练和预测,能够达到鲁棒性强,无需再使用规则库进行关系提取,从而降低提取关系资源开发和维护成本。
Description
技术领域
本发明属于计算机视觉技术领域,特别是涉及基于深度神经网络的文本检测目标提取关系的端到端方法。
技术背景
OCR(Optical Character Recognition光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将文字图像翻译成计算机文字的过程。目前,深度学习在图片识别领域取得非常大的进步。相比传统的图片识别方法使用的色彩、HOG等低级视觉特征;深度神经网络能学得更多高级的、抽象的特征,这使得深度神经网络的性能远远超越传统方法。特别是,2014年以来,深度学习开始在物体检测,物体分割等领域取得优秀成果,涌现出Deeplab,YOLO,Faster RCNN,等一序列方法,识别准确率在特定任务上已经超越了人类识别的水平,并在生成环境中得到大规模使用。然而,现有技术中,在文字识别后,通常会对识别结果进行结构化提取,目前大多数结构化提取功能是通过建立规则库来实现的,例如基于先验知识的枚举,模板规则,通常这类方法需要针对具体问题编写大量代码,开发和维护成本高,泛化性能差,不够鲁棒,可维护性较差。
发明内容
针对上述技术问题,本发明提出了一种基于深度神经网络的文本检测目标提取关系的端到端方法,将文字结构化提取做到深度学习网络结构中,实现端到端的提取功能,从而达到节省提取功能的维护成本目的。
本发明包含以下技术方案:
一种基于深度神经网络的文本检测目标提取关系的端到端方法,在现有的基于深度神经网络的二阶段的目标检测算法的第二阶段结构流程中增加检测目标的匹配关系判断模块,从而实现检测目标是否匹配的训练和预测。本方法通过将文本目标匹配关系显式标注,从而实现文本目标匹配关系的端到端训练和预测,具有较好的鲁棒性,同时维护成本非常低。
作为可选方式,在上述文本检测目标提取关系的端到端方法中,所述检测目标的匹配关系判断模块只针对前景roi(感兴趣区域region of interest)特征序列相互之间的匹配关系进行判断。
作为可选方式,在上述文本检测目标提取关系的端到端方法中,所述前景roi特征序列和背景roi特征序列的确定方法具体为:通过该roi的位置坐标与真值位置的iou交集来确定,当iou交集高于0.50时认定是前景,低于0.50时则认定是背景。其中,iou(Intersection-Over-Union)的定义为:两个矩形框(bounding box)的重叠度,矩形框A、B的重叠度iou计算方法:iou=(A∩B)/(A∪B),即A、B矩形框的重叠面积与他们面积的并集之比。
作为可选方式,在上述文本检测目标提取关系的端到端方法中,所述检测目标的匹配关系判断模块具体包括以下流程:
(1)获取前景roi序列特征;
(2)将任意两个前景roi特征联接;
(3)基于标注真值判断联接的两个前景roi特征是否存在匹配关系,如果匹配,则训练的类别标签设置成1,如果不匹配,则训练的类别标签设置成0;
(4)将联接后的特征向量再经过特征提取网络,并进行分类识别,从而实现任意两个拼接的前景roi特征判断。
作为可选方式,在上述文本检测目标提取关系的端到端方法中,所述步骤(2)中每个roi特征形状是1*1*1024,将这两个特征进行concat联接,从而得到联接后的特征向量形状是1*1*2048。
作为可选方式,在上述文本检测目标提取关系的端到端方法中,所述步骤(2)中每个roi特征形状是1*1*512,将这两个特征进行concat联接,从而得到联接后的特征向量形状是1*1*1024。
作为可选方式,在上述文本检测目标提取关系的端到端方法中,所述步骤(2)中每个roi特征形状是1*1*2048,将这两个特征进行concat联接,从而得到联接后的特征向量形状是1*1*4096。
作为可选方式,在上述文本检测目标提取关系的端到端方法中,所述文本检测基础框架为任意的二阶段的目标检测算法,如Faster RCNN、R2CNN、mask_rcnn中的任意一种。
作为可选方式,在上述文本检测目标提取关系的端到端方法中,基于Faster RCNN框架下,在第二阶段的RCNN网络结构流程中增加检测目标的匹配关系判断模块。
作为可选方式,在上述文本检测目标提取关系的端到端方法中,具体流程如下:
(1)输入图像;
(2)第一阶段:通过RPN网络(区域生成网络Region Proposal Network)提取目标候选区域,生成roi特征序列;
(3)第二阶段:第一阶段RPN网络推送的roi特征序列进入第二阶段RCNN网络分离出前景roi特征序列和背景roi特征序列,然后通过文本检测目标匹配关系判断模块对前景roi特征序列相互之间的匹配关系进行判断。
作为可选方式,在上述文本检测目标提取关系的端到端方法中,具体包括以下步骤:
(1)输入图像;
(2)第一阶段:通过RPN网络提取目标候选区域,生成roi特征序列;
(3)第二阶段:第一阶段RPN网络推送的roi特征序列进入第二阶段RCNN网络,通过roi的位置坐标与真值位置的iou交集来确定来分离出前景roi特征序列和背景roi特征序列,当iou交集高于0.50时认定是前景,低于0.50时则认定是背景;然后随机筛选出两个前景roi特征,每个roi特征形状是1*1*1024,将这两个特征进行concat联接,从而得到联接后的特征向量形状是1*1*2048;对于任意两个拼接的前景roi特征,基于标注真值判断这两个前景roi特征是否存在匹配关系,如果匹配,则训练的类别标签设置成1,如果不匹配,则训练的类别标签设置成0;将第2步的特征向量再经过全连接或卷积层特征提取网络,再送入softmax分类识别,最终输出文本目标匹配关系判断结果。
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本发明的有益效果:
本发明所述基于深度神经网络的方法,在文本检测中能够实现端到端的训练和预测,能够达到鲁棒性强,无需再使用规则库进行关系提取,从而降低提取关系资源开发和维护成本。
附图说明:
图1为本发明实施例1中采用的Faster RCNN的网络结构示意图;
图2为本发明实施例1中在RCNN网络结构中增加文本检测目标匹配关系判断模块的示意图;
图3为roi前景目标关系判断模块实现流程示意图;
具体实施方式:
以下通过实施例的具体实施方式对本发明的上述内容作进一步的详细说明。但不应当将此理解为本发明上述主题的范围仅限于以下的实例。在不脱离本发明的精神和原则之内做的任何修改,以及根据本领域普通技术知识和惯用手段做出的等同替换或者改进,均应包括在本发明的保护范围内。
实施例1
一种基于深度神经网络的文本检测目标提取关系的端到端方法,基于FasterRCNN框架下,在第二阶段的RCNN网络结构流程中增加检测目标的匹配关系判断模块,从而实现检测目标是否匹配的训练和预测(如图2所示)。
目前文本检测技术方案或采用Faster RCNN等两阶段深度网络结构,或采用YOLO等单阶段深度网络结构,本实施例所述的端到端方案采用Faster RCNN两阶段深度网络结构实现,该技术网络结构通常图1所示。
本实施例所述方法具体包括以下步骤:
(1)输入图像;
(2)第一阶段:通过RPN网络提取目标候选区域,生成roi特征序列;
(3)第二阶段:第一阶段RPN网络推送的roi特征序列进入第二阶段RCNN网络,通过roi的位置坐标与真值位置的iou交集来确定来分离出前景roi特征序列和背景roi特征序列,当iou交集高于0.50时认定是前景,低于0.50时则认定是背景;然后随机筛选出两个前景roi特征,每个roi特征形状是1*1*1024,将这两个特征进行concat联接,从而得到联接后的特征向量形状是1*1*2048;对于任意两个拼接的前景roi特征,基于标注真值判断这两个前景roi特征是否存在匹配关系,如果匹配,则训练的类别标签设置成1,如果不匹配,则训练的类别标签设置成0;将第(2)步的特征向量再经过全连接或卷积层特征提取网络,再送入softmax分类识别,最终输出文本检测结果(如图3所示)。
该方法基于深度神经网络在文本检测中能够实现端到端的训练和预测,能够达到鲁棒性强,无需再使用规则库进行关系提取,从而降低提取关系资源开发和维护成本。
实施例2
一种基于深度神经网络的文本检测目标提取关系的端到端方法,基于RCNN框架下,在第二阶段的RCNN网络结构流程中增加检测目标的匹配关系判断模块,从而实现检测目标是否匹配的训练和预测。
本实施例所述方法具体包括以下步骤:
(1)输入图像;
(2)第一阶段:通过RPN提取目标候选区域,生成roi特征序列;
(3)第二阶段:第一阶段推送的roi特征序列进入第二阶段RCNN网络,通过roi的位置坐标与真值位置的iou交集来确定来分离出前景roi特征序列和背景roi特征序列,当iou交集高于0.50时认定是前景,低于0.50时则认定是背景;然后随机筛选出两个前景roi特征,每个roi特征形状是1*1*2048,将这两个特征进行concat联接,从而得到联接后的特征向量形状是1*1*4096;对于任意两个拼接的前景roi特征,基于标注真值判断这两个前景roi特征是否存在匹配关系,如果匹配,则训练的类别标签设置成1,如果不匹配,则训练的类别标签设置成0;将第(2)步的特征向量再经过全连接或卷积层特征提取网络,再送入softmax分类识别,最终输出文本检测结果。
该方法基于深度神经网络在文本检测中能够实现端到端的训练和预测,能够达到鲁棒性强,无需再使用规则库进行关系提取,从而降低提取关系资源开发和维护成本。
实施例3
一种基于深度神经网络的文本检测目标提取关系的端到端方法,基于FasterRCNN框架下,在第二阶段的RCNN网络结构流程中增加检测目标的匹配关系判断模块,从而实现检测目标是否匹配的训练和预测。
本实施例所述方法具体包括以下步骤:
(1)输入图像;
(2)第一阶段:通过RPN提取目标候选区域,生成roi特征序列;
(3)第二阶段:第一阶段推送的roi特征序列进入第二阶段RCNN网络,通过roi的位置坐标与真值位置的iou交集来确定来分离出前景roi特征序列和背景roi特征序列,当iou交集高于0.50时认定是前景,低于0.50时则认定是背景;然后随机筛选出两个前景roi特征,每个roi特征形状是1*1*512,将这两个特征进行concat联接,从而得到联接后的特征向量形状是1*1*1024;对于任意两个拼接的前景roi特征,基于标注真值判断这两个前景roi特征是否存在匹配关系,如果匹配,则训练的类别标签设置成1,如果不匹配,则训练的类别标签设置成0;将第(2)步的特征向量再经过全连接或卷积层特征提取网络,再送入softmax分类识别,最终输出文本检测结果。
该方法基于深度神经网络在文本检测中能够实现端到端的训练和预测,能够达到鲁棒性强,无需再使用规则库进行关系提取,从而降低提取关系资源开发和维护成本。
以上所述仅为本发明的优选实施例,对本发明而言仅是说明性的,而非限制性的;本领域普通技术人员理解,在本发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效变更,但都将落入本发明的保护范围。
Claims (10)
1.一种基于深度神经网络的文本检测目标提取关系的端到端方法,其特征在于,在现有的基于深度神经网络的二阶段的目标检测算法的第二阶段结构流程中增加检测目标的匹配关系判断模块,从而实现检测目标是否匹配的训练和预测。
2.根据权利要求1所述的文本检测目标提取关系的端到端方法,其特征在于,所述检测目标的匹配关系判断模块只针对前景roi特征序列相互之间的匹配关系进行判断。
3.根据权利要求2所述的文本检测目标提取关系的端到端方法,其特征在于,所述前景roi特征序列和背景roi特征序列的确定方法具体为:通过该roi的位置坐标与真值位置的iou交集来确定,当iou交集高于0.50时认定是前景,低于0.50时则认定是背景。
4.根据权利要求1所述的文本检测目标提取关系的端到端方法,其特征在于,所述检测目标的匹配关系判断模块具体包括以下流程:
(1)获取前景roi序列特征;
(2)将任意两个前景roi特征联接;
(3)基于标注真值判断联接的两个前景roi特征是否存在匹配关系,如果匹配,则训练的类别标签设置成1,如果不匹配,则训练的类别标签设置成0;
(4)将联接后的特征向量再经过特征提取网络,并进行分类识别,从而实现任意两个拼接的前景roi特征判断。
5.根据权利要求4所述的文本检测目标提取关系的端到端方法,其特征在于,所述步骤(2)中每个roi特征形状是1*1*1024,将这两个特征进行concat联接,从而得到联接后的特征向量形状是1*1*2048。
6.根据权利要求1所述的文本检测目标提取关系的端到端方法,其特征在于,所述文本检测基础框架为任意的二阶段的目标检测算法。
7.根据权利要求1所述的文本检测目标提取关系的端到端方法,其特征在于,所述文本检测基础框架为Faster RCNN、R2CNN、mask_rcnn中的一种。
8.根据权利要求1所述的文本检测目标提取关系的端到端方法,其特征在于,基于Faster RCNN框架下,在第二阶段的RCNN网络结构流程中增加检测目标的匹配关系判断模块。
9.根据权利要求8所述的文本检测目标提取关系的端到端方法,其特征在于,具体流程如下:
(1)输入图像;
(2)第一阶段:通过RPN网络提取目标候选区域,生成roi特征序列;
(3)第二阶段:第一阶段RPN网络推送的roi特征序列进入第二阶段RCNN网络分离出前景roi特征序列和背景roi特征序列,然后通过文本检测目标匹配关系判断模块对前景roi特征序列相互之间的匹配关系进行判断。
10.根据权利要求9所述的文本检测目标提取关系的端到端方法,其特征在于,具体包括以下步骤:
(1)输入图像;
(2)第一阶段:通过RPN网络提取目标候选区域,生成roi特征序列;
(3)第二阶段:第一阶段RPN网络推送的roi特征序列进入第二阶段RCNN网络,通过roi的位置坐标与真值位置的iou交集来确定来分离出前景roi特征序列和背景roi特征序列,当iou交集高于0.50时认定是前景,低于0.50时则认定是背景;然后随机筛选出两个前景roi特征,每个roi特征形状是1*1*1024,将这两个特征进行concat联接,从而得到联接后的特征向量形状是1*1*2048;对于任意两个拼接的前景roi特征,基于标注真值判断这两个前景roi特征是否存在匹配关系,如果匹配,则训练的类别标签设置成1,如果不匹配,则训练的类别标签设置成0;将第2步的特征向量再经过全连接或卷积层特征提取网络,再送入softmax分类识别,最终输出文本检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010350060.1A CN111539416A (zh) | 2020-04-28 | 2020-04-28 | 一种基于深度神经网络的文本检测目标提取关系的端到端方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010350060.1A CN111539416A (zh) | 2020-04-28 | 2020-04-28 | 一种基于深度神经网络的文本检测目标提取关系的端到端方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111539416A true CN111539416A (zh) | 2020-08-14 |
Family
ID=71977285
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010350060.1A Pending CN111539416A (zh) | 2020-04-28 | 2020-04-28 | 一种基于深度神经网络的文本检测目标提取关系的端到端方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111539416A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109034159A (zh) * | 2018-05-28 | 2018-12-18 | 北京捷通华声科技股份有限公司 | 图像信息提取方法和装置 |
CN109086756A (zh) * | 2018-06-15 | 2018-12-25 | 众安信息技术服务有限公司 | 一种基于深度神经网络的文本检测分析方法、装置及设备 |
CN109344815A (zh) * | 2018-12-13 | 2019-02-15 | 深源恒际科技有限公司 | 一种文档图像分类方法 |
CN109816118A (zh) * | 2019-01-25 | 2019-05-28 | 上海深杳智能科技有限公司 | 一种基于深度学习模型的创建结构化文档的方法及终端 |
-
2020
- 2020-04-28 CN CN202010350060.1A patent/CN111539416A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109034159A (zh) * | 2018-05-28 | 2018-12-18 | 北京捷通华声科技股份有限公司 | 图像信息提取方法和装置 |
CN109086756A (zh) * | 2018-06-15 | 2018-12-25 | 众安信息技术服务有限公司 | 一种基于深度神经网络的文本检测分析方法、装置及设备 |
CN109344815A (zh) * | 2018-12-13 | 2019-02-15 | 深源恒际科技有限公司 | 一种文档图像分类方法 |
CN109816118A (zh) * | 2019-01-25 | 2019-05-28 | 上海深杳智能科技有限公司 | 一种基于深度学习模型的创建结构化文档的方法及终端 |
Non-Patent Citations (1)
Title |
---|
SHAH RUKH QASIM 等: "Rethinking Table Recognition using Graph Neural Networks", ARXIV.ORG * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | Deep detection network for real-life traffic sign in vehicular networks | |
Yuan et al. | Robust traffic sign recognition based on color global and local oriented edge magnitude patterns | |
CN109117836B (zh) | 一种基于焦点损失函数的自然场景下文字检测定位方法和装置 | |
CN111860348A (zh) | 基于深度学习的弱监督电力图纸ocr识别方法 | |
CN107346420A (zh) | 一种基于深度学习的自然场景下文字检测定位方法 | |
Fan et al. | Improving robustness of license plates automatic recognition in natural scenes | |
CN115578735B (zh) | 文本检测方法和文本检测模型的训练方法、装置 | |
CN111639564A (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
CN112733914B (zh) | 一种基于支持向量机的水下目标视觉识别分类方法 | |
Wang et al. | Sface: An efficient network for face detection in large scale variations | |
CN112101108A (zh) | 一种基于图形极点位置特征的左右转交通标志识别方法 | |
Lee et al. | License plate detection via information maximization | |
Budianto | Automatic License Plate Recognition: A Review with Indonesian Case Study | |
Qin et al. | Video scene text frames categorization for text detection and recognition | |
CN110232381A (zh) | 车牌分割方法、装置、计算机设备及计算机可读存储介质 | |
Salunkhe et al. | Recognition of multilingual text from signage boards | |
CN107368826A (zh) | 用于文本检测的方法和装置 | |
CN117373062A (zh) | 一种基于联合学习的实时端到端跨分辨率行人重识别方法 | |
Meng et al. | IRIS: smart phone aided intelligent reimbursement system using deep learning | |
CN114694133B (zh) | 一种基于图像处理与深度学习相结合的文本识别方法 | |
Khan et al. | Text detection and recognition on traffic panel in roadside imagery | |
CN114387600B (zh) | 文本特征识别方法、装置、计算机设备和存储介质 | |
CN111539416A (zh) | 一种基于深度神经网络的文本检测目标提取关系的端到端方法 | |
Nguyen | ROC curve analysis for classification of road defects | |
CN114677586A (zh) | 一种物理电路实验自动识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |