CN112036395A - 基于目标检测的文本分类识别方法及装置 - Google Patents

基于目标检测的文本分类识别方法及装置 Download PDF

Info

Publication number
CN112036395A
CN112036395A CN202010922482.1A CN202010922482A CN112036395A CN 112036395 A CN112036395 A CN 112036395A CN 202010922482 A CN202010922482 A CN 202010922482A CN 112036395 A CN112036395 A CN 112036395A
Authority
CN
China
Prior art keywords
text
target
target object
region
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010922482.1A
Other languages
English (en)
Other versions
CN112036395B (zh
Inventor
李辉
武亚强
蔡明祥
罗英文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN202010922482.1A priority Critical patent/CN112036395B/zh
Publication of CN112036395A publication Critical patent/CN112036395A/zh
Application granted granted Critical
Publication of CN112036395B publication Critical patent/CN112036395B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/457Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本申请提出了一种基于目标检测的文本分类识别方法及装置,在获取预览图像中目标对象的目标区域之后,可以分别对其目标区域进行文本识别处理和图像特征提取,得到该目标对象包含的多个文本子区域各自的文本位置信息和文本内容信息,及该目标区域的特征图,再依据这多个文本位置信息,从该特征图中确定出相应文本子区域的文本图像特征,从而可以依据多个文本子区域各自的文本位置信息、文本内容信息及文本图像特征,对这多个文本子区域进行分类处理,得到目标对象的分类识别结果。在需要确定该目标对象的排版信息时,由于本申请识别出目标对象包含的更细粒度的多个文本子区域各自的分类信息,从而保证了据此所得目标对象的排版信息足够精细准确。

Description

基于目标检测的文本分类识别方法及装置
技术领域
本申请主要涉及图像处理技术领域,更具体地说是涉及一种基于目标检测的文本分类识别方法及装置。
背景技术
图像识别,是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术,是应用深度学习算法的一种实践应用。图像分割作为图像识别应用中的重要处理环节,通常是把图像分成若干个特定的、具有独特性质的区域,以提出感兴趣目标。
以文档版面识别应用场景为例,现有技术通常采用语义分割模型,对文档图像进行语义分析,确定构成该文档的各文本区域的语义类别,从而据此得到该文档的排版信息,但这种方式只能识别出该文档排版的基本区域类别,如标题区域、姓名区域、题目区域等文本区域,无法满足实际对文档排版信息识别的精细化要求。
发明内容
有鉴于此,为了实现对目标对象包含的各区域的精细化分类,以据此满足实际对目标对象板式分析的精细化要求,本申请提供了一种基于目标检测的文本分类识别方法,所述方法包括:
获取预览图像中目标对象的目标区域;
对所述目标区域进行文本识别处理,得到所述目标对象包含的多个文本子区域各自的文本位置信息和文本内容信息,其中,所述目标对象的文本内容能够划分成具有嵌套关系的多个文本区域,每一个所述文本区域包含至少一个所述文本子区域,且所述多个文本区域之间不存在重复的所述文本子区域;
对所述目标区域进行图像特征提取,利用得到的特征图及所述多个文本子区域各自的文本位置信息,得到相应文本子区域的文本图像特征;
依据所述多个文本子区域各自的所述文本位置信息、所述文本内容信息及所述文本图像特征,对所述多个文本子区域进行分类处理,得到所述目标对象的分类识别结果;其中,所述分类识别结果包含所述多个文本子区域各自的分类信息,所述分类信息能够用于确定相应所述文本子区域所属的所述文本区域。
在一些实施例中,所述依据所述多个文本子区域各自的所述文本位置信息、所述文本内容信息及所述文本图像特征,对所述多个文本子区域进行分类处理,得到所述待处理文档的分类识别结果,包括:
由任一所述文本子区域对应的所述文本位置信息、所述文本内容信息和所述文本图像特征,构成一个网络节点特征;
利用所述多个文本子区域各自对应的所述文本位置信息,得到不同所述文本子区域之间的位置偏移信息;
利用所述位置偏移信息,获得相应两个所述文本子区域之间的网络边特征;
依据多个所述网络节点特征和多个所述网络边特征,对所述多个文本子区域进行分类处理,得到所述目标对象的分类识别结果。
在一些实施例中,所述方法还包括:
对所述目标区域进行语义分割处理,得到所述目标对象的语义分割信息;
利用所述多个文本子区域各自的分类信息及所述语义分割信息,得到所述多个文本子区域组成的多个文本区域各自的位置信息,以及所述多个文本区域之间的嵌套关系;
由所述多个文本区域各自的位置信息及所述嵌套关系,获得所述目标对象的排版信息。
在一些实施例中,所述获取预览图像中目标对象的目标区域,包括:
获取预览图像的边缘信息及目标对象的待定区域,所述边缘信息包含多条不同方向的边缘线;
基于所述待定区域的区域形状特征,选择相应数量的不同方向的边缘线构成多个候选边缘框;
利用与所述待定区域相匹配的候选边缘框,对所述待定区域进行校准,得到所述预览图像中相应目标对象的目标区域。
在一些实施例中,所述获取预览图像的边缘信息及目标对象的待定区域,包括:
获取预览图像的边缘掩膜及前景分割掩膜;
通过连通域检测方式,将所述前景分割掩膜所包含的每个连通域确定为一个目标对象的待定区域;
检测所述边缘掩膜包含的多条不同方向的边缘线。
在一些实施例中,,所述获取预览图像中目标对象的目标区域,包括:
获取上一帧预览图像中目标对象的目标区域的第一形状特征;
确定与所述第一形状特征相匹配的目标图像映射区域;
将当前帧预览图像输入具有所述目标图像映射区域的目标检测模型,得到当前帧预览图像中所述目标对象的目标区域,所述目标检测模型具有空洞空间金字塔结构。
在一些实施例中,所述确定与所述第一形状特征相匹配的目标图像映射区域,包括:
获取目标检测模型中的卷积核的原图像映射区域的第二形状特征;
依据所述第一形状特征与所述第二形状特征的差异,对所述原图像映射区域的长宽进行不等比例调整,得到目标图像映射区域。
在一些实施例中,所述确定与所述第一形状特征相匹配的目标图像映射区域,包括:
从多个具有不同第三形状特征的卷积核的候选图像映射区域中,选择与所述第一形状特征的匹配度最高的候选图像映射区域为目标图像映射区域。
在一些实施例中,所述将当前帧预览图像输入具有所述目标图像映射区域的目标检测模型,得到当前帧预览图像中所述目标对象的目标区域,包括:
获取当前帧预览图像包含的边缘信息,所述边缘信息包含多个不同方向的边缘线;
由所述多条不同方向的边缘线排列组合,构成多个候选边缘框;
利用与所述上一帧预览图像的目标区域相匹配的候选边缘框,对所述待定区域进行校准,得到所述预览图像中相应目标对象的目标区域。
本申请还提出了一种基于目标检测的文本分类识别装置,所述装置包括:
目标区域获取模块,用于获取预览图像中目标对象的目标区域;
文本识别处理模块,用于对所述目标区域进行文本识别处理,得到所述多个文本子区域各自的文本位置信息和文本内容信息,其中,所述目标对象的文本内容能够划分成具有嵌套关系的多个文本区域,每一个所述文本区域包含至少一个所述文本子区域,且所述多个文本区域之间不存在重复的所述文本子区域;
文本图像特征获得模块,用于对所述目标区域进行图像特征提取,利用得到的特征图及所述多个文本子区域各自的文本位置信息,得到相应文本子区域的文本图像特征;
文本分类识别模块,用于依据所述多个文本子区域各自的所述文本位置信息、所述文本内容信息及所述文本图像特征,对所述多个文本子区域进行分类处理,得到所述目标对象的分类识别结果,其中,所述分类识别结果包含所述多个文本子区域各自的分类信息,所述分类信息能够用于确定相应所述文本子区域所属的所述文本区域。
本申请还提出了一种存储介质,其上存储有计算机程序,该计算机程序可以被处理器调用并加载,以实现上述基于目标检测的文本分类识别方法的各个步骤。
本申请还提出了一种计算机设备,所述计算机设备包括:至少一个通信模块,至少一个存储器及至少一个处理器,其中:
所述存储器,用于存储实现如上述的基于目标检测的文本分类识别方法的程序;
所述处理器,用于加载并执行所述存储器存储的所述程序,以实现如上述的基于目标检测的文本分类识别方法的各个步骤。
由此可见,与现有技术相比,本申请提供了一种基于目标检测的文本分类识别方法及装置,计算机设备获取预览图像中目标对象的目标区域之后,对于包含具有嵌套关系的多个文本区域,且每一个文本区域包含至少一个文本子区域,且多个文本区域之间不存在重复的文本子区域的目标对象,计算机设备可以分别对其目标区域进行文本识别处理和图像特征提取,得到该目标对象包含的多个文本子区域各自的文本位置信息和文本内容信息,以及该目标区域的特征图,再依据各文本子区域对应的文本位置信息,从该特征图中确定出相应文本子区域的文本图像特征,这样,可以依据多个文本子区域各自的文本位置信息、文本内容信息及文本图像特征,对这多个文本子区域进行分类处理,能够高效且精细地得到目标对象的分类识别结果,这样,在需要确定该目标对象的排版信息时,由于本申请识别出目标对象包含的更细粒度的各文本子区域的分类信息,从而保证了据此所得目标对象的排版信息足够精细准确。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提出的基于目标检测的文本分类识别方法的一可选实施例的流程示意图;
图2为本申请提出的基于目标检测的文本分类识别方法中,具有复杂排版的一类目标对象的板式示意图;
图3为本申请提出的基于目标检测的文本分类识别方法中,获取目标对象中每一个文本子区域对应的多维度信息的过程示意图;
图4为本申请提出的基于目标检测的文本分类识别方法的又一可选实施例的流程示意图;
图5为本申请提出的基于目标检测的文本分类识别方法中,在目标对象板式分析这一可选应用场景下的流程示意图;
图6为本申请提出的基于目标检测的文本分类识别方法中,由目标对象的多个文本子区域构建图网络的可选流程示意图;
图7为本申请提出的基于目标检测的文本分类识别方法中,在目标对象板式分析这一可选应用场景下所得排版信息的示意图;
图8为本申请提出的基于目标检测的文本分类识别方法中,获取预览图像中目标对象的目标区域的一可选实例的流程示意图;
图9为本申请提出的基于目标检测的文本分类识别方法中,获取预览图像中目标对象的目标区域的一可选应用场景示意图;
图10为本申请提出的基于目标检测的文本分类识别方法中,获取预览图像中目标对象的目标区域的又一可选实例的流程示意图;
图11为本申请提出的基于目标检测的文本分类识别方法中,获取预览图像中目标对象的目标区域的又一可选应用场景示意图;
图12为本申请提出的基于目标检测的文本分类识别方法中,获取预览图像中目标对象的目标区域的又一可选实例的流程示意图;
图13为现有目标检测过程中等比例调整图像映射区域的示意图;
图14a为本申请提出的基于目标检测的文本分类识别方法中,不等比例调整图像映射区域的一可选应用场景的示意图;
图14b为本申请提出的基于目标检测的文本分类识别方法中,不等比例调整图像映射区域的一可选应用场景的示意图;
图15为本申请提出的基于目标检测的文本分类识别方法中,获取预览图像中目标对象的目标区域的又一可选实例的流程示意图;
图16为本申请提出的基于目标检测的文本分类识别方法中,候选边缘框与上一帧预览图像中目标区域的一可选比较方式示意图;
图17为本申请提出的基于目标检测的文本分类识别装置的一可选示例的结构示意图;
图18为适用于本申请提出的基于目标检测的文本分类识别方法和装置的计算机设备的一可选实例的硬件结构示意图。
具体实施方式
针对背景技术部分描述的现有技术问题,经过分析得知,其主要是由于语义分割方式对文档(如具有复杂排版的文档)中的各文本区域分类识别的粒度不够精细,导致其只能识别出文档的基本区域,无法实现对各基本区域的更细化的识别,如对题目区域进行细化,如识别出试卷中的具有嵌套关系的大题目、小题目等,从而导致依据对文档包含的不同区域分类识别结果,所得到的该文档的排版信息的精细度不够,无法满足实际需求。
为了解决上述问题,本申请希望能够实现对文档更细粒度的区域划分,以得到该文档更精细的排版信息,具体实现过程可以参照但并不局限于下文实施例相应部分的描述,本申请在此不做赘述。
进一步地,为了减少冗余干扰,在获取待处理的目标对象的图像时,希望能够尽量精准地采集该目标对象自身所在的目标区域,使其包含该目标对象的内容完整的基础上,尽量减少无关背景图像的干扰,从而提高后续对该目标区域进行文本分类识别处理的效率及处理结果的准确性。关于如何获取目标对象这一前景的目标区域的实现过程,可以参照但并不局限于下文实施例相应部分的描述,本申请在此不做赘述。
在本申请实施例中,“示例性的”、“例如”等词用于表示例子、例证或说明,本申请实施例中被描述为这类词的任何实施例或设计方案,不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用这类词旨在以具体方式呈现相关概念或实现方式。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。其中,本申请中使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换该词语。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
其中,在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
以下术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。除非另有说明,在本申请实施例的描述中,“多个”是指两个或多于两个。
参照图1,为本申请提出的基于目标检测的文本分类识别方法的一可选实施例的流程示意图,该方法可以适用于计算机设备,该计算机设备可以是电子设备或服务器,该电子设备可以包括但并不局限于智能手机、平板电脑、可穿戴设备、个人计算机(personalcomputer,PC)、上网本、个人数字助理(personaldigital assistant,PDA)、智能手表、增强现实技术(Augmented Reality,AR)设备、虚拟现实(Virtual Reality,VR)设备、机器人、台式计算机等。而服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统;也可以是提供云计算服务的云服务器或其构成的云服务器集群,服务器可以通过无线网络或有线网络与电子设备通信,接收电子设备采集并发送的图像等数据。本申请对上述计算机设备的具体产品类型不做限定,可以依据实际应用场景的需求确定,但应该理解,在不同应用场景下,计算机设备获取目标对象的图像方式可能会有所差异,但实现本申请提出的基于目标检测的文本分类识别方法过程是类似的,本申请不做一一详述。
如图1所示,本实施例提出的基于目标检测的文本分类识别方法可以包括但并不局限于以下步骤:
步骤S11,获取预览图像中目标对象的目标区域;
在本实施例实际应用中,当需要对目标对象进行文本分类识别的情况下,如分析试卷的排版结构等,通常需要先获取该目标对象的图像,而在图像采集过程中,将电子设备(如上述列举的电子设备或独立的摄像头、相机等图像采集设备)的镜头朝向目标对象后,可以调整拍摄角度、拍摄距离、变焦倍数等拍摄参数,以使得目标对象完整出现在图像预览框的预览图像中,此时该预览图像中除了该目标对象外,往往还会包含目标对象所处环境的背景对象,其会对目标对象的图像分析造成干扰,因此,本申请提出利用目标检测方式,来获取该预览图像中目标对象的目标区域,剔除干扰的背景区域,后续只需要对该目标区域进行处理即可。
在本申请提出的一些实施例中,为了准确获取预览图像中目标对象的目标区域,即该目标对象自身所在的图像区域,可以先检测该目标对象的边缘,得到预览图像中该目标对象的检测框,可以将该检测框对的区域确定为目标区域。可见,为了保证目标区域的完整性及准确性,需要所生成的目标对象的检测框包含的目标对象完整,且尽量不包含多余图像(即目标对象之外的图像)。
基于上述分析,为了得到完整、准确且可靠的检测框,本申请可以在传统的目标检测方法基础上进行改进,如综合不同图像分割算法获取目标区域、基于相邻帧图像之间的上下文信息,获得目标对象的目标区域等,可以依据具体应用场景的需求,来确定获取目标区域的方式,本申请在此不做详述。
步骤S12,对目标区域进行文本识别处理,得到目标对象包含的多个文本子区域各自的文本位置信息和文本内容信息;
结合上文对现有技术问题的分析,本申请实施例主要针对具有复杂排版的目标对象的文本分类识别,以得到该目标对象更细粒度的区域划分,进而据此可以得到该目标对象更精细的排版结构。需要说明,本申请是适用于目标对象,并局限于这类具有复杂排版的对象,也可以是具有简单排版的对象,具体文本分类识别过程相同,本申请不再针对每一种对象分别进行描述。
其中,对于具有复杂排版的目标对象,参照图2所示的目标对象排版示意图,但并不局限于图2所示的这种排版的目标对象,本申请仅以此为例对复杂排版进行示意性说明。如图2所示,目标对象的文本内容能够划分成具有嵌套关系的多个文本区域(如图2中大题区域、多个小题区域等文本区域),每一个文本区域包含至少一个文本子区域,且多个文本区域之间不存在重复的文本子区域。
如图2所示,该文本子区域可能是一个选项、一个文本行,在文本行包含特定符号(如用于填空的括号、下划线等)的情况下,可以将该特定符号将该文本行分割成的每一部分作为一个文本子区域等,还可以将该特定符号作为一个文本子区域,或将该特定符号包含在其相邻的文本行中作为一个文本子区域,本申请对此不做限定,可视情况而定。可见,上述划分成的多个文本子区域包含的字符构成了目标对象的文本内容,且关于目标对象包含的文本子区域的划分方式,并不局限于上文描述的方式,可以根据实际需求预先设定划分规则,从而结合识别到的文本内容及其对应的文本位置,完成文本子区域的划分等,本申请实施例不做详述。
在实际应用中,对于上文中具有复杂排版的目标对象可以是试卷、练习册、作业本等,其排版结构往往不是固定不变的,而是根据实际内容、制作者习惯等灵活多变,使得目标对象的排版具有自身特殊的排版特点,如题目缩进,大小提编号,字体字号等。所以,仅针对单一的图片信息,如该目标对象的特征图往往无法充分描述完整的目标对象排版信息;且目前常用的依赖特定的特征信息实现区域分割的方式,所得到的分割结果往往也无法满足应用要求,如基于题号检测的区域分割,无法检测出没有题号的试卷或练习册的题目区域等。
为了实现对具有复杂排版的目标对象的更加精细化板式分析,本申请提出文本识别与图像特征结合的方式,来确定这类目标对象所包含的各类区域,实现对目标对象的整体布局分析。因此,在文本识别过程中,可以通过对获取的目标对象的目标区域(即目标对象所在的图像区域)进行文本识别处理,来识别该目标对象包含的文本内容及其对应的位置,得到该目标对象包含的多个文本子区域各自的文本位置信息和文本内容信息。关于文本子区域与目标对象之间的关系,可以参照但并不局限于图2所示内容。
结合上文对目标对象包含的文本子区域的描述,一个文本子区域包含的内容可能不是目标对象一个完整区域(即按照排版结果划分的各完整区域,如大题区域、小题区域、普通文本区域等)的内容,如图2所示,每一个小题区域包含多个文本子区域,也就是说,位于同一个小题区域中的这多个文本子区域的类别应该相同,在确定版式时可以将这多个文本子区域合并为一个文本区域。可见,本实施例通过对目标区域进行文本识别处理,从目标对象中提取的多个文本子区域,虽然不是该目标对象的直接排版结构,但这多个文本子区域的划分粒度足够细,能够体现该目标对象排版结构中各部分,这样,后续对这多个文本子区域进行分类分组,能够保证得到该目标对象足够精细的排版信息。
需要说明,本申请对目标区域的文本识别方法,以及得到的各文本子区域的文本位置信息和文本内容信息的表示方式均不做限定,可依据应用场景的具体需求确定。示例性的,该文本识别方法可以包括但并不局限于依据预先训练得到的文本识别模型(光学字符识别,Optical Character Recognition,简称OCR)实现,而各文本子区域的文本位置信息和文本内容信息,为了方便参与后续处理,可以经过编码处理,得到相应的编码向量,也就是说,该文本位置信息和文本内容信息均可以采用向量的形式参与后续流程,本申请对信息向量化实现方法不做限定。
步骤S13,对该目标区域进行图像特征提取,利用得到的特征图及多个文本子区域各自的文本位置信息,得到相应文本子区域的文本图像特征;
结合上文对本申请技术构思的描述,为了提高目标对象文本分类识别的准确性,本申请在上述文本识别处理的同时,还对该目标对象的目标区域进行了图像分析,以获取各文本子区域的图像特征,实现对各文本子区域更高效且更精准的分类。
具体的,在获得目标对象的目标区域之后,可以直接对该目标区域这一图像进行图像特征提取,得到该目标区域的特征图(即feature map),之后,将结合文本识别处理得到的各文本子区域的文本位置信息,从该特征图中,获取相应文本子区域的文本图像特征。这样,对于目标对象中的每一个文本子区域,按照上述处理方式可以得到对应的文本内容信息、文本位置信息及文本图像特征这三个维度的节点信息。
示例性的,如图3所示的目标对象的多维度信息获取过程示意图,获取目标对象的目标区域(如图3中第一行附图)后,按照上述方式分别对该目标区域进行文本识别处理和图像特征提取,得到该目标对象包含的各文本子区域(可以将一个文本子区域看作为一个节点)一一对应的文本内容信息、文本位置信息及文本图像特征,如图3第二行右侧附图所示的每一维度信息包含的向量维度,由这三个维度信息构成的节点信息共(20*128+300+3*20*128)维,但并不局限于图3所示的各维度信息对应的维数,可视情况而定。
步骤S14,依据多个文本子区域各自的文本位置信息、文本内容信息及文本图像特征,对多个文本子区域进行分类处理,得到目标对象的分类识别结果。
继上文描述,本申请实施例可以综合各文本子区域对应的文本内容信息、文本位置信息及文本图像特征这三个维度的信息,实现对目标对象包含的多个文本子区域的分类,确定各文本子区域在目标对象的整个排版结构中的具体类别,以便将属于同一排版类别的文本子区域合并,得到该目标对象足够精细的排版信息。
可见,本实施例得到的目标对象的分类识别结果可以包含,上述多个文本子区域各自的分类信息,根据应用需求,该分类信息能够用于确定相应文本子区域所属的文本区域,从而得到该目标对象包含的多个文本区域是什么,相互之间的嵌套关系是怎样的,因此,面对获取目标对象的排版信息的应用需求,各文本子区域的分类信息可以是表明该文本子区域属于排版结构中哪个区域类别的信息,也就是说,本申请可以依据排版结构组成实现对目标对象的区域划分,如大题目、小题目、姓名、普通文本、主题等。
应该理解,面对其他应用需求,本申请可以按照其他分类规则,来确定各文本子区域的分类信息,进而据此得到满足相应应用需求的分类识别结果或其他信息。可见,面对不同应用需求,本申请得到的目标对象的分类识别结果包含的内容可以不同,即对各文本子区域的分类结果可以不同,相应分类信息的内容可以不同,可视情况而定,本申请不做一一详述。
综上所述,在本申请实施例中,计算机设备获取预览图像中目标对象的目标区域之后,对于包含具有嵌套关系的多个文本区域,且每一个文本区域包含至少一个文本子区域,且多个文本区域之间不存在重复的文本子区域的目标对象,计算机设备可以分别对其目标区域进行文本识别处理和图像特征提取,得到该目标对象包含的多个文本子区域各自的文本位置信息和文本内容信息,以及该目标区域的特征图,再依据各文本子区域对应的文本位置信息,从该特征图中确定出相应文本子区域的文本图像特征,这样,可以依据多个文本子区域各自的文本位置信息、文本内容信息及文本图像特征,对这多个文本子区域进行分类处理,能够高效且精细地得到目标对象的分类识别结果,这样,在需要确定该目标对象的排版信息时,由于本申请识别出目标对象包含的更细粒度的各文本子区域的分类信息,从而保证了据此所得目标对象的排版信息足够精细准确。
参照图4,为本申请提出的基于目标检测的文本分类识别方法的又一可选实施例的流程示意图,本实施例可以是对上述实施例提出的基于目标检测的文本分类识别方法的一可选细化实现方式,但并不局限于本实施例描述的这种可选实现方式。如图4所示,该方法可以包括:
步骤S21,获取预览图像中目标对象的目标区域;
关于步骤S21的实现过程可以参照上述对步骤S11的描述,本实施例不再赘述。
步骤S22,将该目标区域输入文本识别模型,输出目标对象包含的多个文本子区域各自的文本位置信息和文本内容信息;
需要说明,本实施例仅是对目标图像的文本识别处理的一可选实现方式,并不局限于本实施例描述的这种文本识别处理方式。
本实施例中,文本识别模型可以是OCR模型,本申请对该文本识别模型的具体训练过程不做详述。通常情况下,可以基于文本检测算法,对各样本对象的样本图像区域进行不断学习训练,直至满足相应的约束条件,即文本检测准确率达到预设准确率阈值等,将训练得到的模型作为文本识别模型,这样,按照上述方式得到目标对象的目标区域后,可以将其输入该文本识别模型进行处理,输出目标对象包含的多个文本子区域各自的文本位置信息和文本内容信息。
结合上图2所示的目标对象的版式示意图,上述目标对象的文本子区域是指该目标对象文本划分的区域,其包含了该目标对象包含的内容,可以剔除目标对象自身非文本信息的干扰,如文档背景图案干扰等。应该理解,对于不同类别或排版的目标对象,其图像输入文本识别模型后,将该目标对象的文本内容划分的文本子区域的个数及划分方式可以不同,并不局限于图2所示内容,可视情况而定。
步骤S23,对文本内容信息进行编码,得到文本词向量;
如上述分析,本申请后续需要利用该文本内容信息进行分类处理,为了方便后续处理,若该文本内容信息非向量格式,可以对各文本子区域的文本内容信息进行向量化处理。在一些实施例中,可以利用神经网络算法等机器学习算法,对各文本子区域进行处理,得到表征相应文本内容信息的文本词向量,即word embedding。
具体的,在一种可能的实现方式中,如图5所示的流程示意图,本申请可以利用长短期记忆网络(LSTM,Long Short-TermMemory)这种时间循环神经网络,实现对各文本子区域的文本内容信息的编码处理,具体编码实现过程不做详述,且关于对文本内容信息的编码处理方式,也并不局限于LSTM这种神经网络,可视情况而定。
步骤S24,将目标区域输入图像特征提取模型,输出目标对象的特征图;
本申请实施例中,在对目标对象的目标区域进行文本识别过程中,还可以将该目标区域输入预先训练得到的图像特征提取模型,来提取该目标区域的图像特征,即获取目标对象的特征图,本申请对该图像特征提取模型可以基于机器学习算法,对样本图像进行不断学习训练得到,本申请对其训练过程不做详述。
在一些实施例中,针对本申请上文描述的这类具有复杂排版的目标对象,为了提高对其进行图像特征提取的准确性,相对于基于传统卷积神经网络,本实施例可以利用特征图金字塔网络(FPN(Feature Pyramid Network),对这类多个对象的样本图像进行训练,得到上述图像特征提取模型。也就是说,本实施例上述图像特征提取模型可以具有特征图金字塔网络结构,可以解决的是物体检测中的多尺度问题,通过简单的网络连接改变,在基本不增加原有模型计算量的情况下,大幅度提升了小物体检测的性能,且通过高层特征进行上采样和低层特征进行自顶向下的连接,每一层的特征图提取都会进行预测,保证了最终所得特征图准确可靠,本申请对FPN模型的具体运算原理不做详述。
需要说明的是,对目标对象的目标区域进行图像特征提取过程中,并不局限于由FPN模型实现,可以根据应用场景的需求,选择其他图像特征提取算法实现,本申请在此不做一一详述。
步骤S25,利用多个文本块各自的文本位置信息,获得特征图中相应文本块的文本图像特征;
结合上文对本申请技术构思的描述,为了更加精细了解目标对象的排版结构,按照较细粒度(其比传统仅划分为基本区域的粒度更细)将目标对象的文本内容划分为多个文本子区域后,希望能够依据每一个文本子区域自身的文本内容、位置及图像特征,来高效且准确实现对多个文本子区域的分类。所以,本实施例按照上述方式得到目标对象的整体特征图后,可以进一步通过上述文本位置信息,来获取每一个文本子区域的文本图像特征,如每一个文本子区域的颜色特征、纹理特征、形状特征和空间关系特征等,本申请对文本图像特征包含的内容不做限定,可视情况而定。
步骤S26,由任一文本子区域对应的文本位置信息、文本词向量和文本图像特征,构成一个网络节点特征;
在实际应用中,为了方便不同维度信息之间的处理,可以对上述文本位置信息进行编码处理,得到相应的文本位置特征,本实施例对该文本位置信息的编码处理方法不做详述。之后,计算机设备可以对同一文本子区域对应的文本位置特征、文本词向量和文本图像特征进行拼接处理,将拼接后的向量特征确定为一个网络节点特征,此时,该文本子区域可以作为一个网络节点。需要说明,关于网络节点特征的获取方式,并不局限于这种拼接处理方式,可以根据需要进行调整,本申请不做详述。
步骤S27,利用多个文本子区域各自对应的文本位置信息,得到不同文本子区域之间的位置偏移信息;
步骤S28,利用位置偏移信息,获得相应两个文本子区域之间的网络边特征;
本申请实施例中,可以通过构建图网络(Graph Network,GN)的方式,实现对目标对象包含的多个文本子区域的分类处理。在深度学习理论中,图网络是图神经网络和概率图模型的推广。通常由相互连接的图网络块(GN block)组成,在神经网络实现中也可以称为网络节点,并将网络节点间的连接称为边,表示了节点间的依赖关系。
基于此,本申请可以将目标对象包含的每个文本子区域作为一个网络节点,将该文本子区域对应文本位置信息、文本词向量和文本图像特征,所构成得网络节点特征,作为该网络节点的属性信息,并获取不同文本子区域之间的位置关系,来确定相应两个网络节点所形成的边的属性。所以,本申请需要利用多个文本子区域各自的文本位置信息,获得相应两个文本子区域之间的网络边特征。
因此,如本实施例步骤S27和步骤S28描述的一种可选实现方式,本实施例可以获取任意两个文本子区域之间的位置偏移信息,具体获取方式不做限定,之后,可以利用该位置偏移信息,来确定相应两个文本子区域之间的网络边特征,但并不局限于这种获取网络边特征的方式。
更具体地,在本申请提出的一些实施例中,本申请可以采用邻近算法或者说K最近邻(KNN,k-NearestNeighbor)分类算法,确定每个文本子区域距离最近的K个文本子区域,将所有文本子区域相邻作为图的边,并确定上述网络边特征。参照图6所示的目标对象的图网络获取过程示意图,对于如上图2和图3所示的目标对象,以及通过上述处理识别出来该目标对象包含的多个文本子区域,基于KNN算法对这多个文本子区域进行处理,得到图6第一行左侧附图所示的网络结构,之后,可以依据任意两个文本子区域之间的位置邻接关系,所生成的多个文本子区域之间的邻接矩阵A,得到图6第一行右侧附图所示的图网络。
可见,本申请实施例可以对多个文本子区域各自的文本位置信息进行最邻近节点运算,生成多个文本子区域的邻接矩阵A,本申请对邻接矩阵A的具体生成过程不做详述。需要说明,该邻接矩阵A包含的元素表明相应两个文本子区域之间的位置邻接关系,如图6所示,该邻接矩阵A中行和列都是不同的文本子区域(即确定的多个网络节点),其中的元素0可以表示对应行和列所表示的两个文本子区域之间位置不邻接(即不相邻),元素1可以表示对应行和列所表示的两个文本子区域之间位置邻接(即相邻)。
应该理解,该邻接矩阵A中行和列表示的文本子区域的顺序不同,所生成的邻接矩阵A的内容会相应改变,通常可以按照文本子区域在目标对象中从第一文本行开始顺次得到的文本子区域的顺序,来确定邻接矩阵A中行和列表示的文本子区域的顺序,但并不局限于此。
步骤S29,依据多个网络节点特征和多个网络边特征,对多个文本子区域进行分类处理,得到多个文本子区域各自的分类信息;
本申请实施例中,可以利用分类算法对所得多个网络节点特征和多个网络边特征进行处理,得到所需分类识别结果,本申请对该分类算法的内容不做限定,可以根据实际应用场景的需求确定。
在本申请提出的一些实施例中,可以对多个网络节点特征和多个网络边特征进行图卷积运算,得到多个文本子区域的分类信息,从而由这多个文本子区域的分类信息,确定目标对象的分类识别结果。也就是说,本申请按照上述方式将目标对象的各文本子区域,及其对应的文本位置信息、文本内容信息和文本图像特征,处理成图数据后,可以采用图卷积神经网络(Graph Convolutional Network)对该图数据,如上述网络节点特征和网络边特征进行处理,实现多个网络节点的分类。其中,图卷积神经网络是一种能对图数据进行深度学习的方法,本申请对其具体运算原理不做详述。
可选的,本申请可以基于图卷积神经网络,对样本数据进行不断学习训练直至满足约束条件,得到图网络模型,这样,在本实施例实际应用中,按照上述处理方式得到目标对象对应的网络节点特征和网络边特征后,直接将这些网络节点特征和网络边特征输入该图网络模型,输出各网络节点的分类信息,即目标对象包含的各文本子区域的分类信息。本申请对该图网络模型的训练方法不做详述。
更进一步地,本申请可以采用空域图卷积算法,对上述网络节点特征和网络边特征进行处理,实现对多个网络节点的分类。也就是说,本申请可以对多个网络节点特征及邻接矩阵进行空域图卷积运算,得到多个文本子区域的分类信息,以此确定目标对象的分类识别结果。此时,该空域图卷积算法的计算公式可以如下:
Hl+1=σ(∑sCsHlWl,s); (1)
其中,公式(1)中,C=A+1,A表示上述邻接矩阵,I可以表示单位矩阵;H可以表示输入的网络节点特征,即上述包含相应文本子区域对应的多维度信息的节点信息,W可以表示该空域图卷积算法的参数,也可以是上述图网络模型中需要训练优化的参数,σ可以表示激活函数。本实施例中,可以利用样本数据对上述公式(1)进行学习训练,以得到所需的图网络模型,具体训练过程不做详述,其中,该图网络模型训练过程中所使用的损失函数可以是多类别交叉熵函数,但并不局限于这种损失函数。
在实际应用中,针对不同类型的目标对象,按照上述方式得到的多个文本子区域的分类信息可能不同,为了实现多个文本子区域的分类所依据的分类规则也可能不同,且后续可以依据不同的应用需求,对所得分类信息进行相应的后处理,得到满足相应应用需求的处理结果。本申请实施例以如何实现对目标对象的版式分析这一应用场景需求为例,来说明对上文得到的目标对象包含的多个文本子区域各自的分类信息的使用方式,但并不局限于这种使用方式,可以视情况而定。
步骤S210,对目标区域进行语义分割处理,得到目标对象的语义分割信息;
继上文描述的如何实现对目标对象的版式分析这一应用场景,按照上述处理得到各文本子区域的分类信息,即实现对目标对象包含的每个文本子区域进行文本角色分类后,由于文本子区域的划分粒度很细,往往不能直接作为排版结构的一类排版区域,可能需要对其进行合并处理。基于此,本申请在后处理阶段,可以对目标对象的目标区域进行语义分割处理,以按照语义类别确定该目标对象包含的各个语义类别区域,如目标对象包含的基本区域,即得到目标对应的语义分割信息,本申请对语义分割处理的具体实现过程不做详述。
在本申请提出的一些实施例中,由于语义分割算法属于一种目标检测方式或者说图像分割方式,本申请也可以基于语义分割算法对样本数据进行训练,得到用于实现对目标对象的区域分割的目标检测模型,这样,直接将得到的目标区域输入这种结构的目标检测模型,可以输出该目标对象包含的各语义分割区域,如试卷包含的基本板式区域等,具体实现过程不做详述。
其中,为了提高上述语义分割的准确性,本申请还可以依据目标区域的外形等形状特征,动态调整目标检测模型中的图像映射区域(即感受野)的形状尺寸,以保证模型输出的各语义区域的语义完整,且尽量不包含与该语义无关的干扰文本。关于目标检测模型的图像映射区域的动态调整方法,可以参照但并不局限于下文实施例相应部分的描述,本申请在此不做详述。
在又一种可能的实现方式中,在上述目标检测模型的应用中,将目标对象的目标区域作为整个待检测区域,将该目标对象包含的各类排版区域(其以依据该目标对象的排版结构划分确定)作为待检测目标,为了准确检测出这些目标,本申请还可以结合相邻帧目标区域的上下文信息完成目标检测,或者是结合其他图像分割算法,优化该目标检测模型,以提高目标检测准确性,本申请在此对这里实现方式的具体实现过程不做详述,但并不局限于本申请上文列举的几种目标检测方式,可以根据实际需求确定,本申请在此不做一一详述。
步骤S211,利用多个文本子区域各自的分类信息及语义分割信息,得到多个文本子区域组成的多个文本区域各自的位置信息,以及多个文本区域之间的嵌套关系;
步骤S212,由多个文本区域各自的位置信息及上述嵌套关系,获得目标对象的排版信息。
结合上述分析,针对目标对象这类排版结构,可以依据该排版结构的排版划分方式,将整个目标对象的排版划分为不同类别,并针对不同类别配置对应的标识,如姓名、大题、小题、普通文本等不同类别区域,这样,按照上述方式得到目标对象包含的多个文本子区域的分类信息,可以包含相应标识,以便通过该标识能够准确且快速确定该文本子区域属于整个排版结构中的哪个排版区域,本申请对于各排版区域对应的标识内容不做限定,可以是不同的字母、数字或文字说明等,可视情况而定。
基于上述分析,本实施例可以对目标对象包含的多个文本子区域各自的分类信息及语义分割信息进行综合分析,实现对多个文本子区域的分类分组,构成新的文本区域即上述排版区域(如大题区域、小题区域、姓名区域、普通文本区域等),并确定该文本区域的位置信息,如图7所示,按照上述后处理方式,可以确定目标对象的排版中,大/小题各自的横向切分线、横向起始坐标、横向中止坐标等位置信息,以据此划分文本区域。与此同时还可以依据排版结构中各排版区域之间的关系,来确定所得到的多个文本区域之间的嵌套关系,该嵌套关系可以结合上述位置信息来确定,具体实现过程不做详述。之后,可以利用获得的位置信息及嵌套关系,来获得目标对象的排版信息,本申请对该排版信息的内容及其表示方式不做限定,可视情况而定。
综上,本实施例中,获取预览图像中目标对象的目标区域之后,分别利用文本识别模型和图像特征提取模型对该目标区域进行处理,得到目标对象中多个文本子区域各自的文本词向量、文本位置信息及目标对象的特征图,再依据该文本位置信息,从特征图中得到相应文本子区域的文本图像特征,之后,可以将每一个文本子区域作为一个网络节点,由其对应的文本词向量、文本位置信息及文本图像特征三个维度信息构成对应网络节点特征,并由两个文本子区域之间的位置邻接关系,确定相应网络节点之间的网络边特征,通过如图卷积等图网络分类方法,实现对多个网络节点的分类,之后结合对目标区域的语义分割处理结果,得到目标对象包含的多个文本区域的位置信息及嵌套关系,以此确定出该目标对象的排版信息。由于本实施例直接对目标对象的文本划分为较细粒度的文本子区域,这样,基于该文本子区域的如上三维度信息的版式分析,能够适用于各种不规则排列(即复杂排版)的目标对象排版,解决了传统图像分割方法或依赖特定信息的目标检测方法,无法适用于这类目标对象的版式分析,导致检测得到的目标对象的排版信息不够准确且精细,无法满足实际应用对目标对象版式分析的精细要求的技术问题。
参照图8,为本申请提出的基于目标检测的文本分类识别方法的又一可选实施例的流程示意图,本实施例可以是对上述实施例提出的基于目标检测的文本分类识别方法的又一可选细化实现方式,本实施例主要对上述实施例中,如何从预览图像中高效且精准获取目标对象的目标区域的实现过程进行细化,但并不局限于本实施例描述的目标区域获取方式。如图8所示,该方法可以包括:
步骤S31,获取预览图像的边缘信息及目标对象的待定区域,该边缘信息包含多条不同方向的边缘线;
在图像处理应用中,由于在目标区域检测过程中,通常会先确定目标对象的边缘,得到该目标对象的边缘检测框,从而将该边缘检测框对应的图像区域确定为目标对象的目标区域,该过程通常作为目标对象后续处理,如上述文本识别处理的预处理环节,所得目标区域的精准度直接影响后续处理的效率及准确性。
而在现有实现这部分的图像处理过程中,虽然为了提高目标区域检测准确性,提出基于深度学习的方式进行目标区域边缘检测,如基于边缘分割的HED(Holistically-Nested Edge Detection)模型和基于语义分割的FCN(Fully Convolution Network)模型等,但前者往往重度依赖后处理过程,一旦对获取的边缘信息执行的后处理方式不合适,直接影响目标区域检测的准确率;而FCN模型更适用于简单场景,在复杂场景(如包含多个待检测区域、不同待检测区域存在遮挡问题等)下的检测准确率较低。
为了改善上述问题,本申请实施例提出将语义分割方式和边缘分割方式综合,构成一个多分支网络结构,实现目标区域的边缘检测,从而结合两种方式的优势,使其能够适用于复杂场景的边缘检测和目标区域的提取。因此,本申请实施例可以分别对预览图像进行边缘分割处理和语义分割处理,以获取该预览图像的边缘信息和目标对象的待定区域,这两种图像分割的具体实现过程本申请不做限定。
需要说明的是,若预览图像中包含多个目标对象,如对多张试卷同时拍照等,经过语义分割处理,可以获得每一个目标对象对应的待定区域;若预览图像中仅包含一个目标对象,经过语义分割处理,可以获得这一个目标对象的待定区域,因此,步骤S31中目标对象的待定区域数量可以视情况可定,但需要目标对象与待定区域对应关联。
示例性的,如图9所示的目标区域获取过程示意图,以预览图像包含两张试卷(即两个目标对象)的检测场景为例进行说明,按照上述语义分割和边缘分割后,可以得到这两个目标对象各自的待定区域,以及包含不同方向的边缘线构成的边缘信息。
步骤S32,基于待定区域的区域形状特征,选择相应数量的不同方向的边缘线构成多个候选边缘框;
为了得到目标对象的边缘检测框,继上文描述得到不同方向的边缘线后,可以对这些边缘线进行排列组合,此时,为了提高处理效率,本实施例将依据所确定的待定区域的区域形状特征,实现对不同方向的边缘线的排列组合,以得到候选边缘框。
仍以图9所示的多个目标对象的边缘检测场景示意图为例进行说明,由于预览图像中的多个目标对象放置位置往往不标准,导致预览图像中目标对象的图像会有一定倾斜,如图9所示,对于方形目标对象,所检测到的边缘线通常为直线,且边缘线的方向类似(或者近似)水平、类似竖直,为了方便描述后续统称为水平边缘线和竖直边缘线,但并不意味着所检测到的边缘线方向是绝对水平、竖直的。
这样,对应方形的待定区域,其需要两条水平方向边缘线和两条竖直方向的边缘排列组成,因此,本实施例可以从检测到的不同方向的边缘线中,选择2条水平边缘线和2条竖直边缘线,排列围成的区域确定为相应目标对象(即所依据的待定区域对应的目标对象)的候选边缘框,在如图9所示的场景下,可以得到4个候选边缘框。
需要说明,对于具有其他形状特征(如梯形、圆形、三角形等)的待定区域,可以按照上述构思,从检测到的多个不同方向的边缘线中,选择相应数量的不同方向边缘线构成多个候选边缘框,实现过程类似,本申请不做一一详述。
应该理解,对于预览图像包含一个目标对象的应用场景,获取其边缘信息及待定区域,并据此确定该目标对象对应的多个候选边缘框的实现过程,与上述列举的多目标边缘检测方法类似,本申请不再赘述。
步骤S33,利用与待定区域相匹配的候选边缘框,对待定区域进行校准,得到预览图像中相应目标对象的目标区域。
按照上述方式得到每一个目标对象对应的多个候选边缘框之后,需要进一步筛选该目标对象最合适的候选边缘框为目标边缘框,用以实现对该目标对象的待定区域的校准。在多目标边缘检测的应用场景下,对于得到的每一个候选边缘框,可以将其与获取该候选边缘框所依据的待定区域进行比较,确定两者之间的匹配度,之后,选择匹配度最高的候选边缘框为相应目标对象的目标边缘框;而对于单一目标缘边检测的应用场景,可以按照上述匹配方式,直接从所得到的多个候选边缘框中,选择与该目标对象的待定区域的匹配度最高的候选边缘框为目标边缘框。本申请对候选边缘框与待定区域的匹配度获取方式不做限定。
在得到目标对象对应的目标边缘框后,如图9所示,可以利用该目标边缘框的交点位置信息,实现对待定区域的校准,也就是利用目标边缘框所围成的区域,实现对待定区域的校准,得到目标对象的目标区域。在实际应用中,按照上述方式对待定区域的校准后,可以在预览图像中输出校准后的目标对象的目标区域及其检测框,此时,用户可以点击拍摄按钮进行图像采集,或响应校准结果执行图像采集操作,获取此时检测框内目标对象的目标区域。
综上,本实施例在目标边缘检测,获取目标对象的目标区域应用中,将综合边缘检测和区域检测两种目标检测方式,对预览图像进行目标检测,得到该预览图像中的边缘信息及目标对象的待定区域,之后,在对边缘信息包含的不同方向的边缘线排列组合时,本实施例将依据相应待地区域的形状特征执行,并通过所组成的候选边缘框与相应待定区域进行匹配,选择与待定区域相匹配的候选边缘框,对待定区域的校准,来得到目标对象的目标区域;相对于现有技术直接利用区域检测或边缘检测得到的待定区域、候选边缘框对应的区域,本申请这种获取目标区域的方式,能够更加准确区分目标对象的边缘与其他边缘,提高了所得目标区域的准确性。
参照图10,为本申请提出的基于目标检测的文本分类识别方法的又一可选实施例的流程示意图,本实施例可以是对上述实施例描述的目标区域获取方法的进一步细化实现方式,但并不局限于这种细化实现方法,可以根据需求进行适当调整,均属于本申请保护范围。如图10所示,该方法可以包括:
步骤S41,获取预览图像的边缘掩膜及前景分割掩膜;
结合上文对边缘检测和区域检测的相关描述,本申请实施例可以直接对预览图像进行边缘检测和语义分割处理,得到预览图像的边缘掩膜及前景分割掩膜(即目标对象的区域掩膜)。具体的,在一种可能的实现方式中,可以利用边缘检测模型和语义分割模型分别对预览图像进行处理,输出相应的边缘掩膜及前景分割掩膜,该边缘检测模型可以基于边缘检测算法对样本图像进行训练得到;语义分割模型可以基于语义分割算法对样本图像进行训练得到,本申请对这两个模型的训练方法不做详述。
在本申请提出的又一些实施例中,参照图11所示的目标检测流程示意图,可以直接将预览图像输入目标检测模型,输出预览图像的边缘掩膜及前景分割掩膜。此时,该目标检测模型可以基于边缘检测算法和语义分割算法,对包含多目标的样本图像进行训练得到,具体训练过程不做详述。应该理解,在单一目标对象的检测应用场景下,可以选择包含单一目标的样本图像实现模型训练。
如上图11所示,在一种可能的实现方式中,本申请可以利用残差网络resnet101的五阶卷积网络结构作为神经网络模型即上述目标检测模型。且,对于该网络结构中的全连接层,根据本实施例应用需求,可以去除resnet101的全连接层,使用从输入层到池化层Pool5这部分,完成上述边缘掩膜和前景分割掩膜的提取,具体实现过程不做详述。且需要说明,对于上述各模型的网络结构,并不局限于这种神经网络结构,可视情况而定。
步骤S42,通过连通域检测方式,将前景分割掩膜所包含的每个连通域确定为一个目标对象的待定区域;
本实施例在确定各目标对象的待定区域时,可以基于连通域检测的方式,从前景分割掩膜中提取连通域信息,从而据此确定该前景分割掩膜包含的每一个连通域,并将一个连通域确定为一个单独的目标对象,将该连通域区域确定为该目标对象的待定区域。本申请对连通域检测的实现原理不做详述。
步骤S43,检测边缘掩膜包含的多条不同方向的边缘线;
在一些实施例中,本申请可以利用Hough Line这种直线检测方式,提取边缘掩膜中的所有直线,本申请对这种直线检测方法的具体实现过程不做详述。
步骤S44,将多条不同方向的边缘线划分为属于第一方向的第一边缘线,或属于第二方向的第二边缘线;
为了方便后续处理可以将直线按照方向进行分组,将同一方向或近似同一方向的边缘线划分为一组。如图11所示的规则四边形的目标对象,按照上述方式往往检测到的直线都是水平或近似水平、竖直或近似竖直的边缘线,本实施例可以按照方向划分为两组。应该理解,对于其他形状的目标对象,所得到的边缘线的方向可能更多,可以按照该方式划分相应的边缘线组,本申请不做一一详述。
本申请实施例仅以规则四边形的目标对象为例进行说明,对于其他形状的目标对象的目标区域获取过程类似,本申请不做一一详述,如上述分析,对于规则四边形的目标对象,所提取到的边缘线包含两个方向,记为第一方向和第二方向,分别表示水平和竖直,因此,属于第一方向的第一边缘线或第一边缘线的延伸线,与属于第二方向的第二边缘线或第二边缘线的延伸线之间能够相对垂直相交。
步骤S45,将任意两条第一边缘线与任意两条第二边缘线进行组合,得到多个候选边缘框;
步骤S46,获取多个候选边缘框与相应的待定区域之间的面积交并对;
在本申请实施例中,可以利用交并比函数,实现对每一个目标对象对应的多个候选边缘框的筛选,以确定相匹配的目标边缘框,但并不局限于这种筛选方式,可以根据应用场景的需求确定,本申请仅以此为例进行说明。其中,该交并比函数是指预测边界和实际边界交集的面积比并集的面积,本实施例中可以是候选边缘框所围成的区域与待定区域的交并比,通常为0~1之间的数值,且该数值越高,可以认为相应候选边缘框越精确。
基于上述分析,在步骤46的一种可选实现方式中,面对多目标检测应用场景,本申请可以先确定每一个候选边缘框包含的候选区域(即该候选边缘框所围成的区域)与该候选边缘框的第一相对位置关系,将得到的多个待定区域中,与第一相对位置关系匹配的目标区域确定为候选边缘框对应的待定区域,如上图9所示,候选边缘框所包含的候选区域位于整个候选边缘框的左侧,其应该对应左侧目标对象的待定区域,同理,候选边缘框所包含的候选区域位于整个候选边缘框的右侧,其应该对应右侧目标对象的待定区域。之后,按照该对应关系及上述交并比计算方式,获取候选边缘框与该候选边缘框对应的待定区域之间的面积交并对。
步骤S47,从每一个待定区域对应的多个面积交并对中,确定最大面积交并对所对应的候选边缘框为目标对象的目标边缘框;
由于待定区域与目标对象是对应的,所以,本实施例确定的各待定区域对应的目标边缘框,即为相应目标对象的目标边缘框,如图9所示的各待定区域与最匹配的目标边缘框对应的附图。本申请对该目标边缘框的具体确定过程不做详述,如可以按照各面积交并比排序,在选择最大面积交并比等。
步骤S48,利用目标边缘框的交点位置信息,对相应的待定区域进行校准,得到目标对象的目标区域。
对于本实施例这种规则四边形的目标对象,最终所得目标边缘框的资格交点可以是该目标对象的检测框的交点,可以利用这四个交点位置信息对待定区域进行校准,如倾斜校正、完整性校准等,以便从预览图像中提取更加完整且准确的目标对象的目标区域,具体实现过程不做详述。
综上所述,本实施例在边缘分割模型基础上增加语义分割分支,从而结合语义分割模型学习到的目标对象的文本内部的特征,以更准确的区分目标对象的边缘和其他边缘,尤其是在多目标边缘检测应用中,可以准确区分每一个目标对象的边缘与其他目标对象的边缘,可靠提取预览图像中每一个目标对象的目标区域,更好地满足了具有复杂背景和文档互相遮挡的目标检测应用需求。
参照图12,为本申请提出的基于目标检测的文本分类识别方法的又一可选实施例的流程示意图,本实施例可以是对上述实施例提出的基于目标检测的文本分类识别方法的又一可选细化实现方式,区别于上述细化实现方式,本实施例可以利用连续帧预览图像的上下文信息,调整当前帧预览图像中目标对象的图像映射区域尺寸,来准确识别当前帧预览图像中目标对象的目标区域,但并不局限于本实施例描述的实现步骤,可以根据需求进行适当调整,均属于本申请保护范围。
如图12所示,本实施例提出的基于目标检测的文本分类识别方法可以包括:
步骤S51,获取上一帧预览图像中目标对象的目标区域的第一形状特征;
本实施例中,第一形状特征可以包括该目标区域的形状,如对于规则四边形的目标区域,可以由该目标区域的长宽纵横比表示该第一形状特征,但并不局限于此。应该理解,对于其他形状的目标对象,其具有的第一形状特征的表示方式可以相应调整,并不局限于这种长宽纵横比,如椭圆形区域可以由长轴和短轴的比例表示等等,本申请不做一一详述。
步骤S52,确定与第一形状特征相匹配的目标图像映射区域;
在实际应用中,用于处理包含目标对象的预览图像的目标检测模型,通常具有默认的原图像映射区域(其可以称为感受野),若该原图像映射区域适用于当前目标对象的形状特征,可以不用调整,直接利用该目标检测模型对预览图像进行处理。因此,本实施例在获得第一形状特征后,可以先检测第一形状特征与目标检测模型中的卷积核的原图像映射区域是否匹配,如果匹配,直接将当前帧预览图像输入该目标检测模型进行处理;如果不匹配,执行步骤S52,以调整该目标检测模型中的卷积核的图像映射区域,使其与第一形状特征匹配,提高目标检测模型输出准确性。
可选的,对于第一形状特征与原图像映射区域之间的匹配度检测,可以选择合适的相似度算法实现,若所得相似度达到预设匹配阈值,可以认为匹配;反之,若所得相似度未达到该预设匹配阈值,可以认为不匹配。本申请对该相似度算法的内容不做限定。
在本申请实施例中,上述目标检测模型可以具有空洞空间金字塔结构,如图13所示的网络结构,所以说,本申请可以基于空间金字塔池化(Spatial Pyramid Pooling,SPP)算法,对样本数据进行训练得到该目标检测模型。其相对于传统的卷积神经网络可以实现多尺度目标检测,通常可以通过计算目标对象的检测框的纵横比,来等比例改变多尺度的图像映射区域,提升模型输出的准确率。如图13所示,由于等比例调整模型卷积核的图像映射区域,使得该图像映射区域的整体形状不变,如图13所示的图像映射区域无论是放大还是缩小,仍保持正方形,即长宽的纵横比不变。
然而,对于实际的目标对象来说,其目标区域的形状状态并都是正方形,可能是横向的长方形或纵向的长方形,或者是其他形状,这种单一形状的图像映射区域,可能无法从预览图像中提取完整的目标对象的目标区域,或者虽然能够通过缩放图像映射区域采集到完整的目标对象,但在某一区域边可能远大于该目标对象实际的边缘,导致采集到的图像区域中除了目标对象外,还会包含其他干扰对象,这将会降低后续图像处理的准确率。
为了改善上述问题,利用相邻帧预览图像中目标对象相同的特点,本申请提出调整目标检测模型中卷积核的图像映射区域的形状和尺寸,使其能够与上一帧预览图像中目标对象的目标区域的第一形状特征相匹配,以使得该目标检测模型能够完整且准确地实现对当前帧预览图像的目标检测。应该理解,由于相邻帧预览图像的内容基本不变,所以说,上一帧预览图像中目标对象的目标区域的第一形状特征,可以认为是当前帧预览图像中目标对象的目标区域的第一形状特征,调整后的图像映射区域与上一帧预览图像中的目标对象的第一形状特征相匹配,也就是与当前帧预览图像中的目标对象的目标区域的形状特征相匹配。
具体的,为了确定与第一形状特征相匹配的目标图像映射区域,本申请可以按照但并不局限于以下方式描述的实现方法,来确定与第一形状特征相匹配的目标图像映射区域:
方式一:获取目标检测模型中的卷积核的原图像映射区域的第二形状特征,直接依据第一形状特征与第二形状特征的差异,对原图像映射区域的长宽进行不等比例调整,得到目标图像映射区域。更具体地说,可以将第一形状特征与第二形状特征进行比较,利用比较结果,获取针对原图像映射区域的形状比例调整方式,再按照该形状比例调整方式,对原图像映射区域的长宽进行不等比例调整,得到目标图像映射区域。
其中,对原图像映射区域的长宽进行不等比例调整的调整方式,不仅实现对原图像映射区域尺寸的缩放,且能够改变原图像映射区域的形状,如图14a和图14b所示,在上图13所示的原图像映射区域的形状基础上,可以依据上一帧预览图像中目标区域的第一形状特征,与原图像映射区域的第二形状特征之间的差异,对原图像映射区域进行调整,以得到与第一形状特征相匹配的目标图像映射区域。本申请对该调整采用的形状比例调整方式不做限定,如利用第一形状特征直接获取目标图像映射区域应该具有的尺寸,再按照该尺寸直接调整原图像映射区域的尺寸等,本申请对上述形状比例调整方式的实现过程不做详述。
方式二:本申请可以根据历史检测数据或验证等信息,预先配置多个具有不同第三形状特征的卷积核的候选图像映射区域,这样,在确定目标检测模型当前卷积核的图像映射区域与上述第一形状特征不匹配的情况下,直接从这多个候选图像映射区域中,选择与第一形状特征匹配度最高的候选图像映射区域确定为目标图像映射区域。
其中,上述卷积核的候选图像映射区域的第三形状特征是预先训练得到的,且在训练过程中,所选取的样本图像可以是包含当前场景下经常检测的多种对象的图像,当应用场景发生变化时,可以重新训练相应的候选图像映射区域,本申请对候选图像映射区域的第三形状特征的具体训练过程本申请不做详述。
在该方式二的具体实现过程中,与上述方式一描述的匹配度获取方式类似,本申请也可以获取第一形状特征与每一个候选图像映射区域的第三形状特征之间的匹配度,如通过合适的相似度算法实现匹配度获取,具体实现过程不做详述,之后,可以选择最高匹配度对应的候选图像映射区域为目标图像映射区域。
在一可选实施例中,对于上述候选图像映射区域及其具有的第三形状特征的获取过程中,可以获取包含不同形状类别的样本对象的多个样本预览图像,对于同一形状类别的样本对象的多个样本预览图像,可以将其作为训练样本输入目标检测网络,实现对该目标检测网络中的卷积核的图像映射区域的训练,直至满足约束条件,如图像映射区域的与这类样本对象的形状匹配度达到预设阈值,或者是训练后的目标检测网络的检测结果的准确率达到预设准确阈值等,之后,本实施例可以确定最终训练得到的目标检测网络中的卷积核的图像映射区域作为一种候选图像映射区域,并将相应形状类别作为该候选图像映射区域对应的第三形状特征所属形状类别,并保存该候选图像映射区域与该形状类别之间的对应关系。
按照这种处理方式,本申请可以确定上述不同形状类别的样本对象所适配的候选图像映射区域,这样,在实际目标检测过程中,获得上一帧预览图像中目标对象的目标区域的第一形状特征后,可以先确定该第一形状特征所属的第一形状类别,在查询上述对应关系,将得到的与第一形状类别对应的候选图像映射区域确定为目标图像映射区域。
需要说明,关于获取与第一形状特征相匹配的目标图像映射区域的实现方式,并不局限于上文列举的两种实现方式,还可以根据应用场景的需求,对上文描述的方式进行适当调整,得到新的调整方式,均属于本申请保护范围,本申请不再一一详述。
步骤S53,将当前帧预览图像输入具有目标图像映射区域的目标检测模型,得到当前帧预览图像中目标对象的目标区域。
关于目标检测模型如何对输入的预览图像进行目标检测的实现过程,可以依据目标检测的运算原理确定,本申请在此不做详述。
在本申请提出的一可选实施例中,参照图15所示的目标检测流程示意图,将当前帧预览图像输入目标检测模型后,按照上述方式进行目标对象的识别,输出预览图像中存在的边缘信息,经过非极大值抑制(Non-Maximum Suppression,NMS)算法,得到该预览图像中的大概率为目标对象的边缘信息,经过直线检测方式,得到目标对象的边缘线,经过排列组合可以得到多个候选边缘框,可以利用上一帧预览图像中目标对象的目标边缘框,与这些候选边缘框之间的比对结果,为这些候选边缘框打分,将得分最高的候选边缘框确定为当前帧预览图像中目标对象的目标边缘框,并将该目标边缘框对应的图像区域确定为目标对象的目标区域。
可见,对于上述步骤S53的一可选实现方法可以包括:获取当前帧预览图像包含的边缘信息,该边缘信息包含多个不同方向的边缘线,关于边缘信息的获取方式可以参照上述实施例相应部分的描述,即先获取边缘掩膜,在检测该边缘掩膜包含的边缘线。之后,由多条不同方向的边缘线排列组合,构成多个候选边缘框,利用与上一帧预览图像的目标区域相匹配(即匹配度最高)的候选边缘框,得到预览图像中相应目标对象的目标区域。
其中,关于上述匹配方式,本申请实施例也可以采用获取交并比的方式实现,即获取每一个候选检测框与上一帧预览图像中目标对象的目标区域之间的面积交并比,如图16所示的随着上述面积交并比的增大,其对应的候选检测框(图16中实线框)与上一帧预览图像中目标对象的目标区域(图16的虚线框)之间的匹配度越高,因此,本实施例可以将最大面积交并比对应的候选检测框确定为当前帧预览图像中目标对象的目标边缘框,之后,利用该目标边缘框对应的区域确定为目标对象的目标区域。
需要说明,对于如图15所示目标检测实现过程中,目标检测模型以HED模型为例进行的目标检测,但并不局限于这种模型网络结构,还可以结合语义分割运算,来获取当前帧预览图像中目标对象的目标区域,具体实现过程可以结合上图11及其对应实施例部分的描述,本申请在此不做赘述。
综上,当需要获取预览图像中目标对象的目标区域时,为了可靠且准确地检测目标区域,本实施例将利用相邻帧预览图像之间的上下文信息关系,利用上一帧预览图像中的目标区域的第一形状特征,调整对当前帧预览图像进行目标检测的目标检测模型的卷积核的图像映射区域,相对于默认的原始图像映射区域,使调整后的图像映射区域与该第一形状特征更加适配,进而使得目标检测模型对当前帧预览图像进行目标检测时,能够更加准确地检测目标区域,在保证目标对象内容完整的基础上,尽量减少干扰信息,以提高后续图像处理的效率及准确性。
需要说明,上述实施例及其附图中仅示出了与有关发明相关的部分,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。而且,本申请上述实施例中使用了流程图用来说明根据本申请计算机设备所执行的操作,但在该流程图中,前面或后面操作步骤不一定按照实施例步骤序号顺序来精确地执行。根据实际需要,可以按照倒序或同时处理各个步骤;同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作,可视情况而定,本申请并未一一举例详述。
参照图17,为本申请提出的基于目标检测的文本分类识别装置的一可选实施例的结构示意图,该装置可以适用于计算机设备,如图17所示,该装置可以包括:
目标区域获取模块11,用于获取预览图像中目标对象的目标区域;
文本识别处理模块12,用于对所述目标区域进行文本识别处理,得到所述多个文本子区域各自的文本位置信息和文本内容信息;
其中,所述目标对象的文本内容能够划分成具有嵌套关系的多个文本区域,每一个所述文本区域包含至少一个所述文本子区域,且所述多个文本区域之间不存在重复的所述文本子区域。
文本图像特征获得模块13,用于对所述目标区域进行图像特征提取,利用得到的特征图及所述多个文本子区域各自的文本位置信息,得到相应文本子区域的文本图像特征;
文本分类识别模块14,用于依据所述多个文本子区域各自的所述文本位置信息、所述文本内容信息及所述文本图像特征,对所述多个文本子区域进行分类处理,得到所述目标对象的分类识别结果。
其中,所述分类识别结果包含所述多个文本子区域各自的分类信息,所述分类信息能够用于确定相应所述文本子区域所属的所述文本区域。
在一些实施例中,上述文本分类识别模块14可以包括:
网络节点特征构成单元,用于由任一所述文本子区域对应的所述文本位置信息、所述文本内容信息和所述文本图像特征,构成一个网络节点特征;
位置偏移信息得到单元,用于利用所述多个文本子区域各自对应的所述文本位置信息,得到不同所述文本子区域之间的位置偏移信息;
网络边特征获得单元,用于利用所述位置偏移信息,获得相应两个所述文本子区域之间的网络边特征;
分类处理单元,用于依据多个所述网络节点特征和多个所述网络边特征,对所述多个文本子区域进行分类处理,得到所述目标对象的分类识别结果。
在上述实施例的基础上,本申请提出的基于目标检测的文本分类装置还可以包括:
语义分割处理模块,用于对所述目标区域进行语义分割处理,得到所述目标对象的语义分割信息;
嵌套关系获取模块,用于利用所述多个文本子区域各自的分类信息及所述语义分割信息,得到所述多个文本子区域组成的多个文本区域各自的位置信息,以及所述多个文本区域之间的嵌套关系;
排版信息获得模块,用于由所述多个文本区域各自的位置信息及所述嵌套关系,获得所述目标对象的排版信息。
在本申请提出的一可选实施例中,上述目标区域获取模块11可以包括:
第一信息获取单元,用于获取预览图像的边缘信息及目标对象的待定区域,所述边缘信息包含多条不同方向的边缘线;
可选的,该第一信息获取单元可以包括:
掩膜获取单元,用于获取预览图像的边缘掩膜及前景分割掩膜;
连通域检测单元,用于通过连通域检测方式,将所述前景分割掩膜所包含的每个连通域确定为一个目标对象的待定区域;
边缘线检测单元,用于检测所述边缘掩膜包含的多条不同方向的边缘线。
第一候选边缘框构成单元,用于基于所述待定区域的区域形状特征,选择相应数量的不同方向的边缘线构成多个候选边缘框;
第一目标区域得到单元,用于利用与所述待定区域相匹配的候选边缘框,对所述待定区域进行校准,得到所述预览图像中相应目标对象的目标区域。
在本申请提出的又一可选实施例中,上述目标区域获取模块11也可以包括:
第一形状特征获取单元,用于获取上一帧预览图像中目标对象的目标区域的第一形状特征;
目标图像映射区域确定单元,用于确定与所述第一形状特征相匹配的目标图像映射区域;
可选的,该目标图像映射区域确定单元可以包括:
第二形状特征获取单元,用于获取目标检测模型中的卷积核的原图像映射区域的第二形状特征;
目标图像映射区域得到单元,用于依据所述第一形状特征与所述第二形状特征的差异,对所述原图像映射区域的长宽进行不等比例调整,得到目标图像映射区域。
可选的,该目标图像映射区域确定单元也可以包括:
目标图像映射区域选择单元,用于从多个具有不同第三形状特征的卷积核的候选图像映射区域中,选择与所述第一形状特征的匹配度最高的候选图像映射区域为目标图像映射区域。
目标检测单元,用于将当前帧预览图像输入具有所述目标图像映射区域的目标检测模型,得到当前帧预览图像中所述目标对象的目标区域,所述目标检测模型具有空洞空间金字塔结构。
在一些实施例中,该目标检测单元可以包括:
边缘信息获取单元,用于获取当前帧预览图像包含的边缘信息,所述边缘信息包含多个不同方向的边缘线;
第二候选边缘框构成单元,用于由所述多条不同方向的边缘线排列组合,构成多个候选边缘框;
第二目标区域得到单元,用于利用与所述上一帧预览图像的目标区域相匹配的候选边缘框,对所述待定区域进行校准,得到所述预览图像中相应目标对象的目标区域。
需要说明的是,关于上述各装置实施例中的各种模块、单元等,均可以作为程序模块存储在存储器中,由处理器执行存储在存储器中的上述程序模块,以实现相应的功能,关于各程序模块及其组合所实现的功能,以及达到的技术效果,可以参照上述方法实施例相应部分的描述,本实施例不再赘述。
本申请还提供了一种存储介质,其上可以存储计算机程序,该计算机程序可以被处理器调用并加载,以实现上述实施例描述的基于目标检测的文本分类识别方法的各个步骤,具体实现过程可以参照但并不局限于上文实施例相应部分的描述。
参照图18,为适用于本申请提出的基于目标检测的文本分类识别方法和装置的计算机设备的一可选实例的硬件结构示意图,该计算机设备可以包括:通信模块21、存储器22及处理器23,其中:
通信模块21、存储器22和处理器23的数量均可以为至少一个,且通信模块21、存储器22和处理器23均可以连接通信总线,以通过该通信总线实现相互之间的数据交互,具体实现过程可以依据具体应用场景的需求确定,本申请不做详述。
通信模块21可以包括能够利用无线通信网络实现数据交互的通信模块,如WIFI模块、5G/6G(第五代移动通信网络/第六代移动通信网络)模块、GPRS模块等,该通信模块21还可以包括实现计算机设备内部组成部件之间的数据交互的通信接口,如USB接口、串/并口等,本申请对该通信模块21包含的具体内容不做限定。
在本申请实施例中,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。处理器23,可以为中央处理器(CentralProcessing Unit,CPU)、特定应用集成电路(application-specificintegrated circuit,ASIC)、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件等。
在本实施例实际应用中,存储器22可以用于存储实现上述任一方法实施例描述的基于目标检测的文本分类识别方法的程序;处理器23可以加载并执行存储器22中存储的程序,以实现本申请上述任一方法实施例提出的基于目标检测的文本分类识别方法的各个步骤,具体实现过程可以参照上文相应实施例相应部分的描述,不再赘述。
应该理解的是,图18所示的计算机设备的结构并不构成对本申请实施例中计算机设备的限定,在实际应用中,计算机设备可以包括比图18所示的更多或更少的部件,或者组合某些部件,可以依据该计算机设备的产品类型确定,如该计算机设备为上述电子设备,该计算机设备还可以包括如感应触摸显示面板上的触摸事件的触摸感应单元、键盘、鼠标、图像采集器(如摄像头)、拾音器等至少一个设备;如显示器、扬声器、振动机构、灯等至少一个输出设备等,本申请在此不做一一列举。
其中,在计算机设备为上述电子设备的情况下,可以由电子设备采集预览图像,按照上述方式实现目标对象的文本分类识别,也可以接收其他设备采集并发送的图像,按照上述实施例描述的方式对该图像进行处理,本申请对此不做限定,可以视情况而定。
而在计算机设备为服务器的情况下,通常可以由具有图像采集器的上述电子设备,或独立的相机或摄像头等,采集包含目标对象的预览图像发送至服务器,由服务器按照上述实施例描述的方式对该图像进行处理,满足应用需求,如识别预览图像中的各目标对象,获取该目标对象的排版信息等,本申请在此不做一一详述。
最后,需要说明,本说明书中各个实施例采用递进或并列的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围,也就是说,上文所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

Claims (10)

1.一种基于目标检测的文本分类识别方法,所述方法包括:
获取预览图像中目标对象的目标区域;
对所述目标区域进行文本识别处理,得到所述目标对象包含的多个文本子区域各自的文本位置信息和文本内容信息,其中,所述目标对象的文本内容能够划分成具有嵌套关系的多个文本区域,每一个所述文本区域包含至少一个所述文本子区域,且所述多个文本区域之间不存在重复的所述文本子区域;
对所述目标区域进行图像特征提取,利用得到的特征图及所述多个文本子区域各自的文本位置信息,得到相应文本子区域的文本图像特征;
依据所述多个文本子区域各自的所述文本位置信息、所述文本内容信息及所述文本图像特征,对所述多个文本子区域进行分类处理,得到所述目标对象的分类识别结果;其中,所述分类识别结果包含所述多个文本子区域各自的分类信息,所述分类信息能够用于确定相应所述文本子区域所属的所述文本区域。
2.根据权利要求1所述的方法,所述依据所述多个文本子区域各自的所述文本位置信息、所述文本内容信息及所述文本图像特征,对所述多个文本子区域进行分类处理,得到所述待处理文档的分类识别结果,包括:
由任一所述文本子区域对应的所述文本位置信息、所述文本内容信息和所述文本图像特征,构成一个网络节点特征;
利用所述多个文本子区域各自对应的所述文本位置信息,得到不同所述文本子区域之间的位置偏移信息;
利用所述位置偏移信息,获得相应两个所述文本子区域之间的网络边特征;
依据多个所述网络节点特征和多个所述网络边特征,对所述多个文本子区域进行分类处理,得到所述目标对象的分类识别结果。
3.根据权利要求1所述的方法,所述方法还包括:
对所述目标区域进行语义分割处理,得到所述目标对象的语义分割信息;
利用所述多个文本子区域各自的分类信息及所述语义分割信息,得到所述多个文本子区域组成的多个文本区域各自的位置信息,以及所述多个文本区域之间的嵌套关系;
由所述多个文本区域各自的位置信息及所述嵌套关系,获得所述目标对象的排版信息。
4.根据权利要求1~3任一项所述的方法,所述获取预览图像中目标对象的目标区域,包括:
获取预览图像的边缘信息及目标对象的待定区域,所述边缘信息包含多条不同方向的边缘线;
基于所述待定区域的区域形状特征,选择相应数量的不同方向的边缘线构成多个候选边缘框;
利用与所述待定区域相匹配的候选边缘框,对所述待定区域进行校准,得到所述预览图像中相应目标对象的目标区域。
5.根据权利要求4所述的方法,所述获取预览图像的边缘信息及目标对象的待定区域,包括:
获取预览图像的边缘掩膜及前景分割掩膜;
通过连通域检测方式,将所述前景分割掩膜所包含的每个连通域确定为一个目标对象的待定区域;
检测所述边缘掩膜包含的多条不同方向的边缘线。
6.根据权利要求1~3任一项所述的方法,所述获取预览图像中目标对象的目标区域,包括:
获取上一帧预览图像中目标对象的目标区域的第一形状特征;
确定与所述第一形状特征相匹配的目标图像映射区域;
将当前帧预览图像输入具有所述目标图像映射区域的目标检测模型,得到当前帧预览图像中所述目标对象的目标区域,所述目标检测模型具有空洞空间金字塔结构。
7.根据权利要求6所述的方法,所述确定与所述第一形状特征相匹配的目标图像映射区域,包括:
获取目标检测模型中的卷积核的原图像映射区域的第二形状特征;
依据所述第一形状特征与所述第二形状特征的差异,对所述原图像映射区域的长宽进行不等比例调整,得到目标图像映射区域。
8.根据权利要求6所述的方法,所述确定与所述第一形状特征相匹配的目标图像映射区域,包括:
从多个具有不同第三形状特征的卷积核的候选图像映射区域中,选择与所述第一形状特征的匹配度最高的候选图像映射区域为目标图像映射区域。
9.根据权利要求6所述的方法,所述将当前帧预览图像输入具有所述目标图像映射区域的目标检测模型,得到当前帧预览图像中所述目标对象的目标区域,包括:
获取当前帧预览图像包含的边缘信息,所述边缘信息包含多个不同方向的边缘线;
由所述多条不同方向的边缘线排列组合,构成多个候选边缘框;
利用与所述上一帧预览图像的目标区域相匹配的候选边缘框,对所述待定区域进行校准,得到所述预览图像中相应目标对象的目标区域。
10.一种基于目标检测的文本分类识别装置,所述装置包括:
目标区域获取模块,用于获取预览图像中目标对象的目标区域;
文本识别处理模块,用于对所述目标区域进行文本识别处理,得到所述多个文本子区域各自的文本位置信息和文本内容信息,其中,所述目标对象的文本内容能够划分成具有嵌套关系的多个文本区域,每一个所述文本区域包含至少一个所述文本子区域,且所述多个文本区域之间不存在重复的所述文本子区域;
文本图像特征获得模块,用于对所述目标区域进行图像特征提取,利用得到的特征图及所述多个文本子区域各自的文本位置信息,得到相应文本子区域的文本图像特征;
文本分类识别模块,用于依据所述多个文本子区域各自的所述文本位置信息、所述文本内容信息及所述文本图像特征,对所述多个文本子区域进行分类处理,得到所述目标对象的分类识别结果,其中,所述分类识别结果包含所述多个文本子区域各自的分类信息,所述分类信息能够用于确定相应所述文本子区域所属的所述文本区域。
CN202010922482.1A 2020-09-04 2020-09-04 基于目标检测的文本分类识别方法及装置 Active CN112036395B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010922482.1A CN112036395B (zh) 2020-09-04 2020-09-04 基于目标检测的文本分类识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010922482.1A CN112036395B (zh) 2020-09-04 2020-09-04 基于目标检测的文本分类识别方法及装置

Publications (2)

Publication Number Publication Date
CN112036395A true CN112036395A (zh) 2020-12-04
CN112036395B CN112036395B (zh) 2024-05-28

Family

ID=73590651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010922482.1A Active CN112036395B (zh) 2020-09-04 2020-09-04 基于目标检测的文本分类识别方法及装置

Country Status (1)

Country Link
CN (1) CN112036395B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287931A (zh) * 2020-12-30 2021-01-29 浙江万里学院 一种场景文本检测方法及系统
CN112686223A (zh) * 2021-03-12 2021-04-20 腾讯科技(深圳)有限公司 一种表格识别方法、装置和计算机可读存储介质
CN112733857A (zh) * 2021-01-08 2021-04-30 北京匠数科技有限公司 自动分割字符区域的图像文字检测模型训练方法及装置
CN112733858A (zh) * 2021-01-08 2021-04-30 北京匠数科技有限公司 基于字符区域检测的图像文字快速识别方法及装置
CN112990110A (zh) * 2021-04-20 2021-06-18 数库(上海)科技有限公司 从研报中进行关键信息提取方法及相关设备
CN113239660A (zh) * 2021-04-29 2021-08-10 维沃移动通信(杭州)有限公司 文本显示方法、装置及电子设备
CN113505588A (zh) * 2021-07-14 2021-10-15 京东科技控股股份有限公司 信息抽取方法、装置和电子设备
CN114373098A (zh) * 2021-12-31 2022-04-19 腾讯科技(深圳)有限公司 一种图像分类方法、装置、计算机设备及存储介质
CN114399626A (zh) * 2022-01-19 2022-04-26 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备、存储介质及程序产品
CN114511864A (zh) * 2022-04-19 2022-05-17 腾讯科技(深圳)有限公司 文本信息提取方法、目标模型的获取方法、装置及设备
CN114610968A (zh) * 2022-03-17 2022-06-10 福建工程学院 基于改进的图卷积网络的博客用户划分方法
CN114677701A (zh) * 2022-03-11 2022-06-28 联宝(合肥)电子科技有限公司 一种数据识别方法、装置、设备及存储介质
WO2023077995A1 (zh) * 2021-11-04 2023-05-11 北京有竹居网络技术有限公司 信息提取方法、装置、设备、介质及产品
CN118351543A (zh) * 2024-06-18 2024-07-16 南昌大学第一附属医院 一种医疗检验单的数据信息提取分析方法
CN118552972A (zh) * 2024-06-13 2024-08-27 暗物质(北京)智能科技有限公司 一种基于机器视觉的教辅作业批改方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325401A (zh) * 2018-08-03 2019-02-12 成都准星云学科技有限公司 基于边缘定位对题目区域进行标注、识别的方法及系统
CN109933756A (zh) * 2019-03-22 2019-06-25 腾讯科技(深圳)有限公司 基于ocr的图像转档方法、装置、设备及可读存储介质
CN110060235A (zh) * 2019-03-27 2019-07-26 天津大学 一种基于深度学习的甲状腺结节超声图像分割方法
CN110414529A (zh) * 2019-06-26 2019-11-05 深圳中兴网信科技有限公司 试卷信息提取方法、系统及计算机可读存储介质
CN111046784A (zh) * 2019-12-09 2020-04-21 科大讯飞股份有限公司 文档版面分析识别方法、装置、电子设备和存储介质
CN111402264A (zh) * 2020-03-11 2020-07-10 南京三百云信息科技有限公司 图像区域分割方法、装置及其模型训练方法及计算机设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325401A (zh) * 2018-08-03 2019-02-12 成都准星云学科技有限公司 基于边缘定位对题目区域进行标注、识别的方法及系统
CN109933756A (zh) * 2019-03-22 2019-06-25 腾讯科技(深圳)有限公司 基于ocr的图像转档方法、装置、设备及可读存储介质
CN110060235A (zh) * 2019-03-27 2019-07-26 天津大学 一种基于深度学习的甲状腺结节超声图像分割方法
CN110414529A (zh) * 2019-06-26 2019-11-05 深圳中兴网信科技有限公司 试卷信息提取方法、系统及计算机可读存储介质
CN111046784A (zh) * 2019-12-09 2020-04-21 科大讯飞股份有限公司 文档版面分析识别方法、装置、电子设备和存储介质
CN111402264A (zh) * 2020-03-11 2020-07-10 南京三百云信息科技有限公司 图像区域分割方法、装置及其模型训练方法及计算机设备

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287931B (zh) * 2020-12-30 2021-03-19 浙江万里学院 一种场景文本检测方法及系统
CN112287931A (zh) * 2020-12-30 2021-01-29 浙江万里学院 一种场景文本检测方法及系统
CN112733857B (zh) * 2021-01-08 2021-10-15 北京匠数科技有限公司 自动分割字符区域的图像文字检测模型训练方法及装置
CN112733857A (zh) * 2021-01-08 2021-04-30 北京匠数科技有限公司 自动分割字符区域的图像文字检测模型训练方法及装置
CN112733858A (zh) * 2021-01-08 2021-04-30 北京匠数科技有限公司 基于字符区域检测的图像文字快速识别方法及装置
CN112686223A (zh) * 2021-03-12 2021-04-20 腾讯科技(深圳)有限公司 一种表格识别方法、装置和计算机可读存储介质
CN112686223B (zh) * 2021-03-12 2021-06-18 腾讯科技(深圳)有限公司 一种表格识别方法、装置和计算机可读存储介质
CN112990110B (zh) * 2021-04-20 2022-03-25 数库(上海)科技有限公司 从研报中进行关键信息提取方法及相关设备
CN112990110A (zh) * 2021-04-20 2021-06-18 数库(上海)科技有限公司 从研报中进行关键信息提取方法及相关设备
CN113239660A (zh) * 2021-04-29 2021-08-10 维沃移动通信(杭州)有限公司 文本显示方法、装置及电子设备
CN113505588A (zh) * 2021-07-14 2021-10-15 京东科技控股股份有限公司 信息抽取方法、装置和电子设备
WO2023077995A1 (zh) * 2021-11-04 2023-05-11 北京有竹居网络技术有限公司 信息提取方法、装置、设备、介质及产品
CN114373098A (zh) * 2021-12-31 2022-04-19 腾讯科技(深圳)有限公司 一种图像分类方法、装置、计算机设备及存储介质
CN114399626A (zh) * 2022-01-19 2022-04-26 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备、存储介质及程序产品
CN114399626B (zh) * 2022-01-19 2024-10-15 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备、存储介质及程序产品
CN114677701A (zh) * 2022-03-11 2022-06-28 联宝(合肥)电子科技有限公司 一种数据识别方法、装置、设备及存储介质
CN114610968A (zh) * 2022-03-17 2022-06-10 福建工程学院 基于改进的图卷积网络的博客用户划分方法
CN114511864A (zh) * 2022-04-19 2022-05-17 腾讯科技(深圳)有限公司 文本信息提取方法、目标模型的获取方法、装置及设备
CN118552972A (zh) * 2024-06-13 2024-08-27 暗物质(北京)智能科技有限公司 一种基于机器视觉的教辅作业批改方法及系统
CN118351543A (zh) * 2024-06-18 2024-07-16 南昌大学第一附属医院 一种医疗检验单的数据信息提取分析方法

Also Published As

Publication number Publication date
CN112036395B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
CN112036395B (zh) 基于目标检测的文本分类识别方法及装置
CN110276342B (zh) 车牌辨识方法以及其系统
US8675974B2 (en) Image processing apparatus and image processing method
CN108334805B (zh) 检测文档阅读顺序的方法和装置
CN110598788B (zh) 目标检测方法、装置、电子设备及存储介质
CN105574524B (zh) 基于对白和分镜联合识别的漫画图像版面识别方法和系统
CN110717366A (zh) 文本信息的识别方法、装置、设备及存储介质
WO2016033710A1 (en) Scene text detection system and method
CN113420669B (zh) 基于多尺度训练和级联检测的文档版面分析方法和系统
CN109934216B (zh) 图像处理的方法、装置、计算机可读存储介质
CN113239818B (zh) 基于分割和图卷积神经网络的表格跨模态信息提取方法
CN111414913B (zh) 一种文字识别方法以及识别装置、电子设备
Sampath et al. Handwritten optical character recognition by hybrid neural network training algorithm
CN114332889A (zh) 文本图像的文本框排序方法和文本图像的文本框排序装置
CN112597940A (zh) 证件图像识别方法、装置及存储介质
CN116171462A (zh) 对象序列的识别方法、网络训练方法、装置、设备及介质
JP2011257963A (ja) 画像処理装置、その処理方法及びプログラム
Cai et al. IOS-Net: An inside-to-outside supervision network for scale robust text detection in the wild
CN110796134A (zh) 一种强噪声复杂背景图像中的汉字组词方法
CN113139540B (zh) 背板检测方法及设备
CN112749576B (zh) 图像识别方法和装置、计算设备以及计算机存储介质
CN113628181A (zh) 图像处理方法、装置、电子设备及存储介质
CN111553361B (zh) 一种病理切片标签识别方法
CN111832390B (zh) 一种手写古文字检测方法
CN113221523A (zh) 处理表格的方法、计算设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant