CN113673516A - 检测区域合并方法、文字识别方法、系统、电子设备及存储介质 - Google Patents
检测区域合并方法、文字识别方法、系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113673516A CN113673516A CN202110961823.0A CN202110961823A CN113673516A CN 113673516 A CN113673516 A CN 113673516A CN 202110961823 A CN202110961823 A CN 202110961823A CN 113673516 A CN113673516 A CN 113673516A
- Authority
- CN
- China
- Prior art keywords
- detection
- detection areas
- areas
- merging
- detection area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 340
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000003860 storage Methods 0.000 title claims abstract description 19
- 238000004364 calculation method Methods 0.000 claims description 26
- 238000009826 distribution Methods 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 9
- 238000005516 engineering process Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 8
- 238000012015 optical character recognition Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24143—Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例涉及人工智能,提供了一种检测区域合并方法、文字识别方法、系统、电子设备及存储介质,首先获取目标图像中的多个检测区域的倾斜角度,其次根据倾斜角度的相近程度对多个检测区域进行分类,然后检测每一个类别中的各个检测区域之间的重叠率,相较于传统计算重叠的方法,本方法首先将倾斜角度相近的若干检测区域划分成一类,然后提出了利用各个检测区域之间的重叠率来判断是否发生重叠,这样能够降低计算量,提高重叠判断的效率和质量。最后对重叠率符合设定条件的检测区域进行合并,能够对产生重叠的检测区域进行合并,有效降低因检测框重叠对整体性能带来的影响,本方法使用简单,通用性强,可以应对各种方向分布的文字区域。
Description
技术领域
本申请实施例涉及人工智能技术领域,尤其涉及一种检测区域合并方法、文字识别方法、系统、电子设备及存储介质。
背景技术
在人工智能技术日新月异的今天,各类深度模型在过去无法想象的领域取得了惊人的突破,已然投入到工业应用中,为人们的生产和生活提供了各式各样的便利。以OCR技术为例,图像信息经过目标检测网络得到相应的文字区域,再由文字识别网络将各个区域的文字提取出来,搭配后续的文字处理,语义理解等功能,计算机代替人眼实现了文字阅读这一过程,在提高生产效率的同时,也降低了人力资源的消耗。
作为OCR技术中极为重要的环节之一,文字检测的可靠性直接影响着后续环节的准确率。但在一些文字排布较为密集的场景下,受制于检测模型的实现机制,OCR技术首先会对图像中的文字区域的识别出对应的检测区域,然后对通过检测框的形式标识出每一检测区域,但是对于文字检测的输出结果可能存在部分检测框之间有所重叠的情况,导致最终的识别结果出现重复的文字。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本申请实施例提供了一种检测区域合并方法、文字识别方法、系统、电子设备及存储介质,能够对产生重叠的检测区域进行合并,从而能有效降低因检测框重叠对整体性能带来的影响。
第一方面,本申请实施例提供一种检测区域合并方法,所述方法包括:
获取目标图像中的多个检测区域对应的倾斜角度,其中所述倾斜角度是指所述检测区域与水平或竖直方向之间的倾斜角度;
根据所述倾斜角度的相近程度对所述多个所述检测区域进行分类;
检测每一个类别中的各个所述检测区域之间的重叠率;
将每一个类别中的所述重叠率符合设定条件的所述检测区域进行合并。
在一可选的实现方式中,在所述检测每一个类别中的各个所述检测区域之间的重叠率之前,所述方法还包括:
根据每一个类别中的各个所述检测区域对应的所述倾斜角度,计算平均倾斜角度;
根据每一个类别的所述平均倾斜角度,对该类别中的各个所述检测区域进行旋转。
在一可选的实现方式中,所述检测每一个类别中的各个所述检测区域之间的重叠率,包括:
计算转动所述平均倾斜角度之后的各个所述检测区域对应的边界矩形的顶点坐标;
根据所述顶点坐标计算各个所述检测区域在x轴和y轴上的重叠率,其中所述x轴和所述y轴的原点是所述目标图像的左上顶点。
在一可选的实现方式中,所述重叠率的计算公式包括:
其中,w1表示第一个所述检测区域对应的边界矩形在x轴方向上的边长,w2表示第二个所述检测区域对应的边界矩形在x轴方向上的边长,x1表示第一个所述检测区域对应的边界矩形的左上顶点x坐标值,x2表示第二个所述检测区域对应的边界矩形的右下顶点x坐标值,overlapx表示第一个所述检测区域与第二个所述检测区域在x轴方向上的重叠率;h1表示第一个所述检测区域对应的边界矩形在y轴方向上的边长,h2表示第二个所述检测区域对应的边界矩形在y轴方向上的边长,y1表示第一个所述检测区域对应的边界矩形的左上顶点y坐标值,y2表示第二个所述检测区域对应的边界矩形的右下顶点y坐标值,overlapy表示第一个所述检测区域与第二个所述检测区域在y轴方向上的重叠率;所述第一个所述检测区域对应的边界矩形左上顶点x坐标比所述第二个所述检测区域对应的边界矩形左上顶点x坐标大,所述第一个所述检测区域对应的边界矩形左上顶点y坐标比所述第二个所述检测区域对应的边界矩形左上顶点y坐标大。
在一可选的实现方式中,所述将每一个类别中的所述重叠率符合设定条件的所述检测区域进行合并,包括如下之一:
当每两个所述检测区域在x轴方向上的重叠率大于0且在y轴方向上的重叠率大于第一阈值,将所述每两个所述检测区域进行水平合并;
当每两个所述检测区域在y轴方向上的重叠率大于0且在x轴方向上的重叠率大于第二阈值,将所述每两个所述检测区域进行竖直合并。
在一可选的实现方式中,所述根据所述倾斜角度的相近程度对所述多个所述检测区域进行分类包括:
划分多个阈值段;
将所述倾斜角度属于同一所述阈值段内的所述检测区域划分成一类。
在一可选的实现方式中,所述方法还包括:
获取合并后产生的新的检测区域,计算所述新的检测区域对应的边界矩形的顶点坐标。
第二方面,本申请实施例提供一种检测区域合并系统,包括:
倾斜角度计算单元,用于获取目标图像中的多个检测区域对应的倾斜角度,其中所述倾斜角度是指所述检测区域与水平或竖直方向之间的倾斜角度;
检测区域分类单元,用于根据所述倾斜角度的相近程度对所述多个所述检测区域进行分类;
重叠率计算单元,用于检测每一个类别中的各个所述检测区域之间的重叠率;
检测区域合并单元,用于将每一个类别中的所述重叠率符合设定条件的所述检测区域进行合并。
第三方面,本申请实施例提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现:如上述第一方面的检测区域合并方法。
第四方面,本申请实施例提供一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令用于执行:如上述第一方面的检测区域合并方法。
本申请实施例第一方面提供的检测区域合并方法首先获取目标图像中的多个检测区域与水平或竖直方向之间的倾斜角度,其次根据倾斜角度的相近程度对多个检测区域进行分类,然后检测每一个类别中的各个检测区域之间的重叠率,最后将每一个类别中的重叠率符合设定条件的检测区域进行合并。相较于对整个目标图像中的所有检测区域进行重叠的判断,本方法首先使倾斜角度相近的检测区域划分成一类,然后对每一类中的各个检测区域进行是否重叠的判断,能够降低计算量,提高重叠判断的效率。而且相较于传统计算重叠的方法,本方法提出了利用各个检测区域之间的重叠率来判断是否发生重叠,能够,能够降低计算量,提高重叠判断的效率和质量。本方法最后对重叠率符合设定条件的检测区域进行合并,能够对产生重叠的检测区域进行合并,有效降低因检测框重叠对整体性能带来的影响,本方法使用简单,通用性强,可以应对各种方向分布的文字区域,计算量小,运行速度快,能够满足实时性需求。
可以理解的是,上述第二方面至第四方面与相关技术相比存在的有益效果与上述第一方面与相关技术相比存在的有益效果相同,可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的执行一种检测区域合并方法的系统架构示意图;
图2是本申请一个实施例提供的一种检测区域合并方法的流程示意图;
图3是本申请一个实施例提供的检测区域对应的边界矩形示意图;
图4是本申请另一个实施例提供的检测区域对应的边界矩形示意图;
图5是本申请一个实施例提供的边界矩形之间重叠的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请实施例。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请实施例的描述。
需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
还应当理解,在本申请实施例说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请实施例的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial-intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请实施例主要涉及人工智能中的计算机视觉技术。
在人工智能技术日新月异的今天,各类深度模型在过去无法想象的领域取得了惊人的突破,已然投入到工业应用中,为人们的生产和生活提供了各式各样的便利。以OCR(optical character recognition光学字符识别)技术为例,图像信息经过目标检测网络得到相应的文字区域,再由文字识别网络将各个区域的文字提取出来,搭配后续的文字处理,语义理解等功能,计算机代替人眼实现了文字阅读这一过程,在提高生产效率的同时,也降低了人力资源的消耗。作为OCR技术中极为重要的环节之一,文字检测的可靠性直接影响着后续环节的准确率。但在一些文字排布较为密集的场景下,受制于检测模型的实现机制,OCR技术首先会对图像中的文字区域的识别出对应的检测区域,然后对通过检测框的形式标识出每一检测区域,但是对于文字检测的输出结果可能存在部分检测框之间有所重叠的情况,导致最终的识别结果出现重复的文字。
为了解决上述技术缺陷,本方案首先获取目标图像中的多个检测区域与水平或竖直方向之间的倾斜角度,其次根据倾斜角度的相近程度对多个检测区域进行分类,然后检测每一个类别中的各个检测区域之间的重叠率,最后将每一个类别中的重叠率符合设定条件的检测区域进行合并。相较于对整个目标图像中的所有检测区域进行重叠的判断,本方案首先使倾斜角度相近的检测区域划分成一类,然后对每一类中的各个检测区域进行是否重叠的判断,能够降低计算量,提高重叠判断的效率。而且相较于传统计算重叠的方案,本方案提出了利用各个检测区域之间的重叠率来判断是否发生重叠,能够,能够降低计算量,提高重叠判断的效率和质量。本方案最后对重叠率符合设定条件的检测区域进行合并,能够有效地降低因检测框重叠对整体性能带来的影响,本方案使用简单,通用性强,可以应对各种方向分布的文字区域,计算量小,运行速度快,能够满足实时性需求。
本申请一个实施例提供的检测区域合并方法可以在电子设备中执行。终端/设备可以为移动电子设备,也可以为非移动电子设备。移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机、上网本、个人数字助理等;非移动电子设备可以为个人计算机、电视机、柜员机或者自助机等;本发明实施方案不作具体限定。
电子设备可以包括处理器,外部存储器接口,内部存储器,通用串行总线(universal serial bus,USB)接口,充电管理模块,电源管理模块,电池,天线,移动通信模块,无线通信模块,音频模块,扬声器,受话器,麦克风,耳机接口,传感器模块,按键,马达,指示器,摄像头,显示屏,以及用户标识模块(Subscriber Identification Module,SIM)卡接口等。
下面结合附图,对本申请实施例作进一步阐述。
参照图1是本申请一个实施例提供的用于执行一种检测区域合并方法的系统架构示意图,在图1的示例中,该系统架构主要包括但不限于相互电连接的倾斜角度计算单元100、检测区域分类单元200、重叠率计算单元300以及检测区域合并单元400。其中:
倾斜角度计算单元100用于获取目标图像中的多个检测区域与水平或竖直方向之间的倾斜角度。
检测区域分类单元200用于根据倾斜角度的相近程度对多个检测区域进行分类。
重叠率计算单元300用于检测每一个类别中的各个检测区域之间的重叠率。
检测区域合并单元400用于将每一个类别中的重叠率符合设定条件的检测区域进行合并。
本申请实施例描述的系统架构以及应用场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域技术人员可知,随着系统架构的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本领域技术人员可以理解的是,图1中示出的系统架构并不构成对本申请实施例的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
在图1所示的系统架构中,各个单元可以分别调用其储存的程序,以执行检测区域合并方法。
基于上述系统架构,提出本申请实施例的检测区域合并方法的各个实施例。
参照图2,本申请的一个实施例,提供了一种检测区域合并方法,方法包括以下步骤:
步骤S100、获取目标图像中的多个检测区域对应的倾斜角度,其中倾斜角度是指检测区域与水平或竖直方向之间的倾斜角度。
步骤S200、根据倾斜角度的相近程度对多个检测区域进行分类。
步骤S300、检测每一个类别中的各个检测区域之间的重叠率。
步骤S400、将每一个类别中的重叠率符合设定条件的检测区域进行合并。
在步骤S100中,系统首先对目标图像中的文字区域进行识别,将得到多个检测区域(系统将使用检测区域表示图像中的文字区域),同时系统也将得到目标图像的尺寸信息,该尺寸信息是用于后续的计算过程。在本实施例中,系统在得到尺寸信息之后,将以目标图像中的左上顶点(需要注意的是,本文实施例以左上顶点为例,在实际情况不仅限于左上顶点)作为原点,建立二维坐标系,然后系统就能计算出检测区域与水平或者竖直方向之间的倾斜角度,需要注意的是,在实际情况下,以水平或者竖直方向中的一个方向为准进行统一计算,在后续实施例的介绍中,均以水平方向为例进行介绍。
在一些实施例中,步骤S100具体可以如下步骤进行计算:
步骤S110、首先获取目标图像中的多个检测区域。
步骤S120、然后为每一个检测区域计算其对应的边界矩形。
在本实施例中,边界矩形(即能够将检测区域完整包含的面积最小的矩形)包括旋转边界矩形(即能够将目标区域完整包含的面积最小的旋转矩形,旋转边界矩形与x轴之间存在的倾斜角度大于0度)和直边界矩形(直边界矩形与旋转边界矩形相似,只是倾斜角度为0)。这是因为图像中倾斜设置的文字区域,也有水平或竖直设置的文字区域,因此系统识别出倾斜设置的检测区域,也有水平或竖直设置的检测区域。因此系统会为倾斜设置的检测区域设置对应的旋转边界矩形,同时为水平或竖直设置的检测区域设置对应的直边界矩形。
步骤S130、最后判断每一个检测区域对应的边界矩形与x轴之间的倾斜角度。如图3所示,在图3中,包括两个水平或竖直设置的检测区域对应直边界矩形1和2,包括三个倾斜设置的检测区域对应旋转边界矩形3、4、5,其中旋转边界矩形3和4对应的检测区域之间发生重叠。
在一些实施例中,步骤S200中的根据倾斜角度对检测区域进行分类是通过设置阈值的方式进行分类。例如:假设以每5度作为一段分类范围,那么倾斜角度为31度至35度的检测区域将被划分成一类,依次类推,这里不再穷举,本实施例将倾斜角度相近的若干个检测区域划分成一类,但需要注意的是,可能存在一类中的检测区域少于两个的情况,那么这种情况下,无需再计算其类别中是否出现重叠的现象,可暂时忽略。还需要注意的是,原本就为竖直或水平设置的检测区域,因为倾斜角度为0度,因此将被划分成一类。以图3为例,假设旋转边界矩形3至5的与x轴之间的倾斜角度分别31度、32度和33度,那么旋转边界矩形3至5对应的三个检测区域就被分为一类,直边界矩形1、2与x轴之间的倾斜角度为0度,那么直边界矩形1和2对应的两个检测区域就被分为一类。
在一些实施例中,在执行步骤S300之前,还包括以下步骤:
步骤S301、根据每一个类别中的各个检测区域对应的倾斜角度,计算平均倾斜角度。
步骤S302、根据每一个类别的平均倾斜角度,对该类别中的各个检测区域进行转动。
步骤S301至S302的目的是为了将倾斜设置的检测区域旋转成水平设置的检测区域,从而便于后续重叠率的计算,减少计算量,如果是直接将倾斜设置的检测区域进行后续重叠率的计算,由于每一个检测区域的倾斜角度会有不同,那么计算量会比较大。在步骤S301中,以图3为例,设旋转边界矩形3的倾斜角度31度,旋转边界矩形4的倾斜角度32度,旋转边界矩形5的倾斜角度33度,那么平均倾斜角度为32度,同样的,步骤S302中对上述的三个检测区域按照平均倾斜角度为32度进行旋转,旋转之后的上述的三个检测区域与水平方向之间的倾斜角度等于0度或者接近于0度。需要注意的是,相较于将每一个倾斜设置的检测区域按照其对应的倾斜角度进行旋转的方式,本方法利用到了平均倾斜角度这一特征,将同一类中的各个检测区域按照平均倾斜角度进行旋转,只要旋转之后的检测区域的倾斜角度能够接近于0度即可,这样就能够降低大量的运算过程,提高效率。
在一些实施例中,步骤S300具体包括如下步骤:
步骤S310、计算转动平均倾斜角度之后的各个检测区域对应的边界矩形的顶点坐标。
步骤S320、根据顶点坐标计算各个检测区域在x轴和y轴上的重叠率。
在本实施例中,由于上述步骤S302已经将每一个类别中的各个检测区域按照其对应的平均倾斜角度进行了旋转,旋转之后的各个检测区域的倾斜角度接近于0,此时在步骤S310中,需要计算旋转之后的倾斜角度对应的直边界矩形的顶点坐标,然后根据直边界矩形的顶点坐标计算各个检测区域在x轴和y轴上的重叠率。
基于上述实施例,本方法所使用到的重叠率的计算公式如下(需要注意的是,公式以两个检测区域之间进行重叠率的计算为例进行介绍):
重叠率的计算可参考图5,首先在上述第一个公式中,overlapx表示第一个检测区域与第二个检测区域在x轴方向上的重叠率,w1表示第一个检测区域对应的直边界矩形在x轴方向上的边长,w2表示第二个检测区域对应的直边界矩形在x轴方向上的边长。先比较第一个检测区域和第二个检测区域对应的直边界矩形的左上顶点x坐标值的大小,较小的一方,取其直边界矩形右下顶点的x坐标值记为x2,较大的一方,取其直边界矩形左上顶点的x坐标值记为x1。max()表示求最大值函数。
然后在上述的第二个公式中,overlapy表示第一个检测区域与第二个检测区域在y轴方向上的重叠率,h1表示第一个检测区域对应的直边界矩形在y轴方向上的边长,h2表示第二个检测区域对应的直边界矩形在y轴方向上的边长。先比较第一个检测区域和第二个检测区域对应的直边界矩形的左上顶点y坐标值的大小,较小的一方,取其直边界矩形右下顶点的y坐标值记为y2,较大的一方,取其直边界矩形左上顶点的y坐标值记为y1。max()表示求最大值函数。
在一些实施例中,步骤S400将每一个类别中的重叠率符合设定条件的检测区域进行合并,具体包括如下步骤:
步骤S410、当每两个检测区域在x轴方向上的重叠率大于0且在y轴方向上的重叠率大于第一阈值,将每两个检测区域进行水平合并;当每两个检测区域在y轴方向上的重叠率大于0且在x轴方向上的重叠率大于第二阈值,将每两个检测区域进行竖直合并。图3中的五个检测区域合并两个发生重叠的检测区域之后,得到图4中的四个检测区域,其中检测区域对应的旋转边界矩形3和4合并之后得到旋转边界矩形6。
需要注意的是,本实施例中的第一阈值与第二阈值可以根据实际情况进行设定,这里不作任何限制。还需要注意的是,这里对检测区域进行合并是指的对旋转之前的检测区域进行合并,如上述步骤所述,进行旋转的目的仅是为了计算重叠率,在计算出了重叠率之后,就可以对没进行旋转步骤之前的检测区域进行合并,本实施例提供的合并规则具备计算量小,使用简单,通用性强的优势。
在一些实施例中,本方法还包括步骤:
步骤S101、获取水平方向分布和竖直方向分布的检测区域。
步骤S102、将水平方向分布和竖直方向分布的检测区域对应边界矩形的长宽比小于阈值范围的检测区域划分为第一分布类别,将水平方向分布和竖直方向分布的检测区域对应边界矩形的长宽比大于阈值范围的检测区域划分为第二分布类别,将水平方向分布和竖直方向分布的检测区域对应边界矩形的长宽比处于阈值范围内的检测区域划分为第三分布类别。
步骤S103、对第一分布类别中的各个检测区域存在重叠的检测区域进行竖直合并,对第二分布类别中的各个检测区域存在重叠的检测区域进行水平合并,对第三分布类别中的各个检测区域存在重叠的检测区域进行竖直合并或水平合并。
在本实施例中,同一倾斜角度类别的检测区域中,也会存在原本就是水平和竖直两种分布方式的检测区域,具体表现在直边界矩形的长宽比是否大于或小于一定阈值。在本实施例中,阈值选为1.5和1.5的倒数0.67,即长宽比大于1.5的视为水平分布;长宽比小于0.67的视为竖直分布,阈值范围为0.67至1.5。直边界矩形的长宽比小于0.67的检测区域进行竖直合并,直边界矩形的长宽比大于1.5的检测区域进行水平合并,在0.67和1.5之间的,既可能是水平分布,也可能是竖直分布,会先后参与水平合并和竖直合并(若在水平合并中与其他检测区域进行了合并,则不会再参与后续的竖直合并)。
在一些实施例中,本方法还包括步骤:
步骤S500、获取合并后产生的新的检测区域,计算新的检测区域对应的边界矩形的顶点坐标。
在本实施例中,对于后续系统的文字输出流程来说,还需要获取在合并之后的所有检测区域的边界矩形的顶点坐标,才能得到最终的文字输出。由于上述步骤S400已经将符合重叠条件的所有检测区域进行了合并,形成了一个新的检测区域,例如:一个类别中有五个检测区域,在经过旋转之后并且经过重叠率的计算之后,其中有两个检测区域产生了重叠,那么将没有进行旋转之前的五个检测区域中的两个已经产生重叠的检测区域进行合并(两个已经产生重叠的检测区域进行合并之后会得到一个新的检测区域),得到了四个检测区域,计算这四个检测区域对应的边界矩形(由于是旋转之前的情况,所以这里的边界矩形有可能为直边界矩形,也有可能是旋转边界矩形),在得到边界矩形之后,得到每一个边界矩形对应的四个顶点坐标即可。如图3和图4所示,最后得到旋转边界矩形5和6的四个顶点坐标和直边界矩形1和2的四个顶点坐标。系统在收到所有类别中的每一个边界矩形对应的四个顶点坐标之后,就可以进一步处理,直至输出最终的文字,由于这里的步骤与本发明的核心内容无关,由于本部分属于本领域技术人员的公知常识,此处不再赘述。
本方法首先获取目标图像中的多个检测区域的倾斜角度,其次根据倾斜角度的相近程度对多个检测区域进行分类,然后检测每一个类别中的各个检测区域之间的重叠率,相较于传统计算重叠的方法,本方法首先将倾斜角度相近的若干检测区域划分成一类,然后提出了利用各个检测区域之间的重叠率来判断是否发生重叠,这样能够降低计算量,提高重叠判断的效率和质量。最后对重叠率符合设定条件的检测区域进行合并,能够对产生重叠的检测区域进行合并,有效降低因检测框重叠对整体性能带来的影响,本方法使用简单,通用性强,可以应对各种方向分布的文字区域。
本发明的一个实施例,提供了一种检测区域合并方法,包括以下步骤:
第一步、首先以目标图像的左上顶点作为原点,建立x轴和y轴的坐标系。
第二步、检测出目标图像中的各个检测区域,由于在实际应用中,因为竖直和水平分布的文字占据多数,所以图像中的竖直和水平分布的检测区域占据多数,但也有部分文字倾斜(即与竖直和水平方向之间存在旋转角度)分布的情况,也存在较多倾斜分布的检测区域。
第三步、计算每一个检测区域对应的边界矩形(即能够将检测区域完整包含的面积最小的矩形)。对于目标图像中的各个发生倾斜的检测区域,计算其相应的旋转边界矩形(即能够将检测区域完整包含的面积最小的旋转矩形),并根据对应的旋转边界矩形可以计算出各检测区域的旋转角度。对于目标图像中的各个水平和竖直分布的检测区域,计算其相应的直边界矩形(直边界矩形与旋转边界矩形相似,只是旋转角度为0)。
第四步、根据旋转角度对每一个检测区域进行分类。根据角度对检测区域进行分类是通过设置阈值的方式进行分类。例如图3所示:旋转边界矩形3的旋转角度为31度,旋转边界矩形4的旋转角度为32度,旋转边界矩形5的旋转角度为33度,矩形3至5对应的检测区域被视为一类,水平和竖直分布的检测区域对应的直边界矩形1和2视为同一类。
第五步、遍历各个类别,其中检测区域不足两个的类别因无合并可能,记为忽略状态,不再参与合并操作。对于接近水平/竖直分布的检测区域类别,计算其相应的直边界矩形的左上与右下顶点坐标。对于其他倾斜分布的检测区域的类别,计算各类别相应的旋转边界矩形的平均倾斜角度,记为θ,对倾斜分布的检测区域的类别中各检测区域四个顶点旋转θ,形成一个新的区域,计算新区域的直边界矩形,得到矩形框的左上与右下顶点坐标。
本步骤对倾斜设置的检测区域进行旋转并设置对应的直边界矩形的目的是为了后续进行重叠率的计算过程,不作其它用途。
第六步、经过上述步骤,已经得到了m个类别(m>0)和每个类别中的若干个检测区域。此时对其中每一个类别中的n个检测区域(n>1)进行重叠检测,检测方式为,对于任意两个直边界矩形,计算两者在x/y方向的重叠率,本实施例以x轴方向重叠率为例,首先比较两个矩形框左上顶点x轴坐标值的大小,较小的一方,取其矩形框右下顶点的x轴坐标值记为x2,较大的一方,取其矩形框左上顶点的x轴坐标值记为x1,重叠率计算公式如下:
其中,w1表示第一个检测区域对应的边界矩形在x轴方向上的边长;w2表示第二个检测区域对应的边界矩形在y轴方向上的边长。计算x轴方向重叠率同理,y1表示第一个检测区域对应的边界矩形的左上顶点y坐标值,y2表示第二个检测区域对应的边界矩形的右下顶点y坐标值,h1表示第一个检测区域对应的边界矩形在y轴方向上的边长,h2表示第二个检测区域对应的边界矩形在y轴方向上的边长。
第七步、重叠关系的判断方法如下:若为水平合并,则需x方向重叠率大于0,y方向重叠率大于指定阈值。反之若为竖直合并,则需y方向重叠率大于0,x方向重叠率大于指定阈值。满足条件的任意两个矩形框,可以视为它们之间存在重叠关系。
需要注意的是,同一倾斜角度类别的检测区域中,也会存在原本就是水平和竖直两种分布方式的检测区域,具体表现在直边界矩形的长宽比是否大于或小于一定阈值。在本实施例中,阈值选为1.5和1.5的倒数0.67,即长宽比大于1.5的视为水平分布;长宽比小于0.67的视为竖直分布;长宽比在0.67和1.5之间的,既可能是水平分布,也可能是竖直分布,会先后参与水平合并和竖直合并(若在水平合并中与其他检测区域进行了合并,则不会再参与后续的竖直合并)。
第八步、合并。上述已经得到了各个检测区域之间的重叠关系。重叠关系具有可传递性,如图5所示,直边界矩形1与直边界矩形2重叠,直边界矩形2与直边界矩形3重叠,那么直边界矩形1与直边界矩形3,因此直边界矩形1至3对应的三个检测区域相互重叠。对于存在重叠关系的若干个原始检测区域(需要注意的是,这里所述的原始检测是指的第二步中检测出的各个检测区域),因为第五步对原本倾斜设置的检测区域进行了旋转,从而实现了重叠率的计算和两个检测区域是否出现重叠的判断,所以在进行合并时,是需要利用到旋转之前的检测区域。对于存在重叠关系的若干个原始检测区域,获取其旋转边界矩形的顶点或者直边界矩形的顶点(因为原本为竖直或水平设置的检测区域也有可能与其它的检测区域之间产生重叠);对于原本是倾斜设置的检测区域,获取其旋转边界矩形的顶点坐标;对于不存在重叠关系的检测区域,或记为忽略状态的检测区域(即一个类别中的检测区域不足两个的情况),需获取其旋转边界矩形的顶点或者直边界矩形的顶点。
在对于后续系统的文字输出流程来说,还需要获取在合并之后的所有检测区域的边界矩形的顶点坐标,才能得到最终的文字输出。本申请实施例提供的方法首先获取目标图像中的多个检测区域的倾斜角度,其次根据倾斜角度的相近程度对多个检测区域进行分类,然后检测每一个类别中的各个检测区域之间的重叠率,相较于传统计算重叠的方法,本方法首先将倾斜角度相近的若干检测区域划分成一类,然后提出了利用各个检测区域之间的重叠率来判断是否发生重叠,这样能够降低计算量,提高重叠判断的效率和质量。最后对重叠率符合设定条件的检测区域进行合并,能够对产生重叠的检测区域进行合并,有效降低因检测框重叠对整体性能带来的影响,本方法使用简单,通用性强,可以应对各种方向分布的文字区域。
本发明的一个实施例,提供了一种电子设备,该设备包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。
处理器和存储器可以通过总线或者其他方式连接。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
需要说明的是,本实施例中的电子设备能够构成图1所示实施例中的系统架构的一部分,这些实施例均属于相同的发明构思,因此这些实施例具有相同的实现原理以及技术效果,此处不再详述。
实现上述实施例的检测区域合并方法所需的非暂态软件程序以及指令存储在存储器中,当被处理器执行时,执行上述实施例方法,例如,执行以上描述的图2中的方法步骤S100至S400。
以上所描述的终端实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
此外,本申请实施例的一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个处理器或控制器执行,例如,被上述车辆连接器实施例中的一个处理器执行,可使得上述处理器执行上述实施例中的基于检测区域合并方法,例如,执行以上描述的图2中的方法步骤S100至S400。。又如,被上述设备连接器实施例中的一个处理器执行,可使得上述处理器执行上述实施例中的检测区域合并方法,例如,执行以上描述的图2中的方法步骤S100至S400。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本申请实施例的较佳实施进行了具体说明,但本申请实施例并不局限于上述实施方式,熟悉本领域的技术人员在不违背本申请实施例精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请实施例权利要求所限定的范围内。
Claims (10)
1.一种检测区域合并方法,其特征在于,所述方法包括:
获取目标图像中的多个检测区域对应的倾斜角度,其中所述倾斜角度是指所述检测区域与水平或竖直方向之间的倾斜角度;
根据所述倾斜角度的相近程度对所述多个所述检测区域进行分类;
检测每一个类别中的各个所述检测区域之间的重叠率;
将每一个类别中的所述重叠率符合设定条件的所述检测区域进行合并。
2.根据权利要求1所述的检测区域合并方法,其特征在于,在所述检测每一个类别中的各个所述检测区域之间的重叠率之前,所述方法还包括:
根据每一个类别中的各个所述检测区域对应的所述倾斜角度,计算平均倾斜角度;
根据每一个类别的所述平均倾斜角度,对该类别中的各个所述检测区域进行旋转。
3.根据权利要求1所述的检测区域合并方法,其特征在于,所述检测每一个类别中的各个所述检测区域之间的重叠率,包括:
计算转动所述平均倾斜角度之后的各个所述检测区域对应的边界矩形的顶点坐标;
根据所述顶点坐标计算各个所述检测区域在水平方向x和垂直方向y上的重叠率。
4.根据权利要求3所述的检测区域合并方法,其特征在于,所述重叠率的计算公式包括:
其中,w1表示第一个所述检测区域对应的边界矩形在水平方向x上的边长,w2表示第二个所述检测区域对应的边界矩形在水平方向x上的边长,x1表示第一个所述检测区域对应的边界矩形的左上顶点x坐标值,x2表示第二个所述检测区域对应的边界矩形的右下顶点x坐标值,overlapx表示第一个所述检测区域与第二个所述检测区域在水平方向x上的重叠率;h1表示第一个所述检测区域对应的边界矩形在竖直方向y上的边长,h2表示第二个所述检测区域对应的边界矩形在竖直方向y上的边长,y1表示第一个所述检测区域对应的边界矩形的左上顶点y坐标值,y2表示第二个所述检测区域对应的边界矩形的右下顶点y坐标值,overlapy表示第一个所述检测区域与第二个所述检测区域在竖直方向y上的重叠率;所述第一个所述检测区域对应的边界矩形左上顶点x坐标比所述第二个所述检测区域对应的边界矩形左上顶点x坐标大,所述第一个所述检测区域对应的边界矩形左上顶点y坐标比所述第二个所述检测区域对应的边界矩形左上顶点y坐标大。
5.根据权利要求3所述的检测区域合并方法,其特征在于,所述将每一个类别中的所述重叠率符合设定条件的所述检测区域进行合并,包括如下之一:
当每两个所述检测区域在水平方向x上的重叠率大于0且在竖直方向y上的重叠率大于第一阈值,将所述每两个所述检测区域进行水平合并;
当每两个所述检测区域在竖直方向y上的重叠率大于0且在水平方向x上的重叠率大于第二阈值,将所述每两个所述检测区域进行竖直合并。
6.根据权利要求1所述的检测区域合并方法,其特征在于,所述方法还包括:
获取水平方向分布和竖直方向分布的所述检测区域;
将所述水平方向分布和竖直方向分布的所述检测区域对应边界矩形的长宽比小于阈值范围的所述检测区域划分为第一分布类别,将所述水平方向分布和竖直方向分布的所述检测区域对应边界矩形的长宽比大于阈值范围的所述检测区域划分为第二分布类别,将所述水平方向分布和竖直方向分布的所述检测区域对应边界矩形的长宽比处于阈值范围内的所述检测区域划分为第三分布类别;
对所述第一分布类别中的各个所述检测区域存在重叠的检测区域进行竖直合并,对所述第二分布类别中的各个所述检测区域存在重叠的检测区域进行水平合并,对所述第三分布类别中的各个所述检测区域存在重叠的检测区域进行竖直合并或水平合并。
7.一种文字识别方法,其特征在于,应用有权利要求1至6任一项所述的检测区域合并方法,所述方法包括:
获取合并后产生的新的检测区域对应的边界矩形的顶点坐标以及未合并的所述检测区域对应的边界矩形的顶点坐标;
基于所述顶点坐标,对所述新的检测区域和所述检测区域内的文字进行识别。
8.一种检测区域合并系统,其特征在于,包括:
倾斜角度计算单元,用于获取目标图像中的多个检测区域对应的倾斜角度,其中所述倾斜角度是指所述检测区域与水平或竖直方向之间的倾斜角度;
检测区域分类单元,用于根据所述倾斜角度的相近程度对所述多个所述检测区域进行分类;
重叠率计算单元,用于检测每一个类别中的各个所述检测区域之间的重叠率;
检测区域合并单元,用于将每一个类别中的所述重叠率符合设定条件的所述检测区域进行合并。
9.一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现:如权利要求1至6任一项所述的检测区域合并方法或权利要求7所述的文字识别方法。
10.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令用于执行:如权利要求1至6任一项所述的检测区域合并方法或权利要求7所述的文字识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110961823.0A CN113673516B (zh) | 2021-08-20 | 2021-08-20 | 检测区域合并方法、文字识别方法、系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110961823.0A CN113673516B (zh) | 2021-08-20 | 2021-08-20 | 检测区域合并方法、文字识别方法、系统、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113673516A true CN113673516A (zh) | 2021-11-19 |
CN113673516B CN113673516B (zh) | 2024-06-07 |
Family
ID=78544584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110961823.0A Active CN113673516B (zh) | 2021-08-20 | 2021-08-20 | 检测区域合并方法、文字识别方法、系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113673516B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020133442A1 (zh) * | 2018-12-29 | 2020-07-02 | 华为技术有限公司 | 一种识别文本的方法及终端设备 |
CN111666941A (zh) * | 2020-06-12 | 2020-09-15 | 北京达佳互联信息技术有限公司 | 一种文本检测方法、装置及电子设备 |
-
2021
- 2021-08-20 CN CN202110961823.0A patent/CN113673516B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020133442A1 (zh) * | 2018-12-29 | 2020-07-02 | 华为技术有限公司 | 一种识别文本的方法及终端设备 |
CN111666941A (zh) * | 2020-06-12 | 2020-09-15 | 北京达佳互联信息技术有限公司 | 一种文本检测方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113673516B (zh) | 2024-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11830230B2 (en) | Living body detection method based on facial recognition, and electronic device and storage medium | |
US11062123B2 (en) | Method, terminal, and storage medium for tracking facial critical area | |
CN110427905B (zh) | 行人跟踪方法、装置以及终端 | |
CN108875723B (zh) | 对象检测方法、装置和系统及存储介质 | |
CN106920233B (zh) | 基于图像处理的划痕检测方法、装置及电子设备 | |
CN110619656B (zh) | 基于双目摄像头的人脸检测跟踪方法、装置及电子设备 | |
WO2020082731A1 (zh) | 电子装置、证件识别方法及存储介质 | |
US10235576B2 (en) | Analysis method of lane stripe images, image analysis device, and non-transitory computer readable medium thereof | |
CN106257490A (zh) | 检测行驶车辆信息的方法及系统 | |
EP2916325A1 (en) | Method and device for processing a picture | |
US20210155250A1 (en) | Human-computer interaction method, vehicle-mounted device and readable storage medium | |
CN111046746A (zh) | 一种车牌检测方法及装置 | |
CN114495026A (zh) | 一种激光雷达识别方法、装置、电子设备和存储介质 | |
CN114792416A (zh) | 一种目标检测方法及装置 | |
CN104463238B (zh) | 一种车标识别方法和系统 | |
CN103810488A (zh) | 图像特征提取方法、图像搜索方法、服务器、终端及系统 | |
CN110232381B (zh) | 车牌分割方法、装置、计算机设备及计算机可读存储介质 | |
US20220198224A1 (en) | Face recognition method, terminal device using the same, and computer readable storage medium | |
CN112101139B (zh) | 人形检测方法、装置、设备及存储介质 | |
CN113077524A (zh) | 一种双目鱼眼相机自动标定方法、装置、设备及存储介质 | |
CN113673516B (zh) | 检测区域合并方法、文字识别方法、系统、电子设备及存储介质 | |
CN115147818A (zh) | 玩手机行为识别方法及装置 | |
CN113657311B (zh) | 识别区域排序方法、系统、电子设备及存储介质 | |
CN112101134A (zh) | 物体的检测方法及装置、电子设备和存储介质 | |
CN114092904A (zh) | 车道线检测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |