CN116310303A - 一种识别方法、装置、设备及介质 - Google Patents

一种识别方法、装置、设备及介质 Download PDF

Info

Publication number
CN116310303A
CN116310303A CN202111570198.3A CN202111570198A CN116310303A CN 116310303 A CN116310303 A CN 116310303A CN 202111570198 A CN202111570198 A CN 202111570198A CN 116310303 A CN116310303 A CN 116310303A
Authority
CN
China
Prior art keywords
image
information
target object
feature extraction
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111570198.3A
Other languages
English (en)
Inventor
郑慧
贾千文
邓超
冯俊兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Ltd Research Institute filed Critical China Mobile Communications Group Co Ltd
Priority to CN202111570198.3A priority Critical patent/CN116310303A/zh
Publication of CN116310303A publication Critical patent/CN116310303A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本申请公开了一种识别方法、装置、设备及介质,所述方法包括:获取至少包含目标对象的待识别图像;对所述待识别图像进行目标检测,得到第一图像;其中,所述第一图像包括从所述待识别图像中分割得到的包含所述目标对象的图像;对所述第一图像进行方向检测,得到所述第一图像的方向信息;基于所述方向信息对所述第一图像进行方位校正处理,得到第二图像;对所述第二图像进行识别,得到对所述目标对象的识别结果。

Description

一种识别方法、装置、设备及介质
技术领域
本申请涉及图像识别技术领域,尤其涉及一种识别方法、装置、设备及介质。
背景技术
在实际应用中,对标牌内容的识别,通常是通过人工识别或光学字符识别(Optical Character Recognition,OCR)的方式实现的。然而,人工识别的方式效率低下,OCR方式在标牌位置不确定或采集角度不确定的情况下无法实施。
发明内容
基于以上问题,本申请实施例提供了一种识别方法、装置、设备及介质。
本申请实施例提供的技术方案是这样的:
本申请实施例提供了一种识别方法,所述方法包括:
获取至少包含目标对象的待识别图像;
对所述待识别图像进行目标检测,得到第一图像;其中,所述第一图像包括从所述待识别图像中分割得到的包含所述目标对象的图像;
对所述第一图像进行方向检测,得到所述第一图像的方向信息;
基于所述方向信息对所述第一图像进行方位校正处理,得到第二图像;
对所述第二图像进行识别,得到对所述目标对象的识别结果。
在一种实施方式中,所述基于所述方向信息对所述第一图像进行方位校正处理,得到第二图像,包括:
确定外接所述第一图像边缘的第一图形的第一轮廓信息;其中,所述第一图形包括由多条直线首尾顺次相连组成的封闭图形;
基于所述方向信息,对所述第一轮廓信息中的角点位置信息进行所述方位校正处理,得到所述第二图像。
在一种实施方式中,所述第一图像,包括从所述待识别图像分割得到的包含所述目标对象的二值分割图像;所述对所述待识别图像进行目标检测,得到第一图像,包括:
通过训练完成的目标检测网络中的特征提取模块对所述待识别图像进行目标检测,得到所述二值分割图像;其中,所述特征提取模块包括MobilenetV2;所述特征提取模块包括多个特征提取单元。
在一种实施方式中,所述对所述第一图像进行方向检测,得到第一图像的方向信息,包括:
通过所述训练完成的目标检测网络中的特征融合模块,对所述训练完成的特征提取模块的至少两个特征提取单元输出的特征提取结果以及所述二值分割图像进行特征融合,得到所述第一图像的方向信息。
在一种实施方式中,所述方法还包括:
得到包含标注信息的样本数据;其中,所述样本数据包括包含目标对象的图像数据;所述标注信息,包括所述目标对象在所述图像数据中的位置信息以及包含所述目标对象的图像区域的方向信息;
通过特征提取模块对所述样本数据进行目标检测,得到与所述样本数据对应的二值分割图像;
通过特征融合模块对与所述样本数据对应的二值分割图像、以及所述特征提取模块的至少两个特征提取单元输出的特征提取结果进行特征融合,得到与所述样本数据对应的方向信息;
基于所述标注信息、与所述样本数据对应的二值分割图像、以及与所述样本数据对应的方向信息,对所述特征提取模块以及所述特征融合模块的参数进行调整,得到所述训练完成的目标检测网络。
在一种实施方式中,所述对所述第二图像进行识别,得到对所述目标对象的识别结果,包括:
对所述第二图像进行形变校正,得到形变校正图像;
对所述形变校正图像进行识别,得到所述识别结果。
在一种实施方式中,所述对所述第二图像进行形变校正,得到形变校正图像,包括:
基于所述第二图像的边缘位置信息,确定外接所述边缘位置信息的第二图形的第二轮廓信息;其中,所述第二图形包括由多条直线首尾顺次相连组成的封闭图形;
基于所述边缘位置信息以及所述第二轮廓信息,对所述第二图像进行形变校正,得到所述形变校正图像。
在一种实施方式中,所述基于所述边缘位置信息以及所述第二轮廓信息,对所述第二图像进行形变校正,包括:
获取所述边缘位置信息与所述第二轮廓信息之间的拟合程度信息;
若所述拟合程度信息大于拟合阈值,通过贝塞尔曲线拟合方式,对所述第二图像进行形变校正;
若所述拟合程度信息小于或等于所述拟合阈值,通过透射变换方式,对所述第二图像进行形变校正。
本申请实施例还提供了一种识别装置,所述装置包括:
获取模块,用于获取至少包含目标对象的待识别图像;
检测模块,用于对所述待识别图像进行目标检测,得到第一图像;对所述第一图像进行方向检测,得到所述第一图像的方向信息;其中,所述第一图像包括从所述待识别图像中分割得到的包含所述目标对象的图像;
处理模块,用于基于所述方向信息对所述第一图像进行方位校正处理,得到第二图像;
识别模块,用于对所述第二图像进行识别,得到对所述目标对象的识别结果。
本申请实施例还提供了一种识别设备,所述设备包括处理器和存储器;其中,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,能够实现如前任一所述的识别方法。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被电子设备的处理器执行时,能够实现如前任一所述的识别方法。
由以上可知,本申请实施例提供的识别方法,对至少包含目标对象的待识别图像进行目标检测后,得到从待识别图像中分割的包含目标对象的第一图像,然后对第一图像进行方向检测,得到第一图像的方向信息,再基于方向信息对第一图像进行方位校正处理,得到第二图像,并对第二图像进行识别,得到对目标对象的识别结果。
由此,本申请实施例提供的识别方法,对待识别图像进行目标检测并对待识别图像进行分割得到第一图像,从而不但能够降低背景图像的干扰,还能够降低第一图像中的像素数量,降低后续的方向检测以及识别处理的运算量,还能精确确定目标对象在待识别图像中的位置信息;并且,对第一图像进行方向检测得到方向信息之后,基于方向信息对第一图像进行方位校正处理得到第二图像后,与第一图像比较而言,第二图像的冗余方位信息得以祛除。也就是说,第二图像仅包含有待识别图像中与目标对象关联的图像数据,且携带的冗余方位信息较少,从而能够降低冗余方位信息对第二图像识别的干扰,进一步提高图像识别的效率和精准度。
在目标对象为标牌的情况下,本申请实施例提供的识别方法,能够克服相关技术中由于标牌位置不确定而无法准确识别标牌甚至无法识别标牌的技术问题,从而实现了对标牌自动化的、高精度的、实时的识别,进而提高了标牌验收的自动化和智能化水平。
附图说明
图1为本申请实施例提供的识别方法的流程示意图;
图2为本申请实施例提供的对第一图像进行方位校正得到第二图像的流程示意图;
图3A为本申请实施例提供的第一图像以及第一轮廓信息的结构示意图;
图3B为本申请实施例提供的第二图像的结构示意图;
图4A为本申请实施例提供的目标检测网络的结构示意图;
图4B为本申请实施例提供的第一融合单元的结构示意图;
图5为本申请实施例提供的目标检测网络训练的流程示意图;
图6为本申请实施例提供训练目标检测模型的流程示意图;
图7为本申请实施例提供的对第二图像进行识别的流程示意图;
图8为本申请实施例提供的模型训练模块的功能结构示意图;
图9A为本申请实施例提供的对第二图像进行形变校正的第一流程示意图;
图9B为本申请实施例提供的对第二图像进行形变校正的第二流程示意图;
图10为本申请实施例提供的识别装置的结构示意图;
图11为本申请实施例提供的识别设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在实际应用中,标牌基本为规则的几何形状,比如矩形或顶角为圆弧形状的类矩形,且标牌上通常会设置有文本或图案,用于对所属物品进行说明或标记,比如机房中的设备属性标签、商店中的商品价格标牌等。在标牌设计制作完成之后,通常需要对标牌的内容进行识别或检验,相关技术中,通常通过人工识别确认或OCR方式识别标牌内容,并根据识别结果确定标牌内容是否合规。
比如在机房建设中,设备标牌为最常见的设备标记工具,并且同一类设备通常需要按照既定的格式设计表标牌对设备进行标注,在机房建设完成后的设备验收工作中,设备标牌验收的工作量较大,且主要为人工验收的方式,这样的验收方式效率低且成本高。
并且,在验收标牌是否合规的操作主要靠人工在后台完成,前端工程建设人员提交包含标牌的图像后,后台工作人员还需要确认图像采集时间、地点、标牌摆放方式和内容是否均符合要求,这样的人工处理方式进一步延长了标牌识别验收的时间。
然而,人工识别确认的方式效率低下且成本高,OCR方式虽然能从一定程度上提高标牌识别的效率并降低识别成本,但在标牌位置或拍摄角度不确定的情况下,OCR方式也无法完成对标牌的准确识别和确认。
基于以上问题,本申请实施例提供了一种识别方法、装置、设备及介质。本申请实施例提供的识别方法,对至少包含目标对象的待识别图像进行目标检测,得到从待识别图像中分割的包含目标对象的第一图像,从而能够降低由于目标对象位置以及拍摄角度的不确定性导致的识别失败的概率;对第一图像进行方向检测,得到第一图像的方向信息之后,能够基于方向信息对第一图像进行方位校正处理,得到第二图像,之后再对第二图像进行识别,得到对目标对象的识别结果,如此,在第二图像的方位为水平或垂直等规则方位的情况下,能够减少对第二图像识别时的运算量,从而提高对第二图像识别的效率。
在目标对象为标牌,待识别图像为包含标牌的图像的情况下,本申请实施例提供的识别方法,能够对包含标牌的图像进行精确的分割,从而减少第一图像的像素数量,降低待识别图像中背景像素对目标对象的影响,得到第一图像的方向信息后基于方向信息对第一图像进行方位校正得到的第二图像,具备满足识别条件的方位信息,从而能降低识别的运算量,进一步提高识别的效率和精度,进而实现了对标牌自动化的、高精度的、实时的识别。
需要说明的是,本申请实施例提供的识别方法,可以通过识别设备的处理器实现,上述处理器为特定用途集成电路(Application Specific Integrated Circuit,ASIC)、数字信号处理器(Digital Signal Processor,DSP)、数字信号处理装置(Digital SignalProcessing Device,DSPD)、可编程逻辑装置(Programmable Logic Device,PLD)、现场可编程逻辑门阵列(Field Programmable Gate Array,FPGA)、中央处理器(CentralProcessing Unit,CPU)、控制器、微控制器、微处理器中的至少一种。
示例性的,识别设备,可以是瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统,等等。示例性的,识别设备中可以集成有图像采集装置。
识别设备可以通过程序模块执行指令。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
图1为本申请实施例提供的识别方法的流程示意图,如图1所示,该方法可以包括步骤101至步骤105:
步骤101、获取至少包含目标对象的待识别图像。
在一种实施方式中,待识别图像,可以是识别设备从其它设备或通过网络连接从网络获取的;示例性的,待识别图像还可以存储在识别设备的存储空间中;示例性的,待识别图像,还可以是待识别图像中设置的图像采集装置实时采集的。
在一种实施方式中,目标对象,可以为包含文字和/或图案的标牌;示例性的,待识别图像中包含的标牌的数量,可以为多个;示例性的,标牌,可以包括商品价格标签、商品成分标签、以及设备属性标签中的任一种。
在一种实施方式中,待识别图像,还可以包括包含有目标对象所处环境的图像数据即背景图像数据,比如,在目标对象为商品标签的情况下,待识别图像可以包含设置商品标签的货柜图像数据。
步骤102、对待识别图像进行目标检测,得到第一图像。
其中,第一图像包括从待识别图像中分割得到的包含目标对象的图像。
在一种实施方式中,第一图像,可以是与待识别图像面积相同的图像,在这种情况下,目标对象可以占据了待识别图像的整个图像区域;示例性的,第一图像,可以是面积小于待识别图像的图像,在这种情况下,目标对象所在的图像区域,可以占据待识别图像的部分图像区域。
在一种实施方式中,对待识别图像进行目标检测,得到第一图像,可以是通过以下任一方式实现的:
检测待识别图像中是否包含具备规则几何形状的图像区域,将该图像区域中从待识别图像中分割出来,并将分割得到的图像数据确定为第一图像;示例性的,规则几何形状,可以与标牌的几何形状相同,比如正方形、矩形等。
基于阈值分割方法、或边缘分割方法,对待识别图像进行目标检测以及图像分割,得到第一图像。
步骤103、对第一图像进行方向检测,得到第一图像的方向信息。
在一种实施方式中,第一图像的方向信息,可以通过第一图像的几何中线是否与目标方向一致的形式体现;示例性的,目标方向可以包括水平方向以及垂直方向中的任一方向。
在一种实施方式中,第一图像的方向信息,可以通过第一图像的几何中线与目标方向的夹角的形式体现;示例性的,在目标方向为水平方向的情况下,第一图像的方向信息,可以为与水平方向的夹角为30度。
在一种实施方式中,第一图像的方向信息,可以是通过对角度区间进行编号的形式体现的,比如,将0度至360度平均划分为8个角度区间,每个角度区间分别包含45度;示例性的,第一角度区间为[0,45],第二角度区间为[46,90],其余角度区间依次类推,若第一图像的方向信息为75度,则可以表示第一图像的方向信息为第二角度区间,为了简化表示方法,第一图像的方向信息可以用2表示;示例性的,若第一角度区间用1,第八角度区间用8表示,则第一图像的方向信息的取值范围,可以为[1,8];示例性的,若第一角度区间用0,第八角度区间用7表示,则第一图像的方向信息的取值范围可以为[0,7]。
步骤104、基于方向信息对第一图像进行方位校正处理,得到第二图像。
在一种实施方式中,基于方向信息对第一图像进行方位校正处理,得到第二图像,可以通过以下任一方式实现:
基于方向信息,对第一图像进行旋转,直至第一图像的几何中线与目标方向相同或相反为止,并将旋转后的图像作为第二图像。
基于方向信息,对第一图像进行旋转,直至第一图像的几何中线与目标方向之间的夹角为目标角度为止,并将旋转后的图像作为第二图像;示例性的,目标角度可以为90度。
步骤105、对第二图像进行识别,得到对目标对象的识别结果。
在一种实施方式中,对目标对象的识别结果,可以包含目标对象所携带的文本数据;示例性的,在目标对象为标牌的情况下,对标牌的识别结果可以包括比如价格、成分说明、属性说明、产品编号、以及生产日期中的至少一种数据。
在一种实施方式中,对目标对象的识别结果,可以包含目标对象所携带为图案数据;示例性的,在目标对象为标牌的情况下,对标牌的识别结果可以包括标牌中与商标关联的花纹、图形、图案、以及线条中的至少一种数据。
在一种实施方式中,对目标对象的识别结果,可以包含目标对象是否为指定对象;示例性的,若目标对象为指定对象,则识别结果可以表示目标对象为合规对象;示例性的,若目标对象不为指定对象,则识别结果可以表示目标对象为不合规对象。
在一种实施方式中,对目标对象的识别结果,可以包含目标对象是否为指定类型的对象;示例性的,识别结果可以包括目标对象是否为价格标签。
由以上可知,本申请实施例提供的识别方法,对至少包含目标对象的待识别图像进行目标检测后,得到从待识别图像中分割的包含目标对象的第一图像,然后对第一图像进行方向检测,得到第一图像的方向信息,再基于方向信息对第一图像进行方位校正处理,得到第二图像,然后才对第二图像进行识别,得到对目标对象的识别结果。
由此,本申请实施例提供的识别方法,对待识别图像进行目标检测并对待识别图像进行分割得到第一图像,从而能够降低第一图像中的像素数量,削弱背景图像数据对目标对象的影响,还能够降低后续的方向检测以及识别处理的运算量,还能精确确定目标对象在待识别图像中的位置信息;并且,对第一图像进行方向检测得到方向信息之后,基于方向信息对第一图像进行方位校正处理得到第二图像后,与第一图像比较而言,第二图像的冗余方位信息得以祛除。也就是说,第二图像仅包含有待识别图像中与目标对象关联的图像数据,且携带的冗余方位信息较少,从而能够降低冗余方位信息对第二图像识别的干扰,还能够有效降低识别的运算量,进一步提高图像识别的效率和精准度。在目标对象为标牌的情况下,本申请实施例提供的识别方法,能够克服相关技术中由于标牌位置不确定而无法准确识别标牌甚至无法识别标牌的技术问题,从而实现了对标牌自动化的、高精度的、实时的识别,进而提高了标牌验收的自动化和智能化水平。
基于前述实施例,本申请实施例提供的识别方法中,基于方向信息对第一图像进行方位校正处理,得到第二图像,可以通过图2所示的流程实现。图2为本申请实施例提供的对第一图像进行方位校正得到第二图像的流程示意图,如图2所示,该流程可以包括步骤A1至步骤A2:
步骤A1、确定外接第一图像边缘的第一图形的第一轮廓信息。
其中,第一图形包括由多条直线首尾顺次相连组成的封闭图形。
在一种实施方式中,第一图形,可以为三角形、矩形、以及正方形中的至少一种图形;示例性的,第一图形可以为规则的平面几何形状。
在一种实施方式中,第一图形,可以为包含第一图像所有像素点的图形。
在一种实施方式中,第一轮廓信息,可以包括第一图形的每一条边的像素位置信息。
在一种实施方式中,第一图形可以通过以下方式确定:
获取第一图像的轮廓信息,按照第一图像的延伸方向,确定第一图像的轮廓信息对应的切线,延长各条切线,在各条切线相交时,基于各条切线相交的的角点以及各条切线,确定第一图形;示例性的,各条切线以及各条切线相交的角点可以确定为第一轮廓信息。
图3A为本申请实施例提供的第一图像以及第一轮廓信息的结构示意图。如图3A所示,第一图像可以为图中的格形占据的具备一定宽度且向任一方向延伸的类似于矩形的区域,第一图像的边缘可以为不规则的闭合曲线301;相应的,第一轮廓信息302可以为包含了第一图像所有像素点的矩形,并且,第一轮廓信息302各条边相交分别得到第一角点3021(x0,y0)、第二角点3022(x1,y1)、第三角点3023(x2,y2)、以及第四角点3024(x3,y3)。示例性的,任一方向与水平方向的夹角可以为30度。
步骤A2、基于方向信息,对第一轮廓信息中的角点位置信息进行方位校正处理,得到第二图像。
示例性的,由于第一图像的方向信息可以是任意的,因此第一轮廓信息的方向也可以是任意的,因此可以基于方向信息,从第一轮廓信息的多个角点中确定起始角点,并依次对各个角点进行排序,然后基于方向信息,对排序后的各个角点以及第一轮廓信息中相邻角点之间的边进行旋转,从而实现对第一图像的整体旋转,得到第二图像,如此,就可以得到仅包含目标对象且方位信息单一的图像。
图3B为本申请实施例提供的第二图像的结构示意图。如图3B所示,经过基于方向信息对第一轮廓信息中的角点位置进行方位校正得到的第二图像的方向信息可以为水平方向,即第二图像中不再携带冗余的方位信息。
由以上可知,本申请实施例提供的识别方法中,在得到第一图像的方向信息之后,能够确定外接第一图像边关的第一图形的第一轮廓信息,并基于方向信息对第一轮廓信息的角点位置信息进行方位校正得到第二图像。由于第一图形为由多条直线首尾顺次相连组成的封闭图形,因此,基于方向信息对第一轮廓信息中角点位置信息的方位校正处理,能够降低第一图像中方位校正的像素遗漏的概率,还能提高对第一图像进行方位处理的效率。
基于前述实施例,本申请实施例提供的识别方法中,第一图像,包括从待识别图像分割得到的包含目标对象的二值分割图像。
示例性的,第一图像301可以如图3A中格状区域所示的像素数据;示例性的,在实际应用中,第一图像可以以指定颜色比如黑色显示,而待识别图像中除去第一图像之外的其它像素数据可以为白色显示,如此,将目标检测后的待识别图像中的黑色区域进行分割,就可以得到第一图像。
由以上可知,本申请实施例提供的识别方法中,第一图像为二值分割图像,也即对待识别图像进行目标检测后得到第一图像时,实现了对待识别图像中背景与目标对象之间的精确分割;并且就方向信息对第一图像进行方向校正,不仅能够省去后续识别操作时训练文本方向检测模型的操作流程,还能够提升目标对象比如文本对象识别的性能。与此同时,对于待识别图像中包含多个目标对象的情况,二值分割图还可以有效的降低文本相对于标牌的归属关系计算量。
在本申请实施例中,对待识别图像进行目标检测,得到第一图像,可以通过以下方式实现:
通过训练完成的目标检测网络中的特征提取模块对待识别图像进行目标检测,得到二值分割图像。
其中,特征提取模块包括MobilenetV2,特征提取模块包括多个特征提取单元。
示例性的,训练完成的目标检测网络可以包括特征提取模块以及特征融合模块,特征融合模块用于对特征提取模块提取到的特征信息进行特征融合。
在一种实施方式中,在特征提取模块为MobilenetV2的条件下,特征提取模块的特征提取单元可以为MobilenetV2的线性瓶颈层Linear BottleNeck;示例性的,MobilenetV2可以包括多个Linear BottleNeck以及关联多个Linear BottleNeck的反残差网络结构Inverted Residuals;示例性的,Linear BottleNeck深度卷积的stride可以为2。
示例性的,二值分割图可以为单通道图像,二值分割图的每一像素点的像素值代表这个位置是否为目标对象比如标牌的分类结果。示例性的,可以判断待识别图像中某一像素点的像素值是否大于像素阈值,若大于像素阈值,则可以将该像素值设置为1,以表示该像素点为文本图像中的像素点;若某一像素点的像素值小于像素阈值可以将该像素值设置为0;示例性的,像素阈值的取值范围可以为0至1之间的任一数据;示例性的,像素阈值的取值越大,则召回率越低;二值化后的图像中的连通区域可以确定为目标对象所在的第一图像。
MobilenetV2本质上是轻量化的卷积神经网络,由于MobilenetV2的线性瓶颈结构本质上是不带ReLU的1x1的卷积层,因此,通过线性瓶颈结构可以降低特征信息被破坏的概率;并且,线性瓶颈结构的数据输入输出端口的通道数较少,但在线性瓶颈结构的内部增加通道数,从而能够增大特征映射空间,改善特征提取的效果;由于MobilenetV2反残差网络结构的存在,还能够克服神经网络特征提取过程中梯度消失的问题。
基于以上优点,通过MobilenetV2对待识别图像进行目标检测,不仅能够降低目标检测的运算量,还能提高目标检测以及图像分割的精度。
由以上可以知道,本申请实施例提供的识别方法中,通过包含MobilenetV2的特征提取模块对待识别图像进行目标检测,借助于MobilenetV2优良的网络结构以及高效的特征提取特点,不仅能够提高对待识别图像进行目标检测的效率,还能提高目标检测的精度,从而为后续的高精度识别奠定了基础。
基于前述实施例,本申请实施例提供的识别方法中,对第一图像进行方向检测,得到第一图像的方向信息,可以通过以下方式实现:
通过训练完成的目标检测网络中的特征融合模块,对特征提取模块的至少两个特征提取单元输出的特征提取结果以及二值分割图像进行特征融合,得到第一图像的方向信息。
在一种实施方式中,特征融合模块也可以包括多个特征融合单元,第k特征融合单元的输入数据,可以包括第m特征提取单元输出的特征提取结果以及第k-1特征融合单元的输出数据;示例性的,第一特征融合单元的输入数据,可以包括二值分割图像以及第M-1特征提取单元输出的特征提取结果。其中,k以及m为大于1的整数,M为大于m的整数。
由于训练完成的目标检测网络中的特征提取模块与特征融合模块的网络结构、以及二者之间的结合方式,与目标检测网络中的特征提取模块以及特征融合模块的网络结构以及二者之间的结合方式相同,因此,下面以目标检测网络网络结构为例,对特征提取模块与特征融合模块的结构进行说明。
图4A为本申请实施例提供的目标检测网络4的结构示意图。如图4A所示,目标检测网络可以包括特征提取模块401以及特征融合模块402;其中,特征提取模块401可以为MobilenetV2,特征提取模块401的特征提取单元可以为线性瓶颈结构;特征融合模块402可以包括第一融合单元4021、第二融合单元4022、第三融合单元4023、第四融合单元4024、第五融合单元4025、第六融合单元4026以及第七融合单元4027;示例性的,各个融合单元的结构可以不同。
示例性的,直接与特征提取模块401的特征提取单元相连的第一融合单元4021、第二融合单元4022以及第三融合单元4023的结构可以相同。下面将以第一融合单元4021的结构为例,对第一至第三融合单元的结构进行说明。
图4B为本申请实施例提供的第一融合单元4021的结构示意图。如图4B所示,第一融合单元4021可以包括第一卷积子单元40211、第二卷积子单元40212、特征融合子单元40213以及上池化子单元40214。其中,第一卷积子单元40211的卷积核可以为3x3,第二卷积子单元40212的卷积核可以为1x1,特征融合子单元40213可以实现神经网络中通用的concat操作。其中,上池化子单元40214可以接收二值分割图像,对其进行上池化操作得到第一上池化结果后发送至特征融合子单元40213,特征融合子单元40213还可以接收第m特征提取单元输出的第m特征提取结果,特征融合子单元40213对第m特征提取结果以及第一上池化结果进行特征融合得到第一融合结果,第一融合单元4021可以通过第二卷积子单元40212以及第一卷积子单元40211对第一融合结果进行进一步的卷积处理,以进一步提取待识别图像中目标对象的特征信息,得到第一特征图。
示例性的,第n融合模块的上池化单元可以接收第n-1融合模块输出的第n-1结果并对执行上池化操作得到第n上池化结果,第n融合模块的上池化单元可以对第n上池化结果以及第m特征提取单元输出的第m特征提取结果,并对它们进行特征融合操作。其中,n为大于1且小于3的整数。
示例性的,上池化子单元40211的输入数据可以包括尺寸为待识别图像的尺寸的1/32、通道数为320的二值分割图像;特征融合子单元40212的输入数据可以包括尺寸为待识别图像的尺寸的1/16、且通道数为96的第M-1特征提取结果;第二融合单元4022的特征融合子单元的输入数据可以包括尺寸为待识别图像的尺寸的1/8、通道数为32的特征提取结果;第三融合单元4023的特征融合子单元的输入数据可以包括尺寸为待识别图像尺寸的1/4、通道数为24的特征提取结果。
示例性的,第一特征图的尺寸可以为待识别图像尺寸的1/16,通道数可以为128;第二特征图可以为第二融合单元4022输出的特征融合结果,其尺寸可以为待识别图像尺寸的1/8,通道数可以为64;第三特征图可以为第三融合单元4023输出的特征融合结果,其尺寸可以为待识别图像尺寸的1/4,通道数可以为32。
示例性的,第四融合单元4024可以通过比如3x3的卷积核对第三融合单元4023输出的第三特征图进行卷积操作得到第四特征图,第四特征图的尺寸可以为待识别图像尺寸的1/4,通道数可以为32;示例性的,第五融合单元4025可以通过比如1x1的卷积核对第四特征图进行点卷积操作得到第五特征图,第五特征图的尺寸可以为待识别图像的1/4,通道数可以为1;示例性的,第六融合单元4026的输入数据可以包括第四特征图以及第五特征图,其用于对第四特征图以及第五特征图执行感兴趣区域池化(Region Of InterestPooling,ROI Pooling)操作,从而将大小不同的第四特征图以及第五特征图池化为尺寸固定的第六特征图,并输入至第七融合单元4027中。示例性,第六融合单元4026可以将第五特征图划分为7x7个图像块。
示例性的,第七融合单元4027包括第三卷积子单元40271以及第四卷积子单元40272,示例性的,第三卷积子单元40271的通道数可以为1024,用于实现对第六特征图的全卷积运算得到第一结果,第四卷积子单元40272的通道数可以为8,其可以对第一结果执行全卷积运算,对第一图像的方向进行分类,从而得到第一图像的方向信息。
由以上可知,本申请实施例提供的识别方法中,训练完成的目标检测网络的特征融合模块中各个特征融合单元的特征融合结果经过ROI Pooling处理,可以将尺寸不同的特征图统一为尺寸相同的特征图,不仅能够降低方向信息确定的运算量,还能提高方向信息的精准度。
基于前述实施例,本申请实施例提供的识别方法中,还可以包括图5所示的步骤。图5为本申请实施例提供目标检测网络训练的流程示意图。如图5所示,该流程可以包括步骤B1至步骤B4:
步骤B1、得到包含标注信息的样本数据。
其中,样本数据包括包含目标对象的图像数据,标注信息,包括目标对象在图像数据中的位置信息以及包含目标对象的图像区域的方向信息。
在一种实施方式中,样本数据,可以包括包含有多种目标对象的图像数据。
在一种实施方式中,样本数据,可以包括通过图像采集装置采集得到的包含目标对象的图像数据;示例性的,图像采集装置可以为相机;示例性的,图像采集装置可以设置在其它电子设备中,比如智能手机中设置的照相机;示例性的,对图像采集装置采集得到的数据,可以先进行数据清洗。
在一种实施方式中,样本数据还可以包括对图像采集装置采集的图像数据进行样本增广操作生成的图像数据。示例性的,样本增广操作,可以包括对图像采集装置采集的数据的平移、旋转、透射变换、亮度调整、以及对比度调整中的任一操作,以扩充样本数据的多样性。
在一种实施方式中,样本数据还可以包括基于预设的标牌要求生成的图像,并将这些图像设置在采集得到的场景背景中,以实现样本多样性的扩充。
在一种实施方式中,各个样本数据中目标对象的颜色、背景颜色、文本字体大小、文本格式、以及图案样式中的至少一种可以不同;示例性的,各个样本数据的拍摄角度也可以不同。
在一种实施方式中,目标对象在图像数据中的位置信息,可以通过目标对象在图像数据中的像素位置的形式体现;包含目标对象的图像区域的方向信息,可以包括目标对象所在的图像区域在样本数据中是否倾斜、倾斜方向、以及倾斜角度中的至少一种。
在一种实施方式中,标注信息,还可以包含目标对象的内容,比如文本信息、图案、标签、以及文本与图案的结合方式等。
在一种实施方式中,样本数据的标注信息,可以是通过人工标注的方式确定的,本申请实施例对此不作限定。
步骤B2、通过特征提取模块对样本数据进行目标检测,得到与样本数据对应的二值分割图像。
在一种实施方式中,特征提取模块可以具备初始特征提取参数,并基于初始特征提取参数对样本数据进行目标检测,得到与样本数据对应的二值分割图。
步骤B3、通过特征融合模块对与样本数据对应的二值分割图像、以及特征提取模块的至少两个特征提取单元输出的特征提取结果进行特征融合,得到与样本数据对应的方向信息。
在一种实施方式中,特征融合模块的各个特征融合单元可以具备初始特征融合参数,并基于初始特征融合参数对特征提取模块的至少两个特征提取单元输出的特征提取结果以及二值分割图像进行特征融合,得到与样本数据对应的方向信息。
步骤B4、基于标注信息、与样本数据对应的二值分割图像、以及与样本数据对应的方向信息,对特征提取模块以及特征融合模块的参数进行调整,得到训练完成的目标检测网络。
在一种实施方式中,可以根据与样本数据对应的二值分割图像及其与标注信息中的位置信息之间的第一匹配程度、以及与样本数据对应的方向信息及其与标注信息中的方向信息之间的第二匹配程度,确定如何调整特征提取模块以及特征融合模块的参数。
在一种实施方式中,可以预先设定第一阈值以及第二阈值,在第一匹配程度小于或等于第一阈值、且第二匹配程度小于或等于第二阈值的情况下,停止对特征提取模块以及特征融合模块的网络参数调整操作,得到训练完成的特征提取模块以及训练完成的特征融合模块,从而得到训练完成的目标检测网络;若第一匹配程度大于第一阈值、或者第二匹配程度大于第二阈值,则继续基于样本数据对特征提取模块以及特征融合模块的参数调整操作,直至第一匹配程度小于或等于第一阈值、且第二匹配程度小于或等于第二阈值为止。
由以上可知,由于样本数据中携带有标注信息,因此,基于样本数据对特征提取模块以及特征融合模块的训练过程能够有效的缩短,还能提高特征提取模块以及特征融合模块的特征提取和特征融合的精度,从而改善训练完成的目标检测网络的特征提取效率和精度。
图6为本申请实施例提供训练目标检测模型的流程示意图。如图6所示,该流程可以包括步骤601至步骤603:
步骤601、获取图像数据。
示例性的,这里的图像数据可以为前述实施例中的图像采集装置采集的数据、以及自动生成的图像数据。
步骤602、对图像数据进行样本增广,得到样本数据。
示例性的,对图像数据进行样本增广,可以是通过前述实施例中的样本增广操作实现的。
步骤603、基于样本数据训练目标检测模型。
示例性的,目标检测模型,可以包括前述实施例中的包含特征提取模块401以及特征融合模块402的目标检测网络4。
由以上可知,通过对图像数据进行样本增广,可以扩展样本数据的多样性,从而使得基于样本数据训练得到的目标检测模型的鲁棒性更好。
基于前述实施例,本申请实施例提供的识别方法中,对第二图像进行识别,得到对目标对象的识别结果,可以通过图7所示的流程实现,图7为本申请实施例提供的对第二图像进行识别的流程示意图,如图7所示,该流程可以包括步骤C1至步骤C2:
步骤C1、对第二图像进行形变校正,得到形变校正图像。
在一种实施方式中,在采集待识别图像时,目标对象比如标牌可能出现弯折、磨损、以及褶皱等情况,还可能出现图像采集装置的采集角度不为指定角度的情况,如此,对待识别图像进行目标检测到的第一图像、以及对第一图像进行方位校正得到的第二图像中的目标对象,可能会出现不同程度的形变,比如标牌不共面,因此,需要对第二图像进行形变校正。
在一种实施方式中,对第二图像进行形变校正,可以包括采用像素平滑、像素插值等方法对第二图像进行处理,以实现对第二图像的形变校正。
在一种实施方式中,形变校正图像,可以为与第二图像的尺寸相同。
步骤C2、对形变校正图像进行识别,得到识别结果。
示例性的,对形变校正图像进行识别,也可以通过训练完成的识别网络实现;示例性的,识别网络可以实现文本检测以及文本识别两种功能。
示例性的,文本检测可以采用高效精准场景文本检测器(An Efficient andAccurate Scene Text Detector,EAST)实现,示例性的,EAST可以以MobilenetV2为基础网络,其结构可以为图4A所示,其训练过程中所采样的样本数据可以为尺寸为512x512的图像数据;示例性的,文本识别可以采用卷积循环神经网络(Convolutional Recurrent NeuralNetwork,CRNN),其结构可以如图4A所示,其基础网络可以为ResNet50,其训练过程中所采用的样本数据可以是尺寸为32x100的图像数据,文本类别可以为5990,该样本数据中可以包含汉字、英文单词、英文字母、以及数字中的至少一种字符数据。
示例性的,通过训练完成的识别网络对形变校正图像进行识别,可以包括对形变校正图像进行文本检测、文本识别以及文本特征提取,得到文本识别结果;示例性的,训练完成的识别网络还可以通过对文本识别结果进行判断,以确定目标对象是否为合规对象;示例性的,训练完成的识别网络可以基于预设规则对文本识别结果的判断,比如可以通过文本正则匹配策略对文本识别结果进行判断;示例性的,确定目标对象是否合规之后,还可以输出目标对象是否合规的提示信息。
由以上可知,在本申请实施例提供的识别方法中,在得到第二图像之后,首先对第二图像进行形变校正得到形变校正图像,再对形变校正图像进行识别,得到识别结果,从而减少了目标对象的形变对识别过程产生的干扰,能够进一步提高识别结果的精度。
在本申请实施例中,训练完成的目标检测网络以及训练完成的识别网络,可以通过模型训练模块对目标检测网络以及识别网络训练得到,在各个网络训练完成之后,该模型训练模块还可以对各个训练完成的神经网络进行设置,使得各个训练完成的神经网络能够即时对待识别图像进行处理,从而提高对待识别图像处理的效率。
图8为本申请实施例提供的模型训练模块的功能结构示意图。如图8所示:
模型训练模块801可以用于训练目标检测模型802以及文本识别模型803;示例性的,目标检测模型802可以包括前述实施例中的包含特征提取模块401以及特征融合模块402的目标检测网络4;文本识别模型803可以包括前述实施例中的识别网络。
示例性的,模型训练模块801能够根据各种样本数据对目标检测模型802以及文本识别模型803进行训练,在目标检测模型802以及文本识别模型803训练结束之后,目标检测模型802能够对输入的待识别图像进行目标检测以及方向检测,示例性的,若未检测到目标对象,可以通过输出模块804输出不合规结果;若检测得到目标对象的二值分割图像以及二值分割图像的方向信息,则可以通过校正模块805实现对二值分割图像经过方位校正以及形变校正处理,从而得到形变校正图像,再通过文本识别模型803对形变校正图像进行文本检测和文本识别,得到文本识别结果,之后对文本识别结果进行判断,若判断结果表示目标对象合规,则通过输出模块804输出合规结果,若判断结果表示目标对象不合规,则通过输出模块804输出不合规结果。
由以上可知,本申请实施例中,模型训练模块801通过相同的架构能够实现对不同模型或神经网络的训练,从而提高了神经网络的训练效率。
基于前述实施例,本申请实施例提供的识别方法中,对第二图像进行形变校正,得到形变校正图像,可以通过图9A所示的流程实现。图9A为本申请实施例提供的对第二图像进行形变校正的第一流程示意图。如图9A所示,该流程可以包括步骤D1至步骤D2:
步骤D1、基于第二图像的边缘位置信息,确定外界边缘位置信息的第二图形的第二轮廓信息。
其中,第二图形包括由多条直线首尾顺次相连组成的封闭图形。
示例性的,第二轮廓信息的确定方式,与前述实施例中第一轮廓信息的确定方式可以相同,此处不再赘述。
步骤D2、基于边缘位置信息以及第二轮廓信息,对第二图像进行形变校正,得到形变校正图像。
在一种实施方式中,基于边缘位置信息以及第二轮廓信息,对第二图像进行形变校正,得到形变校正图像,可以通过以下方式实现:
基于边缘位置信息与第二轮廓信息中对应像素坐标差值,对第二图像进行像素拉伸、像素平滑、或者像素插值等方式进行形变校正,得到形变校正图像。
由以上可知,本申请实施例提供的识别方法中,在目标对象为标牌的情况下,可以根据标牌具备标准几何形状的特性,对待识别图像处理得到的第二图像进行形变校正得到形变校正图像之后,再对其进行识别得到识别结果,从而使得对第二图像的形变校正处理能够更符合标牌的实际形状特性,进而进一步改善识别结果的精确度。
基于前述实施例,本申请实施例提供的识别方法中,基于边缘位置信息以及第二轮廓信息,对第二图像进行形变校正,可以通过图9B所示的流程实现,图9B为本申请实施例提供的对第二图像进行形变校正的第二流程示意图,如图9B所示,该流程可以包括步骤E1至步骤E2:
步骤E1、获取边缘位置信息与第二轮廓信息之间的拟合程度信息。
在一种实施方式中,拟合程度信息,可以包括边缘位置信息与第二轮廓信息中对应像素点之间的坐标值之差;示例性的,拟合程度信息,还可以包括边缘位置信息与第二轮廓信息中对应像素点之间的均方误差。
示例性的,边缘位置信息可以为图3B中的闭合曲线301,第二轮廓信息可以为图3B中的外接矩形302的四边。图3B中闭合曲线301中的像素点集3011可以为曲线301的部分轮廓点集。
示例性的,拟合程度信息,可以通过外接矩形302中与像素点集3011对应的长边p2p3、以及像素点集3011之间的均方误差体现;示例性的,长边p2p3可以为连接第三角点3023以及第四角点3024的边。示例性的,长边p2p3可以通过式(1)表示:
ax+by+c=0 (1)
其中,a=y3-y2,b=x2-x3,c=x3*y2-x2*y3。示例性的,将像素点集3011所在的曲线记为Pdown,那么,Pdown中的点p(xp,yp)到线段p2p3中对应点之间的距离dp可以通过式(2)计算得到:
Figure BDA0003423410000000151
那么,Pdown中的点(xp,yp)到线段p2p3中对应点之间的均方误差dMSE,可以通过式(3)计算得到:
Figure BDA0003423410000000161
其中,N为像素点集3011中像素点的数量。
步骤E2、若拟合程度信息大于拟合阈值,通过贝塞尔曲线拟合方式,对第二图像进行形变校正;若拟合程度信息小于或等于拟合阈值,通过透射变换方式,对第二图像进行形变校正。
示例性的,可以预先设定拟合阈值,若拟合程度信息大于拟合阈值,则可以根据曲线拟合计算边缘位置信息与第二轮廓信息之间的坐标变换关系,即对边缘位置信息以及第二轮廓信息计算贝塞尔参数,并对边缘位置信息以及第二轮廓信息进行W点采样,获取W对点集Pn,每对点对应转换图形的一列像素,其中,W为转换后的图像的宽度即形变校正图像的宽度,在W对点集上的采样频率即为转换后的图像高度H,也就是形变校正图像的高度。其中,W为大于1,且小于或等于边缘位置信息所包含的像素点数量的整数;H为大于1且小于或等于第二轮廓信息的高度的整数。
示例性的,若拟合程度信息小于或等于拟合阈值,则可以通过opencv中的rBox函数根据边缘位置信息以及第二轮廓信息中的对应角点,计算透射变换矩阵,再根据透射变换矩阵对第二图像进行形变校正处理,从而得到形变校正图像。
在相关技术中,对图像的形变校正,通常是通过单应性矩阵的透射变换实现的,这种方法无法修正目标对象不共面以及相机畸变导致的图像形变,而本申请实施例提供的识别方法中,基于拟合程度信息与拟合阈值的关系采用不同的形变校正方法,能够有效的解决上述问题。
由以上可知,本申请实施例提供的识别方法中,能够根据第二图像的边缘位置信息以及外接第二图像的第二图形的第二轮廓信息之间的拟合程度信息,对第二图像进行针对性的形变校正,从而使得形变校正图像中目标对象的特性更清晰,进而提高目标对象的识别精度。
基于前述实施例,本申请实施例还提供了一种识别装置10,图10为本申请实施例提供的识别装置10的结构示意图。如图10,识别装置10可以包括:
获取模块1001,用于获取至少包含目标对象的待识别图像。
检测模块1002,用于对待识别图像进行目标检测,得到第一图像,对第一图像进行方向检测,得到第一图像的方向信息;其中,第一图像包括从待识别图像中分割得到的包含目标对象的图像;
处理模块1003,用于基于方向信息对第一图像进行方位校正处理,得到第二图像。
识别模块1004,用于对第二图像进行识别,得到对目标对象的识别结果。
在一种实施方式中,处理模块1003,用于确定外接第一图像边缘的第一图形的第一轮廓信息;基于方向信息,对第一轮廓信息中的角点位置信息进行方位校正处理,得到第二图像;其中,第一图形包括由多条直线首尾顺次相连组成的封闭图形。
在一种实施方式中,检测模块1002,用于通过训练完成的目标检测网络中的特征提取模块对待识别图像进行目标检测,得到二值分割图像;其中,特征提取模块包括MobilenetV2;特征提取模块包括多个特征提取单元。
在一种实施方式中,检测模块1002,用于通过训练完成的目标检测网络中的特征融合模块,对特征提取模块的至少两个特征提取单元输出的特征提取结果以及二值分割图像进行特征融合,得到第一图像的方向信息。
在一种实施方式中,识别装置10还包括训练模块,用于得到包含标注信息的样本数据;其中,样本数据包括包含目标对象的图像数据;标注信息,包括目标对象在图像数据中的位置信息以及包含目标对象的图像区域的方向信息;
训练模块,还用于通过特征提取模块对样本数据进行目标检测,得到与样本数据对应的二值分割图像;通过特征融合模块对与样本数据对应的二值分割图像、以及特征提取模块的至少两个特征提取单元输出的特征提取结果进行特征融合,得到与样本数据对应的方向信息;基于标注信息、与样本数据对应的二值分割图像、以及与样本数据对应的方向信息,对特征提取模块以及特征融合模块的参数进行调整,得到训练完成的目标检测网络。
在一种实施方式中,处理模块1003,用于对第二图像进行形变校正,得到形变校正图像;
识别模块1004,用于对形变校正图像进行识别,得到识别结果。
在一种实施方式中,处理模块1003,用于基于第二图像的边缘位置信息,确定外接边缘位置信息的第二图形的第二轮廓信息;基于边缘位置信息以及第二轮廓信息,对第二图像进行形变校正,得到形变校正图像;其中,第二图形包括由多条直线首尾顺次相连组成的封闭图形。
在一种实施方式中,处理模块1003,用于获取边缘位置信息与第二轮廓信息之间的拟合程度信息;若拟合程度信息大于拟合阈值,通过贝塞尔曲线拟合方式,对第二图像进行形变校正;若拟合程度信息小于或等于拟合阈值,通过透射变换方式,对第二图像进行形变校正。
基于前述实施例,本申请实施例还提供了一种识别设备11,图11为本申请实施例提供的识别设备11的结构示意图。如图11所示,识别设备11可以包括处理器1101以及存储器1102。
需要说明的是,上述处理器1101可以为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。上述存储器1102,可以是易失性存储器(volatilememory),例如随机存取存储器(Random Access Memory,RAM);或者非易失性存储器(non-volatile memory),例如只读存储器(Read-Only Memory,ROM),flash memory,硬盘驱动器(Hard Disk Drive,HDD)或固态硬盘(Solid State Disk,SSD);或者上述种类的存储器的组合,并向处理器1101提供指令和数据。示例性的,前述实施例中的获取模块1001、检测模块1002、处理模块1003以及识别模块1004可以通过处理器1101实现。
基于前述实施例,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,该计算机程序被电子设备的处理器执行时,能实现如前任一实施例所述的识别方法。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
本申请所提供的各方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的各产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本申请所提供的各方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
需要说明的是,上述计算机可读存储介质可以是ROM、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,EPROM)、电可擦除可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory,EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory,FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory,CD-ROM)等存储器;也可以是包括上述存储器之一或任意组合的各种电子设备,如移动电话、计算机、平板设备、个人数字助理等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件节点的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所描述的方法。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (11)

1.一种识别方法,其特征在于,所述方法包括:
获取至少包含目标对象的待识别图像;
对所述待识别图像进行目标检测,得到第一图像;其中,所述第一图像包括从所述待识别图像中分割得到的包含所述目标对象的图像;
对所述第一图像进行方向检测,得到所述第一图像的方向信息;
基于所述方向信息对所述第一图像进行方位校正处理,得到第二图像;
对所述第二图像进行识别,得到对所述目标对象的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述方向信息对所述第一图像进行方位校正处理,得到第二图像,包括:
确定外接所述第一图像边缘的第一图形的第一轮廓信息;其中,所述第一图形包括由多条直线首尾顺次相连组成的封闭图形;
基于所述方向信息,对所述第一轮廓信息中的角点位置信息进行所述方位校正处理,得到所述第二图像。
3.根据权利要求1所述的方法,其特征在于,所述第一图像,包括从所述待识别图像分割得到的包含所述目标对象的二值分割图像;所述对所述待识别图像进行目标检测,得到第一图像,包括:
通过训练完成的目标检测网络中的特征提取模块对所述待识别图像进行目标检测,得到所述二值分割图像;其中,所述特征提取模块包括MobilenetV2;所述特征提取模块包括多个特征提取单元。
4.根据权利要求3所述的方法,其特征在于,所述对所述第一图像进行方向检测,得到第一图像的方向信息,包括:
通过所述训练完成的目标检测网络中的特征融合模块,对所述特征提取模块的至少两个特征提取单元输出的特征提取结果以及所述二值分割图像进行特征融合,得到所述第一图像的方向信息。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
得到包含标注信息的样本数据;其中,所述样本数据包括包含目标对象的图像数据;所述标注信息,包括所述目标对象在所述图像数据中的位置信息以及包含所述目标对象的图像区域的方向信息;
通过所述特征提取模块对所述样本数据进行目标检测,得到与所述样本数据对应的二值分割图像;
通过所述特征融合模块对与所述样本数据对应的二值分割图像、以及所述特征提取模块的至少两个特征提取单元输出的特征提取结果进行特征融合,得到与所述样本数据对应的方向信息;
基于所述标注信息、与所述样本数据对应的二值分割图像、以及与所述样本数据对应的方向信息,对所述特征提取模块以及所述特征融合模块的参数进行调整,得到所述训练完成的目标检测网络。
6.根据权利要求1所述的方法,其特征在于,所述对所述第二图像进行识别,得到对所述目标对象的识别结果,包括:
对所述第二图像进行形变校正,得到形变校正图像;
对所述形变校正图像进行识别,得到所述识别结果。
7.根据权利要求6所述的方法,其特征在于,所述对所述第二图像进行形变校正,得到形变校正图像,包括:
基于所述第二图像的边缘位置信息,确定外接所述边缘位置信息的第二图形的第二轮廓信息;其中,所述第二图形包括由多条直线首尾顺次相连组成的封闭图形;
基于所述边缘位置信息以及所述第二轮廓信息,对所述第二图像进行形变校正,得到所述形变校正图像。
8.根据权利要求7所述的方法,其特征在于,所述基于所述边缘位置信息以及所述第二轮廓信息,对所述第二图像进行形变校正,包括:
获取所述边缘位置信息与所述第二轮廓信息之间的拟合程度信息;
若所述拟合程度信息大于拟合阈值,通过贝塞尔曲线拟合方式,对所述第二图像进行形变校正;
若所述拟合程度信息小于或等于所述拟合阈值,通过透射变换方式,对所述第二图像进行形变校正。
9.一种识别装置,其特征在于,所述装置包括:
获取模块,用于获取至少包含目标对象的待识别图像;
检测模块,用于对所述待识别图像进行目标检测,得到第一图像;对所述第一图像进行方向检测,得到所述第一图像的方向信息;其中,所述第一图像包括从所述待识别图像中分割得到的包含所述目标对象的图像;
处理模块,用于基于所述方向信息对所述第一图像进行方位校正处理,得到第二图像;
识别模块,用于对所述第二图像进行识别,得到对所述目标对象的识别结果。
10.一种识别设备,其特征在于,所述设备包括处理器和存储器;其中,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,能够实现如权利要求1至8任一所述的识别方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被电子设备的处理器执行时,能够实现如权利要求1至8任一所述的识别方法。
CN202111570198.3A 2021-12-21 2021-12-21 一种识别方法、装置、设备及介质 Pending CN116310303A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111570198.3A CN116310303A (zh) 2021-12-21 2021-12-21 一种识别方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111570198.3A CN116310303A (zh) 2021-12-21 2021-12-21 一种识别方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN116310303A true CN116310303A (zh) 2023-06-23

Family

ID=86831009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111570198.3A Pending CN116310303A (zh) 2021-12-21 2021-12-21 一种识别方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116310303A (zh)

Similar Documents

Publication Publication Date Title
CN110659647B (zh) 印章图像识别方法及装置、智能发票识别设备和存储介质
CN108986152B (zh) 一种基于差分图像的异物检测方法及装置
CN110751682B (zh) 一种提取和标识图像的方法、装置、终端设备及存储介质
CN113592886B (zh) 建筑图纸的审图方法、装置、电子设备及介质
CN104463066B (zh) 一种商品外包装一维条形码快速定位识别方法
CN110634131B (zh) 一种裂缝图像识别与建模方法
CN110796095B (zh) 仪表模板建立方法、终端设备以及计算机存储介质
CN111354038B (zh) 锚定物检测方法及装置、电子设备及存储介质
CN112926564B (zh) 图片分析方法、系统、计算机设备和计算机可读存储介质
CN111754536A (zh) 图像标注方法、装置、电子设备及存储介质
CN114038004A (zh) 一种证件信息提取方法、装置、设备及存储介质
CN115359239A (zh) 风电叶片缺陷检测定位方法、装置、存储介质和电子设备
CN112307786B (zh) 一种多个不规则二维码批量定位识别方法
CN110659637A (zh) 一种结合深度神经网络和sift特征的电能表示数与标签自动识别方法
CN115937203A (zh) 一种基于模板匹配的视觉检测方法、装置、设备及介质
CN113158895A (zh) 票据识别方法、装置、电子设备及存储介质
CN112580499A (zh) 文本识别方法、装置、设备及存储介质
JP4859061B2 (ja) 画像の補正方法、補正プログラムおよび画像歪み補正装置
CN112308046A (zh) 图像的文本区域定位方法、装置、服务器及可读存储介质
CN114872574A (zh) 基于充电桩的采集与监控系统及方法
CN117217247A (zh) 一种二维码识别方法、装置及设备
CN112541943A (zh) 一种基于视觉路标的机器人定位方法
CN116310303A (zh) 一种识别方法、装置、设备及介质
CN115376018A (zh) 建筑物高度及占地面积计算方法、装置、设备及存储介质
CN112308061B (zh) 一种车牌字符识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination