CN113642552A - 一种图像中目标对象的识别方法、装置、系统及电子设备 - Google Patents

一种图像中目标对象的识别方法、装置、系统及电子设备 Download PDF

Info

Publication number
CN113642552A
CN113642552A CN202010345543.2A CN202010345543A CN113642552A CN 113642552 A CN113642552 A CN 113642552A CN 202010345543 A CN202010345543 A CN 202010345543A CN 113642552 A CN113642552 A CN 113642552A
Authority
CN
China
Prior art keywords
corner
image
information
target object
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010345543.2A
Other languages
English (en)
Other versions
CN113642552B (zh
Inventor
乔梁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Goldway Intelligent Transportation System Co Ltd
Original Assignee
Shanghai Goldway Intelligent Transportation System Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Goldway Intelligent Transportation System Co Ltd filed Critical Shanghai Goldway Intelligent Transportation System Co Ltd
Priority to CN202010345543.2A priority Critical patent/CN113642552B/zh
Publication of CN113642552A publication Critical patent/CN113642552A/zh
Application granted granted Critical
Publication of CN113642552B publication Critical patent/CN113642552B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques

Abstract

本发明实施例提供了一种图像中目标对象的识别方法、装置、系统及电子设备,所述方法包括:获取待识别图像;将待识别图像输入预先训练完成的深度学习模型,根据待识别图像的图像特征,获得目标对象的角点信息,角点信息为标识矩形检测框的对角线的两个角点位置的信息,矩形检测框用于标识目标对象在待识别图像中所占的区域,深度学习模型基于图像样本的图像特征及目标对象的角点信息预先训练完成;根据角点信息确定两个角点的位置是否匹配;如果匹配,基于角点信息确定矩形检测框的另外两个角点的位置,得到识别结果。电子设备可以在确定两个角点匹配的情况下,基于角点信息确定矩形检测框的另外两个角点的位置,可以使得到识别结果更加准确。

Description

一种图像中目标对象的识别方法、装置、系统及电子设备
技术领域
本发明涉及图像处理技术领域,特别是涉及一种图像中目标对象的识别方法、装置、系统及电子设备。
背景技术
图像中目标对象的识别即为通过对图像进行处理以获得图像包括的目标对象的位置信息的技术,得到目标对象的位置信息后可以进行进一步的处理,以获得更多信息,例如,从图像中识别文本信息的位置,然后识别文本信息的具体内容。所以图像中目标对象的识别的准确度会直接影响最终获取的信息的准确度。
目前的图像中目标对象的识别方式中,较为常见的是基于深度学习模型的识别方式。具体来说,首先将需要进行识别的图像输入训练好的深度学习模型中,深度学习模型根据图像特征对图像进行处理,输出目标对象的角点信息,其中,角点信息为标识目标对象在图像中所占的区域的矩形框的相对的两个顶点的位置,例如,为左上角和右下角,或者为右上角和左下角。进而,根据该角点信息确定目标对象在图像中的位置,也就是以两个角点为对角线顶点的矩形区域,也就是图像识别结果。
由于深度学习模型输出的结果可能存在偏差,以及图像中的目标对象可能不完整等因素的影响,目标对象的角点信息可能并不准确,这就会导致图像识别结果不够准确。
发明内容
本发明实施例的目的在于提供一种图像识别方法、装置、电子设备及存储介质,以提高图像中目标对象识别的准确度。具体技术方案如下:
第一方面,本发明实施例提供了一种图像中目标对象的识别方法,所述方法包括:
获取待识别图像,其中,所述待识别图像中包括目标对象;
将所述待识别图像输入预先训练完成的深度学习模型,根据所述待识别图像的图像特征,获得所述目标对象的角点信息,其中,所述角点信息为标识矩形检测框的对角线的两个角点位置的信息,所述矩形检测框用于标识所述目标对象在所述待识别图像中所占的区域,所述深度学习模型为基于图像样本的图像特征及其所包括的目标对象的角点信息预先训练完成的;
根据所述角点信息确定所述两个角点的位置是否匹配;
如果匹配,基于所述角点信息确定所述矩形检测框的另外两个角点的位置,得到识别结果。
可选的,所述角点信息包括目标框的中心点坐标、所述目标框的长和宽、所述两个角点的连线与所述待识别图像水平方向的第一夹角以及所述两个角点的连线的长度;其中,所述目标框用于标识角点在所述待识别图像中的位置范围;
所述根据所述角点信息确定所述两个角点的位置是否匹配的步骤,包括:
根据第一角点的所述目标框的中心点坐标、所述第一夹角及所述两个角点的连线的长度,计算得到第一坐标,其中,所述第一角点为所述两个角点中的一个;
根据第二角点的所述目标框的中心点坐标及所述目标框的长和宽,确定所述目标框的范围,作为第一范围,其中,所述第二角点为所述两个角点中除所述第一角点外的另一个;
如果所述第一坐标位于所述第一范围内,确定所述两个角点的位置匹配。
可选的,在所述根据第一角点的所述目标框的中心点坐标、所述第一夹角及所述两个角点的连线的长度,计算得到第一坐标的步骤之前,所述方法还包括:
根据所述第二角点的所述目标框的中心点坐标、所述第一夹角及所述两个角点的连线的长度,计算得到第二坐标;
根据第一角点的所述目标框的中心点坐标及所述目标框的长和宽,确定所述目标框的范围,作为第二范围;
如果所述第二坐标位于所述第二范围内,确定所述第二角点匹配所述第一角点。
可选的,所述角点信息还包括所述矩形检测框经过该角点的两条边线分别与水平方向的第三夹角及第四夹角;
所述基于所述角点信息确定所述矩形检测框的另外两个角点的位置的步骤,包括:
分别从所述第一角点及所述第二角点按照对应的所述第三夹角及所述第四夹角确定两条射线;
将所述射线的交点确定为所述矩形检测框的另外两个角点的位置。
可选的,所述目标对象按照预设速度向预定方向运动;
所述获取待识别图像的步骤,包括:
当所述目标对象运动至预设的最佳拍摄位置时,对所述目标对象进行拍摄,获得所述待识别图像。
可选的,所述待识别图像为对所述目标对象采集的视频中的一帧图像;
在所述获取待识别图像的步骤之前,所述方法还包括:
按照预设时间间隔从所述视频中抽取目标图像,并将当前抽取的目标图像输入所述深度学习模型,获得所述目标图像中所述目标对象的角点信息;
根据所述角点信息,确定所述两个角点的连线的中点与所述最佳拍摄位置的距离;
根据所述距离及所述按照预设速度,确定所述目标对象运动至所述最佳拍摄位置的目标时长,并开始计时;
当计时时长达到所述目标时长时,确定所述目标对象运动至预设的最佳拍摄位置。
可选的,所述目标图像中所述目标对象的角点信息仅包括一个角点位置的信息;
所述根据所述角点信息,确定所述两个角点的连线的中点与所述最佳拍摄位置的距离的步骤,包括:
根据所述角点信息,预测另一个角点的位置;
根据所述角点信息包括的一个角点的位置及所预测的另一个角点的位置,确定两个角点的连线的中点;
确定所述中点与所述最佳拍摄位置的距离。
可选的,所述最佳拍摄位置为多个;
所述将所述待识别图像输入预先训练完成的深度学习模型,根据所述待识别图像的图像特征,获得所述目标对象的角点信息的步骤,包括:
将多个待识别图像分别输入预先训练完成的深度学习模型,根据所述待识别图像的图像特征,获得所述目标对象的多个预测角点信息;
按照预设的所述最佳拍摄位置对应的权重,对所述多个预测角点信息进行加权计算处理,得到处理后的角点信息,作为所述目标对象的角点信息。
可选的,所述目标对象为票据。
第二方面,本发明实施例提供了一种图像中文字的识别装置,所述装置包括:
图像获取模块,用于获取待识别图像,其中,所述待识别图像中包括目标对象;
角点信息识别模块,用于将所述待识别图像输入预先训练完成的深度学习模型,根据所述待识别图像的图像特征,获得所述目标对象的角点信息,其中,所述角点信息为标识矩形检测框的对角线的两个角点位置的信息,所述矩形检测框用于标识所述目标对象在所述待识别图像中所占的区域,所述深度学习模型为基于图像样本的图像特征及其所包括的目标对象的角点信息预先训练完成的;
角点信息匹配模块,用于根据所述角点信息确定所述两个角点的位置是否匹配;
角点位置确定模块,用于如果匹配,基于所述角点信息确定所述矩形检测框的另外两个角点的位置,得到识别结果。
可选的,所述角点信息包括目标框的中心点坐标、所述目标框的长和宽、所述两个角点的连线与所述待识别图像水平方向的第一夹角以及所述两个角点的连线的长度;其中,所述目标框用于标识角点在所述待识别图像中的位置范围;
所述角点信息匹配模块包括:
第一坐标计算单元,用于根据第一角点的所述目标框的中心点坐标、所述第一夹角及所述两个角点的连线的长度,计算得到第一坐标,其中,所述第一角点为所述两个角点中的一个;
第一范围计算单元,用于根据第二角点的所述目标框的中心点坐标及所述目标框的长和宽,确定所述目标框的范围,作为第一范围,其中,所述第二角点为所述两个角点中除所述第一角点外的另一个;
第一匹配单元,用于如果所述第一坐标位于所述第一范围内,确定所述两个角点的位置匹配。
可选的,所述角点信息匹配模块还包括:
第二坐标计算单元,用于在所述根据第一角点的所述目标框的中心点坐标、所述第一夹角及所述两个角点的连线的长度,计算得到第一坐标之前,根据所述第二角点的所述目标框的中心点坐标、所述第一夹角及所述两个角点的连线的长度,计算得到第二坐标;
第二范围计算单元,用于根据第一角点的所述目标框的中心点坐标及所述目标框的长和宽,确定所述目标框的范围,作为第二范围;
第二匹配单元,用于如果所述第二坐标位于所述第二范围内,确定所述第二角点匹配所述第一角点。
可选的,所述角点信息还包括所述矩形检测框经过该角点的两条边线分别与水平方向的第三夹角及第四夹角;
所述角点位置确定模块包括:
射线确定单元,用于分别从所述第一角点及所述第二角点按照对应的所述第三夹角及所述第四夹角确定两条射线;
位置确定单元,用于将所述射线的交点确定为所述矩形检测框的另外两个角点的位置。
可选的,所述目标对象按照预设速度向预定方向运动;
所述图像获取模块包括:
图像获取单元,用于当所述目标对象运动至预设的最佳拍摄位置时,对所述目标对象进行拍摄,获得所述待识别图像。
可选的,所述待识别图像为对所述目标对象采集的视频中的一帧图像;
所述装置还包括:
角点信息识别模块,用于在所述获取待识别图像之前,按照预设时间间隔从所述视频中抽取目标图像,并将当前抽取的目标图像输入所述深度学习模型,获得所述目标图像中所述目标对象的角点信息;
距离确定模块,用于根据所述角点信息,确定所述两个角点的连线的中点与所述最佳拍摄位置的距离;
目标时长确定模块,用于根据所述距离及所述按照预设速度,确定所述目标对象运动至所述最佳拍摄位置的目标时长,并开始计时;
位置确定模块,用于当计时时长达到所述目标时长时,确定所述目标对象运动至预设的最佳拍摄位置。
可选的,所述目标图像中所述目标对象的角点信息仅包括一个角点位置的信息;
所述距离确定模块包括:
位置预测单元,用于根据所述角点信息,预测另一个角点的位置;
重点确定单元,用于根据所述角点信息包括的一个角点的位置及所预测的另一个角点的位置,确定两个角点的连线的中点;
距离确定单元,用于确定所述中点与所述最佳拍摄位置的距离。
可选的,所述最佳拍摄位置为多个;
所述角点信息识别模块包括:
角点信息预测单元,用于将多个待识别图像分别输入预先训练完成的深度学习模型,根据所述待识别图像的图像特征,获得所述目标对象的多个预测角点信息;
角点信息加权单元,用于按照预设的所述最佳拍摄位置对应的权重,对所述多个预测角点信息进行加权计算处理,得到处理后的角点信息,作为所述目标对象的角点信息。
可选的,所述目标对象为票据。
第三方面,本发明实施例提供了一种图像中目标对象的识别系统,包括识别设备和传送设备,其中,
所述传送设备,用于按照预设速度向预定方向运动,以传送目标对象,以使所述识别设备对所述目标对象进行拍摄,并获取待识别图像;
所述识别设备,用于执行上述第一方面任一所述的方法步骤。
第四方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面任一所述的方法步骤。
第五方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面任一所述的方法步骤。
本发明实施例所提供的方案中,电子设备可以获取待识别图像,其中,待识别图像中包括目标对象;将待识别图像输入预先训练完成的深度学习模型,根据待识别图像的图像特征,获得目标对象的角点信息,其中,角点信息为标识矩形检测框的对角线的两个角点位置的信息,矩形检测框用于标识目标对象在待识别图像中所占的区域,深度学习模型为基于图像样本的图像特征及其所包括的目标对象的角点信息预先训练完成的;根据角点信息确定两个角点的位置是否匹配;如果匹配,基于角点信息确定矩形检测框的另外两个角点的位置,得到识别结果。由于在得到角点信息后,电子设备可以根据角点信息确定两个角点的位置是否匹配,进而在两个角点匹配的情况下,基于角点信息确定矩形检测框的另外两个角点的位置,可以使得到识别结果更加准确,提高图像中目标对象识别的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的一种图像中目标对象的识别方法的流程图;
图2为基于图1所示实施例的矩形检测框的一种示意图;
图3为基于图1所示实施例的第一夹角的一种示意图;
图4为图1所示实施例步骤S103的一种具体流程图;
图5为基于图4所示实施例的角点匹配方式的一种流程图;
图6为基于图1所示实施例的角点位置的确定方式的一种示意图;
图7为图1所示实施例的方法的应用场景的一种示意图;
图8为基于图1所示实施例的到达最佳拍摄位置的确定方式的一种流程图;
图9为基于图8所示实施例的目标对象与最佳拍摄位置的距离的一种示意图;
图10为图8所示实施例中的步骤S802的一种具体流程图;
图11为本发明实施例所提供的一种图像中目标对象的识别装置的结构示意图;
图12为图11所示实施例中的角点信息匹配模块1130的一种具体结构示意图;
图13为本发明实施例所提供的一种图像中目标对象的识别系统的结构示意图;
图14为基于图13所示实施例的图像中目标对象的识别系统的另一种结构示意图;
图15为本发明实施例所提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了提高图像中目标对象识别的准确度,本发明实施例提供了一种图像中目标对象的识别方法、装置、系统、电子设备及计算机可读存储介质。
下面首先对本发明实施例所提供的一种图像中目标对象的识别方法进行介绍。本发明实施例所提供的一种图像中目标对象的识别方法可以应用于任意需要对图像中的目标对象进行识别的电子设备,例如,可以为图像采集设备、电脑、处理器等,为了描述清楚方便,以下称为电子设备。
如图1所示,一种图像中目标对象的识别方法,所述方法包括:
S101,获取待识别图像;
其中,所述待识别图像中包括目标对象。
S102,将所述待识别图像输入预先训练完成的深度学习模型,根据所述待识别图像的图像特征,获得所述目标对象的角点信息;
其中,所述角点信息为标识矩形检测框的对角线的两个角点位置的信息,所述矩形检测框用于标识所述目标对象在所述待识别图像中所占的区域,所述深度学习模型为基于图像样本的图像特征及其所包括的目标对象的角点信息预先训练完成的。
S103,根据所述角点信息确定所述两个角点的位置是否匹配;
S104,如果匹配,基于所述角点信息确定所述矩形检测框的另外两个角点的位置,得到识别结果。
可见,本发明实施例所提供的方案中,电子设备可以获取待识别图像,其中,待识别图像中包括目标对象;将待识别图像输入预先训练完成的深度学习模型,根据待识别图像的图像特征,获得目标对象的角点信息,其中,角点信息为标识矩形检测框的对角线的两个角点位置的信息,矩形检测框用于标识目标对象在待识别图像中所占的区域,深度学习模型为基于图像样本的图像特征及其所包括的目标对象的角点信息预先训练完成的;根据角点信息确定两个角点的位置是否匹配;如果匹配,基于角点信息确定矩形检测框的另外两个角点的位置,得到识别结果。由于在得到角点信息后,电子设备可以根据角点信息确定两个角点的位置是否匹配,进而在两个角点匹配的情况下,基于角点信息确定矩形检测框的另外两个角点的位置,可以使得到识别结果更加准确,提高图像中目标对象识别的准确度。
在上述步骤S101中,电子设备可以获取待识别图像,其中,待识别图像可以电子设备拍摄的包括目标对象的图像,也可以是从其他电子设备获取的包括目标对象的图像,还可以是电子设备拍摄的视频中的一帧包括目标对象的图像,这都是合理的。
其中,目标对象可以为票据、卡证、纸质材料等具有角点的物体,在此不做具体限定。待识别图像中可以包括一个或多个目标对象,例如,待识别图像中可以包括多个票据,如图2所示,待识别图像200中包括票据210、票据220及票据230,共三个票据。
获取待识别图像后,电子设备便可以将待识别图像输入预先训练完成的深度学习模型,该深度学习模型可以根据待识别图像的图像特征,确定并输出待识别图像中目标对象的角点信息。其中,角点信息为标识矩形检测框的对角线的两个角点位置的信息。矩形检测框用于标识目标对象在待识别图像中所占的区域,例如,图2中的矩形框211、矩形框221及矩形框231。
角点信息可以为矩形检测框的对角线的两个角点的坐标,或者两个角点的目标框的坐标等,其中,目标框即为标识角点在待识别图像中位置范围的矩形框,例如,可以为图2中所示的目标框222以及目标框223。
上述深度学习模型可以为任意能够对角点信息进行检测的深度学习模型,例如,可以为YOLO(you only look once)检测模型、SSD(Single Shot MultiBox Detector)检测模型等,在此不做具体限定。
该深度学习模型为基于图像样本的图像特征及其所包括的目标对象的角点信息预先训练完成的,在训练过程中,可以预先获取初始模型大量图像样本,并标定其中目标对象的角点信息,然后将图像样本输入初始模型中,初始模型根据图像样本的图像特征进行识别处理,得到预测的角点信息,进而根据预测的角点信息与标定的角点信息之间的差异,调整初始模型的参数,直到迭代次数达到预设次数,或者损失函数收敛,便可以停止训练,得到上述深度学习模型。
该深度学习模型在训练过程中学习到图像特征与角点信息之间的对应关系,进而在对待识别图像进行处理时,便可以根据该对应关系,确定待识别图像中目标对象的角点信息,并输出该角点信息。
由于上述角点信息是标识矩形检测框的对角线的两个角点位置的信息,所以该两个角点在位置上具有一定的匹配关系,例如,两个角点之间连线的长度等于矩形检测框的对角线的长度等。进而,为了保证角点信息的准确性,电子设备可以根据角点信息确定两个角点的位置是否匹配。
如果匹配,说明角点信息是准确的,那么便可以执行上述步骤S104,即基于角点信息确定矩形检测框的另外两个角点的位置,得到识别结果。如果不匹配,说明角点信息是存在偏差的,那么为了能够得到准确的角点信息,电子设备可以返回上述步骤S101,重新获取待识别图像,并继续执行上述步骤S102-步骤S104,以获得准确的识别结果。
作为本发明实施例的一种实施方式,上述角点信息具体可以包括目标框的中心点坐标、目标框的长和宽、两个角点的连线与待识别图像水平方向的第一夹角以及两个角点的连线的长度。
其中,目标框用于标识角点在待识别图像中的位置范围,例如,图3中的目标框310以及目标框320,分别用于标识角点31及角点32在待识别图像300中的位置范围。目标框的中心点坐标即为深度学习模型预测的角点的具体位置坐标。两个角点的连线与待识别图像水平方向的第一夹角如图3中的角θ所示,两个角点的连线的长度即为矩形检测框对角线的长度,如图3中所示线段330的长度。
在一种实施方式中,可以在目前的检测网络的输出上增加一个分支,为每个角点的目标框输出一个偏移信息,该偏移信息可以包括第一夹角以及两个角点的连线的长度。例如,目前的YOLO检测模型的输出为(X,Y,W,H,Cls),其中,(X,Y)为目标框的中心点坐标,W、H分别为目标框的长和宽,Cls为目标框的类别,一般包括左上、左下、右上和右下。在该YOLO检测模型的输出上增加一个分支后,使其的输出为((X,Y,W,H,Cls),(sinθ,cosθ,L))。其中,θ为第一夹角,通过sinθ和cosθ可以唯一确定θ的具体值,L为两个角点的连线的长度。
在这种情况下,如图4所示,上述根据所述角点信息确定所述两个角点的位置是否匹配的步骤,可以包括:
S401,根据第一角点的所述目标框的中心点坐标、所述第一夹角及所述两个角点的连线的长度,计算得到第一坐标;
首先,电子设备可以根据第一角点的目标框的中心点坐标、第一夹角及两个角点的连线的长度,计算得到第一坐标,其中,第一角点为两个角点中的一个。而该第一坐标即为根据角点信息所预测的第二角点的坐标,第二角点为两个角点中除第一角点外的另一个。
在一种实施方式中,电子设备可以根据第一角点的目标框的中心点坐标及第一夹角可以确定一条射线,进而根据两个角点的连线的长度可以确定射线上的一个坐标,即为第一坐标。
在另一种实施方式中,电子设备可以根据第一角点的目标框的中心点坐标、第一夹角的正弦值或者余弦值,以及两个角点的连线的长度,计算得到第一坐标。
例如,第一角点的目标框的中心点坐标为(10,80),第一夹角为60度,两个角点的连线的长度为50,那么可以确定第一坐标的横坐标与中心点坐标的横坐标10的差为50×cos60=25,那么便可以确定第一坐标的横坐标为10+25=35。中心点坐标的纵坐标80与第一坐标的纵坐标的差为
Figure BDA0002469927260000121
Figure BDA0002469927260000122
那么便可以确定第一坐标的横坐标为
Figure BDA0002469927260000123
进而,便可以确定第一坐标为(37,35)。
S402,根据第二角点的所述目标框的中心点坐标及所述目标框的长和宽,确定所述目标框的范围,作为第一范围;
根据第二角点的目标框的中心点坐标及目标框的长和宽,可以确定第二角点的目标框的范围,该范围包括的坐标即为可能为第二角点的坐标。
上述步骤S401及步骤S402的执行顺序并没有限定,可以先执行步骤S401,也可以先执行步骤S402,还可以同时执行步骤S401及步骤S402,都这是合理的。
S403,如果所述第一坐标位于所述第一范围内,确定所述两个角点的位置匹配。
得到上述第一坐标及第一范围后,电子设备便可以确定第一坐标是否位于第一范围内,如果位于第一范围内,说明根据角点信息所预测的第二角点的坐标是准确的,那么说明角点信息是准确的,则可以确定两个角点的位置匹配。如果第一坐标不位于第一范围内,说明根据角点信息所预测的第二角点的坐标是不准确的,那么说明角点信息是不准确的,则可以确定两个角点的位置不匹配。
可见,在本实施例中,电子设备可以根据第一角点的目标框的中心点坐标、第一夹角及两个角点的连线的长度,计算得到第一坐标,根据第二角点的目标框的中心点坐标及目标框的长和宽,确定目标框的范围,作为第一范围,进而在第一坐标位于第一范围内时,确定两个角点的位置匹配。这样可以准确确定两个角点的位置是否匹配,保证后续识别结果的准确性。
为了进一步验证角点信息的准确性,作为本发明实施例的一种实施方式,如图5所示,在上述根据第一角点的所述目标框的中心点坐标、所述第一夹角及所述两个角点的连线的长度,计算得到第一坐标的步骤之前,上述方法还可以包括:
S501,根据所述第二角点的所述目标框的中心点坐标、所述第一夹角及所述两个角点的连线的长度,计算得到第二坐标;
计算第二坐标的具体方式与计算上述第一坐标的方式相同,可见上述第一坐标的计算方式部分的说明,在此不再赘述。第二坐标即为根据角点信息所预测的第一角点的坐标。
S502,根据第一角点的所述目标框的中心点坐标及所述目标框的长和宽,确定所述目标框的范围,作为第二范围;
计算第二范围的具体方式与计算上述第一范围的方式相同,可见上述第一范围的计算方式部分的说明,在此不再赘述。第二范围包括的坐标即为可能为第一角点的坐标。
S503,如果所述第二坐标位于所述第二范围内,确定所述第二角点匹配所述第一角点。
得到上述第二坐标及第二范围后,电子设备便可以确定第二坐标是否位于第二范围内,如果位于第二范围内,说明根据角点信息所预测的第一角点的坐标是准确的,那么说明角点信息是准确的,则可以确定第二角点匹配第一角点,进而再通过上述步骤S401-步骤S403确定第一角点是否匹配第二角点。
在一种实施方式中,步骤S403中确定第一坐标位于第一范围后,可以确定第一角点匹配第二角点,进而再通过上述步骤S501-步骤S503确定第二角点是否匹配第一角点,如果匹配,说明两个角点是互相匹配的。
如果第二坐标不位于第二范围内,那么说明根据角点信息所预测的第一角点的坐标是不准确的,那么说明角点信息是不准确的,则可以确定两个角点的位置不匹配。
可见,在本实施例中,在计算第一坐标之前,电子设备可以根据第二角点的目标框的中心点坐标、第一夹角及两个角点的连线的长度,计算得到第二坐标,根据第一角点的目标框的中心点坐标及目标框的长和宽,确定目标框的范围,作为第二范围,如果第二坐标位于第二范围内,确定第二角点匹配第一角点。这样,可以确定两个角点的位置是否互相匹配,进一步提高角点信息的准确性。
作为本发明实施例的一种实施方式,上述角点信息还可以包括矩形检测框经过该角点的两条边线分别与水平方向的第三夹角及第四夹角。
在一种实施方式中,上述的在目前的检测网络的输出上增加一个分支还可以用于输出第三夹角及第四夹角。矩形检测框中经过该角点的两条边线所形成的角度为90,所以理论上第三夹角、第四夹角与90度的加和为180度,因此可以通过该关系验证第三夹角及第四夹角的准确性,当三者的加和与180度之间误差不大于阈值时,可以认为第三夹角及第四夹角是准确的。例如,如图6所示,深度学习模型还可以输出第三夹角
Figure BDA0002469927260000151
以及第四夹角γ。
在这种情况下,上述基于所述角点信息确定所述矩形检测框的另外两个角点的位置的步骤,包括:
分别从所述第一角点及所述第二角点按照对应的所述第三夹角及所述第四夹角确定两条射线;将所述射线的交点确定为所述矩形检测框的另外两个角点的位置。
为了确定另外两个角点的位置,可以从第一角点按照对应的第三夹角及第四夹角确定两条射线,从第二角点按照对应的第三夹角及第四夹角确定两条射线,该四条射线会形成两个交点,这两个交点即为矩形检测框的另外两个角点的位置。
例如图6所示,在待识别图像600中,从第一角点61按照对应的第三夹角611及第四夹角612确定射线613及射线614,从第二角点62按照对应的第三夹角621及第四夹角622确定射线623及射线624,射线613与射线623相交于点63,该点即为第三角点,射线614与射线624相交于点64,该点即为第四角点,第一角点61、第二角点62、第三角点63以及第四角点64即为矩形检测框的四个顶点,可以唯一确定矩形检测框的位置。
可见,在本实施例中,在角点信息包括第三夹角及第四夹角的情况下,电子设备可以分别从第一角点及第二角点按照对应的第三夹角及第四夹角确定两条射线,将射线的交点确定为矩形检测框的另外两个角点的位置,可以根据深度学习模型的输出结果确定另外两个角点的位置,使得确定的矩形检测框更加准确,提高图像中目标对象的识别准确度。
作为本发明实施例的一种实施方式,在确定了另外两个角点的位置之后,上述方法还可以包括:
按照所确定的矩形检测框,将目标对象从待识别图像中剪切出来,并对剪切得到的图像进行识别,得到结构化信息。
为了能够对图像进行进一步处理,得到想要的信息,电子设备可以所确定的矩形检测框,将目标对象从待识别图像中剪切出来,进而,对剪切得到的图像进行识别,便可以得到结构化信息。其中,识别方式可以为图像处理领域的任意识别方式,可以根据目标对象的具体类型等因素确定,在此不做具体限定。
例如,目标对象为票据,那么电子设备可以按照所确定的矩形检测框,将票据图像剪切出来,进而对票据图像进行识别,获得其中包括的发票金额、发票代码、发票号码等信息,并存储为结构化信息,可用于发票信息录入、管理、审核等。
如果目标对象在待识别图像中的朝向不是水平的,在将目标对象从待识别图像中剪切出来后,可以按照上述第一夹角将剪切得到的图像旋转至水平朝向,进而进行识别,保证识别得到的结构化信息的准确性。
可见,在本实施例中,电子设备可以按照所确定的矩形检测框,将目标对象从待识别图像中剪切出来,并对剪切得到的图像进行识别,得到结构化信息,可以提高识别得到结构化信息的准确度。
作为本发明实施例的一种实施方式,上述目标对象可以按照预设速度向预定方向运动。例如,目标对象可以放置于传送带上,传送带以预设速度向预定方向运动,带动目标对象运动。
电子设备可以固定于目标对象运动路径中的某一位置,用于对目标对象进行拍摄,例如,如图7所示,电子设备710可以固定于传送带720上方,用于对放置在传送带上的目标对象730进行拍摄。
相应的,上述获取待识别图像的步骤,可以包括:
当所述目标对象运动至预设的最佳拍摄位置时,对所述目标对象进行拍摄,获得所述待识别图像。
由于目标对象处于图像边缘的时候,深度学习模型在图像的上、下、左、右四个方向接收到的信息是有限的,因此目标对象位于图像中央时深度学习模型的预测效果更加准确。因此,可以预先设置最佳拍摄位置,也就是预设的最佳拍摄位置,目标对象运动至该最佳拍摄位置时,拍摄得到的图像中,目标对象位于图像的中央位置。
当目标对象运动至预设的最佳拍摄位置时,电子设备便可以对目标对象进行拍摄,进而获得待识别图像。在一种实施方式中,该最佳拍摄位置可以为电子设备的拍摄窗口的中央对应的位置,这样可以保证目标对象位于待识别图像的中央位置。
可见,在本实施例中,电子设备可以在目标对象运动至预设的最佳拍摄位置时,对目标对象进行拍摄,获得待识别图像,这样,可以保证目标对象在待识别图像中位于中央位置,进一步提高图像识别的准确度。
作为本发明实施例的一种实施方式,上述待识别图像可以为对目标对象采集的视频中的一帧图像,例如,目标对象可以放置在传送带上,传送带按照预设速度运动,电子设备固定于传送带上方,对目标对象采集视频。
在这种情况下,如图8所示,在上述获取待识别图像的步骤之前,上述方法还可以包括:
S801,按照预设时间间隔从所述视频中抽取目标图像,并将当前抽取的目标图像输入所述深度学习模型,获得所述目标图像中所述目标对象的角点信息;
对于目标对象按照预设速度向预定方向运动的情况而言,电子设备可以按照预设时间间隔从视频中抽取目标图像。进而,每当抽取得到一张图像便可以将当前抽取得到的目标图像输入上述深度学习模型中,可以获得该目标图像中目标对象的角点信息。
在一种实施方式中,电子设备可以从上述视频中,按照预定间隔抽取对应的帧号的视频帧作为目标图像,例如,该视频为电子设备按照24帧每秒采集得到的,那么1秒钟内会得到帧号为1-24的24帧图像,那么电子设备可以每隔5帧抽取一帧目标图像,那么便可以得到帧号为1、6、12、18及24的5帧目标图像。
S802,根据所述角点信息,确定所述两个角点的连线的中点与所述最佳拍摄位置的距离;
接下来,电子设备便可以根据上述角点信息,确定两个角点的连线的中点与最佳拍摄位置的距离Δx。该距离即为目标对象中心点到达最佳拍摄位置的距离。如图9所示,目标对象对应的两个角点分别为角点A和角点B,最佳拍摄位置为垂直于目标对象运动方向的直线,也就是最佳拍摄线。那么,电子设备可以确定两个角点的连线的中点C与最佳拍摄位置的距离Δx。
S803,根据所述距离及所述按照预设速度,确定所述目标对象运动至所述最佳拍摄位置的目标时长,并开始计时;
由于目标对象按照预设速度运动,目标对象中心点到达最佳拍摄位置的距离已经确定,所以电子设备可以根据该距离及按照预设速度,确定目标对象运动至最佳拍摄位置的目标时长,也就是该距离与预设速度的商值,即为Δx/v,其中,v为预设速度。同时,电子设备可以开始计时。
S804,当计时时长达到所述目标时长时,确定所述目标对象运动至预设的最佳拍摄位置。
当计时时长达到目标时长时,说明此时目标对象的中心点已经达到最佳拍摄位置,所以可以确定目标对象运动至预设的最佳拍摄位置。进而,电子设备便可以对目标对象进行拍摄,以获取待识别图像。
对于上述目标图像,电子设备可以均对其进行检测,以获得目标图像中目标对象的角点信息,如果目标图像并不是目标对象运动至预设的最佳拍摄位置时拍摄的,可以不进行后续处理,只是将角点信息进行保存,以节省计算资源。对于目标对象运动至预设的最佳拍摄位置时拍摄得到的待识别图像,由于目标对象位于待识别图像中央,所以电子设备对其进行检测,以获得目标对象的角点信息后,可以进行后续处理,例如抠图、旋转、识别其中具体信息等,可以获得准确的识别结果。
可见,在本实施例中,电子设备可以按照预设时间间隔对目标对象进行拍摄,并将当前拍摄得到的目标图像输入深度学习模型,获得目标图像中目标对象的角点信息,根据角点信息,确定两个角点的连线的中点与最佳拍摄位置的距离,进而根据距离及按照预设速度,确定目标对象运动至最佳拍摄位置的目标时长,并开始计时,当计时时长达到目标时长时,确定目标对象运动至预设的最佳拍摄位置。这样,可以准确确定目标对象运动至预设的最佳拍摄位置,保证目标对象在待识别图像中位于中央位置。
作为本发明实施例的一种实施方式,目标图像中目标对象的角点信息可能仅包括一个角点位置的信息,也就是说,另一个相对应的角点并未出现在目标图像中,那么在这种情况下,如图10所示,上述根据所述角点信息,确定所述两个角点的连线的中点与所述最佳拍摄位置的距离的步骤,可以包括:
S1001,根据所述角点信息,预测另一个角点的位置;
为了确定目标对象与最佳拍摄位置的距离,电子设备可以根据角点信息,预测另一个角点的位置。在一种实施方式中,电子设备可以根据深度学习模型输出的L、cosθ以及角点信息中所包括的中心点坐标(X,Y),计算得到另一个角点的横坐标,其中,L为深度学习模型输出的两个角点的连线的长度,θ为两个角点的连线与待识别图像水平方向的第一夹角,那么另一个角点的横坐标即为X+L×cosθ。
S1002,根据所述角点信息包括的一个角点的位置及所预测的另一个角点的位置,确定两个角点的连线的中点;
S1003,确定所述中点与所述最佳拍摄位置的距离。
确定另一个角点的位置后,电子设备便可以根据角点信息包括的一个角点的位置及所预测的另一个角点的位置,确定两个角点的连线的中点。进而,便可以确定中点与最佳拍摄位置的距离Δx。
可见,在本实施例中,电子设备可以根据角点信息,预测另一个角点的位置,根据角点信息包括的一个角点的位置及所预测的另一个角点的位置,确定两个角点的连线的中点,进而确定中点与最佳拍摄位置的距离。在目标图像中目标对象的角点信息仅包括一个角点位置的信息时,也可以确定目标对象与最佳拍摄位置的距离,保证后续处理的顺利进行。
作为本发明实施例的一种实施方式,可以设置多个最佳拍摄位置,在这种情况下,上述将所述待识别图像输入预先训练完成的深度学习模型,根据所述待识别图像的图像特征,获得所述目标对象的角点信息的步骤,可以包括:
将多个待识别图像分别输入预先训练完成的深度学习模型,根据所述待识别图像的图像特征,获得所述目标对象的多个预测角点信息;按照预设的所述最佳拍摄位置对应的权重,对所述多个预测角点信息进行加权计算处理,得到处理后的角点信息,作为所述目标对象的角点信息。
由于最佳拍摄位置为多和,那么便可以获得多个待识别图像。为了得到更加准确的识别结果,电子设备可以将多个待识别图像分别输入预先训练完成的深度学习模型,根据待识别图像的图像特征,获得标对象的多个预测角点信息。
为了方便计算,可以根据最佳拍摄位置的具体位置设置对应的权重,例如,越接近拍摄窗口中央的最佳拍摄位置对应的权重可以越大。进而,电子设备按照预设的最佳拍摄位置对应的权重,对多个预测角点信息进行加权计算处理,得到处理后的角点信息,作为目标对象的角点信息。
例如,预设的最佳拍摄位置为3个,分别对应的权重为0.5、0.3及0.2,对应的预测角点信息分别为((X1,Y1,W1,H1,Cls1),(sinθ1,cosθ1,L1),(sinγ1,cosγ1),
Figure BDA0002469927260000201
),((X2,Y2,W2,H2,Cls2),(sinθ2,cosθ2,L2),(sinγ2,cosγ2),
Figure BDA0002469927260000202
),((X3,Y3,W3,H3,Cls3),(sinθ3,cosθ3,L3),(sinγ3,cosγ3),
Figure BDA0002469927260000203
),那么在计算角点信息L时,便可以确定L=L1×0.5+L2×0.3+L3×0.2。其他角点信息的计算方式相同,在此不再赘述。
可见,在本实施例中,最佳拍摄位置可以为多个,电子设备可以将多个待识别图像分别输入预先训练完成的深度学习模型,根据待识别图像的图像特征,获得目标对象的多个预测角点信息,进而按照预设的最佳拍摄位置对应的权重,对多个预测角点信息进行加权计算处理,得到处理后的角点信息,作为目标对象的角点信息,这样,可以考虑不同最佳拍摄位置所对应的预测角点信息,目标对象的角点信息更加准确。
作为本发明实施例的一种实施方式,上述目标对象可以为票据,可以包括增值税发票、定额发票、出租车发票、客运发票、机打发票等。
在一种实施方式中,上述方法可以用于图像中目标对象的批量识别,可以大大提高对识别得到的信息的录入效率。例如,批量识别票据并对票据信息进行录入等。可以将目标对象批量放置于传送设备上,以使目标对象按照一定的速度运动,电子设备可以按照预设间隔拍摄图像。
以目标对象为票据进行说明,如果传送设备的速度为v,拍摄窗口的宽度为w,则一张票据从一个角点进入拍摄窗口到该角点移出拍摄窗口的耗时为w/v。那么为了保证每张票据都会被拍摄到,可以设定预设间隔为w/(kv),其中,k可以根据需要设定,一般大于3,例如可以5、7、9等。假设k为5,那么票据经过拍摄窗口的过程中会拍摄5次,也就保证了至少5张图像是可以拍摄到这张票据的。
由于传送设备的运动方向、速度是固定的,所以可以确定每个目标框在下一次拍摄得到的待识别图像中所处的位置。因此在对下一次拍摄得到的待识别图像进行识别得到角点信息后,可以直接将之前已经匹配过的角点信息过滤掉,无需进行后续处理,以节省计算资源。
而对于在当前的待识别图像中某些角点找不到匹配的角点时,也就是说当前的待识别图像中目标对象的角点只有一个,说明该票据的一部分未进入到拍摄窗口。那么可以保存此次识别得到的角点信息,并根据传送设备的运动方向和速度确定该角点信息在下一帧待识别图像中对应的角点信息,然后等待下一帧待识别图像到来进行识别,此时可以只识别上一帧待识别图像中不存在的角点信息,进一步节省计算资源。
相应于上述图像中目标对象的识别方法,本发明实施例还提供了一种图像中目标对象的识别装置。下面对本发明实施例所提供的一种图像中目标对象的识别装置进行介绍。
如图11所示,一种图像中目标对象的识别装置,所述装置包括:
图像获取模块1110,用于获取待识别图像;
其中,所述待识别图像中包括目标对象。
角点信息识别模块1120,用于将所述待识别图像输入预先训练完成的深度学习模型,根据所述待识别图像的图像特征,获得所述目标对象的角点信息;
其中,所述角点信息为标识矩形检测框的对角线的两个角点位置的信息,所述矩形检测框用于标识所述目标对象在所述待识别图像中所占的区域,所述深度学习模型为基于图像样本的图像特征及其所包括的目标对象的角点信息预先训练完成的。
角点信息匹配模块1130,用于根据所述角点信息确定所述两个角点的位置是否匹配;
角点位置确定模块1140,用于如果匹配,基于所述角点信息确定所述矩形检测框的另外两个角点的位置,得到识别结果。
可见,本发明实施例所提供的方案中,电子设备可以获取待识别图像,其中,待识别图像中包括目标对象;将待识别图像输入预先训练完成的深度学习模型,根据待识别图像的图像特征,获得目标对象的角点信息,其中,角点信息为标识矩形检测框的对角线的两个角点位置的信息,矩形检测框用于标识目标对象在待识别图像中所占的区域,深度学习模型为基于图像样本的图像特征及其所包括的目标对象的角点信息预先训练完成的;根据角点信息确定两个角点的位置是否匹配;如果匹配,基于角点信息确定矩形检测框的另外两个角点的位置,得到识别结果。由于在得到角点信息后,电子设备可以根据角点信息确定两个角点的位置是否匹配,进而在两个角点匹配的情况下,基于角点信息确定矩形检测框的另外两个角点的位置,可以使得到识别结果更加准确,提高图像中目标对象识别的准确度。
作为本发明实施例的一种实施方式,上述角点信息可以包括目标框的中心点坐标、所述目标框的长和宽、所述两个角点的连线与所述待识别图像水平方向的第一夹角以及所述两个角点的连线的长度;其中,所述目标框用于标识角点在所述待识别图像中的位置范围;
如图12所示,上述角点信息匹配模块1130可以包括:
第一坐标计算单元1131,用于根据第一角点的所述目标框的中心点坐标、所述第一夹角及所述两个角点的连线的长度,计算得到第一坐标;
其中,所述第一角点为所述两个角点中的一个。
第一范围计算单元1132,用于根据第二角点的所述目标框的中心点坐标及所述目标框的长和宽,确定所述目标框的范围,作为第一范围;
其中,所述第二角点为所述两个角点中除所述第一角点外的另一个。
第一匹配单元1133,用于如果所述第一坐标位于所述第一范围内,确定所述两个角点的位置匹配。
作为本发明实施例的一种实施方式,上述角点信息匹配模块1130还可以包括:
第二坐标计算单元,用于在所述根据第一角点的所述目标框的中心点坐标、所述第一夹角及所述两个角点的连线的长度,计算得到第一坐标之前,根据所述第二角点的所述目标框的中心点坐标、所述第一夹角及所述两个角点的连线的长度,计算得到第二坐标;
第二范围计算单元,用于根据第一角点的所述目标框的中心点坐标及所述目标框的长和宽,确定所述目标框的范围,作为第二范围;
第二匹配单元,用于如果所述第二坐标位于所述第二范围内,确定所述第二角点匹配所述第一角点。
作为本发明实施例的一种实施方式,上述角点信息还可以包括所述矩形检测框经过该角点的两条边线分别与水平方向的第三夹角及第四夹角;
上述角点位置确定模块1140可以包括:
射线确定单元,用于分别从所述第一角点及所述第二角点按照对应的所述第三夹角及所述第四夹角确定两条射线;
位置确定单元,用于将所述射线的交点确定为所述矩形检测框的另外两个角点的位置。
作为本发明实施例的一种实施方式,上述目标对象按照预设速度向预定方向运动;
上述图像获取模块1110可以包括:
图像获取单元,用于当所述目标对象运动至预设的最佳拍摄位置时,对所述目标对象进行拍摄,获得所述待识别图像。
作为本发明实施例的一种实施方式,上述待识别图像可以为对所述目标对象采集的视频中的一帧图像;
上述装置还可以包括:
角点信息识别模块,用于在所述获取待识别图像之前,按照预设时间间隔从所述视频中抽取目标图像,并将当前抽取的目标图像输入所述深度学习模型,获得所述目标图像中所述目标对象的角点信息;
距离确定模块,用于根据所述角点信息,确定所述两个角点的连线的中点与所述最佳拍摄位置的距离;
目标时长确定模块,用于根据所述距离及所述按照预设速度,确定所述目标对象运动至所述最佳拍摄位置的目标时长,并开始计时;
位置确定模块,用于当计时时长达到所述目标时长时,确定所述目标对象运动至预设的最佳拍摄位置。
作为本发明实施例的一种实施方式,上述目标图像中所述目标对象的角点信息仅包括一个角点位置的信息;
上述距离确定模块可以包括:
位置预测单元,用于根据所述角点信息,预测另一个角点的位置;
重点确定单元,用于根据所述角点信息包括的一个角点的位置及所预测的另一个角点的位置,确定两个角点的连线的中点;
距离确定单元,用于确定所述中点与所述最佳拍摄位置的距离。
作为本发明实施例的一种实施方式,上述最佳拍摄位置可以为多个;
上述角点信息识别模块1120可以包括:
角点信息预测单元,用于将多个待识别图像分别输入预先训练完成的深度学习模型,根据所述待识别图像的图像特征,获得所述目标对象的多个预测角点信息;
角点信息加权单元,用于按照预设的所述最佳拍摄位置对应的权重,对所述多个预测角点信息进行加权计算处理,得到处理后的角点信息,作为所述目标对象的角点信息。
作为本发明实施例的一种实施方式,上述目标对象可以为票据。
相应于上述图像中目标对象的识别方法,本发明实施例还提供了一种图像中目标对象的识别系统。下面对本发明实施例所提供的一种图像中目标对象的识别系统进行介绍。
如图13所示,一种图像中目标对象的识别系统,所述系统包括识别设备1310和传送设备1320,其中,
所述传送设备1320,用于按照预设速度向预定方向运动,以传送目标对象,以使所述识别设备1310对所述目标对象进行拍摄,并获取待识别图像;
所述识别设备1310,用于执行上述任一实施例所述的图像中目标对象的识别方法步骤。
可见,本发明实施例所提供的方案中,传送设备可以按照预设速度向预定方向运动,以传送目标对象,以使识别设备对目标对象进行拍摄,并获取待识别图像,进而,识别设备便可以将待识别图像输入预先训练完成的深度学习模型,根据待识别图像的图像特征,获得目标对象的角点信息,其中,角点信息为标识矩形检测框的对角线的两个角点位置的信息,矩形检测框用于标识目标对象在待识别图像中所占的区域,深度学习模型为基于图像样本的图像特征及其所包括的目标对象的角点信息预先训练完成的;根据角点信息确定两个角点的位置是否匹配;如果匹配,基于角点信息确定矩形检测框的另外两个角点的位置,得到识别结果。由于在得到角点信息后,电子设备可以根据角点信息确定两个角点的位置是否匹配,进而在两个角点匹配的情况下,基于角点信息确定矩形检测框的另外两个角点的位置,可以使得到识别结果更加准确,提高图像中目标对象识别的准确度。
作为本发明实施例的一种实施方式,如图14所示,上述系统还可以包括分拣设备1330。分拣设备1330根据识别设备的识别得到信息,将目标对象分拣至不同的位置,例如,目标对象为票据,识别设备的识别得到信息可以为票据类别、票据是否有效等,进而分拣设备便可以将票据分拣至不同位置,便于管理存储票据。
作为本发明实施例的一种实施方式,上述识别设备可以为高拍仪等智能图像采集设备,传送设备可以为传送带等能够传送物体的设备。
本发明实施例还提供了一种电子设备,如图15所示,电子设备可以包括处理器1501、通信接口1502、存储器1503和通信总线1504,其中,处理器1501,通信接口1502,存储器1503通过通信总线1504完成相互间的通信,
存储器1503,用于存放计算机程序;
处理器1501,用于执行存储器1503上所存放的程序时,实现上述任一实施例所述的图像中目标对象的识别方法步骤。
可见,本发明实施例所提供的方案中,电子设备可以获取待识别图像,其中,待识别图像中包括目标对象;将待识别图像输入预先训练完成的深度学习模型,根据待识别图像的图像特征,获得目标对象的角点信息,其中,角点信息为标识矩形检测框的对角线的两个角点位置的信息,矩形检测框用于标识目标对象在待识别图像中所占的区域,深度学习模型为基于图像样本的图像特征及其所包括的目标对象的角点信息预先训练完成的;根据角点信息确定两个角点的位置是否匹配;如果匹配,基于角点信息确定矩形检测框的另外两个角点的位置,得到识别结果。由于在得到角点信息后,电子设备可以根据角点信息确定两个角点的位置是否匹配,进而在两个角点匹配的情况下,基于角点信息确定矩形检测框的另外两个角点的位置,可以使得到识别结果更加准确,提高图像中目标对象识别的准确度。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述的图像中目标对象的识别方法步骤。
可见,本发明实施例所提供的方案中,计算机程序被处理器执行时,可以获取待识别图像,其中,待识别图像中包括目标对象;将待识别图像输入预先训练完成的深度学习模型,根据待识别图像的图像特征,获得目标对象的角点信息,其中,角点信息为标识矩形检测框的对角线的两个角点位置的信息,矩形检测框用于标识目标对象在待识别图像中所占的区域,深度学习模型为基于图像样本的图像特征及其所包括的目标对象的角点信息预先训练完成的;根据角点信息确定两个角点的位置是否匹配;如果匹配,基于角点信息确定矩形检测框的另外两个角点的位置,得到识别结果。由于在得到角点信息后,电子设备可以根据角点信息确定两个角点的位置是否匹配,进而在两个角点匹配的情况下,基于角点信息确定矩形检测框的另外两个角点的位置,可以使得到识别结果更加准确,提高图像中目标对象识别的准确度。
需要说明的是,对于上述装置、系统、电子设备及计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部件说明即可。
进一步需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部件互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (12)

1.一种图像中目标对象的识别方法,其特征在于,所述方法包括:
获取待识别图像,其中,所述待识别图像中包括目标对象;
将所述待识别图像输入预先训练完成的深度学习模型,根据所述待识别图像的图像特征,获得所述目标对象的角点信息,其中,所述角点信息为标识矩形检测框的对角线的两个角点位置的信息,所述矩形检测框用于标识所述目标对象在所述待识别图像中所占的区域,所述深度学习模型为基于图像样本的图像特征及其所包括的目标对象的角点信息预先训练完成的;
根据所述角点信息确定所述两个角点的位置是否匹配;
如果匹配,基于所述角点信息确定所述矩形检测框的另外两个角点的位置,得到识别结果。
2.如权利要求1所述的方法,其特征在于,所述角点信息包括目标框的中心点坐标、所述目标框的长和宽、所述两个角点的连线与所述待识别图像水平方向的第一夹角以及所述两个角点的连线的长度;其中,所述目标框用于标识角点在所述待识别图像中的位置范围;
所述根据所述角点信息确定所述两个角点的位置是否匹配的步骤,包括:
根据第一角点的所述目标框的中心点坐标、所述第一夹角及所述两个角点的连线的长度,计算得到第一坐标,其中,所述第一角点为所述两个角点中的一个;
根据第二角点的所述目标框的中心点坐标及所述目标框的长和宽,确定所述目标框的范围,作为第一范围,其中,所述第二角点为所述两个角点中除所述第一角点外的另一个;
如果所述第一坐标位于所述第一范围内,确定所述两个角点的位置匹配。
3.如权利要求2所述的方法,其特征在于,在所述根据第一角点的所述目标框的中心点坐标、所述第一夹角及所述两个角点的连线的长度,计算得到第一坐标的步骤之前,所述方法还包括:
根据所述第二角点的所述目标框的中心点坐标、所述第一夹角及所述两个角点的连线的长度,计算得到第二坐标;
根据第一角点的所述目标框的中心点坐标及所述目标框的长和宽,确定所述目标框的范围,作为第二范围;
如果所述第二坐标位于所述第二范围内,确定所述第二角点匹配所述第一角点。
4.如权利要求2或3所述的方法,其特征在于,所述角点信息还包括所述矩形检测框经过该角点的两条边线分别与水平方向的第三夹角及第四夹角;
所述基于所述角点信息确定所述矩形检测框的另外两个角点的位置的步骤,包括:
分别从所述第一角点及所述第二角点按照对应的所述第三夹角及所述第四夹角确定两条射线;
将所述射线的交点确定为所述矩形检测框的另外两个角点的位置。
5.如权利要求1-3任一项所述的方法,其特征在于,所述目标对象按照预设速度向预定方向运动;
所述获取待识别图像的步骤,包括:
当所述目标对象运动至预设的最佳拍摄位置时,对所述目标对象进行拍摄,获得所述待识别图像。
6.如权利要求5所述的方法,其特征在于,所述待识别图像为对所述目标对象采集的视频中的一帧图像;
在所述获取待识别图像的步骤之前,所述方法还包括:
按照预设时间间隔从所述视频中抽取目标图像,并将当前抽取的目标图像输入所述深度学习模型,获得所述目标图像中所述目标对象的角点信息;
根据所述角点信息,确定所述两个角点的连线的中点与所述最佳拍摄位置的距离;
根据所述距离及所述按照预设速度,确定所述目标对象运动至所述最佳拍摄位置的目标时长,并开始计时;
当计时时长达到所述目标时长时,确定所述目标对象运动至预设的最佳拍摄位置。
7.如权利要求6所述的方法,其特征在于,所述目标图像中所述目标对象的角点信息仅包括一个角点位置的信息;
所述根据所述角点信息,确定所述两个角点的连线的中点与所述最佳拍摄位置的距离的步骤,包括:
根据所述角点信息,预测另一个角点的位置;
根据所述角点信息包括的一个角点的位置及所预测的另一个角点的位置,确定两个角点的连线的中点;
确定所述中点与所述最佳拍摄位置的距离。
8.如权利要求5所述的方法,其特征在于,所述最佳拍摄位置为多个;
所述将所述待识别图像输入预先训练完成的深度学习模型,根据所述待识别图像的图像特征,获得所述目标对象的角点信息的步骤,包括:
将多个待识别图像分别输入预先训练完成的深度学习模型,根据所述待识别图像的图像特征,获得所述目标对象的多个预测角点信息;
按照预设的所述最佳拍摄位置对应的权重,对所述多个预测角点信息进行加权计算处理,得到处理后的角点信息,作为所述目标对象的角点信息。
9.一种图像中文字的识别装置,其特征在于,所述装置包括:
图像获取模块,用于获取待识别图像,其中,所述待识别图像中包括目标对象;
角点信息识别模块,用于将所述待识别图像输入预先训练完成的深度学习模型,根据所述待识别图像的图像特征,获得所述目标对象的角点信息,其中,所述角点信息为标识矩形检测框的对角线的两个角点位置的信息,所述矩形检测框用于标识所述目标对象在所述待识别图像中所占的区域,所述深度学习模型为基于图像样本的图像特征及其所包括的目标对象的角点信息预先训练完成的;
角点信息匹配模块,用于根据所述角点信息确定所述两个角点的位置是否匹配;
角点位置确定模块,用于如果匹配,基于所述角点信息确定所述矩形检测框的另外两个角点的位置,得到识别结果。
10.一种图像中目标对象的识别系统,其特征在于,包括识别设备和传送设备,其中,
所述传送设备,用于按照预设速度向预定方向运动,以传送目标对象,以使所述识别设备对所述目标对象进行拍摄,并获取待识别图像;
所述识别设备,用于执行权利要求1-8任一所述的方法步骤。
11.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-8任一所述的方法步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-8任一所述的方法步骤。
CN202010345543.2A 2020-04-27 2020-04-27 一种图像中目标对象的识别方法、装置、系统及电子设备 Active CN113642552B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010345543.2A CN113642552B (zh) 2020-04-27 2020-04-27 一种图像中目标对象的识别方法、装置、系统及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010345543.2A CN113642552B (zh) 2020-04-27 2020-04-27 一种图像中目标对象的识别方法、装置、系统及电子设备

Publications (2)

Publication Number Publication Date
CN113642552A true CN113642552A (zh) 2021-11-12
CN113642552B CN113642552B (zh) 2024-03-08

Family

ID=78415061

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010345543.2A Active CN113642552B (zh) 2020-04-27 2020-04-27 一种图像中目标对象的识别方法、装置、系统及电子设备

Country Status (1)

Country Link
CN (1) CN113642552B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116311209A (zh) * 2023-03-28 2023-06-23 北京匠数科技有限公司 窗口检测系统方法、系统和电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101661622A (zh) * 2008-08-26 2010-03-03 索尼株式会社 图像处理装置、图像处理方法及程序
JP2018196046A (ja) * 2017-05-19 2018-12-06 ヤフー株式会社 画像処理装置、画像編集装置、およびプログラム
WO2019024610A1 (zh) * 2017-08-04 2019-02-07 合肥美的智能科技有限公司 图像识别方法、装置、计算机设备和可读存储介质
CN110147708A (zh) * 2018-10-30 2019-08-20 腾讯科技(深圳)有限公司 一种图像数据处理方法和相关装置
CN110378338A (zh) * 2019-07-11 2019-10-25 腾讯科技(深圳)有限公司 一种文本识别方法、装置、电子设备和存储介质
CN110443159A (zh) * 2019-07-17 2019-11-12 新华三大数据技术有限公司 数字识别方法、装置、电子设备及存储介质
CN110929664A (zh) * 2019-11-29 2020-03-27 汉海信息技术(上海)有限公司 图像识别方法以及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101661622A (zh) * 2008-08-26 2010-03-03 索尼株式会社 图像处理装置、图像处理方法及程序
JP2018196046A (ja) * 2017-05-19 2018-12-06 ヤフー株式会社 画像処理装置、画像編集装置、およびプログラム
WO2019024610A1 (zh) * 2017-08-04 2019-02-07 合肥美的智能科技有限公司 图像识别方法、装置、计算机设备和可读存储介质
CN110147708A (zh) * 2018-10-30 2019-08-20 腾讯科技(深圳)有限公司 一种图像数据处理方法和相关装置
CN110378338A (zh) * 2019-07-11 2019-10-25 腾讯科技(深圳)有限公司 一种文本识别方法、装置、电子设备和存储介质
CN110443159A (zh) * 2019-07-17 2019-11-12 新华三大数据技术有限公司 数字识别方法、装置、电子设备及存储介质
CN110929664A (zh) * 2019-11-29 2020-03-27 汉海信息技术(上海)有限公司 图像识别方法以及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116311209A (zh) * 2023-03-28 2023-06-23 北京匠数科技有限公司 窗口检测系统方法、系统和电子设备
CN116311209B (zh) * 2023-03-28 2024-01-19 北京匠数科技有限公司 窗口检测方法、系统和电子设备

Also Published As

Publication number Publication date
CN113642552B (zh) 2024-03-08

Similar Documents

Publication Publication Date Title
CN110766014B (zh) 票据信息定位方法、系统及计算机可读存储介质
CN106156766B (zh) 文本行分类器的生成方法及装置
CN109740606B (zh) 一种图像识别方法及装置
US8942484B2 (en) Text detection using image regions
CN110070090B (zh) 一种基于手写文字识别的物流标签信息检测方法及系统
US11699283B2 (en) System and method for finding and classifying lines in an image with a vision system
CN110619333A (zh) 一种文本行分割方法、文本行分割装置及电子设备
CN107368827A (zh) 字符识别方法及装置、用户设备、服务器
US20080008376A1 (en) Detection and identification of postal indicia
CN109447080A (zh) 一种字符识别方法及装置
CN113158895A (zh) 票据识别方法、装置、电子设备及存储介质
CN113642552B (zh) 一种图像中目标对象的识别方法、装置、系统及电子设备
CN116228678A (zh) 芯片封装缺陷自动识别和处理方法
CN104680142A (zh) 一种基于特征点集分割和rst不变特征的四联指比对方法
CN107680246B (zh) 一种纸币图案中的曲线边界定位方法及设备
CN110909816B (zh) 图片识别方法和装置
CN110148133B (zh) 基于特征点及其结构关系的电路板残片图像识别方法
CN109726722B (zh) 一种字符分割方法及装置
CN108764344B (zh) 一种基于边缘识别卡片的方法、装置及存储设备
CN113221897A (zh) 图像矫正方法、图像文本识别方法、身份验证方法及装置
CN108304838B (zh) 一种图片信息识别方法及终端
CN112883973A (zh) 车牌识别方法、装置、电子设备和计算机存储介质
CN112308061A (zh) 一种车牌字符排序方法、识别方法及装置
CN111914836A (zh) 一种身份证信息提取方法、装置、设备和介质
CN111368774A (zh) 基于交通违法图像的废片回滚方法、系统、终端及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant