CN112818965B - 多尺度影像目标检测方法、系统、电子设备及存储介质 - Google Patents

多尺度影像目标检测方法、系统、电子设备及存储介质 Download PDF

Info

Publication number
CN112818965B
CN112818965B CN202110408550.7A CN202110408550A CN112818965B CN 112818965 B CN112818965 B CN 112818965B CN 202110408550 A CN202110408550 A CN 202110408550A CN 112818965 B CN112818965 B CN 112818965B
Authority
CN
China
Prior art keywords
scale image
target frame
small
scale
object target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110408550.7A
Other languages
English (en)
Other versions
CN112818965A (zh
Inventor
洪勇
晏世武
吴培桐
罗书培
李江
张翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Center Of Hubei Natural Resources Department
Wuhan Optics Valley Information Technology Co ltd
Original Assignee
Information Center Of Hubei Natural Resources Department
Wuhan Optics Valley Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Center Of Hubei Natural Resources Department, Wuhan Optics Valley Information Technology Co ltd filed Critical Information Center Of Hubei Natural Resources Department
Priority to CN202110408550.7A priority Critical patent/CN112818965B/zh
Publication of CN112818965A publication Critical patent/CN112818965A/zh
Application granted granted Critical
Publication of CN112818965B publication Critical patent/CN112818965B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本发明提供一种多尺度影像目标检测方法、系统、电子设备及存储介质,基于小尺度影像训练一个检测模型,利用该检测模型对小尺度影像中的物体目标框进行识别,基于从小尺度影像中识别出的物体目标框,将其映射到大尺度影像中,在大尺度影像中找到同一个物体的目标框,最后利用不同尺度影像对检测模型进行优化,这样不仅增加了检测模型训练集的数据量,还扩展了训练集中影像的尺度,优化后的检测模型适用于识别各种不同尺度影像中的物体目标,提高了目标检测精度。

Description

多尺度影像目标检测方法、系统、电子设备及存储介质
技术领域
本发明涉及图像处理领域,更具体地,涉及一种多尺度影像目标检测方法、系统、电子设备及存储介质。
背景技术
近年来,随着目标检测领域的不断发展与优化,其检测精度达到了要求,而又随着智慧城市概念的提出,其丰富的信息感知网为目标检测提供了基础平台,并且基于感知网中传感器的不同形成了多视角、多尺度、多分辨率的检测数据。
当前目标检测实现效果最好的方式都是使用深度学习技术实现的,例如Yolov5目标检测,而深度学习技术极大的依赖于数据集量的大小。理论上来说,当其他条件相同时,数据集量越大,其目标检测模型精度越高。但是针对一个工程的目标检测任务,通常都是以视频流的方式来收集数据,其数据集的收集是一个费时且费力的工作,并且针对该工程的目标检测,无法保证能够收集到摄像头多尺度的影像,即无法保证在摄像头焦距变化的情况下影像中物体检测的准确性。
发明内容
本发明提供一种克服上述问题或者至少部分地解决上述问题的一种多尺度影像目标检测方法、系统、电子设备及存储介质。
根据本发明的第一方面,提供了一种多尺度影像目标检测方法,包括:将多个小尺度影像输入预设检测模型,获取所述预设检测模型识别的每一个小尺度影像中的第一物体目标框,所述预设检测模型为根据小尺度影像训练集训练得到;将每一个小尺度影像中的第一物体目标框的像素坐标映射到大尺度影像中,获取大尺度影像中同一个物体的第二物体目标框的像素坐标;基于大尺度影像中的第二物体目标框的像素坐标,利用大尺度影像对所述预设检测模型进行优化,获取优化后的检测模型;基于优化后的检测模型,对任一尺度影像中的物体进行识别;其中,所述小尺度影像为相机拍摄的低倍率影像,所述大尺度影像为相机拍摄的高倍率影像。
在上述技术方案的基础上,本发明还可以进行如下改进。
可选的,通过如下方式训练所述预设检测模型:获取相机拍摄的小尺度视频流,从所述小尺度视频流中提取多帧小尺度影像;对于任一帧小尺度影像,标注其中的物体目标框;基于多帧小尺度影像以及标注的每一帧小尺度影像中的物体目标框,对所述预设检测模型进行训练。
可选的,所述将每一个小尺度影像中的物体目标框的像素坐标映射到大尺度影像中,获取大尺度影像中同一个物体的物体目标框的像素坐标,包括:对于任一个识别出的小尺度影像中的第一物体目标框,提取所述第一物体目标框的像素坐标;基于小尺度影像对应的相机的第一内方位参数和第一外方位参数,将所述第一物体目标框的像素坐标转换到世界坐标系,获取所述第一物体目标框的世界坐标;基于大尺度影像对应的相机的第二内方位参数和第二外方位参数,将所述第一物体目标框的世界坐标转换为对应的像素坐标,获取大尺度影像中的所述第二物体目标框的像素坐标。
可选的,所述对于任一个识别出的小尺度影像中的第一物体目标框,提取所述第一物体目标框的像素坐标,包括:提取所述第一物体目标框的左上角点的像素坐标和右下角点的像素坐标;相应的,所述基于小尺度影像对应的相机的第一内方位参数和第一外方位参数,将所述第一物体目标框的像素坐标转换到世界坐标系,获取所述第一物体目标框的世界坐标,包括:基于小尺度影像对应的相机的第一内方位参数和第一外方位参数,将所述第一物体目标框的第一左上角点的像素坐标转换为世界坐标,以及将所述第一物体目标框的第一右下角点的像素坐标转换为世界坐标;相应的,所述基于大尺度影像对应的相机的第二内方位参数和第二外方位参数,将所述第一物体目标框的世界坐标转换为对应的像素坐标,获取大尺度影像中的所述第二物体目标框的像素坐标,包括:基于大尺度影像对应的相机的第二内方位参数和第二外方位参数,将所述第一左上角点的世界坐标转换为像素坐标,得到第二左上角点的像素坐标,以及将所述第一右下角点的世界坐标转换为像素坐标,得到第二右下角点的像素坐标;基于所述第二左上角点的像素坐标和所述第二右下角点的像素坐标,获取第二物体目标框的像素坐标。
可选的,所述基于小尺度影像对应的相机的第一内方位参数和第一外方位参数,将所述第一物体目标框的第一左上角点的像素坐标转换为世界坐标,以及将所述第一物体目标框的第一右下角点的像素坐标转换为世界坐标,包括:对于所述第一左上角点的像素坐标和第一右下角点的像素坐标,通过如下公式计算得到对应的世界坐标:
Figure DEST_PATH_IMAGE001
Figure 100002_DEST_PATH_IMAGE002
其中,Zc为计算三维坐标的尺度因子,dx和dy分别代表像素点在平面坐标系中x方 向和y方向上的像素长度,f为相机的焦距,
Figure DEST_PATH_IMAGE003
Figure 100002_DEST_PATH_IMAGE004
为相机的主距,
Figure DEST_PATH_IMAGE005
Figure 100002_DEST_PATH_IMAGE006
代表 相机的主点;K代表相机的内方位参数,由主点、主距构成,R和T为相机的外方位参数,u、v为 像素点在像素坐标系下的坐标,Xw、Yw和Zw代表世界坐标系下的坐标;对于第一左上角点的 世界坐标和第一右下角点的世界坐标,通过公式(1)反算得到第二左上角点的像素坐标和 第二右下角点的像素坐标,以得到第二物体目标框的像素坐标。
可选的,所述基于大尺度影像中的第二物体目标框的像素坐标,利用大尺度影像对所述预设检测模型进行优化,获取优化后的检测模型,包括:基于大尺度影像中的第二物体目标框的像素坐标与小尺度影像中的第一物体目标框的像素坐标,将大尺度影像与小尺度影像进行融合形成训练集,利用所述训练集对所述预设检测模型进行优化训练。
可选的,所述小尺度影像包括相机拍摄的不同低倍率下的影像,对于相同低倍率,通过相机拍摄物体视场范围内的视频流;同样的,所述大尺度影像包括相机拍摄的不同高倍率下的影像,对于相同高倍率,通过相机拍摄物体视场范围内的视频流。
根据本发明的第二方面,提供一种多尺度影像目标检测系统,包括:获取模块,用于将多个小尺度影像输入预设检测模型,获取所述预设检测模型识别的每一个小尺度影像中的第一物体目标框,所述预设检测模型为根据小尺度影像训练集训练得到;映射模块,用于将每一个小尺度影像中的第一物体目标框的像素坐标映射到大尺度影像中,获取大尺度影像中同一个物体的第二物体目标框的像素坐标;优化模块,用于基于大尺度影像中的第二物体目标框的像素坐标,利用大尺度影像对所述预设检测模型进行优化,获取优化后的检测模型;识别模块,用于基于优化后的检测模型,对任一尺度影像中的物体进行识别;其中,所述小尺度影像为相机拍摄的低倍率影像,所述大尺度影像为相机拍摄的高倍率影像。
根据本发明的第三方面,提供一种电子设备,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现多尺度影像目标检测方法的步骤。
根据本发明的第四方面,提供一种计算机可读存储介质,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现多尺度影像目标检测方法的步骤。
本发明提供的一种多尺度影像目标检测方法、系统、电子设备及存储介质,基于小尺度影像训练一个检测模型,利用该检测模型对小尺度影像中的物体目标框进行识别,基于从小尺度影像中识别出的物体目标框,将其映射到大尺度影像中,在大尺度影像中找到同一个物体的目标框,最后利用不同尺度影像对检测模型进行优化,这样不仅增加了检测模型训练集的数据量,还扩展了训练集中影像的尺度,优化后的检测模型适用于识别各种不同尺度影像中的物体目标,提高了目标检测精度。
附图说明
图1为本发明提供的一种多尺度影像目标检测方法流程图;
图2为本发明提供的小尺度影像坐标变换到大尺度影像坐标的流程图;
图3-1为图像坐标系与像素坐标系之间的转换示意图;
图3-2为世界坐标系与相机坐标系之间的转换示意图;
图3-3为相机坐标系与图像坐标系之间的转换示意图;
图4为本发明提供的一种多尺度影像目标检测方法的整体流程图;
图5为本发明提供的一种多尺度影像目标检测系统的结构示意图;
图6为本发明提供的一种可能的电子设备的硬件结构示意图;
图7为本发明提供的一种可能的计算机可读存储介质的硬件结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1为本发明提供的一种多尺度影像目标检测方法,可适用于任意尺度影像中物体目标的识别,该方法包括:S1,将多个小尺度影像输入预设检测模型,获取所述预设检测模型识别的每一个小尺度影像中的第一物体目标框,所述预设检测模型为根据小尺度影像训练集训练得到;S2,将每一个小尺度影像中的第一物体目标框的像素坐标映射到大尺度影像中,获取大尺度影像中同一个物体的第二物体目标框的像素坐标;S3,基于大尺度影像中的第二物体目标框的像素坐标,利用大尺度影像对所述预设检测模型进行优化,获取优化后的检测模型;S4,基于优化后的检测模型,对任一尺度影像中的物体进行识别;其中,所述小尺度影像为相机拍摄的低倍率影像,所述大尺度影像为相机拍摄的高倍率影像。
可以理解的是,目标检测模型的训练首先需要进行数据的收集与标注,通常情况下获取到的视频流都是摄像机一倍焦距下的,对于具有变焦功能的摄像机,如果不操作摄像头来进行变焦,那么视频流影像的尺度就不够丰富,从而训练出的检测模型对于训练过的图像尺度中的物体检测较为准确,而对于变焦较大的情况下的影像的检测结果就会差强人意。因此如果想要训练出的检测模型对于低倍与高倍影像都有较好的检测结果那就必须收集低倍与高倍的影像数据,但是这个过程是费时费力且不易实现的。
基于此,为实现多尺度影像的目标检测优化,首先对获取的小尺度下视频流进行解析,得到多张小尺度影像,并对每一张小尺度影像中的物体进行标注,识别出小尺度影像中的物体目标框。利用小尺度影像对基于深度学习的目标检测模型进行模型的训练,得到训练后的检测模型。
利用训练后的检测模型对小尺度影像下的物体进行实时检测,得到物体目标框,当摄像头的倍率变大时,通过空间变换知识对小尺度影像获取的目标框进行空间位置关系约束,从而对大尺度下的影像位置不变的物体进行精准的定位。具体的,利用检测模型识别出小尺度影像中的物体目标框的像素坐标,将其映射到大尺度影像中,获取其在大尺度影像中的物体目标框的像素坐标。其中,小尺度影像中的物体目标框与大尺度影像中的物体目标框表示的为同一个物体,只是所在影像的尺度不同。
基于从大尺度影像中提取的物体目标框的像素坐标,将大尺度下的检测数据与小尺度下的目标检测数据进行融合得到多尺度的目标检测数据,并基于迁移学习从而重新训练检测模型,对检测模型进行优化,利用优化后的检测模型对不同尺度影像中的物体进行识别,提升了检测模型的精度。
本发明实施例基于小尺度影像训练一个检测模型,利用该检测模型对小尺度影像中的物体目标框进行识别,基于从小尺度影像中识别出的物体目标框,将其映射到大尺度影像中,在大尺度影像中找到同一个物体的目标框,最后利用不同尺度影像对检测模型进行优化,这样不仅增加了检测模型训练集的数据量,还扩展了训练集中影像的尺度,优化后的检测模型适用于识别各种不同尺度影像中的物体目标,提高了目标检测精度。
在一种可能的实施例方式中,通过如下方式训练所述预设检测模型:获取相机拍摄的小尺度视频流,从小尺度视频流中提取多帧小尺度影像;对于任一帧小尺度影像,标注其中的物体目标框;基于多帧小尺度影像以及标注的每一帧小尺度影像中的物体目标框,对所述预设检测模型进行训练。
可以理解的是,在利用小尺度影像对目标检测模型进行训练之前,需要收集小尺度影像,针对目标检测任务,收集当前需要检测物体场景范围内的摄像头小尺度的视频流,对视频流中的影像进行提取并进行目标的标注,也就是标注出小尺度影像中的物体目标框作为标签。将打完标签后的小尺度影像经过一定的图像增强等一系列操作后输送到Yolov5目标检测网络中进行训练,并最终得到训练好的检测模型,
在一种可能的实施例方式中,所述将每一个小尺度影像中的物体目标框的像素坐标映射到大尺度影像中,获取大尺度影像中同一个物体的物体目标框的像素坐标,包括:对于任一个识别出的小尺度影像中的第一物体目标框,提取所述第一物体目标框的像素坐标;基于小尺度影像对应的相机的第一内方位参数和第一外方位参数,将所述第一物体目标框的像素坐标转换到世界坐标系,获取所述第一物体目标框的世界坐标;基于大尺度影像对应的相机的第二内方位参数和第二外方位参数,将所述第一物体目标框的世界坐标转换为对应的像素坐标,获取大尺度影像中的所述第二物体目标框的像素坐标。
可以理解的是,基于小尺度影像训练出的目标检测模型适用于对小尺度影像中的物体进行识别,该目标检测模型对于大尺度影像中的目标识别精度比较差,因此,利用小尺度影像训练出的目标检测模型不适用于检测大尺度影像中的物体目标。
对于现实场景中的物体来说,如物体位置不变,那么无论物体出现在当前摄像头的哪种倍率影像下,其在世界中的位置是不变的,因此本发明实施例使用摄影测量学知识,利用空间位置关系约束,首先使用小尺度影像下的目标检测模型检测出小尺度影像的物的目标框的像素坐标,将目标框的像素坐标转换为世界坐标。当检测影像换为高倍率时,直接使用检测模型是大概率无法检测出位置不变的物体的,而如果已知该物体的世界坐标,就可以将其坐标映射到当前大尺度影像上的像素坐标去,从而完成大尺度的影像的不动物体的检测。
可参见图2,为将小尺度影像中的物体目标框的像素坐标映射到大尺度影像中的物体目标框的像素坐标的流程图,将小尺度影像输入根据小尺度影像训练后的预设检测模型中,获取由预设检测模型识别的物体目标框的像素坐标(称为第一物体目标框的像素坐标)。获取低倍焦距摄像头的内外方位参数,基于低倍焦距摄像头(对应于小尺度影像)的内外方位参数,将第一物体目标框的像素坐标转换为世界坐标。 获取大尺度影像对应的高倍焦距摄像头的内外方位参数,将第一物体目标框的像素坐标转换为世界坐标再次转换为大尺度影像下的像素坐标,称为第二物体目标框的像素坐标。
在一种可能的实施例方式中,对于任一个识别出的小尺度影像中的第一物体目标框,提取所述第一物体目标框的像素坐标,包括:提取所述第一物体目标框的左上角点的像素坐标和右下角点的像素坐标;相应的,所述基于小尺度影像对应的相机的第一内方位参数和第一外方位参数,将所述第一物体目标框的像素坐标转换到世界坐标系,获取所述第一物体目标框的世界坐标,包括:基于小尺度影像对应的相机的第一内方位参数和第一外方位参数,将所述第一物体目标框的第一左上角点的像素坐标转换为世界坐标,以及将所述第一物体目标框的第一右下角点的像素坐标转换为世界坐标;相应的,所述基于大尺度影像对应的相机的第二内方位参数和第二外方位参数,将所述第一物体目标框的世界坐标转换为对应的像素坐标,获取大尺度影像中的所述第二物体目标框的像素坐标,包括:基于大尺度影像对应的相机的第二内方位参数和第二外方位参数,将所述第一左上角点的世界坐标转换为像素坐标,得到第二左上角点的像素坐标,以及将所述第一右下角点的世界坐标转换为像素坐标,得到第二右下角点的像素坐标;基于所述第二左上角点的像素坐标和所述第二右下角点的像素坐标,获取第二物体目标框的像素坐标。
可以理解的是,在将第一物体目标框的像素坐标转换为世界坐标,再由世界坐标转换为大尺度影像下的第二物体目标框的像素坐标的过程中,首先,在得到第一物体目标框后,提取其左上角点的像素坐标和右下角点的像素坐标,称为第一左上角点像素坐标和第一右下角点像素坐标。基于低倍焦距摄像头的内外方位参数,将第一左上角点像素坐标转换为对应的世界坐标,以及将第一右下角点像素坐标转换为对应的世界坐标。基于高倍焦距摄像头的内外方位参数,将第一左上角点像素坐标对应的世界坐标再次转换为大尺度影像下的第二左上角点像素坐标,以及将第一右下角点像素坐标对应的世界坐标再次转换为大尺度影像下的第二右下角点像素坐标。根据第二左上角点像素坐标和第二右下角点像素坐标,可得到大尺度影像下的第二物体目标框的像素坐标。
在一种可能的实施例方式中,基于小尺度影像对应的相机的第一内方位参数和第一外方位参数,将第一物体目标框的第一左上角点的像素坐标转换为世界坐标,以及将所述第一物体目标框的第一右下角点的像素坐标转换为世界坐标,包括:
对于所述第一左上角点的像素坐标和第一右下角点的像素坐标,通过如下公式计算得到对应的世界坐标:
Figure 472958DEST_PATH_IMAGE001
Figure 655677DEST_PATH_IMAGE002
其中,Zc为计算三维坐标的尺度因子,dx和dy分别代表像素点在平面坐标系中x方 向和y方向上的像素长度,f为相机的焦距,
Figure 232152DEST_PATH_IMAGE003
Figure 158520DEST_PATH_IMAGE004
为相机的主距,
Figure 504051DEST_PATH_IMAGE005
Figure 857672DEST_PATH_IMAGE006
代表 相机的主点;K代表相机的内方位参数,由主点、主距构成,R和T为相机的外方位参数,u、v为 像素点在像素坐标系下的坐标,Xw、Yw和Zw代表世界坐标系下的坐标;对于第一左上角点的 世界坐标和第一右下角点的世界坐标,通过公式(1)反算得到第二左上角点的像素坐标和 第二右下角点的像素坐标,以得到第二物体目标框的像素坐标。
可以理解的是,假设已知摄像头小尺度和大尺度下的内外方位元素,即
Figure DEST_PATH_IMAGE007
Figure 100002_DEST_PATH_IMAGE008
,利用当前检测模型对小尺度影像数据进行检测,得到检测物 体的目标框左上角点像素坐标
Figure DEST_PATH_IMAGE009
和右下角点
Figure 100002_DEST_PATH_IMAGE010
,利用上述公式(1)计算出物体 的世界位置Xw、Yw和Zw。当需要检测大尺度影像数据,由于检测模型的训练数据的多样性问 题,对高倍影像检测效果较差或者检测不出来物体,此时如果当前检测物体位置不变,即世 界坐标不变,因此又利用上述的公式(1)进行反算,得到高倍影像的物体的检测框左上角点
Figure DEST_PATH_IMAGE011
和右下角点
Figure 100002_DEST_PATH_IMAGE012
此时得到的高倍影像物体的检测的目标框较为精确,其在三 维空间的转换形式如图3所示,以像素点p(x,y)为例,逐步图像坐标系、相机坐标系、世界坐 标系,而映射到大尺度影像中,其结算过程反过来,其中,图3-1为图像坐标系与像素坐标系 之间的转换关系示意图,图3-2为世界坐标系与相机坐标系之间的转换关系示意图,图3-3 为相机坐标系与图像坐标系之间的转换关系示意图。
在一种可能的实施例方式中,所述基于大尺度影像中的第二物体目标框的像素坐标,利用大尺度影像对所述预设检测模型进行优化,获取优化后的检测模型,包括:基于大尺度影像中的第二物体目标框的像素坐标与小尺度影像中的第一物体目标框的像素坐标,将大尺度影像与小尺度影像进行融合形成训练集,利用所述训练集对所述预设检测模型进行优化训练。
可以理解的是,当通过转换后得到的大尺度影像中的第二物体目标框像素坐标,将大尺度影像和小尺度影像进行融合,形成新的训练集,利用新的训练集对前述的预设检测模型进行优化训练,得到优化训练后的检测模型。
参见图4,为本发明实施例的多尺度影像目标检测方法的整体流程图,为实现多尺度影像的目标检测优化,首先对获取的小尺度下视频流进行解析并对影像中的物体进行标注,进而使用基于深度学习的目标检测模型进行模型的训练,然后对小尺度影像下的物体进行实时检测,得到目标框,当摄像头的倍率变大时,通过空间变换知识对小尺度影像获取的目标框进行空间位置关系约束,从而对大尺度下的影像位置不变的物体进行精准的定位,并将大尺度下的检测数据与低倍率下的目标检测数据进行融合得到多尺度的目标检测数据,并基于迁移学习从而重新训练提升检测模型的精度。
其中,基于基于深度学习的检测模型的优化问题,如果使用的检测模型框架是既定的,那么其优化需要从数据方面入手:1)增加数据量;2)增加数据的多样性。纯粹的增加数据量会导致模型的过拟合,纯粹的增加数据的多样性会导致模型无法提取出共有特征而导致模型的欠拟合,因此要综合考虑数据量以及数据的多样性。迁移学习是把已训练好的模型(预训练模型)参数迁移到新的模型来帮助新模型训练。考虑到大部分数据或任务都是存在相关性的,所以通过迁移学习可以将已经学到的模型参数(也可理解为模型学到的知识)通过某种方式来分享给新模型从而加快并优化模型的学习效率不用像大多数网络那样从零学习,因此当使用较少数据量训练出一个模型后,后期增加新的数据,可直接在原有的模型上进行优化,而不必重新训练出一个模型,模型如下。
当前检测模型中相邻两层训练出模型产生为:
Figure DEST_PATH_IMAGE013
其中x代表相邻两层中上一层的特征图;而w由多种权重参数构成,在卷积层中代表卷积核的权重,而在全连接层中代表线性关系的权重。
当进行迁移学习后,其权重w进行了优化,变为了
Figure DEST_PATH_IMAGE014
,即:
Figure DEST_PATH_IMAGE015
本发明刚开始使用的是小尺度下的数据训练出的模型,其模型对于小尺度下的视频流数据精度较高,而对于大尺度下的影像检测效果不佳。而使用空间位置关系约束,能够将小尺度影像下的目标框的像素坐标映射到大尺度影像下位置不变的物体上,从而得到大尺度影像下物体的像素目标框。此时将得到的高倍影像的检测数据加入到当前检测模型中进行优化,从而得到新的检测模型,该模型对于低倍影像和高倍影像都有较好的检测效果。
在一种可能的实施例方式中,所述小尺度影像包括相机拍摄的不同低倍率下的影像,对于相同低倍率,通过相机拍摄物体视场范围内的视频流;同样的,大尺度影像包括相机拍摄的不同高倍率下的影像,对于相同高倍率,通过相机拍摄物体视场范围内的视频流。
其中,需要说明的是,前述的小尺度影像可以包括多个不同低倍率下的影像,并不限于一种低倍率下的影像数据。同样的,大尺度影像可以包括多个不同高倍率下的影像,并不局限于一种高倍率下的影像数据。
图5为本发明提供的一种多尺度影像目标检测系统的结构示意图,如图5所示,目标检测系统包括获取模块51、映射模块52、优化模块53和识别模块54,其中:获取模块51,用于将多个小尺度影像输入预设检测模型,获取所述预设检测模型识别的每一个小尺度影像中的第一物体目标框,所述预设检测模型为根据小尺度影像训练集训练得到;映射模块52,用于将每一个小尺度影像中的第一物体目标框的像素坐标映射到大尺度影像中,获取大尺度影像中同一个物体的第二物体目标框的像素坐标;优化模块53,用于基于大尺度影像中的第二物体目标框的像素坐标,利用大尺度影像对所述预设检测模型进行优化,获取优化后的检测模型;识别模块54,用于基于优化后的检测模型,对任一尺度影像中的物体进行识别;其中,所述小尺度影像为相机拍摄的低倍率影像,所述大尺度影像为相机拍摄的高倍率影像。
可以理解的是,本发明实施例提供的多尺度影像目标检测系统与前述各实施例提供的多尺度影像目标检测方法相对应,多尺度影像目标检测系统的相关技术特征可参考多尺度影像目标检测方法的相关技术特征,在此不再赘述。
请参阅图6,图6为本发明实施例提供的电子设备的实施例示意图。如图6所示,本发明实施例提了一种电子设备,包括存储器610、处理器620及存储在存储器620上并可在处理器620上运行的计算机程序611,处理器620执行计算机程序611时实现以下步骤:将多个小尺度影像输入预设检测模型,获取所述预设检测模型识别的每一个小尺度影像中的第一物体目标框,所述预设检测模型为根据小尺度影像训练集训练得到;将每一个小尺度影像中的第一物体目标框的像素坐标映射到大尺度影像中,获取大尺度影像中同一个物体的第二物体目标框的像素坐标;基于大尺度影像中的第二物体目标框的像素坐标,利用大尺度影像对所述预设检测模型进行优化,获取优化后的检测模型;基于优化后的检测模型,对任一尺度影像中的物体进行识别;其中,所述小尺度影像为相机拍摄的低倍率影像,所述大尺度影像为相机拍摄的高倍率影像。
请参阅图7,图7为本发明实施例提供的一种计算机可读存储介质的实施例示意图。如图7所示,本实施例提供了一种计算机可读存储介质700,其上存储有计算机程序711,该计算机程序711被处理器执行时实现如下步骤:将多个小尺度影像输入预设检测模型,获取所述预设检测模型识别的每一个小尺度影像中的第一物体目标框,所述预设检测模型为根据小尺度影像训练集训练得到;将每一个小尺度影像中的第一物体目标框的像素坐标映射到大尺度影像中,获取大尺度影像中同一个物体的第二物体目标框的像素坐标;基于大尺度影像中的第二物体目标框的像素坐标,利用大尺度影像对所述预设检测模型进行优化,获取优化后的检测模型;基于优化后的检测模型,对任一尺度影像中的物体进行识别;其中,所述小尺度影像为相机拍摄的低倍率影像,所述大尺度影像为相机拍摄的高倍率影像。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

Claims (9)

1.一种多尺度影像目标检测方法,其特征在于,包括:
将多个小尺度影像输入预设检测模型,获取所述预设检测模型识别的每一个小尺度影像中的第一物体目标框,所述预设检测模型为根据小尺度影像训练集训练得到;
将每一个小尺度影像中的第一物体目标框的像素坐标映射到大尺度影像中,获取大尺度影像中同一个物体的第二物体目标框的像素坐标;
基于大尺度影像中的第二物体目标框的像素坐标,利用大尺度影像对所述预设检测模型进行优化,获取优化后的检测模型;
基于优化后的检测模型,对任一尺度影像中的物体进行识别;
其中,所述小尺度影像为相机拍摄的低倍率影像,所述大尺度影像为相机拍摄的高倍率影像;
其中,所述将每一个小尺度影像中的物体目标框的像素坐标映射到大尺度影像中,获取大尺度影像中同一个物体的物体目标框的像素坐标,包括:
对于任一个识别出的小尺度影像中的第一物体目标框,提取所述第一物体目标框的像素坐标;
基于小尺度影像对应的相机的第一内方位参数和第一外方位参数,将所述第一物体目标框的像素坐标转换到世界坐标系,获取所述第一物体目标框的世界坐标;
基于大尺度影像对应的相机的第二内方位参数和第二外方位参数,将所述第一物体目标框的世界坐标转换为对应的像素坐标,获取大尺度影像中的所述第二物体目标框的像素坐标。
2.根据权利要求1所述的目标检测方法,其特征在于,通过如下方式训练所述预设检测模型:
获取相机拍摄的小尺度视频流,从所述小尺度视频流中提取多帧小尺度影像;
对于任一帧小尺度影像,标注其中的物体目标框;
基于多帧小尺度影像以及标注的每一帧小尺度影像中的物体目标框,对所述预设检测模型进行训练。
3.根据权利要求1所述的目标检测方法,其特征在于,所述对于任一个识别出的小尺度影像中的第一物体目标框,提取所述第一物体目标框的像素坐标,包括:
提取所述第一物体目标框的左上角点的像素坐标和右下角点的像素坐标;
相应的,所述基于小尺度影像对应的相机的第一内方位参数和第一外方位参数,将所述第一物体目标框的像素坐标转换到世界坐标系,获取所述第一物体目标框的世界坐标,包括:
基于小尺度影像对应的相机的第一内方位参数和第一外方位参数,将所述第一物体目标框的第一左上角点的像素坐标转换为世界坐标,以及将所述第一物体目标框的第一右下角点的像素坐标转换为世界坐标;
相应的,所述基于大尺度影像对应的相机的第二内方位参数和第二外方位参数,将所述第一物体目标框的世界坐标转换为对应的像素坐标,获取大尺度影像中的所述第二物体目标框的像素坐标,包括:
基于大尺度影像对应的相机的第二内方位参数和第二外方位参数,将所述第一左上角点的世界坐标转换为像素坐标,得到第二左上角点的像素坐标,以及将所述第一右下角点的世界坐标转换为像素坐标,得到第二右下角点的像素坐标;
基于所述第二左上角点的像素坐标和所述第二右下角点的像素坐标,获取第二物体目标框的像素坐标。
4.根据权利要求3所述的目标检测方法,其特征在于,所述基于小尺度影像对应的相机的第一内方位参数和第一外方位参数,将所述第一物体目标框的第一左上角点的像素坐标转换为世界坐标,以及将所述第一物体目标框的第一右下角点的像素坐标转换为世界坐标,包括:
对于所述第一左上角点的像素坐标和第一右下角点的像素坐标,通过如下公式计算得到对应的世界坐标:
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE004
其中,Zc为计算三维坐标的尺度因子,dx和dy分别代表像素点在平面坐标系中x方向和y 方向上的像素长度,f为相机的焦距,
Figure DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE008
为相机的主距,
Figure DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE012
代表相机 的主点;K代表相机的内方位参数,由主点、主距构成,R和T为相机的外方位参数,u、v为像素 点在像素坐标系下的坐标,Xw、Yw和Zw代表世界坐标系下的坐标;
对于第一左上角点的世界坐标和第一右下角点的世界坐标,通过公式(1)反算得到第二左上角点的像素坐标和第二右下角点的像素坐标,以得到第二物体目标框的像素坐标。
5.根据权利要求1-4任一项所述的目标检测方法,其特征在于,所述基于大尺度影像中的第二物体目标框的像素坐标,利用大尺度影像对所述预设检测模型进行优化,获取优化后的检测模型,包括:
基于大尺度影像中的第二物体目标框的像素坐标与小尺度影像中的第一物体目标框的像素坐标,将大尺度影像与小尺度影像进行融合形成训练集,利用所述训练集对所述预设检测模型进行优化训练。
6.根据权利要求5所述的目标检测方法,其特征在于,所述小尺度影像包括相机拍摄的不同低倍率下的影像,对于相同低倍率,通过相机拍摄物体视场范围内的视频流;
同样的,所述大尺度影像包括相机拍摄的不同高倍率下的影像,对于相同高倍率,通过相机拍摄物体视场范围内的视频流。
7.一种多尺度影像目标检测系统,其特征在于,包括:
获取模块,用于将多个小尺度影像输入预设检测模型,获取所述预设检测模型识别的每一个小尺度影像中的第一物体目标框,所述预设检测模型为根据小尺度影像训练集训练得到;
映射模块,用于将每一个小尺度影像中的第一物体目标框的像素坐标映射到大尺度影像中,获取大尺度影像中同一个物体的第二物体目标框的像素坐标;
优化模块,用于基于大尺度影像中的第二物体目标框的像素坐标,利用大尺度影像对所述预设检测模型进行优化,获取优化后的检测模型;
识别模块,用于基于优化后的检测模型,对任一尺度影像中的物体进行识别;
其中,所述小尺度影像为相机拍摄的低倍率影像,所述大尺度影像为相机拍摄的高倍率影像;
其中,映射模块具体用于:
对于任一个识别出的小尺度影像中的第一物体目标框,提取所述第一物体目标框的像素坐标;
基于小尺度影像对应的相机的第一内方位参数和第一外方位参数,将所述第一物体目标框的像素坐标转换到世界坐标系,获取所述第一物体目标框的世界坐标;
基于大尺度影像对应的相机的第二内方位参数和第二外方位参数,将所述第一物体目标框的世界坐标转换为对应的像素坐标,获取大尺度影像中的所述第二物体目标框的像素坐标。
8.一种电子设备,其特征在于,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现如权利要求1-6任一项所述的多尺度影像目标检测方法的步骤。
9.一种计算机可读存储介质,其特征在于,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现如权利要求1-6任一项所述的多尺度影像目标检测方法的步骤。
CN202110408550.7A 2021-04-16 2021-04-16 多尺度影像目标检测方法、系统、电子设备及存储介质 Active CN112818965B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110408550.7A CN112818965B (zh) 2021-04-16 2021-04-16 多尺度影像目标检测方法、系统、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110408550.7A CN112818965B (zh) 2021-04-16 2021-04-16 多尺度影像目标检测方法、系统、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112818965A CN112818965A (zh) 2021-05-18
CN112818965B true CN112818965B (zh) 2021-07-30

Family

ID=75863606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110408550.7A Active CN112818965B (zh) 2021-04-16 2021-04-16 多尺度影像目标检测方法、系统、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112818965B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038448A (zh) * 2017-03-01 2017-08-11 中国科学院自动化研究所 目标检测模型构建方法
CN109934236A (zh) * 2019-01-24 2019-06-25 杰创智能科技股份有限公司 一种基于深度学习的多尺度转换目标检测算法
CN110163287A (zh) * 2019-05-24 2019-08-23 三亚中科遥感研究所 一种中尺度涡检测方法及装置
CN112241656A (zh) * 2019-07-17 2021-01-19 上海肇观电子科技有限公司 图像检测方法和设备、处理器芯片电路以及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10147019B2 (en) * 2017-03-20 2018-12-04 Sap Se Small object detection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038448A (zh) * 2017-03-01 2017-08-11 中国科学院自动化研究所 目标检测模型构建方法
CN109934236A (zh) * 2019-01-24 2019-06-25 杰创智能科技股份有限公司 一种基于深度学习的多尺度转换目标检测算法
CN110163287A (zh) * 2019-05-24 2019-08-23 三亚中科遥感研究所 一种中尺度涡检测方法及装置
CN112241656A (zh) * 2019-07-17 2021-01-19 上海肇观电子科技有限公司 图像检测方法和设备、处理器芯片电路以及存储介质

Also Published As

Publication number Publication date
CN112818965A (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
CN111340797A (zh) 一种激光雷达与双目相机数据融合检测方法及系统
CN109903331B (zh) 一种基于rgb-d相机的卷积神经网络目标检测方法
CN113450408B (zh) 一种基于深度相机的非规则物体位姿估计方法及装置
CN113408584B (zh) Rgb-d多模态特征融合3d目标检测方法
CN113221647B (zh) 一种融合点云局部特征的6d位姿估计方法
CN110310305B (zh) 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置
CN109063549B (zh) 基于深度神经网络的高分辨率航拍视频运动目标检测方法
CN112801047B (zh) 缺陷检测方法、装置、电子设备及可读存储介质
CN110544202A (zh) 一种基于模板匹配与特征聚类的视差图像拼接方法及系统
CN110827312A (zh) 一种基于协同视觉注意力神经网络的学习方法
EP3185212B1 (en) Dynamic particle filter parameterization
CN112183506A (zh) 一种人体姿态生成方法及其系统
CN111898566B (zh) 姿态估计方法、装置、电子设备和存储介质
CN113592015B (zh) 定位以及训练特征匹配网络的方法和装置
CN107948586A (zh) 基于视频拼接的跨区域运动目标检测方法和装置
CN112669452B (zh) 一种基于卷积神经网络多分支结构的物体定位方法
Tao et al. F-pvnet: Frustum-level 3-d object detection on point–voxel feature representation for autonomous driving
CN111368637B (zh) 一种基于多掩模卷积神经网络的搬运机器人识别目标方法
CN113313176A (zh) 一种基于动态图卷积神经网络的点云分析方法
CN112651294A (zh) 基于多尺度融合的遮挡人体姿势识别方法
CN112818965B (zh) 多尺度影像目标检测方法、系统、电子设备及存储介质
CN115205654A (zh) 一种新型基于关键点约束的单目视觉3d目标检测方法
CN114693951A (zh) 一种基于全局上下文信息探索的rgb-d显著性目标检测方法
CN111160255B (zh) 一种基于三维卷积网络的捕鱼行为识别方法及系统
CN112270357A (zh) Vio视觉系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant