CN112528974A - 测距方法、装置、电子设备及可读存储介质 - Google Patents
测距方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN112528974A CN112528974A CN202110180045.1A CN202110180045A CN112528974A CN 112528974 A CN112528974 A CN 112528974A CN 202110180045 A CN202110180045 A CN 202110180045A CN 112528974 A CN112528974 A CN 112528974A
- Authority
- CN
- China
- Prior art keywords
- image
- angle
- target object
- module
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000001514 detection method Methods 0.000 claims abstract description 138
- 230000011218 segmentation Effects 0.000 claims abstract description 50
- 239000013598 vector Substances 0.000 claims description 159
- 238000000605 extraction Methods 0.000 claims description 92
- 230000004927 fusion Effects 0.000 claims description 48
- 238000011176 pooling Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 8
- 239000011800 void material Substances 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 30
- 238000005070 sampling Methods 0.000 description 22
- 238000012549 training Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 8
- 238000005259 measurement Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000000691 measurement method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/32—Indexing scheme for image data processing or generation, in general involving image mosaicing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种测距方法、装置、电子设备及可读存储介质,涉及计算机技术领域。该方法通过目标检测模型对图像中的对象进行检测,通过角度预测模型获得目标对象与拍摄设备之间的角度信息,通过语义分割模型检测出图像中属于目标对象的像素点,从而可以基于这角度信息和像素点信息获取目标对象与拍摄设备之间的距离,无需对拍摄装置进行参数标定,本方案省去了双目测距方式中需要对摄像头参数标定的繁琐过程,测距方式更简单,时间更短、效率更高。
Description
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种测距方法、装置、电子设备及可读存储介质。
背景技术
在人工智能时代,基于视觉的目标测距技术因其成本低、使用环境广泛等优势,在无人驾驶、虚拟现实、机器人等领域发挥重要作用。常见的基于立体视觉测距方法中,往往是直接对获取的双目立体图形对进行处理,也就是采用双目测距原理进行测距。其双目测距是利用摄像头和摄像头标定参数来进行测距,其实现过程是模拟人类视觉原理,使用计算机被动感知距离的方法,从两个或多个点观察一个物体,获取在不同视角下的图像,根据图像之间像素的匹配关系,通过三角测量原理计算出像素之间的偏移来获取物体的三维信息。
现有的测距方式需要对摄像头的参数进行标定,其标定过程比较复杂,从而使得测距时间比较长,测距效率比较低的问题。
发明内容
本申请实施例的目的在于提供一种测距方法、装置、电子设备及可读存储介质,用以改善现有技术中测距时间长、测距效率低的问题。
第一方面,本申请实施例提供了一种测距方法,所述方法包括:
通过目标检测模型对输入图像中的对象进行检测,根据所述目标检测模型输出的检测框分割出包含目标对象的分割图像;
通过角度预测模型提取所述分割图像的角度嵌入向量,所述角度嵌入向量表征所述目标对象与拍摄所述输入图像的拍摄设备之间的角度信息;
通过语义分割模型提取所述分割图像的语义嵌入向量,所述语义嵌入向量表征所述分割图像中每个像素点属于所述目标对象的概率;
根据所述角度嵌入向量和所述语义嵌入向量,获取所述目标对象与所述拍摄设备之间的距离。
在上述实现过程中,通过目标检测模型对图像中的目标进行检测,通过角度预测模型获得目标对象与拍摄设备之间的角度信息,通过语义分割模型检测出图像中属于目标对象的像素点,从而可以基于这角度信息和像素点信息获取目标对象与拍摄设备之间的距离,无需对拍摄装置进行参数标定,本方案省去了双目测距方式中需要对摄像头参数标定的繁琐过程,测距方式更简单,时间更短、效率更高。
可选地,所述目标检测模型包括多个第一特征提取模块、特征融合模块和输出模块;所述通过目标检测模型对输入图像中的对象进行检测,包括:
通过每个第一特征提取模块提取所述输入图像的图像特征;
通过所述特征融合模块将各个第一特征提取模块提取的图像特征进行融合,获得融合特征;
通过输出模块根据所述融合特征对所述输入图像中的对象进行检测,输出目标对象对应的检测框。
在上述实现过程中,通过设置多个第一特征提取模块可以有效提取输入图像中不同尺度的特征,通过特征融合模块对特征进行融合可以有效融合不同尺度的特征,从而可提高对目标检测的准确性。
可选地,每个第一特征提取模块包括可切换卷积层,所述可切换卷积层包括至少两个卷积分支,所述通过每个第一特征提取模块提取所述输入图像的图像特征,包括:
通过每个卷积分支提取所述输入图像的图像特征;
根据每个卷积分支提取的图像特征确定输出的图像特征,所述输出的图像特征为所述输入图像的图像特征。
在上述实现过程中,通过设置多个卷积分支,可以使得目标检测模型选择输出哪个卷积分支输出的图像特征,以便于选择对目标检测更有利的图像特征。
可选地,所述至少两个卷积分支中的一个分支为卷积层,另一个分支为空洞卷积层。从而可以让目标检测模型对感受野大小具有灵活的选择性,从而使得目标检测模型的表现力更加聚焦到感兴趣的像素,以更好地提取目标对象的图像特征。
可选地,所述输出模块包括瓶颈层,所述通过输出模块根据所述融合特征对所述输入图像中的对象进行检测,输出目标对象对应的检测框,包括:
通过所述瓶颈层基于所述融合特征提取所述输入图像中每个像素点和所述输入图像之间的位置关系;
根据所述位置关系确定所述输入图像中所述目标对象对应的检测框。
在上述实现过程中,通过提取输入图像中每个像素点与整张图像之间的关系,这样可以更好地建模图像中目标间的相对大小,利用背景信息输出更准确的目标距离检测结果。
可选地,所述角度预测模型包括多个第二特征提取模块、角度嵌入向量投射模块和角度输出模块,所述通过角度预测模型提取所述分割图像的角度嵌入向量,包括:
通过所述多个第二特征提取模块提取所述分割图像的图像特征;
通过所述角度嵌入向量投射模块对所述图像特征进行平均池化,获得多维嵌入向量;
通过所述角度输出模块根据所述多维嵌入向量获得表征欧拉角的角度嵌入向量。
在上述实现过程中,通过角度预测模块可以快速且准确预测获得目标对象和拍摄设备之间的角度信息。
可选地,所述语义分割模型包括多个第三特征提取模块、语义嵌入向量投射模块和语义预测模块,所述通过语义分割模型提取所述分割图像的语义嵌入向量,包括:
通过所述多个第三特征提取模块提取所述分割图像的图像特征;
通过所述语义嵌入向量投射模块对所述图像特征进行平均池化,获得多维嵌入向量;
通过所述语义预测模块根据所述多维嵌入向量获得表征每个像素点属于所述目标对象的概率的语义嵌入向量。
在上述实现过程中,通过语义分割模型对目标对象的像素点进行检测,可以准确检测出分割图像中属于目标对象的像素点,这样可以知晓目标对象在输入图像中的大小,以使得进行距离检测时可以获得更精准的距离检测结果。
可选地,所述根据所述角度嵌入向量和所述语义嵌入向量,获取所述目标对象与所述拍摄设备之间的距离,包括:
将所述角度嵌入向量与所述语义嵌入向量进行拼接,获得拼接向量;
通过全连接层根据所述拼接向量对所述目标对象与所述拍摄设备之间的距离进行预测,获得所述目标对象与所述拍摄设备之间的距离。
在上述实现过程中,通过全连接层根据拼接向量可快速预测出目标对象和拍摄设备之间的距离。
第二方面,本申请实施例提供了一种测距装置,所述装置包括:
目标检测模块,用于通过目标检测模型对输入图像中的对象进行检测,根据所述目标检测模型输出的检测框分割出包含目标对象的分割图像;
角度预测模块,用于通过角度预测模型提取所述分割图像的角度嵌入向量,所述角度嵌入向量表征所述目标对象与拍摄所述输入图像的拍摄设备之间的角度信息;
语义分割模块,用于通过语义分割模型提取所述分割图像的语义嵌入向量,所述语义嵌入向量表征所述分割图像中每个像素点属于所述目标对象的概率;
距离检测模块,用于根据所述角度嵌入向量和所述语义嵌入向量,获取所述目标对象与所述拍摄设备之间的距离。
可选地,所述目标检测模型包括多个第一特征提取模块、特征融合模块和输出模块;所述目标检测模块,用于通过每个第一特征提取模块提取所述输入图像的图像特征;通过所述特征融合模块将各个第一特征提取模块提取的图像特征进行融合,获得融合特征;通过输出模块根据所述融合特征对所述输入图像中的对象进行检测,输出目标对象对应的检测框。
可选地,每个第一特征提取模块包括可切换卷积层,所述可切换卷积层包括至少两个卷积分支,所述目标检测模块,用于通过每个卷积分支提取所述输入图像的图像特征;根据每个卷积分支提取的图像特征确定输出的图像特征,所述输出的图像特征为所述输入图像的图像特征。
可选地,所述至少两个卷积分支中的一个分支为卷积层,另一个分支为空洞卷积层。
可选地,所述输出模块包括瓶颈层,所述目标检测模块,用于通过所述瓶颈层基于所述融合特征提取所述输入图像中每个像素点和所述输入图像之间的位置关系;根据所述位置关系确定所述输入图像中所述目标对象对应的检测框。
可选地,所述角度预测模型包括多个第二特征提取模块、角度嵌入向量投射模块和角度输出模块,所述角度预测模块,用于通过所述多个第二特征提取模块提取所述分割图像的图像特征;通过所述角度嵌入向量投射模块对所述图像特征进行平均池化,获得多维嵌入向量;通过所述角度输出模块根据所述多维嵌入向量获得表征欧拉角的角度嵌入向量。
可选地,所述语义分割模型包括多个第三特征提取模块、语义嵌入向量投射模块和语义预测模块,所述语义分割模块,用于通过所述多个第三特征提取模块提取所述分割图像的图像特征;通过所述语义嵌入向量投射模块对所述图像特征进行平均池化,获得多维嵌入向量;通过所述语义预测模块根据所述多维嵌入向量获得表征每个像素点属于所述目标对象的概率的语义嵌入向量。
可选地,所述距离检测模块,用于将所述角度嵌入向量与所述语义嵌入向量进行拼接,获得拼接向量;通过全连接层根据所述拼接向量对所述目标对象与所述拍摄设备之间的距离进行预测,获得所述目标对象与所述拍摄设备之间的距离。
第三方面,本申请实施例提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第一方面提供的所述方法中的步骤。
第四方面,本申请实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种用于执行测距方法的电子设备的结构示意图;
图2为本申请实施例提供的一种测距方法的流程图;
图3为本申请实施例提供的一种目标检测模型的详细结构示意图;
图4为本申请实施例提供的一种可切换卷积层的结构示意图;
图5为本申请实施例提供的一种瓶颈层的结构示意图;
图6为本申请实施例提供的一种全局信息层的结构示意图;
图7为本申请实施例提供的一种角度预测模型的结构示意图;
图8为本申请实施例提供的一种语义分割模型的结构示意图;
图9为本申请实施例提供的一种距离预测模型的结构示意图;
图10为本申请实施例提供的一种整体网络模型的结构示意图;
图11为本申请实施例提供的一种测距装置的结构框图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述。
本申请实施例提供一种测距方法,通过目标检测模型对图像中的对象进行检测,通过角度预测模型获得目标对象与拍摄设备之间的角度信息,通过语义分割模型检测出图像中属于目标对象的像素点,从而可以基于这角度信息和图像中属于目标对象的像素点这两者信息获取目标对象与拍摄设备之间的距离,无需对拍摄装置进行参数标定,本方案省去了双目测距方式中需要对摄像头参数标定的繁琐过程,测距方式更简单,时间更短、效率更高。
请参照图1,图1为本申请实施例提供的一种用于执行测距方法的电子设备的结构示意图,所述电子设备可以包括:至少一个处理器110,例如CPU,至少一个通信接口120,至少一个存储器130和至少一个通信总线140。其中,通信总线140用于实现这些组件直接的连接通信。其中,本申请实施例中设备的通信接口120用于与其他节点设备进行信令或数据的通信。存储器130可以是高速RAM存储器,也可以是非易失性的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器130可选的还可以是至少一个位于远离前述处理器的存储装置。存储器130中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器110执行时,电子设备执行下述图2所示方法过程,例如,存储器130可用于存储输入图像、分割图像等信息,处理器110可用于运行目标检测模型、角度预测模型和语义分割模型等,用于通过目标检测模型对输入图像中的对象进行检测,以及通过角度预测模型提取分割图像的角度嵌入向量,通过语义分割摸提取分割图像的语义嵌入向量,然后根据角度嵌入向量和语义嵌入向量获取目标对象与拍摄设备之间的距离。
可以理解,图1所示的结构仅为示意,所述电子设备还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
在安全巡检、森林防火等业务场景下,为了便于进行智能监控,一般使用无人机进行智能无人作业,所以,在某些场景下,上述的电子设备可以为终端设备或服务器等设备,无人机可以与电子设备远程通信,无人机将采集的图像发送至电子设备,由电子设备对图像进行相应的处理,以获得图像中的目标对象与无人机之间的距离。当然,电子设备也可以为无人机,即电子设备可以为拍摄设备,本申请实施例中的模型可以部署在电子设备中。
请参照图2,图2为本申请实施例提供的一种测距方法的流程图,该方法包括如下步骤:
步骤S110:通过目标检测模型对输入图像中的对象进行检测,根据所述目标检测模型输出的检测框分割出包含目标对象的分割图像。
输入图像是指通过拍摄设备拍摄获得的图像,其中,在不同应用场景下,拍摄设备可以不同,如拍摄设备可以为无人机、机器人、监控摄像头等具有图像采集功能的设备。
输入图像中的对象可以是指需要进行测距的对象,如人、车辆、动物等。例如,若需要对图像中的人与拍摄设备之间的距离进行检测,则输入图像中的目标对象指人,若输入图像中存在多个人时,则目标对象可以是指其中一个特定的人,或者是每个人,若目标对象是指特定的人时,则还需要对人进行识别,如对该人进行人脸识别,以识别出图像中需要测距的特定的人,若目标对象是指每个人时,则可以检测每个人与拍摄设备之间的距离。可以理解地,上述的对象也可以是指不同类别的对象,如需要预测图像中人、车辆与拍摄设备之间的距离时,则其目标对象包括人和车辆,包含目标对象的分割图像则包括包含人的分割图像和包含车辆的分割图像。
在进行距离检测时,若输入图像中存在多个对象,可以针对每个对象均按照本申请实施例提供的测距方法进行检测,为了便于描述,本申请中针对一个目标对象与拍摄设备的距离检测为例进行说明。
本申请实施例的目标检测模型用于对输入图像中的对象进行检测,如检测输入图像中的人、车辆等。目标检测模型可以是基于YOLO网络的模型,如YOLOv1、YOLOv2、YOLOv3等。YOLO模型可以利用整张图作为网络的输入,直接在输出层回归检测框的位置及预测每个检测框中的对象所属的类别,如人、车辆等类别。
所以,目标检测模型可以对输入图像中的每个对象进行检测,并获得每个对象对应的检测框以及每个检测框内的对象的类别,然后可以根据类别来确定需要进行测距的目标对象,以及根据检测框对输入图像进行分割,从而分割出输入图像中包含目标对象的分割图像。由于输入图像中可能还存在有其他不需要测距的对象,所以,为了避免其他信息对目标对象的测距造成的干扰,需要将目标对象从输入图像中分割出来,其分割的方式可以是以检测框的边框为分割线,或者以按比例扩大检测框进行分割(因为有的对象对应的检测框可能没有完全框住对象),从输入图像中将目标对象分割出来,分割出来的分割图像包含目标对象。若需要获取图像中的每个人与拍摄设备之间的距离,则分割图像可以包括多张,每张分割图像为一个人的分割图像,即每张分割图像包含一个目标对象。
步骤S120:通过角度预测模型提取所述分割图像的角度嵌入向量,所述角度嵌入向量表征所述目标对象与拍摄所述输入图像的拍摄设备之间的角度信息。
其中,角度信息可以是指目标对象以拍摄设备为原点的欧拉角,欧拉角就是指物体绕坐标系三个坐标轴的旋转角度,坐标系可以是世界坐标系,也可以是物体坐标系。欧拉角可以理解为拍摄设备观测到目标对象的视角,如无人机在上空拍摄人时,其拍摄的输入图像中的人会受视角影响其在输入图像中的像素大小,如在相同距离下,在不同视角拍摄的图像中目标对象的像素大小不一样,所以本申请中为了实现测距的准确性,结合角度信息和目标对象的像素来预测目标对象与无人机之间的距离。
在一些实施方式中,角度预测模型可以是基于残差网络的网络模型,其可以用于提取分割图像的角度嵌入向量。其原理可以理解为提取分割图像的图像特征,然后基于该图像特征分析其中目标对象的形态等信息,以预测目标对象相对于拍摄设备的角度。
其中,角度嵌入向量可以理解为是以高维向量形式对角度信息进行编码获得的向量,其可以用于表征角度信息,以便于后续基于角度嵌入向量进行距离检测。
步骤S130:通过语义分割模型提取所述分割图像的语义嵌入向量,所述语义嵌入向量表征所述分割图像中每个像素点属于所述目标对象的概率。
语义分割模型可以是指基于UNet网络(U型网络,是一种语义分割网络的架构,此种架构下的网络包括下采样部分和上采样部分,两部分之间进行跳跃连接,整个网络呈现U型结构)的一种模型,也可以是其他网络,如DeepLab(深度实验室)系列(Google公司在FCN(全卷积网络)的基础上开发的一种语义分割网络,主要改进点包括引入了全连接条件随机场对分割边界进行优化)、Mask-RCNN(带掩膜的RCNN(Region-based CNN,基于区域的卷积神经网络),是一种对RCNN网络的改进,常用于目标检测任务,在检测目标的同时还可以进行高质量的语义分割)等,本申请实施例中可以采用UNet网络,因为其在本申请的应用场景中对距离的预测速度和准确率相比于其他模型更高一些。
语义分割模型可以基于分割图像的图像特征对每个像素点的类别进行预测,即实现对每个像素点的识别,从而可识别出哪些像素点属于目标对象。
语义嵌入向量可以理解为是以高维向量形式对每个像素点对应的概率进行编码获得的向量,其可以用于表征每个像素点对应的概率,基于概率即可知晓图像中那些像素点属于目标对象,如将概率大于设定阈值的像素点确定为属于目标对象的像素点。
在一些实施方式中,语义分割模型可以获取表征目标对象的像素点的掩膜图像,掩膜图像中像素值为1的像素点即为属于目标对象的像素点,其掩膜图像是语义分割模型对语义嵌入向量进行解码得到,在对语义分割模型进行训练阶段,可以输出掩膜图像,而在应用阶段,可以将输出掩膜图像网络层进行剪枝,可直接输出语义嵌入向量。
步骤S140:根据所述角度嵌入向量和所述语义嵌入向量,获取所述目标对象和所述拍摄设备之间的距离。
在获得角度嵌入向量和语义嵌入向量后,可以结合这两者信息来预测目标对象和拍摄设备之间的距离,由于角度嵌入向量可以表示目标对象与拍摄设备之间的角度信息,其角度信息的大小可以影响目标对象在图像中的像素大小,所以,结合角度信息以及属于目标对象的像素点可更加准确预测出目标对象和拍摄设备之间的距离。
在一些实施方式中,可以预先针对不同的角度信息以及目标对象的像素点的数量设置对应的距离范围,即电子设备中可预先存储有角度信息、像素点数量、距离范围三者的对应信息,可以理解地,其对应信息可以是预先经过试验获得的。这样在获得角度嵌入向量和语义嵌入向量后,可对其进行解码,获得对应的角度信息和目标对象的像素点数量,然后可根据角度信息和目标对象的像素点数量查找对应的距离范围,从而可获得目标对象与拍摄设备之间的距离。其距离可以是指目标对象与拍摄设备之间的水平距离、垂直距离和/或直线距离等,在实际应用中,可以根据需求设置需要获取的距离的类型。
在一些实施方式中,还可以通过距离预测模型来基于角度嵌入向量和语义嵌入向量来对目标对象和拍摄设备之间的距离进行预测。对于不同类型的距离,在对距离预测模型的训练过程中,可以采用不同类型的距离作为标注数据。
本申请中的测距方法可以单独使用,也可以和其他基于软硬件的测距方法相结合使用,例如,若是需要获取目标对象与无人机之间的直线距离,且对距离预测模型的训练时使用的是水平距离作为标注数据,则距离预测模型输出的距离即为目标对象与拍摄设备之间的水平距离(因为无人机在上空无法直接测得与目标对象的水平距离),而垂直距离可以采用无人机上额外的如红外线测距模块等方式可以直接测得,当然,垂直距离也可以通过距离预测模型输出,则直线距离的获取方式可以采用勾股定理计算获得。
在上述实现过程中,采用目标检测模型、角度预测模型、语义分割模型来对输入图像进行处理,这样可以直接利用这些模型来获得目标对象与拍摄设备之间的距离,相比于现有技术中的双目测距方式,本方案可以省去对摄像头参数进行标定的繁琐过程,测距时间更短、效率更高,并且针对拍摄设备也无需采用双目摄像头即可实现,对拍摄设备要求更低,适用范围更广。并且,神经网络模型所具有的良好的泛化能力使得本申请的方案可在不同的测距场景中都具有良好的表现。
下面针对各个模型的模型结构进行介绍。
首先介绍目标检测模型,其目标检测模型可以包括多个第一特征提取模块、特征融合模块与输出模块。
其中,多个第一特征提取模块是指目标检测模型中用于提取图像特征的部分,第一特征提取模块内部一般包括卷积层,通过卷积操作来提取输入图像中的不同尺度的特征。特征融合模块用于将各个特征提取模块提取的特征进行融合,以获得图像中更全面的特征信息,其融合的方式可以是拼接、加权求和等。输出模块具体用于基于输入的特征执行具体的处理任务,如目标检测和图像分割等。
具体地,在利用目标检测模型中的各个模块获得分割图像的过程中,可以通过每个第一特征提取模块提取输入图像的图像特征,然后通过特征融合模块将各个第一特征提取模块提取的图像特征进行融合,获得融合特征,最后通过输出模块根据融合特征输出包含目标对象的分割图像。
下面结合图3所示的目标检测模型的具体结构对目标检测模型进行介绍。
图3所示的结构中,目标检测模型包括5个第一特征提取模块,即第一特征提取模块1、第一特征提取模块2、第一特征提取模块3、第一特征提取模块4和第一特征提取模块5,每个特征提取模块可以采用卷积层实现,这样采用多个第一特征提取模块可以提取输入图像中不同尺度的特征,以便于可以提取更多的全局或局部信息,使得对目标对象的检测更精确。可以理解的是,实际应用中,其第一特征提取模块的数量并不限定为5个,可以根据实际需求适当增减。
为了能够提取输入图像中包含上下文信息更多的特征,使得提取的特征具有更大的感受野,可以在第一特征提取模块中设置空洞卷积层,空洞卷积层可以用于扩大感受野,能够捕捉多尺度上下文信息,对于较小的目标对象可以更好地提取其特征。其中,由于第一个第一特征提取模块1是直接对输入图像进行特征提取,所以,为了提取更多的上下文特征,第一个第一特征提取模块1可以包括两个空洞卷积层,其卷积步长为2(其步长可以根据实际需求设置),而其他的第一特征提取模块是基于前一个第一特征提取模块的特征继续进行特征提取,从而可以提取更深次的特征。为了使得其他的第一特征提取模块能够提取更多的全局信息,其余的第一特征提取模块可以包括一个瓶颈层和一个空洞卷积层,其卷积步长为2(其步长可以根据实际需求设置),其中,瓶颈层可以是一种残差结构,其可以在更好地提取特征的同时有效提升模型的性能。
需要说明的是,上述各个第一特征提取模块的结构也可以是一样的,也可以是不相同,上述仅为举例,在实际应用中可以根据需求灵活变化,例如第一个第一特征提取模块1和第三个第一特征提取模块3包括两个空洞卷积层,其余的第一特征提取模块包括一个瓶颈层和一个空洞卷积层,其空洞卷积层的数量和瓶颈层的数量也可以根据目标检测模型在训练过程中的训练效果来确定,各个第一特征提取模块可以由瓶颈层和空洞卷积层进行随意组合形成。
在一些实施方式中,虽然空洞卷积可以扩大感受野,以捕捉更大视野内的特征,从而其对一些大物体的特征提取有较明显的效果,但对于一些细小物体的特征提取可能效果并不好,所以,针对每个第一特征提取模块,可以设置可切换卷积层,可切换卷积层包括至少两个卷积分支,一个卷积分支可以包括普通的卷积层,另一个卷积分支可以包括空洞卷积层,即在上述第一特征提取模块中,可以将空洞卷积层替换为可切换卷积层。这样目标检测模型可以选择输出哪个卷积分支提取的图像特征,或者选择采用哪个卷积分支来提取特征。
如可以通过每个卷积分支来提取输入图像的图像特征,然后根据每个卷积分支提取的图像特征确定输出的图像特征,输出的图像特征为输入图像的图像特征。
可切换卷积层可用于根据两个卷积分支所提取的图像特征来选择输出哪个图像特征,在目标检测模型的训练阶段可让目标检测模型自主学习在哪些情况下选择哪个卷积分支,从而可以使得目标检测模型可以选择对预测效果较好的卷积分支来提取图像特征。
或者,在一些其他实施方式中,其卷积分支也不一定是空洞卷积层,每个卷积分支都可以包括卷积层,只是其包括的卷积层的数量或参数可以不同,从而使得每个卷积分支提取的图像特征也不同,例如,针对较小的目标对象,由于需要提取更细节的图像特征,其可以选择输出包括较多卷积层的卷积分支提取的图像特征,针对较大的目标对象,需要提取全局信息,则可以选择输出包括较少卷积层的卷积分支提取的图像特征。
或者,目标检测模型也可以将多个卷积分支提取的特征进行融合后再输出,其融合方式可以为拼接或者加权求和等,加权系数可以通过训练过程来确定。
在一些实施方式中,其至少两个卷积分支除了包括卷积层和空洞卷积层外,另外一个卷积分支还可以包括平均池化层和卷积层,如图4所示。图4中的结构提供了三个卷积分支,中间的卷积分支中的平均池化层可以降低特征维度,以提取更好地、更具有强烈语义信息的特征,当然这里的平均池化层也可以替换为全局最大池化层。
这样可以通过三个卷积分支来提取不同程度的图像特征,在可切换卷积层中的判断层用于判断选择哪个卷积分支提取的图像特征输出,其判断层的实现方式可以简单理解为基于一些约束条件来选择输出,如在目标检测模型的训练阶段,可以学习到针对不同卷积分支提取的图像特征对目标检测效果的影响来确定哪个卷积分支提取到的图像特征能更准确地对目标进行检测。当然,在目标检测模型训练完成后,可以将确定好的卷积分支保留下来作为应用阶段使用,将其他卷积分支从目标检测模型中删除,这样在应用阶段可以直接通过一个卷积分支来提取图像特征即可,或者也可以选择保留三个卷积分支,这样可以针对不同的应用场景选择合适的图像特征输出。
在该实现方式中,可以使得目标检测模型在训练过程中学习在哪些情况下使用空洞卷积,在哪些情况下使用普通卷积,即选择哪个卷积分支输出图像特征,让目标检测模型对感受野大小具有灵活的选择性,从而使得目标检测模型的表现力更加聚焦到感兴趣的像素,以更好地提取目标对象的图像特征。
另外,上述第一特征提取模块中的瓶颈层虽然可以采用残差结构实现,但是本申请实施例中为了获取目标对象和拍摄设备之间的距离,由于其目标对象在输入图像中的大小跟其与拍摄设备之间的距离相关,所以,为了更准确地预测距离,其瓶颈层可以包括全局信息层和空洞卷积层,或者其空洞卷积层也可替换为上述的可切换卷积层,或者也可替换为卷积层。
其中,全局信息层可以用于获取输入图像中每个像素点与整张图像之间的关系,这样可以更好地建模图像中对象间的相对大小,利用背景信息输出更准确的距离检测结果。
这里需要说明的是,上述第一特征提取模块中瓶颈层和可切换卷积层的设置顺序可以根据目标检测模型的训练效果或者实际需求设置,如瓶颈层的输出连接可切换卷积层的输入,或者可切换卷积层的输入连接瓶颈层的输出,而瓶颈层中的全局信息层和可切换卷积层的设置顺序也可以根据目标检测模型的训练效果或者实际需求设置,如针对瓶颈层,其全局信息层的输出连接可切换卷积层的输入,或者可切换卷积层的输出连接全局信息层的输入。
如图5所示,图5示出了瓶颈层的结构,其包括两个卷积层和全局信息层,最后可以将全局信息层的输出与瓶颈层的输入相加,其相加的方式可以是求和或者加权求和等,这样可以融合图像中更多的特征,包括全局特征和局部特征等,从而可以提高对象检测的精度。在这里,瓶颈层中卷积层的数量也可以根据需求设置,如需要提取更深度的特征,可以设置更多数量的卷积层,若是为了减少网络深度,可以设置较少数量的卷积层。
图6示出了全局信息层的网络结构,在全局信息层中可以包括三个卷积层、softmax层(即softmax函数,是一个可以将任意数值映射为一个概率值的函数,常设置在分类网络的末端作为分类器,用于将特征值映射为每个类别的置信度后输出)、相乘层、层归一化+relu层(relu层即relu激活函数,在神经网络中加入该函数是为了给网络引入非线性因素,而relu激活函数是其中效果较好的一种)和相加层,其第一个卷积层的输出连接softmax层的输入,softmax层的输出以及全局信息的输入连接相乘层的输入,相乘层的输出连接第二个卷积层的输入,第二个卷积层的输出连接层归一化+relu层的输入,层归一化+relu层的输出以及全局信息层的输入连接相加层的输入,这样可以将全局信息层的上一层结构提取的特征与全局信息层提取的特征进行融合,以提取更多的特征。这里的相加层的实现方式也可以是直接相加或者加权求和,或者拼接等。
另外,在特征融合模块对特征进行融合后,为了提取融合特征中每个像素点与输入图像之间的关系,特征融合模块可以在对特征在通道维度做特征图拼接后,将融合特征输入瓶颈层,即输出模块中可以设置一个瓶颈层,这样输出模块可以再次通过瓶颈层基于融合特征提取输入图像中每个像素点和输入图像之间的位置关系,然后根据位置关系确定输入图像中目标对象对应的检测框,该检测框所框选的区域包括目标对象,从而可以更好地建模输入图像中目标对象的相对大小。
在一些实施方式中,输出模块可以为一个,但是由于目标对象随着其与拍摄设备之间的距离不同在图像中的大小也不同,所以为了使得目标检测模型能够适应对大中小对象的检测,可以设置三个输出模块,即输出模块包括小目标输出模块、中目标输出模块和大目标输出模块。
这三个输出模块用于对对象进行检测,获得检测框,以及可以根据检测框对输入图像进行分割,输出模块在实现方式上,输出模块除了包括上述的瓶颈层外,还可以包括有卷积层,卷积层用于输出检测框和每个检测框的类别,其输出通道可以为3*(4+1+类别数),其中,3表示每个特征图中像素上有三个检测框(用于模型学习检测框的大小),4表示检测框的中心坐标x,y和长宽,第一个1表示是否有对象,类别数表示检测的对象的类别数量。
需要说明的是,目标检测模型中各个卷积层的通道数可以根据电子设备的算力来确定,如在电子设备的算力较小时,其通道数可以小一些,电子设备的算力较大时,其通道数可以大一些。
继续看图3,在目标检测模型中,为了使得特征图符合设定的尺寸以及提取更多的特征,在目标检测模型中还可以加入上采样层和下采样层,图3中包括两个上采样层(上采样层6和上采样层7)和两个下采样层(下采样层11和下采样层13)。
另外,为了使得输入的输出模块的特征图为固定尺寸以及提取更多的特征,目标检测模型中还可以加入空间金字塔池化层9,第五个第一特征提取模块5的输出连接空间金字塔池化层9的输入,空间金字塔池化层9的输出连接第一个上采样层6的输入,由于有三个输出模块,可以对不同第一特征提取模块提取的特征进行融合,所以特征融合模块可以有四个,包括特征融合模块8、特征融合模块10、特征融合模块12和特征融合模块14。第一个上采样层6的输出和第四个第一特征提取模块4的输出连接第一个特征融合模块8的输入,然后第一个特征融合模块8的输出连接第二个上采样层7的输入,第一个特征融合模块8将第四个第一特征提取模块4提取的特征与第一个上采样层6采样获得的第一上采样特征进行融合,获得第一融合特征。
其中,上述的下采样层可以采用步长为2的卷积层实现,或者也可以采用插值方式实现,同理,上采样层可以采用插值方式或反卷积方式实现。在实际应用中,可以选择合适的操作来实现对特征图的上采样或下采样。
针对小目标输出模块,为了提取更细节的局部特征,则可以将第一融合特征通过第二个上采样层7进行采样后,获得第二上采样特征,然后将第二上采样特征与第三个第一特征提取模块3提取的特征进行融合后,获得第二融合特征,将第二融合特征输入小目标输出模块,通过小目标输出模块基于该特征对目标对象进行检测。
针对中目标输出模块,需要提取更多的全局特征,所以,可以将第二融合特征通过第一个下采样层11进行下采样,获得第一下采样特征,然后将第一下采样特征与第一上采样特征进行融合,获得第三融合特征,然后将第三融合特征输入中目标输出模块,通过中目标输出模块基于该特征对目标对象进行检测。
针对大目标输出模块,可以将第三融合特征继续通过第二个下采样层13进行下采样,获得第二下采样特征,将获得的第二下采样特征与空间金字塔池化层输出的特征进行融合,获得第四融合特征,然后将第四融合特征输入大目标输出模块,通过大目标输出模块基于该特征对目标对象进行检测。
这样可以通过三个输出模块中的卷积层对目标对象进行检测获得三个检测结果,即可以分别获得一个包含目标对象的检测框,为了确定合适的检测框,可以对三个检测框进行综合,如将通过非极大值抑制方法获得一个新的检测框,作为目标对象的检测框。最后可以基于检测框对输入图像进行裁剪,以裁剪出包含目标对象的分割图像。
在上述实现过程中,通过目标检测模型对输入图像中的对象行检测,获得目标对象对应的检测框,进而可以分割出包含目标对象的分割图像,这样可便于后续角度预测模型有效提取目标对象与拍摄设备之间的角度信息,以及语义分割模型更准确地检测出属于目标对象的像素点。
下面对角度预测模型进行介绍。
在一些实施方式中,角度预测模型可以包括多个第二特征提取模块、角度嵌入向量投射模块和角度输出模块,在提取角度嵌入向量的过程中,可以通过多个第二特征提取模块提取分割图像的图像特征,通过角度嵌入向量投射模块对图像特征进行平均池化,获得多维嵌入向量,然后通过角度输出模块根据多维嵌入向量获得表征欧拉角的角度嵌入向量。
角度预测模型的具体结构可以如图7所示,其也可以包括5个第二特征提取模块,即第二特征提取模块21、第二特征提取模块22、第二特征提取模块23、第二特征提取模块24和第二特征提取模块25,其第二特征提取模块与第一特征提取模块的结构类似,如第一个第二特征提取模块包括两个可切换卷积层,卷积步长为2,其余的第二特征提取模块可包括1个瓶颈层和一个步长为2的可切换卷积层。可以理解地是,第二特征提取模块的结构可以如上述介绍第一特征提取模块一样可以进行相应的结构变换,为了描述的简洁,在此不再重复描述。
其中角度嵌入向量投射模块26可以将第五个第二特征提取模块25输出的特征图在特征图的宽高维度进行平均池化,然后通过其中的输出通道为N维的全连接层输出一个N维的嵌入向量,即获得多维嵌入向量。
而角度输出模块27的实现方式可以为全连接层,其可以是一个输出维度为3的全连接层,3表示欧拉角的三个角度,指目标对象以拍摄设备为原点的欧拉角。
在上述实现过程中,通过角度预测模块可以快速预测获得目标对象和拍摄设备之间的角度信息。
下面对语义分割模型进行介绍。
在一些实施方式中,语义分割模型可以包括多个第三特征提取模块、语义嵌入向量投射模块和语义预测模块,在提取语义嵌入向量的过程中,可通过多个第三特征提取模块提取分割图像的图像特征,然后通过语义嵌入向量投射模块对图像特征进行平均池化,获得多维嵌入向量,然后通过语义预测模块根据多维嵌入向量获得表征每个像素点属于目标对象的概率的语义嵌入向量。
语义分割模型的具体结构可以如图8所示,其第三特征提取模块可以采用下采样层和上采样层实现,其可以包括四个下采样层(下采样层31、下采样层32、下采样层33、下采样层34)和四个上采样层(上采样层35、上采样层36、上采样层37、上采样层38),其各个层结构之间的连接关系如图8所示。当然,其下采样层和上采样层的数量可以根据模型训练效果或实际需求灵活设置。
其中,每个下采样层可以包括2个可切换卷积层,步长为2,每个上采样层可以包括两个反卷积层,步长为2,这样通过下采样层和上采样层对图像特征进行采样,可以更好地提取图像中的全局和局部特征,以实现对每个像素点的类别进行准确检测。
语义嵌入向量投射模块39可以将第4个上采样层38输出的特征图在特征图的宽高维度进行平均池化,然后通过其中的输出通道为N维的全连接层输出一个N维的嵌入向量,即获得多维嵌入向量。
而语义预测模块40的实现方式可以为全连接层,其可以基于多维嵌入向量对每个像素点进行检测。
或者,语义预测模块40用于获取一个和输入图像大小一致的掩膜图像,掩膜图像的每个像素值为该像素点是否属于目标对象,语义预测模块还可以基于其掩膜图像获取语义嵌入向量。
或者,在对语义分割模型进行训练的过程中,可以增加掩膜输出模块,用于输出掩膜,其输入连接第四个上采样层的输出,其输出连接语义预测模块的输入,但是在应用测试阶段,可以将掩膜输出模块从语义分割模型中删除,这样可减少模型的网络结构,且对模型的预测结果不产生较大的影响。
在上述实现过程中,通过语义分割模型对目标对象的像素点进行检测,可以准确检测出分割图像中属于目标对象的像素点,这样可以知晓目标对象在输入图像中的大小,以使得进行距离检测时可以获得更精准的距离检测结果。
在一些实施方式中,在预测距离时也可以通过网络模型来进行预测,如可以通过距离预测模型来进行距离预测,其过程为:将角度嵌入向量与语义嵌入向量进行拼接,获得拼接向量,然后通过全连接层根据拼接向量对目标对象与拍摄设备之间的距离进行预测,获得目标对象与拍摄设备之间的距离。
距离预测模型的结构如图9所示,其可以包括一个向量拼接层(即图中的角度嵌入向量+语义嵌入向量)和三个全连接层,这里全连接层的数量可以根据模型训练效果或实际需求设置,最后一个全连接层为输出维度为1的全连接层,用于输出预测的距离。从而通过全连接层即可快速预测出目标对象和拍摄设备之间的距离。
可以理解地,在实际应用时,可以将上述各个模型拼接起来组合成一个大的网络模型,如图10所示,如将目标检测模型的输出分别连接角度预测模型和语义分割模型的输入,角度预测模型的输出和语义分割模型的输出连接距离预测模型的输入,这样只需将输入图像输入该网络模型中即可获得目标对象和拍摄设备之间的距离,这种情况下这个大的网络模型可以部署在同一个设备上。当然,由于一个设备的算力可能有限,在无法支撑对这个大的网络模型的部署时,还可以将各个模型分别部署在不同的设备上,然后在将不同设备连接起来,如目标检测模型部署在设备1上,角度预测模型部署在设备2上,语义分割模型部署在设备3上,距离预测模型部署在设备4上,这种情况下可以将设备1的输出与设备2、设备3的输入连接,设备2、设备3的输出与设备4的输入连接,如此也可以将输入图像输入设备1中,通过四个设备的处理即可获得目标对象和拍摄设备之间的距离。
另外,在对模型进行训练的过程中,若这些模型是部署在同一设备上的,则可以对这个大的网络模型进行统一训练,若这些模型是部署在不同设备上的,为了方便训练,也可以对各个模型进行分开训练。在训练过程中获取的训练数据包括有无人机采集的图像和标注数据,标注数据包括图像中各个对象的类别、检测框的坐标、距离和角度等,在利用训练数据对这些模型进行训练后,可将训练好的模型部署在对应的设备中,如将大的网络模型部署在无人机上,这样无人机可以直接获得相应的距离。无人机获得距离后,可根据距离调整自身的飞行姿态等,如在获得的距离大于预设距离时,则控制无人机下降一定高度,在获得的距离小于预设距离时,表示无人机距离目标对象较近,为了更好地实现图像拍摄,可以控制无人机上升一定高度。或者在无人机对目标对象进行跟踪的场景下,无人机可以根据获得的距离实时调整自身与目标对象的距离处于一定范围内,以对目标对象实现更好地跟踪。可以理解地,在不同的应用场景下,可以根据获得的距离进行不同的处理,在此不一一举例说明。
请参照图11,图11为本申请实施例提供的一种测距装置200的结构框图,该装置200可以是电子设备上的模块、程序段或代码。应理解,该装置200与上述图2方法实施例对应,能够执行图2方法实施例涉及的各个步骤,该装置200具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。
可选地,所述装置200包括:
目标检测模块210,用于通过目标检测模型对输入图像中的对象进行检测,根据所述目标检测模型输出的检测框分割出包含目标对象的分割图像;
角度预测模块220,用于通过角度预测模型提取所述分割图像的角度嵌入向量,所述角度嵌入向量表征所述目标对象与拍摄所述输入图像的拍摄设备之间的角度信息;
语义分割模块230,用于通过语义分割模型提取所述分割图像的语义嵌入向量,所述语义嵌入向量表征所述分割图像中每个像素点属于所述目标对象的概率;
距离检测模块240,用于根据所述角度嵌入向量和所述语义嵌入向量,获取所述目标对象与所述拍摄设备之间的距离。
可选地,所述目标检测模型包括多个第一特征提取模块、特征融合模块和输出模块;所述目标检测模块210,用于通过每个第一特征提取模块提取所述输入图像的图像特征;通过所述特征融合模块将各个第一特征提取模块提取的图像特征进行融合,获得融合特征;通过输出模块根据所述融合特征对所述输入图像中的对象进行检测,输出目标对象对应的检测框。
可选地,每个第一特征提取模块包括可切换卷积层,所述可切换卷积层包括至少两个卷积分支,所述目标检测模块210,用于通过每个卷积分支提取所述输入图像的图像特征;根据每个卷积分支提取的图像特征确定输出的图像特征,所述输出的图像特征为所述输入图像的图像特征。
可选地,所述至少两个卷积分支中的一个分支为卷积层,另一个分支为空洞卷积层。
可选地,所述输出模块包括瓶颈层,所述目标检测模块210,用于通过所述瓶颈层基于所述融合特征提取所述输入图像中每个像素点和所述输入图像之间的位置关系;根据所述位置关系确定所述输入图像中所述目标对象对应的检测框。
可选地,所述角度预测模型包括多个第二特征提取模块、角度嵌入向量投射模块和角度输出模块,所述角度预测模块220,用于通过所述多个第二特征提取模块提取所述分割图像的图像特征;通过所述角度嵌入向量投射模块对所述图像特征进行平均池化,获得多维嵌入向量;通过所述角度输出模块根据所述多维嵌入向量获得表征欧拉角的角度嵌入向量。
可选地,所述语义分割模型包括多个第三特征提取模块、语义嵌入向量投射模块和语义预测模块,所述语义分割模块230,用于通过所述多个第三特征提取模块提取所述分割图像的图像特征;通过所述语义嵌入向量投射模块对所述图像特征进行平均池化,获得多维嵌入向量;通过所述语义预测模块根据所述多维嵌入向量获得表征每个像素点属于所述目标对象的概率的语义嵌入向量。
可选地,所述距离检测模块240,用于将所述角度嵌入向量与所述语义嵌入向量进行拼接,获得拼接向量;通过全连接层根据所述拼接向量对所述目标对象与所述拍摄设备之间的距离进行预测,获得所述目标对象与所述拍摄设备之间的距离。
需要说明的是,本领域技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再重复描述。
本申请实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,执行如图2所示方法实施例中电子设备所执行的方法过程。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如,包括:通过目标检测模型对输入图像中的对象进行检测,根据所述目标检测模型输出的检测框分割出包含目标对象的分割图像;通过角度预测模型提取所述分割图像的角度嵌入向量,所述角度嵌入向量表征所述目标对象与拍摄所述输入图像的拍摄设备之间的角度信息;通过语义分割模型提取所述分割图像的语义嵌入向量,所述语义嵌入向量表征所述分割图像中每个像素点属于所述目标对象的概率;根据所述角度嵌入向量和所述语义嵌入向量,获取所述目标对象与所述拍摄设备之间的距离。
综上所述,本申请实施例提供一种测距方法、装置、电子设备及可读存储介质,通过目标检测模型对图像中的对象进行检测,通过角度预测模型获得目标对象与拍摄设备之间的角度信息,通过语义分割模型检测出图像中属于目标对象的像素点,从而可以基于这角度信息和像素点信息获取目标对象与拍摄设备之间的距离,无需对拍摄装置进行参数标定,本方案省去了双目测距方式中需要对摄像头参数标定的繁琐过程,测距方式更简单,时间更短、效率更高。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (11)
1.一种测距方法,其特征在于,所述方法包括:
通过目标检测模型对输入图像中的对象进行检测,根据所述目标检测模型输出的检测框分割出包含目标对象的分割图像;
通过角度预测模型提取所述分割图像的角度嵌入向量,所述角度嵌入向量表征所述目标对象与拍摄所述输入图像的拍摄设备之间的角度信息;
通过语义分割模型提取所述分割图像的语义嵌入向量,所述语义嵌入向量表征所述分割图像中每个像素点属于所述目标对象的概率;
根据所述角度嵌入向量和所述语义嵌入向量,获取所述目标对象与所述拍摄设备之间的距离。
2.根据权利要求1所述的方法,其特征在于,所述目标检测模型包括多个第一特征提取模块、特征融合模块和输出模块;所述通过目标检测模型对输入图像中的对象进行检测,包括:
通过每个第一特征提取模块提取所述输入图像的图像特征;
通过所述特征融合模块将各个第一特征提取模块提取的图像特征进行融合,获得融合特征;
通过输出模块根据所述融合特征对所述输入图像中的对象进行检测,输出目标对象对应的检测框。
3.根据权利要求2所述的方法,其特征在于,每个第一特征提取模块包括可切换卷积层,所述可切换卷积层包括至少两个卷积分支,所述通过每个第一特征提取模块提取所述输入图像的图像特征,包括:
通过每个卷积分支提取所述输入图像的图像特征;
根据每个卷积分支提取的图像特征确定输出的图像特征,所述输出的图像特征为所述输入图像的图像特征。
4.根据权利要求3所述的方法,其特征在于,所述至少两个卷积分支中的一个分支为卷积层,另一个分支为空洞卷积层。
5.根据权利要求2所述的方法,其特征在于,所述输出模块包括瓶颈层,所述通过输出模块根据所述融合特征对所述输入图像中的对象进行检测,输出目标对象对应的检测框,包括:
通过所述瓶颈层基于所述融合特征提取所述输入图像中每个像素点和所述输入图像之间的位置关系;
根据所述位置关系确定所述输入图像中所述目标对象对应的检测框。
6.根据权利要求1所述的方法,其特征在于,所述角度预测模型包括多个第二特征提取模块、角度嵌入向量投射模块和角度输出模块,所述通过角度预测模型提取所述分割图像的角度嵌入向量,包括:
通过所述多个第二特征提取模块提取所述分割图像的图像特征;
通过所述角度嵌入向量投射模块对所述图像特征进行平均池化,获得多维嵌入向量;
通过所述角度输出模块根据所述多维嵌入向量获得表征欧拉角的角度嵌入向量。
7.根据权利要求1所述的方法,其特征在于,所述语义分割模型包括多个第三特征提取模块、语义嵌入向量投射模块和语义预测模块,所述通过语义分割模型提取所述分割图像的语义嵌入向量,包括:
通过所述多个第三特征提取模块提取所述分割图像的图像特征;
通过所述语义嵌入向量投射模块对所述图像特征进行平均池化,获得多维嵌入向量;
通过所述语义预测模块根据所述多维嵌入向量获得表征每个像素点属于所述目标对象的概率的语义嵌入向量。
8.根据权利要求1所述的方法,其特征在于,所述根据所述角度嵌入向量和所述语义嵌入向量,获取所述目标对象与所述拍摄设备之间的距离,包括:
将所述角度嵌入向量与所述语义嵌入向量进行拼接,获得拼接向量;
通过全连接层根据所述拼接向量对所述目标对象与所述拍摄设备之间的距离进行预测,获得所述目标对象与所述拍摄设备之间的距离。
9.一种测距装置,其特征在于,所述装置包括:
目标检测模块,用于通过目标检测模型对输入图像中的对象进行检测,根据所述目标检测模型输出的检测框分割出包含目标对象的分割图像;
角度预测模块,用于通过角度预测模型提取所述分割图像的角度嵌入向量,所述角度嵌入向量表征所述目标对象与拍摄所述输入图像的拍摄设备之间的角度信息;
语义分割模块,用于通过语义分割模型提取所述分割图像的语义嵌入向量,所述语义嵌入向量表征所述分割图像中每个像素点属于所述目标对象的概率;
距离检测模块,用于根据所述角度嵌入向量和所述语义嵌入向量,获取所述目标对象与所述拍摄设备之间的距离。
10.一种电子设备,其特征在于,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如权利要求1-8任一所述的方法。
11.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时运行如权利要求1-8任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110180045.1A CN112528974B (zh) | 2021-02-08 | 2021-02-08 | 测距方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110180045.1A CN112528974B (zh) | 2021-02-08 | 2021-02-08 | 测距方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112528974A true CN112528974A (zh) | 2021-03-19 |
CN112528974B CN112528974B (zh) | 2021-05-14 |
Family
ID=74975649
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110180045.1A Active CN112528974B (zh) | 2021-02-08 | 2021-02-08 | 测距方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112528974B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657252A (zh) * | 2021-08-16 | 2021-11-16 | 福州大学 | 基于编码解码器的高效sar图像船舶目标检测方法 |
CN115026828A (zh) * | 2022-06-23 | 2022-09-09 | 池州市安安新材科技有限公司 | 一种机器人手臂抓取控制方法及系统 |
CN115115836A (zh) * | 2022-06-29 | 2022-09-27 | 抖音视界(北京)有限公司 | 图像识别方法、装置、存储介质以及电子设备 |
CN116612168A (zh) * | 2023-04-20 | 2023-08-18 | 北京百度网讯科技有限公司 | 图像处理方法、装置、电子设备、图像处理系统及介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6973262B2 (en) * | 2002-06-04 | 2005-12-06 | Olympus Optical Co., Ltd. | Camera and wide-angle field distance-measuring camera |
CN104634246A (zh) * | 2015-02-03 | 2015-05-20 | 李安澜 | 目标空间坐标的浮动式立体视觉测量系统及测量方法 |
US20150243037A1 (en) * | 2014-02-24 | 2015-08-27 | JESurpass CO. | Method for a distance measurement |
CN105372665A (zh) * | 2014-08-27 | 2016-03-02 | 北京顶亮科技有限公司 | 一种红外毫米波测距设备及方法 |
CN109059895A (zh) * | 2018-03-28 | 2018-12-21 | 南京航空航天大学 | 一种基于手机摄像头和传感器的多模态室内测距及定位方法 |
CN109146980A (zh) * | 2018-08-12 | 2019-01-04 | 浙江农林大学 | 基于单目视觉的优化的深度提取和被动测距方法 |
CN109253722A (zh) * | 2018-08-22 | 2019-01-22 | 顺丰科技有限公司 | 融合语义分割的单目测距系统、方法、设备及存储介质 |
WO2019026832A1 (en) * | 2017-08-02 | 2019-02-07 | Sony Corporation | GENERATING AN ENVIRONMENT CARD AROUND A MOBILE OBJECT WITH GREAT PRECISION |
CN110673123A (zh) * | 2019-10-24 | 2020-01-10 | 北京地平线机器人技术研发有限公司 | 一种目标对象的测距方法及装置 |
CN111079623A (zh) * | 2019-12-09 | 2020-04-28 | 成都睿沿科技有限公司 | 一种目标检测方法、装置及存储介质 |
CN111583339A (zh) * | 2020-04-27 | 2020-08-25 | 中国人民解放军军事科学院国防科技创新研究院 | 获取目标位置的方法、装置、电子设备及介质 |
EP3726244A1 (en) * | 2019-04-17 | 2020-10-21 | MediaTek Inc. | Method and apparatus for performing object detection by using detection threshold values derived from adding different offset values to reference threshold values |
CN111998910A (zh) * | 2020-08-26 | 2020-11-27 | 河海大学 | 一种多级水尺水位视觉测量方法及测量系统 |
-
2021
- 2021-02-08 CN CN202110180045.1A patent/CN112528974B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6973262B2 (en) * | 2002-06-04 | 2005-12-06 | Olympus Optical Co., Ltd. | Camera and wide-angle field distance-measuring camera |
US20150243037A1 (en) * | 2014-02-24 | 2015-08-27 | JESurpass CO. | Method for a distance measurement |
CN105372665A (zh) * | 2014-08-27 | 2016-03-02 | 北京顶亮科技有限公司 | 一种红外毫米波测距设备及方法 |
CN104634246A (zh) * | 2015-02-03 | 2015-05-20 | 李安澜 | 目标空间坐标的浮动式立体视觉测量系统及测量方法 |
WO2019026832A1 (en) * | 2017-08-02 | 2019-02-07 | Sony Corporation | GENERATING AN ENVIRONMENT CARD AROUND A MOBILE OBJECT WITH GREAT PRECISION |
CN109059895A (zh) * | 2018-03-28 | 2018-12-21 | 南京航空航天大学 | 一种基于手机摄像头和传感器的多模态室内测距及定位方法 |
CN109146980A (zh) * | 2018-08-12 | 2019-01-04 | 浙江农林大学 | 基于单目视觉的优化的深度提取和被动测距方法 |
CN109253722A (zh) * | 2018-08-22 | 2019-01-22 | 顺丰科技有限公司 | 融合语义分割的单目测距系统、方法、设备及存储介质 |
EP3726244A1 (en) * | 2019-04-17 | 2020-10-21 | MediaTek Inc. | Method and apparatus for performing object detection by using detection threshold values derived from adding different offset values to reference threshold values |
CN110673123A (zh) * | 2019-10-24 | 2020-01-10 | 北京地平线机器人技术研发有限公司 | 一种目标对象的测距方法及装置 |
CN111079623A (zh) * | 2019-12-09 | 2020-04-28 | 成都睿沿科技有限公司 | 一种目标检测方法、装置及存储介质 |
CN111583339A (zh) * | 2020-04-27 | 2020-08-25 | 中国人民解放军军事科学院国防科技创新研究院 | 获取目标位置的方法、装置、电子设备及介质 |
CN111998910A (zh) * | 2020-08-26 | 2020-11-27 | 河海大学 | 一种多级水尺水位视觉测量方法及测量系统 |
Non-Patent Citations (2)
Title |
---|
张玉鹏: "基于卷积神经网络的车辆检测与测距", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 * |
李峰: "智能监控中对运动目标的检测和测距技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657252A (zh) * | 2021-08-16 | 2021-11-16 | 福州大学 | 基于编码解码器的高效sar图像船舶目标检测方法 |
CN113657252B (zh) * | 2021-08-16 | 2023-07-28 | 福州大学 | 基于编码解码器的高效sar图像船舶目标检测方法 |
CN115026828A (zh) * | 2022-06-23 | 2022-09-09 | 池州市安安新材科技有限公司 | 一种机器人手臂抓取控制方法及系统 |
CN115115836A (zh) * | 2022-06-29 | 2022-09-27 | 抖音视界(北京)有限公司 | 图像识别方法、装置、存储介质以及电子设备 |
CN115115836B (zh) * | 2022-06-29 | 2023-06-13 | 抖音视界有限公司 | 图像识别方法、装置、存储介质以及电子设备 |
CN116612168A (zh) * | 2023-04-20 | 2023-08-18 | 北京百度网讯科技有限公司 | 图像处理方法、装置、电子设备、图像处理系统及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112528974B (zh) | 2021-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112528974B (zh) | 测距方法、装置、电子设备及可读存储介质 | |
CN109544615B (zh) | 基于图像的重定位方法、装置、终端及存储介质 | |
WO2019223382A1 (zh) | 单目深度估计方法及其装置、设备和存储介质 | |
CN108898676B (zh) | 一种虚实物体之间碰撞及遮挡检测方法及系统 | |
CN111754396B (zh) | 脸部图像处理方法、装置、计算机设备和存储介质 | |
CN113674416B (zh) | 三维地图的构建方法、装置、电子设备及存储介质 | |
CN112233221B (zh) | 基于即时定位与地图构建的三维地图重建系统及方法 | |
CN112784765B (zh) | 用于识别动作的方法、装置、设备以及存储介质 | |
CN112200056B (zh) | 人脸活体检测方法、装置、电子设备及存储介质 | |
CN110349212B (zh) | 即时定位与地图构建的优化方法及装置、介质和电子设备 | |
KR20220081261A (ko) | 객체 포즈 추정 방법 및 장치 | |
CN113537180B (zh) | 树障的识别方法、装置、计算机设备和存储介质 | |
CN112036381B (zh) | 视觉跟踪方法、视频监控方法及终端设备 | |
CN115719436A (zh) | 模型训练方法、目标检测方法、装置、设备以及存储介质 | |
CN114219855A (zh) | 点云法向量的估计方法、装置、计算机设备和存储介质 | |
CN111652181B (zh) | 目标跟踪方法、装置及电子设备 | |
Raza et al. | Framework for estimating distance and dimension attributes of pedestrians in real-time environments using monocular camera | |
CN108229281B (zh) | 神经网络的生成方法和人脸检测方法、装置及电子设备 | |
CN114170290A (zh) | 图像的处理方法及相关设备 | |
CN116188893A (zh) | 基于bev的图像检测模型训练及目标检测方法和装置 | |
CN111353429A (zh) | 基于眼球转向的感兴趣度方法与系统 | |
CN115880765A (zh) | 区域入侵异常行为检测方法、装置及计算机设备 | |
CN116543333A (zh) | 电力系统的目标识别方法、训练方法、装置、设备和介质 | |
CN112307799A (zh) | 姿态识别方法、装置、系统、存储介质及设备 | |
CN114373162A (zh) | 用于变电站视频监控的危险区域人员入侵检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |