CN112233170A - 视觉定位和图像处理方法、设备及存储介质 - Google Patents
视觉定位和图像处理方法、设备及存储介质 Download PDFInfo
- Publication number
- CN112233170A CN112233170A CN201910567253.XA CN201910567253A CN112233170A CN 112233170 A CN112233170 A CN 112233170A CN 201910567253 A CN201910567253 A CN 201910567253A CN 112233170 A CN112233170 A CN 112233170A
- Authority
- CN
- China
- Prior art keywords
- pixel points
- network model
- image
- feature
- feature maps
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 40
- 238000003672 processing method Methods 0.000 title claims abstract description 27
- 238000003860 storage Methods 0.000 title claims abstract description 24
- 230000033001 locomotion Effects 0.000 claims abstract description 251
- 238000000034 method Methods 0.000 claims abstract description 154
- 230000003068 static effect Effects 0.000 claims abstract description 116
- 230000008569 process Effects 0.000 claims abstract description 72
- 238000003062 neural network model Methods 0.000 claims abstract description 70
- 230000007613 environmental effect Effects 0.000 claims abstract description 41
- 230000015654 memory Effects 0.000 claims description 67
- 238000004364 calculation method Methods 0.000 claims description 60
- 238000012545 processing Methods 0.000 claims description 46
- 238000000605 extraction Methods 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 38
- 238000012549 training Methods 0.000 claims description 30
- 230000008859 change Effects 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 6
- 230000002349 favourable effect Effects 0.000 abstract description 19
- 230000000875 corresponding effect Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 23
- 238000004140 cleaning Methods 0.000 description 14
- 238000011176 pooling Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000005291 magnetic effect Effects 0.000 description 6
- 230000003993 interaction Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 239000004984 smart glass Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 241000283070 Equus zebra Species 0.000 description 1
- 206010047571 Visual impairment Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000008407 joint function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
- 208000029257 vision disease Diseases 0.000 description 1
- 230000004393 visual impairment Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供一种视觉定位和图像处理方法、设备及存储介质。在本申请实施例中,移动设备在移动过程中采集其所在位置周围的环境图像,针对其采集到的环境图像,利用神经网络模型,分析该环境图像中至少一部分像素点的运动属性;进而,基于环境图像中至少一部分像素点的运动属性,利用静态像素点对移动设备进行定位。静态像素点是移动设备当前所在周围环境中位置固定不变或基本不变的特征点,相比于移动中的特征点,利用静态像素点更有利于定位,有助于提高定位精度。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种视觉定位和图像处理方法、设备及存储介质。
背景技术
随着人工智能技术的发展,机器人逐渐进入人们的日常生活,给人们的生活带来极大的便利。无论是何种类型的机器人,在自主移动过程中均需进行定位。
在现有技术中,机器人可借助视觉定位技术实现自主定位。但是,现有的视觉定位方式的定位精度较低。
发明内容
本申请的多个方面提供一种视觉定位和图像处理方法、设备及存储介质,用以提高视觉定位精度。
本申请实施例提供一种视觉定位方法,适用于移动设备,包括:
在移动过程中,采集当前所在位置周围的环境图像;
利用神经网络模型,分析所述环境图像中至少一部分像素点的运动属性;
根据所述至少一部分像素点的运动属性,确定所述至少一部分像素点中的静态像素点;
根据所述静态像素点和已知的环境地图,定位所述移动设备当前所在位置。
本申请实施例还提供一种图像处理方法,包括:
获取待处理图像;
利用第一网络模型对所述待处理图像进行特征提取,得到多个初始特征图;
利用第二网络模型对所述多个初始特征图进行运动属性计算,得到所述待处理图像中至少一部分像素点的运动属性;
利用第三网络模型对所述多个初始特征图进行特征描述符计算,以得到所述待处理图像中至少一部分像素点的特征描述符。
本申请实施例还提供一种图像处理方法,包括:
将待处理图像输入神经网络模型,其中,所述神经网络模型包括至少两层结构;
利用所述神经网络模型中的第一层网络,对所述待处理图像进行特征提取,得到多个初始特征图;
利用所述神经网络模型中的第二层网络,对所述多个初始特征图进行运动属性计算,得到所述待处理图像中至少一部分像素点的运动属性;
根据所述至少一部分像素点的运动属性,确定其中位置变化小于或等于预设阈值的目标像素点;
根据所述目标像素点和已知的环境地图,定位采集所述待处理图像的设备在采集所述待处理图像的过程中所在的位置。
本申请实施例还提供一种视觉定位方法,适用于终端设备,所述方法包括:
在用户移动过程中,采集所述用户当前所在位置周围的环境图像,所述用户携带所述终端设备;
利用神经网络模型,分析所述环境图像中至少一部分像素点的运动属性;
根据所述至少一部分像素点的运动属性,确定所述至少一部分像素点中的静态像素点;
根据所述静态像素点和已知的环境地图,定位所述用户当前所在位置,并输出所述用户当前所在位置,以引导所述用户行进。
本申请实施例还提供一种数据处理方法,适用于移动设备,所述方法包括:
在移动过程中,采集当前所在位置周围的环境图像;
利用神经网络模型,分析所述环境图像中至少一部分像素点的运动属性;
根据所述至少一部分像素点的运动属性,确定所述至少一部分像素点中的静态像素点;
根据所述静态像素点和已知的环境地图,定位所述移动设备当前所在位置;
根据所述移动设备当前所在位置以及之前至少一个历史位置,计算所述移动设备的行进状态信息。
本申请实施例还提供一种移动设备,包括:机械本体;所述机械本体上设有视觉传感器、一个或多个处理器,以及一个或多个存储器;其中,
所述一个或多个存储器,用于存储计算机指令以及环境地图;
所述一个或多个处理器,耦合至所述一个或多个存储器,用于执行所述计算机指令,以用于:
在移动过程中,采集当前所在位置周围的环境图像;
利用神经网络模型,分析所述环境图像中各像素点的运动属性;
根据所述环境图像中至少一部分像素点的运动属性,确定所述至少一部分像素点中的静态像素点;
根据所述静态像素点和已知的环境地图,定位所述移动设备当前所在位置。
本申请实施例还提供一种计算机设备,包括:存储器和处理器;其中,
所述存储器,用于存储计算机指令;
所述处理器,耦合至所述一个或多个存储器,用于执行所述计算机指令,以用于:
获取待处理图像;
利用第一网络模型对所述待处理图像进行特征提取,得到多个初始特征图;
利用第二网络模型对所述多个初始特征图进行运动属性计算,得到所述待处理图像中至少一部分像素点的运动属性;
利用第三网络模型对所述多个初始特征图进行特征描述符计算,以得到所述待处理图像中至少一部分像素点的特征描述符。
本申请实施例还提供一种计算机设备,其特征在于,包括:存储器和处理器;其中,
所述存储器,用于存储计算机指令;
所述处理器,耦合至所述一个或多个存储器,用于执行所述计算机指令,以用于:
将待处理图像输入神经网络模型,其中,所述神经网络模型包括至少两层结构;
利用所述神经网络模型中的第一层网络,对所述待处理图像进行特征提取,得到多个初始特征图;
利用所述神经网络模型中的第二层网络,对所述多个初始特征图进行运动属性计算,得到所述待处理图像中至少一部分像素点的运动属性;
根据所述至少一部分像素点的运动属性,确定其中位置变化小于或等于预设阈值的目标像素点;
根据所述目标像素点和已知的环境地图,定位采集所述待处理图像的设备在采集所述待处理图像的过程中所在的位置。
本申请实施例还提供一种终端设备,包括:存储器、处理器和摄像头;其中,所述摄像头用于:在用户移动过程中,采集所述用户当前所在位置周围的环境图像,所述用户携带所述终端设备;
所述存储器,用于存储计算机指令;
所述处理器,耦合至所述一个或多个存储器,用于执行所述计算机指令,以用于:
利用神经网络模型,分析所述环境图像中至少一部分像素点的运动属性;
根据所述至少一部分像素点的运动属性,确定所述至少一部分像素点中的静态像素点;
根据所述静态像素点和已知的环境地图,定位所述用户当前所在位置,并输出所述用户当前所在位置,以引导所述用户行进。
本申请实施例还提供一种移动设备,包括:存储器、处理器和摄像头;其中,所述摄像头用于:在所述移动设备移动过程中,在移动过程中,采集当前所在位置周围的环境图像;
所述处理器,耦合至所述一个或多个存储器,用于执行所述计算机指令,以用于:
利用神经网络模型,分析所述环境图像中至少一部分像素点的运动属性;
根据所述至少一部分像素点的运动属性,确定所述至少一部分像素点中的静态像素点;
根据所述静态像素点和已知的环境地图,定位所述移动设备当前所在位置;
根据所述移动设备当前所在位置以及之前至少一个历史位置,计算所述移动设备的行进状态信息。
本申请实施例还提供一种存储有计算机指令的计算机可读存储介质,当所述计算机指令被一个或多个处理器执行时,致使所述一个或多个处理器执行上述视觉定位方法中的步骤。
本申请实施例还提供一种存储有计算机指令的计算机可读存储介质,当所述计算机指令被一个或多个处理器执行时,致使所述一个或多个处理器执行上述图像处理方法中的步骤。
本申请实施例还提供一种存储有计算机指令的计算机可读存储介质,当所述计算机指令被一个或多个处理器执行时,致使所述一个或多个处理器执行上述数据处理方法中的步骤。
在本申请实施例中,移动设备在移动过程中采集其所在位置周围的环境图像,针对其采集到的环境图像,利用神经网络模型,分析该环境图像中至少一部分像素点的运动属性;进而,基于环境图像中至少一部分像素点的运动属性,利用静态像素点对移动设备进行定位。静态像素点是移动设备当前所在周围环境中位置固定不变或基本不变的特征点,相比于移动中的特征点,利用静态像素点更有利于定位,有助于提高定位精度。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1a为本申请实施例提供的一种视觉定位方法的流程示意图;
图1b为本申请实施例提供的一种网络模型的结构示意图;
图1c为本申请实施例提供的一种神经网络的训练模型的结构示意图;
图1d为本申请实施例提供的一种网络模型的训练流程示意图;
图1e为本申请实施例提供的一种图像处理方法的流程示意图;
图2a为本申请实施例提供的一种边缘云网络系统的结构示意图。
图2b为本申请实施例提供的另一种图像处理方法的流程示意图;
图2c为本申请实施例提供的一种图像处理方法的应用场景示意图;
图3为本申请实施例提供的一种移动设备的硬件结构框图;
图4为本申请实施例提供的一种计算机设备的结构示意图;
图5为本申请实施例提供的另一种计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
针对现有视觉定位方式定位精度低的技术问题,在本申请一些实施例中,在移动设备移动过程中,针对其采集到的周围环境图像,利用卷积神经网络模型,分析该环境图像中至少一部分像素点的运动属性;进而基于环境图像中至少一部分像素点的运动属性,利用静态像素点对移动设备进行定位。静态像素点在移动设备当前所在周围环境中位置固定不变或基本不变的特征点,相比于移动中的特征点,利用静态像素点更有利于定位,有助于提高定位精度。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1a为本申请实施例提供的一种视觉定位方法的流程示意图。该方法适用于自主移动设备。如图1a所示,该方法包括:
101、在移动过程中,采集当前所在位置周围的环境图像。
102、利用神经网络模型,分析环境图像中至少一部分像素点的运动属性。
103、根据环境图像中至少一部分像素点的运动属性,确定环境图像中至少一部分像素点中的静态像素点。
104、根据静态像素点和已知的环境地图,定位自主移动设备当前所在位置。
本实施例提供的视觉定位方法适用于自主移动设备。其中自主移动设备可为可自主移动的机器人、无人驾驶车辆或无人机等。本实施例并不限定机器人、无人驾驶车辆和无人机的形状,例如机器人可以是圆形、椭圆形、三角形、凸多边形或人型等。又例如,无人驾驶车辆可以为小型汽车、大巴或货运车等等。其中,自主移动设备可以通过安装软件、APP,或者在相应器件中写入程序代码来实现本实施例提供的自主移动设备进行视觉定位方法的逻辑。
在本实施例中,自主移动设备可在移动的基础上完成一定作业任务。下面以机器人为例,进行示例性说明。例如,在超市、商场等购物场景中,购物车机器人需要跟随顾客移动,以容纳顾客选购的商品。又例如,在一些公司的仓储分拣场景中,分拣机器人需要跟随分拣人员移动到货架拣货区,然后开始分拣订单货物。又例如,在家庭清扫场景中,扫地机器人需要清扫客厅、卧室、厨房等区域。在这些应用场景中,机器人在自主移动过程中,完成相应的作业任务。
无论哪种实现形式的自主移动设备,其在自主移动过程中,都需要实现自主定位和导航。在本实施例中,主要对自主移动设备进行自主定位进行示例性说明。
在本实施例中,自主移动设备上设置有视觉传感器。在步骤101中,该视觉传感器可在自主移动设备移动过程中,采集自主移动设备当前所在位置周围的环境图像。其中,视觉传感器可以为摄像头,例如双目摄像头、单目摄像头或景深摄像头等,但不限于此。
接着,在步骤102中,利用神经网络模型,分析在步骤101中采集到的环境图像中至少一部分像素点的运动属性。其中,在本申请各实施例中,环境图像中至少一部分像素点可以为环境图像中的部分像素点,也可以为环境图像中的所有像素点。若环境图像中至少一部分像素点为环境图像中的部分像素点,这部分像素点的选取可灵活设定,优选地,至少一部分像素点为环境图像中的关键点。进一步,运动属性的种类数量可根据实际需求进行灵活设置。例如,运动属性的种类可设置为:静态、不稳定、移动和不确定等4种运动属性,但不限于此。相应地,将具有静态、不稳定、移动和不确定属性的像素点分别称为静态像素点、不稳定像素点、移动像素点和不确定像素点。其中,静态像素点是是自主移动设备当前所在周围环境中的位置固定不变或基本不变的特征点。其中,位置基本不变是指:位置变化小于或等于预设的变化阈值的点。预设的变化阈值可根据实际需求进行灵活设定,在此不进行限定。预设的变化阈值可以取1cm、5cm等等,但不限于此。不稳定像素点是自主移动设备当前所在周围环境中的位置不稳定的特征点。移动像素点是自主移动设备当前所在周围环境中位置不固定、不断移动的特征点。不确定像素点是指无法确定出其运动属性的像素点。以在室外场景为例,对几类像素点进行举例说明:其中,静态像素点可以为建筑物外墙上的各点、马路斑马线上的各点或者交通灯上的各点等等;不稳定像素点可以为天空中的云朵上的各点或者停在路边的车上的各点等;移动像素点可以为马路上行走的人、车等等。
进一步,在步骤103中,可根据环境图像中至少一部分像素点的运动属性,确定出这至少一部分像素点中的静态像素点,并在步骤104中,根据静态像素点和已知的环境地图,定位自主移动设备当前所在位置。可选地,自主移动设备当前所在位置可通过其当前所在位置在环境地图中对应的位置坐标来表示,但不限于此。
在本申请实施例中,已知的环境地图可以为预存的环境地图,也可为自主移动设备在移动过程中实时构建的环境地图,具体构建过程将在下文实施例中进行说明,在此暂不赘述。
值得说明的是,在申请本实施例中,环境图像可以为RGB图像或灰度图像。可选地,若视觉传感器采集到的环境图像为RGB图像,可在步骤102之前,将其转换为灰度图像。
在本实施例中,自主移动设备在移动过程中采集其所在位置周围的环境图像,针对其采集到的环境图像,利用神经网络模型分析该环境图像中至少一部分像素点的运动属性;进而,基于至少一部分像素点的运动属性,利用静态像素点进行自主定位。静态像素点是自主移动设备当前所在周围环境中位置固定不变或基本不变的特征点,相比于移动中的特征点,利用静态像素点更有利于定位,有助于提高定位精度。
在本申请实施例中,可采用各种神经网络模型分析环境图像中至少一部分像素点的运动属性。例如,神经网络模型可以为卷积神经网络模型,但不限于此。进一步,卷积神经网络模型可以为基于ResNet、MobileNet、ShuffleNet等的全卷积神经网络(FullyConvolutional Networks,FCN),但不限于此。下面以传统卷积神经网络为例,进行示例性说明。
应注意到:在本申请各实施例及附图中,ConvB和Conv均表示该层是卷积层;且每个ConvB后面仅跟着一个批归一化层(BatchNorm)和一个截断激活层(在附图中未示出)。进一步,截断激活层中可采用Sigmoid函数、tanh函数或Relu函数。进一步,K表示卷积层的卷积核或池化层的池化操作核的大小(kernel size);P表示特征图边缘扩充的大小(paddingsize);S表示步幅大小(stride size);F表示输出特征图的数量。
在本申请实施例中,如图1b所示,可利用第一网络模型对环境图像进行特征提取,得到多个特征图(feature map)。其中,多个是指2个或2个以上,其具体取值由第一网络模型的最后一个卷积层的输出特征图的数量决定。其中,第一网络模型的最后一个卷积层的输出特征图的数量,可根据应用需求灵活设置。进一步,为了便于描述和区分,将第一网络模型输出的特征图定义为初始特征图。进一步,可利用第二网络模型对第一网络模型输出的多个初始特征图进行运动属性计算,得到环境图像中至少一部分像素点的运动属性。在下述实施例中,为了便于区分和描述,将第一网络模型输出的多个初始特征图的个数用M进行表示,其中,M≥2,且为整数。卷积层在图1b中,仅以M=128进行示例,但并不对其进行限定。
值得说明的是,在本申请实施例中,第一网络模型和第二网络模型均可为全卷积网络模型。为了便于描述和区分,将第一网络模型和第二网络模型所采用的全卷积网络模型,分别定义为第一全卷积网络模型和第二全卷积网络模型。其中,图1b仅以第一网络模型和第二网络模型实现为全卷积网络模型进行示例,并不对其构成限定。
进一步,在本申请实施例中,若第二网络模型为第二全卷积网络模型,则第二全卷积网络模型的输出层输出的特征图为环境图像中的至少一部分像素点在每种运动属性下的特征体现。为了便于描述和区分,将第二全卷积网络模型输出的特征图定义为第一目标特征图。第一目标特征图为多个,与本实施例中定义的运动属性的种类数相同。其中,每个第一目标特征图是环境图像在一种运动属性下的特征体现,即第二全卷积网络的最后一个卷积层输出的第一目标特征图的个数等于运动属性的种类数。在本申请实施例中,以Q表示运动属性的种类数,也就是第一目标特征图的个数,且Q≥2,且为整数。例如,如图1b所示,若运动属性包括:静态、不稳定、移动和不确定等4种运动属性,则Q=4。基于此,如图1b所示,可将上述M个初始特征图作为第二全卷积网络模型的输入图像,输入第二全卷积网络模型;在第二全卷积网络模型中,对M个初始特征图进行至少一次卷积计算,可输出Q个第一目标特征图;进而,可根据Q个第一目标特征图计算环境图像中至少一部分像素点的运动属性。
相应地,如图1b所示,若第一网络模型为第一全卷积网络模型,则在利用第一网络模型对环境图像进行特征提取时,可将环境图像作为第一全卷积网络模型的输入图像,输入第一全卷积网络模型。进一步,在第一全卷积网络模型中,对环境图像进行至少一层卷积处理以输出M个初始特征图;其中,每层卷积处理包括:至少一次卷积计算和至少一次卷积计算之后的下采样处理。其中,对经过至少一次卷积计算后得到的特征图进行下采样处理,可降低第一全卷积网络模型输出的初始特征图的维度,降低后续在第二全卷积网络模型中的计算量,提高计算速率。进一步,对特征图进行下采样处理的过程可由第一全卷积网络模型中的池化层完成,但不限于此。
在第一全卷积网络模型中,对环境图像进行卷积处理的具体层数可根据实际需求进行灵活设定。在图1b中,以对环境图像进行3层卷积处理进行示例,但并不限于3层,还可以是2层、4层、5层甚至更多层。其中,在每层卷积处理中对环境图像进行卷积计算的次数,可由采用的卷积层的数量决定;而且,在各层中卷积计算的次数既可以相同,也可以不同。在图1b中,以各层包含2个卷积层为例进行示例,并不对其构成限定。可选地,如图1b所示,在第一全卷积网络模型中,在经过至少一层卷积处理之后得到的特征图,还可继续对特征图进行至少一次卷积计算(在图1b中以2次卷积计算为例),得到M个初始特征图。
值得说明的是,在本申请实施例中,图1b所示的在每个卷积层进行卷积计算的卷积核的大小K、特征图边缘扩充的大小P、步幅大小S以及输出特征图的数量F的具体取值均为示例性说明,并不对其构成限定。在每个池化层进行下采样处理时,所采用的池化操作核的大小K和步幅大小S也均为示例性说明,并不对其构成限定。
相应地,由于第一全卷积网络模型输出的M个初始特征图是下采样处理后的特征图,其维度小于环境图像的维度。在本申请实施例中,环境图像的维度和特征图的维度均指对应图的高*宽基于第一全卷积网络模型经过下采样处理后输出的M个初始特征图,在第二全卷积网络中,可在计算环境图像中至少一部分像素点的运动属性时,可先对Q个第一目标特征图分别进行升维处理,得到与环境图像维度相同的Q个升维后的特征图,进而,根据Q个升维后的特征图计算环境图像中至少一部分像素点的运动属性。
可选地,可采用双线性插值算法、最近邻居法、双三次插值法或面积插值法对Q个第一目标特征图分别进行升维处理,但不限于此。若采用双线性插值算法对Q个第一目标特征图分别进行升维处理,可根据Q个第一目标特征图与环境图像之间的维度差异,对Q个第一目标特征图分别进行双线性插值,以得到与环境图像维度相同的Q个升维后的特征图。
进一步,在第二全卷积网络模型中,可对Q个升维后的特征图分别进行归一化处理,得到环境图像中至少一部分像素点中的每个像素点在Q种运动属性下的概率值;针对环境图像中的至少一部分像素点中的每个像素点,可从每个像素点在Q种运动属性下的概率值中选出最大概率值,并将最大概率值对应的运动属性作为该像素点的运动属性。进一步,可采用Softmax函数分别对Q个升维后的特征图分别进行归一化处理。
进一步,可根据环境图像中至少一部分像素点中的每个像素点的运动属性,从至少一部分像素点中选择静态像素点,并根据静态像素点和已知的环境地图,定位出自主移动设备当前所在位置。可选地,可获取静态像素点的特征描述符,并根据静态像素点的特征描述符和已知的环境地图中记录的各位置点的特征描述符,定位自主移动设备当前所在位置。
进一步,为了进一步提高定位精度,可对环境图像中的静态像素点进行筛选,筛选出属于环境图像中的关键点的关键像素点,并利用关键像素点对自主移动设备进行定位。其中,关键点是环境图像特征的局部表达,可反映环境图像上具有的局部特殊性。相应地,在本申请实施例中,还可将环境图像输入局部特征检测器,获取环境图像中的关键点。可选地,局部特征检测器进行斑点检测或角点检测。若局部特征检测器进行斑点检测,则可采用LOG方法、DOH方法、SIFI算法或SURF算法获取环境图像中的关键点;若局部检测器进行角点检测,则可采用Harris算法或FAST算法获取环境图像中的关键点。
进一步,根据环境图像中的关键点,可从环境图像至少一部分像素点中的静态像素点中选择属于关键点的静态像素点作为关键像素点。进一步,根据关键像素点的特征描述符和环境地图中各位置点的特征描述符,确定关键像素点在环境地图中的位置坐标;并根据关键像素点在环境地图中的位置坐标,计算自主移动设备在环境地图中的位置坐标。
可选地,在确定关键像素点在环境地图中的位置坐标时,可计算关键像素点的特征描述符与环境地图中各位置点的特征描述符的相似度,并将相似度大于或等于设定的相似度阈值的位置点作为关键像素点在环境地图中对应的位置点,即将相似度大于或等于设定的相似度阈值的位置点在环境地图中的位置坐标,作为对应的关键像素点在环境地图中的位置坐标。之后,根据这些关键像素点在环境地图中的位置坐标,便可计算出自主移动设备在环境地图中的位置坐标和朝向,即得到自主移动设备的位姿。
其中,环境地图可为预存的自主移动设备在当前位置的周围的环境地图,也可为自主移动设备实时构建的环境地图。对于自主移动设备实时构建环境地图的情况,可采集自主移动特别当前所在位置周期的多张环境图像,为了便于描述和区分,将用于环境地图构建的环境图像定义为初始环境图像。进一步,可计算这些初始环境图像中至少一部分像素点的特征描述符。进一步,利用这些初始环境图像中至少一部分像素点的特征描述符以及该自主移动设备上采集初始环境图像的视觉传感器的内外参数,构建环境地图。其中,具体构建环境地图的过程可参见即时定位与地图构建(Simultaneous localization andmapping,SLAM)中的相关内容,在此不再赘述。
对于上述环境图像中至少一部分像素点的特征描述符,如图1b所示,可利用第三网络模型对上述第一全卷积网络模型输出的多个初始特征图进行特征描述符计算,得到环境图像中至少一部分像素点的特征描述符,并从环境图像中至少一部分像素点的特征描述符中,获取静态像素点的特征描述符。相应地,还可从静态像素点的特征描述符中,获取关键像素点的特征描述符。由于第三网络模型的输入图像为第一全卷积网络模型输出的多个初始特征图,与第二网络模型的输入图像相同,这样确定环境图像至少一部分像素点的运动属性和计算这些像素点的特征描述符,可共用同一个基础网络(即第一网络模型)来进行特征提取,实现了计算复用,减小了计算量,进而有助于提高计算速率,进一步提高定位效率。
进一步,第三网络模型可为全卷积网络模型,为了便于描述和区分,将第三网络模型所采用的全卷积网络模型定义为第三全卷积网络模型。相应地,可将上述M个初始特征图作为第三全卷积网络模型的输入图像,输入第三全卷积网络模型;在第三全卷积网络模型中,对M个初始特征图进行至少一次卷积处理,得到N个特征图。其中,为了便于描述和区分,将第三全卷积网络模型输出的特征图定义为第二目标特征图。其中,每个第二目标特征图是对环境图像中至少一部分像素点的一种特征描述;这样,N个第二目标特征图也就形成环境图像中至少一部分像素点的特征描述符。在本申请实施例中,N为大于或等于2的整数,其具体取值由第三全卷积网络模型中的最后一个卷积层所设定的特征图的数量F所决定。在图1b中,以N=F=128进行示出,并不对其进行限定。
进一步,若M个初始特征图为第一全卷积网络模型经过下采样处理后输出的特征图,则在第三全卷积网络中,还可对N个第二目标特征图分别进行升维处理,得到与环境图像维度相同的N个升维后的特征图,其中,每个升维后的第二目标特征图是对环境图像中至少一部分像素点的一种特征描述;这样,N个升维后的第二目标特征图也就形成环境图像中至少一部分像素点的特征描述符。其中,对N个第二目标特征图进行升维处理的实施方式,可参见上述对Q个第一目标特征图进行升维处理的相关内容,在此不再赘述。
值得说明的是,在本申请实施例中,在利用神经网络模型分析环境图像中至少一部分像素点的运动属性之前,可需对神经网络模型进行训练。下面以对上述第一全卷积网络、第二全卷积网络以及第三全卷积网络进行联合训练为例,对本申请实施例提供的卷积神经网络模型的训练过程进行示例性说明。
在本申请实施例中,可预设初始特征提取网络、初始运动属性分支网络以及初始特征描述符分支网络的网络架构,其中,初始特征提取网络的网络架构包括:卷积层、池化层、这些卷积层和池化层的数量和设置顺序以及每个卷积层和池化层的超参数。其中,卷积层的超参数包括:卷积核的大小K(kernel size)、特征图边缘扩充的大小P(paddingsize)、步幅大小S(stride size)、表示输出特征图的数量F。池化层的超参数为池化操作核的大小K和步幅大小S。进一步,图1c中所示的初始特征提取网络结构中卷积层和池化层的数量和设置顺序以及每个卷积层和池化层的超参数均为示例性说明,并不对其构成限定。
进一步,初始运动属性分支网络的网络架构包括:卷积层、归一化层、卷积层的数量以及每个卷积层的超参数。同样,图1c中所示的初始运动属性分支网络中卷积层的数量以及每个卷积层的超参数均为示例性说明,并不对其构成限定。
初始特征描述符分支网络的网络架构包括:卷积层、卷积层的数量以及每个卷积层的超参数。同样,图1c中所示的初始特征描述符分支网络中卷积层的数量以及每个卷积层的超参数均为示例性说明,并不对其构成限定。
在本申请实施例中,初始特征提取网络对应于第一全卷积网络模型,初始运动属性分支网络对应于第二全卷积网络模型,初始特征符分支网络对应于第三全卷积网络模型。基于此,根据样本图像,对初始特征提取网络、初始运动属性分支网络以及初始特征描述符分支网络进行联合训练,得到第一全卷积网络模型、第二全卷积网络模型以及第三全卷积网络模型。其中,样本图像可以为一帧或多帧,多帧是指2帧或2帧以上,其数量的具体取值可根据实际需求进行灵活设定。
进一步,对于初始运动属性分支网络的训练过程,可获取样本图像的运动属性真值图。其中图1c所示的运动属性真值图中,所示“静止”属性为静态属性。可选地,运动属性真值图可对样本图像进行语义分析获得。进一步,对于运动属性分支网络训练的目标是:使得运动属性分支网络确定出的样本图像中至少一部分像素点的运动属性尽可能与该样本图像对应的运动属性真值图中的运动属性相同。由于运动属性真值图中至少一部分像素点的运动属性是确定的,因此,在运动顺序真值图中,在像素点对应的运动属性下的真值为1。因此,运动属性分支网络训练的目标也可以为:运动属性分支网络计算出的样本图像中至少一部分像素点的最大概率值对应的运动属性与运动属性真值图像中确定的运动属性相同,且该最大概率值尽可能接近于1。
基于上述分析,对于运动属性分支网络,可以运动属性分支网络的交叉熵作为损失函数。交叉熵损失函数可表示为:
LM=-∑i,jyijlog(pij) (1)
其中,pij表示运动属性分支网络计算出的样本图像中的至少一部分像素点在每个运动属性下的概率值;i表示至少一部分像素点在样本图像中的位置;j代表运动属性编号。进一步,交叉熵函数的系数yij是根据样本图像对应的运动属性真值图确定的。确切地说,根据样本图像的运动属性真值图可知,当且仅当样本图像中像素点i的运动属性为j时,yij=1,否则yij=0,即对于样本图像中的每个像素点,只有该像素点在与运动属性真值图像中对应的像素点的运动属性相同的情况下,yij=1。例如,假设样本图像的运动属性真值图确定样本图像中某个像素点的运动属性为静态像素点;运动属性分支网络计算出的该像素点的在每个运动属性(静态、不稳定、移动和不确定)下的概率值分别为:0.92、0.51、0.83和0.45;则只有0.92对应的系数yij=1;0.51、0.83和0.45对应的系数均取0。需要说明的是,运动属性真值图中与样本图像中的每个像素点对应的像素点,是指其在运动属性真值图中的位置坐标与样本图像中至少一部分像素点在样本图像中的位置坐标相同的像素点。
在训练特征描述符分支网络时,采用教师-学生训练策略,该策略采用以往的单独计算局部特征描述符的模型作为教师网络,为了便于表述,将计算局部特征描述符的教师网络简称为特征描述符教师网络。在这种实施方式中,将特征描述符分支网络作为学生网络,通过训练学生网络,使得学生网络的结果逼近特征描述符教师网络,从而使学生网络获得与教师网络相似的局部特征描述符计算能力。可选地,可采用HardNet网络作为特征描述符教师网络。由于特征描述符教师网络的输入图像为整幅样本图像,因此,以该网络为教师网络进行训练出的学生网络(第三全卷积网络模型)也可直接应用于对整幅图像进行特征描述符计算,由于整幅图像具有共享特征计算结果的特性,从而有助于提高计算效率。
进一步,为了使特征描述符分支网络逼近特征描述符教师网络,可采用均方差损失函数训练特征描述符分支网络,得到第三全卷积网络模型。其中,均方差损失函数可表示为:
进一步,在本申请实施例中,为了初始特征提取网络、初始运动属性分支网络以及初始特征描述符分支网络进行联合训练,可根据初始运动属性分支网络的交叉熵函数以及初始特征描述符分支网络模型输出的特征描述符与特征描述符教师网络输出的特征描述符的均方差函数确定。确切地说,可将上述交叉熵损失函数和均方差损失函数之和作为联合损失函数。其中,联合损失函数可表示为:
L=LM+LD (3)
进一步,可通过最小化联合损失函数,对初始特征提取网络、初始运动属性分支网络以及初始特征描述符分支网络进行联合训练,得到第一全卷积网络模型、第二全卷积网络模型以及第三全卷积网络模型。主要训练过程为:利用初始特征提取网络,将样本图像转换为样本特征图;并将联合损失函数最小化作为训练目标,将样本特征图分别输入初始运动属性分支网络和初始特征描述符分支网络进行模型训练,得到第一全卷积网络模型、第二全卷积网络模型以及第三全卷积网络模型。
为了更清楚地说明上述联合训练过程,下面结合图1d对本实施例提供的联合训练过程进行示例性说明。联合训练过程的主要步骤如下:
S1:将样本图像作为初始特征提取网络和特征描述符教师网络的输入图像,分别输入初始特征提取网络和特征描述符教师网络。
S2:利用初始特征提取网络,将样本图像转换为样本特征图。
S3:利用特征描述符教师网络,计算样本图像至少一部分像素点的特征描述符。
S4:将样本特征图作为初始运动属性分支网络和初始特征描述符分支网络的输入图像,分别输入初始运动属性分支网络和初始特征描述符分支网络。
S5:利用初始运动属性分支网络,计算样本图像中至少一部分像素点在每个运动属性下的概率值。
S6:利用初始特征描述符分支网络,计算样本图像中至少一部分像素点的特征描述符。
S7:将样本图像中至少一部分像素点在每个运动属性下的概率值、初始特征描述符分支网络计算出的样本图像中至少一部分像素点的特征描述符以及特征描述符教师网络计算出的样本图像中至少一部分像素点的特征描述符分别带入上述联合损失函数,计算联合损失函数值。
S8:计算本次计算出的联合损失函数值与最近W次计算出的联合函数值的变化幅度。其中,W为大于或等于2的整数,其具体取值可进行灵活设备。例如,W可等于5、8、10等,但不限于此。
S9:判断计算出的变化幅度是否小于或等于预设的变化幅度阈值。若判断结果为是,则执行步骤S11;若判断结果为否,则步骤S10。
S10:沿初始特征提取网络、初始运动属性分支网络以及初始特征描述符分支网络的至少一部分参数的负梯度方向调整至少一部分网络中的参数,并将调整后的3个网络分别作为初始特征提取网络、初始运动属性分支网络以及初始特征描述符分支网络,并返回执行步骤S1。
S11:将当前特征提取网络、当前运动属性分支网络以及当前特征描述符分支网络分别作为第一全卷积网络模型、第二全卷积网络模型以及第三全卷积网络模型。
值得说明的是,在本实施例中,对于步骤S2和S3,二者可以并行执行,也可以顺序执行,在步骤S2和S3顺序执行时,不限定二者执行的先后顺序。同理,对于步骤S4和S5,二者可以并行执行,也可以顺序执行,在步骤S4和S5顺序执行时,不限定二者执行的先后顺序。
还值得说明的是,本实施例提供的视觉定位方法可适用于多种应用场景中。在一些应用场景中,可能同时存在多台自主移动设备,结合多台自主移动设备各自定位出的位置,多台自主移动设备之间可以协同作业。例如,在一些公司的仓储场景中,需要多台分拣机器人进行分拣作业,每台分拣机器人可采用本申请实施例提供的方法定位器当前所在位置并将其当前位置发送给服务端设备,服务端设备可根据每台分拣机器人的当前位置以及仓储空间中货架的分布情况,对分拣机器人进行调度。又例如,在一些清扫场景中,为了尽快完成清扫作业,提高清洁效率,可在清扫空间投放多台清扫机器人。每台清扫机器人在执行清扫作业过程中,可利用本实施例提供的视觉定位方法进行自主定位,并把自身位置上传至服务端设备,服务端设备便可根据每台清扫机器人上报的位置信息以及清扫空间的环境地图,确定清扫空间中未清扫区域,并将清扫机器人调度至未清扫区域执行清扫任务,等等,但不限于此。
相应地,本申请实施例还提供一种存储有计算机指令的计算机可读存储介质,当计算机指令被一个或多个处理器执行时,致使一个或多个处理器执行上述视觉定位方法中的步骤。
在本申请上述实施例中,以自主移动设备为例,对本申请基于视觉的定位方法的过程进行了详细说明,但并不限于自主移动设备,凡是在移动过程中需要定位的设备均可采用本申请实施例提供的方法进行定位。例如,智能手机、智能穿戴设备、非无人驾驶车辆等等。
基于此,本申请实施例还提供一种适用于任何移动设备的定位方法。该方法包括:
步骤1:在移动过程中,采集当前所在位置周围的环境图像。
步骤2:利用神经网络模型,分析环境图像中至少一部分像素点的运动属性。
步骤3:根据至少一部分像素点的运动属性,确定至少一部分像素点中的静态像素点。
步骤4:根据静态像素点和已知的环境地图,定位移动设备当前所在位置。
在本实施例中,移动设备可以为机器人、无人驾驶车辆等自主移动设备,也可为智能手机、可穿戴设备、需要人员进行驾驶的车辆等非自主移动设备。在本实施例中,移动设备设置有定位按钮,或者设置有人机交互界面,该界面上显示有定位控件。用户可触发移动设备上的定位按钮或人机交互界面上的定位控件,移动设备响应于用户的定位触发操作,开始定位。用户的定位触发操作可以在任意时刻,例如,可以在移动设备移动过程中,或者在移动设备停止移动的状态。
相应地,移动设备上设置有视觉传感器。在步骤1中,该视觉传感器可在移动设备移动过程中,采集移动设备当前所在位置周围的环境图像。其中,视觉传感器可以为摄像头,例如双目摄像头、单目摄像头或景深摄像头等,但不限于此。接着,在步骤2中,利用神经网络模型,分析在步骤1中采集到的环境图像中至少一部分像素点的运动属性。其中,关于环境图像中至少一部分像素点以及运动属性的描述可参见上述实施例的相关内容,在此不再赘述。
进一步,在步骤3中,可根据环境图像中至少一部分像素点的运动属性,确定出这至少一部分像素点中的静态像素点,并在步骤4中,根据静态像素点和已知的环境地图,定位移动设备当前所在位置。可选地,移动设备当前所在位置可通过其当前所在位置在环境地图中对应的位置坐标来表示,但不限于此。
在本实施例中,移动设备在移动过程中采集其所在位置周围的环境图像,针对其采集到的环境图像,利用神经网络模型分析该环境图像中至少一部分像素点的运动属性;进而,基于至少一部分像素点的运动属性,利用静态像素点进行自主定位。静态像素点是移动设备当前所在周围环境中位置固定不变或基本不变的特征点,相比于移动中的特征点,利用静态像素点更有利于定位,有助于提高定位精度。
值得说明的是,对于上述步骤1-4的具体实施方式均可参见上述基于视觉定位的方法的相关内容,在此不再赘述。
本申请实施例提供的视觉定位方法除了定位移动设备当前所在位置之外,还可计算移动设备的行进状态信息。其中,移动设备的行进状态信息包括:移动设备的行进速度、行进方向、加速度中的至少一种,但不限于此。
基于此,本申请实施例还提供一种数据处理方法。该方法适用于移动设备,该方法包括:
S11:在移动过程中,采集当前所在位置周围的环境图像。
S12:利用神经网络模型,分析环境图像中至少一部分像素点的运动属性。
S13:根据至少一部分像素点的运动属性,确定至少一部分像素点中的静态像素点。
S14:根据静态像素点和已知的环境地图,定位移动设备当前所在位置。
S15:根据移动设备当前所在位置以及之前至少一个历史位置,计算移动设备的行进状态信息。
在本实施例中,步骤S11-S14的内容的详细描述以及具体实施方式均可参见上述实施例的相关内容,在此不再赘述。
在本实施例中,移动设备在其移动过程中可采集用户所在位置周围的环境图像,并针对其采集到的环境图像,利用神经网络模型分析该环境图像中至少一部分像素点的运动属性;进而,基于至少一部分像素点的运动属性,利用静态像素点对进行自主定位。静态像素点是自主移动设备当前所在周围环境中位置固定不变或基本不变的特征点,相比于移动中的特征点,利用静态像素点更有利于定位,有助于提高定位精度。
进一步,由于本实施例中得到的移动设备当前所在位置以及历史位置的精度较高,因此,在本实施例中,可根据移动设备当前所在位置以及之前至少一个历史位置,计算移动设备的行进状态信息,这样可减少移动设备上的传感器数量,例如可以无需设置速度传感器、加速度传感器等,有助于降低移动设备的硬件成本。
相应地,本申请实施例还提供一种存储有计算机指令的计算机可读存储介质,当计算机指令被一个或多个处理器执行时,致使一个或多个处理器执行上述数据处理方法中的步骤。
除了上述移动终端设备进行视觉定位的方法之外,本申请实施例还提供一种适用于终端设备的视觉定位方法。其中,终端设备可以为便携式终端设备,例如智能手机、平板电脑、智能穿戴设备等,但不限于此。其中,智能穿戴设备可以为电子手表、电子手环、智能眼镜、防丢器等,但不限于此。在本实施例中,终端设备为用户携带或佩戴的终端设备,其随着用户的移动而移动。下面对本申请实施例提供的一种适用于终端设备的视觉定位方法进行示例性说明。该方法主要包括:
S21:在用户移动过程中,采集该用户当前所在位置周围的环境图像,用户携带终端设备。
S22:利用神经网络模型,分析环境图像中至少一部分像素点的运动属性。
S23:根据至少一部分像素点的运动属性,确定至少一部分像素点中的静态像素点。
S24:根据静态像素点和已知的环境地图,定位该用户当前所在位置。
S25:输出用户当前所在位置,以引导该用户行进。
在本实施例中,步骤S21-S24的内容的详细描述以及具体实施方式均可参见上述实施例的相关内容,在此不再赘述。
本实施例中,用户携带终端设备,该终端设备上设置有摄像头,进而终端设备在用户移动过程中可采集用户所在位置周围的环境图像,并针对其采集到的环境图像,利用神经网络模型分析该环境图像中至少一部分像素点的运动属性;进而,基于至少一部分像素点的运动属性,利用静态像素点对用户进行定位,并输出用户的位置信息,引导用户行进。静态像素点是自主移动设备当前所在周围环境中位置固定不变或基本不变的特征点,相比于移动中的特征点,利用静态像素点更有利于定位,有助于提高定位精度,进而有助于提高用户导航精度,从而提高用户体验。
在一种实施例中,终端设备包括显示器。基于此,终端设备可在显示器上显示用户的当前位置,以引导用户行进。
在另一种实施例中,终端设备包括音频组件。基于此,终端设备可利用音频组件,以语音方式输出用户的当前位置,以引导用户行进。这种实施方式可帮助有视力障碍的用户了解其当前所在位置,具有较高的普适度,可进一步提高用户体验。
相应地,本申请实施例还提供一种存储有计算机指令的计算机可读存储介质,当计算机指令被一个或多个处理器执行时,致使一个或多个处理器执行上述视觉定位方法中的步骤。
除了上述实施例提供的视觉定位方法之外,本申请实施例还提供图像处理方法,下面进行示例性说明。
图1e为本申请实施例提供的一种图像处理方法的流程示意图。如图1e所示,该方法包括:
201、获取待处理图像。
202、利用第一网络模型对待处理图像进行特征提取,得到多个初始特征图。
203、利用第二网络模型对多个初始特征图进行运动属性计算,得到待处理图像中至少一部分像素点的运动属性。
204、利用第三网络模型对多个初始特征图进行特征描述符计算,以得到待处理图像中至少一部分像素点的特征描述符。
在本实施例中,步骤201中的待处理图像可为图像处理设备采集的图像,也可为通过其他方式获取的图像。例如,待处理图像可以为其他设备发送的图像,或者为从存储介质中读取的图像,但不限于此。进一步,在步骤202中,可利用第一网络模型对待处理图像进行特征提取,得到多个特征图。其中,多个是指2个或2个以上,其具体取值由第一网络模型的最后一个卷积层的输出特征图的数量决定。其中,第一网络模型的最后一个卷积层的输出特征图的数量,可根据应用需求灵活设置。进一步,为了便于描述和区分,将第一网络模型输出的特征图定义为初始特征图。接着,在步骤203中,可利用第二网络模型对第一网络模型输出的多个初始特征图进行运动属性计算,得到环境图像中至少一部分像素点的运动属性。并在步骤204中,利用第三网络模型对多个初始特征图进行特征描述符计算,得到待处理图像中至少一部分像素点的特征描述符。
在本实施例中,待处理图像中至少一部分像素点为可以为待处理图像中的部分像素点,也可以为待处理图像中的所有像素点。若待处理图像中至少一部分像素点为待处理图像中的部分像素点,这部分像素点的选取可灵活设定,优选地,至少一部分像素点为待处理图像中的关键点。
在本实施例中,运动属性分支网络(第二网络模型)和特征描述符分支网络(第三网络模型)共用一个基础网络(第一网络模型),实现了基础网络计算的复用,在计算待处理图像中至少一部分像素点的运动属性和特征描述符时,可实现基础网络复用,即实现计算复用,进而可减少计算量,有助于提高图像处理效率。
在本实施例中,第一网络模型、第二网络模型以及第三网络模型均可采用任何形式的神经网络模型,例如卷积神经网络模型等,但不限于此。进一步,第一网络模型、第二网络模型以及第三网络模型均可采用全卷积网络模型。为了便于描述和区分,将第一网络模型、第二网络模型以及第三网络模型所采用全卷积网络模型,分别定义为第一全卷积网络模型、第二全卷积网络模型以及第三全卷积网络模型。下面以第一全卷积网络模型、第二全卷积网络模型以及第三全卷积网络模型为例,对上述步骤202-204的一些具体实施方式进行示例性说明。
在本实施例中,为了便于区分和描述,将第一全卷积网络模型输出的多个初始特征图的个数用M进行表示,其中,M≥2,且为整数。其中,M的具体取值,由第一全卷积网络模型的最后一个卷积层的输出特征图的数量F决定,在上述图1b中,仅以M=F=128进行示例,但并不对其进行限定。
进一步,第二全卷积网络模型的输出层输出的特征图为待处理图像中的至少一部分像素点在每种运动属性下的特征体现。为了便于描述和区分,将第二全卷积网络模型输出的特征图定义为第一目标特征图。第一目标特征图为多个,与本实施例中定义的运动属性的种类数相同。其中,每个第一目标特征图是待处理图像在一种运动属性下的特征体现,即第二全卷积网络的最后一个卷积层输出的第一目标特征图的个数等于运动属性的种类数。在本申请实施例中,以Q表示并且等于运动属性的种类数,也就是第一目标特征图的个数,且Q≥2,且为整数。例如,如图1b所示,若运动属性包括:静态、不稳定、移动和不确定等4种运动属性,则Q=4。基于此,如图1b所示,可将上述M个初始特征图作为第二全卷积网络模型的输入图像,输入第二全卷积网络模型;在第二全卷积网络模型中,对M个初始特征图进行至少一次卷积计算,可输出Q个第一目标特征图;进而,可根据Q个第一目标特征图计算待处理图像中至少一部分像素点的运动属性。其中,关于第一全卷积网络模型输出M个初始特征图以及在第二全卷积网络模型中,根据Q个第一目标特征图计算待处理图像中至少一部分像素点的运动属性的具体实施方式,可参见上述视觉定位方法中的相关内容,在此不再赘述。
对于上述待处理图像中至少一部分像素点的特征描述符,如图1b所示,可利用第三全卷积网络模型对上述第一全卷积网络模型输出的多个初始特征图进行特征描述符计算,得到待处理图像中至少一部分像素点的特征描述符,并从待处理图像中至少一部分像素点的特征描述符中,获取静态像素点的特征描述符。相应地,还可从静态像素点的特征描述符中,获取关键像素点的特征描述符。由于第三全卷积网络模型的输入图像为第一全卷积网络模型输出的多个初始特征图,与第二全卷积网络模型的输入图像相同,这样确定待处理图像至少一部分像素点的运动属性和计算这些像素点的特征描述符,可共用同一个基础网络(即第一全卷积网络模型)来进行特征提取,实现了计算复用,减小了计算量,进而有助于提高计算速率,进一步提高定位效率。
进一步,可将上述M个初始特征图作为第三全卷积网络模型的输入图像,输入第三全卷积网络模型;在第三全卷积网络模型中,对M个初始特征图进行至少一次卷积处理,得到N个特征图。其中,为了便于描述和区分,将第三全卷积网络模型输出的特征图定义为第二目标特征图。其中,每个第二目标特征图是对环境图像中至少一部分像素点的一种特征描述;这样,N个第二目标特征图也就形成环境图像中至少一部分像素点的特征描述符。在本申请实施例中,N为大于或等于2的整数,其具体取值由第三全卷积网络模型中的最后一个卷积层所设定的特征图的数量F所决定。在图1b中,以N=F=128进行示出,并不对其进行限定。其中,在第三全卷积网络模型中,得到N个第二目标特征图的具体实施方式,可参见上述视觉定位实施例的相关内容,在此不再赘述。
值得说明的是,在本申请实施例中,在利用第一全卷积网络、第二全卷积网络以及第三全卷积网络进行图像处理之前,还可对第一全卷积网络、第二全卷积网络以及第三全卷积网络进行联合训练,其中联合训练过程可参见上述实施例的相关内容,在此不再赘述。
对于上述图像处理方法,在不同的应用场景中具有不同的用途。例如,在基于视觉定位的应用场景中,在步骤204之后,可根据待处理图像中至少一部分像素点的运动属性,确定这至少一部分像素点中的静态像素点。接着,根据静态像素点和已知的环境地图,定位采集待处理图像的设备在采集待处理图像过程中所在的位置。
进一步,可从步骤204计算出的至少一部分像素点的特征描述符中,获取静态像素点的特征描述符;并根据静态像素点的特征描述符和已知的环境地图中记录的各位置点的特征描述符,定位采集待处理图像的设备在采集该待处理图像的过程中所在的位置。其中,关于定位采集待处理图像的设备在采集该待处理图像的过程中所在的位置的具体实施方式,可参见上述视觉定位方法中的相关内容,在此不再赘述。
值得说明的是,本实施例提供的图像处理方法可适用于任何计算机设备,例如终端设备(电脑、智能手机、可穿戴设备等)、云端的服务器或服务器阵列等。当然,也可适用于边缘云网络系统中的边缘计算设备。例如,边缘计算设备可以包括:加入边缘云网络中的基站、家庭网关、个人电脑、智能手机、路灯、交通灯和/或建筑物上的电子监控设备等。
结合图2a所示的边缘云网络系统,对本实施例提供的图像处理方法进行示例性。在图2a中,以采集待处理图像的设备为用户携带的终端设备进行示例,且图2a仅以用户携带的终端设备为用户佩戴的智能眼镜进行示出。在图2a中,该边缘云网络系统包括:边缘计算设备以及部署在云端或客户机房中的服务器。服务器与边缘计算设备通过网络进行通信,服务器可响应边缘计算设备的请求,为边缘计算设备提供相关云服务;另外,服务器也可对边缘计算设备进行管控、运维等。边缘计算设备括硬件基础设施、硬件基础设施的驱动程序、操作系统以及相关应用程序等。硬件基础设施包括但不限于:CPU、网卡以及存储器等。
在本实施例中,终端设备包括摄像头,边缘计算设备内部设置有包括两层结构的神经网络模型。如图2a所示,用户携带的终端设备采集用户当前所在位置周围的环境图像,并将环境图像发送给当前周围环境中的边缘计算设备。该边缘计算设备接收环境图像,并将环境图像输入两层结构的神经网络模型。在两层结构的神经网络模型中,第一层网络可对环境图像进行特征提取,得到多个初始特征图;多个初始特征图被送入第二层网络,第二层网络对多个初始特征图进行运动属性计算,得到环境图像中至少一部分像素点的运动属性。接着,边缘计算设备可根据环境图像中至少一部分像素点的运动属性,确定出这至少一部分像素点中的静态像素点,并根据静态像素点的特征描述符和已知的环境地图,定位用户当前所在位置。其中,边缘计算设备根据静态像素点的特征描述符和已知的环境地图,定位用户当前所在位置的具体实施方式可参见上述实施例的相关内容,在此不再赘述。进一步,边缘计算设备可将用户当前所在位置发送给用户携带的终端设备,该终端设备接收用户当前所在位置,并输出用户当前所在位置,以引导用户行进。
值得说明的是,本实施例中的“用户佩戴的智能眼镜”也可以替换为其它实施例中的机器人、无人机等自主移动设备,或者用户驾驶的汽车、用户骑行的自行车等非自主移动设备,本实施例仅以“用户佩戴的智能眼镜”为例进行说明。
相应地,本申请实施例还提供一种存储有计算机指令的计算机可读存储介质,当计算机指令被一个或多个处理器执行时,致使一个或多个处理器执行上述图像处理方法中的步骤。
图2b为本申请实施例提供的另一种图像处理方法的流程示意图。如图2b所示,该方法包括:
S201:将待处理图像输入神经网络模型,其中,神经网络模型包括至少两层结构。
S202:利用神经网络模型中的第一层网络,对待处理图像进行特征提取,得到多个初始特征图。
S203:利用神经网络模型中的第二层网络,对多个初始特征图进行运动属性计算,得到待处理图像中至少一部分像素点的运动属性。
S204:根据至少一部分像素点的运动属性,确定其中位置变化小于或等于预设阈值的目标像素点。
S205:根据目标像素点和已知的环境地图,定位采集待处理图像的设备在采集待处理图像的过程中所在的位置。
在本实施例中,待处理图像可为图像处理设备采集的图像,也可为通过其他方式获取的图像。例如,待处理图像可以为其他设备发送的图像,或者为从存储介质中读取的图像,但不限于此。
在本实施例中,神经网络模型包括至少两层结构,其网络的层数可根据实际功能需求进行灵活设定。在本实施例中,第一层网络可对待处理图像进行特征提取,得到多个特征图。其中,多个是指2个或2个以上,其具体取值由第一层网络的最后一个卷积层的输出特征图的数量决定。为了便于描述和区分,将第一网络模型输出的特征图定义为初始特征图。进一步,第二层网络可对多个初始特征图进行运动属性计算,得到待处理图像中至少一部分像素点的运动属性。其中,关于至少一部分像素点的描述可参见上述实施例的相关内容,在此不再赘述。接着,可根据待处理图像中至少一部分像素点的运动属性,确定出这至少一部分像素点中位置变化小于或等于预设的阈值的目标像素点。其中,预设的阈值可以隔绝实际需求进行灵活设定,在此不进行限定。可选地,目标像素点也可以为位置固定不变的特征点。进一步,可根据目标像素点和已知的环境地图,定位采集待处理图像的设备在采集待处理图像过程中所在的位置。
在本实施例中,利用神经网络模型分析待处理图像中至少一部分像素点的运动属性;进而,基于至少一部分像素点的运动属性,利用位置变化小于或等于预设的变化阈值的目标像素点,定位采集待处理图像的设备在采集待处理图像过程中所在的位置。目标像素点采集待处理图像的设备在采集待处理图像过程中所在周围环境中位置固定不变或基本不变的特征点,相比于移动中的特征点,利用目标像素点更有利于定位,有助于提高定位精度。
在本申请实施例中,神经网络模型可采用任何形式的神经网络模型,例如卷积神经网络模型等,但不限于此。进一步,神经网络模型可采用全卷积网络模型,即第一层网络和第二层网络均为全卷积网络。其中,若第一层网络和第二层网络均为全卷积网络,步骤S202和步骤S203的具体实施方式可参见上述实施例的相关内容,在此不再赘述。
进一步,在本实施例中,神经网络模型还可包括第三层网络。进一步,可利用第三层网络对多个初始特征图进行特征描述符计算,以得到待处理图像中至少一部分像素点的特征描述符。其中,第三层网络也可为全卷积网络,且利用全卷积网络对多个初始特征图进行特征描述符计算的具体实施方式,也可参见上述实施例的相关内容,在此不再赘述。
进一步,可从计算出的至少一部分像素点的特征描述符中,获取目标像素点的特征描述符;并根据目标像素点的特征描述符和已知的环境地图中记录的各位置点的特征描述符,定位采集待处理图像的设备在采集该待处理图像的过程中所在的位置。其中,关于定位采集待处理图像的设备在采集该待处理图像的过程中所在的位置的具体实施方式,可参见上述视觉定位方法中的相关内容,在此不再赘述。
值得说明的是,关于对神经网络模型进行模型训练的具体实施方式,可参见上述实施例的相关内容,在此不再赘述。
结合图2c所示的一种场景示意图,对本实施例提供的图像处理方法进行示例性说明。在图2c中,以移动设备为机器人以及机器人所处环境为室外环境进行示例。图2c中机器人的实现形态以及其所处的环境仅为示例性说明,并不对其进行限定。在本实施例中,机器人可以自主移动,并在移动过程中可实现自主定位。如图2c所示,机器人包括摄像头,且其内部设置有包括两层结构的神经网络模型。机器人在移动过程中,利用摄像头采集周围环境图像,并将采集到的环境图像输入两层结构的神经网络模型。在两层结构的神经网络模型中,第一层网络可对环境图像进行特征提取,得到多个初始特征图;多个初始特征图被送入第二层网络,第二层网络对多个初始特征图进行运动属性计算,得到环境图像中至少一部分像素点的运动属性。接着,机器人可根据环境图像中至少一部分像素点的运动属性,确定出这至少一部分像素点中位置变化小于或等于预设的阈值的目标像素点,并根据目标像素点和已知的环境地图,定位自身当前所在位置(x0,y0,z0),即进行自主定位。
值得说明的是,本实施例提供的图像处理方法可适用于任何计算机设备,例如终端设备(电脑、智能手机、可穿戴设备等)、云端的服务器或服务器阵列等。当然,也可适用于边缘云网络系统中的边缘计算设备。例如,路灯、交通灯、建筑物上的电子设备(摄像头等)。其中,若计算机设备为边缘云网络系统中的边缘计算设备,其与采集待处理图像的设备的交互方式以及边缘云网络系统的结构均可参见上述图2a中的相关内容,在此不再赘述。进一步,在本实施例中,边缘计算设备可根据环境图像中至少一部分像素点的运动属性,确定出这至少一部分像素点中位置变化小于或等于预设的阈值的目标像素点,并根据目标像素点和已知的环境地图,定位用户当前所在位置。进一步,边缘计算设备可将用户当前所在位置发送给用户携带的终端设备,该终端设备接收用户当前所在位置,并输出用户当前所在位置,以引导用户行进。
相应地,本申请实施例还提供一种存储有计算机指令的计算机可读存储介质,当计算机指令被一个或多个处理器执行时,致使一个或多个处理器执行上述图像处理方法中的步骤。
需要说明的是,上述实施例所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤101和102的执行主体可以为设备A;又比如,步骤101的执行主体可以为设备A,步骤102的执行主体可以为设备B;等等。另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如203、204等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。
图3为本实施例提供的一种移动设备的硬件结构框图。如图3所示,该移动设备30包括:机械本体30a。该机械本体30a上设有视觉传感器30b、一个或多个处理器30c,以及一个或多个存储器30d。
值得说明的是,一个或多个处理器30c、一个或多个存储器30d、视觉传感器30b可设置于机械本体30a内部,也可以设置于机械本体30a的表面。
机械本体30a是移动设备30的执行机构,可以在确定的环境中执行一个或多个处理器30c指定的操作。其中,机械本体30a一定程度上体现了自主移动设备30的外观形态。在本实施例中,并不限定自主移动设备30的外观形态。可选地,移动设备可为自主移动设备,例如机器人、无人驾驶车辆或无人机等。移动设备也可为智能手机、穿戴设备、需要人员驾驶等非自主移动设备,但不限于此。机械本体30a主要是指移动设备30的机身。
值得说明的是,机械本体30a上还设置有移动设备30的一些基本组件,例如驱动组件、里程计、电源组件、音频组件等等。可选地,驱动组件可以包括驱动轮、驱动电机、万向轮等。不同移动设备所包含的这些基本组件以及基本组件的构成均会有所不同,本申请实施例列举的仅是部分示例。
一个或多个存储器30d,主要用于存储计算机指令,这些计算机指令可被一个或多个处理器30c执行,致使一个或多个处理器30c控制移动设备30实现相应功能、完成相应动作或任务。除了存储计算机指令之外,一个或多个存储器30d还可被配置为存储其它各种数据以支持在移动设备30上的操作。这些数据的示例包括用于在移动设备30上操作的任何应用程序或方法的指令,移动设备30所处环境对应的环境地图。其中,环境地图可以是预先存储的整个环境对应的一幅或多幅地图,或者也可以是之前正在构建的部分地图。
在本实施例中,视觉传感器30a可以看作是移动设备30的“眼睛”,主要用于在移动设备30移动过程中,采集移动设备30当前所在位置周围的环境图像。视觉传感器可以采用任何具有图像采集功能的设备实现,例如可以采用摄像头、激光传感器、红外传感器等。进一步,摄像头可以为双目摄像头、单目摄像头或景深摄像头等,但不限于此。
一个或多个处理器30c,可以看作是移动设备30的控制系统,可与一个或多个存储器30d耦合,用于执行一个或多个存储器30d中存储的计算机指令,以控制移动设备30实现相应功能、完成相应动作或任务。值得说明的是,移动设备30处于不同场景时,其所需实现的功能、完成的动作或任务会有所不同;相应地,一个或多个存储器30d中存储的计算机指令也会有所不同,而一个或多个处理器30c执行不同计算机指令可控制移动设备30实现不同的功能、完成不同的动作或任务。
在本实施例中,一个或多个处理器30c主要用于:利用神经网络模型,分析环境图像中至少一部分像素点的运动属性;根据环境图像中至少一部分像素点的运动属性,确定环境图像中的静态像素点;以及根据静态像素点和已知的环境地图,定位移动设备当前所在位置。
在一些实施例中,一个或多个处理器30c在分析环境图像中至少一部分像素点的运动属性时,具体用于:利用第一网络模型对环境图像进行特征提取,得到多个初始特征图;利用第二网络模型对多个初始特征图进行运动属性计算,得到环境图像中至少一部分像素点的运动属性。
进一步,第一网络模型可为第一全卷积网络模型,第二网络模型可为第二全卷积网络模型。相应地,一个或多个处理器30c在利用第二网络模型对多个初始特征图进行运动属性计算时,具体用于:将M个初始特征图作为第二全卷积网络模型的输入图像,输入第二全卷积网络模型;在第二全卷积网络模型中,对M个初始特征图进行至少一次卷积计算以输出Q个第一目标特征图,每个第一目标特征图是环境图像在一种运动属性下的特征体现;以及根据Q个第一目标特征图计算环境图像中至少一部分像素点的运动属性;其中,M和Q为大于或等于2的整数。
进一步,一个或多个处理器30c在利用第一网络模型对环境图像进行特征提取时,具体用于:将环境图像作为第一全卷积网络模型的输入图像,输入第一全卷积网络模型;在第一全卷积网络模型中,对环境图像进行至少一层卷积处理以输出M个初始特征图;其中,每一层卷积处理包括:至少一次卷积计算和至少一次卷积计算之后的下采样处理。
可选地,一个或多个处理器30c在计算环境图像中至少一部分像素点的运动属性时,具体用于:对Q个第一目标特征图分别进行升维处理,得到与环境图像维度相同的Q个升维后的特征图;根据Q个升维后的特征图计算环境图像中至少一部分像素点的运动属性。
进一步,一个或多个处理器30c在对Q个第一目标特征图进行升维处理时,具体用于:根据Q个第一目标特征图与环境图像之间的维度差异对Q个第一目标特征图分别进行双线性插值,以得到与环境图像维度相同的Q个升维后的特征图。
相应地,一个或多个处理器30c在计算环境图像中至少一部分像素点的运动属性时,具体用于:对Q个升维后的特征图分别进行归一化处理,以得到环境图像中至少一部分像素点中的每个像素点在Q种运动属性下的概率值;针对环境图像中至少一部分像素点中的每个像素点,从每个像素点在Q种运动属性下的概率值中选出最大概率值,将最大概率值对应的运动属性作为该像素点的运动属性。
在另一些实施例中,一个或多个处理器30c在定位移动设备当前所在位置时,具体用于:获取静态像素点的特征描述符;根据静态像素点的特征描述符和已知的环境地图中记录的各位置点的特征描述符,定位移动设备当前所在位置。
进一步,一个或多个处理器30c在定位自主移动设备当前所在位置时,具体用于:根据环境图像中的关键点,从静态像素点中选择属于关键点的静态像素点作为关键像素点;根据关键像素点的特征描述符和环境地图中各位置点的特征描述符,确定关键像素点在环境地图中的位置坐标;以及根据关键像素点在环境地图中的位置坐标,计算自主移动设备在环境地图中的位置坐标。
进一步,一个或多个处理器30c在获取静态像素点的特征描述符时,具体用于:利用第三网络模型对多个初始特征图进行特征描述符计算,以得到环境图像中至少一部分像素点的特征描述符;从环境图像中至少一部分像素点的特征描述符中,获取静态像素点的特征描述符。
进一步,第三全网络模型可为第三全卷积网络模型。相应地,一个或多个处理器30c在利用第三网络模型对多个初始特征图进行特征描述符计算时,具体用于:将M个初始特征图作为第三全卷积网络模型的输入图像,输入第三全卷积网络模型;在第三全卷积网络模型中,对M个初始特征图进行至少一次卷积处理,得到N个第二目标特征图,每个第二目标特征图是对环境图像中至少一部分像素点的一种特征描述;其中,N个第二目标特征图形成环境图像中至少一部分像素点的特征描述符;其中,N为大于或等于2的整数。
在又一些实施例中,一个或多个处理器30c在分析环境图像中至少一部分像素点的运动属性之前,还用于:根据样本图像,对初始特征提取网络、初始运动属性分支网络以及初始特征描述符分支网络进行联合训练,得到第一全卷积网络模型、第二全卷积网络模型以及第三全卷积网络模型。
进一步,一个或多个处理器30c在对初始特征提取网络、初始运动属性分支网络以及初始特征描述符分支网络进行联合训练时,具体用于:利用初始特征提取网络,将样本图像转换为样本特征图;将联合损失函数最小化作为训练目标,将样本特征图分别输入初始运动属性分支网络和初始特征描述符分支网络进行模型训练,得到第一全卷积网络模型、第二全卷积网络模型以及第三全卷积网络模型;联合损失函数是根据初始运动属性分支网络的交叉熵函数以及初始特征描述符分支网络模型输出的特征描述符与特征描述符教师网络输出的特征描述符的均方差函数确定的;其中,交叉熵函数的系数是根据样本图像对应的运动属性真值图确定的。
可选地,特征描述符教师网络为Hardnet网络。
在一可选实施例中,一个或多个处理器30c还用于:根据移动设备当前所在位置以及之前至少一个历史位置,计算移动设备的行进状态信息。其中,行进状态信息包括:行进方向、行进速度、加速度等中的至少一种。
在另一可选实施例中,移动设备可以是一些可被用户佩戴并且可跟随用户移动的终端设备,例如智能手机、平板电脑、智能可穿戴设备等。在该情况下,终端设备中的处理器还可用于:根据静态像素点和已知的环境地图,定位携带该终端设备的用户当前所在位置,并输出用户当前所在位置,以引导该用户行进。
可选地,终端设备还包括:音频组件。相应地,处理器在输出用户当前所在位置时,可通过音频组件,以语音方式输出用户当前所在位置,以引导该用户行进。
本实施例提供的移动设备,可在移动过程中采集其所在位置周围的环境图像,针对其采集到的环境图像,利用神经网络模型,分析该环境图像中至少一部分像素点的运动属性;进而,基于至少一部分像素点的运动属性,利用静态像素点对自主移动设备进行定位。静态像素点是移动设备当前所在周围环境中位置固定不变或基本不变的特征点,相比于移动中的特征点,利用静态像素点更有利于定位,有助于提高定位精度。
图4为本申请实施例提供的一种计算机设备的结构示意图。如图4所示,该计算机设备包括:存储器40a和处理器40b。
在本实施例中,存储器40a,用于存储计算机指令。
处理器40b,耦合至一个或多个存储器40a,用于执行计算机指令,以用于:获取待处理图像;利用第一网络模型对待处理图像进行特征提取,得到多个初始特征图;利用第二网络模型对多个初始特征图进行运动属性计算,得到待处理图像中至少一部分像素点的运动属性;利用第三全卷积网络模型对多个初始特征图进行特征描述符计算,以得到待处理图像中至少一部分像素点的特征描述符。
在一些实施例中,处理器40b还用于:根据待处理图像中至少一部分像素点的运动属性,确定所述至少一部分像素点中的静态像素点;根据静态像素点和已知的环境地图,定位采集待处理图像的设备在采集待处理图像的过程中所在的位置。
进一步,处理器40b在定位采集所述待处理图像的设备在采集所述待处理图像的过程中所在的位置时,具体用于:从待处理图像中至少一部分像素点的特征描述符中,获取静态像素点的特征描述符;根据静态像素点的特征描述符和已知的环境地图中记录的各位置点的特征描述符,定位采集所述待处理图像的设备在采集所述待处理图像的过程中所在的位置。
在本实施例中,第一网络模型、第二网络模型以及第三网络模型可以为第一全卷积网络模型、第二全卷积网络模型以及第三全卷积网络模型。
相应地,处理器40b在利用第二网络模型对多个初始特征图进行运动属性计算时,具体用于:将M个初始特征图作为第二全卷积网络模型的输入图像,输入第二全卷积网络模型;在第二全卷积网络模型中,对M个初始特征图进行至少一次卷积计算以输出Q个第一目标特征图,每个第一目标特征图是待处理图像在一种运动属性下的特征体现;根据Q个第一目标特征图计算待处理图像中至少一部分像素点的运动属性;其中,M和Q为大于或等于2的整数。
进一步,处理器40b在利用第三网络模型对多个初始特征图进行特征描述符计算时,具体用于:将M个初始特征图作为第三全卷积网络模型的输入图像,输入第三全卷积网络模型;在第三全卷积网络模型中,对M个初始特征图进行至少一次卷积处理,得到N个第二目标特征图,每个第二目标特征图是对待处理图像中至少一部分像素点的一种特征描述;其中,N个第二目标特征图形成待处理图像中至少一部分像素点的特征描述符;其中,N为大于或等于2的整数。
值得说明的是,在本实施例中,处理器40b利用第二全卷积网络模型对待处理图像进行运动属性计算、利用第三全卷积网络模型进行特征描述符计算以及对第一全卷积网络模型、第二全卷积网络模型和第三全卷积网络模型进行训练的具体实施方式,均可参见上述实施例中的相关内容,在此不再赘述。
在一些可选实施方式中,如图4所示,该计算机设备还可以包括:通信组件40c、电源组件40d、音频组件40e、显示器40f或视觉传感器40g等可选组件。图4中仅示意性给出部分组件,并不意味着计算机设备必须包含图4所示全部组件,也不意味着计算机设备只能包括图4所示组件。
在一些实施例中,计算机设备可为边缘云网络系统中的边缘计算设备。关于边缘云网络系统的一种实现结构可参见图2a所示。
本实施例提供的计算机设备,可使运动属性分支网络(第二网络模型)和特征描述符分支网络(第三网络模型)共用一个基础网络(第一网络模型),实现了基础网络计算的复用,在计算待处理图像中各像素点的运动属性和特征描述符时,可实现基础网络复用,即实现计算复用,进而可减少计算量,有助于提高图像处理效率。
图5为本申请实施例提供的一种计算机设备的结构示意图。如图5所示,该计算机设备包括:存储器50a和处理器50b。
在本实施例中,存储器50a,用于存储计算机指令。
处理器50b,耦合至一个或多个存储器50a,用于执行计算机指令,以用于:将待处理图像输入神经网络模型,其中,神经网络模型包括至少两层结构;利用神经网络模型中的第一层网络,对待处理图像进行特征提取,得到多个初始特征图;利用神经网络模型中的第二层网络,对多个初始特征图进行运动属性计算,得到待处理图像中至少一部分像素点的运动属性;根据至少一部分像素点的运动属性,确定其中位置变化小于或等于预设阈值的目标像素点;以及根据目标像素点和已知的环境地图,定位采集待处理图像的设备在采集待处理图像的过程中所在的位置。
在一些可选实施方式中,如图5所示,该计算机设备还可以包括:通信组件50c、电源组件50d、音频组件50e、显示器50f或视觉传感器50g等可选组件。图5中仅示意性给出部分组件,并不意味着计算机设备必须包含图5所示全部组件,也不意味着计算机设备只能包括图5所示组件。
在一些实施例中,计算机设备可为边缘云网络系统中的边缘计算设备。关于边缘云网络系统的一种实现结构可参见图2a所示。
本实施例提供的计算机设备,可利用神经网络模型分析待处理图像中至少一部分像素点的运动属性;进而,基于至少一部分像素点的运动属性,利用位置变化小于或等于预设的变化阈值的目标像素点,定位采集待处理图像的设备在采集待处理图像过程中所在的位置。目标像素点采集待处理图像的设备在采集待处理图像过程中所在周围环境中位置固定不变或基本不变的特征点,相比于移动中的特征点,利用目标像素点更有利于定位,有助于提高定位精度。
在本申请实施例中,存储器用于存储计算机程序,并可被配置为存储其它各种数据以支持在其所在设备上的操作。其中,处理器可执行存储器中存储的计算机程序,以实现相应控制逻辑。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
在本申请实施例中,通信组件被配置为便于其所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如WiFi、2G、3G、4G、5G或未来出现的其他通信标准,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件还可基于近场通信(NFC)技术、射频识别(RFID)技术、红外数据协会(IrDA)技术、超宽带(UWB)技术、蓝牙(BT)技术或其他技术来实现。
在本申请实施例中,显示器可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
在本申请实施例中,电源组件被配置为其所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
在本申请实施例中,音频组件可被配置为输出和/或输入音频信号。例如,音频组件包括一个麦克风(MIC),当音频组件所在设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中,音频组件还包括一个扬声器,用于输出音频信号。例如,对于具有语言交互功能的电子设备,可通过音频组件实现与用户的语音交互等。
需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (36)
1.一种视觉定位方法,适用于移动设备,其特征在于,所述方法包括:
在移动过程中,采集当前所在位置周围的环境图像;
利用神经网络模型,分析所述环境图像中至少一部分像素点的运动属性;
根据所述至少一部分像素点的运动属性,确定所述至少一部分像素点中的静态像素点;
根据所述静态像素点和已知的环境地图,定位所述移动设备当前所在位置。
2.根据权利要求1所述的方法,其特征在于,所述利用神经网络模型,分析所述环境图像中至少一部分像素点的运动属性,包括:
利用第一网络模型对所述环境图像进行特征提取,得到多个初始特征图;
利用第二网络模型对所述多个初始特征图进行运动属性计算,得到所述环境图像中至少一部分像素点的运动属性。
3.根据权利要求2所述的方法,其特征在于,所述第一网络模型为第一全卷积网络模型;所述第二网络模型为第二全卷积网络模型。
4.根据权利要求3所述的方法,其特征在于,所述利用第二网络模型对所述多个初始特征图进行运动属性计算,得到所述环境图像中至少一部分像素点的运动属性,包括:
将M个初始特征图作为所述第二全卷积网络模型的输入图像,输入所述第二全卷积网络模型;
在所述第二全卷积网络模型中,对所述M个初始特征图进行至少一次卷积计算以输出Q个第一目标特征图,每个第一目标特征图是所述环境图像在一种运动属性下的特征体现;
根据所述Q个第一目标特征图计算所述环境图像中至少一部分像素点的运动属性;
其中,M和Q为大于或等于2的整数。
5.根据权利要求4所述的方法,其特征在于,所述利用第一网络模型对所述环境图像进行特征提取,得到多个初始特征图,包括:
将所述环境图像作为所述第一全卷积网络模型的输入图像,输入所述第一全卷积网络模型;
在所述第一全卷积网络模型中,对所述环境图像进行至少一层卷积处理以输出所述M个初始特征图;
其中,每一层卷积处理包括:至少一次卷积计算和所述至少一次卷积计算之后的下采样处理。
6.根据权利要求5所述的方法,其特征在于,所述根据所述Q个第一目标特征图计算所述环境图像中至少一部分像素点的运动属性,包括:
对所述Q个第一目标特征图分别进行升维处理,得到与所述环境图像维度相同的Q个升维后的特征图;
根据所述Q个升维后的特征图计算所述环境图像中至少一部分像素点的运动属性。
7.根据权利要求6所述的方法,其特征在于,所述对所述Q个第一目标特征图进行升维处理,得到与所述环境图像维度相同的Q个升维后的特征图,包括:
根据所述Q个第一目标特征图与所述环境图像之间的维度差异对所述Q个第一目标特征图分别进行双线性插值,以得到与所述环境图像维度相同的Q个升维后的特征图。
8.根据权利要求6所述的方法,其特征在于,所述根据所述Q个升维后的特征图计算所述环境图像中至少一部分像素点的运动属性,包括:
对所述Q个升维后的特征图分别进行归一化处理,以得到所述至少一部分像素点中的每个像素点在Q种运动属性下的概率值;
针对所述至少一部分像素点中的每个像素点,从每个像素点在Q种运动属性下的概率值中选出最大概率值,将所述最大概率值对应的运动属性作为该像素点的运动属性。
9.根据权利要求4-8任一项所述的方法,其特征在于,所述根据所述静态像素点和已知的环境地图,定位所述移动设备当前所在位置,包括:
获取所述静态像素点的特征描述符;
根据所述静态像素点的特征描述符和已知的环境地图中记录的各位置点的特征描述符,定位所述移动设备当前所在位置。
10.根据权利要求9所述的方法,其特征在于,所述根据所述静态像素点的特征描述符和已知的环境地图中记录的各位置点的特征描述符,定位所述移动设备当前所在位置,包括:
根据所述环境图像中的关键点,从所述静态像素点中选择属于所述关键点的静态像素点作为关键像素点;
根据所述关键像素点的特征描述符和所述环境地图中各位置点的特征描述符,确定所述关键像素点在所述环境地图中的位置坐标;
根据所述关键像素点在所述环境地图中的位置坐标,计算所述移动设备在所述环境地图中的位置坐标。
11.根据权利要求9所述的方法,其特征在于,所述获取所述静态像素点的特征描述符,包括:
利用第三网络模型对所述多个初始特征图进行特征描述符计算,以得到所述环境图像中至少一部分像素点的特征描述符;
从所述环境图像中至少一部分像素点的特征描述符中,获取所述静态像素点的特征描述符。
12.根据权利要求11所述的方法,其特征在于,所述第三网络模型为第三全卷积网络模型。
13.根据权利要求12所述的方法,其特征在于,所述利用第三网络模型对所述多个初始特征图进行特征描述符计算,以得到所述环境图像中至少一部分像素点的特征描述符,包括:
将所述M个初始特征图作为所述第三全卷积网络模型的输入图像,输入所述第三全卷积网络模型;
在所述第三全卷积网络模型中,对所述M个初始特征图进行至少一次卷积处理,得到N个第二目标特征图,每个第二目标特征图是对所述至少一部分像素点的一种特征描述;
其中,所述N个第二目标特征图形成所述至少一部分像素点的特征描述符;
其中,N为大于或等于2的整数。
14.根据权利要求11所述的方法,其特征在于,在分析所述环境图像中至少一部分像素点的运动属性之前,还包括:
根据样本图像,对初始特征提取网络、初始运动属性分支网络以及初始特征描述符分支网络进行联合训练,得到所述第一全卷积网络模型、所述第二全卷积网络模型以及所述第三全卷积网络模型。
15.根据权利要求14所述的方法,其特征在于,所述根据样本图像,对初始特征提取网络、初始运动属性分支网络以及初始特征描述符分支网络进行联合训练包括:
利用初始特征提取网络,将样本图像转换为样本特征图;
将联合损失函数最小化作为训练目标,将所述样本特征图分别输入初始运动属性分支网络和初始特征描述符分支网络进行模型训练,得到所述第一全卷积网络模型、所述第二全卷积网络模型以及所述第三全卷积网络模型;
所述联合损失函数是根据所述初始运动属性分支网络的交叉熵函数以及所述初始特征描述符分支网络模型输出的特征描述符与特征描述符教师网络输出的特征描述符的均方差函数确定的;其中,所述交叉熵函数的系数是根据所述样本图像对应的运动属性真值图确定的。
16.根据权利要求15所述的方法,其特征在于,所述特征描述符教师网络为Hardnet网络。
17.一种图像处理方法,其特征在于,包括:
获取待处理图像;
利用第一网络模型对所述待处理图像进行特征提取,得到多个初始特征图;
利用第二网络模型对所述多个初始特征图进行运动属性计算,得到所述待处理图像中至少一部分像素点的运动属性;
利用第三网络模型对所述多个初始特征图进行特征描述符计算,以得到所述待处理图像中至少一部分像素点的特征描述符。
18.根据权利要求17所述的方法,其特征在于,还包括:
根据所述至少一部分像素点的运动属性,确定所述至少一部分像素点中的静态像素点;
根据所述静态像素点和已知的环境地图,定位采集所述待处理图像的设备在采集所述待处理图像的过程中所在的位置。
19.根据权利要求18所述的方法,其特征在于,所述根据所述静态像素点和已知的环境地图,定位采集所述待处理图像的设备在采集所述待处理图像的过程中所在的位置,包括:
从所述至少一部分像素点的特征描述符中,获取所述静态像素点的特征描述符;
根据所述静态像素点的特征描述符和已知的环境地图中记录的各位置点的特征描述符,定位采集所述待处理图像的设备在采集所述待处理图像的过程中所在的位置。
20.根据权利要求17-19任一项所述的方法,其特征在于,所述第一网络模型为第一全卷积网络模型;所述第二网络模型为第二全卷积网络模型;所述第三网络模型为第三全卷积网络模型。
21.根据权利要求20所述的方法,其特征在于,所述利用第二网络模型对所述多个初始特征图进行运动属性计算,得到所述待处理图像中至少一部分像素点的运动属性,包括:
将M个初始特征图作为所述第二全卷积网络模型的输入图像,输入所述第二全卷积网络模型;
在所述第二全卷积网络模型中,对所述M个初始特征图进行至少一次卷积计算以输出Q个第一目标特征图,每个第一目标特征图是所述至少一部分像素点在一种运动属性下的特征体现;
根据所述Q个第一目标特征图计算所述至少一部分像素点的运动属性;
其中,M和Q为大于或等于2的整数。
22.根据权利要求21所述的方法,其特征在于,所述利用第三网络模型对所述多个初始特征图进行特征描述符计算,以得到所述待处理图像中至少一部分像素点的特征描述符,包括:
将所述M个初始特征图作为所述第三全卷积网络模型的输入图像,输入所述第三全卷积网络模型;
在所述第三全卷积网络模型中,对所述M个初始特征图进行至少一次卷积处理,得到N个第二目标特征图,每个第二目标特征图是对所述至少一部分像素点的一种特征描述;
其中,所述N个第二目标特征图形成所述至少一部分像素点的特征描述符;
其中,N为大于或等于2的整数。
23.一种图像处理方法,其特征在于,包括:
将待处理图像输入神经网络模型,其中,所述神经网络模型包括至少两层结构;
利用所述神经网络模型中的第一层网络,对所述待处理图像进行特征提取,得到多个初始特征图;
利用所述神经网络模型中的第二层网络,对所述多个初始特征图进行运动属性计算,得到所述待处理图像中至少一部分像素点的运动属性;
根据所述至少一部分像素点的运动属性,确定其中位置变化小于或等于预设阈值的目标像素点;
根据所述目标像素点和已知的环境地图,定位采集所述待处理图像的设备在采集所述待处理图像的过程中所在的位置。
24.一种视觉定位方法,适用于终端设备,其特征在于,所述方法包括:
在用户移动过程中,采集所述用户当前所在位置周围的环境图像,所述用户携带所述终端设备;
利用神经网络模型,分析所述环境图像中至少一部分像素点的运动属性;
根据所述至少一部分像素点的运动属性,确定所述至少一部分像素点中的静态像素点;
根据所述静态像素点和已知的环境地图,定位所述用户当前所在位置,并输出所述用户当前所在位置,以引导所述用户行进。
25.根据权利要求24所述的方法,其特征在于,所述输出所述用户当前所在位置,以引导所述用户行进,包括:
以语音方式,输出所述用户当前所在位置,以引导所述用户行进。
26.一种数据处理方法,适用于移动设备,其特征在于,所述方法包括:
在移动过程中,采集当前所在位置周围的环境图像;
利用神经网络模型,分析所述环境图像中至少一部分像素点的运动属性;
根据所述至少一部分像素点的运动属性,确定所述至少一部分像素点中的静态像素点;
根据所述静态像素点和已知的环境地图,定位所述移动设备当前所在位置;
根据所述移动设备当前所在位置以及之前至少一个历史位置,计算所述移动设备的行进状态信息。
27.一种移动设备,其特征在于,包括:机械本体;所述机械本体上设有视觉传感器、一个或多个处理器,以及一个或多个存储器;其中,
所述一个或多个存储器,用于存储计算机指令以及环境地图;
所述一个或多个处理器,耦合至所述一个或多个存储器,用于执行所述计算机指令,以用于:
在移动过程中,采集当前所在位置周围的环境图像;
利用神经网络模型,分析所述环境图像中至少一部分像素点的运动属性;
根据所述环境图像中至少一部分像素点的运动属性,确定所述至少一部分像素点中的静态像素点;
根据所述静态像素点和已知的环境地图,定位所述自主移动设备当前所在位置。
28.根据权利要求27所述的设备,其特征在于,所述移动设备为自主移动设备。
29.根据权利要求28所述的设备,其特征在于,所述自主移动设备为机器人、无人驾驶车辆或无人机。
30.一种计算机设备,其特征在于,包括:存储器和处理器;其中,
所述存储器,用于存储计算机指令;
所述处理器,耦合至所述一个或多个存储器,用于执行所述计算机指令,以用于:
获取待处理图像;
利用第一网络模型对所述待处理图像进行特征提取,得到多个初始特征图;
利用第二网络模型对所述多个初始特征图进行运动属性计算,得到所述待处理图像中至少一部分像素点的运动属性;
利用第三网络模型对所述多个初始特征图进行特征描述符计算,以得到所述待处理图像中至少一部分像素点的特征描述符。
31.根据权利要求30所述的设备,其特征在于,所述计算机设备是边缘云网络系统中的边缘计算设备。
32.一种计算机设备,其特征在于,包括:存储器和处理器;其中,
所述存储器,用于存储计算机指令;
所述处理器,耦合至所述一个或多个存储器,用于执行所述计算机指令,以用于:
将待处理图像输入神经网络模型,其中,所述神经网络模型包括至少两层结构;
利用所述神经网络模型中的第一层网络,对所述待处理图像进行特征提取,得到多个初始特征图;
利用所述神经网络模型中的第二层网络,对所述多个初始特征图进行运动属性计算,得到所述待处理图像中至少一部分像素点的运动属性;
根据所述至少一部分像素点的运动属性,确定其中位置变化小于或等于预设阈值的目标像素点;
根据所述目标像素点和已知的环境地图,定位采集所述待处理图像的设备在采集所述待处理图像的过程中所在的位置。
33.根据权利要求32所述的设备,其特征在于,所述计算机设备是边缘云网络系统中的边缘计算设备。
34.一种终端设备,其特征在于,包括:存储器、处理器和摄像头;其中,所述摄像头用于:在用户移动过程中,采集所述用户当前所在位置周围的环境图像,所述用户携带所述终端设备;
所述存储器,用于存储计算机指令;
所述处理器,耦合至所述一个或多个存储器,用于执行所述计算机指令,以用于:
利用神经网络模型,分析所述环境图像中至少一部分像素点的运动属性;
根据所述至少一部分像素点的运动属性,确定所述至少一部分像素点中的静态像素点;
根据所述静态像素点和已知的环境地图,定位所述用户当前所在位置,并输出所述用户当前所在位置,以引导所述用户行进。
35.一种移动设备,其特征在于,包括:存储器、处理器和摄像头;其中,所述摄像头用于:在所述移动设备移动过程中,在移动过程中,采集当前所在位置周围的环境图像;
所述处理器,耦合至所述一个或多个存储器,用于执行所述计算机指令,以用于:
利用神经网络模型,分析所述环境图像中至少一部分像素点的运动属性;
根据所述至少一部分像素点的运动属性,确定所述至少一部分像素点中的静态像素点;
根据所述静态像素点和已知的环境地图,定位所述移动设备当前所在位置;
根据所述移动设备当前所在位置以及之前至少一个历史位置,计算所述移动设备的行进状态信息。
36.一种存储有计算机指令的计算机可读存储介质,其特征在于,当所述计算机指令被一个或多个处理器执行时,致使所述一个或多个处理器执行权利要求1-26任一项所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910567253.XA CN112233170A (zh) | 2019-06-27 | 2019-06-27 | 视觉定位和图像处理方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910567253.XA CN112233170A (zh) | 2019-06-27 | 2019-06-27 | 视觉定位和图像处理方法、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112233170A true CN112233170A (zh) | 2021-01-15 |
Family
ID=74110929
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910567253.XA Pending CN112233170A (zh) | 2019-06-27 | 2019-06-27 | 视觉定位和图像处理方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112233170A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112802112A (zh) * | 2021-04-12 | 2021-05-14 | 北京三快在线科技有限公司 | 视觉定位方法、装置、服务器及存储介质 |
CN112986982A (zh) * | 2021-05-12 | 2021-06-18 | 长沙万为机器人有限公司 | 环境地图参照定位方法、装置和移动机器人 |
CN114049510A (zh) * | 2021-10-26 | 2022-02-15 | 北京中科慧眼科技有限公司 | 基于损失函数的双目相机立体匹配算法、系统和智能终端 |
US20220172462A1 (en) * | 2020-02-13 | 2022-06-02 | Tencent Technology (Shenzhen) Company Limited | Image processing method, apparatus, and device, and storage medium |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107833236A (zh) * | 2017-10-31 | 2018-03-23 | 中国科学院电子学研究所 | 一种动态环境下结合语义的视觉定位系统和方法 |
US9940729B1 (en) * | 2016-11-18 | 2018-04-10 | Here Global B.V. | Detection of invariant features for localization |
US20180174038A1 (en) * | 2016-12-19 | 2018-06-21 | Futurewei Technologies, Inc. | Simultaneous localization and mapping with reinforcement learning |
CN109387204A (zh) * | 2018-09-26 | 2019-02-26 | 东北大学 | 面向室内动态环境的移动机器人同步定位与构图方法 |
-
2019
- 2019-06-27 CN CN201910567253.XA patent/CN112233170A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9940729B1 (en) * | 2016-11-18 | 2018-04-10 | Here Global B.V. | Detection of invariant features for localization |
US20180174038A1 (en) * | 2016-12-19 | 2018-06-21 | Futurewei Technologies, Inc. | Simultaneous localization and mapping with reinforcement learning |
CN107833236A (zh) * | 2017-10-31 | 2018-03-23 | 中国科学院电子学研究所 | 一种动态环境下结合语义的视觉定位系统和方法 |
CN109387204A (zh) * | 2018-09-26 | 2019-02-26 | 东北大学 | 面向室内动态环境的移动机器人同步定位与构图方法 |
Non-Patent Citations (2)
Title |
---|
DANIEL DETONE等: "Self-Improving Visual Odometry", 《ARXIV》, 8 December 2018 (2018-12-08), pages 3 * |
刘坤: "基于视觉信息的室内移动机器人目标跟踪及路径规划", 《中国优秀硕士学位论文全文数据库信息科技辑》, 15 January 2019 (2019-01-15) * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220172462A1 (en) * | 2020-02-13 | 2022-06-02 | Tencent Technology (Shenzhen) Company Limited | Image processing method, apparatus, and device, and storage medium |
US12033374B2 (en) * | 2020-02-13 | 2024-07-09 | Tencent Technology (Shenzhen) Company Limited | Image processing method, apparatus, and device, and storage medium |
CN112802112A (zh) * | 2021-04-12 | 2021-05-14 | 北京三快在线科技有限公司 | 视觉定位方法、装置、服务器及存储介质 |
CN112986982A (zh) * | 2021-05-12 | 2021-06-18 | 长沙万为机器人有限公司 | 环境地图参照定位方法、装置和移动机器人 |
CN112986982B (zh) * | 2021-05-12 | 2021-07-30 | 长沙万为机器人有限公司 | 环境地图参照定位方法、装置和移动机器人 |
CN114049510A (zh) * | 2021-10-26 | 2022-02-15 | 北京中科慧眼科技有限公司 | 基于损失函数的双目相机立体匹配算法、系统和智能终端 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112233170A (zh) | 视觉定位和图像处理方法、设备及存储介质 | |
US11360216B2 (en) | Method and system for positioning of autonomously operating entities | |
WO2021160184A1 (en) | Target detection method, training method, electronic device, and computer-readable medium | |
US11554495B2 (en) | Method of localization using multi sensor and robot implementing same | |
US20180207791A1 (en) | Bistatic object detection apparatus and methods | |
CN112161618B (zh) | 仓储机器人定位与地图构建方法、机器人及存储介质 | |
KR20210075594A (ko) | 전기차의 배터리 소모량 추정 방법 및 장치 | |
US11565415B2 (en) | Method of tracking user position using crowd robot, tag device, and robot implementing thereof | |
KR102615685B1 (ko) | 멀티 센서를 동기화시켜 위치를 추정하는 방법 및 이를 구현하는 로봇 | |
CN110717918B (zh) | 行人检测方法和装置 | |
US12085951B2 (en) | Method of updating map in fusion SLAM and robot implementing same | |
CN110880034A (zh) | 使用卷积神经网络的计算装置及其操作方法 | |
KR20190096857A (ko) | 로봇의 경로를 결정하는 인공 지능 서버 및 그 방법 | |
CN116824533A (zh) | 一种基于注意力机制的远小目标点云数据特征增强方法 | |
Gupta et al. | Corridor segmentation for automatic robot navigation in indoor environment using edge devices | |
CN112907625A (zh) | 应用于四足仿生机器人的目标跟随方法及系统 | |
CN114387312A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
KR20210042537A (ko) | 대면적의 공간에서 로컬 영역별로 위치를 추정하는 방법 및 이를 구현하는 로봇과 클라우드 서버 | |
CN109009902B (zh) | 导盲杖及导盲方法 | |
Cultrera et al. | Explaining autonomous driving with visual attention and end-to-end trainable region proposals | |
Hu et al. | Computer vision for sight: Computer vision techniques to assist visually impaired people to navigate in an indoor environment | |
Zhang et al. | Movement Control with Vehicle-to-Vehicle Communication by using End-to-End Deep Learning for Autonomous Driving. | |
Miyamoto et al. | An Application Using a BLE Beacon Model Combined with Fully Autonomous Wheelchair Control | |
KR20190100115A (ko) | 로봇의 배치 구역을 결정하는 인공 지능 서버 및 그 방법 | |
Ahmed | Ambient awareness on a sidewalk for visually impaired |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |