一种图像处理的方法及装置
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图像处理的方法及装置。
背景技术
三维手势识别需要对场景深度进行感知,目前对深度进行感知的技术方法有双目立体视觉、双目主动立体视觉、结构光立体视觉、光飞行时间距离测量以及激光雷达距离测量等方法;当前技术水平下,结构光,光飞行时间,以及激光雷达能够测量的深度分辨率较低;受到自然光影响,以及传感器功率的限制,结构光,光飞行时间方法只能在室内近距离使用;同时结构光,光飞行时间,以及激光雷达具有较高的成本;在远场(3~5m)情况下进行手势识别需要对手部细节如手指的各个关节进行深度的感知,现有的深度感知方法中结构光,光飞行时间,以及激光雷达无法满足分辨率的需求。
现有技术中,双目立体视觉相比结构光具有以下几个缺点,使得用其进行远场的手势识别同样具有极大的挑战:对整个图像区域计算深度计算量非常大,需要大量计算资源,难以做到实时;双目数据量大传输难,受到传输带宽限制,很难做到高分辨率高帧率实时传输。
发明内容
本发明提供一种图像处理的方法及装置,用于实现在满足正常进行图像识别的要求时,采用对局部图像进行特征识别,节约了计算量和传输带宽,并可以得到较高的帧率,为实时图像识别及控制提供了保障。
为了实现上述问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种图像处理的方法,应用于拍摄设备,该方法包括:
对拍摄的图像进行检测,确定所述图像中的目标区域;
获取所述目标区域对应的目标局部图像,将所述目标局部图像传输给目标设备,或者,对所述目标局部图像进行特征识别,得到识别结果,将所述识别结果传输给目标设备。
可选的,拍摄设备为双目拍摄设备,包括第一摄像头和第二摄像头;
对拍摄的图像进行检测,确定所述图像中的目标区域包括:
获取第一摄像头拍摄的第一图像,以及第二摄像头拍摄的第二图像;
对第一图像和第二图像进行检测,确定所述第一图像和第二图像中的目标区域;
获取所述目标区域中的目标局部图像包括:
获取所述第一图像中的所述目标区域对应的第一局部图像;
获取所述第二图像中的所述目标区域对应的第二局部图像;
对所述第一局部图像和所述第二局部图像进行深度识别,得到具有深度数据的所述目标局部图像。
可选的,拍摄设备为单目拍摄设备,包括第一摄像头;
对拍摄的图像进行检测,确定所述图像中的目标区域包括:获取第一摄像头拍摄的第一图像;
截取所述第一图像中的所述目标区域对应的目标局部图像。
可选的,所述目标区域为手部图像所在的区域;所述目标局部图像为手部图像;
对所述目标局部图像进行特征识别包括:
对所述手部图像进行手部姿势识别。
可选的,所述目标区域为人体图像所在的区域;所述目标局部图像为人体图像;
对所述目标局部图像进行特征识别包括:对所述人体图像进行人体姿势识别。
第二方面,本发明实施例提供了一种图像处理的装置,应用于拍摄设备,该装置包括:
第一处理模块,用于对拍摄的图像进行检测,确定所述图像中的目标区域;
第二处理模块,用于获取所述目标区域对应的目标局部图像,将所述目标局部图像传输给目标设备,或者,对所述目标局部图像进行特征识别,得到识别结果,将所述识别结果传输给目标设备。
可选的,拍摄设备为双目拍摄设备,包括第一摄像头和第二摄像头;
第一处理模块包括:
第一处理子模块,用于获取第一摄像头拍摄的第一图像,以及第二摄像头拍摄的第二图像;
第二处理子模块,用于对第一图像和第二图像进行检测,确定所述第一图像和第二图像中的目标区域;
第二处理模块包括:
第三处理子模块,用于获取所述第一图像中的所述目标区域对应的第一局部图像;
第四处理子模块,用于获取所述第二图像中的所述目标区域对应的第二局部图像;
第五处理子模块,用于对所述第一局部图像和所述第二局部图像进行深度识别,得到具有深度数据的所述目标局部图像。
可选的,拍摄设备为单目拍摄设备,包括第一摄像头;
第一处理模块包括:第六处理子模块,用于获取第一摄像头拍摄的第一图像;截取所述第一图像中的所述目标区域对应的目标局部图像。
可选的,所述目标区域为手部图像所在的区域;所述目标局部图像为手部图像;
对所述目标局部图像进行特征识别包括:对所述手部图像进行手部姿势识别。
可选的,所述目标区域为人体图像所在的区域;所述目标局部图像为人体图像;
对所述目标局部图像进行特征识别包括:对所述人体图像进行人体姿势识别。
第三方面,提供了一种电子设备,该电子设备处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面任一项所述的图像处理的方法的步骤。
第四方面,提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面任一项所述的图像处理的方法的步骤。
本发明实施例中,通过图像中的目标局部图像进行处理,实现了在满足正常进行图像识别的要求时,节约了计算量和传输带宽,并可以得到较高的帧率,为实时图像识别及控制提供了保障。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1本发明实施例提供的一种图像处理的方法结构示意图;
图2本发明实施例提供的一种图像处理的装置结构示意图;
图3本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
除非另作定义,本发明中使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也相应地改变。
请参考图1,本发明实施例中提供了一种图像处理的方法,应用于拍摄设备,包括:
步骤11:对拍摄的图像进行检测,确定所述图像中的目标区域;
步骤12:获取所述目标区域对应的目标局部图像,将所述目标局部图像传输给目标设备,或者,对所述目标局部图像进行特征识别,得到识别结果,将所述识别结果传输给目标设备。
本发明实施例中,通过对目标区域对应的目标局部图像进行识别,极大的节约了计算量和传输带宽,为实时图像识别及控制提供了保障。
本发明实施例中,可选的,拍摄设备为双目拍摄设备,包括第一摄像头和第二摄像头;
对拍摄的图像进行检测,确定所述图像中的目标区域包括:
获取第一摄像头拍摄的第一图像,以及第二摄像头拍摄的第二图像;
对第一图像和第二图像进行检测,确定所述第一图像和第二图像中的目标区域;
获取所述目标区域中的目标局部图像包括:
获取所述第一图像中的所述目标区域对应的第一局部图像;
获取所述第二图像中的所述目标区域对应的第二局部图像;
对所述第一局部图像和所述第二局部图像进行深度识别,得到具有深度数据的所述目标局部图像。
本发明实施例中,采用大分辨率图像传感器搭建双目立体视觉相机,采用较大分辨率进行图像采集,采集到的双目图像具有一定的视差,我们在两张图像中分别检测到同一个局部区域的位置后,将两张图像输入到一个预先训练好的卷积神经网络模型用来进行深度估计,所述卷积神经网络模型输出深度图像。所述卷积神经网络模型内还包括:神经网络推理单元,用于对输入的图像进行一系列的处理和特征计算,输出期望的推理结果。
本发明实施例中,可选的,拍摄设备为单目拍摄设备,包括第一摄像头;
对拍摄的图像进行检测,确定所述图像中的目标区域包括:
获取第一摄像头拍摄的第一图像;
截取所述第一图像中的所述目标区域对应的目标局部图像。
本发明实施例中,可选的,所述目标区域为手部图像所在的区域;所述目标局部图像为手部图像;对所述目标局部图像进行特征识别包括:对所述手部图像进行手部姿势识别。
本发明实施例中,可选的,所述目标区域为人体图像所在的区域;所述目标局部图像为人体图像;对所述目标局部图像进行特征识别包括:对所述人体图像进行人体姿势识别。
本发明实施例中,对人体姿势和手部姿势进行特征识别,得到坐标表示的向量。根据这些点的坐标,我们可以判断出手部是手掌,还是握拳、比心、胜利、大拇指点赞、食指点击等手势以及对应的人体姿势。有了手部和人体在图像中实时的姿态后,我们就可以采用对应的姿态对进行电脑以及电视的控制,比如用手势去做电视快进、暂停、调节音量等。
本发明实施例中,进行图像检测及图像局部区域的深度估计,相机只输出单目图像和局部区域的深度图像,或者仅仅输出结构化的手部姿态及手势数据,解决了远距离分辨率不足以及数据传输带宽瓶颈的问题,实现了在满足正常进行图像识别的要求时,节约了计算量和传输带宽,并可以得到较高的帧率,为实时图像识别及控制提供了保障。
请参考图2,本发明实施例中提供了一种图像处理的装置,应用于拍摄设备,包括:
第一处理模块21,用于对拍摄的图像进行检测,确定所述图像中的目标区域;
第二处理模块22,用于获取所述目标区域对应的目标局部图像,将所述目标局部图像传输给目标设备,或者,对所述目标局部图像进行特征识别,得到识别结果,将所述识别结果传输给目标设备。
本发明实施例中,通过对目标区域对应的目标局部图像进行识别,极大的节约了计算量和传输带宽,为实时图像识别及控制提供了保障。
本发明实施例中,可选的,拍摄设备为双目拍摄设备,包括第一摄像头和第二摄像头;
第一处理模块包括:
第一处理子模块,用于获取第一摄像头拍摄的第一图像,以及第二摄像头拍摄的第二图像;
第二处理子模块,用于对第一图像和第二图像进行检测,确定所述第一图像和第二图像中的目标区域;
第二处理模块包括:
第三处理子模块,用于获取所述第一图像中的所述目标区域对应的第一局部图像;
第四处理子模块,用于获取所述第二图像中的所述目标区域对应的第二局部图像;
第五处理子模块,用于对所述第一局部图像和所述第二局部图像进行深度识别,得到具有深度数据的所述目标局部图像。
本发明实施例中,采用大分辨率图像传感器搭建双目立体视觉相机,采用较大分辨率进行图像采集,采集到的双目图像具有一定的视差,我们在两张图像中分别检测到同一个局部区域的位置后,将两张图像输入到一个预先训练好的卷积神经网络模型用来进行深度估计,所述卷积神经网络模型输出深度图像。所述卷积神经网络模型内还包括:神经网络推理单元,用于对输入的图像进行一系列的处理和特征计算,输出期望的推理结果。
本发明实施例中,可选的,拍摄设备为单目拍摄设备,包括第一摄像头;
第一处理模块包括:第六处理子模块,用于获取第一摄像头拍摄的第一图像;截取所述第一图像中的所述目标区域对应的目标局部图像。
本发明实施例中,可选的,所述目标区域为手部图像所在的区域;所述目标局部图像为手部图像;对所述目标局部图像进行特征识别包括:对所述手部图像进行手部姿势识别。
本发明实施例中,可选的,所述目标区域为人体图像所在的区域;所述目标局部图像为人体图像;对所述目标局部图像进行特征识别包括:对所述人体图像进行人体姿势识别。
本发明实施例中,对人体姿势和手部姿势进行特征识别,得到坐标表示的向量。根据这些点的坐标,我们可以判断出手部是手掌,还是握拳、比心、胜利、大拇指点赞、食指点击等手势以及对应的人体姿势。有了手部和人体在图像中实时的姿态后,我们就可以采用对应的姿态对进行电脑以及电视的控制,比如用手势去做电视快进、暂停、调节音量等。
本发明实施例中,进行图像检测及图像局部区域的深度估计,相机只输出单目图像和局部区域的深度图像,或者仅仅输出结构化的手部姿态及手势数据,解决了远距离分辨率不足以及数据传输带宽瓶颈的问题,实现了在满足正常进行图像识别的要求时,节约了计算量和传输带宽,并可以得到较高的帧率,为实时图像识别及控制提供了保障。
请参考图3,本发明实施例还提供一种电子设备30,包括处理器31,存储器32,存储在存储器32上并可在所述处理器31上运行的程序或指令,该程序或指令被处理器31执行时实现上述图像处理的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述图像处理的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本发明实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。