CN117058765A - 车辆中基于手势识别的图像处理方法、装置、存储介质 - Google Patents
车辆中基于手势识别的图像处理方法、装置、存储介质 Download PDFInfo
- Publication number
- CN117058765A CN117058765A CN202311155555.9A CN202311155555A CN117058765A CN 117058765 A CN117058765 A CN 117058765A CN 202311155555 A CN202311155555 A CN 202311155555A CN 117058765 A CN117058765 A CN 117058765A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- image
- target
- user
- point cloud
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 claims abstract description 52
- 238000004422 calculation algorithm Methods 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 22
- 238000002372 labelling Methods 0.000 claims description 17
- 238000001514 detection method Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 8
- 230000000007 visual effect Effects 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 7
- 238000009877 rendering Methods 0.000 claims description 7
- 238000013136 deep learning model Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 description 13
- 238000004590 computer program Methods 0.000 description 8
- 230000003993 interaction Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000001815 facial effect Effects 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000005286 illumination Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011549 displacement method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
- G06V20/597—Recognising the driver's state or behaviour, e.g. attention or drowsiness
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Psychiatry (AREA)
- Human Computer Interaction (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Social Psychology (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种车辆中基于手势识别的图像处理方法、装置、存储介质。该方法包括:检测到用户满足预设的条件时,获取用户在预设时间段内手势的轨迹信息;确定轨迹信息形成的车外的目标区域,目标区域以用户的眼部位置为观察点;根据车辆外部的图像,确定目标区域对应的目标图像;显示目标图像。通过本方法用户遇到想要获取的车外物体,只需要对着物体画图形就可以及时获取用户视角下图形内的图像,操作便捷,避免因为行驶而错过拍摄时机,提高了用户的驾驶体验。
Description
技术领域
本申请涉及车辆技术中的智能驾驶领域和人工智能技术领域,尤其涉及一种车辆中基于手势识别的图像处理方法、装置、存储介质。
背景技术
在日常生活中看到想要拍摄的人或物时,使用手机拍摄图像进行分享。但是对于正在行驶的汽车上的用户,通过手机进行拍摄很容易错过合适的拍摄时机。
目前,车辆中大都集成了内部和外部拍摄系统,为用户提供了实时拍摄的硬件条件。用户可以通过按键或者指令触发拍摄系统进行拍摄,获取拍摄的车外的图像,用户基于拍摄的图像进行交流。但是,这种图像是车辆外部全范围、全场景的图像,基于全景的图像进行交流时,用户无法及时获取与其他乘员所要交流的对象。
综上所述,在车辆行驶中,如何及时获取车辆外部的对象是亟待解决的问题。
发明内容
本申请提供一种车辆中基于手势识别的图像处理方法、装置、存储介质,用以解决在车辆行驶中,无法及时获取车辆外部图像的问题。
第一方面,本申请提供一种车辆中基于手势识别的图像处理方法,所述方法包括:
检测到用户满足预设的条件时,获取所述用户在预设时间段内手势的轨迹信息;
确定所述轨迹信息形成的车外的目标区域,所述目标区域以所述用户的眼部位置为观察点;
根据车辆外部的图像,确定所述目标区域对应的目标图像;
显示所述目标图像。
可选的,所述预设的条件包括:所述用户的手部轮廓的形状符合预设形状和/或所述用户的声纹符合预设的声纹。
可选的,所述确定所述轨迹信息形成的车外的目标区域,包括:
判断所述轨迹信息是否形成封闭图形;
若所述轨迹信息形成封闭图形,则按照第一预设规则确定所述封闭图形对应的所述目标区域;
若所述轨迹信息没有形成封闭图形,则根据所述轨迹信息和第二预设规则生成封闭图形,并按照所述第一预设规则确定所述封闭图形对应的所述目标区域。
可选的,所述根据车辆外部的图像,确定所述目标区域对应的目标图像,包括:
根据车辆外部的图像和构建的车辆内外的三维场景数据确定所述目标区域的目标图像。
可选的,所述根据车辆外部的图像和构建的车辆内外的三维场景数据确定所述目标区域的目标图像,包括:
获取车辆内的所述用户的手势的轨迹信息以及所述用户的眼部的第一位置,所述第一位置用于表示所述眼部在车辆中的三维坐标;
根据车辆实时获取的数据构建车辆内外的3D点云数据,所述3D点云数据提供车辆周围环境和车辆内部的三维场景信息;
根据所述3D点云数据以及所述车辆外的摄像头拍摄的图像,确定所述用户的手势指向的所述目标区域的所述目标图像。
可选的,所述根据车辆实时获取的数据构建车辆内外的3D点云数据,包括:
根据所述车辆内摄像头实时拍摄的图像和所述车辆外摄像头实时拍摄的图像进行视差计算,分别获取所述车辆内摄像头所在视角的图像的第一深度信息和所述车辆外摄像头所在视角的图像的第二深度信息;
根据所述第一深度信息将所述车辆内摄像头拍摄的图像转换为第一点云数据,并根据所述第二深度信息将所述车辆外摄像头拍摄的图像转换为第二点云数据;
分别将所述第一点云数据和所述第二点云数据配准到同一坐标系中,得到车辆内外的所述3D点云数据。
可选的,所述根据车辆实时获取的数据构建车辆内外的3D点云数据,包括:
检测到用户满足预设的条件时,根据所述手势在空间中开始绘制图形时刻的车辆内摄像头和车辆外摄像头拍摄的图像构建车辆内外的3D点云数据;
或者,
检测到用户满足预设的条件时,根据所述手势在空间中结束绘制图形时刻的车辆内摄像头和车辆外摄像头拍摄的图像构建车辆内外的3D点云数据。
可选的,所述根据所述3D点云数据以及所述车辆外的摄像头拍摄的图像,确定所述用户的手势指向的所述目标区域的所述目标图像,包括:
从所述第一位置到绘制的图形的边界构建可延伸的视锥体,所述可延伸的视锥体表示从视点开始可见的所述3D点云数据范围;
从所述3D点云数据中获取所述可延伸的视锥体范围内的目标3D点云数据;
根据所述3D目标点云数据获取所述目标图像。
可选的,所述根据所述3D目标点云数据获取所述目标图像,包括:
将所述目标3D点云数据投影到所述图形的平面上,生成投影后的二维图像;
根据所述投影后的二维图像和所述3D点云数据中每个点的颜色数据渲染得到所述目标图像;
或者,
根据所述3D目标点云数据使用特征描述符从车辆外部摄像头拍摄的图像中获取所述目标图像。
可选的,在所述车辆的显示屏中显示所述目标图像,包括:
对所述目标区域的图像中的物体进行标注,得到目标图像。
可选的,所述对所述目标区域的图像中的物体进行标注,得到目标图像,包括:
通过图像识别模型识别所述目标区域的图像中的物体信息,所述图像识别模型预先经过多个标注的图像数据训练得到的深度学习模型;
将所述物体信息在目标区域的图像中对应的区域进行标注,得到所述目标图像;
或者,
通过目标检测算法从所述目标区域的图像中识别出图像中存在的至少一个目标物体;
在目标区域的图像中通过绘制工具标识出所述至少一个目标物体,得到所述目标图像。
可选的,所述对所述目标区域的图像中的物体进行标注,得到目标图像,包括:
获取所述第一位置视角下所述用户的手势的轨迹信息在空间中形成的视角图形;
将所述视角图形与预设图形进行比较,得到比较结果;
若比较结果一致时,在所述目标区域的图像中标注物体信息,得到目标图像;
若比较结果不一致时,在所述目标区域的图像中标识出所述至少一个目标物体,得到目标图像。
第二方面,本申请还提供一种车辆中基于手势识别的图像处理装置,所述装置包括:
获取模块,用于检测到用户满足预设的条件时,获取所述用户在预设时间段内手势的轨迹信息;
第一确定模块,用于确定所述轨迹信息形成的车外的目标区域,所述目标区域以所述用户的眼部位置为观察点;
第二确定模块,用于根据车辆外部的图像和车辆内部的图像,确定所述目标区域对应的目标图像;
显示模块,用于显示所述目标图像。
第三方面,本申请还提供一种车辆,所述车辆包括:
车辆主体,传感器,摄像头,处理器以及与其他设备交互的通信接口,所述处理器用于执行如第一方面任一项所述的车辆中基于手势识别的图像处理方法。
第四方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面任一项所述的车辆中基于手势识别的图像处理方法。
第五方面,本申请还提供一种计算机程序产品,包括计算机程序指令,该计算机程序指令使得计算机执行如第一方面任一项所述的车辆中基于手势识别的图像处理方法。
本申请提供的车辆中基于手势识别的图像处理方法、装置、存储介质,该方法包括:在检测到用户满足预设的条件时,获取所述用户在预设时间段内手势的轨迹信息;确定所述轨迹信息形成的车外的目标区域,所述目标区域以所述用户的眼部位置为观察点;根据车辆外部的图像和车辆内部的图像,确定所述目标区域对应的目标图像;显示所述目标图像。通过本方法用户只需要对着车外物体画图形就可以获取所需要的图形中的图像,操作便捷,提高了用户的驾驶体验。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请提供的一种车辆中基于手势识别的图像处理方法的应用场景示意图;
图2为本申请提供的一种车辆中基于手势识别的图像处理方法实施例一的流程示意图;
图3为本申请提供的一种车辆中基于手势识别的图像处理方法实施例二的流程示意图;
图4为本申请提供的一种车辆中基于手势识别的图像处理方法实施例三的流程示意图;
图5为本申请提供的一种车辆中基于手势识别的图像处理方法实施例四的流程示意图;
图6为本申请提供的一种车辆中基于手势识别的图像处理方法一实例的流程示意图;
图7为本申请提供的一种车辆中基于手势识别的图像处理装置实施例一的结构示意图;
图8为本申请提供的一种车辆的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
需要说明的是,本申请提供的车辆中基于手势识别的图像处理方法、装置、存储介质可用于车辆技术领域中的智能驾驶领域、人工智能领域,也可用于除车辆技术领域之外的任意领域,本申请车辆中基于手势识别的图像处理方法、装置、存储介质的应用领域不做限定。
首先对本申请所涉及的名词进行解释:
视差:是指当观察者从不同的视角观察同一个物体时,物体在观察者的视野中的位置差异。视差提供了关于物体在三维空间中位置的信息。在本申请中,用户视角看到的车外物体和摄像头视角拍摄的车外物体具有视差,不同位置的摄像头拍摄的车外物体的图像之间也具有视差。
深度信息:是指物体相对于观察者的远近程度。它反映了物体离观察者的距离。深度信息可以用来描述场景中不同物体之间的远近关系,从而帮助理解场景的三维结构。
视锥体:是指从观察者眼睛位置延伸出的一个锥形区域,它定义了在摄像机视野中能够看到的物体。
图1为本申请提供的一种车辆中基于手势识别的图像处理方法的应用场景示意图,如图1所示,在车辆行驶过程中,乘客在车辆的a地点看到车外的某一个物品想和司机交流的时候,如果提醒驾驶员去看,驾驶员需要扭头查看,造成安全隐患,如果是通过手机进行拍摄,车辆很快行驶到b地点,错过合适的拍摄时机。并且不管是手机拍摄还是通过车辆摄像头拍摄的图像进行交流时,双方也可能不清楚对方所要进行交流的物品是哪一个。
鉴于上述问题,发明人在对本技术领域进行研究过程中发现,当用户发现车辆外部感兴趣的物体时,用户在车辆内部通过手指对着物体所在位置画一个范围,车辆可以快速对用户的手势进行响应。车辆利用内部传感器和摄像头采集的数据,结合手势识别技术和图像处理技术得到用户的所要圈出物体的图像,显示给用户。通过这种方法可以基于用户手势获取指定的车外物体图像,基于此,本申请提出一种车辆中基于手势识别的图像处理方法、装置、存储介质。
本申请不仅可以应用于车辆,还可以用于飞机、火车,还可以应用于会议室、医疗影像、工业检测、增强实现等需要及时捕捉外部图像的场景。在这些场景中应用手势识别的图像处理方法,需要具备采集人和周围环境数据的硬件设备,例如摄像头、传感器、雷达等。
本申请的执行主体可以是车辆中具有处理能力处理器,也可以是具有处理能力的车载终端,还可以是具备处理能力的芯片。在一些情况下,执行主体还可以是云端服务器。
下面以执行主体为车辆中具有处理能力处理器为例,对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图2为本申请提供的一种车辆中基于手势识别的图像处理方法实施例一的流程示意图,如图2所示,该方法包括如下步骤:
S11、检测到用户满足预设的条件时,获取用户在预设时间段内手势的轨迹信息。
在车辆启动后,车辆内的传感器或者摄像头实时采集车辆内部的手势的轨迹数据,该数据中包括用户的手部的实时位置信息,该数据中还包括用户手部的轮廓信息。
采集到的用户数据满足预设的条件时,从采集的数据中获取手势满足预设条件开始到预设时间段内的用户的手部的实时的位置信息。
用户满足预设的条件至少有以下几种方式:
在一种实现方式中,判断采集数据中用户手部的轮廓信息是否满足预设的轮廓。一种具体的方式中,可以通过经过大量手部轮廓数据训练得到神经网络模型来识别是否满足预设的轮廓,将实时采集的手部的轮廓信息输入到神经网络模型中,神经网络模型输出是否满足预设的轮廓的信息。其中输入的轮廓信息可以是摄像头拍摄的用户手部的图像,也可以是传感器采集的测量数据。
在另一种可能的实现方式中,用户在唤醒车辆语音助手后,检测用户说出的词汇是否符合预设词汇。一种具体的方式中,预选建立的声纹模型,该声纹模型中存储用户的声纹信息作为模板,将收集的用户的声纹信息输入到声纹模型中进行对比和匹配,并输出结果。
在另一种可能的实现方式中,在检测到用户说出预设的词汇之后,还需要采集的数据中用户手部的轮廓信息满足预设的轮廓。
S12、确定轨迹信息形成的车外的目标区域,目标区域以用户的眼部位置为观察点。
在本步骤中,根据采集到的用户手部的轨迹信息(即用户手部实时的位置信息)确定一个目标区域,该目标区域是以用户眼部位置为观察点,以用户轨迹信息形成的图形为范围的一个区域,该目标区域用于确定用户视角下看到的车外图像。因此,目标区域一定需要是一个闭合的区域,而用户的轨迹信息形成的区域不一定是闭合的区域,所以需要判断用户手部的轨迹信息是否是闭合区域,若不是闭合区域,需要将其补充形成闭合区域。
判断预设时间段的轨迹信息是否形成封闭图形,具体的,将预设时间段内传感器采集的手部运动经过每个轨迹点的3D点云数据或者图像数据输入到手势轨迹识别算法中进行手势轨迹识别,得到用户的手势轨迹形成的图形,手势轨迹识别算法是预先采用多个手势动作数据,通过神经网络模型训练得到的可以识别手势轨迹形成的图形的模型;
若预设时间段的轨迹信息已经形成封闭图形,则按照第一预设规则确定封闭图形对应的目标区域。其中,第一预设规则是确定以用户眼部位置为视角封闭图形边界形成的区域。
若预设时间段的轨迹信息没有形成封闭图形,则根据轨迹信息和第二预设规则生成封闭图形,并按照所述第一预设规则确定所述封闭图形对应的所述目标区域。其中,第二预设规则是预设的规则,用于补充完整轨迹信息形成封闭图形。第二预设规则至少可以包括,连接轨迹点的起点和终点、将预设时间段的轨迹信息对称扩展、生成一个包括所有的轨迹信息的封闭图形。
在一种实现方式中,当轨迹信息的起点和终点的距离在预设的距离范围时,将起点和终点进行连接,生成封闭图形。
在一种实现方式中,当起点和终点的距离小于预设的距离范围时,以没有形成封闭图形的中心或者重点为圆心,以距离最远的轨迹点为半径或者预设的距离为半径,生成包括所有轨迹点的圆形的封闭图形。示例性的,用户手部一直没有移动,用户的轨迹信息为一个点,起点和终点的距离为0,则以该起点为圆心以预设的距离为半径,在用户视角垂直的平面下生成圆形的目标区域。
在一种实现方式中,当起点和终点的距离大于预设的距离范围时,按照对称原则,以起点和终点的连线为对称轴,对称扩展轨迹信息,生成封闭图形。
需要说明的是,上述预设的距离范围可以是在现实世界坐标下的距离范围,也可以是在图像或者传感器数据中用于表示两者之间的距离范围。
S13、根据车辆外部的图像,确定目标区域对应的目标图像。
在一种实现方式中,根据车辆外部的图像和车辆内部的图像构建三维场景数据,模拟用户视角下通过目标区域看到的图像,获取用户视角下通过目标区域看到的图像点,进行而确定目标区域的对应的目标图像。
在上述实现方式中,构建三维场景数据的原始数据不仅仅可以通过车辆获取的图像,也可以通过车辆中的激光雷达获取的数据构建三维场景数据。车辆获取用于构建三维场景的数据可以通过深度相机或者双目相机获取。
在另一种实现方式中,确定用户眼部位置和目标区域在车辆内部摄像头坐标系下的坐标,根据车内摄像头的矩阵参数和车外摄像头的矩阵参数,将用户眼部位置和目标区域转换到车外摄像头的坐标系中,根据车外摄像头的图像确定目标区域的图像。在一种具体的方式中,将车外摄像头拍摄的图像转换成三维场景数据,确定用户视角下通过目标区域看到的图像点,进行而确定目标区域的对应的目标图像。
S14、显示目标图像。
本实施例提供一种车辆中基于手势识别的图像处理方法,检测到用户满足预设的条件时,获取用户在预设时间段内手势的轨迹信息;确定轨迹信息形成的车外的目标区域,目标区域以用户的眼部位置为观察点;根据车辆外部的图像和车辆内部的图像,确定目标区域对应的目标图像;显示目标图像。通过本方式,用户可以通过车内的手势获取用户视角下车外的图像,可以避免现有技术中看到车外物体进行拍照时容易错过的问题,提高获取车外图像的效率。
图3为本申请提供的一种车辆中基于手势识别的图像处理方法实施例二的流程示意图,如图3所示,该方法包括如下步骤:
S101、通过传感器实时获取车辆内的用户的手势的轨迹信息以及用户的眼部在车辆坐标系中的第一位置。
在本方案中,需要识别用户在空中通过手部绘制成封闭的轨迹,因此,在车辆启动后,车辆内的传感器实时采集车辆内部的数据,该数据中包括用户的手部的实时位置信息、轮廓信息和眼部的位置信息,用户手部的实时位置信息构成手势的轨迹信息。其中,手部和眼部的位置信息都是处于同一坐标系下,示例性的,可以使用以车辆几何中心为中心点的车辆坐标系。
在一种实现方式中,车内的传感器是红外传感器,可以实时检测和跟踪用户手部的位置和动作。红外传感器通常通过红外光或红外热辐射来感知物体并测量其距离。
在另一种实现方式中,车内的传感器是深度相机,可以提供每个像素点的深度信息,可以实时捕捉用户手部的三维形状和位置。
上述两种实现方式中,深度相机和红外传感器可以将采集的数据实时转换成3D点云数据,可以实时记录并表示物体的形状和空间位置。
可选的,在另一种实现方式中,可以使用普通的视觉摄像头(RGB摄像头)作为备选方案,普通的视觉摄像头可以包括单目摄像头和双目摄像头,若通过双目摄像头的方式,可以计算物体的深度信息生成3D点云数据;若通过单目摄像头的方式,利用计算机视觉技术(例如光流算法)分析拍摄的连续时间的图像内像素的移动,可以预估物体的深度,进而生成部分的3D点云。通过这种方式可以降低方案的实现成本。
需要说明的是,用户的眼部位置可以是双眼位置连线的中心点,也可以是双眼的位置确定的某个区域,在此,本申请不做限制。
S102、在根据轨迹信息确定手势在空间中形成封闭图形时,根据车辆坐标系,车辆内摄像头和车辆外摄像头实时拍摄的图像构建车辆内外的3D点云数据。
根据实时采集的用户手部的位置信息形成的轨迹信息,判断是否形成封闭图形可以通过以下方式实现:
在一种实现方式中,通过手势识别算法,判断用户绘制的轨迹信息是否闭合,该手势识别算法预先经过多个手势动作数据训练得到的神经网络模型,输入轨迹信息的点云数据,输出是否为封闭图形的结果。
在另一种实现方式中,将用户绘制的轨迹信息映射到用户双眼所在的二维平面,判断起点和当前位置的距离是否在预设的误差范围内,若在预设的误差范围内则构成封闭图形。
在上述两种方式中,都需要一个起始点来确定轨迹信息的起始数据,该起始点是根据用户的手部轮廓的3D点云数据确定的,例如,用户在画轨迹时,都会伸出一根手指进行绘制,因此根据手部轮廓确定当用户伸出一根手指的时间点的数据为起始点。将起始点至当前的时间点的数据输入到算法模型或者映射到二维平面。需要说明的是,手部轮廓在本方案中不具体限定是几根手指或者哪一根手指,在一些其他可能的方式中,可以预先展示一个形状表示开始绘制的起始点。
在一种其他实现方式中,也可以通过预设时间段内的轨迹数据判断是否构成封闭图形。示例性的,每隔10秒获取一组数据,判断10秒内用户手部的轨迹信息是否构成封闭图形。而每隔预设时间段进行判断,可能会存在开始时那一时刻的数据处于轨迹绘制过程中,为降低这种异常情况发生的概率,在下一次获取数据时,回退预设的时间。示例性的,00:00-00:10获取了一组数据,00:10-00:20获取第二组数据,用户绘制图形的时间在1秒左右,因此,发生异常的概率是十分之一;通过回退的方法,00:00-00:10获取了一组数据,00:05-00:15获取第二组数据,异常概率几乎为0。
根据车辆坐标系,车辆外部摄像头和车辆外部摄像头实时拍摄的图像构建车辆内外的3D点云数据,该3D点云数据提供车辆周围环境和车辆内部的三维场景信息。具体的,根据车辆外的摄像头拍摄的图像构建符合车辆坐标系的3D点云数据,根据车辆内的摄像头拍摄的图像构建符合车辆坐标系的3D点云数据,将两个点云数据配准到一起构建整体的3D点云数据。
需要说明的是,车辆外部的摄像头也可以采用上述的深度相机或者多个视觉摄像头。
可选的,车辆外部的摄像头还可以是光场相机,通过光场相机拍摄的图像把焦距范围内所有光学信息都记录在内,因此,在车辆高速移动的情况下,不需要进行对焦,在后续处理中仍能得到清晰的图像,可以避免车辆高速运动中摄像头拍摄的图像模糊的问题。
S103、根据3D点云数据以及车辆外的摄像头拍摄的图像,确定用户的手势指向的目标区域的图像,该目标区域是以所述第一位置为观察点,以轨迹信息形成的封闭图形为范围的区域。
在本步骤中,为确定手势轨迹所确定的车辆外部的图像,首先外部图像的3D点云数据。具体的,在构建好的车辆内外的3D数据中,以第一位置为观察点,从第一位置到封闭图形的边界构建可延伸的视锥体,获取视锥体范围内的3D点云数据。
在获取视锥体范围内的3D点云数据之后,至少有两种处理方式得到目标区域的图像:
第一种实现方式,将视锥体范围内的3D点云数据投影到封闭图形所在的平面上,生成投影后的二维图像,在根据3D点云数据中每个点的颜色、纹理数据根据预先设置的视场和焦距渲染得到目标区域的图像。该方式得到的图像和用户视角相同。
第二种实现方式,将视锥体范围内的3D点云数据使用特征描述符进行特征提取,例如尺度不变特征转换算法(Scale-invariant feature transform简称:SIFT)、加速稳健特征算法(Speeded Up Robust Features,简称:SURF算法,得到第一组特征;将车辆外部摄像头拍摄的原图像使用上述特征描述符也进行特征提取,得到第二组特征;使用特征匹配算法(例如最近邻匹配算法)将第一组特征和第二组特征进行匹配,根据匹配结果得到3D点云数据在原图像中的目标区域的图像,获取原图像中的目标区域的图像。示例性的,通过最邻近匹配算法,根据第一组特征中的一个特征描述符在第二组特征的特征描述符中匹配相似度最高的特征描述符或者欧式距离最小的特征描述符。该方式得到的图像为摄像头视角拍摄的图像,图像还原度高,但与用户视角不相同。
可选的,在上述第二种实现方式中,将与用户视角不相同的目标区域的图像根据原图像摄像头的位置和用户眼部所在坐标位置、摄像头参数进行透视投影转换,转换成用户视角的目标区域的图像。
S104、对目标区域的图像中的物体进行标注,得到目标图像。
在本步骤中,得到目标区域的图像后,为方便用户观察,需要进行标注。
在一种实现方式中,对目标区域的图像使用目标检测算法进行检测,得到至少一个目标物体,将目标物体使用绘图工具在目标区域的图像中标识,示例性的,在目标区域的图像中圈出目标物体,得到目标图像。
在另一种实现方式中,将目标区域的图像输入到图像识别模型中,识别目标区域的图像中所有的物体信息(例如,名称,价格等),将物体信息标识在目标区域的图像中,得到目标图像。其中,图像识别模型预先经过多个标注的图像数据训练得到的深度学习模型。
S105、将目标图像展示给车辆中的其他用户。
在本步骤中,将目标图像显示在车辆的中控屏上,方便驾驶员观察,或者在车辆前排后排所有的显示屏都进行显示,方便用户之间的交流。
可选的,将目标图像推送到用户预设的终端设备。
本实施例提供一种车辆中基于手势识别的图像处理方法,在根据用户的手势轨迹信息确定手势在空间中形成封闭图形时,根据车辆坐标系,车辆内摄像头和车辆外摄像头实时拍摄的图像构建车辆内外的3D点云数据;根据3D点云数据以及车辆外的摄像头拍摄的图像,确定用户的手势指向的目标区域的图像,目标区域是以第一位置为观察点,以轨迹信息形成的封闭图形为范围的区域;对目标区域的图像中的物体进行标注,得到目标图像;将目标图像展示给车辆中的其他用户。通过本方法用户只需要画圈就可以获取所需要的圈中的图像,操作便捷,提高了用户的驾驶体验。
在实施例一基础上,下面对如何构建车辆内外整体的3D点云数据和在该3D点云数据中如何确定手势轨迹范围内的目标区域的点云数据进行详细说明。
为获取用户视角下绘制封闭图形内的图像,最好的方法是在用户眼睛位置通过摄像头进行拍摄,但是车辆内的摄像头不可能处于用户所在的位置,因此如何获取用户视角下的目标区域范围内的图像就成了一个难题,下面通过构建3D点云数据,通过渲染的方式得到用户视角下的手势轨迹范围内的目标区域的图像。
图4为本申请提供的一种车辆中基于手势识别的图像处理方法实施例三的流程示意图,如图4所示,该方法包括如下步骤:
S201、获取车辆内摄像头所在视角的图像的第一深度信息和车辆外摄像头所在视角的图像的第二深度信息。
在本步骤中,根据车外同一侧的至少两个单目的视觉摄像头实时拍摄的视频帧画面,获取这两个摄像头同一时间内的两幅图像,从每个图像中提取出有代表性的特征点(例如物体的角点、边点),这些特征点在不同视角下具有一定的唯一性。通过特征描述符(例如SIFT、ORB等)将该特征点进行匹配。根据特征点的匹配关系,计算它们在图像之间的像素位移,即视差。根据有代表性的特征点的视差值使用插值法获取其他像素点的视差值,或者使用立体匹配算法获取其他像素点的视差值。根据视差值和已知的摄像头参数(基线,焦距),可以使用三角测量或其他深度估计算法(例如反投影法)来计算场景中点的第二深度信息,其中深度信息表示物体的点距离摄像头的距离或相对位置。同样的,对车内摄像头拍摄的图像采取相同的方式得到第一深度信息。
在计算代表性的特征点的视差时,至少可以通过下述两种方式:
第一种实现方式,位移法(Disparity Method):对于每对匹配的特征点,计算它们在图像中的像素位移。假设左图像中的特征点坐标为(x1,y1),右图像中的特征点坐标为(x2,y2),则视差值(disparity)可以用右图像坐标减去左图像坐标来计算:视差=x2-x1。这样得到的视差值表示了特征点在水平方向上的位移,即两个视角下物体的位置差异。
第二种实现方式,三角测量法(Triangulation Method):根据匹配的特征点在图像上的位置和摄像头的几何关系,利用三角测量原理计算视差。假设左图像中的特征点坐标为(x1,y1),右图像中的特征点坐标为(x2,y2),摄像头的基线长度为B,焦距为f。则水平视差可以计算为:视差=(x1-x2)*f/B。这样得到的视差值表示了特征点在三维空间中的深度差异。
需要说明的是,在上述两种方式中都需要提前进行坐标对齐,将两个图像的坐标转换为同一相机坐标系,这需要通过两个摄像头的内参矩阵的参数预先得到两个相机坐标系的转换关系进行转换,该转换关系在摄像头不更换的情况下不需要改变。
可选的,在本方案中,车辆内外的摄像头也可以全部采用深度相机直接获取图像像素点的深度信息。
S202、根据第一深度信息将车辆内摄像头拍摄的图像转换为第一点云数据,并根据第二深度信息将所述车辆外摄像头拍摄的图像转换为第二点云数据。
在本步骤中,预先获取相机的内参矩阵和外参矩阵,其中,内参矩阵描述了相机的内部属性,如焦距、主点坐标和像素间距等,外参矩阵描述了相机的位姿,包括旋转矩阵和平移向量。根据相机的内参矩阵和外参矩阵,通过深度信息和相机内参矩阵的逆运算,计算出其在相机坐标系下的三维坐标。根据外参矩阵将相机坐标系下的点转换为车辆坐标系下的点(X,Y,Z)。将转换后的三维点(X,Y,Z)组织为点云数据结构,点云数据是由一组点组成的三维数据表示形式,每个点具有位置信息(x,y,z坐标)和其他属性(如颜色、法线等)。
可选的,车辆外部配置光照传感器,获取车辆外部的光照信息,根据光照信息设置3D点云的法线向量参数,通过该方式可以模拟更加符合现实的光照效果。
S203、分别将第一点云数据和第二点云数据配准到车辆坐标系中,得到车辆内外的3D点云数据。
可选的,根据车辆的3D模型数据,显示在车辆坐标系中,在观察时,可以模拟车辆遮挡的效果,后续得到的目标区域的图像更加符合现实情况。
S204、从第一位置到封闭图形的边界构建可延伸的视锥体,可延伸的视锥体表示从视点开始可见的3D点云数据范围。
在本步骤中,为确定用户视角下所看到的图像,首先需要确定用户所看到的3D点云数据。
具体的,从用户所在的第一位置为视点,封闭图形的边界定义了可见区域的范围。使用视点和封闭图形的边界,构建初始的视锥体,其中,初始视锥体是以封闭图形为底,以第一位置为顶点的三维封闭图形。对初始视锥体进行延伸,使其能够包含更多的3D点云数据,这一过程需要进行迭代操作:
首先,根据当前的视锥体,从整体的3D点云数据中筛选出位于视锥体内部的点云数据。接着,根据筛选出的点云数据,延伸视锥体的边界,以尽可能包含更多的3D点云数据。对点云通过射线投影的方法进行点云的可见性检测,以判断延伸后的视锥体包含哪些新增的点云数据。
然后,重复以上两个步骤,通过迭代操作,视锥体会逐渐延伸,以逼近用户视角下可见的3D点云数据,当满足特定的终止条件,终止条件可以设置为见点云数据的增加小于预设值时停止。
S205、从3D点云数据中获取可延伸的视锥体范围内的目标3D点云数据。
S206、将目标3D点云数据投影到封闭图形的平面上,生成投影后的二维图像。
在一种实现方式中,使用正交投影矩阵将3D点云数据的坐标直接映射到平面上,忽略视点和距离因素。投影后的二维坐标即为点云数据在平面上的投影位置。
在另一种实现方式中,使用透视投影矩阵将3D点云数据的坐标转换为透视投影坐标。然后通过除以透视投影坐标的齐次坐标,将其映射到平面上。
S207、根据投影后的二维图像和3D点云数据中每个点的颜色数据渲染得到目标区域的图像。
在本步骤中,投影后的二维图像还不足以生成用户视角下的图像,还需要颜色信息,将3D点云数据中包括的RGB值和二维图像中的点进行关联,在二维图像中填充颜色信息渲染出目标区域的图像。
本实施例提供一种车辆中基于手势识别的图像处理方法,在车辆内外完整的3D点云数据中,通过构建以用户视角下的可延伸的视锥体,确定用户所看到的3D点云数据,进而确定用户看到的目标区域图像。通过该方法得到的是用户视角下的图像,相比于从摄像头拍摄的图像中截取等方式视角更加准确。
上述实施例三中,得到了目标区域的图像,可以将目标区域的图像直接用于显示,但是为了增加用户之间交流的便捷性,可以对目标区域的图像进行进一步的标注。下面对得到目标区域图像后进一步处理过程进行详细说明。
图5为本申请提供的一种车辆中基于手势识别的图像处理方法实施例四的流程示意图,如图5所示,该方法包括如下步骤:
S301、获取第一位置视角下用户的手势的轨迹信息在空间中形成的视角图形。
在本方案中,用户手势轨迹形成的不同图形可以代表不同的含义内容,例如在画圆形时,表示获取物体的信息,画方形时表示获取整个图像。因此,需要识别用户的手势轨迹信息形成的图形,而在空中绘制的图形在不同角度观察,得到的效果是不一样的,例如在用户位置是一个圆,但在用户的90度侧边看的是一条线,因此需要根据3D点云数据确定用户视角下,用户的轨迹信息在空中形成的视角图形。
S302、将视角图形与预设图形进行比较,得到比较结果。
在本步骤中,不同的预设图形可以代表不同的后续执行指令,在本实施例中只以一种预设图形进行比较,但本方案不限定只有一种。
若比较结果一致时,执行步骤S303-S304;若比较结果不一致时执行步骤S305-S306。
S303、通过图像识别模型识别目标区域的图像中的物体信息。
在本步骤中,预先准备一个经过多个标注的图像数据训练的图像识别模型。该模型可以是基于深度学习的模型,如卷积神经网络(CNN)或其他适用于图像分类任务的模型。将目标区域的图像作为输入,供图像识别模型进行物体信息识别。图像识别模型输出至少一个识别结果,即识别出的物体名称、类别、价格。
可选的,将目标区域的图像在互联网中查询该物体的信息,示例性的,将目标区域的图像输入到搜索软件或者购物软件,获取图像中所有的物体的信息。
S304、将物体信息在目标区域的图像中对应的区域进行标注,得到目标图像。
在本步骤中,将步骤S303得到的物体信息在相应的物体旁边进行显示,或者在图像中提供一个标识区域,触碰该标识区域展开物体信息。
通过步骤S303-S304,在目标区域的图像中标注物体的信息,这样可以方便用户及时获取物体的信息,不需要再进行单独查询。
S305、通过目标检测算法从目标区域的图像中识别出图像中存在的至少一个目标物体。
在本步骤中,需要准备一个经过训练的目标检测模型,该模型可以是基于深度学习的模型,如Faster R-CNN算法模型、YOLO算法模型、SSD算法模型等,这些模型能够在图像中定位和识别多个目标物体。将目标区域的图像作为输入,供目标检测模型进行目标物体识别。该模型会对图像进行处理,并输出识别结果,包括检测到的目标物体的类别、边界框位置和置信度等。
S306、在目标区域的图像中通过绘制工具标识出至少一个目标物体,得到目标图像。
在本步骤中,根据步骤S305中的目标检测结果,获取识别到的至少一个目标物体的类别和边界框位置。使用绘制工具,如矩形框或多边形绘制工具,根据目标物体的边界框位置,在目标区域的图像中标识出相应的目标物体。
可选:根据需要,可以在标注框周围添加文本标签,以表示目标物体的类别或其他相关信息。
通过步骤S305-S306,在目标区域的图像中通过绘制工具标识出至少一个目标物体,得到目标图像。这样可以直观地呈现出目标物体在图像中的位置和形状,方便用户观察。
本实施例提供一种车辆中基于手势识别的图像处理方法,根据用户的手势绘制的不同图形对目标区域范围内的图像执行对应的不同处理,对目标区域的图像框选出物体,方便用户观察,而将物体信息直接显示在图像上可以方便用户获取该物体的信息,通过上述方式可以增加用户体验感。
下面以车辆行驶过程中,车辆中后排乘客通过手势识别马路中广告牌中的物品为例,对整个方案进行详细说明。
图6为本申请提供的一种车辆中基于手势识别的图像处理方法一实例的流程示意图,如图6所示,该方法包括如下步骤:
S401、获取车辆中用户的面部数据,判断该用户是否具备手势交互权限。
在本步骤中,车辆内部中的传感器或者摄像头在车辆开启后,定时获取车辆内部用户的面部图像;
根据用户的面部图像和预设的手势交互的用户权限表,对比手势交互的用户权限表中授权用户的面部信息中是否包括用户的面部图像中的面部信息,确定用户是否具有通过手势进行人机交互的权限。
通过这种方式,可以避免陌生人乘坐车辆时触发手势交互带来的尴尬体验。
S402、用户通过食指在空中对着广告牌画圈。
在本步骤中,用户通过手势交互的授权后,在对车外广告牌感兴趣时,在车辆内部的空中从用户视角通过食指对着广告牌画圈。
S403、通过传感器实时获取车辆内的用户的手势的轨迹信息以及用户的眼部在车辆坐标系中的第一位置。
此步骤与步骤S101类似在此,不再赘述。
S404、将手部的3D点云数据和手部运动经过每个轨迹点的3D点云数据实时输入到手势识别算法中进行手势识别。
在本步骤中,通过手势识别算法实时识别用户的手部轮廓以及手势轨迹形成的图形,该手势识别算法是预先采用多个手势动作数据,通过如卷积神经网络(CNN)或循环神经网络(RNN),来训练识别手部轮廓和手势轨迹形成的图形的模型。训练过程中,需要将手部轮廓和轨迹数据与对应的图形标签进行关联,以便模型能够学习手势的特征和模式。
S405、确定手部轮廓是食指形状时,检测手势轨迹形成的图形是否为封闭形状。
在本步骤中,当手部轮廓为预设的伸出食指形状时,表示用户开始通过手部绘制图形,因此,根据实时的手部经过的每个轨迹的3D点云数据实时获取手势轨迹形成的图形,判断是否形成封闭的形状。
若形成封闭图形执行步骤S406,若未形成封闭图形,持续检测,直至生成封闭图形,或者用户手部轮廓不符合预设的轮廓。
可以理解的,封闭的形状和封闭图形为同一指代。
S406、确定获取目标区域图像的时刻。
在本步骤中,在用户手部的轨迹形成封闭图形时,表示用户的操作已经完成,只需要从图像数据中获取用户视角下的图像即可,但是获取图像采用哪一时刻的图像数据又是所面临的问题,可以有以下几种方式:
第一种方式,获取用户绘制的图形封闭时的车辆内部和外部摄像头拍摄的图像数据。该方式适合车辆慢速或者停止的场景。
第二种方式,在用户绘制的图形封闭时,获取用户手部轮廓符合预设轮廓,即开始绘制时的车辆内部和外部摄像头拍摄的图像数据。通过这种方式可以保证获取的图像不会因车速太快导致的图像脱离封闭图形范围的问题,可以提高获取图像的准确率。
S407、构建3D点云数据获取目标区域的图像。
此过程与实施例二过程类似,在此不做赘述。
S408、根据预设的圆形得到图像的处理方式。
在本步骤中,获取用户绘制的图形圆形,根据预设的包括多个图形的图形指令表,确定当前圆形图形时,对目标图像的执行指令为获取目标区域图像中的物体信息。
S409、将目标区域的图像输入到图像识别模型中得到广告牌内的信息。
在本步骤中,将获取的包含广告牌的目标区域的图像输入到图像识别模型中,得到该图像中的信息包括手机的信息(例如型号)和代言人的信息(例如姓名、年龄)。
可选的,将目标区域的图像输入到购物软件中,得到手机的价格信息。
S410、将物体信息批注在目标区域图像在车辆中控屏中显示。
在本步骤中,将手机的信息和代言人的信息显示在目标区域的图像中,发送到车辆的中控屏供驾驶员观察。
本实例提供一种车辆中基于手势识别的图像处理方法,在驾驶途中,通过用户手势在空中画圈的方式获取广告牌的图像,将广告牌的物体信息获取出来,显示在图像中提供给驾驶员观察。通过这种方式,用户看到感兴趣的物体,可以及时方便的获取该物体的图像进行显示,提示用户驾驶体验。
图7为本申请提供的一种车辆中基于手势识别的图像处理装置实施例一的结构示意图,如图7所示,该装置500包括:
获取模块501,用于检测到用户满足预设的条件时,获取所述用户在预设时间段内手势的轨迹信息;
第一确定模块502,用于确定所述轨迹信息形成的车外的目标区域,所述目标区域以所述用户的眼部位置为观察点;
第二确定模块503,用于根据车辆外部的图像,确定所述目标区域对应的目标图像;
显示模块504,用于显示所述目标图像。
可选的,所述预设的条件包括:所述用户的手部轮廓的形状符合预设形状和/或所述用户的声纹符合预设的声纹。
可选的,所述第一确定模块502具体用于:
判断所述轨迹信息是否形成封闭图形;
若所述轨迹信息形成封闭图形,则按照第一预设规则确定所述封闭图形对应的所述目标区域;
若所述轨迹信息没有形成封闭图形,则根据所述轨迹信息和第二预设规则生成封闭图形,并按照所述第一预设规则确定所述封闭图形对应的所述目标区域。
可选的,所述第二确定模块503具体用于:
根据车辆实时获取的数据构建的三维场景数据确定所述目标区域的目标图像。
可选的,所述第二确定模块503包括获取单元,三维构建单元,图像获取单元:
所述获取单元,用于获取车辆内的所述用户的手势的轨迹信息以及所述用户的眼部的第一位置,所述第一位置用于表示所述眼部在车辆中的三维坐标;
所述三维构建单元,用于根据车辆实时获取的数据构建车辆内外的3D点云数据,所述3D点云数据提供车辆周围环境和车辆内部的三维场景信息;
所述图像获取单元,用于根据所述3D点云数据以及所述车辆外的摄像头拍摄的图像,确定所述用户的手势指向的所述目标区域的所述目标图像。
所述三维构建单元具体用于:
根据所述车辆内摄像头实时拍摄的图像和所述车辆外摄像头实时拍摄的图像进行视差计算,分别获取所述车辆内摄像头所在视角的图像的第一深度信息和所述车辆外摄像头所在视角的图像的第二深度信息;
根据所述第一深度信息将所述车辆内摄像头拍摄的图像转换为第一点云数据,并根据所述第二深度信息将所述车辆外摄像头拍摄的图像转换为第二点云数据;
分别将所述第一点云数据和所述第二点云数据配准到同一坐标系中,得到车辆内外的所述3D点云数据。
所述三维构建单元还用于:
检测到用户满足预设的条件时,根据所述手势在空间中开始绘制图形时刻的车辆内摄像头和车辆外摄像头拍摄的图像构建车辆内外的3D点云数据;
或者,
检测到用户满足预设的条件时,根据所述手势在空间中结束绘制图形时刻的车辆内摄像头和车辆外摄像头拍摄的图像构建车辆内外的3D点云数据。
所述图像获取单元具体用于:
从所述第一位置到所述目标区域的边界构建可延伸的视锥体,所述可延伸的视锥体表示从视点开始可见的所述3D点云数据范围;
从所述3D点云数据中获取所述可延伸的视锥体范围内的目标3D点云数据;
根据所述3D目标点云数据获取所述目标图像。
所述图像获取单元还用于:
将所述目标3D点云数据投影到所述图形的平面上,生成投影后的二维图像;
根据所述投影后的二维图像和所述3D点云数据中每个点的颜色数据渲染得到所述目标图像;
或者,
根据所述3D目标点云数据使用特征描述符从车辆外部摄像头拍摄的图像中获取所述目标图像。
所述显示模块,还用于:
对所述目标区域的图像中的物体进行标注,得到目标图像。
所述显示模块,还用于:
通过图像识别模型识别所述目标区域的图像中的物体信息,所述图像识别模型预先经过多个标注的图像数据训练得到的深度学习模型;
将所述物体信息在目标区域的图像中对应的区域进行标注,得到所述目标图像;
或者,
通过目标检测算法从所述目标区域的图像中识别出图像中存在的至少一个目标物体;
在目标区域的图像中通过绘制工具标识出所述至少一个目标物体,得到所述目标图像。
所述显示模块,还用于:
获取所述第一位置视角下所述用户的手势的轨迹信息在空间中形成的视角图形;
将所述视角图形与预设图形进行比较,得到比较结果;
若比较结果一致时,在所述目标区域的图像中标注物体信息,得到目标图像;
若比较结果不一致时,在所述目标区域的图像中标识出所述至少一个目标物体,得到目标图像。本实施例提供的车辆中基于手势识别的图像处理装置,用于执行上述任一方法实施例的技术方案,其实现原理和技术效果类似,在此不做赘述。
图8为本申请提供的一种车辆的结构示意图,如图8所示,该车辆600包括:车辆主体,传感器,摄像头,处理器以及与其他设备交互的通信接口,
车辆主体611,传感器612,处理器613,摄像头614以及与其他设备交互的通信接口615,所述处理器用于执行上述方法实施例中任一项所述的车辆中基于手势识别的图像处理方法。
可选的,该车辆600的上述各个器件之间可以通过系统总线连接。
可选的,该车辆还包括存储器616,所述存储器616中存储处理器执行指令、摄像头和传感器获取的数据、手势识别算法模型、图像识别模型等;
存储器可以是单独的存储单元,也可以是集成在处理器613中的存储单元。
可选的,上述614摄像头可以是深度相机,也可以是视觉摄像头,在一些实施例中,摄像头还可以是光场相机。
可选的,该车辆还可以具备显示器,用于显示处理器的处理结果以及和人机交互。在一些实施例中,显示器可以为车辆的中控屏;在另一些实施例中,显示器可以是柔性显示屏,甚至,显示器还可以设置成非矩形的不规则图形的显示屏,也即异形屏。显示器可以采用液晶显示屏(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等材质制备。
应理解,处理器613可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
系统总线可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extended industry standard architecture,EISA)总线等。系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。存储器可能包括随机存取存储器(randomaccess memory,RAM),也可能还包括非易失性存储器(non-volatile memory,NVM),例如至少一个磁盘存储器。
实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一可读取存储器中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储器(存储介质)包括:只读存储器(read-only memory,ROM)、RAM、快闪存储器、硬盘、固态硬盘、磁带(magnetic tape)、软盘(floppy disk)、光盘(optical disc)及其任意组合。
本申请实施例提供的车辆,可用于执行上述方法实施例中任一项所述的车辆中基于手势识别的图像处理方法,其实现原理和技术效果类似,在此不再赘述。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如前述方法实施例中任一项所述的车辆中基于手势识别的图像处理方法。
上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器,电可擦除可编程只读存储器,可擦除可编程只读存储器,可编程只读存储器,只读存储器,磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
本申请实施例还提供一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中,至少一个处理器可以从该计算机可读存储介质中读取该计算机程序,至少一个处理器执行计算机程序时可实现前述任一实施例提供的车辆中基于手势识别的图像处理方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。
Claims (15)
1.一种车辆中基于手势识别的图像处理方法,其特征在于,所述方法包括:
检测到用户满足预设的条件时,获取所述用户在预设时间段内手势的轨迹信息;
确定所述轨迹信息形成的车外的目标区域,所述目标区域以所述用户的眼部位置为观察点;
根据车辆外部的图像,确定所述目标区域对应的目标图像;
显示所述目标图像。
2.根据权利要求1所述的方法,其特征在于,所述预设的条件包括:所述用户的手部轮廓的形状符合预设形状和/或所述用户的声纹符合预设的声纹。
3.根据权利要求1所述的方法,其特征在于,所述确定所述轨迹信息形成的车外的目标区域,包括:
判断所述轨迹信息是否形成封闭图形;
若所述轨迹信息形成封闭图形,则按照第一预设规则确定所述封闭图形对应的所述目标区域;
若所述轨迹信息没有形成封闭图形,则根据所述轨迹信息和第二预设规则生成封闭图形,并按照所述第一预设规则确定所述封闭图形对应的所述目标区域。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据车辆外部的图像,确定所述目标区域对应的目标图像,包括:
根据车辆外部的图像和构建的车辆内外的三维场景数据确定所述目标区域的目标图像。
5.根据权利要求4所述的方法,其特征在于,所述根据车辆外部的图像和构建的车辆内外的三维场景数据确定所述目标区域的目标图像,包括:
获取车辆内的所述用户的手势的轨迹信息以及所述用户的眼部的第一位置,所述第一位置用于表示所述眼部在车辆中的三维坐标;
根据车辆实时获取的数据构建车辆内外的3D点云数据,所述3D点云数据提供车辆周围环境和车辆内部的三维场景信息;
根据所述3D点云数据以及车辆外的摄像头拍摄的图像,确定所述用户的手势指向的所述目标区域的所述目标图像。
6.根据权利要求5所述的方法,其特征在于,所述根据车辆实时获取的数据构建车辆内外的3D点云数据,包括:
根据所述车辆内摄像头实时拍摄的图像和所述车辆外摄像头实时拍摄的图像进行视差计算,分别获取所述车辆内摄像头所在视角的图像的第一深度信息和所述车辆外摄像头所在视角的图像的第二深度信息;
根据所述第一深度信息将所述车辆内摄像头拍摄的图像转换为第一点云数据,并根据所述第二深度信息将所述车辆外摄像头拍摄的图像转换为第二点云数据;
分别将所述第一点云数据和所述第二点云数据配准到同一坐标系中,得到车辆内外的所述3D点云数据。
7.根据权利要求5或6所述的方法,其特征在于,所述根据实时获取的数据构建车辆内外的3D点云数据,包括:
检测到用户满足预设的条件时,根据所述手势在空间中开始绘制图形时刻的车辆内摄像头和车辆外摄像头拍摄的图像构建车辆内外的3D点云数据;
或者,
检测到用户满足预设的条件时,根据所述手势在空间中结束绘制图形时刻的车辆内摄像头和车辆外摄像头拍摄的图像构建车辆内外的3D点云数据。
8.根据权利要求5或6所述的方法,其特征在于,所述根据所述3D点云数据以及所述车辆外的摄像头拍摄的图像,确定所述用户的手势指向的所述目标区域的所述目标图像,包括:
从所述第一位置到绘制的图形的边界构建可延伸的视锥体,所述可延伸的视锥体表示从视点开始可见的所述3D点云数据范围;
从所述3D点云数据中获取所述可延伸的视锥体范围内的目标3D点云数据;
根据所述3D目标点云数据获取所述目标图像。
9.根据权利要求8所述的方法,其特征在于,所述根据所述3D目标点云数据获取所述目标图像,包括:
将所述目标3D点云数据投影到所述图形的平面上,生成投影后的二维图像;
根据所述投影后的二维图像和所述3D点云数据中每个点的颜色数据渲染得到所述目标图像;
或者,
根据所述3D目标点云数据使用特征描述符从车辆外部摄像头拍摄的图像中获取所述目标图像。
10.根据权利要求9所述的方法,其特征在于,在所述车辆的显示屏中显示所述目标图像,包括:
对所述目标区域的图像中的物体进行标注,得到目标图像。
11.根据权利要求10所述的方法,其特征在于,所述对所述目标区域的图像中的物体进行标注,得到目标图像,包括:
通过图像识别模型识别所述目标区域的图像中的物体信息,所述图像识别模型预先经过多个标注的图像数据训练得到的深度学习模型;
将所述物体信息在目标区域的图像中对应的区域进行标注,得到所述目标图像;
或者,
通过目标检测算法从所述目标区域的图像中识别出图像中存在的至少一个目标物体;
在目标区域的图像中通过绘制工具标识出所述至少一个目标物体,得到所述目标图像。
12.根据权利要求11所述的方法,其特征在于,所述对所述目标区域的图像中的物体进行标注,得到目标图像,包括:
获取所述第一位置视角下所述用户的手势的轨迹信息在空间中形成的视角图形;
将所述视角图形与预设图形进行比较,得到比较结果;
若比较结果一致时,在所述目标区域的图像中标注物体信息,得到目标图像;
若比较结果不一致时,在所述目标区域的图像中标识出所述至少一个目标物体,得到目标图像。
13.一种车辆中基于手势识别的图像处理装置,其特征在于,所述装置包括:
获取模块,用于检测到用户满足预设的条件时,获取所述用户在预设时间段内手势的轨迹信息;
第一确定模块,用于确定所述轨迹信息形成的车外的目标区域,所述目标区域以所述用户的眼部位置为观察点;
第二确定模块,用于根据车辆外部的图像,确定所述目标区域对应的目标图像;
显示模块,用于显示所述目标图像。
14.一种车辆,其特征在于,所述车辆包括:
车辆主体,传感器,摄像头,处理器以及与其他设备交互的通信接口,所述处理器用于执行如权利要求1至12任一项所述的车辆中基于手势识别的图像处理方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至12任一项所述的车辆中基于手势识别的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311155555.9A CN117058765A (zh) | 2023-09-07 | 2023-09-07 | 车辆中基于手势识别的图像处理方法、装置、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311155555.9A CN117058765A (zh) | 2023-09-07 | 2023-09-07 | 车辆中基于手势识别的图像处理方法、装置、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117058765A true CN117058765A (zh) | 2023-11-14 |
Family
ID=88669323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311155555.9A Pending CN117058765A (zh) | 2023-09-07 | 2023-09-07 | 车辆中基于手势识别的图像处理方法、装置、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117058765A (zh) |
-
2023
- 2023-09-07 CN CN202311155555.9A patent/CN117058765A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111783820B (zh) | 图像标注方法和装置 | |
US10757373B2 (en) | Method and system for providing at least one image captured by a scene camera of a vehicle | |
EP3961485A1 (en) | Image processing method, apparatus and device, and storage medium | |
EP4361771A1 (en) | Gesture recognition method and apparatus, system, and vehicle | |
US8860760B2 (en) | Augmented reality (AR) system and method for tracking parts and visually cueing a user to identify and locate parts in a scene | |
CN107004275A (zh) | 用于确定实物的至少一部分的处于绝对空间比例的3d重构件的空间坐标的方法和系统 | |
García et al. | Driver monitoring based on low-cost 3-D sensors | |
JP2013050947A (ja) | 物体姿勢推定方法、物体姿勢推定装置、物体推定姿勢精緻化方法、およびコンピューター可読媒体 | |
Borghi et al. | Hands on the wheel: a dataset for driver hand detection and tracking | |
CN111079470B (zh) | 人脸活体检测的方法和装置 | |
CN111742344A (zh) | 图像语义分割方法、可移动平台及存储介质 | |
CN114267041B (zh) | 场景中对象的识别方法及装置 | |
US12106516B2 (en) | Pose estimation refinement for aerial refueling | |
CN114639115B (zh) | 一种人体关键点与激光雷达融合的3d行人检测方法 | |
WO2023168957A1 (zh) | 姿态确定方法、装置、电子设备、存储介质及程序 | |
CN113537047A (zh) | 障碍物检测方法、装置、交通工具及存储介质 | |
WO2023284358A1 (zh) | 相机标定方法、装置、电子设备及存储介质 | |
CN116168383A (zh) | 三维目标检测方法、装置、系统和存储介质 | |
CN109919128B (zh) | 控制指令的获取方法、装置及电子设备 | |
CN115008454A (zh) | 一种基于多帧伪标签数据增强的机器人在线手眼标定方法 | |
CN110197104B (zh) | 基于车辆的测距方法及装置 | |
CN114766039A (zh) | 对象检测方法、对象检测设备、终端设备、以及介质 | |
CN116843867A (zh) | 增强现实虚实融合方法、电子设备和存储介质 | |
CN117058765A (zh) | 车辆中基于手势识别的图像处理方法、装置、存储介质 | |
US20220114748A1 (en) | System and Method for Capturing a Spatial Orientation of a Wearable Device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |