CN115376114B

CN115376114B - 一种汽车摄像的图像多模态取景方法及系统

Info

Publication number: CN115376114B
Application number: CN202211076142.7A
Authority: CN
Inventors: 章笑春
Original assignee: Rivotek Technology Jiangsu Co Ltd
Current assignee: Rivotek Technology Jiangsu Co Ltd
Priority date: 2022-09-05
Filing date: 2022-09-05
Publication date: 2023-06-30
Anticipated expiration: 2042-09-05
Also published as: CN115376114A

Abstract

本发明公开了一种汽车摄像的图像多模态取景方法及系统，用户通过行为控制车机系统启动图像眼神取景服务触发拍摄功能，用户基于内置车辆摄像系统的图像识别或车机系统中的语音识别进行多模态取景，生成对应的结果图像数据，多模态取景包括根据眼神模式取景服务、手势模式取景服务以及语音模式取景服务，本发明在获取多模态取景操作信息后，通过分析用户多模态取景操作的当前行为信息，智能自动化的分割出用户当前行为状态下对应的车外画面图像，进而避免了用户手动取景的繁琐和行车危险，提高了用户驾驶感受，有利于在智能车机中应用推广。

Description

一种汽车摄像的图像多模态取景方法及系统

技术领域

本发明涉及汽车图像处理技术领域，特别是一种应用于汽车外置摄像相机的多模态取景方法及系统。

背景技术

用户在行车过程中需要对车外的一些场景画面进行拍照或录像显示，目的主要是保存图像信息或实时观察车辆周围的路况画面情况；目前触发摄像的方式通常是通过按钮或接收生物信息进行触发，例如按键指令、语音指令或手势指令，但是传统的车载相机拍摄照片或视频时，没有取景的功能，拍出来的照片或视频的角度是固定的，造成驾驶人员得不到想要的摄像信息，若要选定摄像图像中的预选区域，需要用户的双手操纵车机系统来取景，不仅操作繁琐，且影响驾驶安全，所以针对汽车外置相机拍照无法取景的问题，现阶段还缺少一种智能自动化的汽车外置摄像图像的取景方法及系统。

发明内容

鉴于上述现有的汽车图像处理中存在的问题，提出了本发明。

因此，本发明其中的一个目的是提供一种汽车摄像的图像多模态取景方法及系统，通过车内摄像头采集车内用户的画面，通过图像算法判定用户身体的姿态、面部朝向，以及目视方向，分析用户观看车外的视角，进而进行眼神目视视角范围内的拍摄取景，智能自动化的分割出用户眼神目视方向而观看的车外画面图像。

为解决上述技术问题，本发明提供如下技术方案：

第一方面，提供了一种汽车摄像的图像多模态取景方法，应用于车载系统，该方法包括以下步骤：

至少一个用户通过行为控制车机系统启动多模态取景服务触发拍摄功能，即通过外置车辆摄像系统采集车辆外部的图像数据，将车辆外部的图像数据拼合成车辆外部全景画面的图像数据，同时将全景画面的图像数据进行缓存，且缓存至车机系统后待处理；用户基于内置车辆摄像系统的图像识别或车机系统中的语音识别进行多模态取景，所述多模态取景是在启动多模态取景服务后的预设时间内，根据所述图像识别或语音识别确定用户当前取景行为，并基于对应的所述用户当前取景行为，在缓存的全景画面的图像数据上进行生成对应的结果图像数据；其中，所述多模态取景包括根据眼神模式取景服务、手势模式取景服务以及语音模式取景服务。

作为本发明的一种优选方案，其中：所述眼神取景服务是通过内置车辆摄像系统确定对应的用户视线方向，同时生成所述用户视线方向范围内的图像数据，即基于上述车机系统中缓存的全景画面的图像数据，以所述用户视线方向为中心，分割全景状态下用户的视线方向范围，根据视线方向范围将全景画面的图像数据进行裁剪，生成眼神图像取景的结果图像数据并呈现；

所述手势模式取景服务是通过内置车辆摄像系统确定对应的用户手势指引的方向，同时生成所述用户手势指引范围内的图像数据，即基于上述车机系统中缓存的全景画面的图像数据，以所述用户手势指引方向为中心，分割全景状态下用户的手势指引方向范围，根据手势指引方向范围将全景画面的图像数据进行裁剪，生成手势图像取景的结果图像数据并呈现；

所述语音模式取景服务是通过车机系统中的语音识别确定对应的用户语音信息，语音信息为语音取景方位的指令信息，根据所述语音取景方位的指令信息生成语音取景方位范围内的图像数据，即基于上述车机系统中缓存的全景画面的图像数据，以所述用户语音信息指引方向为中心，分割全景状态下用户的语音信息指引方向范围，根据语音信息指引方向范围将全景画面的图像数据进行裁剪，生成语音信息图像取景的结果图像数据并呈现。

作为本发明的一种优选方案，其中：通过内置车辆摄像系统确定用户视线方向，具体地，基于内置车辆摄像系统生成用户图像，将用户图像利用人形目标检测找到识别用户的面部轮廓方向、眼部眼睛的聚焦方位或身体朝向；

其中，获取所述用户头部轮廓方向中的头部朝向，根据所述头部朝向确定用户的视线方向；

或者，获取所述用户的眼睛的聚焦方位，根据所述眼睛的聚焦方位确定所述视线方向；

或者，获取所述用户的头部朝向和眼睛的聚焦方位，根据所述头部朝向和眼睛的聚焦方位确定所述视线方向。

作为本发明的一种优选方案，其中：获取所述用户的眼睛的聚焦方位，根据所述眼睛的聚焦方位确定所述视线方向，具体地获取所述眼睛的聚焦方位，将所述眼部图像输入视线估计模型，得到视线向量，所述视线估计模型为根据样本眼部图像，以及与所述样本眼部图像对应的轮廓标注信息和标注向量训练神经网络模型得到，所述轮廓标注信息包括眼部轮廓和瞳孔轮廓；

所述视线估计模型通过以下步骤获得：

获取样本集，所述样本集包括样本眼部图像，以及与所述样本眼部图像对应的轮廓标注信息以及标注向量，所述轮廓标注信息包括眼部轮廓以及瞳孔轮廓；将所述样本眼部图像输入神经网络模型，输出与所述样本眼部图像对应的热图，以及与所述样本眼部图像对应的视线向量；根据所述轮廓标注信息和所述热图之间的第一损失，以及所述标注向量和所述视线向量之间的第二损失训练神经网络模型，得到所述视线估计模型。

作为本发明的一种优选方案，其中：用户通过行为控制车机系统启动图像眼神取景服务触发拍摄功能，所述行为包括语音指令、按键指令或手势指令，每个所述行为中均包括拍摄功能选择行为；

所述拍摄功能包括拍照、录像或连拍其中的一种，所述拍摄功能根据用户相应行为中所述的拍摄功能选择行为，进行选择。

作为本发明的一种优选方案，其中：通过内置车辆摄像系统和车机系统，根据用户的行为判断所对应的用户，具体地车机系统中缓存有对应用户的人脸图像信息，当用户通过语音指令、按键指令或手势指令行为控制车机系统时，通过内置车辆摄像系统获取当前的用户的图像信息，与缓存的用户的人脸图像信息比对，以判断所对应的用户。

作为本发明的一种优选方案，其中：通过内置车辆摄像系统确定对应的用户视线方向，同时生成所述用户视线方向范围内的图像数据，具体如下：

基于用户为中心构造出俯视状态下的圆形全景画布，根据用户视线方向在圆形全景画布上标注出所述用户视线方向中的视线轮廓线，同时得到预设焦距下视线轮廓线的标注信息数据；提取全景画面的图像数据，根据视线轮廓线的标注信息数据，形成对应的图像裁剪框，在全景画面的图像数据上进行裁剪。

作为本发明的一种优选方案，其中：还包括基于生成的图像眼神取景的结果图像数据，用户通过控制车机系统将呈现的图像眼神取景的结果图像进行调整，调整包括放大、缩小或移动。

作为本发明的一种优选方案，其中：生成图像眼神取景的结果图像数据后，通过车机系统的显示设备进行实时显示，同时车机系统提供存储指令选择，用户根据存储指令选择后进行保存。

第二方面，提供了一种汽车摄像的图像眼神取景系统，包括：

图像获取模块，用户获取内置车辆摄像系统和多个外置车辆摄像系统的图像信息；

取景行为判断模块，用于判断用户发出取景行为控制时，所对应的多模态取景服务；

图像处理模块，用于以用户视线方向为中心，分割全景状态下的用户视线方向范围，根据视线方向范围将全景画面的图像数据进行裁剪，生成图像眼神取景的结果图像数据；

控制模块，用于车辆摄像系统、多个外置车辆摄像系统和车机系统的控制；

语音处理模块，用于对用户输入语音信息的分析处理。

本发明的有益效果：本发明在车辆图像取景时通过获取车内用户的当前行为状态，通过图像识别或语音识别技术进行多模态取景操作，根据手势、语音、身体的姿态、面部朝向，以及目视方向，分析用户多模态取景操作的当前行为信息，进而进行范围内的拍摄与取景，即智能自动化的分割出用户当前行为状态下对应的车外画面图像，进而避免了用户手动取景的繁琐和行车危险，提高了用户驾驶感受，有利于在智能车机中应用推广。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明实施例1中汽车摄像的图像眼神取景方法的流程图；

图2为本发明实施例1中汽车摄像的图像眼神取景方法中取景和生成示意图；

图3为本发明实施例2中汽车摄像的图像眼神取景系统的应用场景示意图；

图4为本发明实施例2中具有汽车摄像的图像眼神取景系统汽车的外部示意图；

图5为本发明实施例2中汽车摄像的图像眼神取景系统的模块化示意图。

图中标号：10、车机系统；101、外置车辆摄像系统；102、内置车辆摄像系统；103、中控系统；110、汽车摄像的图像眼神取景系统；1101、图像获取模块；1102、取景行为判断模块；1103、图像处理模块；1104、控制模块；1105、语音处理模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

由于在现有的汽车图像处理中存在的问题，即传统的车载相机拍摄照片或视频时，没有取景的功能，拍出来的照片或视频的角度是固定的，造成驾驶人员得不到想要的摄像信息，若要选定摄像图像中的预选区域，需要用户的双手操纵车机系统来取景，不仅操作繁琐，且影响驾驶安全。

基于此，参照图1和图2，为本发明的一个实施例，该实施例提供了一种汽车摄像的图像多模态取景方法，本实施例的多模态取景为眼神模式取景服务举例说明，具体如下：

步骤S101，用户通过行为控制车机系统启动图像眼神取景服务触发拍摄功能；用户通过行为控制车机系统启动图像眼神取景服务触发拍摄功能，行为包括语音指令、按键指令或手势指令，每个行为中均包括拍摄功能选择行为；拍摄功能包括拍照、录像或连拍其中的一种，拍摄功能根据用户相应行为中的拍摄功能选择行为，进行选择。示例如下：

语音指令：用户说“拍照”，谁发出语音指令，就分析谁的视线；

按键指令：用户通过点击“拍摄”实体或虚拟按键，仅支持主驾；

手势指令：用户通过比划预设的“拍摄手势”，其中谁发出手势命令，就分析谁的视线；

拍摄功能可以支持多种：拍照，录像或连拍，其中，拍摄功能根据用户相应行为中的拍摄功能选择行为进行选择，例如用户通过包含“拍照”、“录像”或“连拍”信息，即拍摄功能选择行为语音指令，来控制车机系统进行选择工作，进一步地，“拍照”为默认控制指令，如没有“录像”或“连拍”信息输入时，拍照为优选控制。

步骤S102，通过外置车辆摄像系统采集车辆外部的图像数据，进一步的进行步骤S101，将车辆外部的图像数据拼合成车辆外部全景画面的图像数据，同时将全景画面的图像数据进行缓存，且缓存至车机系统后待处理。

步骤S103，通过内置车辆摄像系统和车机系统，根据用户的行为判断所对应的用户；通过内置车辆摄像系统和车机系统，根据用户的行为判断所对应的用户，具体地车机系统中缓存有对应用户的人脸图像信息，当用户通过语音指令、按键指令或手势指令行为控制车机系统时，通过内置车辆摄像系统获取当前的用户的图像信息，与缓存的用户的人脸图像信息比对，以判断所对应的用户。

步骤S104，通过内置车辆摄像系统确定对应的用户视线方向；通过内置车辆摄像系统确定用户视线方向，具体地，基于内置车辆摄像系统生成用户图像，将用户图像利用人形目标检测找到识别用户的面部轮廓方向、眼部眼睛的聚焦方位或身体朝向；其中，获取用户头部轮廓方向中的头部朝向，根据头部朝向确定用户的视线方向；或者，获取用户的眼睛的聚焦方位，根据眼睛的聚焦方位确定视线方向；或者，获取用户的头部朝向和眼睛的聚焦方位，根据头部朝向和眼睛的聚焦方位确定视线方向。

步骤S105，基于用户为中心构造出俯视状态下的圆形全景画布，得到预设焦距下视线轮廓线的标注信息数据。

步骤S106，提取全景画面的图像数据，根据视线轮廓线的标注信息数据，形成对应的图像裁剪框，在全景画面的图像数据上进行裁剪；结合上述步骤S105通过内置车辆摄像系统确定对应的用户视线方向，同时生成用户视线方向范围内的图像数据，具体如下：

基于用户为中心构造出俯视状态下的圆形全景画布，根据用户视线方向在圆形全景画布上标注出用户视线方向中的视线轮廓线，同时得到预设焦距下视线轮廓线的标注信息数据；提取全景画面的图像数据，根据视线轮廓线的标注信息数据，形成对应的图像裁剪框，在全景画面的图像数据上进行裁剪。

步骤S107，生成用户视线方向范围内的图像数据。

本实施例基于上述获取用户的眼睛的聚焦方位，根据眼睛的聚焦方位确定视线方向，具体地获取眼睛的聚焦方位，将眼部图像输入视线估计模型，得到视线向量，视线估计模型为根据样本眼部图像，以及与样本眼部图像对应的轮廓标注信息和标注向量训练神经网络模型得到，轮廓标注信息包括眼部轮廓和瞳孔轮廓；视线估计模型通过以下步骤获得：获取样本集，样本集包括样本眼部图像，以及与样本眼部图像对应的轮廓标注信息以及标注向量，轮廓标注信息包括眼部轮廓以及瞳孔轮廓；将样本眼部图像输入神经网络模型，输出与样本眼部图像对应的热图，以及与样本眼部图像对应的视线向量；根据轮廓标注信息和热图之间的第一损失，以及标注向量和视线向量之间的第二损失训练神经网络模型，得到视线估计模型。

本实施例优选地，还包括基于生成的图像眼神取景的结果图像数据，用户通过控制车机系统将呈现的图像眼神取景的结果图像进行调整，调整包括放大、缩小或移动。

本实施例此外，生成图像眼神取景的结果图像数据后，通过车机系统的显示设备进行实时显示，同时车机系统提供存储指令选择，用户根据存储指令选择后进行保存。

基于上述实施例需要说明的是，上述实施例针对的是眼神取景的操作方法，可以理解的是本实施例的眼神取景可替换为手势识别，即通过内置车辆摄像系统的图像识别，根据手势指引的方向生成对应的结果图像数据；或者替换为语音指令取景，通过车机系统相关的音频设备和语音识别处理技术完成语音识别，根据带有方位的指令，如车左边，车前面等方位指令生成对应的结果图像数据，进一步说明如下：

手势模式取景服务是通过内置车辆摄像系统确定对应的用户手势指引的方向，同时生成用户手势指引范围内的图像数据，即基于上述车机系统中缓存的全景画面的图像数据，以用户手势指引方向为中心，分割全景状态下用户的手势指引方向范围，根据手势指引方向范围将全景画面的图像数据进行裁剪，生成手势图像取景的结果图像数据并呈现；

语音模式取景服务是通过车机系统中的语音识别确定对应的用户语音信息，语音信息为语音取景方位的指令信息，根据语音取景方位的指令信息生成语音取景方位范围内的图像数据，即基于上述车机系统中缓存的全景画面的图像数据，以用户语音信息指引方向为中心，分割全景状态下用户的语音信息指引方向范围，根据语音信息指引方向范围将全景画面的图像数据进行裁剪，生成语音信息图像取景的结果图像数据并呈现。

参照图5，为本发明的第二个实施例，该实施例提供了一种汽车摄像的图像多模态取景系统，包括：

图像获取模块1101，用户获取内置车辆摄像系统和多个外置车辆摄像系统的图像信息；

取景行为判断模块1102，用于判断用户发出取景行为控制时，所对应的多模态取景服务；

图像处理模块1103，用于根据多模态取景服务生成对应的结果图像数据；

控制模块1104，用于车辆摄像系统、多个外置车辆摄像系统和车机系统的控制；

语音处理模块1105，用于对用户输入语音信息的分析处理。

参照图3，为本发明的第二个实施例，提供了该汽车摄像的图像眼神取景系统的应用场景，包括车机系统10、外置车辆摄像系统101、内置车辆摄像系统102、和中控系统103，其中，通过外置车辆摄像系统101采集车辆外部的图像数据，内置车辆摄像系统102用于判断用户和检测用户在发出摄像指令后的具体姿态，车机系统10作为本实施例中汽车摄像的图像多模态取景系统的载体，还包括处理器和存储器等，用于外置车辆摄像系统101、内置车辆摄像系统102和中控系统103之间的控制，即交互应用，同时中控系统103主要用于生成图像后的显示。

参照图4，为本发明的第二个实施例，提供了外置于车辆外部的多个外置车辆摄像系统101的分布，呈环形分布多个以能够拍摄全景图片；内置于车辆内部的一个内置车辆摄像系统102，用于判断用户和检测用户在发出摄像指令后，以及启动多模态取景服务后的手势和眼神的具体姿态；该车机系统10完成外置车辆摄像系统101、内置车辆摄像系统102和中控系统103之间的控制、交互与应用。

综上所述，可知本发明在车辆图像取景时通过获取车内用户的当前行为状态，通过图像识别或语音识别技术进行多模态取景操作，根据手势、语音、身体的姿态、面部朝向，以及目视方向，分析用户多模态取景操作的当前行为信息，进而进行范围内的拍摄与取景，即智能自动化的分割出用户当前行为状态下对应的车外画面图像，进而避免了用户手动取景的繁琐和行车危险，提高了用户驾驶感受，有利于在智能车机中应用推广。

应当理解，本主题可以通过许多不同的形式体现且不应解释为仅限于本文所阐述的实施例。实际上，提供这些实施例是为了使本主题透彻和完整，并将本主题充分传达给本领域技术人员。事实上，本主题旨在涵盖包括在由所附权利要求书定义的本主题的范围和精神内的这些实施例的替代物、修改和等同物。另外，在本主题的以下详细描述中，阐述了许多具体细节，以便提供对本主题的透彻理解。但是，本领域的普通技术人员将清楚，可以在没有这些具体细节的情况下实践本主题。

本文结合本申请实施例提供的方法、装置(系统)和计算机程序产品的流程图和/或框图来描述本申请的各方面。应当理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器以形成机器，使得通过计算机或其它可编程指令执行装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的机制。

非瞬时性计算机可读介质包括所有类型的计算机可读介质，包括磁存储介质、光存储介质和固态存储介质，具体不包括信号。应当理解，软件可以安装在设备中并随设备一同出售。可选地，可以获取软件并将其装载到设备中，包括通过光盘介质或任何形式的网络或分配系统获取软件，包括(例如)从软件创作者拥有的服务器或从软件创作者未拥有但使用的服务器获取软件。例如，可以将软件存储在服务器上，以便通过互联网分布。

一个或多个计算机可读存储介质不包括传播的信号本身，可以由计算机和/或一个或多个处理器访问，并包括可移动和/或不可移动的易失性和非易失性内部和/或外部介质。对于计算机，各种类型的存储介质适于以任何适当的数字格式存储数据。本领域技术人员应当理解，可以使用其它类型的计算机可读介质，例如zip驱动器、固态驱动器、磁带、闪存卡、闪存驱动器、盒式磁带等，用于存储用于执行所公开架构的新方法(行为)的计算机可执行指令。

本文中所用的术语仅仅是出于描述特定方面的目的，并且并不意图限制本申请。除非上下文清楚说明，否则本文所用的单数形式“一”和“所述”也旨在包括复数形式。应进一步理解，本说明书中所用的术语“包括”说明存在所述特征、整数、步骤、操作、元件和/或部件，但并不排除存在或添加一个或多个其它特征、整数、步骤、操作、元件、部件和/或它们的组合。

出于说明和描述的目的呈现对本申请的描述，但不旨在按照所公开形式对本申请穷举或限于本申请。在不偏离本申请的范围和精神的情况下，许多修改和改变对本领域的普通技术人员而言是显而易见的。选择和描述本申请的各个方面以便更好地解释本申请的原理和实际应用，并且使本领域的普通技术人员能够以适合于预期的特定用途的各种修改来理解本申请。

出于本文档的目的，与所公开的技术相关联的每个过程可以连续地且由一个或多个计算设备执行。过程中的每个步骤可以由与其它步骤中使用的计算设备相同或不同的计算设备执行，并且每个步骤不一定由单个计算设备执行。

尽管已经以特定于结构特征和/或方法动作的语言描述了主题，但是应当理解，所附权利要求书中定义的主题不必限于上文描述的具体特征或动作。实际上，公开上述具体特征和动作作为实现权利要求的示例形式。

Claims

1.一种汽车摄像的图像多模态取景方法，包括外置于车辆外部的多个外置车辆摄像系统、内置于车辆内部的至少一个内置车辆摄像系统和车机系统，其特征在于，包括以下步骤：至少一个用户通过行为控制车机系统启动多模态取景服务触发拍摄功能，即通过外置车辆摄像系统采集车辆外部的图像数据，将车辆外部的图像数据拼合成车辆外部全景画面的图像数据，具体地，基于用户为中心构造出俯视状态下的圆形全景画布，根据用户视线方向在圆形全景画布上标注出所述用户视线方向中的视线轮廓线，同时得到预设焦距下视线轮廓线的标注信息数据，提取全景画面的图像数据，根据视线轮廓线的标注信息数据，形成对应的图像裁剪框，在全景画面的图像数据上进行裁剪；同时将全景画面的图像数据进行缓存，且缓存至车机系统后待处理；

用户基于内置车辆摄像系统的图像识别或车机系统中的语音识别进行多模态取景，所述多模态取景是在启动多模态取景服务后的预设时间内，根据所述图像识别或语音识别确定用户当前取景行为，并基于对应的所述用户当前取景行为，在缓存的全景画面的图像数据上进行生成对应的结果图像数据；所述多模态取景包括根据眼神模式取景服务、手势模式取景服务以及语音模式取景服务；

其中，所述眼神模式取景服务是通过内置车辆摄像系统确定对应的用户视线方向，具体地基于内置车辆摄像系统生成用户图像，将用户图像利用人形目标检测找到识别用户的面部轮廓方向、眼部眼睛的聚焦方位或身体朝向，获取所述用户的眼睛的聚焦方位，根据所述眼睛的聚焦方位确定所述视线方向，具体地获取所述眼睛的聚焦方位，将眼部图像输入视线估计模型，得到视线向量，所述视线估计模型为根据样本眼部图像，以及与所述样本眼部图像对应的轮廓标注信息和标注向量训练神经网络模型得到，所述轮廓标注信息包括眼部轮廓和瞳孔轮廓；同时生成所述用户视线方向范围内的图像数据，即基于上述车机系统中缓存的全景画面的图像数据，以所述用户视线方向为中心，分割全景状态下用户的视线方向范围，根据视线方向范围将全景画面的图像数据进行裁剪，生成眼神图像取景的结果图像数据并呈现；

所述语音模式取景服务是通过车机系统中的语音识别确定对应的用户语音信息，语音信息为语音取景方位的指令信息，根据所述语音取景方位的指令信息生成语音取景方位范围内的图像数据，即基于上述车机系统中缓存的全景画面的图像数据，以所述用户语音信息指引方向为中心，分割全景状态下用户的语音信息指引方向范围，根据语音信息指引方向范围将全景画面的图像数据进行裁剪，生成语音信息图像取景的结果图像数据并呈现；

所述基于内置车辆摄像系统生成用户图像，将用户图像利用人形目标检测找到识别用户的面部轮廓方向、眼部眼睛的聚焦方位或身体朝向，具体如下：

获取所述用户头部轮廓方向中的头部朝向，根据所述头部朝向确定用户的视线方向；

或者，获取所述用户的头部朝向和眼睛的聚焦方位，根据所述头部朝向和眼睛的聚焦方位确定所述视线方向；

所述视线估计模型通过以下步骤获得：

获取样本集，所述样本集包括样本眼部图像，以及与所述样本眼部图像对应的轮廓标注信息以及标注向量，所述轮廓标注信息包括眼部轮廓以及瞳孔轮廓；将所述样本眼部图像输入神经网络模型，输出与所述样本眼部图像对应的热图，以及与所述样本眼部图像对应的视线向量；根据所述轮廓标注信息和所述热图之间的第一损失，以及所述标注向量和所述视线向量之间的第二损失训练神经网络模型，得到所述视线估计模型；

用户通过行为控制车机系统启动图像眼神模式取景服务触发拍摄功能，所述行为包括语音指令、按键指令或手势指令，每个所述行为中均包括拍摄功能选择行为；所述拍摄功能包括拍照、录像或连拍其中的一种，所述拍摄功能根据用户相应行为中所述的拍摄功能选择行为，进行选择；

通过内置车辆摄像系统和车机系统，根据用户的行为判断所对应的用户，具体地车机系统中缓存有对应用户的人脸图像信息，当用户通过语音指令、按键指令或手势指令行为控制车机系统时，通过内置车辆摄像系统获取当前的用户的图像信息，与缓存的用户的人脸图像信息比对，以判断所对应的用户；

还包括基于生成的图像眼神取景的结果图像数据，用户通过控制车机系统将呈现的图像眼神取景的结果图像进行调整，调整包括放大、缩小或移动。

2.如权利要求1所述的一种汽车摄像的图像多模态取景方法，其特征在于，生成图像眼神取景的结果图像数据后，通过车机系统的显示设备进行实时显示，同时车机系统提供存储指令选择，用户根据存储指令选择后进行保存。

3.一种汽车摄像的图像多模态取景系统，应用于如权利要求1所述的一种汽车摄像的图像多模态取景方法，其特征在于，包括：

图像获取模块，用户获取内置车辆摄像系统和多个外置车辆摄像系统的图像信息；取景行为判断模块，用于判断用户发出取景行为控制时，所对应的多模态取景服务；

图像处理模块，用于根据多模态取景服务生成对应的结果图像数据；

语音处理模块，用于对用户输入语音信息的分析处理。