CN114173061B

CN114173061B - 一种多模态摄像控制方法、装置、计算机设备及存储介质

Info

Publication number: CN114173061B
Application number: CN202111520486.8A
Authority: CN
Inventors: 王军锋
Original assignee: Shenzhen Wondershare Software Co Ltd
Current assignee: Shenzhen Wondershare Software Co Ltd
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2023-09-29
Anticipated expiration: 2041-12-13
Also published as: CN114173061A

Abstract

本发明公开了一种多模态摄像控制方法、装置、计算机设备及存储介质。该方法包括：捕捉用户的参数调节语音指令，并基于所述参数调节语音指令，判断是否进入参数调节模式；若不进入参数调节模式，则直接捕捉用户的眼睛注视点，并基于当前眼睛注视点，确定摄像焦点区域并拍摄；若进入参数调节模式，则继续接收用户的语音执行指令，并基于所述语音执行指令对参数进行相应的调节；在参数调节完成后，利用表情识别模型识别用户面部表情，在用户面部表情符合预设的面部表情阈值后，确定摄像焦点区域并拍摄。该方法通过捕捉用户的参数调节语音指令，自动对摄像终端进行参数调整，使用户在不方便用手调整的状态下，也能够实现对人脸的拍摄。

Description

一种多模态摄像控制方法、装置、计算机设备及存储介质

技术领域

本发明涉及人脸识别领域，尤其涉及一种多模态摄像控制方法、装置、计算机设备及存储介质。

背景技术

人在摄像的过程中需要同时用到手和眼睛，即根据眼睛观察到的图像，评估图像和自己所想要的目标画面的差距，然后用手操控摄像机，调整相关参数以获得自己想要的画面效果。当人手被占用，执行其他操作时，就无法用手操作摄像机，如按下开关按钮，拨动调节焦距的挡杆等，也就无法拍摄画面。

发明内容

本发明的目的是提供一种多模态摄像控制方法、装置、计算机设备及存储介质，旨在解决在人手被占用的场景下，无法对摄像终端进行操作的问题。

为解决上述技术问题，本发明的目的是通过以下技术方案实现的：提供一种多模态摄像控制方法，其包括：

捕捉用户的参数调节语音指令，并基于所述参数调节语音指令，判断是否进入参数调节模式；

若不进入参数调节模式，则直接捕捉用户的眼睛注视点，并基于当前眼睛注视点，确定摄像焦点区域并拍摄；

若进入参数调节模式，则继续接收用户的语音执行指令，并基于所述语音执行指令对参数进行相应的调节；

在参数调节完成后，利用表情识别模型识别用户面部表情，在用户面部表情符合预设的面部表情阈值后，确定摄像焦点区域并拍摄。

另外，本发明要解决的技术问题是还在于提供一种多模态摄像控制装置，其包括：

捕捉单元，用于捕捉用户的参数调节语音指令，并基于所述参数调节语音指令，判断是否进入参数调节模式；

判断一单元，用于若不进入参数调节模式，则直接捕捉用户的眼睛注视点，并基于当前眼睛注视点，确定摄像焦点区域并拍摄；

判断二单元，用于若进入参数调节模式，则继续接收用户的语音执行指令，并基于所述语音执行指令对参数进行相应的调节；

确定单元，用于在参数调节完成后，利用表情识别模型识别用户面部表情，在用户面部表情符合预设的面部表情阈值后，确定摄像焦点区域并拍摄。

另外，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的多模态摄像控制方法。

另外，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的多模态摄像控制方法。

本发明实施例公开了一种多模态摄像控制方法、装置、计算机设备及存储介质，其中，方法包括：捕捉用户的参数调节语音指令，并基于所述参数调节语音指令，判断是否进入参数调节模式；若不进入参数调节模式，则直接捕捉用户的眼睛注视点，并基于当前眼睛注视点，确定摄像焦点区域并拍摄；若进入参数调节模式，则继续接收用户的语音执行指令，并基于所述语音执行指令对参数进行相应的调节；在参数调节完成后，利用表情识别模型识别用户面部表情，在用户面部表情符合预设的面部表情阈值后，确定摄像焦点区域并拍摄。该方法通过捕捉用户的参数调节语音指令，自动对摄像终端进行参数调整，使用户在不方便用手调整的状态下，也能够实现对人脸的拍摄。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的多模态摄像控制方法的结构示意图；

图2为本发明实施例提供的多模态摄像控制装置的示意性框图；

图3为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本发明实施例提供的多模态摄像控制方法的结构示意图；

如图1所示，该方法包括步骤S101～S104。

S101、捕捉用户的参数调节语音指令，并基于所述参数调节语音指令，判断是否进入参数调节模式；若不进入参数调节模式，则执行步骤S102，若进入参数调节模式，则执行步骤S103；

S102、捕捉用户的眼睛注视点，并基于当前眼睛注视点，确定摄像焦点区域并拍摄；

S103、继续接收用户的语音执行指令，并基于所述语音执行指令对参数进行相应的调节，并进入下一步骤；

S104、利用表情识别模型识别用户面部表情，若用户面部表情符合预设的面部表情阈值，则执行步骤S102，若用户面部表情不符合预设的面部表情阈值，则返回步骤S103。

在本实施例中，在用户双手被占用的情况下，本申请能够自动调整摄像终端的参数，以快速完成人脸的拍摄，具体的，通过摄像终端捕捉用户的参数调节语音指令，例如“请进入参数调节模式”等，根据参数调节语音指令判断是否进入参数调节模式，若不需要进行参数调整，说明此时摄像终端能够顺利拍摄清楚用户的人脸，可直接对人脸进行拍摄，而假如用户根据画面显示发现人脸画面效果较差，即摄像终端不能够拍摄清楚用户的人脸，所以需要进入参数调整模式，进而对摄像终端进行设备参数的调整，需要说明的是，本申请的摄像终端包括但不局限于摄像机、眼镜式眼动仪、声音传感器，眼镜式眼动仪朝向用户面部，用于捕捉用户眼镜的注视焦点；声音传感器安装在眼镜式眼动仪上，用于捕捉用户语音指令，摄像机安装在眼镜式眼动仪上，用于捕捉用户表情信号。

在参数调整完成后，用户根据摄像终端显示的画面效果，会出现表情变化，例如变的高兴、惊喜、厌恶、恐惧以及中立等等表情，此时摄像终端利用表情识别模型识别用户面部表情，若用户面部表情符合预设的面部表情阈值，则说明用户对当前的画面效果满意，故可以进行拍摄，反之，则说明用户对当前的画面效果不满意，需要重新进行参数调整，通过本申请多模态摄像控制方法可以实现语音控制摄像终端进行参数调整，进而在用户双手被占用的情况下，拍摄出符合用户心理预期的人像图片。

在一实施例中，所述步骤S103之前，包括：

S10、停止捕捉用户的眼睛注视点，并在显示器上显示当前的参数，其中，所述参数包括摄像机的焦距数值、光圈数值以及感光度数值。

由于处于进入参数调节模式，则摄像终端不需要再继续捕捉用户的眼睛注视点，而为了方便用户了解摄像终端的当前参数，将摄像终端的当前参数显示在显示屏上，需要注意的是，参数包括但不局限于摄像机的焦距数值、光圈数值以及感光度数值，根据实际需要，也可以增加其他摄像终端的设备参数，本申请不作具体限定。

在一实施例中，所述步骤S103，包括以下步骤：

S20、接收当前的语音执行指令，并将语音执行指令发送至云端，使所述云端判断当前的语音执行命令是否出现关键词，若当前的语音执行命令出现关键词，则基于关键词返回对应的调整指令；

S21、基于所述调整指令对相应的参数进行调整，并显示在所述显示器上。

具体的，云端在接收到语音执行指令后，从预设的语音数据库中调取所有的语音信息，其中每一语音信息均不同，例如提前录入的“焦距”、“光圈”以及“感光度”等等语音信息，将每一语音信息分别与语音执行指令进行比对，若有语音信息与语音执行指令中的个别语音相似程度超过相似阈值，则判定语音执行指令包含特定的语音信息，并获取该语音信息在语音执行指令中出现的位置之后的数字，将带有该数字的调整指令返回至摄像终端，摄像终端基于返回的调整指令对相应的参数进行调整，例如摄像终端捕捉的用户的语音执行指令为“进入参数调节模式”，则进入参数调节模式，摄像终端继续捕捉到用户的语音执行指令为“将焦距增加至A”后，摄像终端将“将焦距增加至A”的语音执行指令输入至云端，云端识别出该语音执行指令是调整“焦距”，且获取的数值为“A”后，返回相应的调整指令至摄像终端，摄像终端将当前的焦距参数调整至数值A。

在一实施例中，所述步骤S104，包括：

S30、基于预设的面部扫描识别频率对人脸进行捕捉，得到当前的人脸图像；

S31、利用表情识别模型对当前的所述人脸图像进行识别，根据正面表情、负面表情以及中立表情的识别结果进行权重投票，若权重投票结果大于预设的面部表情阈值，则执行步骤S102，若权重投票结果小于预设的面部表情阈值，则执行步骤S103；

在本实施例中，例如按照1秒1次的面部扫描识别频率对人脸进行捕捉，得到当前的人脸图像，利用表情识别模型对当前的所述人脸图像进行识别，其中，表情识别模型的训练方法如下：采集用户根据预设拍摄要求拍摄的不同表情的样本图片，其中，所述拍摄要求为人脸正视摄像头，并使得人脸处于照片的正中间；

对所有的样本图片进行灰度值处理以及中值滤波处理，对处理后的每一样本图片的进行特征框选，提取得到额头特征、眼睛特征以及嘴巴特征；

对同一样本图片的额头特征、眼睛特征以及嘴巴特征进行组合，形成标签图像；

将各标签图像输入预先训练好的表情识别模型进行识别归类，得到三类识别结果如下：正面表情、负面表情以及中立表情；

将分类好的样本图片输入至表情数据库中进行存储。

在一具体实施例中，将所述正面表情的占比设置为50％～60％，即正面表情占正面表情、中立表情以及负面表情三者之和的50％～60％，更具体的，正面表情权重最高、中立表情权重其次，负面表情权重最小，通过这样的设计，可以调整摄像终端的灵敏度，使得正面表情认定为“主导”，从而提高识别精确度；其中，正面表情可以用嘴角翘起等特征定义，中立表情可以用面无表情等定义，负面表情可以用皱眉、嘴角下弯等定义。

其中，表情识别模型由1个输入层、3个卷积层、1个池化层、1个全连接层组成，具体的，将标签图像输入至输入层，得到表征标签图像的特征向量；3个卷积层分别为第一卷积层、第二卷积层和第三卷积层，其中，将表征标签图像的特征向量分别输入第一卷积层和第二卷积层，分别得到全局标签空间特征和无效标签特征，将全局标签空间特征和无效标签特征进行特征相加融合，并将融合后的特征向量输入至第三卷积层，得到局部表情空间特征，利用激活函数对局部表情空间特征进行激活，并将激活后的局部表情空间特征输入至池化层进行池化，最后通过全连接层输出，得到正面表情、负面表情以及中立表情的概率。

本申请先通过第一卷积层得到全局标签空间特征，初步将人脸五官划分特征划分出来，而通过第二卷积层得到无效标签特征，例如头发、耳朵、脖子等；将全局标签空间特征和无效标签特征进行融合，有利于第三卷积层对表情的细节进行分类，将融合后的特征输入至第三卷积层，以明确五官的位置以及五官的细节，从而提高识别准确率。

在一实施例中，所述步骤S31包括：

S40、从所述表情数据库中调取所有的样本图片，将当前的所述人脸图像与每一样本图片进行特征比对，并得到对应的比对结果。

在本实施例中，从表情数据库中调取所有已经分类好的样本图片，将当前拍摄的人脸图像与每一样本图片进行特征比对，例如分别对眼睛的眼角特征、嘴巴的嘴角特征、额头的皱纹特征进行比对，若是当前的人脸图像与表情数据库中某一样本图片匹配成功，则判定用户此时属于该样本图片所代表的表情类别，若是当前的人脸图像与表情数据库中某一样本图片匹配失败，则将匹配失败的信息显示在显示屏上，用户在看到匹配失败的信息后，也就意味着此时画面拍摄效果差，需要重新进行参数调整。

例如当前的人脸图像中嘴角上扬，这一特征与其中一个样本图片符合，则说明当前拍摄的人脸图像达到用户的预期，此时用户表情为正向情绪主导，则停止参数调节，继续拍摄画面，相反的，当前拍摄的人脸图像达不到用户的预期时，在面部总会出现负向情绪例如厌恶、恐惧、愤怒以及悲伤等，需要说明的是，由于摄像终端与用户之间的距离，使得用户脸部即使有微小的变化，也是可以被拍摄到的，在当前的人脸图像比对结果是负向表情占据主导地位时，则认为依然没有达到用户的预期。通过这种方式，不断调整摄像终端的设备参数，使得拍摄出用户变为正向情绪为主导，即可拍摄出符合用户要求的人脸图像。

更优的，所述步骤S101之前，还包括：

S50、捕捉用户的唤醒指令，并基于所述唤醒指令，启动所述摄像终端的摄像程序；

在本实施例中，唤醒指令例如是“B，B请开机”等自定义语音，通过这种方式，避免摄像终端一直处于拍摄状态，导致能源浪费，以及降低摄像终端的使用寿命的情况。

更优的，所述步骤S102之后，还包括：

S60、捕捉用户的关机语音指令，并基于所述关机语音指令对所述摄像终端进行关机。

关机语音指令例如可以是“B，B请关机”等自定义语音，进而方便用户控制摄像终端的关闭。

本发明实施例还提供一种多模态摄像控制装置，该多模态摄像控制装置用于执行前述多模态摄像控制方法的任一实施例。具体地，请参阅图2，图2是本发明实施例提供的多模态摄像控制装置的示意性框图。

如图2所示，多模态摄像控制装置500，包括：

捕捉单元501，用于捕捉用户的参数调节语音指令，并基于所述参数调节语音指令，判断是否进入参数调节模式；

判断一单元502，用于若不进入参数调节模式，则直接捕捉用户的眼睛注视点，并基于当前眼睛注视点，确定摄像焦点区域并拍摄；

判断二单元503，用于若进入参数调节模式，则继续接收用户的语音执行指令，并基于所述语音执行指令对参数进行相应的调节；

确定单元504，用于在参数调节完成后，利用表情识别模型识别用户面部表情，在用户面部表情符合预设的面部表情阈值后，确定摄像焦点区域并拍摄。

该装置可以实现语音控制摄像终端进行参数调整，进而在用户双手被占用的情况下，拍摄出符合用户心理预期的人像图片。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

上述多模态摄像控制装置可以实现为计算机程序的形式，该计算机程序可以在如图3所示的计算机设备上运行。

请参阅图3，图3是本发明实施例提供的计算机设备的示意性框图。该计算机设备1100是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图3，该计算机设备1100包括通过系统总线1101连接的处理器1102、存储器和网络接口1105，其中，存储器可以包括非易失性存储介质1103和内存储器1104。

该非易失性存储介质1103可存储操作系统11031和计算机程序11032。该计算机程序11032被执行时，可使得处理器1102执行多模态摄像控制方法。

该处理器1102用于提供计算和控制能力，支撑整个计算机设备1100的运行。

该内存储器1104为非易失性存储介质1103中的计算机程序11032的运行提供环境，该计算机程序11032被处理器1102执行时，可使得处理器1102执行多模态摄像控制方法。

该网络接口1105用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图3中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备1100的限定，具体的计算机设备1100可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域技术人员可以理解，图3中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图3所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器1102可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器1102还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本发明实施例的多模态摄像控制方法。

所述存储介质为实体的、非瞬时性的存储介质，例如可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种多模态摄像控制方法，其特征在于，包括：

在参数调节完成后，利用表情识别模型识别用户面部表情，在用户面部表情符合预设的面部表情阈值后，确定摄像焦点区域并拍摄；

其中，所述在参数调节完成后，利用表情识别模型识别用户面部表情，在用户面部表情符合预设的面部表情阈值后，确定摄像焦点区域并拍摄，包括：

基于预设的面部扫描识别频率对人脸进行捕捉，得到当前的人脸图像；

利用表情识别模型对当前的所述人脸图像进行识别，根据正面表情、负面表情以及中立表情的识别结果进行权重投票，若权重投票结果大于预设的面部表情阈值，则确定摄像焦点区域并拍摄，若权重投票结果小于预设的面部表情阈值，则返回接续接收新的语音执行指令；其中，将所述正面表情的占比设置为50％～60％；

所述利用表情识别模型对当前的所述人脸图像进行识别，包括：

将标签图像输入至输入层，得到表征标签图像的特征向量；

将所述表征标签图像的特征向量分别输入第一卷积层和第二卷积层，分别得到全局标签空间特征和无效标签特征；

将所述全局标签空间特征和无效标签特征进行特征相加融合，并将融合后的特征向量输入至第三卷积层，得到局部表情空间特征；

利用激活函数对所述局部表情空间特征进行激活，并将激活后的局部表情空间特征输入至池化层进行池化，最后通过全连接层输出，得到正面表情、负面表情以及中立表情的概率；

所述利用表情识别模型对当前的所述人脸图像进行识别，根据正面表情、负面表情以及中立表情的识别结果进行权重投票之前，包括：

采集用户根据预设拍摄要求拍摄的不同表情的样本图片，其中，所述拍摄要求为人脸正视摄像头，并使得人脸处于照片的正中间；

将各标签图像输入预先训练好的表情识别模型进行识别归类，分别得到正面表情、负面表情以及中立表情三种样本，并进行分类归纳；

将归纳后的样本图片放入至表情数据库；

从所述表情数据库中调取所有的样本图片，将当前的所述人脸图像与每一样本图片进行特征比对，并得到对应的比对结果。

2.根据权利要求1所述的多模态摄像控制方法，其特征在于，所述继续接收用户的语音执行指令，并基于所述语音执行指令对参数进行相应的调节之前，包括：

停止捕捉用户的眼睛注视点，并在显示器上显示当前的参数，其中，所述参数包括摄像机的焦距数值、光圈数值以及感光度数值。

3.根据权利要求2所述的多模态摄像控制方法，其特征在于，所述继续接收用户的语音执行指令，并基于所述语音执行指令对参数进行相应的调节，包括：

接收当前的语音执行指令，并将语音执行指令发送至云端，使所述云端判断当前的语音执行命令是否出现关键词，若当前的语音执行命令出现关键词，则基于关键词返回对应的调整指令；

基于所述调整指令对相应的参数进行调整，并显示在所述显示器上。

4.根据权利要求1所述的多模态摄像控制方法，其特征在于，所述捕捉用户的参数调节语音指令，并基于所述参数调节语音指令，判断是否进入参数调节模式之前，包括：

捕捉用户的唤醒指令，并基于所述唤醒指令，启动摄像终端的摄像程序；

在参数调节完成后，利用表情识别模型识别用户面部表情，在用户面部表情符合预设的面部表情阈值后，确定摄像焦点区域并拍摄之后，包括：

捕捉用户的关机语音指令，并基于所述关机语音指令对所述摄像终端进行关机。

5.一种多模态摄像控制装置，其特征在于，包括：

确定单元，用于在参数调节完成后，利用表情识别模型识别用户面部表情，在用户面部表情符合预设的面部表情阈值后，确定摄像焦点区域并拍摄；

其中，所述确定单元，包括：

人脸单元，用于基于预设的面部扫描识别频率对人脸进行捕捉，得到当前的人脸图像；

识别单元，用于利用表情识别模型对当前的所述人脸图像进行识别，根据正面表情、负面表情以及中立表情的识别结果进行权重投票，若权重投票结果大于预设的面部表情阈值，则确定摄像焦点区域并拍摄，若权重投票结果小于预设的面部表情阈值，则返回接续接收新的语音执行指令；其中，将所述正面表情的占比设置为50％～60％；

特征单元，用于将标签图像输入至输入层，得到表征标签图像的特征向量；

标签单元，用于将所述表征标签图像的特征向量分别输入第一卷积层和第二卷积层，分别得到全局标签空间特征和无效标签特征；

融合单元，用于将所述全局标签空间特征和无效标签特征进行特征相加融合，并将融合后的特征向量输入至第三卷积层，得到局部表情空间特征；

激活单元，用于利用激活函数对所述局部表情空间特征进行激活，并将激活后的局部表情空间特征输入至池化层进行池化，最后通过全连接层输出，得到正面表情、负面表情以及中立表情的概率；

所述识别单元之前，包括：

拍摄单元，用于采集用户根据预设拍摄要求拍摄的不同表情的样本图片，其中，所述拍摄要求为人脸正视摄像头，并使得人脸处于照片的正中间；

滤波单元，用于对所述样本图片进行灰度值处理以及中值滤波处理，对处理后的所述样本图片的进行特征框选，提取得到额头特征、眼睛特征以及嘴巴特征；

组合单元，用于对所述样本图片的额头特征、眼睛特征以及嘴巴特征进行组合，形成标签图像；

归类单元，用于将所述标签图像输入预先训练好的表情识别模型进行识别归类，分别得到正面表情、负面表情以及中立表情三种样本，并进行分类归纳；

存储单元，用于将归纳后的样本图片放入至表情数据库；

所述识别单元，包括：

6.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的多模态摄像控制方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至4任一项所述的多模态摄像控制方法。