CN111756986A

CN111756986A - 一种摄像头控制方法、存储介质、装置及具有其的电子设备

Info

Publication number: CN111756986A
Application number: CN201910240102.3A
Authority: CN
Inventors: 刘长江
Original assignee: Shanghai Pateo Electronic Equipment Manufacturing Co Ltd
Current assignee: Shanghai Pateo Electronic Equipment Manufacturing Co Ltd
Priority date: 2019-03-27
Filing date: 2019-03-27
Publication date: 2020-10-09

Abstract

本申请涉及一种摄像头控制方法、存储介质、装置及具有其的电子设备，本申请的摄像头控制方法，包括步骤：接收语音信息；对所述语音信息进行语音识别，并在语音信息包括唤醒指令时唤醒摄像头；对所述语音信息进行声纹识别，以确定发出所述唤醒指令的用户的声纹特征；识别具有所述声纹特征的语音的来源方向，并获取所述语音的来源方向与所述摄像头的指向之间的夹角；以及根据所述夹角调整摄像头的拍摄方向，以使所述摄像头的指向与所述所述语音的来源方向一致。本申请提供的控制方法、存储介质、装置及具有其的电子设备能通过语音控制摄像头旋转，可以方便应用于汽车的视频通讯装置。

Description

一种摄像头控制方法、存储介质、装置及具有其的电子设备

技术领域

本申请涉及汽车交互技术领域，具体涉及一种摄像头控制方法、存储介质、装置及具有其的电子设备。

背景技术

随着汽车技术的普及，汽车越来越成为日常生活出行的一种常用工具。

一方面，汽车是能够具有很高集成度的移动终端，生活、工作、交通、社交等都可以在这个移动终端里交汇，视频通信作为重要的通信手段，在汽车中的需求越来越凸显；另一方面，现有汽车中的视频通讯装置几乎空白。

因此，有必要提供一种视频通讯装置，以满足汽车技术在这方面的空白，提升用车体验。

发明内容

本申请的目的在于提供一种摄像头控制方法、存储介质、装置及具有其的电子设备，以提供一种能应用于汽车的视频通讯装置。

本申请首先提供一种摄像头控制方法，包括步骤：接收语音信息；对所述语音信息进行语音识别，并在语音信息包括唤醒指令时唤醒摄像头；对所述语音信息进行声纹识别，以确定发出所述唤醒指令的用户的声纹特征；识别具有所述声纹特征的语音的来源方向，并获取所述语音的来源方向与所述摄像头的指向之间的夹角；以及根据所述夹角调整摄像头的拍摄方向，以使所述摄像头的指向与所述所述语音的来源方向一致。

进一步地，所述唤醒指令为含有预设内容的语音指令。

进一步地，识别具有所述声纹特征的语音的来源方向，并获取所述语音的来源方向与所述摄像头的指向之间的夹角还包括：获取具有所述声纹特征的语音的初始方向，以得到所述语音的初始方向；根据与所述初始方向对应的麦克风采集到的所述语音的响度和混响，确定所述语音的来源方向；获取所述语音的来源方向与所述摄像头的指向之间的夹角。

进一步地，所述方法还包括：提供若干个麦克风，以接收语音信息；识别具有所述声纹特征的语音的来源方向，以初步确定所述语音的来源方向；根据不同位置的麦克风采集到的语音的响度和混响，确定所述语音的来源方向。

进一步地，所述方法还包括：唤醒所述摄像头后，控制推拉模块模块推出所述摄像头。

进一步地，所述方法还包括步骤：在所述摄像头的指向与所述所述语音的来源方向一致后，展示用户可以开始视频的通知信息。

进一步地，所述所述摄像头的指向与所述所述语音的来源方向一致，是指语言来源方向与摄像头的透镜垂直，或者用户的面部朝向所述摄像头的透镜。

本申请还提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时，实现上述任一项所述的摄像头控制方法。

本申请再提供一种摄像头控制装置，包括拾音模块、摄像头唤醒模块、声纹识别模块、语音来源方向判断模块、控制模块。拾音模块用于接收语音信息。摄像头唤醒模块用于对所述语音信息进行语音识别，并在语音信息包括唤醒指令时唤醒摄像头。声纹识别模块用于对所述语音信息进行声纹识别，以确定发出所述唤醒指令的用户的声纹特征。语音来源方向判断模块，用于识别具有所述声纹特征的语音的来源方向，并获取所述语音的来源方向与所述摄像头的指向之间的夹角。控制模块根据所述夹角调整摄像头拍摄方向，以使所述摄像头的指向与所述所述语音的来源方向一致。

本申请又提供一种电子设备，所述电子设备具有上述摄像头控制装置。

本申请的摄像头控制方法、存储介质、装置对语音信息进行声纹识别，以确定发出唤醒指令的用户的声纹特征，并识别具有此声纹特征的语音的来源方向后，根据语音的来源方向控制摄像头进行转动，使得摄像头可按照声纹的来源方向自动进行转动，避免了手动的麻烦，而且由于直接根据声纹特征进行识别，能准确的获取语音的来源方向，准确性高。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1为本申请的应用场景示意图。

图2为本申请的摄像头控制方法的一个实施例的流程示意图。

图3为本申请的摄像头控制方法的另一个实施例的流程示意图。

图4为本申请的摄像头控制装置的一个实施例的方框示意图。

具体实施方式

为更进一步阐述本申请为达成预定申请目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本申请的摄像头控制方法、存储介质、装置及具有其的电子设备的具体步骤、结构、特征和效果，详细说明如下。

有关本申请的前述及其它技术内容、特点及功效,在以下配合参考图式的较佳实施例的详细说明中将可清楚呈现。通过具体实施方式的说明,当可对本申请为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解，然而所附图式仅是提供参考与说明之用,并非用来对本申请加以限制。

本申请提供的摄像头控制方法可应用于例如车载终端、移动终端等电子装置700。图1为本申请提供的摄像头控制方法的应用场景。图2为本申请的摄像头控制方法的一个实施例的流程示意图。

请同时参考图1及图2。本实施例提供的摄像头控制方法，包括：

步骤S201，接收语音信息；

具体地，在一实施例中，提供用于采集语音信息的若干个麦克风，例如若干个麦克风或麦克风阵列，作为拾音装置，安装于要进行图像采集例如视频的空间内，例如安装于汽车的车厢内。在另一实施例中，还可以通过随身携带的终端例如手机中的麦克风作为拾音装置。

更具体地，在一实施例中，在摄像头控制方法应用于车载终端时，为了获得较好的声音接收效果，麦克风可以安装于车顶棚，车顶棚上设有开孔，麦克风的前盖和后盖通过一侧带有凸出边的方孔扣合在车顶棚上，从而将麦克风主体安装在车顶棚上，避免麦克风发生晃动和移位现象，克服麦克风主体接收声音不佳的缺陷，保证麦克风的声音接收效果。开孔一侧具有凸出边，配合三个卡扣，固定麦克风，以保证麦克风的装配位置统一，最终确保麦克风主体正对车内人员例如驾驶员，以达到接收驾驶员声音的最佳效果。

步骤S203，对语音信息进行语音识别，并在语音信息包括唤醒指令时唤醒摄像头；

具体地，在一个实施例中，语音识别是指识别语音的内容,即识别语音表达的文字，例如，识别语音内容中是否包括“我要视频”或“开启视频”的语句。唤醒指令为含有预设内容的语音指令，可以是预设的语句或预约的关键词等，例如是“我要视频”或“开启视频”或“嘟嘟嘟”这些语句。可以通过电脑自动将人类的语音内容转换为相应的文字。在另一个实施例中，唤醒指令为含有预设内容的语音指令，可以是预设的语句或预约的关键词等，例如是“我要视频”或“开启视频”或“嘟嘟嘟”这些语句，或表达这些含义的语句等。

进一步地，在另一实施例中，若接收到的语音信息采用的语言不同于预设的语言，例如预设的语言是中文，而接收到的语音信息使用的语言是法文，德文，英文等，则进行语义识别，以确定接收到的语音信息是否包括预设内容的唤醒指令，例如语句是否包括“我要视频”或“开启视频”这些含义等。

对摄像头而言，优选地，摄像头连接有推拉模块。唤醒摄像头后，即控制推拉模块推出摄像头。在一实施例中，推拉模块包括安装摄像头的支架、电机和推拉杆；电机设置有螺纹杆，推拉杆第一端设置有与螺纹杆相配合的螺纹管，螺纹管套设于螺纹杆上，推拉杆第二端与支架连接；电机驱动时，螺纹杆转动，并带动推拉杆沿螺纹杆前进或后退，推拉杆带动支架移动，使摄像头伸出或拉回。

步骤S205，对语音信息进行声纹识别，以确定发出唤醒指令的用户的声纹特征；

声纹识别用于识别说话人的身份，又称说话人识别，是生物识别技术的一种。在本申请的一实施例中，声纹识别是从同一个人的语声中选择多个相同字、词或句的语图，在分析比较中抓住其稳定而特殊的特征作为依据。

步骤S207，识别具有声纹特征的语音的来源方向，并获取语音的来源方向与摄像头的指向之间的夹角，摄像头的指向是指与摄像头的透镜垂直的方向。

具体地，在一实施例中，判断语音来源方向的过程包括两个阶段：识别具有声纹特征的语音的来源方向，以初步确定语音的来源方向；根据不同位置的麦克风采集到的语音的响度和混响，确定语音的来源方向。

更具体地，在另一实施例中，进一步根据与初始方向对应的麦克风采集到的语音的响度和混响，确定语音的来源方向，例如将响度最大时的麦克风所在的方向确定为语音的来源方向，以更准确的确定语音来源方向。

更具体地，在又一实施例中，通过麦克风阵列获得至少两路声音信号，进而通过至少两路声音信号的方向交叉点，确定声源的位置，包括声源的方向和距离。通过信号放大处理有助于更准确的识别声音信号，得到的声音信息也更准确。

根据以上所获得的更精确的语音的来源方向，确定语音的来源方向与摄像头的指向之间的夹角。

步骤S209，根据夹角调整摄像头拍摄方向，以使摄像头的指向与所述所述语音的来源方向一致。

优选地，本申请的摄像头能够旋转，例如可实现全方位旋转。例如在本申请一实施例中，摄像头的结构设置为：摄像头设置在一个旋转座上，该旋转座是一个底座的一部分；旋转座的一端用于固定摄像头，另一端通过连接轴与第一电机的输出轴连接，旋转座的上部为固定架，摄像头通过转轴固定在固定架上，转轴由第二电机驱动。

具体地，在一实施例中，在所述摄像头的指向与所述所述语音的来源方向一致后，展示用户可以开始视频的通知信息。更具体地，摄像头的指向与所述所述语音的来源方向一致，是指语音来源方向与摄像头的透镜垂直，或者摄像头捕捉到用户的面部特征时。在另一实施例中，摄像头在被唤醒后，即展示用户可以开始视频的通知信息，例如语音提示可以开始视频；在又一实施例中，也可以直接根据语音信息开启视频等等。

上述参考图2，对本申请的摄像头控制方法的一个实施例进行了阐释。下面结合图3，对本申请的摄像头控制方法的另一个实施例进行说明。

如图3所示：

于步骤S401，使车机处于开启状态接收开启指令后进行开机操作；

于步骤S402，接收车内人员发出的语音信息，并对语音信息进行语音识别，以确定语音信息包括唤醒指令；

具体地，语音信息例如可以是“我要视频”或“开启视频”；

若包括，则转向步骤S403，否则继续接收车内人员发出的语音信息；

于步骤S403，判断是否识别到发出唤醒指令的用户的声纹特征，若是，转向步骤S405,否则经过步骤S404转回步骤S402；

具体地，可以对语音信息进行语义识别和声纹识别，以确定发出唤醒指令的用户的声纹特征；

于步骤S404，进行错误处理；

具体地，错误处理可以但不限于包括输出错误提示信息，比如播放：“我没有听清楚，请你再说一次吧”等等；

于步骤S405，唤醒摄像头，并展示可以开始视频的通知信息；

具体地，可以开始视频的通知信息例如可以为“主人，我已准备好，你可以开始视频咯”；

于步骤S406，识别具有声纹特征的语音的来源方向，计算摄像头需转向的角度；

具体地，对语音信息进行语义识别和声纹识别，以确定发出唤醒指令的用户的声纹特征，据此计算摄像头需转向的角度，例如根据语音的来源方向与目前摄像头正对的方向的夹角，计算摄像头需转向的角度；

于步骤S407，根据夹角调整摄像头拍摄方向，以使摄像头正对用户；

具体地，摄像头正对用户，是指用户的视线方向垂直于摄像头的透镜；

于步骤S408，开始视频。

本申请同时提供一种计算机可读存储介质，其存储有计算机程序，计算机程序被处理器执行时，实现上述摄像头控制方法。

为实现上述方法，本申请同时提供一种摄像头控制装置300，包括：用于接收语音信息的拾音模块301，用于对语音信息进行语音识别，并在语音信息包括唤醒指令时唤醒摄像头500的摄像头唤醒模块303，用于对语音信息进行声纹识别，以确定发出唤醒指令的用户的声纹特征的声纹识别模块305，用于识别具有声纹特征的语音的来源方向，并获取语音的来源方向与摄像头500的透镜指向之间的夹角的语音来源方向判断模块307，以及，根据夹角调整摄像头500的拍摄方向，以使摄像头500转向用户100的控制模块309。

具体地，拾音模块301具有用于采集语音信息的若干个麦克风，例如若干个麦克风或麦克风阵列，作为拾音装置，安装于要进行视频的空间内，例如汽车的车厢内。摄像头唤醒模块303可以通过电脑自动将人类的语音内容转换为相应的文字。唤醒指令为含有预设内容的语音指令，可以是预设的语句，例如是“我要视频”或“开启视频”或表达这些涵义的语句等。摄像头连接有推拉模块。唤醒摄像头后，即控制推拉模块推出摄像头。摄像头能够旋转，可实现全方位摄像。声纹识别模块305用于识别说话人的身份，在本申请的一实施例中，是从同一个人的语声中选择多个相同字、词或句的语图，在分析比较中抓住其稳定而特殊的特征作为依据。语音来源方向判断模块307用于识别具有声纹特征的语音的来源方向，并获取语音的来源方向与摄像头的指向之间的夹角，摄像头的指向是指与摄像头的透镜垂直的方向。控制模块309根据夹角调整摄像头拍摄方向，以使摄像头的指向与所述所述语音的来源方向一致。在一实施例中，在所述摄像头的指向与所述所述语音的来源方向一致后，例如摄像头对准用户后，展示用户可以开始视频的通知信息。摄像头的指向与所述所述语音的来源方向一致，是指语音的来源方向与摄像头的透镜垂直，或者用户的面部朝向所述摄像头的透镜时，例如摄像头捕捉到用户的面部特征时。

进一步地，在一实施例中，摄像头控制装置300还具有语义识别模块302，用于识别不同语言形式所具有的涵义，例如在默认语音为汉语是，能识别其他语言，例如一个英语句子，中是否包括“我要视频”的意思。

本申请同时提供一种具有上述摄像头控制装置的电子设备。电子设备例如是车机。

本申请的摄像头控制方法、存储介质、装置通过声音识别，包括语音识别、声纹识别和语义识别，控制摄像头的旋转。具体地，本申请的摄像头控制方法对语音信息进行声纹识别，以确定发出唤醒指令的用户的声纹特征，并识别具有此声纹特征的语音的来源方向后，根据语音的来源方向控制摄像头进行转动，使得摄像头可按照声纹的来源方向自动进行转动，避免了手动的麻烦，而且由于直接根据声纹特征进行识别，能准确的获取语音的来源方向，准确性高。

以上，仅是本申请的较佳实施例而已，并非对本申请作任何形式上的限制，虽然本申请已以较佳实施例揭露如上，然而并非用以限定本申请,任何熟悉本专业的技术人员，在不脱离本申请技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本申请技术方案内容，依据本申请的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本申请技术方案的范围内。

Claims

1.一种摄像头控制方法，其特征在于，包括步骤：

接收语音信息；

对所述语音信息进行语音识别，并在语音信息包括唤醒指令时唤醒摄像头；

对所述语音信息进行声纹识别，以确定发出所述唤醒指令的用户的声纹特征；

识别具有所述声纹特征的语音的来源方向，并获取所述语音的来源方向与所述摄像头的指向之间的夹角；以及

根据所述夹角调整摄像头的拍摄方向，以使所述摄像头的指向与所述所述语音的来源方向一致。

2.根据权利要求1所述的摄像头控制方法，其特征在于，所述唤醒指令为含有预设内容的语音指令。

3.根据权利要求1所述的摄像头控制方法，其特征在于，识别具有所述声纹特征的语音的来源方向，并获取所述语音的来源方向与所述摄像头的指向之间的夹角还包括：

获取具有所述声纹特征的语音的初始方向，以得到所述语音的初始方向；

根据与所述初始方向对应的麦克风采集到的所述语音的响度和混响，确定所述语音的来源方向；

获取所述语音的来源方向与所述摄像头的指向之间的夹角。

4.根据权利要求1所述的摄像头控制方法，其特征在于，还包括：唤醒所述摄像头后，控制推拉模块推出所述摄像头。

5.根据权利要求1所述的摄像头控制方法，其特征在于，还包括步骤：在所述摄像头的指向与所述所述语音的来源方向一致后，展示用户可以开始视频的通知信息。

6.根据权利要求5所述的摄像头控制方法，其特征在于，所述摄像头的指向与所述所述语音的来源方向一致，是指所述语音的来源方向与摄像头的透镜垂直，或者用户的面部朝向所述摄像头的透镜。

7.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1至6中任一项所述的摄像头控制方法。

8.一种摄像头控制装置，其特征在于，包括：

拾音模块，用于接收语音信息；

摄像头唤醒模块，用于对所述语音信息进行语音识别，并在语音信息包括唤醒指令时唤醒摄像头；

声纹识别模块，用于对所述语音信息进行声纹识别，以确定发出所述唤醒指令的用户的声纹特征；

语音来源方向判断模块，用于识别具有所述声纹特征的语音的来源方向，并获取所述语音的来源方向与所述摄像头的指向之间的夹角；以及

控制模块，根据所述夹角调整摄像头的拍摄方向，以使所述摄像头的指向与所述所述语音的来源方向一致。

9.如权利要求8所述的摄像头控制装置，其特征在于，还包括摄像头推拉模块；

所述控制模块还用于在摄像头唤醒模块唤醒所述摄像头后控制所述摄像头推拉模块推出所述摄像头。

10.一种电子设备，其特征在于，所述电子设备具有权利要求8或9所述的摄像头控制装置。