CN117864047A

CN117864047A - 一种基于声源定位与表情识别的显示屏控制方法及系统

Info

Publication number: CN117864047A
Application number: CN202311871592.XA
Authority: CN
Inventors: 黄胜军
Original assignee: SHENZHEN ROADROVER TECHNOLOGY CO LTD
Current assignee: SHENZHEN ROADROVER TECHNOLOGY CO LTD
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-04-12

Abstract

本发明属于声源定位和智能控制技术领域，具体涉及一种基于声源定位与表情识别的显示屏控制方法及系统，基于声源定位和表情识别的方式去精准识别说话的乘客在车上的位置，然后再精准控制乘客前方对应的显示屏，且不会影响其他位置显示屏的使用，提升用户使用体验。可以通过声源定位与表情识别的方式调整车内各个位置上对应扬声器或者对应匹配的无线蓝牙耳机的声音大小，提升各个位置上乘客的使用体验；通过中控主机可以对车内多个显示屏、扬声器、麦克风、摄像头进行独立控制，减少了系统的冗余性，节约了成本，提升了用户使用体验。

Description

一种基于声源定位与表情识别的显示屏控制方法及系统

技术领域

本发明属于声源定位和智能控制技术领域，具体涉及一种基于声源定位与表情识别的显示屏控制方法及系统。

背景技术

随着汽车行业迎来了电动化、智能化、网联化、共享化，智能座舱得到了快速的发展，用户需求也在逐步多样化、个性化。传统中小尺寸的中控娱乐显示屏，已不能满足用户日新月异的需求，多屏、大屏已成为车内显示屏的发展方向。如何以低成本、模块化的方式去开发智能座舱域控制器及显示屏，提升用户使用体验，已成为各个车厂与零部件供应商争夺的焦点。对于多屏显示控制技术方案，已出现如下相关的技术。

如CN202010165144.8，提出的车载多屏显示系统及车辆。该主要内容是多屏显示系统包括有处理芯片、传输芯片及第一显示模块和第二显示模块。如CN202210863946.5，提出的一种基于声源定位的车载智能座舱娱乐的控制系统。包括检测模块、定位模块和控制模块：其中，所述检测模块用于检测语音信号；所述定位模块用于接收所述语音信号，定位车辆中的声源位置，并基于所述声源位置，识别语音信号，生成对应的指令内容。

现有技术中，对于显示屏的数量有所限制，多数只能满足两块显示屏，对于目前用户一车多屏的需求，则无法满足。同时对于基于声源定位的智能座舱控制系统，大部分只是针对整车的娱乐控制，无法针对每个位置上的用户单独提供娱乐控制且相互之间不受影响。少数针对每个座位单独提供娱乐控制的系统，准确率不够高，容易识别及控制错误。同时，目前的中控座舱方案集成度不高，系统冗余，成本高，智能化程度不高，用户体验不是很好。

发明内容

本发明的目的在于提供一种基于声源定位与表情识别的显示屏控制方法及系统，通过中控主机可以对车内多个显示屏、扬声器、麦克风、摄像头进行独立控制，同时可以通过声源定位的方式，实现对对应显示屏和扬声器单独地控制，以解决上述背景技术中提出现有技术中的问题。

为实现上述目的，本发明采用了如下技术方案：一种基于声源定位与表情识别的显示屏控制方法，包括：在乘员舱内部署中控主机和多个控制单元，并设置所述中控主机和多个控制单元的功能权限；乘员通过所述控制单元中的麦克风输入控制显示屏的语音，麦克风阵列会将其语音信号发送至中控主机进行处理；在所述中控主机收到语音信号后，进行声源定位判断，识别乘员所在车上的位置，对乘客进行粗定位，同时，车内摄像模组进行视频采集，传输至中控主机处理，所述中控主机通过表情识别对说话人的位置进行精准定位；由所述中控主机判断该语音信号是否有效后执行相应操作。

所述中控主机的功能权限包括：可控制全车其余控制单元的使用权限；多个所述控制单元的功能权限包括：可单独工作，相互之间不干扰。

所述由所述中控主机判断该语音信号是否有效，包括：语音信号无效，则将无效的语音信号反馈至乘客所在位置对应的显示屏上进行显示，提示乘客，无法识别其输入的声音信号；语音信号有效，则根据其输入的语音信号进行执行与回复，并将执行后的界面输出至乘客所在位置的显示屏上。

另一方面，本发明提出一种基于声源定位与表情识别的显示屏控制系统，包括：

中控主机模块，用于在乘员舱内部署中控主机和多个控制单元，并设置所述中控主机和多个控制单元的功能权限；

显示屏模块，用于展示乘员的输出需求；

扬声器模块，用于将整车扬声器分成多个音区，播放不同或相同的声音；

摄像头模块，用于采集包括但不局限于人脸识别、手势识别、表情识别、疲劳监测信息；

麦克风模块，用于采集音频信号并输入至中控主机；

功放模块，用于驱动扬声器发生声音。

所述中控主机模块位于乘员舱内，连接每个控制单元的摄像头、显示屏、麦克风，同时连接功放模块。

所述中控主机模块，包括：

数据处理单元，用于处理语音指令，并作出相应答复，以及计算人脸表情是否属于说话状态；

视频解码模块，用于将输入的视频进行解码，然后传输给数据处理单元进行处理；

中控主机，用于声源定位识别与表情识别，并处理各个音区输入的指令，处理后输出相对应的执行指令。

所述显示屏模组包括：多个显示屏；多个所述显示屏通过高清专用线连接中控主机，传输视频信号及控制指令。

所述扬声器模块包括：多个扬声器；多个所述扬声器连接至功放模块。

所述摄像头模块用于采集视频数据传输至中控主机，由中控主机对视频数据进行解码。

所述功放模块用于将来自中控主机的电信号进行放大以驱动扬声器发生声音，并连接扬声器和中控主机；且功放模块支持蓝牙无线信号传输，可通过蓝牙模组将音频信号传输至蓝牙耳机进行播放。

本发明的技术效果和优点：本发明提出的一种基于声源定位与表情识别的显示屏控制方法及系统，与现有技术相比，具有以下优点：

本发明基于声源定位和表情识别的方式去精准识别说话的乘客在车上的位置，然后再精准控制乘客前方对应的显示屏，且不会影响其他位置显示屏的使用，提升用户使用体验。可以通过声源定位与表情识别的方式调整车内各个位置上对应扬声器或者对应匹配的无线蓝牙耳机的声音大小，提升各个位置上乘客的使用体验；通过中控主机可以对车内多个显示屏、扬声器、麦克风、摄像头进行独立控制，减少了系统的冗余性，节约了成本，提升了用户使用体验。

附图说明

图1为本发明一种基于声源定位与表情识别的显示屏控制方法的流程图；

图2为本发明一种基于声源定位与表情识别的显示屏控制系统的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中提供了如图2所示的一种基于声源定位与表情识别的显示屏控制系统，包括中控主机模块、功放模块、扬声器模块、麦克风模块、显示屏模块、摄像头模块。

其中，每个显示屏附近都有一个扬声器模块、摄像头模块、麦克风模块，并由这几个模块组成一个控制单元，如图1所示。

根据不同车型需求，可组成1至N个数量不等的控制单元。每个控制单元可单独工作，相互之间不干扰。同时为这N个控制单元设置权限等级，将主驾位置的控制单元列为第一控制单元，权限最高，可控制全车其余控制单元的使用权限。

其中，副驾位置、左后排、右后排分别为第二、第三、第四控制单元。因此每个控制单元都有对应的显示屏、摄像头、扬声器、麦克风，每个控制单元可以独立工作，互不干扰，给使用者一个很好的使用体验。

示例性地，中控主机模块位于乘员舱内，内含数据处理单元、视频解码模块，它连接每一个控制单元的摄像头、显示屏、麦克风，同时连接功放模块。所述数据处理单元负责处理语音指令，并作出相应答复，以及计算人脸表情是否属于说话状态。所述视频解码模块，会将输入的视频进行解码，然后传输给数据处理单元进行处理。中控主机负责进行声源定位识别与表情识别，并处理各个音区输入的指令，处理后输出相对应的执行指令。中控主机将不同的视频和控制信号传输至不同的显示屏，同时接收不同显示屏的控制信号并输出对应的执行指令。它可以对每一个控制单元的摄像头、显示屏、麦克风输入的数据进行相关处理，并输出相关控制指令，保证各个单元之间进行正常工作。

示例性地，显示屏模块至少包含4个显示屏，每一个控制单元至少包含一块显示屏。显示屏分别布置在主驾、副驾、左后排、右后排的位置，其位置必须便于对应座位的人员观看。每块显示屏通过高清专用线连接中控主机，传输视频信号及控制指令。显示屏具备触屏功能，用户可在显示屏上进行对应的操作，包括但不局限于玩游戏、播放视频、播放音乐、浏览电子书、设置、K歌、远程视频以及其它APP的相关操作，可以满足不同座位上乘客的需求。

示例性地，扬声器模块分为4个扬声器模块，它将整车扬声器分成4个音区，每个音区分别对应一个位置，包括主驾、副驾、左后排、右后排。每个音区分别布置对应的扬声器单元，扬声器单元又全部连接至功放模块。每个音区的扬声器单元可以被单独控制，播放不同的声音，因此对应的扬声器单元可以与对应的显示屏互动，达到音视频同步的效果。

示例性地，摄像头模块是每个控制单元的重要组成部分，它被安装于每个位置的前方或侧前方，便于采集人脸视频的位置。它可以采集视频数据传输至中控主机，然后中控主机对视频数据进行解码，再进行表情识别判断，判断人脸是否是说话状态。摄像头采集的视频数据用于包括但不局限于人脸识别、手势识别、表情识别、疲劳监测等。

示例性地，麦克风模块是每个控制单元的重要组成部分，它负责将所在区域的音频信号进行采集并输入至中控主机，在中控主机上进行识别与处理。它被安装于每个位置前方，便于采集人声的位置。

示例性地，功放模块主要是将来自中控主机的微弱电信号进行放大以驱动扬声器发生声音。它连接每个控制单元的所有扬声器，并与中控主机相连，受中控主机控制。功放模块支持蓝牙无线信号传输，可通过蓝牙模块将音频信号传输至蓝牙耳机进行播放。

值得说明的是，上述的4个显示屏、4个扬声器模块是以四座车为例的，在多座车的情况下可以设置更多组。

本实施例中利用多个主机、多个显示屏和多个麦克风阵列也可以达到同样的控制效果，但是系统将会更复杂，成本也会更高。同时，在使用“一芯多屏”的方案下，单独使用声源定位或者表情识别去定位说话人的位置，然后再去控制对应显示屏或扬声器声音的大小。此种方式也可以达到同样的效果，但是其定位说话人位置的准确度没有本技术方案高，会出现识别错误和控制错误的情况，只有将两者结合才能大幅度提高定位说话人位置的准确度，提升用户使用体验。

另一方面，本发明提出一种基于声源定位与表情识别的显示屏控制方法，包括如下步骤：

在乘员舱内部署中控主机和多个控制单元，并设置所述中控主机和多个控制单元的功能权限；

乘员通过所述控制单元中的麦克风输入控制显示屏的语音，麦克风阵列会将其语音信号发送至中控主机进行处理；

在所述中控主机收到语音信号后，进行声源定位判断，识别乘员所在车上的位置，对乘客进行粗定位，同时，车内摄像模组进行视频采集，传输至中控主机处理，所述中控主机通过表情识别对说话人的位置进行精准定位；

由所述中控主机判断该语音信号是否有效后执行相应操作，若无效，则将无效的语音信号反馈至乘客所在位置对应的显示屏上进行显示，提示乘客，无法识别其输入的声音信号。若语音信号有效，则根据其输入的语音信号进行执行与回复，并将执行后的界面输出至乘客所在位置的显示屏上，从而达到基于声源定位与表情识别去精准控制对应显示屏的效果。同理，若用户输入的是控制声音大小的指令，中控主机则会将对应的控制信号输出至功放模块，功放将调整乘客所在位置的对应扬声器声音的大小，其他位置的扬声器声音大小不变。在车上，每个座位上的乘客都可以单独控制其对应的显示屏、扬声器。

本发明把乘员舱分成四个控制单元，四个控制单元之间都有对应的显示屏、扬声器、摄像头和麦克风，各个区域之间多媒体的使用互不影响，同时还可以通过语音来实现对各自区域多媒体的控制，大大提高了车上各个位置上乘客的用户体验。

乘员舱内的人员可对每个显示屏进行操作，包括但不局限于玩游戏、设置、播放视频、播放音乐、浏览电子书及其它的APP。各个显示屏可显示不同的内容，不同的风格及用户界面，并且互不影响。当用户在某个显示屏上进行有关声音的操作时(如看视频，听音乐)，中控主机将会对功放进行指令输出，使其只调整该显示屏附近的扬声器的通道，使其输出的大小在预设值范围内。同时，如有其它座位上的用户在另外的显示屏上进行同样的操作时，中控主机将输出类似的指令，保证扬声器的输出仅限于该显示屏附近的扬声器。本技术方案可以保证，在车辆中有多个显示屏时，可以同时满足多个用户同时使用车机娱乐系统，并且都有对应的音效输出，提升用户体验。

本技术方案中，功放模块支持与多个无线蓝牙耳机配对。通过蓝牙协议，无线蓝牙耳机将多媒体声音输出，每个位置上配对的蓝牙耳机都能与对应的显示屏达到音视频同步的效果。无线蓝牙耳机的使用，避免了各个位置上对应的扬声器声音太大，造成对其他位置上乘客的干扰，提升了用户体验。

此外，本发明还提供了一种终端设备，在本实施例中涉及的一种基于声源定位与表情识别的显示屏控制方法主要应用于终端设备中，该终端设备可以是PC、便携计算机、移动终端等具有显示和处理功能的设备。

具体的，终端设备可以包括处理器(例如CPU)，通信总线，用户接口，网络接口，存储器。其中，通信总线用于实现这些组件之间的连接通信；用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)；网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)；存储器可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器，存储器可选的还可以是独立于前述处理器的存储装置。

其中，存储器中存储可读存储介质，可读存储介质中存储显示屏控制程序，处理器可以调用存储器中存储的显示屏控制程序，并执行本发明实施例提供的一种基于声源定位与表情识别的显示屏控制方法。

可以理解的，可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是——但不限于——电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开内容操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言-诸如Smalltalk、C++等，以及常规的过程式编程语言-诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络-包括局域网(LAN)或广域网(WAN)-连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开内容的各个方面。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于声源定位与表情识别的显示屏控制方法，其特征在于，包括：

由所述中控主机判断该语音信号是否有效后执行相应操作。

2.根据权利要求1所述的一种基于声源定位与表情识别的显示屏控制方法，其特征在于，所述中控主机的功能权限包括：可控制全车其余控制单元的使用权限；多个所述控制单元的功能权限包括：可单独工作，相互之间不干扰。

3.根据权利要求1所述的一种基于声源定位与表情识别的显示屏控制方法，其特征在于，所述由所述中控主机判断该语音信号是否有效，包括：

语音信号无效，则将无效的语音信号反馈至乘客所在位置对应的显示屏上进行显示，提示乘客，无法识别其输入的声音信号；

语音信号有效，则根据其输入的语音信号进行执行与回复，并将执行后的界面输出至乘客所在位置的显示屏上。

4.一种根据权利要求1-3任意一项所述的一种基于声源定位与表情识别的显示屏控制方法的显示屏控制系统，其特征在于，包括：

显示屏模块，用于展示乘员的输出需求；

麦克风模块，用于采集音频信号并输入至中控主机；

功放模块，用于驱动扬声器发生声音。

5.根据权利要求1所述的一种基于声源定位与表情识别的显示屏控制系统，其特征在于，所述中控主机模块位于乘员舱内，连接每个控制单元的摄像头、显示屏、麦克风，同时连接功放模块。

6.根据权利要求5所述的一种基于声源定位与表情识别的显示屏控制系统，其特征在于，所述中控主机模块，包括：

7.根据权利要求6所述的一种基于声源定位与表情识别的显示屏控制系统，其特征在于，所述显示屏模组包括：多个显示屏；多个所述显示屏通过高清专用线连接中控主机，传输视频信号及控制指令。

8.根据权利要求7所述的一种基于声源定位与表情识别的显示屏控制系统，其特征在于，所述扬声器模块包括：多个扬声器；多个所述扬声器连接至功放模块。

9.根据权利要求8所述的一种基于声源定位与表情识别的显示屏控制系统，其特征在于，所述摄像头模块用于采集视频数据传输至中控主机，由中控主机对视频数据进行解码。

10.根据权利要求9所述的一种基于声源定位与表情识别的显示屏控制系统，其特征在于，所述功放模块用于将来自中控主机的电信号进行放大以驱动扬声器发生声音，并连接扬声器和中控主机；且功放模块支持蓝牙无线信号传输，可通过蓝牙模组将音频信号传输至蓝牙耳机进行播放。