CN116547977A

CN116547977A - 用于使用姿势识别的音频引导的方法和设备

Info

Publication number: CN116547977A
Application number: CN202180081366.4A
Authority: CN
Inventors: H·盖尔穆德; M·克德兰瓦特; A·奥泽罗夫
Original assignee: InterDigital CE Patent Holdings SAS
Current assignee: InterDigital CE Patent Holdings SAS
Priority date: 2020-12-03
Filing date: 2021-11-29
Publication date: 2023-08-04
Also published as: JP2023551793A; WO2022117480A1; EP4256798A1; US20240098434A1; KR20230112648A

Abstract

公开了一种用于从显示设备的扬声器线性阵列朝向用户方向的音频引导的方法和设备。从显示设备的至少一个传感器获得对应于观看者姿势的数据。基于所获得的数据来确定观看者与耦合到显示器的多个扬声器之间的距离和角度。基于所确定的距离和角度，将相移应用于为该多个扬声器供电的音频信号，从而使音频引导朝向用户方向。

Description

用于使用姿势识别的音频引导的方法和设备

技术领域

本公开一般涉及音频引导。至少一个实施方案涉及从显示设备的扬声器线性阵列朝向用户方向的音频引导。

背景技术

当若干人正在显示设备上观看视频内容时，有时他们中的一些可能不太感兴趣或被分心。参照图1，示出了示例性组设置，其中在显示设备50正在显示视频内容的区域中示出了许多人。在该视图中，一些人可能被电话呼叫100分心，其他人可能彼此110交谈，一些人可能浏览平板电脑120，以及/或者一些人130可能实际上有兴趣观看所显示的视频内容。这种情况可能使得想要观看视频内容的那些人不舒服。通常，有人会把显示设备上的音量调大，而在打电话或彼此交谈的其他人会更大声地说话，从而加剧了该问题。

克服这种情况的一种方法是将音频引导朝向对观看视频内容感兴趣的人。例如，波束成形方法可用于配备有扬声器阵列(例如，条形音箱)的显示设备的音频信号处理。参照图2，通过控制扬声器阵列210的呈现，使用波束成形技术(诸如例如，延迟和求和)，可以朝向房间中的特定位置/人130生成音频波形的相长干涉220，并且可以在房间中其他地方生成音频波形的相消干涉(未示出)。对于这种情况，音频波形在朝向对观看视频内容感兴趣的人130的方向230上被引导。

遗憾的是，音频波束成形技术通常依赖于校准步骤，其中使用控制点阵列(例如，麦克风阵列)来确定音频波束将被引导朝向的角度和距离。通过测量由扬声器发出的声音与由麦克风接收的声音之间的延迟来进行这种确定。这是一个耗时的步骤，其也将取决于房间中人的位置，这可能是事先未知的。此外，需要预先执行校准步骤，这可能与按需情形不兼容。另外，消费电子设备需要是用户友好的，而不需要校准步骤。鉴于以上内容设计了本文的实施方案。

发明内容

本公开涉及一种使用观看者姿势来发起从显示设备的扬声器线性阵列朝向用户方向的音频引导的方法。该方法可以考虑在诸如例如数字电视、平板电脑和移动电话之类的显示设备上的实现。

根据本公开的第一方面，提供了一种设备，包括具有图像传感器和至少一个处理器的显示设备。该至少一个处理器被配置为：从图像传感器获得对应于观看者姿势的数据；基于所获得的数据来确定观看者与耦合到显示器的多个扬声器之间的距离和角度；以及基于所确定的距离和角度，将相移应用于为多个扬声器供电的音频信号。

根据本公开的第二方面，提供了一种方法，包括：从显示设备的至少一个图像传感器获得对应于观看者姿势的数据；基于所获得的数据来确定观看者与耦合到显示器的多个扬声器之间的距离和角度；以及基于所确定的距离和角度，将相移应用于为多个扬声器供电的音频信号。

所提出的解决方案的一般原理涉及使用观看者姿势来发起从显示设备的扬声器线性阵列朝向用户方向的音频引导。基于与显示设备的无触摸交互来在运行中执行音频引导，无需依赖于校准步骤或遥控设备的使用。

由本公开的要素实现的一些过程可以是计算机实现的过程。因此，此类要素可以采取完全硬件实施方案、完全软件实施方案(包括固件、常驻软件、微代码等)或者将软件方面和硬件方面结合的实施方案的形式，这些实施方案在本文中可以统称为“电路”、“模块”或“系统”。此外，此类元件可以采取计算机程序产品的形式，该计算机程序产品实现于具有体现在媒体中的计算机可用程序代码的任何有形表达介质中。

由于本公开的要素可以用软件来实现。因此本公开可以实施为用于在任何合适的载体介质上提供给可编程装置的计算机可读代码。有形非暂态载体介质可以包括存储介质，诸如软盘、CD-ROM、硬盘驱动器、磁带设备或固态存储设备等。瞬态载体介质可以包括信号，诸如电信号、光信号、声信号、磁信号或电磁信号，例如微波或RF信号。

附图说明

实施方案的其他特征和优点根据以下通过指示性和非穷举性示例的方式给出的描述以及附图应当显而易见，在附图中：

图1示出了现有技术的示例性组设置，其中在电视正在显示视频内容的区域中示出了若干人；

图2示出了示例性现有技术音频波束成形技术；

图3示出了根据本公开的示例性实施方案的用于从显示设备朝向用户方向的音频引导的装置；

图4是根据本公开的示例性实施方案的所提出的用于从显示设备的扬声器线性阵列朝向用户方向的音频引导的方法的具体实施方案的流程图；

图5示出了可用于实现本公开的示例性实施方案的用户姿势的图示；

图6示出了可用于实施本公开的示例性实施方案的另一用户姿势的图示；

图7示出了用户姿势以及获得对应于该用户姿势的数据的图示；

图8示出了图7中所示的用户姿势以及获得对应于该用户姿势的数据的顶部视图的图示；

图9示出了第一位置处的观看者姿势的侧视图的图示；

图10示出了第二位置处的观看者姿势的另一侧视图的图示；并且

图11示出了可用于实现本公开的示例性实施方案的扬声器(音频)阵列的图示。

具体实施方式

图3示出了根据本公开的实施方案的用于从显示设备朝向用户方向的音频引导的示例性装置。图1示出了可实现示例性实施方案的各个方面的示例性装置300的框图。该装置可包括显示设备305和音频阵列330。

显示设备305可以是包括显示屏(未示出)的任何消费电子设备，诸如例如数字电视。显示设备305包括至少一个处理器320和传感器310。处理器320可以包括被配置为确定相对于用户位置的距离和角度估计的软件。处理器320还可被配置为确定应用于为音频阵列330供电的音频信号的相移。传感器310识别由显示设备305的用户(未示出)执行的姿势。

处理器320可以包括嵌入式存储器(未示出)、输入-输出接口(未示出)，以及本领域已知的各种其他电路。程序代码可被加载到处理器320中以执行下文描述的各种过程。

另选地，显示设备305还可包括至少一个存储器(例如，易失性存储器设备、非易失性存储器设备)，其存储待加载到处理器320中以供后续执行的程序代码。显示设备305可以另外包括存储设备(未示出)，该存储设备可以包括非易失性存储器，包括但不限于EEPROM、ROM、PROM、RAM、DRAM、SRAM、闪存、磁盘驱动器和/或光盘驱动器。作为非限制性示例，存储设备可以包括内部存储设备、附接存储设备和/或网络可访问的存储设备。

传感器310可以是能够识别由显示设备305的用户执行的姿势的任何设备。在一个示例性实施方案中，传感器可以是例如相机，并且更具体地是RGB相机。传感器310可在显示设备305内部，如图3所示。另选地，在示例性实施方案中，传感器310可以在显示设备305外部。对于这种情况，传感器310可以优选地被定位在显示设备的顶部上或与其邻近(未示出)。

音频阵列330是排列成一行的扬声器阵列(参见下文中的图11)。在一个示例性实施方案中，音频阵列包括至少两个扬声器。音频阵列330可在显示设备305外部，如图3所示。音频阵列可以定位在显示器的底部部分的前面和下面(以便不妨碍可视性)、在显示设备305的顶部上、或邻近其侧面。另选地，在示例性实施方案中，音频阵列可以在显示设备305内部(未示出)。

图4是根据本公开的实施方案的所提出的用于从显示设备的扬声器线性阵列朝向用户方向的音频引导的方法400的具体实施方案的流程图。在该具体实施方案中，该方法400包括三个连续步骤410至430。

在该示例性具体实施中，该方法由装置300(图3)来执行。如步骤410中所描述，显示设备305的至少一个传感器获得对应于观看者姿势的数据。

图5示出了描绘用户姿势510的示例性图示。在该示例性实施方案中，用户姿势510是手势。然而，用户姿势还可包括例如面部表情、从一侧到另一侧的头部移动、点头、从一侧到另一侧的手臂移动等。

再次参考图5，所描绘的手势是背离用户的手部的手掌中的一个。其它手势例如可包括举起手部的一个或多个手指(未示出)、举起手部的拇指(未示出)、手指指向(未示出)，或通过使手部的任何手指与拇指610接触而形成圆，如图6所示。

在一个示例性实施方案中，一组已知用户姿势可供处理器320使用。对于此类实施方案，当传感器310检测到该组已知用户姿势中的一个用户姿势时，发起从显示设备朝向用户方向的音频引导。

图7示出了用户姿势以及获得对应于该用户姿势的数据的图示700。用户710被示出为显示手势715。传感器720检测用户710的手势715。传感器720(例如，相机)包括成像器730和镜头740。成像器730捕获关于手势的光的强度，并且存储器设备(未示出)将信息存储为例如RGB颜色空间。

图8示出了观看者姿势以及获得对应于该用户姿势的数据的顶部视图的图示800。用户810被示出为显示手势815。传感器820检测用户810的手势815。

参考图4的步骤410，一旦基于已知用户姿势识别到用户姿势，则获得与估计用户710的距离和角度位置相关的数据。根据发起音频引导的用户手部的位置来执行该估计。

参考图7和图8，在示例性实施方案中，示出了如何利用

以将传感器720和用户710之间的角度和距离确定为

其中d是手部(图7和图8)到传感器(相机)的焦平面的距离，h是以像素为单位的手部高度(图5)，h'是手部到图像的半宽的距离(图8)，H是普通成年人(图7)的以厘米为单位的手部高度(大小)，f是以像素为单位的传感器(相机)焦距(图7和图8)，H'是手部到由相机观察到的场景中的手部平面的半宽之间的水平长度，深度是从相机到场景中的手部平面的交叉点的距离。

手部高度(H)可以根据性别和年龄而变化。在一个示例性实施方案中，可以使用基于面部捕捉的性别和年龄估计来取得该变量的近似值。例如，可以使用MANIMALA等人的“使用黄金比例来预测人体的手部和面部特征”(国际图形与图像处理杂志，第4卷，第1期，2014年2月，第15-20页)来估计性别和年龄估计。

参考图7和图8，图像传感器焦距(f)是重要的参数。在一个实施方案中，其可如下文关于图9和图10所述的来计算。

图9示出了观看者姿势的侧视图的图示900。用户910被示出为在第一位置(d₁)处显示手势915。传感器920获得第一位置(d₁)处的手势915的图像。在该示例性实施方案中，用户将他/她的手部呈现在第一位置处，在接近肩部高度处背离用户时张开手部。

图10示出了观看者姿势的另一侧视图的图示1000。用户1010被示出为在第二位置(d₂)处显示手势1015。传感器1020获得第二位置(d₂)处的手势1015的图像。在该示例性实施方案中，用户将他/她的手部呈现在第二位置处，在肩部高度处将前臂朝向传感器方向延伸远离用户时张开手部。

基于图9和图10中描绘的针对第一位置(d₁)和第二位置(d₂)的手势的图像，利用(d₁-d₂)＝1.618*H从中获得传感器焦距(f)。

其中d₁-d₂是用户前臂的长度，并且通过性别和年龄估计与手部高度相关(MANIMALA等人的“使用黄金比例来预测人体的手部和面部特征”(国际图形与图像处理杂志，第4卷，第1期，2014年2月，第15-20页))(图9和图10)，h₁是第一位置的以像素为单位的手部高度，h₂是第二位置的以像素为单位的手部高度，并且H是普通成年人的以厘米为单位的手部高度，

参考图4的步骤420，使用对应于观看者姿势的所获得的数据来确定观看者与耦合到显示设备(图3)的多个扬声器330(音频阵列)之间的距离和角度。

图11示出了可用于实现本公开的示例性实施方案的扬声器(音频)阵列的图示。在图11中，扬声器1110以线性阵列配置来布置。此类线性阵列配置可用于将音频引导朝向期望的用户1120方向。在一个示例性实施方案中，扬声器阵列被定位成邻近显示设备(图3)的底部部分。

在图11中，扬声器1110的每个输入被耦合到移位相位和增益控制器1125，其利用相同的音频源1130馈送。阵列的每个扬声器之间的距离优选地是相同的。另外，随着扬声器数量的增加，音频波的方向性更加可引导。

如图4中，在步骤430处，基于多个扬声器1110与用户之间的所确定的距离和角度，将相移应用于为该多个扬声器供电的音频信号，如

所示，

其中t_i是待应用于音频信号的相移，x_i是位置i处的扬声器与位于场景中的用户的手部之间的距离，x_max＝max(x_i)，其是扬声器与位于场景中的用户的手部之间的最长距离。

利用和-L≤l_i≤L得出/>

其中，深度是相机与场景中手部平面的交叉点之间的距离，θ_i是x_i与深度之间的角度，并且l_i是相机与位置i处的扬声器之间的水平距离。

在一个示例性实施方案中，该观看者姿势被用来引导为多个扬声器供电的音频信号远离观看者的位置的相移。针对该实施方案，观看者可能对所显示的视频内容不感兴趣，并且他/她可能想要浏览移动电话或平板电脑。观看者发起相移以在观看所显示的视频内容的人的方向上引导音频信号。发起该音频相移的观看者姿势可为(例如)使手臂移动朝向左方向轻扫以将音频引导朝向观看者左边的人，或使手臂移动朝向右方向轻扫以将音频引导朝向观看者右边的人。

尽管上文已参考具体实施方案描述了本实施方案，但本公开不限于具体实施方案，并且落入权利要求的范围内的修改对于本领域技术人员将是显而易见的。

在参考前述例示性实施方案时，本领域技术人员会想到许多进一步的修改和变化，这些例示性实施方案仅作为示例给出并且不旨在限制本公开的范围，其仅由所附权利要求确定。具体地讲，在适当的情况下，来自不同实施方案的不同特征可以互换。

Claims

1.一种设备，所述设备包括：

显示设备，所述显示设备包括图像传感器；和

至少一个处理器，所述至少一个处理器被配置为：

从所述图像传感器获得对应于观看者的姿势的数据；

基于所获得的数据来确定所述观看者与耦合到所述显示设备的多个扬声器之间的距离和角度；以及

基于所确定的距离和角度，将相移应用于为所述多个扬声器供电的音频信号。

2.根据权利要求1所述的设备，其中所述图像传感器是相机。

3.根据权利要求1或2所述的设备，其中所述观看者姿势是手势、面部表情、从一侧到另一侧的头部移动、点头和从一侧到另一侧的手臂移动中的一者。

4.根据权利要求3所述的设备，其中所述手势是将一只手掌举起放平、举起多个手指中的一个手指、举起拇指以及通过使任何手指与所述拇指接触来形成圆中的一者。

5.根据权利要求1至4中任一项所述的设备，其中所述多个扬声器被配置为线性阵列。

6.根据权利要求1至5中任一项所述的设备，其中所述多个扬声器被定位成邻近所述显示设备的底部部分。

7.根据权利要求1至6中任一项所述的设备，其中所述多个扬声器中的每个扬声器的输入耦合到利用音频源馈送的相移增益控制器。

8.根据权利要求1至7中任一项所述的设备，其中所述观看者姿势被用来引导为所述多个扬声器供电的所述音频信号远离所述观看者的位置的相移。

9.根据权利要求1至8中任一项所述的设备，其中基于针对第一位置和第二位置的观看者姿势的图像来获得所述图像传感器的图像传感器焦距。

10.根据权利要求3或4所述的设备，其中使用基于面部捕捉的性别和年龄估计来获得所述手势的手部大小。

11.一种方法，所述方法包括：

从显示设备的至少一个图像传感器获得对应于观看者的姿势的数据；

12.根据权利要求11所述的方法，其中所述图像传感器是相机。

13.根据权利要求11或12所述的方法，其中所述观看者姿势是手势、面部表情、从一侧到另一侧的头部移动、点头和从一侧到另一侧的手臂移动中的一者。

14.根据权利要求13所述的方法，其中所述手势是将一只手掌举起放平、举起多个手指中的一个手指、举起拇指以及通过使任何手指与所述拇指接触来形成圆中的一者。

15.根据权利要求11至14中任一项所述的方法，其中所述多个扬声器被配置为线性阵列。

16.根据权利要求11至15中任一项所述的方法，其中所述多个扬声器被定位成邻近所述显示设备的底部部分。

17.根据权利要求11至16中任一项所述的方法，其中所述多个扬声器中的每个扬声器的输入耦合到利用音频源馈送的相移增益控制器。

18.根据权利要求11至17中任一项所述的方法，其中所述观看者姿势被用来引导为所述多个扬声器供电的所述音频信号远离所述观看者的位置的相移。

19.根据权利要求11至18中任一项所述的方法，其中基于针对第一位置和第二位置的观看者姿势的图像来获得所述图像传感器的图像传感器焦距。

20.根据权利要求13或14所述的方法，其中使用基于面部捕捉的性别和年龄估计来获得所述手势的手部大小。

21.一种包括指令的计算机程序产品，所述指令在被执行时，使得处理器实现根据权利要求11至20中任一项所述的方法。