CN112188363A

CN112188363A - 音频播放的控制方法、装置、电子设备和可读存储介质

Info

Publication number: CN112188363A
Application number: CN202010955541.5A
Authority: CN
Inventors: 王兵
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2021-01-05
Anticipated expiration: 2040-09-11
Also published as: CN112188363B

Abstract

本申请提出一种音频播放的控制方法、装置、电子设备和可读存储介质，涉及人工智能领域，其中，方法包括：获取至少一个用户对象的用户位置和用户姿态；获取自移动设备的多个控制参数组合；预测在各控制参数组合的控制下自移动设备通过配置的声源进行音频播放时，至少一个用户对象在用户位置以用户姿态接收到音频的音频质量；根据至少一个用户对象对应的音频质量，从多个控制参数组合中，确定目标控制参数组合；采用目标控制参数组合控制自移动设备通过声源进行音频播放。由此，根据用户位置和用户姿态，自适应地调整自移动设备的控制参数，使得自移动设备以最佳的控制参数，通过声源进行音频播放，可以提升用户对象的听觉体验。

Description

音频播放的控制方法、装置、电子设备和可读存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种音频播放的控制方法、装置、电子设备和可读存储介质。

背景技术

在封闭空间，比如科技馆、博物馆、展厅、商场、会所、机场贵宾(Very ImportantPerson，简称VIP)室等公共服务场所，为了向用户提供高质量的音频服务，提升用户的听觉体验，可以通过在封闭空间的四周安装高、中、低音喇叭组合，通过控制不同的固定位置处安装的喇叭组合上声音的大小和延迟，来提供一个静态的三维(3D)声场。

然而，位置固定设置的喇叭组合，可能难以为封闭空间中的每一个用户均提供满意的3D听觉体验。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请提出一种音频播放的控制方法、装置、电子设备和可读存储介质，以实现根据用户位置和用户姿态，自适应地调整自移动设备的控制参数，使得自移动设备以最佳的控制参数，通过声源进行音频播放，可以实现为每一个用户对象均提供高质量的音频服务，提升用户对象的听觉体验。

本申请第一方面实施例提出了一种音频播放的控制方法，包括：

获取至少一个用户对象的用户位置和用户姿态；

获取自移动设备的多个控制参数组合；

预测在各所述控制参数组合的控制下所述自移动设备通过配置的声源进行音频播放时，所述至少一个用户对象在所述用户位置以所述用户姿态接收到音频的音频质量；

根据所述至少一个用户对象对应的音频质量，从所述多个控制参数组合中，确定目标控制参数组合；

采用所述目标控制参数组合控制所述自移动设备通过所述声源进行音频播放。

作为本申请第一方面实施例的第一种可能的实现方式，所述预测在各所述控制参数组合的控制下所述自移动设备通过配置的声源进行音频播放时，所述至少一个用户对象在所述用户位置以所述用户姿态接收到音频的音频质量，包括：

根据各所述用户对象的用户姿态，确定各所述用户对象的音频接收角度；

针对每一所述控制参数组合，预测在所述控制参数组合的控制下所述自移动设备通过配置的声源进行音频播放时，各所述用户对象在所述用户位置以所述音频接收角度接收到音频的音频质量。

作为本申请第一方面实施例的第二种可能的实现方式，所述针对每一所述控制参数组合，预测在所述控制参数组合的控制下所述自移动设备通过配置的声源进行音频播放时，各所述用户对象在所述用户位置以所述音频接收角度接收到音频的音频质量，包括：

根据所述控制参数组合中所述自移动设备的姿态参数和声源支架角度参数，确定所述自移动设备通过所述声源发出音频的声波角度；

根据所述控制参数组合中所述自移动设备的位置参数，确定所述自移动设备通过所述声源发出音频的声波位置；

根据所述控制参数组合中的功率参数，确定所述自移动设备通过所述声源发出音频的声波强度；

根据所述声波角度、所述声波位置和所述声波强度，预测所述声源的声场；

根据所述声场，确定各所述用户对象在所述用户位置以所述音频接收角度接收到音频的音频质量。

作为本申请第一方面实施例的第三种可能的实现方式，所述自移动设备为多个，所述获取自移动设备的多个控制参数组合，包括：

获取每一个所述自移动设备的多个候选控制参数集合；

对不同所述自移动设备的多个候选控制参数集合进行合并，以得到多个所述控制参数组合。

作为本申请第一方面实施例的第四种可能的实现方式，所述获取每一个所述自移动设备的多个候选控制参数集合，包括：

对每一个所述自移动设备，根据移动范围确定多个位置参数，根据姿态调整范围确定多个姿态参数，根据支架角度调整范围确定多个声源支架角度参数，以及根据声源输出功率范围确定多个功率参数；

将所述多个位置参数、多个姿态参数、多个声源支架角度参数、多个功率参数进行组合，以生成多个候选控制参数集合，其中，每一个候选控制参数集合中包括所述位置参数、所述姿态参数、所述功率参数和所述声源支架角度参数各一个。

作为本申请第一方面实施例的第五种可能的实现方式，所述用户对象为多个，所述根据所述至少一个用户对象对应的音频质量，从所述多个控制参数组合中，确定目标控制参数组合，包括：

确定多个所述用户对象的权重；

根据多个所述用户对象的权重，对同一所述控制参数组合控制下进行音频播放时多个所述用户对象的音频质量进行加权，以得到所述多个控制参数组合对应的加权音频质量；

根据所述多个控制参数组合对应的加权音频质量，从所述多个控制参数组合中，确定所述目标控制参数组合。

作为本申请第一方面实施例的第六种可能的实现方式，所述获取至少一个用户对象的用户位置和用户姿态之后，还包括：

根据所述至少一个用户对象中目标用户的用户位置和用户姿态，确定对应的控制指令；

根据所述控制指令，切换所述声源播放的音频。

本申请实施例的音频播放的控制方法，通过获取至少一个用户对象的用户位置和用户姿态，并获取自移动设备的多个控制参数组合，以预测在各控制参数组合的控制下自移动设备通过配置的声源进行音频播放时，至少一个用户对象在用户位置以用户姿态接收到音频的音频质量，继而根据至少一个用户对象对应的音频质量，从多个控制参数组合中，确定目标控制参数组合，以采用目标控制参数组合控制自移动设备通过声源进行音频播放。由此，可以实现根据用户位置和用户姿态，自适应地调整自移动设备的控制参数，使得自移动设备以最佳的控制参数，通过声源进行音频播放，可以实现为每一个用户对象均提供高质量的音频服务，提升用户对象的听觉体验。

本申请第二方面实施例提出了一种音频播放的控制装置，包括：

获取模块，用于获取至少一个用户对象的用户位置和用户姿态；以及获取自移动设备的多个控制参数组合；

预测模块，用于预测在各所述控制参数组合的控制下所述自移动设备通过配置的声源进行音频播放时，所述至少一个用户对象在所述用户位置以所述用户姿态接收到音频的音频质量；

确定模块，用于根据所述至少一个用户对象对应的音频质量，从所述多个控制参数组合中，确定目标控制参数组合；

控制模块，用于采用所述目标控制参数组合控制所述自移动设备通过所述声源进行音频播放。

作为本申请第二方面实施例的第一种可能的实现方式，所述预测模块，包括：

确定单元，用于根据各所述用户对象的用户姿态，确定各所述用户对象的音频接收角度；

预测单元，用于针对每一所述控制参数组合，预测在所述控制参数组合的控制下所述自移动设备通过配置的声源进行音频播放时，各所述用户对象在所述用户位置以所述音频接收角度接收到音频的音频质量。

作为本申请第二方面实施例的第二种可能的实现方式，所述预测单元，具体用于：

作为本申请第二方面实施例的第三种可能的实现方式，所述自移动设备为多个，所述获取模块，包括：

获取单元，用于获取每一个所述自移动设备的多个候选控制参数集合；

合并单元，用于对不同所述自移动设备的多个候选控制参数集合进行合并，以得到多个所述控制参数组合。

作为本申请第二方面实施例的第四种可能的实现方式，所述获取单元，具体用于：

作为本申请第二方面实施例的第五种可能的实现方式，所述用户对象为多个，所述确定模块，具体用于：

确定多个所述用户对象的权重；

作为本申请第二方面实施例的第六种可能的实现方式，所述装置，还包括：

切换模块，用于根据所述至少一个用户对象中目标用户的用户位置和用户姿态，确定对应的控制指令；根据所述控制指令，切换所述声源播放的音频。

本申请第三方面实施例提出了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如本申请第一方面实施例提出的音频播放的控制方法。

本申请第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请第一方面实施例提出的音频播放的控制方法。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例一所提供的音频播放的控制方法的流程示意图；

图2为本申请实施例二所提供的音频播放的控制方法的流程示意图；

图3为本申请实施例三所提供的音频播放的控制方法的流程示意图；

图4为本申请实施例四所提供的音频播放的控制方法的流程示意图；

图5为本申请实施例五所提供的音频播放的控制装置的结构示意图；

图6为本申请实施例六所提供的音频播放的控制装置的结构示意图；

图7为本发明实施例七所提供的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的音频播放的控制方法、装置、电子设备和可读存储介质。

图1为本申请实施例一所提供的音频播放的控制方法的流程示意图。

本申请实施例的执行主体可以为本申请提供的音频播放的控制装置。

在本申请实施例的第一种可能的实现方式中，该音频播放的控制装置可以被配置在自移动设备中，比如该音频播放的控制装置可以为自移动设备的本地控制器，从而可以实现对自移动设备进行控制。

其中，自移动设备可以为智能机器人等具备导航避障功能、可自主移动、音频播放的设备。

在本申请实施例的第二种可能的实现方式中，该音频播放的控制装置还可以被配置在与自移动设备联网的服务器中，以实现对自移动设备进行控制。

在本申请实施例的第三种可能的实现方式中，该音频播放的控制装置还可以被配置在与自移动设备通信的控制设备中，以由该控制设备对自移动设备进行控制。

其中，控制设备可以为任意一种具有计算处理能力的设备、器械或者机器，例如控制设备可以为个人电脑(Personal Computer，简称PC)、移动终端等，移动终端例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。

在本申请实施例的第四种可能的实现方式中，该音频播放的控制装置还可以被配置在与控制设备联网的服务器中，以由服务器通过控制设备对自移动设备进行控制。其中，控制设备与自移动设备进行通信。

如图1所示，该音频播放的控制方法可以包括以下步骤：

步骤101，获取至少一个用户对象的用户位置和用户姿态。

本申请实施例中，用户姿态可以包括用户对象的面部朝向、耳朵朝向、用户对象的人体动作等姿态信息。

本申请实施例中，可以根据相关传感器采集的数据，确定至少一个用户对象的用户位置和用户姿态。

在本申请实施例的第一种可能的实现方式中，相关传感器可以设置在控制设备上，控制设备可以将相关传感器采集的数据，发送至自移动设备或与该控制设备联网的服务器，进一步地，自移动设备在接收到相关传感器采集的数据后，还可以将接收到的数据，发送至与该自移动设备联网的服务器。

在本申请实施例的第二种可能的实现方式中，相关传感器还可以独立于控制设备进行设置，当相关传感器采集到数据后，可以以蓝牙、无线局域网(Wireless Fidelity，简称WiFi)等无线通信方式，发送至控制设备，控制设备可以将相关传感器采集的数据，发送至自移动设备或与该控制设备联网的服务器，进一步地，自移动设备在接收到相关传感器采集的数据后，还可以将接收到的数据，发送至与该自移动设备联网的服务器。

在本申请实施例的第三种可能的实现方式中，相关传感器还可以设置于自移动设备上，自移动设备可以将相关传感器采集的数据，发送至控制设备或与该自移动设备联网的服务器，进一步地，控制设备在接收到相关传感器采集的数据后，还可以将接收到的数据，发送至与该控制设备联网的服务器。

在本申请实施例的第四种可能的实现方式中，相关传感器还可以独立于自移动设备进行设置，当相关传感器采集到数据后，可以以无线通信方式，发送至自移动设备，自移动设备可以将接收到的相关传感器采集的数据，发送至控制设备或与该自移动设备联网的服务器，进一步地，控制设备在接收到相关传感器采集的数据后，还可以将接收到的数据，发送至与该控制设备联网的服务器，本申请对此并不作限制。

在本申请实施例的一种可能的实现方式中，可以通过成像传感器采集检测图像，其中，检测图像为基于视觉感知的图像，比如可以为彩色图像或者RGB图像，从而，本申请中，可以根据检测图像，识别用户对象的个数，以及各用户对象的用户位置和用户姿态。其中，成像传感器可以为电荷耦合器件(Charge Coupled Device，简称CCD)、互补金属氧化物半导体(Complementary Metal Oxide Semiconductor，简称CMOS)、薄膜晶体管(Thin FilmTransistor，简称TFT)等图像传感器。

作为一种示例，可以基于人脸识别算法，识别检测图像中的人脸个数，根据人脸个数，确定用户对象的个数，并且，在基于人脸识别算法，识别得到检测图像中的人脸时，可以进一步确定人脸对应的用户对象与成像传感器之间的相对距离和相对角度，从而根据成像传感器的位置信息，以及各用户对象与成传感器之间的相对距离和相对角度，可以确定各用户对象的用户位置。

例如，可以根据检测图像中用户对象所在区域中各像素点对应的坐标以及深度信息，确定用户对象与图像传感器之间的相对距离和相对角度。其中，深度信息可以通过深度传感器采集得到，例如，在控制成像传感器采集检测图像时，可以同步控制深度传感器采集深度图像，其中，深度图像用于指示检测图像中各像素点对应的深度信息，从而可以根据深度图像，确定检测图像中用户对象所在区域中各像素点对应的深度信息。其中，深度传感器可以为飞行时间(Time of Flight，简称TOF)传感器、红绿蓝-深度(Red Green Blue-Depth，简称RGB-D)传感器、结构光传感器、激光雷达等可采集深度信息的传感器。

一种示例，针对检测图像中的每个用户对象，可以根据该用户对象所在区域中各像素点对应的坐标，确定该用户对象所在区域中的中心像素点，根据该中心像素点对应的坐标以及深度信息，确定该用户对象与成像对象之间的相对距离和相对角度。

另一种示例，针对检测图像中的每个用户对象，可以根据该用户对象所在区域中各像素点对应的坐标以及深度信息，分别计算该用户对象所在区域中各像素点与成像传感器之间的相对距离和相对角度，将该用户对象所在区域中各像素点与成像传感器之间的相对距离的均值，作为该用户对象与成像传感器之间的相对距离，以及将该用户对象所在区域中各像素点与成像传感器之间的相对角度的均值，作为该用户对象与成像传感器之间的相对角度。

作为另一种示例，可以识别检测图像中的人体关键点，根据人体关键点计算人体不同部位的夹角，根据上述人体不同部位的夹角和人体关键点，识别用户姿态。或者，还可以从检测图像中识别用户对象的面部特征点，根据面部特征点，确定用户姿态。

本申请中，根据相关传感器采集的信息进行视觉、深度信息等多模态识别，获知用户位置和用户姿态，由此，可以提升检测结果的准确性。

步骤102，获取自移动设备的多个控制参数组合。

本申请实施例中，自移动设备的个数为至少一个，比如，当封闭空间中的人流量较多时，为了提供高质的听觉体验，自移动设备的个数可以为多个。

本申请实施例中，控制参数组合可以包括自移动设备的位置参数、姿态参数、声源输出的功率参数，其中，声源可以为扬声器，声源的个数可以为一个或者多个，比如自移动设备上可以设置有多个高、中、低音扬声器，或者，声源还可以通过支架安装至自移动设备上，其中，为了提升音频的播放质量，声源支架的角度可调节。当声源通过支架安装至自移动设备上时，控制参数组合还可以包括声源支架角度参数。

作为一种可能的实现方式，当声源设置于自移动设备上时，可以根据自移动设备的移动范围，确定多个位置参数，根据自移动设备的姿态调整范围，确定多个姿态参数，根据声源输出功率范围，确定多个功率参数，从而将多个位置参数、多个姿态参数、多个功率参数进行组合，以生成多个控制参数集合，其中，每一个控制参数集合中包括位置参数、姿态参数和功率参数各一个。

作为另一种可能的实现方式，当声源通过支架安装至自移动设备上时，比如声源可以通过具有一个或多个自由度移动的支架安装至自移动设备上，可以根据自移动设备的移动范围，确定多个位置参数，根据自移动设备的姿态调整范围，确定多个姿态参数，根据声源输出功率范围，确定多个功率参数，根据支架角度调整范围，确定多个声源支架角度参数，从而将多个位置参数、多个姿态参数、多个声源支架角度参数、多个功率参数进行组合，以生成多个控制参数集合，其中，每一个控制参数集合中包括位置参数、姿态参数、功率参数和声源支架角度参数各一个。

步骤103，预测在各控制参数组合的控制下自移动设备通过配置的声源进行音频播放时，至少一个用户对象在用户位置以用户姿态接收到音频的音频质量。

本申请实施例中，声源播放的音频可以自移动设备本地存储的音频，或者，也可以为自移动设备在线浏览的音频，本申请对此并不作限制。例如，自移动设备播放的音频可以为音乐、视频播放场景中的音频、直播场景中的音频、远程视频交互场景中的音频等等。

本申请实施例中，在获取多个控制参数组合后，可以基于声场优化算法，预测在各控制参数组合的控制下，自移动设备通过配置的声源进行音频播放时，各用户对象在用户位置以用户姿态接收到音频的音频质量。

步骤104，根据至少一个用户对象对应的音频质量，从多个控制参数组合中，确定目标控制参数组合。

作为一种可能的实现方式，当用户对象的个数为一个时，若预测得到在各控制参数组合的控制下自移动设备通过配置的声源进行音频播放时，该用户对象对应的音频质量后，可以选取最高音频质量对应的控制参数组合，作为目标控制参数组合。由此，可以实现为该用户对象提供高质的听觉体验。

作为另一种可能的实现方式，当用户对象的个数为多个时，若预测得到在各控制参数组合的控制下自移动设备通过配置的声源进行音频播放时，各用户对象对应的音频质量后，针对每个控制参数组合，可以根据多个用户对象的权重，对该控制参数组合控制下进行音频播放时多个用户对象的音频质量进行加权，得到该控制参数组合对应的加权音频质量，从而可以将最高加权音频质量对应的控制参数组合，作为目标控制参数组合。由此，可以实现为每个用户对象提供高质的听觉体验。

也就是说，每个用户对象具有对应的优先权级别，根据各用户对象对应的优先权级别，确定各用户对象对应的权重，根据多个用户对象的权重，对同一控制参数组合控制下进行音频播放时多个用户对象的音频质量进行加权，以得到多个控制参数组合对应的加权音频质量，从而根据多个控制参数组合对应的加权音频质量，从多个控制参数组合中，确定目标控制参数组合，例如，将最高加权音频质量对应的控制参数组合，作为目标控制参数组合，可以实现优先为权重较高的用户对象提供高质的听觉体验。

步骤105，采用目标控制参数组合控制自移动设备通过声源进行音频播放。

本申请实施例中，在确定目标控制参数组合后，可以采用目标控制参数组合，控制自移动设备通过声源进行音频播放。

需要说明的是，现有技术中，3D声场为静态的，除了可以调节局部音量大小以外，难以根据封闭空间中用户数量、用户位置、用户状态、用户姿态去调节3D声场，因此，无法让每一个用户对象都体验到高品质的3D声场享受，无法保证用户对象在移动的过程中享受有持续稳定的音频。

而本申请中，通过识别每个用户对象的用户姿态和用户位置，基于声场优化算法，计算出自移动设备的最佳位置、最佳姿态、最佳声源支架角度、最佳功率参数，并控制自移动设备移动至最佳位置，以最佳姿态、最佳声源支架角度、最佳功率参数通过声源进行音频播放。由此，3D声场为动态的，可以实现为每个用户对象均提供满意的3D听觉体验，动态的满足所有用户对象收听高质的3D声场的需求。

作为一种可能的实现方式，为了便于用户对象对声源播放的音频进行切换，进一步改善用户对象的听觉体验，本申请中，可以根据至少一个用户对象中目标用户的用户位置和用户姿态，确定对应的控制指令，并根据控制指令，切换声源播放的音频。

其中，目标用户的用户位置和用户姿态，与控制指令对应的用户位置和用户姿态匹配。

例如，自移动设备中可预先存储不同用户位置和/或用户姿态，与控制指令之间的对应关系，从而，本申请中，在确定至少一个用户对象中目标用户的用户位置和用户姿态，可以根据用户姿态和用户位置查询上述对应关系，确定对应的控制指令，以根据控制指令，切换声源播放的音频。

作为一种示例，可以在自移动设备中预先建立不同用户位置和控制指令之间的对应关系，在确定至少一个用户对象中目标用户的用户位置和用户姿态，可以根据目标用户的用户位置，查询上述对应关系，确定对应的控制指令，以根据控制指令，切换声源播放的音频。

举例而言，当目标用户的用户位置为位置A时，控制指令可以为“播放下一首”，从而可控制声源播放下一首音频。当目标用户的用户位置为位置B时，控制指令可以为“播放上一首”，从而可控制声源播放下一首音频。

作为另一种示例，可以在自移动设备中预先建立不同用户姿态和控制指令之间的对应关系，在确定至少一个用户对象中目标用户的用户位置和用户姿态，可以根据目标用户的用户姿态，查询上述对应关系，确定对应的控制指令，以根据控制指令，切换声源播放的音频。

举例而言，当目标用户的用户姿态为姿态1(比如单手垂直举高)时，控制指令可以为“播放下一首”，从而可控制声源播放下一首音频。当目标用户的用户姿态为姿态2(比如双手平举)时，控制指令可以为“播放上一首”，从而可控制声源播放下一首音频。

作为又一种示例，可以在自移动设备中预先建立不同用户位置和用户姿态，与控制指令之间的对应关系，在确定至少一个用户对象中目标用户的用户位置和用户姿态，可以根据目标用户的用户姿态和用户位置，查询上述对应关系，确定对应的控制指令，以根据控制指令，切换声源播放的音频。

举例而言，当目标用户的用户姿态为姿态1，且用户位置为位置A时，控制指令可以为“播放下一首”，从而可控制声源播放下一首音频。当目标用户的用户姿态为姿态2，且用户位置为位置B时，控制指令可以为“播放上一首”，从而可控制声源播放下一首音频。

应当理解的是，在同一用户位置处，用户对象以不同的用户姿态站定时，该用户对象的音频接收角度是不同的，听觉体验也是不同的，因此，作为本申请实施例的一种可能的实现方式，为了提升音频质量计算结果的准确性，可以根据用户对象的用户姿态，确定用户对象的音频接收角度，在播放音频时，可以预测用户对象在用户位置，以音频接收角度接收到音频的音频质量。下面结合实施例二，对上述过程进行详细说明。

图2为本申请实施例二所提供的音频播放的控制方法的流程示意图。

如图2所示，该音频播放的控制方法可以包括以下步骤：

步骤201，获取至少一个用户对象的用户位置和用户姿态。

步骤202，获取自移动设备的多个控制参数组合。

步骤201至202的执行过程可以参见上述实施例中步骤101至102的执行过程。

步骤203，根据各用户对象的用户姿态，确定各用户对象的音频接收角度。

本申请实施例中，针对每个用户对象，可以根据该用户对象的用户姿态，确定该用户对象的面部朝向，根据面部朝向，确定该用户对象的音频接收角度。比如，可以根据该用户对象的面部朝向，确定耳朵朝向，根据耳朵朝向，可以确定音频接收角度。

步骤204，针对每一控制参数组合，预测在控制参数组合的控制下自移动设备通过配置的声源进行音频播放时，各用户对象在用户位置以音频接收角度接收到音频的音频质量。

本申请实施例中，在确定各用户对象的音频接收角度后，针对每一控制参数组合，可以基于声场优化算法，预测在控制参数组合的控制下自移动设备通过配置的声源进行音频播放时，各用户对象在用户位置以音频接收角度接收到音频的音频质量。

步骤205，根据至少一个用户对象对应的音频质量，从多个控制参数组合中，确定目标控制参数组合。

步骤206，采用目标控制参数组合控制自移动设备通过声源进行音频播放。

步骤205至206的执行过程可以参见上述实施例中步骤104至105的执行过程，在此不做赘述。

作为一种可能的实现方式，针对每一个控制参数组合，可以预测声源的声场，根据声场，确定各用户对象在用户位置以音频接收角度接收到音频的音频质量。下面结合实施例三，对上述过程进行详细说明。

图3为本申请实施例三所提供的音频播放的控制方法的流程示意图。

如图3所示，在图2所示实施例的基础上，步骤204具体可以包括以下子步骤：

步骤301，根据控制参数组合中自移动设备的姿态参数和声源支架角度参数，确定自移动设备通过声源发出音频的声波角度。

本申请实施例中，自移动设备的姿态参数，是根据自移动设备的姿态调整范围确定的，例如，当自移动设备为智能机器人时，一般情况下，智能机器人的声源设置于智能机器人的头部，因此，姿态调整范围可以包括头部可转动范围，当然，当声源设置于智能机器人的躯干部分，比如手臂侧时，该姿态调整范围可以包括躯干可转动范围。

本申请实施例中，声源支架角度参数，是根据支架角度调整范围确定的。

本申请实施例中，在确定自移动设备的姿态参数和声源支架角度参数后，可以确定自移动设备通过声源发出音频的声波角度。

步骤302，根据控制参数组合中自移动设备的位置参数，确定自移动设备通过声源发出音频的声波位置。

本申请实施例中，在确定自移动设备的位置参数后，可以确定自移动设备通过声源发出音频的声波位置。比如，可以将自移动设备的位置参数，作为自移动设备通过声源发出音频的声波位置。

步骤303，根据控制参数组合中的功率参数，确定自移动设备通过声源发出音频的声波强度。

本申请实施例中，功率参数是根据声源输出功率范围确定的，在确定声源的输出的功率参数时，可以根据功率参数，确定声源发出音频的声波强度。

步骤304，根据声波角度、声波位置和声波强度，预测声源的声场。

本申请实施例中，在确定声源发出音频的声波角度、声波位置和声波强度后，可以根据声波角度、声波位置和声波强度，预测声源的声场。

步骤305，根据声场，确定各用户对象在用户位置以音频接收角度接收到音频的音频质量。

本申请实施例中，在预测得到声场后，可以根据声场，确定各用户对象在用户位置以音频接收角度接收到音频的音频质量。例如，当声场的声波角度与音频接收角度匹配时，若声波强度较小，则用户对象可能难以听到声音，此时，音频质量较低，而若声波强度较高，则用户对象可以清晰地听清音频，此时，音频质量较高。或者，即使声场的声波角度与音频接收角度匹配，若声波位置与用户位置之间的距离较远，则用户对象可能也难以听清音频，因此，音频质量也较低。因此，本申请中，可以根据声场的声波角度、声波位置、声波强度、用户位置以及音频接收角度，计算音频质量，其中，音频质量，与声波角度和音频接收角度之间的匹配度成正向关系，即音频质量随着匹配度的增大而增大，和/或，音频质量，与声波位置和用户位置之间的距离成反向关系，即音频质量随着距离的减小而增大，和/或，音频质量与声波强度成正向关系。应当理解的是，为了避免给用户对象造成听觉不适的情况，声波强度不应超过预设强度阈值。

由此，针对每一控制参数组合，预测在该控制参数组合的控制下，自移动设备通过配置的声源进行音频播放时，声源的声场，通过声场，计算各用户对象在用户位置以音频接收角度接收到音频的音频质量，可以提升音频质量计算结果的准确性和可靠性。

作为一种可能的实现方式，为了进一步提升各用户对象的听觉体验，自移动设备的个数可以为多个，当自移动设备的个数为多个时，可以根据每个自移动设备的位置参数、姿态参数和功率参数，或者，根据每个自移动设备的位置参数、姿态参数、功率参数和声源支架角度参数，确定控制参数组合。下面结合实施例四，对上述过程进行详细说明。

图4为本申请实施例四所提供的音频播放的控制方法的流程示意图。

如图4所示，在上述实施例的基础上，步骤102或者202具体可以包括以下子步骤：

步骤401，获取每一个自移动设备的多个候选控制参数集合。

本申请实施例中，当自移动设备的个数为多个时，多个自移动设备可以通过一种或者多种通讯协议进行通讯和组网，其中，上述通讯协议包括但不限于：第三代移动通信技术(3rd-generation，简称3G)、第四代移动通信技术(4rd-generation，简称4G)、第五代移动通信技术(5rd-generation，简称5G)、WiFi、蓝牙、Lora(低功耗广域网中的一种)、基于蜂窝的窄带物联网(Narrow Band Internet of Things，简称NB-IoT)、Zigbee(一种短距离、低功耗的无线通信技术)、无载波通信技术(Ultra Wideband，简称UWB)、近距离无线通讯技术(Near Field Communication，简称NFC)等通讯协议。当多个自移动设备组网成功后，各自移动设备可以和集群内的任一自移动设备进行安全且可靠的通讯。

作为一种可能的实现方式，当声源设置于自移动设备上时，针对每一个自移动设备，可以根据该自移动设备的移动范围，确定多个位置参数，根据该自移动设备的姿态调整范围，确定多个姿态参数，根据声源输出功率范围，确定多个功率参数，从而将多个位置参数、多个姿态参数、多个功率参数进行组合，以生成多个候选控制参数集合，其中，每一个候选控制参数集合中包括位置参数、姿态参数和功率参数各一个。

作为另一种可能的实现方式，当声源通过支架安装至自移动设备上时，针对每一个自移动设备，可以根据该自移动设备的移动范围，确定多个位置参数，根据该自移动设备的姿态调整范围，确定多个姿态参数，根据声源输出功率范围，确定多个功率参数，根据支架角度调整范围，确定多个声源支架角度参数，从而将多个位置参数、多个姿态参数、多个声源支架角度参数、多个功率参数进行组合，以生成多个候选控制参数集合，其中，每一个候选控制参数集合中包括位置参数、姿态参数、功率参数和声源支架角度参数各一个。

步骤402，对不同自移动设备的多个候选控制参数集合进行合并，以得到多个控制参数组合。

本申请实施例中，控制参数组合，包含每个自移动设备的一个候选控制参数集合。

作为一种可能的实现方式，各候选控制参数可以携带对应自移动设备的标识，在合并时，可以从各自移动设备中均选取一个候选控制参数集合，而后，将选取的各候选控制参数集合进行合并，得到对应的控制参数组合。从而本申请中，在确定目标控制参数集合后，可以根据目标控制参数集合中各目标候选控制参数集合携带的自移动设备的标识，确定各移动设备对应的目标候选控制参数集合，从而可以根据各移动设备对应的目标候选控制参数集合，控制对应自移动设备通过声源进行音频播放。

作为另一种可能的实现方式，在合并时，可以从各自移动设备中均选取一个候选控制参数集合，而后，根据各自移动设备的标识，按序对选取的各候选控制参数集合进行排序，得到对应的控制参数组合。

例如，可以为每个自移动设备按序编号，根据自移动设备的编号，按序生成控制参数组合。举例而言，以自移动设备的个数为3个进行示例，按序为三个自移动设备进行标号，得到自移动设备1、自移动设备2、自移动设备3，标记自移动设备1的候选控制参数集合为：候选控制参数集合1-1、候选控制参数集合1-2，自移动设备2的候选控制参数集合为：候选控制参数集合2-1、候选控制参数集合2-2，自移动设备3的候选控制参数集合为：候选控制参数集合3-1、候选控制参数集合3-2，则按序生成的各控制参数组合可以为：{候选控制参数集合1-1，候选控制参数集合2-1，候选控制参数集合3-1}、{候选控制参数集合1-1，候选控制参数集合2-1，候选控制参数集合3-2}、{候选控制参数集合1-1，候选控制参数集合2-2，候选控制参数集合3-1}、{候选控制参数集合1-1，候选控制参数集合2-2，候选控制参数集合3-2}、{候选控制参数集合1-2，候选控制参数集合2-1，候选控制参数集合3-1}、{候选控制参数集合1-2，候选控制参数集合2-1，候选控制参数集合3-2}、{候选控制参数集合1-2，候选控制参数集合2-2，候选控制参数集合3-1}、{候选控制参数集合1-2，候选控制参数集合2-2，候选控制参数集合3-2}。

从而本申请中，在确定目标控制参数集合后，可以根据各自移动设备的标识以及目标控制参数集合，确定各移动设备对应的目标候选控制参数集合，从而可以根据各移动设备对应的目标候选控制参数集合，控制对应自移动设备通过声源进行音频播放。

仍以上述例子示例，当目标控制参数组合为{候选控制参数集合1-2，候选控制参数集合2-1，候选控制参数集合3-2}时，可知自移动设备1对应的目标候选控制参数集合为候选控制参数集合1-2，自移动设备2对应的目标候选控制参数集合为候选控制参数集合2-1，自移动设备3对应的目标候选控制参数集合为候选控制参数集合3-2，此时，可以控制自移动设备1采用候选控制参数集合1-2，通过声源进行音频播放，控制自移动设备2采用候选控制参数集合2-1，通过声源进行音频播放，控制自移动设备3采用候选控制参数集合3-2，通过声源进行音频播放。由此，可以实现控制每个自移动设备移动至所需位置，以所需姿态或者角度站定，并调节各声源的输出功率以及声源支架角度等，以保证生成最优的3D声场。

需要说明的是，当该音频播放的控制装置被配置在自移动设备中，且自移动设备的个数为多个时，本申请可以从多个自移动设备中选择一个作为主控设备，以由该主控设备执行上述步骤，实现对各个自移动设备进行控制。例如，可以随机选取一个自移动设备作为主控设备，或者，还可以由用户指定一个自移动设备作为主控设备，或者，还可以选取一个资源占用率较低的自移动设备作为主控设备，等等，本申请对此并不作限制。

作为一种应用场景，以自移动设备为智能机器人进行示例，在封闭的空间中部署多个具备导航避障功能、可自主移动的智能机器人，假设同一个集群内共有N个智能机器人，N个智能机器人可以通过一种或多种通讯协议进行通讯和组网。在组网成功后，集群内任何一个智能机器人均可和其它智能机器人进行安全可靠地通讯。

其中，每个智能机器人上装备了多个高、中、低音扬声器，每个扬声器可以是固定安装在智能机器人上的，或通过一个具有至少一个自由度移动的支架安装在智能机器人上的。并且，每个智能机器人上都安装了实时操作系统(Real-Time Operating System，简称RTOS)，可以用微秒级精度和集群中的其它智能机器人进行任务同步。此外，集群内所有智能机器人均都同步到一个高精度时钟，该高精度时钟的同步精度可以达到纳秒级。集群中并部署有边缘计算服务器，集群管理服务器及多媒体资源服务器。

并且，集群内的智能机器人可以安装有多种类型传感器，包括但不限于激光雷达、深度传感器、高分辨率图像传感器、可变焦图像传感器、红外图像传感器、视场角(Field OfView，简称FOV)图像传感器、麦克风阵列、接近传感器、红外传感器，hall传感器、环境传感器等等。并且，该封闭空间中除智能机器人外，也可以存在其它智能设备，这些智能设备可以和智能机器人集群组网并共享上述传感器信息。

所有传感器信息都可以实时传输到边缘计算服务器并进行语音、视觉、深度信息等多模态识别，可以识别出封闭空间中用户数量，用户位置，每个用户对象的用户姿态、用户状态、头部朝向等等。当获得上述用户信息后，边缘计算服务器会运行一个3D声场优化算法，计算出每个智能机器人最优的位置，姿态，每个高、中、低音扬声器的输出功率，扬声器支架各自由度的角度等等，并控制集群中每个智能机器人移动到所需的位置和角度，并调节各扬声器的输出功率，及扬声器支架各自由度的角度，以保证生成最优的3D声场。

进一步地，还可以按照预设时间间隔，重复步骤101至105，以保证3D声场能够跟上用户状态的变化，即使用户对象处于移动中，也能为每一个用户对象均提供最优的3D声场。即通过实时监控各用户状态，保证动态的满足所有收听者收听高质的3D声场的需求。

进一步地，还可以基于人脸识别、声纹识别、姿态识别、手势识别、步态识别等生物特征识别方法，识别出密闭空间中的重要服务对象，比如VIP，并优先为VIP进行3D声场优化。即确定VIP的用户位置和用户姿态，预测在各控制参数组合的控制下自移动设备通过配置的声源进行音频播放时，VIP在用户位置以用户姿态接收到音频的音频质量，根据VIP对应的音频质量，从多个控制参数组合中，确定目标控制参数组合，以采用目标控制参数组合控制自移动设备通过声源进行音频播放。

为了实现上述实施例，本申请还提出一种音频播放的控制装置。

图5为本申请实施例五所提供的音频播放的控制装置的结构示意图。

如图5所示，该音频播放的控制装置100包括：获取模块110、预测模块120、确定模块130以及控制模块140。

其中，获取模块110，用于获取至少一个用户对象的用户位置和用户姿态；以及获取自移动设备的多个控制参数组合。

预测模块120，用于预测在各控制参数组合的控制下自移动设备通过配置的声源进行音频播放时，至少一个用户对象在用户位置以用户姿态接收到音频的音频质量。

确定模块130，用于根据至少一个用户对象对应的音频质量，从多个控制参数组合中，确定目标控制参数组合。

控制模块140，用于采用目标控制参数组合控制自移动设备通过声源进行音频播放。

进一步地，在本申请实施例的一种可能的实现方式中，参见图6，在图5所示实施例的基础上，预测模块120，包括：

确定单元121，用于根据各用户对象的用户姿态，确定各用户对象的音频接收角度。

预测单元122，用于针对每一控制参数组合，预测在控制参数组合的控制下自移动设备通过配置的声源进行音频播放时，各用户对象在用户位置以音频接收角度接收到音频的音频质量。

作为一种可能的实现方式，预测单元122，具体用于：根据控制参数组合中自移动设备的姿态参数和声源支架角度参数，确定自移动设备通过声源发出音频的声波角度；根据控制参数组合中自移动设备的位置参数，确定自移动设备通过声源发出音频的声波位置；根据控制参数组合中的功率参数，确定自移动设备通过声源发出音频的声波强度；根据声波角度、声波位置和声波强度，预测声源的声场；根据声场，确定各用户对象在用户位置以音频接收角度接收到音频的音频质量。

进一步地，在本申请实施例的一种可能的实现方式中，参见图6，在图5所示实施例的基础上，当自移动设备为多个时，获取模块110，包括：

获取单元111，用于获取每一个自移动设备的多个候选控制参数集合。

合并单元112，用于对不同自移动设备的多个候选控制参数集合进行合并，以得到多个控制参数组合。

作为一种可能的实现方式，获取单元111，具体用于：对每一个自移动设备，根据移动范围确定多个位置参数，根据姿态调整范围确定多个姿态参数，根据支架角度调整范围确定多个声源支架角度参数，以及根据声源输出功率范围确定多个功率参数；将多个位置参数、多个姿态参数、多个声源支架角度参数、多个功率参数进行组合，以生成多个候选控制参数集合，其中，每一个候选控制参数集合中包括位置参数、姿态参数、功率参数和声源支架角度参数各一个。

作为一种可能的实现方式，用户对象为多个，确定模块130，具体用于：确定多个用户对象的权重；根据多个用户对象的权重，对同一控制参数组合控制下进行音频播放时多个用户对象的音频质量进行加权，以得到多个控制参数组合对应的加权音频质量；根据多个控制参数组合对应的加权音频质量，从多个控制参数组合中，确定目标控制参数组合。

切换模块150，用于根据至少一个用户对象中目标用户的用户位置和用户姿态，确定对应的控制指令；根据控制指令，切换声源播放的音频。

需要说明的是，前述对音频播放的控制方法实施例的解释说明也适用于该实施例的音频播放的控制装置100，此处不再赘述。

本申请实施例的音频播放的控制装置，通过获取至少一个用户对象的用户位置和用户姿态，并获取自移动设备的多个控制参数组合，以预测在各控制参数组合的控制下自移动设备通过配置的声源进行音频播放时，至少一个用户对象在用户位置以用户姿态接收到音频的音频质量，继而根据至少一个用户对象对应的音频质量，从多个控制参数组合中，确定目标控制参数组合，以采用目标控制参数组合控制自移动设备通过声源进行音频播放。由此，可以实现根据用户位置和用户姿态，自适应地调整自移动设备的控制参数，使得自移动设备以最佳的控制参数，通过声源进行音频播放，可以实现为每一个用户对象均提供高质量的音频服务，提升用户对象的听觉体验。

为了实现上述实施例，本申请还提出一种电子设备。

图7为本发明实施例七所提供的电子设备的结构示意图。

如图7所示，该电子设备包括：存储器201、处理器202及存储在存储器201上并可在处理器202上运行的计算机程序，处理器202执行程序时，实现如本申请前述实施例提出的音频播放的控制方法。

本申请实施例中，电子设备例如可以为上述实施例中的自移动设备、与自移动设备联网的服务器、与自移动设备通信的控制设备、与控制设备联网的服务器。

需要说明的是，当电子设备为上述实施例中的自移动设备，且自移动设备为多个时，本申请可以从多个自移动设备中选择一个作为主控设备，将该主控设备作为电子设备，以由该电子设备执行上述步骤，实现对各个自移动设备进行控制。例如，可以随机选取一个自移动设备作为主控设备，或者，还可以由用户指定一个自移动设备作为主控设备，或者，还可以选取一个资源占用率较低的自移动设备作为主控设备，或者，还可以根据自移动设备的编号，选取编号靠前的自移动设备作为主控设备，等等，本申请对此并不作限制。

需要说明的是，前述对音频播放的控制方法实施例的解释说明也适用于该实施例的电子设备，此处不再赘述。

为了实现上述实施例，本申请还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请前述实施例提出的音频播放的控制方法。

需要说明的是，前述对音频播放的控制方法实施例的解释说明也适用于该实施例的非临时性计算机可读存储介质，此处不再赘述。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种音频播放的控制方法，其特征在于，所述方法包括以下步骤：

获取至少一个用户对象的用户位置和用户姿态；

获取自移动设备的多个控制参数组合；

2.根据权利要求1所述的控制方法，其特征在于，所述预测在各所述控制参数组合的控制下所述自移动设备通过配置的声源进行音频播放时，所述至少一个用户对象在所述用户位置以所述用户姿态接收到音频的音频质量，包括：

3.根据权利要求2所述的控制方法，其特征在于，所述针对每一所述控制参数组合，预测在所述控制参数组合的控制下所述自移动设备通过配置的声源进行音频播放时，各所述用户对象在所述用户位置以所述音频接收角度接收到音频的音频质量，包括：

4.根据权利要求1所述的控制方法，其特征在于，所述自移动设备为多个，所述获取自移动设备的多个控制参数组合，包括：

获取每一个所述自移动设备的多个候选控制参数集合；

5.根据权利要求4所述的控制方法，其特征在于，所述获取每一个所述自移动设备的多个候选控制参数集合，包括：

6.根据权利要求1-5任一项所述的控制方法，其特征在于，所述用户对象为多个，所述根据所述至少一个用户对象对应的音频质量，从所述多个控制参数组合中，确定目标控制参数组合，包括：

确定多个所述用户对象的权重；

7.根据权利要求1-5任一项所述的控制方法，其特征在于，所述获取至少一个用户对象的用户位置和用户姿态之后，还包括：

根据所述控制指令，切换所述声源播放的音频。

8.一种音频播放的控制装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1-7中任一所述的音频播放的控制方法。

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的音频播放的控制方法。