CN114520950B

CN114520950B - 音频输出方法、装置、电子设备及可读存储介质

Info

Publication number: CN114520950B
Application number: CN202210011062.7A
Authority: CN
Inventors: 吴晓光; 胡金铃
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2022-01-06
Filing date: 2022-01-06
Publication date: 2024-03-01
Anticipated expiration: 2042-01-06
Also published as: CN114520950A

Abstract

本申请公开了一种音频输出方法、装置、电子设备及可读存储介质，属于通信技术领域。该方法包括：在播放第一音频的情况下，获取第一音频的音频信息，该音频信息包括：第一音频的录制环境中的M个声源的第一音频信息；基于录制环境中的每个声源相对于目标收听位置的位置信息，分别对各个声源的第一音频信息进行处理，得到M个声源的第二音频信息；基于上述M个声源的第二音频信息，输出第二音频。

Description

音频输出方法、装置、电子设备及可读存储介质

技术领域

本申请属于通信技术领域，具体涉及一种音频输出方法、装置、电子设备及可读存储介质。

背景技术

随着通信技术的发展，手机、平板电脑等电子设备的智能化程度不断提高，以满足用户的各种需求。目前，用户通常使用电子设备的录音功能进行现场录音，从而方便地进行会议记录。

在相关技术中，通常是在会议过程中，利用电子设备的录音功能对会议的各人员的发言进行录音，得到一个会议的录音文件，从而在会议结束后回放录音文件，或者播放录音文件进行文字转写，以整理会议记录等等。然而，在后期播放录音文件时，由于该录音文件的播放过程无法还原会议现场的发言场景，如此，使得录音文件的播放过程比较枯燥，缺少现场代入感，从而导致录音文件的播放效果较差。

发明内容

本申请实施例的目的是提供一种音频输出方法、装置、电子设备及可读存储介质，能够解决录音文件的播放效果较差的问题。

第一方面，本申请实施例提供了一种音频输出方法，该方法包括：在播放第一音频的情况下，获取第一音频的音频信息，该音频信息包括：第一音频的录制环境中的M个声源的第一音频信息；基于录制环境中的每个声源相对于目标收听位置的位置信息，分别对各个声源的第一音频信息进行处理，得到M个声源的第二音频信息；基于上述M个声源的第二音频信息，输出第二音频。

第二方面，本申请实施例提供了一种音频输出装置，该装置包括：获取模块，处理模块和输出模块，其中：上述获取模块，用于在播放第一音频的情况下，获取第一音频的音频信息，上述音频信息包括：第一音频的录制环境中的M个声源的第一音频信息；上述处理模块，用于基于录制环境中的每个声源相对于目标收听位置的位置信息，分别对上述获取模块获取的各个声源的第一音频信息进行处理，得到上述M个声源的第二音频信息；上述输出模块，用于基于上述处理模块得到的所述M个声源的第二音频信息，输出第二音频。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。

在本申请实施例中，在播放第一音频的情况下，音频输出装置获取该第一音频的音频信息，该音频信息包括：第一音频的录制环境中的M个声源的第一音频信息，然后，基于该第一音频的录制环境中的每个声源相对于目标收听位置的位置信息，分别对各个声源的第一音频信息进行处理，得到上述M个声源的第二音频信息，最后基于该M个声源的第二音频信息，输出第二音频。通过该方法，音频输出装置可以根据录制环境中的不同声源与收听位置之间的相对位置关系，对每个声源进行处理，从而输出带有空间特性的环绕声，使得收听者产生在现场中的收听位置收听音频的临场感，从而提高音频的播放效果。

附图说明

图1是本申请实施例提供的一种音频输出方法的流程图；

图2(a)是本申请实施例提供的一种音频输出方法所应用的界面的示意图之一；

图2(b)是本申请实施例提供的一种音频输出方法所应用的界面的示意图之二；

图3是本申请实施例提供的一种音频输出方法所应用的界面的示意图之三；

图4是本申请实施例提供的一种音频输出方法所应用的界面的示意图之四；

图5是本申请实施例提供的一种音频输出方法所应用的界面的示意图之五；

图6是本申请实施例提供的一种音频输出装置的结构示意图；

图7是本申请实施例提供的一种电子设备的硬件结构示意图之一；

图8是本申请实施例提供的一种电子设备的硬件结构示意图之二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的音频输出方法进行详细地说明。

本申请实施例提供了一种音频输出方法，图1示出了本申请实施例提供的音频输出方法的流程图。如图1所示，本申请实施例提供的音频输出方法可以包括下述的步骤201至步骤203：

步骤201：音频输出装置获取第一音频的音频信息。

其中，上述音频信息包括：第一音频的录制环境中的M个声源的第一音频信息。

在本申请实施例中，上述第一音频包括：由录音装置(如麦克风)对至少一个声源进行声音采集所得到的音频数据。例如，在会议中，通过手机的麦克风对发言人的声音进行录制，得到记录会议内容的音频。

在本申请实施例中，上述录制环境可以包括第一音频的录制场所和空间。示例性地，上述录制环境可以包括但不限于：会议环境、辩论环境、日常生活环境以及办公环境等等。

需要说明的是，在一些情况下，上述的录制环境也可以为录制场景。

在本申请实施例中，上述M个声源为第一音频的录制环境中的M个发声对象。示例性地，上述M个声源可以包括录制环境中的部分声源或者全部声源。

在本申请实施例中，上述第一音频信息为第一音频的录制环境中，每个声源对应的音频信息。示例性地，一个声源对应一个第一音频信息。

例如，以录制环境为会议环境为例。假设在发言人A和发言人B发言的情况下，对发言人A和发言人B的讲话内容进行录制，得到录音(即第一音频)，则该录音中包括了发言人A和发言人B的音频信息，即第一音频的音频信息包括发言人A(即声源A)的音频信息(即第一音频信息)和发言人B(即声源B)的音频信息(即第一音频信息)。

可选地，在本申请实施例中，音频输出装置可以对第一音频进行语音分离处理，获取第一音频的录制环境中的M个声源的第一音频信息。

示例性地，音频输出装置可以通过波束成形技术或者声纹识别技术，识别第一音频中来自不同声源的音频信息，并得到不同声源的音频信息。例如，在会议场景中录音时，得到的录音中包括多个发言人的声音，则可以通过波束成形及AI声纹识别技术将录音中的不同发言人的音频信息进行分离，得到各个发言人的音频信息。

步骤202：音频输出装置基于录制环境中的每个声源相对于目标收听位置的位置信息，分别对各个声源的第一音频信息进行处理，得到上述M个声源的第二音频信息。

在本申请实施例中，上述目标收听位置可以包括以下至少一项：录音装置所在的位置，录制环境中的任一生物体所在的位置(如，发言人所在的位置)。

可选地，上述目标收听位置可以是默认的，或者是由用户自定义的。例如，默认目标收听位置为录音装置所处的位置，或者可以由用户选择录音环境中的某一位置作为目标收听位置。

在本申请实施例中，声源相对于目标收听位置位置信息可以包括：声源所在的位置相对于目标收听位置的角度信息。

可选地，在本申请实施例中，音频输出装置可以根据第一音频的录制环境的场景影像信息，获取录制环境中的各个声源相对于目标收听位置的位置信息，或者通过波束成形(beamforming)及AI声纹技术，根据各个声源发出的声音确定各个声源相对于目标收听位置的位置信息。

可选地，在本申请实施例中，音频输出装置可以根据各个声源以及目标收听位置之间的位置关系，获取各个声源与目标收听位置之间的角度信息。

示例性地，音频输出装置可以基于录制环境中各个声源以及目标收听位置，建立反映各个声源和目标收听位置的位置关系的坐标系，通过在该坐标系中计算各个声源与目标收听位置之间的方位角度，得到各个声源与目标收听位置之间的角度信息。

以下是通过坐标系来确定各个声源相对于目标收听位置的位置信息的一种示例：

示例1，以录制环境为会议环境，录音装置为手机为例。图2(a)示出了会议环境的场景俯视图。会议场景中包括四边形会议桌21，会议桌的第一侧放置有参会人A和参会人B的座位，会议桌第二侧放置有参会人C座位，会议桌的第三侧放置有参会人D、参会人E和参会人F的座位，会议主持人G位于会议桌的第四侧的前方位置，其中，上述参会人中的发言人为一个声源，用户会议录音的手机22(即录音装置)放置于该会议桌的桌面的中心位置，并且在对会议中各参会人的发言进行录音。

示例2，结合上述图2(a)，如图2(b)所示，假设目标收听位置为手机22所在的位置，以手机22为坐标原点建立坐标系(包括原点，x轴和y轴)，发言人A所在的位置与原点之间的连线与坐标纵轴(y轴)之间的角度为α，发言人F所在的位置与原点之间的连线与坐标纵轴(y轴)之间的角度为β，则可以确定发言人A相对于目标收听位置的角度为α，发言人B相对于目标收听位置的角度为β。

可选地，在本申请实施例中，音频输出装置可以基于M个声源中的每个声源所在的位置相对于目标收听位置的位置信息(即，角度信息)，分别对每个声源的音频信息进行滤波处理，得到每个声源的第二音频信息。

可选地，音频输出装置可以基于每个声源相对于目标收听位置的位置信息，通过头相关传输函数(Head Related Transfer Functions，HRTF)，对每个声源的音频信息进行处理，以得到每个声源的第二音频信息。示例性地，音频输出装置在获取到每个声源相对于目标收听位置的角度信息后，可以将该角度信息输入到HRTF系统，在HRTF系统中基于每个声源的角度信息对该声源的音频信息进行滤波处理，得到每个声源的第二音频信息。

需要说明的是，在一般的会议场景中，参会人在现场听到的正在发言的参会人的声音具有空间音频(3D环绕)特征，此特征主要依靠人的双耳效应(声源到达两个耳朵的时间差/相位差、响度差不同，从而区分声音的左右)和耳廓效应(不同位置声源通过耳廓形状的反射、绕射后，进入到耳道内的路径不同，产生了滤波效果，从而区分声音的前后、上下)实现，整个人头通过以上两个效应组成了一个针对声音的滤波系统——HRTF(头相关传递函数)系统，不同方向的声源(通过波束成形及AI声纹进行不同角色的声音分离得到)经过此系统的过滤，最终输入到耳道内，混合形成立体声，此立体声内容包含了空间音频效果。

步骤203：音频输出装置基于上述M个声源的第二音频信息，输出第二音频。

可选地，在本申请实施例中，音频输出装置可以对M个声源的第一音频信息进行合成，得到第二音频，并输出该音频信息。

在一种可能的实现中，音频输出装置可以在录制第一音频的情况下，从第一音频中分离出不同声源的第一音频信息，以及获取各个声源相对于目标收听位置的位置信息，然后分别对各个声源的第一音频信息处理，得到第二音频。

在另一种可能的实现中，音频输出装置可以在播放第一音频的情况下，从第一音频中分离出不同声源的第一音频信息，以及获取各个声源相对于目标收听位置的位置信息，然后分别对各个声源的第一音频信息处理，并基于处理后的第一音频信息输出第二音频。

可选地，在对第一音频信息进行滤波处理后，音频输出装置可以通过HRTF系统对处理后的第一音频信息进行合成，得到第二音频。

示例性地，在基于角度信息对第一音频进行滤波处理后，得到的每个第二音频信息为具备声源方向特征的音频信息，即处理后的每个声源的音频信息具备双耳效应，能够模拟收听者在现场听到声音的情景。在对M个声源的第二音频信息进行合成后，可以得到具备空间音频效果的第二音频。如此，在播放音频时，便可以输出带有空间特征的环绕声，从而使用户产生在现场中的收听位置收听的临场感。

在本申请实施例提供的音频输出方法中，在播放第一音频的情况下，音频输出装置获取该第一音频的音频信息，该音频信息包括：第一音频的录制环境中的M个声源的第一音频信息，然后，基于该第一音频的录制环境中的每个声源相对于目标收听位置的位置信息，分别对各个声源的第一音频信息进行处理，得到上述M个声源的第二音频信息，最后基于该M个声源的第二音频信息，输出第二音频。通过该方法，音频输出装置可以根据录制环境中的不同声源与收听位置之间的相对位置关系，对每个声源进行处理，从而输出带有空间特性的环绕声，从而实现了模拟收听人在现场中收听位置收听时的场景，使得收听者产生在现场中的收听位置收听音频的临场感，从而提高音频的播放效果。

可选地，在本申请实施例中，上述步骤202中基于录制环境中的每个声源相对于目标收听位置的位置信息，分别对各个声源的第一音频信息进行处理之前，本申请实施例提供的音频输出方法还包括如下步骤204至步骤206：

步骤204：音频输出装置显示第一音频的录制环境界面。

其中，上述录制环境界面用于展示录制环境，该录制环境界面包括：N个对象标识，一个对象标识指示一个对象，即录制环境界面包括N个对象对应的N个对象标识。

步骤205：音频输出装置接收用户在上述录制环境界面的第一输入。

步骤206：音频输出装置响应于上述第一输入，基于第一输入的输入位置，从上述录制环境中，确定目标收听位置。

可选地，上述录制环境界面包括第一音频的录制环境的空间环境信息，即，上述录制环境界面可以映射实际的录制环境。示例性地，上述空间环境信息可以包括：录制环境的空间信息以及录制环境中的各个对象(人物、物品)的信息。如此，音频输出装置通过展示录制环境界面，使得用户可以通过录制环境界面再现实际的录制环境，从而使用户产生临场感。

可选地，上述第一输入用于用户从录制环境中，确定目标收听位置。示例性地，上述第一输入可以包括以下任一项：用户的触控输入，语音输入，手势输入，或者，其他可行性输入，本申请实施例对此不做限定。进一步地，上述触控输入可以为：用户的点击输入，滑动输入，按压输入等。进一步地，上述点击操作可以为任意次数的点击操作。上述滑动操作可以为向任意方向的滑动操作，例如向上滑动、向下滑动、向左滑动或者向右滑动等，在本申请实施例中对此不做限定。

在一种示例中，在回放第一音频的情况下，可以将目标收听位置确定为录音设备(如手机)摆放的位置。

示例3，以录制环境为会议环境为例。结合上述示例2，在会议过程中使用录音装置进行录音得到会议音频后，在通过录音装置回放该会议音频的情况下，音频输出装置显示录制环境界面，该录制环境界面可以映射实际的会议环境。在收听会议音频时，默认收听位置(即目标收听位置)为录音装置摆放的位置，使得用户可以产生身处会议现场录音装置所在的位置的临场感。

在另一种示例中，用户可以在录制环境界面中自主选择收听位置。

示例4，结合上述示例3，若用户想选择其他的位置作为收听位置，则用户可以通过在录制环境界面中的输入，自由选择收听位置。在用户点击该录制环境界面中的区域A后，可以将该区域A对应的会议环境中的位置确定为上述目标收听位置，从而在后续输出相对于该位置具有方向性的音频，使得在用户在回放时收听音频时，产生身处目标收听位置收听音频的临场感。如此，提高音频播放效果。

进一步可选地，在本申请实施例中，上述录制环境界面包括：目标标识。

可选地，上述步骤205可以包括如下步骤205a：

步骤205a：音频输出装置接收用户对目标标识的触控输入；

其中，上述目标收听位置为：上述触控输入的结束位置对应的收听位置。

示例性地，上述触控输入可以为用户拖动目标标识的拖动输入。示例性地，上述触控输入的结束位置为上述拖动输入的拖动终点所在位置。

可选地，上述目标标识用于指示录制环境中的目标收听位置。示例性地，上述目标标识可以包括以下任意一项：图片、图标、文字以及图案等等，上述目标标识还可以是其他任意形式，本申请实施例对此不做任何限定。示例性地，上述目标标识可以默认在录制环境界面的目标位置(如，会议环境中的主持人的位置)显示，用户可以通过拖动将其移动至录制环境界面中的任意位置。

在一种实现中，音频输出装置在接收用户对目标标识的拖动输入后，更新目标标识的显示位置，并将更新后的显示位置在录制环境中对应的收听位置确定为目标收听位置。

示例5，以录制环境为会议环境为例。结合上述图2(a)，在会议过程中录制得到会议音频后，如图3所示，在播放该会议音频的情况下，显示该会议音频的录制环境界面31，该录制环境界面中包括音频播放信息(即，波形示意图32、播放进度标识33以及播放进度时间信息)，标识34，录制环境信息以及播放按钮35。其中，上述该录制环境信息包括：会议环境的空间布局信息(如会议桌、参会人、主持人在会议环境中的空间位置)，会议环境中的各个参会人的位置标识(图中的3a、3b、3c、3d、3e以及3f)以及会议主持人的位置标识36，为了较为真实地还原回忆场景，可以在录制环境界面中显示人物形状的标识。在播放会议音频时，该标识34默认处于录制环境界面31的左上方位置，在用户将该标识34拖动至“会议主持人”所在位置时，则将录制环境中主持人所在的位置确定为目标收听位置。使得在回放该会议录音时，能够使用户产生此刻处于会议现场的主持人位置的临场感。

以下结合上述目标收听位置对声源相对于目标收听位置的位置信息进行进一步说明：

示例性地，在目标收听位置为录制环境中的位置1的情况下，声源A和声源B相对于目标收听位置(位置1)的角度分别为α1和β1，在用户通过录制环境界面的选择输入，将目标收听位置更新为位置2的情况下，声源A和声源B相对于目标收听位置(位置2)的角度分别为α2和β2，即在目标收听位置更新后，声源的角度信息也会随之改变，在通过更新后的角度信息对声源的音频信息进行处理后，即可得到更新后的收听位置处的空间音频输出。

举例说明，结合上述图2(a)和图2(b)，如图4所示，假设默认的目标收听位置为手机所在的位置，以录音装置41为坐标原点建立坐标系(横轴为x，纵轴为y)，发言人A所在的位置与原点之间的连线与坐标纵轴(y轴)之间的角度为α，发言人F所在的位置与原点之间的连线与坐标纵轴(y轴)之间的角度为β，则可以确定发言人A相对于目标收听位置的角度为α，发言人B相对于目标收听位置的角度为β。在用户在录制环境界面中将目标收听位置更新为主持人G所在的位置时，以该主持人G为位置为坐标原点建立坐标系(横轴为x’，纵轴为y’)，则发言人A对应的角度信息从角度α更新为角度α’，则发言人B对应的角度信息从角度β更新为角度β’。如此，随着收听位置的改变，各个发言人的声音角度也随着改变，从而为不同收听位置的用户带来更强的临场感，提高音频播放效果。

进一步可选地，在本申请实施例中，上述录制环境界面包括：M个声源的位置标识。

可选地，上述步骤205可以包括如下步骤205b：

步骤205b：音频输出装置接收用户对上述M个声源中的目标声源的位置标识的第一输入。

其中，上述目标收听位置为：上述目标声源在录制环境中所处的位置。

可选地，上述目标收听位置可以为录音环境中，任一声源所处的位置。例如，在进行会议时，每个参会的发言人可以视为一个声源，则任一发言人所处的位置均可以作为目标收听位置。

示例性地，上述位置标识可以包括以下任一项：图片、图标、图案以及文字等等。例如，在会议场景中，上述位置标识可以为各个参会人在会议现场的就坐示意图。

示例性地，音频输出装置在接收用户对目标声源的位置标识的第一输入后，可以获取该目标声源在录制环境中的位置，然后将该位置确定为目标收听位置。例如，在会议场景中，在用户点击发言人A的位置标识后，将该发言人A在会议环境中的位置确定为目标收听位置。如此，可以将会议场景中的任一发言人所在的位置确定为收听位置，使得该发言人在收听录音回放时，产生临场感，提高音频播放效果。

进一步可选地，在本申请实施例中，上述步骤205可以包括如下步骤205c：

步骤205c：音频输出装置接收用户对上述N个对象标识中的目标对象标识的第一输入。

其中，上述目标收听位置为：上述目标对象标识指示的对象在录制环境中所处的位置。

示例性地，上述N个对象可以为录制环境中的收听者。例如，在录制环境为会议环境时，上述N个对象可以为会议室中的全部或者部分参会人。

可选地，上述目标收听位置可以为录音环境中，任一对象所处的位置。

示例性地，上述对象标识可以包括以下任一项：图片、图标、图案以及文字等等。例如，在会议场景中，上述对象标识可以为指示各个参会人的图标。

示例性地，音频输出装置在接收用户对目标对象标识的第一输入后，可以获取该目标对象标识指示的对象在录制环境中的位置，然后将该位置确定为目标收听位置。例如，在会议场景中，在用户点击参会人A的图标后，将该参会人A在会议室中的位置确定为目标收听位置。如此，可以将会议场景中的任一参会人所在的位置确定为收听位置，使得该参会人在收听录音回放时，产生临场感，提高音频播放效果。

进一步可选地，在本申请实施例中，上述录制环境界面包括：录制第一音频的录音装置的位置标识。

可选地，上述步骤205可以包括如下步骤205d：

步骤205d：音频输出装置接收用户对上述录音装置的位置标识的第一输入。

其中，上述目标收听位置为：上述录音装置在录制环境中所处的位置。

举例说明，以录制环境为会议环境为例。假设在会议过程中，用户手持手机对各发言人的发言进行录制，在用户后期回放该会议录音时，可以选择收听位置为该手机所在的位置。如此，用户可以自主选择将录音装置所在的位置确定为目标收听位置，可以极大程度还原会议现场中的发言情景，从而在在收听录音回放时，产生在会议现场收听声音的临场感。

进一步可选地，在本申请实施例中，本申请实施例提供的音频输出方法还包括如下步骤207：

步骤207：音频输出装置在播放第一音频的过程中，实时更新上述录制环境界面。

可选地，上述步骤207可以包括如下步骤207a：

步骤207a：音频输出装置在播放第一音频的过程中，按照目标显示方式显示第一声源的位置标识。

其中，上述第一声源包括：第一音频中当前播放的音频信息对应的声源。

可选地，音频输出装置在接收用户在录制环境界面上的播放按钮的输入后，播放第一音频。

示例性地，上述目标显示方式可以包括以下至少一项：以目标颜色显示，添加目标动画显示等等。

在具体的实现中，在第一音频包括M个声源的音频信息的情况下，在播放第一音频的过程中，音频输出装置可以实时获取当前输出的音频信息对应的声源(即第一声源)，并在录制环境界面上以目标颜色显示当前输出的音频信息对应的声源的位置标识，以及在该位置标识添加发声动画。

举例说明，以录制环境为会议环境，录音装置为手机为例。结合上述的图2中(a)和图3。如图5所示，在播放会议录音的过程中，假设当前播放的音频信息为参会人A的发言内容，则在录制环境界面将参会人A的位置标识3a置灰显示，并在该参会人的位置标识3a下方添加发声动画51，以从多个参会人中区分当前发言的参会人。如此，实现了听觉效果与视觉效果的配合，增加用户收听音频的临场感，提高音频播放效果。

进一步可选地，在本申请实施例中，上述步骤207a可以包括如下步骤207a1和步骤207a2：

步骤207a1：音频输出装置在播放第一音频的过程中，根据当前播放的第一音频的音频信息，实时确定第一声源。

步骤207a2：音频输出装置按照上述目标显示方式实时显示第一声源的位置标识。

举例说明，以录制环境为会议环境为例。在播放第一音频的过程中，在参会人A发言时，将参会人A的标识高亮显示，并在参会人A的标识周围显示“发声”动画，在发言人切换为参会人B时，取消对参会人A的标识的高亮显示以及取消显示“发声”动画，并高亮显示参会人B的标识，并在参会人B的标识周围显示“发声”动画。如此在不同的参会人发言时，也可以在界面上进行颜色区分和发声动画的指示，实现听觉效果配合视觉效果，从而实现更佳的临场感。

进一步可选地，在本申请实施例中，上述目标收听位置包括：目标对象在录制环境中所处的位置，本申请实施例提供的音频输出方法还包括如下步骤208a和步骤208b：

步骤208a：音频输出装置实时确定所述目标对象在所述录制环境中的位置；

步骤208b：音频输出装置在目标对象在所述录制环境中的位置变化的情况下，更新目标收听位置。

结合上述步骤208a和步骤208b，上述步骤202可以包括如下步骤202a：

步骤202a：音频输出装置基于录制环境中的每个声源相对于更新后的目标收听位置的位置信息，分别对各个声源的第一音频信息进行处理，得到M个声源的第二音频信息。

举例说明，以录制环境为会议环境为例。在目标收听位置为参会人C在会议室中的位置的情况下，当参会人C处于在会议室中的位置1时，音频输出装置可以基于该位置1和会议中的各个声源所在的位置，输出模拟声源方位的第二音频，当参会人C从会议室中的位置1处移动至会议室中的位置2时，音频输出装置可以基于该位置2，输出模拟声源方位的第二音频。如此，使得目标收听位置可以跟随收听者的实际位置进行动态调整，且基于收听者和录制时声源的相对位置，播放设备可以实时调整输出的第二音频以实现模拟声源的方位，提高音频播放效果。

进一步可选地，在本申请实施例中，上述第一视频为在会议场景下录制的视频。

可选地，上述步骤204之前，本申请实施例提供的音频输出方法还包括如下步骤A1至步骤A3：

步骤A1：音频输出装置显示X个第一标识。

其中，一个第一标识用于指示一种会议桌型。

步骤A2：音频输出装置接收用户对上述X个第一标识中的目标标识的第二输入。

步骤A3：音频输出装置响应于上述第二输入，基于目标标识指示的目标会议桌型和上述位置信息，展示上述M个声源的位置标识。

示例性地，上述X个标识可以为X个桌型示意图。进一步地，上述X个桌型包括但不限于：圆形、矩形、椭圆形、梯形等等任一可能的桌型。

示例性地，上述第二输入可以包括以下任一项：触控输入、手势输入以及语音输入等等，上述第二输入还可以是其他任一具备可行性的输入，本申请实施例对此不做任何限定。

示例性地，音频输出装置可以根据用户选择的桌型，结合录制环境中的每个声源相对于目标收听位置的位置信息，在录制环境界面展示M个声源的位置标识。

举例说明，以录制环境为会议环境为例。假设会议场所为矩形会议桌，各个参会人分别就坐于该矩形会议桌的周围，在通过会议现场的图像获取到每个参会人相对于收听位置的角度信息后，可以根据会议现场的桌型以及角度信息，更加准确地显示各个声源的位置标识，从而更加真实地还原会议现场。

本申请实施例提供的音频输出方法，执行主体可以为音频输出装置。本申请实施例中以音频输出装置执行音频输出方法为例，说明本申请实施例提供的音频输出装置。

本申请实施例提供一种音频输出装置，如图6所示，该控制装置600包括：

获取模块601，处理模块602和输出模块603，其中：上述获取模块601，用于获取第一音频的音频信息，上述音频信息包括：第一音频的录制环境中的M个声源的第一音频信息；上述处理模块602，用于基于录制环境中的每个所述声源相对于目标收听位置的位置信息，分别对获取模块601获取的各个声源的第一音频信息进行处理，得到M个声源的第二音频信息；上述输出模块，用于基于处理模块602得到的M个声源的第二音频信息，输出第二音频。

可选地，在本申请实施例中，上述装置还包括：显示模块；上述显示模块，用于显示第一音频的录制环境界面；该录制环境界面用于展示所述录制环境，所述录制环境界面包括：N个对象标识，一个对象标识指示一个对象；上述装置还包括：接收模块和确定模块，其中：上述接收模块，用于接收用户在录制环境界面的第一输入；上述确定模块，用于响应于上述接收模块接收的第一输入，基于第一输入的输入位置，从录制环境中，确定目标收听位置。

可选地，在本申请实施例中，上述录制环境界面包括：目标标识；上述接收模块，具体用于接收用户对目标标识的触控输入；其中，上述目标收听位置为：触控输入的结束位置对应的收听位置。

可选地，在本申请实施例中，上述接收模块，还用于接收用户对N个对象标识中的目标对象标识的第一输入；其中，上述目标收听位置为：上述目标对象标识指示的对象在录制环境中所处的位置。

可选地，在本申请实施例中，上述装置还包括：更新模块；上述更新模块，用于在播放所述第一音频的过程中，实时更新录制环境界面；上述显示模块，具体用于在播放第一音频的过程中，按照目标显示方式显示第一声源的位置标识；其中，上述第一声源包括：第一音频中当前播放的音频信息对应的声源。

可选地，在本申请实施例中，该装置还包括：确定模块；上述确定模块，用于在播放第一音频的过程中，根据当前播放的第一音频的音频信息，实时确定第一声源；上述显示模块，具体用于按照目标显示方式实时显示第一声源的位置标识。

可选地，在本申请实施例中，上述装置还包括：确定模块；上述确定模块，用于实时确定目标对象在所述录制环境中的位置；上述装置还包括：更新模块；上述更新模块，用于在目标对象在录制环境中的位置变化的情况下，更新目标收听位置；上述处理模块，具体用于基于录制环境中的每个声源相对于更新后的目标收听位置的位置信息，分别对各个声源的第一音频信息进行处理，得到M个声源的第二音频信息。

可选地，在本申请实施例中，上述第一音频为在会议场景下录制的音频；上述显示模块，还用于显示X个第一标识，一个第一标识用于指示一种会议桌型；上述接收模块，还用于接收用户对上述X个第一标识中的目标标识的第二输入；上述显示模块，还用于响应于接收模块接收的第二输入，基于目标标识指示的目标会议桌型和位置信息，展示上述M个声源的位置标识。

在本申请实施例提供的音频输出装置中，在播放第一音频的情况下，音频输出装置获取该第一音频的音频信息，该音频信息包括：第一音频的录制环境中的M个声源的第一音频信息，然后，基于该第一音频的录制环境中的每个声源相对于目标收听位置的位置信息，分别对各个声源的第一音频信息进行处理，得到上述M个声源的第二音频信息，最后基于该M个声源的第二音频信息，输出第二音频。通过该方法，音频输出装置可以根据录制环境中的不同声源与收听位置之间的相对位置关系，对每个声源进行处理，从而输出带有空间特性的环绕声，使得收听者产生在现场中的收听位置收听音频的临场感，从而提高音频的播放效果。

本申请实施例中的音频输出装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtualreality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personalcomputer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的音频输出装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为iOS操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的音频输出装置能够实现图1至图5的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图7所示，本申请实施例还提供一种电子设备700，包括处理器701和存储器702，存储器702上存储有可在所述处理器701上运行的程序或指令，该程序或指令被处理器701执行时实现上述音频输出方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图8为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备100包括但不限于：射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、以及处理器110等部件。

本领域技术人员可以理解，电子设备100还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图8中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，上述处理器110，用于获取第一音频的音频信息，上述音频信息包括：第一音频的录制环境中的M个声源的第一音频信息；上述处理器110，还用于基于录制环境中的每个所述声源相对于目标收听位置的位置信息，分别对获取的各个声源的第一音频信息进行处理，得到M个声源的第二音频信息；上述输出模块，用于基于得到的M个声源的第二音频信息，输出第二音频。

可选地，在本申请实施例中，上述显示单元106，用于显示第一音频的录制环境界面；该录制环境界面用于展示所述录制环境，上述录制环境界面包括：N个对象标识，一个对象标识指示一个对象；上述用户输入单元107，用于接收用户在录制环境界面的第一输入；上述处理器110，用于响应于上述用户输入单元107接收的第一输入，基于第一输入的输入位置，从录制环境中，确定目标收听位置。

可选地，在本申请实施例中，上述录制环境界面包括：目标标识；上述用户输入单元107，具体用于接收用户对目标标识的触控输入；其中，上述目标收听位置为：触控输入的结束位置对应的收听位置。

可选地，在本申请实施例中，上述用户输入单元107，还用于接收用户对N个对象标识中的目标对象标识的第一输入；其中，上述目标收听位置为：上述目标对象标识指示的对象在录制环境中所处的位置。

可选地，在本申请实施例中，上述处理器110，还用于在播放所述第一音频的过程中，实时更新录制环境界面；上述显示单元106，具体用于在播放第一音频的过程中，按照目标显示方式显示第一声源的位置标识；其中，上述第一声源包括：第一音频中当前播放的音频信息对应的声源。

可选地，在本申请实施例中，上述处理器110，用于在播放第一音频的过程中，根据当前播放的第一音频的音频信息，实时确定第一声源；上述显示模块，具体用于按照目标显示方式实时显示第一声源的位置标识。

可选地，在本申请实施例中，上述处理器110，用于实时确定目标对象在所述录制环境中的位置；上述处理器110，还用于在目标对象在录制环境中的位置变化的情况下，更新目标收听位置；上述处理器110，具体用于基于录制环境中的每个声源相对于更新后的目标收听位置的位置信息，分别对各个声源的第一音频信息进行处理，得到M个声源的第二音频信息。

可选地，在本申请实施例中，上述第一音频为在会议场景下录制的音频；上述显示单元106，还用于显示X个第一标识，一个第一标识用于指示一种会议桌型；上述接收模块，还用于接收用户对上述X个第一标识中的目标标识的第二输入；上述显示单元106，还用于响应于接收模块接收的第二输入，基于目标标识指示的目标会议桌型和位置信息，展示上述M个声源的位置标识。

在本申请实施例提供的电子设备中，在播放第一音频的情况下，音频输出装置获取该第一音频的音频信息，该音频信息包括：第一音频的录制环境中的M个声源的第一音频信息，然后，基于该第一音频的录制环境中的每个声源相对于目标收听位置的位置信息，分别对各个声源的第一音频信息进行处理，得到上述M个声源的第二音频信息，最后基于该M个声源的第二音频信息，输出第二音频。通过该方法，电子设备可以根据录制环境中的不同声源与收听位置之间的相对位置关系，对每个声源进行处理，从而输出带有空间特性的环绕声，使得收听者产生在现场中的收听位置收听音频的临场感，从而提高音频的播放效果。

应理解的是，本申请实施例中，输入单元104可以包括图形处理器(GraphicsProcessing Unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元106可包括显示面板1061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板1061。用户输入单元107包括触控面板1071以及其他输入设备1072中的至少一种。触控面板1071，也称为触摸屏。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器109可以包括易失性存储器或非易失性存储器，或者，存储器x09可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器109包括但不限于这些和任意其它适合类型的存储器。

处理器110可包括一个或多个处理单元；可选的，处理器110集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述音频输出方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述音频输出方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述音频输出方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种音频输出方法，其特征在于，所述方法包括：

获取第一音频的音频信息，所述音频信息包括：所述第一音频的录制环境中的M个声源的第一音频信息；

基于所述录制环境中的每个所述声源相对于目标收听位置的位置信息，分别对各个声源的第一音频信息进行处理，得到所述M个声源的第二音频信息；

基于所述M个声源的第二音频信息，输出第二音频；

所述基于所述录制环境中的每个所述声源相对于目标收听位置的位置信息，分别对各个声源的第一音频信息进行处理之前，所述方法还包括：

显示所述第一音频的录制环境界面，所述第一音频为在会议场景下录制的音频；

所述显示所述第一音频的录制环境界面之前，所述方法还包括：

显示X个第一标识，一个所述第一标识用于指示一种会议桌型；

接收用户对所述X个第一标识中的目标标识的第二输入；

响应于所述第二输入，基于所述目标标识指示的目标会议桌型和所述位置信息，展示所述M个声源的位置标识。

2.根据权利要求1所述的方法，其特征在于，所述录制环境界面用于展示所述录制环境，所述录制环境界面包括：N个对象标识，一个对象标识指示一个对象；

接收用户在所述录制环境界面的第一输入；

响应于所述第一输入，基于所述第一输入的输入位置，从所述录制环境中，确定目标收听位置。

3.根据权利要求2所述的方法，其特征在于，所述录制环境界面包括：目标标识；

接收用户在所述录制环境界面的第一输入，包括：

接收用户对所述目标标识的触控输入；

其中，所述目标收听位置为：所述触控输入的结束位置对应的收听位置。

4.根据权利要求2所述的方法，其特征在于，所述接收用户在所述录制环境界面的第一输入，包括：

接收用户对所述N个对象标识中的目标对象标识的第一输入；

其中，所述目标收听位置为：所述目标对象标识指示的对象在所述录制环境中所处的位置。

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

在播放所述第一音频的过程中，实时更新所述录制环境界面；

所述在播放所述第一音频的过程中，实时更新所述录制环境界面，包括：

在播放所述第一音频的过程中，按照目标显示方式显示第一声源的位置标识；

其中，所述第一声源包括：所述第一音频中当前播放的音频信息对应的声源。

6.根据权利要求5所述的方法，其特征在于，在播放所述第一音频的过程中，按照目标显示方式显示第一声源的位置标识，包括：

在播放所述第一音频的过程中，根据当前播放的所述第一音频的音频信息，实时确定第一声源；

按照所述目标显示方式实时显示所述第一声源的位置标识。

7.根据权利要求2所述的方法，其特征在于，所述目标收听位置包括：目标对象在所述录制环境中所处的位置，所述方法还包括：

实时确定所述目标对象在所述录制环境中的位置；

在所述目标对象在所述录制环境中的位置变化的情况下，更新所述目标收听位置；

所述基于所述录制环境中的每个所述声源相对于目标收听位置的位置信息，分别对各个声源的第一音频信息进行处理，得到所述M个声源的第二音频信息，包括：

基于所述录制环境中的每个所述声源相对于更新后的所述目标收听位置的位置信息，分别对各个声源的第一音频信息进行处理，得到所述M个声源的第二音频信息。

8. 一种音频输出装置，其特征在于，所述装置包括：获取模块、处理模块、输出模块和显示模块，其中：

所述获取模块，用于获取第一音频的音频信息，所述音频信息包括：所述第一音频的录制环境中的M个声源的第一音频信息；

所述处理模块，用于基于所述录制环境中的每个所述声源相对于目标收听位置的位置信息，分别对所述获取模块获取的各个声源的第一音频信息进行处理，得到所述M个声源的第二音频信息；

所述输出模块，用于基于所述处理模块得到的所述M个声源的第二音频信息，输出第二音频；

所述装置还包括：显示模块和接收模块；

所述显示模块，用于显示所述第一音频的录制环境界面，所述第一音频为在会议场景下录制的音频；

所述显示模块，还用于在显示所述第一音频的录制环境界面之前，显示X个第一标识，一个所述第一标识用于指示一种会议桌型；

所述接收模块，还用于接收用户对所述X个第一标识中的目标标识的第二输入；

所述显示模块，还用于响应于所述接收模块接收的所述第二输入，基于所述目标标识指示的目标会议桌型和所述位置信息，展示所述M个声源的位置标识。

9.根据权利要求8所述的装置，其特征在于，所述录制环境界面用于展示所述录制环境，所述录制环境界面包括：N个对象标识，一个对象标识指示一个对象；

所述装置还包括：确定模块，其中：

所述接收模块，用于接收用户在所述录制环境界面的第一输入；

所述确定模块，用于响应于所述接收模块接收的所述第一输入，基于所述第一输入的输入位置，从所述录制环境中，确定目标收听位置。

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：更新模块；

所述更新模块，用于在播放所述第一音频的过程中，实时更新所述录制环境界面；

所述显示模块，具体用于在播放所述第一音频的过程中，按照目标显示方式显示第一声源的位置标识；

11.根据权利要求10所述的装置，其特征在于，

所述确定模块，用于在播放所述第一音频的过程中，根据当前播放的所述第一音频的音频信息，实时确定第一声源；

所述显示模块，具体用于按照所述目标显示方式实时显示所述第一声源的位置标识。

12.根据权利要求9所述的装置，其特征在于，所述目标收听位置包括：目标对象在所述录制环境中所处的位置；

所述确定模块，用于实时确定所述目标对象在所述录制环境中的位置；

所述装置还包括：更新模块；

所述更新模块，用于在所述目标对象在所述录制环境中的位置变化的情况下，更新所述目标收听位置；

所述处理模块，具体用于基于所述录制环境中的每个所述声源相对于更新后的所述目标收听位置的位置信息，分别对各个声源的第一音频信息进行处理，得到所述M个声源的第二音频信息。

13.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-7任一项所述的音频输出方法的步骤。