CN116055982A

CN116055982A - 音频输出方法、设备及存储介质

Info

Publication number: CN116055982A
Application number: CN202210968664.1A
Authority: CN
Inventors: 胡贝贝; 夏日升; 许剑峰
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-08-12
Filing date: 2022-08-12
Publication date: 2023-05-02
Anticipated expiration: 2042-08-12
Also published as: CN116055982B

Abstract

本申请实施例提供一种音频输出方法、设备及存储介质，涉及音频处理技术领域。在本申请方案中，结合屏幕发声单元面向用户发声，声音直达用户的优点，以及扬声器在各个频段的频响较为平整的优点，利用AI方法对音源内容进行特定对象分离及提取，根据分离出的对象音频分布特点，为每个对象设定播放形式，比如采用屏幕发声单元进行人声回放，再比如根据屏幕发声单元和扬声器的方位对鸟声进行动态回放，从而提升了声场渲染效果。

Description

音频输出方法、设备及存储介质

技术领域

本申请涉及音频处理技术领域，尤其涉及一种音频输出方法、设备及存储介质。

背景技术

目前，越来越多的智能终端采用屏幕发声技术，替代了在屏幕上开孔设置的听筒，用来提高智能终端的屏占比。如图1所示，在智能终端的屏幕11和中框13之间设置有激励器12，以屏幕11作为振动体，激励器12驱动屏幕11振动，产生声波，当人耳贴近屏幕11时声波传送到人耳，从而听到通话声音等。

受到整机工艺等因素的限制，某些激励器在一些频段的音频播放效果不佳。例如，图2示出了一款压电陶瓷激励器在语音范围的各个频段的频响，可以发现，压电陶瓷激励器在低频时声压等级(source pressure level)较小，即频响在低频时衰减较快，失真大，从而针对低频声音，用户无法获得良好的听感。

对于重放音乐或电影等低频声音较多的场景，仍可以采用传统的扬声器播放声音。但是，传统的扬声器通常设置在智能终端的侧边框上，扬声器的朝向使得形成的声像在屏幕中心发虚，清晰度下降。因此，如何提升声场的渲染效果成为亟待解决的技术问题。

发明内容

本申请提供一种音频输出方法、设备及存储介质，通过分析音源内容，为不同的音源对象，选择屏幕发声单元和/或扬声器进行播放，提升了声场的渲染效果。

为达到上述目的，本申请采用如下技术方案：

第一方面，本申请实施例提供一种音频输出方法。该方法可以应用于电子设备，包括：将原始音频信号输入神经网络模型，进行对象信号识别和提取，神经网络模型为根据不同频率的信号训练得到的；根据识别和提取结果，驱动电子设备的音频单元输出与识别和提取结果对应的声音。其中，音频单元包括屏幕发声单元和/或扬声器，不同的识别和提取结果包含不同频率的信号，不同频率的信号对应不同的音频单元。

应理解，由于屏幕发声单元具备面向用户发声，声音直达用户的优点，扬声器具备在各个频段的频响较为平整的优点，因此本申请利用神经网络模型对音源内容进行特定对象分离及提取，可以根据分离出的对象音频分布特点，为每个对象设定与之对应的播放形式，从而提升了声场渲染效果。

在一种可能的实现方式中，上述原始音频信号为音频应用提供的、尚未进行对象信号识别和提取的音频信号，比如歌曲、电影声、通话声和游戏特效等原始的音频信号。在一些实施例中，原始音频信号为立体声信号，例如，立体声信号可以包括左声道信号和右声道信号，立体声信号还可以包括中置声道信号、左环绕声道信号和/或右环绕声道信号等。

在一种可能的实现方式中，电子设备的扬声器包括第一扬声器和第二扬声器，第一扬声器和第二扬声器设置在电子设备的两个侧边框上。比如，第一扬声器和第二扬声器设置在两个相背的侧边框上。再比如，第一扬声器和第二扬声器设置在两个相邻的侧边框上。

在一种可能的实现方式中，屏幕发声单元包括设置在屏幕背面的至少一个激励器。屏幕发声单元用于基于屏幕发声技术，通过激励器驱动屏幕振动发声。在一些实施例中，屏幕发声单元在目标频段的声压等级值大于或等于预设值的频段，即，屏幕发声单元在目标频段表现较好。

在一种可能的实现方式中，对原始对象信号的识别和提取结果可以分为下述几种情况：

情况1，第一对象信号和第一背景声信号。其中，第一对象信号的能量集中在目标频段内，比如第一对象信号是人声、钢琴声、萨克斯声和竖琴中低频信号。第一背景声信号是原始对象信号中除第一对象信号外的信号。

情况2，第二对象信号和第二背景声信号。其中，第二对象信号的能量集中在除目标频段外的频段。比如第二对象信号是风声、水滴声、海水声、风铃声和走路声等低频声音，或者唢呐声和电钻声等高频声音，或者行驶中的汽车鸣笛声、火车鸣笛声或拖拉机发动机声等各个声道的能量随时间动态变化的信号。第二背景声信号是原始对象信号中除第二对象信号外的信号。

情况3，第三背景声信号，即电子设备没有从原始对象信号识别和提取到预设的对象信号。

情况4，第三对象信号和第四背景声信号。其中，第三对象信号的能量在各个频段均匀分布。比如在交响乐合奏中，由不同乐器发出的声音在低频、中频和高频均匀分布。针对情况4，电子设备可以按照与第一对象信号和第一背景声信对应的音频输出方式，播放声音；或者，电子设备可以按照与第二对象信号和第二背景声信对应的音频输出方式，播放声音。

在一种可能的实现方式中，根据识别和提取结果，驱动电子设备的音频单元输出与识别和提取结果对应的声音，包括：在识别和提取结果为第一对象信号和第一背景声信号的情况下，通过屏幕发声单元驱动电子设备的屏幕振动，产生与第一对象信号对应的声音；以及通过扬声器输出与第一背景声信号对应的声音。

应理解，由于屏幕发声单元在目标频段的表现力较好，因此当第一对象信号的能量集中目标频段内时，采用屏幕发声单元进行声音回放，可以获得较好的声场渲染效果。

在一种可能的实现方式中，根据识别和提取结果，驱动电子设备的音频单元输出与识别和提取结果对应的声音，包括：在识别和提取结果为第二对象信号和第二背景声信号的情况下，根据第二对象信号的各个信道的能量，驱动屏幕发声单元和扬声器按照各自对应的增益，输出与第二对象信号对应的声音；以及通过扬声器输出与第二背景声信号对应的声音。

应理解，当第二对象信号的能量集中在除目标频段外的其他频段时，基于屏幕发声单元面向用户发声，声音直达用户的优点，以及扬声器在各个频段的频响较为平整的优点，控制扬声器和屏幕发声单元采用不同增益联合发声，可以获得较好的声场渲染效果。

在一种可能的实现方式中，第二对象信号包括左声道信号和右声道信号。相应地，根据第二对象信号的各个信道的能量，驱动屏幕发声单元和扬声器按照各自对应的增益，输出与第二对象信号对应的声音，包括：

在第二对象信号的左声道信号的能量和第二对象信号的右声道信号的能量满足第一条件的情况下，控制第一扬声器按照第一增益，输出与第二对象信号的左声道信号对应的声音；以及控制屏幕发声单元按照第二增益驱动屏幕振动，产生与第二对象信号的左声道信号和右声道信号对应的声音；或者，

在第二对象信号的左声道信号的能量和第二对象信号的右声道信号的能量满足第二条件的情况下，控制第一扬声器按照第一增益，输出与第二对象信号的左声道信号对应的声音；控制屏幕发声单元按照第二增益驱动屏幕振动，产生与第二对象信号的左声道信号和右声道信号对应的声音；以及控制第二扬声器按照第三增益，输出与第二对象信号的右声道信号对应的声音；或者，

在第二对象信号的左声道信号的能量和第二对象信号的右声道信号的能量满足第三条件的情况下，控制第二扬声器按照第三增益，输出与第二对象信号的右声道信号对应的声音；以及控制屏幕发声单元按照第二增益驱动屏幕振动，产生与第二对象信号的左声道信号和右声道信号对应的声音。

应理解，当第二对象信号的左声道信号的能量和右声道信号的能量比值变化时，通过改变第一扬声器、第二扬声器和屏幕发声单元的增益，可以形成声像位置动态移动的效果，打造3D环绕立体声，从而提高回放沉浸感。

其中，第一条件、第二条件和第三条件可以分为下述两种方式：

方式1，第一条件为：第二对象信号的左声道信号的能量大于第二对象信号的右声道信号的能量。第二条件为：第二对象信号的左声道信号的能量等于第二对象信号的右声道信号的能量。第三条件为：第二对象信号的左声道信号的能量小于第二对象信号的右声道信号的能量。

方式2，第一条件为：α∈[-1，0.5)；第二条件为：α∈[-0.5，0.5)；第三条件为：α∈[0.5，1]。

其中，

Rb用于表示第二对象信号的右声道信号的能量，Lb用于表示第二对象信号的左声道信号的能量。

针对上述方式1和方式2，第一增益、第二增益和第三增益可以为预设的，也可以采用下述方式确定：

第一增益根据关系式g1(i)＝|α|*g1(i-1)计算得到，g1(i)为在将第i个分帧信号的左声道信号作为第一扬声器的输入信号时的增益，g1(i-1)为在将第i-1个分帧信号的左声道信号作为第一扬声器的输入信号时的增益；

第二增益根据关系式g2(i)＝(1-|α|)*g2(i-1)计算得到，g2(i)为在将第i个分帧信号的左声道信号和右声道信号作为屏幕发声单元的输入信号时的增益，g2(i-1)为将在第i-1个分帧信号的左声道信号和右声道信号作为屏幕发声单元的输入信号时的增益；

第三增益根据关系式g3(i)＝|α|*g3(i-1)计算得到，g3(i)为在将第i个分帧信号的右声道信号作为第二扬声器的输入信号时的增益，g3(i-1)为在将第i-1个分帧信号的右声道信号作为第二扬声器的输入信号时的增益。

在一种可能的实现方式中，控制屏幕发声单元按照第二增益驱动屏幕振动，产生与第二对象信号的左声道信号和右声道信号对应的声音，包括：

在屏幕发声单元包括一个激励器和一个柔性区域的情况下，对第二对象信号的左声道信号和右声道信号进行下混处理，得到下混信号，控制一个激励器按照第二增益驱动一个柔性区域振动，产生与下混信号对应的声音；或者，

在屏幕发声单元包括第一激励器、第二激励器、第一柔性区域和第二柔性区域的情况下，控制第一激励器按照第二增益驱动第一柔性区域振动，产生与第二对象信号的左声道信号对应的声音；并控制第二激励器按照第二增益驱动第二柔性区域振动，产生与第二对象信号的右声道信号对应的声音。

在一种可能的实现方式中，根据识别和提取结果，驱动电子设备的音频单元输出与识别和提取结果对应的声音，包括：在识别和提取结果为第三背景声信号的情况下，根据第三背景声信号中各个频段的能量分布情况，驱动屏幕发声单元和/或扬声器，输出与各个频段对应的声音。其中，屏幕发声单元用于输出在目标频段内的信号，扬声器用于输出在除目标频段外的频段的信号。

应理解，当电子设备没有从原始对象信号识别和提取到预设的对象信号时，根据原始音频信号中各个子带的频谱能量分布情况，选择由扬声器和/或屏幕发声单元输出声音，可发挥出屏幕发声单元面向用户发声，声音直达用户的优点，以及扬声器在各个频段的频响较为平整的优点，从而获得较好的声场渲染效果。

在一种可能的实现方式中，根据第三背景声信号中各个频段的能量分布情况，驱动屏幕发声单元和/或扬声器，输出与各个频段对应的声音，包括：在第三背景声信号的能量集中在目标频段内的情况下，驱动屏幕发声单元，输出与目标频段对应的声音；或者，驱动屏幕发声单元，输出与各个频段对应的声音；或者，驱动屏幕发声单元，输出与目标频段对应的声音，并驱动扬声器，输出与除目标频段外的频段对应的声音。

在一种可能的实现方式中，根据第三背景声信号中各个频段的能量分布情况，驱动屏幕发声单元和/或扬声器，输出与各个频段对应的声音，包括：在第三背景声信号的能量集中在除目标频段外的频段的情况下，驱动扬声器，输出与除目标频段外的频段对应的声音；或者，驱动扬声器，输出与各个频段对应的声音；或者，驱动扬声器，输出与除目标频段外的频段对应的声音，并驱动屏幕发声单元，输出与目标频段对应的声音。

在一种可能的实现方式中，根据第三背景声信号中各个频段的能量分布情况，驱动屏幕发声单元和/或扬声器，输出与各个频段对应的声音，包括：在第三背景声信号的能量在各个频段均匀分布的情况下，驱动屏幕发声单元，输出与目标频段对应的声音，以及驱动扬声器，输出与除目标频段外的频段对应的声音；或者，驱动屏幕发声单元，输出与目标频段对应的声音，以及驱动扬声器，输出各个频段对应的声音。

在一种可能的实现方式中，目标频段的频率范围为[1KHz，5KHz]，除目标频段外的频段的频率范围包括：[20Hz，1KHz]和[5KHz，20KHz]。应理解，当电子设备采用不同的屏幕发声单元时，比如不同信号的激励器，目标频段可能会发生变换。

在一种可能的实现方式中，根据识别和提取结果，驱动电子设备的音频单元输出与识别和提取结果对应的声音，包括：根据识别和提取结果，确定由第一扬声器和第二扬声器输出识别和提取到的信号。通过第一扬声器输出与识别和提取到的信号的左声道信号对应的声音；以及，通过第二扬声器输出与识别和提取到的信号的右声道信号对应的声音。

其中，左声道信号与第一扬声器的对应关系，以及右声道信号与第二扬声器的对应关系为预先设置的；或者，左声道信号与第一扬声器的对应关系，以及右声道信号与第二扬声器的对应关系为根第一扬声器、第二扬声器与用户的相对位置确定的。

在一种可能的实现方式中，将原始音频信号输入神经网络模型，进行对象信号识别和提取，包括：对原始音频信号进行分帧，得到多个分帧信号；对多个分帧信号中的每个分帧信号进行时频变换，并将时频变换后得到的信号输入神经网络模型，以进行对象信号识别和提取。

第二方面，本申请提供一种装置，该装置包括用于执行上述第一方面的方法的单元/模块。该装置可对应于执行上述第一方面描述的方法，该装置中的单元/模块的相关描述请参照上述第一方面的描述，为了简洁，在此不再赘述。

第三方面，提供一种电子设备，包括处理器，该处理器与存储器耦合，该处理器用于执行该存储器中存储的计算机程序或指令，以使得电子设备实现如第一方面中任一项的音频输出方法。

第四方面，提供一种芯片，该芯片与存储器耦合，该芯片用于读取并执行该存储器中存储的计算机程序，以实现如第一方面中任一项的音频输出方法。

第五方面，提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，当该计算机程序在电子设备上运行时，使得电子设备执行如第一方面中任一项的音频输出方法。

第六方面，提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行如第一方面中任一项的音频输出方法。

可以理解的是，上述第二方面至第六方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

图1为本申请实施例提供的一种屏幕发声装置的结构示意图；

图2为本申请实施例提供的压电陶瓷激励器在各个频段的频响的示意图；

图3为本申请实施例提供的电子设备的结构示意图；

图4为本申请实施例提供的扬声器发声的原理示意图；

图5为本申请实施例提供的在手机上设置的双扬声器的结构示意图；

图6为本申请实施例提供的屏幕发声的原理示意图；

图7为本申请实施例提供的另一种屏幕发声装置的结构示意图；

图8为本申请实施例提供的电子设备的软件架构图；

图9为本申请实施例提供的音频输出方法的流程示意图；

图10为本申请实施例提供的4个分帧信号的示意图；

图11为本申请实施例提供的一种利用NN网络进行对象识别和提取的流程示意图；

图12为本申请实施例提供的另一种利用NN网络进行对象识别和提取的流程示意图；

图13为本申请实施例提供的利用扬声器和屏幕发声单元发声的流程示意图；

图14为本申请实施例提供的一种激励器的示意图；

图15为本申请实施例提供的另一种激励器的示意图；

图16为本申请实施例提供的利用扬声器和屏幕发声单元发声的场景示意图之一；

图17为本申请实施例提供的利用扬声器和屏幕发声单元发声的场景示意图之二；

图18为本申请实施例提供的利用扬声器和屏幕发声单元发声的场景示意图之三；

图19为本申请实施例提供的扬声器和屏幕发声单元输出声音的流程示意图；

图20为本申请实施例提供的利用扬声器和屏幕发声单元发声的场景示意图之四；

图21为本申请实施例提供的利用扬声器和屏幕发声单元发声的场景示意图之五；

图22为本申请实施例提供的利用扬声器和屏幕发声单元发声的场景示意图之六；

图23为本申请实施例提供的利用分子待滤波器划分子带的示意图；

图24为本申请实施例提供的训练NN网路的流程示意图；

图25为本申请实施例提供的一种装置的结构示意图。

具体实施方式

为了使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。

在本申请的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B。在本申请的描述中，“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

在本申请的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象，或者用于区别对同一对象的不同处理，而不是用于描述对象的特定顺序。例如，第一侧表面和第二侧表面等是用于区别不同的侧表面，而不是用于描述侧表面的特定顺序。

在本申请实施例中，“多个”是指两个或两个以上。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

物体振动时所产生的声音能量或声波压力称为声强。在人耳能够感受的声音频率范围20至20000赫兹(Hz)内，声强越大，人耳主观感觉到的声音强度也越大。在实际应用中，采用分贝表示声级。通常，人耳能够感受的声音频率范围可以分为3个频带：低频、中频和高频。其中，低频声音包括走路声、鼓声、水声及风声等，中频声音包括说话声等，高频声音包括汽车声、摩托车声、车床声、压缩机声、高音喇叭声及建筑施工声等。

目前，当电子设备采用屏幕发声技术时，受到激励器类型和整机工艺等因素的限制，某些激励器在一些频段的音频播放效果不佳，比如压电陶瓷激励器在低频的表现力较差，从而针对低频声音，用户无法获得良好的听感。因此，对于重放音乐或电影等包含低频声音较多的场景，仍然可以采用传统的扬声器播放声音。但是，传统的扬声器通常设置在智能终端的侧边框，扬声器的朝向使得声像在屏幕中心发虚和浑浊，清晰度下降。

鉴于上述问题，本申请实施例提供一种音频输出方法，结合屏幕发声以及传统扬声器的优点，利用人工智能(artificial intelligence，AI)方法对音源内容进行特定对象分离及提取，根据分离出的对象音频分布特点，为每个对象设定播放形式，比如采用屏幕发声单元进行人声回放，再比如根据屏幕发声单元和扬声器的方位对鸟声进行动态回放，从而提升了声场渲染效果。

本申请实施例提供的音频输出方法可以适用于各种电子设备。

在一些实施例中，电子设备可以为手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)、虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra mobile personal computer，UMPC)、上网本、个人数字助理(personaldigital assistant，PDA)或智慧屏等，或者可以为其他能够进行音频信号输出的设备或装置。对于电子设备的具体类型，本申请实施例不作任何限制。

图3示出了本申请实施例提供的一种电子设备的结构示意图。

如图3所示，电子设备可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，麦克风170B，耳机接口170C，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，用户标识模块(subscriber identification module，SIM)卡接口195，以及屏幕发声单元196等。其中，传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，以及骨传导传感器180M等。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。其中，控制器可以是电子设备的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块SIM接口，和/或USB接口等。

电子设备通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，电子设备可以包括1个或N个显示屏194，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。在本申请实施例中，NPU可以根据具备不同频率分布特征的信号(比如人声信号和鸟声信号)，训练得到NN模型。其中，该NN模型可以用于从原始音频信号中获取对象信号的识别和提取结果，比如识别和提出人声信号、鸟声信号或背景声信号。

在一些实施例中，数字信号处理器可以对原始的音源信号进行分帧处理，得到多帧信号，然后将每帧信号进行时频转换，得到频域信号，再然后将频域信号发送至NPU。NPU将频域信号输入训练好的NN网络模型中，以对音源内容进行特定对象分离及提取。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将从网络下载的歌曲和电影等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能等)等。存储数据区可存储电子设备使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

电子设备可以通过音频模块170，扬声器170A，麦克风170B，耳机接口170C，以及应用处理器等实现音频功能。例如音乐播放，电影播放，视频直播等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”。以将音频模块170的部分功能模块设置于处理器110中为例，如图4所示，在扬声器170A接收到来自处理器110的音频电信号后，扬声器170A将音频电信号转换为声音信号。电子设备可以通过扬声器170A收听音乐，或收听免提通话。

在一些实施例中，扬声器170A可以设置在电子设备的侧边框上。若扬声器170A的数量为一个，则一个扬声器170A可以设置在一个侧边框上。若扬声器170A的数量为多个，则多个扬声器170A可以设置在一个或多个侧边框上。

示例性地，以电子设备为手机为例，图5示出了在手机的两个侧边框上设置的双扬声器的示意图。如图5中的(a)所示，在与显示屏194相邻的上边框61上设置有一个扬声器170A-1，扬声器170A-1包括多个出音口。如图5中的(b)所示，在与显示屏194相邻的下边框62上设置有另一个扬声器170A-2、USB接口130和SIM卡接口195，扬声器170A-2包括多个出音口。其中，上边框61和下边框62为手机中两个相背设置的边框。需要说明的是，在实际实现时，扬声器的位置和数量可以根据产品的实际设计需求进行调整。比如，可以将双扬声器设置在左边框和右边框，一个边框上可以仅设置一个扬声器或者同时设置多个扬声器。再比如，扬声器可以设置在边框的中心位置，扬声器也可以设置在边框的边缘位置。应理解，扬声器的布局朝向不同，将使得扬声器产生的声场不同。

麦克风170B，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170B发声，将声音信号输入到麦克风170B。电子设备可以设置至少一个麦克风170B。在另一些实施例中，电子设备可以设置两个麦克风170B，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备还可以设置三个，四个或更多麦克风170B，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170C用于连接有线耳机。耳机接口170C可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

屏幕发声单元196包括至少一个激励器。屏幕发声单元196用于基于屏幕发声技术，通过激励器驱动显示屏194振动发声。例如，如图6所示，激励器接收处理器发送的驱动信号，响应于驱动信号激励器振动，由激励器产生的振动信号带动显示屏194振动，从而产生声波。需要说明的是，由于屏幕发声单元196替代了在显示屏194上开孔设置的受话器/听筒，因此提高了显示屏194的屏占比。需要说明的是，本申请实施例对屏幕发声单元196包括的激励器的数量，激励器的类型，以及激励器与显示屏194的相对位置不作具体限定，可以根据实际使用需求进行调整。

示例性地，以电子设备为手机为例，图7示出了一种屏幕发声装置的结构示意图。如图7所示，屏幕发声装置包括显示屏194、振动部件71(激励器)及处理器110。其中，显示屏194包括柔性屏幕区域72，振动部件71设置于柔性屏幕区域72上。在一些实施例中，振动部件71可以粘贴于柔性屏幕区域72的显示面的背面，处理器110与振动部件71连接。处理器110用于向振动部件71输出驱动信号，触发振动部件71振动，振动部件71的振动带动柔性屏幕区域72振动，通过柔性屏幕区域72的振动实现该柔性屏幕区域72的发声。在一些实施例中，振动部件71可以是压电陶瓷片，压电陶瓷是一种能够将机械能和电能互相转换的信息功能陶瓷材料，具有通电之后根据电流发生厚度的变化的特性，且产生振动，将电压转换成机械能，通过微振方式与屏幕发声装置的框架(或使用该屏幕发声装置的电子设备的框架)共振，生成声音，实现发声。可以理解的是，柔性屏幕区域72的发声可以理解为基于柔性屏幕区域的振动实现发声的效果。

在一些实施例中，柔性屏幕区域72至少包括两个柔性屏幕子区域，该两个柔性屏幕子区域的边缘均与非柔性屏幕区域拼接，且每个柔性屏幕子区域分别设置一个振动部件71，从而使得柔性屏幕子区域之间互相独立，在振动发声时不会产生干扰，发声效果好。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备可以接收按键输入，产生与电子设备的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和电子设备的接触和分离。电子设备可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口195可以同时插入多张卡。多张卡的类型可以相同，也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。电子设备通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，电子设备采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在电子设备中，不能和电子设备分离。

可以理解的是，本申请实施例示意的结构并不构成对电子设备的具体限定。在本申请另一些实施例中，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

图8示出了本申请实施例提供的一种电子设备的软件架构图。如图8所示，该电子设备的架构从上至下依次包括：应用层(application)、框架层(framework，FWK)、库层(FWKLIB)、硬件抽象层(hardware abstract layer，HAL)、内核层(Kernal)。其中，每层都有清晰的角色和分工，层与层之间通过接口通信。

应用层用于提供电子设备上运行的各类应用程序(application，APP)，比如音频播放器、视频播放器和通话应用等各种具备音频播放或音频回放功能的应用程序。各类应用程序具有可视化的用户界面。比如，当用户操作视频应用的视频播放界面的播放控件时，视频应用通过应用程序编程接口(application programming interface，API)进行某些播放操作；或者，当用户操作视频应用的视频播放界面的音量控件时，视频应用通过API调节音量。

框架层用于支持应用层中的各个应用程序的运行。比如，框架层可以包括：窗口管理服务(window manager service，WMS)模块、音频管理(AudioManager)模块、音频轨道(AudioTrack)模块、通知管理(Notification)模块、活动管理(ActivityManagerService，AMS)模块、音频系统(AudioSysem)模块、音频记录(AudioRecord)模块和通话管理(Telephone)模块等。其中，音频管理(AudioManager)模块，也称为音频管理器，用于提供对应用程序的音频流、音量大小和铃声模式进行控制及访问的API。音频系统(AudioSysem)模块用于作为取样音频系统资源的入口点，允许查询和访问安装在系统上的混频器。音频轨道(AudioTrack)模块用于负责音频的剪辑操作等。音频记录(AudioRecord)模块用于进行录音、编码和压缩等处理操作。

库层，也称为系统运行库层，包括安卓运行库(Runtime)和程序库。其中，安卓运行库包括Dalvik虚拟机和Java核心库。程序库通过应用程序框架为开发者提供服务，包括一系列第三方类库，如轻量级数据库(SQlite)、网络工具库(Webkit)、音频策略(AudioPolicy)模块、音频流管理(AudioFlinger)模块等。

硬件抽象层是对Linux内核驱动程序的封装，向上提供接口，它隐藏了特定平台的硬件接口细节，为操作系统提供了虚拟硬件平台，使其具有硬件无关性，可在多种平台上进行移植。例如，硬件抽象层包括音频HAL模块、蓝牙HAL模块和摄像头HAL模块。其中，音频Hal定义了由音频服务调用手机必须实现以确保音频硬件功能正常运行的标准接口，负责将音频流管理(AudioFlinger)模块、音频策略(AudioPolicy)模块与硬件设备关联起来。

内核层是硬件和软件之间的层。内核层可以包含音频驱动，显示驱动，摄像头驱动，及传感器驱动。其中，音频驱动主要负责和硬件的交互，硬件包括扬声器、麦克风和屏幕发声单元等音频单元或音频设备。在本申请实施例中，内核层包括一个或多个PCM虚拟设备，也称为PCM逻辑设备、PCM中间层或PCM本地服务(native)。PCM虚拟设备即为PCM设备文件，在Linux系统中，所有的设备最终都抽象成一个或者多个用户空间可以访问的设备文件，用户空间的进程通过这些设备文件的读写来达到控制硬件的目的。对于播放声音或者录制声音来说，音频Hal和蓝牙Hal通过对PCM设备文件的读写来实现的。Android系统中实现通话录音需要从指定的PCM虚拟设备中获取录音数据，录音数据包括通话双方的声音，PCM虚拟设备可以通过选择音频场景(usecase)指定，且一个PCM虚拟设备可以对应多个usecase。

需要说明的是，图8示出的软件结构中的层以及各层中包含的部件，并不构成对电子设备的具体限定。在本申请另一些实施例中，电子设备可以包括比图示更多或更少的层，以及每个层中可以包括更多或更少的部件，本申请不做限定。

可以理解的是，电子设备为了实现本申请实施例中的音频输出方法，其包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能。

需要说明的是，在本申请实施例中，先对原始音频信号进行处理，再由屏幕发声单元和/或扬声器播放处理后的音频信号。其中，对原始音频信号进行处理可以由框架层中的一些音频模块(比如音频管理模块)来执行，也可以由HAL层中的音频HAL模块来执行，还可以由外挂的DSP芯片(如Audio DSP芯片)中的一些处理模块来执行，对此本申请实施例不做具体限定。下面以框架层的音频管理模块对对原始音频信号进行处理为例进行示例性说明。

图9为本申请实施例提供的音频输出方法的流程示意图。该方法可以应用于播放音频或回放音频的场景中。该方法可以包括下述的S01至S07。

S01.音频应用接收用户对原始音频信号的选择操作。

上述音频应用为具备音频播放或音频回放功能的任意一种系统应用程序或第三方应用程序。比如，音频应用可以为音频播放器、视频播放器、游戏应用、通话应用和视频应用等。

相应地，上述原始音频信号为音频应用提供的、尚未进行对象信号识别和提取的音频信号，比如歌曲、电影声、通话声和游戏特效等音频信号。

在一些实施例中，原始音频信号为立体声信号。例如，立体声信号可以包括左声道信号和右声道信号。立体声信号还可以包括中置声道信号、左环绕声道信号和/或右环绕声道信号等，本申请不做限定。

S02.音频应用响应于该选择操作，向音频管理模块发送指示消息，该指示消息用于指示播放原始音频信号。

S03.音频管理模块基于预设的对象识别和提取模型，对原始音频信号进行对象信号识别和提取。

在一些实施例中，对象识别和提取模型可以为神经网络模型。示例性地，神经网络模型可以为卷积神经网络(convolutional neural networks，CNN)、循环神经网络(recursive neural network，RNN)、生成对抗网络(generative adversarial network，GAN)、全连接神经网络(fully connected neural network，FCCN)、残差网络(ResNet)、或长短期记忆网络(long short-term memory network，LSTMN)等。

在传统的音频重放方法中，若音频应用接收到用户对原始音频信号的选择操作，则通过音频管理模块提供的API，向音频策略模块发送配置指令，该配置指令用于指示为扬声器或屏幕发声单元等音频输出设备配置语音通路。以扬声器为例，音频策略模块响应于配置指令，通过音频Hal，打开用于为扬声器服务的PCM虚拟设备。然后，该PCM虚拟设备为扬声器配置语音通路。如此扬声器通过该语音通路播放原始音频信号。

然而，结合上述实施例的描述，若是直接通过音频输出设备播放原始音频信号，则存在播放音效不佳等问题，比如某些激励器在一些频段的音频播放效果不佳，扬声器的朝向使得声像在屏幕中心发虚和浑浊，因此本申请对传统的音频输出方法进行了改进：在音频应用接收到用户对原始音频信号的选择操作后，音频管理模块先将原始音频信号输入预先训练好的神经网络模型，神经网络模型对原始音频信号进行对象信号识别和提取，然后音频管理模块根据分离出的对象的音频分布特点，以及屏幕发声单元和扬声器的发声特点，为分离出的每个对象分别设定播放形式，比如采用屏幕发声单元进行人声回放，再比如根据屏幕发声单元和扬声器的方位对鸟声进行动态回放。

原始音频信号从整体上看其特性及表征其本质特征的参数会随时间变化，所以原始音频信号是非平稳态的，不能用处理平稳信号的数字信号处理技术对其进行分析处理。由于电子设备输出的原始音频信号在一个短时间范围内，比如10至30毫秒(ms)，其特性基本保持不变，相对稳定，可视为是一个准稳态过程，即原始语音信号具有短时平稳性，所以原始语音信号的分析和处理建立在“短时分析”的基础上，例如通过分帧技术将语音信号划分为多帧来分析其特征参数，其中，每段语音数据称为一帧，帧长为10至30ms。在一些实施例中，原始语音信号的分帧可以采用可移动的有限长度窗口进行加权的方法来实现。

示例性地，图10示出了4个分帧信号的示意图。如图10所示，第1帧信号、第2帧信号、第3帧信号和第4帧信号的帧长为10ms。另外，第2帧信号相对于第1帧信号的帧移为5毫秒，第3帧信号相对于第2帧信号的帧移为5毫秒，第4帧信号相对于第3帧信号的帧移为5毫秒，……以此类推，由于相邻两帧信号之间存在部分重叠部分，因此可使信号平稳过渡，防止信号跳变导致不连续。

在对原始音频信号进行分帧后，音频管理模块可以按照各个分帧信号的分帧顺序，对每个分帧信号执行如图11所示的操作：将分帧信号进行时频变换，比如快速傅里叶变换(fast fourier transform，FFT)变换，得到频域信号，即原始声音信号对应的频谱；再将频域信号输入到训练好的NN网络模型；之后，由NN网络模型对音源内容进行特定对象分离及提取，得到各种声道的标签向量；然后，对各种声道的标签向量分别进行频时变换，比如快速傅里叶逆变换(inverse fast fourier transform，IFFT)，得到各种声道信号，比如鸟声声道信号、人声声道信号和背景声道信号。

示例性地，以NN网络输出如图12所示的鸟声掩码、人声掩码和背景掩码为例。其中，鸟声掩码为表示每个分帧信号是否为鸟声声信号的标签，人声掩码表示每个分帧信号是否为人声信号的标签，背景掩码为表示每个分帧信号是否为背景声信号的标签。音频管理模块可以将原始声音信号对应的频谱与鸟声掩码进行向量乘法运算，再对运算结果进行IFFT，获得鸟声声道信号；将原始声音信号对应的频谱与人声掩码进行向量乘法运算，再对运算结果进行IFFT，获得人声声道信号；将原始声音信号对应的频谱与背景掩码进行向量乘法运算，再对运算结果进行IFFT，获得背景声道信号。

在音频管理模块采用上述方式，对原始音频信号进行对象信号识别和提取后，识别和提取到的结果可以划分为三种场景。

下面以图13所示的几种信号为例，对这三种场景分别进行示例说明。

第一种场景

识别和提取到的结果为第一对象信号和第一背景声信号(如同时识别和提取到图13所示的人声信号Flag1和背景声信号Flag0)。其中，第一对象信号为一种预设信号，该种信号满足下述条件：信号能量集中在目标频段内，目标频段是指屏幕发声单元的声压等级值大于或等于预设值的频段(即屏幕发声单元在目标频段的声压等级值大于或等于预设值)。第一背景声信号为原始音频信号中除第一对象信号外的信号。可以理解，由于屏幕发声单元在目标频段的表现力较好，因此当第一对象信号的能量集中目标频段内时，可以采用屏幕发声单元进行第一对象的声音回放，比如通过下述S04实现。

S04.音频管理模块将第一对象信号发送至屏幕发声单元的驱动模块，并将第一背景声信号发送至扬声器的驱动模块。

相应地，屏幕发声单元的驱动模块基于第一对象信号，驱动屏幕发声单元输出第一对象的声音。扬声器的驱动模块基于第一背景声信号，驱动扬声器输出第一背景的声音。需要说明的是，对于屏幕发声单元和扬声器的发声原理参照上述实施例的描述，此处不再赘述。

通常，大多数屏幕发声单元的激励器在中低频的表现较好，因此目标频段为中低频。若一个对象信号想要通过屏幕发声单元获得较好的声场效果，则该对象信号的频率也应该为中低频。比如，目标频段为[1KHz，5KHz]，人声信号以[1KHz，2KHz]居多，因此人声信号可通过屏幕发声单元获得较好的声场效果。

应理解，当屏幕发声单元采用不同类别或型号的激励器时，与激励器对应的目标频段将有所不同。以某个对象的能量集中在[0.5KHz，4KHz]为例。若激励器1在频段[0.5KHz，5KHz]的声压等级值大于或等于预设值，则可以采用激励器1进行该对象的声音回放。若激励器2在频段[2KHz，6KHz]的声压等级值大于或等于预设值，则无法覆盖到频段[0.5KHz，2KHz]，即在频段[0.5KHz，2KHz]的表现较差，因此不能采用激励器2进行该对象的声音回放。

在一些实施例中，第一对象信号可以包括多个声道信号，例如第一对象的左声道信号和第一对象的右声道信号。

例如，如图14所示，显示屏的整个区域或部分区域为柔性区域，屏幕发声单元包括一个激励器，激励器位于柔性区域内。在通过NN网络得到包括多个声道信号的第一对象信号后，音频管理模块对多个声道信号进行下混(downmix)处理，得到一个下混信号，并将该下混信号发送至驱动模块。然后，驱动模块基于该下混信号，控制该激励器振动，从而带动柔性区域振动发声。

再例如，如图15所示，显示屏包括两个柔性区域，屏幕发声单元包括激励器1和激励器2，且激励器1位于柔性区域1，激励器2位于柔性区域2。在通过NN网络得到包括左声道信号和右声道信号的第一对象信号后，音频管理模块将左声道信号发送至激励器1的驱动模块，激励器1的驱动模块基于左声道信号控制激励器1振动，从而带动柔性区域1发声。同时，音频管理模块将右声道信号发送至激励器2的驱动模块，激励器2的驱动模块基于右声道信号控制激励器2振动，从而带动柔性区域2发声。

在一些实施例中，第一背景声信号可以包括多个声道信号，例如左声道信号和右声道信号。具体地，音频管理模块将第一背景声信号的左声道信号发送至第一扬声器的驱动模块；同时，将第一背景声信号的右声道信号发送至第二扬声器的驱动模块。然后，第一扬声器的驱动模块基于左声道信号，驱动第一扬声器输出左声道的声音；同时，第二扬声器的驱动模块基于右声道信号，驱动第二扬声器输出右声道的声音。

在第1种方式中，左声道信号与第一扬声器的对应关系，右声道信号与第二扬声器的对应关系为预先设置的。示例性地，如图16所示，假设第一扬声器为设置在上边框的扬声器1，第二扬声器为设置在下边框的扬声器2，在识别和提取到的结果为人声信号和背景声信号的情况下，手机通过激励器输出人声，通过扬声器1输出左声道的声音，并通过扬声器2输出右声道的声音。

在第2种方式中，左声道信号与第一扬声器的对应关系，右声道信号与第二扬声器的对应关系为根据电子设备的朝向确定的。

例如，如图17所示，在用户左手手持手机的上边框，右手手持手机的下边框，且右边框朝上的情况下，显示屏的内容可以为横屏播放模式。如果识别和提取到的结果为人声信号和背景声信号，那么手机通过激励器输出人声，通过扬声器1输出左声道的声音，并通过扬声器2输出右声道的声音。

再例如，如图18所示，在用户左手手持手机的下边框，右手手持手机的上边框，且左边框朝上的情况下，显示屏的内容可以为横屏播放模式。如果识别和提取到的结果为人声信号和背景声信号，那么手机通过激励器输出人声，通过扬声器2输出左声道的声音，并通过扬声器1输出右声道的声音。

需要说明的是，第一种场景是以第一对象信号包括左声道信号和右声道信号，第一背景声信号包括左声道信号和右声道信号为例进行示例说明的。在实际实现时，第一对象信号和第一背景声信号可能包括三个及三个以上信道，若信号的信道数量大于音频单元的数量，则电子设备可以先对多信道信号进行混音处理，再输出混音信号。以第一背景声信号包括左前声道信号、左后声道信号、右前声道信号、右后声道信号为例，音频管理模块对左前声道信号和左后声道信号下混，得到第一下混信号，并将第一下混信号输入第一扬声器；对右前声道信号和右后声道信号下混，得到第二下混信号，并将第二下混信号输入第二扬声器。

此外，第一种场景是以第一对象信号是人声信号为例进行说明的，其并不对本申请实施例形成限定。在实际实现时，当屏幕发声单元在目标频段的声压等级值大于或等于预设值，且任意对象的能量集中在目标频段内时，该对象的声音信号均可视为第一对象信号，比如压电陶瓷激励器对钢琴声、萨克斯声和竖琴声的表现较好，这些乐器声均可视为第一对象信号，即采用屏幕发声单元回放这些乐器声。

第二种场景

识别和提取到的结果为第二对象信号和第二背景声信号(如同时识别和提取到图13所示的鸟声信号Flag2和背景声信号Flag0)。其中，第二对象信号为另一种预设信号。该种信号可以满足下述条件：该种信号的信号能量集中在除目标频段外的其他频段，目标频段是指屏幕发声单元的声压等级值大于或等于预设值的频段(即屏幕发声单元在目标频段的声压等级值大于或等于预设值)。第二背景声信号为原始音频信号中除第二对象信号外的信号。可以理解，由于屏幕发声单元在除目标频段外的其他频段的表现力较差，因此当第二对象信号的能量集中在除目标频段外的其他频段时，可以采用扬声器进行第二对象的声音回放，比如通过下述S05实现。

S05.音频管理模块将第二对象信号和第二背景声信号发送至扬声器的驱动模块。

相应地，扬声器的驱动模块基于第二对象信号和第二背景声信号，驱动扬声器输出第二对象和第二背景的声音。

在一些实施例中，第二对象信号和第二背景声信号可以分别包括多个声道信号。

示例性地，如图13所示，鸟声信号Flag2包括左声道信号和右声道信号，背景声信号Flag0包括左声道信号和右声道信号。音频管理模块对鸟声信号Flag2的左声道信号和背景声信号Flag0的左声道信号进行混音，得到混音信号1，并将混音信号1输入至第一扬声器。同时，音频管理模块对鸟声信号Flag2的右声道信号和背景声信号Flag0的右声道信号进行混音，得到混音信号2，并将混音信号2输入至第二扬声器。

需要说明的是，混音信号1和第一扬声器的对应关系，混音信号2和第二扬声器的对应关系可以为预先设置的，也可以为根据电子设备的朝向确定，可以参照上述第一种场景对左声道信号与第一扬声器的对应关系，以及右声道信号与第二扬声器的对应关系的对应关系的描述，此处不再赘述。

应理解，当第二对象信号的能量集中在除目标频段外的其他频段时，采用扬声器输出第二对象和第二背景的声音，可以解决屏幕发声单元的频响在低频衰减较快的问题。但是结合上述实施例的描述，由于扬声器的朝向限制，会使得声像在电子设备的屏幕中心浑浊。基于此，本申请实施例还提供了另一种解决方案：结合屏幕发声单元面向用户发声，声音直达用户的优点，以及扬声器在各个频段的频响较为平整的优点，控制扬声器和屏幕发声单元联合发声。

下面以电子设备包括第一扬声器、第二扬声器和屏幕发声单元，且第一扬声器和第二扬声器设置在两个相背的侧边框，第二对象信号包括左声道信号和右声道信号，第二背景声信号包括左声道信号和右声道信号为例，结合下述S06对第一扬声器、第二扬声器和屏幕发声单元联合发声的方案进行示例说明。

S06.音频管理模块根据第二对象信号的各个声道的能量，确定与第一扬声器对应的第一增益、与第二扬声器对应的第二增益以及与屏幕发声单元对应的第三增益，并向第一扬声器发送第一增益的指示信息，向第二扬声器发送第二增益的指示信息，向屏幕发声单元发送第三增益的指示信息。另外，音频管理模块向第一扬声器的驱动模块发送第二对象信号的左声道信号和第二背景声信号的左声道信号的混音信号，向第二扬声器的驱动模块发送第二对象信号的右声道信号和第二背景声信号的右声道信号的混音信号，向屏幕发声单元发送第二对象信号的左声道信号和右声道信号的混音信号。

相应地，第一扬声器的驱动模块将第二对象信号的左声道信号和第二背景声信号的左声道信号的混音信号作为第一扬声器的输入信号，控制第一扬声器按照第一增益，输出声音。第二扬声器的驱动模块将第二对象信号的右声道信号和第二背景声信号的右声道信号的混音信号作为第二扬声器的输入信号，控制第二扬声器以第二增益，输出声音。屏幕发声单元的驱动模块将第二对象信号的左声道信号和右声道信号的混音信号作为屏幕发声单元的输入信号，控制屏幕发声单元以第三增益，输出声音。

需要说明的是，第二对象信号的左声道信号和第二背景声信号的左声道信号的混音信号与第一扬声器的对应关系，第二对象信号的右声道信号和第二背景声信号的右声道信号的混音信号和第二扬声器的对应关系可以为预先设置的，也可以为根据电子设备的朝向确定，可以参照上述第一种场景对左声道信号与第一扬声器的对应关系，以及右声道信号与第二扬声器的对应关系的对应关系的描述，此处不再赘述。

示例性地，图19示出了扬声器和屏幕发声单元输出声音的流程示意图。在从NN网络提取到鸟声信号后，音频管理模块分别计算鸟声信号的左声道信号的能量Lb，以及鸟声信号的右声道信号的能量Rb。然后，比较左声道信号的能量Lb和右声道信号的能量Rb的大小，将存在下述几种情形：

情形1、如果左声道信号的能量Lb大于右声道信号的能量Rb，那么由于扬声器1用于输出左声道信号，因此为了形成鸟声靠近扬声器1的声场效果，可以确定扬声器1的增益g1，屏幕发声单元的增益g2。在一些实施例中，g1≥g2。

情形2、如果左声道信号的能量Lb小于右声道信号的能量Rb，那么由于扬声器2用于输出右声道信号，因此为了形成鸟声靠近扬声器2的声场效果，可以确定扬声器2的增益g3，屏幕发声单元的增益g2。在一些实施例中，g3≥g2。

情形3、如果左声道信号的能量Lb等于右声道信号的能量Rb，那么为了形成鸟声靠近显示屏中心区域的声场效果，可以确定扬声器1的增益g1，屏幕发声单元的增益g2，扬声器2的增益g3。在一些实施例中，g2≥g1，且g2≥g3。

在一些实施例中，上述增益g1、增益g2和增益g3为预设增益，但这可能存在预设增益过大或过小的问题，导致立体声不够真实。在另一些实施例中，针对第i个分帧信号的增益，可以根据第i-1个分帧信号的增益确定，从而保证增益平滑。

示例性地，仍以鸟声信号的左声道信号的能量用Lb表示，鸟声信号的右声道信号的能量用Rb表示为例。如图20-图22所示，当用户左手手持手机的上边框，右手手持手机的下边框，且右边框朝上时，显示屏可以包括区域a、区域b和区域c，设置于上边框的扬声器1用于输出左声道信号，设置于下边框的扬声器2用于输出右声道信号。

在视频播放场景下，音频信号的声道能量与对象图像在屏幕中的位置或坐标呈对应关系。以小鸟图像为例，当小鸟图像位于区域a时，左声道信号的能量较强；小鸟图像位于区域c时，右声道信号的能量较强。

首先，音频管理模块可以采用下述公式计算左声道信号和右声道信号的差值因子：

然后，音频管理模块判断α属于的区间，具体分为下述(1)至(3)三种情况。

(1)如图20所示，当满足α∈[-1，0.5)时，小鸟图像位于区域a，扬声器1距离区域a较近。针对第i个分帧信号，为了形成鸟声在区域a的声场效果，可以采用下述设置方式：

扬声器1的增益g1(i)：g1(i)＝|α|*g1(i-1)。

屏幕发声单元的增益g2(i)：g2(i)＝(1-|α|)*g2(i-1)。

扬声器1的增益g3(i)：g3(i)＝0。

其中，g1(i-1)为针对第i-1个分帧信号的扬声器1的增益，g2(i-1)为针对第i-1个分帧信号的屏幕发声单元的增益。

需要说明的是，在本申请实施例中，*符号代表乘号。

(2)如图21所示，当满足α∈[-0.5，0.5)时，小鸟图像位于区域b，屏幕发声单元位于区域b。针对第i个分帧信号，为了形成鸟声在区域b的声场效果，可以采用下述设置方式：

屏幕发声单元的增益g2(i)：g2(i)＝(1-|α|)*g2(i-1)。

在一些实施例中，扬声器1的增益g1(i)和扬声器2的增益g3(i)：

g1(i)＝g3(i)＝|α|*g1(i-1)。

在另一些实施例中，扬声器1的增益g1(i)和扬声器2的增益g3(i)：

g1(i)＝g3(i)＝|α|*g3(i-1)。

其中，g1(i-1)为针对第i-1个分帧信号的扬声器1的增益，g2(i-1)为针对第i-1个分帧信号的屏幕发声单元的增益，g3(i-1)为针对第i-1个分帧信号的扬声器2的增益。

(3)如图22所示，当满足α∈[0.5，1]时，小鸟图像位于区域c，扬声器2距离区域c较近。针对第i个分帧信号，为了形成鸟声在区域c的声场效果，可以采用下述设置方式：

扬声器1的增益g1(i)：g1(i)＝0。

屏幕发声单元的增益g2(i)：g2(i)＝(1-|α|)*g2(i-1)。

扬声器1的增益g3(i)：g3(i)＝|α|*g3(i-1)。

其中，g2(i-1)为针对第i-1个分帧信号的屏幕发声单元的增益，g3(i-1)为针对第i-1个分帧信号的扬声器2的增益。

需要说明的是，第二种场景是以第二对象信号包括左声道信号和右声道信号，第二背景声信号包括左声道信号和右声道信号为例进行示例说明的。在实际实现时，第二对象信号和第二背景声信号可能包括三个及三个以上信道，若信号的信道数量大于音频单元的数量，则电子设备可以先对多信道信号进行混音处理，再输出混音信号。以第二对象信号包括左前声道信号、左后声道信号、右前声道信号、右后声道信号，第二背景声信号包括左前声道信号、左后声道信号、右前声道信号、右后声道信号为例，当α∈[-1，0.5)时，音频管理模块对第二对象信号的左前声道信号和左后声道信号，以及第二背景声信号的左前声道信号和左后声道信号下混，得到第一下混信号，并将第一下混信号输入第一扬声器；当α∈[0.5，1]时，音频管理模块对第二对象信号的右前声道信号和右后声道信号，以及第二背景声信号的右前声道信号和右后声道信号下混，得到第二下混信号，并将第二下混信号输入第二扬声器。

此外，第二种场景是以第二对象信号是鸟声信号为例进行说明的，其并不形成限定。在实际实现时，当屏幕发声单元在目标频段的声压等级值大于或等于预设值，且任意对象的信号能量集中在除目标频段外的其他频段时，该对象的声音信号均可视为第二对象信号，比如风声、水滴声、海水声、风铃声和走路声等低频声音，或者唢呐声和电钻声等高频声音。特别是，针对各个声道的能量随时间动态变化，即声像位置动态变化的信号，比如行驶中的汽车鸣笛声、火车鸣笛声或拖拉机发动机声等均可视为第二对象信号，即采用扬声器和屏幕发声单元联合回放这些声音，打造3D环绕立体声，从而提高回放沉浸感。

在上述第一种场景中介绍了当提出到能量集中在目标频段内的第一对象信号时，如何播放声音的方案。在上述第二种场景介绍了当提出到能量集中在除目标频段外的频段的第二对象信号时，如何播放声音的方案。本申请实施例还提供了另一种识别和提取结果-能量在各个频段均匀分布的第三对象信号，比如在交响乐合奏中，由不同乐器发出的声音在低频、中频和高频均匀分布。针对第三对象信号可以采用第一种场景介绍的音频播放方案，也可以采用第二种场景介绍的音频播放方案，还可以采用在下述第三种场景中，当各个子带的能量均匀分布时的音频播放方案，可以根据实际使用需求进行设置，本申请实施例不作限定。

第三种场景

识别和提取到的结果仅为第三背景声信号(如仅识别和提取到如图13所示的背景声信号Flag0)，即没有提取到其他任何预设对象的信号。

S07.音频管理模块根据第三背景声信号的频谱能量分布情况，确定由扬声器和/或屏幕发声单元基于第三背景声信号输出声音。

若由扬声器基于第三背景声信号输出声音，则音频管理模块将第三背景声信号发送扬声器的驱动模块。相应地，扬声器的驱动模块基于第三背景声信号，驱动扬声器输出第三背景的声音。

若由屏幕发声单元基于第三背景声信号输出声音，则音频管理模块将第三背景声信号发送至屏幕发声单元的驱动模块。相应地，屏幕发声单元的驱动模块基于第三背景声信号，驱动屏幕发声单元输出第三背景的声音。

若由扬声器和屏幕发声单元基于第三背景声信号输出声音，则音频管理模块将第三背景声信号分别发送至扬声器和屏幕发声单元的驱动模块。相应地，扬声器和屏幕发声单元的驱动模块基于第三背景声信号，分别驱动扬声器和屏幕发声单元输出第三背景的声音。

需要说明的是，第一种场景的第一背景声信号，第二种场景的第二背景声信号，第三种场景的第三背景声信号可以为同一个背景声信号，也可以为不同的背景声信号，本申请实施例不作限定。

在一些实施例中，若一个分帧信号仅识别出第三背景信号，则音频管理模块可以将该帧信号划分为3个子带，并根据每个子带的能量，确定由扬声器和/或屏幕发声单元输出声音。

示例性地，假设对原始音频信号进行采样的采样频率为48KHz，每个分帧的帧长为10ms，利用如图23所示的分子待滤波器可以将每个分帧信号划分为3个子带。

比如，子带1的频率范围是[20Hz，1KHz]，子带2的频率范围是[1KHz，5KHz]，子带3的频率范围是[5KHz，20KHz]。然后，计算每个子带的能量，其中，子带1的能量记为E1，子带2的能量记为E2，子带3的能量记为E3。

(1)如果E1较大，那么可以确定该分帧信号在低频段的能量比较充足，或者，如果E3较大，那么可以确定该分帧信号在高频段的能量比较充足，此时可以采用扬声器播放子带1和子带3的信号。具体可以采用下述任意一种播放方式：

方式1、采用扬声器播放子带1和子带3的信号，而不播放带2的信号。方式2、采用扬声器播放全频带(即子带1、子带2和子带3)的信号。方式3、采用扬声器播放子带1和子带3的信号，并采用屏幕发声单元播放子带2的信号。

(2)如果E2较大，那么可以确定该分帧信号在中间频段的能量比较充足，此时可以采用屏幕发声单元发声。具体可以采用下述任意一种播放方式：

方式1、将子带2的信号作为屏幕发声源进行播放，而不播放带1和子带3的信号。方式2、采用屏幕发声单元播放子带2的信号，采用扬声器播放子带1和子带3的信号。方式3、采用屏幕发声单元播放全频带(即子带1、子带2和子带3)的信号，而不采用扬声器发声。

(3)如果E1、E2和E3分布较为均匀，那么可以采用扬声器和屏幕发声单元联合发声。具体可以采用下述任意一种播放方式：

方式1、采用屏幕发声单元播放子带2的信号，并采用扬声器播放子带1和子带3的信号。方式2、采用屏幕发声单元播放子带2的信号，并采用扬声器播放全频带(即子带1、子带2和子带3)的信号，以增强子带2的播放效果。

在一些实施例中，上述子带2为目标频段，子带1和子带3为除目标频段外的频段。应理解，子带1、子带2和子带3也可能为其他频段，可以根据实际使用需求进行调整，本申请实施例不作限定。

在一些实施例中，第三背景声信号包括多个声道信号，例如左声道信号和右声道信号。如果E1较大，那么可以将左声道信号的子带1信号输入第一扬声器，并将右声道信号的子带1信号输入第二扬声器。如果E2较大，那么可以将左声道信号的子带2信号与右声道信号的子带2信号下混后，作为屏幕发声源进行播放。如果E3较大，那么可以将左声道信号的子带3信号输入第一扬声器，并将右声道信号的子带3信号输入第二扬声器。如果E1、E2和E3分布较为均匀，那么可以将左声道信号的子带2信号与右声道信号的子带2信号下混后，作为屏幕发声源进行播放，另外，将左声道信号的子带1信号和子带3信号输入第一扬声器，将右声道信号的子带1信号和子带3信号输入第二扬声器。

在一些实施例中，上述分子待滤波器可以为4阶Linkwitz-Rlley分频滤波器，记为LR-4滤波器。该滤波器由一个低通滤波器和一个高通滤波器组成。

低通滤波器的计算公式如下：

高通滤波器的计算公式如下：

下面以子带1、子带2和子带3的信号为例，对上述第一种场景、第二种场景和第三种场景中涉及的“信号能量集中”这一概念进行解释说明。在实际实现时可以采用下述任意一种方式，确定第i帧信号所集中的子带。

方式1、预先为子带1、子带2和子带3设置一个能量阈值。根据每个子带的能量与能量阈值的大小关系，确定第i帧信号所集中的子带。

如果E1大于或等于能量阈值，E2和E3小于能量阈值，那么第i帧信号集中在子带1。此时，采用扬声器播放子带1的信号。

如果E2大于或等于能量阈值，E1和E3小于能量阈值，那么第i帧信号集中在子带2。此时，采用屏幕发声单元播放子带2的信号。

如果E3大于或等于能量阈值，E1和E2小于能量阈值，那么第i帧信号集中在子带3。此时，采用扬声器播放子带3的信号。

如果E1和E2大于或等于能量阈值，E3小于能量阈值，那么第i帧信号集中在子带1和子带2。此时，采用扬声器播放子带1的信号，采用屏幕发声单元播放子带2的信号。

如果E2和E3大于或等于能量阈值，E1小于能量阈值，那么第i帧信号集中在子带2和子带3。此时，采用扬声器播放子带3的信号，采用屏幕发声单元播放子带2的信号。

如果E1和E3大于或等于能量阈值，E2小于能量阈值，那么第i帧信号集中在子带1和子带3。此时，采用扬声器播放子带1和子带3的信号。

如果E1、E2和E3均大于或等于能量阈值，或者，如果E1、E2和E3均小于能量阈值，那么在第i帧信号集中的子带1、子带2和子带3的能量分布较为均匀。此时，采用扬声器和屏幕发声单元联合发声。

方式2、预先为子带1设置能量阈值1，为子带2设置能量阈值2，为子带3设置能量阈值3。根据每个子带的能量与能量阈值的大小关系，确定第i帧信号所集中的子带。

如果E1大于或等于能量阈值1，E2小于能量阈值2，E3小于能量阈值3，那么第i帧信号集中在子带1。此时，采用扬声器播放子带1的信号。

如果E2大于或等于能量阈值2，E1小于能量阈值1，E3小于能量阈值3，那么第i帧信号集中在子带2。此时，采用屏幕发声单元播放子带2的信号。

如果E3大于或等于能量阈值3，E1小于能量阈值1，E2小于能量阈值2，那么第i帧信号集中在子带3。此时，采用扬声器播放子带3的信号。

如果E1大于或等于能量阈值1，E2大于或等于能量阈值2，E3小于能量阈值3，那么第i帧信号集中在子带1和子带2。此时，采用扬声器播放子带1的信号，采用屏幕发声单元播放子带2的信号。

如果E2大于或等于能量阈值2，E3大于或等于能量阈值3，E1小于能量阈值1，那么第i帧信号集中在子带2和子带3。此时，采用扬声器播放子带3的信号，采用屏幕发声单元播放子带2的信号。

如果E1大于或等于能量阈值1，E3大于或等于能量阈值3，E2小于能量阈值2，那么第i帧信号集中在子带1和子带3。此时，采用扬声器播放子带1和子带3的信号。

如果E1大于或等于能量阈值1，E2大于或等于能量阈值2，E3大于或等于能量阈值3，或者，如果E1小于能量阈值1，E2小于能量阈值2，E3小于能量阈值3，那么在第i帧信号集中的子带1、子带2和子带3的能量分布较为均匀。此时，采用扬声器和屏幕发声单元联合发声。

方式3、比较E1、E2和E3的大小。根据E1、E2和E3的大小关系，确定第i帧信号所集中的子带。

如果E1>E2≥E3，或者，E1>E3≥E2，那么第i帧信号集中在子带1。此时，采用扬声器播放子带1的信号。

如果E2>E1≥E3，或者，E2>E3≥E1，那么第i帧信号集中在子带2。此时，采用屏幕发声单元播放子带2的信号。

如果E3>E2≥E1，或者，E1>E3≥E2，那么第i帧信号集中在子带3。此时，采用扬声器播放子带3的信号。

如果E1＝E2>E3，那么第i帧信号集中在子带1和子带2。此时，此时，采用扬声器播放子带1的信号，采用屏幕发声单元播放子带2的信号。

如果E2＝E3>E1，那么第i帧信号集中在子带2和子带3。此时，此时，采用扬声器播放子带3的信号，采用屏幕发声单元播放子带2的信号。

如果E1＝E3>E2，那么第i帧信号集中在子带1和子带3。此时，此时，采用扬声器播放子带1和子带3的信号。

如果E1＝E2＝E3，那么在第i帧信号集中的子带1、子带2和子带3的能量分布较为均匀。此时，采用扬声器和屏幕发声单元联合发声。

方式4、比较任意两个能量的差值与预设差值W的关系。根据任意两个能量的差值与预设差值X的关系确定第i帧信号所集中的子带。

如果E1-E2>W，且E1-E3>W，那么第i帧信号集中在子带1。此时，采用扬声器播放子带1的信号。

如果E2-E1>W，且E2-E3>W，那么第i帧信号集中在子带2。此时，采用屏幕发声单元播放子带2的信号。

如果E3-E1>W，且E3-E2>W，那么第i帧信号集中在子带3。此时，采用扬声器播放子带3的信号。

如果E1-E3>W，E2-E3>W，且E1-E2≤W，那么第i帧信号集中在子带1和子带2。此时，此时，采用扬声器播放子带1的信号，采用屏幕发声单元播放子带2的信号。

如果E2-E1>W，E3-E1>W，且E2-E3≤W，那么第i帧信号集中在子带2和子带3。此时，此时，采用扬声器播放子带3的信号，采用屏幕发声单元播放子带2的信号。

如果E1-E2>W，E3-E2>W，且E1-E3≤W，那么第i帧信号集中在子带1和子带3。此时，此时，采用扬声器播放子带1和子带3的信号。

如果E1-E2≤W，E1-E3≤W，且E2-E3≤W，那么在第i帧信号集中的子带1、子带2和子带3的能量分布较为均匀。此时，采用扬声器和屏幕发声单元联合发声。

应理解，上述方式1-方式4提供的各种可能情况仅为示例说明，其并不对本申请实施例形成限定。在实际实现时，也可以采用其他方式，确定第i帧信号所集中的子带。

在上述实施例涉及到了NN网络、第一对象信号、第二对象信号和背景声信号。下面以第一对象信号是人声信号，第二对象信号是鸟声信号为例，结合图24，对基于人声信号、鸟声信号和背景声信号训练NN网络的流程进行示例性说明。

示例性地，如图24所示，获取大量的样本数据，这些数据包括：来自不同用户的人声样本数据，来自不同鸟类的鸟声样本数据，以及不同环境的背景声样本数据。这些样本数据包含了不同频率的信号。人声样本数据是指包含人声信号的样本数据，鸟声样本数据是包含鸟声信号的样本数据，背景声样本数据是包含环境噪声的样本数据。其中，人声样本数据和鸟声样本数据可以称为正样本数据，人声样本数据用标签Flag1标识，鸟声样本数据用标签Flag2标识。背景声样本数据可以称为负样本数据，背景声样本数据用标签Flag0标识。

在正样本训练时，对人声样本数据和鸟声样本数据进行分帧处理，得到帧长为10ms的多个分帧。对每个分帧进行FFT变换，得到正样本数据对应的频谱。然后将标签Flag1、标签Flag2和正样本数据对应的频谱输入NN网络进行正样本训练。在每次正样本训练后，调整NN网络的模型参数，直到满足预设条件，停止训练。

在负样本训练时，对背景声样本数据进行分帧处理，得到帧长为10ms的多个分帧。对每个分帧进行FFT变换，得到负样本数据对应的频谱。然后将标签Flag1、标签Flag2和负样本数据对应的频谱输入NN网络进行负样本训练。在每次负样本训练后，调整NN网络的模型参数，直到满足预设条件，停止训练。

通过上述训练过程可以获得用于人声信号和鸟声信号提取的NN网络模型。如此在音频应用接收用户对原始音频信号的选择操作后，可以基于该NN网络模型，对原始音频信号进行对象信号识别和提取。

上述主要从电子设备的角度对本申请实施例提供的方案进行了介绍。可以理解的是，电子设备为了实现上述功能，其包含了执行每一个功能相应的硬件结构或软件模块，或两者结合。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对电子设备进行功能模块的划分，例如，可以对应每一个功能划分每一个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。下面以采用对应每一个功能划分每一个功能模块为例进行说明。

图25为本申请实施例提供的一种装置的结构示意图。如图25所示，该装置500可以包括信号识别和提取模块501和驱动模块502。

其中，信号识别和提取模块501，用于将原始音频信号输入神经网络模型，进行对象信号识别和提取，神经网络模型为根据不同频率的信号训练得到的。驱动模块502，用于根据识别和提取结果，驱动电子设备的音频单元输出与识别和提取结果对应的声音。其中，音频单元包括屏幕发声单元和/或扬声器，不同的识别和提取结果包含不同频率的信号，不同频率的信号对应不同的音频单元。

在一种可能的实现方式中，对原始对象信号的识别和提取结果可以分为下述三种情况：

情况1，第一对象信号和第一背景声信号，第一对象信号的能量集中在目标频段内，或者第二对象信号的能量在各个频段均匀分布。

情况2，第二对象信号和第二背景声信号，第二对象信号的能量集中在除目标频段外的频段，或者第二对象信号的能量在各个频段均匀分布。

情况3，第三对象信号，即没有从原始对象信号识别和提取到预设的对象信号。

在一种可能的实现方式中，驱动模块502，具体用于：在识别和提取结果为第一对象信号和第一背景声信号的情况下，通过屏幕发声单元驱动电子设备的屏幕振动，产生与第一对象信号对应的声音；以及通过扬声器输出与第一背景声信号对应的声音。

在一种可能的实现方式中，驱动模块502，具体用于：在识别和提取结果为第二对象信号和第二背景声信号的情况下，根据第二对象信号的各个信道的能量，驱动屏幕发声单元和扬声器按照不同的增益，输出与第二对象信号对应的声音；以及通过扬声器输出与第二背景声信号对应的声音。

在一种可能的实现方式中，当第二对象信号包括左声道信号和右声道信号时，驱动模块502，具体用于：

其中，上述第一条件、第二条件和第三条件可以分为下述两种方式：

其中，

针对上述方式2，第一增益、第二增益和第三增益可以采用下述方式确定：

第二增益根据关系式g2(i)＝(1-|α|)*g2(i-1)计算得到，g2(i)为在将第i个分帧信号的左声道信号和右声道信号作为屏幕发声单元的输入信号时的增益，g2(i-1)为在将第i-1个分帧信号的左声道信号和右声道信号作为屏幕发声单元的输入信号时的增益；

在一种可能的实现方式中，驱动模块502，具体用于：在识别和提取结果为第三背景声信号的情况下，根据第三背景声信号中各个频段的能量分布情况，驱动屏幕发声单元和/或扬声器，输出与各个频段对应的声音。其中，屏幕发声单元用于输出在目标频段内的信号，扬声器用于输出在除目标频段外的频段的信号。

应理解，图3所示的电子设备可对应于图25所示的装置。其中，图3所示的电子设备中的处理器110，可以对应于图25中的装置中的信号识别和提取模块501和驱动模块502。

本申请实施例还提供了一种电子设备，包括处理器，处理器与存储器耦合，处理器用于执行存储器中存储的计算机程序或指令，以使得电子设备实现上述各实施例中的方法。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机指令；当该计算机可读存储介质在电子设备上运行时，使得该电子设备执行如上所示的方法。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriberline，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘或磁带)，光介质或者半导体介质(例如固态硬盘(solid statedisk，SSD))等。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序代码，当计算机程序代码在计算机上运行时，使得计算机执行上述各实施例中的方法。

本申请实施例还提供了一种芯片，该芯片与存储器耦合，该芯片用于读取并执行存储器中存储的计算机程序或指令，以执行上述各实施例中的方法。该芯片可以为通用处理器，也可以为专用处理器。在一些实施例中，该芯片包括处理器、收发器和存储介质。其中，处理器用于支持电子设备执行如上所示的技术方案。收发器用于接受处理器的控制，用于支持电子设备执行如上所示的技术方案。

需要说明的是，该芯片可以使用下述电路或者器件来实现：一个或多个现场可编程门阵列(field programmable gate array，FPGA)、可编程逻辑器件(programmablelogic device，PLD)、控制器、状态机、门逻辑、分立硬件部件、任何其他适合的电路、或者能够执行本申请通篇所描述的各种功能的电路的任意组合。

上述本申请实施例提供的电子设备、装置、计算机可读存储介质、计算机程序产品以及芯片均用于执行上文所提供的方法，因此，其所能达到的有益效果可参考上文所提供的方法对应的有益效果，在此不再赘述。

应理解，上述只是为了帮助本领域技术人员更好地理解本申请实施例，而非要限制本申请实施例的范围。本领域技术人员根据所给出的上述示例，显然可以进行各种等价的修改或变化，例如，上述检测方法的各个实施例中某些步骤可以是不必须的，或者可以新加入某些步骤等。或者上述任意两种或者任意多种实施例的组合。这样的修改、变化或者组合后的方案也落入本申请实施例的范围内。

还应理解，上文对本申请实施例的描述着重于强调各个实施例之间的不同之处，未提到的相同或相似之处可以互相参考，为了简洁，这里不再赘述。

还应理解，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

还应理解，本申请实施例中，“预先设定”、“预先定义”可以通过在设备(例如，包括电子设备)中预先保存相应的代码、表格或其他可用于指示相关信息的方式来实现，本申请对于其具体的实现方式不做限定。

还应理解，本申请实施例中的方式、情况、类别以及实施例的划分仅是为了描述的方便，不应构成特别的限定，各种方式、类别、情况以及实施例中的特征在不矛盾的情况下可以相结合。

还应理解，在本申请的各个实施例中，如果没有特殊说明以及逻辑冲突，不同的实施例之间的术语和/或描述具有一致性、且可以相互引用，不同的实施例中的技术特征根据其内在的逻辑关系可以组合形成新的实施例。

最后应说明的是：以上描述内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种音频输出方法，其特征在于，所述方法包括：

将原始音频信号输入神经网络模型，进行对象信号识别和提取，所述神经网络模型为根据不同频率的信号训练得到的；

根据识别和提取结果，驱动电子设备的音频单元输出与所述识别和提取结果对应的声音；

其中，所述音频单元包括屏幕发声单元和/或扬声器；不同的识别和提取结果包含不同频率的信号，不同频率的信号对应不同的音频单元。

2.根据权利要求1所述的方法，其特征在于，所述屏幕发声单元在目标频段内的声压等级值大于或等于预设值；所述根据识别和提取结果，驱动电子设备的音频单元输出与所述识别和提取结果对应的声音，包括：

在所述识别和提取结果为第一对象信号和第一背景声信号的情况下，通过所述屏幕发声单元驱动所述电子设备的屏幕振动，产生与所述第一对象信号对应的声音；以及通过所述扬声器输出与所述第一背景声信号对应的声音；

其中，所述第一对象信号的能量集中在所述目标频段内。

3.根据权利要求1所述的方法，其特征在于，所述屏幕发声单元在目标频段内的声压等级值大于或等于预设值；所述根据识别和提取结果，驱动电子设备的音频单元输出与所述识别和提取结果对应的声音，包括：

在所述识别和提取结果为第二对象信号和第二背景声信号的情况下，根据所述第二对象信号的各个信道的能量，驱动所述屏幕发声单元和所述扬声器按照各自对应的增益，输出与所述第二对象信号对应的声音；以及通过所述扬声器输出与所述第二背景声信号对应的声音；

其中，所述第二对象信号的能量集中在除所述目标频段外的频段。

4.根据权利要求3所述的方法，其特征在于，所述第二对象信号包括左声道信号和右声道信号；所述扬声器包括第一扬声器和第二扬声器，所述第一扬声器和所述第二扬声器设置在所述电子设备的两个侧边框上；

所述根据所述第二对象信号的各个信道的能量，驱动所述屏幕发声单元和所述扬声器按照各自对应的增益，输出与所述第二对象信号对应的声音，包括：

在所述第二对象信号的左声道信号的能量和所述第二对象信号的右声道信号的能量满足第一条件的情况下，控制所述第一扬声器按照第一增益，输出与所述第二对象信号的左声道信号对应的声音；以及控制所述屏幕发声单元按照第二增益驱动所述屏幕振动，产生与所述第二对象信号的左声道信号和右声道信号对应的声音；

或者，

在所述第二对象信号的左声道信号的能量和所述第二对象信号的右声道信号的能量满足第二条件的情况下，控制所述第一扬声器按照第一增益，输出与所述第二对象信号的左声道信号对应的声音；控制所述屏幕发声单元按照第二增益驱动所述屏幕振动，产生与所述第二对象信号的左声道信号和右声道信号对应的声音；以及控制所述第二扬声器按照第三增益，输出与所述第二对象信号的右声道信号对应的声音；

或者，

在所述第二对象信号的左声道信号的能量和所述第二对象信号的右声道信号的能量满足第三条件的情况下，控制所述第二扬声器按照第三增益，输出与所述第二对象信号的右声道信号对应的声音；以及控制所述屏幕发声单元按照第二增益驱动所述屏幕振动，产生与所述第二对象信号的左声道信号和右声道信号对应的声音。

5.根据权利要求4所述的方法，其特征在于，

所述第一条件为：所述第二对象信号的左声道信号的能量大于所述第二对象信号的右声道信号的能量；

所述第二条件为：所述第二对象信号的左声道信号的能量等于所述第二对象信号的右声道信号的能量；

所述第三条件为：所述第二对象信号的左声道信号的能量小于所述第二对象信号的右声道信号的能量。

6.根据权利要求4所述的方法，其特征在于，

所述第一条件为：α∈[-1，0.5)；

所述第二条件为：α∈[-0.5，0.5)；

所述第三条件为：α∈[0.5，1]；

其中，

Rb用于表示所述第二对象信号的右声道信号的能量，Lb用于表示所述第二对象信号的左声道信号的能量。

7.根据权利要求6所述的方法，其特征在于，

所述第一增益根据关系式g1(i)＝|α|*g1(i-1)计算得到，g1(i)为在将第i个分帧信号的左声道信号作为所述第一扬声器的输入信号时的增益，g1(i-1)为在将第i-1个分帧信号的左声道信号作为所述第一扬声器的输入信号时的增益；

所述第二增益根据关系式g2(i)＝(1-|α|)*g2(i-1)计算得到，g2(i)为在将所述第i个分帧信号的左声道信号和右声道信号作为所述屏幕发声单元的输入信号时的增益，g2(i-1)为在将所述第i-1个分帧信号的左声道信号和右声道信号作为所述屏幕发声单元的输入信号时的增益；

所述第三增益根据关系式g3(i)＝|α|*g3(i-1)计算得到，g3(i)为在将所述第i个分帧信号的右声道信号作为所述第二扬声器的输入信号时的增益，g3(i-1)为在将所述第i-1个分帧信号的右声道信号作为所述第二扬声器的输入信号时的增益；

其中，i为正整数。

8.根据权利要求4至7中任一项所述的方法，其特征在于，所述控制所述屏幕发声单元按照第二增益驱动所述屏幕振动，产生与所述第二对象信号的左声道信号和右声道信号对应的声音，包括：

在所述屏幕发声单元包括一个激励器和一个柔性区域的情况下，对所述第二对象信号的左声道信号和右声道信号进行下混处理，得到下混信号，控制所述一个激励器按照所述第二增益驱动所述一个柔性区域振动，产生与所述下混信号对应的声音；

或者，

在所述屏幕发声单元包括第一激励器、第二激励器、第一柔性区域和第二柔性区域的情况下，控制所述第一激励器按照所述第二增益驱动所述第一柔性区域振动，产生与所述第二对象信号的左声道信号对应的声音；并控制所述第二激励器按照所述第二增益驱动所述第二柔性区域振动，产生与所述第二对象信号的右声道信号对应的声音。

9.根据权利要求1所述的方法，其特征在于，所述屏幕发声单元在目标频段内的声压等级值大于或等于预设值；所述根据识别和提取结果，驱动电子设备的音频单元输出与所述识别和提取结果对应的声音，包括：

在所述识别和提取结果为第三背景声信号的情况下，根据所述第三背景声信号中各个频段的能量分布情况，驱动所述屏幕发声单元和/或所述扬声器，输出与所述各个频段对应的声音。

10.根据权利要求9所述的方法，其特征在于，所述根据所述第三背景声信号中各个频段的能量分布情况，驱动所述屏幕发声单元和/或所述扬声器，输出与所述各个频段对应的声音，包括：

在所述第三背景声信号的能量集中在所述目标频段内的情况下，驱动所述屏幕发声单元，输出与所述目标频段对应的声音；或者，驱动所述屏幕发声单元，输出与所述各个频段对应的声音；或者，驱动所述屏幕发声单元，输出与所述目标频段对应的声音，并驱动所述扬声器，输出与除所述目标频段外的频段对应的声音；

或者，

在所述第三背景声信号的能量集中在除所述目标频段外的频段的情况下，驱动所述扬声器，输出与除所述目标频段外的频段对应的声音；或者，驱动所述扬声器，输出与所述各个频段对应的声音；或者，驱动所述扬声器，输出与除所述目标频段外的频段对应的声音，并驱动所述屏幕发声单元，输出与所述目标频段对应的声音；

或者，

在所述第三背景声信号的能量在所述各个频段均匀分布的情况下，驱动所述屏幕发声单元，输出与所述目标频段对应的声音，以及驱动所述扬声器，输出与除所述目标频段外的频段对应的声音；或者，驱动所述屏幕发声单元，输出与所述目标频段对应的声音，以及驱动所述扬声器，输出所述各个频段对应的声音。

11.根据权利要求9或10所述的方法，其特征在于，

所述目标频段的频率范围为[1KHz，5KHz]；

除所述目标频段外的频段的频率范围包括：[20Hz，1KHz]和[5KHz，20KHz]。

12.根据权利要求1至11中任一项所述的方法，其特征在于，所述扬声器包括第一扬声器和第二扬声器，所述第一扬声器和所述第二扬声器设置在所述电子设备的两个侧边框上；所述根据识别和提取结果，驱动电子设备的音频单元输出与所述识别和提取结果对应的声音，包括：

根据所述识别和提取结果，确定由所述第一扬声器和所述第二扬声器输出识别和提取到的信号；

通过所述第一扬声器输出与所述识别和提取到的信号的左声道信号对应的声音；以及，通过所述第二扬声器输出与所述识别和提取到的信号的右声道信号对应的声音；

其中，所述左声道信号与所述第一扬声器的对应关系，以及所述右声道信号与所述第二扬声器的对应关系为预先设置的；或者，所述左声道信号与所述第一扬声器的对应关系，以及所述右声道信号与所述第二扬声器的对应关系为根据所述第一扬声器、所述第二扬声器与用户的相对位置确定的。

13.根据权利要求1至12中任一项所述的方法，其特征在于，所述将原始音频信号输入神经网络模型，进行对象信号识别和提取，包括：

对所述原始音频信号进行分帧，得到多个分帧信号；

对所述多个分帧信号中的每个分帧信号进行时频变换，并将时频变换后得到的信号输入所述神经网络模型，以进行对象信号识别和提取。

14.一种电子设备，其特征在于，包括处理器，所述处理器与存储器耦合，所述处理器用于执行所述存储器中存储的计算机程序或指令，以使得所述电子设备实现如权利要求1至13中任一项所述的音频输出方法。

15.一种芯片，其特征在于，所述芯片与存储器耦合，所述芯片用于读取并执行所述存储器中存储的计算机程序，以实现如权利要求1至13中任一项所述的音频输出方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序在电子设备上运行时，使得所述电子设备执行如权利要求1至13中任一项所述的音频输出方法。