CN116320144B

CN116320144B - 一种音频播放方法及电子设备、可读存储介质

Info

Publication number: CN116320144B
Application number: CN202211164352.1A
Authority: CN
Inventors: 杨枭; 邱志强; 吴元友; 王传果; 褚建飞
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-09-23
Filing date: 2022-09-23
Publication date: 2023-11-14
Anticipated expiration: 2042-09-23
Also published as: CN116320144A

Abstract

本申请公开了一种音频播放方法及电子设备，该方法应用于包括第一发声单元、第二发声单元和第三发声单元的电子设备，第三发声单元位于第一发声单元和第二发声单元之间，该方法包括：获取双声道音源输入，确定该双声道音源输入对应的音频中是否存在预设声音，若存在，则对双声道音源输入对应的音频中的声纹特征进行识别，以确定双声道音源输入中发声对象的类型，若发声对象的类型为预设类型，则从双声道音源输入中分离出发声对象对应的音频，然后通过第一发声单元、第二发声单元和第三发声单元中的至少一个发声单元，播放发声对象对应的音频。如此，该方法能够提高电子设备在音频播放过程中声音的结像感。

Description

一种音频播放方法及电子设备、可读存储介质

技术领域

本申请涉及终端技术领域，尤其涉及一种音频播放方法及电子设备。

背景技术

电子设备如手机上通常会配备扬声器，通过扬声器，手机可以播放各种音频，例如音乐、电台，当然手机也可以播放影视作品的音频。

目前，手机为了提升的音频的播放效果，手机上会配备双扬声器，通常在手机的顶部以及底部分别配备一个扬声器。因此，用户在横屏使用手机过程中，位于手机顶部和底部的扬声器可以作为手机的左右声道，从而产生一定的声场扩展效果。

然而，手机并未针对特定声音(例如人的说话声)提供音频播放方案，例如手机在播放特定声音过程中，声音比较发散。

发明内容

本申请提供了一种音频播放方法及电子设备，能够提高电子设备在音频播放过程中声音的结像感。

为达到上述目的，本申请采用如下技术方案：

第一方面，本申请提供了一种音频播放方法，该方法可以应用于包括3个发声单元的电子设备，如包括第一发声单元、第二发声单元和第三发声单元的电子设备，该第三发声单元位于第一发声单元和第二发声单元之间。该第三发声单元可以是屏幕发声装置，例如可以是压电陶瓷激励器、音圈式激励器、磁悬浮激励器和屏幕发声激励器，屏幕发声装置可以通过驱动屏幕振动发声，进而为电子设备提供中置声道。具体地，该方法包括：

电子设备获取双声道音源输入，然后对该双声道音源输入对应的音频中是否存在预设声音进行检测，若电子设备检测到该双声道音源输入对应的音频中存在预设声音，电子设备对双声道音源输入对应的音频中的声纹特征进行识别，以确定双声道音源输入中发声对象的类型，如果该发声对象的类型为预设类型，则从双声道音源输入中分离出发声对象对应的音频，然后，电子设备用过上述第一发声单元、第二发声单元和第三发声单元中的至少一个发声单元，播放发声对象对应的音频。该方法中，电子设备通过三个发声单元对各自声道的声音进行播放，相比于双扬声器而言，能够使电子设备播放音频时的声音更加聚焦，提高结像感。

在一些可能的实现方式中，电子设备可以基于双声道音源输入对应的音频的短时能量和/或短时过零率进行声音检测。具体地，以检测人声为例，在音源输入的多个短时能量大于第一阈值，音源输入的短时过零率小于第二阈值的情况下，电子设备可以确定音源输入中包括人声；在音源输入的多个短时能量小于第一阈值，音源输入的短时过零率大于第二阈值的情况下，电子设备可以确定音源输入中不包括人声。

电子设备对双声道音源输入进行声音检测是一个粗检的过程，即，粗略检测双声道音源输入中是否包括预设声音(该检测结果的准确度较差)，由于仅需要计算短时能量和或短时过零率，故所需要的计算量较小，能够以较快的速度得到检测结果。

若粗检的结果表征双声道音源输入中包括预设声音，电子设备可以通过神经网络对双声道音源输入对应的音频中的声纹特征进行识别。具体地，可以预先采集预设声源中的声音片段，然后利用声音片段训练出能够识别预设声源的神经网络。以预设声源为人声人员为例，可以预先采集人的说话声的声音片段，然后利用该声音片段训练神经网络，得到能够用于识别人声声源的网络模型。电子设备可以基于该网络模型，双声道音源输入对应的音频中的声纹特征进行识别，进而得到识别结果，例如包括人声或不包括人声。

电子设备对双声道音源输入对应的音频中的声纹特征进行识别是一个细检的过程，即，精细识别双道声音源输入中是否包括预设声源(该检测结果的准确度较好)，由于需要通过神经网络进行识别，故所需的计算量较大。因此，在上述粗检的结果为不包括预设声音的前提下，则可以不进行预设声源的识别，进而能够减少电子设备的计算量。

在一些可能的实现方式中，双声道音源输入可以是视频画面对应的音源输入，该方法还可以包括：电子设备获取发声对象在视频画面中的位置，然后再基于发声对象在视频画面中的位置，通过第一发声单元、第二发声单元以及第三发声单元中的至少一个发声单元，播放发声对象对应的音频。例如，在电子设备播放电影的场景下，电子设备可以基于电影中发声对象的类型，若发声对象的类型为预设类型(适合中置声道播放声音的对象)，则从视频画面对应的音频中提取发声对象对应的音频，将适合中置声道的声源进行提取，进而得到中置声道的声音，三个扬声器对各自声道的声音进行播放，相比于双扬声器而言，能够使电子设备播放音频时的声音更加聚焦，提高结像感。如此，该方案能够使用户所感受的声音的位置与电影中电影人物的位置近似，提高用户的体验。

在一些可能的实现方式中，电子设备可以先基于发声对象在视频画面中的位置，确定第一发声单元、第二发声单元以及第三发声单元各自播放发声对象对应的音频的声压级；然后根据第一发声单元、第二发声单元以及第三发声单元各自播放发声对象对应的音频的声压级，控制第一发声单元、第二发声单元、以及第三发声单元，播放发声对象对应的音频。

在一些可能的实现方式中，电子设备还可以对双声道音源输入的场景进行识别，得到场景分类，若该场景分类为非安静场景，则通过第三发声单元播放该非安静场景对应的音频。其中，场景分类可以分为安静场景以及非安静场景，安静场景是指环境中声音的响度低于预设阈值，例如安静场景可以包括安静环境，安静环境中声音的分贝小于40dB；则非安静场景是指，环境中声音的分贝大于或等于40dB。

在一些可能的实现方式中，如果非安静场景为第一类预设非安静场景，则第一发声单元、第二发声单元以及第三发声单元，播放第一类预设非安静场景对应的音频的声压级相同；如果非安静场景为第二类预设非安静场景，则第一发声单元播放第二类预设非安静场景对应的音频的声压级为第一声压级，第二发声单元播放第二类预设非安静场景对应的音频的声压级为第二声压级，第三发声单元播放第二类预设非安静场景对应的音频的声压级为第三声压级；第三声压级大于第一声压级以及第二声压级。其中，非安静场景进一步可以分为第一类预设非安静场景和第二类预设非安静场景，其中第一类预设非安静场景中包括风声、雨声等，第一类预设非安静场景是指环境中的声音来自四面八方的场景；第二类预设非安静场景中包括爆炸声、打雷声，第二类预设非安静场景是指环境中的声音集中在屏幕中部的声音。

第二方面，本申请提供了一种音频播放方法，该方法可以应用于包括3个发声单元的电子设备，如包括第一发声单元、第二发声单元和第三发声单元的电子设备，该第三发声单元位于第一发声单元和第二发声单元之间。具体地，该方法包括：电子设备接收5.1声道音源输入，然后将该5.1声道音源输入中的左声道、左环绕声道以及重低音声道的音频，合并为电子设备左声道的音频，将5.1声道音源输入中的右声道、右环绕声道以及重低音声道的音频，合并为电子设备右声道的音频，将5.1声道音源输入中的中置声道的音频作为电子设备中置声道的音频，电子设备通过第一发声单元播放左声道的音频，通过第二发声单元播放右声道的音频，通过第三发声单元播放中置声道的音频。

在一些可能的实现方式中，在接收5.1声道音源输入之前还包括：获取7.1声道音源输入；对7.1声道音源输入进行转换，得到5.1声道音源输入。

在一些可能的实现方式中，对所述7.1声道音源输入进行转换，得到5.1声道音源输入，包括：将7.1声道音源输入中的左后声道和左环绕声道的音频进行合并，得到5.1声道音源输入的左环绕声道的音频；将7.1声道音源输入中的右后声道和右环绕声道的音频进行合并，得到5.1声道音源输入的右环绕声道的音频；将7.1声道音源输入中的中置声道的音频，作为5.1声道音源输入的中置声道的音频；将7.1声道音源输入中的左声道的音频，作为5.1声道音源输入的左声道的音频；将7.1声道音源输入中的右声道的音频，作为5.1声道音源输入的右声道的音频；将7.1声道音源输入中的重低音声道的音频，作为5.1声道音源输入的重低音声道的音频。

第三方面，本申请提供了一种电子设备，该电子设备包括第一发声单元、第二发声单元、第三发声单元、存储器、处理器；第三发声单元位于第一发声单元和第二发声单元之间；存储器，用于存储有计算机程序；处理器，用于执行存储器中的计算机程序，以实现第一方面中任一种可能实现方式中所述的方法。

第四方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面中任一种可能实现方式中所述的方法。

第五方面，本申请提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行如第一方面中任一种可能实现方式中所述的方法。

本申请的技术方案具有如下有益效果：

本申请提供了一种音频播放方法，该方法可以应用于包括第一发声单元、第二发声单元以及第三发声单元的电子设备，其中，第三发声单元位于第一发声单元和第二发声单元之间。电子设备获取双声道音源输入后，可以将该双声道音源输入转换为3声道音频。具体地，电子设备可以先对双声道音源输入进行声音检测，以确定双声道音源输入对应的音频中是否存在预设音频，在存在预设声音的情况下，再对该双声道音源输入对应的音频中的声纹特行进行识别，以确定双声道音源输入中发声对象的类型；如果该发声对象的类型为预设类型，则从双声道音源输入中分离出发声对象对应的音频，然后通过第一发声单元、第二发声单元以及第三发声单元中的至少一个发声单元，播放该发声对象对应的音频。与现有技术相比，在双声道音源输入中的发声对象的类型为预设类型时，发声对象对应音频不仅由第一发声单元和第二发声大于播放，还额外由第三发声单元播放，如此能够提高音频播放效果；三个发声单元对各自声道的声音进行播放，相比于双扬声器而言，能够使电子设备播放音频时的声音更加聚焦，提高结像感。

应当理解的是，本申请中对技术特征、技术方案、有益效果或类似语言的描述并不是暗示在任意的单个实施例中可以实现所有的特点和优点。相反，可以理解的是对于特征或有益效果的描述意味着在至少一个实施例中包括特定的技术特征、技术方案或有益效果。因此，本说明书中对于技术特征、技术方案或有益效果的描述并不一定是指相同的实施例。进而，还可以任何适当的方式组合本实施例中所描述的技术特征、技术方案和有益效果。本领域技术人员将会理解，无需特定实施例的一个或多个特定的技术特征、技术方案或有益效果即可实现实施例。在其他实施例中，还可在没有体现所有实施例的特定实施例中识别出额外的技术特征和有益效果。

附图说明

图1为本申请实施例提供的一种双扬声器的电子设备的示意图；

图2为本申请实施例提供的一种电子设备的结构示意图；

图3为本申请实施例提供的一种具有三个发声单元的电子设备的正面示意图；

图4为本申请实施例提供的一种具有三个发声单元的电子设备的剖面示意图；

图5为本申请实施例提供的一种音频处理系统的示意图；

图6为本申请实施例提供的一种声道映射模块510的功能示意图；

图7为本申请实施例提供的一种声源识别的示意图；

图8为本申请实施例提供的一种网格示意图；

图9为本申请实施例提供的一种视频画面语义分析的流程图；

图10为本申请实施例提供的一种人物在视频画面中位置的示意图；

图11为本申请实施例提供的另一种人物视频画面中位置的示意图；

图12为本申请实施例提供的一种视频画面划分的示意图；

图13为本申请实施例提供的一种确定分离参数的流程图；

图14为本申请实施例提供的一种声源位置的示意图；

图15为本申请实施例提供的声道和扬声器对应关系的示意图；

图16为本申请实施例提供的一种5.1声道输入的示意图；

图17为本申请实施例提供的一种7.1声道输入的示意图；

图18为本申请实施例提供的一种音频播放方法的流程图。

具体实施方式

本申请说明书和权利要求书及附图说明中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于限定特定顺序。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

为了下述各实施例的描述清楚简洁，首先给出相关技术的简要介绍：

结像感是一种听感，类似于摄影中的对焦，人有两只耳朵，所以类似于视觉，听觉也有对焦的概念，而对焦的结果称之为结像。声学上，人耳主要是通过左右耳声音的响度、混响和延迟时间来判定距离，通过左右耳声音的响度差来判定方位。在确定声音的距离以及方位后，就可以得到一个立体声形象，从而确定声源的位置。

而目前，为了使用户能够感受到立体的音频播放效果，电子设备上通常会配备双扬声器，如图1所示，该图为本申请实施例提供的一种双扬声器的电子设备的示意图。电子设备的扬声器可以位于手机的顶部101以及底部102。在一些场景中，例如手机横屏播放电影时，电影中的电影人物在屏幕的中央区域，电影人物的声音会比较发散，即声音的结像感较弱，这就导致用户所感受的声音来自屏幕的边缘区域，这与电影中电影人物的位置有较大差距，用户的体验较差。

有鉴于此，本申请实施例提供了一种音频播放方案，该音频播放方案可以应用在包括三个发声单元的电子设备，例如在电子设备的顶部和底部设置扬声器，在电子设备的屏幕下方配备用于发声的器件(例如屏幕发声装置)。该电子设备可以对双声道音源输入进行处理，得到三声道的音频，然后进行播放。具体地，电子设备对双声道音源输入进行声音检测，该声音检测用于确定双道声音源输入对应的音频中是否存在预设声音，如果双声道音源输入对应的音频中存在预设声音，则对双声道音源输入对应的音频中的声纹特征进行识别，该识别用于确定双声道音源输入中分离出发声对象对应的音频，然后通过三个发声单元中的至少一个发声单元，播放发声对象对应的音频。电子设备通过三个发声单元对各自声道的声音进行播放，相比于双扬声器而言，能够使电子设备播放音频时的声音更加聚焦，提高结像感。

该方案可以应用在电子设备播放电影的场景下，在电子设备的屏幕下方配备用于发声的器件(例如屏幕发声装置)。例如可以是在电子设备的屏幕下方配备驱动器，以驱动屏幕振动，从而为电子设备提供了中置声道，同时可以保留电子设备顶部扬声器以及底部扬声器，进而形成了多声道扬声器。进一步，电子设备可以基于电影中发声对象的类型，若发声对象的类型为预设类型(适合中置声道播放声音的对象)，则从视频画面对应的音频中提取发声对象对应的音频，将适合中置声道的声源进行提取，进而得到中置声道的声音，三个扬声器对各自声道的声音进行播放，相比于双扬声器而言，能够使电子设备播放音频时的声音更加聚焦，提高结像感。如此，该方案能够使用户所感受的声音的位置与电影中电影人物的位置近似，提高用户的体验。

下面结合附图，对本申请实施例提供的音频播放方案应用的电子设备进行说明。

在一些实施例中，电子设备可以是手机、平板电脑、桌面型、膝上型、笔记本电脑、超级移动个人计算机(Ultra-mobile Personal Computer，UMPC)、手持计算机、上网本、个人数字助理(Personal Digital Assistant，PDA)、可穿戴电子设备、智能手表等具有音频播放功能的设备，本申请对上述电子设备的具体形式不做特殊限制。在本实施例中，电子设备的结构可以如图2所示，图2为本申请实施例提供的一种电子设备的结构示意图。

如图2所示，电子设备可以包括处理器110，音频模块170，扬声器170A，受话器170B，麦克风170C，显示屏194以及屏幕发声装置196等。

可以理解的是，本实施例示意的结构并不构成对电子设备的具体限定。在另一些实施例中，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。例如，在本申请中，处理器可以先确定视频画面中发声对象的类型，如果该发声对象的类型为预设类型(适合中置声道播放声音的对象)且该发声对象正在发声，则从视频画面对应的音源输入中确定发声对象对应的音频，并确定发声对象在视频画面中的位置，根据该位置，通过第一发声单元、第二发声单元以及第三发声单元播放发声对象对应的音频。

其中，NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

其中，控制器可以是电子设备的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

可以理解的是，本实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备的结构限定。在本申请另一些实施例中，电子设备也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

电子设备通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oled，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，电子设备可以包括1个或N个显示屏194，N为大于1的正整数。

电子设备的显示屏194上可以显示一系列图形用户界面(graphical userinterface，GUI)，这些GUI都是该电子设备的主屏幕。一般来说，电子设备的显示屏194的尺寸是固定的，只能在该电子设备的显示屏194中显示有限的控件。控件是一种GUI元素，它是一种软件组件，包含在应用程序中，控制着该应用程序处理的所有数据以及关于这些数据的交互操作，用户可以通过直接操作(direct manipulation)来与控件交互，从而对应用程序的有关信息进行读取或者编辑。一般而言，控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

在一些实施例中，电子设备可以通过显示屏194播放电影，电影的音频可以通过养神气170A以及屏幕发声装置196播放。

电子设备可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备可以通过扬声器170A播放音乐，或接听免提通话。通常，为了提高电子设备的播放效果，电子设备上会配备多个扬声器，例如可以配备两个扬声器。两个扬声器的位置可以参见图1所示。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

示例性的，本申请实施例中，电子设备在播放电影过程中，由音频模块170的扬声器170A播放该声音信号，同时由屏幕发声装置196来驱动屏幕(即显示屏)进行屏幕发声以播放该声音信号。扬声器170A和屏幕发声装置196的数量可以是一个或者多个。例如，电子设备上可以配置2个扬声器170A以及一个屏幕发声装置196。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备可以设置至少一个麦克风170C。在另一些实施例中，电子设备可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

当然，可以理解的，上述图2所示仅仅为电子设备的设备形态为手机时的示例性说明。若电子设备是平板电脑，手持计算机，PDA，可穿戴式设备(如：智能手表、智能手环)等其他设备形态时，电子设备的结构中可以包括比图2中所示更少的结构，也可以包括比图2中所示更多的结构，在此不作限制。

在本申请实施例中，电子设备包括硬件层、运行在硬件层之上的操作系统层，以及运行在操作系统层上的应用层。其中，硬件层可以包括中央处理器(central processingunit，CPU)、内存管理单元(memory management unit，MMU)和内存(也称为主存)等硬件。操作系统层的操作系统可以是任意一种或多种通过进程(process)实现业务处理的计算机操作系统，例如，Linux操作系统、Unix操作系统、Android操作系统、iOS操作系统或windows操作系统等。应用层可以包含浏览器、通讯录、文字处理软件、即时通信软件、音频播放软件、视频播放软件等应用。

下面将结合附图，通过下述多个示例性实施例对本申请实施例进行举例说明。以下实施例中的方法均可以在具有上述硬件结构的电子设备中实现。

如图3所示，该图为本申请实施例提供的一种具有三个发声单元的电子设备的正面示意图(电子设备的屏幕面向用户)，该电子设备包括顶部扬声器301、屏幕发声装置302以及底部扬声器303。如图4所示，该图为本申请实施例提供的一种具有三个发声单元的电子设备的剖面示意图，屏幕发声装置302位于屏幕下方，以驱动屏幕振动发声，从而形成了除顶部扬声器301和底部扬声器303外的发声装置。通常，该屏幕发声装置302可以位于屏幕正中心的屏下位置或者靠近该正中心的屏下位置，以获得较大的振幅，提高振动效果。其中，屏幕发声装置302可以是压电陶瓷激励器、音圈式激励器、磁悬浮激励器、屏幕发声激励器等。

需要说明的是，图3和图4仅仅是本申请实施例提供的一种具有三个发声单元的电子设备的示意图，在另一些实施例中，电子设备还可以具有更多的发声单元，例如，电子设备包括2个顶部扬声器，分别位于电子设备的左上角和右上角，电子设备包括2个底部扬声器，分别位于电子设备的左下角和右下角，电子设备包括2个中部屏幕发声装置，分别位于电子设备的左中部和右中部。

为了便于理解，下面以电子设备为包括三个发声单元的手机，且手机播放视频画面(如电影)为例进行介绍。参见图5，该图为本申请实施例提供的一种音频处理系统的示意图。该音频处理系统包括声道映射模块510以及音效处理模块520。该声道映射模块510可以接收音源输入，音源输入可以是双声道音频、5.1声道音频或者是7.1声道音频等。其中，双声道音频是指包括左声道和右声道的音频，5.1声道音频是指包括左声道、右声道、中置声道、左环绕声道、右环绕声道和重低音声道的音频，7.1声道音频是指包括左前声道、右前声道、左环绕声道、右环绕声道、前中置声道、左后声道、右后声道以及重低音声道的音频。声道映射模块510可以将上述音频输入映射为3声道音频，分别对应手机的左声道、右声道以及中置声道。

在一些示例中，左声道可以对应于手机的顶部扬声器，右声道可以对应于手机的底部扬声器，中置声道可以对应于手机的屏幕发声装置；在另一些示例中，左声道可以对应于手机的底部扬声器，右声道可以对应于手机的底部扬声器，中置声道可以对应于手机的屏幕发声装置。

需要说明的是，手机可以自适应调整上述声道与扬声器的对应关系，例如在手机屏幕旋转前，左声道对应于手机的顶部扬声器，右声道可以对应于手机的底部扬声器，在手机屏幕旋转180度后，左声道对应手机的底部扬声器，右声道对应手机的顶部扬声器，后续详细介绍。

在一些实施例中，声道映射模块510还可以接收对视频画面进行语义分析后的分析结果，基于分析结果，以及对音源输入的分析结果将音源输入映射为3声道音频。例如，声道映射模块510可以将双声道的音源输入映射为3声道音频。具体可以是将音源输入中适合中置声道播放的音频进行分离，例如从音源输入中分离出人说话声、视频画面中物体的发声等，然后通过屏幕发声装置播放上述分离出的声音。此时，顶部扬声器和底部扬声器也同样会播放上述人说话声或物体的发声，在发声对象(例如人、物体)位于屏幕中部区域的情况下，屏幕发声装置播放的上述声音(人说话声或物体的发声)的声压级(sound pressurelevel，SPL)大于顶部扬声器和底部扬声器播放的上述声音的声压级。

为了便于理解，下面以音源输入为双声道音频为例，对声道映射模块510的具体功能进行详细介绍。如图6所示，该图为本申请实施例提供的一种声道映射模块510的功能示意图。该声道映射模块510可以包括声音检测模块511、音频场景识别模块512、声源识别模块513、分离策略模块514以及人声分离器515。

声道映射模块510可以接收音源输入，例如可以接收双声道声音频，声道映射模块510接收音源输入后，声音检测模块511可以对该音源输入进行检测，例如检测是否有预设声音，其中，预设声音可以是人声、鸟声、爆炸声等。

为了便于理解，下面以预设声音为人声为例进行介绍。在一些实施例中，声音检测模块511可以通过音源输入的多个短时能量(short time energy，STE)和/或短时过零率(zero cross counter，ZCC)来确定音源输入中是否包括人声。具体地，在音源输入的STE大于第一阈值，且ZCC小于第二阈值的情况下，声音检测模块511可以确定音源输入中包括人声；在音源输入的STE小于第一阈值，且ZCC大于第二阈值的情况下，声音检测模块511可以确定音源输入中不包括人声。基于此，声音检测模块511可以检测出音源输入中是否包括人声的检测结果。类似的，声音检测模块511也可以对音源输入中是否包括鸟声、爆炸声等进行检测，得到是否包括鸟声、爆炸声的检测结果。

在一些示例中，声音检测模块511在确定音源输入中包括预设声音的情况下，声源识别模块513可以对音源输入中的预设声源进行识别(可以基于声源的声纹特征进行识别)，其中，预设声源可以是人声声源、鸟声声源、爆炸声声源、汽车声声源等。如图7所示，该图为本申请实施例提供的一种声源识别的示意图。声源识别模块513可以对音源输入中是否包含预设声源进行识别，得到声源识别结果。

在一些示例中，可以预先采集上述预设声源中的声音片段，利用该声音片段训练出能够识别预设声源的神经网络(Neural Network，NN)。例如预设声源可以鸟叫声声源，可以预先采集鸟叫声的声音片段，然后利用该鸟叫声的声音片段训练神经网络，得到能够用于识别鸟叫声声源的网络模型。类似的，还可以训练出能够用于识别人声声源的网络模型，也可以训练出能够用于识别爆炸声声源的网络模型，还可以训练出能够用于识别汽车声声源的网络模型。其中，网络模型用于对输入声源的声纹特征进行识别。

完成训练后，声源识别模块513可以基于上述网络模型，对音源输入中的预设声源进行识别。具体地，可以将上述音源输入分别输入到上述用于识别鸟叫声声源的网络模型、用于识别人声声源的网络模型以及用于识别爆炸声声源的网络模型，其中，用于识别鸟叫声声源的网络模型可以输出音源输入中是否含有鸟叫声声源的结果，用于识别人声声源的网络模型可以输出音源输入中是否含有人声声源的结果，用于识别爆炸声声源的网络模型可以输出音源输入中是否含有爆炸声声源的结果。上述各个模型，还能够输出各个声源特征。

需要说明的是，上述声音检测模块511可以是粗检，即，初步检测音源输入中是否包括预设声音，粗检所采用的方式所需要的计算量较少，在通过粗检的结果能够确定音源输入中不包括预设声音的情况下，声源识别模块513无需在对音源输入进行识别，由于声源识别模块513对音源输入进行识别过程所需要的计算量较大，进而能够节约计算资源。声源识别模块513可以是细检，即，在上述声音检测模块511确定存在预设声音后，可以进一步的进行声源识别，确定该音源输入的预设声源，进而使识别结果更加精确。

声音检测是粗糙检查音源输入中是否含有预设声音，所需要的计算量较少，而声源识别所采用的方式为声纹特征识别，声纹特征识别过程中所需要的计算量较大。因此，在粗检确定不存在预设声音的情况下，可以不进行声纹特征识别，从而能够有效减小计算量，提高检测效率。在粗检确定存在预设声音的情况下，再进行声纹特征识别，进一步增加识别结果的准确度。

上述声源中，属于预设类型的发声对象对应的声源可以包括鸟叫声、人声等。

音频场景识别模块512可以对该音源输入进行场景识别，得到音源输入对应的场景识别结果。例如音频场景识别模块512可以识别音源输入中包括的声音特征，基于声音特征确定音源输入对应的场景分类。在一些示例中，场景分类可以包括安静环境、环境音(如风声、雨声、海浪声)、背景伴奏等。具体地，音频场景识别模块512可以基于梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients，MFCC)、卷积神经网络(ConvolutionalNeural Network，CNN)等方式，对音源输入的场景进行识别，得到场景分类。场景分类可以分为安静场景以及非安静场景，安静场景是指环境中声音的响度低于预设阈值，例如安静场景可以包括安静环境，安静环境中声音的分贝小于40dB；非安静场景进一步可以分为第一类预设非安静场景和第二类预设非安静场景，其中第一类预设非安静场景中包括风声、雨声等，第一类预设非安静场景是指环境中的声音来自四面八方的场景；第二类预设非安静场景中包括爆炸声、打雷声，第二类预设非安静场景是指环境中的声音集中在屏幕中部的声音。

在一些实施例中，若音频场景识别模块512确定音源输入中环境的声音小于40dB且为属于第一类预设非安静场景的声音(如风声)，则可以确定该场景分类为第一类预设非安静场景，当然，在另一些实施例中，也可以确定该场景分类为安静场景，本领域技术人员可以基于实际需要进行设置。

需要说明的是，上述第一类预设非安静场景和第二类预设非安静场景的例子仅仅是示意性介绍，本领域技术人员可以基于实际需要进行选择第一类预设非安静场景包括的声音，第二类预设非安静场景包括的声音。

分离策略模块514可以接收上述音频场景识别模块512输出的场景识别结果、声源识别模块513输出的声源识别结果以及对视频画面进行语义分析后的分析结果确定分离参数。其中，分离参数是指需要分离的声源参数，例如可以包括声源数量、声源类型、声源位置(在视频画面中的位置)、声纹特征、是否包括场景声等。

声源位置可以通过发声对象在视频画面中的位置表征，例如可以是发声对象在视频画面中的坐标。在另一些实施例中，可以对视频画面划分多个网格区域，如图8所示，该图为本申请实施例提供的一种网格示意图。其中，为了更加清楚地展示网格，图中并未示出具体的视频画面。其中，声源位置可以通过发声对象所在的网格区域表征，例如，发声对象在网格801中的情况下，可以通过网格801来表征声源位置。当然，在一些示例中，若一个发声对象位于多个网格中，则可以利用该多个网格中的任一网格来表征声源位置，或者利用发声对象所覆盖面积最大的网格来表征声源位置。

本申请不对声源位置的表征方式进行限定，本领域技术人员可以基于实际需要选择声源位置的表征方式。例如，在需要更加精确的声源位置的情况下，可以采用发声对象在视频画面中的坐标表征；在不需要精确的声源位置的情况下，可以采用发声对象在视频画面中所在网格区域表征。

上述对视频画面进行语义分析可以对视频画面中的是否存在发声对象以及该发声对象的位置进行分析，例如，在确定视频画面中存在发声对象后，可以分析该发声对象所在的位置。

参见图9，该图为本申请实施例提供的一种视频画面语义分析的流程图，该分析流程可以包括：

S901、判断视频画面中是否存在人物，若是，则执行S902；若否，结束。

视频画面可以是指手机播放的电影画面，人物可以是电影画面中的电影人物。视频画面中可能存在一个人物或多个人物，也可能不存在人物。若视频画面中不存在人物，则认为视频画面中没有发声对象，也就无需获取发声对象的位置，则结束。在一些示例中，可以基于图像识别技术，判断视频画面中是否存在人物，若存在则执行S902。

S902、判断视频画面中的人物是否正在发声，若是，则执行S903；若否，结束。

在一些示例中，可以通过捕捉视频画面中的口部动作来判断视频画面中的人物是否正在发声，在无法捕捉到视频画面中的人物的口部特征，或者即使捕捉到视频画面中人物的口部特征但无法捕捉到视频画面中人物的唇动(如口部有张合)等发声动作时，则认为视频画面中人物没有正在发声，并结束；否则，执行S903。

需要说明的是，上述根据视频画面中人物口部动作判断视频画面中人物是否正在发声仅仅为一种示例，还可以通过视频画面中人物的肢体动作等综合因素来判断视频画面中人物是否正在发声。

S903、获取人物在视频画面中的位置。

如上述，人物在视频画面中的位置可以通过发声对象在视频画面中的坐标表征，也可以通过发声对象在视频画面中所在的网格表征。为了便于理解，人物在视频画面中的位置通过发声对象在视频画面中所在的网格表征为例，进行介绍。

参见图10，该图为本申请实施例提供的一种人物在视频画面中位置的示意图。人物1001所在的网格为网格1010，基于此，可以通过网格1010来表征人物在视频画面中的位置。在另一些示例中，如图11所示，该图为本申请实施例提供的另一种人物视频画面中位置的示意图。人物1101所覆盖的网格包括网格1110、网格1120以及网格1130。

在一些实施例中，人物1101位于哪个网格可以基于人物1101的预设部位(例如头部、脸部或者口部)在各个网格中的面积来确定。人物1101的预设部位在哪个网格中的面积最大，则确定人物1101在哪个网格中。例如，预设部位为头部，该头部位于网格1110中的面积最大，则确定人物1101位于网格1110，因此，可以利用网格1110来表征人物在视频画面中的位置。

在另一些实施例中，人物1101位于哪个网格可以基于人物1101的预设部位的特征点(例如头部特征点、脸部特征点或口部特征点)落入哪个区域来确定，对于特征点的选取，可以是头部区域、脸部区域或口部区域的中心点。本实施例对发声对象落入哪个区域的确定方法不做具体限定。

需要说明的，上述对视频画面进行划分的方案仅仅为示例，本申请可以根据发声对象的数量和位置，对视频画面进行更加细致的划分。如图12所示，该图为本申请实施例提供的一种视频画面划分的示意图，例如可以将视频画面划分为3(长边)×2(短边)的6个区域，4(长边)×3(短边)的12个区域等等。

分离策略模块514在获取到上述场景识别结果、声源识别结果、对视频画面进行语义分析后的分析结果后，可以确定分离参数。下面以分离人声为例进行介绍。参见图13，该图为本申请实施例提供的一种确定分离参数的流程图，该方案包括：

S1301、分离策略模块514判断视频画面中是否存在人物，若是，则执行S1302，若否，则结束。

在一些示例中，分离策略模块514可以基于上述对视频画面进行语义分析后的分析结果来判断视频画面中是否存在人物，当对视频画面进行语义分析后的分析结果表征视频画面中存在人物时，则执行S1302，否则，结束。

S1302、分离策略模块514判断是否识别到人声声源，若是，则执行S1303，若否，则结束。

在一些示例中，分离策略模块514可以基于上述声源识别结果，判断该视频画面对应的音源输入中是否存在人声声源，若声源识别结果表征存在人声声源，则执行S1303，否则，结束。

S1303、分离策略模块514判断是否存在环境音，若是，则执行S1304，若否，则执行S1305。

环境音可以是风声、雨声、海浪声等。分离策略模块514可以基于上述场景识别结果判断该视频画面对应的音源输入中是否存在环境音，例如若场景识别结果表征存在场景分类中的环境音，则确定存在环境音，执行S1304；若场景识别结果表征不存在场景分类中的环境音，则确定不存在环境音，执行S1305。

S1304、分离策略模块514确定分离参数包括声源数量、声源位置以及场景音。

S1305、分离策略模块514确定分离参数包括声源数量以及声源位置。

基于此，分离策略模块514可以确定出需要分离的声源参数，然后将需要分离的声源参数传输给人声分离器515，人声分离器515可以基于分离策略模块514传输的需要分离的声源参数对音源输入进行分离，进而得到左声道对应的音频、中置声道对应的音频以及右声道对应的音频。

在一些示例中，分离参数包括声源数量、声源位置以及场景音的情况下，分离策略模块514可以基于声源数量的数量值、各个声源的声源位置、以及场景音对音源输入进行分离。以声源包括声源1、声源2、声源3和声源4为例，其中，声源1、声源2和声源3为人声，声源4为场景音。如图14所示，该图为本申请实施例提供的一种声源位置的示意图，从图中可以看出，声源1位于网格1410，声源2位于网格1420，声源3位于网格1430，分离策略模块514可以将顶部扬声器作为声源1的主发声单元，将屏幕发声装置和底部扬声器中的作为声源1的辅发声单元，即，声源1的声音大部分来自左声道，小部分来自中置声道和右声道，此时顶部扬声器发出声源1的声音的声压级大于底部扬声器以及屏幕发声装置发出声源1的声音的声压级，当然，右声道也可以不发声，仅由屏幕发声装置作为辅发声单元。类似的，分离策略模块514可以将屏幕发声装置作为声源2的主发声单元，将顶部扬声器和底部扬声器作为声源2的辅发声单元，即，声源2的声音大部分来自中置声道，小部分来自左声道和右声道，此时屏幕发声装置发出声源2的声音的声压级大于顶部扬声器以及底部扬声器发出声源2的声音的声压级。分类策略模块513可以将底部扬声器作为声源3的主发声单元，将顶部扬声器和屏幕发声装置作为声源3的辅发声单元，即声源3的声音大部分来自右声道，小部分来自左声道和中置声道，此时底部扬声器发出声源3的声音的声压级大于顶部扬声器以及屏幕发声装置发出声源3的声音的声压级，当然，左声道也可以不发声，仅有屏幕发声装置作为辅发声单元。

以场景音为环境音为例，该声源4可以是雨声，雨声的特点是来自四面八方，因此，分离策略模块514可以不区分主发声单元和辅发声单元，即声源4的声音来自左声道、中置声道以及右声道。在另一些示例中，该声源4还可以是环境音中的鸟叫声，鸟叫声适合由中置声道提供，基于此，可以基于该声源4在视频画面中的位置，确定该声源4的发声单元。例如，视频画面中的鸟位于网格1420，可以由屏幕发声装置作为主发声单元，由顶部扬声器和底部扬声器作为辅发声单元，即鸟叫声的声音大部分来自中置声道，小部分来自左声道和右声道。在另一些示例中，声源4还可以是环境音中的安静环境，此时则不对声源4进行分离处理。

在另一些示例中，分离参数包括声源数量以及声源位置的情况下，分离策略模块514仅需要对上述声源1、声源2和声源3进行分离处理，具体过程可以参见上述示例，此处不再赘述。

需要说明的是，可以预先设定分离规则，分离策略模块514可以基于预先设定的分离规则为各个声源分配相对应的扬声器，从而提高音频播放效果。继续参见图5，下面介绍音效处理模块520。

音效处理模块520用于根据屏幕角度、使用场景或音量级，控制音效渲染参数，以便能够在各个使用场景下，得到更佳的音效体验。

屏幕角度是指手机屏幕的旋转角度，在手机屏幕的旋转角度处于预设区间时，手机屏幕会自动切换横屏显示或竖屏显示。如图15所示，该图为本申请实施例提供的声道和扬声器对应关系的示意图。图15中示出了手机屏幕由默认角度(例如0度)分别逆时针旋转90度以及270度的示意图。

手机处于默认角度时，顶部扬声器对应左声道，底部扬声器右声道。在手机屏幕逆时针旋转90度后，顶部扬声器对应左声道，底部扬声器右声道。在手机屏幕逆时针旋转270度后，音效处理模块将对扬声器与声道的对应关系进行切换，将顶部扬声器切换为与右声道对应，将底部扬声器切换为与左声道对应，从而确保视频画面中左侧发声对象的声音来由底部扬声器播放，右侧发声对象的声音由顶部扬声器播放。

使用场景是指用户使用手机播放音频的场景，例如可以包括音乐、电影、电话会议、游戏、短视频等。上述实施例中是以使用场景为电影为例展开的介绍，当然，使用场景还可以是电话会议，游戏等。例如，在电话会议中，对位于手机屏幕左侧的参会人员的标识(例如头像)对应的声音由左声道播放，对位于手机屏幕右侧的参会人员的标识对应声音由右声道播放，对位于手机屏幕中间部位的参会人员的标识对应声音由中置声道播放。

音量级是指用户为手机设置的音量大小，在一些示例中，用户可以基于手机的实体按键对手机的音量大小进行调节。音效处理模块520基于用户设置的音量大小来控制渲染后音频的声音大小。

在一些示例中，音效处理模块520可以基于用户设置的快捷键(例如可以快捷切换图标)实现左右声道的快速切换。例如在手机屏幕发声选择的情况下，用户可以通过该快捷切换图标进行声道的切换。

在一些实施例中，音效处理模块520还可以音频进行均衡(EQ，Equaliser)、动态范围控制(DRC，Dynamic Range Control)等处理。音效处理模块520在完成音效处理后，可以得到3路音频信号，音频信号1、音频信号2和音频信号3，分别对应左声道音频、中置声道音频以及右声道音频。然后，音频信号经过功率放大(Power Amplifier，PA)等处理后输出到对应的发声单元。例如音频信号1经过PA1等处理后输出到顶部扬声器，音频信号2经过PA2等处理后输出到屏幕发声装置，音频信号3经过PA3等处理后输出到底部扬声器。

基于上述内容描述，本申请实施例提供的音频播放方案中，电子设备能够识别视频画面中发声对象的类型以及位置，基于发声对象的类型以及发声对象的位置，将双声道的音源输入进行分离，分别得到左声道音频、中置声道音频以及右声道音频，然后分别由各自对应的扬声器播放各自声道的音频，相比于双扬声器而言，能够使电子设备播放音频的声音更加聚焦，提高结像感。并且，该方案中，电子设备还基于发声对象的位置确定播放该发声对象的声音的扬声器，从而能够使用户所感受的声音的位置与视频画面中发声对象的位置近似，提高用户的体验。

以上是以音源输入为双声道音频为例进行的介绍，下面介绍音源输入为多声道音频的情况，例如音源输入可以是5.1声道音频。

如图16所示，该图为本申请实施例提供的一种5.1声道输入的示意图，声道映射模块510可以不对5.1声道音频进行拆分，而是直接将5.1声道音频中的中置声道的音频作为手机的中置声道的音频，将5.1声道音频中的左声道、左环绕声道以及重低音声道的音频合并为左声道的音频，将5.1声道音频中的右声道、右环绕声道以及重低音声道的音频合并为右声道的音频。在一些示例中，可以采用加权求和的方式对多个声道的音频进行合并，也可以采用其他方式。

在一些示例中，声道映射模块可以基于视频画面语义分析的结果确定合并过程的权重。例如，5.1声道音频中的左声道的权重为0.5、左环绕声道的权重为0.4、重低音声道的权重为0.1。

在完成声道合并后，即可直接得到电子设备的左声道、右声道以及中置声道，然后通过第一发声单元播放左声道的音频，通过第二发声单元播放右声道的音频，通过第三发声单元播放中置声道的音频。

对于音源输入为7.1声道音频或大于7.1声道音频的情况，声道映射模块510可以先将该音源输入转换为5.1声道音频。

如图17所示，该图为本申请实施例提供的一种7.1声道输入的示意图。首先，声道映射模块510可以先对音源输入进行高度分离处理，例如，7.1.2声道格式存在高度声道，则将高度声道(.2)分离并合成为一个声道h，同时将携带有高度信息的声道输入裁剪为不带有高度信息的声道输入，例如将7.1.2音源输入裁剪为7.1音源输入。然后将裁剪后的音源输入与5.1声道进行比较，如果裁剪后的音源输入(例如7.1声道)大于5.1声道，则将该裁剪后的音源输入下混(downmix)为5.1声道的音源输入。如果裁剪后的音源输入等于5.1声道，则直接进行后续处理。

以裁剪后的音源输入为7.1声道的输入为例，声道映射模块510可以将7.1声道音源输入中的左后声道和左环绕声道的音频进行合并，得到5.1声道音源输入的左环绕声道的音频，将7.1声道音源输入中的右后声道和右环绕声道的音频进行合并，得到5.1声道音源输入的右环绕声道的音频；将7.1声道音源输入中的中置声道的音频，作为5.1声道音源输入的中置声道的音频；将7.1声道音源输入中的左声道的音频，作为5.1声道音源输入的左声道的音频；将7.1声道音源输入中的右声道的音频，作为5.1声道音源输入的右声道的音频；将7.1声道音源输入中的重低音声道的音频，作为5.1声道音源输入的重低音声道的音频；将7.1声道音源输入中的重低音声道的音频，作为5.1声道音源输入的重低音声道的音频；进而得到5.1声道的音源输入。

在一些示例中，可以通过加权求和的方式，将7.1声道音源输入中的右后声道和右环绕声道的音频进行合并，其中，各部分的权重可以基于视频画面语义分析的结果得到，例如，7.1声道音源输入中的右后声道的权重为0.2、右环绕声道的权重为0.8；再例如，7.1声道音源输入中的右后声道的权重为0、右环绕声道的权重为，即，删除7.1声道音源输入中的右后声道的音频。

通过上述方式，可以将7.1声道的音源输入进而转化为5.1声道的音源输入。

接着，在得到5.1声道的音源输入后，可以上混(upmix)的方式，对5.1声道的音源输入进行处理，得到5.1声道的音源输入对应的高度声道uh以及高度声道ul。然后基于视频画面语义分析的结果，得到各个声道对应的权重，然后通过加权求和，得到电子设备的左声道的音频，右声道的音频以及中置声道的音频。

其中，声道映射模块510可以将高度声道h、高度声道uh、5.1声道音源输入的左声道L、5.1声道音源输入的左环绕声道LS、5.1声道音源输入的重低音声道合并为电子设备的左声道，类似的，将高度声道ul、5.1声道音源输入的右声道R、5.1声道音源输入的右环绕声道RS、5.1声道音源输入的重低音声道合并为电子设备的右声道，将5.1声道音源输入的中置声道作为电子设备的中置声道，进而得到电子设备的三声道音频流，然后通过第一发声单元、第二发声单元和第三发声单元播放电子设备的三声道音频流。

可见，该方案中，可以对7.1声道(或者更多声道)的音源输入进行处理，将7.1声道的音源输入统一转换成5.1声道的音源输入，然后按照5.1声道的音源输入的处理方式进行处理，进而得到电子设备的三声道音频流。然后在通过各自的发声单元进行播放，能够提高电子设备在音频播放过程中声音的结像感。

参见图18所示，该图为本申请实施例提供的一种音频播放方法的流程图，该方法可以应用于上述图3、图4所示的电子设备，该电子设备包括第一发声单元(顶部扬声器)，第二发声单元(底部扬声器)以及第三发声单元(屏幕发声装置)，该方法包括：

S1701、电子设备获取双声道音源输入。

S1702、电子设备对双声道音源输入进行声音检测。

其中，声音检测用于确定双声道音源输入对应的音频中是否存在预设声音，具体检测过程可以参见上述实施例，此处不再赘述。

S1703、若双声道音源输入对应的音频中存在预设声音，电子设备则对双声道音源输入对应的音频中的声纹特征进行识别。

其中，识别用于确定双声道音源输入中发声对象的类型，具体识别过程可以参见上述实施例，此处不再赘述。

S1704、若发声对象的类型为预设类型，电子设备则从双声道音源输入中分离出发声对象对应的音频。

具体分离过程可以参见上述实施例，此处不再赘述。

S1705、电子设备通过第一发声单元、第二发声单元和第三发声单元中的至少一个发声单元，播放发声对象对应的音频。

基于上述内容描述，本申请提供了一种音频播放方法，该方法可以应用于包括第一发声单元、第二发声单元以及第三发声单元的电子设备，其中，第三发声单元位于第一发声单元和第二发声单元之间。电子设备获取双声道音源输入后，可以将该双声道音源输入转换为3声道音频。具体地，电子设备可以先对双声道音源输入进行声音检测，以确定双声道音源输入对应的音频中是否存在预设音频，在存在预设声音的情况下，再对该双声道音源输入对应的音频中的声纹特行进行识别，以确定双声道音源输入中发声对象的类型；如果该发声对象的类型为预设类型，则从双声道音源输入中分离出发声对象对应的音频，然后通过第一发声单元、第二发声单元以及第三发声单元中的至少一个发声单元，播放该发声对象对应的音频。与现有技术相比，在双声道音源输入中的发声对象的类型为预设类型时，发声对象对应音频不仅由第一发声单元和第二发声大于播放，还额外由第三发声单元播放，如此能够提高音频播放效果；三个发声单元对各自声道的声音进行播放，相比于双扬声器而言，能够使电子设备播放音频时的声音更加聚焦，提高结像感。

本实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中包括指令，当上述指令在电子设备上运行时，使得该电子设备上述实施例中的方法。

本实施例还提供了一种包含指令的计算机程序产品，当该计算机程序产品在电子设备上运行时，使得该电子设备执行上述实施例中的方法。

本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音频播放方法，其特征在于，应用于包括第一发声单元、第二发声单元和第三发声单元的电子设备，所述第三发声单元位于所述第一发声单元和所述第二发声单元之间，所述方法包括：

获取音源输入；

对所述音源输入进行声音检测，所述声音检测用于确定所述音源输入对应的音频中是否存在预设声音；

若所述音源输入对应的音频中存在预设声音，则对所述音源输入对应的音频中的声纹特征进行识别，所述识别用于确定所述音源输入中发声对象的类型；

若所述发声对象的类型为预设类型，则从所述音源输入中分离出所述发声对象对应的音频；

对所述音源输入的场景进行识别，得到场景分类；

当所述场景分类为非安静场景时，根据所述非安静场景的类别，确定所述第一发声单元、第二发声单元和第三发声单元播放所述音源输入对应的场景的音频时各自的声压级，所述非安静场景的环境中声音的响度高于或等于预设阈值；

通过所述第一发声单元、所述第二发声单元和所述第三发声单元中的至少一个发声单元，播放所述发声对象对应的音频以及播放所述音源输入对应的场景的音频，且所述至少一个发声单元中包括所述第三发声单元。

2.根据权利要求1所述的方法，其特征在于，所述对所述音源输入进行声音检测包括：对所述音源输入对应的音频的短时能量和/或短时过零率进行声音检测。

3.根据权利要求1所述的方法，其特征在于，所述对所述音源输入的声纹特征进行识别包括：通过神经网络对所述音源输入对应的音频中的声纹特征进行识别。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述音源输入为视频画面对应的音源输入；所述方法还包括：

获取所述发声对象在所述视频画面中的位置；

所述通过所述第一发声单元、所述第二发声单元和所述第三发声单元中的至少一个发声单元，播放所述发声对象对应的音频，包括：

根据所述发声对象在所述视频画面中的位置，通过所述第一发声单元、所述第二发声单元以及所述第三发声单元中的至少一个发声单元，播放所述发声对象对应的音频。

5.根据权利要求4所述的方法，其特征在于，所述根据所述发声对象在所述视频画面中的位置，通过所述第一发声单元、所述第二发声单元以及所述第三发声单元中的至少一个发声单元，播放所述发声对象对应的音频，包括：

根据所述发声对象在所述视频画面中的位置，确定所述第一发声单元、所述第二发声单元以及所述第三发声单元各自播放所述发声对象对应的音频的声压级；

根据所述第一发声单元、所述第二发声单元以及所述第三发声单元各自播放所述发声对象对应的音频的声压级，控制所述第一发声单元、所述第二发声单元以及所述第三发声单元播放所述发声对象对应的音频。

6.根据权利要求1所述的方法，其特征在于，所述通过所述第一发声单元、所述第二发声单元和所述第三发声单元中的至少一个发声单元，播放所述发声对象对应的音频以及播放所述音源输入对应的场景的音频，包括：

通过所述第一发声单元、所述第二发声单元和所述第三发声单元中的至少一个发声单元，播放所述发声对象对应的音频，通过所述第三发声单元播放所述非安静场景对应的音频。

7.根据权利要求1所述的方法，其特征在于，若所述非安静场景为第一类预设非安静场景，所述通过所述第一发声单元、所述第二发声单元和所述第三发声单元中的至少一个发声单元，播放所述发声对象对应的音频以及播放所述音源输入对应的场景的音频，包括：

通过所述第一发声单元、所述第二发声单元和所述第三发声单元中的至少一个发声单元，播放所述发声对象对应的音频，且所述第一发声单元、所述第二发声单元以及所述第三发声单元，播放所述第一类预设非安静场景对应的音频的声压级相同，所述第一类预设非安静场景是指环境中的声音来自屏幕不同位置的场景；

若所述非安静场景为第二类预设非安静场景，所述通过所述第一发声单元、所述第二发声单元和所述第三发声单元中的至少一个发声单元，播放所述发声对象对应的音频以及播放所述音源输入对应的场景的音频，包括：

通过所述第一发声单元、所述第二发声单元和所述第三发声单元中的至少一个发声单元，播放所述发声对象对应的音频，且所述第一发声单元播放所述第二类预设非安静场景对应的音频的声压级为第一声压级，所述第二发声单元播放所述第二类预设非安静场景对应的音频的声压级为第二声压级，所述第三发声单元播放所述第二类预设非安静场景对应的音频的声压级为第三声压级；所述第三声压级大于所述第一声压级以及所述第二声压级，所述第二类预设非安静场景是指环境中的声音集中在所述屏幕的中部的场景。

8.根据权利要求7所述的方法，其特征在于，所述第一类预设非安静场景中的场景音包括以下中的一种或者多种：

风声、雨声或海浪声；

所述第二类预设非安静场景中的场景音包括以下中的一种或者多种：

爆炸声、打雷声或鸟鸣声。

9.根据权利要求1所述的方法，其特征在于，所述音源输入为5.1声道音源输入，所述通过所述第一发声单元、所述第二发声单元和所述第三发声单元中的至少一个发声单元，播放所述发声对象对应的音频，具体包括：

将所述5.1声道音源输入中的左声道、左环绕声道以及重低音声道的音频，合并为所述电子设备左声道的音频；

将所述5.1声道音源输入中的右声道、右环绕声道以及重低音声道的音频，合并为所述电子设备右声道的音频；

将所述5.1声道音源输入中的中置声道的音频作为所述电子设备中置声道的音频；

通过所述第一发声单元播放所述左声道的音频，通过所述第二发声单元播放所述右声道的音频，通过所述第三发声单元播放所述中置声道的音频。

10.根据权利要求1所述的方法，其特征在于，所述音源输入为7.1声道音源输入，所述通过所述第一发声单元、所述第二发声单元和所述第三发声单元中的至少一个发声单元，播放所述发声对象对应的音频，具体包括：

将所述7.1声道音源输入中的左后声道和左环绕声道的音频进行合并，得到5.1声道音源输入的左环绕声道的音频；

将所述7.1声道音源输入中的右后声道和右环绕声道的音频进行合并，得到5.1声道音源输入的右环绕声道的音频；

将所述7.1声道音源输入中的中置声道的音频，作为5.1声道音源输入的中置声道的音频；

将所述7.1声道音源输入中的左声道的音频，作为5.1声道音源输入的左声道的音频；

将所述7.1声道音源输入中的右声道的音频，作为5.1声道音源输入的右声道的音频；

将所述7.1声道音源输入中的重低音声道的音频，作为5.1声道音源输入的重低音声道的音频。

11.根据权利要求1所述的方法，其特征在于，所述音源输入为双声道音源输入。

12.根据权利要求1所述的方法，其特征在于，所述第三发声单元通过屏幕发声装置实现。

13.根据权利要求12所述的方法，其特征在于，所述屏幕发声装置包括以下任一种：

压电陶瓷激励器、音圈式激励器、磁悬浮激励器和屏幕发声激励器。

14.一种电子设备，其特征在于，所述电子设备包括第一发声单元、第二发声单元、第三发声单元、存储器、处理器；

所述第三发声单元位于所述第一发声单元和所述第二发声单元之间；

所述存储器，用于存储有计算机程序；

所述处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1至13中任一项所述的方法。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至13中任一项所述的方法。