CN116048448A - 一种音频播放方法及电子设备 - Google Patents

一种音频播放方法及电子设备 Download PDF

Info

Publication number
CN116048448A
CN116048448A CN202210882606.7A CN202210882606A CN116048448A CN 116048448 A CN116048448 A CN 116048448A CN 202210882606 A CN202210882606 A CN 202210882606A CN 116048448 A CN116048448 A CN 116048448A
Authority
CN
China
Prior art keywords
electronic device
sound
user
image
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210882606.7A
Other languages
English (en)
Other versions
CN116048448B (zh
Inventor
杨枭
王传果
褚建飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honor Device Co Ltd
Original Assignee
Honor Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honor Device Co Ltd filed Critical Honor Device Co Ltd
Priority to CN202210882606.7A priority Critical patent/CN116048448B/zh
Priority to PCT/CN2023/090506 priority patent/WO2024021712A1/zh
Publication of CN116048448A publication Critical patent/CN116048448A/zh
Application granted granted Critical
Publication of CN116048448B publication Critical patent/CN116048448B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephone Function (AREA)

Abstract

一种音频播放方法及电子设备。在该方法中,电子设备至少包括第一发声单元和第二发声单元,当电子设备与其他电子设备建立通话连接时,电子设备可以接收到其他电子设备发送的通话音频信号,电子设备根据其他电子设备的用户图像在电子设备屏幕上的坐标信息,确定音频信号参数处理策略并生成外放音频信号,外放音频驱动第一发声单元和第二发声单元发声,第一发声单元和第二发声单元共同发声产生的虚拟声像与其他电子设备的用户图像在电子设备屏幕上的方位对应,从而可以提高用户在通话过程中的听感。

Description

一种音频播放方法及电子设备
技术领域
本申请涉及终端技术领域,尤其涉及一种音频播放方法和装置。
背景技术
目前,部分电子设备为了提升的音频立体声播放效果,在手机上设置双扬声器或者更多的扬声器,但是这些电子设备未针对具体的电子设备使用场景设置对应的音频播放方案。尤其是在通话的场景中,不同的通话对象在电子设备通话界面上显示的位置往往不同,因此,需要针对该特点,提供一种音频外放的方法,使得用户在通话过程中,可以让用户在听感上将通话对象在电子设备通话界面上的显示位置与虚拟声像的方位对应起来,从而提高声音的结像感。
发明内容
第一方面,本申请提供了一种音频播放方法,应用于包括第一发声单元和第二发声单元的第一电子设备,该方法包括:
第一电子设备与第二电子设备、第三电子设备建立通话连接;
第一电子设备显示第一界面,第一界面包括第一图像、第二图像和第三图像,第一图像、第二图像和第三图像位于第一界面的不同位置,第一图像关联第一用户,第一用户通过第一电子设备通话,第二图像关联第二用户,第二用户通过第二电子设备通话,第三图像关联第三用户,第三用户通过第三电子设备通话,第一发声单元和第二发声单元处于开启状态;
第一电子设备接收第二电子设备或第三电子设备发送的音频信号;
第一电子设备的第一发声单元输出第一声音信号,第一声音信号由第二电子设备或第三电子设备发送的音频信号处理得到;
第一电子设备的第二发声单元输出第二声音信号,第二声音信号由第二电子设备或第三电子设备发送的音频信号处理得到;
当第二用户发声时,第一声音信号的强度大于第二声音信号的强度。
在一种实施方式中,当第三用户发声时,第二声音信号的强度大于第一声音信号的强度。
在上述实施方式中,在多个用户之间进行通话时,第二用户关联的第二图像和第三用户关联的第三图像在第一电子设备界面上的位置不同,第二用户发声和第三用户发声时,第一电子设备可以根据第二用户和第三用户的位置,驱动并调整不同的发声单元发出的声音信号强度,从而将虚拟声像与用户的位置对应起来,提升声音的结像感。
在一种实施方式中,该第一空间和该第二空间至少有部分不重叠。
在上述实施例中,
当第二用户发声时,第一声音信号和第二声音信号在第一空间的相位相反;
当第三用户发声时,第一声音信号和第二声音信号在第二空间的相位相反。
进一步地,通过控制不同位置的用户发声时,在声音传播的不同空间上产生反相的声音信号,可以实现在不同空间上的声音抵消,从而实现部分声音传播空间声音较小,而部分声音传播空间声音较大的效果,从而进一步提升虚拟声像与用户位置的对应关系。
在一种实施方式中,当该第二用户或该第三用户发声时,该第一界面包含第一标记,该第一标记指示该第二用户或该第三用户正在发声。
在一种实施方式中,该图像可以为静止图像或者动态图像。
在上述实施例中,该图像为静止图像时,该图像为该图像所关联用户的头像;
该图像为动态图像时,该图像为该图像所关联用户使用的电子设备采集的图像。
在一种实施方式中,该第一界面还包括麦克风控件、扬声器控件、摄像头控件以及挂断控件。
在上述实施例中,该扬声器控件处于开启状态。
第二方面,本申请提供了一种音频播放方法,应用于包括第一发声单元和第二发声单元的第一电子设备,该方法包括:
第一电子设备与第二电子设备建立通话连接后,该第一电子设备显示第一界面,该第一界面包括第一图像和第二图像,该第一图像关联第一用户,该第一用户通过该第一电子设备通话,该第二图像关联第二用户,该第二用户通过该第二电子设备通话,该第二图像为动态图像,该第二图像铺满该第一电子设备的屏幕,该第二图像包含第二用户的图像,该第一发声单元和该第二发声单元处于开启状态;
该第一电子设备接收该第二电子设备发送的音频信号;
该第一电子设备的第一发声单元输出第一声音信号,该第一声音信号由该第二电子设备发送的音频信号处理得到;
该第一电子设备的第二发声单元输出第二声音信号,该第二声音信号由该第二电子设备发送的音频信号处理得到;
当该第二图像中的第二用户图像位于第一电子设备屏幕的第一位置时,该第一声音信号的强度大于该第二声音信号的强度。
在一种实施方式中,当该第二图像中的第二用户图像位于第一电子设备屏幕的第二位置时,该第二声音信号的强度大于该第一声音信号的强度。
在一种实施方式中,当该第二图像中的第二用户图像位于第一电子设备屏幕的第一位置时,该第一声音信号和该第二声音信号在第一空间的相位相反;
当该第二图像中的第二用户图像位于第一电子设备屏幕的第二位置时,该第一声音信号和该第二声音信号在第二空间的相位相反。
在上述实施例中,该第一空间和该第二空间至少有部分不重叠。
在一种实施方式中,该第一界面还包括切换摄像头控件、切换到语音控件、模糊背景控件和挂断控件。
结合第一方面和第二方面,在一种实施方式中,该第一电子设备对该第二电子设备或该第三电子设备发送的音频信号进行处理,生成第一外放音频信号和第二外放音频信号;
该第一外放音频信号经过处理后传递到该第一发声单元,驱动该第一发声单元输出第一声音信号;
该第二外放音频信号经过处理后传递到该第二发声单元,驱动该第二发声单元输出第二声音信号。
在一种实施方式中,该第一电子设备对该第二电子设备或该第三电子设备发送的音频信号进行处理,生成第一外放音频信号和第二外放音频信号包括:
该第一电子设备对该第二电子设备或该第三电子设备发送的音频信号进行通道扩展处理,生成第一音频信号和第二音频信号;
其中,上述第二电子设备或第三电子设备发送的音频信号为单通道音频信号。
该第一电子设备对该第一音频信号进行信号参数处理后获得该第一外放音频信号;
该第一电子设备对该第二音频信号进行信号参数处理后获得该第二外放音频信号。
在一种实施方式中,该对第一音频信号和该对第二音频信号的信号参数处理中,至少一个音频信号进行相位调整处理,以及至少一个音频信号进行增益调节处理。
在上述实施例中,该相位调整处理包括反相处理。
在上述实施例中,该对第一音频信号和该对第二音频信号的信号参数处理包括信号提前处理或信号延时处理。
通过上述信号参数的处理,可以确保多发声单元的电子设备中,至少有两个发声单元发出的声音信号在某些声音传播空间上具有相反的相位,且声音的强度不同。
在一种实施方式中,当该第二用户发声时,该第一外放音频信号的信号强度大于该第二外放音频信号的信号强度。
在一种实施方式中,当该第二用户图像位于第一电子设备屏幕的第一位置且该第二用户发声时,该第一外放音频信号的信号强度大于该第二外放音频信号的信号强度。
在上述实施例中,该第一电子设备对该第二电子设备或该第三电子设备发送的音频信号进行处理,生成第一外放音频信号和第二外放音频信号包括:
对该第二电子设备或该第三电子设备发送的音频信号进行滤波处理。
在上述实施例中,该第一电子设备对该第二电子设备或该第三电子设备发送的音频信号进行处理,生成第一外放音频信号和第二外放音频信号包括:
对该第一音频信号或该第二音频信号中的至少一路进行滤波处理。
上述经过滤波后的频率可以根据实际需要进行设置。示例性地,可以根据人声的频率范围进行设定,将滤波处理后的音频信号频率在20Hz-20kHz范围内,优选地,可以将滤波处理后的音频信号频率在300Hz-3kHz范围内。
通过滤波处理,可以将待处理的音频信号控制在一个区间范围内,从而降低电子设备处理音频信号的复杂度,从而提升电子设备的处理效率。
在一种实施方式中,该第一发声单元或该第二发声单元可以包括一个或者多个扬声器和/或屏幕发声单元。
在一种实施方式中,该第一发声单元包括第一扬声器,该第二发声单元包括第一屏幕发声单元或第二扬声器。
在一种实施方式中,该第一发声单元包括第一屏幕发声单元,该第二发声单元包括第一扬声器或第二屏幕发声单元。
第三方面,本申请提供了一种电子设备,该电子设备包括:一个或多个处理器和存储器;该存储器与该一个或多个处理器耦合,该存储器用于存储计算机程序代码,该计算机程序代码包括计算机指令,该一个或多个处理器调用该计算机指令以使得该电子设备执行上述第一方面和第二方面中任一项的方法。
第四方面,本申请提供了一种芯片系统,该芯片系统应用于电子设备,该芯片系统包括一个或多个处理器,该处理器用于调用计算机指令以使得该电子设备执行上述第一方面和第二方面中任一项的方法。
第五方面,本申请提供了一种包含指令的计算机程序产品,当该计算机程序产品在电子设备上运行时,使得该电子设备执行上述第一方面和第二方面中任一项的方法。
第六方面,本申请提供了一种计算机可读存储介质,包括指令,当该指令在电子设备上运行时,使得该电子设备执行上述第一方面和第二方面中任一项的方法。
附图说明
图1为本申请实施例中电子设备的硬件结构图;
图2为本申请实施例中一种三扬声器电子设备的正视图和剖视图;
图3为本申请实施例中一种四扬声器电子设备的示意图;
图4为本申请实施例中一种音频信号的处理过程示意图;
图5为本申请实施例中一种三个用户之间进行通话时通话应用的界面示意图;
图6为本申请实施例中一种四个用户之间进行通话时通话应用的界面示意图;
图7为本申请实施例中一种两个用户之间进行视频通话时通话应用的界面示意图;
图8为本申请实施例中一种电子设备对音频信号进行信号处理的具体过程示意图;
图9为本申请实施例中一种基于串扰消除原理实现虚拟声像方位控制的示意图;
图10为本申请实施例中一种根据对方发声对象相对于电子设备屏幕的坐标实现目标声音外放方案的流程示意图;
图11为本申请实施例中一种电子设备将坐标信息传递给算法的流程示意图;
图12为本申请实施例中一种采用屏幕划分区域方式获取对方发声对象坐标的示意图;
图13为本申请实施例中一种采用视频图像语音分析获取对方发声对象坐标的示意图;
图14为本申请实施例中一种采用对方发声对象与发声单元距离远近确定发声方案的示意图。
具体实施方式
本申请以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样,单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式,除非其上下文中明确地有相反指示。还应当理解,本申请中使用的术语“和/或”是指并包含一个或多个所列出项目的任何或所有可能组合。
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征,在本申请实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本申请以下实施例中的术语“用户界面(user interface,UI)”,是应用程序或操作系统与用户之间进行交互和信息交换的介质接口,它实现信息的内部形式与用户可以接受形式之间的转换。用户界面是通过java、可扩展标记语言(extensible markuplanguage,XML)等特定计算机语言编写的源代码,界面源代码在电子设备上经过解析,渲染,最终呈现为用户可以识别的内容。用户界面常用的表现形式是图形用户界面(graphicuser interface,GUI),是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的文本、图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。
为了便于理解,下面先对本申请实施例涉及的相关术语及概念进行介绍。
(1)通话算法
通话算法中包括通话下行涉及的算法以及通话上行涉及的算法。
其中,通话下行是指电子设备接收其他电子设备发送给本机的输入音频信号之后,电子设备将该输入音频信号进行处理得到的音频信号,并可以通过发声器等将其进行播放。
通话上行是指电子设备通过麦克风采集声音信号,并对该声音信号进行处理,生成输出音频信号,然后通过发送给其他的电子设备。
通话上行的过程中,电子设备将其他电子设备通过基站传输给本机的输入音频信号进行处理。该处理包括:首先经过调制解调器将其解码成电子设备可以识别的音频信号,然后经过通话下行处理模块,再利用编解码器将其解码成模拟音频信号,经过功率放大器进行功率放大,然后驱动发声器对其进行播放。该通话下行处理模块涉及的算法可以包括降噪、音色调整以及音量调整。
通话上行的过程中,则是电子设备的麦克风采集声音信号,将该声音信号进行处理。该处理包括:首先通过编解码器将其进行编码得到数字音频信号,然后通过通话上行处理模块,再利用调制解调器进行调制,得到基站可以识别的输出音频信号。该通话上行处理模块涉及的算法可以包括降噪、音色调整以及音量调整。
该通话下行处理模块以及通话上行处理模块中涉及的降噪、音色调整以及音量调整相同。
其中,降噪用于对一路音频信号时进行降噪,抑制该音频信号中的噪声信号以及混响信号。
音色调整用于调整音频信号中不同频段的音频信号的能量大小,改善语音音色。能量的单位为分贝(decibel,dB),其用于描述声音信号的强度。能量越大的音频信号利用同一个发声器进行播放时听起来音量越大。
可以理解的是,音色为音频信号中不同频段的音频信号的能量占比大小。
音量调整用于调整音频信号的能量。
(2)虚拟声像
又称虚声源或感觉声源,或者简称声像。当声音外放时,能够使得听者在听感中感知到声源的空间位置,从而形成声画面,这种声画面称为虚拟声像。声像就是声场在人大脑中的结像感。例如,人闭着眼睛,置身与声场中,从听觉感受来想象音源的状态,比如声音方向、大小、远近等。
(3)通话应用
通话应用(APP,Application)是指能够执行通话功能的应用,执行的通话功能可以是语音通话功能或者视频通话功能,通话应用可以是电子设备自带的通话应用或者由第三方提供的通话应用。例如畅连,微信,钉钉,QQ,腾讯会议等。
目前,大部分电子设备为了提升的音频立体声播放效果,在手机上设置双扬声器或者更多的扬声器,但是这些电子设备未针对具体的电子设备使用场景设置对应的音频播放方案,从而导致结像感不强。
为解决上述问题,本实施例提供了一种音频的播放方案,尤其提供了一种在通话场景下,电子设备接收的下行通话音频数据时电子设备的音频播放方案。在本方案中,可以将对方发声对象相对于电子设备屏幕坐标作为通话算法模块中的一个输入,使得下行通话音频数据经过通话算法模块处理后生成外放音频数据,外放音频数据经过编解码以及功率放大等处理后传递到对应的发声单元中,驱动发声单元发出声音,发声单元整体的发声效果产生的虚拟声像方位与对方发声对象相对于电子设备屏幕的坐标对应,从而提高声音的结像感,提高用户在声音外放时的通话体验。
下面,先结合附图对本申请实施例提供的通话过程中声音外放方案应用的电子设备进行说明。
示例性的,本申请实施例中的电子设备可以是手机、平板电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本,以及蜂窝电话、个人数字助理(personal digital assistant,PDA)、可穿戴式设备(如:智能手表、智能手环),等具备语音通信功能的设备,本申请实施例对该电子设备的具体形态不作特殊限制。
示例地,以电子设备为手机为例,图1示出了本申请实施例提供的一种电子设备的结构示意图。也即,示例性的,图1所示的电子设备可以是手机。
如图1所示,手机可以包括:处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器(即听筒)170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195,屏幕发声装置196等。
可以理解的是,本实施例示意的结构并不构成对手机的具体限定。在另一些实施例中,手机可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
控制器可以是手机的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
可以理解的是,本实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对手机的结构限定。在另一些实施例中,手机也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
手机的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。手机中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
在一些实施例中,手机的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得手机可以通过无线通信技术与网络以及其他设备通信。上述移动通信模块150可以提供应用在手机上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。
移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
无线通信模块160可以提供应用在手机上的包括无线局域网(wireless localarea networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequencymodulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。
无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
当然,上述无线通信模块160也可以支持手机进行语音通信。例如,手机可以通过无线通信模块160接入Wi-Fi网络,然后使用任一种可提供语音通信服务的应用程序与其他设备进行交互,为用户提供语音通信服务。例如,上述可提供语音通信服务的应用程序可以是即时通讯应用。
手机可以通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。显示屏194用于显示图像,视频等。
手机可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。ISP用于处理摄像头193反馈的数据。在一些实施例中,ISP可以设置在摄像头193中。摄像头193用于捕获静态图像或视频。在一些实施例中,手机可以包括1个或N个摄像头193,N为大于1的正整数。
手机可以通过音频模块170,扬声器170A,受话器(即听筒)170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信号转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动电子设备平台(open mobileterminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellulartelecommunications industry association ofthe USA,CTIA)标准接口。
示例性的,本申请实施例中,音频模块170可以将移动通信模块150和无线通信模块160接收到的音频电信号转换为声音信号。由音频模块170的扬声器170A或者受话器170B(即“听筒”)播放该声音信号,同时由屏幕发声装置196来驱动屏幕(即显示屏)进行屏幕发声以播放该声音信号。扬声器170A和屏幕发声装置196的数量可以是一个或者多个。
当然,可以理解的,上述图1所示仅仅为电子设备的设备形态为手机时的示例性说明。若电子设备是平板电脑,手持计算机,PDA,可穿戴式设备(如:智能手表、智能手环)等其他设备形态时,电子设备的结构中可以包括比图1中所示更少的结构,也可以包括比图1中所示更多的结构,在此不作限制。
在本申请实施例中,电子设备包括硬件层、运行在硬件层之上的操作系统层,以及运行在操作系统层上的应用层。其中,硬件层可以包括中央处理器(central processingunit,CPU)、内存管理单元(memory management unit,MMU)和内存(也称为主存)等硬件。操作系统层的操作系统可以是任意一种或多种通过进程(process)实现业务处理的计算机操作系统,例如,Linux操作系统、Unix操作系统、Android操作系统、iOS操作系统或windows操作系统等。应用层可以包含浏览器、通讯录、文字处理软件、即时通信软件等应用。
下面将结合附图,通过下述多个示例性实施例对本申请实施例进行举例说明。以下实施例中的方法均可以在具有上述硬件结构的电子设备中实现。
图2中的(a)为一具有三个发声单元的电子设备的正面示意图(电子设备屏幕面向用户),该电子设备包括顶部扬声器201、中部屏幕发声器件202和底部扬声器203。图2中(b)展示了该电子设备的剖面示意图,如图所示,屏幕发声器件设置在屏下以驱动屏幕振动发声,本申请实施例中的屏幕发声器件可以采用常见的压电陶瓷激励器、音圈式激励器等可产生可控振动的器件。为了获得较大的振幅,该驱动器可以处于屏幕正中心的屏下位置,或者靠近该正中心的屏下位置。
示例性地,屏幕发声器件可以为具有较大纵横比的长条形结构,其长边可以以垂直于或者平行于电子设备屏幕长边的方位设置,也可以以其他方位方式,本实施例对屏幕发声器件的放置角度不做具体的限定。
在另外一些实施例中,如图3中(a)和(b)所示,电子设备可以包括四个发声单元:顶部扬声器301,左侧屏幕发声器件302,右侧屏幕发声器件303和底部扬声器304。其中,左侧屏幕发声器件302和右侧屏幕发声器件303设置在屏下以驱动屏幕发声,左侧屏幕发声器件302可以设置在电子设备屏幕下面的中间靠左区域,右侧屏幕发声器件303可以设置在电子设备屏幕下面的中间靠右区域。左侧屏幕发声器件302和右侧屏幕发声器件303的长边可以垂直于屏幕的长边设置,也可以平行于屏幕的长边设置。
在另外一些实施例中,电子设备可以仅包含两个发声单元(图中未示出),两个发声单元中,可以两个都是扬声器,例如顶部扬声器和底部扬声器;或者一个扬声器和一个屏幕发声器件,例如顶部扬声器和中间屏幕发声器件;或者也可以是两个屏幕发声器件,例如一个左侧屏幕发声器件,一个右侧屏幕发声器件。
图4展示了一种通话场景中音频数据的处理过程。例如,在电子设备进行通话时,电子设备可以接收其他电子设备发送过来的通话音频信号,经过处理后生成下行通话音频数据。此外,电子设备麦克风可以采集声音信号,经过处理后生成上行通话音频数据。其中,下行通话音频数据可以由电子设备中的通话算法模块进行处理。在通话算法模块中,下行通话音频数据可以经过通道扩展处理,通道扩展处理将下行的单通道通话音频数据扩展成多个通道的通话音频信号,通道扩展数量根据电子设备所具有的发声单元数量进行设定。通过上述通道扩展,可以实现多声道发声的效果。
以图2所示的具有三个发声单元的电子设备为例,将下行通话音频数据扩展为三通道的音频信号。经过通道扩展后的音频信号分别为音频信号1、音频信号2和音频信号3,通话算法模块对音频信号1、音频信号2和音频信号3独立并行处理,生成外放音频信号1、外放音频信号2和外放音频信号3。
示例性地,上述对每个音频信号的处理包括均衡(EQ,Equaliser)、动态范围控制(DRC,Dynamic Range Control)等处理。
经过通话算法模块处理后的每个外放音频信号分为两路输出,其中一路经过功率放大(PA,Power Amplifier)等处理后分别输出到对应的发声单元中。例如,外放音频信号1经过PA1等处理后输出到顶部扬声器201中,外放音频信号2经过PA2等处理输出到中间屏幕发声器件202中,外放音频信号3经过PA3等处理后输出到底部扬声器203中。另外一路经过EC Ref(Echo Reference)处理后输出到通话算法模块中的回声消除子模块,回声消除子模块可以使得由电子设备麦克风采集的外放声音被消除,避免其他电子设备接收到由该电子设备麦克风采集到的声音。
本实施例中,为了提升通话时用户的听感,在通话过程中,将对方发声对象相对于电子设备屏幕的坐标作为通话算法模块中的一个输入,从而控制发声单元的发声效果。对方发声对象在通话过程中可以电子设备屏幕上有不同的显示方式,例如当进行语音通话时,对方发声对象可以是显示在本地电子设备屏幕上的用户头像,当进行视频通话时,对方发声对象可以是显示在本地电子设备的对方视频画面中的人物。
如图4所示,电子设备的算法模块接收对方发声对象相对于电子设备屏幕的坐标,生成参数控制策略,对每个通路的音频信号进行相应的处理,从而使得发声单元中部分发声单元为主发声单元,部分发声单元为辅发声单元。例如,继续以图2中的三个发声单元的电子设备为例,可以将顶部扬声器作为主发声单元,将中部屏幕发声器件和底部扬声器的至少一个发声单元作为辅发声单元。主发声单元和辅发声单元共同作用,使得整体的发声效果中虚拟声像的方位与对方发声对象的位置对应,从而提升声音的结像感。
下面介绍本实施例在不同通话场景时电子设备的声音外放策略。
示例性地,图5示出了一种三个用户之间通话时的通话应用的用户界面。如图5中(a)所示的界面,该界面为用户A的电子设备在与用户B的电子设备和用户C的电子设备建立通话连接时,用户A的电子设备上显示的通话应用界面,该用户界面包含三个用户图像,用户B的图像位于电子设备屏幕的左上方,用户C的图像位于电子设备屏幕的右上方,用户A的图像位于屏幕中间位置且位于用户B的图像和用户C的图像的下方。其中,用户图像可以为静态图像,例如,用户图像可以为各个用户的头像。
如图5中(a)所示的界面,该界面还包括麦克风控件、扬声器控件、摄像头控件、挂断控件。当电子设备建立语音通话连接时,该界面上的麦克风控件和扬声器控件默认处于开启状态,摄像头控件默认处于关闭状态。通过点击扬声器控件的操作,可以同时控制电子设备多个发声单元的开启或者关闭。例如,如图5中(a)的界面所示,发声单元处于开启状态,用户A的电子设备可以接收用户B的电子设备或者用户C的电子设备发送过来的声音信号,并通过发声单元进行声音的外放。
如图5中(a)所示的界面,该界面还包括第一标记501,第一标记501用于指示正在发声的用户,第一标记501可以是位于用户图像区域的具有类似扬声器、喇叭的形状的标记,或者第一标记可以是围绕用户图像设置的高亮边框。
如图5中(a)所示的界面,当用户B正在发声时,用户A的电子设备接收到用户B的电子设备发送的通话音频数信号时,用户B的图像区域出现第一标记501,指示用户B正在发声。此时,如果用户A的电子设备为图2所示的三个发声单元的结构,为了使得虚拟声像的方位与用户B的图像在电子设备屏幕左上方的位置对应,则目标声音外放方案中,可以将顶部扬声器201作为主发声单元,将中间屏幕扬声器202或底部扬声器203作为辅发声单元,从而使得用户A在听感上认为用户B的声音是在用户A的电子设备的上方空间区域发出来的。如果用户A的电子设备为图3所示的四个发声单元的结构,则目标声音外放方案中,可以将顶部扬声器301和左侧屏幕发声器件302作为主发声单元,将右侧屏幕发声器件303或底部扬声器304作为辅发声单元,从而使得用户A在听感上认为用户B的声音是在用户A的电子设备的左上方空间区域发出来的。
当用户C正在发声时,用户A的电子设备上显示的通话用户界面如图5中(b)所示,此时,用户C的图像区域包含第一标记501。当用户A的电子设备接收到用户C的电子设备发送的通话音频信号时,如果用户A的电子设备为图2所示的三个发声单元的结构,其目标声音外放方案和图5中(a)所示界面时三个发声单元时的声音外放方案相同;如果用户A的电子设备为图3所示的四个发声单元的结构,则目标声音外放方案可以为:将顶部扬声器301和右侧屏幕发声器件303作为主发声单元,将左侧屏幕发声器件302或底部扬声器304作为辅发声单元,从而使得用户A在听感上认为用户C的声音是在用户A的电子设备的右上方空间区域发出来的。
图5中的(c)展示了另外一种三个用户通话时用户A的电子设备上显示的通话应用的界面,与图5中(a)所示的界面相比,图5中(c)的界面中,用户B的图像和用户A的图像位置发生了变化,用户A的图像位于屏幕的左上方,用户B的图像位于屏幕中间且在用户A的图像以及用户C的图像下方。如图5中(c)所示,当用户A的电子设备接收到用户B的电子设备发送的通话音频信号时,此时,如果用户A的电子设备为图2所示的三个发声单元的结构,为了使得虚拟声像的方位与用户B的图像在用户A的电子设备屏幕中间的位置对应,则目标声音外放方案中,可以将中间屏幕发声器件202作为主发声单元,将顶部扬声器201或底部扬声器203作为辅发声单元,从而使得用户A在听感上认为用户B的声音是在用户A的电子设备的中间空间区域发出来的。如果用户A的电子设备为图3所示的四个发声单元的结构,则目标声音外放方案中,可以将左侧屏幕发声器件302和右侧屏幕发声器件303作为主发声单元,将顶部扬声器301或底部扬声器304作为辅发声单元,从而使得用户A在听感上认为用户B的声音是在用户A的电子设备的中间空间区域发出来的。
当触控图5中(a)所示界面中的摄像头控件时,响应于该触控操作,用户A的电子设备显示图5中(d)所示的界面,在图5中(d)的界面上,摄像头控件处于开启状态,同时响应于该触控操作,用户A的电子设备开启摄像头,用户A的图像可以为用户A的电子设备摄像头获取的动态图像,如图5中(d)所示,用户A的图像包括人物1的图像。
当用户B的电子设备和用户C的电子设备在通话过程中开启摄像头后,则用户A的电子设备上,用户B和用户C的图像也可以显示动态图像。如图5中的(e)所示的界面,在该界面上,用户B的图像为用户B的电子设备获取的动态图像,该动态图像包括人物2的图像,用户C的图像为用户C的电子设备获取的动态图像,该动态图像包括人物3的图像。
如图5中(a)所示的界面,该界面上还包括添加控件502,添加控件502可以执行添加其他1个或者多个用户接入通话的功能。例如,在图5的(a)所示的通话基础上,可以将用户D添加到通话中。
示例性地,图6示出了一种四个用户之间进行语音通话时,用户A的电子设备显示的通话应用界面,该界面包括四个用户图像,用户B的图像位于用户A的电子设备屏幕的左上方,用户C的图像位于用户A的电子设备屏幕的右上方,用户D的图像位于用户A的电子设备屏幕的中间靠左区域,用户A的图像位于用户A的电子设备屏幕的中间靠右区域。
如图6中(a)所示的界面,当用户B正在发声时,用户A的电子设备接收到用户B的电子设备发送的通话音频信号,用户B的图像区域包含第一标记501。图6中(a)所示界面的通话场景中,用户A的电子设备具有图2的三个发声单元时的目标声音外放方案,与图5中(a)所示界面的通话场景中对应三个发声单元的声音外放方案相同;用户A的电子设备具有图3的四个发声单元时的目标声音外放方案,与图5中(a)所示界面的通话场景中对应四个发声单元的声音外放方案相同。
图6中(b)示出了另外一种四个用户通话的用户界面,与图6中(a)相比,图6中(b)所示的界面上,用户图像的位置不变,但正在发声用户发生了变化,用户B不发声,而用户D正在发声,当电子设备接收到用户D的电子设备发送的通话音频信号时,用户D的图像区域包含第一标记501。如果用户A的电子设备为图2所示的三个发声单元的结构,目标声音外放方案与图5中(c)所示界面的通话场景中对应三个发声单元的声音外放方案相同。如果用户A的电子设备为图3所示的四个发声单元的结构,则目标声音外放方案中,可以将左侧屏幕发声器件302作为主发声单元,将顶部扬声器301或右侧屏幕发声器件303或底部扬声器304作为辅发声单元,从而使得用户A在听感上认为用户D的声音是在用户A的电子设备的中间靠左的空间区域发出来的。
示例性地,图7示出了一种两个用户之间进行视频通话时,用户的电子设备上显示的通话应用用户界面。
如7中(a)所示的界面,该界面上包括两个用户的图像,用户B的图像铺满用户A的电子设备屏幕,以全屏显示的方式显示,用户A的图像非全屏显示且以悬浮在用户A画面上的方式显示在用户A的电子设备上,用户B的图像中包含人物2的图像,用户A的图像中包含人物1的图像。当用户A的电子设备与用户B的电子设备成功建立视频通话连接时,用户A的电子设备的发声单元默认为开启状态,用户A的电子设备可以接收用户B的电子设备发送过来的声音信号,并通过发声单元进行声音的外放。
如7中(a)所示的界面,用户B的图像中人物2的图像位于用户A的电子设备的屏幕中间区域,此时,如果人物2正在发声,则用户A的电子设备接收到用户B电子设备发送的通话音频信号,图7中(a)所示界面的通话场景中,用户A的电子设备具有图2的三个发声单元时的目标声音外放方案,与图5中(c)所示界面的通话场景中对应三个发声单元时的声音外放方案相同;用户A的电子设备具有图3的四个发声单元时的目标声音外放方案,与图5中(c)所示界面的通话场景中对应四个发声单元时的声音外放方案相同。从而使得用户A在听感上认为人物2的声音是在用户A的电子设备的屏幕中间空间区域发出来的。
在一些实施例中,当人物2远离用户B电子设备的摄像头并且开始走动,或者用户B的电子设备在获取画面过程中的发生角度偏转时,人物2的图像在用户A的电子设备上的位置可以发生变化。
如图7中(b)所示的界面,人物2位于用户A的电子设备的屏幕上方区域,此时,如果人物2正在发声,电子设备接收到用户B电子设备发送的通话音频信号,则图7中(b)所示界面的通话场景中,用户A的电子设备具有图2的三个发声单元或者具有图3的四个发声单元时的目标声音外放方案,与图5中(a)所示界面的通话场景中对应三个发声单元时的声音外放方案相同,均是将虚拟声像控制在用户A的电子设备屏幕上方的空间区域,使得用户A在听感上认为人物2的声音是在用户A的电子设备的屏幕上方空间区域发出来的。
在一些实施例中,当用户的电子设备摄像头捕捉到多个人物时,用户的图像中可以出现多个人物的图像。
如图7中(c)所示的界面,用户B的图像中包含人物2的图像和人物3的图像,人物2的图像位于电子设备屏幕中间靠左区域,人物3的图像位于电子设备屏幕中间靠右区域。当人物2正在发声且电子设备接收到用户B电子设备发送的通话音频信号时,图7中(c)所示界面的通话场景中,用户A的电子设备具有图2的三个发声单元时的目标声音外放方案,与图6中(b)所示界面的通话场景中对应三个发声单元的声音外放方案相同;用户A的电子设备具有图3的四个发声单元时的目标声音外放方案,与图6中(b)所示界面的通话场景中对应四个发声单元的声音外放方案相同。当人物3正在发声且电子设备接收到用户B电子设备发送的通话音频信号时,用户A的电子设备具有图2的三个发声单元时的目标声音外放方案,与图6中(b)所示界面的通话场景中对应三个发声单元的声音外放方案相同;用户A的电子设备具有图3的四个发声单元时的目标声音外放方案,可以将右侧屏幕发声器件303作为主发声单元,将顶部扬声器301或左侧屏幕发声器件302或底部扬声器304作为辅发声单元,从而使得用户A在听感上认为人物3的声音是在用户A的电子设备的上方空间区域发出来的。
如图7中(a)所示的界面,点击用户A的图像,响应于该点击操作,用户A的电子设备显示图7中(d)所示的界面,在图7中(d)所示的界面上,用户A的图像铺满用户A的电子设备屏幕,以全屏显示的方式显示,用户B的图像非全屏显示且以悬浮在用户A画面上的方式显示在用户A的电子设备上。
在一些实施例中,图7中(a)显示的界面上,还可以包括切换摄像头控件、模糊背景控件、切换到语音控件和挂断控件。此外,该界面还可以包括切换显示控件(图中未示出),点击该切换显示控件,响应于该点击操作,用户A的电子设备显示图7中(d)所示的界面。
下面对本实施例中主发声单元和辅发声单元接收的音频信号特点、发声特点以及它们之间如何相互作用从而控制虚拟声像的方位原理进行说明。
示例性地,如前面图5中(a)所示的界面,当用户A的电子设备接收到用户B的电子设备发送的通话音频信号时,如果用户A的电子设备为图2所示的三个发声单元的结构,为了使得虚拟声像的方位与用户B的图像在用户A的电子设备屏幕左上方的位置对应,则目标声音外放方案中,可以将顶部扬声器201作为主发声单元,将中间屏幕发声器件202或底部扬声器203作为辅发声单元,从而使得用户A在听感上认为用户B的声音是在用户A的电子设备的上方空间区域发出来的。
本实施例基于声音的串扰消除原理,对用户A的电子设备接收到的音频数据进行处理,从而实现上述发声效果。
示例性地,结合图2、图4进行说明,用户A的电子设备具有如图2所示的三个发声单元,用户A的电子设备接收到用户B的电子设备发送的通话音频信号后进行处理,获得下行通话音频数据,用户A的电子设备将单通道的下行通话音频数据扩展成三通道的音频信号:音频信号1、音频信号2和音频信号3;音频信号1对应顶部扬声器201,音频信号2对应中间屏幕发声器件202,音频信号3对应底部扬声器203。
示例性地,图8示出了一种本实施中基于串扰消除原理对音频数据进行处理的过程;图9示出了一种通话时具有声音串扰消除现象的声场空间分布特点。
继续结合图4和图8、图9进行说明,电子设备对音频信号1、音频信号2和音频信号3分别进行独立并行的信号参数处理,生成外放音频信号1、外放音频信号2、外放音频信号3。其中,对音频信号1或音频信号2或音频信号3的信号参数处理包括相位调整处理和增益调整处理。例如,可以对音频信号1进行相位调整处理,对音频信号2和/或音频信号3进行增益调整处理;或者可以对音频信号1进行增益调整处理,对音频信号2和/或音频信号3进行相位调整处理;或者可以对音频信号1进行相位调整和增益调整处理;或者可以对音频信号2和/或音频信号3进行相位调整和增益调整处理。
示例性地,此处以对音频信号2进行相位调整和增益调整处理为例。
示例性地,相位调整处理包括反相处理,如图8所示,图8中(a)为未进行处理音频信号2,对音频信号2进行反相处理,获得如图8中(b)所示的反相音频信号2,然后对图8中(b)所示的反相音频信号2进行增益减小处理,获得如图8中(c)所示的增益减小后的音频信号2。
继续结合图4和图8、图9进行说明,将经过信号参数处理后的外放音频信号1经过PA等处理后传递到顶部扬声器201中,驱动顶部扬声器201输出声音信号1,经过信号参数处理后的外放音频信号2经过PA等处理后传递到中间屏幕发声器件202中,驱动中间屏幕发声器件202发出声音信号2。其中,由于外放音频信号1的幅度大于外放音频信号2的幅度,顶部扬声器201输出的声压(SP,sound press level)大于中间屏幕发声器件202输出的声压。声音信号1和声音信号2在传播距离相等的空间具有如图8中(d)所示的关系:声音信号1和声音信号2的相位完全相反。声音信号1和声音信号2在该空间相互作用后,如图8中(e)所示,部分声音信号1被抵消。结合图9所示,示例性地,该声音信号被部分抵消的空间可以是图9中的空间1,空间1与顶部扬声器201和中间屏幕发声器件202的距离接近,在该空间1的声音信号的相位相反,部分声音信号被抵消后剩余的声音信号较弱,而在未发生声音信号抵消的空间2,声音信号较强,这可以使得用户A在听感上认为声音是从空间2发出的,即虚拟声像处于空间2。因此,虚拟声像的方位与图5中(a)所示的界面中用户B的图像位置对应。
继续结合图4和图8、图9进行说明,为了进一步将空间1下移。示例性地,对音频信号2的处理包括延时处理,如将图8中(c)所示的经过增益处理后的音频信号2进行延时Δt处理后,获得如8中(f)所示的音频信号2。经过该处理后,在顶部扬声器201发出的声音信号1后延时一段时间,中间屏幕发声器件202才发出声音信号2,这样可以使得距离中间屏幕发声器件202更近的空间发生声音的串扰消除现象,空间1向下移动。
结合图4进行说明,为了提高对音频信号的处理效率,可以在电子设备的通话算法模块加入滤波处理,使得经过滤波处理后的音频信号中主要包含人声音频信号。例如,可以对下行通话音频数据进行滤波处理,然后将经过滤波处理后的下行通话音频数据进行通道扩展。或者,可以对经过通道扩展后的音频信号进行滤波处理,然后对滤波处理后的音频信号进行其他处理。对经过通道扩展后的音频信号进行滤波处理,可以是对全部通道的音频信号进行滤波处理,也可以是对部分通道的音频信号进行滤波处理。优选地,可以对需要进行相位调整的音频信号进行滤波处理,这样相位调整所处理的数据量减少,可以进一步降低通话算法模块的计算难度。
在一些实施例中,上述经过滤波处理的音频信号频率在20Hz-20kHz范围内,优选地,在300Hz-3kHz范围内,更优选地,在1kHz-2kHz范围内。
需要说明的是,本实施例对主发声单元对应的音频信号还是辅发声单元对应的音频信号进行处理不作限定,只要确保主发声单元发出声音信号强度大于辅发声单元发出声音信号强度,且主发声单元和辅发声单元在发出的声音信号在需要消声的空间产生部分抵消的效果即可。另外,本实施例中相位调整处理和增益处理的顺序可以进行调整。
同理,当用户B的图像位于用户A的电子设备屏幕的中间或者下方时,也可以根据目标发声策略,对主发声单元和辅发声单元中对应的音频信号进行处理,从而实现虚拟声像分别位于用户A的电子设备中间空间区域和下方空间区域的效果。
在解释了主发声单元和辅发声单元之间如何配合以控制虚拟声像方位的原理后。下面结合图4-图6,进一步详细说明在不同的通话场景中,如何根据对方发声对象相对于电子设备屏幕的坐标,实现目标声音外放方案的具体过程。
如图10所示,该过程至少包括以下步骤。
步骤S1:第一电子设备与其他电子设备建立通话连接。
第一电子设备与其他电子设备建立通话连接,其他电子设备的数量可以为一个或者多个,通话可以是语音通话或者视频通话。当第一电子设备与其他电子设备建立通话连接后,第一电子设备可以接收其他电子设备发送到第一电子设备的通话音频数据。当通话是视频通话场景时,第一电子设备还可以接收其他电子设备发送到第一电子设备的视频流数据。结合图5-图7,第一电子设备可以是用户A的电子设备,第二电子设备可以是用户B的电子设备,第三电子设备可以是用户C的电子设备。
当第一电子设备同时与第二电子设备和第三电子设备建立通话连接时,第一电子设备显示第一界面。
示例性地,第一界面可以是图5中(a)所示的界面。第一界面包含第一图像、第二图像和第三图像,示例性地,第一图像可以是图5中(a)所示的用户A的图像,第二图像可以是图5中(a)所示的用户B的图像,第三图像可以是图5中(a)所示的用户C的图像。第一图像、第二图像和第三图像可以为静止图像,也可以为动态图像。例如,静止图像可以为用户的头像、名称等,动态图像可以为对应用户电子设备摄像头采集的画面。
示例性地,第一界面还可以是图7中(a)所示的界面,此时,第一界面包括第一图像和第二图像,第一图像可以为用户A的图像,第二图像可以为用户B的图像,第一图像和第二图像均为动态图像,第二图像铺满第一电子设备的屏幕,第二图像包含第二用户的图像,第二用户可以为图7中(a)所示的人物2。
步骤S2:第一电子设备接收到下行的通话音频数据。
如前所述,当第一电子设备与其他电子设备建立通话连接后,第一电子设备可以接收其他电子设备发送到第一电子设备的通话音频信号。通话音频信号经过处理后生成下行通话音频数据,第一电子设备接收到的通话音频信号可以由一个其他设备或者由多个其他设备发送而来。
当接收到其他电子设备发送的通话音频信号时,说明对应电子设备的用户正在发声。例如,如图5中(a)所示的界面,当用户B正在发声时,则第一电子设备可以接收到第二电子设备发送过来的通话音频信号;如图5中(b)所示的界面,当用户C正在发声时,则第一电子设备可以接收到第三电子设备发送过来的通话音频信号;如图6中(b)所示的界面,用户D正在发声时,第一电子设备可以接收到第四电子设备发送过来的通话音频信号。
当进行视频通话时,第一电子设备还可以接收其他电子设备发送到第一电子设备的视频数据。如图7中(a)所示的界面,用户B的图像是第二电子设备摄像头获取的动态图像,则第一电子设备接收到第二电子设备发送过来的视频数据,并将该视频流数据处理后以动态图像的方式显示在屏幕上,当用户B图像中的人物2正在发声时,第一电子设备还接收到第二电子设备发送的通话音频信号。
步骤S3:第一电子设备检测第一电子设备发声单元的状态,判断发声单元是否处于开启状态。
第一电子设备接收到下行通话音频数据后,第一电子设备检测第一电子设备的发声单元是否处于开启状态,如果处于开启状态,则执行步骤S4(参见下文描述),即按照声音外放时的通话算法对下行通话音频数据进行处理,获得处理后的外放音频信号。否则,执行步骤S5(参见下文描述),即按照声音非外放时的通话算法对下行的通话音频数据进行处理,获得处理后的非外放音频信号。
示例性地,如图5中(a)所示,第一电子设备和其他设备建立通话连接后,第一电子设备所有发声单元可以默认处于开启状态。如果第一电子设备的发声单元处于关闭状态,则可以通过对通话应用界面上的扬声器控件的操作,使发声单元处于开启状态。如果第一电子设备与其他发声装置(例如有线耳机、蓝牙耳机、音响等)之间保持连接状态,则可以将第一电子设备与其他发声装置断开,使发声单元处于开启状态。
步骤S4:第一电子设备对接收到的下行通话音频数据进行处理,获得处理后的外放音频信号。
结合图4所示,第一电子设备在接收到下行通话音频数据且发声单元处于开启状态时,第一电子设备对该下行通话音频数据进行处理,如前所述,包括通道扩展处理,将单通道的下行音频数据扩展为多通道的音频信号。当满足一定条件时,第一电子设备可将获取到的对方发声对象相对于第一电子设备屏幕的坐标信息传递给算法模块,从而第一电子设备的算法模块根据该坐标信息生成信号处理参数控制策略,对多通道音频信号进行信号参数处理。
图11示出了一种电子设备获取对方发声对象相对于屏幕坐标信息,并将该坐标信息传递给算法的方法。该方法包括以下步骤:
步骤S401:第一电子设备获取对方发声对象相对于第一电子设备屏幕的坐标信息。
示例性地,第一电子设备具有屏幕分析功能,通过该屏幕分析功能可以对对方发声对象在第一电子设备屏幕上的位置进行分析,从而获得对方发声对象在屏幕上的区域或者坐标。参见图10所示,所述通过屏幕分析功能对对方发声对象的位置进行分析可以在步骤S1(第一电子设备与其他电子设备建立通话连接)后立刻启动,或者可以在步骤S2(第一电子设备接收到下行的通话音频数据)后启动。
在一些实施例中,可以采用屏幕划分的方式获取对方发声对象相对于屏幕的坐标信息。例如,将第一电子设备的屏幕进行区域划分,此时,对方发声对象相对于屏幕的坐标信息是指用户图像位于哪个屏幕区域。
示例性地,如图12中(a)和(b)所示,可以将电子设备的屏幕按照屏幕长边等分,划分为区域1、区域2和区域3,区域1、区域2和区域3的面积大致相等。
如图12中(a)所示,用户B的图像以非全屏方式显示,用户B的图像可以位于区域1、区域2或者区域3中任一区域,第一电子设备具有屏幕分析功能,可以分析出用户B的图像位于哪个屏幕区域,从而获得对方发声对象相对于屏幕的坐标信息。此时,第一电子设备的屏幕分析功能可以集成到通话应用中,或者不集成到通话应用中。
示例性地,用户图像位于哪个屏幕区域可以根据用户图像在各个区域中的面积来确定,例如,用户图像在区域1中的面积最大,则用户图像位于区域1。或者还可以根据用户图像的特性点落入哪个区域来确定,特性点可以是用户图像的几何中心点或者重心点。例如,当用户图像为方形、矩形时,可以以方形、矩形的对角线交叉点落入哪个区域确定小图标的位置,当用户图像为圆形、椭圆形时,可以以圆形、椭圆形的圆心落入哪个区域确定小图标的位置。本实施例对用户图像位于哪个区域的确定方式不做具体限定。
如图12中(b)所示,用户B的图像以全屏显示的方式显示,用户B的图像中含有人物2的图像,人物2可以位于区域1、区域2或者区域3中任一区域,第一电子设备可以启动屏幕分析功能,分析出人物2的图像位于哪个屏幕区域,从而获得对方发声对象相对于屏幕的坐标信息。示例性地,第一电子设备的屏幕分析功能可以是视频图像语义分析功能。
示例性地,图13展示了上述通过视频图像语义分析功能获得对方发声对象相对于屏幕的坐标信息的一次执行过程。如图13所示,首先判断对方用户图像中是否存在人物,如果不存在人物,则结束;如果存在人物,则进一步判断人物中是否正在发声,如果对方人物不是正在发声,则结束;如果对方人物在发声,则进一步判断是否有多个人物同时发声,如果是,则结束,如果不是,则获取对方发声对象相对于屏幕的坐标信息。
判断对方用户图像中是否存在人物时。对方用户图像可能有一个人物或者多个人物,也可能不存在人物。如当对方用户图像只有一个人物时,说明对方电子设备摄像头获取的画面范围内,只有一个人存在;当对方画面有多个人时,说明对方电子设备摄像头获取画面范围内,有多个人存在;当对方画面中不存在人物时,则认为此时没有发声人物对象,也就无需获取发声人物对象的坐标,则结束。
判断对方用户图像中人物是否正在发声,可以通过捕捉对方画面人物的口部动作进行判断,当无法捕捉到对方画面人物的口部特征,或者即使捕捉到对方画面人物的口部特征但是无法捕捉到对方画面人物口部有张合等说话动作时,则认为对方画面中人物没有正在发声,并结束。需要说明的是,上述根据对方人物口部动作判断对方人物是否发声仅仅为一种示例,还可以通过对方人物的肢体动作等综合判断对方人物是否发声。
结合图12中(b)所示,人物2位于哪个区域可以根据人物2的头部或者脸部或者口部在各个区域中的面积来确定,头部、脸部或口部在某个区域中的面积最大,则人物2位于该区域;或者还可以根据人物2的头部特征点、脸部特征点或口部特征点落入哪个区域来确定,对于特征点的选取,可以是头部区域、脸部区域或口部区域的重心点。本实施例对发声人物对象落入哪个区域的确定方法不做具体限定。
需要说明的,上述屏幕的区域方案仅仅为示例,本方案可以根据发声单元的数量和位置,对屏幕进行更加细致的划分。如图12中(c)、(d)所示,可以将屏幕划分为3(长边)×2(短边)的6个区域,4(长边)×3(短边)的12个区域等等。
在另外一些实施例中,第一电子设备通过屏幕分析功能获得用户图像的几何中心点或者重心点等特性点后,直接将几何中心点或者重心点作为对方发声对象相对于屏幕的坐标。或者,第一电子设备通过视频图像语义分析功能获得对方用户图像中人物的头部特征点、脸部特征点、口部特征点后,直接以头部特征点、脸部特征点、口部特征点的坐标作为人物2相对于屏幕的坐标。
步骤S402:判断是否满足第一条件。
在第一电子设备获取到对方发声对象相对于第一电子设备的坐标后,判断是否满足第一条件,在满足第一条件的情况下,则执行步骤S403(参见下文描述),即第一电子设备可以将对方发声对象的坐标信息传递给算法模块;如果不满足第一条件,则执行步骤S404(即步骤S4,参见上文描述),即第一电子设备不将对方发声对象的坐标传递给算法模块,第一电子设备对下行通话音频数据进行常规处理。
示例性地,第一条件可以是:第一电子设备同一时刻接收到的下行通话音频数据中,只有一个人声的音频信号。通过第一条件的设定,可以确保某一时刻只有一个人发声。
结合图5中(a)所示的界面进行说明,当只有用户B单独发声时,则第一电子设备同一时刻接收到的下行通话音频数据中,只有用户B的人声的音频信号,满足第一条件,则可以将用户B图像的坐标信息传递给算法模块。
或者,第一条件可以是:第一电子设备同一时刻接收到的下行通话音频数据中,只有一个人声的音频信号满足第二条件。此时人声音频信号可以是1个或者多个,但满足条件的人声的音频信号只有一个。示例性地,第二条件可以是信号强度大于第一阈值。人声的音频信号强度大于第一阈值,可以保证人声的强度。
继续结合图5中(a)所示的界面进行说明,当用户B和用户C同时发声,第一电子设备同一时刻接收到的下行通话音频数据中,同时包括用户B和用户C的人声音频信号,如果用户B通话声音较大,满足信号强度大于第一阈值的条件,而用户C通话声音较小,不满足信号强度大于第一阈值的条件,则此时满足第一条件,第一电子设备将用户B画面的在屏幕中的坐标信息传递给第一电子设备的算法模块;如果用户B和用户C的通话声音都比较大,同时满足信号强度大于第一阈值的条件,则此时不满足第一条件,第一电子设备不将用户B画面的坐标信息或者用户C画面的坐标信息传递给算法模块,第一电子设备按照常规的方法对音频信号进行处理。
步骤S403:第一电子设备将对方发声对象相对于屏幕的坐标信息传递给第一电子设备中的算法模块。
如前所述,在满足第一条件后,第一电子设备将对方发声对象相对于屏幕的坐标信息传递给第一电子设备中的算法模块。示例性地,如果第一电子设备的通话应用执行了获取坐标的功能,则可以由第一电子设备的通话应用将坐标信息传递给算法模块。
本实施例中,可以建立对方发声对象相对于屏幕的坐标与目标声音外放方案的对应关系,当获取到对方发声对象相对于屏幕的坐标后,可以根据该对应关系确定目标声音外放方案,根据目标声音外放方案可以进一步确定对应发声单元中音频信号的处理策略。
在一种实施方式中,为了建立对方发声对象相对于屏幕的坐标与目标声音外放方案之间的对应关系,可以将步骤S2中的屏幕划分区域与目标声音外放方案之间建立对应关系。这样,通过对方发声对象在屏幕中的具体区域可以确定目标声音外放方案。
示例性地,如表1所示,该表展示了当电子设备为图2所示的包含顶部扬声器201、中间屏幕发声器件202和底部扬声器203的三个发声单元,且屏幕按照图12a的方式划分为区域1、区域2、区域3时,对方发声对象在屏幕中的区域与目标声音外放方案之间的对应关系。
当算法接收到对方发声对象的坐标信息指示对方发声对象位于屏幕区域1时,目标声音外放方案是:顶部扬声器201为主发声单元,中间屏幕发声器件202和底部扬声器203至少一个为辅发声单元。根据图4所述的发声单元和音频信号之间的对应关系,顶部扬声器201对应音频信号1,中间屏幕发声器件202对应音频信号2,底部扬声器203对应音频信号3,第一电子设备按照上述的主发声单元和辅发声单元中的外放音频信号特点(参见图8),对音频信号1、音频信号2和音频信号3进行处理,此处不再赘述。当对方发声对象位于区域2或区域3时,也采用类似方式确定目标声音外放方案和音频信号处理策略。
表1
Figure BDA0003764780840000211
需要说明的是,上述三个发声单元的屏幕区域划分方式以及屏幕区域与目标声音外放方案之间的对应关系仅仅是示例,本实施例对发声单元的数量不作具体的限定,只要发声单元的数量为两个及两个以上即可实现本实施例中包括主发声单元和辅发声单元的声音外放方案。当发声单元数量越多时,屏幕划分的方式可以更多更灵活。例如,当电子设备为图3所示的具有左侧屏幕发声器件302和右侧屏幕发声器件303的电子设备时,则屏幕划分方式中,可以设置具有左右方位的区域。当发声单元的位置变化时,屏幕划分的逻辑也可以随之变化。
此外,主发声单元可以包含一个或者多个扬声器和/或屏幕发声器件;辅发声单元有可以包含一个或者多个扬声器和/或屏幕发声器件。
在另外一种实施方式中,建立对方发声对象相对于屏幕的坐标与目标声音外放方案的对应关系,可以根据对方发声对象特征点与发声单元之间的距离远近确定目标声音外放方案。
示例性地,根据前述内容,第一电子设备通过屏幕分析功能获得用户图像的几何中心点或者重心点等特性点后,直接将几何中心点或者重心点作为对方发声对象相对于屏幕的坐标。或者,第一电子设备通过视频图像语义分析功能获得对方用户图像中人物的头部特征点、脸部特征点、口部特征点后,直接以头部特征点、脸部特征点、口部特征点的坐标作为人物2相对于屏幕的坐标。
如图14所示,结合如图2所示的三个发声单元的电子设备为例,对方发声对象相对于屏幕的坐标为(X0,Y0),顶部扬声器201的坐标为(X1,Y1),中间屏幕发生器202的坐标为(X2,Y2),底部扬声器203的坐标为(X3,Y3)。可以计算出对方发声对象与各个发声单元之间的距离L。例如,
该对方发声对象与顶部扬声器201的距离
Figure BDA0003764780840000221
该对方发声对象与中间屏幕发生器202的距离
Figure BDA0003764780840000222
该对方发声对象与底部扬声器203的距离
Figure BDA0003764780840000223
示例性地,可以建立L与目标声音外放方案之间的关系。例如,当L小于一定的阈值时,则可以将对应的发声单元确定为主发声单元;当L大于一定阈值时,可以将对应的发声单元确定成辅发声单元。当主发声单元和辅发声单元确定后,则音频信号处理参数控制策略可以按照上述方式生成,此处不再赘述。
例如,电子设备接收到对方发声对象的坐标信息,该坐标信息指示对方发声对象位于屏幕的A点位置,经过计算后,L1小于设定的第一阈值,L2和L3大于设定的第二阈值,则目标声音外放方案中,顶部扬声器201为主发声单元,中间屏幕发声器件202和底部扬声器203为辅发声单元,因此,电子设备的算法模块在接收到该坐标信息后,按照主发声单元和辅发声单元中的外放音频信号的特点对下行通话音频信号进行处理。
示例性地,对于扬声器发声单元,发声单元的坐标可以为发声单元及其组件在平行于电子设备屏幕的平面上投影区域内某个点的坐标。对于屏幕发声器件的发声单元,发声单元的坐标可以选择屏幕发声器件在屏幕平面上投影后的轮廓重心的坐标。
步骤S5:第一电子设备对接收到的下行通话音频数据进行处理,获得处理后的非外放音频信号。
如前所述,当第一电子设备检测到发声单元的状态处于非开启状态时,则此时电子设备对接收到的下行通话音频数据进行非外放场景下的处理,获得常规处理后的非外放音频信号。其中,该处理方式不将对方发声对象相对于第一电子设备屏幕的坐标信息作为考虑因素。
步骤S6:第一电子设备将处理后的外放音频数据传递到发声单元中并驱动发声单元发声。
第一电子设备在通话算法模块中对各个通话中的音频数据进行处理后,得到外放的音频数据,将外放的音频数据经过PA等处理后,传递到对应的发声单元中,驱动发声单元发声。由于已经按照目标声音外放方案对各个通道的音频信号进行处理,因此,发声单元的发声效果可以实现目标发声效果。。
下面结合具体的实施例,对本申请的方案进行进一步说明。
具体地,本申请提供第一种音频播放方法,该方法应用于包括第一发声单元和第二发声单元的第一电子设备,该方法包括:
第一电子设备与第二电子设备、第三电子设备建立通话连接;
第一电子设备显示第一界面,第一界面包括第一图像、第二图像和第三图像,第一图像、第二图像和第三图像位于第一界面的不同位置,第一图像关联第一用户,第一用户通过第一电子设备通话,第二图像关联第二用户,第二用户通过第二电子设备通话,第三图像关联第三用户,第三用户通过第三电子设备通话,第一发声单元和第二发声单元处于开启状态;
第一电子设备接收第二电子设备或第三电子设备发送的音频信号;
第一电子设备的第一发声单元输出第一声音信号,第一声音信号由第二电子设备或第三电子设备发送的音频信号处理得到;
第一电子设备的第二发声单元输出第二声音信号,第二声音信号由第二电子设备或第三电子设备发送的音频信号处理得到;
当第二用户发声时,第一声音信号的强度大于第二声音信号的强度。
示例性地,在该第一种音频播放方法中,第一界面可以对应图5中(a)-(e)任一界面,第一电子设备可以是用户A的电子设备,第二电子设备可以是用户B的电子设备,第三电子设备可以是用户C的电子设备;第一图像为用户A关联的图像,第二图像为用户B关联的图像,第三图像为用户C关联的图像。
本申请还提供第二种音频播放方法,该方法应用于包括第一发声单元和第二发声单元的第一电子设备,该方法包括:
第一电子设备与第二电子设备建立通话连接后,第一电子设备显示第一界面,第一界面包括第一图像和第二图像,第一图像关联第一用户,第一用户通过第一电子设备通话,第二图像关联第二用户,第二用户通过第二电子设备通话,第二图像为动态图像,第二图像铺满第一电子设备的屏幕,第二图像包括第二用户的图像,第一发声单元和第二发声单元处于开启状态;
第一电子设备接收第二电子设备发送的音频信号;
第一电子设备的第一发声单元输出第一声音信号,第一声音信号由第二电子设备发送的音频信号处理得到;
第一电子设备的第二发声单元输出第二声音信号,第二声音信号由第二电子设备发送的音频信号处理得到;
当第二图像中的第二用户图像位于第一电子设备屏幕的第一位置时,第一声音信号的强度大于第二声音信号的强度;
当第二图像中的第二用户图像位于第一电子设备屏幕的第二位置时,第二声音信号的强度大于第一声音信号的强度。
示例性地,该第二种音频播放方法中,第一界面对应图7中(a)-(d)任一界面,第一电子设备可以是用户A的电子设备,第二电子设备可以是用户B的电子设备,以图7中的(a)、(b)为例,第一图像对应的是包含人物1的图像,第二图像是包含人物2的图像,第一位置是图7中(a)所示的人物2的位置,第二位置是图7中(b)所示的人物2的位置。
通过上述音频的播方法,可以在多人语音/视频通话,或者双人视频通话的场景下,将通话对象的声音与通话对象在电子设备屏幕上的位置进行映射,尤其是,本实施例中可以获取对方发声对象在屏幕中的坐标,将对方发声对象相对于屏幕的坐标作为算法模块中的一个输入,进而对各个通路中的音频信号进行处理,使得发声单元在播放经过通话算法处理后的音频信号后,其发出声音的虚拟声像位置与对方发声对象在屏幕中的位置具有良好的对应关系,从而使得用户可以根据声音判断对方发声对象在屏幕中的大致方位,提升声音的结像感和用户体验。
以上对本发明所提供的一种音频播放方法以及电子设备进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (30)

1.一种音频播放方法,其特征在于,应用于包括第一发声单元和第二发声单元的第一电子设备,所述方法包括:
所述第一电子设备与第二电子设备、第三电子设备建立通话连接;
所述第一电子设备显示第一界面,所述第一界面包括第一图像、第二图像和第三图像,所述第一图像、第二图像和第三图像位于所述第一界面的不同位置,所述第一图像关联第一用户,所述第一用户通过所述第一电子设备通话,所述第二图像关联第二用户,所述第二用户通过所述第二电子设备通话,所述第三图像关联第三用户,所述第三用户通过所述第三电子设备通话,所述第一发声单元和所述第二发声单元处于开启状态;
所述第一电子设备接收所述第二电子设备或所述第三电子设备发送的音频信号;
所述第一电子设备的第一发声单元输出第一声音信号,所述第一声音信号由所述第二电子设备或所述第三电子设备发送的音频信号处理得到;
所述第一电子设备的第二发声单元输出第二声音信号,所述第二声音信号由所述第二电子设备或所述第三电子设备发送的音频信号处理得到;
当所述第二用户发声时,所述第一声音信号的强度大于所述第二声音信号的强度。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述第三用户发声时,所述第二声音信号的强度大于所述第一声音信号的强度。
3.根据权利要求2所述的方法,其特征在于,当所述第二用户发声时,所述第一声音信号和所述第二声音信号在第一空间的相位相反;
当所述第三用户发声时,所述第一声音信号和所述第二声音信号在第二空间的相位相反。
4.根据权利要求3所述的方法,其特征在于,所述第一空间和所述第二空间至少有部分不重叠。
5.根据权利要求1所述的方法,其特征在于,当所述第二用户或所述第三用户发声时,所述第一界面包含第一标记,所述第一标记指示所述第二用户或所述第三用户正在发声。
6.根据权利要求1所述的方法,其特征在于,所述图像可以为静止图像或者动态图像。
7.根据权利要求6所述的方法,其特征在于,所述图像为静止图像时,所述图像为所述图像所关联用户的头像;
所述图像为动态图像时,所述图像为所述图像所关联用户使用的电子设备采集的图像。
8.根据权利要求1所述的方法,其特征在于,所述第一界面还包括麦克风控件、扬声器控件、摄像头控件以及挂断控件。
9.根据权利要求7所述的方法,其特征在于,所述扬声器控件处于开启状态。
10.一种音频播放方法,其特征在于,应用于包括第一发声单元和第二发声单元的第一电子设备,所述方法包括:
第一电子设备与第二电子设备建立通话连接后,所述第一电子设备显示第一界面,所述第一界面包括第一图像和第二图像,所述第一图像关联第一用户,所述第一用户通过所述第一电子设备通话,所述第二图像关联第二用户,所述第二用户通过所述第二电子设备通话,所述第二图像为动态图像,所述第二图像铺满所述第一电子设备的屏幕,所述第二图像包括第二用户的图像,所述第一发声单元和所述第二发声单元处于开启状态;
所述第一电子设备接收所述第二电子设备发送的音频信号;
所述第一电子设备的第一发声单元输出第一声音信号,所述第一声音信号由所述第二电子设备发送的音频信号处理得到;
所述第一电子设备的第二发声单元输出第二声音信号,所述第二声音信号由所述第二电子设备发送的音频信号处理得到;
当所述第二图像中的第二用户图像位于第一电子设备屏幕的第一位置时,所述第一声音信号的强度大于所述第二声音信号的强度;
当所述第二图像中的第二用户图像位于第一电子设备屏幕的第二位置时,所述第二声音信号的强度大于所述第一声音信号的强度。
11.根据权利要求10所述的方法,其特征在于,当所述第二图像中的第二用户图像位于第一电子设备屏幕的第一位置,所述第一声音信号和所述第二声音信号在第一空间的相位相反;
当所述第二图像中的第二用户图像位于第一电子设备屏幕的第二位置,所述第一声音信号和所述第二声音信号在第二空间的相位相反。
12.根据权利要求11所述的方法,其特征在于,所述第一空间和所述第二空间至少有部分不重叠。
13.根据权利要求10所述的方法,其特征在于,所述第一界面还包括切换摄像头控件、切换到语音控件、模糊背景控件和挂断控件。
14.根据权利要求1或10所述的方法,其特征在于,所述方法还包括:所述第一电子设备对所述第二电子设备或所述第三电子设备发送的音频信号进行处理,生成第一外放音频信号和第二外放音频信号;
所述第一外放音频信号经过处理后传递到所述第一发声单元,驱动所述第一发声单元输出第一声音信号;
所述第二外放音频信号经过处理后传递到所述第二发声单元,驱动所述第二发声单元输出第二声音信号。
15.根据权利要求14所述的方法,其特征在于,所述第一电子设备对所述第二电子设备或所述第三电子设备发送的音频信号进行处理,生成第一外放音频信号和第二外放音频信号包括:
所述第一电子设备对所述第二电子设备或所述第三电子设备发送的音频信号进行通道扩展处理,生成第一音频信号和第二音频信号;
所述第一电子设备对所述第一音频信号进行信号参数处理后获得所述第一外放音频信号;
所述第一电子设备对所述第二音频信号进行信号参数处理后获得所述第二外放音频信号。
16.根据权利要求1-15中任一项所述的方法,其特征在于,所述第二电子设备或所述第三电子设备发送的音频信号为单通道音频信号。
17.根据权利要求16所述的方法,其特征在于,所述对第一音频信号和所述对第二音频信号的信号参数处理中,至少一个音频信号进行相位调整处理,以及至少一个音频信号进行增益调节处理。
18.根据权利要求17所述的方法,其特征在于,所述相位调整处理包括反相处理。
19.根据权利要求17所述的方法,其特征在于,所述对第一音频信号和所述对第二音频信号的信号参数处理包括信号提前处理或信号延时处理。
20.根据权利要求16所述的方法,其特征在于,当所述第二用户发声时,所述第一外放音频信号的信号强度大于所述第二外放音频信号的信号强度。
21.根据权利要求16所述的方法,其特征在于,当所述第二用户图像位于第一电子设备屏幕的第一位置,所述第一外放音频信号的信号强度大于所述第二外放音频信号的信号强度。
22.根据权利要求15所述的方法,其特征在于,所述第一电子设备对所述第二电子设备或所述第三电子设备发送的音频信号进行处理,生成第一外放音频信号和第二外放音频信号包括:
对所述第二电子设备或所述第三电子设备发送的音频信号进行滤波处理。
23.根据权利要求15所述的方法,其特征在于,所述第一电子设备对所述第二电子设备或所述第三电子设备发送的音频信号进行处理,生成第一外放音频信号和第二外放音频信号包括:
对所述第一音频信号或所述第二音频信号中的至少一路进行滤波处理。
24.根据权利要求1或10所述的方法,其特征在于,所述第一发声单元或所述第二发声单元可以包括一个或者多个扬声器和/或屏幕发声单元。
25.根据权利要求1或10所述的方法,其特征在于,所述第一发声单元包括第一扬声器,所述第二发声单元包括第一屏幕发声单元或第二扬声器。
26.根据权利要求1或10所述的方法,其特征在于,所述第一发声单元包括第一屏幕发声单元,所述第二发声单元包括第一扬声器或第二屏幕发声单元。
27.一种电子设备,其特征在于,所述电子设备包括:一个或多个处理器和存储器;所述存储器与所述一个或多个处理器耦合,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,所述一个或多个处理器调用所述计算机指令以使得所述电子设备执行如权利要求1-26中任一项所述的方法。
28.一种芯片系统,所述芯片系统应用于电子设备,所述芯片系统包括一个或多个处理器,所述处理器用于调用计算机指令以使得所述电子设备执行如权利要求1-26中任一项所述的方法。
29.一种包含指令的计算机程序产品,其特征在于,当所述计算机程序产品在电子设备上运行时,使得所述电子设备执行如权利要求1-26中任一项所述的方法。
30.一种计算机可读存储介质,包括指令,其特征在于,当所述指令在电子设备上运行时,使得所述电子设备执行如权利要求1-26中任一项所述的方法。
CN202210882606.7A 2022-07-26 2022-07-26 一种音频播放方法及电子设备 Active CN116048448B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210882606.7A CN116048448B (zh) 2022-07-26 2022-07-26 一种音频播放方法及电子设备
PCT/CN2023/090506 WO2024021712A1 (zh) 2022-07-26 2023-04-25 一种音频播放方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210882606.7A CN116048448B (zh) 2022-07-26 2022-07-26 一种音频播放方法及电子设备

Publications (2)

Publication Number Publication Date
CN116048448A true CN116048448A (zh) 2023-05-02
CN116048448B CN116048448B (zh) 2024-05-24

Family

ID=86122327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210882606.7A Active CN116048448B (zh) 2022-07-26 2022-07-26 一种音频播放方法及电子设备

Country Status (2)

Country Link
CN (1) CN116048448B (zh)
WO (1) WO2024021712A1 (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376847A (zh) * 2013-08-12 2015-02-25 联想(北京)有限公司 一种语音信号处理方法和装置
CN109194796A (zh) * 2018-07-09 2019-01-11 Oppo广东移动通信有限公司 屏幕发声方法、装置、电子装置及存储介质
CN112929739A (zh) * 2021-01-27 2021-06-08 维沃移动通信有限公司 发声控制方法、装置、电子设备和存储介质
CN113301294A (zh) * 2021-05-14 2021-08-24 深圳康佳电子科技有限公司 一种通话控制方法、装置及智能终端
CN114422935A (zh) * 2022-03-16 2022-04-29 荣耀终端有限公司 音频处理方法、终端及计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7146404B2 (ja) * 2018-01-31 2022-10-04 キヤノン株式会社 信号処理装置、信号処理方法、及びプログラム
CN113556501A (zh) * 2020-08-26 2021-10-26 华为技术有限公司 音频处理方法及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376847A (zh) * 2013-08-12 2015-02-25 联想(北京)有限公司 一种语音信号处理方法和装置
CN109194796A (zh) * 2018-07-09 2019-01-11 Oppo广东移动通信有限公司 屏幕发声方法、装置、电子装置及存储介质
CN112929739A (zh) * 2021-01-27 2021-06-08 维沃移动通信有限公司 发声控制方法、装置、电子设备和存储介质
CN113301294A (zh) * 2021-05-14 2021-08-24 深圳康佳电子科技有限公司 一种通话控制方法、装置及智能终端
CN114422935A (zh) * 2022-03-16 2022-04-29 荣耀终端有限公司 音频处理方法、终端及计算机可读存储介质

Also Published As

Publication number Publication date
WO2024021712A9 (zh) 2024-03-28
WO2024021712A1 (zh) 2024-02-01
CN116048448B (zh) 2024-05-24

Similar Documents

Publication Publication Date Title
CN113873378B (zh) 一种耳机噪声处理方法、装置及耳机
CN113676804A (zh) 一种主动降噪方法及装置
US9577710B2 (en) Engaging terminal devices
US10805756B2 (en) Techniques for generating multiple auditory scenes via highly directional loudspeakers
WO2020253844A1 (zh) 多媒体信息的处理方法、装置和存储介质
WO2019090283A1 (en) Coordinating translation request metadata between devices
CN108604450B (zh) 用于音频处理的方法、系统和计算机可读存储介质
US20230080298A1 (en) Active Noise Cancellation Method and Apparatus
WO2023015940A1 (zh) 防漏音的移动终端及移动终端的声音输出方法
JP2009033298A (ja) 通信システム及び通信端末
CN105744022A (zh) 移动终端、语音播放方法及系统
CN113301544B (zh) 一种音频设备间语音互通的方法及设备
CN116048448B (zh) 一种音频播放方法及电子设备
CN116033312B (zh) 耳机控制方法及耳机
US20230362571A1 (en) Information processing device, information processing terminal, information processing method, and program
CN109348021B (zh) 移动终端及音频播放方法
CN116347320B (zh) 音频播放方法及电子设备
CN116320144B (zh) 一种音频播放方法及电子设备、可读存储介质
WO2024032590A1 (zh) 一种音频播放方法及相关装置
EP4184507A1 (en) Headset apparatus, teleconference system, user device and teleconferencing method
CN116546126B (zh) 一种杂音抑制方法及电子设备
WO2018088210A1 (ja) 情報処理装置および方法、並びにプログラム
CN116567489B (zh) 一种音频数据处理方法及相关装置
CN117596538A (zh) 一种音频播放方法及相关装置
CN116743905B (zh) 通话音量控制方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant