CN117093182B - 一种音频播放方法、电子设备和计算机可读存储介质 - Google Patents

一种音频播放方法、电子设备和计算机可读存储介质 Download PDF

Info

Publication number
CN117093182B
CN117093182B CN202311306056.5A CN202311306056A CN117093182B CN 117093182 B CN117093182 B CN 117093182B CN 202311306056 A CN202311306056 A CN 202311306056A CN 117093182 B CN117093182 B CN 117093182B
Authority
CN
China
Prior art keywords
audio
calibrated
power consumption
user
human ear
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311306056.5A
Other languages
English (en)
Other versions
CN117093182A (zh
Inventor
杨昭
韩荣
韩欣宇
李方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honor Device Co Ltd
Original Assignee
Honor Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honor Device Co Ltd filed Critical Honor Device Co Ltd
Priority to CN202311306056.5A priority Critical patent/CN117093182B/zh
Publication of CN117093182A publication Critical patent/CN117093182A/zh
Application granted granted Critical
Publication of CN117093182B publication Critical patent/CN117093182B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Telephone Function (AREA)

Abstract

本申请公开了一种音频播放方法、电子设备和计算机可读存储介质,涉及心理声学技术领域。该方法包括:电子设备响应于用户播放音频的操作,获取音频数据;然后,电子设备基于校准后的人耳掩蔽阈值曲线播放音频数据;其中,校准后的人耳掩蔽阈值曲线为利用用户的听觉能力信息和用户对应用的使用信息校准的人耳掩蔽阈值曲线。这样,电子设备便可以基于利用用户的听觉能力信息和用户对应用的使用信息得到的校准后的人耳掩蔽阈值曲线剔除人耳听不到的声能量,以降低音频功耗的方式播放音频。

Description

一种音频播放方法、电子设备和计算机可读存储介质
技术领域
本申请实施例涉及心理声学技术领域,尤其涉及一种音频播放方法、电子设备和计算机可读存储介质。
背景技术
外放是指,在不用插耳机的情况下,终端设备通过自带扬声器将声音扩散到空气中,再被人类耳朵接收到的情况。随着日益增长的对便携式终端设备外放性能的需求,伴随着终端设备外放功耗的成倍增加,如何在保证音频信号播放效果的情况下,实现功耗的降低成为各大终端设备厂商迫切待解决的难题之一。
心理声学是研究声音和声音引起的听觉之间关系的技术。目前电声领域最通用的降功耗方式是通过心理声学技术来剔除人耳听不到的声能量。具体的,常规方案是采用针对平均人群的标准人耳掩蔽阈值曲线来剔除人耳听不到的声能量,从而达到保证用户听到声能量的情况下,达到降低功耗的目的。
但是,由于不同用户生理上的听觉差异,采用针对平均人群的标准人耳掩蔽阈值曲线来降低不同用户所使用的终端设备的音频功耗,一般会造成音频功耗降低的不准确,进而导致播放音频的质量不符合个体生理上的听觉需要,用户的音频体验较差。
发明内容
本申请提供一种音频播放方法、电子设备和计算机可读存储介质,可以降低音频功耗,提升用户的音频体验。
为达到上述目的,本申请的实施例采用如下技术方案:
第一方面,提供了一种音频播放方法,该方法应用于电子设备,该方法包括:响应于用户播放音频的操作,获取音频数据;基于校准后的人耳掩蔽阈值曲线播放音频数据;其中,校准后的人耳掩蔽阈值曲线为利用用户的听觉能力信息和用户对应用的使用信息校准的人耳掩蔽阈值曲线。
本申请中,用户的个人听觉能力对人耳掩蔽阈值曲线有着重要的影响,个体间的听觉能力具有一定的差异性。这种差异性可以导致不同个体的人耳掩蔽阈值曲线不同,电子设备可以基于个体的听觉能力信息校准人耳安静阈值,得到具有一定个体特征的人耳掩蔽阈值曲线。而且,个体间使用具有播放音频功能的应用的习惯不同会影响用户对该应用播放音质质量的要求不同,不同播放质量要求对应的人耳掩蔽阈值曲线的进一步降低程度不同。因此,电子设备还可以基于个体使用具有音频播放功能的应用的信息得到校准的人耳掩蔽阈值曲线。这样,电子设备便可以基于利用用户的听觉能力信息和用户对应用的使用信息得到的校准后的人耳掩蔽阈值曲线剔除人耳听不到的声能量,以降低音频功耗的方式播放音频。
在第一方面的另一种可能的实现方式中,校准后的人耳掩蔽阈值曲线包括校准后的第一目标人耳掩蔽阈值曲线和校准后的第二目标人耳掩蔽阈值曲线,基于校准后的人耳掩蔽阈值曲线播放音频数据,包括:基于利用用户的听觉能力信息得到的校准后的第一目标人耳掩蔽阈值曲线,对音频数据降功耗得到第一音频数据;基于利用用户对应用的使用信息得到的校准后的第二目标人耳掩蔽阈值曲线,对第一音频数据降功耗得到第二音频数据;基于第二音频数据播放音频,以播放音频数据。
这样,电子设备便可以基于利用用户的听觉能力信息和用户对应用的使用信息得到的校准后的人耳掩蔽阈值曲线剔除人耳听不到的声能量,以降低音频功耗的方式播放音频。
在第一方面的另一种可能的实现方式中,基于利用用户的听觉能力信息得到的校准后的第一目标人耳掩蔽阈值曲线,对音频数据降功耗得到第一音频数据之前,该方法还包括:获取用户在电子设备的第一音频测试界面上输入的待校准的巴克子带和待校准的巴克子带的频率分辨率;获取用户在电子设备的第一音频测试界面上输入的巴克子带校准操作,显示第二音频测试界面;其中,第二音频测试界面包括待校准的巴克子带对应的N个频率值,N个频率值与N个待校准的人耳安静阈值一一对应,N个频率值是基于待校准的巴克子带的频率分辨率确定的;基于N个频率值对应的目标音量确定待校准的巴克子带对应的校准后的第一人耳掩蔽阈值曲线;其中,第一人耳掩蔽阈值曲线为第一目标人耳掩蔽阈值曲线。
在第一方面的另一种可能的实现方式中,基于N个频率值对应的目标音量确定待校准的巴克子带对应的校准后的第一人耳掩蔽阈值曲线之后,基于利用用户的听觉能力信息得到的校准后的第一人耳掩蔽阈值曲线,对音频数据降功耗得到第一音频数据之前,该方法还包括:获取用户在电子设备的第三音频测试界面上输入的待校准的巴克子带的中心频率;获取用户在电子设备的第三音频测试界面上输入的待校准的巴克子带的校准操作,播放待校准的巴克子带的前一个巴克子带的中心频率对应的预设音量的第三音频信号,播放待校准的巴克子带的中心频率之前的频率值待校准的巴克子带的中心频率之间的多个频率中每个频率对应的不同音量的第四音频信号,直至响应于用户确定感知到第四音频信号的操作,将用户确定感知到的第四音频信号对应的音量确定为目标音量;基于待校准的巴克子带的中心频率之前的频率值待校准的巴克子带的中心频率之间的多个频率中每个频率对应的目标音量确定待校准的巴克子带对应的校准后的第二人耳掩蔽阈值曲线;其中,第二人耳掩蔽阈值曲线为第一目标人耳掩蔽阈值曲线。
在第一方面的另一种可能的实现方式中,基于利用用户对应用的使用信息得到的校准后的第二目标人耳掩蔽阈值曲线,对第一音频数据降功耗得到第二音频数据之前,包括:获取预备校准的目标应用在历史时间点的第一音频功耗矢量以及第一音频感知熵矢量;将第一音频功耗矢量和第一音频感知熵矢量输入训练好的音质损伤模型,运行音质损伤模型,得到音质损伤模型输出的预备校准的目标应用对应的音频功耗阈值;基于音质评估模型确定用户的个性化音频功耗;基于用户的个性化音频功耗和音频功耗阈值的比值结果确定比例因子;基于比例因子和第一目标人耳掩蔽阈值曲线确定第二目标人耳掩蔽阈值曲线。
在第一方面的另一种可能的实现方式中,比例因子大于0小于等于1。
本申请中,若比例因子大于1,则相比于第一目标人耳掩蔽阈值曲线,人耳掩蔽阈值会更大,会降低更多音频损耗。但是由于这样会降低较多的音频能量,损伤音质。因此,为了既能降低功耗又能保证音质的情况下,可以将比例因子控制在大于0小于等于1。
在第一方面的另一种可能的实现方式中,获取预备校准的目标应用在历史时间点的第一音频功耗矢量以及第一音频感知熵矢量之前,该方法还包括:基于应用的历史功耗从多个应用中确定预备校准的目标应用。
在第一方面的另一种可能的实现方式中,基于应用的历史功耗从多个应用中确定预备校准的目标应用,包括:获取当前时刻之前预设时间段内的多个应用中每个应用对应的使用时长以及每个应用的音频功耗;基于多个应用对应的多个音频功耗和多个应用的总音频功耗确定多个应用中每个应用的相对功耗;基于多个应用对应的多个相对功耗和多个应用对应的多个使用时长确定用户对应用喜好指标的排序;基于用户对应用喜好指标的排序确定预备校准的目标应用。
第二方面,提供了一种电子设备,该电子设备包括处理器和存储器;存储器用于存储代码指令;处理器用于运行代码指令,以执行如第一方面中任一种可能的设计方式中的音频信号的调节方法。
第三方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行如第一方面中任一种可能的设计方式中的音频信号的调节方法。
第四方面,提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现第一方面中任一种可能的设计方式中的方法。
其中,第二方面、第三方面和第四方面中任一种设计方式所带来的技术效果可参见第一方面中不同设计方式所带来的技术效果,此处不再赘述。
附图说明
图1示出了一个子带对应的人耳掩蔽阈值曲线的示意图;
图2示出了一种手机的硬件结构示意图;
图3示出了一种音频播放方法的流程示意图;
图4示出了一种数字信号处理器中各处理模块的结构示意图;
图5示出了一种音频播放方法的流程示意图;
图6示出了一种安静阈值测试的过程示意图;
图7示出了一种等响曲线的示意图;
图8示出了一种未个性化校准的人耳掩蔽阈值曲线和经个性化校准的人耳掩蔽阈值曲线的示意图;
图9示出了一种音频播放方法的流程示意图;
图10示出了一种掩蔽测试的过程示意图;
图11示出了一种经个性化校准的人耳掩蔽阈值曲线的示意图;
图12示出了一种预备校准的目标应用的确定方法的流程示意图;
图13示出了一种手机中扬声器系统的结构示意图;
图14示出了一种个性化应用功耗排序示意图;
图15示出了一种比例因子生成方法的流程示意图;
图16示出了一种音质损伤模型的示意图;
图17示出了一种人耳掩蔽阈值曲线的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。以下术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。
在本申请实施例中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请实施例中,“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
在本申请的描述中,需要说明的是,除非另有明确的规定和限定,术语“设置”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
为了便于更好的说明本申请的技术方案,下面对本申请涉及到的术语做简要的解释说明。
(1)子带,可以理解,输入的音频信号在时间域上被分成几帧(frame),并在每一帧内分解为多个频带,称为“子带”(sub band),即一个子带指的是音频数据的一个频段。
(2)掩体,掩体指的是一个频段中能量最高的音频。
(3)掩蔽声音和被掩蔽声音,一种频率的声音阻碍听觉系统感受另一种频率的声音的现象。前者称为掩蔽声音,后者称为被掩蔽声音。
(4)人耳掩蔽阈值曲线,用于反映在一定掩体的作用下,用户能听到的音频的边界能量值,不同的用户对应的边界能量值可能不同。人耳掩蔽阈值曲线是由多个频率值和该多个频率值对应的多个人耳安静阈值确定的。应理解,音频的能量大于或等于该音频的边界能量值时,用户可感知到该音频(即用户能够听到该音频);音频的能量小于该音频的能量值时,用户感知不到该音频(即用户听不到该音频)。可以理解,人耳掩蔽阈值曲线也可以称为人耳安静掩蔽曲线。
为了解决背景技术中的技术问题,本申请实施例提供一种音频播放方法。可以理解,用户的个人听觉能力对人耳掩蔽阈值曲线有着重要的影响,个体间的听觉能力具有一定的差异性。例如,女性比男性对高频的声音敏感,因此,在人耳掩蔽阈值曲线的高频部分,女性的人耳安静阈值小于男性的人耳安静阈值。又例如,对于偏好男低音或者重低音的用户,该用户的人耳掩蔽阈值曲线的低频部分对应的人耳安静阈值小于其他用户(例如偏好女高音的用户)的人耳安静阈值。又例如,用户的对高频的敏感度会随着年龄的增长而下降,因此,对于年纪较大的用户,该用户的人耳掩蔽阈值曲线的高频部分对应的人耳安静阈值大于其他用户(年龄小于该用户的其他用户)的人耳安静阈值。又例如,长期工作或生活在嘈杂的环境下,用户的听力受损较严重,而长期工作或生活在嘈杂的环境下,用户的听力受损程度较高,因此,长期工作或生活在嘈杂的环境下的用户的人耳安静阈值将在全频带中增大。这种差异性可以导致不同个体的人耳掩蔽阈值曲线不同,电子设备可以基于个体的听觉能力信息校准人耳安静阈值,得到具有一定个体特征的人耳掩蔽阈值曲线。
而且,个体间使用具有播放音频功能的应用的习惯不同会影响用户对该应用播放音质质量的要求不同,例如,个体较多地使用具有播放音频功能的某个应用,对该应用播放音质质量的要求越高。不同播放质量要求对应的人耳掩蔽阈值曲线的进一步降低程度不同,因此,电子设备还可以基于个体使用具有音频播放功能的应用的信息得到校准的人耳掩蔽阈值曲线。
这样,电子设备便可以基于利用用户的听觉能力信息和用户对应用的使用信息得到的校准后的人耳掩蔽阈值曲线剔除人耳听不到的声能量,以降低音频功耗的方式播放音频。
本申请实施例中,电子设备基于个体间的听觉能力差异,校准人耳掩蔽阈值曲线,可以得到较精准的人耳安静曲线,以更精准低剔除用户听不到的声音,针对个体化差异降低音频功耗,提升用户体验。同理,个体间使用具有播放音频功能的应用的习惯不同会影响用户对该应用播放音质质量的要求不同,电子设备可以基于个体使用具有音频播放功能的应用的信息进一步得到校准后的人耳掩蔽阈值曲线,这样,电子设备便可以基于进一步校准的人耳掩蔽阈值曲线,可以进一步得到较精准且满足个性化播放质量需求的人耳安静曲线,以更精准低剔除用户听不到的声音,在保证个体能听到相应音频质量的前提下,降低音频功耗,提升用户体验。
图1示出了一个子带对应的人耳掩蔽阈值曲线的示意图。如图1所示,人耳掩蔽阈值曲线是由多个频率值和该多个频率值对应的多个人耳安静阈值确定的。应理解,音频的能量大于或等于该音频的边界能量值时,用户可感知到该音频(即用户能够听到该音频);音频的能量小于该音频的能量值时,用于感知不到该音频(即用户听不到该音频)。以图1中子带频段在100Hz-200Hz为例,人耳掩蔽阈值曲线以上的音频为是人耳能感知到的,人耳掩蔽阈值曲线以上的音频为人耳感知不到的。电子设备可以不对人耳掩蔽阈值曲线以下的音频进行编码解码以及播放,这节省了电子设备的音频功耗。
电子设备可以是具有音频播放功能的各种设备,例如,电子设备可以为手机、电脑(例如笔记本电脑、台式电脑)、平板电脑(手持平板电脑、车载平板电脑)等电子设备。本申请实施例对电子设备的具体类型和结构等不作限定。
示例性的,以电子设备为手机为例,图2示出了一种手机的硬件结构示意图。如图2所示,手机100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本发明实施例示意的结构并不构成对手机100的具体限定。在本申请另一些实施例中,手机100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
其中,控制器可以是手机100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
可以理解的是,本发明实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对手机100的结构限定。在本申请另一些实施例中,手机100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过手机100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为电子设备供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,外部存储器,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
手机100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。手机100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在手机100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(lownoise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
无线通信模块160可以提供应用在手机100上的包括无线局域网(wireless localarea networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequencymodulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,手机100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得手机100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(code divisionmultiple access,CDMA),宽带码分多址(wideband code division multiple access,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC ,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system ,GPS),全球导航卫星系统(global navigation satellite system,GLONASS),北斗卫星导航系统(beidounavigation satellite system,BDS),准天顶卫星系统(quasi-zenith satellitesystem,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
手机100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,手机100可以包括1个或N个显示屏194,N为大于1的正整数。
手机100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
ISP 用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,手机100可以包括1个或N个摄像头193,N为大于1的正整数。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展手机100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行手机100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储手机100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。
手机100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。手机100可以通过扬声器170A收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当手机100接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。手机100可以设置至少一个麦克风170C。在另一些实施例中,手机100可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,手机100还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
触摸传感器180K,也称“触控面板”。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180K也可以设置于手机100的表面,与显示屏194所处的位置不同。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。手机100可以接收按键输入,产生与手机100的用户设置以及功能控制有关的键信号输入。
马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,马达191也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195,或从SIM卡接口195拔出,实现和手机100的接触和分离。手机100可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡,Micro SIM卡,SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同,也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。手机100通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,手机100采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在手机100中,不能和手机100分离。
图3示出了一种音频播放方法的流程示意图。如图3所示,该流程包括如下步骤:
步骤301:手机100响应于用户播放音频的操作,获取音频数据。
可以理解,用户可以在应用中选中播放音频的按钮的操作,该操作可以为播放音频的操作。手机100可以在该操作的触发下,或者说响应于用户的该操作,获取音频数据。
步骤302:手机100基于校准后的人耳掩蔽阈值曲线播放音频数据;其中,校准后的人耳掩蔽阈值曲线为利用用户的听觉能力信息和用户对应用的使用信息校准的人耳掩蔽阈值曲线。
本申请实施例中,手机100基于个体间的听觉能力差异,校准人耳掩蔽阈值曲线,可以得到较精准的人耳安静曲线,以更精准低剔除用户听不到的声音,针对个体化差异降低音频功耗,提升用户体验。同理,个体间使用具有播放音频功能的应用的习惯不同会影响用户对该应用播放音质质量的要求不同,手机100可以基于个体使用具有音频播放功能的应用的信息进一步得到校准后的人耳掩蔽阈值曲线,这样,手机100便可以基于进一步校准的人耳掩蔽阈值曲线,可以进一步得到较精准且满足个性化播放质量需求的人耳安静曲线,以更精准低剔除用户听不到的声音,在保证个体能听到相应音频质量的前提下,降低音频功耗,提升用户体验。
具体的,在一些实施例中,手机100可以利用用户的听觉能力信息得到校准后的第一目标人耳掩蔽阈值曲线,基于第一目标人耳掩蔽阈值曲线,对音频数据降功耗得到第一音频数据;然后,再利用用户对应用的使用信息得到校准后的第二目标人耳掩蔽阈值曲线,基于校准后的第二目标人耳掩蔽阈值曲线对第一音频数据降功耗得到第二音频数据;基于第二音频数据播放音频,以播放音频数据。
例如,图4示出了一种数字信号处理器中各处理模块的结构示意图。
如图4所示,手机100中的数字信号处理器包括音效和保护算法模块、个性化听觉校准模块、个性化音频功耗占比模块、预滤波模块和心理声学处理模块。
首先输入信号s(t)会经过常规的音效和保护算法模块,实现期望的效果和可靠性保护音频信号se(t)。可以理解,常规的音效和保护算法模块为现有技术,在此不再赘述。
个性化听觉校准模块可以得到用户自己的声学后端结合自身双耳听觉下的真实听觉认知模型,该模型中具有利用用户的听觉能力信息得到的校准后的第一目标人耳掩蔽阈值曲线。然后,预滤波模块使用该模型对se(t)进行滤波处理,得到心理声学处理模块的算法输入信号sf(t)。sf(t)可以是第一音频数据的一个示例。
然后,心理声学处理模块基于个性化音频功耗占比模块处理输入信号sf(t),得到sp(t)作为本方案的算法输出信号,交由后端(例如智能功率放大器和扬声器)输出播放。sp(t)可以是第二音频数据的一个示例。
下面先介绍预滤波模块中的个性化听觉校准之巴克子带内校准。
图5示出了一种音频播放方法的流程示意图,如图5所示,该流程包括如下步骤:
步骤501:手机100获取用户在手机100的第一音频测试界面上输入的待校准的巴克子带和待校准的巴克子带的频率分辨率。
人耳对声音频率的感知是非线性的,巴克尺度就是从感知上来度量子带的带宽和中心频率。巴克尺度以赫兹为单位,把物理频率映射到心理声学的24个临界频带上。在巴克尺度上相等的距离对应于在感知上相等的距离,也就是说1个感知临界频带的宽度等于一个巴克。
待校准的巴克子带的频率分辨率是指音频信号利用FFT,从时域转换频域的频率个数。频率个数越多,校准越精细,校准结果也精确。
表1示出了一种巴克尺度,包括24个巴克刻度,每个巴克刻度对应一个巴克标识(例如编号)。巴克尺度包括巴克标识(例如编号)、中心频率、截止频率和带宽。巴克子带可以按照表1的标准划分。
表1
例如,图6示出了一种安静阈值测试的过程示意图,如图6中的(a)所示,手机100显示界面501中,用户在该界面501中选中“听音测试”选项502之后,手机100响应于此操作,显示如图6中的(b)所示的界面503。进一步的,用户在界面503中选中“听力阈值测试”选项504,手机100响应于此操作,显示如图6中的(c)所示的界面505,即第一音频测试界面的一个示例,界面505包括“巴克子带选择”选项506和“点数”选项507,其中,“巴克子带选择”选项506是一个包含24个巴克刻度标识的选项。应理解,巴克刻度是一种频率的度量方式,是将物理频率转换到心理声学的频率的一种度量方式。点数即频率分辨率,示例性的,电视可以选择512、1024、2048和4096等,但不限于此。
用户在“巴克子带选择”选项506中选中巴克子带标识(例如巴克子带13刻度标识),以及点数512,手机100响应于此操作,获取用户在界面505上输入的待校准的巴克子带和待校准的巴克子带的频率分辨率。
步骤502:手机100获取用户在手机100的第一音频测试界面上输入的巴克子带校准操作,显示第二音频测试界面;其中,第二音频测试界面包括待校准的巴克子带对应的N个频率值,N个频率值与N个待校准的人耳安静阈值一一对应,N个频率值是基于待校准的巴克子带的频率分辨率确定的。
仍以图6为例,如图6中的(c)所示,界面505还包括“校准开始”按钮508,用户对“校准开始”按钮508进行触发操作,例如点击“校准开始”按钮508,手机100响应于此操作,以获取用户在手机100的界面505上输入的巴克子带校准操作。
进一步的,手机100显示如图6中的(d)所示的界面509,即第二音频测试界面的一个示例,界面509包括频率调节模块510和音量调节模块511。
步骤503:手机100获取用户在手机100的第二音频测试界面上输入的,对第i个频率值对应的人耳安静阈值校准操作,播放待校准的巴克子带的中心频率对应的预设音量的第一音频信号,播放不同音量的第二音频信号,直至响应于用户确定感知到第二音频信号的操作,将用户确定感知到的第二音频信号对应的音量确定为目标音量;其中,i取1至N中的N个整数。
可以理解,用户的人耳安静阈值是测试音频的边界能量值,当测试音频的能量大于或等于测试音频的边界能量值时,用户可感知到测试音频;当测试音频的能量小于测试音频的边界能量值时,用户感知不到测试音频。频率调节模块510是一个频率刻度尺,该频率刻度尺中包括频率调节按钮510a,并且该频率刻度中从左到右频率依次升高,用户向左或向右滑动该频率调节按钮510a以调节测试音频的频率。音量调节模块511是一个音量刻度尺,该音量刻度尺中包括音量调节按钮511a,并且该音频刻度尺中从左到右对应的刻度表示频率依次升高,用户向左或向右滑动该音量调节按钮511a以调节测试音频的音量。应理解,在某频率处音频的音量即为该频率处音频的能量。
“等响曲线”表明不同频率的信号需要不同的音量才能使人认为它们具有相同的响度。例如,图7示出了一种等响曲线的示意图。如图7所示。100 dB SPL时发出40 Hz的声音听起来与在70 dB SPL时发出1 kHz的声音或在80 dB SPL发出7.5 kHz的声音听起来一样响。人感受到的响度级别以“ phons”为单位,曲线的phon值为其在1 kHz时的dB SPL值。例如,红色曲线在1 kHz处的声压级是70 dB SPL,因此是“ 70 phons”曲线。
响度级别过高会刺激人耳,太低则达不到效果,可以选择“ 80 phons”对应的响度。“ 80 phons”对应的响度为预设音量的一种示例,但不限于此。
待校准的巴克子带的中心频率对应的预设音量的第一音频信号可以称为leadingtone。
在一些实施例中,手机100会播放一个leading tone(即相应Bark子带的中心频率对应的预设音量的第一音频信号),幅度大小参考等响曲线,由于只有在大信号的时候才有必要考虑降功耗这件事,因此目标幅度参考80 phons为基准。然后针对带内频点生成扫幅信号,用户可以在刚能感知到该tone存在时,选中此时的幅度,以此类推,最终可以得到人耳掩蔽阈值曲线。具体参见步骤404。
步骤504:手机100基于N个频率值对应的目标音量确定待校准的巴克子带对应的校准后的第一人耳掩蔽阈值曲线;其中,第一人耳掩蔽阈值曲线为第一目标人耳掩蔽阈值曲线。
例如,图8示出了一种未个性化校准的人耳掩蔽阈值曲线和经个性化校准的人耳掩蔽阈值曲线的示意图。如图8所示,虚线表示一个巴克子带对应的未个性化校准的人耳掩蔽阈值曲线,实线表示一个巴克子带对应的经个性化校准的人耳掩蔽阈值曲线。
可以理解的是,图8仅是一个巴克子带的示例。当i取1至N中的N个整数,即手机100校准全部刻度的情况下,可以形成多个巴克刻度对应的人耳掩蔽阈值曲线。
以上为简易校准模式下的巴克子带内校准。在其他一些实施例中,精准校准模式采用对每个频点都校准的方式进行,比如1024频点时,24个子带划分的情况下,第一个子带有5个频点,可以分别使每个频点为leading tone做一遍校准,得到5个对应的人耳掩蔽阈值曲线。
下面再介绍预滤波模块中的个性化听觉校准之巴克子带带间校准。
图9示出了一种音频播放方法的流程示意图,如图9所示,该流程包括如下步骤:
步骤901:手机100获取用户在手机100的第三音频测试界面上输入的待校准的巴克子带的中心频率。
例如,图10示出了一种掩蔽测试的过程示意图。如图10中的(a)所示,手机100显示界面501中,用户在该界面501中选中“听音测试”选项502之后,手机100响应于此操作,显示如图10中的(b)所示的界面503。进一步的,在手机100显示如图10中的(b)所示的界面503中,用户选中“心理声学掩蔽测试”选项512之后,手机100显示如图10中的(c)所示的界面513,界面513中包括“巴克子带的中心频率的选择”选项514、“掩体上限幅度范围”选项515和“掩体下限幅度范围”选项516。其中,“巴克子带的中心频率的选择”选项514用于供用于选择待校准的巴克子带的中心频率。“掩体上限幅度范围”选项515用于供用户选择掩体播放的最低音量,“掩体下限幅度范围”选项516用于供用户选择掩体播放的最高音量。
用户在“巴克子带的中心频率的选择”选项514选择待校准的巴克子带的中心频率,手机100获取响应于此操作,以获取用户在界面513上,即第三音频测试界面的一种示例,输入的待校准的巴克子带的中心频率。
步骤902:手机100获取用户在手机100的第三音频测试界面上输入的待校准的巴克子带的校准操作,播放待校准的巴克子带的前一个巴克子带的中心频率对应的预设音量的第三音频信号,播放待校准的巴克子带的中心频率之前的频率值待校准的巴克子带的中心频率之间的多个频率中每个频率对应的不同音量的第四音频信号,直至响应于用户确定感知到第四音频信号的操作,将用户确定感知到的第四音频信号对应的音量确定为目标音量。
例如,仍以图10为例,图10中的(c)所示的界面513中还包括“校准开始”按钮508,用户对“校准开始”按钮508进行触发操作,例如点击“校准开始”按钮508,手机100响应于此操作,以获取用户在手机100的界面513上输入的巴克子带校准操作。
具体的,在一些实施例中,手机100响应于用户对“校准开始”按钮508进行触发操作之前,还需要响应于用户在“掩体上限幅度范围”选项中选择掩体播放的最低音量的操作,以及在“掩体下限幅度范围”选项中选择掩体播放的最高音量的操作。
本申请实施例考虑的是待校准的巴克子带之前的巴克子带对待校准的巴克子带的掩蔽作用。即待校准的巴克子带之前的巴克子带作为掩体,待校准的巴克子带作为被掩体。
应理解,被掩体频率为某一频率值,调节音量直到用户能听到测试音频的声音,此时的音量是被掩体频率对应的掩蔽值。用户遍历多个被掩体频率之后,得到多个被掩体频率对应的掩蔽值,即得到待校准的巴克子带内的多个频率值对应的掩蔽值,多个频率值以及对应的掩蔽值组合形成待校准的巴克子带的人耳掩蔽阈值曲线。
需要说明的是,被掩体频率在某些频率值时,用户从低音量至高音量滑动音量调节按钮514a,用户一直能听到测试音频的声音,那么这些被掩体频率处不存在掩蔽值,也就是说在这些被掩体频率处,该掩体对测试音频没有掩蔽作用。
步骤903:手机100基于待校准的巴克子带的中心频率之前的频率值待校准的巴克子带的中心频率之间的多个频率中每个频率对应的目标音量确定待校准的巴克子带对应的校准后的第二人耳掩蔽阈值曲线;其中,第二人耳掩蔽阈值曲线为第一目标人耳掩蔽阈值曲线。
例如,图11示出了一种经个性化校准的人耳掩蔽阈值曲线的示意图。如图11所示,实线表示一个巴克子带对应的经巴克子带带间个性化校准的人耳掩蔽阈值曲线。可以理解的是,图11仅是一个巴克子带的示例。若手机100校准全部巴克子带的情况下,可以形成多个巴克子带对应的人耳掩蔽阈值曲线。然后,手机100可以将多个巴克子带对应的人耳掩蔽阈值曲线进行非线性函数叠加,得到一整条人耳掩蔽阈值曲线。例如,如图11所示,虚线表示实线对应的两个巴克子带的人耳掩蔽阈值曲线经过非线性函数叠加形成的一整条人耳掩蔽阈值曲线。
下面再介绍基于用户使用播放音频的应用的习惯进行的校准过程。
图12示出了一种预备校准的目标应用的确定方法的流程示意图,如图12所示,该流程包括如下步骤:
步骤1201:手机100获取当前时刻之前预设时间段内的多个应用中每个应用对应的使用时长以及每个应用的音频功耗。
为了较清楚的介绍音频功耗,下面先介绍一下手机100中扬声器系统的结构示意图,该扬声器系统结构可以确定音频功耗的手机100的音频功耗。
例如,图13示出了一种手机中扬声器系统的结构示意图,如图13所示,扬声器系统包括数字信号处理器(digital signal processor,DSP)、数模转换器(Digital to analogconverter,D/A converter)、功率放大器(Power Amplifier,PA)和模数转换器(Analogconverter to Digital,A/D converter)。数模转换器,又称D/A转换器,简称DAC,它是把数字量转变成模拟的器件。
数字信号处理器与数模转换器的输入端连接;功率放大器的输入端与数模转换器输出端连接;功率放大器的输出端与数模转换器的输入端连接,以及功率放大器的输出端与扬声器连接;数模转换器的输出端与数字信号处理器连接。
数模转换器的作用是把连续的信号(如:声音信号,正弦电流信号等)变成离散的信号。
数模转换器的作用是把离散的信号变成连续的信号(如:声音信号,正弦电流信号等)。
功率放大器,简称“功放”,用于方法音频信号,并输入至扬声器播放。
功率放大器与数字信号处理器直接或间接连接的结构称为智能功率放大器(Smart Power Amplifier,Smart PA)。可以理解,功率放大器与数字信号处理器集成在一起的机构也可以称为智能功率放大器。
基于图13的扬声器系统的结构,下面示出一种实时功耗计算方案:
如图13所示,当手机100在播放音频的时候,可以通过Smart PA得到扬声器两端的电压信号(v_a(t))和电流信号(i_a(t)),经过ADC重新采样后,得到数字电压信号(v_d(t))和数字电流信号(i_d(t)),因此实时功耗即为:
PowerConsumption(t) = v_d(t)*v_scale*i_d(t)*i_scale。
其中,v_scale和i_scale为Smart PA中回采ADC的缩放系数。
当手机100使用应用播放音频的情况下,手机100便可以实时计算手机100使用应用播放音频的功耗。如此,手机100便可以获取当前时刻之前预设时间段内的多个应用中每个应用对应的使用时长以及每个应用的音频功耗。
步骤1202:手机100基于多个应用对应的多个音频功耗和多个应用的总音频功耗确定多个应用中每个应用的相对功耗。
其中ti表示第i个应用的使用时长,ei表示第i个应用的功耗。
为了计算每个应用的相对功耗,手机100可以将每个应用的功耗除以总功耗得到每个应用的相对功耗。具体的,手机100可以通过下列公式得到:
relative_energy = [e1/sum(e), e2/sum(e), ..., en/sum(e)]。
其中,relative_energy 表示多个应用的相对功耗向量,ei表示第i个应用的功耗,sum(e)表示总功耗。
步骤1203:手机100基于多个应用对应的多个相对功耗和多个应用对应的多个使用时长确定用户对应用喜好指标的排序。
示例性的,本申请实施例统计的可以为当前时间点前一周的各个应用在音频方面的功耗,即某一个应用在运行时,记录对应的音频功耗,然后结合运行时长占比计算出该应用在过去一周的个性化功耗排序。首先,统计手机100使用过程中,一段时间内,每个应用的使用时长以及对应的音频功耗,使用某个应用的时间占比越长代表着用户对这个应用的喜欢程度高,但是由于每个应用功耗的程度不同,因此并不是说某个应用使用的时间越久,它的功耗就越多。因此,可以通过以下方法得到排序:
当手机100收集到每个应用的使用时长和对应的功耗数据后,可以将其表示为一个二维数组:
A = [(t1, e1), (t2, e2), ..., (tn, en)]。
其中ti表示第i个应用的使用时长,ei表示第i个应用的功耗。
为了计算每个应用的用户喜好程度,手机100可以将每个应用的使用时长乘以相对功耗:
weighted_usage = [t1 * relative_energy[1], t2 * relative_energy[2],..., tn * relative_energy[n]]。
最后,手机100可以根据加权使用时长对应用进行排序,从最高到最低,得到排序后的应用列表。
例如,图14示出了一种个性化应用功耗排序示意图。如图14所示,应用1排列第一,应用2排列第二,应用3排列3。
步骤1204:手机100基于用户对应用喜好指标的排序确定预备校准的目标应用。
如图14所示,应用1排列第一,应用2排列第二,应用3排列3,手机100可以将应用1和应用2作为预备校准的目标应用。
当然,在其他一些实施例中,手机100也可以不基于用户对应用喜好指标的排序确定预备校准的目标应用,而是对所有使用过的应用均进行音频功耗校准,在此不再赘述。
上面介绍了根据用户对应用的使用喜好指标确定预备校准的应用的方式。下面接着介绍基于用户对应用的喜好指标对预备校准的应用的人耳掩蔽阈值曲线的校准方案。可以理解,接下来介绍的人耳掩蔽阈值曲线的校准方案除了适应于上述方案中筛选得到的预备校准的目标应用之外,同样也适用于其他应用。
图15示出了一种比例因子生成方法的流程示意图,如图15所示,该流程包括如下步骤:
步骤1501:手机100获取预备校准的目标应用在历史时间点的第一音频功耗矢量以及第一音频感知熵矢量。
针对感知熵的计算,可以采用国际标准中已有的方法计算得到。感知熵的一种计算公式如下:
上面公式中,PE表示感知熵,Re(w)表示实部,Im(w)表示虚部。nint表示括号里的函数取整数,i表示巴克子带标识,即巴克子带编号,表示巴克子带频率的下界,/>表示巴克子带频率的上界,/>表示巴克子带的点数,/>表示人耳掩蔽阈值(例如第一目标人耳掩蔽阈值曲线中的巴克子带标识对应巴克子带的人耳掩蔽阈值)。比特每样点(bits/sample0为感知熵的单位。
可以理解,手机100可以周期性记录功耗和对应的感知熵,并得到对应的功耗矢量和感知熵矢量。以应用1为例,功耗矢量可以记作PS_应用1(t), 表示历史时间点的功耗矢量。感知熵矢量可以记作PE_应用1(t),表示历史时间点的感知熵矢量。
步骤1502:手机100将第一音频功耗矢量和第一音频感知熵矢量输入训练好的音质损伤模型,运行音质损伤模型,得到音质损伤模型输出的预备校准的目标应用对应的音频功耗阈值。
手机100可以利用感知熵(Perceptual Entropy,简称PE)来判断是否存在音频功耗突变。当感知熵超过某阈值时,就认为存在瞬时突变信号,需要在此音频功耗内来抑制音频功耗突变的现象。
音质损伤模型可以是回归模型。可以将音频功耗矢量作为输入样本,音频感知熵矢量作为输出样本,训练音质损伤模型。这样,手机100在音质损伤模型中输入音频功耗矢量,音质损伤模型便可以输出音频感知熵矢量。本申请实施例中,手机100可以基于音质损伤模型得到音频功耗突变的拐点值,即音频功耗阈值。
图16示出了一种音质损伤模型的示意图。如图16所示,以应用1为例,功耗矢量可以记作PS_应用1(t), 表示历史时间点的功耗矢量。感知熵矢量可以记作PE_应用1(t),表示历史时间点的感知熵矢量。q为通过音质损伤模型得到音频功耗突变的拐点值,即音频功耗阈值。
步骤1503:手机100基于音质评估模型确定用户的个性化音频功耗。
用户的个性化音频功耗是在考虑降低音频功耗的同时,还要保证音频质量较优的情况下确定的。
回归模型用于表明自变量和因变量之间的显著关系,它表明多个自变量对一个因变量的影响强度。可以理解,在音量播放过程中,音量大小是影响音频质量的一个重要因素。如果音频音量过小,会导致用户体验不佳,甚至可能无法听清有用的信息。如果音频音量过小,则可以导致用户听到较刺耳的声音,用户体验也不佳。因此,本申请实施例中,可以使用回归模型预测音频音量与音频质量之间的关系,音质评估模型可以是回归模型。
在考虑降低音频功耗的同时,还要保证音频质量较优的人耳掩蔽阈值曲线校准模式下,可以通过如下方式确定用户的个性化音频功耗:
步骤1.建立音质与音频功耗之间的回归模型。
可以理解,回归模型用于预测因变量与自变量之间的关系。本申请实施例中,可以利用回归模型预测音质与音频功耗之间的关系。假设音频功耗为x,音质(音频质量)评估为y,回归模型可以为:y = f(x)。
步骤2.基于回归模型建立目标函数。
可以理解,目标函数是深度学习之心,是模型训练的发动机。目标函数 (objectfunction) 也称为损失函数 (loss function) 或者代价函数 (cost function)。目标函数用于计算预测结果与真实标记之间的误差,并通过误差反向传播算法,调节模型参数。
定义目标函数为音质评估与稳定音质的差异。假设稳定音质为y_stable,该值为根据实际情况设定的值,则目标函数可以定义为:
J(x) = (f(x) - y_stable)^2。
J(x)为音质评估与稳定音质之差的平方值,其中^2表示平方差。
步骤3.利用梯度下降算法确定目标函数的最优解,其中,最优解为目标函数的最小值以及目标函数的最小值对应的功耗值。
在机器学习中,对于很多监督学习模型,需要对原始的模型构建损失函数,接下来便是通过优化算法对损失函数进行优化,最小化损失函数,以找到最用的参数。可以理解,为了在音质稳定的情况下尽量减少功耗,可以使用优化算法来求解目标函数的最优解。
梯度下降法是一种常用的优化算法,用于求解目标函数的最小值或最大值。它通过迭代的方式,不断更显参数的取值,使目标函数的值逐渐趋近于最优解。
可以理解,梯度的方向指示函数的方向,若为了找到函数的最小值,则可以朝着梯度的反方向进行功耗值的更新,得到最优解。即梯度下降法是通过当前点的梯度的反方向寻找新的迭代点,并从当前点移动到新的迭代点继续寻找新的迭代点,直到找到最优解。
下面示例性的介绍使用梯度下降法来求解最优解的方法,该方法的步骤如下:
步骤3.1.初始化参数:选择初始参数的取值。
步骤3.2.计算梯度:计算目标函数对参数的梯度。梯度表示了函数在当前参数取值处的变化率。
步骤3.3.参数更新:根据梯度的反方向,按照一定的步长(学习率)更新功耗的取值。梯度下降法的迭代公式为:
x_new = x_old - learning_rate * gradient。
其中,x_new表示更新后的功耗值,x_old表示上一次迭代的功耗值,learning_rate表示学习率,gradient表示目标函数J(x)对功耗x的导数。
步骤3.4.重复叠加:重复步骤2和步骤3,即通过不断迭代更新功耗值,直到满足停止条件,例如达到最大迭代次数或目标函数的变化最小。此时可以得到音频功耗为个性化功耗x_personality。
步骤1504:手机100基于用户的个性化音频功耗和音频功耗阈值的比值结果确定比例因子。
比例因子生成的方式中,可以设置两种模式,一种是音频功耗优先,即尽量降低音频功耗,而不考虑音频质量。另一种是在考虑降低音频功耗的同时,还要保证音频质量较优。在考虑降低音频功耗的同时,还要保证音频质量较优的模式下,手机100可以基于个性化功耗x_personality与应用对应的回归模型的拐点功耗值q的比值结果,得到比例因子。
本申请实施例中,若比例因子大于1,则相比于第一目标人耳掩蔽阈值曲线,人耳掩蔽阈值会更大,会降低更多音频损耗。但是由于这样会降低较多的音频能量,损伤音质。因此,为了既能降低功耗又能保证音质的情况下,可以将比例因子的取值范围控制在大于0小于等于1。具体的,若个性化功耗x_personality与应用对应的回归模型的拐点功耗值q相比大于0小于等于1,则比例因子取相应的比值结果。若个性化功耗x_personality与应用对应的回归模型的拐点功耗值q相比大于1,则比例因子取1。
如图4所示,个性化音频功耗占比模块可以根据用户个性化的使用消耗,输出比例因子k给心理声学模块,使其可以决策人耳感知不到的声信号的掩蔽量以什么样的比例去抑制,得到基于利用用户对应用的使用信息得到的校准后的第二目标人耳掩蔽阈值曲线。然后,心理声学处理模块利用第二目标人耳掩蔽阈值曲线处理输入信号sf(t),得到sp(t)作为本方案的算法输出信号,交由后端(例如智能功率放大器和扬声器)输出播放。sp(t)可以是第二音频数据的一个示例。
步骤1505:手机100基于比例因子和第一目标人耳掩蔽阈值曲线确定第二目标人耳掩蔽阈值曲线。
最后,根据比例因子和第一目标人耳掩蔽阈值曲线,得到第二目标人耳掩蔽阈值曲线。例如,图17示出了一种人耳掩蔽阈值曲线的示意图。如图17所示,图17中包括第一目标人耳掩蔽阈值曲线和第二目标人耳掩蔽阈值曲线,第二目标人耳掩蔽阈值曲线为第一人耳掩蔽阈值曲线乘以比例因子得到的。
本申请实施例还提供一种计算机可读存储介质,该计算机存储介质包括计算机指令,当所述计算机指令在上述移动终端上运行时,使得该移动终端执行上述方法实施例中手机100执行的各个功能或者步骤。
本申请实施例还提供一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行上述方法实施例中手机100执行的各个功能或者步骤。该计算机可以是上述移动终端(如手机100)。
本申请公开的机制的各实施例可以被实现在硬件、软件、固件或这些实现方法的组合中。本申请的实施例可实现为在可编程系统上执行的计算机程序或程序代码,该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。
可将程序代码应用于输入指令,以执行本申请描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的,处理系统包括具有诸如例如数字信号处理器(Digital Signal Processor,DSP)、微控制器、专用集成电路(Application Specific Integrated Circuit,ASIC)或微处理器之类的处理器的任何系统。
程序代码可以用高级程序化语言或面向对象的编程语言来实现,以便与处理系统通信。在需要时,也可用汇编语言或机器语言来实现程序代码。事实上,本申请中描述的机制不限于任何特定编程语言的范围。在任一情形下,该语言可以是编译语言或解释语言。
在一些情况下,所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如,计算机可读)存储介质承载或存储在其上的指令,其可以由一个或多个处理器读取和执行。例如,指令可以通过网络或通过其他计算机可读存储介质分发。因此,机器可读存储介质可以包括用于以机器(例如,计算机)可读的形式存储或传播信息的任何机制,包括但不限于,软盘、光盘、光碟、只读存储器(CD-ROMs)、磁光盘、只读存储器(Read Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、可擦除可编程只读存储器(Erasable ProgrammableRead Only Memory,EPROM)、电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,EEPROM)、磁卡或光卡、闪存、或用于基于因特网以电、光、声或其他形式的传播信号来传播信息(例如,载波、红外信号数字信号等)的有形的机器可读存储器。因此,机器可读存储介质包括适合于以机器(例如计算机)可读的形式存储或传播电子指令或信息的任何类型的机器可读存储介质。
在附图中,可以以特定布置和/或顺序示出一些结构或方法特征。 然而,应该理解,可能不需要这样的特定布置和/或排序。而是,在一些实施例中,这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外,在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征,并且在一些实施例中,可以不包括这些特征或者可以与其他特征组合。
需要说明的是,本申请各设备实施例中提到的各单元/模块都是逻辑单元/模块,在物理上,一个逻辑单元/模块可以是一个物理单元/模块,也可以是一个物理单元/模块的一部分,还可以以多个物理单元/模块的组合实现,这些逻辑单元/模块本身的物理实现方式并不是最重要的,这些逻辑单元/模块所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外,为了突出本申请的创新部分,本申请上述各设备实施例并没有将与解决本申请所提出的技术问题关系不太密切的单元/模块引入,这并不表明上述设备实施例并不存在其它的单元/模块。
需要说明的是,在本专利的示例和说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
虽然通过参照本申请的某些优选实施例,已经对本申请进行了图示和描述,但本领域的普通技术人员应该明白,可以在形式上和细节上对其作各种改变,而不偏离本申请的精神和范围。

Claims (9)

1.一种音频播放方法,所述方法应用于电子设备,其特征在于,包括:
响应于用户播放音频的操作,获取音频数据;
基于校准后的人耳掩蔽阈值曲线播放所述音频数据;其中,所述校准后的人耳掩蔽阈值曲线为利用用户的听觉能力信息和用户对应用的使用信息校准的人耳掩蔽阈值曲线;所述校准后的人耳掩蔽阈值曲线包括校准后的第一目标人耳掩蔽阈值曲线和校准后的第二目标人耳掩蔽阈值曲线,所述基于校准后的人耳掩蔽阈值曲线播放所述音频数据,包括:
基于利用所述用户的听觉能力信息得到的校准后的所述第一目标人耳掩蔽阈值曲线,对所述音频数据降功耗得到第一音频数据;
基于用户的个性化音频功耗和音频功耗阈值的比值结果确定比例因子,所述音频功耗阈值是基于预备校准的目标应用在历史时间点的第一音频功耗矢量以及第一音频感知熵矢量确定的;
基于所述比例因子和所述第一目标人耳掩蔽阈值曲线确定所述第二目标人耳掩蔽阈值曲线;
基于利用所述用户对应用的使用信息得到的校准后的所述第二目标人耳掩蔽阈值曲线,对所述第一音频数据降功耗得到第二音频数据;
基于所述第二音频数据播放音频,以播放所述音频数据。
2.根据权利要求1所述的方法,其特征在于,所述基于利用所述用户的听觉能力信息得到的校准后的第一目标人耳掩蔽阈值曲线,对所述音频数据降功耗得到第一音频数据之前,所述方法还包括:
获取用户在电子设备的第一音频测试界面上输入的待校准的巴克子带和所述待校准的巴克子带的频率分辨率;
获取用户在电子设备的第一音频测试界面上输入的巴克子带校准操作,显示第二音频测试界面;其中,第二音频测试界面包括待校准的巴克子带对应的N个频率值,N个频率值与N个待校准的人耳安静阈值一一对应,N个频率值是基于待校准的巴克子带的频率分辨率确定的;
基于N个频率值对应的目标音量确定待校准的巴克子带对应的校准后的第一人耳掩蔽阈值曲线;其中,所述第一人耳掩蔽阈值曲线为所述第一目标人耳掩蔽阈值曲线。
3.根据权利要求2所述的方法,其特征在于,所述基于N个频率值对应的目标音量确定待校准的巴克子带对应的校准后的第一人耳掩蔽阈值曲线之后,所述基于利用所述用户的听觉能力信息得到的校准后的第一人耳掩蔽阈值曲线,对所述音频数据降功耗得到第一音频数据之前,所述方法还包括:
获取用户在电子设备的第三音频测试界面上输入的所述待校准的巴克子带的中心频率;
获取用户在电子设备的第三音频测试界面上输入的所述待校准的巴克子带的校准操作,播放所述待校准的巴克子带的前一个巴克子带的中心频率对应的预设音量的第三音频信号,播放所述待校准的巴克子带的中心频率之前的频率值所述待校准的巴克子带的中心频率之间的多个频率中每个频率对应的不同音量的第四音频信号,直至响应于用户确定感知到第四音频信号的操作,将用户确定感知到的第四音频信号对应的音量确定为目标音量;
基于所述待校准的巴克子带的中心频率之前的频率值所述待校准的巴克子带的中心频率之间的多个频率中每个频率对应的目标音量确定待校准的巴克子带对应的校准后的第二人耳掩蔽阈值曲线;其中,所述第二人耳掩蔽阈值曲线为所述第一目标人耳掩蔽阈值曲线。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述基于用户的个性化音频功耗和音频功耗阈值的比值结果确定比例因子之前,包括:
获取预备校准的目标应用在历史时间点的第一音频功耗矢量以及第一音频感知熵矢量;
将第一音频功耗矢量和第一音频感知熵矢量输入训练好的音质损伤模型,运行音质损伤模型,得到音质损伤模型输出的预备校准的目标应用对应的音频功耗阈值;
基于音质评估模型确定用户的个性化音频功耗。
5.根据权利要求4所述的方法,其特征在于,所述比例因子大于0小于等于1。
6.根据权利要求4所述的方法,其特征在于,所述获取预备校准的目标应用在历史时间点的第一音频功耗矢量以及第一音频感知熵矢量之前,所述方法还包括:
基于应用的历史功耗从多个应用中确定预备校准的目标应用。
7.根据权利要求6所述的方法,其特征在于,所述基于应用的历史功耗从多个应用中确定预备校准的目标应用,包括:
获取当前时刻之前预设时间段内的所述多个应用中每个应用对应的使用时长以及每个应用的音频功耗;
基于所述多个应用对应的多个音频功耗和所述多个应用的总音频功耗确定所述多个应用中每个应用的相对功耗;
基于所述多个应用对应的多个相对功耗和所述多个应用对应的多个使用时长确定用户对应用喜好指标的排序;
基于所述用户对应用喜好指标的排序确定预备校准的目标应用。
8.一种电子设备,其特征在于,包括存储器和与所述存储器连接的至少一个处理器,所述存储器用于存储指令,所述指令被所述至少一个处理器读取后,所述电子设备执行如权利要求1至7任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括计算机指令,当所述计算机指令在计算机上运行时,以执行如权利要求1至7任一项所述的方法。
CN202311306056.5A 2023-10-10 2023-10-10 一种音频播放方法、电子设备和计算机可读存储介质 Active CN117093182B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311306056.5A CN117093182B (zh) 2023-10-10 2023-10-10 一种音频播放方法、电子设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311306056.5A CN117093182B (zh) 2023-10-10 2023-10-10 一种音频播放方法、电子设备和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN117093182A CN117093182A (zh) 2023-11-21
CN117093182B true CN117093182B (zh) 2024-04-02

Family

ID=88773831

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311306056.5A Active CN117093182B (zh) 2023-10-10 2023-10-10 一种音频播放方法、电子设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN117093182B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008146183A1 (en) * 2007-05-29 2008-12-04 Nxp B.V. Device and method to reduce power consumption
WO2018069900A1 (en) * 2016-10-14 2018-04-19 Auckland Uniservices Limited Audio-system and method for hearing-impaired
CN110858941A (zh) * 2018-08-22 2020-03-03 Mimi听力技术有限责任公司 用于在音频系统中进行声音增强的系统和方法
RU2019122302A (ru) * 2008-01-04 2021-01-18 Долби Интернэшнл Аб Аудиокодер и декодер
CN113782040A (zh) * 2020-05-22 2021-12-10 华为技术有限公司 基于心理声学的音频编码方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005004113A1 (ja) * 2003-06-30 2005-01-13 Fujitsu Limited オーディオ符号化装置
JP5704018B2 (ja) * 2011-08-05 2015-04-22 富士通セミコンダクター株式会社 オーディオ信号符号化方法および装置
US9704497B2 (en) * 2015-07-06 2017-07-11 Apple Inc. Method and system of audio power reduction and thermal mitigation using psychoacoustic techniques
EP3598441B1 (en) * 2018-07-20 2020-11-04 Mimi Hearing Technologies GmbH Systems and methods for modifying an audio signal using custom psychoacoustic models
US20220369054A1 (en) * 2021-05-07 2022-11-17 King Chung System and method for personalized sound modification

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008146183A1 (en) * 2007-05-29 2008-12-04 Nxp B.V. Device and method to reduce power consumption
RU2019122302A (ru) * 2008-01-04 2021-01-18 Долби Интернэшнл Аб Аудиокодер и декодер
WO2018069900A1 (en) * 2016-10-14 2018-04-19 Auckland Uniservices Limited Audio-system and method for hearing-impaired
CN110858941A (zh) * 2018-08-22 2020-03-03 Mimi听力技术有限责任公司 用于在音频系统中进行声音增强的系统和方法
CN113782040A (zh) * 2020-05-22 2021-12-10 华为技术有限公司 基于心理声学的音频编码方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
仿听觉掩蔽效应的助听器语音增强算法;张素贞;唐加能;梁瑞宇;;电子器件;39(3);第698-702页 *

Also Published As

Publication number Publication date
CN117093182A (zh) 2023-11-21

Similar Documents

Publication Publication Date Title
JP6505252B2 (ja) 音声信号を処理するための方法及び装置
CN113676804A (zh) 一种主动降噪方法及装置
CN113873379B (zh) 一种模式控制方法、装置及终端设备
CN111148271B (zh) 一种控制助听器的方法及终端
CN108540900B (zh) 音量调节方法及相关产品
JP2005504470A5 (zh)
CN112533115B (zh) 一种提升扬声器的音质的方法及装置
CN111314560A (zh) 一种调整声音响度的方法及通信终端
WO2021227696A1 (zh) 一种主动降噪方法及装置
US20230091607A1 (en) Psychoacoustics-based audio encoding method and apparatus
CN117528370A (zh) 信号处理方法及装置、设备控制方法及装置
CN113438364B (zh) 振动调节方法、电子设备、存储介质
CN108810787B (zh) 基于音频设备的异物检测方法和装置、终端
CN113129916B (zh) 一种音频采集方法、系统及相关装置
CN117093182B (zh) 一种音频播放方法、电子设备和计算机可读存储介质
CN111736798A (zh) 音量调节方法、音量调节装置及计算机可读存储介质
CN115623123B (zh) 一种音频处理方法及设备
CN113824838B (zh) 发声控制方法、装置、电子设备及存储介质
CN113467747B (zh) 音量调节方法、电子设备及存储介质
CN113746976B (zh) 音频模块检测方法、电子设备及计算机存储介质
JP2024529276A (ja) スピーカーの音質向上のための方法および装置
CN108989578B (zh) 提醒信息的展示方法、装置、终端及存储介质
CN107493376A (zh) 一种铃声音量调节方法和装置
CN115412632A (zh) 音频数据处理方法、装置、终端和存储介质
CN114390406A (zh) 一种控制扬声器振膜位移的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant