CN115641870A

CN115641870A - 一种音频信号的处理方法及相关电子设备

Info

Publication number: CN115641870A
Application number: CN202110815051.XA
Authority: CN
Inventors: 胡贝贝; 许剑峰
Original assignee: Beijing Honor Device Co Ltd
Current assignee: Beijing Honor Device Co Ltd
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2023-01-24
Also published as: WO2023000778A1; WO2023000778A9

Abstract

本申请提供了一种音频信号的处理方法以及相关电子设备，其中所述音频信号的处理方法包括：获取音频信号；在该音频信号的调性值大于或等于第一阈值且该音频信号的音源类型为第一类音源的情况下，对该音频信号采用第一类压制策略处理；否则，对该音频信号采用第二类压制策略进行处理。通过上述方法，解决了在对易产生杂音的音频信号进行压制的过程中，错误压制其它类型的音频信号，使得音频信号产生压制失真的问题。

Description

一种音频信号的处理方法及相关电子设备

技术领域

本申请涉及音频信号处理领域，尤其涉及一种音频信号的处理方法及相关电子设备。

背景技术

在通过小型移动电子设备(如手机、平板电脑)的内置扬声器播放某类特定信号时，即在频域上频点能量集中在较窄带宽内，例如，类似钢琴音乐，且该频域能量分布持续时间较长，主观可以听到类似“呲呲”的杂音，主要是因为过度集中的长时窄带能量使扬声器在电声转换时产生非线性失真，这类音频信号对应的音源称作第一类音源。

对于减少这类杂音产生，传统方法对于第一类音源处理会引起误压制其他类型音源的问题，例如人声，导致这类音源在与第一类音源过度期间会产生主观听感忽大忽小问题。因此，减少对第一类音源的音频信号处理的同时，避免误压制其它音源，是技术人员关注的问题。

发明内容

本申请实施例提供了一种音频信号的处理方法，解决了在对易产生杂音的音频信号进行压制的过程中，错误压制其它类型的音频信号，使得音频信号产生压制失真的问题。

第一方面，本申请实施例提供了一种音频信号的处理方法，包括：获取音频信号；在该音频信号的调性值大于或等于第一阈值且该音频信号的音源类型为第一类音源的情况下，对该音频信号采用第一类压制策略处理；否则，对该音频信号采用第二类压制策略进行处理。

在上述实施例中，基于音频信号的音源类型与调性值判断是否该信号为易产生杂音的信号(第一类音源)，基于该音频信号的音源类型是否为第一类音源对该音频信号采取不同的压制策略，在保持与原有信号回放最大响度的情况下，改变扬声器输入信号，减少回放杂音以及减少对不同音频信号压制失真。

结合第一方面，在一种可能实现的方式中，第一类压制策略为对该音频信号频域内的单峰值或多峰值进行压制。

结合第一方面，在一种可能实现的方式中，第二类压制策略为对该音频信号内的单峰值或多峰值进行压制；或者对该音频信号不做压制处理。

结合第一方面，在一种可能实现的方式中，获取音频信号之后，包括：对该音频信号进行调性计算，得到该音频信号的调性值。这样，有利于电子设备基于该音频信号的调性值和音源类型对该音频信号采取不同的压制策略。

结合第一方面，在一种可能实现的方式中，对该音频信号进行调性计算，得到该音频信号的调性值，包括：根据公式

计算该音频信号的平坦度；N为该音频信号进行时频变换的长度，x(n)为该音频信号在频域内第n个频点的能量值，Flatness为该音频信号的平坦度；根据公式SFMdB＝10log 10(Flatness)计算该音频信号的第一参数；SFMdB为第一参数；根据公式

计算该音频信号的调性值；α为该音频信号的调性值，SFMdBMax为第一参数的最大值。这样，有利于电子设备基于该音频信号的调性值和音源类型对该音频信号采取不同的压制策略。

结合第一方面，在一种可能实现的方式中，对该音频信号采用第一类压制策略进行处理之前，还包括：对该音频信号进行峰值检测，所述峰值检测用户获取该音频信号在频域内的峰值信息。这样，电子设备能够获取该音频信号的峰值，并根据该峰值信息计算差值增益，并根据该差值增益对该音频信号进行压制。

结合第一方面，在一种可能实现的方式中，对该音频信号采用第一类压制策略进行处理，具体包括：计算该音频信号的峰值与第二阈值的差值；所述峰值至少包括该音频信号在频域内的最大峰值；基于所述差值计算所述峰值的差值增益；根据公式W′＝W*f对所述峰值进行压制，f为所述差值增益，W为压制前的峰值，W′为压制后的峰值。这样，在该音频信号的音源类型为第一类音源且该音频信号的调性值大于或等于第一阈值的情况下，对该音频信号进行峰值压制，改变扬声器输入信号，减少了回放杂音。

第二方面，本申请实施例提供了一种电子设备，该电子设备包括：一个或多个处理器和存储器；该存储器与该一个或多个处理器耦合，该存储器用于存储计算机程序代码，该计算机程序代码包括计算机指令，该一个或多个处理器调用该计算机指令以使得该电子设备执行：获取音频信号；在该音频信号的调性值大于或等于第一阈值且该音频信号的音源类型为第一类音源的情况下，对该音频信号采用第一类压制策略处理；否则，对该音频信号采用第二类压制策略进行处理。

结合第二方面，在一种可能实现的方式中，该一个或多个处理器还用于调用该计算机指令以使得该电子设备执行：对该音频信号进行调性计算，得到该音频信号的调性值。

结合第二方面，在一种可能实现的方式中，该一个或多个处理器还用于调用该计算机指令以使得该电子设备执行：根据公式

计算该音频信号的调性值；α为该音频信号的调性值，SFMdBMax为第一参数的最大值。

结合第二方面，在一种可能实现的方式中，该一个或多个处理器还用于调用该计算机指令以使得该电子设备执行：对该音频信号进行峰值检测，所述峰值检测用户获取该音频信号在频域内的峰值信息。

结合第二方面，在一种可能实现的方式中，该一个或多个处理器还用于调用该计算机指令以使得该电子设备执行：计算该音频信号的峰值与第二阈值的差值；所述峰值至少包括该音频信号在频域内的最大峰值；基于所述差值计算所述峰值的差值增益；根据公式W′＝W*f对所述峰值进行压制，f为所述差值增益，W为压制前的峰值，W′为压制后的峰值。

第三方面，本申请实施例提供了一种电子设备，包括：触控屏、摄像头、一个或多个处理器和一个或多个存储器；所述一个或多个处理器与所述触控屏、所述摄像头、所述一个或多个存储器耦合，所述一个或多个存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当所述一个或多个处理器执行所述计算机指令时，使得所述电子设备执行如第一方面或第一方面的任意一种可能实现的方式所述的方法。

第四方面，本申请实施例提供了一种芯片系统，该芯片系统应用于电子设备，该芯片系统包括一个或多个处理器，该处理器用于调用计算机指令以使得该电子设备执行如第一方面或第一方面的任意一种可能实现的方式所述的方法。

第五方面，本申请实施例提供了一种包含指令的计算机程序产品，当该计算机程序产品在电子设备上运行时，使得该电子设备执行如第一方面或第一方面的任意一种可能实现的方式所述的方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，包括指令，当该指令在电子设备上运行时，使得该电子设备执行如第一方面或第一方面的任意一种可能实现的方式所述的方法。

附图说明

图1A-图1C是本申请实施例提供的一种应用场景示意图；

图2是本申请实施例提供的一种电子设备处理音频信号的系统架构图；

图3是本申请实施例提供的电子设备100的硬件结构示意图；

图4是本申请实施例提供的电子设备100的软件结构框图；

图5A-图5D是本申请实施例提供的调性值计算结果图；

图6是本申请实施例提供的一种处理音频信号的流程图；

图7A-图7C是本申请实施例提供的音频应用启动界面图；

图8是本申请实施例提供的一种频域信号的波形图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或者特性可以包含在本实施例申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是相同的实施例，也不是与其它实施例互斥的独立的或是备选的实施例。本领域技术人员可以显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中术语“第一”、“第二”、“第三”等是区别于不同的对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元，或者可选地，还包括没有列出的步骤或单元，或者可选地还包括这些过程、方法、产品或设备固有的其它步骤或单元。

附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前，应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

在本说明书中使用的术语“部件”、“模块”、“系统”、“单元”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件或执行中的软件。例如，单元可以是但不限于在处理器上运行的进程、处理器、对象、可执行文件、执行线程、程序和/或分布在两个或多个计算机之间。此外，这些单元可从在上面存储有各种数据结构的各种计算机可读介质执行。单元可例如根据具有一个或多个数据分组(例如来自与本地系统、分布式系统和/或网络间的另一单元交互的第二单元数据。例如，通过信号与其它系统交互的互联网)的信号通过本地和/或远程进程来通信。

下面，结合图1A-图1C对电子设备处理音频信号的应用场景做介绍。

在图1A中，当电子设备100检测到针对音乐应用图标1011的输入操作(例如，单击)，会进入如图1B所示的该音乐应用的主界面102。如图1B所示，当用户在主界面102搜索歌手名或音乐名后，电子设备100显示如图1C所示的音乐播放界面103，此时，该音乐应用播放音乐。在该音乐应用播放音乐的同时，电子设备100实时处理该音乐的音频信号，以确保该音乐应用播放的音乐不会出现杂音，从而给用户带来良好的音乐体验。

上述图1A-图1C介绍了电子设备处理音频信号的应用场景，下面，对电子设备处理音频场景的系统架构图进行介绍。请参见图2，图2是本申请实施例提供的一种电子设备处理音频信号的系统架构图。如图2所述，该系统架构中包括音频应用、混音线程模块以及音频驱动，示例性的，音频应用可以为音乐播放软件或视频软件等应用。

音频应用通过扬声器外放音频时，会实时处理音频信号。首先，音频应用会将音频信号发送给混音线程模块，混音线程模块检测该音频信号的音源类型是否为第一类音源。若是，则对该音频信号进行处理(例如，压制该音频信号的能量)。然后，混音线程模块将处理好的音频信号发送给音频驱动，音频驱动将处理好的音频信号发送给扬声器，扬声器输出音频。这样，电子设备能够实时完成音频信号的处理，使得通过扬声器外放出的音频没有杂音。

下面对电子设备100的结构进行介绍。请参阅图3，图3是本申请实施例提供的电子设备100的硬件结构示意图。

电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如Wi-Fi网络)，蓝牙(bluetooth，BT)，BLE广播，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号、降噪、还可以识别声音来源，实现定向录音功能等。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。

气压传感器180C用于测量气压。在一些实施例中，电子设备100通过气压传感器180C测得的气压值计算海拔高度，辅助定位和导航。

磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。

加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换，计步器等应用。

指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于电子设备100的表面，与显示屏194所处的位置不同。

骨传导传感器180M可以获取振动信号。在一些实施例中，骨传导传感器180M可以获取人体声部振动骨块的振动信号。

电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本发明实施例以分层架构的Android系统为例，示例性说明第一终端设备100的软件结构。图4是本申请实施例提供的电子设备100的软件结构框图。分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。如图4所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息、音频应用等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。如图4所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器、混音线程模块(Mixer Thread模块)等。

混音线程模块用于接收音频应用发送的音频信号，并对该音频信号进行处理。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供第一终端设备100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

当电子设备通过内置扬声器外放音频时，由于设备的尺寸限制，扬声器的尺寸比较小，其允许的膜振幅度较小。当外放音频的响度过大时，会导致扬声器的膜振幅度超出最大值，从而使得在大音量下播放声音容易出现破音，产生类似“呲呲”的声音。为了解决上述问题，通常对音源进行处理，从而使得扬声器在外放声音时能够减小杂音。

一般，将音源分为四类，分别为：第一类音源、第二类音源、第三类音源以及第四类音源。第一类音源的特点是：该音源的音频信号在频谱上的分布不均匀，能量集中在中低频，能量较强，且持续时间较长，例如钢琴声。这类音源的音频通过扬声器进行回放时，容易产生杂音。第二类音源的特点是：该音源的音频信号在频谱上的分布不均匀，且能量主要集中在中低频，但能量较弱，例如，人声。第三类音源的特点是，该音源的音频信号在频谱上分布不均匀，且能量较强，但是，能量集中具备瞬态性，即能量持续的时间较短，例如，鼓声。第四类音源的特点是：该音源的音频信号在频谱上的分布均匀。对于上述四类音源，第一类音源由于能量分布不均、能量大且持续时间较长，相较于其它三类音源，电子设备使用扬声器回放第一类音源的音频，更加容易发出杂音。因此，为了解决上述问题，若音频信号中包括第一类音源的音频信号，电子设备会在扬声器回放音频之前，压制第一类音源的音频信号，再将压制后的音频信号发送给扬声器，再由扬声器输出音频，从而抑制回放音频时产生的杂音。

电子设备处理音频信号的方法为：对输入的音频信号进行分帧，再进行时频变换，得到频域信号，对每帧频域信号进行调性计算，得到每帧频域信号的调性值，将调性值与设定的第一阈值进行比较，进而判断该音频信号在频域内的分布是否均匀。若频域信号的调性值大于或等于第一阈值，则说明该帧频域信号在频谱内的分布不均匀，表明该帧频域信号需要进行压制，并根据相关策略压制该帧频域信号的能量，即进行峰值压制。若频域信号的调性值小于第一阈值，则判断该帧频域信号在频谱内的分布均匀，该帧频域信号不需要压制。其中，第一阈值可以基于历史数据得到，也可以基于经验值得到，还可以基于实验数据测试得到，本申请实施例对此不做限制。

在上述处理音频信号的方法中，电子设备仅是对音频信号通过调性判断的结果决定音频信号是否需要进行压制。但是，仅通过调性判断音频信号是否应该进行压制是不准确和不全面的，因为，音频外放是否会产生杂音不仅与音频信号的调性相关，还与音频信号频域能量的强弱以及音频信号在频域能量持续的时间长短有关。例如，图5A是扬琴音频的调性计算结果图，在图5A中，若设定第一阈值为0.7，扬琴音频的调性值总体上是超过第一阈值的，根据上述处理音频信号的方法，电子设备会将扬琴音频判断为需要压制的音频信号。但是，实际上，扬琴音频信号虽然在频域上分布不均，但是，由于其能量集中的瞬态性较强，电子设备通过扬声器回放扬琴音频时，不易产生杂音，若将扬琴音频信号进行压制，可能会造成回放的扬琴音频的音色失真。另外，对于同一类的音源，其音频信号的调性计算结果可能有巨大的差异，例如，图5B为鼓声的调性计算结果图，图5C是鼓诗音频的调性计算结果图，鼓诗和鼓声都属于同类音源(都属于第三类音源)，鼓声和鼓诗的调性计算结果差异大，很难选取合适的第一阈值来同时表征鼓声音频和鼓诗音频在频域内的分布情况。另外，对音频信号的调性判断可能发生漏检的情况，例如，第一阈值为0.7，在外放音频中存在一段钢琴(第一类音源)音频，其调性计算结果如图5D所示，在图5D中，在496帧与562帧期间，钢琴音频信号的调性值小于0.7，那么在这段时域范围内，电子设备不会对该钢琴音频信号进行压制，但在其它帧，电子设备会对该钢琴音频信号进行压制，会导致回放的钢琴音频音量在496帧到562帧这段时间内，钢琴声的音量会发生突变，给用户极差的听觉体验。因此，若仅以调性结果作为是否对音频信号进行压制的唯一判断因素，存在选取第一阈值难、容易发生漏检或误检的问题，进而压制没有产生杂音的音源或者不压制产生杂音的音源。

为了解决上述问题，本申请实施例提供了一种音频信号的处理方法。通过识别音频的音源类型，判断该音源是否为第一类音源，若为第一类音源，则对第一类音源的音频信号进行峰值压制，并将压制后的音频信号发送给扬声器输出。

下面，结合图6，对电子设备处理音频信号的具体流程进行说明。请参见图6，图6是本申请实施例提供的一种处理音频信号的流程图，处理音频信号的具体流程为：

步骤S601：音频应用启动。

示例性的，如图7A所示，当电子设备100检测到针对音频应用图标7011的输入操作(例如，单击)后，电子设备100显示如图7B所示的启动界面702，在显示启动界面702的过程中，音频应用开始启动。当电子设备显示如图7C所示的音频应用的主界面703时，音频应用启动完成。其中，图7A-图7C所示的音频应用为音乐应用，音频应用也可以为视频应用，还可以为其它能够播放音频的应用，本申请实施例仅作举例说明，不做限制。

步骤S602：音频应用向混音线程模块发送音频信号。

步骤S603：混音线程模块将所述音频信号进行分帧处理，得到M帧音频信号。

具体地，电子设备是实时处理音频信号，扬声器再将处理好的音频信号以音频的形式输出。考虑信号的短时平稳性以及回放的实时性，即回放时候不希望引入太大延时，所以对信号进行分帧处理，例如，10ms为一帧。

步骤S604：混音线程模块将第n帧音频信号进行时频变换，得到该帧音频信号的频域信号。

具体地，混音线程模块以通过对音频信号进行傅里叶变换(Fourier Transform，FT)或快速傅里叶变换(Fast Fourier Transform，FFT)，得到音频信号的频域信号，混音线程模块混音线程模块也可以通过对音频信号进行梅尔谱变换，得到频域信号，混音线程模块混音线程模块还可以通过对音频信号进行改进离散余弦变换(Modified DiscreteCosine Transform，MDCT)，得到频域信号，本申请实施例以通过FFT对音频信号进行时频变换为例，进行说明。在进行FFT之前，对于每帧信号可以进行交叠、加窗，目的是为了减少频域变换时的频谱泄露，减少频域处理失真。混音线程模块在将音频信号进行时频变换后，就可以得到该音频信号的频域信号的所有组成的频率成分，便于对信号的不同频率进行分析计算。

步骤S605：混音线程模块对所述频域信号进行调性计算，得到所述频域信号的调性值。

具体地，混音线程模块依次对第n帧频域信号进行调性计算，并得到相应的调性值。混音线程模块对该频域信号进行调性计算的目的是为了判断该帧音频信号在频域内的能量分布是否均匀。若该频域信号的调性值大于或等于第一阈值，则判断该帧音频信号在频域内的能量分布不均匀，若该频域信号的调性值小于第一阈值，则判断该帧音频信号在频域内的能量分布均匀。其中，第一阈值可以是基于经验值得到，也可以是基于历史数据得到，还可以使基于实验数据得到，本申请实施例对此不做限制。混音线程模块计算调性值的方法为：

混音线程模块根据公式(1)计算频域信号的平坦度Flatness，公式(1)如下所示：

其中，N为将音频信号进行FFT变换的长度，x(n)为该帧频域信号第n个频点的能量值，Flatness用于表示频域信号在频域内的能量分布情况，Flatness越大，分布越均匀，Flatness越小，分布越不均匀。然后，混音线程模块根据公式(2)，计算第一参数SFMdB，公式(2)如下所示：

SFMdB＝10log 10(Flatness) (2)

然后，混音线程模块根据公式(3)计算该帧频域信号的调性值α，公式(3)如下所示：

其中，SFMdBMax的取值可以由历史值得到，也可以由经验值得到，还可以由实验数据得到，本申请实施例对此不做限制。优选地，SFMdBMax可以设置为-60dB。

步骤S606：混音线程模块基于神经网络获取所述频域信号的标签。

具体地，混音线程模块将所述该帧频域信号作为神经网络的输入，神经网络输出该帧频域信号的标签，该标签用于指示该帧频域信号的音源类型。所述标签包括第一标签、第二标签、第三标签和第四标签，第一标签用于指示频域信号的音源类型为第一类音源，第二标签用于指示频域信号的音源类型为第二类音源，第三标签用于指示频域信号的音源类型为第三类音源，第四信号用于指示频域信号的音源类型为第四类音源。本申请实施例以第一标签为0，第二标签为1，第三标签为2，第四标签为3为例，进行说明。其中，该神经网络是已训练好的神经网络。

示例性的，神经网络可以进行离线训练，神经网络的训练过程为：选取大量帧长为10ms(也可以选取其它帧长的频域信号，本申请实施例不做限制)的第一类音源的频域信号(例如，钢琴声)、第二类音源的频域信号(例如，人声)、第三类音源的频域信号(例如，鼓声)以及第四类音源的频域信号作为训练样本。当将第一类音源的频域信号作为神经网络的输入后，神经网络会输出该频域信号的标签，将神经网络输出的标签与标签0进行对比，得到一个偏差值Fn1，Fn1用于表征神经网络输出的标签与标签0的差异程度。

然后，基于所述Fn1调节神经网络内部的参数，从而使得神经网络输出的第一类音源的音频信号的标签为标签0。同理，通过其它训练样本(第二类音源的频域信号、第三类音源的频域信号以及第四类音源的频域信号)训练神经网络，使得神经网络接收输入的频域信号时，可以输出对应的标签。

需要说明的，在训练样本中，一帧频域信号可能存在多种类型的音源。例如，在一首音乐中，歌手在不停地唱歌，歌曲的伴奏为钢琴声，那么，在这首音乐中，存在钢琴(第一类音源)和人声(第二类音源)这两类音源。这时，如果在一帧频域样本信号中存在多类音源，可以根据音源的强度来确定该样本信号的标签。例如，在一帧频域样本信号中，若钢琴声明显大于人声，将该频域样本信号的音源确定为第一类音源，设置标签为0。

步骤S607：混音线程模块基于所述频域信号的调性值和所述频域信号的标签判断所述频域信号是否为第一类音源。

具体地，若判断为是，执行步骤S608，若判断为否，执行步骤S610。

由于神经网络的训练样本有限，且音源的种类很多，例如包括钢琴声、扬琴声、口琴声、琵琶声等，当输入神经网络未训练过音源的频域信号时，神经网络输出的标签的准确性不高。例如，当输入琵琶声时，神经网络可能判断其为第一类音源，输出标签0，实际上，琵琶声为第三类音源。为了解决上述问题，在神经网络判断该帧频域信号的音源类型为第一音源(输出标签0)后，混音线程模块同时也会判断该帧频域信号在频域上的能量分布是否不均匀，只有在神经网络输出的标签为0，且混音线程模块判断该帧频域信号在频域上的能量分布不均匀的情况下，混音线程模块才会确定该帧频域信号的类型为第一音源。因此，若该帧频域信号的调性值大于或等于第一阈值且神经网络输出标签为0时，混音线程模块判断该帧频域信号的音源为第一类音源，反之，不为第一类音源。

步骤S608：混音线程模块对所述频域信号进行峰值检测。

具体地，混音线程模块对该帧频域信号峰值检测，即获取该帧频域信号在频域内的波峰和波谷的幅值。例如，图8是该帧频域信号的波形图，在该波形图中，包括X个波峰和Y个波谷，峰值检测的目的就是为了获取这X个波峰和Y个波谷的幅值，幅值从大到小依次称作最大峰值、次大峰值、第三峰值……。

混音线程模块对频域信号进行峰值检测的一种方法为：根据信号的频域能量分布，通过对其求导数得到极值的方法。例如：假设时域第n帧信号为x(n)，FFT长度为N，其对应频域信号频点能量为X(k),k＝0,1,2…N-1。各频点累积能量为

m＝0,1,2…N-1，频点总能量为Y，那么在设定寻找峰值的频点范围m内，能量比值为R[m]＝E[m]/Y,m＝0,1,2…N-1,然后对能量比值进行求导得到R[m]^*，寻找R[m]^*中的最大值以及次大值即表示最大峰以及次大峰值所在频点位置。

步骤S609：混音线程模块对所述频域信号采用第一类压制策略进行处理，得到处理后的频域信号。

具体地，所述第一类压制策略为：混音线程模块对该帧频域信号的峰值进行单峰值压制或多峰值压制。若对该帧频域信号进行单峰值压制，则对该帧频域信号的最大峰进行压制。若对该帧频域信号进行多峰值压制，则至少对该帧频域信号的最大峰值和次大峰值进行压制。

混音线程模块压制峰值的具体方法为：根据频域寻找到峰值，计算该峰值的能量与第二阈值的差值，基于所述差值计算差值增益。原始频点乘以差值增益从而减少对应频点能量，例如，检测当前最大峰值是-10dB，第二阈值设定为-15dB，那么最大峰值差值为-5dB，转换到线性值其差值增益约为0.562，那么原始频点乘以0.562达到减少频点能量的目的。需要说明的是，第二阈值是预设的最大峰值，可以基于经验值得到，也可以基于历史数据得到，还可以基于实验数据得到，本申请实施例不做任何限制。

步骤S610：混音线程模块对所述频域信号采用第二类压制策略进行处理，得到处理后的频域信号。

具体地，当该帧频域信号的音源类型不为第一类音源时，混音线程模块对该帧频域信号采取第二类压制策略，第二类压制策略为：混音线程模块可以对该帧频域信号的峰值进行压制，也可以不对该帧频域信号进行压制。

当对该帧频域信号进行压制之前，需要对该帧频域信号进行峰值检测，在对该帧频域信号进行峰值压制需要考虑到相邻帧音频信号具有很强的相关性。因此，该帧频域信号的差值增益与上一帧频域信号的差值增益的差值要在合理地范围之内。例如，若差值增益的差值范围为0.2～0.3，第n-1帧频域信号的音源类型为第一类音源，需要进行压制，其差值增益为0.5，第n帧频域信号为人声(第二类音源)，若要对第n帧频域信号进行压制，则第n帧音频信号的差值增益的范围在0.7～0.8。若第n帧频域信号的差值增益高于0.8，可能会造成压制后的第n-1帧音频信号和压制后的第n帧音频信号的能量相差过大，使得扬声器在回放这两帧音频时，音量会造成突变(例如，声音突然变大)。若第n帧频域信号的差值增益低于0.7，可能导致该帧信号的能量被过度压制，当扬声器回放该帧音频时，人声的音量非常小。

步骤S611：混音线程模块对处理后的频域信号进行频时变换，得到单帧音频信号。

步骤S612：混音线程模块将所述单帧音频信号发送给音频驱动。

步骤S613：混音线程模块根据公式n＝n+1更新n。

具体地，在n不等于0的情况下，混音线程模块执行步骤S604。

步骤S614：音频驱动将所述单帧音频信号发送给扬声器。

步骤S615：扬声器播放所述单帧音频信号对应的音频。

本申请实施例提供的音频处理方法结合了神经网络与传统检测算法，通过神经网络对音频信号的音源类型进行识别，解决传统算法带来的误判以及漏判和调性值的上限阈值难调试等问题，并且通过对不同音频信号实施不用压制增益和实施时间，在保持与原有信号回放最大响度的情况下，改变扬声器输入信号减少回放杂音以及减少对不同音频信号压制失真。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid StateDisk)等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

总之，以上所述仅为本发明技术方案的实施例而已，并非用于限定本发明的保护范围。凡根据本发明的揭露，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频信号的处理方法，其特征在于，包括：

获取音频信号；

在所述音频信号的调性值大于或等于第一阈值且所述音频信号的音源类型为第一类音源的情况下，对所述音频信号采用第一类压制策略处理；

否则，对所述音频信号采用第二类压制策略进行处理。

2.如权利要求1所述的方法，其特征在于，所述第一类压制策略为对所述音频信号频域内的单峰值或多峰值进行压制。

3.如权利要求1-2任一项所述的方法，其特征在于，所述第二类压制策略为对所述音频信号内的单峰值或多峰值进行压制；或者

对所述音频信号不做压制处理。

4.如权利要求1-3任一项所述的方法，其特征在于，所述获取音频信号之后，包括：

对所述音频信号进行调性计算，得到所述音频信号的调性值。

5.如权利要求4所述的方法，其特征在于，所述对所述音频信号进行调性计算，得到所述音频信号的调性值，包括：

根据公式

计算所述音频信号的平坦度；所述N为所述音频信号进行时频变换的长度，所述x(n)为所述音频信号在频域内第n个频点的能量值，所述Flatness为所述音频信号的平坦度；

根据公式SFMdB＝10log 10(Flatness)计算所述音频信号的第一参数；所述SFMdB为所述第一参数；

根据公式

计算所述音频信号的调性值；所述α为所述音频信号的调性值，所述SFMdBMax为第一参数的最大值。

6.如权利要求1-5任一项所述的方法，其特征在于，所述对所述音频信号采用第一类压制策略进行处理之前，还包括：

对所述音频信号进行峰值检测，所述峰值检测用户获取所述音频信号在频域内的峰值信息。

7.如权利要求6所述的方法，其特征在于，所述对所述音频信号采用第一类压制策略进行处理，具体包括：

计算所述音频信号的峰值与第二阈值的差值；所述峰值至少包括所述音频信号在频域内的最大峰值；

基于所述差值计算所述峰值的差值增益；

根据公式W′＝W*f对所述峰值进行压制，所述f为所述差值增益，所述W为压制前的峰值，所述W′为压制后的峰值。

8.一种电子设备，其特征在于，包括：存储器、处理器和触控屏；其中：

所述触控屏用于显示内容；

所述存储器，用于存储计算机程序，所述计算机程序包括程序指令；

所述处理器用于调用所述程序指令，使得所述终端执行如权利要求1-7任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时，实现如权利要求1-7任意一项所述的方法。

10.一种包含指令的计算机程序产品，其特征在于，当所述计算机程序产品在电子设备上运行时，使得所述电子设备执行如权利要求1-7中任意一项所述的方法。