CN117835139A

CN117835139A - 音频信号处理方法、装置、电子设备及存储介质

Info

Publication number: CN117835139A
Application number: CN202210859511.3A
Authority: CN
Inventors: 郭晓茜; 叶进
Original assignee: Shenzhen Sikeniya Technology Co ltd
Current assignee: Shenzhen Sikeniya Technology Co ltd
Priority date: 2022-07-19
Filing date: 2022-07-21
Publication date: 2024-04-05

Abstract

本发明涉及音频技术领域，尤其涉及一种音频信号处理方法、装置、电子设备及计算机可读存储介质。所述音频信号处理方法包括：对输入音频数据进行第一混编处理获得第一混编音频数据；对所述第一混编音频数据进行第二混编处理获得声场音频数据或者对所述第一混编音频数据进行第二混编及虚拟声场处理获得声场音频数据；以及对所述声场音频数据进行均衡处理、动态压缩、和/或振幅限制获得输出音频数据。

Description

音频信号处理方法、装置、电子设备及存储介质

技术领域

本发明涉及音频技术领域，尤其涉及一种音频信号处理方法、装置、电子设备及计算机可读存储介质。

背景技术

随着社会经济的不断发展，社会大众生活水平的逐步改善，音频信号处理技术在生产生活中得到广泛推广。

音频信号处理技术中，如何灵活地按照需求，对输入音频数据进行混编处理以得到所需要声道类型的输出音频数据是业界的一个重要课题。

发明内容

本发明实施例的目的为提供一种可以灵活进行混编处理的音频信号处理方法、装置、电子设备及计算机可读存储介质。

为实现上述目的，本发明实施例提供一种音频信号处理方法，其包括以下步骤：

对输入音频数据进行第一混编处理获得第一混编音频数据；

对所述第一混编音频数据进行第二混编处理获得声场音频数据或者对所述第一混编音频数据进行第二混编及虚拟声场处理获得声场音频数据；以及

对所述声场音频数据进行均衡处理、动态压缩、和/或振幅限制获得输出音频数据。

本发明实施例提供的音频信号处理方法中，先将所述输入音频数据转换为所述第一混编数据，再进行所述第二混编可以增加音频处理的灵活性，其中，无论所述输入音频数据和所述输出音频数据的声道数为多少，所述第一混编音频数据可以为具有预设固定声道数的音频数据，从而，先从预设固定声道数的第一混编音频数据再转换为所述声场音频数据时逻辑可以更为简单，而且所述第一混编音频数据的声道数是预设固定的，可以方便在所述第二混编时进行三维空间处理或虚拟声场处理等步骤，音频处理逻辑较为简单，处理效率也较高。

在一种实施例中，所述第一混编音频数据为双声道音频数据或多声道音频数据，对所述第一混编音频数据进行第二混编处理获得声场音频数据的步骤包括：

获取用户姿态数据；

依据所述用户姿态数据判断是否需要进行三维空间音频转换处理；

若判断结果为是，则依据所述用户姿态数据对所述第一混编音频数据进行三维空间音频转换处理获得三维空间音频数据，以及对所述三维空间音频数据进行所述第二混编处理获得所述声场音频数据；

若判断结果为否，则对所述第一混编音频数据进行第二混编处理获得所述声场音频数据。

可以理解，上述实施例中，选择性地根据用户姿态数据判断是否需要进行三维空间音频转换处理，而不是直接依据用户姿态数据做三维空间音频转换，可以省去不必要的数据处理步骤，提高音频处理效率；此外，依据所述用户姿态数据进行三维空间音频转换处理，可以使得声音可以跟随用户姿态的变化，进而无论用户姿态如何变化，用户感受的声源位置基本不变，进而提高用户体验性。

在一种实施例中，所述第一混编音频数据为双声道音频数据或多声道音频数据，对所述第一混编音频数据进行第二混编及虚拟声场处理获得声场音频数据的步骤包括：

获取用户姿态数据；

若判断结果为是，则依据所述用户姿态数据对所述第一混编音频数据进行三维空间音频转换处理获得三维空间音频数据，以及对所述三维空间音频数据进行所述第二混编及虚拟声场处理获得所述声场音频数据；

若判断结果为否，则对所述第一混编音频数据进行所述第二混编及虚拟声场处理获得所述声场音频数据。

可以理解，上述实施例中，选择性地根据用户姿态数据判断是否需要进行三维空间音频转换处理，而不是直接依据用户姿态数据做三维空间音频转换，可以省去不必要的数据处理步骤，提高音频处理效率；此外，依据所述用户姿态数据进行三维空间音频转换处理，可以使得声音可以跟随用户姿态的变化，进而无论用户姿态如何变化，用户感受的声源位置基本不变，进而提高用户体验性。此外，通过所述虚拟声场处理可以提高耳机等设备的音频效果，也进一步提高了用户体验性。

在一种实施例中，所述依据所述用户姿态数据对所述第一混编音频数据进行三维空间音频转换处理获得三维空间音频数据的步骤中，所述第一混编音频数据包括第一中置声道信号，所述三维空间音频数据包括第二中置声道信号，所述第一中置声道信号与所述第二中置声道信号相同。

可以理解，上述实施例中，无论用户姿态如何，中置声道信号不变，使得中置声道信号的人声始终位于预设的中央位置，可以提高用户体验性。

在一种实施例中，，所述依据所述用户姿态数据判断是否需要进行三维空间音频转换处理的步骤中，

依据所述用户姿态数据判断用户头部的方位角在预设时间的角度变化数据，若在所述预设时间内，所述角度变化数据在预设角度范围内，则判断结果为否，若在所述预设时间内，所述角度变化数据超出所述预设角度范围，则判断结果为是。

可以理解，上述实施例中，通过判断用户头部的方位角在预设时间的角度变化数据来确定是否需要进行三维空间音频转换处理，可以依据实际需要在用户头部的方位角在预设时间内变化较小的时候，不进行三维空间音频转换处理，避免不必要处理步骤，减小系统处理负担，此外，户头部的方位角在预设时间的角度变化数据的获取也较为简单，通过简单的陀螺仪等方位传感器即可获得，具有成本较低、效率较高及可靠性较高的优点。

在一种实施例中，所述预设时间在1.5秒至3秒的范围内，所述预设角度范围在0至2度的范围内。优选地，所述预设时间可以为2秒。可以理解，所述预设时间在1.5秒至3秒的范围内，所述预设角度范围在0至2度的范围内，范围设定合理，可以给用户带来较好的用户体验。

在一种实施例中，所述输出音频数据的声道数量小于所述输入音频数据的声道数量时，且经过所述第二混编处理或者所述第二混编及虚拟声场处理获得的所述声场音频数据包括左声道信号L和右声道信号R，所述输出音频数据包括前左声道信号Lf、前右声道信号Rf、后左声道信号Lb和后右声道信号Rb，

所述左声道信号L包括L1、L2、L3、L4的叠加值，其中L1为所述前左声道信号Lf经过第一组预设滤波器后获得的第一左声道分量，L2为所述前右声道信号Rf经过第二组预设滤波器后获得的第二左声道分量，L3为所述后左声道信号Lb经过第三组滤波器获得的第三左声道分量，L4为所述后右声道信号Rb经过第四组滤波器获得的第四左声道分量，

所述右声道信号R包括R1、R2、R3、R4的叠加值，其中R1为所述前右声道信号Rf经过第五组预设滤波器后获得的第一右声道分量，R2为所述前左声道信号Lf经过第六组预设滤波器后获得的第二右声道分量，R3为所述后右声道信号Rb经过第七组滤波器获得的第三右声道分量，R4为所述后左声道信号Lb经过第八组滤波器获得的第四右声道分量，

L1和R1的频谱特征包括：在700Hz至1.6kHz的区间内有最低处不低于-7dB的凹陷波形，在2.5kHz至3kHz的区间内具有最高处不超过5dB的峰值，在3.5kHz至9kHz的区间内具有最低处不超过-12dB的谷值，在10kHz至13kHz的区间内具有最高处不超过5dB的凸起波形；

L2和R2的频谱特征包括：L2与L1相比，L2相较于L1有第一衰减，所述第一衰减的平均幅度不超过6dB且具有多个第一频率谷点，多个所述第一频率谷点的分布特征具有梳状滤波特征且相邻两个所述第一频率谷点的时域时差不超过550毫秒，R2与R1相比，R2相较于R1有第二衰减，所述第二衰减的平均幅度不超过6dB且具有多个第二频率谷点，多个所述第二频率谷点的分布特征具有梳状滤波特征且相邻两个所述第二频率谷点的时域时差不超过550毫秒；

L3、R3、L4和R4的频谱特征包括：从1.1kHz开始有第三衰减，且随着频率的增加，所述第三衰减增加，且在8kHz至9.5kHz的区间内L3和R3的最低处不低于-16dB，在7kHz不低于-11dB。

可以理解，上述实施例中，在下混时，通过多组滤波器进行所述第二混编处理或者所述第二混编及虚拟声场处理过程中，考虑用户共同物理特征以及不同人人头传递函数的不同，提供一个平均化的用户模型即双耳频谱差，依据这个双耳频谱差模型设定上述左声道信号L和右声道信号R的各个分量的频谱特征，可以获得较好滤波及混编效果，且信号处理的逻辑比较简单、效率比较高。进一步地，所述第一至第八组滤波器中每个均可以包括至少一个滤波器，优选通过无限冲击响应滤波器，可以到达滤波效果较佳、稳定性较高及结构设计简洁可靠等效果。

在一种实施例中，所述对所述声场音频数据进行均衡处理、动态压缩和/或振幅限制获得输出音频数据的步骤中：

所述均衡处理包括对所述声场音频数据的低频失真部分进行衰减的步骤；

所述动态压缩包括对所述声场音频数据低于第一预设振幅值进行放大；

所述振幅限制包括对所述声场音频数据超出第二预设振幅的部分进行限制的步骤，

其中，所述均衡处理、所述动态压缩和所述振幅限制依次进行，且所述动态压缩和所述振幅限制的处理过程中，对每帧所述声场音频数据单独进行所述动态压缩、所述振幅限制以得到每帧所述输出音频数据。

可以理解，上述实施例中，通过所述均衡处理、所述动态压缩和所述振幅限制可以提高音频处理的效果，特别是对每帧所述声场音频数据单独进行所述动态压缩、所述振幅限制还可以提高信号处理效率，避免延迟。

在一种实施例中，所述音频信号处理方法还包括对所述输入音频数据进行检测的步骤，若判断所述输入音频数据存在异常，则输出预设音频数据作为所述输出音频数据；所述预设音频数据为输出置0的音频数据。

可以理解，上述实施例中，通过判断所述输入音频数据存在异常并在异常时将输出置0，可以避免播放异常数据导致的音频失真，提高用户体验。

在一种实施例中，所述对所述输入音频数据进行检测的步骤包括：

计算每帧所述输入音频数据的有效值，若所述有效值低于预设值，则判断所述输入音频数据存在异常，若所述有效值不低于预设值，则判断所述输入音频数据正常；所述预设值不超过-90dB。

可以理解，上述实施例中，通过计算有效值和设定预设值对有效值进行判断，能够简单、准确地将每帧所述输入音频数据中的异常部分抓取出来，此外，设定预设值不超过-90dB，即便将输出置0也可以达到基本不影响整体音频播放的效果。

在一种实施例中，所述音频信号处理方法包括以下步骤：

获取系统参数调节信号，所述系统参数调节信号包括音量调节信号和模式调节信号；以及

依据调节前的系统参数和调节后的系统参数进行音频调节处理，所述音频调节处理包括所述第一混编处理、所述第二混编处理、所述第二混编及虚拟空间处理、所述均衡处理、所述动态压缩和/或所述振幅限制。

可以理解，上述实施例中，通过考虑调节前的系统参数和调节后的系统参数，可以使得整体的音频调节处理过程更为平滑，进而调节过程中的音频变化柔缓平滑，音频效果较佳。

在一种实施例中，所述依据调节前的系统参数和调节后的系统参数进行音频调节处理的步骤中，设所述音频处理后的数据为S，第一音频数据S1为依据所述调节前的系统参数进行所述音频处理获得的音频数据，第二音频数据S2为依据所述调节后的系统参数进行所述音频处理获得的音频数据，其中，S＝S1*K1+S2*K2，在预设调节时间内，K1与K2为平滑系数，K1从1逐渐变为0，K2从0逐渐变为1。

可以理解，上述实施例中，通过上述公式＝S1*K1+S2*K2和平滑系数的变化设定，使得在预设调节时间内的声音音量调节或模式切换的过程比较柔缓平滑，用户体验性较佳。

在一种实施例中，所述音频信号处理方法还包括：接收控制信号以控制旁路开关模式打开或关闭步骤，

当所述旁路开关模式关闭，则对所述输入音频数据执行所述第一混编处理、所述第二混编处理或所述第二混编及虚拟声场处理、所述均衡处理和/或所述振幅限制获得所述输出音频数据的步骤；

当所述旁路开关模式开启，则将所述输入音频数据直接作为输出音频数据输出、将所述输入音频数据进行增益处理、将所述输入音频数据进行第三混编处理、或将所述输入音频数据进行增益处理与第三混编处理后作为所述输出音频数据输出。

可以理解，通过旁路开关模式，可以方便将原始未进行混编的音频信号和混编后的音频信号进行比对，进而获知所述音频信号处理方法相较于原始数据的调节效果，体现本发明实施例所述的音频信号处理方法的优越性。

在一种实施例中，所述输入音频数据可支持的声道类型为M个，所述声场音频数据可支持的声道类型为N个，其中M及N均为大于等于3的自然数。

为实现上述目的，本发明实施例还提供一种音频信号处理装置，其包括：

第一处理模块，用于对所述输入音频数据进行第一混编处理获得第一混编音频数据；

第二处理模块，用于对所述第一混编音频数据进行第二混编处理获得声场音频数据或者或对所述第一混编音频数据进行第二混编及虚拟声场处理获得声场音频数据；以及

第三处理模块，用于对所述声场音频数据进行均衡处理、动态压缩和/或振幅限制获得输出音频数据。

本发明实施例提出的音频信号处理装置中，将所述输入音频数据转换为所述第一混编数据，再进行所述第二混编可以增加音频处理的灵活性，其中，无论所述输入音频数据和所述输出音频数据的声道数为多少，所述第一混编音频数据可以为具有预设固定声道数的音频数据，从而，先从预设固定声道数的第一混编音频数据再转换为所述声场音频数据时逻辑可以更为简单，而且所述第一混编音频数据的声道数是预设固定的，可以方便在所述第二混编时进行三维空间处理或虚拟声场处理等步骤，音频处理逻辑较为简单，处理效率也较高。

此外，为实现上述目的，本发明还提供一种电子设备，所述电子设备包括存储器及处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行时实现如上所述任意一种音频信号处理方法。

另外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行时实现如上所述任意一种音频信号处理方法。

可以理解，以上电子设备及计算机可读存储介质在处理器执行计算机可读指令时实现如上所述任意一种音频信号处理方法，因此具有上述音频信号处理方法的技术效果，此处就不再赘述。

附图说明

图1为本发明一个实施例提供的音频信号处理方法的实施环境图；

图2为本发明一个实施例提供的音频信号处理方法的流程图；

图3为本发明一个实施例提供的音频信号处理装置较佳实施例的程序模块图。

本发明目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1所示，图1为本发明实施例提供的音频信号处理方法较佳实施例的应用环境图。所述音频信号处理方法可以应用于电子设备1中，所述电子设备1包括但不限于电视、传统影院、家庭影院、音箱、耳机、手机、行车记录仪、车载智能设备、导航设备、平板电脑、笔记本电脑、台式电脑、个人数字助理、穿戴式设备、头戴式设备等具有运算功能的终端设备。

所述电子设备1可以包括处理器12和存储器11、网络接口13及通信总线14。

存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器11等的非易失性存储介质。在一些实施例中，所述可读存储介质可以是所述电子设备1的内部存储单元，例如该电子设备1的硬盘。在另一些实施例中，所述可读存储介质也可以是所述电子设备1的外部存储器11，例如所述电子设备1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。

在本实施例中，所述存储器11的可读存储介质通常用于存储安装于所述电子设备1的音频信号处理装置10的程序(如音频数据处理程序)。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行音频信号处理装置10的程序等。

网络接口13可选地可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该电子设备1与其他电子设备之间建立通信连接。

通信总线14用于实现这些组件之间的连接通信。

图1仅示出了具有组件11-14的电子设备1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，该电子设备1还可以包括用户接口，用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、声音输出装置比如音响、耳机等，可选地用户接口还可以包括标准的有线接口、无线接口。

可选地，该电子设备1还可以包括显示器，显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。显示器用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

可选地，该电子设备1还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外，这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且，所述触摸传感器不仅包括接触式的触摸传感器，也可包括接近式的触摸传感器等。此外，所述触摸传感器可以为单个传感器，也可以为例如阵列布置的多个传感器。

此外，该电子设备1的显示器的面积可以与所述触摸传感器的面积相同，也可以不同。可选地，将显示器与所述触摸传感器层叠设置，以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。

可选地，该电子设备1还可以包括射频(Radio Frequency，RF)电路，传感器、音频电路等等，在此不再赘述。

在图1所示的装置实施例中，作为一种计算机存储介质的存储器11中可以包括操作系统以及音频信号处理装置10的程序；处理器12执行存储器11中存储的音频信号处理装置10的程序时实现图2所示的音频信号处理方法的步骤S21、S22、S23。以下对所述音频信号处理方法的具体步骤S21、S22、S23进行介绍。

步骤S21，对输入音频数据进行第一混编处理获得第一混编音频数据。

步骤S22，对所述第一混编音频数据进行第二混编处理获得声场音频数据或者对所述第一混编音频数据进行第二混编及虚拟声场处理获得声场音频数据。

步骤S23，对所述声场音频数据进行均衡处理、动态压缩、和/或振幅限制获得输出音频数据。

可以理解，所述输入音频数据的声道数可以为任意的，如，所述输入音频数据可以为单声道音频数据、双声道音频数据或多声道音频数据，具体地，本实施例中，所述音频信号处理方法可以适用于从1.0(单声道)、2.0(双声道)、3.0、5.1、7.1、......、18.2等20个声道类型的输入音频数据。

进一步地，所述第一混编音频数据则可以具有预设且固定的声道数，优选地，可以为双声道音频数据或多声道音频数据，其中多声道音频数据是具有三个以上声道数的音频数据(如3.0、5.1、7.1、......、18.2等)。所述第一混编音频数据的固定的声道数可以依据实际应用的环境进行设定，如通常地，可以设定为多声道音频数据(如类型为7.1的多声道音频数据)。

可以理解，所述均衡处理、所述动态压缩、和/或所述振幅限制并不改变音频数据的声道类型和声道数量，因此所述声场音频数据的声道类型和声道数与所述输出音频数据的声道类型和声道数是相同的。

本实施例中，所述输出音频数据的声道数可以为任意的左右对称式的声道配置，如，所述输出音频数据可以为单声道音频数据、双声道音频数据或多声道音频数据，具体地，本实施例中，所述音频信号处理方法可以适用于从1.0(单声道)、2.0(双声道)、3.0、5.1、7.1、......、18.2等20个声道类型的输出音频数据，从而实现任意左右对称式声道配置的输入音频数据到音频设备或者用户需求的预设声道的输出音频数据之间的转换。比如，音频设备或者用户需求的预设声道为5.1声道，那么无论输入音频数据为何种声道的数据，均会被按照本发明实施例提供的音频信号处理方法对所述的输入音频数据进行混编等处理，但最终获得所述输出音频数据均为5.1声道的输出音频数据，另外，可以理解，若所述输出音频数据的声道数大于所述输入音频的声道数，如所述输出音频数据为5.1声道，所述输入音频数据为2.0声道，则从所述输入音频数据到所述输出音频数据的处理过程可以被称为上混；若所述输出音频数据的声道数小于所述输入音频的声道数，如所述输出音频数据为2.0声道，所述输入音频数据为5.1声道，则从所述输入音频数据到所述输出音频数据的处理过程可以被称为下混。

进一步地，所述第一混编音频数据则可以具有预设且固定的声道数，优选地，可以为双声道音频数据或多声道音频数据，但不限于为单声道数据，其中，可以理解，多声道音频数据是具有三个以上声道数的音频数据(如3.0、5.1、7.1、......、18.2等)。所述第一混编音频数据的固定的声道数可以依据实际应用的环境进行设定，如通常地，可以设定为多声道音频数据(如类型为3.0的多声道音频数据)。

进一步地，步骤S22及S23中，对所述第一混编音频数据进行第二混编处理获得声场音频数据的步骤，主要适用于传统影院、家庭影院或车载音响等具有与声场音频数据、输出音频数据的声道信号一一对应的扬声器的音频设备，此时，进行所述第二混编处理、所述均衡处理、所述动态压缩、和/或所述振幅限制后的所述输出音频数据的声道数(也是各声道信号的数量)与所述扬声器的数量一一对应，从而每个声道的信号均经由对应的一个扬声器播放。

步骤S22及S23中，对所述第一混编音频数据进行第二混编及虚拟声场处理获得声场音频数据的步骤，主要适用于普通的气导式或骨导式耳机，或其他电子设备的耳机等音频设备，或家庭影院、车载音响中扬声单元个数不足或扬声单元所在位置与对应声道位置不符的音频设备，此时，所述步骤S22中，除了进行所述第二混编外，还需要进一步进行虚拟声场处理(即对每个输出声道的信号进行处理及滤波转换)来提供音频处理效果，可以理解，所述虚拟声场处理主要通过软件算法来实现。

进一步地，本发明实施例提供的音频处理方法还可以实现三维空间音频处理转换，进而实现声音对用户姿态的跟随，达到较好的用户体验。

其中，在一种实施例中，所述第一混编音频数据为双声道音频数据或多声道音频数据，步骤S22中，对所述第一混编音频数据进行第二混编处理获得声场音频数据的步骤包括：

获取用户姿态数据；

其中，可以理解，在上述实施例中，所述用户姿态数据可以是通过对陀螺仪等方位传感器侦测获得传感数据进行转换得到的用户头部姿态数据，具体地，陀螺仪等方位传感器可以穿戴在用户头部(如耳朵所在的位置)，当用户头部运动时，方位传感器可以感测获知到当前用户在不同方向的运动状态，从而获得所述传感数据(如不同方向的加速度数据)，对所述传感数据进行进一步转换，获得方位角变化数据并作为所述用户姿态数据输出。

可以理解，上述实施例中，选择性地根据用户姿态数据判断是否需要进行三维空间音频转换处理，而不是直接依据用户姿态数据做三维空间音频转换，可以省去不必要的数据处理步骤，提高音频处理效率。比如，当用户头部姿态的变化幅度较小时，可以不做三维空间音频转换处理，而是直接进行第二混编即可，这样不仅音频效果基本不变，而且音频处理效率较高，处理装置的数据处理负担也较小。此外，依据所述用户姿态数据进行三维空间音频转换处理，可以使得声音可以跟随用户姿态的变化，进而无论用户姿态如何变化，用户感受的声源位置基本不变，进而提高用户体验性。

其中，在另一种实施例中，所述第一混编音频数据为双声道音频数据或多声道音频数据，步骤S22中，对所述第一混编音频数据进行第二混编及虚拟声场处理获得声场音频数据的步骤包括：

获取用户姿态数据；

其中，可以理解，在另一种实施例中，所述用户姿态数据可以是通过对陀螺仪等方位传感器侦测获得传感数据进行转换得到的的用户头部姿态数据，具体地，陀螺仪等方位传感器可以设置在耳机等音频设备且靠近用户的耳部，当用户头部运动时，方位传感器可以感测获知到当前用户在不同方向的运动状态，从而获得所述传感数据(如不同方向的加速度数据)，对所述传感数据进行进一步转换，获得方位角变化数据并作为所述用户姿态数据输出。

进一步地，所述依据所述用户姿态数据对所述第一混编音频数据进行三维空间音频转换处理获得三维空间音频数据的步骤中，所述第一混编音频数据包括第一中置声道信号，所述三维空间音频数据包括第二中置声道信号，所述第一中置声道信号与所述第二中置声道信号相同。可以理解，无论用户姿态如何，中置声道信号不变，使得中置声道信号的人声始终位于预设的中央位置，可以提高用户体验性。

更进一步地，所述依据所述用户姿态数据判断是否需要进行三维空间音频转换处理的步骤中，依据所述用户姿态数据判断用户头部的方位角在预设时间的角度变化数据，若在所述预设时间内，所述角度变化数据在预设角度范围内，则判断结果为否，若在所述预设时间内，所述角度变化数据超出所述预设角度范围，则判断结果为是。

其中，所述方位角包括俯仰角和水平角，所述角度变化数据包括预设时间内的所述俯仰角变化数据和预设时间内的所述水平角变化数据。在所述预设时间内，所述俯仰角变化数据在第一预设角度范围且所述水平角变化数据在第二预设角度范围内时，则判断结果为否；在所述预设时间内，所述俯仰角变化数据在第一预设角度范围和/或所述水平角变化数据在第二预设角度范围内时，则判断结果为是。

本实施例中，所述预设时间在1.5秒至3秒的范围内，所述预设角度范围在0至2度的范围内。优选地，所述预设时间可以为2秒。可以理解，所述预设时间在1.5秒至3秒的范围内，所述预设角度范围在0至2度的范围内，范围设定合理，可以给用户带来较好的用户体验。

更进一步地，本发明实施例提供的音频信号处理方法中，考虑到人体有一定的共同物理特征以及不同人具有不同的人头传递函数，提供一个平均化的用户模型简称为双耳频谱差模型，依据这个双耳频谱差模型设定下混时上述左声道信号L和右声道信号R的各个分量的频谱特征，从而提供一个平均化的处理结果，无需提供多个差异化的音频处理结果。

举例来说，所述输出音频数据的声道数量小于所述输入音频数据的声道数量时，且经过所述第二混编处理或者所述第二混编及虚拟声场处理获得的所述声场音频数据包括左声道信号L和右声道信号R，所述输出音频数据包括前左声道信号Lf、前右声道信号Rf、后左声道信号Lb和后右声道信号Rb，

进一步地，步骤S23中，所述均衡处理包括对所述声场音频数据的低频失真部分进行衰减的步骤；所述动态压缩包括对所述声场音频数据低于第一预设振幅值进行放大；所述振幅限制包括对所述声场音频数据超出第二预设振幅的部分进行限制的步骤(对所述声场音频数据超出第二预设振幅的部分进行限幅处理)。通常地，所述音频信号处理办法均包括所述均衡处理、所述动态压缩和所述振幅限制的处理，且所述均衡处理、所述动态压缩和所述振幅限制按照上述从左到右的此序依次进行。此外，所述动态压缩和所述振幅限制的处理过程中，是对每帧所述声场音频数据单独进行所述动态压缩、所述振幅限制以得到每帧所述输出音频数据，当前输出帧中所包含的音频内容与当前输入帧所包含的音频内容一致，并不包含上一输入帧或下一输入帧的音频内容。所述第一预设振幅和第二预设振幅均可以依据实际需要进行自行设定。

计算每帧所述输入音频数据的有效值，若所述有效值低于预设值，则判断所述输入音频数据存在异常，若所述有效值不低于预设值，则判断所述输入音频数据正常；所述预设值不超过-90dB。其中，所述有效值可以是将所述输入音频数据按照预设公式规则计算的均方值，单位为dB。

在一种实施例中，所述音频信号处理方法还包括以下步骤：

具体地，所述依据调节前的系统参数和调节后的系统参数进行音频调节处理的步骤中，设所述音频处理后的数据为S，第一音频数据S1为依据所述调节前的系统参数进行所述音频处理获得的音频数据，第二音频数据S2为依据所述调节后的系统参数进行所述音频处理获得的音频数据，其中，S＝S1*K1+S2*K2，在预设调节时间内，K1与K2为平滑系数，K1从1逐渐变为0，K2从0逐渐变为1。具体地，在一种实施例中，K2＝1-K1。

在一些实施例中，音频信号处理装置10的程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由处理器12执行，以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。如图3所示，为图1中音频信号处理装置10较佳实施例的程序模块图。所述音频信号处理装置10可以被分割为：第一处理模块101、第二处理模块102、第三处理模块103。所述模块101-103所实现的功能或操作步骤均与上文的各步骤S21、S22、S23类似，此处不再详述，示例性地，例如其中：

第一处理模块101，用于对所述输入音频数据进行第一混编处理获得第一混编音频数据；

第二处理模块102，用于对所述第一混编音频数据进行第二混编处理获得声场音频数据或者或对所述第一混编音频数据进行第二混编及虚拟声场处理获得声场音频数据；以及

第三处理模块103，用于对所述声场音频数据进行均衡处理、动态压缩和/或振幅限制获得输出音频数据。

其中，可以理解，所述第三处理模块103包括包括均衡处理单元、动态压缩单元和/或振幅限制单元，用于对所述声场音频数据按照从左到右的顺序进行均衡处理、动态压缩和振幅限制。所述音频信号处理装置10还可以包括旁路开关模块104，且在所述处理器的控制下，所述旁路开关模块104可以被选择性的打开或关闭，从而实现旁路开关模式的开启或关闭。

可以理解，当所述旁路开关模式关闭，则所述第一、所述第二及所述第三处理模块依次对所述输入音频数据执行所述第一混编处理、所述第二混编处理或所述第二混编及虚拟声场处理、所述均衡处理和/或所述振幅限制获得所述输出音频数据；当所述旁路开关模式开启，则所述旁路开关模块104将所述输入音频数据直接作为输出音频数据输出、将所述输入音频数据进行增益处理、将所述输入音频数据进行第三混编处理、或将所述输入音频数据进行增益与第三混编处理后作为所述输出音频数据输出。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质中包括存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上述任意一实施例所述的音频信号处理方法。

本发明之计算机可读存储介质的具体实施方式与上述音频信号处理方法、的具体实施方式大致相同，且具有相同的技术效果，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种音频信号处理方法，其特征在于，所述音频信号处理方法包括以下步骤：

对输入音频数据进行第一混编处理获得第一混编音频数据；

2.根据权利要求1所述的音频信号处理方法，其特征在于，所述第一混编音频数据为双声道音频数据或多声道音频数据，对所述第一混编音频数据进行第二混编处理获得声场音频数据的步骤包括：

获取用户姿态数据；

3.根据权利要求1所述的音频信号处理方法，其特征在于，所述第一混编音频数据为双声道音频数据或多声道音频数据，对所述第一混编音频数据进行第二混编及虚拟声场处理获得声场音频数据的步骤包括：

获取用户姿态数据；

4.根据权利要求2或3所述的音频信号处理方法，其特征在于，所述依据所述用户姿态数据对所述第一混编音频数据进行三维空间音频转换处理获得三维空间音频数据的步骤中，所述第一混编音频数据包括第一中置声道信号，所述三维空间音频数据包括第二中置声道信号，所述第一中置声道信号与所述第二中置声道信号相同。

5.根据权利要求2或3所述的音频信号处理方法，其特征在于，所述依据所述用户姿态数据判断是否需要进行三维空间音频转换处理的步骤中，

6.根据权利要求5所述的音频信号处理方法，其特征在于，所述预设时间在1.5秒至3秒的范围内，所述预设角度范围在0至2度的范围内。

7.根据权利要求1所述的音频信号处理方法，其特征在于，所述输出音频数据的声道数量小于所述输入音频数据的声道数量时，且经过所述第二混编处理或者所述第二混编及虚拟声场处理获得的所述声场音频数据包括左声道信号L和右声道信号R，所述输出音频数据包括前左声道信号Lf、前右声道信号Rf、后左声道信号Lb和后右声道信号Rb，

8.根据权利要求1所述的音频信号处理方法，其特征在于，所述对所述声场音频数据进行均衡处理、动态压缩和/或振幅限制获得输出音频数据的步骤中：

9.根据权利要求1所述的音频信号处理方法，其特征在于，所述音频信号处理方法还包括对所述输入音频数据进行检测的步骤，若判断所述输入音频数据存在异常，则输出预设音频数据作为所述输出音频数据；所述预设音频数据为输出置0的音频数据。

10.根据权利要求9所述的音频信号处理方法，其特征在于，所述对所述输入音频数据进行检测的步骤包括：

11.根据权利要求1所述的音频信号处理方法，其特征在于，所述音频信号处理方法包括以下步骤：

依据调节前的系统参数和调节后的系统参数进行音频处理，所述音频处理包括所述第一混编处理、所述第二混编处理、所述第二混编及虚拟空间处理、所述均衡处理和/或所述振幅限制。

12.根据权利要求11所述的音频信号处理方法，其特征在于，所述依据调节前的系统参数和调节后的系统参数进行音频处理的步骤中，设所述音频处理后的数据为S，第一音频数据S1为依据所述调节前的系统参数进行所述音频处理获得的音频数据，第二音频数据S2为依据所述调节后的系统参数进行所述音频处理获得的音频数据，其中，S＝S1*K1+S2*K2，在预设调节时间内，K1与K2为平滑系数，K1从1逐渐变为0，K2从0逐渐变为1。

13.根据权利要求1所述的音频信号处理方法，其特征在于，所述音频信号处理方法还包括：接收控制信号以控制旁路开关模式打开或关闭步骤，

当所述旁路开关模式开启，则将所述输入音频数据直接作为输出音频数据输出、将所述输入音频数据进行增益处理、将所述输入音频数据进行第三混编处理、或将所述输入音频数据进行增益与第三混编处理后作为所述输出音频数据输出。

14.一种音频信号处理装置，其特征在于，所述装置包括：

第一处理模块，用于对所述输入音频数据进行第一混编处理获得第一混编音频数据，所述第一混编音频数据具有预设且固定的声道数；

15.一种电子设备，其特征在于，所述电子设备包括存储器及处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至13项任意一项所述的音频信号处理方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至13项任意一项所述的音频信号处理方法。