CN112770227B

CN112770227B - 音频处理方法、装置、耳机和存储介质

Info

Publication number: CN112770227B
Application number: CN202011612660.7A
Authority: CN
Inventors: 王薇娜; 高五峰; 李旭阳; 孙学京; 董强国; 高峰; 王惠
Original assignee: CHINA FILM SCIENCE AND TECHNOLOGY INST
Current assignee: China Film Science And Technology Research Institute Film Technology Quality Inspection Institute Of Central Propaganda Department
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2022-04-29
Anticipated expiration: 2040-12-30
Also published as: CN112770227A

Abstract

本公开提供了一种音频处理方法、装置、耳机和计算机可读存储介质，涉及音频处理技术领域。其中，音频处理方法包括：接收原始的全景声音频文件；基于模拟环境的环境参数和/或所述音频文件的音频类型，对所述全景声音频文件进行耳机化全景声处理，生成中间音频文件；对所述中间音频文件进行双耳化处理，生成待播音频文件。通过本公开的技术方案，够提升佩戴耳机用户的对音频文件的听觉效果，并减小佩戴耳机用户的听觉效果与影厅的全景声播放时的听觉效果之间的差距。

Description

音频处理方法、装置、耳机和存储介质

技术领域

本公开涉及音频处理技术领域，尤其涉及一种音频处理方法、装置、耳机和计算机可读存储介质。

背景技术

观众佩戴无线耳机在露天电影的放映模式下观影，通过在耳机中加载认证授权的算法来实现声效的限制性输出，一方面，封闭式的声音输出使得噪音污染几乎为零，更容易向居民区等对噪音敏感的区域推广，另一方面，用户配搭耳机能够将开放式环境中的声音干扰屏蔽，以提升观影效果。

由于电影原始的混音制作面对的音频播放终端是影厅的扬声器，因此制作出的音频文件能够保证影厅内扬声模式的全景声播放效果，如果将扬声模式转换为耳机播放模式播放音频文件，会导致用户的听觉效果与影厅的全景声播放时的听觉效果差距较大。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种音频处理方法、装置、耳机和计算机可读存储介质，至少在一定程度上能够改善相关技术中的用户的听觉效果与影厅的全景声播放时的听觉效果差距。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一个方面，提供一种音频处理方法，包括：接收原始的全景声音频文件；基于模拟环境的环境参数和/或所述音频文件的音频类型，对所述全景声音频文件进行耳机化全景声处理，生成中间音频文件；对所述中间音频文件进行双耳化处理，生成待播音频文件。

在一个实施例中，所述模拟环境的环境参数包括所述模拟环境的空间参数，所述基于模拟环境的环境参数和/或所述音频文件的音频类型，对所述全景声音频文件进行耳机化全景声处理，生成中间音频文件包括：基于所述模拟环境的环境参数所述全景声音频文件滤波处理，并生成所述中间音频文件。

在一个实施例中，所述基于所述模拟环境的环境参数所述全景声音频文件滤波处理，并生成所述中间音频文件包括：基于所述模拟环境的空间参数生成所述模拟环境的房间脉冲响应；基于所述房间脉冲响应对所述全景声音频文件进行滤波处理，以调节所述全景声音频文件的音色，并生成对应的所述中间音频文件。

在一个实施例中，所述模拟环境的空间参数包括所述模拟环境的尺寸、模拟声源在所述模拟环境中的第一位置以及所述耳机在所述模拟环境中的第二位置，所述基于所述模拟环境的空间参数生成所述模拟环境的房间脉冲响应包括：基于所述第一位置与所述第二位置确定所述模拟声源的镜像声源的第一镜像位置；基于所述模拟环境的尺寸确定所述镜像声源的第二镜像位置；基于所述第一镜像位置与所述第二镜像位置确定所述镜像声源与所述耳机之间的距离；基于所述距离确定所述镜像声源的到达延迟；基于所述距离、所述到达延迟、所述模拟环境的反射系数以及所述模拟环境的混响时间确定所述房间脉冲响应。

在一个实施例中，所述基于所述房间脉冲响应对所述全景声音频文件进行滤波处理，以调节所述全景声音频文件的音色，并生成对应的所述中间音频文件包括：基于所述房间脉冲响应确定头相关脉冲响应；对所述头相关脉冲响应进行傅里叶变换，生成头相关传输函数；基于所述头相关传输函数对所述全景声音频文件进行滤波操作，生成对应的所述中间音频文件。

在一个实施例中，所述基于模拟环境的环境参数和/或所述音频文件的音频类型，对所述全景声音频文件进行耳机化全景声处理，生成中间音频文件全景声音频文件包括：基于所述音频文件的音频类型调节所述全景声音频文件的均衡器参数，以生成对应的所述中间音频文件。

在一个实施例中，所述基于所述音频文件的音频类型调节所述全景声音频文件的均衡器参数，以生成对应的所述中间音频文件全景声音频文件包括：对所述全景声音频文件进行分类处理，以确定所述全景声音频文件中是否包括语音信号；在确定所述全景声音频文件中包括所述语音信号时，确定与所述语音信号对应的第一均衡器参数，以基于所述第一均衡器参数调节所述全景声音频文件的播放参数，得到对应的所述中间音频文件；在确定所述全景声音频文件中不包括所述语音信号时，采用第二均衡器参数调节所述全景声音频文件的播放参数，得到对应的所述中间音频文件。

在一个实施例中，所述对所述中间音频文件进行双耳化处理，生成适于所述耳机播放的待播音频文件包括：基于双声道转换操作对所述中间音频文件进行双耳化处理，以生成所述待播音频文件。

在一个实施例中，还包括：在所述待播音频文件时，对所述待播音频文件进行校准操作，以生成目标音频文件。

在一个实施例中，所述在所述待播音频文件时，对所述待播音频文件进行校准操作，以生成目标音频文件包括：控制所述耳机的扬声器播放所述待播音频文件，以使所述耳机的麦克采集所述待播音频文件，将采集到的所述待播音频文件确定为参考音频文件；比较所述待播音频文件与所述参考音频文件，生成校准参数；基于所述校准参数对所述待播音频进行校准操作，生成所述目标音频文件。

在一个实施例中，所述比较所述待播音频文件与所述参考音频文件，生成校准参数包括：对所述待播音频文件进行频域转换，得到第一频域信号；计算所述第一频域信号的子带能量，得到第一能量值；对所述参考音频文件进行频域转换，得到第二频域信号；计算所述第二频域信号的子带能量，得到第二能量值；基于所述第一能量值与所述第二能量值的差值，得到所述校准参数。

在一个实施例中，所述基于所述校准参数对所述待播音频进行校准操作，生成所述目标音频文件包括：基于所述校准参数配置第三均衡器参数，以基于所述第三均衡器参数调节所述待播音频文件的播放参数，生成所述目标音频文件。

根据本公开的第二方面，提供一种音频处理装置，包括：接收模块，用于接收原始的全景声音频文件；全景声处理模块，用于基于模拟环境的环境参数和/或所述音频文件的音频类型，对所述全景声音频文件进行耳机化的全景声处理，生成中间音频文件；双耳化处理模块，用于对所述中间音频文件进行双耳化处理，生成适于所述耳机播放的待播音频文件。

根据本公开的第三方面，提供一种耳机，包括：处理器；以及存储器，用于存储处理器的可执行指令；其中，处理器配置为经由执行可执行指令来执行上述任意一项的音频处理方法。

根据本公开的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任意一项的音频处理方法。

本公开的实施例所提供的音频处理方案，耳机在基于无线传输信号和/或有线传输信号接收到原始的全景声音频文件后，基于模拟环境的环境参数对原始的全景声音频文件进行处理，实现在耳机端输出的音频文件对模拟环境的模拟效果，以提升佩戴耳机用户的对音频文件的听觉效果，基于音频文件的音频类型对全景声音频文件进行处理，对该类型的音频的播放参数进行优化，以更适于耳机端播放，也能够提升佩戴耳机用户的对音频文件的听觉效果。

进一步地，在对原始的全景声音频文件进行处理，以转化为中间音频文件后，通过对中间音频文件进行双耳化处理，以得到适于耳机播放的待播音频文件，从而减小佩戴耳机用户的听觉效果与影厅的全景声播放时的听觉效果之间的差距。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本公开实施例中一种音频处理系统结构的示意图；

图2示出本公开实施例中一种音频处理方法的流程图；

图3示出本公开实施例中另一种音频处理方法的流程图；

图4示出本公开实施例中再一种音频处理方法的流程图；

图5示出本公开实施例中声源一次传播路径示意图；

图6示出本公开实施例中声源量次传播路径示意图；

图7示出本公开实施例中声源三次传播路径示意图；

图8示出本公开实施例中另一种音频处理方法的流程图；

图9示出本公开实施例中另一种音频处理方法的流程图；

图10示出本公开实施例中耳机构造的示意图；

图11示出本公开实施例的又一种音频处理方法的流程图；

图12示出本公开实施例的又一种音频处理方法的流程图；

图13示出本公开实施例的又一种音频处理方法的流程图；

图14示出本公开实施例的又一种音频处理方法的流程图；

图15示出本公开实施例中一种音频处理装置的示意图；

图16示出本公开实施例中一种耳机的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

本申请提供的方案，基于模拟环境的环境参数对原始的全景声音频文件进行处理，实现在耳机端输出的音频文件对模拟环境的模拟效果，以提升佩戴耳机用户的对音频文件的听觉效果，基于音频文件的音频类型对全景声音频文件进行处理，对该类型的音频的播放参数进行优化，以更适于耳机端播放，也能够提升佩戴耳机用户的对音频文件的听觉效果。

本申请实施例提供的方案涉及音频处理等技术，具体通过如下实施例进行说明。

图1示出本公开实施例中一种音频处理系统的结构示意图，包括多个耳机120和播放设备140。

播放设备用于存储原始的全景声音频文件。

耳机120中可以安装有用于提供的音频处理的应用程序。

耳机120与播放设备140之间通过通信网络相连。可选的，通信网络是有线网络或无线网络。

可选地，不同的耳机120中安装的应用程序的客户端是相同的，或两个耳机120上安装的应用程序的客户端是不同控制系统平台的同一类型应用程序的客户端。基于终端平台的不同，该应用程序的客户端的具体形态也可以不同，比如，该应用程序客户端可以是手机客户端、PC客户端或者全球广域网(World Wide Web，Web)客户端等。

本领域技术人员可以知晓，上述耳机120的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量。本申请实施例对终端的数量和设备类型不加以限定。

可选的，该系统还可以包括管理设备(图1未示出)，该管理设备与播放设备140之间通过通信网络相连。可选的，通信网络是有线网络或无线网络。

可选的，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(ExtensibleMarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(InternetProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

下面，将结合附图及实施例对本示例实施方式中的音频处理方法中的各个步骤进行更详细的说明。

图2示出本公开实施例中一种音频处理方法流程图。本公开实施例提供的方法可以由任意具备计算处理能力的耳机执行，例如如图1中的耳机120和/或播放设备140。在下面的举例说明中，以耳机120为执行主体进行示例说明。

如图2所示，服务器集群140执行音频处理方法，包括以下步骤：

步骤S202，接收原始的全景声音频文件。

其中，耳机可以为无线耳机，基于无线传输信道接收原始的全景声音频文件，耳机也可以为有线耳机，基于有线传输信道接收原始的全景声音频文件。

原始的全景声音频文件，全景声为基于对象的音频处理技术，根据具体环境，通过解码器计算之后按照算法来指定具体的喇叭输出，全景声音频文件即适于使用影厅的扬声器终端播放的音频文件。

步骤S204，基于模拟环境的环境参数和/或音频文件的音频类型，对全景声音频文件进行耳机化全景声处理，生成中间音频文件。

其中，模拟环境指音频文件模拟的播放空间，比如影厅等。

模拟环境的环境参数包括但不限于播放空间的空间形状与尺寸、音源在播放空间的位置、接收端(比如用户或麦克)在播放空间的位置等。

音频文件的音频类型包括短期音乐、语音、背景声音和噪声等内容类型。

或音频文件的音频类型包括长期音乐、电影式媒体、游戏和VoIP(IP语音)的上下文等。

将原始的全景声音频文件基于上述参数与对应的处理方式进行处理后，得到中间音频文件。

具体地，可以只基于模拟环境的环境参数对全景声音频文件进行处理，得到中间音频文件。

也可以只基于音频文件的音频类型对全景声音频文件进行处理，得到中间音频文件。

还可以先基于模拟环境的环境参数对文件进行处理，处理后的文件再基于音频文件的音频类型进一步进行处理，得到中间音频文件。

还可以先基于音频文件的音频类型对文件进行处理，处理后的文件再基于模拟环境的环境参数进一步进行处理，得到中间音频文件。

步骤S206，对中间音频文件进行双耳化处理，生成待播音频文件。

其中，双耳化处理指适于使耳机的对音频的输出实现平衡，在将中间文件进行双耳化处理后的到的音频文件为待播音频文件。

待播音频文件可以直接在耳机端进行播放，也可以进一步进行优化处理后在耳机端播放。

在该实施例中，耳机在基于无线传输信号和/或有线传输信号接收到原始的全景声音频文件后，基于模拟环境的环境参数对原始的全景声音频文件进行处理，实现在耳机端输出的音频文件对模拟环境的模拟效果，以提升佩戴耳机用户的对音频文件的听觉效果，基于音频文件的音频类型对全景声音频文件进行处理，对该类型的音频的播放参数进行优化，以更适于耳机端播放，也能够提升佩戴耳机用户的对音频文件的听觉效果。

在一个实施例中，模拟环境的环境参数包括模拟环境的空间参数，步骤S204，基于模拟环境的环境参数和/或音频文件的音频类型，对全景声音频文件进行耳机化全景声处理，生成中间音频文件的一种实现方式包括：

基于模拟环境的环境参数全景声音频文件滤波处理，并生成中间音频文件。

如图3所示，在一个实施例中，基于模拟环境的环境参数全景声音频文件滤波处理，并生成中间音频文件包括：

步骤S302，基于模拟环境的空间参数生成模拟环境的房间脉冲响应。

其中，房间脉冲响应(Room Impulse Response，RIR)指房间中接收位置收到的由脉冲声源辐射的信号序列，同一房间声源到接收点的脉冲响应是唯一的，房间脉冲响应包括以下信息：扬声器和话筒间的延迟；直达声和混响声的电平比；声音抵达时间，频率内容和声音反射的程度；声音早期和晚期的衰变率以及直达声的频率响应等。

根据模拟环境，比如播放影院的空间参数，生成对应的房间脉冲响应，房间脉冲响应可以采用仿真数据，也可以在真实场景中进行实际测量。

具体地，由于声音的传播过程数学形式上可以用波动方程表示，以通过求解波动方程获得声源到麦克风的冲激响应。

声音的传播过程数学形式上可以用波动方程表示，因此可以通过求解波动方程获得声源到麦克风即耳机的冲激响应。

步骤S304，基于房间脉冲响应对全景声音频文件进行滤波处理，以调节全景声音频文件的音色，生成对应的中间音频文件。

其中，基于房间脉冲响应对全景声音频文件进行滤波处理，可以理解为全景声音频文件的音色进行处理，以适于在耳机端实现全景声效果的播放。

在该实施例中，通过获取模拟环境的房间脉冲响应，并基于该房间脉冲响应对原始的全景声音频文件进行处理，实现基于模拟环境的音频文件的优化，在用户收听时能够接近模拟环境，比如某个影厅的播放效果。

在一个实施例中，模拟环境的空间参数包括模拟环境的尺寸、模拟声源在模拟环境中的第一位置以及耳机在模拟环境中的第二位置。

如图4所示，步骤S302，基于模拟环境的空间参数生成模拟环境的房间脉冲响应的一种实现方式包括：

步骤S402，基于第一位置与第二位置确定模拟声源的镜像声源的第一镜像位置。

以image方法获取房间脉冲响应为例，如图5所示，描述了一个靠近刚性壁的点声源S，在接收点D会有两路信号达到，一路为直达声，一路为反射声。直达声的路径长度可以直接从两个位置计算得到。位于墙壁后的镜像声源S′与墙壁的距离和声源与墙壁的距离相等。由于对称性，三角形SRS′为等腰三角形，因此，SR+SD＝S′D，如此便可以计算得到需要距离。

图6示出了反射两次的结果，传播路径长度为S″D。图7示出了反射三次的结果，传播路径长度为S″′D。

假设一个矩形房间，长、宽和高分别为L_x，L_y和L_z，声源位置为r_s＝[x_s，y_s，z_s]，麦克风位置为r＝[x，y，z]。位置向量均以原点为参考，原点位于房间一角。假设墙壁的位置为x＝0，y＝0，z＝0，镜像声源的位置可以表示为式(1)：

R_p＝[x_s-x+2×q×x，y_s-y+2×j×y，z_s-z+2×k×z] (1)

其中，q，j，k为三元素集合P＝(q，j，k)中的元素。

声源镜像到麦克风接收位置的距离d可以表示为式(2)：

d＝||R_p+R_m|| (2)

步骤S404，基于模拟环境的尺寸确定镜像声源的第二镜像位置。

三元素集合P＝(q，j，k)的每一个元素可取值0或者0，会产生八种排列组合形式，即为集合P＝{(q，j，k)：q，j，k∈{0，1}}。当p的元素在每一个维度都为1的时候，意思就是该方向的声源镜像会被纳入计算。而且有些镜像会被反射多次，为了考虑到所有镜像，引入式(3)：

R_m＝[2×m_x×L_x，2×m_y×L_y，2×m_z×L_z] (3)

其中m_x，m_y，m_z均为整数，每对三元素集合m＝(m_x，m_y，m_z)的取值范围为-N～N。在位置R_p+R_m处的镜像的反射阶数可以表达为式(4)：

O_p，m＝|2m_x+q|+|2m_y+j|+|2m_z+k| (4)

步骤S406，基于第一镜像位置与第二镜像位置确定镜像声源与耳机之间的距离。

步骤S408，基于距离确定镜像声源的到达延迟。

任何镜像声源的到达时延表示为式(5)：

其中，c为声速。

步骤S410，基于距离、到达延迟、模拟环境的反射系数以及模拟环境的混响时间确定房间脉冲响应。

因此，从声源到麦克风接收位置的冲激响应可以表示为式(6)：

其中，M＝{(m_x，m_y，m_z):-N≤m_x，m_y，m_z≤N}，表示涵盖了m的所有组合方式，

是六面墙壁的反射系数，P表示涵盖了八种组合方式。集合m的元素范围为-N～N，意味着会有(2N+1)³种组合方式，因此总共存在8(2N+1)³种不同的路径。

对应的离散冲激响应形式为：

其中f_s是采样率，LFP{·}表示理想的低通滤波器，截止频率为

波达时间将会被移位到最近的整数值，因此近似值如下式(8)：

LFP{δ(n-τf_s)}≈δ(n-round{τf_s}) (8)

其中，Round函数返回一个数值，该数值是按照指定的小数位数进行四舍五入运算的结果。

为了防止这种失真，可以结合汉宁窗进行处理，窗函数如下：

其中T_ω是带宽，f_c是截止频率。T_ω设置为4ms，f_c设置为奈奎斯特采样频率。每个冲激响应δ(t-τ)先替换为δ_LPF(t-τ)，然后进行采样。

混响时间RT₆₀是模拟房间混响的重要参数，该参数可以在程序参数中直接设定。混响时间是指在房间声音趋于稳定状态后，停止声源发声，平均声能密度自原始值衰减到其百万分之一所需要的时间，即声源停止发声后衰减60dB所需要的时间。经验公式为：

其中V表示房间体积，β_i和S_i分别表示反射系数第i面墙壁的面积。

通过设置空间大小参数、吸引因子、RT₆₀等参数，就可以得到该场景下的RIR参数。

如图8所示，在一个实施例中，步骤S304，基于房间脉冲响应对全景声音频文件进行滤波处理，以调节全景声音频文件的音色，并生成对应的中间音频文件的一种实现方式包括：

步骤S802，基于房间脉冲响应确定头相关脉冲响应。

步骤S804，对头相关脉冲响应进行傅里叶变换，生成头相关传输函数。

步骤S806，基于头相关传输函数对全景声音频文件进行滤波操作，生成对应的中间音频文件。

在该实施例中，基于房间脉冲响应确定头相关脉冲响应，头相关脉冲响应为头相关传输函数(Head-Related Transfer Function，HRTF)的时域表示，通过头相关脉冲响应得到头相关传输函数HRTF，利用HRTF处理音频文件，实现人体外耳、头部、躯干对来着不同方位声音信号的综合滤波效果，并虚拟出三维声像，以提高耳机佩戴用户的声音体验。

在一个实施例中，基于模拟环境的环境参数和/或音频文件的音频类型，对全景声音频文件进行耳机化全景声处理，生成中间音频文件全景声音频文件包括：

基于音频文件的音频类型调节全景声音频文件的均衡器参数，以生成对应的中间音频文件。

其中，均衡器(Equalizer)，是一种可以分别调节各种频率成分电信号放大量的电子设备，通过对各种不同频率的电信号的调节来补偿扬声器和声场的缺陷，补偿和修饰各种声源及其它特殊作用，一般调音台上的均衡器仅能对高频、中频、低频三段频率电信号分别进行调节。

在该实施例中，通过对均衡器参数的调节，实现与耳机播放参数之间的适配，以保证耳机播放音频的全景声效果的提升。

如图9所示，在一个实施例中，基于音频文件的音频类型调节全景声音频文件的均衡器参数，以生成对应的中间音频文件全景声音频文件的一种实现方式包括：

步骤S902，对全景声音频文件进行分类处理，以确定全景声音频文件中是否包括语音信号。

步骤S904，在确定全景声音频文件中包括语音信号时，确定与语音信号对应的第一均衡器参数，以基于第一均衡器参数调节全景声音频文件的播放参数，得到对应的中间音频文件。

步骤S906，在确定全景声音频文件中不包括语音信号时，采用第二均衡器参数调节全景声音频文件的播放参数，得到对应的中间音频文件。

其中，第一均衡器参数和第一均衡器参数可以采用相同阶数的均衡器参数进行调整，也可以采用不同阶数的均衡器参数进行调整，均衡器调整可以在频域实现，也可以通过filter在时域实现。

目前EQ filter都是使用biquard，filter type包括lowpass/highpass/bandpass/lowshelf/highshelf/peakingfilter，每种滤波器有cutofffrequency/Q/gain这三个参数可调。其中，lowshelffilter的系统函数可以用如下全通滤波器通过简单的级联即可实现：

其中，

其中，K表示滤波器的增益，K为2表示6dB增益，而全通滤波器的系数计算只需要计算a：

上式中Ω表示归一化截止频率，对应lowshelffilter的截止频率。

在该实施例中，通过对全景声音频进行分类处理，以判断是否具有语音信号，比如电影中的对白场景，如果有语音信号则采用第一均衡器信号处理音频，以提升包括对白场景的音频文件的播放效果，如果没有语音信号，采用第二均衡器信号处理音频，得到用于耳机播放的音频信号，以提升不包括对白场景的音频文件的播放效果。

在一个实施例中，步骤S206，对中间音频文件进行双耳化处理，生成适于耳机播放的待播音频文件的一种实现方式包括：

基于双声道转换操作对中间音频文件进行双耳化处理，以生成待播音频文件。

在该实施例中，通过对中间音频文件进行双耳化转换处理，以能够使两个耳机均衡分配声道，实现耳机端的音频播放。

在一个实施例中，还包括：在待播音频文件时，对待播音频文件进行校准操作，以生成目标音频文件。

其中，如图10所示，由于每个用户的耳内构造不同，结合不同的耳机类型，使耳内扬声器在耳内传播的路径也不相同，导致耳机麦克采集到的信号和播放的音频信号会存在很大的差异。

通过基于上述差异对双耳化处理的音频信号进行校准，以减少播放与接收之间的效果差异，得到用于耳机播放的音频信号，从而保证用户获取到的音频效果。

如图11所示，在一个实施例中，在待播音频文件时，对待播音频文件进行校准操作，以生成目标音频文件的一种实现方式包括：

步骤S1102，控制耳机的扬声器播放待播音频文件，以使耳机的麦克采集待播音频文件，将采集到的待播音频文件确定为参考音频文件。

如图10所示，待播音频文件1002经过扬声器1004播放，并由麦克1006采集，麦克1006采集到的音频文件记为参考音频文件。

步骤S1104，比较待播音频文件与参考音频文件，生成校准参数。

步骤S1106，基于校准参数对待播音频进行校准操作，生成目标音频文件。

如图10所示，将待播音频文件1002与参考音频文件输入校准模块1008，生成校准参数，基于校准参数进行校准后，得到最终的目标音频文件。

在该实施例中，通过耳机扬声器播放待播音频文件S1，结合耳内麦克采集到的参考音频文件S2，基于待播音频文件S1进行校准处理，得到校准参数。其中，待播音频文件S1的音频信号可以为扫频信号，mls信号等。通过校准参数对待播音频文件S1调整后，得到双耳化的全景声音频信号，可以达到期望的由耳机输出的全景声目标效果。

如图12所示，在一个实施例中，步骤S1104，比较待播音频文件与参考音频文件，生成校准参数的一种实现方式，包括：

步骤S1202，对待播音频文件进行频域转换，得到第一频域信号。

步骤S1204，计算第一频域信号的子带能量，得到第一能量值。

步骤S1206对参考音频文件进行频域转换，得到第二频域信号.

步骤S1208，计算第二频域信号的子带能量，得到第二能量值。

步骤S1210，基于第一能量值与第二能量值的差值，得到校准参数。

其中，以频域校准为例，对于频域调整，具体过程为：将S1信号变换到频域并计算子带的log域能量值E1，将S2信号变换到频域并计算子带的log域能量值E2，并将两个的差值作为EQ调整参数，以基于EQ调整参数得到校准参数。

如图13所示，在一个实施例中，步骤S1106，基于校准参数对待播音频进行校准操作，生成目标音频文件的一种实现方式，包括：

步骤S1302，基于校准参数配置第三均衡器参数；

步骤S1304，基于第三均衡器参数调节待播音频文件的播放参数，生成目标音频文件。

在该实施例中，基于校准参数得到对应的第三均衡器参数，采用第三均衡器参数进行校准，在不同的音效下，可以采用不同阶数的参数，比如高保真时采用高阶均衡器参数，其他情况依次类推；对于均衡器的调整，可以在频域实现，也可以通过filter在时域实现。

如图14所示，根据本公开的一个实施例的音频处理方法，包括：

步骤S1402，接收原始的全景声音频文件。

步骤S1404，基于模拟环境的空间参数生成模拟环境的房间脉冲响应。

步骤S1406，基于房间脉冲响应对全景声音频文件进行滤波处理，以调节全景声音频文件的音色，并生成对应的第一中间音频文件。

步骤S1408，对第一中间音频文件进行分类处理，以确定第一音频文件中是否包括语音信号。

步骤S1410，在确定第一中间音频文件中包括语音信号时，确定与语音信号对应的第一均衡器参数，以基于第一均衡器参数调节第一中间音频文件的播放参数，得到对应的第二中间音频文件。

步骤S1412，在确定第一中间音频文件中不包括语音信号时，采用第二均衡器参数调节第一中间音频文件的播放参数，得到对应的第二中间音频文件。

步骤S1414，基于双声道转换操作对第二中间音频文件进行双耳化处理，以生成待播音频文件。

步骤S1416，控制耳机的扬声器播放待播音频文件，以使耳机的麦克采集待播音频文件，将采集到的待播音频文件确定为参考音频文件。

步骤S1418，比较待播音频文件与参考音频文件，生成校准参数。

步骤S1420，基于校准参数对待播音频进行校准操作，生成目标音频文件。

需要注意的是，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图15来描述根据本发明的这种实施方式的音频处理装置1500。图15所示的音频处理装置1500仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

音频处理装置1500以硬件模块的形式表现。音频处理装置1500的组件可以包括但不限于：接收模块1502，用于接收原始的全景声音频文件；全景声处理模块1504，用于基于模拟环境的环境参数和/或音频文件的音频类型，对全景声音频文件进行耳机化的全景声处理，生成中间音频文件；双耳化处理模块1506，用于对中间音频文件进行双耳化处理，生成适于耳机播放的待播音频文件。

在一个实施例中，全景声处理模块1504还用于：基于模拟环境的环境参数全景声音频文件滤波处理，并生成中间音频文件。

在一个实施例中，全景声处理模块1504还用于：基于模拟环境的空间参数生成模拟环境的房间脉冲响应；基于房间脉冲响应对全景声音频文件进行滤波处理，以调节所述全景声音频文件的音色，并生成对应的中间音频文件。

在一个实施例中，全景声处理模块1504还用于：基于第一位置与第二位置确定模拟声源的镜像声源的第一镜像位置；基于模拟环境的尺寸确定镜像声源的第二镜像位置；基于第一镜像位置与第二镜像位置确定镜像声源与耳机之间的距离；基于距离确定镜像声源的到达延迟；基于距离、到达延迟、模拟环境的反射系数以及模拟环境的混响时间确定房间脉冲响应。

在一个实施例中，全景声处理模块1504还用于：基于房间脉冲响应确定头相关脉冲响应；对头相关脉冲响应进行傅里叶变换，生成头相关传输函数；基于头相关传输函数对全景声音频文件进行滤波操作，生成对应的中间音频文件。

在一个实施例中，全景声处理模块1504还用于：基于音频文件的音频类型调节全景声音频文件的均衡器参数，以生成对应的中间音频文件。

在一个实施例中，全景声处理模块1504还用于：对全景声音频文件进行分类处理，以确定全景声音频文件中是否包括语音信号；在确定全景声音频文件中包括语音信号时，确定与语音信号对应的第一均衡器参数，以基于第一均衡器参数调节全景声音频文件的播放参数，得到对应的中间音频文件；在确定全景声音频文件中不包括语音信号时，采用第二均衡器参数调节全景声音频文件的播放参数，得到对应的中间音频文件。

在一个实施例中，双耳化处理模块1506还用于：基于双声道转换操作对中间音频文件进行双耳化处理，以生成待播音频文件。

在一个实施例中，还包括：校准模块1508，用于在待播音频文件时，对待播音频文件进行校准操作，以生成目标音频文件。

在一个实施例中，校准模块1508还用于：控制耳机的扬声器播放待播音频文件，以使耳机的麦克采集待播音频文件，将采集到的待播音频文件确定为参考音频文件；比较待播音频文件与参考音频文件，生成校准参数；基于校准参数对待播音频进行校准操作，生成目标音频文件。

在一个实施例中，校准模块1508还用于：对待播音频文件进行频域转换，得到第一频域信号；计算第一频域信号的子带能量，得到第一能量值；对参考音频文件进行频域转换，得到第二频域信号；计算第二频域信号的子带能量，得到第二能量值；基于第一能量值与第二能量值的差值，得到校准参数。

在一个实施例中，校准模块1508还用于：基于校准参数配置第三均衡器参数，以基于第三均衡器参数调节待播音频文件的播放参数，生成目标音频文件。

下面参照图16来描述根据本发明的这种实施方式的耳机1600。图16显示的耳机1600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图16所示，耳机1600以通用计算设备的形式表现。耳机1600的组件可以包括但不限于：上述至少一个处理单元1610、上述至少一个存储单元1620、连接不同系统组件(包括存储单元1620和处理单元1610)的总线1630。

其中，存储单元存储有程序代码，程序代码可以被处理单元1610执行，使得处理单元1610执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，处理单元1610可以执行如图2中所示的步骤S202、S204与S206，以及本公开的音频处理方法中限定的其他步骤。

存储单元1620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)16201和/或高速缓存存储单元16202，还可以进一步包括只读存储单元(ROM)16203。

存储单元1620还可以包括具有一组(至少一个)程序模块16205的程序/实用工具16204，这样的程序模块16205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

耳机1600也可以与一个或多个外部设备1660(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该耳机交互的设备通信，和/或与使得该耳机1600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1650进行。并且，耳机1600还可以通过网络适配器1650与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1650通过总线1630与耳机1600的其它模块通信。应当明白，尽管图中未示出，可以结合耳机使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

根据本发明的实施方式的用于实现上述方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

Claims

1.一种音频处理方法，应用于耳机，其特征在于，包括：

接收原始的全景声音频文件；

基于模拟环境的环境参数和/或所述音频文件的音频类型，对所述全景声音频文件进行耳机化全景声处理，生成中间音频文件；

对所述中间音频文件进行双耳化处理，生成待播音频文件；

其中，所述模拟环境的环境参数包括所述模拟环境的空间参数，所述基于模拟环境的环境参数和/或所述音频文件的音频类型，对所述全景声音频文件进行耳机化全景声处理，生成中间音频文件包括：

基于所述模拟环境的空间参数生成所述模拟环境的房间脉冲响应；

基于所述房间脉冲响应对所述全景声音频文件进行滤波处理，以调节所述全景声音频文件的音色，并生成对应的所述中间音频文件；

其中，所述模拟环境的空间参数包括所述模拟环境的尺寸、模拟声源在所述模拟环境中的第一位置以及所述耳机在所述模拟环境中的第二位置，所述基于所述模拟环境的空间参数生成所述模拟环境的房间脉冲响应包括：

基于所述第一位置与所述第二位置确定所述模拟声源的镜像声源的第一镜像位置；

基于所述模拟环境的尺寸确定所述镜像声源的第二镜像位置；

基于所述第一镜像位置与所述第二镜像位置确定所述镜像声源与所述耳机之间的距离；

基于所述距离确定所述镜像声源的到达延迟；

基于所述距离、所述到达延迟、所述模拟环境的反射系数以及所述模拟环境的混响时间确定所述房间脉冲响应。

2.根据权利要求1所述的音频处理方法，其特征在于，所述基于模拟环境的环境参数和/或所述音频文件的音频类型，对所述全景声音频文件进行耳机化全景声处理，生成中间音频文件包括：

基于所述音频文件的音频类型调节所述全景声音频文件的均衡器参数，以生成对应的所述中间音频文件。

3.根据权利要求2所述的音频处理方法，其特征在于，所述基于所述音频文件的音频类型调节所述全景声音频文件的均衡器参数，以生成对应的所述中间音频文件包括：

对所述全景声音频文件进行分类处理，以确定所述全景声音频文件中是否包括语音信号；

在确定所述全景声音频文件中包括所述语音信号时，确定与所述语音信号对应的第一均衡器参数，以基于所述第一均衡器参数调节所述全景声音频文件的播放参数，得到对应的所述中间音频文件；

在确定所述全景声音频文件中不包括所述语音信号时，采用第二均衡器参数调节所述全景声音频文件的播放参数，得到对应的所述中间音频文件。

4.根据权利要求1至3中任一项所述的音频处理方法，其特征在于，还包括：

控制所述耳机的扬声器播放所述待播音频文件，以使所述耳机的麦克采集所述待播音频文件，将采集到的所述待播音频文件确定为参考音频文件；

比较所述待播音频文件与所述参考音频文件，生成校准参数；

基于所述校准参数对所述待播音频进行校准操作，生成目标音频文件。

5.根据权利要求4所述的音频处理方法，其特征在于，所述比较所述待播音频文件与所述参考音频文件，生成校准参数包括：

对所述待播音频文件进行频域转换，得到第一频域信号；

计算所述第一频域信号的子带能量，得到第一能量值；

对所述参考音频文件进行频域转换，得到第二频域信号；

计算所述第二频域信号的子带能量，得到第二能量值；

基于所述第一能量值与所述第二能量值的差值，得到所述校准参数。

6.一种音频处理装置，应用于耳机，其特征在于，包括：

接收模块，用于接收原始的全景声音频文件；

全景声处理模块，用于基于模拟环境的环境参数和/或所述音频文件的音频类型，对所述全景声音频文件进行耳机化的全景声处理，生成中间音频文件；

双耳化处理模块，用于对所述中间音频文件进行双耳化处理，生成适于所述耳机播放的待播音频文件；

其中，所述模拟环境的环境参数包括所述模拟环境的空间参数，所述全景声处理模块用于：基于所述模拟环境的空间参数生成所述模拟环境的房间脉冲响应；基于所述房间脉冲响应对所述全景声音频文件进行滤波处理，以调节所述全景声音频文件的音色，并生成对应的所述中间音频文件；

其中，所述模拟环境的空间参数包括所述模拟环境的尺寸、模拟声源在所述模拟环境中的第一位置以及所述耳机在所述模拟环境中的第二位置，所述全景声处理模块用于：基于所述第一位置与所述第二位置确定所述模拟声源的镜像声源的第一镜像位置；基于所述模拟环境的尺寸确定所述镜像声源的第二镜像位置；基于所述第一镜像位置与所述第二镜像位置确定所述镜像声源与所述耳机之间的距离；基于所述距离确定所述镜像声源的到达延迟；基于所述距离、所述到达延迟、所述模拟环境的反射系数以及所述模拟环境的混响时间确定所述房间脉冲响应。

7.一种耳机，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1～5中任意一项所述的音频处理方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～5中任意一项所述的音频处理方法。