CN116743913B

CN116743913B - 音频处理方法和装置

Info

Publication number: CN116743913B
Application number: CN202211071886.XA
Authority: CN
Inventors: 邸皓轩; 陈政; 李丹洪; 林文钊
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-09-02
Filing date: 2022-09-02
Publication date: 2024-03-19
Anticipated expiration: 2042-09-02
Also published as: CN116743913A

Abstract

本申请实施例提供一种音频处理方法和装置，方法包括：响应于针对第一控件的操作，终端设备获取N个第一目标数据；终端设备基于N个第一目标数据确定终端设备与耳机是否为同方向运动；当终端设备与耳机为同方向运动时，终端设备基于第二目标数据，对第一音频信号进行空间音频渲染处理，得到第二音频信号；其中，第二目标数据包括：基于终端设备获取的、终端设备的第三角速度数据和第三加速度数据，以及基于耳机获取的、耳机的第四角速度数据和第四加速度数据。这样即使终端设备处于使得头部转动角度被动发生偏移的场景中，终端设备也可以基于第二目标数据实现对于声像的精准估计，并提高用户的听觉体验。

Description

音频处理方法和装置

技术领域

本申请涉及终端技术领域，尤其涉及一种音频处理方法和装置。

背景技术

随着终端设备的普及和发展，人们对于终端设备的功能需求也越发多样化。例如，为了满足用户佩戴耳机时对音频的收听需求，终端设备可以在用户利用耳机收听音频的过程中，确定声像的位置，并基于声像的位置对初始音频信号进行处理，使得用户收听到的经过处理后的音频信号更具有空间感和方位感。其中，声像可以理解为声源在声场中的发声位置，或也可以理解为声音的方向。

通常情况下，终端设备可以利用耳机中检测头部转动角度，并将该头部转动角度发送至终端设备，使得终端设备可以根据该头部转动角度对声像位置进行调整，使得处理后的音频信号可以呈现出由于头部转动角度带来的声像变化。

然而，在部分场景中，基于上述音频处理方法估计出的声像位置的准确率较低，使得用户难以达到较好的音频收听体验。

发明内容

本申请实施例提供一种音频处理方法和装置，当终端设备与耳机为同方向运动时，终端设备可以基于第三角速度数据、第三加速度数据、第四角速度数据和第四加速度数据对第一音频信号进行处理，得到第二音频信号，这样即使终端设备处于使得头部转动角度被动发生偏移的场景中，终端设备也可以基于第二目标数据实现对于声像的精准估计，并提高用户的听觉体验。

第一方面，本申请实施例提供一种音频处理方法，应用于终端设备，终端设备与耳机建立通信连接，方法包括：终端设备显示第一界面；其中，第一界面中包括第一控件；响应于针对第一控件的操作，终端设备获取N个第一目标数据；其中，N个第一目标数据中的任一个包括：基于终端设备获取的、终端设备的第一角速度数据和第一加速度数据，以及基于耳机获取的、耳机的第二角速度数据和第二加速度数据；终端设备基于N个第一目标数据确定终端设备与耳机是否为同方向运动；当终端设备与耳机为同方向运动时，终端设备基于第二目标数据，对第一音频信号进行空间音频渲染处理，得到第二音频信号；其中，第二目标数据包括：基于终端设备获取的、终端设备的第三角速度数据和第三加速度数据，以及基于耳机获取的、耳机的第四角速度数据和第四加速度数据。这样，当终端设备与耳机为同方向运动时，终端设备可以基于第三角速度数据、第三加速度数据、第四角速度数据和第四加速度数据对第一音频信号进行处理，得到第二音频信号，这样即使终端设备处于使得头部转动角度被动发生偏移的场景中，终端设备也可以基于第二目标数据实现对于声像的精准估计，并提高用户的听觉体验。

在一种可能的实现方式中，方法还包括：终端设备基于第三角速度数据和第三加速度数据，确定终端设备对应的第一转动角度，以及基于第四角速度数据和第四加速度数据，确定耳机对应的第二转动角度；终端设备基于第二目标数据，对第一音频信号进行空间音频渲染处理，包括：终端设备基于目标角度，对第一音频信号进行空间音频渲染处理；其中，目标角度是基于第一转动角度以及第二转动角度计算得到的。这样，终端设备可以通过终端设备与耳机之间的角度偏差，对音频信号进行处理，提高声像的准确性，并提高用户的听觉体验。

在一种可能的实现方式中，终端设备基于第三角速度数据和第三加速度数据，确定终端设备对应的第一转动角度，以及基于第四角速度数据和第四加速度数据，确定耳机对应的第二转动角度，包括：终端设备基于第三角速度数据和第三加速度数据确定第一重力向量，以及基于第四角速度数据和第四加速度数据确定第二重力向量；终端设备获取第一重力向量投影到第一载体坐标系时的第一投影向量、以及第二重力向量投影到第二载体坐标系时的第二投影向量；其中，第一载体坐标系为终端设备对应的坐标系，第二载体坐标系为耳机对应的坐标系；终端设备基于第一投影向量以及第三角速度数据确定第一转动角度，以及基于第二投影向量以及第四角速度数据确定第二转动角度。这样，终端设备可以通过六轴融合方法确定各设备对应的重力向量，并通过任一向量投影到相应的载体坐标系时对应的投影向量，实现对于转动角度的准确估计。

在一种可能的实现方式中，方法还包括：终端设备基于第一投影向量以及第三角速度数据确定终端设备在水平方向上的第五角速度数据，以及基于第二投影向量以及第四角速度数据确定耳机在水平方向上的第六角速度数据；终端设备基于第一投影向量以及第三角速度数据确定第一转动角度，以及基于第二投影向量以及第四角速度数据确定第二转动角度，包括：终端设备基于第五角速度数据以及第一预设时长确定第一转动角度，以及基于第六角速度数据以及第一预设时长确定第二转动角度。这样，终端设备可以通过获取角速度数据在水平方向上的分量，确定终端设备与耳机之间水平方向的偏移。

在一种可能的实现方式中，方法还包括：终端设备获取第二预设时长内N个第七角速度数据的方差，和/或第二预设时长内N个第三投影向量的内积之和；其中，第二预设时长内包括N个时间点，N个第七角速度数据中的任一个为：终端设备基于N个时间点中的任一个时间点对应的任一个第三投影向量、以及任一个时间点对应的耳机的第八角速度数据得到的；任一个第三投影向量为：任一个时间点对应的耳机的重力向量投影到第二载体坐标系时得到的；当方差大于第一阈值和/或内积之和小于第二阈值时，终端设备确定目标角度为0度。这样，为了将用户头部处于几乎静止状态下的声像调整至终端设备的正前方，终端设备可以将头部稳定时对应的角度设置为0°，例如当用户佩戴耳机且长时间注视终端设备时，用户可以感受到声像处于终端设备的正前方，减少声像位于其他位置时带来的突兀，提高用户的听觉体验。

在一种可能的实现方式中，方法还包括：终端设备显示蓝牙功能对应的第二界面；第二界面中包括用于与耳机建立连接的第二控件；响应于针对第二控件的操作，终端设备显示第三界面；第三界面中包括用于对耳机进行播放设置的第三控件；终端设备显示第一界面，包括：响应于针对第三控件的操作，终端设备显示第一界面。这样，终端设备可以为用户提供空间音频渲染功能，使得用户可以基于收听音频的需求，确定是否开启空间音频渲染功能，并在用户开启空间音频渲染功能时，提高用户收听音频的使用体验。

在一种可能的实现方式中，终端设备基于N个第一目标数据确定终端设备与耳机是否为同方向运动，包括：终端设备将N个第一目标数据输入到预设模型中，输出目标识别结果；其中，目标识别结果包括：终端设备与耳机为同方向运动，或者终端设备与耳机不为同方向运动。这样，终端设备可以利用预设模型，对终端设备与耳机是否为同方向运动的情况进行精准识别。

第二方面，本申请实施例提供一种音频处理装置，显示单元，用于显示第一界面；其中，第一界面中包括第一控件；响应于针对第一控件的操作，处理单元，用于获取N个第一目标数据；其中，N个第一目标数据中的任一个包括：基于终端设备获取的、终端设备的第一角速度数据和第一加速度数据，以及基于耳机获取的、耳机的第二角速度数据和第二加速度数据；处理单元，还用于基于N个第一目标数据确定终端设备与耳机是否为同方向运动；当终端设备与耳机为同方向运动时，处理单元，还用于基于第二目标数据，对第一音频信号进行空间音频渲染处理，得到第二音频信号；其中，第二目标数据包括：基于终端设备获取的、终端设备的第三角速度数据和第三加速度数据，以及基于耳机获取的、耳机的第四角速度数据和第四加速度数据。

在一种可能的实现方式中，处理单元，还用于：基于第三角速度数据和第三加速度数据，确定终端设备对应的第一转动角度，以及基于第四角速度数据和第四加速度数据，确定耳机对应的第二转动角度；基于目标角度，对第一音频信号进行空间音频渲染处理；其中，目标角度是基于第一转动角度以及第二转动角度计算得到的。

在一种可能的实现方式中，处理单元，具体用于：基于第三角速度数据和第三加速度数据确定第一重力向量，以及基于第四角速度数据和第四加速度数据确定第二重力向量；获取第一重力向量投影到第一载体坐标系时的第一投影向量、以及第二重力向量投影到第二载体坐标系时的第二投影向量；其中，第一载体坐标系为终端设备对应的坐标系，第二载体坐标系为耳机对应的坐标系；基于第一投影向量以及第三角速度数据确定第一转动角度，以及基于第二投影向量以及第四角速度数据确定第二转动角度。

在一种可能的实现方式中，处理单元，还用于：基于第一投影向量以及第三角速度数据确定终端设备在水平方向上的第五角速度数据，以及基于第二投影向量以及第四角速度数据确定耳机在水平方向上的第六角速度数据；基于第五角速度数据以及第一预设时长确定第一转动角度，以及基于第六角速度数据以及第一预设时长确定第二转动角度。

在一种可能的实现方式中，处理单元，还用于：获取第二预设时长内N个第七角速度数据的方差，和/或第二预设时长内N个第三投影向量的内积之和；其中，第二预设时长内包括N个时间点，N个第七角速度数据中的任一个为：终端设备基于N个时间点中的任一个时间点对应的任一个第三投影向量、以及任一个时间点对应的耳机的第八角速度数据得到的；任一个第三投影向量为：任一个时间点对应的耳机的重力向量投影到第二载体坐标系时得到的；当方差大于第一阈值和/或内积之和小于第二阈值时，确定目标角度为0度。

在一种可能的实现方式中，显示单元，还用于显示蓝牙功能对应的第二界面；第二界面中包括用于与耳机建立连接的第二控件；响应于针对第二控件的操作，显示单元，还用于显示第三界面；第三界面中包括用于对耳机进行播放设置的第三控件；响应于针对第三控件的操作，显示单元，还用于显示第一界面。

在一种可能的实现方式中，处理单元，具体用于：将N个第一目标数据输入到预设模型中，输出目标识别结果；其中，目标识别结果包括：终端设备与耳机为同方向运动，或者终端设备与耳机不为同方向运动。

第三方面，本申请实施例提供一种终端设备，包括处理器和存储器，存储器用于存储代码指令；处理器用于运行代码指令，使得终端设备以执行如第一方面或第一方面的任一种实现方式中描述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质存储有指令，当指令被执行时，使得计算机执行如第一方面或第一方面的任一种实现方式中描述的方法。

第五方面，一种计算机程序产品，包括计算机程序，当计算机程序被运行时，使得计算机执行如第一方面或第一方面的任一种实现方式中描述的方法。

应当理解的是，本申请的第二方面至第五方面与本申请的第一方面的技术方案相对应，各方面及对应的可行实施方式所取得的有益效果相似，不再赘述。

附图说明

图1为本申请实施例提供的一种场景示意图；

图2为本申请实施例提供的一种声像位置的示意图；

图3为本申请实施例提供的一种终端设备的硬件结构示意图；

图4为本申请实施例提供的一种耳机的硬件结构示意图；

图5为本申请实施例提供的一种系统架构的软件结构示意图；

图6为本申请实施例提供的一种音频处理方法的流程示意图；

图7为本申请实施例提供的一种数据对齐的原理示意图；

图8为本申请实施例提供的一种基于预设模型识别终端设备与耳机之间的相关性的流程示意图；

图9为本申请实施例提供的一种偏转角度示意图；

图10为本申请实施例提供的一种开启空间音频渲染功能的界面示意图；

图11为本申请实施例提供的另一种开启空间音频渲染功能的界面示意图；

图12为本申请实施例提供的另一种音频处理方法的流程示意图；

图13为本申请实施例提供的再一种音频处理方法的流程示意图；

图14为本申请实施例提供的一种音频处理装置的结构示意图；

图15为本申请实施例提供的另一种终端设备的硬件结构示意图。

具体实施方式

为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如，第一值和第二值仅仅是为了区分不同的值，并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

需要说明的是，本申请中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b，或c中的至少一项(个)，可以表示：a，b，c，a和b，a和c，b和c，或a、b和c，其中a，b，c可以是单个，也可以是多个。

示例性的，图1为本申请实施例提供的一种场景示意图。在图1对应的实施例中，以终端设备为手机为例进行示例说明，该示例并不构成对本申请实施例的限定。

如图1所示，该场景中可以包括：用户102，该用户102手持终端设备101(该终端设备101可以为手机)、且佩戴耳机103。其中，该耳机103可以为如图1所示的真无线立体声(true wireless stereo，TWS)，或者该耳机103也可以为头戴式耳机、或者有线耳机等，本申请实施例中对该耳机103的类型不做限定。

示例性的，在用户102乘坐公交或地铁的场景中，用户102可以利用与终端设备101建立通信连接的耳机103收听音频。通常情况下，为了使得用户利用耳机收听到的音频具有较好的空间感，终端设备101可以利用耳机103检测用户佩戴耳机时的头部转动角度，并将该头部转动角度发送至终端设备101，使得终端设备101可以根据该头部转动角度对初始的声像位置进行调整，并在调整后的声像位置处对音频信号进行处理。

示例性的，图2为本申请实施例提供的一种声像位置的示意图。在图2对应的实施例，以坐标系为例描述声像位置，例如将0度(°)所在方向确定为用户102的前向，将90°所在方向确定为用户102的左侧方向，将180°所在方向确定为用户的后向，将-90°(或也可以为270°)所在方向确定为用户102的右侧方向。

如图2中的a所示，当用户朝向终端设备101时，可以理解为声像位于用户102的前向。如图2中的b所示，在终端设备的位置不变的情况下，当耳机检测到用户头部向左侧方向转动θ角度时，可以理解为声像可以位于用户102的右侧。这样，由于用户头部的转动使得声像偏转θ角度，因此终端设备可以基于图2中的b所示的θ角度对音频信号进行处理，使得用户102可以收听到来自右侧的声音。

然而，在图1对应的场景中，当由于公交转弯等使得用户头部相对于惯性坐标系发生转动时，终端设备也可以利用基于公交转弯时采集到的头部转动角度，对音频信号进行处理。在此场景中，虽然相对于惯性坐标系，用户头部转动角度发生变化，但用户头部与终端设备之间的相对位置可以未发生变化，若只根据头部转动角度对音频信号进行处理，则处理后的音频信号所指示的声像位置将与用户感官上理解的声像位置存在较大差异，使得用户难得到较好的音频收听体验。

有鉴于此，本申请实施例提供一种音频处理方法，终端设备显示第一界面；其中，第一界面中包括第一控件；响应于针对第一控件的操作，终端设备获取N个第一目标数据；其中，N个第一目标数据中的任一个包括：基于终端设备获取的、终端设备的第一角速度数据和第一加速度数据，以及基于耳机获取的、耳机的第二角速度数据和第二加速度数据；终端设备基于N个第一目标数据确定终端设备与耳机是否为同方向运动；当终端设备与耳机为同方向运动时，终端设备基于第二目标数据，对第一音频信号进行空间音频渲染处理，得到第二音频信号；其中，第二目标数据包括：基于终端设备获取的、终端设备的第三角速度数据和第三加速度数据，以及基于耳机获取的、耳机的第四角速度数据和第四加速度数据。这样，当终端设备与耳机为同方向运动时，终端设备可以基于第三角速度数据、第三加速度数据、第四角速度数据和第四加速度数据对第一音频信号进行处理，得到第二音频信号，这样即使终端设备处于使得头部转动角度被动发生偏移的场景中，终端设备也可以基于第二目标数据实现对于声像的精准估计，并提高用户的听觉体验。

其中，该第一音频信号可以为本申请实施例中描述的初始音频信号，第二音频信号可以为本申请实施例中描述的目标音频信号。

可以理解的是，本申请实施例不仅可以应用于如图1所示的公交场景，还可以应用于跑步、行走、骑行以及乘车等多种场景中，本申请实施例中对此不做限定。

可以理解的是，上述终端设备也可以称为终端，(terminal)、用户设备(userequipment，UE)、移动台(mobile station，MS)、移动终端(mobile terminal，MT)等。终端设备可以为手机(mobile phone)、智能电视、穿戴式设备、平板电脑(Pad)、带无线收发功能的电脑、虚拟现实(virtual reality，VR)终端设备、增强现实(augmented reality，AR)终端设备、工业控制(industrial control)中的无线终端、无人驾驶(self-driving)中的无线终端、远程手术(remote medical surgery)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端等。其中，该可穿戴设备可以包括：智能手表、智能手环、智能腰带等设备。本申请的实施例对终端设备以及可穿戴设备所采用的具体技术和具体设备形态不做限定。

因此，为了能够更好地理解本申请实施例，下面对本申请实施例的终端设备的结构进行介绍。示例性的，图3为本申请实施例提供的一种终端设备的结构示意图。

终端设备可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，指示器192，摄像头193，以及显示屏194等。

可以理解的是，本申请实施例示意的结构并不构成对终端设备的具体限定。在本申请另一些实施例中，终端设备可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。处理器110中还可以设置存储器，用于存储指令和数据。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为终端设备充电，也可以用于终端设备与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他终端设备，例如AR设备等。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。电源管理模块141用于连接充电管理模块140与处理器110。

终端设备的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。终端设备中的天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。

移动通信模块150可以提供应用在终端设备上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。

无线通信模块160可以提供应用在终端设备上的包括无线局域网(wirelesslocalarea networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequencymodulation，FM)等无线通信的解决方案。

终端设备通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。在一些实施例中，终端设备可以包括1个或N个显示屏194，N为大于1的正整数。

终端设备可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

摄像头193用于捕获静态图像或视频。在一些实施例中，终端设备可以包括1个或N个摄像头193，N为大于1的正整数。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展终端设备的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。

终端设备可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音频播放或录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号，终端设备中包括至少一个扬声器170A。终端设备可以通过扬声器170A收听音乐，或收听免提通话。受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当终端设备接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

本申请实施例中，终端设备可以设置多个播放器件，该播放器件可以包括：扬声器170A和/或受话器170B。在终端设备播放视频的场景中，至少一个扬声器170A和/或至少一个受话器170B同时播放音频信号。

耳机接口170D用于连接有线耳机。麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。本申请实施例中，终端设备可以基于麦克风170C接收用于唤醒终端设备的声音信号，并将声音信号转换为可以进行后续处理的电信号，如本申请实施例中描述的声纹数据，该终端设备可以拥有至少一个麦克风170C。

传感器模块180可以包括：陀螺仪传感器180A以及加速度传感器180B。其中，终端设备可以通过陀螺仪传感器180A确定终端设备围绕三个轴(即，x，y和z轴)的角速度数据。加速度传感器180B可检测终端设备在各个方向上(一般为三轴，即x，y和z轴)加速度数据的大小。当终端设备静止时可检测出重力的大小及方向。

可能的实现方式中，该传感器模块180中还可以包括下述一种或多种传感器，例如：压力传感器，气压传感器，磁传感器，距离传感器，接近光传感器，指纹传感器，温度传感器，触摸传感器，环境光传感器，或骨传导传感器等(图3中未示出)。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。终端设备可以接收按键输入，产生与终端设备的用户设置以及功能控制有关的键信号输入。指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

终端设备的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构等，在此不再赘述。

示例性的，图4为本申请实施例提供的一种耳机的硬件结构示意图。

如图4所示，耳机包括一个或者多个处理器310、一个或多个存储器320、通信接口330、音频采集电路和音频播放电路。其中音频采集电路进一步可包括至少一个麦克风340和模拟数字转换器(analog-to-digital converter，ADC)350。音频播放电路进一步可包括扬声器360和数字模拟转换器(digital-to-analog converter，DAC)。

其中，耳机还可以包括一个或多个传感器380，例如：惯性测量单元(inertialmeasurement unit，IMU)、接近传感器、运动传感器(motion sensor)等。上述这些硬件部件可在一个或多个通信总线上通信。

本申请实施例中，该IMU可以用于测量耳机的运动姿态，例如该IMU可以用于确定用户佩戴耳机时的角速度数据以及加速度数据。其中，该IMU中可以设置有陀螺仪传感器以及加速度传感器等。

处理器310是耳机的控制中心，处理器还可能被称为控制单元、控制器、微控制器或其他某个合适的术语。处理器310利用各种接口和线路连接耳机的各个部件，在可能实施例中，处理器310还可包括一个或多个处理核心。在可能的实施例中，处理器310中可集成有主控制单元和信号处理模块。主控制单元(MCU)用于接收传感器380采集的数据或来自信号处理模块的监测信号或来自终端(例如手机APP)的控制信号，通过综合判断、决策，最后对耳机进行控制。

存储器320可以与处理器310耦合，或者与处理器310通过总线连接，用于存储各种软件程序和/或多组指令以及数据。存储器320还可以存储通信程序，该通信程序可用于与终端进行通信。在一种示例中，存储器320还可以存储数据/程序指令，处理器310可用于调用和执行存储器320中的数据/程序指令。示例性的，存储器320中可以存储多组降噪参数。可选的，该存储器320可以为MCU外部的存储器，也可以为MCU自带的存储单元。

通信接口330用于与终端进行通信，该通信方式可以是有线方式，也可以是无线方式。当通信方式是有线通信时，通信接口330可通过线缆接入到终端。当通信方式是无线通信时，通信接口330用于接收和发送射频信号，其所支持的无线通信方式例如可以是蓝牙(Bluetooth)通信、无线保真(wireless-fidelity，Wifi)通信、红外通信、或蜂窝2/3/4/5代(2/3/4/5generation，2G/3G/4G/5G)通信等通信方式中的至少一种。

麦克风340可用于采集声音信号(或称音频信号，该音频信号是模拟信号)，模拟数字转换器350用于将麦克风340采集到的模拟信号转换成为数字信号，并将该数字信号送到处理器310进行处理，具体实施例中，可送到信号处理模块进行处理。信号处理模块可将处理后的信号(例如混音音频信号)传输至数字模拟转换器370，数字模拟转换器370可将接收到的信号转换为模拟信号，进而传输到扬声器360，扬声器用于根据该模拟信号进行播放，从而使用户能够听到声音。

本申请实施例中，通信接口330可以用于将IMU检测到的加速度数据以及角速度数据发送至终端设备，使得终端设备可以利用该加速度数据以及角速度数据确定头部转动角度。并且，该通信接口330还可以可用接收终端设备发送的目标音频信号，该目标音频信号可以理解为经过空间音频渲染处理后的音频信号。

可以理解的是，上述耳机也可能被称为耳塞、耳麦、随身听、音讯播放器、媒体播放器、头戴式受话器、听筒设备或其他某个合适的术语，本申请的实施例对此不做限定。

本申请实施例以分层架构的安卓(Android)系统为例，示例性说明终端设备的软件结构。示例性的，图5为本申请实施例提供的一种系统架构的软件结构示意图。

如图5所示，该系统架构中可以包括终端设备、以及耳机。其中，该终端设备中可以显示分层架构，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统从上至下分别为应用程序层、应用程序框架(framework)层，以及硬件抽象层(hardware abstraction layer，HAL)等。可以理解的是，该分层架构可以根据实际场景包括其他层，本申请实施例中对此不再赘述。

其中，应用程序层可以包括一系列应用程序。例如该应用程序层中可以包括：音乐应用、以及耳机设置应用等。该音乐应用可以用于控制音频信号的播放以及暂停等；该耳机设置应用可以用于实现利用耳机播放音频时对于音频播放效果的设置。其中，该音乐应用以及耳机设置应用均可以为终端设备中的系统应用，或也可以为第三方提供的应用，本申请实施例中对此不做限定。

可以理解的是，应用程序层中还可以包括：相机，日历，电话，地图，电话，音乐，邮箱，视频，社交等应用程序(图5中未示出)，本申请实施例中对此不做限定。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

应用程序框架层中可以包括：音频播放模块、以及头部跟随算法模块等。其中，音频播放模块用于根据音乐应用发送的指示信息，指示音频播放HAL调用硬件接口进行音频播放；音频播放模块还可以用于对接收到的音频信号进行处理和转发。头部跟随算法模块可以用于根据基于耳机检测到的角速度数据、以及基于耳机检测到的加速度数据进行头部转动角度的计算，基于终端设备检测到的角速度数据、以及基于终端设备检测到的加速度数据进行设备转动角度的计算，并且基于头部转动角度以及设备转动角度确定用户头部与终端设备之间的偏转角度；进一步的，头部跟随算法模块可以将检测到的偏转角度发送至空间音频算法模块。

可能的实现方式中，该应用程序框架层中还可以包括：窗口管理器，内容提供器，资源管理器，视图系统，以及通知管理器等(图5中未示出)。

例如，窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，触摸屏幕，拖拽屏幕，截取屏幕等。内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，终端设备振动，指示灯闪烁等。

HAL层的目的在于将硬件抽象化，可以为上层的应用提供一个统一的查询硬件设备的接口，或也可以为上层应用提供数据存储服务，或者为上层应用提供数据处理服务。本申请实施例中HAL层中可以包括：音频播放HAL以及空间音频算法模块。

其中，音频播放HAL用于实现对于音频信号转发，例如音频播放HAL用于将从音频播放模块发送的音频信号通过硬件进行播放。空间音频算法模块用于实现根据偏转角度对初始音频信号进行渲染，使得处理后的目标音频信号更具空间感。

可能的实现方式中，该HAL层中也可以包括其他模块，本申请实施例对此不做限定。

可以理解的是，图5中描述的终端设备的软件结构以及耳机的软件结构仅作为一种示例，并不能构成对本申请实施例的限定。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以独立实现，也可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

示例性的，图6为本申请实施例提供的一种音频处理方法的流程示意图。在图6对应的实施例中，该音频处理方法可以涉及终端设备以及耳机。

如图6所示，该音频处理方法可以包括如下步骤：

S601、终端设备与耳机建立通信连接。

示例性的，终端设备与耳机可以通过有线方式建立通信连接；或者，终端设备与耳机也可以通过无线方式建立通信连接。例如，终端设备与耳机可以通过蓝牙、WIFI、或连接到同一云端账号等无线方式建立通信连接，本申请实施例中对终端设备与耳机建立通信连接的方式不做限定。

S602、当终端设备接收到用户开启空间音频渲染功能的操作时，终端设备获取目标数据。

其中，空间音频渲染功能可以理解为模拟在不同方向上收听音频的效果，对初音频信号进行处理，使得处理后的音频信号具有空间感以及立体感。

目标数据可以包括：设备角速度数据、设备加速度数据、耳机角速度数据以及耳机加速度数据。其中，该设备角速度数据可以为基于终端设备的陀螺仪传感器检测得到的，该耳机角速度数据可以为基于耳机的陀螺仪传感器检测得到的，该设备加速度数据可以为基于终端设备的加速度传感器检测得到的，该耳机加速度数据可以为基于耳机的加速度传感器检测得到的。

终端设备获取设备角速度数据以及设备加速度数据的方式可以为：当终端设备接收到用户开启空间音频渲染功能的操作时，终端设备可以指示相应的传感器每20毫秒等时间间隔上报一次设备角速度数据以及一次设备加速度数据。

终端设备获取耳机角速度数据以及耳机加速度数据的方式可以为：当终端设备接收到用户在开启空间音频渲染功能的操作时，终端设备向耳机发送指示信息，使得耳机在接收到该指示信息时指示相应的传感器每20毫秒等时间间隔采集一次耳机角速度数据以及一次耳机加速度数据，并将采集到的耳机角速度数据以及耳机加速度数据实时发送至终端设备。或者，耳机也可以在S601所示的步骤中与终端设备建立通信连接的情况下，将每20毫秒等时间间隔采集到的耳机角速度数据以及耳机加速度数据实时发送至终端设备，本申请实施例中对终端设备获取耳机角速度数据的方式不做限定。

可能的实现方式中，由于耳机侧传输至终端设备的耳机角速度数据以及耳机加速度数据会在传输过程中产生不可避免的延迟。因此为了保障数据的一致性，终端设备可以将耳机侧采集的数据以及终端设备侧采集到的数据存入终端设备的数据缓存区中；并根据耳机侧采集的数据对应的时间戳以及终端设备侧采集的数据对应的时间戳，进行数据对齐。例如，将两个设备采集到的数据中时间差最小的数据合成为一组目标数据。

可能的实现方式中，终端设备可以基于对齐的目标数据进行S603所示的步骤中提取特征数据，并且终端设备可以将对齐的目标数据在数据缓存区中移除，以免影响到其他目标数据的对齐。

示例性的，图7为本申请实施例提供的一种数据对齐的原理示意图。

如图7所示，耳机侧每隔20ms采集的数据可以包括：在T11时间点采集到的加速度数据(或简称ACC)11以及角速度数据(或简称GYRO)11、在T12时间点采集到的ACC12以及GYRO12、在T13时间点采集到的ACC13以及GYRO13、在T14时间点采集到的ACC14以及GYRO14、和在T1n时间点采集到的ACC1n以及GYRO1n等n个时间点采集到的数据。终端设备侧每隔20ms采集的数据可以包括：在T21时间点采集到的ACC21以及GYRO21、在T22时间点采集到的ACC22以及GYRO22、在T23时间点采集到的ACC23以及GYRO23、在T24时间点采集到的ACC24以及GYRO24、和在T2n时间点采集到的ACC2n以及GYRO2n等n个时间点采集到的数据。

具体的，如图7所示，当终端设备确定基于耳机侧采集的数据中的T13时间点与基于终端设备侧采集的数据中的T22时间点之间的时间差小于时间差阈值时，则终端设备可以将该T13时间点对应的ACC13以及GYRO13、与T22时间点对应的ACC22以及GYRO22确定为一组目标数据，进而基于该ACC13、GYRO13、ACC22以及GYRO22执行S603所示的步骤；并在缓存区中删除该T13时间点对应的ACC13以及GYRO13、和T22时间点对应的ACC22以及GYRO22。

S603、终端设备基于目标数据提取特征数据。

本申请实施例中，该特征数据中可以包括：第一特征数据、和/或基于该第一特征数据确定的第二特征数据。

示例性的，终端设备可以获取预设时长，如200ms内的10组目标数据，并基于该10组目标数据中的任一组目标数据，确定该任一组目标数据对应的任一组第一特征数据，进而得到10组第一特征数据；进一步的，终端设备也可以基于该10组第一特征数据，确定第二特征数据。

该10组第一特征数据中的任一组第一特征数据可以包括下述一种或多种，例如：设备角速度的模值、耳机角速度的模值、设备加速度的模值、耳机加速度的模值、设备角速度垂直分量、设备角速度水平分量、耳机角速度垂直分量、或耳机角速度水平分量。

其中，该设备角速度的模值可以为基于设备角速度数据计算得到的；耳机角速度的模值可以为基于耳机角速度数据计算得到的；设备加速度的模值可以为基于设备加速度数据计算得到的；耳机加速度的模值可以为基于耳机加速度数据计算得到的；设备角速度水平分量可以为，设备角速度的模值与设备角速度垂直分量的差值；耳机角速度水平分量可以为，耳机角速度的模值与耳机角速度垂直分量的差值。

该第二特征数据可以包括下述一种或多种，例如：预设时长内终端设备与耳机绕垂直轴转动的相对角速度的方差、预设时长内终端设备与耳机绕垂直轴转动相对角速度的均值、预设时长内设备角速度的模值与耳机角速度的模值之差的均值、预设时长内设备角速度的模值的均值、耳机角速度的模值的均值、预设时长内设备角速度与耳机角速度之差的方差、预设时长内设备角速度与耳机角速度之差的均值、或预设时长内设备角速度模值的均值与耳机角速度模值的均值之间的比值。

可以理解的是，上述第一特征数据以及第二特征数据中也可以包括其他数据，本申请实施例中对此不做限定。

S604、终端设备将特征数据输入至预设模型中，输出终端设备与耳机之间的相关性识别结果。

其中，预设模型用于识别终端设备与耳机之间的相关性，该预设模块可以为基于利用终端设备检测的角速度样本数据、利用终端设备检测的加速度样本数据、利用耳机检测的角速度样本数据、利用耳机检测的加速度样本数据的训练得到的。该相关性识别结果可以包括：终端设备与耳机相关(或简称相关)或终端设备与耳机不相关(或简称不相关)。示例性的，表1本申请实施例提供一种终端设备与耳机的相关性示意表。

表1终端设备与耳机的相关性示意表

可以理解的是，基于表1对应的实施例，终端设备可以将终端设备与耳机同方向转动的场景，确定为终端设备与耳机满足相关性的场景；并且，终端设备可以将终端设备与耳机不满足同向转动的场景确定为终端设备与耳机不相关的场景。

终端设备可以基于图8所示的预设模块识别终端设备与耳机在表1中指示的相关性。

示例性的，图8为本申请实施例提供的一种基于预设模型识别终端设备与耳机之间的相关性的流程示意图。

如图8所示，终端设备可以将第一特征数据和/或第二特征数据输入到预设模型中，得到相关性识别结果。其中，该预设模块中可以包括至少两个决策树，例如该预设模块中可以包括：决策树1、决策树2、决策树3、以及决策树n等n个决策树，可以理解为终端设备可以将该第一特征数据和/或第二特征数据分别输入到上述n个决策树中，得到n个决策树分别对应的相关性概率，如P1、P2、P3、以及Pn。进一步的，终端设备确定P1、P2、P3、以及Pn中的至少2个相关性概率的均值，如P均值；当确定P均值大于均值阈值时，确定终端设备与耳机相关，或者当确定P均值小于或等于均值阈值时，确定终端设备与耳机相关不相关。

可以理解的是，该预设模型中的n个决策树的类型可以均为二分类模型，或者该n个决策树的类型也可以不同，本申请实施例中对此不做限定。

S605、终端设备获取相关性识别结果对应的角度。

本申请实施例中，在该相关性识别结果为相关时，该相关性识别结果对应的角度可以为终端设备与耳机之间的偏转角度；或者，在该相关性识别结果为不相关时，该相关性识别结果对应的角度可以为头部转动角度。

其中，该设备转动角度可以理解为：相对于初始位置，终端设备在水平方向上的转动角度；该头部转动角度可以理解为：相对于初始位置，耳机围绕终端设备运动时，在水平方向上的转动角度；该偏转角度可以为：终端设备与耳机绕垂直轴转动时终端设备与耳机之间的角度。

示例性的，在终端设备基于S602-S604所示的步骤中一短时间内获取的目标数据，得到相关性识别结果的情况下；终端设备可以基于重新获取的一组目标数据，确定相关性识别结果对应的角度。其中，在该相关性识别结果为相关时，该重新获取的目标数据可以包括：设备角速度数据、设备加速度数据、耳机角速度数据以及耳机加速度数据；或者，在该相关性识别结果为不相关时，该重新获取的目标数据可以包括：耳机角速度数据以及耳机加速度数据。

可以理解的是，终端设备可以将初始的偏转角度设置为0°，并在初始偏转角度为0°的情况下，基于设备转动角度以及头部转动角度更新该偏转角度的数值。

示例性的，终端设备可以对设备角速度数据以及设备加速度数据进行融合计算，得到第一重力向量(0,0,g1)，并且对耳机角速度数据以及耳机加速度数据进行融合计算，得到第二重力向量(0,0,g2)。其中，该第一重力向量以及第二重力向量均可以为在惯性坐标系中的重力向量；该融合计算的方法可以为六轴融合方法，例如卡尔曼滤波或互补滤波算法等方法，本申请实施例中对此不做限定。

终端设备确定该第一重力向量在终端设备载体坐标系上的投影[gx1,gy1,gz1]，以及该第二重力向量在耳机载体坐标系上的投影[gx2,gy2,gz2]。其中，该载体坐标系可以理解为以载体的质心为原点O的坐标系，X沿纵轴方向，即载体前进方向，Y沿载体竖轴方向，即指向天的方向，Z沿载体侧轴方向，指向右翼。

当该设备角速度数据为[wx1,wy1,wz1]，耳机角速度数据为[wx2,wy2,wz2]时，则在一段时间，如在Δt时间段内的设备转动角度θ1可以为：

类似的，在Δt时间段内的头部转动角度θ2可以为：

进一步的，终端设备可以确定偏转角度θ可以为：θ2-θ1，或也可以理解为声像的偏移角度可以为θ。

其中，该公式(1)中的可以理解为S603所示的步骤中描述的设备角速度垂直分量。

该公式(2)中的可以理解为S603所示的步骤中描述的耳机角速度垂直分量。

示例性的，图9为本申请实施例提供的一种偏转角度示意图。如图9所示，在头部转动角度为θ2且设备转动角度为θ1时，偏转角度可以为θ。其中，终端设备载体坐标系可以为由X1-Y1-Z1构成的坐标系，耳机载体坐标系可以为由X2-Y2-Z2构成的坐标系。

可以理解的是，终端设备可以在每20ms等时间间隔确定一个偏转角度，当终端设备第一次确定的偏移角度为θ，且第二次确定的偏移角度为α时，则第二次最终输出的偏移角度可以为前一次确定的偏移角度与本次输出的偏移角度的累加值，即θ+α。

S606、终端设备基于相关性识别结果对应的角度对初始音频信号进行处理，得到目标音频信号。

其中，该初始音频信号可以为未经过空间音频渲染处理的音频信号；目标音频信号可以为基于相关性识别结果对应的角度进行空间音频渲染处理的音频信号，该目标音频信号可以呈现出基于用户头部转动和/或设备转动带来的空间感。

示例性的，当终端设备接收到用户播放音频的操作时，终端设备可以获取初始音频信号，并基于相关性识别结果对应的角度对初始音频信号进行处理；或者，在终端设备一直播放音频的场景中，终端设备也可以在计算得到相关性识别结果对应的角度时，对当前将要播放的初始音频信号进行处理。

具体的，终端设备可以基于头相关传输函数(head related transfer function，HRTF)，确定该相关性识别结果对应的角度所对应的一组HRTF数值，并利用该HRTF数值中的左声道HRTF数值对初始音频信号中的左声道音频信号进行处理，利用该HRTF数值中的右声道HRTF数值对初始音频信号中的右声道音频信号进行处理，得到目标音频信号。其中，终端设备也可以基于除HRTF以外的其他方法进行音频信号的渲染，本申请实施例中对此不做限定。

可以理解的是，终端设备可以基于相关性识别结果对应的角度对初始音频信号进行渲染，使得目标音频信号可以根据用户头部转动以及终端设备转动呈现出不同的声像，提高用户收听音频信号的体验感。

S607、终端设备向耳机发送目标音频信号。

S608、耳机通过扬声器播放目标音频信号。

基于此，当终端设备与耳机为同方向运动时，终端设备可以基于设备角速度数据、设备加速度数据、耳机角速度数据和耳机加速度数据对初始音频信号进行处理，得到目标音频信号，这样即使终端设备处于使得头部转动角度被动发生偏移的场景中，终端设备也可以基于目标数据实现对于声像的精准估计，并提高用户的听觉体验。

可以理解的是，图6对应的实施例中的S603-S606所示的步骤可以在终端设备中执行、或者在耳机的处理器中执行、或者也可以在云服务器中执行，本申请实施例中对此不做限定。

在图6对应的实施例的基础上，可能的实现方式中，当终端设备确定头部转动角度稳定时，可以将该θ的取值设置为0°。示例性的，终端设备可以基于第二角速度数据、和/或第二重力向量在耳机载体坐标系上的投影向量的内积之和，确定头部转动角度是否稳定。

一种实现中，终端设备可以计算一段时间内如计算200ms内，10个第二角速度数据的方差，当该方差大于或等于预设的方差阈值时，终端设备可以确定头部转动角度不稳定，或者当该方差小于预设的方差阈值时，终端设备可以确定头部转动角度稳定，并将θ的取值设置为0°。

另一种实现中，终端设备可以计算一段时间内如计算200ms内，10个第二重力向量分别在耳机载体坐标系上的投影向量，进而比较该投影向量的内积之和与预设的内积阈值之间的关系。其中，该投影向量的内积之和B可以为：g10*g1+g9*2+g8*g3+g7*g4+g6*g5；在该B大于预设的内积阈值的情况下，终端设备可以确定头部转动角度稳定，并将θ的取值设置为0，在该B小于或等于预设的内积阈值的情况下，终端设备可以确定头部转动角度不稳定。其中，该10个第二重力向量分别在耳机载体坐标系上的投影向量可以为：g1，g2，g3，g4，g5，g6，g7，g8，g9，g10；且该10个第二重力向量中的任一第二重力向量可以为基于六轴融合方法计算得到的，在此不再赘述。

可以理解的是，该投影向量的内积之和B也可以为：g10*g1+g9*2+g8*g3+g7*g4，或可以理解为终端设备也可以获取该10个投影向量中的至少6、8或10个投影向量等确定投影向量的内积，进而进行头部转动角度的稳定性判别，本申请实施例中对此不做限定。

再一种实现中，终端设备也可以结合方差以及投影向量的内积共同进行头部转动角度的稳定性判别，即在满足方差小于预设的方差阈值以及B大于预设的内积阈值的情况下，确定头部转动角度稳定；并且，在不满足方差小于预设的方差阈值或B大于预设的内积阈值中的至少一个条件的情况下，确定头部转动角度不稳定。

可以理解的是，终端设备也可以在400ms或其他时间段内，基于第二角速度数据和/或投影向量的内积之和的变化情况，确定头部转动角度的稳定性，本申请实施例中对头部转动角度的稳定性判别的方法不做具体限定。

可以理解的是，为了将用户头部处于几乎静止状态下的声像调整至终端设备的正前方，终端设备可以将头部发生微小变化时对应的偏转角度(或头部转动角度)设置为0°，例如当用户佩戴耳机且长时间注视终端设备时，用户可以感受到声像处于终端设备的正前方，减少声像位于其他位置时带来的突兀，提高用户的听觉体验。

在图6对应的实施例的基础上，S602中，该空间音频渲染功能可以设置在耳机设置界面中(如图10对应的实施例)，或者该空间音频渲染功能也可以设置在蓝牙设置界面中(如图11对应的实施例)。

一种实现中，终端设备可以在耳机设置界面中开启空间音频渲染功能。

示例性的，图10为本申请实施例提供的一种开启空间音频渲染功能的界面示意图。在图10对应的实施例中，以终端设备为手机为例进行实例说明，该示例并不构成对本申请实施例的限定。

当终端设备接收到用户针对用于对耳机进行设置的功能的触发操作时，终端设备可以显示如图10中的a所示的界面，该界面可以为耳机设置界面。如图10中的a所示的界面，该界面中可以包括：用于开启空间音频渲染的控件1001、用于关闭空间音频渲染的控件1002。其中，该用于对耳机进行设置的功能可以为耳机设置应用中的功能。该图10中的a所示的界面中还可以包括：用于退出耳机设置的控件、用于开启耳机的更多功能的控件、用于显示耳机的连接状态以及左、右耳耳机、耳机盒电量的标识、用于降噪的控件、用于关闭降噪的控件、用于透传的控件、以及用于设置双设备连接的控件等，本申请实施例中对该图10中的a所示的界面中显示的内容不做具体限定。

在如图10中的a所示的界面中，在该用于开启空间音频渲染的控件1001为关闭状态的情况下，当终端设备接收到用户针对用于开启空间音频渲染的控件1001的触发操作时，终端设备可以执行S602所示的步骤。

可能的实现方式中，该图10中的a所示的界面中还可以包括：用于指示在空间音频渲染过程中使得音频可以跟随头动的控件(或称为跟随头动控件)，以及用于指示在空间音频渲染过程中使得音频可以不跟随头动的控件(或称为不跟随头动控件)，图10中的a所示的界面中未示出。这样，当终端设备在如图10中的a所示的界面中针对用于开启空间音频渲染的控件1001的触发操作的情况下，终端设备也可以基于用户针对跟随头动控件的触发操作，执行S602所示的步骤。

另一种实现中，终端设备可以在蓝牙设置界面中开启空间音频渲染功能。

示例性的，图11为本申请实施例提供的另一种开启空间音频渲染功能的界面示意图。

当终端设备接收到用户打开蓝牙功能的操作时，终端设备可以显示如图11中的a所示的界面，该界面中可以包括：用于开启或关闭蓝牙功能的控件、用于设置设备名称的控件、用于查看接收的文件的控件、以及终端设备基于蓝牙检测到的可用设备，如耳机1101、耳机1102以及手机1103等。其中，该耳机1101、耳机1102以及手机1103均可以显示为设备型号。

在如图11中的a所示的界面中，当终端设备接收到用户针对耳机1101的触发操作时，终端设备可以与耳机1101建立通信连接，并在连接成功后显示如图11中的b所示的界面。如图11中的b所示的界面，该界面中可以包括：已配对的设备，如耳机1101，该耳机1101的周围可以显示用于在连接过程中对耳机1101进行设置的控件1104(或称为设置控件1104)、以及用于指示已连接用于通话和媒体的音频的指示信息，该界面中显示的其他内容可以与图11中的a所示的界面类似，在此不再赘述。

在如图11中的b所示的界面中，当终端设备接收到用户针对设置控件1104的触发操作时，终端设备可以显示如图11中的c所示的界面。如图11中的c所示的界面中，该界面中可以包括：用于重命名耳机1101的控件、用于设置通话音频连接的控件、用于设置媒体音频连接的控件、用于开启空间音频渲染的控件1105、用于设置共享联系人的控件、用于设置蓝牙设备音频与手机同步的控件、以及用于取消配对的控件等。其中，该用于开启空间音频渲染的控件1105的周围可以显示用于指示空间音频渲染功能的指示信息，该指示信息可以显示为：在开启空间音频渲染功能后，手机将根据耳机与手机之间的偏转角度调节音频，使得音频更具空间感。

在如图11中的c所示的界面中，在该用于开启空间音频渲染的控件1105为关闭状态的情况下，当终端设备接收到用户针对用于开启空间音频渲染的控件1105的触发操作时，终端设备可以执行S602所示的步骤。

可能的实现方式中，在如图11中的a所示的界面中，当终端设备接收到用户针对耳机1101的触发操作时，终端设备可以在于耳机1101建立通信连接后显示提示弹窗，该提示弹窗中可以包括：用于指示是否开启控件音频渲染功能的指示信息、确定控件以及取消控件，图11中的a所示的界面中未示出。当终端设备接收到用户针对提示弹窗中的确认控件的触发操作时，终端设备可以执行S602所示的步骤。

基于此，终端设备可以为用户提供空间音频渲染功能，使得用户可以基于收听音频的需求，确定是否开启空间音频渲染功能，并在用户开启空间音频渲染功能时，提高用户收听音频的使用体验。

基于图5-图11对应的实施例中描述的内容，为了更好的理解本申请各实施例，下面详细介绍本申请实施例提供的音频处理方法的一种具体实现过程。

示例性的，图12为本申请实施例提供的另一种音频处理方法的流程示意图。如图12所示，该音频处理方法可以包括如下步骤：

S1201、终端设备开启空间音频渲染功能。

示例性的，终端设备可以基于图10对应的实施例或图11对应的实施例开启空间音频渲染功能，且该空间音频渲染功能的定义可以参见S602所示的步骤。

S1202、终端设备获取设备加速度数据、设备角速度数据、耳机加速度数据、以及耳机角速度数据。

S1203、终端设备判断终端设备与耳机之间的相关性。

其中，当终端设备确定终端设备与耳机之间满足相关性时，终端设备可以执行S1205-S1206所示的步骤；或者，当终端设备确定终端设备与耳机之间不满足相关性时，终端设备可以执行S1204所示的步骤。

示例性的，终端设备可以基于设备加速度数据以及设备角速度数据，或者基于设备加速度数据、设备角速度数据、耳机加速度数据、以及耳机角速度数据共同确定终端设备是否满足相关性，本申请实施例中对此不做限定。其中，该相关性的定义可以参见S504所示的步骤。

S1204、终端设备计算头部转动角度。

其中，该头部转动角度的含义以及计算方法可以参见S505所示的步骤中的描述，在此不再赘述。

S1205、终端设备计算头部转动角度以及设备转动角度。

其中，该设备转动角度的含义以及计算方法可以参见S505所示的步骤中的描述，在此不再赘述。

S1206、终端设备基于头部转动角度以及设备转动角度计算偏移角度。

S1207、终端设备更新偏移角度或头部转动角度。

可以理解的是，在基于S1205-S1206得到偏移角度的场景中，终端设备可以基于上次计算得到的偏移角度以及本次计算得到的偏移角度的叠加，更新偏移角度；或者，在基于S1204得到头部转动角度的场景中，终端设备可以基于上次计算得到的头部转动角度以及本次计算得到的头部转动角度的叠加，更新头部转动角度。

可能的实现方式中，终端设备也可以S1202之后，基于耳机的角速度数据以及耳机的加速度数据进行头部稳定性检测。

S1208、终端设备进行头部稳定性检测。

S1209、终端设备判断头部是否稳定。

其中，当终端设备检测到头部稳定时，终端设备可以执行S1210所示的步骤；或者，当终端设备检测到头部不稳定时，可以继续执行S1208所示的步骤进行头部稳定性检测。

S1210、终端设备将第一目标角度设置为0°。

其中，该第一目标角度可以理解为终端设备在不同场景下最终输出的角度。

S1212、终端设备确定第二目标角度。

可以理解的是，在未检测到头部稳定的场景中，该第二目标角度可以理解为更新的偏移角度或者更新的头部转动角度；或者，在检测到头部稳定的场景中，该第二目标角度可以理解为第一目标角度。进一步的，终端设备可以基于该第二目标角度对初始音频数据进行处理，得到目标音频信号。

基于此，当终端设备与耳机为同方向运动时，终端设备可以基于设备加速度数据、设备角速度数据、耳机加速度数据以及耳机角速度数据对初始音频信号进行处理，得到目标音频信号，这样即使终端设备处于使得头部转动角度被动发生偏移的场景中，终端设备也可以基于目标数据实现对于声像的精准估计，并提高用户的听觉体验。

可以理解的是，图13为本申请实施例提供的再一种音频处理方法的流程示意图。如图13所示，该音频处理方法可以包括如下步骤：

S1301、终端设备显示第一界面。

其中，第一界面中包括第一控件。当第一界面为图10对应的界面时，第一控件可以为用于开启空间音频渲染的控件1001；当第一界面为图11中的c所示的界面时，该第一控件可以为用于开启空间音频渲染的控件1105。

S1302、响应于针对第一控件的操作，终端设备获取N个第一目标数据。

其中，N个第一目标数据中的任一个包括：基于终端设备获取的、终端设备的第一角速度数据和第一加速度数据，以及基于耳机获取的、耳机的第二角速度数据和第二加速度数据。

可以理解的是，N个第一目标数据可以为S603所示的步骤中描述的目标数据。第一角速度数据可以为S603所示的步骤中描述的设备角速度数据；第一加速度数据为S603所示的步骤中描述的设备加速度数据；第二角速度数据可以为S603所示的步骤中描述的耳机角速度数据；第二加速度数据为S603所示的步骤中描述的耳机加速度数据。

S1303、终端设备基于N个第一目标数据确定终端设备与耳机是否为同方向运动。

其中，终端设备确定终端设备与耳机是否为同方向运动的方法可以参见S602-S604所示的步骤中的描述，在此不再赘述。

S1304、当终端设备与耳机为同方向运动时，终端设备基于第二目标数据，对第一音频信号进行空间音频渲染处理，得到第二音频信号。

其中，第二目标数据包括：基于终端设备获取的、终端设备的第三角速度数据和第三加速度数据，以及基于耳机获取的、耳机的第四角速度数据和第四加速度数据。例如，终端设备与耳机为同方向运动可以理解为S604所示的步骤中描述的终端设备与耳机相关。第二目标数据可以为S605所示的步骤中描述的重新获取的目标数据。

基于此，当终端设备与耳机为同方向运动时，终端设备可以基于第三角速度数据、第三加速度数据、第四角速度数据和第四加速度数据对第一音频信号进行处理，得到第二音频信号，这样即使终端设备处于使得头部转动角度被动发生偏移的场景中，终端设备也可以基于第二目标数据实现对于声像的精准估计，并提高用户的听觉体验。

可以理解的是，本申请实施例提供的界面仅作为一种示例，并不能构成对本申请实施例的限定。

上面结合图6-图13，对本申请实施例提供的方法进行了说明，下面对本申请实施例提供的执行上述方法的装置进行描述。如图14所示，图14为本申请实施例提供的一种音频处理装置的结构示意图，该音频处理装置可以是本申请实施例中的终端设备，也可以是终端设备内的芯片或芯片系统。

如图14所示，音频处理装置1400可以用于通信设备、电路、硬件组件或者芯片中，该音频处理装置包括：显示单元1401、以及处理单元1402。其中，显示单元1401用于支持音频处理装置1400执行的显示的步骤；处理单元1402用于支持音频处理装置1400执行信息处理的步骤。

具体的，本申请实施例提供一种音频处理装置1400：显示单元1401，用于显示第一界面；其中，第一界面中包括第一控件；响应于针对第一控件的操作，处理单元1402，用于获取N个第一目标数据；其中，N个第一目标数据中的任一个包括：基于终端设备获取的、终端设备的第一角速度数据和第一加速度数据，以及基于耳机获取的、耳机的第二角速度数据和第二加速度数据；处理单元1402，还用于基于N个第一目标数据确定终端设备与耳机是否为同方向运动；当终端设备与耳机为同方向运动时，处理单元1402，还用于基于第二目标数据，对第一音频信号进行空间音频渲染处理，得到第二音频信号；其中，第二目标数据包括：基于终端设备获取的、终端设备的第三角速度数据和第三加速度数据，以及基于耳机获取的、耳机的第四角速度数据和第四加速度数据。

可能的实现方式中，该音频处理装置1400中也可以包括通信单元1403。具体的，通信单元用于支持音频处理装置1400执行数据的发送以及数据的接收的步骤。其中，该通信单元1403可以是输入或者输出接口、管脚或者电路等。

可能的实施例中，音频处理装置还可以包括：存储单元1404。处理单元1402、存储单元1404通过线路相连。存储单元1404可以包括一个或者多个存储器，存储器可以是一个或者多个设备、电路中用于存储程序或者数据的器件。存储单元1404可以独立存在，通过通信线路与音频处理装置具有的处理单元1402相连。存储单元1404也可以和处理单元1402集成在一起。

存储单元1404可以存储终端设备中的方法的计算机执行指令，以使处理单元1402执行上述实施例中的方法。存储单元1404可以是寄存器、缓存或者RAM等，存储单元1404可以和处理单元1402集成在一起。存储单元1404可以是只读存储器(read-only memory，ROM)或者可存储静态信息和指令的其他类型的静态存储设备，存储单元1404可以与处理单元1402相独立。

图15为本申请实施例提供的另一种终端设备的硬件结构示意图，如图15所示，该终端设备包括处理器1501，通信线路1504以及至少一个通信接口(图15中示例性的以通信接口1503为例进行说明)。

处理器1501可以是一个通用中央处理器(central processing unit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路。

通信线路1504可包括在上述组件之间传送信息的电路。

通信接口1503，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，无线局域网(wireless local area networks，WLAN)等。

可能的，该终端设备还可以包括存储器1502。

存储器1502可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compactdisc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过通信线路1504与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器1502用于存储执行本申请方案的计算机执行指令，并由处理器1501来控制执行。处理器1501用于执行存储器1502中存储的计算机执行指令，从而实现本申请实施例所提供的方法。

可能的，本申请实施例中的计算机执行指令也可以称之为应用程序代码，本申请实施例对此不作具体限定。

在具体实现中，作为一种实施例，处理器1501可以包括一个或多个CPU，例如图15中的CPU0和CPU1。

在具体实现中，作为一种实施例，终端设备可以包括多个处理器，例如图15中的处理器1501和处理器1505。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包括一个或多个可用介质集成的服务器、数据中心等数据存储设备。例如，可用介质可以包括磁性介质(例如，软盘、硬盘或磁带)、光介质(例如，数字通用光盘(digital versatile disc，DVD))、或者半导体介质(例如，固态硬盘(solid state disk，SSD))等。

本申请实施例还提供了一种计算机可读存储介质。上述实施例中描述的方法可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。计算机可读介质可以包括计算机存储介质和通信介质，还可以包括任何可以将计算机程序从一个地方传送到另一个地方的介质。存储介质可以是可由计算机访问的任何目标介质。

作为一种可能的设计，计算机可读介质可以包括紧凑型光盘只读储存器(compactdisc read-only memory，CD-ROM)、RAM、ROM、EEPROM或其它光盘存储器；计算机可读介质可以包括磁盘存储器或其它磁盘存储设备。而且，任何连接线也可以被适当地称为计算机可读介质。例如，如果使用同轴电缆，光纤电缆，双绞线，DSL或无线技术(如红外，无线电和微波)从网站，服务器或其它远程源传输软件，则同轴电缆，光纤电缆，双绞线，DSL或诸如红外，无线电和微波之类的无线技术包括在介质的定义中。如本文所使用的磁盘和光盘包括光盘(CD)，激光盘，光盘，数字通用光盘(digital versatile disc，DVD)，软盘和蓝光盘，其中磁盘通常以磁性方式再现数据，而光盘利用激光光学地再现数据。

上述的组合也应包括在计算机可读介质的范围内。以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种音频处理方法，其特征在于，应用于终端设备，所述终端设备与耳机建立通信连接，所述方法包括：

所述终端设备显示第一界面；其中，所述第一界面中包括第一控件；

响应于针对第一控件的操作，所述终端设备获取N个第一目标数据；其中，所述N个第一目标数据中的任一个包括：基于所述终端设备获取的、所述终端设备的第一角速度数据和第一加速度数据，以及基于所述耳机获取的、所述耳机的第二角速度数据和第二加速度数据；

所述终端设备基于所述N个第一目标数据确定所述终端设备与所述耳机是否为同方向运动；

当所述终端设备与所述耳机为同方向运动时，所述终端设备基于第二目标数据，对第一音频信号进行空间音频渲染处理，得到第二音频信号；其中，所述第二目标数据包括：基于所述终端设备获取的、所述终端设备的第三角速度数据和第三加速度数据，以及基于所述耳机获取的、所述耳机的第四角速度数据和第四加速度数据；

所述方法还包括：

所述终端设备基于所述第三角速度数据和第三加速度数据，确定所述终端设备对应的第一转动角度，以及基于所述第四角速度数据和所述第四加速度数据，确定所述耳机对应的第二转动角度；

所述终端设备基于第二目标数据，对第一音频信号进行空间音频渲染处理，包括：所述终端设备基于目标角度，对所述第一音频信号进行空间音频渲染处理；其中，所述目标角度是基于所述第一转动角度以及所述第二转动角度计算得到的；

所述终端设备基于所述N个第一目标数据确定所述终端设备与所述耳机是否为同方向运动，包括：

所述终端设备将所述N个第一目标数据输入到预设模型中，输出目标识别结果；其中，所述目标识别结果包括：所述终端设备与所述耳机为同方向运动，或者所述终端设备与所述耳机不为同方向运动。

2.根据权利要求1所述的方法，其特征在于，所述终端设备基于所述第三角速度数据和第三加速度数据，确定所述终端设备对应的第一转动角度，以及基于所述第四角速度数据和所述第四加速度数据，确定所述耳机对应的第二转动角度，包括：

所述终端设备基于所述第三角速度数据和第三加速度数据确定第一重力向量，以及基于所述第四角速度数据和所述第四加速度数据确定第二重力向量；

所述终端设备获取所述第一重力向量投影到第一载体坐标系时的第一投影向量、以及所述第二重力向量投影到第二载体坐标系时的第二投影向量；其中，所述第一载体坐标系为所述终端设备对应的坐标系，所述第二载体坐标系为所述耳机对应的坐标系；

所述终端设备基于所述第一投影向量以及所述第三角速度数据确定所述第一转动角度，以及基于所述第二投影向量以及所述第四角速度数据确定所述第二转动角度。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

所述终端设备基于所述第一投影向量以及所述第三角速度数据确定所述终端设备在水平方向上的第五角速度数据，以及基于所述第二投影向量以及所述第四角速度数据确定所述耳机在水平方向上的第六角速度数据；

所述终端设备基于所述第一投影向量以及所述第三角速度数据确定所述第一转动角度，以及基于所述第二投影向量以及所述第四角速度数据确定所述第二转动角度，包括：所述终端设备基于所述第五角速度数据以及第一预设时长确定所述第一转动角度，以及基于所述第六角速度数据以及所述第一预设时长确定所述第二转动角度。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

所述终端设备获取第二预设时长内N个第七角速度数据的方差，和/或所述第二预设时长内N个第三投影向量的内积之和；其中，所述第二预设时长内包括N个时间点，所述N个第七角速度数据中的任一个为：所述终端设备基于所述N个时间点中的任一个时间点对应的任一个第三投影向量、以及所述任一个时间点对应的所述耳机的第八角速度数据得到的；所述任一个第三投影向量为：所述任一个时间点对应的所述耳机的重力向量投影到所述第二载体坐标系时得到的；

当所述方差大于第一阈值和/或所述内积之和小于第二阈值时，所述终端设备确定所述目标角度为0度。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

所述终端设备显示蓝牙功能对应的第二界面；所述第二界面中包括用于与所述耳机建立连接的第二控件；

响应于针对第二控件的操作，所述终端设备显示第三界面；所述第三界面中包括用于对所述耳机进行播放设置的第三控件；

所述终端设备显示所述第一界面，包括：响应于针对第三控件的操作，所述终端设备显示所述第一界面。

6.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，使得所述终端设备执行如权利要求1至5任一项所述的方法。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，使得计算机执行如权利要求1至5任一项所述的方法。