CN116709162A

CN116709162A - 音频处理方法及相关设备

Info

Publication number: CN116709162A
Application number: CN202310993563.4A
Authority: CN
Inventors: 梁俊斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-08-09
Filing date: 2023-08-09
Publication date: 2023-09-05
Anticipated expiration: 2043-08-09
Also published as: CN116709162B

Abstract

本申请实施例提供了一种音频处理方法及相关设备，该方法包括：获取增强现实场景中的真实音频信号和虚拟音频信号；确定针对增强现实场景所配置的多种混音模式，并从多种混音模式中选取一个混音模式作为目标混音模式；不同混音模式用于实现真实音频信号和虚拟音频信号之间的不同混音效果；按照目标混音模式，对真实音频信号和虚拟音频信号进行混音处理，得到混音信号并输出。这样可从听觉维度实现增强现实场景中声音的融合，丰富了增强现实场景中的融合能力，且可提升用户在增强现实场景中的整体沉浸感。

Description

音频处理方法及相关设备

技术领域

本申请涉及互联网技术，具体涉及计算机技术领域，尤其涉及一种音频处理方法及相关设备。

背景技术

随着增强现实(Augmented Reality，AR)技术的发展，增强现实设备（例如AR眼镜、AR耳机等）的功能越来越丰富和多样化。借助于增强现实设备（例如AR眼镜、AR耳机等）所提供的在视觉方面将现实世界和虚拟世界的图像进行融合的能力，人们能够沉浸在现实世界与虚拟世界结合所产生的增强现实场景中而带来一些新兴的体验。例如，用户佩戴AR眼镜后可以看到现实世界影像和虚拟世界影像的合成图像，并可以通过一些手势、语音等交互方式改变虚拟世界影像内容。还可以通过增强现实应用来检测和增强用户环境中的二维图像，例如在展会中可将产品海报进行增强。但是，以上仅仅是在视觉维度实现了增强现实场景中图像的融合，融合能力比较单一，用户在增强现实场景中的沉浸感还有待提升。

发明内容

本申请实施例提供一种音频处理方法及相关设备，可以从听觉维度实现增强现实场景中现实世界的声音和虚拟世界的声音之间的融合，丰富了增强现实场景中的融合能力，且可提升用户在增强现实场景中的整体沉浸感。

一方面，本申请实施例提供了一种音频处理方法，该方法包括：

获取增强现实场景中的真实音频信号和虚拟音频信号，真实音频信号是指在增强现实场景所涉及的现实环境中采集到的音频信号，虚拟音频信号是指在增强现实场景所涉及的虚拟环境中构造出的音频信号；

确定针对增强现实场景所配置的多种混音模式，并从多种混音模式中选取一个混音模式作为目标混音模式；其中，不同混音模式用于实现真实音频信号和虚拟音频信号之间的不同混音效果；

按照目标混音模式，对真实音频信号和虚拟音频信号进行混音处理，得到混音信号；以及，输出混音信号。

一方面，本申请实施例提供了一种音频处理装置，该装置包括：

获取单元，用于获取增强现实场景中的真实音频信号和虚拟音频信号，真实音频信号是指在增强现实场景所涉及的现实环境中采集到的音频信号，虚拟音频信号是指在增强现实场景所涉及的虚拟环境中构造出的音频信号；

处理单元，用于确定针对增强现实场景所配置的多种混音模式，并从多种混音模式中选取一个混音模式作为目标混音模式；其中，不同混音模式用于实现真实音频信号和虚拟音频信号之间的不同混音效果；

处理单元，还用于按照目标混音模式，对真实音频信号和虚拟音频信号进行混音处理，得到混音信号；以及，

输出单元，用于输出混音信号。

一方面，本申请实施例提供一种计算机设备，该计算机设备包括：

处理器，适用于执行计算机程序；

计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序被处理器执行时，实现如上述音频处理方法。

一方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器加载并执行如上述音频处理方法。

一方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序或计算机指令，该计算机程序或计算机指令被处理器执行时实现上述音频处理方法。

在本申请实施例中，可获取增强现实场景中的真实音频信号和虚拟音频信号，该真实音频信号是指在增强现实场景所涉及的现实环境中采集到的音频信号，该虚拟音频信号是指在增强现实场景所涉及的虚拟环境中构造出的音频信号。然后，可确定针对增强现实场景所配置的多种混音模式，并从多种混音模式中选取一个混音模式作为目标混音模式，其中，不同混音模式可用于实现真实音频信号和虚拟音频信号之间的不同混音效果，从而能够带来不同的听觉体验。通过确定针对增强现实场景的多种混音模式，可为目标混音模式的设置提供多样化的选择，并灵活地设置目标混音模式，从而能够应对需混音真实音频信号和虚拟音频信号的各种场景，也可满足用户的一些个性化的混音需求。接着，可按照目标混音模式，对真实音频信号和虚拟音频信号进行混音处理，得到混音信号，并输出该混音信号。由于目标混音模式可实现真实音频信号和虚拟音频信号之间的相应混音效果，通过在目标混音模式下控制真实音频信号和虚拟音频信号的混音处理，可从听觉维度实现增强现实场景中涉及的现实世界的声音和虚拟世界的声音之间的融合，增加听觉方面对增强现实场景中声音的融合，丰富了增强现实场景中的融合能力，且所得到的混音信号也具备目标混音模式对应的混音效果，最终通过输出混音信号可以使得用户更加直观地感受到增强现实场景中声音融合的效果，增强用户在增强现实场景中的沉浸感。

附图说明

图1a是本申请实施例提供的一种音频处理系统的架构图；

图1b是本申请实施例提供的另一种音频处理系统的架构图；

图2是本申请实施例提供的一种音频处理方法的流程示意图；

图3是本申请实施例提供的一种音频采集设备的示意图；

图4是本申请实施例提供的另一种音频处理方法的流程示意图；

图5a是本申请实施例提供的一种设置目标混音模式的场景示意图；

图5b是本申请实施例提供的一种对当前音频信号进行分帧的示意图；

图5c是本申请实施例提供的一种经过语音有效判别处理前后的音频帧的关系示意图；

图5d是本申请实施例提供的一种将音频帧进行划分为音频子块的示意图；

图6a是本申请实施例提供的一种音量调节的流程示意图；

图6b是本申请实施例提供的一种音频处理流程的示意图；

图7是本申请实施例提供的一种音频处理装置的结构示意图；

图8是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提出了一种音频处理方法，该音频处理方法可通过从为增强现实场景配置的多种混音模式中选取出目标混音模式，并按照该目标混音模式对增强现实场景中的真实音频信号和虚拟音频信号进行混音处理，得到混音信号，从而实现在听觉方面AR场景中现实世界声音与虚拟世界声音之间的深度融合，丰富了增强现实场景的融合能力。之后，可输出混音信号，该混音信号具有目标混音模式对应的混音效果，在视觉方面融合图像的基础上，增加听觉方面对声音的融合，能够提升增强现实场景的整体氛围感和沉浸感，通过多维度的融合能力，使得增强现实场景的真实感得到进一步增强。

在本申请实施例中，增强现实(Augmented Reality，AR)场景是一种借助于增强现实技术实现的交互场景。按照交互的内容，该增强现实场景包括但不限于：社交场景、游戏场景、合唱场景及直播场景等等。其中，增强现实(Augmented Reality，AR)技术是一种将虚拟信息与现实世界巧妙融合的技术，广泛运用了多媒体、三维建模、实时监测及注册、智能交互、传感等多种技术手段，将计算机生成的文字、图像、三维模型、音乐、视频等虚拟信息模拟仿真后，应用到现实世界中，两种信息互为补充，从而实现对现实世界的“增强”。在增强现实场景中，使用者通过佩戴AR设备，例如AR眼镜/AR耳机等，使用者透过AR眼镜既可以看到现实世界，同时也可以看到经AR处理并投影到AR眼镜镜片上的虚拟图像或动画。另外使用者也可以真实听到现实世界的声音和耳机传来的虚拟场景的声音，这种真实和虚拟融合的音视频体验，能够为使用者带来不一样的想象空间和体验。

增强现实场景涉及现实环境和虚拟环境。现实环境是用户所处的真实物理环境，包括用户可看、可听以及可感的周围景物、物体以及声音等，是人们感知和互动的基础。虚拟环境是通过设备生成的模拟环境，通过相应技术可使得用户沉浸在虚拟环境中，或者采用虚拟环境对现实环境进行增强，用户可以借助于增强现实设备（例如AR眼镜）来进行感知和互动。现实环境可理解成是现实世界的一部分构成，在现实世界中除了包括用户可看、可听、可感的内容之外，还有一些不可见层面的物质。而虚拟环境可以理解成是虚拟世界的一部分构成，在虚拟世界中各种可看、可听以及可感的内容完全由设备进行构造，例如虚拟世界中的声音是完全由计算机设备生成的。在一种实现方式中，在增强现实场景中可采集到来自于现实环境中的声源所产生的声音信号而形成真实音频信号，并可采集到来自于虚拟环境中的声源所产生的声音信号而形成虚拟音频信号，其中，虚拟环境中的声源所产生的声音信号是由设备自动构造的，可以是模拟现实环境的一种声音信号。在具体形成过程中，可对声音信号（一种模拟信号）进行模数转换处理而得到相应的音频信号（一种数字信号）。

混音模式是一种控制真实音频信号和虚拟音频信号进行混音的模式，不同混音模式可用于实现真实音频信号和虚拟音频信号之间的不同混音效果，进而带来不同的听觉体验。对于增强现实场景中的真实音频信号和虚拟音频信号，可通过设定的目标混音模式来控制两者之间的混音方式，进而可实现虚拟世界的声源产生的声音与现实世界的声源产生的声音之间的混合，并可实现对现实世界声音的增强。

基于上述定义，下面对本申请实施例提出的数据处理方法的原理进行阐述，具体的，该方法的大致原理如下：获取增强现实场景中的真实音频信号和虚拟音频信号，在对真实音频信号和虚拟音频信号进行混音之前，可确定针对增强现实场景所配置的多种混音模式，并从多种混音模式中选取一个混音模式作为目标混音模式。该目标混音模式可以由增强现实设备的使用者按照自己的使用需求选取，例如目标混音模式可根据用户的手动操作而确定；或可通过设备自动确定，通过多种混音模式的提供，真实音频信号和虚拟音频信号的混音效果选择更加多样化。之后，可按照目标混音模式对真实音频信号和虚拟音频信号进行混音处理，得到混音信号，以及输出该混音信号。

在具体实现中，上述所提及的方法可由一个计算机设备执行，该计算机设备可以是终端或服务器。例如：终端设备（如AR眼镜）可采集到增强现实场景中的真实音频信号和虚拟音频信号，并基于用户指令从多种混音模式中选取一种混音模式，再按照所选取的混音模式来混音真实音频信号和虚拟音频信号，从而通过终端设备输出混音得到的混音信号，如图1a所示。或者，上述提及的方法可由终端和服务器共同执行；例如：终端设备（如AR眼镜或AR耳机）负责实时地采集到增强现实场景中的真实音频信号和虚拟音频信号，并将采集到的音频信号发送给服务器，终端设备还可接收用户操作而确定目标混音模式，服务器按照所确定的目标混音模式对真实音频信号和虚拟音频信号进行混音处理，得到混音信号，并发送给终端设备进行输出，如图1b所示。

其中上述提及的终端设备包括但不限于：智能手机、平板电脑、智能可穿戴设备、智能语音交互设备、智能家电、个人电脑、车载终端、智能摄像头、增强现实设备（例如AR眼镜和AR耳机等）等设备，本申请对此不作限制。对于终端设备的数量，本申请不做限制。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）、以及大数据和人工智能平台等基础云计算服务的云服务器，但并不局限于此。对于服务器的数量，本申请不做限制。

本申请提供的音频处理方案涉及人工智能的语音技术，语音技术(SpeechTechnology)的关键技术有自动语音识别技术（Automatic Speech Recognition，ASR）和语音合成技术（Text To Speech，TTS）以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来被看好的人机交互方式之一。大模型技术为语音技术发展带来变革，WavLM，UniSpeech等沿用Transformer架构的预训练模型具有强大的泛化性、通用性，可以优秀完成各方向的语音处理任务。本申请中，在对增强现实场景中的真实音频信号和虚拟音频信号进行混音处理时，可采用一些AI模型来实现，AI模型包括但不限于：神经网络、预训练模型等等。

另外，需说明的是，本申请书中相关数据（例如音频信号、现实环境的地理位置信息等）收集处理在实例应用时应该严格根据相关国家法律法规的要求，获取个人信息主体的知情同意或单独同意，并在法律法规及个人信息主体的授权范围内，开展后续数据使用及处理行为。

基于上述描述，本申请实施例提出了一种音频处理方法。该音频处理方法可由上述所提及的计算机设备（终端或者服务器）执行，也可由终端和服务器共同执行；为便于阐述，后续均以计算机设备执行该音频处理方法为例进行说明。请参见图2，该音频处理方法可以包括如下步骤S201-S203。

S201，获取增强现实场景中的真实音频信号和虚拟音频信号。

真实音频信号是指在增强现实场景所涉及的现实环境中采集到的音频信号。增强现实场景所涉及的现实环境是用户所处的真实物理环境，可对现实环境中的声音进行采集而得到相应的真实音频信号，在现实环境中采集到的音频信号能够代表现实世界声音，包括但不限于：现实环境中说话者的说话声，现实环境中扬声器播放的声音，以及现实环境中的环境噪声等等。

在一种实现方式中，可通过具有立体声采集功能的音频采集设备对现实环境中的声源发出的声音进行采集，而得到增强现实场景中的真实音频信号。该音频采集设备包括但不限于：立体声麦克风，立体声录音功能耳机等。通过具有立体声采集功能的音频采集设备，可采集到外部的现实世界声音，得到一个具有方位感且立体的声音信号。示例性地，通过立体声录音耳机可实时采集现实世界声音立体得到立体声信号。对于立体声录音耳机可如图3所示，该耳机的左右耳附近部署了麦克风分别采集左边和右边的声音信号。进一步地，采集到的声音信号会经过数字信号处理后和虚拟环境的立体声进行混音，并可通过耳机（或两个以上扬声器组合）输出的混音信号，从而充分发挥出混音信号所具备的空间音效，这样不仅可以播放还原出实际现场的听觉场景，让听者能清晰辨识到不同的声学对象的方位、远近距离感以及移动轨迹，也能让听者听到空间音效所带来的更有立体感、空间层次感的声音，感受到被声音全方位包裹感，让听者仿佛置身于实际环境的沉浸式听觉体验。在另一种实现方式中，也可以采用常规的音频采集设备采集得到增强现实场景中的真实音频信号。

虚拟音频信号是指在增强现实场景所涉及的虚拟环境中构造出的音频信号。增强现实场景所涉及的虚拟环境是完全由设备生成的模拟环境。可对虚拟环境中的声音进行采集而得到相应的虚拟音频信号，虚拟环境中的声音是通过设备构造的声音，该声音是模拟现实环境中的物体发声而产生的。采集到的虚拟音频信号可代表所构造的虚拟世界声音，例如：虚拟游戏场景中的虚拟角色的说话声、模拟的流水声、模拟的鸟叫声以及模拟的歌声等等。该虚拟世界声音也可以是一种立体声，能够增加声音的立体感。

计算机设备可实时地采集增强现实场景中的真实音频信号和虚拟音频信号，计算机设备也可以从数据库中获取预先采集并存储至其中的真实音频信号和虚拟音频信号。举例来说，某个用户使用增强现实设备进行多人游戏的增强现实场景下，用户所使用的增强现实设备可实时采集到自己的说话声以及自己所处真实物理环境中的其他声音，还可采集到其他玩家的说话声，进而得到真实音频信号，此外，还可采集到虚拟游戏世界中的声音，而得到虚拟音频信号，后续可按照设定的目标混音模式对真实音频信号和虚拟音频信号进行混音，使得玩家能够听到混音信号所表示的具有相应混音效果的声音，从而带来更加沉浸的游戏体验。

S202，确定针对增强现实场景所配置的多种混音模式，并从多种混音模式中选取一个混音模式作为目标混音模式。

计算机设备可确定针对当前的增强现实场景所配置的至少两种混音模式。在一种实现方式中，为不同增强现实场景所配置的混音模式可以不同，这具体可体现在混音模式的数量以及具体的混音模式的不同。举例来说，为AR场景S1配置的混音模式包括5种，而为AR场景S2配置的混音模式仅包括3种。又例如，为AR场景S1配置的混音模式以及为AR场景S2配置的混音模式均包括3种，但仅存在一种相同的混音模式。在另一种实现方式中，为不同增强现实场景可以相同，即不同增强现实场景可统一配置相同的多种混音模式，而使得多种混音模式能够在不同增强现实场景下通用。举例来说，统一配置了5种混音模式且可用于各个增强现实场景中。

不同混音模式用于实现真实音频信号和虚拟音频信号之间的不同混音效果。混音效果是指听觉感知上的声音混合的效果。在一种实现方式中，针对增强现实场景所配置的多种混音模式可包括：①关闭现实混音模式（或可称为关闭现实世界声音模式）；②关闭虚拟混音模式（或可称为关闭虚拟世界声音模式）；③强虚拟混音模式（或可称为弱现实世界声音模式、弱现实混音模式）；④强现实混音模式（或可称为强现实世界声音模式、弱虚拟混音模式）；⑤对等混音模式（或可称为现实虚拟声音对等模式）。在这些混音模式下所实现的混音效果不同：示例性的，在关闭现实混音模式（或关闭虚拟混音模式）下不会输出现实世界声音对应的真实音频信号（或虚拟世界声音对应的虚拟音频信号），从而在混音效果上实现对现实世界声音（或虚拟世界声音）的屏蔽；在强虚拟混音模式（或强现实混音模式）下，最终混音效果为虚拟世界声音的音量比现实世界声音的音量大（或真实世界声音的音量比虚拟世界声音的音量大）；在对等混音模式下，混音后听到的现实世界声音和虚拟世界声音处于对等水平，用户听觉上感觉到两种声音比较和谐相融。

在一个实施例中，由于真实音频信号是采集现实世界声音而得到的，其中可能包含一些环境噪声而影响后续对真实音频信号的处理，因此，在进行混音处理之前，可对真实音频信号进行降噪处理，从而尽可能地过滤真实音频信号中的环境噪声干扰，得到去噪后的真实音频信号，去噪后的真实音频信号可参与到后期与虚拟音频信号的相关处理中。在此，可为增强现实场景配置不同的混音模式，例如上述提及的关闭现实世界声音模式、弱现实世界声音模式、现实虚拟声音对等模式、强现实世界声音模式以及关闭虚拟世界声音模式，从而提供可供选择的混音模式来实现所需的混音效果。

具体地，在确定出针对增强现实场景配置的多种混音模式之后，可从多种混音模式中选取一种混音模式，所选取的混音模式即可作为目标混音模式，并用于对真实音频信号和虚拟音频信号的混音处理中。举例来说，多种混音模式包括混音模式R1、混音模式R2、混音模式R3，若选择混音模式R3，则可将混音模式R3作为目标混音模式。针对目标混音模式，可按照用户在增强现实场景中的需求进行选取，或可自动分析增强现实场景对声音的融合需求而选取。

在一种实现方式中，增强现实场景中包括增强现实设备，该增强现实设备不仅可用于采集真实音频信号，还可用于辅助计算机设备确定目标混音模式。在一种具体实现中，可直接通过操作增强现实设备的物理按键来确定目标混音模式。在另一种具体实现中，该增强现实设备可关联增强应用程序，而为AR场景配置的多种混音模式各自的模式标识可显示于该增强应用程序的应用界面上，通过在应用界面对模式标识的选择操作可选取出一种混音模式作为目标混音模式。

S203，按照目标混音模式，对真实音频信号和虚拟音频信号进行混音处理，得到混音信号；以及，输出混音信号。

不同混音模式还决定了真实音频信号和虚拟音频信号之间的混音方式，而混音方式具体涉及对音频信号的音量调节以及混合方式。按照目标混音模式所指示的混音方式进行混音处理所得到的混音信号具有该目标混音模式对应的混音效果，通过真实音频信号和虚拟音频信号的混音处理，可将不同音轨的真实音频信号和虚拟音频信号融合为一个音轨的混音信号。混音处理可对应现实世界声音和虚拟世界声音的融合，对应的混音效果可对应现实世界声音与虚拟世界声音之间的融合效果。

在一种实现方式中，得到混音信号之后，计算机设备可实时地在增强现实场景中输出该混音信号。通过对AR场景下的真实音频信号和虚拟音频信号进行混音后输出，可使得听者感受到与虚拟世界中的虚拟对象相关联的声音效果，从而带来更加沉浸和逼真的听觉体验。基于上述处理流程，本申请提供的音频处理方法并不仅仅是将现实世界的声源进行屏蔽或者非屏蔽，而是还能够对现实世界的音频信号和虚拟世界的音频信号进行相应的处理，并最终融合两种音频信号，实现声音的融合。

本申请实施例提供的音频处理方法，可获取增强现实场景中的真实音频信号和虚拟音频信号，真实音频信号是指在增强现实场景所涉及的现实环境中采集到的音频信号，虚拟音频信号是指在增强现实场景所涉及的虚拟环境中构造出的音频信号。然后，可确定针对增强现实场景所配置的多种混音模式，并从多种混音模式中选取一个混音模式作为目标混音模式，其中，不同混音模式可用于实现真实音频信号和虚拟音频信号之间的不同混音效果，从而能够带来不同的听觉体验。通过确定针对增强现实场景的多种混音模式，可为目标混音模式的设置提供多样化的选择，并灵活地设置目标混音模式，从而能够应对需混音真实音频信号和虚拟音频信号的各种场景，也可满足用户的一些个性化的混音需求。接着，可按照目标混音模式，对真实音频信号和虚拟音频信号进行混音处理，得到混音信号，并输出该混音信号。由于目标混音模式可实现真实音频信号和虚拟音频信号之间的相应混音效果，通过在目标混音模式下控制真实音频信号和虚拟音频信号的混音处理，可从听觉维度实现增强现实场景中涉及的现实世界的声音和虚拟世界的声音之间的融合，增加了听觉方面对增强现实场景中声音的融合，丰富了增强现实场景中的融合能力，且所得到的混音信号也具备目标混音模式对应的混音效果，最终通过输出混音信号可以使得用户更加直观地感受到增强现实场景中声音融合的效果，增强用户在增强现实场景中的沉浸感。

基于上述图2所示的方法实施例，本申请实施例进一步提出了一种更为具体的音频处理方法。在本申请实施例中，主要以计算机设备执行该音频处理方法为例进行说明；请参见图4，该音频处理方法可以包括以下步骤S401-S404。

S401，获取增强现实场景中的真实音频信号和虚拟音频信号。

S402，确定针对增强现实场景所配置的多种混音模式，并从多种混音模式中选取一个混音模式作为目标混音模式。

在一个实施例中，计算机设备在从多种混音模式中选取一个混音模式作为目标混音模式时，具体可执行如下内容：获取模式配置操作，并根据模式配置操作从多种混音模式中选取一个混音模式作为目标混音模式。

计算机设备获取到的模式配置操作包括：①针对增强现实应用中所显示的多个模式标识的选择操作，一个模式标识对应一种混音模式；或者，②通过操控增强现实设备上的物理按键所执行的模式选择操作。

针对第①种模式配置操作，增强现实应用是一种用于提供可作用于增强现实场景的交互操作的应用程序（Application，简称APP），该增强现实应用可安装于计算机设备（例如移动终端）中，或者安装于和执行音频处理方法的计算机设备连接的其他计算机设备中，例如连接AR耳机的移动终端，其中连接方式包括但不限于有线连接（例如通过数据线连接）或者无线连接（例如蓝牙连接）。该增强现实应用可提供应用界面来显示多种混音模式各自对应的模式标识，不同混音模式对应不同模式标识，且各个模式标识支持选择。针对增强现实应用中所显示的多个模式标识的选择操作可以是在增强现实应用提供的应用界面中针对某个模式标识的选择操作，例如针对某个模式标识的点击操作，或者预设的手势操作等。该选择操作可用于指示用户选择的一种模式标识，代表用户需使用的混音模式，进而计算机设备可基于该选择操作中的模式标识从多种混音模式中确定出该模式标识对应的混音模式，并将其作为目标混音模式。在一种可实现的方式中，用户还可以通过在增强现实应用的应用界面中输入模式标识，进而计算机设备可基于该输入的模式标识来选取对应的混音模式作为目标混音模式。示意性的，如图5a所示的设置目标混音模式的场景示意图，其中501所标记的是增强现实应用的应用界面，该应用界面中显示有5种混音模式各自对应的模式标识，且每个模式标识均可被勾选，当任一模式标识被确认选择时，计算机设备可将所选择的模式标识对应的混音模式确定为目标混音模式。

在此方式下，通过提供增强现实应用程序，可将混音模式的模式标识，可视化地展现给用户，使得用户具备选择针对增强现实场景的目标混音模式的主动权，这样，用户可不再被动接收最终的混音信号，而是可根据自己感兴趣点来选取混音模式，且并不局限于固定的混音模式，能够较好地满足用户对增强现实场景中混音的个性化的需求。

针对第②种模式配置操作，增强现实场景中包括增强现实设备，该增强现实设备是一种用于提供可作用于增强现实场景的交互操作的计算机设备，例如AR耳机。增强现实设备具有物理按键，该物理按键可被用户操控以控制混音模式的选择，可选地，每操控一次物理按键可产生一个模式选择操作而使得计算机设备可从多种混音模式中选取得到目标混音模式。示意性的，可通过AR耳机上的按钮开关（一种物理按键）来手动地配置所需的目标混音模式，每按一次AR耳机上的按钮开关，表示对当前的混音模式进行切换，继而得到新的混音模式。在此方式下，通过增强现实设备提供的物理按键来实现混音模式的选择，能够使得用户具有更真实的操控感。可理解的是，如果在第①种模式配置操作失效的情况下，通过物理按键的模式选择操作也可作为备份的方式来实现目标混音模式的选择。在增强现实场景中，以上两种模式配置操作均可实现目标混音模式的确定，且可互为备份方式来保证用户对混音模式的正常选择。

在另一个实施例中，通过以上选取混音模式的方式均是面向用户提供的手动方式，为使得所选取的混音模式能够与增强现实场景进行更好地匹配，得到更为合适的混音效果，也可无需用户参与，而是自动地确定出目标混音模式。计算机设备在从多种混音模式中选取一个混音模式作为目标混音模式时，具体可执行如下步骤①和步骤②，以通过现实环境的地理位置信息来自动确定目标混音模式。

步骤①确定增强现实场景所涉及的现实环境的地理位置信息，并根据地理位置信息确定出现实环境所属的环境类型。

现实环境的地理位置信息可用于描述现实环境中地理事物之间的相对空间关系。该地理位置信息可以通过具体的经纬度表示，也可以通过具体的位置名称来表示等等，本申请不做限制。对于现实环境的地理位置信息的确定，示例性地，可通过用户使用的增强现实设备中包括的GPS（Global Positioning System，全球定位系统）来对用户所处的现实环境进行定位得到，通过GPS定位得到的地理位置信息例如是：A城市-C区-D街道58路-xx歌剧厅。由于地理位置信息可比较详细地描述现实环境的特点，因此，通过分析地理位置信息可确定出现实环境所属的环境类型。按照环境属性，增强现实场景所涉及的现实环境的环境类型包括但不限于：室内环境和室外环境，室内环境例如是：歌剧厅、电影院、车辆驾驶或者商场等等，室外环境例如是：街道、操场或者海边等等。示例性地，地理位置信息为xx音乐馆，那么可确定现实环境所属的环境类型为室内环境。

步骤②根据确定出的环境类型对声音的融合需求，从多种混音模式中选取一个混音模式作为目标混音模式。

此处对声音的融合需求是指通过混合真实音频信号和虚拟音频信号，以实现对增强现实场景中的现实世界声音和虚拟环境声音之间进行融合的需求。不同环境类型对声音的融合需求可以不同，示例性地，由于室内环境相对于室外环境的噪声干扰较小，因此，室外环境对虚拟世界声音有更高清晰度的要求，且需抑制真实世界声音，室内环境则可较少地抑制真实世界声音，对真实世界声音和虚拟世界声音在融合时两者可对等。

相应环境类型对声音的融合需求代表着现实环境对声音的融合需求，且对声音的融合需求可用于指示具体的融合效果，而不同混音模式用于实现不同混音效果，因此，以相应环境类型对声音的融合需求为依据，可从混音模式中选取一个合适的混音模式作为目标混音模式。示例性地，室外环境对虚拟世界声音有更高清晰度的要求，那么可选取强虚拟世界声音模式来进行混音处理，进而使得虚拟世界声音更清晰，且更容易被听到。

上述步骤①-步骤②，通过现实环境的地理位置信息来自动分析出现实环境所属的环境类型，进而基于环境类型对声音的融合需求来自动选取出目标混音模式。整个过程能够自动化、智能化地确定出用于混音真实音频信号和虚拟音频信号的目标混音模式，并使得最终的混音效果是与相应环境类型对声音的融合需求而匹配的，进而提升增强现实场景中声音融合带来的沉浸感和真实感。

在一个实施例中，为了增强在增强现实场景中的听觉感知体验，在对音频信号进行音量调节之前，可对真实音频信号和虚拟音频信号进行音效处理，其中，音效处理包括但不限于以下一种或多种：混响处理和均衡处理等等。其中，混响处理可通过给音频信号添加一定比例的反射声和衰减来改变音频的感觉。通过混响处理能够增加音频的自然感和立体感，使得音频听起来更加丰满、有层次感，进而能够通过混响处理后的声音感受到强烈的环境感。示例性的，通过混响能够模拟房间、大厅等现实环境中的自然效果。均衡处理可以通过改变音频信号在不同频率上的能量分布来调整音频的音色和频谱平衡，它可以增强或削弱某个频段的音量，使得音频听起来更加明亮、清晰、柔和或者富有动感。示例性地，当一首歌曲的声音中低音不够强烈，需要增强低音的力度时，可以使用均衡处理来调整音频的频率分布，增强低频部分，这样可以让听众感受到更加丰富的音乐效果。在具体实现中，可在以下方式一和方式二下对增强现实场景中的音频信号进行音效处理。

方式一、确定增强现实场景的场景类型，并根据场景类型对音效的需求，分别对增强现实场景中的真实音频信号和虚拟音频信号进行音效处理。

具体地，增强现实场景的场景类型可基于增强现实场景所涉及的业务确定。举例来说，在增强现实场景中所涉及的业务是多人联机游戏，那么该场景类型是游戏场景，又例如，在增强现实场景中所涉及的业务是在线合唱的社交业务，那么场景类型可以是社交场景。而不同场景类型对音效具有不同的需求，为此，可对获取到的真实音频信号和虚拟音频信号进行与该场景类型对音效的需求相匹配的音效处理。示例性地，增强现实场景的场景类型为游戏场景，且该游戏场景下对音效的需求是声音需富有动感和环境感，那么可对真实音频信号和虚拟音频信号进行混响处理，而采用相对较小的参数来进行均衡处理或者不进行均衡处理，从而带来更高的混响以及较小的均衡，增加游戏场景的环境氛围感。

方式二、获取增强现实场景所涉及的现实环境所属的环境类型，并根据现实环境所属的环境类型对音效的需求，分别对增强现实场景中的真实音频信号和虚拟音频信号进行音效处理。

具体地，现实环境所属的环境类型可基于现实环境的地理位置信息来确定。不同环境类型对音效的需求可以存在不同，示例性地，环境类型为室外环境时，要求声音的清晰度和动感度更高，而环境感则可以不用那么强烈，而环境类型为室内环境时，则要求声音具有更好的立体感和层次感。那么计算机设备可对真实音频信息信号和虚拟音频信号进行均衡处理，而无需进行混响处理。又例如，在环境类型为室内环境时，对声音的环境感要求更高，而声音的动感度可较低，可对真实音频信号和虚拟音频信号进行混响处理以增加环境感，而无需进行均衡处理。可见，计算机设备所进行的音效处理可与现实环境所属的环境类型对音效的需求相匹配，以最终实现相应环境类型所需的音效。

在上述两种方式中，能够根据增强现实场景的场景类型或者其所涉及的现实环境所属的环境类型对音效的需求，来自动地确定对增强现实场景中的音频信号所进行的音效处理，进而使得经过音效处理后的音频信号是符合相应的音效需求，与增强现实场景匹配，而带来更佳的体验。

在一个实施例中，多种混音模式中每种混音模式均具有模式标识，该模拟标识可以是一个模式数值或者序号，可用于唯一标记混音模式，每个模式标识对应一个用于进行均衡处理所需的均衡参数组；任一模式标识对应的均衡参数组包括：虚拟音频信号在相应混音模式下的第一音量均衡参数，以及真实音频信号在相应混音模式下的第二音量均衡参数。不同混音模式下对应的均衡参数组可以不同，这体现在均衡参数的不同上。示例性地，在强现实混音模式下的均衡参数组中第二音量均衡参数，大于在强虚拟混音模式下的均衡参数组中第二音量均衡参数。通过音量均衡参数，可通过控制音频信号的频率而使得音频信号表现出不同的均衡效果，例如音频信号表现浑厚有力、或柔和丰满、或明亮透彻等音效。

基于为混音模式所配置的均衡参数组，计算机设备在按照目标混音模式，对真实音频信号和虚拟音频信号进行混音处理，得到混音信号之前，还可以执行如下操作：首先，获取目标混音模式的模式标识对应的均衡参数组。由于一个模式标识对应一个均衡参数组，根据目标模式的模式标识查询到所需的均衡参数组。在一种实现方式中，可从映射数据表中查询得到，该映射数据表包括多个模式标识以及与每个模式标识对应的均衡参数组。然后，采用获取到的均衡参数组中的第一音量均衡参数对虚拟音频信号进行均衡处理，并采用获取到的均衡参数组中的第二音量均衡参数对真实音频信号进行均衡处理。示意性的，目标混音模式为强现实混音模式，那么为了更清晰的声音，可获取强现实混音模式的均衡参数组，且该均衡参数组中第一音量均衡参数可大于第二音量均衡参数，从而经过均衡处理之后增强现实世界声音的清晰度。在一种可实现的方式中，经过上述均衡处理可分别得到均衡后的虚拟音频信号和均衡后的真实音频信号，进而计算机设备在按照目标混音模式对虚拟音频信号和真实音频信号进行混音时，具体可以按照目标混音模式对均衡后的虚拟音频信号和均衡后的真实音频信号进行混音，而得到最终的混音信号。

S403，按照目标混音模式，分别对真实音频信号和虚拟音频信号进行音量调节，得到音量调节后的真实音频信号和音量调节后的虚拟音频信号。

任一混音模式可决定对真实音频信号和虚拟音频信号各自的音量调节方式。不同混音模式可对应不同的参数来进行相应的音量调节。在相应目标混音模式下，通过音量调节可得到音量调节后的真实音频信号和音量调节后的虚拟音频信号。在音量方面，音量调节后的真实音频信号可能和原本获取到的真实音频信号可能相同或不同，音量调节后的虚拟音频信号可能和原本获取到的虚拟音频信号也可能相同或不同。示例性地，目标混音模式为强现实世界声音模式，那么可将真实音频信号的音量调高，而保持虚拟音频信号的原有音量或者将虚拟音频信号的音量调低。

音频信号的音量是指听者在主观上感知的声音大小，也可称为响度。音量大小可以由音频信号的幅值（或可称为振幅、幅度值或幅度等）、和听者与声源的距离决定：幅值越大，响度越大，听者和声源的距离越小，响度越大。因此，在调节音频信号的音量时，可调整音频信号的幅值，或者调整用于采集真实音频信号的增强现实设备与声源之间的距离，或者直接调整音频信号的响度。本申请实施例中采用通过调整音频信号的幅值来调整音频信号的音量的方式。

在一个实施例中，音频信号的音量随着音频信号的幅值变化而发生变化。音频信号的幅值与音频信号的音量正相关，音频信号的音量可随着音频信号的幅值的增大而增大，也可随着音频信号的幅值的减小而减小。计算机设备在按照目标混音模式，分别对真实音频信号和虚拟音频信号进行音量调节时，具体可执行如下（1）-（4）所描述的内容，且采用如下（1）-（4）所示的逻辑均可实现真实音频信号的音量调节以及虚拟音频信号的音量调节。以下内容以真实音频信号和虚拟音频信号中的任一音频信号为例，来阐述对增强现实场景中音频信号进行音量调节的原理。

（1）遍历真实音频信号和虚拟音频信号，将遍历到的音频信号作为当前音频信号，获取当前音频信号在目标混音模式下的幅值约束参数。

遍历到的音频信号可以为真实音频信号或者虚拟音频信号。若当前音频信号为真实音频信号，那么可实现对真实音频信号的音量调节，若当前音频信号为虚拟音频信号，那么可实现对虚拟音频信号的音量调节。

当前音频信号的幅值约束参数是用于约束当前音频信号的幅值在目标混音模式下进行调节所需的参数；当前音频信号在不同混音模式下对应的幅值约束参数可以不同，真实音频信号在目标混音模式下的幅值约束参数和虚拟音频信号在目标混音模式下的幅值约束参数也可以相同或不同。

在一个实施例中，多种混音模式包括以下至少两种：强现实混音模式、强虚拟混音模式、对等混音模式、关闭现实混音模式以及关闭虚拟混音模式；任一音频信号的幅值约束参数与相应音频信号在进行音量调节后所具有的音量正相关。幅值约束参数越大，音量调节后的任一音频信号所具有的音量越大，幅值约束参数越小，音量调整后的任一音频信号所具有的音量越小，此处的任一音频信号可以是真实音频信号或虚拟音频信号。

在不同混音模式下，真实音频信号的幅值约束参数和虚拟音频信号的幅值约束参数之间的大小关系存在不同，以实现不同的混音效果。具体包括如下内容：①在强现实混音模式下，真实音频信号的幅值约束参数和虚拟音频信号的幅值约束参数均为有效值，且真实音频信号的幅值约束参数大于虚拟音频信号的幅值约束参数。②在强虚拟混音模式下，真实音频信号的幅值约束参数和虚拟音频信号的幅值约束参数均为有效值，且虚拟音频信号的幅值约束参数大于真实音频信号的幅值约束参数。③在对等混音模式下，真实音频信号的幅值约束参数和虚拟音频信号的幅值约束参数均为有效值，且虚拟音频信号的幅值约束参数等于真实音频信号的幅值约束参数。④在关闭现实混音模式下，真实音频信号的幅值约束参数为无效值，且虚拟音频信号的幅值约束参数为有效值。⑤在关闭虚拟混音模式下，真实音频信号的幅值约束参数为有效值，且虚拟音频信号的幅值约束参数为无效值。上述提及的有效值是指使得音频信号能够有效输出的参数值，例如大于0的数值；无效值是指使得音频信号无效输出的参数值，例如0。任一音频信号的幅值约束参数为无效值的情况下，代表不会输出相应音频信号。

示例性地，任一音频信号的幅值约束参数可包括目标幅值（或可称为目标db值）和最大增益值，在强现实混音模式下真实音频信号的目标db值会比虚拟音频信号的目标db值大，真实音频信号的最大增益值和会比虚拟音频信号的最大增益值要大，以实现在最终混音后虚拟世界声音的音量比现实世界声音的音量要小的目的。在强虚拟混音模式下，真实音频信号的目标db值会比虚拟音频信号的目标db值小，真实音频信号的最大增益值和会比虚拟音频信号的最大增益值要小，以实现最终混音后虚拟世界声音的音量比现实世界声音的音量要大。在对等混音模式下，真实音频信号的目标db值等于虚拟音频信号的目标db值小，真实音频信号的最大增益值等于比虚拟音频信号的最大增益值，使最终混音后听到的现实世界和虚拟世界声音处于对等水平，让用户听觉上感觉到两种声音比较和谐相融。以上混音模式下对应的幅值约束参数值均为有效值，能够有效地输出通过各个音量调节后的音频信号混音后得到的混音信号，而确保实现对应的混音效果。而在关闭现实混音模式（或关闭虚拟混音模式）下，真实音频信号（或虚拟音频信号）的幅值约束参数为无效值，示例性地，真实音频信号（或虚拟音频信号）的最大增益值为0，代表对应的输入声音信号（关闭现实世界声音对应的输入信号为真实音频信号，而关闭虚拟世界声音对应的输入信号为虚拟音频信号）将被乘以0，即不会输出对应的声音信号。

可见，当混音模式不同时，不同的幅值约束参数会使得增强现实场景中的音频信号的音量调节效果不同，进而带来不同的混音效果。目标混音模式可从以上至少两种混音模式中选取得到，从而满足所需的混音效果。

在一个实施例中，计算机设备在获取当前音频信号在目标混音模式下的幅值约束参数时，具体可执行如下步骤1.1-步骤1.4。

步骤1.1：获取预设映射表。

其中，预设映射表中包括多个模式标识以及每个模式标识所映射的参数组；一个模式标识用于标识一种混音模式，该模式标识可以是一个模式值，例如数字序号或模式名称，模式标识可用于唯一标识混音模式，不同模式标识所代表的混音模式不同，基于不同混音模式所需实现的不同混音效果，不同模式标识所映射的参数组也可不同，具体可体现在参数组所包括的幅值约束参数取值的不同上。模式标识与参数组可以是一一映射的关系，任一模式标识所映射的参数组包括：虚拟音频信号在相应模式标识所标识的混音模式下的第一幅值约束参数，以及真实音频信号在相应模式标识所标识的混音模式下的第二幅值约束参数。第一幅值约束参数和第二幅值约束参数可包括相同类型的参数，但参数的具体取值可不同，进而实现混音模式所需的混音效果。对于预设映射表的具体形式，可参见如下表1示例：

表1预设映射表示例：

由上所示，在混音模式为关闭现实混音模式和关闭虚拟混音模式下，最大增益值为0，而音量调节所需的目标db值并没有设定，这是因为在最大增益值取值为0时，该目标db值设置不一定是必须的。因为可直接按照最大增益值对相应的音频信号进行增益处理而使得最终的混音信号不输出该音频信号，实现对相应音频信号所表示的声音的关闭，这里的关闭的效果和屏蔽声音的效果是一致的。

步骤1.2：按照目标混音模式的模式标识查询预设映射表，得到目标混音模式的模式标识所映射的参数组。

在具体实现中，计算机设备可从预设映射表中查询与目标混音模式的模式标识相同的模式标识，进而将查询到的模式标识所映射的参数组作为目标混音模式的模式标识所映射的参数组。由此，所得到参数组包括：虚拟音频信号在目标混音模式下的第一幅值约束参数，以及真实音频信号在目标混音模式下的第二幅值约束参数，进而可基于当前音频信号为真实音频信号还是虚拟音频信号而从参数组中选取相匹配的幅值约束参数，如下步骤1.3-步骤1.4所示。

步骤1.3：若当前音频信号为虚拟音频信号，则从得到的参数组中选取第一幅值约束参数，作为当前音频信号在目标混音模式下的幅值约束参数。

如果当前音频信号为虚拟音频信号，说明当前进行音量调节处理的对象为虚拟音频信号，那么可将所得到的参数组中的第一幅值约束参数作为当前音频信号在目标混音模式下的幅值约束参数，以实现对虚拟音频信号的音量调节。

步骤1.4：若当前音频信号为真实音频信号，则从得到的参数组中选取第二幅值约束参数，作为当前音频信号在目标混音模式下的幅值约束参数。

如果当前音频信号为真实音频信号，说明当前进行音量调节处理的对象为真实音频信号，那么可将所得到的参数组中的第二幅值约束参数作为当前音频信号在目标混音模式下的幅值约束参数，以实现对真实音频信号的音量调节。

可以理解的是，本申请中步骤所携带的序号并不一定构成对执行顺序的限制，如步骤1.3或步骤1.4可并行执行，或可按照先后顺序执行。此外，本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

上述步骤1.1-步骤1.4所示的获取当前音频信号的幅值约束参数的方式，通过预设映射表可为每种混音模式提供对应的参数组，而混音模式的模式标识具有唯一性，可用于区别不同的混音模式，因此通过目标混音模式的模式标识，可快捷且准确地从预设映射表中查询得到目标混音模式的模式标识所映射的参数组，通过查表获取到当前音频信号所需的幅值约束参数，在提升处理效率的同时可保证后续处理的有效性和准确性。

（2）对当前音频信号进行信号电平监测，得到当前音频信号的电平描述值，该当前音频信号的电平描述值用于指示当前音频信号的幅值。

为了得到更加纯净的信号，可对当前音频信号进行降噪处理，得到降噪后的当前音频信号，再对该降噪后的当前音频信号进行信号电平监测。对于信号电平监测的大致逻辑可以如下：通过信号电平监测可先得到当前音频信号的电平，这里的电平指的是当前音频信号的样点幅度值（即采样点的幅值，或可称为样点幅值）大小，可以以dB或幅值大小为单位进行描述，如果用dB为单位则需要将样点幅度值通过如下公式转换得到：

其中，dB表示当前音频信号中某个采样点的幅值，可称为电平，Sample表示一个采样点的幅值，|Sample|表示样点幅值的绝对值。

在一个实施例中，计算机设备在执行上述（2）时，可以整个当前音频信号为单位进行信号电平监测处理，而不用对当前音频信号进行分帧，从而可将当前音频信号包括的各采样点的幅值作为电平描述值。

在另一个实施例中，由于音频信号是一个不断跳变的信号，在做音量调节时需要给出一个能代表信号幅值水平且相对平稳的电平描述值，因此，可基于获取到的电平来得到当前音频信号的电平描述值。计算机设备在执行上述（2）对当前音频信号进行信号电平监测，得到当前音频信号的电平描述值时，还可以音频帧为最小单元进行信号电平监测。具体流程包括以下步骤2.1-步骤2.4所示的内容：

步骤2.1对当前音频信号进行分帧处理，得到当前音频信号的K个音频帧，K为大于1的整数。

在具体实现中，可按照预设帧长对当前音频信号进行分帧处理，这样得到任一音频帧的帧长小于或等于该预设帧长。举例来说，预设帧长为5毫秒（ms），当前音频信号为3秒（s）的真实音频信号，那么对其进行分帧处理可得到60个音频帧。为保证分帧得到的音频帧前后的关联性，除了参考预设帧长，还可按照预设帧移来分帧，该预设帧移是指相邻两个音频帧之间重叠部分的时长，例如2毫秒。示例性地，如图5b所示的对当前音频信号进行分帧处理得到的示意图，其中，分帧得到的每个音频帧的帧长为20毫秒，而帧移为5毫秒。

步骤2.2遍历K个音频帧，确定当前遍历的第i个音频帧，i∈[1，K]。

在具体实现中，K个音频帧可按照在当前音频信号中的播放顺序依次排列，在遍历时，可依据音频帧在音频信号中的播放顺序依序遍历K个音频帧，进而实现对K个音频帧的依次处理。这里的播放顺序可以理解成是音频帧在音频信号中的排列位置，可通过音频帧的帧序号进行表示，当前遍历的第i个音频帧则可理解成是当前处理的音频帧。示例性地，真实音频信号被划分为100个音频帧，且帧序号分别为1，2…100，那么按照帧序号依序播放对应的音频信号音频帧能够完成地呈现真实音频信号，第i个音频帧例如是K个音频帧中第10个音频帧。

步骤2.3对第i个音频帧进行信号电平监测，得到第i个音频帧的电平描述值；或者，对第i个音频帧进行语音有效判别处理，并在判定第i个音频帧为有效音频帧的情况下，对第i个音频帧进行信号电平监测，得到第i个音频帧的电平描述值。

在一种具体实现中，可直接对第i个音频帧进行信号电平监测来得到第i个音频帧的电平描述值。在另一种实现中，为了避免无效的处理，可以先对第i个音频帧进行语音有效判别处理，判定出第i个音频帧为有效音频帧还是无效音频帧。进而在判定该第i个音频帧为有效音频帧的情况下，再进行信号电平监测。其中，有效音频帧是有效的语音信号，无效音频帧是无用的语音信号或者噪音信号，语音有效判别处理具体可采用VAD（voiceactivity detection，语音活跃检测），通过VAD可以从声音信号流里识别和消除长时间的静音期，将有效的语音信号和无用的语音信号或者噪音信号进行分离，以使后续的针对音频信号的处理工作更加高效。如果vad结果为1，表示第i个音频帧为有效音频帧，即有效语音信号，如果vad结果为0，表示第i个音频帧为无效音频帧，即无效语音信号，后续只对当前音频信号中vad结果为1的音频帧进行信号电平监测，而对vad结果为0的音频帧不进行信号电平监测。在此方式下，可实现对当前音频信号的有效判决，确定出当前音频信号中的有效音频帧和无效音频帧，进而筛选出当前音频信号中的有效语音信号并对其进行信号电平监测，保证音频处理的有效性，并节省后续所需的处理资源。

在一个实施例中，每个音频帧包括多个采样点及各个采样点的幅值。计算机设备对第i个音频信号进行信号电平监测，得到第i个音频帧的电平描述值的具体实现可包括以下内容：先对第i个音频帧中的各个采样点的幅值进行均值计算，得到第i个音频帧的信号幅值均值；然后对第i个音频帧的信号幅值均值进行平滑处理，得到第i个音频帧的电平描述值。

在均值计算的具体实现中，可基于第i个音频帧中的各个采样点的幅值进行求和，得到一个和值，然后根据该和值和第i个音频帧中采样点的数量进行平均，得到第i个音频帧的信号幅值均值，即音频帧内样点幅值的均值，也可称为帧幅值均值。该信号幅值均值可以通过幅值大小为单位或者dB（分贝）为单位进行描述。示例性地，第i个音频帧是一帧5毫秒（ms）的音频信号，若按照幅值大小来描述第i个音频帧的信号幅值均值，那么具体表达式可如下：

其中，表示第i个音频帧的信号幅值均值，单位为幅值大小，i表示帧序号，M为第i个音频帧内采样点的总数，/>表示第m个采样点的幅值。

若按照dB为单位进行描述，那么具体表达式如下：

其中，表示第i个音频帧的信号幅值均值，单位为dB。/>表示将以幅值大小表示的信号幅值均值转换为以dB为单位表示的信号幅值均值。

在得到第i个音频帧的信号幅值均值之后，在一种实现方式中，可直接将第i个音频帧的信号幅值均值作为第i个音频帧的电平描述值。在另一种实现方式中，为了使得音频信号的音量变化更加平稳，减少突然的峰值变化，可对第i个音频帧的信号幅值均值进行平滑处理，得到第i个音频帧的电平描述值。

上述方式所实现的信号电平监测，可计算一个音频帧内的样点幅值的均值，然后直接将计算得到的均值作为电平描述值，或者对计算得到的均值进行平滑处理后作为电平描述值。通过均值能够较好代表一段音频信号的幅值水平，而通过平稳处理能够进一步增加平稳性，所得到的电平描述值有利于辅助后续对当前音频信号的处理。

由于第i个音频帧可能是经过语音有效判别处理或者未经过语音有效判别处理，对于平滑处理的具体逻辑可参考以下a-c所示的内容：

a、在K个音频帧中查找第i个音频帧的参考音频帧。

该参考音频帧是K个音频帧中位于第i个音频帧之前的音频帧。并且，基于第i个音频帧是否经过语音有效判别处理，所需的参考音频帧是不同类型的音频帧，具体包括：若第i个音频帧未被进行语音有效判别处理，则参考音频帧包括第i-1个音频帧。示例性地，第i个音频帧为第2个音频帧，那么参考音频帧可以包括第1个音频帧。若第i个音频帧被进行了语音有效判别处理，则参考音频帧包括：位于第i个音频帧之前，且离第i个音频帧最近的有效音频帧。第i个音频帧是经过语音有效判别处理而确定的有效音频帧，离第i个音频帧最近的有效音频帧可能与第i个音频帧相邻或不相邻，这取决于第i个音频帧之前且相邻的音频帧是否为有效音频帧。示例性地，如果第i个音频帧是第3个音频帧，且第1个音频帧为有效音频帧，但第2个音频帧为无效音频帧，那么参考音频帧包括第1个音频帧。但无论是否经过语音判别处理，参考音频帧均是经过信号电平监测处理的一帧。基于第i个音频帧在K个音频帧中的位置，计算机设备可能查找到参考音频帧，也可能无法查找到参考音频帧，基于此，对于电平描述值的确定可分为以下b和c两种情况：

b、若未查找到参考音频帧，则将第i个音频帧的信号幅值均值作为第i个音频帧的电平描述值。具体地，如果未查找到参考音频帧，那么说明第i个音频帧为K个音频帧中的第1个音频帧或者第1个有效音频帧，进而可直接将第i个音频帧的信号幅值均值作为第i个音频帧的电平描述值。

c、若查找到参考音频帧，则采用参考音频帧的电平描述值，对第i个音频帧的信号幅值均值进行平滑处理，得到第i个音频帧的电平描述值。具体地，如果查找到参考音频帧，那么说明第i个音频帧不是K个音频帧中的第1个音频帧，也不是第1个有效音频帧，进而可采用参考音频帧的电平描述值来对当前处理的第i个音频帧的信号幅值均值进行平滑处理，得到第i个音频帧的电平描述值。

在一种具体实现中，计算机设备在采用参考音频帧的电平描述值，对第i个音频帧的信号幅值均值进行平滑处理，得到第i个音频帧的电平描述值时，具体可按照如下方式实现：首先可获取平滑处理所需的第一平滑系数和第二平滑系数，其中，第一平滑系数大于第二平滑系数。该第一平滑系数和第二平滑系数可基于经验值设定，例如第一平滑系数和第二平滑系数均设置为1以内的数值。示例性地，第一平滑系数记为a（也可称为长时平滑系数），第二平滑系数记为b（也可称为短时平滑系数），第一平滑系数和第二平滑系数均是小于1的数值，如a=0.95，b=0.4。在另一种实现方式中，第一平滑系数和第二平滑系数也可基于第i个音频帧的波动程度确定，例如第i个音频帧的波动程度指示第i个音频帧越波动，那么第一平滑系数可越大。

然后，可采用第一平滑系数和参考音频帧的电平描述值，对第i个音频帧的信号幅值均值进行长时平滑处理，得到长时平滑处理后的信号幅值均值。具体地，长时平滑处理（Long-term smoothing）可理解成是采用较大的平滑系数所执行的平滑处理，通过长时平滑处理可使音频信号在相对较长时间内的音量变化更加平缓，确保整个音频信号在不同部分之间保持一致的幅值水平。可采用第一平滑系数，对参考音频帧的电平描述值和第i个音频帧的信号幅值均值进行加权求和，得到长时平滑处理后的信号幅值均值。在具体实现中，可先将第一平滑系数作为参考音频帧的权重，并将基准数值和第一平滑系数之间的差值，作为第i个音频帧的权重，而后，根据参考音频帧的权重和第i个音频帧的权重，对参考音频帧的电平描述值和第i个音频帧的信号幅值均值进行加权求和，得到长时平滑处理后的信号幅值均值。其中，基准数值是约束平滑系数的最大取值的数值，例如1。在加权求和的具体过程中，可将参考音频帧的权重和参考音频帧的电平描述值之间的乘积，以及第i个音频帧的权重和第i个音频帧的信号幅值均值之间的乘积，进行求和处理而得到长时平滑处理后的信号幅值均值。具体计算表达式如下：

其中，表示长时平滑处理后的信号幅值均值，a表示第一平滑系数，/>表示参考音频帧的电平描述值，即第i-1个音频帧的长时平滑处理后的信号幅值均值，/>表示第i个音频帧的信号幅值均值。

与此，还可采用第二平滑系数和参考音频帧的电平描述值，对第i个音频帧的信号幅值均值进行短时平滑处理，得到短时平滑处理后的信号幅值均值。此处的短时平滑处理（Short-term smoothing）可理解成是采用较小的平滑系数所执行的平滑处理，通过短时平滑处理可使音频信号在相对较短时间内的音量变化更加平缓，确保音频信号不会出现过大的峰值或失真。可采用第二平滑系数，对参考音频帧的电平描述值和第i个音频帧的信号幅值均值进行加权求和，得到短时平滑处理后的信号幅值均值。在具体实现中，可先将第二平滑系数作为参考音频帧的权重，并将基准数值和第二平滑系数之间的差值，作为第i个音频帧的权重，而后，根据参考音频帧的权重和第i个音频帧的权重，对参考音频帧的电平描述值和第i个音频帧的信号幅值均值进行加权求和，得到短时平滑处理后的信号幅值均值。其中，基准数值是约束平滑系数的最大取值的数值，例如1。在加权求和的具体过程中，可将参考音频帧的权重和参考音频帧的电平描述值之间的乘积，以及第i个音频帧的权重和第i个音频帧的信号幅值均值之间的乘积，进行求和处理而得到短时平滑处理后的信号幅值均值。具体计算表达式如下：

其中，表示短时平滑处理后的信号幅值均值，/>表示第二平滑系数，表示参考音频帧的电平描述值，即第i-1个音频帧的短时平滑处理后的信号幅值均值，/>表示第i个音频帧的信号幅值均值。

最后，将长时平滑处理后的信号幅值均值和短时平滑处理后的信号幅值均值进行加权求和，得到第i个音频帧的电平描述值。其中，长时平滑处理后的信号幅值均值可简称为长时平滑值，短时平滑处理后的信号幅值均值可简称为短时平滑值，且在加权求和时可采用相应的权重系数，具体表达式如下：

其中，表示第i个音频帧的电平描述值，即根据长时平滑值和短时平滑值确定的最终平滑值；c表示权重系数，例如c=0.5，/>表示长时平滑处理后的信号幅值均值，表示短时平滑处理后的信号幅值均值。

可选地，上述短时平滑处理也被替换为中短时平滑处理，中短时平滑处理可以理解成介于长时平滑处理和短时平滑处理之间的一种平滑处理，其所采用的平滑系数也介于上述两种平滑处理所使用的平滑系数之间，例如短时平滑处理采用的平滑系数为0.3，长时平滑处理采用的平滑系数为0.9，而中短时平滑处理所采用的系数为0.7，那么上述平滑处理的具体过程中，通过中短时平滑处理可得到中短时平滑处理后的信号幅值均值，进而可将其与长时平滑处理后的信号幅值均值进行加权求和，而得到第i个音频帧的电平描述值。

通过上述对第i个音频帧所进行的长时平滑处理和短时平滑处理（或者中短时平滑处理），既能够保证音频帧在较长时间内的幅值变化更加平稳，还能够保证在较短时间内变化更加平缓，从而使得最终得到的电平描述值是一个相对平稳的值，有利于后续对音频信号的增益处理。

在另一种具体实现中，在对第i个音频帧的信号幅值均值进行平滑处理时，可获取一个平滑系数，还可基于第i个音频帧，朝着首帧的方向，依次选取出长时平滑处理所需的H个音频帧（也即第i个音频帧的前一帧到前H帧）以及短时平滑处理所需的F个音频帧（也即第i个音频帧的前一帧到前F帧）。H＞F，且H和F均为正整数。示例性地，第i个音频帧为第4个音频帧，那么可获取前1帧（即第3个音频帧）作为短时平滑处理所参考的音频帧，获取前3帧（包括第3个音频帧、第2个音频帧以及第1个音频帧）作为长时平滑处理所参考的音频帧；然后，采用该平滑系数和H个音频帧对第i个音频帧的信号幅值均值进行长时平滑处理，得到长时平滑处理后的信号幅值均值，并采用平滑系数和F个音频帧对第i个音频帧的信号幅值均值进行短时平滑处理，得到短时平滑处理后的信号幅值均值。此方式中，长时平滑处理可理解成是采用较多数量的音频帧所执行的平滑处理，短时平滑处理可理解成是采用较少数量的音频帧所执行的平滑处理。在长时平滑处理中参考更多数量的历史音频帧来调整当前的第i个音频帧的信号幅值均值，而在短时平滑处理中则可参考较少数量的历史音频帧来调整当前的第i个音频帧的信号幅值均值，提升音频帧所表示的音频信号的平稳性。

步骤2.4继续遍历，直至K个音频帧均被遍历，得到当前音频信号的电平描述值；该当前音频信号的电平描述值包括：监测得到的各个音频帧的电平描述值。

在处理完当前遍历的第i个音频帧之后，可继续遍历，从而对遍历到的音频帧进行如第i个音频帧类似的处理。在直接进行信号电平监测的情况下，所监测的各个音频帧包括K个音频帧，进而得到当前音频信号的电平描述值，即包括K个音频帧的电平描述值。在对音频帧进行语音有效判别的情况下，所监测到的各个音频帧是有效音频帧，那么当前音频信号的电平描述值包括J个有效音频帧的电平描述值，J≤K。当J＜K时，说明当前音频信号的K个音频帧中存在无效音频帧，对于无效音频帧可进行丢弃，而丢弃的方式可以是删除或者是屏蔽。当J＝K时，说明当前音频信号的K个音频帧均是有效音频帧，从而得到的当前音频信号的电平描述值包括K个音频帧的电平描述值。

上述步骤2.1-步骤2.4，通过对当前音频信号进行分帧处理，并对分帧得到的每个音频帧直接进行信号电平监测，从而快速地得到各个音频帧的电平描述值；也可以在进行语音有效判别处理后对有效音频帧进行信号电平监测，而获取到电平描述值，从而保证后续的有效处理，避免处理资源的无效浪费。

（3）根据获取到的幅值约束参数和当前音频信号的电平描述值，对当前音频信号的幅值所需的增益进行控制处理，得到当前音频信号的幅值增益。

在一种实现方式中，当前音频信号在目标混音模式下的幅值约束参数（即获取到的幅值约束参数）包括：目标幅值和幅值增益阈值，目标幅值是指当前音频信号在目标混音模式下对幅值进行调节所需达到的预期幅值（单位可以为db，或者幅值大小），也可称为目标db值，幅值增益阈值是用于约束当前音频信号在目标混音模式下进行音量调节所需的增益上限值，可用于限制为达到目标幅值所需的增益，避免出现不合理的音量调节，因此也可称为最大增益值。

在一种具体实现中，基于上述幅值约束参数，计算机设备可以整个当前音频信号为单位，根据该目标幅值和当前音频信号的电平描述值进行增益预测，得到当前信号的幅值达到该目标幅值所需的预测幅值增益，再从预测出的幅值增益和获取到的幅值增益阈值中选择较小的一个作为当前音频信号的幅值增益。

在另一种具体实现中，当前音频信号被分帧成K个音频帧，基于前述对当前音频信号进行信号电平监测是以音频帧为单位执行的，可选地，在信号电平监测之前还可判别当前处理的音频帧是否为有效音频帧，进而在有效音频帧的情况下得到电平描述值，因此，当前音频信号的电平描述值包括：K个音频帧中被进行信号电平监测的J个音频帧的电平描述值，K为大于1的整数且J≤K；基于此，计算机设备能够以音频帧为单位来确定出已被进行信号电平监测的各个音频帧的帧幅值增益。具体包括以下步骤3.1-步骤3.3。

步骤3.1遍历当前音频信号的电平描述值所涉及的J个音频帧，确定当前遍历的第j个音频帧；j∈[1，J]。

K个音频帧中被进行信号电平监测的J个音频帧可以按照播放顺序进行排列，由此，计算机设备可按照音频帧在音频信号中的排列位置来遍历J个音频帧，遍历到的第j个音频帧即为当前需处理的一个音频帧，且第j个音频帧已经过了信号电平监测而具有相应的电平描述值。在一种实现方式中，若J=K，那么第j个音频帧可对应前述进行信号电平监测遍历的第i个音频帧，示例性地，前述遍历的第1个音频帧在经过电平监测得到相应的电平描述值之后，可直接进行所需的增益的控制处理。在另一种实现方式中，若经过语音有效判别处理来决定是否进行电平监测，且J＜K，那么第j个音频帧是有效音频帧，第j个音频帧与前述进行信号电平监测遍历的第i个音频帧不一定对应，J个音频帧是从K个音频帧中筛选掉无效音频帧后形成的新的排列顺序的多个音频帧，示例性地，K个音频帧中第2个音频帧，实则是J个音频帧中的第1个音频帧。对于K个音频帧和J个音频帧，以及所遍历第i个音频和第j个音频帧之间的关系，可如图5c所示，经过语音有效判别处理后，K个音频帧中的第一个音频帧被判别为无效音频帧，从而得到J个音频帧为有效音频帧。

步骤3.2采用获取到的幅值约束参数中的目标幅值和第j个音频帧的电平描述值进行增益预测，得到预测幅值增益。

预测幅值增益是指：将第j个音频帧的电平描述值调整至目标幅值所需的增益。在具体的增益预测处理中，目标幅值和第j个音频帧的电平描述值需统一单位来保证计算的有效性。若目标幅值的单位是dB，那么该电平描述值的单位也需是dB，若目标幅值的单位是幅值大小，那么该电平描述值的单位也需是幅值大小。在单位为dB时，根据电平与幅值之间的换算关系，可先计算目标幅值和第j个音频帧的电平描述值之间的差值，然后，根据计算得到的差值来得到预测幅值增益，具体表达式可如下所示：

其中，表示预测幅值增益，db表示目标幅值，其单位为dB，/>表示第j个音频帧的电平描述值，可以是经过平滑处理后得到的一个平滑幅值。/>表示以a为底数，b为指数的乘幂计算，更通俗的表示即为：/>。

若单位均为幅值大小，那么可直接将第j个音频帧的电平描述值作为分母，目标幅值作为分子来计算两者的比值，并将计算得到的比值作为预测幅值增益，具体表达式如下：

其中，表示预测幅值增益，db表示目标幅值，其单位为幅值大小，/>表示第j个音频帧的电平描述值。

步骤3.3将获取到的幅值约束参数中的幅值增益阈值和预测幅值增益中的较小者，确定为对第j个音频帧的幅值进行调整所需的帧幅值增益。

为了避免音频帧的幅值调整过大而出现异常，可通过幅值增益阈值来进行最终的约束。如果计算得到的预测幅值增益大于幅值增益阈值，那么可将该幅值增益阈值作为对第j个音频帧的幅值进行调整所需的帧幅值增益，如果计算得到的预测幅值增益小于幅值增益阈值，那么可将该预测幅值增益阈值作为对第j个音频帧的幅值进行调整所需的帧幅值增益，当然如果两者相等，则可取其中任一个作为对第j个音频帧的幅值进行调整所需的帧幅值增益。上述提及的帧幅值增益是针对音频帧而言的用于调节音频帧的幅值所需的一个幅值增益。具体计算公式可如下所示：

其中，表示第j个音频帧的帧幅值增益，min（）表示取多个参数中的最小值，表示幅值增益阈值，Gr表示预测幅值增益。

可理解的是，对于J个音频帧中的每个音频帧，均可按照上述方式确定出对应的帧幅值增益，而不同音频帧的帧幅值增益可以相同或不同。示例性地，第1个音频帧和第2个音频帧的帧幅值增益均为幅值增益阈值，又例如，第1个音频帧的帧幅值增益为幅值增益阈值，而第3个音频帧的帧幅值增益是预测幅值增益。

步骤3.3继续遍历，直至J个音频帧均被遍历，得到当前音频信号对应的幅值增益。

计算机设备可继续遍历当前音频帧的下一个音频帧，并将下一个音频帧作为新的当前音频帧，并对其进行如步骤3.2-步骤3.3类似的处理，得到该音频帧的帧幅值增益。通过不断地遍历，便可得到已被进行信号电平监测的各个音频帧分别对应的帧幅值增益，进而可得到当前音频信号的幅值增益。也即，当前音频信号的幅值增益包括：J个音频帧中的每个音频帧对应的帧幅值增益。示例性地，当前音频信号包括100帧，其中80帧已被进行信号电平监测，那么当前音频信号的幅值增益可包括80个音频帧各自对应的帧幅值增益。所确定出的各个帧幅值增益可用于对音频帧进行幅值的调节，继而实现对当前音频信号的音量调节。

上述步骤3.1-步骤3.3所示的方式下，通过目标幅值与音频帧的电平描述值可先预测出一个初始的幅值增益，然后利用幅值增益阈值对预测出的初始的幅值增益进行约束，进而实现对音频帧所需的帧幅值增益的控制，保证后续音频帧的幅值的合理调整。

（4）采用当前音频信号的幅值增益对当前音频信号的幅值进行增益处理，以调节当前音频信号的音量，得到音量调节后的当前音频信号。

在一个实施例中，计算机设备可以整个当前音频信号为单位，当前音频信号的幅值增益可包括一个幅值增益，进而采用该当前音频信号的幅值增益可对当前音频信号包括的各个采样点的幅值进行增益处理，而实现对当前音频信号的音量的调节，得到音量调节后的当前音频信号。在此方式下，音量调节后的当前音频信号包括各个采样点和各采样点的增益后的幅值。对于当前音频信号中各个采样点的幅值的调节均是统一的，能够实现对当前音频信号的幅值快速调节，提升音量调节的效率。

在另一个实施例中，当前音频信号被分帧成K（K为大于1的整数）个音频帧，也即当前音频信号可被分帧得到至少两个音频帧；当前音频信号的幅值增益包括：K个音频帧中被进行信号电平监测的J个音频帧的帧幅值增益，J≤K。计算机设备在执行上述（4）所示的内容时，具体可执行以下步骤4.1-步骤4.5：

步骤4.1遍历当前音频信号的电平描述值所涉及的J个音频帧，确定当前遍历的第j个音频帧；j∈[1，J]。

在具体实现中，J个音频帧可以按照播放顺序进行排列，由此，计算机设备可按照音频帧在音频信号中的播放顺序来遍历J个音频帧，遍历到的第j个音频帧即为当前需处理的一个音频帧，例如可以J个音频帧中的第1个音频帧为遍历的起点，朝着音频帧的排列位置增大的方向进行遍历。第j个音频帧已经过了信号电平监测而具有相应的电平描述值，且J个音频帧以按照上述（3）所介绍的内容进行所需增益的控制而得到对应的帧幅值增益。

在一种实现方式中，每个音频帧包括多个采样点及与各个采样点的幅值，计算机设备可采用第j个音频帧的帧幅值增益对第j个音频帧每个采样点的幅值进行增益处理，得到第j个音频帧的增益后的幅值；具体地，可将第j个音频帧的帧幅值增益乘以第j个音频帧每个采样点的幅值，所得到的结果即为增益后的幅值。然后，可根据各个采样点以及与每个采样点的增益后的幅值，生成第j个音频帧对应的音量调节后的第j个音频帧。在此方式下，以音频帧为单位进行幅值的调节，以实现对音频帧的音量进行调节，相比于以当前音频信号整体为单位进行幅值的调节，是一种相对精细的音量调节方式，能够按照音频帧的特点进行合适调整，而使得最终得到的音量调节后的当前音频信号是比较自然的。

在另一种实现方式中，为了避免音频信号调节过程突变导致声音出现杂音，可以将当前处理的音频帧按更小的粒度，例如1ms的长度进行逐级增益调整。如下步骤4.2-步骤4.4所示。

步骤4.2将第j个音频帧划分成N个音频子块，并确定N个音频子块中的各个音频子块的幅值，N为大于1的整数。

具体的，可先对第j个音频帧进行划分处理，通过划分处理将第j个音频帧分为帧长更小的音频子块（或可称为子块，或音频子帧），并以音频子块为单位对音频帧的幅值进行逐级调节，能够使得音频信号的音量变化更加平滑。在一种实现方式中，可按照预设子块帧长对第j个音频帧进行划分处理，得到至少两个音频子块，每个音频子块的帧长小于或等于该预设子块帧长。示例性地，如图5d所示，第j个音频帧的帧长为5毫秒（ms），可按照每块1ms的长度将其划分成5个音频子块；另一种实现方式中，可按照预设数量对第j个音频帧进行划分，进而得到预设数量的音频子块，且各个音频子块的帧长可以相等。示例性地，按照预设数量5可将5毫秒的音频帧划分为5个音频子块。之后可以音频子块为单位，对划分得到的音频子块的幅值进行增益，具体是对音频子块的各个采样点的幅值进行增益，以实现对第j个音频帧的音量调节。

步骤4.3根据第j个音频帧的帧幅值增益，逐级地对N个音频子块中的各个音频子块的幅值进行增益处理，以调节各个音频子块的音量。

在具体实现中，可以根据第j个音频帧的帧幅值增益为N个音频子块中的各个音频子块确定出块幅值增益，任一音频子块的块幅值增益是用于对音频子块的幅值进行增益而需的一个幅值增益（也可称为子块增益，subgain）；根据各个音频子块的块幅值增益，可实现逐级地对各个音频子块的幅值进行增益处理，以调节各个音频子块的音量。通过逐级地对各个音频子块的幅值进行增益处理，可使得同一音频帧划分得到的各个音频子块在增益之后的幅值是逐级变化的，例如逐级增大或逐级减小，而音量是以更小的粒度逐级调节的。

可理解的是，本申请中所提及的“当前音频信号的幅值增益”、“音频帧的帧幅值增益”以及“音频子块的块幅值增益”，其本质都是调整幅值所需的一个增益值，只是为便于区分，针对不同长度的音频信号而采用了不同命名，针对完整的当前音频信号而言，其对应的就是幅值增益，而对于较小的音频帧而言，其对应的幅值增益叫作帧幅值增益，对于更小的音频子块而言，其对应的幅值增益叫作块幅值增益。

在一个实施例中，计算机设备在执行步骤4.3之前，还可确定第j个音频帧在J个音频帧中的排列位置，该排列位置可用于指示第j个音频帧是否为J个音频帧中的首个音频帧，也即第j个音频帧是否排列在首位。或者也可理解为第j个音频帧对应的第i个音频帧是否为K个音频帧中被进行信号电平监测的首个音频帧。基于该排列位置的不同，可存在以下两种情况：若确定出的排列位置是非首位，则触发执行上述步骤4.3。也就是说，如果第j个音频帧为J个音频帧中的非首个音频帧，可执行根据第j个音频帧的帧幅值增益，逐级地对N个音频子块中的各个音频子块的幅值进行增益处理的步骤，来实现对该第j个音频帧的音量的逐级调节。若确定出的排列位置是首位，则采用第j个音频帧的帧幅值增益，分别对N个音频子块中的各个音频子块的幅值进行增益处理，以调节各个音频子块的音量。也就是说，如果第j个音频帧为J个音频帧中的首个音频帧，那么可将第j个音频帧的帧幅值增益作为各个音频子块的块幅值增益，进而采用块幅值增益来对J个音频帧中的首个音频帧被划分得到的各个音频子块的幅值进行增益处理，以实现对各个音频子块的音量调节，从而实现对J个音频帧中的首个音频帧的音量调节，在此方式下，N个音频子块的幅值调整采用的是统一的块幅值增益，而能够快速地调节首个音频帧。

在一种实现方式中，计算机设备在按照步骤4.3实现对第j个音频帧的调节时，具体可执行如下步骤4.3.1-步骤4.3.2。

步骤4.3.1根据第j个音频帧的帧幅值增益，以及N个音频子块中的各个音频子块在N个音频子块中的排列位置，确定各个音频子块的块幅值增益。

不同音频子块的块幅值增益，随着相应音频子块在N个音频子块中的排列位置的增加而逐级变化。此处的逐级变化可能是逐级增加或者逐级减少。示例性地，第j个音频帧被划分为5个音频子块，第j个音频帧的帧幅值增益为5，而每个音频子块的块幅值增益分别为3.0、3.4、3.8、4.2、4.6以及5，可见，音频子块的块幅值增益是逐级增大的，从而将这些块幅值增益运用在音频子块的幅值调节上，通过对音频子块为单位的逐级增益调整，可实现对音频帧的逐级增益调整，进而可使得音频帧的音量调节更加平滑。

在一种可行的实施方式中，第j个音频帧在J个音频帧中的排列位置为非首位，计算机设备在执行上述步骤4.3.1时，具体可按照如下方式来实现：

①确定J个音频帧中的第j-1个音频帧的帧幅值增益，并将第j个音频帧的帧幅值增益和第j-1个音频帧的帧幅值增益之间的差值，作为第j个音频帧相对于第j-1个音频帧的帧幅值增益差值。第j-1个音频帧是J个音频帧中的第j个音频帧的前一音频帧，两个相邻的音频帧在帧幅值增益上的差值，即帧幅值增益差值可记为g(j)-g(j-1)，其中，g(j)为第j个音频帧的帧幅值增益，g(j-1)为第j-1个音频帧的帧幅值增益。②针对N个音频子块中的第n个音频子块，根据第n个音频子块在N个音频子块中的排列位置，和帧幅值增益差值，确定第n个音频子块相对于第j-1个音频帧所需的块幅值增益变化值。具体来说，可确定第n个音频子块的排列位置n和划分得到的音频子块的总数量N之间的比值，进而将计算出的比值n/N和帧幅值增益差值之间的乘积，作为第n个音频子块相对于第j-1个音频帧所需的块幅值增益变化值。具体表达式可以为：。最终，③根据块幅值增益变化值和第j-1个音频帧的帧幅值增益，得到第n个音频子块的块幅值增益。

示例性地，按照上述方式计算块幅值增益所对应的完整表达式可如下所示：

其中，表示第n个音频子块的块幅值增益，n表示第n个音频子块的子块序号，代表第n个音频子块在N个音频子块中的排列位置，N表示对第j个音频帧进行划分得到的音频子块的总数量，/>表示第j个音频帧的帧幅值增益，/>表示第j-1个音频帧的帧幅值增益。

基于上述表达式，第j-1个音频帧划分得到的各个音频子块中的最后一个音频子块的块幅值增益是与第j-1个音频帧的帧幅值增益相同的，从而可使得对应不同音频帧的相邻音频子块的幅值调整的过渡较为平缓而不是突兀的。可理解的是，针对N个音频子块中的每个非首位的音频子块，均可按照上述方式得到对应的块幅值增益，进而采用块幅值增益来实现对音频帧的逐级增益调整。

在确定第n个音频子块时，计算机设备可依序遍历N个音频子块，并将当前遍历到的音频子块确定为第n个音频子块；n∈[1，N]，进而依次计算出N个音频子块的块幅值增益。或者，计算机设备可对N个音频子块的块幅值增益进行并行地计算，各个音频子块均可按照上述介绍的方式来并行地计算出块幅值增益，从而快速地确定出N个音频子块各自的块幅值增益。

通过上述方式，可基于当前处理的音频帧的帧幅值增益和前一音频帧的帧幅值增益计算得到音频子块的块幅值增益，并且所得到的块幅值增益能够随着各个音频子块的块幅值增益随着排列位置的增大而逐级变化，通过块幅值增益的逐级变化调整音频子块，可使得在一个音频帧之内的幅值也以音频子块为单位逐级变化，从而可使得一帧内的幅值调整是平稳的，而基于相邻音频帧之间的幅值增益的衔接，相邻音频帧之间的幅值变化也是平稳的。

在一种具体实现中，第j-1个音频帧划分得到的各个音频子块中最后一个音频子块的块幅值增益也用于第j个音频帧中各个音频子块的块幅值增益的确定过程中，以实现块幅值增益的逐级变化。具体实现中，可将上述提及第j-1个音频帧的帧幅值增益，替换为第j-1个音频帧划分得到的各个音频子块中最后一个音频子块的块幅值增益，针对第n个音频子块，依次得到相应的帧幅值增益差值和块幅值增益变化值，进而该块幅值增益变化值与第j-1个音频帧划分得到的最后一个音频子块的块幅值增益之和，作为第n个音频子块的块幅值增益。

在另一个实施例中，无论第j个音频帧在J个音频帧中的排列位置是否为首位，均能够触发执行上述步骤4.3。为实现对音频帧中各个音频子块的幅值进行逐级增益，对于J个音频帧中排列位置处于首位的音频帧，也即第j个音频帧在J个音频帧中的排列位置为首位的情况下，可根据各个音频子块在N个音频子块中的排列位置和第j个音频帧的帧幅值增益，确定各个音频子块的块幅值增益，这样，音频子块的块幅值增益由音频子块的排列位置决定的，不同音频子块的块幅值增益不同，且N个音频子块的块幅值增益随音频子块的排列位置的增大而逐级变化，以根据各个音频子块的块幅值增益实现逐级地对N个音频子块中各个音频子块进行幅值调整。具体地，针对N个音频子块中的第n（n∈[1，N]）个音频子块，可计算第n个音频子块在N个音频子块中排列位置n和第j个音频帧被划分得到的音频子块的总数量N之间的比值，然后将该比值与第j个音频帧的帧幅值增益相乘，得到的乘积结果即为第n个音频子块的块幅值增益。示例性地，对于上述计算表达式可如下所示：

其中，表示第n个音频子块的块幅值增益，n表示第n个音频子块的子块序号，可代表音频子块在N个音频子块中的排列位置，N表示第j个音频帧被划分得到的音频子块的总数量，g（1）表示J个音频帧中的第一个音频帧的帧幅值增益。

可理解的是，通过上述方式计算得到的N个音频子块中的最后一个音频子块的块幅值增益即为第j个音频帧的帧幅值增益。并且，在上述方式中确定的不同音频子块的块幅值增益，随着音频子块在N个音频子块中的排列位置n的增加而逐级增大，以实现对第j个音频帧的幅值以音频子块为单位的逐级调节。

步骤4.3.2采用各个音频子块的块幅值增益对相应音频子块的幅值进行增益处理。

通过采用各个音频子块的块幅值增益对相应音频子块中的幅值进行增益处理，可得到各个音量调节后的音频子块。以第n个音频子块为例，第n个音频子块中包括多个采样点以及各个采样点的幅值，计算机设备可采用所确定的块幅值增益来对第n个音频子块中的幅值进行增益处理，得到第n个音频子块对应的增益后的幅值，具体可将各个采样点的幅值与第n个音频子块的块幅值增益相乘，所得到的乘积即为相应采样点的增益后的幅值，即第n个音频子块对应的增益后的幅值包括各个采样点的增益后的幅值，然后，可将各个采样点的增益后的幅值和各个采样点进行整合，便可得到音量调节后的第n个音频子块。对于N个音频子块中的每个音频子块，均可按照上述方式来进行增益处理，而得到各个音量调节后的音频子块，各个音量调节后的音频子块所具有的音量也随着相应音频子块N个音频子块中的排列位置的增大而逐级变化。

上述步骤4.3.1-步骤4.3.2所示的针对音频帧的音量调节方式，是以音频子块为单位，并通过音频子块的块幅值增益实现对一个音频帧内各个音频子块的幅值的逐级调节，进而使得音频帧的音量调节是平稳过渡的。

步骤4.4在得到音量调节后的各个音频子块后，采用所述音量调节后的各个音频子块，拼接得到音量调节后的第j个音频帧。

音量调节后的任一音频子块是通过幅值增益来实现音量调节而得到新的音频子块。计算机设备可将音量调节后的各个音频子块按照排列位置进行拼接，从而得到音量调节后的第j个音频帧。

步骤4.5继续遍历，直至J个音频帧均被遍历，得到音量调节后的J个音频帧，并对音量调节后的J个音频帧进行拼接，得到音量调节后的当前音频信号。

在对第j个音频帧处理完之后，计算机设备可继续遍历下一个音频帧，进而类似的逻辑进行逐级增益，得到音量调节后的音频帧，直至将J个音频子块都遍历完，这样便可得到各个已经过信号电平监测的各个音频帧各自对应音量调节后的音频帧，进而将音量调节后的各个音频帧按照排列位置进行拼接，得到音量调节后的当前音频信号。

在一种具体实现中，可直接按照排列位置将音量调节后的各个音频帧拼接得到音量调节后的当前音频信号；在另一种具体实现中，若L小于K，即K个音频帧中被进行信号电平监测的音频帧的数量小于K，表示K个音频帧中存在部分未进行信号电平监测的无效音频帧，计算机设备可将各个音量调节后的音频帧和K个音频帧中除J个音频帧之外的其他音频帧进行拼接，得到音量调节后的当前音频信号。

可理解的是，对于当前音频信号而言，以划分得到的音频帧为处理对象，能够对经过信号电平监测的每个音频帧中所划分得到的各个音频子块，按照如上述步骤4.1-步骤4.5所示的方式逐级地调节音频帧的幅值，具体实现中，基于第j个音频帧的帧幅值增益，可为N个音频子块中的各个音频子块确定出合适的块幅值增益，进而基于块幅值增益对相应音频子块进行增益处理，通过块幅值增益实现对音频帧内各个音频子块的逐级增益，实现对音频帧的音量的平稳调节，进而得到音量调节后的音频信号所对应的音量变化是较为平滑的。

上述（1）-（4）所示的音量调节方式，适用于真实音频信号或者虚拟音频信号，且在具体处理过程中，可监测所处理的当前音频信号的电平，进而基于当前音频信号在目标混音模式下的幅值约束参数和监测到的电平描述值，来进行增益控制处理，从而确定出一个合适幅值增益用于调节当前音频信号的幅值，通过幅值的调节来最终得到音量调节后的当前音频信号。此过程以实现目标混音模式所需的混音效果为目标，通过幅值约束参数来约束当前音频信号的幅值的调节，使得幅值调节更加合理，从而得到用于混音的较佳的音量调节后的音频信号，有利于实现较佳的混音效果。

基于上述介绍，可提供如图6a所示的音量调节的一个示例性的流程图，如图6a所示，通过立体声录音耳机可实时地采集现实世界立体声而形成声音信号，以输入的声音信号为采集到的现实世界的声音信号为例，可将该声音信号转换为真实音频信号，而后以音频帧为单位进行语音有效判别处理（如VAD判别），再以音频帧为最小单元，对有效音频帧进行信号电平监测，并在监测得到电平描述值之后，可基于目标混音模式的设置所对应的目标幅值和幅值增益阈值，来对有效音频帧进行增益控制，通过增益控制可确定出对有效音频帧进行幅值调整所需的幅值增益，最终再对该有效音频帧的样点幅值进行调整，以得到音量调节后的音频帧，按照上述流程，对于每个有效音频帧均可进行调整而实现音量调节，并最终得到音量调节后的真实音频信号。

S404，混合音量调节后的真实音频信号以及音量调节后的虚拟音频信号，得到混音信号。

在一种具体实现中，可采用混音算法，例如平均权重法或自适应权重法，对音量调节后的真实音频信号以及音量调节后的虚拟音频信号进行混合，得到混音信号并输出，该混音信号是现实世界声音和虚拟世界声音融合得到的结果，这样便完成对增强现实场景中的音频处理，并实现对现实世界声音和虚拟世界声音的增强处理。

在一种可实现的方式中，每种混音模式均对应有权重参数组，该权重参数组包括在相应混音模式下针对真实音频信号的第一权重，以及在相应混音模式下针对虚拟音频信号的第二权重。不同混音模式对应的权重参数组不同，具体代表着现实世界声音和虚拟世界声音能够以不同的权重进行混音。而通过权重参数组的加持，能够进一步增强相应混音模式下所实现的混音效果。示例性地，在对等混音模式下，与之对应的权重参数组中的第一权重和第二权重可相同，在强现实混音模式下，与之对应的权重参数组中的第一权重大于第二权重，以进一步增强真实音频信号的音量，使得现实世界声音更容易被听到。

计算机设备可获取目标混音模式对应的权重参数组，并将其作为目标权重参数组，该目标权重参数组包括在目标混音模式下针对真实音频信号的第一权重，以及在目标混音模式下针对虚拟音频信号的第二权重。然后，计算机设备可采用该目标参数组中的第一权重和第二权重，对音量调节后的真实音频信号以及音量调节后的虚拟音频信号进行加权处理，进而得到混音信号。在具体实现中，可将第一权重与音量调节后的真实音频信号之间的乘积的结果，与第二权重与音量调节后的真实音频信号之间的乘积的结果求和，得到的加权求和结果即可作为混音信号。

本申请实施例针对增强现实场景中的真实音频信号和虚拟音频信号，在确定出目标混音模式之后，可按照目标混音模式对真实音频信号和虚拟音频信号进行音量调节处理，通过音量调节可达到混音效果所需的音量值，然后可将音量调节后的真实音频信号和音量调节后的虚拟音频信号进行混音，而得到混音信号并输出。整个过程中，用户可自主设定目标混音模式或者计算机设备自动确定目标混音模式，并按照目标混音模式来控制音频信号的音量调节，而通过音量调节可使得混音后现实世界声音和虚拟世界声音达到较好的混音效果，带来相应的听觉感知体验。

根据上述S401-S404所示的内容，还可提供如图6b所示的一个示例性的流程图。如图6b所示，可获取立体声录音信号，该立体声录音信号是通过立体声录音耳机实时采集现实世界声音而得到的，之后可通过降噪处理过滤环境噪声干扰后得到去噪后的真实音频信号，去噪后的真实音频信号可参与到后期与虚拟世界声源的相关处理中，可按照如图6a所示的音量调节流程，对真实声源和虚拟声源音量进行调节，具体可基于配置的目标混音模式对该声源所产生的声音对应的音频信号的音量进行调节，最终再将音量调节后的真实音频信号和音量调节后的虚拟音频信号进行混音而实现现实世界立体声和虚拟世界立体声的混音。本方案主要聚焦在听觉方面现实世界和虚拟世界声音的融合，具体是一个把现实世界和虚拟世界的音频信号进行融合的方案，该方案中可以通过立体声录音耳机采集外部现实世界声音，该声音将成为一个具有方位感的声源与虚拟空间声源进行后期处理，用户可以设定不同的混音模式控制现实世界声源的混入方式，最终现实世界和虚拟世界声音经增强处理后立体声混合输出。示例性地，通过AR耳机将现实世界的声音通过立体声麦克风采集后，现实世界的声音可作为一个独立的立体声声源产生的声音与虚拟世界构造的声源所产生的声音进行立体声混音，用户可通过自定义混音模式，实现现实世界声源和虚拟世界声源的不同混音效果，可以解决目前AR场景中只有视觉融合而音频方面没有深度融合的问题。

接下来对本申请实施例涉及的音频处理装置进行相关阐述。

请参见图7，图7是本申请实施例提供的一种音频处理装置的结构示意图，该音频处理装置可以设置于本申请实施例提供的计算机设备中，示意性地，计算机设备可以是上述方法实施例中提及的计算机设备。图7所示的音频处理装置可以是运行于计算机设备中的一个计算机程序（包括程序代码），该音频处理装置可以用于执行图2以及图4所示的方法实施例中的部分或全部步骤。该音频处理装置可以包括如下单元。

获取单元701，用于获取增强现实场景中的真实音频信号和虚拟音频信号，真实音频信号是指在增强现实场景所涉及的现实环境中采集到的音频信号，虚拟音频信号是指在增强现实场景所涉及的虚拟环境中构造出的音频信号；

处理单元702，用于确定针对增强现实场景所配置的多种混音模式，并从多种混音模式中选取一个混音模式作为目标混音模式；其中，不同混音模式用于实现真实音频信号和虚拟音频信号之间的不同混音效果；

处理单元702，还用于按照目标混音模式，对真实音频信号和虚拟音频信号进行混音处理，得到混音信号；以及，

输出单元703，用于输出混音信号。

在一个实施例中，处理单元702在从多种混音模式中选取一个混音模式作为目标混音模式时，具体用于：

获取模式配置操作，并根据模式配置操作从多种混音模式中选取一个混音模式作为目标混音模式；

其中，模式配置操作包括：针对增强现实应用中所显示的多个模式标识的选择操作，一个模式标识对应一种混音模式；或者，模式配置操作包括：通过操控增强现实设备上的物理按键所执行的模式选择操作。

确定增强现实场景所涉及的现实环境的地理位置信息，并根据地理位置信息确定出现实环境所属的环境类型；

根据确定出的环境类型对声音的融合需求，从多种混音模式中选取一个混音模式作为目标混音模式。

在一个实施例中，处理单元702在按照目标混音模式，对真实音频信号和虚拟音频信号进行混音处理，得到混音信号时，具体用于：

按照目标混音模式，分别对真实音频信号和虚拟音频信号进行音量调节，得到音量调节后的真实音频信号和音量调节后的虚拟音频信号；

混合音量调节后的真实音频信号以及音量调节后的虚拟音频信号，得到混音信号。

在一个实施例中，音频信号的音量随着音频信号的幅值变化而发生变化；处理单元702在按照目标混音模式，分别对真实音频信号和虚拟音频信号进行音量调节，得到音量调节后的真实音频信号和音量调节后的虚拟音频信号时，具体用于：

遍历真实音频信号和虚拟音频信号，将当前遍历的音频信号作为当前音频信号，获取当前音频信号在目标混音模式下的幅值约束参数；

对当前音频信号进行信号电平监测，得到当前音频信号的电平描述值；当前音频信号的电平描述值用于指示当前音频信号的幅值；

根据获取到的幅值约束参数和当前音频信号的电平描述值，对当前音频信号的幅值所需的增益进行控制处理，得到当前音频信号的幅值增益；

采用当前音频信号的幅值增益对当前音频信号的幅值进行增益处理，以调节当前音频信号的音量，得到音量调节后的当前音频信号。

在一个实施例中，处理单元702在获取当前音频信号在目标混音模式下的幅值约束参数时，具体用于：

获取预设映射表；预设映射表中包括多个模式标识以及每个模式标识所映射的参数组；任一模式标识所映射的参数组包括：虚拟音频信号在相应模式标识所标识的混音模式下的第一幅值约束参数，以及真实音频信号在相应模式标识所标识的混音模式下的第二幅值约束参数；

按照目标混音模式的模式标识查询预设映射表，得到目标混音模式的模式标识所映射的参数组；

若当前音频信号为虚拟音频信号，则从得到的参数组中选取第一幅值约束参数，作为当前音频信号在目标混音模式下的幅值约束参数；

若当前音频信号为真实音频信号，则从得到的参数组中选取第二幅值约束参数，作为当前音频信号在目标混音模式下的幅值约束参数。

在一个实施例中，多种混音模式包括以下至少两种：强现实混音模式、强虚拟混音模式、对等混音模式、关闭现实混音模式以及关闭虚拟混音模式；任一音频信号的幅值约束参数，与相应音频信号在进行音量调节后所具有的音量正相关；

在强现实混音模式下，真实音频信号的幅值约束参数和虚拟音频信号的幅值约束参数均为有效值，且真实音频信号的幅值约束参数大于虚拟音频信号的幅值约束参数；

在强虚拟混音模式下，真实音频信号的幅值约束参数和虚拟音频信号的幅值约束参数均为有效值，且虚拟音频信号的幅值约束参数大于真实音频信号的幅值约束参数；

在对等混音模式下，真实音频信号的幅值约束参数和虚拟音频信号的幅值约束参数均为有效值，且虚拟音频信号的幅值约束参数等于真实音频信号的幅值约束参数；

在关闭现实混音模式下，真实音频信号的幅值约束参数为无效值，且虚拟音频信号的幅值约束参数为有效值；

在关闭虚拟混音模式下，真实音频信号的幅值约束参数为有效值，且虚拟音频信号的幅值约束参数为无效值。

在一个实施例中，处理单元702在对当前音频信号进行信号电平监测，得到当前音频信号的电平描述值时，具体用于：

对当前音频信号进行分帧处理，得到当前音频信号的K个音频帧，K为大于1的整数；

遍历K个音频帧，确定当前遍历的第i个音频帧，i∈[1，K]；

对第i个音频帧进行信号电平监测，得到第i个音频帧的电平描述值；或者，对第i个音频帧进行语音有效判别处理，并在判定第i个音频帧为有效音频帧的情况下，对第i个音频帧进行信号电平监测，得到第i个音频帧的电平描述值；

继续遍历，直至K个音频帧均被遍历，得到当前音频信号的电平描述值；当前音频信号的电平描述值包括：监测得到的各个音频帧的电平描述值。

在一个实施例中，每个音频帧包括多个采样点以及各个采样点的幅值；处理单元702在对第i个音频帧进行信号电平监测，得到第i个音频帧的电平描述值时，具体用于：

对第i个音频帧中的各个采样点的幅值进行均值计算，得到第i个音频帧的信号幅值均值；

对第i个音频帧的信号幅值均值进行平滑处理，得到第i个音频帧的电平描述值。

在一个实施例中，处理单元702在对第i个音频帧的信号幅值均值进行平滑处理，得到第i个音频帧的电平描述值时，具体用于：

在K个音频帧中查找第i个音频帧的参考音频帧，其中，若第i个音频帧未被进行语音有效判别处理，则参考音频帧包括第i-1个音频帧；若第i个音频帧被进行了语音有效判别处理，则参考音频帧包括：位于第i个音频帧之前，且离第i个音频帧最近的有效音频帧；

若未查找到参考音频帧，则将第i个音频帧的信号幅值均值作为第i个音频帧的电平描述值；

若查找到参考音频帧，则采用参考音频帧的电平描述值，对第i个音频帧的信号幅值均值进行平滑处理，得到第i个音频帧的电平描述值。

在一个实施例中，当前音频信号被分帧成K个音频帧；当前音频信号的电平描述值包括：K个音频帧中被进行信号电平监测的J个音频帧的电平描述值，K为大于1的整数且J≤K；获取到的幅值约束参数包括：目标幅值和幅值增益阈值；

处理单元702在根据获取到的幅值约束参数和当前音频信号的电平描述值，对当前音频信号的幅值所需的增益进行控制处理，得到当前音频信号的幅值增益时，具体用于：

遍历当前音频信号的电平描述值所涉及的J个音频帧，确定当前遍历的第j个音频帧；j∈[1，J]；

采用获取到的幅值约束参数中的目标幅值和第j个音频帧的电平描述值进行增益预测，得到预测幅值增益；预测幅值增益是指：将第j个音频帧的电平描述值调整至目标幅值所需的增益；

将获取到的幅值约束参数中的幅值增益阈值和预测幅值增益中的较小者，确定为对第j个音频帧的幅值进行调整所需的帧幅值增益；

继续遍历，直至J个音频帧均被遍历，得到当前音频信号的幅值增益；其中，当前音频信号的幅值增益包括：J个音频帧中的每个音频帧对应的帧幅值增益。

在一个实施例中，当前音频信号被分帧成K个音频帧，当前音频信号的幅值增益包括：K个音频帧中被进行信号电平监测的J个音频帧的帧幅值增益；K为大于1的整数且J≤K；

处理单元702在采用当前音频信号的幅值增益对当前音频信号的幅值进行增益处理，以调节当前音频信号的音量，得到音量调节后的当前音频信号时，具体用于：

将第j个音频帧划分成N个音频子块，并确定N个音频子块中的各个音频子块的幅值，N为大于1的整数；

根据第j个音频帧的帧幅值增益，逐级地对N个音频子块中的各个音频子块的幅值进行增益处理，以调节各个音频子块的音量；

在得到音量调节后的各个音频子块后，采用音量调节后的各个音频子块，拼接得到音量调节后的第j个音频帧；

继续遍历，直至J个音频帧均被遍历，得到音量调节后的J个音频帧，并对音量调节后的J个音频帧进行拼接，得到音量调节后的当前音频信号。

在一个实施例中，处理单元702还用于：

确定第j个音频帧在J个音频帧中的排列位置；

若确定出的排列位置是非首位，则触发执行根据第j个音频帧的帧幅值增益，逐级地对N个音频子块中的各个音频子块的幅值进行增益处理，以调节各个音频子块的音量的步骤；

若确定出的排列位置是首位，则采用第j个音频帧的帧幅值增益，分别对N个音频子块中的各个音频子块的幅值进行增益处理，以调节各个音频子块的音量。

在一个实施例中，处理单元702在根据第j个音频帧的帧幅值增益，逐级地对N个音频子块中的各个音频子块的幅值进行增益处理时，具体用于：

根据第j个音频帧的帧幅值增益，以及N个音频子块中的各个音频子块在N个音频子块中的排列位置，确定各个音频子块的块幅值增益；其中，不同音频子块的块幅值增益，随着相应音频子块在N个音频子块中的排列位置的增加而逐级变化；

采用各个音频子块的块幅值增益对相应音频子块的幅值进行增益处理。

在一个实施例中，第j个音频帧在J个音频帧中的排列位置为非首位；

处理单元702在根据第j个音频帧的帧幅值增益，以及N个音频子块中的各个音频子块在N个音频子块中的排列位置，确定各个音频子块的块幅值增益时，具体用于：

确定J个音频帧中的第j-1个音频帧的帧幅值增益，并将第j个音频帧的帧幅值增益和第j-1个音频帧的帧幅值增益之间的差值，作为第j个音频帧相对于第j-1个音频帧的帧幅值增益差值；

针对N个音频子块中的第n个音频子块，根据第n个音频子块在N个音频子块中的排列位置，和帧幅值增益差值，确定第n个音频子块相对于第j-1个音频帧所需的块幅值增益变化值；n∈[1，N]；

根据块幅值增益变化值和第j-1个音频帧的帧幅值增益，得到第n个音频子块的块幅值增益。

在一个实施例中，处理单元702在按照目标混音模式，对真实音频信号和虚拟音频信号进行混音处理，得到混音信号之前，还用于：

确定增强现实场景的场景类型，并根据场景类型对音效的需求，分别对增强现实场景中的真实音频信号和虚拟音频信号进行音效处理；或者，

获取增强现实场景所涉及的现实环境所属的环境类型，并根据现实环境所属的环境类型对音效的需求，分别对增强现实场景中的真实音频信号和虚拟音频信号进行音效处理；

其中，音效处理包括以下至少一种：混响处理和均衡处理。

在一个实施例中，多种混音模式中每种混音模式均具有模式标识，每个模式标识对应一个用于进行均衡处理所需的均衡参数组，任一模式标识对应的均衡参数组包括：虚拟音频信号在相应混音模式下的第一音量均衡参数，以及真实音频信号在相应混音模式下的第二音量均衡参数；处理单元702在按照目标混音模式，对真实音频信号和虚拟音频信号进行混音处理，得到混音信号之前，还用于：

获取目标混音模式的模式标识对应的均衡参数组；

采用获取到的均衡参数组中的第一音量均衡参数对虚拟音频信号进行均衡处理，并采用获取到的均衡参数组中的第二音量均衡参数对真实音频信号进行均衡处理。

本申请实施例，可获取增强现实场景中的真实音频信号和虚拟音频信号。然后，可确定针对增强现实场景所配置的多种混音模式，并从多种混音模式中选取一个混音模式作为目标混音模式，其中，不同混音模式可用于实现真实音频信号和虚拟音频信号之间的不同混音效果，从而能够带来不同的听觉体验。通过确定针对增强现实场景的多种混音模式，可为目标混音模式的设置提供多样化的选择，并灵活地设置目标混音模式，从而能够应对需混音真实音频信号和虚拟音频信号的各种场景，也可满足用户的一些个性化的混音需求。接着，可按照目标混音模式，对真实音频信号和虚拟音频信号进行混音处理，得到混音信号，并输出该混音信号。由于目标混音模式可实现真实音频信号和虚拟音频信号之间的相应混音效果，通过在目标混音模式下控制真实音频信号和虚拟音频信号的混音处理，可从听觉维度实现增强现实场景中涉及的现实世界的声音和虚拟世界的声音之间的融合，增加了听觉方面对增强现实场景中声音的融合，丰富了增强现实场景中的融合能力，且所得到的混音信号也具备目标混音模式对应的混音效果，最终通过输出混音信号可以使得用户更加直观地感受到增强现实场景中声音融合的效果，增强用户在增强现实场景中的沉浸感。

接下来对本申请实施例提供的计算机设备进行相关阐述。

本申请实施例还提供了一种计算机设备的结构示意图，该计算机设备的结构示意图可参见图8；该计算机设备可以包括：处理器801、输入设备802，输出设备803和存储器804。上述处理器801、输入设备802、输出设备803和存储器804通过总线连接。存储器804用于存储计算机程序，计算机程序包括程序指令，处理器801用于执行存储器804存储的程序指令。

在一个实施例中，该计算机设备可以是如图1a所示系统中的终端设备或者图1b所示系统中的服务器；在此实施例中，处理器801通过运行存储器804中的可执行程序代码，执行如下操作：

在一个实施例中，处理器801在从多种混音模式中选取一个混音模式作为目标混音模式时，具体用于：

在一个实施例中，处理器801在按照目标混音模式，对真实音频信号和虚拟音频信号进行混音处理，得到混音信号时，具体用于：

在一个实施例中，音频信号的音量随着音频信号的幅值变化而发生变化；处理器801在按照目标混音模式，分别对真实音频信号和虚拟音频信号进行音量调节，得到音量调节后的真实音频信号和音量调节后的虚拟音频信号时，具体用于：

在一个实施例中，处理器801在获取当前音频信号在目标混音模式下的幅值约束参数时，具体用于：

在一个实施例中，处理器801在对当前音频信号进行信号电平监测，得到当前音频信号的电平描述值时，具体用于：

遍历K个音频帧，确定当前遍历的第i个音频帧，i∈[1，K]；

在一个实施例中，每个音频帧包括多个采样点以及各个采样点的幅值；处理器801在对第i个音频帧进行信号电平监测，得到第i个音频帧的电平描述值时，具体用于：

在一个实施例中，处理器801在对第i个音频帧的信号幅值均值进行平滑处理，得到第i个音频帧的电平描述值时，具体用于：

处理器801在根据获取到的幅值约束参数和当前音频信号的电平描述值，对当前音频信号的幅值所需的增益进行控制处理，得到当前音频信号的幅值增益时，具体用于：

处理器801在采用当前音频信号的幅值增益对当前音频信号的幅值进行增益处理，以调节当前音频信号的音量，得到音量调节后的当前音频信号时，具体用于：

在一个实施例中，处理器801还用于：

确定第j个音频帧在J个音频帧中的排列位置；

在一个实施例中，处理器801在根据第j个音频帧的帧幅值增益，逐级地对N个音频子块中的各个音频子块的幅值进行增益处理时，具体用于：

处理器801在根据第j个音频帧的帧幅值增益，以及N个音频子块中的各个音频子块在N个音频子块中的排列位置，确定各个音频子块的块幅值增益时，具体用于：

在一个实施例中，处理器801在按照目标混音模式，对真实音频信号和虚拟音频信号进行混音处理，得到混音信号之前，还用于：

其中，音效处理包括以下至少一种：混响处理和均衡处理。

在一个实施例中，多种混音模式中每种混音模式均具有模式标识，每个模式标识对应一个用于进行均衡处理所需的均衡参数组，任一模式标识对应的均衡参数组包括：虚拟音频信号在相应混音模式下的第一音量均衡参数，以及真实音频信号在相应混音模式下的第二音量均衡参数；

处理器801在按照目标混音模式，对真实音频信号和虚拟音频信号进行混音处理，得到混音信号之前，还用于：

获取目标混音模式的模式标识对应的均衡参数组；

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且计算机可读存储介质中存储有计算机程序，且该计算机程序包括程序指令，当处理器执行上述程序指令时，能够执行前文图2和图4所对应实施例中的方法，因此，这里将不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。作为示例，程序指令可以被部署在一个计算机设备上，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行。

根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备可以执行前文图2和图4所对应实施例中的方法，因此，这里将不再进行赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random AccessMemory，RAM）等。

以上所揭露的仅为本申请一种较佳实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于本申请所涵盖的范围。

Claims

1.一种音频处理方法，其特征在于，包括：

获取增强现实场景中的真实音频信号和虚拟音频信号，所述真实音频信号是指在所述增强现实场景所涉及的现实环境中采集到的音频信号，所述虚拟音频信号是指在所述增强现实场景所涉及的虚拟环境中构造出的音频信号；

确定针对所述增强现实场景所配置的多种混音模式，并从所述多种混音模式中选取一个混音模式作为目标混音模式；其中，不同混音模式用于实现所述真实音频信号和所述虚拟音频信号之间的不同混音效果；

按照所述目标混音模式，对所述真实音频信号和所述虚拟音频信号进行混音处理，得到混音信号；以及，输出所述混音信号。

2.如权利要求1所述的方法，其特征在于，所述从所述多种混音模式中选取一个混音模式作为目标混音模式，包括：

获取模式配置操作，并根据所述模式配置操作从所述多种混音模式中选取一个混音模式作为目标混音模式；

其中，所述模式配置操作包括：针对增强现实应用中所显示的多个模式标识的选择操作，一个模式标识对应一种混音模式；或者，所述模式配置操作包括：通过操控增强现实设备上的物理按键所执行的模式选择操作。

3.如权利要求1所述的方法，其特征在于，所述从所述多种混音模式中选取一个混音模式作为目标混音模式，包括：

确定所述增强现实场景所涉及的现实环境的地理位置信息，并根据所述地理位置信息确定出所述现实环境所属的环境类型；

根据确定出的环境类型对声音的融合需求，从所述多种混音模式中选取一个混音模式作为目标混音模式。

4.如权利要求1所述的方法，其特征在于，所述按照所述目标混音模式，对所述真实音频信号和所述虚拟音频信号进行混音处理，得到混音信号，包括：

按照所述目标混音模式，分别对所述真实音频信号和所述虚拟音频信号进行音量调节，得到音量调节后的真实音频信号和音量调节后的虚拟音频信号；

混合所述音量调节后的真实音频信号以及所述音量调节后的虚拟音频信号，得到混音信号。

5.如权利要求4所述的方法，其特征在于，音频信号的音量随着音频信号的幅值变化而发生变化；所述按照所述目标混音模式，分别对所述真实音频信号和所述虚拟音频信号进行音量调节，得到音量调节后的真实音频信号和音量调节后的虚拟音频信号，包括：

遍历所述真实音频信号和所述虚拟音频信号，将当前遍历的音频信号作为当前音频信号，获取所述当前音频信号在所述目标混音模式下的幅值约束参数；

对所述当前音频信号进行信号电平监测，得到所述当前音频信号的电平描述值；所述当前音频信号的电平描述值用于指示所述当前音频信号的幅值；

根据获取到的幅值约束参数和所述当前音频信号的电平描述值，对所述当前音频信号的幅值所需的增益进行控制处理，得到所述当前音频信号的幅值增益；

采用所述当前音频信号的幅值增益对所述当前音频信号的幅值进行增益处理，以调节所述当前音频信号的音量，得到音量调节后的当前音频信号。

6.如权利要求5所述的方法，其特征在于，所述获取所述当前音频信号在所述目标混音模式下的幅值约束参数，包括：

获取预设映射表；所述预设映射表中包括多个模式标识以及每个模式标识所映射的参数组；任一模式标识所映射的参数组包括：虚拟音频信号在相应模式标识所标识的混音模式下的第一幅值约束参数，以及真实音频信号在相应模式标识所标识的混音模式下的第二幅值约束参数；

按照所述目标混音模式的模式标识查询所述预设映射表，得到所述目标混音模式的模式标识所映射的参数组；

若所述当前音频信号为所述虚拟音频信号，则从得到的参数组中选取第一幅值约束参数，作为所述当前音频信号在所述目标混音模式下的幅值约束参数；

若所述当前音频信号为所述真实音频信号，则从得到的参数组中选取第二幅值约束参数，作为所述当前音频信号在所述目标混音模式下的幅值约束参数。

7.如权利要求5所述的方法，其特征在于，所述多种混音模式包括以下至少两种：强现实混音模式、强虚拟混音模式、对等混音模式、关闭现实混音模式以及关闭虚拟混音模式；任一音频信号的幅值约束参数，与相应音频信号在进行音量调节后所具有的音量正相关；

在所述强现实混音模式下，真实音频信号的幅值约束参数和虚拟音频信号的幅值约束参数均为有效值，且真实音频信号的幅值约束参数大于虚拟音频信号的幅值约束参数；

在所述强虚拟混音模式下，真实音频信号的幅值约束参数和虚拟音频信号的幅值约束参数均为有效值，且虚拟音频信号的幅值约束参数大于真实音频信号的幅值约束参数；

在所述对等混音模式下，真实音频信号的幅值约束参数和虚拟音频信号的幅值约束参数均为有效值，且虚拟音频信号的幅值约束参数等于真实音频信号的幅值约束参数；

在所述关闭现实混音模式下，真实音频信号的幅值约束参数为无效值，且虚拟音频信号的幅值约束参数为有效值；

在所述关闭虚拟混音模式下，真实音频信号的幅值约束参数为有效值，且虚拟音频信号的幅值约束参数为无效值。

8.如权利要求5所述的方法，其特征在于，所述对所述当前音频信号进行信号电平监测，得到所述当前音频信号的电平描述值，包括：

对所述当前音频信号进行分帧处理，得到所述当前音频信号的K个音频帧，K为大于1的整数；

遍历所述K个音频帧，确定当前遍历的第i个音频帧，i∈[1，K]；

对所述第i个音频帧进行信号电平监测，得到所述第i个音频帧的电平描述值；或者，对所述第i个音频帧进行语音有效判别处理，并在判定所述第i个音频帧为有效音频帧的情况下，对所述第i个音频帧进行信号电平监测，得到所述第i个音频帧的电平描述值；

继续遍历，直至所述K个音频帧均被遍历，得到所述当前音频信号的电平描述值；所述当前音频信号的电平描述值包括：监测得到的各个音频帧的电平描述值。

9.如权利要求8所述的方法，其特征在于，每个音频帧包括多个采样点以及各个采样点的幅值；所述对所述第i个音频帧进行信号电平监测，得到所述第i个音频帧的电平描述值，包括：

对所述第i个音频帧中的各个采样点的幅值进行均值计算，得到所述第i个音频帧的信号幅值均值；

对所述第i个音频帧的信号幅值均值进行平滑处理，得到所述第i个音频帧的电平描述值。

10.如权利要求9所述的方法，其特征在于，所述对所述第i个音频帧的信号幅值均值进行平滑处理，得到所述第i个音频帧的电平描述值，包括：

在所述K个音频帧中查找所述第i个音频帧的参考音频帧，其中，若所述第i个音频帧未被进行语音有效判别处理，则所述参考音频帧包括第i-1个音频帧；若所述第i个音频帧被进行了语音有效判别处理，则所述参考音频帧包括：位于所述第i个音频帧之前，且离所述第i个音频帧最近的有效音频帧；

若未查找到所述参考音频帧，则将所述第i个音频帧的信号幅值均值作为所述第i个音频帧的电平描述值；

若查找到所述参考音频帧，则采用所述参考音频帧的电平描述值，对所述第i个音频帧的信号幅值均值进行平滑处理，得到所述第i个音频帧的电平描述值。

11.如权利要求5所述的方法，其特征在于，所述当前音频信号被分帧成K个音频帧；所述当前音频信号的电平描述值包括：所述K个音频帧中被进行信号电平监测的J个音频帧的电平描述值，K为大于1的整数且J≤K；获取到的幅值约束参数包括：目标幅值和幅值增益阈值；

所述根据获取到的幅值约束参数和所述当前音频信号的电平描述值，对所述当前音频信号的幅值所需的增益进行控制处理，得到所述当前音频信号的幅值增益，包括：

遍历所述当前音频信号的电平描述值所涉及的J个音频帧，确定当前遍历的第j个音频帧；j∈[1，J]；

采用获取到的幅值约束参数中的目标幅值和所述第j个音频帧的电平描述值进行增益预测，得到预测幅值增益；所述预测幅值增益是指：将所述第j个音频帧的电平描述值调整至所述目标幅值所需的增益；

将所述获取到的幅值约束参数中的幅值增益阈值和所述预测幅值增益中的较小者，确定为对所述第j个音频帧的幅值进行调整所需的帧幅值增益；

继续遍历，直至所述J个音频帧均被遍历，得到所述当前音频信号的幅值增益；其中，所述当前音频信号的幅值增益包括：所述J个音频帧中的每个音频帧对应的帧幅值增益。

12.如权利要求5所述的方法，其特征在于，所述当前音频信号被分帧成K个音频帧，所述当前音频信号的幅值增益包括：所述K个音频帧中被进行信号电平监测的J个音频帧的帧幅值增益；K为大于1的整数且J≤K；

所述采用所述当前音频信号的幅值增益对所述当前音频信号的幅值进行增益处理，以调节所述当前音频信号的音量，得到音量调节后的当前音频信号，包括：

将所述第j个音频帧划分成N个音频子块，并确定所述N个音频子块中的各个音频子块的幅值，N为大于1的整数；

根据所述第j个音频帧的帧幅值增益，逐级地对所述N个音频子块中的各个音频子块的幅值进行增益处理，以调节所述各个音频子块的音量；

在得到音量调节后的各个音频子块后，采用所述音量调节后的各个音频子块，拼接得到音量调节后的第j个音频帧；

继续遍历，直至所述J个音频帧均被遍历，得到音量调节后的J个音频帧，并对所述音量调节后的J个音频帧进行拼接，得到音量调节后的当前音频信号。

13.如权利要求12所述的方法，其特征在于，所述方法还包括：

确定所述第j个音频帧在所述J个音频帧中的排列位置；

若确定出的排列位置是非首位，则触发执行所述根据所述第j个音频帧的帧幅值增益，逐级地对所述N个音频子块中的各个音频子块的幅值进行增益处理，以调节所述各个音频子块的音量的步骤；

若确定出的排列位置是首位，则采用所述第j个音频帧的帧幅值增益，分别对所述N个音频子块中的各个音频子块的幅值进行增益处理，以调节所述各个音频子块的音量。

14.如权利要求12或13所述的方法，其特征在于，所述根据所述第j个音频帧的帧幅值增益，逐级地对所述N个音频子块中的各个音频子块的幅值进行增益处理，包括：

根据所述第j个音频帧的帧幅值增益，以及所述N个音频子块中的各个音频子块在所述N个音频子块中的排列位置，确定所述各个音频子块的块幅值增益；其中，不同音频子块的块幅值增益，随着相应音频子块在所述N个音频子块中的排列位置的增加而逐级变化；

15.如权利要求14所述的方法，其特征在于，所述第j个音频帧在J个音频帧中的排列位置为非首位；

所述根据所述第j个音频帧的帧幅值增益，以及所述N个音频子块中的各个音频子块在所述N个音频子块中的排列位置，确定所述各个音频子块的块幅值增益，包括：

确定所述J个音频帧中的第j-1个音频帧的帧幅值增益，并将所述第j个音频帧的帧幅值增益和所述第j-1个音频帧的帧幅值增益之间的差值，作为所述第j个音频帧相对于所述第j-1个音频帧的帧幅值增益差值；

针对所述N个音频子块中的第n个音频子块，根据所述第n个音频子块在所述N个音频子块中的排列位置，和所述帧幅值增益差值，确定所述第n个音频子块相对于所述第j-1个音频帧所需的块幅值增益变化值；n∈[1，N]；

根据所述块幅值增益变化值和所述第j-1个音频帧的帧幅值增益，得到所述第n个音频子块的块幅值增益。

16.如权利要求1所述的方法，其特征在于，所述按照所述目标混音模式，对所述真实音频信号和所述虚拟音频信号进行混音处理，得到混音信号之前，还包括：

确定所述增强现实场景的场景类型，并根据所述场景类型对音效的需求，分别对所述增强现实场景中的所述真实音频信号和所述虚拟音频信号进行音效处理；或者，

获取所述增强现实场景所涉及的现实环境所属的环境类型，并根据所述现实环境所属的环境类型对音效的需求，分别对所述增强现实场景中的所述真实音频信号和所述虚拟音频信号进行音效处理；

其中，所述音效处理包括以下至少一种：混响处理和均衡处理。

17.如权利要求1所述的方法，其特征在于，所述多种混音模式中每种混音模式均具有模式标识，每个模式标识对应一个用于进行均衡处理所需的均衡参数组，任一模式标识对应的均衡参数组包括：虚拟音频信号在相应混音模式下的第一音量均衡参数，以及真实音频信号在相应混音模式下的第二音量均衡参数；

所述按照所述目标混音模式，对所述真实音频信号和所述虚拟音频信号进行混音处理，得到混音信号之前，还包括：

获取所述目标混音模式的模式标识对应的均衡参数组；

采用获取到的均衡参数组中的第一音量均衡参数对所述虚拟音频信号进行均衡处理，并采用获取到的均衡参数组中的第二音量均衡参数对所述真实音频信号进行均衡处理。

18.一种音频处理装置，其特征在于，包括：

获取单元，用于获取增强现实场景中的真实音频信号和虚拟音频信号，所述真实音频信号是指在所述增强现实场景所涉及的现实环境中采集到的音频信号，所述虚拟音频信号是指在所述增强现实场景所涉及的虚拟环境中构造出的音频信号；

处理单元，用于确定针对所述增强现实场景所配置的多种混音模式，并从所述多种混音模式中选取一个混音模式作为目标混音模式；其中，不同混音模式用于实现所述真实音频信号和所述虚拟音频信号之间的不同混音效果；

所述处理单元，还用于按照所述目标混音模式，对所述真实音频信号和所述虚拟音频信号进行混音处理，得到混音信号；以及，

输出单元，用于输出所述混音信号。

19.一种计算机设备，其特征在于，包括：

处理器，适用于执行计算机程序；

计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被所述处理器执行时，执行如权利要求1-17任一项所述的音频处理方法。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，执行如权利要求1-17任一项所述的音频处理方法。