CN114049871A

CN114049871A - 基于虚拟空间的音频处理方法、装置和计算机设备

Info

Publication number: CN114049871A
Application number: CN202210036645.5A
Authority: CN
Inventors: 梁俊斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2022-02-15

Abstract

本申请涉及一种基于虚拟空间的音频处理方法、装置和计算机设备。包括：响应于针对虚拟空间的交互操作，确定虚拟空间中的关注声源，并将虚拟空间的所有声源中除关注声源之外的声源作为非关注声源；获取与关注声源对应的目标关注音频、以及与非关注声源对应的目标非关注音频；对目标关注音频和目标非关注音频中的至少一种音频进行音频调节处理，得到关注声源的第一中间音频和非关注声源的第二中间音频；对第一中间音频与第二中间音频进行混音，得到混音处理结果。由于可以对至少一种音频进行音频调节处理，以使得关注声源对应的音效区分度大于非关声源对应的音效区分度，而关注声源正是用户自身感兴趣的声音，从而使得用户更容易听清感兴趣的声音。

Description

基于虚拟空间的音频处理方法、装置和计算机设备

技术领域

本申请涉及音频处理技术领域，特别是涉及一种基于虚拟空间的音频处理方法、装置和计算机设备。

背景技术

空间音效是经过一定的音频技术处理让用户听到更有立体感及空间层次感的声音，通过耳机或两个以上扬声器组合，播放还原出实际现场的听觉场景，让听者能清晰辨识到不同的声学对象的方位、远近距离感以及移动轨迹，也能让听者感受到被声音全方位包裹感，让听者仿佛置身于实际环境的沉浸式听觉体验。为了让用户得到更好的音效体验效果，如何对音频进行处理是关键。

在相关技术中，主要是通过虚拟立体声重构实现音频处理。具体地，主要是基于每一声源与用户之间的距离，对每一声源的音量进行设置，也即距离感处理。其中，距离远的声源其音量设置较小，距离近的声源其音量设置较大。上述处理过程着重让用户体验不同声源的距离感，用户难以听清自身感兴趣的声音，且在环境嘈杂情况下，用户更加难以听清。

发明内容

基于此，有必要针对上述技术问题，提供一种能够让用户更加容易听清自身感兴趣声音的基于虚拟空间的音频处理方法、装置和计算机设备。

一种基于虚拟空间的音频处理方法，该方法包括：

响应于针对虚拟空间的交互操作，确定虚拟空间中的关注声源，并将虚拟空间的所有声源中除关注声源之外的声源作为非关注声源；

获取与关注声源对应的目标关注音频、以及与非关注声源对应的目标非关注音频；

对目标关注音频和目标非关注音频中的至少一种音频进行音频调节处理，得到关注声源的第一中间音频和非关注声源的第二中间音频，其中，第一中间音频的音效区分度大于第二中间音频的音效区分度；

对第一中间音频与第二中间音频进行混音，得到混音处理结果。

一种基于虚拟空间的音频处理装置，该装置包括：

确定模块，用于响应于针对虚拟空间的交互操作，确定虚拟空间中的关注声源，并将虚拟空间的所有声源中除关注声源之外的声源作为非关注声源；

获取模块，用于获取与关注声源对应的目标关注音频、以及与非关注声源对应的目标非关注音频；

音频调节处理模块，用于对目标关注音频和目标非关注音频中的至少一种音频进行音频调节处理，得到关注声源的第一中间音频和非关注声源的第二中间音频，其中，第一中间音频的音效区分度大于第二中间音频的音效区分度；

混音处理模块，用于对第一中间音频与第二中间音频进行混音，得到混音处理结果。

在其中一个实施例中，确定模块，用于响应于针对虚拟空间的交互操作，确定交互操作所指向的虚拟空间中的关注区域；将处于关注区域中的声源作为关注声源。

在其中一个实施例中，获取模块，用于对多个关注声源各自发出的关注音频进行混音处理，得到目标关注音频；对多个非关注声源各自发出的非关注音频进行混音处理，得到目标非关注音频。

在其中一个实施例中，音频调节处理模块，用于对目标关注音频进行信号增强处理，得到与关注声源对应的第一中间音频；对目标非关注音频进行信号衰减处理，得到与非关注声源对应的第二中间音频。

在其中一个实施例中，音频调节处理模块，包括：

第一确定单元，用于从目标关注音频和目标非关注音频中确定待调节音频；

第二确定单元，用于确定待调节音频的各采样时刻分别对应的调节参数；

第三确定单元，用于基于各采样时刻分别对应的调节参数对待调节音频进行音频调节处理，并基于音频调节结果确定关注声源的第一中间音频和非关注声源的第二中间音频。

在其中一个实施例中，第二确定单元，用于确定待调节音频的各采样时刻分别落入的目标时间段，目标时间段是由声源切换过程所确定的，声源切换过程指关注声源与非关注声源之间的切换；获取各采样时刻分别落入的目标时间段对应的调整函数的计算结果，作为各采样时刻分别对应的调节参数，其中，调整函数中存在一个自变量的取值是基于采样时刻所确定的。

在其中一个实施例中，调整函数中包括有调整阈值，调整阈值是由对应的声源与虚拟空间中的虚拟操作对象之间的距离所确定，虚拟操作对象是触发交互操作的目标对象在虚拟空间中的映射对象。

在其中一个实施例中，若待调节音频为目标关注音频，则目标时间段为切入关注时间段、持续关注时间段、以及退出关注时间段中的一种；其中，切入关注时间段的起始时刻基于声源被确定为关注声源的时刻确定，持续关注时间段的起始时刻基于切入关注时间段的结束时刻确定，退出关注时间段的起始时刻基于关注声源被切换为非关注声源的时刻确定，或者基于取消关注指令确定。

在其中一个实施例中，切入关注时间段对应的调整函数为单调递增函数，持续关注时间段对应的调整函数为常数函数，退出关注时间段对应的调整函数为单调递减函数。

在其中一个实施例中，单调递增函数与单调递减函数各自梯度均随着自变量的增大而逐渐减小。

在其中一个实施例中，若待调节音频为目标非关注音频，则目标时间段为切入非关注时间段、持续非关注时间段、以及退出非关注时间段中的一种；其中，切入非关注时间段的起始时刻基于声源被确定为非关注声源的时刻确定，持续非关注时间段的起始时刻基于切入非关注时间段的结束时刻确定，退出非关注时间段的起始时刻基于非关注声源被切换为关注声源的时刻确定，或者基于关注指令确定。

在其中一个实施例中，切入非关注时间段对应的调整函数为单调递减函数，持续非关注时间段对应的调整函数为常数函数，退出非关注时间段对应的调整函数为单调递增函数。

在其中一个实施例中，第三确定单元，用于当目标关注音频为待调节音频时，则将目标关注音频所对应的音频调节结果作为关注声源的第一中间音频，否则直接将目标关注音频作为第一中间音频；若目标非关注音频为待调节音频，则将目标非关注音频所对应的音频调节结果作为非关注声源的第二中间音频，否则直接将目标非关注音频作为第二中间音频。

在其中一个实施例中，虚拟空间中的每个声源均对应多个声道；该装置还包括立体声重构模块；该立体声重构模块，用于获取多个声道各自对应的混音处理结果，基于多个声道的混音处理结果进行立体声重构，并在虚拟空间中输出重构得到的立体声。

在其中一个实施例中，交互操作通过交互设备捕获得到，交互操作的操作类型包括感官指向类型、意识指向类型和肢体指向类型中的至少一种。

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上以下步骤：

上述基于虚拟空间的音频处理方法、装置、计算机设备、存储介质和计算机程序，由于可以对虚拟空间中的关注声源及非关注声源对应的音频中的至少一种音频进行音频调节处理，以使得关注声源对应音频的音效区分度大于非关声源对应音频的音效区分度，而关注声源正是用户自身感兴趣的声音，从而使得用户更容易听清自身感兴趣的声音。另外，在嘈杂环境下，用户也能够有效分辨自身感兴趣的声音。

附图说明

图1为相关技术中立体声重构的方法流程图的应用环境图；

图2为一个实施例中基于虚拟空间的音频处理方法的应用环境图；

图3为一个实施例中基于虚拟空间的音频处理方法的流程示意图；

图4为一个实施例中虚拟空间中所覆盖的模拟视野范围区域的示意图；

图5为一个实施例中处于关注区域内的声源的示意图；

图6为一个实施例中手指向动作指向虚拟空间中虚拟操作对象的示意图；

图7为一个实施例中虚拟对象被动作为关注声源的示意图；

图8为一个实施例中虚拟空间中关注声源与非关注声源的确定示意图；

图9为一个实施例中目标关注音频对应的调整函数的曲线示意图；

图10为一个实施例中目标非关注音频对应的调整函数的曲线示意图；

图11为另一个实施例中基于虚拟空间的音频处理方法的流程示意图；

图12为一个实施例中基于虚拟空间的音频处理装置的结构框图；

图13为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

首先，对本申请实施例中涉及到的名词进行简要解释说明：

元宇宙：是利用科技手段进行链接与创造的，与现实世界映射与交互的虚拟世界，具备新型社会体系的数字生活空间。它整合了多种新技术而产生的新型虚实相融的互联网应用和社会形态，它基于扩展现实技术提供沉浸式体验，基于数字孪生技术生成现实世界的镜像，基于区块链技术搭建经济体系，将虚拟世界与现实世界在经济系统、社交系统、身份系统上密切融合，并且允许每个用户进行内容生产和世界编辑。

空间音效：是经过一定的音频技术处理让用户听到更有立体感、空间层次感的声音，通过耳机或两个以上扬声器组合，播放还原出实际现场的听觉场景，让听者能清晰辨识到不同的声学对象的方位、远近距离感以及移动轨迹，也能让听者感受到被声音全方位包裹感，让听者仿佛置身于实际环境的沉浸式听觉体验。

元宇宙的实现需要融合音频、视频及感知等多方面的人工智能虚拟感知技术，构造出逼近真实世界感知的计算机虚拟空间，体验者就借助一些硬件设备（耳机、眼镜、体感装备），就可以体验到和真实世界无差别的感官感受。其中，虚拟空间音效是其中很重要的一部分，通过虚拟空间音效还原真实环境下的双耳声音信号，体验者通过佩戴耳机就能感知到真实环境下的立体声音效体验。例如，周边不同方位有不同人的说话声、笑声、脚步声，汽车由远到近驶来的发动机声，人行道提示音，还有风雨声等。

然而生成虚拟立体声是非常耗计算资源的，虚拟空间为了还原真实世界体验，需要把不同方位的不同声源通过HRTF（Head Related Transfer Function，头相关传递函数）虚拟立体声重构技术生成并混音传入体验者的双耳。由于大量声源需要同时进行HRTF的立体声重构，会导致巨大的计算开销，从而对实时音频体验会造成极大挑战。

在相关技术中，如图1所示，虚拟空间中的不同声源主要是经过距离感处理、虚拟立体声重构及立体声混音后，生成最终进入用户双耳的声音信号。由于每个声源主要是根据离当前用户物理距离来调节各声源音量，也就是图1所示的“距离感处理”。但是当环境声音比较吵杂，用户较难听清自己感兴趣的对象声音。

针对相关技术中存在的问题，本申请提供了一种基于虚拟空间的音频处理方法，该方法可以应用于如图2所示的应用环境中。其中，交互设备202可与计算机设备204进行数据传输。具体地，计算机设备204用于构建虚拟空间，该虚拟空间可以通过交互设备202进行呈现，而用户则可以通过交互设备与虚拟空间进行交互，计算机设备204响应于交互操作，可以基于获取到的交互操作相关数据，确定虚拟空间中的关注声源，将剩下的声源作为非关注声源。计算机设备204通过对声源的音频进行调节，从而给用户带来不同感官体验。上述过程即为空间音效调整过程，而上述提及的虚拟空间可以是上述名词简介中的元宇宙。

可以理解的是，本申请实施例中提供的方法可以应用于虚拟现实应用程序、三维地图程序、事件仿真程序、及游戏应用等不做限定。而上述提及交互设备202，可以是台式计算机、膝上型便携计算机、手机、平板电脑、电子书阅读器、MP3(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、VR设备如VR眼镜等等。该交互设备202中可安装和运行有支持虚拟空间的应用程序，比如支持三维虚拟环境的应用程序。

需要说明的是，上述过程中的交互设备仅是示意性的说明，实际实施过程中，用户并非限于仅可操控一个交互设备，本申请实施例不对交互设备的类型及数量作具体限定。例如，用户可以通过VR眼镜实现视觉交互，而通过体感设备实现肢体交互，也即通过两个交互设备实现交互操作。

还需要说明的是，上述计算机设备204可以为终端或服务器，终端可以为移动终端或者车载终端等其他智能终端，服务器具体可以实现为物理服务器，也可以实现为云端的云服务器。其中，云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，可通过云计算来实现。

在一些实施例中，上述计算机设备204还可以实现为区块链系统中的节点。区块链(Blockchain)是分布式数据存储、点对点传输、共识机制及加密算法等计算机技术的新型应用模式。区块链，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

值得注意的是，用户作为虚拟空间中一个交互触发者而存在，其可以通过虚拟操作对象投影至虚拟空间。其中，虚拟操作对象指的是虚拟空间中的可活动对象。该可活动对象可以是虚拟人物、虚拟动物及其它可移动虚拟物体等。例如，虚拟操作对象可以为在三维虚拟环境中显示的人物、动物、植物、油桶、墙壁和石块等。可选地，虚拟操作对象是基于动画骨骼技术创建的三维立体模型。每个虚拟操作对象在三维虚拟环境中具有自身的形状和体积，可以占据三维虚拟环境中的一部分空间。

在一些实施例中，结合上述名词简介以及实施环境说明，如图3所示，提供了一种基于虚拟空间的音频处理方法，以该方法应用于图2中的计算机设备204，且在虚拟现实应用程序中应用为例进行说明，包括以下步骤：

步骤302、响应于针对虚拟空间的交互操作，确定虚拟空间中的关注声源，并将虚拟空间的所有声源中除关注声源之外的声源作为非关注声源。

其中，虚拟空间主要是由计算机设备构造的二维、三维或者更高维度的空间。虚拟空间中可以呈现视觉元素，如景物、光影和水体等视觉元素，还可以呈现听觉元素，如人声和景声等，甚至还可以呈现触觉元素等。而在本步骤中，交互操作主要用于对虚拟空间中的听觉元素进行调节。虚拟空间中可以存在背景声，还可以存在多个可以发出声音的虚拟对象，如多个人物和景物等，用以作为不同的声源。

可以理解的是，对于虚拟现实应用程序在虚拟空间所产生的声源，有些声源是用户感兴趣的，比如某些人物出场时的说话声，有些声源是用户不感兴趣的，比如环境嘈杂声。由此，在本步骤中，可以先由计算机设备确定虚拟空间中的关注声源。其中，关注声源即为用户感兴趣的声源。而用户感兴趣的声源，即通过本步骤提及的交互操作所确定。

交互操作可以是由用户通过交互设备所触发的，具体可以由肢体操作触发。可以理解的是，交互操作的触发方式及类型可以与应用场景以及交互设备的类型相关联，也可以与其它因素相关联，本申请实施例对此不作具体限定。例如，若应用场景为用户通过体感设备玩体感游戏，则交互操作的类型可以为用户的四肢动作。再例如，若应用场景为用户通过VR眼镜玩沉浸式游戏，则交互操作的类型可以为用户的头部动作，如转头动作等。或者，VR眼镜不捕获用户的头部动作，而是通过眼球位置获取的方式捕获用户的眼球动作，则交互操作的类型可以为用户的眼球动作。

还可以理解的是，交互设备检测到用户针对虚拟空间的交互操作后，可将该交互操作转化为可被计算机设备识别的交互动作数据，如在虚拟现实应用程序中虚拟操作对象的声学对象数据，从而计算机设备可以基于交互动作数据作出响应，也即执行本步骤中的过程。

需要说明的是，由于虚拟空间的声源通常是实时捕捉到的或者由虚拟现实应用程序所预先设定的，从而计算机设备可以获取虚拟空间的所有声源的各项数据，也即计算机设备能够获知虚拟空间中存在的所有声源。由此，在确定关注声源后，计算机设备即可确定所有声源中还剩下哪些声源，并将所有声源中除关注声源之外的声源作为非关注声源。其中，非关注声源即为用户不感兴趣的声源。当然，实际实施过程中，也可不一定通过上述排除法的方式确定虚拟空间中的非关注声源，如可预先指定背景声为非关注声源，本申请实施例对此不作具体限定。还需要说明的是，计算机设备在确定虚拟空间中的关注声源及非关注声源后，可以对该两类声源设置标识，从而便于后续处理过程作判断。

步骤304、获取与关注声源对应的目标关注音频、以及与非关注声源对应的目标非关注音频。

可以理解的是，上述步骤提及的声源主要是站在人听觉角度上的表达，声源实则对应虚拟空间中的虚拟对象，而虚拟对象在虚拟现实应用程序中通常是通过声学对象数据进行表示的。上述步骤是区分哪些虚拟对象是关注对象，哪些虚拟对象是非关注对象，而在本步骤主要是获取虚拟对象作为声源所发出的音频。由上述步骤中的解释内容可知，虚拟空间的声源通常是实时捕捉到的或者由虚拟现实应用程序所预先设定的，从而本步骤获取的音频可以是实时捕捉的音频数据或者提前录制好的音频数据。

进一步地，本步骤获取的音频可与时间存在关联。对于当前时刻，若虚拟空间的声源通常是实时捕捉到的，则本步骤中获取到的音频即为当前时刻实时捕捉到的音频数据。若虚拟空间的声源是由虚拟现实应用程序所预先设定的，则本步骤中获取到的音频即为预先设定的音频按照时序播放至当前时刻时所输出的音频数据。

需要说明的是，本步骤中提及的“目标关注音频”与“目标非关注音频”并不限定音频本身，主要是作为声源两种不同来源之间的区分。实际实施过程中，每一关注声源可以均对应一个目标关注音频，每一非关注声源均对应一个目标非关注音频。

步骤306、对目标关注音频和目标非关注音频中的至少一种音频进行音频调节处理，得到关注声源的第一中间音频和非关注声源的第二中间音频，其中，第一中间音频的音效区分度大于第二中间音频的音效区分度。

在本步骤中，计算机设备可以仅对目标关注音频进行音频调节处理，可以仅对目标非关注音频进行音频调节处理，还可以同时对目标关注音频和目标非关注音频进行音频调节处理。其中，音频调节处理的方式可以为音量调整，编码率调整和信号过滤等方式，本申请实施例对此不作具体限定。可以获知的是，在本申请实施例中虚拟空间中会有多个声源，也即会有多个音频来源。而某一音频的音效区分度主要指的是在人听觉范畴下，该音频在所有音频中被区分开来的难以程度。

其中，音效区分度越大，则表示该音频在所有音频中越容易被人耳所区分开来。反之，则表示该音频混杂在所有音频中且越难被人耳所区分开来。由此，“第一中间音频的音效区分度大于第二中间音频的音效区分度”可具体表述为第一信号中间处理结果与第二信号中间处理结果所共同引发的关注声源在所有声源中的音效区分度，大于目标关注声源信号与目标非关注声源信号所共同引发的。

步骤308、对第一中间音频与第二中间音频进行混音，得到混音处理结果。

可以理解的是，对于虚拟空间中多个来源的声音，通常需要整合至一个立体声轨或者单音音轨中，以向用户输出声音。由此，在本步骤中，计算机设备可以对第一中间音频与第二中间音频各自的频率、动态、音质、定位、残响和声场单独进行调整，输出混音处理结果，让各个来源的音频最佳化。

上述实施例中，由于可以对虚拟空间中的关注声源及非关注声源对应的音频中的至少一种音频进行音频调节处理，以使得关注声源对应音频的音效区分度大于非关声源对应音频的音效区分度，而关注声源正是用户自身感兴趣的声音，从而使得用户更容易听清自身感兴趣的声音。另外，在嘈杂环境下，用户也能够有效分辨自身感兴趣的声音。

以虚拟空间为三维空间为例，可以理解的是，除了背景声之外，虚拟空间中的声音通常来源于某一方位，而该方位通常是对应着一片区域，也即虚拟空间中的声源通常对应于一片区域。例如，若虚拟空间存在人物在讲话，则该人物由于具有自身的形状和体积，会在虚拟空间占据一部分空间，该一部分空间即可作为该人物作为声源所对应的区域。由于声源在虚拟空间中通常对应着部分区域，从而用户可以基于声源对应的区域进行交互操作，以选择声源。基于上述陈述的内容，在一些实施例中，响应于针对虚拟空间的交互操作，确定虚拟空间中的关注声源，包括：响应于针对虚拟空间的交互操作，确定交互操作所指向的虚拟空间中的关注区域；将处于关注区域中的声源作为关注声源。

其中，交互操作的触发方式及类型可参考上述实施例的过程，此处不再赘述。由上述实施例的内容可知，交互操作的触发方式及类型可以与应用场景以及交互设备的类型相关联。而可以理解的是，关注区域如何确定，又可以与交互操作的触发方式及类型相关联。为了便于理解，现结合下述示例对如何确定关注区域及关注声源的过程进行说明。可以理解的是，实际实施过程中，随着应用场景的丰富、交互设备类型的拓展以及交互操作触发方式的升级，还可以有多个衍伸实施例，应当均为本申请实施例提出的构思前提下的可选实施例。

以应用场景为用户通过VR眼镜玩沉浸式游戏，交互设备的类型即为VR眼镜，而交互操作的触发方式为肢体动作，且具体类型为转头动作为例，基于该示例，关注区域的确定方式可以是将用户通过VR眼镜在虚拟空间中所覆盖的模拟视野范围区域作为关注区域，具体可如图4所示。在该示例中，可以将该模拟视野范围区域中的虚拟对象所对应的声源，作为关注声源。进一步地，由于模拟视野范围区域的位置范围信息可以获知，而虚拟空间中虚拟对象的位置信息也是可以获知的，从而通过位置比对的方式，即可确定哪些虚拟对象处于模拟视野范围区域中。其中，位置信息可以通过经纬度坐标系，使用经度和纬度范围进行描述，如东经30-45度及北纬0-60度，本申请实施例对此不作具体限定。如图5所示，猫、狗及遛狗的人等这些位于关注区域的声源即为关注声源。需要说明的是，该示例中所使用的交互设备的类型除了为VR眼镜之外，还可以VR头显，本申请实施例对此不作具体限定。

再以应用场景为用户通过操控设备玩沉浸式游戏，交互设备的类型即为操控设备，而交互操作的触发方式为操控动作，且具体类型为手指向动作为例，基于该示例，关注区域的确定方式可以是计算机设备确定用户通过手指向动作在虚拟空间中选中的虚拟对象，将该虚拟对象在虚拟空间中所占据的部分空间作为关注区域。具体地，由于每一虚拟对象在虚拟空间所占据的部分空间的位置信息可以获知，而用户通过手所指向的位置信息也可以获知，从而通过位置比对的方式，即可确定用户通过手指向动作在虚拟空间中选中哪个虚拟对象，将该虚拟对象在虚拟空间中所占据的部分空间作为关注区域。具体可以如图6所示。用户通过手指向图6虚拟空间中的男性虚拟对象，则该男性虚拟对象在虚拟空间中所占据的部分空间可作为关注区域。而该男性虚拟对象作为声源也是处于该关注区域中的，从而可将该男性虚拟对象对应的声源作为关注声源。需要说明的是，该示例中的手指向动作可以为真实手指点击动作，可以为类似于鼠标指针的虚拟手指点击动作，还可以为肢体上的手指指向动作，本申请实施例对此不作具体限定。由此，在本示例中所使用的交互设备的类型在为操控设备的基础上，可进一步为触控设备、游戏手柄或视觉动作捕捉设备，本申请实施例对此不作具体限定。

需要说明的是，上述提及的示例中确定关注声源的过程，均是用户主动触发的。可以理解的是，实际实施过程中，也存在被动触发确定关注声源的过程。结合上述交互操作为转头动作的示例，用户经过一次转头动作，可以确定一片模拟视野范围区域。若用户经过某次转头动作后，则不再动作。此时，模拟视野范围区域，也即关注区域是固定的。而可以理解的是，虚拟空间中虚拟对象通常不会是固定的，而是会移动的。若存在虚拟对象主动移动至该关注区域中，则该虚拟对象对应的声源也可以作为关注声源。如图7所示，图中左边男性虚拟对象本来不在该关注区域中，但主动移动至该关注区域内，则该男性虚拟对象对应的声源也可以作为关注声源。

上述实施例中，由于用户只需针对虚拟空间进行交互操作，即可确定用户可能感兴趣的关注区域，并自动将处于关注区域中的声源作为关注声源，从而方便用户确定自身感兴趣的声音。

如图8所示，若将关注区域内所有声源作为关注声源，则关注声源也会有3个，将所有声源中除关注声源之外的声源作为非关注声源，非关注声源也会有2个。也即，实际实施过程中，关注声源与非关注声源均可能会有多个。在图3对应的实施例中，每一关注声源可以均对应一个目标关注音频，每一非关注声源均对应一个目标非关注音频。可以理解的是，在上述前提下，需要进行音频调节处理的关注声源可以有多个、需要进行音频调节处理的非关注声源可以有多个或者需要进行音频调节处理的非关注声源及关注声源均可以有多个。

基于此本申请还提供了在进行音频调节处理之前，先进行混音处理的实施例。在一些实施例中，获取与关注声源对应目标关注音频、以及与非关注声源对应的目标非关注音频，包括：对多个关注声源各自发出的关注音频进行混音处理，得到目标关注音频；对多个非关注声源各自发出的非关注音频进行混音处理，得到目标非关注音频。

可以获知的是，虚拟空间中通常会存在多个关注声源及多个非关注声源。而本申请实施例中提及的“多个关注声源”中的“多个”，可以指的是全部关注声源，也可以指的是全部关注声源中的部分关注声源，本申请实施例对此不作具体限定。本申请实施例中提及的“多个非关注声源”中的“多个”，亦可参考上述解释说明。另外，本申请实施例提及“混音处理”，可以指的是将多个声源的音频整合至一个立体声轨或者单音音轨中。

其中，多个关注声源混音处理后得到的目标关注音频可以记为

，多个非关注声源混音处理后得到的目标非关注音频可以记为

。无论是哪种声源，混音处理过程均可以采用直接加和法、平均法、箝位法、归一化、自适应混音加权或自动对齐算法中的一种算法。以采用直接加和法对多个关注声源进行混音处理为例，上述混音处理过程可参考如下公式（1）：

；（1）

其中，

表示K个关注声源在第i个采样时刻的混音处理结果。j表示第j路关注声源，

表示第j路关注声源在第i个采样时刻的音频采样值。

上述实施例中，由于可以形成整合多个关注声源的目标关注音频以及整合多个非关注声源的目标非关注音频，后续可以对整合形成的目标关注音频及目标非关注音频中的至少一种音频进行音频调节处理，而不需要逐一对每一声源的音频进行音频调节处理，从而可以降低音频调节处理的工作量。

由上述实施例的内容可知，图3对应的实施例中音频调节处理的目的主要是第一信号中间处理结果与第二信号中间处理结果所共同引发的关注声源在所有声源中的音效区分度，大于目标关注声源信号与目标非关注声源信号所共同引发的。而为达成该目的，可以只对关注声源对应的目标关注音频进行音频调节处理，也可以只对非关注声源对应的目标非关注音频进行音频调节处理，也可以同时对两者进行音频调节处理。

针对同时对两者进行音频调节处理的方式，在一些实施例中，对目标关注音频和目标非关注音频中的至少一种音频进行音频调节处理，得到关注声源的第一中间音频和非关注声源的第二中间音频，包括：对目标关注音频进行信号增强处理，得到与关注声源对应的第一中间音频；对目标非关注音频进行信号衰减处理，得到与非关注声源对应的第二中间音频。

其中，信号增强处理及信号衰减处理的方式均可以包括维纳滤波法、子空间增强算法、谱减法、自适应抵消法、隐马尔可夫模型法、短时幅度谱估计发或小波变换中至少一种，本申请实施例对此不作具体限定。计算机设备对目标关注音频进行信号增强处理，后续可以体现在关注声源的声音音量变大或清晰度提高。而计算机设备对目标非关注音频进行信号衰减处理，后续可以体现在非关注声源的声音音量减小或清晰度降低，本申请实施例不对信号增强处理及信号衰减处理后声音变化的体现形式作具体限定。

上述实施例中，由于可以同时对目标关注音频进行信号增强处理以及对目标非关注音频进行信号衰减处理，从而可从两个方向作调整，以使得关注声源发出的声音在所有声源中能获得更高的音效区分度，便于用户听清自身所感兴趣的声音。

可以理解的是，实际实施过程中，通常基于调节参数对音频进行调节。基于该项说明，在一些实施例中，对目标关注音频和目标非关注音频中的至少一种音频进行音频调节处理，得到关注声源的第一中间音频和非关注声源的第二中间音频，包括：从目标关注音频和目标非关注音频中确定待调节音频；确定待调节音频的各采样时刻分别对应的调节参数；基于各采样时刻分别对应的调节参数对待调节音频进行音频调节处理，并基于音频调节结果确定关注声源的第一中间音频和非关注声源的第二中间音频。

具体地，可仅将目标关注音频作为待调节音频，也可以仅将目标非关注音频作为待调节音频，也可以将目标关注音频与目标非关注音频同时作为待调节音频，本申请实施例对此不作具体限定。声音其实是一种能量波，波是无限光滑的，弦线可以看成由无数点组成，由于存储空间是相对有限的，从而数字编码过程中，通常会对弦线的点进行采样。由此可以理解的是，待调节音频对应着时间轴线，每一采样时刻对应着声音信号的调节参数。

由此，在本申请实施例中，计算机设备可以主要是对待调节音频在每一采样时刻对应的调节参数进行音频调节处理。其中，调节参数可包括音频波形的幅度、音频的基频频率或音频波形的谐波数量中的至少一种，本申请实施例对此不作具体限定。其中，音频波形的幅度即对应音量，音频的基频频率即对应音调，而音频波形的谐波数量即对应音色。计算机设备可对待调节音频各采样时刻分别对应的调节参数进行调节，可得到音频调节结果，进而由音频调节结果确定关注声源的第一中间音频和非关注声源的第二中间音频。

上述实施例中，由于可以基于各采样时刻对应的调整参数，对目标关注音频和目标非关注音频中的至少一种音频进行音频调节处理，从而可实现精准调节。

在一些实施例中，确定待调节音频的各采样时刻分别对应的调节参数，包括：确定待调节音频的各采样时刻分别落入的目标时间段，目标时间段是由声源切换过程所确定的，声源切换过程指关注声源与非关注声源之间的切换；获取各采样时刻分别落入的目标时间段对应的调整函数的计算结果，作为各采样时刻分别对应的调节参数，其中，调整函数中存在一个自变量的取值是基于采样时刻所确定的。

由上述实施例的内容可知，虚拟空间的声源通常是实时捕捉到的或者由虚拟现实应用程序所预先设定的。其中，目标时间段的起始时刻可以预先确定的，目标时间段的时长也可以预先设定的。例如，若虚拟空间的声源是由虚拟现实应用程序所预先设定的，则目标时间段的起始时刻与时长均可以也是预先设定的。另外，确定了起始时刻及时长，目标时间段的结束时长也可以确定。

为了便于说明，以虚拟空间的声源是实时捕捉到的为例。若待调节音频是目标关注音频，则对于当前采样时刻，计算机设备可以先确定当前采样时刻所落入的目标时间段。可以理解的是，虚拟空间的声源并非是一直作为关注声源或者非关注声源，而是会发生状态的切换。例如，某声源在某一时刻可能为关注声源，在下一时刻可能会就切换为非关注声源。由此，由于目标关注音频是关注声源对应的音频，而目标时间段又是由声源切换过程所确定的，从而计算机设备可以确定目标时间段的起始时刻，可以与该关注声源最近一次切入为“关注声源”的时刻相关。而目标时间段的结束时刻，可以与该关注声源在当前采样时刻之后，最近一次切出为“非关注声源”的时刻相关。

例如，以关注声源为A为例，当前采样时刻为2021年12月21日上午11点30分。而对于当前采样时刻，A最近一次切入为关注声源的时刻为是2021年12月21日上午11点25分切入为关注声源的，在这之前均为非关注声源。由此可以确定，目标时间段的起始时刻可以与2021年12月21日上午11点25分相关，如可以直接为该时刻。若在当前采样时刻之后的2021年12月21日上午11点35分，A切出为非关注声源，则可以确定目标时间段的结束时刻可以与2021年12月21日上午11点35分相关，例如也可以直接为该时刻。

另外，若待调节音频是目标非关注音频，则对于当前采样时刻，同样计算机设备可以先确定当前采样时刻所落入的目标时间段。此时，目标非关注音频是非关注声源对应的音频，目标时间段的起始时刻与结束时刻如何确定可参考上述实施例的内容。例如，目标时间段的起始时刻，可以与该非关注声源最近一次切入为“非关注声源”的时刻相关。而目标时间段的结束时刻，可以与该关注声源在当前采样时刻之后，最近一次切出为“关注声源”的时刻相关。

由上述实施例的内容可知，若待调节音频是目标关注音频，则目标时间段可以理解为声源作为关注声源的一个完整生命周期。若待调节音频是目标非关注音频，则目标时间段可以理解为声源作为非关注声源的一个完整生命周期。要说明的是，待调节音频可能同时包括目标关注音频及目标非关注音频，则对于当前采样时刻，同一时刻需要对两种音频进行音频调节处理。此时，虽然在时间段上可能会重叠，但目标关注音频与目标非关注音频可以各自对应一个目标时间段，且两者在各自对应的目标时间段下，基于各自对应的调整函数执行自身的音频调节处理过程。

还需要说明的是，在上述内容中，对于目标关注音频对应的目标时间段，该目标时间段是基于声源作为关注声源的一个完整生命周期所定义的，即声源作为关注声源的一个完整生命周期仅对应一个目标时间段。而声源作为非关注声源的一个完整生命周期也是仅对应一个目标时间段。而可以理解的是，实际实施过程中，声源作为关注声源的一个完整生命周期是可以对应划分为多个时间段的，当前采样时刻落入至该多个时间段中哪个时间段，则该时间段即可作为当前采样时刻落入的目标时间段。同理，声源作为非关注声源的一个完整生命周期也可以划分为多个时间段，当前采样时刻在该多个时间段中所落入的时间段，可作为当前采样时刻落入的目标时间段。

在本申请实施例中，目标时间段对应一个调整函数。可以理解的是，不同的采样时刻可以对应调整函数不同的计算结果。由此，调整函数中可以至少存在一个自变量的取值与采样时刻的取值关联。计算机设备将当前采样时刻代入至当前采样时刻落入的目标时间段对应的调整函数中，得到的计算结果即可作为当前采样时刻对应的调节参数。

上述实施例中，由于可基于待调节音频的采样时刻所落入的目标时间段所对应的调整函数，确定采样时刻对应的调节参数，从而针对不同时刻可以对应有不同的调节参数，进而可以实现精准调节。

可以理解的是，听者距离声源的远近，会影响听者听到的效果，如声音是否清晰等。由此，实际实施过程中，调节参数如何确定，还可以参考听者与声源之间的距离。而在本申请实施例中，在真实空间中，“听者”可以为触发交互操作的目标对象，也即可以为使用交互设备的用户。而在虚拟空间中，使用交互设备的用户通常会映射存在一个映射对象，该映射对象即为虚拟操作对象。基于该说明，在一些实施例中，调整函数中包括有调整阈值，调整阈值是由对应的声源与虚拟空间中的虚拟操作对象之间的距离所确定，虚拟操作对象是触发交互操作的目标对象在虚拟空间中的映射对象。

由上述实施例可知，调整函数中可以存在采样时刻对应的自变量。而在本申请实施例中，调整函数除了包括该自变量之外，还可以包括基于虚拟操作对象与声源之间的距离所确定的另一个自变量，该自变量即为调整阈值。由上述实施例的内容可知，“目标关注音频与目标非关注音频可以各自对应一个目标时间段，且两者在各自对应的目标时间段下，基于各自对应的调整函数执行自身的音频调节处理过程”，而目标关注音频与目标非关注音频均各自对应一个声源。由此可知，每一声源可以对应一个调整函数。基于此，对于任一声源，该声源对应的调整函数中包括的调整阈值，可以由该声源与虚拟空间中虚拟操作对象之间的距离所确定。

其中，可以通过查表映射方式确定调整阈值，本申请实施例对此不作具体限定。例如，可以预先设置不同的距离取值区间。其中，关注声源在每一距离取值区间下对应一个调整阈值，非关注声源在每一距离取值区间下也对应一个调整阈值。后续基于实际距离所落入的距离取值区间，以及实际距离对应的声源类型（是关注声源还是非关注声源），即可确定实际距离对应的调整阈值。

上述实施例中，由于听者与声源之间的距离，可以影响调节参数的取值，从而距离可以影响声源所产生的音效。由此，可以基于距离的远近对声源发出的音频进行调节，以使得用户更容易听清自己感兴趣的声音。

由上述实施例的内容可知，声源作为关注声源的一个完整生命周期可以对应多个时间段。而关注声源的一个完整生命周期通常是指的是切入为关注声源至切出为非关注声源这一时间段，实际实施过程这一时间段可以切分为三个时间段，分别为切入关注时间段、持续关注时间段、以及退出关注时间段。其中，切入关注时间段可以指的是声源刚被确定为关注声源时的伊始阶段，而持续关注时间段可以指的是声源被确定为关注声源后的稳定阶段，而退出关注时间段可以指的是声源刚被确定为非关注声源的伊始阶段，也同时指的是声源不再作为关注声源时的收尾阶段。

基于上述说明，在一些实施例中，若待调节音频为目标关注音频，则目标时间段为切入关注时间段、持续关注时间段、以及退出关注时间段中的一种；其中，切入关注时间段的起始时刻基于声源被确定为关注声源的时刻确定，持续关注时间段的起始时刻基于切入关注时间段的结束时刻确定，退出关注时间段的起始时刻基于关注声源被切换为非关注声源的时刻确定，或者基于取消关注指令确定。

其中，切入关注时间段的起始时刻可以为声源被确定为关注声源的时刻，还可以为该时刻之前或者之后的某一时刻，如经过几秒后的某一时刻。同理，持续关注时间段的起始时刻可以为切入关注时间段的结束时刻，也可以为该时刻之前或者之后的某一时刻。退出关注时间段的起始时刻可以为关注声源被切换为非关注声源的时刻，也可以为该时刻之前或者之后的某一时刻。另外，持续关注时间段的结束时刻可以为关注声源被切换为非关注声源的时刻，也可以为该时刻之前或之后的某一时刻，本申请实施例对此不作限定。

在上述说明中，切入关注时间段的结束时刻以及退出关注时间段的结束时刻并没有给出确定依据。实际实施过程中，可以通过设置切入关注时间段与退出关注时间段各自的时长，以确定各自的结束时刻，本申请实施例对此不作具体限定。可以理解的是，“关注声源被切换为非关注声源”侧重的是声源被动切换过程，如关注声源通常是可移动的，关注声源离开了关注区域，即会被切换为非关注声源。实际实施过程中，也可以主动通过指令触发的方式，将关注声源切换为非关注声源。由此，在本申请实施例中，退出关注时间段的起始时刻还可以基于取消关注指令所确定。

上述实施例中，由于声源作为关注声源的一个完整生命周期可以对应多个时间段，基于采样时刻所落入的不同时间段，可确定对应的调节参数，后续基于调节参数进行音频调节处理，从而针对关注声源的一个完整生命周期，可以分阶段进行音频调节，进而使得调节过程更加精细，所产生的音效更佳。

在一些实施例中，切入关注时间段对应的调整函数为单调递增函数，持续关注时间段对应的调整函数为常数函数，退出关注时间段对应的调整函数为单调递减函数。

其中，单调递增函数指的是随着时间的推进，调节函数的计算结果，也即调节参数逐渐增大。常数函数指的是随着时间的推进，调节函数的计算结果，也即调节参数保持某一数值不变。单调递减函数指的是随着时间的推进，调节函数的计算结果，也即调节参数逐渐减小。

可以理解的是，之所以将切入关注时间段对应的调整函数设置为单调递增函数，是因为切入关注时间段是声源刚被确定为关注声源时的伊始阶段，而随着时间的推进，调节参数的取值越来越大，也符合关注声源逐渐代入至听觉世界中的渐变处理预期。之所以将持续关注时间段对应的调整函数设置为常数函数，是因为持续关注时间段指的是声源被确定为关注声源后的稳定阶段，而随着时间的推进，调节参数的取值保持不变，也符合关注声源已被代入至听觉世界中的稳定处理预期。之所以将退出关注时间段对应的调整函数设置为单调递减函数，是因为退出关注时间段指的是声源不再作为关注声源时的收尾阶段，而随着时间的推进，调节参数的取值越来越小，也符合关注声源逐渐从听觉世界中淡出的渐变处理预期。

上述实施例中，由于调节参数可随着时间的推进逐渐增大、保持不变至逐渐减小，而通过渐变处理过程可以符合关注声源至非关注声源之间的切换过程，从而调节过程更加精细，所产生的音效更佳。

在一些实施例中，单调递增函数与单调递减函数各自梯度均随着自变量的增大而逐渐减小。

其中，本申请实施例提及的自变量指的是基于采样时刻所确定的自变量。可以理解的是，切入关注时间段是声源刚被确定为关注声源时的伊始阶段，随着时间的推进，调节参数的取值越来越大，可以符合关注声源逐渐代入至听觉世界中的渐变处理预期。由于切入关注时间段的后面是保持稳定的持续关注时间段，而随着时间的推进，调节参数的取值持续以刚开始的增速持续增大，显然也不太符合后续趋向稳定的渐变处理预期，而取值逐渐增大但增速逐渐放缓的趋势比较符合后续趋向稳定的渐变处理预期，从而单调递增函数可以设置成随着时间的推进，梯度逐渐减小。

同理，退出关注时间段是声源刚被确定为非关注声源的伊始阶段，也同时指的是声源不再作为关注声源时的收尾阶段。随着时间的推进，调节参数的取值越来越小，可以符合关注声源逐渐从听觉世界中淡出的渐变处理预期。由于退出关注时间段的后面可以是保持稳定的持续非关注时间段，而随着时间的推进，调节参数的取值以刚开始的降速持续减小，显然也不太符合后续趋向稳定的渐变处理预期，而取值逐渐减小但降速逐渐放缓的趋势比较符合后续趋向稳定的渐变处理预期，从而单调递减函数也可以设置成随着时间的推进，梯度逐渐减小。

上述实施例中，由于调节参数的增速或者降速可随着时间的变化而改变，以适应渐变处理预期，从而调节过程更加精细，所产生的音效更佳。

上述实施例主要是从原理性的角度说明，待调节音频为目标关注音频时，调节参数如何确定的过程。现结合具体示例对上述实施例中调节参数的确定过程进行说明，具体可参考图9。以图9中的时间单位为秒为例，图9中0至0.5秒对应于切入关注时间段，0.5至T对应于持续关注时间段，T至T+0.5对应于退出关注时间段。其中，第0秒以及第0.5秒并不指的是真实时刻，只是为了方便计量。结合上述实施例的内容，可以理解的是，第0秒可以为声源被确定为关注声源的时刻，而第T秒可以为关注声源被切换为非关注声源的时刻。

具体地，切入关注时间段对应的调整函数可参考如下公式（2）：

；（2）

其中，

表示切入关注时间段对应的调整函数，t表示基于当前采样时刻所确定的自变量；

的取值是基于切入关注时间段的时长所确定的；

对应于上述实施例中提及的调整阈值，其取值是由对应的声源与虚拟空间中的虚拟操作对象之间的距离所确定的；

、

及

均表示常量。进一步地，

的取值可大于1，

的取值可以为1，

的取值可以为1，

的取值可以为0.5。实际实施过程中，上述常量的取值可以根据需求设置，本申请实施例对此不作具体限定。如图9所示，切入关注时间段对应的调整函数为递增函数且梯度随着时间推进而逐渐减小。

持续关注时间段对应的调整函数可参考如下公式（3）：

；（3）

其中，

表示持续关注时间段对应的调整函数。

作为调整阈值，其取值可以根据需求进行设置，在本申请实施例中

的取值可以与

相同，本申请实施例对此不作具体限定。如图9所示，持续关注时间段对应的调整函数为常数函数。

退出关注时间段对应的调整函数可参考如下公式（4）：

；（4）

其中，

表示退出关注时间段对应的调整函数，t表示基于当前采样时刻所确定的自变量；

的取值是基于退出关注时间段的时长所确定的；

、

及

均表示常量。进一步地，

的取值可大于1，

的取值可以为1，

的取值可以为1，

的取值可以为0.5。实际实施过程中，上述常量的取值可以根据需求设置，本申请实施例对此不作具体限定。如图9所示，退出关注时间段对应的调整函数为递减函数且梯度随着时间推进而逐渐减小。

上述内容主要是待调节音频为关注音频时对应的实施例，结合上述实施例的内容，可以获知的是，待调节音频还可以为目标非关注音频。基于此，在一些实施例中，若待调节音频为目标非关注音频，则目标时间段为切入非关注时间段、持续非关注时间段、以及退出非关注时间段中的一种；其中，切入非关注时间段的起始时刻基于声源被确定为非关注声源的时刻确定，持续非关注时间段的起始时刻基于切入非关注时间段的结束时刻确定，退出非关注时间段的起始时刻基于非关注声源被切换为关注声源的时刻确定，或者基于关注指令确定。

其中，切入非关注时间段的起始时刻可以为声源被确定为非关注声源的时刻，还可以为该时刻之前或者之后的某一时刻，如经过几秒后的某一时刻。同理，持续非关注时间段的起始时刻可以为切入非关注时间段的结束时刻，也可以为该时刻之前或者之后的某一时刻。退出非关注时间段的起始时刻可以为非关注声源被切换为关注声源的时刻，也可以为该时刻之前或者之后的某一时刻。另外，持续非关注时间段的结束时刻可以为非关注声源被切换为关注声源的时刻，也可以为该时刻之前或之后的某一时刻，本申请实施例对此不作限定。

在上述说明中，切入非关注时间段的结束时刻以及退出非关注时间段的结束时刻并没有给出确定依据。实际实施过程中，可以通过设置切入非关注时间段与退出非关注时间段各自的时长，以确定各自的结束时刻，本申请实施例对此不作具体限定。与上述实施例类似，“非关注声源被切换为关注声源”侧重的是声源被动切换过程，如非关注声源通常是可移动的，非关注声源进入了关注区域，即会被切换为关注声源。实际实施过程中，也可以主动通过指令触发的方式，将非关注声源切换为关注声源。由此，在本申请实施例中，退出非关注时间段的起始时刻还可以基于关注指令所确定。

上述实施例中，由于声源作为非关注声源的一个完整生命周期可以对应多个时间段，基于采样时刻所落入的不同时间段，可确定对应的调节参数，后续基于调节参数进行音频调节处理，从而针对非关注声源的一个完整生命周期，可以分阶段进行音频调节，进而使得调节过程更加精细，所产生的音效更佳。

在一些实施例中，切入非关注时间段对应的调整函数为单调递减函数，持续非关注时间段对应的调整函数为常数函数，退出非关注时间段对应的调整函数为单调递增函数。

其中，单调递增函数、常数函数及单调递增函数的定义可参考待调节音频为目标关注音频对应实施例中的解释说明，此处不再赘述。

同样可以理解的是，之所以将切入非关注时间段对应的调整函数设置为单调递减函数，是因为切入非关注时间段指的是声源不再作为关注声源时的收尾阶段，而随着时间的推进，调节参数的取值越来越小，也符合关注声源逐渐从听觉世界中淡出的渐变处理预期。之所以将持续非关注时间段对应的调整函数设置为常数函数，是因为持续非关注时间段指的是声源被确定为非关注声源后的稳定阶段，而随着时间的推进，调节参数的取值保持不变，也符合非关注声源已被代入至听觉世界中的稳定处理预期。之所以将退出非关注时间段对应的调整函数设置为单调递增函数，是因为退出非关注时间段是声源刚被确定为关注声源时的伊始阶段，而随着时间的推进，调节参数的取值越来越大，也符合关注声源逐渐代入至听觉世界中的渐变处理预期。

另外，本申请实施例中提及的单调递增函数及单调递减函数各自梯度也可以均随着自变量的增大而逐渐减小。此处提及的自变量也是基于采样时刻所确定的自变量。可以理解的是，切入非关注时间段是声源刚被确定为非关注声源时的伊始阶段，随着时间的推进，调节参数的取值越来越小，可以符合非关注声源逐渐从听觉世界中淡出的渐变处理预期。由于切入非关注时间段的后面是保持稳定的持续非关注时间段，而随着时间的推进，调节参数的取值持续以刚开始的降速持续减小，显然也不太符合后续趋向稳定的渐变处理预期，而取值逐渐减小但降速逐渐放缓的趋势比较符合后续趋向稳定的渐变处理预期，从而单调递减函数可以设置成随着时间的推进，梯度逐渐减小。

同理，退出非关注时间段是声源刚被确定为关注声源的伊始阶段，也同时指的是声源不再作为非关注声源时的收尾阶段。随着时间的推进，调节参数的取值越来越大，可以符合关注声源逐渐代入至听觉世界中的渐变处理预期。由于退出非关注时间段的后面可以是保持稳定的持续关注时间段，而随着时间的推进，调节参数的取值持续以刚开始的增速持续增大，显然也不太符合后续趋向稳定的渐变处理预期，而取值逐渐增大但增速逐渐放缓的趋势比较符合后续趋向稳定的渐变处理预期，从而单调递增函数也可以设置成随着时间的推进，梯度逐渐减小。

上述实施例中，由于调节参数可随着时间的推进逐渐减小、保持不变至逐渐增大，而通过渐变处理过程可以符合非关注声源至关注声源之间的切换过程，从而调节过程更加精细，所产生的音效更佳。另外，由于调节参数的增速或者降速可随着时间的变化而改变，以适应渐变处理预期，从而也可以使得调节过程更加精细，所产生的音效更佳。

上述实施例主要是从原理性的角度说明，待调节音频为目标非关注音频时，调节参数如何确定的过程。现结合具体示例对上述实施例中调节参数的确定过程进行说明，具体可参考图10。以图10中的时间单位为秒为例，图10中0至0.5秒对应于切入非关注时间段，0.5至T对应于持续非关注时间段，T至T+0.5对应于退出非关注时间段。其中，第0秒以及第0.5秒并不指的是真实时刻，只是为了方便计量。结合上述实施例的内容，可以理解的是，第0秒可以为声源被确定为非关注声源的时刻，而第T秒可以为非关注声源被切换为关注声源的时刻。

具体地，切入非关注时间段对应的调整函数可参考如下公式（5）：

；（5）

其中，

表示切入非关注时间段对应的调整函数，t表示基于当前采样时刻所确定的自变量；

的取值是基于切入非关注时间段的时长所确定的；

、

及

均表示常量。进一步地，

的取值可小于1，

的取值可与

相同，

的取值可以为1，

的取值可以为0.5。实际实施过程中，上述常量的取值可以根据需求设置，本申请实施例对此不作具体限定。如图10所示，切入非关注时间段对应的调整函数为递减函数且梯度随着时间推进而逐渐减小。

持续非关注时间段对应的调整函数可参考如下公式（6）：

；（6）

其中，

表示持续非关注时间段对应的调整函数。

的取值可以与

相同，本申请实施例对此不作具体限定。如图10所示，持续非关注时间段对应的调整函数为常数函数。

退出非关注时间段对应的调整函数可参考如下公式（7）：

；（7）

其中，

表示退出非关注时间段对应的调整函数，t表示基于当前采样时刻所确定的自变量；

的取值是基于退出非关注时间段的时长所确定的；

、

及

均表示常量。进一步地，

的取值可小于1，

的取值与

可以相同，

的取值可以为1，

的取值可以为0.5。实际实施过程中，上述常量的取值可以根据需求设置，本申请实施例对此不作具体限定。如图10所示，退出非关注时间段对应的调整函数为递增函数且梯度随着时间推进而逐渐减小。

还需要说明的是，待调节音频可以同时包括目标关注音频和目标非关注音频。此时，可按照实施例提及的处理方式各自对目标关注音频和目标非关注音频进行音频调节处理。另外，由图9与图10可以看出，退出非关注时间段的结束时刻与切入关注时间段的开始时刻之间还可以衔接。例如，退出非关注时间段的起始时刻可以为非关注声源被切换为关注声源的时刻，而切入关注时间段的起始时刻可以为退出非关注时间段的结束时刻。

在一些实施例中，基于音频调节结果确定关注声源的第一中间音频和非关注声源的第二中间音频，包括：若目标关注音频为待调节音频，则将目标关注音频所对应的音频调节结果作为关注声源的第一中间音频，否则直接将目标关注音频作为第一中间音频；若目标非关注音频为待调节音频，则将目标非关注音频所对应的音频调节结果作为非关注声源的第二中间音频，否则直接将目标非关注音频作为第二中间音频。

具体地，若待调节音频为目标关注音频，则说明目标关注音频需要执行音频调节处理，计算机设备可以将目标关注音频所对应的音频调节结果作为关注声源的第一中间音频。否则，则说明目标关注音频不需要执行音频调节处理，计算机设备可以直接将目标关注音频作为第一中间音频。而目标非关注音频同理。另外，若目标关注音频与目标非关注音频均为待调节音频，则经过音频调节处理，得到第一中间音频与第二中间音频的过程可参考如下公式（8）及（9）：

；（8）

；（9）

其中，

表示第i个采样时刻的目标关注音频，t表示基于第i个采样时刻所确定的自变量，

表示第i个采样时刻的第一中间音频。

表示待调节音频为目标关注音频的前提下，第i个采样时刻对应的调节参数。

如何确定可参考上述公式（2）、（3）及（4）。

表示第i个采样时刻的目标非关注音频，

表示第i个采样时刻的第二中间音频。

表示待调节音频为目标非关注音频的前提下，第i个采样时刻对应的调节参数，

如何确定可参考上述公式（5）、（6）及（7）。

可以理解的是，虚拟空间中播放的音频信号通常会存在多个声道，从而实际实施过程中还涉及到多声道的声音重构。由此，在一些实施例中，如图11所示，提供了一种基于虚拟空间的音频处理方法，以该方法应用于图2中的计算机设备204，且在虚拟现实应用程序中应用为例进行说明，包括以下步骤：

步骤1102、响应于针对虚拟空间的交互操作，确定虚拟空间中的关注声源，并将虚拟空间的所有声源中除关注声源之外的声源作为非关注声源。

步骤1104、获取与关注声源对应的目标关注音频、以及与非关注声源对应的目标非关注音频。

步骤1106、对目标关注音频和目标非关注音频中的至少一种音频进行音频调节处理，得到关注声源的第一中间音频和非关注声源的第二中间音频，其中，第一中间音频的音效区分度大于第二中间音频的音效区分度。

步骤1108、对第一中间音频与第二中间音频进行混音，得到混音处理结果。

其中，上述步骤的具体解释说明可参考上述图3对应实施例的内容。

步骤1110、获取多个声道各自对应的混音处理结果，基于多个声道的混音处理结果进行立体声重构，并在虚拟空间中输出重构得到的立体声。

其中，每一声道均可以参照上述实施例提及的过程进行音频调节处理，得到每一声道的混音处理结果。另外，立体声重构可采用HRTF虚拟立体声重构技术实现，本申请实施例对此不作具体限定。

上述实施例中，由于可以对每一声道中关注声源及非关注声源对应的音频中的至少一种音频进行音频调节处理，以使得关注声源对应音频的音效区分度大于非关声源对应音频的音效区分度，而关注声源正是用户自身感兴趣的声音，从而使得用户更容易听清自身感兴趣的声音。另外，在嘈杂环境下，用户也能够有效分辨自身感兴趣的声音。

除了上述实施例中提及的交互操作的触发方式及类型之外，交互操作还可以存在其它的触发方式及类型。基于此，在一些实施例中，交互操作通过交互设备捕获得到，交互操作的操作类型包括感官指向类型、意识指向类型和肢体指向类型中的至少一种。

其中，感官指向类型的交互操作，可以指的是通过感官触发的交互操作，如通过视觉触发，上述实施例中通过。意识指向类型的交互操作，可以指的是通过意识触发的交互操作，如通过脑电波触发的交互操作。肢体指向类型的交互操作，可以指的是通过肢体动作的交互操作，如通过手部操控动作触发的交互操作。

上述实施例中，由于存在多种操作类型的交互操作，从而能够丰富关注声源的触发方式。

本申请实施例还提供一种应用场景，该应用场景应用上述的基于虚拟空间的音频处理方法。具体地，该基于虚拟空间的音频处理方法在该应用场景的应用如下：

用户带上VR眼镜连接主机设备玩沉浸式游戏，用户的转头动作在主机设备的虚拟现实游戏程序中映射为虚拟操作对象在虚拟空间中模拟视野范围区域的改变。主机设备将虚拟空间中位于改变后的模拟视野范围区域（也即关注区域）内的声源作为关注声源，而将虚拟空间中剩下的声源作为非关注声源。

主机设备对所有关注声源进行混音处理，得到所有关注声源对应的目标关注音频。主机设备对所有非关注声源进行混音处理，得到所有非关注声源对应的目标非关注音频。主机设备确定音频采样时刻所落入的时间段，主机设备根据落入的时间段，确定对应使用的调整函数，主机设备基于调整函数，确定调节参数，并基于调节参数对目标关注音频进行信号增强处理，得到第一中间音频。基于类似的方式，主机设备对目标非关注音频进行信号衰减处理，得到第二中间音频。主机设备对第一中间音频与第二中间音频进行混音，得到混音处理结果。最后，主机设备对每一声道的混音处理结果进行立体声重构，向VR眼镜输出立体声，用户通过VR眼镜附带的耳机即可听到立体声。

本申请还另外提供一种应用场景，该应用场景应用上述的基于虚拟空间的音频处理方法。具体地，该基于虚拟空间的音频处理方法在该应用场景的应用如下：

用户使用动作捕获设备连接主机设备玩体感游戏，用户的手部操控动作会被动作捕获设备所捕获，在体感游戏程序中映射为虚拟操作对象在虚拟空间中所指向的虚拟操作对象，如用户通过动作捕获设备指向体感游戏中的非玩家角色。主机设备可将该虚拟操作对象在虚拟空间中占据的空间作为关注区域，将该关注区域内，也即该虚拟操作对象对应的声源作为关注声源。通过该方式，用户可以指定多个关注声源。将该虚拟空间中剩下的声源作为非关注声源。

主机设备对所有关注声源进行混音处理，得到所有关注声源对应的目标关注音频。主机设备对所有非关注声源进行混音处理，得到所有非关注声源对应的目标非关注音频。主机设备确定音频采样时刻所落入的时间段，主机设备根据落入的时间段，确定对应使用的调整函数，主机设备基于调整函数，确定调节参数，并基于调节参数对目标关注音频进行信号增强处理，得到第一中间音频。基于类似的方式，主机设备对目标非关注音频进行信号衰减处理，得到第二中间音频。主机设备对第一中间音频与第二中间音频进行混音，得到混音处理结果。最后，主机设备对每一声道的混音处理结果进行立体声重构，向音箱或者用户佩戴的耳机输出立体声，用户即可听到立体声。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的基于虚拟空间的音频处理方法的基于虚拟空间的音频处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个基于虚拟空间的音频处理装置实施例中的具体限定可以参见上文中对于基于虚拟空间的音频处理方法的限定，在此不再赘述。

在一些实施例中，如图12所示，提供了一种基于虚拟空间的音频处理装置1200，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：确定模块 1202、获取模块1204、音频调节处理模块1206和混音处理模块1208，其中：

确定模块1202，用于响应于针对虚拟空间的交互操作，确定虚拟空间中的关注声源，并将虚拟空间的所有声源中除关注声源之外的声源作为非关注声源；

获取模块1204，用于获取与关注声源对应的目标关注音频、以及与非关注声源对应的目标非关注音频；

音频调节处理模块1206，用于对目标关注音频和目标非关注音频中的至少一种音频进行音频调节处理，得到关注声源的第一中间音频和非关注声源的第二中间音频，其中，第一中间音频的音效区分度大于第二中间音频的音效区分度；

混音处理模块1208，用于对第一中间音频与第二中间音频进行混音，得到混音处理结果。

在一些实施例中，确定模块 1202，用于响应于针对虚拟空间的交互操作，确定交互操作所指向的虚拟空间中的关注区域；将处于关注区域中的声源作为关注声源。

在一些实施例中，获取模块1204，用于对多个关注声源各自发出的关注音频进行混音处理，得到目标关注音频；对多个非关注声源各自发出的非关注音频进行混音处理，得到目标非关注音频。

在一些实施例中，音频调节处理模块1206，用于对目标关注音频进行信号增强处理，得到与关注声源对应的第一中间音频；对目标非关注音频进行信号衰减处理，得到与非关注声源对应的第二中间音频。

在一些实施例中，音频调节处理模块1206，包括：

在一些实施例中，第二确定单元，用于确定待调节音频的各采样时刻分别落入的目标时间段，目标时间段是由声源切换过程所确定的，声源切换过程指关注声源与非关注声源之间的切换；获取各采样时刻分别落入的目标时间段对应的调整函数的计算结果，作为各采样时刻分别对应的调节参数，其中，调整函数中存在一个自变量的取值是基于采样时刻所确定的。

在一些实施例中，调整函数中包括有调整阈值，调整阈值是由对应的声源与虚拟空间中的虚拟操作对象之间的距离所确定，虚拟操作对象是触发交互操作的目标对象在虚拟空间中的映射对象。

在一些实施例中，若待调节音频为目标关注音频，则目标时间段为切入关注时间段、持续关注时间段、以及退出关注时间段中的一种；其中，切入关注时间段的起始时刻基于声源被确定为关注声源的时刻确定，持续关注时间段的起始时刻基于切入关注时间段的结束时刻确定，退出关注时间段的起始时刻基于关注声源被切换为非关注声源的时刻确定，或者基于取消关注指令确定。

在一些实施例中，若待调节音频为目标非关注音频，则目标时间段为切入非关注时间段、持续非关注时间段、以及退出非关注时间段中的一种；其中，切入非关注时间段的起始时刻基于声源被确定为非关注声源的时刻确定，持续非关注时间段的起始时刻基于切入非关注时间段的结束时刻确定，退出非关注时间段的起始时刻基于非关注声源被切换为关注声源的时刻确定，或者基于关注指令确定。

在一些实施例中，第三确定单元，用于当目标关注音频为待调节音频时，则将目标关注音频所对应的音频调节结果作为关注声源的第一中间音频，否则直接将目标关注音频作为第一中间音频；若目标非关注音频为待调节音频，则将目标非关注音频所对应的音频调节结果作为非关注声源的第二中间音频，否则直接将目标非关注音频作为第二中间音频。

在一些实施例中，虚拟空间中的每个声源均对应多个声道；该装置还包括立体声重构模块；该立体声重构模块，用于获取多个声道各自对应的混音处理结果，基于多个声道的混音处理结果进行立体声重构，并在虚拟空间中输出重构得到的立体声。

在一些实施例中，交互操作通过交互设备捕获得到，交互操作的操作类型包括感官指向类型、意识指向类型和肢体指向类型中的至少一种。

关于对基于虚拟空间的音频处理装置的具体限定可以参见上文中对于基于虚拟空间的音频处理方法的限定，在此不再赘述。上述基于虚拟空间的音频处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端或服务器。其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于虚拟空间的音频处理方法。

本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户操作信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于虚拟空间的音频处理方法，其特征在于，所述方法包括：

响应于针对虚拟空间的交互操作，确定所述虚拟空间中的关注声源，并将所述虚拟空间的所有声源中除所述关注声源之外的声源作为非关注声源；

获取与所述关注声源对应的目标关注音频、以及与所述非关注声源对应的目标非关注音频；

对所述目标关注音频和所述目标非关注音频中的至少一种音频进行音频调节处理，得到所述关注声源的第一中间音频和所述非关注声源的第二中间音频，其中，所述第一中间音频的音效区分度大于所述第二中间音频的音效区分度；

对所述第一中间音频与所述第二中间音频进行混音，得到混音处理结果。

2.根据权利要求1所述的方法，其特征在于，所述响应于针对虚拟空间的交互操作，确定所述虚拟空间中的关注声源，包括：

响应于针对虚拟空间的交互操作，确定所述交互操作所指向的虚拟空间中的关注区域；

将处于所述关注区域中的声源作为关注声源。

3.根据权利要求1所述的方法，其特征在于，所述获取与所述关注声源对应目标关注音频、以及与所述非关注声源对应的目标非关注音频，包括：

对多个关注声源各自发出的关注音频进行混音处理，得到目标关注音频；

对多个非关注声源各自发出的非关注音频进行混音处理，得到目标非关注音频。

4.根据权利要求1所述的方法，其特征在于，所述对所述目标关注音频和所述目标非关注音频中的至少一种音频进行音频调节处理，得到所述关注声源的第一中间音频和所述非关注声源的第二中间音频，包括：

对所述目标关注音频进行信号增强处理，得到与所述关注声源对应的第一中间音频；

对所述目标非关注音频进行信号衰减处理，得到与所述非关注声源对应的第二中间音频。

5.根据权利要求1所述的方法，其特征在于，所述对所述目标关注音频和所述目标非关注音频中的至少一种音频进行音频调节处理，得到所述关注声源的第一中间音频和所述非关注声源的第二中间音频，包括：

从所述目标关注音频和所述目标非关注音频中确定待调节音频；

确定所述待调节音频的各采样时刻分别对应的调节参数；

基于各采样时刻分别对应的调节参数对所述待调节音频进行音频调节处理，并基于音频调节结果确定所述关注声源的第一中间音频和所述非关注声源的第二中间音频。

6.根据权利要求5所述的方法，其特征在于，所述确定所述待调节音频的各采样时刻分别对应的调节参数，包括：

确定所述待调节音频的各采样时刻分别落入的目标时间段，所述目标时间段是由声源切换过程所确定的，所述声源切换过程指关注声源与非关注声源之间的切换；

获取各采样时刻分别落入的目标时间段对应的调整函数的计算结果，作为各采样时刻分别对应的调节参数，其中，所述调整函数中存在一个自变量的取值是基于所述采样时刻所确定的。

7.根据权利要求6所述的方法，其特征在于，所述调整函数中包括有调整阈值，所述调整阈值是由对应的声源与虚拟空间中的虚拟操作对象之间的距离所确定，所述虚拟操作对象是触发所述交互操作的目标对象在虚拟空间中的映射对象。

8.根据权利要求6所述的方法，其特征在于，若所述待调节音频为所述目标关注音频，则所述目标时间段为切入关注时间段、持续关注时间段、以及退出关注时间段中的一种；其中，所述切入关注时间段的起始时刻基于声源被确定为关注声源的时刻确定，所述持续关注时间段的起始时刻基于所述切入关注时间段的结束时刻确定，所述退出关注时间段的起始时刻基于关注声源被切换为非关注声源的时刻确定，或者基于取消关注指令确定。

9.根据权利要求8所述的方法，其特征在于，所述切入关注时间段对应的调整函数为单调递增函数，所述持续关注时间段对应的调整函数为常数函数，所述退出关注时间段对应的调整函数为单调递减函数。

10.根据权利要求9所述的方法，其特征在于，所述单调递增函数与所述单调递减函数各自梯度均随着自变量的增大而逐渐减小。

11.根据权利要求6所述的方法，其特征在于，若所述待调节音频为所述目标非关注音频，则所述目标时间段为切入非关注时间段、持续非关注时间段、以及退出非关注时间段中的一种；其中，所述切入非关注时间段的起始时刻基于声源被确定为非关注声源的时刻确定，所述持续非关注时间段的起始时刻基于所述切入非关注时间段的结束时刻确定，所述退出非关注时间段的起始时刻基于非关注声源被切换为关注声源的时刻确定，或者基于关注指令确定。

12.根据权利要求11所述的方法，其特征在于，所述切入非关注时间段对应的调整函数为单调递减函数，所述持续非关注时间段对应的调整函数为常数函数，所述退出非关注时间段对应的调整函数为单调递增函数。

13.根据权利要求5所述方法，其特征在于，所述基于音频调节结果确定所述关注声源的第一中间音频和所述非关注声源的第二中间音频，包括：

若所述目标关注音频为待调节音频，则将所述目标关注音频所对应的音频调节结果作为所述关注声源的第一中间音频，否则直接将所述目标关注音频作为所述第一中间音频；

若所述目标非关注音频为待调节音频，则将所述目标非关注音频所对应的音频调节结果作为所述非关注声源的第二中间音频，否则直接将所述目标非关注音频作为所述第二中间音频。

14.根据权利要求1至13中任一项所述的方法，其特征在于，所述虚拟空间中的每个声源均对应多个声道，所述方法还包括：

获取多个声道各自对应的混音处理结果，基于多个声道的混音处理结果进行立体声重构，并在所述虚拟空间中输出重构得到的立体声。

15.根据权利要求1至13中任一项所述的方法，其特征在于，所述交互操作通过交互设备捕获得到，所述交互操作的操作类型包括感官指向类型、意识指向类型和肢体指向类型中的至少一种。

16.一种基于虚拟空间的音频处理装置，其特征在于，所述装置包括：

确定模块，用于响应于针对虚拟空间的交互操作，确定所述虚拟空间中的关注声源，并将所述虚拟空间的所有声源中除所述关注声源之外的声源作为非关注声源；

获取模块，用于获取与所述关注声源对应的目标关注音频、以及与所述非关注声源对应的目标非关注音频；

音频调节处理模块，用于对所述目标关注音频和所述目标非关注音频中的至少一种音频进行音频调节处理，得到所述关注声源的第一中间音频和所述非关注声源的第二中间音频，其中，所述第一中间音频的音效区分度大于所述第二中间音频的音效区分度；

混音处理模块，用于对所述第一中间音频与所述第二中间音频进行混音，得到混音处理结果。

17.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至15中任一项所述的方法的步骤。

18.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至15中任一项所述的方法的步骤。