CN110267166B

CN110267166B - 一种基于双耳效应的虚拟声场实时交互系统

Info

Publication number: CN110267166B
Application number: CN201910640943.3A
Authority: CN
Inventors: 王雨霓; 秦明昌
Original assignee: Shanghai Artsbang Culture Communication Co ltd
Current assignee: Shanghai Artsbang Culture Communication Co ltd
Priority date: 2019-07-16
Filing date: 2019-07-16
Publication date: 2021-08-03
Anticipated expiration: 2039-07-16
Also published as: CN110267166A

Abstract

本发明涉及一种基于双耳效应的虚拟声场实时交互系统，包括：音频信号采集模块，用于采集多路音频信号；声场渲染模块，用于对音频信号进行声场渲染，基于双耳效应获取带重构声场信息的多路音频信号；虚拟声场交互模块，用于根据头部参数及用户方位信息实时拼接带重构声场信息的多路音频信号，在整体声场中构建实时声音效果；输出模块，用于根据个性调节参数输出实时声音效果。与现有技术相比，本发明从声音本身和声场空间感上对音频进行处理，将原声场的高度的还原与再现，且具有灵活性、互动性和用户友好性等优点。

Description

一种基于双耳效应的虚拟声场实时交互系统

技术领域

本发明涉及实时交互系统，尤其是涉及一种基于双耳效应的虚拟声场实时交互系统。

背景技术

人的听觉系统不仅仅只负责“听”的功能，同时还担负着整个人体的平衡功能，而对声音位置与传播方向的判断就是其中一个重要的部分。人们紧靠一只耳朵是无法辨别声源方向的，但是两只耳朵却可以。听觉定位是指人在没有视觉线索的条件下判断声源位置的能力——我们称为声音空间定位或双耳效应。人的双耳对称分布在头的两侧，且耳廓和人的头部对声音起到了有效的遮掩作用，且当声源的直达声与反射声送入人耳的时间和频率强度分布产生差异时，同一声源送到双耳会有明显的时间差和强度差，这个现象导致我们可以清晰、准确地判断出声源的位置——即“双耳效应”。在当前飞速发展领域，如VR、AR、MR的虚拟世界构成中，“双耳效应”也起到重大的指导意义和现实作用。

然而在现有的相关系统中，以“双耳效应”为理论基础的系统，大多呈现方式以只可供用户感受学习的教具为主，表现形式单一，可供用户操作和互动学习的功能不强。

究其原因，主要有二大技术瓶颈：

(1)声场信息提取以及重构技术难点：对声场信息的提取与重构若仅对空间感进行处理，会造成声音的层次感和方位感不清晰，整体混响过大等缺陷，同时若只注重提取的声音本身，又缺乏空间感，同时存在噪声等问题。

(2)实时声场交互技术难点：在这虚拟的场景中，用户可以像在真实世界里一样和周围的环境交互。

我们已知的视频交互技术中，当用户佩带着头戴式显示器，手持控制器移动并环顾四周时，头戴式显示器和手持控制器内置的陀螺仪和运动传感器将捕获到用户的头部、手部的方位信息，这些信息将被传入头戴式显示器的高速处理器中进行处理，在内置的高清屏幕上显示出相应的立体化图像。然而，若想要获得身临其境般的沉浸式体验，仅仅构建出仿真的视觉场景是不够的，其他感官体验，尤其是听觉，对沉浸式体验有着同样重要的影响。

授权公告号为CN106255031B的发明专利公开了一种虚拟声场产生装置，该装置包括：

音源输入装置，用于从外部接收媒体声音；

定位系统，用于定位空间内用户人脸的位置和扬声器阵列的位置，并计算和校准所述空间的声学模型；

声场控制器，用于基于所述空间的声学模型和特定的声场模式控制所述媒体声音；

声场输出装置，用于与所述扬声器阵列连接，将经所述声场控制器控制的媒体声音输出到所述扬声器阵列。

该发明公开的虚拟声场产生装置，能够产生自动跟随空间内用户位置的多种虚拟声场，由用户选择使用。并且用户无需佩戴耳机等头戴式设备而被声场自动跟随，实现了自由跟听。

该发明专利存在以下缺点：1、对声场信息的提取与重构仅对空间感进行了处理；2、只能跟随用户的位置交互输出对应的声场，声场交互还不够，不能让用户达到沉浸式的体验。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于双耳效应的虚拟声场实时交互系统。

本发明的目的可以通过以下技术方案来实现：

一种基于双耳效应的虚拟声场实时交互系统，包括：

音频信号采集模块，用于采集多路音频信号；

声场渲染模块，用于对音频信号进行声场渲染，基于双耳效应获取带重构声场信息的多路音频信号；

虚拟声场交互模块，用于根据头部参数及用户方位信息实时拼接带重构声场信息的多路音频信号，在整体声场中构建实时声音效果；

输出模块，用于根据个性调节参数输出实时声音效果。

进一步地，所述声场渲染模块中，对音频信号的声场渲染具体为：首先对音频信号进行信号识别与处理，然后进行盲信号信息分离，获取分离信号，最后基于分离信号，重新构建声场。

进一步地，所述盲信号信息分离具体是基于连续音频信号中的特征成分进行，所述特征成分包括声音的响度、频率、衰减特征信息和声源发声位置。

进一步地，所述盲信号信息分离的具体过程包括以下步骤：

首先，基于特征成分分析，构建盲信号分离算法；

然后，基于采集的音频信号样本，实时对盲信号分离算法进行参数优化，获取优化盲信号分离算法；

最后，采用优化盲信号分离算法分别对每路音频信号进行处理，获取每路音频信号的分离信号。

进一步地，所述音频信号采集模块包括一组或多组麦克风阵列。

当声源发声时，多个声源信号到达各每一个麦克风与每一组麦克风阵列分别存在时间差、强度差和频率差，此外还可拾取到声场信息，具备了传统的麦克风阵列的拾音特征以及双耳录音的方法特征。在拾音过程中，能够有效地降低噪声干扰，更丰富的声场信息，同时更好地在虚拟声场交互模块中实现声音信息的多视角切换和/或拼接。

进一步地，所述虚拟声场交互模块中对带重构声场信息的多路音频信号进行拼接的方法包括：在特定视角的声场信息的基础上进行叠加或衰减。

进一步地，所述虚拟声场交互模块中用户的方位信息包括：头部移动信息和位置移动信息。

虚拟声场交互模块采集用户的位置移动信息，实时构建当前位置的位置声场；虚拟声场交互模块采集用户的头部转动信息，实时构建位置声场中不同方位相应的声音效果。

进一步地，所述个性调节参数包括：双耳信息调节参数和噪声控制参数

与现有技术相比，本发明具有以下优点：

(1)本发明设置的一组或多组麦克风阵列同时具备了传统的麦克风阵列的拾音特征以及双耳录音的方法特征。在拾音过程中，能够有效地降低噪声干扰，更丰富的声场信息，同时更好地在虚拟声场交互模块中实现声音信息的多视角切换和拼接，利于原始音频信息及其声场信息与用户的实时交互。

(2)本发明声场渲染模块采用基于连续音频信号中声音信息相位和频率差异性的盲信号信息分离技术，对声场的呈现具有更好的准确度和精确度，所生成的带重构声场信息(3D声场)的音频信号具有高度的三维空间感和沉浸感，是对原声场的高度的还原与再现。

(3)本发明虚拟声场实时交互模块根据用户的方位信息，实时对带重构声场信息的多路音频信号进行拼接和构建实时声音效果，使得本发明声场实时交互系统更具有灵活性和互动性。

(4)本发明输出模块还用于接收调节参数，根据用户对双耳信息调节参数和噪声控制参数的需求，使得虚拟声场实时交互系统输出相对应的实时声音效果，更具有用户友好性。

(5)本发明系统各模块采用多种音频技术，构成一个完整的系统集成，实现各个模块间彼此间信息和数据的共享与交互便于操作，且充分发挥了各个模块间的交互作用。

附图说明

图1为本发明基于双耳效应的虚拟声场实时交互系统的结构示意图；

图2为本发明实施例中声场渲染模块处理过程的流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例1

一种基于双耳效应的虚拟声场实时交互系统，包括以下模块：音频信号采集模块、声场渲染模块、虚拟声场交互模块和输出模块。该虚拟声场实时交互系统通过特定的麦克风阵列进行信源信息采集，并依据双耳效应从各个声源频率、时间、方位以及响度等多位度，进行声场渲染，而后根据用户的头部转动、位置移动等信息实时输出不同方位相应的声音效果。

下面对本实施例虚拟声场实时交互系统中各模块进行详细描述：

1、音频信号采集模块

音频信号采集模块包括单组或多组麦克风阵列，这些麦克风阵列由一系列可变指向性特征的子麦克风阵列构成。子麦克风阵列具体包括有线型、环型和球形，具体为一字、十字、平面、螺旋、球型以及无规则的排列。

在使用过程中，根据场地的实际大小，以及声学条件，选取相应的单组或多组不同的麦克风阵列，放置在不同的位置以拾取不同位置的声音信息。当声源发声时，多个声源信号到达各每一个麦克风与每一组麦克风阵列分别存在时间差、强度差和频率差等。特定单组或多组的麦克风阵列同时具备了传统的麦克风阵列的拾音特征以及双耳录音特征。在拾音过程中，能够有效地降低噪声干扰，更丰富的声场信息，同时更好地在虚拟声场交互模块中实现声音信息的多视角切换和/或拼接。

2、声场渲染模块

声场渲染模块基于连续音频信号中声音信息相位和频率差异性的盲信号信息分离技术，接收来自采集模块的多路音频信号，并基于双耳效应实时处理多路音频信号间的时间差、强度差、频率差以及各信号中所携带的声场信息。

该处理过程具体为：对所拾取到的音频信息进行基本的信号识别与处理，包括噪声及其他干扰声，同时对声音信息进行场景识别，而后重新构建声场，将每个麦克风采集的音频信息重新排布到声场中，并将处理结果发送至虚拟声场交互模块。

如图2所示，本实施例声场渲染模块的处理过程包括以下步骤：

S1：对一路连续音频信号进行基本的信号识别与处理，包括依次进行的零均值化处理和信号白化处理；

S2：基于特征成分分析，构建盲信号分离算法；然后，输入音频信号样本，实时对盲信号分离算法进行参数优化，把这些特征成分通过算法更好地剥离开以计算声场的详细信息，获取优化盲信号分离算法；

所述的特征成分分析以及所需要分离出的特征信号有：声音的基本内容信息、声音的响度、频率及其衰减特征信息、声源发声位置、直达声延时声以及反射声等信息，这些特征成分构成了这个声源所在声场的环境信息。

S3：采用优化盲信号分离算法分别对每路音频信号进行处理，获取每路音频信号的分离信号；

S4：将分离信号重新排布，获取带有重构的声场信息的音频信号；

S5：遍历每路音频信号，获取带有重构的声场信息的多路音频信号，并传输到虚拟声场交互模块中。

3、虚拟声场交互模块

虚拟声场交互模块，是将带有重构的声场信息的多路音频信号，进行叠加或衰减。该模块允许用户的头部转动、位置移动等信息实时输出不同方位相应的声音效果。

虚拟声场交互模块的具体处理过程包括：采集用户的头部参数，同时基于用户方位信息，在当前音频所在视角下将带有重构的声场信息的多路音频信号进行实时拼接，如叠加或衰减等，实时构建当前位置的位置声场及不同方位相应的声音效果。

所述头部参数包括头部的大小等等一些生理数值，该参数可以依据用户当下情况适应性调整。

4、输出模块

输出模块根据个性调节参数输出虚拟声场交互模块中构建的声音效果。该个性调节参数包括：双耳信息调节参数和噪声控制参数，从而分别对声场渲染模块中分离信号的重新排布参数和信号识别与处理参数进行调节。

5、虚拟声场交互模块与输出模块的具体实施过程

当用户佩戴上耳机时，系统将对应匹配与该用户相适应的头部参数，并根据用户选取的音频所在的“视角”信息，以及实时的头部转动信息以及脚步的移动信息，将声音与用户的这些信息进行实时匹配并同时生成用户当下状态的声音效果。

6、具体实施过程

当用户佩戴耳机后，系统匹配当前用户的头部参数，调整声音的输出，以使得用户有最佳的体验。同时用户可以自主调节调节参数，而后选取想要听取的当前音频流所在声场的具体听音位置，而后系统将根据用户的调节参数信息和听音位置信息进行音频拼接及声场重构。同时，当用户拾取到音频信息之后，可通过转动头部，或者脚步移动，与音频流进行实时交互，在原构建的声场的基础上，构建一个实时的动态声场。

比如一场足球比赛，在现场直播的时候，摄像机会有不同的机位，有的在看台，有的在球门后面等等，那么用户在通过手机APP去观看直播或者重播的时候，他会通过APP来选择相应的场次和视角，这个视角其实是和机位对应的。视觉上的对应是相对简单的，但是这里说到的就是这个用户选取的视角，以这个视角去构建在这个视角听到的声场效果。

在不同的环境里面，不同的位置，周围的存在物体的反射或者吸收都是不一样的，那么同一个声源的直达声、反射声、混响声都是不一样的，即便是同一个环境里，不同的视角也需要进行新的声场构建。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于双耳效应的虚拟声场实时交互系统，其特征在于，包括：

音频信号采集模块，用于采集多路音频信号，所述音频信号采集模块包括一组或多组麦克风阵列，放置在不同的位置以拾取不同位置的声音信息；

输出模块，用于根据个性调节参数输出实时声音效果；

所述声场渲染模块中，对音频信号的声场渲染具体为：首先对音频信号进行信号识别与处理，然后进行盲信号信息分离，获取分离信号，最后基于分离信号，重新构建声场，所述盲信号信息分离具体是基于连续音频信号中的特征成分进行，所述特征成分包括声音的响度、频率、衰减特征信息和声源发声位置；

所述虚拟声场交互模块中，所述用户的方位信息包括：头部移动信息和位置移动信息，根据用户选取的音频所在的视角信息以及所述用户的方位信息，进行实时匹配并同时生成用户当下状态的声音效果，实现声音信息的多视角切换。

2.根据权利要求1所述的一种基于双耳效应的虚拟声场实时交互系统，其特征在于，所述盲信号信息分离的具体过程包括以下步骤：

首先，基于特征成分分析，构建盲信号分离算法；

3.根据权利要求1所述的一种基于双耳效应的虚拟声场实时交互系统，其特征在于，所述虚拟声场交互模块中对带重构声场信息的多路音频信号进行拼接的方法包括：在特定视角的声场信息的基础上进行叠加或衰减。

4.根据权利要求1所述的一种基于双耳效应的虚拟声场实时交互系统，其特征在于，所述个性调节参数包括：双耳信息调节参数和噪声控制参数。