CN110495189A - 利用心理声学分组现象的立体声展开 - Google Patents

利用心理声学分组现象的立体声展开 Download PDF

Info

Publication number
CN110495189A
CN110495189A CN201880020404.3A CN201880020404A CN110495189A CN 110495189 A CN110495189 A CN 110495189A CN 201880020404 A CN201880020404 A CN 201880020404A CN 110495189 A CN110495189 A CN 110495189A
Authority
CN
China
Prior art keywords
sound
feed
stereo
frequency
expansion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880020404.3A
Other languages
English (en)
Inventor
伯恩特·博默
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omnio Sound Co Ltd
Original Assignee
Omnio Sound Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omnio Sound Co Ltd filed Critical Omnio Sound Co Ltd
Publication of CN110495189A publication Critical patent/CN110495189A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)

Abstract

立体声展开技术通过以下方式来解决立体声再现中的固有问题:利用现代DSP技术从左(L)立体声声道和右(R)立体声声道中提取信息来创建多个新声道,该新声道馈入处理算法中。该立体声展开技术通过以下方式运作:以常规方式向听众发送普通立体声信息以非常精确地建立声场中表演者的感知位置,然后向前以及在其他方向上投射经延迟和经频率整形的提取信号,以为耳朵和大脑提供额外的基于心理声学的线索。额外的线索产生了细节和透明性增加的感觉,并建立了声源和执行该声源的声学环境的三维属性。立体声展开技术设法创建组装有三维声源的真实可信的三维声音舞台,该三维声源在连续真实发声声学环境中产生声音。

Description

利用心理声学分组现象的立体声展开
简介
最初的立体声展开技术通过使用DSP算法从正常立体声录音提取信息和通过扬声器驱动器及时回放分层的附加信息来改善对声音的普通立体声再现,该扬声器驱动器不仅指向前方,而且还指向其他方向。立体声展开技术创建组装有三维声源的真实可信的三维声音舞台,该三维声源在连续真实发声声学环境中产生声音,并且与普通立体声再现相比,该立体声展开技术实现显著的改善。
在对立体声展开技术的持续研究过程中,还另外发现了人类大脑解释声音的方式,并且有可能改进该方法。现在,新的增强版本的立体声展开可以在具有和不具有指向其他方向而非向前朝向观众的附加驱动器的两种情况下使用。因此,新增强版本的立体声展开可适用于所有类型的现有标准扬声器和耳机收听。当与仅向前的扬声器驱动器一起使用时,该立体声展开现在设法实现至少与旧方法相同的改善量,当与附加的驱动器一起使用时,其更进一步地改善。用耳机收听时,该立体声展开设法将感知的声音舞台借助耳朵之间的细线从听众头部内移动到头部的外部。该立体声展开在没有任何关于听众的物理属性的先验信息的情况下这样做,该物理属性即耳朵、头部和肩部的形状和大小。
通过更好地了解心理声学分组现象及其对展开过程的影响,具体地实现了立体声展开EV的改善。
立体声展开和现有技术
音频DSP领域中提出了大量用于解决在声音再现方面存在的各种问题的现有技术。它们都使用相同的基本DSP构造块,如IIR滤波器、FIR滤波器、延迟、左减右提取算法等,但具有不同的最终结果。考虑到现有技术,变得显而易见的是,在该领域中有三个主要群组可被认为在一定程度上与立体声展开技术相关。
第一,有现有技术概述了用于实现更广的立体声图像的方法。这些现有技术主要集中于这样的立体声扬声器,该立体声扬声器具有定位为在物理上靠在一起的左扬声器和右扬声器,甚至可能在单个音箱中具有定位为在物理上靠在一起的左扬声器和右扬声器。这些现有技术都旨在加宽立体声图像并减轻因密集的立体声扬声器而出现的问题。
第二,有另一组关于所谓回音壁(sound bar)的专利文件,回音壁即取代环绕声音响系统中散布于听音室四周的多个环绕声扬声器而放置在前方中心的一个音箱扬声器。该组范围内的目的是给予听众置身于环绕声声场(sound field)内的感觉,该环绕声声场通常使用在听音室的前面和后面的几个扬声器产生。回音壁利用了各种技术,该各种技术使用指向不同方向的驱动器和DSP算法一起创建环绕声体验。
关于上述解释,可以提及的是,例如文件US2015/0189439和US2015/0071451都是指这样的第一组和第二组。
第三,存在这样的一般来说有些旧的一组现有技术,该组现有技术旨在通过使基本上左减右驱动的内容指向除向前以外的其他方向来改善立体声体验。因为是在DSP技术变得易得和高性价比之前完成的,所以所使用的处理非常基本并且仅限于当时可能的处理。可用技术严重降低了可实现的声音品质,并且因为结果大部分是令人失望的,所以似乎在这一组内的工作已经走到尽头。
第一组处理具有两个密集扬声器的技术问题,并且试图实现与具有宽广间隔的立体声扬声器类似的结果。第二组试图仅使用一个扬声器而不是多个扬声器来在听音室中复现环绕声声场。第三组试图改善在收听立体声时感觉到的氛围,但是由于不恰当的处理而未成功,并且未解决立体声所固有的心理声学问题。上述现有技术组中没有一组解决了立体声的一般缺点、为什么立体声作为方法是有缺陷的以及如何改善立体声技术。立体声展开技术旨在解决立体声技术中的这些固有问题。
立体声展开技术重塑了与真实声音事件类似的连续空间3D声场。普通立体声再现最多只能够投射一个声音舞台,但是该声音舞台内的声源听起来就像它们是多个表演者的剪纸(paper cutouts)而没有任何单独深度扩展,并且该剪纸单独表演而不在声学空间中,就像在黑色房间中悬空的闪光灯一样。立体声展开技术创建了空间3D声场,但该空间3D声场与收听环绕声音响系统是完全不同的体验。环绕声音响系统的核心是立体声的扩展,具有与立体声相同的缺陷。在使用定位在听音室四周的附加扬声器时,可创建的位置信息不仅来自左扬声器与右扬声器之间的前面,而且还来自听音室中四周的其他位置。立体声展开具体地是通过理解人脑中的心理声学分组现象和空间声音处理来实现的,它是一种完全不同的方法,并且结果是听起来像现场声音事件一样的空间3D声场。
与立体声加宽处理不同,立体声展开过程不显著改变各个声源的原始位置。立体声展开处理增加了声音舞台的大小,但这样做是在从计算方面上讲缺失的环境信息原本能添加到录音的情况下,通过从录音发生的声学环境或人工创建的环境中加回该缺失的环境信息来实现的。
此外,下文将简述一些其他现有技术文档。在US5671287中,公开了一种创建定向传播的声源的方法,该方法主要旨在处理单个信号源以创建伪立体声信号。在US5671287中所公开的方法与根据本发明及下文进一步公开的立体声展开方法完全不同,此外,本发明的目标和US5671287完全无关。
此外,EP0276159公开了一种创建人工定位线索以改善耳机的声音沉浸感的方法。本发明所公开的方法使用通用的头部相关传递函数来创建定向线索,并且提及早期反射和后期反射的添加。根据本发明的立体声展开方法通过从录音提取环境信息并且然后使用有利于心理声学分组的信号处理方法将其加回来恢复录音中自然发生的环境声音与直接声音的比率。如从上文应当理解的,本发明的目的和方法与EP0276159完全不同。
此外,US20130077792公开了一种使用新型头部相关传递函数来改善定位的方法。这也不是根据本发明的立体声展开方法的全部领域,目标和处理方法都完全不同。根据本发明的立体声展开的目标不是改善立体声回放声音舞台的定位或加宽。在立体声展开处理之后,所再现的录音中的各个信号源(表演者)不会在很大程度上改变声音舞台内的定位。该定位发生相对较小的变化是处理的副作用,但不是目标。目标是重新创建直接声音与环境声音的比率,以实现更自然的录音。增加的环境能确实扩大了声音舞台,但迄今为止主要的扩大元件是来自录音场所的环境声场,而不是各个信号源(表演者)的位置变化。
基于以上内容,应当清楚的是,US5671287、EP0276159和US20130077792中没有一个与根据本发明的立体声展开方法相关。
单声道和立体声
首先,录制声音并将其以单声道回放。单声道处理最多可以提供被投射到听众面前的某种感知深度和高度的声音舞台,但是它基本上无法传达关于录音中的单个声源的任何定位线索。可用的有限声音舞台是通过来自听音室中的表面的反射创建的。这种反射在单个扬声器源周围创建声音云的错觉。这可以通过在该云消失的无回声环境中收听单声道来容易地验证。
在1931年,Alan Blumlein发明了他的立体声处理。立体声是单声道的展开版本,通过使用两个扬声器而在物理水平面中展开。它允许在扬声器之间的任何地方水平地定位声源。当立体声被正确录制并在扬声器上回放时,立体声设法在听众面前创建相对连续的声音水平面,该相对连续的声音水平面呈现出某种高度和深度。听众的大脑被该处理欺骗而相信在他/她面前有多个声源,但是事实上所有声音都只发源于两个扬声器。经由扬声器进行立体声回放使用心理声学来产生声音舞台由在听众前面的不同水平位置处的多个声源填充的错觉。与单声道一样,来自扬声器、被听音室中的表面反射的反射声音在听众面前产生声音舞台的错觉。在没有这些反射的情况下,声音将被感知为发源于听众的头内部。
此现象的原因是立体声录音仅包含左至右定位线索,并且缺失所有附加空间信息[5]。立体声过程不提供任何心理声学线索,这些线索使人的大脑能够找出除左至右定位之外的任何其他空间信息。这容易通过使用耳机聆听立体声录音来测试,该声音总是位于听众头内的耳朵之间。利用一对高度定向的扬声器、抛物线扬声器或无回声室内的扬声器,相似地,声音舞台位于听众的头部内。
如果录音是用个性化HTRF(即一个针对每个要聆听录音的个人定制的模拟头部)录制的,那么每段录音内都会嵌入个性化的心理声学线索,我们可以聆听耳机并正确地解码空间信息。遗憾的是,由于明显的原因而无法做到这一点,因此我们使录音保留为缺乏任何有意义(至少对于人类大脑而言)的空间信息。
到目前为止,大多数人都很习惯立体声再现,并且非常熟悉它的缺陷以至于到他们不想再多考虑它们的程度。这并不意味着立体声再现与现场声音之间的差异不可听辨的,大多数人都会同意区分现场声音和立体声再现声音是很容易的,只是我们不期望立体声听起来像现场声音并自动改变我们的期待。
在最佳情况下,使用普通的正确设置的扬声器时,立体声再现可投射具有深度、宽度和高度的声音舞台。遗憾的是,声音舞台内的声源听起来像他们是表演者的剪纸而没有任何单独的深度扩展。此外,该剪纸单独表演而不在声空间中,就像黑色房间中悬空的闪光灯一样,仅将他们的声音笔直朝向听众投射。立体声再现中存在一些环境信息,该环境信息允许我们听到录制录音的声音环境,但它与实际空间的声学一点也不相似。图1的交响乐团和两个扬声器试图直观地展示来自立体声的声音。大部分声音舞台被感知到是在这两个扬声器之间,具有一点高度和深度并且几乎没有听音环境。
立体声展开EV
立体声展开技术创建组装有三维声源的真实可信的三维声音舞台,该三维声源在连续真实发声声学环境中产生声音。图2试图直观地展示从立体声展开感知到的声音舞台,并且其应该与展示普通立体声的图1进行比较。表演者位于大小稍有扩大的大致相同位置,并增加了音乐厅和氛围,为声音提供主要的扩大以及3D品质。
顾名思义,“立体声展开”是就像曾经将单声道物理地展开成左/右立体声一样展开普通的立体声录音,但是这一次立体声是在时间维度上展开的。从立体声跳跃到立体声展开在心理声学上实际上与将单声道在物理上展开成立体声没有太大区别。这可能听起来令人费解,但是让我们更仔细地看看立体声以及它是如何在心理声学上起作用的,很明显立体声不在心理声学上起作用。
在立体声回放中声源从左到右的定位是通过两种主要的心理声学现象来实现的。我们的耳脑根据耳间时间差和所感知到的左耳与右耳之间的音量差异来判断声源的水平定位。可以通过分别调整右耳和左耳中来自声源的音量而将声源从左向右平移。这通常称为音量平移。还可以通过改变到达左耳和右耳的时间来调整定位,并且这种平移方法是这两者中更有效的。很容易经由耳间时间差来测试平移的有效性。在听众面前设置立体声扬声器对,并允许听众从扬声器之间的居中定位位置移动到左侧或右侧。感知到的声音舞台很快就向该立体声扬声器中的一个立体声扬声器收缩,这是因为耳间时间差在心理声学上告诉我们离我们较近的扬声器是声源。使用耳机也可以阐明这一点,通过将到耳朵中的一只耳朵的立体声信号延迟,整个声音舞台向未被延迟的耳朵收缩,而音量没有任何变化。立体声在水平面中的定位实际上主要是由左右信号之间的耳间时间差引起的,即立体声是单声道信号,其在时间上展开以基于耳朵之间的时间差产生心理声学的水平定位线索。Blumlein使用两个扬声器的物理分隔,该两个扬声器的物理分隔能够产生创建左到右定位所必须的耳间时间差。
现在,如果我们像单声道被展开成立体声一样,在时间上展开立体声信号,则我们能够在心理声学上将立体声展开成真正的三维声音。这就是立体声展开所做的事情。
图3示出了普通数字立体声录音的一个声道。沿着轴从图的左侧开始并在中间结束,我们具有在真实时域轴上的声音样本。该图形显示了在每个时刻的声音信号绝对值,高度对应于音量。沿着轴从图的右侧到中间,我们具有第二时间维度。在原始立体声录音中没有在这个维度上的另外信息,因为立体声只是仅包含左信号和右信号的二维过程。
图4示出了与图3相同的数字立体声录音。不同之处在于该数字立体声录音现已经过立体声展开处理。它已经在时间上并且沿着轴从右到中心进行了展开,我们现在可以看到在每个时刻信号是如何展开到第二时间维度的。在该图表中,可以观察到,信号是使用沿着第二时间轴的20个离散的展开信号馈入,通过展开过程展开的。图4中的3D图形的概念乍一看可能有些奇怪,但是其非常类似于人脑如何解释声音。大脑沿着第二时间轴跟踪在某个时间点听到的声音,并且大脑使用图表中从原始信号开始直到结束的所有信息来获得关于该声音的信息。
大脑试图以和我们的视觉一样的方式来理解我们的声音环境。它通过创建对象并将特定声音分配给每个对象来简化声音环境[2]。我们听到作为对象的门铃以及伴随的当人走过房间时的混响,我们会把所有来自该移动的声音分配给该人,等等。根据我们的视觉感知和分组的示例可能会让细节更容易理解。想象长满绿叶的小树和站在树后的人。看到该树和该人时,我们立即将该树的枝和叶分组为树对象,并且我们根据树后面的人的可见部分推断出存在另一个对象,但是该对象此时仅部分可见,并把该对象分组为人组。因为树叶遮住了人的大部分,所以我们对人组的感知受限,但是我们仍然试图合理肯定地讲该人组是独立的组并且很可能是人。视觉示例类似于我们的听觉是如何工作的以及大脑是如何对声音进行解码和分组的。即使大脑只具有部分有限的信息,它仍然可以对声音对象(就像树后面的人一样)进行感知和分组。我们听到的信息越少,就越难确定地对细节进行分类和进行分组,但是对细节进行分类和进行分组仍然是可能的,只是大脑需要更加努力地工作。如果树没有任何叶子,我们就能看到更多的细节,并且更容易且更确定地感知到树后的人组。
考虑到这一点,再来看看图3和图4之间的区别。在图4中的信号展开版本中,有更多关于声音的信息,从而使大脑更容易进行分类、感知细节和对声音进行分组。这正是使用立体声展开时所听到的,与普通立体声相比,它增加了容易度并增加了对细节的感知。与每种声音相关的声学环境和衰减变得更清晰,并且声音舞台呈现出普通立体声所不具备的3D品质。声音舞台的整体大小也显著増大。
图4中的图形具有两个时间维度,并且矩阵中的额外第二时间维度是在处理期间折叠成真实时间维度的维度。
立体声再现及其缺陷
立体声问题的根源在于在录音和再现链内缺乏空间信息。录音工程师不会在音乐厅中的典型听音位置处放置录音麦克风。他总是把麦克风移动得更靠近表演者。如果麦克风位于音乐厅中观众通常所坐的位置之外,则录音听起来会过于不自然地混响。发生这种情况是因为立体声录音无法从音乐厅中的声场捕获空间信息属性。它只捕获声压级。音乐厅中的人类听众将捕获所有的信息,包括声压信息和空间信息两者,并且将自动使用该空间信息将他/她的注意力集中到舞台上的表演者,并且作为稍后讨论的心理声学分组处理的输入。环境声场从其他方向到达听众,并且与来自舞台的声音相比,环境声场被可感知地由大脑不同地观察到。由于立体声录音中缺失空间信息,所以听众无法使用空间信息对该声音进行解码,因此,如果录音是在音乐厅中的收听位置录制的,录音就会被感知为具有大量的混响能量。人脑利用空间域以及声压域来理解和处理声音环境。
Barron调查了反射能量与直接能量之间的比,并创建了范围从-25dB到+5dB(D/R)以覆盖任何正常情况的图表[1]。在典型的鞋盒式音乐厅中,至少一半座位具有-8dB或更小的D/R[4]。在几乎所有立体声录音中,D/R比从来不低于+4dB,即在录音和音乐厅中的声音之间存在至少12dB的差异。这是必要的,因为录音缺乏空间信息并且听众无法区分录音中的混响场与直接声音。如果录音中包含的混响能量与音乐厅中存在的混响能量一样多,则录音听起来不成比例地混响。
图5示出了两个听音室的两个横截面。较大的听音室是典型的音乐厅,其中舞台部分在左侧,而观众席空间在右侧。舞台上有单个表演者并且观众席中有单个听众。声音发源于舞台上的表演者,该声音沿着图中所示的多个可想象的路径行进。直接声音直接从表演者向听众行进,而不在音乐厅内的任何表面上反射。如可以看出,直接声音的路径比到达听众的第一反射的路径短得多,这产生了可测量的到达时间差。
图5底部较小房间是典型的听音室,其中扬声器在左边且听众在右边。同样,声波路径在图中示出为具有直接路径和反射路径。在该较小房间中,直接声音与第一反射之间的路径长度差小于较大音乐厅中的路径长度差,这转化成较小的到达时间差。
音乐厅与房间之间的根本区别之一是混响时间。较大音乐厅具有比较小房间长得多的混响时间。在较大空间中,在相同时间内存在更少的声波反射。在较大空间中,声音必须要行进较长的距离才能到达从声场吸收能量的下一个反射表面,因而声音在较大空间中萦绕更长时间。
图6在五个不同图表中示出了听众耳朵处的声音到达。沿x轴是时间并且Y轴上是音量。这五个图表示出了来自脉冲声音的混响衰减谱。图表1来自图5中的音乐厅,图表2来自图5所示的听音室,图表3是在图表1中所示的音乐厅中录制的立体声录音,图表4是在听音室中回放的立体声录音,并且最后的图表5示出了经过立体声展开处理之后在听音室中回放的立体声录音。
在图6中的来自图1中的音乐厅的第一图表中,左侧第一峰是从表演者到达听众的直接声音。下一峰是在一定时间延迟之后到达的第一反射。在第一反射之后是稍后的反射,首先是仅在一个表面上反弹、稀疏地间隔开的那些反射,之后是来自多种反弹的越来越密集的反射阵列。这是在许多音乐厅中可观察到的典型脉冲响应衰减。
图2中的第二图表示出了与第一图表相同类型的声音到达,但现在它被示出为来自图5中的典型听音室。同样,我们具有直接声音、第一峰,之后是早期的有些稀疏地间隔开的反射和随后较密集的多个反射路径。较小房间中的声音比音乐厅中的声音更快地被吸收,这通过比较图6中的图表一和图表二中的声音衰减而清楚地阐明。
音乐厅与房间之间的最重要区别是第一反射相对于直接声音的时序。根据音乐厅声学众所周知的是,在直接声音到达与第一反射之间应有约25ms至35ms,以保持音乐厅中声音的清晰度和可理解性。如果此时间减少,则声音变得不太清晰,甚至不明确到变得令人疲劳的程度。较小房间在物理上不够大,不足以向我们提供这种量的衰减,从而该房间中增加的环境能量总是让声音变得不那么清晰。
图6中的图表3示出了在图5所示的音乐厅中捕获的立体声录音中的混响衰减。该录音与在图6的图表1中所示的音乐厅之间存在差异,因为如上所述,录音工程师必须将麦克风移动得更靠近表演者以平衡立体声录音。由于麦克风现在更靠近表演者,所以相对于直接声音,音乐厅反射衰减。此外,所录制的反射不再主要是主厅的反射,而是由于舞台部分中相邻表面在物理上更接近,所以这些反射变成主导反射,而不是在音乐厅的主要观众部分中稀疏间隔开的反射。总的来说,从图表中可以明显看出,在立体声录音中整个捕获的混响场与在音乐厅中的听音位置处自然存在的场并不非常相似。
图6的图表4示出了当图6的图表3所示的录音在由扬声器和具有图6的图表2所例示的混响衰减的房间回放时发生的情形。在此,录制的混响衰减变成叠加在房间混响衰减上,导致图6的图表4中的复合混响衰减。这仍然看起来一点也不像图6的图表1中的音乐厅的混响衰减,而是其是在立体声录音回放时通常在听音室中存在的衰减。
如前所述,直接声音与第一反射之间缺乏时间间隔使得声音不那么清晰和精确到使人变得疲劳的程度。这种小房间的声音显然会给人脑带来麻烦,并且其也缺乏足够的混响衰减能量来模拟音乐厅。
考虑到立体声声音缺乏所有的空间信息,该空间声场只是在听音室内由扬声器和房间一起创建,并且该衰减模式看起来与在缺失约12dB的混响能量的音乐厅中自然发生的情况非常不同,所以立体声听起来是人工的并不令人惊讶。
立体声展开通过以下方式解决了立体声的两个基本缺陷:重建人脑可以容易地解释的基于心理声学的空间3D声场,以及利用被称为心理声学分组的心理声学效应。
在第一具体实施中,立体声展开通过以下方式来在听音室中创建空间3D声场:在除了向前方向以外的其他方向上使用另外的驱动器,以及对空间场和直接声音进行基本分组。
在第二具体实施中,立体声展开使用所公开的増强分组方法以及普通扬声器。向前辐射扬声器基本上首先回放立体声信息,然后稍后回放分组的空间信息,以在不使用指向除了向前以外的其他方向的另外驱动器的情况下重建空间场。这可以通过使用增强分组过程来实现,该增强分组过程使用稍后描述的共鸣分组方法。
在第三具体实施中,立体声展开通过以下方式来在听音室中创建空间3D声场:在除了向前方向以外的其他方向上使用另外的驱动器,以及对空间场和直接声音进行增强分组。该具体实施重建最佳的错觉,但是需要另外的驱动器,并且因此与第二具体实施相比在其适用性方面受限。
在第四具体实施中,立体声展开处理使用増强分组过程来创建使用耳机时的空间3D声场。将直接声场和环境声场通过增强分组进行连接,该增强分组将声音体验从听众头部内的一般情况移动到听众头部外面。它在没有任何关于听众的物理属性的先验信息的情况下这样做,该物理属性即耳朵、头部和肩部的形状和大小。
立体声展开EV提取过程
立体声展开EV DSP提取过程产生额外的基本L+R、L-R和R-L馈入,这些馈入在展开处理中与原始L和R声道一起用作构建块。基本馈入(Fx)的公式如下所示;Gx、Dx和Frx分别表示增益、延迟和频率整形,Gfx是增益乘数,其用于调整向前主输出的音量以在立体声展开EV处理后保持相同的感知输出音量,并且Frfx是频率整形滤波器,其可经修改以维持向前的直接声音的总体音调平衡。
F1=L*Gf1*Frf1
F2=R*Gf2*Frf2
F3=L*G1*Fr1*D1
F4=R*G2*Fr2*D2
F5=(L*G3*Fr3*D3)+(R*G4*Fr4*D4)
F6=(L*G5*Fr5*D5)-(R*G6*Fr6*D6)
F7=(R*G7*Fr7*D7)-(L*G8*Fr8*D8)
F8=L*G9*Fr9*D9
F9=R*G10*Fr10*D10
Gx增益乘数可以为0与无穷大之间的任何数字。频率整形Frx主要将频率范围限制为高于50Hz,并且将频率滚动高于7kHz以模仿音乐厅中的典型混响场能量以及自然存在的空气对较高频率的吸收。优选的频率范围为100Hz至4kHz。它还将响应描绘为按照在环境声场中的滚动,类似于在音乐厅中自然存在的情况。延迟D1和D2介于0ms至3ms之间,其余Dx至少为5ms至50ms,优选的范围为10ms至40ms,进一步优选的范围为15ms至35ms。所示的基本馈入F3-F9可以各自变成使用不同的Gx、Frx和Dx设置进行的处理的若干输入馈入。在下面的文本和公式中,提及馈入F3至F9中的任一项表示在每种情况下至少一个但也可以是两个、三个、四个、五个或若干更多个具有不同Gx、Frx和Dx的相同基本馈入。
在使用5个展开馈入的立体声展开EV的基本具体实施中,根据公式回放以下信号。
左声道=F1+F3+F6+F8+F5
右声道=F2+F4+F7+F8+F5
在一个非常简单的具体实施中,可以使用少到最少3个展开馈入。增强的版本可利用如图4所示的20个馈入,并且不存在馈入数量上限,馈入数量仅受可用DSP处理资源的限制。超过30个具有可感知的大量内容的馈入只会给听觉体验带来有限的优点并且可能变得有害,因此优选的范围介于3到30个馈入之间。少于3个馈入因为没有心理声学上有效的分组信息而不起作用,并且结果是折衷的。
在使用3个展开馈入的另一立体声展开EV的基本具体实施中,根据以下公式回放信号。
左声道=F1+F3+F6
右声道=F2+F4+F7
在使用12个展开馈入的一个立体声展开EV的更先进具体实施中,根据以下公式回放信号。“2*”表示在每种情况下每个馈入与不同的Gx、Frx和Dx参数一起使用的次数。
左声道=F1+2*F3+4*F6+2*F8+F5
右声道=F2+2*F4+4*F7+2*F8+F5
当然,有无限数量的可能组合,所有这些组合都无法举例说明,但一般方法现在应该是显而易见的。示例中的左声道信号和右声道信号可通过耳机和/或普通扬声器两者回放。
当通过扬声器回放时,除了左声道信号和右声道信号之外,还可以将没有F2和F1分量的立体声展开EV馈入发送给指向除了直接朝向听众以外的其他方向的驱动器。可以使用任何类型的扬声器驱动器或其阵列来在一个或所有可能的额外方向(向内、向外、向上、向背面和向下)上发送附加的馈入。基本上,任何类型的产生散开的广泛分布声场的群集都将起作用。另外,对于定位为靠近或甚至可能附接到主扬声器的附加馈入,可以使用另外的单独扬声器。单独扬声器也可以类似于环绕设置而位于房间四周,或者整合到墙壁和天花板中。同样,上述的任何类型的组合是可能的并且将起作用。
立体声展开EV心理声学分组过程
心理声学分组现象是立体声展开EV过程的核心。在不分组的情况下,大脑无法将时间分层的馈入连接在一起,并且该馈入无法提供额外的信息给大脑,相反它们将提供混淆并且会使声音不太清晰且更难理解。在不复杂的示例中更易于描述分组,因此让我们更仔细地看一看使用以下输出公式的上述具有3个展开馈入的示例中的左声道信号;
左声道=F1+F3+F6。
在这种情况下我们在F1直接馈入中具有的声音也出现在F3馈入和F6馈入中,因此我们需要对它们进行分组。心理声学分组越好且越稳定,则听觉效果变得越好并且可理解性得到改善。
根据心理声学研究应当理解,分组是基于原始直接声音信号与添加信息的相位关系和频率关系发生的。如果直接声音与添加的馈入之间的频率形状不同,则该添加的馈入需要保持相位和频率内容符合人脑根据真实声学环境中存在的信号产生的期待内容。这意味着,如果我们具有直接声音和在稍后某一时间后到达的第二馈入,则大脑会根据第二信号到达听众的距离和时间而预期第二信号比直接声音具有更少的高频含量。已经行进25ms,等同于约8.5米的的信号,必须表现出至少等于在该距离处空气中存在的量的高频转降。如果该信号具有的频率内容与直接信号的频率内容相同,则对大脑来说将会是混淆的,大脑不会如预期的那样将它与直接声音分为一组。如果该信号具有较少的高频含量,则它会变得更加可信,因为声音除了在空气中传播之外,很可能还会在至少一个对象上反弹,反射本身也会去除高频含量。类似地,较小对象的反射不会将许多低频能量反射回去,并且反射的声音将取决于物体相对于波长的物理大小而被滚动到某个频率以下。本质上,为了实现良好分组,F1、F3和F6中的信号需要遵循物理定律,并且它们需要具有如所述的根据行进距离等修改的类似频率含量。
另一个重要属性是相位关系。如果馈入F1和F6中的信号的相位关系是随机的,则它们不会被分组。
低频率转降与延迟一起作用以建立分组,并且以延迟和频率转降的不同的组合发生共鸣分组。如果我们以例如250Hz转降,则引起共鸣分组的延迟将是基频的多倍,即4ms*6=24ms。已发现,虽然延迟与基频相比较长,但重要的是,最低频率仍然与直接馈入同相,以使良好分组发生。上面的示例向我们提供了24ms的延迟。这不是精确值,因为它需要精确为24ms,否则分组不会发生。它更确切地讲是发生分组的范围内的中间点,并且应该被视为分组发生延迟的导向点。另外,在大于6的其他倍数下发生分组,即,可能使用不同的倍数来创建变化的可听结果。较大的倍数被感知为创建更广阔的声音,直至达到其中声音开始被感知为延迟大于50ms的回声的点。较低的倍数创建较不广阔的声音,并且如果总延迟时间小于10ms,那么声音开始变得不清楚并且人类大脑难以将其与直接声音分开。
需要将F3馈入与F1和F6分组到一起,以便为声音提供相位稳定。F6馈入本质上是L-R馈入,因此,如果大量添加F6馈入,则将在某种程度上引起声音的稍微令人不愉快的回响(phasiness),类似于当在扬声器中的一个扬声器不同相的情况下回放立体声内容时发生的情况。为了抵消这种现象,将F3馈入提供作为去除回响的稳定元件,并且当该馈入与F1馈入和F6馈入分组在一起时,不再存在回响。
立体声展开EV共鸣分组
人类大脑利用空间信息和声压信息两者对声学环境进行解码、分组和一般感知。如果通过立体声录音方法去除空间信息,则自然分组过程停止工作。通常,环境声音能量显著大于直接声音能量,并且当空间信息丢失时,大脑不能以其访问空间信息时的相同方式来抑制和处理环境声音信息。声音对象的自然发生分组(其中每个组包含直接声音和反射声音)停止工作。缺乏分组导致立体声录音中的环境声音能量的熟悉的主观大幅增加,也是必须降低环境能量的原因。
为了使分组在没有空间信息的情况下成为可能并能够恢复自然发生的直接能量与环境能量的比率,需要共鸣分组。
在自然声音环境中,直接声音和反射声音之间的相位关系是随机的,并且取决于声源和听众相对于环境中的表面的位置。在空间信息的帮助下,大脑能够对直接声音和反射声音进行分类,并以不同的方式对它们进行可感知地解码。它还将声音的不同贡献部分、直接声音和反射声音加在一起,使得它们仍被感知为是共鸣地组合在一起的,即同相。
与在收听位置录制的立体声录音相比,来自表演者和乐器的实时声音被感知为是丰满的和丰富的。原因在于,对于实时声音,大脑具有对空间信息的访问权限并将已分组的声音加在一起,这样他们感知起来就像同相一样。当空间信息被移除时,大脑不再能够这样做并且声音的总和在相位中变为随机的。求和以与具有随机相位关系的声音的简单能量相加相同的方式进行。
图7示出了来自具有类似于在室内通常发生的随机相位关系的多个源的声压的复杂总和。图表中的迹线是一个八度音阶,其平滑以消除由随机求和引起的局部抵消的下降和峰值,并且以特定频率显示总体平均水平。清楚的是,随机求和导致在约120Hz至400Hz之间的基频范围内的频率响应大幅下降。它还在约400Hz至2kHz之间形成宽峰。这与在收听位置处录制的录音中的音调平衡的感知非常相符。通常,这种录音听起来就像是在缺乏基本能量的平铺的非常混响的空间中录制的,其中重点在中低档到中高档。这是在没有空间信息的情况下使用自然水平的环境能量听到的典型声音。这听起来显然是非常不自然的,因此由录音工程师来应用之前提及的将麦克风移动到更靠近声源并衰减环境能量的对策,以使录制的声音更自然并且使音调更平衡。
图8示出了同一个八度音阶平滑频率响应,其中应用了共鸣分组而不是随机相位求和。现在整个频谱的频率响应非常均匀,并且音调平衡的变化很小。该响应仅显示120Hz至400Hz范围内的一些非常小的摆动,这将无法感知地改变音调平衡。
图9显示了共鸣分组中的不同声音分量。迹线1是直接声音,并且迹线2是环境声音馈入。环境声音馈入的较低截止频率为约250Hz,并且它延迟了24ms,如前面的示例中所述。将环境水平提高以将环境声音与直接声音的比率恢复至在声学空间中自然发生的水平。环境声音也在较高频率下衰减,类似于通常在声学空间中的方式。对直接声音的频率平衡迹线1进行修改,使得恢复的环境声音和直接声音之间的总和在整个频谱上变得均匀。
图10再次示出了迹线1—直接声音、迹线2—环境信息,以及迹线3—前两者之间的复杂总和。图10中的迹线3单独在上述图8中示出。
应用和技术方案
立体声展开EV可应用于任何舞台处的录音。它可以应用于老唱片上,或者也可以应用于制作新录音的过程中。它可以离线应用作为将立体声展开EV信息添加到录音中的预处理,或者它可以在回放录音时应用。
有多种将其具体实施成产品的方式,它可以是芯片上的集成电路中的硬件形式、FPGA、DSP、处理器或类似者。可以使用允许该处理的任何类型的硬件解决方案。它也可以作为在已经存在的处理设备(诸如DSP、处理器、FPGA或类似者)上运行的固件或软件而具体实施到硬件平台中。这种平台可以是个人计算机、电话、平板电脑、专用的声音处理设备、电视机等等。
然后,立体声展开EV可以在任何类型的预处理或回放设备中具体实施,该预处理或回放设备可以被想象为如上所述的硬件、软件或固件。此类设备的一些示例为有源扬声器,放大器,DA转换器,PC音乐系统,电视机,耳机放大器,智能电话,电话,平板电脑,用于母带处理和录音行业的声音处理单元,专业母带处理和混音软件中的软件插件,用于媒体回放器、用于软件回放器中的流媒体处理的软件插件,用于流媒体内容预处理的预处理软件模块或硬件单元,或者用于预处理任何类型的录音的预处理软件模块或硬件单元。
其他应用领域
在使用立体声展开EV进行工作的过程中,我们还发现,对由正常听众感知到的声音清晰度的改善对于具有听力障碍的听众来说甚至更重要。具有听力障碍的听众经常疲于应付声音的可理解性,因此带来的任何缓解都有很大帮助。
由立体声展开EV提供的增加线索通过为大脑提供更多的解码信息而减少了该困难,并且越多的线索导致越高的可理解性。因此极有可能这项技术对诸如助听器、耳蜗植入物、对话放大器之类的用于听力受损的设备具有很大益处。
立体声展开EV可能还能够应用于PA声音分配系统,以提高在声音困难环境中针对每个人的可理解性,该声音困难环境为诸如但不限于火车站和机场。立体声展开EV可以在声音可理解性成问题的所有类型的应用中提供益处。
立体声展开EV在PA系统中同样适用于声音增强,以增强典型音乐和语音的可理解性和音质。它可以用于体育场、礼堂、会议场所、音乐厅、教堂、电影院、室外音乐会等中的任何类型的现场或回放表演。
除了在时间上展开立体声声源之外,立体声展开EV还可以与它对立体声声源做的类似地使用心理声学分组在时间上展开单声道声源,以从可理解性的角度增强体验,或者总体上提供改善的回放性能。
它还可以用于只有一个单声道扬声器的系统进行回放。如果在对一个扬声器回放求和之前左右内容相对于彼此在时间上去相关,则展开处理类似于其使用两个扬声器时发声及工作。
立体声展开EV过程也不限于立体声回放系统,而是可以用于任何环绕声设置,其中处理、在时间上展开和分组发生在各个环绕声声道中。
根据本发明的不同实施方案
根据本发明的第一方面,提供了一种用于再现声音的方法,该方法包括:
-提供多个展开馈入(Fx),该展开馈入是声音信号的经处理的算法;
-对至少一个展开馈入(Fx)与另外一个或多个展开馈入进行心理声学分组;以及
-在声音再现单元中回放展开且经心理声学分组的馈入声音;
其中展开馈入(Fx)的数量可至少为3,诸如在3至30的范围内。
该方法还可包括以下步骤:
-利用DSP(数字信号处理)从左(L)声道和右(R)声道提供提取的信息,并且提供多个展开馈入(Fx)的步骤基于从左(L)声道和右(R)声道提取的信息。
如从上面可理解的,根据本发明的一个实施方案,其涉及提供一种用于立体声再现的方法,这意味着左(L)声道和右(R)声道为左(L)立体声声道和右(R)立体声声道。如上所述,立体声只是本发明发现用途的许多技术应用中的一种可能。
根据另一个具体实施方案,在经处理的算法中利用延迟(Dx)和频率整形(Frx)。在一个实施方案中,在经处理的算法中利用延迟(Dx)。根据另一个实施方案,在经处理的算法中利用延迟(Dx)和频率整形(Frx)。此外,根据另一个实施方案,还在经处理的算法中利用增益(Gx)。
此外,该方法还可涉及频率整形(Frx)。根据一个实施方案,利用频率整形(Frx),并且该频率整形(Frx)主要将频率范围限制为高于50Hz。根据另一个实施方案,利用频率整形(Frx),并且执行频率整形(Frx)以使得较高频率含量转降高于7kHz。根据另一个实施方案,利用频率整形(Frx),并且该频率整形(Frx)在100Hz至4kHz的频率范围内执行。
此外,延迟是相关的。根据本发明的一个具体实施方案,该前两个延迟D1和D2在0至3ms的范围内。根据另一个实施方案,除D1和D2之外的所有延迟至少为5ms,诸如在5至50ms的范围内、优选地在10至40ms的范围内、更优选地在15至35ms的范围内。
此外,根据另一个实施方案,提供一个或多个馈入(Fx)作为相位稳定器。此外,根据另一个具体实施方案,通过使用基频的倍数来对馈入(Fx)进行心理声学分组。此外,可以修改若干馈入(Fx)以具有类似的频率含量。
应当指出的是,如果用于立体声再现,则所有上述特征也适用。在此类情况下,它们分别用于左(L)立体声声道和右(R)立体声声道。如上文所理解,本发明涉及分组馈入(Fx)。因此,根据一个具体实施方案,分别在左(L)立体声声道和右(R)立体声声道中对馈入(Fx)进行心理声学分组。
本发明还涉及被布置成用于通过包括以下步骤的方法来提供声音再现的设备:
-提供多个展开馈入(Fx),该展开馈入是声音信号的经处理的算法;
-对至少一个展开馈入(Fx)与另外一个或多个展开馈入进行心理声学分组;以及
-在声音再现单元中回放展开且经心理声学分组的馈入声音;
其中该展开馈入(Fx)的数量至少为3。
同样在这种情况下,该设备可为任何类型的录音单元,诸如在任何类型的立体声单元、放大器中等。
根据一个具体实施方案,该设备是在芯片、FPGA或处理器上的集成电路。根据另一个实施方案,该设备被实现到硬件平台中。如上文所理解,根据本发明的方法也可用于软件应用中。
参考文献
[1]Barron,Michael“Auditorium Acoustics and Architectural Design”E&FNSPON 1993
[2]Albert S.Bregman,Auditory Scene Analysis The PerceptualOrganization of Sound,1994,ISBN 978-0-262-52195-6
[3]David Griesinger,The importance of the direct to reverberant ratioin the perception of distance,localization,clarity,and envelopment,Presentedat the122nd Convention of the Audio Engineering Society,2007May 5–8Vienna,Austria
[4]David Griesinger,Perception of Concert Hall Acoustics in seatswhere the reflected energy is stronger than the direct energy,Presented atthe 122nd Convention of the Audio Engineering Society2007May 5–8Vienna,Austria
[5]David Griesinger,Pitch,Timbre,Source Separation and the Myths ofLoudspeaker Imaging,Presented at the 132nd Convention of the AudioEngineering Society 2012April 26–29,Budapest,Hungary

Claims (20)

1.一种用于声音的再现的方法,所述方法包括:
-提供多个展开馈入(Fx),所述多个展开馈入是声音信号的经处理的算法;
-对至少一个展开馈入(Fx)与另外一个或多个展开馈入进行心理声学分组;以及
-在声音再现单元中回放展开且经心理声学分组的馈入声音;
其中展开馈入(Fx)的数量至少为3。
2.根据权利要求1所述的方法,其中所述方法还包括
-利用DSP(数字信号处理)从左(L)声道和右(R)声道提供提取的信息,并且提供多个展开馈入(Fx)的所述步骤基于来自所述左(L)声道和右(R)声道的所述提取的信息。
3.根据权利要求1或2所述的方法,其中在所述经处理的算法中利用延迟(Dx)和/或频率整形(Frx)。
4.根据权利要求1至3中任一项所述的方法,其中在所述经处理的算法中利用延迟(Dx)。
5.根据权利要求1至4中任一项所述的方法,其中在所述经处理的算法中利用延迟(Dx)和频率整形(Frx)。
6.根据权利要求1至5中任一项所述的方法,其中在所述经处理的算法中利用增益(Gx)。
7.根据权利要求1至6中任一项所述的方法,其中利用频率整形(Frx),并且所述频率整形(Frx)主要将频率范围限制为高于50Hz。
8.根据权利要求1至7中任一项所述的方法,其中利用频率整形(Frx),并且执行所述频率整形(Frx)使得较高频率含量转降高于7kHz。
9.根据权利要求1至8中任一项所述的方法,其中利用频率整形(Frx),并且在100Hz至4kHz的频率范围内执行所述频率整形(Frx)。
10.根据前述权利要求中任一项所述的方法,其中前两个延迟D1和D2在0至3ms的范围内。
11.根据前述权利要求中任一项所述的方法,其中除D1和D2之外的所有延迟至少为5ms。
12.根据前述权利要求中任一项所述的方法,其中除D1和D2之外的所有延迟在5至50ms的范围内。
13.根据前述权利要求中任一项所述的方法,其中分别在左(L)立体声声道和右(R)立体声声道中对所述馈入(Fx)进行心理声学分组。
14.根据前述权利要求中任一项所述的方法,其中提供一个或多个馈入(Fx)作为相位稳定器。
15.根据前述权利要求中任一项所述的方法,其中通过使用基频的倍数来对所述馈入(Fx)进行心理声学分组。
16.根据前述权利要求中任一项所述的方法,其中修改若干馈入(Fx)以具有类似的频率含量。
17.根据前述权利要求中任一项所述的方法,其中馈入(Fx)的数量在3至30的范围内。
18.一种设备,所述设备被布置用于通过包括以下步骤的方法来提供声音再现:
-提供多个展开馈入(Fx),所述多个展开馈入是声音信号的经处理的算法;
-对至少一个展开馈入(Fx)与另外一个或多个展开馈入进行心理声学分组;以及
-在声音再现单元中回放展开且经心理声学分组的馈入声音;
其中展开馈入(Fx)的数量至少为3。
19.根据权利要求18所述的设备,其中所述设备是位于芯片、FPGA或处理器上的集成电路。
20.根据权利要求18所述的设备,其中所述设备被实现到硬件平台中。
CN201880020404.3A 2017-04-18 2018-03-23 利用心理声学分组现象的立体声展开 Pending CN110495189A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SE1750448-1 2017-04-18
SE1750448 2017-04-18
PCT/SE2018/050300 WO2018194501A1 (en) 2017-04-18 2018-03-23 Stereo unfold with psychoacoustic grouping phenomenon

Publications (1)

Publication Number Publication Date
CN110495189A true CN110495189A (zh) 2019-11-22

Family

ID=63857120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880020404.3A Pending CN110495189A (zh) 2017-04-18 2018-03-23 利用心理声学分组现象的立体声展开

Country Status (7)

Country Link
US (1) US11197113B2 (zh)
EP (1) EP3613222A4 (zh)
JP (1) JP2020518159A (zh)
KR (1) KR20190140976A (zh)
CN (1) CN110495189A (zh)
BR (1) BR112019021241A2 (zh)
WO (1) WO2018194501A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3114209B1 (fr) 2020-09-11 2022-12-30 Siou Jean Marc Systeme de reproduction de sons avec virtualisation du champ reverbere

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5671287A (en) * 1992-06-03 1997-09-23 Trifield Productions Limited Stereophonic signal processor
US5999630A (en) * 1994-11-15 1999-12-07 Yamaha Corporation Sound image and sound field controlling device
CN102440003A (zh) * 2008-10-20 2012-05-02 吉诺迪奥公司 音频空间化和环境仿真
CN106104678A (zh) * 2013-10-02 2016-11-09 斯托明瑞士有限责任公司 从两个或多个基本信号导出多通道信号

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4817149A (en) 1987-01-22 1989-03-28 American Natural Sound Company Three-dimensional auditory display apparatus and method utilizing enhanced bionic emulation of human binaural sound localization
GB9107011D0 (en) * 1991-04-04 1991-05-22 Gerzon Michael A Illusory sound distance control method
US6111958A (en) 1997-03-21 2000-08-29 Euphonics, Incorporated Audio spatial enhancement apparatus and methods
AUPR647501A0 (en) * 2001-07-19 2001-08-09 Vast Audio Pty Ltd Recording a three dimensional auditory scene and reproducing it for the individual listener
WO2007137232A2 (en) * 2006-05-20 2007-11-29 Personics Holdings Inc. Method of modifying audio content
GB201109731D0 (en) * 2011-06-10 2011-07-27 System Ltd X Method and system for analysing audio tracks
US8964992B2 (en) * 2011-09-26 2015-02-24 Paul Bruney Psychoacoustic interface
US9286863B2 (en) 2013-09-12 2016-03-15 Nancy Diane Moon Apparatus and method for a celeste in an electronically-orbited speaker
US9374640B2 (en) 2013-12-06 2016-06-21 Bradley M. Starobin Method and system for optimizing center channel performance in a single enclosure multi-element loudspeaker line array
EP3149971B1 (en) * 2014-05-30 2018-08-29 Qualcomm Incorporated Obtaining sparseness information for higher order ambisonic audio renderers

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5671287A (en) * 1992-06-03 1997-09-23 Trifield Productions Limited Stereophonic signal processor
US5999630A (en) * 1994-11-15 1999-12-07 Yamaha Corporation Sound image and sound field controlling device
CN102440003A (zh) * 2008-10-20 2012-05-02 吉诺迪奥公司 音频空间化和环境仿真
CN106104678A (zh) * 2013-10-02 2016-11-09 斯托明瑞士有限责任公司 从两个或多个基本信号导出多通道信号

Also Published As

Publication number Publication date
KR20190140976A (ko) 2019-12-20
EP3613222A1 (en) 2020-02-26
JP2020518159A (ja) 2020-06-18
US11197113B2 (en) 2021-12-07
EP3613222A4 (en) 2021-01-20
WO2018194501A1 (en) 2018-10-25
US20200304929A1 (en) 2020-09-24
BR112019021241A2 (pt) 2020-05-12

Similar Documents

Publication Publication Date Title
EP2614445B1 (en) Spatial audio encoding and reproduction of diffuse sound
EP2368375B1 (en) Converter and method for converting an audio signal
KR20200047414A (ko) 헤드셋을 통한 공간 오디오 렌더링을 위한 룸 특성 수정 시스템 및 방법
Bates The composition and performance of spatial music
CN1091889A (zh) 用于声象增强的立体声控制装置和方法
Llorach et al. Towards realistic immersive audiovisual simulations for hearing research: Capture, virtual scenes and reproduction
Pulkki et al. Spatial effects
CN110495189A (zh) 利用心理声学分组现象的立体声展开
Theile On the performance of two-channel and multi-channel stereophony
CN109691138A (zh) 立体声展开技术
Henriksen Space in electroacoustic music: composition, performance and perception of musical space
Guiseppe Stereo and Ambisonics: A reflection over parallel spatialization techniques
Peters et al. Sound spatialization across disciplines using virtual microphone control (ViMiC)
RU67885U1 (ru) Система инсталляции в пространстве помещения объемных эффектов (варианты)
Lynch Space in multi-channel electroacoustic music: developing sound spatialisation techniques for composing multi-channel electroacoustic music with emphasis on spatial attribute perception
O’Dwyer Sound Source Localization and Virtual Testing of Binaural Audio
Lopez et al. Wafe-Field Synthesis: State of the Art and Future Applications
Del Cerro et al. Three-dimensional sound spatialization at Auditorio400 in Madrid designed by Jean Nouvel
Koutsivitis et al. Reproduction of audiovisual interactive events in virtual ancient Greek spaces
Street James L. Barbour
Hietala Perceived differences in recordings produced with four 5.0 surround microphone techniques
Wilkinson The creation of movement and spatial dimension in stereo recording.
Hannam Homogeneity and Heterogeneity
Maempel et al. Opto-acoustic simulation of concert halls–a data-based approach (Opto-akustische Simulation von Konzerträumen–ein datenbasierter Ansatz)
Høier Surrounded by Ear Candy?

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191122

WD01 Invention patent application deemed withdrawn after publication