CN101843114A - 聚焦于用于音频信号的音频场景的一部分 - Google Patents

聚焦于用于音频信号的音频场景的一部分 Download PDF

Info

Publication number
CN101843114A
CN101843114A CN200880113925A CN200880113925A CN101843114A CN 101843114 A CN101843114 A CN 101843114A CN 200880113925 A CN200880113925 A CN 200880113925A CN 200880113925 A CN200880113925 A CN 200880113925A CN 101843114 A CN101843114 A CN 101843114A
Authority
CN
China
Prior art keywords
audio signal
audio
azimuth value
input
channel audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200880113925A
Other languages
English (en)
Other versions
CN101843114B (zh
Inventor
O·柯克比
J·维罗莱宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of CN101843114A publication Critical patent/CN101843114A/zh
Application granted granted Critical
Publication of CN101843114B publication Critical patent/CN101843114B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明的多个方面提供了用于在输出转换器组(例如头戴式耳机)上空间操作向收听者播放的声音的方法、计算机可读介质、和装置。收听者可指引空间注意力,以聚焦于音频场景的一部分,类似于使用放大镜来取出图片中的细节。获得由音频源生成的输入多通道音频信号;确定针对每个音频源的方向信息。用户提供空间注意力的期望方向,从而音频处理可聚焦于期望方向,并向用户呈现相应的多通道音频信号。围绕期望方向扩展音频场景的区域,同时在音频场景的另一区域中压缩音频场景。

Description

聚焦于用于音频信号的音频场景的一部分
技术领域
本发明涉及处理多通道音频信号,以聚焦于音频场景。
背景技术
随着持续的全球化,为了在多个地理位置上有效通信,电话会议逐渐变得重要。电话会议可包括位于工业园区的不同公司建筑物、美国的不同城市、或遍及世界的不同国家中的参与者。因此,重要的是将空间化的音频信号进行组合以便于在电话会议的参与者之间通信。
空间注意力处理典型地依赖于采用上混(upmix)算法或重平移(repanning)算法。在电话会议时,当仅一个通道可用于播放时,这是可能的,通过使用3D音频处理或通过放大信号将活动语音源移动至更接近于收听者。处理典型地发生在会议混合器中,所述会议混合器检测活动谈话者,并由此处理该语音。
可在3D音频电话会议中组合视觉和听觉表示。可使用移动设备的显示器的视觉表示可作为定位图像而示出具有会议参与者的表。然后,从双耳耳机上的右侧收听在表右侧的参与者的话音。用户可在屏幕上重新定位参与者的图像,这样还可改变声音的相应方向。例如,如果用户将在右侧的参与者的图像移动至中心,则参与者的话音也从右移动至中心。这个性能给予用户一种修改听觉表示的交互方法。
空间听觉以及通过双耳耳机再现3D声音的导出的主体可应用于处理音频电话会议。双耳技术在收听者的耳膜处再现了与由实际声源将在那里生成的声音相同的声音。典型地,双耳技术存在两个主要应用。一个是用于在立体声音乐记录中虚拟化静态源(例如左通道和右通道)。另一个是用于根据用户的行为(对于游戏的情况)或根据预定义脚本的规范(对于3D振铃音的情况)实时地虚拟化移动源。
因此,存在这样一个真实的市场,即需要提供可由电话会议系统实践性实施的空间化音频信号的有效电话会议性能。
发明内容
本发明的一方面提供用于在头戴式耳机上空间操作向收听者播放的声音的方法、计算机可读介质、和装置。收听者可将空间注意力指引到声级的一部分,类似于使用放大镜来取出图片中的细节。在例如电话会议的应用中,聚焦于音频场景是有益的,在所述应用中若干人、或甚至若干群人位于围绕收听者的虚拟环境中。除了电话会议的特定实例,通常当空间音频是用户体验的重要部分时可使用本发明。因此,本发明还可应用于游戏的立体声音乐和3D音频。
通过本发明的某些方面,可结合头部追踪,以相对于环境稳定音频场景。头部追踪使得收听者能够在相对于环境的固定位置处听见电话会议中的远程参与者,而不管收听者的头部的方位。
通过本发明的另一方面,获得由多个音频源生成的输入多通道音频信号;确定针对每个音频源的方向信息。用户提供空间注意力的期望方向,从而音频处理可聚焦于期望方向,并向用户呈现相应的多通道音频信号。
通过本发明的另一方面,围绕期望方向扩展音频场景的区域,同时在音频场景的另一部分中压缩音频场景,并且保持第三区域未修改。一个区域可包括若干不连续的空间部分。
通过本发明的另一方面,将音频场景的输入方位角重映射至输出方位角值,所述输出方位角值不同于所述输入方位角值。可使用非线性重映射函数来重映射方位角值。
附图说明
考虑附图,参照以下说明,可获得本发明的更完整理解及其优点,在附图中类似标号指示类似特征,其中:
图1A示出根据本发明实施例的针对多通道音频信号而聚焦于音频场景的一部分的架构。
图1B示出根据本发明实施例的针对多通道音频信号而聚焦于音频场景的一部分的第二架构。
图2示出根据本发明实施例用于重平移音频信号的架构。
图3示出根据本发明实施例的用于定向音频编码(DirAC)分析的架构。
图4示出根据本发明实施例的用于定向音频编码合成的架构。
图5示出根据本发明实施例的收听者为了聚焦于声源而面向声源的情形。
图6示出根据本发明实施例的线性重映射函数。
图7示出根据本发明实施例的非线性重映射函数。
图8示出根据本发明实施例的聚焦于音频源的情形。
图9示出根据本发明实施例的用于处理多通道音频信号的一排滤波器。
图10示出根据本发明实施例的定位虚拟声源的实例。
图11示出根据本发明实施例的用于重平移音频信号的装置。
具体实施方式
在各个实施例的以下描述中,参照形成本发明一部分的附图,其中通过可实践本发明的示例性实施例示出附图。可理解,在不脱离本发明的范围的情况下,可利用其他实施例,以及可做出结构和功能上的修改。
进一步将讨论的是,本发明的实施例可通过应用空间提示编码(spatialcue coding)来支持重平移多音频(声音)信号。在将信号混合成组合信号之前,可对于每个信号中的声源进行重平移。例如,如将进一步讨论的,可在接收两个全向记录的(或合成的)声场信号的会议桥中应用处理。会议桥随后将信号之一重平移至左侧收听者,以及将该信号重平移至右侧。源图像映射和平移还可自适应地基于内容和使用情况。在定向解码之前或在定向混合之前,可通过操作方向参数进行映射。
如将进一步讨论的,本发明的实施例支持对于再现中使用的转换器系统未知的信号格式。因此,可通过头戴式耳机和不同的扬声器设置来播放所处理的信号。
人类听觉系统具有根据他们的空间特征分离流的能力。这个能力通常称为“鸡尾酒会效应”,因为这可很容易地通过我们都熟悉的现象来说明。在聚会上的吵杂拥挤的房间中,可能出现一个谈话,由于收听者可将注意力聚焦于说话的个人,实际上过滤掉来自其他方向的声音。因此,如果在空间上很好地将该声源与其他声源分离,以及如果感兴趣的声源是最大声,则很容易地完成集中于特定声源的任务。
图1示出根据本发明实施例的架构10,其用于针对多通道音频信号51而聚焦于音频场景的一部分。收听者(未示出)可通过借助头戴式耳机(未示出)或另一组转换器(例如音频扬声器)收听双耳音频信号53来聚焦于期望声源(将空间注意力聚焦于声音场景的所选部分)。本发明实施例还支持通过多于两个转换器对所处理的多通道音频信号的合成。如将进一步讨论的,通过使用与空间内容分析模块1和3D音频处理模块3对应的3D音频技术来实施空间聚焦。
架构10提供了可通过头戴式耳机向收听者播放声音的空间操作。收听者可通过类似于可如何使用放大镜来取出图片中的细节的方式将空间注意力指引到声级的一部分。聚焦可用于例如电话会议的应用中,其中若干个人或甚至若干群人位于收听者周围的虚拟环境中。除了电话会议之外,当空间音频是用户体验的重要部分时,也可使用架构10。因此,可将架构10应用于游戏的立体声音乐和3D音频。
架构10可合并有头部追踪(headtracking),用于相对于环境稳定音频场景。头部追踪使得收听者在相对于环境的固定位置听见电话会议中的远程参与者,而不管收听者头部的方位。
通常在语音通信中存在这样的情形,其中收听者可能期望聚焦于某个人的谈话,同时抑制其他声音。在真实世界情形中,如果收听者可移动至更接近谈话的个人,在某种程度上是可能的。通过3D音频处理(与3D音频处理模块3相应),这个效果可通过实施空间注意力的“超自然”焦点来扩大,这不仅使得声级的所选部分更大声,而且可空间地操纵声级,从而音频场景的所选部分更加明显地突出。
声音场景的期望部分可以是在电话会议中若干其他人中一个特定谈话的个人,或音轨中的歌手。如果头部追踪器可用,则用户(收听者)只能旋转他的头,以便控制空间焦点的期望方向来提供头部追踪参数57。备选地,可由用户控制输入55通过输入设备(例如键板或操纵杆)提供空间焦点参数59。
多通道音频信号51可以是例如电话会议中的多个音频输入的一组独立信号,或包含与彼此关系相关的空间信息的一组信号,例如作为高保真立体声Ambisonics B-格式。立体声音乐和双耳内容是包含空间信息的双通道信号的实例。在立体声音乐,以及通过麦克风阵列做出的记录的情况下,在可执行声级的空间操纵之前,空间内容分析(与空间内容分析模块1相应)是必要的。一个方法是DirAC(如参照图3和4将讨论的)。全DirAC分析的特定实例是从可用于立体声音乐的双通道信号中进行中心通道提取。
图1B示出根据本发明实施例的架构100,其用于针对多通道音频信号151而聚焦于音频场景的一部分。处理模块101根据修改的参数163提供音频输出153,以聚焦于音频场景。
用修改值161代替声源位置参数159(方位角、仰角、距离)。重映射模块103根据重映射函数或向量155修改方位角和仰角,其中所述向量155有效地限定在多个离散点处的函数值。重映射控制器105从将讨论的方位角157和映射预设输入163确定重映射函数/向量155。位置控制模块107控制每个声源、或通道的3D定位。例如,如图8所示,在会议系统中,模块107定义参与者的声音所在的位置。定位可以是自动的,或可由用户控制。
示例性实施例在支持分布式3D电话会议系统的终端中执行。终端从所有其他参与终端接收单音音频信号,并局部地空间化音频信号。
重映射函数/向量155定义了从输入参数值集到输出参数值集的映射。例如,一个输入方位角值可映射为新方位角值(例如10度->15度),或输入方位角值的范围可线性地(或非线性地)映射为方位角值的另一范围(例如0-90度->0-45度)。
重平移操作的另一可能形式是作为从输入方位角值到输出方位角值的映射。作为实例,如果定义了如下类型的S型(sigmoid)重映射函数R(v):
R ( v ) = k 1 · ( 360 1 + e - k 2 · v - 180 ) - - - ( 1 )
其中v是正负180度之间的方位角,k1和k2是适当选择的正常数,然后围绕0度角集中的源被扩展,围绕正负180度集中的源被压缩。对于k1的值为1.0562以及k2的值为0.02,如表1所示以下给出相应输入-输出方位角对的列表(输出值被取整为最接近度数)。
Figure GPA00001120997000062
可通过定义映射向量来做出映射函数描述的近似值。该向量定义在离散点处的映射函数的值。如果输入值在这些离散点之间,则可使用线性内插或某些其他内插方法来内插这些点之间的值。映射向量的实例可以是表1中的“输出”行。该向量具有30度的解析度,并定义在用于某些输入方位角值的离散点处的输出方位角的值。使用向量表示,可通过表查询和可选内插操作组合的简单方式来实施映射。
当定义空间焦点方向(方位角)或映射预设163的控制信号改变时,生成新映射函数(或向量)155。从输入设备(例如操纵杆)获得的输入信号157的改变导致新重映射函数/向量155的生成。示例性的实时修改可以是旋转操作。当用户针对不同方向设置焦点时,可由此修改重映射向量。可通过向重映射函数R(v)的结果增加角度v0并计划从-180至180的范围的总和对360取模来实施方位角的改变。例如,如果R(v)是150,v0是70,则由于70加150是220,这等同于-140对360取模,并且-140在-180和180之间的范围内,所以新的重映射角是-140。
映射预设163可用于选择将什么函数用于重映射或哪些静态映射向量模板。实例包括:
映射预设   0(禁用)
  输入   -180   -150   -120   -90   -60   -30   0   30   60   90   120   150   180
映射预设   1(窄束)
  输入   -180   -150   -120   -90   -60   -40   0   40   60   90   120   150   180
映射预设   2(宽束)
  输入   -180   -150   -120   -90   -80  -60   0   60   80   90   120   150   180
此外,本发明实施例可支持重映射向量的动态生成。
图2示出根据本发明实施例用于重平移音频信号251的架构200。(平移(Panning)是将单声信号扩频为立体声或多通道声场。通过重平移,平移控制典型地改变在总功率恒定的多个扬声器上的音频功率的分布。)
架构200可应用于知晓原始声场的空间特征并且可再合成来自音频信号251的声场和可用空间元数据(例如方向信息253)的系统。空间元数据可通过分析方法可用(通过模块201执行),或可与音频信号251包括在一起。空间重平移模块203随后修改方向信息253,以获得修改的方向信息257。(如图4所示,方向信息可包括方位角、仰角、和扩散度评估)。
定向再合成模块205根据音频信号255和修改的方向信息257形成重平移的信号259。在重平移之后,数据流(包括音频信号255和修改的方向信号257)典型地具有定向编码的格式(例如将讨论的B-格式)。
此外,可组合若干数据流,其中每个数据流包括具有相应方向信息的不同音频信号。然后,重平移的信号可通过定向再合成模块205来组合(混合),以形成输出信号259。如果再合成模块205执行信号合成,则混合的输出流可具有与输入流相同或相似的格式(例如具有方向信息的音频信号)。2006年6月30日提交的美国专利申请No.11/478792(“DIRECTENCODING INTO A DIRECTIONAL AUDIO CODING FORMAT”,Jarmo Hiipakka)公开了执行混合的系统,其通过引用合并于此。例如,通过分析用于组合空间数据的信号来组合与方向信息关联的两个音频信号。将实际信号混合(累加)在一起。备选地,混合可发生在再合成之后,从而混合来自若干再合成模块(例如模块205)的信号。通过一组扬声器或耳机指引声音信号,向收听者呈现输出信号。通过本发明的实施例,输出信号可被发送至用户,并然后被呈现(例如在会议桥中发生处理时)。备选地,在存储设备(未示出)中存储输出。
空间信息(例如方向信息253)的修改可包括位置的任何范围(2D)或区域(3D)到新范围或区域的重映射。重映射的范围可包括整个原始声场,或可足够小以基本覆盖原始声场中的仅一个声源。还可使用加权函数来定义重映射的范围,从而可部分地重映射与边界接近的声源。重平移还可包括在一起的若干单独重平移操作。因此,本发明的实施例支持在原始声场中的两个声源的位置交换的情形。
空间重平移模块203根据重映射控制器207提供的重映射向量263修改原始方位角、仰角和扩散度评估(方向信息253),以获得修改的方位角、仰角和扩散度评估(修改的方向信息257)。重映射控制器207从典型地由输入设备(例如操纵杆、头部追踪器)提供的方位角信息261确定重映射向量263。方位角信息261指定收听者期望聚焦注意力的位置。映射预设265是指定将使用的映射的类型的控制信号。特定映射描述了声级的哪些部分被空间地压缩、扩展、或未修改。可通过质量上相同的方式重平移声音场景的若干部分,从而例如扩展围绕正左方和正右方集中的源,而压缩围绕前方和后方集中的源。
如果方向信息253包含与声场的扩散度相关的信息,则当重平移声场时典型地通过模块203处理扩散。因此,可能的来保持扩散场的自然性质。然而,还可能将声场的原始扩散分量映射为修改声场的特定位置或位置范围以用于特效。例如,可对于空间焦点被设置在非其他区域的空间区域而使用不同扩散值。可根据取决于对空间焦点注意力设置的方向的函数来改变扩散值。
为了记录B-格式信号,期望的声场通过一个点中的其球谐波分量来代表。然后,使用任意适合数目的扬声器或一对耳机来再生成声场。通过1阶方案,使用第0阶分量(声音压力信号W)和三个1阶分量(沿着3个笛卡尔坐标轴的压力梯度信号X、Y和Z)来描述声场。本发明的实施例还可确定高阶分量。
包括4个通道W、X、Y和Z的1阶信号通常称为B-格式信号。典型地,通过使用特定麦克风设置记录声场来获得B-格式信号,所述特定麦克风设置直接地或通过转换生成期望的信号。
除了记录B-格式的信号之外,还可合成B-格式信号。为了将单音音频信号编码成B-格式,需要以下编码等式:
W ( t ) = 1 2 x ( t )
Figure GPA00001120997000092
Figure GPA00001120997000093
(等式1)
其中x(t)是单音输入信号,θ是方位角(从前中的逆时针角),是仰角,W(t)、X(t)、Y(t)和Z(t)是得到的B-格式信号的各个通道。应注意,W信号的乘数是从在4个通道之间得到更多偶数级分布的需求生成的约数。(某些参考文献使用近似值0.707代替。)还应注意方向角可自然地随时间改变,即时在等式中没有明确示出。还可对于所有的源单独使用相同等式并混合(累加在一起)得到的B-格式信号来对多个单音源编码。
如果预先已知输入信号的格式,则可用简化的计算代替B-格式转换。例如,如果可假设信号为标准的2通道立体声(具有+/-30度角的扬声器),则转换等式简化成与常数的乘法。目前,这个假设对于许多应用情形成立。
本发明的实施例支持对于多声音场景信号通过应用空间提示编码进行参数空间重平移。每个信号中的声源在被混合到组合信号之前被重平移。例如,可在接收2个全向记录(或合成)的声场信号的会议桥中应用处理,随后将这些信号之一重平移至左侧收听者,将其他信号重平移至右侧。源图像映射和平移还可基于内容和使用自适应。可在定向解码之前或定向混合之前,通过操纵方向参数执行映射。
本发明的实施例在电话会议系统中支持以下功能:
重平移解决了从若干会议房间组合声场信号的问题;
会议参与者的现实表示;
在参数空间中用于空间重平移的一般方案。
图3示出根据本发明实施例的架构300,其用于定向音频编码(DirAC)分析模块(例如图2中所示的模块201)。通过本发明的实施例,在图2中,DirAC分析模块201从输入信号251提取音频信号255和方向信息253。DirAC分析提供依赖时间和频率的信息以指引声能,所述信息关于涉及收听者的声源的方向以及扩散的关系。然后,该信息用于选择位于扬声器之间的期望轴附近或其上的声源,并将他们指引至期望通道中。可通过从原始立体声信号减去那些声源的直接声音部分来生成用于扬声器的信号,从而保持回声到达的正确方向。
如图3所示,B格式信号包括W(t)351、X(t)353、Y(t)355和Z(t)357。使用短时傅立叶变换(STFT),每个分量被转换成频带361a-361n(相应于W(t)351)、363a-363n(相应于X(t)353)、365a-365n(相应于Y(t)355)、以及367a-367n(相应于Z(t)357)。对于每个时间实例的每个频带303和305,评估到达方向参数(包括方位角和仰角)和扩散参数。如图3所示,参数369-373相应于第一频带,参数375-379相应于第N频带。
图4示出根据本发明实施例的架构400,其用于定向音频编码(DirAC)合成器(例如图2所示的定向再合成模块205)。通过转换处理401将基信号W(t)451分成多个频带。合成基于基信号W(t)451的频率分量的处理。典型地,通过全向麦克风记录W(t)451。声音定位和再现处理405-407根据在分析阶段采集的方向和扩散评估453-457来分布和处理W(t)451的频率分量,以将处理的信号提供至扬声器459和461。
DirAC再现(再合成)基于采用全向麦克风记录的信号,并根据在分析阶段采集的方向和扩散评估来分布该信号。
DirAC再合成可通过支持用于声场的相同表示来使得系统通用,并使用再现中的任意扬声器(或一般而言转换器)设置。声场可在独立于用于再现的实际转换器设置的参数(即到达角的方向(方位角、仰角)和扩散度)中被编码。
图5示出根据本发明实施例的收听者505a、505b为了聚焦于声源(例如声源501或503)而面向声源的情形551和553。用户(505a、505b)可通过输入设备控制空间注意力。输入设备可以是通常用于移动设备中的类型,例如键板或操纵杆,或者其可使用传感器(例如加速计、磁力计、或陀螺仪)来检测用户的移动。头部追踪器例如可根据如图5所示收听者所面向的方向将注意力指引到声级的某个部分。期望的方向(空间注意力角)可线性地或非线性地取决于收听者头部方位。通过某些实施例,更加便捷的是仅转头30度,以将空间注意力设置为90度。向后倾斜可确定施加于声音场景的所选部分的增益。通过头部追踪,可通过例如按压按钮来打开和关闭空间注意力控制的方向控制。因此,可将空间注意力锁定在某个位置。通过本发明实施例,在3D电话会议会话中可能有利的是,向具有比其他人更弱声音的某个参与者给出恒定的提升。
如果期望的话,则可通过增益函数561(相应于场景551)和563(相应于场景553)减弱位于如图所示的声音场景的所选部分外部的声音,以保持总体音量。
图6示出根据本发明实施例的线性重映射函数601。线性重映射函数601不改变音频场景中任意音频源的位置,因为原始方位角和重映射的方位角之间的关系与一个的斜率成线性(如导数函数603)。
图7示出根据本发明实施例的非线性重映射函数701。当空间地转换音频场景时,关系不再是线性。大于1的导数(如导数函数703所示)等于空间的扩展,而小于1的导数意味着等于空间的压缩。这在图7中示出,其中在顶部的字母表705的图形表示(其代表与不同音频源相关的压缩和扩展,其中字母表的字母代表音频源)指示接近0方位角的字母被拉伸,接近正负90度的字母被挤压。
通过本发明实施例,音频处理模块3(如图1A所示)利用重映射函数(例如函数701),以针对向收听者呈现的输出多通道音频信号而改变音频源的关系。
图8示出根据本发明实施例的聚焦于音频源的情形851、853和855。当若干音频源在音频场景中彼此接近时(例如情形853中的源803、804和805,以及情形855中的源801、802和803),具有方位角重映射的空间焦点处理可使得音频源彼此离开,从而在与对于收听者希望聚集的音频源进行同时谈话期间提升了理解力。此外,可更加容易识别哪个人正在谈话,因为收听者能够可靠地将演讲者从左至右排序。
通过离散语音输入信号,可通过控制各个声源被空间化的位置来实施重映射。在通过空间内容的多通道记录的情况下,可使用重平移方法或使用上混合方法来实施重平移。
图9示出根据本发明实施例的一排滤波器905,其用于处理多通道音频信号。多通道音频信号包括由相应音频源生成的信号分量951-957。该排滤波器包括头部相关的传输功能(HRTF)滤波器901和903,其分别处理针对通过头戴式耳机、扬声器、或其他适合转换器向收听者播放的双耳输出的左通道961和右通道963的信号分量。滤波器排905还包括用于其他信号分量的额外HRTF滤波器。
对于图9所示的实例,由7个参与者生成音频信号,其为1个远程收听者空间化,其中7个语音信号中的每个单独可用。通过头部相关的传输函数对(HRTF)来处理每个声音信号,以生成2通道双耳输出。然后,通过将所有左输出包括在1个通道中(左通道961),将所有右输出包括在另一通道中(右通道963),来将7个信号混合在一起。作为其属性相应于空间化源的期望位置的数字滤波器来实施HRTF。可能的缺省映射使得7个空间化源从-90度方位角(正左方)至90度方位角(正右方)平均地分布于声级。参照图8,当收听者期望聚焦于音频场景中的特定源时,例如源804,其在直前方,用新位置来更新实施HRTF的数字滤波器。从左至右,方位角(度数)变为(-90 -70 -50 0 50 70 90)。如果收听者现在决定聚焦于源802,则方位角变为(-90 -45 0 22.5 45 67.5 90)。因此,信号处理结构保持相同,但是必须根据期望的空间重映射更新在结构中的滤波器参数。
作为另一实例,参照图2和8,输入的音频信号251是定向音频(DirAC)格式(具有空间参数的单音频信道)。当收听者期望聚焦于源802时,生成新映射模式以创建修改的方向信息257,并将其提供至空间重平移模块203。在这种情况下,可在没有重平移情况下将映射至(-90 -30 -60 0 60 3090)的音频源映射至例如方位角位置(-90 -70 -50 0 50 70 90)。当收听者改变焦点时,可使用新映射模式来生成不同的修改的方向信息257。这还可包括例如通过对位于收听者聚焦注意力的区域中的那些频带使用更少的扩散度来修改扩散值。可使用扩散修改提供来自该方向的更清晰(更纯净)的声音。
图10示出根据本发明实施例的定位虚拟声源1005的实例。虚拟源1005位于扬声器1001和1003之间,如夹角1051-1055所指示。(本发明的实施例还支持立体声头戴式耳机,其中一侧相应于扬声器1001,另一侧相应于扬声器1003。)使用相对于收听者1061测量的夹角来确定振幅平移。当使用正弦平移法则时,根据以下等式确定扬声器1001和1003的振幅:
sin θ sin θ 0 = g 1 - g 2 g 1 + g 2 (等式2)
其中g1和g2是分别用于扬声器1001和1003的ILD值。因此,使用扬声器Ls和Lf对虚拟中心通道(VC)的振幅平移被确定如下:
sin ( ( θ C 1 + θ C 2 ) / 2 - θ C 1 ) sin ( ( θ C 1 + θ C 2 ) / 2 ) = g Ls - g Lf g Ls + g Lf (等式3)
图11示出根据本发明实施例的装置1100,其用于将音频信号1151重平移为经过重平移的输出信号1169。(尽管图11中未示出,但是本发明的实施例可支持1至N个输入信号。)处理器1103通过音频输入接口1101获得输入信号1151。通过本发明实施例,信号1151可按B-格式记录,或者音频输入接口可使用等式1转换B-格式的信号1151。模块1和3(如图1A所示)可通过执行在存储器1107上存储的计算机可执行指令的处理器1103来实施。处理器1103通过音频输出接口1105提供组合的重平移的信号1169,以向用户呈现输出信号。
装置1100可假设不同的形式,包括离散逻辑电路、微处理器系统、或集成电路,例如专用集成电路(ASIC)。
本领域普通技术人员可理解,可利用具有关联计算机可读介质的计算机系统来实施这里公开的示例性实施例,其中所述介质包含用于控制计算机系统的指令。计算机系统可包括至少一个计算机,例如微处理器、数字信号处理器、和关联外围电子电路。
尽管参照特定实例描述了本发明,其中所述实例包括执行本发明的当前优选实施方式,但是本领域普通技术人员将理解,存在落入如所附权利要求阐述的精神和范围内的上述系统和技术的各种变型和排列。

Claims (25)

1.一种方法,包括:
获得由多个音频源生成的输入多通道音频信号;
确定针对所述多个音频源中的每个的方向信息;
获得空间注意力的至少一个期望方向;
向所述至少一个期望方向聚焦所述输入多通道音频信号,以形成输出多通道音频信号;以及
向用户呈现所述输出多通道音频信号。
2.如权利要求1所述的方法,还包括:
围绕所述至少一个期望方向扩展音频场景的第一区域。
3.如权利要求2所述的方法,还包括:
压缩所述音频场景的第二区域。
4.如权利要求3所述的方法,还包括:
将输入方位角值重映射为输出方位角值,所述输出方位角值不同于所述输入方位角值。
5.如权利要求4所述的方法,还包括:
利用重映射函数来重映射所述输入方位角值。
6.如权利要求5所述的方法,所述重映射函数的特征在于,所述重映射函数对于所述输入方位角值的子集是非线性的,并具有大于1的导数。
7.如权利要求1所述的方法,还包括:
当呈现所述输出多通道音频信号时,保持所述输入多通道音频信号的总响度。
8.如权利要求2所述的方法,还包括:
放大关于所述音频场景的第一区域的所述输入多通道音频信号。
9.如权利要求1所述的方法,所述输出多通道音频信号包括双耳音频信号。
10.如权利要求1所述的方法,空间注意力的所述至少一个期望方向是从固定于用户的头部追踪器获得。
11.一种装置,包括:
输入模块,被配置为获得由多个音频源生成的输入多通道音频信号;
空间内容分析器,被配置为确定针对所述多个音频源中的每个的方向信息;
输入设备,被配置为获得空间注意力的期望的方向;
音频处理模块,被配置为向所述期望的方向聚焦所述输入多通道音频信号,以形成聚焦的多通道音频信号;以及
合成器,被配置为向用户呈现所述聚焦的多通道音频信号。
12.如权利要求11所述的装置,所述音频处理模块还被配置为围绕所述期望的方向扩展音频场景的第一区域;以及压缩所述音频场景的第二区域。
13.如权利要求12所述的装置,所述音频处理模块还被配置为将输入方位角值重映射为输出方位角值,所述输出方位角值不同于所述输入方位角值。
14.如权利要求13所述的装置,所述音频处理模块还被配置为利用重映射函数来重映射所述输入方位角值。
15.如权利要求14所述的装置,所述音频处理模块还被配置为利用所述重映射函数,其中所述重映射函数的特征在于,对于所述输入方位角值的子集是非线性的,并具有大于1的导数。
16.一种具有计算机可执行指令的计算机可读介质,包括:
获得由多个音频源生成的输入多通道音频信号;
确定针对所述多个音频源中的每个的方向信息;
获得空间注意力的期望的方向;
向所述期望的方向聚焦所述输入多通道音频信号,以形成输出多通道音频信号;以及
向用户呈现所述输出多通道音频信号。
17.如权利要求16所述的计算机可读介质,还包括:
围绕所述期望的方向扩展音频场景的第一区域;以及
压缩所述音频场景的第二区域。
18.如权利要求17所述的计算机可读介质,还包括:
将输入方位角值重映射为输出方位角值,所述输出方位角值不同于所述输入方位角值。
19.如权利要求18所述的计算机可读介质,还包括:
利用重映射函数来重映射所述输入方位角值,所述重映射函数的特征在于,对于所述输入方位角值的子集是非线性的,并具有大于1的导数。
20.一种装置,包括:
用于获得由多个音频源生成的输入多通道音频信号的装置;
用于确定针对所述多个音频源中的每个的方向信息的装置;
用于获得空间注意力的期望的方向的装置;
用于向所述期望的方向聚焦所述输入多通道音频信号,以形成输出多通道音频信号的装置;以及
用于向用户呈现所述输出多通道音频信号的装置。
21.如权利要求20所述的装置,还包括:
用于围绕所述期望的方向扩展音频场景的第一区域的装置;以及
用于压缩所述音频场景的第二区域的装置。
22.如权利要求21所述的装置,还包括:
用于将输入方位角值重映射为输出方位角值的装置,所述输出方位角值不同于所述输入方位角值。
23.一种集成电路,包括:
输入组件,被配置为获得由多个音频源生成的输入多通道音频信号;
空间内容分析组件,被配置为确定针对所述多个音频源中的每个的方向信息;
输入组件,被配置为获得空间注意力的期望的方向;
音频处理组件,被配置为向所述至少一个期望方向聚焦所述输入多通道音频信号,以形成聚焦的多通道音频信号;以及
合成组件,被配置为向用户呈现所述聚焦的多通道音频信号。
24.如权利要求23所述的集成电路,所述音频处理组件还被配置为围绕所述期望的方向扩展音频场景的第一区域;以及压缩所述音频场景的第二区域。
25.如权利要求24所述的集成电路,所述音频处理组件还被配置为将输入方位角值重映射为输出方位角值,所述输出方位角值不同于所述输入方位角值。
CN200880113925.XA 2007-11-01 2008-10-29 一种聚焦音频信号的方法、装置及集成电路 Expired - Fee Related CN101843114B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/933,638 2007-11-01
US11/933,638 US8509454B2 (en) 2007-11-01 2007-11-01 Focusing on a portion of an audio scene for an audio signal
PCT/IB2008/002909 WO2009056956A1 (en) 2007-11-01 2008-10-29 Focusing on a portion of an audio scene for an audio signal

Publications (2)

Publication Number Publication Date
CN101843114A true CN101843114A (zh) 2010-09-22
CN101843114B CN101843114B (zh) 2014-08-06

Family

ID=40386481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200880113925.XA Expired - Fee Related CN101843114B (zh) 2007-11-01 2008-10-29 一种聚焦音频信号的方法、装置及集成电路

Country Status (4)

Country Link
US (1) US8509454B2 (zh)
EP (2) EP2208363A1 (zh)
CN (1) CN101843114B (zh)
WO (1) WO2009056956A1 (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103475974A (zh) * 2012-06-06 2013-12-25 西门子医疗器械公司 用于聚焦助听器的波束形成器的方法
CN103650536A (zh) * 2011-07-01 2014-03-19 杜比实验室特许公司 上混合基于对象的音频
CN104303522A (zh) * 2012-05-07 2015-01-21 杜比国际公司 用于布局与格式独立的三维音频再现的方法和装置
CN104735582A (zh) * 2013-12-20 2015-06-24 华为技术有限公司 一种声音信号处理方法、装置及设备
CN104919822A (zh) * 2012-11-15 2015-09-16 弗兰霍菲尔运输应用研究公司 对不同重放扬声器组的空间音频信号的分段式调整
CN105323684A (zh) * 2014-07-30 2016-02-10 索尼公司 声场合成近似方法、单极贡献确定装置及声音渲染系统
CN107211180A (zh) * 2015-01-21 2017-09-26 微软技术许可有限责任公司 用于具有相关联的音频内容的对象的空间音频信号处理
CN107770718A (zh) * 2014-01-03 2018-03-06 杜比实验室特许公司 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
CN109314834A (zh) * 2016-06-21 2019-02-05 诺基亚技术有限公司 改进介导现实中声音对象的感知
CN109462708A (zh) * 2017-09-06 2019-03-12 森海塞尔通信公司 用于在虚拟声音环境中在多个通信设备之间传送音频信号的通信系统
CN110415712A (zh) * 2014-06-27 2019-11-05 杜比国际公司 用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法
CN110915240A (zh) * 2017-06-26 2020-03-24 雷.拉蒂波夫 向用户提供交互式音乐创作的方法
CN112218211A (zh) * 2016-03-15 2021-01-12 弗劳恩霍夫应用研究促进协会 用于生成声场描述的装置、方法或计算机程序
CN112673649A (zh) * 2018-07-13 2021-04-16 诺基亚技术有限公司 空间音频增强
US11039264B2 (en) 2014-12-23 2021-06-15 Ray Latypov Method of providing to user 3D sound in virtual environment
US11212638B2 (en) 2014-01-03 2021-12-28 Dolby Laboratories Licensing Corporation Generating binaural audio in response to multi-channel audio using at least one feedback delay network
CN114072761A (zh) * 2019-07-03 2022-02-18 高通股份有限公司 用于控制针对扩展现实体验的音频渲染的用户接口
TWI790192B (zh) * 2015-06-03 2023-01-21 新加坡商雷蛇(亞太)私人有限公司 耳機裝置及控制耳機裝置之方法
US11638112B2 (en) 2018-07-13 2023-04-25 Nokia Technologies Oy Spatial audio capture, transmission and reproduction

Families Citing this family (100)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11431312B2 (en) 2004-08-10 2022-08-30 Bongiovi Acoustics Llc System and method for digital signal processing
US10848118B2 (en) 2004-08-10 2020-11-24 Bongiovi Acoustics Llc System and method for digital signal processing
US10158337B2 (en) 2004-08-10 2018-12-18 Bongiovi Acoustics Llc System and method for digital signal processing
DE102005033238A1 (de) * 2005-07-15 2007-01-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ansteuern einer Mehrzahl von Lautsprechern mittels eines DSP
DE102005033239A1 (de) * 2005-07-15 2007-01-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Steuern einer Mehrzahl von Lautsprechern mittels einer graphischen Benutzerschnittstelle
US10848867B2 (en) 2006-02-07 2020-11-24 Bongiovi Acoustics Llc System and method for digital signal processing
US11202161B2 (en) 2006-02-07 2021-12-14 Bongiovi Acoustics Llc System, method, and apparatus for generating and digitally processing a head related audio transfer function
US10701505B2 (en) 2006-02-07 2020-06-30 Bongiovi Acoustics Llc. System, method, and apparatus for generating and digitally processing a head related audio transfer function
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
KR20090110242A (ko) * 2008-04-17 2009-10-21 삼성전자주식회사 오디오 신호를 처리하는 방법 및 장치
GB0815362D0 (en) * 2008-08-22 2008-10-01 Queen Mary & Westfield College Music collection navigation
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
WO2010149823A1 (en) * 2009-06-23 2010-12-29 Nokia Corporation Method and apparatus for processing audio signals
US20110096915A1 (en) * 2009-10-23 2011-04-28 Broadcom Corporation Audio spatialization for conference calls with multiple and moving talkers
CN102771141B (zh) 2009-12-24 2016-01-20 诺基亚技术有限公司 一种电子装置及用于电子装置的方法
JP5407848B2 (ja) * 2009-12-25 2014-02-05 富士通株式会社 マイクロホンの指向性制御装置
WO2011104418A1 (en) * 2010-02-26 2011-09-01 Nokia Corporation Modifying spatial image of a plurality of audio signals
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
KR20120004909A (ko) * 2010-07-07 2012-01-13 삼성전자주식회사 입체 음향 재생 방법 및 장치
US8908874B2 (en) * 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
US9111526B2 (en) 2010-10-25 2015-08-18 Qualcomm Incorporated Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
WO2012068174A2 (en) * 2010-11-15 2012-05-24 The Regents Of The University Of California Method for controlling a speaker array to provide spatialized, localized, and binaural virtual surround sound
US20140226842A1 (en) * 2011-05-23 2014-08-14 Nokia Corporation Spatial audio processing apparatus
TWI453451B (zh) * 2011-06-15 2014-09-21 Dolby Lab Licensing Corp 擷取與播放源於多音源的聲音之方法
US9032042B2 (en) 2011-06-27 2015-05-12 Microsoft Technology Licensing, Llc Audio presentation of condensed spatial contextual information
US8958569B2 (en) 2011-12-17 2015-02-17 Microsoft Technology Licensing, Llc Selective spatial audio communication
WO2013093565A1 (en) * 2011-12-22 2013-06-27 Nokia Corporation Spatial audio processing apparatus
KR101816506B1 (ko) 2012-02-23 2018-01-09 돌비 인터네셔널 에이비 고 주파수 오디오 콘텐트의 효율적인 복구를 위한 방법들 및 시스템들
US10051400B2 (en) * 2012-03-23 2018-08-14 Dolby Laboratories Licensing Corporation System and method of speaker cluster design and rendering
EP2829050A1 (en) 2012-03-23 2015-01-28 Dolby Laboratories Licensing Corporation Schemes for emphasizing talkers in a 2d or 3d conference scene
KR101901593B1 (ko) * 2012-03-28 2018-09-28 삼성전자주식회사 가상 입체 음향 생성 방법 및 장치
US9420386B2 (en) * 2012-04-05 2016-08-16 Sivantos Pte. Ltd. Method for adjusting a hearing device apparatus and hearing device apparatus
EP2837211B1 (en) 2012-04-13 2017-08-30 Nokia Technologies Oy Method, apparatus and computer program for generating an spatial audio output based on an spatial audio input
WO2013156818A1 (en) * 2012-04-19 2013-10-24 Nokia Corporation An audio scene apparatus
WO2013160729A1 (en) * 2012-04-26 2013-10-31 Nokia Corporation Backwards compatible audio representation
US20130304476A1 (en) 2012-05-11 2013-11-14 Qualcomm Incorporated Audio User Interaction Recognition and Context Refinement
US9746916B2 (en) 2012-05-11 2017-08-29 Qualcomm Incorporated Audio user interaction recognition and application interface
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
EP2909971B1 (en) 2012-10-18 2020-09-02 Dolby Laboratories Licensing Corporation Systems and methods for initiating conferences using external devices
WO2014131054A2 (en) * 2013-02-25 2014-08-28 Audience, Inc. Dynamic audio perspective change during video playback
CN104019885A (zh) 2013-02-28 2014-09-03 杜比实验室特许公司 声场分析系统
WO2014159376A1 (en) 2013-03-12 2014-10-02 Dolby Laboratories Licensing Corporation Method of rendering one or more captured audio soundfields to a listener
US20140278418A1 (en) * 2013-03-15 2014-09-18 Broadcom Corporation Speaker-identification-assisted downlink speech processing systems and methods
US9979829B2 (en) 2013-03-15 2018-05-22 Dolby Laboratories Licensing Corporation Normalization of soundfield orientations based on auditory scene analysis
US10635383B2 (en) 2013-04-04 2020-04-28 Nokia Technologies Oy Visual audio processing apparatus
US9883312B2 (en) * 2013-05-29 2018-01-30 Qualcomm Incorporated Transformed higher order ambisonics audio data
US9883318B2 (en) 2013-06-12 2018-01-30 Bongiovi Acoustics Llc System and method for stereo field enhancement in two-channel audio systems
DE102013211283B4 (de) * 2013-06-17 2018-01-11 Deutsche Telekom Ag Wiedergabe von Audiodaten mittels verteilter elektroakustischer Wandler in vernetzten mobilen Endgeräten
GB2516056B (en) * 2013-07-09 2021-06-30 Nokia Technologies Oy Audio processing apparatus
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
EP3280162A1 (en) * 2013-08-20 2018-02-07 Harman Becker Gépkocsirendszer Gyártó Korlátolt Felelösségü Társaság A system for and a method of generating sound
US9906858B2 (en) 2013-10-22 2018-02-27 Bongiovi Acoustics Llc System and method for digital signal processing
CN117376809A (zh) 2013-10-31 2024-01-09 杜比实验室特许公司 使用元数据处理的耳机的双耳呈现
KR102343453B1 (ko) 2014-03-28 2021-12-27 삼성전자주식회사 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
US10820883B2 (en) 2014-04-16 2020-11-03 Bongiovi Acoustics Llc Noise reduction assembly for auscultation of a body
US9318121B2 (en) 2014-04-21 2016-04-19 Sony Corporation Method and system for processing audio data of video content
WO2016004225A1 (en) 2014-07-03 2016-01-07 Dolby Laboratories Licensing Corporation Auxiliary augmentation of soundfields
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
CN107113492B (zh) * 2014-10-10 2020-11-24 Gde工程有限公司 提供定制声音分布的方法和装置
US9602946B2 (en) 2014-12-19 2017-03-21 Nokia Technologies Oy Method and apparatus for providing virtual audio reproduction
US10225814B2 (en) * 2015-04-05 2019-03-05 Qualcomm Incorporated Conference audio management
WO2017178309A1 (en) * 2016-04-12 2017-10-19 Koninklijke Philips N.V. Spatial audio processing emphasizing sound sources close to a focal distance
EP3255904A1 (en) * 2016-06-07 2017-12-13 Nokia Technologies Oy Distributed audio mixing
EP3255905A1 (en) * 2016-06-07 2017-12-13 Nokia Technologies Oy Distributed audio mixing
US11373672B2 (en) 2016-06-14 2022-06-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
EP3469584B1 (en) * 2016-06-14 2023-04-19 The Trustees of Columbia University in the City of New York Neural decoding of attentional selection in multi-speaker environments
GB2551521A (en) * 2016-06-20 2017-12-27 Nokia Technologies Oy Distributed audio capture and mixing controlling
WO2018026963A1 (en) * 2016-08-03 2018-02-08 Hear360 Llc Head-trackable spatial audio for headphones and system and method for head-trackable spatial audio for headphones
JP2018037944A (ja) * 2016-09-01 2018-03-08 ソニーセミコンダクタソリューションズ株式会社 撮像制御装置、撮像装置および撮像制御方法
US10492016B2 (en) * 2016-09-29 2019-11-26 Lg Electronics Inc. Method for outputting audio signal using user position information in audio decoder and apparatus for outputting audio signal using same
US9674453B1 (en) 2016-10-26 2017-06-06 Cisco Technology, Inc. Using local talker position to pan sound relative to video frames at a remote location
US11096004B2 (en) 2017-01-23 2021-08-17 Nokia Technologies Oy Spatial audio rendering point extension
US10531219B2 (en) 2017-03-20 2020-01-07 Nokia Technologies Oy Smooth rendering of overlapping audio-object interactions
US11074036B2 (en) 2017-05-05 2021-07-27 Nokia Technologies Oy Metadata-free audio-object interactions
US10165386B2 (en) 2017-05-16 2018-12-25 Nokia Technologies Oy VR audio superzoom
US10491643B2 (en) 2017-06-13 2019-11-26 Apple Inc. Intelligent augmented audio conference calling using headphones
EP3422744B1 (en) 2017-06-30 2021-09-29 Nokia Technologies Oy An apparatus and associated methods
US11395087B2 (en) 2017-09-29 2022-07-19 Nokia Technologies Oy Level-based audio-object interactions
US11102601B2 (en) 2017-09-29 2021-08-24 Apple Inc. Spatial audio upmixing
PT3692523T (pt) * 2017-10-04 2022-03-02 Fraunhofer Ges Forschung Aparelho, método e programa de computador para codificação, descodificação, processamento de cena e outros procedimentos relacionados com codificação de áudio espacial com base em dirac
GB2567244A (en) * 2017-10-09 2019-04-10 Nokia Technologies Oy Spatial audio signal processing
KR102418168B1 (ko) * 2017-11-29 2022-07-07 삼성전자 주식회사 오디오 신호 출력 장치 및 방법, 이를 이용한 디스플레이 장치
JP6431225B1 (ja) * 2018-03-05 2018-11-28 株式会社ユニモト 音響処理装置、映像音響処理装置、映像音響配信サーバおよびそれらのプログラム
US10542368B2 (en) 2018-03-27 2020-01-21 Nokia Technologies Oy Audio content modification for playback audio
WO2020028833A1 (en) * 2018-08-02 2020-02-06 Bongiovi Acoustics Llc System, method, and apparatus for generating and digitally processing a head related audio transfer function
GB2591066A (en) 2018-08-24 2021-07-21 Nokia Technologies Oy Spatial audio processing
GB2577885A (en) 2018-10-08 2020-04-15 Nokia Technologies Oy Spatial audio augmentation and reproduction
US10721579B2 (en) 2018-11-06 2020-07-21 Motorola Solutions, Inc. Correlated cross-feed of audio and video
GB2584837A (en) 2019-06-11 2020-12-23 Nokia Technologies Oy Sound field related rendering
GB2584838A (en) * 2019-06-11 2020-12-23 Nokia Technologies Oy Sound field related rendering
GB2587335A (en) * 2019-09-17 2021-03-31 Nokia Technologies Oy Direction estimation enhancement for parametric spatial audio capture using broadband estimates
US11363402B2 (en) 2019-12-30 2022-06-14 Comhear Inc. Method for providing a spatialized soundfield
US11425502B2 (en) 2020-09-18 2022-08-23 Cisco Technology, Inc. Detection of microphone orientation and location for directional audio pickup
US11750745B2 (en) * 2020-11-18 2023-09-05 Kelly Properties, Llc Processing and distribution of audio signals in a multi-party conferencing environment
US11825026B1 (en) * 2020-12-10 2023-11-21 Hear360 Inc. Spatial audio virtualization for conference call applications
US11115625B1 (en) 2020-12-14 2021-09-07 Cisco Technology, Inc. Positional audio metadata generation
CN113473319A (zh) * 2021-07-14 2021-10-01 斑马网络技术有限公司 一种蓝牙多声道音频的播放方法、装置及系统
GB2620593A (en) * 2022-07-12 2024-01-17 Nokia Technologies Oy Transporting audio signals inside spatial audio signal
GB2620960A (en) * 2022-07-27 2024-01-31 Nokia Technologies Oy Pair direction selection based on dominant audio direction
EP4333423A1 (en) * 2022-09-05 2024-03-06 Nokia Technologies Oy Video conference calls

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5940118A (en) * 1997-12-22 1999-08-17 Nortel Networks Corporation System and method for steering directional microphones
US20040037436A1 (en) * 2002-08-26 2004-02-26 Yong Rui System and process for locating a speaker using 360 degree sound source localization
US20070127753A1 (en) * 2003-04-09 2007-06-07 Feng Albert S Systems and methods for interference suppression with directional sensing patterns

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4860366A (en) 1986-07-31 1989-08-22 Nec Corporation Teleconference system using expanders for emphasizing a desired signal with respect to undesired signals
US6405163B1 (en) 1999-09-27 2002-06-11 Creative Technology Ltd. Process for removing voice from stereo recordings
FI113147B (fi) 2000-09-29 2004-02-27 Nokia Corp Menetelmä ja signaalinkäsittelylaite stereosignaalien muuntamiseksi kuulokekuuntelua varten
US20030007648A1 (en) 2001-04-27 2003-01-09 Christopher Currell Virtual audio system and techniques
US6829018B2 (en) 2001-09-17 2004-12-07 Koninklijke Philips Electronics N.V. Three-dimensional sound creation assisted by visual information
US7257231B1 (en) 2002-06-04 2007-08-14 Creative Technology Ltd. Stream segregation for stereo signals
US8139797B2 (en) * 2002-12-03 2012-03-20 Bose Corporation Directional electroacoustical transducing
FI118247B (fi) 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
US8019102B2 (en) * 2004-10-01 2011-09-13 Panasonic Corporation Acoustic adjustment device and acoustic adjustment method
DE102005033238A1 (de) * 2005-07-15 2007-01-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ansteuern einer Mehrzahl von Lautsprechern mittels eines DSP
US20070050441A1 (en) 2005-08-26 2007-03-01 Step Communications Corporation,A Nevada Corporati Method and apparatus for improving noise discrimination using attenuation factor
US8712061B2 (en) * 2006-05-17 2014-04-29 Creative Technology Ltd Phase-amplitude 3-D stereo encoder and decoder
US20090060208A1 (en) * 2007-08-27 2009-03-05 Pan Davis Y Manipulating Spatial Processing in a Audio System

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5940118A (en) * 1997-12-22 1999-08-17 Nortel Networks Corporation System and method for steering directional microphones
US20040037436A1 (en) * 2002-08-26 2004-02-26 Yong Rui System and process for locating a speaker using 360 degree sound source localization
US20070127753A1 (en) * 2003-04-09 2007-06-07 Feng Albert S Systems and methods for interference suppression with directional sensing patterns

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103650536A (zh) * 2011-07-01 2014-03-19 杜比实验室特许公司 上混合基于对象的音频
CN103650536B (zh) * 2011-07-01 2016-06-08 杜比实验室特许公司 上混合基于对象的音频
CN104303522A (zh) * 2012-05-07 2015-01-21 杜比国际公司 用于布局与格式独立的三维音频再现的方法和装置
US9378747B2 (en) 2012-05-07 2016-06-28 Dolby International Ab Method and apparatus for layout and format independent 3D audio reproduction
CN104303522B (zh) * 2012-05-07 2017-04-19 杜比国际公司 用于布局与格式独立的三维音频再现的方法和装置
CN103475974A (zh) * 2012-06-06 2013-12-25 西门子医疗器械公司 用于聚焦助听器的波束形成器的方法
US9805726B2 (en) 2012-11-15 2017-10-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Segment-wise adjustment of spatial audio signal to different playback loudspeaker setup
CN104919822A (zh) * 2012-11-15 2015-09-16 弗兰霍菲尔运输应用研究公司 对不同重放扬声器组的空间音频信号的分段式调整
CN104919822B (zh) * 2012-11-15 2017-07-07 弗劳恩霍夫应用研究促进协会 对不同重放扬声器组的空间音频信号的分段式调整
CN104735582A (zh) * 2013-12-20 2015-06-24 华为技术有限公司 一种声音信号处理方法、装置及设备
CN104735582B (zh) * 2013-12-20 2018-09-07 华为技术有限公司 一种声音信号处理方法、装置及设备
US10425763B2 (en) 2014-01-03 2019-09-24 Dolby Laboratories Licensing Corporation Generating binaural audio in response to multi-channel audio using at least one feedback delay network
CN107770718B (zh) * 2014-01-03 2020-01-17 杜比实验室特许公司 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
CN107770718A (zh) * 2014-01-03 2018-03-06 杜比实验室特许公司 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
US11582574B2 (en) 2014-01-03 2023-02-14 Dolby Laboratories Licensing Corporation Generating binaural audio in response to multi-channel audio using at least one feedback delay network
US11212638B2 (en) 2014-01-03 2021-12-28 Dolby Laboratories Licensing Corporation Generating binaural audio in response to multi-channel audio using at least one feedback delay network
US10771914B2 (en) 2014-01-03 2020-09-08 Dolby Laboratories Licensing Corporation Generating binaural audio in response to multi-channel audio using at least one feedback delay network
US10555109B2 (en) 2014-01-03 2020-02-04 Dolby Laboratories Licensing Corporation Generating binaural audio in response to multi-channel audio using at least one feedback delay network
CN110415712B (zh) * 2014-06-27 2023-12-12 杜比国际公司 用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法
CN110415712A (zh) * 2014-06-27 2019-11-05 杜比国际公司 用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法
CN105323684A (zh) * 2014-07-30 2016-02-10 索尼公司 声场合成近似方法、单极贡献确定装置及声音渲染系统
CN105323684B (zh) * 2014-07-30 2018-02-27 索尼公司 声场合成近似方法、单极贡献确定装置及声音渲染系统
US9749769B2 (en) 2014-07-30 2017-08-29 Sony Corporation Method, device and system
US11039264B2 (en) 2014-12-23 2021-06-15 Ray Latypov Method of providing to user 3D sound in virtual environment
CN107211180A (zh) * 2015-01-21 2017-09-26 微软技术许可有限责任公司 用于具有相关联的音频内容的对象的空间音频信号处理
TWI790192B (zh) * 2015-06-03 2023-01-21 新加坡商雷蛇(亞太)私人有限公司 耳機裝置及控制耳機裝置之方法
CN112218211A (zh) * 2016-03-15 2021-01-12 弗劳恩霍夫应用研究促进协会 用于生成声场描述的装置、方法或计算机程序
CN112218211B (zh) * 2016-03-15 2022-06-07 弗劳恩霍夫应用研究促进协会 用于生成声场描述的装置、方法或计算机程序
US11272305B2 (en) 2016-03-15 2022-03-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Apparatus, method or computer program for generating a sound field description
CN109314834A (zh) * 2016-06-21 2019-02-05 诺基亚技术有限公司 改进介导现实中声音对象的感知
US10764705B2 (en) 2016-06-21 2020-09-01 Nokia Technologies Oy Perception of sound objects in mediated reality
CN110915240B (zh) * 2017-06-26 2022-06-14 雷.拉蒂波夫 向用户提供交互式音乐创作的方法
CN110915240A (zh) * 2017-06-26 2020-03-24 雷.拉蒂波夫 向用户提供交互式音乐创作的方法
CN109462708B (zh) * 2017-09-06 2021-10-29 森海塞尔电子有限两合公司 用于在多个通信设备之间传送音频信号的通信系统
CN109462708A (zh) * 2017-09-06 2019-03-12 森海塞尔通信公司 用于在虚拟声音环境中在多个通信设备之间传送音频信号的通信系统
CN112673649A (zh) * 2018-07-13 2021-04-16 诺基亚技术有限公司 空间音频增强
US11638112B2 (en) 2018-07-13 2023-04-25 Nokia Technologies Oy Spatial audio capture, transmission and reproduction
US11758349B2 (en) 2018-07-13 2023-09-12 Nokia Technologies Oy Spatial audio augmentation
CN114072761A (zh) * 2019-07-03 2022-02-18 高通股份有限公司 用于控制针对扩展现实体验的音频渲染的用户接口

Also Published As

Publication number Publication date
WO2009056956A1 (en) 2009-05-07
EP2613564A3 (en) 2013-11-06
US8509454B2 (en) 2013-08-13
EP2613564A2 (en) 2013-07-10
EP2208363A1 (en) 2010-07-21
CN101843114B (zh) 2014-08-06
US20090116652A1 (en) 2009-05-07

Similar Documents

Publication Publication Date Title
CN101843114B (zh) 一种聚焦音频信号的方法、装置及集成电路
Frank et al. Producing 3D audio in ambisonics
US10477311B2 (en) Merging audio signals with spatial metadata
US8705750B2 (en) Device and method for converting spatial audio signal
TWI700687B (zh) 用於編碼、解碼、場景處理及與以指向性音訊編碼為基礎之空間音訊編碼有關的其他程序之裝置、方法及電腦程式
Avendano et al. Frequency domain techniques for stereo to multichannel upmix
Avendano et al. A frequency-domain approach to multichannel upmix
CN101341793B (zh) 从立体声信号产生多声道音频信号的方法
CN107071688A (zh) 用于处理音频信号的方法及装置
US11523241B2 (en) Spatial audio processing
Lee Multichannel 3D microphone arrays: A review
US20230096873A1 (en) Apparatus, methods and computer programs for enabling reproduction of spatial audio signals
Geluso Capturing height: the addition of Z microphones to stereo and surround microphone arrays
Benjamin et al. Localization in horizontal-only ambisonic systems
Hollerweger Periphonic sound spatialization in multi-user virtual environments
Braasch A loudspeaker-based 3D sound projection using Virtual Microphone Control (ViMiC)
Frank et al. Case study on ambisonics for multi-venue and multi-target concerts and broadcasts
US11483669B2 (en) Spatial audio parameters
Ahonen et al. Directional analysis with microphone array mounted on rigid cylinder for directional audio coding
Kim et al. Multi-channel audio recording based on superdirective beamforming for portable multimedia recording devices
Ahonen Microphone configurations for teleconference application of directional audio coding and subjective evaluation
Cobos et al. Interactive enhancement of stereo recordings using time-frequency selective panning
Ois Salmon et al. A Comparative Study of Multichannel Microphone Arrays Used in Classical Music Recording
Ahonen et al. Speech intelligibility in teleconference application of directional audio coding
TWI752487B (zh) 三維聲場生成系統及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160205

Address after: Espoo, Finland

Patentee after: Technology Co., Ltd. of Nokia

Address before: Espoo, Finland

Patentee before: Nokia Oyj

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140806

Termination date: 20191029