CN111819862A - 音频编码设备和方法 - Google Patents

音频编码设备和方法 Download PDF

Info

Publication number
CN111819862A
CN111819862A CN201880090899.7A CN201880090899A CN111819862A CN 111819862 A CN111819862 A CN 111819862A CN 201880090899 A CN201880090899 A CN 201880090899A CN 111819862 A CN111819862 A CN 111819862A
Authority
CN
China
Prior art keywords
format
direct sound
audio
signal
sound signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880090899.7A
Other languages
English (en)
Other versions
CN111819862B (zh
Inventor
穆罕默德·塔吉扎德
克里斯托弗·富勒
亚历克西斯·法夫罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN111819862A publication Critical patent/CN111819862A/zh
Application granted granted Critical
Publication of CN111819862B publication Critical patent/CN111819862B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/21Direction finding using differential microphone array [DMA]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Otolaryngology (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

提供了一种用于编码来自N个麦克风(2)的N个音频信号的方法和设备(3),其中N≥3。估计所述N个音频信号中的每一对音频信号的直接声音的入射角。通过为每个估计的角分别导出一个A格式的直接声音信号,来为所述估计的多个入射角导出多个A格式的直接声音信号。每个A格式的直接声音信号为一阶虚拟麦克风信号,例如心形信号。

Description

音频编码设备和方法
技术领域
本发明涉及音频录制和编码,尤其涉及虚拟现实应用,特别是小型便携式设备提供的虚拟现实应用。
背景技术
虚拟现实(virtual reality,VR)声音录制通常需要是Ambisonic B格式并需要昂贵的指向性麦克风。专业音频麦克风既可以录制A格式并将其编码为Ambisonic B格式,也可以直接录制Ambisonic B格式,例如使用声场麦克风。一般情况下,VR的技术的难点在于在移动设备上部署全向麦克风来捕捉声音。
在给定全向麦克风分布情况下,一种产生Ambisonic B格式的信号的方法是基于差分麦克风阵列,即,应用延迟和添加波束成形,以导出A格式的一阶虚拟麦克风(例如心形)信号。
该技术的第一个限制是其空间混叠,该技术通过设计减小带宽,以使频率f在以下范围:
Figure BDA0002669807420000011
其中c表示声速,dmic表示一对全向麦克风之间的距离。第二个缺点来自高阶Ambisonic B格式对麦克风的需求。所需的麦克风数量和它们的位置不再适合移动设备。
另一种通过全向麦克风产生Ambisonic B格式的信号的方法是通过分布足够密集的麦克风,在空间中的录制点采样声场。然后将这些采样的声音信号转换成球谐波,并可以进行线性组合,最终产生B格式的信号。
这些方法的主要限制是所需的麦克风数量较多。对于消费类应用,由于麦克风数量较少(一般最多6个),线性处理太有限,导致低频出现信噪比(signal to noise ratio,SNR)问题,高频出现混叠。
方向性音频编码(Directional Audio Coding,DirAc)是空间声音表示的又一种方法,但它不产生B格式的信号。相反,该方法读取一阶B格式的信号,产生多个相关的音频参数(波达方向、扩散),并将所述音频参数添加到一个全向音频声道。之后,解码器获取上述信息,并将其转换为多声道音频信号,其中,通过幅度平移来获得直接声音,通过去相关来获得扩散声音。
因此DirAc是一种不同的技术,该技术采用B格式作为输入并将其呈现为自己的音频格式。
发明内容
因此,需要提供一种允许产生Ambisonic B格式的声音信号,同时只需要较少数量的麦克风并实现高输出音质的音频编码设备和方法。
该目标通过权利要求1中的所述装置的特征和权利要求14中的相关方法的特征来实现。该目标还通过权利要求15中的相关计算机程序来实现。从属权利要求可进一步扩展。
根据本发明第一方面,提供了一种用于编码来自N个麦克风的N个音频信号的音频编码设备,其中N≥3。所述设备包括:延迟估计器,所述延迟估计器用于通过估计所述N个音频信号中的每一对音频信号的直接声音的入射角来估计直接声音的入射角;和波束导出器,所述波束导出器用于通过为每个估计的入射角分别导出一个A格式的直接声音信号,来为所述估计的多个入射角导出多个A格式的直接声音信号,每个A格式的直接声音信号是一阶虚拟麦克风信号,特别是心形信号。这样通过较少的硬件确定A格式的直接声音信号。
根据第一方面的一种实现方式,所述设备还包括编码器,所述编码器用于通过对所述A格式的直接声音信号应用变换矩阵,将所述A格式的直接声音信号编码成一阶Ambisonic B格式的直接声音信号。这样通过非常少的数量的麦克风产生Ambisonic B格式的信号,但仍然可以实现高输出音质。
根据第一方面的一种实现方式,N=3。所述音频编码设备还包括短时傅里叶变换器,用于对N个音频信号x1、x2、x3中的每个音频信号进行短时傅里叶变换,以得到N个短时傅里叶变换音频信号X1[k,i]、X2[k,i]、X3[k,i]。然后,所述延迟估计器用于根据以下公式确定短时傅里叶变换音频信号中的每一对音频信号的交叉频谱:
Figure BDA0002669807420000021
Figure BDA0002669807420000022
Figure BDA0002669807420000023
根据以下公式确定短时傅里叶变换音频信号中的每一对音频信号的复合交叉频谱的夹角:
Figure BDA0002669807420000024
Figure BDA0002669807420000025
Figure BDA0002669807420000026
Figure BDA0002669807420000027
执行相位展开,得到Ψ12、Ψ13、Ψ23
根据以下公式估计以样点数量表示的延迟:
δ12[k,i]=(NSTFT/2+1)/(iπ)ψ12[k,i],
δ13[k,i]=(NSTFT/2+1)/(iπ)ψ13[k,i],
δ23[k,i]=(NSTFT/2+1)/(iπ)ψ23[k,i],i≤ialias
δ12[k,i]=(NSTFT/2+1)/(iπ)Ψ12[k,i],
δ13[k,i]=(NSTFT/2+1)/(iπ)Ψ13[k,i],
δ23[k,i]=(NSTFT/2+1)/(iπ)Ψ23[k,i],i>ialias
根据以下公式估计以秒表示的延迟:
Figure BDA0002669807420000028
Figure BDA0002669807420000029
Figure BDA00026698074200000210
根据以下公式估计入射角:
Figure BDA0002669807420000031
Figure BDA0002669807420000032
Figure BDA0002669807420000033
其中
x1为所述N个音频信号中的第一音频信号,
x2为所述N个音频信号中的第二音频信号,
x3为所述N个音频信号中的第三音频信号,
X1为第一短时傅里叶变换后的音频信号,
X2为第二短时傅里叶变换后的音频信号,
X3为第三短时傅里叶变换后的音频信号,
k为所述短时傅里叶变换后的音频信号的帧,
i为所述短时傅里叶变换后的音频信号的频点,
X12为X1和X2对的交叉频谱,
X13为X1和X3对的交叉频谱,
X23为X2和X3对的交叉频谱,
αX为遗忘因子,
X*为X的共轭复数,
i为虚数单位,
Figure BDA0002669807420000034
为复合交叉频谱X12的夹角,
Figure BDA0002669807420000035
为复合交叉频谱X13的夹角,
Figure BDA0002669807420000036
为复合交叉频谱X23的夹角,
ialias为混叠频率对应的频点,
fs为采样频率,
dmic为麦克风的距离,
c为声速,简单高效地确定延迟。
根据第一方面的另一实现方式,所述波束导出器用于根据以下公式确定心形方向性响应:
Figure BDA0002669807420000037
Figure BDA0002669807420000038
Figure BDA0002669807420000039
根据以下公式导出所述A格式的直接声音信号:
A12[k,i]=D12[k,i]X1[k,i],
A13[k,i]=D13[k,i]X1[k,i],
A23[k,i]=D23[k,i]X1[k,i],
其中
D为心形方向性响应,
A为A格式的直接声音信号,简单高效地确定波束信号。
根据第一方面的另一实现方式,所述编码器用于根据以下公式将所述A格式的直接声音信号编码为所述一阶Ambisonic B格式的直接声音信号:
Figure BDA0002669807420000041
其中
RW为第一零阶Ambisonic B格式的直接声音信号,
Rx为第一一阶Ambisonic B格式的直接声音信号,
Ry为第二一阶Ambisonic B格式的直接声音信号,
Γ-1为转换矩阵,简单高效地确定波束信号。
根据第一方面的另一实现方式,所述设备包括:波达方向估计器,所述波达方向估计器用于根据所述一阶Ambisonic B格式的直接声音信号估计波达方向;高阶Ambisonic编码器,所述高阶Ambisonic编码器用于使用所述一阶Ambisonic B格式的直接声音信号和所述估计的波达方向对高阶Ambisonic B格式的直接声音信号进行编码,其中所述高阶Ambisonic B格式的直接声音信号的阶数大于1。因此,有效地实现了对Ambisonic B格式的直接声音信号的编码。
根据第一方面的另一实现方式,所述波达方向估计器用于根据以下公式估计所述波达方向:
Figure BDA0002669807420000042
其中
θXY[k,i]是帧为k和频点为i时的直接声音的波达方向,简单高效地确定波达方向。
根据第一方面的另一实现方式,所述高阶Ambisonic B格式的直接声音信号包括限于二维的二阶Ambisonic B格式的直接声音信号,所述高阶Ambisonic编码器用于根据以下公式对所述二阶Ambisonic B格式的直接声音信号进行编码:
Figure BDA0002669807420000043
Figure BDA0002669807420000044
Figure BDA0002669807420000045
Figure BDA0002669807420000046
Figure BDA0002669807420000047
其中
RR为第一二阶Ambisonic B格式的直接声音信号,
RS为第二二阶Ambisonic B格式的直接声音信号,
RT为第三二阶Ambisonic B格式的直接声音信号,
RU为第四二阶Ambisonic B格式的直接声音信号,
RV为第五二阶Ambisonic B格式的直接声音信号,
Figure BDA0002669807420000051
表示“定义为”,
φ为仰角,
θ为方位角,从而高效地对高阶Ambisonic B格式的信号进行编码。
根据第一方面的另一实现方式,所述音频编码设备包括麦克风匹配器,所述麦克风匹配器用于对N个频域音频信号进行匹配,得到N个匹配的频域音频信号。这样进一步提升输出信号的质量。
根据第一方面的另一实现方式,所述音频编码设备包括扩散声音估计器,用于估计扩散声音功率去相关滤波器组,用于通过从所述扩散声音估计功率中产生三个正交扩散声音分量来对所述扩散声音功率执行去相关。这样将扩散声音实现到输出信号中。
根据第一方面的另一实现方式,所述扩散声音估计器用于根据以下公式估计所述扩散声音功率:
Figure BDA0002669807420000052
Figure BDA0002669807420000053
Figure BDA0002669807420000054
Figure BDA0002669807420000055
其中
Pdiff为扩散声音功率,
E{}为期望值,
Figure BDA0002669807420000056
为N1与N2之间的归一化互相关系数,
N1为第一声道的扩散声音,
N2为第二声道的扩散声音,高效地估计扩散声音功率。
根据第一方面的另一实现方式,所述去相关滤波器组用于通过从所述扩散声音估计功率中产生三个正交扩散声音分量来对所述扩散声音功率执行去相关
Figure BDA0002669807420000057
Figure BDA0002669807420000058
Figure BDA0002669807420000059
其中
Figure BDA00026698074200000510
RX(θ,φ)=cosφcosθ
RY(θ,φ)=cosφsinθ
RW(θ,φ)=1
Figure BDA00026698074200000511
其中-lu<n<lu
Figure BDA00026698074200000512
为第一声道扩散声音分量,
Figure BDA00026698074200000513
为第二声道扩散声音分量,
Figure BDA0002669807420000061
为第三声道扩散声音分量,
DFRW为所述第一声道的扩散场响应,
DFRX为所述第二声道的扩散场响应,
DFRY为所述第三声道的扩散场响应,
wu为指数窗口,
RT60为混响时间,
U1、U2、U3为去相关滤波器组,
u为高斯噪声序列,
lu为高斯噪声序列的给定长度,
P2D-diff为所述扩散噪声功率。因此,计算了扩散声音功率的高效去相关方法。
根据第一方面的另一实现方式,所述音频编码设备包括相加器,所述相加器用于按声道添加所述一阶Ambisonic B格式的直接声音信号和所述高阶Ambisonic B格式的直接声音信号,和/或所述扩散声音信号,得到完整的Ambisonic B格式的信号。因此,通过简单的方式产生了完整的输出信号。
根据本发明第二方面,提供了一种包括N个麦克风的音频录制设备,所述N个麦克风用于录制N个音频信号;和一种根据第一方面或第一方面的任一实现方式所述的音频编码设备。这样在单个设备中进行音频录制和编码。
根据本发明第三方面,提供了一种用于编码来自N个麦克风的N个音频信号的方法,其中N≥3。该方法包括:通过估计所述N个音频信号中的每一对音频信号的直接声音的入射角来估计直接声音的入射角;通过为每个估计的入射角分别导出一个A格式的直接声音信号,来为所述估计的多个入射角导出多个A格式的直接声音信号,每个A格式的直接声音信号是一阶虚拟麦克风信号。这样通过较少的硬件确定A格式的直接声音信号。
根据第三方面的一种实现方式,所述方法还包括通过对所述A格式的直接声音信号应用至少一个变换矩阵,将所述A格式的直接声音信号编码成一阶Ambisonic B格式的直接声音信号,简单高效地确定Ambisonic B格式的直接声音信号。
所述方法还可以包括通过从一阶Ambisonic B格式的直接声音信号中提取波达方向来提取高阶Ambisonic B格式的直接声音信号。
根据本发明第四方面,提供了一种具有用于执行根据第三方面所述的方法的程序代码的计算机程序。
特别地,提出了一种通过以下方式将多个全向麦克风信号参数化编码为任意阶Ambisonic B格式的方法:
·基于麦克风对波束信号的声音入射角的鲁棒估计
·扩散声音的去相关
该方法基于移动设备上的至少三个全向麦克风。接着,该方法通过不同麦克风对之间的延迟估计来估计直接声音的入射角。给定直接声音的入射,该方法导出波束信号,称为直接声音A格式的信号。然后,使用相关变换矩阵将直接声音A格式的信号编码成一阶B格式。
对于可选的高阶B格式,从一阶B格式的信号X和Y导出波达方向估计。扩散的、非指向性的声音可选地呈现为多个正交分量,所述正交分量使用去相关滤波器产生。
通常,应注意,本申请中描述的所有装置、设备、元件、单元以及器件等都可以由软件或硬件元件或其任意种类的组合实现。此外,所述设备可以是处理器或可以包括处理器,其中本申请中描述的元件、单元和器件的功能可以在一个或多个处理器中实现。本申请中描述的各种实体执行的所有步骤和所描述的将由各种实体执行的功能旨在表明各个实体适于或用于执行各自的步骤和功能。虽然在以下具体实施例的描述中,由一般实体执行的特定功能或步骤没有在执行特定步骤或功能的该实体的具体元件的描述中反映,但是技术人员应清楚的是这些方法和功能可以在各自的硬件或软件元件或其任意种类的组合中实现。
附图说明
下面参考附图结合本发明的实施例详细阐述本发明,在附图中
图1示出了本发明第一方面提供的音频编码设备和本发明第二方面提供的音频录制设备的第一实施例;
图2示出了本发明第一方面提供的音频编码设备和本发明第二方面提供的音频录制设备的第二实施例;
图3示出了确定声音事件的入射角的图中的一对麦克风;
图4示出了本发明第二方面提供的音频录制设备的第三实施例;
图5示出了二维图中A格式的直接声音信号;
图6示出了二维图中B格式的直接声音信号;
图7示出了两个麦克风接收的扩散声音;
图8示出了二维图中的直接声音和扩散声音。
图9示出了第一方面的第四实施例提供的音频编码设备使用的去相关滤波器的示例;
图10以流程图示出了本发明第三方面的实施例。
具体实施方式
首先,图1示出了本发明第一方面和第二方面的实施例的构造和一般功能。图2至图9详细示出了第一实施例和第二实施例的构造和功能。最后,图10详细描述了本发明第三方面的实施例的功能。不同图中的类似实体和附图标记已部分省略。
图1示出了音频编码设备3的第一实施例。此外,还示出了本发明第二方面提供的音频录制设备1的第一实施例。
所述音频录制设备1包括N≥3个麦克风2,所述麦克风2连接到所述音频编码设备3。所述音频编码设备3包括延迟估计器11,所述延迟估计器11连接到所述麦克风2。此外,所述音频编码设备3包括波束导出器12,所述波束导出器12连接到所述延迟估计器。此外,所述音频编码设备3包括编码器13,所述编码器13连接到所述波束导出器12。应注意,所述编码器13是与本发明第一方面相关的可选部件。
为了确定Ambisonic B格式的直接声音信号,所述麦克风2录制N≥3个音频信号。这些音频信号由集成在所述麦克风2上的组件进行预处理。例如,进行频域变换。这将在图2更详细地示出。将预处理后的音频信号传递给所述延迟估计器11,所述延迟估计器11通过估计所述N个音频信号中的每一对音频信号的直接声音的入射角来估计直接声音的入射角。将这些直接声音的入射角传递给所述波束导引器12,所述波束导引器12从中导出A格式的直接声音信号。每个A格式的直接声音信号都是一阶虚拟麦克风信号,尤其是心形信号。将这些信号传递给所述编码器13,所述编码器13通过对所述A格式的直接声音信号应用变换矩阵,将所述A格式的直接声音信号编码为一阶Ambisonic B格式的直接声音信号。所述编码器输出一阶Ambisonic B格式的直接声音信号。
图2示出了所述音频编码设备3和所述音频录制设备1的第二实施例。这里示出了对应于图1的所述麦克风2的单个麦克风2a、2b、2c。所述麦克风2a、2b、2c中的每一个麦克风连接到短时傅里叶变换器10a、10b、10c,每个短时傅里叶变换器执行N个音频信号的短时傅里叶变换,以得到N个短时傅里叶变换音频信号。将这些信号传递给所述延迟估计器11,所述延迟估计器11执行延迟估计并将所述入射角传递给所述波束导出器12。所述波束导出器12确定所述A格式的直接声音信号,并将所述A格式的直接声音信号传递给所述编码器13,所述编码器13对B格式的直接声音信号进行编码。图2示出了所述音频编码设备3的其它部件。这里,所述音频编码设备3还包括波达方向估计器20,所述波达方向估计器20连接到所述编码器13。所述音频编码设备3还包括高阶Ambisonic编码器21,所述高阶Ambisonic编码器21连接到所述波达方向估计器20。
所述波达方向估计器20根据所述一阶Ambisonic B格式的直接声音信号估计波达方向,并将所述波达方向传递给所述高阶Ambisonic编码器21。所述高阶Ambisonic编码器21使用所述一阶Ambisonic B格式的直接声音信号和所述估计的波达方向作为输入,对所述高阶Ambisonic B格式的直接声音信号进行编码。所述高阶Ambisonic B格式的直接声音信号的阶数大于1。
此外,所述音频编码设备3包括麦克风匹配器30,所述麦克风匹配器30将所述短时傅里叶变换器10a、10b、10c输出的N个频域音频信号进行匹配,得到N个匹配频域音频信号。所述音频编码设备3连接到所述麦克风匹配器30,所述音频编码设备3还包括扩散声音估计器31,所述扩散声音估计器31用于基于所述N个匹配频域音频信号估计扩散声音功率。此外,所述音频编码设备3包括去相关滤波器组32,所述去相关滤波器组32连接到所述扩散声音估计器31,并用于通过从所述扩散声音估计功率中产生三个正交扩散声音分量来执行扩散声音功率的去相关。
最后,所述音频编码设备3包括相加器40,所述相加器40添加所述编码器13提供的一阶B格式的直接声音信号、所述高阶编码器21提供的高阶Ambisonic B格式的信号以及所述去相关滤波器组32提供的扩散声音分量。将和信号传递给短时逆傅里叶变换器41,由所述短时逆傅里叶变换器41进行短时傅里叶逆变换,在时域上实现最终的Ambisonic B格式的信号。
下文中,图3至图9详细描述了关于图2中示出的各个组件的功能。
图3示出了所述延迟估计器11确定的入射角。
特别地,在图3中考虑了沿着从声源到自由场中的一对麦克风的射线的直接声音的传播。
图4以二维图示出了音频录制设备1的示例。所述三个麦克风2a、2b和2c示出为在它们的实际物理位置。
下面的算法基于两个麦克风信号x1和x2之间的互相关估计直接声音的入射角,并导出参数化增益滤波器以产生在特定方向聚焦的波束。
在两个录制麦克风之间,在每个时频片进行相位估计。利用NSTFT点短时傅里叶变换(short-time Fourier transform,STFT)获得所述麦克风信号的麦克风时频表示X1和X2。从交叉频谱可以导出所述两个麦克风之间的延迟关系。
Figure BDA0002669807420000081
其中*表示复共轭算符。αX通过以下公式确定:
Figure BDA0002669807420000091
其中,TX是以秒为单位的平均时间常数,fs为采样频率。相位响应定义为复合交叉频谱X12的夹角,所述夹角通过所述复合交叉频谱的虚部和实部的比值导出:
Figure BDA0002669807420000092
其中,j为虚数单位,满足j2=-1。
但是,与时序采样中的奈奎斯特频率类似,麦克风阵列对最小空间采样率也有限制。使用两个麦克风时,最小的兴趣波长通过以下公式给出:
λalias=2dmic, (5)
对应的最高频率如下:
Figure BDA0002669807420000093
在最高频率,相位估计是明确的。高于这个频率时,所测量的相位仍然根据(4)获得,但是带有一个与整数l和2π相关的不定项:
Figure BDA0002669807420000094
由于所述阵列的所述两个麦克风之间的最大行进时间通过dmic/c获得,所以整数l的界由以下公式定义:
Figure BDA0002669807420000095
根据等式(8)提出了一种高频扩展来约束展开算法。所述展开的目的是,当两个连续元素
Figure BDA0002669807420000096
之间的绝对跳变大于或等于π的跳变容限时,通过增加2π的l[k,i]倍来校正相位角
Figure BDA0002669807420000097
通过将倍数l限制在它们的物理可能值内而获得估计的展开相位ψ12。最后,即使所述相位在高频混叠,其斜率仍遵循与低频延迟估计相同的原理。为了对延迟进行估计,然后只需在多个频点上对所述展开的相位ψ12进行积分,从而导出其延迟斜率。
Figure BDA0002669807420000098
其中,Nhf表示对相位进行积分的频带宽度。
对于每个频点i,除以相应的物理频率,从之前导出的相位获得以样点数量表示的延迟δ12[k,i]
δ12[k,i]=(NSTFT/2+1)/(iπ)ψ12[k,i]i≤ialias
否则
δ12[k,i]=(NSTFT/2+1)/(iπ)Ψ12[k,i], (10)
其中,ialias为混叠频率(1)对应的频点。秒延迟为:
Figure BDA0002669807420000099
导出的延迟直接与声源发出的声音的入射角有关,如图2所示。给定两个麦克风之间的行进时间延迟,得到的入射角θ12[k,i]为:
Figure BDA0002669807420000101
其中dmic为两个麦克风之间的距离,c为空气中声速。
在自由场中,对于直接声音,指向阵列一侧的心形麦克风的方向性响应构建为所述估计的入射角的函数。
Figure BDA0002669807420000102
通过将增益D应用于输入频谱X1,可以从输入麦克风信号的直接声音中恢复出虚拟心形信号。这对应于所述波束估计器12的功能。
图5以二维图示出了基于三个麦克风对的三个心形信号,所述三个心形信号示出了各自的增益。
图6以二维图示出了Ambisonic B格式的直接声音信号的增益。
下面介绍A格式的直接声音信号到B格式的直接声音信号的转换。这与所述编码器13的功能相对应。
下表列出了Ambisonic B格式的声道及其至三阶的球面表示D(θ,φ),用施密特半归一化(SN3D)进行归一化,其中θ和φ分别为方位角和仰角:
Figure BDA0002669807420000103
这些球谐函数构成了一组正交基函数,并可以用来描述球面上的任何函数。
在不失一般性的情况下,考虑三个麦克风(即麦克风的最少数量),并将它们放置在水平XY平面中,例如,如图3所示,将它们放置在移动设备的边缘处,坐标为
Figure BDA0002669807420000117
Figure BDA0002669807420000118
所述三个可能的无序麦克风对定义为:
·第1对Δ=mic2→mic1
·第2对Δ=mic3→mic2
·第3对Δ=micl→mic3
X轴定义观查方向(Θ=0),它们的方向向量为:
Figure BDA0002669807420000111
Figure BDA0002669807420000112
在水平面中每一对的方向是
Figure BDA0002669807420000113
麦克风间距:
Figure BDA0002669807420000114
通过入射角估计得到的增益(13)应用于每一对,导致心形方向性响应。
Figure BDA0002669807420000119
产生的三个心形分别指向
Figure BDA00026698074200001110
Figure BDA00026698074200001111
三个方向,定义了相应的A格式表示,如图4所示。
假设得到的心形是一致的,则可以通过谱
Figure BDA00026698074200001112
的线性组合来计算相应的一阶Ambisonic B格式的信号。Ambisonic B格式到A格式的转换实现如下
Figure BDA0002669807420000115
(18)的逆矩阵可以将所述心形转换成Ambisonic B格式,
Figure BDA0002669807420000116
一阶Ambisonic B格式归一化方向性响应,RW、RX和RY如图5所示,其中RW对应于单极子,而信号RX和RY对应两个正交的偶极子。
下面,描述高阶Ambisonic B格式的信号的确定方法。这对应于所述波达方向估计器20和所述高阶Ambisonic编码器21的功能。
之前导出的所述直接声音的一阶Ambisonic B格式的信号RW、RX和RY,没有计算声音的显示波达方向(direction of arrival,DOA)。相反,这三个信号RW、RX和RY的方向性响应是从(17)中的A格式的心形信号获得的。
为了获得更高阶(例如,二阶和三阶)Ambisonic B格式的信号,基于两个一阶Ambisonic B格式的信号RX和RY导出显示DOA:
Figure BDA0002669807420000121
同样,假设水平面内(φ=0)有三个全向麦克风,则表中Ambisonic定义中所定义的兴趣声道仅限于:
·0阶:W
·1阶:X、Y
·2阶:R、U、V
·3阶:L、M、P、Q
其它声道由于通过sinφ(其中φ=0)调制,因此为空。因此,对于以上列出的每个声道,通过用估计的DOAΘXY替换方位角Θ来导出方向性响应。例如,考虑二阶(假设无仰角,即φ=0):
Figure BDA0002669807420000122
由此产生的Ambisonic声道,RR、RU、RV、RL、RM、RP和RQ,只包含声场的直接声音分量。
现在描述对扩散声音的处理。这对应于图2的所述扩散声音估计器31和去相关滤波器组32。
图7示出了两个麦克风的位置和来自声源的直接声音和全向扩散声音。
图8示出了对直接声音的声源的方向性响应。此外,还示出了全向扩散声音。
之前对Ambisonic B格式的信号的导出,只有在直接声音的假设下才有效。扩散声音不适用。下面给出一种获得Ambisonic B格式的信号等效扩散声音的方法。考虑到在直接声音和一些早期反射之后的时间较长,许多反射本身在空间中被反射,形成一个扩散声场。如图7所示,扩散声场在数学上可理解为具有相同能量和来自各个方向的独立声音。
假设X1和X2可以建模为
X1[k,i]=S[k,i]+N1[k,i],
X2[k,i]=a[k,i]S[k,i]+N2[k,i], (22)
其中,a[k,i]为增益因子,S[k,i]为左声道的直接声音,N1[k,i]和N2[k,i]表示扩散声音。
从(22)得出
Figure BDA0002669807420000131
可以合理地假设,两个麦克风信号中的扩散声音量是相同的,即
Figure BDA0002669807420000132
此外,N1和N2之间的归一化互相关系数表示为diff,并且可以通过库克公式获得:
Figure BDA0002669807420000133
其中
Figure BDA0002669807420000134
最终(23)可以改写为
Figure BDA0002669807420000137
消去(25)中的E{SS*}和a得到二次方程
AE{NN*}2+BE{NN*}+C=0 (26)
其中
Figure BDA0002669807420000135
然后,扩散声音的功率估计,表示为Pdiff,是(26)的两种解中的一种解,该解是物理上可能的一种解((26)的另一种解会产生比麦克风信号功率大的扩散声音功率,这在物理上这是不可能的,所以舍弃),即
Figure BDA0002669807420000136
应注意,直接地,直接声音的成分可以计算为
Figure BDA0002669807420000138
这对应于扩散声音估计器31的功能。
根据定义,所述Ambisonic B格式的信号是将声场投射到上表中定义的球谐基上而得到的。数学上,投影对应于球谐声场信号在球谐波上的积分。
如图7所示,由于球谐基的正交特性,将来自各个方向的数学上独立的声音投射到该基会产生三个正交分量:
DW⊥DX⊥DY (30)
应注意,该特性对直接声音不再适用,因为仅从投射到同一基上的一个方向发射的声源将产生与声源入射角处的方向性响应相等的单个增益,从而产生非正交分量,或称为相关分量RW、RX和RY
但是,在这里,考虑到三个全向麦克风的分布,所有三个麦克风(或所有三个麦克风对)的单个扩散声音估计(28)是等效的。因此,不可能恢复Ambisonic B格式的信号的本地扩散声音分量,即RW、DX和DY,因为它们将通过扩散声场投射到球谐基而分别获得。
另一种替代方案不用获取精确的Ambisonic B格式的扩散声音信号,而是从单个已知扩散声音估计Pdiff产生三个正交扩散声音分量。这样,即使扩散声音分量与通过投射获得的本地Ambisonic B格式不对应,也保留了正交性(启用本地化和空间化)的感知上最重要的特性。这可以通过使用去相关滤波器来实现。
所述去相关滤波器从给定长度lu的高斯噪声序列u中导出。应用于该序列的Gram-Schmidt过程导致Nu个正交序列
Figure BDA0002669807420000141
所述正交序列用作滤波器,以产生Nu个正交扩散声音。上面描述的三个麦克风案例中,Nu=3。
给定噪声高斯噪声序列u的长度lu,对所述去相关滤波器进行整形,使得它们随着时间具有指数衰减,类似于房间的混响。因此,所述序列
Figure BDA0002669807420000142
与时间常数对应于混响时间RT60的指数窗口wu相乘:
Figure BDA0002669807420000143
图9示出了图2的去相关滤波器组32的滤波器的滤波器响应。特别描述了这种滤波器的时间常数。
图9示出的去相关滤波器的指数衰减将直接影响B格式的信号中的扩散声音分量。长时间的衰减会大大提高最终的B格式中的扩散声音成分,但将确保更好地分离三个扩散声音分量。
最终,产生的去相关滤波器通过它们对应的Ambisonic B格式声道的扩散场响应进行调制。这样,每个Ambisonic B格式声道的扩散声音量与自然B格式录制的扩散声音量相匹配。扩散场响应(diffuse-field response,DFR)是相应球谐方向性响应的平方成分的平均值,考虑所有方向,即,
Figure BDA0002669807420000144
在三个麦克风的情况下(Nu=3),所得去相关滤波器是
Figure BDA0002669807420000145
这样,保留了所有三个扩散声音之间的正交特性,任何使用所产生的B格式的进一步处理也将在扩散声音上起作用,即,使用传统的Ambisonic解码。
最终,直接声音成分和扩散声音成分必须混合在一起,以产生完整的Ambisonic B格式。给定假设的信号模型,根据定义,直接声音和扩散声音也是正交的。因此,通过直接添加获得完整的Ambisonic B格式的信号:
Figure BDA0002669807420000146
该添加由图2的相加器40执行。
该添加之后,只由所述短时逆傅里叶变换器41执行短时傅里叶逆变换,以实现B格式的Ambisonic信号输出。
最后,图10示出了根据本发明第三方面的音频编码方法的实施例。在第一可选步骤100中,录制至少3个音频信号。在第二步骤101中,通过估计N个音频信号中的每一对音频信号的直接声音的入射角来估计直接声音的入射角。在第三步骤102中,通过为每个估计的入射角分别导出一个A格式的直接声音信号,来导出多个A格式的直接声音信号,每个A格式的直接声音信号是一阶虚拟麦克风信号。在第四步骤103中,通过对所述A格式的直接声音信号应用至少一个变换矩阵,将所述Ambisonic A格式的直接声音信号编码为一阶Ambisonic B格式的直接声音信号。应注意,执行所述编码的第四步骤是本发明第三方面的可选步骤。在另一可选的第五步骤104中,基于从一阶B格式导出的波达方向产生高阶Ambisonic B格式的信号。
应注意,本发明第一方面提供的音频编码设备以及本发明第二方面提供的音频录制设备与本发明第三方面提供的音频编码方法密切相关。因此,结合图1至9的阐述对于图10示出的音频编码方法也是有效的。
这些编码信号与传统的Ambisonic B格式的信号完全兼容,因此可以作为输入用于Ambisonic B格式解码或任何其它处理。同样的原理也适用于恢复具有直接声音成分和扩散声音成分的高阶Ambisonic B格式的信号。
缩略语和符号
缩略语 定义
VR 虚拟现实
DirAc 方向性音频编码
DOA 波达方向
STFT 短时傅里叶变换
SN3D 施密特半归一化3D
DFR 扩散场响应
SNR 信号噪声比
HOA 高阶Ambisonic
符号 定义
x<sub>1</sub>,x<sub>2</sub> 两个录制的麦克风信号
X<sub>1</sub>[k,i] 帧为k和频点为i的x<sub>1</sub>的STFT
S[k,i] 源信号的STFT
N<sub>1</sub>[k,i] 麦克风1的扩散噪声音
α<sub>X</sub> 遗忘因子
T<sub>X</sub> 平均时间常数
X<sub>12</sub>[k,i] 两个麦克风信号1和2的交叉频谱
Figure BDA0002669807420000161
本发明不局限于所述示例,尤其不局限于特定数量的麦克风。可以用任何有利的组合使用示例性实施例的特性。
在此结合各种实施例描述了本发明。然而,根据对附图、本发明和所附权利要求书的研究,本领域技术人员在实践所要求保护的发明时,能够理解和实现所公开实施例的其它变化。在权利要求书中,词语“包括”不排除其它元件或步骤,术语“一”或者“一个”不排除多个。单个处理器或其它单元可满足权利要求中描述的几项的功能。在仅凭某些措施被记载在通常不同的从属权利要求书中这个单纯的事实并不意味着这些措施的结合不能被有效地使用。计算机程序可存储或分发到合适的介质上,例如与其它硬件一起或者作为其它硬件的部分提供的光存储介质或者固态介质,还可以以其它形式例如通过因特网或者其它有线或无线电信系统分发。

Claims (16)

1.一种音频编码设备(3),其特征在于,所述音频编码设备(3)用于编码来自N个麦克风的N个音频信号,其中N≥3,所述音频编码设备(3)包括:
延迟估计器(11),所述延迟估计器(11)用于通过估计所述N个音频信号中的每一对音频信号的直接声音的入射角来估计直接声音的入射角;
波束导出器(12),所述波束导出器(12)用于通过为每个估计的入射角分别导出一个A格式的直接声音信号来为所述估计的多个入射角导出多个A格式的直接声音信号,每个A格式的直接声音信号是一阶虚拟麦克风信号。
2.根据权利要求1所述的音频编码设备,其特征在于,所述音频编码设备包括编码器(13),所述编码器(13)用于通过对所述多个A格式的直接声音信号应用变换矩阵,将所述多个A格式的直接声音信号编码成一阶Ambisonic B格式的直接声音信号。
3.根据权利要求2所述的音频编码设备(3),其特征在于,
N=3,所述音频编码设备(3)包括短时傅里叶变换器(10a、10b、10c),用于对N个音频信号x1、x2、x3中的每个音频信号进行短时傅里叶变换,以得到N个短时傅里叶变换音频信号X1[k,i]、X2[k,i]、X3[k,i],
所述延迟估计器(11)用于:
根据以下公式确定短时傅里叶变换音频信号中的每一对音频信号的交叉频谱:
Figure FDA0002669807410000011
Figure FDA0002669807410000012
Figure FDA0002669807410000013
根据以下公式确定短时傅里叶变换音频信号中的每一对音频信号的复合交叉频谱的夹角:
Figure FDA0002669807410000014
Figure FDA0002669807410000015
Figure FDA0002669807410000016
Figure FDA0002669807410000017
执行相位展开,以得到Ψ12、Ψ13、Ψ23
根据以下公式估计以样点数量表示的延迟:
δ12[k,i]=(NSTFT/2+1)/(iπ)ψ12[k,i],
δ13[k,i]=(NSTFT/2+1)/(iπ)ψ13[k,i],
δ23[k,i]=(NSTFT/2+1)/(iπ)ψ23[k,i],i≤ialias
δ12[k,i]=(NSTFT/2+1)/(iπ)Ψ12[k,i],
δ13[k,i]=(NSTFT/2+1)/(iπ)Ψ13[k,i],
δ23[k,i]=(NSTFT/2+1)/(iπ)Ψ23[k,i],i>ialias
根据以下公式估计以秒表示的延迟:
Figure FDA0002669807410000021
Figure FDA0002669807410000022
Figure FDA0002669807410000023
根据以下公式估计入射角:
Figure FDA0002669807410000024
Figure FDA0002669807410000025
Figure FDA0002669807410000026
其中
x1为所述N个音频信号中的第一音频信号,
x2为所述N个音频信号中的第二音频信号,
x3为所述N个音频信号中的第三音频信号,
X1为第一短时傅里叶变换后的音频信号,
X2为第二短时傅里叶变换后的音频信号,
X3为第三短时傅里叶变换后的音频信号,
k为所述短时傅里叶变换后的音频信号的帧,
i为所述短时傅里叶变换后的音频信号的频点,
X12为X1和X2对的交叉频谱,
X13为X1和X3对的交叉频谱,
X23为X2和X3对的交叉频谱,
αX为遗忘因子,
X*为X的共轭复数,
j为虚数单位,
Figure FDA0002669807410000027
为复合交叉频谱X12的夹角,
Figure FDA0002669807410000028
为复合交叉频谱X13的夹角,
Figure FDA0002669807410000029
为复合交叉频谱X23的夹角,
ialias为混叠频率对应的频点,
fs为采样频率,
dmic为麦克风(2、2a、2b、2c)的距离,
c为声速。
4.根据权利要求3所述的音频编码设备(3),其特征在于,
所述波束导出器(12)用于:
根据以下公式确定心形方向性响应:
Figure FDA00026698074100000210
Figure FDA0002669807410000031
Figure FDA0002669807410000032
根据以下公式导出所述A格式的直接声音信号:
A12[k,i]=D12[k,i]X1[k,i],
A13[k,i]=D13[k,i]X1[k,i],
A23[k,i]=D23[k,i]X1[k,i],
其中
D为心形方向性响应,
A为A格式的直接声音信号。
5.根据权利要求4所述的音频编码设备(3),其特征在于,
所述编码器(13)用于根据以下公式将所述A格式的直接声音信号编码为所述一阶Ambisonic B格式的直接声音信号:
Figure FDA0002669807410000033
其中
RW为第一零阶Ambisonic B格式的直接声音信号,
Rx为第一一阶Ambisonic B格式的直接声音信号,
Ry为第二一阶Ambisonic B格式的直接声音信号,
Γ-1为转换矩阵。
6.根据权利要求3至5中任一项所述的音频编码设备(3),其特征在于,所述音频编码设备(3)包括:
波达方向估计器(20),所述波达方向估计器(20)用于根据所述一阶Ambisonic B格式的直接声音信号估计波达方向;
高阶Ambisonic编码器(21),用于使用所述一阶Ambisonic B格式的直接声音信号和所述估计的波达方向对高阶Ambisonic B格式的直接声音信号进行编码,其中所述高阶Ambisonic B格式的直接声音信号的阶数大于1。
7.根据权利要求6所述的音频编码设备(3),其特征在于,
所述波达方向估计器(20)用于根据以下公式估计所述波达方向:
Figure FDA0002669807410000034
其中
θXY[K,i]是帧为k和频点为i时的直接声音的波达方向。
8.根据权利要求7所述的音频编码设备(3),其特征在于,
所述高阶Ambisonic B格式的直接声音信号包括限于二维的二阶Ambisonic B格式的直接声音信号,
所述高阶Ambisonic编码器(21)用于根据以下公式对所述二阶Ambisonic B格式的直接声音信号进行编码
Figure FDA0002669807410000041
Figure FDA0002669807410000042
Figure FDA0002669807410000043
Figure FDA0002669807410000044
Figure FDA0002669807410000045
其中
RR为第一二阶Ambisonic B格式的直接声音信号,
RS为第二二阶Ambisonic B格式的直接声音信号,
RT为第三二阶Ambisonic B格式的直接声音信号,
RU为第四二阶Ambisonic B格式的直接声音信号,
Rv为第五二阶Ambisonic B格式的直接声音信号,
Figure FDA0002669807410000046
表示“定义为”,
φ为仰角,
θ为方位角。
9.根据权利要求3至8中任一项所述的音频编码设备(3),其特征在于,所述音频编码设备(3)包括:
麦克风匹配器(30),所述麦克风匹配器(30)用于对N个频域音频信号进行匹配,以得到N个匹配的频域音频信号。
10.根据权利要求9所述的音频编码设备(3),其特征在于,所述音频编码设备(3)包括:
扩散声音估计器(31),用于估计扩散声音功率,
去相关滤波器组(32),用于通过从所述扩散声音估计功率中产生三个正交扩散声音分量来对所述扩散声音功率执行去相关。
11.根据权利要求10所述的音频编码设备(3),其特征在于,
所述扩散声音估计器(31)用于根据以下公式估计所述扩散声音功率:
Figure FDA0002669807410000047
Figure FDA0002669807410000048
Figure FDA0002669807410000049
Figure FDA00026698074100000410
其中
Pdiff为扩散声音功率,
E{}为期望值,
Figure FDA00026698074100000411
为N1与N2之间的归一化互相关系数,
N1为第一声道的扩散声音,
N2为第二声道的扩散声音。
12.根据权利要求11所述的音频编码设备(3),其特征在于,
所述去相关滤波器组(32)用于通过从所述扩散声音估计功率中产生三个正交扩散声音分量来对所述扩散声音功率执行去相关
Figure FDA0002669807410000051
Figure FDA0002669807410000052
Figure FDA0002669807410000053
其中
Figure FDA0002669807410000054
RX(θ,φ)=cosφcosθ
RY(θ,φ)=cosφsinθ
RW(θ,φ)=1
Figure FDA0002669807410000055
其中-lu<n<lu
Figure FDA0002669807410000056
为第一声道扩散声音分量,
Figure FDA0002669807410000057
为第二声道扩散声音分量,
Figure FDA0002669807410000058
为第三声道扩散声音分量,
DFRW为所述第一声道的扩散场响应,
DFRX为所述第二声道的扩散场响应,
DFRY为所述第三声道的扩散场响应,
wu为指数窗口,
RT60为混响时间,
U1、U2、U3为去相关滤波器组(32),
u为高斯噪声序列,
lu为高斯噪声序列的给定长度,
P2D-diff为所述扩散噪声功率。
13.根据权利要求2和7,或2和9,或2和7和9所述的音频编码设备(3),其特征在于,所述音频编码设备(3)包括:
相加器(41),用于按声道交替添加:所述一阶Ambisonic B格式的直接声音信号,和
所述高阶Ambisonic B格式的直接声音信号,和/或
所述扩散的声音信号,
以得到完整的Ambisonic B格式的信号。
14.一种音频录制设备(1),其特征在于,所述音频录制设备(1)包括:N个麦克风(2、2a、2b、2c),所述N个麦克风用于录制N个音频信号;和根据前述权利要求中任一项所述的音频编码设备(3)。
15.一种用于编码来自N个麦克风(2、2a、2b、2c)的N个音频信号的方法,其中N≥3,其特征在于,所述方法包括:
通过估计所述N个音频信号中的每一对音频信号的直接声音的入射角来估计(101)直接声音的入射角,
通过为每个估计的入射角分别导出一个A格式的直接声音信号,来为所述估计的多个入射角导出(102)多个A格式的直接声音信号,每个A格式的直接声音信号是一阶虚拟麦克风信号。
16.一种包括程序代码的计算机程序,其特征在于,当所述计算机程序在计算机上运行时,执行根据权利要求15所述的方法。
CN201880090899.7A 2018-03-14 2018-03-14 音频编码设备和方法 Active CN111819862B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2018/056411 WO2019174725A1 (en) 2018-03-14 2018-03-14 Audio encoding device and method

Publications (2)

Publication Number Publication Date
CN111819862A true CN111819862A (zh) 2020-10-23
CN111819862B CN111819862B (zh) 2021-10-22

Family

ID=61683788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880090899.7A Active CN111819862B (zh) 2018-03-14 2018-03-14 音频编码设备和方法

Country Status (4)

Country Link
US (1) US11632626B2 (zh)
EP (1) EP3753263B1 (zh)
CN (1) CN111819862B (zh)
WO (1) WO2019174725A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112259110A (zh) * 2020-11-17 2021-01-22 北京声智科技有限公司 音频编码方法及装置、音频解码方法及装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10878536B1 (en) 2017-12-29 2020-12-29 Gopro, Inc. Apparatus and methods for non-uniform downsampling of captured panoramic images
BR112021020484A2 (pt) * 2019-04-12 2022-01-04 Huawei Tech Co Ltd Dispositivo e método para obter um sinal ambisônico de primeira ordem
CN114073106B (zh) * 2020-06-04 2023-08-04 西北工业大学 双耳波束形成麦克风阵列

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1737271A1 (en) * 2005-06-23 2006-12-27 AKG Acoustics GmbH Array microphone
EP2738762A1 (en) * 2012-11-30 2014-06-04 Aalto-Korkeakoulusäätiö Method for spatial filtering of at least one first sound signal, computer readable storage medium and spatial filtering system based on cross-pattern coherence
US20150215721A1 (en) * 2012-08-29 2015-07-30 Sharp Kabushiki Kaisha Audio signal playback device, method, and recording medium
CN104904240A (zh) * 2012-11-15 2015-09-09 弗兰霍菲尔运输应用研究公司 用于生成多个参数化音频流的装置和方法以及用于生成多个扬声器信号的装置和方法
CN105378826A (zh) * 2013-05-31 2016-03-02 诺基亚技术有限公司 音频场景装置
CN205249484U (zh) * 2015-12-30 2016-05-18 临境声学科技江苏有限公司 一种麦克风线性阵列增强指向性拾音器

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10595146B2 (en) * 2017-12-21 2020-03-17 Verizon Patent And Licensing Inc. Methods and systems for extracting location-diffused ambient sound from a real-world scene

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1737271A1 (en) * 2005-06-23 2006-12-27 AKG Acoustics GmbH Array microphone
US20150215721A1 (en) * 2012-08-29 2015-07-30 Sharp Kabushiki Kaisha Audio signal playback device, method, and recording medium
CN104904240A (zh) * 2012-11-15 2015-09-09 弗兰霍菲尔运输应用研究公司 用于生成多个参数化音频流的装置和方法以及用于生成多个扬声器信号的装置和方法
EP2738762A1 (en) * 2012-11-30 2014-06-04 Aalto-Korkeakoulusäätiö Method for spatial filtering of at least one first sound signal, computer readable storage medium and spatial filtering system based on cross-pattern coherence
CN105378826A (zh) * 2013-05-31 2016-03-02 诺基亚技术有限公司 音频场景装置
CN205249484U (zh) * 2015-12-30 2016-05-18 临境声学科技江苏有限公司 一种麦克风线性阵列增强指向性拾音器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
麦海明等: "混合阶Ambisonics 声重放虚拟源定位实验", 《声学技术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112259110A (zh) * 2020-11-17 2021-01-22 北京声智科技有限公司 音频编码方法及装置、音频解码方法及装置
CN112259110B (zh) * 2020-11-17 2022-07-01 北京声智科技有限公司 音频编码方法及装置、音频解码方法及装置

Also Published As

Publication number Publication date
US20210067868A1 (en) 2021-03-04
WO2019174725A1 (en) 2019-09-19
US11632626B2 (en) 2023-04-18
CN111819862B (zh) 2021-10-22
EP3753263B1 (en) 2022-08-24
EP3753263A1 (en) 2020-12-23

Similar Documents

Publication Publication Date Title
US11948583B2 (en) Method and device for decoding an audio soundfield representation
JP6622344B2 (ja) 高次アンビソニックス・オーディオ信号からステレオ・ラウドスピーカー信号を復号する方法および装置
JP5814476B2 (ja) 空間パワー密度に基づくマイクロフォン位置決め装置および方法
JP5878549B2 (ja) 幾何ベースの空間オーディオ符号化のための装置および方法
CN111819862B (zh) 音频编码设备和方法
JP7434393B2 (ja) 音場記述を生成する装置、方法、及びコンピュータプログラム
GB2556093A (en) Analysis of spatial metadata from multi-microphones having asymmetric geometry in devices
Ahonen et al. Directional analysis with microphone array mounted on rigid cylinder for directional audio coding
Thomas et al. A method for converting between cylindrical and spherical harmonic representations of sound fields
Bai et al. Modeling of reverberant room responses for two-dimensional spatial sound field analysis and synthesis
Olgun et al. Sound field interpolation via sparse plane wave decomposition for 6DoF immersive audio
AU2020201419B2 (en) Method and device for decoding an audio soundfield representation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant