CN113345448B - 一种基于独立成分分析的hoa信号压缩方法 - Google Patents

一种基于独立成分分析的hoa信号压缩方法 Download PDF

Info

Publication number
CN113345448B
CN113345448B CN202110518042.4A CN202110518042A CN113345448B CN 113345448 B CN113345448 B CN 113345448B CN 202110518042 A CN202110518042 A CN 202110518042A CN 113345448 B CN113345448 B CN 113345448B
Authority
CN
China
Prior art keywords
signal
frame
matrix
hoa
ica
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110518042.4A
Other languages
English (en)
Other versions
CN113345448A (zh
Inventor
曲天书
吴玺宏
徐佳浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202110518042.4A priority Critical patent/CN113345448B/zh
Publication of CN113345448A publication Critical patent/CN113345448A/zh
Application granted granted Critical
Publication of CN113345448B publication Critical patent/CN113345448B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于独立成分分析的HOA信号压缩方法,其步骤包括:1)对待处理的目标HOA信号进行分帧,然后使用独立成分分析算法ICA对分帧之后的每一帧信号进行分解;2)根据所有帧的主成分构成传输通道中的前景信号,根据ICA得到的每一帧的mixing矩阵W‑1构成该帧的边信息,根据第i帧的mixing矩阵W‑1得到的un‑mixing矩阵W对ICA算法初始化后处理第i+1帧信号;3)编码器利用前景信号和边信息恢复得到前景信号的HOA形式表示,并通过与该目标HOA信号比较得到HOA形式的背景通道;背景通道经过简化后通过设定数量的传输通道传输给熵编码器进行压缩编码,传输通道通过熵编码器压缩编码。

Description

一种基于独立成分分析的HOA信号压缩方法
技术领域
本发明属于音频信号压缩技术领域,具体涉及一种基于独立成分分析的的高阶Ambisonics信号压缩方法。
背景技术
人们对于高品质的视听体验的追求由来已久,从数百年前的剧场到专门的音乐演出大厅,从3D电影到虚拟现实技术,人们对视觉与听觉体验的关注和品质要求与日俱增。这一趋势不仅仅体现在大型公共场所,同时也不断地向家庭与个人空间延伸。在视听技术的发展中,视频技术总是领先于音频技术的发展与普及,视频技术也吸引了人们更多的注意。同时,视频技术的发展与普及也提升了人们在音频方面的需求,从而带动了音频技术的发展。近年来,随着三维音频技术的出现,人们对于音频技术的发展也越来越关注。一方面,随着数字化技术的发展、计算机的普及、多媒体类型与资源的丰富和虚拟现实等技术的出现,消费者不断追求着更高品质的音频体验。另一方面,随着网络带宽以及计算机硬件能力的提升,三维音频技术的发展日趋成熟,高品质的音频体验的内涵不断拓宽。
三维音频技术是通过计算机、信号处理等方式对真实世界中声音事件和三维声场信息进行获取、处理、传输和渲染回放的音频技术。三维音频使声音具有强烈的空间感、包围感及沉浸感,给人以“声临其境”的非凡听觉体验。目前主流的三维音频技术主要分为波场合成(Wave Field synthesis,WFS)技术和HOA(Higher Order Ambisonics)技术两类。为了实现更好的音频听觉效果,两类方法都需要大量的通道用于记录更详细的声音场景的信息。虽然这种基于场景的三维音频信号采样和存储更加利于音频信号空间信息的保存和传输,但随着通道数量的增加将会激增海量数据。对现有传输和存储技术来说,这些海量的数据带来了技术瓶颈,也限制了三维音频技术的推广。因此一种高效的三维音频压缩编码的算法的提出迫在眉睫。基于场景的三维音频的高效编解码技术应当根据三维声场空间感知的特性,对通道间空间信息的冗余进行分析并压缩,在保持三维音频空间感的同时极大地压缩三维音频数据的体积。一种高效的三维音频压缩编码算法对三维音频的发展和实际推广将会产生重要的作用并具有巨大的价值。不仅如此,高效的三维音频数据压缩算法将为三维音频服务布局的实施与推广打下坚实基础。
在3D音频的主要技术中,HOA技术因为其在录制、编码中与回放阶段的扬声器布局无关的性质和HOA格式数据的可旋转特性,从而在进行三维音频回放时具有更高的灵活性,因而也得到了更为广泛的关注和研究。在对HOA数据进行压缩编码的研究中,早期的一些工作是直接将一般的音频编码技术(如AAC)直接应用于HOA数据的各个通道,这种不考虑通道间相关性的压缩方法无法消除通道间的冗余信息,因此随着通道数量的急剧增长,其编码音频的码率也会极大地增加。近期的研究工作则更多地考虑通道间的信息冗余。DirAC算法其通过对HOA系数的分析,以声场的方向、弥散程度和一路单通道信号对声场进行描述。该方法原本只适用于一阶Ambisonics信号,后续工作通过对空间进行分片,将其扩展到高阶Ambisonic信号中。但是,该方法原本是一种声场的重放技术,应用于HOA信号的压缩时不十分恰当。MPEG组织也提出了适用于3D音频的MPEG-H 3D Audio标准,其中包含HOA信号压缩工作。但MPEG-H标准仅给出传输格式标准,而并未给出具体的实现算法。现有的公开工作中,加利福尼亚大学圣巴巴拉分校的Sina Zamani等研究者使用SVD实现了MPEG-H标准,但信号帧之间存在平滑性不佳的问题,影响主观听感。
由于上述原因及现有方法的不足,需要一种适用于HOA信号的、兼顾主观听感与客观指标的压缩算法。
发明内容
针对现有技术中存在的HOA多通道音频信号压缩问题,本发明的目的在于提供一种基于独立成分分析的高阶Ambisonics信号压缩方法。
本发明所采用的技术方案是:
一种基于独立成分分析的HOA信号压缩方法,其步骤包括:
1)对待处理的目标HOA信号进行分帧,然后使用独立成分分析算法ICA对分帧之后的每一帧信号进行分解;
2)根据所有帧的主成分构成传输通道中的前景信号,根据ICA得到的每一帧的mixing矩阵W-1构成该帧的边信息,根据第i帧的mixing矩阵W-1得到的un-mixing矩阵W对ICA算法初始化后处理第i+1帧信号;
3)编码器利用前景信号和边信息恢复得到前景信号的HOA形式表示,并通过与该目标HOA信号进行比较得到HOA形式的背景通道;背景通道经过简化后通过设定数量的传输通道传输给熵编码器进行压缩编码,传输通道通过熵编码器进行压缩编码。
进一步的,编码器根据
Figure BDA0003062609370000021
恢复得到前景信号的HOA形式表示
Figure BDA0003062609370000022
然后利用
Figure BDA0003062609370000023
得到背景信号R;其中,B为对目标HOA信号进行分帧得到的一帧HOA信号,使用独立成分分析算法ICA对B进行估计得到主成分
Figure BDA0003062609370000024
和对应的mixing矩阵W-1
进一步的,使用独立成分分析算法ICA对分帧之后的每一帧信号进行分解的方法为:首先设置声源个数上限Z,对初始化的un-mixing矩阵W进行白化,白化之后的W仍记为W;对输入的一帧HOA信号帧B进行白化,白化之后的信号帧B记为X;然后对声源i对应的W矩阵的第i列Wi依据以下公式进行更新:
Wi′=XTg(Wi TXT)T-g′(Wi TXT)1LWi
Figure BDA0003062609370000031
Wi=Wi′/||Wi′||
其中,g(·)是ICA算法中的非线性函数,g′(·)是g(·)的导数,XT指X的转置,WiT为Wi′的转置,Wj为W矩阵的第j列,1L为一个L×L的单位矩阵,L是信号帧B的帧长;每轮更新之后,依据Wi是否发生变化判断是否收敛,如果收敛或者到达最大迭代次数后停止迭代,其中i=1~Z;完成所有声源估计后得到un-mixing矩阵W,并经过逆白化过程回归到该目标HOA信号所在的线性空间;然后根据公式
Figure BDA0003062609370000032
计算前景信号
Figure BDA0003062609370000033
并输出W,
Figure BDA0003062609370000034
进一步的,使用上一帧的W更新W的初始化矩阵Winit,并将更新后的Winit传递给下一帧;具体方法为:对于第t帧,记第t帧对应的un-mixing矩阵为Wt,利用递推公式
Figure BDA0003062609370000035
计算第t帧所用的初始化矩阵Winit
进一步的,依据停止迭代时Wi是否收敛来判断剩余信号中是否还有剩余的非高斯声源,即如果达到最大迭代次数时Wi仍未收敛,则判断信号中已经不含非高斯成分,可以直接停止迭代。
进一步的,如果矩阵W-1的变化速度小于设定阈值,则对于相邻帧的W-1矩阵采用增量编码压缩。
进一步的,如果矩阵W-1的变化速度小于设定阈值,则将相邻的若干数据帧共用相同的W-1矩阵进行编码压缩。
进一步的,将相邻的若干数据帧共用相同的W-1矩阵进行编码压缩的方法为:设置一个共用长度参数Nshare,在计算得到W-1后,接下来的Nshare帧不进行迭代计算过程,直接按照公式
Figure BDA0003062609370000036
使用最近一次计算得到W-1计算
Figure BDA0003062609370000037
进一步的,将相邻的若干数据帧共用相同的W-1矩阵进行编码压缩的方法为:将当前帧与前一帧W-1矩阵进行比较
Figure BDA0003062609370000038
当λ小于设定值Λ时则当前帧与前一帧共用W-1矩阵。
对于HOA多通道信号,首先进行分帧,分帧之后的信号使用独立成分分析(Independent Component Analysis,ICA)算法进行分解。在成熟的FastICA算法基础上,本发明对主成分逐个进行分析,并根据迭代时损失函数的变化来判断信号中是否还有剩余的主成分残留,从而实现了对声源个数的粗略估计。借此,克服了常见的ICA算法需要预先设定声源个数的缺点。借助ICA得到信号主成分和un-mixing矩阵以及mixing矩阵之后,信号主成分构成传输通道中的前景信号,每一帧的mixing矩阵构成该帧的边信息,并且un-mixing矩阵会用于下一帧ICA算法的初始化,借此能够有效的实现帧之间的平滑,以及加快算法运行速度。所有信号帧的主成分构成了传输通道的前景通道。编码器利用前景通道信号和边信息恢复得到前景信号的HOA形式表示,并通过与原始HOA多通道信号的比较得到HOA形式的背景通道。背景通道经过简化后也通过设定数量的传输通道进行传输;前景通道、背景通道和总的传输通道数量是算法运行前设定的参数。传输通道可以进一步借助单通道编码器进行压缩,并与边信息构成比特流进行传输;压缩后的传输通道是比特流中主要组成部分,比特流由压缩后的传输通道和边信息组成。另外,可以对构成边信息的mixing矩阵进行进一步的空域分析,对于具有较强方向性的声源,该mixing矩阵具有明显的方向特征(具体的,可以将mixing矩阵列向量与一组预设的空间中均匀分布的HOA基底计算内积,当任何一个内积大于一个预设的阈值时,即将其归纳为空间角),从而可能将其归纳为空间角指向,从而进一步压缩边信息。对于声源位置变动较慢的信号,可以分析这些信号的信号帧之间边信息的相似性,达到进一步压缩的目的。
本发明的有益效果是:
1)帧之间的连续性好,主观听音效果好,整体上优于前人的方案。
2)传输通道和边信息与声源有更强的关联,边信息更具有可解释性。
3)可以借助边信息的可解释性进一步对边信息进行压缩。
4)传输通道更为平滑,因此对于搭配使用的单通道压缩算法更为友好,能够容忍单通道压缩算法带来的误差。
5)算法能够方便的适应不同HOA信号阶数、方便的设置传输通道数目,并能够妥善分配前景通道和背景通道数目。
附图说明
图1为系统编码器框图。
图2为系统解码器框图。
图3为FastICA算法流程图。
图4为本方法改进的ICA算法流程图。
图5为模拟信号时主观听音测试结果;
(a)单声源(乐音)主观听音测试结果;
(b)单声源(人声)主观听音测试结果;
(c)双声源(人声)主观听音测试结果;
(d)三声源(双人声,一乐音)混合主观听音测试结果;
(e)四声源(双人声,双乐音)混合主观听音测试结果;
(f)六声源(双人声,四乐音)混合主观听音测试结果。
图6为实录信号时主观听音测试结果;
(a)实录信号(飞机噪音)主观听音测试结果;
(b)实录信号(移动乐音)主观听音测试结果;
(c)实录信号(人声,乐音,掌声)主观听音测试结果;
(d)实录信号(男女声朗读1)主观听音测试结果;
(e)实录信号(男女声朗读2)主观听音测试结果;
(f)实录信号(嘈杂咖啡厅)主观听音测试结果。
具体实施方式
下面结合附图和实施例对本发明提供的基于独立成分分析的高阶Ambisonics信号压缩方法进行介绍。
首先简要介绍HOA信号的背景。根据球坐标系下波动方程的解,平面波声场声压可以被表示成:
Figure BDA0003062609370000051
其中,k表示波数,径向基函数jm(k,r)是第一类球贝塞尔函数,
Figure BDA0003062609370000052
即为球谐函数,
Figure BDA0003062609370000053
是展开系数。该分解也称为平面波的球谐函数分解。系数
Figure BDA0003062609370000054
即为Ambisonics信号,当M>1时称为高阶Ambisonics信号也即HOA信号。
对于从(θ′,φ′)方向入射的平面波s,其展开系数为:
Figure BDA0003062609370000055
也即远场声源产生的声场可以简单的标识为声源信号s乘以该声源方向的球谐函数系数。考虑前M阶Ambisonics信号,则共有N=(M+1)2个球谐函数,于是公式(2)可以写成矩阵形式:
B=S·Y (3)
式中,S为L×1矩阵代表一帧声源信号,L代表帧长。Y是1×N矩阵,代表前M阶声源方向的球谐函数系数。对于多声源构成的声场,S和Y分别为L×Z和Z×N矩阵,Z是声源个数。B是L×N矩阵,即为表示该多声源构成的声场的HOA信号。
步骤1:空间编码
图1是本方法的编码器框图,其中虚线代表边信息,细实线代表HOA格式的音频信号或比特流,粗实线代表HOA域音频信号。编码器大致可以分为两部分,空间编码和熵编码,空间编码也即将HOA信号编码为较少通道的音频信号和边信息,熵编码则负责对音频信号进行进一步的压缩。在这之外还有量化等策略。首先介绍空间编码部分。
ICA算法可以直接应用到HOA信号上,将HOA信号视为声源信号的线性组合,得到un-mixing矩阵和独立成分(图1中ICA模块功能):
Figure BDA0003062609370000061
B是一帧HOA信号,通过对输入HOA信号分帧直接得到。公式(4)的含义即为对HOA信号帧B进行独立成分分析处理得到un-mixing矩阵W和独立成分
Figure BDA0003062609370000062
W,
Figure BDA0003062609370000063
分别构成边信息和传输通道的前景通道(图1中边信息表示为虚线,音频信号通道表示为细实线)。W是N×Z矩阵,
Figure BDA0003062609370000064
是L×Z矩阵,代表独立成分,也即前景信号,其中Z是声源个数。W是un-mixing矩阵,三者具有关系
Figure BDA0003062609370000065
解码器可以据此恢复原始HOA信号(图1中Mixing步骤,图2解码器中也有相同步骤):
Figure BDA0003062609370000066
式中W-1是W的伪逆。ICA算法估计了信号帧中的独立成分,于是
Figure BDA0003062609370000067
是公式(3)中S的估计,于是W-1是Y的估计,其中包含了声源的方位信息,如声源方向。若声源是远场声源,则其列向量就对应了声源方向的球谐函数。按照ICA算法的性质,高斯噪声等成分会被保留在残差中作为背景信号
Figure BDA0003062609370000068
(图1编码器中“比较”步骤)。背景信号可以使用较低的码率传输或者只传输低阶信号。
本算法使用的ICA算法是在现有的ICA算法基础上的改进。ICA算法设计用于将声源线性组合得到的混合信号分解为独立的声源信号。假设混合信号中共有Z个独立的声源,可以将声源信号帧表示为L×Z的矩阵S,其中L是帧长。记Y是mixing矩阵,则混合信号帧B=SY,与公式(3)一致。ICA一般用于扬声器录制的信号,但HOA信号也是声源的线性组合,因此该算法也可以用于HOA信号。
ICA假设各个声源的信号是非高斯信号并且互相统计独立。算法估计得到un-mixing矩阵W.FastICA是一个广泛使用的ICA算法的实现,其流程图如图3所示。本方法对该算法进行了改进,改进算法如图4所示。接下来我们基于图4介绍该算法。
ICA算法逐帧运行。输入信号帧B,原始算法还需要输入精确的声源个数Z,我们改进的算法能够对声源个数做出估计,只需要输入声源个数上限(一般设置成码率能够容许的最大个数,这个条件比设置精确的声源个数宽松很多)。该算法的主要任务是估计un-mixing矩阵W,原始算法每次运行时会重新初始化W,而改进之后的算法会以某种形式继承之前帧的结果用于本帧的初始化。得到输入信号帧B后需要对其进行白化,白化也即通过一个线性变换保证信号的各个通道正交,可以通过主成分分析PCA等方法实现。需要注意,初始化矩阵Winit需要与信号帧B进行相同的变换,保持在同一个线性空间。白化之后的信号帧记为X,简明起见,白化之后的W仍记为W。
之后,算法对每个声源i对应的W矩阵的第i列Wi进行估计。算法依据以下公式更新:
Figure BDA0003062609370000071
其中,g(·)是ICA算法中的非线性函数,可以取g(·)=logcosh(·),g′(·)是g(·)的导数,XT指X的转置,1L指一个L×L的单位矩阵,i取值范围为1~Z。
每轮更新之后,算法依据Wi是否发生变化判断是否收敛,如果收敛或者到达最大迭代次数后停止迭代。本方法的另一个改进在于,本方法会依据停止迭代时Wi是否收敛来判断剩余信号中是否还有剩余的非高斯声源。如果算法达到最大迭代次数时Wi仍未收敛,则判断信号中已经不含非高斯成分,可以直接停止迭代。借此,本方法实现的ICA算法不需要预先知道声源个数,并且能够提升运行速度。
完成所有声源估计后得到un-mixing矩阵W,并经过逆白化过程回归到原始信号所在的线性空间。之后根据公式(5)计算前景信号
Figure BDA0003062609370000081
并输出W,
Figure BDA0003062609370000082
为了实现帧之间的平滑,并进一步加快算法运行速度,本方法会维护W的初始值Winit,并在每一帧时进行更新(即利用上一帧的W更新Winit,并将Winit传递给下一帧)。对于第t帧,记第t帧对应的un-mixing矩阵为Wt,则:
Figure BDA0003062609370000083
该公式(7)表明,
Figure BDA0003062609370000084
是之前帧计算得到的W的加权和,并且距离该帧越远的帧衰减越明显。参数k是一个取值范围0-1的衰减系数,当前帧i之前第σ帧衰减为原本的第kσ-1倍。如,当k=0.5,第i-1帧不衰减,第i-2帧衰减为原本的0.5倍,第i-3帧衰减为0.125倍。该公式(7)实现时可以借助递推公式(8)高效的计算:
Figure BDA0003062609370000085
至此,本方法对于每个信号帧计算了前景信号
Figure BDA0003062609370000086
和边信息W-1
步骤2:量化与熵编码
完成空间编码后,需要对传输通道和边信息进行量化与熵编码。
熵编码相关计算一般采用浮点数进行。量化也即将浮点数定点化节省码率,或者使用精度较低的浮点数。传输通道本身是音频信号,因此其量化较为简单,一般量化为16bit有符号整数即可。量化之后的传输通道可以使用单通道音频编码器进行编码。单通道音频编码器可以使用无损编码,但一般采用有损编码。有损编码可以使用不同的码率,而对于不同的传输通道,可以采用不同的码率。
传输通道由前景信号和背景信号构成。前景信号对应原始信号中方向性较强的部分,其通道个数可以设定为固定值,也可以根据算法估计的声源个数动态调整。背景通道来自于残差信号的某种简化,如只保留低阶背景通道。不同通道进行有损编码时可以采用不同的码率,对于指向性较强的信号,前景通道更为重要,因此可以采用更高的码率,背景通道可以采用较低的码率,从而在有限的总码率下实现最佳的整体效果。
边信息主要是mixing矩阵W-1,该矩阵是N×Z的浮点数矩阵,不加处理会占用较高的码率。对比公式(5)和公式(3),我们得知对于远场点声源,矩阵W-1是球谐函数矩阵Y的估计,因此对于这部分声源对应的W-1相应的列,可以直接使用球谐函数的方向俯仰角进行表示,从而将N=(M+1)2个浮点数化简为2个浮点数。这两个浮点数可以进一步进行定点化量化,如可以将俯仰角取值范围分别等分为1024等分,从而将两个浮点数量化为10bit定点整数。但由于声源并不都是点声源,以及算法不一定能得到理想的声源mixing矩阵,该方案只适用于部分声源。
考虑到大部分声源移动速度有限,矩阵W-1是缓变的,因此可以跨帧进行压缩。具体的方案包括,可以对于相邻帧的W-1矩阵采用增量编码,或者相邻的少量数据帧可以共用相同的W-1矩阵。
有两种共用策略,一种是设置一个共用长度参数Nshare,在计算得到W-1后,接下来的Nshare帧不进行迭代计算过程,直接按照公式(5)使用最近一次计算得到W-1计算前景信号
Figure BDA0003062609370000091
该方案不仅能节省码率,还能因此跳过一些数据帧的熵编码计算,从而降低算法的时间复杂度。但Nshare的数值过大会影响压缩信号恢复后的听感知效果。
另一种策略动态的判断是否与前一帧共用W-1矩阵。对当前帧与前一帧W-1矩阵进行比较:
Figure BDA0003062609370000092
当λ小于设定值Λ时就与前一帧共用W-1矩阵。设定值Λ是一个实验确定的预设参数。
步骤3:解码
本方法的解码过程较为简单。传输通道比特流由熵编码器对应的解码器解码成为音频信号,其中包含前景信号
Figure BDA0003062609370000093
边信息根据其量化以及其他压缩方案对应的执行逆过程,恢复得到mixing矩阵W-1,由mixing模块恢复得到HOA域上的前景信号:
Figure BDA0003062609370000094
传输通道中的背景通道解码后构成残差信号R,最终恢复原始信号:
Figure BDA0003062609370000095
方法评测实验
为了评测本算法性能,我们展开了MUSHRA主观听音实验。HOA信号经过压缩、解压后恢复为HOA信号,并渲染到双耳进行评测。我们构建了包含有6条模拟信号(Sim.1-6)和6条实测信号(Rec.1-6)的数据集,数据集内容见表1.声源被放置在不同方位,模拟信号和实录信号均为4阶HOA信号,具有25通道。信号采样率为48kHz,信号长度在10秒左右。共有以下方法参与了比较:
-SP:每个通道单独使用单通道编码器进行编码
-SVD:根据公开文献复现的基于SVD的压缩算法
-PROP:本方法
其中,基于SVD的算法根据MPEG-H 3D Audio标准文档和加利福尼亚大学圣巴巴拉分校的Sina Zamani等研究者的工作复现。SVD和PROP方法是用了8个前景通道,本次试验中背景信号忽略,没有参与比较。两种方法的前景使用24kbps和48kbps两种码率编码。两种方法每个通道均需要3kbps左右的码率传输边信息。SP方法使用8kbps和16kbps两种码率进行编码,从而保证三种方法在高码率和低码率两种情境下具有相近的总码率。
12名听力正常的被试(11名男性和1名女性,年龄20到27岁)参与了主观实验,被试根据MUSHRA实验流程对9种音频进行0–100分的主观打分。除6组实验音频外,原始信号ref,低通滤波信号lowps,单通道信号mono也参与评分。实验过程中被试在一个具有双层隔音墙的听音室中使用海森奈尔HD-650耳机听音。
被试打分的均值和方差展示在图5和图6中。2×3双因素重复度量方差分析(repeated-measures analysis of variance,RM-ANOVA)结果表明,码率(F1,11=42.53,p<0.01,η2=0.795)和压缩方法(F2,22=45.61,p<0.01,η2=0.806)均有显著的主效应,并且存在显著的交互作用(F1.294,14.232=26.810,p<0.01,
Figure BDA0003062609370000101
)。使用Bonferroni校正的多重比较分析表明在所有码率下,PROB均显著高于SP与SVD(所有条件下p<0.01)
尽管为说明目的公开了本发明的具体实施例和附图,其目的在于帮助理解本发明的内容并据以实施,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于最佳实施例和附图所公开的内容。

Claims (8)

1.一种基于独立成分分析的HOA信号压缩方法,其步骤包括:
1)对待处理的目标HOA信号进行分帧,然后使用独立成分分析算法ICA对分帧之后的每一帧信号进行分解,得到每一帧的独立成分;
2)根据所有帧的独立成分构成传输通道中的前景信号,根据ICA得到的每一帧的mixing矩阵W-1构成该帧的边信息,根据第i帧的mixing矩阵W-1得到的un-mixing矩阵W对ICA算法初始化后处理第i+1帧信号;其中,所述传输通道由前景信号和背景信号构成;
3)编码器根据
Figure FDA0003703334510000011
恢复得到前景信号的HOA形式表示
Figure FDA0003703334510000012
然后利用
Figure FDA0003703334510000013
得到背景信号R;背景通道经过简化后通过设定数量的传输通道进行传输,以及对传输通道和边信息进行量化与熵编码;其中,B为对目标HOA信号进行分帧得到的一帧HOA信号,使用独立成分分析算法ICA对B进行估计得到独立成分
Figure FDA0003703334510000014
和对应的mixing矩阵W-1
2.如权利要求1所述的方法,其特征在于,使用独立成分分析算法ICA对分帧之后的每一帧信号进行分解的方法为:首先设置声源个数上限Z,对初始化的un-mixing矩阵W进行白化,白化之后的W仍记为W;对输入的一帧HOA信号帧B进行白化,白化之后的信号帧B记为X;然后对声源i对应的W矩阵的第i列Wi依据以下公式进行更新:
Wi′=XTg(Wi TXT)T-g′(Wi TXT)1LWi
Figure FDA0003703334510000015
Wi=Wi′/||Wi′||
其中,g(·)是ICA算法中的非线性函数,g′(·)是g(·)的导数,XT指X的转置,WiT为Wi′的转置,Wj为W矩阵的第j列,1L为一个L×L的单位矩阵,L是信号帧B的帧长;每轮更新之后,依据Wi是否发生变化判断是否收敛,如果收敛或者到达最大迭代次数后停止迭代,其中i=1~Z;完成所有声源估计后得到un-mixing矩阵W,并经过逆白化过程回归到该目标HOA信号所在的线性空间;然后根据公式
Figure FDA0003703334510000016
计算前景信号
Figure FDA0003703334510000017
并输出W,
Figure FDA0003703334510000018
3.如权利要求2所述的方法,其特征在于,使用上一帧的W更新W的初始化矩阵Winit,并将更新后的Winit传递给下一帧;具体方法为:对于第t帧,记第t帧对应的un-mixing矩阵为Wt,利用递推公式
Figure FDA0003703334510000019
计算第t帧所用的初始化矩阵Winit,k是一个取值范围0-1的衰减系数。
4.如权利要求2所述的方法,其特征在于,依据停止迭代时Wi是否收敛来判断剩余信号中是否还有剩余的非高斯声源,如果达到最大迭代次数时Wi仍未收敛,则判断信号中已经不含非高斯成分,可以直接停止迭代。
5.如权利要求1所述的方法,其特征在于,如果矩阵W-1的变化速度小于设定阈值,则对于相邻帧的W-1矩阵采用增量编码压缩。
6.如权利要求1所述的方法,其特征在于,如果矩阵W-1的变化速度小于设定阈值,则将相邻的若干数据帧共用相同的W-1矩阵进行编码压缩。
7.如权利要求6所述的方法,其特征在于,将相邻的若干数据帧共用相同的W-1矩阵进行编码压缩的方法为:设置一个共用长度参数Nshare,在计算得到W-1后,接下来的Nshare帧不进行迭代计算过程,直接按照公式
Figure FDA0003703334510000021
使用最近一次计算得到W-1计算
Figure FDA0003703334510000022
8.如权利要求6所述的方法,其特征在于,将相邻的若干数据帧共用相同的W-1矩阵进行编码压缩的方法为:将当前帧与前一帧W-1矩阵进行比较
Figure FDA0003703334510000023
当λ小于设定值Λ时则当前帧与前一帧共用W-1矩阵。
CN202110518042.4A 2021-05-12 2021-05-12 一种基于独立成分分析的hoa信号压缩方法 Active CN113345448B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110518042.4A CN113345448B (zh) 2021-05-12 2021-05-12 一种基于独立成分分析的hoa信号压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110518042.4A CN113345448B (zh) 2021-05-12 2021-05-12 一种基于独立成分分析的hoa信号压缩方法

Publications (2)

Publication Number Publication Date
CN113345448A CN113345448A (zh) 2021-09-03
CN113345448B true CN113345448B (zh) 2022-08-05

Family

ID=77469242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110518042.4A Active CN113345448B (zh) 2021-05-12 2021-05-12 一种基于独立成分分析的hoa信号压缩方法

Country Status (1)

Country Link
CN (1) CN113345448B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107077852A (zh) * 2014-06-27 2017-08-18 杜比国际公司 包括与hoa数据帧表示的特定数据帧的通道信号关联的非差分增益值的编码hoa数据帧表示
CN110415712A (zh) * 2014-06-27 2019-11-05 杜比国际公司 用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法
CN110767242A (zh) * 2013-05-29 2020-02-07 高通股份有限公司 声场的经分解表示的压缩

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2486561B1 (en) * 2009-10-07 2016-03-30 The University Of Sydney Reconstruction of a recorded sound field
KR101862356B1 (ko) * 2014-01-03 2018-06-29 삼성전자주식회사 개선된 앰비소닉 디코딩을 수행하는 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110767242A (zh) * 2013-05-29 2020-02-07 高通股份有限公司 声场的经分解表示的压缩
CN107077852A (zh) * 2014-06-27 2017-08-18 杜比国际公司 包括与hoa数据帧表示的特定数据帧的通道信号关联的非差分增益值的编码hoa数据帧表示
CN110415712A (zh) * 2014-06-27 2019-11-05 杜比国际公司 用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Compressing higher order ambisonics of a multizone soundfield;Panji Setiawan 等;《2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20170619;466-470 *
三维音频中若干算法研究;彭钰林;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20130815;I136-133 *

Also Published As

Publication number Publication date
CN113345448A (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
TWI645723B (zh) 用於解壓縮經壓縮之音訊資料之方法及器件及其非暫時性電腦可讀儲存媒體
JP4685925B2 (ja) 適応残差オーディオ符号化
JP5302980B2 (ja) 複数の入力データストリームのミキシングのための装置
CN112735447B (zh) 压缩和解压缩高阶高保真度立体声响复制信号表示的方法及装置
JP5081838B2 (ja) オーディオ符号化及び復号
AU2005328264B2 (en) Near-transparent or transparent multi-channel encoder/decoder scheme
JP2018116283A (ja) パケット損失補償装置およびパケット損失補償方法、ならびに音声処理システム
KR100928311B1 (ko) 오디오 피스 또는 오디오 데이터스트림의 인코딩된스테레오 신호를 생성하는 장치 및 방법
RU2407073C2 (ru) Кодирование многоканального аудио
JP5281575B2 (ja) オーディオオブジェクトのエンコード及びデコード
US20070239442A1 (en) Multi-Channel Encoder
JP2011501823A (ja) アップミックスを使用した音声符号器
CN107610710B (zh) 一种面向多音频对象的音频编码及解码方法
CN109478407B (zh) 用于处理输入信号的编码装置和用于处理编码后的信号的解码装置
US9646615B2 (en) Audio signal encoding employing interchannel and temporal redundancy reduction
TW201603004A (zh) 解碼壓縮高階保真立體音響表示之方法及裝置,及編碼壓縮高階保真立體音響表示之方法及裝置
JP4512016B2 (ja) ステレオ信号符号化装置、ステレオ信号符号化方法、プログラム及び記録媒体
TWI762949B (zh) 用於丟失消隱之方法、用於解碼Dirac經編碼音訊場景之方法及對應電腦程式、丟失消隱設備及解碼器
US9311925B2 (en) Method, apparatus and computer program for processing multi-channel signals
JP5309944B2 (ja) オーディオ復号装置、方法、及びプログラム
JP2007187749A (ja) マルチチャンネル符号化における頭部伝達関数をサポートするための新装置
CN113345448B (zh) 一种基于独立成分分析的hoa信号压缩方法
WO2020080099A1 (ja) 信号処理装置および方法、並びにプログラム
Qu et al. Higher order ambisonics compression method based on autoencoder
CN116486822A (zh) 沉浸式音频系统中的自适应音频对象编解码方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant