CN102982805B - 一种基于张量分解的多声道音频信号压缩方法 - Google Patents

一种基于张量分解的多声道音频信号压缩方法 Download PDF

Info

Publication number
CN102982805B
CN102982805B CN201210579570.1A CN201210579570A CN102982805B CN 102982805 B CN102982805 B CN 102982805B CN 201210579570 A CN201210579570 A CN 201210579570A CN 102982805 B CN102982805 B CN 102982805B
Authority
CN
China
Prior art keywords
rank
tensor
signal
frame
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210579570.1A
Other languages
English (en)
Other versions
CN102982805A (zh
Inventor
王晶
谢湘
匡镜明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201210579570.1A priority Critical patent/CN102982805B/zh
Publication of CN102982805A publication Critical patent/CN102982805A/zh
Application granted granted Critical
Publication of CN102982805B publication Critical patent/CN102982805B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于张量分解的多声道音频信号压缩方法,属于音频信号处理技术领域,尤其是空间音频编解码技术领域。将每个声道的音频信号进行交叠分帧,并对每帧信号进行时频变换得到频域系数,将所有声道和所有帧序列的频域系数组合,建立三阶张量信号,并对其进行张量分解得到低秩核张量用于编码传输,解码端结合恢复的低秩核张量和事先训练的低秩投影矩阵进行张量信号重建,对重建后的张量信号再进行每个声道上反变换和交叠相加恢复多声道音频信号。本方法结合时频变换和张量分解对多声道音频信号进行分析和编解码,利用声道间和声道内的相关性去处冗余信息,能较大程度提高多声道音频信号的压缩效率。

Description

一种基于张量分解的多声道音频信号压缩方法
技术领域
本发明涉及一种多声道音频信号压缩方法,尤其是一种基于张量分解的多声道信号压缩方法,属于音频信号处理技术领域,尤其是空间音频编解码技术领域。
背景技术
在数字音频应用领域,多声道音频能够提供临场感的环绕声音感受,这是传统立体声信号所不能提供的。随着人们对数字音频信号的高享受的需求,高效的音频信号压缩方法越来越被研究者重视。为了产生空间环绕的效果,多声道信号编解码技术例如Dolby AC-3,DTS以及MPEG Surround等相继被提出,这些方法在编码端大多需要传输由多声道下混后的单声道或立体声信号,并提取空间音频参数一并传输,以便在解码端再上混为多声道信号。
随着虚拟现实、3D游戏、高质量视频会议等交互式音频应用的发展,多声道音频信号需要以尽可能低的速率压缩传输,而声道数目的增多(甚至于几百声道)难以有较大程度的压缩效果,如何利用声道间和声道内的相关性进行高效压缩是多声道音频编码领域的关键问题。多声道信号相比传统的单声道和立体声信号研究的影响因素增多,至少涉及声道、时域、频域三种因素,构成一种高阶信号空间,适合用张量结构表示和分析,进而通过构建张量信号利用张量分解方法进行低秩近似达到压缩的目的。
张量分析方法近十年来在三维图像处理、说话人识别、数据挖掘等信号处理领域已有广泛应用,例如在语音信号的特征提取方面,Jeong等人提出了利用张量分析对语音信号的训练模型状态、特征维度、说话人、噪声空间进行多线性奇异值分析的方法;Mesgarani等人提出了声音信号从耳蜗到大脑皮层阶段产生的多尺度暂态语谱图特征,利用多线性降维技术进行处理,可以在低信噪比或者高回响的环境下或得较高的分辨率;我国公开号为CN102592593A(公开日为2012年7月18日)的专利“一种考虑语音中多线性群组稀疏性的情绪特征提取方法”,考虑了语音信号中包括的时间、频率、尺度、方向信息的多重因素,利用多线性群组稀疏分解的方法进行特征提取。而在多声道音频信号处理领域,尚未见有运用张量分解进行空间音频表示和压缩的应用。
发明内容
本发明的目的是为了充分表征和高效压缩多声道音频信号,提出了一种基于张量分解的多声道音频信号压缩方法,解决了传统多声道音频编解码只能用矢量或矩阵代数进行运算,不能同时考虑声道和时频的多因素影响的问题。
为了实现上述目的,本发明方法的基本思路是:对多声道音频信号,首先在编码端,将每个声道的音频信号通过交叠分帧和时频变换,对变换后的多声道信号建立包含声道、时域和频域的三阶张量信号,并利用张量分解进行低秩近似,得到低秩核张量和三个低秩投影矩阵,其中低秩核张量用于量化编码压缩,三个低秩投影矩阵用于训练过程,在解码端,将解量化和解码后的低秩核张量结合事先训练好的三个低秩投影矩阵,通过张量信号重构过程得到变换域的多声道信号,最后对每个声道信号进行反变换,并通过交叠相加恢复原来的每个声道的音频信号。
本发明所述一种基于张量分解的多声道音频信号压缩方法,包括以下步骤:
步骤一:在编码端,对待处理的声道数目为R的多声道音频信号,首先将每个声道的音频信号采用汉明窗进行分帧,帧长为L,帧移为M,从而把每个声道的音频信号分成N帧,顺序排列后得到每个声道的帧序列;
步骤二:对每个声道,对分帧后的每帧音频信号分别进行时频变换,每帧音频信号经过该时频变换后得到长度为S的频域系数;
若每帧音频信号补零后进行时频变换,则S大于L;
若每帧音频信号直接进行时频变换,则S等于L;
若每帧音频信号直接进行时频变换后只保留能量较大的频域系数,则S小于L;
若每帧音频信号补零后进行时频变换后只保留能量较大的频域系数,则S的大小视具体补零的长度以及保留频域系数的个数而定;
所述的时频变换为正交变换;
所述的时频变换优选采用DCT离散余弦变换;
步骤三:对每个声道,将每一帧所对应的长度为S的频域系数作为矩阵的每一行,即将N帧音频信号的频域系数构成一个大小为N×S的系数矩阵;
将所有R个声道的系数矩阵进行依次排列,构成大小为R×N×S的三阶张量信号X,所述的三阶分别称为:声道序列阶、帧序列阶、频域系数阶;
步骤四:对步骤三构造的三阶张量信号X进行张量分解,即分解为:
1U(1)×2U(2)×3U(3)    (1)
其中U(1)、U(2)、U(3)彼此之间正交,分别代表张量信号在声道序列阶、帧序列阶、频域系数阶上进行投影的主分量,即,
U(1)为该张量信号分解时在声道序列阶进行秩为O的低秩投影矩阵,矩阵大小为R×O,其中参数O应满足1≤O≤R;
U(2)为该张量信号分解时在帧序列阶进行秩为P的低秩投影矩阵,大小为N×P,其中参数P应满足1≤P≤N;
U(3)为张量信号分解时在频域系数阶进行的秩为Q的低秩投影矩阵,大小为S×Q,其中参数Q应满足1≤Q≤S;
G为三阶低秩核张量,在声道序列阶、帧序列阶、频域系数阶上的维度分别是上述的O、P、Q,核张量G通过下式计算得到:
G=X×1U(1)T×2U(2)T×3U(3)T    (2)
符号T表示伪逆,×1、×2、×3分别表示张量第一阶、第二阶、第三阶的张量矩阵乘,张量矩阵乘定义如下:
设有一个大小为I1×I2×…×IN的N阶张量H,一个大小为J×In的矩阵A,则张量的n阶矩阵乘H×nA的结果是一个大小为I1×I2×…×In-1×J×In+1×…×IN的N阶张量,其中1≤n≤N;
作为优选,步骤四中,所述张量分解时求取低秩投影矩阵采用ALS交替最小二乘法,或者HOSVD高阶奇异值分解的方法;
作为优选,在帧序列阶上不进行低秩投影,即P=N,而在声道序列阶和频域系数阶上进行低秩投影,即1≤O<R且1≤Q<S。
步骤五:对步骤四得到的三阶低秩核张量G进行降维获得一维序列,然后对该一维序列进行量化编码,获得压缩后的比特流数据,用于传输或存储,而低秩投影矩阵U(1)、U(2)、U(3)不进行量化编码处理;
步骤六:在解码端,对压缩后的比特流数据进行与步骤五中量化编码方法相应的解码和解量化,再进行与步骤五相应的升维处理,得到恢复后的低秩核张量G';
结合预先训练得到的三个低秩投影矩阵U'(1)、U′(2)、U′(3),进行张量信号重构得到恢复后的三阶张量信号Y,重构表示为:
Y=G′×1U'(1)×2U'(2)×3U'(3)    (4)
其中张量信号Y在声道序列阶、帧序列阶、频域系数阶上的维度分别是R、N、S;
其中所述所述预先训练得到三个低秩投影矩阵U'(1)、U′(2)、U′(3)的方法为:选取V组多声道音频信号,每组的声道数目均为R个,对每组多声道音频信号重复上述的步骤一、二、三、四,得到V组低秩投影矩阵Uv (1)、Uv (2)、Uv (3),其中1≤v≤V,将V组低秩投影矩阵Uv (1)、Uv (2)、Uv (3)分别进行平均,即得到训练后的低秩投影矩阵U'(1)、U'(2)、U'(3)
作为优选,V≥10;
步骤七:步骤六得到的R×N×S的三阶张量信号Y中包含R个声道的N个帧,其中每帧长度为S,从Y中抽取每个声道的N×S系数矩阵,对矩阵的每行的S个数据,分别进行与步骤二相应的时频反变换,得到恢复的每帧音频信号;
作为优选,若步骤二所述的时频变换采用离散余弦变换DCT,则步骤七所述的时频反变换采用反离散余弦变换IDCT。
步骤八:将步骤七得到的每个声道的每帧音频信号通过交叠相加恢复每个声道的音频信号,帧长为L,帧间交叠长度为M。
对比现有技术,本发明的有益效果在于:本发明考虑了多声道音频信号同时受到声道、时域、频域三方面因素影响的特点,将多声道音频信号通过时频变换和张量分解转换为低秩核张量进行编解码,从而更好的利用声道间和声道内的相关性去处冗余信息,达到高效压缩的目的。本发明结合时频变换和张量分解对多声道音频信号进行分析和压缩,相比传统的多声道音频编解码方法增强了对声道间冗余信息的压缩能力,且不需要传输额外的空间参数信息,能够提高多声道音频信号的压缩效果。
附图说明
图1是利用张量分解对多声道音频信号进行编解码的流程图;
图2是张量信号构造示意图;
图3是本发明具体实施例中5.1声道音频信号压缩后的MUSHRA主观质量测试结果图。
具体实施方式
下面将结合附图和实施例对本发明加以详细说明,同时也叙述了本发明技术方案解决的技术问题及有益效果,需要指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
如图1所示,本发明的基于张量分解的多声道音频信号压缩方法的一个具体实施例包括以下步骤:
步骤一:编码端,对待处理的多声道音频信号(声道数目为R),首先将每个声道的音频信号采用汉明窗进行分帧,帧长为L,帧移为M,从而把音频信号分成N帧,顺序排列后得到每个声道的帧序列;
以5.1声道的空间音频信号为例,则R的取值为6,这里取值帧长为L=960个样点,帧移为M=480个样点,音频信号分帧为N=899帧;
步骤二:对每个声道,对分帧后的每帧音频信号分别进行DCT离散余弦变换(也可以是其他的正交变换),每帧音频信号经过DCT变换后得到S个DCT系数,即频域系数;
作为优选,S的取值与帧长相等,即S=960;
如果S≤L则步骤七恢复每帧音频信号的时候频域补值,如果S>=L则变换时时域补值;
步骤三:对每个声道,将每一帧所对应的长度为S的频域系数作为矩阵的每一行,即将N帧音频信号的频域系数构成一个大小为N×S的系数矩阵;
将所有R个声道的系数矩阵进行依次排列,构成大小为R×N×S的三阶张量信号X,所述的三阶分别称为:声道序列阶、帧序列阶、频域系数阶;该三阶张量信号X如图2所示;
步骤四:对步骤三构造的三阶张量信号X进行张量分解,分解表示为:
1U(1)×2U(2)×3U(3)    (1)
其中U(1)、U(2)、U(3)彼此之间正交,分别代表张量信号在声道序列阶、帧序列阶、频域系数阶上进行投影的主分量,即,
U(1)为该张量信号分解时在声道序列阶进行秩为O的低秩投影矩阵,矩阵大小为R×O,其中参数O应满足1≤O≤R;
U(2)为该张量信号分解时在帧序列阶进行秩为P的低秩投影矩阵,大小为N×P,其中参数P应满足1≤P≤N;
U(3)为张量信号分解时在频域系数阶进行的秩为Q的低秩投影矩阵,大小为S×Q,其中参数Q应满足1≤Q≤S;
由于受到信号平稳性的影响,帧序列阶上的低秩投影过程对多声道音频信号的重建质量的影响相比其他两个阶上的低秩投影过程影响较大,所以在帧序列阶上可以不进行低秩投影,亦即P=N=899;而其他两个阶上可以进行较大程度的低秩投影,从而得到较大程度的压缩效果;即低秩投影的优选取值方式为:
1≤O<R,P=N;1≤Q<S;
G为三阶低秩核张量,在声道序列、帧序列、频域系数对应各阶上的维度分别是上述的O、P、Q,核张量G通过下式计算得到:
G=X×1U(1)T×2U(2)T×3U(3)T    (2)
,符号T表示伪逆,×1、×2、×3分别表示张量第一阶、第二阶、第三阶的张量矩阵乘,张量矩阵乘定义如下:设有一个大小为I1×I2×…×IN的N阶张量H,一个大小为J×In的矩阵A,则张量的n阶(1≤n≤N)矩阵乘为H×nA的结果是一个大小为I1×I2×…×In-1×J×In+1×…×IN的N阶张量;
作为优选,上述张量分解进行低秩近似的过程采用Evrim Acar等人在文献《An Optimization Approach for Fitting Canonical Tensor Decompositions》中13-14页所提出的ALS交替最小二乘法获得,但此处不限于采用交替最小二乘法;或者或者采用Lathauwera等人在《a multilinear singular value decomposition》中所提到的HOSVD高阶奇异值分解的方法。
步骤五:对步骤四得到的低秩核张量G进行降维获得一维序列,然后对该一维序列进行量化编码,获得压缩后的比特流数据,用于传输或存储,而低秩投影矩阵U(1)、U(2)、U(3)不进行量化编码处理;
步骤六:在解码端,对压缩后的比特流数据进行与步骤五中量化编码方法相应的解码和解量化,再进行与步骤五相应的升维处理,得到恢复后的低秩核张量G';
结合预先训练得到的三个低秩投影矩阵U'(1)、U′(2)、U′(3),进行张量信号重构得到恢复后的三阶张量信号Y,重构表示为:
Y=G′×1U'(1)×2U'(2)×3U'(3)    (4)
其中张量信号Y在声道序列阶、帧序列阶、频域系数阶上的维度分别是R、N、S;
步骤六中所述预先训练得到三个低秩投影矩阵U′(1)、U′(2)、U′(3)的方法为:选取V组多声道音频信号,每组的声道数目均为R个,对每组多声道音频信号重复所述的步骤一、二、三、四,得到V组低秩投影矩阵Uv (1)、Uv (2)、Uv (3),其中1≤v≤V,将V组低秩投影矩阵Uv (1)、Uv (2)、Uv (3)分别进行平均,即得到训练后的低秩投影矩阵U′(1)、U′(2)、U′(3)
步骤七:步骤六得到的张量信号Y中包含R个声道的N个帧,其中每帧长度为S,从Y中抽取每个声道的N×S系数矩阵,对矩阵的每行的S个数据,分别进行反离散余弦变换IDCT得到恢复的每帧音频信号;
步骤八:将步骤七反变换得到的每个声道的每帧的音频信号通过交叠相加恢复每个声道的音频信号,帧长为L,帧间交叠长度为M,获得所有R个声道的音频信号恢复后多声道音频信号。
为了进一步说明步骤四—步骤六,具体说明各参数的关系:三阶张量信号X的大小为6×899×960(声道序列×帧序列×频域系数),张量信号X分解时对声道序列阶进行秩O=1近似,帧序列阶进行秩P=899近似,频域系数阶进行秩Q=200近似,张量信号X进行张量分解后得到1×899×200的低秩核张量G,该核张量中的每个元素进行量化编码后传给解码端;在解码端经过解码和解量化恢复后的1×899×200的低秩核张量与事先训练得到的低秩投影矩阵结合恢复原始张量信号,其中训练过程是选取10条多声道音频样本,对每条样本通过时频变换和张量分解得到一组低秩投影矩阵,最后将得到的10组低秩投影矩阵进行平均用于解码端的张量信号重构过程。
本发明方法当三阶低秩核张量G的大小不同时所获得的压缩效率不同,这里用压缩百分比来衡量不同O和Q取值时的压缩效果,用MUSHRA主观质量测试方法衡量不同O和Q取值时的解码输出音质表现,分数越高质量越好;选取6条测试用的5.1声道音频信号进行实验,实验结果见表1和图3;实验结果显示当O=2,Q=400时压缩百分比为86.1%,而主观质量可以达到78.7的良好程度,大量实验表明本发明利用张量分解进行多声道音频信号压缩的方法能够在可接受的音质情况下提供很高的压缩效率。
表15.1声道音频信号压缩百分比的结果表格
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换和替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (8)

1.一种基于张量分解的多声道音频信号压缩方法,其特征在于,包括以下步骤:
步骤一:在编码端,对待处理的声道数目为R的多声道音频信号,首先将每个声道的音频信号采用汉明窗进行分帧,帧长为L,帧移为M,从而把每个声道的音频信号分成N帧,顺序排列后得到每个声道的帧序列;
步骤二:对每个声道,对分帧后的每帧音频信号分别进行时频变换,每帧音频信号经过该时频变换后得到长度为S的频域系数;
步骤三:对每个声道,将每一帧所对应的长度为S的频域系数作为矩阵的每一行,即将N帧音频信号的频域系数构成一个大小为N×S的系数矩阵;
将所有R个声道的系数矩阵进行依次排列,构成大小为R×N×S的三阶张量信号X,所述的三阶分别称为:声道序列阶、帧序列阶、频域系数阶;
步骤四:对步骤三构造的三阶张量信号X进行张量分解,即分解为:
1U(1)×2U(2)×3U(3)       (1)
其中U(1)、U(2)、U(3)彼此之间正交,分别代表张量信号在声道序列阶、帧序列阶、频域系数阶上进行投影的主分量,即,
U(1)为该张量信号分解时在声道序列阶进行秩为O的低秩投影矩阵,矩阵大小为R×O,其中参数O应满足1≤O≤R;
U(2)为该张量信号分解时在帧序列阶进行秩为P的低秩投影矩阵,大小为N×P,其中参数P应满足1≤P≤N;
U(3)为张量信号分解时在频域系数阶进行的秩为Q的低秩投影矩阵,大小为S×Q,其中参数Q应满足1≤Q≤S;
G为三阶低秩核张量,在声道序列阶、帧序列阶、频域系数阶上的维度分别是上述的O、P、Q,核张量G通过下式计算得到:
G=X×1U(1)T×2U(2)T×3U(3)T       (2)
符号T表示伪逆,×1、×2、×3分别表示张量第一阶、第二阶、第三阶的张量矩阵乘,张量矩阵乘定义如下:
设有一个大小为I1×I2×…×IN的N阶张量H,一个大小为J×In的矩阵A,则张量的n阶矩阵乘H×nA的结果是一个大小为I1×I2×…×In-1×J×In+1×…×IN的N阶张量,其中1≤n≤N;
步骤五:对步骤四得到的三阶低秩核张量G进行降维获得一维序列,然后对该一维序列进行量化编码,获得压缩后的比特流数据,用于传输或存储,而低秩投影矩阵U(1)、U(2)、U(3)不进行量化编码处理;
步骤六:在解码端,对压缩后的比特流数据进行与步骤五中量化编码方法相应的解码和解量化,再进行与步骤五相应的升维处理,得到恢复后的低秩核张量G';
结合预先训练得到的三个低秩投影矩阵U'(1)、U'(2)、U'(3),进行张量信号重构得到恢复后的三阶张量信号Y,重构表示为:
Y=G'×1U'(1)×2U'(2)×3U'(3)       (4)
其中张量信号Y在声道序列阶、帧序列阶、频域系数阶上的维度分别是R、N、S;
步骤七:步骤六得到的R×N×S的三阶张量信号Y中包含R个声道的N个帧,其中每帧长度为S,从Y中抽取每个声道的N×S系数矩阵,对矩阵的每行的S个数据,分别进行与步骤二相应的时频反变换,得到恢复的每帧音频信号;
步骤八:将步骤七得到的每个声道的每帧音频信号通过交叠相加恢复每个声道的音频信号,帧长为L,帧间交叠长度为M。
2.根据权利要求1所述一种基于张量分解的多声道音频信号压缩方法,其特征在于,步骤二所述的时频变换为正交变换。
3.根据权利要求1或2所述一种基于张量分解的多声道音频信号压缩方法,其特征在于,若步骤二所述的时频变换采用离散余弦变换DCT,则步骤七所述的时频反变换采用反离散余弦变换IDCT。
4.根据权利要求1所述一种基于张量分解的多声道音频信号压缩方法,其特征在于,步骤四中,所述张量分解时求取低秩投影矩阵采用ALS交替最小二乘法,或者采用HOSVD高阶奇异值分解的方法。
5.根据权利要求1所述一种基于张量分解的多声道音频信号压缩方法,其特征在于,步骤六中所述预先训练得到三个低秩投影矩阵U'(1)、U'(2)、U'(3)的方法为:选取V组多声道音频信号,每组的声道数目均为R个,对每组多声道音频信号重复所述的步骤一、二、三、四,得到V组低秩投影矩阵Uv (1)、Uv (2)、Uv (3),其中1≤v≤V,将V组低秩投影矩阵Uv (1)、Uv (2)、Uv (3)分别进行平均,即得到训练后的低秩投影矩阵U'(1)、U'(2)、U'(3)
6.根据权利要求5所述一种基于张量分解的多声道音频信号压缩方法,其特征在于,步骤六中,V≥10。
7.根据权利要求1所述一种基于张量分解的多声道音频信号压缩方法,其特征在于,步骤二中,
若每帧音频信号补零后进行时频变换,则S大于L;
若每帧音频信号直接进行时频变换,则S等于L;
若每帧音频信号直接进行时频变换后只保留能量较大的频域系数,则S小于L;
若每帧音频信号补零后进行时频变换后只保留能量较大的频域系数,则S的大小视具体补零的长度以及保留频域系数的个数而定。
8.根据权利要求1所述一种基于张量分解的多声道音频信号压缩方法,其特征在于,步骤四中,在帧序列阶上不进行低秩投影,即P=N,而在声道序列阶和频域系数阶上进行低秩投影,即1≤O<R且1≤Q<S。
CN201210579570.1A 2012-12-27 2012-12-27 一种基于张量分解的多声道音频信号压缩方法 Active CN102982805B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210579570.1A CN102982805B (zh) 2012-12-27 2012-12-27 一种基于张量分解的多声道音频信号压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210579570.1A CN102982805B (zh) 2012-12-27 2012-12-27 一种基于张量分解的多声道音频信号压缩方法

Publications (2)

Publication Number Publication Date
CN102982805A CN102982805A (zh) 2013-03-20
CN102982805B true CN102982805B (zh) 2014-11-19

Family

ID=47856715

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210579570.1A Active CN102982805B (zh) 2012-12-27 2012-12-27 一种基于张量分解的多声道音频信号压缩方法

Country Status (1)

Country Link
CN (1) CN102982805B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2824661A1 (en) 2013-07-11 2015-01-14 Thomson Licensing Method and Apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals
CN104318064B (zh) * 2014-09-26 2018-01-30 大连理工大学 基于典范多元分解的头相关脉冲响应三维数据压缩方法
CN104408040B (zh) * 2014-09-26 2018-01-09 大连理工大学 头相关函数三维数据压缩方法与系统
CN104934038A (zh) * 2015-06-09 2015-09-23 天津大学 一种基于稀疏化表示的空间音频编解码方法
CN107895580B (zh) * 2016-09-30 2021-06-01 华为技术有限公司 一种音频信号的重建方法和装置
CN106710600B (zh) * 2016-12-16 2020-02-04 广州广晟数码技术有限公司 多声道音频信号的去相关编码方法和装置
CN107068157B (zh) * 2017-02-21 2020-04-10 中国科学院信息工程研究所 一种基于音频载体的信息隐藏方法及系统
CN106981292B (zh) * 2017-05-16 2020-04-14 北京理工大学 一种基于张量建模的多路空间音频信号压缩和恢复方法
CN107610710B (zh) * 2017-09-29 2021-01-01 武汉大学 一种面向多音频对象的音频编码及解码方法
CN108322858B (zh) * 2018-01-25 2019-11-22 中国科学技术大学 基于张量分解的多麦克风语音增强方法
CN108595927B (zh) * 2018-04-04 2023-09-19 北京市商汤科技开发有限公司 身份认证、解锁及支付方法、装置、存储介质、产品和设备
CN110557350A (zh) * 2018-06-04 2019-12-10 索尼公司 电子设备和通信方法
CN110035299B (zh) * 2019-04-18 2021-02-05 雷欧尼斯(北京)信息技术有限公司 沉浸式对象音频的压缩传输方法与系统
CN112669861B (zh) * 2020-12-09 2023-04-07 北京百度网讯科技有限公司 音频数据处理方法、装置、设备和存储介质
CN114302150B (zh) * 2021-12-30 2024-02-27 北京超维景生物科技有限公司 视频编码方法及装置、视频解码方法及装置、电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1119902A (zh) * 1993-12-07 1996-04-03 索尼公司 用于压缩的方法和装置,用于传输的方法以及用于扩展被压缩多声道声音信号的方法和装置,和用于被压缩多声道声音信号的记录媒体
CN102143001A (zh) * 2011-04-02 2011-08-03 西南科技大学 一种基于语义理解的音频资源管理方法
CN102664010A (zh) * 2012-05-04 2012-09-12 山东大学 一种基于多因素频率位移不变特征的鲁棒说话人辨别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1119902A (zh) * 1993-12-07 1996-04-03 索尼公司 用于压缩的方法和装置,用于传输的方法以及用于扩展被压缩多声道声音信号的方法和装置,和用于被压缩多声道声音信号的记录媒体
CN102143001A (zh) * 2011-04-02 2011-08-03 西南科技大学 一种基于语义理解的音频资源管理方法
CN102664010A (zh) * 2012-05-04 2012-09-12 山东大学 一种基于多因素频率位移不变特征的鲁棒说话人辨别方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
A MULTILINEAR SINGULAR VALUE DECOMPOSITION;LIEVEN DE LATHAUWER et al.;《SIAM J. MATRIX ANAL. APPL.》;20001231;第21卷(第4期);1253–1278 *
LIEVEN DE LATHAUWER et al..A MULTILINEAR SINGULAR VALUE DECOMPOSITION.《SIAM J. MATRIX ANAL. APPL.》.2000,第21卷(第4期),1253–1278. *
Siep Weiland et al..Singular Value Decompositions and Low Rank Approximations of Tensors.《IEEE TRANSACTIONS ON SIGNAL PROCESSING》.2010,第58卷(第3期),1171-1182. *
Singular Value Decompositions and Low Rank Approximations of Tensors;Siep Weiland et al.;《IEEE TRANSACTIONS ON SIGNAL PROCESSING》;20100331;第58卷(第3期);1171-1182 *
Tamara G. Kolda et al..Tensor Decompositions and Applications.《SIAM REVIEW》.2009,第51卷(第3期),455–500. *
Tensor Decompositions and Applications;Tamara G. Kolda et al.;《SIAM REVIEW》;20091231;第51卷(第3期);455–500 *
基于张量Tucker分解的彩色图像压缩;王东方等;《四川大学学报(自然科学版)》;20100331;第47卷(第2期);287-292 *
王东方等.基于张量Tucker分解的彩色图像压缩.《四川大学学报(自然科学版)》.2010,第47卷(第2期),287-292. *

Also Published As

Publication number Publication date
CN102982805A (zh) 2013-03-20

Similar Documents

Publication Publication Date Title
CN102982805B (zh) 一种基于张量分解的多声道音频信号压缩方法
CN106981292B (zh) 一种基于张量建模的多路空间音频信号压缩和恢复方法
CN104285390B (zh) 压缩和解压缩高阶高保真度立体声响复制信号表示的方法及装置
CN103237204A (zh) 基于高维压缩感知的视频信号采集与重构系统
TW201603006A (zh) 寫碼自高階立體混響聲音訊信號分解之向量
CN107610710B (zh) 一种面向多音频对象的音频编码及解码方法
TW201601144A (zh) 選擇碼簿以用於寫碼自高階立體混響音訊信號分解之向量
CN105761290A (zh) 一种自适应的多尺度分块压缩感知采样方法
CN113689513B (zh) 一种基于鲁棒张量分解的sar图像压缩方法
Liutkus et al. Informed audio source separation: A comparative study
CN102572427B (zh) 基于压缩感知的多描述图像编码和解码方法
CN102428512A (zh) 下混装置、编码装置以及其方法
CN105206277A (zh) 基于单比特压缩感知的语音压缩方法
CN106471576A (zh) 较高阶立体混响系数的闭环量化
CN103065634B (zh) 基于感知特性的三维音频空间参数的量化方法
CN102682779B (zh) 面向3d音频的双声道编解码方法和编解码器
CN102665076B (zh) 一种重叠变换后置滤波器的构造方法
CN102055974B (zh) 数据压缩、解压缩方法、装置及系统
CN108417219B (zh) 一种适应于流媒体的音频对象编解码方法
CN101604983B (zh) 编解码装置、系统及其方法
CN100520765C (zh) 确定给定变换函数的变换元素的过程和设备,数字信号变换方法和设备及计算机可读介质
CN103400582A (zh) 面向多声道三维音频的编解码方法与系统
CN112365896B (zh) 一种基于栈式稀疏自编码器的面向对象编码方法
CN104347077B (zh) 一种立体声编解码方法
CN113990335A (zh) 一种基于压缩感知的音频编解码方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant