CN104240712B

CN104240712B - 一种三维音频多声道分组聚类编码方法及系统

Info

Publication number: CN104240712B
Application number: CN201410524784.8A
Authority: CN
Inventors: 胡瑞敏; 张茂胜; 姚雪春; 王晓晨; 姜林; 涂卫平; 王松; 杨乘
Original assignee: Shenzhen Research Institute of Wuhan University
Current assignee: Shenzhen Research Institute of Wuhan University
Priority date: 2014-09-30
Filing date: 2014-09-30
Publication date: 2018-02-02
Anticipated expiration: 2034-09-30
Also published as: CN104240712A

Abstract

本发明涉及一种三维音频多声道分组聚类编码方法及系统，利用同一声源同组扬声器信号子带包络结构相似性的特点，提出一种基于子带频点极值包络相似性计算方法进行动态的三维音频分组下混，分组计算复杂度远低于传统的声道间相关性计算方法，但准确率相当。相比现有多声道下混编码方法，本方法能有效地将形成主要声像的多个扬声器进行分组，保证分组扬声器提取的空间参数信息更好地描述实际声像的空间位置信息，解决固定分组参数提取方法中带来的信息混叠问题。

Description

一种三维音频多声道分组聚类编码方法及系统

技术领域

本发明涉及音频编码技术领域，尤其涉及一种三维音频多声道分组聚类编码方法及系统。

背景技术

在传统的立体声和环绕声编码方法中，参与下混的声道对信号相关性强，参数编码能提供较高的压缩比的同时提高较好的音质。三维音频环境下声道数目多，声道内容复杂，声道间关联复杂。形成同一声像的扬声器分组具有信号相关性最强，扬声器分组不固定、且扬声器分组不固定依赖于物理最近邻原则等特点。现有的三维多声道参数编码主要基于固定的扬声器分组或基于能量高低对扬声器进行分组聚类，提取声像的空间参数信息，以最简单的方式考虑三维音频的声道间相关性，分组方法缺乏理论指导，无法完整揭示三维音频信号的空间聚类性，在三维音频下信号去冗余的效果降低，同时不相关声道下混还会导致信息混叠。因此，从现有的简单分析声道间的空间位置关联性到分析更本质的声道间的音源对象关联性，研究面向声源的声道间空间关联特性，找到形成同一声像的相关性最强的最优扬声器分组，将是三维多声道音频参数编码中，准确进行声源空间参数提取的关键之一。

发明内容

本发明的目的是提供一种三维音频多声道分组聚类编码系统及方法，使得在多声道下混编码中，找到形成同一声像的相关性最强的最优扬声器分组，从而使得虚拟声源空间参数提取更准确，有效去除声道间信号冗余。

为达到上述目的，本发明提供一种三维音频多声道分组聚类编码方法，包括以下步骤：

S1，对N个声道输入信号进行预处理，得到N个声道的当前帧的音频信号S₁,...,S_N；

S2，由步骤S1所得音频信号S₁,...,S_N，进行时频变换得到频谱系数X₁,...,X_N；

S3，对步骤S2所得频谱系数X₁,...,X_N进行子带划分，得到N个声道的子带频谱系数X₁(k),...,X_N(k)，k∈{1,...,K}，K为每个声道每帧信号时频变换后的频点总数；

S4，根据步骤S3得到的N个声道的子带频谱系数X₁(k),...,X_N(k)，计算得到两两声道间的相关性系数R_ij；

S5，根据步骤S4得到的两两声道间的相关性系数R_ij，对N个声道信号进行聚类分组，得到M个分组G₁,...,G_M；

S6，根据步骤S5得到M个分组信息，进行熵编码，将编码结果作为码流的一部分输出给解码端；

S7，根据步骤S5得到M个分组信息，对步骤S3得到的每个声道的子带频谱系数X₁(k),...,X_N(k)进行下混，得到M组下混声道信号；

S8，根据步骤S7得到的M组下混声道信号，利用现有的通用音频编码方法进行量化编码，将编码结果作为码流的一部分输出给解码端；

S9，根据步骤S5得到M个分组信息，对每个分组内的声道进行空间参数提取，得到M组空间参数；

S10，根据步骤S9得到的M组空间参数，利用现有的通用音频编码方法对空间参数进行编码，将编码结果作为码流的一部分输出给解码端。

所述步骤S4进一步包括以下子步骤，

S4.1，根据步骤S3得到的N个声道的子带频谱系数X₁(k),...,X_N(k)，k∈{1,...,K}，K为每个声道每帧信号时频变换后的频点总数，计算每个声道的L个频谱极大值点n∈{1,...,N}，l∈{1,...,L}；

S4.2，根据步骤S4.1得到的每个声道的L个频谱极大值点{X_n(L₁),…,X_n(L_l),…,X_n(L_L)}，得到每个声道的对应频点编号的集合n∈{1,...,N}，N为声道个数，K为每个声道每帧信号时频变换后的频点总数；

S4.3，根据步骤S4.2得到的所有声道的对应频点编号的集合，对第i和j个声道的频点编号的集合D_i和D_j，求取得到两个集合元素的交集D_i∩D_j，i≠j，i，j∈{1，...，N}，统计得到交集元素的个数C_ij；

S4.4，根据步骤S4.3得到的两两声道频谱极大值点对应频点交集个数C_ij，计算得到两两声道间的相关性系数R_ij＝C_ij/K。

步骤S5包括以下子步骤，

S5.1，根据步骤S4得到的两两声道间的相关性系数R_ij∈U,U＝{R₁₂,R₁₃,...,R_1N,R₂₃,...R_2N,...,R_(N-1)N}，i,j∈{1,...,N},i≠j，求取U的最大值Max(U)为R_ab，放入相关性系数最大值集合SU，同时从U中删除掉下标中含有a或b的所有元素，得到剩下的元素组成新的集合U；

S5.2，根据新的集合U，重复步骤S5.1，直到得到N/2个按从大到小顺序排列的两两声道相关性系数的排序结果SU＝{R₁,R₂,...,R_N/2}；

S5.3，按步骤S5.2得到的两两声道间的相关性排序结果SU＝{R₁,R₂,...,R_N/2}，对N个扬声器信号进行聚类分组，逐一将相关性最强的两个声道分为一组，依次得到M-1个分组，然后将剩下的声道分为第M组，最终得到M个分组信息G₁,...,G_M

一种三维音频多声道分组聚类编码系统，包括以下模块：

预处理模块，用于对N个声道输入信号进行预处理，得到N个声道的当前帧的音频信号S₁,...,S_N输出给时频变换模块；

时频变换模块，用于对从预处理模块输入的音频信号S₁,...,S_N进行时频变换，得到频谱系数X₁,...,X_N，输出给子带划分模块；

子带划分模块，用于对时频变换模块输入的频谱系数X₁,...,X_N进行子带划分，得到N个声道的子带频谱系数X₁(k),...,X_N(k)，分三路输出，一路输出给声道相关性分析模块，一路输出给空间参数提取模块，一路输出给分组下混模块；

声道相关性分析模块，用于对N个声道的频谱系数X₁,...,X_N进行分析，得到声道间的相关性系数，输出给聚类分组模块；

聚类分组模块，根据声道间的相关性，对N个声道信号进行聚类分组，将得到的分组信息分三路输出，一路输出给分组信息量化编码模块，一路输出给分组下混模块，一路输出给空间参数提取模块；

分组信息量化编码模块，用于对N个声道的分组信息进行量化编码，将编码结果作为码流的一部分输出给解码端；

分组下混模块，根据N个声道的分组信息，对N个声道进行下混，得到下混声道信号，输出给下混信号量化编码模块；

下混信号量化编码模块，对下混声道信号进行编码，将编码结果作为码流的一部分输出给解码端；

空间参数提取模块，根据N个声道的分组信息，对每个分组中的声道信号提取空间参数，输出给空间参数量化编码模块；

空间参数量化编码模块，对提取出的空间参数进行量化编码，将编码结果作为码流的一部分输出给解码端。

本发明针对现有多声道下混编码方法中使用简单的固定分组下混不能有效地利用三维音频信号的空间聚类特性，会导致三维音频信号去冗余效果降低，不相关的声道分组进行空间参数提取会造成重建空间音质受损的问题，利用同一声源同组扬声器信号子带包络结构相似性的特点，提出一种基于子带频点极值包络相似性计算方法进行动态的三维音频分组下混，分组计算复杂度远低于相关性计算方法，但准确率相当，该方法能有效地将形成主要声像的多个扬声器进行分组，保证分组扬声器提取的空间参数信息更好地描述实际声像的空间位置信息，解决固定分组参数提取方法中带来的信息混叠问题。

附图说明

图1是本发明实施例提供的三维音频多声道分组聚类编码方法的原理框图。

具体实施方式

下面结合附图和实施例详细对本发明提供的三维音频多声道分组聚类编码方法及系统进行详细描述。

具体实施时，本发明所提供系统可采用计算机软件模块化技术实现。参见图1，本发明提供了一种三维音频多声道分组聚类编码方法，具体步骤包括：

在步骤S1中，对N个声道输入信号进行预处理，具体包括高通滤波、分帧处理，将输入信号101送入高通滤波器，滤除50Hz以下的低频信号；以20ms为一帧读取采样数据作为当前帧数据；得到N个声道的当前帧的音频信号S₁,...,S_N，即音频信号102下标1表示第1个声道，下标N表示第N个声道；

在步骤S2中，由步骤S1所得音频信号S₁,...,S_N，进行256点的FFT时频变换，得到每一帧各自256个频谱系数X₁,...,X_N，即频谱系数103；

在步骤S3，对步骤S2所得频谱系数X₁,...,X_N进行子带划分，将整个频谱均匀划分为16个子带，每个子带16个频谱系数，得到N个声道的子带频谱系数X₁(k),...,X_N(k),即信号104，k∈{1,...,K}，K＝256，为每个声道每帧信号时频变换后的频点总数；

在步骤S4中，根据步骤S3得到的N个声道的子带频谱系数X₁(k),...,X_N(k)，计算得到两两声道间的相关性系数R_ij，i和j对应声道编号，i≠j,i,j∈{1,...,N}，即信号105；

在步骤S5中，根据步骤S4得到的两两声道间的相关性系数R_ij，对N个声道信号进行聚类分组，得到M个分组G₁,...,G_M，即信号106；

在步骤S6中，根据步骤S5得到的M个分组信息，进行熵编码，采用现有技术中的差分Huffman编码，得到编码结果，将编码结果作为码流的一部分输出给解码端；

在步骤S7中，对于步骤S3得到的N个声道的子带频谱系数X₁(k),...,X_N(k)，即信号104，根据步骤S5得到的M个分组信息，即信号106，对每个分组内的声道进行下混，得到M组下混声道信号，即信号108；

在步骤S8中，根据步骤S7得到的M组下混声道信号，利用现有的通用音频编码方法进行量化编码，将编码结果作为码流的一部分输出给解码端；

在步骤S9中，根据步骤S5得到M个分组信息，对每个分组内的声道进行空间参数提取，得到M组空间参数，即信号107；

在步骤S10中，根据步骤S9得到的M组空间参数，进行利用现有的通用音频编码方法对空间参数进行编码，将编码结果作为码流的一部分输出给解码端。

其中，步骤S4进一步包括以下子步骤，

步骤S4.1，根据步骤S3得到的N个声道的子带频谱系数X₁(k),...,X_N(k)，k∈{1,...,K}，K为每个声道每帧信号时频变换后的频点总数，计算每个声道的L个频谱极大值点n∈{1,...,N}，l∈{1,...,L}；

步骤S4.2，根据步骤S4.1得到的每个声道的L个频谱极大值点{X_n(L₁),…,X_n(L_l),…,X_n(L_L)}，得到每个声道的对应频点编号的集合n∈{1,...,N}，N为声道个数，K为每个声道每帧信号时频变换后的频点总数；

步骤S4.3，根据步骤S4.2得到的所有声道的对应频点编号的集合，对第i和j个声道的频点编号的集合D_i和D_j，求取得到两个集合元素的交集D_i∩D_j,i≠j,i,j∈{1,...,N}，统计得到交集元素的个数C_ij；

步骤S4.4，根据步骤S4.3得到的两两声道频谱极大值点对应频点交集个数C_ij，计算得到两两声道间的相关性系数R_ij＝C_ij/K。

进一步，步骤S5进一步包括以下子步骤，

步骤S5.1，根据步骤S4得到的两两声道间的相关性系数R_ij∈U,U＝{R₁₂,R₁₃,...,R_1N,R₂₃,...R_2N,...,R_(N-1)N}，i,j∈{1,...,N},i≠j，求取U的最大值Max(U)为R_ab，放入相关性系数最大值集合SU，同时从U中删除掉下标中含有a或b的所有元素，得到剩下的元素组成新的集合U；

步骤S5.2，根据新的集合U，重复步骤S5.1，直到得到N/2个按从大到小顺序排列的两两声道相关性系数的排序结果SU＝{R₁,R₂,...,R_N/2}；

步骤S5.3，按步骤S5.2得到的两两声道间的相关性排序结果SU＝{R₁,R₂,...,R_N/2}，对N个扬声器信号进行聚类分组，逐一将相关性最强的两个声道分为一组，依次得到M-1个分组，然后将剩下的声道分为第M组，最终得到M个分组信息G₁,...,G_M。

一种三维音频多声道分组聚类编码系统，包括以下模块：

预处理模块，用于对N个声道输入信号进行预处理，得到N个声道的当前帧的音频信号S₁,...,S_N输出给时频变换模块。

实施例中，预处理模块对输入的多声道音频信号(即音频原始信号101)进行预处理，而预处理一般具体包括高通滤波、分帧处理，将输入信号(101)送入高通滤波器，滤除50Hz以下的低频信号；以20ms为一帧读取采样数据作为当前帧数据；输出信号为N个声道的当前帧的音频信号S₁,...,S_N(即预处理后信号102)，下标1表示第1个声道，下标N表示第N个声道。

时频变换模块：预处理后的N个声道的信号作为本模块的输入，用于对从预处理模块输入的音频信号S₁,...,S_N进行现有技术中通用的时频变换，得到频谱系数X₁,...,X_N，输出给子带划分模块。

实施例中，时频变换模块对预处理模块的输出结果S₁,...,S_N(102)，进行FFT变换，得到每一帧各自的频谱系数X₁,...,X_N。

子带划分模块：时频变换模块得到的预处理后的频域的音频信号作为本模块的输入，采用现有技术中通用的子带划分方法，得到N个声道的子带频谱系数，分三路输出，一路输出给声道相关性分析模块，一路输出给空间参数提取模块，一路输出给分组下混模块。

实施例中，子带划分模块对时频变换模块得到的频谱系数X₁,...,X_N，进行子带划分，实施例将整个频谱均匀划分为16个子带，每个子带16个频谱系数，得到N个声道的子带频谱系数X₁(k),...,X_N(k)，k∈{1,...,K}，K＝256，为频点总数。

声道相关性分析模块，用于对N个声道的频谱系数进行分析，得到声道间的相关性系数，输出给聚类分组模块。

实施例中，对于N个声道的子带频谱系数X₁(k),...,X_N(k)(104)，计算每个声道的L个频谱极大值点n∈{1,...,N}，l∈{1,...,L}，得到每个声道的对应频点编号的集合n∈{1,...,N}，N为声道个数，K为频点总数，对第i和j个声道的频点编号的集合D_i和D_j，求取得到两个集合元素的交集D_i∩D_j，i≠j，i，j∈{1，...，N}，统计得到交集元素的个数C_ij，计算得到两两声道间的相关性系数R_ij＝C_ij/K。

聚类分组模块，根据声道相关性分析模块得到的两两声道间的相关性系数R_ij，对N个声道信号进行聚类分组，将得到的分组信息分三路输出，一路输出给分组信息量化编码模块，一路输出给分组下混模块，一路输出给空间参数提取模块。

实施例中，根据声道相关性分析模块得到的两两声道间的相关性系数R_ij，得到的两两声道间的相关性系数R_ij∈U,U＝{R₁₂,R₁₃,...,R_1N,R₂₃,...R_2N,...,R_(N-1)N}，i,j∈{1,...,N},i≠j，求取U的最大值Max(U)为R_ab，放入相关性系数最大值集合SU，同时从U中删除掉下标中含有a或b的所有元素，得到剩下的元素组成新的集合U；根据新的集合U，重复上述步骤，直到得到N/2个按从大到小顺序排列的两两声道相关性系数的排序结果SU＝{R₁,R₂,...,R_N/2}；依照此结果对N个扬声器信号进行聚类分组，逐一将相关性最强的两个声道分为一组，依次得到M-1个分组，然后将剩下的声道分为第M组，最终得到M个分组信息G₁,...,G_M。

分组信息量化编码模块，用于对N个声道的分组信息进行量化编码，将编码结果作为码流的一部分输出给解码端。实施例中，对于聚类分组模块得到的M个分组信息，利用现有的熵编码方法进行量化编码，实施例采用现有技术中的差分Huffman编码，得到编码结果，将编码结果作为码流的一部分输出给解码端。

分组下混模块，根据N个声道的分组信息，对N个声道进行下混，得到下混声道信号，输出给下混信号量化编码模块。实施例中，对N个声道的子带频谱系数，根据聚类分组模块得到的M个分组信息，对每个分组内的声道信号，采用现有通用的空间音频编码下混方法进行声道信号下混，得到M组下混声道信号。

下混信号量化编码模块，对下混声道信号进行编码，将编码结果作为码流的一部分输出给解码端。实施例中，对分组下混模块得到的M组下混声道信号，利用现有的通用音频编码方法进行量化编码，将编码结果作为码流的一部分输出给解码端。

空间参数提取模块，根据N个声道的分组信息，对每个分组中的声道信号提取空间参数，输出给空间参数量化编码模块。实施例中，对N个声道的子带频谱系数，根据聚类分组模块得到的M个分组信息，对每个分组内的声道，利用现有通用的空间参数提取方法按子带提取虚拟声源空间参数，得到M组下混声道信号提取的空间参数。

空间参数量化编码模块，对提取出的空间参数进行量化编码，将编码结果作为码流的一部分输出给解码端。实施例中，对于空间参数提取模块得到的M组下混声道信号提取的空间参数，进行利用现有的通用音频编码方法对空间参数进行编码，将编码结果作为码流的一部分输出给解码端。

以上实施例仅供说明本发明之用，而非对本发明的限制，有关技术领域的技术人员，在不脱离本发明的精神和范围的情况下，还可以作出各种变换或变型，因此所有等同的技术方案，都落入本发明的保护范围。

Claims

1.一种三维音频多声道分组聚类编码方法，其特征在于，包括以下步骤：

2.根据权利要求1所述三维音频多声道分组聚类编码方法方法，其特征在于：所述步骤S4进一步包括以下子步骤，

S4.1，根据步骤S3得到的N个声道的子带频谱系数X₁(k),...,X_N(k)，k∈{1,...,K}，K为每个声道每帧信号时频变换后的频点总数，计算每个声道的L个频谱极大值点

S4.2，根据步骤S4.1得到的每个声道的L个频谱极大值点{X_n(L₁),…,X_n(L_l),…,X_n(L_L)}，得到每个声道的对应频点编号的集合N为声道个数，K为每个声道每帧信号时频变换后的频点总数；

3.根据权利要求1或2所述三维音频多声道分组聚类编码方法方法，其特征在于：步骤S5包括以下子步骤，

S5.3，按步骤S5.2得到的两两声道间的相关性排序结果SU＝{R₁,R₂,...,R_N/2}，对N个扬声器信号进行聚类分组，逐一将相关性最强的两个声道分为一组，依次得到M-1个分组，然后将剩下的声道分为第M组，最终得到M个分组信息G₁,...,G_M。

4.一种三维音频多声道分组聚类编码系统，其特征在于，包括以下模块：