CN116778936A

CN116778936A - 一种基于混沌映射与人耳模型的音频压缩与恢复方法

Info

Publication number: CN116778936A
Application number: CN202311033776.9A
Authority: CN
Inventors: 区伟洪
Original assignee: Smart Glory Electronics Shenzhen Co ltd
Current assignee: Smart Glory Electronics Shenzhen Co ltd
Priority date: 2023-08-17
Filing date: 2023-08-17
Publication date: 2023-09-19

Abstract

本发明涉及音频压缩技术领域，具体地说，涉及一种基于混沌映射与人耳模型的音频压缩与恢复方法。其包括以下步骤：使用离散傅里叶变换将原始音频信号转换为频域表示、使用混沌映射算法、使用混沌序列对频域表示的音频信号进行加密、根据人耳模型，对加密的频域系数进行丢弃或量化、使用压缩算法对量化后的系数进行编码和压缩、对压缩的音频数据进行解码和解压缩、使用密钥序列重新应用混沌置乱。本发明在对音频进行压缩的过程中，对人耳所无法听到的高频率的声音进行去除，降低音频压缩后所占用的空间，同时在对音频数据进行压缩的过程中，将音频数据分割为多段并进行编号，再进行数据的压缩，如此来确保数据压缩后的完整性。

Description

一种基于混沌映射与人耳模型的音频压缩与恢复方法

技术领域

本发明涉及音频压缩技术领域，具体地说，涉及一种基于混沌映射与人耳模型的音频压缩与恢复方法。

背景技术

音频在制作出来后，为了使音频得到传输，会将音频压缩储存起来，再进行流通，而音频在制作的过程中，会录入一下高频率的声音，而人耳对不同频率的声音敏感度不同，会使录入的高频率的声音无法被人耳所听到，在对音频进行压缩时，音频的高的也会被压缩，如此人耳无法听到的音频被压缩进入，会增加压缩后文件占用的空间，压缩的音频数据占用的空间大，增加数据存储的空间以及降低传输的速度，同时存在音频在压缩的过程中出现数据缺失的情况，如此便需要一种在进行音频压缩时避免音频出现数据缺失，并在压缩后降低数据占用的空间。

发明内容

本发明的目的在于提供一种基于混沌映射与人耳模型的音频压缩与恢复方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供一种基于混沌映射与人耳模型的音频压缩与恢复方法，包括以下步骤：

对音频进行压缩：

S1、使用离散傅里叶变换将原始音频信号转换为频域表示；

S2、使用混沌映射算法，生成一个混沌序列，并将此混沌序列被作为压缩的密钥；

S3、使用混沌序列对频域表示的音频信号进行加密；

S4、根据人耳模型，对加密的频域系数进行丢弃或量化；

S5、使用压缩算法对量化后的系数进行编码和压缩；

对音频进行恢复：

S6、对压缩的音频数据进行解码和解压缩，还原量化后的频域系数；

S7、使用密钥序列重新应用混沌置乱，以还原加密的频域系数；

S8、使用反离散傅里叶变换将频域信号转换回时域表示；

S9、根据人耳模型的逆过程，对恢复的音频信号进行加权和滤波；

S10、获取经过压缩和恢复的音频信号。

作为本技术方案的进一步改进，所述S1中将原始音频信号转换为频域表示的步骤为：

S1.1、将原始音频信号划分为固定长度的片段；

S1.2、对每个片段进行DFT计算，得到频域表示数据；

S1.3、使用振幅谱（即频谱）和相位谱表示得到的频域表示数据。

作为本技术方案的进一步改进，所述S2中生成混沌序列的算法采用Logistic映射算法，其算法公式为：

x_{n+1}=r*x_n*(1-x_n)

其中，x_n是序列的当前值，r是混沌参数，r取值范围在3.57-4.0之间，x_{n+1}是序列的下一个值；

其生成混沌序列的步骤如下：

S2.1、初始化：选择初始值x_0（通常在范围(0,1)内选择），选择混沌参数r，并确定序列长度N；

S2.2、循环计算：使用Logistic映射算法，迭代计算序列的下一个值x_{n+1}=r*x_n*(1-x_n)，重复计算N次；

S2.3、数值处理：将生成的混沌序列映射到所需的数值范围；

S2.4、序列使用：将生成的混沌序列作为压缩的密钥。

作为本技术方案的进一步改进，所述S3中使用混沌序列对频域表示的音频信号进行加密的步骤如下：

S3.1、将音频信号转换到频域表示；

S3.2、生成混沌序列：使用混沌映射算法生成一个与音频信号长度相匹配的混沌序列；

S3.3、对混沌序列进行归一化处理，将其映射到[0,2π]或[0,1]的范围内；

S3.4、将混沌序列与频域表示的音频信号进行乘法运算；

S3.5、将得到的乘积结果进行逆傅里叶变换，将其转换回时域表示。

作为本技术方案的进一步改进，所述S4中，根据人耳模型对加密的频域系数进行丢弃或量化的具体步骤如下：

S4.1、获取人耳对不同频段的敏感度，并根据人耳模型，确定哪些频段的频域系数可以被丢弃或量化；

S4.2、对频域系数应用阈值或量化：将频域表示的音频信号的各个频段的系数与阈值或量化步长进行比较；

S4.3、根据信号的重要性，调整不同频段的阈值或量化步长；

S4.4、对调整后的频域系数进行逆傅里叶变换，将其转换回时域表示。

作为本技术方案的进一步改进，所述S5使用压缩算法对量化后的系数进行编码和压缩的步骤如下：

S5.1、对量化后的系数进行编码：将量化后的系数转换为二进制数据流；

S5.2、应用压缩算法进行压缩：使用压缩算法对编码后的系数进行压缩；

S5.3、存储或传输压缩后的数据：将压缩后的数据进行存储或传输。

作为本技术方案的进一步改进，所述S6中，对压缩的音频数据进行解码和解压缩，还原量化后的频域系数的步骤如下：

S6.1、根据压缩时选择的压缩算法，选择相应的解压缩算法进行解码和解压缩，将压缩的音频数据进行解压缩；

S6.2、进行解码：将解压缩后的数据进行解码，将数据从二进制形式转换为量化后的系数；

S6.3、还原量化后的频域系数：使用逆量化算法将解码后的数据还原为量化前的频域系数；

S6.4、进行逆变换：将还原的频域系数进行逆变换。

作为本技术方案的进一步改进，所述S7中使用密钥序列重新应用混沌置乱还原加密的频域系数的步骤如下：

S7.1、生成密钥序列：使用相同的初始条件和控制参数，生成与加密时使用的密钥序列相同的混沌序列；

S7.2、重新应用混沌置乱：使用生成的密钥序列，对加密的频域系数进行重新应用混沌置乱；

S7.3、进行反量化：使用相同的量化步长和方法进行反量化，还原量化前的系数；

S7.4、进行逆变换：将经过混沌置乱和反量化的频域系数进行逆变换。

作为本技术方案的进一步改进，所述S8中使用反离散傅里叶变换将频域信号转换回时域表示的步骤为：

S8.1、准备频域信号：准备已经在频域进行过傅里叶变换的信号；

S8.2、通过逆变换还原频域系数：使用反离散傅里叶变换公式，将频域信号的各个频率分量（频域系数）还原回时域表示；

S8.3、将复数时域信号转化为实数表示。

作为本技术方案的进一步改进，所述S9中根据人耳模型的逆过程，对恢复的音频信号进行加权和滤波的步骤如下：

S9.1、基于人耳模型的加权：根据人耳对不同频率的声音敏感度不同，将人耳对不同频率的敏感度进行加权；

S9.2、基于人耳模型的滤波：根据人耳对声音的感知的一个频率响应特性，对人耳的频率响应特性进行滤波处理；

S9.3、重建和处理：经过加权和滤波后，对信号进行动态范围控制处理。

与现有技术相比，本发明的有益效果：

1、该基于混沌映射与人耳模型的音频压缩与恢复方法中，在对音频进行压缩的过程中，对人耳所无法听到的高频率的声音进行去除，降低音频压缩后所占用的空间，同时在对音频数据进行压缩的过程中，将音频数据分割为多段并进行编号，再进行数据的压缩，如此来确保数据压缩后的完整性。

附图说明

图1为本发明的整体步骤框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：本发明提供一种基于混沌映射与人耳模型的音频压缩与恢复方法，请参阅图1，包括以下步骤：

对音频进行压缩：

S1、使用离散傅里叶变换将原始音频信号转换为频域表示；

S1中将原始音频信号转换为频域表示的步骤为：

S1.1、将原始音频信号划分为固定长度的片段；

S1.2、对每个片段进行DFT计算，得到频域表示数据，DFT将时域信号转换为频域表示，其中每个频域系数表示不同频率的振幅和相位信息；

因得到的频域表示通常是复数形式的；

S1.3、使用振幅谱（即频谱）和相位谱表示得到的频域表示数据，振幅谱表示不同频率成分的能量大小，相位谱表示不同频率成分的相位信息。

将音频信号转换为频域表示后，频域系数的数量通常是原始信号长度的一半或更少，这意味着频域表示可以更紧凑地表示音频信号，在一定程度上实现了压缩效果。

S2中生成混沌序列的算法采用Logistic映射算法，其算法公式为：

x_{n+1}=r*x_n*(1-x_n)

其中，x_n是序列的当前值，r是混沌参数，r取值范围在3.57-4.0之间，x_{n+1}是序列的下一个值。

其生成混沌序列的步骤如下：

S2.3、数值处理：将生成的混沌序列映射到所需的数值范围，例如，将[0, 1]内的混沌序列映射到[0, 255]内的整数序列；

S2.4、序列使用：将生成的混沌序列作为压缩的密钥，用于对音频信号进行加密或其他相关操作。

S3、使用混沌序列对频域表示的音频信号进行加密；

S3中使用混沌序列对频域表示的音频信号进行加密的步骤如下：

S3.1、将音频信号转换到频域表示，例如使用傅里叶变换将音频信号转换为频谱；

S3.4、将混沌序列与频域表示的音频信号进行乘法运算；

可以进行信号压缩来减小加密后信号的大小，做到进一步的数据占用空间的缩小。

通过这种方式，混沌序列在频域上与音频信号进行混淆，增加了加密强度，解密时，需要使用相同的混沌序列再次进行乘法运算，并应用逆傅里叶变换将信号转换回时域表示。

S4、根据人耳模型，对加密的频域系数进行丢弃或量化；

该模型考虑到人耳对某些频段更不敏感，并根据信号的重要性进行调整，以便于人耳可以听到某些频段的声音；

S4中，根据人耳模型对加密的频域系数进行丢弃或量化的具体步骤如下：

S4.1、获取人耳对不同频段的敏感度，并根据人耳模型，确定哪些频段的频域系数可以被丢弃或量化，可以通过实验或参考音频信号的特性来选择一个适当的阈值或量化步长，人耳对不同频段的声音敏感度不同，低频段声音较容易被人耳察觉到，而高频段声音对人耳的敏感度较低；

S4.2、对频域系数应用阈值或量化：将频域表示的音频信号的各个频段的系数与阈值或量化步长进行比较；如果频域系数低于阈值，则可以丢弃或量化该系数，如果频域系数高于阈值，则保留原始值；

S4.3、根据信号的重要性，调整不同频段的阈值或量化步长；

对于重要的频段，可以选择较小的阈值或量化步长，以保留更多的信息，对于不重要的频段，可以选择较大的阈值或量化步长，以减少信息量；

通过以上步骤，根据人耳模型对加密的频域系数进行丢弃或量化，可以更好地控制对音频信号的加密程度，并根据人耳对声音的感知特性，去除对感知质量的影响。

S5、使用压缩算法对量化后的系数进行编码和压缩；

S5使用压缩算法对量化后的系数进行编码和压缩的步骤如下：

S5.1、对量化后的系数进行编码：将量化后的系数转换为二进制数据流，以便于进行压缩，使用数据编码算法（例如霍夫曼编码、算术编码、游程编码）来对系数进行编码；

编码算法能够根据数据的频率分布和概率特性，将数据压缩成更短的编码表示，降低数据存储或传输所占用的空间；

S5.2、应用压缩算法进行压缩：使用压缩算法对编码后的系数进行压缩；如无损压缩算法（例如FLAC、ALAC），采用无损压缩算法会保留原始数据的完整性，适用于需要精确还原的应用。有损压缩算法会丢失一部分数据，但可以显著减小文件大小，适用于对质量要求相对较低的应用；

S5.3、存储或传输压缩后的数据：将压缩后的数据进行存储或传输，压缩后的数据可以显著减小存储空间或传输带宽的需求；

接收端或使用应用需要对压缩后的数据进行解压缩和解码，使用相应的解压缩算法对数据进行解压缩，然后采用相应的解码算法将数据转换回量化后的系数；

通过以上步骤，可以使用压缩算法对量化后的系数进行编码和压缩，压缩能够显著减小数据的存储需求或传输带宽，并且采用适当的算法和参数设置，能够在一定程度上保证数据的质量和还原度。

对音频进行恢复：

S6中，对压缩的音频数据进行解码和解压缩，还原量化后的频域系数的步骤如下：

S6.1、根据压缩时选择的压缩算法，选择相应的解压缩算法进行解码和解压缩；使用了无损压缩算法，可以直接解压缩还原数据，将压缩的音频数据进行解压缩；

S6.3、还原量化后的频域系数：使用逆量化算法将解码后的数据还原为量化前的频域系数；逆量化算法会根据量化的步长和方法，反向地对量化后的系数进行还原，以尽可能恢复原始的频域特征；

S6.4、进行逆变换：将还原的频域系数进行逆变换。以还原原始的音频信号；

通过以上步骤，对压缩的音频数据进行解码和解压缩，还原量化后的频域系数，并最终还原原始的音频信号。

S7中使用密钥序列重新应用混沌置乱还原加密的频域系数的步骤如下：

S7.1、生成密钥序列：使用相同的初始条件和控制参数，生成与加密时使用的密钥序列相同的混沌序列;

具体操作是将每个频域系数与对应位置的密钥序列进行异或运算，以达到重新混淆的效果；

S7.3、进行反量化：如果频域系数在加密前进行了量化，需进行反量化操作。使用相同的量化步长和方法进行反量化，以尽可能还原量化前的系数；

S7.4、进行逆变换：将经过混沌置乱和反量化的频域系数进行逆变换，以还原原始的音频信号；

通过以上步骤，就可以使用密钥序列重新应用混沌置乱，以还原加密的频域系数，并最终还原原始的音频信号；密钥序列的生成和使用需要保证与加密时一致，否则无法正确还原。

S8、使用反离散傅里叶变换将频域信号转换回时域表示；

S8中使用反离散傅里叶变换将频域信号转换回时域表示的步骤为：

S8.1、准备频域信号：准备已经在频域进行过傅里叶变换的信号；通常，频域信号是由频谱中的各个频率分量和相应的幅度和相位组成的；

反离散傅里叶变换公式如下：

x(n)=1/N*Σ(X(k)*exp(j*2π*n*k/N)),n=0,1,2,...,N-1

其中，x(n)是还原后的时域信号值，N是信号长度（频域分量的数量），X(k)是频域系数，k是频率分量的索引值；

S8.3、将复数时域信号转化为实数表示，如果频域信号中包含复数分量，还原时域信号可能是复数形式，如果只需要实数形式的时域信号表示，可以取时域信号的实部或虚部；

通过以上步骤，就可以使用反离散傅里叶变换方法将频域信号转换回时域表示，这样可以还原原始的时域信号，以便进行接下来的处理或分析。

S9中根据人耳模型的逆过程，对恢复的音频信号进行加权和滤波的步骤如下：

S9.1、基于人耳模型的加权：根据人耳对不同频率的声音敏感度不同，将人耳对不同频率的敏感度进行加权；通过乘以一个系数或者滤波器，可以使高频部分的信号增强，低频部分的信号减弱，以实现更符合人耳感知的声音，加权的方式可以根据具体需求选择，比如使用等响度曲线对声音进行加权；

S9.2、基于人耳模型的滤波：根据人耳对声音的感知的一个频率响应特性，对人耳的频率响应特性进行滤波处理。使用滤波器来模拟人耳的频率响应，并将恢复的音频信号通过滤波器进行处理，以使得输出信号更接近人耳感知的声音，滤波器可以选择合适的类型（如低通滤波器、带通滤波器等）和参数，以达到期望的效果；

S9.3、重建和处理：经过加权和滤波后，对信号进行动态范围控制处理，以获得更好的音质和适应人耳的声音感知；

在使用人耳模型进行音频信号加权和滤波时，需要根据具体场景和目标受众的听觉特性进行适当的调整和优化。

S10、获取经过压缩和恢复的音频信号；

通过混沌映射与人耳模型实现音频压缩与恢复的核心思想是在压缩过程中利用混沌特性和人耳的听觉特性，在保证音频质量的前提下实现压缩比的提高，同时，恢复过程中的混沌置乱与人耳模型的加权滤波使得恢复的音频更接近原始信号；这种方法可以提供较好的压缩效果和音频质量，并且具有一定的安全性，因为压缩过程中使用了密钥进行加密。

在对音频进行压缩的过程中，对人耳所无法听到的高频率的声音进行去除，降低音频压缩后所占用的空间，同时在对音频数据进行压缩的过程中，将音频数据分割为多段并进行编号，再进行数据的压缩，如此来确保数据压缩后的完整性。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于混沌映射与人耳模型的音频压缩与恢复方法，其特征在于：包括以下步骤：

对音频进行压缩：

S1、使用离散傅里叶变换将原始音频信号转换为频域表示；

S3、使用混沌序列对频域表示的音频信号进行加密；

S4、根据人耳模型，对加密的频域系数进行丢弃或量化；

S5、使用压缩算法对量化后的系数进行编码和压缩；

对音频进行恢复：

S8、使用反离散傅里叶变换将频域信号转换回时域表示；

S10、获取经过压缩和恢复的音频信号。

2.根据权利要求1所述的基于混沌映射与人耳模型的音频压缩与恢复方法，其特征在于：所述S1中将原始音频信号转换为频域表示的步骤为：

S1.1、将原始音频信号划分为固定长度的片段；

S1.2、对每个片段进行DFT计算，得到频域表示数据；

3.根据权利要求1所述的基于混沌映射与人耳模型的音频压缩与恢复方法，其特征在于：所述S2中生成混沌序列的算法采用Logistic映射算法，其算法公式为：

x_{n+1}=r*x_n*(1-x_n)

其生成混沌序列的步骤如下：

S2.3、数值处理：将生成的混沌序列映射到所需的数值范围；

S2.4、序列使用：将生成的混沌序列作为压缩的密钥。

4.根据权利要求1所述的基于混沌映射与人耳模型的音频压缩与恢复方法，其特征在于：所述S3中使用混沌序列对频域表示的音频信号进行加密的步骤如下：

S3.1、将音频信号转换到频域表示；

S3.4、将混沌序列与频域表示的音频信号进行乘法运算；

5.根据权利要求1所述的基于混沌映射与人耳模型的音频压缩与恢复方法，其特征在于：所述S4中，根据人耳模型对加密的频域系数进行丢弃或量化的具体步骤如下：

S4.3、根据信号的重要性，调整不同频段的阈值或量化步长；

6.根据权利要求1所述的基于混沌映射与人耳模型的音频压缩与恢复方法，其特征在于：所述S5使用压缩算法对量化后的系数进行编码和压缩的步骤如下：

7.根据权利要求1所述的基于混沌映射与人耳模型的音频压缩与恢复方法，其特征在于：所述S6中，对压缩的音频数据进行解码和解压缩，还原量化后的频域系数的步骤如下：

S6.4、进行逆变换：将还原的频域系数进行逆变换。

8.根据权利要求1所述的基于混沌映射与人耳模型的音频压缩与恢复方法，其特征在于：所述S7中使用密钥序列重新应用混沌置乱还原加密的频域系数的步骤如下：

9.根据权利要求1所述的基于混沌映射与人耳模型的音频压缩与恢复方法，其特征在于：所述S8中使用反离散傅里叶变换将频域信号转换回时域表示的步骤为：

S8.3、将复数时域信号转化为实数表示。

10.根据权利要求1所述的基于混沌映射与人耳模型的音频压缩与恢复方法，其特征在于：所述S9中根据人耳模型的逆过程，对恢复的音频信号进行加权和滤波的步骤如下：