CN110808054B

CN110808054B - 多路音频的压缩与解压缩方法及系统

Info

Publication number: CN110808054B
Application number: CN201911066528.8A
Authority: CN
Inventors: 陈福松
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2019-11-04
Filing date: 2019-11-04
Publication date: 2022-05-06
Anticipated expiration: 2039-11-04
Also published as: CN110808054A

Abstract

本发明实施例提供一种多路音频的压缩与解压缩方法。该方法包括：接收多路音频文件，确定多路音频文件的音频频率、声道数量和各声道的排列顺序；将多路音频文件按照声道数量进行拆分，对拆分后的各声道音频按照音频频率进行分帧，并分别输入至speex压缩引擎进行压缩，得到每一路音频各自的ogg压缩包；对每一路音频各自的ogg压缩包按照各声道的排列顺序进行交替存储，生成多路音频的压缩文件。本发明实施例还提供一种多路音频的压缩与解压缩系统。本发明实施例在压缩过程中，按照声道的顺序进行交替存储，为解码过程进行铺垫，解码时可以多声道并行解码，减小多路音频传输中的延迟，降低物联网设备对于网络带宽的需求和传输数据导致的延迟的问题。

Description

多路音频的压缩与解压缩方法及系统

技术领域

本发明涉及云端多路语音识别领域，尤其涉及一种多路音频的压缩与解压缩方法及系统。

背景技术

为适应当前多路识别的需求，通常会用到音频压缩与解压缩技术，来降低物联网设备对于网络带宽的需求以及传输数据导致的延迟。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

普通压缩由于延迟大，压缩比较差的问题，不适用做实时性要求较高的音频解码。

Opus多路编解码的缺点在于他将非48k的音频重采样成48k的音频进行编解码，这样在编码和解码时都有重采样，音频失真导致可能会导致识别性能下降。

这些压缩算法都是按照立体声标准进行压缩，包括信号处理，导致压缩后的音频与原始音频差距较大，另外还有立体声的声道排列顺序与原始声道顺序不一致的情况。

发明内容

为了至少解决现有技术中多路音频在传输中压缩较差，效率较低，导致传输延迟大，以及由于立体声的声道排列顺序解压前后不一致使得解压后的音频与原始音频差距较大的问题。

第一方面，本发明实施例提供一种多路音频的压缩方法，包括：

接收多路音频文件，确定所述多路音频文件的音频频率、声道数量，以及各声道的排列顺序；

将所述多路音频文件按照所述声道数量进行拆分，对拆分后的各声道音频按照所述音频频率进行分帧，并分别输入至speex压缩引擎进行压缩，得到每一路音频各自的ogg压缩包；

对所述每一路音频各自的ogg压缩包按照所述各声道的排列顺序进行交替存储，生成所述多路音频的压缩文件。

第二方面，本发明实施例提供一种多路音频的解压缩方法，包括：

将根据权利要求1所述的方法压缩后的多路音频的压缩文件拆分成多个ogg压缩包，确定各ogg压缩包的声道数量、各声道的排列顺序以及音频频率；

根据所述声道数量以及所述音频频率建立对应数量的speex解码引擎，对所述各ogg压缩包按照所述各声道的排列顺序进行并行分路解压；

将解压后的各路音频分别写入到对应的输出流，生成解压后的多路音频文件。

第三方面，本发明实施例提供一种多路音频的压缩系统，包括：

音频信息确定程序模块，用于接收多路音频文件，确定所述多路音频文件的音频频率、声道数量，以及各声道的排列顺序；

压缩程序模块，用于将所述多路音频文件按照所述声道数量进行拆分，对拆分后的各声道音频按照所述音频频率进行分帧，并分别输入至speex压缩引擎进行压缩，得到每一路音频各自的ogg压缩包；

文件生成程序模块，用于对所述每一路音频各自的ogg压缩包按照所述各声道的排列顺序进行交替存储，生成所述多路音频的压缩文件。

第四方面，本发明实施例提供一种多路音频的解压缩系统，包括：

文件拆分程序模块，用于将根据权利要求1所述的方法压缩后的多路音频的压缩文件拆分成多个ogg压缩包，确定各ogg压缩包的声道数量、各声道的排列顺序以及音频频率；

解压程序模块，用于根据所述声道数量以及所述音频频率建立对应数量的speex解码引擎，对所述各ogg压缩包按照所述各声道的排列顺序进行并行分路解压；

文件生成程序模块，用于将解压后的各路音频分别写入到对应的输出流，生成解压后的多路音频文件。

第五方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的多路音频的压缩与解压缩方法的步骤。

第六方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的多路音频的压缩与解压缩方法的步骤。

本发明实施例的有益效果在于：使用speex支持多路音频压缩，提供多种不同的语音质量的压缩，保证了立体声声道的顺序，进而存储结构按照声道的顺序进行交替存储，为解码过程进行铺垫，这样解码时可以多声道并行解码，从而减小多路音频传输中的延迟，降低物联网设备对于网络带宽的需求以及传输数据导致的延迟的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种多路音频的压缩方法的流程图；

图2是本发明一实施例提供的一种多路音频的解压缩方法的流程图；

图3是本发明一实施例提供的一种多路音频的压缩系统的结构示意图；

图4是本发明一实施例提供的一种多路音频的解压缩系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种多路音频的压缩方法的流程图，包括如下步骤：

S11：接收多路音频文件，确定所述多路音频文件的音频频率、声道数量，以及各声道的排列顺序；

S12：将所述多路音频文件按照所述声道数量进行拆分，对拆分后的各声道音频按照所述音频频率进行分帧，并分别输入至speex压缩引擎进行压缩，得到每一路音频各自的ogg压缩包；

S13：对所述每一路音频各自的ogg压缩包按照所述各声道的排列顺序进行交替存储，生成所述多路音频的压缩文件。

对于步骤S11，接收到需要压缩的多路音频文件后，确定所述多路音频文件的音频频率、声道数量，以及各声道的排列顺序，例如，确定出原始多路音频的格式为：

音频频率rate

声道数channels(例如，4个，通过各声道的编号，可以得知各声道的排列顺序)

采样精度bitspersample

支持microsoft pcm格式(一种音频编码模式)

对于步骤S12，将所述多路音频文件按照声道数量进行拆分，比如，多路音频文件为pcm格式的多路音频，就将microsoft pcm的原始音频按照声道进行拆分。对拆分后各声道音频按照音频频率进行分帧frame，将其分别输入至speex压缩引擎中，其中，所述speex压缩引擎设计灵活，支持多种不同的语音质量和比特率。对高质量语音的支持也就意味着speex不仅能编码窄带语音(电话语音质量)，也能编码宽带语音。从而得到每一路音频各自的ogg压缩包ogg_packet。

对于步骤S13，得到每一路音频各自的ogg压缩包ogg_packet后，还需要计算packet的相对偏移量：granulepos＝frame_index*frame_size-lookahead

其中，frame_index：不分声道，所有数据对应的frame数

frame_size、lookahead：所有声道采用相同的frame_size和lookahead

将ogg_packet按照声道顺序送入同一个ogg_stream进行分页交替存储，从而，生成所述多路音频的压缩文件。

通过该实施方式可以看出，使用speex支持多路音频压缩，提供多种不同的语音质量的压缩，保证了立体声声道的顺序，进而存储结构按照声道的顺序进行交替存储，便于在解码时，可以多声道并行解码，解码过程进行铺垫。从而减小多路音频传输中的延迟，降低物联网设备对于网络带宽的需求以及传输数据导致的延迟的问题。

如图2所示为本发明一实施例提供的一种多路音频的压缩方法的流程图，包括如下步骤：

S21：将根据上文中多路音频的压缩方法压缩后的多路音频的压缩文件拆分成多个ogg压缩包，确定各ogg压缩包的声道数量、各声道的排列顺序以及音频频率；

S22：根据所述声道数量以及所述音频频率建立对应数量的speex解码引擎，对所述各ogg压缩包按照所述各声道的排列顺序进行并行分路解压；

S23：将解压后的各路音频分别写入到对应的输出流，生成解压后的多路音频文件。

对于步骤S21，接收到压缩的多路音频文件后，初始化ogg引擎，将所述压缩的多路音频文件输入到ogg引擎中进行拆分，得到各ogg压缩包的声道数量、各声道的排列顺序以及音频频率；

作为一种实施方式，在本实施例中，所述方法支持8k、16K音频频率的多路音频文件，支持1-8声道数量的多路音频文件。可以应用编码窄带语音，也能编码宽带语音。例如，确定出声道数量为8，音频音频为16K。

对于步骤S22，根据声道数量和频率建立相应数量的speex解码引擎，上述例子中，声道数量为8，此时，建立8个speex解码引擎。通过这8个speex解码引擎对8个声道的ogg压缩包进行并行的分路解压，从而大幅度提高解码的效率。

对于步骤S23，同样的，在分路解压后，将各路音频分别写入到对应的输出流中，生成解压后的多路音频文件。

通过该实施方式可以看出，在压缩中存储结构按照声道顺序进行交替存储，方便解码，这样解码时可以多声道并行解码，达到减小延迟的目的，利用音频压缩与解压缩技术，进一步地降低物联网设备对于网络带宽的需求以及传输数据导致的延迟的问题。

作为一种实施方式，在本实施例中，在所述将解压后的各路音频分别写入到对应的输出流之前，所述方法还包括：

检测并行分路解压后各路音频的偏移量，当某一路音频发生偏移时，对偏移的这一路音频进行重采样。

在压缩中说道，由于在压缩中，会产生一定的相对偏移量。在解压时，来校验偏移是否还原。但对于没有还原，发生偏移的音频及你想重采样。保证压缩与解压缩的稳定。

如图3所示为本发明一实施例提供的一种多路音频的压缩系统的结构示意图，该系统可执行上述任意实施例所述的多路音频的压缩方法，并配置在终端中。

本实施例提供的一种多路音频的压缩系统包括：音频信息确定程序模块11，压缩程序模块12和文件生成程序模块13。

其中，音频信息确定程序模块11用于接收多路音频文件，确定所述多路音频文件的音频频率、声道数量，以及各声道的排列顺序；压缩程序模块12用于将所述多路音频文件按照所述声道数量进行拆分，对拆分后的各声道音频按照所述音频频率进行分帧，并分别输入至speex压缩引擎进行压缩，得到每一路音频各自的ogg压缩包；文件生成程序模块13用于对所述每一路音频各自的ogg压缩包按照所述各声道的排列顺序进行交替存储，生成所述多路音频的压缩文件。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的多路音频的压缩方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

如图4所示为本发明一实施例提供的一种多路音频的解压缩系统的结构示意图，该系统可执行上述任意实施例所述的多路音频的解压缩方法，并配置在终端中。

本实施例提供的一种多路音频的解压缩系统包括：文件拆分程序模块21，解压程序模块22和文件生成程序模块23。

其中，文件拆分程序模块21用于将根据权利要求1所述的方法压缩后的多路音频的压缩文件拆分成多个ogg压缩包，确定各ogg压缩包的声道数量、各声道的排列顺序以及音频频率；解压程序模块22用于根据所述声道数量以及所述音频频率建立对应数量的speex解码引擎，对所述各ogg压缩包按照所述各声道的排列顺序进行并行分路解压；文件生成程序模块23用于将解压后的各路音频分别写入到对应的输出流，生成解压后的多路音频文件。

进一步地，在所述解压程序模块之前，所述系统还包括，重采样程序模块：

用于检测并行分路解压后各路音频的偏移量，当某一路音频发生偏移时，对偏移的这一路音频进行重采样。

进一步地，所述系统支持8k、16K音频频率的多路音频文件，支持1-8声道数量的多路音频文件。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的多路音频的解压缩方法；

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的多路音频的压缩与解压缩方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的多路音频的压缩与解压缩方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多路音频的压缩方法，应用于物联网设备，包括：

将所述多路音频文件按照所述声道数量进行拆分，对拆分后的各声道音频按照各自对应的音频频率进行分帧，并分别输入至speex压缩引擎进行压缩，得到每一路音频各自的ogg压缩包；

2.一种多路音频的解压缩方法，应用于云端，包括：

3.根据权利要求2所述的方法，其中，在所述将解压后的各路音频分别写入到对应的输出流之前，所述方法还包括：

4.根据权利要求2所述的方法，其中，所述方法支持8k、16K音频频率的多路音频文件，支持1-8声道数量的多路音频文件。

5.一种用于物联网设备的多路音频的压缩系统，包括：

压缩程序模块，用于将所述多路音频文件按照所述声道数量进行拆分，对拆分后的各声道音频按照各自对应的音频频率进行分帧，并分别输入至speex压缩引擎进行压缩，得到每一路音频各自的ogg压缩包；

6.一种用于云端的多路音频的解压缩系统，包括：

文件拆分程序模块，用于将根据权利要求5所述的压缩系统压缩后的多路音频的压缩文件拆分成多个ogg压缩包，确定各ogg压缩包的声道数量、各声道的排列顺序以及音频频率；

7.根据权利要求6所述的系统，其中，在所述解压程序模块之前，所述系统还包括，重采样程序模块：

8.根据权利要求6所述的系统，其中，所述系统支持8k、16K音频频率的多路音频文件，支持1-8声道数量的多路音频文件。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。