CN110390939B - 音频压缩方法和装置 - Google Patents

音频压缩方法和装置 Download PDF

Info

Publication number
CN110390939B
CN110390939B CN201910633760.9A CN201910633760A CN110390939B CN 110390939 B CN110390939 B CN 110390939B CN 201910633760 A CN201910633760 A CN 201910633760A CN 110390939 B CN110390939 B CN 110390939B
Authority
CN
China
Prior art keywords
audio
audio frame
compression
compression unit
waveform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910633760.9A
Other languages
English (en)
Other versions
CN110390939A (zh
Inventor
方桂萍
闫玉凤
肖全之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Jieli Technology Co Ltd
Original Assignee
Zhuhai Jieli Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Jieli Technology Co Ltd filed Critical Zhuhai Jieli Technology Co Ltd
Priority to CN201910633760.9A priority Critical patent/CN110390939B/zh
Publication of CN110390939A publication Critical patent/CN110390939A/zh
Application granted granted Critical
Publication of CN110390939B publication Critical patent/CN110390939B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Abstract

本申请涉及一种音频压缩方法和装置,计算机设备对待压缩音频进行分帧处理,获得各音频帧;当音频帧为周期信号时,提取音频帧的音素特征,并将音素特征满足预设匹配条件的至少一个音频帧确定为一个压缩单元,以及确定压缩单元中的一个关键音频帧;然后,基于预设的音频压缩格式对压缩单元进行压缩,获得压缩单元的压缩数据;其中,上述音频压缩数据包括关键波形参数,关键波形参数用于表征关键音频帧的一个周期波形。采用上述方法可以大大提升了音频压缩的压缩比。

Description

音频压缩方法和装置
技术领域
本申请涉及音频编码技术领域,特别是涉及一种音频压缩方法和装置。
背景技术
音频压缩技术指的是对原始数字音频信号流运用适当的数字信号处理技术,在不损失有用信息量或所引入损失可忽略的条件下,降低其码率,也称为压缩编码。音频压缩主要有两种压缩方式,分别是有损压缩和无损压缩。有损压缩顾名思义就是降低音频采样频率与比特率,输出的音频文件会比原文件小。另一种音频压缩被称为无损压缩,其能够在100%保存原文件的所有数据的前提下,将音频文件的体积压缩的更小,而将压缩后的音频文件还原后,能够实现与源文件相同的大小、相同的码率。
传统技术中,主要是通过逼近原波形的方法对音频文件进行去冗余处理,来获得音频文件的压缩数据。
但是,在一些应用场景中,例如,只需要音频文件中的语音内容的情况下,而不需要去逼近原音频文件的波形时,通过上述方法得到的压缩比不能满足实际需求。
发明内容
基于此,有必要针对上述技术问题,提供一种音频压缩方法和装置。
一种音频压缩方法,上述方法包括:
对待压缩音频进行分帧处理,获得各音频帧;
当音频帧为周期信号时,提取音频帧的音素特征,并将音素特征满足预设匹配条件的至少一个音频帧确定为一个压缩单元,以及确定压缩单元中的一个关键音频帧;
基于预设的音频压缩格式对压缩单元进行压缩,获得压缩单元的压缩数据;音频压缩数据包括关键波形参数,关键波形参数用于表征关键音频帧的一个周期波形。
在其中一个实施例中,上述关键波形参数包括对关键音频帧的一个周期波形进行线性预测压缩,获得的线性拟合系数和残差信号。
在其中一个实施例中,上述音频压缩数据还包括压缩单元中第一个音频帧的第一周期、压缩单元中第一个音频帧的第一能量值、压缩单元中后一个音频帧的周期与前一个音频帧的周期之间的第一差值,以及压缩单元中后一个的能量值和前一个音频帧的能量值之间的第二差值。
在其中一个实施例中,上述提取音频帧的音素特征,包括:
提取音频帧的单个周期波形;
根据单个周期波形确定音频帧的共振峰频率,并将共振峰频率确定为音素特征。
在其中一个实施例中,上述将音素特征满足预设匹配条件的至少一个音频帧确定为一个压缩单元,包括:
在预设帧数内,依次比较相邻两个音频帧的共振峰频率;
当相邻两个音频帧的共振峰频率的差值小于预设频率差值时,确定相邻两个音频帧满足预设匹配条件;
将连续满足预设匹配条件的音频帧确定为一个压缩单元。
在其中一个实施例中,上述预设帧数为7。
在其中一个实施例中,上述确定压缩单元中的一个关键音频帧,包括:
在压缩单元内的各音频帧对应的音频波形上查找各音频帧对应的最大波峰值,并根据各个最大波峰值获得各音频帧的能量值;
将压缩单元内能量值最大的音频帧确定为关键音频帧。
在其中一个实施例中,上述提取音频帧的单个周期波形,包括:
提取音频帧的周期;
基于周期对音频帧对应的音频波形进行波形切割,获得音频帧的单个周期波形。
在其中一个实施例中,上述方法还包括:
当音频帧为非周期信号时,将音频帧确定为一个压缩单元。
在其中一个实施例中,上述方法还包括:
提取压缩数据中的线性拟合系数和残差信号,合成对压缩数据解压后的解压周期波形;
根据解压周期波形以及第一周期和第一能量值,合成对压缩数据解压后的第一音频帧;
根据第一音频帧以及第一差值和第二差值,合成对压缩数据解压后的剩余音频帧;
对第一音频帧和剩余音频帧依次进行拼接,获得对压缩数据解压后的音频波形。
一种音频压缩装置,上述装置包括:
分帧模块,对待压缩音频进行分帧处理,获得各音频帧;
确定模块,当音频帧为周期信号时,提取音频帧的音素特征,并将音素特征满足预设匹配条件的至少一个音频帧确定为一个压缩单元,以及确定压缩单元中的一个关键音频帧;
压缩模块,基于预设的音频压缩格式对压缩单元进行压缩,获得压缩单元的压缩数据;音频压缩数据包括关键波形参数,关键波形参数用于表征关键音频帧的一个周期波形。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述音频压缩方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述音频压缩方法的步骤。
上述音频压缩方法和装置,计算机设备对待压缩音频进行分帧处理,获得各音频帧;当音频帧为周期信号时,提取音频帧的音素特征,并将音素特征满足预设匹配条件的至少一个音频帧确定为一个压缩单元,以及确定压缩单元中的一个关键音频帧;然后,基于预设的音频压缩格式对压缩单元进行压缩,获得压缩单元的压缩数据;其中,上述音频压缩数据包括关键波形参数,关键波形参数用于表征关键音频帧的一个周期波形。由于计算机设备将音素特征满足预设匹配条件的至少一个音频帧确定为一个压缩单元,使得确定得到的压缩单元包含了待压缩音频中的音素;然后将上述压缩单元进行压缩,将一个压缩单元的多个音频振压缩成了一个周期波形的关键波形参数,使得获得的压缩数据中不是去逼近原波形,而是通过关键波形参数去记录待压缩音频中的音素,大大提升了音频压缩的压缩比。
附图说明
图1为一个实施例中音频压缩方法的应用环境图;
图2为一个实施例中音频压缩方法的流程示意图;
图3为另一个实施例中音频压缩方法的流程示意图;
图4为另一个实施例中音频压缩方法的流程示意图;
图5为另一个实施例中音频压缩方法的流程示意图;
图6为一个实施例中音频压缩装置的结构框图;
图7为另一个实施例中音频压缩装置的结构框图;
图8为另一个实施例中音频压缩装置的结构框图;
图9为另一个实施例中音频压缩装置的结构框图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的音频压缩方法,可以应用于如图1所示的应用环境中。其中,计算机设备100将待压缩音频200进行压缩获得压缩数据,其中,计算机设备100可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑。
在一个实施例中,如图2所示,提供了一种音频压缩方法,以该方法应用于图1中的计算机设备为例进行说明,包括:
S101、对待压缩音频进行分帧处理,获得各音频帧。
计算机设备在对待压缩音频进行压缩时,可以先对上述待压缩音频进行分帧处理,获得各音频帧。具体地,计算机设备可以使用音频分帧函数对待压缩音频进行分帧,也可以通过加窗计算,对待压缩音频进行分帧,在此不做限定。计算机设备获得的各音频帧的长度可以是30毫秒,也可以是25毫秒,对于音频帧的长度在此限定。例如,上述音频帧的帧长可以是30毫秒,两个音频帧之间的滑动间隔为10毫秒。
S102、当音频帧为周期信号时,提取音频帧的音素特征,并将音素特征满足预设匹配条件的至少一个音频帧确定为一个压缩单元,以及确定压缩单元中的一个关键音频帧。
计算机设备在获得上述音频帧之后,可以先对音频帧的周期特性进行分析,确定音频帧是否为周期信号。当音频帧为周期信号时,可以提取音频帧的音素特征。上述音素特征是用于表征上述音频帧是对哪一个音素发音所得到的音频帧,可以是与音素相关的频率值特征,也可以包括频率变化特征,在此不做限定。
进一步地,计算机设备可以将音素特征满足预设匹配条件的至少一个音频帧确定为一个压缩单元,当至少一个音频帧的音素特征满足预设匹配条件时,计算机设备认为上述至少一个音频帧对应同一个音素,因此在提取待压缩音频的内容时,可以对上述至少一个音频帧进行统一压缩,将其确定为一个压缩单元。
进一步地,计算机设备可以将音素特征满足预设匹配条件的至少一个音频帧确定为一个压缩单元,当至少一个音频帧的音素特征满足预设匹配条件时,计算机设备认为上述至少一个音频帧对应同一个音素,因此在提取待压缩音频的内容时,可以对上述至少一个音频帧进行统一压缩,将其确定为一个压缩单元。
在获得压缩单元之后,可以在压缩单元中确定一个关键音频帧,可以将压缩单元中的第一个音频帧确定为关键音频帧,也可以将上述压缩单元中周期最大的音频帧确定为该压缩单元的关键音频帧,对于上述关键音频帧的确定方式在此不做限定。
另外,当计算机设备对音频帧的周期特性分析后,确定音频帧为非周期信号时,将该音频帧确定为一个压缩单元。由于清音对应的音频为非周期信号,因此,当音频着为一个非周期信号时,计算机设备认为该音频帧对应一个清音,可以对其单独压缩,确定为一个压缩单元。
S103、基于预设的音频压缩格式对压缩单元进行压缩,获得压缩单元的压缩数据;音频压缩数据包括关键波形参数,关键波形参数用于表征关键音频帧的一个周期波形。
计算机设备在确定出压缩单元的关键音频帧之后,可以按照预设的音频压缩格式对压缩单元进行压缩,获得的压缩数据中包括关键波形参数,也就是说,计算机设备可以在关键音频帧中确定一个周期波形,然后将该周期波形进行压缩,获得关键波形参数,并将上述关键波形参数确定为压缩单元的压缩数据中的数据。
具体地,计算机设备可以通过不同的压缩方式对周期波形进行压缩,可以利用有声音的频域分布特征进行压缩,也可以通过数据拟合的方式进行压缩,在此不做限定;通过不同压缩方法对周期波形进行压缩时,压缩后所获得的关键波形参数也不同,在此不做限定。
可选地,计算机设备可以对周期波形进行线性预测压缩,所获得的关键波形参数包括线性拟合系数和残差信号。
进一步地,计算机设备在对周期波形进行线性预测压缩后,如果获得的残差信号太大,还可以对残差信号进行进一步压缩。
另外,对压缩单元压缩后获得的压缩数据中,除了关键波形参数外,还可以包括压缩单元中各个音频帧的信号特征,例如可以包括各音频帧的周期和能量值,计算机设备可以直接将各周期和能量值进行量化,获得周期和能量值的压缩值,还可以获取压缩单元中各个音频帧的周期和能量变化,记录各个音频帧之间的周期差值和能量差值,使得压缩数据中的数据量进一步减小。可选地,压缩数据中还可以包括压缩单元中第一个音频帧的第一周期、压缩单元中第一个音频帧的第一能量值、压缩单元中后一个音频帧的周期与前一个音频帧的周期之间的第一差值,以及压缩单元中后一个的能量值和前一个音频帧的能量值之间的第二差值。
上述音频压缩方法,计算机设备对待压缩音频进行分帧处理,获得各音频帧;当音频帧为周期信号时,提取音频帧的音素特征,并将音素特征满足预设匹配条件的至少一个音频帧确定为一个压缩单元,以及确定压缩单元中的一个关键音频帧;然后,基于预设的音频压缩格式对压缩单元进行压缩,获得压缩单元的压缩数据;其中,上述音频压缩数据包括关键波形参数,关键波形参数用于表征关键音频帧的一个周期波形。由于计算机设备将音素特征满足预设匹配条件的至少一个音频帧确定为一个压缩单元,使得确定得到的压缩单元包含了待压缩音频中的音素;然后将上述压缩单元进行压缩,将一个压缩单元的多个音频振压缩成了一个周期波形的关键波形参数,使得获得的压缩数据中不是去逼近原波形,而是通过关键波形参数去记录待压缩音频中的音素,大大提升了音频压缩的压缩比。
图3为另一个实施例中音频压缩方法的流程示意图;本实施例涉及计算机设备提取因素特征的一种具体方式,在上述实施例的基础上,如图3所述,上述S102包括:
S201、提取音频帧的单个周期波形。
计算机设备在提取音频帧的音素特征时,可以先提取上述音频帧的单个周期波形。例如,计算机设备可以先提取音频帧的周期,然后基于上述周期对音频帧对应的音频波形进行波形切割,获得音频帧的单个周期波形。
具体地,计算机设备可以对音频帧进行滤波处理,然后采用滑动窗口对音频帧求取滑动自相关值,然后根据自相关值的峰值确定音频帧的周期,进一步地,还可以结合预设的合理周期区间,来确定该周期是否合适。
S202、根据单个周期波形确定音频帧的共振峰频率,并将共振峰频率确定为音素特征。
进一步地,计算机设备可以根据单个周期波形确定该音频帧的共振峰频率。其中,共振峰是指在声音的频谱中能量相对集中的一些区域,共振峰不但是音质的决定因素,而且反映了共振腔的物理特征。我们之所以能够区分不同的音素,主要也是依靠音素的共振峰分布的位置不同,可以通过共振峰频率来区分,因此可以将共振峰频率确定为音频帧的音素特征。
具体地,计算机设备可以对单个周期波形进行快速傅里叶变换,然后获取怕单个周期波形对应频谱的包络,并依据依据频谱包络线各峰值能量的大小确定出共振峰频率。
上述音频压缩方法,计算机设备将音频帧的共振峰频率确定为音素特征,使得可以通过求取共振峰频率更准确地表征音频帧的音素特征,从而根据上述音素特征获得更准确的压缩单元。
图4为另一个实施例中音频压缩方法的流程示意图;本实施例涉及计算机设备确定压缩单元的一种具体方式,在上述实施例的基础上,如图3所述,上述S102包括:
S301、在预设帧数内,依次比较相邻两个音频帧的共振峰频率。
S302、当相邻两个音频帧的共振峰频率的差值小于预设频率差值时,确定相邻两个音频帧满足预设匹配条件。
S303、将连续满足预设匹配条件的音频帧确定为一个压缩单元。
上述预设帧数可以根据待压缩音频来确定,也可以是一个固定值,例如,上述预设帧数可以是7。计算机设备可以在预设帧数内,依次比较相邻两个音频帧的共振峰频率,可以求相邻两个音频帧的共振峰频率的差值,在上述差值小于预设频率差值时,认为上述相邻的两个音频帧满足预设的匹配条件,认为这两个音频帧的音素特侦相似,为同一个音素。
计算机设备可以将连续满足预设匹配条件的音频帧确定为一个压缩单元,例如,若当前第一个音频帧和第二个音频帧满足预设匹配条件,且第二个音频帧和第三个音频帧满足预设匹配条件,当依次判断至第7个音频帧与第六个音频帧也满足预设匹配条件时,将上述7个音频帧确定为一个压缩单元。若第三个音频帧和第四个音频帧不满足预设匹配条件时,则将前三个音频帧确定为一个压缩单元,然后从第四帧开始继续进行音素特征分析。
进一步地,计算机设备在获得压缩单元后,可以在压缩单元内的各音频帧对应的音频波形上查找各音频帧对应的最大波峰值,并根据各个最大波峰值获得各音频帧的能量值;将压缩单元内能量值最大的音频帧确定为关键音频帧。
上述音频压缩方法,计算机设备通过对相邻两个音频帧之间共振峰频率差值进行判断更准确地确定压缩单元。
图5为另一个实施例中音频压缩方法的流程示意图;本实施例涉及计算机设备对上述压缩数据进行解压的一种具体方式,在上述实施例的基础上,如图5所述,上述S104之后,还包括:
S401、提取压缩数据中的线性拟合系数和残差信号,合成对压缩数据解压后的解压周期波形。
S402、根据解压周期波形以及第一周期和第一能量值,合成对压缩数据解压后的第一音频帧。
S403、根据第一音频帧以及第一差值和第二差值,合成对压缩数据解压后的剩余音频帧。
S404、对第一音频帧和剩余音频帧依次进行拼接,获得对压缩数据解压后的音频波形。
具体地,计算机设备在对上述压缩数据进行解压时,可以提取压缩数据中的线性拟合系数和残差信号,并根据线性预测压缩算法的解压过程,基于线性拟合系数和残差信号合成解压后的周期波形;然后根据上述周期波形以及压缩数据中的第一个音频帧的第一周期和第一能量值,合成解压后的第一音频帧,然后根据第一音频帧以及压缩数据中的第一差值和第二差值,合成压缩数据中对应的其它帧。在获得了压缩数据中的第一音频帧和剩余音频帧之后,可以将上述第一音频帧和剩余音频帧按照顺序依次拼接,合成压缩后的音频波形。
上述音频压缩方法,计算机设备通过压缩数据可以解压出压缩单元的多个音频帧,然后再进行拼接合成,可以很方便地对压缩数据进行解压。
应该理解的是,虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种音频压缩装置,包括:分帧模块10、确定模块20和压缩模块30,其中:
分帧模块10,对待压缩音频进行分帧处理,获得各音频帧。
确定模块20,当音频帧为周期信号时,提取音频帧的音素特征,并将音素特征满足预设匹配条件的至少一个音频帧确定为一个压缩单元,以及确定压缩单元中的一个关键音频帧。
压缩模块30,基于预设的音频压缩格式对压缩单元进行压缩,获得压缩单元的压缩数据;音频压缩数据包括关键波形参数,关键波形参数用于表征关键音频帧的一个周期波形。
本申请实施例提供的音频压缩装置,可以实现上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
在一个实施例中,在上述实施例的基础上,关键波形参数包括对关键音频帧的一个周期波形进行线性预测压缩,获得的线性拟合系数和残差信号。
在一个实施例中,在上述实施例的基础上,音频压缩数据还包括压缩单元中第一个音频帧的第一周期、压缩单元中第一个音频帧的第一能量值、压缩单元中后一个音频帧的周期与前一个音频帧的周期之间的第一差值,以及压缩单元中后一个的能量值和前一个音频帧的能量值之间的第二差值。
在一个实施例中,如图7所示,在上述实施例的基础上,上述确定模块20包括:
提取单元201,用于提取音频帧的单个周期波形;
第一确定单元202,用于根据单个周期波形确定音频帧的共振峰频率,并将共振峰频率确定为音素特征。
在一个实施例中,如图8所示,在上述实施例的基础上,上述确定模块20还包括:
比较单元203,用于在预设帧数内,依次比较相邻两个音频帧的共振峰频率;
第二确定单元204,当相邻两个音频帧的共振峰频率的差值小于预设频率差值时,确定相邻两个音频帧满足预设匹配条件;
第三确定单元205,将连续满足预设匹配条件的音频帧确定为一个压缩单元。
在一个实施例中,在上述实施例的基础上,预设帧数为7。
在一个实施例中,在上述实施例的基础上,上述第三确定单元205还用于:压缩单元内的各音频帧对应的音频波形上查找各音频帧对应的最大波峰值,并根据各个最大波峰值获得各音频帧的能量值;将压缩单元内能量值最大的音频帧确定为关键音频帧。
在一个实施例中,在上述实施例的基础上,上述提取单元201具体用于:提取音频帧的周期;基于周期对音频帧对应的音频波形进行波形切割,获得音频帧的单个周期波形。
在一个实施例中,在上述实施例的基础上,上述确定模块20还用于:当音频帧为非周期信号时,将音频帧确定为一个压缩单元。
在一个实施例中,在上述实施例的基础上,如图9所示,上述装置还包括解压模块40,用于:提取压缩数据中的线性拟合系数和残差信号,合成对压缩数据解压后的解压周期波形;根据解压周期波形以及第一周期和第一能量值,合成对压缩数据解压后的第一音频帧;根据第一音频帧以及第一差值和第二差值,合成对压缩数据解压后的剩余音频帧;对第一音频帧和剩余音频帧依次进行拼接,获得对压缩数据解压后的音频波形。
本申请实施例提供的音频压缩装置,可以实现上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
关于音频压缩装置的具体限定可以参见上文中对于音频压缩方法的限定,在此不再赘述。上述音频压缩装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音频压缩方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
对待压缩音频进行分帧处理,获得各音频帧;
当音频帧为周期信号时,提取音频帧的音素特征,并将音素特征满足预设匹配条件的至少一个音频帧确定为一个压缩单元,以及确定压缩单元中的一个关键音频帧;
基于预设的音频压缩格式对压缩单元进行压缩,获得压缩单元的压缩数据;音频压缩数据包括关键波形参数,关键波形参数用于表征关键音频帧的一个周期波形。
在其中一个实施例中,上述关键波形参数包括对关键音频帧的一个周期波形进行线性预测压缩,获得的线性拟合系数和残差信号。
在其中一个实施例中,上述音频压缩数据还包括压缩单元中第一个音频帧的第一周期、压缩单元中第一个音频帧的第一能量值、压缩单元中后一个音频帧的周期与前一个音频帧的周期之间的第一差值,以及压缩单元中后一个的能量值和前一个音频帧的能量值之间的第二差值。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:提取音频帧的单个周期波形;根据单个周期波形确定音频帧的共振峰频率,并将共振峰频率确定为音素特征。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:在预设帧数内,依次比较相邻两个音频帧的共振峰频率;当相邻两个音频帧的共振峰频率的差值小于预设频率差值时,确定相邻两个音频帧满足预设匹配条件;将连续满足预设匹配条件的音频帧确定为一个压缩单元。
在其中一个实施例中,上述预设帧数为7。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:在压缩单元内的各音频帧对应的音频波形上查找各音频帧对应的最大波峰值,并根据各个最大波峰值获得各音频帧的能量值;将压缩单元内能量值最大的音频帧确定为关键音频帧。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:提取音频帧的周期;基于周期对音频帧对应的音频波形进行波形切割,获得音频帧的单个周期波形。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当音频帧为非周期信号时,将音频帧确定为一个压缩单元。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:提取压缩数据中的线性拟合系数和残差信号,合成对压缩数据解压后的解压周期波形;根据解压周期波形以及第一周期和第一能量值,合成对压缩数据解压后的第一音频帧;根据第一音频帧以及第一差值和第二差值,合成对压缩数据解压后的剩余音频帧;对第一音频帧和剩余音频帧依次进行拼接,获得对压缩数据解压后的音频波形。
本实施例提供的计算机设备,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
对待压缩音频进行分帧处理,获得各音频帧;
当音频帧为周期信号时,提取音频帧的音素特征,并将音素特征满足预设匹配条件的至少一个音频帧确定为一个压缩单元,以及确定压缩单元中的一个关键音频帧;
基于预设的音频压缩格式对压缩单元进行压缩,获得压缩单元的压缩数据;音频压缩数据包括关键波形参数,关键波形参数用于表征关键音频帧的一个周期波形。
在其中一个实施例中,上述关键波形参数包括对关键音频帧的一个周期波形进行线性预测压缩,获得的线性拟合系数和残差信号。
在其中一个实施例中,上述音频压缩数据还包括压缩单元中第一个音频帧的第一周期、压缩单元中第一个音频帧的第一能量值、压缩单元中后一个音频帧的周期与前一个音频帧的周期之间的第一差值,以及压缩单元中后一个的能量值和前一个音频帧的能量值之间的第二差值。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:提取音频帧的单个周期波形;根据单个周期波形确定音频帧的共振峰频率,并将共振峰频率确定为音素特征。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:在预设帧数内,依次比较相邻两个音频帧的共振峰频率;当相邻两个音频帧的共振峰频率的差值小于预设频率差值时,确定相邻两个音频帧满足预设匹配条件;将连续满足预设匹配条件的音频帧确定为一个压缩单元。
在其中一个实施例中,上述预设帧数为7。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:在压缩单元内的各音频帧对应的音频波形上查找各音频帧对应的最大波峰值,并根据各个最大波峰值获得各音频帧的能量值;将压缩单元内能量值最大的音频帧确定为关键音频帧。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:提取音频帧的周期;基于周期对音频帧对应的音频波形进行波形切割,获得音频帧的单个周期波形。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当音频帧为非周期信号时,将音频帧确定为一个压缩单元。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:提取压缩数据中的线性拟合系数和残差信号,合成对压缩数据解压后的解压周期波形;根据解压周期波形以及第一周期和第一能量值,合成对压缩数据解压后的第一音频帧;根据第一音频帧以及第一差值和第二差值,合成对压缩数据解压后的剩余音频帧;对第一音频帧和剩余音频帧依次进行拼接,获得对压缩数据解压后的音频波形。
本实施例提供的计算机可读存储介质,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种音频压缩方法,其特征在于,所述方法包括:
对待压缩音频进行分帧处理,获得各音频帧;
当所述音频帧为周期信号时,提取所述音频帧的音素特征,并将音素特征满足预设匹配条件的连续音频帧确定为一个压缩单元,以及确定所述压缩单元中的一个关键音频帧;
基于预设的音频压缩格式对所述压缩单元进行压缩,获得所述压缩单元的压缩数据;所述音频压缩数据包括关键波形参数,所述关键波形参数用于表征所述关键音频帧的一个周期波形。
2.根据权利要求1所述的方法,其特征在于,所述关键波形参数包括对所述关键音频帧的一个周期波形进行线性预测压缩,获得的线性拟合系数和残差信号。
3.根据权利要求2所述的方法,其特征在于,所述音频压缩数据还包括所述压缩单元中第一个音频帧的第一周期、所述压缩单元中第一个音频帧的第一能量值、所述压缩单元中后一个音频帧的周期与前一个音频帧的周期之间的第一差值,以及所述压缩单元中后一个的能量值和所述前一个音频帧的能量值之间的第二差值。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述提取所述音频帧的音素特征,包括:
提取所述音频帧的单个周期波形;
根据所述单个周期波形确定所述音频帧的共振峰频率,并将所述共振峰频率确定为所述音素特征。
5.根据权利要求4所述的方法,其特征在于,所述将所述音素特征满足预设匹配条件的连续音频帧确定为一个压缩单元,包括:
在预设帧数内,依次比较相邻两个音频帧的共振峰频率;
当相邻两个音频帧的共振峰频率的差值小于预设频率差值时,确定所述相邻两个音频帧满足所述预设匹配条件;
将连续满足所述预设匹配条件的音频帧确定为一个压缩单元。
6.根据权利要求1-3任一项所述的方法,其特征在于,所述确定所述压缩单元中的一个关键音频帧,包括:
在所述压缩单元内的各音频帧对应的音频波形上查找各音频帧对应的最大波峰值,并根据各个最大波峰值获得各音频帧的能量值;
将所述压缩单元内能量值最大的音频帧确定为所述关键音频帧。
7.根据权利要求4所述的方法,其特征在于,所述提取所述音频帧的单个周期波形,包括:
提取所述音频帧的周期;
基于所述周期对所述音频帧对应的音频波形进行波形切割,获得所述音频帧的单个周期波形。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述音频帧为非周期信号时,将所述音频帧确定为一个压缩单元。
9.根据权利要求3所述的方法,其特征在于,所述方法还包括:
提取所述压缩数据中的所述线性拟合系数和所述残差信号,合成对所述压缩数据解压后的解压周期波形;
根据所述解压周期波形以及所述第一周期和所述第一能量值,合成对所述压缩数据解压后的第一音频帧;
根据所述第一音频帧以及所述第一差值和所述第二差值,合成对所述压缩数据解压后的剩余音频帧;
对所述第一音频帧和所述剩余音频帧依次进行拼接,获得对所述压缩数据解压后的音频波形。
10.一种音频压缩装置,其特征在于,所述装置包括:
分帧模块,对待压缩音频进行分帧处理,获得各音频帧;
确定模块,当所述音频帧为周期信号时,提取所述音频帧的音素特征,并将音素特征满足预设匹配条件的连续音频帧确定为一个压缩单元,以及确定所述压缩单元中的一个关键音频帧;
压缩模块,基于预设的音频压缩格式对所述压缩单元进行压缩,获得所述压缩单元的压缩数据;所述音频压缩数据包括关键波形参数,所述关键波形参数用于表征所述关键音频帧的一个周期波形。
CN201910633760.9A 2019-07-15 2019-07-15 音频压缩方法和装置 Active CN110390939B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910633760.9A CN110390939B (zh) 2019-07-15 2019-07-15 音频压缩方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910633760.9A CN110390939B (zh) 2019-07-15 2019-07-15 音频压缩方法和装置

Publications (2)

Publication Number Publication Date
CN110390939A CN110390939A (zh) 2019-10-29
CN110390939B true CN110390939B (zh) 2021-08-20

Family

ID=68286536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910633760.9A Active CN110390939B (zh) 2019-07-15 2019-07-15 音频压缩方法和装置

Country Status (1)

Country Link
CN (1) CN110390939B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10222196A (ja) * 1997-02-03 1998-08-21 Gotai Handotai Kofun Yugenkoshi 音声符号化における波形利得見積方法
CN1450529A (zh) * 2002-04-09 2003-10-22 无敌科技股份有限公司 语音音素译码器
GB2398981A (en) * 2003-02-27 2004-09-01 Motorola Inc Speech communication unit and method for synthesising speech therein
CN102436819A (zh) * 2011-10-25 2012-05-02 杭州微纳科技有限公司 无线音频压缩、解压缩方法及音频编码器和音频解码器
CN102623015A (zh) * 1998-12-21 2012-08-01 高通股份有限公司 可变速率语音编码
CN107342094A (zh) * 2011-12-21 2017-11-10 华为技术有限公司 非常短的基音周期检测和编码

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106486129B (zh) * 2014-06-27 2019-10-25 华为技术有限公司 一种音频编码方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10222196A (ja) * 1997-02-03 1998-08-21 Gotai Handotai Kofun Yugenkoshi 音声符号化における波形利得見積方法
CN102623015A (zh) * 1998-12-21 2012-08-01 高通股份有限公司 可变速率语音编码
CN1450529A (zh) * 2002-04-09 2003-10-22 无敌科技股份有限公司 语音音素译码器
GB2398981A (en) * 2003-02-27 2004-09-01 Motorola Inc Speech communication unit and method for synthesising speech therein
CN102436819A (zh) * 2011-10-25 2012-05-02 杭州微纳科技有限公司 无线音频压缩、解压缩方法及音频编码器和音频解码器
CN107342094A (zh) * 2011-12-21 2017-11-10 华为技术有限公司 非常短的基音周期检测和编码

Also Published As

Publication number Publication date
CN110390939A (zh) 2019-10-29

Similar Documents

Publication Publication Date Title
US8670990B2 (en) Dynamic time scale modification for reduced bit rate audio coding
CN101057275B (zh) 矢量变换装置以及矢量变换方法
US20070265836A1 (en) Audio signal encoding apparatus and method
RU2565995C2 (ru) Кодирующее и декодирующее устройство для низкоскоростных сигналов
CN110570876A (zh) 歌声合成方法、装置、计算机设备和存储介质
CN109714608B (zh) 视频数据处理方法、装置、计算机设备和存储介质
EP2096631A1 (en) Audio decoding device and power adjusting method
CN105814631A (zh) 盲带宽扩展系统和方法
EP1538602B1 (en) Wideband synthesis from a narrowband signal
EP1870880B1 (en) Signal processing method, signal processing apparatus and recording medium
US20230099343A1 (en) Audio signal enhancement method and apparatus, computer device, storage medium and computer program product
CN113470688B (zh) 语音数据的分离方法、装置、设备及存储介质
US10431226B2 (en) Frame loss correction with voice information
CN110390939B (zh) 音频压缩方法和装置
CN116665710B (zh) 气体绝缘开关设备的故障识别方法、装置和计算机设备
JPWO2007037359A1 (ja) 音声符号化装置および音声符号化方法
CN113903345A (zh) 音频处理方法、设备及电子设备
US9070364B2 (en) Method and apparatus for processing audio signals
US11302340B2 (en) Pitch emphasis apparatus, method and program for the same
CN113782042A (zh) 语音合成方法、声码器的训练方法、装置、设备及介质
Kabir et al. A loss-less compression technique for high quality speech signals and its implementation with MPEG-4 ALS for better compression
US20220277754A1 (en) Multi-lag format for audio coding
US20070255557A1 (en) Morphology-based speech signal codec method and apparatus
US11468905B2 (en) Sample sequence converter, signal encoding apparatus, signal decoding apparatus, sample sequence converting method, signal encoding method, signal decoding method and program
WO2024055752A1 (zh) 语音合成模型的训练方法、语音合成方法和相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: 519000 No. 333, Kexing Road, Xiangzhou District, Zhuhai City, Guangdong Province

Patentee after: ZHUHAI JIELI TECHNOLOGY Co.,Ltd.

Address before: Floor 1-107, building 904, ShiJiHua Road, Zhuhai City, Guangdong Province

Patentee before: ZHUHAI JIELI TECHNOLOGY Co.,Ltd.

CP02 Change in the address of a patent holder