CN117935826A - 音频升采样方法、装置、设备及存储介质 - Google Patents

音频升采样方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117935826A
CN117935826A CN202410331733.7A CN202410331733A CN117935826A CN 117935826 A CN117935826 A CN 117935826A CN 202410331733 A CN202410331733 A CN 202410331733A CN 117935826 A CN117935826 A CN 117935826A
Authority
CN
China
Prior art keywords
sampling
audio
audio signal
obtaining
equivalent rectangular
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410331733.7A
Other languages
English (en)
Other versions
CN117935826B (zh
Inventor
胡小辉
季海交
李爽
韩攀强
禹然
唐强
李忠梁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tendzone Intelligent Technology Co ltd
Original Assignee
Shenzhen Tendzone Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tendzone Intelligent Technology Co ltd filed Critical Shenzhen Tendzone Intelligent Technology Co ltd
Priority to CN202410331733.7A priority Critical patent/CN117935826B/zh
Publication of CN117935826A publication Critical patent/CN117935826A/zh
Application granted granted Critical
Publication of CN117935826B publication Critical patent/CN117935826B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及音频处理领域,并公开了一种音频升采样方法、装置、设备及存储介质,该方法包括:获取音频信号;将所述音频信号进行特征提取,得到所述音频信号的均方根能量值、等效矩形带宽特征以及频谱特征;将所述均方根能量值、所述等效矩形带宽特征以及所述频谱特征分别作为输入链路,输入升采样模型中进行处理,得到升采样后的音频信号。将音频低采样率升到更高的采样率时,为了更好的还原音频信号,将音频信号的能量、音频信号的等效矩形带宽特征和复数域特征,输入到升采样模型中,以二阶段多目标的方式训练音频信号的等响度带增益因子和高频带的参数,恢复高频信号的复数域参数,大大提高了音频信号质量。

Description

音频升采样方法、装置、设备及存储介质
技术领域
本发明涉及音频处理领域,尤其涉及一种音频升采样方法、装置、设备及存储介质。
背景技术
传统算法里,降采样主要是通过信号的抽取来实现,比如等间隔的去抽取原始信号,影响比较大的是频谱扩展,由于信号是离散的,DTFT(离散时间傅里叶变换)的频谱是周期的,在平移相加时会产生混叠,为了去除掉混叠的影响需要在抽取之前先做低通滤波,提前滤除掉高频后再进行抽取。升采样主要通过信号的插值来实现,按目标采样率等间隔的插入邻近信号近似值。插值后的信号进行了频谱的压缩,根据圆周卷积理论,低频会镜像为多余的高频,因此需要插零后再做低通滤波把多余的镜像频率滤除掉。众所周知任意连续函数可以被任意均匀的多项式或三角多项式表示。逼近的精度可以用泰勒级数和原函数的高阶函数来估计。所以理论上可以选择合适的多项式和三角多项式作为音频重采样的插入函数。
因为降采样是降低采样率,减少有效频带范围,所以音质必然是会损失的,传统的降采样算法已可以满足应用需求,但是传统升采样算法其经插值后的信号有效频带只是无限接近原始信号的频带,这样音质本身没有任何提升,只是采样率做了个变换。可理解为传统升采样算法不能丰富扩充后频宽范围的频带信息。尤其是现在数字音频处理器上经过一些深度学习的算法后,其音质一直被局限在16KHz,不能很好的还原音质,尤其是专业音频领域,低采样率极大的限制了他的应用场景,也导致在推广相关专业音频产品时屡屡受阻。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供了一种音频升采样方法、装置、设备及存储介质,旨在解决现有技术升采样不能还原音质的技术问题。
为实现上述目的,本发明提供了一种音频升采样方法,所述方法包括:
获取音频信号;
将所述音频信号进行特征提取,得到所述音频信号的均方根能量值、等效矩形带宽特征以及频谱特征;
将所述均方根能量值、所述等效矩形带宽特征以及所述频谱特征分别作为输入链路,输入升采样模型中进行处理,得到升采样后的音频信号。
可选地,所述将所述音频信号进行特征提取,得到所述音频信号的均方根能量值、等效矩形带宽特征以及频谱特征,包括:
根据所述音频信号的频率,得到等效矩形带宽增益因子;
根据所述等效矩形带宽增益因子,得到等效矩形带宽;
根据所述等效矩形带宽,得到所述等效矩形带宽特征;
将所述音频信号进行特征提取,得到所述音频信号的均方根能量值和所述频谱特征。
可选地,所述将所述音频信号进行特征提取,得到所述音频信号的均方根能量值、等效矩形带宽特征以及频谱特征之后,还包括:
根据所述音频信号增益,得到信噪比;
根据等效矩形带宽的子带中心频率和所述音频信号的采样率,得到预设关键频率点;
根据所述预设关键频率点和所述音频信号的品质因子,得到衰减因子;
根据所述信噪比选择预设低通滤波器和预设高通滤波器;
根据所述预设关键频率点和所述衰减因子,得到所述预设低通滤波器的系数和所述预设高通滤波器的系数;
根据所述预设低通滤波器的系数、所述预设高通滤波器的系数以及所述音频信号的频率,得到所述预设低通滤波器的传输函数和所述预设高通滤波器的传输函数;
根据所述预设低通滤波器的传输函数和所述预设高通滤波器的传输函数,得到目标低通滤波器和目标高通滤波器;
通过目标低通滤波器和目标高通滤波器,得到等效矩形带宽特征的对应值;
将所述均方根能量值、所述等效矩形带宽特征的对应值以及所述频谱特征,输入升采样模型中进行处理,得到升采样后的音频信号。
可选地,所述将所述均方根能量值、所述等效矩形带宽特征以及所述频谱特征分别作为输入链路,输入升采样模型中进行处理,得到升采样后的音频信号之前,还包括:
获取训练集中的高采样率音频数据;
将所述高采样率音频数据通过降采样算法进行处理,得到目标低采样率音频数据;
将所述高采样率音频数据和所述目标低采样率音频数据,输入预设升采样模型中,得到脉冲码调制值;
根据所述高采样率音频数据、所述脉冲码调制值以及所述目标低采样率音频数据的采样总次数,得到脉冲码调制相似度;
获取原采样率范围的频谱包络相似度;
获取扩充频谱范围的包络相似度;
根据所述脉冲码调制相似度、所述频谱包络相似度、所述包络相似度以及微调损失权重参数,得到综合损失函数;
根据所述预设升采样模型和所述综合损失函数,得到所述升采样模型。
可选地,所述获取原采样率范围的频谱包络相似度,包括:
根据所述脉冲码调制值的频谱包络和所述高采样率音频数据的频谱包络,得到所述原采样率范围的频谱包络相似度。
可选地,所述获取扩充频谱范围的包络相似度,包括:
根据所述脉冲码调制值的扩充频谱包络和所述高采样率音频数据的扩充频谱包络,得到所述扩充频谱范围的包络相似度。
可选地,所述将所述均方根能量值、所述等效矩形带宽特征以及所述频谱特征分别作为输入链路,输入升采样模型中进行处理,得到升采样后的音频信号,包括:
将所述均方根能量值、所述等效矩形带宽特征以及所述频谱特征分别作为输入链路,输入所述升采样模型的编码层中,并将所述编码层的输出分割为两部分,得到第一部分和第二部分;
将所述第一部分输入所述升采样模型的等效矩形带宽解码层中,得到扩充后的等效矩形带宽增益;
将所述第二部分输入所述升采样模型的高频带解码层中,得到扩充高频段的频谱特征参数;
根据所述扩充后的等效矩形带宽增益和所述扩充高频段的频谱特征参数,得到全频带的复数域特征;
将所述全频带的复数域特征进行傅里叶逆变换处理,得到所述升采样后的音频信号。
此外,为实现上述目的,本发明还提出一种音频升采样装置,所述音频升采样装置包括:
获取模块,用于获取音频信号;
提取模块,用于将所述音频信号进行特征提取,得到所述音频信号的均方根能量值、等效矩形带宽特征以及频谱特征;
处理模块,用于将所述均方根能量值、所述等效矩形带宽特征以及所述频谱特征分别作为输入链路,输入升采样模型中进行处理,得到升采样后的音频信号。
此外,为实现上述目的,本发明还提出一种音频升采样设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音频升采样程序,所述音频升采样程序配置为实现如上文所述的音频升采样方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有音频升采样程序,所述音频升采样程序被处理器执行时实现如上文所述的音频升采样方法的步骤。
本发明提出的一种音频升采样方法、装置、设备及存储介质,该方法包括:获取音频信号;将所述音频信号进行特征提取,得到所述音频信号的均方根能量值、等效矩形带宽特征以及频谱特征;将所述均方根能量值、所述等效矩形带宽特征以及所述频谱特征分别作为输入链路,输入升采样模型中进行处理,得到升采样后的音频信号。将更低的采样率升到更高的采样率时,为了更好的还原音频信号,本发明不但引入了音频信号的能量,还汇入了音频的ERB特征和复数域特征,将它们输入到升采样模型中,以二阶段多目标的方式训练音频信号的ERB增益因子和高频带的参数,恢复高频信号的复数域参数,进一步提高了音频信号质量。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的音频升采样设备结构示意图;
图2为本发明音频升采样方法第一实施例的流程示意图;
图3为本发明音频升采样方法第一实施例中的音频重采样算法信号流程图;
图4为本发明音频升采样方法第一实施例中的重采样算法模型架构图;
图5为本发明音频升采样方法第二实施例的流程示意图;
图6为本发明音频升采样方法第三实施例的流程示意图;
图7为本发明音频升采样装置的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的音频升采样设备结构示意图。
如图1所示,该音频升采样设备可以包括:处理器1001,例如中央处理器(CentralProcessing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM),也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对音频升采样设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及音频升采样程序。
在图1所示的音频升采样设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明音频升采样设备中的处理器1001、存储器1005可以设置在音频升采样设备中,所述音频升采样设备通过处理器1001调用存储器1005中存储的音频升采样程序,并执行本发明实施例提供的音频升采样方法。
本发明实施例提供了一种音频升采样方法,参照图2,图2为本发明音频升采样方法第一实施例的流程示意图。
本实施例中,所述音频升采样方法包括以下步骤:
步骤S10:获取音频信号;
需要说明的是,本实施例方法的执行主体可以是:
软件应用程序:音频处理软件、音频编辑软件、音乐制作软件或者专门的音频分析工具可能包含实现这些步骤的算法和功能。
数字信号处理器(DSP):在嵌入式系统或专用音频设备中,数字信号处理器可能被编程来执行这些步骤,特别是在需要实时处理音频信号的场合。
人工智能和机器学习平台:如果升采样模型是基于机器学习或深度学习的,那么执行主体可能是运行在高性能计算平台(如GPU或TPU)上的AI框架,如TensorFlow、PyTorch或Keras等。
编程语言和库:在开发音频处理算法时,程序员可能会使用各种编程语言(如Python、C++、Java等)和相关的音频处理库(如Librosa、SciPy、MATLAB等)来实现这些步骤。
硬件设备:在某些专业音频设备中,如音频接口、混音台或效果器,内部的微控制器或处理器可能被设计来执行这些音频处理操作。
云服务和API:在云端环境中,可能存在提供音频处理服务的API或平台,开发者可以通过调用这些API来执行音频升采样的过程。
以下以计算机为例对本实施例及下述各实施例进行说明。
步骤S20:将所述音频信号进行特征提取,得到所述音频信号的均方根能量值、等效矩形带宽特征以及频谱特征;
需要说明的是,以下是如何将音频信号进行特征提取,得到均方根能量值、等效矩形带宽特征以及频谱特征的简要步骤:
预处理:首先,对音频信号进行预处理,包括去除噪声、归一化或截取感兴趣的片段等。
均方根能量(Root Mean Square Energy, RMSE)计算:均方根能量是表示音频信号强度的一个常用指标。计算方法是将音频信号的每个样本值平方,然后求平均值,最后取平方根。在Python中,可以使用如下代码计算RMSE:
python
import numpy as np
audio_signal = ...# 获取音频信号
rmse = np.sqrt(np.mean(audio_signal ** 2))
等效矩形带宽特征提取:等效矩形带宽特征通常用于描述音频信号中的瞬态或冲击特性,如打击乐器的声音。提取这种特征的方法可能涉及短时傅里叶变换(Short-TimeFourier Transform, STFT)、小波分析或其他时间-频率分析技术。具体的计算方法可能会比较复杂,需要根据具体的应用和算法来确定。
频谱特征提取:音频信号的频谱特征可以提供关于其频率成分的重要信息。常用的频谱特征包括频谱幅度、频谱熵、梅尔频率倒谱系数(Mel Frequency CepstralCoefficients, MFCCs)等。计算频谱特征通常涉及以下步骤:对音频信号进行窗口化处理,将长信号分割成多个短时片段。对每个短时片段进行快速傅里叶变换(Fast FourierTransform, FFT)或STFT,将其转换到频域。根据需要计算各种频谱特征,如频谱幅度、频谱熵或MFCCs等。
这些特征提取步骤可以在各种编程环境中实现,如Python、MATLAB、R等,并且可以利用相关的音频处理库和函数来进行计算,如Librosa、SciPy、Matplotlib等。具体的实现方式可能会因应用需求和所使用的工具而有所不同。
步骤S30:将所述均方根能量值、所述等效矩形带宽特征以及所述频谱特征分别作为输入链路,输入升采样模型中进行处理,得到升采样后的音频信号。
需要说明的是,升采样模型为深度神经网络模型。
应理解的是,当前有部分升采样的算法采用了深度学习的方法,但是其输入的特征比较单一。一般都是直接输入PCM的数据,通过神经网络来提取特征进行训练。这种依赖神经网络提取特征的方法会失去很多频谱信息,尤其是各个ERB(等效矩形带宽)频带的相互间关系,以及各个频点的相位信息。这些特征信息对推导高频损失的频谱极为关键。另外,语音具有短时平稳性,所以在输入特征里引入连续多帧信号的RMS能量(均方根能量值),有利于其对输出语音短时平稳性的重构,避免输出语音信号显得突兀或者带有毛刺。
为了更好的还原语音信号,本算法模型不但引入了输入信号的能量,还汇入了音频的ERB特征(等效矩形带宽特征)和复数域特征。网络结构主要由这三个链路作为输入。
可理解的是,升采样模型根据输入的特征计算出升采样后的音频信号。这个过程可能包括特征融合、非线性变换、上采样操作等。
如图3所示,图3为本发明音频升采样方法第一实施例中的音频重采样算法信号流程图,即本实施例及以下实施例的音频升采样流程。原始的音频信号x(n)首先被分解为幅值特征、复数域特征和ERB特征。其中,幅值特征会先经过Log函数转换;而复数域特征和ERB特征则分别与X和B相乘。接着,这些特征会被送入DNN模型中进行处理。DNN模型通常包含多层神经元,每一层都会将前一层的输出作为输入,并通过激活函数进行非线性变换。在这个过程中,模型会自动学习到有效的特征表示,从而提高分类或回归的准确性。最后,DNN模型的输出会与高频子带系数和ERB增益相结合,生成最终的结果y(n)。
进一步地,所述将所述均方根能量值、所述等效矩形带宽特征以及所述频谱特征分别作为输入链路,输入升采样模型中进行处理,得到升采样后的音频信号,包括:将所述均方根能量值、所述等效矩形带宽特征以及所述频谱特征分别作为输入链路,输入所述升采样模型的编码层中,并将所述编码层的输出分割为两部分,得到第一部分和第二部分;将所述第一部分输入所述升采样模型的等效矩形带宽解码层中,得到扩充后的等效矩形带宽增益;将所述第二部分输入所述升采样模型的高频带解码层中,得到扩充高频段的频谱特征参数;根据所述扩充后的等效矩形带宽增益和所述扩充高频段的频谱特征参数,得到全频带的复数域特征;将所述全频带的复数域特征进行傅里叶逆变换处理,得到所述升采样后的音频信号。
需要说明的是,网络结构主要由三个链路作为输入,分别为当前帧与之前5帧构成的RMS能量值(均方根能量值)、ERB特征(等效矩形带宽特征)、频谱特征信息。通过多层卷积Conv1D、激活函数PReLU等模块,构成第一阶段的编码层Encoder。编码层的输出通过两阶段的方法分别传入到ERB Decoder层和HFB Decoder层, ERB Decoder主要由GRU和ConV组成,输出获得扩充后的全部ERB Gains(等效矩形带宽增益),HFB Decoder层输出获得扩充HFBCoefs(高频段的频谱特征参数)。综合ERB Gains和HFB Coefs计算获得全频带的复数域特征,在对结果做傅里叶逆变换后得到PCM(即升采样后的音频信号)。
应理解的是,升采样模型的主要目的是扩充高频频谱,所以需要在原始频谱上重构高频的频谱序列。将模型分成两阶段输出,一个是ERB Gains,一个是HFB coefs参数,更有利于高频成分的构建。因为输入音频是包含低频部分的频谱,所以ERB Gains按其公式线性的扩展到全频带后,其频谱成分不但还原了原始的输入频谱,还含有扩充后的高频带,但考虑到高频成分在平滑度和高频谐波分量上不能很好的还原,此时利用二阶段的另外一个高频带系数因子HFB coefs进行修正。HFB coefs是指高频段的频谱特征参数(将ERB的扩充频谱乘以HFB coefs)。
如图4所示,图4为本发明音频升采样方法第一实施例中的重采样算法模型架构图,重采样算法模型即本实施例中的升采样模型,模型由三个部分组成:编码器、ERB解码器和HFB解码器。在编码器模块,幅值特征、ERB特征和复数域特征分别经过多次卷积操作得到新的特征图。所有特征图经过C点汇聚后,再经过一个线性层得到一个向量,最后通过一个GRU单元得到编码器的输出。 在ERB解码器模块,经过编码器输出的向量与ERB增益连接后再经过多次卷积操作得到一个新的特征图,该特征图与经过三次卷积操作后的高频子带系数特征图连接得到ERB解码器的输出。 在HFB解码器模块,经过编码器输出的向量直接与经过三次卷积操作后的高频子带系数特征图连接得到HFB解码器的输出。
本实施例通过获取音频信号并进行特征提取,得到均方根能量值、等效矩形带宽特征和频谱特征,将这三个特征分别作为输入链路输入升采样模型,在升采样模型中,编码层将输入分割为两部分:第一部分输入等效矩形带宽解码层得到扩充后的等效矩形带宽增益;第二部分输入高频带解码层得到扩充高频段的频谱特征参数,根据扩充后的等效矩形带宽增益和扩充高频段的频谱特征参数,生成全频带的复数域特征,对全频带的复数域特征进行傅里叶逆变换处理,得到升采样后的音频信号,确保了音频的连续性和自然度,提高了听感质量。
参考图5,图5为本发明音频升采样方法第二实施例的流程示意图。
基于上述第一实施例,在本实施例中,所述步骤S20,包括:
步骤S201:根据所述音频信号的频率,得到等效矩形带宽增益因子;
需要说明的是,等效矩形带宽增益因子(Equivalent Rectangular BandwidthGain Factor,简称ERBGF或EBGF)是在信号处理和通信系统中常用的一个概念,主要用于描述一个系统的频率响应特性。在一个理想的矩形带宽滤波器中,增益在特定频率范围内是恒定的,而在其他频率上则为零。等效矩形带宽增益因子就是用来衡量一个实际的、非理想滤波器或系统的频率响应在某个特定频率处与理想矩形带宽滤波器在同一带宽下的增益之比。
基于音频信号频率计算等效矩形带宽增益因子的一般步骤如下:
获取音频信号的频谱:使用快速傅里叶变换(FFT)或其他频谱分析技术,将音频信号从时域转换到频域,得到其频谱。
确定系统的频率响应函数:这通常涉及到测量或理论分析音频处理系统(如滤波器、放大器等)的频率响应。频率响应函数描述了系统在不同频率下对信号的增益或衰减特性。
选择参考频率:在音频信号的频谱中,选择一个你感兴趣的频率点作为参考频率。
计算等效矩形带宽:对于选定的参考频率,找到一个宽度合适的矩形带宽,使得在这个带宽内的理想矩形滤波器的增益与实际系统在该频率处的增益相等。这可能需要通过迭代或者优化算法来实现。
计算等效矩形带宽增益因子:将实际系统在参考频率处的增益除以在等效矩形带宽内理想矩形滤波器的增益。理想矩形滤波器的增益通常是带宽除以2(因为矩形滤波器的带宽是中心频率两侧各一半),所以等效矩形带宽增益因子可表示为:ERBGF = (SystemGain at Reference Frequency) / (Rectangular Bandwidth / 2)。
在具体实现中,通过如下ERB修正公式计算等效矩形带宽增益因子:
式中,f表示音频信号的频率,ERBs(f)表示等效矩形带宽增益因子。
步骤S202:根据所述等效矩形带宽增益因子,得到等效矩形带宽;
需要说明的是,等效矩形带宽(Equivalent Rectangular Bandwidth,简称ERB)是一个在心理声学和信号处理中使用的概念,用于描述人耳对不同频率声音的感知特性。它提供了一个近似于人耳听觉系统如何过滤和处理不同频率声音的模型。在物理意义上,等效矩形带宽不是一个实际的频率范围,而是一种理论上的度量方式,用于表示在某个特定频率下,人耳对声音强度变化的敏感程度与一个具有相同响应的理想矩形滤波器的带宽相当。
以下是一种基于等效矩形带宽增益因子计算等效矩形带宽的基本计算步骤:
确定系统的实际频谱密度或功率谱密度;
计算系统的总传输能量(或功率);
确定系统的噪声功率;
获取等效矩形带宽增益因子;
而后,可以使用以下公式计算等效矩形带宽:
B = (传输能量或功率) / (噪声功率×等效矩形带宽增益因子)
这个公式的意思是,等效矩形带宽是传输能量或功率与噪声功率和等效矩形带宽增益因子的乘积之比。
步骤S203:根据所述等效矩形带宽,得到所述等效矩形带宽特征;
需要说明的是,ERB:等效矩形带宽(Equivalent Rectangular Bandwidth,ERB)是用于心理声学研究人对声音、言语、音乐的生理和心理反应的科学的一种量度方法,它给出了一个近似于人耳听觉的对带宽的过滤方法,使用不现实但方便的简化方法将滤波器建模为矩形带通滤波器或带阻滤波器。
等效矩形带宽特征(ERB,Equivalent Rectangular Bandwidth feature)是基于人耳听觉特性的音频信号处理方法。ERB概念反映了人类听觉系统对不同频率声音的感知特性,即在不同的频率下,人耳对同样大小的频率变化(或带宽)的敏感程度是不同的。
通过上述ERB修正公式可求得ERB频带的带宽,即为ERB特征。
步骤S204:将所述音频信号进行特征提取,得到所述音频信号的均方根能量值和所述频谱特征。
进一步地,所述将所述音频信号进行特征提取,得到所述音频信号的均方根能量值、等效矩形带宽特征以及频谱特征之后,还包括:根据所述音频信号增益,得到信噪比;根据等效矩形带宽的子带中心频率和所述音频信号的采样率,得到预设关键频率点;根据所述预设关键频率点和所述音频信号的品质因子,得到衰减因子;根据所述信噪比选择预设低通滤波器和预设高通滤波器;根据所述预设关键频率点和所述衰减因子,得到所述预设低通滤波器的系数和所述预设高通滤波器的系数;根据所述预设低通滤波器的系数、所述预设高通滤波器的系数以及所述音频信号的频率,得到所述预设低通滤波器的传输函数和所述预设高通滤波器的传输函数;根据所述预设低通滤波器的传输函数和所述预设高通滤波器的传输函数,得到目标低通滤波器和目标高通滤波器;通过目标低通滤波器和目标高通滤波器,得到等效矩形带宽特征的对应值;将所述均方根能量值、所述等效矩形带宽特征的对应值以及所述频谱特征,输入升采样模型中进行处理,得到升采样后的音频信号。
在具体实现中,通过如下公式计算信噪比:
式中,dBgain为音频信号增益,g为信噪比。
通过如下公式计算预设关键频率点:
式中,f0为等效矩形带宽的子带中心频率,fs为音频信号的采样率,为预设关键频率点。
通过如下公式计算衰减因子α:
式中,为预设关键频率点,ferb为经erb转换后的品质因子。
以下公式为预设低通滤波器的系数计算公式:
式中,为预设关键频率点,α为衰减因子,b0、b1、b2、a0、a1、a2为预设低通滤波器的系数。
以下公式为预设高通滤波器的系数计算公式:
式中,为预设关键频率点,α为衰减因子,b0、b1、b2、a0、a1、a2为预设高通滤波器的系数。
通过如下公式计算传输函数:
式中,当计算预设低通滤波器的传输函数时,b0、b1、b2、a0、a1、a2为预设低通滤波器的系数;当计算预设高通滤波器的传输函数时,b0、b1、b2、a0、a1、a2为预设高通滤波器的系数,z为音频信号的频率,H(z)为传输函数。
利用目标高通滤波器和目标低通滤波器可以求得各个等效矩形带宽特征的对应值,最后将均方根能量值、等效矩形带宽特征的对应值以及频谱特征,输入升采样模型中进行处理,得到升采样后的音频信号。
本实施例通过计算音频信号的等效矩形带宽相关参数(增益因子、带宽和特征)和基本特征(均方根能量值、频谱特征),根据信噪比、关键频率点和衰减因子设计并应用低通和高通滤波器,使用低通和高通滤波器处理等效矩形带宽特征,得到对应值,将多种特征输入升采样模型进行处理,生成升采样后的音频信号,保留和增强了音频信号的重要频率信息,抑制噪声,优化频率响应,提升了升采样后音频的音质、清晰度和保真度。
参考图6,图6为本发明音频升采样方法第三实施例的流程示意图。
基于上述第一实施例,在本实施例中,所述步骤S30之前,还包括:
步骤S21:获取训练集中的高采样率音频数据;
需要说明的是,使用ICASSP 2022 DNS-challenge全频段和EUROM、VCTK和LJ语音数据集。大约850小时的纯净语音,共有4830个说话人。同时在音乐库里选择了500小时的音乐素材。训练集是用于降噪等语音增强作用的素材,而本实施例中的模型是针对升采样算法,所以对训练的输入和期望输出需要做调整。对训练集做如下处理:训练时先将训练集即48KHz采样率的数据通过传统降采样算法降至16KHz,作为输入数据集,而期望输出的数据集就是原始的48KHz训练集。基于此构建一套以16KHz信号为输入源去逼近原始的48KHz信号的网络模型和训练集。用同样的方法也可以构建不同升采样的训练集,本实施例及以下实施例不局限于16KHz升到48KHz,同样可以用于采样率在8KHz、12KHz、16KHz、24KHz,44.1KHz、48KHz等相互之间的升采样。
训练数据区别于一般的训练方法, 理论上升采样算法是针对干净的人声进行升采样,所以只需要引入纯净的人声训练即可,这样训练出来的模型结果在处理纯人声的文件效果不错。但在实际场景测试时,针对带噪环境的语音输入,容易产生高频噪声,像一些空调风扇等平稳噪声容易使语音扩展的高频变形。为了丰富我们的输入特征,我们也在训练集里按99:1的比例添加了1%的噪声数据集进行训练,这样对语音在低信噪比时的升采样表现带来真实感、使语音更不会空洞同时也能抑制毛刺的产生。可以明显的提升在平稳噪声环境下的升采样算法对音质的提升。
步骤S22:将所述高采样率音频数据通过降采样算法进行处理,得到目标低采样率音频数据;
需要说明的是,将高采样率音频数据通过降采样算法进行处理,得到目标低采样率音频数据,可以按照以下步骤进行:
确定目标采样率:首先,确定想要将高采样率音频数据降低到的目标采样率。这个目标采样率应该满足Nyquist-Shannon采样定理,即至少为最高频率成分的两倍,以避免混叠现象。
抗混叠滤波:在降采样之前,需要对高采样率音频数据进行低通滤波,以去除可能引起混叠的高频成分。通常选择一个截止频率略低于目标采样率的一半的滤波器。这一步骤可以使用各种数字滤波器设计方法实现,如巴特沃斯滤波器、切比雪夫滤波器或椭圆滤波器等。
降采样:降采样过程是通过每隔几个样本选取一个样本来实现的。具体的间隔取决于原始采样率和目标采样率的比率。例如,如果目标是将44.1kHz的音频降低到22.05kHz,那么需要每隔两个样本选取一个样本。 这个过程可以通过下采样系数(即原始采样率与目标采样率的比值)来实现。在Python中,可以使用以下代码示例进行降采样:
python
Import numpy as np
# 假设x是高采样率的音频数据
target_sampling_rate = 22050# 目标采样率
original_sampling_rate = 44100# 原始采样率
# 计算下采样系数
downsample_factor = original_sampling_rate / target_sampling_rate
# 降采样
y = x[::downsample_factor]
步骤S23:将所述高采样率音频数据和所述目标低采样率音频数据,输入预设升采样模型中,得到脉冲码调制值;
需要说明的是,脉冲码调制值即PCM,是在脉冲编码调制(Pulse CodeModulation)过程中,对模拟信号进行抽样、量化和编码后得到的数字值。
步骤S24:根据所述高采样率音频数据、所述脉冲码调制值以及所述目标低采样率音频数据的采样总次数,得到脉冲码调制相似度;
在具体实现中,通过如下公式计算脉冲码调制相似度
式中,为脉冲码调制值,为高采样率音频数据,N为目标低采样率音频数据的采样总次数。
步骤S25:获取原采样率范围的频谱包络相似度;
需要说明的是,原采样率范围的频谱包络相似度是指在原始采样率下,对信号进行频谱分析后得到的频谱包络与参考信号或处理后的信号的频谱包络之间的相似程度。主要用于评估信号经过某种处理(如降采样、重构、压缩、传输等)后,其频谱特性是否保持与原始信号相似。频谱包络相似度可以帮助了解处理过程是否引入了显著的频率特性变化或者失真。
计算原采样率范围的频谱包络相似度通常包括以下步骤:
对原始信号和处理后的信号分别进行频谱分析;
计算各自的频谱包络,通常是指幅度谱或功率谱的轮廓;
选择一个合适的相似度度量方法,如欧氏距离、余弦相似度、相关系数等,来比较两个频谱包络的相似性;
得到的相似度值通常在0到1之间,其中1表示完全相同,0表示完全不同。
步骤S26:获取扩充频谱范围的包络相似度;
需要说明的是,扩充频谱范围的包络相似度是指在扩展频谱范围后,对信号进行频谱分析得到的频谱包络与参考信号或处理后的信号的频谱包络之间的相似程度。这种相似度测量主要用于评估在扩展频谱范围的情况下,信号的频谱特性是否保持与原始信号或者期望的信号相似。扩展频谱范围可能是因为在某些应用中,需要更详细或更广泛的频率信息,例如在高频通信、频谱分析、噪声抑制或者信号检测等领域。
计算扩充频谱范围的包络相似度通常包括以下步骤:
对原始信号和处理后的信号进行采样,并可能需要使用更高的采样率来扩展频谱范围;
对扩展频谱范围后的信号进行频谱分析,获取频谱信息;
计算扩展频谱范围后信号的频谱包络,通常是指幅度谱或功率谱的轮廓;
选择一个合适的相似度度量方法,如欧氏距离、余弦相似度、相关系数等,来比较扩展频谱范围后两个信号的频谱包络的相似性;
得到的相似度值通常在0到1之间,其中1表示完全相同,0表示完全不同。
这个相似度值可以作为评价信号处理效果、系统性能或者故障检测的一个重要指标。在处理和分析宽频带信号或者需要更高频率分辨率的应用中,扩充频谱范围的包络相似度是一个有用的工具。
步骤S27:根据所述脉冲码调制相似度、所述频谱包络相似度、所述包络相似度以及微调损失权重参数,得到综合损失函数;
需要说明的是,在语音处理的深度学习方法中损失函数一般使用输入与输出的最小平方误差或者绝对误差等方法。本实施例结合处理语音的特征,重构高频缺失的频谱,从这两个维度上考量,将扩充频谱和原始频谱按权重的综合损失作为损失函数的收敛条件,加快了梯度下降的速度,让损失更逼近最小值的范围,极大的提高了高频信号频谱重构的准确性。
应理解的是,损失函数由两部分组成,一部分是PCM(脉冲编码调制)的相似度采用距离相似度计算。另一部分是频谱包络相似度,相似度包括原始频率段和扩充频率段,均采用皮尔逊相关系数计算。
在具体实现中,通过如下公式计算综合损失函数:
式中,为综合损失函数,其中,为微调损失权重参数,为脉冲码调制相似度,为原采样率范围的频谱包络相似度,为扩充频谱范围的包络相似度。
步骤S28:根据所述预设升采样模型和所述综合损失函数,得到所述升采样模型。
可理解的是,综合损失函数是用来评估升采样模型性能和指导模型训练的关键组件。
进一步地,所述获取原采样率范围的频谱包络相似度,包括:根据所述脉冲码调制值的频谱包络和所述高采样率音频数据的频谱包络,得到所述原采样率范围的频谱包络相似度。
在具体实现中,通过如下公式计算原采样率范围的频谱包络相似度
式中,为原采样率范围的频谱包络相似度,为脉冲码调制值的频谱包络,为高采样率音频数据的频谱包络。
进一步地,所述获取扩充频谱范围的包络相似度,包括:根据所述脉冲码调制值的扩充频谱包络和所述高采样率音频数据的扩充频谱包络,得到所述扩充频谱范围的包络相似度。
在具体实现中,通过如下公式计算扩充频谱范围的包络相似度
式中,为扩充频谱范围的包络相似度,e为脉冲码调制值的扩充频谱包络,e为高采样率音频数据的扩充频谱包络。
本实施例通过获取训练集中的高采样率音频数据,使用降采样算法处理高采样率音频数据,得到目标低采样率音频数据,将高采样率音频数据和目标低采样率音频数据输入预设升采样模型,得到脉冲码调制值,根据高采样率音频数据、脉冲码调制值和目标低采样率音频数据的采样总次数,计算脉冲码调制相似度,计算原采样率范围的频谱包络相似度(基于脉冲码调制值和高采样率音频数据的频谱包络),计算扩充频谱范围的包络相似度(基于脉冲码调制值和高采样率音频数据的扩充频谱包络),根据脉冲码调制相似度、频谱包络相似度、包络相似度以及微调损失权重参数,构建综合损失函数,使用预设升采样模型和综合损失函数,训练得到最终的升采样模型,从不同角度评估升采样结果与原始高采样率音频的匹配程度,提高了模型的泛化能力和准确性,提升了音频升采样的效果。
参照图7,图7为本发明音频升采样装置的结构框图。
如图7所示,本发明实施例提出的音频升采样装置包括:
获取模块701,用于获取音频信号;
提取模块702,用于将所述音频信号进行特征提取,得到所述音频信号的均方根能量值、等效矩形带宽特征以及频谱特征;
处理模块703,用于将所述均方根能量值、所述等效矩形带宽特征以及所述频谱特征分别作为输入链路,输入升采样模型中进行处理,得到升采样后的音频信号。
本实施例通过获取音频信号;将所述音频信号进行特征提取,得到所述音频信号的均方根能量值、等效矩形带宽特征以及频谱特征;将所述均方根能量值、所述等效矩形带宽特征以及所述频谱特征分别作为输入链路,输入升采样模型中进行处理,得到升采样后的音频信号,保证了将音频低采样率升到更高的采样率时,更好地还原音频信号。
在一实施例中,所述获取模块701,还用于根据所述音频信号的频率,得到等效矩形带宽增益因子;
根据所述等效矩形带宽增益因子,得到等效矩形带宽;
根据所述等效矩形带宽,得到所述等效矩形带宽特征;
将所述音频信号进行特征提取,得到所述音频信号的均方根能量值和所述频谱特征。
在一实施例中,所述处理模块703,还用于根据所述音频信号增益,得到信噪比;
根据等效矩形带宽的子带中心频率和所述音频信号的采样率,得到预设关键频率点;
根据所述预设关键频率点和所述音频信号的品质因子,得到衰减因子;
根据所述信噪比选择预设低通滤波器和预设高通滤波器;
根据所述预设关键频率点和所述衰减因子,得到所述预设低通滤波器的系数和所述预设高通滤波器的系数;
根据所述预设低通滤波器的系数、所述预设高通滤波器的系数以及所述音频信号的频率,得到所述预设低通滤波器的传输函数和所述预设高通滤波器的传输函数;
根据所述预设低通滤波器的传输函数和所述预设高通滤波器的传输函数,得到目标低通滤波器和目标高通滤波器;
通过目标低通滤波器和目标高通滤波器,得到等效矩形带宽特征的对应值;
将所述均方根能量值、所述等效矩形带宽特征的对应值以及所述频谱特征,输入升采样模型中进行处理,得到升采样后的音频信号。
在一实施例中,所述获取模块701,还用于获取训练集中的高采样率音频数据;
将所述高采样率音频数据通过降采样算法进行处理,得到目标低采样率音频数据;
将所述高采样率音频数据和所述目标低采样率音频数据,输入预设升采样模型中,得到脉冲码调制值;
根据所述高采样率音频数据、所述脉冲码调制值以及所述目标低采样率音频数据的采样总次数,得到脉冲码调制相似度;
获取原采样率范围的频谱包络相似度;
获取扩充频谱范围的包络相似度;
根据所述脉冲码调制相似度、所述频谱包络相似度、所述包络相似度以及微调损失权重参数,得到综合损失函数;
根据所述预设升采样模型和所述综合损失函数,得到所述升采样模型。
在一实施例中,所述获取模块701,还用于根据所述脉冲码调制值的频谱包络和所述高采样率音频数据的频谱包络,得到所述原采样率范围的频谱包络相似度。
在一实施例中,所述获取模块701,还用于根据所述脉冲码调制值的扩充频谱包络和所述高采样率音频数据的扩充频谱包络,得到所述扩充频谱范围的包络相似度。
在一实施例中,所述处理模块703,还用于将所述均方根能量值、所述等效矩形带宽特征以及所述频谱特征分别作为输入链路,输入所述升采样模型的编码层中,并将所述编码层的输出分割为两部分,得到第一部分和第二部分;
将所述第一部分输入所述升采样模型的等效矩形带宽解码层中,得到扩充后的等效矩形带宽增益;
将所述第二部分输入所述升采样模型的高频带解码层中,得到扩充高频段的频谱特征参数;
根据所述扩充后的等效矩形带宽增益和所述扩充高频段的频谱特征参数,得到全频带的复数域特征;
将所述全频带的复数域特征进行傅里叶逆变换处理,得到所述升采样后的音频信号。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述 实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通 过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体 现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种音频升采样方法,其特征在于,所述方法包括以下步骤:
获取音频信号;
将所述音频信号进行特征提取,得到所述音频信号的均方根能量值、等效矩形带宽特征以及频谱特征;
将所述均方根能量值、所述等效矩形带宽特征以及所述频谱特征分别作为输入链路,输入升采样模型中进行处理,得到升采样后的音频信号。
2.如权利要求1所述的音频升采样方法,其特征在于,所述将所述音频信号进行特征提取,得到所述音频信号的均方根能量值、等效矩形带宽特征以及频谱特征,包括:
根据所述音频信号的频率,得到等效矩形带宽增益因子;
根据所述等效矩形带宽增益因子,得到等效矩形带宽;
根据所述等效矩形带宽,得到所述等效矩形带宽特征;
将所述音频信号进行特征提取,得到所述音频信号的均方根能量值和所述频谱特征。
3.如权利要求1所述的音频升采样方法,其特征在于,所述将所述音频信号进行特征提取,得到所述音频信号的均方根能量值、等效矩形带宽特征以及频谱特征之后,还包括:
根据所述音频信号增益,得到信噪比;
根据等效矩形带宽的子带中心频率和所述音频信号的采样率,得到预设关键频率点;
根据所述预设关键频率点和所述音频信号的品质因子,得到衰减因子;
根据所述信噪比选择预设低通滤波器和预设高通滤波器;
根据所述预设关键频率点和所述衰减因子,得到所述预设低通滤波器的系数和所述预设高通滤波器的系数;
根据所述预设低通滤波器的系数、所述预设高通滤波器的系数以及所述音频信号的频率,得到所述预设低通滤波器的传输函数和所述预设高通滤波器的传输函数;
根据所述预设低通滤波器的传输函数和所述预设高通滤波器的传输函数,得到目标低通滤波器和目标高通滤波器;
通过目标低通滤波器和目标高通滤波器,得到等效矩形带宽特征的对应值;
将所述均方根能量值、所述等效矩形带宽特征的对应值以及所述频谱特征,输入升采样模型中进行处理,得到升采样后的音频信号。
4.如权利要求1所述的音频升采样方法,其特征在于,所述将所述均方根能量值、所述等效矩形带宽特征以及所述频谱特征分别作为输入链路,输入升采样模型中进行处理,得到升采样后的音频信号之前,还包括:
获取训练集中的高采样率音频数据;
将所述高采样率音频数据通过降采样算法进行处理,得到目标低采样率音频数据;
将所述高采样率音频数据和所述目标低采样率音频数据,输入预设升采样模型中,得到脉冲码调制值;
根据所述高采样率音频数据、所述脉冲码调制值以及所述目标低采样率音频数据的采样总次数,得到脉冲码调制相似度;
获取原采样率范围的频谱包络相似度;
获取扩充频谱范围的包络相似度;
根据所述脉冲码调制相似度、所述频谱包络相似度、所述包络相似度以及微调损失权重参数,得到综合损失函数;
根据所述预设升采样模型和所述综合损失函数,得到所述升采样模型。
5.如权利要求4所述的音频升采样方法,其特征在于,所述获取原采样率范围的频谱包络相似度,包括:
根据所述脉冲码调制值的频谱包络和所述高采样率音频数据的频谱包络,得到所述原采样率范围的频谱包络相似度。
6.如权利要求4所述的音频升采样方法,其特征在于,所述获取扩充频谱范围的包络相似度,包括:
根据所述脉冲码调制值的扩充频谱包络和所述高采样率音频数据的扩充频谱包络,得到所述扩充频谱范围的包络相似度。
7.如权利要求1所述的音频升采样方法,其特征在于,所述将所述均方根能量值、所述等效矩形带宽特征以及所述频谱特征分别作为输入链路,输入升采样模型中进行处理,得到升采样后的音频信号,包括:
将所述均方根能量值、所述等效矩形带宽特征以及所述频谱特征分别作为输入链路,输入所述升采样模型的编码层中,并将所述编码层的输出分割为两部分,得到第一部分和第二部分;
将所述第一部分输入所述升采样模型的等效矩形带宽解码层中,得到扩充后的等效矩形带宽增益;
将所述第二部分输入所述升采样模型的高频带解码层中,得到扩充高频段的频谱特征参数;
根据所述扩充后的等效矩形带宽增益和所述扩充高频段的频谱特征参数,得到全频带的复数域特征;
将所述全频带的复数域特征进行傅里叶逆变换处理,得到所述升采样后的音频信号。
8.一种音频升采样装置,其特征在于,所述音频升采样装置包括:
获取模块,用于获取音频信号;
提取模块,用于将所述音频信号进行特征提取,得到所述音频信号的均方根能量值、等效矩形带宽特征以及频谱特征;
处理模块,用于将所述均方根能量值、所述等效矩形带宽特征以及所述频谱特征分别作为输入链路,输入升采样模型中进行处理,得到升采样后的音频信号。
9.一种音频升采样设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音频升采样程序,所述音频升采样程序配置为实现如权利要求1至7中任一项所述的音频升采样方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有音频升采样程序,所述音频升采样程序被处理器执行时实现如权利要求1至7中任一项所述的音频升采样方法的步骤。
CN202410331733.7A 2024-03-22 2024-03-22 音频升采样方法、装置、设备及存储介质 Active CN117935826B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410331733.7A CN117935826B (zh) 2024-03-22 2024-03-22 音频升采样方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410331733.7A CN117935826B (zh) 2024-03-22 2024-03-22 音频升采样方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN117935826A true CN117935826A (zh) 2024-04-26
CN117935826B CN117935826B (zh) 2024-07-05

Family

ID=90754272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410331733.7A Active CN117935826B (zh) 2024-03-22 2024-03-22 音频升采样方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117935826B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106997767A (zh) * 2017-03-24 2017-08-01 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及装置
CN108564956A (zh) * 2018-03-26 2018-09-21 京北方信息技术股份有限公司 一种声纹识别方法和装置、服务器、存储介质
CN109599123A (zh) * 2017-09-29 2019-04-09 中国科学院声学研究所 基于遗传算法优化模型参数的音频带宽扩展方法及系统
CN110610717A (zh) * 2019-08-30 2019-12-24 西南电子技术研究所(中国电子科技集团公司第十研究所) 复杂频谱环境混合信号的分离方法
CN112863517A (zh) * 2021-01-19 2021-05-28 苏州大学 基于感知谱收敛率的语音识别方法
CN113903345A (zh) * 2021-09-29 2022-01-07 北京字节跳动网络技术有限公司 音频处理方法、设备及电子设备
CN114063965A (zh) * 2021-11-03 2022-02-18 腾讯音乐娱乐科技(深圳)有限公司 高解析音频生成方法、电子设备及其训练方法
CN114283822A (zh) * 2021-12-24 2022-04-05 华东理工大学 一种基于伽马通频率倒谱系数的多对一语音转换方法
CN114362722A (zh) * 2022-01-07 2022-04-15 河南普大信息技术有限公司 一种对离散信号进行高倍内插的升采样方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106997767A (zh) * 2017-03-24 2017-08-01 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及装置
CN109599123A (zh) * 2017-09-29 2019-04-09 中国科学院声学研究所 基于遗传算法优化模型参数的音频带宽扩展方法及系统
CN108564956A (zh) * 2018-03-26 2018-09-21 京北方信息技术股份有限公司 一种声纹识别方法和装置、服务器、存储介质
CN110610717A (zh) * 2019-08-30 2019-12-24 西南电子技术研究所(中国电子科技集团公司第十研究所) 复杂频谱环境混合信号的分离方法
CN112863517A (zh) * 2021-01-19 2021-05-28 苏州大学 基于感知谱收敛率的语音识别方法
CN113903345A (zh) * 2021-09-29 2022-01-07 北京字节跳动网络技术有限公司 音频处理方法、设备及电子设备
CN114063965A (zh) * 2021-11-03 2022-02-18 腾讯音乐娱乐科技(深圳)有限公司 高解析音频生成方法、电子设备及其训练方法
CN114283822A (zh) * 2021-12-24 2022-04-05 华东理工大学 一种基于伽马通频率倒谱系数的多对一语音转换方法
CN114362722A (zh) * 2022-01-07 2022-04-15 河南普大信息技术有限公司 一种对离散信号进行高倍内插的升采样方法及装置

Also Published As

Publication number Publication date
CN117935826B (zh) 2024-07-05

Similar Documents

Publication Publication Date Title
CN111223493B (zh) 语音信号降噪处理方法、传声器和电子设备
JP3654831B2 (ja) 自動音声認識のための特徴量抽出方法
JP2779886B2 (ja) 広帯域音声信号復元方法
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
JP5127754B2 (ja) 信号処理装置
US7792672B2 (en) Method and system for the quick conversion of a voice signal
US20210193149A1 (en) Method, apparatus and device for voiceprint recognition, and medium
US20090144058A1 (en) Restoration of high-order Mel Frequency Cepstral Coefficients
CN113077806B (zh) 音频处理方法及装置、模型训练方法及装置、介质和设备
CN110459241A (zh) 一种用于语音特征的提取方法和系统
US20230317056A1 (en) Audio generator and methods for generating an audio signal and training an audio generator
Villanueva-Luna et al. De-noising audio signals using MATLAB wavelets toolbox
CN112992121A (zh) 基于注意力残差学习的语音增强方法
Litvin et al. Single-channel source separation of audio signals using bark scale wavelet packet decomposition
CN113744715A (zh) 声码器语音合成方法、装置、计算机设备及存储介质
US20070055519A1 (en) Robust bandwith extension of narrowband signals
Islam et al. Supervised single channel speech enhancement based on stationary wavelet transforms and non-negative matrix factorization with concatenated framing process and subband smooth ratio mask
CN117854536B (zh) 一种基于多维语音特征组合的rnn降噪方法及系统
US7305339B2 (en) Restoration of high-order Mel Frequency Cepstral Coefficients
JP5443547B2 (ja) 信号処理装置
Do et al. On the recognition of cochlear implant-like spectrally reduced speech with MFCC and HMM-based ASR
Girirajan et al. Real-Time Speech Enhancement Based on Convolutional Recurrent Neural Network.
Hammam et al. Blind signal separation with noise reduction for efficient speaker identification
CN117935826B (zh) 音频升采样方法、装置、设备及存储介质
CN113611321B (zh) 一种语音增强方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant