CN112687283B - 一种基于指挥调度系统的语音均衡方法、装置及存储介质 - Google Patents
一种基于指挥调度系统的语音均衡方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112687283B CN112687283B CN202011538190.4A CN202011538190A CN112687283B CN 112687283 B CN112687283 B CN 112687283B CN 202011538190 A CN202011538190 A CN 202011538190A CN 112687283 B CN112687283 B CN 112687283B
- Authority
- CN
- China
- Prior art keywords
- voice
- signals
- neural network
- equalization
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Filters That Use Time-Delay Elements (AREA)
Abstract
本发明公开一种基于指挥调度系统的语音均衡方法、设备及存储介质,语音均衡方法包括S1:接收自定义指令,根据自定义指令获取各频率的增益数值;S2:接收语音信号,对语音信号进行预处理以输出多路信号;S3:将分解所得的每路信号与每路信号所对应频率的增益数值输入至循环神经网络中以获得每个频率下的增益信号;S4:对循环神经网络训练得到的所有增益信号进行整合以输出均衡的语音信号。本发明通过前期训练完成的神经网络结构直接对高码率的音频信号进行处理,使得输出的合成音频更加饱和,达到更好的听感,提升语音均衡质量;且可根据用户需求设置多种均衡模式,可以方便快捷的实现对语音信号进行处理,具有很高的实用价值。
Description
技术领域
本发明涉及语音信号处理技术领域,尤其涉及一种基于指挥调度系统的语音均衡方法、装置及存储介质。
背景技术
音频播放设备中的播放器中一般都设置有均衡器,均衡器本质上是一个滤波器组,即多个滤波器的叠加。通过改变每个滤波器的增益,可以增强或削弱某一特定的频率成分,从而达到均衡的目的。在多频段均衡器设计电路中,由于EQ是一种比较特殊的滤波器,它会根据设计需要提高和降低音频数据在每个不同频段的数值,而一旦出现需要升高某个频段的增益时,音频数据有可能会满幅溢出,再加上,多频段处理过程中,音频数据是要依次通过每个频段的,即这个频段的输出作为下个频段的输入,所以一旦在中间计算过程中出现满幅溢出,那么整个计算将会严重失真。
针对上述问题,传统的解决方案是增加中间临时输出的位宽,以保证不出现满幅溢出现象,但是,传统的解决方案虽然可以有效的避免满幅溢出现象,但是无疑给硬件电路的实现增加了困难,例如,增加位宽势必增加计算的机器语言指令数,而且每个频段的计算都会成倍增加,这给芯片面积和功耗都带来不小的损失;再有,由于一般达到用户需求的EQ滤波器频段范围牵涉广(从20Hz到20KHz),质量因子变化大(从0.001到8),这导致系数范围也很大,所以设计者要经过大量的测试以及综合各方面因素才能定下一个合适的位宽,这无疑增加了大量的设计研发成本。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种基于指挥调度系统的语音均衡方法,可直接对高码率的音频信号进行处理,降低研发成本,提升语音均衡质量。
本发明的目的之二在于提供一种基于指挥调度系统的语音均衡装置。
本发明的目的之三在于提供一种计算机存储介质。
本发明的目的之一采用如下技术方案实现:
一种基于指挥调度系统的语音均衡方法,包括:
步骤S1:接收自定义指令,根据自定义指令获取各频率的增益数值;
步骤S2:接收语音信号,对所述语音信号进行预处理以输出多路信号;
步骤S3:将分解所得的每路信号与每路信号所对应频率的增益数值输入至循环神经网络中以获得每个频率下的增益信号;
步骤S4:对循环神经网络训练得到的所有增益信号进行整合以输出均衡的语音信号。
进一步地,所述自定义指令通过具有不同均衡模式的均衡器发出,每个所述均衡模式均预先配置有各频率的语音信号增益数值,用户选择不同的均衡模式则输出不同的自定义指令。
进一步地,所述均衡模式中包括默认模式和自定义模式,所述默认模式中各频率所对应的增益数值固定,所述自定义模式中各频率所对应的增益数值根据用户需求进行改变。
进一步地,所述循环神经网络包含若干神经元,其神经元个数与语音信号在数据传输时单位时间传送的数据位数相同。
进一步地,所述步骤S4中对所有增益信号进行整合的方法是:
采用整合神经网络对所有增益信号进行整合,将循环神经网络训练得到的所有增益信号作为整合神经网络的输入,对整合神经网络的整合权重进行设置,使整合神经网络根据整合权重对所有增益信号进行整合以获得均衡的语音信号。
进一步地,对所述语音信号进行预处理的方法为:
将所述语音信号分解成多个频段,再将分解后的每个频段的语音信号转换为数字信号,以获得不同频段的多路信号。
本发明的目的之二采用如下技术方案实现:
一种基于指挥调度系统的语音均衡装置,应用在如上述的基于指挥调度系统的语音均衡方法,具体包括:
均衡模式设置模块,负责根据用户自定义的均衡模式获得各频率的语音信号增益数值;
语音预处理模块,负责将语音信号分解为不同频率的多路信号;
均衡处理模块,与所述均衡模式设置模块和所述语音预处理模块相连,负责采集每路信号及每路信号所对应频率的增益数值,对每路信号进行增益处理后再对每路增益后的信号进行整合,以输出均衡的语音信号。
进一步地,所述均衡处理模块连接有预先完成训练的循环神经网络和整合神经网络,将采集到的每路信号及每路信号所对应频率的增益数值输入至循环神经网络中,再将循环神经网络的输出作为整合神经网络的输入,最终输出均衡的语音信号。
进一步地,所述语音预处理模块通过五个滤波单元将所述语音信号分解为五路不同频率的信号,且五路信号的增益数值分别为3db、12db、-6db、-8db和5db。
本发明的目的之三采用如下技术方案实现:
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现上述的基于指挥调度系统的语音均衡方法。
相比现有技术,本发明的有益效果在于:
本发明通过前期训练完成的神经网络结构直接对高码率的音频信号进行处理,经神经网络结构输出的合成音频更加饱和,达到更好的听感,提升语音均衡质量;且可根据用户需求设置多种均衡模式,可以方便快捷的实现对语音信号进行处理,人机交互便捷,可靠性强,具有很高的实用价值。
附图说明
图1为本发明循环神经网络的训练及信号处理示意图;
图2为本发明整合神经网络的信号处理示意图;
图3为本发明基于指挥调度系统的语音均衡方法的流程示意图;
图4为本发明基于指挥调度系统的语音均衡装置的模块示意图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
实施例一
本实施例提供一种基于指挥调度系统的语音均衡方法,本实施例的语音均衡方法是基于神经网络结构来实现的,该结构包括了多个循环神经网络和一个具有整合语音信号功能的整合神经网络组成,利用该神经网络结构可直接对256k高保真音频信号进行合成处理,可使得合成音频更加饱和,达到更好的听感,实现语音均衡质量大幅度提升。
在执行语音均衡方法之前,可提前将神经网络结构进行训练,如图1、图2所示,本实施例的神经网络结构中包括了循环神经网络和整合神经网络,其中,所述循环神经网络包含若干神经元,其神经元个数与语音信号在数据传输时单位时间传送的数据位数相同,即神经元个数由被处理语音信号的码率决定。循环神经网络具有记忆性、参数共享并且图灵完备,因此在对序列的非线性特征进行学习时具有一定优势。
循环神经网络的训练方法是预先随机生成多段语音信号样本,利用现有均衡方法得到处理之后的语音信号,将语音信号样本作为循环神经网络的输入,将增益之后的信号作为输出,对网络进行训练,以完成训练集的构建。而整合神经网络则在循环神经网络的基础上进行构建,即将若干个循环神经网络的输出作为整合神经网络的输入,将循环神经网络输出的多个频率的语音信号进行整合,以最终输出合成信号;而整合神经网络的训练方法则是采集多个频率的语音信号,通过现有方法得到合成信号,将多个频率的语音信号作为整合神经网络的输入,合成信号作为输出,对网络进行训练。
训练完成后的神经网络可迁移至线下,实际使用本实施例方法时只需要将语音信号输入到神经网络结构中,即可最终得到均衡的语音信号,其过程计算速度快,对硬件要求小。
如图3所示,本实施例的语音均衡方法具体包括如下步骤:
步骤S1:接收自定义指令,根据自定义指令获取各频率的增益数值。
所述自定义指令通过具有不同均衡模式的均衡器发出,均衡器内置多种类型的均衡模式,每个所述均衡模式都预先配置有各频率的语音信号增益数值,用户可选择任意一均衡模式,从而获得该模式下各个频率的增益值。在本实施例中,所述均衡模式中包括有默认模式和自定义模式,所述默认模式中各频率所对应的增益数值是固定,用户只需选择均衡模式即可,无需编辑均衡模式中的各参数;而所述自定义模式中各频率所对应的增益数值则由用户自定义输入,用户可根据自身经验自行设置各频率所对应的增益数值。
步骤S2:接收语音信号,对所述语音信号进行预处理以输出多路信号。
当有语音信号输入时,首先将语音信号分解为多个频段,并将每个频段转换为数字信号,以获得不同频段的多路信号。在本实施例中,均衡器通过其滤波功能将语音信号分解为五个频率,且每个频率所对应的增益数值分别为EQl=3db,EQ2=12db,EQ3=-6db,EQ4=-8db,EQ5=5db。
步骤S3:将分解所得的每路信号与每路信号所对应频率的增益数值输入至循环神经网络中以获得每个频率下的增益信号。
在本实施例中,可通过若干个循环神经网络分别对每路信号进行处理,以提高处理效率;例如将EQ1对应频率的信号与EQl=3db输入到已经训练好的一个循环神经网络中,将EQ2对应频率的信号与EQ2=12db输入到已经训练好的另一个循环神经网络中,从而得到对应频率下的增益信号。
步骤S4:对循环神经网络训练得到的所有增益信号进行整合以输出均衡的语音信号。
将若干个循环神经网络训练得到的所有增益信号作为整合神经网络的输入,利用整合神经网络对多个信号进行整合,最终输出更加饱和的语音信号,从而达到均衡的目的。同时,还可对整合神经网络的整合权重进行设置,使整合神经网络根据整合权重对所有增益信号进行整合以获得合成后的语音信号,可以方便快捷的实现对高保真音频的合成,具有很高的实用价值。
本实施例提供多种均衡模式,用户可以方便的从预设模式中选择自己喜好的均衡方案,也可以手动调节各个语音频率的增益值,能够极大降低计算复杂度并减少对硬件的要求;同时可提升语音均衡质量,降低设计成本。
实施例二
本实施例提供一种基于指挥调度系统的语音均衡装置,应用在如实施例一所述的基于指挥调度系统的语音均衡方法,如图4所示,本实施例的语音均衡装置具体包括有均衡模式设置模块、语音预处理模块和均衡处理模块。其中所述均衡模式设置模块负责根据用户自定义的均衡模式获得各频率的语音信号增益数值。
所述语音预处理模块负责将语音信号分解为不同频率的多路信号;在本实施例中,所述语音预处理模块则通过均衡器中的五个滤波单元将所述语音信号分解为五路不同频率的信号,且根据所述均衡模式设置模块将五路信号的增益数值分别预设为3db、12db、-6db、-8db和5db。
所述均衡处理模块与所述均衡模式设置模块和所述语音预处理模块相连,负责采集每路信号及每路信号所对应频率的增益数值,对每路信号进行增益处理后再对每路增益后的信号进行整合,以输出均衡的语音信号。其中,所述均衡处理模块连接有预先完成训练的循环神经网络和整合神经网络,将采集到的每路信号及每路信号所对应频率的增益数值输入至循环神经网络中,再将循环神经网络的输出作为整合神经网络的输入,最终输出均衡的语音信号。
实施例三
本发明进一步公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实施例一所述的基于指挥调度系统的语音均衡方法。
本实施例中的存储介质与前述实施例中的方法是基于同一发明构思下的两个方面,在前面已经对方法实施过程作了详细的描述,所以本领域技术人员可根据前述描述清楚地了解本实施中的存储介质执行程序时的实施过程,为了说明书的简洁,在此就不再赘述。
本领域技术人员应明白,本申请的实施例可提供为方法、装置或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
虽然上面已经参考各种实施例描述了本发明,但是应当理解,在不脱离本发明的范围的情况下,可以进行许多改变和修改。因此,其旨在上述详细描述被认为是例示性的而非限制性的,并且应当理解,以下权利要求(包括所有等同物)旨在限定本发明的精神和范围。上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。
Claims (9)
1.一种基于指挥调度系统的语音均衡方法,其特征在于,包括:
步骤S1:接收自定义指令,根据自定义指令获取各频率的增益数值;
步骤S2:接收语音信号,对所述语音信号进行预处理以输出多路信号;
步骤S3:将分解所得的每路信号与每路信号所对应频率的增益数值输入至循环神经网络中以获得每个频率下的增益信号;
步骤S4:将循环神经网络训练得到的所有增益信号作为整合神经网络的输入,对整合神经网络的整合权重进行设置,使整合神经网络根据整合权重对所有增益信号进行整合以获得均衡的语音信号;其中整合神经网络用于利用神经网络对所有增益信号进行整合。
2.根据权利要求1所述的基于指挥调度系统的语音均衡方法,其特征在于,所述自定义指令通过具有不同均衡模式的均衡器发出,每个所述均衡模式均预先配置有各频率的语音信号增益数值,用户选择不同的均衡模式则输出不同的自定义指令。
3.根据权利要求2所述的基于指挥调度系统的语音均衡方法,其特征在于,所述均衡模式中包括默认模式和自定义模式,所述默认模式中各频率所对应的增益数值固定,所述自定义模式中各频率所对应的增益数值根据用户需求进行改变。
4.根据权利要求1所述的基于指挥调度系统的语音均衡方法,其特征在于,所述循环神经网络包含若干神经元,其神经元个数与语音信号在数据传输时单位时间传送的数据位数相同。
5.根据权利要求1所述的基于指挥调度系统的语音均衡方法,其特征在于,对所述语音信号进行预处理的方法为:
将所述语音信号分解成多个频段,再将分解后的每个频段的语音信号转换为数字信号,以获得不同频段的多路信号。
6.一种基于指挥调度系统的语音均衡装置,其特征在于,应用在如权利要求1~5任一所述的基于指挥调度系统的语音均衡方法,具体包括:
均衡模式设置模块,负责根据用户自定义的均衡模式获得各频率的语音信号增益数值;
语音预处理模块,负责将语音信号分解为不同频率的多路信号;
均衡处理模块,与所述均衡模式设置模块和所述语音预处理模块相连,负责采集每路信号及每路信号所对应频率的增益数值,对每路信号进行增益处理后再对每路增益后的信号进行整合,以输出均衡的语音信号。
7.根据权利要求6所述的基于指挥调度系统的语音均衡装置,其特征在于,所述均衡处理模块连接有预先完成训练的循环神经网络和整合神经网络,其中,整合神经网络用于利用神经网络对所有增益信号进行整合;将采集到的每路信号及每路信号所对应频率的增益数值输入至循环神经网络中,再将循环神经网络的输出作为整合神经网络的输入,最终输出均衡的语音信号。
8.根据权利要求6所述的基于指挥调度系统的语音均衡装置,其特征在于,所述语音预处理模块通过五个滤波单元将所述语音信号分解为五路不同频率的信号,且五路信号的增益数值分别为3db、12db、-6db、-8db和5db。
9.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被执行时实现权利要求1~5任一所述的基于指挥调度系统的语音均衡方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011538190.4A CN112687283B (zh) | 2020-12-23 | 2020-12-23 | 一种基于指挥调度系统的语音均衡方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011538190.4A CN112687283B (zh) | 2020-12-23 | 2020-12-23 | 一种基于指挥调度系统的语音均衡方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112687283A CN112687283A (zh) | 2021-04-20 |
CN112687283B true CN112687283B (zh) | 2021-11-19 |
Family
ID=75451116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011538190.4A Active CN112687283B (zh) | 2020-12-23 | 2020-12-23 | 一种基于指挥调度系统的语音均衡方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112687283B (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160149547A1 (en) * | 2014-11-20 | 2016-05-26 | Intel Corporation | Automated audio adjustment |
KR20170030384A (ko) * | 2015-09-09 | 2017-03-17 | 삼성전자주식회사 | 음향 조절 장치 및 방법과, 장르 인식 모델 학습 장치 및 방법 |
WO2019070328A1 (en) * | 2017-10-04 | 2019-04-11 | Google Llc | METHODS AND SYSTEMS FOR AUTOMATICALLY EQUALIZING AUDIO OUTPUT BASED ON THE CHARACTERISTICS OF THE PART |
KR101915120B1 (ko) * | 2018-01-08 | 2018-11-05 | 강상훈 | 인공신경망을 이용한 오디오의 이퀄라이징 시스템 |
US11456007B2 (en) * | 2019-01-11 | 2022-09-27 | Samsung Electronics Co., Ltd | End-to-end multi-task denoising for joint signal distortion ratio (SDR) and perceptual evaluation of speech quality (PESQ) optimization |
CN111489760B (zh) * | 2020-04-01 | 2023-05-16 | 腾讯科技(深圳)有限公司 | 语音信号去混响处理方法、装置、计算机设备和存储介质 |
-
2020
- 2020-12-23 CN CN202011538190.4A patent/CN112687283B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112687283A (zh) | 2021-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2541183C2 (ru) | Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания | |
EP2545552B1 (en) | Method and system for scaling ducking of speech-relevant channels in multi-channel audio | |
US20070140511A1 (en) | Process of implementing low frequency of audio signal | |
CN106878866A (zh) | 音频信号处理方法、装置及终端 | |
TWI595793B (zh) | 聲音處理裝置及方法 | |
CN102915741A (zh) | 基于等响曲线的根据音量调整自动还原声音信号音色的方法 | |
CN107396274A (zh) | 有源线阵音响声场调校的方法、装置及系统 | |
CN111525902A (zh) | 一种音频限幅的方法和系统 | |
US20200037057A1 (en) | Systems and methods for processing an audio signal for replay on stereo and multi-channel audio devices | |
CN103796136A (zh) | 保证不同音效模式输出响度及音质的设备和方法 | |
CN115604628A (zh) | 一种基于耳机喇叭频响的滤波器校准方法及装置 | |
CN103812462A (zh) | 响度控制方法及装置 | |
CN103680513A (zh) | 语音信号处理方法、装置及服务器 | |
CN112687283B (zh) | 一种基于指挥调度系统的语音均衡方法、装置及存储介质 | |
US20170301335A1 (en) | Signal processing device, signal processing method and computer program | |
US20110235815A1 (en) | Method and arrangement for audio signal processing | |
CN111181516A (zh) | 一种音色均衡方法 | |
EP3599775A1 (en) | Systems and methods for processing an audio signal for replay on stereo and multi-channel audio devices | |
CN101422054A (zh) | 声像定位装置 | |
CN114333912B (zh) | 语音激活检测方法、装置、电子设备和存储介质 | |
CN112820256B (zh) | 基于改进的反馈延时网络的混响方法及系统 | |
Lei et al. | A Low-Latency Hybrid Multi-Channel Speech Enhancement System For Hearing Aids | |
CN113012710A (zh) | 一种音频降噪方法及存储介质 | |
CN110168640A (zh) | 用于增强信号中需要分量的装置和方法 | |
CN103297898B (zh) | 低频扩展方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |