CN113112998B - 模型训练方法、混响效果复现方法、设备及可读存储介质 - Google Patents
模型训练方法、混响效果复现方法、设备及可读存储介质 Download PDFInfo
- Publication number
- CN113112998B CN113112998B CN202110511254.XA CN202110511254A CN113112998B CN 113112998 B CN113112998 B CN 113112998B CN 202110511254 A CN202110511254 A CN 202110511254A CN 113112998 B CN113112998 B CN 113112998B
- Authority
- CN
- China
- Prior art keywords
- reverberation
- parameter
- training
- target
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 258
- 230000000694 effects Effects 0.000 title claims abstract description 131
- 238000000034 method Methods 0.000 title claims abstract description 96
- 230000015654 memory Effects 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 20
- 230000005236 sound signal Effects 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 239000010410 layer Substances 0.000 description 50
- 239000000203 mixture Substances 0.000 description 13
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000009471 action Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000035807 sensation Effects 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- 101000578940 Homo sapiens PDZ domain-containing protein MAGIX Proteins 0.000 description 1
- 102100028326 PDZ domain-containing protein MAGIX Human genes 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Stereophonic System (AREA)
Abstract
本申请公开了一种混响参数识别模型训练方法、混响效果复现方法、设备及计算机可读存储介质,效果复现方法包括:获取参考信号,参考信号具有目标混响效果;将参考信号输入混响参数识别模型,得到目标混响参数,其中,混响参数识别模型为上述的混响参数识别模型。将目标混响参数载入混响器,得到目标混响器;获取待处理信号,并将待处理信号输入目标混响器,得到具有目标混响效果的混响信号;通过利用混响参数识别模型对参考信号进行识别,可以快速得到准确的能够实现目标混响效果的目标混响参数,可以减少混响效果复现所需的时间,提高了混响效果复现的准确程度。
Description
技术领域
本申请涉及音频处理技术领域,特别涉及混响参数识别模型训练方法、混响效果复现方法、电子设备及计算机可读存储介质。
背景技术
混响器作为音效处理的主要工具之一,被广泛地应用在各种音效处理场景下。在一种应用场景中,用户常需要利用混响器对音频信号进行处理,使得混响信号的混响效果与另一个音频信号相同,实现混响效果的复现。由于混响器的使用门槛过高,普通用户不具有专业知识,很难正确使用混响器得到想要的混响效果。对于专业人士来说,利用混响器准确地调节出想要的混响效果同样需要耗费大量的时间和精力,因此相关技术存在无法快速准确地在进行混响效果复现的问题。
发明内容
有鉴于此,本申请的目的在于提供混响参数识别模型训练方法、混响效果复现方法、电子设备及计算机可读存储介质,通过利用混响参数识别模型对参考信号进行识别,可以快速得到准确的能够实现目标混响效果的目标混响参数,减少混响效果复现所需的时间。同时,无需通过主观听觉来判断是否准确地进行了混响效果复现,提高了混响效果复现的准确程度。
为解决上述技术问题,第一方面,本申请提供了一种混响参数识别模型训练方法,包括:
获取多个训练信号,各个所述训练信号对应于不同的训练混响参数;
将所述训练信号输入初始模型,利用所述初始模型中的信号处理层对所述训练信号进行语谱图提取,得到训练语谱图;
将所述训练语谱图输入所述初始模型中的特征提取层,得到训练特征;
将所述训练特征输入所述初始模型中的分类层,得到输出混响参数;
利用所述输出混响参数和所述训练混响参数更新所述初始模型的模型参数;
若满足训练完成条件,则将所述更新后的初始模型确定为混响参数识别模型。
在一种实施方式中,所述获取多个训练信号,包括:
获取干声信号和多个所述训练混响参数;
分别将各个所述训练混响参数载入混响器,并将所述干声信号输入所述混响器,得到各个所述训练混响参数对应的所述训练信号。
在一种实施方式中,训练混响参数的获取过程,包括:
从多个候选参数项中确定目标参数项;
分别在各个所述目标参数项对应的区间内进行平均取值,得到各个所述目标参数项对应的多个训练参数值;
将各个对应于不同的所述目标参数项的所述训练参数值进行组合,得到多个所述训练混响参数。
在一种实施方式中,所述将各个对应于不同的所述目标参数项的所述训练参数值进行组合,得到多个所述训练混响参数,包括:
确定各个所述目标参数项对应的无效参数组合;
利用各个不同类别的所述训练参数值排列组合,得到多个初始混响参数;
将所述初始混响参数中的所述无效参数组合滤除,得到所述训练混响参数。
在一种实施方式中,所述从多个候选参数项中确定目标参数项,包括:
输出多个参数选择信号,各个所述参数选择信号的目标候选参数项的参数值不同;
若接收到所述参数选择信号对应的选择指令,则将所述目标候选参数项确定为所述目标参数项。
在一种实施方式中,所述将所述训练特征输入所述初始模型中的分类层,得到输出混响参数,包括:
将所述训练特征输入所述分类层,得到混响参数序号;
利用所述混响参数序号筛选序号和参数对应关系,得到所述输出混响参数。
在一种实施方式中,所述利用所述输出混响参数和所述训练混响参数更新所述初始模型的模型参数,包括:
利用所述输出混响参数和所述训练混响参数计算损失值;
利用所述损失值对所述模型参数进行更新。
在一种实施方式中,所述将所述训练语谱图输入所述初始模型中的特征提取层,得到训练特征,包括:
将所述训练语谱图输入卷积层,得到训练卷积数据;
将所述训练卷积数据输入展平层,得到训练向量;
将所述训练向量输入双向长短期记忆层,得到所述训练特征。
第二方面,本申请还提供了一种混响效果复现方法,包括:
获取参考信号,所述参考信号具有目标混响效果;
将所述参考信号输入混响参数识别模型,得到目标混响参数,其中,所述混响参数识别模型为上述的混响参数识别模型;
将所述目标混响参数载入混响器,得到目标混响器;
获取待处理信号,并将所述待处理信号输入所述目标混响器,得到具有所述目标混响效果的混响信号。
在一种实施方式中,所述将所述目标混响参数载入混响器,得到目标混响器,包括:
利用所述目标混响参数设置所述混响器中的待设置参数项;
对所述混响器中的未设置参数项进行预设设置,得到所述目标混响器。
在一种实施方式中,还包括:
获取混响器信息;
利用所述混响器信息从多个候选模型中筛选得到所述混响参数识别模型,所述候选模型基于上述的混响参数识别模型训练方法训练得到,各个所述候选模型采用的训练数据的训练混响参数对应于不同的目标参数项。
第三方面,本申请还提供了一种电子设备,包括存储器和处理器,其中:
所述存储器,用于保存计算机程序;
所述处理器,用于执行所述计算机程序,以实现上述的混响参数识别模型训练方法,和/或,上述的混响效果复现方法。
第四方面,本申请还提供了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现上述的混响参数识别模型训练方法,和/或,上述的混响效果复现方法。
本申请提供的混响参数识别模型训练方法,获取多个训练信号,各个训练信号对应于不同的训练混响参数;将训练信号输入初始模型,利用初始模型中的信号处理层对训练信号进行语谱图提取,得到训练语谱图;将训练语谱图输入初始模型中的特征提取层,得到训练特征;将训练特征输入初始模型中的分类层,得到输出混响参数;利用输出混响参数和训练混响参数更新初始模型的模型参数;若满足训练完成条件,则将更新后的初始模型确定为混响参数识别模型。
本申请提供的混响效果复现方法,获取参考信号,参考信号具有目标混响效果;将参考信号输入混响参数识别模型,得到目标混响参数,其中,混响参数识别模型为上述的混响参数识别模型。将目标混响参数载入混响器,得到目标混响器;获取待处理信号,并将待处理信号输入目标混响器,得到具有目标混响效果的混响信号。
可见,上述方法利用混响参数识别模型对参考信号进行分析,得到目标混响参数,利用目标混响参数即可实现参考信号所具有的目标混响效果。通过将目标混响参数载入混响器,并将待处理信号输入混响器,可以利用混响器对待处理信号进行基于目标混响参数的混响处理,得到混响信号。由于混响信号基于目标混响参数得到,因此其具有目标混响效果。通过利用混响参数识别模型对参考信号进行识别,可以快速得到准确的能够实现目标混响效果的目标混响参数,进而直接利用其对待处理信号进行处理。由于不需要通过设置混响器的各个参数并进行多次尝试的方式来得到目标混响效果,因此可以减少混响效果复现所需的时间。同时,由于混响参数识别模型可以准确地识别想要得到目标混响效果的目标混响参数,因此利用目标混响参数得到的混响信号的混响效果为准确的目标混响效果,无需通过主观听觉来判断是否准确地进行了混响效果复现,提高了混响效果复现的准确程度,解决了相关技术存在无法快速准确地在进行混响效果复现的问题。
此外,本申请还提供了一种电子设备及计算机可读存储介质,同样具有上述有益效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种模型训练方法及混响效果复现方法所适用的硬件组成框架示意图;
图2为本申请实施例提供的另一种模型训练方法及混响效果复现方法所适用的硬件组成框架示意图;
图3为本申请实施例提供的一种混响参数识别模型训练方法的流程示意图;
图4为本申请实施例提供的一种混响参数识别模型结构示意图;
图5为本申请实施例提供的一种混响效果复现方法的流程示意图;
图6为本申请实施例提供的一种具体的混响效果复现过程示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,先对本申请实施例提供的混响效果复现方法对应的方案所使用的硬件组成框架进行介绍。请参考图1,图1为本申请实施例提供的一种模型训练方法及混响效果复现方法所适用的硬件组成框架示意图。其中电子设备100可以包括处理器101和存储器102,还可以进一步包括多媒体组件103、信息输入/信息输出(I/O)接口104以及通信组件105中的一种或多种。
其中,处理器101用于控制电子设备100的整体操作,以完成混响效果复现方法中的全部或部分步骤;存储器102用于存储各种类型的数据以支持在电子设备100的操作,这些数据例如可以包括用于在该电子设备100上操作的任何应用程序或方法的指令,以及应用程序相关的数据。该存储器102可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,SRAM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、只读存储器(Read-Only Memory,ROM)、磁存储器、快闪存储器、磁盘或光盘中的一种或多种。在本实施例中,存储器102中至少存储有用于实现以下功能的程序和/或数据:
获取多个训练信号,各个训练信号对应于不同的训练混响参数;
将训练信号输入初始模型,利用初始模型中的信号处理层对训练信号进行语谱图提取,得到训练语谱图;
将训练语谱图输入初始模型中的特征提取层,得到训练特征;
将训练特征输入初始模型中的分类层,得到输出混响参数;
利用输出混响参数和训练混响参数更新初始模型的模型参数;
若满足训练完成条件,则将更新后的初始模型确定为混响参数识别模型。
和/或,
获取参考信号,参考信号具有目标混响效果;
将参考信号输入混响参数识别模型,得到目标混响参数,其中,混响参数识别模型为上述的混响参数识别模型。
将目标混响参数载入混响器,得到目标混响器;
获取待处理信号,并将待处理信号输入目标混响器,得到具有目标混响效果的混响信号。
多媒体组件103可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或通过通信组件105发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口104为处理器101和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件105用于电子设备100与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near Field Communication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件105可以包括:Wi-Fi部件,蓝牙部件,NFC部件。
电子设备100可以被一个或多个应用专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、数字信号处理器(Digital Signal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field ProgrammableGate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行混响效果复现方法。
当然,图1所示的电子设备100的结构并不构成对本申请实施例中电子设备的限定,在实际应用中电子设备100可以包括比图1所示的更多或更少的部件,或者组合某些部件。
可以理解的是,本申请实施例中并不对电子设备的数量进行限定,其可以是多个电子设备共同协作完成混响效果复现方法。在一种可能的实施方式中,请参考图2,图2为本申请实施例提供的另一种模型训练方法及混响效果复现方法所适用的硬件组成框架示意图。由图2可知,该硬件组成框架可以包括:第一电子设备11和第二电子设备12,二者之间通过网络13连接。
在本申请实施例中,第一电子设备11与第二电子设备12的硬件结构可以参考图1中电子设备100。即可以理解为本实施例中具有两个电子设备100,两者进行数据交互。进一步,本申请实施例中并不对网络13的形式进行限定,即,网络13可以是无线网络(如WIFI、蓝牙等),也可以是有线网络。
其中,第一电子设备11和第二电子设备12可以是同一种电子设备,如第一电子设备11和第二电子设备12均为服务器;也可以是不同类型的电子设备,例如,第一电子设备11可以是智能手机或其它智能终端,第二电子设备12可以是服务器。在一种可能的实施方式中,可以利用计算能力强的服务器作为第二电子设备12来提高数据处理效率及可靠性,进而提高混响效果复现的处理效率。同时利用成本低,应用范围广的智能手机作为第一电子设备11,用于实现第二电子设备12与用户之间的交互。可以理解的是,该交互过程可以为:智能手机获取参考信号和待处理信号,并将参考信号发送至服务器,由服务器得到目标混响参数。服务器将目标混响信号发送至智能手机,由智能手机在本地利用混响器基于目标混响参数进行混响处理,得到混响信号。
基于上述说明,请参考图3,图3为本申请实施例提供的一种混响参数识别模型训练方法的流程示意图。该实施例中的方法包括:
S101:获取多个训练信号。
需要说明的是,各个训练信号对应于不同的训练混响参数,训练混响参数与混响效果相对应,即训练信号具有不同的混响效果。每一类混响效果对应的训练信号的数量不做限制。对于获取训练信号的具体方式,在一种实施方式中,可以获取已有的数据作为训练信号,在另一种实施方式中,可以利用干声信号(即没有任何混响效果、没有经过混响处理的信号)作为生成训练信号的基础,在需要获取训练信号时利用干声信号实时生成训练信号,或者在第一次进行模型训练训练时利用干声信号生成训练信号,在后续再次进行模型训练时直接调用已经生成的训练信号。
S102:将训练信号输入初始模型,利用初始模型中的信号处理层对训练信号进行语谱图提取,得到训练语谱图。
语谱图是指Sonogram或Spectrogam,其具体是一种表示语音频谱随时间变化的图形,其可以采用二维平面来表达三维信息。通常情况下,语谱图的纵轴为频率,横轴为时间,在任一确定频率和时间的坐标点上,能量的强弱用相应点的灰度或色调的浓淡来表示。颜色深,表示该点的语音能量越强,反之表示该点语音能量较弱。
初始模型是指训练未完毕的混响参数识别模型,利用准确的训练信号对初始模型进行充分的训练,即可得到准确的混响参数识别模型。本实施例并不限定初始模型的具体结构和类型,例如可以参考图4,其示出了一种具体的初始模型,也即一种具体的混响参数识别模型。图4为本申请实施例提供的一种混响参数识别模型结构示意图。模型中具有信号处理层,用于提取输入数据对应的语谱图。对于训练信号来说,信号处理层用于完成训练信号到训练语谱图的转换,即图4中语音信号到语谱图的转换。信号处理层的具体工作过程不做限制,可以参考相关技术。
S103:将训练语谱图输入初始模型中的特征提取层,得到训练特征。
在得到训练语谱图后,利用特征提取层将其中的特征进行提取,可以得到训练特征。训练特征可以准确地表示训练数据在混响效果方面的特点,可以在后续用于判断训练信号具有什么样的混响效果。本实施例并不限定特征提取层的具体结构,即不限定如何从训练语谱图中提取得到训练特征。
例如,在一种实施方式中,继续参考图4,特征提取层中包括卷积层、展平层(即flatten层)和双向长短期记忆层(即双向LSTM层,其中包括前向网络、后向网络以及分别对应的LSTM网络,LSTM即Long Short-Term Memory,长短期记忆网络)。在这种情况下,训练特征的获取过程可以包括:
步骤11:将训练语谱图输入卷积层,得到训练卷积数据。
步骤12:将训练卷积数据输入展平层,得到训练向量。
步骤13:将训练向量输入双向长短期记忆层,得到训练特征。
本实施例中,卷积层也可以称为卷积网络,即卷积层的数量不做限定。卷积网络用于进行卷积运算,卷积运算的目的是提取输入的不同特征,单层的卷积网络可以提取一些低级的特征,如边缘、线条和角等层级,多层的网络能可以进一步从低级的特征中迭代提取更复杂的特征。在将训练语谱图输入卷积层后,可以得到训练卷积数据。Flatten层用来将输入“展平”,即把多维的输入一维化,常用在从卷积层到全连接层等其他网络层之间的过渡。通过将训练卷积数据输入展平层,可以得到一维的训练向量。LSTM(Long Short-TermMemory)是一种时间递归神经网络,其可以用于解决长序列训练过程中的梯度消失和梯度爆炸问题。在本实施例中,将训练向量输入双向长短期记忆层,可以得到准确的训练特征。
S104:将训练特征输入初始模型中的分类层,得到输出混响参数。
分类层用于根据训练特征对训练信号的类别进行确定,判断训练信号的混响效果类型,而混响效果类型取决于混响参数,因此将训练特征输入分类层后,可以得到对应的输出混响参数。
对于输出混响参数的具体获取方式,在一种实施方式中,训练信号的标签为混响参数形式,在这种情况下,利用分类层对训练特征直接进行分类,节课得到输出混响参数。另一种实施方式中,训练信号的标签为混响参数对应的序号标签,在这种情况下,输出混响参数的获取过程包括如下步骤:
步骤21:将训练特征输入分类层,得到混响参数序号。
步骤22:利用混响参数序号筛选序号和参数对应关系,得到输出混响参数。
在本实施例中,由于分类层的输出为序号形式,因此将训练特征输入分类层后,得到的是对应的混响参数序号。序号和参数对应关系用于记录各个混响参数序号和对应的混响参数之间的关系,在得到混响参数序号后,可以在序号和参数对应关系中查找与混响参数序号对应的混响参数,并将该混响参数确定为输出混响参数。例如,继续参考图4,图4中的全连接层即为分类层,其可以直接输出混响器参数(即输出混响参数),或者可以直接输出混响参数序号,并利用混响参数序号得到输出混响参数。
S105:利用输出混响参数和训练混响参数更新初始模型的模型参数。
在得到输出混响参数后,由于初始模型没有被完全训练完成时,输出混响参数与训练信号对应的训练混响参数无法完全匹配,这表明模型的识别能力还不足,没有实现收敛。因此在得到输出混响参数后,利用其与对应的训练混响参数对初始模型的模型参数进行更新,使得初始模型能够达到收敛。本实施例并不限定模型参数的具体调节过程,在一种实施方式中,可以利用输出混响参数和训练混响参数计算损失值,并根据损失值对模型参数进行调节。
S106:若满足训练完成条件,则将更新后的初始模型确定为混响参数识别模型。
训练完成条件是指能够表明初始模型已经达到收敛的条件,其具体可以为训练轮次阈值,或者为训练时长阈值。在满足训练完成条件后,可以将最新的初始模型,即最新更新后的初始模型确定为混响参数识别模型,标志着模型训练过程完毕。
利用本申请实施例提供的混响参数识别模型训练方法,可以利用训练信号训练得到能够准确识别混响参数的识别模型,可以在后续利用混响参数识别模型对参考信号进行分析,得到目标混响参数,利用目标混响参数即可实现参考信号所具有的目标混响效果。通过将目标混响参数载入混响器,并将待处理信号输入混响器,可以利用混响器对待处理信号进行基于目标混响参数的混响处理,得到混响信号。由于混响信号基于目标混响参数得到,因此其具有目标混响效果。通过利用混响参数识别模型对参考信号进行识别,可以快速得到准确的能够实现目标混响效果的目标混响参数,进而直接利用其对待处理信号进行处理。由于不需要通过设置混响器的各个参数并进行多次尝试的方式来得到目标混响效果,因此可以减少混响效果复现所需的时间。同时,由于混响参数识别模型可以准确地识别想要得到目标混响效果的目标混响参数,因此利用目标混响参数得到的混响信号的混响效果为准确的目标混响效果,无需通过主观听觉来判断是否准确地进行了混响效果复现,提高了混响效果复现的准确程度,解决了相关技术存在无法快速准确地在进行混响效果复现的问题。
基于上述实施例,在一种实施方式中,可以获取多个具有混响效果的训练信号,并由人工利用混响器对其混响效果进行复现,得到对应的混响参数,并基于该混响参数对训练信号进行标记,在标记后对混响参数识别面模型进行训练。然而该方法需要较长时间得到用于训练的训练信号,且人工判断的方式得到的训练信号不够准确,使得模型准确率较低。
在另一种实施方式中,为了可以提高训练信号的质量,进而提高模型的识别准确率,训练信号的获取过程可以包括如下步骤:
步骤31:获取干声信号和多个训练混响参数。
干声信号是指用于生成训练信号且不具有混响效果的信号,训练混响参数用于对干声信号进行混响处理,得到对应的训练信号。干声信号的具体获取方式不做限定,可以参考参考信号和待处理信号的获取方式。训练混响参数的获取方式也不做限定,可以在本地生成,或者可以获取外部输入的训练混响参数。
步骤32:分别将各个训练混响参数载入混响器,并将干声信号输入混响器,得到各个训练混响参数对应的训练信号。
通过将训练混响参数载入混响器并利用混响器对干声信号进行处理,可以得到与训练混响参数严格匹配的训练信号。训练信号基于训练混响参数生成,可以准确地表征训练混响参数对应的混响效果,同时其标签也基于训练混响参数得到,因此标签同样为准确的标签,因此训练信号的质量极高。本实施例并不限定训练信号的标签内容,例如可以直接为训练混响参数,或者可以为训练混响参数对应的序号。
进一步的,为了使得训练信号能够覆盖各种混响效果,使得训练后的混响参数识别模型能够对任意混响效果对应的混响参数进行准确识别,训练混响参数的获取过程可以包括如下步骤:
步骤41:从多个候选参数项中确定目标参数项。
在本实施例中,混响器对应的所有参数项均为候选参数项,可以从中选择全部或部分作为目标参数项。目标参数项的具体选择方式不做限定,例如在一种实施方式中,可以通过判断是否能够对听感产生明显影响来判断是否将候选参数项确定为目标参数项。
步骤42:分别在各个目标参数项对应的区间内进行平均取值,得到各个目标参数项对应的多个训练参数值。
每个目标参数项的参数值都有对应的区间,通过在各个区间内进行平均取值得到训练参数之,可以使得训练参数值全面覆盖整个区间。平均取值即为将区间进行等分,将等分时各个节点对应的值确定为训练参数值。例如当区间为[0,1]时,平均取值可以为三等分取值,则训练参数值为0、0.33、0.66和1。在一种具体的实施方式中,当各个目标参数项对应区间的大小不一致时,可以对其进行归一化,并在归一化后进行相同的平均取值。
步骤43:将各个对应于不同的目标参数项的训练参数值进行组合,得到多个训练混响参数。
通过将各个目标参数项对应的各个训练参数值进行过组合,可以得到覆盖所有目标参数项的区间的训练混响参数,由于训练混响参数为覆盖了所有的区间,因此利用其得到的训练信号可以具有混响器能够生成的所有混响效果,利用这些训练信号训练得到的混响参数识别模型能够识别各种混响效果对应的混响参数。
基于上述实施例,在一种可行的实施方式中,可以由用户根据实际的听感判断某一个候选参数项是否对听感造成了明显的影响。在这种情况下,从多个候选参数项中确定目标参数项的过程可以包括如下步骤:
步骤51:输出多个参数选择信号。
其中,各个参数选择信号的目标候选参数项的参数值不同,而非目标候选参数项对应的参数值均相同。通过控制变量法,可以利用各个参数选择信号对目标候选参数项是否能够对听感造成明显影响进行表征。用户可以通过听取各个参数选择信号,判断其区别是否明显,来判断目标候选参数项是否能够对听感造成明显影响。
步骤52:若接收到参数选择信号对应的选择指令,则将目标候选参数项确定为目标参数项。
若接收到对应的选择指令,则说明用户认为目标候选参数项能够对听感造成明显影响,因此将其确定为目标参数项。
基于上述实施例,由于各个目标参数项具有实际的物理意义,在其物理意义的影响下,各个目标参数项之间存在相应的影响关系(或称为优先级关系),该影响关系通常为某一目标参数项的参数值为目标值时,其他参数项就不再具有效果。例如当混响器为mverb混响器,目标参数项为空间大小(size)、干湿比(mix)、早期反射和后期混响混合比(earlymix)、衰减大小(decay)时,其中size用于针对后期混响声的延迟进行控制。mix表示直达声(即不具有混响效果的原声)和混响声(即混响处理后得到的混响声)在混响信号中的混合比例。数值越大表示混响声所占比重越大。earlymix表示混响声中早起反射声和后期混响声的混合比例。数值越大表示后期混响声的比重越大。decay用于控制着后期混响声的衰减。数值越大表示衰减越慢,听感越浑浊。
其中,若mix=0,则说明混响信号中只具有直达声,即混响信号即为原本的待处理信号,在这种情况下,剩余3个参数都不能起作用。若mix不为零且earlymix=0,则说明混响声中不具有后期混响声,在这种情况下,decay和size两个参数均不起作用。因此mix=0情况下其他三个参数项对应的参数值的组合,以及mix≠0且earlymix=0情况下其他两个参数项对应的参数值的组合都是无效的参数组合。在得到训练混响参数的过程中,可以将其剔除,避免生成无效的训练信号,减少模型训练所需的时间,提高模型准确率。具体的,将各个对应于不同的目标参数项的训练参数值进行组合,得到多个训练混响参数的过程可以包括如下步骤:
步骤61:确定各个目标参数项对应的无效参数组合。
对于无效参数组合的确定方式,在一种实施方式中,可以根据各个目标参数项的物理意义确定各个目标参数项之间的优先级关系,并根据该优先级关系确定无效参数组合。在另一种实施方式中,可以获取无效参数组合信息,利用该信息确定无效参数组合。无效参数组合信息中可以直接包括各个无效参数组合,或者可以包括各个目标参数项之间的优先级关系,根据该优先级关系确定无效参数组合。
步骤62:利用各个不同类别的训练参数值排列组合,得到多个初始混响参数。
在本实施例中,对各个训练参数值进行排列组合后直接得到的混响参数即为初始混响参数。
步骤63:将初始混响参数中的无效参数组合滤除,得到训练混响参数。
通过将初始混响参数中的无效参数组合剔除,可以避免利用无效参数组合生成无效的训练信号,减少模型训练所需的时间,提高模型准确率。
基于上述实施例,请参考图5,图5为本申请实施例提供的一种混响效果复现方法的一种流程示意图。该实施例中的方法包括:
S201:获取参考信号。
需要说明的是,参考信号为混响效果复现时的基准信号,其具有目标混响效果,目标混响效果可以为任意一种具体的混响效果,在本实施例中,目标混响效果即为参考信号的混响效果,当参考信号的数量为多个时,各个参考信号可以分别对应于不同的目标混响效果。此外,还可以获取待处理信号。参考信号的数量和待处理信号的数量可以分别为一个或多个,根据二者数量的变化,参考信号和待处理信号之间的关系也可以变化。在一种实施方式中,参考信号和待处理信号可以为一一对应的关系,即当参考信号与待处理信号数量相同时,一个参考信号可以被指定对应于一个待处理信号。在第二种实施方式中,参考信号和待处理信号可以为多对一的关系,即待处理信号的数量仅有一个,待处理信号可以被指定对应于至少一个参考信号。在第三种实施方式中,参考信号和待处理信号可以为一对多的关系,即参考信号的数量仅有一个,该参考信号被指定对应于至少一个待处理信号。在第四种实施方式中,参考信号和待处理信号可以为多对多的关系,在这种情况下,待处理信号和参考信号的数量均为至少两个,每个待处理信号均对应于多个参考信号,每个参考信号也对应于多个待处理信号,各个待处理信号对应的参考信号可以相同也可以不同。
对于参考信号和待处理信号的获取方式,两种信号的获取方式可以相同也可以不同。针对参考信号来说,在一种实施方式中,可以获取参考信号确定指令,该指令用于指定给参考信号,其中包括有参考信号对应的标记信息,例如信号标签、信号名称等。在接收到该指令后,根据该指令从指定的路径下获取参考信号,该指定的路径可以为云端路径、外部存储介质路径或内部存储介质路径,其中外部存储介质路径可以为U盘、移动硬盘等可移动存储介质对应的存储路径。在另一种实施方式中,可以利用预设接口获取直接输入的参考信号,预设接口与输入方式相对应,例如当预设接口为音频接口时,则可以利用麦克风等音频获取设备获取信号,并通过音频接口输入,作为参考信号;或者当预设接口为文件写入接口时,则可以通过文件写入接口写入音频文件,将该音频文件记录的音频信号确定为参考信号。与参考信号类似的,待处理信号同样可以采用上述任意一种具体的获取方法得到,或者可以采用除上述方法外的任意获取方法得到,对此本实施例不做限定。
可以理解的是,参考信号与待处理信号可以被同时获取,或者可以先获取其中任意一种,再获取另一种,或者当二者数量大于两个时,可以交叉获取。例如在一种实施方式中,在检测到混响复现指令时开始获取参考信号和待处理信号,并将第一个获取到的信号确定为参考信号,将后续获取到的信号确定为待处理信号。在第二中实施方式中,在每次获取信号前或获取信号后,接收类型指定信息,类型指定信息用于对将要获取的信号或刚刚获取的信号的具体类型进行设置,即用于指定其为参考信号或待处理信号。
S202:将参考信号输入混响参数识别模型,得到目标混响参数。
混响参数识别模型是指能够对形成音频混响效果的混响参数进行识别的模型,其架构和具体结构不做限定。通过将参考信号输入混响参数识别模型,可以利用混响参数识别模型得到形成参考信号所拥有的目标混响效果的混响参数值组合,即目标混响参数。
目标混响参数是指形成目标混响效果的混响参数值组合,其中包括多个混响参数值(或者称为参数值),每个混响参数值对应于不同的混响参数项(或者称为参数项),每个混响参数项具有不同的物理意义,通过调节混响参数项对应的参数值,可以构成不同的混响效果。本实施例并不限定混响参数项的具体内容,不同的混响器可以对应于不同的混响参数项。例如当混响器为mverb混响器(即MAGIX Variverb混响器,一种VST插件,VST即Virtual Studio Technology,虚拟工作室技术)时,其对应的混响参数项可以为空间大小(size)、干湿比(mix)、早期反射和后期混响混合比(earlymix)、衰减大小(decay)等。通过调节各个混响参数项对应的参数值的大小,可以生成各种混响效果。
对于目标混响参数的具体生成过程,在一种实施方式中,混响参数识别模型在训练时采用的训练数据的标签为具体的各个混响参数值,在这种情况下,混响参数识别模型可以直接输出目标混响参数。在另一种实施方式中,混响参数识别模型在训练时采用的训练数据的标签为混响参数值组合的序号,在这种情况下,混响参数识别模型直接输出的内容为目标混响参数对应的目标序号,通过混响参数值组合和序号之间的对应关系确定目标混响参数。可以理解的是,当参考信号的数量为多个时,目标混响参数也为多个,各个目标混响参数可以相同或不同。
S203:将目标混响参数载入混响器,得到目标混响器。
在得到目标混响参数后,将其载入对应的混响器,以便对混响器进行设置。载入了目标混响参数的混响器可以被称为目标混响器。
S204:获取待处理信号,并将待处理信号输入目标混响器,得到具有目标混响效果的混响信号。
待处理信号为混响效果复现时被处理的信号,其具体为干声信号,即不具有任何混响效果的信号。将待处理信号输入参入载入完毕的目标混响器,目标混响器可以基于目标混响参数为待处理信号附加混响效果,得到具有目标混响效果的混响信号。由于基于目标混响参数设置了混响器,因此目标混响器可以对待处理信号进行与参考信号相同的处理,使得得到的混响信号能够具有与参考信号相同的目标混响效果。
当目标混响参数的数量为多个时,可以将其全部载入目标混响器后再输入待处理信号,目标混响器每次在获取到待处理信号后,都基于各个目标混响参数对其进行处理,得到对应的多个混响信号。或者可以依次载入各个目标混响参数,每载入一个目标混响参数后都利用其对各个待处理信号进行处理,得到对应的混响信号。
请参考图6,图6为本申请实施例提供的一种具体的混响效果复现过程示意图。其中,目标信号即为参考信号,将其输入混响参数识别模型,得到目标混响参数,并将其载入到混响器以便对混响器进行设置,得到目标混响器。作用信号即为待处理音频,其被输入被设置号的混响器进行混响处理,混响器的输出即为混响信号。
应用本申请实施例提供的混响效果复现方法,利用混响参数识别模型对参考信号进行分析,得到目标混响参数,利用目标混响参数即可实现参考信号所具有的目标混响效果。通过将目标混响参数载入混响器,并将待处理信号输入混响器,可以利用混响器对待处理信号进行基于目标混响参数的混响处理,得到混响信号。由于混响信号基于目标混响参数得到,因此其具有目标混响效果。通过利用混响参数识别模型对参考信号进行识别,可以快速得到准确的能够实现目标混响效果的目标混响参数,进而直接利用其对待处理信号进行处理。由于不需要通过设置混响器的各个参数并进行多次尝试的方式来得到目标混响效果,因此可以减少混响效果复现所需的时间。同时,由于混响参数识别模型可以准确地识别想要得到目标混响效果的目标混响参数,因此利用目标混响参数得到的混响信号的混响效果为准确的目标混响效果,无需通过主观听觉来判断是否准确地进行了混响效果复现,提高了混响效果复现的准确程度,解决了相关技术存在无法快速准确地在进行混响效果复现的问题。
基于上述实施例,本实施例对上述实施例中的部分步骤进行具体说明。在一种实施方式中,并不是所有的混响参数项都能够对听感产生明显影响,因此为了提高混响效果复现的速度,同时减少混响参数识别模型训练所需的时长,目标混响参数对应的待设置参数项可以是所有混响参数项中的一部分。在这种情况下,将目标混响参数载入混响器的过程具体可以包括如下步骤:
步骤71:利用目标混响参数设置混响器中的待设置参数项。
待设置参数项是指目标混响参数中各个参数值对应的混响参数项,其具体数量不做限定,与目标混响参数中的参数值相同。在一种实施方式中,目标混响参数可以按照预设格式生成,基于该预设格式即可确定各个参数值分别对应于哪些参数项,进而确定带设置参数项。例如当参数项共有5个时,待设置参数项为其中的第一个、第三个和第五个时,预设格式可以为[第一参数值,第三参数值,第五参数值],其中,第一参数值即为对应于编号为1的参数项的参数值,参数项的具体编号方式不做限定。在另一种实施方式中,目标混响参数中还可以包括参数项信息,用于指定各个参数值分别对应的待设置参数项。例如目标混响参数为[(1)第一参数值,(3)第三参数值],其中的(1)即为参数项信息,用于说明直接位于其后的参数值为对应于编号为1的参数项的参数值。本实施例并不限定设置混响器的具体设置方式,可以参考相关技术。
步骤72:对混响器中的未设置参数项进行预设设置,完成目标混响参数的载入。
未设置参数项是指混响器中除待设置参数项以外的其他参数项,这些参数项无法对听感产生明显的影响,因此并未利用混响参数识别模型对其对应的参数值进行识别。在这种情况下,可以对未设置参数项进行预设设置,预设设置可以为初始化设置,即将其设置为混响器经过初始化后未设置参数项对应的参数值。预设设置前还可以获取预设参数值,预设设置即为将未设置参数项对应的参数值设置为预设参数值。
通过选择部分参数项作为待设置参数项,可以减少混响参数识别模型所需的训练数据,提高模型的训练速度。同时,在进行混响效果复现时,可以提高目标混响参数的生成速度,进而提高混响效果复现的速度。
基于上述实施例,在一种实施方式中,为了扩大混响效果复现方法的适用范围,可以提供多个可选的混响器,而不同的混响器通常具有不同的混响参数项。在这种情况下,可以同时设置多个候选模型,根据选用的混响器选择对应的混响参数识别模型进行混响效果复现。具体的,还可以包括如下步骤:
步骤81:获取混响器信息。
混响器信息是指能够区分各个混响器的身份信息,其具体形式不做限定,例如可以为混响器编号、混响器名称、混响器版本号等。
步骤82:利用混响器信息从多个候选模型中筛选得到混响参数识别模型。
在本实施例中,存在多个候选模型,各个候选模型分别与各个混响器相对应,并基于混响器采用的参数项构成的训练数据训练得到。因此每个候选模型在效果复现过程中生成的目标混响参数仅能适用于对应的混响器。为了正确地进行混响效果复现,在接收到与选定的混响器相对应的混响器信息后,利用其从至少两个候选模型中选择混响参数识别模型,以便在混响效果复现过程中得到与混响器相匹配的目标混响参数。
下面对本申请实施例提供的计算机可读存储介质进行介绍,下文描述的计算机可读存储介质与上文描述的混响效果复现方法可相互对应参照。
本申请还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述的混响效果复现方法的步骤。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本领域技术人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应该认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语包括、包含或者其他任何变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (13)
1.一种混响参数识别模型训练方法,其特征在于,包括:
获取多个训练信号,各个所述训练信号对应于不同的训练混响参数;
将所述训练信号输入初始模型,利用所述初始模型中的信号处理层对所述训练信号进行语谱图提取,得到训练语谱图;
将所述训练语谱图输入所述初始模型中的特征提取层,得到训练特征;
将所述训练特征输入所述初始模型中的分类层,得到输出混响参数;
利用所述输出混响参数和所述训练混响参数更新所述初始模型的模型参数;
若满足训练完成条件,则将更新后的初始模型确定为混响参数识别模型。
2.根据权利要求1所述的混响参数识别模型训练方法,其特征在于,所述获取多个训练信号,包括:
获取干声信号和多个所述训练混响参数;
分别将各个所述训练混响参数载入混响器,并将所述干声信号输入所述混响器,得到各个所述训练混响参数对应的所述训练信号。
3.根据权利要求2所述的混响参数识别模型训练方法,其特征在于,训练混响参数的获取过程,包括:
从多个候选参数项中确定目标参数项;
分别在各个所述目标参数项对应的区间内进行平均取值,得到各个所述目标参数项对应的多个训练参数值;
将各个对应于不同的所述目标参数项的所述训练参数值进行组合,得到多个所述训练混响参数。
4.根据权利要求3所述的混响参数识别模型训练方法,其特征在于,所述将各个对应于不同的所述目标参数项的所述训练参数值进行组合,得到多个所述训练混响参数,包括:
确定各个所述目标参数项对应的无效参数组合;
利用各个不同类别的所述训练参数值排列组合,得到多个初始混响参数;
将所述初始混响参数中的所述无效参数组合滤除,得到所述训练混响参数。
5.根据权利要求3所述的混响参数识别模型训练方法,其特征在于,所述从多个候选参数项中确定目标参数项,包括:
输出多个参数选择信号,各个所述参数选择信号的目标候选参数项的参数值不同;
若接收到所述参数选择信号对应的选择指令,则将所述目标候选参数项确定为所述目标参数项。
6.根据权利要求1所述的混响参数识别模型训练方法,其特征在于,所述将所述训练特征输入所述初始模型中的分类层,得到输出混响参数,包括:
将所述训练特征输入所述分类层,得到混响参数序号;
利用所述混响参数序号筛选序号和参数对应关系,得到所述输出混响参数。
7.根据权利要求1所述的混响参数识别模型训练方法,其特征在于,所述利用所述输出混响参数和所述训练混响参数更新所述初始模型的模型参数,包括:
利用所述输出混响参数和所述训练混响参数计算损失值;
利用所述损失值对所述模型参数进行更新。
8.根据权利要求1所述的混响参数识别模型训练方法,其特征在于,所述将所述训练语谱图输入所述初始模型中的特征提取层,得到训练特征,包括:
将所述训练语谱图输入卷积层,得到训练卷积数据;
将所述训练卷积数据输入展平层,得到训练向量;
将所述训练向量输入双向长短期记忆层,得到所述训练特征。
9.一种混响效果复现方法,其特征在于,包括:
获取参考信号,所述参考信号具有目标混响效果;
将所述参考信号输入混响参数识别模型,得到目标混响参数,其中,所述混响参数识别模型为如权利要求1至8任一项所述的混响参数识别模型;
将所述目标混响参数载入混响器,得到目标混响器;
获取待处理信号,并将所述待处理信号输入所述目标混响器,得到具有所述目标混响效果的混响信号。
10.根据权利要求9所述的混响效果复现方法,其特征在于,所述将所述目标混响参数载入混响器,得到目标混响器,包括:
利用所述目标混响参数设置所述混响器中的待设置参数项;
对所述混响器中的未设置参数项进行预设设置,得到所述目标混响器。
11.根据权利要求9所述的混响效果复现方法,其特征在于,还包括:
获取混响器信息;
利用所述混响器信息从多个候选模型中筛选得到所述混响参数识别模型,所述候选模型基于如权利要求1至8任一项所述的混响参数识别模型训练方法训练得到,各个所述候选模型采用的训练数据的训练混响参数对应于不同的目标参数项。
12.一种电子设备,其特征在于,包括存储器和处理器,其中:
所述存储器,用于保存计算机程序;
所述处理器,用于执行所述计算机程序,以实现如权利要求1至8任一项所述的混响参数识别模型训练方法,和/或,如权利要求9至11任一项所述的混响效果复现方法。
13.一种计算机可读存储介质,其特征在于,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的混响参数识别模型训练方法,和/或,如权利要求9至11任一项所述的混响效果复现方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110511254.XA CN113112998B (zh) | 2021-05-11 | 2021-05-11 | 模型训练方法、混响效果复现方法、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110511254.XA CN113112998B (zh) | 2021-05-11 | 2021-05-11 | 模型训练方法、混响效果复现方法、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113112998A CN113112998A (zh) | 2021-07-13 |
CN113112998B true CN113112998B (zh) | 2024-03-15 |
Family
ID=76721568
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110511254.XA Active CN113112998B (zh) | 2021-05-11 | 2021-05-11 | 模型训练方法、混响效果复现方法、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113112998B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114283827B (zh) * | 2021-08-19 | 2024-03-29 | 腾讯科技(深圳)有限公司 | 音频去混响方法、装置、设备和存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109119090A (zh) * | 2018-10-30 | 2019-01-01 | Oppo广东移动通信有限公司 | 语音处理方法、装置、存储介质及电子设备 |
CN109785820A (zh) * | 2019-03-01 | 2019-05-21 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种处理方法、装置及设备 |
CN111210807A (zh) * | 2020-02-21 | 2020-05-29 | 厦门快商通科技股份有限公司 | 语音识别模型训练方法、系统、移动终端及存储介质 |
CN111462770A (zh) * | 2020-01-09 | 2020-07-28 | 华中科技大学 | 一种基于lstm的后期混响抑制方法及系统 |
CN111489760A (zh) * | 2020-04-01 | 2020-08-04 | 腾讯科技(深圳)有限公司 | 语音信号去混响处理方法、装置、计算机设备和存储介质 |
CN111862952A (zh) * | 2019-04-26 | 2020-10-30 | 华为技术有限公司 | 一种去混响模型训练方法及装置 |
WO2020221278A1 (zh) * | 2019-04-29 | 2020-11-05 | 北京金山云网络技术有限公司 | 视频分类方法及其模型的训练方法、装置和电子设备 |
CN112420073A (zh) * | 2020-10-12 | 2021-02-26 | 北京百度网讯科技有限公司 | 语音信号处理方法、装置、电子设备和存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160189730A1 (en) * | 2014-12-30 | 2016-06-30 | Iflytek Co., Ltd. | Speech separation method and system |
US11227586B2 (en) * | 2019-09-11 | 2022-01-18 | Massachusetts Institute Of Technology | Systems and methods for improving model-based speech enhancement with neural networks |
US11190898B2 (en) * | 2019-11-05 | 2021-11-30 | Adobe Inc. | Rendering scene-aware audio using neural network-based acoustic analysis |
-
2021
- 2021-05-11 CN CN202110511254.XA patent/CN113112998B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109119090A (zh) * | 2018-10-30 | 2019-01-01 | Oppo广东移动通信有限公司 | 语音处理方法、装置、存储介质及电子设备 |
CN109785820A (zh) * | 2019-03-01 | 2019-05-21 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种处理方法、装置及设备 |
CN111862952A (zh) * | 2019-04-26 | 2020-10-30 | 华为技术有限公司 | 一种去混响模型训练方法及装置 |
WO2020221278A1 (zh) * | 2019-04-29 | 2020-11-05 | 北京金山云网络技术有限公司 | 视频分类方法及其模型的训练方法、装置和电子设备 |
CN111462770A (zh) * | 2020-01-09 | 2020-07-28 | 华中科技大学 | 一种基于lstm的后期混响抑制方法及系统 |
CN111210807A (zh) * | 2020-02-21 | 2020-05-29 | 厦门快商通科技股份有限公司 | 语音识别模型训练方法、系统、移动终端及存储介质 |
CN111489760A (zh) * | 2020-04-01 | 2020-08-04 | 腾讯科技(深圳)有限公司 | 语音信号去混响处理方法、装置、计算机设备和存储介质 |
CN112420073A (zh) * | 2020-10-12 | 2021-02-26 | 北京百度网讯科技有限公司 | 语音信号处理方法、装置、电子设备和存储介质 |
Non-Patent Citations (3)
Title |
---|
Compressed Sensing based Multi-zone Sound Field Reproduction;Feng Qipeng等;IEEE;全文 * |
Optimumstep-size control for a variable step-size stereo acoustic echo canceller in the frequency domain;Zhenhai Yan等;Speech Communication;全文 * |
基于MFCC的混响效果识别研究;马赛;谢茜;刘嘉胤;;中国传媒大学学报(自然科学版)(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113112998A (zh) | 2021-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10453472B2 (en) | Parameter prediction device and parameter prediction method for acoustic signal processing | |
EP4121957A1 (en) | Encoding reverberator parameters from virtual or physical scene geometry and desired reverberation characteristics and rendering using these | |
CN110288997A (zh) | 用于声学组网的设备唤醒方法及系统 | |
JP6316407B2 (ja) | ミキシング制御装置、音声信号生成装置、音声信号供給方法およびコンピュータプログラム | |
CN108242234A (zh) | 语音识别模型生成方法及其设备、存储介质、电子设备 | |
CN109101216A (zh) | 音效调整方法、装置、电子设备以及存储介质 | |
US20230239642A1 (en) | Three-dimensional audio systems | |
US20220101623A1 (en) | Room Acoustics Simulation Using Deep Learning Image Analysis | |
US11321891B2 (en) | Method for generating action according to audio signal and electronic device | |
WO2019192864A1 (en) | Rendering of spatial audio content | |
US20230104111A1 (en) | Determining a virtual listening environment | |
CN113643714B (zh) | 音频处理方法、装置、存储介质及计算机程序 | |
CN112967705A (zh) | 一种混音歌曲生成方法、装置、设备及存储介质 | |
CN113112998B (zh) | 模型训练方法、混响效果复现方法、设备及可读存储介质 | |
CN109800724A (zh) | 一种扬声器位置确定方法、装置、终端及存储介质 | |
US20240022870A1 (en) | System for and method of controlling a three-dimensional audio engine | |
CN111654806A (zh) | 音频播放方法、装置、存储介质及电子设备 | |
CN118155654B (zh) | 模型训练方法、音频成分缺失识别方法、装置及电子设备 | |
CN117693791A (zh) | 言语增强 | |
CN113411725B (zh) | 音频播放方法、装置、移动终端及存储介质 | |
US11721317B2 (en) | Sound effect synthesis | |
KR20240099500A (ko) | 반주 생성 방법, 장치 및 저장 매체 | |
US20220095009A1 (en) | Method and apparatus for controlling audio sound quality in terminal using network | |
CN113886639A (zh) | 数字人视频生成方法、装置、电子设备及存储介质 | |
CN115203465A (zh) | 个性化音效参数获取方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |