CN116631427A - 降噪模型的训练方法、降噪处理方法、装置及芯片 - Google Patents
降噪模型的训练方法、降噪处理方法、装置及芯片 Download PDFInfo
- Publication number
- CN116631427A CN116631427A CN202310905699.5A CN202310905699A CN116631427A CN 116631427 A CN116631427 A CN 116631427A CN 202310905699 A CN202310905699 A CN 202310905699A CN 116631427 A CN116631427 A CN 116631427A
- Authority
- CN
- China
- Prior art keywords
- audio
- training
- noise reduction
- preset
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 353
- 230000009467 reduction Effects 0.000 title claims abstract description 255
- 238000000034 method Methods 0.000 title claims abstract description 89
- 238000003672 processing method Methods 0.000 title claims abstract description 25
- 238000013139 quantization Methods 0.000 claims abstract description 184
- 238000012545 processing Methods 0.000 claims abstract description 81
- 238000003860 storage Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 description 46
- 238000010408 sweeping Methods 0.000 description 26
- 238000004364 calculation method Methods 0.000 description 17
- 241000288105 Grus Species 0.000 description 10
- 230000008901 benefit Effects 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 230000009286 beneficial effect Effects 0.000 description 9
- 230000007613 environmental effect Effects 0.000 description 9
- 238000007667 floating Methods 0.000 description 9
- 230000002035 prolonged effect Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 239000000126 substance Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000002708 enhancing effect Effects 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000001788 irregular Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Abstract
本发明提供了一种降噪模型的训练方法、降噪处理方法、装置及芯片,涉及音频处理技术领域。其中,降噪模型的训练方法包括:获取预设模型和预设音频集;对预设音频集中的至少部分音频进行拆分处理,得到训练音频;通过训练音频对预设模型进行量化训练,得到目标降噪模型。
Description
技术领域
本发明涉及音频处理技术领域,具体而言,涉及一种降噪模型的训练方法、降噪处理方法、装置及芯片。
背景技术
在相关技术中,为了提高语音识别的准确率,一般需要通过降噪模型对包含环境噪音的语音音频进行降噪处理。
为了方便部署,需要减少降噪模型体积,即对降噪模型进行量化训练处理,而量化训练的训练时长较长,造成训练效率较低。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,本发明的第一方面提出一种降噪模型的训练方法。
本发明的第二方面提出一种降噪处理方法。
本发明的第三方面提出一种降噪模型的训练装置。
本发明的第四方面提出一种降噪处理装置。
本发明的第五方面提出一种可读存储介质。
本发明的第六方面提出一种计算机程序产品。
本发明的第七方面提出一种芯片。
有鉴于此,本发明的第一方面提供了一种降噪模型的训练方法,包括:获取预设模型和预设音频集;对预设音频集中的至少部分音频进行拆分处理,得到训练音频;通过训练音频对预设模型进行量化训练,得到目标降噪模型。
在该技术方案中,对于智能设备的语音控制等场景,需要通过语音识别算法对用户语音进行识别。而实际场景下,用户语音中往往夹杂了其他噪音,如环境噪音、风噪、机器人等智能设备自身工作时的噪音等。
这些噪音会影响语音识别的成功率,因此需要对原始音频数据进行降噪处理,从而去除噪音影响,得到纯净的音频数据,进而提高语音识别的成功率。
为此,需要部署降噪模型,来对包含用户语音信息的原始音频进行降噪处理。
在相关技术中,为了实现降噪模型的自由部署,需要对其进行量化处理,其中,模型量化技术旨在将降噪模型进行推理时的浮点计算,转化为定点计算,由此能够有效减少模型的体积,降低访存占用并且提高推理速度。
而对模型进行量化训练时,由于量化训练时的初始模型是伪量化模型,其中增加了伪量化节点用于统计数据流的最大值和最小值,因此推理时间会随着伪量化节点的增加而延长。
同时,常用的CRN(Chemical Reactor Network,化学反应器网络)模型中,包含了两层GRU(GatedRecurrent Unit,门控循环单元),GRU算子会逐帧对训练音频进行循环运算,在输入音频有几千帧的情形下,GRU中的每个量化节点都会循环执行几千遍量化-非量化操作,这严重拖慢了量化训练的速度。
针对上述情况,本发明技术方案在对原始的预设模型进行量化训练时,将原始的训练集,也即预设音频集中的至少部分用于训练的音频进行拆分处理,得到拆分后的训练音频。
示例性地,可以对预设音频集中的全部音频都进行拆分处理。
示例性地,可以对预设音频集中,音频长度大于预设阈值的音频进行拆分处理,而对音频长度小于或等于预设阈值的音频则不进行拆分处理。
拆分得到的训练音频包含了原始训练集中的音频的全部或大部分信息,同时显著的减少了单一输入的训练数据的音频帧数,因此能够显著缩短训练周期,提高对模型进行量化训练的训练效率。
本发明技术方案可应用于linux/rtos/android/ios等不同边端系统,面向armv7/v8及dsp等不同边端平台提供指令级加速。本发明技术方案具备轻量级部署、通用性强、易用性强、高性能推理等特点,有助于全面解决智能设备低资源瓶颈,能够大幅缩短模型训练周期和部署周期。并且本发明提供的技术方案可以应用于智能芯片中,且可用于赋能智能家电,例如可应用于支持语音、连接、显示三合一的智能芯片中,以赋能语音冰箱、空调、机器人等智能家电量产落地,提智增效。
本发明技术方案通过在对降噪模型进行量化训练处理时,将训练用的音频数据进行拆分处理,得到拆分后帧数更少的训练音频,通过帧数更少的训练音频进行量化训练,能够有效缩短量化训练的训练周期,提高训练效率,有利于降噪模型在终端侧的部署。
另外,本发明提供的上述技术方案中的降噪模型的训练方法还可以具有如下附加技术特征:
在一些技术方案中,可选地,对预设音频集中至少部分的音频进行拆分处理,包括:对预设音频集中的第一音频进行随机截取,得到N段长度相等的子音频,其中,N段长度相等的子音频的总长度小于第一音频的长度,N为正整数。
在该技术方案中,可以对预设音频集中的每段音频均进行随机截取处理,截取出N段固定长度的子音频。
举例来说,一段长度为10秒的音频,在其中随机截取出3段长度为2秒的子音频,这些子音频彼此不重合。通过随机截取的方式来将预设音频中,原始长度的第一音频进行拆分处理,能够加快截取音频的速度,同时有效减小作为训练输入的子音频的长度,提高训练效率。
本申请技术方案按照随机截取的方式,对原始的音频进行拆分处理,得到拆分后的短音频数据作为对模型进行量化训练的输入音频,能够有效提高降噪模型量化训练的训练效率。
在一些技术方案中,可选地,对预设音频集中至少部分的音频进行拆分处理,包括:对预设音频集中的第二音频进行等长度拆分,得到M段长度相等的子音频,其中,M段长度相等的子音频的总长度等于第二音频的长度,M为正整数。
在该技术方案中,可以对预设音频集中的每段音频均固定长度的等距离拆分,拆分得到M段长度均相等的子音频。
举例来说,一段长度为30秒的音频,将其等分为6段长度为5秒的子音频,这6段子音频首尾顺次相接,且彼此不重合。通过等距切分的方式,将预设音频中原始长度的第二音频进行拆分处理,能够最大化保留原始音频数据中的样本信息,实现更好地利用原始样本的完整信息。
本申请技术方案按照等距切分的方式,对原始的音频进行拆分处理,得到拆分后的短音频数据作为对模型进行量化训练的输入音频,能够最大化地保留原始样本的样本信息,提高量化训练后降噪模型的性能表现。
在一些技术方案中,可选地,对预设音频集中至少部分的音频进行拆分处理,包括:
对预设音频集中满足第一条件的第三音频进行随机截取,得到至少一段子音频,至少一段子音频的长度小于第三音频的长度;对预设音频集中满足第二条件的第四音频进行等长度拆分,得到长度相等的多段子音频,多段子音频的总长度等于第四音频的长度;
其中,第一条件包括:音频长度小于预设长度,或为预设音频集中的音频序列的前P个音频,P为正整数;第二条件包括:音频长度大于或等于预设长度,或为音频序列中除前P个音频之外的音频。
在该技术方案中,可以对预设音频集中的一部分音频进行随机截取处理,并对预设音频集中的另一部分音频进行等长度拆分处理。
具体地,可以对满足第一条件的第三音频,进行随机截取处理。其中,可以将音频长度较短,具体为音频长度小于预设长度的音频,确定为满足第一条件的第三音频。
能够理解的是,对于音频长度小于预设长度的音频,可以在其中随机截取出该音频的一部分,作为一个子音频,该子音频可以是原始音频的前部、后部或中间部分。
在另一些技术方案中,可以对预设音频集中的一部分音频,具体为前P个音频进行随机截取处理。
示例性地,P个进行随机截取处理的第三音频的数量,可以占预设音频集中音频的总数量的30%至50%,对应的第四音频的数量占预设音频集中音频的总数量的50%至70%。
可以对满足第二条件的第四音频,进行等长度拆分处理。其中,可以将音频长度较长,具体为音频长度大于或等于预设长度的音频,确定为满足第二条件的第四音频。
能够理解的是,对于音频长度大于或等于预设长度的音频,可以对其进行等长度划分,如将一段长度为30秒的音频等分为6段长度为5秒的子音频。
在另一些技术方案中,可以对预设音频集中,进行了随机截取处理的前P个音频之外的其他音频,进行等长度划分处理。
示例性地,P个进行随机截取处理的第三音频的数量,可以占预设音频集中音频的总数量的50%至60%,对应的第四音频的数量占预设音频集中音频的总数量的40%至50%。
本申请技术方案对原始音频中的一部分进行等距切分,并对另一部分进行随机截取,能够提高训练音频的多样性,提高量化训练后降噪模型的性能表现。
在一些技术方案中,可选地,降噪模型的训练方法还包括:每当获取到一个子音频对应的模型输出,均根据一个子音频对应的模型输出对目标降噪模型进行一次反向传播处理,以更新一次目标降噪模型对应的权重信息。
在该技术方案中,以拆分得到的每一段子音频作为输入,对预设模型进行量化训练。在量化训练的过程中,每当对一段子音频的推理结束后,都会基于当前得到的推理结果进行一次反向传播,从而指导降噪模型更新一次对应的权重信息。
相较于相关技术中的量化训练,一段音频数据只会指导降噪模型进行一次权重信息的更新操作,本发明技术方案对原始的音频数据进行拆分,得到拆分后的多个子音频,多个子音频中的每一个在推理结束后都会更新一次模型权重,因此能够更高效地使被训练的降噪模型快速收敛,提高降噪模型量化训练的效率。
在一些技术方案中,可选地,降噪模型的训练方法还包括:根据子音频生成训练音频。
在该技术方案中,在对预设音频集中的音频数据进行拆分处理,得到拆分后的多个子音频后,基于拆分得到的子音频,生成用于对预设模型进行量化训练的训练音频。
由于子音频是对长音频数据进行拆分得到的,因此能够有效减少训练时长,同时能够使被训练的模型加速收敛,进而提高降噪模型的量化训练的训练效率。
在一些技术方案中,可选地,在对预设音频集中的至少部分音频进行拆分处理之前,降噪模型的训练方法还包括:获取预设音频;在预设音频中添加噪音数据,得到噪声音频;根据噪声音频确定预设音频集。
在该技术方案中,预设音频具体为安静音频,即不包含噪声数据的音频,示例性地,安静音频内包括不同音色、不同发音习惯的语音信息。
在得到预设音频后,对预设音频进行进一步处理,具体为在其中掺入无规律的噪声数据,得到包含噪声的噪声音频。
通过在大量的安静音频中掺入噪声音频,从而得到数量足够的噪声音频,通过这些噪声音频生成预设音频集作为降噪模型的训练集,降噪模型的作用就是从中过滤出需要被提炼出的声音。
本发明技术方案通过在安静音频中掺杂噪声音频,来对降噪模型进行训练,训练后的目标降噪模型能够准确去除用户语音音频中的噪声部分,提高语音识别的准确率。
本发明第二方面提供了一种降噪处理方法,包括:获取待处理音频;通过目标降噪模型对待处理音频进行降噪处理,得到目标音频;其中,目标降噪模型为通过上述任一技术方案中提供的降噪模型的训练方法训练得到的。
在该技术方案中,降噪处理方法用于对音频数据进行降噪处理,从而去除音频数据中,不需要的噪声部分。举例来说,对于语音识别场景,用户通过语音向机器人等智能设备下达语音指令,而由于用户所处环境可能复杂,因此用户语音中,往往夹杂了其他噪音,如环境噪音、风噪、机器人等智能设备自身工作时的噪音等。
这些噪音会影响语音识别的成功率,因此需要对原始音频数据进行降噪处理,从而去除噪音影响,得到纯净的音频数据,进而提高语音识别的成功率。
为此,需要部署降噪模型,来对包含用户语音信息的原始音频进行降噪处理。
在相关技术中,为了实现降噪模型的自由部署,需要对其进行量化处理,其中,模型量化技术旨在将降噪模型进行推理时的浮点计算,转化为定点计算,由此能够有效减少模型的体积,降低访存占用并且提高推理速度。
而对模型进行量化训练时,由于量化训练时的初始模型是伪量化模型,其中增加了伪量化节点用于统计数据流的最大值和最小值,因此推理时间会随着伪量化节点的增加而延长。
同时,常用的CRN(Chemical Reactor Network,化学反应器网络)模型中,包含了两层GRU(GatedRecurrent Unit,门控循环单元),GRU算子会逐帧对训练音频进行循环运算,在输入音频有几千帧的情形下,GRU中的每个量化节点都会循环执行几千遍量化-非量化操作,这严重拖慢了量化训练的速度。
针对上述情况,本发明技术方案在对原始的预设模型进行量化训练时,将原始的训练集,也即预设音频集中的至少部分用于训练的音频进行拆分处理,得到拆分后的训练音频。
示例性地,可以对预设音频集中的全部音频都进行拆分处理。
示例性地,可以对预设音频集中,音频长度大于预设阈值的音频进行拆分处理,而对音频长度小于或等于预设阈值的音频则不进行拆分处理。
拆分得到的训练音频包含了原始训练集中的音频的全部或大部分信息,同时显著的减少了单一输入的训练数据的音频帧数,因此能够显著缩短训练周期,提高对模型进行量化训练的训练效率。
本发明技术方案可应用于linux/rtos/android/ios等不同边端系统,面向armv7/v8及dsp等不同边端平台提供指令级加速。本发明技术方案具备轻量级部署、通用性强、易用性强、高性能推理等特点,有助于全面解决智能设备低资源瓶颈,能够大幅缩短模型训练周期和部署周期。并且本发明提供的技术方案可以应用于智能芯片中,且可用于赋能智能家电,例如可应用于支持语音、连接、显示三合一的智能芯片中,以赋能语音冰箱、空调、机器人等智能家电量产落地,提智增效。
本发明技术方案通过在对降噪模型进行量化训练处理时,将训练用的音频数据进行拆分处理,得到拆分后帧数更少的训练音频,通过帧数更少的训练音频进行量化训练,能够有效缩短量化训练的训练周期,提高训练效率,有利于降噪模型在终端侧的部署。
在一些技术方案中,可选地,降噪处理方法还包括:基于目标音频进行语音识别处理,得到目标语音指令;通过目标语音指令控制目标设备工作。
在该技术方案中,目标设备可以是扫地机器人、拖地机器人等家电设备,也可以是智能音响、手机等智能电子设备。
用户可以通过语音输入来唤醒这些设备,并控制这些设备执行对应的操作。
以目标设备为扫地机器人为例,用户说出预设的唤醒指令,来呼唤扫地机器人响应。用户说出的唤醒指令,被扫地机器人的麦克风接收到,并形成为待处理音频。
扫地机器人通过部署的目标降噪模型,对接收到的待处理音频进行降噪处理,得到干净地、不包含噪音信号的目标音频。
扫地机器人通过语音识别模型,对降噪后的目标音频进行语音识别,从而识别出对应的目标语音指令,也即上述唤醒指令。
在识别到目标语音指令后,扫地机器人执行目标语音指令对应的工作,如清扫目标区域、回站充电或暂停清扫等。
本申请技术方案通过量化训练处理的目标降噪模型,对用户的语音指令对应的待处理音频进行降噪处理,由于目标降噪模型经过量化训练处理,因此模型体积更小,有利于部署在不同种类的家电设备上,从而提高语音控制的成功率。
本发明第三方面提供了一种降噪模型的训练装置,包括:获取模块,用于获取预设模型和预设音频集;拆分模块,用于对预设音频集中的至少部分音频进行拆分处理,得到训练音频;训练模块,用于通过训练音频对预设模型进行量化训练,得到目标降噪模型。
在该技术方案中,对于智能设备的语音控制等场景,需要通过语音识别算法对用户语音进行识别。而实际场景下,用户语音中往往夹杂了其他噪音,如环境噪音、风噪、机器人等智能设备自身工作时的噪音等。
这些噪音会影响语音识别的成功率,因此需要对原始音频数据进行降噪处理,从而去除噪音影响,得到纯净的音频数据,进而提高语音识别的成功率。
为此,需要部署降噪模型,来对包含用户语音信息的原始音频进行降噪处理。
在相关技术中,为了实现降噪模型的自由部署,需要对其进行量化处理,其中,模型量化技术旨在将降噪模型进行推理时的浮点计算,转化为定点计算,由此能够有效减少模型的体积,降低访存占用并且提高推理速度。
而对模型进行量化训练时,由于量化训练时的初始模型是伪量化模型,其中增加了伪量化节点用于统计数据流的最大值和最小值,因此推理时间会随着伪量化节点的增加而延长。
同时,常用的CRN(Chemical Reactor Network,化学反应器网络)模型中,包含了两层GRU(GatedRecurrent Unit,门控循环单元),GRU算子会逐帧对训练音频进行循环运算,在输入音频有几千帧的情形下,GRU中的每个量化节点都会循环执行几千遍量化-非量化操作,这严重拖慢了量化训练的速度。
针对上述情况,本发明技术方案在对原始的预设模型进行量化训练时,将原始的训练集,也即预设音频集中的至少部分用于训练的音频进行拆分处理,得到拆分后的训练音频。
示例性地,可以对预设音频集中的全部音频都进行拆分处理。
示例性地,可以对预设音频集中,音频长度大于预设阈值的音频进行拆分处理,而对音频长度小于或等于预设阈值的音频则不进行拆分处理。
拆分得到的训练音频包含了原始训练集中的音频的全部或大部分信息,同时显著的减少了单一输入的训练数据的音频帧数,因此能够显著缩短训练周期,提高对模型进行量化训练的训练效率。
本发明技术方案可应用于linux/rtos/android/ios等不同边端系统,面向armv7/v8及dsp等不同边端平台提供指令级加速。本发明技术方案具备轻量级部署、通用性强、易用性强、高性能推理等特点,有助于全面解决智能设备低资源瓶颈,能够大幅缩短模型训练周期和部署周期。并且本发明提供的技术方案可以应用于智能芯片中,且可用于赋能智能家电,例如可应用于支持语音、连接、显示三合一的智能芯片中,以赋能语音冰箱、空调、机器人等智能家电量产落地,提智增效。
本发明技术方案通过在对降噪模型进行量化训练处理时,将训练用的音频数据进行拆分处理,得到拆分后帧数更少的训练音频,通过帧数更少的训练音频进行量化训练,能够有效缩短量化训练的训练周期,提高训练效率,有利于降噪模型在终端侧的部署。
本发明第四方面提供了一种降噪处理装置,包括:获取模块,用于获取待处理音频;处理模块,用于通过目标降噪模型对待处理音频进行降噪处理,得到目标音频;其中,目标降噪模型为通过上述任一技术方案中提供的降噪模型的训练方法训练得到的。
在该技术方案中,降噪处理装置用于对音频数据进行降噪处理,从而去除音频数据中,不需要的噪声部分。举例来说,对于语音识别场景,用户通过语音向机器人等智能设备下达语音指令,而由于用户所处环境可能复杂,因此用户语音中,往往夹杂了其他噪音,如环境噪音、风噪、机器人等智能设备自身工作时的噪音等。
这些噪音会影响语音识别的成功率,因此需要对原始音频数据进行降噪处理,从而去除噪音影响,得到纯净的音频数据,进而提高语音识别的成功率。
为此,需要部署降噪模型,来对包含用户语音信息的原始音频进行降噪处理。
在相关技术中,为了实现降噪模型的自由部署,需要对其进行量化处理,其中,模型量化技术旨在将降噪模型进行推理时的浮点计算,转化为定点计算,由此能够有效减少模型的体积,降低访存占用并且提高推理速度。
而对模型进行量化训练时,由于量化训练时的初始模型是伪量化模型,其中增加了伪量化节点用于统计数据流的最大值和最小值,因此推理时间会随着伪量化节点的增加而延长。
同时,常用的CRN(Chemical Reactor Network,化学反应器网络)模型中,包含了两层GRU(GatedRecurrent Unit,门控循环单元),GRU算子会逐帧对训练音频进行循环运算,在输入音频有几千帧的情形下,GRU中的每个量化节点都会循环执行几千遍量化-非量化操作,这严重拖慢了量化训练的速度。
针对上述情况,本发明技术方案在对原始的预设模型进行量化训练时,将原始的训练集,也即预设音频集中的至少部分用于训练的音频进行拆分处理,得到拆分后的训练音频。
示例性地,可以对预设音频集中的全部音频都进行拆分处理。
示例性地,可以对预设音频集中,音频长度大于预设阈值的音频进行拆分处理,而对音频长度小于或等于预设阈值的音频则不进行拆分处理。
拆分得到的训练音频包含了原始训练集中的音频的全部或大部分信息,同时显著的减少了单一输入的训练数据的音频帧数,因此能够显著缩短训练周期,提高对模型进行量化训练的训练效率。
本发明技术方案通过在对降噪模型进行量化训练处理时,将训练用的音频数据进行拆分处理,得到拆分后帧数更少的训练音频,通过帧数更少的训练音频进行量化训练,能够有效缩短量化训练的训练周期,提高训练效率,有利于降噪模型在终端侧的部署。
本发明第五方面提供了一种可读存储介质,其上存储有程序或指令,该程序或指令被处理器执行时实现如上述任一技术方案中提供的降噪模型的训练方法的步骤,和/或如上述任一技术方案中提供的降噪处理方法的步骤,因此也包含其全部有益效果,为避免重复,在此不再赘述。
本发明第六方面提供了一种计算机程序产品,该计算机程序产品被存储在存储介质中,该计算机程序产品被至少一个处理器执行时实现如上述任一技术方案中提供的降噪模型的训练方法的步骤,和/或如上述任一技术方案中提供的降噪处理方法的步骤,因此也包含其全部有益效果,为避免重复,在此不再赘述。
本发明第七方面提供了一种芯片,该芯片包括处理器和通信接口,该通信接口和该处理器耦合,该处理器用于运行程序或指令,实现如述任一技术方案中提供的降噪模型的训练方法的步骤,和/或如上述任一技术方案中提供的降噪处理方法的步骤,因此也包含其全部有益效果,为避免重复,在此不再赘述。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了根据本发明实施例的降噪模型的训练方法的流程图;
图2示出了根据本发明实施例的降噪模型的测试数据示意图;
图3示出了根据本发明实施例的降噪处理方法的流程图;
图4示出了根据本发明实施例的降噪模型的训练装置的结构框图;
图5示出了根据本发明实施例的降噪处理装置的结构框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
下面参照图1至图5描述根据本发明一些实施例所述降噪模型的训练方法、降噪处理方法、装置及芯片。
在本发明的一些实施例中,提供了一种降噪模型的训练方法,图1示出了根据本发明实施例的降噪模型的训练方法的流程图,如图1所示,降噪模型的训练方法包括:
步骤102,获取预设模型和预设音频集;
步骤104,对预设音频集中的至少部分音频进行拆分处理,得到训练音频;
步骤106,通过训练音频对预设模型进行量化训练,得到目标降噪模型。
在本发明实施例中,对于智能设备的语音控制等场景,需要通过语音识别算法对用户语音进行识别。而实际场景下,用户语音中往往夹杂了其他噪音,如环境噪音、风噪、机器人等智能设备自身工作时的噪音等。
这些噪音会影响语音识别的成功率,因此需要对原始音频数据进行降噪处理,从而去除噪音影响,得到纯净的音频数据,进而提高语音识别的成功率。
为此,需要部署降噪模型,来对包含用户语音信息的原始音频进行降噪处理。
在相关技术中,为了实现降噪模型的自由部署,需要对其进行量化处理,其中,模型量化技术旨在将降噪模型进行推理时的浮点计算,转化为定点计算,由此能够有效减少模型的体积,降低访存占用并且提高推理速度。
而对模型进行量化训练时,由于量化训练时的初始模型是伪量化模型,其中增加了伪量化节点用于统计数据流的最大值和最小值,因此推理时间会随着伪量化节点的增加而延长。
同时,常用的CRN(Chemical Reactor Network,化学反应器网络)模型中,包含了两层GRU(GatedRecurrent Unit,门控循环单元),GRU算子会逐帧对训练音频进行循环运算,在输入音频有几千帧的情形下,GRU中的每个量化节点都会循环执行几千遍量化-非量化操作,这严重拖慢了量化训练的速度。
针对上述情况,本发明实施例在对原始的预设模型进行量化训练时,将原始的训练集,也即预设音频集中的至少部分用于训练的音频进行拆分处理,得到拆分后的训练音频。
示例性地,可以对预设音频集中的全部音频都进行拆分处理。
示例性地,可以对预设音频集中,音频长度大于预设阈值的音频进行拆分处理,而对音频长度小于或等于预设阈值的音频则不进行拆分处理。
拆分得到的训练音频包含了原始训练集中的音频的全部或大部分信息,同时显著的减少了单一输入的训练数据的音频帧数,因此能够显著缩短训练周期,提高对模型进行量化训练的训练效率。
本发明技术方案可应用于linux/rtos/android/ios等不同边端系统,面向armv7/v8及dsp等不同边端平台提供指令级加速。本发明技术方案具备轻量级部署、通用性强、易用性强、高性能推理等特点,有助于全面解决智能设备低资源瓶颈,能够大幅缩短模型训练周期和部署周期。并且本发明提供的技术方案可以应用于智能芯片中,且可用于赋能智能家电,例如可应用于支持语音、连接、显示三合一的智能芯片中,赋能语音冰箱、空调、机器人等智能家电量产落地,提智增效。
本发明实施例通过在对降噪模型进行量化训练处理时,将训练用的音频数据进行拆分处理,得到拆分后帧数更少的训练音频,通过帧数更少的训练音频进行量化训练,能够有效缩短量化训练的训练周期,提高训练效率,有利于降噪模型在终端侧的部署。
在一些实施例中,可选地,对预设音频集中至少部分的音频进行拆分处理,包括:对预设音频集中的第一音频进行随机截取,得到N段长度相等的子音频,其中,N段长度相等的子音频的总长度小于第一音频的长度,N为正整数。
在本发明实施例中,可以对预设音频集中的每段音频均进行随机截取处理,截取出N段固定长度的子音频。
举例来说,一段长度为10秒的音频,在其中随机截取出3段长度为2秒的子音频,这些子音频彼此不重合。通过随机截取的方式来将预设音频中,原始长度的第一音频进行拆分处理,能够加快截取音频的速度,同时有效减小作为训练输入的子音频的长度,提高训练效率。
本申请实施例按照随机截取的方式,对原始的音频进行拆分处理,得到拆分后的短音频数据作为对模型进行量化训练的输入音频,能够有效提高降噪模型量化训练的训练效率。
在一些实施例中,可选地,对预设音频集中至少部分的音频进行拆分处理,包括:对预设音频集中的第二音频进行等长度拆分,得到M段长度相等的子音频,其中,M段长度相等的子音频的总长度等于第二音频的长度,M为正整数。
在本发明实施例中,可以对预设音频集中的每段音频均固定长度的等距离拆分,拆分得到M段长度均相等的子音频。
举例来说,一段长度为30秒的音频,将其等分为6段长度为5秒的子音频,这6段子音频首尾顺次相接,且彼此不重合。通过等距切分的方式,将预设音频中原始长度的第二音频进行拆分处理,能够最大化保留原始音频数据中的样本信息,实现更好地利用原始样本的完整信息。
本申请实施例按照等距切分的方式,对原始的音频进行拆分处理,得到拆分后的短音频数据作为对模型进行量化训练的输入音频,能够最大化地保留原始样本的样本信息,提高量化训练后降噪模型的性能表现。
在一些实施例中,可选地,对预设音频集中至少部分的音频进行拆分处理,包括:
对预设音频集中满足第一条件的第三音频进行随机截取,得到至少一段子音频,至少一段子音频的长度小于第三音频的长度;对预设音频集中满足第二条件的第四音频进行等长度拆分,得到长度相等的多段子音频,多段子音频的总长度等于第四音频的长度;
其中,第一条件包括:音频长度小于预设长度,或为预设音频集中的音频序列的前P个音频,P为正整数;第二条件包括:音频长度大于或等于预设长度,或为音频序列中除前P个音频之外的音频。
在本发明实施例中,可以对预设音频集中的一部分音频进行随机截取处理,并对预设音频集中的另一部分音频进行等长度拆分处理。
具体地,可以对满足第一条件的第三音频,进行随机截取处理。其中,可以将音频长度较短,具体为音频长度小于预设长度的音频,确定为满足第一条件的第三音频。
能够理解的是,对于音频长度小于预设长度的音频,可以在其中随机截取出该音频的一部分,作为一个子音频,该子音频可以是原始音频的前部、后部或中间部分。
在另一些实施方式中,可以对预设音频集中的一部分音频,具体为前P个音频进行随机截取处理。
示例性地,P个进行随机截取处理的第三音频的数量,可以占预设音频集中音频的总数量的30%至50%,对应的第四音频的数量占预设音频集中音频的总数量的50%至70%。
可以对满足第二条件的第四音频,进行等长度拆分处理。其中,可以将音频长度较长,具体为音频长度大于或等于预设长度的音频,确定为满足第二条件的第四音频。
能够理解的是,对于音频长度大于或等于预设长度的音频,可以对其进行等长度划分,如将一段长度为30秒的音频等分为6段长度为5秒的子音频。
在另一些实施方式中,可以对预设音频集中,进行了随机截取处理的前P个音频之外的其他音频,进行等长度划分处理。
示例性地,P个进行随机截取处理的第三音频的数量,可以占预设音频集中音频的总数量的50%至60%,对应的第四音频的数量占预设音频集中音频的总数量的40%至50%。
本申请实施例对原始音频中的一部分进行等距切分,并对另一部分进行随机截取,能够提高训练音频的多样性,提高量化训练后降噪模型的性能表现。
在一些实施例中,可选地,降噪模型的训练方法还包括:每当获取到一个子音频对应的模型输出,均根据一个子音频对应的模型输出对目标降噪模型进行一次反向传播处理,以更新一次目标降噪模型对应的权重信息。
在本发明实施例中,以拆分得到的每一段子音频作为输入,对预设模型进行量化训练。在量化训练的过程中,每当对一段子音频的推理结束后,都会基于当前得到的推理结果进行一次反向传播,从而指导降噪模型更新一次对应的权重信息。
相较于相关技术中的量化训练,一段音频数据只会指导降噪模型进行一次权重信息的更新操作,本发明实施例对原始的音频数据进行拆分,得到拆分后的多个子音频,多个子音频中的每一个在推理结束后都会更新一次模型权重,因此能够更高效地使被训练的降噪模型快速收敛,提高降噪模型量化训练的效率。
在一些实施例中,可选地,降噪模型的训练方法还包括:根据子音频生成训练音频。
在本发明实施例中,在对预设音频集中的音频数据进行拆分处理,得到拆分后的多个子音频后,基于拆分得到的子音频,生成用于对预设模型进行量化训练的训练音频。
由于子音频是对长音频数据进行拆分得到的,因此能够有效减少训练时长,同时能够使被训练的模型加速收敛,进而提高降噪模型的量化训练的训练效率。
在一些实施例中,可选地,在对预设音频集中的至少部分音频进行拆分处理之前,方法还包括:获取预设音频;在预设音频中添加噪音数据,得到噪声音频;根据噪声音频确定预设音频集。
在本发明实施例中,预设音频具体为安静音频,即不包含噪声数据的音频,示例性地,安静音频内包括不同音色、不同发音习惯的语音信息。
在得到预设音频后,对预设音频进行进一步处理,具体为在其中掺入无规律的噪声数据,得到包含噪声的噪声音频。
通过在大量的安静音频中掺入噪声音频,从而得到数量足够的噪声音频,通过这些噪声音频生成预设音频集作为降噪模型的训练集,降噪模型的作用就是从中过滤出需要被提炼出的声音。
本发明实施例通过在安静音频中掺杂噪声音频,来对降噪模型进行训练,训练后的目标降噪模型能够准确去除用户语音音频中的噪声部分,提高语音识别的准确率。
在本发明的一些实施例中,由于量化训练时的模型仍是伪量化模型,相比原始模型只是增加了伪量化节点用于统计数据流的最大值和最小值,因此推理速度也会随着伪量化节点的个数增加而延长。
又因为业务使用的CRN降噪模型中包含了两层GRU逐帧对训练音频进行循环运算,在输入音频有几千帧的情形下,GRU中的每个量化节点都会循环执行几千遍,这严重拖慢了量化训练的速度,极大地影响到了开发周期。
有了理论基础的支撑,在实际定位问题根源的过程中,使用了一些profiler(性能测试)工具来辅助,最终得到帧数长短几乎与训练时间成正比的结论。
对此,本发明实施例提出对输入音频进行拆分处理。拆分方式也有多种途径:一种是对每段输入音频进行随机截取,截取出固定长度的一段音频作为输入,这样带来的优势是能够加快训练速度,代价是会造成每次训练的时候丢失一部分的样本信息,不利于模型收敛到更好的局部最优点。
另一种是保留所有输入信息,将输入音频进行等距离切分(例如将输入的30s音频等分拆分成6段5s的子音频),对每段子音频推理完都进行反向传播指导权重更新,这样带来的好处是更好地利用上了样本的完整信息,但是提速效果没有随机截取的方式明显。
拆分音频不仅有效地提升了训练速度,同时在模型的性能表现上也带来了惊喜。因为量化操作中包含的一步四舍五入操作一定是有损的,随着音频帧数的累积,量化误差的范围也会随之扩大。拆分输入音频能够有效缓解量化误差堆积的问题。
同时由于音频中的噪声信息在时间上的前后相关性弱,因此拆分输入音频不会伤害量化模型的表现,同时还能加快模型的收敛速度,减少量化误差的累积。
在量化训练的过程中,降噪模型的输入音频就是在安静音频的基础上掺入无规律的合成噪音,降噪模型的作用就是从中过滤出需要被提炼出的声音,基于拆分后的音频的量化训练能够在不会明显损失精度的情况下,进一步减小模型体积和提升模型的计算速度。
通过拆分输入音频来进行量化训练,训练时长明显降低,图2示出了根据本发明实施例的降噪模型的测试数据示意图,如图2所示,模型最后呈现的唤醒率也几乎接近无损,在指定第一层 Conv BN Elu不量化,其余全量化下,CRN降噪模型在安静(clean)样本上唤醒率仅下降0.43%,在噪声(nosie)样本上提升0.18%,在实际工作(working)样本上仅下降0.81%。
图2中“/”表示未经过降噪处理的数据结果,“Float Se”为浮点数据,也即未经过量化训练处理的模型进行降噪处理的数据结果,“QAT”表示经过量化训练处理后的模型进行降噪处理的数据结果。
在本发明的一些实施例中,提供了一种降噪处理方法,图3示出了根据本发明实施例的降噪处理方法的流程图,如图3所示,降噪处理方法包括:
步骤302,获取待处理音频;
步骤304,通过目标降噪模型对待处理音频进行降噪处理,得到目标音频。
其中,目标降噪模型为通过上述任一实施例中提供的降噪模型的训练方法训练得到的。
在本发明实施例中,降噪处理方法用于对音频数据进行降噪处理,从而去除音频数据中,不需要的噪声部分。举例来说,对于语音识别场景,用户通过语音向机器人等智能设备下达语音指令,而由于用户所处环境可能复杂,因此用户语音中,往往夹杂了其他噪音,如环境噪音、风噪、机器人等智能设备自身工作时的噪音等。
这些噪音会影响语音识别的成功率,因此需要对原始音频数据进行降噪处理,从而去除噪音影响,得到纯净的音频数据,进而提高语音识别的成功率。
为此,需要部署降噪模型,来对包含用户语音信息的原始音频进行降噪处理。
在相关技术中,为了实现降噪模型的自由部署,需要对其进行量化处理,其中,模型量化技术旨在将降噪模型进行推理时的浮点计算,转化为定点计算,由此能够有效减少模型的体积,降低访存占用并且提高推理速度。
而对模型进行量化训练时,由于量化训练时的初始模型是伪量化模型,其中增加了伪量化节点用于统计数据流的最大值和最小值,因此推理时间会随着伪量化节点的增加而延长。
同时,常用的CRN(Chemical Reactor Network,化学反应器网络)模型中,包含了两层GRU(GatedRecurrent Unit,门控循环单元),GRU算子会逐帧对训练音频进行循环运算,在输入音频有几千帧的情形下,GRU中的每个量化节点都会循环执行几千遍量化-非量化操作,这严重拖慢了量化训练的速度。
针对上述情况,本发明实施例在对原始的预设模型进行量化训练时,将原始的训练集,也即预设音频集中的至少部分用于训练的音频进行拆分处理,得到拆分后的训练音频。
示例性地,可以对预设音频集中的全部音频都进行拆分处理。
示例性地,可以对预设音频集中,音频长度大于预设阈值的音频进行拆分处理,而对音频长度小于或等于预设阈值的音频则不进行拆分处理。
拆分得到的训练音频包含了原始训练集中的音频的全部或大部分信息,同时显著的减少了单一输入的训练数据的音频帧数,因此能够显著缩短训练周期,提高对模型进行量化训练的训练效率。
本发明技术方案可应用于linux/rtos/android/ios等不同边端系统,面向armv7/v8及dsp等不同边端平台提供指令级加速。本发明技术方案具备轻量级部署、通用性强、易用性强、高性能推理等特点,有助于全面解决智能设备低资源瓶颈,能够大幅缩短模型训练周期和部署周期。并且本发明提供的技术方案可以应用于智能芯片中,且可用于赋能智能家电,例如可应用于支持语音、连接、显示三合一的智能芯片中,以赋能语音冰箱、空调、机器人等智能家电量产落地,提智增效。
本发明实施例通过在对降噪模型进行量化训练处理时,将训练用的音频数据进行拆分处理,得到拆分后帧数更少的训练音频,通过帧数更少的训练音频进行量化训练,能够有效缩短量化训练的训练周期,提高训练效率,有利于降噪模型在终端侧的部署。
在一些实施例中,可选地,降噪处理方法还包括:基于目标音频进行语音识别处理,得到目标语音指令;通过目标语音指令控制目标设备工作。
在本发明实施例中,目标设备可以是扫地机器人、拖地机器人等家电设备,也可以是智能音响、手机等智能电子设备。
用户可以通过语音输入来唤醒这些设备,并控制这些设备执行对应的操作。
以目标设备为扫地机器人为例,用户说出预设的唤醒指令,来呼唤扫地机器人响应。用户说出的唤醒指令,被扫地机器人的麦克风接收到,并形成为待处理音频。
扫地机器人通过部署的目标降噪模型,对接收到的待处理音频进行降噪处理,得到干净地、不包含噪音信号的目标音频。
扫地机器人通过语音识别模型,对降噪后的目标音频进行语音识别,从而识别出对应的目标语音指令,也即上述唤醒指令。
在识别到目标语音指令后,扫地机器人执行目标语音指令对应的工作,如清扫目标区域、回站充电或暂停清扫等。
本申请实施例通过量化训练处理的目标降噪模型,对用户的语音指令对应的待处理音频进行降噪处理,由于目标降噪模型经过量化训练处理,因此模型体积更小,有利于部署在不同种类的家电设备上,从而提高语音控制的成功率。
在本发明的一些实施例中,提供了一种降噪模型的训练装置,图4示出了根据本发明实施例的降噪模型的训练装置的结构框图,如图4所示,降噪模型的训练装置400包括:
获取模块402,用于获取预设模型和预设音频集;
拆分模块404,用于对预设音频集中的至少部分音频进行拆分处理,得到训练音频;
训练模块406,用于通过训练音频对预设模型进行量化训练,得到目标降噪模型。
在本发明实施例中,对于智能设备的语音控制等场景,需要通过语音识别算法对用户语音进行识别。而实际场景下,用户语音中往往夹杂了其他噪音,如环境噪音、风噪、机器人等智能设备自身工作时的噪音等。
这些噪音会影响语音识别的成功率,因此需要对原始音频数据进行降噪处理,从而去除噪音影响,得到纯净的音频数据,进而提高语音识别的成功率。
为此,需要部署降噪模型,来对包含用户语音信息的原始音频进行降噪处理。
在相关技术中,为了实现降噪模型的自由部署,需要对其进行量化处理,其中,模型量化技术旨在将降噪模型进行推理时的浮点计算,转化为定点计算,由此能够有效减少模型的体积,降低访存占用并且提高推理速度。
而对模型进行量化训练时,由于量化训练时的初始模型是伪量化模型,其中增加了伪量化节点用于统计数据流的最大值和最小值,因此推理时间会随着伪量化节点的增加而延长。
同时,常用的CRN(Chemical Reactor Network,化学反应器网络)模型中,包含了两层GRU(GatedRecurrent Unit,门控循环单元),GRU算子会逐帧对训练音频进行循环运算,在输入音频有几千帧的情形下,GRU中的每个量化节点都会循环执行几千遍量化-非量化操作,这严重拖慢了量化训练的速度。
针对上述情况,本发明实施例在对原始的预设模型进行量化训练时,将原始的训练集,也即预设音频集中的至少部分用于训练的音频进行拆分处理,得到拆分后的训练音频。
示例性地,可以对预设音频集中的全部音频都进行拆分处理。
示例性地,可以对预设音频集中,音频长度大于预设阈值的音频进行拆分处理,而对音频长度小于或等于预设阈值的音频则不进行拆分处理。
拆分得到的训练音频包含了原始训练集中的音频的全部或大部分信息,同时显著的减少了单一输入的训练数据的音频帧数,因此能够显著缩短训练周期,提高对模型进行量化训练的训练效率。
本发明技术方案可应用于linux/rtos/android/ios等不同边端系统,面向armv7/v8及dsp等不同边端平台提供指令级加速。本发明技术方案具备轻量级部署、通用性强、易用性强、高性能推理等特点,有助于全面解决智能设备低资源瓶颈,能够大幅缩短模型训练周期和部署周期。并且本发明提供的技术方案可以应用于智能芯片中,且可用于赋能智能家电,例如可应用于支持语音、连接、显示三合一的智能芯片中,以赋能语音冰箱、空调、机器人等智能家电量产落地,提智增效。
本发明实施例通过在对降噪模型进行量化训练处理时,将训练用的音频数据进行拆分处理,得到拆分后帧数更少的训练音频,通过帧数更少的训练音频进行量化训练,能够有效缩短量化训练的训练周期,提高训练效率,有利于降噪模型在终端侧的部署。
在一些实施例中,可选地,降噪模型的训练装置还包括:
拆分模块,用于对预设音频集中的第一音频进行随机截取,得到N段长度相等的子音频,其中,N段长度相等的子音频的总长度小于第一音频的长度,N为正整数。
在本发明实施例中,可以对预设音频集中的每段音频均进行随机截取处理,截取出N段固定长度的子音频。
举例来说,一段长度为10秒的音频,在其中随机截取出3段长度为2秒的子音频,这些子音频彼此不重合。通过随机截取的方式来将预设音频中,原始长度的第一音频进行拆分处理,能够加快截取音频的速度,同时有效减小作为训练输入的子音频的长度,提高训练效率。
本申请实施例按照随机截取的方式,对原始的音频进行拆分处理,得到拆分后的短音频数据作为对模型进行量化训练的输入音频,能够有效提高降噪模型量化训练的训练效率。
在一些实施例中,可选地,降噪模型的训练装置还包括:
拆分模块,用于对预设音频集中的第二音频进行等长度拆分,得到M段长度相等的子音频,其中,M段长度相等的子音频的总长度等于第二音频的长度,M为正整数。
在本发明实施例中,可以对预设音频集中的每段音频均固定长度的等距离拆分,拆分得到M段长度均相等的子音频。
举例来说,一段长度为30秒的音频,将其等分为6段长度为5秒的子音频,这6段子音频首尾顺次相接,且彼此不重合。通过等距切分的方式,将预设音频中原始长度的第二音频进行拆分处理,能够最大化保留原始音频数据中的样本信息,实现更好地利用原始样本的完整信息。
本申请实施例按照等距切分的方式,对原始的音频进行拆分处理,得到拆分后的短音频数据作为对模型进行量化训练的输入音频,能够最大化地保留原始样本的样本信息,提高量化训练后降噪模型的性能表现。
在一些实施例中,可选地,降噪模型的训练装置还包括:
拆分模块,用于对预设音频集中满足第一条件的第三音频进行随机截取,得到至少一段子音频,至少一段子音频的长度小于第三音频的长度;对预设音频集中满足第二条件的第四音频进行等长度拆分,得到长度相等的多段子音频,多段子音频的总长度等于第四音频的长度;
其中,第一条件包括:音频长度小于预设长度,或为预设音频集中的音频序列的前P个音频,P为正整数;
第二条件包括:音频长度大于或等于预设长度,或为音频序列中除前P个音频之外的音频。
在该技术方案中,可以对预设音频集中的一部分音频进行随机截取处理,并对预设音频集中的另一部分音频进行等长度拆分处理。
具体地,可以对满足第一条件的第三音频,进行随机截取处理。其中,可以将音频长度较短,具体为音频长度小于预设长度的音频,确定为满足第一条件的第三音频。
能够理解的是,对于音频长度小于预设长度的音频,可以在其中随机截取出该音频的一部分,作为一个子音频,该子音频可以是原始音频的前部、后部或中间部分。
在另一些实施方式中,可以对预设音频集中的一部分音频,具体为前P个音频进行随机截取处理。
示例性地,P个进行随机截取处理的第三音频的数量,可以占预设音频集中音频的总数量的30%至50%,对应的第四音频的数量占预设音频集中音频的总数量的50%至70%。
可以对满足第二条件的第四音频,进行等长度拆分处理。其中,可以将音频长度较长,具体为音频长度大于或等于预设长度的音频,确定为满足第二条件的第四音频。
能够理解的是,对于音频长度大于或等于预设长度的音频,可以对其进行等长度划分,如将一段长度为30秒的音频等分为6段长度为5秒的子音频。
在另一些实施方式中,可以对预设音频集中,进行了随机截取处理的前P个音频之外的其他音频,进行等长度划分处理。
示例性地,P个进行随机截取处理的第三音频的数量,可以占预设音频集中音频的总数量的50%至60%,对应的第四音频的数量占预设音频集中音频的总数量的40%至50%。
本申请实施例对原始音频中的一部分进行等距切分,并对另一部分进行随机截取,能够提高训练音频的多样性,提高量化训练后降噪模型的性能表现。
在一些实施例中,可选地,降噪模型的训练装置还包括:
更新模块,用于每当获取到一个子音频对应的模型输出,均根据一个子音频对应的模型输出对目标降噪模型进行一次反向传播处理,以更新一次目标降噪模型对应的权重信息。
在本发明实施例中,以拆分得到的每一段子音频作为输入,对预设模型进行量化训练。在量化训练的过程中,每当对一段子音频的推理结束后,都会基于当前得到的推理结果进行一次反向传播,从而指导降噪模型更新一次对应的权重信息。
相较于相关技术中的量化训练,一段音频数据只会指导降噪模型进行一次权重信息的更新操作,本发明实施例对原始的音频数据进行拆分,得到拆分后的多个子音频,多个子音频中的每一个在推理结束后都会更新一次模型权重,因此能够更高效地使被训练的降噪模型快速收敛,提高降噪模型量化训练的效率。
在一些实施例中,可选地,降噪模型的训练装置还包括:
生成模块,用于根据子音频生成训练音频。
在本发明实施例中,在对预设音频集中的音频数据进行拆分处理,得到拆分后的多个子音频后,基于拆分得到的子音频,生成用于对预设模型进行量化训练的训练音频。
由于子音频是对长音频数据进行拆分得到的,因此能够有效减少训练时长,同时能够使被训练的模型加速收敛,进而提高降噪模型的量化训练的训练效率。
在一些实施例中,可选地,降噪模型的训练装置还包括:
获取模块,用于获取预设音频;
添加模块,用于在预设音频中添加噪音数据,得到噪声音频;根据噪声音频确定预设音频集。
在本发明实施例中,预设音频具体为安静音频,即不包含噪声数据的音频,示例性地,安静音频内包括不同音色、不同发音习惯的语音信息。
在得到预设音频后,对预设音频进行进一步处理,具体为在其中掺入无规律的噪声数据,得到包含噪声的噪声音频。
通过在大量的安静音频中掺入噪声音频,从而得到数量足够的噪声音频,通过这些噪声音频生成预设音频集作为降噪模型的训练集,降噪模型的作用就是从中过滤出需要被提炼出的声音。
本发明实施例通过在安静音频中掺杂噪声音频,来对降噪模型进行训练,训练后的目标降噪模型能够准确去除用户语音音频中的噪声部分,提高语音识别的准确率。
在本发明的一些实施例中,提供了一种降噪处理装置,图5示出了根据本发明实施例的降噪处理装置的结构框图,如图5所示,降噪处理装置500包括:
获取模块502,用于获取待处理音频;
处理模块504,用于通过目标降噪模型对待处理音频进行降噪处理,得到目标音频。
其中,目标降噪模型为通过上述任一实施例中提供的降噪模型的训练方法训练得到的。
在本发明实施例中,降噪处理装置用于对音频数据进行降噪处理,从而去除音频数据中,不需要的噪声部分。举例来说,对于语音识别场景,用户通过语音向机器人等智能设备下达语音指令,而由于用户所处环境可能复杂,因此用户语音中,往往夹杂了其他噪音,如环境噪音、风噪、机器人等智能设备自身工作时的噪音等。
这些噪音会影响语音识别的成功率,因此需要对原始音频数据进行降噪处理,从而去除噪音影响,得到纯净的音频数据,进而提高语音识别的成功率。
为此,需要部署降噪模型,来对包含用户语音信息的原始音频进行降噪处理。
在相关技术中,为了实现降噪模型的自由部署,需要对其进行量化处理,其中,模型量化技术旨在将降噪模型进行推理时的浮点计算,转化为定点计算,由此能够有效减少模型的体积,降低访存占用并且提高推理速度。
而对模型进行量化训练时,由于量化训练时的初始模型是伪量化模型,其中增加了伪量化节点用于统计数据流的最大值和最小值,因此推理时间会随着伪量化节点的增加而延长。
同时,常用的CRN(Chemical Reactor Network,化学反应器网络)模型中,包含了两层GRU(GatedRecurrent Unit,门控循环单元),GRU算子会逐帧对训练音频进行循环运算,在输入音频有几千帧的情形下,GRU中的每个量化节点都会循环执行几千遍量化-非量化操作,这严重拖慢了量化训练的速度。
针对上述情况,本发明实施例在对原始的预设模型进行量化训练时,将原始的训练集,也即预设音频集中的至少部分用于训练的音频进行拆分处理,得到拆分后的训练音频。
示例性地,可以对预设音频集中的全部音频都进行拆分处理。
示例性地,可以对预设音频集中,音频长度大于预设阈值的音频进行拆分处理,而对音频长度小于或等于预设阈值的音频则不进行拆分处理。
拆分得到的训练音频包含了原始训练集中的音频的全部或大部分信息,同时显著的减少了单一输入的训练数据的音频帧数,因此能够显著缩短训练周期,提高对模型进行量化训练的训练效率。
本发明实施例通过在对降噪模型进行量化训练处理时,将训练用的音频数据进行拆分处理,得到拆分后帧数更少的训练音频,通过帧数更少的训练音频进行量化训练,能够有效缩短量化训练的训练周期,提高训练效率,有利于降噪模型在终端侧的部署。
在一些实施例中,可选地,处理模块还用于基于目标音频进行语音识别处理,得到目标语音指令;
降噪处理装置还包括:
控制模块,用于通过目标语音指令控制目标设备工作。
在本发明实施例中,目标设备可以是扫地机器人、拖地机器人等家电设备,也可以是智能音响、手机等智能电子设备。
用户可以通过语音输入来唤醒这些设备,并控制这些设备执行对应的操作。
以目标设备为扫地机器人为例,用户说出预设的唤醒指令,来呼唤扫地机器人响应。用户说出的唤醒指令,被扫地机器人的麦克风接收到,并形成为待处理音频。
扫地机器人通过部署的目标降噪模型,对接收到的待处理音频进行降噪处理,得到干净地、不包含噪音信号的目标音频。
扫地机器人通过语音识别模型,对降噪后的目标音频进行语音识别,从而识别出对应的目标语音指令,也即上述唤醒指令。
在识别到目标语音指令后,扫地机器人执行目标语音指令对应的工作,如清扫目标区域、回站充电或暂停清扫等。
本申请实施例通过量化训练处理的目标降噪模型,对用户的语音指令对应的待处理音频进行降噪处理,由于目标降噪模型经过量化训练处理,因此模型体积更小,有利于部署在不同种类的家电设备上,从而提高语音控制的成功率。
在本发明的一些实施例中,提供了一种可读存储介质,其上存储有程序或指令,该程序或指令被处理器执行时实现如上述任一实施例中提供的降噪模型的训练方法的步骤,和/或如上述任一技术方案中提供的降噪处理方法的步骤,因此也包含其全部有益效果,为避免重复,在此不再赘述。
在本发明的一些实施例中,提供了一种计算机程序产品,该计算机程序产品被存储在存储介质中,该计算机程序产品被至少一个处理器执行时实现如上述任一实施例中提供的降噪模型的训练方法的步骤,和/或如上述任一技术方案中提供的降噪处理方法的步骤,因此也包含其全部有益效果,为避免重复,在此不再赘述。
在本发明的一些实施例中,提供了一种芯片,该芯片包括处理器和通信接口,该通信接口和该处理器耦合,该处理器用于运行程序或指令,实现如述任一实施例中提供的降噪模型的训练方法的步骤,和/或如上述任一实施例中提供的降噪处理方法的步骤,因此也包含其全部有益效果,为避免重复,在此不再赘述。
在本发明的一些实施例中,提供了一种电子设备,包括如上述任一实施例中提供的降噪处理装置;和/或如上述任一实施例中提供的可读存储介质;和/或如上述任一实施例中提供的计算机程序产品;和/或如上述任一实施例中提供的芯片,因此也包含其全部有益效果,为避免重复,在此不再赘述。
在本发明实施例中,电子设备包括手机、平板电脑、掌上电脑、个人计算机、游戏机、智能网关、可穿戴设备、智能音响和/或车机。
在本发明的一些实施例中,提供了一种机器人,包括如上述任一实施例中提供的降噪处理装置;和/或如上述任一实施例中提供的可读存储介质;和/或如上述任一实施例中提供的计算机程序产品;和/或如上述任一实施例中提供的芯片,因此也包含其全部有益效果,为避免重复,在此不再赘述。
在本发明实施例中,机器人包括扫地机器人、拖地机器人、扫拖一体机器人、服务机器人、巡检机器人和/或安防机器人。
本发明的描述中,术语“多个”则指两个或两个以上,除非另有明确的限定,术语“上”、“下”等指示的方位或位置关系为基于附图所述的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制;术语“连接”、“安装”、“固定”等均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本发明中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (14)
1.一种降噪模型的训练方法,其特征在于,包括:
获取预设模型和预设音频集;
对所述预设音频集中的至少部分音频进行拆分处理,得到训练音频;
通过所述训练音频对所述预设模型进行量化训练,得到目标降噪模型。
2.根据权利要求1所述的降噪模型的训练方法,其特征在于,所述对所述预设音频集中的至少部分音频进行拆分处理,包括:
对所述预设音频集中的第一音频进行随机截取,得到N段长度相等的子音频,其中,所述N段长度相等的子音频的总长度小于所述第一音频的长度,N为正整数。
3.根据权利要求1所述的降噪模型的训练方法,其特征在于,所述对所述预设音频集中的至少部分音频进行拆分处理,包括:
对所述预设音频集中的第二音频进行等长度拆分,得到M段长度相等的子音频,其中,所述M段长度相等的子音频的总长度等于所述第二音频的长度,M为正整数。
4.根据权利要求1所述的降噪模型的训练方法,其特征在于,所述对所述预设音频集中的至少部分音频进行拆分处理,包括:
对所述预设音频集中满足第一条件的第三音频进行随机截取,得到至少一段子音频,所述至少一段子音频的长度小于所述第三音频的长度;
对所述预设音频集中满足第二条件的第四音频进行等长度拆分,得到长度相等的多段子音频,所述多段子音频的总长度等于所述第四音频的长度;
其中,所述第一条件包括:音频长度小于预设长度,或为所述预设音频集中的音频序列的前P个音频,P为正整数;
所述第二条件包括:音频长度大于或等于所述预设长度,或为所述音频序列中除所述前P个音频之外的音频。
5.根据权利要求2至4中任一项所述的降噪模型的训练方法,其特征在于,还包括:
每当获取到一个子音频对应的模型输出,均根据所述一个子音频对应的模型输出对所述目标降噪模型进行一次反向传播处理,以更新一次所述目标降噪模型对应的权重信息。
6.根据权利要求2至4中任一项所述的降噪模型的训练方法,其特征在于,所述得到训练音频,包括:
根据所述子音频生成所述训练音频。
7.根据权利要求1至4中任一项所述的降噪模型的训练方法,其特征在于,在所述对所述预设音频集中的至少部分音频进行拆分处理之前,所述降噪模型的训练方法还包括:
获取预设音频;
在所述预设音频中添加噪音数据,得到噪声音频;
根据所述噪声音频确定所述预设音频集。
8.一种降噪处理方法,其特征在于,包括:
获取待处理音频;
通过目标降噪模型对所述待处理音频进行降噪处理,得到目标音频;
其中,所述目标降噪模型为通过如权利要求1至7中任一项所述的降噪模型的训练方法训练得到的。
9.根据权利要求8所述的降噪处理方法,其特征在于,还包括:
基于所述目标音频进行语音识别处理,得到目标语音指令;
通过所述目标语音指令控制目标设备工作。
10.一种降噪模型的训练装置,其特征在于,包括:
获取模块,用于获取预设模型和预设音频集;
拆分模块,用于对所述预设音频集中的至少部分音频进行拆分处理,得到训练音频;
训练模块,用于通过所述训练音频对所述预设模型进行量化训练,得到目标降噪模型。
11.一种降噪处理装置,其特征在于,包括:
获取模块,用于获取待处理音频;
处理模块,用于通过目标降噪模型对所述待处理音频进行降噪处理,得到目标音频;
其中,所述目标降噪模型为通过如权利要求1至7中任一项所述的降噪模型的训练方法训练得到的。
12.一种可读存储介质,其上存储有程序或指令,其特征在于,所述程序或指令被处理器执行时实现如权利要求1至7中任一项所述的降噪模型的训练方法的步骤;和/或
如权利要求8或9所述的降噪处理方法的步骤。
13.一种计算机程序产品,所述计算机程序产品被存储在存储介质中,其特征在于,所述计算机程序产品被至少一个处理器执行时实现如权利要求1至7中任一项所述的降噪模型的训练方法的步骤;和/或
如权利要求8或9所述的降噪处理方法的步骤。
14.一种芯片,其特征在于,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令以实现如权利要求1至7中任一项所述的降噪模型的训练方法的步骤;和/或
如权利要求8或9所述的降噪处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310905699.5A CN116631427B (zh) | 2023-07-24 | 2023-07-24 | 降噪模型的训练方法、降噪处理方法、装置及芯片 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310905699.5A CN116631427B (zh) | 2023-07-24 | 2023-07-24 | 降噪模型的训练方法、降噪处理方法、装置及芯片 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116631427A true CN116631427A (zh) | 2023-08-22 |
CN116631427B CN116631427B (zh) | 2023-09-29 |
Family
ID=87636929
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310905699.5A Active CN116631427B (zh) | 2023-07-24 | 2023-07-24 | 降噪模型的训练方法、降噪处理方法、装置及芯片 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116631427B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090094027A1 (en) * | 2007-10-04 | 2009-04-09 | Nokia Corporation | Method, Apparatus and Computer Program Product for Providing Improved Voice Conversion |
CN108461085A (zh) * | 2018-03-13 | 2018-08-28 | 南京邮电大学 | 一种短时语音条件下的说话人识别方法 |
CN109378013A (zh) * | 2018-11-19 | 2019-02-22 | 南瑞集团有限公司 | 一种语音降噪方法 |
CN111210810A (zh) * | 2019-12-17 | 2020-05-29 | 秒针信息技术有限公司 | 模型训练方法和装置 |
CN112397057A (zh) * | 2020-12-01 | 2021-02-23 | 平安科技(深圳)有限公司 | 基于生成对抗网络的语音处理方法、装置、设备及介质 |
CN113707134A (zh) * | 2021-08-17 | 2021-11-26 | 北京搜狗科技发展有限公司 | 一种模型训练方法、装置和用于模型训练的装置 |
CN115240701A (zh) * | 2022-07-13 | 2022-10-25 | 北京小米移动软件有限公司 | 降噪模型的训练方法、语音降噪方法、装置和电子设备 |
CN115312033A (zh) * | 2022-07-12 | 2022-11-08 | 平安科技(深圳)有限公司 | 基于人工智能的语音情感识别方法、装置、设备及介质 |
CN115376535A (zh) * | 2021-05-17 | 2022-11-22 | 上海华镇电子科技有限公司 | 适用不同噪音环境的语音降噪方法和系统、设备、介质 |
US11551668B1 (en) * | 2020-12-30 | 2023-01-10 | Meta Platforms, Inc. | Generating representations of speech signals using self-supervised learning |
CN115617955A (zh) * | 2022-12-14 | 2023-01-17 | 数据堂(北京)科技股份有限公司 | 分级预测模型训练方法、标点符号恢复方法及装置 |
CN115798460A (zh) * | 2022-12-08 | 2023-03-14 | 思必驰科技股份有限公司 | 长语音识别模型训练方法及电子设备和存储介质 |
CN116259328A (zh) * | 2023-02-24 | 2023-06-13 | 思必驰科技股份有限公司 | 用于音频降噪的后训练量化方法、装置和存储介质 |
-
2023
- 2023-07-24 CN CN202310905699.5A patent/CN116631427B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090094027A1 (en) * | 2007-10-04 | 2009-04-09 | Nokia Corporation | Method, Apparatus and Computer Program Product for Providing Improved Voice Conversion |
CN108461085A (zh) * | 2018-03-13 | 2018-08-28 | 南京邮电大学 | 一种短时语音条件下的说话人识别方法 |
CN109378013A (zh) * | 2018-11-19 | 2019-02-22 | 南瑞集团有限公司 | 一种语音降噪方法 |
CN111210810A (zh) * | 2019-12-17 | 2020-05-29 | 秒针信息技术有限公司 | 模型训练方法和装置 |
CN112397057A (zh) * | 2020-12-01 | 2021-02-23 | 平安科技(深圳)有限公司 | 基于生成对抗网络的语音处理方法、装置、设备及介质 |
US11551668B1 (en) * | 2020-12-30 | 2023-01-10 | Meta Platforms, Inc. | Generating representations of speech signals using self-supervised learning |
CN115376535A (zh) * | 2021-05-17 | 2022-11-22 | 上海华镇电子科技有限公司 | 适用不同噪音环境的语音降噪方法和系统、设备、介质 |
CN113707134A (zh) * | 2021-08-17 | 2021-11-26 | 北京搜狗科技发展有限公司 | 一种模型训练方法、装置和用于模型训练的装置 |
CN115312033A (zh) * | 2022-07-12 | 2022-11-08 | 平安科技(深圳)有限公司 | 基于人工智能的语音情感识别方法、装置、设备及介质 |
CN115240701A (zh) * | 2022-07-13 | 2022-10-25 | 北京小米移动软件有限公司 | 降噪模型的训练方法、语音降噪方法、装置和电子设备 |
CN115798460A (zh) * | 2022-12-08 | 2023-03-14 | 思必驰科技股份有限公司 | 长语音识别模型训练方法及电子设备和存储介质 |
CN115617955A (zh) * | 2022-12-14 | 2023-01-17 | 数据堂(北京)科技股份有限公司 | 分级预测模型训练方法、标点符号恢复方法及装置 |
CN116259328A (zh) * | 2023-02-24 | 2023-06-13 | 思必驰科技股份有限公司 | 用于音频降噪的后训练量化方法、装置和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116631427B (zh) | 2023-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105009204B (zh) | 语音识别功率管理 | |
US6988064B2 (en) | System and method for combined frequency-domain and time-domain pitch extraction for speech signals | |
EP3432301B1 (en) | Low power detection of an activation phrase | |
US7529671B2 (en) | Block synchronous decoding | |
CN109461456B (zh) | 一种提升语音唤醒成功率的方法 | |
Abdel-Hamid et al. | Rapid and effective speaker adaptation of convolutional neural network based models for speech recognition. | |
CN107767861A (zh) | 语音唤醒方法、系统及智能终端 | |
EP1897085A2 (en) | System and method for adaptive transmission of comfort noise parameters during discontinuous speech transmission | |
JP2014142627A (ja) | 音声識別方法および装置 | |
CN109559734B (zh) | 声学模型训练的加速方法和装置 | |
EP1525577B1 (en) | Method for automatic speech recognition | |
JP2002268675A (ja) | 音声認識装置 | |
CN105988581A (zh) | 一种语音输入方法及装置 | |
CN111429926B (zh) | 一种优化音频编码速度的方法和装置 | |
CN110287303B (zh) | 人机对话处理方法、装置、电子设备及存储介质 | |
US20200051580A1 (en) | Method and apparatus for sound processing | |
US9293131B2 (en) | Voice activity segmentation device, voice activity segmentation method, and voice activity segmentation program | |
KR20170046291A (ko) | 전자 기기, 그의 음향 모델 적응 방법 및 음성 인식 시스템 | |
CN116631427B (zh) | 降噪模型的训练方法、降噪处理方法、装置及芯片 | |
CN110517677B (zh) | 语音处理系统、方法、设备、语音识别系统及存储介质 | |
CN114360510A (zh) | 一种语音识别方法和相关装置 | |
US6233557B1 (en) | Method of selectively assigning a penalty to a probability associated with a voice recognition system | |
CN103716467A (zh) | 一种手机系统参数的调整方法及系统 | |
Schmitt et al. | Speech recognition for mobile devices | |
KR100764247B1 (ko) | 2단계 탐색을 이용한 음성인식 장치 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |