CN111354374A - 语音处理方法、模型训练方法及电子设备 - Google Patents
语音处理方法、模型训练方法及电子设备 Download PDFInfo
- Publication number
- CN111354374A CN111354374A CN202010174740.2A CN202010174740A CN111354374A CN 111354374 A CN111354374 A CN 111354374A CN 202010174740 A CN202010174740 A CN 202010174740A CN 111354374 A CN111354374 A CN 111354374A
- Authority
- CN
- China
- Prior art keywords
- voice
- speech
- processed
- network model
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000003672 processing method Methods 0.000 title claims abstract description 21
- 230000015654 memory Effects 0.000 claims description 17
- 230000000694 effects Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 6
- 238000003062 neural network model Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供一种语音处理方法、模型训练方法及电子设备,所述语音处理方法包括:获取预先训练的生成对抗网络模型,所述生成对抗网络模型基于采集的包含噪声信号的语音训练得到;将待处理语音输入所述生成对抗网络模型中的生成器,以对所述待处理语音添加噪声信号,得到目标语音。本发明实施例能够提高采用语音样本进行模型训练后模型参数的准确性。
Description
技术领域
本发明涉及语音处理技术领域,尤其涉及一种语音处理方法、模型训练方法及电子设备。
背景技术
在语音处理过程中,需要使用大量的语音样本对模型的参数进行训练,语音样本可以从历史记录的语音数据中获得,或者,还可以有针对性地录制语音数据作为语音样本。例如,在语音唤醒的应用场景中,需要使用唤醒词的语音样本对唤醒模型的参数进行训练。为提高模型的参数的准确性,通常对语音样本添加背景噪声,以模拟真实语音效果。
目前,通常将噪声信号直接叠加到语音样本中。然而,直接叠加噪声信号模拟真实语音的效果较差,导致采用叠加噪声信号的语音样本进行模型训练后,模型的参数的准确性较低。
发明内容
本发明实施例提供一种语音处理方法、模型训练方法及电子设备,以解决现有技术中采用叠加噪声信号的语音样本进行模型训练后,模型的参数的准确性较低的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种语音处理方法,所述方法包括:
获取预先训练的生成对抗网络模型,所述生成对抗网络模型基于采集的包含噪声信号的语音训练得到;
将待处理语音输入所述生成对抗网络模型中的生成器,以对所述待处理语音添加噪声信号,得到目标语音。
第二方面,本发明实施例提供了一种模型训练方法,所述方法包括:
采用第一方面所述的语音处理方法对语音样本进行处理;
基于处理后的语音样本进行模型训练。
第三方面,本发明实施例提供了一种电子设备,所述电子设备包括:
获取模块,用于获取预先训练的生成对抗网络模型,所述生成对抗网络模型基于采集的包含噪声信号的语音训练得到;
输入模块,用于将待处理语音输入所述生成对抗网络模型中的生成器,以对所述待处理语音添加噪声信号,得到目标语音。
第四方面,本发明实施例提供了一种电子设备,所述电子设备包括:
处理模块,用于采用第一方面所述的语音处理方法对语音样本进行处理;
训练模块,用于基于处理后的语音样本进行模型训练。
第五方面,本发明实施例提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如第一方面所述的语音处理方法中的步骤,或者,所述程序被所述处理器执行时实现如第二方面所述的模型训练方法中的步骤。
第六方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的语音处理方法中的步骤,或者,所述计算机程序被处理器执行时实现如第二方面所述的模型训练方法中的步骤。
本发明实施例中,获取预先训练的生成对抗网络模型,所述生成对抗网络模型基于采集的包含噪声信号的语音训练得到;将待处理语音输入所述生成对抗网络模型中的生成器,以对所述待处理语音添加噪声信号,得到目标语音。这样,通过生成对抗网络模型对所述待处理语音添加噪声信号,添加噪声信号后的语音模拟真实语音的效果较好,从而采用添加噪声信号后的语音进行模型训练,能够提高模型的参数的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种语音处理方法的流程图;
图2是本发明实施例提供的一种生成对抗网络模型的结构示意图之一;
图3是本发明实施例提供的一种生成对抗网络模型的结构示意图之二;
图4是本发明实施例提供的一种电子设备的结构示意图之一;
图5是本发明实施例提供的一种电子设备的结构示意图之二;
图6是本发明实施例提供的一种电子设备的结构示意图之三。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中,电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载移动终端、可穿戴设备、以及计步器等。
参见图1,图1是本发明实施例提供的一种语音处理方法的流程图,如图1所示,包括以下步骤:
步骤101、获取预先训练的生成对抗网络模型,所述生成对抗网络模型基于采集的包含噪声信号的语音训练得到。
其中,如图2所示,生成对抗网络模型(GAN,Generative Adversarial Networks)的结构可以包括一个生成器G(Generator)和一个判别器D(Discriminator)。生成器和判别器可以由包含卷积和/或全连接层的多层网络构成。生成器尽可能生成逼真样本,判别器尽可能去判别输入的样本是真实样本,还是生成器生成的逼真样本。在训练所述生成对抗网络模型的过程中,所述生成对抗网络模型中的判别器的第一输入为所述采集的包含噪声信号的语音,所述判别器的第二输入为所述生成器的输出。
另外,所述采集的包含噪声信号的语音可以是采集的真实环境下的语音,例如,可以是在公交车环境下采集的语音,或者,可以是在马路环境下采集的语音,或者,还可以是在会议室环境下采集的语音等等。本发明实施例对此不进行限定。
在实际应用中,如图3所示,生成器可以采用Bi-LSTM模型,生成器的输入xn输入生成器的Bi-LSTM模型后,可以得到生成器的输出yfake。判别器可以采用Bi-LSTM模型,可以将生成器的输出yfake与真实样本yreal分别输入判别器的Bi-LSTM模型,对判别器进行训练。判别器的输出可以为0或1,1可以表示为真实样本,0可以表示为生成器生成的逼真样本,采用Bi-LSTM模型能缓解梯度消失问题。生成器的输入可以为时间上的序列,在生成器的输入序列中,每个元素可以代表每一帧语音。在输入序列中代表每帧语音的元素可以由当前时刻唤醒词对应的语音的频域特征以及噪声的频域特征级联构成。生成器的输出可以依然是时间上的序列,在生成器的输出序列中,代表每帧语音的元素可以为对所述唤醒词对应的语音添加噪声信号后的语音的频域特征。判别器可以用于对输入的连续帧语音的频域特征进行分类,辨别输入的频域特征是生成器生成的yfake的频域特征还是真实样本通过傅里叶变换转换而来的频域特征。
进一步的,在训练所述生成对抗网络模型的过程中,可以交替地训练生成器和判别器,实现生成对抗网络模型中生成器和判别器之间的对抗。例如,可以将生成器生成的语音标记为0,作为生成器生成的逼真样本,将采集的包含噪声信号的语音标记为1,作为真实样本,逼真样本和真实样本的数据比例可以为1:1。可以采用逼真样本和真实样本对判别器进行训练,得到更准确的判别器。训练判别器后,可以采用判别器辨别的结果反向训练生成器。可以将生成器生成的语音标记为1,将判别器辨别的结果与标记值之间的差值作为新的目标函数,反向传播给生成器以训练生成器的参数。训练过程中,当判别器的辨别结果的变化值较小时,可以认为达到生成对抗的平衡,此时,生成器生成的逼真样本较为接近真实样本。
步骤102、将待处理语音输入所述生成对抗网络模型中的生成器,以对所述待处理语音添加噪声信号,得到目标语音。
其中,将待处理语音输入所述生成对抗网络模型中的生成器,生成的目标语音接近所述采集的包含噪声信号的语音,可以对所述待处理语音添加噪声信号。所述待处理语音可以为预设文本对应的语音,所述目标语音可以为对所述预设文本对应的语音添加噪声信号后的语音。例如,所述待处理语音可以为唤醒词对应的语音,所述目标语音可以为对所述唤醒词对应的语音添加噪声信号后的语音;或者,所述待处理语音可以为控制指令对应的语音,所述目标语音可以为对所述控制指令对应的语音添加噪声信号后的语音,等等。
另外,可以将待处理语音的声学特征输入所述生成对抗网络模型中的生成器,以对所述待处理语音添加噪声信号,得到目标语音的声学特征;或者,可以将所述待处理语音的频域特征信息输入所述生成对抗网络模型中的生成器,以对所述待处理语音添加噪声信号,得到目标语音的频域特征信息;或者,可以获取语音特征信息,所述语音特征信息包括所述待处理语音的第i帧信号的频域特征信息及噪声信号的第j帧信号的频域特征信息,i大于0,j大于0,可以将所述语音特征信息输入所述生成对抗网络模型中的生成器,以对所述待处理语音添加噪声信号,得到目标语音的第i帧信号的频域特征信息。本发明实施例对此不进行限定。
进一步的,所述生成对抗网络模型中的生成器可以为神经网络模型,所述生成对抗网络模型中的判别器可以为神经网络模型。为更好地处理序列化数据,所述生成对抗网络模型中的生成器可以为RNN(Recurrent Neural Network,循环神经网络)模型,所述生成对抗网络模型中的判别器可以为RNN模型。
本发明实施例中,获取预先训练的生成对抗网络模型,所述生成对抗网络模型基于采集的包含噪声信号的语音训练得到;将待处理语音输入所述生成对抗网络模型中的生成器,以对所述待处理语音添加噪声信号,得到目标语音。这样,通过生成对抗网络模型对所述待处理语音添加噪声信号,添加噪声信号后的语音模拟真实语音的效果较好,从而采用添加噪声信号后的语音进行模型训练,能够提高模型的参数的准确性。
可选的,所述待处理语音为唤醒词对应的语音,所述目标语音为对所述唤醒词对应的语音添加噪声信号后的语音。
其中,唤醒词对应的语音通常背景较为纯净,包含的噪声信号较小或者不包含噪声信号。唤醒词对应的语音可以是在较为安静的环境下录制的语音。采用唤醒词对应的语音对唤醒模型进行训练,训练得到的唤醒模型的唤醒效果较差。如果将白噪声或其他背景噪声直接叠加到唤醒词对应的语音,是在唤醒词对应的语音上线性地叠加噪声信号,模拟真实语音的效果较差,训练得到的唤醒模型的唤醒效果较差。
该实施方式中,所述待处理语音为唤醒词对应的语音,所述目标语音为对所述唤醒词对应的语音添加噪声信号后的语音,这样,通过生成对抗网络模型对所述待处理语音添加噪声信号,添加噪声信号后的语音模拟真实语音的效果较好,从而采用添加噪声信号后的语音对唤醒模型进行模型训练,能够提高唤醒模型的参数的准确性。
可选的,所述将待处理语音输入所述生成对抗网络模型中的生成器,以对所述待处理语音添加噪声信号,得到目标语音,包括:
获取语音特征信息,所述语音特征信息包括所述待处理语音的第i帧信号的频域特征信息及噪声信号的第j帧信号的频域特征信息,i大于0,j大于0;
将所述语音特征信息输入所述生成对抗网络模型中的生成器,以对所述待处理语音添加噪声信号,得到目标语音的第i帧信号的频域特征信息。
其中,所述语音特征信息可以为语音信号在时间上的序列。所述待处理语音的第i帧信号的频域特征信息可以为所述待处理语音的第i帧信号经过傅里叶变换后得到的第一特征向量,所述噪声信号的第j帧信号的频域特征信息可以为所述噪声信号的第j帧信号经过傅里叶变换后得到的第二特征向量。所述语音特征信息可以包括所述第一特征向量和所述第二特征向量,例如,所述第一特征向量可以为a1,所述第二特征向量可以为a2,所述语音特征信息可以为(a1,a2)。对所述目标语音的第i帧信号的频域特征信息进行反向傅里叶变换后可以得到目标语音的第i帧信号。
该实施方式中,获取语音特征信息,所述语音特征信息包括所述待处理语音的第i帧信号的频域特征信息及噪声信号的第j帧信号的频域特征信息,i大于0,j大于0;将所述语音特征信息输入所述生成对抗网络模型中的生成器,以对所述待处理语音添加噪声信号,得到目标语音的第i帧信号的频域特征信息。这样,可以将噪声信号以非线性的方式添加到待处理语音中,模拟真实语音的效果较好,从而采用添加噪声信号后的语音进行模型训练,能够提高模型的参数的准确性。
可选的,所述生成对抗网络模型中的生成器为双向长短期记忆Bi-LSTM模型,和/或,所述生成对抗网络模型中的判别器为Bi-LSTM模型。
其中,所述生成对抗网络模型中的生成器可以为Bi-LSTM(Bi-Long Short-TermMemory,双向长短期记忆)模型,所述生成对抗网络模型中的判别器可以为Bi-LSTM模型或者RNN模型,或者其他神经网络模型;或者,所述生成对抗网络模型中的判别器可以为Bi-LSTM模型,所述生成对抗网络模型中的生成器可以为Bi-LSTM模型或者RNN模型,或者其他神经网络模型;或者,所述生成对抗网络模型中的生成器为Bi-LSTM模型,所述生成对抗网络模型中的判别器为Bi-LSTM模型。
该实施方式中,所述生成对抗网络模型中的生成器为双向长短期记忆Bi-LSTM模型,和/或,所述生成对抗网络模型中的判别器为Bi-LSTM模型。这样,采用Bi-LSTM模型能够缓解神经网络中梯度消失的问题,提高生成对抗网络模型的准确性。
本发明实施例还提供一种语音处理方法,所述方法包括:
采用本发明实施例提供的语音处理方法对语音样本进行处理;
基于处理后的语音样本进行模型训练。
其中,可以获取预先训练的生成对抗网络模型,所述生成对抗网络模型基于采集的包含噪声信号的语音训练得到;可以将语音样本输入所述生成对抗网络模型中的生成器,以对所述语音样本添加噪声信号,得到处理后的语音样本;可以基于处理后的语音样本进行模型训练。所述语音样本可以包括录制的语音,或者,可以包括从各种语音库中搜集的语音等等。可以对唤醒模型进行模型训练,或者可以对任意其他模型进行模型训练,本发明实施例对此不进行限定。
本发明实施例中,采用图1中提供的语音处理方法对语音样本进行处理;基于处理后的语音样本进行模型训练。这样,添加噪声信号后的语音模拟真实语音的效果较好,从而采用添加噪声信号后的语音进行模型训练,能够提高模型的参数的准确性。
参见图4,图4是本发明实施例提供的一种电子设备的结构示意图之一,如图4所示,电子设备200包括:
获取模块201,用于获取预先训练的生成对抗网络模型,所述生成对抗网络模型基于采集的包含噪声信号的语音训练得到;
输入模块202,用于将待处理语音输入所述生成对抗网络模型中的生成器,以对所述待处理语音添加噪声信号,得到目标语音。
可选的,所述待处理语音为唤醒词对应的语音,所述目标语音为对所述唤醒词对应的语音添加噪声信号后的语音。
可选的,所述输入模块202具体用于:
获取语音特征信息,所述语音特征信息包括所述待处理语音的第i帧信号的频域特征信息及噪声信号的第j帧信号的频域特征信息,i大于0,j大于0;
将所述语音特征信息输入所述生成对抗网络模型中的生成器,以对所述待处理语音添加噪声信号,得到目标语音的第i帧信号的频域特征信息。
可选的,所述生成对抗网络模型中的生成器为双向长短期记忆Bi-LSTM模型,和/或,所述生成对抗网络模型中的判别器为Bi-LSTM模型。
电子设备能够实现图1的方法实施例中实现的各个过程,为避免重复,这里不再赘述。
参见图5,图5是本发明实施例提供的一种电子设备的结构示意图之二,如图5所示,电子设备300包括:
处理模块301,用于采用本发明实施例提供的语音处理方法对语音样本进行处理;
训练模块302,用于基于处理后的语音样本进行模型训练。
请参见图6,图6是本发明实施例提供的一种电子设备的结构示意图之三,如图6所示,电子设备400包括:存储器402、处理器401及存储在所述存储器402上并可在所述处理器401上运行的程序,其中:
所述处理器401读取存储器402中的程序,用于执行:
获取预先训练的生成对抗网络模型,所述生成对抗网络模型基于采集的包含噪声信号的语音训练得到;
将待处理语音输入所述生成对抗网络模型中的生成器,以对所述待处理语音添加噪声信号,得到目标语音。
可选的,所述待处理语音为唤醒词对应的语音,所述目标语音为对所述唤醒词对应的语音添加噪声信号后的语音。
可选的,所述处理器401执行的所述将待处理语音输入所述生成对抗网络模型中的生成器,以对所述待处理语音添加噪声信号,得到目标语音,包括:
获取语音特征信息,所述语音特征信息包括所述待处理语音的第i帧信号的频域特征信息及噪声信号的第j帧信号的频域特征信息,i大于0,j大于0;
将所述语音特征信息输入所述生成对抗网络模型中的生成器,以对所述待处理语音添加噪声信号,得到目标语音的第i帧信号的频域特征信息。
可选的,所述生成对抗网络模型中的生成器为双向长短期记忆Bi-LSTM模型,和/或,所述生成对抗网络模型中的判别器为Bi-LSTM模型。
或者,所述处理器401读取存储器402中的程序,用于执行:
采用本发明实施例提供的语音处理方法对语音样本进行处理;
基于处理后的语音样本进行模型训练。
在图6中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器401代表的一个或多个处理器和存储器402代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。
处理器401负责管理总线架构和通常的处理,存储器402可以存储处理器401在执行操作时所使用的数据。
需要说明的是,本发明实施例方法实施例中的任意实施方式都可以被本实施例中的上述电子设备所实现,以及达到相同的有益效果,此处不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述语音处理方法实施例的各个过程,或者,该计算机程序被处理器执行时实现上述模型训练方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
Claims (11)
1.一种语音处理方法,其特征在于,所述方法包括:
获取预先训练的生成对抗网络模型,所述生成对抗网络模型基于采集的包含噪声信号的语音训练得到;
将待处理语音输入所述生成对抗网络模型中的生成器,以对所述待处理语音添加噪声信号,得到目标语音。
2.根据权利要求1所述的方法,其特征在于,所述待处理语音为唤醒词对应的语音,所述目标语音为对所述唤醒词对应的语音添加噪声信号后的语音。
3.根据权利要求1所述的方法,其特征在于,所述将待处理语音输入所述生成对抗网络模型中的生成器,以对所述待处理语音添加噪声信号,得到目标语音,包括:
获取语音特征信息,所述语音特征信息包括所述待处理语音的第i帧信号的频域特征信息及噪声信号的第j帧信号的频域特征信息,i大于0,j大于0;
将所述语音特征信息输入所述生成对抗网络模型中的生成器,以对所述待处理语音添加噪声信号,得到目标语音的第i帧信号的频域特征信息。
4.根据权利要求1所述的方法,其特征在于,所述生成对抗网络模型中的生成器为双向长短期记忆Bi-LSTM模型,和/或,所述生成对抗网络模型中的判别器为Bi-LSTM模型。
5.一种模型训练方法,其特征在于,所述方法包括:
采用权利要求1-4中任一项所述的语音处理方法对语音样本进行处理;
基于处理后的语音样本进行模型训练。
6.一种电子设备,其特征在于,所述电子设备包括:
获取模块,用于获取预先训练的生成对抗网络模型,所述生成对抗网络模型基于采集的包含噪声信号的语音训练得到;
输入模块,用于将待处理语音输入所述生成对抗网络模型中的生成器,以对所述待处理语音添加噪声信号,得到目标语音。
7.根据权利要求6所述的电子设备,其特征在于,所述待处理语音为唤醒词对应的语音,所述目标语音为对所述唤醒词对应的语音添加噪声信号后的语音。
8.根据权利要求6所述的电子设备,其特征在于,所述输入模块具体用于:
获取语音特征信息,所述语音特征信息包括所述待处理语音的第i帧信号的频域特征信息及噪声信号的第j帧信号的频域特征信息,i大于0,j大于0;
将所述语音特征信息输入所述生成对抗网络模型中的生成器,以对所述待处理语音添加噪声信号,得到目标语音的第i帧信号的频域特征信息。
9.根据权利要求6所述的电子设备,其特征在于,所述生成对抗网络模型中的生成器为双向长短期记忆Bi-LSTM模型,和/或,所述生成对抗网络模型中的判别器为Bi-LSTM模型。
10.一种电子设备,其特征在于,所述电子设备包括:
处理模块,用于采用权利要求1-4中任一项所述的语音处理方法对语音样本进行处理;
训练模块,用于基于处理后的语音样本进行模型训练。
11.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如权利要求1至4中任一项所述的语音处理方法中的步骤,或者,所述程序被所述处理器执行时实现如权利要求5所述的模型训练方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010174740.2A CN111354374A (zh) | 2020-03-13 | 2020-03-13 | 语音处理方法、模型训练方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010174740.2A CN111354374A (zh) | 2020-03-13 | 2020-03-13 | 语音处理方法、模型训练方法及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111354374A true CN111354374A (zh) | 2020-06-30 |
Family
ID=71196179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010174740.2A Pending CN111354374A (zh) | 2020-03-13 | 2020-03-13 | 语音处理方法、模型训练方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111354374A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111986659A (zh) * | 2020-07-16 | 2020-11-24 | 百度在线网络技术(北京)有限公司 | 建立音频生成模型的方法以及装置 |
CN112735425A (zh) * | 2020-12-24 | 2021-04-30 | 交控科技股份有限公司 | 轨旁设备巡检报文生成方法及系统 |
CN115240708A (zh) * | 2021-09-30 | 2022-10-25 | 达闼科技(北京)有限公司 | 模型训练方法、装置、电子设备和计算机可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102043168A (zh) * | 2010-10-15 | 2011-05-04 | 中国石油化工股份有限公司 | 一种对数字信号进行仿真加噪的处理方法 |
CN105355198A (zh) * | 2015-10-20 | 2016-02-24 | 河海大学 | 一种基于多重自适应的模型补偿语音识别方法 |
CN105448303A (zh) * | 2015-11-27 | 2016-03-30 | 百度在线网络技术(北京)有限公司 | 语音信号的处理方法和装置 |
CN108922518A (zh) * | 2018-07-18 | 2018-11-30 | 苏州思必驰信息科技有限公司 | 语音数据扩增方法和系统 |
US20190043482A1 (en) * | 2017-08-01 | 2019-02-07 | Baidu Online Network Technology (Beijing) Co., Ltd. | Far field speech acoustic model training method and system |
CN110390950A (zh) * | 2019-08-17 | 2019-10-29 | 杭州派尼澳电子科技有限公司 | 一种基于生成对抗网络的端到端语音增强方法 |
-
2020
- 2020-03-13 CN CN202010174740.2A patent/CN111354374A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102043168A (zh) * | 2010-10-15 | 2011-05-04 | 中国石油化工股份有限公司 | 一种对数字信号进行仿真加噪的处理方法 |
CN105355198A (zh) * | 2015-10-20 | 2016-02-24 | 河海大学 | 一种基于多重自适应的模型补偿语音识别方法 |
CN105448303A (zh) * | 2015-11-27 | 2016-03-30 | 百度在线网络技术(北京)有限公司 | 语音信号的处理方法和装置 |
US20190043482A1 (en) * | 2017-08-01 | 2019-02-07 | Baidu Online Network Technology (Beijing) Co., Ltd. | Far field speech acoustic model training method and system |
CN108922518A (zh) * | 2018-07-18 | 2018-11-30 | 苏州思必驰信息科技有限公司 | 语音数据扩增方法和系统 |
CN110390950A (zh) * | 2019-08-17 | 2019-10-29 | 杭州派尼澳电子科技有限公司 | 一种基于生成对抗网络的端到端语音增强方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111986659A (zh) * | 2020-07-16 | 2020-11-24 | 百度在线网络技术(北京)有限公司 | 建立音频生成模型的方法以及装置 |
CN111986659B (zh) * | 2020-07-16 | 2024-08-06 | 百度在线网络技术(北京)有限公司 | 建立音频生成模型的方法以及装置 |
CN112735425A (zh) * | 2020-12-24 | 2021-04-30 | 交控科技股份有限公司 | 轨旁设备巡检报文生成方法及系统 |
CN115240708A (zh) * | 2021-09-30 | 2022-10-25 | 达闼科技(北京)有限公司 | 模型训练方法、装置、电子设备和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
CN108630190B (zh) | 用于生成语音合成模型的方法和装置 | |
CN112489677B (zh) | 基于神经网络的语音端点检测方法、装置、设备及介质 | |
CN108197652B (zh) | 用于生成信息的方法和装置 | |
CN111354374A (zh) | 语音处理方法、模型训练方法及电子设备 | |
CN113792871B (zh) | 神经网络训练方法、目标识别方法、装置和电子设备 | |
CN111357051B (zh) | 语音情感识别方法、智能装置和计算机可读存储介质 | |
CN111292768B (zh) | 丢包隐藏的方法、装置、存储介质和计算机设备 | |
CN106682387A (zh) | 用于输出信息的方法和装置 | |
CN113205820B (zh) | 一种用于声音事件检测的声音编码器的生成方法 | |
CN112750461B (zh) | 语音通信优化方法、装置、电子设备及可读存储介质 | |
CN113449840A (zh) | 神经网络训练方法及装置、图像分类的方法及装置 | |
CN111222327A (zh) | 一种词嵌入表示方法、装置及设备 | |
CN112989843B (zh) | 意图识别方法、装置、计算设备及存储介质 | |
CN114579718A (zh) | 结合rpa和ai的文本特征生成方法、装置、设备及存储介质 | |
CN117253287A (zh) | 基于域泛化的动作预测模型训练方法、相关方法及产品 | |
CN111767720B (zh) | 一种标题生成方法、计算机及可读存储介质 | |
CN112749557A (zh) | 文本处理模型的构建方法和文本处理方法 | |
CN116612745A (zh) | 一种语音情感识别方法、装置、设备及其存储介质 | |
CN111090740A (zh) | 一种用于对话系统的知识图谱生成方法 | |
CN111276132A (zh) | 一种语音处理方法、电子设备及计算机可读存储介质 | |
CN109002498B (zh) | 人机对话方法、装置、设备及存储介质 | |
CN116957006A (zh) | 预测模型的训练方法、装置、设备、介质及程序产品 | |
CN116362301A (zh) | 一种模型的量化方法以及相关设备 | |
CN113761837B (zh) | 实体关系类型确定方法、装置和设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |