CN113096673B - 基于生成对抗网络的语音处理方法及系统 - Google Patents
基于生成对抗网络的语音处理方法及系统 Download PDFInfo
- Publication number
- CN113096673B CN113096673B CN202110341574.5A CN202110341574A CN113096673B CN 113096673 B CN113096673 B CN 113096673B CN 202110341574 A CN202110341574 A CN 202110341574A CN 113096673 B CN113096673 B CN 113096673B
- Authority
- CN
- China
- Prior art keywords
- speech
- discriminator
- data
- generator
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000009826 distribution Methods 0.000 claims abstract description 7
- 238000004590 computer program Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 11
- 230000004913 activation Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明属于语音处理领域,提供了一种基于生成对抗网络的语音处理方法及系统。其中,该方法包括获取源语音,并输入至编码器对源语音进行编码;将编码后的语音信号输入至生成对抗网络模型,最后输出与源语音相匹配的恢复的语音;其中,生成对抗网络模型包括生成器和鉴别器,训练集由编码前的源语音和编码后质量下降的语音构成;生成器用于恢复编码后质量下降的语音;鉴别器用于比对恢复后的语音与编码前的源语音以区分真信号与假信号,再由鉴别器将区分结果反馈给生成器,以指导生成器学习源语音的真实分布的输出。解决了语音编码器生成的语音质量较低的问题,并且具有更高的泛化性,对多种ITU标准下的编码器生成的编解码后的语音都有效。
Description
技术领域
本发明属于语音处理领域,尤其涉及一种基于生成对抗网络的语音处理方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
语音编解码技术对通讯、军事等行业有着重要的意义,它可以将大量的语音信息通过编码技术进行压缩,从而进行传输,再通过解码进行语音的复原,从而降低语音信号的传输带宽,提高系统容量。但是,随着语音编码速率的下降,合成语音的质量会有一定程度的降低,影响人的主观听觉感受。
目前语音编码算法都趋向于低速率编码,然而,更低的速率代表着更高的压缩率,压缩率更高意味着解码时难度就越大,所以会导致解码后的语音质量下降。目前,发明人发现,已有的改善语音编码器生成语音质量的方法大都为对语音编码器本身算法进行优化,但是因为优化语音编码器算法难度较高,并不能很好的兼顾低传输速率与解码后语音的质量。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供一种基于生成对抗网络的语音处理方法及系统,其通过生成对抗性网络(Generative Adversarial Networks)模型对编码器编解码后的低质量语音进行修复,修复后的语音与未修复的语音相比具有更高的质量。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种基于生成对抗网络的语音处理方法。
一种基于生成对抗网络的语音处理方法,其包括:
获取源语音,并输入至编码器对源语音进行编码;
将编码后的语音信号输入至生成对抗网络模型,最后输出与源语音相匹配的恢复的语音;
其中,生成对抗网络模型包括生成器和鉴别器,训练集由编码前的源语音和编码后质量下降的语音构成;生成器用于恢复编码后质量下降的语音;鉴别器用于比对恢复后的语音与编码前的源语音以区分真信号与假信号,再由鉴别器将区分结果反馈给生成器,以指导生成器学习源语音的真实分布的输出。
本发明的第二个方面提供一种基于生成对抗网络的语音处理系统。
一种基于生成对抗网络的语音处理系统,其包括:
源语音编码模块,其用于获取源语音,并输入至编码器对源语音进行编码;
语音恢复模块,其用于将编码后的语音信号输入至生成对抗网络模型,最后输出与源语音相匹配的恢复的语音;
其中,生成对抗网络模型包括生成器和鉴别器,训练集由编码前的源语音和编码后质量下降的语音构成;生成器用于恢复编码后质量下降的语音;鉴别器用于比对恢复后的语音与编码前的源语音以区分真信号与假信号,再由鉴别器将区分结果反馈给生成器,以指导生成器学习源语音的真实分布的输出。
本发明的第三个方面提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于生成对抗网络的语音处理方法中的步骤。
本发明的第四个方面提供一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于生成对抗网络的语音处理方法中的步骤。
与现有技术相比,本发明的有益效果是:
本发明提供了一种基于生成对抗网络的语音处理方法,其通过生成对抗性网络(Generative Adversarial Networks)模型对编码器编解码后的低质量语音进行修复,提升了修复后的语音的质量,修复后的语音与未修复的语音相比具有更高的质量,解决了语音编码器生成的语音质量较低的问题,并且具有更高的泛化性,对多种ITU标准下的编码器生成的编解码后的语音都有效。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例的基于生成对抗网络的语音处理方法流程图;
图2是本发明实施例的生成对抗网络模型训练流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
参照图1,本实施例的一种基于生成对抗网络的语音处理方法,其包括:
S101:获取源语音,并输入至编码器对源语音进行编码。
其中,源语音为未编码的语音信号,其属于wav类语音。
这里的编码器指的是ITU标准下的任一编码器,比如:G.721语音编码器等。
S102:将编码后的语音信号输入至生成对抗网络模型,最后输出与源语音相匹配的恢复的语音。
其中,生成对抗网络模型包括生成器和鉴别器,训练集由编码前的源语音和编码后质量下降的语音构成;生成器用于恢复编码后质量下降的语音;鉴别器用于比对恢复后的语音与编码前的源语音以区分真信号与假信号,再由鉴别器将区分结果反馈给生成器,以指导生成器学习源语音的真实分布的输出。
在具体实施中,所述生成器包括编码和解码两部分结构,编码结构用于提取输入至生成器的语音的特征,解码结构用于输出恢复的语音。
例如:
在生成器中,编码结构将其设置为11个二维卷积层,这11个二维卷积层中的卷积核个数分别为16、32、32、64、64、128、128、256、256、521、1024,每层的激活函数选择(a为系数)。解码结构有11个二维反卷积层其卷积核个数分别为521、256、256、128、128、64、64、32、32、16、1,前十层的激活函数为PReLU。最后一层激活函数为
此处需要说明的是,编码结构也可根据实际情况来设置为其他数量的二维卷积层,而且这些二维卷积层中的卷积核个数,本领域技术人员也可根据实际情况来具体设置。
在本实施例中,鉴别器包括11个二维卷积层,每层的卷积核个数分别为16、32、32、64、64、128、128、256、256、521、1024,在每个二维卷积层后α=0.3的VBN(Virtual BatchNormalization),其公式表示为
在训练生成对抗网络模型的过程中,下面使用LibriSpeech语音数据集,该数据集发布于2015年,时长为1000小时左右,采样率为16KHZ,16bits。
制作数据集的过程为:
取出数据集中时长为100小时语音数据,命为A,使用ITU发布的窄带语音编码标准下的G.721对A进行语音编码得到编解码后的语音数据命为A’,其中A与A’各个对应的语音数据文件名称相同。取出剩余900小时中的100小时语音数据,命为B,使用Cooledit将语音数据B采样率转换为8KHZ得到B”,使用ITU发布的窄带语音编码标准下的G.729对B”进行语音编码得到编解码后的语音数据命为B’,其中B与B’各个对应的语音数据文件名称相同。取出剩余800小时中的100小时语音数据,命名为C,使用ITU发布的宽带/超宽带/全频宽带语音编码标准下的G.722对C进行语音编码得到编解码后的语音数据命为C’,其中C与C’各个对应的语音数据文件名称相同。
数据集的处理过程为:
(1)将数据集中数据整合为tfrecords文件,A、B、C数据被分到wav类,A’,B’,C’被分到noisy类,wav类与noisy类数据是一一对应的,例如:wav类中的数据A里的数据段D对应到noisy中及为数据A’中数据D’,D与D’的关系为:D’为D经过G.721语音编码器编解码后的语音。
(2)确定GAN的优化器为RMSProp,将tfrecords文件的wav类与noisy类读取出来。
(3)将wav类与noisy类的语音数据的幅值除以2^16,此举是为了将其幅值转变为-1~1,来加快训练速度,同时对其实施0.95的预加重,来使其高频特性有更好的表现,此时得到了处理后的wav’类与noisy’类。
(4)将wav’类与noisy’类放入程序队列,来等待取出所需的wav’类与noisy’类批次。
初始化生成器的过程为:
(1)取出一批次(150组16384个采样点)的noisy’类调整其维度,为其增加两个1的维度,此刻其尺寸为[150,16384,1,1],命为x。
(2)将x输入编码结构内,编码结构的每个卷积层的二维卷积核尺寸设定为[31,1,输入通道数,输出通道数]、步长设为[1,2,1,1]、填充方式为SAME,进行二维卷积后,使用激活函数PReLU。经过11个二维卷积层后x变为x’,此刻x’的尺寸为[150,8,1024,1],将x’与y(尺寸为[150,8,1024,1],每个维度上的值都为0)拼接,得到x”,把x”送入解码结构内,解码结构的二维卷积核尺寸设定为[31,1,输入通道数,输出通道数]、步长设为[1,2,1,1]、填充方式为SAME,前10层使用PReLU激活函数,最后1层使用tanh激活函数。经过11层二维反卷积后得到X。X的尺寸为[150,16384]。
初始化鉴别器的过程为:
(1)取出的wav’类中的一批次语音数据(150组16384个采样点)命为z并且该批次的语音数据与输入到生成器的noisy’类数据是对应的。
(2)确定每个二维卷积层的二维卷积核尺寸为[31,1,输入通道数,输出通道数]、步长设为[1,2,1,1]、填充方式为SAME,在每个二维卷积层后α=0.3的VBN(Virtual BatchNormalization)并且使用将z输入到二维卷积层内得到z’,将z’输入到一维卷积层得到z”,z”经过最后全连接层后得到1,表示为真的概率。
优化权值的阶段为:
(1)鉴别器使用wav’类语音作为真实数据,进行鉴别器初始化阶段时输出真的概率,表示为真数据,输出使用R表示。鉴别器输入生成器生成的X作为假数据,鉴别器将进行初始化阶段的操作输出0的概率,表示为假数据,输出使用F表示。
根据生成器的Loss值更新生成器初始化中的卷积与反卷积的卷积核的各个数值的权重。
根据鉴别器的loss值更新并保存到本地鉴别器初始化中的卷积核数值的权重、虚拟批量标准化中γ、β值。
如图2所示,在训练阶段,重复鉴别器初始化、生成器初始化、优化权值三个步骤,判断当前以训练数据个数是否大于tfrecords文件中数据个数,重复进行训练直到达到规定的训练个数。
生成阶段:
将训练阶段最后一次的各个卷积核的权重进行读取,任取一段语音将其使用ITU标准下任一编码器编码,将编码后的语音输入生成器,通过生成器生成恢复后的语音信号,过程如下:
读取编码后的语音;
配置以训练好模型的权值;
将读取的数据大小转变为-1~1;
以16384为间隔将数据送入生成器,将生成结果保存;
将保存的数据写入wav文件。
本实施例充分考虑了语音编码领域中为了更趋向于更低速率编码而牺牲了质量的问题,选择了利用深度学习中的生成对抗网络(GAN)来对质量下降后的语音进行增强,对低速率编码造成的质量降低的语音进行质量恢复,从而达到了较好的效果。
实施例二
本实施例提供了一种基于生成对抗网络的语音处理系统,其包括:
源语音编码模块,其用于获取源语音,并输入至编码器对源语音进行编码;
语音恢复模块,其用于将编码后的语音信号输入至生成对抗网络模型,最后输出与源语音相匹配的恢复的语音;
其中,生成对抗网络模型包括生成器和鉴别器,训练集由编码前的源语音和编码后质量下降的语音构成;生成器用于恢复编码后质量下降的语音;鉴别器用于比对恢复后的语音与编码前的源语音以区分真信号与假信号,再由鉴别器将区分结果反馈给生成器,以指导生成器学习源语音的真实分布的输出。
此处需要说明的是,本实施例的基于生成对抗网络的语音处理系统中的各个模块,与实施例一中的基于生成对抗网络的语音处理方法中的各个步骤一一对应,其具体实施过程相同,此处不再累述。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于生成对抗网络的语音处理方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于生成对抗网络的语音处理方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于生成对抗网络的语音处理方法,其特征在于,包括:
获取源语音,并输入至编码器对源语音进行编码;
将编码后的语音信号输入至生成对抗网络模型,最后输出与源语音相匹配的恢复的语音;
其中,生成对抗网络模型包括生成器和鉴别器,训练集由编码前的源语音和编码后质量下降的语音构成;生成器用于恢复编码后质量下降的语音;鉴别器用于比对恢复后的语音与编码前的源语音以区分真信号与假信号,再由鉴别器将区分结果反馈给生成器,以指导生成器学习源语音的真实分布的输出;
训练生成对抗网络模型的步骤,包括:
S1.制作数据集;
S2.数据集的处理;
S3.生成器初始化;
S4.鉴别器初始化;
S5.优化权值;
其中,数据集的处理过程为:
(1)将数据集中的数据整合为tfrecords文件,A、B、C数据被分到wav类,A’,B’,C’被分到noisy类,wav类与noisy类数据是一一对应的;
(2)确定GAN的优化器为RMSProp,将tfrecords文件的wav类与noisy类数据读取出来;
(3)将wav类与noisy类的语音数据的幅值除以2^16,得到处理后的wav’类与noisy’类数据;
(4)将wav’类与noisy’类数据放入程序队列,来等待取出所需的wav’类与noisy’类批次;
优化权值的阶段为:
(1)鉴别器使用wav’类语音作为真实数据,进行鉴别器初始化阶段时输出真的概率,表示为真数据,输出使用R表示;鉴别器输入生成器生成的X作为假数据,鉴别器将进行初始化阶段的操作输出0的概率,表示为假数据,输出使用F表示;
在训练生成对抗网络模型的过程中,根据生成器的Loss值更新生成器初始化中的卷积与反卷积的卷积核的各个数值的权重;
根据鉴别器的loss值更新并保存到本地鉴别器初始化中的卷积核数值的权重及虚拟批量标准化中鉴别器相关参数值;
在训练阶段,重复鉴别器初始化、生成器初始化、优化权值三个步骤,判断当前训练数据个数是否大于tfrecords文件中数据个数,重复进行训练直到达到规定的训练个数。
2.如权利要求1所述的基于生成对抗网络的语音处理方法,其特征在于,所述生成器包括编码和解码两部分结构,编码结构用于提取输入至生成器的语音的特征,解码结构用于输出恢复的语音。
3.如权利要求2所述的基于生成对抗网络的语音处理方法,其特征在于,所述编码结构为若干个二维卷积层。
4.如权利要求1所述的基于生成对抗网络的语音处理方法,其特征在于,所述鉴别器为若干个二维卷积层。
5.如权利要求1所述的基于生成对抗网络的语音处理方法,其特征在于,在训练生成对抗网络模型的过程中,鉴别器使用加设权值的wav类语音作为真实数据,进行鉴别器初始化阶段时输出真的概率,表示为真数据;鉴别器输入生成器生成的语音作为假数据,鉴别器将进行初始化阶段的操作输出0的概率,表示为假数据。
6.一种基于生成对抗网络的语音处理系统,其特征在于,包括:
源语音编码模块,其用于获取源语音,并输入至编码器对源语音进行编码;
语音恢复模块,其用于将编码后的语音信号输入至生成对抗网络模型,最后输出与源语音相匹配的恢复的语音;
其中,生成对抗网络模型包括生成器和鉴别器,训练集由编码前的源语音和编码后质量下降的语音构成;生成器用于恢复编码后质量下降的语音;鉴别器用于比对恢复后的语音与编码前的源语音以区分真信号与假信号,再由鉴别器将区分结果反馈给生成器,以指导生成器学习源语音的真实分布的输出;
训练生成对抗网络模型的步骤,包括:
S1.制作数据集;
S2.数据集的处理;
S3.初始化生成器;
S4.初始化鉴别器;
S5.优化权值;
其中,数据集的处理过程为:
(1)将数据集中的数据整合为tfrecords文件,A、B、C数据被分到wav类,A’,B’,C’被分到noisy类,wav类与noisy类数据是一一对应的;
(2)确定GAN的优化器为RMSProp,将tfrecords文件的wav类与noisy类数据读取出来;
(3)将wav类与noisy类的语音数据的幅值除以2^16,得到处理后的wav’类与noisy’类数据;
(4)将wav’类与noisy’类数据放入程序队列,来等待取出所需的wav’类与noisy’类批次;优化权值的阶段为:
(1)鉴别器使用wav’类语音作为真实数据,进行鉴别器初始化阶段时输出真的概率,表示为真数据,输出使用R表示;鉴别器输入生成器生成的X作为假数据,鉴别器将进行初始化阶段的操作输出0的概率,表示为假数据,输出使用F表示;
在训练生成对抗网络模型的过程中,根据生成器的Loss值更新生成器初始化中的卷积与反卷积的卷积核的各个数值的权重;
根据鉴别器的loss值更新并保存到本地鉴别器初始化中的卷积核数值的权重及虚拟批量标准化中鉴别器相关参数值;
在训练阶段,重复鉴别器初始化、生成器初始化、优化权值三个步骤,判断当前训练数据个数是否大于tfrecords文件中数据个数,重复进行训练直到达到规定的训练个数。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的基于生成对抗网络的语音处理方法中的步骤。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求要求1-5中任一项所述的基于生成对抗网络的语音处理方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110341574.5A CN113096673B (zh) | 2021-03-30 | 2021-03-30 | 基于生成对抗网络的语音处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110341574.5A CN113096673B (zh) | 2021-03-30 | 2021-03-30 | 基于生成对抗网络的语音处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113096673A CN113096673A (zh) | 2021-07-09 |
CN113096673B true CN113096673B (zh) | 2022-09-30 |
Family
ID=76671027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110341574.5A Active CN113096673B (zh) | 2021-03-30 | 2021-03-30 | 基于生成对抗网络的语音处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113096673B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108226892A (zh) * | 2018-03-27 | 2018-06-29 | 天津大学 | 一种基于深度学习的复杂噪声环境下的雷达信号恢复方法 |
CN108806708A (zh) * | 2018-06-13 | 2018-11-13 | 中国电子科技集团公司第三研究所 | 基于计算听觉场景分析和生成对抗网络模型的语音降噪方法 |
CN110060701A (zh) * | 2019-04-04 | 2019-07-26 | 南京邮电大学 | 基于vawgan-ac的多对多语音转换方法 |
CN110136731A (zh) * | 2019-05-13 | 2019-08-16 | 天津大学 | 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法 |
CN110619885A (zh) * | 2019-08-15 | 2019-12-27 | 西北工业大学 | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 |
CN111081266A (zh) * | 2019-12-18 | 2020-04-28 | 暗物智能科技(广州)有限公司 | 一种训练生成对抗网络、语音增强方法及系统 |
CN111243572A (zh) * | 2020-01-14 | 2020-06-05 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于说话人博弈的多人语音转换方法与系统 |
CN111429893A (zh) * | 2020-03-12 | 2020-07-17 | 南京邮电大学 | 基于Transitive STARGAN的多对多说话人转换方法 |
CN111833893A (zh) * | 2020-06-16 | 2020-10-27 | 杭州云嘉云计算有限公司 | 一种基于人工智能的语音增强方法 |
CN112382271A (zh) * | 2020-11-30 | 2021-02-19 | 北京百度网讯科技有限公司 | 语音处理方法、装置、电子设备和存储介质 |
CN112397057A (zh) * | 2020-12-01 | 2021-02-23 | 平安科技(深圳)有限公司 | 基于生成对抗网络的语音处理方法、装置、设备及介质 |
CN112466316A (zh) * | 2020-12-10 | 2021-03-09 | 青海民族大学 | 一种基于生成对抗网络的零样本语音转换系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102051891B1 (ko) * | 2017-08-10 | 2019-12-04 | 한양대학교 산학협력단 | 대립쌍 구조 기반의 생성모델을 이용한 패킷손실은닉 방법 및 장치 |
CN110544239B (zh) * | 2019-08-19 | 2021-12-17 | 中山大学 | 基于条件生成对抗网络的多模态mri转换方法、系统及介质 |
CN112052763B (zh) * | 2020-08-27 | 2024-02-09 | 西安电子科技大学 | 基于双向回顾生成对抗网络的视频异常事件检测方法 |
-
2021
- 2021-03-30 CN CN202110341574.5A patent/CN113096673B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108226892A (zh) * | 2018-03-27 | 2018-06-29 | 天津大学 | 一种基于深度学习的复杂噪声环境下的雷达信号恢复方法 |
CN108806708A (zh) * | 2018-06-13 | 2018-11-13 | 中国电子科技集团公司第三研究所 | 基于计算听觉场景分析和生成对抗网络模型的语音降噪方法 |
CN110060701A (zh) * | 2019-04-04 | 2019-07-26 | 南京邮电大学 | 基于vawgan-ac的多对多语音转换方法 |
CN110136731A (zh) * | 2019-05-13 | 2019-08-16 | 天津大学 | 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法 |
CN110619885A (zh) * | 2019-08-15 | 2019-12-27 | 西北工业大学 | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 |
CN111081266A (zh) * | 2019-12-18 | 2020-04-28 | 暗物智能科技(广州)有限公司 | 一种训练生成对抗网络、语音增强方法及系统 |
CN111243572A (zh) * | 2020-01-14 | 2020-06-05 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于说话人博弈的多人语音转换方法与系统 |
CN111429893A (zh) * | 2020-03-12 | 2020-07-17 | 南京邮电大学 | 基于Transitive STARGAN的多对多说话人转换方法 |
CN111833893A (zh) * | 2020-06-16 | 2020-10-27 | 杭州云嘉云计算有限公司 | 一种基于人工智能的语音增强方法 |
CN112382271A (zh) * | 2020-11-30 | 2021-02-19 | 北京百度网讯科技有限公司 | 语音处理方法、装置、电子设备和存储介质 |
CN112397057A (zh) * | 2020-12-01 | 2021-02-23 | 平安科技(深圳)有限公司 | 基于生成对抗网络的语音处理方法、装置、设备及介质 |
CN112466316A (zh) * | 2020-12-10 | 2021-03-09 | 青海民族大学 | 一种基于生成对抗网络的零样本语音转换系统 |
Non-Patent Citations (2)
Title |
---|
基于深度学习的复杂背景下的语音增强算法;涂亮;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200315(第03期);第10-27页 * |
涂亮.基于深度学习的复杂背景下的语音增强算法.《中国优秀硕士学位论文全文数据库 信息科技辑》.2020,(第03期),第10-27页. * |
Also Published As
Publication number | Publication date |
---|---|
CN113096673A (zh) | 2021-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111326168B (zh) | 语音分离方法、装置、电子设备和存储介质 | |
CN101968781B (zh) | 在音频编码过程中根据mdct数据进行视窗类型判定的方法 | |
CN109859281B (zh) | 一种稀疏神经网络的压缩编码方法 | |
CN107767876A (zh) | 声音编码装置以及声音编码方法 | |
CN110491398B (zh) | 编码方法、编码装置以及记录介质 | |
CN115631275A (zh) | 多模态驱动的人体动作序列生成方法及装置 | |
CN116318172A (zh) | 一种设计仿真软件数据自适应压缩方法 | |
CN108417220B (zh) | 基于代理模型Volterra建模的语音信号编码和解码方法 | |
US8285544B2 (en) | Restrained vector quantisation | |
CN113096673B (zh) | 基于生成对抗网络的语音处理方法及系统 | |
CN110120228A (zh) | 基于声谱图及深度残差网络的音频通用隐写分析方法及系统 | |
AU2014286765B2 (en) | Signal encoding and decoding methods and devices | |
CN103746701A (zh) | 一种用于Rice无损数据压缩的快速编码选项选择方法 | |
JP5539992B2 (ja) | レート制御装置、レート制御方法及びレート制御プログラム | |
CN116312502A (zh) | 基于顺序采样分块机制的端到端流式语音识别方法及装置 | |
US10032460B2 (en) | Frequency envelope vector quantization method and apparatus | |
EP2116996A1 (en) | Encoding device and encoding method | |
CN110739974B (zh) | 数据压缩方法及装置和计算机可读存储介质 | |
CN118016081B (zh) | 基于语音质量分级模型的变速率语音编码方法及系统 | |
CN113808601B (zh) | 生成rdss短报文信道语音码本方法、装置、电子设备 | |
CN112669857B (zh) | 一种语音处理的方法、装置及设备 | |
CN105122358A (zh) | 用于处理编码信号的装置和方法与用于产生编码信号的编码器和方法 | |
EP2372699A1 (en) | Distribution-constrained quantization | |
CN114781604B (zh) | 神经网络权重参数的编码方法、编码器及神经网络处理器 | |
RU2823174C2 (ru) | Усовершенствованный квантователь |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |