CN110444224A - 一种基于生成式对抗网络的语音处理方法及装置 - Google Patents
一种基于生成式对抗网络的语音处理方法及装置 Download PDFInfo
- Publication number
- CN110444224A CN110444224A CN201910865696.7A CN201910865696A CN110444224A CN 110444224 A CN110444224 A CN 110444224A CN 201910865696 A CN201910865696 A CN 201910865696A CN 110444224 A CN110444224 A CN 110444224A
- Authority
- CN
- China
- Prior art keywords
- speech
- sample
- voice
- model
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012545 processing Methods 0.000 title claims abstract description 57
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 73
- 230000002708 enhancing effect Effects 0.000 claims abstract description 8
- 239000010410 layer Substances 0.000 claims description 22
- 238000003475 lamination Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 11
- 238000009432 framing Methods 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 7
- 239000011229 interlayer Substances 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000004088 simulation Methods 0.000 claims description 3
- 230000008485 antagonism Effects 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 27
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000004891 communication Methods 0.000 abstract description 6
- 230000000694 effects Effects 0.000 description 6
- 230000006855 networking Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000004069 differentiation Effects 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
- G10L21/0388—Details of processing therefor
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明适用于语音通信技术领域,提供了一种基于生成式对抗网络的语音处理方法及装置,方法包括获取语音训练样本,语音训练样本包括N组完整语音样本以及与完整语音样本对应的丢包语音样本、K组宽带语音样本以及与宽带语音样本对应的窄带语音样本;将语音训练样本放入生成式对抗网络分别进行基于丢包语音样本和完整语音样本的丢包补偿模型训练、基于宽带语音样本和窄带语音样本的频带扩展模型训练,获得由丢包补偿模型和频带扩展模型构成的语音处理系统;再通过语音处理系统处理待处理的原始语音,获得丢包补偿或频带扩展后的增强语音。通过本发明可以提高语音处理中基于丢包语音的丢包补偿处理效率,以及基于窄带语音的频带扩展处理性能。
Description
技术领域
本发明涉及语音通信技术领域,尤其涉及一种基于生成式对抗网络的语音处理方法及装置。
背景技术
现代社会通讯成为人们生活的重要内容,通讯方式也由固定电话逐渐发展至移动电话和网络电话,极大地便利了我们的生活。然而移动电话和网络电话不同的特点导致其各自在不同的场合具有相对优势和不足。
其中,大部分移动电话的网络属于窄带语音通信系统。语音信号的传输带宽只有3.1kHz,频率范围在300~3400Hz之间。这种窄带语音信号虽然节省了通信的带宽,但是降低了语音的质量。而对于网络电话来说,通常采用IP网络进行实时语音传输,当网络发生拥塞时,IP网络中的语音传输就会发生丢包;当丢包率超过10%时语音通信质量就会受到很大影响,这也是目前的网络实时语音通信还不能完全取代传统电话的原因。
目前,针对移动电话的网络频率范围窄、语音质量低的问题,较为经典的频谱扩展技术包括码本映射方法,线性映射,以及基于贝叶斯概率估计的方法,其中,基于贝叶斯概率估计的方法包含两种典型方法,高斯混合模型和隐马尔科夫模型;而对于网络电话中的丢包问题,学术界和工业界出现了用于网络传输过程中语音数据包丢失的隐藏技术,以期减轻丢包对语音质量的影响,比较经典的PLC技术包括高斯混合模型,隐马尔可夫模型,线性预测分析等常规方法。
然而,在同时解决上述移动电话网络的频谱扩展及网络电话的丢包问题的需求下,高斯混合模型虽然可以扩展频谱和丢包补偿,但其使用的算法基础来自于统计学方法,不符合语音相邻状态之间具有强相关性的特点,因此不能做到很好的频带扩展效果和丢包补偿性能。
发明内容
本发明的主要目的在于提出一种基于生成式对抗网络的语音处理方法及装置,以解决现有技术中的数学模型对语音进行频谱扩展或丢包补偿时没有充分利用语音相邻状态之间的强相关性,使得频带扩展和丢包补偿效果不佳的问题。
为实现上述目的,本发明实施例第一方面提供一种基于生成式对抗网络的语音处理方法,包括:
获取语音训练样本,所述语音训练样本包括N组完整语音样本以及与所述完整语音样本对应的丢包语音样本、K组宽带语音样本以及与所述宽带语音样本对应的窄带语音样本,其中,N、K为正整数;
将所述语音训练样本放入生成式对抗网络中,分别进行基于所述丢包语音样本和所述完整语音样本的丢包补偿模型训练,以及基于所述宽带语音样本和所述窄带语音样本的频带扩展模型训练,获得由丢包补偿模型和频带扩展模型构成的语音处理系统;
通过所述语音处理系统处理待处理的原始语音,获得丢包补偿或频带扩展后的增强语音。
本发明实施例第二方面提供一种基于生成式对抗网络的语音处理装置,包括:
训练样本模块,用于获取及预处理语音训练样本,所述语音训练样本包括N组完整语音样本以及与所述完整语音样本对应的丢包语音样本、K组宽带语音样本以及与所述宽带语音样本对应的窄带语音样本,其中,N、K为正整数;
语音处理系统训练模块,用于将所述语音训练样本放入生成式对抗网络中,分别进行基于所述丢包语音样本和所述完整语音样本的丢包补偿模型训练,以及基于所述宽带语音样本和所述窄带语音样本的频带扩展模型训练,获得由丢包补偿模型和频带扩展模型构成的语音处理系统;
语音处理模块,用于通过所述语音处理系统处理待处理的原始语音,获得丢包补偿或频带扩展后的增强语音。
本发明实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时实现如上第一方面所提供的方法的步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现如上第一方面所提供的方法的步骤。
本发明实施例提出一种基于生成式对抗网络的语音处理方法,基于生成式对抗网络训练生成丢包补偿模型和频带扩展模型,用以构成语音处理系统,使其在接入语音信号时根据实际情况进行丢包补偿处理或频带扩展处理,获得处理后的语音,即增强语音,其中,在丢包补偿模型和频带扩展模型的训练过程中,由于生成式对抗网络的结构特性,能有效利用时域连续语音帧间相关性,因此可在不需要额外信号变换处理手段的前提下进行丢包语音帧波形估计和重构,也可在不需要额外信号变换处理手段的前提下进行宽带语音时域波形估计和重构,从而提高了语音处理中基于丢包语音的丢包补偿处理效率,以及基于窄带语音的频带扩展处理性能。
附图说明
图1为本发明实施例一提供的基于生成式对抗网络的语音处理方法的实现流程示意图;
图2为本发明实施例二提供的基于生成式对抗网络的语音处理装置的组成结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本文中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身并没有特定的意义。因此,"模块"与"部件"可以混合地使用。
在后续的描述中,发明实施例序号仅仅为了描述,不代表实施例的优劣。
实施例一
如图1所示,本发明实施例提供了一种基于生成式对抗网络的语音处理方法,用以获得由丢包补偿模型和频带扩展模型构成的语音处理系统,通过此语音处理系统处理原始语音,克服原始语音中的丢包问题或频带过窄的问题。本发明实施例中,上述方法包括但不限于以下步骤:
S101、获取语音训练样本,所述语音训练样本包括N组完整语音样本以及与所述完整语音样本对应的丢包语音样本、K组宽带语音样本以及与所述宽带语音样本对应的窄带语音样本,其中,N、K为正整数。
在上述步骤S101中,语音训练样本是经过预处理后,用于训练的语音数据,既包括原始的语音,也包括处理后的语音。其中,预处理过程可以为:由完整语音样本进行丢包处理,生成丢包语音样本,从而构成完整语音样本与丢包语音样本之间的对应关系;由宽带语音样本模拟窄带语音信号经G.711协议进行传输,生成窄带语音样本,从而构成宽带语音样本和窄带语音样本之间的对应关系。
在本发明实施例中,上述步骤S101的语音训练样本获取可以包括以下详细实现步骤:
获取所述语音训练样本中的完整语音样本和宽带语音样本;
以所述完整语音样本为基础,通过伯努利丢失模型生成不同丢包率的语音,作为与所述完整语音样本对应的丢包语音样本;
以所述宽带语音为基础,通过低通滤波器模拟生成不同截止频率的窄带语音,作为与所述宽带语音样本对应的窄带语音样本。
在具体应用中,假设根据完整语音样本获取了4组丢包语音样本的丢包率分别为0%、10%、20%和30%,在使用上述丢包率的丢包语音样本进行丢包补偿模型测试时,还可以添加一种模型训练过程中未见过的丢包率40%,以此模拟较为极端的丢包情况下,模型的丢包恢复效果和鲁棒性。
在具体应用中,假设根据16kHz的宽带语音样本获取了4组窄带语音样本,截止频率分别为1.5kHz、2.5kHz和3.5kHz,在使用上述截止频率的窄带语音样本进行频带扩展模型训练时,还额外添加一种模型训练过程中未见过的截止频率1kHz,以此模拟较为极端的窄带信号,以体现模型的频带扩展效果和鲁棒性。
在本发明实施例中,完整语音样本默认为宽带语音信号,宽带语音样本默认为完整语音信号,则丢包语音样本也为宽带语音信号,窄带语音样本也为完整语音信号。
S102、将所述语音训练样本放入生成式对抗网络中,分别进行基于所述丢包语音样本和所述完整语音样本的丢包补偿模型训练,以及基于所述宽带语音样本和所述窄带语音样本的频带扩展模型训练,获得由丢包补偿模型和频带扩展模型构成的语音处理系统。
在上述步骤S102中,相比于针对丢包场景的大部分传统接收端PLC技术,和针对频带盲扩的大部分传统接收端BWE技术,生成式对抗网络GANs能够有效利用目标帧前更长的历史语音帧信息,即有效利用时域连续语音帧间的相关性。
上述的语音处理系统,对于丢包补偿任务,能提高帧补偿的处理效率;对于频带扩展任务,能够提高所提频带扩展的整体盲扩效果。
在本发明实施例中,上述步骤S102中生成式多抗网络的组成部分可以为:
所述生成式对抗网络由编码器和解码器构成的生成模型、判别模型,其中编码器和解码器由卷积层和反卷积层堆积构成,所述卷积层和所述反卷积层一一对应,且所述卷积层与所述反卷积层之间添加层间跳连接;
所述生成模型的编码器,用于接收第i组所述丢包语音样本或第j组所述窄带语音样本,根据第i组所述丢包语音样本或第j组所述窄带语音样本进行编码,其中,i为小于或等于N的正整数、j为小于或等于K的正整数;
所述生成模型的解码器,用于接收所述编码器的编码结果。
其中,卷积层与反卷积层之间添加层间跳连接,能够引导网络在训练过程中更快收敛;
在具体应用中,还在卷积层和反卷积层中加入layer batchnorm等机器学习技巧,提高最终的语音处理系统的稳定性。
在一个实施例中,上述的丢包补偿模型训练过程可以为:
所述生成模型的编码器根据第i组所述丢包语音样本进行编码,并将第一编码结果与第i组所述丢包语音样本对应的随机噪声矢量进行拼接;
其中,拼接后的样本矩阵作为所述解码器的输入,以使所述解码器进行反卷积运算,得到基于第i组所述丢包语音样本的解码结果,并向所述判别模型发送基于第i组所述丢包语音样本的解码结果;
所述判别模型根据基于第i组所述丢包语音样本的解码结果重构语音波形,获得丢包补偿后的第i组所述丢包补偿语音样本,还计算第i组所述丢包补偿语音样本与第i组所述完整语音样本的接近程度;
根据第i组所述丢包补偿语音样本与第i组所述完整语音样本的接近程度,产生判别误差引导所述生成式对抗网络中生成模型的训练,获得丢包补偿模型。
上述的丢包补偿模型训练过程在生成式对抗网络中进行,是一种基于生成模型的模型对抗训练。
生成式对抗网络的生成模型中,丢包语音样本的解码输出被馈送到判别模型,用于判断生成模型的生成样本,即丢包补偿语音样本,是否接近真实语音样本数据分布,即完整语音样本,判别模型产生的判别误差结合生成模型自身的损失函数引导生成模型的训练,根据N组样本数据引导生成丢包补偿模型。
在上述的判别模型中,可以将接近完整语音样本的丢包补偿语音样本判别为1,否则判别为0。
在一个实施例中,上述的频带扩展模型训练过程可以为:
所述生成模型的编码器根据第j组所述窄带语音样本进行编码,并将第二编码结果与随机噪声矢量进行拼接;
其中,拼接后的样本矩阵作为所述解码器的输入,以使所述解码器进行反卷积解码,并向所述判别模型发送第j组所述窄带语音样本的解码结果;
所述判别模型根据第j组所述窄带语音样本的解码结果重构语音波形,获得频带扩展后的第j组所述盲扩语音样本,还计算第j组所述盲扩语音样本与第j组所述宽带语音样本的相似程度;
根据第j组所述盲扩语音样本与第j组所述宽带语音样本的相似程度,产生判别误差引导所述生成式对抗网络中生成模型的训练,获得频带扩展模型。
在上述的频带扩展模型训练过程在生成式对抗网络中进行,也是一种基于生成模型的模型对抗训练。
生成式对抗网络的生成模型中窄带语音样本的解码输出,被馈送到判别模型,用于判断生成模型的生成样本,即盲扩语音样本,是否接近真实的宽带语音样本数据分布,判别模型产生的判别误差结合生成模型自身的均方误差引导生成模型的训练,根据K组数据引导生成频带扩展模型。
在上述的判别模型中,可以将与宽带语音样本相似的盲扩语音样本判别为1,否则判别为0。
在上述的丢包补偿模型训练过程和频带扩展模型训练过程中,均包括重构语音波形的步骤,在本发明实施例中,可以由丢包语音样本的解码输出以及窄带语音样本的解码输出,进行特征提取的逆向处理,将得到的时域语音块进行波形重构,从而得到丢包补偿后的语音波形以及频带扩展后的语音波形,作为生成模型的生成样本,即丢包补偿后的丢包补偿语音样本和频带扩展后的盲扩语音样本。
在本发明实施例中,上述步骤S102之前,即将所述语音训练样本放入生成式对抗网络中之前,还需对语音训练样本依次进行时域分帧和预加重等预处理,详细实现流程包括:
以20ms为一帧间隔,对所述丢包语音样本进行时域分帧操作;
以连续8帧的语音样本作为时域语音特征,获得基于所述丢包语音样本的连续特征块;
以20ms为一帧间隔,对所述窄带语音样本进行时域分帧操作;
以连续8帧的语音样本作为时域语音特征,获得基于所述窄带语音样本的连续特征块;
将基于所述丢包语音样本的连续特征块和基于所述窄带语音样本的连续特征块,作为所述生成式对抗网络的输入特征。
在具体应用中,对所述丢包语音样本进行时域分帧后,以连续8帧的语音样本作为时域语音特征,其中前7帧时域语音帧用于进行目标丢失帧(也即第八帧)波形估计;即将连续8帧的语音样本作为划分节点,将丢包语音样本划分为N组丢包语音样本,每组丢包语音样本中,仅包括前7帧时域语音帧作为有效输入特征。
同理,对所述窄带语音样本进行时域分帧后,以连续8帧的语音样本作为时域语音特征;即将连续8帧的语音样本作为划分节点,将窄带语音样本划分为K组丢包语音样本。
因此,发送至所述生成式对抗网络的语音训练样本为基于所述丢包语音样本的连续特征块和基于所述窄带语音样本的连续特征块。
S103、通过所述语音处理系统处理待处理的原始语音,获得丢包补偿或频带扩展后的增强语音。
在上述步骤S103中,语音处理系统设置在接收端,可在原始语音传输至接收端之前,进行上述的丢包补偿处理和频带扩展处理。
本发明实施例提供的基于生成式对抗网络的语音处理方法,基于生成式对抗网络训练生成丢包补偿模型和频带扩展模型,用以构成语音处理系统,使其在接入语音信号时根据实际情况进行丢包补偿处理或频带扩展处理,获得处理后的语音,即增强语音,其中,在丢包补偿模型和频带扩展模型的训练过程中,由于生成式对抗网络的结构特性,能有效利用时域连续语音帧相关性,因此可在不需要额外信号变换处理手段的前提下进行丢包语音帧波形估计和重构,也可在不需要额外信号变换处理手段的前提下进行宽带语音时域波形估计和重构,从而提高了语音处理中基于丢包语音的丢包补偿处理效率,以及基于窄带语音的频带扩展处理性能。
实施例二
如图2所示,本发明实施例还提供一种基于生成式对抗网络的语音处理装置20,包括但不限于以下模块:
训练样本获取模块21,用于获取语音训练样本,语音训练样本包括N组完整语音样本以及与完整语音样本对应的丢包语音样本、K组宽带语音样本以及与宽带语音样本对应的窄带语音样本,其中,N、K为正整数;
语音处理系统训练模块22,用于将语音训练样本放入生成式对抗网络中,分别进行基于丢包语音样本和完整语音样本的丢包补偿模型训练,以及基于宽带语音样本和窄带语音样本的频带扩展模型训练,获得由丢包补偿模型和频带扩展模型构成的语音处理系统;
语音处理模块23,用于通过语音处理系统处理待处理的原始语音,获得丢包补偿或频带扩展后的增强语音。
在本发明实施例中,所述生成式对抗网络由编码器和解码器构成的生成模型、判别模型,其中编码器和解码器由卷积层和反卷积层堆积构成,所述卷积层和所述反卷积层一一对应,且所述卷积层与所述反卷积层之间添加层间跳连接;
所述生成模型的编码器,用于接收第i组所述丢包语音样本或第j组所述窄带语音样本,根据第i组所述丢包语音样本或第j组所述窄带语音样本进行编码,其中,i为小于或等于N的正整数、j为小于或等于K的正整数;
所述生成模型的解码器,用于接收所述编码器的编码结果。
在具体应用中,生成模型采用卷积层及对应反卷积层的跳连接方案,能够将更多有用的细节信息从卷积层传递到相应的反卷积层,用于改善网络盲扩效果和性能。
在具体应用中,还在卷积层和反卷积层中加入layer batchnorm等机器学习技巧,提高最终的语音处理系统的稳定性。
本发明实施例还提供一种终端设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如实施例一中的基于生成式对抗网络的语音处理方法中的各个步骤。
本发明实施例还提供一种存储介质,所述存储介质为计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如实施例一中所述的基于生成式对抗网络的语音处理方法中的各个步骤。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于生成式对抗网络的语音处理方法,其特征在于,包括:
获取语音训练样本,所述语音训练样本包括N组完整语音样本以及与所述完整语音样本对应的丢包语音样本、K组宽带语音样本以及与所述宽带语音样本对应的窄带语音样本,其中,N、K为正整数;
将所述语音训练样本放入生成式对抗网络中,分别进行基于所述丢包语音样本和所述完整语音样本的丢包补偿模型训练,以及基于所述宽带语音样本和所述窄带语音样本的频带扩展模型训练,获得由丢包补偿模型和频带扩展模型构成的语音处理系统;
通过所述语音处理系统处理待处理的原始语音,获得丢包补偿或频带扩展后的增强语音。
2.如权利要求1所述的基于生成式对抗网络的语音处理方法,其特征在于,所述生成式对抗网络由编码器和解码器构成的生成模型、判别模型,其中编码器和解码器由卷积层和反卷积层堆积构成,所述卷积层和所述反卷积层一一对应,且所述卷积层与所述反卷积层之间添加层间跳连接;
所述生成模型的编码器,用于接收第i组所述丢包语音样本或第j组所述窄带语音样本,根据第i组所述丢包语音样本或第j组所述窄带语音样本进行编码,其中,i为小于或等于N的正整数、j为小于或等于K的正整数;
所述生成模型的解码器,用于接收所述编码器的编码结果。
3.如权利要求1或2任一项所述的基于生成式对抗网络的语音处理方法,其特征在于,在丢包补偿模型训练中,所述生成模型的编码器根据第i组所述丢包语音样本进行编码,并将第一编码结果与第i组所述丢包语音样本对应的随机噪声矢量进行拼接;
其中,拼接后的样本矩阵作为所述解码器的输入,以使所述解码器进行反卷积运算,得到基于第i组所述丢包语音样本的解码结果,并向所述判别模型发送基于第i组所述丢包语音样本的解码结果;
所述判别模型根据基于第i组所述丢包语音样本的解码结果重构语音波形,获得丢包补偿后的第i组所述丢包补偿语音样本,还计算第i组所述丢包补偿语音样本与第i组所述完整语音样本的接近程度;
根据第i组所述丢包补偿语音样本与第i组所述完整语音样本的接近程度,产生判别误差引导所述生成式对抗网络中生成模型的训练,获得丢包补偿模型。
4.如权利要求1或2任一项所述的基于生成式对抗网络的语音处理方法,其特征在于,在频带扩展模型训练中,所述生成模型的编码器根据第j组所述窄带语音样本进行编码,并将第二编码结果与随机噪声矢量进行拼接;
其中,拼接后的样本矩阵作为所述解码器的输入,以使所述解码器进行反卷积解码,并向所述判别模型发送第j组所述窄带语音样本的解码结果;
所述判别模型根据第j组所述窄带语音样本的解码结果重构语音波形,获得频带扩展后的第j组所述盲扩语音样本,还计算第j组所述盲扩语音样本与第j组所述宽带语音样本的相似程度;
根据第j组所述盲扩语音样本与第j组所述宽带语音样本的相似程度,产生判别误差引导所述生成式对抗网络中生成模型的训练,获得频带扩展模型。
5.如权利要求1所述的基于生成式对抗网络的语音处理方法,其特征在于,获取语音训练样本,包括:
获取所述语音训练样本中的完整语音样本和宽带语音样本;
以所述完整语音样本为基础,通过伯努利丢失模型生成不同丢包率的语音,作为与所述完整语音样本对应的丢包语音样本;
以所述宽带语音为基础,通过低通滤波器模拟生成不同截止频率的窄带语音,作为与所述宽带语音样本对应的窄带语音样本。
6.如权利要求1所述的基于生成式对抗网络的语音处理方法,其特征在于,将所述语音训练样本放入生成式对抗网络中,分别进行基于所述丢包语音样本和所述完整语音样本的丢包补偿模型训练,以及基于所述宽带语音样本和所述窄带语音样本的频带扩展模型训练,获得由丢包补偿模型和频带扩展模型构成的语音处理系统,之前包括:
以20ms为一帧间隔,对所述丢包语音样本进行时域分帧操作;
以连续8帧的语音样本作为时域语音特征,获得基于所述丢包语音样本的连续特征块;
以20ms为一帧间隔,对所述窄带语音样本进行时域分帧操作;
以连续8帧的语音样本作为时域语音特征,获得基于所述窄带语音样本的连续特征块;
将基于所述丢包语音样本的连续特征块和基于所述窄带语音样本的连续特征块,作为输入特征分别馈送至生成对抗性网络中进行训练。
7.一种基于生成式对抗网络的语音处理装置,其特征在于,包括:
训练样本获取模块,用于获取语音训练样本,所述语音训练样本包括N组完整语音样本以及与所述完整语音样本对应的丢包语音样本、K组宽带语音样本以及与所述宽带语音样本对应的窄带语音样本,其中,N、K为正整数;
语音处理系统训练模块,用于将所述语音训练样本放入生成式对抗网络中,分别进行基于所述丢包语音样本和所述完整语音样本的丢包补偿模型训练,以及基于所述宽带语音样本和所述窄带语音样本的频带扩展模型训练,获得由丢包补偿模型和频带扩展模型构成的语音处理系统;
语音处理模块,用于通过所述语音处理系统处理待处理的原始语音,获得丢包补偿或频带扩展后的增强语音。
8.如权利要求7所述的基于生成式对抗网络的语音处理装置,其特征在于,所述生成式对抗网络由编码器和解码器构成的生成模型、判别模型,其中编码器和解码器由卷积层和反卷积层堆积构成,所述卷积层和所述反卷积层一一对应,且所述卷积层与所述反卷积层之间添加层间跳连接;
所述生成模型的编码器,用于接收第i组所述丢包语音样本或第j组所述窄带语音样本,根据第i组所述丢包语音样本或第j组所述窄带语音样本进行编码,其中,i为小于或等于N的正整数、j为小于或等于K的正整数;
所述生成模型的解码器,用于接收所述编码器的编码结果。
9.一种接收端设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,可实现如权利要求1至6任一项所述的基于生成式对抗网络的语音处理方法中的各个步骤。
10.一种存储介质,所述存储介质为计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,可实现如权利要求1至6任一项所述的基于生成式对抗网络的语音处理方法中的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910865696.7A CN110444224B (zh) | 2019-09-09 | 2019-09-09 | 一种基于生成式对抗网络的语音处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910865696.7A CN110444224B (zh) | 2019-09-09 | 2019-09-09 | 一种基于生成式对抗网络的语音处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110444224A true CN110444224A (zh) | 2019-11-12 |
CN110444224B CN110444224B (zh) | 2022-05-27 |
Family
ID=68440152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910865696.7A Active CN110444224B (zh) | 2019-09-09 | 2019-09-09 | 一种基于生成式对抗网络的语音处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110444224B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111866026A (zh) * | 2020-08-10 | 2020-10-30 | 四川湖山电器股份有限公司 | 一种用于语音会议的语音数据丢包处理系统及处理方法 |
CN111953694A (zh) * | 2020-08-13 | 2020-11-17 | 南京百家云科技有限公司 | 一种基于直播的丢包补偿方法及装置 |
CN113192537A (zh) * | 2021-04-27 | 2021-07-30 | 深圳市优必选科技股份有限公司 | 唤醒程度识别模型训练方法及语音唤醒程度获取方法 |
CN114882867A (zh) * | 2022-04-13 | 2022-08-09 | 天津大学 | 基于滤波器组频率区分的深度网络波形合成方法及装置 |
CN114882867B (zh) * | 2022-04-13 | 2024-05-28 | 天津大学 | 基于滤波器组频率区分的深度网络波形合成方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107945811A (zh) * | 2017-10-23 | 2018-04-20 | 北京大学 | 一种面向频带扩展的生成式对抗网络训练方法及音频编码、解码方法 |
CN109218083A (zh) * | 2018-08-27 | 2019-01-15 | 广州爱拍网络科技有限公司 | 一种语音数据传输方法及装置 |
US20190051310A1 (en) * | 2017-08-10 | 2019-02-14 | Industry-University Cooperation Foundation Hanyang University | Method and apparatus for packet loss concealment using generative adversarial network |
CN109756789A (zh) * | 2018-12-28 | 2019-05-14 | 视联动力信息技术股份有限公司 | 一种音视频数据包的丢包处理方法和系统 |
-
2019
- 2019-09-09 CN CN201910865696.7A patent/CN110444224B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190051310A1 (en) * | 2017-08-10 | 2019-02-14 | Industry-University Cooperation Foundation Hanyang University | Method and apparatus for packet loss concealment using generative adversarial network |
CN107945811A (zh) * | 2017-10-23 | 2018-04-20 | 北京大学 | 一种面向频带扩展的生成式对抗网络训练方法及音频编码、解码方法 |
CN109218083A (zh) * | 2018-08-27 | 2019-01-15 | 广州爱拍网络科技有限公司 | 一种语音数据传输方法及装置 |
CN109756789A (zh) * | 2018-12-28 | 2019-05-14 | 视联动力信息技术股份有限公司 | 一种音视频数据包的丢包处理方法和系统 |
Non-Patent Citations (2)
Title |
---|
SEN LI ET AL.: "SPEECH BANDWIDTH EXTENSION USING GENERATIVE ADVERSARIAL NETWORKS", 《2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 * |
YUPENG SHI ET AL.: "Speech Loss Compensation by Generative Adversarial Networks", 《2019 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC)》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111866026A (zh) * | 2020-08-10 | 2020-10-30 | 四川湖山电器股份有限公司 | 一种用于语音会议的语音数据丢包处理系统及处理方法 |
CN111953694A (zh) * | 2020-08-13 | 2020-11-17 | 南京百家云科技有限公司 | 一种基于直播的丢包补偿方法及装置 |
CN111953694B (zh) * | 2020-08-13 | 2021-07-23 | 南京百家云科技有限公司 | 一种基于直播的丢包补偿方法及装置 |
CN113192537A (zh) * | 2021-04-27 | 2021-07-30 | 深圳市优必选科技股份有限公司 | 唤醒程度识别模型训练方法及语音唤醒程度获取方法 |
CN113192537B (zh) * | 2021-04-27 | 2024-04-09 | 深圳市优必选科技股份有限公司 | 唤醒程度识别模型训练方法及语音唤醒程度获取方法 |
CN114882867A (zh) * | 2022-04-13 | 2022-08-09 | 天津大学 | 基于滤波器组频率区分的深度网络波形合成方法及装置 |
CN114882867B (zh) * | 2022-04-13 | 2024-05-28 | 天津大学 | 基于滤波器组频率区分的深度网络波形合成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110444224B (zh) | 2022-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110619885B (zh) | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 | |
CN110444224A (zh) | 一种基于生成式对抗网络的语音处理方法及装置 | |
CN108986834B (zh) | 基于编解码器架构与递归神经网络的骨导语音盲增强方法 | |
CN111081268A (zh) | 一种相位相关的共享深度卷积神经网络语音增强方法 | |
CN110739003B (zh) | 基于多头自注意力机制的语音增强方法 | |
CN110136731A (zh) | 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法 | |
CN104966517B (zh) | 一种音频信号增强方法和装置 | |
CN110867181A (zh) | 基于scnn和tcnn联合估计的多目标语音增强方法 | |
CN109785847B (zh) | 基于动态残差网络的音频压缩算法 | |
CN112466320B (zh) | 一种基于生成对抗网络的水声信号降噪方法 | |
CN104995673B (zh) | 帧错误隐藏 | |
CN114974280A (zh) | 音频降噪模型的训练方法、音频降噪的方法及装置 | |
CN115602152B (zh) | 一种基于多阶段注意力网络的语音增强方法 | |
CN111899750B (zh) | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 | |
CN110867192A (zh) | 基于门控循环编解码网络的语音增强方法 | |
CN103456307B (zh) | 音频解码器中帧差错隐藏的谱代替方法及系统 | |
CN104240717B (zh) | 基于稀疏编码和理想二进制掩膜相结合的语音增强方法 | |
CN113299306B (zh) | 回声消除方法、装置、电子设备及计算机可读存储介质 | |
CN112751820B (zh) | 使用深度学习实现数字语音丢包隐藏 | |
Ye et al. | Speech enhancement based on a new architecture of wasserstein generative adversarial networks | |
Shin et al. | Audio coding based on spectral recovery by convolutional neural network | |
CN109215635B (zh) | 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法 | |
CN101059958B (zh) | 利用缓存来加快量化数据取得的编码和解码方法 | |
CN113936680B (zh) | 基于多尺度信息感知卷积神经网络的单通道语音增强方法 | |
CN110958417B (zh) | 一种基于语音线索的视频通话类视频去除压缩噪声的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |