CN111128197A - 基于声纹特征与生成对抗学习的多说话人语音分离方法 - Google Patents
基于声纹特征与生成对抗学习的多说话人语音分离方法 Download PDFInfo
- Publication number
- CN111128197A CN111128197A CN201911356481.9A CN201911356481A CN111128197A CN 111128197 A CN111128197 A CN 111128197A CN 201911356481 A CN201911356481 A CN 201911356481A CN 111128197 A CN111128197 A CN 111128197A
- Authority
- CN
- China
- Prior art keywords
- generator
- voice
- training
- discriminator
- voiceprint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 73
- 238000012549 training Methods 0.000 claims abstract description 126
- 238000000034 method Methods 0.000 claims description 48
- 238000007711 solidification Methods 0.000 claims description 28
- 230000008023 solidification Effects 0.000 claims description 28
- 238000000605 extraction Methods 0.000 claims description 24
- 238000007781 pre-processing Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 7
- 238000013459 approach Methods 0.000 abstract description 3
- 239000000284 extract Substances 0.000 abstract description 2
- 238000001228 spectrum Methods 0.000 description 9
- 230000000873 masking effect Effects 0.000 description 7
- 238000013507 mapping Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 210000002105 tongue Anatomy 0.000 description 1
- 210000000515 tooth Anatomy 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于声纹特征与生成对抗学习的多说话人语音分离方法,用以解决现有技术中语音分离不够准确和纯净的问题。所述多说话人语音分离方法,对目标说话人、其他无关说话人、噪声的音频数据混合得到初始混合训练语料,对目标说话人的纯净训练语料和初始化生成器的分离结果提取声纹特征,完成对判别器的训练;判别器参数固化后,再完成生成器的训练;参数固化的生成器通过生成对抗学习从待分离语音中分离出目标说话人语音。本发明利用了生成对抗学习能生成与目标相似的样本,通过生成对抗网络不断逼近输出分布,减小了多说话人干扰环境中语音数据和真实目标说话人训练数据的分布差异,实现目标说话人音频的跟踪识别。
Description
技术领域
本发明属于语音识别领域,具体涉及一种基于声纹特征与生成对抗学习的多说话人语音分离方法。
背景技术
自动语音识别(Automatic Speech Recognition,ASR),是将人类语音中的词汇内容转换为计算机可读的输入,利用计算机对人类的语言进行识别,作为一种人机之间的沟通方式,被视作未来科技交互的基础性手段。人在不同的环境下说话时,会有不同的干扰,要准确的识别出目标说话人的语言,则需要对采集的音频信息进行语音分离。语音分离包括语音增强、多说话人分离、解混响,其中,多说话人分离最常见。例如,在智能会议即时互译系统中,一方面相关人员在发言时,同样可能伴随着无关人话音或者背景音,这将导致语音识别阶段识别准确度下降影响最终结果。多说话人分离不仅可以提高会议通信的语音质量和可懂度,也是智能家居、无人驾驶、安防监控等多个领域的人机交互中必须解决的问题。
根据采集声音信号的麦克风数量,多说话人分离方法分为多通道语音分离方法(Multi-Channel Speech Separation,MCSS)和单通道语音分离方法(Single-ChannelSpeech Separation,SCSS)。多通道的语音分离方法基于多个接收信号间的相互关系来估计目标信号,利用了信号的空域信息,但是多通道语音的收集需要借助麦克风阵列,对硬件设备要求较高,通用性较差。单通道的语音分离方法主要借助目标语音和干扰信号的声学和统计特性,从混合信号中提取目标语音(或者去除干扰信号),可利用的信息更少而难度更大,但更符合现实场景。
现有技术中,语音分离方法包括传统方法和深度学习方法。其中,深度学习方法将语音分离归纳为监督性学习问题,包括基于掩蔽的语音分离算法和基于频谱映射的语音分离算法。
其中,基于掩蔽的语音分离方法,基于将语音分离任务视为分类问题,常见的时频掩蔽包括理想二值掩蔽和理想浮值掩蔽。但是,时频掩蔽方法未能解决置换不变性问题,无法确保时间轴上每一个点的说话者身份都与上一个点一致,需要后续设计额外的算法挑选目标说话人,而常用的做法是挑选音量最大的频道,但是对于现实场景中干扰者与目标说话者同样接近麦克风时容易失效;另外,时频掩蔽方法直接通过语音生成时频掩码,后通过神经网络分离得到目标语音,但是语音样本较少,并且没有有效的判别性信息,因此分离的结果不够纯净。
而基于频谱映射的语音分离方法,通过多类回归方法从混合语音频谱中恢复目标说话人的语音,让模型通过有监督学习,学习有干扰的频谱到无干扰的频谱(干净语音)之间的映射关系。但是,基于频谱映射深度模型复杂度高,建模能力强,但是它的泛化性严重依赖数据集,如果数据量不足,学习到的频谱映关系不够鲁棒;另外,特征选择通常是通用性特征,基于频谱映射的语音分离方法未能有效结合人耳的听觉选择特性以及不同说话人的声音特征,语音分离的效果不佳。
发明内容
为了提高语音分离的纯净性,解决语音分离的说话人置换问题,本发明提供了一种基于声纹特征与生成对抗学习的多说话人语音分离方法,在对混合语音与目标语音进行训练的基础上,提取目标说话人锚样本的声纹特征,采用生成对抗学习生成器输出特征迷惑判别器,分离出目标说话人,减小多说话人干扰环境中语音数据和真实目标说话人训练数据的分布差异,提升声学模型的鲁棒性,实现同性音频的跟踪识别。
为了实现上述目的,本发明采取了如下技术方案。
第一方面,本发明实施例提供了一种基于声纹特征与生成对抗学习的多说话人语音分离方法,所述多说话人语音分离方法包括如下步骤:
步骤S1,将目标说话人纯净语音作为纯净训练语料;
步骤S2,将目标说话人、其他无关说话人、噪声的音频数据进行混合预处理得到初始混合训练语料,初始化生成器与判别器,指定训练次数;
步骤S3,将初始混合训练语料输入到参数固化的生成器得到生成器输出训练语料,利用声纹提取模块提取纯净训练语料及生成器输出训练语料的声纹特征,并利用所提取的声纹特征,完成对判别器的训练,对判别器进行参数固化;
步骤S4,将初始混合训练语料输入生成器得到生成器分离语音,将生成器分离语音输入判别器,同时根据判别器的反馈,完成对生成器的训练,对生成器进行参数固化;
步骤S5,利用参数固化的生成器,通过生成对抗学习从待分离语音中分离出目标说话人语音。
上述方案中,步骤S2所述混合预处理具体包括如下步骤:
步骤S21,确定目标说话人,在说话人语料集选取目标说话人语音,在说话人语料集选取其他说话人语音,在噪声集中挑选噪声;
步骤S22,将目标说话人作为纯净的目标语音信号starget(t),将其他说话人的语音信号sother(t)与纯噪声nnoise(t)视为噪声,在各种信噪比条件下相加,得到混合的带噪语音信号获得混合语音信号:
y(t)=starget(t)+n(t) (1)
其中,n(t)=∑sother(t)+nnoise(t)。
上述方案中,所述步骤S3的声纹提取,通过声纹提取模块提取目标说话人的声纹特征。
上述方案中,所述判别器与生成器组成生成对抗网络,其中每一个判别器对应一种纯净语音,当需要从一份待分离的多说话人语音中分离出多个目标说话人的语音时,设置与要分离的目标说话人数量相同的判别器数量和生成器数量;每一个判别器与生成器组成一个识别相应目标说话人语音的子生成对抗网络,完成对相应目标说话人语音的分离。
上述方案中,所述步骤S3判别器训练过程,包括如下步骤:
步骤S31,将初始混合训练语料输入到参数固化的生成器得到生成器输出训练语料;
步骤S32,提取纯净训练语料的声纹特征作为第一声纹特征,提取生成器输出训练语料的声纹特征作为第二声纹特征,并将两种声纹特征输入判别器;
步骤S33,判别器学习第一声纹特征和第二声纹特征的区别,当判别器判别出与第一声纹特征相应的纯净训练语料为正样本,与第二声纹特征相应的生成器输出训练语料为负样本时,判别器训练结束,将判别器的参数进行固化,转入步骤S4;否则,进入步骤S31,继续训练。
上述方案中,所述步骤S33当判别器判别出与第一声纹特征相应的纯净训练语料为正样本,与第二声纹特征相应的生成器输出训练语料为负样本时,判别器训练结束,具体为,通过固定生成器G参数,训练判别器D参数:
判定与第一声纹特征相对应的纯净训练语料判断为真,与第二声纹特征相对应的生成器输出训练语料判断为假;
其中,所述V(D,G)表示对抗学习中的价值函数;D代表判别器;G代表生成器;x表示纯净目标说话人语料;z是生成器的输入,为上一次的混合训练语料。
上述方案中,所述步骤S4生成器训练过程,具体包括如下步骤:
步骤S41,将初始混合训练语料输入生成器,生成器输出分离结果作为生成器分离语音;
步骤S42,提取生成器分离语音的声纹特征作为第三声纹特征,并将第三声纹特征输入参数固化的判别器;
步骤S43,将第三声纹特征输入参数固化的判别器,,当判别器将第三声纹特征判别为真数据,且未达到指定训练次数时,生成器训练结束,将生成器的参数进行固化,进入步骤S44,否则,转入步骤S41;
步骤S44,达到指定训练次数时,生成器训练结束,将生成器的参数进行固化,转入步骤S5;否则,转入步骤S3。
上述方案中,所述步骤S43中判别器将第三声纹特征判别为真数据时,生成器训练结束,具体为,固定判别器D参数,训练生成器G参数:
训练生成器时要求判别器将第三声纹特征判别为真数据;
其中,所述V(D,G)表示对抗学习中的价值函数;D代表判别器;G代表生成器;x表示纯净目标说话人语料;z是生成器的输入,为上一次的混合训练语料。
上述方案中,所述步骤S5生成器通过对抗学习分离出目标说话人语音,具体为,利用参数固化的生成器,通过生成对抗学习从待分离语音中分离出目标说话人语音。
第二方面,本发明实施例还提供了一种基于声纹特征及生成对抗学习的多说话人语音分离系统,所述多说话人语音分离系统,包括:锚样本采集模块、混合预处理模块、声纹特征提取模块、至少一个判别器、至少一个生成器;其中,
所述锚样本采集模块,与混合预处理模块和声纹特征提取模块相连,用于将目标说话人纯净语音作为纯净训练语料,将所述纯净训练语料提供给所述混合预处理模块及声纹特征提取模块;
所述混合预处理模块,与声纹特征提取模块和生成器相连,用于将目标说话人、其他无关说话人、噪声的音频数据进行混合预处理得到初始混合训练语料,并提供给所述声纹特征提取模块和生成器;
所述判别器,与生成器组成生成对抗网络,用于利用提取的声纹特征,完成训练并进行参数固化;
所述生成器,用于利用混合训练语料,得到生成器分离语音,根据判别器的反馈,完成训练并进行参数固化,并用于在完成参数固化后通过生成对抗学习对待分离的多说话人语音进行分离。
由上述本发明的实施例提供的技术方案可以看出,本发明实施例的基于声纹特征与生成对抗学习的多说话人语音分离方法,以包括目标说话人与其他说话人的混合语音信号,以及目标说话人的纯净语音作为生成对抗网络的输入,分离后的信号作为输出。其中,生成对抗在判别器,将目标说话人的锚样本作为判别器的正确样本,将生成器的分离结果作为负样本,训练鉴别器分辨是否是目标说话人;在生成器,将预备的多说话人混合语音作为输入样本,每次的输出结果输入至判别器中,直至生成器的输出可以迷惑判别器。该过程充分利用了生成对抗学习能生成与目标相似的样本的特性。声纹提取模块只需要任意文本的锚样本就能提取特定说话人潜在表征。由于生成对抗网络可以会不断逼近输出分布,通过锚样本来得到目标说话人的语音潜在表征,GAN生成器的编码器将多说话人混合音频映射到与目标说话人的相同嵌入空间,训练后提升了不变性,实现了同性音频的“跟踪”识别。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例基于声纹特征的多说话人语音分离方法流程示意图;
图2为本发明实施例多说话人语音分离方法中步骤S3流程示意图;
图3为本发明实施例多说话人语音分离方法中步骤S4流程示意图;
图4本发明实施例基于声纹特征的多说话人语音分离系统结构示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
下面通过几个具体实施例并结合附图,对本发明进行详细说明。
第一实施例
本实施例针对语音识别中的多说话人语音分离,提出了一种基于声纹特征与生成对抗学习的语音分离方法。本实施例中所述多说话人,是一种多人同时讲话的场景下,所要进行的语音分离,是提取目标说话人的语音。优选地,所述多人同时讲话的场景包括:在智能会议即时互译系统中,去除无关人话音或者背景音;在设备端将非目标说话人的语音进行抑制以后再进行语音信号的传输,提高会议通信的语音质量和可懂度;以及应用于智慧城市的发展将在智能家居、无人驾驶、安防监控等多个领域的语音交互中的说话人信号采集中。
图1所示为所述基于声纹特征的多说话人语音分离方法流程示意图。如图1所示,所述多说话人语音分离方法包括如下步骤:
步骤S1,将目标说话人纯净语音(即锚样本)作为纯净训练语料;
步骤S2,将目标说话人、其他无关说话人、噪声的音频数据进行混合预处理得到初始混合训练语料,初始化生成器与判别器,指定训练次数;
步骤S3,将初始混合训练语料输入到参数固化的生成器得到生成器输出训练语料,利用声纹提取模块提取纯净训练语料及生成器输出训练语料的声纹特征,并利用所提取的声纹特征,完成对判别器的训练,对判别器进行参数固化;
步骤S4,将初始混合训练语料输入生成器得到生成器分离语音,将生成器分离语音输入判别器,同时根据判别器的反馈,完成对生成器的训练,对生成器进行参数固化;
步骤S5,利用参数固化的生成器,通过生成对抗学习从待分离语音中分离出目标说话人语音。
本实施例中,所述生成对抗学习,通过生成对抗网络(Generative AdversarialNetwork,GAN)实现。GAN是非监督式学习的一种方法,生成对抗网络由生成器与判别器组成。生成器从潜在空间中随机采样作为输入,其输出结果需要尽量模仿训练集中的真实样本。判别器的输入则为真实样本或生成网络的输出,其目的是将生成网络的输出从真实样本中尽可能分辨出来,而生成网络则要尽可能地欺骗判别网络。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。
进一步地,所述判别器与生成器组成生成对抗网络,其中每一个判别器对应一种纯净语音,当需要从一份待分离的多说话人语音中分离出多个目标说话人的语音时,设置与要分离的目标说话人数量相同的判别器数量和生成器数量。每一个判别器与生成器组成一个识别相应目标说话人语音的子生成对抗网络,完成对相应目标说话人语音的分离。通过上述多判别器设置生成多个子生成对抗网络,从而实现多目标的多说话人语音分离。
在步骤S1中,所述目标说话人,可以是一个,也可以是多个;每个目标说话人对应一个生成对抗网络。本实施例中,仅以其中一个目标说话人为例进行说明。
在步骤S2中,所述混合预处理,在没有混响的条件下,语音传播符合加性噪声假设,因此采用人工合成的数据与真实数据有较好的一致性,使用人工合成的数据训练得到的模型在真实场景下依然能够很好地保持其性能。所述混合预处理具体包括如下步骤:
步骤S21,确定目标说话人,在说话人语料集选取目标说话人语音,在说话人语料集选取其他说话人语音,在噪声集中挑选噪声;
步骤S22,将目标说话人作为纯净的目标语音信号starget(t),将其他说话人的语音信号sother(t)与纯噪声nnoise(t)视为噪声,在各种信噪比条件下相加,即得到混合的带噪语音信号获得混合语音信号:
y(t)=starget(t)+n(t) (1)
其中,n(t)=∑sother(t)+nnoise(t)。
在步骤S3声纹提取中,通过数据驱动方法提取目标说话人的声纹特征。声纹特征,是对语音中所蕴含的、能表征和标识说话人的语音特征。由于每个人在讲话时使用的发声器官如舌头、牙齿、口腔、声带、肺、鼻腔等在尺寸和形态方面有所差异,以及年龄、性格、语言习惯等多种原因,导致不同说话人的声音具有不同的特点,而声纹特征正是用于描述说话人最本质的特性。尤其在成年之后,声纹特征可以在相当长的时间里保持相对稳定不变。
利用生成对抗网络学习目标说话人的语音特征分布,同时生成的结果还可以用于正样本扩充,从而获得纯净的、可用于后端识别的语音信号,有效提升语音识别中对于多说话人背景与噪声背景的鲁棒性,解决了样本数目不足的问题。同时,通过声纹特征提取模块提取声纹特征,从而定向地分离出有无关说话人或者噪声时混合音频中目标说话者的声音,实现了目标说话人的定向分离,而无需后滤波来拼接,有效提升了分离的准确性,解决了语音分离的说话人置换问题。
图2所示为所述步骤S3判别器训练过程,如图2所示,所述步骤S3判别器的训练过程,包括如下步骤:
步骤S31,将初始混合训练语料输入到参数固化的生成器得到生成器输出训练语料;
步骤S32,提取纯净训练语料的声纹特征作为第一声纹特征,提取生成器输出训练语料的声纹特征作为第二声纹特征,并将两种声纹特征输入判别器;
步骤S33,判别器学习第一声纹特征和第二声纹特征的区别,当判别器判别出与第一声纹特征相应的纯净训练语料为正样本,与第二声纹特征相应的训练语料为负样本时,判别器训练结束,将判别器的参数进行固化,转入步骤S4;否则,进入步骤S31,继续训练。
图3所示为所述步骤S4生成器训练过程,如图3所示,所述步骤S4的生成器训练过程,具体包括如下步骤:
步骤S41,将初始混合训练语料输入生成器,生成器输出分离结果作为生成器分离语音;
步骤S42,提取生成器分离语音的声纹特征作为第三声纹特征,并将第三声纹特征输入参数固化的判别器;
步骤S43,将第三声纹特征输入参数固化的判别器,,当判别器将第三声纹特征判别为真数据,且未达到指定训练次数时,生成器训练结束,将生成器的参数进行固化,进入步骤S44,否则,转入步骤S41;
步骤S44,达到指定训练次数时,生成器训练结束,将生成器的参数进行固化,转入步骤S5;否则,转入步骤S3。
其中,所述步骤S43中,判别器负责向生成器提供生成数据的真伪信息,帮助生成器向着“生成干净声音”的方向微调。由于没有限制假设,这种新型鲁棒训练方法理论上能够在没有对齐或复杂的推断流程,甚至没有增强的情况下提高鲁棒性。
生成对抗网络的整体优化目标为:
其中,所述V(D,G)表示对抗学习中的价值函数;D代表Discriminator,即判别器;G代表Generator,即生成器。x表示真实数据,即纯净目标说话人语音;z是生成器的输入,即混合待分离语音。
整个过程是最大化、最小化过程,这里的最大化、最小化是分别对应判别器与生成器的训练目标,训练时判别器与生成器分开进行迭代优化。
训练判别器时,固定生成器G参数,训练判别器D参数:
训练判别器时要求对于纯净训练语料判断为真(第一声纹特征),混合训练语料判断为假(第二声纹特征)。
训练生成器时,固定判别器D参数,训练生成器G参数:
训练生成器时要求判别器将生成器分离语音(第三声纹特征)判别为真数据。生成对抗网络可以会不断逼近输出分布,实现了对同源语音的“跟踪”。单个生成对抗网络可以实现一位目标说话人的分离,该算法可以在目标说话人数目上进行拓展,根据目标说话人的个数设定不同个数的子生成对抗网络,从而实现多目标的多说话人语音分离。
所述步骤S33和步骤S43生成器通过对抗学习分离出目标说话人语音,具体为,通过声纹编码生成代表目标说话者的声纹特征,并根据该特征,定向地分离出有噪声时频谱中目标说话人的声音,充分考虑到不同说话人最为本质的特征,具有较好的不变性和鲁棒性,而不会损失语音本身具有的信息。
优选地,所述声纹编码模块,可以使用前馈神经网络、卷积网络、循环神经网络等深度神经网络。
判别器和生成器组成生成对抗网络,生成对抗网络是一个隐性的对密度函数学习的过程,减少了传统人为建模的工作,可以训练大多数生成器。有效避免传统方法对信号处理领域专业知识或简化假设的深度依赖,直接鼓励以数据驱动的方式使得生成的分离流与目标流分布相同,最终实现多说话人语音中的目标说话人语音的分离提取。将生成对抗网络(GAN)采用回归的方法,应用于语音分离问题,模型在其他深度模型的基础上,增加了调整生成效果的判别模型,判别模型负责向生成模型提供数据的真伪信息,帮助生成模型向着“生成目标声音”的方向微调,生成模型与判别模型相互博弈相互促进,相对于其他单独生成目标语音的分离模型效果更加理想。
由以上技术方案可以看出,本实施例基于声纹特征的多说话人语音分离方法,以包括目标说话人与其他说话人语音信号和潜在表征作为生成对抗网络的输入,分离后的信号作为输出。其中,生成对抗在判别器,将目标说话人的锚样本作为判别器的正确样本,将生成器的分离结果作为负样本,训练鉴别器分辨是否是目标说话人;在生成器,将预备的多说话人混合语音作为输入样本,每次的输出结果输入至判别器中,直至生成器的输出可以迷惑判别器。由于生成对抗网络可以会不断逼近输出分布,只需要任意文本的锚样本就提供特定说话人潜在表征。通过锚样本来得到目标说话人的语音潜在表征,GAN生成器的编码器将多说话人混合音频映射到与目标说话人的相同嵌入空间,训练后提升了不变性;将混合音频通过深度对抗的联合训练策略,有效减小了多说话人干扰环境中语音数据和真实目标说话人训练数据的分布差异,提升了声学模型的鲁棒性,实现了同性音频的“跟踪”识别。
第二实施例
本实施例提供了一种基于声纹特征及生成对抗学习的多说话人语音分离系统。图4所示为所述基于声纹特征及生成对抗学习的多说话人语音分离系统结构示意图。如图4所示,所述多说话人语音分离系统,包括:锚样本采集模块、混合预处理模块、声纹特征提取模块、至少一个判别器、至少一个生成器。
其中,所述锚样本采集模块,与混合预处理模块和声纹特征提取模块相连,用于将目标说话人纯净语音(即锚样本)作为纯净训练语料,将所述纯净训练语料提供给所述混合预处理模块及声纹特征提取模块。
所述混合预处理模块,与声纹特征提取模块和生成器相连,用于将目标说话人、其他无关说话人、噪声的音频数据进行混合预处理得到初始混合训练语料,并提供给所述声纹特征提取模块和生成器。
所述判别器,与生成器组成生成对抗网络,用于利用提取的声纹特征,完成训练并进行参数固化。
所述生成器,用于利用混合训练语料,得到生成器分离语音,根据判别器的反馈,完成训练并进行参数固化,并用于在完成参数固化后通过生成对抗学习对待分离的多说话人语音进行分离。
本实施例的基于声纹特征及生成对抗学习的多说话人语音分离系统与第一实施例的基于声纹特征及生成对抗学习的多说话人语音分离方法是相对应的,对多说话人语音分离方法的技术特征的描述,同样适用于本实施例的多说话人语音分离系统,在此不再赘述。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种基于声纹特征与生成对抗学习的多说话人语音分离方法,其特征在于,所述多说话人语音分离方法包括如下步骤:
步骤S1,将目标说话人纯净语音作为纯净训练语料;
步骤S2,将目标说话人、其他无关说话人、噪声的音频数据进行混合预处理得到初始混合训练语料,初始化生成器与判别器,指定训练次数;
步骤S3,将初始混合训练语料输入到参数固化的生成器得到生成器输出训练语料,利用声纹提取模块提取纯净训练语料及生成器输出训练语料的声纹特征,并利用所提取的声纹特征,完成对判别器的训练,对判别器进行参数固化;
步骤S4,将初始混合训练语料输入生成器得到生成器分离语音,将生成器分离语音输入判别器,同时根据判别器的反馈,完成对生成器的训练,对生成器进行参数固化;
步骤S5,利用参数固化的生成器,通过生成对抗学习从待分离语音中分离出目标说话人语音。
2.根据权利要求1所述的多说话人语音分离方法,其特征在于,步骤S2所述混合预处理具体包括如下步骤:
步骤S21,确定目标说话人,在说话人语料集选取目标说话人语音,在说话人语料集选取其他说话人语音,在噪声集中挑选噪声;
步骤S22,将目标说话人作为纯净的目标语音信号starget(t),将其他说话人的语音信号sother(t)与纯噪声nnoise(t)视为噪声,在各种信噪比条件下相加,得到混合的带噪语音信号获得混合语音信号:
y(t)=starget(t)+n(t) (1)
其中,n(t)=∑sother(t)+nnoise(t)。
3.根据权利要求1所述的多说话人语音分离方法,其特征在于,所述步骤S3的提取声纹特征,通过数据驱动方法提取目标说话人的声纹特征。
4.根据权利要求1所述的多说话人语音分离方法,其特征在于,所述判别器与所述生成器组成生成对抗网络,其中每一个判别器对应一种纯净语音,当需要从一份待分离的多说话人语音中分离出多个目标说话人的语音时,设置与要分离的目标说话人数量相同的判别器数量和生成器数量;每一个判别器与生成器组成一个识别相应目标说话人语音的子生成对抗网络,完成对相应目标说话人语音的分离。
5.根据权利要求4所述的多说话人语音分离方法,其特征在于,所述步骤S3完成对判别器的训练,包括如下步骤:
步骤S31,将初始混合训练语料输入到参数固化的生成器得到生成器输出训练语料;
步骤S32,提取纯净训练语料的声纹特征作为第一声纹特征,提取生成器输出训练语料的声纹特征作为第二声纹特征,并将两种声纹特征输入判别器;
步骤S33,判别器学习第一声纹特征和第二声纹特征的区别,当判别器判别出与第一声纹特征相应的纯净训练语料为正样本,与第二声纹特征相应的生成器输出训练语料为负样本时,判别器训练结束,将判别器的参数进行固化,转入步骤S4;否则,转入步骤S31。
7.根据权利要求5所述的多说话人语音分离方法,其特征在于,所述步骤S4完成对生成器的训练,具体包括如下步骤:
步骤S41,将初始混合训练语料输入生成器,生成器输出分离结果作为生成器分离语音;
步骤S42,提取生成器分离语音的声纹特征作为第三声纹特征,并将第三声纹特征输入参数固化的判别器;
步骤S43,将第三声纹特征输入参数固化的判别器,当判别器将第三声纹特征判别为真数据,且未达到指定训练次数时,生成器训练结束,将生成器的参数进行固化,进入步骤S44,否则,转入步骤S41;
步骤S44,达到指定训练次数时,生成器训练结束,将生成器的参数进行固化,转入步骤S5;否则,转入步骤S3。
9.根据权利要求7所述的多说话人语音分离方法,其特征在于,所述步骤S5生成器通过对抗学习分离出目标说话人语音,具体为,利用参数固化的生成器,通过生成对抗学习从待分离语音中分离出目标说话人语音。
10.一种基于声纹特征及生成对抗学习的多说话人语音分离系统,其特征在于,所述多说话人语音分离系统,包括:锚样本采集模块、混合预处理模块、声纹特征提取模块、至少一个判别器、至少一个生成器;其中,
所述锚样本采集模块,与混合预处理模块和声纹特征提取模块相连,用于将目标说话人纯净语音作为纯净训练语料,将所述纯净训练语料提供给所述混合预处理模块及声纹特征提取模块;
所述混合预处理模块,与声纹特征提取模块和生成器相连,用于将目标说话人、其他无关说话人、噪声的音频数据进行混合预处理得到初始混合训练语料,并提供给所述声纹特征提取模块和生成器;
所述判别器,与生成器组成生成对抗网络,用于利用提取的声纹特征,完成训练并进行参数固化;
所述生成器,用于利用混合训练语料,得到生成器分离语音,根据判别器的反馈,完成训练并进行参数固化,并用于在完成参数固化后通过生成对抗学习对待分离的多说话人语音进行分离。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911356481.9A CN111128197B (zh) | 2019-12-25 | 2019-12-25 | 基于声纹特征与生成对抗学习的多说话人语音分离方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911356481.9A CN111128197B (zh) | 2019-12-25 | 2019-12-25 | 基于声纹特征与生成对抗学习的多说话人语音分离方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111128197A true CN111128197A (zh) | 2020-05-08 |
CN111128197B CN111128197B (zh) | 2022-05-13 |
Family
ID=70502099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911356481.9A Active CN111128197B (zh) | 2019-12-25 | 2019-12-25 | 基于声纹特征与生成对抗学习的多说话人语音分离方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111128197B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111583954A (zh) * | 2020-05-12 | 2020-08-25 | 中国人民解放军国防科技大学 | 一种说话人无关单通道语音分离方法 |
CN111627457A (zh) * | 2020-05-13 | 2020-09-04 | 广州国音智能科技有限公司 | 语音分离方法、系统及计算机可读存储介质 |
CN111785281A (zh) * | 2020-06-17 | 2020-10-16 | 国家计算机网络与信息安全管理中心 | 一种基于信道补偿的声纹识别方法及系统 |
CN111816208A (zh) * | 2020-06-17 | 2020-10-23 | 厦门快商通科技股份有限公司 | 一种语音分离质量评估方法、装置及计算机存储介质 |
CN112289324A (zh) * | 2020-10-27 | 2021-01-29 | 湖南华威金安企业管理有限公司 | 声纹身份识别的方法、装置和电子设备 |
CN112331218A (zh) * | 2020-09-29 | 2021-02-05 | 北京清微智能科技有限公司 | 一种针对多说话人的单通道语音分离方法和装置 |
CN112562649A (zh) * | 2020-12-07 | 2021-03-26 | 北京大米科技有限公司 | 一种音频处理的方法、装置、可读存储介质和电子设备 |
CN112562712A (zh) * | 2020-12-24 | 2021-03-26 | 上海明略人工智能(集团)有限公司 | 一种录音数据处理方法、系统、电子设备及存储介质 |
CN112687275A (zh) * | 2020-12-25 | 2021-04-20 | 北京中科深智科技有限公司 | 一种语音过滤方法和过滤系统 |
CN112990026A (zh) * | 2021-03-19 | 2021-06-18 | 西北大学 | 基于对抗训练的无线信号感知模型构建、感知方法及系统 |
CN113113044A (zh) * | 2021-03-23 | 2021-07-13 | 北京小米移动软件有限公司 | 音频处理方法及装置、终端及存储介质 |
CN113488069A (zh) * | 2021-07-06 | 2021-10-08 | 浙江工业大学 | 基于生成式对抗网络的语音高维特征快速提取方法和装置 |
CN113555028A (zh) * | 2021-07-19 | 2021-10-26 | 首约科技(北京)有限公司 | 一种用于车联网语音降噪的处理方法 |
CN113571084A (zh) * | 2021-07-08 | 2021-10-29 | 咪咕音乐有限公司 | 音频处理方法、装置、设备及存储介质 |
CN114974261A (zh) * | 2022-05-12 | 2022-08-30 | 厦门快商通科技股份有限公司 | 一种语音验证方法、终端设备及存储介质 |
CN115035907A (zh) * | 2022-05-30 | 2022-09-09 | 中国科学院自动化研究所 | 一种目标说话人分离系统、设备及存储介质 |
WO2023035397A1 (zh) * | 2021-09-07 | 2023-03-16 | 科大讯飞股份有限公司 | 一种语音识别方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109326302A (zh) * | 2018-11-14 | 2019-02-12 | 桂林电子科技大学 | 一种基于声纹比对和生成对抗网络的语音增强方法 |
CN109410974A (zh) * | 2018-10-23 | 2019-03-01 | 百度在线网络技术(北京)有限公司 | 语音增强方法、装置、设备及存储介质 |
US10388272B1 (en) * | 2018-12-04 | 2019-08-20 | Sorenson Ip Holdings, Llc | Training speech recognition systems using word sequences |
-
2019
- 2019-12-25 CN CN201911356481.9A patent/CN111128197B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109410974A (zh) * | 2018-10-23 | 2019-03-01 | 百度在线网络技术(北京)有限公司 | 语音增强方法、装置、设备及存储介质 |
CN109326302A (zh) * | 2018-11-14 | 2019-02-12 | 桂林电子科技大学 | 一种基于声纹比对和生成对抗网络的语音增强方法 |
US10388272B1 (en) * | 2018-12-04 | 2019-08-20 | Sorenson Ip Holdings, Llc | Training speech recognition systems using word sequences |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111583954A (zh) * | 2020-05-12 | 2020-08-25 | 中国人民解放军国防科技大学 | 一种说话人无关单通道语音分离方法 |
CN111627457A (zh) * | 2020-05-13 | 2020-09-04 | 广州国音智能科技有限公司 | 语音分离方法、系统及计算机可读存储介质 |
CN111785281A (zh) * | 2020-06-17 | 2020-10-16 | 国家计算机网络与信息安全管理中心 | 一种基于信道补偿的声纹识别方法及系统 |
CN111816208A (zh) * | 2020-06-17 | 2020-10-23 | 厦门快商通科技股份有限公司 | 一种语音分离质量评估方法、装置及计算机存储介质 |
CN112331218A (zh) * | 2020-09-29 | 2021-02-05 | 北京清微智能科技有限公司 | 一种针对多说话人的单通道语音分离方法和装置 |
CN112289324A (zh) * | 2020-10-27 | 2021-01-29 | 湖南华威金安企业管理有限公司 | 声纹身份识别的方法、装置和电子设备 |
CN112289324B (zh) * | 2020-10-27 | 2024-05-10 | 湖南华威金安企业管理有限公司 | 声纹身份识别的方法、装置和电子设备 |
CN112562649A (zh) * | 2020-12-07 | 2021-03-26 | 北京大米科技有限公司 | 一种音频处理的方法、装置、可读存储介质和电子设备 |
CN112562649B (zh) * | 2020-12-07 | 2024-01-30 | 北京大米科技有限公司 | 一种音频处理的方法、装置、可读存储介质和电子设备 |
CN112562712A (zh) * | 2020-12-24 | 2021-03-26 | 上海明略人工智能(集团)有限公司 | 一种录音数据处理方法、系统、电子设备及存储介质 |
CN112687275A (zh) * | 2020-12-25 | 2021-04-20 | 北京中科深智科技有限公司 | 一种语音过滤方法和过滤系统 |
CN112990026B (zh) * | 2021-03-19 | 2024-01-19 | 西北大学 | 基于对抗训练的无线信号感知模型构建、感知方法及系统 |
CN112990026A (zh) * | 2021-03-19 | 2021-06-18 | 西北大学 | 基于对抗训练的无线信号感知模型构建、感知方法及系统 |
CN113113044A (zh) * | 2021-03-23 | 2021-07-13 | 北京小米移动软件有限公司 | 音频处理方法及装置、终端及存储介质 |
CN113488069A (zh) * | 2021-07-06 | 2021-10-08 | 浙江工业大学 | 基于生成式对抗网络的语音高维特征快速提取方法和装置 |
CN113488069B (zh) * | 2021-07-06 | 2024-05-24 | 浙江工业大学 | 基于生成式对抗网络的语音高维特征快速提取方法和装置 |
CN113571084A (zh) * | 2021-07-08 | 2021-10-29 | 咪咕音乐有限公司 | 音频处理方法、装置、设备及存储介质 |
CN113571084B (zh) * | 2021-07-08 | 2024-03-22 | 咪咕音乐有限公司 | 音频处理方法、装置、设备及存储介质 |
CN113555028A (zh) * | 2021-07-19 | 2021-10-26 | 首约科技(北京)有限公司 | 一种用于车联网语音降噪的处理方法 |
CN113555028B (zh) * | 2021-07-19 | 2024-08-02 | 首约科技(北京)有限公司 | 一种用于车联网语音降噪的处理方法 |
WO2023035397A1 (zh) * | 2021-09-07 | 2023-03-16 | 科大讯飞股份有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN114974261A (zh) * | 2022-05-12 | 2022-08-30 | 厦门快商通科技股份有限公司 | 一种语音验证方法、终端设备及存储介质 |
CN115035907A (zh) * | 2022-05-30 | 2022-09-09 | 中国科学院自动化研究所 | 一种目标说话人分离系统、设备及存储介质 |
US11978470B2 (en) | 2022-05-30 | 2024-05-07 | Institute Of Automation, Chinese Academy Of Sciences | Target speaker separation system, device and storage medium |
CN115035907B (zh) * | 2022-05-30 | 2023-03-17 | 中国科学院自动化研究所 | 一种目标说话人分离系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111128197B (zh) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111128197B (zh) | 基于声纹特征与生成对抗学习的多说话人语音分离方法 | |
Chen et al. | Deep attractor network for single-microphone speaker separation | |
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
US20220148571A1 (en) | Speech Recognition Method and Apparatus, and Computer-Readable Storage Medium | |
CN106104674B (zh) | 混合语音识别 | |
Nakatani et al. | Integrating DNN-based and spatial clustering-based mask estimation for robust MVDR beamforming | |
Liao et al. | Noise adaptive speech enhancement using domain adversarial training | |
CN110600018A (zh) | 语音识别方法及装置、神经网络训练方法及装置 | |
CN109887489B (zh) | 基于生成对抗网络的深度特征的语音去混响方法 | |
US7319769B2 (en) | Method to adjust parameters of a transfer function of a hearing device as well as hearing device | |
CN109410976A (zh) | 双耳助听器中基于双耳声源定位和深度学习的语音增强方法 | |
CN108766459A (zh) | 一种多人语音混合中目标说话人估计方法及系统 | |
CN112071330A (zh) | 一种音频数据处理方法、设备以及计算机可读存储介质 | |
CN113205803B (zh) | 一种具有自适应降噪能力的语音识别方法及装置 | |
Sun et al. | A speaker-dependent approach to separation of far-field multi-talker microphone array speech for front-end processing in the CHiME-5 challenge | |
CN113707136B (zh) | 服务型机器人语音交互的音视频混合语音前端处理方法 | |
CN112017686B (zh) | 基于门控递归融合深度嵌入式特征的多通道语音分离系统 | |
Gul et al. | A survey of audio enhancement algorithms for music, speech, bioacoustics, biomedical, industrial and environmental sounds by image U-Net | |
Zezario et al. | Speech enhancement with zero-shot model selection | |
Marcinek et al. | N-MTTL SI Model: Non-Intrusive Multi-Task Transfer Learning-Based Speech Intelligibility Prediction Model with Scenery Classification. | |
Martín-Morató et al. | Analysis of data fusion techniques for multi-microphone audio event detection in adverse environments | |
CN116434758A (zh) | 声纹识别模型训练方法、装置、电子设备及存储介质 | |
CN116798434A (zh) | 一种基于人声特质的通信增强方法、系统及存储介质 | |
Wang et al. | Robust speech recognition from ratio masks | |
Wu et al. | A unified deep modeling approach to simultaneous speech dereverberation and recognition for the REVERB challenge |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |