CN115035907A - 一种目标说话人分离系统、设备及存储介质 - Google Patents
一种目标说话人分离系统、设备及存储介质 Download PDFInfo
- Publication number
- CN115035907A CN115035907A CN202210602186.2A CN202210602186A CN115035907A CN 115035907 A CN115035907 A CN 115035907A CN 202210602186 A CN202210602186 A CN 202210602186A CN 115035907 A CN115035907 A CN 115035907A
- Authority
- CN
- China
- Prior art keywords
- cues
- auditory
- speaker
- cue
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 68
- 238000012549 training Methods 0.000 claims abstract description 58
- 238000000034 method Methods 0.000 claims abstract description 51
- 238000004088 simulation Methods 0.000 claims abstract description 12
- 230000002452 interceptive effect Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 16
- 230000000873 masking effect Effects 0.000 claims description 16
- 230000000007 visual effect Effects 0.000 claims description 15
- 238000011156 evaluation Methods 0.000 claims description 10
- 210000004556 brain Anatomy 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 6
- 230000000670 limiting effect Effects 0.000 claims description 6
- 238000002156 mixing Methods 0.000 claims description 4
- 238000012544 monitoring process Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 4
- 230000002708 enhancing effect Effects 0.000 abstract description 3
- 230000002123 temporal effect Effects 0.000 abstract description 3
- 238000001914 filtration Methods 0.000 abstract description 2
- 230000003935 attention Effects 0.000 description 11
- 230000003993 interaction Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000007613 environmental effect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000036961 partial effect Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 210000005069 ears Anatomy 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000010332 selective attention Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/007—Two-channel systems in which the audio signals are in digital form
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Electrically Operated Instructional Devices (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明提供一种目标说话人分离系统、电子设备及存储介质,系统包括:首先基于掩蔽的预训练策略对多种线索进行联合统一建模,提升模型对缺失线索的推断能力,并增强被扰动线索的表征精度;其次,构建层级化的线索调制模块。分别在初级线索调制模块中引入空间线索定向增强说话人语音;在中级线索调制模块中基于动态线索与听觉信号分量的时间相干性增强说话人语音;并在高级线索调制模块中引入稳态线索进行选择性过滤;最后,充分发挥仿真数据的有监督学习能力和真实混合数据的无监督学习效果,构建多线索约束下更高效的半监督学习方法。将“分离‑再混合”的无监督学习融入到线索驱动目标说话人分离框架下,提升系统在真实嘈杂环境下的自适应能力。
Description
技术领域
本发明属于智能语音交互领域,尤其涉及一种目标说话人分离系统、设备及存储介质。
背景技术
随着信息技术和物联网的发展,人机交互已融入人们的日常生活中,而语音已成为人机交互的重要方式之一,其相较于视觉等其他信息,在信息传递的实时性、灵活性和硬件依赖性等方面具备显著优势。尤其是近年来,随着互联网技术的高速发展和智能终端设备的大规模普及,催生出了各种内置语音交互模块的商业化产品,如智能家居、智能音箱和智能车载环境等。但随着逐渐增加的巨大产业需求的同时,也对相关的语音技术提出了更高的要求。
随着人工智能和深度学习技术的发展,端到端的而语音识别技术越加成熟,目前在安静或含有微弱噪声的环境下,语音识别的准确率已经接近人类的水准。但是对于远场语音,含有较为嘈杂的噪声尤其有各种其他人声干扰环境下,以及各种混响环境等因素影响下,语音识别的性能大大降低。由此催生出了围绕鸡尾酒会问题的相关语音分离任务,语音分离的相关算法可置为语音识别的前置模块,得到目标源的纯净语音后再进行语音识别可大大提升语音识别的准确率,提升人机交互的体验感。
传统语音分离技术主要是基于信号处理的方法,近期在深度学习的推动下,语音分离被建模为基于数据驱动的探究语音、说话人和背景噪声内部模式的监督学习问题。大量基于深度神经网络的语音分离方法包括排列不变训练(PIT)和时域语音分离网络(TasNet)等盲源分离方法显著提升了模型在语音分离基准数据集上的表现,有力推动了语音分离任务的解决。但如上工作均需要预先指定说话人数目以尝试将所有说话人语音全部分离。然而,真实的听觉场景常常比较复杂,其混合的说话人数目是难以确定或动态变化的。预先给定混合说话人数目这种假设过于严格,从而限制了训练阶段使用的混合语音不能额外混入含显著说话人语音的噪音以避免模型输出不匹配,另外在推断阶段需要提前获得混合语音中的说话人数目作为先验知识指导模型进行语音分离。
为了使模型能够适应真实嘈杂的听觉场景,一些工作开始借鉴人脑在复杂听觉场景下的选择性听觉注意行为,引入部分目标说话人相关线索驱动模型仅关注混合语音中目标人语音,而忽略其他各种类型的干扰说话人语音和环境噪音。
现有技术缺点
1.语音分离模型如何在真实混合数据上进行有效训练的问题:一些研究人员尝试使用可人工标注的信息进行弱监督学习。例如借助可人工转录的语音文本来计算语音分离后的语音识别连接时序分类(CTC)损失来进行模型训练。但是,这需要使用一些约束算法来尽量保证中间环节生成的语音不严重失真。另外还有一些工作尝试使用“分离-再混合”策略直接在多源混合数据上来进行模型训练,但是这些工作普遍存在过分离或者欠分离的问题。
2.单一或部分线索构建的听觉注意模型存在场景局限性和性能瓶颈上限问题:一些工作尝试通过引入部分目标人相关线索引导听觉模型仅关注混合语音中目标人语音,而忽略其他各种类型的干扰人语音和环境噪音,例如有工作使用声纹做为说话人线索引导模型关注目标人语音,还有一些工作分别尝试整合具有时间相干性的视觉模态或构建基于神经网络的空间线索来引导模型关注目标人语音。但是如上基于单一或部分线索构建的听觉模型存在场景局限性,并且在不同的声学场景下表现出不同的鲁棒性问题。例如,视觉线索很容易被遮挡而难以获取到,声纹线索在说话人音色相似情况下对目标人语音的增强作用有限,而空间线索对在混响严重和空间相近声源的干扰情况下也变得不可靠。
3.语音分离模型在真实混合语音数据上评估受限问题:大多语音分离方法是基于纯净语音仿真合成混合语音作为网络输入进行训练,纯净语音作为输出信号的标签基于尺度不变信号失真比(SI-SDR)指标对神经网络进行拟合,以及对分离结果进行批量客观评估。但是模型对真实数据进行评估时,通常很难从真实混合语音中获取到纯净目标人语音,因此无法直接计算SI-SDR,给出一个客观指标,通常只能人去主观性的对分离语音进行评估,但是存在个体间的主观差异以及逐条去听带来的效率低下问题。
发明内容
为解决上述技术问题,本发明提出一种目标说话人分离系统、设备及存储介质的技术方案,以解决上述技术问题。
本发明第一方面公开了一种目标说话人分离系统,所述系统包括:
线索调制模块和预训练的听觉线索编码器;双通道多说话人混合信号经过一维时序卷积编码后分别输入到所述线索调制模块和听觉线索编码器;所述听觉线索编码器将脑信号解码的听觉线索和场景可获取的听觉线索统一表征为空间线索、动态线索和稳态线索;所述线索调制模块包括:初级调制模块、中级调制模块和高级调制模块;所述听觉线索编码器将从双耳时间差和方位中提取的空间线索融入到所述初级调制模块,所述初级调制模块将经过一维时序卷积编码后的双通道多说话人混合信号和所述空间线索编码,得到随时间低频变化的时域语义特征;所述听觉线索编码器将从视觉和包络中提取的动态线索融入到所述中级调制模块,所述中级调制模块将所述时域语义特征与所述动态线索编码,得到在特征空间中表现出的稳态特征;所述听觉线索编码器将从基频和声纹中提取的稳态线索融入到所述高级调制模块,所述高级调制模块将所述稳态特征和所述稳态线索融合,输出最终调制后的语音特征,然后经过一维时序转置卷积解码出目标说话人听觉信号,输出听觉信号;
所述听觉线索编码器提取所述空间线索、动态线索和稳态线索均采用基于掩蔽预训练的听觉线索推断方法。
根据本发明第一方面的系统,采用基于掩蔽预训练的听觉线索推断方法提取所述空间线索包括:
以所述双耳时间差作为所述听觉线索编码器预测空间线索表征的拟合目标;
采用基于掩蔽预训练的听觉线索推断方法提取所述动态线索包括:
以重构时序包络为所述听觉线索编码器预测动态线索表征的目标;
采用预训练好的视觉编码模块,从视觉流中提取与听觉相关的动态线索进行建模;
采用基于掩蔽预训练的听觉线索推断方法提取所述稳态线索包括:
以所述声纹作为所述听觉线索编码器预测稳态线索表征的判别目标。
根据本发明第一方面的系统,所述目标说话人分离系统的训练采用半监督学习,训练阶段分为两个部分:
第一部分:在仿真混合数据集上利用纯净语音进行有监督训练;
第二部分:在真实数据集上基于“分离再混合策略”进行无监督训练。
根据本发明第一方面的系统,所述在仿真混合数据集上利用纯净语音进行有监督训练的方法包括:
输入仿真混合语音由1至3个说话人语音和背景噪声组成;
固定第一个通道来分离目标说话人语音的同时,并强制所述仿真混合语音的剩余部分被分离到具有最佳排列损失的其他通道中;
模型,即目标说话人分离系统,训练损失包含两个:目标说话人分离损失L1,利用所述模型在所述第一个通道的预测语音与目标说话人纯净语音之间的重构损失训练模型;
另外一个损失为多个干扰声源的排列不变损失L2,然后基于所述多个干扰声源的预测信号与仿真数据集中纯净信号间的重构损失来优化模型;所述多个干扰声源包括干扰说话人语音和环境噪音。
根据本发明第一方面的系统,所述在真实数据集上基于“分离再混合策略”进行无监督训练的方法包括:
首先从真实数据集中随机选择两个真实混合语音,并限定目标说话人语音始终存在于第一个真实混合语音中,而第二个真实混合语音不包含目标说话人语音;
然后将所述两个真实混合语音进行叠加混合输入至所述模型,所述模型输出M个分离音频,所述M为预先设定好的分离输出通道;对分离后的M个音频进行组合混合形成两个预测混合语音,再计算所述两个预测混合语音与两个真实混合语音的重构损失L3。
根据本发明第一方面的系统,所述半监督学习方法还包括:
从真实数据集获取目标说话人的伪纯净参考语音,应用p比例的伪纯净参考语音来监督目标说话人的声源信号的重构损失L4。
根据本发明第一方面的系统,所述训练阶段的损失函数为:
L=L1+L2+(1-p)L3+p L4
其中,L为训练阶段的损失函数;p为伪纯净参考语音的比例系数。
根据本发明第一方面的系统,所述从真实数据集获取目标说话人的伪纯净参考语音的方法包括:
对所述空间线索、动态线索和稳态线索中的每种线索组合驱动模型预测的目标说人语音,进行语音识别性能评估,找到具有最佳语音识别性能的预测的目标说人语音作为伪纯净参考语音。
本发明第二方面提供了一种电子设备,所述设备包括存储器和处理器,所述存储器上存储有计算机程序,该计算机程序被所述处理器执行时,执行如本发明第一方面所述的一种目标说话人分离系统中的方法。
本发明第三方面提供了一种存储介质,该存储介质存储的计算机程序,能够被一个或多个处理器执行,能够用来实现如本发明第一方面所述的一种目标说话人分离系统中的方法。
本发明提出的方案,具有如下有益效果:
(1)传统语音分离范式无法适应真实环境下说话人数目未知或动态变化的场景。本发明的多线索驱动的目标说话人分离范式充分整合了多种类型听觉线索,包括空间、动态和稳态线索,从多说话人含噪语音中抽取目标人语音,能够更好地适应真实环境下的应用;
(2)一些基于单一或部分线索构建的听觉模型存在场景局限性,比如视觉线索在一些场景获取受限,声纹线索在说话人音色相似情况下无效,空间线索在混响严重的空间下也变得不可靠。本发明整合了多种类型听觉线索构建目标说话人分离模型抽取目标人语音,弥补单一线索的场景限制和性能上限问题;
(3)本发明针对线索表征弱以及线索缺失问题,本项目提出了基于线索掩蔽预训练的方法学习多种线索间的关联表征,实现对缺失线索的推断,并进一步提升了线索的表征精度。有效克服了听觉线索不可获取、区分度低、可靠性差、甚至完全错误的情况,进一步提高真实环境下产业落地的可行性;
(4)大多语音分离工作是基于仿真混合语音的有监督训练范式,该方式存在的问题是仿真数据与真实数据存在一定程度的差异,模型在真实场景下存在场景不匹配问题,导致实际应用的泛化性较差。本发明提出一种面向目标说话人分离的半监督学习方法,可直接在真实混合语音上进行训练,在固定通道输出目标说话人语音的同时尝试在其他通道分离输出各个干扰声源,有效解决真实部署环境数据分布不匹配的问题。
(5)目前对模型在真实混合语音上评估的方法主要依赖人主观性的去听,但是不同个体间存在主观差异,不能提供一个客观指标进行公平评测。另外也有一些方法将分离后的语音作为语音识别引擎的输入,进行字错误率等指标的评估,但是这也依赖于语音识别引擎的性能,用于评估分离性能也不完全准确。本发明提出一种伪纯净参考语音的生成方法,可用于面向真实数据产生伪纯净参考语音进行声学评估。
(6)另外基于上述构建的伪纯净参考语音可进行模型在真实数据上的声学调优,进一步提升模型在真实场景下的鲁棒性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例的一种目标说话人分离系统的结构图;
图2为根据本发明实施例的基于掩蔽预训练的听觉线索推断示意图;
图3为根据本发明实施例的面向多线索驱动目标说话人分离的半监督学习方法示意图;
图4为根据本发明实施例的一种电子设备的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
由于日常生活环境复杂,大量环境噪音和干扰说话人语音使得当前语音交互设备仅在相对安静环境下有较好应用,而无法广泛满足嘈杂环境下的使用。语音交互系统在真实嘈杂环境下识别率低的问题造成用户体验差、使用率低等问题。各种噪音使得语音交互远未达到泛场景“很好用”的令人满意程度。如何提升语音交互技术在真实嘈杂环境下对目标说话人的听觉感知精度和鲁棒性已经成为当下亟待解决的技术难题和迫切的社会需求。
该问题被定义为听觉的“鸡尾酒会问题”。描述了人类听觉系统在嘈杂听觉场景下令人惊讶的选择性注意能力。例如,当我们身处多说话人的鸡尾酒会场景中,我们可以很容易地将注意力集中在某个感兴趣的说话人语音上,并忽略其他说话人语音和环境噪音的干扰,而构建具备人耳听觉能力的听觉前端模型却很困难。本发明主要想解决面向真实复杂环境的目标说话人语音分离系统构建问题。
具体来说,系统构建过程中包括听觉线索推断、多种线索整合、以及自适应学习的问题,如下:
1)驱动目标说话人语音分离的听觉注意线索可从听者的脑信号解码或听觉场景的多模态信息提取等多途径获得。然而,多种线索可能存在不可获取、区分度低、可靠性差、甚至完全错误的情况。例如,视觉线索容易被遮挡而不可获取,空间线索容易受相近干扰声源的影响区分度低,而声纹线索可能因在不同声学场景下采集而变得不可靠。如上这些线索鲁棒性问题均会致使后续基于线索驱动的听觉注意模型性能衰减严重。因此,解决线索表征的鲁棒性是保障基于多线索驱动听觉注意建模有效性的一项关键问题;
2)不同线索在听觉注意调制过程中的机制不同,例如,从脑信号和听觉场景中可获取多种听觉注意线索,包括说话人方位、双耳时间差、视觉、包络、基频、声纹等,其中,包络线索是随时间变化的动态线索,而声纹线索是随时间不变的稳态线索,两者的调制机制不同。不恰当的多线索整合方式将直接限制了线索驱动听觉注意的性能上限。因此,构建统一的多线索驱动目标说话人分离系统是另外一项要解决的问题;
3)大部分听觉前端模型利用纯净语音叠加的方式仿真多说话人混合语音并以目标人纯净语音作为训练目标进行学习。训练后的模型在同源仿真数据集上的效果很好,但是真实环境部署时经常会遇到各种不匹配问题而性能下降,这些不匹配问题包括声学环境不同、声音类型不同、麦克风阵列结构不同等。因此,提升模型在嘈杂数据上的自适应能力是目标说话人分离系统面向环境部署要解决的现实问题。
基于以上问题,本发明提出了一种多线索驱动和半监督学习的目标说话人分离系统,该系统首先基于掩蔽的预训练策略对多种线索进行联合统一建模来提升线索表征的鲁棒性。尝试基于掩蔽的预训练方式能够提升模型对缺失线索的推断能力,并增强被扰动线索的表征精度;其次,构建层级化的线索调制模块。分别在初级线索调制模块中引入空间线索驱动双耳听觉定向增强说话人语音;在中级线索调制模块中基于动态线索与听觉信号分量的时间相干性增强说话人语音;并在高级线索调制模块中引入稳态线索进行选择性过滤;最后,充分发挥仿真数据的有监督学习能力和真实混合数据的无监督学习效果,构建多线索约束下更高效的半监督学习方法。将“分离-再混合”的无监督学习融入到线索驱动目标说话人分离框架下,同时利用说话人相关线索表征与分离后听觉信号表征之间的对比学习提升系统在真实嘈杂环境下的自适应能力。
实施例1:
本发明第一方面公开了一种目标说话人分离系统,图1为根据本发明实施例的一种目标说话人分离系统的结构图,具体如图1所示,所述系统包括:
线索调制模块和听觉线索编码器;双通道多说话人混合信号经过一维时序卷积编码后同时输入到所述线索调制模块和听觉线索编码器;预训练的听觉线索编码器将脑信号解码的听觉线索和场景可获取的听觉线索统一表征为空间线索、动态线索和稳态线索,作为听觉注意的调制线索;所述线索调制模块包括:初级调制模块、中级调制模块和高级调制模块;各级调制模块可由任意网络结构作为主干网络进行搭建,如时域卷积网络(TemporalConvolutional Network,TCN)或Transformer等;信号在进入初级调制模块前尚具备较高的时间分辨率,所述预训练的听觉线索编码器将从双耳时间差和方位中提取的空间线索融入到所述初级调制模块,利用双耳信号的相位差信息驱动双耳听觉定向增强目标说话人语音,所述初级调制模块将经过一维时序卷积编码后的多说话人混合信号和所述空间线索编码,得到随时间低频变化的时域语义特征;所述预训练的听觉线索编码器将从视觉和包络中提取的动态线索融入到所述中级调制模块,利用其与听觉信号分量的时间相干性绑定目标说话人语音,所述中级调制模块将所述时域语义特征与所述动态线索经过深层网络的抽象编码,得到在特征空间中表现出的稳态特征;所述预训练的听觉线索编码器将从基频和声纹中提取的稳态线索融入到所述高级调制模块,利用听觉信号的声学不变性,引入稳态线索过滤目标说话人语音,所述高级调制模块将所述稳态特征和所述稳态线索融合,输出最终调制后的语音特征,然后经过一维时序转置卷积解码出目标说话人听觉信号输出听觉信号;来自脑信号解码的听觉线索和场景可获取的听觉线索被有效地融入到同一个框架下,为听觉注意模型提供了更广泛的适用场景;
稳态特征是在特征空间中表现出的稳态特征,即在高层特征空间中表现出稳态特性的稳态特征;
所述听觉线索编码器提取所述空间线索、动态线索和稳态线索均采用基于掩蔽预训练的听觉线索推断方法;
如图2所示,将说话人方位和双耳时间差(Interaural Time Difference,ITD)等统一归类为空间线索,视觉和包络等统一归类为动态线索,基频和声纹等统一归类为稳态线索进行分别编码。在模型训练过程中,当某种线索或某种类型线索被掩蔽时,通过听觉线索编码器后,以预测被掩蔽线索表征为目标。经过大规模预训练后的模型将不仅具备缺失线索推断能力,对未缺失线索的表征能力也会增强。同时,预训练的听觉线索编码器将多种线索进行了统一表征,更有利于后续线索驱动的听觉注意建模。
在一些实施例中,采用基于掩蔽预训练的听觉线索推断提取所述空间线索的方法包括:
考虑空间线索依赖于双耳间信息的相位差进行调制,当说话人方位和双麦孔径或双耳间距确定时,方位与双耳时间差存在直接映射关系;而在双麦孔径不确定的场景,双耳时间差线索更具有普适性,因而以所述双耳时间差作为所述听觉线索编码器预测空间线索表征的拟合目标;
采用基于掩蔽预训练的听觉线索推断提取所述动态线索的方法包括:
对于包络和视觉的动态线索来说,包络线索直接表征了目标听觉信号的幅值调制线索,而视觉线索中含有大量的冗余信息需要通过视觉编码器进一步提取与听觉信号相关的视觉语义特征;
以重构时序包络为所述听觉线索编码器预测动态线索表征的目标;
采用预训练好的视觉编码模块,从视觉流中提取与听觉相关的动态线索进行建模;
采用基于掩蔽预训练的听觉线索推断提取所述稳态线索的方法包括:
稳态线索表征了听觉客体的时间不变性声学特征,从脑信号中解码的基频和从说话人注册音中提取的声纹均表征了这种稳态线索;由于声纹线索包含更全面的声学特征,利用大规模预训练好的声纹编码器进行声纹特征提取,以所述声纹作为所述听觉线索编码器预测稳态线索表征的判别目标。
在一些实施例中,如图3所示,所述目标说话人分离系统的训练为半监督学习,训练阶段分为两个部分:
第一部分:在仿真混合数据集上利用纯净语音进行有监督训练;
第二部分:在真实数据集上基于“分离再混合策略”进行无监督训练。
在一些实施例中,所述在仿真混合数据集上利用纯净语音进行有监督训练的方法包括:
输入仿真混合语音由1至3个说话人和背景噪声组成;
固定第一个通道来分离目标说话人语音的同时,并强制所述仿真混合语音的剩余部分被分离到具有最佳排列损失的其他通道中;
模型,即目标说话人分离系统,训练损失包含两个:目标说话人分离损失L1,利用所述模型在所述第一个通道的预测语音与目标说话人纯净语音之间的重构损失训练模型;
另外一个损失为多个干扰声源的排列不变损失L2,然后基于所述多个干扰声源的预测信号与仿真数据集中纯净信号间的重构损失来优化模型;所述多个干扰声源为干扰说话人和环境噪音。
在一些实施例中,所述在真实数据集上基于“分离再混合策略”进行无监督训练的方法包括:
首先从真实数据集中随机选择两个真实混合语音,并限定目标说话人始终存在于第一个真实混合语音中,而第二个真实混合语音不包含目标说话人;
然后将所述两个真实混合语音进行叠加混合输入至所述模型,所述模型输出M个分离音频,所述M为预先设定好的分离输出通道;
在一些实施例中,M设置为4;
由于无法从真实混合语音中独立获取到每个说话人的纯净语音和背景环境噪音,因而无法对分离后音频进行独立声学信号的监督训练;这里,对分离后的M个音频进行组合混合形成两个预测混合语音,再计算所述两个预测混合语音与两个真实混合语音的重构损失L3。其中,对M个音频组合混合形成两个混合语音的组合策略是依据重构损失L3值最小的方式确定的,并限定第一个输出通道预测的音频仅能参与第一个混合语音的重构,其他输出通道预测的音频依据重构损失L3值最小的组合方式分别参与两个混合语音的重构。
在一些实施例中,所述半监督学习方法还包括:
从真实数据集获取目标说话人的伪纯净参考语音,应用p比例的伪纯净参考语音来监督目标说话人的声源信号的重构损失L4。
在一些实施例中,所述训练阶段的损失函数为:
L=L1+L2+(1-p)L3+p L4
其中,L为训练阶段的损失函数;p为伪纯净参考语音的比例系数。
所有上述损失均基于参考信号y和模型预测信号之间的声学信号重建误差计算得到,如最小均方误差(MSE),信噪比(SNR),尺度依赖的信噪比(SD-SDR)均可作为声学信号重建误差的计算方式,以信噪比SNR损失的计算方式为例,如下所示:
在L1中,参考信号y是从仿真数据集获取的目标说话人纯净语音,模型预测信号是模型预测的目标说话人语音;在L2中,参考信号y是从仿真数据集获取的干扰说话人纯净语音和环境噪音,模型预测信号是模型预测的干扰说话人语音和环境噪音;在L3中,参考信号y是从真实数据集获取的两个真实混合语音,模型预测信号是对模型分离后的M个音频进行组合混合形成两个预测混合语音;在L4中,参考信号y是从真实数据集获取的目标说话人伪纯净参考语音,模型预测信号是模型预测的目标说话人语音。
针对语音分离模型在真实混合语音数据上评估受限问题,充分发挥空间、动态、稳态三种线索组合在不同声学条件下的优势生成预测语音,然后基于语音识别性能的提升程度挑选最优预测语音为伪纯净参考语音进行目标说话人分离系统的声学性能评估和模型调优。
在一些实施例中,所述从真实数据集获取目标说话人的伪纯净参考语音的方法包括:
对所述空间线索、动态线索和稳态线索中的每种线索组合驱动模型预测的目标说人语音,进行语音识别性能评估,找到具有最佳语音识别性能的预测的目标说人语音作为伪纯净参考语音。
综上,本发明各个方面的技术方案与现有技术相比具有如下优点:(1)传统语音分离范式无法适应真实环境下说话人数目未知或动态变化的场景。本发明的多线索驱动的目标说话人分离范式充分整合了多种类型听觉线索,包括空间、动态和稳态线索,从多说话人含噪语音中抽取目标人语音,能够更好地适应真实环境下的应用;
(2)一些基于单一或部分线索构建的听觉模型存在场景局限性,比如视觉线索在一些场景获取受限,声纹线索在说话人音色相似情况下无效,空间线索在混响严重的空间下也变得不可靠。本发明整合了多种类型听觉线索构建目标说话人分离模型抽取目标人语音,弥补单一线索的场景限制和性能上限问题;
(3)本发明针对线索表征弱以及线索缺失问题,本项目提出了基于线索掩蔽预训练的方法学习多种线索间的关联表征,实现对缺失线索的推断,并进一步提升了线索的表征精度。有效克服了听觉线索不可获取、区分度低、可靠性差、甚至完全错误的情况,进一步提高真实环境下产业落地的可行性;
(4)大多语音分离工作是基于仿真混合语音的有监督训练范式,该方式存在的问题是仿真数据与真实数据存在一定程度的差异,模型在真实场景下存在场景不匹配问题,导致实际应用的泛化性较差。本发明提出一种面向目标说话人分离的半监督学习方法,可直接在真实混合语音上进行训练,在固定通道输出目标说话人语音的同时尝试在其他通道分离输出各个干扰声源,有效解决真实部署环境数据分布不匹配的问题。
(5)目前对模型在真实混合语音上评估的方法主要依赖人主观性的去听,但是不同个体间存在主观差异,不能提供一个客观指标进行公平评测。另外也有一些方法将分离后的语音作为语音识别引擎的输入,进行字错误率等指标的评估,但是这也依赖于语音识别引擎的性能,用于评估分离性能也不完全准确。本发明提出一种伪纯净参考语音的生成方法,可用于面向真实数据产生伪纯净参考语音进行声学评估。
(6)另外基于上述构建的伪纯净参考语音可进行模型在真实数据上的声学调优,进一步提升模型在真实场景下的鲁棒性。
实施例3:
本发明公开了一种电子设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时,实现本发明公开第一方面中任一项的一种目标说话人分离方法中的步骤。
图4为根据本发明实施例的一种电子设备的结构图,如图4所示,电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、近场通信(NFC)或其他技术实现。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本公开的技术方案相关的部分的结构图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
实施例4:
本发明公开了一种存储介质,具体涉及计算机的可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现本发明公开第一方面中任一项的一种目标说话人分离方法中的步骤。
请注意,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
本说明书中描述的主题及功能操作的实施例可以在以下中实现:数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。
本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
适合用于执行计算机程序的计算机包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备,例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种目标说话人分离系统,其特征在于,所述系统包括:线索调制模块和预训练的听觉线索编码器;双通道多说话人混合信号经过一维时序卷积编码后分别输入到所述线索调制模块和听觉线索编码器;所述听觉线索编码器将脑信号解码的听觉线索和场景可获取的听觉线索统一表征为空间线索、动态线索和稳态线索;所述线索调制模块包括:初级调制模块、中级调制模块和高级调制模块;所述听觉线索编码器将从双耳时间差和方位中提取的空间线索融入到所述初级调制模块,所述初级调制模块将经过一维时序卷积编码后的双通道多说话人混合信号和所述空间线索编码,得到随时间低频变化的时域语义特征;所述听觉线索编码器将从视觉和包络中提取的动态线索融入到所述中级调制模块,所述中级调制模块将所述时域语义特征与所述动态线索编码,得到在特征空间中表现出的稳态特征;所述听觉线索编码器将从基频和声纹中提取的稳态线索融入到所述高级调制模块,所述高级调制模块将所述稳态特征和所述稳态线索融合,输出最终调制后的语音特征,然后经过一维时序转置卷积解码出目标说话人听觉信号,输出听觉信号;
所述听觉线索编码器提取所述空间线索、动态线索和稳态线索均采用基于掩蔽预训练的听觉线索推断方法。
2.根据权利要求1所述的一种目标说话人分离系统,其特征在于,采用基于掩蔽预训练的听觉线索推断方法提取所述空间线索包括:
以所述双耳时间差作为所述听觉线索编码器预测空间线索表征的拟合目标;
采用基于掩蔽预训练的听觉线索推断方法提取所述动态线索包括:
以重构时序包络为所述听觉线索编码器预测动态线索表征的目标;
采用预训练好的视觉编码模块,从视觉流中提取与听觉相关的动态线索进行建模;
采用基于掩蔽预训练的听觉线索推断方法提取所述稳态线索包括:
以所述声纹作为所述听觉线索编码器预测稳态线索表征的判别目标。
3.根据权利要求1所述的一种目标说话人分离系统,其特征在于,所述目标说话人分离系统的训练采用半监督学习,训练阶段分为两个部分:
第一部分:在仿真混合数据集上利用纯净语音进行有监督训练;
第二部分:在真实数据集上基于“分离再混合策略”进行无监督训练。
4.根据权利要求3所述的一种目标说话人分离系统,其特征在于,所述在仿真混合数据集上利用纯净语音进行有监督训练的方法包括:
输入仿真混合语音由1至3个说话人语音和背景噪声组成;
固定第一个通道来分离目标说话人语音的同时,并强制所述仿真混合语音的剩余部分被分离到具有最佳排列损失的其他通道中;
模型,即目标说话人分离系统,训练损失包含两个:目标说话人分离损失L1,利用所述模型在所述第一个通道的预测语音与目标说话人纯净语音之间的重构损失训练模型;
另外一个损失为多个干扰声源的排列不变损失L2,然后基于所述多个干扰声源的预测信号与仿真数据集中纯净信号间的重构损失来优化模型;所述多个干扰声源包括干扰说话人语音和环境噪音。
5.根据权利要求4所述的一种目标说话人分离系统,其特征在于,所述在真实数据集上基于“分离再混合策略”进行无监督训练的方法包括:
首先从真实数据集中随机选择两个真实混合语音,并限定目标说话人语音始终存在于第一个真实混合语音中,而第二个真实混合语音不包含目标说话人语音;
然后将所述两个真实混合语音进行叠加混合输入至所述模型,所述模型输出M个分离音频,所述M为预先设定好的分离输出通道;对分离后的M个音频进行组合混合形成两个预测混合语音,再计算所述两个预测混合语音与两个真实混合语音的重构损失L3。
6.根据权利要求5所述的一种目标说话人分离系统,其特征在于,所述半监督学习方法还包括:
从真实数据集获取目标说话人的伪纯净参考语音,应用p比例的伪纯净参考语音来监督目标说话人的声源信号的重构损失L4。
7.根据权利要求6所述的一种目标说话人分离系统,其特征在于,所述训练阶段的损失函数为:
L=L1+L2+(1-p)L3+p L4
其中,L为训练阶段的损失函数;p为伪纯净参考语音的比例系数。
8.根据权利要求6所述的一种目标说话人分离系统,其特征在于,所述从真实数据集获取目标说话人的伪纯净参考语音的方法包括:
对所述空间线索、动态线索和稳态线索中的每种线索组合驱动模型预测的目标说人语音,进行语音识别性能评估,找到具有最佳语音识别性能的预测的目标说人语音作为伪纯净参考语音。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有计算机程序,该计算机程序被所述处理器执行时,执行如权利要求1至8任意一项所述的一种目标说话人分离系统中的方法。
10.一种存储介质,其特征在于,该存储介质存储的计算机程序,能够被一个或多个处理器执行,能够用来实现如权利要求1至8中任一项所述的一种目标说话人分离系统中的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210602186.2A CN115035907B (zh) | 2022-05-30 | 2022-05-30 | 一种目标说话人分离系统、设备及存储介质 |
US17/980,473 US11978470B2 (en) | 2022-05-30 | 2022-11-03 | Target speaker separation system, device and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210602186.2A CN115035907B (zh) | 2022-05-30 | 2022-05-30 | 一种目标说话人分离系统、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115035907A true CN115035907A (zh) | 2022-09-09 |
CN115035907B CN115035907B (zh) | 2023-03-17 |
Family
ID=83123721
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210602186.2A Active CN115035907B (zh) | 2022-05-30 | 2022-05-30 | 一种目标说话人分离系统、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11978470B2 (zh) |
CN (1) | CN115035907B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118197346A (zh) * | 2024-02-02 | 2024-06-14 | 安徽大学 | 基于多尺度语音-脑电融合的脑控说话人提取方法及系统 |
CN117808802B (zh) * | 2024-02-29 | 2024-05-07 | 江西云眼视界科技股份有限公司 | 一种基于多提示引导的通用细粒度视觉计数方法及系统 |
CN118522290A (zh) * | 2024-07-19 | 2024-08-20 | 北京远鉴信息技术有限公司 | 一种语音对抗样本生成方法、装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100183158A1 (en) * | 2008-12-12 | 2010-07-22 | Simon Haykin | Apparatus, systems and methods for binaural hearing enhancement in auditory processing systems |
CN105474311A (zh) * | 2013-07-19 | 2016-04-06 | 视听公司 | 基于听觉场景分析及语音模型化的语音信号分离及合成 |
CN110751281A (zh) * | 2019-10-18 | 2020-02-04 | 武汉大学 | 一种基于卷积自编码器的头相关传输函数建模方法 |
CN111128197A (zh) * | 2019-12-25 | 2020-05-08 | 北京邮电大学 | 基于声纹特征与生成对抗学习的多说话人语音分离方法 |
CN112071329A (zh) * | 2020-09-16 | 2020-12-11 | 腾讯科技(深圳)有限公司 | 一种多人的语音分离方法、装置、电子设备和存储介质 |
CN113035227A (zh) * | 2021-03-12 | 2021-06-25 | 山东大学 | 一种多模态语音分离方法及系统 |
CN113035225A (zh) * | 2019-12-09 | 2021-06-25 | 中国科学院自动化研究所 | 视觉声纹辅助的语音分离方法及装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11373672B2 (en) * | 2016-06-14 | 2022-06-28 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments |
CN108109619B (zh) | 2017-11-15 | 2021-07-06 | 中国科学院自动化研究所 | 基于记忆和注意力模型的听觉选择方法和装置 |
US10536775B1 (en) * | 2018-06-21 | 2020-01-14 | Trustees Of Boston University | Auditory signal processor using spiking neural network and stimulus reconstruction with top-down attention control |
US11630513B2 (en) * | 2018-12-20 | 2023-04-18 | Massachusetts Institute Of Technology | End-to-end deep neural network for auditory attention decoding |
US11013449B2 (en) * | 2019-05-21 | 2021-05-25 | Roshan Narayan Sriram | Methods and systems for decoding, inducing, and training peak mind/body states via multi-modal technologies |
WO2021021714A1 (en) * | 2019-07-29 | 2021-02-04 | The Regents Of The University Of California | Method of contextual speech decoding from the brain |
EP3827744B1 (en) * | 2019-11-28 | 2024-08-14 | Sivantos Pte. Ltd. | A method for estimating a system response of an individual listener's brain to a sound signal stimulus |
US11671769B2 (en) * | 2020-07-02 | 2023-06-06 | Oticon A/S | Personalization of algorithm parameters of a hearing device |
-
2022
- 2022-05-30 CN CN202210602186.2A patent/CN115035907B/zh active Active
- 2022-11-03 US US17/980,473 patent/US11978470B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100183158A1 (en) * | 2008-12-12 | 2010-07-22 | Simon Haykin | Apparatus, systems and methods for binaural hearing enhancement in auditory processing systems |
CN105474311A (zh) * | 2013-07-19 | 2016-04-06 | 视听公司 | 基于听觉场景分析及语音模型化的语音信号分离及合成 |
CN110751281A (zh) * | 2019-10-18 | 2020-02-04 | 武汉大学 | 一种基于卷积自编码器的头相关传输函数建模方法 |
CN113035225A (zh) * | 2019-12-09 | 2021-06-25 | 中国科学院自动化研究所 | 视觉声纹辅助的语音分离方法及装置 |
CN111128197A (zh) * | 2019-12-25 | 2020-05-08 | 北京邮电大学 | 基于声纹特征与生成对抗学习的多说话人语音分离方法 |
CN112071329A (zh) * | 2020-09-16 | 2020-12-11 | 腾讯科技(深圳)有限公司 | 一种多人的语音分离方法、装置、电子设备和存储介质 |
CN113035227A (zh) * | 2021-03-12 | 2021-06-25 | 山东大学 | 一种多模态语音分离方法及系统 |
Non-Patent Citations (2)
Title |
---|
张华伟;张天骐;刘董华;: "基于Givens变换和二阶振荡W-C-PSO优化的盲源分离算法" * |
杜衣杭: "人-机交互系统并发多语音环境中听觉注意的研究" * |
Also Published As
Publication number | Publication date |
---|---|
US20240005941A1 (en) | 2024-01-04 |
CN115035907B (zh) | 2023-03-17 |
US11978470B2 (en) | 2024-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115035907B (zh) | 一种目标说话人分离系统、设备及存储介质 | |
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
JP7337953B2 (ja) | 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム | |
CN110459237B (zh) | 语音分离方法、语音识别方法及相关设备 | |
CN112071329B (zh) | 一种多人的语音分离方法、装置、电子设备和存储介质 | |
CN111128197B (zh) | 基于声纹特征与生成对抗学习的多说话人语音分离方法 | |
Chan et al. | A comprehensive review of polyphonic sound event detection | |
CN107680611B (zh) | 基于卷积神经网络的单通道声音分离方法 | |
CN112071330A (zh) | 一种音频数据处理方法、设备以及计算机可读存储介质 | |
CN112289338B (zh) | 信号处理方法及装置、计算机设备以及可读存储介质 | |
Wu et al. | Increasing compactness of deep learning based speech enhancement models with parameter pruning and quantization techniques | |
CN115083394B (zh) | 一种融合时空属性的实时环境噪声识别方法、系统及设备 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN114245280A (zh) | 一种基于神经网络的场景自适应助听器音频增强系统 | |
Qin et al. | Graph convolution-based deep clustering for speech separation | |
CN113571063B (zh) | 语音信号的识别方法、装置、电子设备及存储介质 | |
Khandelwal et al. | Sound Event Detection: A Journey Through DCASE Challenge Series | |
Hou et al. | Cooperative scene-event modelling for acoustic scene classification | |
WO2024018429A1 (en) | Audio signal processing method, audio signal processing apparatus, computer device and storage medium | |
CN112866896A (zh) | 一种沉浸式音频上混方法及系统 | |
CN114664288A (zh) | 一种语音识别方法、装置、设备及可存储介质 | |
CN115762557A (zh) | 用于语音分离的自监督训练预测器的训练方法及系统 | |
CN115881157A (zh) | 音频信号的处理方法及相关设备 | |
Li et al. | Improving speech enhancement by focusing on smaller values using relative loss | |
Wang et al. | Contrastive Separative Coding for Self-Supervised Representation Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |