CN111863009A - 上下文信息预测模型的训练方法及系统 - Google Patents

上下文信息预测模型的训练方法及系统 Download PDF

Info

Publication number
CN111863009A
CN111863009A CN202010680298.0A CN202010680298A CN111863009A CN 111863009 A CN111863009 A CN 111863009A CN 202010680298 A CN202010680298 A CN 202010680298A CN 111863009 A CN111863009 A CN 111863009A
Authority
CN
China
Prior art keywords
context
prediction
characteristic
feature
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010680298.0A
Other languages
English (en)
Other versions
CN111863009B (zh
Inventor
钱彦旻
李晨达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI Speech Ltd
Original Assignee
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AI Speech Ltd filed Critical AI Speech Ltd
Priority to CN202010680298.0A priority Critical patent/CN111863009B/zh
Publication of CN111863009A publication Critical patent/CN111863009A/zh
Application granted granted Critical
Publication of CN111863009B publication Critical patent/CN111863009B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party

Abstract

本发明实施例提供一种上下文信息预测模型的训练方法。该方法包括:通过单说话人的端到端语音识别编码器提取第一说话人的第一干净音频以及第二说话人的第二干净音频中的第一理想上下文特征以及第二理想上下文特征,确定为上下文信息预测模型的训练标签;将由第一干净音频以及第二干净音频生成的混合音频的幅度谱作为上下文信息预测模型的输入,输出第一预测上下文特征以及第二预测上下文特征;对上下文信息预测模型进行置换不变性训练。本发明实施例还提供一种上下文信息预测模型的训练系统。本发明实施例直接从混合语音中提取每个目标说话者的上下文语言信息。然后将提取的上下文嵌入合并到单声道语音分离系统中,以获得更好的性能。

Description

上下文信息预测模型的训练方法及系统
技术领域
本发明涉及智能语音领域,尤其涉及一种上下文信息预测模型的训练方法及系统。
背景技术
单声道语音分离是解决鸡尾酒会问题的基本任务。通常的语音分离包括:基于时频谱遮掩的深度学习语音分离系统、时域上直接进行分离的语音分离系统。
基于时频谱遮掩的深度学习语音分离系统在将时域信号通过短时傅里叶变换变换到时频域上,利用深度神经网络对幅度谱遮掩进行估计,然后计算分离的目标信号的幅度谱,得到估计出的声音信号。
在时域上的端到端语音分离。利用深度神经网络直接在时域上对语音信号进行分离。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
在混合语音信号中,说话人的性别相同或声音听起来相似时,分离系统的性能会下降,没有考虑到人类的听觉机制进行建模。
发明内容
为了至少解决现有技术中说话人的性别相同或声音听起来相似时,分离系统的性能会下降,并且没有考虑到听觉机制的问题。
第一方面,本发明实施例提供一种上下文信息预测模型的训练方法,包括:
通过单说话人的端到端语音识别编码器提取第一说话人的第一干净音频以及第二说话人的第二干净音频中的第一理想上下文特征以及第二理想上下文特征,确定为上下文信息预测模型的训练标签;
将由所述第一干净音频以及所述第二干净音频生成的混合音频的幅度谱作为所述上下文信息预测模型的输入,输出第一预测上下文特征以及第二预测上下文特征;
基于所述第一预测上下文特征、所述第二预测上下文特征以及所述训练标签对所述上下文信息预测模型进行训练,以使所述第一预测上下文特征以及所述第二预测上下文特征趋近于所述训练标签。
第二方面,本发明实施例提供一种基于上下文信息预测模型的语音分离方法,包括:
通过语音分离模型确定待分离语音的高维音频特征;
根据权利要求1或2所述的训练方法训练后的上下文信息预测模型确定所述待分离语音中第一说话人的第一预测上下文特征以及第二说话人的第二预测上下文特征;
通过转换网络对所述第一预测上下文特征以及所述第二预测上下文特征进行处理,将处理后的第一预测上下文特征以及所述第二预测上下文特征分别与所述高维音频特征进行拼接,确定第一分离语音特征以及第二分离语音特征;
基于所述第一分离语音特征以及第二分离语音特征确定出两个说话人的语音信息。
第三方面,本发明实施例提供一种上下文信息预测模型的训练系统,包括:
训练标签确定程序模块,用于通过单说话人的端到端语音识别编码器提取第一说话人的第一干净音频以及第二说话人的第二干净音频中的第一理想上下文特征以及第二理想上下文特征,确定为上下文信息预测模型的训练标签;
预测上下文特征确定程序模块,用于将由所述第一干净音频以及所述第二干净音频生成的混合音频的幅度谱作为所述上下文信息预测模型的输入,输出第一预测上下文特征以及第二预测上下文特征;
训练程序模块,用于基于所述第一预测上下文特征、所述第二预测上下文特征以及所述训练标签对所述上下文信息预测模型进行训练,以使所述第一预测上下文特征以及所述第二预测上下文特征趋近于所述训练标签。
第四方面,本发明实施例提供一种基于上下文信息预测模型的语音分离系统,包括:
高维音频特征确定程序模块,用于通过语音分离模型确定待分离语音的高维音频特征;
预测上下文特征确定程序模块,用于根据权利要求7所述的训练系统训练后的上下文信息预测模型确定所述待分离语音中第一说话人的第一预测上下文特征以及第二说话人的第二预测上下文特征;
分离语音特征确定程序模块,用于通过转换网络对所述第一预测上下文特征以及所述第二预测上下文特征进行处理,将处理后的第一预测上下文特征以及所述第二预测上下文特征分别与所述高维音频特征进行拼接,确定第一分离语音特征以及第二分离语音特征;
语音分离程序模块,用于基于所述第一分离语音特征以及第二分离语音特征确定出两个说话人的语音信息。
第五方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的上下文信息预测模型的训练方法以及基于上下文信息预测模型的语音分离方法的步骤。
第六方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的上下文信息预测模型的训练方法以及基于上下文信息预测模型的语音分离方法的步骤。
本发明实施例的有益效果在于:受人类对语音分离的机制的理解和启发,提出了一种具有上下文语言理解的新型语音分离架构。首先设计上下文嵌入预测模型,以直接从混合语音中提取每个目标说话者的上下文语言信息。然后将提取的上下文嵌入合并到单声道语音分离系统中,以获得更好的性能。该方法在T-F掩蔽和时域体系结构上都得到了评估,并且在这两种情况下都可以观察到一致且显着的改进。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种上下文信息预测模型的训练方法的流程图;
图2是本发明一实施例提供的一种上下文信息预测模型的训练方法的上下文信息预测模型结构图;
图3是本发明一实施例提供的一种基于上下文信息预测模型的语音分离方法的流程图;
图4是本发明一实施例提供的一种基于上下文信息预测模型的语音分离方法的上下文信息融入不同的语音分离模型结构图;
图5是本发明一实施例提供的一种基于上下文信息预测模型的语音分离方法的关于T-F掩蔽结构的结果数据图;
图6是本发明一实施例提供的一种基于上下文信息预测模型的语音分离方法的时域网络结构的结果数据图;
图7是本发明一实施例提供的一种上下文信息预测模型的训练系统的结构示意图;
图8是本发明一实施例提供的一种基于上下文信息预测模型的语音分离系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明一实施例提供的一种上下文信息预测模型的训练方法的流程图,包括如下步骤:
S11:通过单说话人的端到端语音识别编码器提取第一说话人的第一干净音频以及第二说话人的第二干净音频中的第一理想上下文特征以及第二理想上下文特征,确定为上下文信息预测模型的训练标签;
S12:将由所述第一干净音频以及所述第二干净音频生成的混合音频的幅度谱作为所述上下文信息预测模型的输入,输出第一预测上下文特征以及第二预测上下文特征;
S13:基于所述第一预测上下文特征、所述第二预测上下文特征以及所述训练标签对所述上下文信息预测模型进行训练,以使所述第一预测上下文特征以及所述第二预测上下文特征趋近于所述训练标签。
在本实施方式中,在真实的鸡尾酒会场景中,为了从混合的声音中分辨目标说话人的声音,人们不但会仔细听取声音,同时也会尝试着去理解目标说话人正在谈论的内容。对人类听觉机制的研究发现,人类的大脑中有相关的神经中枢,可以根据语音的上下文信息对被噪声覆盖的声音进行还原。
对于步骤S11,直接从混合音频中获取出目标说话人的上下文信息比较困难。因此首先,考虑更简单的情况,使用端到端语音识别系统可以从干净的音频中提取出说话人的上下文信息,这种上下文信息称之为理想上下文信息。
图2展示了上下文信息预测模型的训练过程,从第一说话人的第一干净音频X1和第二说话人的第二干净音频X2的声学特征中,通过预训练好的端到端语音识别编码器,从而提取理想的第一上下文特征E1和第二上下文特征E2,其不黑用作上下文信息预测模型的训练标签。
所述上下文信息预测模型包括:混合编码器、说话人区分编码器以及上下文编码器。
对于步骤S12,在图2的右半部分是上下文信息预测模型,其接受由X1与X2生成的混合音频Y的幅度谱|Y|作为输入。在混合中,可以仅仅将X1与X2进行混合,也可以在混合中加入一些预设噪音,可以根据项目需求自行设定。
作为一种实施方式,在本实施例中,所述将由所述第一干净音频以及所述第二干净音频生成的混合音频的幅度谱作为所述上下文信息预测模型的输入包括:
将所述混合音频的幅度谱通过混合编码器处理后分别输入至两个不同的说话人区分编码器进行编码,生成第一编码以及第二编码;
通过共享参数的上下文编码器对所述第一编码以及第二编码进行编码,确定出第一说话人的第一预测上下文特征以及第二说话人第二预测上下文特征。
在本实施方式中,将幅度谱|Y|经过一个混合编码器编码,再经由两个不同的说话人区分编码器编码,最后通过共享参数的上下文编码器进行编码,预测出目标说话人的上下文信息
Figure BDA0002585571520000061
Figure BDA0002585571520000062
对于步骤S13,基于步骤S12确定的第一预测上下文特征
Figure BDA0002585571520000063
第二预测上下文特征
Figure BDA0002585571520000064
以及步骤S11中的训练标签对所述上下文信息预测模型进行置换不变性训练,在训练时,使用的损失函数为置换不变性L2距离:
Figure BDA0002585571520000065
其中,
Figure BDA0002585571520000066
是最优的标签置换性顺序。
通过该实施方式可以看出,在模型设计中,从混合的音频信号中理解各个目标说话人的上下文信息。即从混合的音频信号中直接理解各个目标说话人的上下文内容。从而为语音分离模型提供了说话人的上下文信息,提升语音分离性能。
如图3所示为本发明一实施例提供的一种基于上下文信息预测模型的语音分离方法的流程图,包括如下步骤:
S21:通过语音分离模型确定待分离语音的高维音频特征;
S22:根据权利要求1或2所述的训练方法训练后的上下文信息预测模型确定所述待分离语音中第一说话人的第一预测上下文特征以及第二说话人的第二预测上下文特征;
S23:通过转换网络对所述第一预测上下文特征以及所述第二预测上下文特征进行处理,将处理后的第一预测上下文特征以及所述第二预测上下文特征分别与所述高维音频特征进行拼接,确定第一分离语音特征以及第二分离语音特征;
S24:基于所述第一分离语音特征以及第二分离语音特征确定出两个说话人的语音信息。
在本实施方式中,在可以通过上下文信息预测模型获取到预测的上下文信息后,可以将上下文信息融入语音分离系统。图4展示了将上下文信息融入两个不同语音分离系统的过程。
对于步骤S21,首先确定待分离的语音,将待分离语音输入至语音分离模型中,确定出待分离语音的高维音频特征。语音分离模型包括:时频域模型或时域模型。时频域模型包括:基于深度残差网络的基线系统、基于双向长短时记忆的基线系统。
对于步骤S22,通过训练好的上下文信息预测模型确定所述待分离语音中第一说话人的预测上下文特征
Figure BDA0002585571520000071
以及第二说话人的预测上下文特征
Figure BDA0002585571520000072
对于步骤S23,图4中/左边M1、MaskNet(遮掩预测网络)、SepNet(分离网络)等标注的部分为时频域模型中存在的部分,/右边m1、Separator(分离器)、Encoder(编码器)等标注的部分表示的时域模型中存在的部分。在这两种模型中,上下文信息融入的方式一致,使用转换网络(TransformNet)对上下文信息进行了处理,然后和模型中的高维音频特征YR/w进行了拼接。
对于步骤S24,基于步骤S23确定的第一分离语音特征以及第二分离语音特征确定出两个说话人的语音信息。
通过该实施方式可以看出,通过设计模型从混合的音频信号中理解各个目标说话人的上下文信息。将提取的上下文信息融入语音分离系统,从而提高语音分离系统的性能。在时频域遮掩方法以及时域方法上都进行了上下文信息的融入,均取得了不错的性能提升。
对上述方法进行具体说明,
基于监督学习的单声道语音分离,考虑线性混合的单声道信号y(n),其中S个说话人同时讲话:
Figure BDA0002585571520000073
其中,xs(n),s=1,…S是来自每个说话人的单独的源信号。单声道语音分离的目标是从嘈杂的语音y(n)中估计每个说话者的
Figure BDA0002585571520000074
基于监督深度学习的T-F域掩蔽是语音分离中的常规方法,分离通常以三个步骤进行。首先,混合语音信号通过STFT变换转换为T-F域。在T-F域中,混合信号可以写为:
Figure BDA0002585571520000081
其次,幅度谱由深度学习模型处理以预测每个说话者的T-F掩码
Figure BDA0002585571520000082
估计的幅度谱可以表示为:
Figure BDA0002585571520000083
最后,估计的幅度
Figure BDA0002585571520000084
混合信号∠Y的相位谱用于重建说话人s的STFT谱。然后执行iSTFT(短时傅立叶逆变换)将估计的STFT频谱转换回时域。相关工作还提出了一些预测相位的方法,而不是在STFT重建中使用混合∠Y。
在基于深度学习的T-F掩码方法中,存在各种用于估计T-F掩码的深度学习模型。在本方法中,分别在双向长短期记忆(BLSTM,bidirectional long short-term memory)和深度残差网络(ResNet,Residual Network)上进行了实验。对于掩模功能,以前的工作已经比较了不同的掩模变体,本方法选择了相敏掩模(PSM),因为它表现出更好的性能。
TasNet是最近被提出来直接在时域中分离目标语音。在TasNet中,STFT/iSTFT模块被基于神经网络的编码器/解码器结构代替。TasNet的分离过程可以表述为:
w=Encoder(y)
[m1,…,ms]=Separator(w)
Figure BDA0002585571520000085
其中y={y(i),...,y(i+c)}是混合语音y(n)的一个块,c是块大小。混合语音y被编码器网络编码为高级音频表示。然后,分离器网络为每个说话人预测高级掩码m1,...,ms。掩码ms逐元素乘以高级音频表示w。最后,解码器网络为时域中的每个说话人重建估计的音频块
Figure BDA0002585571520000086
与T-F屏蔽方法相比,时域方法具有许多优势。它可以直接在时域中预测声音波形,因此可以避免T-F域中的相位预测问题。另外,由于网络输出波形,因此语音分离中的评估指标,例如源失真比(SDR)和比例不变源噪比(Si-SNR)可以是直接用作训练目标。TasNet在提出时,其性能优于当时所有的T-F域方法。在我们的方法中,还将提出的上下文理解方法整合到TasNet中,以证明本方法的有效性。
置换不变训练,在监督训练过程中,分离模型同时为每个目标说话者输出s个预测语音流,同时输入相同的混合语音。对于每个预测语音,相应的参考语音是事先未知的。为了解决这个标签模糊性问题,提出了置换不变训练(PIT)方法。在PIT方法中,使用了预测语音和参考语音的最佳排列:
Figure BDA0002585571520000091
其中P表示{1,…,S}上所有置换的集合。π(s)是置换π的第s个元素。L是网络输出O的损失函数和参考标号R。那么,优化对象可以定义为:
Figure BDA0002585571520000092
在本文中,对于T-F方法,
Figure BDA0002585571520000093
是相位敏感的遮掩损失:
Figure BDA0002585571520000094
对于时域方法,
Figure BDA0002585571520000095
为Si-SNR:
Figure BDA0002585571520000096
语音分离中的上下文语境理解,直接从混合语音中提取每个说话者的上下文信息并不是一项简单的任务。另一方面,已经存在从干净的语音中提取语言知识的方法。在基于注意力的单说话人端到端自动语音识别(E2EASR,end-to-end automatic speechrecognition)中,编码器被认为是对来自输入声学特征的上下文信息进行编码。
通过利用单说话人端到端语音识别模型,提出了一种基于混合语音的上下文学习方法,以实现多方上下文嵌入。如图2所示,训练好的单说话人E2E-ASR编码器用于从说话人语音Xs中提取数据上下文嵌入Es。上下文嵌入被用作上下文嵌入预测模型中的标签。为了确保所提出的上下文嵌入预测模型具有对上下文的长期依赖性进行建模的能力,在构建模型时会参考多方对话E2E-ASR模型。它包括三个阶段:
H=Encodermin(|Y|)
Figure BDA0002585571520000098
Figure BDA0002585571520000097
首先,混合幅度谱|Y|由混合编码器Encodermix处理。它将输入的混合信号编码为中间表示形式H。其次,中间表示形式H然后由S个单独的说话人区分(SD)编码器,编码器进行处理。输出Gs(s=1,···S)是与每个讲话者的语音相对应的高级表示。最后,高级表示Gs由共享权重上下文编码器编码,Encoderctx用于预测每个说话者的上下文语言嵌入
Figure BDA0002585571520000101
在训练过程中,采用L2损失的PIT,最优化目标可以表述为:
Figure BDA0002585571520000102
其中,
Figure BDA0002585571520000103
是使Lctx最小化的最佳排列。
然后将上下文语言嵌入合并到语音分离框架中。上下文嵌入Es和预测上下文嵌入
Figure BDA0002585571520000104
均可用于训练语音分离模型,但由于在实际应用中只有混合语音可用,因此只能在测试中获得预测嵌入
Figure BDA0002585571520000105
需要注意的是,上下文嵌入预测和语音分离系统的训练过程是独立的。
图4说明了如何将上下文语言嵌入合并到T-F屏蔽方法和时域方法(TasNet)中。在这两个框架中,上下文嵌入
Figure BDA0002585571520000106
(或Es)首先由基于ResNet的转换网络(TransfromNet)处理,以生成新的上下文表示
Figure BDA0002585571520000107
在T-F掩蔽方法(图4中,/左边标记)中,首先通过分离网络(SepNet)处理混合幅度,以获得高级音频表示YR。SepNet是BLSTM或ResNet。然后,将音频表示YR与上下文表示
Figure BDA0002585571520000108
在维度上进行级联,以获得每个说话者的组合表示
Figure BDA0002585571520000109
然后,每个发言者
Figure BDA00025855715200001010
的新表示由单独的遮掩预测网络(MaskNets)处理,以估计每个发言者的T-F掩码。
在时域方法中(图4中,/右边标记),还通过合并上下文嵌入来扩展TasNet。该过程类似于T-F掩蔽方法中的过程。首先,通过作为一维卷积神经网络(CNN)的编码器将混合语音块y编码为音频表示w。将上下文表示
Figure BDA00025855715200001011
与维度上的音频表示w连接起来,以获得融合表示
Figure BDA00025855715200001012
然后,
Figure BDA00025855715200001013
是基于ResNet的分隔符处理,以估计高级掩码ms。TasNet中的分隔符与T-F方法中的遮罩网相对应,是权重共享的。
对上述方法进行试验,实验全部在《华尔街日报》(WSJ)语料库上进行。原始的80小时WSJ数据集用于训练单说话人E2E-ASR模型,该模型用于生成上下文信息嵌入。E2E-ASR模型的编码器由4层类似于VGG(VGG卷积网络是一个比较有名的牛津大学VGG组提出的神经网络结构,这里使用了类似的结构的网络。所以称为VGG-like)的CNN和5层带有投影的双向长短时记忆元神经网络(BLSTMP)组成。在BLSTMP中,每层包含512个单元。培训过程遵循ESPNet工具包中的WSJ标准流程。E2E-ASR模型的输入是80维对数梅尔滤波器组系数以及3维音高特征。使用单说话人E2E-ASR编码器提取的理想上下文信息表示为512维。
在语音分离任务中,使用WSJ0-2mix语料库。它来自WSJ0语料库。WSJ0-2mix包含30小时训练集,10小时验证集和5小时测试集。每个样本都包含两个不同说话人的语音混合,其中一个说话人相对于另一个说话人的信噪比(SNR)在[-5,-5]dB之间均匀选择。音频的采样频率为8kHz。在T-F掩膜方法中,STFT的窗口长度为40ms,而移码为10ms。STFT光谱的每个帧均为161维。在时域方法中,音频在训练时全部被裁剪为固定长度的4s。在推理期间,整个音频将由TasNet直接处理。
在图2所示的上下文嵌入预测模型中,混合编码器是4层类似于VGG的CNN。SD编码器是单独的2层BLSTM,每层中有512个隐藏单元。上下文编码器是1层BLSTM,每层中有512个隐藏单元。上下文嵌入预测模型中BLSTM的退出率设置为0.5。
在T-F掩膜模型中(图4),TransformNet是一个5层1-D ResNet,每层具有512个通道。我们采用两种模型来实现SepNet。第一个是10层一维ResNet,其中每个层具有1024个一维卷积通道。SepNet的另一种实现是2层BLSTM。BLSTM的每一层包含512个单位,Dropout(随机丢弃率)为0.5。MaskNet是单独的5层ResNet,其卷积通道数为512。MaskNets之后的投影层将输出投影到161维,与幅度谱相同。
实现非因果的完全卷积TasNet(Conv-TasNet)作为本方法的时域基线模型。卷积块中的通道数为512,瓶颈通道数为256。卷积堆栈的重复数为3,每个重复包含5个卷积块。当合并上下文信息时,上下文嵌入首先由TransformNet处理,它是一个5层512通道1-DResNet。TransformNet还可以在时间范围内对上下文嵌入进行上采样,使其长度与高级表示w的长度相同。
信噪比(SDR),短时目标清晰度(STOI)和语音质量得分的感知评估(PESQ)被用作实验中的评估指标。SDR是一种信号级别指标,用于量化信号增强和干扰减少的程度。STOI和PESQ是感知级别的指标,分别评估语音的清晰度和语音质量。
所提出的方法在T-F掩蔽架构上的评估,首先在T-F掩蔽架构上评估了所提出的上下文理解方法。ResNet和BLSTM相对基准是通过PIT建立的。如图5所示,BLSTM模型是一个相对较强的基线,并且也可以与以前的工作中的系统进行比较。为了评估所提出方法的上限,将使用单说话人语音从单说话人ASR编码器中提取的上下文信息嵌入合并到语音分离模型中。如图5所示,通过在训练和评估中引入上下文信息嵌入,可以在基于BLSTM的T-F掩蔽系统中观察到SDR的相对改善约36%。由于上下文信息嵌入实际上在实际评估中不可用,因此更改为在评估中使用预测的上下文嵌入。图5比较并列出了培训和测试中不同的上下文嵌入用法。结果表明,在实际测试中直接使用来自混合语音的预测上下文嵌入仍然可以获得很大的改进,并且在训练阶段同时使用预测上下文信息嵌入可以获得最佳的系统性能。
在TasNet体系结构上进一步评估了该新方法,该体系结构是当前语音分离的最新体系结构,其结果如图6所示。使用TasNet进行与图5类似的实验。可以看出,在这种更强大的体系结构中,使用新提出的方法还可以获得一致的改进和相同的结论。最好的系统可以在基本TasNet上获得10%的SDR改进。
在方法中,受人类对语音分离的机制的理解和启发,提出了一种具有上下文语言理解的新型语音分离架构。首先设计上下文嵌入预测模型,以直接从混合语音中提取每个目标说话者的上下文语言信息。然后将提取的上下文嵌入合并到单声道语音分离系统中,以获得更好的性能。该方法在T-F掩蔽和时域TasNet体系结构上都得到了评估,并且在这两种情况下都可以观察到一致且显着的改进。将来,将探索其他情境学习方法进行语音分离,并开发更好的上下文知识整合方法。
如图7所示为本发明一实施例提供的一种上下文信息预测模型的训练系统的结构示意图,该系统可执行上述任意实施例所述的上下文信息预测模型的训练方法,并配置在终端中。
本实施例提供的一种上下文信息预测模型的训练系统包括:训练标签确定程序模块11,预测上下文特征确定程序模块12和训练程序模块13。
其中,训练标签确定程序模块11用于通过单说话人的端到端语音识别编码器提取第一说话人的第一干净音频以及第二说话人的第二干净音频中的第一理想上下文特征以及第二理想上下文特征,确定为上下文信息预测模型的训练标签;预测上下文特征确定程序模块12用于将由所述第一干净音频以及所述第二干净音频生成的混合音频的幅度谱作为所述上下文信息预测模型的输入,输出第一预测上下文特征以及第二预测上下文特征;训练程序模块13用于基于所述第一预测上下文特征、所述第二预测上下文特征以及所述训练标签对所述上下文信息预测模型进行训练,以使所述第一预测上下文特征以及所述第二预测上下文特征趋近于所述训练标签。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的上下文信息预测模型的训练方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
通过单说话人的端到端语音识别编码器提取第一说话人的第一干净音频以及第二说话人的第二干净音频中的第一理想上下文特征以及第二理想上下文特征,确定为上下文信息预测模型的训练标签;
将由所述第一干净音频以及所述第二干净音频生成的混合音频的幅度谱作为所述上下文信息预测模型的输入,输出第一预测上下文特征以及第二预测上下文特征;
基于所述第一预测上下文特征、所述第二预测上下文特征以及所述训练标签对所述上下文信息预测模型进行训练,以使所述第一预测上下文特征以及所述第二预测上下文特征趋近于所述训练标签。
如图8所示为本发明一实施例提供的一种基于上下文信息预测模型的语音分离系统的结构示意图,该系统可执行上述任意实施例所述的基于上下文信息预测模型的语音分离方法,并配置在终端中。
本实施例提供的一种上下文信息预测模型的训练系统包括:高维音频特征确定程序模块21,预测上下文特征确定程序模块22,分离语音特征确定程序模块23和语音分离程序模块24。
其中,高维音频特征确定程序模块21用于通过语音分离模型确定待分离语音的高维音频特征;预测上下文特征确定程序模块22用于根据权利要求7所述的训练系统训练后的上下文信息预测模型确定所述待分离语音中第一说话人的第一预测上下文特征以及第二说话人的第二预测上下文特征;分离语音特征确定程序模块23用于通过转换网络对所述第一预测上下文特征以及所述第二预测上下文特征进行处理,将处理后的第一预测上下文特征以及所述第二预测上下文特征分别与所述高维音频特征进行拼接,确定第一分离语音特征以及第二分离语音特征;语音分离程序模块24用于基于所述第一分离语音特征以及第二分离语音特征确定出两个说话人的语音信息。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的基于上下文信息预测模型的语音分离方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
通过语音分离模型确定待分离语音的高维音频特征;
根据权利要求1或2所述的训练方法训练后的上下文信息预测模型确定所述待分离语音中第一说话人的第一预测上下文特征以及第二说话人的第二预测上下文特征;
通过转换网络对所述第一预测上下文特征以及所述第二预测上下文特征进行处理,将处理后的第一预测上下文特征以及所述第二预测上下文特征分别与所述高维音频特征进行拼接,确定第一分离语音特征以及第二分离语音特征;
基于所述第一分离语音特征以及第二分离语音特征确定出两个说话人的语音信息。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的上下文信息预测模型的训练方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的上下文信息预测模型的训练方法的步骤。
本申请实施例的客户端以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如平板电脑。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有数据处理功能的电子装置。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种上下文信息预测模型的训练方法,包括:
通过单说话人的端到端语音识别编码器提取第一说话人的第一干净音频以及第二说话人的第二干净音频中的第一理想上下文特征以及第二理想上下文特征,确定为上下文信息预测模型的训练标签;
将由所述第一干净音频以及所述第二干净音频生成的混合音频的幅度谱作为所述上下文信息预测模型的输入,输出第一预测上下文特征以及第二预测上下文特征;
基于所述第一预测上下文特征、所述第二预测上下文特征以及所述训练标签对所述上下文信息预测模型进行训练,以使所述第一预测上下文特征以及所述第二预测上下文特征趋近于所述训练标签。
2.根据权利要求1所述的方法,其中,所述将由所述第一干净音频以及所述第二干净音频生成的混合音频的幅度谱作为所述上下文信息预测模型的输入包括:
将所述混合音频的幅度谱通过混合编码器处理后分别输入至两个不同的说话人区分编码器进行编码,生成第一编码以及第二编码;
通过共享参数的上下文编码器对所述第一编码以及第二编码进行编码,确定出第一说话人的第一预测上下文特征以及第二说话人第二预测上下文特征。
3.根据权利要求1所述的方法,其中,所述上下文信息预测模型包括:混合编码器、说话人区分编码器以及上下文编码器。
4.一种基于上下文信息预测模型的语音分离方法,包括:
通过语音分离模型确定待分离语音的高维音频特征;
根据权利要求1或2所述的训练方法训练后的上下文信息预测模型确定所述待分离语音中第一说话人的第一预测上下文特征以及第二说话人的第二预测上下文特征;
通过转换网络对所述第一预测上下文特征以及所述第二预测上下文特征进行处理,将处理后的第一预测上下文特征以及所述第二预测上下文特征分别与所述高维音频特征进行拼接,确定第一分离语音特征以及第二分离语音特征;
基于所述第一分离语音特征以及第二分离语音特征确定出两个说话人的语音信息。
5.根据权利要求4所述的方法,其中,所述语音分离模型包括:时频域模型或时域模型。
6.根据权利要求5所述的方法,其中,所述时频域模型包括:基于深度残差网络的基线系统、基于双向长短时记忆的基线系统。
7.一种上下文信息预测模型的训练系统,包括:
训练标签确定程序模块,用于通过单说话人的端到端语音识别编码器提取第一说话人的第一干净音频以及第二说话人的第二干净音频中的第一理想上下文特征以及第二理想上下文特征,确定为上下文信息预测模型的训练标签;
预测上下文特征确定程序模块,用于将由所述第一干净音频以及所述第二干净音频生成的混合音频的幅度谱作为所述上下文信息预测模型的输入,输出第一预测上下文特征以及第二预测上下文特征;
训练程序模块,用于基于所述第一预测上下文特征、所述第二预测上下文特征以及所述训练标签对所述上下文信息预测模型进行训练,以使所述第一预测上下文特征以及所述第二预测上下文特征趋近于所述训练标签。
8.一种基于上下文信息预测模型的语音分离系统,包括:
高维音频特征确定程序模块,用于通过语音分离模型确定待分离语音的高维音频特征;
预测上下文特征确定程序模块,用于根据权利要求7所述的训练系统训练后的上下文信息预测模型确定所述待分离语音中第一说话人的第一预测上下文特征以及第二说话人的第二预测上下文特征;
分离语音特征确定程序模块,用于通过转换网络对所述第一预测上下文特征以及所述第二预测上下文特征进行处理,将处理后的第一预测上下文特征以及所述第二预测上下文特征分别与所述高维音频特征进行拼接,确定第一分离语音特征以及第二分离语音特征;
语音分离程序模块,用于基于所述第一分离语音特征以及第二分离语音特征确定出两个说话人的语音信息。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。
CN202010680298.0A 2020-07-15 2020-07-15 上下文信息预测模型的训练方法及系统 Active CN111863009B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010680298.0A CN111863009B (zh) 2020-07-15 2020-07-15 上下文信息预测模型的训练方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010680298.0A CN111863009B (zh) 2020-07-15 2020-07-15 上下文信息预测模型的训练方法及系统

Publications (2)

Publication Number Publication Date
CN111863009A true CN111863009A (zh) 2020-10-30
CN111863009B CN111863009B (zh) 2022-07-26

Family

ID=72983529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010680298.0A Active CN111863009B (zh) 2020-07-15 2020-07-15 上下文信息预测模型的训练方法及系统

Country Status (1)

Country Link
CN (1) CN111863009B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111028861A (zh) * 2019-12-10 2020-04-17 苏州思必驰信息科技有限公司 频谱掩码模型训练方法、音频场景识别方法及系统
WO2022204630A1 (en) * 2021-03-23 2022-09-29 Qualcomm Incorporated Context-based speech enhancement

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1886962A (zh) * 2003-12-30 2006-12-27 艾利森电话股份有限公司 用于处理数据包流的上下文的方法及系统
CN103035240A (zh) * 2011-09-28 2013-04-10 苹果公司 用于使用上下文信息的语音识别修复的方法和系统
CN104778945A (zh) * 2005-08-05 2015-07-15 沃伊斯博克斯科技公司 响应自然语言语音口头表达的系统和方法
CN108038208A (zh) * 2017-12-18 2018-05-15 深圳前海微众银行股份有限公司 上下文信息识别模型的训练方法、装置和存储介质
US20190318754A1 (en) * 2018-04-16 2019-10-17 Mitsubishi Electric Research Laboratories, Inc. Methods and Systems for End-to-End Speech Separation with Unfolded Iterative Phase Reconstruction
US20190318725A1 (en) * 2018-04-13 2019-10-17 Mitsubishi Electric Research Laboratories, Inc. Methods and Systems for Recognizing Simultaneous Speech by Multiple Speakers
CN110459240A (zh) * 2019-08-12 2019-11-15 新疆大学 基于卷积神经网络和深度聚类的多说话人语音分离方法
CN110992978A (zh) * 2019-12-18 2020-04-10 苏州思必驰信息科技有限公司 音视频分离模型的训练方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1886962A (zh) * 2003-12-30 2006-12-27 艾利森电话股份有限公司 用于处理数据包流的上下文的方法及系统
CN104778945A (zh) * 2005-08-05 2015-07-15 沃伊斯博克斯科技公司 响应自然语言语音口头表达的系统和方法
CN103035240A (zh) * 2011-09-28 2013-04-10 苹果公司 用于使用上下文信息的语音识别修复的方法和系统
CN108038208A (zh) * 2017-12-18 2018-05-15 深圳前海微众银行股份有限公司 上下文信息识别模型的训练方法、装置和存储介质
US20190318725A1 (en) * 2018-04-13 2019-10-17 Mitsubishi Electric Research Laboratories, Inc. Methods and Systems for Recognizing Simultaneous Speech by Multiple Speakers
US20190318754A1 (en) * 2018-04-16 2019-10-17 Mitsubishi Electric Research Laboratories, Inc. Methods and Systems for End-to-End Speech Separation with Unfolded Iterative Phase Reconstruction
CN110459240A (zh) * 2019-08-12 2019-11-15 新疆大学 基于卷积神经网络和深度聚类的多说话人语音分离方法
CN110992978A (zh) * 2019-12-18 2020-04-10 苏州思必驰信息科技有限公司 音视频分离模型的训练方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHENDA LI ET AL.: "DEEP AUDIO-VISUAL SPEECH SEPARATION WITH ATTENTION MECHANISM", 《IEEE》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111028861A (zh) * 2019-12-10 2020-04-17 苏州思必驰信息科技有限公司 频谱掩码模型训练方法、音频场景识别方法及系统
WO2022204630A1 (en) * 2021-03-23 2022-09-29 Qualcomm Incorporated Context-based speech enhancement
US11715480B2 (en) 2021-03-23 2023-08-01 Qualcomm Incorporated Context-based speech enhancement

Also Published As

Publication number Publication date
CN111863009B (zh) 2022-07-26

Similar Documents

Publication Publication Date Title
CN110709924B (zh) 视听语音分离
CN109785824B (zh) 一种语音翻译模型的训练方法及装置
CN111899727B (zh) 用于多说话人的语音识别模型的训练方法及系统
CN111081259B (zh) 基于说话人扩充的语音识别模型训练方法及系统
CN108847249A (zh) 声音转换优化方法和系统
CN112071330B (zh) 一种音频数据处理方法、设备以及计算机可读存储介质
CN110600013B (zh) 非平行语料声音转换数据增强模型训练方法及装置
CN111951796B (zh) 语音识别方法及装置、电子设备、存储介质
CN111863009B (zh) 上下文信息预测模型的训练方法及系统
US11763801B2 (en) Method and system for outputting target audio, readable storage medium, and electronic device
CN114023300A (zh) 一种基于扩散概率模型的中文语音合成方法
CN113555032A (zh) 多说话人场景识别及网络训练方法、装置
CN111883105B (zh) 用于视频场景的上下文信息预测模型的训练方法及系统
CN113160855B (zh) 在线语音活性检测系统改进方法和装置
Mandel et al. Audio super-resolution using concatenative resynthesis
CN115762557A (zh) 用于语音分离的自监督训练预测器的训练方法及系统
CN113241091B (zh) 声音分离的增强方法及系统
CN115881156A (zh) 基于多尺度的多模态时域语音分离方法
Liu et al. PLCNet: Real-time Packet Loss Concealment with Semi-supervised Generative Adversarial Network.
Zhao et al. Time Domain Speech Enhancement using self-attention-based subspace projection
CN113763992A (zh) 语音测评方法、装置、计算机设备和存储介质
CN112634859A (zh) 用于文本相关说话人识别的数据增强方法及系统
CN112750469A (zh) 语音中检测音乐的方法、语音通信优化方法及对应的装置
Andronic MP3 Compression as a means to improve robustness against adversarial noise targeting attention-based end-to-end speech recognition
Stein et al. Automatic Speech Recognition on Firefighter TETRA broadcast

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant before: AI SPEECH Co.,Ltd.

GR01 Patent grant
GR01 Patent grant