CN111899727A - 用于多说话人的语音识别模型的训练方法及系统 - Google Patents
用于多说话人的语音识别模型的训练方法及系统 Download PDFInfo
- Publication number
- CN111899727A CN111899727A CN202010680303.8A CN202010680303A CN111899727A CN 111899727 A CN111899727 A CN 111899727A CN 202010680303 A CN202010680303 A CN 202010680303A CN 111899727 A CN111899727 A CN 111899727A
- Authority
- CN
- China
- Prior art keywords
- speaker
- context
- sequence
- representation
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 115
- 238000000034 method Methods 0.000 title claims abstract description 81
- 230000007246 mechanism Effects 0.000 claims abstract description 25
- 230000000694 effects Effects 0.000 claims abstract description 11
- 238000005070 sampling Methods 0.000 claims description 16
- 238000006073 displacement reaction Methods 0.000 claims description 13
- 238000013459 approach Methods 0.000 claims description 11
- 238000012360 testing method Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 15
- 239000000203 mixture Substances 0.000 description 13
- 230000006870 function Effects 0.000 description 11
- 238000013140 knowledge distillation Methods 0.000 description 7
- 230000015654 memory Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 230000010354 integration Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003278 mimic effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002028 premature Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Electrically Operated Instructional Devices (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明实施例提供一种用于多说话人的语音识别模型的训练方法。该方法包括:将训练数据中的多说话人的单通道混合语音特征输入至语音识别模型,获得多个说话人的高维特征序列表示;基于上下文嵌入提取器,确定多说话人的单通道混合语音特征中每个说话人的上下文嵌入表示,组成上下文混合嵌入序列表示,将上下文混合嵌入序列表示分别与多个说话人的高维特征序列表示拼接,确定每个说话人的拼接高维特征序列表示;基于注意力机制的解码器对每个说话人的拼接高维特征序列表示进行解码输出每个说话人的预测说话文本。本发明实施例还提供一种用于多说话人的语音识别模型的训练系统。本发明推进鸡尾酒会场景下的语音识别问题的解决,提高语音识别效果。
Description
技术领域
本发明涉及语音识别领域,尤其涉及一种用于多说话人的语音识别模型的训练方法及系统。
背景技术
近年来,随着越来越多的研究集中在更真实场景下的语音处理,端到端多说话人语音识别已经成为一个热门话题。对于语音识别通常会使用端到端单通道多说话人语音识别、基于说话人嵌入表示的目标说话人语音识别。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
端到端单通道多说话人语音识别:由于同时存在多人说话的语音信号,该模型仅能利用混合语音的信息,在训练时缺少单个说话人的语音信息,较难训练出好的效果,与单说话人语音识别系统相比性能差距较大。
基于说话人嵌入表示的目标说话人语音识别:虽然识别效果相比端到端单通道多说话人语音识别有提升,但只能针对事先已知混合语音中的特定说话人信息的情况,如果在测试时无法获知输入混合语音中的说话人信息,则该方法对识别没有帮助。
发明内容
为了至少解决现有技术中在训练时缺少对应混合语音的单个说话人的语音,没有提供额外的信息,仅能利用输入的混合语音,使得模型的语音识别效果较差,基于说话人嵌入表示的目标说话人语音识别需要提供仅包含目标说话人的干净语音才能提供相应的说话人嵌入表示,而在测试阶段往往无法得到关于输入语音中的说话人信息,使得语音识别效果较差的问题。
第一方面,本发明实施例提供一种用于多说话人的语音识别模型的训练方法,包括:
将训练数据中的多说话人的单通道混合语音特征输入至语音识别模型,获得所述多个说话人的高维特征序列表示,其中,所述训练数据还包括:所述多说话人的单通道混合语音特征中每个说话人的实际说话文本;
基于预训练的上下文嵌入提取器,确定所述多说话人的单通道混合语音特征中,每个说话人的上下文嵌入表示,将所述每个说话人的上下文嵌入表示逐帧拼接,组成上下文混合嵌入序列表示,将所述上下文混合嵌入序列表示分别与所述多个说话人的高维特征序列表示拼接,利用连接时序分类模块确定每个说话人的拼接高维特征序列表示,以避免排列不确定;
基于注意力机制的解码器对所述每个说话人的拼接高维特征序列表示进行解码,语音识别模型输出每个说话人的预测说话文本;
基于所述每个说话人的实际说话文本以及所述每个说话人的预测说话文本对所述语音识别模型进行置换不变性训练,以使所述每个说话人的预测说话文本趋近于对应的实际说话文本。
第二方面,本发明实施例提供一种用于多说话人的语音识别模型的训练系统,包括:
高维特征确定程序模块,用于将训练数据中的多说话人的单通道混合语音特征输入至语音识别模型,获得所述多个说话人的高维特征序列表示,其中,所述训练数据还包括:所述多说话人的单通道混合语音特征中每个说话人的实际说话文本;
序列表示拼接程序模块,用于基于预训练的上下文嵌入提取器,确定所述多说话人的单通道混合语音特征中,每个说话人的上下文嵌入表示,将所述每个说话人的上下文嵌入表示逐帧拼接,组成上下文混合嵌入序列表示,将所述上下文混合嵌入序列表示分别与所述多个说话人的高维特征序列表示拼接,利用连接时序分类模块确定每个说话人的拼接高维特征序列表示,以避免排列不确定;
预测说话文本程序模块,用于基于注意力机制的解码器对所述每个说话人的拼接高维特征序列表示进行解码,语音识别模型输出每个说话人的预测说话文本;
训练程序模块,用于基于所述每个说话人的实际说话文本以及所述每个说话人的预测说话文本对所述语音识别模型进行置换不变性训练,以使所述每个说话人的预测说话文本趋近于对应的实际说话文本。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的用于多说话人的语音识别模型的训练方法的步骤。
第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的用于多说话人的语音识别模型的训练方法的步骤。
本发明实施例的有益效果在于:本方法的语音识别模型在训练中,不需要针对每个说话人单独提供其干净的语音样本,因此无论是训练还是测试阶段都能直接使用,没有明显的失配问题。也解决了每个人的上下文嵌入表示和编码器输出的多个高维音频特征进行配对,就会存在的排列不确定性问题。使得语音识别模型更好地处理实际生活中多人同时说话的场景,推进鸡尾酒会场景下的语音识别等问题的解决,提高语音识别效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种用于多说话人的语音识别模型的训练方法的流程图;
图2是本发明一实施例提供的一种用于多说话人的语音识别模型的训练方法的结合上下文嵌入表示的单通道多说话人语音识别框架结构图;
图3是本发明一实施例提供的一种用于多说话人的语音识别模型的训练方法的上下文嵌入表示提取器模块的网络架构与训练框架结构图;
图4是本发明一实施例提供的一种用于多说话人的语音识别模型的训练方法的上下文嵌入在2个说话人混合WSJ语料库上的性能(平均词错误率WER)(%)数据图;
图5是本发明一实施例提供的一种用于多说话人的语音识别模型的训练方法的上下文嵌入在2个说话人混合WSJ语料库上的不同嵌入集成位置的性能(平均词错误率WER)(%)数据图;
图6是本发明一实施例提供的一种用于多说话人的语音识别模型的训练方法的上下文嵌入在2个说话人混合的WSJ语料库上的不同训练策略的性能(平均词错误率WER)(%)数据图;
图7是本发明一实施例提供的一种用于多说话人的语音识别模型的训练系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明一实施例提供的一种用于多说话人的语音识别模型的训练方法的流程图,包括如下步骤:
S11:将训练数据中的多说话人的单通道混合语音特征输入至语音识别模型,获得所述多个说话人的高维特征序列表示,其中,所述训练数据还包括:所述多说话人的单通道混合语音特征中每个说话人的实际说话文本;
S12:基于预训练的上下文嵌入提取器,确定所述多说话人的单通道混合语音特征中,每个说话人的上下文嵌入表示,将所述每个说话人的上下文嵌入表示逐帧拼接,组成上下文混合嵌入序列表示,将所述上下文混合嵌入序列表示分别与所述多个说话人的高维特征序列表示拼接,利用连接时序分类模块确定每个说话人的拼接高维特征序列表示,以避免排列不确定;
S13:基于注意力机制的解码器对所述每个说话人的拼接高维特征序列表示进行解码,语音识别模型输出每个说话人的预测说话文本;
S14:基于所述每个说话人的实际说话文本以及所述每个说话人的预测说话文本对所述语音识别模型进行置换不变性训练,以使所述每个说话人的预测说话文本趋近于对应的实际说话文本。
在本实施方式中,在端到端单通道多说话人语音识别模型的基础上,考虑了结合额外的上下文嵌入表示信息,从而进一步提升语音识别的性能。
对于步骤S11,训练数据包括了多个说话人的单通道混合语音,提取出多个说话人的单通道混合语音的语音特征,还需要准备每个说话人的实际说话文本。例如混合语音可以直接从实际中采集,每个说话人的实际说话文本可以由音频采集人员识别出混合语音中每个说话人的实际说话文本。
将多说话人的单通道混合语音特征(对数梅尔滤波器组系数)输入至语音识别模型模型当中,通过语音识别模型获得多个说话人的高维特征序列表示。
在本实施方式中,所述语音识别模型包括:语音特征的编码器,基于注意力机制的解码器,连接时序分类模块;
其中,所述语音特征的编码器包括:
混合语音编码器,用于单通道混合语音特征的特征采样,
说话人编码器,用于从所述单通道混合语音特征的特征采样中分别提取对应于每个说话人的中间特征,
识别编码器,用于将所述中间特征转换成每个说话人的高维特征序列表示;
所述基于注意力机制的解码器用于将所述高维特征序列表示转换为文本序列;
所述连接时序分类模块用于辅助训练所述语音特征的编码器,同时也用于辅助在置换不变性训练方法中确定高维特征序列表示与每个说话人的目标说话文本之间的排列顺序。
在本实施方式中,结合上下文嵌入表示的单通道多说话人语音识别框架如图2所示,首先通过语音特征的编码器将多说话人的单通道混合语音特征投影到高维空间,得到高维空间的特征序列表示。
编码器由三个部分组成,依次是混合语音编码器(用于初步的采样和特征映射)、说话人相关的编码器1和2(从混合语音编码器的输出中分别提取对应于每个说话人的中间特征)、识别编码器(将中间特征转换成最终的高维特征表示,用于语音识别)。
“特征投影”就是将输入的混合语音的特征(如滤波器组特征)进行某种投影变换(通过神经网络完成),得到在新的特征空间下的表示,这个过程称作特征投影。
对于步骤S12,在语音识别之前,需要预先训练上下文嵌入提取器,这里是考虑到,使用类似人类听觉机制的额外上下文信息来提升多说话人语音识别的性能,基于预训练的上下文嵌入提取器,确定多说话人的单通道混合语音特征中,每个说话人的上下文嵌入表示,通过对每个说话人的上下文嵌入表示逐帧拼接,这样将多个说话人的上下文嵌入表示,合并成一个单独的上下文混合嵌入序列表示。
然后将它逐帧拼接到图2左侧语音识别模型的编码器输出上面,用于后续的解码器进行识别,确定每个说话人的拼接高维特征序列表示,来避免多个说话人的高维特征序列表示与上下文混合嵌入序列表示拼接的排列不确定。
对于步骤S13,基于注意力机制的解码器模块负责将从编码器得到的特征序列表示转换到文本序列;同时,连接时序分类(CTC)模块作为一个辅助任务,帮助模型更好的学习输入和输出之间的对齐,同时也用于在置换不变性训练方法中,确定标注的排列方式。
所述基于注意力机制的解码器对所述每个说话人的拼接高维特征序列表示进行解码,语音识别模型输出每个说话人的预测说话文本包括:
基于注意力机制的解码器将所述每个说话人的拼接高维特征序列表示转换为每个说话人的预测文本序列;
将所述每个说话人的文本序列,转换成所述每个说话人的预测说话文本。
语音识别模型最终的输出为解码器输出的2个说话人语音所对应的标签(即2个输出标签,标签可以理解为语音对应的文本,但经过字典映射过了,方便计算机处理),真实标签是实现人工标注好的每个单人语音对应的文本(并经过字典映射后的结果)。
对于步骤S14,基于预先准备的每个说话人的实际说话文本以及语音识别模型的预测说话文本对所述语音识别模型进行置换不变性训练,其中,置换不变性方法(PIT)是一种用来解决多个预测标签(输出标签)与多个真实标签配对的算法。在本例中,模型在处理混合语音时,会分别输出2个说话人语音所对应的标签,但是在训练时需要能够计算每个输出标签与相应的真实标签的误差,而我们并不知道模型的2个输出标签实际分别对应的是哪个说话人(比如预测的两个标签向量分别是P1和P2,真实标签是Y1和Y2,我们不知道应该P1-Y1,P2-Y2还是P1-Y2,P2-Y1),所以采用了置换不变性方法来帮助配对。
输出排列就是通过置换不变性方法之后得到的标签排列,比如输出排列为1,0则代表当前索引处P1对应Y2,P2对应Y1,若输出排列为0,1则相反。通过对语音识别模型的训练,进而使所述每个说话人的预测说话文本趋近于对应的实际说话文本。
通过该实施方式可以看出,本方法的语音识别模型在训练中,不需要针对每个说话人单独提供其干净的语音样本,因此无论是训练还是测试阶段都能直接使用,没有明显的失配问题。也解决了每个人的上下文嵌入表示和编码器输出的多个高维音频特征进行配对,就会存在的排列不确定性问题。使得语音识别模型更好地处理实际生活中多人同时说话的场景,推进鸡尾酒会场景下的语音识别等问题的解决。
要注意的是,语音识别任务与语音分离任务是不同的任务/领域,语音分离任务的模型采用了单个的编码器来对混合语音进行编码,因此加入上下文嵌入表示时只需要分别对同一个混合语音高维特征拼接不同人的上下文嵌入表示即可,而语音识别模型采用了能够处理多人信息的编码器结构,它的输出是从混合语音中提取的对应每个说话人的高维音频特征。这时如果要将每个人的上下文嵌入表示和编码器输出的多个高维音频特征进行配对,就会存在排列不确定性问题。
作为一种实施方式,在本实施例中,在所述将所述上下文混合嵌入序列表示分别与所述多个说话人的高维特征序列表示拼接之前,所述方法还包括:
通过注意力机制确定所述上下文混合嵌入序列表示对于所述多个说话人的高维特征序列表示的权值;
基于所述多个说话人的高维特征序列表示的权值分别对所述上下文混合嵌入序列表示加权,将加权后的上下文混合嵌入序列表示分别与所述多个说话人的高维特征序列表示拼接,以提高语音识别效果。
在本实施方式中,在拼接上下文嵌入表示之前,先在上下文嵌入表示和语音识别模型的编码器输出之间通过注意力机制计算一个加权之后的上下文嵌入表示,然后再进行拼接。这样可以达到更好的效果,但是注意力机制的设计需要较为精细的调整,可以根据具体的项目需求进行适当调整。
作为一种实施方式,在本实施例中,所述预训练的上下文嵌入提取器由多个说话人各自的干净语音训练获得,包括:
通过端到端语音识别编码器分别提取所述多个说话人各自的干净语音中的理想上下文特征;
将由所述多个说话人各自的干净语音生成的混合音频的幅度谱作为所述上下文嵌入提取器的输入,输出多个说话人各自的预测上下文特征;
基于所述多个说话人各自的所述理想上下文特征以及所述预测上下文特征对所述上下文嵌入提取器进行训练。
在本实施方式中,上下文嵌入表示提取器模块的网络架构与训练框架如图3所示,其中图中间部分展示了上下文嵌入表示提取器的网络结构,它类似于语音识别中的编码器结构,也由3个编码器模块组成,但不同的是,上下文嵌入表示提取器的网络结构可以是与语音识别中相同的循环神经网络(比如双向长短期记忆BLSTM),也可以是前向网络(比如卷积神经网络CNN)。图中还展示了上下文嵌入表示提取器的训练过程,其训练标签是从单说话人语音识别的编码器模块输出中得到的对应于每个说话人的上下文嵌入表示,单说话人语音识别的编码器是从预先训练好的语音识别模型中直接获得的,其输入为与混合语音相对应的每个说话人的平行干净语音数据,输出为对应每个说话人语音的上下文嵌入表示。在训练上下文嵌入表示提取器时,损失函数为提取器输出的上下文嵌入表示和单说话人语音识别编码器输出的上下文嵌入表示之间的L1范数损失函数;而且由于存在多对模型预测输出和标签,因此计算损失函数时也和语音识别类似地用到了置换不变性训练(PIT)方法。
通过该实施方式可以看出,上下文嵌入表示提取器不仅适用于端到端单通道多说话人语音识别,也可以拓展到多通道多说话人语音识别中,并且在训练和测试时都可以使用同样的上下文信息提取器来提供额外信息,使得模型具有较好的泛化能力,在更加复杂的真实环境中能取得鲁棒和更好的识别性能。
对本方法进行具体说明,基本的端到端单声道多说话人ASR(Automatic SpeechRecognition,自动语音识别)系统,这是本方法的基准模型。通过在编码器中引入分离级并在目标函数中应用置换不变训练,它将基于CTC(Connectionist TemporalClassification,连接时序分类)/注意力的联合编解码器系统扩展到多说话人情况。可以在图2的左侧说明模型体系结构,但是没有上下文知识的其他信息。
首先,将J个说话人的输入语音混合O送入多说话人编码器,在此将其显式分离为J个向量序列,每个向量代表一个说话人源。多说话人编码器模块由三个阶段组成,即EncoderMix,EncoderSD和EncoderRec,如下所示:H=EncoderMix(O),
Gj=EncoderRec(Hj),j=1,…,J
然后将编码的表示Gj送入联合CTC/注意模块,该模块以多任务方式进行训练。具有置换不变性训练的CTC目标函数不仅用作联合训练编码器的辅助任务,而且还可以解决等式中所示的标签歧义问题:
其中P表示{1,...,J}上所有可能置换的集合,π(j)是置换π∈P中的第j个元素,Yj表示CTC根据表示Gj计算的输出序列,R是输入混合物中J说话人的参考标签集。
其中,下标n表示解码的第n个时间步长,hn-1是参考标签序列Rπ(j)或预测标签序列Yj中的第(n-1)个元素。在训练期间选择hn-1的技术也称为计划抽样,可以用以下等式描述:
h~Bernoulli(p),
其中历史信息hn-1按概率p从预测中获取,按概率(1-p)从真实标签中获取。
系统的最终损失函数定义为两个目标的组合:
其中λ是插值因子,0≤λ≤1。
本方法描述了用于改进端到端单通道多说话人ASR系统的建议方法。首先,提出了一种利用上下文语言嵌入学习的新颖方法。接下来,将介绍多阶段训练和嵌入采样策略,它们可以进一步改善所提出的体系结构。
单声道多说话人语音识别比单说话人情况更具挑战性,因为从输入混合语音中分离出多个语音流是一个不确定的问题,其中语音流的组合数量是无限的。当人类从混合语音中识别目标说话人时,除了音频信号本身之外,人类还将利用上下文相关的信息来更好地区分目标说话人的语音。受到这种人为机制的启发,我们还希望探索用上下文信息来识别多说话人的混合语音的方法。
一种简单的方法是利用来自单说话人端到端ASR系统的中间表示,其输入是混合中的平行单说话人语音。原始的单说话人语音可以输入到经过预训练的ASR模型中,并且编码器的输出可以视为嵌入了该语音的上下文信息。
尽管以这种方式获取上下文嵌入进行训练是可行的,但以相同的方式进行测试却无法获得上下文嵌入,因为通常没有原始的干净语音。为了解决这个问题,需要直接从混合语音中估算每个说话人的上下文嵌入。在本方法中,设计了一种新颖的知识蒸馏方法来学习混合语音的上下文嵌入。与传统的知识蒸馏工作不同,传统的知识蒸馏工作通常会迫使学生模型模仿教师模型的输出分布,我们在单说话人上下文嵌入标签和预测的多说话人上下文嵌入之间进行知识蒸馏,使得上下文嵌入预测模型学习单说话人ASR的编码器输出的嵌入表示。
图3说明了用于学习混合语音上下文嵌入的知识蒸馏框架。教师模型是预训练的端到端单说话人ASR系统的编码器模块,该模块将每个说话人的对应干净语音作为输入并输出相应的表示形式学生模型是上下文嵌入预测模型,其结构与基线ASR模型的编码器类似。它由三个阶段组成:混合编码器EncoderMix首先将输入混合物O编码为中间表示HS,由J个独立的说话人-差分(SD)编码器EncoderSD进一步处理。不同SD编码器的输出对应于混音中的不同说话人。最后,识别编码器EncoderRec,S将特征转换为高级表示目标是直接从混合物中学习两个说话人的个体上下文表示,因此知识蒸馏的损失函数可以表述为:
图2显示了新提出的多说话人ASR体系结构,该体系结构将上下文嵌入集成到ASR模型中。主要区别在于编码器输出,可以将其表示为:
Gj′=Concat(Gj,Gcontext),j=1,…,J,
其中Gj是在等式中生成的表示。Concat(·)表示逐帧拼接。需要注意的是,上下文嵌入Gcontext可以来自单说话人教师编码器(α=T),也可以来自多说话人ASR训练中的上下文嵌入预测模型(α=S),但是在测试中只能使用预测的上下文嵌入。
在本步骤中,介绍两种增强的训练策略,以进一步提高模型性能。
第一种训练策略将训练过程分为两个阶段。在第一阶段,通常会在没有上下文嵌入的情况下完成多说话人ASR模型的几轮训练。然后在第二阶段,如图3所示利用上下文嵌入,并继续训练模型直至收敛。我们的动机是,上下文嵌入本身已经包含了足够的声学信息以供识别,因此过早地涉及这些功能可能会导致多说话人编码器不能得到充分训练,而对于训练而言可能不是最佳选择。因此,我们提出了一种两阶段训练策略,允许在引入上下文嵌入之前对多说话人ASR模型进行适度的训练,这可以防止模型滥用或过分强调上下文信息。
第二种训练策略在训练中同时利用了单说话人ASR编码器的理想上下文嵌入和预测模型的预测上下文嵌入,而在测试中仅使用了预测上下文嵌入。在训练期间,从等式中的伯努利分布中随机抽样,确定上下文嵌入的来源。更具体地说,上下文嵌入按概率p来自理想上下文嵌入,以及按概率(1-p)来自预测上下文嵌入。我们将此策略称为“嵌入采样”,它与计划采样技术有一些相似之处。它还可以缓解训练与测试之间的不匹配,并增强了上下文中建议的多通话者ASR模型的通用性嵌入。
为了评估本方法的性能,使用了人工生成的单通道两说话人混合语音数据集,该数据集基于《华尔街日报》(WSJ0)语音语料库。
在本步骤中,首先描述这项工作中的实验设置。然后介绍并讨论了在生成的WSJ0-2mix数据集上的实验结果。使用MERL发布的工具对WSJ0-2mix数据集进行了人工模拟。生成的样本的采样率为16kHz。在每个样本中,一个说话人相对于另一个说话人的SNR从[-5,5]dB中均匀采样,训练集、开发集和测试集的时长分别为88.2小时,1.1小时和0.9小时。
所有模型的输入特征都是80维对数梅尔滤波器组系数,每帧具有音高特征,以及它们的一阶和二阶差异。使用Kaldi工具包提取特征,并将其归一化为零均值和单位方差以进行训练。
图2中使用的多说话人编码器以及图3中用于上下文嵌入预测的学生模型由两个VGG样式的CNN块(EncoderMix),一个由带有投影的双向长短期记忆(BLSTMP)组成的说话人编码器(EncoderSD)和由两个共享的BLSTMP层组成的识别编码器(EncoderRec)。图3中的单说话人ASR教师模型的编码器具有相似的结构,具有两个VGG样式的CNN块,其后是三个BLSTMP层。多说话人和单说话人ASR模型的解码器均由具有300个单元的单个单向长短期记忆(LSTM)层组成。所有网络均基于带有PyTorch后端的ESPnet框架构建。
在训练阶段,使用ρ=0.95和的AdaDelta优化器,以及等式中的插值因子。设置为λ=0.2。在解码阶段,引入了单词级别循环神经网络语言模型(RNNLM)进行记录,该模型在WSJ0 SI-84的转录文本上进行了预训练,并具有包含1000个单元的单个LSTM层。插值因子λ设置为0.3,而RNNLM的权重设置为1.0。关于知识蒸馏学习,使用与相同的单说话人ASR教师模型,该模型在原始WSJ0语料库上进行了训练。但是只有编码器模块用于以后的知识蒸馏,在实验中,计划抽样和嵌入抽样的概率分别为p=0.4和p=0.7。
对所有模型进行了最多15个轮次的训练,并选择了在开发集上具有最佳性能的模型进行最终评估。
首先评估基线端到端模型和所提出的基于上下文嵌入的新模型的性能,并在生成的混合语音测试集上进行测试。结果显示在图4中。第一个基线是端到端多说话人ASR基线系统,表示为PIT-E2E,且未使用计划采样技术。它以强制使用教师信息的方式进行了训练,其中等式中的历史信息hn-1始终来自真实标签。我们还对PIT-E2E应用了计划抽样,如图4中的第二行所示,它是第二基线。从图4中可以看出,PITE2E模型的性能在训练过程中应用计划采样后可以略微改善,因为它可以减轻训练过程中因强制使用教师信息而导致的训练与推断阶段的差异。因此,默认情况下,我们提出的所有方法都将在训练期间应用计划采样。
然后,我们评估了我们提出的上下文嵌入方法的上限,其中训练和测试中的上下文嵌入都来自单说话人教师编码器,表示为上下文(理想)。如图4所示,利用上下文信息后,开发集和测试集的性能都得到了显著改善,在开发集和测试集上的词错误率相对改进分别超过15%和27%。但是,这样的上下文嵌入并非总是可用于解码阶段,因为需要来自每个说话人的平行干净语音。因此,我们进一步评估了使用预测模型提供的上下文嵌入的性能,表示为上下文(预测),该上下文嵌入不依赖于平行数据进行测试。尽管在将预测的嵌入与理想嵌入进行比较时可以观察到性能下降,但它仍然明显优于基线方法,在开发集和测试集上分别有12%和17%的相对改进。
最后使用的上下文嵌入方法在最后一个编码器层(EncoderRec)之后进行嵌入集成。在本步骤中,将进一步研究不同位置如何影响所提出方法的性能。训练和评估了在混合编码器(EncoderMix)之后集成上下文嵌入的多说话人ASR模型,这是一个相对较浅的集成级别,结果如图5所示。我们可以看到,与EncoderRec之后相比,将上下文嵌入集成在混合编码器之后时性能会急剧下降。因此,合适的嵌入集成位置对于所提出的方法非常重要,在下面的实验中,我们将在EncoderRec之后使用集成。
在本步骤中,我们将进一步探讨不同的训练策略,以优化上下文嵌入的使用。图6显示了使用不同策略训练的模型的性能。如我们所见,与带上下文嵌入的基本训练过程相比,这两种所提出的训练策略仍可以带来适度且一致的改进。如图6的最后一行所示,进一步研究了两种所提出的训练策略的组合。可以看到,性能进一步提高,与基线模型相比,最终词错误率WER相对减少了约25%。这证明了本方法的有效性。
本方法提出了一种新颖的基于上下文嵌入的多说话人语音识别框架,该框架能够直接从输入混合语音中学习上下文嵌入,从而改进多说话人ASR系统。此外还研究了不同的嵌入集成位置,并设计了两种训练策略来进一步提高性能。新的体系结构可以使系统模仿人类的做法,利用音频和上下文信息来聚焦和分离混合语音中的每个目标说话人。在人工生成的两个说话人混合语音语料库上的实验结果表明,该方法可以显著提高多说话人的语音识别性能。
如图7所示为本发明一实施例提供的一种用于多说话人的语音识别模型的训练系统的结构示意图,该系统可执行上述任意实施例所述的用于多说话人的语音识别模型的训练方法,并配置在终端中。
本实施例提供的一种用于多说话人的语音识别模型的训练系统包括:高维特征确定程序模块11,序列表示拼接程序模块12,预测说话文本程序模块13和训练程序模块14。
其中,高维特征确定程序模块11用于将训练数据中的多说话人的单通道混合语音特征输入至语音识别模型,获得所述多个说话人的高维特征序列表示,其中,所述训练数据还包括:所述多说话人的单通道混合语音特征中每个说话人的实际说话文本;序列表示拼接程序模块12用于基于预训练的上下文嵌入提取器,确定所述多说话人的单通道混合语音特征中,每个说话人的上下文嵌入表示,将所述每个说话人的上下文嵌入表示逐帧拼接,组成上下文混合嵌入序列表示,将所述上下文混合嵌入序列表示分别与所述多个说话人的高维特征序列表示拼接,利用连接时序分类模块确定每个说话人的拼接高维特征序列表示,以避免排列不确定;预测说话文本程序模块13用于基于注意力机制的解码器对所述每个说话人的拼接高维特征序列表示进行解码,语音识别模型输出每个说话人的预测说话文本;训练程序模块14用于基于所述每个说话人的实际说话文本以及所述每个说话人的预测说话文本对所述语音识别模型进行置换不变性训练,以使所述每个说话人的预测说话文本趋近于对应的实际说话文本。
进一步地,所述预测说话文本程序模块用于:
基于注意力机制的解码器将所述每个说话人的拼接高维特征序列表示转换为每个说话人的预测文本序列;
将所述每个说话人的文本序列,转换成所述每个说话人的预测说话文本。
进一步地,所述语音识别模型包括:语音特征的编码器,基于注意力机制的解码器,连接时序分类模块;
其中,所述语音特征的编码器包括:
混合语音编码器,用于单通道混合语音特征的特征采样,
说话人编码器,用于从所述单通道混合语音特征的特征采样中分别提取对应于每个说话人的中间特征,
识别编码器,用于将所述中间特征转换成每个说话人的高维特征序列表示;
所述基于注意力机制的解码器用于将所述高维特征序列表示转换为文本序列;
所述连接时序分类模块用于辅助训练所述语音特征的编码器,用于辅助在置换不变性训练方法中确定高维特征序列表示与每个说话人的目标说话文本之间的排列顺序。
进一步地,所述序列表示拼接程序模块用于:
通过注意力机制确定所述上下文混合嵌入序列表示对于所述多个说话人的高维特征序列表示的权值;
基于所述多个说话人的高维特征序列表示的权值分别对所述上下文混合嵌入序列表示加权,将加权后的上下文混合嵌入序列表示分别与所述多个说话人的高维特征序列表示拼接,以提高语音识别效果。
进一步地,所述预训练的上下文嵌入提取器由多个说话人各自的干净语音训练获得,包括:
通过端到端语音识别编码器分别提取所述多个说话人各自的干净语音中的理想上下文特征;
将由所述多个说话人各自的干净语音生成的混合音频的滤波器组系数特征作为所述上下文嵌入提取器的输入,输出多个说话人各自的预测上下文特征;
基于所述多个说话人各自的所述理想上下文特征以及所述预测上下文特征对所述上下文嵌入提取器进行训练。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的用于多说话人的语音识别模型的训练方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
将训练数据中的多说话人的单通道混合语音特征输入至语音识别模型,获得所述多个说话人的高维特征序列表示,其中,所述训练数据还包括:所述多说话人的单通道混合语音特征中每个说话人的实际说话文本;
基于预训练的上下文嵌入提取器,确定所述多说话人的单通道混合语音特征中,每个说话人的上下文嵌入表示,将所述每个说话人的上下文嵌入表示逐帧拼接,组成上下文混合嵌入序列表示,将所述上下文混合嵌入序列表示分别与所述多个说话人的高维特征序列表示拼接,利用连接时序分类模块确定每个说话人的拼接高维特征序列表示,以避免排列不确定;
基于注意力机制的解码器对所述每个说话人的拼接高维特征序列表示进行解码,语音识别模型输出每个说话人的预测说话文本;
基于所述每个说话人的实际说话文本以及所述每个说话人的预测说话文本对所述语音识别模型进行置换不变性训练,以使所述每个说话人的预测说话文本趋近于对应的实际说话文本。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的用于多说话人的语音识别模型的训练方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的用于多说话人的语音识别模型的训练方法的步骤。
本申请实施例的客户端以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如平板电脑。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有数据处理功能的电子装置。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种用于多说话人的语音识别模型的训练方法,包括:
将训练数据中的多说话人的单通道混合语音特征输入至语音识别模型,获得所述多个说话人的高维特征序列表示,其中,所述训练数据还包括:所述多说话人的单通道混合语音特征中每个说话人的实际说话文本;
基于预训练的上下文嵌入提取器,确定所述多说话人的单通道混合语音特征中,每个说话人的上下文嵌入表示,将所述每个说话人的上下文嵌入表示逐帧拼接,组成上下文混合嵌入序列表示,将所述上下文混合嵌入序列表示分别与所述多个说话人的高维特征序列表示拼接,利用连接时序分类模块确定每个说话人的拼接高维特征序列表示,以避免排列不确定;
基于注意力机制的解码器对所述每个说话人的拼接高维特征序列表示进行解码,语音识别模型输出每个说话人的预测说话文本;
基于所述每个说话人的实际说话文本以及所述每个说话人的预测说话文本对所述语音识别模型进行置换不变性训练,以使所述每个说话人的预测说话文本趋近于对应的实际说话文本。
2.根据权利要求1所述的方法,其中,所述基于注意力机制的解码器对所述每个说话人的拼接高维特征序列表示进行解码,语音识别模型输出每个说话人的预测说话文本包括:
基于注意力机制的解码器将所述每个说话人的拼接高维特征序列表示转换为每个说话人的预测文本序列;
将所述每个说话人的文本序列,转换成所述每个说话人的预测说话文本。
3.根据权利要求1所述的方法,其中,所述语音识别模型包括:语音特征的编码器,基于注意力机制的解码器,连接时序分类模块;
其中,所述语音特征的编码器包括:
混合语音编码器,用于单通道混合语音特征的特征采样,
说话人编码器,用于从所述单通道混合语音特征的特征采样中分别提取对应于每个说话人的中间特征,
识别编码器,用于将所述中间特征转换成每个说话人的高维特征序列表示;
所述基于注意力机制的解码器用于将所述高维特征序列表示转换为文本序列;
所述连接时序分类模块用于辅助训练所述语音特征的编码器,用于辅助在置换不变性训练方法中确定高维特征序列表示与每个说话人的目标说话文本之间的排列顺序。
4.根据权利要求1所述的方法,其中,在将所述上下文混合嵌入序列表示分别与所述多个说话人的高维特征序列表示拼接之前,所述方法还包括:
通过注意力机制确定所述上下文混合嵌入序列表示对于所述多个说话人的高维特征序列表示的权值;
基于所述多个说话人的高维特征序列表示的权值分别对所述上下文混合嵌入序列表示加权,将加权后的上下文混合嵌入序列表示分别与所述多个说话人的高维特征序列表示拼接,以提高语音识别效果。
5.根据权利要求1所述的方法,其中,所述预训练的上下文嵌入提取器由多个说话人各自的干净语音训练获得,包括:
通过端到端语音识别编码器分别提取所述多个说话人各自的干净语音中的理想上下文特征;
将由所述多个说话人各自的干净语音生成的混合音频的滤波器组系数特征作为所述上下文嵌入提取器的输入,输出多个说话人各自的预测上下文特征;
基于所述多个说话人各自的所述理想上下文特征以及所述预测上下文特征对所述上下文嵌入提取器进行训练。
6.一种用于多说话人的语音识别模型的训练系统,包括:
高维特征确定程序模块,用于将训练数据中的多说话人的单通道混合语音特征输入至语音识别模型,获得所述多个说话人的高维特征序列表示,其中,所述训练数据还包括:所述多说话人的单通道混合语音特征中每个说话人的实际说话文本;
序列表示拼接程序模块,用于基于预训练的上下文嵌入提取器,确定所述多说话人的单通道混合语音特征中,每个说话人的上下文嵌入表示,将所述每个说话人的上下文嵌入表示逐帧拼接,组成上下文混合嵌入序列表示,将所述上下文混合嵌入序列表示分别与所述多个说话人的高维特征序列表示拼接,利用连接时序分类模块确定每个说话人的拼接高维特征序列表示,以避免排列不确定;
预测说话文本程序模块,用于基于注意力机制的解码器对所述每个说话人的拼接高维特征序列表示进行解码,语音识别模型输出每个说话人的预测说话文本;
训练程序模块,用于基于所述每个说话人的实际说话文本以及所述每个说话人的预测说话文本对所述语音识别模型进行置换不变性训练,以使所述每个说话人的预测说话文本趋近于对应的实际说话文本。
7.根据权利要求6所述的系统,其中,所述预测说话文本程序模块用于:
基于注意力机制的解码器将所述每个说话人的拼接高维特征序列表示转换为每个说话人的预测文本序列;
将所述每个说话人的文本序列,转换成所述每个说话人的预测说话文本。
8.根据权利要求6所述的系统,其中,所述语音识别模型包括:语音特征的编码器,基于注意力机制的解码器,连接时序分类模块;
其中,所述语音特征的编码器包括:
混合语音编码器,用于单通道混合语音特征的特征采样,
说话人编码器,用于从所述单通道混合语音特征的特征采样中分别提取对应于每个说话人的中间特征,
识别编码器,用于将所述中间特征转换成每个说话人的高维特征序列表示;
所述基于注意力机制的解码器用于将所述高维特征序列表示转换为文本序列;
所述连接时序分类模块用于辅助训练所述语音特征的编码器,用于辅助在置换不变性训练方法中确定高维特征序列表示与每个说话人的目标说话文本之间的排列顺序。
9.根据权利要求6所述的系统,其中,所述序列表示拼接程序模块用于:
通过注意力机制确定所述上下文混合嵌入序列表示对于所述多个说话人的高维特征序列表示的权值;
基于所述多个说话人的高维特征序列表示的权值分别对所述上下文混合嵌入序列表示加权,将加权后的上下文混合嵌入序列表示分别与所述多个说话人的高维特征序列表示拼接,以提高语音识别效果。
10.根据权利要求6所述的系统,其中,所述预训练的上下文嵌入提取器由多个说话人各自的干净语音训练获得,包括:
通过端到端语音识别编码器分别提取所述多个说话人各自的干净语音中的理想上下文特征;
将由所述多个说话人各自的干净语音生成的混合音频的滤波器组系数特征作为所述上下文嵌入提取器的输入,输出多个说话人各自的预测上下文特征;
基于所述多个说话人各自的所述理想上下文特征以及所述预测上下文特征对所述上下文嵌入提取器进行训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010680303.8A CN111899727B (zh) | 2020-07-15 | 2020-07-15 | 用于多说话人的语音识别模型的训练方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010680303.8A CN111899727B (zh) | 2020-07-15 | 2020-07-15 | 用于多说话人的语音识别模型的训练方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111899727A true CN111899727A (zh) | 2020-11-06 |
CN111899727B CN111899727B (zh) | 2022-05-06 |
Family
ID=73191215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010680303.8A Active CN111899727B (zh) | 2020-07-15 | 2020-07-15 | 用于多说话人的语音识别模型的训练方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111899727B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270379A (zh) * | 2020-11-13 | 2021-01-26 | 北京百度网讯科技有限公司 | 分类模型的训练方法、样本分类方法、装置和设备 |
CN112420028A (zh) * | 2020-12-03 | 2021-02-26 | 上海欣方智能系统有限公司 | 一种用于对语音信号进行语义识别的系统及方法 |
CN112669796A (zh) * | 2020-12-29 | 2021-04-16 | 西交利物浦大学 | 基于人工智能的音乐转乐谱的方法及装置 |
CN113160801A (zh) * | 2021-03-10 | 2021-07-23 | 云从科技集团股份有限公司 | 语音识别方法、装置以及计算机可读存储介质 |
CN113327596A (zh) * | 2021-06-17 | 2021-08-31 | 北京百度网讯科技有限公司 | 语音识别模型的训练方法、语音识别方法和装置 |
CN113327585A (zh) * | 2021-05-31 | 2021-08-31 | 杭州芯声智能科技有限公司 | 一种基于深度神经网络的自动语音识别方法 |
CN113724713A (zh) * | 2021-09-07 | 2021-11-30 | 科大讯飞股份有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN113782013A (zh) * | 2021-09-15 | 2021-12-10 | 北京百度网讯科技有限公司 | 语音识别及模型训练的方法、设备、存储介质及程序产品 |
CN114944148A (zh) * | 2022-07-09 | 2022-08-26 | 昆明理工大学 | 融合外部语言知识的流式越南语语音识别方法 |
CN115101075A (zh) * | 2022-05-05 | 2022-09-23 | 腾讯科技(深圳)有限公司 | 一种语音识别的方法以及相关装置 |
CN115440198A (zh) * | 2022-11-08 | 2022-12-06 | 南方电网数字电网研究院有限公司 | 混合音频信号的转换方法、装置、计算机设备和存储介质 |
CN115527526A (zh) * | 2022-11-28 | 2022-12-27 | 南方电网数字电网研究院有限公司 | 端到端远场语音识别系统训练方法、装置、计算机设备 |
CN118245803A (zh) * | 2024-04-12 | 2024-06-25 | 摩尔线程智能科技(北京)有限责任公司 | 情感识别模型的训练方法、情感识别方法、装置、电子设备、存储介质和程序产品 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109215662A (zh) * | 2018-09-18 | 2019-01-15 | 平安科技(深圳)有限公司 | 端对端语音识别方法、电子装置及计算机可读存储介质 |
CN110246487A (zh) * | 2019-06-13 | 2019-09-17 | 苏州思必驰信息科技有限公司 | 用于单通道的语音识别模型的优化方法及系统 |
US20200043467A1 (en) * | 2018-07-31 | 2020-02-06 | Tencent Technology (Shenzhen) Company Limited | Monaural multi-talker speech recognition with attention mechanism and gated convolutional networks |
CN111009237A (zh) * | 2019-12-12 | 2020-04-14 | 北京达佳互联信息技术有限公司 | 语音识别方法、装置、电子设备及存储介质 |
-
2020
- 2020-07-15 CN CN202010680303.8A patent/CN111899727B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200043467A1 (en) * | 2018-07-31 | 2020-02-06 | Tencent Technology (Shenzhen) Company Limited | Monaural multi-talker speech recognition with attention mechanism and gated convolutional networks |
CN109215662A (zh) * | 2018-09-18 | 2019-01-15 | 平安科技(深圳)有限公司 | 端对端语音识别方法、电子装置及计算机可读存储介质 |
CN110246487A (zh) * | 2019-06-13 | 2019-09-17 | 苏州思必驰信息科技有限公司 | 用于单通道的语音识别模型的优化方法及系统 |
CN111009237A (zh) * | 2019-12-12 | 2020-04-14 | 北京达佳互联信息技术有限公司 | 语音识别方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
WANGYOU ZHANG 等: "Improving End-to-End Single-Channel Multi-Talker Speech Recognition", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270379B (zh) * | 2020-11-13 | 2023-09-19 | 北京百度网讯科技有限公司 | 分类模型的训练方法、样本分类方法、装置和设备 |
CN112270379A (zh) * | 2020-11-13 | 2021-01-26 | 北京百度网讯科技有限公司 | 分类模型的训练方法、样本分类方法、装置和设备 |
CN112420028A (zh) * | 2020-12-03 | 2021-02-26 | 上海欣方智能系统有限公司 | 一种用于对语音信号进行语义识别的系统及方法 |
CN112420028B (zh) * | 2020-12-03 | 2024-03-19 | 上海欣方智能系统有限公司 | 一种用于对语音信号进行语义识别的系统及方法 |
CN112669796A (zh) * | 2020-12-29 | 2021-04-16 | 西交利物浦大学 | 基于人工智能的音乐转乐谱的方法及装置 |
CN113160801B (zh) * | 2021-03-10 | 2024-04-12 | 云从科技集团股份有限公司 | 语音识别方法、装置以及计算机可读存储介质 |
CN113160801A (zh) * | 2021-03-10 | 2021-07-23 | 云从科技集团股份有限公司 | 语音识别方法、装置以及计算机可读存储介质 |
CN113327585A (zh) * | 2021-05-31 | 2021-08-31 | 杭州芯声智能科技有限公司 | 一种基于深度神经网络的自动语音识别方法 |
CN113327596A (zh) * | 2021-06-17 | 2021-08-31 | 北京百度网讯科技有限公司 | 语音识别模型的训练方法、语音识别方法和装置 |
CN113724713A (zh) * | 2021-09-07 | 2021-11-30 | 科大讯飞股份有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN113782013A (zh) * | 2021-09-15 | 2021-12-10 | 北京百度网讯科技有限公司 | 语音识别及模型训练的方法、设备、存储介质及程序产品 |
CN113782013B (zh) * | 2021-09-15 | 2024-01-30 | 北京百度网讯科技有限公司 | 语音识别及模型训练的方法、设备、存储介质及程序产品 |
CN115101075A (zh) * | 2022-05-05 | 2022-09-23 | 腾讯科技(深圳)有限公司 | 一种语音识别的方法以及相关装置 |
CN114944148A (zh) * | 2022-07-09 | 2022-08-26 | 昆明理工大学 | 融合外部语言知识的流式越南语语音识别方法 |
CN114944148B (zh) * | 2022-07-09 | 2023-08-22 | 昆明理工大学 | 融合外部语言知识的流式越南语语音识别方法 |
CN115440198A (zh) * | 2022-11-08 | 2022-12-06 | 南方电网数字电网研究院有限公司 | 混合音频信号的转换方法、装置、计算机设备和存储介质 |
CN115527526A (zh) * | 2022-11-28 | 2022-12-27 | 南方电网数字电网研究院有限公司 | 端到端远场语音识别系统训练方法、装置、计算机设备 |
CN118245803A (zh) * | 2024-04-12 | 2024-06-25 | 摩尔线程智能科技(北京)有限责任公司 | 情感识别模型的训练方法、情感识别方法、装置、电子设备、存储介质和程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN111899727B (zh) | 2022-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111899727B (zh) | 用于多说话人的语音识别模型的训练方法及系统 | |
CN110246487B (zh) | 用于单通道的语音识别模型的优化方法及系统 | |
CN109637546B (zh) | 知识蒸馏方法和装置 | |
CN111933129B (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
WO2021051544A1 (zh) | 语音识别方法及其装置 | |
CN111081259B (zh) | 基于说话人扩充的语音识别模型训练方法及系统 | |
Seo et al. | Wav2kws: Transfer learning from speech representations for keyword spotting | |
CN110600013B (zh) | 非平行语料声音转换数据增强模型训练方法及装置 | |
CN110706692A (zh) | 儿童语音识别模型的训练方法及系统 | |
Sklyar et al. | Streaming multi-speaker ASR with RNN-T | |
US20230127787A1 (en) | Method and apparatus for converting voice timbre, method and apparatus for training model, device and medium | |
CN112071330A (zh) | 一种音频数据处理方法、设备以及计算机可读存储介质 | |
CN111862934A (zh) | 语音合成模型的改进方法和语音合成方法及装置 | |
CN115394287A (zh) | 混合语种语音识别方法、装置、系统及存储介质 | |
Wu et al. | Dual-mode NAM: Effective top-k context injection for end-to-end asr | |
CN111863009B (zh) | 上下文信息预测模型的训练方法及系统 | |
CN111883105B (zh) | 用于视频场景的上下文信息预测模型的训练方法及系统 | |
Choi et al. | Learning to maximize speech quality directly using MOS prediction for neural text-to-speech | |
CN113793599A (zh) | 语音识别模型的训练方法和语音识别方法及装置 | |
Zhou et al. | Enhancing and adversarial: Improve asr with speaker labels | |
CN117150338A (zh) | 任务处理、自动问答以及多媒体数据识别模型训练方法 | |
CN115376547B (zh) | 发音评测方法、装置、计算机设备和存储介质 | |
CN116564330A (zh) | 弱监督语音预训练方法、电子设备和存储介质 | |
CN113314107B (zh) | 训练语音增广模型的方法和装置 | |
CN113160801B (zh) | 语音识别方法、装置以及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant after: Sipic Technology Co.,Ltd. Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant before: AI SPEECH Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |