CN113436616B - 一种多领域自适应的端到端语音识别方法、系统及电子装置 - Google Patents
一种多领域自适应的端到端语音识别方法、系统及电子装置 Download PDFInfo
- Publication number
- CN113436616B CN113436616B CN202110594183.4A CN202110594183A CN113436616B CN 113436616 B CN113436616 B CN 113436616B CN 202110594183 A CN202110594183 A CN 202110594183A CN 113436616 B CN113436616 B CN 113436616B
- Authority
- CN
- China
- Prior art keywords
- voice
- feature
- training
- text
- domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 110
- 230000003044 adaptive effect Effects 0.000 claims abstract description 31
- 230000006870 function Effects 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 15
- 230000009466 transformation Effects 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000005457 optimization Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
- G10L2015/0636—Threshold criteria for the updating
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本申请提出一种多领域自适应的端到端语音识别方法,所述方法包括:提取待识别语音的第一特征;将所述第一特征和领域标签输入训练好的端到端语音识别模型;所述领域标签是为所述待识别语音的预先设定的口音标签;基于所述训练好的端到端语音识别模型,根据所述领域标签提取第二特征,将所述第一特征与所述第二特征拼接后进行编码得到第三特征;对所述第三特征进行解码,得到多条候选文本,输出第一文本候选列表,所述第一文本候选列表包括所述多条候选文本。本申请通过使用多领域自适应的方法,利用丰富资源领域预训练模型、多目标领域数据及多目标领域鉴别特征来提升在多个目标领域上的语音识别性能。
Description
技术领域
本申请实施例属于语音识别领域,具体涉及一种多领域自适应的端到端语音识别方法、系统及电子装置。
背景技术
语音是人机交互中重要的组成部分。语音识别(ASR)、语音合成(TTS)和自然语言处理(NLP)结合起来可以实现完整的人机交互闭环。其中,语音识别作为机器感知的第一环节,起到了尤为重要的作用。语音识别是一项多领域知识交叉的技术,其涵盖了心理学、语言学、信号处理等多个学科的内容。在过去的几十年里,语音识别技术已经渗透到我们生活的方方面面。
传统基于隐马尔可夫模型(HMM)的大词汇量语音识别模型通常由信号处理与特征提取模块、声学模型、发音词典、语言模型和解码器构成,每一部分负责的功能都较为清晰,然而,由于各个模块的优化准则都是独立的,整体语音识别系统并没有针对词错误率进行端到端的优化,传统的基于隐马尔可夫模型(HMM)的语音识别系统需要进行独立的声学模型建模和语言模型建模,并将两个建模过程联合解码来进行语音内容的识别。各个模块间存在级联误差,其性能存在一定的提升空间。不仅如此,基于隐马尔可夫模型(HMM)的声学建模过程还需要对帧级别的语音特征和音素状态进行强制对齐。传统的基于隐马尔可夫模型(HMM)的语音识别系统还需要发音字典来构建相应的声学模型和语言模型以及两者的联合建模。因此,基于隐马尔可夫模型(HMM)的语音识别系统构架较为复杂,帧级别的语音特征和音素状态的对齐与训练过程较为繁琐,并且帧级别的对齐结果不能保证在时间域的分布与实际分布完全一致。
发明内容
本申请实施例的目的在于克服目前语音识别系统中针对小数据量领域的建模能力不足的缺陷,通过使用多领域自适应的方法,利用丰富资源领域预训练模型、多目标领域数据及多目标领域鉴别特征来提升在多个目标领域上的语音识别性能。
为了实现上述目的,本申请实施例提供一种多领域自适应的端到端语音识别方法、系统及电子装置。
第一方面,本申请实施例提出一种多领域自适应的端到端语音识别方法,所述方法包括:提取待识别语音的第一特征;将所述第一特征和领域标签输入训练好的端到端语音识别模型;所述领域标签是为所述待识别语音的预先设定的口音标签;基于所述训练好的端到端语音识别模型,根据所述领域标签提取第二特征,将所述第一特征与所述第二特征拼接后进行编码得到第三特征;对所述第三特征进行解码,得到多条候选文本,输出第一文本候选列表,所述第一文本候选列表包括所述多条候选文本。
在一个可能的实施例中,所述的多领域自适应的端到端语音识别方法,还包括一个训练好的语言模型,在所述输出第一文本候选列表之后,还包括:基于所述训练好的语言模型计算所述第一文本候选列表中每一条候选文本的概率值;根据所述每一条候选文本的概率值评估所述每一条候选文本的合理性;将概率值达到合理性要求的候选文本确定为语音识别文本。
在一个可能的实施例中,在执行所述方法之前,包括训练所述端到端语音识别模型的步骤:根据源领域语音训练集的第一训练语音,训练第一端到端语音识别模型;根据多目标领域语音训练集的第二训练语音,基于所述第一端到端语音识别模型和所述第二训练语音对应的领域标签进行多目标领域自适应训练,得到训练好的端到端语音识别模型。
在一个可能的实施例中,所述根据源领域语音训练集的第一训练语音,训练第一端到端语音识别模型,包括:根据所述源领域语音训练集的第一训练语音,提取第四特征;对所述第四特征编码,得到第一编码特征;计算所述第一编码特征通过线性变换后与对应的第一标注文本之间的CTC损失,得到第一CTC损失值;将所述第一编码特征解码得到第一解码预测文本概率;计算所述第一解码预测文本概率与所述第一标注文本之间的交叉熵损失,得到第一交叉熵损失值;将所述第一CTC损失值与所述第一交叉熵损失值加权相加,得到第一损失函数;通过误差反向传播对所述端到端语音识别模型进行迭代更新,直至所述第一损失函数达到预设的阈值,停止迭代,得到所述第一端到端语音识别模型。
在一个可能的实施例中,所述根据多目标领域语音训练集的第二训练语音,基于所述第一端到端语音识别模型和所述第二训练语音对应的领域标签进行多目标领域自适应训练,得到训练好的到端语音识别模型,包括:根据所述多目标领域语音训练集的第二训练语音,提取第五特征;所述第二训练语音为所述多目标领域语音训练集的带领域标签的语音信号;提取所述第二训练语音对应的领域标签的领域鉴别特征;将所述第二训练语音的语音特征和对应的所述领域鉴别特征进行拼接;拼接后进行编码,得到第二编码特征;计算所述第二编码特征通过线性变换后与对应的第二标注文本之间的CTC损失,得到第二CTC损失值;将所述第二编码特征解码得到第二解码预测文本概率;计算所述第二解码预测文本概率与所述第二标注文本之间的交叉熵损失,得到第二交叉熵损失值;将所述第二CTC损失值与所述第二交叉熵损失值加权相加后,得到第二损失函数;通过误差反向传播基于所述第一端到端语音识别模型进行迭代更新,直至所述第二损失函数达到预设的阈值,停止迭代,得到训练好的端到端语音识别模型。
在一个可能的实施例中,所述通过误差反向传播基于所述端到端语音识别模型的初始型进行迭代更新,包括:在每次更新时将学习率的起始步数作为超参数进行调整,学习率先上升后下降。
在一个可能的实施例中,在执行所述方法之前还包括:根据多目标领域文本训练集的文本和源领域文本训练集的文本进行语言模型的自适应训练以获得训练好的语言模型。
第二方面,本申请实施例提出一种多领域自适应的端到端语音识别系统,所述系统包括:信号处理及特征提取模块和端到端语音识别模型;所述信号处理及特征提取模块用于提取待识别语音的第一特征;所述端到端语音识别模型用于以所述第一特征和领域标签为输入,所述领域标签是为所述待识别语音的预先设定的口音标签;根据所述领域标签提取第二特征;将所述第一特征与所述第二特征拼接后进行编码得到第三特征;对所述第三特征进行解码,得到多条候选文本,输出第一文本候选列表,所述第一文本候选列表包括所述多条候选文本。
在一个可能的实施例中,所述系统还包括:语言模型和评估模块;所述语言模型用于基于所述训练好的语言模型计算所述第一文本候选列表中每一条候选文本的概率值;所述评估模块用于根据所述每一条候选文本的概率值评估所述每一条候选文本的合理性;将概率值达到合理性要求的候选文本确定为语音识别文本。
第三方面,本申请实施例提出一种电子装置,包括存储器和处理器;所述处理器用于执行所述存储器所存储的计算机执行指令,所述处理器运行所述计算机执行指令执行上述任意一项所述的多领域自适应的端到端语音识别方法。
本申请实施例的多领域自适应的端到端语音识别方法使用多领域自适应的方法,利用丰富资源领域预训练模型、多目标领域数据及多目标领域鉴别特征来提升在多个目标领域上的语音识别性能。
附图说明
为了更清楚地说明本说明书披露的多个实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书披露的多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1A为本申请实施例提出的基于多领域自适应的端到端语音识别系统的功能架构图;
图1B为本申请实施例提出的端到端语音识别模型图;
图2为本申请实施例提出的基于多领域自适应的端到端语音识别方法的流程图;
图3为本申请实施例提出的端到端语音识别模型与语言模型联合训练的场景图;
图4为本申请实施例提出的端到端语音识别模型的初始型训练流程图;
图5为本申请实施例提出的端到端语音识别模型的自适应型训练流程图;
图6为本申请实施例提供的一种电子装置示意图。
具体实施方式
下面通过附图和实施例,对本申请实施例的技术方案做进一步的详细描述。
在目前的语音识别系统中常常用到端到端语音识别模型,根据不同的模型架构和优化准则,端到端语音识别模型可以分为基于循环神经网络传感器(RNN-T)的端到端语音识别模型、基于连接时序分类(CTC)的端到端语音识别模型、基于注意力机制(Attention)架构的端到端语音识别模型和基于Transformer的架构的端到端语音识别模型。
第一个方案,在语音识别系统中采用基于循环神经网络传感器(RNN-T)的端到端语音识别模型,可以利用循环神经网络自然地处理上下文信息,但是该模型对长时记忆的处理会有一定的弱点,无法更好地编码长时信息。
第二个方案,在语音识别系统中采用Transformer架构的端到端语音识别模型,基于Transformer的架构可以在每一时刻都可以看到输入端到输出端的全局信息,克服了第一个方案无法更好地编码长时信息的问题,在多个场景下取得了更好的效果。
第三个方案,在语音识别系统中采用包括基于连接时序分类(CTC)和自注意力机制(Attention)的多任务学习框架的端到端语音识别模型,对输入特征序列与输出建模单元序列间的映射关系进行直接建模,节省了声学建模过程对帧级别对齐信息的依赖,极大地简化语音识别系统构建的复杂性。这个方案还可以将声学建模和语言建模过程进行统一,在没有发音字典的情况下也可以实现语音识别系统的构建。由于这种多任务学习框架的端到端语音识别模型发挥了基于连接时序分类(CTC)和自注意力机制(Attention)两种语音识别框架的优点,可以基于序列的优化准则进行端到端建模,在许多场景下取得了较好的效果。
上述第一至第三方案提出的基于端到端的语音识别系统相比于基于隐马尔可夫模型(HMM)的语音识别系统,可以节省对专家知识的需求,从而更加快速便捷地构建语音识别系统。然而,利用上述三个方案建立的端到端语音识别系统的一个关键问题在于其需要大量的数据进行训练才能得到较好的语音识别表现,而在小数据量下的识别表现常常要差于基于隐马尔可夫模型(HMM)的语音识别系统。
基于此,本申请实施例提出的一种多领域自适应的端到端语音识别系统,如图1A所示,包括:信号处理及特征提取模块11、端到端语音识别模型12、语言模型13和评估模块14。
其中,信号处理及特征提取模块11以待识别的语音信号为输入,以语音特征为输出,提取待识别语音的语音特征,该语音特征记为第一特征。
端到端语音识别模型12以语音特征和对应的领域标签为输入,根据领域标签提取领域鉴别特征,记为第二特征;将语音特征和领域鉴别特征进行拼接、编码、解码得到对应的待识别的语音对应的若干条候选文本,将若干条候选文本输出,得到解码文本候选列表,记为第一文本候选列表。第一文本候选列表包括若干条候选文本。
语言模型13可采用N元语法(n-gram)语言模型或神经网络语言模型,该模型可以通过输入一段历史文本,预测下一个文本单元的概率值。在本申请中,通过语言模型13,可以计算第一文本候选列表中每个候选文本的概率值。示例性地,语言模型13以第一文本候选列表为输入,输出第一文本候选列表中每个候选文本的概率值,得到候选文本的概率值列表。
评估模块14以端到端语音识别模型12输出的第一文本候选列表和语言模型13输出的候选文本的概率值列表为输入,根据每一条候选文本的概率值评估每一条候选文本的合理性,将第一文本候选列表中概率值达到要求的候选文本确定为语音识别文本,将该语音识别文本输出后用户可以获得符合要求文本,以进一步提升语音识别系统的性能。
如图1B所示,端到端语音识别模型12包括:依次连接的领域鉴别特征变换网络121、编码器122和解码器123。
优选的,领域鉴别特征变换网络121的结构为一个全连接层,编码器122为多层Transformer构成的编码网络,解码器123为多层Transformer构成的解码网络。领域鉴别特征变换网络121的输出端连接编码器122的输入端,编码器122的输出端连接解码器123的输入端。
领域鉴别特征变换网络121以待识别的语音信号对应的领域标签为输入,输出领域鉴别特征,记为第二特征。
编码器122以待识别的语音信号的语音特征和对应的领域鉴别特征为输入,将语音特征和领域鉴别特征拼接得到混合特征,对混合特征进行自注意力处理,输出编码特征,将编码特征记为第三特征。
解码器123以编码特征为输入,对编码特征解码,得到若干条候选文本,将若干条候选文本输出,得到第一文本候选列表。
本申请实施例提供了一种多领域自适应的端到端语音识别方法,基于训练好的端到端语音识别模型12进行端到端语音识别,如图2所示,包括以下步骤:
S201,提取待识别的语音信号的语音特征。
示例性地,可以将待识别的语音信号输入信号处理与特征提取模块11,输出语音特征。
S202,将语音特征和领域标签输入训练好的端到端语音识别模型12;领域标签是为待识别语音的预先设定的口音标签。
S203,基于训练好的端到端语音识别模型12,提取领域标签对应的领域鉴别特征。将语音特征与领域鉴别特征拼接后进行编码得到编码特征;对所述编码特征进行解码,得到多条候选文本,输出第一文本候选列表,第一文本候选列表包括所述多条候选文本。具体按照以下S2031-S2033的步骤执行。
S2031,将领域标签输入训练好的端到端语音识别模型12中的鉴别性特征变换网络121提取领域鉴别特征,输出该领域鉴别特征。
S2032,将语音特征输入训练好的端到端语音识别模型12中,与步骤202中得到的领域鉴别特征进行拼接;拼接后的混合特征输入的编码器122进行自注意力处理输出编码特征;
S2033,将编码特征输入解码器123,对编码特征解码,输出待识别的语音信号对应的若干条解码文本,将若干条解码文本输出,得到解码文本候选列表,该解码文本为第一文本候选列表。
优选地,如图3所示,可以通过语言模型13进一步提升的语音识别的性能。示例性地,在S203之后还可以执行如下步骤:
S204,计算所述第一文本候选列表中每一条候选文本的概率值。
示例性地,将解码文本候选列表输入语言模型13计算解码文本候选列表中每个候选文本的概率值,得到解码文本候选列表中每个候选文本的概率值。
S205,根据解码文本对应的概率值评估解码文本的合理性,将概率值达到预设的合理性要求的候选文本确定为最终解码文本,得到符合要求的语音识别文本。
在本申请实施例提供的多领域自适应的端到端语音识别方法中,端到端语音识别模型12的训练分为两个阶段,第一阶段为模型的微调阶段,根据源领域语音训练集的语音数据,训练端到端语音识别模型12的初始型,记为第一端到端语音识别模型。第二阶段为根据多目标领域语音训练集的语音数据,基于端到端语音识别模型12的初始型和领域标签进行多领域自适应优化训练的阶段,获得端到端语音识别模型12的自适应型,该模型的自适应型为训练好的端到端语音识别模型12。在训练的过程中,需要利用现有的主义时间分类(CTC)和交叉熵损失计算模块分别计算损失函数。如图4所示,端到端语音识别模型12的初始型的训练步骤包括:
S401,建立源领域训练集,训练集包括若干条带标签的语音信号,及每条带标签的语音信号对应的标注文本。将训练集中带标签的语音信号记为第一训练语音,将其中的标注文本记为第一标注文本。
源领域训练集为根据源领域数据构建的数据集,包括源领域数据,用于在第一阶段训练端到端语音识别模型的初始型。示例性地,源领域数据可以采用Librispeech数据集,Librispeech数据集中大部分带标签的语音为美国口音英语,因此,可以将Librispeech数据集的若干条带标签的语音信号作为源领域数据,建立源领域训练集。
S402,将源领域训练集中若干条带标签的语音信号(第一训练语音)送入信号处理及特征提取模块11,提取每条带标签的语音信号的对应语音特征;记为第四特征。
S403,将每一条带标签的语音信号的对应语音特征输入到端到端语音识别模型12的编码器122中进行自注意力编码处理,输出每一条带标签的语音信号对应编码特征,记为第一编码特征。
S404,将每一条带标签的语音信号对应编码特征(第一编码特征),通过线性变换后与每一条带标签的语音信号对应的标注文本(第一标注文本)共同送入连接主义时间分类(CTC)损失计算模块,得到CTC损失值。
S405,将每一条带标签的语音信号对应的编码特征(第一编码特征)输入解码器123得到每一条带标签的语音信号对应的解码预测文本概率,记为第一解码预测文本概率。
S406,计算第一解码预测文本概率与第一标注文本之间的交叉熵损失,得到第一交叉熵损失值。
具体地,将每一条带标签的语音信号对应的解码预测文本概率与每一条带标签的语音信号对应的标注文本共同送入交叉熵损失计算模块,计算得到第一交叉熵损失值。
S407,将CTC损失与第一交叉熵损失加权相加后,得到每一条带标签的语音信号对应的损失函数,通过误差反向传播可以对端到端语音识别模型进行更新。
S408,多次重复迭代执行S403至S407的步骤,直至损失函数的值达到预设的阈值,或迭代达到预定的次数,得到端到端语音识别模型12的初始型。
第二阶段为端到端语音识别模型12进行多目标领域自适应训练的过程,在这个阶段,增加了鉴别性特征变换网络121,如图5所示,多目标领域自适应训练步骤包括:
S501,建立目标领域语音训练集,目标领域语音训练集为多个目标领域的不同口音的语音信号构建的数据集,包括若干条带领域标签的语音信号及每条带领域标签的语音信号对应的标注文本。将目标领域语音训练集中带领域标签的语音信号记为第二训练语音,领域标签是为语音信号的预先设定的口音标签。
示例性地,目标领域的语音信号采用八种不同口音的语音信号,分别是美国口音、英国口音、中国口音、印度口音、日本口音、韩国口音、葡萄牙口音、俄罗斯口音,目标领域语音训练集包括上述的八种口音的语音信号,每条语音信号带有领域标签。
S502,将带领域标签的语音信号送入信号处理及特征提取模块11,提取对应的语音特征,将该语音特征记为第五特征。
S503,将上述带领域标签的语音信号对应的领域标签送入鉴别性特征变换网络121提取领域鉴别特征,输出对应的领域鉴别特征。
S504,将S501得到的语音特征和S502得到的领域鉴别特征输入端到端语音识别模型12的初始型进行拼接,拼接后的混合编码输入编码器122进行自注意力编码处理,得到第二编码特征。
S505,将第二编码特征通过线性变换后与对应的第二标注文本共同送入连接主义时间分类(CTC)损失计算模块,得到第二CTC损失值。
S506,将每一条带领域标签的语音信号对应的第二编码特征输入解码器122得到对应的第二解码预测文本概率。
S507,将第二解码预测文本概率与对应第二标注文本共同送入交叉熵损失计算模块,得到第二交叉熵损失值。
S508,将第二CTC损失与第二交叉熵损失加权相加后,得到第二损失函数,通过误差反向传播可以对端到端语音识别模型12的初始型进行更新,学习率根据基于Transformer的端到端语音识别模型专门设计,采用warmup学习率更新策略,即学习率在训练过程中先上升后下降,基本学习率与初始模型学习率保持一致,但学习率更新中的起始步数需要作为超参数进行调整,更新端到端语音识别模型12的初始型。
S509,多次迭代执行503至508,直至在验证集上第二损失函数的下降值达到预设的阈值,或迭代达到预定的次数,最终得到训练好的端到端语音识别模型12。
端到端语音识别模型12在上述图4和图5所示的两个阶段的训练过程中,均计算了CTC损失和交叉熵损失,CTC损失计算模块和交叉熵损失计算模块是现有的算法模块,在本申请中不再赘述。
在执行本申请实施例提供的多领域自适应的端到端语音识别方法之前,还需要根据多目标领域文本训练集和源领域文本训练集的文本进行语言模型13的自适应训练。示例性地,可以通过建立多目标领域文本训练集,在此训练集的基础上结合源领域文本训练集的文本共同训练,得到训练好的在目标领域能够自适应的语言模型13。其中,源领域文本训练集,用于语言模型13训练,包括源领域语音对应的文本。优选的,可以使用长短时记忆(LSTM)神经网络构建语言模型13。具体步骤包括:
第一步,将语言模型13在源领域文本训练集上每一步预测的文本概率值与真实标签计算交叉熵损失,并通过误差反向传播对神经网络语言模型进行更新,训练得到第一语言模型。
第二步,在第一语言模型的基础上,使用更小的学习率,将语言模型13在多目标领域文本训练集上每一步预测的文本概率值与真实文本计算交叉熵损失,并通过误差反向传播对神经网络语言模型进行更新,得到训练好的语言模型13。
基于本申请实施例的语音识别系统的合理性和有效性已经在实际系统上得到了验证,在实验验证中,丰富资源源领域数据采用Librispeech数据集,Librispeech数据集中大部分语音为美国口音英语,在本实验中美国口音被当作源领域数据,而目标领域数据采用八种不同口音的数据,分别是美国口音、英国口音、中国口音、印度口音、日本口音、韩国口音、葡萄牙口音、俄罗斯口音,而测试集中除上述八种口音外还包含两种领域外口音,即加拿大口音和西班牙口音。
实验平台采用显卡V100,核心频率5012MHZ,显存3*32GB,主机配备440GB内存,CPU采用2.70GHz。
表1
实验结果见表1,可以看出,本申请实施例的方法能够有效降低错误识别率。
具体来说,上表中“源域模型a”为使用librispeech数据集训练得到的传统端到端语音识别模型,“源域语言模型b”为使用librispeech数据集文本训练得到的语言模型,由第一行与第二行结果可知,利用本申请实施例语言模型13可有效降低错误识别率;上表中源域自适应模型a1为在源域模型a的基础上,使用初始学习率降低的模型微调方法进行自适应优化训练得到的模型。本申请实施例初始型为根据S401-S408的步骤以学习率更新方式进行的训练得到的端到端语音识别模型12。由第三行和第四行结果可知,本申请实施例初始型可以有效降低错误识别率;“本申请实施例自适应型”是在本申请实施例初始型的基础上根据S501-S509的步骤基于领域鉴别特征辅助进行多领域精细化训练得到的端到端语音识别模型12,由第四行和第五行结果可知,使用本申请实施例自适应型可以进一步有效降低错误识别率。
如图6所示,本申请实施例提供一种电子装置1100,包括处理器1101和存储器1102;处理器1101用于执行所述存储器1102所存储的计算机执行指令,处理器1101运行计算机执行指令执行上述任意实施例所述的多领域自适应的端到端语音识别方法。
本申请实施例提供一种存储介质1103,包括可读存储介质和存储在所述可读存储介质中的计算机程序,所述计算机程序用于实现上述任意一实施例所述的所述的多领域自适应的端到端语音识别方法。
本领域普通技术人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本申请实施例的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请实施例的具体实施方式而已,并不用于限定本申请实施例的保护范围,凡在本申请实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请实施例的保护范围之内。
Claims (8)
1.一种多领域自适应的端到端语音识别方法,其特征在于,所述方法包括:
根据源领域语音训练集的第一训练语音,训练第一端到端语音识别模型;
根据多目标领域语音训练集的第二训练语音,基于所述第一端到端语音识别模型和所述第二训练语音对应的领域标签进行多目标领域自适应训练,得到训练好的端到端语音识别模型,包括:根据所述多目标领域语音训练集的第二训练语音,提取第五特征;所述第二训练语音为所述多目标领域语音训练集的带领域标签的语音信号;提取所述第二训练语音对应的领域标签的领域鉴别特征;将所述第二训练语音的语音特征和对应的所述领域鉴别特征进行拼接;拼接后进行编码,得到第二编码特征;计算所述第二编码特征通过线性变换后与对应的第二标注文本之间的CTC损失,得到第二CTC损失值;将所述第二编码特征解码得到第二解码预测文本概率;计算所述第二解码预测文本概率与所述第二标注文本之间的交叉熵损失,得到第二交叉熵损失值;将所述第二CTC损失值与所述第二交叉熵损失值加权相加后,得到第二损失函数;通过误差反向传播基于所述第一端到端语音识别模型进行迭代更新,直至所述第二损失函数达到预设的阈值,停止迭代,得到训练好的端到端语音识别模型;
提取待识别语音的第一特征;
将所述第一特征和领域标签输入训练好的端到端语音识别模型;所述领域标签是为所述待识别语音的预先设定的口音标签;
基于所述训练好的端到端语音识别模型,根据所述领域标签提取第二特征,将所述第一特征与所述第二特征拼接后进行编码得到第三特征;对所述第三特征进行解码,得到多条候选文本,输出第一文本候选列表,所述第一文本候选列表包括所述多条候选文本。
2.根据权利要求1所述的多领域自适应的端到端语音识别方法,其特征在于,还包括一个训练好的语言模型,在所述输出第一文本候选列表之后,还包括:
基于所述训练好的语言模型计算所述第一文本候选列表中每一条候选文本的概率值;
根据所述每一条候选文本的概率值评估所述每一条候选文本的合理性;
将概率值达到合理性要求的候选文本确定为语音识别文本。
3.根据权利要求2所述的多领域自适应的端到端语音识别方法,其特征在于,所述根据源领域语音训练集的第一训练语音,训练第一端到端语音识别模型,包括:
根据所述源领域语音训练集的第一训练语音,提取第四特征;
对所述第四特征编码,得到第一编码特征;
计算所述第一编码特征通过线性变换后与对应的第一标注文本之间的CTC损失,得到第一CTC损失值;
将所述第一编码特征解码得到第一解码预测文本概率;
计算所述第一解码预测文本概率与所述第一标注文本之间的交叉熵损失,得到第一交叉熵损失值;
将所述第一CTC损失值与所述第一交叉熵损失值加权相加,得到第一损失函数;
通过误差反向传播对所述端到端语音识别模型进行迭代更新,直至所述第一损失函数达到预设的阈值,停止迭代,得到所述第一端到端语音识别模型。
4.根据权利要求1所述的多领域自适应的端到端语音识别方法,其特征在于,所述通过误差反向传播基于所述第一端到端语音识别模型进行迭代更新,包括:
在每次更新时将学习率的起始步数作为超参数进行调整,学习率先上升后下降。
5.根据权利要求2所述的多领域自适应的端到端语音识别方法,其特征在于,在执行所述方法之前还包括:根据多目标领域文本训练集的文本和源领域文本训练集的文本进行语言模型的自适应训练以获得训练好的语言模型。
6.一种多领域自适应的端到端语音识别系统,其特征在于,所述系统包括:
训练模块,用于根据源领域语音训练集的第一训练语音,训练第一端到端语音识别模型;根据多目标领域语音训练集的第二训练语音,基于所述第一端到端语音识别模型和所述第二训练语音对应的领域标签进行多目标领域自适应训练,得到训练好的端到端语音识别模型,包括:根据所述多目标领域语音训练集的第二训练语音,提取第五特征;所述第二训练语音为所述多目标领域语音训练集的带领域标签的语音信号;提取所述第二训练语音对应的领域标签的领域鉴别特征;将所述第二训练语音的语音特征和对应的所述领域鉴别特征进行拼接;拼接后进行编码,得到第二编码特征;计算所述第二编码特征通过线性变换后与对应的第二标注文本之间的CTC损失,得到第二CTC损失值;将所述第二编码特征解码得到第二解码预测文本概率;计算所述第二解码预测文本概率与所述第二标注文本之间的交叉熵损失,得到第二交叉熵损失值;将所述第二CTC损失值与所述第二交叉熵损失值加权相加后,得到第二损失函数;通过误差反向传播基于所述第一端到端语音识别模型进行迭代更新,直至所述第二损失函数达到预设的阈值,停止迭代,得到训练好的端到端语音识别模型;
信号处理及特征提取模块和端到端语音识别模型;
所述信号处理及特征提取模块用于提取待识别语音的第一特征;
所述端到端语音识别模型用于以所述第一特征和领域标签为输入,所述领域标签是为所述待识别语音的预先设定的口音标签;根据所述领域标签提取第二特征;将所述第一特征与所述第二特征拼接后进行编码得到第三特征;对所述第三特征进行解码,得到多条候选文本,输出第一文本候选列表,所述第一文本候选列表包括所述多条候选文本。
7.根据权利要求6所述的多领域自适应的端到端语音识别系统,其特征在于,所述系统还包括:语言模型和评估模块;
所述语言模型用于计算所述第一文本候选列表中每一条候选文本的概率值;
所述评估模块用于根据所述每一条候选文本的概率值评估所述每一条候选文本的合理性;将概率值达到合理性要求的候选文本确定为语音识别文本。
8.一种电子装置,包括存储器和处理器;所述处理器用于执行所述存储器所存储的计算机执行指令,所述处理器运行所述计算机执行指令执行权利要求1-5任意一项所述的多领域自适应的端到端语音识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110594183.4A CN113436616B (zh) | 2021-05-28 | 2021-05-28 | 一种多领域自适应的端到端语音识别方法、系统及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110594183.4A CN113436616B (zh) | 2021-05-28 | 2021-05-28 | 一种多领域自适应的端到端语音识别方法、系统及电子装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113436616A CN113436616A (zh) | 2021-09-24 |
CN113436616B true CN113436616B (zh) | 2022-08-02 |
Family
ID=77803153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110594183.4A Active CN113436616B (zh) | 2021-05-28 | 2021-05-28 | 一种多领域自适应的端到端语音识别方法、系统及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113436616B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117558263B (zh) * | 2024-01-10 | 2024-04-26 | 科大讯飞股份有限公司 | 语音识别方法、装置、设备及可读存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10593321B2 (en) * | 2017-12-15 | 2020-03-17 | Mitsubishi Electric Research Laboratories, Inc. | Method and apparatus for multi-lingual end-to-end speech recognition |
WO2020242580A1 (en) * | 2019-05-28 | 2020-12-03 | Google Llc | Large-scale multilingual speech recognition with a streaming end-to-end model |
CN111508501B (zh) * | 2020-07-02 | 2020-09-29 | 成都晓多科技有限公司 | 一种电话机器人中带口音的语音识别方法及系统 |
CN112017645B (zh) * | 2020-08-31 | 2024-04-26 | 广州市百果园信息技术有限公司 | 一种语音识别方法及装置 |
CN112509564B (zh) * | 2020-10-15 | 2024-04-02 | 江苏南大电子信息技术股份有限公司 | 基于连接时序分类和自注意力机制的端到端语音识别方法 |
CN112614485A (zh) * | 2020-12-30 | 2021-04-06 | 竹间智能科技(上海)有限公司 | 识别模型构建方法、语音识别方法、电子设备及存储介质 |
-
2021
- 2021-05-28 CN CN202110594183.4A patent/CN113436616B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113436616A (zh) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11587569B2 (en) | Generating and using text-to-speech data for speech recognition models | |
CN108417210B (zh) | 一种词嵌入语言模型训练方法、词语识别方法及系统 | |
CN110288972B (zh) | 语音合成模型训练方法、语音合成方法及装置 | |
US20070100618A1 (en) | Apparatus, method, and medium for dialogue speech recognition using topic domain detection | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN111199727A (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
WO2021127817A1 (zh) | 一种多语言文本合成语音方法、装置、设备及存储介质 | |
CN110459202B (zh) | 一种韵律标注方法、装置、设备、介质 | |
CN111613215B (zh) | 一种语音识别的方法及其装置 | |
US11450310B2 (en) | Spoken language understanding | |
CN112509563A (zh) | 模型训练方法、装置及电子设备 | |
CN116341651A (zh) | 实体识别模型训练方法、装置、电子设备及存储介质 | |
CN115394287A (zh) | 混合语种语音识别方法、装置、系统及存储介质 | |
CN113436616B (zh) | 一种多领域自适应的端到端语音识别方法、系统及电子装置 | |
CN114333838A (zh) | 语音识别文本的修正方法及系统 | |
CN117496960A (zh) | 语音识别模型的训练方法、装置、电子设备及存储介质 | |
CN112259084A (zh) | 语音识别方法、装置和存储介质 | |
CN115270771A (zh) | 细粒度自适应字音预测任务辅助的中文拼写纠错方法 | |
Deng et al. | History utterance embedding transformer lm for speech recognition | |
CN115240712A (zh) | 一种基于多模态的情感分类方法、装置、设备及存储介质 | |
CN115132170A (zh) | 语种分类方法、装置及计算机可读存储介质 | |
CN114446278A (zh) | 语音合成方法及装置、设备以及存储介质 | |
CN113327578A (zh) | 一种声学模型训练方法、装置、终端设备及存储介质 | |
CN113392645B (zh) | 一种韵律短语边界预测方法、装置、电子设备和存储介质 | |
CN115376547B (zh) | 发音评测方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |