CN113936647B - 语音识别模型的训练方法、语音识别方法和系统 - Google Patents

语音识别模型的训练方法、语音识别方法和系统 Download PDF

Info

Publication number
CN113936647B
CN113936647B CN202111548060.3A CN202111548060A CN113936647B CN 113936647 B CN113936647 B CN 113936647B CN 202111548060 A CN202111548060 A CN 202111548060A CN 113936647 B CN113936647 B CN 113936647B
Authority
CN
China
Prior art keywords
text
audio
loss function
acoustic
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111548060.3A
Other languages
English (en)
Other versions
CN113936647A (zh
Inventor
陶建华
田正坤
易江燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202111548060.3A priority Critical patent/CN113936647B/zh
Publication of CN113936647A publication Critical patent/CN113936647A/zh
Application granted granted Critical
Publication of CN113936647B publication Critical patent/CN113936647B/zh
Priority to US17/836,791 priority patent/US11580957B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例公开了一种语音识别模型的训练方法、语音识别方法和系统,涉及语音识别技术领域。该实施例包括:将音频训练样本输入声学编码器,对音频训练样本进行编码表示,确定声学编码状态向量;将预设的词表输入语言预测器中,确定文本预测向量;将文本预测向量线输入文本映射层,得到文本输出概率分布;根据音频训练样本对应的目标文本序列和文本输出概率分布,计算第一损失函数;将文本预测向量和声学编码状态向量输入联合网络,计算第二损失函数,根据第一损失函数和第二损失函数进行迭代优化,直至满足停止条件。本实施例对语音识别模型的训练、预测过程进行了调整,提高了该语义识别模型的建模能力,从而提高了该语音识别模型的准确率。

Description

语音识别模型的训练方法、语音识别方法和系统
技术领域
本申请涉及语音识别技术领域,尤其涉及一种语音识别模型的训练方法、语音识别方法和系统。
背景技术
基于Transducer的语音识别模型在国内外获得了广泛的应用,其典型特点是能够直接适配流式语音识别任务。其虽然引入了语言预测器,但是其语言建模能力不足,经研究发现,语言预测器在真实推理中并没有起到类似语言模型的作用,而更多的承担了消除重复标签的功能,其建模语言之间依赖关系的能力还有进一步提升的空间。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本发明实施例提供一种语音识别模型的训练方法、语音识别方法、语音识别系统、电子设备和计算机可读存储介质。
第一方面,本发明实施例提供了一种语音识别模型的训练方法,所述语音识别模型包括声学编码器、语言预测器、文本映射层和联合网络,所述方法包括:
将音频训练样本输入所述声学编码器,以对所述音频训练样本进行编码表示,确定所述音频训练样本的声学编码状态向量;
将预设的词表输入所述语言预测器中,确定所述预设的词表中每一标签的文本预测向量;
将所述文本预测向量输入所述文本映射层,确定所述文本预测向量映射至所述预设的词表中每一标签的概率,得到文本输出概率分布;
根据所述音频训练样本对应的目标文本序列和所述文本输出概率分布,计算第一损失函数;
将所述文本预测向量和所述声学编码状态向量输入所述联合网络,计算第二损失函数,并根据所述第一损失函数和所述第二损失函数进行迭代优化,直至满足停止条件。
在可选的实施例中,据所述第一损失函数和所述第二损失函数进行迭代优化包括:根据所述第一损失函数和所述第二损失函数,确定第三损失函数;根据所述第三损失函数进行迭代优化。
在可选的实施例中,所述第一损失函数为交叉熵损失函数,所述第二损失函数为Transducer损失函数。
在可选的实施例中,所述方法还包括根据下式确定第三损失函数:
Figure 250548DEST_PATH_IMAGE001
其中,L表示第三损失函数,
Figure 494447DEST_PATH_IMAGE002
表示第一损失函数,
Figure DEST_PATH_IMAGE003
表示第二损失函数,
Figure 684120DEST_PATH_IMAGE004
表示预设的权重。
在可选的实施例中,将音频训练样本输入所述声学编码器,以对所述音频训练样本进行编码表示包括:将音频训练样本输入所述声学编码器获取所述音频训练样本的声学特征,并对所述音频训练样本的声学特征进行编码表示。
第二方面,本发明实施例提供了一种语音识别方法,所述方法应用于上述实施例所训练得到的语音识别模型,所述语音识别模型包括:声学编码器、语言预测器、文本映射层和联合网络;所述方法包括:
将待识别音频输入所述声学编码器进行编码表示,确定所述待识别音频的声学编码状态向量;
将预设的词表输入所述语言预测器,确定所述预设的词表中每一标签的文本预测向量;
将所述文本预测向量输入所述文本映射层,以将所述文本预测向量映射至所述预设的词表,确定所述文本预测向量映射至所述预设的词表中每一标签的第一概率;
将所述文本预测向量和所述声学编码状态向量输入所述联合网络,确定所述待识别音频映射至所述预设的词表中每一标签的第二概率;
根据所述第一概率和所述第二概率,确定所述待识别音频对应的文本内容。
在可选的实施例中,根据所述第一概率和所述第二概率,确定所述待识别音频对应的文本内容包括:计算所述第一概率和所述第二概率的加权和;将最大的所述加权和作为所述待识别音频对应的文本内容。
在可选的实施例中,所述方法还包括根据下式确定待识别音频对应的文本内容:
Figure DEST_PATH_IMAGE005
其中,Token表示待识别音频对应的文本内容,
Figure 646260DEST_PATH_IMAGE006
表示第一概率,
Figure DEST_PATH_IMAGE007
表示第二概率,
Figure 770293DEST_PATH_IMAGE008
表示文本融合权重,
Figure DEST_PATH_IMAGE009
表示t时刻的声学编码状态向量,
Figure 134278DEST_PATH_IMAGE010
表示预设的词表中第u个标签。
在可选的实施例中,将待识别音频输入所述声学编码器进行编码表示包括:将待识别音频输入所述声学编码器获取所述待识别音频的声学特征,并对所述音频训练样本的声学特征进行编码表示。
第三方面,本发明实施例还提供了一种语音识别系统,所述语音识别系统包括声学编码器、语言预测器、文本映射层和联合网络;
其中,所述声学编码器用于对待识别音频进行编码表示,确定所述待识别音频的声学编码状态向量;
所述语言预测器用于确定预设的词表中每一标签的文本预测向量;
所述文本映射层用于将所述文本预测向量映射至所述预设的词表,确定所述文本预测向量映射至所述预设的词表中每一标签的第一概率;
所述联合网络用于根据所述文本预测向量和所述声学编码状态向量确定所述待识别音频映射至所述预设的词表中每一标签的第二概率;并根据所述第一概率和所述第二概率,确定所述待识别音频对应的文本内容。
第四方面,本发明实施例还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使得所述处理器执行本发明实施例的语音识别模型训练方法或语音识别方法。
第五方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例的语音识别模型训练方法或语音识别方法。
上述实施例中的一个或多个技术方案至少具有如下优点的部分或全部:
本发明实施例的语音识别模型加入了文本映射层,并对语音识别模型的训练过程和预测过程进行了调整,提高了该语义识别模型的建模能力,从而提高了该语音识别模型的准确率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示意性地示出了本发明实施例的语音识别模型训练方法的主要步骤的流程图;
图2示意性地示出了本发明实施例的语音识别模型训练方法得到的语音识别模型的结构图;
图3示意性地示出了本发明实施例的语音识别方法的主要步骤的流程图;
图4示意性地示出了适用于本发明实施例的语音识别模型训练方法或语音识别方法的系统架构;
图5示意性示出了本发明实施例提供的电子设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
基于Transducer语音识别模型在国内外获得了广泛的应用。该模型通常包含三部分,分别是声学编码器,语言预测器和联合网络。声学编码器负责将输入声学特征编码为声学编码状态向量,语言预测器输入为预设的词表(该预测的词表包括空格标签或者先前预测得到的文本标签),输出为当前时刻预测的文本预测状态向量,联合网络输入为当前时刻声学编码器输出的声学编码状态向量和语言预测器输出的文本预测状态向量,输出得到词表中所有标签的概率。该模型虽然引入了语言预测器,但是其语言建模能力不足,经研究发现,语言预测器在真实推理中并没有起到类似语言模型的作用,而更多的承担了消除重复标签的作用。针对该技术问题,常见的方法一般是在解码时添加辅助语言模型,这种方法虽然能提升语音识别系统的准确率,但是对于模型本身语言建模能力的提升没有帮助。为了解决该技术问题,本发明实施例提供了一种语音识别模型的训练方法以及语音识别方法,该方法对Transducer语音识别模型的训练和解码过程进行了调整,以通过提高其语言建模能力来提升模型语音识别的准确率。
为方便理解本发明实施例的语音识别模型的训练方法,下面结合附图对其进行说明。
图1示意性地示出了本发明实施例的语音识别模型的训练方法的主要步骤的示意图。图2示意性地示出了本发明实施例所训练得到的语音识别模型的结构示意图。如图2所示,该语音识别模型200包括:声学编码器201、语言预测器202、文本映射层203和联合网络204。
如图1所示,该语音识别模型的训练方法包括:
步骤S101:将音频训练样本输入所述声学编码器获取所述音频训练样本的声学特征,对所述音频训练样本的声学特征进行编码表示,确定所述音频训练样本的声学编码状态向量;
步骤S102:将预设的词表输入所述语言预测器中,确定所述预设的词表中每一标签的文本预测向量;
步骤S103:将所述文本预测向量输入所述文本映射层,以将所述文本预测向量映射至所述预设的词表,确定所述文本预测向量映射至所述预设的词表中每一标签的概率,得到文本输出概率分布;
步骤S104:根据所述音频训练样本对应的目标文本序列和所述文本输出概率分布,计算第一损失函数;
步骤S105:将所述文本预测向量和所述声学编码状态向量输入所述联合网络,计算第二损失函数,并根据所述第一损失函数和所述第二损失函数进行迭代优化,直至满足停止条件。
对于步骤S101,在本实施例中,声学特征例如可以是MFCC特征,也可以是FBank特征等。MFCC(Mel-Frequency Cepstral Coefficients,梅尔倒谱系数)和FBank(Filterbank,滤波器组特征)特征是语音识别常用的一种特征。在获得音频训练样本的声学特征之后,对音频训练样本的声学特征进行编码表示,获得音频训练样本的声学编码状态向量。结合图2,可以将音频训练样本输入声学编码器201中,获得该音频训练样本的声学特征,并对该音频训练样本的声学特征进行编码表示,确定该音频训练样本的声学编码状态向量。作为示例,该声学编码器201可以采用基于循环神经网络、卷积神经网络或者是Transformer模型以及这些模型的变体结构或者组合结构构成。
结合图2,对于步骤S102-S104,将预设的词表(该词表中包括空格标签和非空格标签,非空格标签包括统计后的常用词语)输入语言预测202中,计算得到文本预测向量。在得到文本预测向量之后,将该文本预测向量输入文本映射层203,该文本映射层203仅包括一层线性映射,将输入的文本预测向量映射至上述预设的词表,并计算得到文本预测向量映射至词表中每一标签的概率,得到文本输出概率分布。然后,根据音频训练样本对应的目标文本序列以及该文本输出概率分布,计算第一损失函数。具体的,该过程包括:确定音频训练样本对应的目标文本序列在上述预设的词表中的索引,根据该索引,确定与该目标文本序列对应的第一概率。对于第一损失函数,作为示例该第一损失函数可以是交叉熵损失函数。
对于步骤S105,将上述文本预测向量和上述声学编码状态向量输入联合网络204,计算得到音频训练样本映射至上述词表中每一标签的第二概率,并基于该第二概率计算第二损失函数。作为示例,该第二损失函数可以是Transducer损失函数。其中,Transducer损失函数是一种用于基于Transducer的语音识别模型计算的负对数损失函数,其利用基于动态规划思路的前后向算法对所有可行的音频-输出标签对齐路径进行概率求和,并对概率和的负对数形式进行优化。在得到第二损失函数之后,对第一损失函数和第二损失函数进行加权求和,并进行联合优化迭代,直至达到停止条件如模型收敛,至此得到语音识别模型。其中,对第一损失函数和第二损失函数进行加权求和,并进行联合优化迭代包括根据所述第一损失函数和所述第二损失函数,确定第三损失函数;根据所述第三损失函数进行迭代优化。
更具体的,可以根据下式确定第三损失函数:
Figure DEST_PATH_IMAGE011
其中,L表示第三损失函数,
Figure 557169DEST_PATH_IMAGE002
表示第一损失函数,
Figure 944288DEST_PATH_IMAGE003
表示第二损失函数,
Figure 376406DEST_PATH_IMAGE004
表示预设的权重。
本发明实施例的语音识别模型训练方法,对语音识别模型的训练过程进行了调整,提高了该语义识别模型的建模能力,从而提高了该语音识别模型的准确率。
图3示意性地示出了本发明实施例的语音识别方法的主要步骤的示意图。该语音识别方法可以应用于图1所示的实施例训练得到的语音识别模型。
如图3所示,该方法包括:
步骤S301:将待识别音频输入所述声学编码器获取所述待识别音频的声学特征,并对所述音频训练样本的声学特征进行编码表示;
步骤S302:将预设的词表输入所述语言预测器,确定所述预设的词表中每一标签的文本预测向量;
步骤S303:将所述文本预测向量输入所述文本映射层,以将所述文本预测向量映射至所述预设的词表,确定所述文本预测向量映射至所述预设的词表中每一标签的第一概率;
步骤S304:将所述文本预测向量和所述声学编码状态向量输入所述联合网络,确定所述待识别音频映射至所述预设的词表中每一标签的第二概率;
步骤S305:根据所述第一概率和所述第二概率,确定所述待识别音频对应的文本内容。
在本实施例中,将待识别的音频输入声学编码器中,获取该待识别音频的声学特征,例如可以是MFCC特征,也可以是FBank特征,并对该待识别音频的声学特征进行编码表示,得到声学编码状态向量
Figure 267002DEST_PATH_IMAGE009
,其中,t表示t时刻。然后将预设的词表中的空格标签或非空格标签输入语言预测器中,计算得到每一标签的文本预测向量
Figure 627838DEST_PATH_IMAGE010
,u表示第u个标签。将计算得到的文本预测向量输入文本映射层,将该文本预测向量映射至所述预设的词表,确定文本预测向量映射至所述预设的词表中每一标签的第一概率,从而得到文本输出概率分布,其中,映射到词表中第u+1个标签
Figure 236674DEST_PATH_IMAGE012
的第一概率为
Figure 472484DEST_PATH_IMAGE006
。然后,将文本预测向量和声学编码状态向量输入至联合网络,计算得到待识别音频映射至预设的词表中每一标签的第二概率
Figure 483165DEST_PATH_IMAGE007
。最后,根据上述第一概率和上述第二概率,确定待识别音频对应的文本内容。若联合网络根据第一概率和第二概率的加权和,预测得到空格标签(即预测的待识别音频为空格标签),则保持联合网络输入的文本预测向量不变,更新下一个声学编码状态向量,如果预测得非空格标签,则保持声学编码状态向量不变,更新文本预测向量。重复上述步骤,直至语音识别模型在基于最后一个声学编码状态向量预测得到空格标签或者提前达到其他停止条件。在可选的实施例中,根据第一概率和第二概率,确定待识别音频对应的文本内容的步骤包括:计算所述第一概率和所述第二概率的加权和;将最大的所述加权和作为所述待识别音频对应的文本内容。更具体的,该步骤根据下式确定第一概率和第二概率的加权和,以及确定待识别音频对应的文本内容:
Figure 451121DEST_PATH_IMAGE005
其中,Token表示待识别音频对应的文本内容,
Figure 609570DEST_PATH_IMAGE013
表示第一概率,
Figure 321174DEST_PATH_IMAGE014
表示第二概率,
Figure 248679DEST_PATH_IMAGE008
表示文本融合权重,
Figure 387536DEST_PATH_IMAGE009
表示t时刻的声学编码状态向量,
Figure 534746DEST_PATH_IMAGE010
表示预设的词表中第u个标签。在可选的实施例中,
Figure 784461DEST_PATH_IMAGE016
的典型值为0.1。
本发明实施例的语音识别过程对语音识别模型的预测过程进行了调整,提高了该语义识别模型的建模能力,从而提高了该语音识别模型的准确率。
图4示意性地示出了适用于本发明实施例的语音识别模型的训练方法和语音识别方法的系统架构。
如图4所示,适用于本发明实施例的语音识别模型的训练方法和语音识别方法的系统架构400包括:终端设备401、402、403,网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等。
终端设备401、402、403通过网络404与服务器405交互,以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用。终端设备401、402、403可以是具有数据采集功能例如音频采集功能的电子设备。
服务器405可以是提供各种服务的服务器。服务器可以对接收到的请求或消息进行分析和处理,并将数据处理后得到的结果反馈给终端设备。
需要说明的是,本发明实施例所提供的语音识别模型的训练方法和语音识别方法一般可以由服务器405执行。本发明实施例所提供的语音识别模型的训练方法和语音识别方法也可以由不同于服务器405且能够与终端设备401、402、403和/或服务器405通信的服务器或服务器集群执行。
应该理解的是,图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图5示意性示出了本发明一实施例的电子设备的示意图。如图5所示,本发明实施例提供的电子设备500包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501、通信接口502和存储器503通过通信总线504完成相互间的通信;存储器503,用于存放至少一可执行指令;处理器501,用于执行存储器上所存放的可执行指令时,实现如上所述的语音识别模型的训练方法和语音识别方法。
具体而言,当实现上述语音识别模型的训练方法时,上述可执行指令使得上述处理器执行以下步骤:将音频训练样本输入所述声学编码器,以对所述音频训练样本进行编码表示,确定所述音频训练样本的声学编码状态向量;将预设的词表输入所述语言预测器中,确定所述预设的词表中每一标签的文本预测向量;将所述文本预测向量线输入所述文本映射层,确定所述文本预测向量映射至所述预设的词表中每一标签的概率,得到文本输出概率分布;根据所述音频训练样本对应的目标文本序列和所述文本输出概率分布,计算第一损失函数;将所述文本预测向量和所述声学编码状态向量输入所述联合网络,计算第二损失函数,并根据所述第一损失函数和所述第二损失函数进行迭代优化,直至满足停止条件。
当实现上述语音识别方法时,上述可执行指令使得上述处理器执行以下步骤:将待识别音频输入所述声学编码器进行编码表示,确定所述待识别音频的声学编码状态向量;将预设的词表输入所述语言预测器,确定所述预设的词表中每一标签的文本预测向量;将所述文本预测向量输入所述文本映射层,以将所述文本预测向量映射至所述预设的词表,确定所述文本预测向量映射至所述预设的词表中每一标签的第一概率;将所述文本预测向量和所述声学编码状态向量输入所述联合网络,确定所述待识别音频映射至所述预设的词表中每一标签的第二概率;根据所述第一概率和所述第二概率,确定所述待识别音频对应的文本内容。
上述存储器503可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器503具有用于执行上述方法中的任何方法步骤的程序代码的存储空间。例如,用于程序代码的存储空间可以包括分别用于实现上面的方法中的各个步骤的各个程序代码。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,光盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为便携式或者固定存储单元。该存储单元可以具有与上述电子设备中的存储器503类似布置的存储段或者存储空间等。程序代码可以例如以适当形式进行压缩。通常,存储单元包括用于执行根据本发明的实施例的方法步骤的程序,即可以由例如诸如501之类的处理器读取的代码,这些代码当由电子设备运行时,导致该电子设备执行上面所描述的方法中的各个步骤。
本发明实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现如上所述的语音识别模型的训练方法和语音识别方法。
该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的;也可以是单独存在,而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本发明实施例的方法。
根据本发明的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
本发明的实施例提供的上述各个技术方案可以全部或部分步骤以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明的实施例的电子设备中的一些或者全部部件的一些或者全部功能。本发明的实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。实现本发明的实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者步骤与另一个实体或步骤区分开来,而不一定要求或者暗示这些实体或步骤之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种语音识别模型的训练方法,其特征在于,所述语音识别模型包括声学编码器、语言预测器、文本映射层和联合网络,所述方法包括:
将音频训练样本输入所述声学编码器,以对所述音频训练样本进行编码表示,确定所述音频训练样本的声学编码状态向量;
将预设的词表输入所述语言预测器中,确定所述预设的词表中每一标签的文本预测向量;
将所述文本预测向量线输入所述文本映射层,确定所述文本预测向量映射至所述预设的词表中每一标签的概率,得到文本输出概率分布;
根据所述音频训练样本对应的目标文本序列和所述文本输出概率分布,计算第一损失函数;
将所述文本预测向量和所述声学编码状态向量输入所述联合网络,计算第二损失函数,并根据所述第一损失函数和所述第二损失函数进行迭代优化,直至满足停止条件,
其中,据所述第一损失函数和所述第二损失函数进行迭代优化包括:
根据所述第一损失函数和所述第二损失函数,确定第三损失函数;
根据所述第三损失函数进行迭代优化。
2.根据权利要求1所述的方法,其特征在于,所述第一损失函数为交叉熵损失函数,所述第二损失函数为Transducer损失函数。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括根据下式确定第三损失函数:
Figure 465505DEST_PATH_IMAGE001
其中,L表示第三损失函数,
Figure 670222DEST_PATH_IMAGE002
表示第一损失函数,
Figure 869122DEST_PATH_IMAGE003
表示第二损失函数,
Figure 475684DEST_PATH_IMAGE004
表示预设的权重。
4.根据权利要求1所述的方法,其特征在于,将音频训练样本输入所述声学编码器,以对所述音频训练样本进行编码表示包括:
将音频训练样本输入所述声学编码器获取所述音频训练样本的声学特征,并对所述音频训练样本的声学特征进行编码表示。
5.一种语音识别方法,其特征在于,所述方法应用于权利要求1-4任一项所训练得到的语音识别模型,所述语音识别模型包括:声学编码器、语言预测器、文本映射层和联合网络;所述方法包括:
将待识别音频输入所述声学编码器进行编码表示,确定所述待识别音频的声学编码状态向量;
将预设的词表输入所述语言预测器,确定所述预设的词表中每一标签的文本预测向量;
将所述文本预测向量输入所述文本映射层,以将所述文本预测向量映射至所述预设的词表,确定所述文本预测向量映射至所述预设的词表中每一标签的第一概率;
将所述文本预测向量和所述声学编码状态向量输入所述联合网络,确定所述待识别音频映射至所述预设的词表中每一标签的第二概率;
根据所述第一概率和所述第二概率,确定所述待识别音频对应的文本内容。
6.根据权利要求5所述的方法,其特征在于,根据所述第一概率和所述第二概率,确定所述待识别音频对应的文本内容包括:
计算所述第一概率和所述第二概率的加权和;
将最大的所述加权和作为所述待识别音频对应的文本内容。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括根据下式确定待识别音频对应的文本内容:
Figure 469048DEST_PATH_IMAGE005
其中,Token表示待识别音频对应的文本内容,
Figure 223377DEST_PATH_IMAGE006
表示第一概率,
Figure 898072DEST_PATH_IMAGE007
表示第二概率,
Figure 421457DEST_PATH_IMAGE008
表示文本融合权重,
Figure 851302DEST_PATH_IMAGE009
表示t时刻的声学编码状态向量,
Figure 30610DEST_PATH_IMAGE010
表示预设的词表中第u个标签。
8.根据权利要求5所述的方法,其特征在于,将待识别音频输入所述声学编码器进行编码表示包括:
将待识别音频输入所述声学编码器获取所述待识别音频的声学特征,并对所述音频训练样本的声学特征进行编码表示。
9.一种语音识别系统,其特征在于,所述语音识别系统包括声学编码器、语言预测器、文本映射层和联合网络;
其中,所述声学编码器用于对待识别音频进行编码表示,确定所述待识别音频的声学编码状态向量;
所述语言预测器用于确定预设的词表中每一标签的文本预测向量;
所述文本映射层用于将所述文本预测向量映射至所述预设的词表,确定所述文本预测向量映射至所述预设的词表中每一标签的第一概率;
所述联合网络用于根据所述文本预测向量和所述声学编码状态向量确定所述待识别音频映射至所述预设的词表中每一标签的第二概率,并根据所述第一概率和所述第二概率,确定所述待识别音频对应的文本内容。
10.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使得所述处理器执行权利要求1-4或权利要求5-8中任一项所述的方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-4或5-8中任一项所述的方法。
CN202111548060.3A 2021-12-17 2021-12-17 语音识别模型的训练方法、语音识别方法和系统 Active CN113936647B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111548060.3A CN113936647B (zh) 2021-12-17 2021-12-17 语音识别模型的训练方法、语音识别方法和系统
US17/836,791 US11580957B1 (en) 2021-12-17 2022-06-09 Method for training speech recognition model, method and system for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111548060.3A CN113936647B (zh) 2021-12-17 2021-12-17 语音识别模型的训练方法、语音识别方法和系统

Publications (2)

Publication Number Publication Date
CN113936647A CN113936647A (zh) 2022-01-14
CN113936647B true CN113936647B (zh) 2022-04-01

Family

ID=79289287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111548060.3A Active CN113936647B (zh) 2021-12-17 2021-12-17 语音识别模型的训练方法、语音识别方法和系统

Country Status (2)

Country Link
US (1) US11580957B1 (zh)
CN (1) CN113936647B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114490950B (zh) * 2022-04-07 2022-07-12 联通(广东)产业互联网有限公司 编码器模型的训练方法及存储介质、相似度预测方法及系统
CN114863916A (zh) * 2022-04-26 2022-08-05 北京小米移动软件有限公司 语音识别模型训练方法、语音识别方法、装置及存储介质
CN115064153B (zh) * 2022-05-31 2024-09-06 杭州网易智企科技有限公司 一种语音识别方法、装置、介质及计算设备
CN116110378B (zh) * 2023-04-12 2023-07-18 中国科学院自动化研究所 模型训练方法、语音识别方法、装置和电子设备
CN116631379B (zh) * 2023-07-20 2023-09-26 中邮消费金融有限公司 语音识别方法、装置、设备及存储介质
CN117033637B (zh) * 2023-08-22 2024-03-22 镁佳(北京)科技有限公司 无效对话拒识模型训练方法、无效对话拒识方法及装置
CN117371433B (zh) * 2023-11-09 2024-07-12 北京邮电大学 一种标题预测模型的处理方法和装置
CN118135452B (zh) * 2024-02-02 2024-08-27 广州像素数据技术股份有限公司 一种基于大规模视频-语言模型的理化生实验视频描述方法及相关设备
CN117746866B (zh) * 2024-02-19 2024-05-07 上海蜜度科技股份有限公司 多语种语音转换文本方法、系统、存储介质及电子设备
CN118335056A (zh) * 2024-05-14 2024-07-12 江苏华明国安技术有限公司 基于上下文感知的自适应语音播报方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968989A (zh) * 2012-12-10 2013-03-13 中国科学院自动化研究所 一种用于语音识别的Ngram模型改进方法
CN112185352A (zh) * 2020-08-31 2021-01-05 华为技术有限公司 语音识别方法、装置及电子设备
CN112599122A (zh) * 2020-12-10 2021-04-02 平安科技(深圳)有限公司 基于自注意力机制和记忆网络的语音识别方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10867597B2 (en) * 2013-09-02 2020-12-15 Microsoft Technology Licensing, Llc Assignment of semantic labels to a sequence of words using neural network architectures
US20180174576A1 (en) * 2016-12-21 2018-06-21 Google Llc Acoustic-to-word neural network speech recognizer
US10963819B1 (en) * 2017-09-27 2021-03-30 Amazon Technologies, Inc. Goal-oriented dialog systems and methods
CN117935785A (zh) * 2019-05-03 2024-04-26 谷歌有限责任公司 用于在端到端模型中跨语言语音识别的基于音素的场境化
CN111261146B (zh) * 2020-01-16 2022-09-09 腾讯科技(深圳)有限公司 语音识别及模型训练方法、装置和计算机可读存储介质
US11615779B2 (en) * 2020-01-28 2023-03-28 Google Llc Language-agnostic multilingual modeling using effective script normalization
US11263753B2 (en) * 2020-04-07 2022-03-01 Naver Corporation Method for training a convolutional neural network for image recognition using image-conditioned masked language modeling

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968989A (zh) * 2012-12-10 2013-03-13 中国科学院自动化研究所 一种用于语音识别的Ngram模型改进方法
CN112185352A (zh) * 2020-08-31 2021-01-05 华为技术有限公司 语音识别方法、装置及电子设备
CN112599122A (zh) * 2020-12-10 2021-04-02 平安科技(深圳)有限公司 基于自注意力机制和记忆网络的语音识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于双向长短时记忆-联结时序分类和加权有限状态转换器的端到端中文语音识别系统;姚煜等;《计算机应用》;20180910(第09期);全文 *

Also Published As

Publication number Publication date
CN113936647A (zh) 2022-01-14
US11580957B1 (en) 2023-02-14

Similar Documents

Publication Publication Date Title
CN113936647B (zh) 语音识别模型的训练方法、语音识别方法和系统
US20200251099A1 (en) Generating Target Sequences From Input Sequences Using Partial Conditioning
JP6686154B2 (ja) 発話認識方法及び装置
CN108090218B (zh) 基于深度强化学习的对话系统生成方法和装置
CN112259089B (zh) 语音识别方法及装置
US20170243114A1 (en) Adaptation of model for recognition processing
CN115238045B (zh) 一种生成式事件论元抽取方法、系统及存储介质
CN112863489A (zh) 语音识别方法、装置、设备及介质
CN116153296A (zh) 一种基于持续学习模型的语音唤醒方法、装置及存储介质
CN113555007B (zh) 语音拼接点检测方法及存储介质
CN113793599B (zh) 语音识别模型的训练方法和语音识别方法及装置
CN113948085B (zh) 语音识别方法、系统、电子设备和存储介质
CN112214592B (zh) 一种回复对话评分模型训练方法、对话回复方法及其装置
CN113032534A (zh) 对话文本的分类方法和电子设备
CN113160801B (zh) 语音识别方法、装置以及计算机可读存储介质
CN109285559B (zh) 角色转换点检测方法及装置、存储介质、电子设备
JP7028203B2 (ja) 音声認識装置、音声認識方法、プログラム
CN112149426A (zh) 阅读任务处理方法及相关设备
CN109657252A (zh) 信息处理方法、装置、电子设备及计算机可读存储介质
CN118098207B (zh) 多模态标点符号添加方法、设备及计算机可读介质
CN115292491B (zh) 基于ctmsn-ehi的任务型多轮对话信息处理方法
CN113673257B (zh) 一种多轮问答语义生成方法、设备及介质
CN116052720A (zh) 语音检错方法、装置、电子设备及存储介质
CN113450786B (zh) 网络模型获得方法、信息处理方法,装置以及电子设备
JP5956913B2 (ja) 言語モデル生成装置、言語モデル生成方法、プログラム、記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant