CN113936647B - 语音识别模型的训练方法、语音识别方法和系统 - Google Patents
语音识别模型的训练方法、语音识别方法和系统 Download PDFInfo
- Publication number
- CN113936647B CN113936647B CN202111548060.3A CN202111548060A CN113936647B CN 113936647 B CN113936647 B CN 113936647B CN 202111548060 A CN202111548060 A CN 202111548060A CN 113936647 B CN113936647 B CN 113936647B
- Authority
- CN
- China
- Prior art keywords
- text
- audio
- loss function
- acoustic
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 238000012549 training Methods 0.000 title claims abstract description 72
- 239000013598 vector Substances 0.000 claims abstract description 97
- 230000006870 function Effects 0.000 claims abstract description 78
- 238000013507 mapping Methods 0.000 claims abstract description 41
- 238000005457 optimization Methods 0.000 claims abstract description 10
- 238000004891 communication Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明实施例公开了一种语音识别模型的训练方法、语音识别方法和系统,涉及语音识别技术领域。该实施例包括:将音频训练样本输入声学编码器,对音频训练样本进行编码表示,确定声学编码状态向量;将预设的词表输入语言预测器中,确定文本预测向量;将文本预测向量线输入文本映射层,得到文本输出概率分布;根据音频训练样本对应的目标文本序列和文本输出概率分布,计算第一损失函数;将文本预测向量和声学编码状态向量输入联合网络,计算第二损失函数,根据第一损失函数和第二损失函数进行迭代优化,直至满足停止条件。本实施例对语音识别模型的训练、预测过程进行了调整,提高了该语义识别模型的建模能力,从而提高了该语音识别模型的准确率。
Description
技术领域
本申请涉及语音识别技术领域,尤其涉及一种语音识别模型的训练方法、语音识别方法和系统。
背景技术
基于Transducer的语音识别模型在国内外获得了广泛的应用,其典型特点是能够直接适配流式语音识别任务。其虽然引入了语言预测器,但是其语言建模能力不足,经研究发现,语言预测器在真实推理中并没有起到类似语言模型的作用,而更多的承担了消除重复标签的功能,其建模语言之间依赖关系的能力还有进一步提升的空间。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本发明实施例提供一种语音识别模型的训练方法、语音识别方法、语音识别系统、电子设备和计算机可读存储介质。
第一方面,本发明实施例提供了一种语音识别模型的训练方法,所述语音识别模型包括声学编码器、语言预测器、文本映射层和联合网络,所述方法包括:
将音频训练样本输入所述声学编码器,以对所述音频训练样本进行编码表示,确定所述音频训练样本的声学编码状态向量;
将预设的词表输入所述语言预测器中,确定所述预设的词表中每一标签的文本预测向量;
将所述文本预测向量输入所述文本映射层,确定所述文本预测向量映射至所述预设的词表中每一标签的概率,得到文本输出概率分布;
根据所述音频训练样本对应的目标文本序列和所述文本输出概率分布,计算第一损失函数;
将所述文本预测向量和所述声学编码状态向量输入所述联合网络,计算第二损失函数,并根据所述第一损失函数和所述第二损失函数进行迭代优化,直至满足停止条件。
在可选的实施例中,据所述第一损失函数和所述第二损失函数进行迭代优化包括:根据所述第一损失函数和所述第二损失函数,确定第三损失函数;根据所述第三损失函数进行迭代优化。
在可选的实施例中,所述第一损失函数为交叉熵损失函数,所述第二损失函数为Transducer损失函数。
在可选的实施例中,所述方法还包括根据下式确定第三损失函数:
在可选的实施例中,将音频训练样本输入所述声学编码器,以对所述音频训练样本进行编码表示包括:将音频训练样本输入所述声学编码器获取所述音频训练样本的声学特征,并对所述音频训练样本的声学特征进行编码表示。
第二方面,本发明实施例提供了一种语音识别方法,所述方法应用于上述实施例所训练得到的语音识别模型,所述语音识别模型包括:声学编码器、语言预测器、文本映射层和联合网络;所述方法包括:
将待识别音频输入所述声学编码器进行编码表示,确定所述待识别音频的声学编码状态向量;
将预设的词表输入所述语言预测器,确定所述预设的词表中每一标签的文本预测向量;
将所述文本预测向量输入所述文本映射层,以将所述文本预测向量映射至所述预设的词表,确定所述文本预测向量映射至所述预设的词表中每一标签的第一概率;
将所述文本预测向量和所述声学编码状态向量输入所述联合网络,确定所述待识别音频映射至所述预设的词表中每一标签的第二概率;
根据所述第一概率和所述第二概率,确定所述待识别音频对应的文本内容。
在可选的实施例中,根据所述第一概率和所述第二概率,确定所述待识别音频对应的文本内容包括:计算所述第一概率和所述第二概率的加权和;将最大的所述加权和作为所述待识别音频对应的文本内容。
在可选的实施例中,所述方法还包括根据下式确定待识别音频对应的文本内容:
在可选的实施例中,将待识别音频输入所述声学编码器进行编码表示包括:将待识别音频输入所述声学编码器获取所述待识别音频的声学特征,并对所述音频训练样本的声学特征进行编码表示。
第三方面,本发明实施例还提供了一种语音识别系统,所述语音识别系统包括声学编码器、语言预测器、文本映射层和联合网络;
其中,所述声学编码器用于对待识别音频进行编码表示,确定所述待识别音频的声学编码状态向量;
所述语言预测器用于确定预设的词表中每一标签的文本预测向量;
所述文本映射层用于将所述文本预测向量映射至所述预设的词表,确定所述文本预测向量映射至所述预设的词表中每一标签的第一概率;
所述联合网络用于根据所述文本预测向量和所述声学编码状态向量确定所述待识别音频映射至所述预设的词表中每一标签的第二概率;并根据所述第一概率和所述第二概率,确定所述待识别音频对应的文本内容。
第四方面,本发明实施例还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使得所述处理器执行本发明实施例的语音识别模型训练方法或语音识别方法。
第五方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例的语音识别模型训练方法或语音识别方法。
上述实施例中的一个或多个技术方案至少具有如下优点的部分或全部:
本发明实施例的语音识别模型加入了文本映射层,并对语音识别模型的训练过程和预测过程进行了调整,提高了该语义识别模型的建模能力,从而提高了该语音识别模型的准确率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示意性地示出了本发明实施例的语音识别模型训练方法的主要步骤的流程图;
图2示意性地示出了本发明实施例的语音识别模型训练方法得到的语音识别模型的结构图;
图3示意性地示出了本发明实施例的语音识别方法的主要步骤的流程图;
图4示意性地示出了适用于本发明实施例的语音识别模型训练方法或语音识别方法的系统架构;
图5示意性示出了本发明实施例提供的电子设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
基于Transducer语音识别模型在国内外获得了广泛的应用。该模型通常包含三部分,分别是声学编码器,语言预测器和联合网络。声学编码器负责将输入声学特征编码为声学编码状态向量,语言预测器输入为预设的词表(该预测的词表包括空格标签或者先前预测得到的文本标签),输出为当前时刻预测的文本预测状态向量,联合网络输入为当前时刻声学编码器输出的声学编码状态向量和语言预测器输出的文本预测状态向量,输出得到词表中所有标签的概率。该模型虽然引入了语言预测器,但是其语言建模能力不足,经研究发现,语言预测器在真实推理中并没有起到类似语言模型的作用,而更多的承担了消除重复标签的作用。针对该技术问题,常见的方法一般是在解码时添加辅助语言模型,这种方法虽然能提升语音识别系统的准确率,但是对于模型本身语言建模能力的提升没有帮助。为了解决该技术问题,本发明实施例提供了一种语音识别模型的训练方法以及语音识别方法,该方法对Transducer语音识别模型的训练和解码过程进行了调整,以通过提高其语言建模能力来提升模型语音识别的准确率。
为方便理解本发明实施例的语音识别模型的训练方法,下面结合附图对其进行说明。
图1示意性地示出了本发明实施例的语音识别模型的训练方法的主要步骤的示意图。图2示意性地示出了本发明实施例所训练得到的语音识别模型的结构示意图。如图2所示,该语音识别模型200包括:声学编码器201、语言预测器202、文本映射层203和联合网络204。
如图1所示,该语音识别模型的训练方法包括:
步骤S101:将音频训练样本输入所述声学编码器获取所述音频训练样本的声学特征,对所述音频训练样本的声学特征进行编码表示,确定所述音频训练样本的声学编码状态向量;
步骤S102:将预设的词表输入所述语言预测器中,确定所述预设的词表中每一标签的文本预测向量;
步骤S103:将所述文本预测向量输入所述文本映射层,以将所述文本预测向量映射至所述预设的词表,确定所述文本预测向量映射至所述预设的词表中每一标签的概率,得到文本输出概率分布;
步骤S104:根据所述音频训练样本对应的目标文本序列和所述文本输出概率分布,计算第一损失函数;
步骤S105:将所述文本预测向量和所述声学编码状态向量输入所述联合网络,计算第二损失函数,并根据所述第一损失函数和所述第二损失函数进行迭代优化,直至满足停止条件。
对于步骤S101,在本实施例中,声学特征例如可以是MFCC特征,也可以是FBank特征等。MFCC(Mel-Frequency Cepstral Coefficients,梅尔倒谱系数)和FBank(Filterbank,滤波器组特征)特征是语音识别常用的一种特征。在获得音频训练样本的声学特征之后,对音频训练样本的声学特征进行编码表示,获得音频训练样本的声学编码状态向量。结合图2,可以将音频训练样本输入声学编码器201中,获得该音频训练样本的声学特征,并对该音频训练样本的声学特征进行编码表示,确定该音频训练样本的声学编码状态向量。作为示例,该声学编码器201可以采用基于循环神经网络、卷积神经网络或者是Transformer模型以及这些模型的变体结构或者组合结构构成。
结合图2,对于步骤S102-S104,将预设的词表(该词表中包括空格标签和非空格标签,非空格标签包括统计后的常用词语)输入语言预测202中,计算得到文本预测向量。在得到文本预测向量之后,将该文本预测向量输入文本映射层203,该文本映射层203仅包括一层线性映射,将输入的文本预测向量映射至上述预设的词表,并计算得到文本预测向量映射至词表中每一标签的概率,得到文本输出概率分布。然后,根据音频训练样本对应的目标文本序列以及该文本输出概率分布,计算第一损失函数。具体的,该过程包括:确定音频训练样本对应的目标文本序列在上述预设的词表中的索引,根据该索引,确定与该目标文本序列对应的第一概率。对于第一损失函数,作为示例该第一损失函数可以是交叉熵损失函数。
对于步骤S105,将上述文本预测向量和上述声学编码状态向量输入联合网络204,计算得到音频训练样本映射至上述词表中每一标签的第二概率,并基于该第二概率计算第二损失函数。作为示例,该第二损失函数可以是Transducer损失函数。其中,Transducer损失函数是一种用于基于Transducer的语音识别模型计算的负对数损失函数,其利用基于动态规划思路的前后向算法对所有可行的音频-输出标签对齐路径进行概率求和,并对概率和的负对数形式进行优化。在得到第二损失函数之后,对第一损失函数和第二损失函数进行加权求和,并进行联合优化迭代,直至达到停止条件如模型收敛,至此得到语音识别模型。其中,对第一损失函数和第二损失函数进行加权求和,并进行联合优化迭代包括根据所述第一损失函数和所述第二损失函数,确定第三损失函数;根据所述第三损失函数进行迭代优化。
更具体的,可以根据下式确定第三损失函数:
本发明实施例的语音识别模型训练方法,对语音识别模型的训练过程进行了调整,提高了该语义识别模型的建模能力,从而提高了该语音识别模型的准确率。
图3示意性地示出了本发明实施例的语音识别方法的主要步骤的示意图。该语音识别方法可以应用于图1所示的实施例训练得到的语音识别模型。
如图3所示,该方法包括:
步骤S301:将待识别音频输入所述声学编码器获取所述待识别音频的声学特征,并对所述音频训练样本的声学特征进行编码表示;
步骤S302:将预设的词表输入所述语言预测器,确定所述预设的词表中每一标签的文本预测向量;
步骤S303:将所述文本预测向量输入所述文本映射层,以将所述文本预测向量映射至所述预设的词表,确定所述文本预测向量映射至所述预设的词表中每一标签的第一概率;
步骤S304:将所述文本预测向量和所述声学编码状态向量输入所述联合网络,确定所述待识别音频映射至所述预设的词表中每一标签的第二概率;
步骤S305:根据所述第一概率和所述第二概率,确定所述待识别音频对应的文本内容。
在本实施例中,将待识别的音频输入声学编码器中,获取该待识别音频的声学特征,例如可以是MFCC特征,也可以是FBank特征,并对该待识别音频的声学特征进行编码表示,得到声学编码状态向量,其中,t表示t时刻。然后将预设的词表中的空格标签或非空格标签输入语言预测器中,计算得到每一标签的文本预测向量,u表示第u个标签。将计算得到的文本预测向量输入文本映射层,将该文本预测向量映射至所述预设的词表,确定文本预测向量映射至所述预设的词表中每一标签的第一概率,从而得到文本输出概率分布,其中,映射到词表中第u+1个标签的第一概率为。然后,将文本预测向量和声学编码状态向量输入至联合网络,计算得到待识别音频映射至预设的词表中每一标签的第二概率。最后,根据上述第一概率和上述第二概率,确定待识别音频对应的文本内容。若联合网络根据第一概率和第二概率的加权和,预测得到空格标签(即预测的待识别音频为空格标签),则保持联合网络输入的文本预测向量不变,更新下一个声学编码状态向量,如果预测得非空格标签,则保持声学编码状态向量不变,更新文本预测向量。重复上述步骤,直至语音识别模型在基于最后一个声学编码状态向量预测得到空格标签或者提前达到其他停止条件。在可选的实施例中,根据第一概率和第二概率,确定待识别音频对应的文本内容的步骤包括:计算所述第一概率和所述第二概率的加权和;将最大的所述加权和作为所述待识别音频对应的文本内容。更具体的,该步骤根据下式确定第一概率和第二概率的加权和,以及确定待识别音频对应的文本内容:
本发明实施例的语音识别过程对语音识别模型的预测过程进行了调整,提高了该语义识别模型的建模能力,从而提高了该语音识别模型的准确率。
图4示意性地示出了适用于本发明实施例的语音识别模型的训练方法和语音识别方法的系统架构。
如图4所示,适用于本发明实施例的语音识别模型的训练方法和语音识别方法的系统架构400包括:终端设备401、402、403,网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等。
终端设备401、402、403通过网络404与服务器405交互,以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用。终端设备401、402、403可以是具有数据采集功能例如音频采集功能的电子设备。
服务器405可以是提供各种服务的服务器。服务器可以对接收到的请求或消息进行分析和处理,并将数据处理后得到的结果反馈给终端设备。
需要说明的是,本发明实施例所提供的语音识别模型的训练方法和语音识别方法一般可以由服务器405执行。本发明实施例所提供的语音识别模型的训练方法和语音识别方法也可以由不同于服务器405且能够与终端设备401、402、403和/或服务器405通信的服务器或服务器集群执行。
应该理解的是,图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图5示意性示出了本发明一实施例的电子设备的示意图。如图5所示,本发明实施例提供的电子设备500包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501、通信接口502和存储器503通过通信总线504完成相互间的通信;存储器503,用于存放至少一可执行指令;处理器501,用于执行存储器上所存放的可执行指令时,实现如上所述的语音识别模型的训练方法和语音识别方法。
具体而言,当实现上述语音识别模型的训练方法时,上述可执行指令使得上述处理器执行以下步骤:将音频训练样本输入所述声学编码器,以对所述音频训练样本进行编码表示,确定所述音频训练样本的声学编码状态向量;将预设的词表输入所述语言预测器中,确定所述预设的词表中每一标签的文本预测向量;将所述文本预测向量线输入所述文本映射层,确定所述文本预测向量映射至所述预设的词表中每一标签的概率,得到文本输出概率分布;根据所述音频训练样本对应的目标文本序列和所述文本输出概率分布,计算第一损失函数;将所述文本预测向量和所述声学编码状态向量输入所述联合网络,计算第二损失函数,并根据所述第一损失函数和所述第二损失函数进行迭代优化,直至满足停止条件。
当实现上述语音识别方法时,上述可执行指令使得上述处理器执行以下步骤:将待识别音频输入所述声学编码器进行编码表示,确定所述待识别音频的声学编码状态向量;将预设的词表输入所述语言预测器,确定所述预设的词表中每一标签的文本预测向量;将所述文本预测向量输入所述文本映射层,以将所述文本预测向量映射至所述预设的词表,确定所述文本预测向量映射至所述预设的词表中每一标签的第一概率;将所述文本预测向量和所述声学编码状态向量输入所述联合网络,确定所述待识别音频映射至所述预设的词表中每一标签的第二概率;根据所述第一概率和所述第二概率,确定所述待识别音频对应的文本内容。
上述存储器503可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器503具有用于执行上述方法中的任何方法步骤的程序代码的存储空间。例如,用于程序代码的存储空间可以包括分别用于实现上面的方法中的各个步骤的各个程序代码。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,光盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为便携式或者固定存储单元。该存储单元可以具有与上述电子设备中的存储器503类似布置的存储段或者存储空间等。程序代码可以例如以适当形式进行压缩。通常,存储单元包括用于执行根据本发明的实施例的方法步骤的程序,即可以由例如诸如501之类的处理器读取的代码,这些代码当由电子设备运行时,导致该电子设备执行上面所描述的方法中的各个步骤。
本发明实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现如上所述的语音识别模型的训练方法和语音识别方法。
该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的;也可以是单独存在,而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本发明实施例的方法。
根据本发明的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
本发明的实施例提供的上述各个技术方案可以全部或部分步骤以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明的实施例的电子设备中的一些或者全部部件的一些或者全部功能。本发明的实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。实现本发明的实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者步骤与另一个实体或步骤区分开来,而不一定要求或者暗示这些实体或步骤之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (11)
1.一种语音识别模型的训练方法,其特征在于,所述语音识别模型包括声学编码器、语言预测器、文本映射层和联合网络,所述方法包括:
将音频训练样本输入所述声学编码器,以对所述音频训练样本进行编码表示,确定所述音频训练样本的声学编码状态向量;
将预设的词表输入所述语言预测器中,确定所述预设的词表中每一标签的文本预测向量;
将所述文本预测向量线输入所述文本映射层,确定所述文本预测向量映射至所述预设的词表中每一标签的概率,得到文本输出概率分布;
根据所述音频训练样本对应的目标文本序列和所述文本输出概率分布,计算第一损失函数;
将所述文本预测向量和所述声学编码状态向量输入所述联合网络,计算第二损失函数,并根据所述第一损失函数和所述第二损失函数进行迭代优化,直至满足停止条件,
其中,据所述第一损失函数和所述第二损失函数进行迭代优化包括:
根据所述第一损失函数和所述第二损失函数,确定第三损失函数;
根据所述第三损失函数进行迭代优化。
2.根据权利要求1所述的方法,其特征在于,所述第一损失函数为交叉熵损失函数,所述第二损失函数为Transducer损失函数。
4.根据权利要求1所述的方法,其特征在于,将音频训练样本输入所述声学编码器,以对所述音频训练样本进行编码表示包括:
将音频训练样本输入所述声学编码器获取所述音频训练样本的声学特征,并对所述音频训练样本的声学特征进行编码表示。
5.一种语音识别方法,其特征在于,所述方法应用于权利要求1-4任一项所训练得到的语音识别模型,所述语音识别模型包括:声学编码器、语言预测器、文本映射层和联合网络;所述方法包括:
将待识别音频输入所述声学编码器进行编码表示,确定所述待识别音频的声学编码状态向量;
将预设的词表输入所述语言预测器,确定所述预设的词表中每一标签的文本预测向量;
将所述文本预测向量输入所述文本映射层,以将所述文本预测向量映射至所述预设的词表,确定所述文本预测向量映射至所述预设的词表中每一标签的第一概率;
将所述文本预测向量和所述声学编码状态向量输入所述联合网络,确定所述待识别音频映射至所述预设的词表中每一标签的第二概率;
根据所述第一概率和所述第二概率,确定所述待识别音频对应的文本内容。
6.根据权利要求5所述的方法,其特征在于,根据所述第一概率和所述第二概率,确定所述待识别音频对应的文本内容包括:
计算所述第一概率和所述第二概率的加权和;
将最大的所述加权和作为所述待识别音频对应的文本内容。
8.根据权利要求5所述的方法,其特征在于,将待识别音频输入所述声学编码器进行编码表示包括:
将待识别音频输入所述声学编码器获取所述待识别音频的声学特征,并对所述音频训练样本的声学特征进行编码表示。
9.一种语音识别系统,其特征在于,所述语音识别系统包括声学编码器、语言预测器、文本映射层和联合网络;
其中,所述声学编码器用于对待识别音频进行编码表示,确定所述待识别音频的声学编码状态向量;
所述语言预测器用于确定预设的词表中每一标签的文本预测向量;
所述文本映射层用于将所述文本预测向量映射至所述预设的词表,确定所述文本预测向量映射至所述预设的词表中每一标签的第一概率;
所述联合网络用于根据所述文本预测向量和所述声学编码状态向量确定所述待识别音频映射至所述预设的词表中每一标签的第二概率,并根据所述第一概率和所述第二概率,确定所述待识别音频对应的文本内容。
10.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使得所述处理器执行权利要求1-4或权利要求5-8中任一项所述的方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-4或5-8中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111548060.3A CN113936647B (zh) | 2021-12-17 | 2021-12-17 | 语音识别模型的训练方法、语音识别方法和系统 |
US17/836,791 US11580957B1 (en) | 2021-12-17 | 2022-06-09 | Method for training speech recognition model, method and system for speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111548060.3A CN113936647B (zh) | 2021-12-17 | 2021-12-17 | 语音识别模型的训练方法、语音识别方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113936647A CN113936647A (zh) | 2022-01-14 |
CN113936647B true CN113936647B (zh) | 2022-04-01 |
Family
ID=79289287
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111548060.3A Active CN113936647B (zh) | 2021-12-17 | 2021-12-17 | 语音识别模型的训练方法、语音识别方法和系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11580957B1 (zh) |
CN (1) | CN113936647B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114490950B (zh) * | 2022-04-07 | 2022-07-12 | 联通(广东)产业互联网有限公司 | 编码器模型的训练方法及存储介质、相似度预测方法及系统 |
CN114863916A (zh) * | 2022-04-26 | 2022-08-05 | 北京小米移动软件有限公司 | 语音识别模型训练方法、语音识别方法、装置及存储介质 |
CN115064153B (zh) * | 2022-05-31 | 2024-09-06 | 杭州网易智企科技有限公司 | 一种语音识别方法、装置、介质及计算设备 |
CN116110378B (zh) * | 2023-04-12 | 2023-07-18 | 中国科学院自动化研究所 | 模型训练方法、语音识别方法、装置和电子设备 |
CN116631379B (zh) * | 2023-07-20 | 2023-09-26 | 中邮消费金融有限公司 | 语音识别方法、装置、设备及存储介质 |
CN117033637B (zh) * | 2023-08-22 | 2024-03-22 | 镁佳(北京)科技有限公司 | 无效对话拒识模型训练方法、无效对话拒识方法及装置 |
CN117371433B (zh) * | 2023-11-09 | 2024-07-12 | 北京邮电大学 | 一种标题预测模型的处理方法和装置 |
CN118135452B (zh) * | 2024-02-02 | 2024-08-27 | 广州像素数据技术股份有限公司 | 一种基于大规模视频-语言模型的理化生实验视频描述方法及相关设备 |
CN117746866B (zh) * | 2024-02-19 | 2024-05-07 | 上海蜜度科技股份有限公司 | 多语种语音转换文本方法、系统、存储介质及电子设备 |
CN118335056A (zh) * | 2024-05-14 | 2024-07-12 | 江苏华明国安技术有限公司 | 基于上下文感知的自适应语音播报方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968989A (zh) * | 2012-12-10 | 2013-03-13 | 中国科学院自动化研究所 | 一种用于语音识别的Ngram模型改进方法 |
CN112185352A (zh) * | 2020-08-31 | 2021-01-05 | 华为技术有限公司 | 语音识别方法、装置及电子设备 |
CN112599122A (zh) * | 2020-12-10 | 2021-04-02 | 平安科技(深圳)有限公司 | 基于自注意力机制和记忆网络的语音识别方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10867597B2 (en) * | 2013-09-02 | 2020-12-15 | Microsoft Technology Licensing, Llc | Assignment of semantic labels to a sequence of words using neural network architectures |
US20180174576A1 (en) * | 2016-12-21 | 2018-06-21 | Google Llc | Acoustic-to-word neural network speech recognizer |
US10963819B1 (en) * | 2017-09-27 | 2021-03-30 | Amazon Technologies, Inc. | Goal-oriented dialog systems and methods |
CN117935785A (zh) * | 2019-05-03 | 2024-04-26 | 谷歌有限责任公司 | 用于在端到端模型中跨语言语音识别的基于音素的场境化 |
CN111261146B (zh) * | 2020-01-16 | 2022-09-09 | 腾讯科技(深圳)有限公司 | 语音识别及模型训练方法、装置和计算机可读存储介质 |
US11615779B2 (en) * | 2020-01-28 | 2023-03-28 | Google Llc | Language-agnostic multilingual modeling using effective script normalization |
US11263753B2 (en) * | 2020-04-07 | 2022-03-01 | Naver Corporation | Method for training a convolutional neural network for image recognition using image-conditioned masked language modeling |
-
2021
- 2021-12-17 CN CN202111548060.3A patent/CN113936647B/zh active Active
-
2022
- 2022-06-09 US US17/836,791 patent/US11580957B1/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968989A (zh) * | 2012-12-10 | 2013-03-13 | 中国科学院自动化研究所 | 一种用于语音识别的Ngram模型改进方法 |
CN112185352A (zh) * | 2020-08-31 | 2021-01-05 | 华为技术有限公司 | 语音识别方法、装置及电子设备 |
CN112599122A (zh) * | 2020-12-10 | 2021-04-02 | 平安科技(深圳)有限公司 | 基于自注意力机制和记忆网络的语音识别方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于双向长短时记忆-联结时序分类和加权有限状态转换器的端到端中文语音识别系统;姚煜等;《计算机应用》;20180910(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113936647A (zh) | 2022-01-14 |
US11580957B1 (en) | 2023-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113936647B (zh) | 语音识别模型的训练方法、语音识别方法和系统 | |
US20200251099A1 (en) | Generating Target Sequences From Input Sequences Using Partial Conditioning | |
JP6686154B2 (ja) | 発話認識方法及び装置 | |
CN108090218B (zh) | 基于深度强化学习的对话系统生成方法和装置 | |
CN112259089B (zh) | 语音识别方法及装置 | |
US20170243114A1 (en) | Adaptation of model for recognition processing | |
CN115238045B (zh) | 一种生成式事件论元抽取方法、系统及存储介质 | |
CN112863489A (zh) | 语音识别方法、装置、设备及介质 | |
CN116153296A (zh) | 一种基于持续学习模型的语音唤醒方法、装置及存储介质 | |
CN113555007B (zh) | 语音拼接点检测方法及存储介质 | |
CN113793599B (zh) | 语音识别模型的训练方法和语音识别方法及装置 | |
CN113948085B (zh) | 语音识别方法、系统、电子设备和存储介质 | |
CN112214592B (zh) | 一种回复对话评分模型训练方法、对话回复方法及其装置 | |
CN113032534A (zh) | 对话文本的分类方法和电子设备 | |
CN113160801B (zh) | 语音识别方法、装置以及计算机可读存储介质 | |
CN109285559B (zh) | 角色转换点检测方法及装置、存储介质、电子设备 | |
JP7028203B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
CN112149426A (zh) | 阅读任务处理方法及相关设备 | |
CN109657252A (zh) | 信息处理方法、装置、电子设备及计算机可读存储介质 | |
CN118098207B (zh) | 多模态标点符号添加方法、设备及计算机可读介质 | |
CN115292491B (zh) | 基于ctmsn-ehi的任务型多轮对话信息处理方法 | |
CN113673257B (zh) | 一种多轮问答语义生成方法、设备及介质 | |
CN116052720A (zh) | 语音检错方法、装置、电子设备及存储介质 | |
CN113450786B (zh) | 网络模型获得方法、信息处理方法,装置以及电子设备 | |
JP5956913B2 (ja) | 言語モデル生成装置、言語モデル生成方法、プログラム、記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |