CN110648658A - 一种语音识别模型的生成方法、装置及电子设备 - Google Patents
一种语音识别模型的生成方法、装置及电子设备 Download PDFInfo
- Publication number
- CN110648658A CN110648658A CN201910840757.4A CN201910840757A CN110648658A CN 110648658 A CN110648658 A CN 110648658A CN 201910840757 A CN201910840757 A CN 201910840757A CN 110648658 A CN110648658 A CN 110648658A
- Authority
- CN
- China
- Prior art keywords
- sequence
- voice
- text sequence
- decoder
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 85
- 238000005070 sampling Methods 0.000 claims abstract description 42
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 abstract description 5
- 230000007246 mechanism Effects 0.000 description 22
- 230000008569 process Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 238000009825 accumulation Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000003062 neural network model Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本公开关于一种语音识别模型的生成方法、装置及电子设备,用于提高模型识别的准确率和识别效果。该方法包括:获取训练样本,每个训练样本包括语音帧序列及对应的标注文本序列;将所述语音帧序列作为所述编码器的输入特征,将所述语音帧序列的语音编码帧作为所述编码器的输出特征,对所述编码器进行训练;将所述语音编码帧作为所述解码器的输入特征,将所述语音帧序列对应的标注文本序列作为输出特征对解码器进行训练,得到当前预测文本序列,将所述语音编码帧作为所述解码器的输入特征,将所述语音帧序列对应的标注文本序列及所述当前预测文本序列按照预设概率采样后合并得到的序列作为输出特征,对所述解码器进行再次训练。
Description
技术领域
本公开涉及语音识别技术领域,尤其涉及一种语音识别模型的生成方法、装置及电子设备。
背景技术
目前主流的语音识别框架为基于编解码注意力机制的端到端框架,例如语音识别神经网络(Listen Attend and Spell,LAS)模型,该模型包括编码、解码、注意力机制三部分功能,编码用于对语音的特征帧进行建模,获取声学的高层信息表示,解码用于建模语言信息,在给定上一时刻的输出,结合声学表示预测当前时刻的输出,注意力机制用于在语言和声学之间建立联系,从声学表示中抽取和当前语言相关的内容。该模型把传统模型的词典模型、声学模型、语言模型、解码模型都融合在一个神经网络模型中,同时学习声学和语言两方面的信息,属于目前为止较有潜力的端到端框架。
但目前的端到端框架计算资源消耗大、并行计算困难,并且通过语音识别神经网络模型进行语音识别时,会存在上一时刻的输出错误导致错误的累积,模型的识别准确率较低,识别效果较差。
发明内容
本公开提供了一种语音识别模型的生成方法、装置及电子设备,用于在基于自注意力机制的编解码器模型中,利用自注意力机制完成对语音的编解码,并且在模型生成的过程中,在所述语音帧序列对应的标注文本序列与编解码器模型输出端反馈的预测文本序列之间按照预设概率进行采样,将错误的预测文本加入到模型生成的过程中,能够解决在上一帧预测文本错误时仍能够在下一帧得到正确的预测文本,缓解由于错误累积带来的误差累积,提高模型识别的准确率和识别效果。
第一方面,本公开提供一种语音识别模型的生成方法,该方法包括:
获取训练样本,每个训练样本包括语音帧序列及对应的标注文本序列;
将所述语音帧序列作为所述编码器的输入特征,将所述语音帧序列的语音编码帧作为所述编码器的输出特征,对所述编码器进行训练;
将所述语音编码帧作为所述解码器的输入特征,将所述语音帧序列对应的标注文本序列作为输出特征对解码器进行训练,得到当前预测文本序列,将所述语音编码帧作为所述解码器的输入特征,将所述语音帧序列对应的标注文本序列及所述当前预测文本序列按照预设概率采样后合并得到的序列作为输出特征,对所述解码器进行再次训练。
作为一种可能的实施方式,所述获取训练样本步骤包括:
获取语音信号并进行语音特征提取,得到初始语音帧序列;
对所述初始语音帧序列中语音帧进行拼帧,并下采样拼帧后的语音帧,得到语音帧序列。
作为一种可能的实施方式,所述预设概率根据所述解码器输出的预测文本序列的准确率确定。
作为一种可能的实施方式,所述根据所述解码器输出的预测文本序列的准确率确定所述预设概率步骤包括:
根据解码器输出的预测文本序列的准确率的大小,按照正比关系确定采样预测文本序列的预设概率,按照反比关系确定采样标注文本序列的预设概率。
作为一种可能的实施方式,还包括:
确定所述当前预测文本序列与对应的标注文本序列的接近程度满足预设值,及确定所述当前预测文本序列中的字错误率CER满足预设值时,结束对所述语音识别模型的训练。
作为一种可能的实施方式,所述标注文本序列为标注的音节序列,所述预测文本序列为预测的音节序列。
第二方面,本公开提供一种语音识别模型的生成装置,所述语音识别模型包括编码器和解码器,该装置包括:获取样本单元、编码器训练单元、解码器训练单元,其中:
获取样本单元,被配置为执行获取训练样本,每个训练样本包括语音帧序列及对应的标注文本序列;
编码器训练单元,被配置为执行将所述语音帧序列作为所述编码器的输入特征,将所述语音帧序列的语音编码帧作为所述编码器的输出特征,对所述编码器进行训练;
解码器训练单元,被配置为执行将所述语音编码帧作为所述解码器的输入特征,将所述语音帧序列对应的标注文本序列作为输出特征对解码器进行训练,得到当前预测文本序列,将所述语音编码帧作为所述解码器的输入特征,将所述语音帧序列对应的标注文本序列及所述当前预测文本序列按照预设概率采样后合并得到的序列作为输出特征,对所述解码器进行再次训练。
作为一种可能的实施方式,所述获取样本单元具体被配置为执行:
获取语音信号并进行语音特征提取,得到初始语音帧序列;
对所述初始语音帧序列中语音帧进行拼帧,并下采样拼帧后的语音帧,得到语音帧序列。
作为一种可能的实施方式,所述预设概率根据所述解码器输出的预测文本序列的准确率确定。
作为一种可能的实施方式,所述解码器训练单元具体被配置为执行:
根据解码器输出的预测文本序列的准确率的大小,按照正比关系确定采样预测文本序列的预设概率,按照反比关系确定采样标注文本序列的预设概率。
作为一种可能的实施方式,所述装置还包括完成训练单元被配置为执行:
确定所述当前预测文本序列与对应的标注文本序列的接近程度满足预设值,及确定所述当前预测文本序列中的字错误率CER满足预设值时,结束对所述语音识别模型的训练。
作为一种可能的实施方式,所述标注文本序列为标注的音节序列,所述预测文本序列为预测的音节序列。
第三方面,本公开提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如下步骤:
获取训练样本,每个训练样本包括语音帧序列及对应的标注文本序列;
将所述语音帧序列作为所述编码器的输入特征,将所述语音帧序列的语音编码帧作为所述编码器的输出特征,对所述编码器进行训练;
将所述语音编码帧作为所述解码器的输入特征,将所述语音帧序列对应的标注文本序列作为输出特征对解码器进行训练,得到当前预测文本序列,将所述语音编码帧作为所述解码器的输入特征,将所述语音帧序列对应的标注文本序列及所述当前预测文本序列按照预设概率采样后合并得到的序列作为输出特征,对所述解码器进行再次训练。
作为一种可能的实施方式,所述处理器具体被配置为执行:
获取语音信号并进行语音特征提取,得到初始语音帧序列;
对所述初始语音帧序列中语音帧进行拼帧,并下采样拼帧后的语音帧,得到语音帧序列。
作为一种可能的实施方式,所述预设概率根据所述解码器输出的预测文本序列的准确率确定。
作为一种可能的实施方式,所述处理器具体被配置为执行:
根据解码器输出的预测文本序列的准确率的大小,按照正比关系确定采样预测文本序列的预设概率,按照反比关系确定采样标注文本序列的预设概率。
作为一种可能的实施方式,所述处理器具体还被配置为执行:
确定所述当前预测文本序列与对应的标注文本序列的接近程度满足预设值,及确定所述当前预测文本序列中的字错误率CER满足预设值时,结束对所述语音识别模型的训练。
作为一种可能的实施方式,所述标注文本序列为标注的音节序列,所述预测文本序列为预测的音节序列。
第四方面,本公开提供一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面所述方法的步骤。
本公开提供的一种语音识别模型的生成方法、装置及电子设备,具有以下有益效果:
在基于自注意力机制的编解码器模型中,不存在循环神经网络结构,利用自注意力机制完成对语音帧的编解码,改善现有技术中语音识别神经网络模型中的缺陷;并且在模型生成的过程中,在标注文本序列与输出端反馈的预测文本序列之间按照预设概率进行采样,将部分错误的预测文本加入到模型生成的过程中,能够解决在上一帧预测文本错误时仍能够在下一帧得到正确的预测文本,缓解由于错误累积带来的误差累积,提高模型识别的准确率和识别效果。
附图说明
图1为本公开实施例提供的一种目前使用的语音识别模型示意图;
图2为本公开实施例提供的一种语音识别模型示意图;
图3为本公开实施例提供的一种语音识别模型的生成方法流程图;
图4为本公开实施例提供的一种语音识别模型的生成装置示意图;
图5为本公开实施例提供的一种电子设备示意图。
具体实施方式
为了使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开作进一步地详细描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
实施例1
目前基于编解码注意力机制的端到端框架进行语音识别时,仍存在如下缺陷:
一方面,目前的语音识别神经网络模型中的编解码功能都是基于循环神经网络结构实现的,而循环神经网络存在计算资源消耗大、并行计算困难等问题;
另一方面,目前的语音识别神经网络模型在进行模型训练时,与输入的语音帧对应的标注文本数据能够确保上一时刻的输出一定是正确的,因此对模型训练的过程中,并未考虑上一时刻的输出错误时,如何训练该模型仍能够得到正确的输出结果,导致使用训练完成的模型进行语音识别时,会存在上一时刻的输出错误导致错误的累积,模型的识别准确率较低,识别效果较差。
目前提出的一种端到端的语音识别模型如图1所示,该模型包括编码器模块100、解码器模块101,其中:
编码器模块100,包括多个块,每个块包括一个多头(multi-head)自注意力机制模块和一个前向网络模块,用于对输入的语音序列进行编码;
解码器模块101,包括多个块,每个块包括一个多头(multi-head)自注意力机制模块、一个掩藏(Masked)多头(multi-head)自注意力机制模块和一个前向网络模块,其中解码器的输入端包括:编码后输出的语音编码帧,解码器模块输出端反馈的预测文本序列,以及标注文本序列。
对上述模型进行训练的过程中,会根据标注文本序列来确保上一时刻输出端输出的预测文本序列一定是正确的,因此该模型训练的过程中并未考虑将错误的输出预测文本作为训练的参考因素,若使用该训练好的模型进行语音识别,当上一时刻的预测文本序列出错时,错误就会累积。
为了解决上述技术问题,本实施例提供了一种语音识别模型生成方法,该模型是基于自注意力机制的编解码器模型,是一种端到端模型且不包括循环神经网络结构,该模型主要采用自注意力机制结合前向网络结构进行语音帧的编解码。
本发明提出一种语音识别模型,如图2所示,该模型的结构包括:
编码器模块200、解码器模块201、采样模块202,该模型中的各个模块是虚拟模块,可通过计算机程序实现该虚拟模块的功能,其中:
编码器模块200包括多个块,每个块包括一个多头(multi-head)自注意力机制模块和一个前向网络模块,由于语音包括多个特性,例如语音的快慢、音量、方言种类、背景噪音等,因此用其中一头自注意力机制模块用于计算语音的其中一个特性,前向网络模块能够确定编码器的输出维度d;
解码器模块201包括多个块,每个块包括一个多头(multi-head)自注意力机制模块、一个掩藏(Masked)多头(multi-head)自注意力机制模块和一个前向网络模块,其中一个多头(multi-head)自注意力机制模块用于计算语音帧序列与对应的标注文本序列之间的相似度,得到第一预测文本序列,一个掩藏(Masked)多头(multi-head)自注意力机制模块用于计算第一预测文本序列与所述前一预测文本序列之间的关联性,从第一预测文本中筛选出当前预测文本序列,前向网络模块能够确定编码器的输出维度d;
采样模块202用于在所述语音帧序列对应的标注文本序列与编解码器模型输出端反馈的预测文本序列之间按照预设概率进行采样。
基于上述编解码器模型的基础上,本实施例提供了一种语音识别模型的生成方法,所述语音识别模型包括编码器和解码器,如图3所示,具体实施流程包括:
步骤300、获取训练样本,每个训练样本包括语音帧序列及对应的标注文本序列;
本实施例中可采用如下方式获取训练样本:
1)获取语音信号并进行语音特征提取,得到初始语音帧序列;
其中,可以利用语音特征提取模块进行特征提取,例如可利用语音特征提取模块来提取语音信号的梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients,MFCC)特征。本实施例中可采用提取40维的MFCC特征。
2)对所述初始语音帧序列中语音帧进行拼帧,并下采样拼帧后的语音帧,得到语音帧序列。
本实施例中可先采用倒谱均值方差归一化(Cepstral Mean and VarianceNormalization,CMVN)对所述初始语音帧序列进行归一化处理,然后对所述初始语音帧序列中语音帧进行拼帧,将几帧语音帧拼帧后作为一帧新语音帧,最后对拼帧后的多帧新语音帧进行下采样,降低语音帧的帧率,例如可将6帧语音帧拼帧后作为一帧新语音帧,对拼帧后的多帧新语音帧进行下采样后的帧率为16.7Hz。
本实施例中对语音帧序列进行低帧率处理能让语音帧序列的长度缩减到原来的六分之一,计算量约减少36倍。
步骤301、将所述语音帧序列作为所述编码器的输入特征,将所述语音帧序列的语音编码帧作为所述编码器的输出特征,对所述编码器进行训练;
步骤302、将所述语音编码帧作为所述解码器的输入特征,将所述语音帧序列对应的标注文本序列作为输出特征对解码器进行训练,得到当前预测文本序列,将所述语音编码帧作为所述解码器的输入特征,将所述语音帧序列对应的标注文本序列及所述当前预测文本序列按照预设概率采样后合并得到的序列作为输出特征,对所述解码器进行再次训练。
利用所述训练样本对语音识别模型进行训练,在具体训练过程中,利用所述语音识别模型中的编码器计算语音帧序列中任一语音帧与之后每个语音帧之间的相似性,得到语音编码帧后,在所述语音帧序列对应的标注文本序列与解码器输出端反馈的预测文本序列之间按照预设概率进行采样,结合所述标注文本序列得到的前一预测文本序列,根据所述标注文本序列及前一预测文本序列对所述语音编码帧进行解码,在输出端输出当前预测文本序列。
为了清楚的说明上述训练过程,下面按照对编码器进行训练的过程和对解码器进行训练的过程分别进行说明:
第一个部分,对所述语音识别模型中的编码器进行训练,将所述语音帧序列作为所述编码器的输入特征,将所述语音帧序列的语音编码帧作为所述编码器的输出特征,对所述编码器进行训练;
在训练过程中,利用所述编码器计算语音帧序列中任一语音帧与之后每个语音帧之间的相似性,由于该编码器不包括循环神经网络,而是基于自注意力机制的编码器,在运算过程中对语音帧序列中的任意两帧都进行了相似性计算,从而保证了该计算过程较循环神经网络具有长时依赖性,对于语音信号中的每个音节与每个音节之间的先后关系都进行了考虑,保证了更强的相关性。
第二个部分,对所述语音识别模型中的解码器进行训练,将编码器输出的语音编码帧作为所述解码器的输入特征,将所述语音帧序列对应的标注文本序列作为输出特征对解码器进行训练,得到当前预测文本序列,但此时预测的文本序列只是由标注文本进行预测的,更进一步的,本实施例将所述语音编码帧作为所述解码器的输入特征,将所述语音帧序列对应的标注文本序列及所述当前预测文本序列按照预设概率采样后合并得到的序列作为输出特征,对所述解码器进行再次训练。
具体的,利用采样模块在对应的标注文本序列和当前预测文本序列之间按预设概率进行采样后,输入到解码器模块中,具体过程如下:
在解码器中包括三个输入端,一个是语音编码帧的输入、另一个是对应的标注文本序列、最后一个是该解码器输出端反馈的预测文本序列,其中,对所述标注文本序列和所述反馈的预测文本序列(即该解码器输出端输出的当前预测文本序列),先按照预设概率采样后,再输入到解码器中进行解码。
可选的,本实施例中解码器模块的具体解码步骤如下:
1)筛选所述标注文本序列中,与所述语音编码帧之间的相似度大于预设值的文本,得到第一预测文本序列;
可以基于自注意力机制计算语音编码帧与对应的标注文本序列之间的相似性,从而对所述标注文本序列进行筛选,得到第一预测文本序列。
2)计算第一预测文本序列与所述前一预测文本序列之间的关联性,从第一预测文本中筛选出当前预测文本序列。
可以基于自注意力机制计算第一预测文本序列与所述前一预测文本序列之间的关联性,从而筛选出当前预测的文本序列。
本实施例在解码过程中并没有直接采用标注的文本序列,及输出的当前预测文本序列,而是在所述语音帧序列对应的标注文本序列与解码器输出的当前预测文本序列之间按照预设概率进行采样,利用采样的方式将预测文本序列中错误的预测文本结合正确的标注文本输入到解码器中进行训练,从而在训练的过程中降低了错误累积给模型带来的影响。
可选的,本实施例还可以采用计划采样(Scheduled,SS)的采样算法,在所述语音帧序列对应的标注文本序列与解码器输出的当前预测文本序列之间按照预设概率进行计划采样,使得模型的训练过程和预测过程能够更加匹配,有效缓解上一时刻的输出预测文本的错误带来的误差累计。
可选的,本实施例中的预设概率根据解码器输出的预测文本序列的准确率确定。例如,如果预测文本序列的准确率比较低的时候,对该预测文本序列的采样概率较小,对标注文本序列的采样概率较大,从而能够保证在训练过程中引入的错误的预测文本不会过多,仍能够保证模型输出正确的预测结果。
可选的,根据解码器输出的预测文本序列的准确率的大小,按照正比关系确定采样预测文本序列的预设概率,按照反比关系确定采样标注文本序列的预设概率。例如,当预测文本序列的准确率低于10%时,按照90%的采样概率在所述语音帧序列对应的标注文本序列与解码器输出的当前预测文本序列之间进行采样,假设标注文本序列和当前预测文本序列中文本的个数为100个,则按照90%的采样概率采样时,从标注文本序列中选取90个文本,从当前预测文本序列中选取10个文本,输入到编码器模型中进行解码;当预测文本序列的准确率高于90%时,按照10%的采样概率在所述语音帧序列对应的标注文本序列与解码器输出的预测文本序列之间进行采样,假设标注文本序列和当前预测文本序列中文本的个数为100个,则按照10%的采样概率采样时,从标注文本序列中选取10个文本,从当前预测文本序列中选取90个文本,输入到编码器模型中进行解码。
本实施例中可以采用自适应的调整机制,根据输出的预测文本的准确率从小到大的变化,对所述文本序列按照从小到大的预设概率进行采样,例如预测文本的准确率从0%-90%逐渐递增,可以按照0%-90%逐渐递增的采样概率进行采样,同时,对所述标注文本序列按照100%-10%逐渐递减的采样概率进行采样。
作为一种可选的实施方式,确定所述当前预测文本序列与对应的标注文本序列的接近程度满足预设值,及确定所述当前预测文本序列中的字错误率CER满足预设值时,结束对所述语音识别模型的训练。
本实施例中,可以使用交叉熵作为目标函数对上述模型训练到收敛,通过观测到的损失值,确定所述当前预测文本序列与对应的标注文本序列的接近程度满足预设值;由于使用交叉熵观测到的损失值虽然和最终输出的预测文本序列中的字或词的错误率强相关,但并没有对字错误率直接建模,因此本实施例中又使用最小词错误率(Minimum WordError Rate,MWER)准则作为目标函数的微调fine-tune网络,进一步对模型进行训练,确定所述当前预测文本序列中的字错误率(Character Error Rate,CER)满足预设值时结束训练,该MWER准则的好处是能够直接利用错词率CER优化上述模型的评价准则,从而能够直接根据错词率来作为模型训练结束的一个约束条件,有效提升模型性能。
本实施例中建模单元为音节,所述标注文本序列为标注的音节序列,所述预测文本序列为预测的音节序列。相比于汉字作为输出的预测文本序列,音节的好处是个数固定,建模粒度和汉字一样,不会存在词汇量不足的问题,外加语言模型时,性能的收益远大于汉字。
实施例2
基于相同的发明构思,本公开实施例还提供了一种语音识别模型的生成装置,由于该装置即是本公开实施例中的方法中的装置,并且该装置解决问题的原理与该方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
如图4所示,所述语音识别模型包括编码器和解码器,该装置包括:获取样本单元400、编码器训练单元401、解码器训练单元402,其中:
获取样本单元400,被配置为执行获取训练样本,每个训练样本包括语音帧序列及对应的标注文本序列;
编码器训练单元401,被配置为执行将所述语音帧序列作为所述编码器的输入特征,将所述语音帧序列的语音编码帧作为所述编码器的输出特征,对所述编码器进行训练;
解码器训练单元402,被配置为执行将所述语音编码帧作为所述解码器的输入特征,将所述语音帧序列对应的标注文本序列作为输出特征对解码器进行训练,得到当前预测文本序列,将所述语音编码帧作为所述解码器的输入特征,将所述语音帧序列对应的标注文本序列及所述当前预测文本序列按照预设概率采样后合并得到的序列作为输出特征,对所述解码器进行再次训练。
作为一种可能的实施方式,所述获取样本单元400具体被配置为执行:
获取语音信号并进行语音特征提取,得到初始语音帧序列;
对所述初始语音帧序列中语音帧进行拼帧,并下采样拼帧后的语音帧,得到语音帧序列。
作为一种可能的实施方式,所述预设概率根据所述解码器输出的预测文本序列的准确率确定。
作为一种可能的实施方式,所述解码器训练单元402具体被配置为执行:
根据解码器输出的预测文本序列的准确率的大小,按照正比关系确定采样预测文本序列的预设概率,按照反比关系确定采样标注文本序列的预设概率。
作为一种可能的实施方式,所述装置还包括完成训练单元被配置为执行:
确定所述当前预测文本序列与对应的标注文本序列的接近程度满足预设值,及确定所述当前预测文本序列中的字错误率CER满足预设值时,结束对所述语音识别模型的训练。
作为一种可能的实施方式,所述标注文本序列为标注的音节序列,所述预测文本序列为预测的音节序列。
实施例3
基于相同的发明构思,本公开实施例还提供了一种电子设备,由于该电子设备即是本公开实施例中的方法中的电子设备,并且该电子设备解决问题的原理与该方法相似,因此该电子设备的实施可以参见方法的实施,重复之处不再赘述。
如图5所示,该电子设备包括:
处理器500;
用于存储所述处理器500可执行指令的存储器501;
其中,所述处理器500被配置为执行所述指令,以实现如下步骤:
获取训练样本,每个训练样本包括语音帧序列及对应的标注文本序列;
将所述语音帧序列作为所述编码器的输入特征,将所述语音帧序列的语音编码帧作为所述编码器的输出特征,对所述编码器进行训练;
将所述语音编码帧作为所述解码器的输入特征,将所述语音帧序列对应的标注文本序列作为输出特征对解码器进行训练,得到当前预测文本序列,将所述语音编码帧作为所述解码器的输入特征,将所述语音帧序列对应的标注文本序列及所述当前预测文本序列按照预设概率采样后合并得到的序列作为输出特征,对所述解码器进行再次训练。
作为一种可能的实施方式,所述处理器500具体被配置为执行:
获取语音信号并进行语音特征提取,得到初始语音帧序列;
对所述初始语音帧序列中语音帧进行拼帧,并下采样拼帧后的语音帧,得到语音帧序列。
作为一种可能的实施方式,所述预设概率根据所述解码器输出的预测文本序列的准确率确定。
作为一种可能的实施方式,所述处理器500具体被配置为执行:
根据解码器输出的预测文本序列的准确率的大小,按照正比关系确定采样预测文本序列的预设概率,按照反比关系确定采样标注文本序列的预设概率。
作为一种可能的实施方式,所述处理器500具体还被配置为执行:
确定所述当前预测文本序列与对应的标注文本序列的接近程度满足预设值,及确定所述当前预测文本序列中的字错误率CER满足预设值时,结束对所述语音识别模型的训练。
作为一种可能的实施方式,所述标注文本序列为标注的音节序列,所述预测文本序列为预测的音节序列。
本实施例还提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:
获取训练样本,每个训练样本包括语音帧序列及对应的标注文本序列;
将所述语音帧序列作为所述编码器的输入特征,将所述语音帧序列的语音编码帧作为所述编码器的输出特征,对所述编码器进行训练;
将所述语音编码帧作为所述解码器的输入特征,将所述语音帧序列对应的标注文本序列作为输出特征对解码器进行训练,得到当前预测文本序列,将所述语音编码帧作为所述解码器的输入特征,将所述语音帧序列对应的标注文本序列及所述当前预测文本序列按照预设概率采样后合并得到的序列作为输出特征,对所述解码器进行再次训练。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样,倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内,则本公开也意图包含这些改动和变型在内。
Claims (10)
1.一种语音识别模型的生成方法,其特征在于,所述语音识别模型包括编码器和解码器,该方法包括:
获取训练样本,每个训练样本包括语音帧序列及对应的标注文本序列;
将所述语音帧序列作为所述编码器的输入特征,将所述语音帧序列的语音编码帧作为所述编码器的输出特征,对所述编码器进行训练;
将所述语音编码帧作为所述解码器的输入特征,将所述语音帧序列对应的标注文本序列作为输出特征对解码器进行训练,得到当前预测文本序列,将所述语音编码帧作为所述解码器的输入特征,将所述语音帧序列对应的标注文本序列及所述当前预测文本序列按照预设概率采样后合并得到的序列作为输出特征,对所述解码器进行再次训练。
2.根据权利要求1所述的方法,其特征在于,所述获取训练样本步骤包括:
获取语音信号并进行语音特征提取,得到初始语音帧序列;
对所述初始语音帧序列中语音帧进行拼帧,并下采样拼帧后的语音帧,得到语音帧序列。
3.根据权利要求1所述的方法,其特征在于,所述预设概率根据所述解码器输出的预测文本序列的准确率确定。
4.根据权利要求3所述的方法,其特征在于,所述根据所述解码器输出的预测文本序列的准确率确定所述预设概率步骤包括:
根据解码器输出的预测文本序列的准确率的大小,按照正比关系确定采样预测文本序列的预设概率,按照反比关系确定采样标注文本序列的预设概率。
5.根据权利要求1所述的方法,其特征在于,还包括:
确定所述当前预测文本序列与对应的标注文本序列的接近程度满足预设值,及确定所述当前预测文本序列中的字错误率CER满足预设值时,结束对所述语音识别模型的训练。
6.一种语音识别模型的生成装置,其特征在于,所述语音识别模型包括编码器和解码器,该装置包括:获取样本单元、编码器训练单元、解码器训练单元,其中:
获取样本单元,被配置为执行获取训练样本,每个训练样本包括语音帧序列及对应的标注文本序列;
编码器训练单元,被配置为执行将所述语音帧序列作为所述编码器的输入特征,将所述语音帧序列的语音编码帧作为所述编码器的输出特征,对所述编码器进行训练;
解码器训练单元,被配置为执行将所述语音编码帧作为所述解码器的输入特征,将所述语音帧序列对应的标注文本序列作为输出特征对解码器进行训练,得到当前预测文本序列,将所述语音编码帧作为所述解码器的输入特征,将所述语音帧序列对应的标注文本序列及所述当前预测文本序列按照预设概率采样后合并得到的序列作为输出特征,对所述解码器进行再次训练。
7.根据权利要求6所述的装置,其特征在于,所述获取样本单元具体被配置为执行:
获取语音信号并进行语音特征提取,得到初始语音帧序列;
对所述初始语音帧序列中语音帧进行拼帧,并下采样拼帧后的语音帧,得到语音帧序列。
8.根据权利要求6所述的装置,其特征在于,所述预设概率根据所述解码器输出的预测文本序列的准确率确定。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至5中任一所述的一种语音识别模型的生成方法。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~5任一所述的一种语音识别模型的生成方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910840757.4A CN110648658B (zh) | 2019-09-06 | 2019-09-06 | 一种语音识别模型的生成方法、装置及电子设备 |
US17/011,809 US20200402500A1 (en) | 2019-09-06 | 2020-09-03 | Method and device for generating speech recognition model and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910840757.4A CN110648658B (zh) | 2019-09-06 | 2019-09-06 | 一种语音识别模型的生成方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110648658A true CN110648658A (zh) | 2020-01-03 |
CN110648658B CN110648658B (zh) | 2022-04-08 |
Family
ID=68991627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910840757.4A Active CN110648658B (zh) | 2019-09-06 | 2019-09-06 | 一种语音识别模型的生成方法、装置及电子设备 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20200402500A1 (zh) |
CN (1) | CN110648658B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111402893A (zh) * | 2020-03-23 | 2020-07-10 | 北京达佳互联信息技术有限公司 | 语音识别模型确定方法、语音识别方法及装置、电子设备 |
CN111415667A (zh) * | 2020-03-25 | 2020-07-14 | 极限元(杭州)智能科技股份有限公司 | 一种流式端到端语音识别模型训练和解码方法 |
CN111696526A (zh) * | 2020-06-22 | 2020-09-22 | 北京达佳互联信息技术有限公司 | 语音识别模型的生成方法、语音识别方法、装置 |
CN111768764A (zh) * | 2020-06-23 | 2020-10-13 | 北京猎户星空科技有限公司 | 语音数据处理方法、装置、电子设备及介质 |
CN111783863A (zh) * | 2020-06-23 | 2020-10-16 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置、设备以及计算机可读存储介质 |
CN112086087A (zh) * | 2020-09-14 | 2020-12-15 | 广州市百果园信息技术有限公司 | 语音识别模型训练方法、语音识别方法及装置 |
CN112767917A (zh) * | 2020-12-31 | 2021-05-07 | 科大讯飞股份有限公司 | 语音识别方法、装置及存储介质 |
CN113129868A (zh) * | 2021-03-12 | 2021-07-16 | 北京百度网讯科技有限公司 | 获取语音识别模型的方法、语音识别的方法及对应装置 |
CN113205795A (zh) * | 2020-01-15 | 2021-08-03 | 普天信息技术有限公司 | 多语种混说语音的语种识别方法及装置 |
CN113362812A (zh) * | 2021-06-30 | 2021-09-07 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和电子设备 |
CN113571064A (zh) * | 2021-07-07 | 2021-10-29 | 肇庆小鹏新能源投资有限公司 | 自然语言理解方法及装置、交通工具及介质 |
CN113593539A (zh) * | 2020-04-30 | 2021-11-02 | 阿里巴巴集团控股有限公司 | 流式端到端语音识别方法、装置及电子设备 |
CN113674745A (zh) * | 2020-04-30 | 2021-11-19 | 京东数字科技控股有限公司 | 语音识别方法及装置 |
WO2024088262A1 (zh) * | 2022-10-27 | 2024-05-02 | 阿里巴巴达摩院(杭州)科技有限公司 | 语音识别模型的数据处理系统及方法、语音识别方法 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113096649B (zh) * | 2021-03-31 | 2023-12-22 | 平安科技(深圳)有限公司 | 语音预测方法、装置、电子设备和存储介质 |
CN113345424B (zh) * | 2021-05-31 | 2024-02-27 | 平安科技(深圳)有限公司 | 一种语音特征提取方法、装置、设备及存储介质 |
CN113327599B (zh) * | 2021-06-30 | 2023-06-02 | 北京有竹居网络技术有限公司 | 语音识别方法、装置、介质及电子设备 |
CN113327600A (zh) * | 2021-06-30 | 2021-08-31 | 北京有竹居网络技术有限公司 | 一种语音识别模型的训练方法、装置及设备 |
CN113257238B (zh) * | 2021-07-13 | 2021-10-01 | 北京世纪好未来教育科技有限公司 | 预训练模型的训练方法、编码特征获取方法及相关装置 |
CN113689846B (zh) * | 2021-10-27 | 2022-02-08 | 深圳市友杰智新科技有限公司 | 语音识别模型训练方法、装置、计算机设备和存储介质 |
CN114495114B (zh) * | 2022-04-18 | 2022-08-05 | 华南理工大学 | 基于ctc解码器的文本序列识别模型校准方法 |
KR102547001B1 (ko) * | 2022-06-28 | 2023-06-23 | 주식회사 액션파워 | 하향식 방식을 이용한 오류 검출 방법 |
CN116781417B (zh) * | 2023-08-15 | 2023-11-17 | 北京中电慧声科技有限公司 | 一种基于语音识别的抗破译语音交互方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030055630A1 (en) * | 1998-10-22 | 2003-03-20 | Washington University | Method and apparatus for a tunable high-resolution spectral estimator |
CN106328147A (zh) * | 2016-08-31 | 2017-01-11 | 中国科学技术大学 | 语音识别方法和装置 |
CN108777140A (zh) * | 2018-04-27 | 2018-11-09 | 南京邮电大学 | 一种非平行语料训练下基于vae的语音转换方法 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10672388B2 (en) * | 2017-12-15 | 2020-06-02 | Mitsubishi Electric Research Laboratories, Inc. | Method and apparatus for open-vocabulary end-to-end speech recognition |
JP6831343B2 (ja) * | 2018-02-01 | 2021-02-17 | 日本電信電話株式会社 | 学習装置、学習方法及び学習プログラム |
US11145293B2 (en) * | 2018-07-20 | 2021-10-12 | Google Llc | Speech recognition with sequence-to-sequence models |
US11107463B2 (en) * | 2018-08-01 | 2021-08-31 | Google Llc | Minimum word error rate training for attention-based sequence-to-sequence models |
US11194973B1 (en) * | 2018-11-12 | 2021-12-07 | Amazon Technologies, Inc. | Dialog response generation |
US11087739B1 (en) * | 2018-11-13 | 2021-08-10 | Amazon Technologies, Inc. | On-device learning in a hybrid speech processing system |
CN111429889B (zh) * | 2019-01-08 | 2023-04-28 | 百度在线网络技术(北京)有限公司 | 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质 |
US10861441B2 (en) * | 2019-02-14 | 2020-12-08 | Tencent America LLC | Large margin training for attention-based end-to-end speech recognition |
US11100920B2 (en) * | 2019-03-25 | 2021-08-24 | Mitsubishi Electric Research Laboratories, Inc. | System and method for end-to-end speech recognition with triggered attention |
US11538463B2 (en) * | 2019-04-12 | 2022-12-27 | Adobe Inc. | Customizable speech recognition system |
WO2020231522A1 (en) * | 2019-05-10 | 2020-11-19 | Google Llc | Using context information with end-to-end models for speech recognition |
US11217231B2 (en) * | 2019-06-19 | 2022-01-04 | Google Llc | Contextual biasing for speech recognition using grapheme and phoneme data |
US11651163B2 (en) * | 2019-07-22 | 2023-05-16 | Capital One Services, Llc | Multi-turn dialogue response generation with persona modeling |
KR20210014949A (ko) * | 2019-07-31 | 2021-02-10 | 삼성전자주식회사 | 음성 인식을 위한 인공신경망에서의 디코딩 방법 및 장치 |
CN110534095B (zh) * | 2019-08-22 | 2020-10-23 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
US11232782B2 (en) * | 2019-08-30 | 2022-01-25 | Microsoft Technology Licensing, Llc | Speaker adaptation for attention-based encoder-decoder |
US11551675B2 (en) * | 2019-09-03 | 2023-01-10 | Samsung Electronics Co., Ltd. | Electronic device and method for controlling the electronic device thereof |
US11373639B2 (en) * | 2019-12-12 | 2022-06-28 | Mitsubishi Electric Research Laboratories, Inc. | System and method for streaming end-to-end speech recognition with asynchronous decoders pruning prefixes using a joint label and frame information in transcribing technique |
KR20220130699A (ko) * | 2020-01-21 | 2022-09-27 | 구글 엘엘씨 | 심의 모델 기반 2패스 종단간 음성 인식 |
-
2019
- 2019-09-06 CN CN201910840757.4A patent/CN110648658B/zh active Active
-
2020
- 2020-09-03 US US17/011,809 patent/US20200402500A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030055630A1 (en) * | 1998-10-22 | 2003-03-20 | Washington University | Method and apparatus for a tunable high-resolution spectral estimator |
CN106328147A (zh) * | 2016-08-31 | 2017-01-11 | 中国科学技术大学 | 语音识别方法和装置 |
CN108777140A (zh) * | 2018-04-27 | 2018-11-09 | 南京邮电大学 | 一种非平行语料训练下基于vae的语音转换方法 |
Non-Patent Citations (3)
Title |
---|
LINHAO DONG ET AL.: "Speech-Transformer: A No-Recurrence Sequence-to-Sequence Model for Speech Recognition", 《2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 * |
SHIYU ZHOU ET AL: "Syllable-based sequence-to-sequence speech recognition with the transformer in mandarin Chinese", 《19TH ANNUAL CONFERENCE OF THE INTERNATIONAL-SPEECH-COMMUNICATION-ASSOCIATION (INTERSPEECH 2018)》 * |
YUANYUAN ZHAO ET AL: "The Speechtransformer for Large-scale Mandarin Chinese Speech Recognition", 《ICASSP 2019 - 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113205795A (zh) * | 2020-01-15 | 2021-08-03 | 普天信息技术有限公司 | 多语种混说语音的语种识别方法及装置 |
CN111402893A (zh) * | 2020-03-23 | 2020-07-10 | 北京达佳互联信息技术有限公司 | 语音识别模型确定方法、语音识别方法及装置、电子设备 |
CN111415667A (zh) * | 2020-03-25 | 2020-07-14 | 极限元(杭州)智能科技股份有限公司 | 一种流式端到端语音识别模型训练和解码方法 |
CN111415667B (zh) * | 2020-03-25 | 2024-04-23 | 中科极限元(杭州)智能科技股份有限公司 | 一种流式端到端语音识别模型训练和解码方法 |
CN113674745A (zh) * | 2020-04-30 | 2021-11-19 | 京东数字科技控股有限公司 | 语音识别方法及装置 |
CN113593539A (zh) * | 2020-04-30 | 2021-11-02 | 阿里巴巴集团控股有限公司 | 流式端到端语音识别方法、装置及电子设备 |
CN111696526A (zh) * | 2020-06-22 | 2020-09-22 | 北京达佳互联信息技术有限公司 | 语音识别模型的生成方法、语音识别方法、装置 |
CN111783863A (zh) * | 2020-06-23 | 2020-10-16 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置、设备以及计算机可读存储介质 |
CN111768764A (zh) * | 2020-06-23 | 2020-10-13 | 北京猎户星空科技有限公司 | 语音数据处理方法、装置、电子设备及介质 |
CN111768764B (zh) * | 2020-06-23 | 2024-01-19 | 北京猎户星空科技有限公司 | 语音数据处理方法、装置、电子设备及介质 |
CN112086087A (zh) * | 2020-09-14 | 2020-12-15 | 广州市百果园信息技术有限公司 | 语音识别模型训练方法、语音识别方法及装置 |
CN112086087B (zh) * | 2020-09-14 | 2024-03-12 | 广州市百果园信息技术有限公司 | 语音识别模型训练方法、语音识别方法及装置 |
CN112767917A (zh) * | 2020-12-31 | 2021-05-07 | 科大讯飞股份有限公司 | 语音识别方法、装置及存储介质 |
CN113129868A (zh) * | 2021-03-12 | 2021-07-16 | 北京百度网讯科技有限公司 | 获取语音识别模型的方法、语音识别的方法及对应装置 |
CN113129868B (zh) * | 2021-03-12 | 2022-02-25 | 北京百度网讯科技有限公司 | 获取语音识别模型的方法、语音识别的方法及对应装置 |
CN113362812A (zh) * | 2021-06-30 | 2021-09-07 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和电子设备 |
CN113362812B (zh) * | 2021-06-30 | 2024-02-13 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和电子设备 |
CN113571064A (zh) * | 2021-07-07 | 2021-10-29 | 肇庆小鹏新能源投资有限公司 | 自然语言理解方法及装置、交通工具及介质 |
CN113571064B (zh) * | 2021-07-07 | 2024-01-30 | 肇庆小鹏新能源投资有限公司 | 自然语言理解方法及装置、交通工具及介质 |
WO2024088262A1 (zh) * | 2022-10-27 | 2024-05-02 | 阿里巴巴达摩院(杭州)科技有限公司 | 语音识别模型的数据处理系统及方法、语音识别方法 |
Also Published As
Publication number | Publication date |
---|---|
US20200402500A1 (en) | 2020-12-24 |
CN110648658B (zh) | 2022-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110648658B (zh) | 一种语音识别模型的生成方法、装置及电子设备 | |
US10854193B2 (en) | Methods, devices and computer-readable storage media for real-time speech recognition | |
CN110246488B (zh) | 半优化CycleGAN模型的语音转换方法及装置 | |
WO2017076222A1 (zh) | 语音识别方法及装置 | |
CN110444203B (zh) | 语音识别方法、装置及电子设备 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
JP2023542685A (ja) | 音声認識方法、音声認識装置、コンピュータ機器、及びコンピュータプログラム | |
CN109147774B (zh) | 一种改进的延时神经网络声学模型 | |
US11322133B2 (en) | Expressive text-to-speech utilizing contextual word-level style tokens | |
CN114678032B (zh) | 一种训练方法、语音转换方法及装置和电子设备 | |
CN114360557A (zh) | 语音音色转换方法、模型训练方法、装置、设备和介质 | |
CN113327574A (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
CN113450758B (zh) | 语音合成方法、装置、设备及介质 | |
CN114283783A (zh) | 语音合成方法、模型训练方法、设备及存储介质 | |
US20230410794A1 (en) | Audio recognition method, method of training audio recognition model, and electronic device | |
CN114974218A (zh) | 语音转换模型训练方法及装置、语音转换方法及装置 | |
CN114512121A (zh) | 语音合成方法、模型训练方法及装置 | |
CN115424616A (zh) | 一种音频数据筛选方法、装置、设备及计算机可读介质 | |
CN115376547B (zh) | 发音评测方法、装置、计算机设备和存储介质 | |
CN113327596B (zh) | 语音识别模型的训练方法、语音识别方法和装置 | |
CN113035247B (zh) | 一种音频文本对齐方法、装置、电子设备及存储介质 | |
CN112420022B (zh) | 一种噪声提取方法、装置、设备和存储介质 | |
CN117219049A (zh) | 语音数据处理方法、装置、设备及存储介质 | |
CN117456996A (zh) | 语音识别方法及装置、存储介质、电子设备 | |
CN118057522A (zh) | 语音合成方法、模型训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |