CN116052674A - 基于预测未来帧的流式语音识别方法、系统和存储介质 - Google Patents
基于预测未来帧的流式语音识别方法、系统和存储介质 Download PDFInfo
- Publication number
- CN116052674A CN116052674A CN202211633480.6A CN202211633480A CN116052674A CN 116052674 A CN116052674 A CN 116052674A CN 202211633480 A CN202211633480 A CN 202211633480A CN 116052674 A CN116052674 A CN 116052674A
- Authority
- CN
- China
- Prior art keywords
- voice
- streaming
- frame
- voice recognition
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000002372 labelling Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 12
- 238000004088 simulation Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 8
- 239000002131 composite material Substances 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于预测未来帧的流式语音识别方法、系统和存储介质,包括:基于多个语音样本,对包含流式语音识别模块和非流式语音识别模块的预设语音识别模型进行训练,得到第一语音识别模型,并删除第一语音识别模型中的非流式语音识别模块,得到目标流式语音识别模型;其中,流式语音识别模块的第一编码器和非流式语音识别模块的第二编码器的参数相同,流式语音识别模块还包括:模拟编码器;模拟编码器用于:根据当前语音帧和历史语音帧生成预测未来语音帧;将待识别语音输入至目标流式语音识别模型,得到待识别语音的语音识别结果。本发明通过仅在增加少量模型参数的情况下,提高了模型识别速度,并实现了流式语音的识别。
Description
背景技术
众所周知,历史帧信息和未来帧信息对于提升语音识别准确率非常重要,在基于context sensitive chunk(CSC)的流式语音识别系统中,因为使用了历史帧和未来帧信息,目前研究中已经取得了不错的结果,但是由于模型需要等待所需未来帧信息的到来再结合未来帧的信息来进行结果推理产生当前的输出,故这类的流式识别方法仍存在至少未来帧信息时长的延迟。
因此,亟需提供一种技术方案解决上述技术问题。
发明内容
为解决上述技术问题,本发明提供了一种基于预测未来帧的流式语音识别方法、系统和存储介质。
本发明的一种基于预测未来帧的流式语音识别方法的技术方案如下:
基于多个语音样本,对包含流式语音识别模块和非流式语音识别模块的预设语音识别模型进行训练,得到第一语音识别模型,并删除所述第一语音识别模型中的所述非流式语音识别模块,得到目标流式语音识别模型;其中,所述流式语音识别模块的第一编码器和所述非流式语音识别模块的第二编码器的网络参数相同,所述流式语音识别模块还包括:模拟编码器;所述模拟编码器用于:根据输入的当前语音帧和历史语音帧生成预测未来语音帧,并将所述当前语音帧、所述历史语音帧和所述预测未来语音帧输入至所述第一编码器;
将待识别语音输入至所述目标流式语音识别模型,得到所述待识别语音对应的语音识别结果。
本发明的一种基于预测未来帧的流式语音识别方法的有益效果如下:
本发明的方法通过使用模拟编码器预测未来帧信息,仅在增加少量模型参数的情况下,提高了模型识别速度,并实现了流式语音的识别。
在上述方案的基础上,本发明的一种基于预测未来帧的流式语音识别方法还可以做如下改进。
进一步,还包括:
对每个语音样本进行标注,得到每个语音样本对应的语音标注信息。
进一步,所述基于多个语音样本,对包含流式语音识别模块和非流式语音识别模块的预设语音识别模型进行训练,得到第一语音识别模型的步骤,包括:
对每个语音样本分别进行特征提取,得到每个语音样本对应的语音特征序列;
将任一语音特征序列输入至所述流式语音识别模块,得到该语音特征序列的未来语音帧损失值和流式语音识别损失值,并将该语音特征序列输入至所述非流式语音识别模块,得到该语音特征序列的非流式语音识别损失值,并根据该语音特征序列的未来语音帧损失值、流式语音识别损失值和非流式语音识别损失值,得到该语音特征序列的目标损失值,直至得到每个语音特征序列的目标损失值;
基于所有的目标损失值,对所述预设语音识别模型进行优化,得到并将优化后的语音识别模型作为所述预设语音识别模型,并返回执行所述将任一语音特征序列输入至所述流式语音识别模块的步骤,直至所述优化后的语音识别模型满足预设迭代训练条件时,将所述优化后的语音识别模型确定为所述第一语音识别模型。
进一步,所述将任一语音特征序列输入至所述流式语音识别模块,得到该语音特征序列的未来语音帧损失值和流式语音识别损失值的步骤,包括:
对所述任一语音特征序列进行切分处理,得到该语音特征序列对应的帧长度相同的多个第一分块语音特征,并基于该语音特征序列的语音顺序,在该语音特征序列对应的首个第一分块语音特征之前和最后一个第一分块语音特征之后分别添加一个帧长度相同的空白分块语音特征;
将该语音特征序列的任一第一分块语音特征作为当前语音帧、该第一分块语音特征的前一个分块语音特征作为历史语音帧、该第一分块语音特征的后一个分块语音特征作为真实未来语音帧,并将所述当前语音帧和所述历史语音帧输入至所述模拟编码器,得到所述当前语音帧对应的帧长度相同的预测未来语音帧,将所述当前语音帧、所述历史语音帧和所述预测未来语音帧输入至所述第一编码器,得到所述当前语音帧对应的第一当前帧语音特征,直至将每个第一分块语音特征作为当前语音帧,得到该语音特征序列的每个第一分块语音特征对应的第一当前帧语音特征,并根据每个第一分块语音特征对应的真实未来语音帧和预测未来语音帧,得到该语音特征序列的未来语音帧损失值;
将所述任一语音特征序列的所有的第一当前帧语音特征进行拼接,得到并将该语音特征序列的第一目标语音特征输入至所述流式语音识别模块的第一CTC网络,得到该语音特征序列对应的第一语音识别结果,并根据该语音特征序列对应的第一语音识别结果和语音标注信息,得到该语音特征序列的流式语音识别损失值。
进一步,将所述任一语音特征序列输入至所述非流式语音识别模块,得到该语音特征序列的非流式语音识别损失值的步骤,包括:
对所述任一语音特征序列进行切分处理,得到该语音特征序列对应的帧长度相同的多个第二分块语音特征,并基于该语音特征序列的语音顺序,在该语音特征序列对应的首个第二分块语音特征之前和最后一个第二分块语音特征之后分别添加一个帧长度相同的空白分块语音特征;
将该语音特征序列的任一第二分块语音特征作为当前语音帧、该第二分块语音特征的前一个分块语音特征作为历史语音帧、该第二分块语音特征的后一个分块语音特征作为真实未来语音帧,并将所述当前语音帧、所述历史语音帧和所述真实未来语音帧输入至所述第二编码器,得到所述当前语音帧对应的第二当前帧语音特征,直至将每个第二分块语音特征作为当前语音帧,得到该语音特征序列的每个第二分块语音特征对应的第二当前帧语音特征;
将所述任一语音特征序列的所有的第二当前帧语音特征进行拼接,得到并将该语音特征序列的第二目标语音特征输入至所述非流式语音识别模块的第二CTC网络,得到该语音特征序列对应的第二语音识别结果,并根据该语音特征序列对应的第二语音识别结果和语音标注信息,得到该语音特征序列的非流式语音识别损失值。
进一步,根据所述任一语音特征序列的未来语音帧损失值、流式语音识别损失值和非流式语音识别损失值,得到该语音特征序列的目标损失值的步骤,包括:
基于预设损失函数公式、所述任一语音特征序列的未来语音帧损失值、流式语音识别损失值和非流式语音识别损失值,得到该语音特征序列的目标损失值;其中,所述预设损失函数公式为:Ltotal=Lstreaming+Lnon-streaming+αLsimulation,Ltotal为该语音特征序列的目标损失值,Lstreaming为该语音特征序列的流式语音识别损失值,Lnon-streaming为该语音特征序列的非流式语音识别损失值,Lsimulation为该语音特征序列的未来语音帧损失值,α为所述未来语音帧损失值的权重系数;Lstreaming=-logPCTC(y|z1),z1=softmax(Xout1),Xout1为该语音特征序列的第一目标语音特征,z1为该语音特征序列的第一语音识别结果,y为该语音特征序列的语音标注信息;Lnon-streaming=-logPCTC(y|z2),z2=softmax(Xout2),Xout2为该语音特征序列的第二目标语音特征,z2为该语音特征序列的第二语音识别结果;Lsimulation=L1loss(a1(x),a2(x)),a1(x)为该语音特征序列的预测未来语音帧,a2(x)为该语音特征序列的真实未来语音帧。
本发明的一种基于预测未来帧的流式语音识别系统的技术方案如下:
包括:训练模块和识别模块;
所述训练模块用于:基于多个语音样本,对包含流式语音识别模块和非流式语音识别模块的预设语音识别模型进行训练,得到第一语音识别模型,并删除所述第一语音识别模型中的所述非流式语音识别模块,得到目标流式语音识别模型;其中,所述流式语音识别模块的第一编码器和所述非流式语音识别模块的第二编码器的网络参数相同,所述流式语音识别模块还包括:模拟编码器;所述模拟编码器用于:根据输入的当前语音帧和历史语音帧生成预测未来语音帧,并将所述当前语音帧、所述历史语音帧和所述预测未来语音帧输入至所述第一编码器;
所述识别模块用于:将待识别语音输入至所述目标流式语音识别模型,得到所述待识别语音对应的语音识别结果。
本发明的一种基于预测未来帧的流式语音识别系统的有益效果如下:
本发明的系统通过使用模拟编码器预测未来帧信息,仅在增加少量模型参数的情况下,提高了模型识别速度,并实现了流式语音的识别。
在上述方案的基础上,本发明的一种基于预测未来帧的流式语音识别系统还可以做如下改进。
进一步,还包括:处理模块;
所述处理模块用于:对每个语音样本进行标注,得到每个语音样本对应的语音标注信息。
进一步,所述训练模块包括:特征提取模块、模型训练模块和模型优化模块;
所述特征提取模块用于:对每个语音样本分别进行特征提取,得到每个语音样本对应的语音特征序列;
所述模型训练模块用于:将任一语音特征序列输入至所述流式语音识别模块,得到该语音特征序列的未来语音帧损失值和流式语音识别损失值,并将该语音特征序列输入至所述非流式语音识别模块,得到该语音特征序列的非流式语音识别损失值,并根据该语音特征序列的未来语音帧损失值、流式语音识别损失值和非流式语音识别损失值,得到该语音特征序列的目标损失值,直至得到每个语音特征序列的目标损失值;
所述模型优化模块用于:基于所有的目标损失值,对所述预设语音识别模型进行优化,得到并将优化后的语音识别模型作为所述预设语音识别模型,并返回调用所述模型训练模块,直至所述优化后的语音识别模型满足预设迭代训练条件时,将所述优化后的语音识别模型确定为所述第一语音识别模型。
本发明的一种存储介质的技术方案如下:
存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如本发明的一种基于预测未来帧的流式语音识别方法的步骤。
附图说明
图1示出了本发明提供的一种基于预测未来帧的流式语音识别方法的实施例的流程示意图;
图2示出了本发明提供的一种基于预测未来帧的流式语音识别系统的实施例的结构示意图。
具体实施方式
图1示出了本发明提供的一种基于预测未来帧的流式语音识别方法的实施例的流程示意图。如图1所示,包括如下步骤:
步骤110:基于多个语音样本,对包含流式语音识别模块和非流式语音识别模块的预设语音识别模型进行训练,得到第一语音识别模型,并删除第一语音识别模型中的非流式语音识别模块,得到目标流式语音识别模型。
其中,①语音样本为:随机选取的语音数据。②流式语音识别模块包括:依次连接设置的语音特征切分模块、模拟编码器、第一编码器、语音特征拼接模块和第一CTC网络。③非流式语音识别模块包括:依次连接设置的语音特征切分模块、第二编码器、语音特征拼接模块和第二CTC网络。④第一语音识别模型为:经过语音样本对预设语音识别模型进行训练后所得到的语音模型,该模型中包含流式语音识别模块和非流式语音识别模块。⑤目标流式语音识别模型为:仅包含训练好的流式语音识别模块的模型。⑥第一编码器和第二编码器的网络参数相同。⑦模拟编码器用于:根据输入的当前语音帧和历史语音帧生成预测未来语音帧,并将当前语音帧、历史语音帧和预测未来语音帧输入至第一编码器。
具体地,基于多个语音样本,对包含流式语音识别模块和非流式语音识别模块的预设语音识别模型进行迭代训练,直至满足预设迭代训练条件时,得到第一语音识别模型,并删除第一语音识别模型中的非流式语音识别模块,得到目标流式语音识别模型。
步骤120:将待识别语音输入至目标流式语音识别模型,得到待识别语音对应的语音识别结果。
其中,①待识别语音为:需要进行识别的语音数据,该语音的内容、时长不设限制。②语音识别结果为:待识别语音对应的转译文本,该文本为预测值。
具体地,将待识别语音输入至目标流式语音识别模型中进行语音识别,得到待识别语音对应的转译文本。
较优地,还包括:
对每个语音样本进行标注,得到每个语音样本对应的语音标注信息。
其中,语音标注信息为:语音样本对应的文本信息,该文本为真实值。
具体地,对任一语音样本进行标注,得到该语音样本对应的真实文本信息,重复上述过程,直至得到每个语音样本对应的真实文本信息。
较优地,基于多个语音样本,对包含流式语音识别模块和非流式语音识别模块的预设语音识别模型进行训练,得到第一语音识别模型的步骤,包括:
对每个语音样本分别进行特征提取,得到每个语音样本对应的语音特征序列。
其中,语音特征序列为:Fbank特征,而语音样本默认为:wav音频文件,也可以是其他格式的音频文件,在此不设限制。
具体地,对任一语音样本进行特征提取,得到该语音样本对应的Fbank特征,重复上述过程,直至得到每个语音样本对应的Fbank特征。
将任一语音特征序列输入至所述流式语音识别模块,得到该语音特征序列的未来语音帧损失值和流式语音识别损失值,并将该语音特征序列输入至所述非流式语音识别模块,得到该语音特征序列的非流式语音识别损失值,并根据该语音特征序列的未来语音帧损失值、流式语音识别损失值和非流式语音识别损失值,得到该语音特征序列的目标损失值,直至得到每个语音特征序列的目标损失值。
其中,①未来语音帧损失值为:每个当前语音帧对应的真实未来语音帧与预测未来语音帧之间的损失值。②流式语音识别损失值为:语音特征序列输入流式语音识别模块后所输出的语音识别预测值与真实值之间的损失。③非流式语音识别损失值为:语音特征序列输入非流式语音识别模块后所输出的语音识别预测值与真实值之间的损失。④目标损失值为:语音特征序列的总损失值。
基于所有的目标损失值,对预设语音识别模型进行优化,得到并将优化后的语音识别模型作为预设语音识别模型,并返回执行将任一语音特征序列输入至所述流式语音识别模块的步骤,直至优化后的语音识别模型满足预设迭代训练条件时,将优化后的语音识别模型确定为第一语音识别模型。
具体地,基于所有的目标损失值,对预设语音识别模型进行优化,得到优化后的语音识别模型,并判断优化后的语音识别模型是否满足预设迭代训练条件;若否,则将优化后的语音识别模型作为预设语音识别模型,并返回执行将任一语音特征序列输入至所述流式语音识别模块的步骤,直至优化后的语音识别模型满足预设迭代训练条件时,将优化后的语音识别模型确定为第一语音识别模型;若是,则直接将优化后的语音识别模型确定为第一语音识别模型。
较优地,将任一语音特征序列输入至所述流式语音识别模块,得到该语音特征序列的未来语音帧损失值和流式语音识别损失值的步骤,包括:
对任一语音特征序列进行切分处理,得到该语音特征序列对应的帧长度相同的多个第一分块语音特征,并基于该语音特征序列的语音顺序,在该语音特征序列对应的首个第一分块语音特征之前和最后一个第一分块语音特征之后分别添加一个帧长度相同的空白分块语音特征。
其中,①使用chunk的方式对语音特征序列进行切分。②第一分块语音特征为:语音特征序列经过切分处理后所得到的语音特,每个第一分块语音特征的帧长度相同。②空白分块语音特征为:帧长度与第一分块语音特征相同,但并不包含任何语音数据的语音特征,可称为空白帧。
需要说明的是,①chunk可以理解一个类似“划窗窗口”的作用,音频特征会以特征向量的形式作为网络输入,但是全部的特征向量是量级非常大的,所以选择用一个chunk的设计方式限制输入的大小。Chunk的大小是越大越好,chunk越大,网络单次获取到的音频信息越多,但相应的计算量也会随之增多,对显存的要求也会越多,故chunk的最终大小的上限值是由训练机器的显存大小决定的。②空白分块语音特征的作用为:由于当前语音帧为任一第一分块语音特征,若当前语音帧为首个第一分块语音特征时,其所对应的历史语音帧并不存在,所以在首个第一分块语音特征之前,添加一个空白分块语音特征,目的是更好地进行后续处理;同理,在最后一个第一分块语音特征后面添加一个空白分块语音特征。
将该语音特征序列的任一第一分块语音特征作为当前语音帧、该第一分块语音特征的前一个分块语音特征作为历史语音帧、该第一分块语音特征的后一个分块语音特征作为真实未来语音帧,并将当前语音帧和历史语音帧输入至模拟编码器,得到当前语音帧对应的帧长度相同的预测未来语音帧,将当前语音帧、历史语音帧和预测未来语音帧输入至第一编码器,得到当前语音帧对应的第一当前帧语音特征,直至将每个第一分块语音特征作为当前语音帧,得到该语音特征序列的每个第一分块语音特征对应的第一当前帧语音特征,并根据每个第一分块语音特征对应的真实未来语音帧和预测未来语音帧,得到该语音特征序列的未来语音帧损失值。
其中,模拟编码器为GRU网络,其原理为:首先使用一个三层的GRU网络(合成编码器),GRU网络的最后一个隐藏层状态会被送入至一个合成预测器,生成指定长度的未来帧。
需要说明的是,①隐藏层状态包含有关先前输入的信息(历史语音帧和当前语音帧)。可以理解为从该语音的最开始到当前的输入时刻的这个时间段,网络所获取到的隐藏的特征信息,用于作为合成预测器的输入。②合成预测器利用矩阵变换、计算,将隐藏状态矩阵转换成指定维度的输出,这里的输出内容形式和当前语音帧一样,只不过是预测出来的预测未来语音帧。
将所述任一语音特征序列的所有的第一当前帧语音特征进行拼接,得到并将该语音特征序列的第一目标语音特征输入至所述流式语音识别模块的第一CTC网络,得到该语音特征序列对应的第一语音识别结果,并根据该语音特征序列对应的第一语音识别结果和语音标注信息,得到该语音特征序列的流式语音识别损失值。
其中,第一CTC网络为:流式语音识别模块中的CTC网络。CTC网络中包含有解码器,其功能相当于字典(中文字级别的映射表)。由于第一目标语音特征是一个长度为音频帧长度,宽度为字典行数加一的高纬度特征矩阵。
需要说明的是,除中文语音识别外,本实施例还可以是英文或其他任意语言的语音识别,在此不设限制。
较优地,将任一语音特征序列输入至所述非流式语音识别模块,得到该语音特征序列的非流式语音识别损失值的步骤,包括:
对任一语音特征序列进行切分处理,得到该语音特征序列对应的帧长度相同的多个第二分块语音特征,并基于该语音特征序列的语音顺序,在该语音特征序列对应的首个第二分块语音特征之前和最后一个第二分块语音特征之后分别添加一个帧长度相同的空白分块语音特征。
将该语音特征序列的任一第二分块语音特征作为当前语音帧、该第二分块语音特征的前一个分块语音特征作为历史语音帧、该第二分块语音特征的后一个分块语音特征作为真实未来语音帧,并将当前语音帧、历史语音帧和真实未来语音帧输入至第二编码器,得到当前语音帧对应的第二当前帧语音特征,直至将每个第二分块语音特征作为当前语音帧,得到该语音特征序列的每个第二分块语音特征对应的第二当前帧语音特征。
将任一语音特征序列的所有的第二当前帧语音特征进行拼接,得到并将该语音特征序列的第二目标语音特征输入至非流式语音识别模块的第二CTC网络,得到该语音特征序列对应的第二语音识别结果,并根据该语音特征序列对应的第二语音识别结果和语音标注信息,得到该语音特征序列的非流式语音识别损失值。
需要说明的是,①非流式语音识别模块与流式语音识别模块的区别在于:非流式语音识别模块的第二编码器的输入为当前语音帧、历史语音帧和真实未来语音帧,并非预测未来语音帧。②非流式语音识别模块的第二编码器与流式语音识别模块的第一编码器的网络参数相同。
较优地,根据任一语音特征序列的未来语音帧损失值、流式语音识别损失值和非流式语音识别损失值,得到该语音特征序列的目标损失值的步骤,包括:
基于预设损失函数公式、任一语音特征序列的未来语音帧损失值、流式语音识别损失值和非流式语音识别损失值,得到该语音特征序列的目标损失值。
其中,①预设损失函数公式为:Ltotal=Lstreaming+Lnon-streaming+αLsimulation,Ltotal为该语音特征序列的目标损失值,Lstreaming为该语音特征序列的流式语音识别损失值,Lnon-streaming为该语音特征序列的非流式语音识别损失值,Lsimulation为该语音特征序列的未来语音帧损失值,α为未来语音帧损失值的权重系数;Lstreaming=-logPCTC(y|z1),z1=softmax(Xout1),Xout1为该语音特征序列的第一目标语音特征,z1为该语音特征序列的第一语音识别结果,y为该语音特征序列的语音标注信息;Lnon-streaming=-logPCTC(y|z2),z2=softmax(Xout2),Xout2为该语音特征序列的第二目标语音特征,z2为该语音特征序列的第二语音识别结果;Lsimulation=L1loss(a1(x),a2(x)),a1(x)为该语音特征序列的预测未来语音帧,a2(x)为该语音特征序列的真实未来语音帧。
本实施例的技术方案通过使用模拟编码器预测未来帧信息,仅在增加少量模型参数的情况下,提高了模型识别速度,并实现了流式语音的识别。
图2示出了本发明提供的一种基于预测未来帧的流式语音识别系统的实施例的结构示意图。如图2所示,该系统200包括:训练模块210和识别模块220;
所述训练模块210用于:基于多个语音样本,对包含流式语音识别模块和非流式语音识别模块的预设语音识别模型进行训练,得到第一语音识别模型,并删除所述第一语音识别模型中的所述非流式语音识别模块,得到目标流式语音识别模型;其中,所述流式语音识别模块的第一编码器和所述非流式语音识别模块的第二编码器的网络参数相同,所述流式语音识别模块还包括:模拟编码器;所述模拟编码器用于:根据输入的当前语音帧和历史语音帧生成预测未来语音帧,并将所述当前语音帧、所述历史语音帧和所述预测未来语音帧输入至所述第一编码器;
所述识别模块220用于:将待识别语音输入至所述目标流式语音识别模型,得到所述待识别语音对应的语音识别结果。
较优地,还包括:处理模块;
所述处理模块用于:对每个语音样本进行标注,得到每个语音样本对应的语音标注信息。
较优地,所述训练模块210包括:特征提取模块、模型训练模块和模型优化模块;
所述特征提取模块用于:对每个语音样本分别进行特征提取,得到每个语音样本对应的语音特征序列;
所述模型训练模块用于:将任一语音特征序列输入至所述流式语音识别模块,得到该语音特征序列的未来语音帧损失值和流式语音识别损失值,并将该语音特征序列输入至所述非流式语音识别模块,得到该语音特征序列的非流式语音识别损失值,并根据该语音特征序列的未来语音帧损失值、流式语音识别损失值和非流式语音识别损失值,得到该语音特征序列的目标损失值,直至得到每个语音特征序列的目标损失值;
所述模型优化模块用于:基于所有的目标损失值,对所述预设语音识别模型进行优化,得到并将优化后的语音识别模型作为所述预设语音识别模型,并返回调用所述模型训练模块,直至所述优化后的语音识别模型满足预设迭代训练条件时,将所述优化后的语音识别模型确定为所述第一语音识别模型。
本实施例的技术方案通过使用模拟编码器预测未来帧信息,仅在增加少量模型参数的情况下,提高了模型识别速度,并实现了流式语音的识别。
上述关于本实施例的一种基于预测未来帧的流式语音识别系统200中的各参数和各个模块实现相应功能的步骤,可参考上文中关于一种基于预测未来帧的流式语音识别方法的实施例中的各参数和步骤,在此不做赘述。
本发明实施例提供的一种存储介质,包括:存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如一种基于预测未来帧的流式语音识别方法的步骤,具体可参考上文中一种基于预测未来帧的流式语音识别方法的实施例中的各参数和步骤,在此不做赘述。
计算机存储介质例如:优盘、移动硬盘等。
所属技术领域的技术人员知道,本发明可以实现为方法、系统和存储介质。
因此,本发明可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM),只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于预测未来帧的流式语音识别方法,其特征在于,包括:
基于多个语音样本,对包含流式语音识别模块和非流式语音识别模块的预设语音识别模型进行训练,得到第一语音识别模型,并删除所述第一语音识别模型中的所述非流式语音识别模块,得到目标流式语音识别模型;其中,所述流式语音识别模块的第一编码器和所述非流式语音识别模块的第二编码器的网络参数相同,所述流式语音识别模块还包括:模拟编码器;所述模拟编码器用于:根据输入的当前语音帧和历史语音帧生成预测未来语音帧,并将所述当前语音帧、所述历史语音帧和所述预测未来语音帧输入至所述第一编码器;
将待识别语音输入至所述目标流式语音识别模型,得到所述待识别语音对应的语音识别结果。
2.根据权利要求1所述的基于预测未来帧的流式语音识别方法,其特征在于,还包括:
对每个语音样本进行标注,得到每个语音样本对应的语音标注信息。
3.根据权利要求2所述的基于预测未来帧的流式语音识别方法,其特征在于,所述基于多个语音样本,对包含流式语音识别模块和非流式语音识别模块的预设语音识别模型进行训练,得到第一语音识别模型的步骤,包括:
对每个语音样本分别进行特征提取,得到每个语音样本对应的语音特征序列;
将任一语音特征序列输入至所述流式语音识别模块,得到该语音特征序列的未来语音帧损失值和流式语音识别损失值,并将该语音特征序列输入至所述非流式语音识别模块,得到该语音特征序列的非流式语音识别损失值,并根据该语音特征序列的未来语音帧损失值、流式语音识别损失值和非流式语音识别损失值,得到该语音特征序列的目标损失值,直至得到每个语音特征序列的目标损失值;
基于所有的目标损失值,对所述预设语音识别模型进行优化,得到并将优化后的语音识别模型作为所述预设语音识别模型,并返回执行所述将任一语音特征序列输入至所述流式语音识别模块的步骤,直至所述优化后的语音识别模型满足预设迭代训练条件时,将所述优化后的语音识别模型确定为所述第一语音识别模型。
4.根据权利要求3所述的基于预测未来帧的流式语音识别方法,其特征在于,所述将任一语音特征序列输入至所述流式语音识别模块,得到该语音特征序列的未来语音帧损失值和流式语音识别损失值的步骤,包括:
对所述任一语音特征序列进行切分处理,得到该语音特征序列对应的帧长度相同的多个第一分块语音特征,并基于该语音特征序列的语音顺序,在该语音特征序列对应的首个第一分块语音特征之前和最后一个第一分块语音特征之后分别添加一个帧长度相同的空白分块语音特征;
将该语音特征序列的任一第一分块语音特征作为当前语音帧、该第一分块语音特征的前一个分块语音特征作为历史语音帧、该第一分块语音特征的后一个分块语音特征作为真实未来语音帧,并将所述当前语音帧和所述历史语音帧输入至所述模拟编码器,得到所述当前语音帧对应的帧长度相同的预测未来语音帧,将所述当前语音帧、所述历史语音帧和所述预测未来语音帧输入至所述第一编码器,得到所述当前语音帧对应的第一当前帧语音特征,直至将每个第一分块语音特征作为当前语音帧,得到该语音特征序列的每个第一分块语音特征对应的第一当前帧语音特征,并根据每个第一分块语音特征对应的真实未来语音帧和预测未来语音帧,得到该语音特征序列的未来语音帧损失值;
将所述任一语音特征序列的所有的第一当前帧语音特征进行拼接,得到并将该语音特征序列的第一目标语音特征输入至所述流式语音识别模块的第一CTC网络,得到该语音特征序列对应的第一语音识别结果,并根据该语音特征序列对应的第一语音识别结果和语音标注信息,得到该语音特征序列的流式语音识别损失值。
5.根据权利要求4所述的基于预测未来帧的流式语音识别方法,其特征在于,将所述任一语音特征序列输入至所述非流式语音识别模块,得到该语音特征序列的非流式语音识别损失值的步骤,包括:
对所述任一语音特征序列进行切分处理,得到该语音特征序列对应的帧长度相同的多个第二分块语音特征,并基于该语音特征序列的语音顺序,在该语音特征序列对应的首个第二分块语音特征之前和最后一个第二分块语音特征之后分别添加一个帧长度相同的空白分块语音特征;
将该语音特征序列的任一第二分块语音特征作为当前语音帧、该第二分块语音特征的前一个分块语音特征作为历史语音帧、该第二分块语音特征的后一个分块语音特征作为真实未来语音帧,并将所述当前语音帧、所述历史语音帧和所述真实未来语音帧输入至所述第二编码器,得到所述当前语音帧对应的第二当前帧语音特征,直至将每个第二分块语音特征作为当前语音帧,得到该语音特征序列的每个第二分块语音特征对应的第二当前帧语音特征;
将所述任一语音特征序列的所有的第二当前帧语音特征进行拼接,得到并将该语音特征序列的第二目标语音特征输入至所述非流式语音识别模块的第二CTC网络,得到该语音特征序列对应的第二语音识别结果,并根据该语音特征序列对应的第二语音识别结果和语音标注信息,得到该语音特征序列的非流式语音识别损失值。
6.根据权利要求5所述的基于预测未来帧的流式语音识别方法,其特征在于,根据所述任一语音特征序列的未来语音帧损失值、流式语音识别损失值和非流式语音识别损失值,得到该语音特征序列的目标损失值的步骤,包括:
基于预设损失函数公式、所述任一语音特征序列的未来语音帧损失值、流式语音识别损失值和非流式语音识别损失值,得到该语音特征序列的目标损失值;其中,所述预设损失函数公式为:Ltotal=Lstreaming+Lnon-streaming+αLsimulation,Ltotal为该语音特征序列的目标损失值,Lstreaming为该语音特征序列的流式语音识别损失值,Lnon-streaming为该语音特征序列的非流式语音识别损失值,Lsimulation为该语音特征序列的未来语音帧损失值,α为所述未来语音帧损失值的权重系数;Lstreaming=-logPCTC(y|z1),z1=softmax(Xout1),Xout1为该语音特征序列的第一目标语音特征,z1为该语音特征序列的第一语音识别结果,y为该语音特征序列的语音标注信息;Lnon-streaming=-logPCTC(y|z2),z2=softmax(Xout2),Xout2为该语音特征序列的第二目标语音特征,z2为该语音特征序列的第二语音识别结果;Lsimulation=L1loss(a1(x),a2(x)),a1(x)为该语音特征序列的预测未来语音帧,a2(x)为该语音特征序列的真实未来语音帧。
7.一种基于预测未来帧的流式语音识别系统,其特征在于,包括:训练模块和识别模块;
所述训练模块用于:基于多个语音样本,对包含流式语音识别模块和非流式语音识别模块的预设语音识别模型进行训练,得到第一语音识别模型,并删除所述第一语音识别模型中的所述非流式语音识别模块,得到目标流式语音识别模型;其中,所述流式语音识别模块的第一编码器和所述非流式语音识别模块的第二编码器的网络参数相同,所述流式语音识别模块还包括:模拟编码器;所述模拟编码器用于:根据输入的当前语音帧和历史语音帧生成预测未来语音帧,并将所述当前语音帧、所述历史语音帧和所述预测未来语音帧输入至所述第一编码器;
所述识别模块用于:将待识别语音输入至所述目标流式语音识别模型,得到所述待识别语音对应的语音识别结果。
8.根据权利要求7所述的基于预测未来帧的流式语音识别系统,其特征在于,还包括:处理模块;
所述处理模块用于:对每个语音样本进行标注,得到每个语音样本对应的语音标注信息。
9.根据权利要求8所述的基于预测未来帧的流式语音识别系统,其特征在于,所述训练模块包括:特征提取模块、模型训练模块和模型优化模块;
所述特征提取模块用于:对每个语音样本分别进行特征提取,得到每个语音样本对应的语音特征序列;
所述模型训练模块用于:将任一语音特征序列输入至所述流式语音识别模块,得到该语音特征序列的未来语音帧损失值和流式语音识别损失值,并将该语音特征序列输入至所述非流式语音识别模块,得到该语音特征序列的非流式语音识别损失值,并根据该语音特征序列的未来语音帧损失值、流式语音识别损失值和非流式语音识别损失值,得到该语音特征序列的目标损失值,直至得到每个语音特征序列的目标损失值;
所述模型优化模块用于:基于所有的目标损失值,对所述预设语音识别模型进行优化,得到并将优化后的语音识别模型作为所述预设语音识别模型,并返回调用所述模型训练模块,直至所述优化后的语音识别模型满足预设迭代训练条件时,将所述优化后的语音识别模型确定为所述第一语音识别模型。
10.一种存储介质,其特征在于,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如权利要求1至6中任一项所述的基于预测未来帧的流式语音识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211633480.6A CN116052674B (zh) | 2022-12-19 | 2022-12-19 | 基于预测未来帧的流式语音识别方法、系统和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211633480.6A CN116052674B (zh) | 2022-12-19 | 2022-12-19 | 基于预测未来帧的流式语音识别方法、系统和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116052674A true CN116052674A (zh) | 2023-05-02 |
CN116052674B CN116052674B (zh) | 2023-06-09 |
Family
ID=86123189
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211633480.6A Active CN116052674B (zh) | 2022-12-19 | 2022-12-19 | 基于预测未来帧的流式语音识别方法、系统和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116052674B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021117844A1 (en) * | 2019-12-12 | 2021-06-17 | Mitsubishi Electric Corporation | System and method for streaming end-to-end speech recognition with asynchronous decoders |
CN113327603A (zh) * | 2021-06-08 | 2021-08-31 | 广州虎牙科技有限公司 | 语音识别方法、装置、电子设备和计算机可读存储介质 |
CN113823272A (zh) * | 2021-06-02 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置、电子设备以及存储介质 |
CN114067800A (zh) * | 2021-04-28 | 2022-02-18 | 北京有竹居网络技术有限公司 | 语音识别方法、装置和电子设备 |
US20220068265A1 (en) * | 2020-11-18 | 2022-03-03 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method for displaying streaming speech recognition result, electronic device, and storage medium |
CN114898742A (zh) * | 2022-04-26 | 2022-08-12 | 北京百度网讯科技有限公司 | 流式语音识别模型的训练方法、装置、设备和存储介质 |
CN115019785A (zh) * | 2022-05-24 | 2022-09-06 | 中国科学院自动化研究所 | 流式语音识别方法、装置、电子设备及存储介质 |
CN115273830A (zh) * | 2022-07-22 | 2022-11-01 | 阿里巴巴达摩院(杭州)科技有限公司 | 流式语音识别及模型训练的方法、装置及设备 |
CN115312043A (zh) * | 2022-07-15 | 2022-11-08 | 清华大学 | 语音识别方法、装置、计算机设备和存储介质 |
CN115376491A (zh) * | 2022-07-06 | 2022-11-22 | 北京数美时代科技有限公司 | 一种语音置信度计算方法、系统、电子设备及介质 |
-
2022
- 2022-12-19 CN CN202211633480.6A patent/CN116052674B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021117844A1 (en) * | 2019-12-12 | 2021-06-17 | Mitsubishi Electric Corporation | System and method for streaming end-to-end speech recognition with asynchronous decoders |
US20220068265A1 (en) * | 2020-11-18 | 2022-03-03 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method for displaying streaming speech recognition result, electronic device, and storage medium |
CN114067800A (zh) * | 2021-04-28 | 2022-02-18 | 北京有竹居网络技术有限公司 | 语音识别方法、装置和电子设备 |
CN113823272A (zh) * | 2021-06-02 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置、电子设备以及存储介质 |
CN113327603A (zh) * | 2021-06-08 | 2021-08-31 | 广州虎牙科技有限公司 | 语音识别方法、装置、电子设备和计算机可读存储介质 |
CN114898742A (zh) * | 2022-04-26 | 2022-08-12 | 北京百度网讯科技有限公司 | 流式语音识别模型的训练方法、装置、设备和存储介质 |
CN115019785A (zh) * | 2022-05-24 | 2022-09-06 | 中国科学院自动化研究所 | 流式语音识别方法、装置、电子设备及存储介质 |
CN115376491A (zh) * | 2022-07-06 | 2022-11-22 | 北京数美时代科技有限公司 | 一种语音置信度计算方法、系统、电子设备及介质 |
CN115312043A (zh) * | 2022-07-15 | 2022-11-08 | 清华大学 | 语音识别方法、装置、计算机设备和存储介质 |
CN115273830A (zh) * | 2022-07-22 | 2022-11-01 | 阿里巴巴达摩院(杭州)科技有限公司 | 流式语音识别及模型训练的方法、装置及设备 |
Non-Patent Citations (2)
Title |
---|
FEIPENG LI: "Subband hybrid feature for multi-stream speech recognition", 《2014 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS,SPEECH AND SIGNAL PROCESSING》 * |
胡恒博: "基于深度学习的语音关键词识别技术研究", 《中国优秀硕士学位论文全文数据库》 * |
Also Published As
Publication number | Publication date |
---|---|
CN116052674B (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110349564B (zh) | 一种跨语言语音识别方法和装置 | |
CN111402891B (zh) | 语音识别方法、装置、设备和存储介质 | |
CN113327575B (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
CN112217947B (zh) | 客服电话语音转录文本方法、系统、设备及存储介质 | |
CN111414745A (zh) | 文本标点确定方法与装置、存储介质、电子设备 | |
CN114360557A (zh) | 语音音色转换方法、模型训练方法、装置、设备和介质 | |
CN112331207B (zh) | 服务内容监控方法、装置、电子设备和存储介质 | |
CN111753524A (zh) | 文本断句位置的识别方法及系统、电子设备及存储介质 | |
CN114495904B (zh) | 语音识别方法以及装置 | |
CN115391512A (zh) | 一种对话语言模型的训练方法、装置、设备及存储介质 | |
CN110767217B (zh) | 音频分割方法、系统、电子设备和存储介质 | |
CN112256932B (zh) | 一种地址字符串的分词方法及装置 | |
CN116052674B (zh) | 基于预测未来帧的流式语音识别方法、系统和存储介质 | |
CN113160820A (zh) | 语音识别的方法、语音识别模型的训练方法、装置及设备 | |
CN115831094B (zh) | 一种多语种语音识别方法、系统、存储介质和电子设备 | |
CN115457942A (zh) | 基于混合专家模型的端到端的多语言语音识别方法 | |
CN111724810A (zh) | 一种音频分类方法和装置 | |
CN115881102A (zh) | 一种数据短缺场景下的语音识别方法、系统和存储介质 | |
CN114220415A (zh) | 一种音频合成方法、装置、电子设备及存储介质 | |
CN113920987A (zh) | 一种语音识别的方法、装置、设备及存储介质 | |
CN111899729A (zh) | 一种语音模型的训练方法、装置、服务器和存储介质 | |
CN113823271A (zh) | 语音分类模型的训练方法、装置、计算机设备及存储介质 | |
JP7570760B2 (ja) | 音声認識方法、音声認識装置、コンピュータ機器、及びコンピュータプログラム | |
CN112287673B (zh) | 一种基于深度学习来实现语音导航机器人的方法 | |
CN118446271B (zh) | 围标检测模型的训练方法、预测方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |