CN114067783A - 语音识别方法、语音识别装置、存储介质及电子设备 - Google Patents

语音识别方法、语音识别装置、存储介质及电子设备 Download PDF

Info

Publication number
CN114067783A
CN114067783A CN202111328256.1A CN202111328256A CN114067783A CN 114067783 A CN114067783 A CN 114067783A CN 202111328256 A CN202111328256 A CN 202111328256A CN 114067783 A CN114067783 A CN 114067783A
Authority
CN
China
Prior art keywords
syllable
text
sequence
voice
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111328256.1A
Other languages
English (en)
Inventor
杨玉婷
杜彬彬
李雨珂
杨卫强
朱浩齐
周森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Netease Zhiqi Technology Co Ltd
Original Assignee
Hangzhou Netease Zhiqi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Netease Zhiqi Technology Co Ltd filed Critical Hangzhou Netease Zhiqi Technology Co Ltd
Priority to CN202111328256.1A priority Critical patent/CN114067783A/zh
Publication of CN114067783A publication Critical patent/CN114067783A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本公开实施方式涉及语音识别方法、语音识别装置、存储介质与电子设备,涉及人工智能技术领域。所述语音识别方法包括:提取待识别语音数据的多个语音帧对应的语音特征;对所述语音特征进行编码,得到所述语音特征的编码隐特征;将所述编码隐特征解码为音节序列;对所述编码隐特征和所述音节序列进行再解码,得到所述待识别语音数据对应的文本序列。本公开不仅能够提升语音识别的准确度,而且在识别过程中能够先从音节维度进行热词音节识别,再从文本维度进行热词识别,提升了最终的识别结果中包含热词的可能性,使得识别结果中热词的召回率和准确率得到显著提升。

Description

语音识别方法、语音识别装置、存储介质及电子设备
技术领域
本公开的实施方式涉及人工智能技术领域,更具体地,本公开的实施方式涉及语音识别方法、语音识别装置、计算机可读存储介质及电子设备。
背景技术
本部分旨在为权利要求中陈述的本公开的实施方式提供背景或上下文,此处的描述不因为包括在本部分中就承认是现有技术。
声音是人类世界最主要的交流方式,自动语音识别技术(Automatic SpeechRecognition,ASR,利用计算机将声音信号转化为文字)一直是人工智能领域重要的研究方向之一。目前的语音识别系统,一般仅能从汉字维度进行建模,并对语音数据进行识别。
发明内容
在本上下文中,本公开的实施方式期望提供一种语音识别方法、语音识别装置、计算机可读存储介质及电子设备。
根据本公开实施方式的第一方面,提供一种语音识别方法,包括:提取待识别语音数据的多个语音帧对应的语音特征;对所述语音特征进行编码,得到所述语音特征的编码隐特征;将所述编码隐特征解码为音节序列;对所述编码隐特征和所述音节序列进行再解码,得到所述待识别语音数据对应的文本序列。
在一种可选的实施方式中,所述将所述编码隐特征解码为音节序列,包括:将所述编码隐特征输入至预先训练好的音节分类器中,生成各所述语音帧对应的音节概率分布,所述音节概率分布用于表征各所述语音帧所对应的多个预测音节及所述语音帧属于各所述预测音节的概率;根据所述音节概率分布从所述多个预测音节中选取候选音节,得到所述音节序列。
在一种可选的实施方式中,所述根据所述音节概率分布从所述多个预测音节中选取候选音节,得到所述音节序列,包括:根据初始帧对应的音节概率分布,从所述初始帧对应的多个预测音节中选取所述初始帧的候选音节;所述初始帧为所述待识别语音数据的第一帧;将所述初始帧的候选音节与下一帧所对应的多个预测音节进行组合,从得到的多个音节组合结果中选取候选组合结果;将所述候选组合结果依次与后续各语音帧所对应的多个预测音节进行组合,得到所述音节序列。
在一种可选的实施方式中,所述从得到的多个音节组合结果中选取候选组合结果,包括:获取各所述音节组合结果对应的评分,所述评分为根据所述音节组合结果中所包含的多个预测音节的概率计算得到;按照所述评分由大到小的顺序,从所述多个音节组合结果中选取所述候选组合结果。
在一种可选的实施方式中,所述方法还包括:将各所述音节组合结果与预设音节库相匹配,以确定所述音节组合结果中是否包含预设音节序列;所述预设音节库中包括多个热词对应的音节序列,所述热词基于目标领域中词汇的使用频率确定;各所述预设音节序列对应一预设奖励值;若包含所述预设音节序列,则根据所述预设音节序列对应的预设奖励值,更新所述音节组合结果对应的评分。
在一种可选的实施方式中,所述对所述编码隐特征和所述音节序列进行再解码,得到所述待识别语音数据对应的文本序列,包括:将所述编码隐特征和所述音节序列输入至预先训练好的文本解码器中,得到所述待识别语音数据对应的文本特征;将所述文本特征输入至预先训练好的文本分类器中,生成所述音节序列中所包含的各个音节对应的文本概率分布;所述文本概率分布用于表征各所述音节所对应的多个预测文本及所述音节属于各所述预测文本的概率;根据所述文本概率分布从所述多个预测文本中选取候选文本,得到候选文本序列;对所述候选文本序列进行筛选,得到所述待识别语音数据对应的文本序列。
在一种可选的实施方式中,所述根据所述文本概率分布从所述多个预测文本中选取候选文本,得到候选文本序列,包括:根据所述音节序列的起始音节对应的文本概率分布,从所述起始音节对应的多个预测文本中选取所述起始音节的候选文本;将所述起始音节的候选文本与下一音节所对应的多个预测文本进行组合,从得到的多个文本组合结果中选取候选组合结果;将所述候选组合结果依次与后续各音节所对应的多个预测文本进行组合,得到所述候选文本序列。
在一种可选的实施方式中,所述从得到的多个文本组合结果中选取候选组合结果,包括:获取各所述文本组合结果对应的评分,所述评分为根据所述文本组合结果中所包含的多个文本的概率计算得到;按照所述评分由大到小的顺序,从所述多个文本组合结果中选取所述候选组合结果。
在一种可选的实施方式中,所述方法还包括:将各所述文本组合结果与预设词汇库相匹配,以确定所述文本组合结果中是否包含预设词汇;所述预设词汇库中包括基于目标领域中词汇的使用频率所确定出来的多个词汇,各所述预设词汇对应一预设奖励值;若包含所述预设词汇,则根据所述预设词汇对应的预设奖励值,更新所述文本组合结果对应的评分。
在一种可选的实施方式中,所述对所述候选文本序列进行筛选,得到所述待识别语音数据对应的文本序列,包括:获取各所述候选文本序列对应的第一评分,以及,获取各所述候选文本序列对应的音节序列的第二评分;根据所述第一评分和所述第二评分,确定综合评分;将所述综合评分大于预设评分阈值的候选文本序列确定为所述待识别语音数据对应的文本序列。
根据本公开的第二方面,提供一种语音识别模型的训练方法,包括:获取训练样本,所述训练样本包括样本语音数据及所述样本语音数据对应的标签;所述标签包括音节标签和文本标签;将所述训练样本输入至待训练语音识别模型中,得到语音识别处理结果;根据所述语音识别处理结果和所述标签的差异程度,确定所述待训练语音识别模型的损失值;根据所述损失值,对所述待训练语音识别模型进行迭代训练,直至所述损失值满足预设的收敛条件,得到训练后的语音识别模型。
在一种可选的实施方式中,所述语音识别处理结果包括音节识别结果和文本识别结果;所述根据所述语音识别处理结果和所述标签的差异程度,确定所述待训练语音识别模型的损失值,包括:根据所述音节识别结果和所述音节标签的差异程度,确定所述待训练语音识别模型输出的第一损失值;根据所述文本识别结果和所述文本标签的差异程度,确定所述待训练语音识别模型输出的第二损失值;根据所述第一损失值和所述第二损失值,确定所述待训练语音识别模型的损失值。
根据本公开的第三方面,提供一种语音识别装置,包括:特征提取模块,用于提取待识别语音数据的多个语音帧对应的语音特征;编码模块,用于对所述语音特征进行编码,得到所述语音特征的编码隐特征;音节解码模块,用于将所述编码隐特征解码为音节序列;文本解码模块,用于对所述编码隐特征和所述音节序列进行再解码,得到所述待识别语音数据对应的文本序列。
在一种可选的实施方式中,所述音节解码模块,被配置为:将所述编码隐特征输入至预先训练好的音节分类器中,生成各所述语音帧对应的音节概率分布,所述音节概率分布用于表征各所述语音帧所对应的多个预测音节及所述语音帧属于各所述预测音节的概率;根据所述音节概率分布从所述多个预测音节中选取候选音节,得到所述音节序列。
在一种可选的实施方式中,所述音节解码模块,被配置为:根据初始帧对应的音节概率分布,从所述初始帧对应的多个预测音节中选取所述初始帧的候选音节;所述初始帧为所述待识别语音数据的第一帧;将所述初始帧的候选音节与下一帧所对应的多个预测音节进行组合,从得到的多个音节组合结果中选取候选组合结果;将所述候选组合结果依次与后续各语音帧所对应的多个预测音节进行组合,得到所述音节序列。
在一种可选的实施方式中,所述音节解码模块,被配置为:获取各所述音节组合结果对应的评分,所述评分为根据所述音节组合结果中所包含的多个预测音节的概率计算得到;按照所述评分由大到小的顺序,从所述多个音节组合结果中选取所述候选组合结果。
在一种可选的实施方式中,所述音节解码模块,被配置为:将各所述音节组合结果与预设音节库相匹配,以确定所述音节组合结果中是否包含预设音节序列;所述预设音节库中包括多个热词对应的音节序列,所述热词基于目标领域中词汇的使用频率确定;各所述预设音节序列对应一预设奖励值;若包含所述预设音节序列,则根据所述预设音节序列对应的预设奖励值,更新所述音节组合结果对应的评分。
在一种可选的实施方式中,所述文本解码模块,被配置为:将所述编码隐特征和所述音节序列输入至预先训练好的文本解码器中,得到所述待识别语音数据对应的文本特征;将所述文本特征输入至预先训练好的文本分类器中,生成所述音节序列中所包含的各个音节对应的文本概率分布;所述文本概率分布用于表征各所述音节所对应的多个预测文本及所述音节属于各所述预测文本的概率;根据所述文本概率分布从所述多个预测文本中选取候选文本,得到候选文本序列;对所述候选文本序列进行筛选,得到所述待识别语音数据对应的文本序列。
在一种可选的实施方式中,所述文本解码模块,被配置为:根据所述音节序列的起始音节对应的文本概率分布,从所述起始音节对应的多个预测文本中选取所述起始音节的候选文本;将所述起始音节的候选文本与下一音节所对应的多个预测文本进行组合,从得到的多个文本组合结果中选取候选组合结果;将所述候选组合结果依次与后续各音节所对应的多个预测文本进行组合,得到所述候选文本序列。
在一种可选的实施方式中,所述文本解码模块,被配置为:获取各所述文本组合结果对应的评分,所述评分为根据所述文本组合结果中所包含的多个文本的概率计算得到;按照所述评分由大到小的顺序,从所述多个文本组合结果中选取所述候选组合结果。
在一种可选的实施方式中,所述文本解码模块,被配置为:将各所述文本组合结果与预设词汇库相匹配,以确定所述文本组合结果中是否包含预设词汇;所述预设词汇库中包括基于目标领域中词汇的使用频率所确定出来的多个词汇,各所述预设词汇对应一预设奖励值;若包含所述预设词汇,则根据所述预设词汇对应的预设奖励值,更新所述文本组合结果对应的评分。
在一种可选的实施方式中,所述文本解码模块,被配置为:获取各所述候选文本序列对应的第一评分,以及,获取各所述候选文本序列对应的音节序列的第二评分;根据所述第一评分和所述第二评分,确定综合评分;将所述综合评分大于预设评分阈值的候选文本序列确定为所述待识别语音数据对应的文本序列。
根据本公开的第四方面,提供一种语音识别模型的训练装置,包括:样本获取模块,用于获取训练样本,所述训练样本包括样本语音数据及所述样本语音数据对应的标签;所述标签包括音节标签和文本标签;处理模块,用于将所述训练样本输入至待训练语音识别模型中,得到语音识别处理结果;损失确定模块,用于根据所述语音识别处理结果和所述标签的差异程度,确定所述待训练语音识别模型的损失值;模型训练模块,用于根据所述损失值,对所述待训练语音识别模型进行迭代训练,直至所述损失值满足预设的收敛条件,得到训练后的语音识别模型。
在一种可选的实施方式中,所述语音识别处理结果包括音节识别结果和文本识别结果;所述损失确定模块,被配置为:根据所述音节识别结果和所述音节标签的差异程度,确定所述待训练语音识别模型输出的第一损失值;根据所述文本识别结果和所述文本标签的差异程度,确定所述待训练语音识别模型输出的第二损失值;根据所述第一损失值和所述第二损失值,确定所述待训练语音识别模型的损失值。
根据本公开实施方式的第五方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方面所述的方法。
根据本公开实施方式的第六方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任一方面所述的方法。
根据本公开实施方式的语音识别方法、语音识别装置、计算机可读存储介质及电子设备,一方面,提取待识别语音数据的多个语音帧对应的语音特征,对所述语音特征进行编码,得到所述语音特征的编码隐特征,将所述编码隐特征解码为音节序列,能够在进行文本识别之前,先获得待识别语音数据的音节特征。另一方面,对上述编码隐特征和音节序列进行再解码,得到所述待识别语音数据对应的文本序列,能够从音节和汉字两个维度对待识别语音数据进行再次识别,解决相关技术中仅能从单一的汉字级别进行识别所导致的准确度较低的技术问题,提升识别结果的准确度。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
图1示出了根据本公开实施方式的语音识别方法的流程图;
图2示出了根据本公开实施方式的将编码隐特征解码为音节序列的流程图;
图3示出了根据本公开实施方式的确定音节序列的流程图;
图4示出了根据本公开实施方式的从音节组合结果中选取候选组合结果的流程图;
图5示出了根据本公开实施方式的更新音节组合结果对应评分的流程图;
图6示出了根据本公开实施方式的确定文本序列的流程图;
图7示出了根据本公开实施方式的确定候选文本序列的流程图;
图8示出了根据本公开实施方式的从文本组合结果中选取候选组合结果的流程图;
图9示出了根据本公开实施方式的更新文本组合结果对应评分的流程图;
图10示出了根据本公开实施方式的确定待识别语音数据对应的文本序列的流程图;
图11示出了根据本公开实施方式的语音识别方法的整体流程图;
图12示出了根据本公开实施方式的语音识别模型的训练方法的流程图;
图13示出了根据本公开实施方式的确定待训练语音识别模型的损失值的流程图;
图14示出了根据本公开实施方式的语音识别装置的示意图;
图15示出了根据本公开实施方式的另一种语音识别装置的示意图;以及
图16示出了根据本公开实施方式的存储介质的示意图;
图17示出了根据本公开实施方式的电子设备的结构图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本公开的实施方式,提供一种语音识别方法、语音识别装置、计算机可读存储介质及电子设备。
在本文中,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本公开的若干代表性实施方式,详细阐述本公开的原理和精神。
发明概述
本发明人发现,相关语音识别方法一般只能从单一的汉字级别进行语音识别,识别准确度较低。
鉴于上述内容,本公开的基本思想在于:提供一种语音识别方法、语音识别装置、计算机可读存储介质及电子设备,一方面,提取待识别语音数据的多个语音帧对应的语音特征,对所述语音特征进行编码,得到所述语音特征的编码隐特征,将所述编码隐特征解码为音节序列,能够在进行文本识别之前,先获得待识别语音数据的音节特征。另一方面,对上述编码隐特征和音节序列进行再解码,得到所述待识别语音数据对应的文本序列,能够从音节和汉字两个维度对待识别语音数据进行再次识别,解决相关技术中仅能从单一的汉字级别进行识别所导致的准确度较低的技术问题,提升识别结果的准确度。
在介绍了本公开的基本原理之后,下面具体介绍本公开的各种非限制性实施方式。
应用场景总览
需要注意的是,下述应用场景仅是为了便于理解本公开的精神和原理而示出,本公开的实施方式在此方面不受任何限制。相反,本公开的实施方式可以应用于适用的任何场景。
本公开的实施方式支持将输入的待识别语音数据转换为文本序列并输出,具体的,在接收到待识别语音数据之后,可以先对待识别语音数据进行特征提取,并将语音特征转换为编码隐特征,进而,先将上述编码隐特征解码为音节序列,进一步的,对编码隐特征和音节序列进行再解码,输出上述待识别语音数据对应的文本序列。
示例性方法
本公开的示例性实施方式首先提供一种语音识别方法。图1示出根据本公开实施方式的语音识别方法的流程图,可以包括以下步骤S110至S140:
步骤S110,提取待识别语音数据的多个语音帧对应的语音特征。
本步骤中,待识别语音数据即需要进行识别的语音数据。示例性的,上述待识别语音数据可以通过以下方式获取:读取预先存储的语音信号、通过终端设备内置或者外置麦克风采集语音信号,或者,通过网络接收其他设备传输过来的语音信号,或者,采用蓝牙、红外之类的近距离通信技术获取语音信号等,均可以根据实际情况自行设定,本公开对此不作特殊限定。
上述待识别语音数据可以包括多个语音帧,语音帧即将上述待识别语音数据以预设时长为单位进行切割之后,所得到的若干小段音频,例如:以待识别语音数据为1分钟,预设时长为1秒为例进行说明,则可以将待识别语音数据切分为60段音频,每段音频即为上述语音帧。
提取语音特征的过程即将语音数据转换为计算机能够识别处理的多维向量的过程。示例性的,可以采用以下方式提取各个语音帧对应的语音特征:离散小波变换、线性预测分析(LinearPredictionCoefficients,LPC)、感知线性预测(PerceptualLinearPredictive,PLP)、梅尔频率倒谱(MelFrequencyCepstrumCoefficient,MFCC)、线性预测倒谱(LinearPredictiveCepstralCoefficient,LPCC)等,可以根据实际情况自行设定,本公开对此不作特殊限定。
示例性的,以上述待识别语音信息包括T个语音帧,每个语音帧所对应的语音特征为一个N维的向量为例进行说明,则上述多个语音帧对应的语音特征可以表示为X={x1,x2,x3,……xT},其中,xi为N维的向量(i=1,2,3……T)。
步骤S120,对语音特征进行编码,得到语音特征的编码隐特征。
本步骤中,可以使用自动编码器对上述语音特征进行编码,得到语音特征的编码隐特征。
示例性的,假设上述自动编码器总共包含m层编码网络,则输入层为第一层,输出层为第m层,第n-1层的输出为第n层的输入,第n层的输出为第n+1层的输入。则在将语音特征输入上述自动编码器之后,按照上述传递方式,以此类推,通过m层的传递,由第m层输出最终的编码隐特征。示例性的,最终输出的编码隐特征可以是高维特征hx
步骤S130,将编码隐特征解码为音节序列。
本步骤中,解码是将上述编码隐特征还原为音节信息的过程,是编码的逆过程。
音节即由一个或者几个音素按照一定规则组合成的语音单位,汉语音节以韵母为中心,由声母、韵母和声调三部分组成;英语音节则以元音音素为中心,配合一个或多个辅音音素组成。汉语通常包括22个声母与38个韵母,400多个无调音节和1300个左右的有调音节。比如,“yu”、“xiao”等即为无调音节。
音节序列即多个音节所组成的序列,示例性的,“你”对应的音节序列可以是“ni3”,“你好”对应的音节序列可以是“ni3hao3”。
步骤S140,对编码隐特征和音节序列进行再解码,得到待识别语音数据对应的文本序列。
本步骤中,再解码过程即根据编码隐特征和音节序列,输出文本序列的过程。其中,文本序列即多个文本所组成的序列,示例性的,“ni3hao3”对应的文本序列可以是“你好”。
基于以上技术方案,本公开能够从音节和汉字两个维度对待识别语音数据进行再次识别,解决相关技术中仅能从单一的汉字级别进行识别所导致的准确度较低的技术问题,提升识别结果的准确度。
以下对步骤S130中“将编码隐特征解码为音节序列”的具体实施方式进行解释:
具体的,参考图2,图2示出了根据本公开实施方式的将编码隐特征解码为音节序列的流程图,包含步骤S201-步骤S202:
在步骤S201中,将编码隐特征输入至预先训练好的音节分类器中,生成各语音帧对应的音节概率分布。
本步骤中,可以将上述编码隐特征输入至预先训练好的音节分类器中,根据音节分类器的输出,得到各语音帧对应的音节概率分布。
其中,音节分类器即用于预测上述各个语音帧所对应的预测音节,并且,每个语音帧属于各个预测音节的概率(即可能性),需要说明的是,各语音帧属于各个预测音节的概率之和为100%。
在步骤S202中,根据音节概率分布从多个预测音节中选取候选音节,得到音节序列。
在该步骤S202中,可以利用集束搜索算法对各语音帧对应的多个预测音节进行搜索,以得到音节序列。集束搜索是一种启发式图搜索算法,在图的解空间比较大的情况下,为了减少搜索所占用的空间和时间,在每一步深度扩展的时候,剪掉一些质量比较差的结点,保留下一些质量较高的结点。具体过程为:使用广度优先策略在树的每一层建立搜索树,按照启发代价对节点进行排序,然后仅留下预先确定的个数(Beam Width-集束宽度)的节点,仅这些节点在下一层次继续扩展,其他节点就被剪掉了。从而,本公开能够降低对内存的要求,提高音节序列的生成速度。
具体的,参考图3,图3示出了根据本公开实施方式的确定音节序列的流程图,包含步骤S301-步骤S303:
在步骤S301中,根据初始帧对应的音节概率分布,从初始帧对应的多个预测音节中选取初始帧的候选音节。
本步骤中,初始帧即上述待识别语音数据的第一帧,从而,对于上述初始帧,可以根据其音节概率分布,从多个预测音节中选取候选音节。示例性的,可以从其预测音节中选取2个候选音节,候选音节的选取数目可以根据实际情况自行设定,本公开对此不作特殊限定。
在步骤S302中,将初始帧的候选音节与下一帧所对应的多个预测音节进行组合,从得到的多个音节组合结果中选取候选组合结果。
本步骤中,在确定出初始帧的候选音节之后,可以将上述候选音节与下一帧(即待处理语音数据的第二帧)对应的多个预测音节进行组合,得到多个音节组合结果。具体的,参考图4,图4示出了根据本公开实施方式的从音节组合结果中选取候选组合结果的流程图,包含步骤S401-步骤S402:
在步骤S401中,获取各音节组合结果对应的评分。
本步骤中,参照上述步骤S302的相关解释,在将初始帧的候选音节与下一帧对应的多个预测音节进行组合之后,示例性的,以初始帧的候选音节为:s1(90%)、s2(10%)为例,以第二帧对应的多个预测音节为:s3(60%)、s4(30%)、s5(10%)为例进行说明,则得到的音节组合结果为:s1s3、s1s4、s1s5、s2s3、s2s4、s2s5
从而,以直接根据音节组合结果中所包含的多个预测音节的概率乘积来确定各个音节组合结果所对应的评分为例进行说明,则s1s3对应的评分为90%*60%=54%,s1s4对应的评分为90%*30%=27%,s1s5对应的评分为90%*10%=9%,s2s3对应的评分为10%*60%=6%,s2s4对应的评分为10%*30%=3%,s2s5对应的评分为10%*10%=1%。
需要说明的是,还可以为音节组合结果中所包含的多个预测音节分配不同的预设权重,进而,根据上述预设权重,对音节组合结果中所包含的多个预测音节的概率进行加权,得到各个音节组合结果对应的评分,可以根据实际情况自行设定,本公开对此不作特殊限定。
在一种可选的实施方式中,在初步确定出各个音节组合结果对应的评分之后,还可以检测音节组合结果中是否包含预设音节序列,当其包含预设音节序列时,可以对该音节组合结果对应的评分进行更新。具体的,参考图5,图5示出了根据本公开实施方式的更新音节组合结果对应评分的流程图,包含步骤S501-步骤S502:
在步骤S501中,将各音节组合结果与预设音节库相匹配,以确定音节组合结果中是否包含预设音节序列。
本步骤中,预设音节库中包含多个热词对应的音节序列,其中,热词的判定标准可以是:目标领域中词汇的使用频率,举例而言,电商领域所对应的热词可以是“包裹”、“快递”、“支付”等,教育领域所对应的热词可以是“网课”、“授课”等,医学领域所对应的热词可以是“血压”、“脉搏”等。
具体的,以目标领域为电商领域为例进行说明,则可以通过爬虫技术爬取与电商领域相关的所有网页、数据库等,以获取到与该领域相关的海量信息,进而,对海量信息进行数据分析,以统计出其中所涉及的各个词汇的使用频率,并将使用频率大于频率阈值的多个词汇所对应的音节序列存储至上述预设音节库中,示例性的,可以将“包裹”对应的预设音节序列“bao1guo3”、“快递”对应的预设音节序列“kuai4di4”存储至上述预设音节库中。
示例性的,还可以预先为各个预设音节序列对应一预设奖励值,可以设置预设音节序列“bao1guo3”对应的预设奖励值为30%,设置预设音节序列“kuai4di4”对应的预设奖励值为“20%”,可以根据实际情况自行设定,本公开对此不作特殊限定。上述预设奖励值的作用在于,当识别出的音节组合结果中包含预设音节序列时,可以根据预设奖励值提升该音节识别结果的评分,以提升最终的识别结果中包含热词的可能性,提升热词的召回率和准确率。
在步骤S502中,若包含预设音节序列,则根据预设音节序列对应的预设奖励值,更新音节组合结果对应的评分。
本步骤中,若检测出音节组合结果中包含上述预设音节序列时,可以从上述预设音节库中读取预设音节序列对应的预设奖励值,并根据读取到的预设奖励值更新该音节组合结果对应的评分。
参照上述步骤S401的相关解释,若检测出音节组合结果“s1s4”中包含上述预设音节序列“kuai4di4”时,则可以从预设音节库中读取到“kuai4di4”对应的预设奖励值为“20%”,从而,可以将音节组合结果“s1s4”对应的评分更新为:27%+20%=47%。
在步骤S402中,按照评分由大到小的顺序,从多个音节组合结果中选取候选组合结果。
本步骤中,在得到各个音节组合结果对应的评分之后,示例性的,可以先按照从大到小的顺序对上述评分进行排序,进而,从排序序列中选取评分满足阈值条件的音节组合结果,作为候选组合结果。示例性的,可以将评分位于前2位的音节组合结果作为上述候选组合结果(例如:“s2s5”、“s1s4”),被选取的候选组合结果的数目可以根据实际情况自行设定,本公开对此不作特殊限定。
接着参考图3,在步骤S303中,将候选组合结果依次与后续各语音帧所对应的多个预测音节进行组合,得到音节序列。
本步骤中,在得到第二帧对应的候选组合结果之后,可以将上述候选组合结果与第三帧对应的多个预测音节进行组合,并从中筛选出候选组合结果,再与第四帧对应的多个预测音节进行组合……重复执行上述步骤,直至将第T-1帧对应的候选组合结果与第T帧对应的多个预测音节进行组合,得到上述音节序列。可见,一方面,通过在每个中间阶段选取评分较高的候选组合结果,并依次与后续各语音帧对应的预测音节进行组合,生成语音序列,本公开能够提升所生成的音节序列的准确度,另一方面,本公开还能够降低对系统的内存要求,提升音节序列的生成速度。
在得到上述音节序列之后,在一种可选的实施方式中,可以将得到的所有音节序列与上述编码隐特征作为输入,对其进行再解码,得到待识别语音数据对应的文本序列。在另一种可选的实施方式中,还可以从得到的音节序列中选取评分满足评分阈值的音节序列与上述编码隐特征作为输入,对其进行再解码,得到待识别语音数据对应的文本序列,可以根据实际情况自行设定,本公开对此不作特殊限定。
以下对步骤S140中“对编码隐特征和音节序列进行再解码,得到待识别语音数据对应的文本序列”的具体实施方式进行解释:
参考图6,图6示出了根据本公开实施方式的确定文本序列的流程图,包含步骤S601-步骤S604:
在步骤S601中,将编码隐特征和音节序列输入至预先训练好的文本解码器中,得到待识别语音数据对应的文本特征。
本步骤中,可以将编码隐特征和上述音节序列输入至预先训练的文本解码器中,得到待识别语音数据对应的文本特征。
其中,文本解码器的作用是:将编码隐特征和音节序列转换为文本特征,文本特征可以是融合上述编码隐特征和音节序列之后得到的向量。
在步骤S602中,将文本特征输入至预先训练好的文本分类器中,生成音节序列中所包含的各个音节对应的文本概率分布。
本步骤中,可以将上述文本特征输入训练好的文本分类器中,生成音节序列中所包含的各个音节对应的文本概率分布。
其中,文本分类器用于对上述文本特征进行分类,以预测出各音节序列中所包含的各个音节对应的预测文本及其概率,即上述文本分类器输出的文本概率分布用于表征各音节所对应的多个预测文本及各音节属于各预测文本的概率,需要说明的是,各音节属于各个预测文本的概率之和为100%。
在步骤S603中,根据文本概率分布从多个预测文本中选取候选文本,得到候选文本序列。
在该步骤S603中,可以利用集束搜索算法对各音节对应的多个预测文本进行搜索,以得到候选文本序列。
具体的,参考图7,图7示出了根据本公开实施方式的确定候选文本序列的流程图,包含步骤S701-步骤S703:
在步骤S701中,根据音节序列的起始音节对应的文本概率分布,从初始音节对应的多个预测文本中选取初始音节的候选文本。
本步骤中,对于上述初始音节,可以根据其对应的文本概率分布,从多个预测文本中选取候选文本,示例性的,可以从其预测文本中选取2个候选文本,该候选文本的选取数目可以根据实际情况自行设定,本公开对此不作特殊限定。
在步骤S702中,将初始音节的候选文本与下一音节所对应的多个预测文本进行组合,从得到的多个文本组合结果中选取候选组合结果。
本步骤中,在确定出初始音节的候选文本之后,可以将上述候选文本与下一音节(即音节序列中的第二个音节)对应的多个预测文本进行组合,得到多个文本组合结果。
具体的,参考图8,图8示出了根据本公开实施方式的从文本组合结果中选取候选组合结果的流程图,包含步骤S801-步骤S802:
在步骤S801中,获取各文本组合结果对应的评分。
本步骤中,参照上述步骤S302的相关解释,在将初始音节的候选文本与下一音节对应的多个预测文本进行组合之后,示例性的,以初始音节的候选文本为:y1(90%)、y2(10%)为例,以第二个音节对应的多个预测文本为:y3(60%)、y4(30%)、y5(10%)为例进行说明,则得到的文本组合结果为:y1y3、y1y4、y1y5、y2y3、y2y4、y2y5
从而,以直接根据文本组合结果中所包含的多个预测文本的概率乘积来确定各个文本组合结果所对应的评分为例进行说明,则y1y3对应的评分为90%*60%=54%,y1y4对应的评分为90%*30%=27%,y1y5对应的评分为90%*10%=9%,y2y3对应的评分为10%*60%=6%,y2y4对应的评分为10%*30%=3%,y2y5对应的评分为10%*10%=1%。
需要说明的是,还可以为文本组合结果中所包含的多个预测文本分配不同的预设权重,进而,根据上述预设权重,对文本组合结果中所包含的多个预测文本的概率进行加权,得到各个文本组合结果对应的评分,可以根据实际情况自行设定,本公开对此不作特殊限定。
在一种可选的实施方式中,在初步确定出各个文本组合结果对应评分之后,可以参考图9,图9示出了根据本公开实施方式的更新文本组合结果对应评分的流程图,包含步骤S901-步骤S902:
在步骤S901中,将各文本组合结果与预设词汇库相匹配,以确定文本组合结果中是否包含预设词汇。
本步骤中,可以将解码过程中每个阶段所得到的文本组合结果与预设词汇库相匹配,以确定各文本组合结果是否与预设词汇相匹配。
其中,预设词汇库中包括基于目标领域中词汇的使用频率所确定出来的多个词汇,举例而言,电商领域所对应的热词可以是“包裹”、“快递”、“支付”等,教育领域所对应的热词可以是“网课”、“授课”等,医学领域所对应的热词可以是“血压”、“脉搏”等。
示例性的,还可以预先为各个预设词汇对应一预设奖励值,示例性的,可以设置预设词汇“包裹”对应的预设奖励值为30%,设置预设词汇“快递”对应的预设奖励值为“20%”,可以根据实际情况自行设定,本公开对此不作特殊限定。上述预设奖励值的作用在于,当识别出的文本组合结果中包含预设词汇时,可以根据预设奖励值提升该文本识别结果的评分,以提升最终的识别结果中包含热词的可能性,使得识别结果中热词的召回率和准确率得到显著提升。
在步骤S902中,若包含预设词汇,则根据预设词汇对应的预设奖励值,更新文本组合结果对应的评分。
本步骤中,若检测出文本组合结果中包含上述预设词汇时,可以从上述预设词汇库中读取预设词汇对应的预设奖励值,并根据读取到的预设奖励值更新该文本组合结果对应的评分。
参照上述步骤S401的相关解释,若检测出文本组合结果“y1y4”中包含上述预设词汇“快递”时,则可以从预设词汇库中读取到“快递”对应的预设奖励值为“20%”,从而,可以将文本组合结果“y1y4”对应的评分更新为:27%+20%=47%。
接着参考图8,在步骤S802中,按照评分由大到小的顺序,从多个文本组合结果中选取候选组合结果。
本步骤中,在得到各个文本组合结果对应的评分之后,示例性的,可以先按照从大到小的顺序对上述评分进行排序,进而,从排序序列中选取评分满足阈值条件的文本组合结果,作为候选组合结果。示例性的,可以将评分位于前2位的文本组合结果作为上述候选组合结果(例如:“y2y5”、“y1y4”),被选取的候选组合结果的数目可以根据实际情况自行设定,本公开对此不作特殊限定。
接着参考图7,在步骤S703中,将候选组合结果依次与后续各音节所对应的多个预测文本进行组合,得到候选文本序列。
本步骤中,在得到第二个音节对应的候选组合结果之后,可以将上述候选组合结果与第三个音节对应的多个预测文本进行组合,并从中筛选出候选组合结果,再与第四个音节对应的多个预测文本进行组合……重复执行上述步骤,直至与结尾音节对应的多个预测文本进行组合,得到上述候选文本序列。可见,一方面,通过在每个中间阶段选取评分较高的候选组合结果,并依次与后续各音节对应的预测文本进行组合,生成候选文本序列,本公开能够提升所生成的候选文本序列的准确度,另一方面,本公开还能够降低对系统的内存要求,提升候选文本序列的生成速度。
接着参考图6,在步骤S604中,对候选文本序列进行筛选,得到待识别语音数据对应的文本序列。
本步骤中,在得到上述候选文本序列之后,可以参考图10,图10示出了根据本公开实施方式的确定待识别语音数据对应的文本序列的流程图,包含步骤S1001-步骤S1003:
在步骤S1001中,获取各候选文本序列对应的第一评分,以及,获取各候选文本序列对应的音节序列的第二评分。
本步骤中,参照上述步骤的相关解释可知,各候选文本序列对应的第一评分即该候选文本序列中所包含的多个预测文本的概率乘积。
在解码得到该候选文本序列之前,输入的音节序列即为该候选文本序列对应的音节序列,从而,第二评分即音节序列中所包含的多个预测音节的概率乘积。
在步骤S1002中,根据第一评分和第二评分,确定综合评分。
本步骤中,可以对上述第一评分和第二评分进行加权求和,得到一综合评分。示例性的,以任一候选文本序列对应的第一评分为0.8,其音节序列的第二评分为0.6为例进行说明,则在一种可选的实施方式中,综合评分可以是
Figure BDA0003347938240000191
在另一种可选的实施方式中,可以设置第一评分对应的权重为0.4,第二评分对应的权重为0.6,从而,综合评分可以是0.8*0.4+0.6*0.6=0.68。
上述权重值及综合评分的计算方式均可以根据实际情况自行设定,本公开对此不作特殊限定。
在步骤S1003中,将综合评分大于预设评分阈值的候选文本序列确定为待识别语音数据对应的文本序列。
本步骤中,示例性的,可以将上述综合评分大于预设评分阈值(可以根据实际情况自行设定或更改,本公开对此不作特殊限定)的候选文本序列确定为上述待识别语音数据对应的文本序列。示例性的,还可以直接将综合评分最高的候选文本序列确定为上述待识别语音数据对应的文本序列,可以根据实际情况自行设定,本公开对此不作特殊限定。
在一种可选的实施方式中,在得到上述文本序列之后,还可以基于自然语言处理算法(natural language processing,NLP)对其进行处理,得到最终的输出结果,从而保证输出结果的准确性和可读性,使其更符合人类的成词习惯。
参考图11,图11示出了根据本公开实施方式的语音识别方法的整体流程图,包含步骤S1101-步骤S1108:
在步骤S1101中,将语音特征输入至编码器中,得到编码隐特征。
本步骤中,可以先提取待识别语音数据对应的语音特征,进而,将语音特征输入至自动编码器中,以通过自动编码器的m层编码网络对语音特征进行编码,输出一编码隐特征。
在步骤S1102中,将编码隐特征输入音节分类器中,得到音节概率分布。
本步骤中,在得到编码隐特征之后,可以将编码隐特征输入至音节分类器中,通过音节分类器对各个语音帧所对应的音节进行预测,并输出音节概率分布,该音节概率分布用于表征各语音帧属于各个预测音节的概率。
在步骤S1103中,根据上述音节概率分布进行集束搜索,得到音节序列。
本步骤中,可以根据上述音节概率分布进行集束搜索,具体的,可以先根据第一帧对应的音节概率分布,从第一帧对应的预测音节中选取候选音节,并将候选音节与第二帧对应的预测音节进行组合,得到音节组合结果,根据该音节组合结果的评分(该音节组合结果的评分为其中所包含的多个预测音节的概率乘积)从其中选取候选组合结果,并将候选组合结果依次与后续各语音帧对应的预测音节进行组合,得到音节序列。
其中,在得到每个中间阶段的音节组合结果之后,可以对音节组合结果进行热词音节识别,若音节组合结果中包含热词音节,则更新其对应的评分。
在步骤S1104中,将编码隐特征和音节序列输入文本解码器中,得到文本特征。
本步骤中,可以将步骤S1101中得到的编码隐特征和上述步骤S1104中得到的音节序列输入至文本解码器中,输出一文本特征。
在步骤S1105中,将文本特征输入文本分类器中,得到文本概率分布。
本步骤中,在得到文本特征之后,可以将文本特征输入至文本分类器中,通过文本分类器对各个音节所对应的文本进行预测,并输出文本概率分布,该文本概率分布用于表征各音节属于各个预测文本的概率。
在步骤S1106中,根据上述文本概率分布进行集束搜索,得到候选文本序列。
本步骤中,可以根据上述文本概率分布进行集束搜索,具体的,可以先根据起始音节对应的文本概率分布,从起始音节对应的预测文本中选取候选文本,并将候选文本与下一个音节对应的预测文本进行组合,得到文本组合结果,根据该文本组合结果的评分(该文本组合结果的评分为其中所包含的多个预测文本的概率乘积)从其中选取候选组合结果,并将候选组合结果依次与后续各音节对应的预测文本进行组合,得到候选文本序列。
其中,在得到每个中间阶段的文本组合结果之后,可以对文本组合结果进行热词识别,若文本组合结果中包含热词,则更新其对应的评分。
通过在语音识别过程中先从音节维度进行热词音节识别,再从文本维度进行热词识别,提升了最终的识别结果中包含热词的可能性,使得识别结果中热词的召回率和准确率得到显著提升。
在步骤S1107中,从候选文本序列中筛选出待识别语音数据对应的文本序列。
本步骤中,可以将评分最高的候选文本序列确定为待识别语音数据对应的文本序列并输出,也可以将评分位于前几位的候选文本序列确定为待识别语音数据对应的文本序列并输出,可以根据实际情况自行设定,本公开对此不作特殊限定。
本公开还提供了一种语音识别模型的训练方法,参考图12,图12示出了根据本公开实施方式的语音识别模型的训练方法的流程图,包含步骤S1210-步骤S1240:
在步骤S1210中,获取训练样本。
本步骤中,可以获取模型的训练样本,训练样本可以包括样本语音数据及样本语音数据对应的标签,标签即样本语音数据对应的标注信息,示例性的,标签包括音节标签和文本标签。
示例性的,某一条样本语音数据所包含的语音是“你好”,则其对应的音节标签可以是“ni3hao3”,文本标签可以是“你好”。
在步骤S1220中,将训练样本输入至待训练语音识别模型中,得到语音识别处理结果。
本步骤中,可以将上述训练样本输入至待训练语音识别模型中,根据上述语音识别模型的输出,得到语音识别处理结果,上述语音识别处理结果可以包含两部分内容,即音节识别结果和文本识别结果。
具体的,上述待训练语音识别模型可以包括以下几个部分:特征提取网络、编码器、音节分类器、文本解码器和文本分类器,从而,在将训练样本输入至待训练语音识别模型之后,可以先通过特征提取网络提取该训练样本对应的语音特征,进而,可以将语音特征输入编码器中,通过编码器对其进行编码,得到编码隐特征hx,进而,可以利用音节分类器预测出编码隐特征所对应的音节概率分布,并对音节概率分布进行集束搜索,得到音节识别结果CTC(hx)。
进一步的,可以通过文本解码器将上述编码隐特征和音节识别结果进行再解码,得到文本特征,并利用文本分类器预测出文本特征对应的文本概率分布,并对文本概率分布进行集束搜索,得到文本识别结果softmax(sy)。其中,softmax用于分类过程,用来实现多分类的,简单来说,它把一些输出的神经元映射到(0-1)之间的实数,并且归一化保证和为1,从而使得多分类的概率之和也刚好为1,即最后的输出是每个分类被取到的概率。
在步骤S1230中,根据语音识别处理结果和标签的差异程度,确定待训练语音识别模型的损失值。
本步骤中,可以参考图13,图13示出了根据本公开实施方式的确定待训练语音识别模型的损失值的流程图,包含步骤S1301-步骤S1303:
在步骤S1301中,根据音节识别结果和音节标签的差异程度,确定待训练语音识别模型输出的第一损失值。
本步骤中,可以根据音节识别结果与音节标签的差异程度,来确定待训练语音识别模型输出的第一损失值。具体的,可以基于以下公式1确定上述第一损失值:
lossctc=ctc_loss(Softmax(Linear1(hx),S_Y)) 公式1
其中,lossctc表示上述第一损失值;ctc_loss()是计算CTC(Connectionisttemporal classification,连接时序分类,简称:CTC)损失的函数;Softmax()是softmax函数,计算每一帧在音节字典(在训练阶段对所有出现过的音节进行编号所形成)上的概率分布;Linear1()是线性层,将hx从attention的维度映射到音节字典长度这个维度;hx是编码器输出的高维编码隐特征;S_Y表示上述音节标签。
在步骤S1302中,根据文本识别结果和文本标签的差异程度,确定待训练语音识别模型输出的第二损失值。
本步骤中,可以根据得到的文本识别结果和文本标签的差异程度,确定待训练语音识别模型的第二损失值。具体的,可以基于以下公式2确定上述第二损失值:
loss_ce=ce_loss(Softmax(Linear2(sy),Y)) 公式2
其中,loss_ce表示上述第二损失值,ce_loss表示计算交叉熵损失的函数;sy是文本解码器的输出,Linear2()是线性层,其作用在于将sy从attention维度映射到文本字典(在训练阶段对所有出现的文本进行编号所形成)的长度维度;Softmax()是Softmax函数,计算每个音节在文本字典上的概率分布;Y表示上述文本标签。
在步骤S1303中,根据第一损失值和第二损失值,确定待训练语音识别模型的损失值。
本步骤中,在得到上述第一损失值和第二损失值之后,示例性的,可以为第一损失值设置一预设权重α(大于0小于1的实数),则第二损失值对应的权重可以表示为1-α,进一步的,可以根据以下公式3,确定出待训练语音识别模型的损失值:
loss=α*loss_ctc+(1-α)*loss_ce 公式3
其中,上述loss表示待训练语音识别模型的损失值。
在步骤S1240中,根据损失值,对待训练语音识别模型进行迭代训练,直至损失值满足预设的收敛条件,得到训练后的语音识别模型。
本步骤中,在确定出上述待训练语音识别模型的损失值之后,可以根据上述损失值对待训练语音识别模型进行迭代训练(即利用上述训练样本中的不同样本语音数据对待训练语音识别模型进行反复多次训练),直至损失值满足预设的收敛条件(例如:上述损失值小于预设值,预设值可以根据实际情况自行设定,本公开对此不作特殊限定),得到训练后的语音识别模型。
之后,可以基于上述训练后的语音识别模型执行上述步骤S110-步骤S140的相关步骤,以实现对待识别语音数据的识别过程。
基于本公开中得到的语音识别模型,本公开可以对待识别语音数据进行两个维度(即音节和汉字)的双重识别,保证语音识别的准确度。
示例性装置
在介绍了本公开示例性实施方式的语音识别方法之后,接下来,参考图14对本公开实施方式的语音识别装置进行说明,图14所示的语音识别装置可以用于执行上述语音识别方法的相关步骤。
图14示出了根据本公开实施方式的语音识别装置的示意图,语音识别装置1400,包括:
特征提取模块1410,用于提取待识别语音数据的多个语音帧对应的语音特征;
编码模块1420,用于对所述语音特征进行编码,得到所述语音特征的编码隐特征;
音节解码模块1430,用于将所述编码隐特征解码为音节序列;
文本解码模块1440,用于对所述编码隐特征和所述音节序列进行再解码,得到所述待识别语音数据对应的文本序列。
在一种可选的实施方式中,音节解码模块1430,被配置为:
将所述编码隐特征输入至预先训练好的音节分类器中,生成各所述语音帧对应的音节概率分布,所述音节概率分布用于表征各所述语音帧所对应的多个预测音节及所述语音帧属于各所述预测音节的概率;
根据所述音节概率分布从所述多个预测音节中选取候选音节,得到所述音节序列。
在一种可选的实施方式中,音节解码模块1430,被配置为:
根据初始帧对应的音节概率分布,从所述初始帧对应的多个预测音节中选取所述初始帧的候选音节;所述初始帧为所述待识别语音数据的第一帧;
将所述初始帧的候选音节与下一帧所对应的多个预测音节进行组合,从得到的多个音节组合结果中选取候选组合结果;
将所述候选组合结果依次与后续各语音帧所对应的多个预测音节进行组合,得到所述音节序列。
在一种可选的实施方式中,所述音节解码模块1430,被配置为:
获取各所述音节组合结果对应的评分,所述评分为根据所述音节组合结果中所包含的多个预测音节的概率计算得到;
按照所述评分由大到小的顺序,从所述多个音节组合结果中选取所述候选组合结果。
在一种可选的实施方式中,所述音节解码模块1430,被配置为:
将各所述音节组合结果与预设音节库相匹配,以确定所述音节组合结果中是否包含预设音节序列;所述预设音节库中包括多个热词对应的音节序列,所述热词基于目标领域中词汇的使用频率确定;各所述预设音节序列对应一预设奖励值;
若包含所述预设音节序列,则根据所述预设音节序列对应的预设奖励值,更新所述音节组合结果对应的评分。
在一种可选的实施方式中,所述文本解码模块1440,被配置为:
将所述编码隐特征和所述音节序列输入至预先训练好的文本解码器中,得到所述待识别语音数据对应的文本特征;
将所述文本特征输入至预先训练好的文本分类器中,生成所述音节序列中所包含的各个音节对应的文本概率分布;所述文本概率分布用于表征各所述音节所对应的多个预测文本及所述音节属于各所述预测文本的概率;
根据所述文本概率分布从所述多个预测文本中选取候选文本,得到候选文本序列;
对所述候选文本序列进行筛选,得到所述待识别语音数据对应的文本序列。
在一种可选的实施方式中,所述文本解码模块1440,被配置为:
根据所述音节序列的起始音节对应的文本概率分布,从所述起始音节对应的多个预测文本中选取所述起始音节的候选文本;
将所述起始音节的候选文本与下一音节所对应的多个预测文本进行组合,从得到的多个文本组合结果中选取候选组合结果;
将所述候选组合结果依次与后续各音节所对应的多个预测文本进行组合,得到所述候选文本序列。
在一种可选的实施方式中,所述文本解码模块1440,被配置为:
获取各所述文本组合结果对应的评分,所述评分为根据所述文本组合结果中所包含的多个文本的概率计算得到;
按照所述评分由大到小的顺序,从所述多个文本组合结果中选取所述候选组合结果。
在一种可选的实施方式中,所述文本解码模块1440,被配置为:
将各所述文本组合结果与预设词汇库相匹配,以确定所述文本组合结果中是否包含预设词汇;所述预设词汇库中包括基于目标领域中词汇的使用频率所确定出来的多个词汇,各所述预设词汇对应一预设奖励值;
若包含所述预设词汇,则根据所述预设词汇对应的预设奖励值,更新所述文本组合结果对应的评分。
在一种可选的实施方式中,所述文本解码模块1440,被配置为:
获取各所述候选文本序列对应的第一评分,以及,获取各所述候选文本序列对应的音节序列的第二评分;
根据所述第一评分和所述第二评分,确定综合评分;
将所述综合评分大于预设评分阈值的候选文本序列确定为所述待识别语音数据对应的文本序列。
需要说明的是,由于本公开实施方式的语音识别装置的各个功能模块与上述语音识别方法的实施方式中相同,因此在此不再赘述。
接下来,参考图15对本公开实施方式的语音识别模型的训练装置进行说明,该语音识别模型的训练装置可以用于执行上述语音识别模型的训练方法的相关步骤。
图15示出了根据本公开实施方式的语音识别模型的训练装置的示意图,语音识别模型的训练装置1500,包括:
样本获取模块1510,用于获取训练样本,所述训练样本包括样本语音数据及所述样本语音数据对应的标签;所述标签包括音节标签和文本标签。
处理模块1520,用于将所述训练样本输入至待训练语音识别模型中,得到语音识别处理结果。
损失确定模块1530,用于根据所述语音识别处理结果和所述标签的差异程度,确定所述待训练语音识别模型的损失值。
模型训练模块1540,用于根据所述损失值,对所述待训练语音识别模型进行迭代训练,直至所述损失值满足预设的收敛条件,得到训练后的语音识别模型。
在一种可选的实施方式中,所述语音识别处理结果包括音节识别结果和文本识别结果;所述损失确定模块1530,被配置为:
根据所述音节识别结果和所述音节标签的差异程度,确定所述待训练语音识别模型输出的第一损失值;
根据所述文本识别结果和所述文本标签的差异程度,确定所述待训练语音识别模型输出的第二损失值;
根据所述第一损失值和所述第二损失值,确定所述待训练语音识别模型的损失值。
需要说明的是,由于本公开实施方式的语音识别模型的训练装置的各个功能模块与上述语音识别模型的训练方法的实施方式中相同,因此在此不再赘述。
示例性存储介质
下面参考图16对本公开示例性实施方式的存储介质进行说明。
本示例性实施方式中,可以通过程序产品1600实现上述方法,如可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
该程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RE等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,程序设计语言包括面向对象的程序设计语言-诸如Java、C++等,还包括常规的过程式程序设计语言-诸如"C"语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(FAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
示例性电子设备
参考图17对本公开示例性实施方式的电子设备进行说明。
图17显示的电子设备1700仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图17所示,电子设备1700以通用计算设备的形式表现。电子设备1700的组件可以包括但不限于:至少一个处理单元1710、至少一个存储单元1720、连接不同系统组件(包括存储单元1720和处理单元1710)的总线1730、显示单元1740。
其中,存储单元存储有程序代码,程序代码可以被处理单元1710执行,使得处理单元1710执行本说明书上述"示例性方法"部分中描述的根据本公开各种示例性实施方式的步骤。例如,处理单元1710可以执行如图1所示的方法步骤等。
存储单元1720可以包括易失性存储单元,例如随机存取存储单元(RAM)1721和/或高速缓存存储单元1722,还可以进一步包括只读存储单元(ROM)1723。
存储单元1720还可以包括具有一组(至少一个)程序模块1725的程序/实用工具1724,这样的程序模块1725包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线1730可以包括数据总线、地址总线和控制总线。
电子设备1700也可以与一个或多个外部设备1800(例如键盘、指向设备、蓝牙设备等)通信,这种通信可以通过输入/输出(I/O)接口1750进行。电子设备1700还包括显示单元1740,其连接到输入/输出(I/O)接口1750,用于进行显示。并且,电子设备1700还可以通过网络适配器1760与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1760通过总线1730与电子设备1700的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1700使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了装置的若干模块或子模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本公开的精神和原理,但是应该理解,本公开并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (10)

1.一种语音识别方法,其特征在于,包括:
提取待识别语音数据的多个语音帧对应的语音特征;
对所述语音特征进行编码,得到所述语音特征的编码隐特征;
将所述编码隐特征解码为音节序列;
对所述编码隐特征和所述音节序列进行再解码,得到所述待识别语音数据对应的文本序列。
2.根据权利要求1所述的方法,其特征在于,所述将所述编码隐特征解码为音节序列,包括:
将所述编码隐特征输入至预先训练好的音节分类器中,生成各所述语音帧对应的音节概率分布,所述音节概率分布用于表征各所述语音帧所对应的多个预测音节及所述语音帧属于各所述预测音节的概率;
根据所述音节概率分布从所述多个预测音节中选取候选音节,得到所述音节序列。
3.根据权利要求2所述的方法,其特征在于,所述根据所述音节概率分布从所述多个预测音节中选取候选音节,得到所述音节序列,包括:
根据初始帧对应的音节概率分布,从所述初始帧对应的多个预测音节中选取所述初始帧的候选音节;所述初始帧为所述待识别语音数据的第一帧;将所述初始帧的候选音节与下一帧所对应的多个预测音节进行组合,从得到的多个音节组合结果中选取候选组合结果;
将所述候选组合结果依次与后续各语音帧所对应的多个预测音节进行组合,得到所述音节序列。
4.根据权利要求1所述的方法,其特征在于,所述对所述编码隐特征和所述音节序列进行再解码,得到所述待识别语音数据对应的文本序列,包括:
将所述编码隐特征和所述音节序列输入至预先训练好的文本解码器中,得到所述待识别语音数据对应的文本特征;
将所述文本特征输入至预先训练好的文本分类器中,生成所述音节序列中所包含的各个音节对应的文本概率分布;所述文本概率分布用于表征各所述音节所对应的多个预测文本及所述音节属于各所述预测文本的概率;
根据所述文本概率分布从所述多个预测文本中选取候选文本,得到候选文本序列;
对所述候选文本序列进行筛选,得到所述待识别语音数据对应的文本序列。
5.根据权利要求4所述的方法,其特征在于,所述根据所述文本概率分布从所述多个预测文本中选取候选文本,得到候选文本序列,包括:
根据所述音节序列的起始音节对应的文本概率分布,从所述起始音节对应的多个预测文本中选取所述起始音节的候选文本;
将所述起始音节的候选文本与下一音节所对应的多个预测文本进行组合,从得到的多个文本组合结果中选取候选组合结果;
将所述候选组合结果依次与后续各音节所对应的多个预测文本进行组合,得到所述候选文本序列。
6.一种语音识别模型的训练方法,其特征在于,包括:
获取训练样本,所述训练样本包括样本语音数据及所述样本语音数据对应的标签;所述标签包括音节标签和文本标签;
将所述训练样本输入至待训练语音识别模型中,得到语音识别处理结果;
根据所述语音识别处理结果和所述标签的差异程度,确定所述待训练语音识别模型的损失值;
根据所述损失值,对所述待训练语音识别模型进行迭代训练,直至所述损失值满足预设的收敛条件,得到训练后的语音识别模型。
7.一种语音识别装置,其特征在于,包括:
特征提取模块,用于提取待识别语音数据的多个语音帧对应的语音特征;
编码模块,用于对所述语音特征进行编码,得到所述语音特征的编码隐特征;
音节解码模块,用于将所述编码隐特征解码为音节序列;
文本解码模块,用于对所述编码隐特征和所述音节序列进行再解码,得到所述待识别语音数据对应的文本序列。
8.一种语音识别模型的训练装置,其特征在于,包括:
样本获取模块,用于获取训练样本,所述训练样本包括样本语音数据及所述样本语音数据对应的标签;所述标签包括音节标签和文本标签;
处理模块,用于将所述训练样本输入至待训练语音识别模型中,得到语音识别处理结果;
损失确定模块,用于根据所述语音识别处理结果和所述标签的差异程度,确定所述待训练语音识别模型的损失值;
模型训练模块,用于根据所述损失值,对所述待训练语音识别模型进行迭代训练,直至所述损失值满足预设的收敛条件,得到训练后的语音识别模型。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~6任一项所述的方法。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1~6任一项所述的方法。
CN202111328256.1A 2021-11-10 2021-11-10 语音识别方法、语音识别装置、存储介质及电子设备 Pending CN114067783A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111328256.1A CN114067783A (zh) 2021-11-10 2021-11-10 语音识别方法、语音识别装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111328256.1A CN114067783A (zh) 2021-11-10 2021-11-10 语音识别方法、语音识别装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN114067783A true CN114067783A (zh) 2022-02-18

Family

ID=80274725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111328256.1A Pending CN114067783A (zh) 2021-11-10 2021-11-10 语音识别方法、语音识别装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN114067783A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114743554A (zh) * 2022-06-09 2022-07-12 武汉工商学院 基于物联网的智能家居交互方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114743554A (zh) * 2022-06-09 2022-07-12 武汉工商学院 基于物联网的智能家居交互方法及装置

Similar Documents

Publication Publication Date Title
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
US20240161732A1 (en) Multi-dialect and multilingual speech recognition
CN112712804B (zh) 语音识别方法、系统、介质、计算机设备、终端及应用
CN113692616B (zh) 用于在端到端模型中的跨语言语音识别的基于音素的场境化
CN109887484B (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
US7966173B2 (en) System and method for diacritization of text
CN115516552A (zh) 使用未说出的文本和语音合成的语音识别
CN110377916B (zh) 词预测方法、装置、计算机设备及存储介质
KR20180114781A (ko) 방언을 표준어로 변환하는 방법 및 장치
CN112397056B (zh) 语音评测方法及计算机存储介质
CN118043885A (zh) 用于半监督语音识别的对比孪生网络
KR20240089276A (ko) 다중 언어 자동 스피치 인식을 위한 공동 비지도 및 지도 트레이닝
Suyanto et al. End-to-End speech recognition models for a low-resourced Indonesian Language
Alrumiah et al. Intelligent Quran Recitation Recognition and Verification: Research Trends and Open Issues
Ons et al. Fast vocabulary acquisition in an NMF-based self-learning vocal user interface
CN114067783A (zh) 语音识别方法、语音识别装置、存储介质及电子设备
CN116361442B (zh) 基于人工智能的营业厅数据分析方法及系统
CN113362809A (zh) 语音识别方法、装置和电子设备
Dey et al. A low footprint automatic speech recognition system for resource constrained edge devices
Sharan et al. ASR for Speech based Search in Hindi using Attention based Model
CN117727288B (zh) 一种语音合成方法、装置、设备及存储介质
CN113763938B (zh) 语音识别方法、介质、装置和计算设备
CN114841162B (zh) 文本处理方法、装置、设备及介质
JP7556395B2 (ja) データ処理装置、データ処理方法及びデータ処理プログラム
US20230103722A1 (en) Guided Data Selection for Masked Speech Modeling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination