CN113948085A - 语音识别方法、系统、电子设备和存储介质 - Google Patents

语音识别方法、系统、电子设备和存储介质 Download PDF

Info

Publication number
CN113948085A
CN113948085A CN202111577269.2A CN202111577269A CN113948085A CN 113948085 A CN113948085 A CN 113948085A CN 202111577269 A CN202111577269 A CN 202111577269A CN 113948085 A CN113948085 A CN 113948085A
Authority
CN
China
Prior art keywords
acoustic
coding
audio
sequence
acoustic coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111577269.2A
Other languages
English (en)
Other versions
CN113948085B (zh
Inventor
陶建华
田正坤
易江燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202111577269.2A priority Critical patent/CN113948085B/zh
Publication of CN113948085A publication Critical patent/CN113948085A/zh
Application granted granted Critical
Publication of CN113948085B publication Critical patent/CN113948085B/zh
Priority to US17/868,507 priority patent/US11501759B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Abstract

本发明实施例公开了一种语音识别方法、系统、电子设备和存储介质,涉及语音识别技术领域。该实施例包括:对待识别音频进行编码表示,获得所述待识别音频的声学编码状态向量序列;对所述待识别音频的声学编码状态向量序列进行稀疏编码,获得声学编码稀疏向量;确定预设的词表中每一标签的文本预测向量;根据所述声学编码稀疏向量和所述文本预测向量,识别所述待识别音频,确定与所述待识别音频对应的文本内容。本发明实施例通过对待识别音频的声学编码状态向量进行稀疏编码,得到待识别音频的声学编码稀疏向量,从而降低编码帧数以实现降低计算代价,提升语音识别的速度。

Description

语音识别方法、系统、电子设备和存储介质
技术领域
本申请涉及语音识别技术领域,尤其涉及一种语音识别方法、系统、电子设备和存储介质。
背景技术
基于Transducer的语音识别模型在流式语音识别领域具有重要的应用价值,其典型特点就是能够直接适配流式语音识别任务。其采用逐帧计算的方法进行训练和推理,这种方式虽然使其能够直接应用于流式语音识别任务,但是也带来了两方面的问题:
一是对于每帧语音片段都需要单独计算标记的概率分布,训练过程造成极大的内存消耗和计算量,导致计算效率低下;
二是模型在推理过程中需要逐帧推理,由于音频中语音帧过多(典型的一秒钟就包含100帧音频),存在大量的计算量,进而推理速度比较慢。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本发明实施例提供一种语音识别方法、系统、电子设备和计算机可读存储介质。
第一方面,本发明实施例提供了一种语音识别方法,所述方法包括:对待识别音频进行编码表示,获得所述待识别音频的声学编码状态向量序列;对所述待识别音频的声学编码状态向量序列进行稀疏编码,获得声学编码稀疏向量;确定预设的词表中每一标签的文本预测向量;根据所述声学编码稀疏向量和所述文本预测向量,识别所述待识别音频,确定与所述待识别音频对应的文本内容。
在可选的实施例中,对所述待识别音频的声学编码状态向量序列进行稀疏编码,获得声学编码稀疏向量包括:计算所述声学编码状态向量序列中每一声学编码状态向量映射至所述预设的词表中每一标签的概率,根据所述概率,确定切分点;基于所述切分点,对所述声学编码状态向量序列进行切分,获得声学编码切分序列;对所述声学编码切分序列进行稀疏编码,获得声学编码稀疏向量。
在可选的实施例中,对待识别音频进行编码表示,获得所述待识别音频的声学编码状态向量序列包括:获取所述待识别音频的声学特征;对所述待识别音频的声学特征进行编码表示,获得所述待识别音频的声学编码状态向量序列。
在可选的实施例中,所述标签包括空格标签和非空格标签;
计算所述声学编码状态向量序列中每一声学编码状态向量映射至所述预设的词表中每一标签的概率,根据所述概率,确定切分点包括:对所述声学编码状态向量序列中每一声学编码状态向量进行线性映射,确定所述声学编码状态向量映射至所述预设的词表中每一标签的概率分布;根据所述概率分布,确定所述声学编码状态向量映射至非空格标签集合的概率;根据所述声学编码状态向量映射至非空格标签集合的概率,确定切分点。
在可选的实施例中,根据所述声学编码状态向量映射至非空格标签集合的概率,确定切分点包括:将非空格标签集合的概率大于预设阈值的声学编码状态向量标记为触发尖峰;将两个相邻的所述触发尖峰的中间位置标记为切分点。
在可选的实施例中,所述方法还包括根据下式对所述声学编码切分序列进行稀疏编码,获得声学编码稀疏向量:
Figure 520424DEST_PATH_IMAGE001
其中,
Figure 377522DEST_PATH_IMAGE002
表示所述声学编码切分序列,
Figure DEST_PATH_IMAGE003
表示线性编码函数,
Figure 602966DEST_PATH_IMAGE004
表示声学编码切分序列经线性编码函数
Figure DEST_PATH_IMAGE005
编码后的能量值,
Figure 254528DEST_PATH_IMAGE006
表示对能量值
Figure DEST_PATH_IMAGE007
进行归一化操作得到的权重系数,
Figure 831003DEST_PATH_IMAGE008
表示 j 时刻的能量值,
Figure 226212DEST_PATH_IMAGE009
表示t时刻的声学编码状态向量,
Figure DEST_PATH_IMAGE010
表示根据权重系数
Figure 306163DEST_PATH_IMAGE011
对所述声学编码切分序列进行加权求和,得到声学编码稀疏向量,k表示第k个声学编码切分序列,l和r分别表示声学编码切分序列的起始时刻和截止时刻。
第二方面,本发明实施例提供了一种语音识别系统,所述语音识别系统包括声学编码器、语言预测器、联合网络、稀疏编码层;
其中,所述声学编码器用于对待识别音频进行编码表示,获得所述待识别音频的声学编码状态向量序列;
所述稀疏编码层用于对所述待识别音频的声学编码状态向量序列进行稀疏编码,获得声学编码稀疏向量;
所述语言预测器用于确定预设的词表中每一标签的文本预测向量;
所述联合网络用于根据所述声学编码稀疏向量和所述文本预测向量,识别所述待识别音频,确定与所述待识别音频对应的文本内容。
在可选地实施例中,所述稀疏编码层包括CTC预测层和声学状态稀疏层;
所述CTC预测层用于计算所述声学编码状态向量序列中每一声学编码状态向量映射至所述预设的词表中每一标签的概率,根据所述概率,确定切分点;基于所述切分点,对所述声学编码状态向量序列进行切分,获得声学编码切分序列;
所述声学状态稀疏层用于对所述声学编码切分序列进行稀疏编码,获得声学编码稀疏向量。
在可选的实施例中,所述声学编码器还用于:获取所述待识别音频的声学特征;对所述待识别音频的声学特征进行编码表示,获得所述待识别音频的声学编码状态向量序列。
在可选的实施例中,所述标签包括空格标签和非空格标签;
所述CTC预测层用于:对所述声学编码状态向量序列中每一声学编码状态向量进行线性映射,确定所述声学编码状态向量映射至所述预设的词表中每一标签的概率分布;根据所述概率分布,确定所述声学编码状态向量映射至非空格标签集合的概率;根据所述声学编码状态向量映射至非空格标签集合的概率,确定切分点。
在可选的实施例中,所述CTC预测层用于:将非空格标签集合的概率大于预设阈值的声学编码状态向量标记为触发尖峰;将两个相邻的所述触发尖峰的中间位置标记为切分点。
在可选的实施例中,所述声学状态稀疏层根据下式对所述声学编码切分序列进行稀疏编码,获得声学编码稀疏向量:
Figure DEST_PATH_IMAGE012
其中,
Figure 394205DEST_PATH_IMAGE013
表示所述声学编码切分序列,
Figure DEST_PATH_IMAGE014
表示线性编码函数,
Figure 192397DEST_PATH_IMAGE015
表示声学编码切分序列经线性编码函数
Figure DEST_PATH_IMAGE016
编码后的能量值,
Figure 391297DEST_PATH_IMAGE017
表示对能量值
Figure DEST_PATH_IMAGE018
进行归一化操作得到的权重系数,
Figure 325755DEST_PATH_IMAGE008
表示 j 时刻的能量值,
Figure 584698DEST_PATH_IMAGE009
表示t时刻的声学编码状态向量,
Figure 339027DEST_PATH_IMAGE010
表示根据权重系数
Figure 76039DEST_PATH_IMAGE011
对所述声学编码切分序列进行加权求和,得到声学编码稀疏向量,k表示第k个声学编码切分序列,l和r分别表示声学编码切分序列的起始时刻和截止时刻。
第三方面,本发明实施例还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使得所述处理器执行以下步骤:对待识别音频进行编码表示,获得所述待识别音频的声学编码状态向量序列;对所述待识别音频的声学编码状态向量序列进行稀疏编码,获得声学编码稀疏向量;确定预设的词表中每一标签的文本预测向量;根据所述声学编码稀疏向量和所述文本预测向量,识别所述待识别音频,确定与所述待识别音频对应的文本内容。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例的语音识别方法。
上述实施例中的一个或多个技术方案至少具有如下优点的部分或全部:
通过对待识别音频的声学编码状态向量进行稀疏编码,得到待识别音频的声学编码稀疏向量,从而降低编码帧数以实现降低计算代价,提升语音识别的速度。更具体的,本发明实施例先连续的待识别音频进行切分,对每个切分内的音频帧进行稀疏编码,得到稀疏帧,通过稀疏帧进行解码,减少解码步数,降低计算量,从而较快语音识别速度。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示意性地示出了本发明实施例的语音识别方法的主要步骤的流程图;
图2示意性地示出了本发明实施例的语音识别系统的主要模块的示意图;
图3示意性地示出了本发明实施例的语音识别方法的子流程的示意图;
图4示意性地示出了本发明实施例的语音识别方法的另一子流程的示意图;
图5示意性地示出了本发明实施例的语音识别系统的结构示意图;
图6示意性地示出了适用于本发明实施例的语音识别方法的系统架构;
图7示意性示出了本发明实施例提供的电子设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
传统的Transducer语音识别模型,其通常包括声学编码器,语言预测器和联合网络三部分。声学编码器负责将输入声学特征编码为声学编码状态向量,语言预测器输入为空格标签或者预先设置的词表中的文本标签,输出为当前时刻预测的文本预测状态向量,联合网络输入为当前时刻声学编码器输出的声学编码状态向量和语言预测器输出的文本预测状态向量,输出得到词表中所有文本标签的概率。然而,这种模型采用逐帧计算的方法进行训练和推理,造成极大的内存消耗和计算量,识别效率慢。为解决上述技术问题,本发明实施例提供了一种语音识别方法和语音识别系统,该方法和系统改变了传统的Transducer语音识别模型的计算方式,将音频的编码状态进行稀疏表示,从而降低模型参与后续训练和推理的编码帧数,实现了降低计算代价,提升速度的作用。
图1示意性地示出了本发明一实施例的语音识别方法的主要步骤的流程示意图。
如图1所示,该语音识别方法包括:
步骤S101:对待识别音频进行编码表示,获得所述待识别音频的声学编码状态向量序列;
步骤S102:对所述待识别音频的声学编码状态向量序列进行稀疏编码,获得声学编码稀疏向量;
步骤S103:确定预设的词表中每一标签的文本预测向量;
步骤S104:根据所述声学编码稀疏向量和所述文本预测向量,识别所述待识别音频,确定与所述待识别音频对应的文本内容。
该语音识别方法可以应用于如图2所示的语音识别系统200。如图2所示,该语音识别系统200包括声学编码器201、语言预测器202、稀疏编码层203和联合网络204。
对于步骤S101,对待识别音频进行编码表示包括对该待识别音频的声学特征进行编码表示。因此,该步骤包括获取待识别音频的声学特征,对该待识别音频的声学特征进行编码表示,以获得待识别音频的声学编码状态向量序列。其中,待识别音频的声学特征例如可以是MFCC特征,也可以是FBank特征等。MFCC(Mel-Frequency Cepstral Coefficients,梅尔倒谱系数)和FBank(Filterbank,滤波器组特征)特征是语音识别常用的一种特征。在获得待识别音频的声学特征之后,对待识别音频的声学特征进行编码表示,获得待识别音频的声学编码状态向量。
结合图2,可以将待识别音频输入语音识别系统200的声学编码器201中进行编码表示,得到声学编码状态向量序列。在可选地实施例中,声学编码器可以采用基于循环神经网络,卷积神经网络或者是Transformer模型以及这些模型的变体结构或者组合结构构成。
对于步骤S102,对待识别音频的声学编码状态向量序列进行稀疏编码,获得声学编码稀疏向量,基于该声学编码稀疏向量进行后续计算可以实现用尽可能少的资源表示尽可能多的知识,以此提高计算效率的效果。如图3所示,该步骤包括如下子步骤:
步骤S301:计算所述声学编码状态向量序列中每一声学编码状态向量映射至所述预设的词表中每一标签的概率,根据所述概率,确定切分点;
步骤S302:基于所述切分点,对所述声学编码状态向量序列进行切分,获得声学编码切分序列;
步骤S303:对所述声学编码切分序列进行稀疏编码,获得声学编码稀疏向量;
在本实施例中,标签(label,也可以称为标记)包括空格标签和非空格标签,该空格标签和非空格标签可以记录在预设的词表中。如图4所示,确定切分点的具体步骤包括:
步骤S401:对所述声学编码状态向量序列中每一声学编码状态向量进行线性映射,确定所述声学编码状态向量映射至所述预设的词表中每一标签的概率分布;
步骤S402:根据所述概率分布,确定所述声学编码状态向量映射至非空格标签集合的概率;
步骤S403:根据所述声学编码状态向量映射至非空格标签集合的概率,确定切分点。
本实施例可以通过线性映射计算得到声学编码状态向量映射至空格标签和非空格标签的概率,从而得到该声学编码状态向量映射至每一标签的概率分布。然后取出计算得到的空格标签的概率,并根据下式计算得到非空格标签集合的概率:
Figure 130583DEST_PATH_IMAGE019
其中,
Figure DEST_PATH_IMAGE020
表示t时刻的声学编码状态向量,BLK表示空格标签,nBLK表示非空格标签的集合,
Figure 560427DEST_PATH_IMAGE021
表示预空格标签的概率,
Figure 67632DEST_PATH_IMAGE022
表示非空格标签集合的概率。
在预测得到待识别音频的声学编码状态向量对应的非空格标签集合的概率之后,可以根据该概率,确定切分点,以根据切分点将声学编码状态向量序列切分成长短不一的声学编码切分序列。其中,根据上述概率确定切分点的步骤包括:将非空格标签集合的概率大于预设阈值的声学编码状态向量标记为触发尖峰;将两个相邻的所述触发尖峰的中间位置标记为切分点。作为示例,预设阈值可以是0.5。即如果非空格标签集合的概率大于0.5,则标记为一个触发尖峰。然后,将两个相邻的触发尖峰中间位置记作切分点,基于该切分点将编码状态向量序列切分成长短不一的声学编码切分序列。
在得到声学编码切分序列之后,对声学编码切分序列中的声学编码状态向量进行进一步稀疏编码,其编码过程如下式所示:
Figure 608335DEST_PATH_IMAGE012
其中,
Figure 251805DEST_PATH_IMAGE013
表示所述声学编码切分序列,
Figure 586972DEST_PATH_IMAGE014
表示线性编码函数,
Figure 847052DEST_PATH_IMAGE015
表示声学编码切分序列经线性编码函数
Figure 925866DEST_PATH_IMAGE016
编码后的能量值,
Figure 423844DEST_PATH_IMAGE017
表示对能量值
Figure 929911DEST_PATH_IMAGE018
进行归一化操作得到的权重系数,
Figure 677288DEST_PATH_IMAGE008
表示 j 时刻的能量值,
Figure 559793DEST_PATH_IMAGE009
表示t时刻的声学编码状态向量,
Figure 912277DEST_PATH_IMAGE010
表示根据权重系数
Figure 854825DEST_PATH_IMAGE011
对所述声学编码切分序列进行加权求和,得到声学编码稀疏向量,k表示第k个声学编码切分序列,l和r分别表示声学编码切分序列的起始时刻和截止时刻。
结合图2,可以通过语音识别系统200的稀疏编码层203对待识别音频的声学编码状态向量序列进行稀疏编码,获得声学编码稀疏向量。
在可选地实施例中,如图5所示,稀疏编码层503包括CTC预测层5031和声学状态稀疏层5032,其中,CTC预测层5031用于计算所述声学编码状态向量序列中每一声学编码状态向量映射至所述预设的词表中每一标签的概率,根据所述概率,确定切分点;基于所述切分点,对所述声学编码状态向量序列进行切分,获得声学编码切分序列。CTC预测层5031可以采用CTC(Connectionist Temporal Classification,联结时序分类模型,)模型实现。其是端到端语音识别模型的一种,其典型特点是建模单元中包含空格标签,模型输出的非空格概率分布呈现尖峰状态,尖峰表示预测得到某个输出标记的概率非常高,接近1,同时尖峰的位置通常位于对应输出标记的发音范围中。所述声学状态稀疏层5032用于对所述声学编码切分序列进行稀疏编码,获得声学编码稀疏向量。
对于步骤S103,结合图2,可以通过语音识别系统200中的预先训练的语言预测器202确定每一标签的文本预测向量,其中,标签包括空格标签和非空格标签。在本实施例中,语言预测器的作用类似于语言模型,实现了建模标签之间依赖关系的效果。语言预测器对标签之间依赖关系的建模主要依据的是其原理,其通过先前预测得到的标记作为输入,经过前向计算预测得到文本预测向量,文本预测向量经过联合网络计算得到新的标签,将新的标签再输入至语言预测器,重复这一过程。然而模型在最开始位置,并没有预测出来任何非空格标签,此时语言预测器采用空格标记作为输入,空格标记在这里的作用类似于一个起始标记,使得模型能够正常运转。
对于步骤S104,结合图2,将上述声学编码稀疏向量和上述文本预测向量输入至联合网络204中,计算得到输出标签的概率分布,根据该概率分布确定与所述待识别音频对应的文本内容。其中,本发明实施例中的语音识别系统是从左到右沿着时间轴进行解码的。在语音识别系统的训练过程中,联合网络采用声学编码稀疏序列和文本预测序列构建训练概率图,在图上利用基于动态规划思想的前后向算法对模型所有可能的文本标签-音频特征对齐路径进行概率求和,并求负对数损失进行优化。在推理过程中,联合网络计算得到标签的概率分布,如果概率分布中最大概率的是空格标签,因为空格标签并没有任何语言信息,所以保持文本预测向量不变,更新输入的声学编码稀疏向量,如果概率分布中最大概率的是非空格标签,则更新文本预测向量,保持声学编码稀疏向量不变,继续解码直至达到停止条件。
本发明实施例的语音识别方法,通过对待识别音频的声学编码状态向量进行稀疏编码,得到待识别音频的声学编码稀疏向量,从而降低编码帧数以实现降低计算代价,提升语音识别的速度。本发明实施例的语音识别方法,从根本上实现了针对Transducer模型计算量的优化,能够适用于模型的训练和推理两个过程,提升训练效率,降低训练过程中显存消耗,降低推理的步数,提升推理的速度,其是针对Transducer模型计算方式的改变,对结构改变不大,可以适用于多种现有Transducer模型。对更具体的,本发明实施例先连续的待识别语音待识别音频进行切分,对每个切分内的音频帧进行稀疏编码,得到稀疏帧,通过稀疏帧进行解码,减少解码步数,降低计算量,从而较快语音识别速度。
图6示意性地示出了适用于本发明实施例的语音识别方法的系统架构。
如图6所示,适用于本发明实施例的语音识别方法的系统架构600包括:终端设备601、602、603,网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等。
终端设备601、602、603通过网络604与服务器605交互,以接收或发送消息等。终端设备601、602、603上可以安装有各种通讯客户端应用。
终端设备601、602、603可以是具有数据采集功能的电子设备。
服务器605可以是提供各种服务的服务器。服务器可以对接收到的请求或消息进行分析和处理,并将数据处理后得到的结果反馈给终端设备。
需要说明的是,本发明实施例所提供的语音识别方法一般可以由服务器605执行。本发明实施例所提供的语音识别方法也可以由不同于服务器605且能够与终端设备601、602、603和/或服务器605通信的服务器或服务器集群执行。
应该理解的是,图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图7示意性示出了本发明一实施例的电子设备的示意图。如图7所示,本发明实施例提供的电子设备700包括处理器701、通信接口702、存储器703和通信总线704,其中,处理器701、通信接口702和存储器703通过通信总线704完成相互间的通信;存储器703,用于存放至少一可执行指令;处理器701,用于执行存储器上所存放的可执行指令时,实现如上所述的语音识别方法。
具体而言,当实现上述模型迭代方法时,上述可执行指令使得上述处理器执行以下步骤:
对待识别音频进行编码表示,获得所述待识别音频的声学编码状态向量序列;
对所述待识别音频的声学编码状态向量序列进行稀疏编码,获得声学编码稀疏向量;
确定预设的词表中每一标签的文本预测向量;
根据所述声学编码稀疏向量和所述文本预测向量,识别所述待识别音频,确定与所述待识别音频对应的文本内容。
上述存储器703可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器703具有用于执行上述方法中的任何方法步骤的程序代码的存储空间。例如,用于程序代码的存储空间可以包括分别用于实现上面的方法中的各个步骤的各个程序代码。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,光盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为便携式或者固定存储单元。该存储单元可以具有与上述电子设备中的存储器703类似布置的存储段或者存储空间等。程序代码可以例如以适当形式进行压缩。通常,存储单元包括用于执行根据本发明的实施例的方法步骤的程序,即可以由例如诸如701之类的处理器读取的代码,这些代码当由电子设备运行时,导致该电子设备执行上面所描述的方法中的各个步骤。
本发明实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现如上所述的模型迭代方法。
该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的;也可以是单独存在,而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本发明实施例的方法。
根据本发明的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
本发明的实施例提供的上述各个技术方案可以全部或部分步骤以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明的实施例的电子设备中的一些或者全部部件的一些或者全部功能。本发明的实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。实现本发明的实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者步骤与另一个实体或步骤区分开来,而不一定要求或者暗示这些实体或步骤之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (14)

1.一种语音识别方法,其特征在于,所述方法包括:
对待识别音频进行编码表示,获得所述待识别音频的声学编码状态向量序列;
对所述待识别音频的声学编码状态向量序列进行稀疏编码,获得声学编码稀疏向量;
确定预设的词表中每一标签的文本预测向量;
根据所述声学编码稀疏向量和所述文本预测向量,识别所述待识别音频,确定与所述待识别音频对应的文本内容。
2.根据权利要求1所述的方法,其特征在于,对所述待识别音频的声学编码状态向量序列进行稀疏编码,获得声学编码稀疏向量包括:
计算所述声学编码状态向量序列中每一声学编码状态向量映射至所述预设的词表中每一标签的概率,根据所述概率,确定切分点;
基于所述切分点,对所述声学编码状态向量序列进行切分,获得声学编码切分序列;
对所述声学编码切分序列进行稀疏编码,获得声学编码稀疏向量。
3.根据权利要求1所述的方法,其特征在于,对待识别音频进行编码表示,获得所述待识别音频的声学编码状态向量序列包括:
获取所述待识别音频的声学特征;
对所述待识别音频的声学特征进行编码表示,获得所述待识别音频的声学编码状态向量序列。
4.根据权利要求2所述的方法,其特征在于,所述标签包括空格标签和非空格标签;
计算所述声学编码状态向量序列中每一声学编码状态向量映射至所述预设的词表中每一标签的概率,根据所述概率,确定切分点包括:
对所述声学编码状态向量序列中每一声学编码状态向量进行线性映射,确定所述声学编码状态向量映射至所述预设的词表中每一标签的概率分布;
根据所述概率分布,确定所述声学编码状态向量映射至非空格标签集合的概率;
根据所述声学编码状态向量映射至非空格标签集合的概率,确定切分点。
5.根据权利要求3所述的方法,其特征在于,根据所述声学编码状态向量映射至非空格标签集合的概率,确定切分点包括:
将非空格标签集合的概率大于预设阈值的声学编码状态向量标记为触发尖峰;
将两个相邻的所述触发尖峰的中间位置标记为切分点。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括根据下式对所述声学编码切分序列进行稀疏编码,获得声学编码稀疏向量:
Figure 882813DEST_PATH_IMAGE001
其中,
Figure 243387DEST_PATH_IMAGE002
表示所述声学编码切分序列,
Figure 630506DEST_PATH_IMAGE003
表示线性编码函数,
Figure 531466DEST_PATH_IMAGE004
表示声学编码切分序列经线性编码函数
Figure 422062DEST_PATH_IMAGE005
编码后的能量值,
Figure 219117DEST_PATH_IMAGE006
表示对能量值
Figure 359111DEST_PATH_IMAGE007
进行归一化操作得到的权重系数,
Figure 532603DEST_PATH_IMAGE008
表示 j 时刻的能量值,
Figure 543285DEST_PATH_IMAGE009
表示t时刻的声学编码状态向量,
Figure 511241DEST_PATH_IMAGE010
表示根据权重系数
Figure 138531DEST_PATH_IMAGE011
对所述声学编码切分序列进行加权求和,得到声学编码稀疏向量,k表示第k个声学编码切分序列,l和r分别表示声学编码切分序列的起始时刻和截止时刻。
7.一种语音识别系统,其特征在于,所述语音识别系统包括声学编码器、语言预测器、联合网络、稀疏编码层;
其中,所述声学编码器用于对待识别音频进行编码表示,获得所述待识别音频的声学编码状态向量序列;
所述稀疏编码层用于对所述待识别音频的声学编码状态向量序列进行稀疏编码,获得声学编码稀疏向量;
所述语言预测器用于确定预设的词表中每一标签的文本预测向量;
所述联合网络用于根据所述声学编码稀疏向量和所述文本预测向量,识别所述待识别音频,确定与所述待识别音频对应的文本内容。
8.根据权利要求7所述的系统,其特征在于,所述稀疏编码层包括CTC预测层和声学状态稀疏层;
所述CTC预测层用于计算所述声学编码状态向量序列中每一声学编码状态向量映射至所述预设的词表中每一标签的概率,根据所述概率,确定切分点;基于所述切分点,对所述声学编码状态向量序列进行切分,获得声学编码切分序列;
所述声学状态稀疏层用于对所述声学编码切分序列进行稀疏编码,获得声学编码稀疏向量。
9.根据权利要求7所述的系统,其特征在于,
所述声学编码器还用于:获取所述待识别音频的声学特征;对所述待识别音频的声学特征进行编码表示,获得所述待识别音频的声学编码状态向量序列。
10.根据权利要求8所述的系统,其特征在于,所述标签包括空格标签和非空格标签;所述CTC预测层用于:
对所述声学编码状态向量序列中每一声学编码状态向量进行线性映射,确定所述声学编码状态向量映射至所述预设的词表中每一标签的概率分布;
根据所述概率分布,确定所述声学编码状态向量映射至非空格标签集合的概率;
根据所述声学编码状态向量映射至非空格标签集合的概率,确定切分点。
11.根据权利要求10所述的系统,其特征在于,所述CTC预测层用于:
将非空格标签集合的概率大于预设阈值的声学编码状态向量标记为触发尖峰;
将两个相邻的所述触发尖峰的中间位置标记为切分点。
12.根据权利要求8所述的系统,其特征在于,所述声学状态稀疏层根据下式对所述声学编码切分序列进行稀疏编码,获得声学编码稀疏向量:
Figure 850135DEST_PATH_IMAGE012
其中,
Figure 715323DEST_PATH_IMAGE013
表示所述声学编码切分序列,
Figure 385339DEST_PATH_IMAGE014
表示线性编码函数,
Figure 968767DEST_PATH_IMAGE015
表示声学编码切分序列经线性编码函数
Figure 218482DEST_PATH_IMAGE016
编码后的能量值,
Figure 203756DEST_PATH_IMAGE017
表示对能量值
Figure 44673DEST_PATH_IMAGE018
进行归一化操作得到的权重系数,
Figure 115397DEST_PATH_IMAGE008
表示 j 时刻的能量值,
Figure 168804DEST_PATH_IMAGE009
表示t时刻的声学编码状态向量,
Figure 539742DEST_PATH_IMAGE010
表示根据权重系数
Figure 20402DEST_PATH_IMAGE011
对所述声学编码切分序列进行加权求和,得到声学编码稀疏向量,k表示第k个声学编码切分序列,l和r分别表示声学编码切分序列的起始时刻和截止时刻。
13.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使得所述处理器执行以下步骤:
对待识别音频进行编码表示,获得所述待识别音频的声学编码状态向量序列;
对所述待识别音频的声学编码状态向量序列进行稀疏编码,获得声学编码稀疏向量;
确定预设的词表中每一标签的文本预测向量;
根据所述声学编码稀疏向量和所述文本预测向量,识别所述待识别音频,确定与所述待识别音频对应的文本内容。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6中任一项所述的方法。
CN202111577269.2A 2021-12-22 2021-12-22 语音识别方法、系统、电子设备和存储介质 Active CN113948085B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111577269.2A CN113948085B (zh) 2021-12-22 2021-12-22 语音识别方法、系统、电子设备和存储介质
US17/868,507 US11501759B1 (en) 2021-12-22 2022-07-19 Method, system for speech recognition, electronic device and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111577269.2A CN113948085B (zh) 2021-12-22 2021-12-22 语音识别方法、系统、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN113948085A true CN113948085A (zh) 2022-01-18
CN113948085B CN113948085B (zh) 2022-03-25

Family

ID=79339189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111577269.2A Active CN113948085B (zh) 2021-12-22 2021-12-22 语音识别方法、系统、电子设备和存储介质

Country Status (2)

Country Link
US (1) US11501759B1 (zh)
CN (1) CN113948085B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116682420A (zh) * 2022-12-30 2023-09-01 荣耀终端有限公司 语音识别方法、电子设备及可读介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110035215A1 (en) * 2007-08-28 2011-02-10 Haim Sompolinsky Method, device and system for speech recognition
US20120053948A1 (en) * 2010-08-24 2012-03-01 Frederic Mustiere Sparse data compression
CN105931633A (zh) * 2016-05-30 2016-09-07 深圳市鼎盛智能科技有限公司 语音识别的方法及系统
CN107039042A (zh) * 2016-12-09 2017-08-11 电子科技大学 一种基于低一致性词典和稀疏表示的音频修复方法和系统
CN109213988A (zh) * 2017-06-29 2019-01-15 武汉斗鱼网络科技有限公司 基于N-gram模型的弹幕主题提取方法、介质、设备及系统
CN113327597A (zh) * 2021-06-23 2021-08-31 网易(杭州)网络有限公司 语音识别方法、介质、装置和计算设备
CN113488028A (zh) * 2021-06-23 2021-10-08 中科极限元(杭州)智能科技股份有限公司 基于快速跳跃解码的语音转写识别训练解码方法及系统
CN113823264A (zh) * 2021-06-30 2021-12-21 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机可读存储介质及计算机设备

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2010830C (en) * 1990-02-23 1996-06-25 Jean-Pierre Adoul Dynamic codebook for efficient speech coding based on algebraic codes
JPH0451200A (ja) * 1990-06-18 1992-02-19 Fujitsu Ltd 音声符号化方式
JPH0451199A (ja) * 1990-06-18 1992-02-19 Fujitsu Ltd 音声符号化・復号化方式
US6370502B1 (en) * 1999-05-27 2002-04-09 America Online, Inc. Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec
JP5096474B2 (ja) * 2006-10-10 2012-12-12 クゥアルコム・インコーポレイテッド オーディオ信号を符号化及び復号化する方法及び装置
ES2459391T3 (es) * 2011-06-06 2014-05-09 Bridge Mediatech, S.L. Método y sistema para conseguir hashing de audio invariante al canal
US20120316886A1 (en) * 2011-06-08 2012-12-13 Ramin Pishehvar Sparse coding using object exttraction
EP2849180B1 (en) * 2012-05-11 2020-01-01 Panasonic Corporation Hybrid audio signal encoder, hybrid audio signal decoder, method for encoding audio signal, and method for decoding audio signal
US20150279351A1 (en) * 2012-12-19 2015-10-01 Google Inc. Keyword detection based on acoustic alignment
JP6157926B2 (ja) * 2013-05-24 2017-07-05 株式会社東芝 音声処理装置、方法およびプログラム
US10049683B2 (en) * 2013-10-21 2018-08-14 Dolby International Ab Audio encoder and decoder
US9620145B2 (en) * 2013-11-01 2017-04-11 Google Inc. Context-dependent state tying using a neural network
KR101844516B1 (ko) * 2014-03-03 2018-04-02 삼성전자주식회사 컨텐츠 분석 방법 및 디바이스
US9858922B2 (en) * 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
CN107424621B (zh) * 2014-06-24 2021-10-26 华为技术有限公司 音频编码方法和装置
KR102061316B1 (ko) * 2014-07-28 2019-12-31 니폰 덴신 덴와 가부시끼가이샤 부호화 방법, 장치, 프로그램 및 기록 매체
DK3007467T3 (da) * 2014-10-06 2017-11-27 Oticon As Høreapparat, der omfatter en lydkildeadskillelsesenhed med lav latenstid
US9299347B1 (en) * 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
WO2018048907A1 (en) * 2016-09-06 2018-03-15 Neosensory, Inc. C/O Tmc+260 Method and system for providing adjunct sensory information to a user
US10170110B2 (en) * 2016-11-17 2019-01-01 Robert Bosch Gmbh System and method for ranking of hybrid speech recognition results with neural networks
US10354660B2 (en) * 2017-04-28 2019-07-16 Cisco Technology, Inc. Audio frame labeling to achieve unequal error protection for audio frames of unequal importance
US10304490B2 (en) * 2017-11-02 2019-05-28 AcoustiX VR Inc. Acoustic holographic recording and reproduction system using meta material layers
US10938725B2 (en) * 2018-09-27 2021-03-02 Farm & Home Cooperative Load balancing multimedia conferencing system, device, and methods
US11615785B2 (en) * 2019-05-10 2023-03-28 Robert Bosch Gmbh Speech recognition using natural language understanding related knowledge via deep feedforward neural networks
WO2021046796A1 (en) * 2019-09-12 2021-03-18 Shenzhen Voxtech Co., Ltd. Systems and methods for audio signal generation

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110035215A1 (en) * 2007-08-28 2011-02-10 Haim Sompolinsky Method, device and system for speech recognition
US20120053948A1 (en) * 2010-08-24 2012-03-01 Frederic Mustiere Sparse data compression
CN105931633A (zh) * 2016-05-30 2016-09-07 深圳市鼎盛智能科技有限公司 语音识别的方法及系统
CN107039042A (zh) * 2016-12-09 2017-08-11 电子科技大学 一种基于低一致性词典和稀疏表示的音频修复方法和系统
CN109213988A (zh) * 2017-06-29 2019-01-15 武汉斗鱼网络科技有限公司 基于N-gram模型的弹幕主题提取方法、介质、设备及系统
CN113327597A (zh) * 2021-06-23 2021-08-31 网易(杭州)网络有限公司 语音识别方法、介质、装置和计算设备
CN113488028A (zh) * 2021-06-23 2021-10-08 中科极限元(杭州)智能科技股份有限公司 基于快速跳跃解码的语音转写识别训练解码方法及系统
CN113823264A (zh) * 2021-06-30 2021-12-21 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机可读存储介质及计算机设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HAO NI ET AL.: "Improving Accented Mandarin Speech Recognition by Using Recurrent Neural Network based Language Model Adaptation", 《 2016 10TH INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING (ISCSLP)》 *
赵昀: "基于稀疏编码的卷积神经网络在语音识别中的应用", 《信息通信》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116682420A (zh) * 2022-12-30 2023-09-01 荣耀终端有限公司 语音识别方法、电子设备及可读介质
CN116682420B (zh) * 2022-12-30 2024-04-05 荣耀终端有限公司 语音识别方法、电子设备及可读介质

Also Published As

Publication number Publication date
US11501759B1 (en) 2022-11-15
CN113948085B (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
CN113936647B (zh) 语音识别模型的训练方法、语音识别方法和系统
US10762305B2 (en) Method for generating chatting data based on artificial intelligence, computer device and computer-readable storage medium
CN111128137B (zh) 一种声学模型的训练方法、装置、计算机设备和存储介质
CN110379416B (zh) 一种神经网络语言模型训练方法、装置、设备及存储介质
CN110689879B (zh) 端到端语音转写模型的训练方法、系统、装置
CN111696526B (zh) 语音识别模型的生成方法、语音识别方法、装置
CN113889076B (zh) 语音识别及编解码方法、装置、电子设备及存储介质
CN111899759B (zh) 音频数据的预训练、模型训练方法、装置、设备及介质
CN113327599B (zh) 语音识别方法、装置、介质及电子设备
CN113948085B (zh) 语音识别方法、系统、电子设备和存储介质
CN114360502A (zh) 语音识别模型的处理方法、语音识别方法及装置
CN115132209A (zh) 语音识别方法、装置、设备和介质
US11037583B2 (en) Detection of music segment in audio signal
CN113409803B (zh) 语音信号处理方法、装置、存储介质及设备
CN111563161B (zh) 一种语句识别方法、语句识别装置及智能设备
KR20200019377A (ko) 측정 노이즈 추천을 통한 칼만 필터링 방법 및 이를 기록한 기록매체
CN115713939B (zh) 语音识别方法、装置及电子设备
CN113409792B (zh) 一种语音识别方法及其相关设备
CN112259110B (zh) 音频编码方法及装置、音频解码方法及装置
CN115294974A (zh) 一种语音识别方法、装置、设备和存储介质
CN114758645A (zh) 语音合成模型的训练方法、装置、设备及存储介质
CN114067069A (zh) 一种基于深度学习的轨迹表示方法及系统
CN109285559B (zh) 角色转换点检测方法及装置、存储介质、电子设备
CN114220415A (zh) 一种音频合成方法、装置、电子设备及存储介质
CN114399992A (zh) 语音指令响应方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant