CN112509557B - 一种基于非确定化词图生成的语音识别方法及其系统 - Google Patents

一种基于非确定化词图生成的语音识别方法及其系统 Download PDF

Info

Publication number
CN112509557B
CN112509557B CN202011332447.0A CN202011332447A CN112509557B CN 112509557 B CN112509557 B CN 112509557B CN 202011332447 A CN202011332447 A CN 202011332447A CN 112509557 B CN112509557 B CN 112509557B
Authority
CN
China
Prior art keywords
graph
word
word graph
acoustic
optimal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011332447.0A
Other languages
English (en)
Other versions
CN112509557A (zh
Inventor
沈铭章
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yizhi Intelligent Technology Co ltd
Original Assignee
Hangzhou Yizhi Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yizhi Intelligent Technology Co ltd filed Critical Hangzhou Yizhi Intelligent Technology Co ltd
Priority to CN202011332447.0A priority Critical patent/CN112509557B/zh
Publication of CN112509557A publication Critical patent/CN112509557A/zh
Application granted granted Critical
Publication of CN112509557B publication Critical patent/CN112509557B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于非确定化词图生成的语音识别方法及其系统,属于语音识别技术领域。首先通过获取待处理的语音信号并对其进行预处理和特征提取;然后由声学模型计算输入的声学特征对应的声学概率;结合解码图中的图概率和声学概率通过维特比算法构建解码网络;接着,从解码网络中获取原始词图;从而对原始词图做基于优化算法的后处理工作得到包含最优路径的目标词图。最后,通过目标词图来得到最终的识别结果信息。本发明的语音识别系统在解码的过程中可以避免词图生成过程中产生的大量资源消耗问题,在不影响最终语音识别准确率的前提下,极大提升语音识别过程中词图生成的速度。

Description

一种基于非确定化词图生成的语音识别方法及其系统
技术领域
本发明涉及语音识别技术领域,具体涉及一种基于非确定化词图生成的语音识别方法及其系统。
背景技术
随着人工智能行业的迅速发展,语音识别技术得到了越来越多学术界和工业界的关注。在语音交互领域,语音识别技术作为前端的关键技术发挥着至关重要的作用。它被广泛地运用于各种人机交互系统之中,例如智能语音客服、智能音响以及智能家居等等。
目前传统的语音识别技术主要是基于HMM-DNN系统搭建起来的,这样的系统其优势在于可以通过相对较少的数据训练得到一个准确率还不错的语音识别系统。对于一个语音识别系统来说解码器是极其重要的组件,其作用是串联声学模型、发音词典以及语言模型对输入的语音特征进行处理,构建解码网络从而获取一系列最优的词序列然后从中挑选最佳词序列也就是最终的识别结果。2012年提出了一种带有改进词图生成算法的解码器,这种算法在解码过程中创建一个状态级的词图,并且通过特殊形式的确定化方法只保留每一个词序列的最佳得分路径。但是通常需要保证最终的识别准确率,需要使用一个较大的beam搜索宽度,导致最终的识别速度仍然不够快。而在随后一年内又提出了一种新的搜索算法,这种算法结合了前向和后向搜索以加速基于加权有限状态转换机解码器的解码速度,尽管解码速度得到了提升,但是这种方法由于beam值过小导致两步解码之间存在较大的差异而失去其价值。随后,现有技术报道了一种基于GPU实现的维特比搜索和前向-后向算法,达到了五倍以上的解码加速效果,由于GPU有限的显存导致不具备足够的空间来加载较大的语言模型,这一问题成为了大词汇量连续语音识别任务的瓶颈。
针对这一瓶颈,最新的现有技术提出了一种支持增量确定化的解码器,以增量的形式进行词图确定化工作,在一定程度上减少了语音结束时确定化所带来的延迟,但是该解码器实现的效果有限,当解码的语音过长时仍然存在延迟问题,甚至在后续词图确定化的过程中容易发生比较严重的内存泄漏问题,加速了内存资源的耗尽速度,造成大量资源消耗。
发明内容
鉴于上述问题,本发明提供了一种基于非确定化词图生成的语音识别方法及其系统,首先通过获取待处理的语音信号并对其进行预处理和特征提取;然后由声学模型计算输入的声学特征对应的声学概率;结合解码图的图概率和声学概率通过维特比算法构建解码网络;接着,从解码网络中获取原始词图;从而对原始词图做基于优化算法的后处理工作得到包含最优路径的目标词图。最后,通过目标词图来得到最终的识别结果信息。本发明的语音识别系统在解码的过程中可以在不影响最终语音识别准确率的前提下,极大提升语音识别过程中词图生成的速度以及避免词图生成过程中的内存泄漏问题。
为了实现上述目的,本发明采用的一种基于词图生成优化的语音识别方法,包括以下步骤。
步骤1:获取待识别的语音信号进行预处理,并提取声学特征;
步骤2:将声学特征作为预训练声学模型的输入,获取声学特征对应的声学概率;
步骤3:通过解码图和声学概率构建解码网络,采用阈值约束法对构建的解码网络大小进行约束;通过解码网络获取到原始词图,所述原始词图由状态节点和从状态节点出发的转移弧边构成;
步骤4:针对原始词图,首先对原始词图做拓扑排序,得到拓扑有序的词图;然后采用动态规划算法,确定拓扑有序的词图中每一个状态节点的最优前驱节点,再从最终状态节点回溯寻找最优代价路径,直至回到初始状态节点处,得到最优代价路径的状态节点序列,将状态节点序列对应的转移弧边上的词序列作为语音识别结果。
进一步的,所述的步骤4具体为:
步骤4.1:针对从解码网络获取到的原始词图,从所述原始词图中获取最优代价路径的词图并做拓扑排序,得到拓扑有序的词图;
步骤4.2:对于拓扑有序的词图中的全部状态节点,记录每一个状态节点的最优前驱节点以及当前状态节点处的最优代价,并且添加一个最终状态节点F作为回溯的起始状态节点,存储全局最优路径的代价G;
步骤4.3:顺序访问词图中的每一个状态节点s,对于从s出发的每一条转移弧边a,计算沿该弧边出发到达目标状态节点d处的代价c,若c值小于当前目标状态节点d处最优代价,则更新状态节点d处的最优代价,并将状态节点d的最优前驱节点设为s;若当前状态节点s处的最终代价小于全局最优路径的代价G,则更新全局最优路径的代价,并将最终状态节点F的最优前驱节点设为s;否则不做更新;
步骤4.4:重复步骤4.3,得到最终更新后的全局最优路径的代价G,以及更新后的全部状态节点及其最优前驱节点;
步骤4.5:从最终状态F开始回溯,获取每一个状态节点的最优前驱节点,并获取从最优前驱节点出发到达当前状态节点处的转移弧边,得到转移弧边上对应的输出标签,直至回到初始状态节点处,最后将得到完整的输出标签对应的词序列作为语音识别结果。
与现有技术相比,本发明具备的有益效果是:
传统的语音识别过程当中,需要对从解码网络中获取的词图做确定化工作以确保其每一个状态都不存在输入标签相同的两条转移弧边,确保输入标签序列的唯一性。然而,由于确定化的效率本身会由于词图的大小而受到极大的影响,且从解码网络中获取的原始词图尺寸非常大,确定化的过程延迟会明显增加;此外,在词图尺寸偏大的情况下,确定化会占用大量的内存资源,并且在确定化的过程当中可能会由于超出设定的内存限制而导致确定化失败,从而造成严重的内存泄漏问题。虽然后一种情况可以通过提高内存上限阈值来改善,但是并不能从根本上解决问题。
与传统的基于词图确定化的方法不同,本发明不对词图做确定化工作,而是通过直接寻求词图最优代价状态序列的方式获取最终的识别结果,首先通过获取待处理的语音信号并对其进行预处理和特征提取;然后由声学模型计算输入的声学特征对应的声学概率;由解码器结合解码图的图概率和声学概率通过维特比算法构建解码网络;接着从解码网络中获取原始的词图,从而对原始词图做基于优化算法的后处理工作得到包含最优路径的目标词图;最后通过目标词图来得到最终的识别结果信息。具体的,在对原始的词图进行优化算法的后处理工作中采用了非确定化的方式,对原始词图做拓扑排序,得到拓扑有序的词图;然后采用动态规划算法,确定拓扑有序的词图中每一个状态节点的最优前驱节点,此时的词图虽然未做确定化,但是只存在代价最优的路径,通过回溯前驱节点获取最优路径上的词序列,也就是最终的识别结果。
通过这样的方式有效避免了在语音识别系统识别长语音的词图生成过程中所产生的高延迟问题,加快语音识别速度的同时有效避免实际应用场景下可能导致的内存泄漏问题,与现有的主流确定化方法(DCG)、增量确定化方法(IDCG)相比,本发明的词图生成方法和作为新兴的词图生成方式的增量确定化方法在实时率方面性能接近,且远胜于普通的基于确定化的词图生成方式;此外,本发明方法在资源占用方面表现不仅远优于增量确定化方法,同时相比主流的确定化方法其优越性更显突出,在各种测试集下实时率表现稳定,不会出现增量确定化方法中的剧烈波动现象。
附图说明
图1为本发明提供的一种语音识别方法的流程图。
图2为本发明采用的非确定化词图生成方法流程图。
图3为本发明提供的一种语音识别系统流程图。
图4为本发明方法与其他主流方法在实时率方面的性能对比图。
图5为本发明方法与其他主流方法在内存资源占用方面的性能对比图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案做更进一步地描述。此外,本发明中所描述的实施例仅仅是作为一部分的实施例,而不是全部的实施例。
需要指出的是,本申请实施例中所涉及的术语“第一\第二\第三”仅仅是用于区别类似的对象,不代表该对象的特定顺序,可以理解为“第一\第二\第三”在适当的情况下其顺序可以互换,以使得本发明实施例能够以除了这里图示或者描述的顺序以外实施。
在对本申请实施例做进一步描述和说明之前,对本申请实施例中所涉及的相关算法和术语进行说明。
1)声学特征:从语音信号中提取出来的声学信息,通常是将语音信号经过快速傅里叶变换得到其频域信息后再经过加工处理得到的。本实施例中所提到的声学特征可以是常见的滤波器组(Filter Bank,FBank)特征或是梅尔频率倒谱系数(Mel-frequenceyCepstral coefficient,MFCC)特征或是感知线性预测(Perceptual Linear Prediction,PLP)特征等等。
2)声学模型:用于对发音相关的信息进行建模,基于所述的声学特征进行迭代训练得到。包括传统的基于隐马尔科夫模型(Hidden Markov Model,HMM)对时序信息进行建模的声学模型,例如混合高斯-隐马尔科夫模型(GMM-HMM)、深度神经网络-隐马尔科夫模型(DNN-HMM)或者TDNN。声学模型其主要作用是获取输入声学特征序列与发音单元(例如音素)序列之间的匹配度,通常以声学后验概率表示,又称声学概率。
3)解码图,这里是指传统语音识别中常用的加权有限状态转换机(Weighted-finite state transducer,WFST),该转换机由一系列状态节点和从状态节点出发的转移弧边组成,弧边上存在权重信息,这些权重信息我们统称为图概率。图概率中通常编码了转移概率、发音概率以及语言学概率等等信息,语言学概率是指由语言模型输出的词发生概率。本实施例中解码图包含了语言模型相关的信息。
4)语言模型(Language Model,LM),用于建模待识别语言中词与词之间的关联性,通常是基于概率统计或是神经网络来建模,本实施例中所提到的语言模型是基于N元文法(N-gram)的概率统计模型。通过语言模型可以知道每一个词序列W={w1,w2,···,wn}出现的概率。
5)维特比算法,是一种基于动态规划思想求解篱笆网络中最优路径的算法。本实施例在语音识别的解码过程中使用维特比算法结合一定的阈值来构建相应的解码网络。
6)词图,一种有向无环图,在语音识别当中为一种包含多条最优代价词序列的图结构。从词图的初始节点出发沿着转移边到达任意最终节点都对应一条完整的词序列,也就是一条对应输入特征序列的识别结果。
7)确定化,有限状态转换机中的经典算法。其作用是确保从状态机任一状态出发的所有转移边上不存在相同的输入标签,也就是确保输入标签序列的唯一性。
本发明的设计思路如下:
1、获取待识别的语音信号并经过预处理提取声学特征。
2、由已经训练好的声学模型计算声学特征对应的音素发音信息以及相应的声学后验概率。
3、由解码器配合解码图以及上一步计算得到的声学信息构建相应的解码网络并按照一定的阈值对网络大小进行约束。
4、从解码网络中获取原始词图,但是不对所述词图做确定化工作。
5、对于所述词图,先获取其最优代价路径词图,从而得到所述词图中最优代价的状态序列,通过回溯寻找最优前驱节点的方式获取词图中的最优词序列作为最终的识别结果。
具体的,本申请提供了一种基于非确定化词图生成的语音识别方法。图1是根据本发明提供的一种语音识别方法的流程图。
步骤S101,获取待识别的语音信号进行预处理,并提取对应的声学特征序列。这里的声学特征如上所述,可以是Fbank特征也可以是MFCC特征,或是其他常用的声学特征。
所述的预处理包括过滤长静音、分帧和加窗。
所述声学特征的提取方法具体为:对预处理后的语音信号做快速傅里叶变换获取其功率谱,然后通过三角带通滤波器组求得梅尔能量,得到语音特征。
步骤S102,通过声学模型计算所述声学特征对应的声学概率,通常是数帧语音特征同时作为声学模型的输入,以考虑每一帧特征的声学上下文信息。经过神经网络的计算之后,得到声学特征序列对应每一个发音单元的后验概率。
步骤S103,解码器结合所述声学特征对应的声学概率以及解码图中的图概率在解码图中搜索,构建解码网络,所述的解码图中包括语言模型,通过语言模型获得每个词出现的概率;所述的解码图选用加权有限状态转换机,由一系列状态节点和从状态节点出发的转移弧边构成,所述转移弧边上包含转移概率、发音概率以及语言模型概率信息。
在构建过程中通过一个容差估计值约束网络的大小,超出所述容差估计值的代价路径被剪枝,得到最差代价路径与最优代价路径之间的代价差值处于容差估计值范围内的解码网络。
步骤S104,从解码网络中获取原始词图,并从中获取包含该词图中最优代价路径的词图。此时,得到的词图中的最优代价路径可能不唯一。所述原始词图由状态节点和从状态节点出发的转移弧边构成,通过一系列的状态和转移弧边存储解码网络中的所有信息,并将它们按照解码网络中的关系串联在一起得到词图,但是对于得到的词图保留其原始信息,即该词图中存在从一个状态出发输入标签相同的转移弧边。
步骤S105,对于步骤S104中获取到的词图,使用非确定化词图生成方法,从未确定化的词图中获取得到最优状态节点序列。
步骤S106,通过所述最优状态节点序列获取对应的最优词序列也就是最终的识别结果。
在本发明的一项具体实施中,在获取语音信号对应的声学特征序列之前,该方法还包括:对语音信号进行语音活动检测(Voice Activity Detection,VAD)过滤掉无效的静音部分,保留有效的语音信号以实现降噪的效果;并且对过滤以后的语音信号做预处理,主要是语音信号的分帧、加窗等一系列操作。之后,对预处理后的分帧语音信号做快速傅里叶变换以及获取其功率谱,然后通过一系列三角带通滤波器求梅尔(Mel)能量,得到对应维度的语音特征。
所述的声学模型可以是任意结构的神经网络模型,比如基于延时神经网络(Time-Delay Neural Network,TDNN)的声学模型,混合高斯-隐马尔科夫模型(GMM-HMM)、深度神经网络-隐马尔科夫模型(DNN-HMM)等。
所述的解码图包含通常所说的语言模型,例如n元文法语言模型,其中n的值可以是任意的。同样地,图代价中包含了语言模型中的语言模型概率,也就是每个词出现的概率。
根据图2所示,本发明采用的非确定化词图生成方法的具体步骤如下:
步骤S201,从解码网络中获取原始词图,从所述原始词图中获取最优代价的词图并确保其拓扑有序,得到拓扑有序的词图。
步骤S202,对于所述拓扑有序的词图中的全部状态节点,记录每一个状态节点的最优前驱节点以及当前状态节点处的最优代价,并且添加一个最终状态节点F作为回溯的起始状态节点,存储全局最优路径的代价G。
步骤S203,按照顺序访问词图中的每一个状态节点s,对于从s出发的每一条转移弧边a,计算沿该弧边出发到达其目标状态节点d处的代价c。若c值小于当前目标状态节点d处最优代价,则更新状态节点d处的最优代价,并将状态节点d的最优前驱节点设为s;若当前状态节点s处的最终代价小于全局最优路径的代价G,则更新全局最优路径的代价,并将最终状态节点F的最优前驱节点设为s;否则不更新;
步骤S204,重复步骤S203,得到了更新后的全局最优路径的代价G,以及更新后的包括最终状态节点F在内的全部状态节点的最优前驱节点(除初始状态节点以外)。
步骤S205,从最终状态节点F开始回溯,获取每一个状态节点的最优前驱节点p,并获取从最优前驱节点p出发到达当前状态节点处的转移弧边,得到转移弧边上对应的输出标签。重复所述过程直到初始状态节点处,可以得到完整的输出标签序列,对应的词序列也就是最终的识别结果。
在本申请实施例中,该方法可以完全规避词图的确定化工作,特别是在处理较长的连续语音时,其优势也就越发明显。由于不需要做确定化工作,因此也就不必担心确定化时可能带来的内存泄漏问题。
如图3所示,提供的一种语音识别系统的示意图,该语音识别系统主要包含五个部分的工作:
(1)预处理和特征提取:对接收到的语音信号进行预处理并提取相应的声学特征;
(2)解码图:又称状态图,其中编码了转移概率、发音概率以及语言模型概率等信息,且包含语言模型;
(3)声学模型:用于计算声学特征对应的声学概率;
(4)解码器:用于结合声学模型计算结果和解码图构建解码网络;
(5)后处理:所述的后处理是指词图相关的后处理,主要是词图生成以及词图的加工优化,并从词图中得到最终的语音识别结果。在后处理模块中,通常的语音识别系统会从解码网络中直接获取确定化的词图,但是这样做会产生一些问题:1)从解码网络中获取的原始词图尺寸非常大,确定化的过程延迟会明显增加;2)在词图尺寸偏大的情况下,确定化会占用大量的内存资源,并且在确定化的过程当中可能会由于超出设定的内存限制而导致确定化失败,从而造成严重的内存泄漏问题。虽然后一种情况可以通过提高内存限制的值来改善,但是并不能从根本上解决问题。而本发明提出的后处理方案,可以有效解决时间延迟以及内存泄漏相关的问题。
具体的,本实施例中采用的一种基于非确定化词图生成的语音识别系统包括以下模块。
语音信号获取模块,用于获取待识别的语音信号;
语音信号检测模块,用于对获取到的待识别语音信号进行检测,保留有效的语音信号;
语音信号预处理模块,用于对有效的语音信号进行分帧和加窗处理;
语音信号特征提取模块,从预处理后的语音信号中提取声学特征序列;
解码网络构建模块,配置有解码器、解码图和预训练声学模型,用于对语音信号特征提取模块获得到的声学特征序列进行解码,从而构建解码网络;具体的,通过解码图中的图概率和声学模型计算得到的声学概率构建解码网络,所述的解码图中包括语言模型,通过语言模型获得每个词出现的概率;所述的解码图选用加权有限状态转换机,由一系列状态节点和从状态节点出发的转移弧边构成,所述转移弧边上包含转移概率、发音概率以及语言模型概率信息。
词图生成模块,用于获取解码网络构建模块输出的原始词图,并对原始词图进行处理,输出只包含最优代价词序列的目标词图;
识别模块:根据目标词图获取最终的识别结果。
其中,语音信号检测模块包括:
第一检测模块,通过一个帧级别的判别模型,通常是一个结构简单的神经网络模型来对待识别的语音信号进行预计算,得到对应该语音信号的每一帧语音的判别信息;
第二检测模块,通过一些平滑的算法对待识别语音信号每一帧的判别信息做处理,从而检测出语音信号中无效的静音部分从而过滤掉。
第一检测模块还包括提取模块,由于所述检测使用的神经网络模型无法直接处理语音信号,所以需要该模块来提取模型输入层所需的声学特征。
其中,解码网络构建模块包括:
第一确定模块,由声学模型获取语音信号特征提取模块输出的声学特征序列,得到声学特征对应的声学概率;
第二确定模块,由解码图中的语言模型根据声学特征序列确定目标词序列出现概率;
第三确定模块,解码器结合所述声学概率以及所述目标词序列出现概率,根据维特比算法构建解码网络。
其中,词图生成模块包括:
获取模块,用于获取从解码网络构建模块输出的原始词图;
第一处理模块,对原始词图做拓扑排序,得到拓扑有序的词图;
第二处理模块,读取拓扑有序的词图,并通过动态规划方法确定每一个状态节点的最优前驱节点;
第三处理模块,从最终状态节点出发回溯寻找最优代价路径,直至回到初始状态节点处,得到最优代价路径的状态节点序列;
第四处理模块,根据所述的最优代价路径的状态节点序列,获取相应转移弧边上的词序列,输出只包含最优代价词序列的目标词图。
在本发明实施例中,首先通过获取待处理的语音信号并对其进行预处理和特征提取;然后由声学模型计算输入的声学特征对应的声学概率;由解码器结合解码图的图概率和声学概率通过维特比算法构建解码网络;接着,从解码网络中获取原始词图;从而对原始词图做基于优化算法的后处理工作得到包含最优路径的目标词图。最后,通过目标词图来得到最终的识别结果信息,通过这样的方式可以有效避免在语音识别系统识别长语音的词图生成过程中所产生的高延迟问题,加快语音识别速度的同时有效避免实际应用场景下可能导致的内存泄漏问题。
本发明在多个真实场景测试集下(LP2、D1、D2、D3、D4、D5)与主流解码器和增量确定化解码器进行了对比工作,本发明采用的数据集是电话场景下采集的真实对话数据,其内容涵盖多个行业,平均每个数据集的时长在2h左右。实验过程中所有方法使用的参数配置都完全一样(除增量确定化方法额外的参数值以外)。
本发明参考的指标主要是语音识别的实时率(Real-Time factor,RTF)以及语音识别系统的内存资源占用。其目的主要是为了验证本发明中词图生成方法所带来的解码速度提升以及资源占用的减少。如表1和表2所示,主要对比了三种词图生成的方式,得到了它们的解码实时率及其内存资源占用情况。这三种方式分别是主流的确定化方法(DCG)、增量确定化方法(IDCG)以及本发明的非确定化方法(NDCG)。
表1
实时率 LP2 D1 D2 D3 D4 D5
NDCG 0.087 0.0956 0.0951 0.1035 0.101 0.0981
DCG 0.0959 0.1224 0.1237 0.1467 0.1257 0.124
IDCG 0.0728 0.0979 0.0965 0.1164 0.1029 0.0998
结合表1以及图4可以看到,在解码实时率方面增量确定化方法作为新兴的词图生成方式其性能远优于主流的基于确定化的方法,并且本发明的词图生成方法和增量确定化方法在实时率方面性能接近,但同样远胜于普通的基于确定化的词图生成方式。并且从数据和图中可以明显地发现,本发明的词图生成方法在各种测试集下实时率表现稳定,不会出现增量确定化方法中的剧烈波动现象。
表2
资源占用 LP2 D1 D2 D3 D4 D5
NDCG 47.65 42.86 40.11 42.31 52.47 47.61
DCG 51.62 54.01 41.97 64.71 64.02 51.23
IDCG 60.43 54.29 56.49 66.19 79.34 67.27
而在资源占用方面,结合表2以及图5,可以直观地看到本发明算法的优越之处。增量确定化方法在实时率方面与本发明方法不相上下,但是不得不提的是,增量确定化方法的内存资源占用情况可能会比较严重一些,考虑到实际应用场景的高并发下该方法可能会导致比较严重的内存资源消耗问题。相比之下,本发明方法在资源占用方面表现不仅远优于增量确定化方法,同时相比主流的确定化方法其优越性更显突出。
以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。

Claims (8)

1.一种基于非确定化词图生成的语音识别方法,其特征在于,包括以下步骤:
步骤1:获取待识别的语音信号进行预处理,并提取声学特征;
步骤2:将声学特征作为预训练声学模型的输入,获取声学特征对应的声学概率;
步骤3:通过解码图和声学概率构建解码网络,采用阈值约束法对构建的解码网络大小进行约束;通过解码网络获取到原始词图,所述原始词图由状态节点和从状态节点出发的转移弧边构成;
步骤4:针对原始词图,首先对原始词图做拓扑排序,得到拓扑有序的词图;然后采用动态规划算法,确定拓扑有序的词图中每一个状态节点的最优前驱节点,再从最终状态节点回溯寻找最优代价路径,直至回到初始状态节点处,得到最优代价路径的状态节点序列,将状态节点序列对应的转移弧边上的词序列作为语音识别结果;所述的步骤4具体为:
步骤4.1:针对从解码网络获取到的原始词图,从所述原始词图中获取最优代价路径的词图并做拓扑排序,得到拓扑有序的词图;
步骤4.2:对于拓扑有序的词图中的全部状态节点,记录每一个状态节点的最优前驱节点以及当前状态节点处的最优代价,并且添加一个最终状态节点F作为回溯的起始状态节点,存储全局最优路径的代价G;
步骤4.3:顺序访问词图中的每一个状态节点s,对于从s出发的每一条转移弧边a,计算沿该弧边出发到达目标状态节点d处的代价c,若c值小于当前目标状态节点d处最优代价,则更新状态节点d处的最优代价,并将状态节点d的最优前驱节点设为s;若当前状态节点s处的最终代价小于全局最优路径的代价G,则更新全局最优路径的代价,并将最终状态节点F的最优前驱节点设为s;否则不做更新;
步骤4.4:重复步骤4.3,得到最终更新后的全局最优路径的代价G′,以及更新后的全部状态节点及其最优前驱节点;
步骤4.5:从最终状态F开始回溯,获取每一个状态节点的最优前驱节点,并获取从最优前驱节点出发到达当前状态节点处的转移弧边,得到转移弧边上对应的输出标签,直至回到初始状态节点处,最后将得到完整的输出标签对应的词序列作为语音识别结果。
2.根据权利要求1所述的一种基于非确定化词图生成的语音识别方法,其特征在于,步骤1所述的预处理包括过滤长静音、分帧和加窗。
3.根据权利要求1所述的一种基于非确定化词图生成的语音识别方法,其特征在于,步骤1所述声学特征的提取方法具体为:对预处理后的语音信号做快速傅里叶变换获取其功率谱,然后通过三角带通滤波器组求得梅尔能量,得到语音特征。
4.根据权利要求1所述的一种基于非确定化词图生成的语音识别方法,其特征在于,所述的步骤2将数帧声学特征同时作为预训练声学模型的输入,所述的预训练声学模型选自GMM-HMM、DNN-HMM或者TDNN。
5.根据权利要求1所述的一种基于非确定化词图生成的语音识别方法,其特征在于,通过解码图中的图概率和声学模型计算得到的声学概率构建解码网络,所述的解码图中包括语言模型,通过语言模型获得每个词出现的概率;所述的解码图选用加权有限状态转换机,由一系列状态节点和从状态节点出发的转移弧边构成,所述转移弧边上包含转移概率、发音概率以及语言模型概率信息。
6.根据权利要求1所述的一种基于非确定化词图生成的语音识别方法,其特征在于,步骤3所述的阈值约束法具体为:设计一个容差估计值,超出所述容差估计值的代价路径被剪枝,得到最差代价路径与最优代价路径之间的代价差值处于容差估计值范围内的解码网络。
7.一种非确定化词图生成的语音识别系统,其特征在于,用于执行权利要求1所述的语音识别方法,所述的语音识别系统包括:
语音信号获取模块,用于获取待识别的语音信号;
语音信号检测模块,用于对获取到的待识别语音信号进行检测,保留有效的语音信号;
语音信号预处理模块,用于对有效的语音信号进行分帧和加窗处理;
语音信号特征提取模块,从预处理后的语音信号中提取声学特征序列;
解码网络构建模块,配置有解码器、解码图和预训练声学模型,用于对语音信号特征提取模块获得到的声学特征序列进行解码,从而构建解码网络;
词图生成模块,用于获取解码网络构建模块输出的原始词图,并对原始词图进行处理,输出只包含最优代价词序列的目标词图;所述的词图生成模块包括:
获取模块,用于获取从解码网络构建模块输出的原始词图;
第一处理模块,对原始词图做拓扑排序,得到拓扑有序的词图;
第二处理模块,读取拓扑有序的词图,并通过动态规划算法确定每一个状态节点的最优前驱节点;
第三处理模块,从最终状态节点出发回溯寻找最优代价路径,直至回到初始状态节点处,得到最优代价路径的状态节点序列;
第四处理模块,根据所述的最优代价路径的状态节点序列,获取相应转移弧边上的词序列,输出只包含最优代价词序列的目标词图;
识别模块:根据目标词图获取最终的识别结果。
8.根据权利要求7所述的一种非确定化词图生成的语音识别系统,其特征在于,所述的解码网络构建模块包括:
第一确定模块,由声学模型获取语音信号特征提取模块输出的声学特征序列,得到声学特征对应的声学概率;
第二确定模块,由解码图中的语言模型根据声学特征序列确定目标词序列出现概率;
第三确定模块,解码器结合所述声学概率以及所述目标词序列出现概率,根据维特比算法构建解码网络。
CN202011332447.0A 2020-11-24 2020-11-24 一种基于非确定化词图生成的语音识别方法及其系统 Active CN112509557B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011332447.0A CN112509557B (zh) 2020-11-24 2020-11-24 一种基于非确定化词图生成的语音识别方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011332447.0A CN112509557B (zh) 2020-11-24 2020-11-24 一种基于非确定化词图生成的语音识别方法及其系统

Publications (2)

Publication Number Publication Date
CN112509557A CN112509557A (zh) 2021-03-16
CN112509557B true CN112509557B (zh) 2023-03-31

Family

ID=74958323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011332447.0A Active CN112509557B (zh) 2020-11-24 2020-11-24 一种基于非确定化词图生成的语音识别方法及其系统

Country Status (1)

Country Link
CN (1) CN112509557B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113436612B (zh) * 2021-06-23 2024-02-27 平安科技(深圳)有限公司 基于语音数据的意图识别方法、装置、设备及存储介质
CN113763960B (zh) * 2021-11-09 2022-04-26 深圳市友杰智新科技有限公司 模型输出的后处理方法、装置和计算机设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111916058A (zh) * 2020-06-24 2020-11-10 西安交通大学 一种基于增量词图重打分的语音识别方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103871403B (zh) * 2012-12-13 2017-04-12 北京百度网讯科技有限公司 建立语音识别模型的方法、语音识别方法及对应装置
CN103325370B (zh) * 2013-07-01 2015-11-25 百度在线网络技术(北京)有限公司 语音识别方法和语音识别系统
JP6727607B2 (ja) * 2016-06-09 2020-07-22 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム
CN106230722B (zh) * 2016-08-05 2019-07-09 山东省计算中心(国家超级计算济南中心) 基于转移代价的sdn网络拥塞链路调整方法
CN107633842B (zh) * 2017-06-12 2018-08-31 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN108735201B (zh) * 2018-06-29 2020-11-17 广州视源电子科技股份有限公司 连续语音识别方法、装置、设备和存储介质
CN111798846A (zh) * 2020-06-02 2020-10-20 厦门亿联网络技术股份有限公司 语音命令词识别方法、装置、会议终端及会议终端系统
CN111968648B (zh) * 2020-08-27 2021-12-24 北京字节跳动网络技术有限公司 语音识别方法、装置、可读介质及电子设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111916058A (zh) * 2020-06-24 2020-11-10 西安交通大学 一种基于增量词图重打分的语音识别方法及系统

Also Published As

Publication number Publication date
CN112509557A (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
US8275616B2 (en) System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands
CN108305634B (zh) 解码方法、解码器及存储介质
CN110364143B (zh) 语音唤醒方法、装置及其智能电子设备
CN106683677B (zh) 语音识别方法及装置
US5884259A (en) Method and apparatus for a time-synchronous tree-based search strategy
Li et al. Confidence estimation for attention-based sequence-to-sequence models for speech recognition
Myer et al. Efficient keyword spotting using time delay neural networks
CN106875936B (zh) 语音识别方法及装置
US10013974B1 (en) Compact HCLG FST
CN111916058A (zh) 一种基于增量词图重打分的语音识别方法及系统
CN111429887B (zh) 基于端到端的语音关键词识别方法、装置以及设备
CN112509557B (zh) 一种基于非确定化词图生成的语音识别方法及其系统
CN109036471B (zh) 语音端点检测方法及设备
CN109448746B (zh) 语音降噪方法及装置
US8234112B2 (en) Apparatus and method for generating noise adaptive acoustic model for environment migration including noise adaptive discriminative adaptation method
CN115457938A (zh) 识别唤醒词的方法、装置、存储介质及电子装置
CN113793599B (zh) 语音识别模型的训练方法和语音识别方法及装置
CN112825250A (zh) 语音唤醒方法、设备、存储介质及程序产品
CN113192501B (zh) 一种指令词识别方法及装置
CN111640423B (zh) 一种词边界估计方法、装置及电子设备
CN111128172B (zh) 一种语音识别方法、电子设备和存储介质
Lim et al. CNN-based bottleneck feature for noise robust query-by-example spoken term detection
Wang et al. A fusion model for robust voice activity detection
CN114171009A (zh) 用于目标设备的语音识别方法、装置、设备及存储介质
McDonough et al. An algorithm for fast composition of weighted finite-state transducers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant