CN103871403B - 建立语音识别模型的方法、语音识别方法及对应装置 - Google Patents
建立语音识别模型的方法、语音识别方法及对应装置 Download PDFInfo
- Publication number
- CN103871403B CN103871403B CN201210539565.8A CN201210539565A CN103871403B CN 103871403 B CN103871403 B CN 103871403B CN 201210539565 A CN201210539565 A CN 201210539565A CN 103871403 B CN103871403 B CN 103871403B
- Authority
- CN
- China
- Prior art keywords
- network
- word
- language
- acoustic
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供了一种建立语音识别模型的方法、语音识别方法及对应装置,将词典和声学模型信息进行融合,得到声学层空间网络;将语言模型信息抽象为有限状态机并进行优化,得到语言层网络;利用所述声学层空间网络和所述语言层网络形成语言模型预测网络;所述声学层空间网络、语言层网络和语言模型预测网络构成所述语音识别模型。本发明提供的语音识别模型将语音层信息和声学层信息的耦合关系分解开来,使其成为各自独立的网络,能够实现语言层信息的快速动态更新,基于该语音识别模型实现的语音搜索具有更高的搜索新发生事物和信息的能力。
Description
【技术领域】
本发明涉及计算机应用领域的语音搜索技术,特别涉及一种建立语音识别模型的方法、语音识别方法及对应装置。
【背景技术】
语音搜索是近期兴起的一种新颖的搜索技术,给广大互联网用户带来全新的搜索体验,用户可以使用语音进行检索和查询。语音搜索使用语音识别技术把用户的语音内容识别成文本,然后使用文本搜索技术将搜索结果返回给用户,可见在语音搜索中语音识别是关键核心环节。
现有语音识别技术主要采用以下几种技术:
其一、基于加权有限状态机(WFST)的语音识别系统,使用WFST技术把语音识别的声学层信息和语言层信息集成在一个网络中,进行确定化、最小化、空边去除等操作后,得到一个紧凑的WFST网络,然后基于该紧凑的WFST网络进行识别。
其二、基于两遍解码的WFST的语音识别系统,构建两个WFST网络,在进行语音识别时,进行两遍解码:第一遍解码使用较小的WFST网络,在第一遍解码的识别结果基础之上,第二遍解码使用较大的WFST网络得到最终的识别结果。
由于语音搜索任务中语音识别系统的语言层信息约束需要实时更新,更新频率越快,语音识别系统对新信息的语音识别能力越强。但现有技术的上述第一种方式虽然语音识别速度较快,但往往需要耗费大量的时间和计算机内存,这就限制了可以使用的语言模型的体积。并且由于语言层和声学层耦合在一起,每次语言层的更新都涉及到整个网络的更新,导致更新速度很慢,大大降低了搜索新发生事物和信息的能力。第二种方式识别速度较慢,且两个WFST网络的构建导致语言层的更新涉及到两个网络的更新,更新速度也很慢,同样影响搜索新发生事物和信息的能力。
【发明内容】
有鉴于此,本发明提供了一种建立语音识别模型的方法、语音识别方法及对应装置,以便于实现语言层的快速更新,从而提高搜索新发生事物和信息的能力。
具体技术方案如下:
一种建立语音识别模型的方法,该方法包括:
S1、将词典和声学模型信息进行融合,得到声学层空间网络;
S2、将语言模型信息抽象为有限状态机并进行优化,得到语言层网络;
S3、利用所述声学层空间网络和所述语言层网络形成语言模型预测网络;
所述声学层空间网络、语言层网络和语言模型预测网络构成所述语音识别模型。
根据本发明一优选实施例,所述步骤S1具体包括:
将所述词典中的词进行排列后,构建回跳词网络,所述回跳词网络中任一词的词尾都跳转回该词的词头;
将所述回跳词网络中的每个词采用该词的声学模型替换,得到声学图网络,其中所述词的声学模型为构成该词的音素之间的转移概率;
采用计算机图论方法对所述声学图网络进行优化,得到声学层空间网络。
根据本发明一优选实施例,所述语言模型信息为n-gram语言模型;
所述步骤S2具体包括:将n-gram语言模型的查询历史作为有限状态机的当前状态,将n-gram语言模型的输入词作为有限状态机的当前输入,将n-gram语言模型的查询结果作为有限状态机针对当前输入的输出,利用计算机图论技术对所述有限状态机进行优化,得到语言层网络。
根据本发明一优选实施例,所述步骤S3具体包括:利用所述声学层空间网络中树结构的内容和所述语言层网络,根据最大可能连接概率原则计算出每一个词接续所有可能的词的最大概率,得到所述语言模型预测网络。
一种语音识别方法,基于上述方法建立的语音识别模型,该语音识别方法包括:
A1、对输入语音进行声学特征提取;
A2、基于提取的声学特征,在声学层空间网络和语言层网络上进行节点查找,并在查找过程中利用语言模型预测网络对查找到的节点进行裁剪,将得到的各节点构成的最优解码路径作为所述输入语音的识别结果。
根据本发明一优选实施例,在所述步骤A2中基于提取的声学特征逐步执行步骤A21至步骤A23;
A21、进行声学模型的打分计算;
A22、查找所述声学层空间网络,并利用所述语言模型预测网络对查找到的节点进行裁剪后,利用查找到的节点更新当前解码路径,其中初始解码路径为空;
A23、利用当前解码路径查找所述语言层网络,利用查找到的节点更新当前解码路径,并将查找到的节点对应的词压入词栈,基于当前解码路径转至步骤A21;
A24、待针对所述输入语音的声学特征执行完所述步骤A21至步骤A23后,通过回溯词栈的方式确定最优解码路径作为所述输入语音的识别结果。
一种建立语音识别模型的装置,该装置包括:
声学层构建单元,用于将词典和声学模型信息进行融合,得到声学层空间网络;
语言层构建单元,用于将语言模型信息抽象为有限状态机并进行优化,得到语言层网络;
预测模型构建单元,用于利用所述声学层空间网络和所述语言层网络形成语言模型预测网络;
所述声学层空间网络、语言层网络和语言模型预测网络构成所述语音识别模型。
根据本发明一优选实施例,所述声学层构建单元具体包括:
第一构建子单元,用于将所述词典中的词进行排列后,构建回跳词网络,所述回跳词网络中任一词的词尾都跳转回该词的词头;
第二构建子单元,用于将所述回跳词网络中的每个词采用该词的声学模型替换,得到声学图网络,其中所述词的声学模型为构成该词的音素之间的转移概率;
优化子单元,用于采用计算机图论方法对所述声学图网络进行优化,得到声学层空间网络。
根据本发明一优选实施例,所述语言模型信息为n-gram语言模型;
所述语言层构建单元具体将n-gram语言模型的查询历史作为有限状态机的当前状态,将n-gram语言模型的输入词作为有限状态机的当前输入,将n-gram语言模型的查询结果作为有限状态机针对当前输入的输出,利用计算机图论技术对所述有限状态机进行优化,得到语言层网络。
根据本发明一优选实施例,预测模型构建单元具体利用所述声学层空间网络中树结构的内容和所述语言层网络,根据最大可能连接概率原则计算出每一个词接续所有可能的词的最大概率,得到所述语言模型预测网络。
一种语音识别装置,基于上述装置建立的语音识别模型,该语音识别装置包括:
特征提取单元,用于对输入语音进行声学特征提取;
语音解码单元,用于基于提取的声学特征,在声学层空间网络和语言层网络上进行节点查找,并在查找过程中利用语言模型预测网络对查找到的节点进行裁剪,将得到的各节点构成的最优解码路径作为所述输入语音的识别结果。
根据本发明一优选实施例,所述语音解码单元具体包括:
声学层打分子单元,用于进行声学模型的打分计算;
声学层内扩展子单元,用于基于提取的声学特征逐步查找所述声学层空间网络,并利用所述语言模型预测网络对查找到的节点进行裁剪后,利用查找到的节点更新当前解码路径,其中初始解码路径为空;
声学层间扩展子单元,用于利用当前解码路径查找所述语言层网络,利用查找到的节点更新当前解码路径,基于当前解码路径触发所述声学层打分子单元;
词栈收集子单元,用于将所述声学层间扩展子单元查找到的节点对应的词压入词栈,待所述声学层内扩展子单元和所述声学层间扩展子单元针对所述输入语音的声学特征执行完查找后,通过回溯词栈的方式确定最优解码路径作为所述输入语音的识别结果。
由以上技术方案可以看出,本发明提供的语音识别模型将语音层信息和声学层信息的耦合关系分解开来,使其成为各自独立的网络,其中语言层网络在更新时不会受到声学层网络的牵连,能够实现快速的实时动态更新,基于该语音识别模型实现的语音搜索具有更高的搜索新发生事物和信息的能力。
【附图说明】
图1为本发明实施例一提供的建立语音识别模型的方法流程图;
图2为本发明实施例一提供的声学层空间网络的结构示意图;
图3为本发明实施例二提供的语音识别方法的主要流程图;
图4为本发明实施例二提供的语音识别中的详细解码流程图;
图5为本发明实施例三提供的建立语音识别模型的装置结构图;
图6为本发明实施例三提供的声学层构建单元的具体结构图;
图7为本发明实施例四提供的语音识别装置结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明中提供的建立语音识别模型的方法所建立的语音识别模型是一个一遍解码框架,且在该框架下声学层和语言层相互独立,声学层在整个语音识别过程中保持不变,语言层在语音识别过程中可以保持实时的动态更新。下面首先通过实施例一对建立语音识别模型的方法进行详细描述。
实施例一、
图1为本发明实施例一提供的建立语音识别模型的方法流程图,如图1所示,该方法主要包括以下步骤:
步骤101:将词典和声学模型信息进行融合,得到声学层空间网络。
本步骤的目的是建立代表声学模型信息的声学层空间网络,用于把语音识别中的所有声学相关的信息内容组织成一个易于计算机处理的由大量节点连接而成的网络。
声学层空间网络的构建所需要的资源是词典和声学模型信息,而不需要任何语言模型信息。
具体地,构建声学层空间网络的方法具体包括:将词典中的词进行排列后,构建回跳词网络,所述回跳词网络中任一词的词尾都允许跳转回该词的词头。将回跳词网络中的每个词采用这个词的声学模型替换,得到声学图网络,该声学网络是一个表示声学模型状态序列的网络。其中声学模型可以是诸如高斯混合模型或者是考虑了声学上下文相关性的音素模型(context dependent phone mode)等现有声学模型,词的声学模型中包含构成该词的音素之间的转移概率,其中音素为构成音节的最小单位。
然后,再采用计算机图论方法对声学图网络进行优化,就可以得到声学层空间网络了。在此可以采用任意的计算机图论方法来进行优化,由于是现有技术,在此不再具体描述。
除了声学层空间网络设计上的和语言层信息的分离,本步骤中建立的声学层空间网络还具有紧凑无冗余的特点。通过这种建立声学层空间网络的方式,声学层空间网络被组织成一个前面层是树结构、中间层是输出词、后面层是图结构的特殊结构,所有的节点都展开到声学模型的最小单元,即达到广义矩估计(GMM)状态,这样能够保证图的最紧凑连接。该声学层空间网络的结构可以如图2所示。
其中树结构是可以用于后续的语言模型预测,中间层是用于快速地输出正确的词,图结构用于保证声学层空间网络的最紧凑结构,尽量多的合并路径。
步骤102:将语言模型信息抽象为有限状态机进行优化,得到语言层网络。
本步骤中将传统的n-gram语言模型抽象成一个紧凑的WFST网络,这种紧凑抽象的主要好处在于解码路径的组织更加简单,任何时候历史路径信息都可以用网络中的节点唯一表示,同时在求取语言模型打分的时候速度更快,其中n-gram语言模型包括n元词语在大规模语料中按顺序出现的概率,n为一个或多个大于1的正整数。
本步骤采用的思想是利用语言模型以往历史轨迹信息,在每个语言模型节点上增加一个整数信息(4个字节),就可以实现海量语言模型的wfst的抽象。具体方式为:将n-gram语音模型的查询历史作为有限状态机的当前状态,把n-gram语言模型的输入词作为有限状态机的当前输入,将n-gram语音模型的查询结果作为有限状态机针对当前输入产生的输出,这样就可以把语言模型的查询过程看做是以一个有限状态机的跳转。再采用传统的计算机图论技术对有限状态机进行优化,就抽象出语言层网络。语言层网络中的节点为词,在该网络中还存在词语之间构成上下文时的出现概率。
通过上述抽象过程,抽象前和抽象后的语言模型体积大小差异在20%以内。在完成语言模型的上述WFST抽象后,任何一个语音识别过程的路径节点都被表示成一个当前声学层空间网络节点和语言层网络节点。在计算语言模型打分的时候,可以在已经知道语言模型历史的情况下,最多进行一个二分法查找,从而大大简化了语言模型打分计算过程,使高速搜索成为可能。
步骤103:利用上述声学层空间网络和语言层网络形成语言模型预测网络。
语言模型预测网络用于语音识别过程中提高路径裁剪效率,从而做语言模型预测。语言模型预测网络是结合语言层网络和声学信息空间网络生成的。具体实施办法是充分利用了声学层空间网络的紧凑型这一特点,利用声学层空间网络中的树结构和语言层网络,根据最大可能连接概率原则计算出每一个接续所有可能的词的最大概率,得到语言模型预测网络。
可见,在进行语言模型预测网络的构建时,仅使用了声学层空间网络中的树结构,而在输出词以后的大部分声学层空间网络的图结构并不需要有语言模型预测的得分,这样就大大减少了语言模型预测部分在实际语音识别过程中的预测得分查询量。具体如何利用已有的声学层信息和语言层信息构建语言模型预测网络是业内的公知技术,本专利不在赘述。
另外,由于语言模型的预测算法是天然可以并行计算的。因此在实际产品中,在语言模型的动态调整之后,利用多计算机并行计算的方法也可以实现语言模型预测网络的高速动态更新。
在执行了上述步骤之后,由声学层空间网络、语言层网络和语言模型预测网络就构成了最终的语音识别模型。基于该语音识别模型就可以实现语音识别过程了,下面通过实施例二对语音识别的方法进行详细描述。
实施例二、
图3为本发明实施例二提供的语音识别方法的流程图,如图3所示,该方法可以包括以下步骤:
步骤301:对输入语音进行声学特征提取。
本步骤中对输入语音进行的声学特征提取可以采用现有技术中的任一种方式,在此不做具体限制,例如线性预测倒谱系数(LPCC)、Mel频率倒谱系数(MFCC)的提取等。
步骤302:基于提取的声学特征,在声学层空间网络和语言层网络上进行节点查找,并在查找过程中利用语言模型预测网络对查找到的节点进行裁剪,将得到的各节点构成的最优解码路径作为输入语音的识别结果。
本步骤是语音识别的核心内容,其中查找声学层空间网络和查找语言层网络交替进行。查找声学层空间网络是用于识别输入语音中可能的词,也就是说在声学层空间网络内进行解码路径中词语的扩展。查找语言层网络是用于确定构成输入语音的词序列,也就是说查找语言层网络是在声学层空间网络间进行解码路径的扩展,并影响之后的路径组织。
本步骤中具体的实现过程可以如图4所示,基于提取的声学特征逐步执行步骤401至步骤403。其中所述“逐步”通常是针对输入语音进行分段,逐段基于对应的声学特征执行步骤401至步骤403,本发明对此处的分段方式并不加以限制,通常可以采用按照语音帧分段的方式。
步骤401:在路径的实际扩展之前,首先要进行声学模型的打分计算。
在此可以进行声学模型的高斯打分计算,该部分为现有技术,在此进行详述。
步骤402:查找声学层空间网络,并利用语言模型预测网络对查找到的节点进行裁剪,利用查找到的节点更新当前解码路径。
本步骤是声学层空间网络内扩展,即一个词内部的扩展,这个扩展是在声学层空间网络上按照节点连接的顺序依次展开的。声学层空间网络制约着所有解码路径的走向,在进行声学层空间网络内扩展的过程中,除了声学层信息外,还有语言模型预测信息的施加,这是通过语音识别模型中的语言模型预测网络来进行的。
具体地,在声学层空间网络上查找到的节点,首先进行语言模型的估计,该估计可以采用语言模型预测网络中的值来代替,直到进行声学层空间网络间扩展(查找语言层网络)的时候被真正的语言模型打分代替。也就是说,在声学层空间网络上查找到的节点,利用语言模型预测网络进行裁剪,可以保留最大概率值对应的解码路径。另外,在初始解码时,可以默认初始解码路径为空。
步骤403:利用当前解码路径查找语言层网络,利用查找到的节点更新当前解码路径,并将查找到的节点对应的词压入词栈,针对当前解码路径转至步骤401。
本步骤是声学层空间网络间的扩展,此时的语言模型打分是在语言层网络上求取的。在完成语言层网络的查找后,解码路径的状态会在根据语言层网络的节点信息进行更新,并影响基于后续声学特征的声学层空间网络内扩展,即在进行语言层网络的查找之后,对解码路径进行裁剪,裁剪后保留的解码路径才回进入下一轮声学层空间网络的查找。
然后需要把当前识别出来的词(即在语言层网络查找到的节点)收集进入词栈。词栈中的每一个词都会进入下一轮声学空间网络查询。
步骤404:待针对整个输入语音的声学特征执行上述流程后,通过回溯词栈的方式确定最优解码路径作为输入语音的识别结果。
以上是对本发明所提供的方法进行的详细描述,下面对本发明所提供的装置进行详细描述。
实施例三、
图5为本发明实施例三提供的建立语音识别模型的装置结构图,如图5所示,该装置可以包括:声学层构建单元500、语言层构建单元510以及预测模型构建单元520。
声学层构建单元500将词典和声学模型信息进行融合,得到声学层空间网络。声学层空间网络的构建所需要的资源是词典和声学模型信息,而不需要任何语言模型信息。
图6中示出了该声学层构建单元500的一种实现方式,如图6所示,具体可以包括:第一构建子单元501、第二构建子单元502和优化子单元503。
第一构建子单元501将词典中的词进行排列后,构建回跳词网络,回跳词网络中任一词的词尾都跳转回该词的词头。
第二构建子单元502将回跳词网络中的每个词采用该词的声学模型替换,得到声学图网络,其中词的声学模型为构成该词的音素之间的转移概率。声学模型可以是诸如高斯混合模型或者是考虑了声学上下文相关性的音素模型等现有声学模型,
优化子单元503,用于采用计算机图论方法对声学图网络进行优化,得到声学层空间网络。在此可以采用任意的计算机图论方法来进行优化,由于是现有技术,在此不再具体描述。
除了声学层空间网络设计上的和语言层信息的分离,声学层构建单元500建立的声学层空间网络还具有紧凑无冗余的特点。通过这种建立声学层空间网络的方式,声学层空间网络被组织成一个前面层是树结构、中间层是输出词、后面层是图结构的特殊结构,所有的节点都展开到声学模型的最小单元,即达到GMM状态,这样能够保证图的最紧凑连接。该声学层空间网络的结构可以如图2所示。
继续参见图5,语言层构建单元510,用于将语言模型信息抽象为有限状态机并进行优化,得到语言层网络。
其中采用的语言模型信息为n-gram语言模型,语言层构建单元510可以具体将n-gram语言模型的查询历史作为有限状态机的当前状态,将n-gram语言模型的输入词作为有限状态机的当前输入,将n-gram语言模型的查询结果作为有限状态机针对当前输入的输出,利用计算机图论技术对有限状态机进行优化,得到语言层网络。该语言层网络是一个紧凑的WFST网络,使得解码路径的组织更加简单,任何时候历史路径信息都可以用网络中的节点唯一表示,同时在求取语言模型打分的时候速度更快。
在得到上述声学层空间网络和语言层网络之后,为了提高语音识别过程中的路径裁剪效率,预测模型构建单元520利用声学层空间网络和语言层网络形成语言模型预测网络。
优选地,可以充分利用声学层空间网络的紧凑型这一特点,利用声学层空间网络中树结构的内容和语言层网络,根据最大可能连接概率原则计算出每一个词接续所有可能的词的最大概率,得到语言模型预测网络。具体如何利用已有的声学层信息和语言层信息构建语言模型预测网络是业内的公知技术,本专利不在赘述。
此时,声学层空间网络、语言层网络和语言模型预测网络就构成了语音识别模型。
实施例四、
图7为本发明实施例四提供的语音识别装置结构图,该装置的语音识别基于实施例四所示装置建立的语音识别模型,如图7所示,该语音识别装置可以包括:特征提取单元700和语音解码单元710。
特征提取单元700对输入语音进行声学特征提取。对输入语音进行的声学特征提取可以采用现有技术中的任一种方式,在此不做具体限制,例如LPCC、MFCC的提取等。
然后,语音解码单元710基于提取的声学特征,在声学层空间网络和语言层网络上进行节点查找,并在查找过程中利用语言模型预测网络对查找到的节点进行裁剪,将得到的各节点构成的最优解码路径作为输入语音的识别结果。
语音解码单元710是语音识别的核心内容,其中查找声学层空间网络和查找语言层网络交替进行。查找声学层空间网络是用于识别输入语音中可能的词,也就是说在声学层空间网络内进行解码路径中词语的扩展。查找语言层网络是用于确定构成输入语音的词序列,也就是说查找语言层网络是在声学层空间网络间进行解码路径的扩展,并影响之后的路径组织。
语音解码单元710的具体结构可以包括:声学层打分子单元711、声学层内扩展子单元712、声学层间扩展子单元713以及词栈收集子单元714。
首先声学层打分子单元711进行声学模型的打分计算。在此可以进行声学模型的高斯打分计算,该部分为现有技术,在此进行详述。
声学层内扩展子单元712基于提取的声学特征逐步查找声学层空间网络,并利用语言模型预测网络对查找到的节点进行裁剪后,利用查找到的节点更新当前解码路径,其中初始解码路径为空。
声学层内扩展子单元712执行的是声学层空间网络内扩展,即一个词内部的扩展,这个扩展是在声学层空间网络上按照节点连接的顺序依次展开的。声学层空间网络制约着所有解码路径的走向,在进行声学层空间网络内扩展的过程中,除了声学层信息外,还有语言模型预测信息的施加,这是是通过语音识别模型中的语言模型预测网络来进行的。
具体地,在声学层空间网络上查找到的节点,首先进行语言模型的估计,该估计可以采用语言模型预测网络中的值来代替,直到进行声学层空间网络间扩展(查找语言层网络)的时候被真正的语言模型打分代替。也就是说,在声学层空间网络上查找到的节点,利用语言模型预测网络进行裁剪,可以保留最大概率值对应的解码路径。
之后,声学层间扩展子单元713利用当前解码路径查找语言层网络,利用查找到的节点更新当前解码路径,基于当前解码路径触发声学层打分子单元711。
声学层间扩展子单元713执行的是声学层空间网络间的扩展,此时的语言模型打分是在语言层网络上求取的。在完成语言层网络的查找后,解码路径的状态会在根据语言层网络的节点信息进行更新,并影响基于后续声学特征的声学层空间网络内扩展。
词栈收集子单元714,用于将声学层间扩展子单元713查找到的节点对应的词压入词栈,词栈中的每一个词都会进入下一轮声学空间网络查询。待声学层内扩展子单元712和声学层间扩展子单元713针对输入语音的声学特征执行完查找后,通过回溯词栈的方式确定最优解码路径作为输入语音的识别结果。
由以上描述可以看出,本发明提供的方法和装置具备以下优点:
1)本发明提供的语音识别模型将语音层信息和声学层信息的耦合关系分解开来,使其成为各自独立的网络,其中语言层网络在更新时不会受到声学层网络的牵连,能够实现快速的实时动态更新,基于该语音识别模型实现的语音搜索具有更高的搜索新发生事物和信息的能力。
2)声学层空间网络和语言层网络都具有紧凑无冗余的特点,使得语音识别过程中解码速度更快。
3)语音识别方法采用一遍解码方式,更够更快地得到识别结果,提高解码速度,提高用户满意度。
4)本发明建立的语音识别模型支持任意阶海量n-gram语言模型的快速更新,支持的语言模型的大小可以高达几十亿文法的一编解码。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种建立语音识别模型的方法,其特征在于,该方法包括:
S1、将词典中的词进行排列后,构建回跳词网络,所述回跳词网络中任一词的词尾都跳转回该词的词头;将所述回跳词网络中的每个词采用该词的声学模型替换,得到声学图网络,其中所述词的声学模型为构成该词的音素之间的转移概率;采用计算机图论方法对所述声学图网络进行优化,得到声学层空间网络;
S2、将语言模型信息抽象为有限状态机并进行优化,得到语言层网络;
S3、利用所述声学层空间网络和所述语言层网络形成语言模型预测网络;
所述声学层空间网络、语言层网络和语言模型预测网络构成所述语音识别模型。
2.根据权利要求1所述的方法,其特征在于,所述语言模型信息为n-gram语言模型;
所述步骤S2具体包括:将n-gram语言模型的查询历史作为有限状态机的当前状态,将n-gram语言模型的输入词作为有限状态机的当前输入,将n-gram语言模型的查询结果作为有限状态机针对当前输入的输出,利用计算机图论技术对所述有限状态机进行优化,得到语言层网络。
3.根据权利要求1所述的方法,其特征在于,所述步骤S3具体包括:利用所述声学层空间网络中树结构的内容和所述语言层网络,根据最大可能连接概率原则计算出每一个词接续所有可能的词的最大概率,得到所述语言模型预测网络。
4.一种语音识别方法,其特征在于,基于如权利要求1至3任一权项所述方法建立的语音识别模型,该语音识别方法包括:
A1、对输入语音进行声学特征提取;
A2、基于提取的声学特征,在声学层空间网络和语言层网络上进行节点查找,并在查找过程中利用语言模型预测网络对查找到的节点进行裁剪,将得到的各节点构成的最优解码路径作为所述输入语音的识别结果。
5.根据权利要求4所述的语音识别方法,其特征在于,在所述步骤A2中基于提取的声学特征逐步执行步骤A21至步骤A23;
A21、进行声学模型的打分计算;
A22、查找所述声学层空间网络,并利用所述语言模型预测网络对查找到的节点进行裁剪后,利用查找到的节点更新当前解码路径,其中初始解码路径为空;
A23、利用当前解码路径查找所述语言层网络,利用查找到的节点更新当前解码路径,并将查找到的节点对应的词压入词栈,基于当前解码路径转至步骤A21;
A24、待针对所述输入语音的声学特征执行完所述步骤A21至步骤A23后,通过回溯词栈的方式确定最优解码路径作为所述输入语音的识别结果。
6.一种建立语音识别模型的装置,其特征在于,该装置包括:
声学层构建单元,用于将词典和声学模型信息进行融合,得到声学层空间网络;
语言层构建单元,用于将语言模型信息抽象为有限状态机并进行优化,得到语言层网络;
预测模型构建单元,用于利用所述声学层空间网络和所述语言层网络形成语言模型预测网络;
所述声学层空间网络、语言层网络和语言模型预测网络构成所述语音识别模型;
所述声学层构建单元具体包括:
第一构建子单元,用于将所述词典中的词进行排列后,构建回跳词网络,所述回跳词网络中任一词的词尾都跳转回该词的词头;
第二构建子单元,用于将所述回跳词网络中的每个词采用该词的声学模型替换,得到声学图网络,其中所述词的声学模型为构成该词的音素之间的转移概率;
优化子单元,用于采用计算机图论方法对所述声学图网络进行优化,得到声学层空间网络。
7.根据权利要求6所述的装置,其特征在于,所述语言模型信息为n-gram语言模型;
所述语言层构建单元具体将n-gram语言模型的查询历史作为有限状态机的当前状态,将n-gram语言模型的输入词作为有限状态机的当前输入,将n-gram语言模型的查询结果作为有限状态机针对当前输入的输出,利用计算机图论技术对所述有限状态机进行优化,得到语言层网络。
8.根据权利要求6所述的装置,其特征在于,预测模型构建单元具体利用所述声学层空间网络中树结构的内容和所述语言层网络,根据最大可能连接概率原则计算出每一个词接续所有可能的词的最大概率,得到所述语言模型预测网络。
9.一种语音识别装置,其特征在于,基于如权利要求6至8任一权项所述装置建立的语音识别模型,该语音识别装置包括:
特征提取单元,用于对输入语音进行声学特征提取;
语音解码单元,用于基于提取的声学特征,在声学层空间网络和语言层网络上进行节点查找,并在查找过程中利用语言模型预测网络对查找到的节点进行裁剪,将得到的各节点构成的最优解码路径作为所述输入语音的识别结果。
10.根据权利要求9所述的语音识别装置,其特征在于,所述语音解码单元具体包括:
声学层打分子单元,用于进行声学模型的打分计算;
声学层内扩展子单元,用于基于提取的声学特征逐步查找所述声学层空间网络,并利用所述语言模型预测网络对查找到的节点进行裁剪后,利用查找到的节点更新当前解码路径,其中初始解码路径为空;
声学层间扩展子单元,用于利用当前解码路径查找所述语言层网络,利用查找到的节点更新当前解码路径,基于当前解码路径触发所述声学层打分子单元;
词栈收集子单元,用于将所述声学层间扩展子单元查找到的节点对应的词压入词栈,待所述声学层内扩展子单元和所述声学层间扩展子单元针对所述输入语音的声学特征执行完查找后,通过回溯词栈的方式确定最优解码路径作为所述输入语音的识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210539565.8A CN103871403B (zh) | 2012-12-13 | 2012-12-13 | 建立语音识别模型的方法、语音识别方法及对应装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210539565.8A CN103871403B (zh) | 2012-12-13 | 2012-12-13 | 建立语音识别模型的方法、语音识别方法及对应装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103871403A CN103871403A (zh) | 2014-06-18 |
CN103871403B true CN103871403B (zh) | 2017-04-12 |
Family
ID=50909868
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210539565.8A Active CN103871403B (zh) | 2012-12-13 | 2012-12-13 | 建立语音识别模型的方法、语音识别方法及对应装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103871403B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017061027A1 (ja) * | 2015-10-09 | 2017-04-13 | 三菱電機株式会社 | 言語モデル生成装置、言語モデル生成方法とそのプログラム、音声認識装置、および音声認識方法とそのプログラム |
CN105654945B (zh) * | 2015-10-29 | 2020-03-06 | 乐融致新电子科技(天津)有限公司 | 一种语言模型的训练方法及装置、设备 |
CN105893414A (zh) * | 2015-11-26 | 2016-08-24 | 乐视致新电子科技(天津)有限公司 | 筛选发音词典有效词条的方法及装置 |
US10026398B2 (en) * | 2016-07-08 | 2018-07-17 | Google Llc | Follow-up voice query prediction |
CN107154260B (zh) * | 2017-04-11 | 2020-06-16 | 北京儒博科技有限公司 | 一种领域自适应语音识别方法和装置 |
CN107123417B (zh) * | 2017-05-16 | 2020-06-09 | 上海交通大学 | 基于鉴别性训练的定制语音唤醒优化方法及系统 |
CN110809796B (zh) * | 2017-10-24 | 2020-09-18 | 北京嘀嘀无限科技发展有限公司 | 具有解耦唤醒短语的语音识别系统和方法 |
CN110364171B (zh) * | 2018-01-09 | 2023-01-06 | 深圳市腾讯计算机系统有限公司 | 一种语音识别方法、语音识别系统及存储介质 |
CN110111779B (zh) * | 2018-01-29 | 2023-12-26 | 阿里巴巴集团控股有限公司 | 语法模型生成方法及装置、语音识别方法及装置 |
CN109036391B (zh) * | 2018-06-26 | 2021-02-05 | 华为技术有限公司 | 语音识别方法、装置及系统 |
CN109727603B (zh) * | 2018-12-03 | 2020-11-03 | 百度在线网络技术(北京)有限公司 | 语音处理方法、装置、用户设备及存储介质 |
CN111341303B (zh) * | 2018-12-19 | 2023-10-31 | 北京猎户星空科技有限公司 | 一种声学模型的训练方法及装置、语音识别方法及装置 |
CN111583910B (zh) * | 2019-01-30 | 2023-09-26 | 北京猎户星空科技有限公司 | 模型更新方法、装置、电子设备及存储介质 |
CN110120221A (zh) * | 2019-06-06 | 2019-08-13 | 上海蔚来汽车有限公司 | 用于车机系统的用户个性化离线语音识别方法及其系统 |
CN111968648B (zh) * | 2020-08-27 | 2021-12-24 | 北京字节跳动网络技术有限公司 | 语音识别方法、装置、可读介质及电子设备 |
CN112509557B (zh) * | 2020-11-24 | 2023-03-31 | 杭州一知智能科技有限公司 | 一种基于非确定化词图生成的语音识别方法及其系统 |
CN113593527B (zh) | 2021-08-02 | 2024-02-20 | 北京有竹居网络技术有限公司 | 一种生成声学特征、语音模型训练、语音识别方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923854A (zh) * | 2010-08-31 | 2010-12-22 | 中国科学院计算技术研究所 | 一种交互式语音识别系统和方法 |
GB2480084A (en) * | 2010-05-05 | 2011-11-09 | Toshiba Res Europ Ltd | An adaptive speech processing system |
CN102298927A (zh) * | 2010-06-25 | 2011-12-28 | 财团法人工业技术研究院 | 可调整内存使用空间的语音辨识系统与方法 |
JP2012063536A (ja) * | 2010-09-15 | 2012-03-29 | Ntt Docomo Inc | 端末装置、音声認識方法および音声認識プログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2478314B (en) * | 2010-03-02 | 2012-09-12 | Toshiba Res Europ Ltd | A speech processor, a speech processing method and a method of training a speech processor |
-
2012
- 2012-12-13 CN CN201210539565.8A patent/CN103871403B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2480084A (en) * | 2010-05-05 | 2011-11-09 | Toshiba Res Europ Ltd | An adaptive speech processing system |
CN102298927A (zh) * | 2010-06-25 | 2011-12-28 | 财团法人工业技术研究院 | 可调整内存使用空间的语音辨识系统与方法 |
CN101923854A (zh) * | 2010-08-31 | 2010-12-22 | 中国科学院计算技术研究所 | 一种交互式语音识别系统和方法 |
JP2012063536A (ja) * | 2010-09-15 | 2012-03-29 | Ntt Docomo Inc | 端末装置、音声認識方法および音声認識プログラム |
Also Published As
Publication number | Publication date |
---|---|
CN103871403A (zh) | 2014-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103871403B (zh) | 建立语音识别模型的方法、语音识别方法及对应装置 | |
JP6686154B2 (ja) | 発話認識方法及び装置 | |
CA1238978A (en) | Automatic generation of simple markov model stunted baseforms for words in a vocabulary | |
CN110176230B (zh) | 一种语音识别方法、装置、设备和存储介质 | |
CA1262188A (en) | Training of markov models used in a speech recognition system | |
CN102176310B (zh) | 具有巨大词汇量的语音识别系统 | |
JP3696231B2 (ja) | 言語モデル生成蓄積装置、音声認識装置、言語モデル生成方法および音声認識方法 | |
US7529671B2 (en) | Block synchronous decoding | |
US7921011B2 (en) | Structure for grammar and dictionary representation in voice recognition and method for simplifying link and node-generated grammars | |
US10381000B1 (en) | Compressed finite state transducers for automatic speech recognition | |
CN106663424A (zh) | 意图理解装置以及方法 | |
CN110428819B (zh) | 解码网络生成方法、语音识别方法、装置、设备及介质 | |
CN103295575B (zh) | 一种语音识别方法和客户端 | |
CN111916058A (zh) | 一种基于增量词图重打分的语音识别方法及系统 | |
CN109147774B (zh) | 一种改进的延时神经网络声学模型 | |
CN106254696A (zh) | 外呼结果确定方法、装置及系统 | |
CN112017645A (zh) | 一种语音识别方法及装置 | |
CN106294460B (zh) | 一种基于字和词混合语言模型的汉语语音关键词检索方法 | |
JP2018025747A (ja) | 対話行為推定方法、対話行為推定装置およびプログラム | |
Si et al. | Prefix tree based n-best list re-scoring for recurrent neural network language model used in speech recognition system. | |
CN114360510A (zh) | 一种语音识别方法和相关装置 | |
CN102298927B (zh) | 可调整内存使用空间的语音辨识系统与方法 | |
JP3541224B2 (ja) | 音源の分離方法および分離装置 | |
WO2012076895A1 (en) | Pattern recognition | |
CN112633516B (zh) | 性能预测和机器学习编译优化方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |