JP2005010464A - Device, method, and program for speech recognition - Google Patents
Device, method, and program for speech recognition Download PDFInfo
- Publication number
- JP2005010464A JP2005010464A JP2003174441A JP2003174441A JP2005010464A JP 2005010464 A JP2005010464 A JP 2005010464A JP 2003174441 A JP2003174441 A JP 2003174441A JP 2003174441 A JP2003174441 A JP 2003174441A JP 2005010464 A JP2005010464 A JP 2005010464A
- Authority
- JP
- Japan
- Prior art keywords
- hypothesis
- environment
- procedure
- hypotheses
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、音声認識装置、音声認識方法、および、音声認識プログラムに関し、特に、環境別音響モデル毎の仮説の削減により、音声認識率を向上させる音声認識装置、音声認識方法、および、音声認識プログラムに関する。
【0002】
【従来の技術】
特許文献1によれば、複数m人の話者に対応して複数m個の発声内容の仮説が存在し、入力された1人の話者の発声内容に基づいて発声内容と話者の2方向を同時にサーチの対象としてビームサーチしながら音声認識を連続的に実行することが示されている。
【0003】
図6は、従来の特許文献1の音声認識装置30の構成を示すブロック図である。
【0004】
分かりやすくするために、図6は、特許文献1の図を機能的に書き直してある。
【0005】
図7は、従来の特許文献1の音声認識装置30の動作の概略を示す説明図である。
【0006】
図6、図7を参照すると、従来の音声認識装置30は、特徴抽出部300と、距離計算部310と、音響モデル320と、仮説展開部330と、全仮説枝刈り部340と、仮説保持部350とから構成される。
【0007】
特徴抽出部300が、入力音声から特徴量を抽出し、距離計算部310が、予め用意されたm個の音響モデル320との距離を計算し、仮説展開部330が仮説を展開し、全仮説枝刈り部340が、時間毎に各話者モデル(S1〜Sm)の仮説全てに対して単一の基準に基づき可能性の低い仮説を削減し、仮説保持部350が残った仮説を保持し、最終的に入力音声の終了時間において最も可能性の高かった仮説を認識結果とする。一般に、m個の話者モデルそれぞれを用いて独立に得られた認識結果の中から最も可能性の高い認識結果を選択する方法はよい認識結果を与えることが知られており、この従来の音声認識装置30ではさらに、各音響モデルの仮説の削減を時間毎に同時に行うことで処理効率を向上させている。
【0008】
また、一般的な確率モデルによる音声認識の技術が知られている。(非特許文献1、p.10〜12)
【特許文献1】
特開平07−104780号公報
【非特許文献1】
中川聖一著,「確率モデルによる音声認識」,第2版,電子情報通信学会,平成元年8月10日,p.10〜12
【0009】
【発明が解決しようとする課題】
上述した特許文献1記載の複数のm人の音響モデルを同時に用い、その結果得られる全ての仮説に対してビームサーチを行う音声認識装置では、発声全体としては最適であり正解を与えるような音響モデルに基づく仮説が、一時的にスコアが悪くなった場合に枝刈りされてしまい、最終的に正解が得られないという問題がある。
【0010】
本発明の目的は、複数の音響モデル・言語モデルを同時に用いて効率よく精度の高い認識結果を得ながら、全体としては最適な音響モデル・言語モデルによる仮説が、一時的にスコアが悪くなるような場合でも正解が得られるようにして音声認識性能を向上させた音声認識装置、音声認識方法、及びプログラムを提供することである。
【0011】
【課題を解決するための手段】
本発明の第1の音声認識装置は、複数の環境別音響モデルを格納する記憶装置と、入力音声に対する仮説を前記記憶装置から読み出した環境別音響モデルごとに展開する仮説展開部と、前記仮説展開部からの仮説を環境別音響モデルごとに削減する環境別仮説枝刈り部とを有することを特徴とする。
【0012】
本発明の第2の音声認識装置は、前記第1の音声認識装置であって、入力された音声を認識に適した特徴量の時系列に変換する特徴抽出部と、前記記憶装置の各環境別音響モデルと前記特徴抽出部からの特徴量との距離を計算する距離計算部と、仮説を保持する仮説保持部と、前記仮説保持部に保持された仮説および前記距離計算部からの距離から新たな仮説を生成する前記仮説展開部と、前記仮説生成部で生成された全ての仮説に対し削減を実施する全仮説枝刈り部とを有することを特徴とする。
【0013】
本発明の第3の音声認識装置は、前記第2の音声認識装置であって、環境別音響モデルごとにスコア上位の仮説を所定の個数残す前記環境別枝刈り部を有することを特徴とする。
【0014】
本発明の第4の音声認識装置は、前記第2の音声認識装置であって、環境別音響モデルごとに閾値以上のスコアを持つ仮説を残す前記環境別枝刈り部を有することを特徴とする。
【0015】
本発明の第5の音声認識装置は、複数の環境別音響モデル、複数の環境別言語モデルを格納する記憶装置と、入力音声に対する仮説を前記記憶装置から読み出した環境別言語モデルごとに展開する仮説展開部と、前記仮説展開部からの仮説を環境別言語モデルごとに削減する環境別仮説枝刈り部とを有することを特徴とする。
【0016】
本発明の第6の音声認識装置は、前記第5の音声認識装置であって、入力された音声を認識に適した特徴量の時系列に変換する特徴抽出部と、前記記憶装置の各環境別音響モデルと前記特徴抽出部からの特徴量との距離を計算する距離計算部と、仮説を保持する仮説保持部と、前記仮説保持部に保持された仮説、前記距離計算部からの距離、および、前記記憶装置の環境別言語モデルから新たな仮説を生成する前記仮説展開部と、前記仮説生成部で生成された全ての仮説に対し削減を実施する全仮説枝刈り部とを有することを特徴とする。
【0017】
本発明の第7の音声認識装置は、前記第6の音声認識装置であって、言語モデルごとにスコア上位の仮説を所定の個数残すようにする前記環境別枝刈り部を有することを特徴とする。
【0018】
本発明の第8の音声認識装置は、前記第6の音声認識装置であって、言語モデルごとに閾値以上のスコアを持つ仮説を残すようにする前記環境別枝刈り部を有することを特徴とする。
【0019】
本発明の第1の音声認識方法は、入力音声に対する仮説を記憶装置から読み出した環境別音響モデルごとに展開する仮説展開手順と、前記仮説展開手順からの仮説を環境別音響モデルごとに削減する環境別仮説枝刈り手順とを含むことを特徴とする。
【0020】
本発明の第2の音声認識方法は、前記第1の音声認識方法であって、入力された音声を認識に適した特徴量の時系列に変換する特徴抽出手順と、前記記憶装置の各環境別音響モデルと前記特徴抽出手順からの特徴量との距離を計算する距離計算手順と、仮説保持部に保持された仮説および前記距離計算手順からの距離から新たな仮説を生成する前記仮説展開手順と、前記仮説生成手順で生成された全ての仮説に対し削減を実施する全仮説枝刈り手順とを含むことを特徴とする。
【0021】
本発明の第3の音声認識方法は、前記第2の音声認識方法であって、環境別音響モデルごとにスコア上位の仮説を所定の個数残す前記環境別枝刈り手順を含むことを特徴とする。
【0022】
本発明の第4の音声認識方法は、前記第2の音声認識方法であって、環境別音響モデルごとに閾値以上のスコアを持つ仮説を残す前記環境別枝刈り手順を含むことを特徴とする。
【0023】
本発明の第5の音声認識方法は、入力音声に対する仮説を記憶装置から読み出した環境別言語モデルごとに展開する仮説展開手順と、前記仮説展開手順からの仮説を環境別言語モデルごとに削減する環境別仮説枝刈り手順とを含むことを特徴とする。
【0024】
本発明の第6の音声認識方法は、前記第5の音声認識方法であって、入力された音声を認識に適した特徴量の時系列に変換する特徴抽出手順と、前記記憶装置からの各環境別音響モデルと前記特徴抽出手順からの特徴量との距離を計算する距離計算手順と、仮説保持部に保持された仮説、前記距離計算手順からの距離、および、前記記憶装置の環境別言語モデルから新たな仮説を生成する前記仮説展開手順と、前記仮説生成手順で生成された全ての仮説に対し削減を実施する全仮説枝刈り手順とを含むことを特徴とする。
【0025】
本発明の第7の音声認識方法は、前記第6の音声認識方法であって、言語モデルごとにスコア上位の仮説を所定の個数残すようにする前記環境別枝刈り手順を含むことを特徴とする。
【0026】
本発明の第8の音声認識方法は、前記第6の音声認識方法であって、言語モデルごとに閾値以上のスコアを持つ仮説を残すようにする前記環境別枝刈り手順を含むことを特徴とする。
【0027】
本発明の第1の音声認識プログラムは、入力音声に対する仮説を記憶装置から読み出した環境別音響モデルごとに展開する仮説展開手順と、前記仮説展開手順からの仮説を環境別音響モデルごとに削減する環境別仮説枝刈り手順とをコンピュータに実行させることを特徴とする。
【0028】
本発明の第2の音声認識プログラムは、前記第1の音声認識プログラムであって、入力された音声を認識に適した特徴量の時系列に変換する特徴抽出手順と、前記記憶装置の各環境別音響モデルと前記特徴抽出手順からの特徴量との距離を計算する距離計算手順と、仮説保持部に保持された仮説および前記距離計算手順からの距離から新たな仮説を生成する前記仮説展開手順と、前記仮説生成手順で生成された全ての仮説に対し削減を実施する全仮説枝刈り手順とをコンピュータに実行させることを特徴とする。
【0029】
本発明の第3の音声認識プログラムは、前記第2の音声認識プログラムであって、環境別音響モデルごとにスコア上位の仮説を所定の個数残す前記環境別枝刈り手順をコンピュータに実行させることを特徴とする。
【0030】
本発明の第4の音声認識プログラムは、前記第2の音声認識プログラムであって、環境別音響モデルごとに閾値以上のスコアを持つ仮説を残す前記環境別枝刈り手順をコンピュータに実行させることを特徴とする。
【0031】
本発明の第5の音声認識プログラムは、入力音声に対する仮説を記憶装置から読み出した環境別言語モデルごとに展開する仮説展開手順と、前記仮説展開手順からの仮説を環境別言語モデルごとに削減する環境別仮説枝刈り手順とをコンピュータに実行させることを特徴とする。
【0032】
本発明の第6の音声認識プログラムは、前記第5の音声認識プログラムであって、入力された音声を認識に適した特徴量の時系列に変換する特徴抽出手順と、前記記憶装置からの各環境別音響モデルと前記特徴抽出手順からの特徴量との距離を計算する距離計算手順と、仮説保持部に保持された仮説、前記距離計算手順からの距離、および、前記記憶装置の環境別言語モデルから新たな仮説を生成する前記仮説展開手順と、前記仮説生成手順で生成された全ての仮説に対し削減を実施する全仮説枝刈り手順とをコンピュータに実行させることを特徴とする。
【0033】
本発明の第7の音声認識プログラムは、前記第6の音声認識プログラムであって、言語モデルごとにスコア上位の仮説を所定の個数残すようにする前記環境別枝刈り手順をコンピュータに実行させることを特徴とする。
【0034】
本発明の第8の音声認識プログラムは、前記第6の音声認識プログラムであって、言語モデルごとに閾値以上のスコアを持つ仮説を残すようにする前記環境別枝刈り手順をコンピュータに実行させることを特徴とする。
【0035】
【発明の実施の形態】
次に、本発明の第1の実施の形態について図面を参照して詳細に説明する。
【0036】
図1は、本発明の第1の実施の形態の構成を示すブロック図である。
【0037】
図1を参照すると、本発明の第1の実施の形態の音声認識装置10は、プログラムで実現されるか、あるいは、プログラムを含む特徴抽出部100と、距離計算部110と、仮説展開部130と、全仮説枝刈り部140と、環境別仮説枝刈り部150と、記憶手段(たとえば、メモリ、ハードディスク装置)に設けられる音響モデル120と、仮説保持部160とから構成される。
【0038】
特徴抽出部100は、入力された音声信号をA/D変換した後、たとえば、LPC分析を実行するなどして音声認識に適した多次元のベクトルを特徴量として抽出し、入力時間順に従って特徴量の時系列を出力する。LPC分析については、非特許文献1に詳しい。多次元ベクトルの要素は実数であり、次元数は10〜40程度のことが多い。音響モデル120には話者(性別・年齢等)や入力手段(電話・マイク等)、背景雑音等、異なる特徴を持つ環境毎に複数(m[個])の音響モデル(m[個]の環境別音響モデルと呼ぶ)が蓄積される。音響モデルは、たとえば、具体的にはHMMやニューラルネットワーク等で表現される。また、各環境別音響モデルは、単語や音節、音素といったシンボル毎に用意され、連続分布HMMであれば、距離計算部110は、それぞれのシンボル毎の特徴量の出現確率を求める。たとえば、シンボル(たとえば、音素)がk[種類]であれば、m×k[個]の音響モデルが存在する。
【0039】
図5は、音響モデル120の例を示す説明図である。
【0040】
図5を参照すると、音響モデル120は、m[個]の環境別音響モデルR1〜環境別音響モデルRmを含む。また、各環境別音響モデルR1〜環境別音響モデルRmは、それぞれ、k[個]のシンボル別音響モデルLe1〜シンボル別音響モデルLekを含んでいる。ここで、eは、各環境別音響モデルR1〜環境別音響モデルRmを示す。
【0041】
距離計算部110は、入力された特徴量の時系列の特定時刻における音響モデルからの距離を算出する。
【0042】
たとえば、入力された特徴ベクトルx、音響モデルの特徴ベクトルwのある音素に対する出現確率は、以下の式で与えられる。
【0043】
【数1】
【0044】
ここで、x:入力された特徴ベクトル、n:特徴ベクトルの次元数、μ:音響モデルwの平均ベクトル、Σ:音響モデルwの共分散行列、t:転置行列を示す記号、−1:逆行列を示す記号である。
【0045】
m×k個の音響モデルに対して、m×k個の距離がそれぞれ得られる。特定時刻における距離の例としては、音響モデルとして連続分布HMMを用いる場合に、各音響モデルがその時刻の特徴量(多次元ベクトル)を出力する確率の対数を距離として用いる例がある。前述の通り、音響モデルにはシンボルが定められており、単語や音節、音素といったシンボルに対して距離が与えられる。またHMMであれば状態遷移確率を持ち、その対数値も距離に加えられる。
【0046】
たとえば、距離Tは、T=log{P(x/w)}で与えられる。
【0047】
仮説展開部130は、仮説保持部160に保持されている仮説から展開可能な仮説を距離計算部110で得られた距離に基づいて展開し、新たな仮説を生成する。仮説は、ある時刻(通常音声開始点Z0)からある時刻(Z1)までのシンボル列、および、シンボル列の各シンボルに対する音響モデル距離の総和などから計算されるスコアによって構成される。順次、時刻(Zn)からある時刻(Zn+1)までのスコアが計算される。
【0048】
たとえば、スコアSは、S=総和[log{P(x/w)}]で与えられる。
【0049】
スコアは、通常一つの実数である。当然ながら、同じ時間区間に対し複数の仮説が存在し、それらはスコアによって比較可能である。
【0050】
また、仮説を展開可能とは、たとえば、日本語であれば、<促音「っ」の後には母音が来ない>といったような規則があり、シンボル列として許容できる場合を展開可能という。入力音声の終端に達した仮説は、認識結果として出力される。すなわち、認識結果とは音声開始から終了までの区間で最もスコアの高い仮説である。仮説保持部160で保持されている仮説は音響モデルによって区別され、それぞれ対応する音響モデルによる距離が用いられる。
【0051】
全仮説枝刈り部140は、新たに生成された仮説を加えた全ての仮説に対し、たとえば、閾値以下のスコアを持つ仮説を削減する。環境別仮説枝刈り部150は、新たに生成された仮説を加えた対応する音響モデルの仮説について音響モデル毎に閾値以下のスコアを持つ仮説を削減する。前述の通り、仮説は、シンボル列とスコアとから構成される。仮説を環境別に区別するということは、すなわち、同じシンボル列であってもその仮説が得られた環境が異なれば区別するということである。たとえば、「ぱんがたべたい」という発声に対し、環境として男性音響モデル・女性音響モデルを用いることを考えた場合、処理過程で仮説として以下のものが得られたとする。
【0052】
(男性音響モデル,シンボル列「ぱんが」,スコア:−15)。
【0053】
(男性音響モデル,シンボル列「ぱんだ」,スコア:−30)。
【0054】
(女性音響モデル,シンボル列「ぱすが」,スコア:−30)。
【0055】
(女性音響モデル,シンボル列「ばすが」,スコア:−50)。
【0056】
この時、全仮説枝刈り部140は、全ての仮説に対し仮説の削減を行う(これを枝刈りと呼ぶ)。たとえば、閾値が−20であれば(男性音響モデル,系列「ぱんが」,スコア:−15)のみが残ることとなる。これに対し、環境別仮説枝刈り部150は、それぞれ環境毎に区別して仮説の削減を行う。たとえば、男性音響モデルによる仮説では閾値−20、女性音響モデルによる仮説では閾値−40で削減を行うとすると、(男性音響モデル,系列「ぱんが」,スコア:−15)、および、(女性音響モデル,系列「ぱすが」,スコア:−30)がそれぞれ残る。
【0057】
仮説保持部160は、全仮説枝刈り部140、および、環境別仮説枝刈り部150から出力される仮説を重複しないように保持する。前の例であれば、(男性音響モデル,系列「ぱんが」,スコア:−15)は重複する仮説の例となっており、一つのみ保持される。
【0058】
なお、全仮説枝刈り部140と環境別仮説枝刈り部150とを一つにまとめて、全仮説の削減(枝刈り)するときに、時間的に同時に、音響モデル毎の仮説の削減(枝刈り)も行うことで機能をそこなわずに処理を高速化できることは明らかである。
【0059】
次に、本発明の第1の実施の形態の動作について図面を参照して詳細に説明する。
【0060】
図2は、本発明の第1の実施の形態の動作を示すフローチャートである。
【0061】
図2を参照すると、まず、ユーザの発声した音声が入力されると、特徴抽出部100は、入力音声のA/Dや、分析等の処理を行い、音声認識に適した特徴量の時系列を出力する(図2ステップS51)。音声認識装置10の初期化を行う(図2ステップS52)。詳細には、特徴抽出部100が入力のどの時間の部分が処理されているかを示す時間tを“0”に初期化する(図示しないメモリ等に時間t=0を格納する)。この時、特徴抽出部100は、入力音声の終端を検出すると、終端であることを示す終端情報を付加して格納する。また、仮説保持部160は、内容を初期化する。次に、距離計算部110が、音響モデル120の全ての音響モデルについて入力音声の時間tにおける距離を計算する(図2ステップS53)。
【0062】
次に、仮説展開部130が、仮説保持部160に保持されている仮説から展開可能な仮説について、距離計算部110で計算された距離に基づき新たな仮説を展開する(図2ステップS54)。すなわち、スコアを計算する。仮説展開部130は、時間tが入力音声の終端であれば(図2ステップS55/Y)、現在の仮説のうち最もスコアの高い仮説を認識結果として出力し処理を終了する(図2ステップS60)。
【0063】
時間tが、入力音声の終端でない場合(図2ステップS55/N)、全仮説枝刈り部140が、仮説展開部130で得られた仮説全てについて、たとえば、スコアがある閾値以下の仮説を棄却して仮説の削減を行う(図2ステップS56)。また、環境別仮説枝刈り部150が得られた仮説を音響モデル毎に別々に削減すする(図2ステップS57)。仮説保持部160は、全仮説枝刈り部140、および、環境別仮説枝刈り部150で残った仮説をマージして保持する(図2ステップS58)。マージの仕方としては、たとえば、重複するものは一方のみ残すような仕方が考えられる。
【0064】
次に、特徴抽出部100は、時間t=t+1とし(図2ステップS59)、距離計算部110以降は、時間t=t+1における処理を行う(図2ステップS53以降)。
【0065】
このように、本発明の第1の実施の形態の音声認識装置10では、環境別仮説枝刈り部150を持つことにより、全ての音響モデルの仮説が常に残るため、一時的にスコアが低くなるような発声に対して図6の従来の音声認識装置30と比べよりよい認識結果を得ることができる。
【0066】
図3は本発明の第1の実施の形態の動作を示す説明図である。
【0067】
図3を参照すると、音響モデルの区別に関わらず全体で枝刈りを行う他に、環境別音響モデル毎(S1、S2、・・・)にも仮説の削減(枝刈り)を行う。
【0068】
次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。
【0069】
図4は、本発明の第2の実施の形態の構成を示すブロック図である。
【0070】
図4を参照すると、本発明の第2の実施の形態の音声認識装置20は、本発明の第1の実施の形態の音声認識装置10に対して、言語モデル270が追加され、仮説展開部230、環境別枝刈り部250、および、仮説保持部260の動作が、それぞれ、仮説展開部130、環境別枝刈り部150、および、仮説保持部160の動作とは異なる。なお、図4では、図1と同じ機能の構成要素は、図1と同じ符号を付しているのでこれらの構成要素の説明は省略する。
【0071】
言語モデル270は、分野や機能の差など、異なる特徴を持つ環境毎に複数(n個)の言語モデル(環境別言語モデルと呼ぶ)を蓄積する。言語モデル270は、たとえば、具体的には、単語辞書、n−gramモデルやCFG文法、また、その組み合わせ等で表現される。たとえば、n−gramモデルの一つである2−gramの言語モデル270は、P(y|y1)のように、単語y1に続いて単語yが出現する確率を記録する。音響モデルのシンボルから単語への変換方法は単語辞書に記述される。たとえば、音響モデルのシンボルが音素の場合、「nippon」というシンボル(音素)列が「日本」という単語に対応することなどが単語辞書に記述される。
【0072】
仮説展開部230は、仮説保持部260に保持されている仮説から展開可能な仮説を距離計算部110で得られた距離と言語モデル270とに基づいて展開し新たな仮説を生成する。言語モデルに基づく展開としては、たとえば、仮説の音響モデルのシンボル列を単語列y1,y2,・・・,ynに変換し、2−gramモデルの場合にはΣlogP(yi|y(i−1))(iは1〜n)を仮説のスコアに加えることなどが具体的な方法として挙げられる。入力音声の終端に達した仮説は、認識結果として出力される。仮説保持部260に保持されている仮説は、音響モデル120、言語モデル270によって区別され、それぞれ対応する音響モデル120による距離と言語モデル270とが用いられる。環境別仮説枝刈り部250は、新たに生成された仮説について、環境別音響モデル毎・環境別言語モデル毎に閾値以下のスコアを持つ仮説を削減する。音響モデル120は、1個でもよい。または、複数の音響モデルに対して言語モデル270は、1個でもよい。
【0073】
このように本発明の第2の実施の形態では、本発明の第1の実施の形態と同じ効果を得るとともに、言語モデル270も異なる環境として使用することで音響的な特徴だけでなく、言語的な特徴(分野や機能等)も考慮に入れることができる。
【0074】
本発明の第1の実施の形態、本発明の第2の実施の形態の構成の他に、たとえば、仮説を削減する際に閾値とスコアとの比較で仮説を削減するのではなく、スコアが上位の仮説を所定の個数のみ残すようにして仮説を削減することも可能である。また、閾値と比較する値として仮説のスコアそのものや、全仮説中で最大のスコアからの差、環境毎の仮説中で最大のスコアからの差を用いることも可能である。認識結果として最大のスコアの仮説を出力するだけでなく、たとえば、全体としてスコア上位の複数候補を出力したり、環境毎にスコア上位の複数候補を出力したり、ワードグラフの形式で出力することも可能である。
【0075】
また、仮説保持部160、仮説保持部260において過去一定時間のスコア、または、全仮説に対する順位を保持しておき、ある音響モデル120または言語モデル270による仮説が一定時間の間所定の閾値以下のスコア、または、順位であった場合に、その環境の仮説を削減することで処理を高速化することも可能である。
【0076】
次に、本発明の第3の実施の形態について説明する。
【0077】
本発明の第3の実施の形態は、全仮説枝刈り部140を省略し、全ての仮説を、それぞれ、音響モデル120、言語モデル270に応じて環境別枝刈り部250で仮説の削減を行い、そのそれぞれの仮説の削減(枝刈り)の基準を全体で制御する構成をとる。
【0078】
次に、本発明の第4の実施の形態について説明する。
【0079】
本発明の第4の実施の形態は、本発明の第1の実施の形態〜本発明の第3の実施の形態の処理の各ステップ(図2等)を含む方法である。
【0080】
次に、本発明の第5の実施の形態について説明する。
【0081】
本発明の第5の実施の形態は、本発明の第4の実施の形態の処理の各ステップをコンピュータ(たとえば、音声認識装置10、音声認識装置20)に実行させるプログラムである。
【0082】
【発明の効果】
本発明によれば、全体的な仮説の枝刈りに加え、環境毎に仮説の枝刈りを行うようにしたので、一時的にスコアが悪くなるため正解が枝刈りされてしまうような場合でも正解を得ることができるようになり、認識率を改善できるという効果がある。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の構成を示すブロック図である。
【図2】本発明の第1の実施の形態の動作を示すフローチャートである。
【図3】本発明の第1の実施の形態の動作を示す説明図である。
【図4】本発明の第2の実施の形態の構成を示すブロック図である。
【図5】音響モデルの例を示す説明図である。
【図6】従来の技術の構成を示すブロック図である。
【図7】従来の技術の動作を示す説明図である。
【符号の説明】
10 音声認識装置
100 特徴抽出部
110 距離計算部
120 音響モデル
130 仮説展開部
140 全仮説枝刈り部
150 環境別仮説枝刈り部
160 仮説保持部
20 音声認識装置
230 仮説展開部
250 環境別仮説枝刈り部
260 仮説保持部
270 言語モデル
30 音声認識装置
300 特徴抽出部
310 距離計算部
320 音響モデル
330 仮説展開部
340 全仮説枝刈り部
350 仮説保持部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a speech recognition device, a speech recognition method, and a speech recognition program, and in particular, a speech recognition device, speech recognition method, and speech recognition that improve speech recognition rate by reducing hypotheses for each acoustic model by environment. Regarding the program.
[0002]
[Prior art]
According to
[0003]
FIG. 6 is a block diagram showing a configuration of a conventional
[0004]
For the sake of clarity, FIG. 6 is a functional rewrite of the diagram of
[0005]
FIG. 7 is an explanatory diagram showing an outline of the operation of the conventional
[0006]
6 and 7, the conventional
[0007]
The
[0008]
A speech recognition technique based on a general probability model is also known. (
[Patent Document 1]
Japanese Patent Application Laid-Open No. 07-104780
[Non-Patent Document 1]
Seiichi Nakagawa, “Voice Recognition Using Stochastic Models”, 2nd edition, IEICE, August 10, 1989, p. 10-12
[0009]
[Problems to be solved by the invention]
In the speech recognition apparatus that uses a plurality of m acoustic models described in
[0010]
It is an object of the present invention to obtain a highly accurate recognition result by using a plurality of acoustic models / language models at the same time, and the hypothesis based on the optimal acoustic model / language model as a whole may temporarily deteriorate the score. It is to provide a speech recognition apparatus, speech recognition method, and program that improve speech recognition performance so that a correct answer can be obtained even in such a case.
[0011]
[Means for Solving the Problems]
The first speech recognition apparatus of the present invention includes a storage device that stores a plurality of environment-specific acoustic models, a hypothesis expansion unit that expands a hypothesis for an input speech for each environment-specific acoustic model read from the storage device, and the hypothesis An environment-specific hypothesis pruning unit that reduces hypotheses from the development unit for each environment-specific acoustic model is provided.
[0012]
The second speech recognition apparatus of the present invention is the first speech recognition apparatus, wherein a feature extraction unit that converts input speech into a time series of feature quantities suitable for recognition, and each environment of the storage device From a distance calculation unit that calculates the distance between another acoustic model and the feature quantity from the feature extraction unit, a hypothesis holding unit that holds a hypothesis, a hypothesis held in the hypothesis holding unit, and a distance from the distance calculation unit The hypothesis developing unit that generates a new hypothesis and the all hypothesis pruning unit that performs reduction on all hypotheses generated by the hypothesis generation unit.
[0013]
A third speech recognition apparatus according to the present invention is the second speech recognition apparatus, and includes the environment-specific pruning unit that leaves a predetermined number of hypotheses having higher scores for each environment-specific acoustic model. .
[0014]
The fourth speech recognition apparatus according to the present invention is the second speech recognition apparatus, and includes the environment-specific pruning unit that leaves a hypothesis having a score equal to or higher than a threshold value for each environment-specific acoustic model. .
[0015]
The fifth speech recognition apparatus of the present invention develops a plurality of environment-specific acoustic models, a storage device storing a plurality of environment-specific language models, and a hypothesis for input speech for each environment-specific language model read from the storage device. It has a hypothesis expansion unit and an environment-specific hypothesis pruning unit that reduces hypotheses from the hypothesis expansion unit for each environment-specific language model.
[0016]
A sixth speech recognition apparatus according to the present invention is the fifth speech recognition apparatus, wherein a feature extraction unit that converts input speech into a time series of feature quantities suitable for recognition, and each environment of the storage device A distance calculation unit that calculates the distance between another acoustic model and the feature amount from the feature extraction unit, a hypothesis holding unit that holds a hypothesis, a hypothesis held in the hypothesis holding unit, a distance from the distance calculation unit, And the hypothesis expansion unit that generates a new hypothesis from the environment-specific language model of the storage device, and the all hypothesis pruning unit that performs reduction for all hypotheses generated by the hypothesis generation unit. Features.
[0017]
A seventh speech recognition apparatus according to the present invention is the sixth speech recognition apparatus, comprising the environment-specific pruning unit that leaves a predetermined number of hypotheses with higher scores for each language model. To do.
[0018]
An eighth speech recognition apparatus according to the present invention is the sixth speech recognition apparatus, comprising the environment-specific pruning unit that leaves a hypothesis having a score equal to or higher than a threshold value for each language model. To do.
[0019]
The first speech recognition method of the present invention develops a hypothesis development procedure for developing a hypothesis for an input speech for each acoustic model by environment read from the storage device, and reduces hypotheses from the hypothesis development procedure for each acoustic model by environment. It includes a hypothetical pruning procedure according to environment.
[0020]
The second speech recognition method of the present invention is the first speech recognition method, wherein the input speech is converted into a time series of feature quantities suitable for recognition, and each environment of the storage device A distance calculation procedure for calculating a distance between another acoustic model and the feature quantity from the feature extraction procedure; and a hypothesis expansion procedure for generating a new hypothesis from the hypothesis held in the hypothesis holding unit and the distance from the distance calculation procedure And a hypothesis pruning procedure for reducing all hypotheses generated by the hypothesis generating procedure.
[0021]
The third speech recognition method of the present invention is the second speech recognition method, and includes the environment pruning procedure that leaves a predetermined number of hypotheses having higher scores for each environment acoustic model. .
[0022]
The fourth speech recognition method of the present invention is the second speech recognition method, and includes the environment-specific pruning procedure that leaves a hypothesis having a score equal to or higher than a threshold for each environment-specific acoustic model. .
[0023]
According to a fifth speech recognition method of the present invention, a hypothesis expansion procedure for expanding a hypothesis for an input speech for each language model by environment read from the storage device, and a hypothesis from the hypothesis expansion procedure is reduced for each language model by environment. It includes a hypothetical pruning procedure according to environment.
[0024]
The sixth speech recognition method of the present invention is the fifth speech recognition method, wherein a feature extraction procedure for converting the input speech into a time series of feature quantities suitable for recognition, and each of the storage devices Distance calculation procedure for calculating the distance between the acoustic model by environment and the feature quantity from the feature extraction procedure, the hypothesis held in the hypothesis holding unit, the distance from the distance calculation procedure, and the language by environment of the storage device The hypothesis development procedure for generating a new hypothesis from the model and the all hypothesis pruning procedure for reducing all hypotheses generated by the hypothesis generation procedure are included.
[0025]
The seventh speech recognition method of the present invention is the sixth speech recognition method, comprising the environment-specific pruning procedure for leaving a predetermined number of hypotheses with higher scores for each language model. To do.
[0026]
An eighth speech recognition method according to the present invention is the sixth speech recognition method, including the environment-specific pruning procedure for leaving a hypothesis having a score equal to or higher than a threshold value for each language model. To do.
[0027]
The first speech recognition program of the present invention develops a hypothesis development procedure for developing a hypothesis for an input speech for each acoustic model by environment read from the storage device, and reduces hypotheses from the hypothesis development procedure for each acoustic model by environment. It is characterized by causing a computer to execute a hypothetical pruning procedure for each environment.
[0028]
A second speech recognition program of the present invention is the first speech recognition program, a feature extraction procedure for converting an input speech into a time series of feature quantities suitable for recognition, and each environment of the storage device A distance calculation procedure for calculating a distance between another acoustic model and the feature quantity from the feature extraction procedure; and a hypothesis expansion procedure for generating a new hypothesis from the hypothesis held in the hypothesis holding unit and the distance from the distance calculation procedure And a hypothesis pruning procedure for reducing all hypotheses generated by the hypothesis generating procedure.
[0029]
A third speech recognition program according to the present invention is the second speech recognition program, which causes a computer to execute the environment-specific pruning procedure that leaves a predetermined number of hypotheses with higher scores for each environment-specific acoustic model. Features.
[0030]
A fourth speech recognition program of the present invention is the second speech recognition program, which causes a computer to execute the environment-specific pruning procedure that leaves a hypothesis having a score equal to or greater than a threshold for each environment-specific acoustic model. Features.
[0031]
A fifth speech recognition program of the present invention develops a hypothesis development procedure for developing a hypothesis for an input speech for each language model by environment read from the storage device, and reduces hypotheses from the hypothesis development procedure for each language model by environment. It is characterized by causing a computer to execute a hypothetical pruning procedure for each environment.
[0032]
A sixth speech recognition program according to the present invention is the fifth speech recognition program, wherein a feature extraction procedure for converting input speech into a time series of feature quantities suitable for recognition, Distance calculation procedure for calculating the distance between the acoustic model by environment and the feature quantity from the feature extraction procedure, the hypothesis held in the hypothesis holding unit, the distance from the distance calculation procedure, and the language by environment of the storage device The hypothesis development procedure for generating a new hypothesis from the model and the all hypothesis pruning procedure for reducing all hypotheses generated in the hypothesis generation procedure are executed by a computer.
[0033]
A seventh speech recognition program according to the present invention is the sixth speech recognition program, which causes a computer to execute the pruning procedure for each environment in which a predetermined number of hypotheses with higher scores are left for each language model. It is characterized by.
[0034]
An eighth speech recognition program of the present invention is the sixth speech recognition program, which causes a computer to execute the environment-specific pruning procedure for leaving a hypothesis having a score equal to or greater than a threshold value for each language model. It is characterized by.
[0035]
DETAILED DESCRIPTION OF THE INVENTION
Next, a first embodiment of the present invention will be described in detail with reference to the drawings.
[0036]
FIG. 1 is a block diagram showing the configuration of the first exemplary embodiment of the present invention.
[0037]
Referring to FIG. 1, the
[0038]
The
[0039]
FIG. 5 is an explanatory diagram illustrating an example of the
[0040]
Referring to FIG. 5, the
[0041]
The
[0042]
For example, the appearance probability for a phoneme having the input feature vector x and the acoustic model feature vector w is given by the following equation.
[0043]
[Expression 1]
[0044]
Here, x: input feature vector, n: dimension number of feature vector, μ: average vector of acoustic model w, Σ: covariance matrix of acoustic model w, t: symbol indicating transpose matrix, −1: inverse This is a symbol indicating a matrix.
[0045]
For m × k acoustic models, m × k distances are obtained. As an example of the distance at a specific time, when a continuous distribution HMM is used as an acoustic model, there is an example in which the logarithm of the probability that each acoustic model outputs a feature quantity (multidimensional vector) at that time is used as the distance. As described above, symbols are defined in the acoustic model, and distances are given to symbols such as words, syllables, and phonemes. Moreover, if it is HMM, it has a state transition probability, The logarithm value is also added to distance.
[0046]
For example, the distance T is given by T = log {P (x / w)}.
[0047]
The
[0048]
For example, the score S is given by S = sum [log {P (x / w)}].
[0049]
The score is usually one real number. Of course, there are multiple hypotheses for the same time interval, which can be compared by score.
[0050]
The hypothesis can be developed, for example, in the case of Japanese, there is a rule such as <no vowel comes after the prompting sound tsu>, and the case where it is acceptable as a symbol string can be developed. The hypothesis that has reached the end of the input speech is output as a recognition result. That is, the recognition result is a hypothesis having the highest score in the section from the start to the end of speech. Hypotheses held in the
[0051]
The all
[0052]
(Male acoustic model, symbol string “Panga”, score: −15).
[0053]
(Male acoustic model, symbol string “Panda”, score: −30).
[0054]
(Female acoustic model, symbol string “Pasuga”, score: −30).
[0055]
(Female acoustic model, symbol string “Basuga”, score: −50).
[0056]
At this time, all
[0057]
The
[0058]
When all
[0059]
Next, the operation of the first exemplary embodiment of the present invention will be described in detail with reference to the drawings.
[0060]
FIG. 2 is a flowchart showing the operation of the first exemplary embodiment of the present invention.
[0061]
Referring to FIG. 2, first, when a voice uttered by a user is input, the
[0062]
Next, the
[0063]
When the time t is not the end of the input speech (step S55 / N in FIG. 2), all
[0064]
Next, the
[0065]
As described above, in the
[0066]
FIG. 3 is an explanatory diagram showing the operation of the first embodiment of the present invention.
[0067]
Referring to FIG. 3, in addition to performing pruning as a whole regardless of the distinction of acoustic models, hypothesis reduction (pruning) is performed for each environment-specific acoustic model (S1, S2,...).
[0068]
Next, a second embodiment of the present invention will be described in detail with reference to the drawings.
[0069]
FIG. 4 is a block diagram showing the configuration of the second exemplary embodiment of the present invention.
[0070]
Referring to FIG. 4, the
[0071]
The
[0072]
The
[0073]
As described above, in the second embodiment of the present invention, the same effect as that of the first embodiment of the present invention is obtained, and the
[0074]
In addition to the configuration of the first embodiment of the present invention and the second embodiment of the present invention, for example, when the hypothesis is reduced, the hypothesis is not reduced by comparing the threshold with the score, but the score is It is also possible to reduce hypotheses by leaving only a predetermined number of upper hypotheses. It is also possible to use a hypothesis score itself, a difference from the maximum score among all hypotheses, and a difference from the maximum score among hypotheses for each environment as a value to be compared with the threshold value. In addition to outputting the highest score hypothesis as a recognition result, for example, outputting multiple candidates with high scores overall, outputting multiple candidates with high scores for each environment, or outputting in the form of a word graph Is also possible.
[0075]
In addition, the
[0076]
Next, a third embodiment of the present invention will be described.
[0077]
In the third embodiment of the present invention, all
[0078]
Next, a fourth embodiment of the present invention will be described.
[0079]
The fourth embodiment of the present invention is a method including each step (FIG. 2 and the like) of processing of the first embodiment to the third embodiment of the present invention.
[0080]
Next, a fifth embodiment of the present invention will be described.
[0081]
The fifth embodiment of the present invention is a program that causes a computer (for example, the
[0082]
【The invention's effect】
According to the present invention, since the hypothesis is pruned for each environment in addition to the pruning of the entire hypothesis, the correct answer is pruned even if the correct answer is pruned because the score temporarily deteriorates. Can be obtained and the recognition rate can be improved.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a first exemplary embodiment of the present invention.
FIG. 2 is a flowchart showing the operation of the first exemplary embodiment of the present invention.
FIG. 3 is an explanatory diagram showing an operation of the first exemplary embodiment of the present invention.
FIG. 4 is a block diagram showing a configuration of a second exemplary embodiment of the present invention.
FIG. 5 is an explanatory diagram showing an example of an acoustic model.
FIG. 6 is a block diagram showing a configuration of a conventional technique.
FIG. 7 is an explanatory diagram showing the operation of a conventional technique.
[Explanation of symbols]
10 Voice recognition device
100 feature extraction unit
110 Distance calculator
120 Acoustic model
130 Hypothesis Development Department
140 All hypothetical pruning parts
150 Hypothesis Pruning Department by Environment
160 Hypothesis holding part
20 Voice recognition device
230 Hypothesis Development Department
250 Hypothesis Pruning Department by Environment
260 Hypothesis holding part
270 language model
30 Voice recognition device
300 Feature extraction unit
310 Distance calculator
320 Acoustic model
330 Hypothesis Development Department
340 All hypotheses pruning part
350 Hypothesis holding part
Claims (24)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003174441A JP2005010464A (en) | 2003-06-19 | 2003-06-19 | Device, method, and program for speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003174441A JP2005010464A (en) | 2003-06-19 | 2003-06-19 | Device, method, and program for speech recognition |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005010464A true JP2005010464A (en) | 2005-01-13 |
Family
ID=34097922
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003174441A Pending JP2005010464A (en) | 2003-06-19 | 2003-06-19 | Device, method, and program for speech recognition |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005010464A (en) |
-
2003
- 2003-06-19 JP JP2003174441A patent/JP2005010464A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10210862B1 (en) | Lattice decoding and result confirmation using recurrent neural networks | |
US9292487B1 (en) | Discriminative language model pruning | |
JP4195428B2 (en) | Speech recognition using multiple speech features | |
JP5480760B2 (en) | Terminal device, voice recognition method and voice recognition program | |
US8635070B2 (en) | Speech translation apparatus, method and program that generates insertion sentence explaining recognized emotion types | |
JP5229478B2 (en) | Statistical model learning apparatus, statistical model learning method, and program | |
EP4018437B1 (en) | Optimizing a keyword spotting system | |
US8494847B2 (en) | Weighting factor learning system and audio recognition system | |
KR20040088368A (en) | Method of speech recognition using variational inference with switching state space models | |
JP2016062069A (en) | Speech recognition method and speech recognition apparatus | |
JP2013109061A (en) | Voice data retrieval system and program for the same | |
JP2010078877A (en) | Speech recognition device, speech recognition method, and speech recognition program | |
JP2010139745A (en) | Recording medium storing statistical pronunciation variation model, automatic voice recognition system, and computer program | |
JP2013125144A (en) | Speech recognition device and program thereof | |
Walker et al. | Semi-supervised model training for unbounded conversational speech recognition | |
JP4700522B2 (en) | Speech recognition apparatus and speech recognition program | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
JP2013050605A (en) | Language model switching device and program for the same | |
JP5184467B2 (en) | Adaptive acoustic model generation apparatus and program | |
JP2008241970A (en) | Speaker adaptation device, speaker adaptation method and speaker adaptation program | |
JP2007078943A (en) | Acoustic score calculating program | |
KR20040069060A (en) | Method and apparatus for continous speech recognition using bi-directional n-gram language model | |
JP2010054574A (en) | Device for estimating speaker change, speaker identifying device and computer program | |
JP2008026721A (en) | Speech recognizer, speech recognition method, and program for speech recognition | |
JP2905674B2 (en) | Unspecified speaker continuous speech recognition method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20050314 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060417 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20070118 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20080610 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090407 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090428 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20090508 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090908 |