JP5274191B2

JP5274191B2 - 音声認識装置

Info

Publication number: JP5274191B2
Application number: JP2008259708A
Authority: JP
Inventors: 利行花沢; 洋平岡登
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2008-10-06
Filing date: 2008-10-06
Publication date: 2013-08-28
Anticipated expiration: 2028-10-06
Also published as: JP2010091675A

Description

この発明は複数個の音声認識手段の各々を異なる型式の言語モデルを用い、同じ入力音声に対して音声認識動作させ、各音声認識手段から得られた認識結果から最適な認識結果を選択して出力する音声認識装置に関するものである。

より広い範囲の話題やタスクを認識対象とするためには、認識対象語彙と語彙間の接続情報を記述した言語モデルが大きなものとなり、認識率が低下するという課題があった。認識率改善の方策として、言語モデルを話題やタスクごとに分類した複数個の言語モデルを作成しておき、それぞれの言語モデルごとに認識器を並列に動作させて音声認識を行う方法が開発されている。このような従来技術の一例として「磯部、伊藤、武田“複数の認識器を選択的に用いる音声認識システムのためのスコア補正法”、電子情報通信学会論文誌D, 2007、Vol.J90-D, No.7, pp1773-1780」がある。

図１３は前記従来技術の音声認識装置の一構成例を示すブロック図である。図中の１４〜１６が複数個の認識器であり、各認識器１４〜１６で使用する統計言語モデルは、例えば認識対象とするタスクの話題ごとに大量に収集した学習データを用い、例えば単語単位のトライグラムを言語モデルとして事前に学習しておく。

次にこの従来技術の音声認識装置の認識動作について説明する。音声の入力端１から音声２を入力すると音響分析手段３は音響分析を行い、音声２を特徴ベクトルの時系列４に変換して出力する。認識器１４〜１６は特徴ベクトルの時系列４を入力とし、例えばビタビアルゴリズムによってパターンマッチングを行い、各認識器ごとに認識スコアが最大となる単語列Wiと認識スコアSi(i=1,2,…N, Nは認識器の個数)を出力する。結果選択手段７は、前記認識スコアSiを各認識器で用いている言語モデルのバイグラムエントロピを用いて補正したスコアを算出し、前記補正した認識スコアが最大となる認識器の出力結果を認識結果１２として出力する。

磯部、伊藤、武田"複数の認識器を選択的に用いる音声認識システムのためのスコア補正法"、電子情報通信学会論文誌D、2007、Vol.J90-D, No.7、pp1773-1780

前記従来技術では、各認識器で用いる言語モデルは全て統計言語モデルであり、単語間の接続に確率情報を使用しない構文規則型の言語モデルを用いた認識器とのスコア比較は容易ではないという課題があった。
この発明は上記課題を解決するためになされたもので、単語間の接続に確率情報を使用しない構文規則型の言語モデルと、単語トライグラム言語モデルのように言語尤度の算出基準が異なる複数個の言語モデルを用いて得られた複数個の認識結果から、最も適切な認識結果を選択し認識性能を改善した音声認識装置を得ることを目的とする。

この発明に係る音声認識装置は、
入力音声の音声認識手段として構文規則型の言語モデルを用いる構文規則型認識手段と、
同じく入力音声の音声認識手段として統計言語モデルを用いる統計言語モデル型認識手段と、
同じ入力音声に対し前記両音声認識手段が音声認識した認識結果の単語列と認識スコアを入力し、統計言語モデル型認識手段の認識結果について、その表記、あるいは表記の上位概念である品詞またはクラスの系列が、前記統計言語モデル作成時に使用する学習データから抽出された学習例文中に存在するか否かにより言語的妥当性を評価し、その評価結果に基づいて前記入力された統計言語モデル型認識手段の認識結果の認識スコアを修正し、この修正された認識スコアと、前記構文規則型認識手段の認識結果の認識スコアを比較し、前記両音声認識手段の何れかの認識結果を選択する結果選択手段を備える。

この発明に係る音声認識装置によれば、入力音声の音声認識手段に異なる型式の言語モデルを用い、結果選択手段がその各認識結果の表記の言語的妥当性を評価して、異なる型式の言語モデルによる音声認識手段から出力される認識スコアを修正し、修正結果に基き認識結果を選択する構成にされるので、音声認識結果の認識精度が向上し、また異なる形式の言語モデルによる音声認識手段の認識結果の比較が同じ性質のスコアで行なえ、言語的に不自然な結果の選択を抑制できる。

実施の形態１．
本実施の形態では、カーナビゲーションシステム向けの音声認識を例にとり説明する。カーナビゲーションシステムでは「東京都千代田区丸の内」など住所発話のような定型発話と、「画面３次元表示」、「地図を立体表示に切り替え」など、比較的非定型なナビゲーション操作コマンドが音声認識対象となることが考えられる。そこで本実施の形態では音声認識手段として、構文規則型の言語モデルを用いる構文規則型認識手段と、統計言語モデルを用いる統計言語モデル型認識手段の２つを備えるものとする。
そして構文規則型認識では住所を認識対象、統計言語モデル型認識ではナビゲーションの画面表示切替やオーディオ、ラジオの操作等、カーナビゲーションシステムを制御するコマンドを認識対象とすることとして説明する。

図１はこの発明による音声認識装置の実施の形態１の構成を示すブロック図である。
同図において、１は音声の入力端、２は入力音声、３は音響分析手段、４は特徴ベクトルの時系列、５は統計言語モデル型認識手段、６は構文規則型認識手段、７は結果選択手段、８は統計言語モデル、９は構文規則、１０は学習例文、１１は音響モデル、１２は認識結果である。

統計言語モデル８は、カーナビゲーションシステムを音声で操作する発話文を大量に収集した学習データを用い、例えば単語を単位としたトライグラム確率を算出し、単語トライグラムの単語列とのペアからなるデータである。言語モデルの内容例を図２に示す。

構文規則９は単語間の接続規則を記述した構文規則である。住所を認識対象とした場合の構文規則の例を図３に示す。この構文規則では単語間の接続に対して確率値は付与しないものとする。

学習例文１０は、前記統計言語モデル８の作成時に使用する学習データから、異なり文（すなわち同一文は１文のみ）を抽出したテキストデータである。学習例文１０の内容例を図４に示す。
音響モデル１１は音声の特徴をモデル化したデータであり、本実施の形態では音響モデルは例えばHMM(Hidden Markov Model)とする。

次に音声認識の動作について説明する。
音声の入力端１から音声２を入力すると音響分析手段３は音響分析を行い、音声２を特徴ベクトルの時系列４に変換して出力する。前記特徴ベクトルは例えばLPC(Linear Predictive Coding)ケプストラムとする。

統計言語モデル型認識手段５は特徴ベクトルの時系列４を入力とし、統計言語モデル８を用い、例えばビタビアルゴリズムによって音響モデル１１とのパターンマッチングを行い、認識スコアS_tが最大となる単語列W_t=w₁ ^,w₂ ^,w₃ ^,…w_I、(Iは単語数)と、前記単語列W_tに対する音響尤度LA_t、および言語尤度L_tを出力する。ここで添字tは統計言語モデル型認識の結果であることを示す記号である。なお前記認識スコアS_tは、（１）式に示すとおり前記音響尤度LA_tと言語尤度L_tの和である。前記言語尤度L_tは、（２）式に示すとおり、前記単語列の表記W_tに対するトライグラム確率の対数値なので０以下の値である。

また構文規則型認識手段６は、統計言語モデル型認識手段５への入力と同一の特徴ベクトルの時系列４を入力とし、構文規則９の記述にしたがって単語を連結しながら、例えばビタビアルゴリズムによって音響モデル１１とのパターンマッチングを行い認識スコアS_kが最大となる単語列W_kを求める。そして前記単語列W_kと認識スコアS_kを出力する。ここで添字kは構文規則型認識の結果であることを示す記号である。なお本実施の形態では構文規則型認識手段６では統計言語モデルを用いていないため、言語尤度は常に０であり、前記認識スコアS_kは、前記音響尤度LA_kと同一値である。すなわち S_k = LA_k である。

次に結果選択手段７は統計言語モデル型認識手段５から認識結果である単語列の表記W_t、音響尤度LA_t、言語尤度L_tを入力とする。また構文規則型認識手段６の結果である単語列の表記W_kと認識スコアS_kを入力とし、以下の手順に従って統計言語モデル型認識または構文規則型認識の結果を選択し、認識結果として出力する。図５を参照しながら結果選択手段７の選択手順を説明する。

（手順１）統計言語モデル型認識手段５による統計言語モデル型認識の認識結果W_tと同一の単語列が学習例文１０中に存在するか否かを調べ（図５のST101）、存在する場合は統計言語モデル型認識の結果は言語的に自然であるとみなし、言語尤度の重み係数cを０にする（図５のST102）。
例えば認識結果がW_t=「地図,を,拡大,表示」である場合、前記単語列は図４に示すとおり、学習例文１０中に存在するため、言語尤度の重み係数は０になる。

一方存在しない場合は統計言語モデル型認識の結果は言語的に不自然である可能性があるため、言語スコアの重み係数を実験的に定めた定数αにする（図５のST103）。

上記のとおり設定した言語重み係数ｃ（ｃ＝α）を用い（３）式によって統計言語モデル型認識の認識スコアを再計算する（図５のST104）。

（手順２）上記手順１で再計算した統計言語モデル型認識のスコアS_t'を、構文規則型認識のスコアS_kと比較し、スコアの高いほうを認識結果として選択する（図５のST105，ST106，ST107）。

上記選択手順により、統計言語モデル型認識の結果が学習例文１０中に存在する場合には、構文規則型認識とは音響スコア同士の比較となるため、統計言語モデル型認識の結果が選択されにくくなるという問題が解消できる。また存在しない場合は言語尤度α* L_tをペナルティとして加えるため、言語的に不自然な統計言語モデル型認識の結果が選択されるのを抑制することができる。

なお、本実施の形態では構文規則型認識手段６では統計言語モデルを用いていなかったが、任意の言語モデルを使用してもよい。例えば図６に示すように単語間に遷移確率を付与するような言語モデルを用いることができる。言語モデルを使用する場合は、前記認識スコアS_kは言語尤度L_kを含んだものになる。例えば認識結果が「（無音）、東京都、千代田区、丸の内」であった場合、図６を参照すると言語尤度L_kは（４）式のようになる。

このように言語モデルを用いた場合は、結果選択手段７に出力する際に言語尤度を差し引いた音響尤度のみのスコア、すなわちS_k-L_k= LA_kを認識スコアとして出力すればよい。

実施の形態２．
本実施の形態は前記実施の形態１に、単語カテゴリ変換テーブル１３を新たに付加したものである。本実施の形態による音声認識装置の構成例を図７に示す。また単語カテゴリ変換テーブル１３の内容例を図８に示す。単語カテゴリ変換テーブル１３には単語の表記とカテゴリ名がペアで記述されている。

本実施の形態では前記実施の形態１に比べ、動作を以下のように変更する。
まず認識処理の開始する前に事前に、単語カテゴリ変換テーブル１３を参照し、学習例文１０の内容を単語から施設名や放送局名等のカテゴリに変換しておく。図４に示した学習例文１０の内容の変換例を図９に示す。本実施の形態では単語カテゴリ変換テーブル１３において「駐車場」のカテゴリが「施設」として登録されているので、元の例文「近くの駐車場までの経路を設定」が「近くの＜施設＞までの経路を設定」に変換されている。ここで＜＞はカテゴリに変換したことを示す記号である。
統計言語モデル８と構文規則９は、実施の形態１と同様に、認識処理の事前に作成しておく。

次に認識動作について説明する。音声の入力端１から音声２を入力すると、音響分析手段３、統計言語モデル型認識手段５、および構文規則型認識手段６は実施の形態１と同一の動作をする。すなわち統計言語モデル型認識手段５は認識スコアS_tが最大となる単語列W_t=^w ₁ ^,w ₂ ^,w ₃ ^,…W _I、(Iは単語数)と、前記単語列W_tに対する音響尤度LA_t、および言語尤度L_tを出力する。また構文規則型認識手段６は音響尤度LA_kが最大となる単語列W_kと、認識スコアS_kを出力する。

次に結果選択手段７は統計言語モデル型認識手段５から認識結果である単語列の表記W_t、音響尤度LA_t、言語尤度L_tを入力とし、また構文規則型認識手段６の結果である単語列の表記W_kと認識スコアS_kを入力とし、実施の形態１と同様の方法で認識結果を選択する。

但し本実施の形態では、結果選択手段７は、まず統計言語モデル型認識手段５からの出力結果である前記単語列W_t中の各単語が単語カテゴリ変換テーブル１３中に存在するか調べ、存在する場合には単語をカテゴリに変換する。その後、統計言語モデル型認識の認識結果W_tと同一の単語列が学習例文１０中に存在するか否かを調べる。例えば、認識結果W_tが「近くの,レストラン,までの,経路,を,設定」であった場合、単語カテゴリ変換テーブル１３中に「レストラン」のカテゴリが「施設」として登録されているので、認識結果W_tを「近くの,＜施設名＞,までの,経路,を,設定」に変換して例文メモリ中に存在するかを調べる。ここで＜＞はカテゴリに変換したことを示す記号である。
このようにすると、学習例文１０も図９に示すとおり、「近くの駐車場までの経路を設定」という元の例文が「近くの＜施設＞までの経路を設定」という例文に事前に変換されているため、前記認識結果W_tが学習例文１０中に存在することになり、学習例文１０を少ない文で効率的に表現できる効果がある。

また学習例文１０は、図１０に示すようにネットワーク形式で表現しておいてもよい。
このようにネットワーク形式で表現すると、一部の単語のみが異なる複数の学習例文同士の共通部分をまとめて表現できるため、学習例文１０の記憶領域を少なくできる効果がある。

実施の形態３．
本実施の形態は前記実施の形態１の音声認識装置から学習例文１０を取り除き、結果選択手段７が学習例文１０の代わりに統計言語モデル８を参照するようにしたものである。本実施の形態の音声認識装置の構成例を図１１に示す。
統計言語モデル８と構文規則９は、実施の形態１と同様に、認識処理の事前に作成しておく。

次に認識動作について説明する。音声の入力端１から音声２を入力すると、音響分析手段３、統計言語モデル型認識手段５、および構文規則型認識手段６は実施の形態１と同一の動作をする。すなわち統計言語モデル型認識手段５は認識スコアS_tが最大となる単語列W_t=w₁ ^,w₂ ^,w₃ ^,…w_I、(Iは単語数)と、前記単語列W_tに対する音響尤度LA_t、および言語尤度L_tを出力する。また構文規則型認識手段６は音響尤度LA_kが最大となる単語列W_kと、認識スコアS_kを出力する。

次に結果選択手段７は統計言語モデル型認識手段５から認識結果である単語列の表記W_t、音響尤度LA_t、言語尤度L_t、および構文規則型認識手段６の出力結果である単語列の表記W_kと認識スコアS_kを入力とし、以下の手順に従って統計言語モデル型認識または構文規則型認識の結果を選択し、認識結果として出力する。図１２を参照しながら選択手順を説明する。

（手順１）統計言語モデル型認識の認識結果単語列W_t=w₁ ^,w₂ ^,w₃ ^,…w_I、中の未知n-gram数N_uを算出する（図１２のST201）。本実施の形態では例えばn=3、すなわちトライグラムとすると、前記単語列W_t=w₁ ^,w₂ ^,w₃ ^,…w_I中には、(w₁,w₂,w₃), (w₂,w₃,w₄),…,(w_I-2,w_I-1,w_I)の計(I-2) 個のトライグラムがあるので、それぞれに対して、統計言語モデル8を参照し、統計言語モデル8中に存在しないトライグラム数を数えあげ、その数を未知n-gram数N_uとして記憶する。

（手順２）前記未知n-gram数N_uの値を調べ（図１２のST202）、前記未知n-gram数N_uが０の場合は統計言語モデル型認識の結果は言語的に自然であるとみなし、言語重み係数cを実験的に定めた０以上の小さい値βとし、また未知n-gramペナルティP_uの値を０に設定する（図１２のST203）。
一方、前記未知n-gram数N_uが１以上の場合は統計言語モデル型認識の結果は言語的に不自然である可能性があるため、前記言語重み係数をc=γ（但し,γはγ>βを満たす定数）とし、かつ未知n-gramペナルティP_uを（５）式に従って計算する（図１２のST204）。

（５）式中でf()は定数もしくは単調増加する関数であり、例えば（６）式である。

（手順３）上記手順２で算出した前記言語重み係数cと前記未知ngramペナルティP_uを用い、（７）式により統計言語モデル型認識の認識スコアを再計算する（図１２のST205）。

（手順４）上記手順３で再計算した統計言語モデル型認識のスコアS_t'を、構文規則型認識のスコアS_kと比較し、スコアの高いほうを認識結果として選択する（図１２のST206，207，208）。

以上の選択手順により統計言語モデル型認識の結果の未知n-gram数が０の場合には、言語スコアによるペナルティを０または小さな値にするので統計言語モデル型認識の結果が選択されにくくなるという問題が解消できる。また未知n-gram数が１以上の場合は言語スコアおよび未知トライグラム数に応じたペナルティを加えるため、言語的に不自然な統計言語モデル型認識の結果が選択されるのを抑制することができる。
また実施の形態１と比較すると、学習例文１０中に存在するか否かを調べる必要がないので演算量・メモリ量を抑えることができる

なお本実施の形態では統計言語モデルとして単語単位のトライグラムを例として説明したが、単語ではなく、単語を施設名や放送局名、あるいは品詞等のカテゴリに変換した統計言語モデル（クラス言語モデル）を用いてもよい。また統計言語モデルの単位としては単語以外の、音節等の単位を用いてもよい。

また本実施の形態では未知n-gram数のnをn=3として説明したが、n=2や4以上でもよい。

この発明は、入力された音声を認識する音声認識装置に適用され、殊に定型発話と、非定型発話を音声認識対象とする用途、例えばカーナビゲーションシステム向けの音声認識の利用に好適である。

この発明による音声認識装置の実施の形態１の構成を示すブロック図である。統計言語モデルの内容例を示す図である。住所を認識対象とした場合における構文規則の内容例を示す図である。学習例文の内容例を示す図である。結果選択手段の認識処理手順のフロー図である。単語間に遷移確率を付与した言語モデルの内容例を示す図である。この発明による音声認識装置の実施の形態２の構成を示すブロック図である。単語カテゴリ変換テーブルの内容例を示す図である。実施の形態２における学習例文の内容例を示す図である。実施の形態２における学習例文の内容例をネットワーク形式で表現した場合の図である。この発明による音声認識装置の実施の形態３の構成を示すブロック図である。実施の形態３における結果選択手段の認識処理手順のフロー図である。従来の音声認識装置の構成例を示すブロック図である。

符号の説明

１；音声の入力端、２；入力音声、３；音響分析手段、４；特徴ベクトルの時系列、５；統計言語モデル型認識手段、６；構文規則型認識手段、７；結果選択手段、８；統計言語モデル、９；構文規則、１０；学習例文、１１；音響モデル、１２；認識結果、１３；単語カテゴリ変換テーブル。

Claims

入力音声の音声認識手段として構文規則型の言語モデルを用いる構文規則型認識手段と、
同じく入力音声の音声認識手段として統計言語モデルを用いる統計言語モデル型認識手段と、
同じ入力音声に対し前記両音声認識手段が音声認識した認識結果の単語列と認識スコアを入力し、統計言語モデル型認識手段の認識結果について、その表記、あるいは表記の上位概念である品詞またはクラスの系列が、前記統計言語モデル作成時に使用する学習データから抽出された学習例文中に存在するか否かにより言語的妥当性を評価し、その評価結果に基づいて前記入力された統計言語モデル型認識手段の認識結果の認識スコアを修正し、この修正された認識スコアと、前記構文規則型認識手段の認識結果の認識スコアを比較し、前記両音声認識手段の何れかの認識結果を選択する結果選択手段を備えたことを特徴とする音声認識装置。
前記結果選択手段は、請求項１記載の結果選択手段に代え、前記統計言語モデル型認識手段の認識結果の表記中の形態素列の各n組連鎖が前記統計言語モデル中に存在するか否かを調べ、存在しないn組連鎖の個数を前記言語的妥当性の評価に用いる構成とされたことを特徴とする請求項１記載の音声認識装置。
前記結果選択手段は、前記存在しないn組連鎖の個数が０個の場合と１以上の場合とで、前記統計言語モデル型認識手段から出力される認識スコアの修正方法として異なる修正方法を用いることを特徴とする請求項２記載の音声認識装置。