JP2013148697A

JP2013148697A - 情報処理装置、大語彙連続音声認識方法及びプログラム

Info

Publication number: JP2013148697A
Application number: JP2012008732A
Authority: JP
Inventors: Takehito Kurata; 岳人倉田; Masayuki Suzuki; 雅之鈴木; Masafumi Nishimura; 雅史西村
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2012-01-19
Filing date: 2012-01-19
Publication date: 2013-08-01
Anticipated expiration: 2032-01-19
Also published as: US9165553B2; US20130191129A1; JP5752060B2

Abstract

【課題】大語彙連続音声に対して音響的普遍構造を利用して音声認識を行う技術を提供する。
【解決手段】情報処理装置１００は、音声を入力として受け取って音声認識を行い、認識結果である複数の仮説を音声認識スコアと共に出力する音声認識処理部と、各仮説に対し、該仮説を構成する全ての音素のペアについて、音素のペアの分布間距離の尤度に音素のペアごとの重みを掛けて足し合わせたスコアである構造スコアを算出する構造スコア算出部と、音声認識スコアと構造スコアの合計値に基づき複数の仮説をリランキングするランキング部とを含む。
【選択図】図１

Description

本願発明は、音響的普遍構造を利用して音声認識を行う技術に関し、より詳細には、大語彙連続音声に対して音響的普遍構造を利用して音声認識を行う情報処理装置、大語彙連続音声認識方法およびプログラムに関する。

音声信号は、年齢、性別、マイク、背景ノイズ等の非言語要因によって様々に変化する。そのため音声認識には非言語要因に対する頑強さが求められる。そのような音声認識を実現するための手法の１つとして、近年、音響的普遍構造が提案されている（非特許文献１）。該方法は、伝統的な音声処理とは対照的に、音声の絶対的な特徴を完全に捨て、音素間の相対的な関係をf-divergenceを用いてモデル化する。音響的普遍構造を利用してこれまで、孤立単語音声認識（非特許文献２、３、４）、外国語発音評定（非特許文献５）などが提案され、その頑健性やパフォーマンスのよさが示されている。

しかしながら、上記文献では、音響的普遍構造が連続音声認識に利用されることはなかった。これは、音響的普遍構造を利用するための適切なデコーディングアルゴリズムが存在しなかったからである。デコーディングアルゴリズムは仮説ごとに特徴量系列をアライメントするが、音響的普遍構造を利用するには音素のアライメントが事前に必要となる。Hidden Structure Model(HSM)と短時間特徴量系列のボトムアップクラスタリングを用いることで、上記問題を解決しようとする研究もあるが、現実的なタスクでの有効性は示されていない（非特許文献６）。

そこで上記状況を受けて、N-bestリランキングの枠組みに音響的普遍構造を用いることで連続音声認識を実現する方法が新たに提案された（非特許文献７）。該方法では、まず、伝統的なHidden Markov model(HMM)ベースの音声認識処理により、N-bestのリストが音声認識のスコアと共に取得される。続いて、N-bestの仮説ごと音素アライメントから音響的普遍構造が抽出され、該普遍構造からみた仮説の妥当性が構造スコアとして取得される。最後に、音声認識スコアと構造スコアの合計値によってN-bestの複数の仮説がリランキングされる。

N. Minematsu, "Yet another acousticrepresentation of speech sounds,"Proc. ICASSP,pp.585-588, 2004. N. Minematsu, et.al., "Speech structure and itsapplication to robustspeech processing," Jornal of New Generation Computing, Vol.28, No. 3, pp.299-319, 2010. Y. Qiao, et.al., "On invariant structuralrepresentation for speechrecognition: theoretical validationand experimental improvement," Proc.INTERSPEECH, pp.3055-3058,2009. 村上隆夫、その外３名、「音声の構造的表象を用いた日本語母音系列の自動認識」、社団法人電子情報通信学会、信学技法、１０５巻、９８号、１３−１８頁 M.Suzuki, et.al.,"Integration of multilayer regression withstructure-based pronunciationassessment," Proc.INTERSPEECH, pp.586-589,2010. Y.Qiao, et.al.,"A study of Hidden Structure Model and its applicationoflabeling sequences," Proc.ASRU, pp.118-123, 2009. M.Suzuki, et.al.,"Continuous Digits Recognition Leveraging Invariant Structure," Proc. INTERSPEECH, pp.993-996,2011.

しかしながら、非特許文献７が開示する方法は、連続数字音声認識タスクでは動作するが、大語彙連続音声認識タスクでは認識率の向上を示さなかった。

この発明は、上記の問題点を解決するためになされたものであって、従来の音響的普遍構造を利用した音声認識を改良して、大語彙連続音声認識に対しても認識率を向上させることのできる音声認識のための情報処理装置、大語彙連続音声認識方法およびプログラムを提供することを目的とする。

上記目的を達成する本願発明は、次のような、コンピュータにより実行される大語彙連続音声認識方法によって実現される。そのような大語彙連続音声認識方法は、（ａ）前記コンピュータが、音声を入力として受け取るステップと、（ｂ）前記コンピュータが、受け取った前記音声に対して音声認識を行い、認識結果である複数の仮説を各仮説についての音声認識結果の確からしさを示すスコアである音声認識スコアと共に出力するステップと、（ｃ）前記コンピュータが、各仮説に対し、該仮説を構成する全ての音素のペアについて、音素のペアの分布間距離の尤度に前記音素のペアごとの重みを掛けて足し合わせたスコアである構造スコアを算出するステップと、（ｄ）前記コンピュータが、各仮説に対し該仮説の前記音声認識スコアと前記構造スコアの合計値を求め、該合計値に基づき前記複数の仮説をランク付けするステップとを含む。

好ましくは、上記大語彙連続音声認識方法は、（ｅ）前記コンピュータが、学習用の音声データに対してステップ（ｂ）及び（ｃ）を行い、音声認識スコアと構造スコアの合計値による仮説のランク付けが正しく行われるように、前記音素のペアごとの重みを学習するステップを更に含む。そしてより好ましくは、上記ステップ（ｅ）は、単語誤り率がゼロである仮説又は単語誤り率が最も少ない仮説を正例とし、かつ、残りの仮説を負例として前記音素のペアごとの重みを学習するステップを含む。

より好ましくは、前記コンピュータは、前記ステップ（ｃ）において、前記構造スコアを算出する前に、前記音素のペアの前記分布間距離の尤度に該音素のフレーム数を掛けることにより、前記尤度を正規化する。更に好ましくは、前記コンピュータは、前記ステップ（ｃ）において、前記構造スコアを算出する前に、前記音素のペアの前記分布間距離の尤度に該音素のフレーム数を掛け、かつ前記仮説内に出現する２つの音素の異なる組み合わせ数で割ることにより、前記尤度を正規化する。

また好ましくは、前記ステップ（ｃ）において、前記音素のペアごとの重みは、母音同士のペア及び無音に関係するペアについての重みが、他の音素のペアについての重みよりも大きくなるように設定されている。

以上、大語彙連続音声認識方法として本願発明を説明した。しかし本願発明は、そのような大語彙連続音声認識方法をコンピュータに実行させる大語彙連続音声認識プログラム、及びそのような大語彙連続音声認識プログラムをコンピュータにインストールすることによって実現される大語彙連続音声認識のための情報処理装置として把握することもできる。

本願発明の上記構成によれば、構造スコアを算出する際に音素のペアの分布間距離の尤度を音素のペアごとの重み付きで足し合わせるので、音声認識において重要な音素間の相対関係とそうでない音素間の相対関係とを正しく取り扱うことが可能となる。結果として、音響的普遍構造を利用した音声認識において、大語彙連続音声認識に対しても認識率を向上させることができる。また、構造スコアを算出する際に時間方向の正規化を行えば、重みの学習においてより安定した重みを推定することが可能となり、認識率を一層向上させることができる。本願発明のその他の効果については、各実施の形態の記載から理解される。

本願発明の実施の形態に係る情報処理装置１００の機能構成の一例を示す。（ａ）は、音響的普遍構造の説明図を示す。（ｂ）は、図２（ａ）に示す音響的普遍構造を表現する距離行列を示す。音素アライメントから普遍構造を抽出する方法を説明する概念図を示す。統計的エッジモデルを学習する方法と対数尤度の正規化までの算出方法を説明する概念図を示す。音素数の異なる２つの仮説の例を示す．重み付け前の構造スコアベクトルの一例を示す。図８に示す処理の前処理として行われる重み推定処理の流れの一例を示す。本願発明の実施の形態に係る大語彙連続音声認識処理の流れの一例を示す。実験結果を示す図である。本願発明の実施の形態に係る情報処理装置１００を実現するのに好適なコンピュータのハードウェア構成の一例を示す。

以下、本願発明を実施するための最良の形態を図面に基づいて詳細に説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。なお、実施の形態の説明の全体を通じて同じ要素には同じ番号を付している。

図１は、本願発明の実施の形態に係る情報処理装置１００の機能構成の一例を示す。情報処理装置１００は、音声認識処理部１０５、構造スコア算出部１１０、統計的エッジモデル（ＳＥＭ）格納部１２５、重みデータ格納部１４０、重み学習部１４５、ランキング部１５０を含む。

情報処理装置１００にテスト用の音声データが入力されると、音声認識処理部１０５は音声データをN-best方式により音声認識し、N-bestの仮説のリストと音声認識のスコアを出力する。構造スコア算出部１１０は、N-bestの仮説ごと音素アライメントから音響的普遍構造を抽出し、該音響的普遍構造からみた仮説の妥当性を音素ペアの関係の重要度を考慮しつつ構造スコアとして出力する。構造スコア算出部１１０はまた、構造スコアの算出に際し時間方向の正規化を行う。ランキング部１５０は、仮説ごと音声認識スコアと構造スコアの合計値を求め、Ｎ個の仮説を合計値の大きい順に新たにランク付けしなおす。

重み学習部１４５は、正解ラベル付き学習用の音声データを入力とする音声認識処理部１０５の出力と、該出力を入力とする構造スコア算出部１１０の出力とを用いて、各音素のペアについて音声認識におけるその相対関係の重要性を示す重みを学習する。重みデータ格納部１４０は、重み学習部１４５によって学習された音素のペアごとの相対関係の重みデータを格納する。統計的エッジモデル格納部１２５は音素のペアごとの分布間距離の分布を格納する。統計的エッジモデル格納部１２５及び重みデータ格納部１４０にそれぞれ格納されるデータは、構造スコアを算出するために構造スコア算出部１１０により参照される。以下各構成要素の機能をより詳細に説明するが、その前に、図２を参照して音響的普遍構造について説明する。

図２（ａ）は音響的普遍構造２００の説明図である。音響的普遍構造２００は、対象言語において存在する全音素数をM個とすると、M個のノードS_i(i=1,…, M)と、２つのノードS_i、S_jを結ぶエッジe_ij(i =1,…, Mかつj =1,…, M、但しi≠j)とから構成される。各ノードS_iは音響イベントの分布であり、音響モデル（例えばHMMモデル）の各状態を示す。エッジ長は２つのノードS_i、S_j間の分布間距離を示す。分布間距離を求める関数としては一例としてf-divergenceを利用できる。情報理論や統計学では確率分布間の距離を測る指標としてdivergenceが用いられているが、f-divergenceは種々のdivergenceを含むような一般的なdivergenceのクラスとしてCsiszarにより導入されたものである。f-divergenceの詳細については、例えば、Y.Qiao, N.Minematsu, “A study oninvariance of f-divergence and its application to speech recognition,” IEEETrans. on Signal Processing, Vol 58, No.87, pp.3884-3890, 2010を参照されたい。

上記音響的普遍構造は、図２（ｂ）に示すように数学的には距離行列２０５として表現できる。f-divergenceとして対称な距離尺度（一例としてバッタチャリヤ距離（Bhtaccharyya Distance）の平方根）を選ぶと、距離行列は上三角成分２１０だけで情報をすべて表現できる。距離行列の上三角成分２１０をベクトルに並べなおしたものを、構造ベクトルと呼ぶ。構造ベクトルは、M(M-1)/2次元のベクトルである。即ち、音響的普遍構造は構造ベクトルとして表現することができる。

次に図１に戻って、各構成要素の機能を説明する。音声認識処理部１０５は、情報処理装置１００に入力された音声データに対してN-best方式により音声認識を行い、認識結果であるN個の仮説をその仮説の確からしさを示すスコアである音声認識スコアと共に出力する。より詳細には、音声認識処理部１０５は、ディジタル信号に変換された音声信号を入力し、短時間周波数分析により特徴ベクトル系列を出力する音声分析処理部（図示しない）と、抽出した特徴ベクトル系列に対し、言語モデル及び音響モデルを用いて予測・尤度計算を行いながら最尤仮説を探索する認識エンジン（図示しない）とから構成される。なお、特徴量としては、一例としてメル周波数ケプストラム係数(MFCC)やそのデルタ及びデルタデルタを利用してよい。また、言語モデルとしては、単語N-gramモデル等の統計的言語モデルを、音響モデルとしては、HMMモデルを利用してよい。

音声認識処理部１０５は、入力音声が大語彙であること及び連続音声であることの両方を許す大語彙連続音声認識を対象とするため、認識エンジンの尤度計算における探索空間は膨大なサイズとなる。音声認識処理部１０５は、N-best方式を採用し、入力音声に対してＮ個の仮説を求め尤度の高い順に出力する。なお、N-best方式による音声認識それ自体は既知の技術であり（例えば、BrianRoark, et.al.,“Corrective language modeling for large vocabulary ASR with the perceptronalgorithm,” Proc. ICASSP,pp.749-752, 2004.を参照）、本発明の要旨ではないので詳細な説明は省略する。

音声認識処理部１０５は、音声分析処理部の出力である特徴ベクトル系列と、該特徴ベクトル系列を入力とした認識エンジンの出力であるN-bestの仮説のリストとを構造スコア算出部１１０に対して出力する。音声認識処理部１０５はまた、N-bestの仮説のリストと各仮説の音声認識スコア（＝尤度値）とをランキング部１５０に対して出力する。

構造スコア算出部１１０は、より詳細には、分布間距離算出部１１５、対数尤度算出部１２０、正規化部１３０及び重み付け部１３５を備える。構造スコア算出部１１０は、最終的に求まった仮説ごとの構造スコアを実際のテスト時にはランキング部１５０に対して、後述する音素ペアごとの重みの学習時には重み学習部１４５に対して出力する。次に構造スコア算出部１１０の各要素について説明する。

分布間距離算出部１１５は、N-bestリストにリストされた各仮説に対し、該仮説を構成する全ての音素のペアについて、音素のペアの分布間距離を算出する。図３を参照して、分布間距離算出部１１５による処理を説明する。分布間距離算出部１１５はまず、音声認識処理部１０５から受け取ったN-bestリストの各仮説について、該仮説を構成する音素と、同じく音声認識処理部１０５から受け取った特徴ベクトル系列との対応付けを行い、音素の状態ごとのアライメントを得る（Ｓ３００）。続いて分布間距離算出部１１５は、各音素の各状態にアライメントされた特徴量から、その音素の分布S₁、 S₂,…（一例として正規分布）を推定する（Ｓ３０５）。最後に分布間距離算出部１１５は、分布間の距離e₁₂、 e₁₃, …を算出する（Ｓ３１０）。

上記Ｓ３０５において、ある音素のある状態に特徴量x_i, …x_n,が割り当てられた場合、その正規分布Sを表現するパラメータ平均

と分散

は、最尤推定により次式のように推定される。

また、上記Ｓ３１０において、分布間距離として例えばバッタチャリヤ距離を利用すると、２つの正規分布

と

間のバッタチャリヤ距離BDは次式により求められる。なお記号Ｔは転置を表す。

なお、分布間距離はf-divergenceであればよく、バタチャリヤ距離に限定されるわけではない。バタチャリヤ距離の更なる詳細については、例えば、Bhattacharyya, A., “On a measure of divergence between twostatistical populations defined by probability distributions,” Bull. Calcutta Math. Soc. 35,pp.99-109, 1943.を参照されたい。

対数尤度算出部１２０は、分布間距離算出部１１５により算出された仮説ごとの全音素ペアの分布間距離の各々について、対応する音素間の分布間距離の分布を統計的エッジモデル格納部１２５から読み出し、読み出した分布に対する対数尤度を算出する。なお、統計的エッジモデル格納部１２５に格納されるあらゆる音素ペアについての分布間距離の分布（以下、「Statistical Edge Model：SEM」ともいう）は、学習データを用いて事前に算出し用意するものとする。SEMの学習を、図４の一部を参照して説明する。SEMの学習では、２つの音素ペアをラベルとし（Ｓ４００）、全音素ペアの分布間距離を求めてそれを音素のペアごとに累算し（Ｓ４０５）、音素ペアごとのSEMを混合正規分布としてEMアルゴリズムを用いて推定する（Ｓ４１０）。

なお、ある音素ペアの分布間距離xの対応する混合正規分布に対する対数尤度は、混合正規分布を構成する各正規分布に対する分布間距離xの尤度を、該正規分布の重みを掛けて足し合わせることにより算出される。正規分布

に対する分布間距離xの尤度は次式により表される。

図１に戻って正規化部１３０は、対数尤度算出部１２０により算出された音素のペアごとのSEMに対する対数尤度に該音素の継続長（フレーム数）を掛けて正規化を行う。音声認識スコアは発話長が長くなるにつれて大きくなるため、構造スコアについても音素長を考慮する必要がある。そこで正規化部１３０は、音素のペアごとの対数尤度に該音素にアライメントされたフレーム数を掛けて、構造スコアについて時間方向の係数を追加する。

上記正規化処理に代えてまたはこれに加えて、正規化部１３０は、音素のペアごとの対数尤度を仮説内に出現する２つの音素の異なる組み合わせ数で割ることにより上記対数尤度を正規化してよい。これにより音素数が異なることによる仮説間の構造スコアにおける差がなくなる。なお、後述する音素ペアの相対関係の重みの学習において使用する学習データと、実際のテストデータの音素の継続長は異なるが、正規化部１３０による正規化処理によって、安定した重みの推定が期待できる。

ここで図５を参照して、上記正規化処理により、時間方向での正規化が行われることを説明する。ここでは便宜的に、後述するすべての重みベクトルの要素が1であるとする．まず、ある仮説にＮ個の音素P₁、…、P_Nが出現した場合を考える。音素Ｐ_iとＰ_j間のエッジe_ijの対数尤度をL(e_ij)で表した場合、音素Ｐ_iを音素ペアの片方とするエッジe_ij（j=1,…,N、但しj≠i）の対数尤度の平均Ｓ_iは次式により表される。

これを時間方向に正規化するには、平均Ｓ_iにその音素Ｐ_iの継続長（フレーム数）T_iを乗じてＳ_i T_iとすればよい。後述する音素ペアごとの相対関係の重みをすべて１とした場合、Ｓ_i Tを仮説内のすべての音素Ｐ_i（i=1,…,N）について足し合わせた値が構造スコアとなる。

図５は、音素ペアごとの相対関係の重みをすべて１とした場合における、同一の入力音声に対する音素数の異なる２つの仮説の構造スコアを比較する図を示す。図５において、上段は音素数N=3の仮説についての構造スコアを、下段は音素数N=4の仮説についての構造スコアをそれぞれ表し、横軸は時間を示す。図に示すように音素数が異なっても継続長をかけることで、時間方向に構造スコアは正規化される。従来の構造に基づくスコアは、仮説内の音素数や各音素の継続長を考慮せずに算出されていた。正規化処理によって音素数の異なる仮説に対しても適切なスコアを与えることができる。

正規化部１３０は、仮説内に出現する音素のペアごとに正規化された対数尤度を足し合わせて、次式により表される重み付け前の構造スコアのベクトルS_structureを作成する。

上式より示される構造スコアベクトルS_structureの次元数は、対象言語において存在する全音素数をMとするとM(M-1)/2である。仮説内で観測されなかったエッジのベクトル要素には値０が設定され、観測されたエッジe_ij（i,j=1,…,N、但しj≠i）のベクトル要素には次式により求められる値が設定される。なお、次式においてT_iは音素Ｐ_iの継続長（フレーム数）を表す。

ここで図６を参照して、正規化部１３０により作成される重み付け前の構造スコアベクトルS_structureを具体的に説明する。図６は、仮説”ko_nnichiwa”についての構造スコアベクトルS_structureを示す。音素a、i、oは仮説内で観測されるため、これら音素間についてのベクトル要素には値（xx≠0、yy≠0)が設定される。特に音素aとiのペアは仮説内に２回出現しているため、対応するベクトル要素には、それぞれの出現についての正規化された対数尤度の合計値が設定されることに留意されたい。一方、音素u、eは仮説内で観測されないので、これら音素を含む音素ペアに関するエッジのベクトル要素には値0が設定される。

次に図４を参照して、対数尤度の正規化までの算出方法を説明する。まず分布間距離算出部１１５により、N-bestの各仮説に対し、該仮説を構成する全ての音素のペアについて、音素のペアの分布間距離が算出される（Ｓ４１５）。続いて対数尤度算出部１２０により、分布間距離算出部１１５により算出された各音素ペアの分布間距離について、統計的エッジモデル格納部１２５から対応するSEMが読み出され、該SEMに対する対数尤度が算出される（Ｓ４２０）。その後、正規化部１３０により、対数尤度算出部１２０により算出された音素のペアごとの対数尤度に該音素の継続長（フレーム数）を掛ける処理又は音素のペアごとの尤度を仮説内に出現する２つの音素の異なる組み合わせ数で割る処理の少なくとも一方がなされて対数尤度の正規化処理が行われる（Ｓ４２５）。

再び図１に戻って、重み付け部１３５は、N-bestリストにリストされる各仮説に対し、該仮説を構成する全ての音素のペアについて、正規化された音素のペアの分布間距離の対数尤度に音素のペアごとの重みを掛けて足し合わせたスコアである構造スコアを算出する。ここで音素のペアごとの相対関係の重みは重みデータ格納部１４０から読み出され、その算出方法については後述する重み学習部１４５に関連して説明する。

重みデータ格納部１４０は、重みデータを次式により表わされる重みベクトルＷとしてベクトル形式で格納する。

構造スコアベクトルと同様、上式より表される重みベクトルの次元数は、対象言語において存在する全音素数をMとするとM(M-1)/2である。重み付け部１３５は、上記重みベクトルＷに重み付け前の構造スコアベクトルS_structureを乗じて構造スコアを算出する。

従来の構造に基づくスコアは、すべての音素間の関係を均等に扱って求められていた。そのため認識率の向上がみられたのは連続数字音声認識という単純なタスクに対してのみであった。本願発明では、上述したように、音素のペアごとその音声認識における重要度を考慮して構造スコアを算出する。音素のペアごとの重みは、一例として、母音同士のペア及び無音に関係するペアについての重みが、他の音素のペアについての重みよりも大きくなるように設定されてよい。より好ましくは、音素のペアごとの重みは、後述する重み学習部１４５により学習データを用いて学習する。

ランキング部１５０は、N-bestリストにリストされる各仮説に対し、音声認識スコアと構造スコアの合計値を求め、該合計値に基づきN-bestリストにリストされる複数の仮説を新たにランク付けしなおす。ランキング部１５０により算出される合計値S_structureは、次式により表される。

重み学習部１４５は、正解ラベル付き学習用の音声データに対する音声認識処理部１０５の結果を入力とした構造スコア算出部１１０による処理の結果を受け取り、音声認識スコアと構造スコアの合計値に基づく仮説のランキングが正しく行われるように、音素のペアごとの重み（上述した重みベクトルW）を学習する。一例として重み学習部１４５は、単語誤り率（Word Error Rate: WER)がゼロである仮説又は単語誤り率が最も少ない仮説を正例とし、かつ、残りの仮説を負例として音素のペアごとの重みを学習する。なお、重みベクトルWの学習データは、上述したSEMの学習データとは異なる別のデータを利用するのが好ましい。これは、学習データを共通とすると、誤りが生じにくく、適切な学習が行われない可能性があるからである。

重みの学習法としては、一例として、パーセプトロン（Perceptron）や、平均化パーセプトロン（AveragedPerceptron）を利用してよい。パーセプトロンでは、推定した重みを用いて得られた結果が正解と異なる場合に、重みを正解に近づくように更新する。平均化パーセプトロンは、上記パーセプトロンを改良したものであり、全学習データにおける重みの平均を重みとするものである。

より具体的には、正例の構造ベクトルを S_p、負例の構造ベクトルを S_ｎとすると、パーセプトロンでは負例の構造スコアが正例の構造スコアよりもよい場合に、重みベクトルW を以下のようにW_newに更新する。

上式においてρは学習データが重みに与える影響を決定する学習率である。学習率として大きい値を使うと、Wの変動が大きくなり早く収束する可能性があるが、同時に発散してしまう可能性もある。一方学習率として小さい値を使うと、Wの収束は遅くなるが、発散する可能性は低くなる。そこで最初は大きな値で学習を進め、徐々に値を小さくするようしてもよい。なお、平均化パーセプトロンについては、上述したように途中で得られる重みの平均をとればよい。

更なる詳細は、Y Freund, "Large margin classification using the perceptron algorithm". RE Schapire Machinelearning, 1999を参照されたい。なお、上記重みの学習は、パーセプトロンや、平均化パーセプトロンに限定されるわけではなく、他の線形識別アルゴリズム（一例として、confidence weighted linearregression）を利用してもよい。

次に図７及び図８を参照して、本願発明の実施の形態に係る大語彙連続音声認識処理について説明する。図７は、図８に示す処理の前処理として行われる重み推定処理の流れの一例を示すフローチャートである。図８は、本願発明の実施の形態に係る大語彙連続音声認識処理の流れの一例を示すフローチャートである。

図７において、重み推定処理はステップ７００から開始し、情報処理装置１００は入力として受け取った正解ラベル付き学習用の音声データに対し、HMMに基づく音声認識処理を実行し、N-bestの仮説のリストを音声認識スコア（尤度値）と共に出力する。続いて情報処理装置１００は、重みデータ格納部１４０に格納される音素のペアごとの重みを初期化する（ステップ７０５）。

続いて情報処理装置１００は、N-bestにリストされる仮説ごとに、ステップ７１０からステップ７２０までの一連の処理を繰り返す。まず、情報処理装置１００は、仮説内に出現する音素対ごとにその分布間距離を算出し、対応するSEMを統計的エッジモデル格納部１２５から読み出してSEMに対する対数尤度を算出する（ステップ７１０）。

続いて情報処理装置１００は、ステップ７１０で求めた音素対ごとの対数尤度を時間方向に正規化する（ステップ７１５）。上述したように時間方向の正規化は、音素対ごとのエッジに対する対数尤度に該音素のフレーム数を掛けること、及び、音素対ごとのエッジに対する対数尤度を、仮説内に出現する２つの音素の異なる組み合わせ数で割ることの少なくともいずれか一方により行うことができる。

続いて情報処理装置１００は、仮説内に出現する全ての音素対ごとの正規化した対数尤度を、音素対ごとの重みで重み付けして合算することにより、構造スコアを算出する（ステップ７２０）。N-bestにリストされる全ての仮説について上記一連のステップを終了すると、続いて、情報処理装置１００は、学習用の音声データに付された正解ラベルに基づいて、音声認識スコアと構造スコアの合計値に基づく仮説のランキングが正しく行われるように、重みデータ格納部１４０に格納される音素のペアごとの重みを更新する（ステップ７２５）。

重みの更新は、上述したように、単語誤り率(WER)が０である仮説、或いは単語誤り率が最も低い仮説の構造スコアが最も高くなるよう行ってよく、平均化パーセプトロンやパーセプトロンなどの線形識別アルゴリズムを利用できる。続いて情報処理装置１００は、音素のペアごとの重みの値が収束したか否かを判定する（ステップ７３０）。収束していないと判定された場合（ステップ７３０：ＮＯ）、処理はステップ７０５の直後に戻る。一方、収束したと判定された場合（ステップ７３０：ＹＥＳ）、処理は終了する。

図８において大語彙連続音声認識処理はステップ８００から開始し、情報処理装置１００は入力として受け取った評価用の音声データに対し、HMMに基づく音声認識処理を実行し、N-bestの仮説のリストを音声認識スコア（尤度値）と共に出力する。続いて情報処理装置１００は、N-bestにリストされる仮説ごとに、ステップ８０５からステップ８１５までの一連の処理を繰り返す。

まず、情報処理装置１００は、仮説内に出現する音素対ごとにその分布間距離を算出し、対応するSEMを統計的エッジモデル格納部１２５から読み出してSEMに対する対数尤度を算出する（ステップ８０５）。続いて情報処理装置１００は、ステップ８０５で求めた音素対ごとのSEMに対する対数尤度を時間方向に正規化する（ステップ８１０）。上述したように時間方向の正規化は、音素対ごとの分布間距離の対数尤度に該音素のフレーム数を掛けること、及び、音素対ごとの分布間距離の対数尤度を、仮説内に出現する２つの音素の異なる組み合わせ数で割ることの少なくともいずれか一方により行うことができる。

続いて情報処理装置１００は、仮説内に出現する全ての音素対ごとの正規化した対数尤度を、重みデータ格納部１４０に格納される音素対ごとの重みで重み付けして合算することにより、構造スコアを算出する（ステップ８１５）。N-bestにリストされる全ての仮説について上記一連のステップを終了すると、続いて、情報処理装置１００は、N-bestにリストされる複数の仮説を、それぞれの音声認識スコアと構造スコアの合計値に基づいてリランキングする（ステップ８２０）。そして処理は終了する。

次に図９を参照して、日本語大語彙dictationタスクを用いて行った本願発明の実験結果を説明する。実験の条件は次の通りである。
１．語彙のサイズ：約１１万
２．テスト発声：６００文
３．HMMベースの音声認識システムを用いて１０ベストを出力

実験結果を図９の表に示す。表の上段は、従来のHMMベースの音声認識のスコアのみを用いた結果を示し、下段は、本願発明の音声認識のスコアと構造スコアの合計値を用いた結果を示す。なお、構造スコアは、各エッジに対する正規化された尤度を重み付で足し合わせて算出したものである。表を見ると分かるように、6.69%の誤り率削減を実験では達成できた。なお、従来の音響的普遍構造を利用した音声認識の結果は、従来のHMMベースの音声認識のスコアのみを用いた結果と同じであった。

図１０は、本発明を実施するのに適したコンピュータ５０のハードウェア構成の一例を示した図である。コンピュータ５０は、バス２に接続されたメインＣＰＵ（中央処理装置）１とメインメモリ４を含んでいる。ハードディスク装置１３、３０、及びＣＤ−ＲＯＭ装置２６、２９、フレキシブル・ディスク装置２０、ＭＯ装置２８、ＤＶＤ装置３１のようなリムーバブル・ストレージ（記録メディアを交換可能な外部記憶システム）がフレキシブル・ディスクコントローラ１９、ＩＤＥコントローラ２５、ＳＣＳＩコントローラ２７などを経由してバス２へ接続されている。

フレキシブル・ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭのような記憶メディアが、リムーバブル・ストレージに挿入される。これらの記憶メディアやハードディスク装置１３、３０、ＲＯＭ１４には、オペレーティング・システムと協働してＣＰＵ１に命令を与え、本願発明を実施するためのコンピュータ・プログラムのコードを記録することができる。即ち、上記説明した数々の記憶装置には、コンピュータ５０にインストールされ、コンピュータ５０を本願発明の実施の形態に係る大語彙連続音声認識プログラムや、音素対ごとの重みデータや音素対ごとのSEMといったデータを記録することができる。

上記大語彙連続音声認識プログラムは、音声認識処理モジュール、構造スコア算出モジュール、重み学習モジュール、及びランキング・モジュールを含む。これらモジュールは、ＣＰＵ１に働きかけて、コンピュータ５０を、音声認識処理部１００、構造スコア算出部１１０、及びランキング部１５０としてそれぞれ機能させる。構造スコアモジュールはまた、分布間距離算出モジュール、対数尤度算出モジュール、正規化モジュール、及び重み付けモジュールを含む。これらモジュールは、ＣＰＵ１に働きかけて、コンピュータ５０を、分布間距離算出部１１５、対数尤度算出部１２０、正規化部１３０、及び重み付け部１３５としてそれぞれ機能させる。コンピュータ・プログラムは圧縮し、また複数に分割して複数の媒体に記録することもできる。

コンピュータ５０は、キーボード／マウス・コントローラ５を経由して、キーボード６やマウス７のような入力デバイスからの入力を受ける。コンピュータ５０は、オーディオコントローラ２１を経由して、マイク２４からの入力を受け、またスピーカー２３から音声を出力する。コンピュータ５０は、視覚データをユーザに提示するための表示装置１１に、グラフィックスコントローラ１０を経由して接続される。コンピュータ５０は、ネットワーク・アダプタ１８（イーサネット（登録商標）・カードやトークンリング・カード）等を介してネットワークに接続し、他のコンピュータ等と通信を行うことが可能である。

以上の説明により、コンピュータ５０は、通常のパーソナルコンピュータ、ワークステーション、メインフレームなどの情報処理装置、又は、これらの組み合わせによって実現されることが容易に理解されるであろう。なお、上記説明した構成要素は例示であり、そのすべての構成要素が本願発明の必須構成要素となるわけではない。

以上、実施形態を用いて本願発明の説明をしたが、本願発明の技術範囲は上記実施形態に記載の範囲には限定されない。上記の実施形態に、種々の変更又は改良を加えることが可能であることが当業者に明らかである。従って、そのような変更又は改良を加えた形態も当然に本願発明の技術的範囲に含まれる。

なお、特許請求の範囲、明細書、及び図面中において示した装置、システム、プログラム、及び方法における動作、手順、ステップ、及び段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り任意の順序で実現しうることに留意すべきである。また、前の処理の出力を後の処理で用いる場合でも、前の処理と後の処理の間に他の処理が入ることは可能である場合があること、又は間に他の処理が入るように記載されていても前の処理を後の処理の直前に行うよう変更することも可能である場合があることも留意されたい。特許請求の範囲、明細書、及び図面中の動作フローに関して、便宜上「まず、」、「次に、」、「続いて、」等を用いて説明したとしても、この順で実施することが必須であることを必ずしも意味するとは限らない。

Claims

コンピュータにより実行される大語彙連続音声認識方法であって、
（ａ）前記コンピュータが、音声データを入力として受け取るステップと、
（ｂ）前記コンピュータが、受け取った前記音声データに対して音声認識を行い、認識結果である複数の仮説を各仮説についての音声認識結果の確からしさを示すスコアである音声認識スコアと共に出力するステップと、
（ｃ）前記コンピュータが、各仮説に対し、該仮説を構成する全ての音素のペアについて、音素のペアの分布間距離の尤度に前記音素のペアごとの重みを掛けて足し合わせたスコアである構造スコアを算出するステップと、
（ｄ）前記コンピュータが、各仮説に対し該仮説の前記音声認識スコアと前記構造スコアの合計値を求め、該合計値に基づき前記複数の仮説をランク付けするステップと、
を含む大語彙連続音声認識方法。
（ｅ）前記コンピュータが、学習用の音声データに対してステップ（ｂ）及び（ｃ）を行い、音声認識スコアと構造スコアの合計値による仮説のランク付けが正しく行われるように、前記音素のペアごとの重みを学習するステップを更に含む、請求項１に記載の大語彙連続音声認識方法。
前記ステップ（ｃ）において、前記コンピュータは、前記音素のペアの前記分布間距離の尤度に該音素のフレーム数を掛け、かつ、前記仮説内に出現する２つの音素の異なる組み合わせ数で割ることにより、前記尤度を正規化する、請求項２に記載の大語彙連続音声認識方法。
前記ステップ（ｃ）において、前記コンピュータは、前記音素のペアの前記分布間距離の尤度に該音素のフレーム数を掛けることにより、前記尤度を正規化する、請求項２に記載の大語彙連続音声認識方法。
上記ステップ（ｅ）は、単語誤り率がゼロである仮説を正例とし、かつ、残りの仮説を負例として前記音素のペアごとの重みを学習するステップを含む、請求項２に記載の大語彙連続音声認識方法。
上記ステップ（ｅ）は、単語誤り率が最も少ない仮説を正例とし、かつ、残りの仮説を負例として前記音素のペアごとの重みを学習するステップを含む、請求項２に記載の大語彙連続音声認識方法。
前記ステップ（ｃ）において、前記音素のペアごとの重みは、母音同士のペア及び無音に関係するペアについての重みが、他の音素のペアについての重みよりも大きくなるように設定されている、請求項１に記載の大語彙連続音声認識方法。
大語彙連続音声認識プログラムであって、該大語彙連続音声認識プログラムはコンピュータに、
（ａ）音声を入力として受け取るステップと、
（ｂ）受け取った前記音声に対して音声認識を行い、認識結果である複数の仮説を各仮説についての音声認識結果の確からしさを示すスコアである音声認識スコアと共に出力するステップと、
（ｃ）各仮説に対し、該仮説を構成する全ての音素のペアについて、音素のペア間の分布間距離の尤度に前記音素のペアごとの重みを掛けて足し合わせたスコアである構造スコアを算出するステップと、
（ｄ）各仮説に対し該仮説の前記音声認識スコアと前記構造スコアの合計値を求め、該合計値に基づき前記複数の仮説をランク付けするステップと、
を実行させる、大語彙連続音声認識プログラム。
前記大語彙連続音声認識プログラムは、前記コンピュータに、（ｅ）前記コンピュータが、学習用の音声データに対してステップ（ｂ）及び（ｃ）を行い、音声認識スコアと構造スコアの合計値による仮説のランク付けが正しく行われるように、前記音素のペアごとの重みを学習するステップを更に実行させる、請求項８に記載の大語彙連続音声認識プログラム。
前記ステップ（ｃ）において、前記大語彙連続音声認識プログラムは、前記コンピュータに、前記音素のペアの前記分布間距離の尤度に該音素のフレーム数を掛けることにより、前記尤度を正規化させる、請求項８に記載の大語彙連続音声認識プログラム。
前記ステップ（ｃ）において、前記大語彙連続音声認識プログラムは、前記コンピュータに、前記音素のペアの前記分布間距離の尤度に該音素のフレーム数を掛け、かつ前記仮説内に出現する２つの音素の異なる組み合わせ数で割ることにより、前記尤度を正規化させる、請求項８に記載の大語彙連続音声認識プログラム。
大語彙連続音声認識を行う情報処理装置であって、
音声を入力として受け取り、受け取った前記音声に対して音声認識を行い、認識結果である複数の仮説を各仮説についての音声認識結果の確からしさを示すスコアである音声認識スコアと共に出力する音声認識処理部と、
前記各仮説に対し、該仮説を構成する全ての音素のペアについて、音素のペアの分布間距離の尤度に前記音素のペアごとの重みを掛けて足し合わせたスコアである構造スコアを算出する構造スコア算出部と、
前記各仮説に対し該仮説の前記音声認識スコアと前記構造スコアの合計値を求め、該合計値に基づき前記複数の仮説をランク付けするランキング部と、
を含む情報処理装置。
学習用の音声に対する前記音声認識処理部の結果を入力とした前記構造スコア算出部による処理の結果を受け取り、音声認識スコアと構造スコアの合計値による仮説のランク付けが正しく行われるように、前記音素のペアごとの重みを学習する学習部を更に含む、請求項１２に記載の情報処理装置。
前記構造スコア算出部は、前記音素のペアの前記分布間距離の尤度に該音素のフレーム数を掛けることにより、前記尤度を正規化する正規化部を含む、請求項１２に記載の情報処理装置。
前記構造スコア算出部は、前記音素のペアの前記分布間距離の尤度に該音素のフレーム数を掛け、かつ、前記仮説内に出現する２つの音素の異なる組み合わせ数で割ることにより、前記尤度を正規化する正規化部を含む、請求項１２に記載の情報処理装置。