JP2004347761A

JP2004347761A - 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体

Info

Publication number: JP2004347761A
Application number: JP2003143224A
Authority: JP
Inventors: Tetsuya Takiguchi; 哲也滝口; Masafumi Nishimura; 雅史西村
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2003-05-21
Filing date: 2003-05-21
Publication date: 2004-12-09
Anticipated expiration: 2023-05-21
Also published as: US8024184B2; JP3836815B2; US20090306977A1; US20050010410A1

Abstract

【課題】周囲環境からの残響がオリジナルの音声に重畳される場合であっても充分に、オリジナル音声を認識するための音声認識装置、音声認識方法、該制御方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体を提供する。
【解決手段】コンピュータを含んで構成され音声を認識するための音声認識装置であって、該音声認識装置は、音声信号から得られる特徴量をフレームごとに格納する手段２０と、音響モデル・データおよび言語モデル・データを格納するための手段２４、２６と、その時点で処理するべき音声信号よりも前に取得された音声信号から残響音声モデル・データを生成し、残響音声モデル・データを使用して適合音響モデル・データを生成する手段１８と、特徴量と適合音響モデル・データと言語モデル・データとを参照して音声信号の音声認識結果を与える手段１６とを含む。
【選択図】図５

Description

【０００１】
【発明の属する技術分野】
本発明は、コンピュータ装置による音声認識に関し、より詳細には、周囲環境からの残響がオリジナルの音声に重畳される場合であっても充分に、オリジナル音声を認識するための音声認識装置、音声認識方法、および該制御方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体に関する。
【０００２】
【従来技術】
コンピュータ装置による周辺装置の制御性が向上したことにともない、マイクロフォンなどからの音声入力から入力された音声を、自動的に認識するシステムが使用されるようになってきている。上述した音声入力からの音声認識装置は、書類の口述筆記、会議議事録などの書起こし、ロボットとの対話など、外部機械の制御といった種々の用途において利用することができるものと想定することができる。上述した音声認識装置は、本質的には、入力された音声を解析して特徴量を取得し、取得された特徴量に基づいて音声に対応する単語を選択することにより、音声をコンピュータ装置に対して認識させるものである。音声認識を行う際には、周囲環境からの雑音などの影響を排除するために、種々の方法が提案されている。このための代表的な例としては、ユーザに対してハンド・マイクロフォンまたはヘッドセット型マイクロフォンの使用を義務づけ、収録される音声に重畳される残響やノイズを排除して、入力音声だけを取得する方式を挙げることができる。このような方法では、ユーザが音声収録を行う場合、通常では使用しない余分な機材の使用をユーザに対して要求する。
【０００３】
上述したハンド・マイクロフォンや、ヘッドセット型マイクロフォンの使用をユーザに対して要求する理由としては、発話者がマイクロフォンから離れて発話すると、周囲からの雑音の影響の他にも、周囲環境に応じて生成してしまう残響を挙げることができる。残響がノイズの他に音声信号に重畳されると、音声認識で使用する音声単位の統計モデル：音響モデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）において、音声認識のミスマッチが生じ、結果的に認識効率の低下を招くことになる。
【０００４】
図９には、音声認識を行う場合に雑音を考慮する代表的な方法を示す。図９に示すように、雑音が存在すると、入力される信号は、音声信号と、音声信号に雑音信号が重畳された出力確率分布を有することになる。多くの場合、雑音は突発的に発生するので、入力信号を取得するためのマイクロフォンと、雑音を取得するためのマイクロフォンとを使用し、いわゆる２チャネルの信号を使用して入力信号から音声信号と、雑音信号とを分離して取得する方法が使用されている。図９に示した従来の音声信号は第１のチャネルにより取得され、雑音信号は、第２のチャネルにより取得されており、２チャネルの信号を使用することによって、雑音のある環境下でも入力された音声信号から、オリジナルの音声信号を認識することが可能とされている。
【０００５】
しかしながら、２チャネル分のデータを使用することにより音声認識装置のハードウエア資源が消費されることに加え、状況によっては２チャネルの入力が可能でない場合もあるので、常に効率的な認識を可能とするものではない。また都度２チャネルの情報を同時に必要とすることは、現実的な音声認識に対して大きな制限を加えてしまうと言った不都合もある。
【０００６】
従来、音声の伝達経路による影響に対処する方法として、ケプストラム平均減算法（ＣｅｐｓｔｒｕｍＭｅａｎＳｕｂｔｒａｃｔｉｏｎ：ＣＭＳ）が使われている。この手法は、例えば電話回線の影響などのように、伝達特性のインパルス応答が比較的短い場合（数ｍｓｅｃ−数十ｍｓｅｃ）には有効であるが、部屋の残響のように伝達特性のインパルス応答が長くなった場合（数百ｍｓｅｃ）には充分な性能が得られないという不都合が知られていた。この理由は、一般的に部屋の残響の伝達特性の長さが、音声認識に用いられる短区間分析の窓幅（１０ｍｓｅｃ−４０ｍｓｅｃ）よりも長くなり、分析区間内で安定したインパルス応答とならないためである。
【０００７】
短区間分析を用いない残響抑制手法としては、複数のマイクロフォンを利用し逆フィルタを設計して音声信号から残響成分を除去する方法も提案されている（Ｍ．ＭｉｙｏｓｈｉａｎｄＹ．Ｋａｎｅｄａ， “ＩｎｖｅｒｓｅＦｉｌｔｅｒｉｎｇｏｆｒｏｏｍａｃｏｕｓｔｉｃｓ，” ＩＥＥＥＴｒａｎｓ．ｏｎＡＳＳＰ，Ｖｏｌ．３６，ｐｐ．１４５−１５２，Ｎｏ．２，１９８８）。この方法では、音響伝達特性のインパルス応答が最小位相とならない場合も生じてしまい、現実的な逆フィルタの設計は難しいという不都合がある。また使用環境下において、コストや物理的な配置状況により複数のマイクロフォンを設置できない場合も多い。
【０００８】
また、残響への対応方法は、例えば特開２００２−１５２０９３号公報に開示のエコー・キャンセラのように、種々の方法が提案されている。しかしながら、これらの方法は、音声を２チャネルで入力する必要があり、１チャネルの音声入力で残響に対応することができる方法ではない。さらに、エコー・キャンセラの技術として、特開平９−２６１１３３号公報に記載の方法および装置も知られている。しかしながら、特開平９−２６１１３３号公報において開示される残響処理方法については、同一の残響環境下における複数の場所における音声測定が必要とされる点で、汎用的な方法というわけではない。
【０００９】
また、周囲からのノイズを考慮した音声認識に関しては、例えば共通の出願人に帰属される特許出願、特願２００２−７２４５６号明細書において開示された、フレーム単位で音響モデルを選択することによる、突発性雑音下での音声認識などの方法を使用して対処することも可能である。しかしながら、突発的に発生する雑音ではなく、環境に応じて発生してしまう、残響の特性を有効に利用する音声認識に関して有効な手法は、これまで知られていない。
【００１０】
フレーム内伝達特性Ｈを予測して、音声認識にフィードバックする方法は、例えば、滝口ら（Ｔ．Ｔａｋｉｇｕｃｈｉ，ｅｔ．ａｌ． “ＨＭＭ−Ｓｅｐａｒａｔｉｏｎ−ＢａｓｅｄＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎｆｏｒａＤｉｓｔａｎｔＭｏｖｉｎｇＳｐｅａｋｅｒ，” ＩＥＥＥＴｒａｎｓ．ｏｎＳＡＰ，Ｖｏｌ．９，ｐｐ．１２７−１４０，Ｎｏ．２，２００１）により報告されている。この方法は、フレーム内における伝達特性Ｈを使用して残響の影響を反映させ、さらに、音声入力を参照信号としてヘッドセット型のマイクロフォンで入力し、これとは別に残響信号を測定する、２チャネルの測定結果に基づいて、残響を予測する残響予測係数であるαを取得するものである。上述した滝口らの方法を使用することによってもまったく残響の影響を考慮しない場合や、ＣＭＳ法による処理に比較して充分に高い精度で音声認識を行うことが可能であることが示されているものの、ハンズフリーの環境下で測定された音声信号のみから音声認識を行うことを可能とする方法ではない。
【００１１】
【発明が解決しようとする課題】
しかしながら、手が使用できないユーザや、ヘッドセット型マイクロフォンを携行または着用することができない環境に居るユーザであっても、音声認識を行なうことができれば、音声認識の利用性を大きく広げることができるものと考えられる。また、上述した既存技術はあるものの、既存技術と比較して、さらに音声認識精度を向上させることができれば、音声認識の利用性をさらに拡大することができる。例えば、上述した環境としては、例えば自動車といった車両、航空機などの運転または操縦中や、広い空間内で移動しながら音声認識に基づいて、処理を行う場合、ノート型・パーソナル・コンピュータへの音声入力、キオスク装置などにおいて離れた位置に配置されたマイクロフォンへの音声入力を行う場合などを挙げることができる。
【００１２】
上述したように、従来の音声認識手法は、少なくともヘッドセット型マイクロフォンやハンド・マイクロフォンなどを使用することが前提とされたものである。しかしながら、コンピュータ装置の小型化や、音声認識の用途が拡大するにつれて、ますます残響を考慮しなければならない環境における音声認識手法が必要とされ、残響が発生する環境においてもハンズフリーでの音声認識機能を可能とする処理がますます要求されて来ている。本発明においては、用語「ハンズフリー」とは、発話者がマイクロフォンの位置に制約を受けず、自由な場所から発話を行うこととして参照する。
【００１３】
【課題を解決するための手段】
本発明は、上述した従来の音声認識の不都合に鑑みてなされたものであり、本発明では、音声認識で使用している音響モデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）を残響環境下の音声信号に適応させることにより部屋の残響の影響に対処する方法を提案する。本発明では、１つのマイクロフォン（１チャネル）入力で観測された信号を用いて、短区間分析における残響成分の影響を推定する。この方法ではインパルス応答をあらかじめ測定する必要もなく、任意の場所から発話された音声信号のみを用いて、音響モデルを利用した最尤推定により残響成分を推定することを可能とする。
【００１４】
本発明では、本質的に残響や、ノイズの重畳されていない音声信号（以下、本発明では、「フレーム内残響影響を受けた音声モデル」として参照する。）をヘッドセット型のマイクロフォンやハンド・マイクロフォンを使用して実測するのではなく、音声認識で使用している音響モデルを用いて表現し、さらに残響予測係数を尤度最大基準に基づいて推定することによっても、充分な音声認識行うことが可能である、という着想の下になされたものである。
【００１５】
残響が重畳される場合には、入力される音声信号と、音響モデルとは残響の分だけ異なることになる。本発明においては、インパルス応答が長いことを考慮すれば、残響が、過去のフレームにおける音声信号Ｏ（ω；ｔｐ）に依存しつつ、その時点で判断している音声信号Ｏ（ω；ｔ）に重畳されると仮定しても充分に残響をシミュレーションすることができることを見出すことによりなされたものである。本発明においては、残響とは、インパルス応答よりも長時間にわたり音声信号に対して影響を与える信号であり、なおかつ当該残響を与える信号が音声信号を与える話声である、音響的な信号として定義することができる。本発明においてさらに残響を明確に定義することを要するものではないものの、概ね残響は、使用される観測ウィンドウの時間幅との関連で言えば、観測ウィンドウの時間幅よりも長く影響を与える音響的な信号として定義することができる。
【００１６】
ここで、音響モデルとして通常使用される音響モデル・データ（ＨＭＭパラメータなど）は、音声コーパスなどを使用して生成される音韻に関連する精度の高い基準信号として捉えることができる。一方で、フレーム内での伝達関数Ｈは、既存の技術に基づいて充分な精度で予測することができる。本発明では、音響モデルから従来では参照信号として別に入力されていた信号に相当する「フレーム内残響影響を受けた音声モデル」をケプストラムの加算性を使用して生成する。また、残響予測係数αは、選択された音声信号に対して最大尤度を与えるようにして推定することができる。この残響予測係数を使用してユーザに使用する環境に適合した適合音響モデルを生成し、音声認識を実行する。本発明によれば、参照信号としての音声入力を必要とせず、１チャネルからの音声信号のみを使用して音声認識を行うことが可能となる。また、本発明により、発話者がマイクロフォンから離れて発話した場合に問題となる残響の影響に対し、ロバストな音声認識装置および音声認識方法を提供することが可能となる。
【００１７】
すなわち、本発明によれば、コンピュータを含んで構成され音声を認識するための音声認識装置であって、該音声認識装置は、
音声信号から得られる特徴量をフレームごとに格納する記憶領域と、
音響モデル・データおよび言語モデル・データをそれぞれ格納する格納部と、
その時点で処理するべき音声信号よりも前に取得された音声信号から残響音声モデル・データを生成し、残響音声モデル・データを使用して適合音響モデル・データを生成する残響適合モデル生成部と、
前記特徴量と前記適合音響モデル・データと前記言語モデル・データとを参照して音声信号の音声認識結果を与える認識処理手段と
を含む、音声認識装置が提供される。
【００１８】
本発明における前記適合音響モデル生成手段は、ケプストラム音響モデル・データから線形スペクトル音響モデル・データへのモデル・データ領域変換部と、
前記線形スペクトル音響モデル・データに前記残響音声モデル・データを加算して尤度最大を与える残響予測係数を生成する残響予測係数算出部と
を含むことができる。
【００１９】
本発明では、残響音声モデル・データを生成する加算部を含み、前記加算部は、前記音響モデルのケプストラム音響モデル・データおよびフレーム内伝達特性のケプストラム音響モデル・データを加算して「フレーム内残響影響を受けた音声モデル」を生成することができる。
【００２０】
本発明における前記加算部は、生成された「フレーム内残響影響を受けた音声モデル」を前記モデル・データ領域変換部へと入力し、前記モデル・データ領域変換部に対して「フレーム内残響影響を受けた音声モデル」の線形スペクトル音響モデル・データを生成させることができる。
【００２１】
本発明における前記残響予測係数算出部は、入力された音声信号から得られた少なくとも１つの音韻と、前記残響音声モデル・データとを使用して線形スペクトル音響モデル・データに基づいて残響予測係数の尤度を最大化させることができる。本発明における前記音声認識装置は、隠れマルコフ・モデルを使用して音声認識を実行することが好ましい。
【００２２】
本発明によれば、コンピュータを含んで構成され音声を認識するための音声認識装置に対して音声認識を実行させるための方法であって、前記方法は、前記音声認識装置に対して、
音声信号から得られる特徴量をフレームごとに記憶領域に格納させるステップと、
その時点で処理するべき音声信号よりも前に取得された音声信号を前記格納部から読み出して残響音声モデル・データを生成し、格納部に格納された音響モデル・データを処理して適合音響モデル・データを生成して記憶領域に格納させるステップと、
前記特徴量と前記適合音響モデル・データと格納部に格納された言語モデル・データとを読み込んで音声信号の音声認識結果を生成させるステップと
を含む、音声認識方法が提供される。
【００２３】
本発明によれば、前記適合音響モデル・データを生成するステップは、加算部により前記読み出された音声信号とフレーム内伝達特性値との合計値を算出するステップと、
前記加算部により算出された前記合計値をモデル・データ領域変換部に読み込ませ、ケプストラム音響モデル・データから線形スペクトル音響モデル・データへと変換させるステップと、を含むことができる。
【００２４】
本発明においては、加算部に対して前記線形スペクトル音響モデル・データと前記残響音声モデル・データとを読み込ませ加算して、尤度最大を与える残響予測係数を生成させるステップと、を含むことができる。本発明においては、前記線形スペクトル音響モデル・データへと変換させるステップは、前記加算部に対して、前記音響モデル・データのケプストラム音響モデル・データおよびフレーム内伝達特性のケプストラム音響モデル・データを加算して「フレーム内残響影響を受けた音声モデル」を生成するステップを含むことができる。
【００２５】
本発明における前記残響予測係数を生成させるステップは、前記加算部により生成された前記「フレーム内残響影響を受けた音声モデル」の線形スペクトル音響モデル・データと前記残響音声モデル・データとの合計値が音声信号から生成され格納された少なくとも１つの音韻に対して最大の尤度を与えるように残響予測係数を決定するステップを含むことができる。
【００２６】
本発明においては、上記の音声認識方法をコンピュータに対して実行させるためのコンピュータ可読なプログラムおよびコンピュータ可読なプログラムを記憶した、コンピュータ可読な記憶媒体が提供される。
【００２７】
【発明の実施の形態】
以下、本発明を図面に示した実施の形態をもって説明するが、本発明は、後述する実施の形態に限定されるものではない。
【００２８】
Ａ：隠れマルコフ・モデルを使用する音声認識の概説
図１には、本発明において使用する、隠れマルコフ・モデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ：ＨＭＭ）を使用した音声認識を概略的に説明する。音響モデルは、単語または文が、音韻（ｐｈｏｎｅｍｅ）の連続として構築されており、それぞれの音韻に対して、典型的には３状態を付与し、これらの状態間の遷移確率を規定することにより、音韻の連続する単語または文を検索するオートマトンとして考えることができる。図１に示した実施の形態は、説明のために３つの音韻Ｓ１〜Ｓ３が示されており、状態Ｓ１から状態Ｓ２への遷移確率Ｐｒ（Ｓ１｜Ｓ０）は、０．５であり、また、状態Ｓ２から状態Ｓ３への遷移確率Ｐｒ（Ｓ３｜Ｓ２）は、０．３であるものとして示されている。
【００２９】
それぞれの状態Ｓ１〜Ｓ３には、例えば混合ガウス分布により与えられる音韻に関連して決定される出力確率が割り当てられており、図１に示した実施の形態では、状態Ｓ１から状態Ｓ３には、ｋ１〜ｋ３の混合要素が使用されているのが示されている。また、図１には、ｋ１〜ｋ３で示される状態Ｓ１に対応する混合ガウス分布の出力確率分布が示されている。それぞれの混合要素には、重みｗ１〜ｗ３が与えられており、特定の話者に対して適切に適応させることができるようにされている。上述した音響モデルを使用すると、出力確率は、音声信号をアルファベットの「Ｏ」で表し、ＨＭＭパラメータのセットをλで表すと、Ｐｒ（Ｏ｜λ）で与えられるものとして定義される。
【００３０】
図２には、本発明における出力確率テーブルを生成するための処理を示す。図２に示した実施の形態では、例えば状態Ｓ１から状態Ｓ３までに至る出力確率は、音声信号から得られる特徴量系列｛α β α｝を使用して、図２のようなトレリスを構成させ、ビタビ・アルゴリズム、フォワード・アルゴリズム、ビームサーチ・アルゴリズムなどを使用して算出することができる。より一般的には、所定のフレームｔでの音声信号Ｏｔ、状態ｓ、およびＨＭＭパラメータのセットλとすれば、音声信号に対して各状態に基づく出力確率は、出力確率テーブルとして与えられることになる。
【００３１】
【数１】

ＨＭＭによる音声認識では、上述した出力確率テーブルを使用して、最尤の音韻列を検索することにより、出力結果である単語または文を決定する。それぞれの状態は、混合ガウス分布で記述されるものの、最初の音韻から最後の音韻までの間は、状態遷移確率による尤度によって決定されることになる。なお、一般的なＨＭＭによる音声認識については、例えば鹿野ら、「音声・音情報のディジタル信号処理」、昭晃堂、ＩＳＢＮ４−７８５６−２０１４を参照することができる。
【００３２】
Ｂ：本発明の音声認識方法における処理
図３には、本発明の音声認識方法の概略的な手順を示したフローチャートを示す。図３に示されるように、本発明の音声認識方法の処理は、ステップＳ１０において音声信号の入力を受け取り、ステップＳ１２において、音響モデル・データとフレーム内伝達特性とから残響のない場合の「フレーム内残響影響を受けた音声モデル」を生成する。ステップＳ１４では、残響予測係数αと、過去の音声信号とを使用して残響音声モデル・データを生成する（α×Ｏ｛ω；ｔｐ｝）。
【００３３】
生成された残響音声モデル・データは、ステップＳ１６においてステップＳ１２で与えられた「フレーム内残響影響を受けた音声モデル」と線形スペクトル音響モデル・データとして加算された後、音声信号を処理して得られた選択された単語または文の音韻との間における最尤値が得られるように残響予測係数αを決定する。ステップＳ１８では、決定された残響予測係数αおよび過去のフレームの音声信号Ｏ（ω；ｔｐ）とを使用して、残響の絶対値を取得し、フレーム内残響影響を受けた音声モデルの平均値ベクトルμに加算して、μ’＝μ＋α×Ｏ（ω；ｔｐ）を計算し、フレーム外の残響影響成分も含む音声モデルを生成させ、他のパラメータとセットとして格納させる。その後、ステップＳ２０において、音声信号と、適合音響モデル・データとを使用して音声認識を実行させ、ステップＳ２２において認識結果を出力させる。
【００３４】
図４は、本発明の図３において説明した処理の概略的な処理を示した図である。まず、音響モデル・データおよびフレーム内伝達特性のケプストラムを加算して、「フレーム内残響影響を受けた音声モデル」のデータ（以下、本発明では、「フレーム内残響影響を受けた音声モデル」として参照する。）を作成する。生成された音声モデル・データに対して、離散フーリエ変換といった方法および指数化処理を施して線形スペクトル音響モデル・データに変換する。さらに、残響予測係数αは、変換後のスペクトル・データにおいて選択された音声信号に含まれる音韻の特徴量に対して尤度を最大とするように決定される。この際の設定としては、種々の方法を使用することができるものの、例えば、一定の単語や、一定の文を使用して、適宜決定することができる。決定された残響予測係数αは、元々音声認識装置が格納していた音響モデル・データとともに適合音響モデル・データを作成するために使用され、生成された線形スペクトル領域での音響モデル・データが対数変換および逆フーリエ変換を行うことによりケプストラムとされ、音声認識を実行させるために格納される。
【００３５】
ここで、音声信号が残響を含む音声である場合について考える。残響が音声に重畳される場合に、その時点で観測される、周波数ω、フレーム番号ｔの音声信号Ｏ’（ω；ｔ）は、過去のフレームの音声信号Ｏ（ω；ｔｐ）を使用して、下記式（２）で示されることが知られている（「中村、滝口、鹿野、「短区間スペクトル分析における残響補正に関する検討」、日本音響学会講演論文集、平成１０年３月、３−６−１１」）。
【００３６】
【数２】

上記式中、Ｓは、本発明においては音声コーパスなどを使用して生成された標準的な音響モデルを使用することができ、これを本発明においてクリーン音声信号として参照する。Ｈは、同一フレーム内での伝達特性の予測値を使用する。また、αは、過去のフレームからその時点で評価するフレームへと重畳されることになる残響の割合を示す残響予測係数である。添え字のｃｅｐは、ケプストラムを意味している。
【００３７】
従来では、本発明では、音声認識で使用している音響モデル・データを参照信号の代わりに使用する。さらにフレーム内伝達特性Ｈを予測値として取得し、残響予測係数を尤度最大基準に基づいて選択された音声信号を使用して決定することにより、適合音響モデル・データを生成する。
【００３８】
残響が重畳される場合には、入力音声信号と、音響モデル・データとは残響の分だけ異なることになる。本発明においては、インパルス応答が長いことを考慮すれば、残響が、直前のフレームにおける音声信号Ｏ（ω；ｔｐ）に依存しつつ、その時点で判断している音声信号Ｏ（ω；ｔ）に重畳されると仮定しても充分に残響をシミュレーションすることができることに着目した。すなわち上記式（２）を使用して、音声信号に対して所定の音響モデル・データとαとの値から尤度が最も高くなる音響モデル・データを決定することにより、対応する言語モデル・データを使用して、１チャネルからの音声信号のみを使用して音声認識を行うことが可能となる。
【００３９】
また、音響モデル・データに対してフレーム内伝達特性Ｈの加算は、スペクトル領域では、コンボリューションにより得られるものの、ケプストラム領域に変換すれば加算条件が成立するので、他の方法によりフレーム内伝達特性Ｈの推定ができれば、容易に音響モデル・データとの加算性を使用して、容易かつ精度良くすでに登録されている音響モデル・データのケプストラム領域のデータとの加算によりフレーム内伝達特性Ｈを考慮した音響モデル・データを決定できる。
【００４０】
以下、クリーン音声信号ＳのＨＭＭにおけるパラメータの集合をλ_{（ｓ），ｃｅｐ}、フレーム内伝達特性ＨのＨＭＭパラメータの集合をλ_（ｈ _’ _{），ｃｅｐ}、適応後の音響モデル・データのＨＭＭパラメータの集合をλ_{（Ｏ），ｃｅｐ}とする。本発明においては、音響モデル・データのうち、出力確率分布のみに注目するので、所定のＨＭＭの状態ｊのｋ番目の出力確率分布の平均値をμ_ｊ，ｋ、分散をσ^２ _{（Ｓ）ｊ，ｋ}、重みをｗ_ｊ，ｋとした場合、λ_（ｓ）を、λ_（ｓ）＝｛μ_ｊ，ｋ、σ^２ _{（Ｓ）ｊ，ｋ}、ｗ_ｊ，ｋ｝で表わすものとする。通常、これらの音響モデル・データのＨＭＭパラメータは、音声認識に最もよく適しているケプストラムとされて、音声認識に適用される。
【００４１】
図３のステップＳ１２におけるフレーム内伝達特性の推定は、例えば、本発明における特定の実施の形態では、Ｔ．Ｔａｋｉｇｕｃｈｉ，ｅｔ．ａｌ． “ＨＭＭ−Ｓｅｐａｒａｔｉｏｎ−ＢａｓｅｄＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎｆｏｒａＤｉｓｔａｎｔＭｏｖｉｎｇＳｐｅａｋｅｒ，”、ＩＥＥＥＴｒａｎｓ．ｏｎＳＡＰ，Ｖｏｌ．９，Ｎｏ．２，２００１に記載された方法において、便宜的に残響が存在しないものとしてα＝０と設定して得られたフレーム内伝達関数Ｈを使用することができる。生成されたフレーム内伝達関数Ｈは、離散フーリエ変換（ＤｉｓｃｒｅｔｅＦｏｕｒｉｅＴｒａｎｓｆｏｒｍａｔｉｏｎ）および指数化処理を行って、ケプストラム領域に変換して、後述する記憶領域に適時的に格納させておくことができる。
【００４２】
また、残響予測係数αを、尤度に基づいて算出する場合には、種々の方法を使用することができる。本発明において説明している特定の実施の形態では、ＥＭアルゴリズム（“ＡｎｉｎｅｑｕａｌｉｔｙａｎｄａｓｓｏｃｉａｔｅｄｍａｘｉｍｉｚａｔｉｏｎｔｅｃｈｎｉｑｕｅｉｎｓｔａｔｉｓｔｉｃａｌｅｓｔｉｍａｔｉｏｎｏｆｐｒｏｂａｂｉｌｉｓｔｉｃｆｕｎｃｔｉｏｎｏｆａＭａｒｋｏｖｐｒｏｃｅｓｓ”，Ｉｎｅｑｕａｌｉｔｉｅｓ，Ｖｏｌ．３，ｐｐ．１−８，１９７２）を使用し、最大尤度の予測値であるα’を算出することができる。
ＥＭアルゴリズムを使用する残響予測係数αの計算処理は、ＥＭアルゴリズムのＥ−ステップと、Ｍ−ステップとを使用して実行される。まず、本発明においては、線形スペクトル領域に変換されたＨＭＭパラメータのセットを使用して、Ｅ−ステップにおいて下記式（３）で示されるＱ関数を計算する。
【００４３】
【数３】

上記式中、ｐは、ＨＭＭパラメータのインデックス（例えば所定の音韻などを表す。）であり、Ｏ_ｐ，ｎは、音韻ｐに関連するｎ番目の観測系列とする。またｓ_ｐ，ｎ、ｍ_ｐ，ｎは、Ｏ_ｐ，ｎそれぞれに対する状態系列および混合要素の系列とする。λ_{（ＳＨ），ｌｉｎ}の音韻ｐの状態ｊのｋ番目の出力確率分布（混合ガウス分布）の平均値、分散、重みを下記式（４）とし、
【００４４】
【数４】

各々の次元数をＤとした場合、上記Ｑ関数の出力確率分布のみに関する項に注目すると、Ｑ関数は、下記式（５）で示される。
【００４５】
【数５】

上記式中、ｔは、フレーム番号を表す。またγ_{ｐ，ｎ，ｊ，ｋ，ｔ}は、下記式（６）で与えられる確率である。
【００４６】
【数６】

次に、ＥＭアルゴリズムにおけるＭ−ｓｔｅｐ（Ｍａｘｉｍｉｚａｔｉｏｎ）で、Ｑ関数をα’に関して最大にする。
【００４７】
【数７】

最大尤度のα’は、得られたＱを、α’で偏微分して、極大値を求めることにより得ることができる。その結果、α’は、下記式（８）で与えられる。
【００４８】
【数８】

本発明においては、音韻ｐごとにα’を推定することもでき、この場合には、下記式（９）で与えられるように、音韻ｐでの総和を算出する前の値を使用することで音韻ごとのα’を取得することもできる。
【００４９】
【数９】

いずれの残響予測係数を使用するかについては、認識の効率や認識速度といった特定の装置および要求に応じて決定することができる。また、ＨＭＭ状態ごとにα’を求めることも式（８）、式（９）と同様に可能である。上述した計算処理を実行させることにより、オリジナルの音響モデルのパラメータのみを使用して、発話者から離れた１チャネル入力の音声信号Ｏ（ｔ）のみから、残響予測係数αを得ることができる。
【００５０】
Ｃ：本発明の音声認識装置とその処理方法
図５には、本発明の音声認識装置の概略的なブロック図を示す。本発明の音声認識装置１０は、概ね中央処理装置（ＣＰＵ）を含むコンピュータを使用して構成されている。図５に示すように、本発明の音声認識装置１０は、音声信号取得部１２と、特徴量抽出部１４と、認識処理部１６と、適合音響モデル・データ生成部１８とを含んで構成されている。音声信号取得部１２は、図示しないマイクロフォンといった入力手段から入力される音声信号をＡ／Ｄコンバータなどによりディジタル信号とし、振幅を時間フレームと対応づけて適切な記憶領域２０に格納させている。特徴量抽出部１４は、モデル・データ領域変換部２２を含んで構成されている。
【００５１】
モデル・データ領域変換部２２は、図示しないフーリエ変換手段と、指数化手段と、逆フーリエ変換手段とを含んで構成されており、記憶領域２０に格納された音声信号を読み出して、音声信号のケプストラムを生成させ、記憶領域２０の適切な領域に格納する。また、特徴量抽出部１４は、生成された音声信号のケプストラムから特徴量系列を取得し、フレームに対応させて格納する。
【００５２】
図５に示した本発明の音声認識装置１０は、さらに、音声コーパスなどを使用して生成された、ＨＭＭに基づく音響モデル・データを格納する音響モデル・データ格納部２４と、テキスト・コーパスなどから得られた言語モデル・データを格納する言語モデル・データ格納部２６と、本発明により生成された適合音響モデル・データを格納する、適合音響モデル・データ生成部１８とを含んで構成されている。
認識処理部１６は、本発明においては、適合音響モデル・データを適合音響モデル・データ格納部２８から読み出し、言語モデル・データを言語モデル・データ格納部２６から読み出し、読み出された各データを、音声信号のケプストラムに基づき、尤度最大化を使用して音声認識を実行することができる構成とされている。
【００５３】
本発明において使用することができる音響モデル・データ格納部２４と、言語モデル・データ格納部２６と、適合音響モデル・データ格納部２８とは、それぞれハードディスクといった記憶装置に構築されたデータベースとすることができる。また、図５に示された適合音響モデル・データ生成部１８は、本発明における上述の処理により適合音響モデル・データを作成して、適合音響モデル・データ格納部２８へと格納させている。
【００５４】
図６は、本発明において使用される適合音響モデル・データ生成部１８の詳細な構成を示した図である。図６に示すように、本発明において使用する適合音響モデル・データ生成部１８は、バッファ・メモリ３０と、モデル・データ領域変換部３２ａ、３２ｂと、残響予測係数算出部３４と、加算部３６ａ、３６ｂと、生成部３８とを含んで構成されている。適合音響モデル・データ生成部１８は、その時点で処理を行うフレームｔよりも過去の所定の観測データを読み込んで、残響予測係数αを乗じてバッファ・メモリ３０に一旦格納させる。同時に、音響モデル・データ格納部２４から音響モデル・データを読み込み、予め計算しておいたフレーム内伝達特性Ｈのケプストラム音響モデル・データを、記憶領域２０からバッファ・メモリ３０へと読み込む。
【００５５】
バッファ・メモリ３０に格納された音響モデル・データと、フレーム内伝達特性のデータは、いずれもケプストラム音響モデル・データとされているので、これらのデータは、加算部３６ａへと読み込まれ、加算が実行され、「フレーム内残響影響を受けた音声モデル」が生成される。「フレーム内残響影響を受けた音声モデル」は、モデル・データ領域変換部３２ａへと送られ、線形スペクトル音響モデル・データに変換された後、加算部３６ｂへと送られる。加算部３６ｂは、さらに過去の観測データに残響予測係数を乗じたデータを読み込んで、「フレーム内残響影響を受けた音声モデル」の線形スペクトル音響モデル・データと加算を実行する。
【００５６】
加算部３６ｂにおいて生成された加算データは、予め選択された音韻などに対応する音響モデル・データを格納した残響予測係数算出部３４へと送られ、ＥＭアルゴリズムを使用して尤度最大となるように、残響予測係数αを決定する。決定された残響予測係数αは、線形スペクトル音響モデル・データに変換または線形スペクトルのまま格納された音響モデル・データと共に、生成部３８へと渡され、適合音響モデル・データとして作成される。作成された適合音響モデル・データは、モデル・データ領域変換部３２ｂへと送られ、線形スペクトル音響モデル・データからケプストラム音響モデル・データへと変換された後、適合音響モデル・データ格納部２８へと格納される。
【００５７】
図７は、本発明の音声認識装置により実行される音声認識方法の処理を示す概略的なフローチャートである。図７に示すように、本発明の音声認識装置が実行する認識処理は、ステップＳ３０において、残響の重畳された音声信号をフレームごとに取得して、少なくともその時点で処理を実行させる処理フレームと、それ以前のフレームとを、適切な記憶領域に格納させる。ステップＳ３２において音声信号から特徴量を抽出し、音響モデル・データおよび言語モデル・データによる音声信号の検索のために使用するデータを取得して、ケプストラム音響モデル・データとして適切な記憶領域に格納する。
【００５８】
一方、ステップＳ３４は、ステップＳ３２と並列的に処理を行うことができ、過去のフレームの音声信号および音響モデル・データを適切な記憶領域から読み出し、ケプストラム領域への変換処理および線形スペクトル領域への変換処理を使用して、適合音響モデル・データを作成し、適切な記憶領域へと予め格納しておく。ステップＳ３６において、適合音響モデル・データと、音声信号から得られた特徴量とを使用して最大尤度を与える音韻を決定し、ステップＳ３８において決定された音韻に基づいて言語モデル・データを使用して、認識結果を生成し、適切な記憶領域に格納させる。同時に、その時点での尤度の合計を格納する。その後、ステップＳ４０において、処理するべきフレームが残されているかを判断し、処理するべきフレームがない場合（ｎｏ）には、ステップＳ４２において尤度の和が最大の単語または文を認識結果として出力する。また、ステップＳ４０の判断において処理するべきフレームが残されている場合（ｙｅｓ）には、ステップＳ４４において、残されているフレームの観測データを読み込んで、特徴量を抽出し、ステップＳ３６へと処理を戻し、処理を繰り返すことにより、単語または文の認識を完了させる。
【００５９】
図８には、本発明の音声認識装置を、ノート型パーソナル・コンピュータ４０として構成させた実施の形態を示す。ノート型パーソナル・コンピュータ４０には、表示部上側に内蔵マイクロフォン４２が配設されており、ユーザからの音声入力を受け取ることができる構成とされている。ユーザは、例えばオフィスや自宅などに設置されたマウスまたはタッチパッドといったポインタ手段４４を使用して表示部に表示されたカーソルを移動させ種々の処理を実行させる。
【００６０】
ここで、ユーザは、音声認識を使用する、例えばＩＢＭ社製のソフトウエア（ＶｉａＶｏｉｃｅ：登録商標）を使用したワードプロセッサ・ソフトウエアにより、ディクテーションを行うことを希望するものとする。このときユーザが、例えばアプリケーションを起動するためのアプリケーション・アイコン４６にマウス・カーソルを重ね合わせ、マウス４４をクリックすると、ワードプロセッサ・ソフトウエアは、ＶｉａＶｏｉｃｅソフトウエアと同時に起動される。本発明の特定の実施の形態では、ＶｉａＶｏｉｃｅソフトウエアに対して本発明の音声認識プログラムがモジュールとして搭載されている。
【００６１】
従来では、ユーザは、ヘッドセット型マイクロフォンや、ハンド・マイクロフォンを使用して、残響や周囲ノイズの影響を避けながら音声入力する。また、ユーザは、周囲ノイズや残響と入力音声とを別々に入力して、音声入力を行うことが要求されることになる。しかしながら、本発明の図８に示されたノート型パーソナル・コンピュータ４０を使用した音声認識方法では、ユーザは、本発明にしたがい、内蔵マイクロフォン４２により入力を行うだけで、音声認識を介したディクテーションを行うことが可能となる。
【００６２】
図８は、本発明をノート型パーソナル・コンピュータに対して適用した実施の形態を示しているものの、本発明は、図８に示した以外にも、区画された比較的狭い部屋の中で音声対話式に処理を進めるためのキオスク装置や、乗用車、航空機などにおけるディクテーションや、コマンド認識など、周囲ノイズの常態的な重畳よりも残響の影響が大きな、比較的狭い空間内における音声対話型処理に適用することができる。また、本発明の音声認識装置は、ネットワークを介して、非音声処理を行う他のサーバ・コンピュータまたは音声処理対応型のサーバ・コンピュータとの通信を行うことも可能である。上述したネットワークとしては、ローカル・エリア・ネットワーク（ＬＡＮ）、ワイド・エリア・ネットワーク（ＷＡＮ）、光通信、ＩＳＤＮ、ＡＤＳＬといった通信インフラ基盤を使用したインターネットなどを挙げることができる。
【００６３】
本発明の音声認識方法では、時系列的に連続して入力される音声信号を使用するのみで、マイクロフォンを複数使用して別に参照信号を格納し、処理するための余分な処理ステップおよびそのためのハードウエア資源を必要としない。また、参照信号を「フレーム内残響影響を受けた音声モデル」として取得するためのヘッドセット型マイクロフォンやハンド・マイクロフォンを使用することなく、音声認識の利用性を拡大することを可能とする。
【００６４】
これまで、本発明の図面に示した特定の実施の形態に基づいて説明してきたが、本発明は、説明した特定の実施の形態に限定されるものではなく、各機能部または機能手段は、コンピュータに対してプログラムを実行させることにより実現されるものであり、図面に示した機能ブロックごとの構成として必ずしも構成されなければならないものではない。また、本発明の音声認識装置を構成させるためのコンピュータ可読なプログラミング言語としては、アセンブラ語、ＦＯＲＴＲＡＮ、Ｃ言語、Ｃ＋＋言語、Ｊａｖａ（登録商標）などを挙げることができる。また、本発明の音声認識方法を実行させるためのコンピュータ実行可能なプログラムは、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュ・メモリ、ＣＤ−ＲＯＭ、ＤＶＤ、フレキシブル・ディスク、ハードディスクなどに格納して頒布することができる。
【００６５】
Ｄ：実施例
以下、本発明を具体的な実施例を使用して説明する。残響下での音声を作成するために、実際に部屋で測定したインパルス応答を使用した。実施例、参考例および比較例共に、残響時間としては３００ｍｓｅｃに対応するフレームの値を用いた。音源位置は、マイクからの距離を２ｍとし、正面方向からマイクロフォンに向かって話声を入力させた。信号分析条件は、サンプリング周波数１２ｋＨｚ、ウィンドウ幅３２ｍｓｅｃ、分析周期８ｍｓｅｃを使用した。音響特徴量としては、１６次元のＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔ）を用いた。
【００６６】
分析周期を８ｍｓｅｃとしたので、ウィンドウ間で重なりが生じないように、４フレーム分ずらした過去の音声信号を、残響信号の処理のために使用した。実施例、参考例および比較例ともに、使用した入力音声信号は、５５個の音韻から生成させた。また、残響予測係数αの算出は、入力した音声入力信号のうち、一単語分の音韻を使用して尤度最大を計算させ、得られた残響予測係数αを、すべての音声認識について適用した。以下に、５００単語を認識させた場合の、認識成功率の結果を示す。
【００６７】
【表１】

上記表１に示されるように、残響補正なしの場合（比較例２）では、５４．８％の結果が得られた。一方で、本発明（実施例）によれば、認識成功率は、９２．８％まで高めることができた。この結果は、滝口らの参考例（前掲：Ｔ．Ｔａｋｉｇｕｃｈｉ，ｅｔ．ａｌ． “ＨＭＭ−Ｓｅｐａｒａｔｉｏｎ−ＢａｓｅｄＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎｆｏｒａＤｉｓｔａｎｔＭｏｖｉｎｇＳｐｅａｋｅｒ，” ＩＥＥＥＴｒａｎｓ．ｏｎＳＡＰ，Ｖｏｌ．９，ｐｐ．１２７−１４０，Ｎｏ．２，２００１）により得られた、参照信号を使用する２チャネル・データを使用する場合よりも僅かに良好な結果が得られている。また比較例１としてＣＭＳ法（ケプストラム平均減算法）を使った場合では、認識成功率が８６％と、本発明の実施例よりも低い結果が得られた。すなわち、本発明によれば、１チャネル・データを使用するにもかかわらず、従来よりも良好な認識成功率を提供できることが示された。
【図面の簡単な説明】
【図１】隠れマルコフ・モデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ：ＨＭＭ）を使用した音声認識を概略的に説明した図。
【図２】音声信号に対して各状態に基づく出力確率テーブルを形成するための処理を概略的に説明した図。
【図３】本発明の音声認識方法の概略的な手順を示したフローチャート。
【図４】図３において説明した処理の概略的な処理を示した図。
【図５】本発明の音声認識装置の概略的なブロック図。
【図６】本発明において使用される適合音響モデル・データ生成部の詳細な構成を示した図。
【図７】本発明の音声認識装置により実行される音声認識方法の処理を示す概略的なフローチャート。
【図８】本発明の音声認識装置を、ノート型パーソナル・コンピュータとして構成させた実施の形態を示した図。
【図９】音声認識を行う場合に雑音を考慮する代表的な方法を示した図。
【符号の説明】
１０…音声認識装置、１２…音声信号取得部、１４…特徴量抽出部、１６…認識処理部、１８…適合音響モデル・データ生成部、２０…記憶領域、２２…モデル・データ領域変換部、２４…音響モデル・データ格納部、２６…言語モデル・データ格納部、２８…適合音響モデル・データ格納部、３０…バッファ・メモリ、３２…モデル・データ領域変換部、３４…残響予測係数算出部、３６…加算部、３８…生成部、４０…ノート型パーソナル・コンピュータ、４２…内蔵マイクロフォン、４４…ポインタ手段、４６…アプリケーション・アイコン

Claims

コンピュータを含んで構成され音声を認識するための音声認識装置であって、該音声認識装置は、
音声信号から得られる特徴量をフレームごとに格納する記憶領域と、
音響モデル・データおよび言語モデル・データをそれぞれ格納する格納部と、
その時点で処理するべき音声信号よりも前に取得された音声信号から残響音声モデル・データを生成し、残響音声モデル・データを使用して適合音響モデル・データを生成する残響適合モデル生成部と、
前記特徴量と前記適合音響モデル・データと前記言語モデル・データとを参照して音声信号の音声認識結果を与える認識処理手段と
を含む、音声認識装置。
前記適合音響モデル生成手段は、ケプストラム音響モデル・データから線形スペクトル音響モデル・データへのモデル・データ領域変換部と、
前記線形スペクトル音響モデル・データに前記残響音声モデル・データを加算して尤度最大を与える残響予測係数を生成する残響予測係数算出部と
を含む、請求項１に記載の音声認識装置。
さらに残響音声モデル・データを生成する加算部を含み、前記加算部は、前記音響モデルのケプストラム音響モデル・データおよびフレーム内伝達特性のケプストラム音響モデル・データを加算してフレーム内残響影響を受けた音声モデルを生成する、請求項２に記載の音声認識装置。
前記加算部は、生成された前記フレーム内残響影響を受けた音声モデルを前記モデル・データ領域変換部へと入力し、前記モデル・データ領域変換部に対して前記フレーム内残響影響を受けた音声モデルの線形スペクトル音響モデル・データを生成させる、請求項３に記載の音声認識装置。
前記残響予測係数算出部は、入力された音声信号から得られた少なくとも１つの音韻と、前記残響音声モデル・データとを使用して線形スペクトル音響モデル・データに基づいて残響予測係数の尤度を最大化させる、請求項４に記載の音声認識装置。
前記音声認識装置は、隠れマルコフ・モデルを使用して音声認識を実行する、請求項５に記載の音声認識装置。
コンピュータを含んで構成され音声を認識するための音声認識装置に対して音声認識を実行させるための方法であって、前記方法は、前記音声認識装置に対して、
音声信号から得られる特徴量をフレームごとに記憶領域に格納させるステップと、
その時点で処理するべき音声信号よりも前に取得された音声信号を前記格納部から読み出して残響音声モデル・データを生成し、格納部に格納された音響モデルを処理して適合音響モデル・データを生成して記憶領域に格納させるステップと、
前記特徴量と前記適合音響モデル・データと格納部に格納された言語モデル・データとを読み込んで音声信号の音声認識結果を生成させるステップと
を含む、音声認識方法。
前記適合音響モデル・データを生成するステップは、加算部により前記読み出された音声信号とフレーム内伝達特性値との合計値を算出するステップと、
前記加算部により算出された前記合計値をモデル・データ領域変換部に読み込ませ、ケプストラム音響モデル・データから線形スペクトル音響モデル・データへと変換させるステップと、を含む、請求項７に記載の音声認識方法。
加算部に対して前記線形スペクトル音響モデル・データと前記残響音声モデル・データとを読み込ませ加算して、尤度最大を与える残響予測係数を生成させるステップと
を含む、請求項８に記載の音声認識方法。
前記線形スペクトル音響モデル・データへと変換させるステップは、前記加算部に対して、前記音響モデルのケプストラム音響モデル・データおよびフレーム内伝達特性のケプストラム音響モデル・データを加算してフレーム内残響影響を受けた音声モデルを生成するステップを含む、請求項９に記載の音声認識方法。
前記残響予測係数を生成させるステップは、前記加算部により生成された前記フレーム内残響影響を受けた音声モデルの線形スペクトル音響モデル・データと前記残響音声モデル・データとの合計値が音声信号から生成され格納された少なくとも１つの音韻に対して最大の尤度を与えるように残響予測係数を決定するステップを含む、請求項１０に記載の音声認識装置。
請求項７から請求項１１のいずれか１項に記載された音声認識方法をコンピュータに対して実行させるためのコンピュータ可読なプログラム。
請求項７から請求項１１のいずれか１項に記載された音声認識方法をコンピュータに対して実行させるためのコンピュータ可読なプログラムを記憶した、コンピュータ可読な記憶媒体。