JP2006171185A

JP2006171185A - 音声認識装置および音声認識方法

Info

Publication number: JP2006171185A
Application number: JP2004361276A
Authority: JP
Inventors: Hironori Yoshida; 浩範吉田; Toshiyuki Miyazaki; 敏幸宮崎
Original assignee: Asahi Kasei Corp
Current assignee: Asahi Kasei Corp
Priority date: 2004-12-14
Filing date: 2004-12-14
Publication date: 2006-06-29

Abstract

【課題】特定話者の音声認識率の向上を確保しつつ、音声認識の際の演算量をできるだけ抑えてコストダウンを図ること。
【解決手段】この発明は、共通の１つの音響モデルの各状態の確率を、特徴パラメータを入力として、予め格納される出力確率関数と遷移確率のうち、予め組み合わせが設定されている複数組の出力確率関数値と遷移確率値を乗算し、この乗算値のうち最大のものを選択して求める（Ｓ３）。ステップＳ３の処理過程で得られる各音響モデルの各状態の確率に基づき、４種類の音響モデルのうちから最適なものを推定する（Ｓ５〜Ｓ７）。この推定後は、その推定した音響モデルを使用する。
【選択図】図２

Description

本発明は、隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ、ＨＭＭ）を用いて不特定話者の音声認識を行う音声認識装置および音声認識方法に関するものである。

一般に、不特定の話者に共通の固定語を認識する技術を不特定話者音声認識と呼んでいる。この不特定話者音声認識においては、不特定の話者に共通の固定語の特徴パラメータに関する情報があからじめＲＯＭのような記憶装置に蓄積されている。
また、音声サンプルをある特徴パラメータの系列に変換する方法としては、ケプストラム分析や線形予測分析などが知られている。さらに、不特定の話者に共通の固定語の特徴パラメータに関する情報（データ）の作成、およびその情報と入力された音声から変換された特徴パラメータの系列との比較には、隠れマルコフモデルによる方法が一般に使用されている。

隠れマルコフモデルによる不特定話者音声認識については、「音声・音情報のディジタル信号処理」（鹿野清宏、中村哲、伊勢史郎共著、（株）昭晃堂）に詳しく述べられている。
例えば、日本語の場合には、音声単位を上記の「音声・音情報のディジタル信号処理」の第２章に記載されている音韻のセットとし、各音韻が隠れマルコフモデルによりモデル化されているとする。図１１に音韻のセットのラベルの一覧を示す。この時、例えば「ほっかいどう」という単語は、図１２に示すように、話者に共通の音韻ラベルのネットワーク（固定語ラベル系列）でモデル化することができる。

そして、図１２に示す固定語ラベル系列と、これに対応する隠れマルコフモデルによる音韻モデルのデータとを用意すれば、上記の「音声・音情報のディジタル信号処理」の第４章に記載されているビタビアルゴリズムにより、当業者は不特定話者音声認識装置を容易に構成することができる。
そして、同じ音韻でも、一般に、成人の男性と女性では、声道長の違いなどによって、音響状態が異なることから、男性の音声データと女性の音声データとを用いて男性用音響用モデルと女性用音響用モデルを別々に作成し、それぞれの音響モデルによる確率を計算することで認識率を向上させる方法が知られている。

また、カーナビゲーションのような車内環境での音声認識では、アイドリング時と高速走行時の両方で高い認識率を達成するために、各雑音環境に対応する音響モデルを用意することも考えられる。
このような複数種類の音響モデルを用いた音声認識において、使用メモリ量、演算量を削減するための方法が、特許文献１に記載されている。
しかし、この特許文献１に記載の方法は、話者プロファイル（性別、年齢、音質等）や様々な雑音環境に対応した音響モデルを用意すると、音響モデルの種類数が積算的に多くなり、確率計算に要する演算量が増加するという不具合がある。

以上のように、不特定話者における音声認識において、様々な話者プロファイルや雑音環境に対応することが要求されるが、この要求に伴って音響モデルの種類が多くなってくると、確率計算に要する演算量が増加する。特に、カーナビゲーションなどに組み込まれる音声認識装置では、その演算量の増加が製作費用（コスト）を引き上げることになるという不具合がある。
このような背景の下では、複数の音響モデルを用いることにより不特定話者の認識率を向上させることが望まれる一方、音声認識の際の演算量をできるだけ抑えることが望まれる。
国際公開ＷＯ０２／００７１４６号公報

そこで、本発明の目的は、上記の点に鑑み、複数の音響モデルを用意しておくが、その使用時には使用環境に応じて最適のものだけを探して使用するようにし、不特定話者の音声認識率の向上を確保しつつ、音声認識の際の演算量をできるだけ抑えてコストダウンを図ることができる音声認識装置および音声認識方法を提供することにある。

上記の課題を解決し本発明の目的を達成するために、請求項１〜請求項６に係る発明は、以下のように構成した。
すなわち、請求項１に係る発明は、隠れマルコフモデルを用いて不特定話者の音声認識を行う音声認識装置であって、入力音声の特徴パラメータを検出する検出手段と、認識対象の複数の各単語について所定の複数種類の隠れマルコフモデルに共通の１つの音韻系列で表現した認識用辞書、および前記各隠れマルコフモデルの出力確率関数と遷移確率を予め格納する認識用データ格納手段と、前記検出手段で検出された特徴パラメータと前記各隠れマルコフモデルとを参照して、前記特徴パラメータの系列が生起する生起確率を求める認識手段とを備え、前記認識手段は、前記生起確率を求める過程で、前記各単語について前記複数種類の隠れマルコフモデルに共通の１つの音韻系列を持つようにし、かつ、前記認識手段は、前記共通の１つの音韻系列の各状態の確率を、前記検出された特徴パラメータを入力として、前記認識用データ格納手段に格納される出力確率関数と遷移確率のうち、予め組み合わせが設定されている複数組の出力確率関数値と遷移確率値を乗算し、この乗算値のうち最大のものを選択して求める第１処理と、前記第１処理の過程で得られる前記各隠れマルコフモデルの各状態の確率に基づき、前記複数種類の隠れマルコフモデルのうちから予め決められた少なくとも１つの最適な隠れマルコフモデルを推定する第２処理と、前記第２処理の終了後は、前記共通の１つの音韻系列の各状態の確率を、前記特徴パラメータを入力として、前記認識用データ格納手段に格納される出力確率関数と遷移確率のうち、推定された最適な隠れマルコフモデルの組のみの出力確率関数値と遷移確率値を乗算し、この乗算値のうち最大のものを選択して求める第３処理と、を行うようになっている。

請求項２に係る発明は、請求項１に記載の音声認識装置において、前記認識手段が行う前記第２処理は、所定の処理単位内において、前記第１処理の過程で前記複数種類の隠れマルコフモデルの複数の状態に関して得られた確率のうち、最大の確率を出力する隠れマルコフモデルを選択し、この選択された隠れマルコフモデルの選択回数を記憶する第１ステップと、前記第１ステップの処理を複数回繰り返す第２ステップと、前記第２ステップの処理が終了したときに、前記記憶されている各隠れマルコフモデルの選択回数に基づき、前記複数種類の隠れマルコフモデルのうちから最適な隠れマルコフモデルを推定する第３ステップと、からなる。
請求項３に係る発明は、請求項１または請求項２に記載の音声認識装置において、前記認識手段が行う第２処理を、必要に応じてユーザがリセットまたは自動的にリセットするリセット手段を、さらに備えている。

請求項４に係る発明は、隠れマルコフモデルを用いて不特定話者の音声認識を行う音声認識方法であって、認識対象である複数の各単語について所定の複数種類の隠れマルコフモデルに共通の１つの音韻系列で表現した認識用辞書、および前記各隠れマルコフモデルの出力確率関数と遷移確率を予め認識用データ格納手段に格納しておき、音声認識のときに、入力音声の特徴パメータを検出し、この検出された特徴パラメータと前記各隠れマルコフモデルとを参照して、前記特徴パラメータの系列が生起する生起確率を求め、前記生起確率を求める過程で、前記各単語について前記複数種類の隠れマルコフモデルに共通の１つの音韻系列を持つようにし、かつ、前記共通の１つの音韻系列の各状態の確率を、前記検出された特徴パラメータを入力として、前記認識用データ格納手段に格納される出力確率関数と遷移確率のうち、予め組み合わせが設定されている複数組の出力確率関数値と遷移確率値を乗算し、この乗算値のうち最大のものを選択して求める第１処理と、前記第１処理の過程で得られる前記各隠れマルコフモデルの各状態の確率に基づき、前記複数種類の隠れマルコフモデルのうちから予め決められた少なくとも１つの最適な隠れマルコフモデルを推定する第２処理と、前記第２処理の終了後は、前記共通の１つの隠れマルコフモデルの各状態の確率を、前記特徴パラメータを入力として、前記認識用データ格納手段に格納される出力確率関数と遷移確率のうち、推定された最適な隠れマルコフモデルの組のみの出力確率関数値と遷移確率値を乗算し、この乗算値のうち最大のものを選択して求める第３処理と、を含んでいる。

請求項５に係る発明は、請求項４に記載の音声認識方法において、前記第２処理は、所定の処理単位内において、前記第１処理の過程で前記複数種類の隠れマルコフモデルの複数の状態に関して得られた確率のうち、最大の確率を出力する隠れマルコフモデルを選択し、この選択された隠れマルコフモデルの選択回数を記憶する第１ステップと、前記第１ステップの処理を複数回繰り返す第２ステップと、前記第２ステップの処理が終了したときに、前記記憶されている各隠れマルコフモデルの選択回数に基づき、前記複数種類の隠れマルコフモデルのうちから最適な隠れマルコフモデルを推定する第３ステップと、からなる。
請求項６に係る発明は、請求項４または請求項５に記載の音声認識方法において、前記第２処理は、必要に応じてユーザがリセットまたは自動的にリセットできるようにしている。

本発明では、複数の音響モデルを予め用意しておくが、その使用時には使用環境に応じて最適なものだけを探して使用するようにした。このため、本発明によれば、不特定話者の音声認識率の向上を確保しつつ、音声認識の際の演算量をできるだけ抑えてコストダウンを図ることができる。

以下、図面を参照して本発明の実施形態について説明する。
（第１実施形態）
図１は、本発明の音声認識装置の第１実施形態の構成例を示すブロック図である。
この第１実施形態は、図１に示すように、マイクロフォン１と、Ａ／Ｄ変換器２と、特徴量検出部３と、指示部４と、認識用データ格納部５と、音声認識部６と、出力部７と、を少なくとも備えている。

マイクロフォン１は、発声音声をその音声に対応するアナログの電気信号に変換するものである。Ａ／Ｄ変換器２は、そのアナログ信号をデジタル信号に変換するものである。特徴量検出部３は、そのデジタル信号に基づいて特徴パラメタータを求め、この求めた特徴パラメータを時系列に変換するものである。
指示部４は、音声認識部６に対してユーザ（使用者）が各種の入力指示を行うものであり、後述のような特定の処理について、ユーザがその特定の処理をリセットするためのリセットボタン４１を備えている。

認識用データ格納部５は、認識対象の複数の各単語について所定の複数種類の隠れマルコフモデルに共通の１つの音韻系列で表現した認識用辞書を予め格納しておくとともに、その各隠れマルコフモデルの出力確率関数と遷移確率を予め格納しておくものである。この認識用データ格納部５は、ＲＯＭ（リード・オンリ・メモリ）などのメモリからなる。
音声認識部６は、後述のような手順により、マイクロフォン１より発声された不特定話者の音声によりその音声の認識を行うものであり、その認識手順の詳細は後述する。この音声認識部６は、ＲＯＭおよびＲＡＭ（ランダム・アクセス・メモリ）を含んでいる。

ＲＯＭには、後述の音声認識の手順が予め記憶されている。また、ＲＡＭは、後述のように音声認識を行うときに作業用メモリとして使用し、例えば、音声認識の過程で必要なデータとその結果のデータを一時的に格納しておく。
出力部７は、音声認識部６の認識結果などを出力するものであり、例えば表示装置などからなる。

次に、このような構成からなる第１実施形態に係る音声認識装置の音声認識動作について、図面を参照して説明する。
この実施形態では、音声認識動作に先立って、不特定話者の音声認識の対象となる「ほっかいどう」、「あおもり」、「あきた」…などの各単語（固定語）に対応する隠れマルコフモデルを、４種類あからじめ作成しておき、また、各単語について４種類の隠れマルコフモデルに共通の１つの音韻系列で認識用辞書を作成して認識用データ格納部５内に予め格納しておく。さらに、その各隠れマルコフモデルの各状態の複数組の遷移確率と出力確率関数を予め設定しておき、これらの確率データを認識用データとして認識用データ格納部５に予め格納しておく。

ここで、上記の４種類の隠れマルコフモデルは、例えば、車両のアイドリング時の男性の隠れマルコフモデル（以下、第１音響モデルという）、車両のアイドリング時の女性の隠れマルコフモデル（以下、第２音響モデルという）、車両の高速走行時の男性の隠れマルコフモデル（以下、第３音響モデルという）、および車両の高速走行時の女性の隠れマルコフモデル（以下、第４音響モデルという）からなる。

次に、音声認識動作の手順の概要について、図２（Ａ）（Ｂ）に示すフローチャートなどを参照して説明する。
いま、ある話者によりマイクロフォン１により音声「ほっかいどう」が入力されたものとする（ステップＳ１）。すると、その音声はマイクロフォン１により、アナログの電気信号に変換されたのち、Ａ／Ｄ変換器２でデジタル信号に変換される。特徴量検出部３では、そのデジタル信号に基づいて特徴パラメタータが求められ、これが時系列の特徴パラメータに変換される（ステップＳ２）。

音声認識部６は、上記のように変換された時系列の特徴パラメータ（音響パラメータ）と上記の４種類の隠れマルコフモデルとを参照して、その特徴パラメータの系列が生起する生起確率を求めるが、その生起確率を求める過程で、各単語について４種類の隠れマルコフモデルに共通の１つの音韻系列を持つようにしている（図３（Ａ）参照）。
また、音声認識部６は、その変換された特徴パラメータ、および認識用データ格納部５に格納される４種類の隠れマルコフモデルの遷移確率と出力確率関数を参照し、その特徴パラメータの系列が生起する確率を後述するビタビアルゴリズムにより求めていく。

図３（Ａ）は、４種類の隠れマルコフモデルに共用の音韻系列を示し、図３（Ｂ）はそれに対応する各音韻の隠れマルコフモデルの状態系列を示す。
図３（Ｂ）において、Ａ０（Ｉ、Ｊ）は第１音響モデルの状態Ｉから状態Ｊへの遷移確率を示し、Ａ１（Ｉ、Ｊ）は第２音響モデルの状態Ｉから状態Ｊへの遷移確率を示し、Ａ２（Ｉ、Ｊ）は第３音響モデルの状態Ｉから状態Ｊへの遷移確率を示し、Ａ３（Ｉ、Ｊ）は第４音響モデルの状態Ｉから状態Ｊへの遷移確率を示す。

また、Ｂ０（Ｉ、ｘ）は第１音響モデルの音響パラメータｘが得られたときの状態Ｉにおける出力確率を示し、Ｂ１（Ｉ、ｘ）は第２音響モデルの音響パラメータｘが得られたときの状態Ｉにおける出力確率を示し、Ｂ２（Ｉ、ｘ）は第３音響モデルの音響パラメータｘが得られたときの状態Ｉにおける出力確率を示し、Ｂ３（Ｉ、ｘ）は第４音響モデルの音響パラメータｘが得られたときの状態Ｉにおける出力確率を示す。

さらに、図中のｐＩは４種類の隠れマルコフモデルに共用の音韻系列内の各音韻の状態Ｉにおける確率を示し、ビタビアルゴリズムによる次の（１）式に基づき更新される。
ｐＩ＝ｍａｘ（ｐ（Ｉ−１）×ＰｅｎｔｅｒＩ、ｐＩ×ＰｓｅｌｆＩ）…（１）
ここで、確率ＰｓｅｌｆＩ、確率ＰｅｎｔｅｒＩは、次の（２）式と（３）式とで表される。

ＰｓｅｌｆＩ＝ｍａｘ（Ａ０（Ｉ、Ｉ）×Ｂ０（Ｉ、Ｘ）、Ａ１（Ｉ、Ｉ）×Ｂ１（Ｉ、Ｘ）、Ａ２（Ｉ、Ｉ）×Ｂ２（Ｉ、Ｘ）、Ａ３（Ｉ、Ｉ）×Ｂ３（Ｉ、Ｘ））・・・（２）
ＰｅｎｔｅｒＩ＝ｍａｘ（Ａ０（Ｉ−１、Ｉ）×Ｂ０（Ｉ、Ｘ）、Ａ１（Ｉ−１、Ｉ）×Ｂ１（Ｉ、Ｘ）、Ａ２（Ｉ−１、Ｉ）×Ｂ２（Ｉ、Ｘ）、Ａ３（Ｉ−１、Ｉ）×Ｂ３（Ｉ、Ｘ））・・・（３）

（２）式、（３）式の意味は、以下の通りである。
事前に現在の発話環境がわかっている場合には、その発話環境に対応する音響モデルだけを使って生起確率を計算すれば十分である。しかし、いつも事前に現在の発話環境がわかるわけではない。その場合、とりあえず、考えられる全パターンの音響モデルで生起確率を計算しておき、そのうちの最大値を（１）式を用いることで、現在の発話環境に動的に適応できるものと考えられる。

なぜならば、一般に、隠れマルコフモデルでは、学習条件に近い環境ほど、より大きな確率値を出力し、逆に、学習条件から離れた環境ほど、より小さい確率値を出力する傾向があるためである。
音声認識部６では、４種類の隠れマルコフモデルに共通な１つの固定語（単語）、例えば「ほっかいどう」、「あおもり」・・・に対して共通の１つの音韻系列を持つようにする。

そして、各単語について共通の１つの音韻系列の各状態の確率を求めるが、その各状態の確率を求める際には、（２）式および（３）式を用いて、与えられた特徴パラメータを引数（入力）として、第１〜第４の各音響モデルに予め設定されている出力確率関数値と遷移確率値とを乗算し、その求めた４つの確率（乗算値）のうち最大の確率を選択する（ステップＳ３）。次に、その選択された最大の確率により（１）式を用いてｐＩを更新する（ステップＳ４）。

一方、ステップＳ２で発話音声に対応する特徴パラメータが入力されると、その特徴パラメータは予め設定されているフレーム単位（処理単位）で以下の処理が行われる。
すなわち、フレーム内には、ステップＳ３の処理において第１〜第４の各音響モデルについて、複数（例えば３つ）の状態Ｉに関して確率ＰｓｅｌｆＩ、ＰｅｎｔｅｒＩがそれぞれ得られ、その得られた確率のうち、最大となる確率をＰｍａｘとする。そして、第１〜第４の音響モデルのうち、最大確率Ｐｍａｘを出力した音響モデルを選択し、この選択された音響モデルの選択回数（最大確率出力フレーム数）をカウント（記憶）する（ステップＳ５）。

そして、このような最大確率Ｐｍａｘを出力する音響モデルを選択する処理を、予め設定されているＮフレームについて繰り返す（ステップＳ６）。ここで、フレーム数が例えば１０であれば、図４に示すように、各フレームごとに第１〜第４の音響モデルのうち、最大確率Ｐｍａｘを出力した音響モデルが選択され、この選択された音響モデルを黒丸で示す。

次に、上記の処理がＮフレームについて終了すると、その得られた音響モデル毎の最大確率出力フレーム数に基づき、その第１〜第４の音響モデルのうちから少なくとも１つの最適な音響モデルを推定する（ステップＳ７）。
このように最適な音響モデルが推定されると、以後は図２（Ｂ）に示す処理に移行する。すなわち、上記のように入力された特徴パラメータと、その推定された音響モデルのみを参照して生起確率を求め、さらにステップＳ３，Ｓ４に相当する処理により確率ＰｓｅｌｆＩ、ＰｅｎｔｅｒＩを計算する。

例えば、第１音響モデルと第２音響モデルが最適な音響モデルとして推定された場合には、確率ＰｓｅｌｆＩ、ＰｅｎｔｅｒＩは次の（４）（５）式により計算する（ステップＳ８）。
ＰｓｅｌｆＩ＝ｍａｘ（Ａ０（Ｉ、Ｉ）×Ｂ０（Ｉ、Ｘ）、Ａ１（Ｉ、Ｉ）×Ｂ１（Ｉ、Ｘ））・・・（４）
ＰｅｎｔｅｒＩ＝ｍａｘ（Ａ０（Ｉ−１、Ｉ）×Ｂ０（Ｉ、Ｘ）、Ａ１（Ｉ−１、Ｉ）×Ｂ１（Ｉ、Ｘ））・・・（５）

次に、この求めたＰｓｅｌｆＩ、ＰｅｎｔｅｒＩにより、（１）式を用いてｐＩを更新する（ステップＳ９）。さらに、ステップＳ１０では、各フレームの認識処理が終了したか否かが判定される。そして、その認識処理が終了すると、その後、上記のように求めた生起確率に基づいて、入力音声の認識結果を求めて出力する（ステップＳ１１）。
ここで、図４によれば、第１〜第４の音響モデルの最大確率出力フレーム数は、図示の通りとなる。

このように得られる最大確率出力フレーム数は、現在の音声認識環境に対するその音響モデルの重要度を示す指標と考えられる。その理由は以下の通りである。
一般に、隠れマルコフモデルは学習条件に近い環境において大きな確率値を出力し、逆に、学習条件から離れた環境では、小さい確率値を出力する傾向にある。そのため、現在の音声認識環境に近い学習条件で作成された音響モデルは、各フレームにおける最大確率を出力する可能性が高くなり、上記の最大確率出力フレーム数が大きくなりやすい。

つまり、上記のフレーム数が大きな音響モデルは、それが作成されたときの学習条件と現在の音声認識環境が近い可能性が高く、その重要度が大きいと考えられる。逆に、上記のフレーム数が小さい音響モデルは、それが作成されたときの学習条件と現在の音声認識環境が離れている可能性が高く、その重要度が低いと考えられる。
そこで、ステップＳ７において、第１〜第４の音響モデルのうちから最適な音響モデルを推定する際の基本的な考え方としては、最大確率出力フレーム数が大きな音響モデルは必要とみなし、逆に、最大確率出力フレーム数が小さい音響モデルは不必要と見なすことにする。

図４は、車両のアイドリング時に、女性が発話した場合の例である。通常、アイドリング時に女性が発話した場合には、その音声認識条件に近い学習条件で作成された第２音響モデルの確率値が、他の音響モデルの確率値と比べて大きくなりやすい。そのため、第２音響モデル、すなわち、車両のアイドリング時の女性の隠れマルコフモデルが、ほとんどのフレームにおいて最大確率を出力することになる。第１〜第４の音響モデルの最大確率出力フレーム数は、「３」、「６」、「０」、「１」のようになる。
ここで、例えば、最大確率出力フレーム数のうち、上位の２位までを最適な音響モデルと推定した場合には、第１音響モデルと第２音響モデルとが選ばれ、以後の確率計算では、その２つの音響モデルだけを用いて確率計算を行う。

なお、上記の推定は、現在の認識環境に応じたものであることに注意する必要がある。すなわち、車両のアイドリング時に女性が発話した場合には、図４に示すように第１音響モデルの最大確率出力フレーム数が大きくなると考えられる。しかし、例えば、車両のアイドリング時に男性が発話した場合には、第２音響モデルの最大確率出力フレーム数が大きくなると考えられる。

以上説明したように、この第１実施形態によれば、４種類の音響モデルを予め用意しておき、発話入力の開始から所定期間は、その４種類の音響モデルを使用して音声認識処理を進めると同時に、使用環境に応じて最適な音響モデルを推定するための処理を進め、その推定の終了後は、推定された最適な音響モデルを使用して音声認識処理を行うようにした。

このため、第１実施形態によれば、不特定話者の音声認識率の向上を確保しつつ、音声認識の際の演算量をできるだけ抑えてコストダウンを図ることができる。
ここで、第１実施形態において、使用環境が同じであれば、次回の音声認識では図２（Ａ）に示すステップＳ１〜Ｓ７の処理を省略し、前回の音声認識で使用された最適な音響モデルを使用して音声認識を行うのが好ましい。

しかし、その後に、使用環境が変わった場合には、次回の音声認識ではそれまでの最適な音響モデルがリセットされて、新たな使用環境に応じた最適な音響モデルが推定されるのが望ましい。そのために、指示部４にリセットボタン４１を設けておけば、そのリセットを必要に応じて行うことができる。
なお、上記のリセットは、一定の音声認識が終了するたびに自動的に行われるようにしても良い。

（第２実施形態）
この第２実施形態は、第１実施形態の処理を基本にした具体的な適用例であり、図５を参照して説明する。
この第２実施形態に係る適用例は、１回の発話内に適用した場合であり、例えば、カーナビゲーションなどで住所を音声により簡単に入力する目的で使用される音声認識に適用した場合である。
いま、例えば、１回の発話で、「神奈川県、厚木市」と発話されると、その発話に応じたマイクロフォンの出力は、図５に示すような波形となる。そこで、その発話が開始されて、最大確率出力フレーム数の検出が可能な時刻ｔ１〜時刻ｔ２の期間（５０フレームに相当）に、第１〜第４の音響モデルの各最大確率出力フレーム数をそれぞれカウントして記録していった。

そして、５０フレームを経過した時刻ｔ２の時点で、その各音響モデル毎に得られた最大確率出力フレーム数の各カウント値に基づき、最適な音響モデルの推定を行った。その後、時刻ｔ２〜ｔ３の期間では、その推定された最適な音響モデルを使用して認識処理をを行うようにした。
なお、最適な音響モデルの推定方法としては、最大確率出力フレーム数が上位２位までの音響モデルを必要とみなした。

このような方法により、実際に認識率と演算時間とを測定した結果を、図６および図７に示す。図６は車両のアイドリング時に、女性の１回の発話内で適用した場合であり、図７は車両の高速走行時に、女性の１回の発話内で適用した場合である。この測定においては、ある女性が約２８０種類の住所を発声した音声データを用いた。
また、演算時間は、パーソナルコンピュータ上で、上記の音声データをファイル形式で保存しておき、そのファイルに対して認識処理を行ったときの開始から終了まで要した時間である。

図６および図７では、第１〜第４の音響モデルを全て使用する場合（従来方法）と比較するために、全ての音響モデルを使用した測定も同じ条件の下で行い、その測定結果も合わせて示している。
この測定結果によれば、本例のように最適な音響モデルを使用すると、アイドリング時、高速走行時ともに、全ての音響モデルを使用した場合に比べて、音声認識率は殆ど変わらず、演算時間が減少することがわかる。

（第３実施形態）
この第３実施形態は、第１実施形態の処理を基本にした他の具体的な適用例である。この適用例は、複数の発話にまたがってその処理を適用する場合であり、図８を参照して説明する。
音声認識装置が、カーナビゲーション装置などに組み込まれて使用される組み込み装置として使用される場合には、操作コマンドを認識語彙の対象とする音声認識を行い、その後に、認識された操作コマンドに応じた詳細情報を音声で入力するということが多い。
このように認識対象語彙を、各場面ごとに分割すると、１回の発話に対する語彙数を減らすことが可能となり、その結果、認識率や認識のためのデータの演算量の面で有利となる。

図８は、以上の内容を関して、カーナビゲーション装置に適用した具体例を説明したものであり、以下のような処理の流れとなっている。
まず、カーナビゲーション装置からユーザに対して、「コマンドをお話ください」という指示が表示画面に表示され、ここで、ユーザが「駅名で探す」と発話したものとする。この結果、「駅名で探す」が認識されると、駅名を認識対象語彙とする認識モードに遷移する。その後、ユーザが「本厚木駅」と発話して「本厚木駅」が認識されと、本厚木駅周辺の地図が表示画面に表示される。

このように複数回の発話を連続的に行うことで、目的の操作を達成するアプリケーションにおいて、この実施形態を適用すると効果的である。なぜなら、上記の一連の動作において、全ての発話は同一人物による可能性が高く、また雑音環境が急に変化することは殆どないと考えられるからである。
さらに、上記の例において、通常、操作コマンド系の認識対象語彙数は、数百単語程度と比較的語彙数が少ない。そのため、操作コマンドの認識時に全ての音響モデルを使用して認識処理を行っても、それほど演算量が問題となることはない。

そこで、この例では、以下のような処理を行うようにした（図８を参照）。
すなわち、操作コマンドの認識時には、全ての音響モデルを使用して認識処理を行い、各音響モデル毎の最大確率出力フレーム数をそれぞれ記録しておく（図４を参照）。一方、その後の駅名の認識では、全国の駅名を合わせると数千単語以上となり、認識対象語彙数が増大するため、全ての音響モデルを使用することによる演算量が問題になると考えられる。

そこで、駅名の認識時には、操作コマンドの認識時に得られた最大確率出力フレーム数に基づき、最適な音響モデルの推定を行い、その推定で得られた最適な音響モデルのみを用いて音声認識処理を行うようにした。
これにより、語彙数が多い駅名の認識を全ての音響モデルを使用して行う場合と比較して少ない演算量で達成することが可能となる。

実際に、最初に操作コマンドの認識を行い、そこで推定された最適な音響モデルを用いて、駅名の認識（語彙数：約４６００語）を行った結果を、図９および図１０に示す。
この場合にも、上記の例と同様に、第１〜第４の音響モデルを用意した。また、最適コンポーネントの推定方法としては、最大確率出力フレーム数が上位２位までの音響モデルを必要なものとみなすようにした。この測定においては、ある男性が約５０種類の駅名を発声した音声データを用いた。また、演算時間は、パーソナルコンピュータ上で上記の音声データをファイル形式で保存しておき、そのファイルに対して認識処理を行ったときの開始から終了までに要した時間である。

図９および図１０では、第１〜第４の音響モデルを全て使用する場合（従来方法）と比較するために、全ての音響モデルを使用した測定も同じ条件の下で行い、その測定結果も合わせて示している。
この測定結果によれば、本例のように最適な音響モデルを使用すると、アイドリング時、高速走行時ともに、全ての音響モデルを使用した場合に比べて、音声認識率は殆ど変わらず、演算時間が減少することがわかる。

本発明は、カーナビゲーション装置などに組み込み用の音声認識装置として適用した場合に有用である。

本発明の第１実施形態の構成例を示すブロック図である。第１実施形態の音声認識処理の手順の一例を示すフローチャートである。第１実施形態によるビタビアルゴリズムを説明する説明図である。音響モデル毎の最大確率出力フレーム数の一例を示す図である。本発明の第２実施形態の認識処理例を説明する説明図である。第２実施形態の効果を説明するための測定結果例である。第２実施形態の効果を説明するための他の測定結果例である。本発明の第３実施形態の認識処理例を説明する説明図である。第３実施形態の効果を説明するための測定結果例である。第３実施形態の効果を説明するための他の測定結果例である。音韻のセットのラベルの一覧を示す図である。話者に共通の音韻ラベルのネットワーク（音韻ラベル系列）の一例を示す図である。

符号の説明

１マイクロフォン
２Ａ／Ｄ変換器
３特徴量検出部
４指示部
５認識用データ格納部
６音声認識部
７出力部

Claims

隠れマルコフモデルを用いて不特定話者の音声認識を行う音声認識装置であって、
入力音声の特徴パラメータを検出する検出手段と、
認識対象の複数の各単語について所定の複数種類の隠れマルコフモデルに共通の１つの音韻系列で表現した認識用辞書、および前記各隠れマルコフモデルの出力確率関数と遷移確率を予め格納する認識用データ格納手段と、
前記検出手段で検出された特徴パラメータと前記各隠れマルコフモデルとを参照して、前記特徴パラメータの系列が生起する生起確率を求める認識手段とを備え、
前記認識手段は、前記生起確率を求める過程で、前記各単語について前記複数種類の隠れマルコフモデルに共通の１つの音韻系列を持つようにし、
かつ、前記認識手段は、前記共通の１つの音韻系列の各状態の確率を、前記検出された特徴パラメータを入力として、前記認識用データ格納手段に格納される出力確率関数と遷移確率のうち、予め組み合わせが設定されている複数組の出力確率関数値と遷移確率値を乗算し、この乗算値のうち最大のものを選択して求める第１処理と、
前記第１処理の過程で得られる前記各隠れマルコフモデルの各状態の確率に基づき、前記複数種類の隠れマルコフモデルのうちから予め決められた少なくとも１つの最適な隠れマルコフモデルを推定する第２処理と、
前記第２処理の終了後は、前記共通の１つの音韻系列の各状態の確率を、前記特徴パラメータを入力として、前記認識用データ格納手段に格納される出力確率関数と遷移確率のうち、推定された最適な隠れマルコフモデルの組のみの出力確率関数値と遷移確率値を乗算し、この乗算値のうち最大のものを選択して求める第３処理と、
を行うようになっていることを特徴とする音声認識装置。
前記認識手段が行う前記第２処理は、
所定の処理単位内において、前記第１処理の過程で前記複数種類の隠れマルコフモデルの複数の状態に関して得られた確率のうち、最大の確率を出力する隠れマルコフモデルを選択し、この選択された隠れマルコフモデルの選択回数を記憶する第１ステップと、
前記第１ステップの処理を複数回繰り返す第２ステップと、
前記第２ステップの処理が終了したときに、前記記憶されている各隠れマルコフモデルの選択回数に基づき、前記複数種類の隠れマルコフモデルのうちから最適な隠れマルコフモデルを推定する第３ステップと、
からなることを特徴とする請求項１に記載の音声認識装置。
前記認識手段が行う第２処理を、必要に応じてユーザがリセットまたは自動的にリセットするリセット手段を、さらに備えていることを特徴とする請求項１または請求項２に記載の音声認識装置。
隠れマルコフモデルを用いて不特定話者の音声認識を行う音声認識方法であって、
認識対象である複数の各単語について所定の複数種類の隠れマルコフモデルに共通の１つの音韻系列で表現した認識用辞書、および前記各隠れマルコフモデルの出力確率関数と遷移確率を予め認識用データ格納手段に格納しておき、
音声認識のときに、入力音声の特徴パメータを検出し、この検出された特徴パラメータと前記各隠れマルコフモデルとを参照して、前記特徴パラメータの系列が生起する生起確率を求め、
前記生起確率を求める過程で、前記各単語について前記複数種類の隠れマルコフモデルに共通の１つの音韻系列を持つようにし、
かつ、前記共通の１つの音韻系列の各状態の確率を、前記検出された特徴パラメータを入力として、前記認識用データ格納手段に格納される出力確率関数と遷移確率のうち、予め組み合わせが設定されている複数組の出力確率関数値と遷移確率値を乗算し、この乗算値のうち最大のものを選択して求める第１処理と、
前記第１処理の過程で得られる前記各隠れマルコフモデルの各状態の確率に基づき、前記複数種類の隠れマルコフモデルのうちから予め決められた少なくとも１つの最適な隠れマルコフモデルを推定する第２処理と、
前記第２処理の終了後は、前記共通の１つの隠れマルコフモデルの各状態の確率を、前記特徴パラメータを入力として、前記認識用データ格納手段に格納される出力確率関数と遷移確率のうち、推定された最適な隠れマルコフモデルの組のみの出力確率関数値と遷移確率値を乗算し、この乗算値のうち最大のものを選択して求める第３処理と、
を含むことを特徴とする音声認識方法。
前記第２処理は、
所定の処理単位内において、前記第１処理の過程で前記複数種類の隠れマルコフモデルの複数の状態に関して得られた確率のうち、最大の確率を出力する隠れマルコフモデルを選択し、この選択された隠れマルコフモデルの選択回数を記憶する第１ステップと、
前記第１ステップの処理を複数回繰り返す第２ステップと、
前記第２ステップの処理が終了したときに、前記記憶されている各隠れマルコフモデルの選択回数に基づき、前記複数種類の隠れマルコフモデルのうちから最適な隠れマルコフモデルを推定する第３ステップと、
からなることを特徴とする請求項４に記載の音声認識方法。
前記第２処理は、必要に応じてユーザがリセットまたは自動的にリセットできるようにしたことを特徴とする請求項４または請求項５に記載の音声認識方法。