JP2006154632A

JP2006154632A - 音声認識装置およびそれを用いた音声認識方法

Info

Publication number: JP2006154632A
Application number: JP2004348552A
Authority: JP
Inventors: Toshihiko Abe; 敏彦阿部; Masahiko Tateishi; 雅彦立石
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2004-12-01
Filing date: 2004-12-01
Publication date: 2006-06-15

Abstract

【課題】複数の単語の組み合わせである複合語を認識する。
【解決手段】音声データから音声認識に有効な特徴量を取り出して特徴量の音響尤度を計算し、認識辞書から音響尤度が高い単語を候補単語として任意の数だけ選択する。次に、候補単語が複合語であるか否かを判定し、候補単語が複合語である場合、韻律自動生成部３７において候補単語の各韻律パターンの変化を推定して複合語の韻律パターンを推定する。生成された候補単語の韻律パターンに基づき、認識辞書３５に格納されている韻律クラスタＨＭＭを並べて、候補単語の韻律クラスタＨＭＭ列を生成し、韻律クラスタＨＭＭ列として表された候補単語の韻律尤度を計算する。この後、候補単語の音響尤度および韻律尤度の積を計算することにより、すべての候補単語の結合尤度を求め、もっとも高い結合尤度をもつ候補単語を認識結果とする。
【選択図】図５

Description

本発明は、言葉を構成する各構成単語のアクセントを推定することにより、複合語の認識を可能にする音声認識装置およびそれを用いた音声認識方法に関する。

従来より、人の発する言葉を認識する音声認識装置が知られている。日常使用されている言葉においては、音素列が類似している単語（例えば、「箸」と「橋」）が多いため、音声認識装置ではそのような音素列が類似している単語を全く異なる言葉に間違えやすい。言葉にはアクセント（韻律）があり、そのアクセントが言葉によって異なるため、人が聞くと容易に区別できても、音声認識装置では音素列が類似している言葉を区別することが困難であった。

そこで、音声の基本周波数に関する情報を用いて音声認識性能を向上させる方法が提案されている。一つは、音声信号の音響特徴量および基本周波数（音声の高低を示す特徴量）を求め、マルチストリームとして用いて単語音声認識を行なう方法である（例えば、非特許文献１参照）。もう一つは、音声信号の音響特徴量と基本周波数の微分係数を求め、マルチストリームとして用いて単語音声認識を行なう方法である（例えば、非特許文献２参照）。この非特許文献２に示される方法では、基本周波数の微分係数は時間−ケプストラム平面のハフ変換により計算するようになっている。

これら２つの方法は、図１３に示す共通の構成で実現される。以下、図１３を参照して、両者の音声認識方法について述べる。図１３は、従来の音声認識装置のブロック構成図である。図１３に示されるように、従来の音声認識装置は、マイク９０と、音響分析部９１と、音響尤度計算部９２と、韻律分析部９３と、韻律尤度計算部９４と、判定部９５と、を備えて構成されている。また、図１３に示される音声認識装置には、図示しない単語辞書（学習データを含む）が備えられている。

マイク９０は、人の音声を入力する周知の音声入力装置である。マイク９０に入力された音声信号は、音響分析部９１および韻律分析部９３に出力される。音響分析部９１は、音声（言葉）から認識に有効な特徴量を取り出すものである。具体的に、音響分析部９１は言葉の音韻（例えば「橋」ならば「は」＋「し」が音韻となる）を検出し、この音韻を特徴量として音響尤度計算部９２に出力する。

音響尤度計算部９２は、音響分析部９１から入力される特徴量に基づき、音声入力された単語としての確からしさである音響尤度（確率）を単語辞書に基づき計算するものである。音響尤度計算部９２は、例えば単語辞書に登録されている言葉の中から音響尤度が高い言葉の候補をいくつかピックアップする。そして、音響尤度計算部９２にて得られた音響尤度およびそれに対応する単語が判定部９５に出力される。

韻律分析部９３は、音声の基本周波数を分析するものである。基本周波数とは、上述のように音声の高低を表す特徴量であり、韻律の高低パターンとして得られる。韻律分析部９３にて得られた韻律のパターンは、韻律尤度計算部９４に出力される。

韻律尤度計算部９４は、韻律分析部９３から入力される韻律のパターンに基づき、韻律のパターンの確からしさである韻律尤度（確率）を単語辞書に基づき求めるものである。すなわち、韻律尤度計算部９４は、単語辞書の中から韻律尤度の高い言葉の候補をいくつかピックアップする。そして、韻律尤度計算部９４にて得られた韻律尤度は判定部９５に出力される。

判定部９５は、音響尤度計算部９２および韻律尤度計算部９４からそれぞれ入力される音響尤度および韻律尤度の結合尤度を求めるものである。結合尤度は、音響尤度および韻律尤度の積として得られ、この結合尤度の値が高いほど、より確からしい言葉であると言える。

したがって、判定部９５は、音響尤度計算部９２および韻律尤度計算部９４にてそれぞれ得られた言葉の候補の結合尤度をそれぞれ求める。この後、もっとも結合尤度が高い言葉が認識結果として判定部９５から出力される。以上のようにして、音声認識装置においてマイク９０に音声入力された言葉が認識されるようになっている。
高橋、松永、嵯峨山、「ピッチパタン情報を考慮した単語音声認識」、電子情報通信学会技術報告、１９９０年６月２８日、ＳＰ９０−１７、ｐ．６５−７２岩野、関、古井、「雑音に頑健な音声認識のための韻律情報の利用」、情報処理学会研究報告、２００３年５月２７日、Ｖｏｌ．２００３、Ｎｏ．５８、ｐ．５５−６０

しかしながら、上記非特許文献１に記載の音声認識装置では、音声認識装置として認識可能な単語は単語辞書に含まれる単語のみである。したがって、複数の構成単語の組み合わせである複合語を認識することができなかった。これは、複数の単語を組み合わせると、各単語が持つアクセントが複合語に応じて変化してしまうため、複合語を認識することが困難になるためである。

すなわち、入力される言葉が複合語である場合、上記韻律尤度計算部９４は、複合語を各構成単語の組み合わせとすると共に、各構成単語の韻律パターンの変化を推定する機能を有していない。したがって、複合語が入力されると、その複合語に対する認識ができない場合や、入力された複合語と全く異なる認識結果を出力する場合が生じてしまう。

非特許文献２の音声認識装置では、非特許文献１における音声認識装置と同様に、韻律の自動推定を行う手段がない。

また、非特許文献１、２の音声認識装置では、単語辞書に含まれているすべての単語の中から候補となる単語を検索するため、音声認識に時間がかかっていた。

さらに、上記非特許文献１、２の両装置は、いずれもユーザが新たに単語登録する場合を想定した構成になっておらず、単語登録を可能にする手段が提供されていない。これは、装置に記憶されていない単語が装置に登録されると、それに対応する韻律推定手段がなかったためである。

本発明は、上記点に鑑み、音声認識装置およびそれを用いた音声認識方法において、複数の単語の組み合わせである複合語を認識することを第１の目的とし、構成単語を高速認識することを第２の目的とし、単語登録を可能にすることを第３の目的とする。

上記目的を達成するため、請求項１に記載の発明では、各単語に韻律クラスタ名が割り当てられた認識辞書を用いる。そして、音声データとして複合語が入力されると、その複合語の韻律パターンを調べて韻律尤度を求め、一方で音韻に基づく音響尤度を求め、韻律尤度および音響尤度の積を計算することで結合尤度を求め、その値がもっとも高い単語を音声認識結果とすることを特徴としている。

このように、候補単語の音響尤度および韻律尤度をそれぞれ求め、それらの積を計算することにより結合尤度をそれぞれ得る。そして、もっとも高い結合尤度を有する候補単語を認識結果として出力する。このようにして、音声認識を行うことができる。音声認識の際、入力される音声データが複合語の場合であっても、その複合語を構成する各単語の韻律に基づき韻律尤度を求めているので、同じ音韻をもつ複合語（例えば「橋の科学館」と「箸の科学館」）であっても確実にその違いを認識することができる。

複合語を認識する際、複合語の韻律パターンを複数の単語の韻律パターンで構成する。このとき、各候補単語の韻律パターンにおいて韻律パターンの変化を推定する。この後、推定した韻律パターンに基づき韻律尤度を計算している。このように、各韻律パターンの変化を推定することで、複合語を複数の単語のパターンにて構成することができると共に、構成した韻律パターンから韻律尤度を求めることができる。この結果、複合語を認識することができるのである。

請求項２に記載の発明では、各単語に韻律クラスタ名が割り当てられた認識辞書を用いて、音声データから韻律パターンを抽出し、認識辞書の中から該当する韻律パターンに属する単語の韻律尤度を計算する。そして、一方で音響尤度を求めておき、各単語の韻律尤度と音響尤度とを掛け合わせて結合尤度を求め、もっとも高い結合尤度の単語を認識結果とすることを特徴としている。

このように、音声データから韻律パターンを調べることで、多数の単語が記憶されている認識辞書の中から、その韻律パターンに属する単語のみを検索する。これにより、同じ韻律パターンに属する単語の中から認識すべき単語を見つければよいため、音声認識にかかる計算量を削減でき、ひいては高速音声認識が可能になる。

請求項３に記載の発明では、認識辞書に対して、単語登録手段（４２）を用いて認識辞書に登録されていない単語を新たに登録することを特徴としている。こうして、認識辞書に含まれていない新しい単語を認識辞書に登録することができる。

請求項４に記載の発明では、認識候補再評価手段は、結合尤度の高い順に複数個の認識結果を画面上に提示するようになっていることを特徴としている。

これにより、音声認識装置が、どのような候補単語を認識しようとしているのかを知ることができる。

請求項５に記載の発明では、学習用音声データベース（１０）に含まれている単語の韻律パターンを抽出すると共に、同じ韻律パターン同士で韻律クラスタを生成する。そして、単語辞書に含まれている単語がどの韻律クラスタに属するのかを調べ、すべての単語に韻律クラスタ名を割り当てることを特徴としている。

このように、単語辞書に含まれる各単語に対して、同じ韻律パターンであるものに、同じ韻律クラスタ名を割り当てる。これにより、単語辞書に含まれる全単語をグループ化することができる。

請求項６に記載の発明では、認識辞書に格納されている韻律クラスタ名を用いて複合語の韻律クラスタ列を作成し、音声認識を行うことを特徴としている。

このように、複合語の韻律に基づき韻律クラスタ列を作成し、この韻律クラスタ列から韻律尤度を求める。このとき、構成単語の韻律パターンにおいて、各韻律パターンの変化を推定することで、複合語の韻律パターンを推定する。この後、推定した韻律パターンに基づき韻律尤度を計算する。そして、この韻律尤度を用いて結合尤度を求める。これにより、「はしのかがくかん」のような複合語（「はし」＋「の」＋「かがくかん」）であっても、各構成単語の韻律を求めることで、各候補単語の韻律尤度に差を生じさせることができる。ひいては、各候補単語の結合尤度に差を生じさせることができ、容易に、かつ、高精度に複合語を認識することができる。

請求項７に記載の発明では、音声データの基本周波数を韻律パターンとして抽出すると共に、この韻律パターンの韻律尤度を計算する工程と、単語の表記、読みが記憶されていると共に、韻律クラスタ名がそれぞれ割り当てられた複数の単語が格納された認識辞書（３５）の中から対応する韻律パターンを持つ単語を認識単語候補に決定する工程と、音声データから音声認識に有効な特徴量を取り出すと共に、この特徴量から音響尤度を計算する工程と、韻律尤度と音響尤度との積を結合尤度として計算し、認識単語候補の中から結合尤度の値がもっとも高い候補単語を認識結果とする工程と、を含んでいることを特徴としている。

このように、音声データから韻律パターンを調べ、その韻律パターンに属する単語の韻律尤度のみを求める。これにより、同じ韻律パターンに属する単語のみの結合尤度を計算すればよいため、結合尤度の計算量を削減でき、ひいては高速音声認識を実現することができる。

請求項８に記載の発明では、単語およびその読みを入力する認識単語登録手段（４２ａ）にて新たに登録したい単語およびその読みを入力する工程と、単語の韻律パターンを推定する韻律自動生成手段（４２ｃ）にて新たに登録したい単語の韻律パターンを推定する工程と、韻律自動生成手段にて推定された韻律パターンが認識辞書に記憶されている各単語のどの韻律クラスタに属するのかを選択する韻律クラスタ選択手段（４２ｂ）を用いて新たに登録したい単語を認識辞書に登録する工程と、を含んでいることを特徴としている。こうして、認識辞書に含まれていない新しい単語を認識辞書に登録することができる。

請求項９に記載の発明では、結合尤度を求める工程では、求めた結合尤度の高い順に複数個の認識結果を画面上に提示することを特徴としている。

これにより、どのような候補単語が認識されるのかを知ることができる。

請求項１０に記載の発明では、単語辞書に含まれる単語に韻律クラスタ名を割り当てることを特徴としている。

このように、学習用音声データベースに含まれる音声データを用いて、単語辞書に含まれる単語に対して韻律クラスタ名を割り当てる。これにより、単語辞書の各単語は、同じ韻律パターン同士のグループとされるので、音声認識を行う際、入力された言葉の韻律パターンを調べることで、その韻律パターンに属する単語群の中から認識すべき単語を探すことができるようになる。

なお、上記各手段の括弧内の符号は、後述する実施形態に記載の具体的手段との対応関係を示すものである。

（第１実施形態）
以下、本発明の第１実施形態について図を参照して説明する。本実施形態における音声認識装置は、例えばプログラムに従った処理を行う制御回路を有しており、音声認識処理は、その制御回路内にプログラムとして構成される。また、本実施形態で示される音声認識装置は、数学的モデルである隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ；ＨＭＭ）に基づいた音声認識を実現するものであり、音声認識を行うための事前準備に用いられるものである。

図１は、本発明の第１実施形態に係る韻律クラスタ名割り当てを行う辞書作成装置のブロック構成図である。図１に示されるように、辞書作成装置は、学習用音声データベース１０と、韻律クラスタ作成部１１と、韻律クラスタＨＭＭ学習部１２と、単語辞書１３と、韻律抽出部１４と、韻律自動生成部１５と、韻律クラスタＨＭＭ選択部１６と、韻律クラスタＨＭＭ名割り当て部１７と、を備えて構成されている。

学習用音声データベース１０は、人の生の声が音声データとして記憶されたものである。この学習用音声データベース１０には、例えば数百〜数千個の音声データ（単語）が保存されている。学習用音声データベース１０に記憶されている音声データは、韻律クラスタ作成部１１および韻律クラスタＨＭＭ選択部１６に出力される。

韻律クラスタ作成部１１は、学習用音声データベース１０から入力される音声データ（単語）の韻律クラスタを作成するものである。韻律クラスタとは、単語の基本周波数のパターンをその単語の韻律パターンとし、複数の単語を韻律パターンが類似するグループ化したものをいう。具体的に、図２を参照して説明する。図２は、韻律クラスタ作成部１１において作成される韻律クラスタを表にして表した図である。なお、韻律クラスタ作成部１１は、本発明の韻律クラスタ作成手段に相当する。

図２の左欄は、学習用音声データベース１０から韻律クラスタ作成部１１に入力される単語の一例を示しており、韻律クラスタ作成部１１においてそれぞれの単語に対応する音声波形、すなわち韻律パターンが抽出される。これらの単語は、図２の右欄に示されるように、韻律パターンが似たもの同士でそれぞれグループごとに分けられる。例えば、「青森」と「福岡」は、韻律パターンが類似しているので、「青森」および「福岡」はその韻律パターンに属する単語としてグループ化される。

このように、韻律クラスタ作成部１１は、音声データから韻律パターンとそれに対応する単語群を振り分けるようになっている。韻律クラスタ作成部１１にて作成された図２に示される韻律クラスタ（韻律パターンおよびそれに属する単語）は、韻律クラスタＨＭＭ学習部１２に出力される。

韻律クラスタＨＭＭ学習部１２は、韻律クラスタ作成部１１にて作成された複数の韻律クラスタの韻律データをＨＭＭにより学習するものである。具体的には、韻律クラスタＨＭＭ学習部１２は、各韻律パターンを、音声認識のための統計モデルの１つであるＨＭＭを用いて学習する。なお、韻律クラスタＨＭＭ学習部１２は、本発明の韻律クラスタ学習手段に相当する。

単語辞書１３は、音声認識する単語とその読みが記憶されているものである。このような単語辞書１３には、例えば数万語の単語とその読みが記憶されている。単語辞書１３に記憶されている単語データは、韻律クラスタＨＭＭ選択部１６に出力される。

韻律抽出部１４は、単語辞書１３に記憶されている単語が学習用音声データベース１０に含まれている場合、その単語の韻律を抽出するものである。この韻律抽出部１４にて抽出された韻律は、韻律クラスタＨＭＭ選択部１６に出力される。なお、韻律抽出部１４は、本発明の韻律抽出手段に相当する。

韻律自動生成部１５は、単語辞書１３に記憶されている単語が学習用音声データベース１０に含まれていない場合、その単語の韻律を推定するものである。この韻律自動生成部１５は、単語の文字の並びから可能性の高い韻律パターンを推定し、その韻律パターンを韻律クラスタＨＭＭ選択部１６に出力する。なお、韻律自動生成部１５は、本発明の韻律自動生成手段に相当する。

韻律クラスタＨＭＭ選択部１６は、韻律クラスタＨＭＭ学習部１２から入力される韻律クラスタＨＭＭの韻律パターンの中から、韻律抽出部１４または韻律自動生成部１５にて抽出された単語の韻律パターンにもっとも近い韻律パターンを選択し、その韻律パターンに対応する韻律クラスタを韻律クラスタＨＭＭ名割り当て部１７に出力するものである。なお、韻律クラスタＨＭＭ選択部１６は、本発明の韻律クラスタ選択手段に相当する。

韻律クラスタＨＭＭ名割り当て部１７は、韻律クラスタに対して韻律クラスタ名である韻律クラスタＨＭＭ名を割り当てるものである。このように単語に韻律クラスタＨＭＭ名を割り当てることで、単語がグループ分けされる。なお、韻律クラスタＨＭＭ名割り当て部１７は、本発明の韻律クラスタ名割り当て手段に相当する。

例えば、図２の右欄に示されるように、「北海道」という単語に「Ｐ」という韻律クラスタＨＭＭ名が割り当てられる。こうして単語辞書１３に記憶されているすべての単語に韻律クラスタＨＭＭ名が割り当てられる。

以上が、本実施形態に係る辞書作成装置の構成である。

次に、上記辞書作成装置において、韻律クラスタＨＭＭの割り当てについて、図３のフローチャートを参照して説明する。図３に示されるフローチャートは、学習用データベース１０に記憶されている音声データの各単語に対して韻律クラスタＨＭＭを作成する内容を示している。

図３のフローチャートが開始されると、ステップ１００では、韻律データ間距離計算がなされる。まず、学習用データベース１０に記憶されている音声データが韻律クラスタ生成部１１に出力される。そして、韻律クラスタ生成部１１にて学習用音声データベース１０の音声データの韻律が抽出される。その際、すべての韻律データ間の距離が計算される。

ステップ１１０では、韻律クラスタが作成される。これは、上記ステップ１００にて得られた韻律データ間の距離に基づき、韻律クラスタが作成される。具体的には、図２の左欄のように抽出された韻律パターンが、図２の右欄のように、各単語の韻律パターンが類似した単語同士でグループ分けされる。このように、韻律クラスタ生成部１１にて韻律クラスタが作成される。この韻律クラスタは、韻律クラスタ作成部１１から韻律クラスタＨＭＭ学習部１２に出力される。

ステップ１２０では、韻律クラスタＨＭＭ学習がなされる。すなわち、韻律クラスタ学習部１２に入力された複数の韻律クラスタそれぞれに対して、１つのＨＭＭが割り当てられ、これが学習される。

以上のようにして、韻律クラスタが学習されると、続いて、単語辞書１３に含まれている各単語に韻律クラスタＨＭＭの割り当てがなされる。この処理について、図４に示されるフローチャートを参照して説明する。図４は、韻律クラスタＨＭＭ名を割り当てる内容を示したフローチャートである。

上記図３に示される韻律クラスタが作成された後、図４に示されるフローチャートが開始されると、ステップ２００では、単語辞書参照がなされる。すなわち、単語辞書１３に記憶されている単語データが韻律クラスタＨＭＭ選択部１６に出力される。

ステップ２１０では、単語辞書１３の各単語が学習用音声データベース１０に含まれているか否かが判定される。具体的には、韻律クラスタＨＭＭ選択部１６において、単語辞書１３から入力される各単語が、学習用音声データベース１０から入力される各単語に含まれているかが調べられる。これは、学習用音声データベース１０に単語辞書１３の単語が含まれない場合、単語辞書１３の単語の韻律を推定する必要があるからである。そして、本ステップにおいて、単語辞書１３の単語が学習用音声データベース１０に含まれている場合、ステップ２２０に進み、そうでない場合、ステップ２３０に進む。

ステップ２２０では、音声データから韻律抽出がなされる。これは、以下のようにしてなされる。まず、学習用音声データベース１０の単語が韻律クラスタＨＭＭ選択部１６を介して韻律抽出部１４に出力され、この韻律抽出部１４にて音声データから韻律パターンが抽出される。そして、抽出された韻律パターンが再び韻律クラスタＨＭＭ選択部１６に出力される。

一方、ステップ２１０において、学習用音声データベース１０に単語辞書１３の単語が含まれていない場合、ステップ２３０では、韻律自動生成がなされる。すなわち、単語辞書１３の単語が韻律クラスタＨＭＭ選択部１６を介して韻律自動生成部１５に出力され、韻律自動生成部１５において、単語の韻律パターンが推定される。そして、その結果が韻律クラスタＨＭＭ選択部１６に出力される。

ステップ２４０では、韻律クラスタＨＭＭ選択がなされる。具体的には、ステップ２２０、２３０において抽出された韻律パターンが、先に作成された韻律クラスタ（図２の右欄参照）において、どの韻律パターンにもっとも類似しているかが判定される。そして、対応する韻律クラスタＨＭＭが選択され、その結果が韻律クラスタＨＭＭ名割り当て部１７に出力される。

ステップ２５０では、韻律クラスタＨＭＭ名が割り当てられる。したがって、図２の右欄に示されるように、各韻律クラスタにそれぞれを識別する記号（例えば「Ｐ」、「Ｑ」等）が割り当てられるのである。このようにして、各韻律クラスタにＨＭＭが割り当てられる。

ステップ２６０では、すべての単語について上記処理がなされたか否かが判定される。つまり、単語辞書１３に記憶されているすべての単語に韻律クラスタＨＭＭ名が割り当てられたか否かが判定される。すべての単語に韻律クラスタＨＭＭ名が割り当てられていない場合、ステップ２００に戻り、未処理の単語に韻律クラスタＨＭＭ名を割り当てる。一方、単語辞書１３に記憶されているすべての単語に韻律クラスタＨＭＭ名が割り当てられると、この処理は終了する。

以上、説明したように、本実施形態では、単語辞書１３に含まれる各単語に対して、同じ韻律パターンであるものに、同じ韻律クラスタＨＭＭ名を割り当てることを特徴としている。これにより、単語辞書１３に含まれる全単語を韻律パターンに基づいてグループ化できる。これにより、単語辞書１３の中から一つ一つ単語を認識処理する必要が無くなり、一つの韻律パターンに属する単語の中から認識すべき単語を見つけるようにすることができる。

（第２実施形態）
本実施形態では、第１実施形態で示された韻律クラスタＨＭＭ割り当てがなされた単語辞書（後述する図５参照）を用いて音声認識を行う音声認識装置について説明する。本実施形態で示される音声認識装置は、単語の他に、例えば「橋の科学館」等の複合語（詳しくは「橋」＋「の」＋「科学館」）や文章を認識することができるものである。以下、図を参照して説明する。

図５は、第２実施形態に係る音声認識装置のブロック構成図である。図５に示されるように、音声認識装置は、マイク３０と、音響分析部３１と、音響尤度計算部３２と、音響ＨＭＭ部３３と、認識候補判定部３４と、認識辞書３５と、韻律クラスタ選択部３６と、韻律自動生成部３７と、韻律分析部３８と、韻律尤度計算部３９と、韻律クラスタＨＭＭ部４０と、認識候補評価部４１と、単語登録部４２と、を備えて構成されている。

マイク３０は、周知の音声入力装置である、マイク３０を介して音声が入力されると、その音声の音声データが音響分析部３１および韻律分析部３８に出力される。

音響分析部３１は、マイク３０から入力される複合語の音声データから音声認識に有効な特徴量を取り出し、音響尤度計算部３２に出力する。

音響尤度計算部３２は、音響分析部３１から入力される特徴量の尤度（音響尤度）を計算するものである。具体的に、音響尤度計算部３２は、音響分析部３１から入力される特徴量に基づき、音声入力された複合語（単語の組み合わせ）としての確からしさである音響尤度（確率）を後述する音響ＨＭＭ部３３および認識辞書３５を用いて計算し、例えば認識辞書３５に登録されている単語の中から音響尤度が高い言葉の候補をいくつかピックアップする。このようにして音響尤度計算部３２にて得られた音響尤度およびそれに対応する単語が認識候補判定部３４に出力される。

音響ＨＭＭ部３３は、音素の平均・分散等のデータを使って音響尤度を計算するものである。

なお、音響分析部３１、音響尤度計算部３２、音響ＨＭＭ部３３は、本発明の音響尤度計算手段に相当する。

認識候補判定部３４は、音響尤度の高い順から上位にある単語を複数選択するものである。そして、認識候補判定部３４で選択された各単語の単語名および音響尤度が韻律クラスタ選択部３６に出力される。なお、認識候補判定部３４は本発明の認識候補判定手段に相当する。

認識辞書３５は、単語の表記、読み、そして韻律クラスタＨＭＭ名が格納されたものである。本実施形態で用いられる認識辞書３５に含まれている単語には、上記第１実施形態で示されたように、各単語に対して図２の右欄に示される韻律クラスタＨＭＭ名が割り当てられている。したがって、数多くの単語の中から該当する韻律パターンを見つけると、その韻律パターンに属する単語の中から認識すべき単語を見つければ良いため、音声認識が非常に容易にできるのである。

なお、この認識辞書３５には、後述する単語登録部４２にて新たに登録された単語が入力されるようになっている。

韻律クラスタ選択部３６は、認識候補判定部３４から入力される候補単語において、認識辞書３５に記憶されているその単語の韻律クラスタＨＭＭ名を選択し、韻律クラスタＨＭＭ名および音響尤度を候補単語についてそれぞれ韻律尤度計算部３９に出力する。

また、韻律クラスタ選択部３６は、複合語がマイク３０から入力された時、後述する韻律自動生成部３７にて生成された韻律パターンを入力すると共に、認識辞書３５に記憶されている単語の韻律パターンの中から近い韻律パターンおよびその韻律クラスタＨＭＭ名を選択する。こうして選択した候補単語およびそのクラスタ名および音響尤度を音響尤度計算部３９に出力する。

韻律自動生成部３７は、複合語を構成する構成単語の韻律パターンの変化を推定するものである。これにより、各構成単語のアクセントが変化しても、各構成単語の韻律パターンを推定することができる。こうして生成された韻律パターンは、韻律クラスタ選択部３６に出力される。なお、本実施形態の韻律自動生成部３７は、第１実施形態と同様に、認識辞書３５に含まれていない単語の韻律を推定する機能も有している。

なお、韻律クラスタ選択部３６、韻律自動生成部３７は、本発明の韻律クラスタ選択手段に相当する。

韻律分析部３８は、マイク３０から入力される言葉の基本周波数を分析するものである。基本周波数とは、上述のように音声の高低を表す特徴量であり、韻律の高低パターンとして得られる。韻律分析部３０にて得られた韻律のパターンは、韻律尤度計算部３９に出力される。

韻律尤度計算部３９は、韻律分析部３８から入力される韻律パターンに基づき、韻律パターンの確からしさである韻律尤度（確率）を計算するものである。韻律尤度計算部３９は、韻律尤度を計算すると、音響尤度および韻律尤度を候補単語についてそれぞれ認識候補再評価部４１に出力する。

韻律クラスタＨＭＭ部４０は、第１実施形態の韻律クラスタＨＭＭ学習部１２と同じものである。すなわち、韻律分析部３８において分析された言葉の韻律パターンが認識辞書３５に登録されていない場合、もっとも近いパターンのクラスタ名を付けて記憶する。

なお、韻律分析部３８、韻律尤度計算部３９、韻律クラスタＨＭＭ部４０は、本発明の韻律尤度計算手段に相当する。

認識候補再評価部４１は、韻律尤度計算部３９から入力される各候補単語の音響尤度および韻律尤度の積として得られる結合尤度を求めるものである。結合尤度の値がもっとも高い単語が認識結果とされる。したがって、認識候補再評価部４１は入力されたすべての候補単語の結合尤度を求めると共に、もっとも高い結合尤度をもつ単語について、その単語名および結合尤度を認識結果として出力する。なお、認識候補再評価部４１は本発明の認識候補再評価手段に相当する。

単語登録部４２は、認識辞書３５に含まれていない単語を新たに登録するものであり、認識単語等力部４２ａと、韻律クラスタ選択部４２ｂと、韻律自動生成部４２ｃと、を備えて構成されている。

認識単語登録部４２ａは、新たに登録したい単語およびその読みを入力する手段である。この認識単語登録部４２ａにて入力された単語およびその読みは、韻律クラスタ選択部４２ｂに出力される。また、韻律クラスタ選択部４２ｂは、上述した韻律クラスタ選択部３６と同じものであり、韻律自動生成部４２ｃは、上述した韻律自動生成部３７と同じものである。

このような単語登録部４２においては、認識単語登録部４２ａにて新しい単語が入力されると、韻律自動生成部４２ｃにてその単語の韻律が生成され、韻律クラスタ選択部４２ｂにてその韻律パターンにクラスタ名が付けられる。こうして、新しい単語の読み、韻律パターン、そしてクラスタ名が認識辞書３５に出力され、認識辞書３５に登録されるのである。

以上が、本実施形態に係る音声認識装置の構成である。

次に、図５に示される音声認識装置が複合語を音声認識する作動について、図６〜図９を参照して説明する。図６は、本実施形態の音声認識装置において、複合語を認識する処理を示したフローチャートである。

また、図７は、複合語と、複合語を構成する単語の韻律パターンから韻律クラスタＨＭＭ名を割り当てた表を示した図である。図７に示されるように、本実施形態では、複合語として「箸の科学館」、「橋の科学館」、「電気大学」を採用している。それぞれの複合語を構成単語に分けると、「箸」、「橋」、「の」、「科学館」、「電気」、「大学」となり、それぞれの単語に対応する韻律パターンが示されている。

第１実施形態で説明したように、各韻律パターンが類似するものがグループ化され、各単語がそれぞれの韻律パターンに属することとなる。そして、各韻律パターンに韻律クラスタＨＭＭ名が名付けられている。例えば「箸」および「大学」の韻律クラスタＨＭＭ名は「Ａ」である。このような単語情報が認識辞書３５に記憶されている。

図６のフローチャートが開始されると、ステップ３００では、音響尤度計算に基づく認識がなされ、複数の認識単語候補が音韻認識結果とされる。具体的には、マイク３０から入力された複合語は、音響分析部３１にて音声認識に有効な特徴量が取り出され、音響尤度計算部３２にてその特徴量の尤度が計算される。この際、認識辞書３５に登録されている単語の中から、音響尤度の高い単語がいくつかピックアップされ、それらの単語が音響尤度と共に認識候補判定部３４に入力される。

この後、認識候補判定部３４において音響尤度計算部３２から入力される単語の中から認識候補判定部３４にて音響尤度の高い順から複数の単語が認識候補単語とされ、韻律クラスタ選択部３６に出力される。

ステップ３１０では、韻律クラスタ選択部３６に入力された認識候補単語が複合語であるか否かが判定される。これは、韻律クラスタ選択部３６に入力される認識候補単語列が複数の単語で構成されるか否かが判定されることによりなされる。そして、複合語である場合、ステップ３４０に進む。一方、複合語でない場合、ステップ３２０に進む。

ステップ３２０では、ステップ３１０において複合語でない場合、認識辞書３５の各単語にそれぞれ割り当てられた韻律クラスタＨＭＭが選択される。すなわち、韻律クラスタ選択部３６に入力された単語に、認識辞書３５に記憶されている韻律クラスタＨＭＭが付けられる。

ステップ３３０では、複合語の場合、韻律自動生成がなされる。これは、韻律クラスタ選択部３６から複合語が韻律自動生成部３７に出力され、韻律自動生成部３７にて韻律が自動生成されることによりなされる。例えば「東京ディズニーランド」のような複合語については、韻律自動生成部３７にて韻律変化が推定される。この場合、「東京」、「ディズニー」、「ランド」というようにそれぞれの構成単語のパターンの変化が自動推定される。そして、これら単語が韻律クラスタ選択部３６に入力されると、認識辞書３５に記憶されている韻律クラスタＨＭＭ名がそれぞれの単語に付けられる。自動生成された韻律は、韻律クラスタ選択部３６に入力される。

ステップ３４０では、韻律クラスタＨＭＭ列が生成される。つまり、韻律クラスタ選択部３６において、ステップ３３０にて得られた韻律クラスタＨＭＭが、単語の出現順に連結されることで韻律クラスタＨＭＭ列が生成される。このようにして生成された韻律クラスタＨＭＭ列は、韻律尤度計算部３９に出力される。

図８は、マイク３０から入力された複合語（施設）の音韻列とそれに該当する韻律クラスタＨＭＭ列の例を示した図である。例えば、「箸の科学館」という複合語は、「箸」＋「の」＋「科学館」という単語列の組み合わせとされ、それぞれの音韻に対応する韻律クラスタＨＭＭ名が「Ａ」＋「Ｃ」＋「Ｄ」という列として表される（図７参照）。同様に、「橋の科学館」であれば、「Ｂ」＋「Ｃ」＋「Ｄ」、「電気大学」であれば「Ｂ」＋「Ａ」という列として表される。

このように、本ステップでは、図８に示されるように韻律クラスタＨＭＭ列が生成され、そのＨＭＭ列が韻律尤度計算部３９に出力されるのである。

ステップ３５０では、韻律尤度計算がなされる。本ステップでは、韻律尤度計算部３９において、韻律分析部３８にて分析された韻律パターンおよびステップ３２０、３４０から入力される韻律クラスタＨＭＭ列が用いられて韻律尤度が計算される。本ステップにて計算された韻律尤度は、認識候補再評価部４１に出力される。

なお、複合語については、韻律自動生成部３７による韻律変化推定がなされることで、単語列における単語前後の連結によりアクセントが変化した場合についても適切な韻律クラスタが選択されるようになっている。

ステップ３６０では、認識候補再評価がなされる。具体的には、韻律尤度計算部３９から入力される各認識単語候補の音響尤度および韻律尤度の積を計算することにより、すべての候補単語の結合尤度が求められる。この後、もっとも高い結合尤度をもつ単語または単語列について、その単語名または単語列名および結合尤度が認識結果として出力される。

図９は、「はしのかがくかん」について「箸の科学館」および「橋の科学館」それぞれの結合尤度を計算する様子を示した図である。例えば、マイク３０から「はしのかがくかん」という音声入力があったとすると、図９に示されるように、音韻は「はし」＋「の」＋「かがくかん」となる。ここで、「はし」の韻律パターンが「箸」と「橋」とで異なる。すなわち、音響尤度は同じ音韻であるので等しい（音韻尤度＝０．１）が、「はし」の韻律が互いに異なるため、それぞれの韻律尤度も異なっている。

具体的には、「箸の科学館」としたときの韻律尤度は０．２、「橋の科学館」としたときの韻律尤度は０．０５とされる。したがって、「箸の科学館」としたときの結合尤度は０．１（音響尤度）×０．２（韻律尤度）＝０．０２（結合尤度）となる。一方、「橋の科学館」としたときの結合尤度は０．１（音響尤度）×０．０５（韻律尤度）＝０．００５（結合尤度）となる。以上の結合尤度から、マイク３０から入力された音声は、「箸の科学館」としてその結合尤度と共に認識結果として出力されることとなる。

こうして、単語または複合語の音声認識処理が終了する。

以上、説明したように、本実施形態では、候補単語の音響尤度および韻律尤度をそれぞれ求め、それらの積を計算することにより結合尤度をそれぞれ求め、もっとも高い結合尤度を有する候補単語を認識結果として出力することを特徴としている。このように、音声認識の際、入力される音声データが複合語の場合であっても、その複合語を構成する各単語の韻律に基づき韻律尤度を求めているので、同じ音韻をもつ複合語（例えば「橋の科学館」と「箸の科学館」）であっても確実にその違いを認識することができる。

詳しくは、複合語を認識する際、複合語の韻律パターンの変化を推定して組み合わせることで複合語の韻律パターンを推定し、推定した韻律パターンに基づき韻律尤度を計算している。このように、本来の構成単語の韻律パターンにおいて、各韻律パターンの変化を推定することで、複合語の韻律パターンを推定することができると共に、各単語の韻律パターンから韻律尤度を求めることができる。このようにして求めた韻律尤度を用いることで、結合尤度に差を生じさせることができ、複合語を認識することができる。

上記韻律尤度を求める際には、単語に韻律クラスタＨＭＭ名が割り当てられた認識辞書３５を用いることで、複合語を韻律クラスタＨＭＭ列として表すことができると共に、それぞれの韻律に基づいた韻律尤度を計算することができる。

さらに、認識辞書３５に含まれていない単語を認識辞書３５に登録することができる。これにより、認識辞書３５に含まれている単語のみならず、様々な単語をさらに認識辞書３５に登録することで、認識できる単語数を確実に増やすことができる。

（第３実施形態）
本実施形態では、第１実施形態で示された韻律クラスタＨＭＭ割り当てがなされた認識辞書（後述する図１０参照）を用いて音声認識を行う音声認識装置について説明する。本実施形態で示される音声認識装置は、コマンドなどの孤立単語を高速に認識するものである。したがって、本実施形態で示される音声認識装置は、カーナビゲーションシステムに用いて好適である。以下、図を参照して説明する。

図１０は、本発明の第３実施形態に係る音声認識装置のブロック構成図である。図１０に示されるように、音声認識装置は、マイク５０と、韻律分析部５１と、韻律尤度計算部５２と、韻律クラスタＨＭＭ部５３と、認識辞書５４と、認識候補判定部５５と、音韻分析部５６と、音響尤度計算部５７と、音響ＨＭＭ部５８と、認識候補再評価部５９と、を備えて構成されている。また、認識辞書５４には、単語登録部４２から単語が入力されるようになっている。これら構成要素は、上述した第１、第２実施形態で示された音声認識装置にそれぞれ用いられているものと同じものである。

具体的には、マイク５０は、第２実施形態のマイク３０に相当し、韻律分析部５１は第２実施形態の韻律分析部３１に相当し、韻律尤度計算部５２は第２実施形態の韻律尤度計算部３９に相当し、韻律クラスタＨＭＭ部５３は第２実施形態の韻律クラスタＨＭＭ部４０に相当し、認識辞書５４は第２実施形態の認識辞書３５に相当し、認識候補判定部５５は第２実施形態の認識候補判定部３４に相当し、音響分析部５６は第２実施形態の音響分析部３１に相当し、音響尤度計算部５７は第２実施形態の音響尤度計算部３２に相当し、音響ＨＭＭ部５８は第２実施形態の音響ＨＭＭ部３３に相当し、認識候補再評価部５９は第２実施形態の認識候補再評価部４１に相当する。

また、韻律分析部５１、韻律尤度計算部５２、韻律クラスタＨＭＭ部５３は本発明の韻律尤度計算手段に相当し、認識候補判定部５５は本発明の認識候補判定手段に相当し、音韻分析部５６、音響尤度計算部５７、音響ＨＭＭ部５８は本発明の音響尤度計算手段に相当し、認識候補再評価部５９は本発明の認識候補再評価手段に相当する。

なお、認識辞書５４には、第２実施形態と同様に、各単語に対して韻律クラスタＨＭＭ名が名付けられた状態として各単語が記憶されている。図１１は、構成単語と、それに対応する韻律クラスタＨＭＭ名の例を示した図である。図１１に示されるように、構成単語である地名（北海道、青森等）に韻律クラスタＨＭＭ名が割り当てられた状態となっている。例えば、「北海道」という構成単語に対して「Ｐ」という韻律クラスタＨＭＭ名が付けられている。このように、認識辞書５４には、構成単語とそれに対応する韻律クラスタＨＭＭ名が記憶されている。

次に、図１０に示される音声認識装置が構成単語を音声認識する作動について、図１２のフローチャートを参照して説明する。図１２は、本実施形態の音声認識装置において、構成単語を認識する処理を示したフローチャートである。

ステップ４００では、韻律尤度計算がなされる。具体的には、マイク５０に入力された音声の基本周波数、すなわち韻律パターンが韻律分析部５１にて取得される。そして、この韻律パターンが韻律尤度計算部５２に入力され、韻律パターンの尤度（韻律尤度）が計算される。なお、韻律尤度計算部５２は、韻律クラスタＨＭＭ部５３を用いて韻律尤度を計算する。本ステップにおいて得られた韻律尤度は、認識候補判定部５５に出力される。

ステップ４１０では、認識単語候補決定がなされる。すなわち、認識候補判定部５５において、認識辞書５４の中から該当する韻律を持つ単語だけが認識単語候補として限定される。これらの認識単語候補は、音響尤度計算部５７に出力される。

ステップ４２０では、音響尤度計算がなされる。まず、マイク５０に入力された音声データが音響分析部５６に入力されると、その音声データから音声認識に有効な特徴量が取り出される。この特徴量が音響尤度計算部５７に入力され、音響尤度計算部５７にて特徴量の尤度（音響尤度）が計算される。なお、音響尤度計算部５７は、音響尤度を計算するための文字の並びや音素、平均・分散等のデータを音響ＨＭＭ部５８から随時読み込む。

ステップ４３０では、認識候補再評価がなされる。具体的には、音響尤度計算部５７を介して認識候補判定部５５から入力される韻律尤度と、音響尤度計算部５７から入力される音響尤度と、の積が計算される。そして、結合尤度の値がもっとも高い候補単語が認識結果とされる。こうして得られた認識単語およびその結合尤度が認識結果として出力される。

なお、認識辞書５４には、単語登録部４２を介して随時新しい構成単語が入力されるようになっている。

以上、説明したように、音声データから韻律パターンを調べることで、多数の単語が記憶されている認識辞書５４の中から、その韻律パターンに属する単語のみを検索することを特徴としている。これにより、同じ韻律パターンに属する単語の中から認識すべき単語を見つければよいため、音声認識にかかる計算量を削減でき、ひいては高速音声認識が可能になる。

また、認識辞書５４に含まれていない単語を認識辞書５４に登録することができる。これにより、認識辞書５４に含まれている単語のみならず、様々な単語をさらに認識辞書５４に登録することで、認識できる単語数を増やすことができる。

（他の実施形態）
上記第１〜第３に示した各音声認識装置の構成は一例を示すものであって、これらに限るものではない。同様に、各音声認識装置が行う作動についても同様である。

上記第１〜第３実施形態で示された音声認識装置は、マイク３０、５０以外の各構成要素はソフトウェアとして構築されるものであるが、ハードウェアとして構成したものを用いても構わない。

上記第２、第３実施形態で示された音韻認識装置においては、認識辞書３５、５４に記憶されていない単語を新たに登録するための単語登録部４２が備えられているが、この単語登録部４２を備えない構成としても良い。また、単語登録部４２を別体のハードウェアとして構成し、図５および図１０に示される音声認識装置の認識辞書３５、５４に接続するようにしても良い。

上記第２、第３実施形態において、認識候補再評価部４１、５９は、結合尤度の高い順に複数個の認識結果を画面上に提示するようにしてもよい。このような場合、認識候補再評価部４１、５９から表示手段に信号を出力し、表示手段にて結合尤度の高い順に複数個の認識結果を表示する。これにより、音声認識装置が、どのような候補単語を認識しようとしているのかを知ることができる。

また、音声入力モード切替手段を設けることで、第２実施形態における複合語を認識する音声認識方法と、第３実施形態おける構成単語を高速認識する音声認識方法と、を切り換えるようにしても良い。

なお、各図中に示したステップは、各種処理を実行する手段に対応するものである。

本発明の第１実施形態に係る韻律クラスタ名割り当てを行う辞書作成装置のブロック構成図である。韻律クラスタ作成部において作成される韻律クラスタを表にして表した図である。学習用データベースに記憶されている音声データの各単語に対して韻律クラスタＨＭＭを作成する内容を示したフローチャートである。韻律クラスタＨＭＭ名を割り当てる内容を示したフローチャートである。本発明の第２実施形態に係る音声認識装置のブロック構成図である。複合語を認識する処理を示したフローチャートである。複合語と、複合語を構成する単語の韻律パターンから韻律クラスタＨＭＭ名を割り当てた様子を示した図である。マイクから入力された複合語（施設）の音韻列とそれに該当する韻律クラスタＨＭＭ列の例を示した図である。「はしのかがくかん」について「箸の科学館」および「橋の科学館」それぞれの結合尤度を計算する様子を示した図である。本発明の第３実施形態に係る音声認識装置のブロック構成図である。構成単語と、それに対応する韻律クラスタＨＭＭ名の例を示した図である。構成単語を認識する処理を示したフローチャートである。従来の音声認識装置のブロック構成図である。

符号の説明

１０…学習用音声データベース、１１…韻律クラスタ作成部、
１２…韻律クラスタＨＭＭ学習部、１３…単語辞書、１４…韻律抽出部、
１５、３７、４２ｃ…韻律自動生成部、１６…韻律クラスタＨＭＭ選択部、
１７…韻律クラスタＨＭＭ名割り当て部、３０、５０…マイク、
３１、５６…音響分析部、３２、５７…音響尤度計算部、
３３、５８…音響ＨＭＭ部、３４、５５…認識候補判定部、３５、５４…認識辞書、
３６、４２ｂ…韻律クラスタ選択部、３８、５１…韻律分析部、
３９、５２…韻律尤度計算部、４０、５３…韻律クラスタＨＭＭ部、
４１、５９…認識候補再評価部、４２…単語登録部、４２ａ…認識単語登録部。

Claims

単語の表記、読みが記憶されていると共に、韻律クラスタ名がそれぞれ割り当てられた複数の単語が格納された認識辞書（３５）と、
音声データを入力すると共に、前記音声データから音声認識に有効な特徴量を取り出して前記特徴量の音響尤度を計算し、前記認識辞書から前記音響尤度が高い単語を任意の数だけ選択する音響尤度計算手段（３１〜３３）と、
前記音響尤度計算手段から前記音響尤度を入力し、前記音響尤度が高い上位の複数の候補単語をその音響尤度と共にそれぞれ出力する認識候補判定手段（３４）と、
前記音声データが複合語の場合、前記音声データの基本周波数を韻律パターンとして抽出すると共に、前記候補単語の韻律パターンにおいて、各韻律パターンの変化を推定することで前記複合語の韻律パターンを推定すると共に、前記音響尤度および前記候補単語列そしてこの候補単語列に対応する韻律クラスタ名列をそれぞれ出力する韻律クラスタ選択手段（３６、３７）と、
前記音声データを入力すると共に、前記音声データの基本周波数を韻律パターンとして抽出し、この韻律パターンを複数の候補単語の韻律パターンで構成すると共に、各韻律パターンにおいて、各韻律パターンの変化を推定した後、推定した韻律パターンに基づき韻律尤度を計算する韻律尤度計算手段（３８〜４０）と、
前記音響尤度計算手段から前記候補単語の音響尤度を入力すると共に、前記韻律尤度計算手段から韻律尤度を入力し、前記音響尤度および前記韻律尤度の積を計算することですべての候補単語について結合尤度を求め、もっとも高い結合尤度を有する候補単語を認識結果として出力する認識候補再評価手段（４１）と、を備えることを特徴とする音声認識装置。
単語の表記、読みが記憶されていると共に、韻律クラスタ名がそれぞれ割り当てられた複数の単語が格納された認識辞書（５４）と、
音声データを入力し、前記音声データの基本周波数を抽出すると共に、この基本周波数から韻律パターンを求め、前記韻律パターンに基づき韻律尤度を計算する韻律尤度計算手段（５１〜５３）と、
前記韻律尤度計算手段から前記韻律尤度を入力し、前記韻律尤度が高い上位の複数の候補単語をその韻律尤度と共にそれぞれ出力する認識候補判定手段（５５）と、
前記音声データを入力すると共に、前記音声データから音声認識に有効な特徴量を取り出して前記特徴量の音響尤度を計算する音響尤度計算手段（５６〜５８）と、
前記音響尤度計算手段から前記候補単語の音響尤度を入力すると共に、前記韻律尤度計算手段から前記韻律尤度を入力し、前記音響尤度および前記韻律尤度の積を計算することですべての候補単語の結合尤度をそれぞれ求め、もっとも高い結合尤度を有する候補単語を認識結果として出力する認識候補再評価手段（５９）と、を備えることを特徴とする音声認識装置。
前記認識辞書には、単語登録手段（４２）から単語データが入力されるようになっており、
前記単語登録手段は、
新たに登録したい単語およびその読みを入力する認識単語登録手段（４２ａ）と、
前記新たに登録したい単語の韻律パターンを推定する韻律自動生成手段（４２ｃ）と、
前記韻律自動生成手段にて推定された韻律パターンが前記認識辞書に記憶されている各単語のどの韻律クラスタに属するのかを選択すると共に、前記新たに登録したい単語を前記認識辞書に登録する韻律クラスタ選択手段（４２ｂ）と、を備えていることを特徴とする請求項１または２に記載の音声認識装置。
前記認識候補再評価手段は、前記結合尤度の高い順に複数個の認識結果を画面上に提示するようになっていることを特徴とする請求項１ないし３のいずれか１つに記載の音声認識装置。
複数の単語の音声データが記憶されていると共に、それら音声データを出力する学習用音声データベース（１０）と、
前記学習用音声データベースから入力される前記複数の音声データの韻律パターンを抽出すると共に、抽出した韻律パターンが類似するものをグループ化することにより韻律クラスタを作成する韻律クラスタ作成手段（１１）と、
前記韻律クラスタ作成手段から前記韻律クラスタを入力すると共に、各韻律クラスタを学習し、前記韻律パターンを含む韻律クラスタとして出力する韻律クラスタ学習手段（１２）と、
任意の複数の単語とその読みが記憶されている単語辞書（１３）と、
前記単語辞書に記憶されている単語が前記学習用音声データベースに含まれている場合、その単語の韻律を抽出する韻律抽出手段（１４）と、
前記単語辞書に記憶されている単語が前記学習用音声データベースに含まれていない場合、その単語の韻律パターンを推定する韻律自動生成手段（１５）と、
前記韻律クラスタ学習手段から入力される韻律クラスタの韻律パターンの中から、前記韻律抽出手段または前記韻律自動生成手段にて抽出された単語の韻律パターンにもっとも近い韻律パターンを選択し、その韻律パターンに対応する韻律クラスタを出力する韻律クラスタ選択手段（１６）と、
前記韻律クラスタ選択手段から入力される韻律クラスタに、各韻律クラスタを区別する韻律クラスタ名を割り当てる韻律クラスタ名割り当て手段（１７）と、を備えることを特徴とする音声認識装置に使用される辞書作成装置。
音声データから音声認識に有効な特徴量を取り出して前記特徴量の音響尤度を計算し、単語の表記、読みが記憶されていると共に、韻律クラスタ名がそれぞれ割り当てられた複数の単語が格納された認識辞書（３５）から音響尤度が高い単語を候補単語として任意の数だけ選択する工程と、
前記候補単語が複合語であるか否かを判定する工程と、
前記音声データの基本周波数を韻律パターンとして抽出し、前記候補単語が複合語である場合、複合語である候補単語の各韻律パターンの変化を推定する工程と、
生成された各韻律パターンの変化に基づき、前記認識辞書に格納されている韻律クラスタを並べて、前記候補単語の韻律クラスタ列を生成する工程と、
前記韻律クラスタ列として表された前記候補単語の韻律尤度を計算する工程と、
前記候補単語の音響尤度および韻律尤度の積を計算することにより、すべての候補単語の結合尤度を求め、もっとも高い結合尤度をもつ候補単語を認識結果とする工程と、を含んでいることを特徴とする音声認識方法。
音声データの基本周波数を韻律パターンとして抽出すると共に、この韻律パターンの韻律尤度を計算する工程と、
単語の表記、読みが記憶されていると共に、韻律クラスタ名がそれぞれ割り当てられた複数の単語が格納された認識辞書（３５）の中から対応する韻律パターンを持つ単語を認識単語候補に決定する工程と、
前記音声データから音声認識に有効な特徴量を取り出すと共に、この特徴量から音響尤度を計算する工程と、
前記韻律尤度と前記音響尤度との積を結合尤度として計算し、前記認識単語候補の中から前記結合尤度の値がもっとも高い候補単語を認識結果とする工程と、を含んでいることを特徴とする音声認識方法。
前記認識辞書に含まれていない単語を登録する音声認識方法であって、
単語およびその読みを入力する認識単語登録手段（４２ａ）にて新たに登録したい単語およびその読みを入力する工程と、
単語の韻律パターンを推定する韻律自動生成手段（４２ｃ）にて前記新たに登録したい単語の韻律パターンを推定する工程と、
前記韻律自動生成手段にて推定された韻律パターンが前記認識辞書に記憶されている各単語のどの韻律クラスタに属するのかを選択する韻律クラスタ選択手段（４２ｂ）を用いて前記新たに登録したい単語を前記認識辞書に登録する工程と、を含んでいることを特徴とする請求項６または７に記載の音声認識方法。
前記結合尤度を求める工程では、求めた結合尤度の高い順に複数個の認識結果を画面上に提示することを特徴とする請求項６ないし８のいずれか１つに記載の音声認識方法。
任意の複数の単語とその読みが記憶されている単語辞書（１３）に含まれる単語の韻律に基づく韻律クラスタ名をそれぞれ割り当てる辞書作成方法であって、
複数の単語の音声データを備えた学習用音声データベース（１０）から前記音声データの韻律を抽出し、前記音声データのすべての韻律データ間の距離を計算する工程と、
前記韻律データ間の距離に基づき、前記音声データの韻律パターンが類似するものをグループ化することにより韻律クラスタを作成する工程と、
前記韻律クラスタそれぞれに対して、１つの学習機能を割り当てる工程と、
前記単語辞書に含まれている各単語が前記学習用音声データベースに含まれているか否かを判定する工程と、
前記単語辞書の単語が前記学習用音声データベースに含まれている場合、任意の単語の韻律を抽出する韻律抽出手段（１４）にてその単語の韻律パターンを抽出する工程と、
前記単語辞書に含まれている各単語が前記学習用音声データベースに含まれていない場合、任意の単語の韻律パターンを推定する韻律自動生成手段（１５）にてその単語の韻律パターンを推定する工程と、
前記作成された韻律クラスタの韻律パターンの中から、前記韻律抽出手段または前記韻律自動生成手段にて抽出された単語の韻律パターンにもっとも近い韻律パターンを選択する工程と、
前記韻律クラスタに対して韻律クラスタ名を割り当てる工程と、を含んでいることを特徴とする辞書作成方法。