JP2006154632A - 音声認識装置およびそれを用いた音声認識方法 - Google Patents
音声認識装置およびそれを用いた音声認識方法 Download PDFInfo
- Publication number
- JP2006154632A JP2006154632A JP2004348552A JP2004348552A JP2006154632A JP 2006154632 A JP2006154632 A JP 2006154632A JP 2004348552 A JP2004348552 A JP 2004348552A JP 2004348552 A JP2004348552 A JP 2004348552A JP 2006154632 A JP2006154632 A JP 2006154632A
- Authority
- JP
- Japan
- Prior art keywords
- prosodic
- word
- likelihood
- prosody
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
【課題】 複数の単語の組み合わせである複合語を認識する。
【解決手段】 音声データから音声認識に有効な特徴量を取り出して特徴量の音響尤度を計算し、認識辞書から音響尤度が高い単語を候補単語として任意の数だけ選択する。次に、候補単語が複合語であるか否かを判定し、候補単語が複合語である場合、韻律自動生成部37において候補単語の各韻律パターンの変化を推定して複合語の韻律パターンを推定する。生成された候補単語の韻律パターンに基づき、認識辞書35に格納されている韻律クラスタHMMを並べて、候補単語の韻律クラスタHMM列を生成し、韻律クラスタHMM列として表された候補単語の韻律尤度を計算する。この後、候補単語の音響尤度および韻律尤度の積を計算することにより、すべての候補単語の結合尤度を求め、もっとも高い結合尤度をもつ候補単語を認識結果とする。
【選択図】 図5
【解決手段】 音声データから音声認識に有効な特徴量を取り出して特徴量の音響尤度を計算し、認識辞書から音響尤度が高い単語を候補単語として任意の数だけ選択する。次に、候補単語が複合語であるか否かを判定し、候補単語が複合語である場合、韻律自動生成部37において候補単語の各韻律パターンの変化を推定して複合語の韻律パターンを推定する。生成された候補単語の韻律パターンに基づき、認識辞書35に格納されている韻律クラスタHMMを並べて、候補単語の韻律クラスタHMM列を生成し、韻律クラスタHMM列として表された候補単語の韻律尤度を計算する。この後、候補単語の音響尤度および韻律尤度の積を計算することにより、すべての候補単語の結合尤度を求め、もっとも高い結合尤度をもつ候補単語を認識結果とする。
【選択図】 図5
Description
本発明は、言葉を構成する各構成単語のアクセントを推定することにより、複合語の認識を可能にする音声認識装置およびそれを用いた音声認識方法に関する。
従来より、人の発する言葉を認識する音声認識装置が知られている。日常使用されている言葉においては、音素列が類似している単語(例えば、「箸」と「橋」)が多いため、音声認識装置ではそのような音素列が類似している単語を全く異なる言葉に間違えやすい。言葉にはアクセント(韻律)があり、そのアクセントが言葉によって異なるため、人が聞くと容易に区別できても、音声認識装置では音素列が類似している言葉を区別することが困難であった。
そこで、音声の基本周波数に関する情報を用いて音声認識性能を向上させる方法が提案されている。一つは、音声信号の音響特徴量および基本周波数(音声の高低を示す特徴量)を求め、マルチストリームとして用いて単語音声認識を行なう方法である(例えば、非特許文献1参照)。もう一つは、音声信号の音響特徴量と基本周波数の微分係数を求め、マルチストリームとして用いて単語音声認識を行なう方法である(例えば、非特許文献2参照)。この非特許文献2に示される方法では、基本周波数の微分係数は時間−ケプストラム平面のハフ変換により計算するようになっている。
これら2つの方法は、図13に示す共通の構成で実現される。以下、図13を参照して、両者の音声認識方法について述べる。図13は、従来の音声認識装置のブロック構成図である。図13に示されるように、従来の音声認識装置は、マイク90と、音響分析部91と、音響尤度計算部92と、韻律分析部93と、韻律尤度計算部94と、判定部95と、を備えて構成されている。また、図13に示される音声認識装置には、図示しない単語辞書(学習データを含む)が備えられている。
マイク90は、人の音声を入力する周知の音声入力装置である。マイク90に入力された音声信号は、音響分析部91および韻律分析部93に出力される。音響分析部91は、音声(言葉)から認識に有効な特徴量を取り出すものである。具体的に、音響分析部91は言葉の音韻(例えば「橋」ならば「は」+「し」が音韻となる)を検出し、この音韻を特徴量として音響尤度計算部92に出力する。
音響尤度計算部92は、音響分析部91から入力される特徴量に基づき、音声入力された単語としての確からしさである音響尤度(確率)を単語辞書に基づき計算するものである。音響尤度計算部92は、例えば単語辞書に登録されている言葉の中から音響尤度が高い言葉の候補をいくつかピックアップする。そして、音響尤度計算部92にて得られた音響尤度およびそれに対応する単語が判定部95に出力される。
韻律分析部93は、音声の基本周波数を分析するものである。基本周波数とは、上述のように音声の高低を表す特徴量であり、韻律の高低パターンとして得られる。韻律分析部93にて得られた韻律のパターンは、韻律尤度計算部94に出力される。
韻律尤度計算部94は、韻律分析部93から入力される韻律のパターンに基づき、韻律のパターンの確からしさである韻律尤度(確率)を単語辞書に基づき求めるものである。すなわち、韻律尤度計算部94は、単語辞書の中から韻律尤度の高い言葉の候補をいくつかピックアップする。そして、韻律尤度計算部94にて得られた韻律尤度は判定部95に出力される。
判定部95は、音響尤度計算部92および韻律尤度計算部94からそれぞれ入力される音響尤度および韻律尤度の結合尤度を求めるものである。結合尤度は、音響尤度および韻律尤度の積として得られ、この結合尤度の値が高いほど、より確からしい言葉であると言える。
したがって、判定部95は、音響尤度計算部92および韻律尤度計算部94にてそれぞれ得られた言葉の候補の結合尤度をそれぞれ求める。この後、もっとも結合尤度が高い言葉が認識結果として判定部95から出力される。以上のようにして、音声認識装置においてマイク90に音声入力された言葉が認識されるようになっている。
高橋、松永、嵯峨山、「ピッチパタン情報を考慮した単語音声認識」、電子情報通信学会技術報告、1990年6月28日、SP90−17、p.65−72 岩野、関、古井、「雑音に頑健な音声認識のための韻律情報の利用」、情報処理学会研究報告、2003年5月27日、Vol.2003、No.58、p.55−60
高橋、松永、嵯峨山、「ピッチパタン情報を考慮した単語音声認識」、電子情報通信学会技術報告、1990年6月28日、SP90−17、p.65−72 岩野、関、古井、「雑音に頑健な音声認識のための韻律情報の利用」、情報処理学会研究報告、2003年5月27日、Vol.2003、No.58、p.55−60
しかしながら、上記非特許文献1に記載の音声認識装置では、音声認識装置として認識可能な単語は単語辞書に含まれる単語のみである。したがって、複数の構成単語の組み合わせである複合語を認識することができなかった。これは、複数の単語を組み合わせると、各単語が持つアクセントが複合語に応じて変化してしまうため、複合語を認識することが困難になるためである。
すなわち、入力される言葉が複合語である場合、上記韻律尤度計算部94は、複合語を各構成単語の組み合わせとすると共に、各構成単語の韻律パターンの変化を推定する機能を有していない。したがって、複合語が入力されると、その複合語に対する認識ができない場合や、入力された複合語と全く異なる認識結果を出力する場合が生じてしまう。
非特許文献2の音声認識装置では、非特許文献1における音声認識装置と同様に、韻律の自動推定を行う手段がない。
また、非特許文献1、2の音声認識装置では、単語辞書に含まれているすべての単語の中から候補となる単語を検索するため、音声認識に時間がかかっていた。
さらに、上記非特許文献1、2の両装置は、いずれもユーザが新たに単語登録する場合を想定した構成になっておらず、単語登録を可能にする手段が提供されていない。これは、装置に記憶されていない単語が装置に登録されると、それに対応する韻律推定手段がなかったためである。
本発明は、上記点に鑑み、音声認識装置およびそれを用いた音声認識方法において、複数の単語の組み合わせである複合語を認識することを第1の目的とし、構成単語を高速認識することを第2の目的とし、単語登録を可能にすることを第3の目的とする。
上記目的を達成するため、請求項1に記載の発明では、各単語に韻律クラスタ名が割り当てられた認識辞書を用いる。そして、音声データとして複合語が入力されると、その複合語の韻律パターンを調べて韻律尤度を求め、一方で音韻に基づく音響尤度を求め、韻律尤度および音響尤度の積を計算することで結合尤度を求め、その値がもっとも高い単語を音声認識結果とすることを特徴としている。
このように、候補単語の音響尤度および韻律尤度をそれぞれ求め、それらの積を計算することにより結合尤度をそれぞれ得る。そして、もっとも高い結合尤度を有する候補単語を認識結果として出力する。このようにして、音声認識を行うことができる。音声認識の際、入力される音声データが複合語の場合であっても、その複合語を構成する各単語の韻律に基づき韻律尤度を求めているので、同じ音韻をもつ複合語(例えば「橋の科学館」と「箸の科学館」)であっても確実にその違いを認識することができる。
複合語を認識する際、複合語の韻律パターンを複数の単語の韻律パターンで構成する。このとき、各候補単語の韻律パターンにおいて韻律パターンの変化を推定する。この後、推定した韻律パターンに基づき韻律尤度を計算している。このように、各韻律パターンの変化を推定することで、複合語を複数の単語のパターンにて構成することができると共に、構成した韻律パターンから韻律尤度を求めることができる。この結果、複合語を認識することができるのである。
請求項2に記載の発明では、各単語に韻律クラスタ名が割り当てられた認識辞書を用いて、音声データから韻律パターンを抽出し、認識辞書の中から該当する韻律パターンに属する単語の韻律尤度を計算する。そして、一方で音響尤度を求めておき、各単語の韻律尤度と音響尤度とを掛け合わせて結合尤度を求め、もっとも高い結合尤度の単語を認識結果とすることを特徴としている。
このように、音声データから韻律パターンを調べることで、多数の単語が記憶されている認識辞書の中から、その韻律パターンに属する単語のみを検索する。これにより、同じ韻律パターンに属する単語の中から認識すべき単語を見つければよいため、音声認識にかかる計算量を削減でき、ひいては高速音声認識が可能になる。
請求項3に記載の発明では、認識辞書に対して、単語登録手段(42)を用いて認識辞書に登録されていない単語を新たに登録することを特徴としている。こうして、認識辞書に含まれていない新しい単語を認識辞書に登録することができる。
請求項4に記載の発明では、認識候補再評価手段は、結合尤度の高い順に複数個の認識結果を画面上に提示するようになっていることを特徴としている。
これにより、音声認識装置が、どのような候補単語を認識しようとしているのかを知ることができる。
請求項5に記載の発明では、学習用音声データベース(10)に含まれている単語の韻律パターンを抽出すると共に、同じ韻律パターン同士で韻律クラスタを生成する。そして、単語辞書に含まれている単語がどの韻律クラスタに属するのかを調べ、すべての単語に韻律クラスタ名を割り当てることを特徴としている。
このように、単語辞書に含まれる各単語に対して、同じ韻律パターンであるものに、同じ韻律クラスタ名を割り当てる。これにより、単語辞書に含まれる全単語をグループ化することができる。
請求項6に記載の発明では、認識辞書に格納されている韻律クラスタ名を用いて複合語の韻律クラスタ列を作成し、音声認識を行うことを特徴としている。
このように、複合語の韻律に基づき韻律クラスタ列を作成し、この韻律クラスタ列から韻律尤度を求める。このとき、構成単語の韻律パターンにおいて、各韻律パターンの変化を推定することで、複合語の韻律パターンを推定する。この後、推定した韻律パターンに基づき韻律尤度を計算する。そして、この韻律尤度を用いて結合尤度を求める。これにより、「はしのかがくかん」のような複合語(「はし」+「の」+「かがくかん」)であっても、各構成単語の韻律を求めることで、各候補単語の韻律尤度に差を生じさせることができる。ひいては、各候補単語の結合尤度に差を生じさせることができ、容易に、かつ、高精度に複合語を認識することができる。
請求項7に記載の発明では、音声データの基本周波数を韻律パターンとして抽出すると共に、この韻律パターンの韻律尤度を計算する工程と、単語の表記、読みが記憶されていると共に、韻律クラスタ名がそれぞれ割り当てられた複数の単語が格納された認識辞書(35)の中から対応する韻律パターンを持つ単語を認識単語候補に決定する工程と、音声データから音声認識に有効な特徴量を取り出すと共に、この特徴量から音響尤度を計算する工程と、韻律尤度と音響尤度との積を結合尤度として計算し、認識単語候補の中から結合尤度の値がもっとも高い候補単語を認識結果とする工程と、を含んでいることを特徴としている。
このように、音声データから韻律パターンを調べ、その韻律パターンに属する単語の韻律尤度のみを求める。これにより、同じ韻律パターンに属する単語のみの結合尤度を計算すればよいため、結合尤度の計算量を削減でき、ひいては高速音声認識を実現することができる。
請求項8に記載の発明では、単語およびその読みを入力する認識単語登録手段(42a)にて新たに登録したい単語およびその読みを入力する工程と、単語の韻律パターンを推定する韻律自動生成手段(42c)にて新たに登録したい単語の韻律パターンを推定する工程と、韻律自動生成手段にて推定された韻律パターンが認識辞書に記憶されている各単語のどの韻律クラスタに属するのかを選択する韻律クラスタ選択手段(42b)を用いて新たに登録したい単語を認識辞書に登録する工程と、を含んでいることを特徴としている。こうして、認識辞書に含まれていない新しい単語を認識辞書に登録することができる。
請求項9に記載の発明では、結合尤度を求める工程では、求めた結合尤度の高い順に複数個の認識結果を画面上に提示することを特徴としている。
これにより、どのような候補単語が認識されるのかを知ることができる。
請求項10に記載の発明では、単語辞書に含まれる単語に韻律クラスタ名を割り当てることを特徴としている。
このように、学習用音声データベースに含まれる音声データを用いて、単語辞書に含まれる単語に対して韻律クラスタ名を割り当てる。これにより、単語辞書の各単語は、同じ韻律パターン同士のグループとされるので、音声認識を行う際、入力された言葉の韻律パターンを調べることで、その韻律パターンに属する単語群の中から認識すべき単語を探すことができるようになる。
なお、上記各手段の括弧内の符号は、後述する実施形態に記載の具体的手段との対応関係を示すものである。
(第1実施形態)
以下、本発明の第1実施形態について図を参照して説明する。本実施形態における音声認識装置は、例えばプログラムに従った処理を行う制御回路を有しており、音声認識処理は、その制御回路内にプログラムとして構成される。また、本実施形態で示される音声認識装置は、数学的モデルである隠れマルコフモデル(Hidden Markov Model;HMM)に基づいた音声認識を実現するものであり、音声認識を行うための事前準備に用いられるものである。
以下、本発明の第1実施形態について図を参照して説明する。本実施形態における音声認識装置は、例えばプログラムに従った処理を行う制御回路を有しており、音声認識処理は、その制御回路内にプログラムとして構成される。また、本実施形態で示される音声認識装置は、数学的モデルである隠れマルコフモデル(Hidden Markov Model;HMM)に基づいた音声認識を実現するものであり、音声認識を行うための事前準備に用いられるものである。
図1は、本発明の第1実施形態に係る韻律クラスタ名割り当てを行う辞書作成装置のブロック構成図である。図1に示されるように、辞書作成装置は、学習用音声データベース10と、韻律クラスタ作成部11と、韻律クラスタHMM学習部12と、単語辞書13と、韻律抽出部14と、韻律自動生成部15と、韻律クラスタHMM選択部16と、韻律クラスタHMM名割り当て部17と、を備えて構成されている。
学習用音声データベース10は、人の生の声が音声データとして記憶されたものである。この学習用音声データベース10には、例えば数百〜数千個の音声データ(単語)が保存されている。学習用音声データベース10に記憶されている音声データは、韻律クラスタ作成部11および韻律クラスタHMM選択部16に出力される。
韻律クラスタ作成部11は、学習用音声データベース10から入力される音声データ(単語)の韻律クラスタを作成するものである。韻律クラスタとは、単語の基本周波数のパターンをその単語の韻律パターンとし、複数の単語を韻律パターンが類似するグループ化したものをいう。具体的に、図2を参照して説明する。図2は、韻律クラスタ作成部11において作成される韻律クラスタを表にして表した図である。なお、韻律クラスタ作成部11は、本発明の韻律クラスタ作成手段に相当する。
図2の左欄は、学習用音声データベース10から韻律クラスタ作成部11に入力される単語の一例を示しており、韻律クラスタ作成部11においてそれぞれの単語に対応する音声波形、すなわち韻律パターンが抽出される。これらの単語は、図2の右欄に示されるように、韻律パターンが似たもの同士でそれぞれグループごとに分けられる。例えば、「青森」と「福岡」は、韻律パターンが類似しているので、「青森」および「福岡」はその韻律パターンに属する単語としてグループ化される。
このように、韻律クラスタ作成部11は、音声データから韻律パターンとそれに対応する単語群を振り分けるようになっている。韻律クラスタ作成部11にて作成された図2に示される韻律クラスタ(韻律パターンおよびそれに属する単語)は、韻律クラスタHMM学習部12に出力される。
韻律クラスタHMM学習部12は、韻律クラスタ作成部11にて作成された複数の韻律クラスタの韻律データをHMMにより学習するものである。具体的には、韻律クラスタHMM学習部12は、各韻律パターンを、音声認識のための統計モデルの1つであるHMMを用いて学習する。なお、韻律クラスタHMM学習部12は、本発明の韻律クラスタ学習手段に相当する。
単語辞書13は、音声認識する単語とその読みが記憶されているものである。このような単語辞書13には、例えば数万語の単語とその読みが記憶されている。単語辞書13に記憶されている単語データは、韻律クラスタHMM選択部16に出力される。
韻律抽出部14は、単語辞書13に記憶されている単語が学習用音声データベース10に含まれている場合、その単語の韻律を抽出するものである。この韻律抽出部14にて抽出された韻律は、韻律クラスタHMM選択部16に出力される。なお、韻律抽出部14は、本発明の韻律抽出手段に相当する。
韻律自動生成部15は、単語辞書13に記憶されている単語が学習用音声データベース10に含まれていない場合、その単語の韻律を推定するものである。この韻律自動生成部15は、単語の文字の並びから可能性の高い韻律パターンを推定し、その韻律パターンを韻律クラスタHMM選択部16に出力する。なお、韻律自動生成部15は、本発明の韻律自動生成手段に相当する。
韻律クラスタHMM選択部16は、韻律クラスタHMM学習部12から入力される韻律クラスタHMMの韻律パターンの中から、韻律抽出部14または韻律自動生成部15にて抽出された単語の韻律パターンにもっとも近い韻律パターンを選択し、その韻律パターンに対応する韻律クラスタを韻律クラスタHMM名割り当て部17に出力するものである。なお、韻律クラスタHMM選択部16は、本発明の韻律クラスタ選択手段に相当する。
韻律クラスタHMM名割り当て部17は、韻律クラスタに対して韻律クラスタ名である韻律クラスタHMM名を割り当てるものである。このように単語に韻律クラスタHMM名を割り当てることで、単語がグループ分けされる。なお、韻律クラスタHMM名割り当て部17は、本発明の韻律クラスタ名割り当て手段に相当する。
例えば、図2の右欄に示されるように、「北海道」という単語に「P」という韻律クラスタHMM名が割り当てられる。こうして単語辞書13に記憶されているすべての単語に韻律クラスタHMM名が割り当てられる。
以上が、本実施形態に係る辞書作成装置の構成である。
次に、上記辞書作成装置において、韻律クラスタHMMの割り当てについて、図3のフローチャートを参照して説明する。図3に示されるフローチャートは、学習用データベース10に記憶されている音声データの各単語に対して韻律クラスタHMMを作成する内容を示している。
図3のフローチャートが開始されると、ステップ100では、韻律データ間距離計算がなされる。まず、学習用データベース10に記憶されている音声データが韻律クラスタ生成部11に出力される。そして、韻律クラスタ生成部11にて学習用音声データベース10の音声データの韻律が抽出される。その際、すべての韻律データ間の距離が計算される。
ステップ110では、韻律クラスタが作成される。これは、上記ステップ100にて得られた韻律データ間の距離に基づき、韻律クラスタが作成される。具体的には、図2の左欄のように抽出された韻律パターンが、図2の右欄のように、各単語の韻律パターンが類似した単語同士でグループ分けされる。このように、韻律クラスタ生成部11にて韻律クラスタが作成される。この韻律クラスタは、韻律クラスタ作成部11から韻律クラスタHMM学習部12に出力される。
ステップ120では、韻律クラスタHMM学習がなされる。すなわち、韻律クラスタ学習部12に入力された複数の韻律クラスタそれぞれに対して、1つのHMMが割り当てられ、これが学習される。
以上のようにして、韻律クラスタが学習されると、続いて、単語辞書13に含まれている各単語に韻律クラスタHMMの割り当てがなされる。この処理について、図4に示されるフローチャートを参照して説明する。図4は、韻律クラスタHMM名を割り当てる内容を示したフローチャートである。
上記図3に示される韻律クラスタが作成された後、図4に示されるフローチャートが開始されると、ステップ200では、単語辞書参照がなされる。すなわち、単語辞書13に記憶されている単語データが韻律クラスタHMM選択部16に出力される。
ステップ210では、単語辞書13の各単語が学習用音声データベース10に含まれているか否かが判定される。具体的には、韻律クラスタHMM選択部16において、単語辞書13から入力される各単語が、学習用音声データベース10から入力される各単語に含まれているかが調べられる。これは、学習用音声データベース10に単語辞書13の単語が含まれない場合、単語辞書13の単語の韻律を推定する必要があるからである。そして、本ステップにおいて、単語辞書13の単語が学習用音声データベース10に含まれている場合、ステップ220に進み、そうでない場合、ステップ230に進む。
ステップ220では、音声データから韻律抽出がなされる。これは、以下のようにしてなされる。まず、学習用音声データベース10の単語が韻律クラスタHMM選択部16を介して韻律抽出部14に出力され、この韻律抽出部14にて音声データから韻律パターンが抽出される。そして、抽出された韻律パターンが再び韻律クラスタHMM選択部16に出力される。
一方、ステップ210において、学習用音声データベース10に単語辞書13の単語が含まれていない場合、ステップ230では、韻律自動生成がなされる。すなわち、単語辞書13の単語が韻律クラスタHMM選択部16を介して韻律自動生成部15に出力され、韻律自動生成部15において、単語の韻律パターンが推定される。そして、その結果が韻律クラスタHMM選択部16に出力される。
ステップ240では、韻律クラスタHMM選択がなされる。具体的には、ステップ220、230において抽出された韻律パターンが、先に作成された韻律クラスタ(図2の右欄参照)において、どの韻律パターンにもっとも類似しているかが判定される。そして、対応する韻律クラスタHMMが選択され、その結果が韻律クラスタHMM名割り当て部17に出力される。
ステップ250では、韻律クラスタHMM名が割り当てられる。したがって、図2の右欄に示されるように、各韻律クラスタにそれぞれを識別する記号(例えば「P」、「Q」等)が割り当てられるのである。このようにして、各韻律クラスタにHMMが割り当てられる。
ステップ260では、すべての単語について上記処理がなされたか否かが判定される。つまり、単語辞書13に記憶されているすべての単語に韻律クラスタHMM名が割り当てられたか否かが判定される。すべての単語に韻律クラスタHMM名が割り当てられていない場合、ステップ200に戻り、未処理の単語に韻律クラスタHMM名を割り当てる。一方、単語辞書13に記憶されているすべての単語に韻律クラスタHMM名が割り当てられると、この処理は終了する。
以上、説明したように、本実施形態では、単語辞書13に含まれる各単語に対して、同じ韻律パターンであるものに、同じ韻律クラスタHMM名を割り当てることを特徴としている。これにより、単語辞書13に含まれる全単語を韻律パターンに基づいてグループ化できる。これにより、単語辞書13の中から一つ一つ単語を認識処理する必要が無くなり、一つの韻律パターンに属する単語の中から認識すべき単語を見つけるようにすることができる。
(第2実施形態)
本実施形態では、第1実施形態で示された韻律クラスタHMM割り当てがなされた単語辞書(後述する図5参照)を用いて音声認識を行う音声認識装置について説明する。本実施形態で示される音声認識装置は、単語の他に、例えば「橋の科学館」等の複合語(詳しくは「橋」+「の」+「科学館」)や文章を認識することができるものである。以下、図を参照して説明する。
本実施形態では、第1実施形態で示された韻律クラスタHMM割り当てがなされた単語辞書(後述する図5参照)を用いて音声認識を行う音声認識装置について説明する。本実施形態で示される音声認識装置は、単語の他に、例えば「橋の科学館」等の複合語(詳しくは「橋」+「の」+「科学館」)や文章を認識することができるものである。以下、図を参照して説明する。
図5は、第2実施形態に係る音声認識装置のブロック構成図である。図5に示されるように、音声認識装置は、マイク30と、音響分析部31と、音響尤度計算部32と、音響HMM部33と、認識候補判定部34と、認識辞書35と、韻律クラスタ選択部36と、韻律自動生成部37と、韻律分析部38と、韻律尤度計算部39と、韻律クラスタHMM部40と、認識候補評価部41と、単語登録部42と、を備えて構成されている。
マイク30は、周知の音声入力装置である、マイク30を介して音声が入力されると、その音声の音声データが音響分析部31および韻律分析部38に出力される。
音響分析部31は、マイク30から入力される複合語の音声データから音声認識に有効な特徴量を取り出し、音響尤度計算部32に出力する。
音響尤度計算部32は、音響分析部31から入力される特徴量の尤度(音響尤度)を計算するものである。具体的に、音響尤度計算部32は、音響分析部31から入力される特徴量に基づき、音声入力された複合語(単語の組み合わせ)としての確からしさである音響尤度(確率)を後述する音響HMM部33および認識辞書35を用いて計算し、例えば認識辞書35に登録されている単語の中から音響尤度が高い言葉の候補をいくつかピックアップする。このようにして音響尤度計算部32にて得られた音響尤度およびそれに対応する単語が認識候補判定部34に出力される。
音響HMM部33は、音素の平均・分散等のデータを使って音響尤度を計算するものである。
なお、音響分析部31、音響尤度計算部32、音響HMM部33は、本発明の音響尤度計算手段に相当する。
認識候補判定部34は、音響尤度の高い順から上位にある単語を複数選択するものである。そして、認識候補判定部34で選択された各単語の単語名および音響尤度が韻律クラスタ選択部36に出力される。なお、認識候補判定部34は本発明の認識候補判定手段に相当する。
認識辞書35は、単語の表記、読み、そして韻律クラスタHMM名が格納されたものである。本実施形態で用いられる認識辞書35に含まれている単語には、上記第1実施形態で示されたように、各単語に対して図2の右欄に示される韻律クラスタHMM名が割り当てられている。したがって、数多くの単語の中から該当する韻律パターンを見つけると、その韻律パターンに属する単語の中から認識すべき単語を見つければ良いため、音声認識が非常に容易にできるのである。
なお、この認識辞書35には、後述する単語登録部42にて新たに登録された単語が入力されるようになっている。
韻律クラスタ選択部36は、認識候補判定部34から入力される候補単語において、認識辞書35に記憶されているその単語の韻律クラスタHMM名を選択し、韻律クラスタHMM名および音響尤度を候補単語についてそれぞれ韻律尤度計算部39に出力する。
また、韻律クラスタ選択部36は、複合語がマイク30から入力された時、後述する韻律自動生成部37にて生成された韻律パターンを入力すると共に、認識辞書35に記憶されている単語の韻律パターンの中から近い韻律パターンおよびその韻律クラスタHMM名を選択する。こうして選択した候補単語およびそのクラスタ名および音響尤度を音響尤度計算部39に出力する。
韻律自動生成部37は、複合語を構成する構成単語の韻律パターンの変化を推定するものである。これにより、各構成単語のアクセントが変化しても、各構成単語の韻律パターンを推定することができる。こうして生成された韻律パターンは、韻律クラスタ選択部36に出力される。なお、本実施形態の韻律自動生成部37は、第1実施形態と同様に、認識辞書35に含まれていない単語の韻律を推定する機能も有している。
なお、韻律クラスタ選択部36、韻律自動生成部37は、本発明の韻律クラスタ選択手段に相当する。
韻律分析部38は、マイク30から入力される言葉の基本周波数を分析するものである。基本周波数とは、上述のように音声の高低を表す特徴量であり、韻律の高低パターンとして得られる。韻律分析部30にて得られた韻律のパターンは、韻律尤度計算部39に出力される。
韻律尤度計算部39は、韻律分析部38から入力される韻律パターンに基づき、韻律パターンの確からしさである韻律尤度(確率)を計算するものである。韻律尤度計算部39は、韻律尤度を計算すると、音響尤度および韻律尤度を候補単語についてそれぞれ認識候補再評価部41に出力する。
韻律クラスタHMM部40は、第1実施形態の韻律クラスタHMM学習部12と同じものである。すなわち、韻律分析部38において分析された言葉の韻律パターンが認識辞書35に登録されていない場合、もっとも近いパターンのクラスタ名を付けて記憶する。
なお、韻律分析部38、韻律尤度計算部39、韻律クラスタHMM部40は、本発明の韻律尤度計算手段に相当する。
認識候補再評価部41は、韻律尤度計算部39から入力される各候補単語の音響尤度および韻律尤度の積として得られる結合尤度を求めるものである。結合尤度の値がもっとも高い単語が認識結果とされる。したがって、認識候補再評価部41は入力されたすべての候補単語の結合尤度を求めると共に、もっとも高い結合尤度をもつ単語について、その単語名および結合尤度を認識結果として出力する。なお、認識候補再評価部41は本発明の認識候補再評価手段に相当する。
単語登録部42は、認識辞書35に含まれていない単語を新たに登録するものであり、認識単語等力部42aと、韻律クラスタ選択部42bと、韻律自動生成部42cと、を備えて構成されている。
認識単語登録部42aは、新たに登録したい単語およびその読みを入力する手段である。この認識単語登録部42aにて入力された単語およびその読みは、韻律クラスタ選択部42bに出力される。また、韻律クラスタ選択部42bは、上述した韻律クラスタ選択部36と同じものであり、韻律自動生成部42cは、上述した韻律自動生成部37と同じものである。
このような単語登録部42においては、認識単語登録部42aにて新しい単語が入力されると、韻律自動生成部42cにてその単語の韻律が生成され、韻律クラスタ選択部42bにてその韻律パターンにクラスタ名が付けられる。こうして、新しい単語の読み、韻律パターン、そしてクラスタ名が認識辞書35に出力され、認識辞書35に登録されるのである。
以上が、本実施形態に係る音声認識装置の構成である。
次に、図5に示される音声認識装置が複合語を音声認識する作動について、図6〜図9を参照して説明する。図6は、本実施形態の音声認識装置において、複合語を認識する処理を示したフローチャートである。
また、図7は、複合語と、複合語を構成する単語の韻律パターンから韻律クラスタHMM名を割り当てた表を示した図である。図7に示されるように、本実施形態では、複合語として「箸の科学館」、「橋の科学館」、「電気大学」を採用している。それぞれの複合語を構成単語に分けると、「箸」、「橋」、「の」、「科学館」、「電気」、「大学」となり、それぞれの単語に対応する韻律パターンが示されている。
第1実施形態で説明したように、各韻律パターンが類似するものがグループ化され、各単語がそれぞれの韻律パターンに属することとなる。そして、各韻律パターンに韻律クラスタHMM名が名付けられている。例えば「箸」および「大学」の韻律クラスタHMM名は「A」である。このような単語情報が認識辞書35に記憶されている。
図6のフローチャートが開始されると、ステップ300では、音響尤度計算に基づく認識がなされ、複数の認識単語候補が音韻認識結果とされる。具体的には、マイク30から入力された複合語は、音響分析部31にて音声認識に有効な特徴量が取り出され、音響尤度計算部32にてその特徴量の尤度が計算される。この際、認識辞書35に登録されている単語の中から、音響尤度の高い単語がいくつかピックアップされ、それらの単語が音響尤度と共に認識候補判定部34に入力される。
この後、認識候補判定部34において音響尤度計算部32から入力される単語の中から認識候補判定部34にて音響尤度の高い順から複数の単語が認識候補単語とされ、韻律クラスタ選択部36に出力される。
ステップ310では、韻律クラスタ選択部36に入力された認識候補単語が複合語であるか否かが判定される。これは、韻律クラスタ選択部36に入力される認識候補単語列が複数の単語で構成されるか否かが判定されることによりなされる。そして、複合語である場合、ステップ340に進む。一方、複合語でない場合、ステップ320に進む。
ステップ320では、ステップ310において複合語でない場合、認識辞書35の各単語にそれぞれ割り当てられた韻律クラスタHMMが選択される。すなわち、韻律クラスタ選択部36に入力された単語に、認識辞書35に記憶されている韻律クラスタHMMが付けられる。
ステップ330では、複合語の場合、韻律自動生成がなされる。これは、韻律クラスタ選択部36から複合語が韻律自動生成部37に出力され、韻律自動生成部37にて韻律が自動生成されることによりなされる。例えば「東京ディズニーランド」のような複合語については、韻律自動生成部37にて韻律変化が推定される。この場合、「東京」、「ディズニー」、「ランド」というようにそれぞれの構成単語のパターンの変化が自動推定される。そして、これら単語が韻律クラスタ選択部36に入力されると、認識辞書35に記憶されている韻律クラスタHMM名がそれぞれの単語に付けられる。自動生成された韻律は、韻律クラスタ選択部36に入力される。
ステップ340では、韻律クラスタHMM列が生成される。つまり、韻律クラスタ選択部36において、ステップ330にて得られた韻律クラスタHMMが、単語の出現順に連結されることで韻律クラスタHMM列が生成される。このようにして生成された韻律クラスタHMM列は、韻律尤度計算部39に出力される。
図8は、マイク30から入力された複合語(施設)の音韻列とそれに該当する韻律クラスタHMM列の例を示した図である。例えば、「箸の科学館」という複合語は、「箸」+「の」+「科学館」という単語列の組み合わせとされ、それぞれの音韻に対応する韻律クラスタHMM名が「A」+「C」+「D」という列として表される(図7参照)。同様に、「橋の科学館」であれば、「B」+「C」+「D」、「電気大学」であれば「B」+「A」という列として表される。
このように、本ステップでは、図8に示されるように韻律クラスタHMM列が生成され、そのHMM列が韻律尤度計算部39に出力されるのである。
ステップ350では、韻律尤度計算がなされる。本ステップでは、韻律尤度計算部39において、韻律分析部38にて分析された韻律パターンおよびステップ320、340から入力される韻律クラスタHMM列が用いられて韻律尤度が計算される。本ステップにて計算された韻律尤度は、認識候補再評価部41に出力される。
なお、複合語については、韻律自動生成部37による韻律変化推定がなされることで、単語列における単語前後の連結によりアクセントが変化した場合についても適切な韻律クラスタが選択されるようになっている。
ステップ360では、認識候補再評価がなされる。具体的には、韻律尤度計算部39から入力される各認識単語候補の音響尤度および韻律尤度の積を計算することにより、すべての候補単語の結合尤度が求められる。この後、もっとも高い結合尤度をもつ単語または単語列について、その単語名または単語列名および結合尤度が認識結果として出力される。
図9は、「はしのかがくかん」について「箸の科学館」および「橋の科学館」それぞれの結合尤度を計算する様子を示した図である。例えば、マイク30から「はしのかがくかん」という音声入力があったとすると、図9に示されるように、音韻は「はし」+「の」+「かがくかん」となる。ここで、「はし」の韻律パターンが「箸」と「橋」とで異なる。すなわち、音響尤度は同じ音韻であるので等しい(音韻尤度=0.1)が、「はし」の韻律が互いに異なるため、それぞれの韻律尤度も異なっている。
具体的には、「箸の科学館」としたときの韻律尤度は0.2、「橋の科学館」としたときの韻律尤度は0.05とされる。したがって、「箸の科学館」としたときの結合尤度は0.1(音響尤度)×0.2(韻律尤度)=0.02(結合尤度)となる。一方、「橋の科学館」としたときの結合尤度は0.1(音響尤度)×0.05(韻律尤度)=0.005(結合尤度)となる。以上の結合尤度から、マイク30から入力された音声は、「箸の科学館」としてその結合尤度と共に認識結果として出力されることとなる。
こうして、単語または複合語の音声認識処理が終了する。
以上、説明したように、本実施形態では、候補単語の音響尤度および韻律尤度をそれぞれ求め、それらの積を計算することにより結合尤度をそれぞれ求め、もっとも高い結合尤度を有する候補単語を認識結果として出力することを特徴としている。このように、音声認識の際、入力される音声データが複合語の場合であっても、その複合語を構成する各単語の韻律に基づき韻律尤度を求めているので、同じ音韻をもつ複合語(例えば「橋の科学館」と「箸の科学館」)であっても確実にその違いを認識することができる。
詳しくは、複合語を認識する際、複合語の韻律パターンの変化を推定して組み合わせることで複合語の韻律パターンを推定し、推定した韻律パターンに基づき韻律尤度を計算している。このように、本来の構成単語の韻律パターンにおいて、各韻律パターンの変化を推定することで、複合語の韻律パターンを推定することができると共に、各単語の韻律パターンから韻律尤度を求めることができる。このようにして求めた韻律尤度を用いることで、結合尤度に差を生じさせることができ、複合語を認識することができる。
上記韻律尤度を求める際には、単語に韻律クラスタHMM名が割り当てられた認識辞書35を用いることで、複合語を韻律クラスタHMM列として表すことができると共に、それぞれの韻律に基づいた韻律尤度を計算することができる。
さらに、認識辞書35に含まれていない単語を認識辞書35に登録することができる。これにより、認識辞書35に含まれている単語のみならず、様々な単語をさらに認識辞書35に登録することで、認識できる単語数を確実に増やすことができる。
(第3実施形態)
本実施形態では、第1実施形態で示された韻律クラスタHMM割り当てがなされた認識辞書(後述する図10参照)を用いて音声認識を行う音声認識装置について説明する。本実施形態で示される音声認識装置は、コマンドなどの孤立単語を高速に認識するものである。したがって、本実施形態で示される音声認識装置は、カーナビゲーションシステムに用いて好適である。以下、図を参照して説明する。
本実施形態では、第1実施形態で示された韻律クラスタHMM割り当てがなされた認識辞書(後述する図10参照)を用いて音声認識を行う音声認識装置について説明する。本実施形態で示される音声認識装置は、コマンドなどの孤立単語を高速に認識するものである。したがって、本実施形態で示される音声認識装置は、カーナビゲーションシステムに用いて好適である。以下、図を参照して説明する。
図10は、本発明の第3実施形態に係る音声認識装置のブロック構成図である。図10に示されるように、音声認識装置は、マイク50と、韻律分析部51と、韻律尤度計算部52と、韻律クラスタHMM部53と、認識辞書54と、認識候補判定部55と、音韻分析部56と、音響尤度計算部57と、音響HMM部58と、認識候補再評価部59と、を備えて構成されている。また、認識辞書54には、単語登録部42から単語が入力されるようになっている。これら構成要素は、上述した第1、第2実施形態で示された音声認識装置にそれぞれ用いられているものと同じものである。
具体的には、マイク50は、第2実施形態のマイク30に相当し、韻律分析部51は第2実施形態の韻律分析部31に相当し、韻律尤度計算部52は第2実施形態の韻律尤度計算部39に相当し、韻律クラスタHMM部53は第2実施形態の韻律クラスタHMM部40に相当し、認識辞書54は第2実施形態の認識辞書35に相当し、認識候補判定部55は第2実施形態の認識候補判定部34に相当し、音響分析部56は第2実施形態の音響分析部31に相当し、音響尤度計算部57は第2実施形態の音響尤度計算部32に相当し、音響HMM部58は第2実施形態の音響HMM部33に相当し、認識候補再評価部59は第2実施形態の認識候補再評価部41に相当する。
また、韻律分析部51、韻律尤度計算部52、韻律クラスタHMM部53は本発明の韻律尤度計算手段に相当し、認識候補判定部55は本発明の認識候補判定手段に相当し、音韻分析部56、音響尤度計算部57、音響HMM部58は本発明の音響尤度計算手段に相当し、認識候補再評価部59は本発明の認識候補再評価手段に相当する。
なお、認識辞書54には、第2実施形態と同様に、各単語に対して韻律クラスタHMM名が名付けられた状態として各単語が記憶されている。図11は、構成単語と、それに対応する韻律クラスタHMM名の例を示した図である。図11に示されるように、構成単語である地名(北海道、青森等)に韻律クラスタHMM名が割り当てられた状態となっている。例えば、「北海道」という構成単語に対して「P」という韻律クラスタHMM名が付けられている。このように、認識辞書54には、構成単語とそれに対応する韻律クラスタHMM名が記憶されている。
次に、図10に示される音声認識装置が構成単語を音声認識する作動について、図12のフローチャートを参照して説明する。図12は、本実施形態の音声認識装置において、構成単語を認識する処理を示したフローチャートである。
ステップ400では、韻律尤度計算がなされる。具体的には、マイク50に入力された音声の基本周波数、すなわち韻律パターンが韻律分析部51にて取得される。そして、この韻律パターンが韻律尤度計算部52に入力され、韻律パターンの尤度(韻律尤度)が計算される。なお、韻律尤度計算部52は、韻律クラスタHMM部53を用いて韻律尤度を計算する。本ステップにおいて得られた韻律尤度は、認識候補判定部55に出力される。
ステップ410では、認識単語候補決定がなされる。すなわち、認識候補判定部55において、認識辞書54の中から該当する韻律を持つ単語だけが認識単語候補として限定される。これらの認識単語候補は、音響尤度計算部57に出力される。
ステップ420では、音響尤度計算がなされる。まず、マイク50に入力された音声データが音響分析部56に入力されると、その音声データから音声認識に有効な特徴量が取り出される。この特徴量が音響尤度計算部57に入力され、音響尤度計算部57にて特徴量の尤度(音響尤度)が計算される。なお、音響尤度計算部57は、音響尤度を計算するための文字の並びや音素、平均・分散等のデータを音響HMM部58から随時読み込む。
ステップ430では、認識候補再評価がなされる。具体的には、音響尤度計算部57を介して認識候補判定部55から入力される韻律尤度と、音響尤度計算部57から入力される音響尤度と、の積が計算される。そして、結合尤度の値がもっとも高い候補単語が認識結果とされる。こうして得られた認識単語およびその結合尤度が認識結果として出力される。
なお、認識辞書54には、単語登録部42を介して随時新しい構成単語が入力されるようになっている。
以上、説明したように、音声データから韻律パターンを調べることで、多数の単語が記憶されている認識辞書54の中から、その韻律パターンに属する単語のみを検索することを特徴としている。これにより、同じ韻律パターンに属する単語の中から認識すべき単語を見つければよいため、音声認識にかかる計算量を削減でき、ひいては高速音声認識が可能になる。
また、認識辞書54に含まれていない単語を認識辞書54に登録することができる。これにより、認識辞書54に含まれている単語のみならず、様々な単語をさらに認識辞書54に登録することで、認識できる単語数を増やすことができる。
(他の実施形態)
上記第1〜第3に示した各音声認識装置の構成は一例を示すものであって、これらに限るものではない。同様に、各音声認識装置が行う作動についても同様である。
上記第1〜第3に示した各音声認識装置の構成は一例を示すものであって、これらに限るものではない。同様に、各音声認識装置が行う作動についても同様である。
上記第1〜第3実施形態で示された音声認識装置は、マイク30、50以外の各構成要素はソフトウェアとして構築されるものであるが、ハードウェアとして構成したものを用いても構わない。
上記第2、第3実施形態で示された音韻認識装置においては、認識辞書35、54に記憶されていない単語を新たに登録するための単語登録部42が備えられているが、この単語登録部42を備えない構成としても良い。また、単語登録部42を別体のハードウェアとして構成し、図5および図10に示される音声認識装置の認識辞書35、54に接続するようにしても良い。
上記第2、第3実施形態において、認識候補再評価部41、59は、結合尤度の高い順に複数個の認識結果を画面上に提示するようにしてもよい。このような場合、認識候補再評価部41、59から表示手段に信号を出力し、表示手段にて結合尤度の高い順に複数個の認識結果を表示する。これにより、音声認識装置が、どのような候補単語を認識しようとしているのかを知ることができる。
また、音声入力モード切替手段を設けることで、第2実施形態における複合語を認識する音声認識方法と、第3実施形態おける構成単語を高速認識する音声認識方法と、を切り換えるようにしても良い。
なお、各図中に示したステップは、各種処理を実行する手段に対応するものである。
10…学習用音声データベース、11…韻律クラスタ作成部、
12…韻律クラスタHMM学習部、13…単語辞書、14…韻律抽出部、
15、37、42c…韻律自動生成部、16…韻律クラスタHMM選択部、
17…韻律クラスタHMM名割り当て部、30、50…マイク、
31、56…音響分析部、32、57…音響尤度計算部、
33、58…音響HMM部、34、55…認識候補判定部、35、54…認識辞書、
36、42b…韻律クラスタ選択部、38、51…韻律分析部、
39、52…韻律尤度計算部、40、53…韻律クラスタHMM部、
41、59…認識候補再評価部、42…単語登録部、42a…認識単語登録部。
12…韻律クラスタHMM学習部、13…単語辞書、14…韻律抽出部、
15、37、42c…韻律自動生成部、16…韻律クラスタHMM選択部、
17…韻律クラスタHMM名割り当て部、30、50…マイク、
31、56…音響分析部、32、57…音響尤度計算部、
33、58…音響HMM部、34、55…認識候補判定部、35、54…認識辞書、
36、42b…韻律クラスタ選択部、38、51…韻律分析部、
39、52…韻律尤度計算部、40、53…韻律クラスタHMM部、
41、59…認識候補再評価部、42…単語登録部、42a…認識単語登録部。
Claims (10)
- 単語の表記、読みが記憶されていると共に、韻律クラスタ名がそれぞれ割り当てられた複数の単語が格納された認識辞書(35)と、
音声データを入力すると共に、前記音声データから音声認識に有効な特徴量を取り出して前記特徴量の音響尤度を計算し、前記認識辞書から前記音響尤度が高い単語を任意の数だけ選択する音響尤度計算手段(31〜33)と、
前記音響尤度計算手段から前記音響尤度を入力し、前記音響尤度が高い上位の複数の候補単語をその音響尤度と共にそれぞれ出力する認識候補判定手段(34)と、
前記音声データが複合語の場合、前記音声データの基本周波数を韻律パターンとして抽出すると共に、前記候補単語の韻律パターンにおいて、各韻律パターンの変化を推定することで前記複合語の韻律パターンを推定すると共に、前記音響尤度および前記候補単語列そしてこの候補単語列に対応する韻律クラスタ名列をそれぞれ出力する韻律クラスタ選択手段(36、37)と、
前記音声データを入力すると共に、前記音声データの基本周波数を韻律パターンとして抽出し、この韻律パターンを複数の候補単語の韻律パターンで構成すると共に、各韻律パターンにおいて、各韻律パターンの変化を推定した後、推定した韻律パターンに基づき韻律尤度を計算する韻律尤度計算手段(38〜40)と、
前記音響尤度計算手段から前記候補単語の音響尤度を入力すると共に、前記韻律尤度計算手段から韻律尤度を入力し、前記音響尤度および前記韻律尤度の積を計算することですべての候補単語について結合尤度を求め、もっとも高い結合尤度を有する候補単語を認識結果として出力する認識候補再評価手段(41)と、を備えることを特徴とする音声認識装置。 - 単語の表記、読みが記憶されていると共に、韻律クラスタ名がそれぞれ割り当てられた複数の単語が格納された認識辞書(54)と、
音声データを入力し、前記音声データの基本周波数を抽出すると共に、この基本周波数から韻律パターンを求め、前記韻律パターンに基づき韻律尤度を計算する韻律尤度計算手段(51〜53)と、
前記韻律尤度計算手段から前記韻律尤度を入力し、前記韻律尤度が高い上位の複数の候補単語をその韻律尤度と共にそれぞれ出力する認識候補判定手段(55)と、
前記音声データを入力すると共に、前記音声データから音声認識に有効な特徴量を取り出して前記特徴量の音響尤度を計算する音響尤度計算手段(56〜58)と、
前記音響尤度計算手段から前記候補単語の音響尤度を入力すると共に、前記韻律尤度計算手段から前記韻律尤度を入力し、前記音響尤度および前記韻律尤度の積を計算することですべての候補単語の結合尤度をそれぞれ求め、もっとも高い結合尤度を有する候補単語を認識結果として出力する認識候補再評価手段(59)と、を備えることを特徴とする音声認識装置。 - 前記認識辞書には、単語登録手段(42)から単語データが入力されるようになっており、
前記単語登録手段は、
新たに登録したい単語およびその読みを入力する認識単語登録手段(42a)と、
前記新たに登録したい単語の韻律パターンを推定する韻律自動生成手段(42c)と、
前記韻律自動生成手段にて推定された韻律パターンが前記認識辞書に記憶されている各単語のどの韻律クラスタに属するのかを選択すると共に、前記新たに登録したい単語を前記認識辞書に登録する韻律クラスタ選択手段(42b)と、を備えていることを特徴とする請求項1または2に記載の音声認識装置。 - 前記認識候補再評価手段は、前記結合尤度の高い順に複数個の認識結果を画面上に提示するようになっていることを特徴とする請求項1ないし3のいずれか1つに記載の音声認識装置。
- 複数の単語の音声データが記憶されていると共に、それら音声データを出力する学習用音声データベース(10)と、
前記学習用音声データベースから入力される前記複数の音声データの韻律パターンを抽出すると共に、抽出した韻律パターンが類似するものをグループ化することにより韻律クラスタを作成する韻律クラスタ作成手段(11)と、
前記韻律クラスタ作成手段から前記韻律クラスタを入力すると共に、各韻律クラスタを学習し、前記韻律パターンを含む韻律クラスタとして出力する韻律クラスタ学習手段(12)と、
任意の複数の単語とその読みが記憶されている単語辞書(13)と、
前記単語辞書に記憶されている単語が前記学習用音声データベースに含まれている場合、その単語の韻律を抽出する韻律抽出手段(14)と、
前記単語辞書に記憶されている単語が前記学習用音声データベースに含まれていない場合、その単語の韻律パターンを推定する韻律自動生成手段(15)と、
前記韻律クラスタ学習手段から入力される韻律クラスタの韻律パターンの中から、前記韻律抽出手段または前記韻律自動生成手段にて抽出された単語の韻律パターンにもっとも近い韻律パターンを選択し、その韻律パターンに対応する韻律クラスタを出力する韻律クラスタ選択手段(16)と、
前記韻律クラスタ選択手段から入力される韻律クラスタに、各韻律クラスタを区別する韻律クラスタ名を割り当てる韻律クラスタ名割り当て手段(17)と、を備えることを特徴とする音声認識装置に使用される辞書作成装置。 - 音声データから音声認識に有効な特徴量を取り出して前記特徴量の音響尤度を計算し、単語の表記、読みが記憶されていると共に、韻律クラスタ名がそれぞれ割り当てられた複数の単語が格納された認識辞書(35)から音響尤度が高い単語を候補単語として任意の数だけ選択する工程と、
前記候補単語が複合語であるか否かを判定する工程と、
前記音声データの基本周波数を韻律パターンとして抽出し、前記候補単語が複合語である場合、複合語である候補単語の各韻律パターンの変化を推定する工程と、
生成された各韻律パターンの変化に基づき、前記認識辞書に格納されている韻律クラスタを並べて、前記候補単語の韻律クラスタ列を生成する工程と、
前記韻律クラスタ列として表された前記候補単語の韻律尤度を計算する工程と、
前記候補単語の音響尤度および韻律尤度の積を計算することにより、すべての候補単語の結合尤度を求め、もっとも高い結合尤度をもつ候補単語を認識結果とする工程と、を含んでいることを特徴とする音声認識方法。 - 音声データの基本周波数を韻律パターンとして抽出すると共に、この韻律パターンの韻律尤度を計算する工程と、
単語の表記、読みが記憶されていると共に、韻律クラスタ名がそれぞれ割り当てられた複数の単語が格納された認識辞書(35)の中から対応する韻律パターンを持つ単語を認識単語候補に決定する工程と、
前記音声データから音声認識に有効な特徴量を取り出すと共に、この特徴量から音響尤度を計算する工程と、
前記韻律尤度と前記音響尤度との積を結合尤度として計算し、前記認識単語候補の中から前記結合尤度の値がもっとも高い候補単語を認識結果とする工程と、を含んでいることを特徴とする音声認識方法。 - 前記認識辞書に含まれていない単語を登録する音声認識方法であって、
単語およびその読みを入力する認識単語登録手段(42a)にて新たに登録したい単語およびその読みを入力する工程と、
単語の韻律パターンを推定する韻律自動生成手段(42c)にて前記新たに登録したい単語の韻律パターンを推定する工程と、
前記韻律自動生成手段にて推定された韻律パターンが前記認識辞書に記憶されている各単語のどの韻律クラスタに属するのかを選択する韻律クラスタ選択手段(42b)を用いて前記新たに登録したい単語を前記認識辞書に登録する工程と、を含んでいることを特徴とする請求項6または7に記載の音声認識方法。 - 前記結合尤度を求める工程では、求めた結合尤度の高い順に複数個の認識結果を画面上に提示することを特徴とする請求項6ないし8のいずれか1つに記載の音声認識方法。
- 任意の複数の単語とその読みが記憶されている単語辞書(13)に含まれる単語の韻律に基づく韻律クラスタ名をそれぞれ割り当てる辞書作成方法であって、
複数の単語の音声データを備えた学習用音声データベース(10)から前記音声データの韻律を抽出し、前記音声データのすべての韻律データ間の距離を計算する工程と、
前記韻律データ間の距離に基づき、前記音声データの韻律パターンが類似するものをグループ化することにより韻律クラスタを作成する工程と、
前記韻律クラスタそれぞれに対して、1つの学習機能を割り当てる工程と、
前記単語辞書に含まれている各単語が前記学習用音声データベースに含まれているか否かを判定する工程と、
前記単語辞書の単語が前記学習用音声データベースに含まれている場合、任意の単語の韻律を抽出する韻律抽出手段(14)にてその単語の韻律パターンを抽出する工程と、
前記単語辞書に含まれている各単語が前記学習用音声データベースに含まれていない場合、任意の単語の韻律パターンを推定する韻律自動生成手段(15)にてその単語の韻律パターンを推定する工程と、
前記作成された韻律クラスタの韻律パターンの中から、前記韻律抽出手段または前記韻律自動生成手段にて抽出された単語の韻律パターンにもっとも近い韻律パターンを選択する工程と、
前記韻律クラスタに対して韻律クラスタ名を割り当てる工程と、を含んでいることを特徴とする辞書作成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004348552A JP2006154632A (ja) | 2004-12-01 | 2004-12-01 | 音声認識装置およびそれを用いた音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004348552A JP2006154632A (ja) | 2004-12-01 | 2004-12-01 | 音声認識装置およびそれを用いた音声認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006154632A true JP2006154632A (ja) | 2006-06-15 |
Family
ID=36632988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004348552A Withdrawn JP2006154632A (ja) | 2004-12-01 | 2004-12-01 | 音声認識装置およびそれを用いた音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006154632A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7979270B2 (en) | 2006-12-01 | 2011-07-12 | Sony Corporation | Speech recognition apparatus and method |
-
2004
- 2004-12-01 JP JP2004348552A patent/JP2006154632A/ja not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7979270B2 (en) | 2006-12-01 | 2011-07-12 | Sony Corporation | Speech recognition apparatus and method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4769223B2 (ja) | テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置 | |
JP6493866B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US8666743B2 (en) | Speech recognition method for selecting a combination of list elements via a speech input | |
JP3848319B2 (ja) | 情報処理方法及び情報処理装置 | |
CN109243461B (zh) | 语音识别方法、装置、设备及存储介质 | |
CN110147451B (zh) | 一种基于知识图谱的对话命令理解方法 | |
US8271282B2 (en) | Voice recognition apparatus, voice recognition method and recording medium | |
CN111402857A (zh) | 语音合成模型训练方法和装置、电子设备及存储介质 | |
US9711133B2 (en) | Estimation of target character train | |
JP5221768B2 (ja) | 翻訳装置、及びプログラム | |
CN102439660A (zh) | 基于置信度得分的语音标签方法和装置 | |
CN101515456A (zh) | 语音识别接口装置及其语音识别方法 | |
KR101068122B1 (ko) | 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법 | |
JP2002062891A (ja) | 音素割当て方法 | |
JP6082657B2 (ja) | ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム | |
JP6009396B2 (ja) | 発音付与方法とその装置とプログラム | |
JP2006154632A (ja) | 音声認識装置およびそれを用いた音声認識方法 | |
KR100890404B1 (ko) | 음성 인식을 이용한 자동 번역 방법 및 장치 | |
JP3378547B2 (ja) | 音声認識方法及び装置 | |
Marie-Sainte et al. | A new system for Arabic recitation using speech recognition and Jaro Winkler algorithm | |
CN117219116B (zh) | 现代汉语语音分析方法、系统及存储介质 | |
CN116645957B (zh) | 乐曲生成方法、装置、终端、存储介质及程序产品 | |
JP5522679B2 (ja) | 検索装置 | |
CN113345442B (zh) | 语音识别方法、装置、电子设备及存储介质 | |
JP2013250379A (ja) | 音声認識装置、音声認識方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20080205 |