JP3936827B2

JP3936827B2 - 音声認識装置および方法

Info

Publication number: JP3936827B2
Application number: JP2000001032A
Authority: JP
Inventors: 誠庄境
Original assignee: Asahi Kasei Corp
Current assignee: Asahi Kasei Corp
Priority date: 2000-01-06
Filing date: 2000-01-06
Publication date: 2007-06-27
Anticipated expiration: 2020-01-06
Also published as: JP2001195083A

Description

【０００１】
【発明の属する技術分野】
本願発明は、語彙に含まれる単語以外の音を高い精度で棄却することが可能な音声認識装置および音声認識方法に関するものである。
【０００２】
【従来の技術】
特定の話者に固有の登録語を認識する技術を一般に特定話者音声認識と呼ぶ。特定話者音声認識においては、特定の話者が予め音声認識させたい単語を登録するという作業が発生する。この作業は具体的には、特定の話者が予め発声した単語の音声サンプルをある特徴パラメータの系列（テンプレートと呼ぶ）に変換し、その系列を単語のラベルとともにメモリーやハードディスクなどの記憶装置に蓄積する。音声サンプルをある特徴パラメータの系列に変換する方法としては、ケプストラム分析や線形予測分析などが知られており、「音声・音情報のディジタル信号処理」（鹿野清宏、中村哲、伊勢史郎共著、（株）昭晃堂）にも詳述されている。
特定話者音声認識においては、記憶装置に蓄積された特徴パラメータの系列と入力された音声から変換された特徴パラメータの系列とを比較し、入力された音声から変換された特徴パラメータの系列に最も類似した特徴パラメータの系列を持つ単語のラベルを認識結果として出力する。記憶装置に蓄積された特徴パラメータの系列と入力された音声から変換された特徴パラメータの系列とを比較する方法としては、動的計画法(Dynamic Programming)による時間軸伸縮マッチング(Dynamic Time Warping, DTW)が広く用いられており、上記「音声・音情報のディジタル信号処理」にも詳しく述べられている。特定話者音声認識装置においては、入力音から求められた特徴パラメータの系列と登録語のテンプレート（特徴パラメータの系列）との類似度を上記のＤＴＷなどの方法で求め、その類似度があるしきい値より大きい場合に、登録語以外の音が入力されたとして棄却するという方法が一般に採用されている。
一方、不特定の話者に共通の固定語を認識する技術を一般に不特定話者音声認識と呼ぶ。不特定話者音声認識においては、不特定の話者に共通の固定語の特徴パラメータに関する情報が予め記憶装置に蓄積されているため、特定話者音声認識のようにユーザーが音声認識させたい単語を登録するという作業は発生しない。音声サンプルをある特徴パラメータの系列に変換する方法としては、特定話者音声認識と同様にケプストラム分析や線形予測分析などが知られている。また、不特定の話者に共通の固定語の特徴パラメータに関する情報の作成およびその情報と入力された音声から変換された特徴パラメータの系列との比較には、隠れマルコフモデル(Hidden Markov Model, HMM)による方法が一般に用いられている。ＨＭＭによる不特定話者音声認識についても、上記「音声・音情報のディジタル信号処理」に詳しく述べられている。例えば、日本語の場合、音声単位を上記「音声・音情報のディジタル信号処理」の第２章に記載されている音韻のセットとし、各音韻がＨＭＭによりモデル化されているとする。図３に音韻のセットのラベルの一覧を示す。この時、例えば「コンピュータ」という単語は図４のような話者に共通の音韻ラベルのネットワーク（固定語ラベル系列と呼ぶ）でモデル化することができる。
【０００３】
ＨＭＭによる音韻モデルのデータと固定語ラベル系列を用意すれば、上記「音声・音情報のディジタル信号処理」の第４章に記載されているビタビアルゴリズムにより、当業者は不特定話者音声認識装置を容易に構成することができる。不特定話者音声認識装置においては、入力音から求められた特徴パラメータの系列と固定語の固定語ラベル系列との類似度（一般に、尤度と呼ぶ。）を上記のビタビアルゴリズムなどにより求め、その尤度があるしきい値より小さい場合に、固定語以外の音が入力されたとして棄却するという方法が用いられる。
【０００４】
また、固定語以外の入力音を受理可能なＨＭＭによるモデル（一般に、「ガーベッジモデル」と呼ばれる。）を予め用意しておき、このガーベッジモデルの尤度が固定語の尤度よりも大きい場合に、固定語以外の音が入力されたとして棄却するという方法が広く用いられる。
【０００５】
このガーベッジモデルの構成方法については、R. C. Rose, "Keywords Detection in Conversational Speech Utterances Using Hidden Markov Model Based Continuous Speech Recognizer" Computer, Speech and Language, Vol.9, No.9, pp.303-333, 1995.、「H. Boulard, B. D'hoore and J.-M. Boite, "Optimizing Recognition and Rejection Performance in Wordspotting Systems," Proc. ICASSP, Adelaide, Australia, pp.I-373-376, 1994.などに詳述されている。
【０００６】
最近提供されている音声認識装置は、予め単語を登録する必要がないという使用上の利便性を追求するという観点から、不特定話者音声認識装置であることが多い。しかしながら、不特定話者音声認識装置であっても、認識が困難な固定語については、話者の音声を登録して登録語として扱うことにより認識精度を高めたいという要求や、不特定話者固定語以外に特定話者の登録語を新たに登録したいという要求がある。そのために、１つの登録語に対して、ユーザーに３回以上の発声を要求し、それらの発声から得られた特徴パラメータ系列を用いて、最尤推定法によりＨＭＭによる登録語の単語モデルを学習する方法が一般的である。
【０００７】
最尤推定法により、ＨＭＭの単語モデルを学習する方法は、上記「音声・音情報のディジタル信号処理」の第４章に詳述されている。最尤推定法による、ＨＭＭの単語モデルの学習においては、モデルのパラメータの推定精度の問題から、３回以上の発声をユーザーに要求し、学習に十分な量の特徴パラメータ系列を取得する必要がある。しかしながら、ユーザーにとっては必ず３回以上の発声を要求されることは心理的に苦痛である。
【０００８】
そこで、１回の発声で登録語を登録できる機能を実現するために、USP5,732,187、特願平１０−２５５１９６が提案されている。これらの方法では、１回の発声から得られる特徴パラメータ系列から、上記ビタビアルゴリズムにより、音韻または音韻のＨＭＭから分解されて生成された音響イベントのラベル系列を求め、それを登録語のテンプレート（登録語ラベル系列）とすることにより、簡便な登録語の登録機能を実現している。
【０００９】
【発明が解決しようとする課題】
特定話者の登録語を登録する機能を有する不特定話者音声認識装置において、特定話者が登録した登録語以外の音を高い精度で棄却する機能が強く望まれている。
【００１０】
例えば、特定話者の登録語を登録する機能を有する不特定話者音声認識装置のユーザーが自分だけの特別な言葉（以後、パスワードと呼ぶ。）を音声で登録し、自分のパスワード以外の音が入力された場合にそれらが全て棄却されれば、他人に自分の不特定話者音声認識装置を悪用されることが避けられ、自分だけのパーソナルな音声認識装置とすることができる。
【００１１】
また、音声認識装置に音声認識処理を行わせるトリガーとして用いられる物理的なスイッチを無くしたいという要求に以下のようにして答えることも可能になる。例えば、自動車を運転している場合は、安全上の理由から両手はハンドルを握っている必要がある。
【００１２】
一方、カーオーディオ装置、カーナビゲーション装置、自動車電話などの装置を運転者が声で操作する場合、短時間の間、運転者は少なくとも片手をハンドルから話して、上記スイッチを操作し、音声認識処理を駆動しなければならない。このスイッチ操作を行う時、短時間の間、視線が前方からスイッチに移動することも起こり得るため、決して安全とは言えない。
【００１３】
もし、物理的なスイッチが一切不要の音声認識装置があれば、両手はハンドルから離れることもなく、視線も前方から逸れることがないので、安全を確保することができる。そこで、上記と同様にしてパスワードを登録し、パスワードのみを受理可能な認識（パスワード認識）モードを設けることにより、外部雑音、自動車内での会話音声、カーオーディオのスピーカー音などの音は、パスワード以外の音として音声認識装置が棄却できる。音声認識装置を駆動したい場合にのみパスワードを発声し、その音声が受理されるという仕組みにより、スイッチを一切不要にすることが可能である。
【００１４】
さらに、住宅内において、声で住宅内の機器を操作する場合でも、パスワード認識モードを設け、パスワード認識を物理的なスイッチの代わりに用いることにより、声で離れたところにある住宅内の機器を操作することが容易になる。例えば、まずパスワードを発声し、次に、「照明」と発声することにより、壁に埋め込まれたスイッチに触れることなく、照明のＯＮ／ＯＦＦを制御することが可能になる。
【００１５】
ベッドに寝たきりの障害者やお年寄りは、まずパスワードを発声し、次に住宅内機器の制御コマンドを発声することにより、ベッドから移動しなくても、テレビの電源のＯＮ／ＯＦＦ制御やチャンネルの切替ができたり、エアコンのＯＮ／ＯＦＦ制御や暖房／冷房の切替ができるようになる。スピーカーから流れるテレビ放送の音、家の外から聞こえる雑音などのパスワード以外の音が全てパスワード認識モードにおいて棄却されれば、住宅内の機器が勝手に操作されることはない。
【００１６】
これらの例は、特定話者の登録語をパスワードとして使用し、パスワード認識モードを物理的なスイッチの代わりに使用した場合のものである。他の例として、機器を制御するための音声コマンドを特定話者の登録語として登録する場合が考えられる。たとえば、住宅内の応用例においては、照明のことを「電気」、「電灯」、「ライト」などの呼び方で呼ぶ人がいる。
【００１７】
このように、１つの機器を人によって、地方によって、習慣によって異なった呼び方をする。このようなケースに対応するためには、１つの機器に対するあらゆる呼び方を全国から収集し、予め不特定話者音声認識装置の中に組み込んでおく必要があるが、そのために要する手間は現実的な規模ではないであろう。
【００１８】
また、人によっては、ある機器を他の人と違った呼び方、例えばニックネームで呼びたいという希望も考えられる。このようなケースに備えて、特定話者の登録語を登録できる機能を準備することが有効であるが、これらの登録語以外の音を高い精度で棄却できれば、機器が誤動作することを抑制することができる。
そこで、本発明の目的は、予め登録されたある特定話者の登録語の音声のみを高い精度で認識し、特定話者の登録語以外の全ての音を高い精度で棄却する機能を有する音声認識装置および方法を提供することにある。
【００１９】
【課題を解決するための手段】
このような目的を達成するために、請求項１の発明は、予め、１つの登録語に関して特定の音声認識対象者の音声から音響パラメータ系列を抽出し、当該抽出された音声の音響パラメータ系列を自己ループを許容した音響イベントモデルのラベル系列に変換し、登録語についての音響イベントモデルのラベル系列と、音声認識時に抽出された音響パラメータ系列とをビタビアルゴリズムにより照合することにより音声認識を行う音声認識装置において、前記特定の音声認識対象者に固有の登録語を登録するための音声登録モードと、音声認識を行うための音声認識モードとを択一的に選択するモード選択手段と、前記モード選択手段により音声登録モードが選択された場合に、前記登録語の音響イベントモデルのラベル系列のラベルの第１の自己ループ回数を計数する第１の計数手段と、当該計数された第１の自己ループ回数を記憶しておく記憶手段と、前記モード選択手段により音声認識モードが選択された場合に、登録語の音響イベントモデルのラベル系列に従って、音響イベントモデルを接続して構成される登録語のモデルにおいて、生起可能な全ての遷移の第２の自己ループ回数を計数する第２の計数手段と、ビタビアルゴリズムによる照合において、音声登録時の音響イベントモデルのラベル系列の遷移に近づけるように、前記第２の計数手段により計数された第２の自己ループ回数および該第２の自己ループ回数と対応しており前記記憶手段に記憶された第１の自己ループ回数とに基づいて、登録語のモデルの遷移確率を補正する遷移確率補正手段とを具えたことを特徴とする。
【００２０】
請求項２の発明は、請求項１に記載の音声認識装置において、前記特定の音声認識対象者に関する自己ループ回数に加えて、不特定の音声認識対象者の音声から変換された音響イベントモデルのラベル系列のラベルの自己ループ回数が前記第１の自己ループ回数として前記記憶手段に記憶されていることを特徴とする。
【００２１】
請求項３の発明は、予め、１つの登録語に関して特定の音声認識対象者の音声から音響パラメータ系列を抽出し、当該抽出された音声の音響パラメータ系列を自己ループを許容した音響イベントモデルのラベル系列に変換し、登録語についての音響イベントモデルのラベル系列と、音声認識時に抽出された音響パラメータ系列とをビタビアルゴリズムにより照合することにより音声認識装置において音声認識を行う音声認識方法において、前記音声認識装置は、モード選択手段、記憶手段、第１の計数手段、第２の計数手段および遷移確率補正手段を有しており、前記特定の音声認識対象者に固有の登録語を登録するための音声登録モードと、音声認識を行うための音声認識モードとを択一的に前記モード選択手段により選択し、前記モード選択手段により音声登録モードが選択された場合に、前記登録語の音響イベントモデルのラベル系列のラベルの第１の自己ループ回数を前記第１の計数手段により計数し、当該計数された第１の自己ループ回数を前記記憶手段に記憶しておき、前記モード選択手段により音声認識モードが選択された場合に、登録語の音響イベントモデルのラベル系列に従って、音響イベントモデルを接続して構成される登録語のモデルにおいて、生起可能な全ての遷移の第２の自己ループ回数を前記第２の計数手段により計数し、ビタビアルゴリズムによる照合において、音声登録時の音響イベントモデルのラベル系列の遷移に近づけるように、前記計数手段により計数された第２の自己ループ回数および該第２の自己ループ回数と対応しており前記記憶手段に記憶された第１の自己ループ回数とに基づいて、登録語のモデルの遷移確率を前記遷移確率補正手段により補正することを特徴とする。
【００２２】
請求項４の発明は、請求項３に記載の音声認識方法において、前記特定の音声認識対象者に関する自己ループ回数に加えて、不特定の音声認識対象者の音声から変換された音響イベントモデルのラベル系列のラベルの自己ループ回数が前記第１の自己ループ回数として記憶されていることを特徴とする。
【００２３】
【実施形態】
本発明は、特定話者の登録語を登録する機能を有する不特定話者音声認識装置において、予め登録されたある特定話者の登録語の音声のみを高い精度で認識し、特定話者の登録語以外の全ての音を高い精度で棄却する機能を有する音声認識装置を提供するものである。
【００２４】
そのために、特定話者の登録語を登録する機能において、登録語の音声から得られた音響パラメータ系列をビタビアルゴリズムを用いて、音韻のＨＭＭから分解されて生成された、音響イベントのラベル系列に変換し、それを登録語のテンプレート（登録語ラベル系列）とする。この際に、各音響イベント毎に自己ループを連続して遷移した回数（以後、自己ループ回数と呼ぶ。）を記録しておく。音響イベント毎の自己ループ回数は、当業者であれば、ビタビアルゴリズムを用いて容易に算出することが可能である。
【００２５】
登録語以外の音が入力された場合に、その音が登録語の中の１つであると誤認識される場合がしばしば起こる。これは、誤認識された単語が登録されたときの自己ループ回数を伴う状態遷移に関係なく、尤度が最大になるような状態遷移を行った時の尤度を求める性質をビタビアルゴリズムが原理的に有していることに起因する。従って、登録語以外の音が入力された場合でも、ビタビアルゴリズムにより得られる登録語の尤度が、ガーベッジモデルの尤度を上回る場合に、棄却することができずに誤認識するということが起こる。
【００２６】
登録単語が登録された場合の自己ループ回数を伴う状態遷移に近い状態遷移が起こるようにビタビアルゴリズムを制御することにより、ビタビアルゴリズムにより得られる登録語の尤度が、ガーベッジモデルの尤度を上回る頻度を抑制することができ、登録語以外の音が入力された場合にその音を棄却しやすくなると考えられる。
【００２７】
そこで、特定話者の登録語の認識時においては、登録語ラベル系列から構成されるネットワークを用いて、ビタビアルゴリズムにより、登録語の尤度計算を行う際に、上記ネットワーク内に存在する音響イベントの各状態において、自己ループ回数を記録しておく（図５参照）。認識時の自己ループ回数が、登録時の自己ループ回数よりもかなり小さい場合は、別の音響イベントの状態へ遷移する確率を小さな値に動的に置き換えて、自己ループしやすいように制御する。
【００２８】
逆に、認識時の自己ループ回数が、登録時の自己ループ回数よりもかなり大きい場合は、自己ループの遷移確率を小さな値に動的に置き換えて、自己ループしにくいように制御する。このように、音響イベントの状態間の遷移確率を動的に操作して、認識時の自己ループ回数が登録時に記録された自己ループ回数に接近するように制御する。こうすることにより、登録時に記録された自己ループ回数に類似した自己ループ回数を伴う状態遷移を行った時の登録語の尤度を求めることができる。
【００２９】
登録語の中で最も高い尤度を持つ登録語の尤度と、上述のガーベッジモデルの尤度を比較する。前者が大きければ、登録語が発声されたと判断することができ、後者が大きければ、登録語以外の音が入力されたと判断することができる。
【００３０】
このような音声認識方法を実現するための音声認識装置を以下、図面を参照して説明する。
【００３１】
図１は本発明第１の実施形態の機能構成を示す。図１において、アナログ音声信号１１はＡＤコンバータによる入力手段ａによりデジタル信号２２に変換される。デジタル信号２２は変換手段ｂにより一定のフレーム周期で音響パラメータ３３に変換される。音響パラメータとしては、上記「音声・音情報のディジタル信号処理」にも記述されているケプストラムなどを用いればよい。
【００３２】
特定の話者に固有の登録語を登録する場合には、音響パラメータ３３が登録語ラベル系列抽出手段ｄに送られ、認識用データ蓄積手段ｃに蓄積された認識用データ４４を参照しながら、図５の登録語ラベル系列５５に変換される。このとき、ラベルの自己ループ回数が計数され、計数結果が、ラベルとともに語彙ラベルネットワーク蓄積手段ｆに蓄積される。なお、認識用データ蓄積手段ｃに蓄積された認識用データ４４としては、隠れマルコフモデルでモデル化された音声単位のモデルのデータおよび音響パラメータ３３を登録語ラベル系列５５に変換するための音声単位のモデルのネットワークデータの２つが蓄積されている。
【００３３】
音声単位としては、音節、半音節、音韻などが考えられるが、以下では、音韻よりも小さな音声単位として、音韻ＨＭＭから分解されて生成された音響イベントを用いた場合について説明を加える。言語や音韻の種類を問わず、一般に音韻は図６に示される４つの状態からなるＨＭＭでモデル化されることが多い。
【００３４】
状態１は初期状態であり、状態遷移は必ず状態１から開始される。状態４は最終状態であり、この状態に遷移するとそれ以上状態遷移は発生しない。ａ（ｉ、ｊ）は状態ｉから状態ｊへの遷移する確率を表し、遷移確率と呼ばれる。ｊ＝ｉ＋１とすると、ａ（ｉ、ｉ）＋ａ（ｉ、ｊ）＝１．０である。ｂ（ｉ、ｘ）は状態ｉへ状態遷移する際に、観測ベクトルｘが出力される確率を表し、出力確率と呼ばれる。観測ベクトルは、図１の音響パラメータ３３に対応し、ケプストラムがよく用いられる。出力確率ｂ（ｉ、ｘ）は１個以上の正規分布の重ね合わせで表現される。また、出力確率は状態ｉから状態遷移する際に、観測ベクトルｘが出力される確率ｂ（ｉ、ｘ）として定式化される場合や、状態ｉから状態ｊへ状態遷移する際に、観測ベクトルｘが出力される確率ｂ（ｉ、ｊ、ｘ）として定式化される場合もある。出力確率ｂ（ｉ、ｘ）が１個以上の正規分布の重ね合わせで定式化される場合、ＨＭＭを連続ＨＭＭと呼ぶ。その他に、半連続ＨＭＭや離散ＨＭＭで音韻をモデル化する場合があるが、本実施形態はいずれのモデル化にも同様に適用が可能である。
【００３５】
図６に示される４状態の音韻ＨＭＭを図７、図８、図９の３つの２状態からなるＨＭＭに分割する。これらは音韻を構成する音響イベントに対応すると考えることが可能であるため、音響イベントＨＭＭと呼ぶこととし、状態番号に合わせて、＊．１、＊．２、＊．３と表すこととする。ここで、＊は図３の音韻ラベルを表す。
【００３６】
これらの音響イベントＨＭＭが任意の順番で任意の長さで接続しうるネットワークを図１０に示す。このネットワークを音響イベントネットワークと呼ぶことにする。この音響イベントネットワークを用いてビタビアルゴリズムにより、特定話者の登録語の音声を音響イベント系列に変換する。例えば、「コンピュータ」という音声からは、図５のような登録語ラベル系列が得られる。このようにして得られた音響イベント系列を図１の登録語ラベル系列５５として用いることにより、登録語に対してより高い近似性の高いテンプレートが得られる。尚、図１０の形状の音響イベントネットワーク以外にも、図１１に示すような音響イベントの位置に関する制約を設けたネットワークを使用することも可能であるが、特願平１０−２５５１９６号にも詳述されているので、さらなる説明を省略する。
【００３７】
ここで、従来のビタビアルゴリズムを図１２を用いて説明しておく。この図において、時刻ｔにおいて、登録語ｍの音響イベントｎが有する尤度をｐ（ｔ、ｍ、ｎ）で表す。また、登録語ｍの音響イベントｎから音響イベントｎへ遷移する遷移確率をａ（ｍ、ｎ、ｎ）で表す。この遷移は、自己ループに対応する。
【００３８】
登録語ｍの音響イベントｎ−１から音響イベントｎへ遷移する遷移確率をａ（ｍ、ｎ−１、ｎ）で表す。この遷移は、自己ループではなく、次の音響イベントへの遷移に対応する。また、ｂ（ｍ、ｎ、ｘ（ｔ））は、時刻ｔにおいて登録語ｍの音響イベントｎへ状態遷移する際に、観測ベクトルｘ（ｔ）が出力される出力確率を表す。この時、時刻ｔでの登録語ｍの音響イベントｎで行われる従来のビタビアルゴリズムは一般に次式で表現される。
ｐ（ｔ−１、ｍ、ｎ−１）＊ａ（ｍ、ｎ−１、ｎ）＞＝ｐ（ｔ−１、ｍ、ｎ）＊ａ（ｍ、ｎ、ｎ）ならば、
ｐ（ｔ、ｍ、ｎ）＝ｐ（ｔ−１、ｍ、ｎ−１）＊ａ（ｍ、ｎ−１、ｎ）＊ｂ（ｍ、ｎ、ｘ（ｔ））。
ｐ（ｔ−１、ｍ、ｎ−１）＊ａ（ｍ、ｎ−１、ｎ）＜ｐ（ｔ−１、ｍ、ｎ）＊ａ（ｍ、ｎ、ｎ）ならば、
ｐ（ｔ、ｍ、ｎ）＝ｐ（ｔ−１、ｍ、ｎ）＊ａ（ｍ、ｎ、ｎ）＊ｂ（ｍ、ｎ、ｘ（ｔ））。
【００３９】
すなわち、時刻ｔ−１における登録語ｍの音響イベントｎ−１の尤度に音響イベントｎ−１から音響イベントｎへの遷移確率をかけた値が、時刻ｔ−１における登録語ｍの音響イベントｎの尤度に音響イベントｎから音響イベントｎへ自己ループする遷移確率をかけた値よりも大きければ、時刻ｔにおいて音響イベントｎ−１から音響イベントｎへ遷移するパスが選択される。逆の場合は、時刻ｔにおいて音響イベントｎから音響イベントｎへ自己ループするパスが選択される。
【００４０】
従来のビタビアルゴリズムにおいては、自己ループするか、他の状態へ遷移するかは上式に従って判断される。どの音響イベントで何回自己ループするかは全く管理されず、最終的に尤度が最大になるような音響イベント間の遷移を行った時の尤度が算出される。もし、入力音声の音響パラメータ系列の一部が、ある登録語の音響イベント系列の一部に非常に似通っていれば、その登録語を認識結果として判断することになる。従って、例え、登録語以外の音が入力されたとしても、ビタビアルゴリズムにより得られる登録語の尤度が、ガーベッジモデルの尤度を上回る場合には、その入力を棄却することができずに誤認識するということが起こる。
【００４１】
登録単語が登録された場合の自己ループ回数を伴う状態遷移に近い状態遷移が起こるようにビタビアルゴリズムを制御することにより、ビタビアルゴリズムにより得られる登録語の尤度が、ガーベッジモデルの尤度を上回る頻度を抑制することができ、登録語以外の音が入力された場合にその音を棄却しやすくなると考えられる。
【００４２】
音響イベントネットワークを用いて、ビタビアルゴリズムにより、特定話者の登録語の音声を登録語ラベル系列５５に変換する際に、登録語ラベル系列を構成する音響イベントＨＭＭ毎の自己ループ回数を求めることができる。今、登録語ｍの音響イベントｎの自己ループ回数をＬ（ｍ、ｎ）で表すことにする。登録時においては、全ての登録語について、その登録語ラベル系列の全ての音響イベントの自己ループ回数Ｌ（ｍ、ｎ）を語彙ラベルネットワーク蓄積手段ｆとしてのメモリなどの記憶手段に記録しておく。
【００４３】
実際の認識時においては、変換手段ｂで出力された音響パラメータ３３、認識用データ蓄積手段ｃに蓄積された音響イベントモデルのデータからなる認識用データ４５、登録語ラベル系列蓄積手段ｆに蓄積された登録語ラベル系列５５を用いて、認識手段ｇにおいてビタビアルゴリズムにより、認識結果８８を得ることができるが、本実施形態では、語彙に含まれる単語以外の音を高い精度で棄却することができるように、以下の工夫を加える。
【００４４】
ビタビアルゴリズムにより、登録語ラベル系列の各音響イベント毎の尤度を求める場合の、時刻ｔでの登録語ｍの音響イベントｎの連続した自己ループ回数を不図示の計数手段により計数し、その計数結果をＫ（ｔ、ｍ、ｎ）で表すことにする。
【００４５】
この時、Ｋ（ｔ−１、ｍ、ｎ）＜Ｌ（ｍ、ｎ）−ｐである場合には、図１３に示すように音響イベントｎから音響イベントｎ＋１に遷移する確率ａ（ｍ、ｎ、ｎ＋１）を不図示の補正手段により十分に小さな値（例えば、０．０１）に動的に置き換えたのち、従来のビタビアルゴリズムを実行する。これにより、音響イベントｎから音響イベントｎ＋１に遷移する可能性が低くなり、結果として音響イベントｎで続けて自己ループ遷移をしやすくなる。
【００４６】
一方、Ｋ（ｔ−１、ｍ、ｎ）＞Ｌ（ｍ、ｎ）＋ｐである場合には、図１４に示すように音響イベントｎから音響イベントｎへの自己ループの遷移確率ａ（ｍ、ｎ、ｎ）を十分に小さな値（例えば、０．０１）に動的に置き換えたのち、従来のビタビアルゴリズムを実行する。これにより、音響イベントｎから音響イベントｎへの自己ループ遷移の可能性が低くなり、結果として音響イベントｎ＋１に遷移しやすくなるので、音響イベントｎでの自己ループ回数の増加が抑えられる。
【００４７】
こうして、登録単語が登録された場合の自己ループ回数を伴う状態遷移に近い状態遷移が起こるようにビタビアルゴリズムを制御することが可能になる。ここで、ｐは自然数であり、登録単語が登録された場合の自己ループ回数を伴う状態遷移にどの程度近い状態遷移が起こるようにするかを制御する変数である。
【００４８】
こうして得られた登録語の尤度は、自己ループ回数の制御を行わない従来のビタビアルゴリズムにより得られた登録語の尤度よりも低い値になる。従って、登録語の尤度がガーベッジモデルの尤度を上回る頻度を抑制することができ、登録語以外の音が入力された場合にその音を棄却しやすくなると考えられる。
【００４９】
登録語の中で最も高い尤度を持つ登録語の尤度と、ガーベッジモデルの尤度を比較し、前者が大きければ、登録語を認識結果８８とする。一方、後者が大きければ、登録語以外の音が入力されたと判断することができ、入力音の棄却を認識結果８８とすれば良い。
【００５０】
認識結果８８は、スピーカーやディスプレーなどの出力手段ｈにより、音声や画面による出力結果９９として話者に出力される。
【００５１】
ここで、従来のビタビアルゴリズムを用いた場合と本実施形態によるビタビアルゴリズムを用いた場合の２つについて、語彙以外の音が棄却される性能について比較した２つのタスクのデータを示す。
【００５２】
まず、１つ目のタスクでは、１単語のみを特定話者の登録語として登録し、それ以外の９９単語が棄却できるかどうかを比較した。その結果、従来法では、棄却できる確率が８０％であったが、本実施形態に依れば、１００％であった。尚、本実施形態では、登録した登録語の認識率も１００％であった。
【００５３】
２つ目のタスクでは、９９単語のみを特定話者の登録語として登録し、それ以外の１単語が棄却できるかどうかを比較した。その結果、従来法では、棄却できる確率が５％であったが、実施形態に依れば、５０％であった。尚、本実施形態では、登録した登録語の認識率は９０％であった。
【００５４】
以上の結果から、特定話者の登録語以外の音の棄却に関する本発明の有効性が明らかとなった。
【００５５】
最後に、認識語彙が特定話者の登録語と不特定話者の固定語の２つからなる第２の実施形態について説明する。図２に示すように、第２の実施形態では、新たに、不特定の話者に共通の固定語のスペルからあるルールに従い予め抽出された音声単位のラベル系列を記憶する固定語ラベル系列記憶手段eを追加する。これを実現する音声認識装置および音声認識方法に関しては、既にＰＣＴＪＰ９９−０４８８５で出願済みである。不特定話者の固定語以外の音を高い確率で棄却できるように、本発明を適用することができるの言うまでもない。
【００５６】
具体的には、不特定話者に固定語の音声データから、不特定の話者に共通の固定語のスペルからあるルールに従い予め抽出された音声単位のラベル系列の各ラベル毎の自己ループ回数の分布の情報（固定語自己ループ回数６９）を予め算出しておき、固定語ラベル系列記憶手段eに固定語ラベル系列６６とともに記憶しておけばよい。
【００５７】
そして、認識手段ｇにおいては、固定語自己ループ回数６９を利用して、上述の方法に従って、遷移確率を動的に十分小さな値に置換しながら、ビタビアルゴリズムにより照合を行えばよい。例えば、固定語自己ループ回数６９の上限値と下限値の範囲から乖離した状態遷移が起こらないように制御するなどの方法が考えられる。
【００５８】
上述の実施形態の他に次の形態を実施できる。
１）図１および図２に示す機能形成は、たとえば、パソコンやデジタルプロセッサなどでソフトウェアをＣＰＵが実行し、メモリに音声認識に関連する上述のデータを記憶（蓄積）しておくことにより実現できる。本発明に関わる自己ループ回数は次のように計数すればよい。
【００５９】
音声登録時および音声認識時において、ラベル系列をビタビアルゴリズムを用いてＣＰＵにより作成して行く過程で取得されるラベルとその開始時刻と終了時刻を一時的にメモリに記憶しておく。終了時刻と開始時刻の差の時刻をラベルの自己ループ回数として計数すればよい。
【００６０】
また、音声認識時に得られるラベルの自己ループ回数と、登録時に得られた自己ループ回数を比較し、比較結果に基づきラベルの遷移確率を補正する処理はＣＰＵの簡単な情報処理で実現できるので、詳細な説明を要しないであろう。
【００６１】
【発明の効果】
以上、説明したように、本発明では、音声登録時および音声認識に得られるラベルの自己ループ回数を比較する。その比較結果に基づいて、ラベルの遷移確率を可変設定して、音声認識時の遷移状態を音声登録時に近付けて、尤度を計算する。また、これにより、誤認識がなくなるだけでなく、音声登録者の音声認識精度もさらに向上する。
【図面の簡単な説明】
【図１】本発明第１の実施形態の機能構成を示すブロック図である。
【図２】本発明第２の機能構成を示すブロック図である。
【図３】音韻の分類を示す説明図である。
【図４】「コンピュータ」の固定語ラベル系列を示す説明図である。
【図５】「コンピュータ」の登録語ラベル系列を示す説明図である。
【図６】（Ａ）および（Ｂ）は音韻ＨＭＭの構造を示す説明図である。
【図７】（Ａ）および（Ｂ）は音響イベントＨＭＭ＊．１の構造を示す説明図である。
【図８】（Ａ）および（Ｂ）は音響イベントＨＭＭ＊．２の構造を示す説明図である。
【図９】（Ａ）および（Ｂ）は音響イベントＨＭＭ＊．３の構造を示す説明図である。
【図１０】音響イベントネットワークの内容を示す説明図である。
【図１１】音響イベントの位置に関する制約を設けたネットワークの内容を示す説明図である。
【図１２】従来のビタビアルゴリズムによる処理内容を示す説明図である。
【図１３】本発明を適用し、ビタビアルゴリズム（登録時よりも自己ループ回数が少ない場合）に基づく処理内容を示す説明図である。
【図１４】本発明を適用し、ビタビアルゴリズム（登録時よりも自己ループ回数が多い場合）に基づく処理内容を示す説明図である。
【符号の説明】
１１アナログ音声信号
２２デジタル信号
３３音響パラメータ
４４、４５音声認識用データ
５５登録語ラベル系列
５９登録語自己ループ回数
６６固定語ラベル系列
６９固定語自己ループ回数
７７語彙ラベルネットワーク
８８認識結果
９９出力結果

Claims

予め、１つの登録語に関して特定の音声認識対象者の音声から音響パラメータ系列を抽出し、当該抽出された音声の音響パラメータ系列を自己ループを許容した音響イベントモデルのラベル系列に変換し、登録語についての音響イベントモデルのラベル系列と、音声認識時に抽出された音響パラメータ系列とをビタビアルゴリズムにより照合することにより音声認識を行う音声認識装置において、
前記特定の音声認識対象者に固有の登録語を登録するための音声登録モードと、音声認識を行うための音声認識モードとを択一的に選択するモード選択手段と、
前記モード選択手段により音声登録モードが選択された場合に、前記登録語の音響イベントモデルのラベル系列のラベルの第１の自己ループ回数を計数する第１の計数手段と、
当該計数された第１の自己ループ回数を記憶しておく記憶手段と、
前記モード選択手段により音声認識モードが選択された場合に、登録語の音響イベントモデルのラベル系列に従って、音響イベントモデルを接続して構成される登録語のモデルにおいて、生起可能な全ての遷移の第２の自己ループ回数を計数する第２の計数手段と、
ビタビアルゴリズムによる照合において、音声登録時の音響イベントモデルのラベル系列の遷移に近づけるように、前記第２の計数手段により計数された第２の自己ループ回数および該第２の自己ループ回数と対応しており前記記憶手段に記憶された第１の自己ループ回数とに基づいて、登録語のモデルの遷移確率を補正する遷移確率補正手段と
を具えたことを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、前記特定の音声認識対象者に関する自己ループ回数に加えて、不特定の音声認識対象者の音声から変換された音響イベントモデルのラベル系列のラベルの自己ループ回数が前記第１の自己ループ回数として前記記憶手段に記憶されていることを特徴とする音声認識装置。
予め、１つの登録語に関して特定の音声認識対象者の音声から音響パラメータ系列を抽出し、当該抽出された音声の音響パラメータ系列を自己ループを許容した音響イベントモデルのラベル系列に変換し、登録語についての音響イベントモデルのラベル系列と、音声認識時に抽出された音響パラメータ系列とをビタビアルゴリズムにより照合することにより音声認識装置において音声認識を行う音声認識方法において、前記音声認識装置は、モード選択手段、記憶手段、第１の計数手段、第２の計数手段および遷移確率補正手段を有しており、
前記特定の音声認識対象者に固有の登録語を登録するための音声登録モードと、音声認識を行うための音声認識モードとを択一的に前記モード選択手段により選択し、
前記モード選択手段により音声登録モードが選択された場合に、前記登録語の音響イベントモデルのラベル系列のラベルの第１の自己ループ回数を前記第１の計数手段により計数し、
当該計数された第１の自己ループ回数を前記記憶手段に記憶しておき、
前記モード選択手段により音声認識モードが選択された場合に、登録語の音響イベントモデルのラベル系列に従って、音響イベントモデルを接続して構成される登録語のモデルにおいて、生起可能な全ての遷移の第２の自己ループ回数を前記第２の計数手段により計数し、
ビタビアルゴリズムによる照合において、音声登録時の音響イベントモデルのラベル系列の遷移に近づけるように、前記計数手段により計数された第２の自己ループ回数および該第２の自己ループ回数と対応しており前記記憶手段に記憶された第１の自己ループ回数とに基づいて、登録語のモデルの遷移確率を前記遷移確率補正手段により補正することを特徴とする音声認識方法。
請求項３に記載の音声認識方法において、前記特定の音声認識対象者に関する自己ループ回数に加えて、不特定の音声認識対象者の音声から変換された音響イベントモデルのラベル系列のラベルの自己ループ回数が前記第１の自己ループ回数として記憶されていることを特徴とする音声認識方法。