JP3936827B2 - 音声認識装置および方法 - Google Patents
音声認識装置および方法 Download PDFInfo
- Publication number
- JP3936827B2 JP3936827B2 JP2000001032A JP2000001032A JP3936827B2 JP 3936827 B2 JP3936827 B2 JP 3936827B2 JP 2000001032 A JP2000001032 A JP 2000001032A JP 2000001032 A JP2000001032 A JP 2000001032A JP 3936827 B2 JP3936827 B2 JP 3936827B2
- Authority
- JP
- Japan
- Prior art keywords
- self
- speech recognition
- registered word
- acoustic event
- loop
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本願発明は、語彙に含まれる単語以外の音を高い精度で棄却することが可能な音声認識装置および音声認識方法に関するものである。
【0002】
【従来の技術】
特定の話者に固有の登録語を認識する技術を一般に特定話者音声認識と呼ぶ。特定話者音声認識においては、特定の話者が予め音声認識させたい単語を登録するという作業が発生する。この作業は具体的には、特定の話者が予め発声した単語の音声サンプルをある特徴パラメータの系列(テンプレートと呼ぶ)に変換し、その系列を単語のラベルとともにメモリーやハードディスクなどの記憶装置に蓄積する。音声サンプルをある特徴パラメータの系列に変換する方法としては、ケプストラム分析や線形予測分析などが知られており、「音声・音情報のディジタル信号処理」(鹿野清宏、中村哲、伊勢史郎共著、(株)昭晃堂)にも詳述されている。
特定話者音声認識においては、記憶装置に蓄積された特徴パラメータの系列と入力された音声から変換された特徴パラメータの系列とを比較し、入力された音声から変換された特徴パラメータの系列に最も類似した特徴パラメータの系列を持つ単語のラベルを認識結果として出力する。記憶装置に蓄積された特徴パラメータの系列と入力された音声から変換された特徴パラメータの系列とを比較する方法としては、動的計画法(Dynamic Programming)による時間軸伸縮マッチング(Dynamic Time Warping, DTW)が広く用いられており、上記「音声・音情報のディジタル信号処理」にも詳しく述べられている。特定話者音声認識装置においては、入力音から求められた特徴パラメータの系列と登録語のテンプレート(特徴パラメータの系列)との類似度を上記のDTWなどの方法で求め、その類似度があるしきい値より大きい場合に、登録語以外の音が入力されたとして棄却するという方法が一般に採用されている。
一方、不特定の話者に共通の固定語を認識する技術を一般に不特定話者音声認識と呼ぶ。不特定話者音声認識においては、不特定の話者に共通の固定語の特徴パラメータに関する情報が予め記憶装置に蓄積されているため、特定話者音声認識のようにユーザーが音声認識させたい単語を登録するという作業は発生しない。音声サンプルをある特徴パラメータの系列に変換する方法としては、特定話者音声認識と同様にケプストラム分析や線形予測分析などが知られている。また、不特定の話者に共通の固定語の特徴パラメータに関する情報の作成およびその情報と入力された音声から変換された特徴パラメータの系列との比較には、隠れマルコフモデル(Hidden Markov Model, HMM)による方法が一般に用いられている。HMMによる不特定話者音声認識についても、上記「音声・音情報のディジタル信号処理」に詳しく述べられている。例えば、日本語の場合、音声単位を上記「音声・音情報のディジタル信号処理」の第2章に記載されている音韻のセットとし、各音韻がHMMによりモデル化されているとする。図3に音韻のセットのラベルの一覧を示す。この時、例えば「コンピュータ」という単語は図4のような話者に共通の音韻ラベルのネットワーク(固定語ラベル系列と呼ぶ)でモデル化することができる。
【0003】
HMMによる音韻モデルのデータと固定語ラベル系列を用意すれば、上記「音声・音情報のディジタル信号処理」の第4章に記載されているビタビアルゴリズムにより、当業者は不特定話者音声認識装置を容易に構成することができる。不特定話者音声認識装置においては、入力音から求められた特徴パラメータの系列と固定語の固定語ラベル系列との類似度(一般に、尤度と呼ぶ。)を上記のビタビアルゴリズムなどにより求め、その尤度があるしきい値より小さい場合に、固定語以外の音が入力されたとして棄却するという方法が用いられる。
【0004】
また、固定語以外の入力音を受理可能なHMMによるモデル(一般に、「ガーベッジモデル」と呼ばれる。)を予め用意しておき、このガーベッジモデルの尤度が固定語の尤度よりも大きい場合に、固定語以外の音が入力されたとして棄却するという方法が広く用いられる。
【0005】
このガーベッジモデルの構成方法については、R. C. Rose, "Keywords Detection in Conversational Speech Utterances Using Hidden Markov Model Based Continuous Speech Recognizer" Computer, Speech and Language, Vol.9, No.9, pp.303-333, 1995.、「H. Boulard, B. D'hoore and J.-M. Boite, "Optimizing Recognition and Rejection Performance in Wordspotting Systems," Proc. ICASSP, Adelaide, Australia, pp.I-373-376, 1994.などに詳述されている。
【0006】
最近提供されている音声認識装置は、予め単語を登録する必要がないという使用上の利便性を追求するという観点から、不特定話者音声認識装置であることが多い。しかしながら、不特定話者音声認識装置であっても、認識が困難な固定語については、話者の音声を登録して登録語として扱うことにより認識精度を高めたいという要求や、不特定話者固定語以外に特定話者の登録語を新たに登録したいという要求がある。そのために、1つの登録語に対して、ユーザーに3回以上の発声を要求し、それらの発声から得られた特徴パラメータ系列を用いて、最尤推定法によりHMMによる登録語の単語モデルを学習する方法が一般的である。
【0007】
最尤推定法により、HMMの単語モデルを学習する方法は、上記「音声・音情報のディジタル信号処理」の第4章に詳述されている。最尤推定法による、HMMの単語モデルの学習においては、モデルのパラメータの推定精度の問題から、3回以上の発声をユーザーに要求し、学習に十分な量の特徴パラメータ系列を取得する必要がある。しかしながら、ユーザーにとっては必ず3回以上の発声を要求されることは心理的に苦痛である。
【0008】
そこで、1回の発声で登録語を登録できる機能を実現するために、USP5,732,187、 特願平 10−255196が提案されている。これらの方法では、1回の発声から得られる特徴パラメータ系列から、上記ビタビアルゴリズムにより、音韻または音韻のHMMから分解されて生成された音響イベントのラベル系列を求め、それを登録語のテンプレート(登録語ラベル系列)とすることにより、簡便な登録語の登録機能を実現している。
【0009】
【発明が解決しようとする課題】
特定話者の登録語を登録する機能を有する不特定話者音声認識装置において、特定話者が登録した登録語以外の音を高い精度で棄却する機能が強く望まれている。
【0010】
例えば、特定話者の登録語を登録する機能を有する不特定話者音声認識装置のユーザーが自分だけの特別な言葉(以後、パスワードと呼ぶ。)を音声で登録し、自分のパスワード以外の音が入力された場合にそれらが全て棄却されれば、他人に自分の不特定話者音声認識装置を悪用されることが避けられ、自分だけのパーソナルな音声認識装置とすることができる。
【0011】
また、音声認識装置に音声認識処理を行わせるトリガーとして用いられる物理的なスイッチを無くしたいという要求に以下のようにして答えることも可能になる。例えば、自動車を運転している場合は、安全上の理由から両手はハンドルを握っている必要がある。
【0012】
一方、カーオーディオ装置、カーナビゲーション装置、自動車電話などの装置を運転者が声で操作する場合、短時間の間、運転者は少なくとも片手をハンドルから話して、上記スイッチを操作し、音声認識処理を駆動しなければならない。このスイッチ操作を行う時、短時間の間、視線が前方からスイッチに移動することも起こり得るため、決して安全とは言えない。
【0013】
もし、物理的なスイッチが一切不要の音声認識装置があれば、両手はハンドルから離れることもなく、視線も前方から逸れることがないので、安全を確保することができる。そこで、上記と同様にしてパスワードを登録し、パスワードのみを受理可能な認識(パスワード認識)モードを設けることにより、外部雑音、自動車内での会話音声、カーオーディオのスピーカー音などの音は、パスワード以外の音として音声認識装置が棄却できる。音声認識装置を駆動したい場合にのみパスワードを発声し、その音声が受理されるという仕組みにより、スイッチを一切不要にすることが可能である。
【0014】
さらに、住宅内において、声で住宅内の機器を操作する場合でも、パスワード認識モードを設け、パスワード認識を物理的なスイッチの代わりに用いることにより、声で離れたところにある住宅内の機器を操作することが容易になる。例えば、まずパスワードを発声し、次に、「照明」と発声することにより、壁に埋め込まれたスイッチに触れることなく、照明のON/OFFを制御することが可能になる。
【0015】
ベッドに寝たきりの障害者やお年寄りは、まずパスワードを発声し、次に住宅内機器の制御コマンドを発声することにより、ベッドから移動しなくても、テレビの電源のON/OFF制御やチャンネルの切替ができたり、エアコンのON/OFF制御や暖房/冷房の切替ができるようになる。スピーカーから流れるテレビ放送の音、家の外から聞こえる雑音などのパスワード以外の音が全てパスワード認識モードにおいて棄却されれば、住宅内の機器が勝手に操作されることはない。
【0016】
これらの例は、特定話者の登録語をパスワードとして使用し、パスワード認識モードを物理的なスイッチの代わりに使用した場合のものである。他の例として、機器を制御するための音声コマンドを特定話者の登録語として登録する場合が考えられる。たとえば、住宅内の応用例においては、照明のことを「電気」、「電灯」、「ライト」などの呼び方で呼ぶ人がいる。
【0017】
このように、1つの機器を人によって、地方によって、習慣によって異なった呼び方をする。このようなケースに対応するためには、1つの機器に対するあらゆる呼び方を全国から収集し、予め不特定話者音声認識装置の中に組み込んでおく必要があるが、そのために要する手間は現実的な規模ではないであろう。
【0018】
また、人によっては、ある機器を他の人と違った呼び方、例えばニックネームで呼びたいという希望も考えられる。このようなケースに備えて、特定話者の登録語を登録できる機能を準備することが有効であるが、これらの登録語以外の音を高い精度で棄却できれば、機器が誤動作することを抑制することができる。
そこで、本発明の目的は、予め登録されたある特定話者の登録語の音声のみを高い精度で認識し、特定話者の登録語以外の全ての音を高い精度で棄却する機能を有する音声認識装置および方法を提供することにある。
【0019】
【課題を解決するための手段】
このような目的を達成するために、請求項1の発明は、予め、1つの登録語に関して特定の音声認識対象者の音声から音響パラメータ系列を抽出し、当該抽出された音声の音響パラメータ系列を自己ループを許容した音響イベントモデルのラベル系列に変換し、登録語についての音響イベントモデルのラベル系列と、音声認識時に抽出された音響パラメータ系列とをビタビアルゴリズムにより照合することにより音声認識を行う音声認識装置において、前記特定の音声認識対象者に固有の登録語を登録するための音声登録モードと、音声認識を行うための音声認識モードとを択一的に選択するモード選択手段と、前記モード選択手段により音声登録モードが選択された場合に、前記登録語の音響イベントモデルのラベル系列のラベルの第1の自己ループ回数を計数する第1の計数手段と、当該計数された第1の自己ループ回数を記憶しておく記憶手段と、前記モード選択手段により音声認識モードが選択された場合に、登録語の音響イベントモデルのラベル系列に従って、音響イベントモデルを接続して構成される登録語のモデルにおいて、生起可能な全ての遷移の第2の自己ループ回数を計数する第2の計数手段と、ビタビアルゴリズムによる照合において、音声登録時の音響イベントモデルのラベル系列の遷移に近づけるように、前記第2の計数手段により計数された第2の自己ループ回数および該第2の自己ループ回数と対応しており前記記憶手段に記憶された第1の自己ループ回数とに基づいて、登録語のモデルの遷移確率を補正する遷移確率補正手段とを具えたことを特徴とする。
【0020】
請求項2の発明は、請求項1に記載の音声認識装置において、前記特定の音声認識対象者に関する自己ループ回数に加えて、不特定の音声認識対象者の音声から変換された音響イベントモデルのラベル系列のラベルの自己ループ回数が前記第1の自己ループ回数として前記記憶手段に記憶されていることを特徴とする。
【0021】
請求項3の発明は、予め、1つの登録語に関して特定の音声認識対象者の音声から音響パラメータ系列を抽出し、当該抽出された音声の音響パラメータ系列を自己ループを許容した音響イベントモデルのラベル系列に変換し、登録語についての音響イベントモデルのラベル系列と、音声認識時に抽出された音響パラメータ系列とをビタビアルゴリズムにより照合することにより音声認識装置において音声認識を行う音声認識方法において、前記音声認識装置は、モード選択手段、記憶手段、第1の計数手段、第2の計数手段および遷移確率補正手段を有しており、前記特定の音声認識対象者に固有の登録語を登録するための音声登録モードと、音声認識を行うための音声認識モードとを択一的に前記モード選択手段により選択し、前記モード選択手段により音声登録モードが選択された場合に、前記登録語の音響イベントモデルのラベル系列のラベルの第1の自己ループ回数を前記第1の計数手段により計数し、当該計数された第1の自己ループ回数を前記記憶手段に記憶しておき、前記モード選択手段により音声認識モードが選択された場合に、登録語の音響イベントモデルのラベル系列に従って、音響イベントモデルを接続して構成される登録語のモデルにおいて、生起可能な全ての遷移の第2の自己ループ回数を前記第2の計数手段により計数し、ビタビアルゴリズムによる照合において、音声登録時の音響イベントモデルのラベル系列の遷移に近づけるように、前記計数手段により計数された第2の自己ループ回数および該第2の自己ループ回数と対応しており前記記憶手段に記憶された第1の自己ループ回数とに基づいて、登録語のモデルの遷移確率を前記遷移確率補正手段により補正することを特徴とする。
【0022】
請求項4の発明は、請求項3に記載の音声認識方法において、前記特定の音声認識対象者に関する自己ループ回数に加えて、不特定の音声認識対象者の音声から変換された音響イベントモデルのラベル系列のラベルの自己ループ回数が前記第1の自己ループ回数として記憶されていることを特徴とする。
【0023】
【実施形態】
本発明は、特定話者の登録語を登録する機能を有する不特定話者音声認識装置において、予め登録されたある特定話者の登録語の音声のみを高い精度で認識し、特定話者の登録語以外の全ての音を高い精度で棄却する機能を有する音声認識装置を提供するものである。
【0024】
そのために、特定話者の登録語を登録する機能において、登録語の音声から得られた音響パラメータ系列をビタビアルゴリズムを用いて、音韻のHMMから分解されて生成された、音響イベントのラベル系列に変換し、それを登録語のテンプレート(登録語ラベル系列)とする。この際に、各音響イベント毎に自己ループを連続して遷移した回数(以後、自己ループ回数と呼ぶ。)を記録しておく。音響イベント毎の自己ループ回数は、当業者であれば、ビタビアルゴリズムを用いて容易に算出することが可能である。
【0025】
登録語以外の音が入力された場合に、その音が登録語の中の1つであると誤認識される場合がしばしば起こる。これは、誤認識された単語が登録されたときの自己ループ回数を伴う状態遷移に関係なく、尤度が最大になるような状態遷移を行った時の尤度を求める性質をビタビアルゴリズムが原理的に有していることに起因する。従って、登録語以外の音が入力された場合でも、ビタビアルゴリズムにより得られる登録語の尤度が、ガーベッジモデルの尤度を上回る場合に、棄却することができずに誤認識するということが起こる。
【0026】
登録単語が登録された場合の自己ループ回数を伴う状態遷移に近い状態遷移が起こるようにビタビアルゴリズムを制御することにより、ビタビアルゴリズムにより得られる登録語の尤度が、ガーベッジモデルの尤度を上回る頻度を抑制することができ、登録語以外の音が入力された場合にその音を棄却しやすくなると考えられる。
【0027】
そこで、特定話者の登録語の認識時においては、登録語ラベル系列から構成されるネットワークを用いて、ビタビアルゴリズムにより、登録語の尤度計算を行う際に、上記ネットワーク内に存在する音響イベントの各状態において、自己ループ回数を記録しておく(図5参照)。認識時の自己ループ回数が、登録時の自己ループ回数よりもかなり小さい場合は、別の音響イベントの状態へ遷移する確率を小さな値に動的に置き換えて、自己ループしやすいように制御する。
【0028】
逆に、認識時の自己ループ回数が、登録時の自己ループ回数よりもかなり大きい場合は、自己ループの遷移確率を小さな値に動的に置き換えて、自己ループしにくいように制御する。このように、音響イベントの状態間の遷移確率を動的に操作して、認識時の自己ループ回数が登録時に記録された自己ループ回数に接近するように制御する。こうすることにより、登録時に記録された自己ループ回数に類似した自己ループ回数を伴う状態遷移を行った時の登録語の尤度を求めることができる。
【0029】
登録語の中で最も高い尤度を持つ登録語の尤度と、上述のガーベッジモデルの尤度を比較する。前者が大きければ、登録語が発声されたと判断することができ、後者が大きければ、登録語以外の音が入力されたと判断することができる。
【0030】
このような音声認識方法を実現するための音声認識装置を以下、図面を参照して説明する。
【0031】
図1は本発明第1の実施形態の機能構成を示す。図1において、アナログ音声信号11はADコンバータによる入力手段aによりデジタル信号22に変換される。デジタル信号22は変換手段bにより一定のフレーム周期で音響パラメータ33に変換される。音響パラメータとしては、上記「音声・音情報のディジタル信号処理」にも記述されているケプストラムなどを用いればよい。
【0032】
特定の話者に固有の登録語を登録する場合には、音響パラメータ33が登録語ラベル系列抽出手段dに送られ、認識用データ蓄積手段cに蓄積された認識用データ44を参照しながら、図5の登録語ラベル系列55に変換される。このとき、ラベルの自己ループ回数が計数され、計数結果が、ラベルとともに語彙ラベルネットワーク蓄積手段fに蓄積される。なお、認識用データ蓄積手段cに蓄積された認識用データ44としては、隠れマルコフモデルでモデル化された音声単位のモデルのデータおよび音響パラメータ33を登録語ラベル系列55に変換するための音声単位のモデルのネットワークデータの2つが蓄積されている。
【0033】
音声単位としては、音節、半音節、音韻などが考えられるが、以下では、音韻よりも小さな音声単位として、音韻HMMから分解されて生成された音響イベントを用いた場合について説明を加える。言語や音韻の種類を問わず、一般に音韻は図6に示される4つの状態からなるHMMでモデル化されることが多い。
【0034】
状態1は初期状態であり、状態遷移は必ず状態1から開始される。状態4は最終状態であり、この状態に遷移するとそれ以上状態遷移は発生しない。a(i、j)は状態iから状態jへの遷移する確率を表し、遷移確率と呼ばれる。j=i+1とすると、a(i、i)+a(i、j)=1.0である。b(i、x)は状態iへ状態遷移する際に、観測ベクトルxが出力される確率を表し、出力確率と呼ばれる。観測ベクトルは、図1の音響パラメータ33に対応し、ケプストラムがよく用いられる。出力確率b(i、x)は1個以上の正規分布の重ね合わせで表現される。また、出力確率は状態iから状態遷移する際に、観測ベクトルxが出力される確率b(i、x)として定式化される場合や、状態iから状態jへ状態遷移する際に、観測ベクトルxが出力される確率b(i、j、x)として定式化される場合もある。出力確率b(i、x)が1個以上の正規分布の重ね合わせで定式化される場合、HMMを連続HMMと呼ぶ。その他に、半連続HMMや離散HMMで音韻をモデル化する場合があるが、本実施形態はいずれのモデル化にも同様に適用が可能である。
【0035】
図6に示される4状態の音韻HMMを図7、図8、図9の3つの2状態からなるHMMに分割する。これらは音韻を構成する音響イベントに対応すると考えることが可能であるため、音響イベントHMMと呼ぶこととし、状態番号に合わせて、*.1、*.2、*.3と表すこととする。ここで、*は図3の音韻ラベルを表す。
【0036】
これらの音響イベントHMMが任意の順番で任意の長さで接続しうるネットワークを図10に示す。このネットワークを音響イベントネットワークと呼ぶことにする。この音響イベントネットワークを用いてビタビアルゴリズムにより、特定話者の登録語の音声を音響イベント系列に変換する。例えば、「コンピュータ」という音声からは、図5のような登録語ラベル系列が得られる。このようにして得られた音響イベント系列を図1の登録語ラベル系列55として用いることにより、登録語に対してより高い近似性の高いテンプレートが得られる。尚、図10の形状の音響イベントネットワーク以外にも、図11に示すような音響イベントの位置に関する制約を設けたネットワークを使用することも可能であるが、特願平10−255196号にも詳述されているので、さらなる説明を省略する。
【0037】
ここで、従来のビタビアルゴリズムを図12を用いて説明しておく。この図において、時刻tにおいて、登録語mの音響イベントnが有する尤度をp(t、m、n)で表す。また、登録語mの音響イベントnから音響イベントnへ遷移する遷移確率をa(m、n、n)で表す。この遷移は、自己ループに対応する。
【0038】
登録語mの音響イベントn−1から音響イベントnへ遷移する遷移確率をa(m、n−1、n)で表す。この遷移は、自己ループではなく、次の音響イベントへの遷移に対応する。また、b(m、n、x(t))は、時刻tにおいて登録語mの音響イベントnへ状態遷移する際に、観測ベクトルx(t)が出力される出力確率を表す。この時、時刻tでの登録語mの音響イベントnで行われる従来のビタビアルゴリズムは一般に次式で表現される。
p(t−1、m、n−1)*a(m、n−1、n)>=p(t−1、m、n)*a(m、n、n)ならば、
p(t、m、n)=p(t−1、m、n−1)*a(m、n−1、n)*b(m、n、x(t))。
p(t−1、m、n−1)*a(m、n−1、n)<p(t−1、m、n)*a(m、n、n)ならば、
p(t、m、n)=p(t−1、m、n)*a(m、n、n)*b(m、n、x(t))。
【0039】
すなわち、時刻t−1における登録語mの音響イベントn−1の尤度に音響イベントn−1から音響イベントnへの遷移確率をかけた値が、時刻t−1における登録語mの音響イベントnの尤度に音響イベントnから音響イベントnへ自己ループする遷移確率をかけた値よりも大きければ、時刻tにおいて音響イベントn−1から音響イベントnへ遷移するパスが選択される。逆の場合は、時刻tにおいて音響イベントnから音響イベントnへ自己ループするパスが選択される。
【0040】
従来のビタビアルゴリズムにおいては、自己ループするか、他の状態へ遷移するかは上式に従って判断される。どの音響イベントで何回自己ループするかは全く管理されず、最終的に尤度が最大になるような音響イベント間の遷移を行った時の尤度が算出される。もし、入力音声の音響パラメータ系列の一部が、ある登録語の音響イベント系列の一部に非常に似通っていれば、その登録語を認識結果として判断することになる。従って、例え、登録語以外の音が入力されたとしても、ビタビアルゴリズムにより得られる登録語の尤度が、ガーベッジモデルの尤度を上回る場合には、その入力を棄却することができずに誤認識するということが起こる。
【0041】
登録単語が登録された場合の自己ループ回数を伴う状態遷移に近い状態遷移が起こるようにビタビアルゴリズムを制御することにより、ビタビアルゴリズムにより得られる登録語の尤度が、ガーベッジモデルの尤度を上回る頻度を抑制することができ、登録語以外の音が入力された場合にその音を棄却しやすくなると考えられる。
【0042】
音響イベントネットワークを用いて、ビタビアルゴリズムにより、特定話者の登録語の音声を登録語ラベル系列55に変換する際に、登録語ラベル系列を構成する音響イベントHMM毎の自己ループ回数を求めることができる。今、登録語mの音響イベントnの自己ループ回数をL(m、n)で表すことにする。登録時においては、全ての登録語について、その登録語ラベル系列の全ての音響イベントの自己ループ回数L(m、n)を語彙ラベルネットワーク蓄積手段fとしてのメモリなどの記憶手段に記録しておく。
【0043】
実際の認識時においては、変換手段bで出力された音響パラメータ33、認識用データ蓄積手段cに蓄積された音響イベントモデルのデータからなる認識用データ45、登録語ラベル系列蓄積手段fに蓄積された登録語ラベル系列55を用いて、認識手段gにおいてビタビアルゴリズムにより、認識結果88を得ることができるが、本実施形態では、語彙に含まれる単語以外の音を高い精度で棄却することができるように、以下の工夫を加える。
【0044】
ビタビアルゴリズムにより、登録語ラベル系列の各音響イベント毎の尤度を求める場合の、時刻tでの登録語mの音響イベントnの連続した自己ループ回数を不図示の計数手段により計数し、その計数結果をK(t、m、n)で表すことにする。
【0045】
この時、K(t−1、m、n)< L(m、n)−p である場合には、図13に示すように音響イベントnから音響イベントn+1に遷移する確率a(m、n、n+1)を不図示の補正手段により十分に小さな値(例えば、0.01)に動的に置き換えたのち、従来のビタビアルゴリズムを実行する。これにより、音響イベントnから音響イベントn+1に遷移する可能性が低くなり、結果として音響イベントnで続けて自己ループ遷移をしやすくなる。
【0046】
一方、K(t−1、m、n)> L(m、n)+p である場合には、図14に示すように音響イベントnから音響イベントnへの自己ループの遷移確率a(m、n、n)を十分に小さな値(例えば、0.01)に動的に置き換えたのち、従来のビタビアルゴリズムを実行する。これにより、音響イベントnから音響イベントnへの自己ループ遷移の可能性が低くなり、結果として音響イベントn+1に遷移しやすくなるので、音響イベントnでの自己ループ回数の増加が抑えられる。
【0047】
こうして、登録単語が登録された場合の自己ループ回数を伴う状態遷移に近い状態遷移が起こるようにビタビアルゴリズムを制御することが可能になる。ここで、pは自然数であり、登録単語が登録された場合の自己ループ回数を伴う状態遷移にどの程度近い状態遷移が起こるようにするかを制御する変数である。
【0048】
こうして得られた登録語の尤度は、自己ループ回数の制御を行わない従来のビタビアルゴリズムにより得られた登録語の尤度よりも低い値になる。従って、登録語の尤度がガーベッジモデルの尤度を上回る頻度を抑制することができ、登録語以外の音が入力された場合にその音を棄却しやすくなると考えられる。
【0049】
登録語の中で最も高い尤度を持つ登録語の尤度と、ガーベッジモデルの尤度を比較し、前者が大きければ、登録語を認識結果88とする。一方、後者が大きければ、登録語以外の音が入力されたと判断することができ、入力音の棄却を認識結果88とすれば良い。
【0050】
認識結果88は、スピーカーやディスプレーなどの出力手段hにより、音声や画面による出力結果99として話者に出力される。
【0051】
ここで、従来のビタビアルゴリズムを用いた場合と本実施形態によるビタビアルゴリズムを用いた場合の2つについて、語彙以外の音が棄却される性能について比較した2つのタスクのデータを示す。
【0052】
まず、1つ目のタスクでは、1単語のみを特定話者の登録語として登録し、それ以外の99単語が棄却できるかどうかを比較した。その結果、従来法では、棄却できる確率が80%であったが、本実施形態に依れば、100%であった。尚、本実施形態では、登録した登録語の認識率も100%であった。
【0053】
2つ目のタスクでは、99単語のみを特定話者の登録語として登録し、それ以外の1単語が棄却できるかどうかを比較した。その結果、従来法では、棄却できる確率が5%であったが、実施形態に依れば、50%であった。尚、本実施形態では、登録した登録語の認識率は90%であった。
【0054】
以上の結果から、特定話者の登録語以外の音の棄却に関する本発明の有効性が明らかとなった。
【0055】
最後に、認識語彙が特定話者の登録語と不特定話者の固定語の2つからなる第2の実施形態について説明する。図2に示すように、第2の実施形態では、新たに、不特定の話者に共通の固定語のスペルからあるルールに従い予め抽出された音声単位のラベル系列を記憶する固定語ラベル系列記憶手段eを追加する。これを実現する音声認識装置および音声認識方法に関しては、既にPCT JP 99−04885で出願済みである。不特定話者の固定語以外の音を高い確率で棄却できるように、本発明を適用することができるの言うまでもない。
【0056】
具体的には、不特定話者に固定語の音声データから、不特定の話者に共通の固定語のスペルからあるルールに従い予め抽出された音声単位のラベル系列の各ラベル毎の自己ループ回数の分布の情報(固定語自己ループ回数69)を予め算出しておき、固定語ラベル系列記憶手段eに固定語ラベル系列66とともに記憶しておけばよい。
【0057】
そして、認識手段gにおいては、固定語自己ループ回数69を利用して、上述の方法に従って、遷移確率を動的に十分小さな値に置換しながら、ビタビアルゴリズムにより照合を行えばよい。例えば、固定語自己ループ回数69の上限値と下限値の範囲から乖離した状態遷移が起こらないように制御するなどの方法が考えられる。
【0058】
上述の実施形態の他に次の形態を実施できる。
1)図1および図2に示す機能形成は、たとえば、パソコンやデジタルプロセッサなどでソフトウェアをCPUが実行し、メモリに音声認識に関連する上述のデータを記憶(蓄積)しておくことにより実現できる。本発明に関わる自己ループ回数は次のように計数すればよい。
【0059】
音声登録時および音声認識時において、ラベル系列をビタビアルゴリズムを用いてCPUにより作成して行く過程で取得されるラベルとその開始時刻と終了時刻を一時的にメモリに記憶しておく。終了時刻と開始時刻の差の時刻をラベルの自己ループ回数として計数すればよい。
【0060】
また、音声認識時に得られるラベルの自己ループ回数と、登録時に得られた自己ループ回数を比較し、比較結果に基づきラベルの遷移確率を補正する処理はCPUの簡単な情報処理で実現できるので、詳細な説明を要しないであろう。
【0061】
【発明の効果】
以上、説明したように、本発明では、音声登録時および音声認識に得られるラベルの自己ループ回数を比較する。その比較結果に基づいて、ラベルの遷移確率を可変設定して、音声認識時の遷移状態を音声登録時に近付けて、尤度を計算する。また、これにより、誤認識がなくなるだけでなく、音声登録者の音声認識精度もさらに向上する。
【図面の簡単な説明】
【図1】本発明第1の実施形態の機能構成を示すブロック図である。
【図2】本発明第2の機能構成を示すブロック図である。
【図3】音韻の分類を示す説明図である。
【図4】「コンピュータ」の固定語ラベル系列を示す説明図である。
【図5】「コンピュータ」の登録語ラベル系列を示す説明図である。
【図6】(A)および(B)は音韻HMMの構造を示す説明図である。
【図7】(A)および(B)は音響イベントHMM *.1の構造を示す説明図である。
【図8】(A)および(B)は音響イベントHMM *.2の構造を示す説明図である。
【図9】(A)および(B)は音響イベントHMM *.3の構造を示す説明図である。
【図10】音響イベントネットワークの内容を示す説明図である。
【図11】音響イベントの位置に関する制約を設けたネットワークの内容を示す説明図である。
【図12】従来のビタビアルゴリズムによる処理内容を示す説明図である。
【図13】本発明を適用し、ビタビアルゴリズム(登録時よりも自己ループ回数が少ない場合)に基づく処理内容を示す説明図である。
【図14】本発明を適用し、ビタビアルゴリズム(登録時よりも自己ループ回数が多い場合)に基づく処理内容を示す説明図である。
【符号の説明】
11 アナログ音声信号
22 デジタル信号
33 音響パラメータ
44、45 音声認識用データ
55 登録語ラベル系列
59 登録語自己ループ回数
66 固定語ラベル系列
69 固定語自己ループ回数
77 語彙ラベルネットワーク
88 認識結果
99 出力結果
Claims (4)
- 予め、1つの登録語に関して特定の音声認識対象者の音声から音響パラメータ系列を抽出し、当該抽出された音声の音響パラメータ系列を自己ループを許容した音響イベントモデルのラベル系列に変換し、登録語についての音響イベントモデルのラベル系列と、音声認識時に抽出された音響パラメータ系列とをビタビアルゴリズムにより照合することにより音声認識を行う音声認識装置において、
前記特定の音声認識対象者に固有の登録語を登録するための音声登録モードと、音声認識を行うための音声認識モードとを択一的に選択するモード選択手段と、
前記モード選択手段により音声登録モードが選択された場合に、前記登録語の音響イベントモデルのラベル系列のラベルの第1の自己ループ回数を計数する第1の計数手段と、
当該計数された第1の自己ループ回数を記憶しておく記憶手段と、
前記モード選択手段により音声認識モードが選択された場合に、登録語の音響イベントモデルのラベル系列に従って、音響イベントモデルを接続して構成される登録語のモデルにおいて、生起可能な全ての遷移の第2の自己ループ回数を計数する第2の計数手段と、
ビタビアルゴリズムによる照合において、音声登録時の音響イベントモデルのラベル系列の遷移に近づけるように、前記第2の計数手段により計数された第2の自己ループ回数および該第2の自己ループ回数と対応しており前記記憶手段に記憶された第1の自己ループ回数とに基づいて、登録語のモデルの遷移確率を補正する遷移確率補正手段と
を具えたことを特徴とする音声認識装置。 - 請求項1に記載の音声認識装置において、前記特定の音声認識対象者に関する自己ループ回数に加えて、不特定の音声認識対象者の音声から変換された音響イベントモデルのラベル系列のラベルの自己ループ回数が前記第1の自己ループ回数として前記記憶手段に記憶されていることを特徴とする音声認識装置。
- 予め、1つの登録語に関して特定の音声認識対象者の音声から音響パラメータ系列を抽出し、当該抽出された音声の音響パラメータ系列を自己ループを許容した音響イベントモデルのラベル系列に変換し、登録語についての音響イベントモデルのラベル系列と、音声認識時に抽出された音響パラメータ系列とをビタビアルゴリズムにより照合することにより音声認識装置において音声認識を行う音声認識方法において、前記音声認識装置は、モード選択手段、記憶手段、第1の計数手段、第2の計数手段および遷移確率補正手段を有しており、
前記特定の音声認識対象者に固有の登録語を登録するための音声登録モードと、音声認識を行うための音声認識モードとを択一的に前記モード選択手段により選択し、
前記モード選択手段により音声登録モードが選択された場合に、前記登録語の音響イベントモデルのラベル系列のラベルの第1の自己ループ回数を前記第1の計数手段により計数し、
当該計数された第1の自己ループ回数を前記記憶手段に記憶しておき、
前記モード選択手段により音声認識モードが選択された場合に、登録語の音響イベントモデルのラベル系列に従って、音響イベントモデルを接続して構成される登録語のモデルにおいて、生起可能な全ての遷移の第2の自己ループ回数を前記第2の計数手段により計数し、
ビタビアルゴリズムによる照合において、音声登録時の音響イベントモデルのラベル系列の遷移に近づけるように、前記計数手段により計数された第2の自己ループ回数および該第2の自己ループ回数と対応しており前記記憶手段に記憶された第1の自己ループ回数とに基づいて、登録語のモデルの遷移確率を前記遷移確率補正手段により補正することを特徴とする音声認識方法。 - 請求項3に記載の音声認識方法において、前記特定の音声認識対象者に関する自己ループ回数に加えて、不特定の音声認識対象者の音声から変換された音響イベントモデルのラベル系列のラベルの自己ループ回数が前記第1の自己ループ回数として記憶されていることを特徴とする音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000001032A JP3936827B2 (ja) | 2000-01-06 | 2000-01-06 | 音声認識装置および方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000001032A JP3936827B2 (ja) | 2000-01-06 | 2000-01-06 | 音声認識装置および方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001195083A JP2001195083A (ja) | 2001-07-19 |
JP3936827B2 true JP3936827B2 (ja) | 2007-06-27 |
Family
ID=18530293
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000001032A Expired - Fee Related JP3936827B2 (ja) | 2000-01-06 | 2000-01-06 | 音声認識装置および方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3936827B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2003234941A1 (en) * | 2003-06-16 | 2005-01-04 | Dong Woo Kim | Transmit power control outer loop for improving speech recognition rate management in mobile communications systems |
-
2000
- 2000-01-06 JP JP2000001032A patent/JP3936827B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001195083A (ja) | 2001-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111566729B (zh) | 用于远场和近场声音辅助应用的利用超短语音分段进行的说话者标识 | |
US11170776B1 (en) | Speech-processing system | |
US10923111B1 (en) | Speech detection and speech recognition | |
JP5386692B2 (ja) | 対話型学習装置 | |
US9318103B2 (en) | System and method for recognizing a user voice command in noisy environment | |
CA2387079C (en) | Natural language interface control system | |
US9159319B1 (en) | Keyword spotting with competitor models | |
US20220343895A1 (en) | User-defined keyword spotting | |
US7634401B2 (en) | Speech recognition method for determining missing speech | |
JP3803029B2 (ja) | 音声認識装置 | |
JPH096389A (ja) | 音声認識対話処理方法および音声認識対話装置 | |
JP2012047924A (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
JP2000221990A (ja) | 音声認識装置 | |
JP2004198831A (ja) | 音声認識装置および方法、プログラム、並びに記録媒体 | |
JP6797338B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2004333543A (ja) | 音声対話システム及び音声対話方法 | |
US5487129A (en) | Speech pattern matching in non-white noise | |
Lecouteux et al. | Distant speech recognition for home automation: Preliminary experimental results in a smart home | |
JP2004163541A (ja) | 音声応答装置 | |
JP3936827B2 (ja) | 音声認識装置および方法 | |
JP4094255B2 (ja) | コマンド入力機能つきディクテーション装置 | |
JPH06161488A (ja) | 音声認識装置 | |
JP4236502B2 (ja) | 音声認識装置 | |
JP4919282B2 (ja) | 不明瞭音声コマンド認識装置および不明瞭音声コマンド認識処理方法 | |
WO2022259836A1 (ja) | 話者識別方法、話者識別装置、及び話者識別プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040323 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060331 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060509 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060704 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070316 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070326 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3936827 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100330 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100330 Year of fee payment: 3 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100330 Year of fee payment: 3 |
|
R370 | Written measure of declining of transfer procedure |
Free format text: JAPANESE INTERMEDIATE CODE: R370 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100330 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100330 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110330 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110330 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120330 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120330 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130330 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140330 Year of fee payment: 7 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |