JP2006251147A

JP2006251147A - 音声認識方法

Info

Publication number: JP2006251147A
Application number: JP2005065355A
Authority: JP
Inventors: Toshiaki Fukada; 俊明深田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2005-03-09
Filing date: 2005-03-09
Publication date: 2006-09-21
Anticipated expiration: 2025-03-09
Also published as: KR100742888B1; EP1701338A1; EP1701338B1; CN1831939A; DE602006001764D1; US20060206326A1; JP4667082B2; CN100587806C; ATE401644T1; ES2310893T3; KR20060097647A; US7634401B2

Abstract

【課題】ユーザの発声開始コマンド入力が正しく行われない場合など、先頭部分が欠落した音声信号に対して、簡便な処理で認識性能の劣化を防ぐ方法を提供することを目的としている。
【解決手段】利用者の操作もしくは動作に従って利用者が発声する音声の取り込みを開始し、取り込まれた音声の先頭部分が欠落しているか否かを判定し、前記音声判定手段の結果に基づいて認識対象語の発音情報を設定し、前記設定された発音情報を用いて取り込まれた音声を認識する。
【選択図】図５

Description

本発明は、ボタン押下などの発話開始コマンド入力を伴った音声認識を行う際に、ボタン押下前に発声を行っても高精度の音声認識を実現しうる方法に関するものである。

音声認識を行う際には、周囲雑音などの影響による誤動作を防ぐ目的で、口とマイクロフォン間の距離、入力レベルを適切に設定することや、発声開始コマンド入力（通常はボタン押下）を適切に行う必要があり、これらが適切に行われない場合、大幅な認識性能の劣化を生じる。しかし、ユーザはこれらの設定や入力を必ずしも適切に行うとは限らないため、このような場合においても、劣化を防ぐ何らかの対策を講じる必要がある。特に、ボタン押下前に発声を行うなど発声開始コマンド入力が正しく行われない場合には、発声開始コマンド入力後にマイクロフォンから音声を取り込むため、音声の先頭部分が欠落してしまうことになり、この欠落音声を用いてそのまま通常の音声認識を行うと、発声開始コマンドが正しく行われている場合と比較して、認識率が大幅に低下する。

これに対して、特許文献１では、認識処理を開始するコマンド入力後に取り込まれる音声データを格納するデータバッファとは別に、常に一定長の音声取り込みを行うリングバッファを設け、コマンド入力後、データバッファに取り込まれた音声を用いて音声の始端検出を行い、始端が検出されなかった場合には、リングバッファに格納されているコマンド入力前の音声を併用して音声の始端検出を行う方法が開示されている。この方法は、リングバッファによって音声の取り込み処理を常に行う必要があるため、データバッファのみを用いる場合と比較すると、余分なＣＰＵ負荷を生じる。つまり、携帯端末などのバッテリー駆動の機器で利用する場合には必ずしも適した方法であるとは言えない。

また、特許文献２では、騒音下における音声認識率の低下を抑制することを目的として、語頭の半音節もしくは単音節を省略した単語を認識対象の単語とする方法、および騒音レベルに応じて語頭を省いた単語を認識対象の単語とするか否かを制御する方法が開示されている。この方法では、語頭の半音節もしくは単音節を省略するか否かを、語頭の半音節や単音節の種類や騒音レベルを用いて判定し、省略すると判定された場合には省略されていない単語は認識対象の単語としない。また、語頭を省くか否かの判断基準において、ユーザの動作や操作による発話開始コマンド入力が正しく動作しているか否かという観点は一切考慮されていない。このため特許文献２では、語頭の省略は１音節までであり、また、静かな環境では語頭を省略されることはない。よって、ボタン押下前に発声を行った場合、例えば、静かな環境において２音節程度の音声が欠落した場合には、特許文献２の方法では認識性能の劣化を防ぐことはできない。
特許第２８２９０１４号公報特許第３５８８９２９号公報

本発明は上述の問題を鑑みてなされたもので、ユーザの発声開始コマンド入力が正しく行われない場合など、先頭部分が欠落した音声信号に対して、簡便な処理で認識性能の劣化を防ぐ方法を提供することを目的としている。

上記目的を達成するために、本発明の音声認識方法は以下のような構成を備える。すなわち、利用者の動作に従って利用者が発声する音声の取り込みを開始する音声取り込み工程と、取り込まれた音声の先頭部分が欠落しているか否かを判定する判定工程と、前記判定工程の結果に基づいて認識対象語の発音情報を設定する設定工程と、前記設定された発音情報を用いて取り込まれた音声を認識する音声認識工程とを備える。

また、本発明は、利用者の動作に従って利用者が発声する音声の取り込みを開始する音声取り込み工程と、前記音声の取り込みの開始が、前記利用者の発声の途中であるか否かを判定する判定工程と、前記判定工程の結果に基づいて認識対象語の発音情報を設定する設定工程と、前記設定された発音情報を用いて取り込まれた音声を認識する音声認識工程とを備える。

本発明によれば、音声認識の精度を向上することが可能となる。

以下、図面を参照しながら本発明の好適な実施例について説明していく。

図１は、本発明の第１の実施形態に係る音声認識装置の構成を示すブロック図である。１０１はＣＰＵで、ＲＯＭ１０２に記憶された制御プログラム或いは外部記憶装置１０４からＲＡＭ１０３にロードされた制御プログラムに従って、本実施形態の音声認識装置における各種制御を行う。ＲＯＭ１０２は各種パラメータやＣＰＵ１０１が実行する制御プログラムなどを格納している。ＲＡＭ１０３は、ＣＰＵ１０１による各種制御の実行時に作業領域を提供するとともに、ＣＰＵ１０１により実行される制御プログラムを記憶する。１０４はハードディスク、フロッピー（登録商標）ディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、メモリカード等の外部記憶装置で、この外部記憶装置がハードディスクの場合には、ＣＤ−ＲＯＭやフロッピー（登録商標）ディスク等からインストールされた各種プログラムが記憶されている。１０５はマイクロフォンなどによる音声入力装置であり、取り込まれた音声に対して音声認識が実行される。１０６はＣＲＴ、液晶ディスプレイなどの表示装置であり、処理内容の設定・入力に関する表示・出力を行う。１０７はボタン、テンキー、キーボード、マウス、ペンなどの補助入力装置であり、これらの入力装置を用いて利用者が発声する音声の取り込みを開始するための指示を与える。１０８はスピーカなどの補助出力装置であり、音声認識結果を音声で確認する場合などに用いられる。１０９は上記各部を接続するバスである。なお、音声認識の対象となる音声は、１０５によって入力してもよいし、別の装置や手段によって獲得したものを１０２、１０３、１０４もしくは、ネットワーク接続された外部装置に保持したものを対象としてもよい。

図２は、音声認識方法のモジュール構成を示したブロック図である。２０１は１０５でマイクロフォンなどから入力された音声を取り込む音声取り込み部であり、音声取り込みを開始する指示は、１０７のボタン押下などによる利用者の操作によって行う。２０２は取り込み音声判定部で、２０１で取り込まれた音声の先頭部分が欠落しているか否かの判定を行う。２０３は発音情報設定部であり、２０２の判定結果に基づいて、認識対象語の発音情報を設定する。２０４は音声認識部であり、２０３で設定された発音情報を用いて２０１で取り込まれた音声を認識する。

図３は、音声非登録型もしくは不特定話者の音声を認識する際に用いられる一般的な音声認識方法のモジュール構成を示したブロック図である。３０１は１０５などで入力された音声を認識する音声入力部である。３０２は音声特徴量抽出部であり、３０１で入力された音声をスペクトル分析し、音声の特徴量を抽出する。３０５は発音辞書であり、音声認識の対象となる認識対象語の読み情報が保持されている。３０６は音響モデルであり、音素、音節、単語などのモデルが保持されており、３０５の発音辞書の読み情報に従って認識対象語の参照パターンが音響モデルを用いて構成される。３０７は言語モデルであり、認識対象語となる単語リスト、文法制約、単語接続の確率値などが保持されている。３０３は探索部であり、３０５から３０７を用いて構成される参照パターンと、３０２で得られる音声の特徴量との距離計算もしくは尤度計算、探索処理などを行う。３０４は結果出力部であり、３０３で得られる結果を１０６に表示あるいは１０８に音声出力する、もしくは所定の動作を行うために認識結果を出力する。ここで、２０３における発音情報の設定は、３０５の発音辞書の設定を行うことに相当する。

図５は、音声認識方法の全体の処理を示したフローチャートであり、この図を用いて全体の処理を更に詳細に説明する。まず、Ｓ５０１で発声開始のコマンド入力を待機する。ここで、発声開始コマンドの入力は、利用者の操作もしくは動作に従って行われ、テンキー、キーボード、スイッチなどのボタン押下、マウスクリック、タッチパネル押下など発声開始コマンドとして利用者が指示を与えられるものであればいかなる方法を用いてもよい。他にも、赤外線などの光センサ、触覚センサ、超音波センサなどのセンサを用いれば、利用者が音声認識装置に近づく動作を検知することが可能となり、この動作を発声開始コマンドと見なした場合、センサの反応を発声開始コマンドとして利用することもできる。次に、Ｓ５０１の発声開始コマンドをトリガーとして、Ｓ５０２でマイクロフォンなどから音声の取り込みを行う。取り込まれた音声は、Ｓ５０４において取り込み音声の先頭部分が欠落しているか否かを判定し、この判定に必要な音声分析をＳ５０３において行う。

図６は、発声開始コマンド入力のタイミングの違いによる音声欠落の様子を示した概念図である。横軸は時間であり、時刻Ｓから音声が始まっている。ここで、（ａ）は発声開始コマンド入力が時刻Ｐ（Ｐ＜Ｓ）になされた場合であり、時刻Ｐ（もしくはその直後）から音声の取り込みが開始できるため、音声の欠落はなく、正常に取り込みがなされている。一方、（ｂ）は発声開始コマンド入力が時刻Ｑ（Ｓ＜Ｑ）になされた場合であり、時刻Ｑ（もしくはその直後）から音声の取り込みが開始されるため、先頭部分の音声が欠落している。このように発声開始コマンド入力後取り込まれる音声の先頭部分が欠落しているか否かを次に述べる方法によって音声分析、判定する。

この音声分析および判定としては様々な方法が考えられるが、簡便な方法の一つとして、取り込み音声波形の先頭部分（例えば３００サンプル）から波形パワーを計算し、これを予め決められた閾値と比較し、閾値を超えている場合には音声の先頭部分が欠落しているとし、閾値以下の場合には欠落していないとするといった判定が行える。他にも、零交差回数、スペクトル、基本周波数などの分析を行うことによって判定を行うことができる。

零交差回数は、取り込み音声データを符号付き表現した場合（例えば、１６ｂｉｔ、ｓｉｇｎｅｄｓｈｏｒｔの場合には−３２７６８から３２７６７の範囲を取る）の符号が変化する回数をカウントすることによって求めることができる。この零交差回数を音声波形の先頭部分に対して求め、前記波形パワーの場合と同様の閾値比較を行うことによって、閾値よりも大きい場合は欠落していないとし、閾値以下の場合には欠落しているとするといった判定が行える。

スペクトルは、例えば４０２の音声認識の特徴量抽出と同じ分析を行うことができる。次に、得られた特徴量を用いて音声モデルと非音声モデルに対する尤度（もしくは確率）を求め、音声モデルの尤度が非音声モデルに対する尤度よりも大きい場合には欠落しているとし、音声モデルの尤度が非音声モデルの尤度以下の場合には欠落していないとするといった判定が行える。ここで、音声モデルと非音声モデルは音声部分の特徴量および非音声部分の特徴量から予め統計モデルとして作成しておく。モデルは既存のいかなる方法を用いてもよいが、例えばＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）に基づく方法が利用できる。また、４０２の音声認識の特徴量抽出とは異なる分析を行った他のスペクトルを表わす特徴パラメータを用いた方法でもよい。

基本周波数は、自己相関法やケプストラム法など既存の基本周波数分析を用いることができる。ここで、欠落の判定には、基本周波数の値を直接用いるのではなく、周期性に関する値を用いる。具体的には、例えばケプストラム法に基づく基本周波数分析の場合であれば、ケフレンシー（対数振幅スペクトルの逆離散フーリエ変換）上での系列の所定の範囲内（人の声の高さとして考えられ得る範囲）における最大値を用いることができる。この値を音声波形の先頭部分に対して求め、前記波形パワーの場合と同様の閾値比較を行うことによって、閾値よりも大きい場合は欠落しているとし、閾値以下の場合には欠落していないとするといった判定が行える。また、基本周波数を求めるのではなく、他の調波構造を求める分析を行い、これを特徴パラメータとする方法でもよい。

次に、Ｓ５０４で音声が欠落していると判定された場合には、Ｓ５０５で音声欠落用の発音情報を設定した後、Ｓ５０６でこの発音情報を用いた音声認識を行う。また、Ｓ５０４で欠落していないと判定された場合には、Ｓ５０６で通常の音声認識を行う。いま、「東京」、「広島」、「徳島」、「津」の４単語が認識対象語としたときのＳ５０５における処理を図７から図１１を用いて説明する。図７は認識対象語の例であり、単語ＩＤ、表記、発音（音素）の情報を保持している。この発音（音素）系列（「東京」の場合は、／ｔｏｏｋｙｏｏ／の７音素）に従って、３０６の音響モデル（例えば、音素ＨＭＭ）を連結することによって音声認識処理における参照パターンを生成する。図８は、図７の発音の情報から最初の音素を削除した場合の認識対象語である。例えば、「東京」の場合は、先頭の音素／ｔ／を削除することによって、／ｏｏｋｙｏｏ／となる。図９および図１０は、第２番目までおよび第４番目までの音素を削除した場合の認識対象語である。なお、「津」の発音系列は／ｔｓｕ／と２音素であるため、２音素以上削除すると発音系列がなくなってしまう。このような場合には、無音のモデル（ＳＩＬ）を発音系列として割り当てる。また、図１０の「広島」および「徳島」は、先頭の４音素を削除すると、同一の発音系列（／ｓｈｉｍａ／）となる。Ｓ５０４で音声が欠落していないと判定される場合には、通常の図７のみを認識対象語としてＳ５０６で音声認識を行う。一方、Ｓ５０４で音声が欠落していると判定された場合には、Ｓ５０５において、図７の認識対象語に加え、図８から図１０に示したような先頭の発音系列を削除したものも認識対象語に加えてＳ５０６で音声認識を行う。ここで、前述のＳ５０３の音声分析とＳ５０４の音声欠落判定では、音声が欠落しているか否かは判定できるが、欠落音声の長さあるいは音素数を推定することはできない。従って、何音素分を削除した認識対象語を加えれば適切であるかは、事前に決定しておく必要がある。この決定方法は、経験的に設定する、利用者の操作や動作からどの程度欠落するかという傾向を捉えて設定する、認識性能を鑑みて設定するなどの方法が利用できる。いま、先頭から４音素までの発音系列を削除した認識対象語の全ての組み合わせを認識対象語とすると、図１１に示されるような認識対象語が音声欠落用発音情報として設定される。

なお、Ｓ５０３における前述のスペクトル分析や基本周波数分析は音声認識処理における音声特徴量抽出処理と同一もしくは類似した処理であるため、これらの処理は２０４の内部に含んだ構成として実行することも可能である。図１７は、音声認識処理の中に取り込み音声判定と発音情報設定を含んだ音声認識方法のモジュール構成を示したブロック図である。２０２および２０３が、それぞれ６０３および６０４として図３の処理の中に含まれた構成となっている。なお、６０１から６０９は図２および図３のものと同様であるため説明は省略する。

また、Ｓ５０３の音声分析は、音声の先頭１フレームのみを用いて行う必要はなく、複数フレーム（例えば、先頭から５フレーム分）の情報を用いてもよい。また、Ｓ５０４における音声の欠落判定のための閾値比較は所定の値を用いていたが、これに限らず、例えば先頭１フレーム目の波形パワーと１０フレーム目の波形パワーを比較して、１フレーム目の波形パワーが１０フレーム目の波形パワーよりも大幅に小さい場合には（例えば１０％以下）、音声欠落はないと判定するといった処理も可能である。

また、Ｓ５０４では音声が欠落しているか否かを判定する例を挙げたが、これに限られるものではなく、音声の取り込みの開始が、利用者の発声の途中であるか否かを判定するよう構成しても構わない。

以上のような構成とすることで、ユーザの発声開始コマンド入力のタイミングが適切ではなくても認識性能の劣化を防ぐことが可能となるため、特に音声認識装置に不慣れなユーザに対して、操作に対する安心感を提供することが可能となる。

前記実施例では、認識対象語の発音を音素表記した場合、すなわち読みに関する発音系列を削除することによって、Ｓ５０５の音声欠落用の発音情報を設定していた。しかしながら、本発明はこれに限らず、認識対象語の発音を音素よりも詳細な発音系列を用いて表現し、この詳細発音系列を削除することも可能である。具体的には、隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ：ＨＭＭ）に基づく音声認識を行う場合には、音素は一般的に複数の状態によってモデル化されるため、この状態系列を詳細発音系列として見なし、状態レベルで削除することによって、音素レベルの削除よりも精緻な発音情報の設定が可能となる。図１２は、音素／ｔ／を３状態（ｔ１、ｔ２、ｔ３）の隠れマルコフモデル（ＨＭＭ）でモデル化した例である。図７の発音をこの状態系列を用いて表すと、図１３のように表現することが可能である。この場合、図１３の状態系列において、第１番目の状態系列を削除すると、図１４のようになる。図１５は、発音（音素）系列の削除と状態系列の削除の違いを説明する模式図である。いま、全ての音素が３状態のＨＭＭでモデル化されている場合、「東京」の発音系列／ｔｏｏｋｙｏｏ／をＨＭＭの連結によって表すと、（ａ）のようになる。ここで、先頭の１音素（／ｔ／）の部分を削除すると、（ｂ）のように／ｔ／のＨＭＭ３状態が全て削除されることになる。しかし、「東京」の詳細発音系列として、ＨＭＭの状態系列による表現を用いると、／ｔ／のＨＭＭの１状態目ｔ１のみを削除することが可能となる。すなわち、状態レベルで削除することによって、音素レベルの削除よりも精緻な発音情報の設定が可能となる。なお、ここではＨＭＭで説明したが、一般的な状態遷移モデルを用いても同様に行うことができる。

前記実施例における発音情報の設定は、認識対象語は発音系列もしくは詳細発音系列として表現できる場合であり、これは例えば、現在広く用いられている音素ＨＭＭに基づく不特定話者音声認識において利用できる。すなわち、音声認識を利用する前に参照パターンを音声で登録する音声登録型の特定話者音声認識においては、参照パターンから音素あるいは状態系列を特定することができないため、前記実施例で述べた方法は利用することができない。しかしながら、参照パターンの特徴パラメータ系列を直接用いれば、音声欠落用の発音情報の設定が可能となる。

図４は、音声登録型の音声認識方法のモジュール構成を示したブロック図である。４０１から４０４は３０１から３０４と同様であるため説明は省略する。４０５は参照パターンであり、認識対象語を予め音声によって登録し、この登録音声の特徴パラメータ系列として保持される。いま、特徴パラメータ系列として、１２次のケプストラム、およびその一次回帰係数であるデルタケプストラム（ｃ１〜ｃ１２、△ｃ１〜△ｃ１２）で特徴パラメータ系列が保持されているとする。この場合、例えば、「東京」という単語に対する登録音声の特徴パラメータ系列は、図１６の（ａ）に示すような参照パターン系列（２４次元のベクトル系列）として保持される（Ｔ１はこの登録音声を音声分析した際のフレーム数）。この場合、Ｓ５０４において、音声が欠落していると判定された場合には、図１６の（ｂ）（先頭から１フレーム削除）や（ｃ）（先頭から２フレーム削除）に示されるように、特徴パラメータ系列の先頭から数フレームを削除したものを参照パターン系列とし、これら削除された特徴パラメータ系列も含めて音声認識を行うことによって、音声の先頭部分が欠落した入力に対しても認識性能の劣化の少ない音声認識が可能となる。

なお、本発明の目的は、前述した実施例の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出し実行することによっても達成されることは言うまでもない。

この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。

プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどを用いることができる。

また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

本発明に係る音声認識方法を搭載した情報機器のハードウェア構成を示したブロック図である。本発明に係る音声認識方法のモジュール構成を示したブロック図である。一般的な音声非登録型の音声認識方法のモジュール構成を示したブロック図である。一般的な音声登録型の音声認識方法のモジュール構成を示したブロック図である。本発明に係る音声認識方法の全体の処理を示したフローチャートである。発声開始コマンド入力のタイミングの違いによる音声欠落の様子を示した概念図である。認識対象語の例である。図７の認識対象語において第１番目の発音系列を削除した認識対象語の例である。図７の認識対象語において第２番目までの発音系列を削除した認識対象語の例である。図７の認識対象語において第４番目までの発音系列を削除した認識対象語の例である。図７の認識対象語において第４番目までの発音系列を削除した認識対象語の全ての組み合わせを示した例である。音素／ｔ／を３状態の隠れマルコフモデル（ＨＭＭ）でモデル化した例である。図７の認識対象語の発音情報をＨＭＭの状態系列によって表した場合の認識対象語の例である。図１３の認識対象語において第１番目の状態系列を削除した認識対象語の例である。発音系列の削除と状態系列の削除の違いを説明する模式図である。参照パターン系列の削除による発音情報の設定の様子を説明する模式図である。音声認識処理の中に取り込み音声判定と発音情報設定を含んだ音声認識方法のモジュール構成を示したブロック図である。

Claims

利用者の動作に従って利用者が発声する音声の取り込みを開始する音声取り込み工程と、
取り込まれた音声の先頭部分が欠落しているか否かを判定する判定工程と、
前記判定工程の結果に基づいて認識対象語の発音情報を設定する設定工程と、
前記設定された発音情報を用いて取り込まれた音声を認識する音声認識工程とを備えることを特徴とする音声認識方法。
利用者の動作に従って利用者が発声する音声の取り込みを開始する音声取り込み工程と、
前記音声の取り込みの開始が、前記利用者の発声の途中であるか否かを判定する判定工程と、
前記判定工程の結果に基づいて認識対象語の発音情報を設定する設定工程と、
前記設定された発音情報を用いて取り込まれた音声を認識する音声認識工程とを備えることを特徴とする音声認識方法。
前記判定工程において、先頭部分が欠落しているか否の判定は、音声波形のパワー、零交差回数、スペクトル情報もしくは調波構造を表わす特徴パラメータの少なくともいずれか一つに関する情報を用いて行うことを特徴とする請求項１または２記載の音声認識方法。
前記設定工程における発音情報は、認識対象語の読みに関する発音系列、発音系列に関する詳細発音系列、認識対象語に関する参照パターン系列の少なくともいずれか一つであることを特徴とする請求項１又は２記載の音声認識方法。
前記詳細発音系列は、発音系列を状態遷移モデルでモデル化した際の状態系列であることを特徴とする請求項４記載の音声認識方法。
前記参照パターン系列は、音声登録型の音声認識装置における登録音声の特徴パラメータ系列であることを特徴とする請求項４記載の音声認識方法。
前記音声取り込み工程は、利用者の操作に従って音声の取り込みを開始することを特徴とする請求項１又は２記載の音声認識方法。
前記音声取り込み工程は、センサによって検知された利用者の動作に従って音声の取り込みを開始することを特徴とする請求項１又は２記載の音声認識方法。
請求項１乃至請求項８のいずれかに記載の音声認識方法をコンピュータに実行させるための制御プログラム。
利用者の操作または動作に従って利用者が発声する音声の取り込みを開始する音声取り込み手段と、
取り込まれた音声の先頭部分が欠落しているか否かを判定する判定手段と、
前記判定手段の結果に基づいて認識対象語の発音情報を設定する設定手段と、
前記設定された発音情報を用いて取り込まれた音声を認識する音声認識手段とを備えることを特徴とする音声認識装置。
利用者の動作に従って利用者が発声する音声の取り込みを開始する音声取り込み手段と、
前記音声の取り込みの開始が、前記利用者の発声の途中であるか否かを判定する判定手段と、
前記判定工程の結果に基づいて認識対象語の発音情報を設定する設定手段と、
前記設定された発音情報を用いて取り込まれた音声を認識する音声認識手段とを備えることを特徴とする音声認識装置。
前記判定手段において、先頭部分が欠落しているか否の判定は、音声波形のパワー、零交差回数、スペクトル情報もしくは調波構造を表わす特徴パラメータの少なくともいずれか一つに関する情報を用いて行うことを特徴とする請求項１０又は１１記載の音声認識装置。
前記設定手段における発音情報は、認識対象語の読みに関する発音系列、発音系列に関する詳細発音系列、認識対象語に関する参照パターン系列の少なくともいずれか一つであることを特徴とする１０又は１１記載の音声認識装置。
前記詳細発音系列は、発音系列を状態遷移モデルでモデル化した際の状態系列であることを特徴とする請求項１３記載の音声認識装置。
前記参照パターン系列は、音声登録型の音声認識装置における登録音声の特徴パラメータ系列であることを特徴とする請求項１３記載の音声認識装置。
前記音声取り込み手段は、利用者の操作に従って音声の取り込みを開始することを特徴とする請求項１０又は１１記載の音声認識装置。
前記音声取り込み手段は、センサによって検知された利用者の動作に従って音声の取り込みを開始することを特徴とする請求項１０又は１１記載の音声認識装置。