JP2006251147A - 音声認識方法 - Google Patents

音声認識方法 Download PDF

Info

Publication number
JP2006251147A
JP2006251147A JP2005065355A JP2005065355A JP2006251147A JP 2006251147 A JP2006251147 A JP 2006251147A JP 2005065355 A JP2005065355 A JP 2005065355A JP 2005065355 A JP2005065355 A JP 2005065355A JP 2006251147 A JP2006251147 A JP 2006251147A
Authority
JP
Japan
Prior art keywords
voice
speech
pronunciation
recognition
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005065355A
Other languages
English (en)
Other versions
JP4667082B2 (ja
JP2006251147A5 (ja
Inventor
Toshiaki Fukada
俊明 深田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2005065355A priority Critical patent/JP4667082B2/ja
Application filed by Canon Inc filed Critical Canon Inc
Priority to ES06250864T priority patent/ES2310893T3/es
Priority to EP06250864A priority patent/EP1701338B1/en
Priority to AT06250864T priority patent/ATE401644T1/de
Priority to DE602006001764T priority patent/DE602006001764D1/de
Priority to US11/368,986 priority patent/US7634401B2/en
Priority to KR1020060021863A priority patent/KR100742888B1/ko
Priority to CN200610057222A priority patent/CN100587806C/zh
Publication of JP2006251147A publication Critical patent/JP2006251147A/ja
Publication of JP2006251147A5 publication Critical patent/JP2006251147A5/ja
Application granted granted Critical
Publication of JP4667082B2 publication Critical patent/JP4667082B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Abstract

【課題】 ユーザの発声開始コマンド入力が正しく行われない場合など、先頭部分が欠落した音声信号に対して、簡便な処理で認識性能の劣化を防ぐ方法を提供することを目的としている。
【解決手段】 利用者の操作もしくは動作に従って利用者が発声する音声の取り込みを開始し、取り込まれた音声の先頭部分が欠落しているか否かを判定し、前記音声判定手段の結果に基づいて認識対象語の発音情報を設定し、前記設定された発音情報を用いて取り込まれた音声を認識する。
【選択図】 図5

Description

本発明は、ボタン押下などの発話開始コマンド入力を伴った音声認識を行う際に、ボタン押下前に発声を行っても高精度の音声認識を実現しうる方法に関するものである。
音声認識を行う際には、周囲雑音などの影響による誤動作を防ぐ目的で、口とマイクロフォン間の距離、入力レベルを適切に設定することや、発声開始コマンド入力(通常はボタン押下)を適切に行う必要があり、これらが適切に行われない場合、大幅な認識性能の劣化を生じる。しかし、ユーザはこれらの設定や入力を必ずしも適切に行うとは限らないため、このような場合においても、劣化を防ぐ何らかの対策を講じる必要がある。特に、ボタン押下前に発声を行うなど発声開始コマンド入力が正しく行われない場合には、発声開始コマンド入力後にマイクロフォンから音声を取り込むため、音声の先頭部分が欠落してしまうことになり、この欠落音声を用いてそのまま通常の音声認識を行うと、発声開始コマンドが正しく行われている場合と比較して、認識率が大幅に低下する。
これに対して、特許文献1では、認識処理を開始するコマンド入力後に取り込まれる音声データを格納するデータバッファとは別に、常に一定長の音声取り込みを行うリングバッファを設け、コマンド入力後、データバッファに取り込まれた音声を用いて音声の始端検出を行い、始端が検出されなかった場合には、リングバッファに格納されているコマンド入力前の音声を併用して音声の始端検出を行う方法が開示されている。この方法は、リングバッファによって音声の取り込み処理を常に行う必要があるため、データバッファのみを用いる場合と比較すると、余分なCPU負荷を生じる。つまり、携帯端末などのバッテリー駆動の機器で利用する場合には必ずしも適した方法であるとは言えない。
また、特許文献2では、騒音下における音声認識率の低下を抑制することを目的として、語頭の半音節もしくは単音節を省略した単語を認識対象の単語とする方法、および騒音レベルに応じて語頭を省いた単語を認識対象の単語とするか否かを制御する方法が開示されている。この方法では、語頭の半音節もしくは単音節を省略するか否かを、語頭の半音節や単音節の種類や騒音レベルを用いて判定し、省略すると判定された場合には省略されていない単語は認識対象の単語としない。また、語頭を省くか否かの判断基準において、ユーザの動作や操作による発話開始コマンド入力が正しく動作しているか否かという観点は一切考慮されていない。このため特許文献2では、語頭の省略は1音節までであり、また、静かな環境では語頭を省略されることはない。よって、ボタン押下前に発声を行った場合、例えば、静かな環境において2音節程度の音声が欠落した場合には、特許文献2の方法では認識性能の劣化を防ぐことはできない。
特許第2829014号公報 特許第3588929号公報
本発明は上述の問題を鑑みてなされたもので、ユーザの発声開始コマンド入力が正しく行われない場合など、先頭部分が欠落した音声信号に対して、簡便な処理で認識性能の劣化を防ぐ方法を提供することを目的としている。
上記目的を達成するために、本発明の音声認識方法は以下のような構成を備える。すなわち、利用者の動作に従って利用者が発声する音声の取り込みを開始する音声取り込み工程と、取り込まれた音声の先頭部分が欠落しているか否かを判定する判定工程と、前記判定工程の結果に基づいて認識対象語の発音情報を設定する設定工程と、前記設定された発音情報を用いて取り込まれた音声を認識する音声認識工程とを備える。
また、本発明は、利用者の動作に従って利用者が発声する音声の取り込みを開始する音声取り込み工程と、前記音声の取り込みの開始が、前記利用者の発声の途中であるか否かを判定する判定工程と、前記判定工程の結果に基づいて認識対象語の発音情報を設定する設定工程と、前記設定された発音情報を用いて取り込まれた音声を認識する音声認識工程とを備える。
本発明によれば、音声認識の精度を向上することが可能となる。
以下、図面を参照しながら本発明の好適な実施例について説明していく。
図1は、本発明の第1の実施形態に係る音声認識装置の構成を示すブロック図である。101はCPUで、ROM102に記憶された制御プログラム或いは外部記憶装置104からRAM103にロードされた制御プログラムに従って、本実施形態の音声認識装置における各種制御を行う。ROM102は各種パラメータやCPU101が実行する制御プログラムなどを格納している。RAM103は、CPU101による各種制御の実行時に作業領域を提供するとともに、CPU101により実行される制御プログラムを記憶する。104はハードディスク、フロッピー(登録商標)ディスク、CD−ROM、DVD−ROM、メモリカード等の外部記憶装置で、この外部記憶装置がハードディスクの場合には、CD−ROMやフロッピー(登録商標)ディスク等からインストールされた各種プログラムが記憶されている。105はマイクロフォンなどによる音声入力装置であり、取り込まれた音声に対して音声認識が実行される。106はCRT、液晶ディスプレイなどの表示装置であり、処理内容の設定・入力に関する表示・出力を行う。107はボタン、テンキー、キーボード、マウス、ペンなどの補助入力装置であり、これらの入力装置を用いて利用者が発声する音声の取り込みを開始するための指示を与える。108はスピーカなどの補助出力装置であり、音声認識結果を音声で確認する場合などに用いられる。109は上記各部を接続するバスである。なお、音声認識の対象となる音声は、105によって入力してもよいし、別の装置や手段によって獲得したものを102、103、104もしくは、ネットワーク接続された外部装置に保持したものを対象としてもよい。
図2は、音声認識方法のモジュール構成を示したブロック図である。201は105でマイクロフォンなどから入力された音声を取り込む音声取り込み部であり、音声取り込みを開始する指示は、107のボタン押下などによる利用者の操作によって行う。202は取り込み音声判定部で、201で取り込まれた音声の先頭部分が欠落しているか否かの判定を行う。203は発音情報設定部であり、202の判定結果に基づいて、認識対象語の発音情報を設定する。204は音声認識部であり、203で設定された発音情報を用いて201で取り込まれた音声を認識する。
図3は、音声非登録型もしくは不特定話者の音声を認識する際に用いられる一般的な音声認識方法のモジュール構成を示したブロック図である。301は105などで入力された音声を認識する音声入力部である。302は音声特徴量抽出部であり、301で入力された音声をスペクトル分析し、音声の特徴量を抽出する。305は発音辞書であり、音声認識の対象となる認識対象語の読み情報が保持されている。306は音響モデルであり、音素、音節、単語などのモデルが保持されており、305の発音辞書の読み情報に従って認識対象語の参照パターンが音響モデルを用いて構成される。307は言語モデルであり、認識対象語となる単語リスト、文法制約、単語接続の確率値などが保持されている。303は探索部であり、305から307を用いて構成される参照パターンと、302で得られる音声の特徴量との距離計算もしくは尤度計算、探索処理などを行う。304は結果出力部であり、303で得られる結果を106に表示あるいは108に音声出力する、もしくは所定の動作を行うために認識結果を出力する。ここで、203における発音情報の設定は、305の発音辞書の設定を行うことに相当する。
図5は、音声認識方法の全体の処理を示したフローチャートであり、この図を用いて全体の処理を更に詳細に説明する。まず、S501で発声開始のコマンド入力を待機する。ここで、発声開始コマンドの入力は、利用者の操作もしくは動作に従って行われ、テンキー、キーボード、スイッチなどのボタン押下、マウスクリック、タッチパネル押下など発声開始コマンドとして利用者が指示を与えられるものであればいかなる方法を用いてもよい。他にも、赤外線などの光センサ、触覚センサ、超音波センサなどのセンサを用いれば、利用者が音声認識装置に近づく動作を検知することが可能となり、この動作を発声開始コマンドと見なした場合、センサの反応を発声開始コマンドとして利用することもできる。次に、S501の発声開始コマンドをトリガーとして、S502でマイクロフォンなどから音声の取り込みを行う。取り込まれた音声は、S504において取り込み音声の先頭部分が欠落しているか否かを判定し、この判定に必要な音声分析をS503において行う。
図6は、発声開始コマンド入力のタイミングの違いによる音声欠落の様子を示した概念図である。横軸は時間であり、時刻Sから音声が始まっている。ここで、(a)は発声開始コマンド入力が時刻P(P<S)になされた場合であり、時刻P(もしくはその直後)から音声の取り込みが開始できるため、音声の欠落はなく、正常に取り込みがなされている。一方、(b)は発声開始コマンド入力が時刻Q(S<Q)になされた場合であり、時刻Q(もしくはその直後)から音声の取り込みが開始されるため、先頭部分の音声が欠落している。このように発声開始コマンド入力後取り込まれる音声の先頭部分が欠落しているか否かを次に述べる方法によって音声分析、判定する。
この音声分析および判定としては様々な方法が考えられるが、簡便な方法の一つとして、取り込み音声波形の先頭部分(例えば300サンプル)から波形パワーを計算し、これを予め決められた閾値と比較し、閾値を超えている場合には音声の先頭部分が欠落しているとし、閾値以下の場合には欠落していないとするといった判定が行える。他にも、零交差回数、スペクトル、基本周波数などの分析を行うことによって判定を行うことができる。
零交差回数は、取り込み音声データを符号付き表現した場合(例えば、16bit、signed shortの場合には−32768から32767の範囲を取る)の符号が変化する回数をカウントすることによって求めることができる。この零交差回数を音声波形の先頭部分に対して求め、前記波形パワーの場合と同様の閾値比較を行うことによって、閾値よりも大きい場合は欠落していないとし、閾値以下の場合には欠落しているとするといった判定が行える。
スペクトルは、例えば402の音声認識の特徴量抽出と同じ分析を行うことができる。次に、得られた特徴量を用いて音声モデルと非音声モデルに対する尤度(もしくは確率)を求め、音声モデルの尤度が非音声モデルに対する尤度よりも大きい場合には欠落しているとし、音声モデルの尤度が非音声モデルの尤度以下の場合には欠落していないとするといった判定が行える。ここで、音声モデルと非音声モデルは音声部分の特徴量および非音声部分の特徴量から予め統計モデルとして作成しておく。モデルは既存のいかなる方法を用いてもよいが、例えばGMM(Gaussian Mixture Model)に基づく方法が利用できる。また、402の音声認識の特徴量抽出とは異なる分析を行った他のスペクトルを表わす特徴パラメータを用いた方法でもよい。
基本周波数は、自己相関法やケプストラム法など既存の基本周波数分析を用いることができる。ここで、欠落の判定には、基本周波数の値を直接用いるのではなく、周期性に関する値を用いる。具体的には、例えばケプストラム法に基づく基本周波数分析の場合であれば、ケフレンシー(対数振幅スペクトルの逆離散フーリエ変換)上での系列の所定の範囲内(人の声の高さとして考えられ得る範囲)における最大値を用いることができる。この値を音声波形の先頭部分に対して求め、前記波形パワーの場合と同様の閾値比較を行うことによって、閾値よりも大きい場合は欠落しているとし、閾値以下の場合には欠落していないとするといった判定が行える。また、基本周波数を求めるのではなく、他の調波構造を求める分析を行い、これを特徴パラメータとする方法でもよい。
次に、S504で音声が欠落していると判定された場合には、S505で音声欠落用の発音情報を設定した後、S506でこの発音情報を用いた音声認識を行う。また、S504で欠落していないと判定された場合には、S506で通常の音声認識を行う。いま、「東京」、「広島」、「徳島」、「津」の4単語が認識対象語としたときのS505における処理を図7から図11を用いて説明する。図7は認識対象語の例であり、単語ID、表記、発音(音素)の情報を保持している。この発音(音素)系列(「東京」の場合は、/t o o k y o o/の7音素)に従って、306の音響モデル(例えば、音素HMM)を連結することによって音声認識処理における参照パターンを生成する。図8は、図7の発音の情報から最初の音素を削除した場合の認識対象語である。例えば、「東京」の場合は、先頭の音素/t/を削除することによって、/o o k y o o/となる。図9および図10は、第2番目までおよび第4番目までの音素を削除した場合の認識対象語である。なお、「津」の発音系列は/ts u/と2音素であるため、2音素以上削除すると発音系列がなくなってしまう。このような場合には、無音のモデル(SIL)を発音系列として割り当てる。また、図10の「広島」および「徳島」は、先頭の4音素を削除すると、同一の発音系列(/sh i m a/)となる。S504で音声が欠落していないと判定される場合には、通常の図7のみを認識対象語としてS506で音声認識を行う。一方、S504で音声が欠落していると判定された場合には、S505において、図7の認識対象語に加え、図8から図10に示したような先頭の発音系列を削除したものも認識対象語に加えてS506で音声認識を行う。ここで、前述のS503の音声分析とS504の音声欠落判定では、音声が欠落しているか否かは判定できるが、欠落音声の長さあるいは音素数を推定することはできない。従って、何音素分を削除した認識対象語を加えれば適切であるかは、事前に決定しておく必要がある。この決定方法は、経験的に設定する、利用者の操作や動作からどの程度欠落するかという傾向を捉えて設定する、認識性能を鑑みて設定するなどの方法が利用できる。いま、先頭から4音素までの発音系列を削除した認識対象語の全ての組み合わせを認識対象語とすると、図11に示されるような認識対象語が音声欠落用発音情報として設定される。
なお、S503における前述のスペクトル分析や基本周波数分析は音声認識処理における音声特徴量抽出処理と同一もしくは類似した処理であるため、これらの処理は204の内部に含んだ構成として実行することも可能である。図17は、音声認識処理の中に取り込み音声判定と発音情報設定を含んだ音声認識方法のモジュール構成を示したブロック図である。202および203が、それぞれ603および604として図3の処理の中に含まれた構成となっている。なお、601から609は図2および図3のものと同様であるため説明は省略する。
また、S503の音声分析は、音声の先頭1フレームのみを用いて行う必要はなく、複数フレーム(例えば、先頭から5フレーム分)の情報を用いてもよい。また、S504における音声の欠落判定のための閾値比較は所定の値を用いていたが、これに限らず、例えば先頭1フレーム目の波形パワーと10フレーム目の波形パワーを比較して、1フレーム目の波形パワーが10フレーム目の波形パワーよりも大幅に小さい場合には(例えば10%以下)、音声欠落はないと判定するといった処理も可能である。
また、S504では音声が欠落しているか否かを判定する例を挙げたが、これに限られるものではなく、音声の取り込みの開始が、利用者の発声の途中であるか否かを判定するよう構成しても構わない。
以上のような構成とすることで、ユーザの発声開始コマンド入力のタイミングが適切ではなくても認識性能の劣化を防ぐことが可能となるため、特に音声認識装置に不慣れなユーザに対して、操作に対する安心感を提供することが可能となる。
前記実施例では、認識対象語の発音を音素表記した場合、すなわち読みに関する発音系列を削除することによって、S505の音声欠落用の発音情報を設定していた。しかしながら、本発明はこれに限らず、認識対象語の発音を音素よりも詳細な発音系列を用いて表現し、この詳細発音系列を削除することも可能である。具体的には、隠れマルコフモデル(Hidden Markov Model:HMM)に基づく音声認識を行う場合には、音素は一般的に複数の状態によってモデル化されるため、この状態系列を詳細発音系列として見なし、状態レベルで削除することによって、音素レベルの削除よりも精緻な発音情報の設定が可能となる。図12は、音素/t/を3状態(t1、t2、t3)の隠れマルコフモデル(HMM)でモデル化した例である。図7の発音をこの状態系列を用いて表すと、図13のように表現することが可能である。この場合、図13の状態系列において、第1番目の状態系列を削除すると、図14のようになる。図15は、発音(音素)系列の削除と状態系列の削除の違いを説明する模式図である。いま、全ての音素が3状態のHMMでモデル化されている場合、「東京」の発音系列/t o o k y o o/をHMMの連結によって表すと、(a)のようになる。ここで、先頭の1音素(/t/)の部分を削除すると、(b)のように/t/のHMM3状態が全て削除されることになる。しかし、「東京」の詳細発音系列として、HMMの状態系列による表現を用いると、/t/のHMMの1状態目t1のみを削除することが可能となる。すなわち、状態レベルで削除することによって、音素レベルの削除よりも精緻な発音情報の設定が可能となる。なお、ここではHMMで説明したが、一般的な状態遷移モデルを用いても同様に行うことができる。
前記実施例における発音情報の設定は、認識対象語は発音系列もしくは詳細発音系列として表現できる場合であり、これは例えば、現在広く用いられている音素HMMに基づく不特定話者音声認識において利用できる。すなわち、音声認識を利用する前に参照パターンを音声で登録する音声登録型の特定話者音声認識においては、参照パターンから音素あるいは状態系列を特定することができないため、前記実施例で述べた方法は利用することができない。しかしながら、参照パターンの特徴パラメータ系列を直接用いれば、音声欠落用の発音情報の設定が可能となる。
図4は、音声登録型の音声認識方法のモジュール構成を示したブロック図である。401から404は301から304と同様であるため説明は省略する。405は参照パターンであり、認識対象語を予め音声によって登録し、この登録音声の特徴パラメータ系列として保持される。いま、特徴パラメータ系列として、12次のケプストラム、およびその一次回帰係数であるデルタケプストラム(c1〜c12、△c1〜△c12)で特徴パラメータ系列が保持されているとする。この場合、例えば、「東京」という単語に対する登録音声の特徴パラメータ系列は、図16の(a)に示すような参照パターン系列(24次元のベクトル系列)として保持される(T1はこの登録音声を音声分析した際のフレーム数)。この場合、S504において、音声が欠落していると判定された場合には、図16の(b)(先頭から1フレーム削除)や(c)(先頭から2フレーム削除)に示されるように、特徴パラメータ系列の先頭から数フレームを削除したものを参照パターン系列とし、これら削除された特徴パラメータ系列も含めて音声認識を行うことによって、音声の先頭部分が欠落した入力に対しても認識性能の劣化の少ない音声認識が可能となる。
なお、本発明の目的は、前述した実施例の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても達成されることは言うまでもない。
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
本発明に係る音声認識方法を搭載した情報機器のハードウェア構成を示したブロック図である。 本発明に係る音声認識方法のモジュール構成を示したブロック図である。 一般的な音声非登録型の音声認識方法のモジュール構成を示したブロック図である。 一般的な音声登録型の音声認識方法のモジュール構成を示したブロック図である。 本発明に係る音声認識方法の全体の処理を示したフローチャートである。 発声開始コマンド入力のタイミングの違いによる音声欠落の様子を示した概念図である。 認識対象語の例である。 図7の認識対象語において第1番目の発音系列を削除した認識対象語の例である。 図7の認識対象語において第2番目までの発音系列を削除した認識対象語の例である。 図7の認識対象語において第4番目までの発音系列を削除した認識対象語の例である。 図7の認識対象語において第4番目までの発音系列を削除した認識対象語の全ての組み合わせを示した例である。 音素/t/を3状態の隠れマルコフモデル(HMM)でモデル化した例である。 図7の認識対象語の発音情報をHMMの状態系列によって表した場合の認識対象語の例である。 図13の認識対象語において第1番目の状態系列を削除した認識対象語の例である。 発音系列の削除と状態系列の削除の違いを説明する模式図である。 参照パターン系列の削除による発音情報の設定の様子を説明する模式図である。 音声認識処理の中に取り込み音声判定と発音情報設定を含んだ音声認識方法のモジュール構成を示したブロック図である。

Claims (17)

  1. 利用者の動作に従って利用者が発声する音声の取り込みを開始する音声取り込み工程と、
    取り込まれた音声の先頭部分が欠落しているか否かを判定する判定工程と、
    前記判定工程の結果に基づいて認識対象語の発音情報を設定する設定工程と、
    前記設定された発音情報を用いて取り込まれた音声を認識する音声認識工程とを備えることを特徴とする音声認識方法。
  2. 利用者の動作に従って利用者が発声する音声の取り込みを開始する音声取り込み工程と、
    前記音声の取り込みの開始が、前記利用者の発声の途中であるか否かを判定する判定工程と、
    前記判定工程の結果に基づいて認識対象語の発音情報を設定する設定工程と、
    前記設定された発音情報を用いて取り込まれた音声を認識する音声認識工程とを備えることを特徴とする音声認識方法。
  3. 前記判定工程において、先頭部分が欠落しているか否の判定は、音声波形のパワー、零交差回数、スペクトル情報もしくは調波構造を表わす特徴パラメータの少なくともいずれか一つに関する情報を用いて行うことを特徴とする請求項1または2記載の音声認識方法。
  4. 前記設定工程における発音情報は、認識対象語の読みに関する発音系列、発音系列に関する詳細発音系列、認識対象語に関する参照パターン系列の少なくともいずれか一つであることを特徴とする請求項1又は2記載の音声認識方法。
  5. 前記詳細発音系列は、発音系列を状態遷移モデルでモデル化した際の状態系列であることを特徴とする請求項4記載の音声認識方法。
  6. 前記参照パターン系列は、音声登録型の音声認識装置における登録音声の特徴パラメータ系列であることを特徴とする請求項4記載の音声認識方法。
  7. 前記音声取り込み工程は、利用者の操作に従って音声の取り込みを開始することを特徴とする請求項1又は2記載の音声認識方法。
  8. 前記音声取り込み工程は、センサによって検知された利用者の動作に従って音声の取り込みを開始することを特徴とする請求項1又は2記載の音声認識方法。
  9. 請求項1乃至請求項8のいずれかに記載の音声認識方法をコンピュータに実行させるための制御プログラム。
  10. 利用者の操作または動作に従って利用者が発声する音声の取り込みを開始する音声取り込み手段と、
    取り込まれた音声の先頭部分が欠落しているか否かを判定する判定手段と、
    前記判定手段の結果に基づいて認識対象語の発音情報を設定する設定手段と、
    前記設定された発音情報を用いて取り込まれた音声を認識する音声認識手段とを備えることを特徴とする音声認識装置。
  11. 利用者の動作に従って利用者が発声する音声の取り込みを開始する音声取り込み手段と、
    前記音声の取り込みの開始が、前記利用者の発声の途中であるか否かを判定する判定手段と、
    前記判定工程の結果に基づいて認識対象語の発音情報を設定する設定手段と、
    前記設定された発音情報を用いて取り込まれた音声を認識する音声認識手段とを備えることを特徴とする音声認識装置。
  12. 前記判定手段において、先頭部分が欠落しているか否の判定は、音声波形のパワー、零交差回数、スペクトル情報もしくは調波構造を表わす特徴パラメータの少なくともいずれか一つに関する情報を用いて行うことを特徴とする請求項10又は11記載の音声認識装置。
  13. 前記設定手段における発音情報は、認識対象語の読みに関する発音系列、発音系列に関する詳細発音系列、認識対象語に関する参照パターン系列の少なくともいずれか一つであることを特徴とする10又は11記載の音声認識装置。
  14. 前記詳細発音系列は、発音系列を状態遷移モデルでモデル化した際の状態系列であることを特徴とする請求項13記載の音声認識装置。
  15. 前記参照パターン系列は、音声登録型の音声認識装置における登録音声の特徴パラメータ系列であることを特徴とする請求項13記載の音声認識装置。
  16. 前記音声取り込み手段は、利用者の操作に従って音声の取り込みを開始することを特徴とする請求項10又は11記載の音声認識装置。
  17. 前記音声取り込み手段は、センサによって検知された利用者の動作に従って音声の取り込みを開始することを特徴とする請求項10又は11記載の音声認識装置。
JP2005065355A 2005-03-09 2005-03-09 音声認識方法 Expired - Fee Related JP4667082B2 (ja)

Priority Applications (8)

Application Number Priority Date Filing Date Title
JP2005065355A JP4667082B2 (ja) 2005-03-09 2005-03-09 音声認識方法
EP06250864A EP1701338B1 (en) 2005-03-09 2006-02-17 Speech recognition method
AT06250864T ATE401644T1 (de) 2005-03-09 2006-02-17 Verfahren zur spracherkennung
DE602006001764T DE602006001764D1 (de) 2005-03-09 2006-02-17 Verfahren zur Spracherkennung
ES06250864T ES2310893T3 (es) 2005-03-09 2006-02-17 Metodo para el reconocimiento de voz.
US11/368,986 US7634401B2 (en) 2005-03-09 2006-03-06 Speech recognition method for determining missing speech
KR1020060021863A KR100742888B1 (ko) 2005-03-09 2006-03-08 음성 인식 방법
CN200610057222A CN100587806C (zh) 2005-03-09 2006-03-09 语音识别方法和语音识别装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005065355A JP4667082B2 (ja) 2005-03-09 2005-03-09 音声認識方法

Publications (3)

Publication Number Publication Date
JP2006251147A true JP2006251147A (ja) 2006-09-21
JP2006251147A5 JP2006251147A5 (ja) 2010-02-18
JP4667082B2 JP4667082B2 (ja) 2011-04-06

Family

ID=36250777

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005065355A Expired - Fee Related JP4667082B2 (ja) 2005-03-09 2005-03-09 音声認識方法

Country Status (8)

Country Link
US (1) US7634401B2 (ja)
EP (1) EP1701338B1 (ja)
JP (1) JP4667082B2 (ja)
KR (1) KR100742888B1 (ja)
CN (1) CN100587806C (ja)
AT (1) ATE401644T1 (ja)
DE (1) DE602006001764D1 (ja)
ES (1) ES2310893T3 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020190589A (ja) * 2019-05-20 2020-11-26 ヤフー株式会社 生成プログラム、生成装置、生成方法、判定プログラム、判定装置及び判定方法
JP2021043465A (ja) * 2016-09-15 2021-03-18 東芝テック株式会社 音声認識装置、音声認識方法及び音声認識プログラム

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4282704B2 (ja) * 2006-09-27 2009-06-24 株式会社東芝 音声区間検出装置およびプログラム
JP4950930B2 (ja) * 2008-04-03 2012-06-13 株式会社東芝 音声/非音声を判定する装置、方法およびプログラム
KR20130133629A (ko) * 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
US9799328B2 (en) * 2012-08-03 2017-10-24 Veveo, Inc. Method for using pauses detected in speech input to assist in interpreting the input during conversational interaction for information retrieval
CN103971685B (zh) * 2013-01-30 2015-06-10 腾讯科技(深圳)有限公司 语音命令识别方法和系统
US10121493B2 (en) * 2013-05-07 2018-11-06 Veveo, Inc. Method of and system for real time feedback in an incremental speech input interface
US20160063990A1 (en) * 2014-08-26 2016-03-03 Honeywell International Inc. Methods and apparatus for interpreting clipped speech using speech recognition
JP6804909B2 (ja) * 2016-09-15 2020-12-23 東芝テック株式会社 音声認識装置、音声認識方法及び音声認識プログラム
US10283117B2 (en) * 2017-06-19 2019-05-07 Lenovo (Singapore) Pte. Ltd. Systems and methods for identification of response cue at peripheral device
US10586529B2 (en) 2017-09-14 2020-03-10 International Business Machines Corporation Processing of speech signal
JP7404664B2 (ja) * 2019-06-07 2023-12-26 ヤマハ株式会社 音声処理装置及び音声処理方法
US11545143B2 (en) 2021-05-18 2023-01-03 Boris Fridman-Mintz Recognition or synthesis of human-uttered harmonic sounds

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63226692A (ja) * 1986-10-03 1988-09-21 株式会社リコー パターン比較方式
JPH0392900A (ja) * 1989-09-06 1991-04-18 Hitachi Ltd 音声認識制御装置
JPH04212199A (ja) * 1990-05-14 1992-08-03 Ricoh Co Ltd 標準パターン登録方法
JPH10319991A (ja) * 1997-05-20 1998-12-04 Sony Corp 電子機器の音声認識起動方法及び装置
JP2001083983A (ja) * 1999-09-09 2001-03-30 Xanavi Informatics Corp 音声認識装置、音声認識のためのデータを記録した記録媒体、および、音声認識ナビゲーション装置
JP2003330491A (ja) * 2002-05-10 2003-11-19 Nec Corp 音声認識装置および音声認識方法ならびにプログラム

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4761815A (en) * 1981-05-01 1988-08-02 Figgie International, Inc. Speech recognition system based on word state duration and/or weight
US4712242A (en) * 1983-04-13 1987-12-08 Texas Instruments Incorporated Speaker-independent word recognizer
US5774851A (en) * 1985-08-15 1998-06-30 Canon Kabushiki Kaisha Speech recognition apparatus utilizing utterance length information
US4882757A (en) * 1986-04-25 1989-11-21 Texas Instruments Incorporated Speech recognition system
JP2829014B2 (ja) 1989-01-12 1998-11-25 株式会社東芝 音声認識装置及び方法
DE4031421C2 (de) * 1989-10-05 1995-08-24 Ricoh Kk Musteranpassungssystem für eine Spracherkennungseinrichtung
EP0474496B1 (en) * 1990-09-07 1998-03-04 Kabushiki Kaisha Toshiba Speech recognition apparatus
US5692104A (en) * 1992-12-31 1997-11-25 Apple Computer, Inc. Method and apparatus for detecting end points of speech activity
DE4306508A1 (de) * 1993-03-03 1994-09-08 Philips Patentverwaltung Verfahren und Anordnung zum Ermitteln von Wörtern in einem Sprachsignal
US5765130A (en) * 1996-05-21 1998-06-09 Applied Language Technologies, Inc. Method and apparatus for facilitating speech barge-in in connection with voice recognition systems
US5835890A (en) * 1996-08-02 1998-11-10 Nippon Telegraph And Telephone Corporation Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon
JP3588929B2 (ja) 1996-08-27 2004-11-17 日産自動車株式会社 音声認識装置
US6167374A (en) * 1997-02-13 2000-12-26 Siemens Information And Communication Networks, Inc. Signal processing method and system utilizing logical speech boundaries
EP0867856B1 (fr) 1997-03-25 2005-10-26 Koninklijke Philips Electronics N.V. "Méthode et dispositif de detection d'activité vocale"
EP1083545A3 (en) * 1999-09-09 2001-09-26 Xanavi Informatics Corporation Voice recognition of proper names in a navigation apparatus
US6389394B1 (en) * 2000-02-09 2002-05-14 Speechworks International, Inc. Method and apparatus for improved speech recognition by modifying a pronunciation dictionary based on pattern definitions of alternate word pronunciations
JP4880136B2 (ja) 2000-07-10 2012-02-22 パナソニック株式会社 音声認識装置および音声認識方法
US7277853B1 (en) * 2001-03-02 2007-10-02 Mindspeed Technologies, Inc. System and method for a endpoint detection of speech for improved speech recognition in noisy environments
US7308404B2 (en) * 2001-09-28 2007-12-11 Sri International Method and apparatus for speech recognition using a dynamic vocabulary
KR100474253B1 (ko) * 2002-12-12 2005-03-10 한국전자통신연구원 단어의 첫 자음 발성을 이용한 음성인식 방법 및 이를 저장한 기록 매체
US7024360B2 (en) * 2003-03-17 2006-04-04 Rensselaer Polytechnic Institute System for reconstruction of symbols in a sequence
US7343289B2 (en) * 2003-06-25 2008-03-11 Microsoft Corp. System and method for audio/video speaker detection
US20050033571A1 (en) * 2003-08-07 2005-02-10 Microsoft Corporation Head mounted multi-sensory audio input system
CA2473195C (en) * 2003-07-29 2014-02-04 Microsoft Corporation Head mounted multi-sensory audio input system
KR100577387B1 (ko) 2003-08-06 2006-05-10 삼성전자주식회사 음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치
JP3890326B2 (ja) * 2003-11-07 2007-03-07 キヤノン株式会社 情報処理装置、情報処理方法ならびに記録媒体、プログラム
JP4516863B2 (ja) * 2005-03-11 2010-08-04 株式会社ケンウッド 音声合成装置、音声合成方法及びプログラム
TWI319152B (en) * 2005-10-04 2010-01-01 Ind Tech Res Inst Pre-stage detecting system and method for speech recognition
JP4282704B2 (ja) * 2006-09-27 2009-06-24 株式会社東芝 音声区間検出装置およびプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63226692A (ja) * 1986-10-03 1988-09-21 株式会社リコー パターン比較方式
JPH0392900A (ja) * 1989-09-06 1991-04-18 Hitachi Ltd 音声認識制御装置
JPH04212199A (ja) * 1990-05-14 1992-08-03 Ricoh Co Ltd 標準パターン登録方法
JPH10319991A (ja) * 1997-05-20 1998-12-04 Sony Corp 電子機器の音声認識起動方法及び装置
JP2001083983A (ja) * 1999-09-09 2001-03-30 Xanavi Informatics Corp 音声認識装置、音声認識のためのデータを記録した記録媒体、および、音声認識ナビゲーション装置
JP2003330491A (ja) * 2002-05-10 2003-11-19 Nec Corp 音声認識装置および音声認識方法ならびにプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021043465A (ja) * 2016-09-15 2021-03-18 東芝テック株式会社 音声認識装置、音声認識方法及び音声認識プログラム
JP2020190589A (ja) * 2019-05-20 2020-11-26 ヤフー株式会社 生成プログラム、生成装置、生成方法、判定プログラム、判定装置及び判定方法
JP7092708B2 (ja) 2019-05-20 2022-06-28 ヤフー株式会社 情報処理プログラム、情報処理装置及び情報処理方法

Also Published As

Publication number Publication date
KR100742888B1 (ko) 2007-07-25
EP1701338A1 (en) 2006-09-13
EP1701338B1 (en) 2008-07-16
CN1831939A (zh) 2006-09-13
DE602006001764D1 (de) 2008-08-28
US20060206326A1 (en) 2006-09-14
JP4667082B2 (ja) 2011-04-06
CN100587806C (zh) 2010-02-03
ATE401644T1 (de) 2008-08-15
ES2310893T3 (es) 2009-01-16
KR20060097647A (ko) 2006-09-14
US7634401B2 (en) 2009-12-15

Similar Documents

Publication Publication Date Title
JP4667082B2 (ja) 音声認識方法
JP4657736B2 (ja) ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法
JP2023041843A (ja) 音声区間検出装置、音声区間検出方法及びプログラム
JP6024180B2 (ja) 音声認識装置、音声認識方法、及びプログラム
JP6654611B2 (ja) 成長型対話装置
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
WO2006054724A1 (ja) 音声認識装置及び方法ならびにプログラム
JP2001215993A (ja) 対話処理装置および対話処理方法、並びに記録媒体
US7181395B1 (en) Methods and apparatus for automatic generation of multiple pronunciations from acoustic data
WO2007046267A1 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
WO2000014723A1 (fr) Dispositif de reconnaissance de la parole
JP2004198831A (ja) 音声認識装置および方法、プログラム、並びに記録媒体
US6631348B1 (en) Dynamic speech recognition pattern switching for enhanced speech recognition accuracy
US20030220792A1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
JP2001188779A (ja) 情報処理装置および方法、並びに記録媒体
JP2008052178A (ja) 音声認識装置と音声認識方法
JP2015038526A (ja) 音声処理装置、及び音声処理方法
JP3633254B2 (ja) 音声認識システムおよびそのプログラムを記録した記録媒体
JPH0950288A (ja) 音声認識装置及び音声認識方法
JP2004021207A (ja) 音素認識方法、音素認識装置および音素認識プログラム
JP2011180308A (ja) 音声認識装置及び記録媒体
JP5476760B2 (ja) コマンド認識装置
JP2005283646A (ja) 音声認識率推定装置
JP2010204442A (ja) 音声認識装置、音声認識方法、音声認識プログラムおよびプログラム記録媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080305

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080305

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091228

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100201

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20100630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100928

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110105

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140121

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees