JP2002535708A - 音声認識方法及び音声認識装置 - Google Patents

音声認識方法及び音声認識装置

Info

Publication number
JP2002535708A
JP2002535708A JP2000594107A JP2000594107A JP2002535708A JP 2002535708 A JP2002535708 A JP 2002535708A JP 2000594107 A JP2000594107 A JP 2000594107A JP 2000594107 A JP2000594107 A JP 2000594107A JP 2002535708 A JP2002535708 A JP 2002535708A
Authority
JP
Japan
Prior art keywords
power
max
sub
thr
subband
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000594107A
Other languages
English (en)
Other versions
JP2002535708A5 (ja
Inventor
ラウリラ,カリ
ハッキネン,ユハ
ハリハラン,ラマリンガム
Original Assignee
ノキア モービル フォーンズ リミティド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ノキア モービル フォーンズ リミティド filed Critical ノキア モービル フォーンズ リミティド
Publication of JP2002535708A publication Critical patent/JP2002535708A/ja
Publication of JP2002535708A5 publication Critical patent/JP2002535708A5/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Circuits Of Receivers In General (AREA)
  • Telephone Function (AREA)
  • Alarm Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Facsimile Transmission Control (AREA)

Abstract

(57)【要約】 音声認識時に音声内のポーズを検出する方法において、ユーザーが発声した音声コマンドを認識するために、音声を電気信号に変換し、その周波数スぺクトルを2つまたはそれ以上のサブバンドに分割する。サブバンドの信号のサンプルを間隔をおいて格納し、その格納されたサンプルに基づいてサブバンドのエネルギー・レベルを決定し、電力閾値(thr)を決定し、サブバンドのエネルギー・レベルを前記電力閾値(thr)と比較する。ポーズ検出結果を作り出すためにこの比較結果を用いる。

Description

【発明の詳細な説明】
【0001】 本方法は、添付の請求項1の前文に記載のような音声認識方法と、添付の請求
項8の前文に記載のような音声認識装置と、添付の請求項11の前文に記載のよ
うな音声制御無線通信装置に関する。
【0002】 無線通信装置を使い易くするために音声認識装置が開発されている。これによ
って、ユーザーは音声コマンドを発することができる。音声認識装置はこの音声
コマンドを認識して、例えば、電話番号を選べというコマンドなどに対応する機
能への変換を試みる。音声制御の実現上の問題点として、例えば、様々なユーザ
ーが様々なやり方で音声コマンドを発声するという事実が存在する。ユーザーに
よって話す速度が異なり、また、声の大きさ、声の調子などもユーザーによって
異なる。さらに、音声認識は、発生するかもしれない背景雑音によって干渉を受
ける。屋外および車内でのこの干渉は著しいものになる場合もある。例えば電話
番号が発声された際、背景雑音のために単語の認識および異なる単語の区別が困
難になる。
【0003】 音声認識装置のなかには固定時間窓に基づく認識方法を利用するものもある。
その場合、ユーザーには所望のコマンド・ワードを発声しなければならない所定
の時間範囲が設けられる。時間窓の時間切れ後、音声認識装置は、ユーザーがど
の単語/コマンドを発声したかを見つけ出そうとする。しかし、固定時間窓に基
づくこのような方法は、発声されるすべての単語が均等な長さではない(例えば
、氏名では、名前の方が姓より明らかに短い場合が多い)という欠点などを有す
る。したがって、短い単語の後では、長い単語の認識の場合より認識により多く
の時間が費されることになる。これはユーザーにとっては不便である。さらに、
時間窓は話す速度が遅い話者にも対応する設定が必要なため、単語全体が発声さ
れてはじめて認識が開始される。単語が早口で発声された場合、発声と認識との
間に生じる遅延のために不快な感情が強まることになる。
【0004】 別の公知の音声認識方法として、音声信号とそれらの比較から形成されるパタ
ーンに基づく方法がある。コマンド語から形成されるパターンを予め記憶させた
り、パターンに形成しておいて記憶させる所望の単語をユーザーが教えておくこ
とができる。音声認識装置は、発声中ユーザーが発声した音から形成される特徴
ベクトルと、記憶されているパターンを比較し、音声認識装置の語彙の中の個別
の単語(コマンド語)である確率を計算する。コマンド語である確率が所定値を上
回る場合、音声認識装置は認識結果としてこのコマンド語を選択する。したがっ
て、単語の初めの部分が語彙内の別の単語に発音上似ている単語の場合、不正確
な認識結果が生じる可能性がある。例えば、ユーザーが「マリ」(Mari)と「マ
リカ」(Marika)という単語を音声認識装置に教えていたとする。ユーザーが「
マリカ」という単語を言っている場合、たとえユーザーがその単語の最後の部分
をまだ明瞭に発音する時間になっていなくても、音声認識装置が「マリ」を認識
決定する場合がある。このような音声認識装置では、典型的には、いわゆる隠れ
マルコフ・モデル(HMM)音声認識法が利用されている。
【0005】 米国特許第4,870,686に音声認識方法及び音声認識装置が開示されてい
る。この特許では、ユーザーが単語の発声を終了したことは無言状態に基づいて
決定される。すなわち、検出可能な可聴信号の有無が音声認識装置によってチェ
ックされる。この解決方法の1つの問題点として、非常に大きな背景雑音によっ
てポーズ(pause)の検出が妨げられ、音声認識が成功しない場合があるという事
実が挙げられる。
【0006】 音声中のポーズを検出するための改善方法及び音声認識装置を提供することが
本発明の目的である。本発明は、チェック対象の音声帯域をサブバンドに分割し
、各サブバンドの信号電力をチェックするという着想に基づくものである。信号
電力が、十分に長い時間の間十分な数のサブバンドの中である一定の限界値以下
であれば、音声中にポーズが存在すると推論される。本発明の方法は、添付の請
求項1の特徴記載部分に記載の内容を特徴とする。本発明による音声認識装置は
添付の請求項8の特徴記載部分に記載の内容を特徴とする。本発明の無線通信装
置は添付の請求項11の特徴記載部分に記載の内容を特徴とする。
【0007】 本発明は、従来技術の解決方法に比べて著しい利点を与えるものである。本発
明の方法によって、従来技術の方法よりもさらに信頼性の高い単語間のギャップ
の検出を行うことが可能となる。このようにして、音声認識の信頼性が改善され
、不正確な認識や認識の失敗の数が減少する。さらに、本音声認識装置は様々な
ユーザーによる話し方に関して柔軟性を有する。その理由として、認識時に、あ
るいは、発声が完了する前に生じる認識の際に、不都合な遅延を伴わずに音声コ
マンドをより遅くあるいはより速くすることが可能であることが挙げられる。
【0008】 本発明に従うサブバンドへの分割により外部からの干渉を減らすことが可能と
なる。例えば車内などで発生するスプリアス信号は典型的には、比較的低い周波
数を有する。従来技術による解決方法では、信号の周波数帯域全体に含まれるエ
ネルギーが認識時に利用されるが、その場合、強いけれども帯域幅が狭い信号に
よって信号対騒音比が著しく低下する。従来技術による解決方法の代わりに、本
発明によりチェックする対象周波数帯域がサブバンドに分割される場合、スプリ
アス信号の割合が比較的小さくなるサブバンド内では信号対雑音比の著しい改善
が可能となり、それによって認識の信頼性が改善される。
【0009】 以下、添付図面を参照して本発明についてさらに詳細に説明する。
【0010】 以下は、本発明の好適な実施例による方法の機能に関する説明であり、図1の
フローチャートと、図2のブロック図に従う音声制御無線通信装置MSを例とし
て参照しながら説明を行う。音声認識では、音響信号(音声)は、無線通信装置M
S内のマイク1aや、ハンドフリー装置2内のマイク1bのようなマイクによっ
て公知の方法で電気信号に変換される。音声信号の周波数応答は、典型的には、
10kHz以下の周波数帯域(例えば100Hzから10kHzの周波数帯域)に
限定される。しかし、音声の周波数応答は周波数帯域全体では一定ではなく、高
い周波数より低い周波数のものの方が多い。さらに音声の周波数応答は人によっ
て様々に異なる。本発明の方法では、チェック対象の周波数帯域はさらに狭いサ
ブ周波数範囲(M個のサブバンド)に分割される。これは添付の図1のブロック1
01によって表されている。これらのサブ周波数範囲の幅は等しくされないが、
音声の特徴的要素を考慮して、狭い幅のものあれば広い幅のものもあるサブ周波
数範囲からなる。音声の低い周波数特性ではサブ周波数範囲への分割は密になる
。すなわちサブ周波数範囲は、音声中には稀にしか含まれない高い周波数の場合
より狭くなる。この着想は、周波数帯域の幅が周波数の対数関数に基づく公知の
メル(Mel)周波数スケールにも適用される。
【0011】 サブバンドへの分割と関連して、サブバンドの信号は、例えばアンダーサンプ
リングや低域通過フィルタリングなどによってさらに小さなサンプル周波数に変
換される。このようにして、サンプルはブロック101からこの低い方のサンプ
リング周波数でのさらなる処理へ転送される。このサンプリング周波数は好適に
は約100Hzであるが、本発明の範囲内で他のサンプリング周波数の利用も可
能であることは言うまでもない。これらのサンプルは前記特徴ベクトルに変換さ
れる。
【0012】 マイク1a、1bで形成された信号は増幅器3a、3bで増幅され、アナログ
・デジタル変換器4でデジタル形式に変換される。アナログ・デジタル変換の精
度は典型的には12から32ビットの範囲内にあり、音声信号の変換時に、好適
には毎秒8,000から14,000回サンプルが採られる。しかし本発明は他の
サンプリング・レートでも適用可能である。図2の無線通信装置MSにおいて、
サンプリングはコントローラ5によって制御されるように構成される。デジタル
形式の可聴信号が音声認識装置16へ転送される。音声認識装置16は無線通信
装置MSと機能的に接続しており、この音声認識装置で本発明による方法の様々
なステップが処理される。この転送は、インターフェース・ブロック6a、6b
およびインターフェース・バス7を介して行われる。実際の解決方法では、無線
通信装置MS自身や別の音声制御デバイス内に、あるいは、別個の補助デバイス
等として音声認識装置16を同様に構成してもよい。
【0013】 サブバンドへの分割は、デジタル形式に変換された信号が伝えられる第1のフ
ィルタ・ブロック8で好適に行われる。この第1のフィルタ・ブロック8は、い
くつかの帯域通過フィルタから構成される。この好適な実施例ではこれらの帯域
通過フィルタはデジタル技術を用いて実現されるが、帯域通過フィルタの通過帯
域の周波数範囲と帯域幅とは互いに異なる。したがって、元の信号の各々の帯域
通過フィルタリングされた部分はそれぞれの帯域通過フィルタを通る。図を明瞭
にするために、これらの帯域通過フィルタは図2には別個のものとして図示され
ていない。これらの帯域通過フィルタは、それ自体公知のデジタル信号プロセッ
サ(DSP)13のアプリケーション・ソフトウェアで好適に実現される。
【0014】 次のステップ102で、間引きブロック9で好適に間引きを行うことによりサ
ブバンド数が減らされる。この場合、数Lのサブバンドが形成され(L<M)、サ
ブバンドのエネルギー・レベルが測定可能となる。これらのサブ周波数範囲の信
号電力レベルに基づいて、各サブバンド内の信号エネルギーの決定が可能となる
。また、デジタル信号プロセッサ13のアプリケーション・ソフトウェアの中に
間引きブロック9を設けてもよい。
【0015】 ブロック101に従うM個のサブバンドへの分割によって得られる利点として
、特に、メル(Mel)周波数スケールに従う係数を用いるアプリケーションでは、
認識結果の検証のために、これらのM個の異なるサブバンド値を認識時に利用す
ることが可能であるということが挙げられる。しかし、L個のサブバンドを直接
形成することによりブロック101の実現が可能であり、その場合ブロック10
2は不要となる。
【0016】 第2のフィルタ・ブロック10は、間引きステップ(図1のステップ102)で
形成されるサブバンドの信号の低域通過フィルタリング用として設けられる。そ
の場合、信号強度の短時間の変化はフィルタリングされて取り除かれ、さらなる
処理時に信号のエネルギー・レベルの決定に重要な影響を与えることはあり得な
い。フィルタリング後、各サブバンドのエネルギー・レベルの対数関数がブロッ
ク11(ステップ104)で計算され、その計算結果は、メモリ手段14内に形成
されるサブバンド固有のバッファ(図示せず)内にさらなる処理用として格納され
る。これらのバッファは好適にはいわゆるFIFO(先入れ先出し)タイプのバッ
ファであり、このタイプのバッファの中に計算結果が例えば8または16ビット
などの数字として格納される。各バッファはN個の計算結果を収納する。Nの値
は当該アプリケーションに依存する。したがってバッファに格納される計算結果
p(t)は、異なる測定時点における、フィルタリングされたサブバンドの対数エ
ネルギー・レベルを表す。
【0017】 構成ブロック12によって、計算結果のいわゆるランク順フィルタリングが実
行される(ステップ105)。この構成ブロック12で様々な計算結果の相互ラン
クが比較される。このステップ105で、音声の中にポーズが存在する可能性が
あるかどうかがサブバンド内でチェックされる。このチェックは図3の状態マシ
ン(state machine)チャートに示されている。この状態マシンの演算は、各サブ
バンドについてのほぼ同じ方法で実行される。この状態マシンの異なる機能状態
S0、S1、S2、S3、及びS4が円を用いて示されている。これらの状態円
の内部に、各機能状態時に実行される演算がマークされている。矢印301、3
02、303、304及び305は1つの機能状態から別の機能状態への遷移を
示す。これらの矢印と関連して基準がマークされ、この基準の実現によってこの
遷移が開始される。曲線306、307及び308は機能状態が変化しない状況
を示す。またこれらの曲線にはこの機能状態を保持するための基準が与えられる
【0018】 機能状態S1、S2及びS3の中に関数f()が示され、これは前記機能状態で
の次の演算の実行を表す。好適にはN個の計算結果p(t)がバッファ内に格納さ
れることが望ましく、また、最小の最大値p_min(t)と最大の最小値p_m
ax(t)が以下の式によって好適に決定される。 p_min(t)=min[max{p(i - N + I), p(i - N +2),..., p(i)}], i=N, N + 1,...,t
p_max(t)=max[min{p(i - N + I), p(i - N +2),..., p(i)}], i=N, N + 1,...,t
【0019】 したがって、関数f(t)では、様々なサブバンド・バッファ内に格納された計
算結果p(i)の中の検索された最大値p_max(t)が最大の最小値であり、最
小値p_min(t)が最小の最大値となる。この後、バッファ内に格納されてい
る計算結果p(t)の中央値である電力中央値p(t)mが計算され、式thr=p_m
in+k(p_max−p_min)(但し0<k<1)によって閾値thrが計算される。次に
、関数f()で、電力中央値p(t)mと、上記で計算された閾値との間の比較が行
われる。この計算の結果、所定の時刻における状態マシンの機能状態に応じて異
なる演算が行われる。以上について、これらの異なる機能状態についての説明と
関連して以下でさらなる詳細な説明を行う。
【0020】 音声についての1グループのサブバンド固有の計算結果p(t)(サブバンド当
たりN個の結果)を格納後、音声認識装置は、デジタル信号プロセッサ13また
はコントローラ5のいずれかのアプリケーション・ソフトウェアに設けられる前
記状態マシンの処理を次に実行する。好適には水晶発振器(図示せず)等の発振器
を用いる公知の方法でタイミングをとることができる。この処理の実行は状態S
0から始まる。状態S0で状態マシン内で使用される変数がその初期値(ini
t())に設定される。すなわち、ポーズ・カウンタCがゼロに設定され、起動時
点t=1における電力最小値p_min(p_min(t=1))が、理論値∞(実際
には音声認識装置で利用可能な最大の可能な数値)に設定される。この最大値は
、これらの電力値の計算に用いられるビット数の影響を受ける。同様に、起動時
点t=1における電力最大値p_max(p_max(t=1))が理論値−∞(実際
には音声認識装置で利用可能な最小の可能な数値)に設定される。
【0021】 初期値の設定後、機能は状態S1へ進み、ここで前記関数f()の演算が実行さ
れて、例えば電力最小値p_minと電力最大値p_max並びに電力中央値p
(t)mなどが計算される。機能状態S1ではまた、ポーズ・カウンタCを1だけ
増加させる。この機能状態は所定の初期遅延が時間切れになるまで存在する。こ
の時間切れは、ポーズ・カウンタCと所定の開始値BEGとの比較により決定さ
れる。ポーズ・カウンタCが開始値BEGに達した段階でオペレーションは状態
S2へ移動する。
【0022】 機能状態S2で、ポーズ・カウンタCはゼロに設定され、新しい計算結果p(
t)の格納と、電力最小値p_minと電力最大値p_max、並びに、電力中
央値p(t)mと閾値thrの計算のような関数f()の演算が行われる。この計算
された閾値と電力中央値とは互いに比較され、電力中央値の方が閾値より小さけ
れば、演算は状態S3へ進み、そうでない場合には、機能状態は変化せずにこの
機能状態S2の上記の演算が再び行われる。
【0023】 機能状態S3では、ポーズ・カウンタCを1だけ増加させ関数f()が実行され
る。この計算によって電力中央値の方がまだ閾値より小さいことが示された場合
、ポーズ・カウンタCの値がチェックされて、電力中央値がある一定時間電力閾
値以下になっているかどうかが調べられる。この制限時間切れは、ポーズ・カウ
ンタCの値と発声制限時間ENDとの比較によって得られる。カウンタの値が前
記制限時間END切れ以上の場合には、それは前記サブバンドで音声を検出でき
ないことを意味し、その場合状態マシンは処理を終了する。
【0024】 しかし、機能状態S3における閾値と電力中央値との比較によって電力中央値
の方が電力閾値を上回ることが示された場合、このサブバンド上で音声が検出さ
れたと推論することができ、状態マシンは機能状態S2へ戻り、そこで例えばポ
ーズ・カウンタCはリセットされ、初めから計算が開始される。
【0025】 以上、本発明の好適な実施例による方法で用いられる状態マシンの動作につい
て一般的に述べた。本発明による音声認識装置では前記機能ステップは各サブバ
ンドについて独立に実行される。
【0026】 音声信号のサンプリングは好適に間隔をおいて行われ、ステップ101〜10
4は各特徴ベクトルの計算後、好適には約10msの間隔をおいて実行される。
同様に、各サブバンドの状態マシンでは、各アクティブな機能状態に従う動作が
1回(1計算時間)実行される。例えば、状態S3では、当該サブバンドのポーズ
・カウンタC(s)を増加させ、機能f(s)が実行され、例えば、電力中央値と閾
値との間で比較が行われ、同比較に基づいて機能状態の保持あるいは変更のいず
れかが行われる。
【0027】 すべてのサブバンドの状態マシンについて1ラウンドの計算を実行した後、動
作は、音声認識のステップ106へ進む。ここで、様々なサブバンドから受信し
た情報に基づいて、十分に長いポーズが音声内で検出されたかどうかがチェック
される。このステップ106は添付の図4にフローチャートとして示されている
。このチェックを明らかにするためにいくつかの比較値が決定されるが、これら
の比較値は音声認識装置の製造と関連して好適に所定の初期値として与えられる
。しかし、必要な場合に、これらの初期値は当該アプリケーションおよび使用条
件に応じて変更が可能である。これらの初期値の設定は図4のフローチャートの
ブロック401によって示されており、 ゼロより大きく検出制限時間ENDより小さい値の活動閾値SB_ACTIV
E_THと、 ゼロより大きくサブバンド数Lより小さいか等しい値の検出量SB_SUFF
_THと、 ゼロより大きく検出量SB_SUFF_THより小さい値のサブバンドの最小
数SB_MIN_THと、 である。
【0028】 本発明による方法では、音声中のポーズを検出するために、どのくらいの数の
サブバンドにエネルギー・レベルが前記電力閾値以下の状態のまま残っている可
能性があるか、また、どの位の期間残っているかがチェックされる。前記の状態
マシンの機能説明時に開示したように、ポーズ・カウンタCは、オーディオ・エ
ネルギー・レベルがどの位の期間電力閾値以下の状態のまま残っているかを示す
ものである。このようにして、カウンタの値が各サブバンドについてチェックさ
れる。カウンタの値が検出制限時間END以上の場合(ブロック402)、これは
サブバンドのエネルギー・レベルが非常に長い間電力閾値以下のままであること
を意味するので、このサブバンドに対してポーズ検出の決定(サブバンドに固有
の検出)を行うことが可能である。したがって、検出カウンタSB_DET_N
Oは好適に1だけ増やされる。
【0029】 カウンタの値が活動閾値SB_ACTIVE_TH以上である場合(ブロック
404)、このサブバンドのエネルギー・レベルは、しばらくは電力閾値thr
以下であるが検出制限時間ENDに一致する時間にはまだなっていない。したが
って、ブロック405内の活動カウンタSB_ACT_NOを好適に1だけ増加
させる。他のケースとして、サブバンドの可聴信号か短時間だけ電力閾値thr
以下である可聴信号レベルのいずれかがある。
【0030】 次に、動作はブロック406へ移り、そこで、補助変数として使用されるサブ
バンド・カウンタiを1だけ増加させる。このサブバンド・カウンタiの値に基
づいて、すべてのサブバンドがチェックされたかどうかを推論することができる
(ブロック407)。
【0031】 前記ポーズ・カウンタとの比較が行われるとき、いくつのサブバンドでポーズ
が検出されたかがチェックされる(ポーズ・カウンタは検出制限時間END以上
であった)。このようなサブバンド数が検出量SB_SUFF_TH以上となっ
た場合(ブロック408)、本方法では、音声の中にポーズが存在すると推論され
(ポーズ検出決定、ブロック409)、ユーザーが何を発声したかを見つけ出す実
際の音声認識へ移ることが可能となる。しかし、サブバンド数の方が検出量SB
_SUFF_THより少ない場合、ポーズを含むサブバンド数がサブバンドSB
_MIN_THの最小数以上であるかどうかがチェックされる(ブロック410)
。さらに、サブバンドのうちのいくつかがアクティブである(ポーズ・カウンタ
が活動閾値SB_ACTIVE_TH以上であるが検出制限時間ENDより小さ
い)かどうかがブロック411内でチェックされる。本発明による方法では、こ
の状況で、サブバンドのいずれもアクティブでない場合に音声内にポーズが存在
するという決定が行われる。
【0032】 雑音状況では、いくつかのサブバンドの雑音が、たとえ検出されるはずの音声
の中にポーズが存在したとしても、必ずしもすべてのサブバンド上で検出決定が
可能であるわけではないという結果になる可能性がある。したがって、前記サブ
バンドの最小値SB_MIN_THによって、特に雑音条件の下で音声内のポー
ズの検出を検証することが可能となる。したがって、雑音状況では、少なくとも
サブバンドの前記最小数SB_MIN_THでポーズが検出された場合、これら
のサブバンドのポーズ検出決定が、前記検出制限時間ENDの持続時間の間有効
なままであればポーズが音声の中に検出される。
【0033】 同様に、良好な条件の下では、前記検出制限時間ENDの使用によってポーズ
検出の迅速すぎる決定を阻止することができる。良好な条件の下では、たとえ検
出対象音声の中にこのようなポーズが存在しなくても、前記最小数のサブバンド
によって迅速なポーズ検出決定を行うことが可能である。サブバンドのほぼすべ
ての検出制限時間まで待つことにより音声中にポーズが実際に存在することが検
証される。
【0034】 本発明の別の好適な実施例では、ポーズ検出の決定が下されるまでは、サブバ
ンドのうちのいずれかがアクティブかどうかのチェックは行われない。したがっ
てポーズの検出の決定は前述の比較の結果に基づいて行われる。
【0035】 前述の演算は、例えば音声認識装置のコントローラやデジタル信号プロセッサ
のアプリケーション・ソフトウェアなどで好適に実行が可能である。
【0036】 本発明の好適な実施例による音声内のポーズ検出の前述の方法は、音声認識装
置に教示するステップ並びに音声認識ステップにおいて適用可能である。教示ス
テップにおいて、外乱条件を通常比較的一定に保つことが可能である。しかし、
音声制御デバイスを使用する場合、背景雑音とその他の干渉の量は大幅に変動し
うる。特に、変動する条件の下で音声認識の信頼性を改善するために、本発明の
別の好適な実施例による方法は、閾値thrの計算に対する適応性によって補足
される。この適応性を達成するために、修正係数UPDATE_Cが使用される
。この値は、好適にはゼロより大きくかつ1より小さいことが望ましい。この修
正係数は前記値の範囲内で初期値を最初に与えられる。この修正係数は音声認識
中好適には以下のように更新される。バッファ内に格納されるサブバンドのサン
プルに基づいて、最大電力レベルwin_maxと最小電力レベルwin_mi
nとを計算する。この計算後、前記計算された最大電力レベルwin_maxは
その時点における電力最大値p_maxと比較され、前記計算された最小電力レ
ベルwin_minが電力最小値p_minと比較される。最大電力レベルwi
n_maxと電力最大値p_maxとの間の差の絶対値または計算された最小の
電力レベルwin_minと電力最小値p_minとの間の差の絶対値が前回の
計算時から増加していれば、修正係数UPDATE_Cを増加させる。一方、最
大電力レベルwin_maxと電力最大値p_maxとの間の差の絶対値または
計算された最小の電力レベルwin_minと電力最小値p_minとの間の差
の絶対値が前回の計算時から減少していれば、修正係数UPDATE_Cは減ら
される。この後、新しい電力最大値と新しい電力最小値とが以下のように計算さ
れる。 p_min(t)=(1−UPDATE_C)・p_min(t−1)+(UPDATE_C・win_min) p_max(t)=(1−UPDATE_C)・p_max(t−1)+(UPDATE_C・win_max)
【0037】 この計算された新しい電力最大値と最小値は、例えば関数f()の実行と関連し
て次のサンプリング・ラウンドにおいて使用される。この適応係数の決定の利点
として、例えば音声認識の際の環境条件の変化をより良く考慮に入れることが可
能になり、ポーズの検出がさらに信頼性の高いものになるということが挙げられ
る。
【0038】 音声内のポーズを検出するための前述の様々な演算は音声認識装置のコントロ
ーラ及び/又はデジタル信号プロセッサのアプリケーション・ソフトウェアで大
部分実現することが可能である。本発明による音声認識装置では、サブバンドへ
の分割のような機能のいくつかは、それ自体公知のアナログ技術を用いて実現す
ることが可能である。本方法の実行と関連して、様々なステップにおいて行うべ
き計算結果、変数などの格納については、音声認識装置のメモリ手段14、好適
には、ランダム・アクセス・メモリ(RAM)、不揮発性ランダム・アクセス・メ
モリ(NVRAM)、フラッシュ・メモリ等の使用が可能である。無線通信装置の
メモリ手段22も情報格納用として同様に使用可能である。
【0039】 本発明の好適な実施例による無線通信装置MSを示す図2には、キーパッド1
7、ディスプレイ18、D/A変換器19、ヘッドホン増幅器20a、ヘッドホ
ン21、ハンドフリー機能2用のヘッドホン増幅器20b,ヘッドホン21b、
および、高周波ブロック23がさらに示されているが、これらはすべてそれ自体
公知のものである。
【0040】 異なる原理によって機能するいくつかの音声認識システムと関連して本発明を
適用することが可能である。本発明によって、音声内のポーズ検出の信頼性が改
善され、それによって、実際の音声認識の認識信頼性を確実なものとする。本発
明による方法を利用することにより固定時間窓と関連する音声認識を行うことは
不要となり、それによって、認識遅延はユーザーが発声する音声コマンドの速度
には実質的に依存しなくなる。また、本発明の方法の適用時に、従来技術の音声
認識装置の場合よりも音声認識に対する背景雑音の影響を小さくすることが可能
となる。
【0041】 本発明が前述の実施例に限定されるものではなく、添付の請求項の範囲内で修
正が可能であることは言うまでもない。
【図面の簡単な説明】
【図1】 本発明の好適な実施例に従う方法を示すフローチャートである。
【図2】 本発明の好適な実施例に従う音声認識装置を示す簡略なブロック図である。
【図3】 本発明の好適な実施例に従う方法で利用されるランク順フィルタリングを示す
状態マシンチャートである。
【図4】 本発明の好適な実施例に従う方法で利用されるポーズを推論する論理を示すフ
ローチャートである。
【手続補正書】特許協力条約第34条補正の翻訳文提出書
【提出日】平成13年2月23日(2001.2.23)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】特許請求の範囲
【補正方法】変更
【補正の内容】
【特許請求の範囲】
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SL,SZ,TZ,UG,ZW ),EA(AM,AZ,BY,KG,KZ,MD,RU, TJ,TM),AE,AL,AM,AT,AU,AZ, BA,BB,BG,BR,BY,CA,CH,CN,C R,CU,CZ,DE,DK,DM,EE,ES,FI ,GB,GD,GE,GH,GM,HR,HU,ID, IL,IN,IS,JP,KE,KG,KP,KR,K Z,LC,LK,LR,LS,LT,LU,LV,MA ,MD,MG,MK,MN,MW,MX,NO,NZ, PL,PT,RO,RU,SD,SE,SG,SI,S K,SL,TJ,TM,TR,TT,TZ,UA,UG ,US,UZ,VN,YU,ZA,ZW (72)発明者 ハリハラン,ラマリンガム フィンランド国,エフイーエン−33720 タンペレ,リンドフォーシンカトゥ 6 アー 12 Fターム(参考) 5D015 DD03 KK02

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 音声認識時に音声内のポーズを検出する方法であって、ユー
    ザーが発声した音声コマンドを認識するために音声を電気信号に変換する方法に
    おいて、前記電気信号の周波数スぺクトルを2つまたはそれ以上のサブバンドに
    分割し、前記サブバンド内の信号のサンプルを間隔をおいて格納し、その格納さ
    れたサンプルに基づいて前記サブバンドのエネルギー・レベルを決定し、電力閾
    値(thr)を決定し、前記サブバンドの前記エネルギー・レベルを前記電力閾値
    (thr)と比較し、ポーズ検出結果を作り出すために前記比較結果を利用するこ
    とを特徴とする方法。
  2. 【請求項2】 検出制限時間(END)と検出量(SB_SUFF_TH)とを
    決定し、前記サブバンドの前記エネルギー・レベルが前記電力閾値(thr)以下
    に低下した場合、サブバンド内のポーズの長さの計算を開始し、前記計算が前記
    検出制限時間(END)に達した場合、サブバンド特定検出を実行し、前記検出制
    限時間(END)より長い時間、どれだけの数のサブバンドで前記エネルギー・レ
    ベルが前記電力閾値(thr)以下になっているかをチェックし、サブバンド特定
    検出の数が前記検出量(SB_SUFF_TH)以上となった場合、ポーズ検出決
    定を行うことを特徴とする請求項1に記載の方法。
  3. 【請求項3】 活動制限時間(SUB_ACTIVE_TH)と活動量(SB
    _MIN_TH)とを決定し、前記サブバンド内での前記ポーズの長さの計算時
    にその他のサブバンドにおいて、サブバンド特定検出量が前記活動量(SB_M
    IN_TH)以上であって、かつ、前記活動制限時間(SB_ACTIVE_TH
    )にまだ達していない場合に、ポーズ検出決定を行うことを特徴とする請求項2
    に記載の方法。
  4. 【請求項4】 前記電力閾値(thr)を、以下の式、 thr=p_min+k・(p_max−p_min) によって計算し、ここで、 p_min=前記サブバンドの前記格納されたサンプルのなかで決定される最小の
    電力最大値と、 p_max=前記サブバンドの前記格納されたサンプルのなかで決定される最大の
    電力最小値と、 であることを特徴とする請求項1〜3のいずれか一項に記載の方法。
  5. 【請求項5】 各時点における環境雑音レベルを考慮に入れることにより前
    記電力閾値(thr)を適応的に計算することを特徴とする請求項1〜4のいずれ
    か一項に記載の方法。
  6. 【請求項6】 前記電力閾値(thr)を計算するために、修正係数(UPD
    ATE_C)を決定し、前記格納されたサンプルに基づいて前記サブバンドの最
    大の電力レベル(win_max)と最小の電力レベル(win_min)とを計算
    し、前記電力最大値(p_max)と電力最小値(p_min)とを以下の式、 p_max(i,t)=(1−UPDATE_C)・p_max(i,t−1)+(UPDATE_C・win_max) p_min(i,t)=(1−UPDATE_C)・p_min(i,t−1)+(UPDATE_C・win_min) ここで、0 < UPDATE_C < 1、0<i<L、及びLはサブバンド数によって決定する
    ことを特徴とする請求項5に記載の方法。
  7. 【請求項7】 さらに、 前記計算された最大の電力レベル(win_max)と電力最大値(p_max)
    との差の絶対値、あるいは、前記計算された最小の電力レベル(win_min)
    と電力最小値(p_min)との差の絶対値が増加した場合、前記修正係数(UP
    DATE_C)を増加させ、 前記計算された最大の電力レベル(win_max)と電力最大値(p_max)
    との差の前記絶対値、あるいは、前記計算された最小の電力レベル(win_m
    in)と電力最小値(p_min)との差の前記絶対値が減少した場合、前記修正
    係数(UPDATE_C)を減少させることを特徴とする請求項6に記載の方法。
  8. 【請求項8】 ユーザーが発声した音声コマンドを電気信号に変換する手段
    (1a、1b)を有する音声認識装置(16)において、 前記電気信号の周波数スぺクトルを2つまたはそれ以上のサブバンドに分割す
    る手段(8)と、 前記サブバンドの信号のサンプルを間隔をおいて格納する手段(14)と、 前記格納されたサンプルに基づいて前記サブバンドのエネルギー・レベルを決
    定する手段(5、13)と、 電力閾値(thr)を決定する手段(5、13)と、 前記サブバンドの前記エネルギー・レベルを前記電力閾値(thr)と比較する
    手段(5、13)と、 前記比較結果に基づいて、音声内のポーズを検出する手段(5、13)と、を有
    することを特徴とする音声認識装置。
  9. 【請求項9】 前記電力閾値を以下の式、 thr=p_min+k・(p_max−p_min)、 によって計算し、ここで、 p_min=前記サブバンドの前記格納されたサンプルのなかで決定される最小の
    電力最大値と、 p_max=前記サブバンドの前記格納されたサンプルのなかで決定される最大の
    電力最小値と、 であることを特徴とする請求項8に記載の音声認識装置。
  10. 【請求項10】 格納前に前記サブバンドの信号をフィルタリングする手段
    (10、11)も有することを特徴とする請求項8または9に記載の音声認識装置
  11. 【請求項11】 音声を認識する手段(16)と、ユーザーが発声した音声コ
    マンドを電気信号に変換する手段(1a、1b)とを有する無線通信装置(MS)に
    おいて、音声を認識する前記手段(16)が、また、 前記電気信号の周波数スぺクトルを2つまたはそれ以上のサブバンドに分割す
    る手段(8)と、 前記サブバンドの信号のサンプルを間隔をおいて格納する手段(14)と、 前記格納されたサンプルに基づいて、前記サブバンドのエネルギー・レベルを
    決定する手段(5、13)と、 電力閾値(thr)を決定する手段(5、13)と、 前記サブバンドの前記エネルギー・レベルを前記電力閾値(thr)と比較する
    手段(5、13)と、 前記比較結果に基づいて、音声内のポーズを検出する手段(5、13)と、を有
    することを特徴とする無線通信装置。
JP2000594107A 1999-01-18 2000-01-17 音声認識方法及び音声認識装置 Pending JP2002535708A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FI990078 1999-01-18
FI990078A FI118359B (fi) 1999-01-18 1999-01-18 Menetelmä puheentunnistuksessa ja puheentunnistuslaite ja langaton viestin
PCT/FI2000/000028 WO2000042600A2 (en) 1999-01-18 2000-01-17 Method in speech recognition and a speech recognition device

Publications (2)

Publication Number Publication Date
JP2002535708A true JP2002535708A (ja) 2002-10-22
JP2002535708A5 JP2002535708A5 (ja) 2007-03-08

Family

ID=8553379

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000594107A Pending JP2002535708A (ja) 1999-01-18 2000-01-17 音声認識方法及び音声認識装置

Country Status (8)

Country Link
US (1) US7146318B2 (ja)
EP (1) EP1153387B1 (ja)
JP (1) JP2002535708A (ja)
AT (1) ATE355588T1 (ja)
AU (1) AU2295800A (ja)
DE (1) DE60033636T2 (ja)
FI (1) FI118359B (ja)
WO (1) WO2000042600A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041073A (ja) * 2000-07-31 2002-02-08 Alpine Electronics Inc 音声認識装置
US8275609B2 (en) 2007-06-07 2012-09-25 Huawei Technologies Co., Ltd. Voice activity detection

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI118359B (fi) * 1999-01-18 2007-10-15 Nokia Corp Menetelmä puheentunnistuksessa ja puheentunnistuslaite ja langaton viestin
US20030004720A1 (en) * 2001-01-30 2003-01-02 Harinath Garudadri System and method for computing and transmitting parameters in a distributed voice recognition system
US6771706B2 (en) 2001-03-23 2004-08-03 Qualcomm Incorporated Method and apparatus for utilizing channel state information in a wireless communication system
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
US8082148B2 (en) * 2008-04-24 2011-12-20 Nuance Communications, Inc. Testing a grammar used in speech recognition for reliability in a plurality of operating environments having different background noise
US9135809B2 (en) * 2008-06-20 2015-09-15 At&T Intellectual Property I, Lp Voice enabled remote control for a set-top box
US9215538B2 (en) * 2009-08-04 2015-12-15 Nokia Technologies Oy Method and apparatus for audio signal classification
ES2860986T3 (es) 2010-12-24 2021-10-05 Huawei Tech Co Ltd Método y aparato para detectar adaptivamente una actividad de voz en una señal de audio de entrada
ES2941782T3 (es) 2013-12-19 2023-05-25 Ericsson Telefon Ab L M Estimación de ruido de fondo en señales de audio
US10332564B1 (en) * 2015-06-25 2019-06-25 Amazon Technologies, Inc. Generating tags during video upload
US10090005B2 (en) * 2016-03-10 2018-10-02 Aspinity, Inc. Analog voice activity detection
US10825471B2 (en) * 2017-04-05 2020-11-03 Avago Technologies International Sales Pte. Limited Voice energy detection
RU2761940C1 (ru) 2018-12-18 2021-12-14 Общество С Ограниченной Ответственностью "Яндекс" Способы и электронные устройства для идентификации пользовательского высказывания по цифровому аудиосигналу
CN111327395B (zh) * 2019-11-21 2023-04-11 沈连腾 一种宽带信号的盲检测方法、装置、设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4015088A (en) * 1975-10-31 1977-03-29 Bell Telephone Laboratories, Incorporated Real-time speech analyzer
EP0167364A1 (en) * 1984-07-06 1986-01-08 AT&T Corp. Speech-silence detection with subband coding
GB8613327D0 (en) * 1986-06-02 1986-07-09 British Telecomm Speech processor
US4811404A (en) * 1987-10-01 1989-03-07 Motorola, Inc. Noise suppression system
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US5794199A (en) * 1996-01-29 1998-08-11 Texas Instruments Incorporated Method and system for improved discontinuous speech transmission
US6108610A (en) * 1998-10-13 2000-08-22 Noise Cancellation Technologies, Inc. Method and system for updating noise estimates during pauses in an information signal
FI118359B (fi) * 1999-01-18 2007-10-15 Nokia Corp Menetelmä puheentunnistuksessa ja puheentunnistuslaite ja langaton viestin

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041073A (ja) * 2000-07-31 2002-02-08 Alpine Electronics Inc 音声認識装置
US8275609B2 (en) 2007-06-07 2012-09-25 Huawei Technologies Co., Ltd. Voice activity detection

Also Published As

Publication number Publication date
DE60033636T2 (de) 2007-06-21
ATE355588T1 (de) 2006-03-15
US20040236571A1 (en) 2004-11-25
AU2295800A (en) 2000-08-01
FI990078A0 (fi) 1999-01-18
WO2000042600A3 (en) 2000-09-28
FI990078A (fi) 2000-07-19
EP1153387B1 (en) 2007-02-28
EP1153387A2 (en) 2001-11-14
US7146318B2 (en) 2006-12-05
WO2000042600A2 (en) 2000-07-20
DE60033636D1 (de) 2007-04-12
FI118359B (fi) 2007-10-15

Similar Documents

Publication Publication Date Title
US7941313B2 (en) System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
EP1159732B1 (en) Endpointing of speech in a noisy signal
JP2002535708A (ja) 音声認識方法及び音声認識装置
JP2654503B2 (ja) 無線端末装置
US7171357B2 (en) Voice-activity detection using energy ratios and periodicity
US5146504A (en) Speech selective automatic gain control
WO2018039045A1 (en) Methods and systems for keyword detection using keyword repetitions
US4610023A (en) Speech recognition system and method for variable noise environment
US6772117B1 (en) Method and a device for recognizing speech
JP2000132177A (ja) 音声処理装置及び方法
JP4354072B2 (ja) 音声認識システムおよび方法
JP4643011B2 (ja) 音声認識除去方式
JPH08185196A (ja) 音声区間検出装置
JP3611223B2 (ja) 音声認識装置及び方法
JPH11305792A (ja) 収音装置,音声認識装置,これらの方法、及びプログラム記録媒体
JP2003241788A (ja) 音声認識装置及び音声認識システム
US20090259469A1 (en) Method and apparatus for speech recognition
JPH0449952B2 (ja)
JP2001255886A (ja) 音声認識方法および音声認識装置
KR102562180B1 (ko) 웨어러블 음향 변환 장치
US11195545B2 (en) Method and apparatus for detecting an end of an utterance
JPH0635498A (ja) 音声認識装置及び方法
JPH1185200A (ja) 音声認識のための音響分析方法
JPH11298382A (ja) ハンズフリー装置
JPH0769712B2 (ja) 音声認識応答装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070117

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070117

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20070117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100216

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101005