JP2002535708A

JP2002535708A - 音声認識方法及び音声認識装置

Info

Publication number: JP2002535708A
Application number: JP2000594107A
Authority: JP
Inventors: ラウリラ，カリ; ハッキネン，ユハ; ハリハラン，ラマリンガム
Original assignee: ノキアモービルフォーンズリミティド
Priority date: 1999-01-18
Filing date: 2000-01-17
Publication date: 2002-10-22
Also published as: DE60033636T2; ATE355588T1; US20040236571A1; AU2295800A; FI990078A0; WO2000042600A3; FI990078A; EP1153387B1; EP1153387A2; US7146318B2; WO2000042600A2; DE60033636D1; FI118359B

Abstract

(57)【要約】音声認識時に音声内のポーズを検出する方法において、ユーザーが発声した音声コマンドを認識するために、音声を電気信号に変換し、その周波数スぺクトルを２つまたはそれ以上のサブバンドに分割する。サブバンドの信号のサンプルを間隔をおいて格納し、その格納されたサンプルに基づいてサブバンドのエネルギー・レベルを決定し、電力閾値(ｔｈｒ)を決定し、サブバンドのエネルギー・レベルを前記電力閾値(ｔｈｒ)と比較する。ポーズ検出結果を作り出すためにこの比較結果を用いる。

Description

【発明の詳細な説明】

【０００１】本方法は、添付の請求項１の前文に記載のような音声認識方法と、添付の請求
項８の前文に記載のような音声認識装置と、添付の請求項１１の前文に記載のよ
うな音声制御無線通信装置に関する。

【０００２】無線通信装置を使い易くするために音声認識装置が開発されている。これによ
って、ユーザーは音声コマンドを発することができる。音声認識装置はこの音声
コマンドを認識して、例えば、電話番号を選べというコマンドなどに対応する機
能への変換を試みる。音声制御の実現上の問題点として、例えば、様々なユーザ
ーが様々なやり方で音声コマンドを発声するという事実が存在する。ユーザーに
よって話す速度が異なり、また、声の大きさ、声の調子などもユーザーによって
異なる。さらに、音声認識は、発生するかもしれない背景雑音によって干渉を受
ける。屋外および車内でのこの干渉は著しいものになる場合もある。例えば電話
番号が発声された際、背景雑音のために単語の認識および異なる単語の区別が困
難になる。

【０００３】音声認識装置のなかには固定時間窓に基づく認識方法を利用するものもある。
その場合、ユーザーには所望のコマンド・ワードを発声しなければならない所定
の時間範囲が設けられる。時間窓の時間切れ後、音声認識装置は、ユーザーがど
の単語／コマンドを発声したかを見つけ出そうとする。しかし、固定時間窓に基
づくこのような方法は、発声されるすべての単語が均等な長さではない(例えば
、氏名では、名前の方が姓より明らかに短い場合が多い)という欠点などを有す
る。したがって、短い単語の後では、長い単語の認識の場合より認識により多く
の時間が費されることになる。これはユーザーにとっては不便である。さらに、
時間窓は話す速度が遅い話者にも対応する設定が必要なため、単語全体が発声さ
れてはじめて認識が開始される。単語が早口で発声された場合、発声と認識との
間に生じる遅延のために不快な感情が強まることになる。

【０００４】別の公知の音声認識方法として、音声信号とそれらの比較から形成されるパタ
ーンに基づく方法がある。コマンド語から形成されるパターンを予め記憶させた
り、パターンに形成しておいて記憶させる所望の単語をユーザーが教えておくこ
とができる。音声認識装置は、発声中ユーザーが発声した音から形成される特徴
ベクトルと、記憶されているパターンを比較し、音声認識装置の語彙の中の個別
の単語(コマンド語)である確率を計算する。コマンド語である確率が所定値を上
回る場合、音声認識装置は認識結果としてこのコマンド語を選択する。したがっ
て、単語の初めの部分が語彙内の別の単語に発音上似ている単語の場合、不正確
な認識結果が生じる可能性がある。例えば、ユーザーが「マリ」（Mari）と「マ
リカ」（Marika）という単語を音声認識装置に教えていたとする。ユーザーが「
マリカ」という単語を言っている場合、たとえユーザーがその単語の最後の部分
をまだ明瞭に発音する時間になっていなくても、音声認識装置が「マリ」を認識
決定する場合がある。このような音声認識装置では、典型的には、いわゆる隠れ
マルコフ・モデル(ＨＭＭ)音声認識法が利用されている。

【０００５】米国特許第４,８７０,６８６に音声認識方法及び音声認識装置が開示されてい
る。この特許では、ユーザーが単語の発声を終了したことは無言状態に基づいて
決定される。すなわち、検出可能な可聴信号の有無が音声認識装置によってチェ
ックされる。この解決方法の１つの問題点として、非常に大きな背景雑音によっ
てポーズ（pause)の検出が妨げられ、音声認識が成功しない場合があるという事
実が挙げられる。

【０００６】音声中のポーズを検出するための改善方法及び音声認識装置を提供することが
本発明の目的である。本発明は、チェック対象の音声帯域をサブバンドに分割し
、各サブバンドの信号電力をチェックするという着想に基づくものである。信号
電力が、十分に長い時間の間十分な数のサブバンドの中である一定の限界値以下
であれば、音声中にポーズが存在すると推論される。本発明の方法は、添付の請
求項１の特徴記載部分に記載の内容を特徴とする。本発明による音声認識装置は
添付の請求項８の特徴記載部分に記載の内容を特徴とする。本発明の無線通信装
置は添付の請求項１１の特徴記載部分に記載の内容を特徴とする。

【０００７】本発明は、従来技術の解決方法に比べて著しい利点を与えるものである。本発
明の方法によって、従来技術の方法よりもさらに信頼性の高い単語間のギャップ
の検出を行うことが可能となる。このようにして、音声認識の信頼性が改善され
、不正確な認識や認識の失敗の数が減少する。さらに、本音声認識装置は様々な
ユーザーによる話し方に関して柔軟性を有する。その理由として、認識時に、あ
るいは、発声が完了する前に生じる認識の際に、不都合な遅延を伴わずに音声コ
マンドをより遅くあるいはより速くすることが可能であることが挙げられる。

【０００８】本発明に従うサブバンドへの分割により外部からの干渉を減らすことが可能と
なる。例えば車内などで発生するスプリアス信号は典型的には、比較的低い周波
数を有する。従来技術による解決方法では、信号の周波数帯域全体に含まれるエ
ネルギーが認識時に利用されるが、その場合、強いけれども帯域幅が狭い信号に
よって信号対騒音比が著しく低下する。従来技術による解決方法の代わりに、本
発明によりチェックする対象周波数帯域がサブバンドに分割される場合、スプリ
アス信号の割合が比較的小さくなるサブバンド内では信号対雑音比の著しい改善
が可能となり、それによって認識の信頼性が改善される。

【０００９】以下、添付図面を参照して本発明についてさらに詳細に説明する。

【００１０】以下は、本発明の好適な実施例による方法の機能に関する説明であり、図１の
フローチャートと、図２のブロック図に従う音声制御無線通信装置ＭＳを例とし
て参照しながら説明を行う。音声認識では、音響信号(音声)は、無線通信装置Ｍ
Ｓ内のマイク１ａや、ハンドフリー装置２内のマイク１ｂのようなマイクによっ
て公知の方法で電気信号に変換される。音声信号の周波数応答は、典型的には、
１０ｋＨｚ以下の周波数帯域(例えば１００Ｈｚから１０ｋＨｚの周波数帯域)に
限定される。しかし、音声の周波数応答は周波数帯域全体では一定ではなく、高
い周波数より低い周波数のものの方が多い。さらに音声の周波数応答は人によっ
て様々に異なる。本発明の方法では、チェック対象の周波数帯域はさらに狭いサ
ブ周波数範囲(Ｍ個のサブバンド)に分割される。これは添付の図１のブロック１
０１によって表されている。これらのサブ周波数範囲の幅は等しくされないが、
音声の特徴的要素を考慮して、狭い幅のものあれば広い幅のものもあるサブ周波
数範囲からなる。音声の低い周波数特性ではサブ周波数範囲への分割は密になる
。すなわちサブ周波数範囲は、音声中には稀にしか含まれない高い周波数の場合
より狭くなる。この着想は、周波数帯域の幅が周波数の対数関数に基づく公知の
メル(Mel)周波数スケールにも適用される。

【００１１】サブバンドへの分割と関連して、サブバンドの信号は、例えばアンダーサンプ
リングや低域通過フィルタリングなどによってさらに小さなサンプル周波数に変
換される。このようにして、サンプルはブロック１０１からこの低い方のサンプ
リング周波数でのさらなる処理へ転送される。このサンプリング周波数は好適に
は約１００Ｈｚであるが、本発明の範囲内で他のサンプリング周波数の利用も可
能であることは言うまでもない。これらのサンプルは前記特徴ベクトルに変換さ
れる。

【００１２】マイク１ａ、１ｂで形成された信号は増幅器３ａ、３ｂで増幅され、アナログ
・デジタル変換器４でデジタル形式に変換される。アナログ・デジタル変換の精
度は典型的には１２から３２ビットの範囲内にあり、音声信号の変換時に、好適
には毎秒８,０００から１４,０００回サンプルが採られる。しかし本発明は他の
サンプリング・レートでも適用可能である。図２の無線通信装置ＭＳにおいて、
サンプリングはコントローラ５によって制御されるように構成される。デジタル
形式の可聴信号が音声認識装置１６へ転送される。音声認識装置１６は無線通信
装置ＭＳと機能的に接続しており、この音声認識装置で本発明による方法の様々
なステップが処理される。この転送は、インターフェース・ブロック６ａ、６ｂ
およびインターフェース・バス７を介して行われる。実際の解決方法では、無線
通信装置ＭＳ自身や別の音声制御デバイス内に、あるいは、別個の補助デバイス
等として音声認識装置１６を同様に構成してもよい。

【００１３】サブバンドへの分割は、デジタル形式に変換された信号が伝えられる第１のフ
ィルタ・ブロック８で好適に行われる。この第１のフィルタ・ブロック８は、い
くつかの帯域通過フィルタから構成される。この好適な実施例ではこれらの帯域
通過フィルタはデジタル技術を用いて実現されるが、帯域通過フィルタの通過帯
域の周波数範囲と帯域幅とは互いに異なる。したがって、元の信号の各々の帯域
通過フィルタリングされた部分はそれぞれの帯域通過フィルタを通る。図を明瞭
にするために、これらの帯域通過フィルタは図２には別個のものとして図示され
ていない。これらの帯域通過フィルタは、それ自体公知のデジタル信号プロセッ
サ(ＤＳＰ)１３のアプリケーション・ソフトウェアで好適に実現される。

【００１４】次のステップ１０２で、間引きブロック９で好適に間引きを行うことによりサ
ブバンド数が減らされる。この場合、数Ｌのサブバンドが形成され(Ｌ＜Ｍ)、サ
ブバンドのエネルギー・レベルが測定可能となる。これらのサブ周波数範囲の信
号電力レベルに基づいて、各サブバンド内の信号エネルギーの決定が可能となる
。また、デジタル信号プロセッサ１３のアプリケーション・ソフトウェアの中に
間引きブロック９を設けてもよい。

【００１５】ブロック１０１に従うＭ個のサブバンドへの分割によって得られる利点として
、特に、メル(Mel)周波数スケールに従う係数を用いるアプリケーションでは、
認識結果の検証のために、これらのＭ個の異なるサブバンド値を認識時に利用す
ることが可能であるということが挙げられる。しかし、Ｌ個のサブバンドを直接
形成することによりブロック１０１の実現が可能であり、その場合ブロック１０
２は不要となる。

【００１６】第２のフィルタ・ブロック１０は、間引きステップ(図１のステップ１０２)で
形成されるサブバンドの信号の低域通過フィルタリング用として設けられる。そ
の場合、信号強度の短時間の変化はフィルタリングされて取り除かれ、さらなる
処理時に信号のエネルギー・レベルの決定に重要な影響を与えることはあり得な
い。フィルタリング後、各サブバンドのエネルギー・レベルの対数関数がブロッ
ク１１(ステップ１０４)で計算され、その計算結果は、メモリ手段１４内に形成
されるサブバンド固有のバッファ(図示せず)内にさらなる処理用として格納され
る。これらのバッファは好適にはいわゆるＦＩＦＯ(先入れ先出し)タイプのバッ
ファであり、このタイプのバッファの中に計算結果が例えば８または１６ビット
などの数字として格納される。各バッファはＮ個の計算結果を収納する。Ｎの値
は当該アプリケーションに依存する。したがってバッファに格納される計算結果
ｐ(ｔ)は、異なる測定時点における、フィルタリングされたサブバンドの対数エ
ネルギー・レベルを表す。

【００１７】構成ブロック１２によって、計算結果のいわゆるランク順フィルタリングが実
行される(ステップ１０５)。この構成ブロック１２で様々な計算結果の相互ラン
クが比較される。このステップ１０５で、音声の中にポーズが存在する可能性が
あるかどうかがサブバンド内でチェックされる。このチェックは図３の状態マシ
ン（state machine)チャートに示されている。この状態マシンの演算は、各サブ
バンドについてのほぼ同じ方法で実行される。この状態マシンの異なる機能状態
Ｓ０、Ｓ１、Ｓ２、Ｓ３、及びＳ４が円を用いて示されている。これらの状態円
の内部に、各機能状態時に実行される演算がマークされている。矢印３０１、３
０２、３０３、３０４及び３０５は１つの機能状態から別の機能状態への遷移を
示す。これらの矢印と関連して基準がマークされ、この基準の実現によってこの
遷移が開始される。曲線３０６、３０７及び３０８は機能状態が変化しない状況
を示す。またこれらの曲線にはこの機能状態を保持するための基準が与えられる
。

【００１８】機能状態Ｓ１、Ｓ２及びＳ３の中に関数ｆ()が示され、これは前記機能状態で
の次の演算の実行を表す。好適にはＮ個の計算結果ｐ(ｔ)がバッファ内に格納さ
れることが望ましく、また、最小の最大値ｐ＿ｍｉｎ(ｔ)と最大の最小値ｐ＿ｍ
ａｘ(ｔ)が以下の式によって好適に決定される。 p_min(t)=min[max{p(i - N + I), p(i - N +2),..., p(i)}], i=N, N + 1,...,t
p_max(t)=max[min{p(i - N + I), p(i - N +2),..., p(i)}], i=N, N + 1,...,t

【００１９】したがって、関数ｆ(ｔ)では、様々なサブバンド・バッファ内に格納された計
算結果ｐ(ｉ)の中の検索された最大値ｐ＿ｍａｘ(ｔ)が最大の最小値であり、最
小値ｐ＿ｍｉｎ(ｔ)が最小の最大値となる。この後、バッファ内に格納されてい
る計算結果ｐ(ｔ)の中央値である電力中央値ｐ(ｔ)_mが計算され、式ｔｈｒ＝p_m
in＋k(p_max−p_min)(但し０＜ｋ＜１)によって閾値ｔｈｒが計算される。次に
、関数ｆ()で、電力中央値ｐ(ｔ)_mと、上記で計算された閾値との間の比較が行
われる。この計算の結果、所定の時刻における状態マシンの機能状態に応じて異
なる演算が行われる。以上について、これらの異なる機能状態についての説明と
関連して以下でさらなる詳細な説明を行う。

【００２０】音声についての１グループのサブバンド固有の計算結果ｐ(ｔ)(サブバンド当
たりＮ個の結果)を格納後、音声認識装置は、デジタル信号プロセッサ１３また
はコントローラ５のいずれかのアプリケーション・ソフトウェアに設けられる前
記状態マシンの処理を次に実行する。好適には水晶発振器(図示せず)等の発振器
を用いる公知の方法でタイミングをとることができる。この処理の実行は状態Ｓ
０から始まる。状態Ｓ０で状態マシン内で使用される変数がその初期値(ｉｎｉ
ｔ())に設定される。すなわち、ポーズ・カウンタＣがゼロに設定され、起動時
点ｔ＝１における電力最小値ｐ＿ｍｉｎ(ｐ＿ｍｉｎ(t＝１))が、理論値∞(実際
には音声認識装置で利用可能な最大の可能な数値)に設定される。この最大値は
、これらの電力値の計算に用いられるビット数の影響を受ける。同様に、起動時
点ｔ＝１における電力最大値ｐ＿ｍａｘ(ｐ＿ｍａｘ(t＝１))が理論値−∞(実際
には音声認識装置で利用可能な最小の可能な数値)に設定される。

【００２１】初期値の設定後、機能は状態Ｓ１へ進み、ここで前記関数ｆ()の演算が実行さ
れて、例えば電力最小値ｐ＿ｍｉｎと電力最大値ｐ＿ｍａｘ並びに電力中央値ｐ
(ｔ)_mなどが計算される。機能状態Ｓ１ではまた、ポーズ・カウンタＣを１だけ
増加させる。この機能状態は所定の初期遅延が時間切れになるまで存在する。こ
の時間切れは、ポーズ・カウンタＣと所定の開始値ＢＥＧとの比較により決定さ
れる。ポーズ・カウンタＣが開始値ＢＥＧに達した段階でオペレーションは状態
Ｓ２へ移動する。

【００２２】機能状態Ｓ２で、ポーズ・カウンタＣはゼロに設定され、新しい計算結果ｐ(
ｔ)の格納と、電力最小値ｐ＿ｍｉｎと電力最大値ｐ＿ｍａｘ、並びに、電力中
央値ｐ(ｔ)_mと閾値ｔｈｒの計算のような関数ｆ()の演算が行われる。この計算
された閾値と電力中央値とは互いに比較され、電力中央値の方が閾値より小さけ
れば、演算は状態Ｓ３へ進み、そうでない場合には、機能状態は変化せずにこの
機能状態Ｓ２の上記の演算が再び行われる。

【００２３】機能状態Ｓ３では、ポーズ・カウンタＣを１だけ増加させ関数ｆ()が実行され
る。この計算によって電力中央値の方がまだ閾値より小さいことが示された場合
、ポーズ・カウンタＣの値がチェックされて、電力中央値がある一定時間電力閾
値以下になっているかどうかが調べられる。この制限時間切れは、ポーズ・カウ
ンタＣの値と発声制限時間ＥＮＤとの比較によって得られる。カウンタの値が前
記制限時間ＥＮＤ切れ以上の場合には、それは前記サブバンドで音声を検出でき
ないことを意味し、その場合状態マシンは処理を終了する。

【００２４】しかし、機能状態Ｓ３における閾値と電力中央値との比較によって電力中央値
の方が電力閾値を上回ることが示された場合、このサブバンド上で音声が検出さ
れたと推論することができ、状態マシンは機能状態Ｓ２へ戻り、そこで例えばポ
ーズ・カウンタＣはリセットされ、初めから計算が開始される。

【００２５】以上、本発明の好適な実施例による方法で用いられる状態マシンの動作につい
て一般的に述べた。本発明による音声認識装置では前記機能ステップは各サブバ
ンドについて独立に実行される。

【００２６】音声信号のサンプリングは好適に間隔をおいて行われ、ステップ１０１〜１０
４は各特徴ベクトルの計算後、好適には約１０ｍｓの間隔をおいて実行される。
同様に、各サブバンドの状態マシンでは、各アクティブな機能状態に従う動作が
１回(１計算時間)実行される。例えば、状態Ｓ３では、当該サブバンドのポーズ
・カウンタＣ(ｓ)を増加させ、機能ｆ(ｓ)が実行され、例えば、電力中央値と閾
値との間で比較が行われ、同比較に基づいて機能状態の保持あるいは変更のいず
れかが行われる。

【００２７】すべてのサブバンドの状態マシンについて１ラウンドの計算を実行した後、動
作は、音声認識のステップ１０６へ進む。ここで、様々なサブバンドから受信し
た情報に基づいて、十分に長いポーズが音声内で検出されたかどうかがチェック
される。このステップ１０６は添付の図４にフローチャートとして示されている
。このチェックを明らかにするためにいくつかの比較値が決定されるが、これら
の比較値は音声認識装置の製造と関連して好適に所定の初期値として与えられる
。しかし、必要な場合に、これらの初期値は当該アプリケーションおよび使用条
件に応じて変更が可能である。これらの初期値の設定は図４のフローチャートの
ブロック４０１によって示されており、ゼロより大きく検出制限時間ＥＮＤより小さい値の活動閾値ＳＢ＿ＡＣＴＩＶ
Ｅ＿ＴＨと、ゼロより大きくサブバンド数Ｌより小さいか等しい値の検出量ＳＢ＿ＳＵＦＦ
＿ＴＨと、ゼロより大きく検出量ＳＢ＿ＳＵＦＦ＿ＴＨより小さい値のサブバンドの最小
数ＳＢ＿ＭＩＮ＿ＴＨと、である。

【００２８】本発明による方法では、音声中のポーズを検出するために、どのくらいの数の
サブバンドにエネルギー・レベルが前記電力閾値以下の状態のまま残っている可
能性があるか、また、どの位の期間残っているかがチェックされる。前記の状態
マシンの機能説明時に開示したように、ポーズ・カウンタＣは、オーディオ・エ
ネルギー・レベルがどの位の期間電力閾値以下の状態のまま残っているかを示す
ものである。このようにして、カウンタの値が各サブバンドについてチェックさ
れる。カウンタの値が検出制限時間ＥＮＤ以上の場合(ブロック４０２)、これは
サブバンドのエネルギー・レベルが非常に長い間電力閾値以下のままであること
を意味するので、このサブバンドに対してポーズ検出の決定(サブバンドに固有
の検出)を行うことが可能である。したがって、検出カウンタＳＢ＿ＤＥＴ＿Ｎ
Ｏは好適に１だけ増やされる。

【００２９】カウンタの値が活動閾値ＳＢ＿ＡＣＴＩＶＥ＿ＴＨ以上である場合(ブロック
４０４)、このサブバンドのエネルギー・レベルは、しばらくは電力閾値ｔｈｒ
以下であるが検出制限時間ＥＮＤに一致する時間にはまだなっていない。したが
って、ブロック４０５内の活動カウンタＳＢ＿ＡＣＴ＿ＮＯを好適に１だけ増加
させる。他のケースとして、サブバンドの可聴信号か短時間だけ電力閾値ｔｈｒ
以下である可聴信号レベルのいずれかがある。

【００３０】次に、動作はブロック４０６へ移り、そこで、補助変数として使用されるサブ
バンド・カウンタｉを１だけ増加させる。このサブバンド・カウンタｉの値に基
づいて、すべてのサブバンドがチェックされたかどうかを推論することができる
(ブロック４０７)。

【００３１】前記ポーズ・カウンタとの比較が行われるとき、いくつのサブバンドでポーズ
が検出されたかがチェックされる(ポーズ・カウンタは検出制限時間ＥＮＤ以上
であった)。このようなサブバンド数が検出量ＳＢ＿ＳＵＦＦ＿ＴＨ以上となっ
た場合(ブロック４０８)、本方法では、音声の中にポーズが存在すると推論され
(ポーズ検出決定、ブロック４０９)、ユーザーが何を発声したかを見つけ出す実
際の音声認識へ移ることが可能となる。しかし、サブバンド数の方が検出量ＳＢ
＿ＳＵＦＦ＿ＴＨより少ない場合、ポーズを含むサブバンド数がサブバンドＳＢ
＿ＭＩＮ＿ＴＨの最小数以上であるかどうかがチェックされる(ブロック４１０)
。さらに、サブバンドのうちのいくつかがアクティブである(ポーズ・カウンタ
が活動閾値ＳＢ＿ＡＣＴＩＶＥ＿ＴＨ以上であるが検出制限時間ＥＮＤより小さ
い)かどうかがブロック４１１内でチェックされる。本発明による方法では、こ
の状況で、サブバンドのいずれもアクティブでない場合に音声内にポーズが存在
するという決定が行われる。

【００３２】雑音状況では、いくつかのサブバンドの雑音が、たとえ検出されるはずの音声
の中にポーズが存在したとしても、必ずしもすべてのサブバンド上で検出決定が
可能であるわけではないという結果になる可能性がある。したがって、前記サブ
バンドの最小値ＳＢ＿ＭＩＮ＿ＴＨによって、特に雑音条件の下で音声内のポー
ズの検出を検証することが可能となる。したがって、雑音状況では、少なくとも
サブバンドの前記最小数ＳＢ＿ＭＩＮ＿ＴＨでポーズが検出された場合、これら
のサブバンドのポーズ検出決定が、前記検出制限時間ＥＮＤの持続時間の間有効
なままであればポーズが音声の中に検出される。

【００３３】同様に、良好な条件の下では、前記検出制限時間ＥＮＤの使用によってポーズ
検出の迅速すぎる決定を阻止することができる。良好な条件の下では、たとえ検
出対象音声の中にこのようなポーズが存在しなくても、前記最小数のサブバンド
によって迅速なポーズ検出決定を行うことが可能である。サブバンドのほぼすべ
ての検出制限時間まで待つことにより音声中にポーズが実際に存在することが検
証される。

【００３４】本発明の別の好適な実施例では、ポーズ検出の決定が下されるまでは、サブバ
ンドのうちのいずれかがアクティブかどうかのチェックは行われない。したがっ
てポーズの検出の決定は前述の比較の結果に基づいて行われる。

【００３５】前述の演算は、例えば音声認識装置のコントローラやデジタル信号プロセッサ
のアプリケーション・ソフトウェアなどで好適に実行が可能である。

【００３６】本発明の好適な実施例による音声内のポーズ検出の前述の方法は、音声認識装
置に教示するステップ並びに音声認識ステップにおいて適用可能である。教示ス
テップにおいて、外乱条件を通常比較的一定に保つことが可能である。しかし、
音声制御デバイスを使用する場合、背景雑音とその他の干渉の量は大幅に変動し
うる。特に、変動する条件の下で音声認識の信頼性を改善するために、本発明の
別の好適な実施例による方法は、閾値ｔｈｒの計算に対する適応性によって補足
される。この適応性を達成するために、修正係数ＵＰＤＡＴＥ＿Ｃが使用される
。この値は、好適にはゼロより大きくかつ１より小さいことが望ましい。この修
正係数は前記値の範囲内で初期値を最初に与えられる。この修正係数は音声認識
中好適には以下のように更新される。バッファ内に格納されるサブバンドのサン
プルに基づいて、最大電力レベルｗｉｎ＿ｍａｘと最小電力レベルｗｉｎ＿ｍｉ
ｎとを計算する。この計算後、前記計算された最大電力レベルｗｉｎ＿ｍａｘは
その時点における電力最大値ｐ＿ｍａｘと比較され、前記計算された最小電力レ
ベルｗｉｎ＿ｍｉｎが電力最小値ｐ＿ｍｉｎと比較される。最大電力レベルｗｉ
ｎ＿ｍａｘと電力最大値ｐ＿ｍａｘとの間の差の絶対値または計算された最小の
電力レベルｗｉｎ＿ｍｉｎと電力最小値ｐ＿ｍｉｎとの間の差の絶対値が前回の
計算時から増加していれば、修正係数ＵＰＤＡＴＥ＿Ｃを増加させる。一方、最
大電力レベルｗｉｎ＿ｍａｘと電力最大値ｐ＿ｍａｘとの間の差の絶対値または
計算された最小の電力レベルｗｉｎ＿ｍｉｎと電力最小値ｐ＿ｍｉｎとの間の差
の絶対値が前回の計算時から減少していれば、修正係数ＵＰＤＡＴＥ＿Ｃは減ら
される。この後、新しい電力最大値と新しい電力最小値とが以下のように計算さ
れる。 p_min(t)＝(1−UPDATE_C)・p_min(t−1)＋(UPDATE_C・win_min) p_max(t)＝(1−UPDATE_C)・p_max(t−1)＋(UPDATE_C・win_max)

【００３７】この計算された新しい電力最大値と最小値は、例えば関数ｆ()の実行と関連し
て次のサンプリング・ラウンドにおいて使用される。この適応係数の決定の利点
として、例えば音声認識の際の環境条件の変化をより良く考慮に入れることが可
能になり、ポーズの検出がさらに信頼性の高いものになるということが挙げられ
る。

【００３８】音声内のポーズを検出するための前述の様々な演算は音声認識装置のコントロ
ーラ及び／又はデジタル信号プロセッサのアプリケーション・ソフトウェアで大
部分実現することが可能である。本発明による音声認識装置では、サブバンドへ
の分割のような機能のいくつかは、それ自体公知のアナログ技術を用いて実現す
ることが可能である。本方法の実行と関連して、様々なステップにおいて行うべ
き計算結果、変数などの格納については、音声認識装置のメモリ手段１４、好適
には、ランダム・アクセス・メモリ(ＲＡＭ)、不揮発性ランダム・アクセス・メ
モリ(ＮＶＲＡＭ)、フラッシュ・メモリ等の使用が可能である。無線通信装置の
メモリ手段２２も情報格納用として同様に使用可能である。

【００３９】本発明の好適な実施例による無線通信装置ＭＳを示す図２には、キーパッド１
７、ディスプレイ１８、Ｄ／Ａ変換器１９、ヘッドホン増幅器２０ａ、ヘッドホ
ン２１、ハンドフリー機能２用のヘッドホン増幅器２０ｂ，ヘッドホン２１ｂ、
および、高周波ブロック２３がさらに示されているが、これらはすべてそれ自体
公知のものである。

【００４０】異なる原理によって機能するいくつかの音声認識システムと関連して本発明を
適用することが可能である。本発明によって、音声内のポーズ検出の信頼性が改
善され、それによって、実際の音声認識の認識信頼性を確実なものとする。本発
明による方法を利用することにより固定時間窓と関連する音声認識を行うことは
不要となり、それによって、認識遅延はユーザーが発声する音声コマンドの速度
には実質的に依存しなくなる。また、本発明の方法の適用時に、従来技術の音声
認識装置の場合よりも音声認識に対する背景雑音の影響を小さくすることが可能
となる。

【００４１】本発明が前述の実施例に限定されるものではなく、添付の請求項の範囲内で修
正が可能であることは言うまでもない。

【図面の簡単な説明】

【図１】本発明の好適な実施例に従う方法を示すフローチャートである。

【図２】本発明の好適な実施例に従う音声認識装置を示す簡略なブロック図である。

【図３】本発明の好適な実施例に従う方法で利用されるランク順フィルタリングを示す
状態マシンチャートである。

【図４】本発明の好適な実施例に従う方法で利用されるポーズを推論する論理を示すフ
ローチャートである。

【手続補正書】特許協力条約第３４条補正の翻訳文提出書

【提出日】平成１３年２月２３日（２００１．２．２３）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】特許請求の範囲

【補正方法】変更

【補正の内容】

【特許請求の範囲】

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＬ，ＳＺ，ＴＺ，ＵＧ，ＺＷ )，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＲ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＤＭ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＡ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＴＺ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷ (72)発明者ハリハラン，ラマリンガムフィンランド国，エフイーエン−33720 タンペレ，リンドフォーシンカトゥ６アー 12 Ｆターム(参考） 5D015 DD03 KK02

Claims

【特許請求の範囲】

【請求項１】音声認識時に音声内のポーズを検出する方法であって、ユー
ザーが発声した音声コマンドを認識するために音声を電気信号に変換する方法に
おいて、前記電気信号の周波数スぺクトルを２つまたはそれ以上のサブバンドに
分割し、前記サブバンド内の信号のサンプルを間隔をおいて格納し、その格納さ
れたサンプルに基づいて前記サブバンドのエネルギー・レベルを決定し、電力閾
値(ｔｈｒ)を決定し、前記サブバンドの前記エネルギー・レベルを前記電力閾値
(ｔｈｒ)と比較し、ポーズ検出結果を作り出すために前記比較結果を利用するこ
とを特徴とする方法。
【請求項２】検出制限時間(ＥＮＤ)と検出量(ＳＢ＿ＳＵＦＦ＿ＴＨ)とを
決定し、前記サブバンドの前記エネルギー・レベルが前記電力閾値(ｔｈｒ)以下
に低下した場合、サブバンド内のポーズの長さの計算を開始し、前記計算が前記
検出制限時間(ＥＮＤ)に達した場合、サブバンド特定検出を実行し、前記検出制
限時間(ＥＮＤ)より長い時間、どれだけの数のサブバンドで前記エネルギー・レ
ベルが前記電力閾値(ｔｈｒ)以下になっているかをチェックし、サブバンド特定
検出の数が前記検出量(ＳＢ＿ＳＵＦＦ＿ＴＨ)以上となった場合、ポーズ検出決
定を行うことを特徴とする請求項１に記載の方法。
【請求項３】活動制限時間(ＳＵＢ＿ＡＣＴＩＶＥ＿ＴＨ)と活動量(ＳＢ
＿ＭＩＮ＿ＴＨ)とを決定し、前記サブバンド内での前記ポーズの長さの計算時
にその他のサブバンドにおいて、サブバンド特定検出量が前記活動量(ＳＢ＿Ｍ
ＩＮ＿ＴＨ)以上であって、かつ、前記活動制限時間(ＳＢ＿ＡＣＴＩＶＥ＿ＴＨ
)にまだ達していない場合に、ポーズ検出決定を行うことを特徴とする請求項２
に記載の方法。
【請求項４】前記電力閾値(ｔｈｒ)を、以下の式、ｔｈｒ＝p_min＋k・(p_max−p_min) によって計算し、ここで、 p_min＝前記サブバンドの前記格納されたサンプルのなかで決定される最小の
電力最大値と、 p_max＝前記サブバンドの前記格納されたサンプルのなかで決定される最大の
電力最小値と、であることを特徴とする請求項１〜３のいずれか一項に記載の方法。
【請求項５】各時点における環境雑音レベルを考慮に入れることにより前
記電力閾値(ｔｈｒ)を適応的に計算することを特徴とする請求項１〜４のいずれ
か一項に記載の方法。
【請求項６】前記電力閾値(ｔｈｒ)を計算するために、修正係数(ＵＰＤ
ＡＴＥ＿Ｃ)を決定し、前記格納されたサンプルに基づいて前記サブバンドの最
大の電力レベル(ｗｉｎ＿ｍａｘ)と最小の電力レベル(ｗｉｎ＿ｍｉｎ)とを計算
し、前記電力最大値(ｐ＿ｍａｘ)と電力最小値(ｐ＿ｍｉｎ)とを以下の式、 p_max(i,t)＝(1−UPDATE_C)・p_max(i,t−1)＋(UPDATE_C・win_max) p_min(i,t)＝(1−UPDATE_C)・p_min(i,t−1)＋(UPDATE_C・win_min) ここで、0 < UPDATE_C < 1、0<i<L、及びＬはサブバンド数によって決定する
ことを特徴とする請求項５に記載の方法。
【請求項７】さらに、前記計算された最大の電力レベル(ｗｉｎ＿ｍａｘ)と電力最大値(ｐ＿ｍａｘ)
との差の絶対値、あるいは、前記計算された最小の電力レベル(ｗｉｎ＿ｍｉｎ)
と電力最小値(ｐ＿ｍｉｎ)との差の絶対値が増加した場合、前記修正係数(ＵＰ
ＤＡＴＥ＿Ｃ)を増加させ、前記計算された最大の電力レベル(ｗｉｎ＿ｍａｘ)と電力最大値(ｐ＿ｍａｘ)
との差の前記絶対値、あるいは、前記計算された最小の電力レベル(ｗｉｎ＿ｍ
ｉｎ)と電力最小値(ｐ＿ｍｉｎ)との差の前記絶対値が減少した場合、前記修正
係数(ＵＰＤＡＴＥ＿Ｃ)を減少させることを特徴とする請求項６に記載の方法。
【請求項８】ユーザーが発声した音声コマンドを電気信号に変換する手段
(１ａ、１ｂ)を有する音声認識装置(１６)において、前記電気信号の周波数スぺクトルを２つまたはそれ以上のサブバンドに分割す
る手段(８)と、前記サブバンドの信号のサンプルを間隔をおいて格納する手段(１４)と、前記格納されたサンプルに基づいて前記サブバンドのエネルギー・レベルを決
定する手段(５、１３)と、電力閾値(ｔｈｒ)を決定する手段(５、１３)と、前記サブバンドの前記エネルギー・レベルを前記電力閾値(ｔｈｒ)と比較する
手段(５、１３)と、前記比較結果に基づいて、音声内のポーズを検出する手段(５、１３)と、を有
することを特徴とする音声認識装置。
【請求項９】前記電力閾値を以下の式、ｔｈｒ＝p_min＋k・(p_max−p_min)、によって計算し、ここで、 p_min＝前記サブバンドの前記格納されたサンプルのなかで決定される最小の
電力最大値と、 p_max＝前記サブバンドの前記格納されたサンプルのなかで決定される最大の
電力最小値と、であることを特徴とする請求項８に記載の音声認識装置。
【請求項１０】格納前に前記サブバンドの信号をフィルタリングする手段
(１０、１１)も有することを特徴とする請求項８または９に記載の音声認識装置
。
【請求項１１】音声を認識する手段(１６)と、ユーザーが発声した音声コ
マンドを電気信号に変換する手段(１ａ、１ｂ)とを有する無線通信装置(ＭＳ)に
おいて、音声を認識する前記手段(１６)が、また、前記電気信号の周波数スぺクトルを２つまたはそれ以上のサブバンドに分割す
る手段(８)と、前記サブバンドの信号のサンプルを間隔をおいて格納する手段(１４)と、前記格納されたサンプルに基づいて、前記サブバンドのエネルギー・レベルを
決定する手段(５、１３)と、電力閾値(ｔｈｒ)を決定する手段(５、１３)と、前記サブバンドの前記エネルギー・レベルを前記電力閾値(ｔｈｒ)と比較する
手段(５、１３)と、前記比較結果に基づいて、音声内のポーズを検出する手段(５、１３)と、を有
することを特徴とする無線通信装置。