JP2015018276A

JP2015018276A - ユーザの発話を認識するための方法及び装置

Info

Publication number: JP2015018276A
Application number: JP2014184204A
Authority: JP
Inventors: リンドホルムクリスティアン; Christian Lindholm; ラウリラカリ; Kari Laurila
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 1998-05-25
Filing date: 2014-09-10
Publication date: 2015-01-29
Also published as: FI981154A; DE69923253D1; JP2011175265A; JP2000056792A; US6694295B2; EP0961263A2; JP5048174B2; US20020032567A1; DE69923253T2; EP0961263A3; EP0961263B1; FI981154A0

Abstract

【課題】音声認識とクオリファイアとを用いた、ユーザの発話を認識するための方法及び装置の実現。【解決手段】装置を用いてユーザの発話を認識するための方法は、発話のある集合モデルが予め記憶され、音声認識を行うために、ユーザの発話が受信され、ユーザの発話が予め記憶されたモデルと比較され、比較に基づいて認識決定が行われ、装置に触れることによって、ユーザが比較を限定するクオリファイアを提供することができ、クオリファイアが装置のメニュー構造中の項目を識別し、ユーザが与えたクオリファイアに基づいて記憶されたモデルの中から部分集合モデルが選択され、部分集合モデルがメニュー構造の下位項目を識別し、ユーザの発話を部分集合モデルと比較することによって認識決定を行うための比較を行う。【選択図】図２

Description

本発明は音声認識方法及び本発明による音声認識方法を利用する装置に関する。

通常、移動電話では、電話用ノートパッドによってブラウズを行いながら、探す氏名の最初の文字を利用して氏名を選択することが可能である。この場合、検索処理中にユーザが例えば文字「s 」を押すと、文字「s 」で始まる氏名がメモリから検索される。このようにして、ユーザは氏名をみつけるためにアルファベット順にノートパッドの内容をブラウズする必要なく自分の探している氏名をより迅速にみつけることができる。この種の方法はすべて手動であり、キーボードによってユーザが与えるコマンドと、このコマンドに基づくブラウジングに基づくものである。

今日、ユーザが声によってコマンドを与えることができる音声認識装置を利用するいくつかの移動局がある。これらの装置では、その音声認識装置は話者依存形であることが多い。すなわち、音声認識装置のオペレーションは、音声認識装置が後で認識すると思われる単語をユーザが音声認識装置に対して教えるという方式に基づいている。また、別個の訓練段階を必要としないいわゆる話者独立形音声認識装置も存在する。この場合、音声認識装置のオペレーションは異なるタイプの話者から採られた多くのサンプリングから集めた多量の教材に基づいている。いわゆる平均的ユーザの場合、適度の機能が話者独立形認識装置については典型的である。これに対して、話者依存形音声認識装置はこの音声認識装置を訓練した人にとって最適に機能する。

J. Picone著「音声認識の信号モデル化方法：Signal modeling techniques in speed recognition 」(IEEE(米国電気電子技術者協会）会報、第81巻、No.9、pp.1215 〜1247、1993年９月）

上述の音声認識装置の双方について通常言えることは、使用されている語彙の大きさによってその音声認識装置の性能が大きく左右されるということである。また、従来技術による音声認識装置について通常言えることは、認識できる単語が特定の数に限定されていることである。例えば、移動局では、電話機のノートパッドに声で記憶できるようにユーザに許されるのは最大20の氏名であり、それに応じてユーザはこれらの記憶された氏名を音声による選択と関連して利用することができる。現在また将来のアプリケーションとしてはそのような数では明らかに不十分であり、本発明の目的はこの認識対象単語数を実質的に増やすことである。例えば現今の方法の10倍というような認識対象単語数の増加に伴い、より少ない語彙を使用しているときと同じ音声認識能力を保持することは不可能になる。もう一つの制限要因として、端末装置などにおける使用メモリが必要となるということがある。この必要性は、当然のことながら音声認識装置の語彙の拡大につれて増大する。

従来技術による現今の音声認識装置では、音声認識装置の起動は、例えば「起動」のような特定の起動コマンドを用いて音声で実現することができ、そのコマンドで音声認識装置が起動してユーザからのコマンドを受信する準備ができる。音声認識装置を別個のキーで起動することもできる。声で起動される音声認識装置については、典型的にはその起動性能が環境のノイズレベルに左右される。また、音声認識装置の作動中、環境のノイズレベルが、達成すべき音声認識装置の性能に大きく影響する。音声認識装置の性能を表す重要なパラメータは、その語彙の範囲及び環境のノイズ条件の程度であると言うことができる。

更なる公知の音声認識システムが、米国特許4,866,778 に開示されている。この特許では、ユーザが１つあるいはそれより多い文字からなる最初の文字列を選択することによって単語の下位の語彙を選択し、それらの頭文字で始まる単語に限定される下位の語彙に対して認識を行わせることができるようになっている。

今回我々は、従来技術の上述の問題を回避するあるいは少なくとも和らげる目的を持つ音声認識方法と装置を発明した。本発明は、音声認識中にユーザがクオリファイア（qualifier : 修飾子）を与えることができる装置と方法に関する。このクオリファイアによって音声認識はユーザが与えたクオリファイアに一致する音声モデルのみに限定される。この場合、音声認識中に使用される特定の部分集合のみが予め記憶された音声モデルの中から選択される。

本発明の実施例によれば、装置の既存のキーボード又はタッチスクリーン（touch-senitive screen : 接触感知スクリーン）／ベースを利用して装置に触れることによって音声認識を限定するクオリファイアが与えられると同時に音声認識装置が起動される。この起動は、最も好適にはキーで行われる。本発明による方法によって、音声認識装置を起動する論理的方法がユーザに与えられ、同時に、入力されたクオリファイアによる音声認識装置の改善された性能が提供される。本発明によるこの音声認識の限定は音声認識装置の起動とは別に行うこともできる。

本発明の典型的実施例によれば、この装置はタッチスクリーン又は表面（ベース）を備え、スクリーン上に書かれた一つの文字又はいくつかの文字に関する情報が音声認識装置へ伝送される。この場合、音声認識は当該文字を含む単語に限定される。音声認識は、最も好適にはタッチスクリーンにユーザが書いた文字で始まる氏名に限定される。

本発明の典型的実施例によれば、最終的認識結果が画定されると、すべての記憶されたモデルを予め利用することによって、また、ユーザが与えた限定クオリファイアを利用することによって音声認識を行うこともできる。

本発明の第１の態様によれば、ユーザの発話を認識する方法に対して装置が提供され、この装置において、ある集合の発話モデルが予め記憶され、音声認識を行うために、ユーザの発話が受信され、ユーザの発話が予め記憶されたモデルと比較され、この比較に基づいて認識決定が行われる。この方法は、
ユーザが、装置に触れることによって比較を限定するクオリファイアを提供することができ、このクオリファイアによって装置のメニュー構造のアイテムが識別され、
ユーザが与えたクオリファイアに基づいて記憶されたモデルの中からモデルの部分集合が選択され、モデルのこの部分集合がメニュー構造の下位アイテムを識別し、
ユーザの発話をモデルの部分集合と比較することによって、認識決定を行うための比較が行われることを特徴とする。

本発明の第２の態様によれば、ユーザの発話を認識するための方法に対して装置が提供され、この装置において、ある集合の発話モデルが予め記憶され、音声認識を行うために、ユーザの発話が受信され、ユーザの発話が予め記憶されたモデルと比較され、この比較に基づいて、認識決定が行われる。この方法は、
ユーザの発話を予め記憶されたモデルと比較することによって、第１の認識決定を行うための比較が行われ、
ユーザが、部分集合モデルを選択するために装置に触れることによって比較を限定するクオリファイアを提供することができ、このクオリファイアがこの装置のメニュー構造のアイテムを識別し、部分集合モデルがメニュー構造の下位アイテムを識別し、
第１の認識決定を部分集合モデルと比較する認識決定を行うための最終的比較を行うことを特徴とする。

本発明の第３の態様によれば、ユーザの発話を認識するための音声認識装置と、音声モデルを記憶するためのメモリ手段と、ユーザの発話を受信するための手段と、ユーザの発話をメモリ手段に記憶されたモデルと比較することによって認識プロセスを実行するための比較手段とを有する装置が提供され、この装置は、装置に触れることによってユーザからのクオリファイアを受信するための手段と、比較手段によって行われた比較を集合モデルに限定するためのユーザから受信されたクオリファイアに基づいて、記憶されたモデルの中からある集合を選択するための手段と、装置のメニュー構造を記憶するための、及び、装置のメニュー構造の一つの項目として受信されたクオリファイアを特定するための手段とを有することも特徴とする。

従来技術による音声認識装置の構造を示すブロック図である。本発明による音声認識装置の構造を示すブロック図である。本発明による方法の作用のフローチャートを示す図である。本発明によるもう一つの方法の作用のフローチャートを示す図である。本発明による方法を利用する移動局の構造を示す図である。

図１は、本発明に対して適用できるような公知の音声認識装置の構造ブロック図を示す。通常、図１に示されるように、音声認識装置の動作は２つの異なる主要な活動、すなわち実際の音声認識段階10〜12、14〜15と音声訓練段階10〜13とに分割される。音声認識装置はマイクロホンから入力として音声信号S(n)を受信し、この信号は、A/D 変換器10によって例えば8kHzのサンプリング周波数及び１サンプル当たり12ビットの解像度を使ってデジタル形式に変換される。通常、音声認識装置は、音声信号が分析され、特徴ベクトル（Feature vector) 12がモデル化されるいわゆるフロント・エンド11を有し、この特徴ベクトルが特定の期間中の音声信号を記述する。この特徴ベクトルは例えば10msの時間間隔で定義される。この特徴ベクトルをいくつかの種々な方法を用いてモデル化することができる。例えば、特徴ベクトルモデル化のための種々な方法が、参考文献J. Picone著「音声認識の信号モデル化方法：Signal modeling techniques in speed recognition 」(IEEE(米国電気電子技術者協会）会報、第81巻、No.9、pp.1215 〜1247、1993年９月）の中に示されている。訓練段階中、音声認識装置の訓練ブロック13で、音声認識装置が使用する単語の特徴ベクトル12によってモデルが構成される。モデル訓練13a で、認識対象の単語のモデルが定義される。この訓練段階で、モデル化される単語の反復を利用することができる。これらのモデルはメモリ13b に記憶される。音声認識中、特徴ベクトル12は実際の認識装置14へ伝送され、この装置によって、ブロック15a で、訓練段階中に構成されたモデルが認識対象音声の構成された特徴ベクトルと比較され、ブロック15b でその認識結果に関する決定が行われる。認識結果15によって、音声認識装置を使用している人が発した単語と最も良く一致した単語が表示され音声認識装置のメモリに記憶される。

図２は、本発明による音声認識装置の動作を示す。この音声認識装置には、図１による解決策に加えて、キーボードなどによってユーザが与えるコマンドに基づいてモデルの選択を行うブロック16を備える。ブロック16は、どのキーをユーザが押したかに関する情報が含まれる信号17をその入力として受信する。ブロック16で、ブロック13b によって伝送された音声モデル18は、信号17と比較され、この信号の中から部分集合19が選択されて音声認識装置のブロック15a へ伝送される。ブロック16の動作に関するモデルの選択については、本発明によるメモリ構造を利用して以下に説明した。

表１は本発明によるメモリ構造を示し、この構造によって、例えば移動局の電話ノートパッドまたはその一部などが形成される。このメモリには、音声認識訓練段階中に構成された参照モデル（特徴ベクトルなど）のみならず、氏名、氏名に対応する電話番号を備える。参照モデル「xxx...x 」を含むデータフィールドのみならず、氏名「Smith 」、対応する電話番号「0405459883」が記憶されている表の一行がこの表には示されている。参照モデルの長さは音声認識装置に特有のパラメータであるため、フィールド長さは使用される音声認識装置に依存する。本発明によれば、ユーザが装置の特定のキー（キー「s 」など）を押すと、装置のプロセッサがメモリの内容を調べ、氏名を含むデータフィールドの内容を比較し、メモリから文字「s 」で始まる氏名のみを検索する。例えば、押されたキーのASCII 文字をメモリ中の氏名の最初の文字のASCII 文字と比較することによって、また、もしこれらの文字が比較において互いに一致した場合、氏名と一致する参照モデルを選択することによって、この比較を行うことができる。この選択された参照モデル（部分集合）に関する情報は、次いで音声認識装置へ伝送され、その後音声認識装置が上で選択された氏名に関係するモデルを利用して音声認識が行われる。

ユーザは更にもう一つのキー（例えばキー「m 」）を押すこともでき、それによって音声認識が文字の組み合わせ「Sm」で始まる氏名にただちに限定される。この場合、認識すべき氏名数も更に限定される。すなわち部分集合モデルの数が少なくなる。さらに、本発明による音声認識装置の起動ベースとなる上述の氏名フィールド以外のフィールドをメモリに含めることも可能である。移動局のような装置の電話メモリには、例えば、ある特定の番号が移動局の番号であるかどうかを示すフィールドが含まれてもよい。この場合、メモリフィールドには例えば、要素「GSM 」を含めてもよい。それによって、ユーザがこのフィールドを起動するとGSM 番号だけが選択され、その他の番号、例えば固定ネットワークの番号やファックス番号などは選択されなくなる。このように本発明はユーザが選択した文字が音声認識装置の動作を制御する場合に限定されるものではなく、代わりにユーザがなんらかの他の分類などに従って電話用ノートパッドから氏名を選択することができる。例えば、電話用ノートパッド中の氏名は「家庭」、「会社」、「友人」などのようなクラスに分類されていてもよい。その場合移動局によってメニューの中から、例えばクラス「友人」を選択する便利な方法が提供され、本発明による音声認識がこの部類の氏名へ向けられる。移動局が、いくつかの異なる文字が一つの特定のキーと結合しているキーボードを備えることもまた可能である。例えば、文字記号「j 、k 、i 」を数字キー「5 」の中に含めることができる。この場合、ユーザがキー「5 」を押すと音声認識装置が起動して、音声認識で、文字「j 」、「k 」又は「i 」で始まる氏名に限定されるように本発明を適合することができる。本発明の典型的実施例では、ユーザがSENDキーを押すと、本発明による音声認識を最新の複数呼（例えば、最新の10件の呼）などに限定することができる。この場合、SENDキーを押してホールドすることなどによって呼が開始され、ユーザが同時に認識させたい氏名を発音するとすぐに最新の10件の呼の氏名／記号を含む１つの集合モデルに音声認識を限定することができる。

音声認識装置は好適にはプレス＆ホールド(press-and-hold)によって起動されることが最も望ましい。この装置（音声認識装置）は、ユーザが音声認識の開始を望んでいることを当該キーの押下（プレス）とホールドによって通知される。同時に、押されたキーに関する情報は音声認識装置へ伝送される。すなわち音声認識は、例えば押されているキーの文字で始まる単語に限定され、すぐにユーザが望む参照モデルによって起動される。音声認識装置がキーの押下以外の方法、例えば音声によって起動されるのもまた本発明によるものである。この場合、上記に示したように、音声認識装置の起動後に本発明による参照モデル選択を音声認識中利用することが可能である。

本発明による移動局のメニュー構造を表２に示すように構成することもできる。表２は電話のメニュー構造の特定の部分を示すものである。この例では、主メニューはメニュー「電話設定」、「メッセージ」及び「メモリ機能」からなる。これに対応して、メニュー「メッセージ」はサブメニュー「読み込みメッセージ」と「書き込みメッセージ」とからなる。電話のユーザが音声によって又はメニューキーを押すことによってメニュー機能を選択するとき、起動はメニュー中の数ヶ所に限定される。この例では、音声による起動はメニュー「電話設定」、「メッセージ」あるいは「メモリ機能」に向けられる。ユーザは更に手動でサブメニュー「メッセージ」を選択することができる。その場合、音声起動は当該メニューの「読み込みメッセージ」又は「書き込みメッセージ」のある箇所へ向けられる。移動局のための外部のサービスとその起動に上述の方法を適用することもできる。この場合、特定のサービス、例えばWWW サービス(World Wide Web)に対して移動局の特定のキーが定義される。この場合、当該キーの押下とホールドによって、音声コマンドなどを利用することによりWWW アドレスのブックマークの選択を行うことが可能になる。この適用例では、移動局には上述のように選択された文字記号の表が含まれる。

図３は本発明による方法の活動シーケンスを示す。段階30では、ユーザが音声認識装置を起動するプレス＆ホールドを行ったかどうかが検出される。プレス＆ホールドが検出されなかった場合、装置は音声認識装置の起動待機状態のままになる。あるいは、ユーザがスクリーンのような接触感知面に書き込みを始めるとすぐに、音声認識装置を起動することができる。音声認識装置の起動を音声に基づいて行ってもよい。段階31で、タッチスクリーンに書かれた文字／テキストが認識される。段階32で、キーの押下に関する情報が音声認識装置へ伝送される及び／又はユーザがタッチスクリーンに書いた又は描いた英数字文字に関する情報が伝送される。タッチスクリーン上に、音声認識で利用する、英数字文字から外れる何らかの他の図形を描くことも可能である。段階33で、ユーザがキーの押下又はタッチスクリーンへの書き込みをまだ行っているかどうかが調べられる。その場合、これらの活動に関する情報は音声認識装置へも伝送される。ユーザの活動を特定の時間しきい値と比較することによってこの調査を行うことができる。この比較によってユーザがコマンドの発令を決定したかどうかが決められる。段階34で、段階32で与えられた情報を利用することによってユーザが発音した単語が認識される。

図４は本発明による方法のもう一つの活動シーケンスを示すものである。この方法では、発音された単語がまず従来通りに認識され、次いで、認識段階中に得られた結果の限定のために、ユーザが与えた限定の利用はこの認識後にしか行われない。図４では段階30〜33は図３の対応する段階と一致する。段階35で、すべての予め記憶されたモデルを利用してユーザの発話が認識される。この認識結果に関する情報は段階34へ伝送され、そこで第一の認識決定を部分集合モデルと比較することによって、ユーザが与えた限定に基づいて得られた最終的認識決定が行われる。段階35から得られる認識決定には、認識されたある集合の提案された単語と、段階34へ伝送されたこの単語に対応する認識確率とが含まれる。不完全な認識の場合には、最も高い認識確率を得た単語はユーザが発音した単語ではない。この場合、本発明による段階34で、ユーザが与えたクオリファイアによって最終的音声認識段階を実行して、本発明によるさらに高い音声認識性能に達することが可能である。本発明による方法は、限定と発音単語の認識とが実質的に同時となるように実行することもできる。

図５は、本発明を利用する音声認識装置66を有する移動局の構造を示す。移動局はマイクロホン61、キーボード62、スクリーン63、スピーカ64、及び、移動局の動作を制御する制御ブロック65のような装置の特徴を示す部分を有する。本発明の実施例によれば、スクリーン63はスクリーンのような接触感知面であってもよい。さらに、本図には、移動局の特徴を示す送信ブロック67と受信ブロック68とが例示されている。制御ブロック65はまた移動局と関係する音声認識装置66の動作をも制御する。音声認識装置の訓練段階中又は実際の音声認識段階中のいずれかの段階で音声認識装置が起動されると、ユーザが与える音声コマンドは制御ブロックによって制御されマイクロホン61から音声認識装置66へ伝送される。本発明によって、制御ブロック65は、ユーザがキーによって与えるコマンドに関する情報や、タッチスクリーン上へ入力される英数字文字／図形に関する情報を音声認識装置66へ伝送する。音声コマンドは別のHF（ハンドフリー）マイクロホンを通じて伝送することもできる。音声認識装置は通常DSP によって実行され、動作に必要な外部の及び／又は内部のROM/RAM 回路69を備える。

本発明の実施例は、タッチスクリーンまたはベースのような接触感知面を有する移動局のような装置を備えてもよい。この場合、ユーザは、接触感知面にペンなどで認識対象の単語の最初の文字を書いたり、指で描いたりすると同時に認識対象の単語を発音する（あるいは、ユーザはスクリーン上に表示された文字のある箇所を押す）。この場合、入力文字に関する情報は音声認識装置へ伝送され、音声認識は当該文字を含む単語に限定される。認識は、好適には上に説明した当該頭文字で始まる単語に限定して行われることが最も望ましい。この場合、ユーザは、本発明によって接触感知面上に例えば文字「S 」を書き込むと同時に認識対象の氏名、例えば「Smith 」を発音して、音声認識を文字「S 」で始まる氏名に限定することができる。

あるいは、ユーザはまずタッチスクリーン上に文字を書き込み、その後で認識対象の単語を発音してもよい。キー入力と接触感知面への書き込みに基づく上述の方法を組み合わせることができる。この場合、ユーザは、接触感知面への書き込みと、いくつかのキーの押下との両方を行い、音声認識時にこれらのデータの両方を利用することができる。接触感知面自体は本発明の範囲外にあり、従来技術に従って種々の方法で実現することができる。

本発明による方法によって、認識対象の氏名の数が同じままであれば従来技術による認識装置と比較して10〜30倍の認識精度を達成することができると推測できる。一方、本発明によって、認識精度をそのまま変えない場合、本発明によって認識できる氏名の数は、従来の10〜30倍の数を認識することが可能である。この改善された能力は本発明による一定の組み合わせに基づくものであり、キー／接触感知面によってユーザが出したコマンド、すなわち音声認識検索を限定するクオリファイアが音声認識と組み合わされる。本発明の一つの典型的実施例はタッチスクリーン利用に基づくものであった。この適用例の長所は、テキスト認識と音声認識とで用いるアルゴリズムがほとんど同一であり、これらの機能の両方を実現した装置でプログラムメモリ必要量があまり増えないということである。

以上、本発明の典型的実施例として移動局について説明した。しかし、本発明は例えばコンピュータにも等しく十分に適用可能である。本発明は、上に示した実施例に限定されるものではなく、添付の請求の範囲内で変形できるものである。

１０Ａ／Ｄ変換器
１１フロントエンド
１２特徴ブロック
１３訓練ブロック
１５ａ比較ブロック
１５ｂ認識決定ブロック
１６モデルの選択ブロック

Claims

装置を用いてユーザの発話を認識するための方法であって、前記発話のある集合モデルが予め記憶され、音声認識を行うために、前記ユーザの前記発話が受信され、前記ユーザの発話が前記予め記憶されたモデルと比較され、前記比較に基づいて認識決定が行われるユーザの発話を認識するための方法において、
前記装置に触れることによって、前記ユーザが前記比較を限定するクオリファイアを提供することができ、前記クオリファイアが前記装置のメニュー構造中の項目を識別し、
前記ユーザが与えた前記クオリファイアに基づいて前記記憶されたモデルの中から部分集合モデルが選択され、前記部分集合モデルが前記メニュー構造の下位項目を識別し、
前記ユーザの前記発話を前記部分集合モデルと比較することによって前記認識決定を行うための比較を行うことを特徴とするユーザの発話を認識するための方法。
装置を用いてユーザの発話を認識するための方法であって、前記発話のある集合モデルが予め記憶され、音声認識を行うために、前記ユーザの発話が受信され、前記ユーザの発話が前記予め記憶されたモデルと比較され、前記比較に基づいて認識決定が行われるユーザの発話を認識するための方法において、
前記ユーザの前記発話を前記予め記憶されたモデルと比較することによって第１の認識決定を行うための比較を行い、
部分集合モデルを選択するための前記装置に触れることによって、前記ユーザが前記比較を限定するクオリファイアを提供することができ、前記クオリファイアが前記装置のメニュー構造の中の項目を識別し、前記部分集合モデルが前記メニュー構造の下位項目を識別し、
前記第１の認識決定を前記部分集合モデルと比較することによって認識決定を行うための最終的比較を行うことを特徴とするユーザの発話を認識するための方法。
前記ユーザが与えたクオリファイアに応じて音声認識装置が起動することを特徴とする請求項１又は２に記載の方法。
前記ユーザがキーを押すことによって前記クオリファイアを与えることができることを特徴とする請求項１又は２に記載の方法。
前記ユーザが前記装置の接触感知面上に英数字文字を書くことによって前記クオリファイアを提供することができることを特徴とする請求項１又は２に記載の方法。
前記ユーザがプレス＆ホールドとして前記クオリファイアを提供することができることを特徴とする請求項３又は４に記載の方法。
ユーザの発話を認識するための音声認識装置(66)と、音声モデルを記憶する(13b）ためのメモリ手段(69)と、前記ユーザの前記発話を受信するための手段(61)と、前記ユーザの前記発話を前記メモリ手段に記憶された前記モデルと比較することによって前記認識プロセスを実行するための比較手段(19、15a 、15b)とを有する装置において、該装置はまた、該装置に触れることによって前記ユーザからクオリファイア(17)を受信するための手段(62 、63）と、前記比較手段(19 、15a 、15b)によって行われる前記比較を前記集合モデルに限定するための、前記ユーザから受信された前記クオリファイアに基づいて、前記記憶されたモデルの中から１つの集合を選択するための手段(16)と、ある装置のメニュー構造を記憶するための、また、前記装置のメニュー構造中の１つの項目として前記受信されたクオリファイアを識別するための手段(65)とを備えることを特徴とする装置。
前記ユーザから前記クオリファイアを受信するための前記手段がキーボードを備えることを特徴とする請求項７に記載の装置。
前記クオリファイアを受信するための前記手段が接触感知面を備えることを特徴とする請求項７に記載の装置。
前記ユーザから受信されたクオリファイアに応じて前記音声認識装置を起動するための手段(62 、63、65）を備えることを特徴とする請求項７に記載の装置。