JP2013512476A

JP2013512476A - 複数の辞書を用いたスピーチ認識

Info

Publication number: JP2013512476A
Application number: JP2012542019A
Authority: JP
Inventors: フアン、リッチー; ヤマモト、スチュアート、エム．; キルシュ、デイヴィッド、エム．
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2009-12-01
Filing date: 2010-11-04
Publication date: 2013-04-11
Also published as: EP2507793A1; WO2011068619A1; US20110131040A1

Abstract

スピーチ認識性能を向上するために、スピーチ認識部を備える車内システムおよびその方法を提供する。スピーチ認識部は、多数の語彙辞書を有している。前記した語彙辞書の各々は、複数のコマンドに対応している音声データを含む。車内システムがスピーチ入力情報を受信すると、スピーチ認識部は、前記受信したスピーチ入力情報がスピーチアクセスコマンドを含むか否か判定する。前記受信したスピーチ入力情報がスピーチアクセスコマンドを含むと判定される場合、辞書切り替え部は、スピーチ認識部が現在使用中の辞書を、前記判定があったスピーチアクセスコマンドに対応している語彙辞書に切り替える。そうでない場合、辞書切り替え部は、前記した現在使用中の辞書を、第１の語彙辞書に切り替える。前記受信したスピーチ入力情報に含まれるコマンドは、前記切り替えられた後の現在使用中の辞書を用いているスピーチ認識部が認識する。
【選択図】図４

Description

≪関連出願の相互参照≫
本願は、２００９年１２月１日に出願された米国実用新案出願第１２／６２８，４７６号を基礎として優先権を主張するものであり、基礎となるこの出願の全体は、参照することにより本明細書中に組み込まれている。

≪背景≫
（発明の技術分野）
本内容は、複数の語彙辞書データベースを利用するためのスピーチ認識システムおよびその方法に関する。具体的には、本内容は、スピーチ認識システムが用いる複数の語彙辞書データベースの中から１つを選択することに関する。

（従来技術に関する説明）
スピーチ認識システムは、１または複数の語彙辞書データベースを用いて、ユーザが述べた言葉を音声により照合する。既存のスピーチ認識システム内のスピーチ認識制御は、語彙辞書データベースの容量および利用可能なコマンドの種類によって制限されてしまう。一般的には、語彙辞書データベースの容量が増大すると、スピーチ認識システムの認識精度は低下する。このことは、スピーチ認識システムで用いられる既存のスピーチコマンドと似たように聴こえる音楽の曲名の多様さに起因して音楽の曲名がスピーチコマンドに含まれている場合に特に当てはまる。

いくつかの既存のスピーチ認識システムは、多数の語彙辞書データベースを利用して認識精度を向上させている。１つのスピーチ認識システムに関していえば、そのシステムは、少なくとも１つの絞り込み条件によって分類される階層構造からなる多数の辞書を用いる。例えば、前記した１つのスピーチ認識システムは、小項目単位からなる多数の逐次的なスピーチ認識入力ステップを実行すると、スピーチ入力プロンプトに応じて利用される複数の異なる辞書によって適切な一続きの言葉を認識する。

他の既存のスピーチ認識システムに関していえば、多数のスピーチ認識エンジンは、異なる認識モデルおよび異なる辞書データベースを用いる複数のスピーチ認識エンジンの各々と並行して動作することができる。複数のスピーチ認識エンジンのいずれを用いるかという選択は、予め決めてもよいし、ユーザからの入力情報の内容に基づいて動的に選択されてもよい。認識モデルは階層化することで、適切なモデルを選択することを単純化できる。

このような事情に鑑みて、本発明は、スピーチ認識精度を向上するために、スピーチ認識部を有する車内システムおよびその方法を提供することを目的とする。

≪要約≫
この要約は、複数ある概念から一つ選択した概念を単純化して紹介するものであり、その概念は、下記の詳細な説明にてさらに説明されている。この要約は、請求項の発明特定事項のうち重要な特徴または本質的な特徴を特定することを意図するものでもないし、請求項の発明特定事項の範囲を限定するために用いられることを意図するものでもない。

一実施形態では、スピーチ認識部は、２つの語彙辞書を含む。２つの語彙辞書の各々は、コマンドの種類ごとに対応している音声データを含む。車内システムがスピーチ入力情報を受信すると、前記受信したスピーチ入力情報がスピーチアクセスコマンドを含むか否かの判定がなされる。スピーチアクセスコマンドが前記受信したスピーチ入力情報に含まれていると判定された場合、車内システムの辞書切り替え部は、スピーチ認識部が現在使用中の辞書を、２つの語彙辞書のうちの第２の辞書に切り替える。スピーチアクセスコマンドが前記受信したスピーチ入力情報に含まれていないと判定された場合、辞書切り替え部は、現在使用中の辞書を、２つの語彙辞書のうちの第１の辞書に切り替える。車内システムのスピーチ認識部は、現在使用中の辞書を用いることによって前記受信したスピーチ入力情報に含まれているコマンドを認識することができる。

他の実施形態では、車内システムのスピーチ認識部は、２またはより多くの語彙辞書を含む。２またはより多くの語彙辞書の各々は、アプリケーションおよび／または動作モードごとに対応している。スピーチ入力情報を受信すると、スピーチ認識部は、多数のスピーチアクセスコマンドのうちの一つが前記受信したスピーチ入力情報に含まれているか否か判定する。車内システムが多数の動作モードのうちの任意の一つをとっている間、多数のスピーチアクセスコマンドの一つが前記受信したスピーチ入力情報に含まれていると判定された場合、車内システムの辞書切り替え部は、スピーチ認識部が現在使用中の辞書を、２またはより多くの語彙辞書のうち、多数のスピーチアクセスコマンドのうちの前記判定された１つに対応している辞書に切り替える。その結果、前記受信したスピーチ入力情報に含まれているコマンドは、現在使用中の辞書を用いるスピーチ認識部によって認識される。

いくつかの実施形態では、スピーチ認識部が、特定のアルゴリズムと対応している語彙辞書を用いてスピーチ入力情報を認識する場合には、多数の語彙辞書のいくつかは、スピーチ認識性能を補完、促進、または向上するために、前記した多数の語彙辞書に対応している特定の複数のアルゴリズムを有していてもよい。

≪図面の簡単な説明≫
上記で採り上げた、そしてその他の効果および特徴を得る方法を説明するために、より詳細な説明が以下に述べられており、そしてこの説明は、添付した図面で説明されている具体的な実施形態を参照することによって表現されるであろう。これらの図面が典型的な実施形態を描写したにすぎず、したがってその範囲を限定しないものであることを理解すれば、本発明の実施内容は、添付の図面を用いることでより具体的に、かつ、詳細に表現され、説明されるであろう。

計算装置が実装する車内システムの例を示す図である。２つの語彙辞書を有するスピーチ認識部を備える車内システムが実行する処理の例のフローチャートを示す図である。車内システムの表示装置上に表示されている場合に、車内システムのスピーチ認識部が用いる現在使用中の辞書の切り替えを確認する重ね合わせ画面の例を示す図である。２またはより多くの語彙辞書を有するスピーチ認識部を備える車内システムが実行する処理の例を示すフローチャートである。

≪詳細な説明≫
（概説）
スピーチ認識部を有するシステムおよび方法を提供する。スピーチ認識部は、２つの語彙辞書データベースを有することができる。前記した語彙辞書データベースの各々は、特定のモード用または特定のアプリケーション用として使用可能である。例えば、第１の語彙辞書データベースは、前記した第１の語彙辞書データベースに対応している第１の集合のスピーチコマンドを有する。前記した第１の集合のスピーチコマンドは、車内システムが第１のモードで動作している場合、または車内システムが第１のアプリケーションを実行している場合に用いられる。
ユーザは、スピーチ入力情報によって、第２の語彙辞書データベースに対応しているアクセスコマンドを提供することによって、第２の語彙辞書データベースに切り替えることができる。第２の語彙辞書データベースは、前記した第２の語彙辞書データベースに対応している第２の集合のスピーチコマンドを有する。前記した第２の集合のスピーチコマンドは、車内システムが第２のモードで動作している場合、または車内システムが第２のアプリケーションを実行している場合に用いられる。

他の実施形態では、スピーチ認識部は、２よりも多くの語彙辞書データベースを有することができる。前記した語彙辞書データベースの各々は、特定の動作モード用または特定のアプリケーション用として使用可能である。例えば、第１の語彙辞書データベースは、前記した第１の語彙辞書データベースに対応している第１の集合のスピーチコマンドを有する。前記した第１の集合のスピーチコマンドは、車内システムが第１のモードで動作している場合、または車内システムが第１のアプリケーションを実行している場合に用いられる。
第２の語彙辞書データベースは、前記した第２の語彙辞書データベースに対応している第２の集合のスピーチコマンドを有する。前記した第２の集合のスピーチコマンドは、車内システムが第２のモードで動作している場合、または車内システム第２のアプリケーションを実行している場合に用いられる。第３の語彙辞書データベースは、前記した第３の語彙辞書データベースに対応している第３の集合のスピーチコマンドを有する。前記した第３の集合のスピーチコマンドは、車内システムが第３のモードで動作している場合、または車内システムが第３のアプリケーションを実行している場合、などに用いられる。
ユーザは、（車内システムがＮ個の語彙辞書データベースを有している場合には、）スピーチ入力情報によって、第２の語彙辞書データベースから第Ｎ番目の語彙辞書データベースのなかから所望する１つに対応しているアクセスコマンドを提供することによって、第２の語彙辞書データベースから第Ｎ番目の語彙辞書データベースのなかから任意のものに切り替えることができる。車内システムが動作しているときのモード、または車内システムが現在実行中のアプリケーションがどれであるか、ということに関係なく、ユーザは、スピーチ入力情報によって、第２の語彙辞書データベースから第Ｎ番目の語彙辞書データベースのなかから所望する１つに対応しているアクセスコマンドを提供することによって、第２の語彙辞書データベースから第Ｎ番目の語彙辞書データベースのなかから前記した所望する１つに切り替えることができる。いくつかの実施形態では、スピーチ入力情報によってアクセスコマンドが１つも提供されない場合には、スピーチ認識部が第１の語彙辞書データベースを用いることによって、スピーチ入力情報を認識してもよい。

（装置の具体例）
図１は、計算装置に実装されている車内システム１００の実施形態の例を示す機能ブロック図である。車内スピーチシステム１００は、プロセッサ１０２と、メモリ１０４と、入力装置１０６と、出力装置１０８と、スピーチ認識部１１０と、辞書切り替え部１１４とを備える。

プロセッサ１０２は、１または複数の標準的なプロセッサであって、有形媒体に記憶されている命令文を解釈して実行する。前記有形媒体は、例えば、メモリ１０４、メディアカード、フラッシュＲＡＭ、またはその他の有形媒体である。
メモリ１０４は、ＲＡＭ（Random Access Memory）または他の種類の動的記憶装置、およびＲＯＭ（Read Only Memory）または他の種類の静的記憶装置を含み、プロセッサ１０２による実行のための情報および命令文を記憶する。ＲＡＭまたは他の種類の動的記憶装置は、命令文および、プロセッサ１０２による命令文の実行中に用いられる一時的な変数または他の中間情報を記憶する。ＲＯＭまたは他の種類の静的記憶装置は、プロセッサ１０２用の静的情報および命令文を記憶する。

入力装置１０６は、スピーチ入力用のマイクロフォンまたは他の装置を含む。出力装置１０８は、１または複数のスピーカ、ヘッドセット、または音出力用の他の音再生装置、出力表示用の表示装置、および／または他の種類の出力装置を含む。

スピーチ認識部１１０は、スピーチ入力情報を認識し、前記認識したスピーチ入力情報をテキストに変換する。スピーチ認識部１１０は、２またはより多くの語彙辞書データベース（以下、“語彙辞書”と称する）１１２を含む。語彙辞書１１２は、複数の口頭コマンドに合致する複数の音声データを含む。いくつかの実施形態では、１または複数の語彙辞書１１２は、音楽に関する情報を含むことができる。例えば、曲名、アルバム名、アーティスト名、ジャンル、およびその他の情報に関する音声データを含むことができる。いくつかの実施形態では、スピーチ認識部１１０は、プロセッサ１０２が実行する１または複数のソフトウェアモジュールを備えることができる。

辞書切り替え部１１４は、複数ある語彙辞書１１２の１つを他の語彙辞書１１２に切り替える。いくつかの実施形態では、辞書切り替え部１１４は、１または複数のソフトウェアモジュールを備えてよい。いくつかの実施形態では、前記ソフトウェアモジュールは、スピーチ認識部１１０の一部として構成することができる。他の実施形態では、辞書切り替え部１１４は、スピーチ認識部１１０と分離することができる。

図２は、２つの語彙辞書を有する実施形態における処理の例を示すフローチャートである。複数の語彙辞書の一つである第１の語彙辞書は、複数の基本コマンドに合致する複数の音声データを含む。一実施形態では、前記した基本コマンドは、１または複数の気候制御コマンド、音響システムコマンド、および／またはナビゲーションコマンド、それから他の種類のコマンドを含む。複数の語彙辞書の一つである第２の語彙辞書は、１または複数の曲名、アルバム名、アーティスト名、および／またはジャンル、それから他の情報に合致する複数の音声データを含む。

本処理は、はじめに車内システム１００が任意のモードで動作している間に、または車内システムの表示装置が任意の画面を表示している間に、車内システム１００の入力装置１０６がスピーチ入力情報を受信する（処理２０２）。
その後、スピーチ認識部１１０は、スピーチアクセスコマンドが前記受信したスピーチ入力情報に含まれているか否か判定する（処理２０４）。本実施形態では、スピーチアクセスコマンドは、特定の言葉または特定の語句を含むものであり、例えば、“曲名再生”、“アルバム名再生”、“アーティスト一覧表示”、などがある。例えば、一実施形態では、ユーザは、曲名を含む語彙辞書を求めることを意味する“曲名再生”という語句を発することができる。

受信したスピーチ入力情報は、＜複数の語彙辞書の一つである第２の語彙辞書を求めることを意味するスピーチアクセスコマンド＞＜複数の語彙辞書の一つである第２の語彙辞書に含まれるコマンド＞といった形式をとることができる。したがって、前記した実施形態において、ユーザは、“曲名再生。ベートーヴェンの交響曲第５番。”と発することができる。ここで、“曲名再生”は、複数の語彙辞書の一つである第２の語彙辞書を求めることを意味するスピーチアクセスコマンドであり、“ベートーヴェンの交響曲第５番”は、スピーチ認識部１１０が複数の語彙辞書の一つである第２の語彙辞書を用いて認識することになる曲名である。

スピーチ認識部１１０は、受信したスピーチ入力情報がスピーチアクセスコマンドを含むと判定した場合、辞書切り替え部１１４は、現在使用中の辞書を語彙辞書Ｂに切り替える（処理２０６）。その後、車内システム１００は、語彙辞書Ｂへの切り替えを確認する（処理２０８）。しかしながら、いくつかの他の実施形態では、車内システム１００は、語彙辞書Ｂへの切り替えを確認しなくともよい。

車内システム１００は、多数の異なる方法で前記した切り替えを確認することができる。例えば、語彙辞書Ｂが曲名に合致する音声データを含む場合、車内システム１００は、音再生出力装置によって、“曲名を言ってください”などのスピーチ生成プロンプト、または他のスピーチ生成プロンプトを出力することができる。いくつかの実施形態では、車内システム１００は、表示装置に重ね合わせ画面を表示することによって語彙辞書Ｂへの切り替えを確認してもよい。
図３は、多数のコマンドを表示する重ね合わせ画面の例を示している。前記したコマンドは、語彙辞書Ｂを用いるスピーチ認識部１１０が認識する。図３に示すように、例示した重ね合わせ画面を表示することによって、車内システム１００は、スピーチアクセスコマンドを認識したことを確認している。

図３に示すように、語彙辞書Ｂを用いるスピーチ認識部１１０が認識するコマンドは、“アーティスト再生”続いてアーティスト名、“トラック再生”続いてトラック名、“アルバム再生”続いてアルバム名、“ジャンル再生”続いてジャンル名、“プレイリスト再生”続いてプレイリスト名、“ジャンル検索”続いてジャンル名、“アーティスト検索”続いてアーティスト名、“アルバム検索”続いてアルバム名、とすることができる。他の実施形態では、スピーチ認識部１１０は、語彙辞書Ｂを用いて他のコマンドを認識することができる。

車内システム１００が語彙辞書Ｂへの切り替えを確認した後、スピーチ認識部１１０は、受信したスピーチ入力情報に含まれる語彙辞書Ｂのコマンドを認識することに対応する任意の処理を実行する（処理２１０）。場合によっては、スピーチ認識部１１０は、語彙辞書Ｂのコマンドを認識することに対応する処理を実行しなくてもよい。

その後、車内システム１００は、処理２０２を再度実行する。

もし、処理２０４を実行中に、スピーチ認識部１１０が、受信したスピーチ入力情報がスピーチアクセスコマンドを含まないと判定した場合、辞書切り替え部１１４は、語彙辞書Ａに切り替える（処理２１２）。その後、スピーチ認識部１１０は、受信したスピーチ入力情報に含まれる語彙辞書Ａのコマンドを認識することに対応する任意の処理を実行する（処理２１４）。

前記した実施形態は、２つの語彙辞書を用いる。しかしながら、他の実施形態では、スピーチ認識部１１０が２またはより多くの語彙辞書を用いることができる。語彙辞書の各々は、車内システム１００の動作モードごと、または車内システム１００が実行するアプリケーションごとに対応している。例えば、いくつかの実施形態において、語彙辞書Ａは、基本スピーチコマンドに合致する音声データを含む。また、語彙辞書Ｂは、天候制御モードおよび／または第１のアプリケーションのための天候制御コマンドに合致する音声データを含む。
また、語彙辞書Ｃは、ナビゲーション制御モードおよび／または第２のアプリケーションのためのコマンドに合致する音声データを含む。また、語彙辞書Ｃは、音響制御モードおよび／または第３のアプリケーションに合致する音声データを含む。他の実施形態では、スピーチ認識部１１０は、さらに多くの語彙辞書を有してもよいし、および／または他のモードおよび他のアプリケーションのための語彙辞書を有してもよい。

図４は、スピーチ認識部１１０が２またはより多くの語彙辞書を有する実施形態における処理の例を示すフローチャートである。本処理は、はじめに車内システム１００が任意のモードで動作している間に、車内システム１００が複数の語彙辞書の一つに対応している任意のアプリケーションを実行している間に、または車内システムの表示装置が任意の画面を表示している間に、車内システム１００がスピーチ入力情報を受信する（処理４０２）。その後、スピーチ認識部１１０は、多数のスピーチアクセスコマンドの一つが前記受信したスピーチ入力情報に含まれているか否か判定する（処理４０４）。本実施形態では、複数のスピーチアクセスコマンドの各々は、特定の言葉または特定の語句を含むことができ、そのような言葉または語句としては例えば、“曲名再生”、“天候制御”、“ナビゲーション制御”、などがある。

もし、処理４０４を実行中に、スピーチ認識部１１０は、受信したスピーチ入力情報が多数のスピーチアクセスコマンドのうちの一つを含むと判定した場合、辞書切り替え部１１４は、現在使用中の辞書を、多数のスピーチアクセスコマンドのうちの一つに合致する２またはより多くの語彙辞書のうちの一つに切り替える（処理４０６）。その後、車内システム１００は、２またはより多くの語彙辞書のうちの一つへの切り替えを確認する（処理４０８）。いくつかの実施形態では、車内システム１００は、語彙辞書Ｂへの切り替えを確認しなくてもよい。

前記した切り替えを確認する実施形態では、車内システム１００は、多数の異なる方法で前記した切り替えを確認することができる。例えば、前記した２またはより多くの語彙辞書のうちの一つが曲名に合致する音声データを含む場合、車内システム１００は、音再生出力装置によって、“曲名を言ってください”などのスピーチ生成プロンプト、または他のスピーチ生成プロンプトを出力することができる。いくつかの実施形態では、車内システム１００は、表示装置に重ね合わせ画面、例えば図３に例示した重ね合わせ画面を表示することによって前記した２またはより多くの語彙辞書のうちの一つへの切り替えを確認してもよい。いくつかの実施形態では、異なる複数の重ね合わせ画面の各々は、語彙辞書ごとに対応付けることができる。例示した重ね合わせ画面を表示することによって、車内システム１００は、多数のスピーチアクセスコマンドのうちの一つを認識したことを確認している。

２またはより多くの語彙辞書の一つへの切り替えを確認した後、スピーチ認識部１１０は、受信したスピーチ入力情報に含まれるコマンドを認識することに対応する任意の処理を実行する（処理４１０）。場合によっては、スピーチ認識部１１０は、前記コマンドを認識することに対応する処理を実行しなくてもよい。

その後、車内システム１００は、処理４０２を再度実行する。

もし、処理４０４を実行中に、スピーチ認識部１１０が、受信したスピーチ入力情報が多数のスピーチアクセスコマンドのうちの一つを含まないと判定した場合、辞書切り替え部１１４は、現在使用中の辞書を語彙辞書Ａに切り替える（処理４１２）。その後、スピーチ認識部１１０は、受信したスピーチ入力情報に含まれる語彙辞書Ａのコマンドを認識することに対応する任意の処理を実行する（処理４１４）。語彙辞書Ａは、基本コマンドに合致する音声データを含んでよい。

（その他）
前記した実施形態の変形例では、車内システム１００が少なくともいくつかの語彙辞書のうちの一つに対応しているモードで動作している間に、または、車内システム１００が少なくともいくつかの語彙辞書のうちの一つに対応しているアプリケーションを実行している間に用いられ、スピーチ認識性能を高め、または改善する特定のアルゴリズムと、少なくともいくつかの語彙辞書とを一緒に用いることができる。
例えば、スピーチ認識部１１０は、少なくともいくつかの語彙辞書を補完することで、スピーチ入力情報に含まれる誤って発音された特定のスピーチコマンドを認識することができる。前記した補完された語彙辞書の各々は、他の語彙辞書とは区別して補完することができる。他の実施形態では、他のアルゴリズムを用いたり機能追加・拡張を行ったりすることで、語彙辞書のいくつかまたはすべてに関するスピーチ認識性能を向上させることができる。

前記した実施形態では、受信したスピーチ入力情報のなかにスピーチアクセスコマンドが何ら検出されなかった場合、スピーチ認識部１１０は、語彙辞書Ａを用いて前記受信したスピーチ入力情報を認識することができる。他の実施形態では、特定の語彙辞書に切り替えられた後、スピーチ認識部１１０は、前記した特定の語彙辞書を用いて、受信したスピーチ入力情報のなかにスピーチアクセスコマンドを検出するまで、受信したスピーチ入力情報の認識を継続し、その結果、他の特定の語彙辞書に切り替える。

（まとめ）
本発明の発明特定事項は、構造的特徴および／または方法論的処理が明確になるような言語で説明されたものであるけれども、添付した特許請求の範囲の請求項における発明特定事項は、これまでに述べた具体的な特徴または処理に限定されるわけでは必ずしもないことを理解すべきである。むしろ、これまでに述べた具体的な特徴または処理は、請求項を説明するための形式の一例として開示されている。

上記した説明は、具体的な詳細を含むものであるが、決して請求項を限定するものとして解釈してはならない。これまでに説明した実施形態の他の態様は、本明細書での開示内容の範囲の一部である。また、図２および図４のフローチャートで説明される処理は、他の実施形態においては異なる順序で実行することができ、より多くの処理を含むことができたり、またはより少ない処理で済ませたりすることができる。さらに、他の実施形態では、他の装置または部品が上記の処理の一部を実行してもよい。したがって、添付した特許請求の範囲の請求項およびそれらの均等物は、いかなる具体例が示されたとしてもそれら以上に、本発明を定義する。

１００車内システム
１１０スピーチ認識部
１１２語彙辞書
１１４辞書切り替え部

Claims

ユーザからのスピーチ入力情報を認識するスピーチ認識部と、
前記スピーチ認識部が前記スピーチ入力情報を認識する場合に用いられ、各々がアプリケーションごとに対応している複数の語彙辞書と、
前記車内システムが複数のモードのうち任意の一つで動作している間、ユーザから発せられたスピーチアクセスコマンドを前記スピーチ認識部が認識することに応答して、前記複数の語彙辞書のうち現在使用中の一つを切り替える辞書切り替え部と、を備える
ことを特徴とする車内システム。
さらに、表示装置を備え、
前記車内システムは、前記表示装置に表示するための複数の画面を有し、
前記複数の画面のうちいずれが前記表示装置に現在表示されているか、ということに関係なく、前記スピーチ認識部が前記発せられたスピーチアクセスコマンドを認識することに応答して、前記辞書切り替え部は、前記複数の語彙辞書のうち現在使用中の一つを切り替える
ことを特徴とする請求項１に記載の車内システム。
前記辞書切り替え部が前記複数の語彙辞書のうち現在使用中の一つを切り替える場合、前記車内システムは、前記表示装置に重ね合わせ画面を表示する
ことを特徴とする請求項２に記載の車内システム。
前記スピーチ認識部は、前記複数の語彙辞書のうち現在使用中の一つに基づいた一組の特定のアルゴリズムを選択的に用いて、スピーチ認識精度を向上させる
ことを特徴とする請求項１に記載の車内システム。
前記スピーチ認識部は、前記スピーチアクセスコマンドを認識したことの確認がユーザに提供されるようにする
ことを特徴とする請求項１に記載の車内システム。
前記確認は、視覚的な確認を含む
ことを特徴とする請求項５に記載の車内システム。
前記複数の語彙辞書の少なくとも一つは、曲名に合致する音声データを含む
ことを特徴とする請求項１に記載の車内システム。
スピーチ認識部を備える車内システムが実行し、前記スピーチ認識部が用いる複数の語彙辞書のうち現在使用中の一つを切り替える方法であって、
前記方法は、
受信したスピーチ入力情報に含まれるスピーチアクセスコマンドを認識するステップと、
前記認識されたスピーチアクセスコマンドに基づいて、前記スピーチ認識部が用いる前記複数の語彙辞書のうち前記した現在使用中の一つを切り替えるステップと、を有し、
前記方法は、前記車内システムが実行する
ことを特徴とする方法。
前記複数の語彙辞書のうち前記切り替えられる現在使用中の一つは、複数のスピーチアクセスコマンドのうちのいずれが認識されるか、ということに基づいている
ことを特徴とする請求項８に記載の方法。
さらに、前記スピーチアクセスコマンドを検出したことの確認を提供するステップ、を有する
ことを特徴とする請求項８に記載の方法。
前記確認を提供するステップは、さらに、
前記車内システムの表示装置に重ね合わせ画面を表示するステップ、を有する
ことを特徴とする請求項１０に記載の方法。
前記確認を提供するステップは、さらに、
前記スピーチアクセスコマンドを認識したことのスピーチ生成による確認を提供するステップ、を有する
ことを特徴とする請求項１０に記載の方法。
さらに、
各々が前記複数の語彙辞書ごとに対応している複数のモードで動作するステップ、を有し、
前記複数のモードのいずれが現在使用可能であるか、ということとは無関係に、前記スピーチアクセスコマンドは、前記スピーチ認識部によって認識可能である
ことを特徴とする請求項８に記載の方法。
計算装置のプロセッサが実行するための命令文が記録される有形機械読み取り可能媒体であって、
前記プロセッサが前記命令文を実行する場合、前記計算装置は、
スピーチアクセスコマンドを含むスピーチ入力情報を受信するステップと、
前記スピーチアクセスコマンドを検出するステップと、
前記スピーチアクセスコマンドの検出に応答して、スピーチ認識のために、現在使用中の語彙辞書を切り替えるステップと、を有する方法を実行する
ことを特徴とする有形機械読み取り可能媒体。
前記スピーチアクセスコマンドは、前記計算装置が認識可能な複数のスピーチアクセスコマンドの一つであり、
前記複数のスピーチアクセスコマンドのうちの任意の一つを認識することで、前記計算装置は、複数の動作モードのうち合致する一つをとる
ことを特徴とする請求項１４に記載の有形機械読み取り可能媒体。
前記方法は、さらに、
前記計算装置のユーザに対し、前記スピーチアクセスコマンドの検出を確認するステップ、を有する
ことを特徴とする請求項１４に記載の有形機械読み取り可能媒体。
前記スピーチアクセスコマンドの検出を確認するステップは、
前記計算装置の表示装置に重ね合わせ画面を表示するステップ、を有する
ことを特徴とする請求項１６に記載の有形機械読み取り可能媒体。
前記スピーチアクセスコマンドは、前記計算装置が認識可能である複数のスピーチアクセスコマンドのうちの一つであり、
前記方法は、さらに、
認識される前記複数のスピーチアクセスコマンドのうちの一つに基づいた複数の重ね合わせ画面のうちの一つを、前記計算装置の表示装置に表示するステップ、を有する
ことを特徴とする請求項１４に記載の有形機械読み取り可能媒体。
前記スピーチアクセスコマンドは、前記計算装置が認識可能である複数のスピーチアクセスコマンドの一つであり、
前記方法は、さらに、
認識される前記複数のスピーチアクセスコマンドのうちの一つに基づいた複数のスピーチ生成プロンプトのうちの一つを出力することで、前記スピーチアクセスコマンドを認識したことを確認するステップと、を有する
ことを特徴とする請求項１４に記載の有形機械読み取り可能媒体。