JP2013512476A - 複数の辞書を用いたスピーチ認識 - Google Patents

複数の辞書を用いたスピーチ認識 Download PDF

Info

Publication number
JP2013512476A
JP2013512476A JP2012542019A JP2012542019A JP2013512476A JP 2013512476 A JP2013512476 A JP 2013512476A JP 2012542019 A JP2012542019 A JP 2012542019A JP 2012542019 A JP2012542019 A JP 2012542019A JP 2013512476 A JP2013512476 A JP 2013512476A
Authority
JP
Japan
Prior art keywords
speech
vehicle system
vocabulary
access command
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012542019A
Other languages
English (en)
Inventor
フアン、リッチー
ヤマモト、スチュアート、エム.
キルシュ、デイヴィッド、エム.
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of JP2013512476A publication Critical patent/JP2013512476A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Navigation (AREA)

Abstract

スピーチ認識性能を向上するために、スピーチ認識部を備える車内システムおよびその方法を提供する。スピーチ認識部は、多数の語彙辞書を有している。前記した語彙辞書の各々は、複数のコマンドに対応している音声データを含む。車内システムがスピーチ入力情報を受信すると、スピーチ認識部は、前記受信したスピーチ入力情報がスピーチアクセスコマンドを含むか否か判定する。前記受信したスピーチ入力情報がスピーチアクセスコマンドを含むと判定される場合、辞書切り替え部は、スピーチ認識部が現在使用中の辞書を、前記判定があったスピーチアクセスコマンドに対応している語彙辞書に切り替える。そうでない場合、辞書切り替え部は、前記した現在使用中の辞書を、第1の語彙辞書に切り替える。前記受信したスピーチ入力情報に含まれるコマンドは、前記切り替えられた後の現在使用中の辞書を用いているスピーチ認識部が認識する。
【選択図】図4

Description

≪関連出願の相互参照≫
本願は、2009年12月1日に出願された米国実用新案出願第12/628,476号を基礎として優先権を主張するものであり、基礎となるこの出願の全体は、参照することにより本明細書中に組み込まれている。
≪背景≫
(発明の技術分野)
本内容は、複数の語彙辞書データベースを利用するためのスピーチ認識システムおよびその方法に関する。具体的には、本内容は、スピーチ認識システムが用いる複数の語彙辞書データベースの中から1つを選択することに関する。
(従来技術に関する説明)
スピーチ認識システムは、1または複数の語彙辞書データベースを用いて、ユーザが述べた言葉を音声により照合する。既存のスピーチ認識システム内のスピーチ認識制御は、語彙辞書データベースの容量および利用可能なコマンドの種類によって制限されてしまう。一般的には、語彙辞書データベースの容量が増大すると、スピーチ認識システムの認識精度は低下する。このことは、スピーチ認識システムで用いられる既存のスピーチコマンドと似たように聴こえる音楽の曲名の多様さに起因して音楽の曲名がスピーチコマンドに含まれている場合に特に当てはまる。
いくつかの既存のスピーチ認識システムは、多数の語彙辞書データベースを利用して認識精度を向上させている。1つのスピーチ認識システムに関していえば、そのシステムは、少なくとも1つの絞り込み条件によって分類される階層構造からなる多数の辞書を用いる。例えば、前記した1つのスピーチ認識システムは、小項目単位からなる多数の逐次的なスピーチ認識入力ステップを実行すると、スピーチ入力プロンプトに応じて利用される複数の異なる辞書によって適切な一続きの言葉を認識する。
他の既存のスピーチ認識システムに関していえば、多数のスピーチ認識エンジンは、異なる認識モデルおよび異なる辞書データベースを用いる複数のスピーチ認識エンジンの各々と並行して動作することができる。複数のスピーチ認識エンジンのいずれを用いるかという選択は、予め決めてもよいし、ユーザからの入力情報の内容に基づいて動的に選択されてもよい。認識モデルは階層化することで、適切なモデルを選択することを単純化できる。
このような事情に鑑みて、本発明は、スピーチ認識精度を向上するために、スピーチ認識部を有する車内システムおよびその方法を提供することを目的とする。
≪要約≫
この要約は、複数ある概念から一つ選択した概念を単純化して紹介するものであり、その概念は、下記の詳細な説明にてさらに説明されている。この要約は、請求項の発明特定事項のうち重要な特徴または本質的な特徴を特定することを意図するものでもないし、請求項の発明特定事項の範囲を限定するために用いられることを意図するものでもない。
一実施形態では、スピーチ認識部は、2つの語彙辞書を含む。2つの語彙辞書の各々は、コマンドの種類ごとに対応している音声データを含む。車内システムがスピーチ入力情報を受信すると、前記受信したスピーチ入力情報がスピーチアクセスコマンドを含むか否かの判定がなされる。スピーチアクセスコマンドが前記受信したスピーチ入力情報に含まれていると判定された場合、車内システムの辞書切り替え部は、スピーチ認識部が現在使用中の辞書を、2つの語彙辞書のうちの第2の辞書に切り替える。スピーチアクセスコマンドが前記受信したスピーチ入力情報に含まれていないと判定された場合、辞書切り替え部は、現在使用中の辞書を、2つの語彙辞書のうちの第1の辞書に切り替える。車内システムのスピーチ認識部は、現在使用中の辞書を用いることによって前記受信したスピーチ入力情報に含まれているコマンドを認識することができる。
他の実施形態では、車内システムのスピーチ認識部は、2またはより多くの語彙辞書を含む。2またはより多くの語彙辞書の各々は、アプリケーションおよび/または動作モードごとに対応している。スピーチ入力情報を受信すると、スピーチ認識部は、多数のスピーチアクセスコマンドのうちの一つが前記受信したスピーチ入力情報に含まれているか否か判定する。車内システムが多数の動作モードのうちの任意の一つをとっている間、多数のスピーチアクセスコマンドの一つが前記受信したスピーチ入力情報に含まれていると判定された場合、車内システムの辞書切り替え部は、スピーチ認識部が現在使用中の辞書を、2またはより多くの語彙辞書のうち、多数のスピーチアクセスコマンドのうちの前記判定された1つに対応している辞書に切り替える。その結果、前記受信したスピーチ入力情報に含まれているコマンドは、現在使用中の辞書を用いるスピーチ認識部によって認識される。
いくつかの実施形態では、スピーチ認識部が、特定のアルゴリズムと対応している語彙辞書を用いてスピーチ入力情報を認識する場合には、多数の語彙辞書のいくつかは、スピーチ認識性能を補完、促進、または向上するために、前記した多数の語彙辞書に対応している特定の複数のアルゴリズムを有していてもよい。
≪図面の簡単な説明≫
上記で採り上げた、そしてその他の効果および特徴を得る方法を説明するために、より詳細な説明が以下に述べられており、そしてこの説明は、添付した図面で説明されている具体的な実施形態を参照することによって表現されるであろう。これらの図面が典型的な実施形態を描写したにすぎず、したがってその範囲を限定しないものであることを理解すれば、本発明の実施内容は、添付の図面を用いることでより具体的に、かつ、詳細に表現され、説明されるであろう。
計算装置が実装する車内システムの例を示す図である。 2つの語彙辞書を有するスピーチ認識部を備える車内システムが実行する処理の例のフローチャートを示す図である。 車内システムの表示装置上に表示されている場合に、車内システムのスピーチ認識部が用いる現在使用中の辞書の切り替えを確認する重ね合わせ画面の例を示す図である。 2またはより多くの語彙辞書を有するスピーチ認識部を備える車内システムが実行する処理の例を示すフローチャートである。
≪詳細な説明≫
(概説)
スピーチ認識部を有するシステムおよび方法を提供する。スピーチ認識部は、2つの語彙辞書データベースを有することができる。前記した語彙辞書データベースの各々は、特定のモード用または特定のアプリケーション用として使用可能である。例えば、第1の語彙辞書データベースは、前記した第1の語彙辞書データベースに対応している第1の集合のスピーチコマンドを有する。前記した第1の集合のスピーチコマンドは、車内システムが第1のモードで動作している場合、または車内システムが第1のアプリケーションを実行している場合に用いられる。
ユーザは、スピーチ入力情報によって、第2の語彙辞書データベースに対応しているアクセスコマンドを提供することによって、第2の語彙辞書データベースに切り替えることができる。第2の語彙辞書データベースは、前記した第2の語彙辞書データベースに対応している第2の集合のスピーチコマンドを有する。前記した第2の集合のスピーチコマンドは、車内システムが第2のモードで動作している場合、または車内システムが第2のアプリケーションを実行している場合に用いられる。
他の実施形態では、スピーチ認識部は、2よりも多くの語彙辞書データベースを有することができる。前記した語彙辞書データベースの各々は、特定の動作モード用または特定のアプリケーション用として使用可能である。例えば、第1の語彙辞書データベースは、前記した第1の語彙辞書データベースに対応している第1の集合のスピーチコマンドを有する。前記した第1の集合のスピーチコマンドは、車内システムが第1のモードで動作している場合、または車内システムが第1のアプリケーションを実行している場合に用いられる。
第2の語彙辞書データベースは、前記した第2の語彙辞書データベースに対応している第2の集合のスピーチコマンドを有する。前記した第2の集合のスピーチコマンドは、車内システムが第2のモードで動作している場合、または車内システム第2のアプリケーションを実行している場合に用いられる。第3の語彙辞書データベースは、前記した第3の語彙辞書データベースに対応している第3の集合のスピーチコマンドを有する。前記した第3の集合のスピーチコマンドは、車内システムが第3のモードで動作している場合、または車内システムが第3のアプリケーションを実行している場合、などに用いられる。
ユーザは、(車内システムがN個の語彙辞書データベースを有している場合には、)スピーチ入力情報によって、第2の語彙辞書データベースから第N番目の語彙辞書データベースのなかから所望する1つに対応しているアクセスコマンドを提供することによって、第2の語彙辞書データベースから第N番目の語彙辞書データベースのなかから任意のものに切り替えることができる。車内システムが動作しているときのモード、または車内システムが現在実行中のアプリケーションがどれであるか、ということに関係なく、ユーザは、スピーチ入力情報によって、第2の語彙辞書データベースから第N番目の語彙辞書データベースのなかから所望する1つに対応しているアクセスコマンドを提供することによって、第2の語彙辞書データベースから第N番目の語彙辞書データベースのなかから前記した所望する1つに切り替えることができる。いくつかの実施形態では、スピーチ入力情報によってアクセスコマンドが1つも提供されない場合には、スピーチ認識部が第1の語彙辞書データベースを用いることによって、スピーチ入力情報を認識してもよい。
(装置の具体例)
図1は、計算装置に実装されている車内システム100の実施形態の例を示す機能ブロック図である。車内スピーチシステム100は、プロセッサ102と、メモリ104と、入力装置106と、出力装置108と、スピーチ認識部110と、辞書切り替え部114とを備える。
プロセッサ102は、1または複数の標準的なプロセッサであって、有形媒体に記憶されている命令文を解釈して実行する。前記有形媒体は、例えば、メモリ104、メディアカード、フラッシュRAM、またはその他の有形媒体である。
メモリ104は、RAM(Random Access Memory)または他の種類の動的記憶装置、およびROM(Read Only Memory)または他の種類の静的記憶装置を含み、プロセッサ102による実行のための情報および命令文を記憶する。RAMまたは他の種類の動的記憶装置は、命令文および、プロセッサ102による命令文の実行中に用いられる一時的な変数または他の中間情報を記憶する。ROMまたは他の種類の静的記憶装置は、プロセッサ102用の静的情報および命令文を記憶する。
入力装置106は、スピーチ入力用のマイクロフォンまたは他の装置を含む。出力装置108は、1または複数のスピーカ、ヘッドセット、または音出力用の他の音再生装置、出力表示用の表示装置、および/または他の種類の出力装置を含む。
スピーチ認識部110は、スピーチ入力情報を認識し、前記認識したスピーチ入力情報をテキストに変換する。スピーチ認識部110は、2またはより多くの語彙辞書データベース(以下、“語彙辞書”と称する)112を含む。語彙辞書112は、複数の口頭コマンドに合致する複数の音声データを含む。いくつかの実施形態では、1または複数の語彙辞書112は、音楽に関する情報を含むことができる。例えば、曲名、アルバム名、アーティスト名、ジャンル、およびその他の情報に関する音声データを含むことができる。いくつかの実施形態では、スピーチ認識部110は、プロセッサ102が実行する1または複数のソフトウェアモジュールを備えることができる。
辞書切り替え部114は、複数ある語彙辞書112の1つを他の語彙辞書112に切り替える。いくつかの実施形態では、辞書切り替え部114は、1または複数のソフトウェアモジュールを備えてよい。いくつかの実施形態では、前記ソフトウェアモジュールは、スピーチ認識部110の一部として構成することができる。他の実施形態では、辞書切り替え部114は、スピーチ認識部110と分離することができる。
図2は、2つの語彙辞書を有する実施形態における処理の例を示すフローチャートである。複数の語彙辞書の一つである第1の語彙辞書は、複数の基本コマンドに合致する複数の音声データを含む。一実施形態では、前記した基本コマンドは、1または複数の気候制御コマンド、音響システムコマンド、および/またはナビゲーションコマンド、それから他の種類のコマンドを含む。複数の語彙辞書の一つである第2の語彙辞書は、1または複数の曲名、アルバム名、アーティスト名、および/またはジャンル、それから他の情報に合致する複数の音声データを含む。
本処理は、はじめに車内システム100が任意のモードで動作している間に、または車内システムの表示装置が任意の画面を表示している間に、車内システム100の入力装置106がスピーチ入力情報を受信する(処理202)。
その後、スピーチ認識部110は、スピーチアクセスコマンドが前記受信したスピーチ入力情報に含まれているか否か判定する(処理204)。本実施形態では、スピーチアクセスコマンドは、特定の言葉または特定の語句を含むものであり、例えば、“曲名再生”、“アルバム名再生”、“アーティスト一覧表示”、などがある。例えば、一実施形態では、ユーザは、曲名を含む語彙辞書を求めることを意味する“曲名再生”という語句を発することができる。
受信したスピーチ入力情報は、<複数の語彙辞書の一つである第2の語彙辞書を求めることを意味するスピーチアクセスコマンド><複数の語彙辞書の一つである第2の語彙辞書に含まれるコマンド>といった形式をとることができる。したがって、前記した実施形態において、ユーザは、“曲名再生。ベートーヴェンの交響曲第5番。”と発することができる。ここで、“曲名再生”は、複数の語彙辞書の一つである第2の語彙辞書を求めることを意味するスピーチアクセスコマンドであり、“ベートーヴェンの交響曲第5番”は、スピーチ認識部110が複数の語彙辞書の一つである第2の語彙辞書を用いて認識することになる曲名である。
スピーチ認識部110は、受信したスピーチ入力情報がスピーチアクセスコマンドを含むと判定した場合、辞書切り替え部114は、現在使用中の辞書を語彙辞書Bに切り替える(処理206)。その後、車内システム100は、語彙辞書Bへの切り替えを確認する(処理208)。しかしながら、いくつかの他の実施形態では、車内システム100は、語彙辞書Bへの切り替えを確認しなくともよい。
車内システム100は、多数の異なる方法で前記した切り替えを確認することができる。例えば、語彙辞書Bが曲名に合致する音声データを含む場合、車内システム100は、音再生出力装置によって、“曲名を言ってください”などのスピーチ生成プロンプト、または他のスピーチ生成プロンプトを出力することができる。いくつかの実施形態では、車内システム100は、表示装置に重ね合わせ画面を表示することによって語彙辞書Bへの切り替えを確認してもよい。
図3は、多数のコマンドを表示する重ね合わせ画面の例を示している。前記したコマンドは、語彙辞書Bを用いるスピーチ認識部110が認識する。図3に示すように、例示した重ね合わせ画面を表示することによって、車内システム100は、スピーチアクセスコマンドを認識したことを確認している。
図3に示すように、語彙辞書Bを用いるスピーチ認識部110が認識するコマンドは、“アーティスト再生”続いてアーティスト名、“トラック再生”続いてトラック名、“アルバム再生”続いてアルバム名、“ジャンル再生”続いてジャンル名、“プレイリスト再生”続いてプレイリスト名、“ジャンル検索”続いてジャンル名、“アーティスト検索”続いてアーティスト名、“アルバム検索”続いてアルバム名、とすることができる。他の実施形態では、スピーチ認識部110は、語彙辞書Bを用いて他のコマンドを認識することができる。
車内システム100が語彙辞書Bへの切り替えを確認した後、スピーチ認識部110は、受信したスピーチ入力情報に含まれる語彙辞書Bのコマンドを認識することに対応する任意の処理を実行する(処理210)。場合によっては、スピーチ認識部110は、語彙辞書Bのコマンドを認識することに対応する処理を実行しなくてもよい。
その後、車内システム100は、処理202を再度実行する。
もし、処理204を実行中に、スピーチ認識部110が、受信したスピーチ入力情報がスピーチアクセスコマンドを含まないと判定した場合、辞書切り替え部114は、語彙辞書Aに切り替える(処理212)。その後、スピーチ認識部110は、受信したスピーチ入力情報に含まれる語彙辞書Aのコマンドを認識することに対応する任意の処理を実行する(処理214)。
その後、車内システム100は、処理202を再度実行する。
前記した実施形態は、2つの語彙辞書を用いる。しかしながら、他の実施形態では、スピーチ認識部110が2またはより多くの語彙辞書を用いることができる。語彙辞書の各々は、車内システム100の動作モードごと、または車内システム100が実行するアプリケーションごとに対応している。例えば、いくつかの実施形態において、語彙辞書Aは、基本スピーチコマンドに合致する音声データを含む。また、語彙辞書Bは、天候制御モードおよび/または第1のアプリケーションのための天候制御コマンドに合致する音声データを含む。
また、語彙辞書Cは、ナビゲーション制御モードおよび/または第2のアプリケーションのためのコマンドに合致する音声データを含む。また、語彙辞書Cは、音響制御モードおよび/または第3のアプリケーションに合致する音声データを含む。他の実施形態では、スピーチ認識部110は、さらに多くの語彙辞書を有してもよいし、および/または他のモードおよび他のアプリケーションのための語彙辞書を有してもよい。
図4は、スピーチ認識部110が2またはより多くの語彙辞書を有する実施形態における処理の例を示すフローチャートである。本処理は、はじめに車内システム100が任意のモードで動作している間に、車内システム100が複数の語彙辞書の一つに対応している任意のアプリケーションを実行している間に、または車内システムの表示装置が任意の画面を表示している間に、車内システム100がスピーチ入力情報を受信する(処理402)。その後、スピーチ認識部110は、多数のスピーチアクセスコマンドの一つが前記受信したスピーチ入力情報に含まれているか否か判定する(処理404)。本実施形態では、複数のスピーチアクセスコマンドの各々は、特定の言葉または特定の語句を含むことができ、そのような言葉または語句としては例えば、“曲名再生”、“天候制御”、“ナビゲーション制御”、などがある。
もし、処理404を実行中に、スピーチ認識部110は、受信したスピーチ入力情報が多数のスピーチアクセスコマンドのうちの一つを含むと判定した場合、辞書切り替え部114は、現在使用中の辞書を、多数のスピーチアクセスコマンドのうちの一つに合致する2またはより多くの語彙辞書のうちの一つに切り替える(処理406)。その後、車内システム100は、2またはより多くの語彙辞書のうちの一つへの切り替えを確認する(処理408)。いくつかの実施形態では、車内システム100は、語彙辞書Bへの切り替えを確認しなくてもよい。
前記した切り替えを確認する実施形態では、車内システム100は、多数の異なる方法で前記した切り替えを確認することができる。例えば、前記した2またはより多くの語彙辞書のうちの一つが曲名に合致する音声データを含む場合、車内システム100は、音再生出力装置によって、“曲名を言ってください”などのスピーチ生成プロンプト、または他のスピーチ生成プロンプトを出力することができる。いくつかの実施形態では、車内システム100は、表示装置に重ね合わせ画面、例えば図3に例示した重ね合わせ画面を表示することによって前記した2またはより多くの語彙辞書のうちの一つへの切り替えを確認してもよい。いくつかの実施形態では、異なる複数の重ね合わせ画面の各々は、語彙辞書ごとに対応付けることができる。例示した重ね合わせ画面を表示することによって、車内システム100は、多数のスピーチアクセスコマンドのうちの一つを認識したことを確認している。
2またはより多くの語彙辞書の一つへの切り替えを確認した後、スピーチ認識部110は、受信したスピーチ入力情報に含まれるコマンドを認識することに対応する任意の処理を実行する(処理410)。場合によっては、スピーチ認識部110は、前記コマンドを認識することに対応する処理を実行しなくてもよい。
その後、車内システム100は、処理402を再度実行する。
もし、処理404を実行中に、スピーチ認識部110が、受信したスピーチ入力情報が多数のスピーチアクセスコマンドのうちの一つを含まないと判定した場合、辞書切り替え部114は、現在使用中の辞書を語彙辞書Aに切り替える(処理412)。その後、スピーチ認識部110は、受信したスピーチ入力情報に含まれる語彙辞書Aのコマンドを認識することに対応する任意の処理を実行する(処理414)。語彙辞書Aは、基本コマンドに合致する音声データを含んでよい。
その後、車内システム100は、処理402を再度実行する。
(その他)
前記した実施形態の変形例では、車内システム100が少なくともいくつかの語彙辞書のうちの一つに対応しているモードで動作している間に、または、車内システム100が少なくともいくつかの語彙辞書のうちの一つに対応しているアプリケーションを実行している間に用いられ、スピーチ認識性能を高め、または改善する特定のアルゴリズムと、少なくともいくつかの語彙辞書とを一緒に用いることができる。
例えば、スピーチ認識部110は、少なくともいくつかの語彙辞書を補完することで、スピーチ入力情報に含まれる誤って発音された特定のスピーチコマンドを認識することができる。前記した補完された語彙辞書の各々は、他の語彙辞書とは区別して補完することができる。他の実施形態では、他のアルゴリズムを用いたり機能追加・拡張を行ったりすることで、語彙辞書のいくつかまたはすべてに関するスピーチ認識性能を向上させることができる。
前記した実施形態では、受信したスピーチ入力情報のなかにスピーチアクセスコマンドが何ら検出されなかった場合、スピーチ認識部110は、語彙辞書Aを用いて前記受信したスピーチ入力情報を認識することができる。他の実施形態では、特定の語彙辞書に切り替えられた後、スピーチ認識部110は、前記した特定の語彙辞書を用いて、受信したスピーチ入力情報のなかにスピーチアクセスコマンドを検出するまで、受信したスピーチ入力情報の認識を継続し、その結果、他の特定の語彙辞書に切り替える。
(まとめ)
本発明の発明特定事項は、構造的特徴および/または方法論的処理が明確になるような言語で説明されたものであるけれども、添付した特許請求の範囲の請求項における発明特定事項は、これまでに述べた具体的な特徴または処理に限定されるわけでは必ずしもないことを理解すべきである。むしろ、これまでに述べた具体的な特徴または処理は、請求項を説明するための形式の一例として開示されている。
上記した説明は、具体的な詳細を含むものであるが、決して請求項を限定するものとして解釈してはならない。これまでに説明した実施形態の他の態様は、本明細書での開示内容の範囲の一部である。また、図2および図4のフローチャートで説明される処理は、他の実施形態においては異なる順序で実行することができ、より多くの処理を含むことができたり、またはより少ない処理で済ませたりすることができる。さらに、他の実施形態では、他の装置または部品が上記の処理の一部を実行してもよい。したがって、添付した特許請求の範囲の請求項およびそれらの均等物は、いかなる具体例が示されたとしてもそれら以上に、本発明を定義する。
100 車内システム
110 スピーチ認識部
112 語彙辞書
114 辞書切り替え部

Claims (19)

  1. ユーザからのスピーチ入力情報を認識するスピーチ認識部と、
    前記スピーチ認識部が前記スピーチ入力情報を認識する場合に用いられ、各々がアプリケーションごとに対応している複数の語彙辞書と、
    前記車内システムが複数のモードのうち任意の一つで動作している間、ユーザから発せられたスピーチアクセスコマンドを前記スピーチ認識部が認識することに応答して、前記複数の語彙辞書のうち現在使用中の一つを切り替える辞書切り替え部と、を備える
    ことを特徴とする車内システム。
  2. さらに、表示装置を備え、
    前記車内システムは、前記表示装置に表示するための複数の画面を有し、
    前記複数の画面のうちいずれが前記表示装置に現在表示されているか、ということに関係なく、前記スピーチ認識部が前記発せられたスピーチアクセスコマンドを認識することに応答して、前記辞書切り替え部は、前記複数の語彙辞書のうち現在使用中の一つを切り替える
    ことを特徴とする請求項1に記載の車内システム。
  3. 前記辞書切り替え部が前記複数の語彙辞書のうち現在使用中の一つを切り替える場合、前記車内システムは、前記表示装置に重ね合わせ画面を表示する
    ことを特徴とする請求項2に記載の車内システム。
  4. 前記スピーチ認識部は、前記複数の語彙辞書のうち現在使用中の一つに基づいた一組の特定のアルゴリズムを選択的に用いて、スピーチ認識精度を向上させる
    ことを特徴とする請求項1に記載の車内システム。
  5. 前記スピーチ認識部は、前記スピーチアクセスコマンドを認識したことの確認がユーザに提供されるようにする
    ことを特徴とする請求項1に記載の車内システム。
  6. 前記確認は、視覚的な確認を含む
    ことを特徴とする請求項5に記載の車内システム。
  7. 前記複数の語彙辞書の少なくとも一つは、曲名に合致する音声データを含む
    ことを特徴とする請求項1に記載の車内システム。
  8. スピーチ認識部を備える車内システムが実行し、前記スピーチ認識部が用いる複数の語彙辞書のうち現在使用中の一つを切り替える方法であって、
    前記方法は、
    受信したスピーチ入力情報に含まれるスピーチアクセスコマンドを認識するステップと、
    前記認識されたスピーチアクセスコマンドに基づいて、前記スピーチ認識部が用いる前記複数の語彙辞書のうち前記した現在使用中の一つを切り替えるステップと、を有し、
    前記方法は、前記車内システムが実行する
    ことを特徴とする方法。
  9. 前記複数の語彙辞書のうち前記切り替えられる現在使用中の一つは、複数のスピーチアクセスコマンドのうちのいずれが認識されるか、ということに基づいている
    ことを特徴とする請求項8に記載の方法。
  10. さらに、前記スピーチアクセスコマンドを検出したことの確認を提供するステップ、を有する
    ことを特徴とする請求項8に記載の方法。
  11. 前記確認を提供するステップは、さらに、
    前記車内システムの表示装置に重ね合わせ画面を表示するステップ、を有する
    ことを特徴とする請求項10に記載の方法。
  12. 前記確認を提供するステップは、さらに、
    前記スピーチアクセスコマンドを認識したことのスピーチ生成による確認を提供するステップ、を有する
    ことを特徴とする請求項10に記載の方法。
  13. さらに、
    各々が前記複数の語彙辞書ごとに対応している複数のモードで動作するステップ、を有し、
    前記複数のモードのいずれが現在使用可能であるか、ということとは無関係に、前記スピーチアクセスコマンドは、前記スピーチ認識部によって認識可能である
    ことを特徴とする請求項8に記載の方法。
  14. 計算装置のプロセッサが実行するための命令文が記録される有形機械読み取り可能媒体であって、
    前記プロセッサが前記命令文を実行する場合、前記計算装置は、
    スピーチアクセスコマンドを含むスピーチ入力情報を受信するステップと、
    前記スピーチアクセスコマンドを検出するステップと、
    前記スピーチアクセスコマンドの検出に応答して、スピーチ認識のために、現在使用中の語彙辞書を切り替えるステップと、を有する方法を実行する
    ことを特徴とする有形機械読み取り可能媒体。
  15. 前記スピーチアクセスコマンドは、前記計算装置が認識可能な複数のスピーチアクセスコマンドの一つであり、
    前記複数のスピーチアクセスコマンドのうちの任意の一つを認識することで、前記計算装置は、複数の動作モードのうち合致する一つをとる
    ことを特徴とする請求項14に記載の有形機械読み取り可能媒体。
  16. 前記方法は、さらに、
    前記計算装置のユーザに対し、前記スピーチアクセスコマンドの検出を確認するステップ、を有する
    ことを特徴とする請求項14に記載の有形機械読み取り可能媒体。
  17. 前記スピーチアクセスコマンドの検出を確認するステップは、
    前記計算装置の表示装置に重ね合わせ画面を表示するステップ、を有する
    ことを特徴とする請求項16に記載の有形機械読み取り可能媒体。
  18. 前記スピーチアクセスコマンドは、前記計算装置が認識可能である複数のスピーチアクセスコマンドのうちの一つであり、
    前記方法は、さらに、
    認識される前記複数のスピーチアクセスコマンドのうちの一つに基づいた複数の重ね合わせ画面のうちの一つを、前記計算装置の表示装置に表示するステップ、を有する
    ことを特徴とする請求項14に記載の有形機械読み取り可能媒体。
  19. 前記スピーチアクセスコマンドは、前記計算装置が認識可能である複数のスピーチアクセスコマンドの一つであり、
    前記方法は、さらに、
    認識される前記複数のスピーチアクセスコマンドのうちの一つに基づいた複数のスピーチ生成プロンプトのうちの一つを出力することで、前記スピーチアクセスコマンドを認識したことを確認するステップと、を有する
    ことを特徴とする請求項14に記載の有形機械読み取り可能媒体。
JP2012542019A 2009-12-01 2010-11-04 複数の辞書を用いたスピーチ認識 Pending JP2013512476A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/628,476 2009-12-01
US12/628,476 US20110131040A1 (en) 2009-12-01 2009-12-01 Multi-mode speech recognition
PCT/US2010/055415 WO2011068619A1 (en) 2009-12-01 2010-11-04 Multi-dictionary speech recognition

Publications (1)

Publication Number Publication Date
JP2013512476A true JP2013512476A (ja) 2013-04-11

Family

ID=43296936

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012542019A Pending JP2013512476A (ja) 2009-12-01 2010-11-04 複数の辞書を用いたスピーチ認識

Country Status (4)

Country Link
US (1) US20110131040A1 (ja)
EP (1) EP2507793A1 (ja)
JP (1) JP2013512476A (ja)
WO (1) WO2011068619A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015045765A (ja) * 2013-08-28 2015-03-12 シャープ株式会社 制御装置、制御装置の制御方法、および、制御プログラム

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011091402A1 (en) * 2010-01-25 2011-07-28 Justin Mason Voice electronic listening assistant
KR101828273B1 (ko) * 2011-01-04 2018-02-14 삼성전자주식회사 결합기반의 음성명령 인식 장치 및 그 방법
WO2013043393A1 (en) 2011-09-23 2013-03-28 Digimarc Corporation Context-based smartphone sensor logic
US9336774B1 (en) * 2012-04-20 2016-05-10 Google Inc. Pattern recognizing engine
JP6155592B2 (ja) * 2012-10-02 2017-07-05 株式会社デンソー 音声認識システム
US9311640B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods and arrangements for smartphone payments and transactions
US11487501B2 (en) * 2018-05-16 2022-11-01 Snap Inc. Device control using audio data
JP2020047061A (ja) * 2018-09-20 2020-03-26 Dynabook株式会社 電子機器および制御方法
KR20210133600A (ko) * 2020-04-29 2021-11-08 현대자동차주식회사 차량 음성 인식 방법 및 장치

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1152983A (ja) * 1997-08-07 1999-02-26 Hitachi Eng & Services Co Ltd 音声認識装置
JP2000137729A (ja) * 1998-11-02 2000-05-16 Fujitsu Ltd 辞書検索装置及び辞書検索プログラムを記録した記録媒体
JP2002287792A (ja) * 2001-03-27 2002-10-04 Denso Corp 音声認識装置
JP2004086150A (ja) * 2002-06-28 2004-03-18 Denso Corp 音声制御装置
JP2006162782A (ja) * 2004-12-03 2006-06-22 Mitsubishi Electric Corp 音声認識装置
JP2007101892A (ja) * 2005-10-04 2007-04-19 Denso Corp 音声認識装置

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3286339B2 (ja) * 1992-03-25 2002-05-27 株式会社リコー ウインドウ画面制御装置
JP3397372B2 (ja) * 1993-06-16 2003-04-14 キヤノン株式会社 音声認識方法及び装置
WO1996037881A2 (en) * 1995-05-26 1996-11-28 Applied Language Technologies Method and apparatus for dynamic adaptation of a large vocabulary speech recognition system and for use of constraints from a database in a large vocabulary speech recognition system
JPH10143191A (ja) * 1996-11-13 1998-05-29 Hitachi Ltd 音声認識システム
JP3556425B2 (ja) * 1997-03-18 2004-08-18 株式会社東芝 共有辞書更新方法および辞書サーバ
US6061646A (en) * 1997-12-18 2000-05-09 International Business Machines Corp. Kiosk for multiple spoken languages
US6301560B1 (en) * 1998-01-05 2001-10-09 Microsoft Corporation Discrete speech recognition system with ballooning active grammar
US6526380B1 (en) * 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines
JP3980791B2 (ja) * 1999-05-03 2007-09-26 パイオニア株式会社 音声認識装置を備えたマンマシンシステム
US6389394B1 (en) * 2000-02-09 2002-05-14 Speechworks International, Inc. Method and apparatus for improved speech recognition by modifying a pronunciation dictionary based on pattern definitions of alternate word pronunciations
JP4116233B2 (ja) * 2000-09-05 2008-07-09 パイオニア株式会社 音声認識装置ならびにその方法
JP2002169828A (ja) * 2000-11-30 2002-06-14 Mitsubishi Electric Corp 移動体用ナビゲーション装置
WO2002050816A1 (en) * 2000-12-18 2002-06-27 Koninklijke Philips Electronics N.V. Store speech, select vocabulary to recognize word
JP2003036088A (ja) * 2001-07-23 2003-02-07 Canon Inc 音声変換の辞書管理装置
US7026957B2 (en) * 2001-10-01 2006-04-11 Advanced Public Safety, Inc. Apparatus for communicating with a vehicle during remote vehicle operations, program product, and associated methods
JP3997459B2 (ja) * 2001-10-02 2007-10-24 株式会社日立製作所 音声入力システムおよび音声ポータルサーバおよび音声入力端末
US6907397B2 (en) * 2002-09-16 2005-06-14 Matsushita Electric Industrial Co., Ltd. System and method of media file access and retrieval using speech recognition
JP2004163590A (ja) * 2002-11-12 2004-06-10 Denso Corp 再生装置及びプログラム
US7181396B2 (en) * 2003-03-24 2007-02-20 Sony Corporation System and method for speech recognition utilizing a merged dictionary
JP4377718B2 (ja) * 2004-02-27 2009-12-02 富士通株式会社 対話制御システム及び方法
JP2005266198A (ja) * 2004-03-18 2005-09-29 Pioneer Electronic Corp 音響情報再生装置および音楽データのキーワード作成方法
EP1693829B1 (en) * 2005-02-21 2018-12-05 Harman Becker Automotive Systems GmbH Voice-controlled data system
US20080065371A1 (en) * 2005-02-28 2008-03-13 Honda Motor Co., Ltd. Conversation System and Conversation Software
GB2428853A (en) * 2005-07-22 2007-02-07 Novauris Technologies Ltd Speech recognition application specific dictionary
DE102005030380B4 (de) * 2005-06-29 2014-09-11 Siemens Aktiengesellschaft Verfahren zur Ermittlung einer Hypothesenliste aus einem Vokabular eines Spracherkennungssystems
DE602006008570D1 (de) * 2006-02-10 2009-10-01 Harman Becker Automotive Sys System für sprachgesteuerte Auswahl einer Audiodatei und Verfahren dafür
JP4997796B2 (ja) * 2006-03-13 2012-08-08 株式会社デンソー 音声認識装置、及びナビゲーションシステム
WO2007134293A2 (en) * 2006-05-12 2007-11-22 Nexidia, Inc. Wordspotting system
US7899673B2 (en) * 2006-08-09 2011-03-01 Microsoft Corporation Automatic pruning of grammars in a multi-application speech recognition interface
ATE527652T1 (de) * 2006-12-21 2011-10-15 Harman Becker Automotive Sys Mehrstufige spracherkennung
KR100883657B1 (ko) * 2007-01-26 2009-02-18 삼성전자주식회사 음성 인식 기반의 음악 검색 방법 및 장치
TWI502380B (zh) * 2007-03-29 2015-10-01 Nokia Corp 配合預測式本文輸入使用之方法、裝置、伺服器、系統及電腦程式產品

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1152983A (ja) * 1997-08-07 1999-02-26 Hitachi Eng & Services Co Ltd 音声認識装置
JP2000137729A (ja) * 1998-11-02 2000-05-16 Fujitsu Ltd 辞書検索装置及び辞書検索プログラムを記録した記録媒体
JP2002287792A (ja) * 2001-03-27 2002-10-04 Denso Corp 音声認識装置
JP2004086150A (ja) * 2002-06-28 2004-03-18 Denso Corp 音声制御装置
JP2006162782A (ja) * 2004-12-03 2006-06-22 Mitsubishi Electric Corp 音声認識装置
JP2007101892A (ja) * 2005-10-04 2007-04-19 Denso Corp 音声認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015045765A (ja) * 2013-08-28 2015-03-12 シャープ株式会社 制御装置、制御装置の制御方法、および、制御プログラム

Also Published As

Publication number Publication date
EP2507793A1 (en) 2012-10-10
WO2011068619A1 (en) 2011-06-09
US20110131040A1 (en) 2011-06-02

Similar Documents

Publication Publication Date Title
JP2013512476A (ja) 複数の辞書を用いたスピーチ認識
US11176936B2 (en) Architecture for multi-domain natural language processing
JP4260788B2 (ja) 音声認識機器制御装置
KR101418163B1 (ko) 컨텍스트 정보를 이용한 음성 인식 복구
EP1693829B1 (en) Voice-controlled data system
US8954329B2 (en) Methods and apparatus for acoustic disambiguation by insertion of disambiguating textual information
US9805722B2 (en) Interactive speech recognition system
US20150039316A1 (en) Systems and methods for managing dialog context in speech systems
CN110097870B (zh) 语音处理方法、装置、设备和存储介质
US9202459B2 (en) Methods and systems for managing dialog of speech systems
US10838954B1 (en) Identifying user content
US20090171663A1 (en) Reducing a size of a compiled speech recognition grammar
JP2004510239A (ja) ディクテーションとコマンドの区別を向上させる方法
JP2002073075A (ja) 音声認識装置ならびにその方法
CN111916088B (zh) 一种语音语料的生成方法、设备及计算机可读存储介质
EP2682931B1 (en) Method and apparatus for recording and playing user voice in mobile terminal
JP6896335B2 (ja) 音声認識装置および音声認識方法
EP2507792B1 (en) Vocabulary dictionary recompile for in-vehicle audio system
JP2000181485A (ja) 音声認識装置及び方法
JP6987447B2 (ja) 音声認識装置
JP2000089782A (ja) 音声認識装置と方法、ナビゲーションシステム、及び記録媒体
KR102392992B1 (ko) 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법
CN117059091A (zh) 一种语音识别智能断句方法及装置
JP2011215291A (ja) 音声認識装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140610

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20141014