JP6522009B2 - 音声認識システム - Google Patents

音声認識システム Download PDF

Info

Publication number
JP6522009B2
JP6522009B2 JP2016565813A JP2016565813A JP6522009B2 JP 6522009 B2 JP6522009 B2 JP 6522009B2 JP 2016565813 A JP2016565813 A JP 2016565813A JP 2016565813 A JP2016565813 A JP 2016565813A JP 6522009 B2 JP6522009 B2 JP 6522009B2
Authority
JP
Japan
Prior art keywords
unit
recognition
voice
recognition result
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016565813A
Other languages
English (en)
Other versions
JPWO2016103465A1 (ja
Inventor
悠希 住吉
悠希 住吉
匠 武井
匠 武井
直哉 馬場
直哉 馬場
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2016103465A1 publication Critical patent/JPWO2016103465A1/ja
Application granted granted Critical
Publication of JP6522009B2 publication Critical patent/JP6522009B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04817Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance using icons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Automation & Control Theory (AREA)
  • Computational Linguistics (AREA)
  • Navigation (AREA)
  • User Interface Of Digital Computer (AREA)

Description

この発明は、ユーザの発話を認識する音声認識システムに関するものである。
従来の音声認識システムにおいては、ユーザは予めシステムに認識させたい内容を考えておき、PTT(Push To Talk)ボタンの押下等による音声認識開始指示を行った後に発話する必要があった。このシステムでは、ユーザ同士の自然な会話中に出現した単語を自動的に認識することができないので、ユーザはその単語を認識させるためにPTTボタン等を押下した後に改めて発話しなければならない。そのため操作が煩わしいという問題および認識させたい内容を忘れてしまうという問題があった。
これに対し、マイクにより集音された音声を、常時、音声認識する音声認識システムがある。この音声認識システムにおいては、ユーザによる音声認識開始指示が不要であるため、上述した煩わしさを解消することはできる。しかし、ユーザの操作意図の有無に関わらず勝手に認識結果に対応する機能を実行するため、ユーザを混乱させてしまう。
ここで、特許文献1には、常時音声を認識し、認識結果に対応する機能を実行するためのショートカットボタンを生成して表示する作動制御装置が記載されている。
特開2008-14818号公報
上記特許文献1の作動制御装置では、ユーザがショートカットボタンを押下することで初めて、認識結果に対応する機能を実行するので、ユーザの意図に反して勝手に動作することを防止することができる。しかしながら、特許文献1の場合、ショートカットボタンにより画面に表示されている情報の一部が隠されてしまったり、ショートカットボタンを表示する際の画面更新により表示内容の変化が生じたりするため、ユーザに不快感を生じさせたり、運転中の場合等は集中力の低下を生じさせたりするという課題がある。
この発明は、上記のような問題を解決するためになされたものであり、常時音声を認識し、認識結果に対応する機能を実行するための機能実行ボタンを、ユーザが必要とするタイミングで提示することができる音声認識システムを提供することを目的とする。
本発明に係る音声認識システムは、会話中の音声を、予め設定された音声取得期間に亘って取得する音声取得部と、音声認識開始指示がなくても、予め定義されている機能が割り当てられた機能実行ボタンの表示内容に対応して前記音声取得部が前記音声取得期間に亘って取得した会話中の音声を認識し、認識結果として保持する音声認識部と、音声認識部の認識結果に対して予め定義されている機能が割り当てられた機能実行ボタンを表示部に表示するきっかけとなる、予め定められた操作または動作を行ったか否かを判定する判定部と、判定部において予め定められた操作または動作を行ったと判定された場合、音声認識部に保持されている認識結果に対して予め定義されている機能を被制御装置に実行させる機能実行ボタンを表示部に表示させる表示制御部とを備えるものである。
本発明は、予め設定された音声取得期間に亘って会話中の音声を取り込み、かつ、ユーザにより予め定められた操作または動作がなされたときに、音声取得部が音声取得期間に亘って取得した会話中の音声に基づき、予め定義されている機能が割り当てられた機能実行ボタンを表示することとしたので、会話中に出現した単語をPTTボタン押下後に改めて発話し直す煩雑さを解消することができる。また、ユーザの意図に反した動作を生じなくなり、さらには、機能実行ボタン表示時の画面更新による集中力の低下を抑制することができる。その上、ユーザにとっては、自身の操作意図を先読みした機能実行ボタンを提示してくれることになるので、ユーザフレンドリさおよび使い易さを向上させることができる。
この発明の実施の形態1に係る音声認識システムを適用したナビゲーションシステムの一例を示すブロック図である。 実施の形態1に係る音声認識システムを適用したナビゲーションシステムの主なハードウェア構成を示す概略構成図である。 実施の形態1に係る音声認識システムの動作の概略を説明するための説明図である。 認識結果に含まれる認識結果文字列と認識結果種別の例を示す図である。 認識結果種別と機能実行ボタンに割り当てるべき機能との対応の一例を示す図である。 実施の形態1に係る音声認識システムにおいて、ユーザ発話の認識結果の保持についての処理を示したフローチャートである。 実施の形態1に係る音声認識システムにおいて、機能実行ボタンの表示についての処理を示したフローチャートである。 機能実行ボタンの表示例を示す図である。 認識結果格納部による認識結果の格納例を示す図である。 機能実行ボタンの表示態様の一例を示す図である。 実施の形態1に係る音声認識システムの変形例を示すブロック図である。 ユーザの操作と認識結果種別との対応の一例を示す図である。 この発明の実施の形態2に係る音声認識システムにおいて、機能実行ボタンの表示についての処理を示したフローチャートである。 機能実行ボタンの別の表示例を示す図である。 ユーザの発話内容と認識結果種別との対応およびユーザの動作内容と認識結果種別との対応の一例を示す図である。 この発明の実施の形態3に係る音声認識システムを適用したナビゲーションシステムの一例を示すブロック図である。 実施の形態3に係る音声認識システムにおいて、ユーザ発話の取り込みおよび保持についての処理を示したフローチャートである。 実施の形態3に係る音声認識システムにおいて、機能実行ボタンの表示についての処理を示したフローチャートである。
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
なお、以下の実施の形態では、この発明に係る音声認識システムを車両等の移動体用のナビゲーションシステム(被制御装置)に適用した場合を例に挙げて説明するが、音声操作機能を有するシステムであれば、どのようなシステムに適用してもよい。
実施の形態1.
図1は、この発明の実施の形態1に係る音声認識システム2を適用したナビゲーションシステム1の一例を示すブロック図である。このナビゲーションシステム1は、制御部3、入力受信部5、ナビゲーション部6、音声制御部7、音声取得部10、音声認識部11、判定部14および表示制御部15を備えている。なお、ナビゲーションシステム1の構成要件は、ネットワーク上のサーバ、スマートフォン等の携帯端末、車載器に分散されていてもよい。
ここで、音声取得部10、音声認識部11、判定部14および表示制御部15が、音声認識システム2を構成する。
図2は、実施の形態1におけるナビゲーションシステム1とその周辺機器の主なハードウェア構成を示す概略図である。バス100には、CPU(Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory)103、HDD(Hard Disk Drive)104、入力装置105、および出力装置106が接続されている。
CPU101は、ROM102またはHDD104に記憶された各種プログラムを読みだして実行することにより、各ハードウェアと協働してナビゲーションシステム1の制御部3、入力受信部5、ナビゲーション部6、音声制御部7、音声取得部10、音声認識部11、判定部14および表示制御部15としての機能を実現する。入力装置105は、指示入力部4、入力受信部5およびマイク9である。出力装置106は、スピーカ8および表示部18である。
まず、音声認識システム2の動作概要を説明する。
音声認識システム2は、マイク9により集音された音声を予め設定された音声取得期間に亘って連続的に取り込んで、予め定められたキーワードを認識し、認識結果を保持する。そして、音声認識システム2は、移動体のユーザによりナビゲーションシステム1に対して予め定められた操作が行われたか否か判定し、当該操作が行われると、保持している認識結果を用いて認識結果に対応する機能を実行するための機能実行ボタンを生成し、生成した機能実行ボタンを表示部18へ出力する。
予め設定された音声取得期間については後述する。
例えば、図3(a)のような地図表示画面が表示部18のディスプレイに表示されているときに、ユーザAとユーザBにより以下のような会話が行われたものとする。
A:「この曲終わったら次は何再生しよう?」
B:「ミスチャイルドを久しぶりに聞きたいなぁ」
A:「いいねー。そういえば、昼食はレストランでいい?」
B:「コンビニで何か買えばいいかなぁ」
A:「わかったー」
ここで、音声認識システム2は、キーワードとしてアーティスト名「ミスチャイルド」と施設ジャンル名「レストラン」「コンビニ」とを認識するが、この段階では、これらの認識結果に対応する機能実行ボタンを表示部18に表示しない。なお、図3に示す「メニュー」ボタンHW1、「目的地」ボタンHW2、「AV(Audio Visual)」ボタンHW3および「現在地」ボタンHW4は、表示部18のディスプレイ筐体に設置されたハードウェア(HW)キーである。
その後、ユーザBが現在地周辺のコンビニを検索するために、メニュー画面を表示するための「メニュー」ボタンHW1を押下し、図3(b)のようなメニュー画面が表示されたときに、音声認識システム2は、認識結果「ミスチャイルド」「レストラン」「コンビニ」に対応する機能実行ボタンである「ミスチャイルド」ボタンSW1、「レストラン」ボタンSW2、および「コンビニ」ボタンSW3を表示部18に表示する。これらの機能実行ボタンは、メニュー画面に表示されたソフトウェア(SW)キーである。また、「目的地設定」ボタンSW11、「AV」ボタンSW12、「電話」ボタンSW13および「設定」ボタンSW14は、機能実行ボタンではないが、ソフトウェアキーではある。
続いて、ユーザBが機能実行ボタンである「コンビニ」ボタンSW3を押下すると、ナビゲーションシステム1のナビゲーション部6は、現在地周辺のコンビニの検索を実行し、検索結果を表示部18に表示する。なお、音声認識システム2についての詳細な説明は後述する。
一方、「コンビニ」ボタンSW3を使用せずに現在地周辺のコンビニの検索を実行しようとした場合、ユーザBは、例えば「メニュー」ボタンHW1を押下操作してメニュー画面を表示させ、メニュー画面の「目的地設定」ボタンSW11を押下操作して目的地検索画面を表示させ、目的地検索画面の「周辺施設検索」ボタンを押下操作して周辺施設検索画面を表示させ、検索キーとして「コンビニ」を設定して検索実行を指示することになる。つまり、通常であれば複数回の操作を行って呼び出して実行することとなる機能を、機能実行ボタン1回の操作で呼び出して実行することができる。
制御部3は、ナビゲーションシステム1全体の動作を制御する。
マイク9は、ユーザが発話した音声を集音する。マイク9には、例えば、全指向性(無指向性)のマイク、複数の全指向性(無指向性)のマイクをアレイ状に配列して指向特性を調整可能としたアレイマイク、または一方向のみに指向性を有しており指向特性を調整できない単一指向性マイクなどがある。
表示部18は、例えばLCD(Liquid Crystal Display)または有機EL(Electroluminescence)ディスプレイ等である。また、表示部18は、LCDまたは有機ELディスプレイとタッチセンサから構成されている表示一体型のタッチパネルであってもよい。
指示入力部4は、ユーザの手動による指示を入力するものである。例えばナビゲーションシステム1の筐体などに設けられたハードウェアのボタン(キー)、スイッチ、タッチセンサ、あるいはハンドル等に設置されたリモコンもしくは別体のリモコン、ジェスチャ操作による指示を認識する認識装置等が挙げられる。なお、タッチセンサには、感圧方式、電磁誘導方式、静電容量方式、あるいはこれらを組み合わせた方式などのうち、いずれを用いてもよい。
入力受信部5は、指示入力部4により入力された指示を受信して、制御部3へ出力する。
ナビゲーション部6は、入力受信部5により受信され制御部3を介して入力されたユーザの操作に応じて、画面遷移を行ったり、地図データ(図示しない)を用いて施設検索および住所検索等の種々の検索を行ったりする。また、ユーザにより設定された住所または施設への経路を計算し、経路案内のための音声情報および表示内容を生成し、それらを出力するよう後述する表示制御部15および音声制御部7へ、制御部3を介して指示する。ナビゲーション部6は、さらに上述以外にも楽曲名またはアーティスト名等による楽曲検索を行ったり、楽曲を再生したり、ユーザの指示に応じてエアコン等の他の車載機器の操作を実行したりする。
音声制御部7は、制御部3を介してナビゲーション部6から指示された案内音声および楽曲等をスピーカ8から出力する。
次に、音声認識システム2の構成要素について説明する。
音声取得部10は、マイク9により集音された音声を連続的に取り込み、例えば、PCM(Pulse Code Modulation)によりA/D(Analog/Digital)変換する。
ここで、「連続的」とは「予め設定された音声取得期間に亘って」という意味であり「常時」という意味に限らない。「音声取得期間」には、例えば、ナビゲーションシステム1が起動してから5分間、移動体が停車してから1分間、またはナビゲーションシステム1が起動してから停止するまでの間等の期間が含まれるものとする。本実施の形態1においては、音声取得部10はナビゲーションシステム1が起動してから停止するまでの間、音声を取り込むものとして説明する。
なお、以下の説明においては、上述のとおりマイク9と音声取得部10が別個のものであるとするが、マイク9に音声取得部10が内蔵されているものであってもよい。
音声認識部11は、処理部12と認識結果格納部13から構成されている。
処理部12は、音声取得部10によりデジタル化された音声データから、ユーザが発話した内容に該当する音声区間(以下、「発話区間」と記載する)を検出し、該発話区間の音声データの特徴量を抽出し、その特徴量に基づいて音声認識辞書を用いて認識処理を行い、認識結果を認識結果格納部13へ出力する。認識処理の方法としては、例えばHMM(Hidden Markov Model)法のような一般的な方法を用いて行えばよいため詳細な説明を省略する。
ここで、音声認識の手法としては、文法に基づく単語認識、キーワードスポッティング、大語彙連続音声認識、またはその他の周知の手法のいずれを用いてもよい。また、音声認識部11は、周知の意図理解処理を含むものとし大語彙連続音声認識による認識結果からユーザの意図を推定したり検索したりした結果を、認識結果として出力するものとしてもよい。
処理部12は、認識結果として少なくとも認識結果文字列と認識結果の種別(以下、「認識結果種別」と記載する)を出力する。図4は、認識結果文字列と認識結果種別の一例を示したものであり、例えば、認識結果文字列が「コンビニ」の場合、処理部12は認識結果種別「施設ジャンル名」を出力する。
なお、認識結果種別は、具体的な文字列に限らず数字で表されたIDでもよいし、認識処理をする際に用いた辞書名(認識結果文字列が認識語彙として含まれている辞書名)としてもよい。また、本実施の形態1においては、音声認識部11の認識対象語彙は「コンビニ」「レストラン」等の施設ジャンル名と「ミスチャイルド」等のアーティスト名として説明するが、これに限らない。
認識結果格納部13は、処理部12により出力された認識結果を格納する。そして、後述する判定部14から指示を受けると、格納している認識結果を生成部16へ出力する。
ところで、カーナビゲーションシステム等に搭載されている音声認識機能においては、ユーザが発話の開始をシステムに対して明示(指示)するのが一般的である。そのために、音声認識開始を指示するボタン(以下、「音声認識開始指示部」と記載する)が、タッチパネルに表示されたりハンドルに設置されたりしている。そして、ユーザにより音声認識開始指示部が押下された後に発話された音声を認識する。すなわち、音声認識開始指示部は音声認識開始信号を出力し、音声認識部は当該信号を受けると、当該信号を受けた後に音声取得部により取得された音声データから、ユーザが発話した内容に該当する発話区間を検出し、上述した認識処理を行う。
対して、この実施の形態1における音声認識部11は、上述したようなユーザによる音声認識開始指示がなくても、常に、音声取得部10により取り込まれた音声データを認識する。すなわち、音声認識部11は、音声認識開始信号を受けなくても、音声取得部10により取得された音声データから、ユーザが発話した内容に該当する発話区間を検出し、該発話区間の音声データの特徴量を抽出し、その特徴量に基づいて音声認識辞書を用いて認識処理を行い、認識結果を出力する処理を繰り返し行う。
判定部14は、ユーザ発話の認識結果に対応する機能実行ボタンを表示部18に表示するきっかけとなるユーザの操作を、予め定義している。すなわち、認識結果格納部13が格納している認識結果を後述する生成部16へ出力するよう、判定部14から認識結果格納部13に対して指示するきっかけとなるユーザの操作を、予め定義している。
判定部14が予め定義しているユーザの操作は、例えば、表示部18に、ナビゲーションシステム1の機能一覧を示すメニュー画面を表示させたり、目的地検索画面を表示させたり、AV画面を表示させたりするための機能を有するボタンの押下等である。ここで、当該ボタンは、例えば、ディスプレイに表示されたソフトウェアキー(例えば、図3(b)の「目的地設定」ボタンSW11)、ディスプレイ筐体などに設置されているハードウェアキー(例えば、図3(a)の「メニュー」ボタンHW1)またはリモコンのキー等である。
判定部14は、制御部3を介して入力受信部5からユーザの操作内容を取得し、当該取得した操作内容が予め定義されている操作と一致するか否か判定する。そして、当該取得した操作内容が予め定義されている操作と一致する場合、判定部14は認識結果格納部13に対して、格納している認識結果を生成部16へ出力するよう指示する。一方、一致しない場合、判定部14は何もしない。
表示制御部15は、生成部16と描画部17から構成されている。生成部16は、認識結果格納部13から認識結果を取得し、取得した認識結果に対応する機能実行ボタンを生成する。
具体的には、生成部16は、図5に示すように認識結果種別と機能実行ボタンに割り当てるべき機能(以下、「機能実行ボタンへの割り当て機能」と記載する)を認識結果種別に対応付けて定義している。そして、生成部16は、認識結果格納部13から取得した認識結果に含まれる認識結果種別に対応する、機能実行ボタンへの割り当て機能を決定する。さらに生成部16は、当該決定した機能が割り当てられた機能実行ボタンを生成する。その後、生成部16は、生成した機能実行ボタンを表示部18に表示するよう、描画部17に対して指示する。
例えば、認識結果格納部13から取得した認識結果に含まれる認識結果種別が「施設ジャンル名」で、認識結果文字列が「コンビニ」である場合、生成部16は、図5のテーブルを参照して、機能実行ボタンへの割り当て機能は、「「コンビニ」を検索キーとした周辺施設検索」と決定する。
描画部17は、制御部3を介してナビゲーション部6により指示された内容、および生成部16により生成された機能実行ボタンを表示部18に表示させる。
次に、図6と図7に示すフローチャートと具体例を用いて、実施の形態1の音声認識システム2の動作を説明する。なお、ここでは、機能実行ボタンを表示部18に表示するきっかけとなるユーザの操作は、図3(a)に示すようなディスプレイの辺縁に設置されているハードウェアキーである、「メニュー」ボタンHW1、「目的地」ボタンHW2、「AV」ボタンHW3の押下であるものとする。また、説明を簡単にするために、以下では制御部3の動作の記載を省略する。
「メニュー」ボタンHW1は、図3(b)に示すような、ユーザに対して様々な機能を提示するメニュー画面を表示するためのものである。また、「目的地」ボタンHW2は、図8(a)に示すような目的地検索画面を表示するためのものである。また、「AV」ボタンHW3は、図8(b)に示すようなAV画面を表示するためのものである。なお、これらのハードウェアキー押下後の動作は一例であり、これらの動作に限られるものではない。
まず、図3(a)の地図表示画面で、ユーザAとユーザBにより上述した会話が行われたものとする。
図6は、ユーザ発話を認識して、認識結果を保持するフローチャートを示している。
ここでは、音声取得部10は、ナビゲーションシステム1が起動してから停止するまでの音声取得期間、常に、マイク9により集音された音声を取り込むものとして説明する。まず、音声取得部10は、マイク9により集音されたユーザ発話、すなわち、入力された音声を取り込み、例えばPCMによりA/D変換する(ステップST01)。
次に、処理部12は、音声取得部10によりデジタル化された音声データから、ユーザが発話した内容に該当する発話区間を検出し、該発話区間の音声データの特徴量を抽出し、その特徴量に基づいて音声認識辞書を用いて認識処理を行い(ステップST02)、認識結果を認識結果格納部13へ格納する(ステップST03)。その結果、図9に示すように認識結果が認識結果格納部13に格納される。そして、ナビゲーションシステム1が停止されていない場合(ステップST04「NO」)、音声認識システム2はステップST01の処理へ戻り、停止されている場合(ステップST04「YES」)、処理を終了する。
図7は、機能実行ボタンを表示するフローチャートを示している。
まず、判定部14は、入力受信部5からユーザの操作内容を取得する(ステップST11)。操作内容が取得できた場合すなわち何らかのユーザ操作があった場合(ステップST12「YES」)、判定部14はステップST13の処理へ進む。一方、操作内容が取得できなかった場合(ステップST12「NO」)、判定部14はステップST11の処理へ戻る。
次に、判定部14は、入力受信部5から取得した操作内容が予め定義されている操作と一致するか否か判定する。一致している場合(ステップST13「YES」)、判定部14は認識結果格納部13に対して、格納している認識結果を生成部16へ出力するよう指示する。一方、入力受信部5から取得した操作内容が予め定義されている操作と一致しない場合(ステップST13「NO」)、判定部14はステップST11の処理に戻る。
ここで、上述の会話の後ユーザAまたはユーザBにより「メニュー」ボタンHW1等のハードウェアキーが押下されるまで、ステップST13の処理へ進まないため、認識対象語である「ミスチャイルド」「レストラン」「コンビニ」が発話内容に含まれていても、表示部18に機能実行ボタンは表示されない。
ユーザBが、現在地周辺のコンビニを検索したいと思い、その機能を実行するためのきっかけとなる操作である「目的地」ボタンHW2の押下操作を行うと(ステップST11、ステップST12「YES」)、「目的地」ボタンHW2の押下操作は、判定部14に予め定義されている操作と一致するため(ステップST13「YES」)、判定部14は、認識結果格納部13に対して、格納している認識結果を生成部16へ出力するよう指示する。「メニュー」ボタンHW1および「AV」ボタンHW3が押下された場合も同様である。
一方、ユーザBが「現在地」ボタンHW4の押下操作をした場合は、判定部14に予め定義されている操作と一致しないため(ステップST13「NO」)、ステップST14の処理へ進まず、表示部18に機能実行ボタンは表示されない。
認識結果格納部13は、判定部14からの指示を受けると、当該指示を受けた時点で格納している認識結果を生成部16へ出力する(ステップST14)。
その後、生成部16は、認識結果格納部13から取得した認識結果に対応する機能実行ボタンを生成し(ステップST15)、当該生成した機能実行ボタンを表示部18へ表示するよう描画部17に対して指示する。最後に、描画部17は機能実行ボタンを表示部18に表示させる(ステップST16)。
具体的には、認識結果格納部13は、認識結果「ミスチャイルド」「コンビニ」「レストラン」を生成部16へ出力する(ステップST14)。その後、生成部16は、「「ミスチャイルド」を検索キーとした楽曲検索」をする機能を割り当てた機能実行ボタンと「「コンビニ」を検索キーとした周辺施設検索」する機能を割り当てた機能実行ボタンと「「レストラン」を検索キーとした周辺施設検索」する機能を割り当てた機能実行ボタンを生成し(ステップST15)、描画部17に対して表示部18へ表示するよう指示する。
描画部17は、ナビゲーション部6が表示を指示した画面に、生成部16で生成された機能実行ボタンを重ねて、表示部18に表示させる。例えば、ユーザにより「メニュー」ボタンHW1が押下されている場合、描画部17は図3(b)に示すように、ナビゲーション部6が指示したメニュー画面を表示するとともに、生成部16で生成された「ミスチャイルド」ボタンSW1、「レストラン」ボタンSW2、および「コンビニ」ボタンSW3の機能実行ボタンを表示させる。同様にして、ユーザにより「目的地」ボタンHW2および「AV」ボタンHW3が押下されている場合は、図8(c)および図8(d)のような画面となる。ユーザにより機能実行ボタンが押下操作されると、入力受信部5から指示を受けたナビゲーション部6が、当該機能実行ボタンに割り当てられた機能を実行する。
以上のように、この実施の形態1によれば、音声認識システム2は、ユーザが発話した音声を予め設定された音声取得期間に亘って取得する音声取得部10と、音声取得部10が取得した音声を認識する音声認識部11と、ユーザが予め定められた操作を行ったか否かを判定する判定部14と、判定部14においてユーザが予め定められた操作を行ったと判定された場合に音声認識部11の認識結果に対応した機能をナビゲーションシステム1に実行させる機能実行ボタンを表示部18に表示させる表示制御部15とを備え、予め設定された音声取得期間に亘って音声を取り込み、かつ、ユーザが予め定められた操作を行ったときに、発話内容に基づいた機能実行ボタンを表示することとしたので、会話中に出現した単語をPTTボタン押下後に改めて発話し直す煩雑さを解消することができる。また、ユーザの意図に反した動作を生じなくなり、さらには、機能実行ボタン表示時の画面更新による集中力の低下を抑制することができる。その上、ユーザにとっては、自身の操作意図を先読みした機能実行ボタンを提示してくれることになるので、ユーザフレンドリさおよび使い易さを向上させることができる。
なお、この実施の形態1では、生成部16は、認識結果文字列のみが表示された機能実行ボタンを生成するものとして説明したが、予め、認識結果文字列に対応したアイコンを定義しておき、図10(a)に示すように認識結果文字列とアイコンを組み合わせた機能実行ボタン、または図10(b)に示すように認識結果文字列に対応するアイコンのみの機能実行ボタンを生成するとしてもよい。以下の実施の形態2,3においても機能実行ボタンの表示形態は問わない。
このようにすることで、ユーザが直感的に機能実行ボタンの内容を理解することができるようになる。
また、生成部16は、認識結果種別に応じて機能実行ボタンの表示態様を変えるとしてもよい。例えば、認識結果種別「アーティスト名」に対応する機能実行ボタンは、そのアーティストのアルバムのジャケット画像にし、認識結果種別「施設ジャンル名」に対応する機能実行ボタンは、アイコンにするというように変えてもよい。
このようにすることで、ユーザが直感的に機能実行ボタンの内容を理解することができるようになる。
また、認識結果に対して種別ごとに優先度を付与する優先度付与部を音声認識システム2が備える構成とし、生成部16は認識結果の優先度に基づいて、認識結果に対応する機能実行ボタンの大きさ、表示順序の少なくとも一方を変化させるとしてもよい。
例えば、図11に示すように、音声認識システム2が優先度付与部19を備える。この優先度付与部19は、制御部3を介して入力受信部5からユーザの操作内容を取得し、操作履歴として管理する。また、優先度付与部19は認識結果格納部13を監視し、認識結果格納部13に認識結果が格納されると、その認識結果に対して、ユーザの過去の操作履歴に基づく優先度を付与する。認識結果格納部13は、認識結果を生成部16へ出力する際、優先度付与部19が付与した優先度も一緒に出力する。
具体的には、手動でのジャンル名による施設検索の回数がアーティスト名検索の回数より多い場合は、優先度付与部19は、認識結果種別が「施設ジャンル名」である認識結果の優先度を、認識結果種別が「アーティスト名」である認識結果の優先度より高くする。そして、生成部16は、例えば、優先度が高い認識結果に対する機能実行ボタンの大きさが、優先度が低い認識結果に対する機能実行ボタンの大きさより大きくなるように、各機能実行ボタンを生成する。このようにすることでも、ユーザが必要としていそうな機能実行ボタンを目立たせることができるので、利便性が向上する。
また、描画部17は、機能実行ボタンを表示部18に表示する際、優先度が高い認識結果に対応する機能実行ボタンを優先度が低い認識結果に対応する機能実行ボタンの上部に表示する。このようにすることで、ユーザが必要としていそうな機能実行ボタンを目立たせることができるので、利便性が向上する。
さらに、認識結果の優先度に基づいて、機能実行ボタンを出力するか出力しないかを変化させてもよい。例えば、描画部17は、生成部16により生成された機能実行ボタンの個数が、予め定められた表示個数の上限を超えている場合、優先度が高い認識結果に対応する機能実行ボタンを優先して出力し、上限個数を超えた場合は、他の機能実行ボタンを表示しないようにしてもよい。このようにすることで、ユーザが必要としていそうな機能実行ボタンを優先して表示することができるので、利便性が向上する。
また、この実施の形態1では、ハードウェアキーまたはソフトウェアキー等のボタンをユーザが操作したことをきっかけとして機能実行ボタンを表示するとしたが、予め定められた動作をユーザが行ったことをきっかけとして機能実行ボタンを表示するとしてもよい。ユーザが行う動作の例として発話、ジェスチャなどがある。
具体的に上述した各構成要素において処理が異なる部分について説明する。処理部12は、上述したようなジャンル名等に加え、例えば「電話」「オーディオ」等の被制御装置を操作するためのコマンド、および「行きたい」「聞きたい」「メールする」等の被制御装置への操作意図を含むと考えられる発話を認識対象語彙とする。そして、処理部12は、認識結果を認識結果格納部13だけでなく判定部14に対しても出力する。
判定部14は、上述したユーザ操作に加えて予め機能実行ボタンを表示させるきっかけとなる発話を定義している。例えば、「行きたい」「聞きたい」「オーディオ」等の発話を定義している。そして、判定部14は、処理部12により出力された認識結果を取得し、当該認識結果が予め定義した発話内容と一致する場合は、格納している認識結果を生成部16へ出力するよう、認識結果格納部13に対して指示する。
さらに、音声認識システム2は、自車周辺を見回したりハンドルを叩いたりするユーザのジェスチャ動作をきっかけとして、機能実行ボタンを表示するとしてもよい。例えば、判定部14は、車内に設置された可視光カメラまたは赤外線カメラ等(図示せず)が測定した情報を取得し、取得した情報から顔の動きを検出する。そして、判定部14は、顔がカメラに対して正面を向いたときを0度として、1秒間に左右45度の範囲を往復した場合、自車周辺を見回していると判断する。
さらに、描画部17は、機能実行ボタンを表示するきっかけとなるユーザの操作等が行われた場合、当該操作等に対応した画面遷移をすることなしに、表示中の画面の上に重ねて機能実行ボタンを表示するとしてもよい。例えば、図3(a)の地図表示画面を表示中にユーザが「メニュー」ボタンHW1を押下した場合、描画部17は、図3(b)のメニュー画面に遷移して機能実行ボタンを表示するが、ユーザがハンドルを叩く動作を行った場合は図3(a)の地図表示画面に機能実行ボタンを表示する。
実施の形態2.
この発明の実施の形態2による音声認識システムを適用したナビゲーションシステムの一例を示すブロック図は、実施の形態1において示した図1と同じであるため、図示および説明を省略する。以下に示す実施の形態2では、実施の形態1と比べると、判定部14が、例えば図12に示すように、ユーザの操作と認識結果種別とを対応付けて記憶している点が異なる。図12のハードウェアキーとは、例えば図3(a)に示すようなディスプレイの辺縁に設置されている「メニュー」ボタンHW1、「目的地」ボタンHW2、「AV」ボタンHW3などである。また、図12のソフトウェアキーとは、例えば図3(b)に示すようなディスプレイ上に表示されている「目的地設定」ボタンSW11、「AV」ボタンSW12などである。
実施の形態2の判定部14は、入力受信部5からユーザの操作内容を取得し、当該取得した操作内容が予め定義されている操作と一致するか否か判定する。そして、当該取得した操作内容が予め定義されている操作と一致する場合、判定部14は、当該操作内容に対応する認識結果種別を決定する。その後、判定部14は認識結果格納部13に対して、当該決定した認識結果種別を有する認識結果を生成部16へ出力するよう指示する。一方、当該取得した操作内容が予め定義されている操作と一致しない場合、判定部14は何もしない。
認識結果格納部13は、判定部14からの指示を受けると、判定部14から指示された認識結果種別と一致する認識結果種別を有する認識結果を、生成部16へ出力する。
次に、図13に示すフローチャートと具体例を用いて、実施の形態2の音声認識システム2の動作を説明する。なお、ここでは、機能実行ボタンを表示部18に表示するきっかけとなるユーザの操作は、図12に定義された操作とする。また、ユーザ同士の会話は実施の形態1と同一であるとする。
実施の形態2において、ユーザ発話を認識して、認識結果を保持するフローチャートは、図6のフローチャートと同一であるため説明を省略する。また、図13のフローチャートのステップST21からステップST23の処理は、図7のフローチャートのステップST11からステップST13と同一であるため説明を省略する。なお、以降の説明においては、図6の処理が実行され、認識結果格納部13には、図9に示すように認識結果が格納されているものとする。
判定部14は、入力受信部5から取得したユーザの操作内容が、予め定義されている操作と一致する場合(ステップST23「YES」)、当該操作内容に対応する認識結果種別を決定した後、認識結果格納部13に対して、当該決定した認識結果種別を有する認識結果を生成部16へ出力するよう指示する(ステップST24)。
次に、認識結果格納部13は、判定部14からの指示を受けると、判定部14から指示された認識結果種別と一致する認識結果種別を有する認識結果を、生成部16に対して出力する(ステップST25)。
具体的には、ユーザBが、現在地周辺のコンビニを検索したいと思い、その機能を実行するためのきっかけとなる操作である「目的地」ボタンHW2の押下操作を行うと(ステップST21、ステップST22「YES」)、「目的地」ボタンHW2の押下操作は、判定部14に予め定義されている操作と一致するため(ステップST23「YES」)、判定部14は、図12に示すテーブルを参照して、当該操作に対応する認識結果種別を「施設ジャンル名」に決定する(ステップST24)。その後、判定部14は、認識結果格納部13に対して、認識結果種別「施設ジャンル名」を有する認識結果を生成部16へ出力するよう指示する。
認識結果格納部13は、判定部14からの指示を受けると、認識結果種別が「施設ジャンル名」である認識結果、すなわち認識結果文字列が「コンビニ」と「レストラン」である認識結果を生成部16へ出力する(ステップST25)。
その後、生成部16は「「コンビニ」を検索キーとした周辺施設検索」する機能を割り当てた機能実行ボタンと「「レストラン」を検索キーとした周辺施設検索」する機能を割り当てた機能実行ボタンを生成する(ステップST26)。描画部17は、表示部18に図14(a)に示すように「コンビニ」ボタンSW3と「レストラン」ボタンSW2の機能実行ボタンを表示する(ステップST27)。
同様にして、ユーザBが「AV」ボタンHW3の押下操作を行うと、「「ミスチャイルド」を検索キーとした楽曲検索」をする機能を割り当てた機能実行ボタンである「ミスチャイルド」ボタンSW1が、表示部18に図14(b)に示すように表示される。
なお、ユーザの操作内容だけでなく、ユーザの動作内容(発話、ジェスチャ等)をきっかけとして、当該動作内容と関連性が高い機能実行ボタンを表示するようにしてもよい。この場合、図15(a)と図15(b)に示すように、判定部14は、ユーザの発話内容またはユーザのジェスチャ内容と認識結果種別とを対応付けて記憶しており、判定部14は、音声認識部11から取得したユーザの発話内容、またはカメラもしくはタッチセンサから取得した情報に基づいて判断したユーザのジェスチャ内容と一致する認識結果種別を、認識結果格納部13へ出力するようにすればよい。
以上のように、この実施の形態2によれば、判定部14は、ユーザが行う操作または動作と音声認識部11の認識結果の種別との対応関係を示す情報を用いて、ユーザが操作または動作を行ったと判定した場合に対応する種別を判定し、表示制御部15は、音声認識部11の認識結果の中から判定部14が判定した種別に一致する認識結果を選択し、当該選択した認識結果に対応した機能をナビゲーションシステム1に実行させる機能実行ボタンを表示部18に表示させる構成にしたので、ユーザが操作等した内容と関連性が高い機能実行ボタンが提示されるようになる。従って、ユーザにとっては、より正確に自身の操作意図を先読みして提示してくれることになり、ユーザフレンドリさおよび使い易さをより向上させることができる。
実施の形態3.
図16は、この発明の実施の形態3による音声認識システム2を適用したナビゲーションシステム1の一例を示すブロック図である。なお、実施の形態1で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。
以下に示す実施の形態3では、実施の形態1と比べると、音声認識システム2が認識結果格納部13を備えていない。その代わりに音声認識システム2は音声データ格納部20を備え、音声取得部10が、マイク9により集音された音声を連続的に取り込みA/D変換によりデジタル化した音声データのすべて、または一部を音声データ格納部20に格納する。
例えば、音声取得部10は、音声取得期間として移動体が停車してから1分間、マイク9により集音された音声を取り込みデジタル化した音声データを音声データ格納部20に格納する。また、音声取得部10は、音声取得期間としてナビゲーションシステム1が起動してから停止するまでの間、マイク9により集音された音声を取り込む場合は、例えば、過去30秒分の音声データを音声データ格納部20に格納する。なお、音声取得部10が、処理部12の代わりに、音声データから発話区間を検出し当該区間を抽出する処理を行う構成とし、音声取得部10は、発話区間の音声データを音声データ格納部20に格納するとしてもよい。また、予め定められた発話区間数分の音声データを音声データ格納部20に格納するとし、予め定められた発話区間数を超える音声データは古いものから順に削除するとしてもよい。
さらに、判定部14は、入力受信部5からユーザの操作内容を取得し、当該取得した操作内容が予め定義されている操作と一致する場合、処理部12に対して音声認識開始指示を出力する。
さらに、処理部12が、判定部14からの音声認識開始指示を受けると、音声データ格納部20から音声データを取得し、当該取得した音声データに対して音声認識処理を行い、認識結果を生成部16へ出力する。
次に図17と図18に示すフローチャートを用いて、実施の形態3の音声認識システム2の動作を説明する。なお、ここでは、音声取得部10は、音声取得期間としてナビゲーションシステム1が起動してから停止するまでの間、マイク9により集音された音声を取り込むものとし、そのうちの過去30秒分の音声データが音声データ格納部20に格納されているものとする。
図17は、ユーザ発話を取り込んで保持するフローチャートを示している。まず、音声取得部10は、マイク9により集音されたユーザ発話、すなわち、入力された音声を取り込み、例えばPCMによりA/D変換する(ステップST31)。次に、音声取得部10は、デジタル化した音声データを音声データ格納部20に格納する(ステップST32)。そして、ナビゲーションシステム1が停止されていない場合(ステップST33「NO」)、音声取得部10はステップST31の処理へ戻り、停止されている場合(ステップST33「YES」)、処理を終了する。
図18は、機能実行ボタンを表示するフローチャートを示している。なお、ステップST41からステップST43の処理は、図7のフローチャートのステップST11からステップST13と同一であるため説明を省略する。
判定部14は、入力受信部5から取得したユーザの操作内容が、予め定義されている操作と一致する場合(ステップST43「YES」)、処理部12に対して音声認識開始指示を出力する。処理部12は、判定部14から音声認識開始指示を受けると、音声データ格納部20から音声データを取得し(ステップST44)、当該取得した音声データに対して音声認識処理を行い、認識結果を生成部16へ出力する(ステップST45)。
以上のように、この実施の形態3によれば、音声認識部11は、判定部14においてユーザが予め定められた操作または動作を行ったと判定された場合に、音声取得部10が音声取得期間に亘って取得しておいた音声を認識する構成にしたので、音声認識処理が行われていないときに、地図画面描画処理等の他の処理にメモリ等のリソースを割り当てることができるようになり、音声操作以外のユーザ操作に対する応答速度を向上させることができる。
なお、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、各実施の形態の任意の構成要素の変形、または各実施の形態の任意の構成要素の省略が可能である。
この発明に係る音声認識システムは、ユーザが必要とするタイミングで機能実行ボタンを提示するようにしたので、ユーザの発話を常時認識する音声認識システムなどに用いるのに適している。
1 ナビゲーションシステム(被制御装置)、2 音声認識システム、3 制御部、4 指示入力部、5 入力受信部、6 ナビゲーション部、7 音声制御部、8 スピーカ、9 マイク、10 音声取得部、11 音声認識部、12 処理部、13 認識結果格納部、14 判定部、15 表示制御部、16 生成部、17 描画部、18 表示部、19 優先度付与部、20 音声データ格納部、100 バス、101 CPU、102 ROM、103 RAM、104 HDD、105 入力装置、106 出力装置。

Claims (6)

  1. 会話中の音声を、予め設定された音声取得期間に亘って取得する音声取得部と、
    音声認識開始指示がなくても、予め定義されている機能が割り当てられた機能実行ボタンの表示内容に対応して前記音声取得部が前記音声取得期間に亘って取得した会話中の音声を認識し、認識結果として保持する音声認識部と、
    前記音声認識部の認識結果に対して予め定義されている機能が割り当てられた機能実行ボタンを表示部に表示するきっかけとなる、予め定められた操作または動作を行ったか否かを判定する判定部と、
    前記判定部において、前記予め定められた操作または動作を行ったと判定された場合、前記音声認識部に保持されている前記認識結果に対して予め定義されている機能を被制御装置に実行させる前記機能実行ボタンを前記表示部に表示させる表示制御部と、
    を備えることを特徴とする音声認識システム。
  2. 前記音声認識部は、前記認識結果を複数保持し、
    前記表示制御部は、前記音声認識部に保持されている複数の前記認識結果の各々に対する前記機能実行ボタンを前記表示部に表示させることを特徴とする請求項1記載の音声認識システム。
  3. 前記認識結果に対して優先度を付与する優先度付与部を備え、
    前記表示制御部は、前記優先度が高い認識結果に対応する機能実行ボタンを優先して出力することを特徴とする請求項1記載の音声認識システム。
  4. 前記判定部は、ユーザが行う操作または動作と前記音声認識部の認識結果の種別との対応関係を示す情報を用いて、前記操作また前記動作を行ったと判定した場合に対応する種別を判定し、
    前記表示制御部は、前記音声認識部の認識結果の中から前記判定部が判定した種別に一致する認識結果を選択し、当該選択した認識結果に対して予め定義されている機能を前記被制御装置に実行させる前記機能実行ボタンを前記表示部に表示させることを特徴とする請求項1記載の音声認識システム。
  5. 前記表示制御部は、前記音声認識部の認識結果の種別に応じて、前記機能実行ボタンの表示態様を変更することを特徴とする請求項1記載の音声認識システム。
  6. 前記音声認識部の認識結果に対して、種別ごとに優先度を付与する優先度付与部を備え、前記表示制御部は、前記優先度付与部が前記音声認識部の認識結果に対して付与した優先度に基づいて、前記機能実行ボタンの表示態様を変更することを特徴とする請求項5記載の音声認識システム。
JP2016565813A 2014-12-26 2014-12-26 音声認識システム Expired - Fee Related JP6522009B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/084571 WO2016103465A1 (ja) 2014-12-26 2014-12-26 音声認識システム

Publications (2)

Publication Number Publication Date
JPWO2016103465A1 JPWO2016103465A1 (ja) 2017-04-27
JP6522009B2 true JP6522009B2 (ja) 2019-05-29

Family

ID=56149553

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016565813A Expired - Fee Related JP6522009B2 (ja) 2014-12-26 2014-12-26 音声認識システム

Country Status (5)

Country Link
US (1) US20170301349A1 (ja)
JP (1) JP6522009B2 (ja)
CN (1) CN107110660A (ja)
DE (1) DE112014007288T5 (ja)
WO (1) WO2016103465A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6346281B2 (ja) * 2014-07-04 2018-06-20 クラリオン株式会社 車載対話型システム、及び車載情報機器
US11176930B1 (en) 2016-03-28 2021-11-16 Amazon Technologies, Inc. Storing audio commands for time-delayed execution
DE102018006480A1 (de) * 2018-08-16 2020-02-20 Daimler Ag Schlüsselvorrichtung zum Einstellen eines Fahrzeugparameters
JP2020144209A (ja) * 2019-03-06 2020-09-10 シャープ株式会社 音声処理装置、会議システム、及び音声処理方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3380992B2 (ja) * 1994-12-14 2003-02-24 ソニー株式会社 ナビゲーションシステム
US8768286B2 (en) * 2001-10-24 2014-07-01 Mouhamad Ahmad Naboulsi Hands on steering wheel vehicle safety control system
JP3948357B2 (ja) * 2002-07-02 2007-07-25 株式会社デンソー ナビゲーション支援システム、移動装置、ナビゲーション支援サーバおよびコンピュータプログラム
JP2004239963A (ja) * 2003-02-03 2004-08-26 Mitsubishi Electric Corp 車載制御装置
US20120253823A1 (en) * 2004-09-10 2012-10-04 Thomas Barton Schalk Hybrid Dialog Speech Recognition for In-Vehicle Automated Interaction and In-Vehicle Interfaces Requiring Minimal Driver Processing
JP2010205130A (ja) * 2009-03-05 2010-09-16 Denso Corp 制御装置
US9213466B2 (en) * 2009-07-20 2015-12-15 Apple Inc. Displaying recently used functions in context sensitive menu
JP2011080824A (ja) * 2009-10-06 2011-04-21 Clarion Co Ltd ナビゲーション装置
JP2011113483A (ja) * 2009-11-30 2011-06-09 Fujitsu Ten Ltd 情報処理装置、オーディオ装置及び情報処理方法
US9417754B2 (en) * 2011-08-05 2016-08-16 P4tents1, LLC User interface system, method, and computer program product
US20180032997A1 (en) * 2012-10-09 2018-02-01 George A. Gordon System, method, and computer program product for determining whether to prompt an action by a platform in connection with a mobile device
CN103917847B (zh) * 2011-11-10 2017-03-01 三菱电机株式会社 导航装置及方法
KR101992676B1 (ko) * 2012-07-26 2019-06-25 삼성전자주식회사 영상 인식을 이용하여 음성 인식을 하는 방법 및 장치
US9767799B2 (en) * 2013-05-21 2017-09-19 Mitsubishi Electric Corporation Voice recognition system and recognition result display apparatus
US20150052459A1 (en) * 2013-08-13 2015-02-19 Unisys Corporation Shortcut command button for a hierarchy tree
KR20150025214A (ko) * 2013-08-28 2015-03-10 삼성전자주식회사 동영상에 비주얼 객체를 중첩 표시하는 방법, 저장 매체 및 전자 장치
KR102231105B1 (ko) * 2013-09-05 2021-03-24 삼성전자주식회사 제어 장치 및 그 제어 방법
US9383827B1 (en) * 2014-04-07 2016-07-05 Google Inc. Multi-modal command display
US9576575B2 (en) * 2014-10-27 2017-02-21 Toyota Motor Engineering & Manufacturing North America, Inc. Providing voice recognition shortcuts based on user verbal input

Also Published As

Publication number Publication date
CN107110660A (zh) 2017-08-29
DE112014007288T5 (de) 2017-09-07
WO2016103465A1 (ja) 2016-06-30
US20170301349A1 (en) 2017-10-19
JPWO2016103465A1 (ja) 2017-04-27

Similar Documents

Publication Publication Date Title
JP6400109B2 (ja) 音声認識システム
JP6570651B2 (ja) 音声対話装置および音声対話方法
JP5762660B2 (ja) 音声認識装置、認識結果表示装置および表示方法
JP5925313B2 (ja) 音声認識装置
JP5637131B2 (ja) 音声認識装置
WO2015128960A1 (ja) 車載制御装置および車載制御方法
CN105355202A (zh) 语音识别装置、具有语音识别装置的车辆及其控制方法
JP6522009B2 (ja) 音声認識システム
CN105448293B (zh) 语音监听及处理方法和设备
JP2014071446A (ja) 音声認識システム
JP6214297B2 (ja) ナビゲーション装置および方法
WO2021208531A1 (zh) 一种语音处理方法、装置和电子设备
WO2004019197A1 (ja) リズムパターンを用いた制御システム、方法およびプログラム
JP6281202B2 (ja) 応答制御システム、およびセンター
JP6832503B2 (ja) 情報提示方法、情報提示プログラム及び情報提示システム
JP2014065359A (ja) 表示制御装置、表示システム及び表示制御方法
JP2007286376A (ja) 音声案内システム
JP3296783B2 (ja) 車載用ナビゲーション装置および音声認識方法
JP2015129672A (ja) 施設検索装置および方法
JP5446540B2 (ja) 情報検索装置、制御方法及びプログラム
JP4093394B2 (ja) 音声認識装置
WO2015102039A1 (ja) 音声認識装置
JP2017102320A (ja) 音声認識装置
JP2008233009A (ja) カーナビゲーション装置及びカーナビゲーション装置用プログラム
JP7010585B2 (ja) 音コマンド入力装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161117

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180807

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181002

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190326

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190423

R150 Certificate of patent or registration of utility model

Ref document number: 6522009

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees