JP2017037176A - 音声操作システム、サーバー装置、車載機器および音声操作方法 - Google Patents

音声操作システム、サーバー装置、車載機器および音声操作方法 Download PDF

Info

Publication number
JP2017037176A
JP2017037176A JP2015158152A JP2015158152A JP2017037176A JP 2017037176 A JP2017037176 A JP 2017037176A JP 2015158152 A JP2015158152 A JP 2015158152A JP 2015158152 A JP2015158152 A JP 2015158152A JP 2017037176 A JP2017037176 A JP 2017037176A
Authority
JP
Japan
Prior art keywords
voice
task
vehicle
unit
estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015158152A
Other languages
English (en)
Other versions
JP6621613B2 (ja
Inventor
山口 隆
Takashi Yamaguchi
隆 山口
靖 永井
Yasushi Nagai
靖 永井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Faurecia Clarion Electronics Co Ltd
Original Assignee
Clarion Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Clarion Co Ltd filed Critical Clarion Co Ltd
Priority to JP2015158152A priority Critical patent/JP6621613B2/ja
Priority to CN201680041843.3A priority patent/CN107851437B/zh
Priority to US15/745,556 priority patent/US10540969B2/en
Priority to EP16834936.3A priority patent/EP3336836A4/en
Priority to PCT/JP2016/071435 priority patent/WO2017026239A1/ja
Publication of JP2017037176A publication Critical patent/JP2017037176A/ja
Application granted granted Critical
Publication of JP6621613B2 publication Critical patent/JP6621613B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Navigation (AREA)

Abstract

【課題】 本発明の目的は、容易に音声認識を正確に行わせる技術を提供することにある。
【解決手段】
車載機器とサーバー装置とを備える音声操作システムであって、車載機器は、音声入力受付部と、車両環境情報管理部と、入力情報と車両環境情報をサーバー装置へ送信した後、サーバー装置から受信した実行タスク候補を音声認識の誤認識の推定要因とともに出力し許可を受け付けると実行タスク候補を実行する指示を送信する出力制御部とを備え、サーバー装置は、車載機器から入力情報と車両環境情報とを受け付け入力情報を文字列変換する音声データ処理部と、文字列に応じた実行タスク候補を特定するとともに入力情報と車両環境情報とを用いて信頼度と誤認識の推定要因を特定するタスク推定部と、信頼度が所定未満であれば推定要因と実行タスク候補とを送信するユーザー確認要否判定部と、タスク処理部と、を備える。
【選択図】図1

Description

本発明は、音声操作システム、サーバー装置、車載機器および音声操作方法の技術に関するものである。
従来、入力音声に対し音声認識処理と意味解析処理を行い、意味項目候補とその尤度を出力する音声理解部と、意味項目候補とその尤度から意味項目の信頼度を計算する信頼度計算部と、意味項目の信頼度を補正するための補正パラメータを記憶する補正パラメータ記憶部と、信頼度と補正パラメータから、意味項目の補正信頼度を計算する信頼度補正部と、入力された個々の意味項目に対し、補正信頼度を用いて、意味項目の正誤をユーザに確認するか否かを決定してユーザへの応答文を出力し、更にユーザとのやり取りを対話履歴データとして対話履歴記憶部に書き込む対話管理部と、対話履歴データを用いて、前記補正パラメータ記憶部に記憶された補正パラメータを更新する補正パラメータ調整部とを備えることを特徴とする音声対話処理装置についての技術が、特許文献1に記載されている。
特開2005−181386号公報
上記のような技術では、ユーザーは音声認識結果の訂正のために再発話することができるが、正常に認識されるまで何度も発話を行う以外に対処のしようがなく、必ずしも利用者の利便性に寄与するものではなかった。
本発明の目的は、容易に音声認識を正確に行わせる技術を提供することにある。
本発明は、上記課題の少なくとも一部を解決する手段を複数含んでいるが、その例を挙げるならば、以下のとおりである。上記課題を解決すべく、本発明に係る音声操作システムは、車載機器と、当該車載機器と通信可能なサーバー装置と、を備える音声操作システムであって、上記車載機器は、音声による入力情報を受け付ける音声入力受付部と、当該車載機器が備えられた車両の環境を特定する車両環境情報を取得する車両環境情報管理部と、上記入力情報および上記車両環境情報を上記サーバー装置へ送信した後、上記サーバー装置から受信した実行タスク候補を音声認識の誤認識の推定要因とともに出力し、当該実行タスク候補の実行許可を受け付けると当該実行タスク候補を実行する指示を前記サーバー装置へ送信する出力制御部と、を備え、上記サーバー装置は、上記車載機器から上記入力情報と上記車両環境情報とを受け付けると、上記入力情報を文字列変換する音声データ処理部と、上記音声データ処理部により変換された文字列に応じた実行タスク候補を特定するとともに、上記入力情報と上記車両環境情報とを用いて信頼度を特定し、誤認識の推定要因があれば特定するタスク推定部と、上記信頼度が所定未満であれば、上記音声認識の誤認識の推定要因と、上記実行タスク候補と、を上記車載機器へ送信するユーザー確認要否判定部と、上記実行タスク候補を実行するタスク処理部とを備える。
本願発明によれば、容易に音声認識を正確に行わせる技術を提供することが可能となる。上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされる。
第一の実施形態に係る音声操作システムの構造を示す図である。 タスク推定結果履歴記憶部のデータ構造を示す図である。 信頼度低下要因記憶部のデータ構造を示す図である。 タスク記憶部のデータ構造を示す図である。 第一の実施形態に係る車載機器のハードウェア構造を示す図である。 第一の実施形態に係るサーバー装置のハードウェア構造を示す図である。 タスク実行処理の流れを示す図である。 タスク実行処理の画面出力の例(その1)を示す図である。 タスク実行処理の画面出力の例(その2)を示す図である。 第二の実施形態に係る音声操作システムの構造を示す図である。
以下に、本発明に係る第一の実施形態および第二の実施形態を適用した音声操作システムについて、図面を参照して説明する。なお、図1〜10は、音声操作システムの全ての構成を示すものではなく、理解容易のため、適宜、構成の一部を省略して描いている。
図1に、第一の実施形態に係る音声操作システムの構造を示す。第一の実施形態に係る音声操作システムにおいては、車載機器100と、サーバー装置200と、がネットワーク50を介して通信可能に接続されている。ネットワーク50は、例えばインターネット網や携帯電話網等の公衆無線通信網であることが望ましいが、所定の管理地域ごとに設けられた閉鎖的な通信網であってもよい。より具体的には、ネットワーク50は、インターネット、LAN(Local Area Network)、WAN(Wide Area Network)、WiFi(登録商標)等の無線ネットワーク、Bluetooth(登録商標)等の近距離無線等の、各種通信方法による通信網である。
車載機器100は、車両に搭載され、車両に搭載された他の機器と所定の通信を行うことが可能な情報処理装置である。本実施形態においては、車載機器100は、現在位置情報や経路情報等を取得することが可能なナビゲーション装置である。しかし、本願発明の対象となる車載機器100は、図1に示す車載機器100に限られるものではない。例えば、移動体に組み込まれた各種制御機器であってもよい。また、車載機器100は、車両に着脱可能に設けられるものであってもよい。あるいは、車載機器100は、車両の運転者あるいは乗員が有する携帯電話機器等の移動端末であってもよく、例えばスマートフォンやフィーチャーフォン、あるいはPDA(Personal Digital Assistance)、ノートパソコン、タブレット端末等であってもよい。
車載機器100は、制御部110と、記憶部120と、を含んで構成される。制御部110には、音声入力受付部111と、車両環境情報管理部112と、タスク推定結果履歴管理部113と、音声出力部114と、出力制御部115と、が含まれる。記憶部120には、タスク推定結果履歴記憶部121と、信頼度低下要因記憶部122と、が含まれる。
音声入力受付部111は、ユーザーからの音声入力を受け付ける。車両環境情報管理部112は、車載機器100が搭載された車両に係る所定の環境情報を取得し、保持し、提供する。具体的には、車両環境情報には、例えば、外気温、降雨情報、走行速度、車内騒音レベル、窓の開放状況、ドアの開放状況、車両の乗員数、道路種別等の情報である。タスク推定結果履歴管理部113は、サーバー装置200に依頼した実行タスク候補の推定の結果得られた実行タスク候補に関して、その履歴を管理する。具体的には、後述するタスク推定結果履歴記憶部121の情報の入出力を管理する。また、タスク推定結果履歴管理部113は、サーバー装置200に依頼した実行タスク候補の推定の結果得られた実行タスク候補に関して、音声認識の信頼度が所定以下である場合、すなわち誤認識の場合に推定される要因の履歴を管理する。具体的には、後述する信頼度低下要因記憶部122の情報の入出力を管理する。
音声出力部114は、サーバー装置200から受信した実行タスク候補の確認案内に関する音声案内あるいはタスクの実行結果を音声により出力する制御を行う。
出力制御部115は、サーバー装置200から受信した実行タスク候補の確認案内に関する案内表示あるいはタスクの実行結果表示を画面情報により出力する制御を行う。出力の画面としては、さまざまな画面が想定されるが、図8に示すタスク実行処理の画面出力の例(その1)300あるいは図9に示すタスク実行処理の画面出力の例(その2)400のような出力の画面であってよい。それぞれの画面例については、後述する。また、出力制御部115は、音声情報および車両環境情報をサーバー装置200へ送信した後、サーバー装置200から受信した実行タスク候補を音声認識信頼度の誤認識の推定要因とともに出力し、当該実行タスク候補の実行許可を受け付けると当該実行タスク候補を実行する指示をサーバー装置200へ送信する。
図2は、タスク推定結果履歴記憶部121のデータ構造を示す図である。タスク推定結果履歴記憶部121は、サーバー装置200に依頼した実行タスク候補の推定の結果得られた実行タスク候補に関して、その履歴を記憶する。具体的には、タスク推定結果履歴記憶部121には、発話識別子121Aと、推定タスク121Bと、信頼度121Cと、誤認識フラグ121Dと、が含まれる。発話識別子121Aは、所定の連続する時間において発話された音声を識別する情報である。推定タスク121Bは、発話識別子121Aにより特定される音声を用いて推定された推定タスクを特定する情報である。信頼度121Cは、推定タスク121Bにより特定されるタスクの推定の信頼度を特定する情報である。誤認識フラグ121Dは、推定タスク121Bにより特定されるタスクの推定が誤っていたか否かを特定するフラグである。なお、本実施形態においては、誤認識フラグ121Dが「Y」となる場合は、推定が誤っていたことを示し、そうでない場合には推定が誤っていたか未確認であることを示す。
図3は、信頼度低下要因記憶部122のデータ構造を示す図である。信頼度低下要因記憶部122は、サーバー装置200に依頼した実行タスク候補の推定の結果得られた実行タスク候補に関して、信頼度が低下している要因を記憶する。具体的には、信頼度低下要因記憶部122には、発話識別子122Aと、要因122Bと、要因該当フラグ122Cと、が含まれる。発話識別子122Aは、所定の連続する時間において発話された音声を識別する情報である。要因122Bは、発話識別子122Aにより特定される発話の信頼性を低下させている要因を特定する情報である。要因該当フラグ122Cは、要因122Bが、信頼性が低下している要因であるか否かを特定するフラグである。本実施形態においては、要因該当フラグ122Cが「Y」となる場合は、要因が該当したことを示し、そうでない場合には要因に該当しなかったか未確認であることを示す。
サーバー装置200は、制御部210と、記憶部220と、を含んで構成される情報処理装置である。サーバー装置200は、車載機器100から音声情報、または音声情報と車両環境情報と、を含む推定タスク候補の要求を受け付けると、要求に応じた推定タスク候補の情報を提供する。
サーバー装置200の記憶部220には、タスク記憶部221が含まれる。
図4は、タスク記憶部221のデータ構造を示す図である。タスク記憶部221は、タスクと、そのタスク開始のためのキーワードを記憶する。具体的には、タスク記憶部221には、タスク識別子221Aと、実行タスク221Bと、開始キーワード221Cと、が含まれる。タスク識別子221Aは、タスクを特定する情報である。なお、タスクとは、分解不能な処理単位のことであり、例えば経路検索、施設検索、楽曲再生等の処理の単位である。
実行タスク221Bは、タスク識別子221Aにより特定されるタスクの実体のエントリポイントを特定する情報である。すなわち、具体的には、実行タスク221Bは、タスクのプログラムの開始アドレスであってもよいし、URI(Uniform Resource Identifier)であってもよい。
開始キーワード221Cは、タスク識別子221Aにより特定されるタスクを開始させるためのトリガーとなる一つまたは複数のキーワードである。たとえば、経路検索タスクを開始させるキーワードは、「経路検索」、「行きたい」、「ルート」、「どの道」、・・・等の所定のキーワードとして開始キーワード221Cに格納される。その他、施設検索タスクを開始させるキーワードは、施設の名称そのものや、施設のジャンル(コンビニエンスストア、レストラン、駅等)の指定であってもよい。
サーバー装置200の制御部210には、音声データ処理部211と、タスク推定部212と、ユーザー確認要否判定部213と、タスク処理部214と、が含まれる。
音声データ処理部211は、入力音声データを発話内容の文字列に変換する。また、音声データ処理部211は、入力音声データの信号成分(発話音圧)と雑音成分(騒音音圧)との大きさを推定する。また、音声データ処理部211は、雑音成分の波形の特徴を根拠として、パターンの類似比較等の方法により騒音の要因を推定する。
タスク推定部212は、入力された情報から発話意図に応じたタスクを推定し、その信頼度を算出する。また、タスク推定部212は、信頼度を低下させていると推定される要因を抽出する。本実施形態においては、信頼度を決定付ける要因に、音声入力のS/N比(発話音圧と騒音音圧の比)、車両の走行速度、車両環境情報の信頼度低下要因比、を想定する。S/N比については、あらかじめ定めたS/N比の閾値以下であれば、信頼度低下要因と考えられる。また、車両の走行速度は、所定の速度を上回ると、信頼度低下要因と考えられる。車両環境情報の信頼度低下要因比は、所定の車両環境情報のうち該当する項目の数の比が高いほど信頼度が低下するものと考える。ただし、本実施形態における信頼度決定方法に限定されず、他の方法や要素を用いて信頼度を特定してもよいし、信頼度の低下要因の推定方法についても他の方法や要素を用いて推定するものであってもよい。
ユーザー確認要否判定部213は、推定タスク候補の信頼度が所定の閾値に満たない場合には、発話者に推定タスク候補が正しいものであるか否かを確認する必要があると判定する。確認の必要がある場合には、ユーザー確認要否判定部213は、後述する図8に示すタスク実行処理の画面300あるいは図9に示すタスク実行処理の画面400のような出力の画面情報および案内用の音声情報を車載機器100へ送信し、入力を受け付ける。なお、信頼度を低下させている要因についても、ユーザー確認要否判定部213は、信頼度が低下することを回避する対策方法の案内とともに車載機器100へ送信する。
タスク処理部214は、タスクを実行する。具体的には、信頼度が所定以上に高い推定タスク、あるいは信頼度は所定未満であるがユーザーから実行指示を得た推定タスク候補を、タスク記憶部221の開始キーワード221Cと比較して実行タスク221Bを特定し、実行する。また、タスク処理部214は、実行したタスクの出力情報について、車載機器100へ送信する。
図5は、車載機器100のハードウェア構造を示す図である。車載機器100は、演算処理部20と、ディスプレイ2と、記憶装置3と、音声入出力装置接続装置4(音声入力装置としてマイクロフォン41、音声出力装置としてスピーカ42を備える)と、入力装置5(接触入力装置としてタッチパネル51と、ダイヤルスイッチ52とを備える)と、ROM(Read Only Memory)装置6と、車速センサ7と、ジャイロセンサ8と、GPS(Global Positioning System)受信装置9と、通信装置10と、を備えている。
演算処理部20は、様々な処理を行う中心的ユニットである。例えば各種センサ7,8やGPS受信装置9、通信装置10等から出力される情報に基づいて現在地を算出する。また、得られた現在地の情報に基づいて、表示に必要な地図データを記憶装置3あるいはROM装置6から読み出す。
また、演算処理部20は、読み出した地図データをグラフィックス展開し、そこに現在地を示すマークを重ねてディスプレイ2へ表示する。また、記憶装置3あるいはROM装置6に記憶されている地図データ等を用いて、現在地又はユーザーから指示された出発地と、目的地(または、経由地や立ち寄り地)と、を結ぶ最適な経路である推奨経路を探索する。また、スピーカ42やディスプレイ2を用いてユーザーを誘導する。なお、演算処理部20は、さらに、車載機器100の制御部110の各機能部、すなわち音声入力受付部111、車両環境情報管理部112、タスク推定結果履歴管理部113、音声出力部114、出力制御部115のそれぞれが実行する後述の処理を行う。
車載機器100の演算処理部20は、各デバイス間をバス25で接続した構成である。演算処理部20は、数値演算及び各デバイスを制御するといった様々な処理を実行するCPU(Central Processing Unit)21と、記憶装置3から読み出した地図データ、演算データなどを格納するRAM(Random Access Memory)22と、プログラムやデータを格納するROM23と、各種ハードウェアを演算処理部20と接続するためのI/F(インターフェース)24と、を有する。
ディスプレイ2は、演算処理部20等で生成されたグラフィックス情報を表示するユニットである。ディスプレイ2は、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイなど各種のディスプレイ装置で構成される。
記憶装置3は、HDD(Hard Disk Drive)やSSD(Solid
State Drive)、不揮発性メモリカードといった、少なくとも読み書きが可能な記憶媒体で構成される。
この記憶媒体には、通常の経路探索装置に必要な地図データ(地図上の道路を構成するリンクのリンクデータを含む)である地図情報が記憶されている。
音声入出力装置接続装置4は、音声入力装置としてマイクロフォン41と、音声出力装置としてスピーカ42と、に接続して使用可能とする。マイクロフォン41は、ユーザーやその他の搭乗者が発した声、車両の所定の位置で集音される外部の音などの車載機器100の外部の音声を取得する。
スピーカ42は、演算処理部20で生成されたユーザーへのメッセージを音声として出力する。マイクロフォン41とスピーカ42は、車両の所定の部位に、別個に配されている。ただし、一体の筐体に収納されていても良い。車載機器100は、マイクロフォン41及びスピーカ42を、それぞれ複数備えることができる。
入力装置5は、ユーザーからの指示をユーザーの手による操作を介して受け付ける装置である。入力装置5は、タッチパネル51と、ダイヤルスイッチ52と、その他のハードスイッチ(図示しない)であるスクロールキー、縮尺変更キーなどで構成される。また、入力装置5には、車載機器100に対して遠隔で操作指示を行うことができるリモートコントローラが含まれる。リモートコントローラは、ダイヤルスイッチやスクロールキー、縮尺変更キーなどを備え、各キーやスイッチが操作された情報を車載機器100に送出することができる。
タッチパネル51は、ディスプレイ2の表示面側に搭載され、表示画面を透視可能である。タッチパネル51は、ディスプレイ2に表示された画像のXY座標と対応したタッチ位置を特定し、タッチ位置を座標に変換して出力する。タッチパネル51は、感圧式または静電式の入力検出素子などにより構成される。なお、タッチパネル51は、同時に複数のタッチ位置を検出することのできるマルチタッチを実現できるものであってもよい。
ダイヤルスイッチ52は、時計回り及び反時計回りに回転可能に構成され、所定の角度の回転ごとにパルス信号を発生し、演算処理部20に出力する。演算処理部20では、パルス信号の数から、回転角度を求める。
ROM装置6は、CD-ROMやDVD-ROM等のROMや、IC(Integrated Circuit)カードといった、少なくとも読み取りが可能な記憶媒体で構成されている。この記憶媒体には、例えば、動画データや、音声データなどが記憶されている。
車速センサ7,ジャイロセンサ8およびGPS受信装置9は、車載機器100で現在地(例えば、自車位置)を検出するために使用されるものである。車速センサ7は、車速を算出するのに用いる値を出力するセンサである。ジャイロセンサ8は、光ファイバジャイロや振動ジャイロ等で構成され、移動体の回転による角速度を検出するものである。GPS受信装置9は、GPS衛星からの信号を受信し移動体とGPS衛星間の距離と距離の変化率とを3個以上の衛星に対して測定することで移動体の現在地、進行速度および進行方位を測定するものである。
通信装置10は、サーバー装置200と通信可能なアクセス制御装置との通信を開始、継続、終了させる。通信装置10は、例えばインターネット、LAN、WAN、WiFi(登録商標)等の無線ネットワーク、Bluetooth(登録商標)等の近距離無線、等の各種通信方法によりアクセス制御装置に接続する。また、通信装置10は、定期的あるいは所定のタイミングでアクセス制御装置の発見および接続を試み、接続可能なアクセス制御装置に対して通信を確立させる。
上記した車載機器100の制御部110の各機能部、すなわち音声入力受付部111、車両環境情報管理部112、タスク推定結果履歴管理部113、音声出力部114、出力制御部115は、CPU21が所定のプログラムを読み込み実行することにより構築される。そのため、RAM22には、各機能部の処理を実現するためのプログラムが記憶されている。
なお、上記した各構成要素は、車載機器100の構成を、理解を容易にするために、主な処理内容に応じて分類したものである。そのため、構成要素の分類の仕方やその名称によって、本願発明が制限されることはない。車載機器100の構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。また、1つの構成要素がさらに多くの処理を実行するように分類することもできる。
また、各機能部は、CPUに限らず他のハードウェア(ASIC、GPUなど)により構築されてもよい。また、各機能部の処理が一つのハードウェアで実行されてもよいし、複数のハードウェアで実行されてもよい。
図6は、サーバー装置200のハードウェア構造を示す図である。サーバー装置200は、入力受付装置201と、演算装置202と、外部記憶装置203と、主記憶装置204と、通信装置205と、これらをつなぐバス206と、を含んで構成される。
上記した制御部210の各機能部、すなわち音声データ処理部211、タスク推定部212、ユーザー確認要否判定部213、タスク処理部214は、演算装置202が所定のプログラムを読み込み実行することにより構築される。そのため、主記憶装置204あるいは外部記憶装置203には、各機能部の処理を実現するためのプログラムが記憶されている。
なお、上記した各構成要素は、サーバー装置200の構成を、理解を容易にするために、主な処理内容に応じて分類したものである。そのため、構成要素の分類の仕方やその名称によって、本願発明が制限されることはない。サーバー装置200の構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。また、1つの構成要素がさらに多くの処理を実行するように分類することもできる。
また、各機能部は、CPUに限らずハードウェア(ASIC、GPUなど)により構築されてもよい。また、各機能部の処理が一つのハードウェアで実行されてもよいし、複数のハードウェアで実行されてもよい。
[動作の説明]次に、車載機器100およびサーバー装置200が実施するタスク実行処理の動作について説明する。
図7は、タスク実行処理の流れを示す図である。タスク実行処理は、ユーザーからの音声入力に応じ開始される。
まず、車載機器100の音声入力受付部111は、入力された音声を受け付けて、デジタル情報に変換して保存する(ステップS001)。
そして、車両環境情報管理部112は、車両環境情報を取得する(ステップS002)。具体的には、車両環境情報管理部112は、車速センサ7を用いて車速を取得し、ジャイロセンサ8を用いて回転角を取得する。また他にも、車両環境情報管理部112は、図示しない加速度センサを用いて複数軸の加速度を取得し、GPS受信装置9を用いて位置情報を取得する。その他、車両環境情報管理部112は、図示しない雨量センサを用いて降雨量を取得し、マイクロフォン41を用いて車内あるいは車外の周囲の音を取得する。また、車両環境情報管理部112は、図示しないCAN(Contriller Area Network)等の車両内ネットワークに接続された他の機器等から、車両の窓の開閉状況を取得する。そして、取得した情報を車両環境情報として音声情報に付加してサーバー装置200へ送信する。
そして、サーバー装置200の音声データ処理部211は、入力音声情報を文字列変換する(ステップS003)。具体的には、音声データ処理部211は、所定のアルゴリズムにより入力音声から単語を切り出し、単語の認識を行い、単語を文字列変換する。
そして、音声データ処理部211は、入力音声データの発話音圧と騒音音圧とを特定する(ステップS004)。具体的には、音声データ処理部211は、入力音声データの信号成分(発話音圧)と雑音成分(騒音音圧)との大きさを所定のアルゴリズムにより推定する。
そして、音声データ処理部211は、雑音成分の特徴から、騒音要因を推定する(ステップS005)。具体的には、音声データ処理部211は、雑音成分の波形の特徴を根拠として、パターンの類似の比較等の方法により騒音の要因を推定する。
そして、タスク推定部212は、タスクを一つまたは複数推定してそれぞれの信頼度を算出し、信頼度が低下している要因を推定する(ステップS006)。具体的には、タスク推定部212は、音声入力のS/N比(発話音圧と騒音音圧の比)、車両の走行速度、車両環境情報の信頼度低下要因比、を用いて、推定したタスクの信頼度を算出する。そして、タスク推定部212は、算出した信頼度が所定の閾値以下である場合には、信頼度が低下している要因として、音声入力のS/N比(発話音圧と騒音音圧の比)、車両の走行速度、車両環境情報の信頼度低下要因比のそれぞれの所定の閾値と比較して下回っている要因を特定する。そして、タスク推定部212は、車載機器100のタスク推定結果履歴管理部113に問い合わせて、信頼度低下要因記憶部122に格納された要因であって要因該当フラグ122Cが「No」となっている要因を取得する。そして、タスク推定部212は、当該閾値を下回った要因からこれらの要因該当フラグ122Cが「No」である要因を除外して信頼度低下の要因と推定する。
そして、タスク推定部212は、推定タスクから履歴上の誤認結果を除外する(ステップS007)。具体的には、タスク推定部212は、ステップS006において推定した推定タスクについて、当該発話に対して認識した結果、ユーザー確認により誤りとされた推定タスクについては、推定タスクから除外する。また、タスク推定部212は、車載機器100のタスク推定結果履歴管理部113に問い合わせて、タスク推定結果履歴記憶部121に格納された推定タスクであって誤認識フラグ121Dが「Y」である要因を取得する。そして、タスク推定部212は、当該推定タスクからこれらの誤認識フラグ121Dが「Y」であるタスクを除外して推定タスクとする。
そして、ユーザー確認要否判定部213は、推定タスクのうち最高の信頼度を有する推定タスクの信頼度は所定以下であるか否かを判定する(ステップS008)。当該判定の結果、最高の信頼度を有する推定タスクの信頼度が所定以下でない場合には、後述のステップS011へ制御を進める。
推定タスクのうち最高の信頼度を有する推定タスクの信頼度は所定以下である場合(ステップS008にて「Yes」の場合)には、車載機器100のタスク推定結果履歴管理部113は推定結果を履歴に保存し、出力制御部115はタスク確認画面を表示する(ステップS009)。具体的には、まず、ユーザー確認要否判定部213は、最高の信頼度を有する推定タスクと、その信頼度と、その信頼度低下要因とを車載機器100へ送信し、タスク推定結果履歴管理部113は推定タスクおよびその信頼度をタスク推定結果履歴記憶部121に格納し、信頼度低下要因を信頼度低下要因記憶部122に保存し、要因該当フラグ122Cを「Yes」に設定する。そして、タスク推定結果履歴管理部113は、タスク確認画面を表示するよう出力制御部115に指示する。そして、再発話の指示をユーザーから受け付けると、出力制御部115は、音声出力部114による信頼度低下要因に対する対処方法を案内して、制御をステップS001へ戻す。その処理においては、タスク推定結果履歴管理部113は推定タスクについて誤認識フラグ121Dを「Y」に設定する。
タスク確認画面において推定タスクの確認を受け付けると、出力制御部115は、確認されたタスクをサーバー装置200へ通知する(ステップS010)。具体的には、出力制御部115は、推定タスクを積極的に肯定する指示を受け付けるか、何も操作がなされないまま所定の時間(たとえば、5秒)が経過すると、推定タスクが確認されたものとして、その旨をサーバー装置200へ送信する。
そして、タスク処理部214は、確認済みタスクまたは最高の信頼度を有する推定タスクを開始する(ステップS011)。具体的には、タスク処理部214は、確認された推定タスクあるいは信頼度が所定以上に高いタスクについては、タスク記憶部221の開始キーワード221Cと比較して対応する実行タスク221Bを引き当て、実行する。
そして、タスク処理部214は、タスク出力を送信する(ステップS012)。具体的には、タスク処理部214は、ステップS011において開始されたタスクの出力情報を車載機器100へ送信する。
そして、出力制御部115は、タスク推定結果履歴記憶部121と、信頼度低下要因記憶部122と、の内容を削除してタスク出力を表示させる(ステップS013)。
以上が、タスク実行処理の流れである。タスク実行処理によれば、音声により指示された内容を解釈して、推定されるタスクの信頼度が所定以上高い場合にはそのままタスクを実行し、そうでない場合には実行対象のタスクの確認を行って再発話あるいは実行確認を促し、確認のとれたタスクを実行することができる。また、その際、信頼度が低下している要因に対する対処方法について音声案内を行って、ユーザーに具体的な対策を促すことができる。
図8は、タスク実行処理の画面出力の例(その1)を示す図である。タスク実行処理の出力画面の例(その1)300は、信頼度が所定以下の場合に車載機器100に表示される画面の例である。タスク実行処理の出力画面の例(その1)300においては、音声認識の結果の推定タスクと、信頼度低下要因と、を表示する推定結果表示領域301と、再発話を行う指示を受け付けるもう一度発話するボタン311と、推定タスクの確認を受け付けるOKボタン312と、が表示される。なお、もう一度発話するボタン311には、再発話指示を受け付ける期限が表示される。ここで、OKボタン312への指示を受け付けるか、指示なく所定の期限が経過すると、タスクが実行され、その結果であるタスク処理結果画面331が表示される。
もう一度発話するボタン311への指示を受け付けると、準備中画面321が表示され、その際に音声により信頼度低下要因に応じた対処法が音声により案内される。例えば、「より大きな声で話すと認識しやすくなります」(発話音圧が低い場合)または「静かな状態でお話ください」(S/N比が低い場合)等の、信頼度低下要因に応じた案内がなされる。
そして、案内が終わると、ユーザーが発話を終了させるまで、発話を受け付ける発話画面322が表示される。
図9は、タスク実行処理の画面出力の例(その2)を示す図である。タスク実行処理の出力画面の例(その2)400は、信頼度が所定以下の場合に車載機器100に表示される画面の例である。タスク実行処理の出力画面の例(その2)400においては、音声認識の結果の推定タスクと、信頼度低下要因と、を表示する推定結果表示領域401と、再発話を行う指示を受け付けるもう一度発話するボタン411と、推定タスクの確認を受け付けるOKボタン412と、が表示される。なお、もう一度発話するボタン411には、再発話指示を受け付ける期限が表示される。ここで、OKボタン412への指示を受け付けるか、指示なく所定の期限が経過すると、タスクが実行され、その結果であるタスク処理結果画面431が表示される。
もう一度発話するボタン411への指示を受け付けると、準備中画面421が表示され、その際に音声により信頼度低下要因に応じた対処法が音声により案内される。例えば、「ピッと鳴り終わってからお話ください」(発話入力受付開始時の音圧がすでに所定以上に高い場合)等の、信頼度低下要因に応じた案内がなされる。
そして、案内が終わると、ユーザーが発話を終了させるまで、発話を受け付ける発話画面422が表示される。
以上が、第一の実施形態に係る音声操作システムである。第一の実施形態によれば、容易に音声認識を正確に行わせることができるといえる。
ただし、本発明は、上記の実施形態に制限されない。上記の第一の実施形態は、本発明の技術的思想の範囲内で様々な変形が可能である。
図10は、第二の実施形態に係る音声操作システムの構造を示す図である。第二の実施形態に係る音声操作システムは、基本的に第一の実施形態と同様の構造であるが、一部において相違がある。以下、その相違点を中心に説明する。
第二の実施形態に係る音声操作システムにおいては、サーバー装置200´は、制御部210´を備える。制御部210´は、音声データ処理部211に代えて、音声認識処理委託部211´を備える。音声認識処理委託部211´は、受け取った音声情報を音声認識サーバー装置500へ送信し、発話内容の文字列を取得する。
音声認識サーバー装置500は、ネットワーク50に接続されるサーバー装置である。音声認識サーバー装置500は、音声データ処理部510を備える。音声データ処理部510は、入力音声データを発話内容の文字列に変換する。また、音声データ処理部510は、音声情報の信号成分(発話音圧)と雑音成分(騒音音圧)との大きさを推定する。また、音声データ処理部510は、雑音成分の波形の特徴を根拠として、パターンの類似比較等の方法により騒音の要因を推定する。
以上が、第二の実施形態に係る音声操作システムの構造である。第二の実施形態に係る音声操作システムでは、サーバー装置200´と異なる装置である音声認識サーバー装置500へ、音声認識等の音声データ処理を委譲する。そのため、サーバー装置200´の処理負荷を下げることが可能となり、さらにはより汎用性の高い外部の組織が提供する音声認識処理等についても容易に利用可能となるため、システム構成のバリエーションの柔軟性のみならず、規模の拡張等についても容易となり、さらには精度の向上、管理の容易化も見込むことができる。
また、本発明に係る音声操作システムは、上記第一の実施形態および第二の実施形態に限られず、本発明の技術的思想の範囲内で様々な変形が可能である。例えば、タスク実行処理のステップS009における音声案内は、第一の実施形態に示した案内に限られず、さまざまな変形が可能である。具体的には、発話音圧の推定値が所定の閾値よりも小さい場合には、通知音声の音量を所定よりも大きく出力することが考えられる。このようにすることで、通知を聞き取りやすくするだけでなく、音量につられて発話音量を大きくするよう誘導できる。
またその他、騒音音圧の推定値が騒音音圧の所定の閾値よりも大きい場合には、再発話による音声入力を行わず、タッチ操作やリモコンによる操作、あるいはハードボタンによる操作を促すようにしてもよい。これは、発話者が騒音環境にあることが想定されることから、再発話してもやはり誤認識を繰り返してしまうことを避けることができる。
また、例えば、信頼度の算出に関しては、例えば、音声データのS/Nの推定値よりも所定のS/Nの閾値が小さい場合に所定のポイントを加算するようにしてもよいし、発話時の車速が所定の車速の閾値よりも小さい場合に所定のポイントを加算するようにしてもよい。あるいはまた、車両環境情報の状況があらかじめ定められた条件を満たす度合に応じたポイントを加算するようにしてもよい。もちろん、これらを組み合わせて得たポイントに応じて信頼度を算出するようにしてもよい。このようにすることで、信頼度の算出基準を適正化することができる。
以上、本発明について、実施形態を挙げて説明した。しかし、これに限られず、上記実施形態に記載した特徴的な処理について、別の機器に適用する(例えば、車載機器100に限らず、着脱可能なナビゲーション装置等の携帯端末等に適用する)ことも可能である。
50・・・ネットワーク、100・・・車載装置、110・・・制御部、111・・・音声入力受付部、112・・・車両環境情報管理部、113・・・タスク推定結果履歴管理部、114・・・音声出力部、115・・・出力制御部、120・・・記憶部、121・・・タスク推定結果履歴記憶部、122・・・信頼度低下要因記憶部、200・・・サーバー装置、210・・・制御部、211・・・音声データ処理部、212・・・タスク推定部、213・・・ユーザー確認要否判定部、214・・・タスク処理部、220・・・記憶部、221・・・タスク記憶部

Claims (10)

  1. 車載機器と、当該車載機器と通信可能なサーバー装置と、を備える音声操作システムであって、
    前記車載機器は、
    音声による入力情報を受け付ける音声入力受付部と、
    当該車載機器が備えられた車両の環境を特定する車両環境情報を取得する車両環境情報管理部と、
    前記入力情報および前記車両環境情報を前記サーバー装置へ送信した後、前記サーバー装置から受信した実行タスク候補を音声認識の誤認識の推定要因とともに出力し、当該実行タスク候補の実行許可を受け付けると当該実行タスク候補を実行する指示を前記サーバー装置へ送信する出力制御部と、を備え、
    前記サーバー装置は、
    前記車載機器から前記入力情報と前記車両環境情報とを受け付けると、前記入力情報を文字列変換する音声データ処理部と、
    前記音声データ処理部により変換された文字列に応じた実行タスク候補を特定するとともに、前記入力情報と前記車両環境情報とを用いて信頼度を特定し、誤認識の推定要因があれば特定するタスク推定部と、
    前記信頼度が所定未満であれば、前記音声認識の誤認識の推定要因と、前記実行タスク候補と、を前記車載機器へ送信するユーザー確認要否判定部と、
    前記実行タスク候補を実行するタスク処理部と、
    を備える、
    ことを特徴とする音声操作システム。
  2. 請求項1に記載の音声操作システムであって、
    前記出力制御部は、前記実行タスク候補について再度の入力指示を受け付けると、前記音声認識の誤認識の推定要因の対処方法を音声で通知して、前記音声入力受付部に音声による入力情報の受け付けをさせる、
    ことを特徴とする音声操作システム。
  3. 請求項1に記載の音声操作システムであって、
    前記車載機器は、
    前記実行タスク候補の履歴を管理するタスク推定結果履歴管理部を備え、
    前記タスク推定結果履歴管理部は、前記出力制御部が受信した実行タスク候補を記憶し、
    前記タスク推定部は、
    前記実行タスク候補の特定処理において、前記タスク推定結果履歴管理部が記憶している実行タスク候補を除外する、
    ことを特徴とする音声操作システム。
  4. 請求項1に記載の音声操作システムであって、
    前記車載機器は、
    前記出力制御部が受信した前記音声認識の誤認識の推定要因の履歴を記憶する信頼度低下要因記憶部を備え、
    前記タスク推定結果履歴管理部は、前記出力制御部が受信した前記音声認識の誤認識の推定要因を記憶し、
    前記タスク推定部は、
    前記誤認識の推定要因を特定する処理において、前記信頼度低下要因記憶部が記憶している前記音声認識の誤認識の推定要因を除外する、
    ことを特徴とする音声操作システム。
  5. 請求項1に記載の音声操作システムであって、
    前記出力制御部は、前記実行タスク候補について再度の入力指示を受け付けると、前記音声認識の誤認識の推定要因の対処方法を音声で通知して、前記音声入力受付部に音声による入力情報の受け付けをさせ、当該処理においては、前記音声入力受付部により前回受け付けた音声による前記入力情報の発話音圧が所定の音圧より小さい場合には、前記対処方法を所定の音量以上の音量に増大させて通知する、
    ことを特徴とする音声操作システム。
  6. 請求項1に記載の音声操作システムであって、
    前記出力制御部は、前記実行タスク候補について再度の入力指示を受け付けると、前記音声認識の誤認識の推定要因の対処方法を音声で通知して、前記音声入力受付部に音声による入力情報の受け付けをさせ、当該処理においては、前記音声入力受付部により前回受け付けた音声による前記入力情報の騒音音圧が所定の音圧より大きい場合には、前記音声による入力情報の受け付けを中止する、
    ことを特徴とする音声操作システム。
  7. 所定の車載機器と通信可能なサーバー装置であって、
    前記車載機器から、音声による入力情報と、前記車載機器が備えられた車両の環境を特定する車両環境情報と、を受け付けると、前記入力情報を文字列変換する音声データ処理部と、
    前記音声データ処理部により変換された文字列に応じた実行タスク候補を特定するとともに、前記入力情報と前記車両環境情報とを用いて信頼度を特定し、誤認識の推定要因があれば特定するタスク推定部と、
    前記信頼度が所定未満であれば、前記音声認識の誤認識の推定要因と、前記実行タスク候補と、を前記車載機器へ送信するユーザー確認要否判定部と、
    前記実行タスク候補を実行するタスク処理部と、
    を備えることを特徴とするサーバー装置。
  8. 所定のサーバー装置と通信可能な車載機器であって、
    音声による入力情報を受け付ける音声入力受付部と、
    当該車載機器が備えられた車両の環境を特定する車両環境情報を取得する車両環境情報管理部と、
    前記入力情報および前記車両環境情報を前記サーバー装置へ送信した後、前記サーバー装置から受信した実行タスク候補を音声認識の誤認識の推定要因とともに出力し、当該実行タスク候補の実行許可を受け付けると当該実行タスク候補を実行する指示を前記サーバー装置へ送信する出力制御部と、
    を備えることを特徴とする車載機器。
  9. 請求項8に記載の車載機器であって、
    前記出力制御部は、前記実行タスク候補について再度の入力指示を受け付けると、前記音声認識の誤認識の推定要因の対処方法を音声で通知して、前記音声入力受付部に音声による入力情報の受け付けをさせ、当該処理においては、前記音声入力受付部により前回受け付けた音声による前記入力情報の発話音圧が所定の音圧より小さい場合には、前記対処方法を所定の音量以上の音量に増大させて通知する、
    ことを特徴とする車載機器。
  10. 車載機器と、当該車載機器と通信可能なサーバー装置と、を備える音声操作システムによる音声操作方法であって、
    前記車載機器は、制御部を備え、
    前記制御部は、
    音声による入力情報を受け付ける音声入力受付ステップと、
    当該車載機器が備えられた車両の環境を特定する車両環境情報を取得する車両環境情報管理ステップと、
    前記入力情報および前記車両環境情報を前記サーバー装置へ送信した後、前記サーバー装置から受信した実行タスク候補を音声認識の誤認識の推定要因とともに出力し、当該実行タスク候補の実行許可を受け付けると当該実行タスク候補を実行する指示を前記サーバー装置へ送信する出力制御ステップと、を実行し、
    前記サーバー装置は、サーバー制御部を備え、
    前記サーバー制御部は、
    前記車載機器から前記入力情報と前記車両環境情報とを受け付けると、前記入力情報を文字列変換する音声データ処理ステップと、
    前記音声データ処理ステップにより変換された文字列に応じた実行タスク候補を特定するとともに、前記入力情報と前記車両環境情報とを用いて信頼度を特定し、誤認識の推定要因があれば特定するタスク推定ステップと、
    前記信頼度が所定未満であれば、前記音声認識信頼度の誤認識の推定要因と、前記実行タスク候補と、を前記車載機器へ送信するユーザー確認要否判定ステップと、
    前記実行タスク候補を実行するタスク処理ステップと、
    を実行することを特徴とする音声操作方法。
JP2015158152A 2015-08-10 2015-08-10 音声操作システム、サーバー装置、車載機器および音声操作方法 Active JP6621613B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2015158152A JP6621613B2 (ja) 2015-08-10 2015-08-10 音声操作システム、サーバー装置、車載機器および音声操作方法
CN201680041843.3A CN107851437B (zh) 2015-08-10 2016-07-21 语音操作系统、服务器装置、车载设备和语音操作方法
US15/745,556 US10540969B2 (en) 2015-08-10 2016-07-21 Voice operating system, server device, on-vehicle device, and voice operating method
EP16834936.3A EP3336836A4 (en) 2015-08-10 2016-07-21 LANGUAGE OPERATING SYSTEM, SERVER DEVICE, VEHICLE INTERCOM, AND LANGUAGE OPERATING METHOD
PCT/JP2016/071435 WO2017026239A1 (ja) 2015-08-10 2016-07-21 音声操作システム、サーバー装置、車載機器および音声操作方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015158152A JP6621613B2 (ja) 2015-08-10 2015-08-10 音声操作システム、サーバー装置、車載機器および音声操作方法

Publications (2)

Publication Number Publication Date
JP2017037176A true JP2017037176A (ja) 2017-02-16
JP6621613B2 JP6621613B2 (ja) 2019-12-18

Family

ID=57984204

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015158152A Active JP6621613B2 (ja) 2015-08-10 2015-08-10 音声操作システム、サーバー装置、車載機器および音声操作方法

Country Status (5)

Country Link
US (1) US10540969B2 (ja)
EP (1) EP3336836A4 (ja)
JP (1) JP6621613B2 (ja)
CN (1) CN107851437B (ja)
WO (1) WO2017026239A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190041119A (ko) * 2017-10-12 2019-04-22 현대자동차주식회사 차량 및 그 제어방법
US10726837B2 (en) 2017-11-02 2020-07-28 Hisense Visual Technology Co., Ltd. Voice interactive device and method for controlling voice interactive device
WO2021044569A1 (ja) * 2019-09-05 2021-03-11 三菱電機株式会社 音声認識補助装置および音声認識補助方法
JP2021079846A (ja) * 2019-11-20 2021-05-27 本田技研工業株式会社 車両制御システム
US11405522B2 (en) 2017-04-27 2022-08-02 Sony Corporation Information processing apparatus and information processing method
JP2022171300A (ja) * 2021-04-30 2022-11-11 グリー株式会社 コンピュータプログラム、方法及びサーバ装置
WO2023238722A1 (ja) * 2022-06-08 2023-12-14 富士フイルム株式会社 情報作成方法、情報作成装置、及び動画ファイル

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6621613B2 (ja) * 2015-08-10 2019-12-18 クラリオン株式会社 音声操作システム、サーバー装置、車載機器および音声操作方法
US10930276B2 (en) * 2017-07-12 2021-02-23 Universal Electronics Inc. Apparatus, system and method for directing voice input in a controlling device
US11489691B2 (en) 2017-07-12 2022-11-01 Universal Electronics Inc. Apparatus, system and method for directing voice input in a controlling device
CN108682419A (zh) * 2018-03-30 2018-10-19 京东方科技集团股份有限公司 语音控制方法及设备、计算机可读存储介质及设备
EP3806090A4 (en) * 2018-05-31 2021-07-21 Sony Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING PROCESS, AND PROGRAM
US11087749B2 (en) * 2018-12-20 2021-08-10 Spotify Ab Systems and methods for improving fulfillment of media content related requests via utterance-based human-machine interfaces
JP7274901B2 (ja) * 2019-03-25 2023-05-17 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム
CN112002317B (zh) * 2020-07-31 2023-11-14 北京小米松果电子有限公司 语音输出方法、装置、存储介质和电子设备
DE102021127183A1 (de) 2021-10-20 2023-04-20 Bayerische Motoren Werke Aktiengesellschaft Intelligenter persönlicher assistent

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07219588A (ja) * 1994-01-28 1995-08-18 Canon Inc 音声処理装置及び方法
JPH09292895A (ja) * 1996-04-25 1997-11-11 Matsushita Electric Ind Co Ltd ヒューマン・マシン・インタフェース装置
JPH11352995A (ja) * 1998-06-08 1999-12-24 Toshiba Tec Corp 音声認識装置
JP2000338991A (ja) * 1999-05-25 2000-12-08 Nec Saitama Ltd 認識率信頼性表示機能付き音声操作電話装置及びその音声認識方法
JP2004325635A (ja) * 2003-04-23 2004-11-18 Sharp Corp 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体
JP2007156076A (ja) * 2005-12-05 2007-06-21 Kddi Corp 音声入力評価装置
JP2008256802A (ja) * 2007-04-02 2008-10-23 Fujitsu Ten Ltd 音声認識装置および音声認識方法
JP2010186126A (ja) * 2009-02-13 2010-08-26 Nec Corp 入力音声評価装置、入力音声の評価方法および評価プログラム
US20150187350A1 (en) * 2006-10-31 2015-07-02 Samsung Electronics Co., Ltd. Apparatus and method for reporting speech recognition failures

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5577164A (en) 1994-01-28 1996-11-19 Canon Kabushiki Kaisha Incorrect voice command recognition prevention and recovery processing method and apparatus
US6336091B1 (en) * 1999-01-22 2002-01-01 Motorola, Inc. Communication device for screening speech recognizer input
JP2003345391A (ja) 2002-05-23 2003-12-03 Denso Corp 端末、音声認識サーバ、音声認識システムおよびコンピュータプログラム
JP2005181386A (ja) 2003-12-16 2005-07-07 Mitsubishi Electric Corp 音声対話処理装置及び音声対話処理方法並びにプログラム
US7373248B2 (en) 2004-09-10 2008-05-13 Atx Group, Inc. Systems and methods for off-board voice-automated vehicle navigation
WO2006093092A1 (ja) * 2005-02-28 2006-09-08 Honda Motor Co., Ltd. 会話システムおよび会話ソフトウェア
JP2007052397A (ja) * 2005-07-21 2007-03-01 Denso Corp 操作装置
US20070136069A1 (en) * 2005-12-13 2007-06-14 General Motors Corporation Method and system for customizing speech recognition in a mobile vehicle communication system
US8600760B2 (en) * 2006-11-28 2013-12-03 General Motors Llc Correcting substitution errors during automatic speech recognition by accepting a second best when first best is confusable
US7747446B2 (en) * 2006-12-12 2010-06-29 Nuance Communications, Inc. Voice recognition interactive system with a confirmation capability
US8140335B2 (en) * 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
DE102008028090A1 (de) 2008-02-29 2009-09-10 Navigon Ag Verfahren zum Betrieb eines Navigationssystems
JP2013529794A (ja) 2010-06-24 2013-07-22 本田技研工業株式会社 車載音声認識システム及び車両外音声認識システム間の通信システム及び方法
US8438023B1 (en) * 2011-09-30 2013-05-07 Google Inc. Warning a user when voice input to a device is likely to fail because of background or other noise
US9583100B2 (en) * 2012-09-05 2017-02-28 GM Global Technology Operations LLC Centralized speech logger analysis
US8947220B2 (en) * 2012-10-31 2015-02-03 GM Global Technology Operations LLC Speech recognition functionality in a vehicle through an extrinsic device
US9390716B2 (en) * 2013-04-19 2016-07-12 Panasonic Intellectual Property Corporation Of America Control method for household electrical appliance, household electrical appliance control system, and gateway
JPWO2015128960A1 (ja) * 2014-02-26 2017-03-30 三菱電機株式会社 車載制御装置および車載制御方法
JP6621613B2 (ja) * 2015-08-10 2019-12-18 クラリオン株式会社 音声操作システム、サーバー装置、車載機器および音声操作方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07219588A (ja) * 1994-01-28 1995-08-18 Canon Inc 音声処理装置及び方法
JPH09292895A (ja) * 1996-04-25 1997-11-11 Matsushita Electric Ind Co Ltd ヒューマン・マシン・インタフェース装置
JPH11352995A (ja) * 1998-06-08 1999-12-24 Toshiba Tec Corp 音声認識装置
JP2000338991A (ja) * 1999-05-25 2000-12-08 Nec Saitama Ltd 認識率信頼性表示機能付き音声操作電話装置及びその音声認識方法
JP2004325635A (ja) * 2003-04-23 2004-11-18 Sharp Corp 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体
JP2007156076A (ja) * 2005-12-05 2007-06-21 Kddi Corp 音声入力評価装置
US20150187350A1 (en) * 2006-10-31 2015-07-02 Samsung Electronics Co., Ltd. Apparatus and method for reporting speech recognition failures
JP2008256802A (ja) * 2007-04-02 2008-10-23 Fujitsu Ten Ltd 音声認識装置および音声認識方法
JP2010186126A (ja) * 2009-02-13 2010-08-26 Nec Corp 入力音声評価装置、入力音声の評価方法および評価プログラム

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11405522B2 (en) 2017-04-27 2022-08-02 Sony Corporation Information processing apparatus and information processing method
KR20190041119A (ko) * 2017-10-12 2019-04-22 현대자동차주식회사 차량 및 그 제어방법
KR102374242B1 (ko) * 2017-10-12 2022-03-15 현대자동차주식회사 차량 및 그 제어방법
US10726837B2 (en) 2017-11-02 2020-07-28 Hisense Visual Technology Co., Ltd. Voice interactive device and method for controlling voice interactive device
US11302328B2 (en) 2017-11-02 2022-04-12 Hisense Visual Technology Co., Ltd. Voice interactive device and method for controlling voice interactive device
WO2021044569A1 (ja) * 2019-09-05 2021-03-11 三菱電機株式会社 音声認識補助装置および音声認識補助方法
JPWO2021044569A1 (ja) * 2019-09-05 2021-12-09 三菱電機株式会社 音声認識補助装置および音声認識補助方法
JP7242873B2 (ja) 2019-09-05 2023-03-20 三菱電機株式会社 音声認識補助装置および音声認識補助方法
JP2021079846A (ja) * 2019-11-20 2021-05-27 本田技研工業株式会社 車両制御システム
JP7163267B2 (ja) 2019-11-20 2022-10-31 本田技研工業株式会社 車両制御システム
JP2022171300A (ja) * 2021-04-30 2022-11-11 グリー株式会社 コンピュータプログラム、方法及びサーバ装置
WO2023238722A1 (ja) * 2022-06-08 2023-12-14 富士フイルム株式会社 情報作成方法、情報作成装置、及び動画ファイル

Also Published As

Publication number Publication date
CN107851437A (zh) 2018-03-27
CN107851437B (zh) 2021-08-10
US10540969B2 (en) 2020-01-21
WO2017026239A1 (ja) 2017-02-16
EP3336836A1 (en) 2018-06-20
JP6621613B2 (ja) 2019-12-18
US20180211662A1 (en) 2018-07-26
EP3336836A4 (en) 2019-05-08

Similar Documents

Publication Publication Date Title
JP6621613B2 (ja) 音声操作システム、サーバー装置、車載機器および音声操作方法
US8903651B2 (en) Information terminal, server device, searching system, and searching method thereof
US10818286B2 (en) Communication system and method between an on-vehicle voice recognition system and an off-vehicle voice recognition system
US10475448B2 (en) Speech recognition system
US9541415B2 (en) Navigation system with touchless command mechanism and method of operation thereof
JP6608199B2 (ja) 情報システムおよびコンテンツ開始方法
JP4940887B2 (ja) 音声入力支援プログラム、音声入力支援装置、音声入力支援方法
JP2016218361A (ja) 音声認識システム、車載器およびサーバ装置
JP2009230068A (ja) 音声認識装置及びナビゲーションシステム
JP2016133378A (ja) カーナビゲーション装置
US20200319634A1 (en) Agent device, method of controlling agent device, and storage medium
JP2003032388A (ja) 通信端末装置及び処理システム
JP6109373B2 (ja) サーバー装置および検索方法
JP2020152298A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2020086010A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US11355114B2 (en) Agent apparatus, agent apparatus control method, and storage medium
JP3937937B2 (ja) 音声認識装置及びその方法
CN111726772A (zh) 智能体系统及其控制方法、服务器装置、存储介质
JP2013157896A (ja) 通信機器および通信方法
JP2018132691A (ja) 音声認識装置および音声認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180608

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190611

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190730

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191120

R150 Certificate of patent or registration of utility model

Ref document number: 6621613

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150