JP7473002B2 - 情報処理装置及び情報処理方法 - Google Patents

情報処理装置及び情報処理方法 Download PDF

Info

Publication number
JP7473002B2
JP7473002B2 JP2022557209A JP2022557209A JP7473002B2 JP 7473002 B2 JP7473002 B2 JP 7473002B2 JP 2022557209 A JP2022557209 A JP 2022557209A JP 2022557209 A JP2022557209 A JP 2022557209A JP 7473002 B2 JP7473002 B2 JP 7473002B2
Authority
JP
Japan
Prior art keywords
information processing
operated
voice data
processing device
gaze
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022557209A
Other languages
English (en)
Other versions
JPWO2022084708A1 (ja
JPWO2022084708A5 (ja
Inventor
祐介 森田
友和 古屋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Publication of JPWO2022084708A1 publication Critical patent/JPWO2022084708A1/ja
Publication of JPWO2022084708A5 publication Critical patent/JPWO2022084708A5/ja
Application granted granted Critical
Publication of JP7473002B2 publication Critical patent/JP7473002B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K35/00Instruments specially adapted for vehicles; Arrangement of instruments in or on vehicles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04845Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K2360/00Indexing scheme associated with groups B60K35/00 or B60K37/00 relating to details of instruments or dashboards
    • B60K2360/146Instrument input by gesture
    • B60K2360/14643D-gesture
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K2360/00Indexing scheme associated with groups B60K35/00 or B60K37/00 relating to details of instruments or dashboards
    • B60K2360/149Instrument input by detecting viewing direction not otherwise provided for
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Mechanical Engineering (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Transportation (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、情報処理装置及び情報処理方法に関する。
車両の運転者の音声を認識し、認識結果に基づいて車載機器のうちの1つを操作対象機器とし、操作対象機器に対する操作入力の受け付けを許可し、運転者による制御指示を認識して当該制御指示を操作対象機器に送信する発明が知られている(特許文献1)。
特開2017-159692号公報
特許文献1に記載された発明は、運転者の音声を認識した結果に基づいて操作対象機器を特定しており、操作対象機器を一意に特定できない場合には誤操作が生じるおそれがあるという課題がある。
本発明は、上記問題に鑑みてなされたものであり、その目的とするところは、操作対象機器を一意に特定して操作対象機器の誤操作が生じる可能性を低減することができる情報処理装置及び情報処理方法を提供することにある。
本発明の一態様に係る情報処理装置及び情報処理方法は、ユーザの視線方向に関する視線データを記憶し、音声データを取得した際、記憶された視線データに基づいて、複数の機器から操作対象機器を特定し、音声データに基づいて操作対象機器に対する制御コマンドを生成し、操作対象機器を制御する。
本発明によれば、操作対象機器を一意に特定して操作対象機器の誤操作が生じる可能性を低減することができる。
図1は、本発明の一実施形態に係る情報処理装置の構成を示すブロック図である。 図2は、本発明の一実施形態に係る情報処理装置の処理を示すフローチャートである。
以下、本発明の実施形態について、図面を参照して説明する。図面の記載において同一部分には同一符号を付して説明を省略する。
[情報処理装置の構成]
図1を参照して、本実施形態に係る情報処理装置1の構成例を説明する。情報処理装置1は一例として車両に搭載される。図1に示すように情報処理装置1は、視線データ受付部21と、音声データ受付部22と、コントローラ100とを備える。その他、情報処理装置1は、記憶部25と、報知部300とを備えるものであってもよい。
視線データ受付部21は、視線検知装置11及びコントローラ100と接続され、視線検知装置11からユーザの視線方向に関する視線データを取得する(又は受け付ける)。例えば、ユーザは車両に乗車している乗員である。視線検知装置11は、図示しないカメラから入力される画像データに対して、例えば、ユーザの顔や眼球を検知対象物とした特徴量算出および形状判別等の認識処理を行い、認識した検知対象物に基づき、ユーザの視線方向(視線ベクトル)を算出する。
視線検知装置11によって算出された視線方向に関する情報を含む視線データは、視線データ受付部21に入力される。なお、視線データには、ユーザが当該視線方向を見ている時刻、ユーザが当該視線方向を見ている頻度、ユーザが当該視線方向を見ている時間などの情報が含まれていてもよい。
視線データ受付部21は、視線検知装置11から取得した視線データをコントローラ100に送信する。その他、視線データ受付部21は、取得した視線データを後述する記憶部25に送信するものであってもよい。
音声データ受付部22は、音声認識装置12及びコントローラ100と接続され、音声認識装置12から音声データを取得する(又は受け付ける)。ここで、音声認識装置12は、図示しないマイクから入力されるユーザの音声に対して、周波数分析などの周知の技術を適用して音声の認識処理を行い、当該音声に対応するテキストデータを音声データとして算出する。
音声認識装置12によって算出された音声データは、音声データ受付部22に入力される。なお、音声データには、当該音声データの算出に用いた音声を取得した時刻の情報が含まれていてもよい。
音声データ受付部22は、音声認識装置12から取得した音声データをコントローラ100に送信する。その他、音声データ受付部22は、取得した音声データを後述する記憶部25に送信するものであってもよい。
記憶部25は、コントローラ100と接続され、視線データ受付部21によって取得した視線データ、音声データ受付部22によって取得した音声データを記憶する。記憶部25は、取得したデータ(視線データ、音声データ)を、所定時間の間、記憶するものであってもよい。すなわち、記憶されたデータは、記憶されてから所定時間の間、記憶部25によって保持され、記憶されてから所定時間が経過した後には、削除されるものであってもよい。
コントローラ100は、CPU(Central Processing Unit)、メモリ、記憶装置、入出力部などを備える汎用のコンピュータである。コントローラ100は、情報処理装置1による制御対象である機器群400と接続される。
ここで、機器群400は、複数の機器であって、例えば、ナビゲーション機器、ドアのロック制御機器、ウィンドウの開閉制御機器、撮像画像の表示機器、計器表示機器、空調装置、サンルーフ、サンシェード、オーディオ装置などである。機器群400のうち操作対象機器として特定された一の機器が、コントローラ100からの信号により制御される。例えば、機器群400は車両に搭載された複数の機器である。
コントローラ100には、情報処理装置1として機能させるためのコンピュータプログラムがインストールされている。コンピュータプログラムを実行することにより、コントローラ100は情報処理装置1が備える複数の情報処理回路として機能する。
なお、ここでは、ソフトウェアによって情報処理装置1が備える複数の情報処理回路を実現する例を示すが、もちろん、以下に示す各情報処理を実行するための専用のハードウェアを用意して情報処理回路を構成することも可能である。また、複数の情報処理回路を個別のハードウェアにより構成してもよい。
コントローラ100は、複数の情報処理回路として、機器特定部110と、制御コマンド生成部120と、送信部130とを備える。
機器特定部110は、視線データに基づいて、複数の機器である機器群400のうち少なくとも1つの機器を操作対象機器として特定する。より具体的には、機器特定部110は、視線データを参照して、視線方向に位置する機器を操作対象機器として特定するものであってもよい。なお、視線データに基づいて、複数の機器である機器群400から複数の操作対象機器を特定する構成であってもよい。
また、機器特定部110は、所定期間内における視線データを参照して、機器群400のそれぞれの機器に対して頻度を算出し、算出した頻度に基づいて操作対象機器として特定するものであってもよい。ここで、機器ごとに算出される「頻度」とは、所定期間内において当該機器に対して視線方向が向いていた回数を意味する。この場合、算出した「頻度」が最も高い機器を操作対象機器として特定するものであってもよい。
機器特定部110は、所定期間内における視線データを参照して、機器群400のそれぞれの機器に対して「停留時間」を算出し、算出した「停留時間」に基づいて操作対象機器として特定するものであってもよい。ここで、機器ごとに算出される「停留時間」とは、所定期間内において当該機器に対して視線方向が連続して向いていた時間を意味する。この場合、算出した「停留時間」が所定の閾値(例えば、2~5秒)よりも長い機器を操作対象機器として特定するものであってもよいし、算出した「停留時間」が最も長い機器を操作対象機器として特定するものであってもよい。
その他、機器特定部110による操作対象機器の特定の処理と、音声データ受付部22による音声データの取得(受け付け)の処理は、順不同である。すなわち、操作対象機器が特定されてから音声データを取得してもよいし、音声データを取得してから操作対象機器の特定を行ってもよい。
音声データを取得してから操作対象機器の特定を行う場合、機器特定部110は、音声データが入力されたタイミングの視線方向に基づいて、操作対象機器を特定するものであってもよいし、音声データが入力されたタイミングよりも過去(例えば、音声データが入力されたタイミングを基準として当該タイミングから所定時間の過去)の視線方向に基づいて、操作対象機器を特定するものであってもよい。
具体的には、機器特定部110は、音声データに含まれる時刻の情報を参照し、当該時刻又は当該時刻よりも過去の時刻に対応する視線データを記憶部25から取得し、取得した視線データに基づいて、操作対象機器を特定するものであってもよい。
機器特定部110は、所定のタイミングにおける視線方向に基づいて操作対象機器を特定することができたか否かを判定し、操作対象機器を特定することができないと判定した場合に、当該タイミングよりも過去の視線方向に基づいて操作対象機器を特定するものであってもよい。
具体的には、機器特定部110は、ある視線データに基づいて操作対象機器を特定することができないと判定した場合に、当該視線データに含まれる時刻の情報を参照し、当該時刻よりも過去の時刻に対応する視線データを記憶部25から取得し、取得した視線データに基づいて、操作対象機器を特定するものであってもよい。
機器特定部110が、操作対象機器を特定することができないと判定する場合の例としては、例えば、ある視線データに含まれる視線方向に基づいて、操作対象機器として特定されうる機器が複数存在し、機器群400の中から操作対象機器を一意に特定できない場合が挙げられる。例えば、視線方向が、隣接する複数の機器の境界付近を向いている場合に生じうる。
このような場合には、隣接する複数の機器のいずれの機器を操作対象機器として特定すべきか精度よく決定できないおそれがある。そこで、機器特定部110は、当該当該視線データに含まれる時刻の情報を参照し、当該時刻よりも過去の時刻に対応する視線データを記憶部25から取得し、取得した視線データに基づいて、操作対象機器を特定するものであってもよい。
上記の説明では、視線方向に機器そのものが存在する場合を想定して説明した。その他にも、機器特定部110は、視線方向に機器そのものが存在しない場合であっても、視線方向に所定の画像やアイコンが存在する場合に、視線方向に位置するアイコンに対応付けられた機器やサービスを、操作対象機器あるいは操作対象サービスとして特定するものであってもよい。
また、視線方向に機器、画像やアイコンが無い場合であっても、視線方向によって特定されるエリアに予め対応付けられている操作対象機器がある場合に、操作対象機器を特定するようにしてもよい。例えば、車外前方エリアに対して、車両前方に搭載された車載カメラが予め対応付けられており、視線方向が車外前方エリア内にある場合、当該車載カメラが特定されることになる。
制御コマンド生成部120は、音声データに基づいて、操作対象機器に対する制御コマンドを生成する。ここで生成される制御コマンドとは、例えば、操作対象機器に表示される画像の拡大、縮小、回転、もしくは、移動、又は、操作対象機器のロックの解除、もしくは、施錠などであり、制御コマンドは、操作対象機器に応じて事前に定められる。
また、制御コマンドに対応付けられる音声データも事前に定められるものであって、例えば、音声データは、操作対象機器に表示される画像の拡大、縮小、回転、もしくは、移動、又は、操作対象機器のロックの解除、もしくは、施錠のうち少なくとも1つの操作を指示するデータである。また、1つの制御コマンドに複数の音声データが対応付けられていても良い。この場合の例として、拡大という制御コマンドに対して、拡大して、大きくして、など複数の音声データが対応付けられる。
例えば、操作対象機器がナビゲーション機器である場合、制御コマンドは、ナビゲーション機器に表示される画像の「拡大」、「縮小」、「回転」、「移動」などである。制御コマンドに対応して、音声データは、「大きく」、「小さく」、「(時計回り/反時計周りに)回転」、「上/下/左/右」などである。
例えば、操作対象機器がドアのロック制御機器である場合、制御コマンドは、「ロック」、「ロック解除」などである。制御コマンドに対応して、音声データは、「閉める」、「開ける」などである。
なお、制御コマンド生成部120は、音声データに基づいて制御コマンドを生成できない場合に、操作対象機器の解除を行うものであってもよい。ここで「解除」とは、機器特定部110によって特定された操作対象機器について、操作対象機器ではないものとして取り扱うことを意味し、機器群400のうちいずれの機器も、操作対象機器として特定されていない状態に戻すことを意味する。
送信部130は、制御コマンド生成部120によって生成された制御コマンドを、機器特定部110によって特定された操作対象機器に送信する。送信部130は、制御コマンドを操作対象機器に送信した後、操作対象機器の解除を行うものであってもよい。
その他、報知部300は、音声又は光による報知を行う。より具体的には、音声データを取得中(又は受け付け中)であることをユーザに報知するものであってもよい。例えば、報知部300は、受付中であることをビープ音などで報知するものであってもよいし、スピーカを介して特定された操作対象機器の名前を音声で読み上げることで報知を行うものであってもよい。その他、報知部300は、機器群400のそれぞれに備えられたランプ、ディスプレイなどを介して、点滅動作などの光の変化によってユーザに報知を行うものであってもよい。
[情報処理装置の処理手順]
次に、本実施形態に係る情報処理装置1の処理手順を、図2のフローチャートを参照して説明する。図2に示す情報処理装置1の処理は、所定の周期で繰り返し実行されるものであってもよいし、車両が走行中である場合にのみ実行されるものであってもよい。
なお、図2のフローチャートで示される処理の実行と並行して、視線データの取得(又は受け付け)、及び、音声データの取得(又は受け付け)が実行されてもよい。
まず、ステップS101において、音声データ受付部22は音声データを取得し(又は受け付け)、その後、ステップS103において、コントローラ100は、音声データが入力されたか否かを判定する。
音声データが入力されていないと判定された場合(ステップS103でNOの場合)には、ステップS101に戻る。
一方、音声データが入力されたと判定された場合(ステップS103でYESの場合)には、ステップS105において、コントローラ100は、記憶部25を参照し、記憶された視線データが存在するか否かを判定する。なお、記憶部25には、視線データ受付部21が取得した視線データが随時、記憶されているものとする。
記憶された視線データが存在しないと判定された場合(ステップS105でNOの場合)には、図2の処理を終了する。
一方、記憶された視線データが存在すると判定された場合(ステップS105でYESの場合)には、ステップS107にて、機器特定部110は、記憶された視線データのうち一の視線データに基づいて、複数の機器である機器群400のうち少なくとも1つの機器を操作対象機器として特定できるかを試みる。あるいは、S101において入力された音声データと、記憶された視線データの双方に基づいて、操作対象機器を特定するようにしてもよい。ステップS109において、機器特定部110は、操作対象機器を特定できたか否かを判定する。
操作対象機器を特定できなかったと判定された場合(ステップS109でNOの場合)には、ステップS105に戻る。なお、ステップS105の処理を繰り返す際、コントローラ100は、操作対象機器を特定できなかった一の視線データを対象外として、その他の記憶された視線データが存在するか否かを判定する。
操作対象機器を特定できたと判定された場合(ステップS109でYESの場合)には、ステップS111において、制御コマンド生成部120は、S101において入力された音声データと、S109において特定された操作対象機器に基づいて、操作対象機器に対する制御コマンドを生成する。そして、ステップS113において、送信部130は、生成された制御コマンドを操作対象機器に送信する。その後、図2の処理を終了する。
なお、上記構成においては、操作対象機器に対して制御コマンドを生成する場合、常に視線データに基づいて操作対象機器を特定する構成を例示したが、これに限られない。
例えば、S103において、音声データが入力された場合、音声データから操作対象機器の特定および操作対象機器に対する制御コマンドの生成が可能か否か判定し、(1)入力された音声データに基づいて操作対象機器の特定および操作対象機器に対する制御コマンドの生成が可能な場合には、S113へ進み、操作対象機器に対して制御コマンドを送信し、(2)入力された音声データに基づいて操作対象機器の特定および操作対象機器に対する制御コマンドの生成が不可能な場合には、S105以降のステップに進む構成としてもよい。この場合、音声データによって操作対象機器の特定または操作対象機器に対する制御コマンドの生成ができない場合、視線データに基づいて操作対象機器が特定されることとなる。
[実施形態の効果]
以上詳細に説明したように、本実施形態に係る情報処理装置及び情報処理方法は、ユーザの視線方向に関する視線データを記憶し、音声データを取得した際、記憶された視線データに基づいて、複数の機器から操作対象機器を特定し、音声データに基づいて操作対象機器に対する制御コマンドを生成し、制御コマンドを操作対象機器に送信する。
これにより、操作対象機器を一意に特定して操作対象機器の誤操作が生じる可能性を低減することができる。また、視線データに基づいて操作対象機器を特定するため、ユーザが音声によって操作対象機器を指定する必要がなく、ユーザの発話を短くすることができる。その結果、ユーザの利便性を向上させることができる。
また、視線データを用いて操作対象機器を特定するため、音声データのみに基づいて操作を行う場合と比較して、音声認識において操作対象機器を特定するために必要な計算コストを削減することができる。また、音声認識における認識エラーが防止され、誤操作が生じる可能性を低減することができる。
また、ユーザは、操作対象である機器を視認し、当該機器に対する音声を発話するのみで、当該機器を操作できるため、機器の操作ボタンの位置や配置を覚える必要がない。さらには、機器の操作ボタンに触れるためにユーザが上腕・手先を動かす必要がなくなる。その結果、操作の煩雑さを低減することができる。
操作対象機器の特定、及び、ユーザの発話を短くすることについて、例を挙げて説明する。例えば、機器群400が「オーディオ機器」及び「空調装置」を含んでいる場合、「上げる」「下げる」という音声のみでは、いずれの機器を操作するか特定することができない。
しかしながら、ユーザが「上げる」「下げる」という音声を発する前に「オーディオ機器」を視認していた場合、「オーディオ機器」が操作対象機器として特定され、「オーディオ機器の音量を上げる」「オーディオ機器の音量を下げる」という制御コマンドが生成されることになる。その結果、「オーディオ機器」を音声で指定しない場合であっても、「空調装置」に対して操作が行われることがない。よって、誤操作が生じる可能性を低減することができる。
逆に、ユーザが「上げる」「下げる」という音声を発する前に「空調装置」を視認していた場合、「空調装置」が操作対象機器として特定され、「空調装置の音量を上げる」「空調装置の音量を下げる」という制御コマンドが生成されることになる。その結果、「空調装置」を音声で指定しない場合であっても、「オーディオ機器」に対して操作が行われることがない。よって、誤操作が生じる可能性を低減することができる。
その他にも、例えば、機器群400が「ナビゲーション機器」、「撮像画像の表示機器」、「計器表示機器」を含んでいる場合、「拡大」「縮小」「回転」「移動」という音声のみでは、いずれの機器を操作するか特定することができない。この場合においても、ユーザが「拡大」「縮小」「回転」「移動」という音声を発する前に、操作したい機器を視認することで、視認した機器が操作対象機器として特定され、音声に対応した制御コマンドが生成されることになる。よって、誤操作が生じる可能性を低減することができる。
また、本実施形態に係る情報処理装置及び情報処理方法は、音声データが入力されたタイミングの視線方向に基づいて、操作対象機器を特定するものであってもよい。これにより、ユーザは発話のタイミングで操作対象である機器を視認するだけで、操作対象機器を指定することができる。その結果、操作の煩雑さを低減することができる。
さらに、本実施形態に係る情報処理装置及び情報処理方法は、音声データが入力されたタイミングよりも過去の視線方向に基づいて、操作対象機器を特定するものであってもよい。これにより、ユーザは発話する直前に操作対象である機器を視認するだけで、操作対象機器を指定することができる。その結果、操作の煩雑さを低減することができる。
また、本実施形態に係る情報処理装置及び情報処理方法は、音声データが入力されたタイミングよりも所定時間だけ過去の視線方向に基づいて、操作対象機器を特定するものであってもよい。これにより、ユーザは発話する直前に操作対象である機器を視認するだけで、操作対象機器を指定することができる。その結果、操作の煩雑さを低減することができる。特に、発話のタイミングよりも所定時間の間におけるユーザによる視認のみを対象とした処理が行われ、誤操作が生じる可能性を低減することができる。
さらに、本実施形態に係る情報処理装置及び情報処理方法は、音声データが入力されたタイミングの視線方向に基づいて、操作対象機器を特定することができないと判定された場合に、音声データが入力されたタイミングよりも過去の視線方向に基づいて、操作対象機器を特定するものであってもよい。これにより、ユーザは操作対象である機器を視認するのと同時に当該機器に対する操作内容を発話する必要がなく、操作の煩雑さを低減することができる。
また、本実施形態に係る情報処理装置及び情報処理方法は、視線方向に基づいて操作対象機器として特定されうる機器が複数存在すると判定された場合に、視線方向よりも過去のタイミングにおける視線方向に基づいて、操作対象機器を特定するものであってもよい。これにより、ユーザが様々な視認方向を向く中、操作対象機器を一意に特定できる視認方向を向いている場合を検知して操作対象機器を特定できる。その結果、ユーザは特定の視認方向を凝視する必要がない。また、操作の煩雑さを低減することができる。
さらに、本実施形態に係る情報処理装置及び情報処理方法は、音声データに基づいて複数の機器から操作対象機器を特定できない場合に、視線データに基づいて操作対象機器を特定するものであってもよい。これにより、操作対象機器を特定する可能性が高まり、操作の煩雑さを低減することができる。
さらに、本実施形態に係る情報処理装置及び情報処理方法は、視線方向に位置する機器を操作対象機器として特定するものであってもよい。これにより、ユーザは操作対象である機器を視認するだけで、操作対象機器を指定することができる。その結果、操作の煩雑さを低減することができる。
また、本実施形態に係る情報処理装置及び情報処理方法は、機器が視線方向に位置する頻度を算出し、当該頻度に基づいて、機器を操作対象機器として特定するものであってもよい。これにより、ユーザが意図をもって操作対象である機器を視認する場合を検知できる。その結果、誤操作が生じる可能性を低減することができ、さらには、操作の煩雑さを低減することができる。
さらに、本実施形態に係る情報処理装置及び情報処理方法は、機器が視線方向に位置する時間を算出し、当該時間に基づいて、機器を操作対象機器として特定するものであってもよい。これにより、ユーザが意図をもって操作対象である機器を視認する場合を検知できる。その結果、誤操作が生じる可能性を低減することができ、さらには、操作の煩雑さを低減することができる。
また、本実施形態に係る情報処理装置及び情報処理方法において、機器は、ナビゲーション機器、ドアのロック制御機器、ウィンドウの開閉制御機器、撮像画像の表示機器、計器表示機器、空調装置、サンルーフ、サンシェード、オーディオ装置のうち少なくともいずれか1つを含むものであってもよい。
ユーザは、これらの機器のうち、操作対象である機器を視認し、当該機器に対する音声を発話するのみで、当該機器を操作できるため、機器の操作ボタンの位置や配置を覚える必要がない。さらには、機器の操作ボタンに触れるためにユーザが上腕・手先を動かす必要がなくなる。その結果、操作の煩雑さを低減することができる。
さらに、本実施形態に係る情報処理装置及び情報処理方法において、制御コマンドは、操作対象機器に表示される画像の拡大、縮小、回転、もしくは、移動、又は、操作対象機器のロックの解除、もしくは、施錠であるものであってもよい。音声データに基づいて、操作対象機器に対応した制御コマンドが自動的に生成されるため、ユーザの利便性を向上させることができる。
また、本実施形態に係る情報処理装置及び情報処理方法は、音声データは、操作対象機器に表示される画像の拡大、縮小、回転、もしくは、移動、又は、操作対象機器のロックの解除、もしくは、施錠のうち少なくともいずれか1つを指示するデータであるものであってもよい。操作対象機器に対応した音声データを用いて制御コマンドが生成されるため、操作対象機器が特定された状態において、ユーザが音声によって操作対象機器を指定する必要がなく、ユーザの発話を短くすることができる。その結果、ユーザの利便性を向上させることができる。
上述の実施形態で示した各機能は、1又は複数の処理回路によって実装されうる。処理回路には、プログラムされたプロセッサや、電気回路などが含まれ、さらには、特定用途向けの集積回路(ASIC)のような装置や、記載された機能を実行するよう配置された回路構成要素なども含まれる。
以上、実施形態に沿って本発明の内容を説明したが、本発明はこれらの記載に限定されるものではなく、種々の変形及び改良が可能であることは、当業者には自明である。この開示の一部をなす論述及び図面は本発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施形態、実施例及び運用技術が明らかとなろう。
本発明はここでは記載していない様々な実施形態等を含むことは勿論である。したがって、本発明の技術的範囲は上記の説明から妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。
1 情報処理装置
11 視線検知装置
12 音声認識装置
21 視線データ受付部
22 音声データ受付部
25 記憶部
100 コントローラ
110 機器特定部
120 制御コマンド生成部
130 送信部
300 報知部
400 機器群

Claims (14)

  1. 視線データ受付部によって取得した、ユーザの視線方向に関する視線データを記憶する記憶装置と、
    音声データが入力される音声データ受付部と、
    コントローラと、を備え、
    前記コントローラは、
    前記音声データを取得した際、前記音声データに基づいて操作対象機器を特定できない場合に、前記視線データに基づいて前記操作対象機器を特定し、
    前記音声データに基づいて前記操作対象機器に対する制御コマンドを生成し、
    前記制御コマンドを前記操作対象機器に送信すること
    を特徴とする情報処理装置。
  2. 請求項1に記載の情報処理装置であって、
    前記コントローラは、
    前記音声データが入力されたタイミングの前記視線方向に基づいて、前記操作対象機器を特定すること
    を特徴とする情報処理装置。
  3. 請求項1又は2に記載の情報処理装置であって、
    前記コントローラは、
    前記音声データが入力されたタイミングよりも過去の前記視線方向に基づいて、前記操作対象機器を特定すること
    を特徴とする情報処理装置。
  4. 請求項3に記載の情報処理装置であって、
    前記コントローラは、
    前記音声データが入力されたタイミングよりも所定時間だけ過去の前記視線方向に基づいて、前記操作対象機器を特定すること
    を特徴とする情報処理装置。
  5. 請求項1~4のいずれか一項に記載の情報処理装置であって、
    前記コントローラは、
    前記音声データが入力されたタイミングの前記視線方向に基づいて、前記操作対象機器を特定することができないと判定された場合に、前記音声データが入力されたタイミングよりも過去の前記視線方向に基づいて、前記操作対象機器を特定すること
    を特徴とする情報処理装置。
  6. 請求項5に記載の情報処理装置であって、
    前記コントローラは、
    前記視線方向に基づいて前記操作対象機器として特定されうる機器が複数存在すると判定された場合に、前記視線方向よりも過去のタイミングにおける前記視線方向に基づいて、前記操作対象機器を特定すること
    を特徴とする情報処理装置。
  7. 請求項1~6のいずれか一項に記載の情報処理装置であって、
    前記コントローラは、複数の機器から前記操作対象機器を特定すること
    を特徴とする情報処理装置。
  8. 請求項1~7のいずれか一項に記載の情報処理装置であって、
    前記コントローラは、
    前記視線方向に位置する機器を前記操作対象機器として特定すること
    を特徴とする情報処理装置。
  9. 請求項1~8のいずれか一項に記載の情報処理装置であって、
    前記コントローラは、
    機器が前記視線方向に位置する頻度を算出し、
    前記頻度に基づいて、前記機器を前記操作対象機器として特定すること
    を特徴とする情報処理装置。
  10. 請求項1~9のいずれか一項に記載の情報処理装置であって、
    前記コントローラは、
    機器が前記視線方向に位置する時間を算出し、
    前記時間に基づいて、前記機器を前記操作対象機器として特定すること
    を特徴とする情報処理装置。
  11. 請求項1~10のいずれか一項に記載の情報処理装置であって、
    前記操作対象機器は、ナビゲーション機器、ドアのロック制御機器、ウィンドウの開閉制御機器、撮像画像の表示機器、計器表示機器、空調装置、サンルーフ、サンシェード、オーディオ装置のうち少なくともいずれか1つを含むこと
    を特徴とする情報処理装置。
  12. 請求項1~11のいずれか一項に記載の情報処理装置であって、
    前記制御コマンドは、前記操作対象機器に表示される画像の拡大、縮小、回転、もしくは、移動、又は、前記操作対象機器のロックの解除、もしくは、施錠であること
    を特徴とする情報処理装置。
  13. 請求項1~12のいずれか一項に記載の情報処理装置であって、
    前記音声データは、前記操作対象機器に表示される画像の拡大、縮小、回転、もしくは、移動、又は、前記操作対象機器のロックの解除、もしくは、施錠のうち少なくともいずれか1つを指示するデータであること
    を特徴とする情報処理装置。
  14. 視線データ受付部によって取得した、ユーザの視線方向に関する視線データを記憶し、
    音声データ受付部から音声データを取得した際、前記音声データに基づいて操作対象機器を特定できない場合に、記憶された前記視線データに基づいて前記操作対象機器を特定し、
    前記音声データに基づいて前記操作対象機器に対する制御コマンドを生成し、
    前記制御コマンドを前記操作対象機器に送信すること
    を特徴とする情報処理方法。
JP2022557209A 2020-10-22 2020-10-22 情報処理装置及び情報処理方法 Active JP7473002B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/IB2020/000891 WO2022084708A1 (ja) 2020-10-22 2020-10-22 情報処理装置及び情報処理方法

Publications (3)

Publication Number Publication Date
JPWO2022084708A1 JPWO2022084708A1 (ja) 2022-04-28
JPWO2022084708A5 JPWO2022084708A5 (ja) 2023-09-12
JP7473002B2 true JP7473002B2 (ja) 2024-04-23

Family

ID=81290139

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022557209A Active JP7473002B2 (ja) 2020-10-22 2020-10-22 情報処理装置及び情報処理方法

Country Status (5)

Country Link
US (1) US20230377578A1 (ja)
EP (1) EP4234338A4 (ja)
JP (1) JP7473002B2 (ja)
CN (1) CN116323324A (ja)
WO (1) WO2022084708A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007038790A (ja) 2005-08-02 2007-02-15 Murakami Corp 車両用ミラーの鏡面角度調整方法およびその装置
CN105204628A (zh) 2015-09-01 2015-12-30 涂悦 一种基于视觉唤醒的语音控制方法
WO2017081960A1 (ja) 2015-11-09 2017-05-18 三菱自動車工業株式会社 音声認識制御システム
WO2019026616A1 (ja) 2017-08-01 2019-02-07 ソニー株式会社 情報処理装置および方法
WO2019142295A1 (ja) 2018-01-18 2019-07-25 三菱電機株式会社 機器操作装置、機器操作システムおよび機器操作方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6739907B2 (ja) * 2015-06-18 2020-08-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 機器特定方法、機器特定装置及びプログラム
JP2017159692A (ja) 2016-03-07 2017-09-14 トヨタ自動車株式会社 車両用入力装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007038790A (ja) 2005-08-02 2007-02-15 Murakami Corp 車両用ミラーの鏡面角度調整方法およびその装置
CN105204628A (zh) 2015-09-01 2015-12-30 涂悦 一种基于视觉唤醒的语音控制方法
WO2017081960A1 (ja) 2015-11-09 2017-05-18 三菱自動車工業株式会社 音声認識制御システム
WO2019026616A1 (ja) 2017-08-01 2019-02-07 ソニー株式会社 情報処理装置および方法
WO2019142295A1 (ja) 2018-01-18 2019-07-25 三菱電機株式会社 機器操作装置、機器操作システムおよび機器操作方法

Also Published As

Publication number Publication date
US20230377578A1 (en) 2023-11-23
EP4234338A1 (en) 2023-08-30
JPWO2022084708A1 (ja) 2022-04-28
EP4234338A4 (en) 2023-12-20
CN116323324A (zh) 2023-06-23
WO2022084708A1 (ja) 2022-04-28

Similar Documents

Publication Publication Date Title
JP7522177B2 (ja) マルチモーダルユーザインターフェース
US10417510B2 (en) System, methods, and apparatus for in-vehicle fiducial mark tracking and interpretation
EP3237256B1 (en) Controlling a vehicle
CN110166896B (zh) 语音提供方法、语音提供系统和服务器
EP3168839B1 (en) Voice recognition device and voice recognition system
JP6584731B2 (ja) ジェスチャ操作装置及びジェスチャ操作方法
JPWO2015125243A1 (ja) 表示制御装置、表示制御装置の表示制御方法、視線方向検出システムおよび視線方向検出システムのキャリブレーション制御方法
US9275274B2 (en) System and method for identifying handwriting gestures in an in-vehicle information system
KR101736109B1 (ko) 음성인식 장치, 이를 포함하는 차량, 및 그 제어방법
JP7091983B2 (ja) 機器制御装置
US10490188B2 (en) System and method for language selection
US10655981B2 (en) Method for updating parking area information in a navigation system and navigation system
CN110556113A (zh) 基于声纹识别的车辆控制方法与云端服务器
US11996099B2 (en) Dialogue system, vehicle, and method of controlling dialogue system
JP7473002B2 (ja) 情報処理装置及び情報処理方法
CN113157080A (zh) 用于车辆的指令输入方法、存储介质、系统及车辆
KR20160117403A (ko) 차량 및 그 제어방법
CN107848489B (zh) 借助移动设备激活交通工具动作
CN115649109B (zh) 基于智能汽车手环的汽车控制方法、系统及存储介质
US20230365141A1 (en) Information processing device and information processing method
JP2018501998A (ja) 自動車の機器を制御するためのシステムおよび方法
CN113990318A (zh) 控制方法、装置、车载终端、车辆和存储介质
US20200218347A1 (en) Control system, vehicle and method for controlling multiple facilities
US20230206918A1 (en) Speech Recognition System and Method for Providing Speech Recognition Service
EP4174636A1 (en) Information processing device and information processing method

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A5211

Effective date: 20230411

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230411

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240325

R150 Certificate of patent or registration of utility model

Ref document number: 7473002

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150