JP2022189035A - 制御装置、制御方法および制御プログラム - Google Patents
制御装置、制御方法および制御プログラム Download PDFInfo
- Publication number
- JP2022189035A JP2022189035A JP2021097370A JP2021097370A JP2022189035A JP 2022189035 A JP2022189035 A JP 2022189035A JP 2021097370 A JP2021097370 A JP 2021097370A JP 2021097370 A JP2021097370 A JP 2021097370A JP 2022189035 A JP2022189035 A JP 2022189035A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- sound
- predetermined
- output
- behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000001514 detection method Methods 0.000 claims abstract description 94
- 230000009471 action Effects 0.000 claims description 41
- 230000033001 locomotion Effects 0.000 claims description 39
- 238000003384 imaging method Methods 0.000 claims description 6
- 238000013459 approach Methods 0.000 claims description 3
- 230000006399 behavior Effects 0.000 description 150
- 238000012545 processing Methods 0.000 description 20
- 230000000694 effects Effects 0.000 description 16
- 230000006870 function Effects 0.000 description 12
- 210000000744 eyelid Anatomy 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000009434 installation Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/12—Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/403—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers loud-speakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/001—Monitoring arrangements; Testing arrangements for loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/001—Monitoring arrangements; Testing arrangements for loudspeakers
- H04R29/002—Loudspeaker arrays
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/11—Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/13—Acoustic transducers and sound field adaptation in vehicles
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Otolaryngology (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Ophthalmology & Optometry (AREA)
- Circuit For Audible Band Transducer (AREA)
- User Interface Of Digital Computer (AREA)
- Position Input By Displaying (AREA)
Abstract
【課題】入力操作を伴わずに複数ユーザ間で音声を共有する制御装置、制御方法及び制御プログラムを提供する。【解決手段】音声出力システム100において、制御装置1は、指向性スピーカ3の出力先空間に存在するユーザの所定言動を検出する検出部13と、当該所定言動に応じて、音源2のうち注目する音源と制御対象とする指向性スピーカとを特定する特定部14と、特定された音源が発する音声を、特定された指向性スピーカの各々から出力させる出力制御部15と、を備える。【選択図】図1
Description
本発明は、音源が発する音声を音声出力装置から出力させる制御装置等に関する。
所定空間に設けられた複数の音声出力装置の各々から、異なる音源が発する音声を出力させることにより、当該所定空間に存在する複数のユーザの各々に異なる音声を聴取させる技術がある。当該技術の一例としては、車両内において各座席に指向性スピーカを設け、各座席に座る乗員の各々に異なる音源が発する音声を聴取させる技術が挙げられる。
特許文献1には、このような技術を前提として、1つの音源を複数の音声出力装置で共有する技術が開示されている。具体的には、特許文献1には、タッチパネルに表示されたグラフィカルユーザインターフェースに対する操作で車両内の複数の座席を選択し、当該複数の座席の各々に設けられたスピーカで1つの音源を共有する技術が開示されている。
特許文献1の技術では、音源を共有するにあたりグラフィカルユーザインターフェースに対する入力操作が必要であるところ、例えばスマートフォンの画面を相手に近づけることによって映像等を共有するというやり方に慣れているユーザにとって、上記入力操作を都度行うことは煩わしい。
また、特許文献1の技術では、上記グラフィカルユーザインターフェースを表示するための画面を設けなければならない。
本発明の一態様は、入力操作を伴わずに複数ユーザ間で音声を共有することを目的とする。
上記の課題を解決するために、本発明の態様1に係る制御装置は、音源が発する音声を複数の音声出力装置から出力させる制御装置であって、前記音源は前記音声出力装置毎に設定可能であり、前記音声出力装置の出力先空間に存在するユーザの所定言動を検出する検出部と、前記検出された所定言動に応じて、前記音源のうち注目する音源、および、制御対象とする前記音声出力装置を特定する特定部と、前記特定された音源が発する音声を、前記特定された音声出力装置の各々から出力させる出力制御部と、を備える。
上記の構成によれば、ユーザが行った所定言動に応じて注目する音源と制御対象の音声出力装置を特定し、当該音源が発する音声を、当該音声出力装置から出力させる。つまり、ユーザが所定言動を行うことにより、注目する音源から発せられる音声が、当該音源が設定された音声出力装置と、制御対象の音声出力装置とから出力される。これにより、ユーザは、所定言動を行うだけという簡便な方法により、音源から発せられる音声を他者と共有することができる。
本発明の態様2に係る制御装置は、上記態様1において、前記検出部は、撮像装置により撮像された画像から、前記所定言動として前記ユーザの所定動作を検出してもよい。
上記の構成によれば、ユーザの所定動作を撮像し、当該所定動作を所定言動として検出する。これにより、ユーザは、所定動作を行うだけで音源から発せられる音声を他者と共有することができる。例えば、所定動作として予め定められた簡便な身振り手振りにより、音源が発する音声を他者と共有することができる。
本発明の態様3に係る制御装置は、上記態様2において、前記検出部は、前記画像に含まれる前記ユーザの身体部位の動きに基づいて前記所定動作を検出してもよい。
上記の構成によれば、撮像されたユーザの身体部位の動きから所定動作を検出するので、ユーザは自身の所定部位を動かすことで、自身が聴取している音声を他者と共有することができる。ここで、身体部位の動きとは、例えば腕や手などの動きの他、眼の動き(換言すれば、視線の動き)も含む。
本発明の態様4に係る制御装置は、上記態様3において、前記身体部位の動きは、音源として動作する情報端末の位置を所定経路で移動させる動きを含み、前記特定部は、前記情報端末を、前記注目する音源として特定してもよい。
上記の構成によれば、音源として動作する情報端末の位置を所定経路で移動させるという動作で、音源が発する音声を複数ユーザ間で共有する。所定経路は複雑なものである必要はなく、典型的には、共有元ユーザから共有先ユーザへ向かう単純な経路でよい。したがって、ユーザは、簡便な動作により音源が発する音声を他者と共有することができる。
本発明の態様5に係る制御装置は、上記態様4において、前記所定経路は、前記情報端末が音源として設定されている音声出力装置の出力先空間に存在するユーザの側から、前記情報端末が音源として設定されていない音声出力装置の出力先空間に存在するユーザの側へ近づける経路であり、前記特定部は、前記情報端末が音源として設定されていない音声出力装置を前記制御対象として特定してもよい。
上記の構成によれば、音源として動作する情報端末を他者に近づける動きで、当該他者に音声を聴取させている音声出力装置から、当該音源が発する音声を出力させて音声共有を実現する。
本発明の態様6に係る制御装置は、上記態様5において、前記検出部は、さらに、前記情報端末が近づけられたユーザの視線を検出し、前記特定部は、当該視線が前記情報端末に向いている場合、前記注目する音源および前記制御対象の特定を行い、当該視線が前記情報端末に向いていない場合、前記注目する音源および前記制御対象の特定を行わなくてもよい。
上記の構成によれば、近づいた情報端末を他者が見ることで、当該他者に音声を聴取させている音声出力装置から、当該音源が発する音声を出力させて音声共有を実現する。これにより、ユーザが申し出た音声共有に対し他者が了承する際に通常行われる一連の動作で、音声共有を実現することができるので、ユーザは自然に音声共有を実現することができる。また、他者が情報端末を見なければ音声共有は行われないので、他者が望まない音声共有を防止することができる。
本発明の態様7に係る制御装置は、上記態様1から4のいずれかにおいて、前記検出部は、音声入力装置に入力された音声から、前記所定言動として前記ユーザが発した所定発話を検出してもよい。
上記の構成によれば、ユーザの所定発話を取得し、当該所定発話を所定言動として検出する。これにより、ユーザは、所定発話を行うだけで音源から発せられる音声を他者と共有することができる。例えば、所定発話として予め定められた簡便な用語を含む発話がなされることにより、音源が発する音声を他者と共有することができる。
本発明の態様8に係る制御装置は、上記態様7において、前記所定発話は、音源を提供する旨を含むものであり、前記検出部は、さらに、前記所定発話が発せられた後に、前記所定発話を発したユーザと異なる第2ユーザによる言動を検出し、前記特定部は、当該言動が肯定的である場合、前記所定発話を発したユーザが存在する空間に出力されている音声の音源を、前記注目する音源として特定し、かつ、少なくとも、前記第2ユーザが存在する空間に音声を出力する音声出力装置を前記制御対象として特定し、当該言動が否定的である場合、前記注目する音源および前記制御対象の特定を行わない、としてもよい。
上記の構成によれば、ユーザが音源を提供する旨、すなわち、音声共有を申し出る旨の発話を行い、第2ユーザが肯定的な言動を行えば、この2人での音声共有が実現される。これにより、2人のユーザが、1つの音源から発せられる音声の共有を行う際に行われるやり取りで、音源が発する音声を共有することができる。また、第2ユーザが否定的な言動を行えば音声共有は行われないので、第2ユーザが望まない音声共有を防止することができる。
本発明の態様9に係る制御装置は、上記態様7または8において、前記所定発話は、音源の享受を希望する旨を含むものであり、前記検出部は、さらに、前記所定発話が発せられた後に、前記所定発話を発したユーザと異なる第3ユーザによる言動を検出し、前記特定部は、当該言動が肯定的である場合、前記第3ユーザが存在する空間に出力されている音声の音源を、前記注目する音源として特定し、かつ、少なくとも、前記所定発話を発したユーザが存在する空間に音声を出力する音声出力装置を前記制御対象として特定し、当該言動が否定的である場合、前記注目する音源および前記制御対象の特定を行わない、としてもよい。
上記の構成によれば、ユーザが音源の享受を希望する旨、すなわち、音声共有を希望する旨の発話を行い、第3ユーザが肯定的な言動を行えば、この2人での音声共有が実現される。これにより、2人のユーザが、1つの音源から発せられる音声の共有を行う際に行われるやり取りで、音源が発する音声を共有することができる。また、第3ユーザが否定的な言動を行えば音声共有は行われないので、第3ユーザが望まない音声共有を防止することができる。
本発明の態様10に係る制御装置は、上記態様1から9のいずれかにおいて、前記検出部は、さらに、前記ユーザの、前記所定言動と異なる、終了を示す第2所定言動を検出し、前記出力制御部は、前記第2所定言動が検出された場合、前記特定された前記音声出力装置の各々からの、前記特定された音源が発する音声の出力を終了させてもよい。
上記の構成によれば、ユーザが行った第2所定言動に応じて、特定された音声出力装置の各々からの、特定された音源が発する音声の出力を終了させる。これにより、音声共有を行っているユーザは、第2所定言動を行うだけで音声共有を終了させることができる。よって、音声共有を、ユーザに入力操作を行わせることなく終了させることができる。
本発明の態様11に係る制御装置は、上記態様10において、前記出力制御部は、前記終了に伴い、前記特定された前記音声出力装置の各々について、前記出力制御部による制御開始直前に設定されていた音源を再設定してもよい。
上記の構成によれば、音声共有の終了に伴い、出力制御部による制御開始直前に設定されていた音源が、制御対象であった音声出力装置に再設定される。これにより、音声共有をしていたユーザは、当該音声共有の終了に伴い、音声共有の前に聴取していた音声を再聴取することができる。
本発明の態様12に係る制御装置は、上記態様1から11のいずれかにおいて、前記音声出力装置の各々は、音声を発する方向に指向性を有するものであり、異なる前記音声出力装置から出力された複数の音声が到達する音場が形成されないように設けられていてもよい。
上記の構成によれば、音声出力装置の出力先空間には、異なる音声出力装置から出力された複数の音声が到達する音場が形成されないので、形成された音場のいずれかにいるユーザは、いずれかの音声出力装置から出力された音声を聴くこととなる。つまり、形成された音場のいずれかにいるユーザは、自身が聴取している音声とは異なる音声を聴取したい場合、別の音場へ移動する必要がある。ここで、上記の構成によれば、ユーザが所定言動を行うことにより、注目する音源から発せられる音声が、当該音源が設定された音声出力装置と、制御対象の音声出力装置とから出力される。これにより、ユーザは、所定言動を行うことにより、注目する音源から発せられる音声が到達する別の音場へ移動することなく、当該別の音場に到達している音声を聴取することができる。
本発明の態様13に係る音声出力の制御方法は、音源が発する音声を複数の音声出力装置から出力させる制御装置による音声出力の制御方法であって、前記音源は前記音声出力装置毎に設定可能であり、前記音声出力装置の出力先空間に存在するユーザの所定言動を検出する検出ステップと、前記検出された所定言動に応じて、前記音源のうち注目する音源、および、制御対象とする前記音声出力装置を特定する特定ステップと、前記特定された音源が発する音声を、前記特定された音声出力装置の各々から出力させる出力制御ステップと、を含む。
上記の構成によれば、態様1に係る制御装置と同様の作用効果を奏する。
本発明の各態様に係る制御装置は、コンピュータによって実現してもよく、この場合には、コンピュータを前記制御装置が備える各部(ソフトウェア要素)として動作させることにより前記制御装置をコンピュータにて実現させる制御装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
本発明の一態様によれば、入力操作を伴わずに複数ユーザ間で音声を共有することができる。
〔実施形態1〕
以下、本発明の一実施形態について、詳細に説明する。
以下、本発明の一実施形態について、詳細に説明する。
(音声出力システムの概要)
図1は、本実施形態に係る音声出力システム100に含まれる制御装置1の要部構成の一例を示す図である。音声出力システム100は、所定空間に音声を出力させるシステムである。
図1は、本実施形態に係る音声出力システム100に含まれる制御装置1の要部構成の一例を示す図である。音声出力システム100は、所定空間に音声を出力させるシステムである。
図1に示すとおり、音声出力システム100は、制御装置1、音源2A~2N、指向性スピーカ3A~3N(音声出力装置)、カメラ4(撮像装置)およびマイク5(音声入力装置)を含む。
指向性スピーカ3A~3Nは、所定空間に音声を出力する複数の音声出力装置である。なお、「3A~3N」の表記は、指向性スピーカが複数であることを示す表記であり、この表記により、音声出力システム100に含まれる指向性スピーカの数を限定する意図はない。また、以降、指向性スピーカ3A~3Nの各々を区別しない場合、指向性スピーカ3と表記する。指向性スピーカ3は、音声を発する方向に指向性を有する音声出力装置である。また、指向性スピーカ3A~3Nの各々は、出力された複数の音声が到達する音場が形成されないように、所定空間に設けられている。つまり、所定空間に存在するユーザは、いずれか1つの指向性スピーカ3から出力された音声を聴取することとなる。
なお、本実施形態では、ユーザ毎に音声を聴取できる機能を有する音声出力装置の一例として指向性スピーカ3を挙げて説明するが、指向性スピーカ3に代えて当該機能を有する他の音声出力装置を適用してもよい。
音源2A~2Nは、音声を発する複数の音声出力装置である。なお、「2A~2N」の表記は、音源が複数であることを示す表記であり、この表記により、音声出力システム100に含まれる音源の数を限定する意図はない。なお、音声出力システム100に含まれる音源は1つであってもよい。また、以降、音源2A~2Nの各々を区別しない場合、音源2と表記する。音源2A~2Nの各々は、複数の指向性スピーカ3A~3Nの何れかに設定される。具体的には、音源2A~2Nの各々は、制御装置1を介して、複数の指向性スピーカ3A~3Nの何れかと有線接続または無線接続される。これにより、制御装置1を介して音源2と接続された指向性スピーカ3から、音源2が発する音声が出力される。なお、本実施形態では、音源2および制御装置1、並びに、制御装置1および指向性スピーカ3は、一例として、Bluetooth(登録商標)を用いて無線接続されるものとする。なお、接続手段はBluetoothに限られるものではなく、WiFi(登録商標)などの他の無線接続であってもよいし、有線接続であってもよい。
上述のとおり、指向性スピーカ3A~3Nの各々は、出力された複数の音声が到達する音場が形成されないように、所定空間に設けられている。このため、或る音源2が発している音声を聴取したいユーザは、通常、当該音源2が設定された指向性スピーカ3から出力される音声が到達する音場に存在している必要がある。
なお、音源2は、所定空間に持ち込むことが可能な情報端末であってもよいし、所定空間に予め設置されている音源であってもよい。情報端末の具体例としては、スマートフォン、タブレット端末、ラップトップパソコン、携帯型のゲーム機、携帯型の音楽プレーヤ、並びに、携帯型のDVDプレーヤおよびブルーレイディスクプレーヤなどが挙げられるが、これに限定されない。図1の例では、少なくとも音源2Aは情報端末であるものとして図示した。
カメラ4は、所定空間内を撮像する撮像装置である。カメラ4は、撮像した画像(典型例は映像)のデータを制御装置1へ送信する。
マイク5は、所定空間内で発せられた音声を取得する音声入力装置である。マイク5は、取得した音声を音声信号に変換し、当該音声信号を制御装置1へ送信する。なお以降、マイク5による音声の取得を「集音」と表記する場合がある。
制御装置1は、所定空間における音声出力を制御する。具体的には、制御装置1は、音源2A~2Nの各々に、指向性スピーカ3A~3Nのいずれかを設定し、音源2A~2Nの各々が発する音声を、設定した指向性スピーカ3から出力させる。一例として、制御装置1は、音源2から受信した、指向性スピーカ3A~3Nのいずれかとペアリングするための信号に基づき、当該信号を送信した音源2を、当該信号が示す指向性スピーカ3に設定する。そして、制御装置1は、音源2から音声データを受信し、当該音源2が設定された指向性スピーカ3に、当該音声データを送信する。これにより、制御装置1は、音源2が発した音声を、当該音源2が設定された指向性スピーカ3に出力させる。
また、制御装置1は、所定空間内に存在するユーザの所定言動を検出し、当該所定言動に応じて、音源2A~2Nのうちの注目すべき音源と、指向性スピーカ3A~3Nのうちの制御対象とする指向性スピーカ3とを特定し、特定された音源が発する音声を、特定された指向性スピーカ3の各々から出力させる。つまり、制御装置1は、ユーザの所定言動に基づき特定した音源2が発する音声を、当該音源2が設定された指向性スピーカ3に加え、当該所定言動に基づき特定した指向性スピーカ3からも出力させる。換言すれば、制御装置1は、ユーザの所定言動に基づき、特定した音源2が発する音声を、異なる出力先空間に存在する複数のユーザに共有させることができる。なお以降、当該所定言動を「共有開始言動」と表記する。
ここで、共有開始言動は、ユーザが行う所定動作およびユーザが発する所定発話の少なくとも一方からなる。所定動作の典型例は、顔、眼(視線)、腕、手などの身体部位の動作であるが、これに限定されない。なお、本実施形態では、共有開始言動は、少なくとも二人のユーザが行う言動であるものとする。典型的には、本実施形態に係る共有開始言動は、或るユーザが行った、音声の共有を開始するための言動に対し、別のユーザが、音声の共有を承諾するための言動を行うことである。また、以降、音声の共有を開始するための言動を行ったユーザを、「共有開始言動を開始したユーザ」と表記する場合がある。また、音声の共有を承諾するための言動を行ったユーザを「共有開始言動を成立させたユーザ」と表記する場合がある。また、制御装置1の詳細については後述する。
以上の構成により、制御装置1は、ユーザが行った共有開始言動に応じて、1つの音源2が発する音声を複数のユーザに共有させることができる。つまり、1つの音源2が発する音声を共有したいユーザは、共有開始言動を行うことにより、音声共有のためのユーザインターフェースに対する入力操作(例えば、音源2や指向性スピーカ3に対するボタン操作等)を行わずとも、当該音声を共有することができる。換言すれば、当該ユーザは、上記入力操作の煩わしさを感じることなく、簡便な方法で音声共有を行うことができる。
(音声入力システムの適用例)
図2は、音声出力システム100を適用した車両200を上方から見た図である。すなわち、図2に示す例では、上記所定空間は車両200が形成する車内空間210である。
図2は、音声出力システム100を適用した車両200を上方から見た図である。すなわち、図2に示す例では、上記所定空間は車両200が形成する車内空間210である。
図2に示すとおり、車内空間210には、4つの指向性スピーカ3A~3Dが設けられている。図2に示す例では、指向性スピーカ3A~3Dは、各座席のヘッドレストに設けられている。具体的には、指向性スピーカ3Aは、運転席20Aのヘッドレストに設けられている。指向性スピーカ3Bは、助手席20Bのヘッドレストに設けられている。指向性スピーカ3Cは、後部座席20Cのヘッドレストに設けられている。指向性スピーカ3Dは、後部座席20Dのヘッドレストに設けられている。
指向性スピーカ3A~3Dは、各々が設けられた座席に座る乗員のみが、出力された音声を聴取することができるように、音声を発する方向に指向性を有している。具体的には、指向性スピーカ3A~3Dの各々から出力される音波の強度は、車両200の前方方向が強く、その他の方向は弱くなっている。これにより、指向性スピーカ3Aから出力された音声は、運転席20Aに座る乗員(運転手)のみが聴取可能である。指向性スピーカ3Bから出力された音声は、助手席20Bに座る乗員のみが聴取可能である。指向性スピーカ3Cから出力された音声は、後部座席20Cに座る乗員のみが聴取可能である。指向性スピーカ3Dから出力された音声は、後部座席20Dに座る乗員のみが聴取可能である。このように指向性スピーカ3を配置することにより、車両200の乗員は、各々が聴取したい音声を聴取することができる。
なお、車内空間210に設けられる指向性スピーカ3の数および設置位置は図2の例に限定されない。
また、図2に示すとおり、車内空間210には、2つのカメラ4Aおよび4Bと、4つのマイク5A~5Dが設けられている。図2に示す例では、カメラ4Aは、助手席20Bの前方、グローブボックス付近に設けられており、運転席20Aおよび助手席20Bを撮像する。これにより、運転席20Aおよび助手席20Bに座る乗員は、カメラ4Aによって撮像される。また、カメラ4Bは、助手席20Bの背面に設けられており、後部座席20Cおよび20Dを撮像する。これにより、後部座席20Cおよび20Dに座る乗員は、カメラ4Bによって撮像される。
カメラ4Aおよび4Bは、映像を撮像したカメラ4が、カメラ4Aおよび4Bのいずれであるかを特定可能な映像データを、制御装置1へ送信する。一例として、カメラ4Aおよび4Bは、自機を識別するカメラ識別情報を映像データに対応付けて制御装置1へ送信する。
なお、車内空間210に設けられるカメラ4の数および設置位置は図2の例に限定されない。カメラ4の設置位置は、撮像すべき乗員の撮像すべき身体部位(典型的には、上半身)を撮像可能な位置であればよく、例えば、カメラ4Aをハンドルとグローブボックスの間付近に設けてもよい。また、撮像範囲の狭いカメラを用いる場合、4つのカメラ4の各々を、各座席の前方に設置してもよい。また、例えば、ハンドルとグローブボックスの間付近に設けたカメラ4Aで、後部座席20Cおよび20Dに座る乗員の撮像すべき部位を撮像可能であれば、車両200にカメラ4Bを設けなくてもよい。
また、図2に示す例では、マイク5A~5Dは、各座席の前方に、集音部を各座席側に向けて設けられている。具体的には、マイク5Aは、運転席20Aの前方のハンドル付近に、集音部を運転席20A側に向けて設けられている。マイク5Bは、助手席20Bの前方のグローブボックス付近に、集音部を助手席20B側に向けて設けられている。指向性スピーカ3Cは、後部座席20Cの前方の運転席20Aの背面に、集音部を後部座席20C側に向けて設けられている。指向性スピーカ3Dは、後部座席20Dの前方の助手席20Bの背面に、集音部を後部座席20D側に向けて設けられている。
本実施形態に係るマイク5A~5Dは、集音部が向けられた座席に座る乗員が発した音声のみを集音することができるように、その集音範囲に指向性を有している。具体的には、マイク5A~5Dは、集音部から当該集音部が向けられた座席までの範囲(すなわち、集音部の前方)の集音感度が高く、その他の範囲の集音感度が低くなっている。これにより、マイク5Aは、車両200の乗員のうち、運転席20Aに座る乗員の発した音声のみを集音する。マイク5Bは、車両200の乗員のうち、助手席20Bに座る乗員の発した音声のみを集音する。マイク5Cは、車両200の乗員のうち、後部座席20Cに座る乗員の発した音声のみを集音する。マイク5Cは、車両200の乗員のうち、後部座席20Dに座る乗員の発した音声のみを集音する。
マイク5A~5Dは、集音したマイク5が、マイク5A~5Dのいずれであるかを特定可能な音声信号を、制御装置1へ送信する。一例として、マイク5A~5Dは、自機を識別するマイク識別情報を音声信号に対応付けて制御装置1へ送信する。
なお、車内空間210に設けられるマイク5の数および設置位置は図2の例に限定されない。例えば、音声が発せられた方向を特定可能であれば、車内空間210全体を集音範囲とするマイク1つを、車両200の適切な位置(例えば、図2の点Oの位置)に設けてもよい。また、図2では、マイク5と座席との対応を示すために、各座席の前方にマイク5が設けられている例としたが、マイク5は、指向性スピーカ3の出力する音声を集音せず、各座席に座る乗員の発話音声のみを集音する位置に設けられることが望ましい。
また、図2の例における音源2は、車内空間210に持ち込むことが可能な情報端末と、車内空間210に予め設置されている車載音源とを含む。車載音源の具体例としては、車載ラジオ、車載テレビ、カーオーディオなどが挙げられるが、これに限定されない。
また、本実施形態では、制御装置1は車両200に設けられているものとして説明する。車両200における制御装置1の設置位置は、音源2、指向性スピーカ3、カメラ4およびマイク5と通信可能に接続できる位置であれば、特に限定されない。なお、制御装置1は、音源2、指向性スピーカ3、カメラ4およびマイク5と通信可能に接続できるのであれば、車両200とは異なる位置に設けられてもよい。例えば、車両200と通信可能に接続されたネットワーク上のサーバ装置に設けられてもよい。
(制御装置1の詳細)
再び図1を参照し、制御装置1の詳細について説明する。制御装置1は、映像認識部11、音声認識部12、検出部13、特定部14、出力制御部15、記憶部16および通信部17を備えている。なお以降、本実施形態に係る音声出力システム100が、図2に示す車両200に適用されている例を説明する。すなわち、以降の説明において、音声出力システム100のユーザは、車両200の乗員である。
再び図1を参照し、制御装置1の詳細について説明する。制御装置1は、映像認識部11、音声認識部12、検出部13、特定部14、出力制御部15、記憶部16および通信部17を備えている。なお以降、本実施形態に係る音声出力システム100が、図2に示す車両200に適用されている例を説明する。すなわち、以降の説明において、音声出力システム100のユーザは、車両200の乗員である。
記憶部16は、制御装置1によって用いられる各種データを記憶するものである。記憶部16は、図1に示すように、音源設定161を少なくとも記憶している。なお、記憶部16は、制御装置1がアクセス可能な外部の記憶装置として実現されてもよい。
通信部17は、音源2として動作する情報端末から情報を受信する。当該情報の一例は、情報端末の向きに関する情報(以下では「向き情報」と表記する)である。向き情報については後述する。なお、通信部17は、情報端末へ情報を送信する機能を備えていてもよい。また、通信部17は、情報端末以外の音源2と情報の送受信を行ってもよい。
映像認識部11は、カメラ4が撮像した映像の認識処理を行う。映像認識部11は、動き認識部111、視線認識部112および端末認識部113を含む。映像認識部11は、映像の認識結果を、取得した映像データに対応付けられたカメラ識別情報とともに検出部13へ出力する。
動き認識部111は、映像に映る乗員の身体部位の動きを認識する。なお、身体部位の動きの認識は、既存の技術を用いて実現することができるので、ここでの詳細な説明を省略する。一例として、動き認識部111は、身体部位が映る映像データから身体部位の動きを推定するための動き推定モデルを用いて、乗員の身体部位の動きを認識する。当該動き推定モデルは、記憶部16に記憶されていてもよい。
視線認識部112は、映像に映る乗員の視線、すなわち、乗員が見ている方向を認識する。なお、視線の認識は、既存の技術を用いて実現することができるので、ここでの詳細な説明を省略する。一例として、視線認識部112は、眼が映る映像データから視線を推定するための視線推定モデルを用いて、乗員の視線を認識する。当該視線推定モデルは、記憶部16に記憶されていてもよいし、制御装置1と通信可能に接続されている他の装置に記憶されていてもよい。
端末認識部113は、映像中に映る情報端末の動きおよび向きを認識する。なお、情報端末におけるこれらの認識は、既存の技術を用いて実現することができるので、ここでの詳細な説明を省略する。一例として、端末認識部113は、情報端末が映る映像データから情報端末の動きおよび向きを推定するための端末推定モデルを用いて、情報端末の動きおよび向きを認識する。当該端末推定モデルは、記憶部16に記憶されていてもよいし、制御装置1と通信可能に接続されている他の装置に記憶されていてもよい。
また、端末認識部113は、通信部17を介して情報端末からリアルタイムに受信する向き情報に基づき、情報端末の向きを認識してもよい。向き情報は、慣性情報および電波強度情報の少なくともいずれかである。慣性情報は、例えば情報端末が備える慣性センサが測定する情報である。慣性センサは、例えば、3軸加速度センサ、3軸角速度センサ、3軸方位センサ、またはこれらの組合せからなる9軸センサであるが、これらに限定されない。電波強度情報は、Bluetooth等の無線接続の信号強度(RSSI:Received Signal Strength Indicator)を示す情報である。
なお、カメラ4は、身体部位の動きの認識、視線の認識、並びに、情報端末の動きおよび向きの認識に必要な機能を備えている。例えば、視線の認識に赤外線画像が必要である場合、カメラ4は赤外線カメラとしての機能を備えている。
音声認識部12は、マイク5が集音した音声について、音声認識処理を行う。具体的には、音声認識部12は、マイク5から取得した音声信号をテキストデータに変換し、当該テキストデータを検出部13に出力する。なお、音声認識処理は、既存の技術を用いて実現することができるので、ここでの詳細な説明を省略する。一例として、音声認識部12は、音声認識モデルを用いて音声認識処理を行う。音声認識モデルは、音響モデル、発音辞書および言語モデルを含み、音声認識部12は、音響分析を行った音声信号を当該音声認識モデルに入力することにより、認識結果、すなわち音声信号から変換されたテキストデータを得る。音声認識モデルは、既存のディープラーニング技術により生成されてもよい。当該音声認識モデルは、記憶部16に記憶されていてもよいし、制御装置1と通信可能に接続されている他の装置に記憶されていてもよい。
音声認識部12は、音声認識結果として得られたテキストデータに基づき、集音された音声が発話であるか否かを判定する。発話であると判定した場合、音声認識部12は、当該テキストデータを、取得した音声信号に対応付けられたマイク識別情報とともに検出部13へ出力する。発話でないと判定した場合、音声認識部12は、テキストデータを検出部13へ出力することなく、処理を終了する。なお、音声認識部12は、発話であるか否かの判定結果を、音声認識結果とともに音声認識モデルから取得してもよい。換言すれば、発話であるか否かの判定は、音声認識モデルにより行われてもよい。また、発話でない音声とは、例えば、車内空間210内で発生した雑音等であるが、これに限定されない。
なお、上述の「制御装置1と通信可能に接続されている他の装置」は、例えば、クラウドサーバとして実現されていてもよい。
検出部13は、指向性スピーカ3の出力先空間に存在する乗員の共有開始言動を検出する。出力先空間とは、指向性スピーカ3が音声を出力する空間である。すなわち、本実施形態に係る検出部13は、車内空間210に存在する乗員の共有開始言動を検出する。
検出部13は、カメラ4により撮像された画像から、共有開始言動として乗員の所定動作を検出する。所定動作は、共有開始言動の少なくとも一部である。具体的には、検出部13は、映像認識部11から取得した、カメラ4により撮像された映像の認識結果に基づき、当該映像において、乗員の所定動作が行われているか否かを判定する。検出部13は、所定動作が行われていると判定した場合、取得した認識結果およびカメラ識別情報を、特定部14へ出力する。一方、検出部13は、所定動作が行われていないと判定した場合、共有開始言動の検出処理を終了する。なお、検出部13が検出する所定動作の具体例については後述する。
また、検出部13は、マイク5に入力された音声から、共有開始言動として乗員が発した所定発話を検出する。所定発話は、共有開始言動の少なくとも一部である。具体的には、検出部13は、音声認識部12から取得した、マイク5に入力された音声の認識結果であるテキストデータに基づき、当該音声が、所定発話であるか否かを判定する。検出部13は、所定発話であると判定した場合、取得したテキストデータおよびマイク識別情報を、特定部14へ出力する。一方、検出部13は、所定発話でないと判定した場合、共有開始言動の検出処理を終了する。なお、検出部13が検出する所定発話の具体例については後述する。
なお、本実施形態では、共有開始言動は、所定の順序で行われた複数の所定動作からなる(発話を含まない)、または、所定の順序で発せられた複数の所定発話からなる(動作を含まない)とする。つまり、検出部13は、映像の認識結果およびカメラ識別情報、または、音声認識結果(テキストデータ)およびマイク識別情報、を特定部14へ出力する。なお、所定の順序とは、音声の共有を開始するための所定動作または所定発話の次に、音声の共有を承諾するための所定動作または所定発話が行われることを指す。
特定部14は、検出された共有開始言動に応じて、音源2のうち注目する音源、および、制御対象とする指向性スピーカ3を特定する。特定部14は、音源特定部141およびスピーカ特定部142を含む。
音源特定部141は、検出された共有開始言動に応じて、上記注目する音源を特定する。具体的には、音源特定部141は、映像の認識結果およびカメラ識別情報、または、音声認識結果(テキストデータ)およびマイク識別情報を検出部13から取得し、当該取得したデータと、記憶部16に記憶されている音源設定161とに基づき、注目する音源を特定する。
図3は、音源設定161の一具体例を示す図である。音源設定161は、音源2と、当該音源2が発する音声を出力している指向性スピーカ3との組み合わせを示す情報である。図3では、音源設定161がテーブル形式のデータベースである例を示しているが、音源設定161のデータ形式はこの例に限定されない。
図3は、音源設定161の例として、音源設定161Aおよび161Bを示している。音源設定161Aは、特定部14による処理の実行前における音源設定161であり、音源設定161Bは、当該処理の実行後における音源設定161である。
「スピーカ」カラムには、車内空間210に設けられている指向性スピーカ3を示す情報が格納されている。図3の例では、指向性スピーカ3A~3Dの各々を示す情報が、各レコードに格納されている。なお以降、「スピーカ」カラムに格納された情報をスピーカ情報と表記する場合がある。「音源」カラムには、各指向性スピーカ3に音声を出力させている音源2を示す情報が格納されている。なお以降、「音源」カラムに格納された情報を音源情報と表記する場合がある。
音源設定161Aによれば、指向性スピーカ3Aは、車載ラジオである音源2Aが発する音声を出力している。指向性スピーカ3Bは、携帯ゲーム機である音源2Bが発する音声を出力している。指向性スピーカ3Cは、スマートフォンである音源2Cが発する音声を出力している。指向性スピーカ3Dは、スマートフォンである音源2Dが発する音声を出力している。なお、「共有制御」カラムおよび「共有前音源」カラムについては後述する。
再び図1を参照し、音源特定部141を説明する。まず、乗員が所定動作からなる共有開始言動を行った結果、特定部14が映像の認識結果およびカメラ識別情報を取得した場合について説明する。音源特定部141は、取得したカメラ識別情報に基づき、映像を撮影したカメラ4を特定する。続いて、音源特定部141は、カメラ4の特定結果および映像の認識結果に基づき、共有開始言動を開始した乗員が存在する空間を特定する。当該空間は、すなわち、共有開始言動を開始した乗員が聴取している音声を出力している指向性スピーカ3の出力先空間である。本実施形態では、音源特定部141は、共有開始言動を開始した乗員が座っている座席を特定することにより、当該空間を特定する。続いて、音源特定部141は、座席の特定結果に基づき、当該座席に設けられている指向性スピーカ3を特定する。続いて、音源特定部141は、指向性スピーカ3の特定結果と、音源設定161とに基づき、指向性スピーカ3に設定されている音源2を特定する。
例えば、後部座席20Dに座る乗員が共有開始言動を開始したユーザであり、後部座席20Cに座る乗員が共有開始言動を成立させたユーザである場合、音源特定部141は、映像を撮影したカメラ4がカメラ4Bであると特定し、共有開始言動を開始したユーザである乗員が座っている座席を後部座席20Dであると特定する。続いて、音源特定部141は、後部座席20Dに設けられている指向性スピーカ3Dを特定し、音源設定161Aに基づき、指向性スピーカ3Dに設定されている音源2Dを特定する。
続いて、乗員が所定発話からなる共有開始言動を行った結果、特定部14が音声認識結果およびマイク識別情報を取得した場合について説明する。音源特定部141は、取得したマイク識別情報に基づき、集音したマイク5を特定する。続いて、音源特定部141は、マイク5の特定結果および音声認識結果に基づき、共有開始言動を開始した乗員が座っている座席を特定することにより、当該乗員が存在する空間を特定する。続いて、音源特定部141は、座席の特定結果に基づき、当該座席に設けられている指向性スピーカ3を特定する。続いて、音源特定部141は、指向性スピーカ3の特定結果と、音源設定161とに基づき、指向性スピーカ3に設定されている音源2を特定する。
例えば、後部座席20Dに座る乗員が共有開始言動を開始したユーザであり、後部座席20Cに座る乗員が共有開始言動を成立させたユーザである場合、音源特定部141は、集音したマイク5がマイク5Cおよびマイク5Dであると特定し、共有開始言動を開始したユーザである乗員が座っている座席を後部座席20Dであると特定する。続いて、音源特定部141は、後部座席20Dに設けられている指向性スピーカ3Dを特定し、音源設定161Aに基づき、指向性スピーカ3Dに設定されている音源2Dを特定する。
スピーカ特定部142は、検出された共有開始言動に応じて、制御対象とする指向性スピーカ3を特定する。具体的には、スピーカ特定部142は、映像の認識結果およびカメラ識別情報、または、音声認識結果およびマイク識別情報を検出部13から取得し、当該取得したデータに基づき、制御対象とする指向性スピーカ3を特定する。
まず、乗員が所定動作からなる共有開始言動を行った結果、特定部14が映像の認識結果およびカメラ識別情報を取得した場合について説明する。スピーカ特定部142は、取得したカメラ識別情報に基づき、映像を撮影したカメラ4を特定する。続いて、スピーカ特定部142は、カメラ4の特定結果および映像の認識結果に基づき、共有開始言動を成立させたユーザである乗員が座っている座席を特定する。すなわち、スピーカ特定部142は、映像中の乗員のうち、共有を承諾するための所定動作を行った乗員を特定し、当該乗員が座っている座席を特定する。続いて、スピーカ特定部142は、座席の特定結果に基づき、当該座席に設けられている指向性スピーカ3を、制御対象として特定する。
例えば、後部座席20Dに座る乗員が共有開始言動を開始したユーザであり、後部座席20Cに座る乗員が共有開始言動を成立させたユーザである場合、スピーカ特定部142は、映像を撮影したカメラ4がカメラ4Bであると特定し、共有開始言動を成立させたユーザである乗員が座っている座席を後部座席20Cであると特定する。続いて、スピーカ特定部142は、後部座席20Cに設けられている指向性スピーカ3Cを制御対象として特定する。
続いて、乗員が所定発話からなる共有開始言動を行った結果、特定部14が音声認識結果およびマイク識別情報を取得した場合について説明する。スピーカ特定部142は、取得したマイク識別情報に基づき、集音したマイク5を特定する。続いて、スピーカ特定部142は、マイク5の特定結果および音声認識結果に基づき、共有開始言動を成立させたユーザである乗員が座っている座席を特定する。すなわち、スピーカ特定部142は、共有を承諾するための所定発話を行った乗員を特定し、当該乗員が座っている座席を特定する。続いて、スピーカ特定部142は、座席の特定結果に基づき、当該座席に設けられている指向性スピーカ3を、制御対象として特定する。
例えば、後部座席20Dに座る乗員が共有開始言動を開始したユーザであり、後部座席20Cに座る乗員が共有開始言動を成立させたユーザである場合、スピーカ特定部142は、集音したマイク5がマイク5Cおよびマイク5Dであると特定し、共有開始言動を成立させたユーザである乗員が座っている座席を後部座席20Cであると特定する。続いて、スピーカ特定部142は、後部座席20Cに設けられている指向性スピーカ3Cを制御対象として特定する。
特定部14は、特定した音源2および指向性スピーカ3に基づき、音源設定161の「音源」カラムを更新する。例えば、後部座席20Dに座る乗員が共有開始言動を開始したユーザであり、後部座席20Cに座る乗員が共有開始言動を成立させたユーザである場合、上述したとおり、音源2Dおよび指向性スピーカ3Cが特定される。特定部14は、この特定結果に基づき、音源設定161Aにおいて指向性スピーカ3Cに対応付けられていた音源2Cを、音源設定161Bに示すように、音源2Dに変更する。特定部14は、音源設定161の更新を出力制御部15へ通知する。
また、特定部14は、音源設定161の「共有制御」および「共有前音源」カラムを更新する。「共有制御」カラムには、制御対象として特定された指向性スピーカ3であるか否かを示すフラグが格納される。なお、図3の例では、「0」が制御対象として特定された指向性スピーカ3でないことを示し、「1」が制御対象として特定された指向性スピーカ3であることを示すフラグであるが、制御対象として特定された指向性スピーカ3であるか否かを示すフラグはこれに限定されない。また以降、当該フラグを共有制御フラグと表記する場合がある。
例えば、後部座席20Dに座る乗員が共有開始言動を開始したユーザであり、後部座席20Cに座る乗員が共有開始言動を成立させたユーザである場合、特定部14は、指向性スピーカ3Cのスピーカ情報を含むレコードにおいて、共有制御フラグを「0」から「1」に変更する。
「共有前音源」カラムには、特定部14が制御対象として特定した指向性スピーカ3について、制御開始直前に設定されていた音源2を示す情報が格納される。つまり、「共有前音源」カラムには、特定部14による制御対象の指向性スピーカ3の特定をトリガとして、この特定前に「音源」カラムに格納されていた音源情報が格納される。なお以降、「共有前音源」カラムに格納される情報を共有前音源情報と表記する場合がある。
例えば、後部座席20Dに座る乗員が共有開始言動を開始したユーザであり、後部座席20Cに座る乗員が共有開始言動を成立させたユーザである場合、指向性スピーカ3Cのスピーカ情報を含むレコードにおいて、音源2Cを示す共有前音源情報が格納される。また、指向性スピーカ3Dのスピーカ情報を含むレコードにおいて、音源2Dを示す共有前音源情報が格納される。
なお、特定部14が制御対象として特定した指向性スピーカ3について、制御開始直前に音源2が設定されていない場合、当該指向性スピーカ3のスピーカ情報を含むレコードにおいて共有前音源情報は格納されない。
また、図3に示す音源設定161Bの例において、指向性スピーカ3Aのスピーカ情報を含むレコードと、指向性スピーカ3Bのスピーカ情報を含むレコードとは、これら指向性スピーカ3が制御対象として特定されていないため、特定部14はこれらのレコードについて共有前音源情報の更新を行わない。
出力制御部15は、音源設定161に基づき、音源2が発する音声を指向性スピーカ3のいずれかから出力させる。つまり、出力制御部15は、特定部14により特定された音源2が発する音声を、特定部14により特定された指向性スピーカ3の各々から出力させる。図3に示す音源設定161Bの例の場合、出力制御部15は、特定部14からの通知を受けると、音源設定161Bを参照し、音源2Dが発する音声を、指向性スピーカ3Dに加え、指向性スピーカ3Dからも出力させる。これにより、後部座席20Cおよび20Dに座っている乗員間で、音源2Dが発する音声が共有される。
なお、特定部14により特定された指向性スピーカ3から、特定部14により特定された音源2が発する音声を出力させる方法は、特に限定されない。出力制御部15は例えば、当該指向性スピーカ3と音源2との現在のペアリングを解除し、特定された音源2を、特定された指向性スピーカ3とペアリングしてもよい。また、出力制御部15は例えば、特定された音源2がペアリングされている指向性スピーカ3から、特定された指向性スピーカ3へ音声データを送信することにより、特定された音源2が発する音声を、特定された指向性スピーカ3から出力させてもよい。
(共有処理の流れ)
図4は、制御装置1が実行する共有処理の流れの一例を示すフローチャートである。ステップS1において、映像認識部11は、カメラ4から映像データを取得する。ステップS2において、映像認識部11は、映像に映る乗員の身体部位の動きと、情報端末の動きおよび向きとを認識する。当該身体部位の動きは、乗員の視線の動きを含む。映像認識部11は、この認識処理の結果と、取得した映像データに対応付けられたカメラ識別情報とを、検出部13へ出力する。
図4は、制御装置1が実行する共有処理の流れの一例を示すフローチャートである。ステップS1において、映像認識部11は、カメラ4から映像データを取得する。ステップS2において、映像認識部11は、映像に映る乗員の身体部位の動きと、情報端末の動きおよび向きとを認識する。当該身体部位の動きは、乗員の視線の動きを含む。映像認識部11は、この認識処理の結果と、取得した映像データに対応付けられたカメラ識別情報とを、検出部13へ出力する。
ステップS3において、音声認識部12は、マイク5から音声信号を取得する。ステップS4において、音声認識部12は、音声認識および発話判定を行い、取得した音声信号が示す音声が発話であると判定した場合、音声認識結果と、取得した音声信号に対応付けられたマイク識別情報とを、検出部13へ出力する。
ステップS5(検出ステップ)において、検出部13は、共有開始言動を検出する。検出部13は、取得した映像の認識結果および音声認識結果に基づき、共有開始言動が行われたか否かを判定する。共有開始言動が行われたと判定した場合(ステップS5でYES)、検出部13は、取得した映像の認識結果およびカメラ識別情報、または、音声認識結果およびマイク識別情報を特定部14へ出力し、共有処理はステップS6へ進む。共有開始言動が行われなかったと判定した場合(ステップS5でNO)、共有処理はステップS1へ戻る。
ステップS6(特定ステップ)において、音源特定部141は、共有する音源2を特定する。具体的には、特定部14は、検出部13から取得したデータと、音源設定161とに基づき、当該音源2を特定する。
ステップS7(特定ステップ)において、スピーカ特定部142は、制御対象とする指向性スピーカ3を特定する。具体的には、スピーカ特定部142は、検出部13から取得したデータに基づき、当該指向性スピーカ3を特定する。特定部14は、特定した音源2および指向性スピーカ3に基づき、音源設定161を更新し、その旨を出力制御部15へ通知する。
ステップS8(出力制御ステップ)において、出力制御部15は、特定された指向性スピーカ3から、特定された音源2が発する音声を出力させる。具体的には、出力制御部15は、特定部14からの通知を受けると、音源設定161を参照する。当該音源設定161において、特定された音源2は、音源設定161の更新により、特定された指向性スピーカ3に対応付けられているので、出力制御部15は、特定された指向性スピーカ3から、特定された音源2が発する音声を出力させることができる。以上で、共有処理は終了する。
なお、車内空間210で音声が発生していない場合、ステップS3およびS4の処理は省略される。また、車内空間210で発生した音声について、ステップS4にて音声認識部12が当該音声を発話でないと判定した場合、音声認識部12は、音声認識結果およびマイク識別情報を検出部13へ送信しない。
(共有開始言動の具体例1)
図5は、車内空間210で行われる共有開始言動の一具体例を示す図である。図5に示す共有開始言動は所定動作からなり、音源2として動作する情報端末の位置を所定経路で移動させる、乗員の身体部位の動きを含む。具体的には、図5に示す共有開始言動は、以下の所定動作からなる。なお、図5に示す音源2Dは、表示部を備えるスマートフォンである。(1)音源2Dが設定されている指向性スピーカ3Dの出力先空間に存在する乗員90Dが、音源2Dが設定されていない指向性スピーカ3Cの出力先空間に存在する乗員90Cへ音源2Dを近づける。(2)乗員90Dが、音源2Dの表示部を見る。(3)乗員90Cが、音源2Dの表示部を見る。
図5は、車内空間210で行われる共有開始言動の一具体例を示す図である。図5に示す共有開始言動は所定動作からなり、音源2として動作する情報端末の位置を所定経路で移動させる、乗員の身体部位の動きを含む。具体的には、図5に示す共有開始言動は、以下の所定動作からなる。なお、図5に示す音源2Dは、表示部を備えるスマートフォンである。(1)音源2Dが設定されている指向性スピーカ3Dの出力先空間に存在する乗員90Dが、音源2Dが設定されていない指向性スピーカ3Cの出力先空間に存在する乗員90Cへ音源2Dを近づける。(2)乗員90Dが、音源2Dの表示部を見る。(3)乗員90Cが、音源2Dの表示部を見る。
ここで、指向性スピーカ3Cおよび3Dの出力先空間は、それぞれ、後部座席20Cおよび20Dに形成される。また、(2)および(3)の所定動作は、(1)の所定動作の後であれば、その順序は特に限定されない。
検出部13は、映像の認識結果から、以下の点を検出することにより、共有開始言動を検出する。(A)乗員90Dの音源2Dを把持する手の動きが、乗員90Cへ近づく動きである。(B)音源2Dの表示部が、乗員90Cおよび90Dの側に向いている。(C)乗員90Cおよび90Dの視線が音源2Dに向いている。
検出部13は、上記(A)の検出を、動き認識部111の認識結果と、端末認識部113の認識結果(情報端末の動きの認識結果)とから行う。検出部13は、上記(B)の検出を、端末認識部113の認識結果(情報端末の向きの認識結果)から行う。検出部13は、上記(C)の検出を、視線認識部112の認識結果から行う。
検出部13は、上記(A)~(C)をすべて検出した場合、共有開始言動を検出したとして、映像の認識結果およびカメラ識別情報を特定部14へ出力する。一方、検出部13は、上記(A)~(C)の何れかを検出しなかった場合、共有開始言動を検出していないとして、映像の検出結果およびカメラ識別情報を特定部14へ出力しない。例えば、乗員90Cの視線が音源2Dに向いていない場合、映像の認識結果およびカメラ識別情報を特定部14へ出力しない。これにより、特定部14は、上記(A)~(C)のすべてが検出された場合、映像の認識結果およびカメラ識別情報に基づき、注目する音源2および制御対象の指向性スピーカ3の特定を行う。一方、特定部14は、上記(A)~(C)の何れかが検出されなかった場合、注目する音源2および制御対象の指向性スピーカ3の特定を行わない。すなわち、乗員90Dが音源2Dの表示部を自身の側に向けて乗員90Cへ近づけた場合、乗員90Cの視線が音源2Dに向いていれば、特定部14は注目する音源2および制御対象の指向性スピーカ3の特定を行う。一方、乗員90Cの視線が音源2Dに向いていない場合、特定部14は注目する音源2および制御対象の指向性スピーカ3の特定を行わない。
なお、共有開始言動を構成する所定動作は、上記(1)~(3)の所定動作に限定されない。例えば、当該所定動作は、上記(1)および(3)の動作のみである、すなわち、乗員90Dが、情報端末の表示部を見る動作を含んでいなくてもよい。この例の場合、検出部13は、上記(B)および(C)に代えて、以下の(B’)および(C’)を検出する。(B’)音源2Dの表示部が、乗員90Dの側に向いている。(C’)乗員90Dの視線が音源2Dに向いていることを検出する。
あるいは、共有開始言動を構成する所定動作における上記(2)の動作は、情報端末以外を見る動作であってもよい。例えば、上記(2)の動作は、上記90Dが乗員90Cを見る動作であってもよい。この例の場合、検出部13は、上記(A)および(B’)、並びに、乗員90Dの視線が乗員90Cに向いていることを検出する。
図5に示す共有開始言動は、すなわち、音源2Dが発する音声を指向性スピーカ3Cを介して聴取している乗員90Dが、当該音声の聴取を乗員90Cに勧め、乗員90Cが承諾するときの、乗員90Cおよび90Dの動作である。つまり、車両200の乗員は、複数人で音声を共有する場合に行う一般的な動作により、各乗員が存在する座席に設けられた指向性スピーカ3から、同一の音源2が発する音声を出力し、乗員間での音声共有を実現することができる。結果として、車両200の乗員は、音声共有のためのユーザインターフェースに対する入力操作を行うことなく音声の共有を実現することができるので、上記入力操作の煩わしさを感じることなく音声の共有を実現することができる。
(共有開始言動の具体例2)
図6は、車内空間210で行われる共有開始言動の別の具体例を示す図である。なお、図6に示す具体例について、図5に示す具体例と同じ部分については、すでに説明しているためここでは説明を繰り返さない。
図6は、車内空間210で行われる共有開始言動の別の具体例を示す図である。なお、図6に示す具体例について、図5に示す具体例と同じ部分については、すでに説明しているためここでは説明を繰り返さない。
図6に示す共有開始言動は所定発話からなり、当該所定発話は、音源を提供する旨の発話と、当該発話に肯定的に応答する発話とを含む。具体的には、図6に示す共有開始言動は、以下の所定発話からなる。(4)乗員90Dが、「これ聴いて」との、音源を提供する内容の発話を行う。(5)乗員90C(第2ユーザ)が、「OK」との肯定的に応答する発話を行う。
検出部13は、音声認識結果から、音源を提供する旨の発話と、当該発話に肯定的に応答する発話とを検出することにより、共有開始言動を検出する。なお、音源を提供する旨の発話と、当該発話に肯定的に応答する発話とは、図6の例に限定されない。つまり、検出部13は、音源を提供する旨の発話と、当該発話に肯定的に応答する発話とについて、複数のバリエーションを検出可能である。検出部13は例えば、記憶部16に記憶されている当該複数のバリエーションの各々を示すテキストを参照し、音源を提供する旨の発話と、当該発話に肯定的に応答する発話とを検出する。
検出部13は、音源を提供する旨の発話と、当該発話に肯定的に応答する発話との両方を検出した場合、共有開始言動を検出したとして、音声認識結果およびマイク識別情報を特定部14へ出力する。一方、検出部13は、これら発話の何れかを検出しなかった場合、共有開始言動を検出していないとして、音声認識結果およびマイク識別情報を特定部14へ出力しない。例えば、乗員90Cによる発話が、乗員90Dによる「これ聴いて」との発話に否定的に応答する発話である場合、検出部13は、音声認識結果およびマイク識別情報を特定部14へ出力しない。なお、否定的に応答する発話とは、例えば、「嫌」、「ごめん」、「聴かない」などであるが、これに限定されない。
(所定言動の具体例3)
図7は、車内空間210で行われる共有開始言動のさらなる別の具体例を示す図である。なお、図7に示す具体例について、図5および図6に示す具体例と同じ部分については、すでに説明しているためここでは説明を繰り返さない。
図7は、車内空間210で行われる共有開始言動のさらなる別の具体例を示す図である。なお、図7に示す具体例について、図5および図6に示す具体例と同じ部分については、すでに説明しているためここでは説明を繰り返さない。
図7に示す共有開始言動は所定発話からなり、当該所定発話は、音源の享受を希望する旨の発話と、当該発話に肯定的に応答する発話とを含む。具体的には、図6に示す共有開始言動は、以下の所定発話からなる。(6)乗員90Cが、「Dさん、○○聴かせて」との、音源の享受を希望する内容の発話を行う。(7)乗員90D(第3ユーザ)が、「OK」との肯定的に応答する発話を行う。
検出部13は、音声認識結果から、音源の享受を希望する旨の発話と、当該発話に肯定的に応答する発話とを検出することにより、共有開始言動を検出する。なお、音源の享受を希望する旨の発話と、当該発話に肯定的に応答する発話とは、図7の例に限定されない。つまり、検出部13は、音源の享受を希望する旨の発話と、当該発話に肯定的に応答する発話とについて、複数のバリエーションを検出可能である。検出部13は例えば、記憶部16に記憶されている当該複数のバリエーションの各々を示すテキストを参照し、音源の享受を希望する旨の発話と、当該発話に肯定的に応答する発話とを検出する。
検出部13は、音源の享受を希望する旨の発話と、当該発話に肯定的に応答する発話との両方を検出した場合、共有開始言動を検出したとして、音声認識結果およびマイク識別情報を特定部14へ出力する。一方、検出部13は、これら発話の何れかを検出しなかった場合、共有開始言動を検出していないとして、音声認識結果およびマイク識別情報を特定部14へ出力しない。例えば、乗員90Dによる発話が、乗員90Cによる「Dさん、○○聴かせて」との発話に否定的に応答する発話である場合、検出部13は、音声認識結果およびマイク識別情報を特定部14へ出力しない。なお、否定的に応答する発話とは、例えば、「嫌」、「ごめん」などであるが、これに限定されない。
具体例2および3に記載のとおり、車両200の乗員は、複数人で音声を共有する場合に行う一般的な会話を行うことにより、各乗員が存在する座席に設けられた指向性スピーカ3から、同一の音源2が発する音声を出力し、乗員間での音声共有を実現することができる。結果として、車両200の乗員は、ユーザインターフェースに対する入力操作を行うことなく音声の共有を実現することができるので、上記入力操作の煩わしさを感じることなく音声の共有を実現することができる。
(変形例)
上述した実施形態では、音源2の発した音声が制御装置1を介して指向性スピーカ3から出力される例を説明したが、音源2の発した音声は制御装置1を介さずに直接指向性スピーカ3から出力されてもよい。例えば、指向性スピーカ3は、Bluetoothにより音源2のいずれかと直接接続され、音源2が発する音声を出力してもよい。この接続は、制御装置1を介さずに行われてもよいが、音源2および指向性スピーカ3のいずれか一方が、この接続を示す情報、すなわちペアリングされた音源2と指向性スピーカ3とを示す情報を制御装置1へ送信することが望ましい。
上述した実施形態では、音源2の発した音声が制御装置1を介して指向性スピーカ3から出力される例を説明したが、音源2の発した音声は制御装置1を介さずに直接指向性スピーカ3から出力されてもよい。例えば、指向性スピーカ3は、Bluetoothにより音源2のいずれかと直接接続され、音源2が発する音声を出力してもよい。この接続は、制御装置1を介さずに行われてもよいが、音源2および指向性スピーカ3のいずれか一方が、この接続を示す情報、すなわちペアリングされた音源2と指向性スピーカ3とを示す情報を制御装置1へ送信することが望ましい。
この例に係る出力制御部15は、特定部14により特定された音源2が発する音声が、特定部14により特定された指向性スピーカ3からも出力されるように、当該音源2、特定前から当該音源2と接続されていた指向性スピーカ3、および、特定部14により特定された指向性スピーカ3の少なくともいずれかに指示する。
また、上述した実施形態では、共有開始言動が所定動作のみ、または、所定発話のみからなる例を説明したが、共有開始言動は、所定動作および所定発話からなるものであってもよい。例えば、共有開始言動は、音源を提供する旨または音源の享受を希望する旨の発話と、当該発話に肯定的に応答する動作であってもよい。この例の場合、検出部13は、映像の認識結果およびカメラ識別情報と、音声認識結果およびマイク識別情報とを特定部14へ出力する。
特定部14は、例えば、音声認識結果およびマイク識別情報から、注目する音源2を特定する。また、特定部14は、例えば、映像の認識結果およびカメラ識別情報とから、制御対象となる指向性スピーカ3を特定する。これらの特定の詳細は、実施形態1で説明しているため、ここでは説明を繰り返さない。
また、共有開始言動は、1人のユーザによる動作または発話であってもよい。一例として、検出部13は、乗員90Dが乗員90Cへ音源2Dを近づける動作を行った場合、当該動作のみを共有開始言動として検出してもよい。つまり、承諾するための言動は省略されてもよい。
また、特定部14は、ユーザの発話の内容に基づき、制御対象となる指向性スピーカ3を特定してもよい。例えば、特定部14は、音源の享受を希望する旨の発話を示す音声認識結果に、「みんな」が含まれている場合、注目する音源2に設定されている指向性スピーカ3以外の、すべての指向性スピーカ3を、制御対象として特定してもよい。この例において、検出部13は、例えば、「みんな、これ聴いて」との発話を含む言動を共有開始言動として検出してもよい。
また、検出部13は、「みんな、これ聴いて」との発話のみを共有開始言動として検出してもよい。また、特定部14は、この例において、車両200の各座席に乗員が座っているか否かを特定し、注目する音源2に設定されている指向性スピーカ3以外の、すべての指向性スピーカ3のうち、乗員が座っている座席に設けられている指向性スピーカ3を、制御対象として特定してもよい。特定部14は、乗員が座っているか否かの特定を、例えば、座席の座面に設けられた重量センサの測定データに基づき行ってもよい。
また、出力制御部15は、注目する音源2が情報端末である場合、当該音源2と、制御対象として特定された指向性スピーカ3とを接続するBluetoothの電波強度をリアルタイムで測定し、当該電波強度に応じた制御を行ってもよい。
例えば、出力制御部15は、電波強度の低下に応じて、制御対象となっている指向性スピーカ3から出力される音声の音量を低下(フェードアウト)させてもよい。つまり、出力制御部15は、情報端末と指向性スピーカ3との距離の増大に応じて、制御対象となっている指向性スピーカ3から出力される音声の音量を低下させる。そして、情報端末と指向性スピーカ3との距離がBluetoothによる接続ができない距離となると、Bluetoothによる接続が解除され、当該情報端末が発する音声を当該指向性スピーカ3から出力することができなくなる。よって、制御装置1は、この構成により、情報端末と指向性スピーカ3との接続解除に伴う音声出力の終了を自然なものとすることができる。
また、出力制御部15は、注目する音源2と、制御対象として特定された指向性スピーカ3とのBluetoothによる接続が解除された場合、当該音源2と指向性スピーカ3との組み合わせを記憶部16に記憶しておくことが好ましい。そして、出力制御部15は、接続が解除された音源2である情報端末について、測定している電波強度が所定の強度以上となった場合、上記組み合わせを参照し、当該情報端末と、指向性スピーカ3とを再接続してもよい。これにより、当該情報端末から発する音声の共有が再開される。また、出力制御部15は、情報端末と、指向性スピーカ3とを再接続した後、電波強度の増大に応じて、制御対象となっている指向性スピーカ3から出力される音声の音量を増大(フェードイン)させてもよい。この構成により、制御装置1は、情報端末と指向性スピーカ3との再接続に伴う音声出力の再開を自然なものとすることができる。
また、音声出力システム100は、複数の指向性スピーカ3に代えて、指向性を有さない複数のスピーカを含むものであってもよい。
また、制御装置1は、所定発話の検出から、注目する音源2および制御対象の指向性スピーカ3の特定までを、自然言語処理により行ってもよい。この例において、制御装置1は、当該自然言語処理を実現するために、発話に特定の単語が含まれる場合に、注目する音源2および制御対象の指向性スピーカ3を推定するよう学習された推定モデルを用いてもよい。また、この例の場合、音声認識結果を取得して当該推定モデルに入力し、推定結果に基づき音源2および指向性スピーカ3を特定する部材が、検出部13および特定部14に相当する。
なお、以上の変形例は、後述の実施形態にも適用可能である。
〔実施形態2〕
本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。
本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。
本実施形態に係る制御装置1は、ユーザによる、終了を示す第2所定言動を検出した場合、音源を共有している指向性スピーカ3の各々からの、特定された音源が発する音声の出力を終了させる。なお以降、第2所定言動を共有終了言動と表記する。
具体的には、検出部13は、実施形態1にて説明した所定言動に加え、上記共有終了言動を検出する。共有終了言動は、例えば、両腕を交差させ「×」を作るなどの所定動作(以下、第2所定動作と表記)であってもよいし、「おしまい」などの文言を含む所定発話(以下、第2所定発話と表記)であってもよい。
前者の例の場合、検出部13は、映像の認識結果から第2所定動作を検出した場合、共有終了言動を検出したとして、映像の認識結果およびカメラ識別情報を特定部14へ出力する。また後者の例の場合、検出部13は、音声認識結果から第2所定発話を検出した場合、共有終了言動を検出したとして、マイク識別情報を特定部14へ出力する。
特定部14は、検出された共有終了言動に応じて、共有開始言動に基づき特定された指向性スピーカ3の各々からの、共有開始言動に基づき特定された音源が発する音声の出力を終了させる。
まず、乗員が第2所定動作からなる共有終了言動を行った結果、特定部14が、映像の認識結果およびカメラ識別情報を取得した場合について説明する。特定部14は、取得したカメラ識別情報に基づき、映像を撮影したカメラ4を特定する。続いて、特定部14は、カメラ4の特定結果および映像の認識結果に基づき、共有終了言動を行った乗員が座っている座席を特定することにより、共有終了言動を行った乗員が存在する空間を特定する。続いて、特定部14は、座席の特定結果に基づき、当該座席に設けられている指向性スピーカ3を特定する。続いて、特定部14は、指向性スピーカ3の特定結果と、音源設定161とに基づき、指向性スピーカ3が出力している音声を発している音源2を特定する。続いて、特定部14は、音源2の特定結果と、音源設定161とに基づき、特定した音源2が発している音声を出力している別の指向性スピーカ3があるか否かを判定する。
当該別の指向性スピーカ3があると判定した場合、特定部14は、共有開始言動に基づき特定された指向性スピーカ3の各々からの、共有開始言動に基づき特定された音源2が発する音声の出力を終了させる。当該指向性スピーカ3は、すなわち、共有制御フラグが1である指向性スピーカ3である。特定部14は、音源設定161において共有制御フラグが1である指向性スピーカ3について、音声出力を終了させる旨の終了指示を、出力制御部15へ出力する。当該終了指示は、当該指向性スピーカ3のスピーカ情報と、当該スピーカ情報を含むレコードにおける共有前音源情報とを含む。
また、特定部14は、音源設定161を更新する。具体的には、特定部14は、終了指示のスピーカ情報を含むレコードについて、音源情報、共有制御フラグおよび共有前音源情報を更新する。より具体的には、特定部14は、現在の音源情報を削除し、共有前音源情報を「音源」セルに移動させる。これにより「共有前音源」のセルは空欄となる。また、特定部14は、共有制御フラグを「0」に変更する。
出力制御部15は、終了指示が示す指向性スピーカ3について、現在の音声出力を終了させ、特定された指向性スピーカ3の各々について、出力制御部15による制御開始直前に設定されていた音源2を再設定する。つまり、出力制御部15は、終了指示が示す音源2からの音声出力を開始させる。これにより、車両200の乗員は、注目する音源2が発する音声の共有終了後に、当該共有の直前に聴取していた音声を再聴取することができる。
一例として、出力制御部15は、終了指示が示す指向性スピーカ3の現在の音声出力について、音量を徐々に下げ、音量が所定の音量以下となったときに、終了指示が示す音源2からの音声出力を開始させ、上記所定の音量と異なる所定の第2音量以上となるまで音量を徐々に上げてもよい。なお、第2音量は所定の音量より大きい値であることが好ましい。このように構成することにより、車両200の乗員に対し、音源2が発する音声の共有直前に聴取していた音声を、自然な形で再聴取させることができる。
続いて、乗員が第2所定発話からなる共有終了言動を行った結果、特定部14がマイク識別情報を取得した場合について説明する。特定部14は、取得したマイク識別情報に基づき、集音したマイク5を特定する。続いて、特定部14は、マイク5の特定結果に基づき、共有終了言動を行った乗員が座っている座席を特定することにより、共有終了言動を行った乗員が存在する空間を特定する。マイク5の各々と座席の各々とは1対1で対応づいているので、特定部14は、第2所定発話を集音したマイク5を特定すれば、第2所定発話を発した乗員を特定することができる。以降の処理は、上述した映像の認識結果およびカメラ識別情報を取得した場合と同じであるため、ここでは説明を繰り返さない。
なお、特定した音源2が発している音声を出力している別の指向性スピーカ3が無いと判定した場合、特定部14は終了指示を出力制御部15へ出力しない。なお、当該別の指向性スピーカ3が無いと判定した場合とは、例えば、注目する音源2が発する音声を出力していない指向性スピーカ3の出力先空間に存在する乗員が、共有終了言動を行ってしまった場合である。
(共有終了処理の流れ)
図8は、制御装置1が実行する共有終了処理の流れの一例を示すフローチャートである。なお、図8に示すフローチャートにおいて、実施形態1で説明した共有処理と同じ処理を実行するステップには、同じステップ番号を付している。また、当該ステップについては、実施形態1ですでに説明しているため、ここでは説明を省略する。
図8は、制御装置1が実行する共有終了処理の流れの一例を示すフローチャートである。なお、図8に示すフローチャートにおいて、実施形態1で説明した共有処理と同じ処理を実行するステップには、同じステップ番号を付している。また、当該ステップについては、実施形態1ですでに説明しているため、ここでは説明を省略する。
ステップS11において、検出部13は、共有終了言動を検出する。検出部13は、取得した映像の認識結果および音声認識結果に基づき、共有終了言動が行われたか否かを判定する。共有終了言動が行われたと判定した場合(ステップS11でYES)、検出部13は、取得した映像の認識結果およびカメラ識別情報、または、マイク識別情報を特定部14へ出力し、共有処理はステップS12へ進む。共有終了言動が行われなかったと判定した場合(ステップS11でNO)、共有処理はステップS1へ戻る。
ステップS12において、特定部14は、音源共有中の指向性スピーカ3が、共有直前に接続していた音源2を特定する。特定部14は、特定した音源2を示す情報を含む終了指示を、出力制御部15へ出力する。
ステップS13において、出力制御部15は、各指向性スピーカ3から、特定した音源2が発する音声を出力する。つまり、特定部14により制御対象として特定された指向性スピーカ3は、特定部14により特定された音源2が発する音声出力を終了し、共有直前に設定されていた別の音源2が発する音声の出力を開始する。
(変形例)
共有終了言動が行われた場合の出力制御部15の処理は、共有前音源情報が示す音源2が発する音声を出力する処理に限定されない。例えば、出力制御部15は、注目する音源2と指向性スピーカ3との接続を解除する処理のみを行う、すなわち、共有の終了後に指向性スピーカ3に音声を出力させない構成であってもよい。
共有終了言動が行われた場合の出力制御部15の処理は、共有前音源情報が示す音源2が発する音声を出力する処理に限定されない。例えば、出力制御部15は、注目する音源2と指向性スピーカ3との接続を解除する処理のみを行う、すなわち、共有の終了後に指向性スピーカ3に音声を出力させない構成であってもよい。
〔実施形態3〕
本発明のさらなる別の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。
本発明のさらなる別の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。
本実施形態に係る制御装置1は、各乗員の瞼がどれくらい開いているかを示す開瞼値に基づき、音声出力に関する制御を行う。
一例として、制御装置1は、所定値以上の開瞼値を検出した乗員に限り、特定部14が特定した音源2が発する音声を共有する。具体的には、特定部14は、カメラ4により撮像された映像の認識結果から開瞼値を特定し、当該開瞼値を所定値と比較する。そして、特定部14は、開瞼値が所定値未満である乗員に音声を聴取させる指向性スピーカ3を、制御対象から除外する。
例えば、特定部14は、共有開始言動の音声認識結果に「みんな」が含まれている場合に、映像の認識結果から、車両200の各乗員の開瞼値を特定する。開瞼値が所定値未満の乗員が存在する場合、特定部14は、カメラ識別情報から当該乗員が座る座席を特定し、当該座席に設けられた指向性スピーカ3を特定する。そして、特定部14は、当該指向性スピーカ3を制御対象から除外する。
これにより、制御装置1は、開瞼値が所定値未満の乗員、換言すれば、睡眠をとっているまたは睡眠をとろうとしている乗員を、特定部14が特定した音源2が発する音声の共有対象から外すことができる。よって、当該音声の共有対象となることを希望しない乗員に、音源2から発せられる音声を聴取させてしまう可能性を低減させることができる。
なお、開瞼値を用いた制御は、この例に限定されない。例えば、制御装置1は、制御対象として特定した指向性スピーカ3の出力先空間に存在する乗員の開瞼値をリアルタイムで測定し、当該指向性スピーカ3からの音声出力を制御してもよい。
例えば、特定部14は、制御対象として特定した指向性スピーカ3の出力先空間に存在する、車両200の乗員を撮影した映像の認識結果を、当該指向性スピーカ3が制御対象でなくなるまで、継続して取得する。特定部14は、映像の認識結果から、乗員の開瞼値が所定値未満となったことを特定した場合、当該乗員に音声を聴取させる指向性スピーカ3の音量を、所定値まで低下させる。これにより、制御装置1は、乗員の睡眠を妨害しないようにすることができる。
〔ソフトウェアによる実現例〕
制御装置1(以下、「装置」と呼ぶ)の機能は、当該装置としてコンピュータを機能させるためのプログラムであって、当該装置の各制御ブロック(特に、映像認識部11、音声認識部12、検出部13、特定部14、出力制御部15、および通信部17)としてコンピュータを機能させるためのプログラムにより実現することができる。
制御装置1(以下、「装置」と呼ぶ)の機能は、当該装置としてコンピュータを機能させるためのプログラムであって、当該装置の各制御ブロック(特に、映像認識部11、音声認識部12、検出部13、特定部14、出力制御部15、および通信部17)としてコンピュータを機能させるためのプログラムにより実現することができる。
この場合、上記装置は、上記プログラムを実行するためのハードウェアとして、少なくとも1つの制御装置(例えばプロセッサ)と少なくとも1つの記憶装置(例えばメモリ)を有するコンピュータを備えている。この制御装置と記憶装置により上記プログラムを実行することにより、上記各実施形態で説明した各機能が実現される。
上記プログラムは、一時的ではなく、コンピュータ読み取り可能な、1または複数の記録媒体に記録されていてもよい。この記録媒体は、上記装置が備えていてもよいし、備えていなくてもよい。後者の場合、上記プログラムは、有線または無線の任意の伝送媒体を介して上記装置に供給されてもよい。
また、上記各制御ブロックの機能の一部または全部は、論理回路により実現することも可能である。例えば、上記各制御ブロックとして機能する論理回路が形成された集積回路も本発明の範疇に含まれる。この他にも、例えば量子コンピュータにより上記各制御ブロックの機能を実現することも可能である。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
1 制御装置
2、2A~2N 音源
3、3A~3N 指向性スピーカ(音声出力装置)
4、4A、4B カメラ(撮像装置)
5、5A~5D マイク(音声入力装置)
13 検出部
14 特定部
15 出力制御部
S5 検出ステップ
S6 特定ステップ
S7 特定ステップ
S8 出力制御ステップ
2、2A~2N 音源
3、3A~3N 指向性スピーカ(音声出力装置)
4、4A、4B カメラ(撮像装置)
5、5A~5D マイク(音声入力装置)
13 検出部
14 特定部
15 出力制御部
S5 検出ステップ
S6 特定ステップ
S7 特定ステップ
S8 出力制御ステップ
Claims (14)
- 音源が発する音声を複数の音声出力装置から出力させる制御装置であって、
前記音源は前記音声出力装置毎に設定可能であり、
前記音声出力装置の出力先空間に存在するユーザの所定言動を検出する検出部と、
前記検出された所定言動に応じて、前記音源のうち注目する音源、および、制御対象とする前記音声出力装置を特定する特定部と、
前記特定された音源が発する音声を、前記特定された音声出力装置の各々から出力させる出力制御部と、を備える制御装置。 - 前記検出部は、撮像装置により撮像された画像から、前記所定言動として前記ユーザの所定動作を検出する、請求項1に記載の制御装置。
- 前記検出部は、前記画像に含まれる前記ユーザの身体部位の動きに基づいて前記所定動作を検出する、請求項2に記載の制御装置。
- 前記身体部位の動きは、音源として動作する情報端末の位置を所定経路で移動させる動きを含み、
前記特定部は、前記情報端末を、前記注目する音源として特定する、請求項3に記載の制御装置。 - 前記所定経路は、前記情報端末が音源として設定されている音声出力装置の出力先空間に存在するユーザの側から、前記情報端末が音源として設定されていない音声出力装置の出力先空間に存在するユーザの側へ近づける経路であり、
前記特定部は、前記情報端末が音源として設定されていない音声出力装置を前記制御対象として特定する、請求項4に記載の制御装置。 - 前記検出部は、さらに、前記情報端末が近づけられたユーザの視線を検出し、
前記特定部は、
当該視線が前記情報端末に向いている場合、前記注目する音源および前記制御対象の特定を行い、
当該視線が前記情報端末に向いていない場合、前記注目する音源および前記制御対象の特定を行わない、請求項5に記載の制御装置。 - 前記検出部は、音声入力装置に入力された音声から、前記所定言動として前記ユーザが発した所定発話を検出する、請求項1から6のいずれか1項に記載の制御装置。
- 前記所定発話は、音源を提供する旨を含むものであり、
前記検出部は、さらに、前記所定発話が発せられた後に、前記所定発話を発したユーザと異なる第2ユーザによる言動を検出し、
前記特定部は、
当該言動が肯定的である場合、前記所定発話を発したユーザが存在する空間に出力されている音声の音源を、前記注目する音源として特定し、かつ、少なくとも、前記第2ユーザが存在する空間に音声を出力する音声出力装置を前記制御対象として特定し、
当該言動が否定的である場合、前記注目する音源および前記制御対象の特定を行わない、請求項7に記載の制御装置。 - 前記所定発話は、音源の享受を希望する旨を含むものであり、
前記検出部は、さらに、前記所定発話が発せられた後に、前記所定発話を発したユーザと異なる第3ユーザによる言動を検出し、
前記特定部は、
当該言動が肯定的である場合、前記第3ユーザが存在する空間に出力されている音声の音源を、前記注目する音源として特定し、かつ、少なくとも、前記所定発話を発したユーザが存在する空間に音声を出力する音声出力装置を前記制御対象として特定し、
当該言動が否定的である場合、前記注目する音源および前記制御対象の特定を行わない、請求項7または8に記載の制御装置。 - 前記検出部は、さらに、前記ユーザの、前記所定言動と異なる、終了を示す第2所定言動を検出し、
前記出力制御部は、前記第2所定言動が検出された場合、前記特定された前記音声出力装置の各々からの、前記特定された音源が発する音声の出力を終了させる、請求項1から9のいずれか1項に記載の制御装置。 - 前記出力制御部は、前記終了に伴い、前記特定された前記音声出力装置の各々について、前記出力制御部による制御開始直前に設定されていた音源を再設定する、請求項10に記載の制御装置。
- 前記音声出力装置の各々は、
音声を発する方向に指向性を有するものであり、
異なる前記音声出力装置から出力された複数の音声が到達する音場が形成されないように設けられている、請求項1から11のいずれか1項に記載の制御装置。 - 音源が発する音声を複数の音声出力装置から出力させる制御装置による音声出力の制御方法であって、
前記音源は前記音声出力装置毎に設定可能であり、
前記音声出力装置の出力先空間に存在するユーザの所定言動を検出する検出ステップと、
前記検出された所定言動に応じて、前記音源のうち注目する音源、および、制御対象とする前記音声出力装置を特定する特定ステップと、
前記特定された音源が発する音声を、前記特定された音声出力装置の各々から出力させる出力制御ステップと、を含む制御方法。 - 請求項1に記載の制御装置としてコンピュータを機能させるための制御プログラムであって、上記検出部、上記特定部および上記出力制御部としてコンピュータを機能させるための制御プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021097370A JP2022189035A (ja) | 2021-06-10 | 2021-06-10 | 制御装置、制御方法および制御プログラム |
US17/831,998 US11930335B2 (en) | 2021-06-10 | 2022-06-03 | Control device, control method, and control program |
DE102022114392.9A DE102022114392A1 (de) | 2021-06-10 | 2022-06-08 | Steuervorrichtung, steuerverfahren und steuerprogramm |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021097370A JP2022189035A (ja) | 2021-06-10 | 2021-06-10 | 制御装置、制御方法および制御プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022189035A true JP2022189035A (ja) | 2022-12-22 |
Family
ID=84192153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021097370A Pending JP2022189035A (ja) | 2021-06-10 | 2021-06-10 | 制御装置、制御方法および制御プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11930335B2 (ja) |
JP (1) | JP2022189035A (ja) |
DE (1) | DE102022114392A1 (ja) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009147814A (ja) | 2007-12-17 | 2009-07-02 | Fujitsu Ten Ltd | 音響システム及び音響制御方法 |
US10999419B1 (en) * | 2020-06-23 | 2021-05-04 | Harman International Industries, Incorporated | Systems and methods for in-vehicle voice calls |
-
2021
- 2021-06-10 JP JP2021097370A patent/JP2022189035A/ja active Pending
-
2022
- 2022-06-03 US US17/831,998 patent/US11930335B2/en active Active
- 2022-06-08 DE DE102022114392.9A patent/DE102022114392A1/de active Pending
Also Published As
Publication number | Publication date |
---|---|
US11930335B2 (en) | 2024-03-12 |
US20220400343A1 (en) | 2022-12-15 |
DE102022114392A1 (de) | 2022-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11348581B2 (en) | Multi-modal user interface | |
JP6819672B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
US20180270571A1 (en) | Techniques for amplifying sound based on directions of interest | |
US11176948B2 (en) | Agent device, agent presentation method, and storage medium | |
CN109429132A (zh) | 耳机系统 | |
US11061236B2 (en) | Head-mounted display and control method thereof | |
JP2020060696A (ja) | コミュニケーション支援システム、コミュニケーション支援方法、およびプログラム | |
JP2020055348A (ja) | エージェント装置、エージェント制御方法、およびプログラム | |
CN111007968A (zh) | 智能体装置、智能体提示方法及存储介质 | |
EP3618465B1 (en) | Vehicle communication system and method of operating vehicle communication systems | |
JP4410378B2 (ja) | 音声認識方法および装置 | |
US11974103B2 (en) | In-car headphone acoustical augmented reality system | |
KR102537879B1 (ko) | 차량용 듀얼 마이크의 능동형 제어 시스템 및 그의 제어 방법 | |
EP3684076B1 (en) | Accelerometer-based selection of an audio source for a hearing device | |
JP2022189035A (ja) | 制御装置、制御方法および制御プログラム | |
JP7456490B2 (ja) | 音データ処理装置および音データ処理方法 | |
JP2021150835A (ja) | 音データ処理装置および音データ処理方法 | |
JP2019102062A (ja) | ヘッドマウントディスプレイ及びその制御方法 | |
JP7169921B2 (ja) | エージェント装置、エージェントシステム、エージェント装置の制御方法、およびプログラム | |
TWI840587B (zh) | 多模態使用者介面 | |
US20220020354A1 (en) | Voice output device and voice output method | |
JP2020039048A (ja) | 音声収集装置および音声収集方法 | |
CN111824174A (zh) | 智能体装置、智能体装置的控制方法及存储介质 | |
WO2023122283A1 (en) | Voice assistant optimization dependent on vehicle occupancy | |
JP2022189036A (ja) | 制御装置、制御システム、および制御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231226 |