JP6607220B2 - スピーカ位置特定システム、スピーカ位置特定装置、及びスピーカ位置特定方法 - Google Patents

スピーカ位置特定システム、スピーカ位置特定装置、及びスピーカ位置特定方法 Download PDF

Info

Publication number
JP6607220B2
JP6607220B2 JP2017053248A JP2017053248A JP6607220B2 JP 6607220 B2 JP6607220 B2 JP 6607220B2 JP 2017053248 A JP2017053248 A JP 2017053248A JP 2017053248 A JP2017053248 A JP 2017053248A JP 6607220 B2 JP6607220 B2 JP 6607220B2
Authority
JP
Japan
Prior art keywords
speaker
unit
speakers
image
captured image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017053248A
Other languages
English (en)
Other versions
JP2018157401A (ja
Inventor
英昭 嶋田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2017053248A priority Critical patent/JP6607220B2/ja
Priority to EP18162249.9A priority patent/EP3376781B1/en
Priority to US15/923,741 priority patent/US10321255B2/en
Publication of JP2018157401A publication Critical patent/JP2018157401A/ja
Application granted granted Critical
Publication of JP6607220B2 publication Critical patent/JP6607220B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/403Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers loud-speakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/403Linear arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Image Analysis (AREA)

Description

本発明はスピーカ位置特定システム、スピーカ位置特定装置、及びスピーカ位置特定方法に関する。
5.1chホームシアターシステムなど、多数のスピーカを配置するシステムが広く使われている。例えば、リスナーの位置にマイクを配置してスピーカからの音声を取得し、その取得された音声に応じてスピーカに出力されるチャネル等のパラメータを決定している(特許文献1)。
国際公開第2008/126161号
多数のスピーカを配置するシステムを調整する際に、ユーザは、音楽を聴く位置にマイクを置く必要があり、また調整中はノイズとなる音を出さないなどの注意が強いられる。例えば、可搬型のスピーカを用いる場合は設定作業を行う回数が増えやすく、調整の際のユーザの負担が無視できない。
本発明は上記課題に鑑みてなされたものであって、その目的は、スピーカが出力する音声を調整する際のユーザの負担を低減することが可能なスピーカ位置特定システム、スピーカ位置特定装置、スピーカ位置特定方法、及びプログラムを提供することにある。
上記課題を解決するために、本発明にかかるスピーカ位置特定システムは、撮影画像を取得するカメラと、前記撮影画像に含まれるスピーカの画像を認識する画像認識手段と、前記認識されたスピーカの前記撮影画像内の位置および大きさに基づいて、前記スピーカの位置を特定する位置特定手段と、前記特定されたスピーカの位置に基づいて、前記スピーカに出力される音声信号のパラメータを決定するパラメータ決定手段と、を含む。
また、本発明にかかるスピーカ位置特定方法は、カメラから撮影画像を取得するステップと、前記取得された撮影画像に含まれるスピーカの画像を認識するステップと、前記認識されたスピーカの前記撮影画像内の位置および大きさに基づいて、前記スピーカの位置を特定するステップと、前記特定されたスピーカの位置に基づいて、前記スピーカに出力される音声信号のパラメータを決定するステップと、を含む。
また、本発明にかかるスピーカ位置特定装置は、カメラにより取得された撮影画像に含まれるスピーカの画像を認識する画像認識手段と、前記認識されたスピーカの前記撮影画像内の位置および大きさに基づいて、前記スピーカの位置を特定する位置特定手段と、前記特定されたスピーカの位置に基づいて、前記スピーカに出力される音声信号のパラメータを決定するパラメータ決定手段と、を含む。
本発明によれば、スピーカが出力する音声を調整する際のユーザの負担を低減することが可能になる。
本発明の実施形態にかかるサラウンドシステムの一例を説明する平面図である。 フロントユニットのハードウェア構成を概略的に示すブロック図である。 フロントユニットの外観を示す斜視図である。 スピーカユニットのハードウェア構成を概略的に示すブロック図である。 サラウンドシステムの機能的な構成を示すブロック図である。 フロントユニットの処理の一例を示すフロー図である。 カメラにより撮影される撮影画像の一例を示す図である。 スピーカユニットとフロントユニットとの位置関係を説明する図である。 リスナーとフロントユニットとの位置関係を説明する図である。 スピーカユニットと撮影画像から特定された位置とを対応付ける処理の一例を示すフロー図である。 スピーカユニットの指示応答部の処理の一例を示すフロー図である。 スピーカユニットと撮影画像から特定された位置とを対応付ける処理の他の一例を示すフロー図である。
以下、本発明の実施形態の例を図面に基づいて説明する。
図1は、本発明の実施形態にかかるサラウンドシステムの一例を示す平面図である。サラウンドシステムは、フロントユニット1と、複数のスピーカユニット2とを含む。フロントユニット1は、テレビ4の前に配置され、少なくとも2チャンネルの音声を出力する。スピーカユニット2は、フロントユニット1と連携して音を出力する。サラウンドシステムは、例えばテレビ4などから出力される多チャンネルの音声を出力し、リスナー3に臨場感ある音楽を楽しませる。図1の例では、スピーカユニット2aは家具35の上に配置されている。図1には、複数のスピーカユニット2として2台のスピーカユニット2a,2bが配置されているが、より多くの数のスピーカユニット2が配置されてもよいし、一つだけのスピーカユニット2が配置されてもよい。
フロントユニット1は、一般的にサウンドバーと呼ばれる機器である。図2は、フロントユニット1のハードウェア構成を概略的に示すブロック図であり、図3は、フロントユニット1の外観を示す斜視図である。フロントユニット1は、プロセッサ11と、記憶部12と、通信部13と、出力部14と、入力部15と、カメラ16と、スピーカ21とを含む。スピーカ21は、スピーカアレイ21aを含む。また、入力部15は、テレビ4や他のオーディオ機器などの音源23に接続されている。
フロントユニット1は水平方向に長い形状を有し、一般的にテレビ4の画面の横方向に平行になるように配置されている。また、横方向に並ぶ多数のスピーカ21からなるアレイスピーカ21aが配置されている。多数のスピーカ21のそれぞれから出力される音の位相を調整することにより、任意の方向へ向かう指向性の大きい音が出力される。なお、アレイスピーカ21aの代わりに、互いに離間する2つのスピーカ21が配置されてもよい。
プロセッサ11は、記憶部12に格納されているプログラムに従って動作し、通信部13やカメラ16、出力部14、入力部15を制御する。上記プログラムは、フラッシュメモリ等のコンピュータで読み取り可能な記憶媒体に格納されてもよいし、ネットワークを介して提供されてもよい。
記憶部12は、DRAMやフラッシュメモリ等のメモリ素子によって構成されている。記憶部12は、上記プログラムを格納する。また、記憶部12は、プロセッサ11や通信部13等から入力される情報や演算結果を格納する。
通信部13は有線LANや無線LAN、またBluetooth(登録商標)送受信機を構成する集積回路やコネクタ、アンテナなどにより構成されている。通信部13は、ネットワークを介して他の装置と通信する。通信部13は、プロセッサ11の制御により、他の装置から受信した情報をプロセッサ11や記憶部12に入力し、他の装置に情報を送信する。
出力部14は例えばDA変換器やヘッドホン端子を含み、スピーカ21などに接続されている。入力部15はライン入力端子やAD変換器、デジタル音声入力インターフェース、HDMI(登録商標)入力インターフェースを含む。
カメラ16は、フロントユニット1の前面に配置され、フロントユニット1の前方を撮影する。カメラ16は、例えば、フロントユニット1の前方にあるリスナー3やスピーカユニット2a,2bを含む画像を撮影する。
ここで、フロントユニット1は必ずしもスピーカ21を内蔵しなくてもよく、サウンドバーでなくてもよい。例えば、フロントユニット1はカメラ16が搭載されたAVアンプであってもよい。この場合、そのAVアンプにLchおよびRchのスピーカが接続されてよい。
図4は、スピーカユニット2のハードウェア構成を概略的に示すブロック図である。図4は、一般的にワイヤレススピーカと呼ばれているスピーカユニット2の例を示す。スピーカユニット2は、プロセッサ11と、記憶部12と、通信部13と、出力部14と、入力部15と、スピーカ21と、マイク22とを含む。プロセッサ11、記憶部12、通信部13の詳細はフロントユニット1に含まれるものと同様であるので説明を省略する。出力部14は例えばDA変換器を含み、スピーカ21に接続されている。入力部15はAD変換器を含み、マイク22に接続されている。
スピーカユニット2はフロントユニット1等の機器から無線を介して音声データを受信し、音声データが示す音を内蔵するスピーカ21から出力する。音声データの受信は、通信部13を介して行う。なお、スピーカユニット2は、配線によりフロントユニット1やアンプと接続されてもよい。
図5は、サラウンドシステムの機能的な構成を示すブロック図である。サラウンドシステムは、機能的に、撮影データ取得部51、画像認識部52、スピーカ位置特定部53、音声パラメータ設定部54、音声信号出力部55、形状データ格納部61、指示応答部71を含む。撮影データ取得部51、画像認識部52、スピーカ位置特定部53、音声パラメータ設定部54、音声信号出力部55は、フロントユニット1に含まれるプロセッサ11が、記憶部12に格納されたプログラムを実行し、通信部13やカメラ16を制御することによって実現される。形状データ格納部61は、例えばフロントユニット1の記憶部12内の一部の記憶領域である。指示応答部71は、スピーカユニット2に含まれるプロセッサ11が記憶部12に格納されたプログラムを実行し、通信部13や入力部15を制御することにより実現される。
ここで、画像認識部52、スピーカ位置特定部53、音声パラメータ設定部54などは、スマートフォンなど、プロセッサ11、記憶部12、通信部13を有する他の機器により実現されてもよい。また形状データ格納部61はスマートフォンなどの記憶部12の一部であってもよい。
撮影データ取得部51は、カメラ16により撮影された撮影画像のデータを取得する。撮影データ取得部51は、カメラ16から直接データを取得してもよいし、他の機器に設置されたカメラ16が撮影した撮影画像のデータを通信部13経由で取得してもよい。
画像認識部52は、撮影画像に含まれるスピーカユニット2の画像を認識する。また、画像認識部52は、撮影画像に含まれるリモコン31またはリスナー3の画像を認識する。形状データ格納部61は、予め定められた1または複数の種類のスピーカユニット2の画像を示すデータを格納する。画像認識部52は、形状データ格納部61に格納されるデータが示すスピーカユニット2の形状と、撮影画像とを照合することで、撮影画像に含まれるスピーカユニット2の画像を認識する。
スピーカ位置特定部53は、認識されたスピーカユニット2の撮影画像内の位置や大きさに基づいて、スピーカユニット2の空間的な位置を特定する。スピーカ位置特定部53において行われる処理の詳細については後述する。
音声パラメータ設定部54は、特定されたスピーカユニット2の空間的な位置に基づいて、そのスピーカユニット2に向けて出力される音声信号のパラメータを決定する。より具体的には、音声パラメータ設定部54はスピーカユニット2の空間的な位置に基づいて、そのスピーカユニット2に割り当てられる音声信号のチャネルを決定する。なお、音声パラメータ設定部54は音声の出力の遅延量や周波数特性の補正などの、音声信号の補正に関するパラメータを決定してもよい。
音声信号出力部55は、決定されたパラメータと音源23から供給される音声の信号とに基づいて、フロントユニット1に含まれるスピーカ21や、スピーカユニット2に向けて音声信号を出力する。音声信号は電気信号であってもよいし、データであってもよい。出力された音声信号によりフロントユニット1やスピーカユニット2に含まれるスピーカ21から音声が出力される。
指示応答部71は、スピーカ位置特定部53の処理により出力された指示に応じた処理を実行し、通信部13を介した通信や他の出力などにより応答する。指示応答部71の処理の詳細については後述する。
以下ではフロントユニット1がスピーカユニット2の位置を特定し音声信号のパラメータを決定する処理の詳細について説明する。図6はフロントユニット1の処理の一例を示すフロー図である。なお、以下の処理は特に説明のない限りスマートフォンなどの他の装置で行われてもよい。図6に示される処理は、ユーザがスピーカユニット2の出力を調整する指示としてボタンの押下等をすることにより開始される。
はじめに、撮影データ取得部51は、カメラ16により撮影された撮影画像のデータを取得する(ステップS101)。図7は、カメラ16により撮影される撮影画像の一例を示す図である。図7の例は図1に示されるスピーカユニット2の配置に対応する画像であり、リスナー3の位置にはイス36が設置され、イス36の上にリモコン31が配置されている。リスナー3の位置に人物がいてもよい。
次に、画像認識部52は、撮影画像のデータが示す撮影画像に含まれるオブジェクトの画像のうち、形状データ格納部61に形状が格納されたスピーカユニット2の画像を認識する(ステップS102)。形状データ格納部61には、様々な型番のスピーカユニット2のそれぞれについて、様々な方向からみたスピーカユニット2の画像の特徴を示すデータが格納されている。画像認識部52は、例えば、撮影画像からオブジェクトの画像を切出し、オブジェクトの画像の大きさを正規化する。そして画像認識部52は正規化された画像と形状データ格納部61に格納されたスピーカユニット2の画像の特徴と照合する。そこでオブジェクトの画像がスピーカユニット2の特徴に合致した場合には、画像認識部52はそのオブジェクトの画像をスピーカユニット2の画像として認識する。また、画像認識部52は、形状データ格納部61から特徴が合致したスピーカユニット2の型番や実際のサイズを取得する。
スピーカユニット2の画像が認識されると、スピーカ位置特定部53は、撮影画像における認識されたスピーカユニット2の画像の位置及び大きさと、そのスピーカユニット2の実際のサイズを示す値とに基づいて、スピーカユニット2の実際の位置を特定する(ステップS103)。
図8は、スピーカユニット2とフロントユニット1との位置関係を説明する図である。スピーカ位置特定部53は、撮影画像におけるスピーカユニット2の中心の位置から、フロントユニット1からみたスピーカユニット2の角度θ1を算出する。また、スピーカ位置特定部53は、撮影画像におけるスピーカユニット2の画像の大きさと実際のサイズを示す値との比に基づいて、距離L1を求める。ここで、撮影画像の位置から角度θ1や距離L1を求める手法の詳細については公知であるため説明を省略する。スピーカ位置特定部53は角度θ1や距離L1の代わりに、他の公知の手法により、フロントユニット1の前方をz軸とし、上下方向をy軸、左右方向をx軸とするようなスピーカユニット2の3次元座標を求めてもよい。またスピーカ位置特定部53はステレオカメラによる距離認識など、他の手法で距離L1や3次元座標を求めてもよい。なお、スピーカユニット2の実際の位置として、角度θ1のみが算出されてもよい。
スピーカユニット2の実際の位置が特定されると、スピーカ位置特定部53は、撮影画像に含まれるリモコン31または人物の画像を認識する(ステップS104)。スピーカ位置特定部53は、公知の顔認識技術により、撮影画像に含まれる人物の顔を画像を認識する。また、スピーカ位置特定部53は、撮影画像に含まれるリモコン31の画像を認識する。形状データ格納部61には、様々な方向からみたリモコン31の画像の特徴を示すデータが格納されている。画像認識部52は、正規化されたオブジェクトの画像と形状データ格納部61に格納されたリモコン31の画像の特徴と照合する。そこでオブジェクトの画像がリモコン31の特徴に合致した場合には、画像認識部52はそのオブジェクトの画像をリモコン31の画像として認識する。
スピーカ位置特定部53は、認識されたリモコン31または人物の画像に基づいて、リスナー3の実際の位置を特定する(ステップS105)。より具体的には、スピーカ位置特定部53は、撮影画像における、認識された人物の顔の画像の位置および大きさや、認識されたリモコン31の画像の位置および大きさおよびリモコン31の実際のサイズを示す値に基づいて、リスナー3の位置を特定する。なお、ステップS104、ステップS105の処理は、ステップS102,S103処理の前に行われてもよいし、それらの処理が並列的に処理されてもよい。
図9は、リスナー3とフロントユニット1との位置関係を説明する図である。スピーカ位置特定部53は、フロントユニット1からのリスナー3の角度θ2を、撮影画像におけるリスナー3の位置から算出する。また、スピーカ位置特定部53は、撮影画像におけるリモコン31の画像の大きさと実際のサイズを示す値との比に基づいて、距離L2を求める。スピーカ位置特定部53は、撮影画像における、顔の画像が認識された人物の足元の位置や、認識された顔の画像の大きさと推定される実際の顔の大きさとから距離L2を求めてもよい。スピーカ位置特定部53は角度θ2や距離L2の代わりに、他の公知の手法により、リスナー3の3次元座標を求めてもよい。またスピーカ位置特定部53はステレオカメラによる距離認識など、他の手法で距離L2や3次元座標を求めてもよい。
スピーカユニット2およびリスナーの位置が特定されると、スピーカ位置特定部53は、フロントユニット1と通信可能なスピーカユニット2を探索する(ステップS106)。具体的には、スピーカ位置特定部53は、フロントユニット1とスピーカユニット2とが無線LANを介して接続される場合は、例えばフロントユニット1と同じセグメントに属するスピーカユニット2を通信可能なスピーカユニット2として検出する。スピーカ位置特定部53はフロントユニット1と有線接続されたスピーカユニット2を通信可能なスピーカユニット2として検出してもよい。
次に、スピーカ位置特定部53は、通信可能なスピーカユニット2のそれぞれと、撮影画像から特定された位置とを対応付ける(ステップS107)。撮影画像から認識されるスピーカユニット2は、形状と位置しか特定されておらず、必ずしもスピーカユニット2のそれぞれを一意に識別できない。例えば同じ型番の複数のスピーカユニット2が配置されている場合、機器IDなどで特定されるスピーカユニット2の個体と撮影画像におけるスピーカユニット2との関係は不明確になる。ステップS107により、音声信号のあて先となるスピーカユニット2のそれぞれの個体の実際の位置が明確になる。
図10は、スピーカユニット2と撮影画像から特定された実際の位置とを対応付ける処理の一例を示すフロー図である。図10はステップS107の処理の詳細を示す。
ステップS107の処理では、はじめに、スピーカ位置特定部53は無線通信の電波強度に基づいて、フロントユニット1と同室にあるスピーカユニット2を特定する(ステップS201)。例えば、スピーカ位置特定部53は、フロントユニット1とスピーカユニット2との間でのBluetooth(登録商標)通信における受信電波強度が閾値より大きいか否かに基づいてフロントユニット1と同室にあるスピーカユニット2を特定してもよいし、無線LANにおけるアドホック接続の際の電波強度に基づいてその同室にあるスピーカユニット2を特定してもよい。
次に、スピーカ位置特定部53は同室にあるスピーカユニット2について、同形状の複数のスピーカユニット2が存在するか判定する(ステップS202)。より具体的には、スピーカ位置特定部53はスピーカユニット2のそれぞれからスピーカユニット2の型番の情報を取得し、その型番が同じスピーカユニット2が他に存在するか否かによって同形状の複数のスピーカユニット2が存在するか判定する。
同形状の複数のスピーカユニット2が存在しない場合には(ステップS202のN)、スピーカユニット2の形状に基づいて、撮影画像において認識されたスピーカユニット2と実際のスピーカユニット2の個体とを対応付ける(ステップS206)。
一方、同形状の複数のスピーカユニット2が存在する場合には(ステップS202のY)、スピーカ位置特定部53はステップS203からS205の処理を実行する。ステップS203では、スピーカ位置特定部53はスピーカユニット2のそれぞれに、高指向性の音を出力することを示す信号を送信する。そしてスピーカ位置特定部53は撮影画像から位置が特定されたスピーカユニット2に向けて、フロントユニット1のスピーカ21から高指向性の音を出力する(ステップS203)。
図11は、スピーカユニット2の指示応答部71の処理の一例を示すフロー図である。図11に示される処理は、スピーカユニット2に含まれるプロセッサ11が記憶部12に格納されたプログラムを実行することで実現される。また、図11に示される処理は、フロントユニット1が図10のステップS203からステップS204のデータ送受信の相手方の処理である。
はじめに、指示応答部71は、フロントユニット1から送信され、高指向性の音が出力されたことを示す信号を受信する(ステップS301)。そして、指示応答部71は、マイク22に入力された音のデータを取得し、その音のデータをフロントユニット1に向けて送信する(ステップS302)。ここで、指示応答部71は、音のデータの代わりに高指向性の音を検出した時刻を送信してもよい。
次に、スピーカ位置特定部53はスピーカユニット2のそれぞれから、マイク22に音が入力されたか否かを示す信号を受信する(ステップS204)。この信号は、マイク22に入力された音のデータであってもよいし、マイク22が音を検出した時刻であってもよい。スピーカ位置特定部53は受信された信号に基づいて、高指向性の音が入力されたスピーカユニット2を特定し、音が入力された実際のスピーカユニット2の個体と、撮影画像中のスピーカユニット2とを対応付ける(ステップS205)。
ここで、撮影画像に写っていないスピーカユニット2が存在するために、実際のスピーカユニット2のうち一部が撮影画像中で認識されていない場合がある。そのため、ステップS207の処理において以下の処理を行う。スピーカ位置特定部53はカメラ16と同じ部屋にありかつ撮影画像中のスピーカユニット2に対応付けられていない1または複数のスピーカユニット2が存在するか判定する。そして、対応付けられていない1または複数のスピーカユニット2が存在すると判定された場合には、スピーカ位置特定部53はフロントユニット1に関連付けられたスマートフォンなどの機器に、対応付けられないスピーカユニット2があることを知らせかつ位置の入力を促すメッセージを出力させる。またユーザがスマートフォンなどの機器に入力したスピーカユニット2の位置を取得する。ユーザに位置を入力させる方法としては、スピーカ位置特定部53が典型的なスピーカユニット2の配置をスマートフォンの画面に表示させるよう制御し、その画面から選択されたスピーカユニット2の位置を取得してもよい。また、スピーカ位置特定部53がスマートフォンにカメラ16の撮影画像を表示するよう制御し、ユーザがスピーカユニット2が隠れている位置をタッチすると、スピーカ位置特定部53がそのタッチ位置から推定されるスピーカユニット2の位置を取得してもよい。
実際のスピーカユニット2の個体と撮影画像中のスピーカユニット2とが対応付けられると、スピーカ位置特定部53は、実際のスピーカユニット2のそれぞれの位置として、その実際のスピーカユニット2に対応する撮影画像中のスピーカユニット2について求められた位置を設定する(ステップS208)。これにより、通信可能なスピーカユニット2のそれぞれと、撮影画像から特定された位置とが対応付けられる。
ステップS107の処理により、通信可能なスピーカユニット2のそれぞれと、撮影画像から特定された実際の位置とが対応づけられると、ステップS108の処理が実行される。ステップS108では、音声パラメータ設定部54はスピーカユニット2のそれぞれの位置に基づいて、スピーカユニット2のそれぞれに音声のチャネルを割り当てる。ここで、音声パラメータ設定部54は、スピーカユニット2がリスナー3より前にあるか後ろにあるか、またリスナー3の右側にあるか左側にあるかを判定し、その判定結果に応じて割り当てられる音声のチャネルを決定してもよい。また、音声パラメータ設定部54は、チャネルだけでなく各スピーカユニット2に向けて出力される音声信号の遅延の量や周波数特性などのパラメータを決定してもよい。
ステップS108の処理が実行されると、音声信号出力部55は、各スピーカユニット2に、割り当てられた音声のチャネル等に応じた音声信号を出力する。
これまでに説明した処理により、ユーザは、スピーカユニット2が出力する音声信号のチャネルなどのパラメータを設定する手間が軽減される。カメラ16の撮影画像からスピーカユニット2の位置を特定することができる。また図12に示される処理によって、同じ形状の複数のスピーカが存在しても適切に音声信号に関するパラメータを設定することができる。また撮影画像からリスナー3の位置を特定することにより、スピーカユニット2とリスナー3との相対位置を検出することができる。例えばリスナー3とスピーカユニット2とのどちらが前かがわかることにより、スピーカユニット2に割り当てるチャネルを適切に設定することができる。
図12は、スピーカユニット2と撮影画像から特定された位置とを対応付ける処理の他の一例を示すフロー図である。図12の例では、ステップS251,S252,S256〜S258の処理は、図10におけるステップS201,S202,S206〜S208の処理と同じであるので説明を省略する。
図12の処理において、同室に複数の同形状のスピーカユニット2が存在する場合には(ステップS252のY)、スピーカ位置特定部53はスピーカユニット2のいずれかに、そのスピーカユニット2に含まれるインジケータを点灯させる信号を送信する(ステップS253)。この場合、スピーカユニット2に含まれる指示応答部71は、そのインジケータを点灯させる信号を受信すると、スピーカユニット2のインジケータを点灯させる。
そして、スピーカ位置特定部53はカメラ16から新たに撮影された画像のデータを取得し、インジケータが点灯したスピーカユニット2を検出する(ステップS254)。そして、スピーカ位置特定部53は信号の送信先である実際のスピーカユニット2の個体と、撮影された画像中でインジケータの点灯した箇所にあるスピーカユニット2とを対応付ける。
図12の例では図11の例と異なり、信号を受信したスピーカユニット2に光などを出力させることで、信号の送信先であるスピーカユニット2と画像内のスピーカユニット2とが対応付けられ、これにより、実際のスピーカユニット2の個体の位置が一意に求められる。図12の例ではフロントユニット1にアレイスピーカ21aが内蔵されていなくても実際のスピーカユニット2の個体の位置が一意に求められる。なお、スピーカユニット2に光の代わりに音を出力させ、フロントユニット1側でその音の方向を特定することでスピーカユニット2と画像内のスピーカユニット2とを対応付けてもよい。
[付記]以上に説明した実施形態についての記載から把握されるように、本明細書では以下に記載の発明を含む多様な技術的思想が開示されている。
本発明にかかるスピーカ位置特定システムは、撮影画像を取得するカメラと、前記撮影画像に含まれるスピーカの画像を認識する画像認識手段と、前記認識されたスピーカの前記撮影画像内の位置に基づいて、前記スピーカの位置を特定する位置特定手段と、前記特定されたスピーカの位置に基づいて、前記スピーカに出力される音声信号のパラメータを決定するパラメータ決定手段と、を含む。
また、本発明にかかるスピーカ位置特定方法は、カメラから撮影画像を取得するステップと、前記取得された撮影画像に含まれるスピーカの画像を認識するステップと、前記認識されたスピーカの前記撮影画像内の位置および大きさに基づいて、前記スピーカの位置を特定するステップと、前記特定されたスピーカの位置に基づいて、前記スピーカに出力される音声信号のパラメータを決定するステップと、を含む。
また、本発明にかかるスピーカ位置特定装置は、カメラにより取得された撮影画像に含まれるスピーカの画像を認識する画像認識手段と、前記認識されたスピーカの前記撮影画像内の位置および大きさに基づいて、前記スピーカの位置を特定する位置特定手段と、前記特定されたスピーカの位置に基づいて、前記スピーカに出力される音声信号のパラメータを決定するパラメータ決定手段と、を含む。
また、本発明に係るプログラムは、カメラにより取得された撮影画像に含まれるスピーカの画像を認識する画像認識手段、及び、前記認識されたスピーカの前記撮影画像内の位置および大きさに基づいて、前記スピーカの位置を特定する位置特定手段、としてコンピュータを機能させるためのプログラムである。また、本発明に係る情報記憶媒体は、上記プログラムを記録したコンピュータ読み取り可能な情報記憶媒体である。
上記発明の一形態では、前記位置特定手段は、前記認識されたスピーカの前記撮影画像内の位置および大きさに基づいて、前記スピーカの位置を特定してもよい。
上記発明の一形態では、前記画像認識手段は、スピーカの形状を示すデータが格納される記憶手段に格納された前記データに基づいて、前記撮影画像に含まれるスピーカの画像を認識してもよい。
上記発明の一形態では、前記パラメータ決定手段は、前記特定されたスピーカの位置に基づいて、前記スピーカに割り当てられる音声信号のチャネルを決定してもよい。
上記発明の一形態では、前記画像認識手段は、前記撮影画像に含まれる前記スピーカの画像と、前記撮影画像に含まれるリモコンまたは人物の画像とを認識し、前記位置特定手段は、前記撮影画像に含まれるリモコンまたは人物の画像に基づいて、さらにリスナーの位置を特定し、前記パラメータ決定手段は、前記特定されたスピーカの位置と、前記特定されたリスナーの位置とに基づいて、前記スピーカに割り当てられる音声信号のパラメータを決定してもよい。
上記発明の一形態では、前記位置特定手段は、前記撮影画像に含まれる複数のスピーカの画像が認識された場合に、前記複数のスピーカのうち形状が同じ複数のスピーカが存在するか判定してもよい。
上記発明の一形態では、前記位置特定手段は、形状が同じ複数のスピーカが存在すると判定された場合に、前記形状が同じ複数のスピーカのうち1つに向けて高指向性の音を出力し、前記複数のスピーカのいずれかに取り付けられたマイクが検出した前記音に基づいて前記複数のスピーカの位置を特定してもよい。
上記発明の一形態では、前記位置特定手段は、形状が同じ複数のスピーカが存在すると判定された場合に、前記形状が同じ複数のスピーカに音または光を出力させる信号を送信し、前記複数のスピーカにより出力された音または光にさらに基づいて、前記複数のスピーカの位置を特定してもよい。
上記発明の一形態では、前記位置特定手段は、前記カメラと同じ部屋にある1または複数のスピーカを検出し、前記検出された1またはスピーカのうち、撮影画像で認識されていないスピーカがあるか否か判定してもよい。
1 フロントユニット、2,2a,2b スピーカユニット、3 リスナー、4 テレビ、11 プロセッサ、12 記憶部、13 通信部、14 出力部、15 入力部、16 カメラ、21 スピーカ、21a アレイスピーカ、22 マイク、23 音源、
31 リモコン、35 家具、36 イス、51 撮影データ取得部、52 画像認識部、53 スピーカ位置特定部、54 音声パラメータ設定部、55 音声信号出力部、61 形状データ格納部、71 指示応答部。

Claims (10)

  1. 撮影画像を取得するカメラと、
    前記撮影画像に含まれるスピーカの画像を認識する画像認識手段と、
    前記認識されたスピーカの前記撮影画像内の位置に基づいて、前記スピーカの位置を特定する位置特定手段と、
    前記特定されたスピーカの位置に基づいて、前記スピーカに出力される音声信号のパラメータを決定するパラメータ決定手段と、を有し、
    前記位置特定手段は、前記撮影画像に含まれる複数のスピーカの画像が認識された場合に、前記複数のスピーカのうち形状が同じ複数のスピーカが存在するか判定し、
    前記形状が同じ複数のスピーカが存在すると判定された場合に、前記位置特定手段は、前記複数のスピーカを識別するための音もしくは光を用いて、前記複数のスピーカの位置を特定する、
    スピーカ位置特定システム。
  2. 請求項1に記載のスピーカ位置特定システムにおいて、
    前記位置特定手段は、前記認識されたスピーカの前記撮影画像内の位置および大きさに基づいて、前記スピーカの位置を特定する、
    スピーカ位置特定システム。
  3. 請求項1または2に記載のスピーカ位置特定システムにおいて、
    前記画像認識手段は、スピーカの形状を示すデータが格納される記憶手段に格納された前記データに基づいて、前記撮影画像に含まれるスピーカの画像を認識する、
    スピーカ位置特定システム。
  4. 請求項1から3のいずれかに記載のスピーカ位置特定システムにおいて、
    前記パラメータ決定手段は、前記特定されたスピーカの位置に基づいて、前記スピーカに割り当てられる音声信号のチャネルを決定する、
    スピーカ位置特定システム。
  5. 請求項1から4のいずれかに記載のスピーカ位置特定システムにおいて、
    前記画像認識手段は、前記撮影画像に含まれる前記スピーカの画像と、前記撮影画像に含まれるリモコンまたは人物の画像とを認識し、
    前記位置特定手段は、前記撮影画像に含まれるリモコンまたは人物の画像に基づいて、さらにリスナーの位置を特定し、
    前記パラメータ決定手段は、前記特定されたスピーカの位置と、前記特定されたリスナーの位置とに基づいて、前記スピーカに割り当てられる音声信号のパラメータを決定する、
    スピーカ位置特定システム。
  6. 請求項に記載のスピーカ位置特定システムにおいて、
    前記位置特定手段は、形状が同じ複数のスピーカが存在すると判定された場合に、前記形状が同じ複数のスピーカのうち1つに向けて高指向性の音を出力し、前記複数のスピーカのいずれかに取り付けられたマイクが検出した前記音に基づいて前記複数のスピーカの位置を特定する、
    スピーカ位置特定システム。
  7. 請求項に記載のスピーカ位置特定システムにおいて、
    前記位置特定手段は、形状が同じ複数のスピーカが存在すると判定された場合に、前記形状が同じ複数のスピーカに音または光を出力させる信号を送信し、前記複数のスピーカにより出力された音または光にさらに基づいて、前記複数のスピーカの位置を特定する、
    スピーカ位置特定システム。
  8. 請求項1からのいずれかに記載のスピーカ位置特定システムにおいて、
    前記位置特定手段は、前記カメラと同じ部屋にある1または複数のスピーカを検出し、前記検出された1またはスピーカのうち、撮影画像で認識されていないスピーカがあるか否か判定する、
    スピーカ位置特定システム。
  9. カメラから撮影画像を取得するステップと、
    前記取得された撮影画像に含まれるスピーカの画像を認識するステップと、
    前記認識されたスピーカの前記撮影画像内の位置および大きさに基づいて、前記スピーカの位置を特定するステップと、
    前記特定されたスピーカの位置に基づいて、前記スピーカに出力される音声信号のパラメータを決定するステップと、を含み、
    前記スピーカの位置を特定するステップでは、前記撮影画像に含まれる複数のスピーカの画像が認識された場合に、前記複数のスピーカのうち形状が同じ複数のスピーカが存在するか判定し、前記形状が同じ複数のスピーカが存在すると判定された場合に、前記複数のスピーカを識別するための音もしくは光を用いて、前記複数のスピーカの位置を特定する、
    スピーカ位置特定方法。
  10. カメラにより取得された撮影画像に含まれるスピーカの画像を認識する画像認識手段と、
    前記認識されたスピーカの前記撮影画像内の位置および大きさに基づいて、前記スピーカの位置を特定する位置特定手段と、
    前記特定されたスピーカの位置に基づいて、前記スピーカに出力される音声信号のパラメータを決定するパラメータ決定手段と、を含み、
    前記位置特定手段は、前記撮影画像に含まれる複数のスピーカの画像が認識された場合に、前記複数のスピーカのうち形状が同じ複数のスピーカが存在するか判定し、
    前記形状が同じ複数のスピーカが存在すると判定された場合に、前記位置特定手段は、前記複数のスピーカを識別するための音もしくは光を用いて、前記複数のスピーカの位置を特定する、
    スピーカ位置特定装置。
JP2017053248A 2017-03-17 2017-03-17 スピーカ位置特定システム、スピーカ位置特定装置、及びスピーカ位置特定方法 Active JP6607220B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017053248A JP6607220B2 (ja) 2017-03-17 2017-03-17 スピーカ位置特定システム、スピーカ位置特定装置、及びスピーカ位置特定方法
EP18162249.9A EP3376781B1 (en) 2017-03-17 2018-03-16 Speaker location identifying system, speaker location identifying device, and speaker location identifying method
US15/923,741 US10321255B2 (en) 2017-03-17 2018-03-16 Speaker location identifying system, speaker location identifying device, and speaker location identifying method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017053248A JP6607220B2 (ja) 2017-03-17 2017-03-17 スピーカ位置特定システム、スピーカ位置特定装置、及びスピーカ位置特定方法

Publications (2)

Publication Number Publication Date
JP2018157401A JP2018157401A (ja) 2018-10-04
JP6607220B2 true JP6607220B2 (ja) 2019-11-20

Family

ID=61691333

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017053248A Active JP6607220B2 (ja) 2017-03-17 2017-03-17 スピーカ位置特定システム、スピーカ位置特定装置、及びスピーカ位置特定方法

Country Status (3)

Country Link
US (1) US10321255B2 (ja)
EP (1) EP3376781B1 (ja)
JP (1) JP6607220B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11258417B2 (en) * 2019-09-30 2022-02-22 Lenovo (Singapore) Pte. Ltd. Techniques for using computer vision to alter operation of speaker(s) and/or microphone(s) of device
US11410325B2 (en) 2019-12-09 2022-08-09 Sony Corporation Configuration of audio reproduction system
US11388537B2 (en) 2020-10-21 2022-07-12 Sony Corporation Configuration of audio reproduction system
CN113079453B (zh) * 2021-03-18 2022-10-28 长沙联远电子科技有限公司 一种听觉音效智能跟随方法及系统

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06233397A (ja) * 1993-02-05 1994-08-19 Sony Corp 自動音場補正機能を有する音響装置
US5912980A (en) 1995-07-13 1999-06-15 Hunke; H. Martin Target acquisition and tracking
US6741273B1 (en) * 1999-08-04 2004-05-25 Mitsubishi Electric Research Laboratories Inc Video camera controlled surround sound
JP2005236502A (ja) 2004-02-18 2005-09-02 Yamaha Corp 音響再生装置
WO2008126161A1 (ja) 2007-03-06 2008-10-23 Pioneer Corporation マルチチャンネル再生システムのチャンネル割り当て装置及び方法
US8320824B2 (en) 2007-09-24 2012-11-27 Aliphcom, Inc. Methods and systems to provide automatic configuration of wireless speakers
CN101964937A (zh) 2009-07-23 2011-02-02 先歌国际影音股份有限公司 多方向发声系统
US20120113224A1 (en) * 2010-11-09 2012-05-10 Andy Nguyen Determining Loudspeaker Layout Using Visual Markers
EP3598774A1 (en) * 2012-02-24 2020-01-22 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Apparatus for providing an audio signal for reproduction by a sound transducer, system, method and computer program
JP6357884B2 (ja) 2014-06-02 2018-07-18 ヤマハ株式会社 位置特定装置およびオーディオ装置
WO2016028263A1 (en) 2014-08-18 2016-02-25 Nunntawi Dynamics Llc Optimizing the performance of an audio playback system with a linked audio/video feed
EP3800902A1 (en) * 2014-09-30 2021-04-07 Apple Inc. Method to determine loudspeaker change of placement

Also Published As

Publication number Publication date
US10321255B2 (en) 2019-06-11
EP3376781B1 (en) 2020-11-04
JP2018157401A (ja) 2018-10-04
EP3376781A1 (en) 2018-09-19
US20180270599A1 (en) 2018-09-20

Similar Documents

Publication Publication Date Title
JP6904031B2 (ja) スピーカ位置検出システム、スピーカ位置検出装置、及びスピーカ位置検出方法
JP6607220B2 (ja) スピーカ位置特定システム、スピーカ位置特定装置、及びスピーカ位置特定方法
US11825272B2 (en) Assistive listening device systems, devices and methods for providing audio streams within sound fields
EP3202160B1 (en) Method of providing hearing assistance between users in an ad hoc network and corresponding system
US8208664B2 (en) Audio transmission system and communication conference device
CN104284286B (zh) 个体hrtf的确定
WO2018149275A1 (zh) 调整音箱输出的音频的方法和装置
US9380399B2 (en) Handheld interface for speaker location
EP2953348A1 (en) Determination, display, and adjustment of best sound source placement region relative to microphone
JP6193844B2 (ja) 選択可能な知覚空間的な音源の位置決めを備える聴覚装置
JP2011254464A (ja) 加工音声信号を決定する方法および携帯端末
JP5939341B1 (ja) モニタリングシステム及びモニタリング方法
KR101391751B1 (ko) 디스플레이장치 및 그 사운드 제어방법
US11979739B2 (en) Non-transitory computer-readable medium having computer-readable instructions and system
CN111800696B (zh) 听力辅助方法、耳机及计算机可读存储介质
US11546688B2 (en) Loudspeaker device, method, apparatus and device for adjusting sound effect thereof, and medium
CN112672251A (zh) 一种扬声器的控制方法和系统、存储介质及扬声器
CN106126182B (zh) 数据输出方法及电子设备
KR102609084B1 (ko) 전자장치, 그 제어방법 및 기록매체
CN113079453A (zh) 一种听觉音效智能跟随方法及系统
CN116033304B (zh) 一种音频输出方法、电子设备及可读存储介质
KR20130131844A (ko) 음향 보정이 가능한 디스플레이 장치, 청각 레벨 제어 장치 및 방법
US11856370B2 (en) System for audio rendering comprising a binaural hearing device and an external device
JP3952870B2 (ja) 音声伝送装置、音声伝送方法及びプログラム
JP2022543121A (ja) 1人以上の所望の話者の音声を強調するバイラテラル補聴器システム及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190409

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190924

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191007

R151 Written notification of patent or utility model registration

Ref document number: 6607220

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151