JP7541964B2 - 信号処理装置、信号処理方法 - Google Patents

信号処理装置、信号処理方法 Download PDF

Info

Publication number
JP7541964B2
JP7541964B2 JP2021163073A JP2021163073A JP7541964B2 JP 7541964 B2 JP7541964 B2 JP 7541964B2 JP 2021163073 A JP2021163073 A JP 2021163073A JP 2021163073 A JP2021163073 A JP 2021163073A JP 7541964 B2 JP7541964 B2 JP 7541964B2
Authority
JP
Japan
Prior art keywords
sound
signal
collecting unit
signal processing
processing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021163073A
Other languages
English (en)
Other versions
JP2023053804A (ja
Inventor
大輔 勝海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2021163073A priority Critical patent/JP7541964B2/ja
Priority to US17/951,260 priority patent/US12089000B2/en
Publication of JP2023053804A publication Critical patent/JP2023053804A/ja
Application granted granted Critical
Publication of JP7541964B2 publication Critical patent/JP7541964B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former

Landscapes

  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、信号処理技術に関するものである。
従来、複数のカメラを用いた撮影システムで撮像した画像から、ユーザが指定した仮想視点から見た画像を作り出し、仮想視点映像として再生することができる仮想視点映像生成システムがある。例えば、特許文献1の発明では、複数のカメラで撮像した画像を伝送したのち、画像コンピューティングサーバ(画像処理装置)で、撮像した画像のうち変化が大きいものを前景画像とし、変化が小さいものを背景画像として抽出する。抽出した前景画像に基づき被写体の3次元モデルの形状を推定・生成し、前景画像、背景画像と共に蓄積装置に蓄積する。そして、ユーザが指定した仮想視点に基づいて蓄積装置から適切なデータを取得し、仮想視点映像を生成することができる。
一方、テレビ番組や映画の撮影においては、収音作業者がカメラへの映り込みを回避しつつ、対象物に指向性の高いガンマイクを向けることで、動きのある対象物が発する音波の収音を実現している。特許文献2の発明によれば、画像に基づき検出した収音対象物の位置、特徴に基づき、収音指向性を制御することにより、精度よく音響信号を得ることができる。
特開2019-050593号公報 特開2021-012314号公報
前述の仮想視点映像生成システムにおいては、収音作業者およびガンマイクは仮想視点映像生成上の不要な前景画像となるが、対象物の周囲を取り囲むようにカメラが配置されていることから、カメラへの映り込みを避けるのが困難である。
特許文献2の手法においては、ガンマイクを操作する収音作業者は存在しないが、収音対象物の方位角のみを推定、指向性制御を行うことから、奥行や高さを含めた対象物の3次元位置に基づく指向性制御をすることは困難である。本発明は、収音の対象となる対象物の音響信号を高音質で取得するための技術を提供する。
本発明の一様態は、対象物を含む複数の撮像画像に基づいて推定された該対象物の位置に基づき、複数の収音部から2以上の収音部を選択収音部として選択する選択手段と、
前記選択収音部からの音響信号を前記選択収音部と前記対象物との間の距離に基づく遅延量に基づいて遅延させた遅延音響信号を取得し、それぞれの選択収音部について取得した遅延音響信号の合成結果を、前記対象物の音響信号として出力する合成手段と
を備え
前記合成手段は、それぞれの選択収音部について、該選択収音部について取得した遅延音響信号を、該選択収音部と前記対象物との間の距離に応じて増幅させた増幅音響信号を取得し、それぞれの選択収音部について取得した増幅音響信号を合成した合成結果を、前記対象物の音響信号として出力することを特徴とする。
本発明の構成によれば、収音の対象となる対象物の音響信号を高音質で取得することができる。
信号処理装置の機能構成例を示すブロック図。 画像受信部101および音波受信部104の配置例を示す図。 制御部105の構成例を示す図。 対象物の音響信号を生成して出力するために信号処理装置10が行う処理のフローチャート。 信号処理装置10に適用可能であるコンピュータ装置のハードウェア構成例を示すブロック図。
以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
[第1の実施形態]
本実施形態に係る信号処理装置は、対象物を含む複数の撮像画像に基づいて推定された該対象物の位置に基づき、複数の収音部から2以上の収音部を選択収音部として選択する。そして信号処理装置は、該選択収音部からの音響信号を該選択収音部と該対象物との間の距離に基づく遅延量に基づいて遅延させた遅延音響信号を取得し、それぞれの選択収音部について取得した遅延音響信号の合成結果を、該対象物の音響信号として出力する。まず、このような信号処理装置の機能構成例について、図1のブロック図を用いて説明する。
図1の信号処理装置10は複数の画像受信部101を有し、本実施形態では、該複数の画像受信部101は、撮像対象領域(例えば、収音の対象となる対象物が移動可能な範囲)の周囲に、該撮像対象領域に向けて設置されている。つまり、複数の画像受信部101は、撮像対象領域内を撮像可能に構成されている。
生成部102は、複数の画像受信部101から出力された撮像画像のうち対象物を含む複数の撮像画像を用いて該対象物の3次元モデルを生成する。対象物を含む複数の撮像画像から該対象物の3次元モデルを生成する方法には様々な方法が適用可能であり、本実施形態は、特定の方法を使用することに限定しない。本実施形態では、例えば、対象物が写っている複数の撮像画像から該対象物の3次元モデルを生成する方法として以下に説明する方法を採用しても良い。
まずそれぞれの撮像画像について前景背景分離を行って、該それぞれの撮像画像から前景を抽出する。ここでは前景背景分離の方式として、背景差分法を用いることとする。事前に前景となる被写体が無い状態で背景となる画像(背景画像)を撮像して取得しておき、該背景画像と、画像受信部101から出力された撮像画像と、を比較することで、該撮像画像において背景画像との差分の大きい画素を前景の画素として特定する。
次に、前景が特定された各撮像画像を用いて、視体積交差法により3次元モデルを生成する。視体積交差法は、3次元モデルを生成する対象エリアを細かい直方体(以降ボクセルと呼称する)に分け、各立方体が複数の撮像画像に映る場合の画素を3次元計算によって算出し、そのボクセルが前景の画素にあたるか否かを判断する。全ての画像受信部101の前景の画素となった場合、該ボクセルは対象エリアにおいて、対象物を構成するボクセルであると特定される。こうして、すべての画像受信部101で前景であると特定されたボクセルのみを残し、他のボクセルを削除していく。最終的に残ったボクセルが対象エリアに存在する対象物を構成するボクセルであり、該対象物の3次元モデルが生成される。
推定部103は、生成部102により生成された対象物の3次元モデルの重心位置(3次元位置)を、「撮像対象領域における該対象物の位置(3次元位置)」と推定する。なお、撮像対象領域に2以上の対象物が存在する場合には、それぞれの対象物を識別する。対象物の識別方法には様々な方法があり、例えば、撮像画像上の対象物や該対象物の3次元モデルの大きさ、形状、色などの特徴量に基づいてそれぞれの対象物を識別するようにしても良い。
なお、「撮像対象領域における対象物の位置(3次元位置)」は、生成部102により生成された対象物の3次元モデルの重心位置(3次元位置)に限らず、該3次元モデルにおける何れの位置であっても良い。
また信号処理装置10は複数の音波受信部104を有し、本実施形態では、該複数の音波受信部104は、撮像対象領域の周囲に、該撮像対象領域に向けて設置されている。つまり複数の音波受信部104は、撮像対象領域内における対象物からの音波を収集可能に構成されている。複数の音波受信部104のそれぞれは、収集した音波を音響信号として出力する。
制御部105は、推定部103により推定された対象物の位置に基づき、複数の音波受信部104から2以上の音波受信部104を選択音波受信部として選択する。そして制御部105は、該選択音波受信部からの音響信号を該選択音波受信部の位置と対象物の位置との間の距離に基づく遅延量に基づいて遅延させた遅延音響信号を取得する。そして制御部105は、それぞれの選択音波受信部について取得した遅延音響信号の合成結果を、該対象物の音響信号として出力する。
信号選択部1051は、複数の音波受信部104のうち、推定部103により推定された対象物の位置に近い順に2以上の音波受信部104を選択音波受信部として選択する。この選択の基準は、対象物に近い音波受信部104ほど該対象物からの明瞭な音響信号が得られることに起因している。
遅延制御部1052は、選択音波受信部ごとに、該選択音波受信部の位置と対象物の位置との間の距離に基づいて遅延量を求める。そして遅延制御部1052は、選択音波受信部ごとに、該選択音波受信部からの音響信号を該選択音波受信部について求めた遅延量だけ遅延させた遅延音響信号を取得する。
信号合成部1053は、選択音波受信部ごとに、該選択音波受信部について取得した遅延音響信号を、該選択音波受信部の位置と対象物の位置との間の距離に基づいて増幅させた増幅音響信号を取得する。そして信号合成部1053は、それぞれの選択音波受信部について取得した増幅音響信号の合成結果を、該対象物の音響信号として出力する。
なお、対象物が複数の場合、生成部102、推定部103、制御部105はそれぞれの対象物について上記の如く動作し、その結果、該それぞれの対象物の音響信号が生成されて出力される。
次に、画像受信部101および音波受信部104の配置例について、図2を用いて説明する。図2に示す如く、複数の画像受信部101および複数の音波受信部104は、3次元モデルを生成する対象エリア(つまり撮像対象領域)である3次元モデル生成領域301を取り囲むように配置されている。複数の画像受信部101は、撮像方向を3次元モデル生成領域301内に向けて配置されており、複数の音波受信部104は、収音する方向を3次元モデル生成領域301内に向けて配置されている。
図2では、3次元モデル生成領域301内には、収音の対象となる3人の人物が対象物として存在している。Tiは、3人の対象物のうちのi番目の対象物を表しており、例えば、演劇等で演者である対象物Tiは、3次元モデル生成領域301内で移動して台詞を発する。3次元モデル202は、対象物Tiについて生成部102が生成した3次元モデルである。
次に、上記の制御部105の構成例について、図3を用いて説明する。図3においてnは音波受信部104の台数を表し、xは1つの対象物について信号選択部1051が選択する選択音波受信部の台数を表し、mは対象物の数を表す。
信号選択部1051には、n台の音波受信部104から出力された音響信号S1~Snが入力される。Sj(1≦j≦n)はn台の音波受信部104のうちj台目の音波受信部104からの音響信号を表している。そして信号選択部1051は、対象物ごとに、該対象物の位置に近い順にx台の音波受信部104を選択音波受信部として選択する。S11、S12、…、S1xは、第1対象物の位置に近い順に選択されたx台の音波受信部104からの音響信号を表している。S21、S22、…、S2xは、第2対象物の位置に近い順に選択されたx台の音波受信部104からの音響信号を表している。Sm1、Sm2、…、Smxは、第m対象物の位置に近い順に選択されたx台の音波受信部104からの音響信号を表している。
遅延制御部1052は、対象物ごとに次のような処理を行うことで、該対象物に対応する遅延音響信号を取得する。以下に、遅延制御部1052が対象物Tiに対応する遅延音響信号を取得するケースについて説明する。
まず遅延制御部1052は、対象物Tiについて選択された選択音波受信部ごとに、該選択音波受信部の位置と該対象物Tiの位置との間の距離に基づいて、該選択音波受信部からの音響信号に対する遅延量を求める。例えば、対象物に対する理想的な音波受信部104の距離として予め設定されている距離をRref、音速をα、対象物Tiについて選択された選択音波受信部のうちj番目の選択音波受信部Mjの位置と該対象物Tiの位置との間の距離をRij、とする。このとき、遅延制御部1052は、選択音波受信部Mjの音響信号Sijに対する遅延量Dijを、以下の(式1)に従って求める。
Dij=|Rij-Rref|/α … (式1)
なお、遅延量Dijを求めるための式は(式1)に限らず、RijとRrefとの差分をαで除した計算を含む式であれば、遅延量Dijを求めるための式は特定の式に限らない。
そして遅延制御部1052は、対象物Tiについて選択された選択音波受信部ごとに、該選択音波受信部からの音響信号を該選択音波受信部について求めた遅延量だけ遅延させた遅延音響信号を取得する。例えば、遅延制御部1052は、時刻tにおける音響信号Sij(t)の遅延音響信号Sdij(t)を、以下の(式2)に従って取得する。
Sdij(t)=Sij(t-Dij) … (式2)
つまり遅延制御部1052は、遅延量Dijを打ち消すように音響信号Sij(t)を時間方向にシフトすることで、対象物Ti間近で収音した場合と同等の遅延量となる音響信号Sdij(t)を得る。Rrefは、例えばテレビ番組や映画の撮影において、収音作業者がカメラの映り込みを回避しつつ、対象物に向けるマイクロフォンと対象物との間の距離であっても良い。
図3においてSd11、Sd12、…、Sd1xはそれぞれS11、S12、…、S1xの遅延音響信号であり、第1対象物に対応する遅延音響信号である。Sd21、Sd22、…、Sd2xはそれぞれS21、S22、…、S2xの遅延音響信号であり、第2対象物に対応する遅延音響信号である。また、Sdm1、Sdm2、…、SdmxはそれぞれSm1、Sm2、…、Smxの遅延音響信号であり、第m対象物に対応する遅延音響信号である。
信号合成部1053は、対象物ごとに次のような処理を行うことで、該対象物の音響信号を生成して出力する。以下に、信号合成部1053が対象物Tiの音響信号を生成して出力するケースについて説明する。
まず信号合成部1053は、対象物Tiについて選択された選択音波受信部ごとに、該選択音波受信部について取得した遅延音響信号の増幅係数を求める。例えば、信号合成部1053は、対象物Tiに対して選択された選択音波受信部のうちj番目の選択音波受信部Mjについて取得した遅延音響信号Sdijの増幅係数Gjxを、以下の(式3)に従って求める。
Gjx=20log10(Rij/Rgref) …(式3)
ここで、log10()は常用対数であり、Rgrefは、対象物に対する理想的な音波受信部104の距離として予め設定されている距離を表している。また、ここでは、対象物の発する音を点音源としている。
そして信号合成部1053は、対象物Tiについて選択された選択音波受信部ごとに、該選択音波受信部について取得した遅延音響信号を、該選択音波受信部について求めた増幅係数に応じて増幅させた増幅音響信号を取得する。そして信号合成部1053は、対象物Tiについて選択されたそれぞれの選択音波受信部について取得した増幅音響信号の合成結果を、対象物Tiの音響信号として出力する。例えば、信号合成部1053は、以下の(式4)に従って対象物Tiの時刻tにおける音響信号Sti(t)を生成する。
Sti(t)=Σ(Sdij(t)xGjx)/x
ただし、Σはj=1~xについて総和を計算することを表す。一般的に点音源に対する音波の減衰量は距離が2倍離れると約6dB減衰することから、上記の(式3)により求められる増幅係数Gjxにより遅延音響信号Sdijを増幅させ、増幅後の遅延音響信号の合成結果を、対象物Tiの音響信号とする。St1は第1対象物の音響信号であり、St2は第2対象物の音響信号であり、Stmは第m対象物の音響信号である。
上記の制御部105の動作は、画像受信部101が画像を撮像するたびに(つまりフレームごとに)行っても良いし、画像受信部101による撮像タイミングと同期していなくても良い。
次に、対象物の音響信号を生成して出力するために信号処理装置10が行う処理について、図4のフローチャートに従って説明する。図4の各ステップにおける処理の詳細については上記の通りであるから、ここでは簡単に説明する。
ステップS401では、複数の音波受信部104は、撮像対象領域内における対象物からの音波を収集(受信)し、該収集した音波を音響信号として出力する。ステップS401と平行してステップS402~S404の処理が行われる。
ステップS402では、複数の画像受信部101は、撮像対象領域を撮像することで該撮像対象領域の撮像画像を取得する。ステップS403では、生成部102は、複数の画像受信部101から出力された撮像画像のうち対象物を含む複数の撮像画像を用いて該対象物の3次元モデルを生成する。
ステップS404では、推定部103は、生成部102により生成された対象物の3次元モデルの重心位置(3次元位置)を、「撮像対象領域における該対象物の位置(3次元位置)」と推定する。
ステップS405では、信号選択部1051は、複数の音波受信部104のうち、推定部103により推定された対象物の位置に近い順に2以上の音波受信部104を選択音波受信部として選択する。
ステップS406では、遅延制御部1052は、選択音波受信部ごとに、該選択音波受信部の位置と対象物の位置との間の距離に基づいて遅延量を求める。そして遅延制御部1052は、選択音波受信部ごとに、該選択音波受信部からの音響信号を該選択音波受信部について求めた遅延量だけ遅延させた遅延音響信号を取得する。
ステップS407では、信号合成部1053は、選択音波受信部ごとに、該選択音波受信部について取得した遅延音響信号を、該選択音波受信部の位置と対象物の位置との間の距離に基づいて増幅させた増幅音響信号を取得する。そして信号合成部1053は、それぞれの選択音波受信部について取得した増幅音響信号の合成結果を、該対象物の音響信号として出力する。
対象物が複数の場合には、ステップS403~ステップS407の処理は対象物ごとに行われ、その結果、対象物ごとに音響信号が生成されて出力される。そして図4のフローチャートに従った処理の終了条件が満たされた場合には、図4のフローチャートに従った処理は終了し、該終了条件が満たされていない場合には、処理はステップS401に戻る。処理の終了条件は特定の終了条件に限らず、例えば、「ユーザ操作に応じて処理の終了指示が入力された」、「図4のフローチャートに従った処理を開始してから一定時間が経過した」、「現在時刻が規定の時刻になった」等がある。
このように、本実施形態によれば、自由視点映像生成において不要な前景を回避しつつ、対象物の音響信号を高音質で取得することができる。これは、対象物の数が複数であっても同様である。
<変形例>
音波受信部104は方位角、仰角を制御可能な電動雲台と組み合わされても良く、その場合、信号処理装置10は電動雲台を制御して、音波受信部104が対象物の方向に向くように該音波受信部104の方位角、仰角を制御しても良い。
[第2の実施形態]
図1では、信号処理装置10は、画像受信部101および音波受信部104を含んで構成されているが、画像受信部101および音波受信部104は信号処理装置10の外部装置であっても良い。つまり信号処理装置10は生成部102、推定部103、制御部105(信号選択部1051、遅延制御部1052、信号合成部1053)を有し、不図示のインターフェースを介して画像受信部101および音波受信部104を信号処理装置10に接続するように構成しても良い。この場合、生成部102、推定部103、制御部105(信号選択部1051、遅延制御部1052、信号合成部1053)はハードウェアで実装しても良いし、ソフトウェア(コンピュータプログラム)で実装しても良い。後者の場合、このようなコンピュータプログラムを実行可能なコンピュータ装置は、信号処理装置10に適用可能である。信号処理装置10に適用可能であるコンピュータ装置のハードウェア構成例について、図5のブロック図を用いて説明する。
CPU501は、RAM502やROM503に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりCPU501は、コンピュータ装置全体の動作制御を行うと共に、信号処理装置10が行うものとして上述した各処理を実行もしくは制御する。
RAM502は、ROM503や外部記憶装置504からロードされたコンピュータプログラムやデータを格納するためのエリア、I/F507を介して外部から受信したデータを格納するためのエリア、を有する。さらにRAM502は、CPU501が各種の処理を実行する際に用いるワークエリアを有する。このようにRAM502は、各種のエリアを適宜提供することができる。
ROM503には、コンピュータ装置の設定データ、コンピュータ装置の起動に係るコンピュータプログラムやデータ、コンピュータ装置の基本動作に係るコンピュータプログラムやデータ、などが格納されている。
外部記憶装置504は、ハードディスクドライブ装置などの大容量情報記憶装置である。外部記憶装置504には、OS(オペレーティングシステム)、信号処理装置10が行うものとして上述した各処理をCPU501に実行もしくは制御させるためのコンピュータプログラムやデータ、などが保存されている。外部記憶装置504に保存されているデータには、上記の説明において既知の情報として取り扱った情報、例えば、複数の音波受信部104の3次元位置、予め設定されている情報として説明した情報、などが含まれる。
外部記憶装置504に保存されているコンピュータプログラムやデータは、CPU501による制御に従って適宜RAM502にロードされ、CPU501による処理対象となる。
出力部505は、CPU501による処理結果を画像や文字などでもって表示する表示装置であり、液晶画面やタッチパネル画面を有する。なお、出力部505は、画像や文字を投影するプロジェクタなどの投影装置であっても良い。また、出力部505は、対象物の音響信号に基づく音を出力可能なスピーカ装置であっても良い。また、出力部505は、これらの装置の一部若しくは全部を組み合わせた装置であっても良い。
操作部506は、キーボード、マウス、タッチパネル画面などのユーザインターフェースであり、ユーザが操作することで各種の指示をCPU501に対して入力することができる。
I/F507は、外部装置との間のデータ通信を行うための通信インタフェースである。例えば、I/F507を介して本コンピュータ装置に画像受信部101および音波受信部104を接続する場合、本コンピュータ装置は、I/F507を介して画像受信部101からの撮像画像を受信したり、音波受信部104からの音響信号を受信したりする。また、I/F507にはスピーカなど、音を出力可能な装置を接続しても良く、例えば、対象物の音響信号に基づく音を該装置から出力するようにしても良い。
CPU501、RAM502、ROM503、外部記憶装置504、出力部505、操作部506、I/F507は何れもシステムバス508に接続されている。なお、図5に示した構成は信号処理装置10に適用可能な構成の一例に過ぎず、適宜変更/変形が可能である。
また、上記の各実施形態や変形例で使用した数値、処理タイミング、処理順、処理の主体、データ(情報)の送信先/送信元/格納場所などは、具体的な説明を行うために一例として挙げたもので、このような一例に限定することを意図したものではない。
また、以上説明した各実施形態や変形例の一部若しくは全部を適宜組み合わせて使用しても構わない。また、以上説明した各実施形態や変形例の一部若しくは全部を選択的に使用しても構わない。
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
101:画像受信部 102:生成部 103:推定部 104:音波受信部 105:制御部 1051:信号選択部 1052:遅延制御部 1053:信号合成部

Claims (8)

  1. 対象物を含む複数の撮像画像に基づいて推定された該対象物の位置に基づき、複数の収音部から2以上の収音部を選択収音部として選択する選択手段と、
    前記選択収音部からの音響信号を前記選択収音部と前記対象物との間の距離に基づく遅延量に基づいて遅延させた遅延音響信号を取得し、それぞれの選択収音部について取得した遅延音響信号の合成結果を、前記対象物の音響信号として出力する合成手段と
    を備え
    前記合成手段は、それぞれの選択収音部について、該選択収音部について取得した遅延音響信号を、該選択収音部と前記対象物との間の距離に応じて増幅させた増幅音響信号を取得し、それぞれの選択収音部について取得した増幅音響信号を合成した合成結果を、前記対象物の音響信号として出力することを特徴とする信号処理装置。
  2. 前記選択手段は、前記複数の撮像画像に基づいて生成された前記対象物の3次元モデルに基づいて推定された前記対象物の位置に基づき、前記複数の収音部から2以上の収音部を選択収音部として選択することを特徴とする請求項1に記載の信号処理装置。
  3. 前記選択手段は、前記複数の収音部のうち前記位置に近い順に2以上の収音部を選択収音部として選択することを特徴とする請求項2に記載の信号処理装置。
  4. 前記合成手段は、前記選択収音部と前記対象物との間の距離と、前記対象物に対する理想的な収音部の距離として予め設定されている距離と、の差分を音速で除した結果を、該選択収音部からの音響信号に対する遅延量として取得することを特徴とする請求項1ないし3の何れか1項に記載の信号処理装置。
  5. 前記合成手段は、前記選択収音部と前記対象物との間の距離を、前記対象物に対する理想的な収音部の距離として予め設定されている距離で除した結果の常用対数の値を増幅係数として求め、該選択収音部について取得した遅延音響信号を該増幅係数に応じて増幅させた増幅音響信号を取得することを特徴とする請求項に記載の信号処理装置。
  6. さらに、
    前記収音部が前記対象物の方向に向くように該収音部の方位角、仰角を制御する手段を備えることを特徴とする請求項1ないしの何れか1項に記載の信号処理装置。
  7. 信号処理装置が行う信号処理方法であって、
    前記信号処理装置の選択手段が、対象物を含む複数の撮像画像に基づいて推定された該対象物の位置に基づき、複数の収音部から2以上の収音部を選択収音部として選択する選択工程と、
    前記信号処理装置の合成手段が、前記選択収音部からの音響信号を前記選択収音部と前記対象物との間の距離に基づく遅延量に基づいて遅延させた遅延音響信号を取得し、それぞれの選択収音部について取得した遅延音響信号の合成結果を、前記対象物の音響信号として出力する合成工程と
    を備え
    前記合成工程では、それぞれの選択収音部について、該選択収音部について取得した遅延音響信号を、該選択収音部と前記対象物との間の距離に応じて増幅させた増幅音響信号を取得し、それぞれの選択収音部について取得した増幅音響信号を合成した合成結果を、前記対象物の音響信号として出力することを特徴とする信号処理方法。
  8. コンピュータを、請求項1ないしの何れか1項に記載の信号処理装置の各手段として機能させるためのコンピュータプログラム。
JP2021163073A 2021-10-01 2021-10-01 信号処理装置、信号処理方法 Active JP7541964B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021163073A JP7541964B2 (ja) 2021-10-01 2021-10-01 信号処理装置、信号処理方法
US17/951,260 US12089000B2 (en) 2021-10-01 2022-09-23 Signal processing apparatus, signal processing method, and non-transitory computer-readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021163073A JP7541964B2 (ja) 2021-10-01 2021-10-01 信号処理装置、信号処理方法

Publications (2)

Publication Number Publication Date
JP2023053804A JP2023053804A (ja) 2023-04-13
JP7541964B2 true JP7541964B2 (ja) 2024-08-29

Family

ID=85774487

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021163073A Active JP7541964B2 (ja) 2021-10-01 2021-10-01 信号処理装置、信号処理方法

Country Status (2)

Country Link
US (1) US12089000B2 (ja)
JP (1) JP7541964B2 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020059447A1 (ja) 2018-09-18 2020-03-26 富士フイルム株式会社 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、音声信号処理システム及び撮影装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3714706B2 (ja) 1995-02-17 2005-11-09 株式会社竹中工務店 音抽出装置
KR101990370B1 (ko) * 2014-11-26 2019-06-18 한화테크윈 주식회사 카메라 시스템 및 카메라 시스템 동작 방법
JP6827996B2 (ja) 2018-10-31 2021-02-10 キヤノン株式会社 画像処理装置、制御方法、及び、プログラム
JP2021012314A (ja) 2019-07-08 2021-02-04 キヤノン株式会社 集音処理装置、集音処理方法、及びプログラム
US11722763B2 (en) * 2021-08-06 2023-08-08 Motorola Solutions, Inc. System and method for audio tagging of an object of interest

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020059447A1 (ja) 2018-09-18 2020-03-26 富士フイルム株式会社 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、音声信号処理システム及び撮影装置

Also Published As

Publication number Publication date
US20230105382A1 (en) 2023-04-06
JP2023053804A (ja) 2023-04-13
US12089000B2 (en) 2024-09-10

Similar Documents

Publication Publication Date Title
JP6023779B2 (ja) オーディオ情報処理の方法及び装置
JP6882868B2 (ja) 画像処理装置、画像処理方法、システム
JP2019083402A (ja) 画像処理装置、画像処理システム、画像処理方法、及びプログラム
EP2998935B1 (en) Image processing device, image processing method, and program
JP2019201325A (ja) 撮像装置、その制御方法、および、プログラム
CN105245811A (zh) 一种录像方法及装置
KR20200020590A (ko) 시각화된 객체에서 특정영역의 소리를 추출하는 감시 카메라 시스템 및 그 동작 방법
JP2022010300A (ja) 映像音声信号処理装置、映像音声信号処理方法及び映像音声信号処理システム
JP2018019294A5 (ja)
WO2011042823A1 (en) Method for acquiring audio signals, and audio acquisition system thereof
CN102804060B (zh) 音频控制图像捕捉
JP7541964B2 (ja) 信号処理装置、信号処理方法
KR101664733B1 (ko) 전 방향 고해상도 추적 녹화 장치 및 방법
CN116095254B (zh) 音频处理方法和装置
US11979732B2 (en) Generating audio output signals
CN117859339A (zh) 媒体设备及其控制方法和装置、目标跟踪方法和装置
WO2023054047A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP5764097B2 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
JP4518729B2 (ja) 画像音響提示システムと方法並びにコンピュータ読み取り可能な記録媒体と画像音響提示プログラム
JP2023070220A (ja) カメラ操作模擬装置およびそのプログラム、ならびに、カメラ映像生成装置およびそのプログラム
JP6664456B2 (ja) 情報処理システム及びその制御方法、コンピュータプログラム
WO2016202111A1 (zh) 一种基于拍照的音频输出方法和装置
CN114205695A (zh) 一种音响参数确定方法和系统
JP7761208B2 (ja) 音源分離装置、音源分離方法、およびプログラム
CN114554154A (zh) 音视频拾音器位置选择方法及系统、音视频采集终端与存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230927

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240701

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240716

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240819

R150 Certificate of patent or registration of utility model

Ref document number: 7541964

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150