JP6456171B2 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP6456171B2
JP6456171B2 JP2015018723A JP2015018723A JP6456171B2 JP 6456171 B2 JP6456171 B2 JP 6456171B2 JP 2015018723 A JP2015018723 A JP 2015018723A JP 2015018723 A JP2015018723 A JP 2015018723A JP 6456171 B2 JP6456171 B2 JP 6456171B2
Authority
JP
Japan
Prior art keywords
sound source
image
display
imaging
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015018723A
Other languages
English (en)
Other versions
JP2016144044A (ja
JP2016144044A5 (ja
Inventor
典朗 多和田
典朗 多和田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2015018723A priority Critical patent/JP6456171B2/ja
Publication of JP2016144044A publication Critical patent/JP2016144044A/ja
Publication of JP2016144044A5 publication Critical patent/JP2016144044A5/ja
Application granted granted Critical
Publication of JP6456171B2 publication Critical patent/JP6456171B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Studio Devices (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。
近年、映像技術の発展と共に、映像に付随する音響にも目を向けた技術開発が加速している。例えば特許文献1では、監視カメラにおいて音響信号から音源を分離し、映像信号上に画角内外の音源の位置や軌跡を表示できるようにしている。
また、音源と、音源に対応する画像を結び付けるような方法も検討されている。特許文献2では、話者認識と顔認識を組み合わせることで、画角外と判定された人物の顔画像データを映像信号上に表示している。また、特許文献3では、音源の音データと画像データを関連付けて再生する方法が述べられている。
特開2010−232888号公報 特開2010−134507号公報 特開2008−197650号公報
カムコーダ等によって映像信号と同時に音響信号を取得した際、音響信号に音源分離を施すことによって、音響信号に含まれる音源ごとに音源方向や分離信号を得ることが可能である。但し各分離信号はモノラル信号となるため、ユーザが例えばヘッドフォンで音を聴く場合に、各分離音源の分離信号がそれぞれの音源方向から聴こえるようにするためには、モノラル信号のバイノーラル化を行う必要がある。即ち、モノラル信号である分離信号ごとに、各音源方向に対応する左右各耳の頭部伝達関数(以下、HRTF:Head−Related Transfer Function)を畳み込み、それらを合成することでバイノーラル信号を生成する。これをレンダリング音響信号として映像信号と同期して再生することで、視聴しているユーザは映像信号上の各音源の方向から音が聞こえてくるような立体音響効果により、高い臨場感を得ることができる。
レンダリング音響信号は、音源分離で得られた各分離信号の音源方向をそのまま再現したものである。そこで、各音源方向の時間的な履歴に対応する音源軌跡について、立体音響効果をより強調するためには、音源軌跡に編集を加えることが考えられる。ここで、映像信号取得時の画角という方向に関する情報が、画面表示される映像信号の四辺の平面座標と対応していることを考える。すると、各分離音源の音源方向を映像信号の平面座標系で表して音源位置とし、画面上の映像信号に対応付けて音源位置を表示することが可能であると分かる。これより、音源位置の時間的な履歴である音源軌跡を画面上の映像信号に合成表示し、更にユーザの操作を受け付けるグラフィカルユーザインターフェース(以下、GUI)を設ければ、映像信号上で音源軌跡を編集するシステムが構築できる。また、このような編集のシステムによれば、画面上の音源位置を指定することで編集対象とする分離音源を選択し、ユーザの感覚に合わせて音量を制御することで、強調、抑制、ミュートといった音響処理を行うことも可能である。
以上のようなシステムにおいては、音源が映像に映る画角内の場合と、映像に映らない画角外の場合とを分けて考えることが望ましい。しかしながら、従来技術には以下に示すような課題があった。
一般に、編集を行うための編集画面で表示される画像は、映像信号を構成する映像フレームのうち、編集対象時刻を示すタイムカーソルが置かれた単一の映像フレームである。普通、音源の音量制御や音源軌跡の編集を行う際は、その音源が何であるか分かっている必要がある。しかし、表示されている映像フレームにおいて、音源が画角外で、映っていない場合は瞬時には分からない。これを知るためには、対応する分離信号を聴いて音で判断する、タイムカーソルを動かして音源が画角内に入る映像フレームを探索する、といった別の操作が必要となる。このように、表示中の映像フレームで音源が画角外の場合、音源が何か確認する別の操作に時間を要するため、編集の効率が落ちるという課題がある。
特許文献1では、音源が画角外の場合に映像信号の縁辺にマーク表示することで表現していたが、マークから音源が何であるかは分からない。特許文献2では、話者認識されたが顔認識されなかった人物を画角外と判定して、その人物の顔画像データを映像信号の例えば端に表示する。よって、画角外の音源(話者)が何(誰)であるか視覚的に瞬時に分かる可能性はあるが、人物の顔画像データと声データを予めデータベースに登録しておく必要があった。特許文献3では、音源分離で得られた音源方向と、顔認識された画像データに対応する方向との一致を見て、例えば音源(話者)の音データ(話の内容)と画像データ(話者の表情)を関連付けて再生する。しかしながら、音源が画角外で画像データが得られないような場合については触れられていない。
本発明は、表示中の映像フレームで音源が画角外の場合であっても、効率的な編集を可能とすることを目的とする。
そこで、本発明の情報処理装置は、撮像手段による撮像に基づいて生成された画像を取得する画像取得手段と、前記撮像手段による撮像と共に行われる収音手段による収音に基づく音響信号に対応する音源であって、前記画像取得手段により取得される第1画像に含まれない音源の、置及び方向の少なくとも何れかを特定する特定手段と、前記画像取得手段により取得される前記第1画像を表示部に表示させると共に、前記第1画像に係る撮像時点とは異なる時点における前記撮像手段による撮像に基づく第2画像であって前記音源の少なくとも一部を含む前記第2画像を、前記表示部内の表示位置であって前記特定手段により特定された前記音源の位置及び方向の少なくとも何れかに応じた表示位置に表示させる表示制御手段とを有することを特徴とする。
本発明によれば、表示中の映像フレームで音源が画角外の場合であっても、効率的な編集を可能とすることができる。
信号処理装置のシステムコントローラのハードウェア構成の一例を示す図である。 情報処理の一例を示すフローチャートである。 音源位置の算出を説明するための図(その1)である。 音源位置の算出を説明するための図(その2)である。 音源位置の算出を説明するための図(その3)である。 参照画像の取得を説明するための図である。 参照画像の選択を説明するための図である。 画角外音源の画像表示に係る情報処理の一例を示すフローチャートである。
以下、本発明の実施形態について図面に基づいて説明する。
<実施形態1>
図1(a)及び(b)は、信号処理装置のシステムコントローラ100のハードウェア構成の一例を示す図である。
図1の(a)は、システムコントローラ100の各構成をハードウェアとして実装した場合の例である。図1の(b)は、システム制御部101、信号解析処理部103、表示生成部132、音響信号生成部141等を信号処理装置のシステムコントローラ100にソフトウェア構成として実装した場合のシステムコントローラ100のハードウェア構成の例である。
まず、図1(a)について説明する。
システムコントローラ100は、全構成要素の統御を行うシステム制御部101、各種データを記憶しておく記憶部102、信号の解析処理を行う信号解析処理部103を備える。
また、システムコントローラ100は、撮像系の機能を実現する要素としては、撮像部111、映像信号入力部112を備える。撮像部111は、入射する光に光電変換を施してアナログ映像信号を生成する。映像信号入力部112は、撮像部111からのアナログ映像信号にAD変換とゲイン調整を施して、設定された映像フレームレートに対応する周期でデジタル映像信号を生成する。
また、システムコントローラ100は、収音系の機能を実現する要素としては、収音部121、音響信号入力部122を備える。本実施形態において収音部121は、立方体頂点となる位置関係にマイク素子を配置した、8chマルチマイクで構成されるものとする。ここで、各マイク素子の配置位置を記述するためのマルチマイク座標系は、原点を撮像系における画角の起点に取り、1つの軸を撮像部111の光軸と一致させ、残りの2軸を撮像系で捉える映像信号の水平方向と垂直方向に対応するように取る。本実施形態においては、立方体の中心がマルチマイク座標系の原点となるよう8chマルチマイクを構成する。音響信号入力部122は、収音部121の各マイク素子からのアナログ音響信号に増幅及びAD変換を施して、設定された音響サンプリングレートに対応する周期でデジタル音響信号である8chマルチマイク信号を生成する。なお、マイク素子の数は必ずしも8個である必要はなく、複数あればよい。また、配置も任意でよい。
ユーザの操作を受け付けたり、ユーザに操作メニューや映像信号等を提示したりするための要素としては、システムコントローラ100は、入出力GUI部131、表示生成部132を備える。本実施形態において、入出力GUI部131は、タッチパネルで構成されるものとする。
また、システムコントローラ100は、音響再生系の機能を実現する要素としては、音響信号生成部141、音響信号出力部142、音響信号再生部143を備える。本実施形態において、音響信号再生部143は、ヘッドフォンで構成されるものとする。
なお、煩雑になるため主要な結線しか示していないが、図1の信号処理装置を構成する各ブロックはバスを介して結ばれているものとする。
次に、図1(b)について説明する。
図1(b)のシステムコントローラ100は、図1(a)のシステム制御部101、信号解析処理部103、表示生成部132、音響信号生成部141の代わりに、CPU150、RAM151、ROM152をハードウェア構成として含む。図1(b)において、CPU150がROM152等に記憶されているプログラムをRAM151に読み出し、実行する。このことによって、図1(b)においては、図1(a)のシステム制御部101、信号解析処理部103、表示生成部132、音響信号生成部141と同様の機能がソフトウェアとして実現される。なお、図1(b)では、記憶部102と共に、RAM151やROM152を含む構成を示したが、これらは1つの記憶部であってもよい。以下では、説明の簡略化のため、システムコントローラ100は、図1(b)の構成を有するものとして説明を行う。
以下、図2のフローチャートに沿って、本実施形態の情報処理の流れを詳細に説明する。図2のフローチャートの処理は、CPU150がROM152又は記憶部102等に記憶されているプログラムをRAM151に読み出し実行することによって実現される。
はじめに、S201において、CPU150は、撮影を行い、映像信号及び映像信号と時間的に同期した音響信号を取得する。
撮影モードとなっている入出力GUI部131の画面上には、撮像系が捉えている映像信号がリアルタイムに映し出されている。このとき、ユーザがズーム倍率を示す画面上のスライダバーのつまみを動かす。このことで、ズーム倍率を示す値がモニタリングしているCPU150に伝えられる。したがって撮像系は、前記ズーム倍率を示す値に基づき指定されたズーム倍率に応じて画角を広げたり狭めたりすることに対応する処理を行う。デジタルズームの場合、映像信号入力部112で、光学ズームの場合、撮像部111で処理を行うが、後者の場合は画角の起点の移動を伴う。そのため、収音部121は、マルチマイクの立方体中心が常に画角の起点と一致するような機構を備えていると好適である。又は、収音部121は、マルチマイク座標系を原点が常に画角の起点と一致するよう立方体中心から平行移動させていき、その座標系で各マイク素子の配置位置を逐次記述する。
ユーザは、撮影を開始したいシチュエーションになった場合、入出力GUI部131上に表示されているメニューから、「撮影開始」をタッチして選択する。選択されたメニューの情報はコマンドとしてCPU150に送信される。そして、CPU150は、撮影中であることを示す表示を生成して、入出力GUI部131の画面上に映像信号と合成して表示する。
同時に、撮像系で捉えている映像信号及び、収音系で捉えている音響信号の記憶部102への記録が開始される。このとき、映像信号に付随するデータとして、撮像系のズーム倍率及び対応する画角の履歴も記憶部102に記録される。また、音響信号に付随するデータとして、収音部121の各マイク素子の配置位置データも記憶部102に記録される。なお、撮影においてパンニングといった装置全体の動きを伴う場合は、装置運動検知センサによって装置運動データの履歴を取得し、併せて記録しておくことが望ましい。
ユーザは、入出力GUI部131上に表示されているメニューから、「撮影終了」をタッチして選択することで撮影を終了させる。
S202ではCPU150が、S201で取得した音響信号に音源分離を施し、音響信号に含まれる音源ごとに音源方向や分離信号を得る。
入出力GUI部131において撮影モードからデータモードに切り替えられると、S201で取得された映像信号、音響信号、及び付随するデータが、一回の撮影ごとにまとめられて映像音響データファイルとして表示される。ユーザがこの中から対象とする映像音響データファイルを選択すると、「音源プロパティ取得」のメニューが表示される。ユーザがメニューを選択することで映像音響データファイルの音響信号の音源分離が行われる。
本実施形態においては、音源分離の前段として音源定位が行われるものとし、音響信号である8chマルチマイク信号及び、対応する各マイク素子の配置位置データが用いられ、音源定位・分離が行われる。
音源定位・分離は公知技術であるため詳述はしないが、音源定位については例えば、部分空間法に分類されるMUSIC法が用いられる。これにより、マルチマイクの立方体中心を原点とするマルチマイク座標系において、各音源の方位角と仰角とを音源方向として検出することが可能となる。このとき、音波の伝搬モデルを平面波モデルではなく球面波モデルとすれば、音源方向に加えて音源距離を取得することもできる。
また、音源分離については例えば、音源定位で得た音源方向といった情報を幾何学的拘束条件として用いる、幾何学的音源分離を利用することができる。これによって、音源定位された各音源に対応する分離信号を得ることができる。
本実施形態においては、音源分離の過程で得られる音源ごとの音源方向や分離信号を総称して、各分離音源の音源プロパティと呼ぶものとする。
なお、音源定位・分離にはビームフォーマや、独立成分分析に基づくブラインド音源分離といった他の手法を用いてもよい。
本実施形態において、CPU150は、音源定位・分離を、設定された音響サンプリングレートで取得された各chマイク信号を、設定された時間フレーム長に対応するサンプル数ずつシフトしながら用いることで行うものとする。即ち、各分離音源について時間フレームごとに、音源方向及び時間フレーム長分の分離信号が得られる。ここで、CPU150は、時間フレーム長を映像フレームレートに対応する周期に合わせることで、映像信号を構成する映像フレームに対応させて、各分離音源の音源方向を得ることができる。
なお、音源が発する音に無音区間があると、そこで音源定位が途切れるため分離信号も途切れ、再び有音区間となったときに新たに音源定位・分離が開始されるということがある。このように、無音区間を挟んで2組の音源プロパティが得られるような場合、同一の音源に由来する音源プロパティは、内部的に同じ音源IDを割り当ててまとめておいた方が、後のステップの音源プロパティ編集において都合がよい。
2組の音源プロパティが同一の音源に由来するものか判定し、音源プロパティの紐付けを行う方法として、いくつかの方法が考えられる。例えば、CPU150は、音源プロパティのうち音源方向に着目し、2つの音源方向履歴を間の無音区間についてそれぞれ外挿して、2つの外挿曲線が概ね一致していれば同一の音源に由来すると判定する。これは、音源の動きの連続性を見ていることに相当する。又は、CPU150は、音源プロパティのうち分離信号に着目し、2つの分離信号の特徴量を比較することで判定する。もちろん、CPU150は、これらの方法の複合によって判定してもよい。このように、CPU150が同一の音源に由来すると判定される音源プロパティをまとめることで、分離音源の数を抑えると共に、各分離音源に対応する音源プロパティの時間フレーム数をなるべく多くすることができる。
以上のようにして取得された分離音源ごとの音源プロパティは、元となる映像音響データファイルに統合されて記憶部102に保存される。
S203ではCPU150が、S202で取得された分離音源ごとの音源方向や分離信号について、編集を開始するための表示を行う。
S202で音源プロパティの取得を行った映像音響データファイルは、選択時に「音源プロパティ編集」のメニューが表示されるようになる。そのため、ユーザがこれを選択することで図4(a)に示すような音源プロパティの編集ウィンドウ400が立ち上がる。
編集ウィンドウ400内の映像トラック420には、映像音響データファイルの映像信号のサムネイルが表示される。例えば、システムコントローラ100は、映像信号を構成する映像フレームから、設定された数の映像フレームごとに代表となる映像フレームを選択し、その縮小画像をサムネイルとして映像トラック420上に配置する。
分離信号トラック430には、映像音響データファイルに統合された音源プロパティの分離信号の波形が描画される。この例の場合、音源プロパティにおいて別々と見なされた分離音源の数は5であるため、分離信号431〜435の5つの波形が描画される。このとき、CPU150は、各分離信号が得られた時間フレームに対応させて波形を表示するため、必ずしもトラックの先頭からではなく横方向にシフトさせて表示する。また、無音区間を挟む2組の音源プロパティを紐付けしたような場合は、分離信号の1つのトラックにこま切れの複数の波形が並ぶことになる。
映像トラック420と分離信号トラック430とは、信号を時系列に概観するための表示部分なので、秒数といった実際の時間と対応させるために共通のタイムスケールを表示してもよい。
編集ウィンドウ400内の映像表示領域410には、映像音響データファイルの映像信号を構成する映像フレームのうち、タイムカーソル401がある位置に対応する映像フレーム411が表示される。なお、映像トラック420でタイムカーソル401がある映像サムネイル421は、映像フレーム411或いは近傍の映像フレームから生成されたものである。
ここで、各映像フレームにおいて音源プロパティを有する分離音源が存在する場合、CPU150は、映像表示領域410上での音源位置を算出し、同領域上に合成して表示するようにする。このとき、音源プロパティの音源方向と、映像表示領域410上の座標とを対応付ける処理が必要となるため、その考え方について図3を用いて説明する。
映像フレーム411に対応する時間フレームにおいて、一つの分離音源が存在する場合を考え、そのときの音源方向の方位角を図3Aのようにθsとする。また、映像フレーム411を撮像した時点の水平画角を2θvとする。一方、映像表示領域410における映像フレーム411の水平画素数を2Wvとする。また、図3Aのように水平座標軸Xを取り、分離音源の音源位置の水平座標をXsとする。
まず、水平画角2θvが映像表示領域410上の映像フレーム411の左右端に対応することから、距離Fを用いて次の関係が得られる。
tan(θv)=Wv/F 式(1)
また、分離音源の音源方向の方位角θsが、映像表示領域410における音源位置の水平座標Xsに対応するとして、次の関係を得る。
tan(θs)=Xs/F 式(2)
式(1)、式(2)よりFを消去することで、Xsの算出式が次のように得られる。
Xs=Wv×(tan(θs)/tan(θv)) 式(3)
図3Bは、映像フレーム411の水平画角2θv=80°、垂直画角2φv=60°、水平画素数2Wv=2000、垂直画素数2Hv=1000とした場合の例である。音源方向の方位角θs及び仰角φsに対応する音源位置の水平座標Xs及び垂直座標Ysを、θs及びφsが±70°の範囲で10°ごとに示している。なお、各線分の長さは映像フレーム411に合わせている。また、垂直方向の算出式は水平方向の式(3)と同様に得られる。
Ys=Hv×(tan(φs)/tan(φv)) 式(4)
θs=±θv=±40°に対応するXs=±Wv=±1000と、φs=±φv=±30°に対応するYs=±Hv=±500で作られる図3Bの四角形が、映像フレーム411の境界に相当する。この境界内に映像フレーム411を表示すると、例えば音源方向の方位角θs=30°、仰角φs=20°の分離音源は、式(3)及び式(4)によって算出される音源位置(Xs、Ys)に従って、図3Bの丸301の位置に表示される。
式(3)及び式(4)において分母は画角で決まる定数となるが、分子のタンジェントの性質から、音源方向の絶対値が大きいほど、又は映像フレーム411の境界に近づくほど、図3Bにおけるグリッドが粗くなることが分かる。ここで、音響信号から取得した音源プロパティの特長として、映像信号の画角外となる発音源の情報も得られているというものがある。しかし図3Bからも分かるように、画角外の音源の位置を式(3)、式(4)に従って算出すると、タンジェントの性質から座標の絶対値が非常に大きくなり、映像表示領域410で画角外を示す領域が支配的になってしまう。また、タンジェントは±90°で発散するため、音源方向の方位角が±90°となる真横から後方の範囲、仰角が±90°となる真上と真下については、式(3)、式(4)に基づいて音源位置を算出することはできない。
以上のことを考慮すると、画角外の音源の映像表示領域410における音源位置(Xs、Ys)は、式(3)、式(4)とは別の式によって算出することが望ましい。例えば、CPU150は、映像表示領域410の境界と映像フレーム411との間の画角外領域412に関して、水平方向については方位角当たり、垂直方向については仰角当たりの面積が一定となるよう、以下の式(5)、式(6)のように算出する。
Xs=sgn(θs)×(Wv+(Wm−Wv)×(|θs|−θv)/(θm−θv)) 式(5)
Ys=sgn(φs)×(Hv+(Hm−Hv)×(|φs|−φv)/(φm−φv)) 式(6)
式(5)は音源方向の方位角が|θs|>θvである場合に、式(6)は仰角が|φs|>φvである場合に用いるものとする。ここで、θm=180°、φm=90°、sgnは符号関数である。また、映像表示領域410の水平画素数を2Wm(≧2Wv)、垂直画素数を2Hm(≧2Hv)としている。
図3Cは、2Wm=4000、2Hm=2000とした場合の例である。音源方向の方位角θs及び仰角φsに対応する音源位置の水平座標Xs及び垂直座標Ysを、θsが±180°、φsが±90°の範囲で10°ごとに示している。ここで、CPU150は、画角内の音源の音源位置(Xs、Ys)を図3Bと同じく式(3)、式(4)を用いて算出し、画角外の音源位置を式(5)、式(6)を用いて算出している。例えば方位角がθ=90°の真横方向で、仰角がφ=−60°の斜め下方の分離音源は、図中の三角形302の位置に表示される。また、ほぼ真後ろ方向の分離音源は、図3Cのひし形303の位置に表示される。
なお、式(5)、式(6)では、画角外領域412を方位角及び仰角に関して均等に配分していることになる。ここで、図3Cで表されるように画角内外の音源位置を算出する場合、水平方向に一定角速度を持つ移動音源が画角内から画角外に捌けたとすると、画角外となった途端に音源位置の移動速度が急激に遅くなると感じられる可能性がある。このため、画角境界における音源位置の移動速度の連続性の観点から、画角外の方位角及び仰角について、画角境界に近いほど画角外領域412の配分を大きくするようにしてもよい。これは、図3Cの画角内のグリッドとは逆に、音源方向の絶対値が大きいほど画角外のグリッドは細かくすることに対応する。
図4(a)の映像表示領域410の水平軸と垂直軸とにおいて、画角外に対応する部分の目盛りは、図3Cと同様に画角外の方位角と仰角について例えば10°ごとに、水平座標と垂直座標を示した例である。
以上の考え方により、音源プロパティの音源方向から映像表示領域410上での音源位置を算出することができる。本実施形態においては、音源位置も音源プロパティとして扱われ、元となる映像音響データファイルに統合されて記憶部102に保存される。
以下、分離音源の音源位置の表示について説明する。
まず、タイムカーソル401がある時間フレームにおいて、分離信号431に対応する音源位置が、図4(a)の音源位置441である。この場合、音源方向が画角内であったため映像フレーム411上に合成され、その近傍の画像より音源は人の声であることが分かる。同様に、分離信号432に対応するのが音源位置442であり、その近傍の画像から音源は犬の鳴き声であることが分かる。分離信号433は、タイムカーソル401がある時間フレームでは存在しないため、対応する音源方向の情報も無く、CPU150は、音源位置を表示することはできない。分離信号434、435に対応するのがそれぞれ音源位置444、445である。しかし、共に音源方向が画角外であったため、CPU150は、映像フレーム411上に合成することはできない。そのため、ユーザは音源が何であるか視覚的には分からない。
タイムカーソル401が置かれた映像フレーム411で音源が画角外の場合、音源が何か確認するには別の操作を必要とするため、次のステップの編集における効率が低下する。ここで、表示中の映像フレーム411では画角外の音源も、音源が移動音源である場合や、静止音源でも撮影においてパンニングといった装置全体の動きを伴っていた場合、別の映像フレームでは画角内となり映像に映っている可能性がある。
そこで本実施形態のCPU150は、映像フレーム411において、対象とする音源が画角外の場合に、例えば、その音源の軌跡情報に基づいて、その音源が画角内に位置する時間的に異なる映像フレーム(本実施形態では、参照フレームと呼ぶ)を探索して選択する。そして、CPU150は、参照フレームから音源を表す音源位置近傍の画像(本実施形態では、参照画像と呼ぶ)を取得し、映像フレーム411と共に映像表示領域410上での音源位置に表示する。
以下、参照フレームの選択方法について説明する。
はじめに、参照フレームを探索する対象となる時間フレームについて述べる。例えば音源位置444の示す音源が何であるか知りたい場合、対応する分離信号434が得られていて、分離信号トラック430において描画されている範囲の時間フレームが対象となる。
参照フレームを選択する方法には、以下に例示するようにいくつかの方法がある。何れの場合も図4(b)に示すように、探索中の映像フレームにおいて音源が画角内で音源位置414が映像信号上となり、参照画像415を取得可能なことが参照フレーム413の必要条件となる。
(方法1)
CPU150が対象となる時間フレーム範囲を時間的に最も早い方から探索していき、前記必要条件を満たした設定された数(例えば1)の映像フレームを参照フレームとする。参照フレームを選択した時点でCPU150は探索を終えてよい。
(方法2)
CPU150が対象となる時間フレーム範囲をタイムカーソル401と最も近い方から探索していき、前記必要条件を満たした設定された数の映像フレームを参照フレームとする。参照フレームを選択した時点でCPU150は探索を終えてよい。この方法は、タイムカーソル401のある映像フレーム411と時間的に最も近い映像フレームから取得した参照画像の方が、映像フレーム411の時点における音源の様子に近いであろうという考えによる。
(方法3)
CPU150が対象となる時間フレーム範囲を全探索し、前記必要条件を満たした上で、探索中の映像フレームにおける音源の音源位置が、映像フレームの中心に最も近い方から設定された数の映像フレームを参照フレームとする。この方法は、音源位置が映像中心に近いときの映像フレームから取得した参照画像の方が、音源の様子をよく表しているであろうという考えによる。
映像フレーム中心からの遠さを表す指標dは、探索中の映像フレームにおける音源位置(Xs、Ys)と映像フレーム境界との位置関係を考慮し、例えば次のように定義する。
d=max(|Xs|/Wv,|Ys|/Hv) 式(7)
ここで、maxはカンマで区切られた2つの引数の最大値を返す関数とする。
式(7)より、音源位置が映像フレームの境界上であればd=1、音源方向が画角内で音源位置が映像フレームの内側であればd<1、音源方向が画角外で音源位置が映像フレームの外側であればd>1となる。また、音源位置が水平又は垂直方向のどちらか一方でも映像フレームの境界に近ければ、dは1に近い値となるため、映像フレームの中心からそれなりに離れていると見なされる。以上のような性質を持つdを用いることで、音源のdが小さい方から設定された数のフレームを参照フレームとすることができる。
(方法4)
音源プロパティとして音源距離が得られている場合、CPU150が対象となる時間フレーム範囲を全探索し、前記必要条件を満たした上で、探索中の映像フレームにおける音源の音源距離が小さい方から設定された数の映像フレームを参照フレームとする。この方法は、音源距離が小さい映像フレームから取得した参照画像の方が、音源が大きく映っていて好適であろうという考えによる。
なお、方法3、4において参照フレームと確定するための閾値を設ければ、CPU150は、必ずしも対象となる時間フレーム範囲の全探索を行わなくても、参照フレームを確定した時点で探索を終えることができる。方法3では、映像フレーム中心からの遠さを表す指標dが閾値以下となった場合、方法4では、前記必要条件を満たした上で音源距離が閾値以下となった場合に、CPU150は、それぞれ参照フレームであると確定すればよい。
続いて、参照画像の取得方法について説明する。参照フレームから参照画像を取得する方法にもいくつかの方法がある。
例えば簡単には、CPU150は、参照フレームにおける音源の音源位置を中心として、参照フレームから設定された大きさで範囲選択した部分を参照画像とする。このとき、音源プロパティとして音源距離が得られていれば、音源距離が小さいほど音源が大きく映っていると考えて、CPU150は、大きく範囲選択するようにしてもよい。また、CPU150は、参照フレームにおける音源の音源位置の近傍で、顔認識等の画像認識処理を適用し、得られた画像オブジェクトを参照画像としてもよい。
なお、参照フレームから取得する参照画像において、音源が見切れることを防止するため、CPU150は、音源位置が画角境界に近い映像フレームは参照フレームとはしないようにしてもよい。より具体的には、例えば、CPU150は、式(7)で定義した映像フレーム中心からの遠さを表す指標dを利用して、d<0.9を参照フレームの必要条件にすればよい。
なお、CPU150は、編集ウィンドウ400のメニューから、上述した参照フレームの選択方法や参照画像の取得方法を選択できるようにしてもよい。
以上のような方法によって、CPU150は、図4(b)に示すような参照フレーム413を選択し、参照画像415を取得することができる。そして、CPU150は、図4(b)の参照画像415を、図4(a)の音源位置444を中心とする参照画像415の枠内に表示する。このことで、ユーザは、音源は飛んでいる鳥の鳴き声であることが分かる。
このように本実施形態では、撮影中に音源が一度でも画角内に入っていれば、事前にデータベースに登録しておくことなく、音源が画角外の映像フレーム411において、音源を表す参照画像を表示することができる。
なお、図4(a)の例では音源位置445の示す音源も画角外であるが、参照画像は表示されていない。これは、音源が撮影中ずっと画角外であり、参照フレーム及び参照画像が得られなかったことを意味する。
なお、参照画像415はその基準点とする図4(b)の音源位置414を、図4(a)に示すように映像表示領域410上での音源位置444に合わせるよう表示するのが最も自然である。
但し、CPU150は、画角外の音源位置が映像表示領域410の境界に近い場合でも、参照画像が欠けることなく表示できるように、参照画像の基準点を映像表示領域410上での音源位置より内側にシフトした点へ合わせるようにしてもよい。また、参照画像は画角外領域412と映像フレーム411とにまたがって表示されてもよい。特に、画角外領域412を設けず映像フレーム411を映像表示領域410の全面に表示する場合(Wm=Wv、Hm=Hv)は、画角外音源の音源位置は映像表示領域410の境界上となり、参照画像は映像フレーム411内に表示されることになる。
なお、音源位置444に対応する参照フレーム413の時間フレームを示す個別のタイムカーソルとして、図4(a)に示すような参照カーソル402を分離信号434上に表示すれば、どの時点の映像フレームが参照されているか分かる。このとき、映像フレーム411における画角外の音源が複数で、それぞれに参照フレーム及び参照画像が得られていれば、分離信号トラック430の各分離信号上に、それぞれの参照カーソルが個別に表示されることになる。
ところで、参照フレームの選択において、方法2以外はタイムカーソル401の位置には依らないため、各音源に対応する参照フレームから参照画像を初めて取得した際に、記憶部102に保持しておけば参照画像を取得し直す必要はない。方法2の場合は次のステップの編集において、タイムカーソル401を動かすたびに参照フレームを探索して選択する必要がある。
また、CPU150は、後のステップの再生と同時に、本ステップの画角外音源の参照画像表示を行うこともできる。即ち、CPU150は、再生と共に移動して行くタイムカーソル401が指す映像フレームを逐次探索し、方法1の場合は、映像フレームを参照フレームとして参照画像を初めて取得できたときに、記憶部102に保持しておく。このようにすれば、再取得の必要はない。方法1以外の場合、CPU150は、映像フレームを参照フレームとして参照画像が取得できる度に、その時点で各方法の条件に最も合った参照フレームか判定して、そうであれば記憶部102に保持する参照画像を逐次更新して行く。
次に、参照フレームの選択において、設定された数を複数とした場合について説明する。
はじめに、設定された数に上限を設けなければ、音源が画角内となった全ての映像フレームが参照フレームになり得る。このとき、CPU150は、次のステップの編集において、例えば分離信号トラック430の各分離信号上で、それぞれの音源が画角内で参照フレームとなる時間フレームを視覚的にわかり易く範囲表示しておく。これにより、各画角外音源の参照カーソルの位置を、前記範囲内でユーザがドラッグして参照フレームを変更することで、CPU150は任意の参照フレームにおける参照画像を表示することができる。これは例えば、図5(a)のように飛んでいる鳥の音源定位がブレることで、結果として枠内のような参照画像となった場合に、参照フレームを変更することで、図4(b)のように鳥であることが分かる参照画像415を得るために役立つ。
また、参照フレームが複数の場合に、CPU150は、対応する複数の参照画像をパターン認識等により分類してグループ化することで、以下のような処理をすることができる。
例えば、CPU150は、本ステップで自動的に表示する参照画像は、数が一番多い前記グループの代表画像又は平均画像とする。このような参照画像は、音源の様子を代表して表していると考えられる。
また、次のステップの編集において、CPU150は、前記グループをユーザが選択可能なようにしてもよい。更に、CPU150は、画角外の音源だけでなく、画角内の音源についても参照画像を選択可能としてもよい。例えば、図5(b)のように、画角内でも障害物の後ろで視認性がよくなかった音源の枠内画像について、ユーザは図5(b)の左右のキーをタッチして前記グループを切り替えるよう指示する。この指示に応じて、例えば、CPU150は、音源が障害物から離れているときの参照画像のグループから、図5(c)ように音源である犬の全身が映った参照画像を取得して、代わりに表示することができる。
以上詳述した、画角外音源の画像表示に係る、代表的な処理をフローチャートにまとめると図6のようになる。即ち、表示中の映像フレーム411において存在する各音源に対して、図6のフローチャートの処理を適用する。図6のフローチャートの処理は、CPU150がROM152又は記憶部102等に記憶されているプログラムをRAM151に読み出し実行することによって実現される。
はじめにS601で、CPU150は、表示中の映像フレーム411において音源が画角外であるか判定する。CPU150は、判定結果が偽、即ち音源が画角内であれば、S602に進んで映像フレーム411上に音源位置を表示する。
一方、CPU150は、判定結果が真、即ち音源が画角外であれば、別の映像フレームから参照フレームを探索する。まずS603で、CPU150は、最初に探索する映像フレームを決定する。CPU150は、方法に応じて、最初に探索する映像フレームを、探索対象となる時間フレーム範囲内で、時間的に最も早い映像フレームとしてもよいし、タイムカーソル401と最も近い映像フレームとしてもよい。
次にS604で、CPU150は、探索中の映像フレームにおいて音源が画角内であるか判定する。CPU150は、判定結果が偽、即ち探索中の映像フレームでも音源が画角外であれば、S605に進む。
S605では、CPU150は、探索対象となる時間フレーム範囲の全映像フレームについて探索を終えたか判定し、未探索の映像フレームがあればS606を経てS604に戻る。
S606では、CPU150は、次に探索する映像フレームを決定する。CPU150は、方法に応じて、次に探索する映像フレームを、未探索の映像フレームの中で、時間的に最も早い映像フレームとしてもよいし、タイムカーソル401と最も近い映像フレームとしてもよい。
一方、CPU150は、S604で判定結果が真、即ち探索中の映像フレームにおいて音源が画角内となれば、S607に進んで探索中の映像フレームを参照フレームとして選択することができる。
続いてS608では、CPU150は、S607で選択した参照フレームから参照画像を取得する。CPU150は、方法に応じて、参照フレームにおける画角内の音源位置を中心として、参照フレームから設定された大きさで範囲選択してもよいし、画像認識によって範囲選択してもよい。
次にS609で、CPU150は、S608で取得した参照画像を映像フレーム411外の画角外領域412に表示する。即ち、CPU150は、参照画像の中心を映像フレーム411における画角外の音源位置に合わせるように表示する。
最後にS610では、CPU150は、画角外領域412に表示した参照画像の上に、映像フレーム411における画角外の音源位置を表示する。
なお、音源が画角内となる映像フレームを見つけられないまま、探索対象となる全映像フレームの探索を終えてしまった場合は、CPU150は、S605からS610に進む。即ち、CPU150は、画角外音源の参照画像の表示を行うことはできないため、位置表示のみ行う。
なお、CPU150は、図4(a)において各音源位置を一定の大きさの円で表示している。しかし、CPU150は、三角や四角、音符やスピーカといった任意の図形や記号、或いは文字や数字を表示してもよいし、映像表示領域410内の輝度等を部分的に変えることで表現してもよい。また、CPU150は、対応する分離信号の音量に応じて大きさや色を変えたり、周波数特性や他の特徴量によって表示を変化させたりしてもよい。更に、CPU150は、映像フレーム411に顔認識等の画像認識技術を適用することで、例えば人や動物の映っている大きさに応じた枠で、画角内の各音源を囲んで表示してもよい。
なお、CPU150は、分離信号トラック430において、分離信号ごとに波形やトラック枠の色を割り当てて描画しておけば、対応する各音源位置をその色で表示することで対応関係が明確になる。又は、CPU150は、音源IDを示す数字や文字を各分離信号のトラックの先頭に表示すると共に、対応する各音源位置の表示に用いてもよい。
次に、映像フレーム411の時間フレームにおける音源位置だけでなく、他の時間フレームにおける音源方向について、映像フレーム411を表示している映像表示領域410上での音源位置を算出し、併せて表示することを説明する。
一例として、CPU150は、タイムカーソル401がある時間フレームから設定された数のフレームずつ時間的に遡って行き、それらの各時間フレームにおける音源方向から映像表示領域410上での音源位置を算出して表示する。これにより、例えば図4(a)に示すように音源位置444の過去の音源位置が、同様の表示によって音源位置444の近くに表示される。
このとき、CPU150が過去の1フレームごとの音源位置を音源位置444と同じように円で表すと、場合によっては円が密集して表示が見辛くなる。そこで、CPU150は、映像フレーム411の時間フレームと同様の表示は、例えば10フレームといった設定された数のフレームごとに行う。また、例えば、CPU150は、時間的に過去の音源位置ほど色を暗くするようにする。このようにすると、直感的にわかり易い表示となる。
一方で、CPU150は、1フレームごとの音源位置を点で表し、それらを滑らかに結んで時間の進行方向を表す矢印を付ける。このようにすれば、図4(a)に示すように音源位置の時間的な軌跡を表す矢印曲線が得られる。本実施形態においては、これを音源軌跡と呼ぶ。音源軌跡上に設定された数のフレームごとに描画される円の間隔から、音源の移動速度の変化を視覚的に捉えることもできる。
なお、音源軌跡を描く対象とする時間フレームは、映像フレーム411の時間フレームより前のフレームだけでなく、時間的に後のフレームであってもよい。また、対象とする時間の範囲は一定でもよいし、タイムカーソル401がある時間フレームの分離信号が、途切れずつながっている範囲の全時間フレームを対象としてもよい。
また、CPU150は、代表的な音源位置の円等による表示についても、必ずしも設定された数のフレームごとのような等時間間隔でなくてもよく、映像表示領域410上での音源位置に一定の変化が生じた時間フレームで描画するようにしてもよい。これにより、例えば静止している音源は、次のステップの編集において代表となる一つの音源位置により扱うことができる。
なお、音源軌跡の各時間フレームと映像フレーム411との時間フレームの間に、パンニング等の装置全体の動きを伴っていた場合、CPU150は、以下のような処理を実行する。即ち、CPU150は、映像フレーム411と共に表示した際の位置関係が適切となるよう、装置運動データの履歴を基に各音源位置の修正を行う。例えば、撮像系から見て右から左に移動している発音源を、パンニングしながら常に映像信号の中心に捉えていた場合、装置本体と共にマルチマイクも動くため音源方向は常に真正面として検出される。しかしこれでは、タイムカーソル401を置いた映像フレームにおいて、音源軌跡は動きのない重なった一点として表示されてしまう。そこで、CPU150は、装置運動データの履歴を基に各時間フレームの音源位置を修正することで、前記映像フレームにおいて発音源が右から左に移動するような音源軌跡を得ることができる。
なお、CPU150は、S202の音源分離とS203の表示とを、音源分離のパラメータを調整しながら繰り返し試行してもよい。
図2の説明に戻る。
S204では、CPU150は、S203で表示した分離信号や音源軌跡についてユーザからの編集操作等に応じて、編集を行う。本ステップの編集結果は、元となる映像音響データファイルに統合されて記憶部102に逐次保存される。
まず、分離信号に関する編集について説明する。
映像表示領域410上で、例えば音源位置441をタッチすると人の声の音源を選択した状態となり、同時に対応する分離信号431の全体を編集するための小ウィンドウが傍に表示される。ユーザはこの小ウィンドウにおいて、音量のスライダバーのつまみを動かすことで音量を調整したり、イコライザを選択して適用したり、反射・残響を付加したりする等、分離信号431の全体に対して編集操作を行うことができる。
画角外音源の画像表示によれば、音源位置444の示す音源は画角外でも鳥の鳴き声であると一目瞭然に分かるため、音量制御等の編集判断を素早く行うことができる。また、画角外でも画像表示されない音源位置445の示す音源についても、撮影中ずっと画角外であったことは分かるため、不要音と予想してミュートする等、編集操作の効率化につながる。
なお、編集ウィンドウ400のメニューから、ミキサウィンドウを選択して表示することにより、同ウィンドウ上で分離信号431〜435の音量バランスを調整することもできる。
音源位置441をタッチして人の声の音源が選択されると、分離信号431のトラックの枠が強調される等、ユーザにとって編集対象が明確な状態となる。ここで、分離信号431の全体ではなく部分に対して編集を行いたい場合は、まず分離信号431のトラック上で始点となる点をタッチし、そのままドラッグして終点となる点で離す。これにより、分離信号431の始点と終点とで挟まれる部分を編集する小ウィンドウが傍に表示される。ユーザはこの小ウィンドウにおいて、フェードインやフェードアウトといった音量の時間変化を設定したり、イコライザや反射・残響を設定したりする等、分離信号431の選択部分に対して編集を行うことができる。
次に、音源軌跡に関する編集について説明する。
映像表示領域410において、例えば、ユーザが音源位置444を終点とする音源軌跡上を素早く2回タッチすると、CPU150は、鳥の声の音源軌跡を選択した状態とする。これにより、ユーザは編集操作を行うことができるようになる。即ち、ユーザは音源軌跡を構成する音源位置の履歴のうち、円表示されている音源位置を代表点としてドラッグにより動かせるようになる。音源軌跡の代表点を動かすことで音源軌跡の曲線が変形され、それによって音源軌跡を構成する各音源位置が更新される。
画角外音源の画像表示によれば、音源位置444の示す音源は画角外でも飛んでいる鳥であると一目瞭然に分かるため、音源軌跡の編集判断を迅速に行うことができる。
なお、音源軌跡を選択した状態になると、CPU150は、対応する分離信号の音源軌跡に当たる部分を編集する小ウィンドウを傍に表示する。ユーザはこの小ウィンドウにおいて、上述した分離信号の選択部分に対する編集と同様に、分離信号の音源軌跡に当たる部分に対して編集を行うことができる。
また、本ステップの分離信号や音源軌跡の編集において、ユーザはタイムカーソル401をドラッグすることで任意の場所に置くよう指示することができる。タイムカーソル401が指す時間フレームが変わると、それに応じて映像フレーム411や、音源位置・軌跡といった映像表示領域410の表示内容も更新される。画角外音源の画像表示においては、方法によって参照フレームも選択し直される場合があり、それに応じて参照画像や参照カーソルの表示も更新される。
なお、本ステップで編集した音源軌跡の各音源位置は、映像フレーム411と共に表示した際の音源位置ではなく、各音源位置の時間フレームに対応する各映像フレームと共に表示する際の音源位置で保存される。このため、撮像系のズーム倍率の変更やパンニング等の装置全体の動きを伴う場合は、CPU150は、それらの履歴データを基に前記前者の音源位置を前記後者の音源位置に対応付ける。
なお、本ステップにおける映像信号上での音源位置の編集は、再生時に用いる音源方向の編集を間接的に行っているといえる。
ここで、図4(a)のように映像表示領域410の平面座標系で音源位置を編集する方法の他に、方位角及び仰角をパラメータとする球座標系で音源方向を直接編集する方法がある。その場合、CPU150は、方位角と仰角でメッシュを切った3次元の球を映像表示領域410に表示し、映像フレーム411をその画角に対応する球面上の領域に、方位角と仰角で表される音源方向を持った音源を球面上の一点に表示する。
映像表示領域410において、ユーザは球の表示角度を任意に変えることができる。また、音源プロパティとして音源方向に加えて音源距離を得られている場合は、音源を球の半径方向に動かすことで音源距離の編集を行うこともできる。
方位角及び仰角をパラメータとする球座標系では、映像フレーム411は歪曲して球面上の領域に表示されるが、音源方向の編集に関しては現実の三次元空間との対応がわかり易くなる。ユーザは編集ウィンドウ400のメニューにおいて、編集で用いる編集座標系の選択を行うことができる。又は、映像表示領域410の平面座標系で音源軌跡が選択された場合、CPU150が自動的に球座標系に切り替えるようにしてもよい。
S205では、CPU150がS204で編集した分離信号や音源軌跡を基にレンダリングを行い、再生用のレンダリング音響信号を生成する。
まず、CPU150は、各映像フレームにおける編集後の音源位置を、再び音源方向の表現に戻す。
編集後の音源位置(Xs、Ys)が、映像表示領域410において映像フレームの境界内である、つまり各映像フレームの水平画角2θv及び垂直画角2φvの範囲に収まる場合は、以下のようになる。即ち、式(3)と式(4)とをそれぞれθsとφsについて解き、再生用の音源方向であることを表すために方位角θsp及び仰角φspと表記すれば、次の式(8)と式(9)とが得られる。
θsp=arctan(Xs×tan(θv)/Wv) 式(8)
φsp=arctan(Ys×tan(φv)/Hv) 式(9)
また編集後の音源位置が、映像表示領域410において映像フレームの境界外である、つまり各映像フレームの画角範囲から外れる場合は、以下のようになる。即ち、式(5)と式(6)とをそれぞれθsとφsとについて解き、θsp及びφspと表記すれば、次の式(10)と式(11)とが得られる。
θsp=sgn(Xs)×(θv+(θm−θv)×(|Xs|−wv)/(Wm−wv)) 式(10)
φsp=sgn(Ys)×(φv+(φm−φv)×(|Ys|−Hv)/(Hm−Hv)) 式(11)
以上のように、各映像フレームにおける編集後の音源位置から再生用の音源方向を算出できるため、これを基に分離信号のバイノーラル化を行う。より具体的には、CPU150は、時間フレームごとに、再生用の音源方向に対応する左右各耳のHRTFを分離信号に畳み込んで行き、バイノーラル信号となる再生用のレンダリング音響信号を生成する。なお、標準的なHRTFデータは記憶部102が有しているものとする。また、CPU150は、音源プロパティとして音源距離が得られている場合は、編集後の音源距離に対応する遅延をHRTFに加えたり、距離減衰によるスペクトル変化を加味したりしてもよい。
ここで、S204で述べた編集用の各小ウィンドウには、再生/停止ボタンが付いているものとする。再生ボタンがタッチされると、CPU150は、編集中の音源のレンダリング音響信号を生成する。そして、音響信号出力部142は、生成されたレンダリング音響信号をDA変換及び増幅する。そして、音響信号再生部143は、レンダリング音響信号の再生を行う。このとき同期して、対応する映像フレームも映像表示領域410で表示再生される。
なお、CPU150は、各映像フレームにおいて存在する音源の音源方向に応じて、映像表示領域410の表示を動的に変化させてもよい。例えば、CPU150は、画角内の音源しか存在しないときは、映像フレームを映像表示領域410の全面に大きく表示する。また、CPU150は、画角外に音源が存在するときは、全音源方向の最大絶対値が大きいほど画角外領域412を増やし、映像フレームは小さく表示する。このような映像信号の拡縮は、例えば監視カメラにおいて画角外で音が発生した場合に、その映像を捉えるようテレ側からワイド側まで(焦点距離の一番大きい方から一番小さい方)に遷移するイメージに近い。
また、CPU150は、編集ウィンドウ400のメニューから、プレーヤウィンドウが選択されるとプレーヤウィンドウを表示する。プレーヤウィンドウの再生ボタンがタッチされると、全音源即ち分離信号トラック430の全ての分離信号についてバイノーラル化が行われ、それらを合成したレンダリング音響信号が生成及び再生される。このとき、例えば特定の分離信号のトラックを一定時間タッチされることで、CPU150は、アクティブな状態と非アクティブな状態とを切り替え可能としてもよい。また、非アクティブな状態の場合、CPU150は、バイノーラル化を無効にしてレンダリング音響信号に含まれないようにしてもよい。
レンダリング音響信号を生成するためのレンダリング方式をバイノーラルレンダリングとしていた。ここで、音響信号再生部143がヘッドフォンではなく、ステレオ2chやサラウンド5.1chといったスピーカである場合は、レンダリング方式をトランスオーラルレンダリングとする方が好適である。より具体的には、各スピーカからユーザの左右各耳までの伝達関数を測定するモードを設け、バイノーラル信号がそのまま左右各耳において再現されるように、クロストークキャンセルの機能を含むトランスオーラルフィルタを構成して適用する。この他にも音源方向を用いるレンダリング方式として、ステレオパンニングに基づくステレオレンダリングや、サラウンドパンニングに基づくサラウンドレンダリング等が利用可能である。
ユーザは編集ウィンドウ400のメニューにおいて、音響信号再生部143の構成やユーザの好みに応じて、レンダリング方式を選択することができる。
S204の編集とS205のレンダリングとは、ユーザが結果に満足するまで繰り返し行われる。
編集終了後、CPU150は、映像音響データファイルとはまた別に、映像信号とレンダリング音響信号とを併せて一般に再生可能な形式でファイル出力し、記憶部102に保存してもよい。ここで、記憶部102は着脱可能であってもよいし、システムコントローラ100において記憶部102と相互に結ばれたデータ入出力部から、外部にファイルを転送できるようにしてもよい。
なお、CPU150は、S201の撮影と同時に、S202の音源方向の取得と、S203で詳述した音源位置・軌跡の表示とを行うようにしてもよい。これにより、ユーザは音源の位置や軌跡を視覚的に確認しながら撮影を行うことができる。この場合、撮像系が捉えている映像信号を映し出す入出力GUI部131の全面を、映像表示領域410として用いることになる。このとき、S205で述べたように、CPU150は、映像表示領域410の表示を動的に変化させてもよい。
なお、S201における映像信号や音響信号の取得、S202における音源方向や分離信号の取得、S203における音源位置の算出は、必ずしも信号処理装置で行わなくても、信号処理装置と通信可能な情報処理装置等で行ってもよい。例えば、情報処理装置は、映像信号をコンピュータグラフィックスで作成したり、映像信号に合わせた効果音として、分離信号に対応する音源信号や、その音源位置・軌跡を作成したりしてもよい。その場合、システムコントローラ100のデータ入出力部が、作成データを外部の情報処理装置から取得することになる。また、HRTFやBGMのように、ユーザごとに適するものを選んだ方が好適なデータについても、信号処理装置は、データ入出力部を通じて例えば外部ネットワーク上のデータベースから取得するようにしてもよい。
以上説明した本実施形態によれば、表示中の映像フレームで音源が画角外の場合に、音源が画角内にある参照フレームから参照画像を取得して表示することで、音源が何か一目瞭然となるため効率的な編集を行うことができる。
<その他の実施形態>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読み出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
以上、上述した各実施形態によれば、表示中の映像フレームで音源が画角外の場合であっても、効率的な編集を可能とすることができる。
100 システムコントローラ
150 CPU

Claims (17)

  1. 撮像手段による撮像に基づいて生成された画像を取得する画像取得手段と、
    前記撮像手段による撮像と共に行われる収音手段による収音に基づく音響信号に対応する音源であって、前記画像取得手段により取得される第1画像に含まれない音源の、置及び方向の少なくとも何れかを特定する特定手段と、
    前記画像取得手段により取得される前記第1画像を表示部に表示させると共に、前記第1画像に係る撮像時点とは異なる時点における前記撮像手段による撮像に基づく第2画像であって前記音源の少なくとも一部を含む前記第2画像を、前記表示部内の表示位置であって前記特定手段により特定された前記音源の位置及び方向の少なくとも何れかに応じた表示位置に表示させる表示制御手段と
    を有することを特徴とする情報処理装置。
  2. 前記特定手段は、前記収音手段による収音に基づく音響信号を用いて、前記音源の位置及び方向の少なくとも何れかを特定することを特徴とする請求項1に記載の情報処理装置。
  3. 前記表示制御手段は、前記表示部内の表示位置であって前記第1画像が表示される領域の外の表示位置に前記第2画像を表示させることを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記表示制御手段は、前記第2画像を前記第1画像に重畳させて前記表示部に表示させることを特徴とする請求項1又は2に記載の情報処理装置。
  5. 前記表示制御手段は、前記第1画像と前記第2画像の表示と共に、前記音源の位置を示す情報を表示させることを特徴とする請求項1乃至4の何れか1項に記載の情報処理装置。
  6. 前記表示制御手段は、前記第1画像と前記第2画像の表示と共に、前記音源の位置の軌跡を示す情報を表示させることを特徴とする請求項1乃至5の何れか1項に記載の情報処理装置。
  7. 前記画像取得手段により取得される動画を構成する複数のフレームであって前記第1画像に対応する第1フレームを含む複数のフレームから、前記音源の少なくとも一部の画像を含む第2フレームを選択する選択手段を更に有し、
    前記表示制御手段は、前記第1画像の表示と共に、前記選択手段により選択される前記第2フレームに基づく画像を前記第2画像として前記表示部に表示させることを特徴とする請求項1に記載の情報処理装置。
  8. 前記選択手段は、前記動画を構成する複数のフレームから、前記音の画が中心から所定の範囲内に含まれるフレームを前記第2フレームとして選択することを特徴とする請求項7に記載の情報処理装置。
  9. 前記選択手段は、前記動画を構成する複数のフレームに前記音源の画像を含むフレームが複数含まれる場合に、前記音源の画像を含む複数のフレームそれぞれに対応する撮像時点に基づいて前記第2フレームを選択することを特徴とする請求項7又は8に記載の情報処理装置。
  10. 前記選択手段は、前記動画を構成する複数のフレームに前記音源の画像を含むフレームが複数含まれる場合に、前記音源の画像を含む複数のフレームそれぞれに対応する撮像時点と前記第1フレームに対応する撮像時点とに基づいて前記第2フレームを選択することを特徴とする請求項7乃至9の何れか1項に記載の情報処理装置。
  11. 前記選択手段は、前記動画を構成する複数のフレームに前記音源の画像を含むフレームが複数含まれる場合に、前記音源の画像を含む複数のフレームそれぞれにおける前記音源の位置に基づいて前記第2フレームを選択することを特徴とする請求項7乃至10の何れか1項に記載の情報処理装置。
  12. 前記選択手段は、前記動画を構成する複数のフレームに前記音源の画像を含むフレームが複数含まれる場合に、前記音源の画像を含む複数のフレームのうちユーザによる指定に応じたフレームを前記第2フレームとして選択することを特徴とする請求項7乃至11の何れか1項に記載の情報処理装置。
  13. 撮像手段による撮像対象領域の撮像に基づいて生成された画像を取得する画像取得手段と、
    前記撮像手段による撮像と共に行われる収音手段による収音に基づく音響信号に対応する音源であって、前記画像取得手段により取得される第1画像に含まれない音源の、位及び方向の少なくとも何れかを特定する特定手段と、
    前記画像取得手段により取得される前記第1画像を表示部内の第1表示領域に表示させ、且つ、前記特定手段により特定される前記音源の位置及び方向の少なくとも何れかに応じた前記表示部内の表示位置であって前記第1表示領域の外側に位置する第2表示領域内の表示位置に、前記音源を表す第2画像を表示させる表示制御手段と
    を有することを特徴とする情報処理装置。
  14. 記音源の位置に基づいて前記第2表示領域の大きさを決定する決定手段を更に有し、
    前記表示制御手段は、前記決定手段により決定される大きさの前記第2表示領域内に前記第2画像を表示させることを特徴とする請求項13に記載の情報処理装置。
  15. 撮像手段による撮像に基づいて生成された画像を取得する画像取得工程と、
    前記撮像手段による撮像と共に行われる収音手段による収音に基づく音響信号に対応する音源であって、前記画像取得工程において取得される第1画像に含まれない音源の、位置及び方向の少なくとも何れかを特定する特定工程と、
    前記画像取得工程において取得される前記第1画像を表示部に表示させると共に、前記第1画像に係る撮像時点とは異なる時点における前記撮像手段による撮像に基づく第2画像であって前記音源の少なくとも一部を含む前記第2画像を、前記表示部内の表示位置であって前記特定工程において特定された前記音源の位置及び方向の少なくとも何れかに応じた表示位置に表示させる表示制御工程と
    を含むことを特徴とする情報処理方法。
  16. 撮像手段による撮像対象領域の撮像に基づいて生成された画像を取得する画像取得工程と、
    前記撮像手段による撮像と共に行われる収音手段による収音に基づく音響信号に対応する音源であって、前記画像取得工程により取得される第1画像に含まれない音源の位置及び方向の少なくとも何れかを特定する特定工程と、
    前記画像取得工程により取得される前記第1画像を表示部内の第1表示領域に表示させ、且つ、前記特定工程により特定される前記音源の位置及び方向の少なくとも何れかに応じた前記表示部内の表示位置であって前記第1表示領域の外側に位置する第2表示領域内の表示位置に、前記音源を表す第2画像を表示させる表示制御工程と
    を含むことを特徴とする情報処理方法。
  17. コンピュータを、請求項1乃至14の何れか1項に記載の情報処理装置の各手段として機能させるためのプログラム。
JP2015018723A 2015-02-02 2015-02-02 情報処理装置、情報処理方法及びプログラム Active JP6456171B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015018723A JP6456171B2 (ja) 2015-02-02 2015-02-02 情報処理装置、情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015018723A JP6456171B2 (ja) 2015-02-02 2015-02-02 情報処理装置、情報処理方法及びプログラム

Publications (3)

Publication Number Publication Date
JP2016144044A JP2016144044A (ja) 2016-08-08
JP2016144044A5 JP2016144044A5 (ja) 2018-05-10
JP6456171B2 true JP6456171B2 (ja) 2019-01-23

Family

ID=56568956

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015018723A Active JP6456171B2 (ja) 2015-02-02 2015-02-02 情報処理装置、情報処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6456171B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11431893B2 (en) * 2018-10-18 2022-08-30 Panasonic Intellectual Property Management Co., Ltd. Imaging apparatus
CN110225401B (zh) * 2019-07-12 2022-04-29 青岛一舍科技有限公司 一种可调整视角的视频播放方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4722347B2 (ja) * 2000-10-02 2011-07-13 中部電力株式会社 音源探査システム
JP5189536B2 (ja) * 2009-03-26 2013-04-24 池上通信機株式会社 監視装置
JP2013106298A (ja) * 2011-11-16 2013-05-30 Sony Corp 撮像制御装置、撮像制御方法、撮像制御方法のプログラムおよび撮像装置
JP2013240000A (ja) * 2012-05-17 2013-11-28 Kyocera Corp 電子機器、録音制御プログラムおよび録音制御方法

Also Published As

Publication number Publication date
JP2016144044A (ja) 2016-08-08

Similar Documents

Publication Publication Date Title
AU2022204210B2 (en) Virtual and real object recording in mixed reality device
EP2831873B1 (en) A method, an apparatus and a computer program for modification of a composite audio signal
JP5198530B2 (ja) 音声付き動画像呈示装置、方法およびプログラム
US10798518B2 (en) Apparatus and associated methods
US20190139312A1 (en) An apparatus and associated methods
KR20200087130A (ko) 신호 처리 장치 및 방법, 그리고 프로그램
JP6456171B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2016109971A (ja) 信号処理装置および信号処理装置の制御方法
US11503226B2 (en) Multi-camera device
JP2005295181A (ja) 音声情報生成装置
WO2017026387A1 (ja) 映像処理装置、映像処理方法および記録媒体
JP2023104156A (ja) 音編集システム、音編集方法および音編集プログラム
JP6966165B2 (ja) 映像音声信号処理装置、その方法とプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180326

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180711

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180717

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180910

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181218

R151 Written notification of patent or utility model registration

Ref document number: 6456171

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151