JP2016109971A - 信号処理装置および信号処理装置の制御方法 - Google Patents

信号処理装置および信号処理装置の制御方法 Download PDF

Info

Publication number
JP2016109971A
JP2016109971A JP2014248966A JP2014248966A JP2016109971A JP 2016109971 A JP2016109971 A JP 2016109971A JP 2014248966 A JP2014248966 A JP 2014248966A JP 2014248966 A JP2014248966 A JP 2014248966A JP 2016109971 A JP2016109971 A JP 2016109971A
Authority
JP
Japan
Prior art keywords
sound source
angle
view
signal
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014248966A
Other languages
English (en)
Inventor
典朗 多和田
Noriaki Tawada
典朗 多和田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2014248966A priority Critical patent/JP2016109971A/ja
Publication of JP2016109971A publication Critical patent/JP2016109971A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Closed-Circuit Television Systems (AREA)

Abstract

【課題】画角内音源と同様の感覚で画角外の音源軌跡を編集できるようにする。【解決手段】映像信号と時間的に同期した音源の音源信号、および前記映像信号の座標と対応付けられた音源位置を取得する取得手段と、前記映像信号の画角を境界として、前記音源が画角内の場合は前記映像信号を構成する映像フレーム上に前記音源位置を表示し、前記音源が画角外の場合は映像フレーム外に前記音源位置を表示手段に表示させる制御手段とを有し、前記音源が前記画角内であるかまたは前記画角外の場合であるかに応じて、前記取得手段および前記制御手段のうちの少なくともいずれか一方の処理の方法を変えるようにする。【選択図】図4

Description

本発明は信号処理装置および信号処理装置の制御方法に関し、特に、映像信号と音響信号を連動して編集処理する信号処理装置に関する。
近年、映像技術の発展とともに、映像に付随する音響にも目を向けた技術開発が加速している。特許文献1では、監視カメラにおいて音響信号から音源を分離し、映像信号上に画角内外の音源の位置や軌跡を表示できるようにしている。
また、映像やユーザの感覚に見合った音響処理の方法も検討されている。特許文献2では、カムコーダ等において音響信号から分離した音源ごとに分離信号の音量調整を行う際に、音源方向と音源種類に基づいて、各分離信号の音量の上限増幅量を定めている。これによって、映像画角に対応し得る正面方向の音源は増幅可能となり、雑音と判定された音源は抑制されるなど、ユーザの感覚に合った音量調整を実現している。また、特許文献3には音源の軌跡を編集する方法が述べられており、映像信号と同期再生する際の臨場感を高めるような効果音を作成することができる。
特開2010−232888号公報 特開2010−187363号公報 特開平7−222299号公報
カムコーダ等によって映像信号と同時に音響信号を取得した際、音響信号に音源分離を施すことによって、音響信号に含まれる音源ごとに音源方向や分離信号を得ることが可能である。ただし、各分離信号はモノラル信号となるため、ユーザが例えばヘッドフォンで音を聴く場合に、各分離音源の分離信号がそれぞれの音源方向から聴こえるようにするためには、モノラル信号のバイノーラル化を行う必要がある。
すなわち、モノラル信号である分離信号ごとに、各音源方向に対応する左右各耳の頭部伝達関数(以下、HRTF:Head-Related Transfer Function)を畳み込み、それらを合成することでバイノーラル信号を生成する。これをレンダリング音響信号として映像信号と同期して再生することで、視聴しているユーザは映像信号上の各音源の方向から音が聞こえてくるような立体音響効果により、高い臨場感を得ることができる。
前述のレンダリング音響信号は、音源分離で得られた各分離信号の音源方向をそのまま再現したものである。そこで、各音源方向の時間的な履歴に対応する音源軌跡について、立体音響効果をより強調するためには、音源軌跡に編集を加えることが考えられる。ここで、映像信号取得時の画角という方向に関する情報が、画面表示される映像信号の四辺の平面座標と対応していることを考える。
すると、各分離音源の音源方向を映像信号の平面座標系で表して音源位置とし、画面上の映像信号に対応付けて音源位置を表示することが可能であるとわかる。これより、音源位置の時間的な履歴である音源軌跡を画面上の映像信号に合成表示し、さらにユーザの操作を受け付けるグラフィカルユーザインターフェース(以下、GUI)を設ければ、映像信号上で音源軌跡を編集するシステムが構築できる。また、このような編集のシステムによれば、画面上の音源位置を指定することで編集対象とする分離音源を選択し、ユーザの感覚に合わせて音量を制御することで、強調、抑制、ミュートといった音響処理を行うことも可能である。
以上のようなシステムにおいては、音源が映像に映る画角内の場合と、映像に映らない画角外の場合を分けて考えることが望ましい。しかしながら、従来技術には以下に示すような課題があった。
すなわち、特許文献1においては、音源が画角外の場合に映像信号の縁辺にマークを表示することで表現していた。しかしこれでは、例えば音源方向が水平画角から外れている場合、横方向も後ろ方向も同じ表示となるため区別できない。またこのとき、音源方向の方位角と仰角のうち、表示において前者の情報が失われていることになるため、画角内の音源のような音源軌跡の編集を行うことができなくなってしまう。
また、いくら立体音響効果を強調するためとはいえ、音源軌跡を完全に自由に編集できるようにしてしまうと、次のような弊害が生じる。例えば、映像信号上で右から左に動いている音源の音源軌跡を、左から右に動くように編集してしまうと、再生時に映像と音のギャップを生じて、視聴しているユーザに大きな違和感を与えてしまう。
前述は少し極端な例だが、立体音響効果を強調しようとするあまり音源軌跡の編集量が大きくなって、いざ映像と一緒に再生してみると違和感を覚えるというケースは少なくないと思われる。
一方で、音源位置が映像信号の画角範囲から外れる場合には、映像信号に音源は映っていないため、そのときの音源軌跡を大きく編集しても再生時に違和感を覚えることなく、有効に立体音響効果を強調できると考えられる。
しかし、音源位置の時間的な履歴である音源軌跡の編集において、映像信号との関係に応じて音源位置の移動可能範囲を制御するような先行技術は見当たらない。
特許文献2では、撮像装置の画角範囲に対応し得る正面方向の音源について、音量調整における上限増幅量を大きくしているが、音源軌跡の編集については触れられていない。
特許文献3では、音源軌跡の編集において映像信号も表示されるが、設定音源位置が映像信号上に合成表示されるわけではなく、軌跡の編集において映像信号と関係するような制限も見当たらない。
本発明は前述の問題点に鑑み、画角内音源と同様の感覚で画角外の音源軌跡を編集できるようにすることを目的とする。
本発明の信号処理装置は、映像信号と時間的に同期した音源の音源信号、および前記映像信号の座標と対応付けられた音源位置を取得する取得手段と、前記映像信号の画角を境界として、前記音源が画角内の場合は前記映像信号を構成する映像フレーム上に前記音源位置を表示し、前記音源が画角外の場合は映像フレーム外に前記音源位置を表示手段に表示させる制御手段とを有し、前記音源が前記画角内であるかまたは前記画角外の場合であるかに応じて、前記取得手段および前記制御手段のうちの少なくともいずれか一方の処理の方法を変えることを特徴とする。
本発明によれば、画角内音源と同様の感覚で画角外の音源軌跡を編集することが可能となる。
本発明の実施形態に係る信号処理装置の構成例を示すブロック図である。 本発明の実施形態に係る信号処理装置の処理の流れを示すフローチャートである。 本発明の実施形態に係る音源位置の算出例を説明するための図である。 本発明の実施形態に係る音源位置の算出例を説明するための図である。 本発明の実施形態に係る音源軌跡の編集処理を説明するための図である。 本発明の実施形態に係る音源位置と移動可能量の関係例を示す図である。 本発明の実施形態に係る画角外音源の位置表示に係る代表的な処理手順を説明するフローチャートである。 本発明の実施形態に係る音源位置に応じた移動可能範囲の抑制の代表的な処理手順を説明するフローチャートである。
以下、添付の図面を参照して、本発明をその好適な実施形態に基づいて詳細に説明する。なお、以下の実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。
<第1の実施形態>
図1は、本発明の実施形態に係る信号処理装置の構成例を示すブロック図である。図1に示す信号処理装置は、主たるシステムコントローラ100の中に、全構成要素の統御を行うシステム制御部101、各種データを記憶しておく記憶部102、信号の解析処理を行う信号解析処理部103を備える。
撮像系の機能を実現する要素としては、撮像部111、映像信号入力部112を備える。撮像部111は、入射する光に光電変換を施してアナログ映像信号を生成する。映像信号入力部112は、撮像部111からのアナログ映像信号にAD変換とゲイン調整を施して、所定の映像フレームレートに対応する周期でデジタル映像信号を生成する。
収音系の機能を実現する要素としては、収音部121、音響信号入力部122を備える。本実施形態において収音部121は、立方体頂点となる位置関係にマイク素子を配置した、8chマルチマイクで構成されるものとする。ここで、各マイク素子の配置位置を記述するためのマルチマイク座標系は、原点を撮像系における画角の起点に取り、1つの軸を撮像部111の光軸と一致させ、残りの2軸を撮像系で捉える映像信号の水平方向と垂直方向に対応するように取る。
本実施形態においては、前述の立方体の中心がマルチマイク座標系の原点となるよう8chマルチマイクを構成する。音響信号入力部122は、収音部121の各マイク素子からのアナログ音響信号に増幅およびAD変換を施して、所定の音響サンプリングレートに対応する周期でデジタル音響信号である8chマルチマイク信号を生成する。なお、マイク素子の数は必ずしも8個である必要はなく、複数あればよい。また、配置も任意で構わない。
ユーザの操作を受け付けたり、ユーザに操作メニューや映像信号などを提示したりするための要素としては、入出力GUI部131、表示生成部132を備える。本実施形態において、入出力GUI部131はタッチパネルで構成されるものとする。
音響再生系の機能を実現する要素としては、音響信号生成部141、音響信号出力部142、音響信号再生部143を備える。本実施形態において、音響信号再生部143はヘッドフォンで構成されるものとする。
なお、煩雑になるため主要な結線しか示していないが、図1の信号処理装置を構成する各ブロックはバスを介して結ばれているものとする。
以下、図2のフローチャートに沿って、本実施形態の信号処理装置における処理の流れを詳細に説明する。
S201では、システム制御部101は、ユーザが撮影を行うことにより生成される映像信号および映像信号と時間的に同期した音響信号を取得する、映像信号取得処理および音響信号取得処理を行う。
撮影モードとなっている入出力GUI部131の画面上には、撮像系が捉えている映像信号がリアルタイムに映し出されている。このとき、ズーム倍率を示す画面上のスライダバーのつまみを動かすことで、その値がモニタリングしているシステム制御部101に伝えられるので、撮像系は指定されたズーム倍率に応じて画角を広げたり狭めたりすることに対応する処理を行う。
デジタルズームなら映像信号入力部112で、光学ズームなら撮像部111で処理を行うが、後者の場合は画角の起点の移動を伴うため、収音部121はマルチマイクの立方体中心が常に画角の起点と一致するような機構を備えていると好適である。もしくは、マルチマイク座標系を原点が常に画角の起点と一致するよう立方体中心から平行移動させていき、その座標系で各マイク素子の配置位置を逐次記述する。
ユーザは、撮影を開始したいシチュエーションになったら、入出力GUI部131上に表示されているメニューから、「撮影開始」をタッチして選択する。選択されたメニューの情報はコマンドとしてシステム制御部101に送信されるので、表示生成部132は撮影中であることを示す表示を生成して、入出力GUI部131の画面上に映像信号と合成して表示する。
同時に、撮像系で捉えている映像信号、および収音系で捉えている音響信号の記憶部102への記録が開始される。このとき、映像信号に付随するデータとして、撮像系のズーム倍率および対応する画角の履歴も記録される。また、音響信号に付随するデータとして、収音部121の各マイク素子の配置位置データも記録される。なお、撮影においてパンニングといった装置全体の動きを伴う場合は、不図示の装置運動検知センサによって装置運動データの履歴を取得し、併せて記録しておくことが望ましい。
ユーザは、入出力GUI部131上に表示されているメニューから、「撮影終了」をタッチして選択することで撮影を終了する。
S202では、信号解析処理部103が中心となって、S201で取得した音響信号に音源分離を施し、音響信号に含まれる音源ごとに音源方向や分離信号を得る音源プロパティ取得処理を行う。
入出力GUI部131を撮影モードからデータモードに切り替えると、S201で取得した映像信号、音響信号、および付随するデータが、一回の撮影ごとにまとめられて映像音響データファイルとして表示される。この中から対象とする映像音響データファイルを選択すると、「音源プロパティ取得」のメニューが表示されるため、これを選択することで映像音響データファイルの音響信号の音源分離が行われる。
本実施形態においては、音源分離の前段として音源定位を行うものとし、音響信号である8chマルチマイク信号、および対応する各マイク素子の配置位置データを用いて音源定位・分離を行う。
音源定位・分離は公知技術であるため詳述はしないが、音源定位については例えば、部分空間法に分類されるMUSIC法を用いることができる。これにより、マルチマイクの立方体中心を原点とするマルチマイク座標系において、各音源の方位角と仰角を音源方向として検出することが可能である。このとき、音波の伝搬モデルを平面波モデルではなく球面波モデルとすれば、音源方向に加えて音源距離を取得することもできる。
また、音源分離については例えば、音源定位で得た音源方向といった情報を幾何学的拘束条件として用いる、幾何学的音源分離を利用することができる。これによって、音源定位された各音源に対応する分離信号を得ることができる。
本実施形態においては、前述のように音源分離の過程で得られる音源ごとの音源方向や分離信号を総称して、各分離音源の音源プロパティと呼ぶものとする。
なお、音源定位・分離にはビームフォーマや、独立成分分析に基づくブラインド音源分離といった他の手法を用いてもよい。
本実施形態において、音源定位・分離は、所定の音響サンプリングレートで取得された各chマイク信号を、所定の時間フレーム長に対応するサンプル数ずつシフトしながら用いることで行うものとする。すなわち、各分離音源について時間フレームごとに、音源方向および時間フレーム長分の分離信号が得られる。ここで、時間フレーム長を映像フレームレートに対応する周期に合わせることで、映像信号を構成する映像フレームに対応させて、各分離音源の音源方向を得ることができる。
なお、音源が発する音に無音区間があると、そこで音源定位が途切れるため分離信号も途切れ、再び有音区間となったときに新たに音源定位・分離が開始されるということがある。このように、無音区間を挟んで2組の音源プロパティが得られるような場合、同一の音源に由来する音源プロパティは、内部的に同じ音源IDを割り当ててまとめておいた方が、後のステップの音源プロパティ編集において都合がよい。
2組の音源プロパティが同一の音源に由来するものか判定し、音源プロパティの紐付けを行う方法として、いくつかの方法が考えられる。例えば、音源プロパティのうち音源方向に着目し、2つの音源方向履歴を間の無音区間についてそれぞれ外挿して、2つの外挿曲線が概ね一致していれば同一の音源に由来すると判定できる。
これは、音源の動きの連続性を見ていることに相当する。または音源プロパティのうち分離信号に着目し、2つの分離信号の特徴量を比較することで判定する。もちろん、これらの方法の複合によって判定してもよい。このように、同一の音源に由来すると判定される音源プロパティをまとめることで、分離音源の数を抑えるとともに、各分離音源に対応する音源プロパティの時間フレーム数をなるべく多くすることができる。
以上のようにして取得した分離音源ごとの音源プロパティは、もととなる映像音響データファイルに統合されて記憶部102に保存される。
S203では、表示生成部132が中心となって、S202で取得した分離音源ごとの音源方向や分離信号について、編集を開始するための表示を行う。
S202で音源プロパティの取得を行った映像音響データファイルは、選択時に「音源プロパティ編集」のメニューが表示されるようになるため、これを選択することで図4(a)に示すような音源プロパティの編集ウィンドウ400が立ち上がる。
編集ウィンドウ400内の映像トラック420には、映像音響データファイルの映像信号のサムネイルが表示される。例えば、映像信号を構成する映像フレームから、所定数の映像フレームごとに代表となる映像フレームを選択し、その縮小画像をサムネイルとして映像トラック420上に配置する。
分離信号トラック430には、映像音響データファイルに統合された音源プロパティの分離信号の波形が描画される。この例の場合、音源プロパティにおいて別々と見なされた分離音源の数は5であるため、分離信号431〜435の5つの波形が描画される。このとき、各分離信号が得られた時間フレームに対応させて波形を表示するため、必ずしもトラックの先頭からではなく横方向にシフトさせて表示する。また、無音区間を挟む2組の音源プロパティを紐付けしたような場合は、分離信号の1つのトラックにこま切れの複数の波形が並ぶことになる。
映像トラック420と分離信号トラック430は、信号を時系列に概観するための表示部分なので、秒数といった実際の時間と対応させるために共通のタイムスケールを表示してもよい。
編集ウィンドウ400内の映像表示領域410には、映像音響データファイルの映像信号を構成する映像フレームのうち、タイムカーソル401がある位置に対応する映像フレーム411が表示される。なお、映像トラック420でタイムカーソル401がある映像サムネイル421は、映像フレーム411或いは近傍の映像フレームから生成されたものである。
ここで、各映像フレームにおいて音源プロパティを有する分離音源が存在する場合は、映像表示領域410上での音源位置を算出し、同領域上に合成して表示するようにする。このとき、音源プロパティの音源方向と、映像表示領域410上の座標を対応付ける処理が必要となるため、その考え方について図3A、図3Bを用いて説明する。
映像フレーム411に対応する時間フレームにおいて、ひとつの分離音源が存在する場合を考え、そのときの音源方向の方位角を図3A(a)のようにθsとする。また、映像フレーム411を撮像した時点の水平画角を2θvとする。
一方、映像表示領域410における映像フレーム411の水平画素数を2Wvとする。また、図3A(a)のように水平座標軸Xを取り、分離音源の音源位置の水平座標をXsとする。
まず、水平画角2θvが映像表示領域410上の映像フレーム411の左右の端部、すなわち、映像フレーム端に対応することから、距離Fを用いて次の関係が得られる。
tan(θv)=Wv/F ・・・(1)
また、分離音源の音源方向の方位角θsが、映像表示領域410における音源位置の水平座標Xsに対応するとして、次の関係を得る。
tan(θs)=Xs/F ・・・(2)
式(1)、式(2)よりFを消去することで、Xsの算出式が次のように得られる。
Xs=Wv×(tan(θs)/tan(θv)) ・・・(3)
図3A(b)は、映像フレーム411の水平画角2θv=80°、垂直画角2φv=60°、水平画素数2Wv=2000、垂直画素数2Hv=1000とした場合の例である。音源方向の方位角θsおよび仰角φsに対応する音源位置の水平座標Xsおよび垂直座標Ysを、θsおよびφsが±70°の範囲で10°ごとに示している。なお、各線分の長さは映像フレーム411に合わせている。また、垂直方向の算出式は水平方向の式(3)と同様に得られる。
Ys=Hv×(tan(φs)/tan(φv)) ・・・(4)
θs=±θv=±40°に対応するXs=±Wv=±1000と、φs=±φv=±30°に対応するYs=±Hv=±500で作られる図3A(b)の四角形が、映像フレーム411の境界に相当する。この境界内に映像フレーム411を表示すると、例えば音源方向の方位角θs=30°、仰角φs=20°の分離音源は、式(3)および式(4)によって算出される音源位置(Xs、Ys)に従って、図3A(b)の丸301の位置に表示される。
以上説明したように、画角が映像フレーム端に対応するという関係と、音源の音源方向が音源位置に対応するという関係を連立することで音源位置を得ることができる。
式(3)および式(4)において分母は画角で決まる定数となるが、分子のタンジェントの性質から、音源方向の絶対値が大きいほど、または映像フレーム411の境界に近づくほど、図3A(b)におけるグリッドが粗くなることがわかる。ここで、音響信号から取得した音源プロパティの特長として、映像信号の画角外となる発音源の情報も得られているというものがある。
しかし、図3A(b)からもわかるように、画角外の音源の位置を式(3)、式(4)に従って算出すると、タンジェントの性質から座標の絶対値が非常に大きくなり、映像表示領域410で画角外を示す領域が支配的になってしまう。また、タンジェントは±90°で発散するため、音源方向の方位角が±90°となる真横から後方の範囲、仰角が±90°となる真上と真下については、式(3)、式(4)に基づいて音源位置を算出することはできない。
以上のことを考慮すると、画角外の音源の映像表示領域410における音源位置(Xs、Ys)は、式(3)、式(4)とは別の式によって算出することが望ましい。例えば、映像表示領域410の境界と映像フレーム411の間の画角外領域412に関して、水平方向については方位角当たり、垂直方向については仰角当たりの面積が一定となるよう、以下の式(5)、式(6)のように算出する。
Xs=sgn(θs)×(Wv+(Wm−Wv)×
(|θs|−θv)/(θm−θv)) ・・・(5)
Ys=sgn(φs)×(Hv+(Hm−Hv)×
(|φs|−φv)/(φm−φv)) ・・・(6)
式(5)は音源方向の方位角が|θs|>θvである場合に、式(6)は仰角が|φs|>φvである場合に用いるものとする。ここで、θm=180°、φm=90°、sgnは符号関数である。また、映像表示領域410の水平画素数を2Wm(≧2Wv)、垂直画素数を2Hm(≧2Hv)としている。
図3Bは、2Wm=4000、2Hm=2000とした場合の例である。音源方向の方位角θsおよび仰角φsに対応する音源位置の水平座標Xsおよび垂直座標Ysを、θsが±180°、φsが±90°の範囲で10°ごとに示している。ここで、画角内の音源の音源位置(Xs、Ys)は、図3A(b)と同じく式(3)、式(4)を用いて算出し、画角外の音源位置を式(5)、式(6)を用いて算出している。
例えば、方位角がθ=90°の真横方向で、仰角がφ=−60°の斜め下方の分離音源は、図3B中の三角形302の位置に表示される。また、ほぼ真後ろ方向の分離音源は、図3Bのひし形303の位置に表示される。このように、本実施形態の画角外音源の位置表示によれば、画角外領域を設けて音源方向に応じて配分することで、例えば音源方向の横と後ろを区別して表現することができる。
以上詳述した、本実施形態の画角外音源の位置表示に係る、代表的な処理をフローチャートにまとめると図6のようになる。すなわち、表示中の映像フレーム411において音源方向の得られている各音源に対して、図6のフローチャートの処理を適用する。この処理は、表示生成部132が記憶部102に記憶されたプログラムを実行することで実現する。
S601で、システム制御部101は、音源方向の水平角が水平画角内か否かを判定する。画角内であればS602に進み、画角内用の式(3)を用いて水平角から音源位置の水平座標を算出する。一方、画角外であればS603に進み、画角外用の式(5)を用いて水平座標を算出する。
次にS604で、システム制御部101は、音源方向の仰角が垂直画角内か否かを判定する。画角内であればS605に進み、画角内用の式(4)を用いて仰角から音源位置の垂直座標を算出する。一方、画角外であればS606に進み、画角外用の式(6)を用いて垂直座標を算出する。
続いて、S607で、システム制御部101は、音源方向の水平角と仰角がともに画角内であったか否かを判定する。判定結果が真であればS608に進み、映像フレーム411上に音源位置を表示する。一方、判定結果が偽であればS609に進み、映像フレーム411外の画角外領域412に音源位置を表示する。
なお、式(5)、式(6)では、画角外領域412を方位角および仰角に関して均等に配分していることになる。ここで、図3Bで表されるように画角内外の音源位置を算出する場合、水平方向に一定角速度を持つ移動音源が画角内から画角外に捌けたとすると、画角外となった途端に音源位置の移動速度が急激に遅くなると感じられる可能性がある。
このため、画角境界における音源位置の移動速度の連続性の観点から、画角外の方位角および仰角について、画角境界に近いほど画角外領域412の配分を大きくするようにしてもよい。これは、図3Bの画角内のグリッドとは逆に、音源方向の絶対値が大きいほど画角外のグリッドは細かくすることに対応する。
図4(a)の映像表示領域410の水平軸と垂直軸において、画角外に対応する部分の目盛りは、図3Bと同様に画角外の方位角と仰角について、例えば10°ごとに、水平座標と垂直座標を示した例である。
以上の考え方により、音源プロパティの音源方向から映像表示領域410上での音源位置を算出することができる。本実施形態においては、音源位置も音源プロパティとして扱われ、もととなる映像音響データファイルに統合されて記憶部102に保存される。
以下、分離音源の音源位置の表示について説明する。
まず、タイムカーソル401がある時間フレームにおいて、分離信号431に対応する音源位置が、図4(a)の音源位置441である。この場合、音源方向が画角内であったため映像フレーム上に合成され、その近傍の画像より音源は人の声であることがわかる。
同様に、分離信号432に対応するのが音源位置442であり、その近傍の画像から音源は犬の鳴き声であることがわかる。分離信号433は、タイムカーソル401がある時間フレームでは存在しないため、対応する音源方向の情報も無く、音源位置を表示することはできない。分離信号434に対応するのが音源位置444であり、その近傍の画像から音源は飛んでいる鳥の鳴き声であることがわかる。分離信号435に対応するのが音源位置445であるが、音源方向が画角外であったため映像フレーム外に合成され、音源が何であるか視覚的にはわからない。
なお、図4(a)において、各音源位置は一定の大きさの円で表示しているが、三角や四角、音符やスピーカといった任意の図形や記号、或いは文字や数字を表示してもよいし、映像表示領域410内の輝度等を部分的に変えることで表現してもよい。また、対応する分離信号の音量に応じて大きさや色を変えたり、周波数特性や他の特徴量によって表示を変化させたりしてもよい。さらに、映像フレーム411に顔認識やその他の画像認識技術を適用することで、例えば人や動物の映っている大きさに応じた枠で、画角内の各音源を囲んで表示してもよい。
なお、分離信号トラック430において、分離信号ごとに波形やトラック枠の色を割り当てて描画しておけば、対応する各音源位置をその色で表示することで対応関係が明確になる。或いは、音源IDを示す数字や文字を各分離信号のトラックの先頭に表示するとともに、対応する各音源位置の表示に用いてもよい。
次に、映像フレーム411の時間フレームにおける音源位置だけでなく、他の時間フレームにおける音源方向について、映像フレーム411を表示している映像表示領域410上での音源位置を算出し、併せて表示することを考える。
一例として、タイムカーソル401がある時間フレームから所定数のフレームずつ時間的に遡って行き、それらの各時間フレームにおける音源方向から映像表示領域410上での音源位置を算出して表示する。これにより、例えば図4(a)に示すように音源位置444の過去の音源位置が、同様の表示によって音源位置444の近くに表示される。
このとき、過去の1フレームごとの音源位置を音源位置444と同じように円で表すと、場合によっては円が密集して表示が見辛くなる。そこで、映像フレーム411の時間フレームと同様の表示は、例えば10フレームといった所定数のフレームごとに行う。また、例えば時間的に過去の音源位置ほど色を暗くするようにすると、直感的にわかり易い表示となる。
一方で、1フレームごとの音源位置を点で表し、それらを滑らかに結んで時間の進行方向を表す矢印を付ければ、図4(a)に示すように音源位置の時間的な軌跡を表す矢印曲線が得られる。本実施形態においては、これを音源軌跡と呼ぶ。音源軌跡上に所定数のフレームごとに描画される円の間隔から、音源の移動速度の変化を視覚的に捉えることもできる。
なお、音源軌跡を描く対象とする時間フレームは、映像フレーム411の時間フレームより前のフレームだけでなく、時間的に後のフレームであってもよい。また、対象とする時間の範囲は一定でもよいし、タイムカーソル401がある時間フレームの分離信号が、途切れずつながっている範囲の全時間フレームを対象としてもよい。
また、代表的な音源位置の円などによる表示についても、必ずしも所定数のフレームごとのような等時間間隔でなくてもよく、映像表示領域410上での音源位置に一定の変化が生じた時間フレームで描画するようにしてもよい。これにより、例えば静止している音源は、次のステップの編集において代表となるひとつの音源位置により扱うことができる。
なお、音源軌跡の各時間フレームと映像フレーム411の時間フレームの間に、パンニング等の装置全体の動きを伴っていた場合は、映像フレーム411とともに表示した際の位置関係が適切となるよう、装置運動データの履歴をもとに各音源位置の修正を行う。例えば、撮像系から見て右から左に移動している発音源を、パンニングしながら常に映像信号の中心に捉えていた場合、装置本体とともにマルチマイクも動くため音源方向は常に真正面として検出される。
しかしこれでは、タイムカーソル401を置いた映像フレームにおいて、音源軌跡は動きのない重なった一点として表示されてしまう。そこで、装置運動データの履歴をもとに各時間フレームの音源位置を修正することで、上記映像フレームにおいて発音源が右から左に移動するような音源軌跡を得ることができる。
なお、S202の音源分離とS203の表示は、音源分離のパラメータを調整しながら繰り返し試行してもよい。
S204では、S203で表示した分離信号や音源軌跡についてユーザにより行われる編集に応じて音源プロパティ編集処理が行なわれる。本ステップの編集結果は、システム制御部101により、もととなる映像音響データファイルに統合されて記憶部102に逐次保存される。
まず、分離信号に関する編集について説明する。
映像表示領域410上で、例えば音源位置441をタッチすると人の声の音源を選択した状態となり、同時に対応する分離信号431の全体を編集するための小ウィンドウが傍に表示される。ユーザはこの小ウィンドウにおいて、音量のスライダバーのつまみを動かすことで音量を調整したり、イコライザを選択して適用したり、反射・残響を付加したりするなど、分離信号431の全体に対して編集を行うことができる。
なお、編集ウィンドウ400の不図示のメニューから、ミキサウィンドウを選択して表示することにより、同ウィンドウ上で分離信号431〜435の音量バランスを調整することもできる。
前述において、音源位置441をタッチして人の声の音源が選択されると、分離信号431のトラックの枠が強調されるなど、ユーザにとって編集対象が明確な状態となる。ここで、分離信号431の全体ではなく部分に対して編集を行いたい場合は、まず分離信号431のトラック上で始点となる点をタッチし、そのままドラッグして終点となる点で離す。
これにより、分離信号431の始点と終点で挟まれる部分を編集する小ウィンドウが傍に表示される。ユーザはこの小ウィンドウにおいて、フェードインやフェードアウトといった音量の時間変化を設定したり、イコライザや反射・残響を設定したりするなど、分離信号431の選択部分に対して編集を行うことができる。
次に、音源軌跡に関する編集について説明する。
映像表示領域410において、例えば音源位置444を終点とする音源軌跡上を素早く2回タッチすると、鳥の声の音源軌跡が選択された状態となり、ユーザが編集できるようになる。すなわち、音源軌跡を構成する音源位置の履歴のうち、円表示されている音源位置が代表点としてドラッグにより移動可能となる。音源軌跡の代表点を動かすことで音源軌跡の曲線が変形され、それによって音源軌跡を構成する各音源位置が更新される。
本発明の実施形態の画角外音源の位置表示によれば、画角外領域を設けて音源方向に応じて配分することで、画角外音源についても方位角および仰角をともに表現し、画角内音源と同様の感覚で音源軌跡を編集することができる。
なお、音源軌跡を選択した状態になると、対応する分離信号の音源軌跡に当たる部分を編集する小ウィンドウが傍に表示される。ユーザはこの小ウィンドウにおいて、前述した分離信号の選択部分に対する編集と同様に、分離信号の音源軌跡に当たる部分に対して編集を行うことができる。
また、本ステップの分離信号や音源軌跡の編集において、ユーザはタイムカーソル401をドラッグすることで任意の場所に置くことができる。タイムカーソル401が指す時間フレームが変わると、それに応じて映像フレーム411や、音源位置・軌跡といった映像表示領域410の表示内容も更新される。
なお、本ステップで編集した音源軌跡の各音源位置は、映像フレーム411とともに表示した際の音源位置ではなく、各音源位置の時間フレームに対応する各映像フレームとともに表示する際の音源位置で保存する。このため、撮像系のズーム倍率の変更やパンニング等の装置全体の動きを伴う場合は、それらの履歴データをもとに前述した前者の音源位置を前述した後者の音源位置に対応付ける。
ここで、前述のような音源軌跡の編集は、再生における立体音響効果を強調する目的で行う。しかしながら、編集の仕方によっては再生時に映像と音のギャップを生じてしまう可能性がある。特に、音源位置が映像表示領域410の中心に近いほど、対応する音源の映像が目に付きやすいため、過度な編集による違和感も大きくなると考えられる。
そこで本発明の実施形態ではさらに、音源軌跡の編集において、以下のように音源位置に応じて移動可能範囲を制御する。
一例として、音源位置444を終点とする音源軌跡の選択を行った場合、図4(b)に示すような表示を行う。
図4(b)において、音源位置451〜453は、音源位置444の過去の代表的な音源位置であり、音源軌跡450の編集可能な代表点である。また、音源位置452と453の間の縦線は、映像フレーム411の左境界である。そして、模式的に点線円で表した移動可能範囲460〜463がそれぞれ、音源位置444および451〜453の編集において移動可能な範囲を示している。これは、例えば音源位置451をドラッグしても、移動可能範囲461より外には動かせないことを意味する。
ここで、移動可能範囲の面積に相当する量を移動可能量とし、次のような考え方で定める。すなわち、音源位置が映像表示領域410の中心に近いほど移動可能量を抑制し、逆に中心から離れるほど移動可能量を増加させるようにする。ただし、映像表示領域410の中心からの遠さを表す指標dは、音源位置(Xs、Ys)と映像フレーム411の境界との位置関係を考慮し、例えば次のように定義する。
d=max(|Xs|/Wv,|Ys|/Hv) ・・・(7)
ここで、maxはカンマで区切られた2つの引数の最大値を返す関数とする。
式(7)より、音源位置が映像フレーム411の境界上であればd=1、音源方向が画角内で音源位置が映像フレーム411の内側であればd<1、音源方向が画角外で音源位置が映像フレーム411の外側であればd>1となる。また、音源位置が水平または垂直方向のどちらか一方でも映像フレーム411の境界に近ければ、dは1に近い値となるため、映像表示領域410の中心からそれなりに離れていると見なされる。
以上のような性質を持つdを用いて、音源位置のdの値と移動可能量の関係を示した例が図5である。図5の各特性図において、横軸は音源位置から式(7)によって算出されるdの値であり、縦軸は移動可能量を表している。
図5(a)は、音源位置が映像表示領域410の中心に近いほど、移動可能量を抑えるようにする処理の最も単純な一例である。さらに、以下のように画角に着目した処理を考えることもできる。
すなわち、映像信号の画角を音源が映るか映らないかの分かれ目となる重要な基準と考え、音源が画角内となって映像信号に映る場合は移動可能量を急激に抑制し、画角外となって映像信号に映らない場合は移動可能量を急激に増加させる。
図5(b)はこの考え方を示した例であり、dの値が小さいほど移動可能量を抑制するのは図5(a)と同じだが、画角に対応するd=1の点線を境として、画角内の場合(d<1)と、画角外の場合(d>1)とで移動可能量を急激に変化させている。
図4(b)における移動可能範囲460〜463は、図5(b)の考え方に基づくものである。図4(a)と照らし合わせればわかるように、音源位置444および451〜453はこの順番でdが大きくなるため、移動可能量に当たる移動可能範囲460〜463の面積も、この順番で大きくなっている。特に、映像フレーム411の境界より外側にある音源位置453については、対応する時間フレームにおいて音源が画角外であり、映像信号に映っていないため、移動可能範囲463の面積は他に比べてかなり大きい。
図5(b)の考え方をさらに進めたのが図5(c)である。すなわち、音源が画角内となって映像信号に映る場合は、移動可能量をゼロとして音源位置を編集できないようロックしてしまう。一方で、音源が画角外となって映像信号に映らない場合は、移動可能量に制限を設けないで自由に編集できるようにする。
なお、移動可能範囲は必ずしも円のような等方的な形である必要はなく、例えば音源軌跡の経路としての変化に重きを置いて、音源の移動方向と垂直の方向に引き伸ばしてもよい。また、必ずしも音源位置を中心とする必要はなく、移動可能範囲に元の音源位置が含まれていればよい。
なお、撮像系のズーム倍率の変更やパンニング等の装置全体の動きを伴う場合、映像フレーム411における過去の音源位置451〜453が、そのまま過去の各映像フレームにおける音源位置とはならない。よって、映像表示領域410の中心からの遠さを表すdは、映像フレーム411における音源位置ではなく、過去の各映像フレームにおける音源位置から算出する。
例えば、ある時間フレームTの音源方向について、対応する映像フレームにおいては画角内であっても、タイムカーソル401がある映像フレーム411では、ズームやパンニングのために音源位置が画角外に対応付けられる場合がある。ここで、図5(c)のように画角内の音源の編集をロックする場合は、映像フレーム411では音源位置が画角外に表示されたとしても、時間フレームTの映像フレームにおいては画角内であるため、前述した音源位置の編集をロックしなければならない。
このような場合、音源軌跡の各音源位置がロックされているか否かは、映像フレーム411の境界からでは判断できないため、編集がロックされている音源位置は、例えば色をグレーにするなど表示を変えると視覚的にわかり易い。
以上詳述した、本発明の実施形態の音源位置に応じた移動可能範囲の抑制に係る、代表的な処理をフローチャートにまとめると図7のようになる。すなわち、表示中の映像フレーム411において音源方向の得られている各音源に対して、図7のフローチャートの処理を適用する。この処理は、記憶部102に記録されたプログラムをシステム制御部101が実行することで実現する。
S701で、システム制御部101は、表示中の映像フレーム411における音源位置を処理の対象とする。
次に、S702で、システム制御部101は、当該音源位置について式(7)より、映像表示領域410の中心からの遠さを表すdを算出する。続いて、S703で、システム制御部101は、図5(a)〜(c)の何れかの特性図で表される関係を用いて、S702で算出したdから、当該音源位置の編集における移動可能量を取得する。
次にS704において、システム制御部101は、移動可能量が0より大きいか否かを判断し、大きい場合はS705に進む。S705では、システム制御部101は、当該音源位置の映像表示領域410上での編集において、移動可能範囲を図4(b)の点線円のように表示する。このとき、S703で取得した移動可能量が移動可能範囲の面積となるようにする。そして、S706では、システム制御部101は、当該音源位置の編集をS705で表示した移動可能範囲内に制限する。
また、S702で算出したd<1で音源が画角内であり、かつS703で図5(c)の関係を用いた場合は、移動可能量が0となるため、S704の判定でS707に進む。S707では、音源位置の表示を変えることで移動可能量が0であることを表し、S708で、システム制御部101は、音源位置が編集できないようロックする。
続いてS709に進み、システム制御部101は、音源軌跡を描く対象とする時間フレーム範囲の代表点について、処理を終了したか否かを判断し、まだ処理を終えていないものが残っている場合はS710に進む。S710では、システム制御部101は、音源軌跡の描画対象とする時間フレーム範囲内で、さらに過去の代表点を処理の対象とし、ループを抜けるまでS702以降の処理を繰り返す。
なお、本ステップにおける映像信号上での音源位置の編集は、再生時に用いる音源方向の編集を間接的に行っているといえる。よって、移動可能量に当たる移動可能範囲の面積は、映像表示領域410の平面座標系における面積の他に、方位角および仰角をパラメータとする球座標系における球面上の面積として捉えることができる。後者の解釈を行う場合は、球面上で移動可能範囲を定めて、編集画面である映像表示領域410の平面座標系にマッピングすればよい。
ここで、図4(a)のように、映像表示領域410の平面座標系で音源位置を編集する方法の他に、方位角および仰角をパラメータとする球座標系で音源方向を直接編集することが考えられる。その場合、方位角と仰角でメッシュを切った3次元の球を映像表示領域410に表示し、映像フレーム411をその画角に対応する球面上の領域に、方位角と仰角で表される音源方向を持った音源を球面上の一点に表示する。
映像表示領域410において、ユーザは球の表示角度を任意に変えることができる。また、音源プロパティとして音源方向に加えて音源距離を得られている場合は、音源を球の半径方向に動かすことで音源距離の編集を行うこともできる。この場合、本発明の実施形態を実施するなら移動可能範囲は三次元の領域となり、図5の移動可能量は移動可能範囲の体積として解釈される。
方位角および仰角をパラメータとする球座標系では、映像フレーム411は歪曲して球面上の領域に表示されるが、音源方向の編集に関しては現実の三次元空間との対応がわかり易くなる。ユーザは、編集ウィンドウ400のメニューにおいて、編集で用いる編集座標系の選択を行うことができる。もしくは、映像表示領域410の平面座標系で音源軌跡が選択されたら、自動的に球座標系に切り替えるようにしてもよい。
なお、以上述べたような音源位置に応じた移動可能範囲の制御は、有効にするか無効にするかをユーザが選択できるよう、ひとつのモードとして提供するものとする。これは、例えば映像信号に映っている拡声スピーカの音源位置を、同じ映像信号で離れた場所に映っている話者の位置まで、大きく動かしたいような場合があると考えられるためである。
S205では、音響信号生成部141が中心となって、S204で編集した分離信号や音源軌跡をもとにレンダリングを行い、再生用のレンダリング音響信号を生成する。
まず、各映像フレームにおける編集後の音源位置を、再び音源方向の表現に戻す。
編集後の音源位置(Xs、Ys)が、映像表示領域410において映像フレームの境界内である、つまり各映像フレームの水平画角2θvおよび垂直画角2φvの範囲に収まる場合は、以下のようになる。
すなわち、式(3)と式(4)をそれぞれθsとφsについて解き、再生用の音源方向であることを表すために方位角θspおよび仰角φspと表記すれば、次の式(8)と式(9)が得られる。
θsp=arctan(Xs×tan(θv)/Wv) ・・・(8)
φsp=arctan(Ys×tan(φv)/Hv) ・・・(9)
また、編集後の音源位置が、映像表示領域410において映像フレームの境界外である、つまり各映像フレームの画角範囲から外れる場合は、以下のようになる。すなわち、式(5)と式(6)をそれぞれθsとφsについて解き、θspおよびφspと表記すれば、次の式(10)と式(11)が得られる。
θsp=sgn(Xs)×(θv+(θm−θv)×
(|Xs|−wv)/(Wm−wv)) ・・・(10)
φsp=sgn(Ys)×(φv+(φm−φv)×
(|Ys|−Hv)/(Hm−Hv)) ・・・(11)
以上のように、各映像フレームにおける編集後の音源位置から再生用の音源方向を算出できるため、これをもとに分離信号のバイノーラル化を行う。具体的には時間フレームごとに、再生用の音源方向に対応する左右各耳のHRTFを分離信号に畳み込んで行き、バイノーラル信号となる再生用のレンダリング音響信号を生成する。
なお、標準的なHRTFデータは記憶部102が有しているものとする。また、音源プロパティとして音源距離が得られている場合は、編集後の音源距離に対応する遅延をHRTFに加えたり、距離減衰によるスペクトル変化を加味したりしてもよい。
ここで、S204で述べた編集用の各小ウィンドウには、再生/停止ボタンが付いているものとする。再生ボタンをタッチすると、編集中の音源のレンダリング音響信号が音響信号生成部141で生成され、音響信号出力部142でDA変換および増幅が行われたのち、音響信号再生部143から再生される。このとき同期して、対応する映像フレームも映像表示領域410で表示再生される。
本発明の実施形態によれば、音源軌跡の編集において音源位置に応じて移動可能範囲を抑制しているため、再生時に映像と音のギャップを生じない有効な立体音響効果を得ることができる。
なお、各映像フレームにおいて存在する音源の音源方向に応じて、映像表示領域410の表示を動的に変化させてもよい。例えば、画角内の音源しか存在しないときは、映像フレームを映像表示領域410の全面に大きく表示する。
また、画角外の音源が存在するときは、全音源方向の最大絶対値が大きいほど画角外領域412を増やし、映像フレームは小さく表示する。このような映像信号の拡縮は、例えば監視カメラにおいて画角外で音が発生した場合に、その映像を捉えるようテレからワイドに遷移するイメージに近い。
また、編集ウィンドウ400のメニューから、プレーヤウィンドウを選択して表示できるものとする。プレーヤウィンドウの再生ボタンをタッチすると、全音源すなわち分離信号トラック430の全ての分離信号についてバイノーラル化が行われ、それらを合成したレンダリング音響信号が生成および再生される。このとき、例えば特定の分離信号のトラックを一定時間タッチすることで、アクティブな状態と非アクティブな状態を切り替え、後者の場合はバイノーラル化を無効にしてレンダリング音響信号に含まれないようにしてもよい。
前述では、レンダリング音響信号を生成するためのレンダリング方式をバイノーラルレンダリングとしていた。ここで、音響信号再生部143がヘッドフォンではなく、ステレオ2chやサラウンド5.1chといったスピーカである場合は、レンダリング方式をトランスオーラルレンダリングとする方が好適である。
具体的には、各スピーカからユーザの左右各耳までの伝達関数を測定するモードを設け、バイノーラル信号がそのまま左右各耳において再現されるように、クロストークキャンセルの機能を含むトランスオーラルフィルタを構成して適用する。この他にも音源方向を用いるレンダリング方式として、ステレオパンニングに基づくステレオレンダリングや、サラウンドパンニングに基づくサラウンドレンダリングなどが利用可能である。
ユーザは編集ウィンドウ400のメニューにおいて、音響信号再生部143の構成やユーザの好みに応じて、レンダリング方式を選択することができる。
S204の編集とS205のレンダリングは、ユーザが結果に満足するまで繰り返し行われる。
編集終了後は、映像音響データファイルとはまた別に、映像信号とレンダリング音響信号を併せて一般に再生可能な形式でファイル出力し、記憶部102に保存してもよい。ここで、記憶部102は着脱可能であってもよいし、システムコントローラ100において記憶部102と相互に結ばれた不図示のデータ入出力部から、外部にファイルを転送できるようにしてもよい。
なお、S201の撮影と同時に、S202の音源方向の取得と、S203で詳述した音源位置・軌跡の表示を行うようにしてもよい。これにより、ユーザは音源の位置や軌跡を視覚的に確認しながら撮影を行うことができる。この場合、撮像系が捉えている映像信号を映し出す入出力GUI部131の全面を、映像表示領域410として用いることになる。このとき、S205で述べたように映像表示領域410の表示を動的に変化させてもよい。
なお、S201における映像信号や音響信号の取得、S202における音源方向や分離信号の取得、S203における音源位置の算出は、必ずしも本発明の実施形態の信号処理装置で行わなくてもよい。例えば、映像信号をコンピュータグラフィックスで作成したり、映像信号に合わせた効果音として、分離信号に対応する音源信号や、その音源位置・軌跡を作成したりしてもよい。
その場合、システムコントローラ100のデータ入出力部で、作成データを外部から取得することになる。また、HRTFやBGMのように、ユーザごとに適するものを選んだ方が好適なデータについても、データ入出力部を通じて、例えば外部ネットワーク上のデータベースから取得するようにしてもよい。
以上説明した本発明の実施形態によれば、画角外音源の位置表示において画角外領域を設けて方位角および仰角をともに表現し、画角内音源と同様の感覚で音源軌跡を編集することができる。
さらには、音源軌跡の編集において映像信号の座標と対応付けられた音源位置に応じて移動可能範囲を抑制することで、再生時に映像と音のギャップを生じない有効な立体音響効果を得ることができる。
<その他の実施形態>
以上、実施形態例を詳述したが、本発明は例えば、システム、装置、方法、プログラム若しくは記録媒体(記憶媒体)等としての実施態様をとることが可能である。具体的には、複数の機器(例えば、ホストコンピュータ、インタフェース機器、撮像装置、webアプリケーション等)から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
また、本発明の目的は、以下のようにすることによって達成されることはいうまでもない。即ち、前述した実施形態の機能を実現するソフトウェアのプログラムコード(コンピュータプログラム)を記録した記録媒体(または記憶媒体)を、システムあるいは装置に供給する。係る記憶媒体は言うまでもなく、コンピュータ読み取り可能な記憶媒体である。そして、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し実行する。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。
100 システムコントローラ
101 システム制御部
102 記憶部
103 信号解析処理部
111 撮像部
112 映像信号入力部
121 収音部
122 音響信号入力部
131 入出力GUI部
132 表示生成部
141 音響信号生成部
142 音響信号出力部
143 音響信号再生部

Claims (10)

  1. 映像信号と時間的に同期した音源の音源信号、および前記映像信号の座標と対応付けられた音源位置を取得する取得手段と、
    前記映像信号の画角を境界として、前記音源が画角内の場合は前記映像信号を構成する映像フレーム上に前記音源位置を表示し、前記音源が画角外の場合は映像フレーム外に前記音源位置を表示手段に表示させる制御手段とを有し、
    前記音源が前記画角内であるかまたは前記画角外の場合であるかに応じて、前記取得手段および前記制御手段のうちの少なくともいずれか一方の処理の方法を変えることを特徴とする信号処理装置。
  2. 前記取得手段は、前記画角が映像フレーム端に対応するという関係と、前記音源の音源方向が前記音源位置に対応するという関係を連立することで、前記音源が前記画角内の場合の前記音源位置を算出することを特徴とする請求項1に記載の信号処理装置。
  3. 前記取得手段は、映像表示領域のうち前記映像フレーム外となる画角外領域を前記音源の音源方向に応じて配分するように、前記音源が前記画角外の場合の前記音源位置を算出することを特徴とする請求項1または2に記載の信号処理装置。
  4. 前記制御手段は、前記音源の音源方向の絶対値が大きいほど前記映像フレーム外となる画角外領域の表示を増やすことを特徴とする請求項1乃至3の何れか1項に記載の信号処理装置。
  5. 前記音源ごとに前記取得手段で取得した音源プロパティを編集可能な編集手段をさらに備え、
    前記編集手段は、前記音源位置が前記映像信号の中心に近づくほど、前記音源位置の移動可能範囲を小さくすることを特徴とする請求項1乃至4の何れか1項に記載の信号処理装置。
  6. 前記編集手段は、前記画角を境界として前記移動可能範囲を急激に変化させることを特徴とする請求項5に記載の信号処理装置。
  7. 前記編集手段は、前記音源が前記画角内の場合は前記音源位置を編集できないようロックし、前記音源が前記画角外の場合は前記音源位置を自由に編集できるようにすることを特徴とする請求項6に記載の信号処理装置。
  8. 前記編集手段で前記音源位置を編集できないようロックした場合は、前記音源位置の表示を変えることを特徴とする請求項7に記載の信号処理装置。
  9. 映像信号と時間的に同期した音源の音源信号、および前記映像信号の座標と対応付けられた音源位置を取得する音源プロパティ取得工程と、
    前記映像信号の画角を境界として、前記音源が画角内の場合は前記映像信号を構成する映像フレーム上に前記音源位置を表示し、前記音源が画角外の場合は映像フレーム外に前記音源位置を表示手段に表示させる制御工程とを有し、
    前記音源が前記画角内であるかまたは前記画角外の場合であるかに応じて、前記取得工程および前記制御工程のうちの少なくともいずれか一方の処理の方法を変えることを特徴とする信号処理装置の制御方法。
  10. 映像信号と時間的に同期した音源の音源信号、および前記映像信号の座標と対応付けられた音源位置を取得する音源プロパティ取得工程と、
    前記映像信号の画角を境界として、前記音源が画角内の場合は前記映像信号を構成する映像フレーム上に前記音源位置を表示し、前記音源が画角外の場合は映像フレーム外に前記音源位置を表示手段に表示させる制御工程とを有し、
    前記音源が前記画角内であるかまたは前記画角外の場合であるかに応じて前記取得工程および前記制御工程のうちの少なくともいずれか一方の処理の方法を変えるようコンピュータを制御することを特徴とするプログラム。
JP2014248966A 2014-12-09 2014-12-09 信号処理装置および信号処理装置の制御方法 Pending JP2016109971A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014248966A JP2016109971A (ja) 2014-12-09 2014-12-09 信号処理装置および信号処理装置の制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014248966A JP2016109971A (ja) 2014-12-09 2014-12-09 信号処理装置および信号処理装置の制御方法

Publications (1)

Publication Number Publication Date
JP2016109971A true JP2016109971A (ja) 2016-06-20

Family

ID=56122130

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014248966A Pending JP2016109971A (ja) 2014-12-09 2014-12-09 信号処理装置および信号処理装置の制御方法

Country Status (1)

Country Link
JP (1) JP2016109971A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020194717A1 (ja) * 2019-03-28 2020-10-01 日本電気株式会社 音響認識装置、音響認識方法、及び、プログラムが格納された非一時的なコンピュータ可読媒体
CN113794830A (zh) * 2021-08-04 2021-12-14 深圳市沃特沃德信息有限公司 基于视频和音频的目标轨迹标定方法、装置和计算机设备
CN114842869A (zh) * 2021-02-01 2022-08-02 宏达国际电子股份有限公司 音讯处理方法及电子装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020194717A1 (ja) * 2019-03-28 2020-10-01 日本電気株式会社 音響認識装置、音響認識方法、及び、プログラムが格納された非一時的なコンピュータ可読媒体
JPWO2020194717A1 (ja) * 2019-03-28 2020-10-01
JP7215567B2 (ja) 2019-03-28 2023-01-31 日本電気株式会社 音響認識装置、音響認識方法、及び、プログラム
US11838731B2 (en) 2019-03-28 2023-12-05 Nec Corporation Sound recognition apparatus, sound recognition method, and non-transitory computer readable medium storing program
CN114842869A (zh) * 2021-02-01 2022-08-02 宏达国际电子股份有限公司 音讯处理方法及电子装置
CN113794830A (zh) * 2021-08-04 2021-12-14 深圳市沃特沃德信息有限公司 基于视频和音频的目标轨迹标定方法、装置和计算机设备

Similar Documents

Publication Publication Date Title
JP7275227B2 (ja) 複合現実デバイスにおける仮想および実オブジェクトの記録
JP5198530B2 (ja) 音声付き動画像呈示装置、方法およびプログラム
EP2831873B1 (en) A method, an apparatus and a computer program for modification of a composite audio signal
US20190139312A1 (en) An apparatus and associated methods
US20140328505A1 (en) Sound field adaptation based upon user tracking
KR102548644B1 (ko) 신호 처리 장치 및 방법, 그리고 프로그램
JP2022065175A (ja) 音響処理装置および方法、並びにプログラム
CN111492342A (zh) 音频场景处理
JP2016109971A (ja) 信号処理装置および信号処理装置の制御方法
JP6456171B2 (ja) 情報処理装置、情報処理方法及びプログラム
EP3503579A1 (en) Multi-camera device
KR102058228B1 (ko) 입체 음향 컨텐츠 저작 방법 및 이를 위한 어플리케이션
KR20210151792A (ko) 정보 처리 장치 및 방법, 재생 장치 및 방법, 그리고 프로그램
JP2023104156A (ja) 音編集システム、音編集方法および音編集プログラム
KR20160113035A (ko) 음상 외재화에서 3차원 사운드 이미지를 재생하는 장치 및 방법