JP2013243626A - 信号処理装置、信号処理方法、およびプログラム - Google Patents

信号処理装置、信号処理方法、およびプログラム Download PDF

Info

Publication number
JP2013243626A
JP2013243626A JP2012117091A JP2012117091A JP2013243626A JP 2013243626 A JP2013243626 A JP 2013243626A JP 2012117091 A JP2012117091 A JP 2012117091A JP 2012117091 A JP2012117091 A JP 2012117091A JP 2013243626 A JP2013243626 A JP 2013243626A
Authority
JP
Japan
Prior art keywords
unit
time
parallax
mode value
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012117091A
Other languages
English (en)
Inventor
Yuji Tsuchida
祐司 土田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2012117091A priority Critical patent/JP2013243626A/ja
Priority to CN2013101819186A priority patent/CN103428625A/zh
Priority to US13/895,437 priority patent/US20130314497A1/en
Publication of JP2013243626A publication Critical patent/JP2013243626A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/05Generation or adaptation of centre channel in multi-channel audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control

Abstract

【課題】映像の奥行き感と音声の奥行き感とを効果的に連動させることができるようにする。
【解決手段】音声制御用奥行き情報抽出部は、シーン構造変化検出部からのシーンチェンジの尤度情報、奥行き情報信頼性判定部からの奥行き情報の信頼性情報、および音響制御効果評価部からの映像と音声の連動効果の評価値情報に基づいて、奥行き情報生成部からの奥行き情報より音声制御に適した奥行き情報成分を抽出する。音声制御信号生成部は、音声制御用奥行き情報抽出部からの奥行き情報成分に基づいて、音声制御部の制御方法と、前段からの入力音声信号に適応した制御パラメータを生成する。本開示は、例えば、3D映像の映像信号に連動させるように、その映像信号に対応する音声信号を処理する信号処理装置に適用することができる。
【選択図】図1

Description

本開示は、信号処理装置、信号処理方法、およびプログラムに関し、特に、映像の奥行き感と音声の奥行き感とを効果的に連動させることができるようにした信号処理装置、信号処理方法、およびプログラムに関する。
実写による映画やドラマの撮影においては、セリフの明瞭度を上げるためや、多国語への音声の吹き替えを可能とするため、次のようなことが行われている。すなわち、セリフの収録の際、撮影に使用されるカメラのレンズ付近ではなく、演者の近傍にマイクロホンを配置し、セリフのみを選択的に収録することが行われている。
また、特に野外撮影の場合には、周辺環境音やマイクロホンの風による吹かれの影響を避けるため、セリフのみ、スタジオでアフターレコーディングされることも多い。
このような制作方法をとる場合、原理的に映像の距離感とセリフの距離感とは一致しないことが多い。また、アニメーション作品においては、そもそも映像の制作とセリフの収録は別々に行われるため、映像の距離感とセリフの距離感とは一致しないことが多い。
上記のような制作過程を経て制作される映像作品は、従来の2D作品ではそれほど違和感がなくても、3D作品となった場合には、映像の奥行き表現が加わるため、映像の距離感と音声の距離感との不一致が強調され、3D映像体験の臨場感を損ねてしまっていた。
これに対して、3D映像の奥行き情報を利用して音場の制御を行い、映像と音声との奥行き表現を連動させることが提案されている(特許文献1参照)。この提案においては、3D映像よりステレオマッチングなどの手法で映像の奥行き情報を求めたり、映像に付加された奥行き情報を抽出したりすることで、映像の奥行き情報を求め、求めた情報を基に、音声制御信号を生成して音声の制御が行われている。
特開2011−216963号公報
しかしながら、特許文献1に記載のように、映像の奥行き情報から音声の制御情報を生成して、映像の奥行き感と音声の奥行き感を連動させる処理を行おうとする場合、例えば、シーンチェンジにより奥行き構造が変化する場合や、コントラストの低いシーンなどにおいてステレオマッチングにより奥行き情報の取得を行う場合などには、必ずしもその制御結果がよい効果を生むとは言えないことがあった。
本開示は、このような状況に鑑みてなされたものであり、映像の奥行き感と音声の奥行き感とを効果的に連動させることができるものである。
本開示の一側面の信号処理装置は、動画像情報に関連する視差について、最頻値を算出する視差最頻値算出部と、前記視差最頻値算出部により算出された最頻値の時間方向の変化から前後感の知覚の連動に適する時間区間を抽出する時間区間抽出部と、前記時間区間抽出部により抽出された時間区間において前記動画像情報に関連する音情報の奥行感を制御する音声制御信号を生成する制御信号生成部とを備える。
前記時間区間抽出部は、前記動画像情報と、前記視差最頻値算出部により算出された最頻値に基づいて、前記動画像のシーン構造の変化を検出し、変化が検出された時間区間を排除するシーン構造変化検出部を含むことができる。
前記シーン構造変化検出部は、前記視差最頻値算出部により算出された最頻値を時間微分する時間微分部と、前記時間微分部により時間微分された最頻値に対して、非線形変換を行う非線形変換部とを備え、前記制御信号生成部は、前記非線形変換部により非線形変換が行われた最頻値に対して、時間積分を行う時間積分部を備えることができる。
前記シーン構造変化検出部は、前記視差最頻値算出部により算出された最頻値の絶対値の大きさに応じて、前記時間積分部により行われる時間積分の初期化を行う初期化判定部をさらに備えることができる。
前記時間区間抽出部は、前記動画像情報と、前記視差最頻値算出部により算出された最頻値に基づいて、前記最頻値の信頼性を評価し、信頼性の低い最頻値の時間区間を排除するの最頻値信頼性判定部を含むことができる。
前記最頻値信頼性判定部は、前記視差最頻値算出部により算出された最頻値を時間微分する時間微分部と、前記時間微分部により時間微分された最頻値に対して、非線形変換を行う非線形変換部とを備え、前記制御信号生成部は、前記非線形変換部により非線形変換が行われた最頻値に対して、時間積分を行う時間積分部を備えることができる。
前記視差について、最大値を算出する視差最大値算出部と、前記視差について、最小値を算出する視差最小値算出部とをさらに備え、前記最頻値信頼性判定部は、前記視差最大値算出部により算出された最大値と前記視差最小値算出部により算出された最小値の差の大きさ、前記最大値の時間変化、および前記最小値の時間変化の少なくとも1つに応じて、前記時間積分部により行われる時間積分の初期化を行う初期化判定部をさらに備えることができる。
前記初期化判定部は、前記視差最頻値算出部により算出された最頻値の絶対値の大きさに応じて、前記時間積分部により行われる時間積分の初期化を行うことができる。
前記時間区間抽出部は、前記動画像情報に関連する音情報と、前記視差最頻値算出部により算出された最頻値に基づいて、前記動画像情報により前記音情報の制御を行った場合の効果を評価し、前記音声制御信号を変化させる音声制御効果評価部を含むことができる。
前記音声制御効果評価部は、前記視差最頻値算出部により算出された最頻値を時間微分する時間微分部と、前記時間微分部により時間微分された最頻値に対して、非線形変換を行う非線形変換部とを備え、前記制御信号生成部は、前記非線形変換部により非線形変換が行われた最頻値に対して、時間積分を行う時間積分部を備えることができる。
前記音声制御効果評価部は、前記視差最頻値算出部により算出された最頻値と、前記最頻値の時間平均値との差分に応じて、前記時間積分部により行われる時間積分の初期化を行う初期化判定部をさらに備えることができる。
前記初期化判定部は、前記視差最頻値算出部により算出された最頻値の絶対値の大きさに応じて、前記時間積分部により行われる時間積分の初期化を行うことができる。
本開示の一側面の信号処理方法は、信号処理装置が、動画像情報に関連する視差について、最頻値を算出し、算出された最頻値の時間方向の変化から前後感の知覚の連動に適する時間区間を抽出し、抽出された時間区間において前記動画像情報に関連する音情報の奥行感を制御する音声制御信号を生成する。
本開示の一側面のプログラムは、動画像情報に関連する視差について、最頻値を算出する視差最頻値算出部と、前記視差最頻値算出部により算出された最頻値の時間方向の変化から前後感の知覚の連動に適する時間区間を抽出する時間区間抽出部と、前記時間区間抽出部により抽出された時間区間において前記動画像情報に関連する音情報の奥行感を制御する音声制御信号を生成する制御信号生成部としてコンピュータを機能させる。
本開示の他の側面の信号処理装置は、動画像情報に関連する視差について、最頻値を算出する視差最頻値算出部と、前記視差最頻値算出部により算出された最頻値を時間微分する時間微分部と、前記時間微分部により時間微分された最頻値に対して、非線形変換を行う非線形変換部と、前記非線形変換部により非線形変換が行われた最頻値を時間積分する時間積分部とを備える。
本開示の一側面においては、動画像情報に関連する視差について、最頻値が算出される。そして、算出された最頻値の時間方向の変化から前後感の知覚の連動に適する時間区間が抽出され、抽出された時間区間において前記動画像情報に関連する音情報の奥行感を制御する音声制御信号が生成される。
本開示の他の側面においては、動画像情報に関連する視差について、最頻値が算出される。そして、算出された最頻値が時間微分され、時間微分された最頻値に対して、非線形変換が行われ、非線形変換が行われた最頻値が時間積分される。
本開示によれば、映像の奥行き感と音声の奥行き感とを連動させることができる。特に、映像の奥行き感と音声の奥行き感とを効果的に連動させることができる。
本技術を適用した信号処理装置の構成例を示すブロック図である。 信号処理装置の信号処理を説明するフローチャートである。 信号処理部の具体的な構成例を示すブロック図である。 視差の度数分布の例を示す図である。 非線形変換特性の例を示す図である。 シーンチェンジが発生した場合の視差の最頻値、最大値、最小値の時間変化の例を示す図である。 図6の視差の最頻値を時間微分した例を示す図である。 図7の時間微分された視差の最頻値を非線形変換した例を示す図である。 図8の非線形変換された視差の最頻値を時間積分した例を示す図である。 映像コントラストが低い場合の視差の度数分布の例を示す図である。 図10の視差の最頻値、最大値、最小値の時間変化の例を示す図である。 図11の視差の最頻値を時間微分した例を示す図である。 図12の時間微分された視差の最頻値を非線形変換した例を示す図である。 図13の非線形変換された視差の最頻値を時間積分した例を示す図である。 2つのオブジェクトが全画面中に占める面積比がほぼ同等となる場合の視差の度数分布の例を示す図である。 図15の視差の最頻値、最大値、最小値の時間変化の例を示す図である。 図16の視差の最頻値を時間微分した例を示す図である。 図17の時間微分された視差の最頻値を非線形変換した例を示す図である。 図18の非線形変換された視差の最頻値を時間積分した例を示す図である。 主要な被写体が奥から手前方向に移動するシーンにおける視差の最頻値、最大値、最小値の時間変化の例を示す図である。 図20の視差の最頻値を時間微分した例を示す図である。 図21の時間微分された視差の最頻値を非線形変換した例を示す図である。 図22の非線形変換された視差の最頻値を時間積分した例を示す図である。 非線形変換特性の他の例を示す図である。 音声制御部の具体的な構成例を示すブロック図である。 周波数特性の例を示す図である。 直接音の音圧ゲインを説明する図である。 音圧ゲインの特性の例を示す図である。 一次反射音の遅延時間の特性の例を示す図である。 一次反射音の音圧比特性の一例を示す図である コンピュータの構成例を示すブロック図である。
以下、本開示を実施するための形態(以下実施の形態とする)について説明する。なお、説明は以下の順序で行う。
1.第1の実施の形態(信号処理装置)
2.第2の実施の形態(コンピュータ)
<1.第1の実施の形態>
[本技術の概要]
上述したように、特許文献1においては、3D映像の奥行き情報を利用して音場の制御を行い、映像と音声との奥行き表現を連動させることが提案されていた。この提案においては、3D映像よりステレオマッチングなどの手法で映像の奥行き情報を求めたり、映像に付加された奥行き情報を抽出したりすることで、映像の奥行き情報を求め、求めた情報を基に、音声制御信号を生成して音声の制御が行われている。
しかしながら、特許文献1に記載のように、映像の奥行き情報から音声の制御情報を生成して、映像の奥行き感と音声の奥行き感を連動させる処理を行おうとすると、以下のような場合において、必ずしもその制御結果がよい効果を生むとは言えないことがあった。
1つ目は、シーンチェンジにより画面全体の奥行き構造が変化する場合である。シーン毎の奥行き構造に至るまで映像制作者が注意をはらって3D映像制作を行うことは稀であり、シーンチェンジによる奥行き情報の変化は、殆どの場合、制作者の意図していないものである。そのため、このような奥行き情報の変化を用いて音声の制御を行うと、思わぬ不自然な結果を生じることがあった。
2つ目は、3D映像からステレオマッチングを用いて映像の奥行き情報を得ようとする場合である。ステレオマッチングの特性として、映像コントラストの低いシーンなどでは、正確に奥行き情報を求めることが難しくなり、奥行きの解析結果が不定になったり、不安定な挙動を示すようになる。そのため、このような奥行き情報を用いて音声の制御を行うと、音声の制御が不安定になってしまうことがあった。
3つ目は、複数の異なる奥行き情報を持つ主要なオブジェクトにより構成されるシーンについて奥行き情報を得ようとする場合である。例えば、「人物」と「背景」のように2つの主要なオブジェクトから構成されるシーンなどでは、画面全体の奥行きの分布としては大きな2つの偏りを持つこととなる。このようなとき、どちらが主要なオブジェクトであるかは、全画面中に占める面積や、奥行きの前後関係、それぞれのオブジェクトの輝度関係などの情報を頼りに類推することになる。しかしながら、いずれの方法を用いても、どちらが主要なオブジェクトであるかを確実に判定することは難しいケースでは、間違ったオブジェクトの奥行き情報を基に音声制御がなされてしまう恐れがあった。
4つ目は、映像に奥行き情報の速い時間変化があった場合である。このような奥行き情報の速い時間変化に音声を連動させようとすると、音声制御の追従が間に合わず意図した効果が得られないばかりか、追従に時間差を生じてしまい、音声の制御に不自然さを生じてしまう恐れがあった。
なお、これらに対して、奥行き情報を精度よく検出するために、未来の映像フレームの奥行き情報を多く参照するように構成すると、その分、最終的な音声の制御に遅延が生じるため、相対的に映像も遅延させる必要があった。この場合、多くの画像遅延用メモリが必要となり、コスト高になってしまっていた。
そこで、本技術においては、3D作品における映像の距離感と音声の距離感の不一致を、3D映像の奥行き情報を用いて音声の奥行き感を調整することで抑制する。さらに、本技術においては、その際に、上述した映像と音声の連動に適さない情報を排除することで、良好な映像と音声の連動効果を得ることができる。
[信号処理装置の構成]
図1は、本技術を適用した信号処理装置の構成例を示す図である。
信号処理装置101は、例えば、3D映像の映像信号とその映像信号に対応する音声信号を入力し、入力した映像信号を用いて音声制御信号を生成し、生成した音声制御信号に基づいて、入力した音声信号に対して制御を行い、制御された音声信号を出力する。これにより、映像の奥行き感と音声の奥行き感とを連動させることができる。図1の例において、信号処理装置101は、信号処理部111および音声制御部112を含むように構成される。
信号処理部111は、奥行き情報生成部121、シーン構造変化検出部122、奥行き情報信頼性判定部123、音響制御効果評価部124、音声制御用奥行き情報抽出部125、および音声制御信号生成部126を含むように構成されている。
図示せぬ前段からの入力映像信号は、奥行き情報生成部121、シーン構造変化検出部122、および奥行き情報信頼性判定部123に供給される。前段からの入力音声信号は、音響制御効果評価部124、および音声制御信号生成部126に供給される。
奥行き情報生成部121は、入力映像信号から奥行き情報を生成する。奥行き情報の生成は、入力映像信号に付加された奥行き情報を抽出したり、左右の映像に対してステレオマッチング処理することにより求められる。奥行き情報生成部121は、生成した奥行き情報を、シーン構造変化検出部122、奥行き情報信頼性判定部123、音響制御効果評価部124、および音声制御用奥行き情報抽出部125に供給する。
シーン構造変化検出部122は、入力映像信号と奥行き情報とから、映像信号の時間変化の大きさや、奥行き構造の時間変化の大きさを検出し、最終的にシーンチェンジの尤度情報を生成する。シーン構造変化検出部122は、生成した尤度情報を、音声制御用奥行き情報抽出部125に供給する。
奥行き情報信頼性判定部123は、入力映像信号と奥行き情報とから、奥行き情報の信頼性を生成する。奥行き情報の信頼性は、例えば、奥行き情報の分布形状の特徴、または、映像信号に含まれる空間周波数成分やコントラストを評価することで求められる。奥行き情報信頼性判定部123は、生成した信頼性の情報を、音声制御用奥行き情報抽出部125に供給する。
音響制御効果評価部124は、入力音声信号と奥行き情報とから、奥行き情報を音響制御に用いることで得られる映像と音声の連動効果の評価値を生成する。例えば、事前(設計段階)に、奥行き情報生成部121から出力される奥行き情報を、直接、音声制御信号生成部126に入力することで生成される音声信号を用い、音声制御部112において音声制御を行った際の結果が評価される。映像と音声の連動効果の評価値は、その事前に評価された結果に基づいて出力される。音響制御効果評価部124は、生成した映像と音声の連動効果の評価値の情報を、音声制御用奥行き情報抽出部125に供給する。
音声制御用奥行き情報抽出部125は、供給されたシーンチェンジの尤度情報、奥行き情報の信頼性情報、および映像と音声の連動効果の評価値情報に基づいて、奥行き情報生成部121からの奥行き情報より音声制御に適した時間空間の奥行き情報成分を抽出する。音声制御用奥行き情報抽出部125は、抽出した時間空間の奥行き成分情報を、音声制御信号生成部126に供給する。すなわち、音声制御用奥行き情報抽出部125は、音声制御に適さない時間空間の奥行き情報成分を排除する。
音声制御信号生成部126は、音声制御用奥行き情報抽出部125からの時間空間の奥行き情報成分に基づいて、音声制御部112の制御方法と、前段からの入力音声信号に適応した制御パラメータを生成する。音声制御信号生成部126は、生成した制御パラメータを、音声制御部112に供給する。
ここで、奥行き情報として、図2以降では視差が用いられる。すなわち、音声制御用奥行き情報抽出部125は、奥行き情報生成部121からの奥行き情報より求められる視差の最頻値の時間方向の変化から前後感の知覚(視覚と聴覚)の連動に適する時間区間を抽出する。そして、音声制御信号生成部126は、音声制御用奥行き情報抽出部125により抽出された時間区間において前記動画像情報に関連する音情報の奥行感を制御する音声制御信号を生成する。
音声制御部112は、音声制御信号生成部126からの制御パラメータに基づいて、前段の入力音声信号に対して、映像信号に連動した音声の奥行き感の調整処理を行い、調整処理を行った出力音声信号を生成する。音声制御部112は、生成した出力音声信号を、図示せぬ後段に出力する。
[信号処理装置の動作]
次に、図2のフローチャートを参照して、信号処理装置101の信号処理について説明する。
前段からの入力映像信号は、奥行き情報生成部121、シーン構造変化検出部122、および奥行き情報信頼性判定部123に供給される。前段からの入力音声信号は、音響制御効果評価部124、および音声制御信号生成部126に供給される。
ステップS111において、奥行き情報生成部121は、前段からの入力映像信号から奥行き情報を生成する。奥行き情報生成部121は、生成した奥行き情報を、シーン構造変化検出部122、奥行き情報信頼性判定部123、音響制御効果評価部124、および音声制御用奥行き情報抽出部125に供給する。
ステップS112において、シーン構造変化検出部122は、前段からの入力映像信号と、奥行き情報生成部121からの奥行き情報とから、映像信号の時間変化の大きさや奥行き構造の時間変化の大きさを検出し、最終的に、シーンチェンジの尤度情報を生成する。シーン構造変化検出部122は、生成した尤度情報を、音声制御用奥行き情報抽出部125に供給する。
ステップS113において、奥行き情報信頼性判定部123は、前段からの入力映像信号と、奥行き情報生成部121からの奥行き情報とから、奥行き情報の信頼性を生成する。奥行き情報信頼性判定部123は、生成した信頼性の情報を、音声制御用奥行き情報抽出部125に供給する。
ステップS114において、音響制御効果評価部124は、前段からの入力音声信号と、奥行き情報生成部121からの奥行き情報とから、奥行き情報を音響制御に用いることで得られる映像と音声の連動効果の評価値を生成する。音響制御効果評価部124は、生成した映像と音声の連動効果の評価値の情報を、音声制御用奥行き情報抽出部125に供給する。
ステップS115において、音声制御用奥行き情報抽出部125は、奥行き情報生成部121からの奥行き情報より音声制御に適した時間空間の奥行き情報成分を抽出する。この抽出処理は、シーン構造変化検出部122からのシーンチェンジの尤度情報、奥行き情報信頼性判定部123からの奥行き情報の信頼性情報、および音響制御効果評価部124からの映像と音声の連動効果の評価値情報に基づいて行われる。すなわち、音声制御に適さない時間空間の奥行き情報成分は、音声制御用奥行き情報抽出部125において排除される。音声制御用奥行き情報抽出部125は、抽出した時間空間の奥行き成分情報を、音声制御信号生成部126に供給する。
ステップS116において、音声制御信号生成部126は、音声制御用奥行き情報抽出部125からの時間空間の奥行き情報成分に基づいて、音声制御部112の制御方法と、前段からの入力音声信号に適応した制御パラメータを生成する。音声制御信号生成部126は、生成した制御パラメータを、音声制御部112に供給する。
ステップS117において、音声制御部112は、音声制御信号生成部126からの制御パラメータに基づいて、前段の入力音声信号に対して、映像信号に連動した音声の奥行き感の調整処理を行い、調整処理を行った出力音声信号を生成する。音声制御部112は、生成した出力音声信号を、図示せぬ後段に出力する。
以上のように、信号処理装置101において、シーンチェンジの尤度情報、奥行き情報の信頼性情報、および映像と音声の連動効果の評価値情報などに基づいて、音声制御に適さない時間空間の奥行き情報成分が排除される。したがって、音声制御に適した時間空間の奥行き情報成分のみに音声制御が行われるので、3D作品における映像の距離感と音声の距離感の不一致を、3D映像の奥行き情報を用いて音声の奥行き感を調整することで抑制することができる。
[信号処理部の具体的構成例]
次に、図3を参照して、図1の信号処理部111を実現する具体的な構成例について説明する。図3は、信号処理部111の一実施の形態を示している。なお、図3以降、奥行き情報として左眼用画像と右眼用画像とで対応する画素の水平距離を用い、これを「視差」と称して説明していく。
信号処理部111は、例えば、ステレオマッチング部151、最頻値生成処理部152、指標算出処理部153、および初期化判定部154を含むように構成されている。
ステレオマッチング部151は、奥行き情報を求め、求めた奥行き情報を、最頻値生成処理部152、および指標算出処理部153に出力する。
最頻値生成処理部152は、ステレオマッチング部151からの奥行き情報から、視差の最頻値を求め、微分、非線形変換、および、初期化判定部154からの初期化信号に応じた積分を施し、最終的に、音声制御信号として、音声制御部112に出力する。
最頻値生成処理部152は、視差最頻値検出部161、時間微分器162、非線形変換器163、および間積分器164を含むように構成されている。
視差最頻値検出部161は、ステレオマッチング部151からの奥行き情報の中で、最も頻度の高い視差の最頻値を検出し、検出した視差の最頻値を、時間微分器162に出力する。この視差の最頻値は、指標算出処理部153の時間平均化部171および減算部172にも出力される。
映像コンテンツにおいては、画面上で最も大きな面積を占めるオブジェクトが音声のセンタチャンネルの主要な音源である場合が多いことから、視差の最頻値にセンタチャンネルの音源の奥行き位置の情報が含まれていると考えることができる。
時間微分器162は、視差最頻値検出部161からの視差の最頻値を時間微分し、視差の最頻値の時間微分値を求め、求めた視差の最頻値の時間微分値を、非線形変換器163に出力する。この視差の最頻値の時間微分値は、後述する指標の1つである指標Tとして、初期化判定部154にも供給される。
非線形変換器163は、時間微分器162からの視差の最頻値の時間微分値に対して非線形変換を行い、非線形変換された視差の最頻値の時間微分値を、時間積分器164に出力する。
時間積分器164は、非線形変換器163からの非線形変換された視差の最頻値の時間微分値を、初期化判定部154からの初期化信号で初期化された積分器で時間積分することにより、最適化された視差の最頻値を、音声制御信号として、音声制御部112に出力する。
指標算出処理部153は、ステレオマッチング部151からの奥行き情報や、視差最頻値検出部161からの視差の最頻値を用いて、時間積分器164の初期化信号を生成するための指標を算出する処理を行い、算出した指標を、初期化判定部154に出力する。
指標算出処理部153は、時間平均化部171、減算部172、視差最小値検出部173、視差最大値検出部174、減算部175、時間微分器176、および時間微分器177を含むように構成されている。
時間平均化部171は、視差最頻値検出部161からの視差の最頻値を時間平均し、最頻値の時間平均値を、減算部172に出力する。減算部172は、視差最頻値検出部161からの視差の最頻値から、最頻値の時間平均値を減じた値を、指標Pとして、初期化判定部154に出力する。
視差最小値検出部173は、ステレオマッチング部151からの奥行き情報から、視差の最小値を検出し、検出した視差の最小値を、減算部175および時間微分器176に出力する。視差最大値検出部174は、ステレオマッチング部151からの奥行き情報から、視差の最大値を検出し、検出した視差の最大値を、減算部175および時間微分器177に出力する。
減算部175は、視差最小値検出部173からの視差の最小値と視差最大値検出部174からの視差の最大値との差分を、指標Qとして、初期化判定部154に出力する。
時間微分器176は、視差最小値検出部173からの視差の最小値を時間微分して、最小値の時間微分値を、指標Rとして、初期化判定部154に出力する。時間微分器177は、視差最大値検出部174からの視差の最大値を時間微分して、最大値の時間微分値を、指標Sとして、初期化判定部154に出力する。
初期化判定部154は、指標算出処理部153からの複数の指標のうち少なくとも1つに基づいて、時間積分器164を初期化する初期化信号を、時間積分器164に出力する。
[奥行き情報の例]
ステレオマッチング部151は、前段から入力された左眼用画像と右眼用画像とから、画素単位、または、複数の画素を1ブロックとするブロック単位の視差を求める。
ここで、ステレオマッチング処理には様々な方式が提案されており、この方式の違いにより、求まる視差の粒度や、視差の出現頻度に相当する値の意味合いに違いはある。しかしながら、本実施の形態のステレオマッチング部151においては、最終的に、図4に示すように、全画面中の視差の度数分布に集約した結果が、奥行き情報として出力される。
図4の例においては、横軸が視差(正方向が手前)で、縦軸が全画面中の頻度である度数分布に、視差の最頻値200A、視差の最大値201A、および視差の最小値202Aが示されている。
なお、後述するが、ステレオマッチング部151以降においては、度数分布に集約した結果のうち、これらの視差の最頻値200A、視差の最大値201A、および視差の最小値202Aのみが用いられ、頻度情報が使用されない。したがって、仮に頻度の値が全画面中に占める面積比に対して線形性がなくてもよく、すなわち、使用されるのは、最頻値、最大値、および最小値だけであり、縦軸の情報が用いられないので、単調性があればよい。
また、視差の度数分布の対象範囲は、全画面でなくてもよく、例えば、画面の中央部の主要な部分に限定したものであってもよい。
このような構成をとることにより、本実施の形態においては、ステレオマッチング方式への依存性は少ない。
[非線形変換の具体例]
次に、非線形変換器163における非線形変換の目的を具体的に説明する。非線形変換部163においては、例えば、図5に示されるように、入力の絶対値が、ある閾値thよりも大きいものに対しては、その出力を0にする、非線形変換特性が用いられるものとする。
図6は、第1番目の例として、シーンチェンジが発生した場合の視差の最頻値200B、視差の最大値201B、および視差の最小値202Bの時間変化の例を示す図である。縦軸は視差(正方向が手前)を示し、横軸は時刻を示している。
図6の例においては、時刻t1、時刻t2、時刻t3でそれぞれシーンチェンジが発生し、そのたびに、画面全体の奥行き構造が変化している。このように、シーンチェンジによる奥行き構造の変化があった場合、視差の最頻値200Bに不連続な変化が生じる。
この視差の最頻値200Bが時間微分器162により時間微分されると、例えば、図7に示されるような信号が得られる。縦軸は時間微分値を示し、横軸は時刻を示している。
図7の例においては、シーンチェンジの度に、th以上の視差の時間微分値の絶対値が発生している。
一般的に、シーンチェンジが発生した場合、例えば、図7に示されるように、視差の時間微分値の絶対値が適切に設定された閾値thに比べ大きな値をとる場合が多い。したがって、非線形変換器163において、上述した図5に示した特性の非線形変換を行うことにより、図8に示されるように、視差の最頻値の時間微分値から、シーンチェンジの影響をほぼ除去することができる。
図8の例においては、縦軸が非線形変換された時間微分値を示し、横軸が時刻を示しており、非線形変換された時間微分値はすべて0を示している。
そして、この非線形変換された視差の最頻値の時間微分値を時間積分器164にて時間積分することにより、図9に示されるように、シーンチェンジの影響がほぼ除去された視差の最頻値を得ることができる。すなわち、シーンチェンジは、意図的な奥行き変化でない場合が多く、音声制御に適さないから除去されることにより、最適な音声制御を行うことができる。
図9の例においては、縦軸が時間積分値を示し、横軸が時刻を示しており、時間積分値はすべて0を示している。
なお、上述したシーンチェンジの影響を除去する第1番目の例は、図1のシーン構造変化検出部122および音声制御用奥行き情報抽出部125による処理に相当する。すなわち、この場合、シーン構造変化検出部122および音声制御用奥行き情報抽出部125は、時間微分器162および非線形変換器163に対応する。そして、音声制御信号生成部126が、時間積分器164に対応する。
図10は、第2番目の例として、映像コントラストが低い場合の視差の度数分布を示す図である。図10の例においては、横軸が視差(正方向が手前)で、縦軸が全画面中の頻度である度数分布に、視差の最頻値210A、視差の最大値211A、および視差の最小値212Aが示されている。
また、図11は、この場合の視差の最頻値210B、視差の最大値211B、および視差の最小値212Bの時間変化の例を示す図である。縦軸は視差(正方向が手前)を示し、横軸は時刻を示している。
図10および図11の例においては、時刻t1乃至時刻t2において、映像コントラストの低いシーンとなっている例が示されている。ステレオマッチングの特性上、コントラストの低いシーンにおいては、図10に示されるように、度数分布が平坦となり、かつ、視差の最大値211Aと視差の最小値212Aとの差が大きくなり、視差の度数分布を正確に求めることが困難となる。
また、図11の時刻t1乃至時刻t2に示されるように、視差の最頻値210Bの時間変化が不安定となる。
この視差の最頻値210Bが時間微分器162により時間微分されると、例えば、図12に示されるような信号が得られる。縦軸は時間微分値を示し、横軸は時刻を示している。
一般的に、映像コントラストの低いシーンにおいては、上述の理由により、例えば、図12に示されるように、視差の時間微分値の絶対値か適切に設定された閾値thに比べ大きな値をとる場合が多い。したがって、非線形変換器163において、上述した図5に示した特性の非線形変換を行うことにより、図13に示されるように、視差の最頻値の時間微分値から、映像コントラストが低い場合の視差の不安定性をほぼ除去することができる。
図13の例においては、縦軸が非線形変換された時間微分値を示し、横軸が時刻を示しており、非線形変換された時間微分値は、時刻t1乃至時刻t2におけるある時刻のみth以下の値(>0)を示しているが、その他は0を示している。
そして、この非線形変換された視差の最頻値の時間微分値が時間積分器164にて時間積分される。これにより、図14に示されるような映像コントラストが低いシーンなど、視差の信頼性が低い場合の視差の不安定性の影響がほぼ除去された視差の最頻値を得ることができる。さらに、この場合、指標Q乃至指標Tのうち少なくとも1つの指標をもちいて時間積分器164を初期化することにより、より精度よく映像コントラストが低い場合の視差の不安定性を除去することができる。なお、指標の詳細については後述される。
図14の例においては、縦軸が時間積分値を示し、横軸が時刻を示しており、時間積分値は、時刻t1乃至時刻t2におけるある時刻より手前は0を示し、ある時刻からある値(>0)を示している。
なお、上述した映像コントラストが低いなど、視差の信頼性が低い場合の第2番目の例は、図1の奥行き情報信頼性判定部123および音声制御用奥行き情報抽出部125による処理に相当する。すなわち、この場合、奥行き情報信頼性判定部123および音声制御用奥行き情報抽出部125は、時間微分器162および非線形変換器163に対応する。そして、音声制御信号生成部126が、時間積分器164に対応する。
図15は、第3番目の例として、2つのオブジェクトが全画面中に占める面積比がほぼ同等となる場合の視差の度数分布を示す図である。図15の例においては、横軸が視差(正方向が手前)で、縦軸が全画面中の頻度である度数分布に、視差の最頻値220A1および220A2、視差の最大値221A、および視差の最小値222Aが示されている。
このような場合、2つのオブジェクトの面積関係では、どちらが主要なオブジェクトであるかを判断することが困難なことが多いため、音声の制御信号を生成するために用いる視差情報としては信頼性が低い。
一般的に、このような2つのオブジェクトは、「人物」と「背景」のように、奥行きとして大きな差があることが多いため、2つの視差の最頻値220A1と最頻値220A2の差は、大きな値をとることが多い。
図16に、この場合の視差の最頻値220B、視差の最大値221B、および視差の最小値222Bの時間変化の例を示す図である。縦軸は視差(正方向が手前)を示し、横軸は時刻を示している。
この例においては、時刻t1乃至時刻t2において、2つのオブジェクトが全画面中に占める面積比がほぼ同等となり、これにノイズや検出誤差などの影響が加わることで、視差の最頻値220Bが2つの視差の値をランダムにとっている。
この視差の最頻値220Bが時間微分器162により時間微分されると、例えば、図17に示されるような信号が得られる。縦軸は時間微分値を示し、横軸は時刻を示している。
上述したように2つのオブジェクトの視差の差は大きい場合が多いことから、視差の時間微分値の絶対値が、適切に設定された閾値thに比べ大きな値をとることが多くなる。したがって、非線形変換器163において、上述した図5に示した特性の非線形変換を行うことにより、図18に示されるように、視差の最頻値の時間微分値から、2つのオブジェクトが全画面中に占める割合がほぼ同等となる場合の視差の不安定性をほぼ除去することができる。
図18の例においては、縦軸が非線形変換された時間微分値を示し、横軸が時刻を示しており、非線形変換された時間微分値はすべて0を示している。
そして、この非線形変換された視差の最頻値の時間微分値が時間積分器164にて時間積分される。これにより、図19に示されるような2つのオブジェクトが全画面中に占める割合がほぼ同等となる場合の視差の不安定性の影響がほぼ除去された視差の最頻値を得ることができる。
図19の例においては、縦軸が時間積分値を示し、横軸が時刻を示しており、時間積分値はすべて0を示している。
なお、上述した2つのオブジェクトが全画面中に占める割合がほぼ同等となるなど、視差の信頼性が低い場合の第3番目の例は、上述した第2番目の例と同様に、図1の奥行き情報信頼性判定部123および音声制御用奥行き情報抽出部125による処理に相当する。すなわち、この場合、奥行き情報信頼性判定部123および音声制御用奥行き情報抽出部125は、時間微分器162および非線形変換器163に対応する。そして、音声制御信号生成部126が、時間積分器164に対応する。
図20は、第4番目の例として、主要な被写体が奥から手前方向に移動するシーンにおける視差の最頻値230B、視差の最大値231B、および視差の最小値232Bの時間変化の例を示す図である。縦軸は視差(正方向が手前)を示し、横軸は時刻を示している。
図20の例においては、時刻t1乃至t2において、主要なオブジェクトが奥から手前にかけて移動することにより、視差の最頻値230Bが徐々に大きくなる方向に変化している。
この視差の最頻値230Bが時間微分器162により時間微分されると、例えば、図21に示されるような信号が得られる。縦軸は時間微分値を示し、横軸は時刻を示している。
図21の例の時刻t1乃至t2においては、時刻t1でth以上の視差の時間微分値の絶対値が発生し、その後、thより小さな値(>0)の視差の時間微分値の絶対値が多く発生している。
主要な被写体の前後の動きは、上述した第1乃至第3番目の例と異なり、視差の時間微分値の絶対値が適切に設定された閾値thに比べ小さな値(>0)をとることが多い。したがって、非線形変換器163において、上述した図5に示した特性の非線形変換を行うことにより、図22に示されるように、非線形変換された時間微分値に反映させることができる。
図22の例においては、縦軸が非線形変換された時間微分値を示し、横軸が時刻を示しており、非線形変換された時間微分値は、時刻t1乃至t2において、th以下の値(>0)をいくつか示している。
また、この閾値thを適切に設定することにより、時間変動が速い奥行き変化など音声制御の追従が困難である場合などを除外することができるので、音声の制御に不自然さを生じてしまうことを回避することができる。
そして、この非線形変換された視差の最頻値の時間微分値を時間積分器164にて時間積分することにより、図23に示されるように、主要な被写体が奥から手前方向に移動するシーンにおける視差の最頻値を得ることができる。
図23の例においては、縦軸が時間積分値を示し、横軸が時刻を示しており、時間積分値は、時刻t1までは0であるが、時刻t1乃至時刻t2においては、徐々に大きな値(>0)を示している。
なお、上述した第4番目の例は、図1の音響制御効果評価部124および音声制御用奥行き情報抽出部125による処理に相当する。すなわち、この場合、音響制御効果評価部124および音声制御用奥行き情報抽出部125は、時間微分器162および非線形変換器163に対応する。そして、音声制御信号生成部126が、時間積分器164に対応する。
以上のように、非線形変換特性における閾値thを適切に設定することにより、上述した第1番目乃至第3番目の場合などの影響を除去することができる。そして、第4番目の場合のように、主要な被写体であり、かつ、最適な制御結果の得られる奥行き方向の動作のみを時間微分値に反映させることができる。
これらの第1番目乃至第3番目の場合とは、上述したように、シーンチェンジが発生した場合、映像コントラストが低く視差の信頼性が低い場合、主要なオブジェクトの判別が困難である複数のオブジェクトが存在する場合である。
なお、上記説明においては、図5の非線形変形特性を用いる例を説明したが、それに代えて、図24に示される非線形変形特性を用いてもよい。
図24の例においては、入力が0乃至閾値th以外の値に対しては、出力を0にする非線形変形特性が示されている。このような特性を用いると、視差が減少する方向に変化した場合には、非線形変換器163からの出力である非線形変換された視差の最頻値の時間微分値が0となり、主要被写体が奥側に移動するような時に対して時間積分器164からの音声制御信号が0となる。すなわち、視差に対する音声制御の連動方向を、3D映像が飛び出す方向のみに限定するような制御が可能となる。
以上のように、非線形変形特性を任意に設定することにより、主要な被写体の動きに対して生成される音声制御信号の特性を変化させることができる。
[指標P乃至Sの算出例]
次に、再度、図3を参照して、指標算出処理部153の処理について、指標P乃至Tの順に具体的に説明する。
まず、第1の指標として、減算部172から初期化判定部154に入力される指標Pについて説明する。減算部172により、視差最頻値検出部161からの視差の最頻値から、最頻値の時間平均値を減じた値が、指標Pとして、初期化判定部154に出力される。
この最頻値の時間平均値は、3D映像を制作する際の奥行きの標準的な位置を表しており、多くの場合、実画面か、それよりもやや奥側に設定されることが多い。最頻値がこの値に近い値をとる場合、3D映像の制作者は、主要なオブジェクトを標準的な奥行きに設定していることになり、3D映像における飛び出し効果や引っ込み効果を意図していない可能性が高い。そのため、指標P(すなわち、減算部172により演算される最頻値より平均値を減じた値)は、値が0に近い場合、時間積分器164を初期化し、音声制御信号を0とすべきであるという指標となり得る。
次に、第2の指標として、減算部175から初期化判定部154に入力される指標Qについて説明する。
減算部175により、視差最小値検出部173からの視差の最小値と視差最大値検出部174からの視差の最大値との差分が、指標Qとして、初期化判定部154に出力される。
視差の最小値と視差の最大値との差分値は、値が大きいほどシーンの奥行き構造の前後幅が広いことを示している。通常の3D映像においては、この差分値を一定範囲に収めることで、全画面が融像可能な映像としているが、ステレオマッチングが難しい映像などで視差の検出結果が正しく求まらない場合などにおいては、異常に大きな値をとる。
したがって、差分の値が一定値以上の場合には、視差が正確に求まっていない可能性が高いため、指標Q(すなわち、最大値と最小値の差分)は、値が異常に大きい場合、時間積分器164を初期化し、音声制御信号を0とすべきであるという指標となり得る。
さらに、第3の指標として、時間微分器176から初期化判定部154に入力される指標Rおよび時間微分器177から初期化判定部154に入力される指標Sについて説明する。
視差最小値検出部173により検出された視差の最小値と、視差最大値検出部174により検出された視差の最大値は、時間微分器176および時間微分器177により時間微分され、それぞれ、最小値の時間微分値と最大値の時間微分値が求められる。
最小値の時間微分値と最大値の時間微分値は、図11と図12とを参照して上述したように、値が閾値thに比べ大きな値をとる場合に、映像コントラストが低くステレオマッチング処理による視差の検出結果が困難である可能性が高い。したがって、最小値の時間微分値と最大値の時間微分値は、時間積分器164を初期化し、音声制御信号を0とすべきであるという指標となり得る。
最後に、第4の指標として、時間微分器162から初期化判定部154に入力される指標Tについて説明する。
上述したように、時間微分器162および非線形変換器163の作用により、視差からシーンチェンジの影響、映像コントラストが低い場合、および複数のオブジェクトが全画面中に占める割合がほぼ同等となる場合の視差の不安定性の影響を除去することができる。
このとき同時に、時間積分器164を初期化しておくことにより、次に主要な被写体が奥行き方向に移動するシーンが検出され、再び時間積分が開始されるシーンに遷移した際の音声制御信号の初期値が0とされるので、適正な音声制御を行うことができる。
そのため、時間微分器162からの微分値の絶対値が閾値th、もしくは、別途任意に設定された下限の閾値thLまたは上限の閾値thHを超えた場合に、時間積分器164を初期化し、音声制御信号を0とすべきであるという指標となり得る。
初期化判定部154は、これら4種類5つの指標P乃至Tを用いて、時間積分器164を初期化するか否かを判定し、初期化すると判定した場合、初期化信号を生成し、時間積分器164に出力する。
本実施の形態においては、視差の時間微分値を用いることから、ステレオマッチング部151から奥行き情報として視差情報が入力されてから、時間積分器164により音声制御信号が出力されるまで、最低1映像フレームの遅延が生じるものとなっている。
もし、システム上、1映像フレーム以上の遅延が許容される場合には、ステレオマッチングで得られた視差情報に、適切なノイズ除去フィルタ処理を施すことで、ステレオマッチングの検出誤差の軽減が可能となる余地が生じることは言うまでもない。適切なノイズ除去フィルタとは、例えば、移動平均フィルタやメディアンフィルタなどである。
なお、初期化判定部154に入力される指標として、4種類5つの指標P乃至Tを用いたが、これら以外にも、放送チャンネルや入力ソースの切り替え情報や、映像のフレーム間差分を用いたシーンチェンジ検出の結果など、外部からの情報を用いるようにしてもよい。
また、上記説明においては、左眼用画像と右眼用画像からステレオマッチング処理により、視差の度数分布を求め、その中の視差の最頻値、視差の最大値、および視差の最小値を用いる例を説明したが、これに限定されない。例えば、映像に、視差の最頻値、最大値、最小値に変換できるような情報が付加されている場合には、それを用いるようにしてよいことは言うまでもない。
[音声制御部の処理例]
次に、上述したように生成された音声制御信号を用いて、音声信号を制御する処理について説明する。
音声の制御を行う場合、主となる制御対象は、例えば、5.1chのサラウンド信号においては、センタチャンネルが最も適している。これは、演者のセリフはセンタチャンネルに割り当てられることが多く、さらに、画面内に映像として映し出されている被写体の発生する効果音もセンタチャンネルに割り当てられることが多いため、映像から検出された奥行き情報と紐付けしやすいためである。
また、音声の距離感を制御することができるとされる音響パラメータとしては、音量、周波数特性、直接音に対する初期反射音の相対的な音量、および遅延時間などがあげられる(小宮山 摂、立体映像用の音響再生方式、日本音響学会誌66巻12号(2010)、pp.610-615参照)。
そこで、以下では、生成された音声制御信号を用いて、センタチャンネルの上記音響パラメータを制御する方法について説明する。なお、生成された音声制御信号においては、基の情報としては、視差であるが、音声制御に不要な成分が取り除かれているため、映像の奥行きとの関連は失われている。
また、説明の便宜上、音声制御信号の単位として特定の視聴条件における視差の値(単位は1画素)を使用する。例えば、音声制御信号が0であれば、ディスプレイ面(実画面)上に音声が知覚され、音声制御信号が正の値であれば、飛び出し方向に音声が知覚され、音声制御信号が負の値であれば、引っ込み方向に音声が知覚されるように制御されることを示している。
[音声制御部の構成例]
図25は、音声制御部の構成例を示す図である。
音声制御部112は、例えば、一次反射音音圧変換器301、遅延時間変換器302、直接音音圧変換器303、周波数特性変換器304、フィルタ部305、乗算器306、遅延処理部307、乗算器308、および加算器309を含むように構成されている。
時間積分器114からの音声制御信号は、一次反射音音圧変換器301、遅延時間変換器302、直接音音圧変換器303、および周波数特性変換器304に入力される。この音声制御信号は、上述したようにして最適化された視差の最頻値である。
周波数特性変換器304は、時間積分器114からの音声制御信号を、周波数特性パラメータに変換し、変換した周波数特性パラメータをフィルタ部305に出力する。
周波数特性は、例として、図26に示すような特性を持ち、音声制御信号(すなわち、視差の値)が小さいほど、換言するに、音源距離が遠くなるほど空気吸収による高域の減衰が多くなる現象を再現している。
フィルタ部305は、前段からのセンタチャンネル入力に対して、フィルタ処理を行い、フィルタ処理後の信号を、乗算器306に出力する。なお、ここでは、センタチャンネル入力に対して、フィルタ部305の係数を周波数パラメータにより変更することで、距離感の制御が行われる。
直接音音圧変換器303は、時間積分器114からの音声制御信号を、直接音の音圧ゲインに変換し、変換した直接音の音圧ゲインを、乗算器306に出力する。
直接音の音圧ゲインは、例として、図27に示す模式図のように、視差yに対して、3D映像が知覚される奥行きzを、視差y=0の場合、zの値に対する相対値として計算した値が使用され、図28に示されるような特性となる。もちろん、これは、一例であって、適切な効果が得られるように、音圧ゲインの特性を任意に設定することも可能である。
乗算器306は、フィルタ部305によりフィルタリングされた信号に対して、直接音音圧変換器303からの音圧ゲインを乗算することで、距離感の制御を行う。乗算器306からの信号は、遅延処理部307および加算部309に出力される。
遅延時間変換器302は、時間積分器114からの音声制御信号を、一次反射音の遅延時間に変換し、変換した一次反射音の遅延時間を、遅延処理部307に出力する。
一次反射音の遅延時間は、例として、図29に示されるような特性を有する。この特性は、単一反射音の時間遅れと、知覚される音像距離の知見の1つに基づくものであるが、これも一例であって特性を任意に設定してもよい(T.Gotoh,Y,kimura,A.Kurahashi anf A.Yamada:A consideration of distance percention in binaural hearing J.Aoustic Society Japan(E),33,pp667-671参照)。
遅延処理部307は、遅延時間変換器302により変換された一次反射音の遅延時間を用いて、乗算器306からの信号の遅延処理を行い、遅延処理後の信号を、乗算器308に出力する。
一次反射音音圧変換器301は、時間積分器114からの音声制御信号を、直接音に対する一次反射音の音圧比に変換し、変換した直接音に対する一次反射音の音圧比を、乗算器308に出力する。
図30は、一次反射音の音圧比特性の一例を示す図である。これも一例であって、特性は任意に設定されてもよい。
乗算器308は、遅延処理部307からの遅延処理後の信号に、直接音に対する一次反射音の音圧比を乗算し、その乗算結果を、加算部309に出力する。
加算部309は、乗算器306により距離感が制御された信号と、乗算器308により遅延処理後の信号に、直接音に対する一次反射音の音圧比が乗算された信号とを加算し、加算結果を、センタチャンネル出力として、後段の図示せぬスピーカなどに出力する。
以上のように、本技術によれば、3D作品における映像の距離感と音声の距離感の不一致を、3D映像の奥行き情報を用いて音声の奥行き感を調整することで抑制することができる。
その際、以下の映像と音声とを連動されることに適さない情報を排除し、かつ、低い処理遅延時間により、画像遅延用メモリのコストを増大させることなく、良好な映像と音声の連動効果を得ることができる。
連動に適さない情報、すなわち、奥行き情報に含まれる、シーンチェンジなどによる奥行き構造の変化、ステレオマッチングの不安定な挙動、複数の異なる奥行き情報を持ち被写体により構成されるシーンにおける主要なオブジェクトの誤判断などが排除される。
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
<2.第2の実施の形態>
[コンピュータの構成例]
図31は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示している。
コンピュータ500において、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
バス504には、さらに、入出力インタフェース505が接続されている。入出力インタフェース505には、入力部506、出力部507、記憶部508、通信部509、及びドライブ510が接続されている。
入力部506は、キーボード、マウス、マイクロホンなどよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記憶部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインタフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア511を駆動する。
以上のように構成されるコンピュータでは、CPU501が、例えば、記憶部508に記憶されているプログラムを、入出力インタフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブルメディア511をドライブ510に装着することにより、入出力インタフェース505を介して、記憶部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記憶部508にインストールすることができる。その他、プログラムは、ROM502や記憶部508に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
なお、本明細書において、上述した一連の処理を記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本開示における実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
また、以上において、1つの装置(または処理部)として説明した構成を分割し、複数の装置(または処理部)として構成するようにしてもよい。逆に、以上において複数の装置(または処理部)として説明した構成をまとめて1つの装置(または処理部)として構成されるようにしてもよい。また、各装置(または各処理部)の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置(または処理部)の構成の一部を他の装置(または他の処理部)の構成に含めるようにしてもよい。つまり、本技術は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有するであれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例また修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
なお、本技術は以下のような構成も取ることができる。
(1) 動画像情報に関連する視差について、最頻値を算出する視差最頻値算出部と、
前記視差最頻値算出部により算出された最頻値の時間方向の変化から前後感の知覚の連動に適する時間区間を抽出する時間区間抽出部と、
前記時間区間抽出部により抽出された時間区間において前記動画像情報に関連する音情報の奥行感を制御する音声制御信号を生成する制御信号生成部と
を備える信号処理装置。
(2) 前記時間区間抽出部は、前記動画像情報と、前記視差最頻値算出部により算出された最頻値に基づいて、前記動画像のシーン構造の変化を検出し、変化が検出された時間区間を排除するシーン構造変化検出部を含む
前記(1)に記載の信号処理装置。
(3) 前記シーン構造変化検出部は、前記視差最頻値算出部により算出された最頻値を時間微分する時間微分部と、
前記時間微分部により時間微分された最頻値に対して、非線形変換を行う非線形変換部とを備え、
前記制御信号生成部は、前記非線形変換部により非線形変換が行われた最頻値に対して、時間積分を行う時間積分部を備える
前記(2)に記載の信号処理装置。
(4) 前記シーン構造変化検出部は、前記視差最頻値算出部により算出された最頻値の絶対値の大きさに応じて、前記時間積分部により行われる時間積分の初期化を行う初期化判定部をさらに備える
前記(3)に記載の信号処理装置。
(5) 前記時間区間抽出部は、前記動画像情報と、前記視差最頻値算出部により算出された最頻値に基づいて、前記最頻値の信頼性を評価し、信頼性の低い最頻値の時間区間を排除するの最頻値信頼性判定部を含む
前記(1)または(2)に記載の信号処理装置。
(6) 前記最頻値信頼性判定部は、前記視差最頻値算出部により算出された最頻値を時間微分する時間微分部と、
前記時間微分部により時間微分された最頻値に対して、非線形変換を行う非線形変換部とを備え、
前記制御信号生成部は、前記非線形変換部により非線形変換が行われた最頻値に対して、時間積分を行う時間積分部を備える
前記(5)に記載の信号処理装置。
(7) 前記視差について、最大値を算出する視差最大値算出部と、
前記視差について、最小値を算出する視差最小値算出部と
をさらに備え、
前記最頻値信頼性判定部は、前記視差最大値算出部により算出された最大値と前記視差最小値算出部により算出された最小値の差の大きさ、前記最大値の時間変化、および前記最小値の時間変化の少なくとも1つに応じて、前記時間積分部により行われる時間積分の初期化を行う初期化判定部をさらに備える
前記(6)に記載の信号処理装置。
(8) 前記初期化判定部は、前記視差最頻値算出部により算出された最頻値の絶対値の大きさに応じて、前記時間積分部により行われる時間積分の初期化を行う
前記(7)に記載の信号処理装置。
(9) 前記時間区間抽出部は、前記動画像情報に関連する音情報と、前記視差最頻値算出部により算出された最頻値に基づいて、前記動画像情報により前記音情報の制御を行った場合の効果を評価し、前記音声制御信号を変化させる音声制御効果評価部を含む
前記(1)、(2)、または(5)に記載の信号処理装置。
(10) 前記音声制御効果評価部は、前記視差最頻値算出部により算出された最頻値を時間微分する時間微分部と、
前記時間微分部により時間微分された最頻値に対して、非線形変換を行う非線形変換部とを備え、
前記制御信号生成部は、前記非線形変換部により非線形変換が行われた最頻値に対して、時間積分を行う時間積分部を備える
前記(9)に記載の信号処理装置。
(11) 前記音声制御効果評価部は、前記視差最頻値算出部により算出された最頻値と、前記最頻値の時間平均値との差分に応じて、前記時間積分部により行われる時間積分の初期化を行う初期化判定部をさらに備える
前記(10)に記載の信号処理装置。
(12) 前記初期化判定部は、前記視差最頻値算出部により算出された最頻値の絶対値の大きさに応じて、前記時間積分部により行われる時間積分の初期化を行う
前記(11)に記載の信号処理装置。
(13) 信号処理装置が、
動画像情報に関連する視差について、最頻値を算出し、
算出された最頻値の時間方向の変化から前後感の知覚の連動に適する時間区間を抽出し、
抽出された時間区間において前記動画像情報に関連する音情報の奥行感を制御する音声制御信号を生成する
信号処理方法。
(14) 動画像情報に関連する視差について、最頻値を算出する視差最頻値算出部と、
前記視差最頻値算出部により算出された最頻値の時間方向の変化から前後感の知覚の連動に適する時間区間を抽出する時間区間抽出部と、
前記時間区間抽出部により抽出された時間区間において前記動画像情報に関連する音情報の奥行感を制御する音声制御信号を生成する制御信号生成部と
してコンピュータを機能させるプログラム。
101 信号処理装置, 111 信号処理部, 112 音声制御部, 121 奥行き情報生成部, 122 シーン構造変化検出部, 123 奥行き情報信頼性判定部, 124 音響制御効果評価部, 125 音声制御用奥行き情報抽出部, 126 音声制御信号生成部, 151 ステレオマッチング部, 152 最頻値生成処理部, 153 指標算出処理部, 154 初期化判定部, 161 視差最頻値検出部, 162 時間微分器, 163 非線形変換器, 164 時間積分器, 171 時間平均化部, 172 減算器, 173 視差最小値検出部, 174 視差最大値検出部, 175 減算器, 176 時間微分器, 177 時間微分器, 301 一次反射音音圧変換器, 302 遅延時間変換器, 303 直接音音圧変換器, 304 周波数特性変換器, 305 フィルタ部, 306 乗算器, 307 遅延処理部, 308 乗算器, 309 加算器

Claims (15)

  1. 動画像情報に関連する視差について、最頻値を算出する視差最頻値算出部と、
    前記視差最頻値算出部により算出された最頻値の時間方向の変化から前後感の知覚の連動に適する時間区間を抽出する時間区間抽出部と、
    前記時間区間抽出部により抽出された時間区間において前記動画像情報に関連する音情報の奥行感を制御する音声制御信号を生成する制御信号生成部と
    を備える信号処理装置。
  2. 前記時間区間抽出部は、前記動画像情報と、前記視差最頻値算出部により算出された最頻値に基づいて、前記動画像のシーン構造の変化を検出し、変化が検出された時間区間を排除するシーン構造変化検出部を含む
    請求項1に記載の信号処理装置。
  3. 前記シーン構造変化検出部は、前記視差最頻値算出部により算出された最頻値を時間微分する時間微分部と、
    前記時間微分部により時間微分された最頻値に対して、非線形変換を行う非線形変換部とを備え、
    前記制御信号生成部は、前記非線形変換部により非線形変換が行われた最頻値に対して、時間積分を行う時間積分部を備える
    請求項2に記載の信号処理装置。
  4. 前記シーン構造変化検出部は、前記視差最頻値算出部により算出された最頻値の絶対値の大きさに応じて、前記時間積分部により行われる時間積分の初期化を行う初期化判定部をさらに備える
    請求項3に記載の信号処理装置。
  5. 前記時間区間抽出部は、前記動画像情報と、前記視差最頻値算出部により算出された最頻値に基づいて、前記最頻値の信頼性を評価し、信頼性の低い最頻値の時間区間を排除するの最頻値信頼性判定部を含む
    請求項1に記載の信号処理装置。
  6. 前記最頻値信頼性判定部は、前記視差最頻値算出部により算出された最頻値を時間微分する時間微分部と、
    前記時間微分部により時間微分された最頻値に対して、非線形変換を行う非線形変換部とを備え、
    前記制御信号生成部は、前記非線形変換部により非線形変換が行われた最頻値に対して、時間積分を行う時間積分部を備える
    請求項5に記載の信号処理装置。
  7. 前記視差について、最大値を算出する視差最大値算出部と、
    前記視差について、最小値を算出する視差最小値算出部と
    をさらに備え、
    前記最頻値信頼性判定部は、前記視差最大値算出部により算出された最大値と前記視差最小値算出部により算出された最小値の差の大きさ、前記最大値の時間変化、および前記最小値の時間変化の少なくとも1つに応じて、前記時間積分部により行われる時間積分の初期化を行う初期化判定部をさらに備える
    請求項6に記載の信号処理装置。
  8. 前記初期化判定部は、前記視差最頻値算出部により算出された最頻値の絶対値の大きさに応じて、前記時間積分部により行われる時間積分の初期化を行う
    請求項7に記載の信号処理装置。
  9. 前記時間区間抽出部は、前記動画像情報に関連する音情報と、前記視差最頻値算出部により算出された最頻値に基づいて、前記動画像情報により前記音情報の制御を行った場合の効果を評価し、前記音声制御信号を変化させる音声制御効果評価部を含む
    請求項1に記載の信号処理装置。
  10. 前記音声制御効果評価部は、前記視差最頻値算出部により算出された最頻値を時間微分する時間微分部と、
    前記時間微分部により時間微分された最頻値に対して、非線形変換を行う非線形変換部とを備え、
    前記制御信号生成部は、前記非線形変換部により非線形変換が行われた最頻値に対して、時間積分を行う時間積分部を備える
    請求項9に記載の信号処理装置。
  11. 前記音声制御効果評価部は、前記視差最頻値算出部により算出された最頻値と、前記最頻値の時間平均値との差分に応じて、前記時間積分部により行われる時間積分の初期化を行う初期化判定部をさらに備える
    請求項10に記載の信号処理装置。
  12. 前記初期化判定部は、前記視差最頻値算出部により算出された最頻値の絶対値の大きさに応じて、前記時間積分部により行われる時間積分の初期化を行う
    請求項11に記載の信号処理装置。
  13. 信号処理装置が、
    動画像情報に関連する視差について、最頻値を算出し、
    算出された最頻値の時間方向の変化から前後感の知覚の連動に適する時間区間を抽出し、
    抽出された時間区間において前記動画像情報に関連する音情報の奥行感を制御する音声制御信号を生成する
    信号処理方法。
  14. 動画像情報に関連する視差について、最頻値を算出する視差最頻値算出部と、
    前記視差最頻値算出部により算出された最頻値の時間方向の変化から前後感の知覚の連動に適する時間区間を抽出する時間区間抽出部と、
    前記時間区間抽出部により抽出された時間区間において前記動画像情報に関連する音情報の奥行感を制御する音声制御信号を生成する制御信号生成部と
    してコンピュータを機能させるプログラム。
  15. 動画像情報に関連する視差について、最頻値を算出する視差最頻値算出部と、
    前記視差最頻値算出部により算出された最頻値を時間微分する時間微分部と、
    前記時間微分部により時間微分された最頻値に対して、非線形変換を行う非線形変換部と、
    前記非線形変換部により非線形変換が行われた最頻値を時間積分する時間積分部と
    を備える信号処理装置。
JP2012117091A 2012-05-23 2012-05-23 信号処理装置、信号処理方法、およびプログラム Pending JP2013243626A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012117091A JP2013243626A (ja) 2012-05-23 2012-05-23 信号処理装置、信号処理方法、およびプログラム
CN2013101819186A CN103428625A (zh) 2012-05-23 2013-05-16 信号处理装置、信号处理方法和程序
US13/895,437 US20130314497A1 (en) 2012-05-23 2013-05-16 Signal processing apparatus, signal processing method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012117091A JP2013243626A (ja) 2012-05-23 2012-05-23 信号処理装置、信号処理方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP2013243626A true JP2013243626A (ja) 2013-12-05

Family

ID=49621283

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012117091A Pending JP2013243626A (ja) 2012-05-23 2012-05-23 信号処理装置、信号処理方法、およびプログラム

Country Status (3)

Country Link
US (1) US20130314497A1 (ja)
JP (1) JP2013243626A (ja)
CN (1) CN103428625A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017525292A (ja) * 2014-07-22 2017-08-31 ホアウェイ・テクノロジーズ・カンパニー・リミテッド 入力音声信号を操作するための装置および方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6622388B2 (ja) * 2015-09-04 2019-12-18 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. ビデオ画像に関連付けられているオーディオ信号を処理する方法および装置
US11520041B1 (en) * 2018-09-27 2022-12-06 Apple Inc. Correcting depth estimations derived from image data using acoustic information

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10360685B2 (en) * 2007-05-24 2019-07-23 Pillar Vision Corporation Stereoscopic image capture with performance outcome prediction in sporting environments
US6791311B2 (en) * 2002-02-13 2004-09-14 Vaisala Oyj Lightning detection and data acquisition system
US7519845B2 (en) * 2005-01-05 2009-04-14 Microsoft Corporation Software-based audio rendering
JP5347717B2 (ja) * 2008-08-06 2013-11-20 ソニー株式会社 画像処理装置、および画像処理方法、並びにプログラム
JP5521913B2 (ja) * 2009-10-28 2014-06-18 ソニー株式会社 画像処理装置、および画像処理方法、並びにプログラム
KR101717787B1 (ko) * 2010-04-29 2017-03-17 엘지전자 주식회사 디스플레이장치 및 그의 음성신호 출력 방법
GB2479932A (en) * 2010-04-30 2011-11-02 Sony Corp Stereoscopic camera system with two cameras having synchronised control functions
US8665321B2 (en) * 2010-06-08 2014-03-04 Lg Electronics Inc. Image display apparatus and method for operating the same
KR101910192B1 (ko) * 2010-11-12 2018-10-22 한국전자통신연구원 3dtv 서비스에서의 영상 압축 규격 결정 방법 및 장치
US8941720B2 (en) * 2011-02-02 2015-01-27 National Tsing Hua University Method of enhancing 3D image information density
WO2012128535A2 (en) * 2011-03-21 2012-09-27 Lg Electronics Inc. Apparatus for controlling depth/distance of sound and method thereof
IN2014CN03412A (ja) * 2011-11-01 2015-10-09 Koninkl Philips Nv

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017525292A (ja) * 2014-07-22 2017-08-31 ホアウェイ・テクノロジーズ・カンパニー・リミテッド 入力音声信号を操作するための装置および方法
US10178491B2 (en) 2014-07-22 2019-01-08 Huawei Technologies Co., Ltd. Apparatus and a method for manipulating an input audio signal

Also Published As

Publication number Publication date
US20130314497A1 (en) 2013-11-28
CN103428625A (zh) 2013-12-04

Similar Documents

Publication Publication Date Title
EP2700250B1 (en) Method and system for upmixing audio to generate 3d audio
JP5425897B2 (ja) 前方及び後方の深度予測を伴う、画像の深度抽出のシステム及び方法
US20070120972A1 (en) Apparatus and method for processing 3D video signal
JP2016527791A (ja) 画像処理方法及び装置
JP2014103689A (ja) 立体映像エラー改善方法及び装置
US9661307B1 (en) Depth map generation using motion cues for conversion of monoscopic visual content to stereoscopic 3D
EP1019873A1 (en) Image processing method and apparatus
JP2009501476A (ja) ビデオ時間アップコンバージョンを用いた処理方法及び装置
JP2012257022A (ja) 画像処理装置および方法、並びにプログラム
JP2012138885A (ja) 画像処理装置、および画像処理方法、並びにプログラム
US20120050491A1 (en) Method and system for adjusting audio based on captured depth information
US9100633B2 (en) Electronic device generating stereo sound synchronized with stereographic moving picture
JPWO2010035492A1 (ja) 立体画像処理装置および立体画像処理装置のノイズ低減方法
JP2013243626A (ja) 信号処理装置、信号処理方法、およびプログラム
EP3850470B1 (en) Apparatus and method for processing audiovisual data
JP2013135357A (ja) 奥行き推定データの生成装置、生成方法及び生成プログラム、並びに疑似立体画像の生成装置、生成方法及び生成プログラム
US11012774B2 (en) Spatially biased sound pickup for binaural video recording
US10747492B2 (en) Signal processing apparatus, signal processing method, and storage medium
US9761058B2 (en) Image processing apparatus and image processing method
JP2014016792A (ja) 画像処理装置および方法、並びにプログラム
US20120188244A1 (en) Depth estimation data generating device, computer readable recording medium having depth estimation data generating program recorded thereon, and pseudo-stereo image display device
KR101896570B1 (ko) 입체 동영상에 동기화된 입체 음향을 생성할 수 있는 전자 기기
JP2011234139A (ja) 3次元音声信号生成装置
CN110121890B (zh) 处理音频信号的方法和装置及计算机可读介质
WO2018129086A1 (en) Sound leveling in multi-channel sound capture system