JP6216169B2 - 情報処理装置、情報処理方法 - Google Patents

情報処理装置、情報処理方法 Download PDF

Info

Publication number
JP6216169B2
JP6216169B2 JP2013138442A JP2013138442A JP6216169B2 JP 6216169 B2 JP6216169 B2 JP 6216169B2 JP 2013138442 A JP2013138442 A JP 2013138442A JP 2013138442 A JP2013138442 A JP 2013138442A JP 6216169 B2 JP6216169 B2 JP 6216169B2
Authority
JP
Japan
Prior art keywords
sound
image
focus
subject
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013138442A
Other languages
English (en)
Other versions
JP2014082746A5 (ja
JP2014082746A (ja
Inventor
金子 和恵
和恵 金子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2013138442A priority Critical patent/JP6216169B2/ja
Priority to US14/024,969 priority patent/US20140086551A1/en
Publication of JP2014082746A publication Critical patent/JP2014082746A/ja
Publication of JP2014082746A5 publication Critical patent/JP2014082746A5/ja
Application granted granted Critical
Publication of JP6216169B2 publication Critical patent/JP6216169B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/87Regeneration of colour television signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/77Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
    • H04N5/772Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera the recording apparatus and the television camera being placed in the same enclosure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/45Cameras or camera modules comprising electronic image sensors; Control thereof for generating image signals from two or more image sensors being of different type or operating in different modes, e.g. with a CMOS sensor for moving images in combination with a charge-coupled device [CCD] for still images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/70Circuitry for compensating brightness variation in the scene
    • H04N23/743Bracketing, i.e. taking a series of images with varying exposure conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N25/00Circuitry of solid-state image sensors [SSIS]; Control thereof
    • H04N25/60Noise processing, e.g. detecting, correcting, reducing or removing noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/806Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal
    • H04N9/8063Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal using time division multiplex of the PCM audio and PCM video signals

Description

本発明は、リフォーカス処理を用いた情報処理技術に関するものである。
従来、映像は撮影時にフォーカスを決定して記録する方法がとられてきたが、近年、複数のレンズを使用して多視点映像を撮影し、再生時にフォーカスを変更できる方法が提案されている。この方法を使えば、ある一点にピントが合っている状態から任意の点にピントが合っている状態へ奥行きを変えていく様子を段階的に再現できる。この中間の過程においてはどこにもピントの合っていないぼやけた映像が表示されることもある。
一方、複数のマイクを使って多聴点音声を収録し、再生時にある一定方向の音を強調して再生する方法も提案されている。特許文献1は、複数のカメラと複数のマイクを円形に配置して360度の映像を撮影し、ユーザが選んだ画面の方向に対応させた音を再生するものである。特許文献2は、映像を解析して主要被写体の領域を検出し、その領域の位置情報に合わせて音を合成するものである。また、映像の特徴に合わせて音を合成するものも提案されている。特許文献3は、映像を解析し、映像の特徴に合わせて音響信号の信号特性を変更するものである。
特開平9−55925号公報 特開2011-50009号公報 特開平7-131770号公報
デジタルリフォーカスを行う際に、音声の再生をどう行うべきかという課題がある。A地点にピントがあっている映像からB地点にピントがあっている映像に移行する際、ピントの合う位置の奥行きを徐々に変更している間にどこにもピントの合っていない映像が再生されることがある。通常の音の再生ではどの状態でも同じ音が再生されるが、より臨場感を増すために、音源分離技術を適用することが考えられる。A地点にピントが合っている時にはA地点から聞こえる音を再現し、B地点にピントが合っている時にはB地点から聞こえる音を再現することが望ましい。その間のピントの合っていない映像の音はどうするべきか未だ検討がなされていない。
特許文献1,2の手法からの類推では、ピントの合っていない映像に対しては方向や領域を確定できないため、合成すべき音の指標が得られない。特許文献3の手法を適用すると、ぼけた画像にはぼやけた音を再生することになるが、どの段階の映像に対しても一様に同じぼやけた音を再生することになり、段階的な変化を表現することができない。
本発明は、このような問題に鑑みてなされたものであり、表示画像におけるピントの変化に合わせて再生音声を変化させることで、臨場感のある音声再生を行う為の技術を提供することを目的とする。
本発明の目的を達成するために、例えば、本発明の、情報処理装置は、複数の視点から撮影して取得された複数の画像から、音源となる第1の被写体が第1のピント距離で合焦している第1の画像と、音源となる第2の被写体が該第1のピント距離とは異なる第2のピント距離で合焦している第2の画像と、前記第1のピント距離と前記第2のピント距離との間の第3のピント距離で合焦している第3の画像と、を生成する画像生成手段と、
前記第1の画像、前記第3の画像、前記第2の画像、を1枚ずつ表示部に表示する表示制御手段と、
前記第1の被写体から発せられる第1の音及び前記第2の被写体から発せられる第2の音を用いて、音を生成する音生成手段と、
前記表示制御手段が前記表示部に前記第1の画像を表示中に前記第1の音を再生し、前記表示制御手段が前記表示部に前記第2の画像を表示中に前記第2の音を再生し、前記表示制御手段が前記表示部に前記第3の画像を表示中に前記音生成手段が生成した音を再生する再生手段と
前記画像生成手段により生成され且つ互いにピント距離が異なる、前記第1の画像、前記第2の画像、前記第3の画像を含むそれぞれの画像から、該画像において合焦している被写体の焦点領域が抽出可能か否かを判断する判断手段と、
前記焦点領域が抽出可能な画像と、前記焦点領域において合焦している前記被写体から発せられる音と、を関連づける関連づけ手段と
を備え、
前記第1の被写体及び前記第2の被写体は前記第3のピント距離では合焦しておらず、
前記再生手段は、前記表示制御手段が前記焦点領域が抽出可能な画像を前記表示部に表示中に、前記焦点領域が抽出可能な画像と関連づけられている音を再生し、前記表示制御手段が音と関連づけられていない画像を前記表示部に表示中に、音と関連づけられていない画像について生成された合成音を再生することを特徴とする。
本発明の構成により、表示画像におけるピントの変化に合わせて再生音声を変化させることで、臨場感のある音声再生を行うことができる。
撮像装置の外観例を示す図。 撮像装置のハードウェア構成例を示すブロック図。 撮像装置の機能構成例を示すブロック図。 撮像装置が行う処理のフローチャート。 撮像画像、リフォーカス画像、音声の一例を説明する図。 音源分離処理を説明する図。 リフォーカス処理の結果の例を示す図。 対応付け情報の一例を示す図。 情報処理装置の機能構成例を示すブロック図。 情報処理装置が行う処理のフローチャート。 画像表示及び音声再生の一例を示す図。 第4の実施形態の動作を説明する図。 第5の実施形態の動作を説明する図。 第6の実施形態の動作を説明する図。 第6の実施形態の動作を説明する図。 情報処理装置の機能構成例を示すブロック図。 情報処理装置が行う画像再生処理及び音声再生処理のフローチャート。 ステップS709及びステップS710にて行う処理のフローチャート。
以下、添付図面を参照し、本発明の好適な実施形態について説明する。なお、以下説明する実施形態は、本発明を具体的に実施した場合の一例を示すもので、特許請求の範囲に記載の構成の具体的な実施例の1つである。
[第1の実施形態]
本実施形態に係る情報処理装置の機能構成例について、図13のブロック図を用いて説明する。
音声取得部1301は、音声を収集可能な複数の装置(マイクロフォンなど)によって収集された音声(収集音)を取得する。音源分離部1302は、音声取得部1301が取得した収集音を、同じ音源からの音声(分離音)ごとに分離すると共に、該分離音の音源の位置を求める。
音声合成部1303は、画像再生部1310が再生表示する画像に対応する音声のデータである音声データを出力する。音声再生部1304は、音声合成部1303から出力された音声データに基づく音声をスピーカなどを介して出力する。音声再生部1304による音声再生は、画像再生部1310による画像再生に同期して行う。
画像取得部1308は、複数の撮像装置を用いて撮像された多視点の映像を取得する。リフォーカス部1309は、画像取得部1308が取得した多視点の映像を用いてリフォーカス処理を行うことで、ピントの奥行きがそれぞれ異なる複数の画像(リフォーカス画像)を生成する。
画像再生部1310は、リフォーカス部1309が生成したリフォーカス画像を表示画像として表示する。表示するものは、生成した全てのリフォーカス画像を一度若しくは順次表示しても良いし、不図示の指示部によってユーザが指定したリフォーカス画像を表示してもよい。いずれにせよ、上記の通り、画像再生部1310によるリフォーカス画像の画像再生に同期して音声再生部1304は、該リフォーカス画像に対応する音声の再生を行う。
ピント領域検出部1307は、リフォーカス部1309が生成したそれぞれのリフォーカス画像に対し、該リフォーカス画像内(表示画像内)でピントの合っている領域(ピント領域)を検出する処理を行う。そしてピント領域検出部1307は、リフォーカス画像からピント領域を検出することができた場合には、該ピント領域内に写っている対象物の実空間中の位置(ピントの位置)を求める。
位置判定部1305は、ピント領域検出部1307が求めたそれぞれのピントの位置と、音源分離部1302が求めたそれぞれの音源の位置と、を比較することで、ピントの位置と同じ位置の音源の位置を検索する。なお、ここでの「同じ」とは「全く同じ」であることに限るものではなく、「ある許容範囲内の誤差を認めた上での同じ」であるとする。
奥行き・分離音対応付け管理部1306は、ピント領域を求めたリフォーカス画像と、該ピントの位置と同じ位置の音源からの音声と、を関連付けるための処理を行う。本実施形態では、ピントの位置と、該位置と同じ位置の音源からの音声と、を関連付けて登録する。
なお、登録する情報については様々な形態が考え得るが、以下に説明する各処理を実現できるのであれば、如何なる情報を登録してもよい。これは、以下に説明する各実施形態についても同様である。
本実施形態に係る情報処理装置が行う画像再生処理及び音声再生処理について、図14のフローチャートを用いて説明する。
ステップS1401では、複数の撮像装置のそれぞれが動画の撮像を行うことにより、該複数の撮像装置による多視点の映像の撮像が行われるので、画像取得部1308は、該複数の撮像装置により撮像された多視点の映像を取得する。
ステップS1402では、音源分離部1302は、音声取得部1301が取得した収集音を同じ音源からの音声である分離音ごとに分離すると共に、該分離音の音源の位置を求める。
ステップS1403では、リフォーカス部1309は、画像取得部1308が取得した多視点の映像を用いてリフォーカス処理を行うことで、複数枚のリフォーカス画像を生成する。
ステップS1404では、ピント領域検出部1307は、リフォーカス部1309が生成したそれぞれのリフォーカス画像に対してピント領域の検出処理を行い、ピント領域が検出された場合には、該ピント領域内におけるピントの位置を求める。
ステップS1405では、位置判定部1305は、ピント領域検出部1307が求めたそれぞれのピントの位置と、音源分離部1302が求めたそれぞれの音源の位置と、を比較することで、ピントの位置と同位置の音源位置を検索する。ステップS1406では、奥行き・分離音対応付け管理部1306は、ピントの位置と、該位置と同じ位置の音源からの音声と、を関連付けて登録する。
ステップS1407では、音声合成部1303は、画像再生部1310が再生表示対象とするリフォーカス画像からピントの位置が求められており、且つ該位置と関連付けて音声が登録されている場合には、該音声のデータを音声再生部1304に出力する。一方、音声合成部1303は、再生表示対象のリフォーカス画像からピントの位置は求められているものの、該位置と関連付けて音声が登録されていない場合、該位置の近傍位置(近接する位置)と関連付けて登録されている音声を合成して合成音声を生成する。そして音声合成部1303は、この生成した合成音声のデータを音声再生部1304に出力する。音声再生部1304は、音声合成部1303から出力されたデータに従った音声を再生する。
ステップS1408では、画像再生部1310は、再生表示対象とするリフォーカス画像を、音声再生部1304による音声再生と同期させて再生表示する。なお、図14のフローチャートにおける各ステップにおける処理の詳細については、以下の各実施形態でより詳細に触れるため、ここでの説明は省略する。
なお、ステップS1402〜S1406までの処理は、撮影後からデジタルリフォーカス再生までの間ならば、任意の時間に行ってもよい。また、ステップS1401の処理、ステップS1402〜S1406の処理、ステップS1407〜S1408の処理、の3つの処理は別々の処理として分割可能である。
[第2の実施形態]
本実施形態に係る情報処理装置は、複数の撮像部と複数の音声収集部とを備える撮像装置であり、多視点の映像の撮影及び複数の音声の収集を行うと共に、リフォーカス画像の再生表示と同期させて対応する音声を再生する。
先ず、本実施形態に係る撮像装置の外観例について図1を用いて説明する。図1(A)は、撮像装置を正面から見た図、図1(B)は、撮像装置を右横から見た図、図1(C)は、撮像装置を真上から見た図、である。
撮像装置の本体100における正面には、図1(A)に示す如く、カラー画像を撮像可能な9個の撮像部(101〜109)と、音声の収集が可能なマイクロフォンを有する3つの音声入力部(113〜115)と、が備わっている。また、図1(A)、(B)に示す如く、撮像装置の側面には1個の音声入力部112が備わっていると共に、図1(A)、(C)に示す如く、撮像装置の上面には1個の音声入力部111が備わっている。なお、図1に示した撮像部及び音声入力部の数や配置パターンはあくまでも一例であり、これについては様々な変形例が考え得る。例えば、撮像部を放射状や直線状に配置してもよいし、まったくランダムに配置してもよい。これは音声入力部についても同様である。
ユーザが撮像ボタン110を押下すると、撮像部101〜109及び音声入力部111〜115が動作する。撮像部101〜109のそれぞれは、自身が有するセンサ(撮像素子)により、外界から入光する光を電気信号に変換し、該電気信号をA/D変換することで、デジタルデータとしての撮像画像を得る。音声入力部111〜115のそれぞれは、外界からの音声を収集し、該音声をA/D変換することで、デジタルデータとしての音声を得る。
このような方式の撮像装置により、同一の被写体を複数の視点位置から撮像したカラー画像群および撮影箇所の周辺から発せられる音声を複数の位置で収録した音声群を得ることができる。
次に、本実施形態に係る撮像装置のハードウェア構成例について、図2のブロック図を用いて説明する。なお、図2において、図1に示した機能部と同じ機能部については同じ参照番号を付しており、これに係る説明は省略する。
CPU201は、RAM202やROM203に格納されているコンピュータプログラムやデータを用いて処理を実行することで、撮像装置を構成する各部の動作制御を行い、これにより、撮像装置が行うものとして後述する各処理を実現する。
RAM202は、撮像部101〜109や音声入力部111〜115から得られるデータを一時的に記憶するためのエリアを有する。更にRAM202は、CPU201、デジタル信号処理部209、エンコーダ部210、画像処理部212、音声処理部216、等の各部が動作する際に用いるワークエリアを有する。即ち、RAM202は、各種のエリアを適宜提供することができる。
ROM203には、撮像装置の動作に係る様々なコンピュータプログラムやデータが格納されている。
操作部205は、ユーザが各種の指示をCPU201に入力するために操作するものであり、ボタンやモードダイヤル等により構成されている。
表示制御部207は、表示部206に画像や文字などを表示するための表示制御を行う。表示部206は、画像や文字などを表示するためのもので、例えば、液晶ディスプレイが用いられる。なお、表示部206はタッチスクリーン機能を有していても良く、その場合はタッチスクリーンを用いたユーザ指示を操作部205の入力として扱うことも可能である。
撮像部制御部208は、撮像部101〜109の動作制御を行うためのもので、CPU201からの制御信号に応じて、撮像部101〜109のそれぞれのシャッターの開閉、絞りの調節、等を行う。
デジタル信号処理部209は、与えられデータに対し、ホワイトバランス処理、ガンマ処理、ノイズ低減処理など、そのデータに適切な処理を実行する。エンコーダ部210は、与えられたデータを、JPEGやMPEGなどのファイルフォーマットに変換する処理を行う。
外部メモリ制御部211は、撮像装置をPC(パーソナルコンピュータ)やその他のメディア(例えば、ハードディスク、メモリーカード、CFカード、SDカード、USBメモリ)に接続するためのインターフェースとして機能する。
画像処理部212は、撮像部101〜109による撮像画像や、該撮像画像をデジタル信号処理部209によって処理した撮像画像を用いて、リフォーカス画像を生成するなどの画像処理を行う。
音声出力制御部214は、音声出力部213に供給する音声データを生成したり、音声出力部213の動作制御を行う。音声出力部213は、音声出力制御部214による制御に従って動作し、音声出力制御部214から供給された音声データに従った音声を、内臓スピーカを介して出力したり、外部への音声出力端子による外部への出力を行ったりする。
音声入力部制御部215は、音声入力部111〜115のそれぞれからの音声をデータとしてRAM202に送出したり、無音・有音の切り替え、音声入力部111〜115のそれぞれのマイク感度をCPU201からの指示に基づいて制御する等の制御を行う。
音声処理部216は、音声入力部111〜115のそれぞれからの音声や、該音声をデジタル信号処理部209によって処理した音声を用いて、音源分離、リフォーカス画像再生時の音声合成などの処理を行う。
上記の各部は何れも、バス204に接続されている。なお、図2に示した構成は、主要な構成を列挙したに過ぎず、以下に説明する各処理を達成できるのであれば、様々な変形例が考え得る。例えば、エンコーダ部210や画像処理部212、音声処理部216をコンピュータプログラムで実装し、ROM203に格納させるようにしても良い。
次に、本実施形態に係る撮像装置の機能構成例について、図3のブロック図を用いて説明する。
音声入力部301は、音声入力部111〜115によって収集された音声(収集音)を取得する。音声入力部301は、音声入力部制御部215やデジタル信号処理部209が有する機能として実現される。
音源分離部302は、音声入力部301によって入力された収集音を、同じ音源からの音(分離音)ごとに分離すると共に、該分離音の音源の位置を求める。音源分離部302は、音声処理部216が有する機能として実現される。
画像入力部306は、撮像部101〜109を用いて撮像された多視点の映像を取得する。画像入力部306は、画像処理部212やデジタル信号処理部209が有する機能として実現される。
デジタルリフォーカス部307は、画像入力部306によって入力された多視点の映像を用いてリフォーカス処理を行うことで、一定の被写界深度を持ちかつ任意のピントの合う奥行きを持つ画像(リフォーカス画像)を複数枚生成する。デジタルリフォーカス部307は、画像処理部212が有する機能として実現される。
ピント領域検出部308は、デジタルリフォーカス部307が生成したそれぞれのリフォーカス画像に対し、該リフォーカス画像内でピントの合っている領域をピント領域として検出する処理を行う。そしてピント領域検出部308は、リフォーカス画像内でピント領域を検出した場合には、該ピント領域内でピントが合っている箇所の実空間中の位置(ピントの位置)を求める。ピント領域検出部308は、画像処理部212が有する機能として実現される。
位置判定部303は、ピント領域検出部308が求めたそれぞれのピントの位置と、音源分離部302が求めたそれぞれの音源の位置と、を比較することで、ピントの位置と同じ位置の音源の位置を検索する。位置判定部303は、CPU201が有する機能として実現される。
奥行き・分離音対応付け管理部304は、ピント領域を求めたリフォーカス画像と、該ピント領域内におけるピントの位置と同じ位置の音源からの音と、を関連付ける。本実施形態では、ピントの位置と、該位置と同じ位置の音源からの音と、を関連付ける。奥行き・分離音対応付け管理部304は、CPU201が有する機能として実現される。
記録部305は、奥行き・分離音対応付け管理部304により関連づけを行った情報をメモリなどに記録する処理を行うもので、外部メモリ制御部211が有する機能として実現される。
なお、外部メモリに記録された映像データや外部機器から転送された映像データに対してこの処理を行う場合には、図2の撮像装置の構成に限定されずにPC上での処理も可能となる。音声入力部301及び画像入力部306はそれぞれ、音声および画像の入力部となる。
次に、音源分離処理とデジタルリフォーカスを行い、デジタルリフォーカス時のピントの合う奥行きと分離音の対応付けを行うために、撮像装置が行う処理について、同処理のフローチャートを示す図4を用いて説明する。なお、図4のフローチャートに従った処理を開始する時点で、RAM202には、撮像部101〜109による多視点の映像(デジタル信号処理部209によって処理されていても良い)が格納されているものとする。
ステップS401では、CPU201は、RAM202に処理対象とするデータがあるか否かを判断する。この判断の結果、処理対象とするデータがあると判断した場合には、処理はステップS402に進み、処理対象とするデータがないと判断した場合には、図4のフローチャートに従った処理を終了する。対象とする映像について、一定時間ごと(例えば100msecごと)に以下の処理を繰り返す。撮影中の映像に対して適用する場合には撮影開始時に開始し、撮影終了とした段階で終了する。
ステップS402で音声処理部216は、一定期間内に音声入力部111〜115によって収集された収集音(デジタル信号処理部209によって処理されていても良い)を、同じ音源からの音(分離音)ごとに分離すると共に、該分離音の音源の位置を求める。
ここで、収集音を、同じ音源からの音(分離音)ごとに分離する音源分離の方法としては、独立成分分析に基づくブラインド音源分離などの手法があるが、既知の技術であるので詳細は省略する。音源分離の結果として、異なる音源から発せられた音を分割して取り出すことができる。また、周波数ごとに分離した信号をクラスタリングする際に、マイクロフォン対への各音源の到達時間差を推定して使う方法もあり、この場合にはマイク位置情報と到達時間差から三角測量法を用いて、その音源の位置も取り出すこと(音源定位)もできる。
図5Aの撮影例では、近距離にコオロギ503、遠距離に木とカッコウ502がおり、コオロギ503とカッコウ502が同時に鳴いている風景の映像501を撮影している。このような風景を撮像部101〜109により撮像することで、多視点の映像504が撮像され、音声入力部111〜115によりこの風景における音声505が収録される。
音声入力部111〜115(マイク入力506)から得られる音声505は、コオロギ503とカッコウ502の声が混じった音であるが、そのボリュームや音声到達時間の配分はマイク位置により微妙に異なっている。この音声505に対して音源分離処理507を行うことにより、分離音508及び509を得ることができる。この時、音源の位置情報(音源位置(奥行きを含む))も求める。図5Bの508の、(−200,80,1500)は、分離したカッコウの音の位置を、画像フレームの中心を(0,0)とした時、実際の音源位置を実寸のcm単位(x,y,z)で示したものである。奥行き15mの距離の2次元平面で、中心位置から左へ2m、上へ0.8mの位置からその音が発生していることを示す。図5Bの509の(20,−21,30)は分離したコオロギの音の位置を示すものである。奥行き0.3mの距離の2次元平面で、中心位置から右へ0.20m、下へ0.21mの位置からその音が発生していることを示す。
図4に戻って、次に、ステップS403では、CPU201は、分離音を求めることができたか否かを判断する。周波数成分ごとに分離した分離信号を、推定到達時間差を用いてクラスタリングする際に、任意の範囲内に信号が集まらずに有意なクラスタが作成できない場合には音源が分離できない(分離音を求めることができない)ものとする。分離できない場合には、その時間帯の映像には対応する音源がないものと判断し、処理はステップS401に戻る。一方、分離できた(分離音を求めることができた)場合には、処理はステップS404に進む。
ステップS404では、画像処理部212は、撮像部101〜109による多視点の映像を用いてリフォーカス処理を行うことで、一定の被写界深度を持ちかつ任意のピントの合う奥行きを持つ画像(リフォーカス画像)を、奥行きを任意の間隔で複数作成する。間隔は一定距離でもよいし、手前方向の間隔を広く奥方向を狭くするような対数で求められる距離としてもよい。
リフォーカスの方法としては、撮影位置の異なる複数枚の画像から各画像をシフトあるいは合成して作成する合成開口撮影法などがあるが、既知の技術なので詳細は省略する。図5Cはリフォーカス処理の結果の例を示す図である。510はピントの合う奥行きを変えて作成したリフォーカス画像群である。
図4に戻って、次に、ステップS405では、CPU201は、ステップS404で生成した複数枚のリフォーカス画像において未選択のリフォーカス画像のうちの1つを選択リフォーカス画像として選択する。
ステップS406では、CPU201は、未選択のリフォーカス画像が無くてステップS405で未選択のリフォーカス画像が選択できなかったか否かを判断する。この判断の結果、未選択のリフォーカス画像を選択することができた場合には、処理はステップS407に進み、未選択のリフォーカス画像が選択できなかった場合には、処理はステップS401に戻る。
ステップS407では、画像処理部212は、選択リフォーカス画像に対して画像処理を行うことで、ボケ度の少ない境界のはっきりした画像の存在する領域(ピント領域)の検出処理を行う。画像のボケの度合いを判定する基準としてMTF(Modulation Transfer Function)曲線がある。MTFの求め方についても既知の技術であるので詳細は省略する。画像を一定の領域に分割し、それぞれの分割領域でMTF曲線を求め、空間周波数成分が高域に一定量存在する場合をピント領域とする。図5Cにおいてリフォーカス画像511及び512がピント領域の存在する画像であり、リフォーカス画像511は領域518にピントがあっており、リフォーカス画像512は領域519にピントが合っている。
そして画像処理部212は、ピント領域内に写っている対象物の実空間中の位置をピントの位置として求める。ピントの合っている領域は最初、画像内でのピクセル単位の座標として求められるが、さらに音源位置との同一性を調べるため、画角などの情報を合わせて、実寸の位置に変換し、cm単位で(x,y,width, height,z)の順で示す。図5Cの領域519の(−220,−130,180,200,1500)は奥行き15mの距離の2次元平面で中心から左へ2.2m、下へ1.3mの位置から幅1.8m高さ2mの領域に存在する被写体(カッコウと木)にピントが合っていることを示す。領域518の(18,−22,3,1,30)は奥行き.0.3mの距離の2次元平面で中心から右へ0.18m、下へ0.22mの位置から、幅0.03m、高さ0.01mの領域に存在する被写体(コオロギ)にピントが合っていることを示す。その中間のリフォーカス画像はどこにもピントの合っていない全体にぼやけた画像である。
図4に戻って、次に、ステップS408では、CPU201は、選択リフォーカス画像からピント領域が検出されたか否かを判断する。この判断の結果、選択リフォーカス画像からピント領域が検出された場合には、処理はステップS409に進み、選択リフォーカス画像からピント領域が検出されなかった場合には、処理はステップS405に戻る。
ステップS409では、CPU201は、ステップS402で求めたそれぞれの音源の位置のうち、ステップS407で求めた位置と同位置があるか否かを判断する。図5Cのリフォーカス画像511における領域518の(18,−22,3,1,30)が示す対象物(コオロギ)の領域は、分離音509の音源位置と重なる。然るにこの場合、リフォーカス画像511における領域518内のピントの位置と、分離音509の音源位置とは同位置と判断する。また、図5Cのリフォーカス画像512における領域519の(−220,−130,180,200,1500)が示す対象物の領域は、分離音508の音源位置と重なる。然るにこの場合、リフォーカス画像512における領域519内のピントの位置と、分離音508の音源位置とは同位置と判断する。
なお、位置判定は、点の重複以外に、画面を高さ・幅の2次元で分割した領域、奥行きを近距離領域・中距離領域・遠距離領域に分割した領域に、音源位置とピントの位置を配置した場合に同一の分割領域にある場合に同位置にあるとしてもよい。分割の個数は任意である。
ステップS402で求めたそれぞれの音源の位置のうち、ステップS407で求めた位置と同位置があれば、処理はステップS410を介してステップS411に進み、無ければ処理はステップS405に戻る。
ステップS411では、CPU201は、図5Dに例示する如く、ピントの位置(ピント領域内におけるピントの奥行き座標)と、該ピント領域と同位置の音源に対して割り当てたIDと、をセットにした対応付け情報を作成する。
そしてステップS412では、外部メモリ制御部211は、ステップS411で作成された対応付け情報を、外部メモリ制御部211に接続されているメモリに記録する。もちろん、記録先は特定の記録先に限るものではない。
上記の実施形態では、リフォーカス画像と分離音とを関連付けるために、ピントの位置(奥行き)と、該位置と同じ位置の音源からの音声と、を関連付けていた。この変形例として、ピント領域が離れて複数存在し、且つ対応する分離音も複数存在するものについては、一つの奥行きに対応する複数の分離音を合成して一対一の対応としてもよいし、一つの奥行きに対して複数の分離音を対応付けられるようにしてもよい。
一方、分離音の位置やピントの位置も併せて保存するようにし、ピント領域が離れて複数存在する映像に対応音源が複数存在する場合、奥行き、ピント位置、分離音位置、分離音の情報をメモリに登録し、一つの奥行きに対して複数の対応付けを行ってもよい。
上記の実施形態では、一定時間ごとにステップS402〜S412の処理を繰り返している。しかし、一定時間ごとの音源分離を映像のすべてについて行い、音源分離の後で、一定時間ごとのデジタルリフォーカス画像作成とピント領域の検出をすべての映像で行い、その後で一定時間ごとのすべての対応付けを行ってもよい。
いずれにせよ、本実施形態やその他の実施形態で説明する装置の構成は、以下に説明する構成の一例に過ぎず、以下に説明する構成を前提として様々な変形を施したものである。
即ち、複数の視点から撮影された映像を多視点映像として取得し、該多視点映像を用いてリフォーカス処理を行うことで、ピントの奥行きがそれぞれ異なる複数枚の画像を生成する。また、複数の箇所で収集された音声を音源ごとに分離すると共に、該音源の実空間中の位置を求め、生成した画像内でピントが合っている対象の位置と、該位置と同位置の音源からの音声と、を関連付けて登録する。
[第3の実施形態]
動画の再生中にデジタルリフォーカスを行う情報処理装置の機能構成例について、図6のブロック図を用いて説明する。
フォーカス箇所指定部601は、ピントの合う奥行きを指定するものであり、操作部205の機能に相当する。リフォーカス管理部602は、デジタルリフォーカスの遷移過程を管理するものであり、CPU201の機能に相当する。リフォーカス音声合成部603は、表示するリフォーカス画像に対応する音声を合成処理によって生成するものであり、音声処理部216の機能に相当する。音声再生部604は、リフォーカス音声合成部603が生成した音声を出力するものであり、音声出力部213、音声出力制御部214の機能に相当する。応付け入力部605は、上記の対応付けの結果を取得するものである。リフォーカス画像合成部606は、ピントが指定された奥行きであるリフォーカス画像を生成するもので、画像処理部212の機能に相当する。画像再生部607は、リフォーカス画像合成部606が生成したリフォーカス画像を再生表示するものであり、表示制御部207、表示部206の機能に相当するものである。
なお、外部メモリに記録された映像データや外部機器から転送された映像データに対してこの処理を行う場合には、図2の撮像装置の構成に限定されずにPC上での処理も可能となる。
次に、図6の構成を有する情報処理装置が、動画の再生中にデジタルリフォーカスを行う為に行う処理について、同処理のフローチャートを示す図7を用いて説明する。図7の処理は、動画再生中にユーザの操作によるデジタルリフォーカスの指示が行われた時に開始する。リフォーカスの終了条件となるピントの遷移先の奥行きは、リフォーカスの開始指示の際にユーザが画面上で選択した表示画面上の一地点に存在する被写体の奥行きとしてもよいし、スライダーやダイヤルで指定した奥行きの移動量としてもよい。指定した奥行きが現在の奥行きより奥にある場合には、手前から奥方向へのリフォーカスとなり、指定した奥行きが現在の奥行きよりも手前にある場合には、奥から手前へのリフォーカスとなる。
リフォーカスに要する時間は、現在の奥行きと変更先の奥行きとの差と、段階的な奥行きの移行速度(インターバル)で決定される。このインターバルはあらかじめ設定されているがユーザが変更することも可能である。
なお、リフォーカス直前にピントの合っている映像の再生時間はデジタルリフォーカスの処理には含めない。しかし、動画再生開始とデジタルリフォーカスの指示は同時に行われるもとのとした場合には、直前のピントの合っている映像の一定時間の再生をリフォーカス処理に含めるようにしてもよい。
ステップS701では、フォーカス箇所指定部601は、現在表示中のリフォーカス画像においてピントが合っている領域におけるピントの奥行きdxを取得する。図8の例では、現在表示中のリフォーカス画像801(時刻t0で表示中)においてピントが合っている領域におけるピントの奥行きdxは1500となっている。
次に、ステップS702では、対応付け入力部605は、ステップS701で取得した奥行きdxに関連付けて登録されている音声があるか否かを判断する。この判断の結果、奥行きdxに関連付けて登録されている音声がある場合には、処理はステップS703に進み、無い場合は、処理はステップS704に進む。
ステップS703では、リフォーカス音声合成部603は、ステップS701で取得した奥行きdxに関連付けて登録されている音声を移行元音声候補として対応付け入力部605から取得する。
ステップS704では、フォーカス箇所指定部601は、最終的なピントの奥行きdoを取得する。そしてステップS705では、リフォーカス管理部602は、dx>doであればdx<doであるか否か、dx<doであればdx>doであるか否か、を判断する。いずれにせよ、本ステップでは、現在のdxが最終的なピントの奥行きを超えてしまったか否かを判断している。この判断の結果、超えていない場合は処理はステップS706に進み、超えている場合には、処理はステップS714に進む。つまり、リフォーカス先の被写体にピントが合った直後一定時間が過ぎるまでをリフォーカス処理とする。
ステップS706では、リフォーカス管理部602は、dxに規定の値であるdを加える。なお、ステップS701で取得したdx>doであればdは負の値であり、ステップS701で取得したdx<doであればdは正の値である。
ステップS707では、リフォーカス画像合成部606は、多視点映像を用いてリフォーカス処理を行うことで、ピントの奥行きがdxであるリフォーカス画像(次に表示する次画像)を生成する。そして、ステップS708では、リフォーカス画像合成部606は、この生成したリフォーカス画像を、不図示のバッファ(映像バッファ)に格納する。
ステップS709では、対応付け入力部605は、ピントの奥行きdxに関連付けて登録されている音声があるか否かを判断する。この判断の結果、奥行きdxに関連付けて登録されている音声がある場合には、処理はステップS710に進み、無い場合は、処理はステップS705に戻る。ステップS710では、リフォーカス音声合成部603は、奥行きdxに関連付けて登録されている音声を移行先音声候補として対応付け入力部605から取得する。
そしてステップS711では、リフォーカス音声合成部603は、移行元音声候補の音声と、移行先音声候補の音声と、を合成した音声を生成する。なお、dxがdoに近いほど、移行元音声候補よりも移行先音声候補の音声がより聞こえるように合成配分を調整する。そしてステップS712では、リフォーカス音声合成部603は、この生成した音声を、不図示のバッファ(映像バッファ)に格納する。
そしてステップS713では、リフォーカス音声合成部603は、現在の移行先音声候補としての音声を、移行元音声候補の音声とする。そして処理はステップS705に戻る。
ステップS714では、リフォーカス音声合成部603は、不足分の音声の生成を行う。doの奥行きの映像でピントの合っている領域があり且つ対応する分離音がある場合には音は十分に生成されているが、ピントの合っている領域がない場合や対応する分離音がない場合には、音声が不足している。移行元音声候補がある場合にはこれを使って不足分の音を生成し、ない場合には無音を生成する。
そしてステップS715では、画像再生部607は、映像バッファに格納した各リフォーカス画像を、格納順に読み出して表示し、音声再生部604は各リフォーカス画像の表示に同期して、該リフォーカス画像に対応する音声を読み出して再生する。
図8の例では、時刻t0の時点で奥行きが1500のリフォーカス画像801が表示されており、時刻t1の時点で、この時点の奥行きdxを有するピントの合っていないリフォーカス画像802が表示される。そして、時刻t2の時点で最終的なピントの奥行き(30)のリフォーカス画像803が表示される。
図8の例では、ピントの奥行き1500に対応する分離音508と、ピントの奥行き30に対応する分離音509と、が図5Dに示す如く登録されているものとしている(図5DではIDが登録されているが、これに対応する音声も登録されている)。
時刻t0の時点で再生される音声は分離音508となる。音声804は分離音508のボリュームを元のボリューム(若しくはより大きくしたボリューム)から0近辺に時間の経過と共に下げたものである。また、音声805は分離音509のボリュームを0近辺から元のボリューム(若しくはより大きくしたボリューム)に時間の経過と共に上げたものである。然るに時刻t0〜t2の間の時刻では、この音声804と音声805との合成音声806において該時刻に対応する部分を再生する。例えば、時刻t1が時刻t0と時刻t2との中間時刻であるとすると、時刻t1では、分離音508のボリュームを半分にしたものと分離音509のボリュームを半分にしたものとを合成した音声を再生することになる。もちろん、時刻t0〜t2の間であったとしても、ピントの合っている箇所に対応する音声があれば、それを再生する。
また、移行元音声候補と移行先音声候補のどちらかがない場合には、片方だけでボリュームの段階的変更を行い、それをピントの合っていない映像が表示される時間帯の音声とする。
なお、図7のフローチャートでは、現在のdxが最終的なピントの奥行きを超えるまでは画像及び音声の蓄積を行い、超えてから画像及び音声の表示/再生を行っているが、蓄積を経ずに画像及び音声を生成した時点で表示/再生を行うようにしても良い。
上記の実施形態では、移行先のピントの合う奥行きはあらかじめ与えられているものとし、それを終了条件としている。しかし、開始時に遷移先の奥行きをあらかじめ与えず、手前方向・奥方向のどちらかと段階的な奥行き変更の速度(インターバル)のみを与えて、終了条件は、ユーザがリフォーカス終了の操作を出した時点としてもよい。その場合には、再生映像を先読みした映像バッファへの蓄積と逐次再生が繰り返される。なお、移行元音声候補と移行先音声候補からの合成音の生成方法は、段階的なボリューム変更の他に、エコーやノイズの付与などを行ってもよい。
[第4の実施形態]
本実施形態では、リフォーカス処理中に、移行元、中間、移行先の3点でピントが合う場合における音声の合成について説明する。
図9(A)において撮像画像901中には、被写体903〜905が写っており、この撮像画像901は、被写体903〜905のうち被写体903にピントを合わせて撮像されたものである。
枠902の中には、撮像画像901の幅方向に対する被写体903〜905のそれぞれの位置関係と、被写体903〜905のそれぞれに対するピントの奥行きが示されている。ここでは、被写体903に対するピントの奥行きはdx、被写体904に対するピントの奥行きはdm、被写体905に対するピントの奥行きはdo、となっている(dx<dm<do)。
また、ここでは、時刻t0からt1までの間に被写体903〜905のそれぞれから音声が発せられている。被写体903〜905のそれぞれからの音声は上記の音源分離により、被写体903を音源とする音声(分離音)906、被写体904を音源とする音声(分離音)907、被写体905を音源とする音声(分離音)908、として得られる。
また、図9(B)に示す如く、時刻t0〜時刻t01までの間に被写体903にピントが合っている撮像画像909が表示されている。そして、時刻t01〜t02の間で、ピントの対象が被写体904,905の順に変わるリフォーカス画像を生成しつつ表示する。
リフォーカス画像910〜913は時刻t01〜t02の間で生成されるリフォーカス画像であり、生成されるたびに表示される。リフォーカス画像910は、被写体903に対するピントの奥行きと、被写体904に対するピントの奥行きと、の間のピントの奥行きを有するリフォーカス画像であり、どの被写体にもピントが合っていない。リフォーカス画像911は、被写体904に対するピントの奥行きを有するリフォーカス画像であるので、被写体904にピントが合っている。リフォーカス画像912は、被写体904に対するピントの奥行きと、被写体905に対するピントの奥行きと、の間のピントの奥行きを有するリフォーカス画像であり、どの被写体にもピントが合っていない。リフォーカス画像913は、被写体905に対するピントの奥行きを有するリフォーカス画像であるので、被写体905にピントが合っている。
上記の通り、時刻t0〜時刻t01までの間では、被写体903にピントが合っている撮像画像909が表示される。然るに、被写体903を音源とする音声906において時刻t0〜時刻t01までの間の音声914を、時刻t0〜時刻t01までの間における再生音声923として再生する。
また、リフォーカス画像910の表示期間中は、被写体903を音源とする音声906において該表示期間中の音声915を移行元音声候補、被写体904を音源とする音声907において該表示期間中の音声917を移行先音声候補、とする。そして移行元音声候補と移行先音声候補のボリューム配分を順次変更して(時間経過と共に移行元音声候補、移行先音声候補のそれぞれのボリュームは小さく/大きくなる)合成した音声916を、該表示期間中の再生音声923として再生する。
リフォーカス画像911は、被写体904にピントが合っているリフォーカス画像である。然るに、被写体904を音源とする音声907において、リフォーカス画像911の表示期間中の音声918を、該表示期間中における再生音声923として再生する。
また、リフォーカス画像912の表示期間中は、被写体904を音源とする音声907において該表示期間中の音声919を移行元音声候補、被写体905を音源とする音声908において該表示期間中の音声921を移行先音声候補、とする。そして移行元音声候補と移行先音声候補のボリューム配分を順次変更して(時間経過と共に移行元音声候補、移行先音声候補のそれぞれのボリュームは小さく/大きくなる)合成した音声920を、該表示期間中の再生音声923として再生する。
リフォーカス画像913は、被写体905にピントが合っているリフォーカス画像である。然るに、被写体905を音源とする音声908において、リフォーカス画像913の表示期間中の音声922を、該表示期間中における再生音声923として再生する。
なお、リフォーカス画像の生成や再生音声923の確定にはある程度の時間を要することになる。リフォーカス画像の生成枚数や再生音声923の量、情報処理装置のスペックによっては、この時間が長い場合もある。このような場合には、生成したリフォーカス画像、再生音声を一端バッファ924に格納した後、バッファ924に蓄積された音声と映像とを同期を取りながら上記の如く出力するようにしても良い。
[第5の実施形態]
本実施形態では、リフォーカス処理中に、移行元、中間、移行先の3点でピントが合う場合であって、音の発生時間が異なる場合における音声の合成について説明する。
図10(A)において撮像画像1001中には、被写体1003〜1005が写っており、この撮像画像1001は、被写体1003〜1005のうち被写体1003にピントを合わせて撮像されたものである。
枠1002の中には、撮像画像1001の幅方向に対する被写体1003〜1005のそれぞれの位置関係と、被写体1003〜1005のそれぞれに対するピントの奥行きが示されている。ここでは、被写体1003に対するピントの奥行きはdx、被写体1004に対するピントの奥行きはdm、被写体1005に対するピントの奥行きはdo、となっている(dx<dm<do)。
また、ここでは、時刻t0からt1までの間に被写体1003から、時刻t0からt2までの間に被写体1004から、時刻t1からt2までの間に被写体1005から、それぞれ音声が発せられている。被写体1003〜1005のそれぞれからの音声は上記の音源分離により、被写体1003を音源とする音声(分離音)1006、被写体1004を音源とする音声(分離音)1007、被写体1005を音源とする音声(分離音)1008、として得られる。
また、図10(B)に示す如く、時刻t0〜時刻t01までの間に被写体1003にピントが合っている撮像画像1009が表示されている。そして、時刻t01〜t02の間で、ピントの対象が被写体1004,1005の順に変わるリフォーカス画像を生成しつつ再生する。
リフォーカス画像1010〜1013は時刻t01〜t02の間で生成されるリフォーカス画像であり、生成されるたびに表示される。リフォーカス画像1010は、被写体1003に対するピントの奥行きと、被写体1004に対するピントの奥行きと、の間のピントの奥行きを有するリフォーカス画像であり、どの被写体にもピントが合っていない。リフォーカス画像1011は、被写体1004に対するピントの奥行きを有するリフォーカス画像であるので、被写体1004にピントが合っている。リフォーカス画像1012は、被写体1004に対するピントの奥行きと、被写体1005に対するピントの奥行きと、の間のピントの奥行きを有するリフォーカス画像であり、どの被写体にもピントが合っていない。リフォーカス画像1013は、被写体1005に対するピントの奥行きを有するリフォーカス画像であるので、被写体1005にピントが合っている。
上記の通り、時刻t0〜時刻t01までの間では、被写体1003にピントが合っている撮像画像1009が表示される。然るに、被写体1003を音源とする音声1006において時刻t0〜時刻t01までの間の音声1014を、時刻t0〜時刻t01までの間における再生音声1023として再生する。
また、リフォーカス画像1010の表示期間中は、被写体1003を音源とする音声1006において該表示期間中の音声1015を移行元音声候補、被写体1004を音源とする音声1007において該表示期間中の音声1017を移行先音声候補、とする。そして移行元音声候補と移行先音声候補のボリューム配分を順次変更して(第4の実施形態で説明したとおり)合成した音声1016を、該表示期間中の再生音声1023として再生する。
リフォーカス画像1011は、被写体1004にピントが合っているリフォーカス画像である。然るに、被写体1004を音源とする音声1007において、リフォーカス画像1011の表示期間中の音声1018を、該表示期間中における再生音声1023として再生する。
また、リフォーカス画像1012の表示期間中は、被写体1004を音源とする音声1007において該表示期間中の音声1019を移行元音声候補とする。ここで、本来であれば、被写体1005を音源とする音声1008において該表示期間中の音声を移行先音声候補としたいところであるが、該当する音声がない。この場合、移行元音声候補のボリュームを順次変更(時間経過と共に移行元音声候補のボリュームを小さくする)したものを音声1020とし、該音声1020を、該表示期間中の再生音声1023として再生する。
リフォーカス画像1013は、被写体1005にピントが合っているリフォーカス画像であるので、リフォーカス画像1013の表示期間(t02〜t1)における再生音声は、被写体1005を音源とする音声1008において該表示期間中の音声となる。しかし、該当する音声がない。この場合、無音1022を、該表示期間中における再生音声1023として再生する。
もちろん、本実施形態においても第4の実施形態と同様、生成したリフォーカス画像、再生音声を一端バッファ1024に格納した後、バッファ1024に蓄積された音声と映像とを同期を取りながら上記の如く出力するようにしても良い。
なお、デジタルリフォーカスが終了した後のt1からt2までの間は、被写体1005を音源とする音声1008においてt1からt2の期間中の音声1021を、該表示期間中における再生音声として再生する。
なお、上記の例は、分離音の位置が動かないものとして、分離音一つに対して奥行き一つの対応付けを用いて説明している。実際には、一定時間ごとに分離音と奥行きの対応づけを記述しておき、再生処理を行う際に一定時間ごとの対応付けを使用することで、音が移動する場合に対応する。
[第6の実施形態]
本実施形態では、リフォーカス中に、ピント領域が同時に複数ある場合の再生音声の合成について説明する。
図11(A)において撮像画像1101中には、被写体1103〜1106が写っており、この撮像画像1101は、被写体1103〜1106のうち被写体1103にピントを合わせて撮像されたものである。
枠1102の中には、撮像画像1101の幅方向に対する被写体1103〜1106のそれぞれの位置関係と、被写体1103〜1106のそれぞれに対するピントの奥行きが示されている。ここでは、被写体1103に対するピントの奥行きはdx、被写体1104及び被写体1105に対するピントの奥行きはdm、被写体1106に対するピントの奥行きはdo、となっている(dx<dm<do)。
また、ここでは、時刻t0からt1までの間に被写体1103〜1106のそれぞれから音声が発せられている。被写体1103〜1106のそれぞれからの音声は上記の音源分離により得られる。即ち、被写体1103を音源とする音声(分離音)1107、被写体1104を音源とする音声(分離音)1108、被写体1105を音源とする音声(分離音)1109、被写体1106を音源とする音声(分離音)1110、として得られる。
また、図11(B)に示す如く、時刻t0〜時刻t01までの間に被写体1103にピントが合っている撮像画像1111が表示されている。そして、時刻t01〜t02の間で、ピントの対象が被写体1104から1106の順に変わるリフォーカス画像を生成し、それぞれのリフォーカス画像は、時刻t01〜t1で表示される。
リフォーカス画像1112〜1115は時刻t01〜t02の間で生成されるリフォーカス画像であり、時刻t01〜t1で表示される。リフォーカス画像1112、1114は、どの被写体にもピントが合っていないリフォーカス画像である。リフォーカス画像1113は、被写体1104及び被写体1105に対するピントの奥行きを有するリフォーカス画像であるので、被写体1104及び被写体1105にピントが合っている。リフォーカス画像1115は、被写体1106に対するピントの奥行きを有するリフォーカス画像であるので、被写体1106にピントが合っている。
上記の通り、時刻t0〜時刻t01までの間では、被写体1103にピントが合っている撮像画像1111が表示される。然るに、被写体1103を音源とする音声1107において時刻t0〜時刻t01までの間の音声1116を、時刻t0〜時刻t01までの間における再生音声1128として再生する。
リフォーカス画像1112の表示期間中は、音声1107において該表示期間中の音声1117を移行元音声候補、音声1108及び1109のそれぞれにおいて該表示期間中の音声1119及び1122を移行先音声候補、とする。そして移行元音声候補と移行先音声候補のボリューム配分を順次変更して(時間経過と共に移行元音声候補、移行先音声候補のそれぞれのボリュームは小さく/大きくなる)合成した音声1118を、該表示期間中の再生音声1128として再生する。
リフォーカス画像1113は、被写体1104及び1105にピントが合っているリフォーカス画像である。然るに、リフォーカス画像1113の表示期間中は、音声1108及び1109において該表示期間中の音声1120及び1123を合成した音声1125を、該表示期間中における再生音声1128として再生する。
リフォーカス画像1114の表示期間中は、音声1108及び1109のそれぞれにおいて該表示期間中の音声1121及び1124を移行元音声候補、音声1110において該表示期間中の音声1127を移行先音声候補、とする。そして移行元音声候補と移行先音声候補のボリューム配分を順次変更して(時間経過と共に移行元音声候補、移行先音声候補のそれぞれのボリュームは小さく/大きくなる)合成した音声1126を、該表示期間中の再生音声1128として再生する。
リフォーカス画像1115は、被写体1106にピントが合っているリフォーカス画像である。然るに、リフォーカス画像1115の表示期間中は、被写体1106を音源とする音声1110において該表示期間中の音声1130を、該表示期間中における再生音声1128として再生する。
もちろん、本実施形態においても第4の実施形態と同様、生成したリフォーカス画像、再生音声を一端バッファ1129に格納した後、バッファ1129に蓄積された音声と映像とを同期を取りながら上記の如く出力するようにしても良い。
なお、同時にピントの合う領域が複数ある場合の臨場感を高めるため、ピントの合う領域の位置情報も分離音との対応付けに付与してもよい。図11でリフォーカス画像1114が表示される時間帯では、移行元音声候補としての音声1121及び1124、移行先音声候補としての音声1127、を合成した音声を再生する。
この状態からリフォーカス画像1115が表示される状態まで遷移するとき、音声1121と音声1124の音量の段階的変化を一様にすると、被写体1106までの距離は被写体1104と被写体1105とで同じであるような印象が得られる。幅としての距離は被写体1104の方が被写体1105よりも大きい。ピントの合う領域の位置情報を使い、遠い方の被写体の音がより早く減衰するように音声候補として採用する時間を距離に反比例して短くして合成するようにしてもよい。図12はその例である。
図12(A)において音声波形1201は音声1108のものであり、音声波形1202は音声1109のものであり、音声波形1203は音声1110のものである。図12(B)において音声波形1204は音声1121のものであり、音声波形1205は音声1124のものであり、音声波形1206は音声1127のものであるが、音声波形1204は音声1121の変更時間よりも短くなっている。被写体1104の位置は、被写体1105よりも横方向に遠いため、音声波形1205の時間よりも短くする。
図12(C)において音声波形1207、1208は、移行元音声候補として徐々に音量を下げたもの、音声波形1209は移行先音声候補として徐々に音量を上げたものである。音声波形1207,1208、1209を合成した音声波形1210が、リフォーカス画像1114が表示される時間帯の再生音声となる。音声波形1207は段階的な音量配分の変更時間が、音声波形1208のそれよりも時間が短いため、音声波形1210では音声波形1207の音が先に聞こえなくなる。
上記の実施形態において、図7のフローチャートのステップS709およびステップS710の処理では、1つのピントの奥行きdxに対応する分離音が1つであることを想定している。しかし、画像上に音源となる被写体が複数写っているような場合など、1つのピントの奥行きdxに対して分離音が複数ある場合には、ステップS709およびステップS710の処理の代わりに、図15のフローチャートに従った処理を行うことで対応できる。
ステップS1501では、リフォーカス音声合成部603は、ピントの奥行きdxに対応する複数の分離音のうち未選択の分離音を対応付け入力部605から選択する。ここで、未選択の分離音がなく、ステップS1501において分離音が選択できなかった場合には、処理はステップS1502を介して終了する。一方、ステップS1501で分離音が選択できた場合には、処理はステップS1502を介してステップS1503に進む。
ステップS1503では、リフォーカス音声合成部603は、ステップS1501で選択した分離音が、画像上で現在着目している被写体の座標(画像座標)に対応するものであるか否かを判断する。例えば、画像上に1つの被写体が写っている場合には、選択した分離音が、該被写体の画像座標に対応するものであるか否かを判断する。また、画像上に複数の被写体が写っている場合には、このうち1つを着目被写体とし、選択した分離音が、該着目被写体の画像座標に対応するものであるか否かを判断する。然るに、画像上に複数の被写体が写っている場合には、図15のフローチャートは、この被写体の数だけ実行することになる。
ステップS1503における判断の結果、対応するものであると判断した場合には、処理はステップS1504に進み、対応するものではないと判断した場合には、処理はステップS1501に進む。ステップS1504では、リフォーカス音声合成部603は、ステップS1501で選択した分離音を、移行元音声候補の音声とする。
なお、上記の実施形態では、ピント領域はあるが対応する分離音がない場合には前後の分離音で音を補うが、ピントの合っている被写体が何も音を発していない時には、無音とするようにしてもよい。その場合には、奥行き・分離音の対応付けは、奥行き・ピント位置・分離音の3種類を記述しておく。図4のフローチャートのステップS403で音源がないとされてもステップS404へ進み、奥行き・ピント位置を分離音なしで対応付けする。また、図7のフローチャートのステップS709でnoとされた後に、奥行きに対応するピント位置があるかどうか判断し、ある場合には無音を移行先音声候補として音を生成する。ピント領域はあるが対応する分離音がない映像の表示中には無音が生成される。
また、上記の実施形態では分離音とピントの合っている領域との同一性の判断は、位置と奥行きで行っている。これに対して音の種類を認識する音認識部と、被写体の種類を認識する画像認識部を加え、音認識結果と画像認識結果の対応が許容範囲のものであるか判断する認識結果照合部を使って、対応付けが正しいものとされたものの対応付けを保存するようにしてもよい。例えば、音の認識結果が「カッコウ」であり、被写体の認識結果が「鳥」であり、「カッコウ」と「鳥」の対応付けがあらかじめ登録されている場合にのみ対応付けを行う。
また、音源分離の結果、位置が広く分散して定位できない音は、背景音としてリフォーカス画像でなく映像全般に対応付けしておき、ピントの合わない映像の提示中に背景音を大きくするなどしてもよい。
上記の実施形態では、動画像とそれに同期する音声について記述したが、静止画像と静止画像を撮影した時間に重複して収録した音声に対して、静止画像のデジタルリフォーカスによる時間的遷移を動画像として扱い、それに同調させて再生音を合成してもよい。なお、上記の各実施形態はその一部若しくは全部を適宜組み合わせて使用しても良い。
また、上記の各実施形態では様々なケースにおいて再生する音声について説明しているが、生じうるケースは上記のケース以外にもあり、そのようなケースにおいて再生する音声をどのようなものとするのかについては適宜決めればよい。即ち、すでに得ている音声を調整して再生しても良いし、幾つかの音声を合成して再生しても良いし、無音としても良い。
すなわち、上記の音再生では、次のようなことを行っている。先ず、複数の視点から撮影して取得された複数の画像から、第1のピントで合っている領域を有する第1の画像と、該第1のピントとは異なる第2のピントで合っている領域を有する第2の画像と、を生成する(画像生成)。また、この画像生成では、第1のピントと第2のピントとの間のピントで合っている領域を有する第3の画像を生成する。そして、第1の画像、第2の画像、第3の画像、を表示部に表示する(表示制御)のであるが、第1の画像に関連づけられている音と、第2の画像に関連づけられている音と、から第3の画像に対する音を生成(音生成)し、該生成した音を再生する。
また、上記の登録処理では、次のようなことを行っている。先ず、複数の視点から撮影して取得された複数の画像から、ピントが合っている領域を有し、且つ該ピントがそれぞれ異なる複数の画像を生成する(画像生成)。そして、複数の音収集部を用いて収集された音を分離し、分離したそれぞれの音の音源位置を求め、生成したそれぞれの画像について、該画像内でピントが合っている対象の位置と、該位置に関連する音源位置の音と、を関連づけて保持部に登録する。
(その他の実施例)
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。

Claims (13)

  1. 情報処理装置であって、
    複数の視点から撮影して取得された複数の画像から、音源となる第1の被写体が第1のピント距離で合焦している第1の画像と、音源となる第2の被写体が該第1のピント距離とは異なる第2のピント距離で合焦している第2の画像と、前記第1のピント距離と前記第2のピント距離との間の第3のピント距離で合焦している第3の画像と、を生成する画像生成手段と、
    前記第1の画像、前記第3の画像、前記第2の画像、を1枚ずつ表示部に表示する表示制御手段と、
    前記第1の被写体から発せられる第1の音及び前記第2の被写体から発せられる第2の音を用いて、音を生成する音生成手段と、
    前記表示制御手段が前記表示部に前記第1の画像を表示中に前記第1の音を再生し、前記表示制御手段が前記表示部に前記第2の画像を表示中に前記第2の音を再生し、前記表示制御手段が前記表示部に前記第3の画像を表示中に前記音生成手段が生成した音を再生する再生手段と
    前記画像生成手段により生成され且つ互いにピント距離が異なる、前記第1の画像、前記第2の画像、前記第3の画像を含むそれぞれの画像から、該画像において合焦している被写体の焦点領域が抽出可能か否かを判断する判断手段と、
    前記焦点領域が抽出可能な画像と、前記焦点領域において合焦している前記被写体から発せられる音と、を関連づける関連づけ手段と
    を備え、
    前記第1の被写体及び前記第2の被写体は前記第3のピント距離では合焦しておらず、
    前記再生手段は、前記表示制御手段が前記焦点領域が抽出可能な画像を前記表示部に表示中に、前記焦点領域が抽出可能な画像と関連づけられている音を再生し、前記表示制御手段が音と関連づけられていない画像を前記表示部に表示中に、音と関連づけられていない画像について生成された合成音を再生することを特徴とする情報処理装置。
  2. 前記第1の音及び前記第2の音のそれぞれは、複数の音収集部を用いて収集された音を分離して得られた音であることを特徴とする請求項1に記載の情報処理装置。
  3. 前記音生成手段は、前記第1の音の音量と、前記第2の音の音量と、を調整して、音を生成することを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記第1の画像、前記第2の画像、前記第3の画像のそれぞれは、前記複数の画像を用いたリフォーカス処理を行うことで得られるリフォーカス画像であることを特徴とする請求項1乃至3の何れか1項に記載の情報処理装置。
  5. 前記表示制御手段は、前記画像生成手段により生成され且つ前記第1の画像、前記第2の画像、前記第3の画像を含む、互いにピント距離が異なる複数の画像を、ピント距離順に規定の間隔で1枚ずつ前記表示部に表示し、
    前記音生成手段は、音源となる被写体が存在しないピント距離に合焦している着目画像についての合成音を、ピント距離順において該着目画像と隣接する隣接画像において合焦している被写体から発せられる音を用いて生成し、
    前記再生手段は、前記表示制御手段が前記表示部に前記着目画像を表示中に、前記合成音を再生する
    ことを特徴とする請求項1乃至4の何れか1項に記載の情報処理装置。
  6. 前記第3の画像は、互いにピント距離が異なる2以上の画像を含み、
    前記音生成手段は、前記第1の音の音量と、前記第2の音の音量と、を調整することで、前記2以上の第3画像のピント距離に従って異なる複数の音を生成し、
    前記表示制御手段が前記表示部に前記第1の画像、前記2以上の第3の画像、前記第2の画像の順に1枚ずつ画像を表示する場合、前記再生手段は、ピント距離に沿う順に表示される前記2以上の第3の画像の表示中は、前記第1の音の音量が徐々に小さくなるとともに前記第2の音の音量が徐々に大きくなるように生成された音を再生することを特徴とする請求項1乃至の何れか1項に記載の情報処理装置。
  7. 更に、
    前記撮影時に収集された音を取得する音取得手段を備え、
    前記音生成手段は、前記音取得手段によって取得された音を用いて音を生成することを特徴とする請求項1乃至の何れか1項に記載の情報処理装置。
  8. 情報処理装置であって、
    複数の視点から撮影して取得された複数の画像から、ピント距離が互いに異なる複数の画像を生成する画像生成手段と、
    前記画像生成手段が生成したそれぞれの画像をピント距離順に規定の間隔で1枚ずつ、表示部に表示する表示制御手段と、
    音源となる被写体が存在しないピント距離に合焦している着目画像についての合成音であって、該着目画像のピント距離の近傍のピント距離で合焦し得る被写体を音源とする音を含む該合成音を生成する音生成手段と、
    前記表示制御手段が前記音源となる被写体が合焦している画像を表示中に、該表示中の画像で合焦している被写体を音源とする音を再生し、前記表示制御手段が前記着目画像を表示中に、前記合成音を再生する再生手段と
    を備えることを特徴とする情報処理装置。
  9. 更に、
    前記撮影時に収集された音を取得する音取得手段を備え、
    前記音生成手段は、前記音取得手段によって取得された音を用いて音を生成することを特徴とする請求項に記載の情報処理装置。
  10. 情報処理装置が行う情報処理方法であって、
    前記情報処理装置の画像生成手段が、複数の視点から撮影して取得された複数の画像から、音源となる第1の被写体が第1のピント距離で合焦している第1の画像と、音源となる第2の被写体が該第1のピント距離とは異なる第2のピント距離で合焦している第2の画像と、前記第1のピント距離と前記第2のピント距離との間の第3のピント距離で合焦している第3の画像と、を生成する画像生成工程と、
    前記情報処理装置の表示制御手段が、前記第1の画像、前記第3の画像、前記第2の画像、を1枚ずつ表示部に表示する表示制御工程と、
    前記情報処理装置の音生成手段が、前記第1の被写体から発せられる第1の音及び前記第2の被写体から発せられる第2の音を用いて、音を生成する音生成工程と、
    前記情報処理装置の再生手段が、前記表示制御工程で前記表示部に前記第1の画像を表示中に前記第1の音を再生し、前記表示制御工程で前記表示部に前記第2の画像を表示中に前記第2の音を再生し、前記表示制御工程で前記表示部に前記第3の画像を表示中に前記音生成工程で生成した音を再生する再生工程と
    を備え、
    前記第1の被写体及び前記第2の被写体は前記第3のピント距離では合焦しておらず、
    前記第3の画像は、互いにピント距離が異なる2以上の画像を含み、
    前記音生成工程では、前記第1の音の音量と、前記第2の音の音量と、を調整することで、前記2以上の第3画像のピント距離に従って異なる複数の音を生成し、
    前記表示制御工程で前記表示部に前記第1の画像、前記2以上の第3の画像、前記第2の画像の順に1枚ずつ画像を表示する場合、前記再生工程では、ピント距離に沿う順に表示される前記2以上の第3の画像の表示中は、前記第1の音の音量が徐々に小さくなるとともに前記第2の音の音量が徐々に大きくなるように生成された音を再生することを特徴とする情報処理方法。
  11. 前記第1の音及び前記第2の音のそれぞれは、複数の音収集部を用いて収集された音を分離して得られた音であることを特徴とする請求項10に記載の情報処理方法。
  12. 情報処理装置が行う情報処理方法であって、
    前記情報処理装置の画像生成手段が、複数の視点から撮影して取得された複数の画像から、ピント距離が互いに異なる複数の画像を生成する画像生成工程と、
    前記情報処理装置の表示制御手段が、前記画像生成工程で生成したそれぞれの画像をピント距離順に規定の間隔で1枚ずつ、表示部に表示する表示制御工程と、
    前記情報処理装置の音生成手段が、音源となる被写体が存在しないピント距離に合焦している着目画像についての合成音であって、該着目画像のピント距離の近傍のピント距離で合焦し得る被写体を音源とする音を含む該合成音を生成する音生成工程と、
    前記情報処理装置の再生手段が、前記表示制御工程で前記音源となる被写体が合焦している画像を表示中に、該表示中の画像で合焦している被写体を音源とする音を再生し、前記表示制御工程で前記着目画像を表示中に、前記合成音を再生する再生工程と
    を備えることを特徴とする情報処理方法。
  13. コンピュータを、請求項1乃至の何れか1項に記載の情報処理装置の各手段として機能させるためのコンピュータプログラム。
JP2013138442A 2012-09-26 2013-07-01 情報処理装置、情報処理方法 Expired - Fee Related JP6216169B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013138442A JP6216169B2 (ja) 2012-09-26 2013-07-01 情報処理装置、情報処理方法
US14/024,969 US20140086551A1 (en) 2012-09-26 2013-09-12 Information processing apparatus and information processing method

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012212966 2012-09-26
JP2012212966 2012-09-26
JP2013138442A JP6216169B2 (ja) 2012-09-26 2013-07-01 情報処理装置、情報処理方法

Publications (3)

Publication Number Publication Date
JP2014082746A JP2014082746A (ja) 2014-05-08
JP2014082746A5 JP2014082746A5 (ja) 2016-08-18
JP6216169B2 true JP6216169B2 (ja) 2017-10-18

Family

ID=50338939

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013138442A Expired - Fee Related JP6216169B2 (ja) 2012-09-26 2013-07-01 情報処理装置、情報処理方法

Country Status (2)

Country Link
US (1) US20140086551A1 (ja)
JP (1) JP6216169B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9860439B2 (en) * 2013-02-15 2018-01-02 Panasonic Intellectual Property Management Co., Ltd. Directionality control system, calibration method, horizontal deviation angle computation method, and directionality control method
US11783864B2 (en) * 2015-09-22 2023-10-10 Fyusion, Inc. Integration of audio into a multi-view interactive digital media representation
EP3151535A1 (en) 2015-09-29 2017-04-05 Thomson Licensing Plenoptic camera having an array of sensors for generating digital images and method of capturing an image using a plenoptic camera
US9756421B2 (en) * 2016-01-22 2017-09-05 Mediatek Inc. Audio refocusing methods and electronic devices utilizing the same
JP6700813B2 (ja) * 2016-01-29 2020-05-27 キヤノン株式会社 画像処理装置、撮像装置、画像処理方法、及びプログラム
KR102465227B1 (ko) * 2016-05-30 2022-11-10 소니그룹주식회사 영상 음향 처리 장치 및 방법, 및 프로그램이 저장된 컴퓨터 판독 가능한 기록 매체
US10579879B2 (en) * 2016-08-10 2020-03-03 Vivint, Inc. Sonic sensing
JP2018101452A (ja) * 2016-12-20 2018-06-28 カシオ計算機株式会社 出力制御装置、コンテンツ記憶装置、出力制御方法、コンテンツ記憶方法、プログラム及びデータ構造

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5514408B2 (ja) * 1972-08-29 1980-04-16
JPS5271209A (en) * 1975-12-11 1977-06-14 Matsushita Electric Ind Co Ltd Three dimensional sound collecting device
US4720712A (en) * 1985-08-12 1988-01-19 Raytheon Company Adaptive beam forming apparatus
JPS6359300A (ja) * 1986-08-29 1988-03-15 Matsushita Electric Ind Co Ltd ビデオカメラ
JP3528284B2 (ja) * 1994-11-18 2004-05-17 ヤマハ株式会社 3次元サウンドシステム
US5714997A (en) * 1995-01-06 1998-02-03 Anderson; David P. Virtual reality television system
JP3195920B2 (ja) * 1999-06-11 2001-08-06 科学技術振興事業団 音源同定・分離装置及びその方法
KR100542129B1 (ko) * 2002-10-28 2006-01-11 한국전자통신연구원 객체기반 3차원 오디오 시스템 및 그 제어 방법
JP4091850B2 (ja) * 2003-01-20 2008-05-28 富士フイルム株式会社 画像撮影装置
JP2004279845A (ja) * 2003-03-17 2004-10-07 Univ Waseda 信号分離方法およびその装置
JP2006314078A (ja) * 2005-04-06 2006-11-16 Sony Corp 撮像装置、音声記録装置および音声記録方法
EA011601B1 (ru) * 2005-09-30 2009-04-28 Скуэрхэд Текнолоджи Ас Способ и система для направленного захвата аудиосигнала
US7970123B2 (en) * 2005-10-20 2011-06-28 Mitel Networks Corporation Adaptive coupling equalization in beamforming-based communication systems
US8559705B2 (en) * 2006-12-01 2013-10-15 Lytro, Inc. Interactive refocusing of electronic images
JP4897519B2 (ja) * 2007-03-05 2012-03-14 株式会社神戸製鋼所 音源分離装置,音源分離プログラム及び音源分離方法
JP2009025340A (ja) * 2007-07-17 2009-02-05 Nec Electronics Corp オーディオデータ再生装置及びオーディオデータ再生速度制御方法
US8218033B2 (en) * 2007-09-10 2012-07-10 Sanyo Electric Co., Ltd. Sound corrector, sound recording device, sound reproducing device, and sound correcting method
DE102008023370B4 (de) * 2008-05-13 2013-08-01 Siemens Medical Instruments Pte. Ltd. Verfahren zum Betreiben eines Hörgeräts und Hörgerät
US8244058B1 (en) * 2008-05-30 2012-08-14 Adobe Systems Incorporated Method and apparatus for managing artifacts in frequency domain processing of light-field images
CN101350931B (zh) * 2008-08-27 2011-09-14 华为终端有限公司 音频信号的生成、播放方法及装置、处理系统
US8319858B2 (en) * 2008-10-31 2012-11-27 Fortemedia, Inc. Electronic apparatus and method for receiving sounds with auxiliary information from camera system
US20100123785A1 (en) * 2008-11-17 2010-05-20 Apple Inc. Graphic Control for Directional Audio Input
JP2011013600A (ja) * 2009-07-06 2011-01-20 Fujifilm Corp レンズアレイ構造体、複眼撮像装置および複眼表示装置
US9094645B2 (en) * 2009-07-17 2015-07-28 Lg Electronics Inc. Method for processing sound source in terminal and terminal using the same
JP5748422B2 (ja) * 2010-06-29 2015-07-15 株式会社ザクティ 電子機器
US8755432B2 (en) * 2010-06-30 2014-06-17 Warner Bros. Entertainment Inc. Method and apparatus for generating 3D audio positioning using dynamically optimized audio 3D space perception cues
US20130076966A1 (en) * 2011-09-22 2013-03-28 John Norvold Border Digital imaging system with refocusable imaging mode
US9258644B2 (en) * 2012-07-27 2016-02-09 Nokia Technologies Oy Method and apparatus for microphone beamforming
JP6012342B2 (ja) * 2012-09-03 2016-10-25 キヤノン株式会社 再生装置、再生装置の制御方法
EP2923502A4 (en) * 2012-11-20 2016-06-15 Nokia Technologies Oy DEVICE FOR ROOM ENHANCEMENT

Also Published As

Publication number Publication date
JP2014082746A (ja) 2014-05-08
US20140086551A1 (en) 2014-03-27

Similar Documents

Publication Publication Date Title
JP6216169B2 (ja) 情報処理装置、情報処理方法
KR102650850B1 (ko) 영상 음향 처리 장치 및 방법, 및 프로그램이 저장된 컴퓨터 판독 가능한 기록 매체
JP4760892B2 (ja) 表示制御装置、表示制御方法及びプログラム
US20230402067A1 (en) Integration of audio into a multi-view interactive digital media representation
CN112165590B (zh) 视频的录制实现方法、装置及电子设备
KR102226420B1 (ko) 다채널 오디오 신호 생성 방법 및 이를 수행하기 위한 장치
KR20170035608A (ko) 화상 통화 시스템, 영상표시장치, 영상표시장치의 구동 방법, 실감 영상 생성 방법 및 컴퓨터 판독가능 기록매체
US20110001800A1 (en) Image capturing apparatus, image processing method and program
WO2018080848A1 (en) Curated photogrammetry
JP2017534940A (ja) 3dシーンでオブジェクトを再現するシステム及び方法
TW200536389A (en) Intelligent key-frame extraction from a video
JP7347597B2 (ja) 動画編集装置、動画編集方法及びプログラム
US20140337742A1 (en) Method, an apparatus and a computer program for determination of an audio track
US20160381459A1 (en) Technologies for localized audio enhancement of a three-dimensional video
US20220189118A1 (en) Capture of raw augmented reality data and subsequent 3d mesh generation
KR102082300B1 (ko) 삼차원 영상 생성 또는 재생을 위한 장치 및 방법
US20170215005A1 (en) Audio refocusing methods and electronic devices utilizing the same
JP6410769B2 (ja) 情報処理システム及びその制御方法、コンピュータプログラム
CN104780341B (zh) 一种信息处理方法以及信息处理装置
JP2005295181A (ja) 音声情報生成装置
JP6456171B2 (ja) 情報処理装置、情報処理方法及びプログラム
WO2010061791A1 (ja) 映像制御装置およびそれを備えた撮像装置、表示装置
JP2018155897A (ja) 情報処理方法
JP3734805B2 (ja) 情報記録装置
KR101168742B1 (ko) 음원 위치 파악 정보를 포함한 서브타이틀 생성 장치 및 방법

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160627

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160627

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170306

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170825

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170922

R151 Written notification of patent or utility model registration

Ref document number: 6216169

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees