JP2019087973A - 情報処理装置、および情報処理方法、並びにプログラム - Google Patents

情報処理装置、および情報処理方法、並びにプログラム Download PDF

Info

Publication number
JP2019087973A
JP2019087973A JP2017217215A JP2017217215A JP2019087973A JP 2019087973 A JP2019087973 A JP 2019087973A JP 2017217215 A JP2017217215 A JP 2017217215A JP 2017217215 A JP2017217215 A JP 2017217215A JP 2019087973 A JP2019087973 A JP 2019087973A
Authority
JP
Japan
Prior art keywords
unit
data
image content
sound data
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017217215A
Other languages
English (en)
Inventor
圭一 青山
Keiichi Aoyama
圭一 青山
鈴木 知
Satoshi Suzuki
知 鈴木
浩司 古澤
Koji Furusawa
浩司 古澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2017217215A priority Critical patent/JP2019087973A/ja
Priority to PCT/JP2018/039838 priority patent/WO2019093155A1/ja
Priority to US16/761,106 priority patent/US10998870B2/en
Publication of JP2019087973A publication Critical patent/JP2019087973A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/50Controlling the output signals based on the game progress
    • A63F13/54Controlling the output signals based on the game progress involving acoustic signals, e.g. for simulating revolutions per minute [RPM] dependent engine sounds in a driving game or reverberation against a virtual wall
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4398Processing of audio elementary streams involving reformatting operations of audio signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4852End-user interface for client configuration for modifying audio parameters, e.g. switching between mono and stereo
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Abstract

【課題】ズーム画像を表示する際、ズーム画像の想定視聴位置における音声を出力できるようにする。【解決手段】スポーツ中継などの画像コンテンツの場合、収録時に、オブジェクトとなる競技者毎に個別の位置情報、並びに向きおよび姿勢情報と、音声データを直接音と残響音とで分けて格納しておき、ズーム再生時には、ズーム画像における想定視聴位置に対するオブジェクトとなる競技者の向きに応じて、直接音と残響音とを混合することで、想定視聴位置において聴取される音声を出力する。コンテンツ再生装置に適用することができる。【選択図】図6

Description

本開示は、情報処理装置、および情報処理方法、並びにプログラムに関し、特に、再生される画像に対してズームが指示されるとき、ズームして表示されている画像に対応する視聴位置の音声を再生できるようにした情報処理装置、および情報処理方法、並びにプログラムに関する。
撮像技術の進歩に伴って、撮像される画像が高解像度化されることにより、撮像された画像の一部をズームして表示しても、著しく画質が低下してしまうことがなくなってきている。
このため、撮像された画像を再生する際、一部をズーム表示して視聴することが可能となっている。
一方、鳥瞰画像においてユーザ操作で指示された地点に係る広角画像から切り出された一部領域の画像を表示する技術が提案されている(特許文献1参照)。
特許文献1の技術によれば、広角画像から切り出される一部領域は、鳥瞰画像においてユーザ操作で指示された向きにより可変とされるので、ユーザは、鳥瞰画像をもとに、能動的に風景内を移動できる。
そこで、この特許文献1の技術を、高解像度化された画像に適用することで、画像内の任意の範囲をズーム表示させて、視聴させることが考えられる。
特開2007−109205号公報
しかしながら、特許文献1の技術を適用することで、高解像度化された画像の一部の範囲を用いてズームした画像を表示することはできても、再生される音声を、ズームした画像に対応して再生することはできない。
このため、再生される画像はズームできても、再生される音声は、ズーム前の画像全体が表示されるときの音声がそのまま再生されるので、視覚により視聴する内容と、聴覚により聴取する内容との間に乖離が生じて、違和感を生じさせる恐れがあった。
本開示は、このような状況に鑑みてなされたものであり、特に、再生画像に対してズームが指示された場合、ズームして表示される画像に対応した音声を出力できるようにするものである。
本開示の一側面の情報処理装置は、視聴ズーム倍率を変更することが可能な画像コンテンツを再生する画像再生部と、前記画像コンテンツ内のオブジェクトに関連付けられた音声データに対して、前記画像コンテンツの再生中の視聴ズーム倍率と、前記画像コンテンツ内での前記オブジェクトの向きの情報とに応じて音量ゲインを調整するゲイン調整部と、前記画像コンテンツと共に前記ゲイン調整部により調整された音声データを再生する音声再生部とを含む情報処理装置である。
前記ゲイン調整部には、前記音声データにおける直接音データと残響音データとの音量ゲインを調整させるようにすることができる。
前記ゲイン調整部には、前記オブジェクトに関連付けられた、前記画像コンテンツ内における前記オブジェクトの向きの情報に基づいて、前記音声データにおける前記直接音データと前記残響音データとの混合比を調整することで音量ゲインを調整させるようにすることができる。
前記画像コンテンツ内における前記オブジェクトの向きが、視聴者に対して正対していないとき、前記ゲイン調整部には、前記オブジェクトに関連付けられた、前記画像コンテンツ内における前記オブジェクトの向きの情報に基づいて、前記音声データにおける前記直接音データと前記残響音データとの混合比を調整することで音量ゲインを調整させるようにすることができる。
前記画像コンテンツ内における前記オブジェクトの向きが、視聴者に対して正対しているとき、前記ゲイン調整部には、前記オブジェクトに関連付けられた、前記画像コンテンツ内における前記オブジェクトの向きの情報に基づいて、前記音声データにおける前記直接音データと前記残響音データとの混合比を略1:0に調整することで音量ゲインを調整させるようにすることができる。
前記ゲイン調整部には、前記画像コンテンツ内における前記オブジェクトの向きが、視聴者に対して正対方向に近いほど前記直接音データの混合比を大きくし、かつ、前記残響音データの混合比を小さくし、前記画像コンテンツ内における前記オブジェクトの向きが、前記視聴者に対して反対方向に近いほど前記直接音データの混合比を小さくし、前記残響音データの混合比を大きくさせるようにすることができる。
記画像コンテンツの所定の範囲内に複数のオブジェクトが近接して存在していることを判定する近接オブジェクト判定部をさらに含ませるようにすることができ、前記ゲイン調整部は、前記近接オブジェクト判定部の判定結果に基づいて、前記複数のオブジェクトに関連付けられた音声データの音量ゲインを調整させるようにすることができる。
前記ゲイン調整部には、近接オブジェクト判定部の判定結果に基づいて、前記複数のオブジェクトに関連付けられた音声データのそれぞれの前記直接音データと前記残響音データとの混合比を調整させ、前記直接音データと前記残響音データとの混合比の平均値を求め、前記直接音データと前記残響音データとの混合比の平均値を、1個のオブジェクトに関連付けられた音声データの、前記直接音データと前記残響音データとの混合比とすることで音量ゲインを調整させるようにすることができる。
前記直接音データおよび前記残響音データは、前記音声データの収録時に分離されるようにすることができる。
前記収録時に前記オブジェクトに装着される端末をさらに含ませるようにすることができ、前記端末には、音声データを検出する音声データ検出部と、位置情報を検出する位置情報検出部と、オブジェクトの向きを検出する方向検出部とを設けるようにさせることができ、前記音声データ検出部により検出された音声データが前記直接音データおよび前記残響音データに分離されるようにすることができる。
前記画像コンテンツの視点位置は変更することができる。
前記オブジェクトは前記視点位置により決まる画像コンテンツの表示領域内に表示されるオブジェクトとすることができる。
本開示の一側面の情報処理方法は、視聴ズーム倍率を変更することが可能な画像コンテンツを再生する画像再生処理と、前記画像コンテンツ内のオブジェクトに関連付けられた音声データに対して、前記画像コンテンツの再生中の視聴ズーム倍率と、前記画像コンテンツ内での前記オブジェクトの向きの情報とに応じて音量ゲインを調整するゲイン調整処理と、前記画像コンテンツと共に前記ゲイン調整処理により調整された音声データを再生する音声再生処理とを含む情報処理方法である。
本開示の一側面のプログラムは、コンピュータを、視聴ズーム倍率を変更することが可能な画像コンテンツを再生する画像再生部と、前記画像コンテンツ内のオブジェクトに関連付けられた音声データに対して、前記画像コンテンツの再生中の視聴ズーム倍率と、前記画像コンテンツ内での前記オブジェクトの向きの情報とに応じて音量ゲインを調整するゲイン調整部と、前記画像コンテンツと共に前記ゲイン調整部により調整された音声データを再生する音声再生部として機能させるプログラムである。
本開示の一側面においては、視聴ズーム倍率を変更することが可能な画像コンテンツが再生され、前記画像コンテンツ内のオブジェクトに関連付けられた音声データに対して、前記画像コンテンツの再生中の視聴ズーム倍率と、前記画像コンテンツ内での前記オブジェクトの向きの情報とに応じて音量ゲインが調整され、前記画像コンテンツと共に調整された音声データが再生される。
本開示の一側面によれば、特に、再生画像に対するズームが指示された場合、ズームして表示される画像に対応した音声を出力することが可能となる。
本開示の概要を説明する図である。 本開示の情報処理システムの構成例を説明する図である。 図2の端末の構成例を説明するブロック図である。 図2の収録部の構成例を説明するブロック図である。 音声データを直接音データと残響音データに分離する原理を説明する図である。 図2の再生部の構成例を説明するブロック図である。 オブジェクトの姿勢に基づいた直接音と残響音との混合方法を説明する図である。 オブジェクトの姿勢に基づいた直接音と残響音との混合例を説明する図である。 オブジェクトの近接判定に基づいた、直接音と残響音との混合例を説明する図である。 全天周音声とオブジェクト音声のそれぞれのズーム倍率とゲインの関係を説明する図である。 収録処理を説明するフローチャートである。 データ格納処理を説明するフローチャートである。 再生処理を説明するフローチャートである。 向き姿勢調整処理を説明するフローチャートである。 近接調整処理を説明するフローチャートである。 汎用のコンピュータの構成例を説明する図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
1.本開示の概要
2.本開示の好適な実施の形態
3.ソフトウェアにより実行させる例
<<1.本開示の概要>>
本開示は、再生画像に対してズームが指示された場合、ズーム画像を表示すると共に、表示されるズーム画像に対応した音声を出力するものである。
例えば、音声と共に撮像されたサッカーの試合などの画像コンテンツが再生される場合、図1の左部の画像P1で示されるように、サッカーの試合会場全体が映し出されるような画像が表示されるときには、視聴者が、試合会場において、画像P1のように見える視点位置(想定視聴位置)で、試合を観戦する際に聞こえてくるような音声が出力される。
より詳細には、画像P1が表示される際には、視聴者が、画像P1のように見える視点位置となる観戦席に存在していると仮定したときに聞こえてくる、試合会場全体の、例えば、観客席からの「ガヤガヤ」といった音声Sd2や、少し離れたグランド上から聞こえる「ピー」という審判のホイッスルの音声Sd1が出力される。
一方、画像P1の状態から、点線で囲まれた範囲Z1をズームして表示するように指示がなされた場合、図1の右部で示されるように、範囲Z1がズームされた画像P2が表示される。
画像P2が表示される場合、視聴者が、画像P2のように見える視点位置に移動したと仮定したときに聞こえてくるような、選手同士の会話や、芝生の上を走る選手の足音などの音声が出力される。
すなわち、画像P1の範囲Z1のズーム画像である画像P2が表示される際には、画像P2の上部に存在する選手の発する「進め」といった会話からなる音声Sd11や芝生の上を走る際の「ざっ」といった音声Sd12、並びに、画像P2の下部に存在する選手の発する「こっちだ」といった会話からなる音声Sd13やボールを蹴る際の「パスッ」といった音声Sd14が出力される。
このように、本開示においては、表示画像のズーム再生が指示されると、指示された領域のズーム画像が再生されて表示されると共に、ズーム再生される画像内の物体を現実の物体として視聴するときの視点位置で視聴した際に聞こえてくるような音声が再生される。
これにより、視聴者は、ズーム再生される画像の視点位置で視聴しているような感覚を持つことが可能となり、画像コンテンツのズーム再生の視聴を、より高い没入感をもって楽しむことが可能となる。
<<2.好適な実施の形態>>
次に、図2を参照して、本開示の情報処理システムの構成例について説明する。
図2の情報処理システム1は、例えば、サッカーや野球のようなスポーツ中継などの画像コンテンツを音声と共に収録して、データとして格納する。そして、情報処理システム1は、格納したデータを読み出して、視聴者の頭部に装着されるHMD(Head Mounted Display)に出力し、画像と音声とを再生する。この際、画像に対してズームが指示されると、ズーム画像が表示されると共に、ズーム画像に対する想定視聴位置(ズーム画像により表現される空間内におけるユーザの視聴位置)において聴取されるような音声が出力される。
尚、収録される画像コンテンツは、サッカーや野球などのスポーツ中継のようなもの以外であってもよく、例えば、ライブコンサートや舞台演劇などでもよい。
情報処理システム1は、端末11−1乃至11−n、収録部12、データ格納部13、再生部14、HMD(Head Mounted Display)15、および操作部16より構成される。
端末11−1乃至11−nは、サッカー選手や野球選手といった収録対象となる画像コンテンツであるスポーツの競技者H1乃至Hnに装着され、競技者H1乃至Hnの周辺の音声、位置、向きや姿勢の情報を検出して収録データとして収録部12に送信する。
尚、端末11−1乃至11−nを特に区別する必要がない場合、単に、端末11と称し、その他の構成についても同様に称する。また、端末11の詳細な構成例については、図3を参照して後述する。また、画像コンテンツが、ライブコンサートや舞台演劇などの場合、端末11は、ライブコンサートの演者であるアーティストや舞台演劇の俳優などに装着される。さらに、競技者、アーティスト、および俳優などは、画像コンテンツにおけるオブジェクトと捉えることができる。そこで、以降においては、端末11を装着する競技者、アーティスト、および俳優については、オブジェクトとも称する。
収録部12は、試合などを撮影するカメラ12a、およびカメラ12aの撮影位置の周辺や競技場の全体の音声を収録するマイクロフォン12bを備えており、カメラ12aにより撮像される画像と、マイクロフォン12bにより収録される音声とを対応付けて収録する。ここで、マイクロフォン12bにより収録される音声は、カメラ12aに連動した、全体の音声であるので、以降においては、マイクロフォン12bにより聴取される音声を全天周音声と称する。また、収録部12は、端末11−1乃至11−nより送信されてくる収録データを取得する。そして、収録部12は、収録データに含まれる音声データ、位置情報、並びに、向きおよび姿勢情報のそれぞれを対応付けて、データ格納部13に格納する。
データ格納部13は、直接音データ格納部31、残響音データ格納部32、オブジェクトメタデータ格納部33、および画像データ格納部34を備えている。
収録部12は、収録データのうち、音声データを抽出し、抽出した音声データを、直接音データと残響音データとに分離して、直接音データを直接音データ格納部31に格納させると共に、残響音データを残響音データ格納部32に格納させる。また、収録部12は、位置情報、並びに、向きおよび姿勢情報に基づいて、オブジェクトメタデータを生成し、オブジェクトメタデータ格納部33に格納する。さらに、収録部12は、全天周音声データを、直接音データ格納部31に格納させる。また、収録部12は、画像データを画像データ格納部34に格納させる。尚、収録部12の詳細な構成例については、図4を参照して後述する。
再生部14は、再生が指定された、コンテンツの直接音データ、残響音データ、オブジェクトメタデータ、および画像データをデータ格納部13より読み出して、所定の加工を施して、HMD15の表示部22に画像として表示すると共に、音声出力部21より音声として出力させる。
また、操作部16が、ユーザにより操作されて、操作内容に応じて出力される操作信号に基づいて、ズーム再生が指示される(視聴ズームが指示される)と、再生部14は、ズーム表示する画像を生成すると共に、ズーム画像内の距離感の変化を音声でも感じられるような音声を生成する。そして、再生部14は、それぞれをHMD15に出力して、ズーム画像として表示部22に表示させると共に、ズーム画像の視聴位置における音声を音声出力部21より出力させる。尚、再生部14の詳細な構成例については、図6を参照して後述する。
HMD15は、ユーザの頭部に装着され、スピーカやヘッドフォンなどからなる音声出力部21、および、LCD(Liquid Crystal Display)や有機EL(Electro Luminescence)などのディスプレイからなる表示部22を備えている。HMD15は、再生部14より供給される画像データと音声データを取得して、表示部22に画像を表示させると共に、音声出力部21より音声を出力させる。
より詳細には、HMD15は、加速度センサおよびジャイロセンサ等を備えており、HMD15を装着したユーザが頭の方向や位置を動かすことにより、画像コンテンツや全天周コンテンツの視点位置を変更して表示部22に表示する。すなわち、HMD15の表示部22には、HMD15の位置や方向によって決まる視点位置に対応した画像コンテンツの領域が表示される。そして、視点位置に対応した画像コンテンツの領域に表示されているオブジェクトが、視点位置に対応した音声となるように、音声のゲインが調整される処理の対象となるオブジェクトとなる。
<端末の構成例>
次に、図3のブロック図を参照して、端末11の構成例について説明する。
端末11は、収録部12により収録される画像コンテンツである、例えば、スポーツの競技者一人一人に装着されるものであり、制御部51、音声取得部52、GPS53、モーションセンサ54、および通信部55を備えている。
制御部51は、端末11の動作の全体を制御している。
音声取得部52は、マイクロフォンなどからなり競技者の声、呼吸音、および足音などの音声を取得し、取得した音声データを制御部51に出力する。
GPS(Global Positioning System)53は、図示せぬ衛星からの信号を受信して、地球上の緯度および経度からなる位置情報を求め、競技者の位置情報として制御部51に出力する。
モーションセンサ54は、加速度を計測し、計測結果に基づいて、競技者の向きおよび姿勢を検出して、向きおよび姿勢情報として制御部51に出力する。
通信部55は、Wifiなどの無線通信回線により、収録部12と通信し、各種のデータやプログラムの授受を行う。
制御部51は、通信部55を制御して、音声データ、位置情報、並びに、向きおよび姿勢情報を、収録データとして、端末11を識別する固有識別子、および収録時刻を示す時刻情報と対応付けて、収録部12に送信させる。
<収録部の構成例>
次に、図4のブロック図を参照して、収録部12の構成例について説明する。
収録部12は、制御部71、通信部72、収録データ格納部73、データ分離部74、ノイズ除去部75、残響分離部76、オブジェクトメタデータ生成部77、および画像データ抽出部78を備えている。
制御部71は、収録部12の全体の動作を制御する。制御部71は、通信部72を制御して、端末11より送信される収録データを受信して、収録データ格納部73に格納する。また、制御部71は、カメラ12aにより撮像された画像の画像データ、およびマイクロフォン12bにより収録された全天周音声の音声データを収録データ格納部73に格納する。
すなわち、収録データ格納部73は、カメラ12aにより撮像された画像データ、マイクロフォン12bにより収録された音声データ、および端末11より供給される収録データを、それぞれの識別子と、取得したタイミングを示す時刻情報に対応付けて格納している。
データ分離部74は、収録データ格納部73に格納されている端末11より供給されてきた収録データを読み出して、音声データ、並びに、位置情報、および向き姿勢情報を分離して読み出す。そして、データ分離部74は、音声データをノイズ除去部75に供給し、位置情報、並びに、向きおよび姿勢情報をオブジェクトメタデータ生成部77に供給する。
ノイズ除去部75は、音声データに対して、例えば、所定のノイズ除去フィルタ処理を施し、ノイズを除去して残響分離部76に出力する。
残響分離部76は、ノイズが除去された音声データを直接音データと残響音データとに分離して、直接音データを直接音データ格納部31に格納し、残響音データを残響音データ格納部32に格納する。音声データを直接音データと残響音データとに分離する方法については、図5を参照して後述する。
オブジェクトメタデータ生成部77は、位置情報、並びに、向きおよび姿勢情報に基づいて、競技者一人一人をオブジェクトとして、それぞれに対応するオブジェクトメタデータを生成して、オブジェクトメタデータ格納部33に格納する。より詳細には、オブジェクトメタデータ生成部77は、音声データにおけるフレーム(オーディオフレーム)単位でオブジェクトメタデータを生成する。従って、オーディオフレーム単位で、オブジェクトメタデータには位置情報、並びに向きおよび姿勢情報が格納される。
データ分離部74は、収録データ格納部73に格納されているマイクロフォン12bにより収録された全天周音声の音声データを抽出する。
そして、データ分離部74は、マイクロフォン12bにより収録された全天周音声の音声データをノイズ除去部75に供給し、端末11単位の収録データにおける音声データと同様に、ノイズ時を除去させる。ノイズ除去部75は、ノイズを除去した全天周音声の音声データを、残響分離部76に供給する。この際、残響分離部76は、全天周音声の音声データについては、直接音データおよび残響音データには分離せず、そのままの状態で直接音データ格納部31に格納させる。
画像データ抽出部78は、収録データ格納部73に格納されている画像データを抽出し、画像データ格納部34に格納させる。
尚、直接音データ格納部31に格納された直接音データ、残響音データ格納部32に格納された残響音データ、オブジェクトメタデータ格納部33に格納されたオブジェクトメタデータ、画像データ格納部34に格納された画像データは、それぞれ収録されたタイミングを示す時刻情報と、端末を識別する識別子とにより対応付けて、例えば、フレーム単位で登録されている。
<直接音データと残響音データとの分離について>
ここで、図5を参照して、音声データの直接音データと残響音データとの分離について説明する。
図5の表示Aで示されるように、特定の空間内において、スピーカSsから出力される音声がマイクロフォンMにより収録されることを考える。このとき、スピーカSsから出力された音声Sdは、その一部がマイクロフォンMにより直接音として収録されるが、その他の一部の音声は、空間内の壁などにより反射して残響音Si1やSi2として収録される。
ここで、スピーカSsから出力された音声Sdとして、第1の時刻に音声S1が出力され、第1の時刻よりも遅れた第2の時刻に音声S2が出力されることを考える。
このとき、マイクロフォンMにおいて収録される音声の波形は、例えば、図5の表示Bで示されるような波形となる。
すなわち、時刻t1において、第1の時刻に出力された音声S1が検出されて、それより遅れて、時刻t2において、第2の時刻に出力された音声S2が検出される。いずれも波形の形状は、受信された時刻の波高値が高く、時間の経過に伴って減衰する波形となる。
これは、直接音は、スピーカSsから最も近い経路を経てマイクロフォンMにより収録され、かつ、マイクロフォンMに対して正面から収録されるので、波高値が高く、早いタイミングで検出される。
これに対して、残響音は、スピーカSsからマイクロフォンMに到達するまでに、様々な経路を経て収録されるので、直接音に比べて遅れて収録され、かつ、経路が伸びるに従ってパワーが低下し波高値が減衰する波形となる。
結果として、図5の表示Bにおける波形は、図5の表示Cで示されるように、直接音の波形Sd11,Sd12と、残響音の波形Si11,Si12とが合成された波形と考えることができる。
そこで、残響分離部76は、図5の表示Dで示されるように、波形Sd11,Sd12からなる音声データを、直接音データとして抽出する。また、残響分離部76は、図5の表示Eで示されるように、波形Si11,Si12からなる音声データを、残響音データとして抽出する。すなわち、残響分離部76は、図5で示されるような原理により、音声データを直接音データと残響音データとに分離する。
<再生部の構成例>
次に、図6のブロック図を参照して、再生部14の構成例について説明する。
再生部14は、制御部90、メタパーサ部91、オブジェクト位置姿勢指定部92、近接オブジェクト判定部93、音声デコード部94、オブジェクト混合部95、位相調整部96、3D音声レンダラ97、UI(ユーザインタフェース)処理部98、ゲイン調整部99、画像デコード部100、および画像レンダラ101を備えている。
制御部90は、再生部14の動作の全体を制御している。
メタパーサ部91は、オブジェクトメタデータ格納部33より、処理が必要なオブジェクトのオブジェクトメタデータを読み出し、オブジェクトメタデータに含まれる位置および姿勢情報をオブジェクト位置姿勢指定部92に供給し、位置情報を近接オブジェクト判定部93に供給する。ここで、処理が必要なオブジェクトとは、例えば、操作部16が操作されてズーム表示が指示された場合、指示されたズーム倍率とズーム位置の情報に基づいて特定されるズーム画像内に映り込んでいる競技者に対応するオブジェクトである。
オブジェクト位置姿勢指定部92は、オブジェクトメタデータに含まれる位置および姿勢情報に基づいて、競技者であるオブジェクト一人一人の位置と姿勢とを指定してオブジェクト混合部95に出力する。
近接オブジェクト判定部93は、オブジェクトデータの位置情報に基づいて、オブジェクト毎の近接の有無(近接して存在しているか否か)を判定し、判定結果をオブジェクト混合部95に出力する。より詳細には、近接オブジェクト判定部93は、オブジェクトである競技者の一人一人の占有範囲を設定し、それぞれの位置情報に基づいて、占有範囲が重なり合っているか否かに基づいて近接の有無を判定する。尚、本実施の形態においては、近接の有無の判定、すなわち、近接判定は、オブジェクトである競技者の一人一人の占有範囲が重なり合っているか否かに基づいて、判定するものとして説明するが、オブジェクトが近接しているか否かが判定できれば他の方法で判定するようにしてもよい。例えば、オブジェクト間の距離が、所定の近接判定距離以下であるか否かに基づいて、近接判定するようにしてもよい。
音声デコード部94は、処理が必要となるオブジェクトについて、直接音データ格納部31より直接音データを読み出してデコードすると共に、残響音データ格納部32より残響音データを読み出してデコードし、デコード結果となる直接音データと残響音データとをオブジェクト混合部95に出力する。
また、音声デコード部94は、全天周音声の音声データについて、直接音データと残響音データとに分離されていない状態で、直接音データ格納部31に格納されているので、直接音データ格納部31より読み出して、デコードし、デコード結果を位相調整部96に出力する。
UI処理部98は、操作部16より供給される操作内容に応じた操作信号に基づいて、受け付けた操作内容の情報を制御部90に出力する。制御部90は、UI制御部98を介して、操作部16の操作内容に応じたズーム操作に関するズーム倍率やズーム位置の情報を取得し、メタパーサ部91、音声デコード部94、オブジェクト混合部95、位相調整部96、3D音声レンダラ97、ゲイン調整部99、および画像レンダラ101に供給する。
尚、ズーム操作は、操作部16がスティックタイプ、ボタンタイプの構成であれば、操作部16を操作するものであってもよい。また、ユーザの視線を検出し、画像内のいずれか一点を所定時間注視したときにその位置を中心とした所定の範囲をズーム表示させるためのズーム操作であるものとみなすようにしてもよい。
オブジェクト混合部95は、オブジェクトの位置と姿勢の情報、および、ズーム倍率とズーム位置の情報より求められる、オブジェクトの想定視聴位置(想定される画像空間内におけるユーザの視聴位置)からの相対的な距離に基づいて、オブジェクトの音声データに掛ける基本的なゲイン(音声ゲイン)とスプレッドを設定する。
また、オブジェクト混合部95は、画像コンテンツ内のオブジェクトの向きに応じて、オブジェクト毎の直接音データと残響音データとを混合して、3D音声レンダラ97に出力する。
さらに、オブジェクト混合部95は、近接オブジェクト判定部93より供給される近接判定結果に基づいて、近接しているとの判定結果の場合、近接している複数のオブジェクト同士の音声データを近接状態に応じて、1個のオブジェクトの音声データとして混合して3D音声レンダラ97に出力する。これは、近接したオブジェクトでは、同一の音声が出力される可能性があり、過ゲインが生じる恐れがあるので、1個のオブジェクトとして音声データを管理することで、過ゲインの発生を抑制することができる。
位相調整部96は、音声デコード部94より供給される全天周音声の位相を調整して、3D音声レンダラ97に出力する。
ゲイン調整部99は、制御部90からのズーム倍率の情報に応じて、ゲインを調整する信号を3D音声レンダラ97に出力する。
3D音声レンダラ97は、オブジェクト混合部95より供給されるオブジェクト毎の音声データ、および位相調整部96より供給される位相が調整された全天周音声データをレンダリングし、ゲイン調整部99より供給されるゲインを調整する信号に基づいてゲインを調整して、音声出力部21に供給し、音声として出力させる。
画像デコード部100は、画像データ格納部34より画像データを読み出し、デコードして画像レンダラ101に出力する。
画像レンダラ101は、制御部90より供給されるズーム倍率やズーム位置の情報に基づいて、画像データをレンダリングして、表示部22に出力し表示させる。
<オブジェクト混合部による直接音と残響音の混合方法>
次に、図7を参照して、オブジェクト混合部95における直接音データと残響音データとの混合例について説明する。
例えば、図7の左部で示されるように、音声の聴取位置(ズーム画像の想定視聴位置に対応する位置)L1に対して正面を向いた姿勢のオブジェクトである人物H101が音声を発する場合、ほぼ直接音のみが聴取されることになり、残響音はほとんど聴取されない。
尚、図7の左部においては、人物H101より発せられる直接音が、直接音Ss101として表現されており、聴取位置L1において、音像の大きさが音像Sp101の図7上の大きさとして表現されている。また、図7において、音像Sp101におけるθ1は、スプレッドを表現したものである。スプレッドは音像の広がりを示す指標であり、聴取位置を正面としたときの左右の角度として表現されている。換言すれば、θ1は、視聴想定位置からの距離から設定される音像の大きさを意味し、遠い音源は小さく、近い音源は大きく設定される。図7の左部の場合、直接音Ssの前方方向のスプレッドに対応して、音像Sp101ではスプレッドθ1が設定されている。
このため、図7の左部の場合、オブジェクト混合部95は、直接音をほぼ100%として、残響音を0%として混合し、オブジェクトの音声データを生成する。
また、図7の中央部で示されるように、音声の聴取位置L1に対して、横を向いた姿勢のオブジェクトである人物H102が音声を発する場合、直接音の聴取は一部になり、残響音を含む状態となる。
このため、図7の中央部においては、人物H102より発せられる直接音Ss102に対して、聴取位置L1における直接音の音像Sp102の大きさは、図7の左部における音像Sp101よりも小さくなり、スプレッドが絞られて、θ2(<θ1)に設定される。また、図7の中央部においては、聴取位置L1に対して、人物H102よりも遠い位置に壁Wが存在することを仮定しており、この壁Wにより直接音が反射することで、経路R1,R2などにより発生する残響音が、聴取位置L1において聴取される。
したがって、図7の中央部の場合、オブジェクト混合部95は、図7の左部の場合と比較して、直接音のスプレッドがθ1からθ2(<θ1)にして絞ることにより、直接音の音像Sp102を小さくすると共に、残響音の割合を高くして混合し、オブジェクトの音声データを生成する。
さらに、図7の右部で示されるように、音声の聴取位置L1に対して、背を向けた姿勢のオブジェクトである人物H103が音声を発する場合、直接音の聴取はほぼない状態となり、ほぼ残響音のみとなる。
このため、図7の右部においては、人物H103より発せられる直接音Ss103に対して、聴取位置L1における直接音の音像は、ほぼない状態となる。また、図7の右部においては、聴取位置L1に対して、壁Wにより直接音が反射することで、経路R11,R12などにより残響音が発生し、聴取位置L1において聴取される。
したがって、図7の右部の場合、オブジェクト混合部95は、直接音を0%とし、残響音を100%にして混合し、オブジェクトの音声データを生成する。
すなわち、図7の左部の人物H101で示されるように聴取位置L1に対して正対した場合に、スプレッドθ1の面音源として設定された音源は、図7の中央部の人物H102で示されるように聴取位置L1に対して横を向いた場合、スプレッドθ2の音源に変化し音像が小さくなり、最終的に、図7の右部の人物H103で示されるように、聴取位置L1に背を向けた場合、面音源の面積が0(スプレッドが0)になる。
<オブジェクト混合部による直接音と残響音の具体的な混合例>
次に、図8を参照して、オブジェクト混合部95による直接音と残響音の具体的な混合例について説明する。
例えば、図8で示されるように、サッカーの試合における画像コンテンツの場合、オブジェクトが競技者H131の場合、想定視聴位置に対して、斜め前方を向いている(表示部22を視聴する視聴者に対して斜め方向の状態で映っている)ため、オブジェクト混合部95は、スプレッドを絞り、直接音を75%とし、残響音を25%にして混合し、オブジェクトの音声データを生成する。
また、図8におけるオブジェクトが競技者H132の場合、想定視聴位置に対して、背を向けている(表示部22を視聴する視聴者に対して反対向きの状態で映っている)ため、直接音は聞こえないので、オブジェクト混合部95は、スプレッドを絞った設定とし、直接音を0%とし、残響音を100%にして混合し、オブジェクトの音声データを生成する。
さらに、図8におけるオブジェクトが競技者H133の場合、想定視聴位置に対して、真横を向いている(表示部22を視聴する視聴者に対して真横を向いた状態で映っている)ため、オブジェクト混合部95は、スプレッドを絞った設定とし、直接音を50%とし、残響音を50%にして混合し、オブジェクトの音声データを生成する。
このように、想定視聴位置と、オブジェクトである競技者の向きや姿勢に応じて、直接音と残響音とが混合される。
<近接判定に応じた直接音と残響音との混合方法>
次に、図9を参照して、近接判定に応じた、直接音と残響音との混合方法について説明する。
例えば、図9で示されるように、サッカーの試合における画像コンテンツの場合、例えば、点線C1で囲まれる所定距離内に存在する競技者H151,H152について、それぞれの占有範囲Z51,Z52は、重なり合っていない。このため、近接オブジェクト判定部93は、競技者H151,H152が近接していないと判定する。したがって、この場合、オブジェクト混合部95は、競技者H151,H152の音声データを個別のオブジェクトのそれぞれに生成する。
尚、図9では、競技者H151,H152のそれぞれの占有範囲Z51,Z52は、所定の半径の円形の範囲として定義されているが、その他の大きさや形状の範囲が設定されていてもよい。
また、例えば、図9の点線C2で囲まれる所定距離内に存在する競技者H161,H162について、それぞれの占有範囲Z61,Z62については、重なり合っている。このため、近接オブジェクト判定部93は、競技者H161,H162が近接していると判定する。したがって、この場合、オブジェクト混合部95は、競技者H161,H162のそれぞれの位置と姿勢情報に基づいて、相互のオブジェクトを1個のオブジェクトとして音声データを混合する。
より詳細には、例えば、オブジェクト混合部95は、競技者H161は正対している(表示部22を視聴する視聴者に対して正対した状態で映っている)ので、直接音を100%とし、残響音を0%として混合し(=直接音データ×1+残響音データ×0)、競技者H162は斜め前方を向いているので、直接音を75%とし、残響音を25%として混合し(=直接音データ×0.75+残響音データ×0.25)、さらに、競技者H161,H162は、二人であるので、音声データを50%ずつで混合する(=(直接音データ×1+残響音データ×0)/2+(直接音データ×0.75+残響音データ×0.25)/2)。
結果として、競技者H161,H162の音声データは、1個のオブジェクトの音声データとして混合される。
さらに、例えば、図9の点線C3で囲まれる所定距離内に存在する競技者H171,H172について、それぞれの占有範囲Z71,Z72については、重なり合っている。このため、近接オブジェクト判定部93は、競技者H171,H172が近接していると判定する。したがって、この場合、オブジェクト混合部95は、競技者H171,H172との位置と姿勢との関係から、相互のオブジェクトを1個のオブジェクトとして音声データを混合する。
より詳細には、例えば、オブジェクト混合部95は、競技者H171の音声データは背を向けている(表示部22を視聴する視聴者に対して反対方向の状態で映っている)ので、直接音を0%とし、残響音を100%として混合し(=直接音データ×0+残響音データ×1)、競技者H172は真横を向いているので、直接音を50%とし、残響音を50%とし(=直接音データ×0.5+残響音データ×0.5)、さらに、競技者H171,H172は、二人であるので、音声データを50%ずつで混合する(=(直接音データ×1+残響音データ×0)/2+(直接音データ×0.5+残響音データ×0.5)/2)。
結果として、競技者H171,H172の音声データは、1個のオブジェクトの音声データとして混合される。また、過ゲインなどが生じることがなくなり、ノイズの発生を低減させることが可能となる。
尚、以上においては、近接状態となっている競技者が二人であった場合であるため、最後に2で割って加算した平均をとっていたが、3人以上の場合、それぞれの音声データの人数分で除した値の和を求めて、平均値とする。
<全天周音声およびオブジェクト音声のそれぞれのゲインと、表示画像のズーム倍率との関係>
次に、図10を参照して、全天周音声およびオブジェクト音声のそれぞれのゲインと、表示画像のズーム倍率との関係について説明する。
全天周音声およびオブジェクト音声のそれぞれのゲインと、表示画像のズーム倍率との関係は、図10で示されるような関係となる。尚、図10においては、縦軸がゲインであり、横軸がズーム倍率である。
すなわち、全天周音声のゲインは、ズーム倍率が大きくなるにしたがって小さくなる。これに対して、オブジェクト音声は、ズーム倍率が大きくなるにしたがって大きくなる。
このように制御されることで、ズーム倍率が高くなり、例えば、特定のオブジェクトである人物が大きく映し出されるような画像になると、全天周音声である周囲の音声はほぼ聞こえない状態となり、大きく映し出されたオブジェクトに対応する人物の会話や足音などがよく聞こえる状態となる。
尚、全天周音声データについては、ゲイン調整部99によるゲインの調整もなされるが、位相調整部96が、位相を反転させることでもゲインを低減させる。
<収録処理>
次に、図11のフローチャートを参照して、収録処理について説明する。
ステップS11において、端末11の音声取得部52は、端末11を装着している競技者の周囲の音声を取得し、音声データとして制御部51に出力する。
ステップS12において、GPS52は、図示せぬ衛星から信号を受信し、受信した信号に基づいて、地球上の緯度および経度からなる位置情報を求めて、端末11を装着している競技者の位置情報として制御部51に出力する。
ステップS13において、モーションセンサ54は、加速度を計測し、端末11を装着している競技者の向きと姿勢を検出し、制御部51に出力する。
ステップS14において、制御部51は、音声データ、位置情報、並びに、向きおよび姿勢情報を、取得時刻を示す時刻情報、および端末を識別する識別子と対応付けて、収録データとして、通信部55を制御して、収録部12に送信する。
ステップS31において、収録部12の制御部71は、通信部72を制御して、端末11より送信された収録データを受信する。
ステップS32において、制御部71は、受信した収録データを、収録データ格納部73に格納する。
ステップS33において、制御部71は、カメラ12aにより撮像された画像の画像データを取得して、収録データ格納部73に格納する。
ステップS34において、制御部71は、マイクロフォン12bにより収録された全天周音声の音声データを取得し、収録データ格納部73に格納する。
ステップS15,S35において、処理の終了が指示されたか否かが判定されて、処理の終了が指示されていない場合、処理は、ステップS11,S31に戻る。すなわち、終了が指示されるまで、端末11においては、ステップS11乃至S15の処理が繰り返され、収録部12においては、ステップS31乃至S35の処理が繰り返される。
そして、ステップS15,S35において、それぞれ処理の終了が指示されると、処理は、終了する。
以上の処理により、収録部12は、端末11より送信されてくる収録データを、順次、収録データ格納部73に格納する。また、収録部12は、カメラ12aにより撮像された画像、および、マイクロフォン12bにより収録された全天周音声の音声データも収録データ格納部73に格納する。
尚、端末11からの収録データと、画像データおよび全天周音声の音声データは、いずれも端末11を識別できる識別子と、情報やデータが取得された時刻を示す時刻情報が対応付けられて格納される。
<データ格納処理>
次に、図12のフローチャートを参照して、データ格納処理について説明する。データ格納処理は、上述した収録処理により各端末11より供給される収録データが収録データ格納部73に格納された状態でなされる処理である。
ステップS51において、データ分離部74は、収録データ格納部73に格納されている収録データのうち、未処理の収録データを処理対象収録データに設定する。
ステップS52において、データ分離部74は、処理対象収録データを、音声データ、位置情報、並びに、向きおよび姿勢情報に分離し、音声データをノイズ除去部75に、位置情報、並びに、向きおよび姿勢情報をオブジェクトメタデータ生成部77に出力する。
ステップS53において、ノイズ除去部75は、音声データよりノイズを除去して、残響分離部76に出力する。
ステップS54において、残響分離部76は、音声データを直接音データと残響音データとに分離し、直接音データを直接音データ格納部31に格納し、残響音データを残響音データ格納部32に格納する。
ステップS55において、オブジェクトメタデータ生成部77は、位置情報、並びに、向きおよび姿勢情報に基づいて、オブジェクトメタデータを生成し、オブジェクトメタデータ格納部33に格納する。ここで、オブジェクトメタデータは、オーディオフレーム単位で、時系列に格納される。
ステップS56において、データ分離部74は、未処理の収録データが存在するか否かを判定し、未処理の収録データが存在する場合、処理は、ステップS51に戻る。すなわち、全ての収録データに対して処理がなされるまで、ステップS51乃至S56の処理が繰り返される。そして、ステップS56において、未処理の収録データがないとみなされた場合、処理は、ステップS57に進む。
ステップS57において、データ分離部74は、収録データ格納部73に格納されている全天周音声の音声データを抽出し、ノイズ除去部75に供給する。ノイズ除去部75は、全天周音声の音声データよりノイズを除去して残響分離部76に供給する。
ステップS58において、残響分離部76は、全天周音声の音声データより残響音の分離を行わず、そのまま直接音データとして直接音データ格納部31に格納する。すなわち、全天周音声については、直接音と残響音とを分けた処理をしないので、分離せず、そのまま直接音データとして直接音データ格納部31に格納する。ただし、必要に応じて、全天周音声の音声データについても、直接音と残響音とに分離して管理するようにしてもよい。
ステップS59において、画像データ抽出部78は、収録データ格納部73に格納されている画像データを抽出し、画像データ格納部34に格納する。
以上の処理により、収録データ格納部73において、端末11毎に、すなわち、オブジェクト毎に格納されている収録データが順次読み出されて、音声データ、位置情報、並びに、向きおよび姿勢情報に分離される。そして、音声データが、ノイズ除去された後、直接音データと残響音データとに分離され、それぞれ、直接音データ格納部31、および残響音データ格納部32に格納される。また、位置情報、並びに、向きおよび姿勢情報に基づいて、オブジェクトメタデータが生成されて、オブジェクトメタデータ格納部33に格納される。さらに、収録データ格納部73に格納されている全天周音声の音声データが抽出されて、ノイズ除去されると、残響音と分離されずにそのまま直接音データ格納部31に格納される。また、収録データ格納部73に格納されている画像データが抽出されて、画像データ格納部34に格納される。
<再生処理>
次に、図13のフローチャートを参照して、再生処理について説明する。尚、再生処理については、上述したデータ格納処理がなされて、データ格納部13に各種のデータが分離されて格納されていることが前提となる。
ステップS71において、制御部90は、UI処理部98を介して供給される、操作部16が操作されて、ズーム操作がなされたことを示す操作信号が供給されたか否かに基づいて、ズーム操作の有無を判定する。ステップS71において、ズーム操作がなされていない場合、処理は、ステップS88に進む。
ステップS88において、制御部90は、音声デコード部94に対して通常の再生を指示する。これにより、音声デコード部94は、直接音データ格納部31に格納されている全天周音声の音声データを読み出してデコードし、位相調整部96に出力する。位相調整部96は、デコードされた全天周音声の音声データを、そのまま、すなわち、位相を調整することなく減衰させずに、3D音声レンダラ97に供給する。3D音声レンダラ97は、デコードされた全天周音声の音声データを音声出力部21に出力し、音声として出力させる。また、この場合、ゲイン調整部99は、ズーム操作がなされていない通常の再生であるので、全天周音声の音声データのゲインを最大に設定する。
ステップS89において、画像デコード部100は、画像データ格納部34より画像データを読み出して、デコードし、画像レンダラ101に出力する。画像レンダラ101は、デコードされた画像データをズームすることなく、画像の全体が表示されるようにレンダリングし、表示部22に出力し、表示させる。
処理は、ステップS87に進み、終了が指示されたか否かが判定され、終了が指示されていない場合、処理は、ステップS71に戻る。
すなわち、ズーム処理がなされない通常再生の場合、ステップS71,S88,S89,S87の処理が繰り返されて、収録処理において、カメラ12aにより撮像された画像がそのまま表示部22に表示され、また、全天周音声が音声出力部21より出力され続ける。
一方、ステップS71において、操作部16が操作されて、ズーム操作がなされた場合、処理は、ステップS72に進む。
ステップS72において、制御部90は、操作部16によるズーム操作に対応するズーム倍率、およびズーム位置の情報を画像レンダラ101、メタパーサ部91、オブジェクト混合部95、位相調整部96、およびゲイン調整部99に供給する。
ステップS73において、画像レンダラ101は、ズーム倍率およびズーム位置の情報に基づいて、画像デコード部100より供給されるデコードされた画像データをレンダリングして、ズーム画像を生成し、表示部22に出力して表示させる。この処理により、収録時にカメラ12aにより撮像された画像から、操作部16によるズーム操作に対応するズーム倍率で、かつ、ズーム位置のズーム画像が生成されて、表示部22に表示される。
ステップS74において、音声デコード部94は、ズーム操作に対応するズーム倍率、およびズーム位置の情報に基づいて、ズーム画像内に存在するオブジェクト、すなわち、ズーム画像内に映り込む競技者を特定する。そして、音声デコード部94は、特定したオブジェクトの直接音データおよび残響音データを、直接音データ格納部31および残響音データ格納部32よりそれぞれ読み出してデコードし、オブジェクト混合部95に出力する。
ステップS75において、メタパーサ部91は、ズーム操作に対応するズーム倍率、およびズーム位置の情報に基づいて、ズーム画像内に存在するオブジェクト、すなわち、ズーム画像内に映り込む競技者を特定する。そして、メタパーサ部91は、特定したオブジェクトのオブジェクトメタデータを、オブジェクトメタデータ格納部33より読み出してオブジェクト位置姿勢指定部92、および近接オブジェクト判定部93に出力する。
ステップS76において、位相調整部96は、全天周音声の前方再現音の位相を反転させて、実質的にゲインを減衰させる。
ステップS77において、ゲイン調整部99は、全天周音声の再現音のゲインを減衰させる。
すなわち、ステップS76,S77の処理により、図10を参照して説明したように、ズーム倍率に応じて、全天周音声のゲインが低減される。
ステップS78において、オブジェクト混合部95は、ズーム領域内に存在するオブジェクトのうち、未処理のオブジェクトを処理対象オブジェクトに設定する。
ステップS79において、オブジェクト位置姿勢指定部92は、処理対象オブジェクトの位置情報、並びに、向きおよび姿勢情報に基づいて、位置情報と姿勢情報を特定してオブジェクト混合部95に出力する。
ステップS80において、オブジェクト混合部95は、処理対象オブジェクトの位置情報に基づいて、想定視聴位置を特定し、処理対象オブジェクトまでの距離に基づいて、直音声データに掛ける基本的なスプレッドとゲインとを設定する。すなわち、ここでは、想定視聴位置までの相対的な距離と、図10を参照して説明した手法によりズーム倍率によりオブジェクト音声に対しての、基本的なスプレッドとゲインが設定される。
ステップS81において、オブジェクト混合部95は、処理対象オブジェクトの姿勢情報に基づいて、処理対象オブジェクトが想定視聴位置に対して正対しているか否かを判定する。ステップS81において、処理対象オブジェクトが想定視聴位置に対して正対していない場合、処理は、ステップS82に進む。
ステップS82において、オブジェクト混合部95は、向き姿勢調整処理を実行して、処理対象オブジェクトの想定視聴位置に対する向きに応じてスプレッドとゲインを調整する。
<向き姿勢調整処理>
ここで、図14のフローチャートを参照して、向き姿勢調整処理について説明する。
ステップS91において、オブジェクト混合部95は、処理対象オブジェクトの想定視聴位置に対する向きに応じて、直接音を減衰させるように直接音データを調整する。
ステップS92において、オブジェクト混合部95は、処理対象オブジェクトの想定視聴位置に対する向きに応じて残響音を増幅させるように残響音データを調整する。
ステップS93において、オブジェクト混合部95は、処理対象オブジェクトの想定視聴位置に対する向きに応じて、直接音のスプレッドを小さくさせるように直接音データを調整する。
すなわち、処理対象オブジェクトが想定視聴位置に対して正対していないので、例えば、図7,図8を参照して説明したように、直接音のスプレッドが絞られると共に、減衰され、残響音が増幅されるようにして混合し、レンダリングされることにより生成される音声が、処理対象オブジェクトの向きと想定視聴位置との関係に対して適切な音声となるように調整される。
ここで、図12のフローチャートに戻る。
一方、ステップS81において、処理対象オブジェクトが想定視聴位置に対して正対している場合については、ステップS82の処理がスキップされる。すなわち、この場合、処理対象オブジェクトが想定視聴位置に対して正対しているので、直接音のみが聴取できればよいので、残響音を混合する向き姿勢調整処理は不要となる。
ステップS83において、オブジェクト混合部95は、未処理のオブジェクトが存在するか否かを判定し、未処理のオブジェクトが存在する場合、処理は、ステップS78に戻る。すなわち、全てのオブジェクトに対応する基本的なスプレッドとゲインが調整されて、必要に応じて、正対していないオブジェクトに対して、向き姿勢調整処理により、直接音と残響音とが混合されるまで、ステップS78乃至S83の処理が繰り返される。そして、ステップS83において、全てのオブジェクトに対して、直接音と残響音との調整がなされ、未処理のオブジェクトがないとみなされた場合、処理は、ステップS84に進む。
ステップS84において、近接オブジェクト判定部93は、近接調整処理を実行し、所定の距離内に存在するオブジェクト同士の占有範囲の近接の有無を判定し、近接があるとみなした場合、近接しているオブジェクト同士の直接音データおよび残響音データを、1個のオブジェクトとみなして混合する。
<近接調整処理>
ここで、図15のフローチャートを参照して、近接調整処理について説明する。
ステップS111において、近接オブジェクト判定93は、所定の距離内に存在するオブジェクト同士をグルーピングする。例えば、サッカーや野球の場合、近接オブジェクト判定93は、グランド内を所定のサイズの小領域に分割し、各オブジェクトの位置情報に基づいて、分割された同一の小領域内に複数のオブジェクトが含まれるとき、同一の領域内に存在する複数のオブジェクトを1つのグループにグルーピングする。ただし、小領域は、オブジェクトである競技者の一人分の占有範囲よりも広い範囲とする。
ステップS112において、近接オブジェクト判定93は、未処理のグループを処理対象グループに設定する。
ステップS113において、近接オブジェクト判定93は、図9を参照して説明したように、処理対象グループ内の各オブジェクトの占有範囲が重なっているか否かに基づいて、近接しているか否かを判定する。
ステップS113において、オブジェクトのそれぞれの占有範囲が重なっており、近接していると判定された場合、処理は、ステップS114に進む。
ステップS114において、近接オブジェクト判定部93は、近接しているとみなされたオブジェクトを特定する情報をオブジェクト混合部95に通知する。オブジェクト混合部95は、近接しているとみなされたオブジェクト同士の直接音と残響音とを相互の距離、並びに、向きおよび姿勢の情報に基づいて、図9を参照して説明したように、混合することで調整する。
尚、ステップS113において、近接していないとみなされた場合、ステップS114の処理はスキップされる。
ステップS115において、近接オブジェクト判定93は、未処理のグループが存在するか否かを判定し、未処理のグループがある場合、処理は、ステップS112に戻る。すなわち、全てのグループに対して近接判定がなされるまで、ステップS112乃至S1115の処理が繰り返される。
そして、ステップS115において、未処理のグループがなくなった場合、処理は、終了する。
すなわち、以上の処理により、近接する範囲内に存在するオブジェクト間の近接判定がなされて、近接している、すなわち、相互の占有範囲が重なっている場合については、相互の直接音データおよび残響音データが、相互の距離、並びに、向きおよび姿勢との関係に基づいて混合されて、1個のオブジェクトの直接音データおよび残響音データとして扱われる。結果として、過ゲインなどが生じることがなくなり、ノイズの発生を低減させることが可能となる。
ここで、図13のフローチャートの説明に戻る。
ステップS84において、近接調整処理が終了すると、処理は、ステップS85に進む。
ステップS85において、オブジェクト混合部95は、位置情報、並びに、向きおよび姿勢により調整され、さらに、近接調整処理が施された全てのオブジェクトの直接音データおよび残響音データを3D音声レンダラ97に出力する。3D音声レンダラ97は、位置情報、並びに、向きおよび姿勢により調整され、さらに、近接調整処理が施された全てのオブジェクトの直接音データおよび残響音データ、位相調整部96からの全天周音声の音声データ、およびゲイン調整部99より供給されるゲインの情報に基づいて、音声レンダリングを施して、音声出力部21に出力して、音声として出力させる。
ステップS87において、終了が指示されたか否かが判定されて、終了が指示されない場合、処理は、ステップS71に戻り、終了が指示されるまで、ズーム操作がなされているときは、ステップS71乃至S87の処理が繰り返される。そして、ステップS87において、終了が指示されると、処理が終了する。
ここで、オブジェクトメタデータは、オーディオフレーム単位で時系列に構成されているため、繰り返されるステップS71乃至S87の一連の処理は、オーディオフレーム単位で、時系列に繰り返される。
以上の処理により、ズーム画像に対応する想定視聴位置に応じて、オブジェクトの直接音と残響音とが適応的に混合されることにより、ズーム表示されている画像に適した音声を生成して、出力することが可能となる。また、ズーム画像に対応する想定視聴位置は、現実には入り込むことができない位置での音声の聴取を実現させることができるので、現実には体験不能な体験を仮想的に実現することが可能となる。
以上においては、収録部12においては、カメラ12aが1台である例について説明してきたが、複数のカメラ12aにより様々なアングルから撮像するようにしてもよい。この場合、撮像されていないアングルの画像を再生させる場合については、例えば、複数のカメラ12aにより撮像された画像を用いて、補間生成することで実現することができる。また、様々なアングルでの画像を再生できるようにした場合においても、ズーム画像を再生させる際と同様の手法により、アングルに応じた想定視聴位置に応じて、オブジェクト毎の直接音と残響音とを混合することで、表示される画像のアングルに対応した適切な音声を生成して、出力することが可能となる。
<<3.ソフトウェアにより実行させる例>>
ところで、上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどに、記録媒体からインストールされる。
図16は、汎用のコンピュータの構成例を示している。このパーソナルコンピュータは、CPU(Central Processing Unit)1001を内蔵している。CPU1001にはバス1004を介して、入出力インタフェース1005が接続されている。バス1004には、ROM(Read Only Memory)1002およびRAM(Random Access Memory)1003が接続されている。
入出力インタフェース1005には、ユーザが操作コマンドを入力するキーボード、マウスなどの入力デバイスよりなる入力部1006、処理操作画面や処理結果の画像を表示デバイスに出力する出力部1007、プログラムや各種データを格納するハードディスクドライブなどよりなる記憶部1008、LAN(Local Area Network)アダプタなどよりなり、インターネットに代表されるネットワークを介した通信処理を実行する通信部1009が接続されている。また、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む)、光磁気ディスク(MD(Mini Disc)を含む)、もしくは半導体メモリなどのリムーバブル記憶媒体1011に対してデータを読み書きするドライブ1010が接続されている。
CPU1001は、ROM1002に記憶されているプログラム、または磁気ディスク、光ディスク、光磁気ディスク、もしくは半導体メモリ等のリムーバブル記憶媒体1011から読み出されて記憶部1008にインストールされ、記憶部1008からRAM1003にロードされたプログラムに従って各種の処理を実行する。RAM1003にはまた、CPU1001が各種の処理を実行する上において必要なデータなども適宜記憶される。
以上のように構成されるコンピュータでは、CPU1001が、例えば、記憶部1008に記憶されているプログラムを、入出力インタフェース1005及びバス1004を介して、RAM1003にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU1001)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記憶媒体1011に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブル記憶媒体1011をドライブ1010に装着することにより、入出力インタフェース1005を介して、記憶部1008にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部1009で受信し、記憶部1008にインストールすることができる。その他、プログラムは、ROM1002や記憶部1008に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
尚、図16におけるCPU1001が、図6における制御部90の機能を実現させる。また、図16における記憶部1008が、図6におけるデータ格納部13を実現する。
また、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
なお、本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本開示は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
尚、本開示は、以下のような構成も取ることができる。
<1> 視聴ズーム倍率を変更することが可能な画像コンテンツを再生する画像再生部と、
前記画像コンテンツ内のオブジェクトに関連付けられた音声データに対して、前記画像コンテンツの再生中の視聴ズーム倍率と、前記画像コンテンツ内での前記オブジェクトの向きの情報とに応じて音量ゲインを調整するゲイン調整部と、
前記画像コンテンツと共に前記ゲイン調整部により調整された音声データを再生する音声再生部とを含む
情報処理装置。
<2> 前記ゲイン調整部は、前記音声データにおける直接音データと残響音データとの音量ゲインを調整する
<1>に記載の情報処理装置。
<3> 前記ゲイン調整部は、前記オブジェクトに関連付けられた、前記画像コンテンツ内における前記オブジェクトの向きの情報に基づいて、前記音声データにおける前記直接音データと前記残響音データとの混合比を調整することで音量ゲインを調整する
<2>に記載の情報処理装置。
<4> 前記画像コンテンツ内における前記オブジェクトの向きが、視聴者に対して正対していないとき、前記ゲイン調整部は、前記オブジェクトに関連付けられた、前記画像コンテンツ内における前記オブジェクトの向きの情報に基づいて、前記音声データにおける前記直接音データと前記残響音データとの混合比を調整することで音量ゲインを調整する
<3>に記載の情報処理装置。
<5> 前記画像コンテンツ内における前記オブジェクトの向きが、視聴者に対して正対しているとき、前記ゲイン調整部は、前記オブジェクトに関連付けられた、前記画像コンテンツ内における前記オブジェクトの向きの情報に基づいて、前記音声データにおける前記直接音データと前記残響音データとの混合比を略1:0に調整することで音量ゲインを調整する
<3>に記載の情報処理装置。
<6> 前記ゲイン調整部は、
前記画像コンテンツ内における前記オブジェクトの向きが、視聴者に対して正対方向に近いほど前記直接音データの混合比を大きくし、かつ、前記残響音データの混合比を小さくし、
前記画像コンテンツ内における前記オブジェクトの向きが、前記視聴者に対して反対方向に近いほど前記直接音データの混合比を小さくし、前記残響音データの混合比を大きくする
<3>に記載の情報処理装置。
<7> 前記画像コンテンツの所定の範囲内に複数のオブジェクトが近接して存在していることを判定する近接オブジェクト判定部をさらに含み、
前記ゲイン調整部は、前記近接オブジェクト判定部の判定結果に基づいて、前記複数のオブジェクトに関連付けられた音声データの音量ゲインを調整する
<3>に記載の情報処理装置。
<8> 前記ゲイン調整部は、近接オブジェクト判定部の判定結果に基づいて、前記複数のオブジェクトに関連付けられた音声データのそれぞれの前記直接音データと前記残響音データとの混合比を調整し、前記直接音データと前記残響音データとの混合比の平均値を求め、前記直接音データと前記残響音データとの混合比の平均値を、1個のオブジェクトに関連付けられた音声データの、前記直接音データと前記残響音データとの混合比とすることで音量ゲインを調整する
<7>に記載の情報処理装置。
<9> 前記直接音データおよび前記残響音データは、前記音声データの収録時に分離される
<2>に記載の情報処理装置。
<10> 前記収録時に前記オブジェクトに装着される端末をさらに含み、
前記端末は、
音声データを検出する音声データ検出部と、
位置情報を検出する位置情報検出部と、
オブジェクトの向きを検出する方向検出部とを有し、
前記音声データ検出部により検出された音声データが前記直接音データおよび前記残響音データに分離される
<9>に記載の情報処理装置。
<11> 前記画像コンテンツの視点位置は変更することが可能である
<1>に記載の情報処理装置。
<12> 前記オブジェクトは前記視点位置により決まる画像コンテンツの表示領域内に表示されるオブジェクトである
<11>に記載の情報処理装置。
<13> 視聴ズーム倍率を変更することが可能な画像コンテンツを再生する画像再生処理と、
前記画像コンテンツ内のオブジェクトに関連付けられた音声データに対して、前記画像コンテンツの再生中の視聴ズーム倍率と、前記画像コンテンツ内での前記オブジェクトの向きの情報とに応じて音量ゲインを調整するゲイン調整処理と、
前記画像コンテンツと共に前記ゲイン調整処理により調整された音声データを再生する音声再生処理とを含む
情報処理方法。
<14> コンピュータを、
視聴ズーム倍率を変更することが可能な画像コンテンツを再生する画像再生部と、
前記画像コンテンツ内のオブジェクトに関連付けられた音声データに対して、前記画像コンテンツの再生中の視聴ズーム倍率と、前記画像コンテンツ内での前記オブジェクトの向きの情報とに応じて音量ゲインを調整するゲイン調整部と、
前記画像コンテンツと共に前記ゲイン調整部により調整された音声データを再生する音声再生部として機能させる
プログラム。
1 情報処理システム, 11,11−1乃至11−n 端末, 12 収録部, 12a カメラ, 12b マイクロフォン, 13 データ格納部, 14 再生部, 15 HMD, 16 操作部, 21 音声出力部, 22 表示部, 31 直接音データ格納部, 32 残響音データ格納部, 33 オブジェクトデータ格納部, 34 画像データ格納部, 51 制御部, 52 音声取得部, 53 GPS, 54 モーションセンサ, 55 通信部, 71 制御部, 72 通信部, 73 収録データ格納部, 74 データ分離部, 75 ノイズ除去部, 76 残響分離部, 77 オブジェクトメタデータ生成部, 78 画像データ抽出部, 90 制御部, 91 メタパーサ部, 92 オブジェクト位置姿勢指定部, 93 近接オブジェクト判定部, 94 音声デコード, 95 オブジェクト混合部, 96 位相調整部, 97 3D音声レンダラ, 98 UI処理部, 99 ゲイン調整部, 100 画像デコード部, 101 画像レンダラ

Claims (14)

  1. 視聴ズーム倍率を変更することが可能な画像コンテンツを再生する画像再生部と、
    前記画像コンテンツ内のオブジェクトに関連付けられた音声データに対して、前記画像コンテンツの再生中の視聴ズーム倍率と、前記画像コンテンツ内での前記オブジェクトの向きの情報とに応じて音量ゲインを調整するゲイン調整部と、
    前記画像コンテンツと共に前記ゲイン調整部により調整された音声データを再生する音声再生部とを含む
    情報処理装置。
  2. 前記ゲイン調整部は、前記音声データにおける直接音データと残響音データとの音量ゲインを調整する
    請求項1に記載の情報処理装置。
  3. 前記ゲイン調整部は、前記オブジェクトに関連付けられた、前記画像コンテンツ内における前記オブジェクトの向きの情報に基づいて、前記音声データにおける前記直接音データと前記残響音データとの混合比を調整することで音量ゲインを調整する
    請求項2に記載の情報処理装置。
  4. 前記画像コンテンツ内における前記オブジェクトの向きが、視聴者に対して正対していないとき、前記ゲイン調整部は、前記オブジェクトに関連付けられた、前記画像コンテンツ内における前記オブジェクトの向きの情報に基づいて、前記音声データにおける前記直接音データと前記残響音データとの混合比を調整することで音量ゲインを調整する
    請求項3に記載の情報処理装置。
  5. 前記画像コンテンツ内における前記オブジェクトの向きが、視聴者に対して正対しているとき、前記ゲイン調整部は、前記残響音データの混合比を略1:0に調整することで音量ゲインを調整する
    請求項3に記載の情報処理装置。
  6. 前記ゲイン調整部は、
    前記画像コンテンツ内における前記オブジェクトの向きが、視聴者に対して正対方向に近いほど前記直接音データの混合比を大きくし、かつ、前記残響音データの混合比を小さくし、
    前記画像コンテンツ内における前記オブジェクトの向きが、前記視聴者に対して反対方向に近いほど前記直接音データの混合比を小さくし、前記残響音データの混合比を大きくする
    請求項3に記載の情報処理装置。
  7. 前記画像コンテンツの所定の範囲内に複数のオブジェクトが近接して存在していることを判定する近接オブジェクト判定部をさらに含み、
    前記ゲイン調整部は、前記近接オブジェクト判定部の判定結果に基づいて、前記複数のオブジェクトに関連付けられた音声データの音量ゲインを調整する
    請求項3に記載の情報処理装置。
  8. 前記ゲイン調整部は、前記近接オブジェクト判定部の判定結果に基づいて、前記複数のオブジェクトに関連付けられた音声データのそれぞれの前記直接音データと前記残響音データとの混合比を調整し、前記直接音データと前記残響音データとの混合比の平均値を求め、前記直接音データと前記残響音データとの混合比の平均値を、1個のオブジェクトに関連付けられた音声データの、前記直接音データと前記残響音データとの混合比とすることで音量ゲインを調整する
    請求項7に記載の情報処理装置。
  9. 前記直接音データおよび前記残響音データは、前記音声データの収録時に分離される
    請求項2に記載の情報処理装置。
  10. 前記収録時に前記オブジェクトに装着される端末をさらに含み、
    前記端末は、
    音声データを検出する音声データ検出部と、
    位置情報を検出する位置情報検出部と、
    オブジェクトの向きを検出する方向検出部とを有し、
    前記音声データ検出部により検出された音声データが前記直接音データおよび前記残響音データに分離される
    請求項9に記載の情報処理装置。
  11. 前記画像コンテンツの視点位置は変更することが可能である
    請求項1に記載の情報処理装置。
  12. 前記オブジェクトは前記視点位置により決まる画像コンテンツの表示領域内に表示されるオブジェクトである
    請求項11に記載の情報処理装置。
  13. 視聴ズーム倍率を変更することが可能な画像コンテンツを再生する画像再生処理と、
    前記画像コンテンツ内のオブジェクトに関連付けられた音声データに対して、前記画像コンテンツの再生中の視聴ズーム倍率と、前記画像コンテンツ内での前記オブジェクトの向きの情報とに応じて音量ゲインを調整するゲイン調整処理と、
    前記画像コンテンツと共に前記ゲイン調整処理により調整された音声データを再生する音声再生処理とを含む
    情報処理方法。
  14. コンピュータを、
    視聴ズーム倍率を変更することが可能な画像コンテンツを再生する画像再生部と、
    前記画像コンテンツ内のオブジェクトに関連付けられた音声データに対して、前記画像コンテンツの再生中の視聴ズーム倍率と、前記画像コンテンツ内での前記オブジェクトの向きの情報とに応じて音量ゲインを調整するゲイン調整部と、
    前記画像コンテンツと共に前記ゲイン調整部により調整された音声データを再生する音声再生部として機能させる
    プログラム。
JP2017217215A 2017-11-10 2017-11-10 情報処理装置、および情報処理方法、並びにプログラム Pending JP2019087973A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017217215A JP2019087973A (ja) 2017-11-10 2017-11-10 情報処理装置、および情報処理方法、並びにプログラム
PCT/JP2018/039838 WO2019093155A1 (ja) 2017-11-10 2018-10-26 情報処理装置、および情報処理方法、並びにプログラム
US16/761,106 US10998870B2 (en) 2017-11-10 2018-10-26 Information processing apparatus, information processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017217215A JP2019087973A (ja) 2017-11-10 2017-11-10 情報処理装置、および情報処理方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2019087973A true JP2019087973A (ja) 2019-06-06

Family

ID=66437741

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017217215A Pending JP2019087973A (ja) 2017-11-10 2017-11-10 情報処理装置、および情報処理方法、並びにプログラム

Country Status (3)

Country Link
US (1) US10998870B2 (ja)
JP (1) JP2019087973A (ja)
WO (1) WO2019093155A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021020150A1 (ja) * 2019-07-26 2021-02-04 富士フイルム株式会社 情報処理装置、情報処理方法、及びプログラム
WO2021091769A1 (en) * 2019-11-04 2021-05-14 Qualcomm Incorporated Signalling of audio effect metadata in a bitstream
WO2021117576A1 (ja) * 2019-12-13 2021-06-17 ソニーグループ株式会社 信号処理装置、信号処理方法およびプログラム
JP6967735B1 (ja) * 2021-01-13 2021-11-17 パナソニックIpマネジメント株式会社 信号処理装置及び信号処理システム
KR20230037329A (ko) 2021-09-09 2023-03-16 네이버 주식회사 이벤트 맞춤형 오디오 콘텐츠를 렌더링하기 위한 컴퓨터 시스템 및 그의 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU756265B2 (en) * 1998-09-24 2003-01-09 Fourie, Inc. Apparatus and method for presenting sound and image
JP2006109295A (ja) * 2004-10-08 2006-04-20 Sharp Corp オーディオ再生装置、オーディオ再生プログラム、および、プログラム記録媒体
EP2150057A3 (en) * 2008-07-29 2013-12-11 Gerald Curry Camera-based tracking and position determination for sporting events

Also Published As

Publication number Publication date
WO2019093155A1 (ja) 2019-05-16
US20200358415A1 (en) 2020-11-12
US10998870B2 (en) 2021-05-04

Similar Documents

Publication Publication Date Title
WO2019093155A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
KR102609668B1 (ko) 가상, 증강, 및 혼합 현실
US10171769B2 (en) Sound source selection for aural interest
JP6558587B2 (ja) 情報処理装置、表示装置、情報処理方法、プログラム、および情報処理システム
KR101490725B1 (ko) 비디오 디스플레이 장치, 오디오-비디오 시스템, 음향 재생을 위한 방법 및 로컬라이즈된 지각적 오디오를 위한 음향 재생 시스템
JP6531760B2 (ja) 情報処理装置及び方法、表示制御装置及び方法、再生装置及び方法、プログラム、並びに情報処理システム
CN107211208A (zh) 基于相机选择的音频处理
US10664128B2 (en) Information processing apparatus, configured to generate an audio signal corresponding to a virtual viewpoint image, information processing system, information processing method, and non-transitory computer-readable storage medium
US20120317594A1 (en) Method and system for providing an improved audio experience for viewers of video
JP4638183B2 (ja) 複数のカメラ出力の編集装置及びその編集方法
US20160070346A1 (en) Multi vantage point player with wearable display
CN111492342B (zh) 音频场景处理
WO2017002642A1 (ja) 情報機器及び表示処理方法
EP3777248A1 (en) An apparatus, a method and a computer program for controlling playback of spatial audio
US10820133B2 (en) Methods and systems for extracting location-diffused sound
JP6646116B2 (ja) 映像音声処理プログラム及びゲーム装置
JP2018026701A (ja) 録音装置、映像音声処理プログラム及びゲーム装置
US9565503B2 (en) Audio and location arrangements
JP2013187841A (ja) 電子機器及び出力制御方法並びにプログラム
KR20220097888A (ko) 비트스트림에서 오디오 효과 메타데이터의 시그널링
EP3321795B1 (en) A method and associated apparatuses
US20240089688A1 (en) Processing of audio data
Baxter Convergence the Experiences
JP2022143165A (ja) 再生装置、再生システムおよび再生方法
JP2020020966A (ja) 仮想空間及び音声提供システム