JP2018005526A

JP2018005526A - 情報処理装置、及びプログラム

Info

Publication number: JP2018005526A
Application number: JP2016130992A
Authority: JP
Inventors: 難波　睦; Mutsumi Nanba; 睦難波
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2016-06-30
Filing date: 2016-06-30
Publication date: 2018-01-11
Anticipated expiration: 2036-06-30
Also published as: JP6634976B2

Abstract

【課題】パノラマ動画像を再生するときに出力される音の臨場感を高める。【解決手段】撮像装置により撮像されたパノラマ動画データと、該パノラマ動画データの撮影時に、集音された音データの各々と、該音データの各々の方向とを取得する取得部と、前記パノラマ動画データの所定の領域を切り出して画面に表示する表示制御部と、前記所定の領域の前記パノラマ動画データ内での方向と、前記音データの各々の方向との角度を基に、前記音データの各々の所定の周波数より高い高周波成分の出力レベルを調整し、前記高周波成分の出力レベルが調整された音データの各々を合成して出力する音出力制御部と、を有する情報処理装置が提供される。【選択図】図１３

Description

本発明は、情報処理装置、及びプログラムに関する。

パノラマ動画像の撮影用の機器の普及に伴い、パノラマ動画像が撮影され、パソコン等の端末で再生される機会が増加している。パノラマ動画像は幅の広い動画像であるため、パノラマ動画像が端末の画面等に表示されるときに、パノラマ動画像の一部の領域を切り出して再生することが行われている。

また、パノラマ動画像の再生時の臨場感を高める目的で、パノラマ動画像から切り出されて表示されている一部領域と音源との位置関係から、音量を強調することが提案されている（例えば、特許文献１）。

従来提案されている方法によれば、パノラマ動画像の表示領域に合わせて音量が強調されるものの、人間の聴覚特性を考慮して音量の調整がされていないため、臨場感を十分に高めることができなかった。

本発明は、上記の課題に鑑みてされたものであって、パノラマ動画像を再生するときに出力される音の臨場感を高めることを目的とする。

一つの態様によれば、撮像装置により撮像されたパノラマ動画データと、該パノラマ動画データの撮影時に、集音された音データの各々と、該音データの各々の方向とを取得する取得部と、前記パノラマ動画データの所定の領域を切り出して画面に表示する表示制御部と、前記所定の領域の前記パノラマ動画データ内での方向と、前記音データの各々の方向との角度を基に、前記音データの各々の所定の周波数より高い高周波成分の出力レベルを調整し、前記高周波成分の出力レベルが調整された音データの各々を合成して出力する音出力制御部と、を有する情報処理装置が提供される。

パノラマ動画像を再生するときに出力される音の臨場感を高めることが可能となる。

第１の実施形態に係る動画再生システム１の一例を示す図である。第１の実施形態に係る撮像装置の一例を示す模式図である。第１の実施形態に係る撮影範囲と音入力装置の指向性との関係の一例を示す図である。第１の実施形態に係る撮像装置のハードウエア構成の一例を示す図である。第１の実施形態に係る端末のハードウエア構成の一例を示す図である。第１の実施形態に係る撮像装置の機能構成の一例を示す図である。第１の実施形態に係る撮像装置の情報記憶部に格納されるテーブルの一例を示す図である。第１の実施形態に係る端末の機能構成の一例を示す図である。第１の実施形態に係る音周波数解析部及び音合成部の機能構成の一例を示す図である。第１の実施形態に係る耳の方向と音データの方向との関係の一例を示す図である。第１の実施形態に係る耳の方向と音データの方向の角度の算出方法の一例を示す図である。第１の実施形態に係る音合成処理に用いる計算式の一例を示す図である。第１の実施形態に係る端末の動作シーケンスの一例を示す図（その１）である。第１の実施形態に係る端末の動作シーケンスの一例を示す図（その２）である。第２の実施形態に係る音周波数解析部及び音合成部の機能構成の一例を示す図である。第２の実施形態に係るＨＰＦ出力調整部の動作フローの一例を示す図である。

［第１の実施形態］
＜動画再生システムの構成＞
第１の実施形態に係る動画再生システム１の構成について説明する。図１は、第１の実施形態に係る動画再生システム１の一例を示す図である。動画再生システム１は、撮像装置１００と、端末２００とを有する。撮像装置１００と端末２００とは、無線２を介して接続される。無線２は、例えば、ＷＬＡＮ（ＷｉｒｅｌｅｓｓＬｏｃａｌＡｃｃｅｓｓＮｅｔｗｏｒｋ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、及びＢＬＥ（ＢｌｕｅｔｏｏｔｈＬｏｗＥｎｅｒｇｙ）等により実現される。

撮像装置１００は、前面及び背面に１８０°以上の画角を有する魚眼レンズを有し、全方面に存在する被写体を撮像し、パノラマ動画データ（以下、動画像データ）を生成する。また、撮像装置１００は、動画像の撮像時の周辺の音を集音する。

端末２００は、パソコン、スマートフォン、及びタブレット端末等により実現される。端末２００は、撮像装置１００から、無線２を介して動画データ及び動画像の撮影時に集音された音データを取得する。端末２００は、ユーザの指示を受けて、受信した動画データの所定の領域をディスプレイに出力する。端末２００は、所定の領域に対応するように、出力する音を調整する。出力する音の調整方法については、後述する。

動画像のデータの所定の領域が表示されるディスプレイは、端末２００に備えられているディスプレイでもよいし、端末２００が接続されている外部のディスプレイでもよい。また、出力する音は、端末２００に備えられているスピーカから出力されてもよいし、端末２００が接続されている外部のスピーカでもよい。

＜撮像装置の概要＞
図２及び図３を用いて、第１の実施形態に係る撮像装置１００の概要について説明する。図２は、第１の実施形態に係る撮像装置１００の一例を示す模式図である。図２の（Ａ）は、撮像装置１００の外観を示しており、図２の（Ｂ）は、撮像装置１００の方向１〜３からの外観を示す平面図である。撮像装置１００は、撮像素子（１０１Ａ、１０１Ｂ）、魚眼レンズ（１０２Ａ、１０２Ｂ）、筐体１０３、音入力装置（１０４Ａ、１０４Ｂ、１０４Ｃ）、及び操作装置１０５を有する。

撮像素子（１０１Ａ、１０１Ｂ）は、撮像装置１００の前面及び背面面に備えられ、１８０°以上の画角を有する魚眼レンズ（１０２Ａ、１０２Ｂ）を介して受光した光を電気信号に変換する。撮像素子（１０１Ａ、１０１Ｂ）は、例えばＣＯＭＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）センサ等である。筐体１０３には操作装置１０５が備えられ、撮像装置１００のユーザから動画の撮影等の指示を受け付ける。

音入力装置（１０４Ａ、１０４Ｂ、１０４Ｃ）は、動画撮影時の周辺の音の信号を収集する。音入力装置１０４Ａは、前面（方向２の面）に設けられ、音入力装置１０４Ｂ及び音入力装置１０４Ｃは、背面（方向３の面）に設けられ、音入力装置（１０４Ａ、１０４Ｂ、１０４Ｃ）は、所定の方向に発生する音を集音する。つまり、音入力装置（１０４Ａ、１０４Ｂ、１０４Ｃ）は、指向性を有する。

なお、以下の説明で、複数の音入力装置等を区別しない場合、単に音入力装置１０４と記載する。

次に、撮像装置１００により生成される動画データ、及び動画データに対応付けられている音データの関係について、図３を用いて説明する。図３は、第１の実施形態に係る撮影範囲と音入力装置１０４の指向性との関係の一例を示す図である。

図３の（Ａ）は、撮像装置１００により撮像される範囲と、音入力装置１０４の指向性との関係を示している。魚眼レンズ１０２は、１８０°以上の画角を有するため、２つの魚眼レンズ１０２により撮影される範囲１０は、撮像装置１００の周囲３６０°となる。音入力装置１０４Ａは指向性１５Ａを有し、音入力装置１０４Ｂは指向性１５Ｂを有し、音入力装置１０４Ｃは指向性１５Ｃを有する。図３の（Ａ）では、指向性１５の各々が１２０°ずつ離れている場合、つまり、音入力装置１０４が撮像装置１００の周囲３６０°を三分割して音の信号を集音している。

図３の（Ｂ）は、端末２００が、撮像装置１００により生成された動画データの領域２１を、切り出して再生するときの、領域２１と出力される音との関係を示す図である。

端末２００により領域２１が切り出されて、ディスプレイに表示されたときのユーザの視線の方向は方向２０で示される。ここで、視線の方向２０は、動画像の領域２１の中央部分と撮像装置１００の撮像時の位置とを含む方向である。この場合、ユーザの右耳の位置に対応する方向は、方向２２Ａであり、ユーザの左耳の位置に対応する方向は、方向２２Ｂである。視線の方向２０は、右耳の方向２２Ａ、及び左耳の方向２２Ｂと直交する方向である。

動画を再生する端末２００は、右耳の方向２２Ａ、及び左耳の方向２２Ｂの音が強調されるように音出力の処理を実行する。

＜ハードウエア構成＞
（１）撮像装置
図４は、第１の実施形態に係る撮像装置１００のハードウエア構成の一例を示す図である。

撮像装置１００は、魚眼レンズ（１０２Ａ、１０２Ｂ）、撮像素子（１０１Ａ、１０１Ｂ）、音入力装置（１０４Ａ、１０４Ｂ、１０４Ｃ）、操作装置１０５、通信Ｉ／Ｆ１０６、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０７、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１０８、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１０９、ストレージ装置１１１、及び、画像処理装置１１２を有する。

魚眼レンズ１０２は、１８０°以上の画角を有するレンズである。撮像素子１０１は、魚眼レンズ１０２から入射する光を結像する。画像処理装置１１２は、撮像素子１０１に結像した対象物像を画像信号（電気信号）に変換する。

音入力装置１０４は、指向性を有する集音装置であり、例えば指向性を有するマイクにより実現される。操作装置１０５は、撮像装置１００のユーザからの各種操作を受け付ける。

通信Ｉ／Ｆ１０６は、端末２００等の外部装置と無線２、及びケーブル等を介してデータの送受信をするためのインタフェースである。

ＲＯＭ１０９は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリ（記憶装置）の一例である。ＲＡＭ１０８はプログラムやデータを一時保持する揮発性の半導体メモリの一例である。

ストレージ装置１１１はプログラムやデータを格納している不揮発性の記憶装置の一例である。

ＣＰＵ１０７は、ＲＯＭ１０９及びストレージ装置１１１などの記憶装置からプログラムやデータをＲＡＭ１０８上に読み出し、処理を実行することで、撮像装置１００全体の制御や撮像装置１００の機能を実現する演算装置である。

（２）端末
図５は、第１の実施形態に係る端末２００のハードウエア構成の一例を示す図である。

端末２００は、ＣＰＵ２０１、ＲＡＭ２０２、ＲＯＭ２０３、ストレージ装置２０４、入力装置２０５、ディスプレイ２０６、音出力装置２０７、通信Ｉ／Ｆ２０８、及び外部Ｉ／Ｆ２０９を有する。

ＲＯＭ２０３は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリ（記憶装置）の一例である。ＲＡＭ２０２はプログラムやデータを一時保持する揮発性の半導体メモリの一例である。

ストレージ装置２０４は、プログラムやデータを格納している不揮発性の記憶装置の一例である。

ＣＰＵ２０１は、ＲＯＭ２０３及びストレージ装置２０４などの記憶装置からプログラムやデータをＲＡＭ２０２上に読み出し、処理を実行することで、端末２００全体の制御や端末２００の機能を実現する演算装置である。

入力装置２０５は、端末２００のユーザから、各種設定を受け付ける。ディスプレイ２０６は、端末２００で処理された各種情報を表示する。ディスプレイ２０６は、端末２００から取り外し可能な形態で実現されてもよい。

音出力装置２０７は、音を出力する装置であり、例えば、スピーカ等により実現される。端末２００に、複数の音出力装置２０７が備えられている場合、音出力装置２０７の各々は、其々の音出力装置２０７に対応付けられた音を出力する。撮像装置１００は、例えば、右耳用の音出力装置２０７と、左耳用の音出力装置２０７とを有してもよい。

通信Ｉ／Ｆ２０８は無線２、及びケーブル等を介して通信を行う。

外部Ｉ／Ｆ２０９は、外部装置とのインタフェースである。外部装置には、外部記録媒体などがある。これにより、端末２００は外部Ｉ／Ｆ２０９を介して外部記録媒体の読み取り及び／又は書き込みを行うことができる。外部記録媒体にはフレキシブルディスク、ＣＤ、ＤＶＤ、ＳＤメモリカード、及びＵＳＢメモリなどがある。

＜機能構成＞
（１）撮像装置
図６を用いて撮像装置１００の機能構成について説明する。図６は、第１の実施形態に係る撮像装置１００の機能構成の一例を示す図である。

撮像装置１００は、受付部１１０、送受信部１２０、撮像データ取得部１３０、動画データ生成部１４０、音データ取得部１５０、及び音データ生成部１６０を有する。これらの機能は、ＲＯＭ１０９等に記憶された１以上のプログラムをＣＰＵ１０７が実行することにより実現される。また、撮像装置１００は、情報記憶部１７０を有する。情報記憶部１７０は、指向性管理テーブル１７１及び対応管理テーブル１７２を有する。情報記憶部１７０は、例えば、ストレージ装置１１１により実現される。

受付部１１０は、撮像装置１００のユーザから各種指示を受け付ける。

送受信部１２０は、無線２、ケーブル、又はネットワーク等を介して、端末２００と各種データの送受信を行う。受付部１１０からの指示を受けて、送受信部１２０は、端末２００に動画データと、動画データに対応する音データとを送信する。また、端末２００からの要求を受けて、送受信部１２０は、同様に、端末２００に動画データと音データとを送信する。

撮像データ取得部１３０は、魚眼レンズ１０２を介して撮像素子１０１の各々が撮像した動画像を取得する。

動画データ生成部１４０は、撮像素子１０１の各々が撮像した動画像を基に、動画データを生成する。具体的には、動画データ生成部１４０は、撮像素子１０１の各々が撮像したアナログの動画像をデジタル化すると共に、撮像素子１０１の各々に撮像された動画像をつなぎ動画データを生成する。ここで、生成される動画データは、３６０°のパノラマ動画データである。動画データ生成部１４０は、生成した動画データを情報記憶部１７０に記憶させる。また、動画データ生成部１４０は、生成した動画データの属性情報を情報記憶部１７０に記憶させる。属性情報には、３６０°のパノラマ動画データの位置を特定するために用いる基準線の情報を含む。ここで、基準線は、撮影地点である撮像装置１００の位置（撮像位置）とパノラマ動画データの所定の位置とを結んで生成される線である。属性情報には、撮影日時、及び撮影場所等の情報を含んでもよい。

動画データ生成部１４０は、生成された動画データに対して圧縮処理を行い、符号化された動画データを情報記憶部１７０に記憶させてもよい。

音データ取得部１５０は、音入力装置１０４の各々が収集した音の信号を取得する。

音データ生成部１６０は、音の信号を基に音データを生成する。例えば、音データ生成部１６０は、アナログの音の信号を基にデジタルの音データを生成する。

音データは、音の信号が入力された音入力装置１０４毎に生成される。例えば、音入力装置１０４Ａ、１０４Ｂ及び１０４Ｃにより音の信号が収集された場合、３つの音データが生成される。

音データ生成部１６０は、生成した音データを、動画データと対応付けて情報記憶部１７０に記憶させる。また、音データ生成部１６０は、情報記憶部１７０を参照して、音入力装置１０４の指向性の情報を取得し、生成された音データを指向性の情報と共に記憶する。例えば、音入力装置１０４Ａにより収集された音の信号を基に生成された音データＡは、音入力装置１０４Ａの指向性の情報と共に記憶される。音データ生成部１６０は、生成された音データに対して圧縮処理を行い、符号化された音データを情報記憶部１７０に記憶させてもよい。

情報記憶部１７０は、生成された動画データ、及び音データを記憶する。指向性管理テーブル１７１には、音入力装置１０４の各々と、指向性とが対応づけられて記憶されている。図７の（ａ）に指向性管理テーブル１７１の一例を示す。図７の（ａ）では、音入力装置１０４の識別子と、基準線との角度が対応付けられて記憶される。対応管理テーブル１７２には、動画データと、音データとが対応付けられて記憶されている。また、対応管理テーブル１７２には、音データと、指向性とが対応付けられて記憶されている。図７の（ｂ）に対応管理テーブル１７２の一例を示す。図７の（ｂ）では、動画データの識別子と、動画データに対応付けられた音データの識別子と、基準線との角度とが対応付けられて記憶されている。

ここで、基準線との角度は、音データの生成もとの音の信号を収集した音入力装置１０４Ａの指向性と、基準線との角度を表している。

（２）端末
図８を用いて端末２００の機能構成について説明する。図８は、第１の実施形態に係る端末２００の機能構成の一例を示す図である。端末２００は、受付部２１０、再生制御部２１５、送受信部２２０、動画像デコーダ２３０、表示制御部２４０、音デコーダ２５０、音周波数解析部２６０、音合成部２７０、及び音処理部２８０を有する。これらの機能は、ＲＯＭ２０３等に記憶された１以上のプログラムを読み出して、ＣＰＵ２０１が実行することにより実現される。端末２００は、情報記憶部２９０を有する。情報記憶部２９０は、例えば、ストレージ装置２０４により実現される。

受付部２１０は、端末２００のユーザから各種指示を受け付ける。

再生制御部２１５は、動画の再生制御を行う。受付部２１０がユーザから動画の再生指示を受けたことに応じて、表示制御部２４０に動画データの処理を実行させ、音合成部２７０等に動画データに対応する音データの処理を実行させる。

送受信部２２０は、無線２、ケーブル、又はネットワーク等を介して、撮像装置１００と各種データの送受信を行う。受付部２１０からの指示を受けて、送受信部２２０は、撮像装置１００から、動画データと、動画データに対応する音データとを受信する。また、撮像装置１００からの要求を受けて、送受信部２２０は、同様に、撮像装置１００から動画データと音データとを受信する。受信した動画データ及び音データは、情報記憶部２９０に記憶される。なお、受信した動画データ及び音データは圧縮されている場合がある。

動画像デコーダ２３０は、圧縮処理により符号化された動画データを復号化する。

表示制御部２４０は、ユーザに選択された範囲の動画データをディスプレイ２０６に表示する。受付部２１０が、３６０°のパノラマ動画である動画データの所定の領域の再生指示を受け付けると、動画データの所定の領域に対応する部分を切り出す処理を実行し、切り出された動画データをディスプレイ２０６に表示する。表示制御部２４０は、切り出された動画データの中央位置をディスプレイ２０６上に再生される動画データを見るユーザの視点の中央として特定する。そして、表示制御部２４０は、中央位置と撮像位置との間で形成される視線と、基準線との角度である視点角度を特定する。

音デコーダ２５０は、圧縮処理により符号化された音データを復号化する。

音周波数解析部２６０は、動画データに対応付けられた音データの各々に対して周波数帯毎に分割する処理を行う。音合成部２７０は、周波数毎に分離された音データの各々を合成し、右耳用の音出力データ、及び左耳用の音出力データを生成する。音処理部２８０は、生成された音出力データを、音出力装置２０７に出力させる。

図９を用いて、音周波数解析部２６０、及び音合成部２７０の機能について詳細に説明する。図９は、第１の実施形態に係る音周波数解析部２６０及び音合成部２７０の機能構成の一例を示す図である。

音周波数解析部２６０は、ＨＰＦ（ＨｉｇｈＰａｓｓＦｉｌｔｅｒ）２６１及びＬＰＦ（ＬｏｗＰａｓｓＦｉｌｔｅｒ）２６２を有する。ＨＰＦ２６１及びＬＰＦ２６２は音データの入力を受け付け、所定の周波数成分の音データを抽出する。

ＨＰＦ２６１は、ｆ_ＬＰＦ（Ｈｚ）より高い周波数成分の音データを抽出する。ＬＰＦ２６２は、ｆ_ＬＰＦ（Ｈｚ）以下の周波数成分の音データを抽出する。ｆ_ＬＰＦ（Ｈｚ）は、人間が指向性を感じなくなるとされている１００Ｈｚ程度に設定される。なお、ｆ_ＬＰＦ（Ｈｚ）の設定値は変更可能である。ここで、ＨＰＦ２６１により抽出される音データの周波数成分を高周波データ、ＬＰＦ２６２により抽出される音データの周波数成分を低周波データとする。

ＨＰＦ２６１及びＬＰＦ２６２は、動画データに対応付けられている音データ毎に周波数成分を抽出する処理を実行する。例えば、動画データ＃Ａに、音データ＃Ａ、音データ＃Ｂ、及び音データ＃Ｃが対応付けられている場合、音データ＃Ａ、音データ＃Ｂ、及び音データ＃Ｃの高周波データと、低周波データとを抽出する処理が実行される。

抽出された高周波データ、及び低周波データは、音合成部２７０に送信される。

音合成部２７０は、高周波数成分合成部２７１、低周波数成分合成部２７２、及び音出力データ生成部２７３を有する。

高周波数成分合成部２７１は、音データの各々から抽出された高周波データの各々を合成する処理を行う。ｆ_ＬＰＦ（Ｈｚ）より高い周波数成分は、人間が指向性を感じる周波数帯域であるため、高周波数成分合成部２７１は、耳の方向と音データの方向との角度を基に、高周波データの各々に対して重み付け処理を行う。処理の詳細については、後述する。

高周波数成分合成部２７１は、重み付け処理を行った高周波データの各々を合成し、高周波出力データを生成する。

ディスプレイに表示されている動画データの領域が変更されると、視点角度が変更されるため、耳の方向と音データの方向との角度は変更される。このため、高周波数成分合成部２７１は、視点角度の変更に応じて、高周波データの各々の重み付けの処理を変更する。

低周波数成分合成部２７２は、音データの各々から抽出された低周波データの各々を合成する処理を行う。ｆ_ＬＰＦ（Ｈｚ）以下の周波数成分は、人間が指向性を感じない周波数帯域であるため、低周波数成分合成部２７２は、低周波データの各々の平均値を算出する処理を実行し、低周波出力データを生成する。

音出力データ生成部２７３は、高周波出力データと、低周波出力データとを合成し、音出力データを生成する。なお、音出力データとして、右耳用の音出力データと、左耳用の音出力データとが生成される。

情報記憶部２９０は、撮像装置１００から取得した動画データ、音データ、及び対応関係、音データの各々の基準線との角度等を記憶する。

＜音合成処理＞
図１０乃至図１２を用いて、音合成部２７０による音の合成処理について説明する。

（１）耳の方向と音データの方向との角度
高周波データの合成処理が実行される際には、耳の方向と音データの方向の角度を基に重み付け処理が実行される。まず、図１０を用いて、「耳の方向と音データの方向」との角度の特定方法について説明する。図１０は、第１の実施形態に係る耳の方向と音データの方向との関係の一例を示す図である。

動画データの切り出された領域が「領域２１」で示され、領域２１の中央と、撮像位置２３とを結んだ線である視線が「視線の方向２０」で示され、動画データ中の所定の位置と撮像位置２３とを結んだ線である基準線が「基準線２４」で示されている。また、視線の方向２０と基準線２４との角度は、視点角度２５で示されている。

音データの方向、つまり、音を収集した音入力装置（１０４Ａ、１０４Ｂ、１０４Ｃ）の指向性は、「指向性（１５Ａ、１５Ｂ、１５Ｃ）」で示される。なお、音データの方向である指向性１５と基準線２４との角度が、対応管理テーブル１７２に対応付けられている。

「耳（左右）」の方向は、視線２０から±９０°の方向となるため、右耳の方向２２Ａ、左耳の方向２２Ｂとなる。

また、右耳の方向２２Ａと、音入力装置１０４Ａに収集された音を基に生成された音データＡとの角度は、右耳の方向２２Ａと指向性１５Ａとの角度２６で表される。同様に、左耳の方向２２Ｂと、音データＡとの角度は角度２７で表される。

音合成部２７０は、音データの基準線２４との角度を情報記憶部２９０から取得する。また、音合成部２７０は、表示制御部２４０から視点角度２５を取得する。音合成部２７０は、取得したこれらの情報を基に、耳（左右）の方向と音データの方向との角度を算出する。

図１１を用いて、耳の方向と音データの方向との角度の算出方法について説明する。図１１は、第１の実施形態に係る耳の方向と音データの方向の角度の算出方法の一例を示す図である。

図１１の角度算出テーブル２７４では、音データ（＃Ａ、＃Ｂ、＃Ｃ）と耳の方向との角度の算出式及び算出例を示している。ここで、音データ＃Ａは、音入力装置１０４Ａと対応付られ、音データ＃Ａの方向１５Ａと基準線との角度は１８０°である。音データ＃Ｂは、音入力装置１０４Ｂと対応付られ、音データ＃Ｂの方向１５Ｂと基準線との角度は３００°である。音データ＃Ｃは、音入力装置１０４Ｃと対応付られ、音データ＃Ｃの方向１５Ｃと基準線との角度は６０°である。

関数ｆ（ｘ）と関数ｇ（ｘ）とは、式１及び式２で表される。音合成部２７０は、高周波出力データを算出するときに、式１及び式２を基に耳の方向と音の方向との角度を特定し、重み付け処理を行う。

（２）音の合成処理
次に、図１２を用いて、音の合成処理について具体的に説明する。図１２は、第１の実施形態に係る音合成処理に用いる計算式の一例を示す図である。

高周波数成分合成部２７１は、式３を用いて、右耳用及び左耳用の高周波出力データの出力レベルを調整する。「ｃｈｎｕｍ」は、動画データに対応付けられている音データの数である。例えば、動画データに対応付けられた３つの音データ＃Ａ、音データ＃Ｂ及び音データ＃Ｃを基に高周波出力データの値を算出する場合、「ｃｈｎｕｍ」＝３となり、音データ＃Ａの高周波データ、音データ＃Ｂの高周波データ、及び音データ＃Ｃの高周波データについて関数ｈ（ｘ）を用いて重み付けの処理が実行される。この場合、例えば、ｘ＝１に音データ＃Ａが対応付られ、ｘ＝２に音データ＃Ｂが対応付られ、ｘ＝３に音データ＃Ｃが対応付けられる。

ここで、関数ｈ（ｘ）は、式４で定義される関数であり、耳の方向と音データの方向が近い程、音が強調されるように重み付けをするために用いられる。例えば、右耳の方向と音データＸの方向が同じ場合、ｈ（Ｘ）は最大値の１となる。この場合、左耳の方向と音データ＃１の方向は１８０°となるため、ｈ（Ｘ）が０となる。

低周波数成分合成部２７２は、式５を用いて、右耳用及び左耳用の低周波数データの値を算出する。ここで、式５は、低周波データの平均値を算出する式である。例えば、動画データに対応付けられた音データ＃Ａ、音データ＃Ｂ及び音データ＃Ｃを基に低周波出力データの値を算出する場合、「ｃｈｎｕｍ」＝３となり、音データ＃Ａの低周波データ、音データ＃Ｂの低周波データ、及び音データ＃Ｃの低周波データの平均値が算出される。この場合も、例えば、ｘ＝１に音データ＃Ａが対応付られ、ｘ＝２に音データ＃Ｂが対応付られ、ｘ＝３に音データ＃Ｃが対応付けられる。

低周波数の場合、人間が音の指向性を感じないため、耳の方向に応じた重み付け処理は実行されない。

＜動作シーケンス＞
（１）動画再生開始時
図１３を用いて、端末２００の動画再生開始時の動作について説明する。図１３は第１の実施形態に係る端末２００の動作シーケンスの一例を示す図である。

ステップＳ１３０１で、受付部２１０は、ユーザからパノラマ動画像の再生指示を受け付ける。

ステップＳ１３０２で、受付部２１０は、パノラマ動画像の再生指示の通知を、再生制御部２１５に送信する。

ステップＳ１３０３で、再生制御部２１５は、情報記憶部２９０から再生の指示を受けたパノラマ動画像の動画データ、動画データに対応付けられた音データ、音データの基準線との角度等を取得する。取得した動画データ及び音データは圧縮されているものとして説明する。

ステップＳ１３０４で、再生制御部２１５は、動画データを、動画像デコーダ２３０に送信する。

ステップＳ１３０５で、動画像デコーダ２３０は動画データを復号化し、復号化された動画データを表示制御部２４０に送信する。

ステップＳ１３０６で、再生制御部２１５は、表示する動画データの領域を、表示制御部２４０に通知する。

ステップＳ１３０７で、表示制御部２４０は、動画データから指定を受けた領域を切り出し、ディスプレイ２０６に表示する。表示制御部２４０は、視点角度を算出する。

ステップＳ１３０８乃至ステップＳ１３１４の処理は、ステップＳ１３０４乃至ステップＳ１３０７と同時に実行される。

ステップＳ１３０８で、再生制御部２１５は、音データを、音デコーダ２５０に送信する。

ステップＳ１３０９で、音デコーダ２５０は、音データを復号化し、音周波数解析部２６０に送信する。

ステップＳ１３１０で、音周波数解析部２６０は、音データを高周波データと、低周波データとに分離し、各周波数成分のデータを音合成部２７０に通知する。

ステップＳ１３１１で、再生制御部２１５は、音データの基準線との角度を、音合成部２７０に通知する。

ステップＳ１３１２で、表示制御部２４０は、表示する動画データの視点角度を、音合成部２７０に通知する。

ステップＳ１３１３で、音合成部２７０は、音データを合成する。この際に、音合成部２７０は、高周波データについて、音の方向と、視点角度とを基に、重み付け処理を実行する。

ステップＳ１３１４で、音合成部２７０は、合成処理された音データを、音処理部２８０に送信する。音処理部２８０は、合成処理された音データを、音出力装置２０７から出力する。

（２）動画の表示領域の変更時
次に、図１４を用いて動画の表示領域の変更時の端末２００の動作シーケンスについて説明する。図１４は、第１の実施形態に係る端末２００の動作シーケンスの一例を示す図である。

ステップＳ１４０１で、受付部２１０は、ユーザからパノラマ動画像の再生領域の変更指示を受け付ける。

ステップＳ１４０２で、受付部２１０は、パノラマ動画像の再生領域の変更指示を、再生制御部２１５に通知する。

ステップＳ１４０３で、再生制御部２１５は、表示する動画データの領域の変更を指示する。

ステップＳ１４０４で、表示制御部２４０は、動画データの表示領域を変更してディスプレイ２０６に表示する。

ステップＳ１４０５で、表示制御部２４０は、視点角度の変更を、音合成部２７０に通知する。

ステップＳ１４０６で、音合成部２７０は、高周波データの重み付け処理を変更する。

ステップＳ１４０７で、音合成部２７０は、合成処理された音データを、音処理部２８０に送信する。音処理部２８０は、合成処理された音データを、音出力装置２０７から出力する。

なお、図１４の動作シーケンスが実行されているときでも、情報記憶部２９０から読み出された動画データと音データとに対する復号化処理等が実行されている。

［第２の実施形態］
次に、第２の実施形態について説明する。第１の実施形態と共通する部分については説明を省略し、異なる部分についてのみ説明する。

＜機能構成＞
図１５を用いて第２の実施形態に係る音周波数解析部２６０Ａ及び音合成部２７０Ａについて説明する。図１５は、第２の実施形態に係る音周波数解析部２６０Ａ及び音合成部２７０Ａの機能構成の一例を示す図である。

音周波数解析部２６０Ａは、ＨＰＦ２６１及びＬＰＦ２６２に加えて、ＢＰＦ（ＢａｎｄＰａｓｓＦｉｌｔｅｒ）２６４を有する。ＢＰＦ２６４は、所定の周波数帯の音の成分を抽出するフィルタである。

ＬＰＦ２６２は、ｆ_ＬＰＦ（Ｈｚ）以下の音の成分を抽出する。ＨＰＦ２６１は、ｆ_ＨＰＦ（Ｈｚ）以上の音の成分を抽出するフィルタである。ＢＰＦ２６４は、ｆ_ＬＰＦ（Ｈｚ）より高く、ｆ_ＨＰＦ（Ｈｚ）より低い音の成分を抽出するフィルタである。

例えば、ｆ_ＬＰＦ（Ｈｚ）は、１００Ｈｚ程度に設定され、ｆ_ＨＰＦ（Ｈｚ）は、人間が音の指向性を強く感じやすい周波数である２．５ｋＨｚ程度に設定される。

音合成部２７０Ａは、高周波数成分合成部２７１、低周波数成分合成部２７２、音出力データ生成部２７３に加えて、中周波数成分合成部２７５及びＨＰＦ出力調整部２７６を有する。

中周波数成分合成部２７５は、ＢＰＦ２６４から出力されるｆ_ＬＰＦ〜ｆ_ＨＰＦの周波数の音データである中周波データを受信し合成する。例えば、中周波数成分合成部２７５は、低周波数成分合成部２７２と同様に、中周波データの各々の値を平均化して、中周波出力データを生成する。

なお、ｆ_ＨＰＦ（Ｈｚ）、ｆ_ＢＰＦ（Ｈｚ）、及びｆ_ＬＰＦ（Ｈｚ）の設定値は可変であり、例えば、受付部２１０がユーザからの指示を受け付けることにより変更される。

ＨＰＦ出力調整部２７６は、音データの各々から抽出された高周波データの各々の最も出力が大きい周波数ｆ_ｍａｘを特定する。周波数ｆ_ｍａｘを強調する処理を実行する。詳細については、後述する。なお、高周波数成分合成部２７１は、ＨＰＦ出力調整部２７６の出力である調整高周波データ（例えば、図１５の調整高周波データＡ／Ｂ／Ｃ）を基に、高周波出力データを生成する。生成方法については、第１の実施形態と同様である。

音出力データ生成部２７３は、高周波出力データと、中周波出力データと、低周波出力データとを合成して、音出力データを生成する。

＜動作フロー＞
図１６を用いてＨＰＦ出力調整部２７６が実行する動作フローについて説明する。図１６は第２の実施形態に係るＨＰＦ出力調整部２７６の動作フローの一例を示す図である。

ステップＳ１６０１で、ＨＰＦ出力調整部２７６は、各音データのＨＰＦ２６１からの出力である高周波データの各々（ここでは、高周波データＡ、高周波データＢ、高周波データＣとする）の最も出力が大きい周波数ｆ_ｍａｘ（Ｈｚ）を特定する。

ステップＳ１６０２で、ＨＰＦ出力調整部２７６は、高周波データＡのｆ_ｍａｘ（Ｈｚ）、高周波データＢのｆ_ｍａｘ（Ｈｚ）、及び高周波データＣのｆ_ｍａｘ（Ｈｚ）が一致するか否か判断する。

一致する場合（ステップＳ１６０２Ｙｅｓ）、ステップＳ１６０３に進む。一致しない場合（ステップＳ１６０５Ｎｏ）、ステップＳ１６０５に進む。

ステップＳ１６０３で、ＨＰＦ出力調整部２７６は、ｆ_ｍａｘ（Ｈｚ）が最も大きい高周波データを特定する。ここでは、高周波データＡのｆ_ｍａｘ（Ｈｚ）が最も大きいと特定されたものとする。

ステップＳ１６０４で、ＨＰＦ出力調整部２７６は、ｆ_ｍａｘ（Ｈｚ）の出力値が最も大きい高周波データＡの高周波データＡをＫ_ｍａｘ倍する。また、ＨＰＦ出力調整部２７６は、それ以外の高周波データである高周波データ（Ｂ、Ｃ）をＫ_{ｎｏｔ＿ｍａｘ}倍して出力する。
ここで、Ｋ_ｍａｘは１以上の値であり、Ｋ_{ｎｏｔ＿ｍａｘ}は、１より小さい値である。

ステップＳ１６０５で、ＨＰＦ出力調整部２７６は、高周波データ（高周波データＡ、Ｂ、Ｃ）をそのまま出力する。

ＨＰＦ出力調整部２７６が、上述した処理を実行することにより高周波成分の指向性を強調してより臨場感を高めることが可能である。なお、Ｋ_ｍａｘ及びＫ_{ｎｏｔ＿ｍａｘ}等の係数は、可変であり、例えば、受付部２１０がユーザからの指示を受け付けることにより変更される。

［その他］
端末２００は、情報処理装置の一例である。音周波数解析部２６０、音合成部２７０、及び音処理部２８０は、音出力制御部の一例である。右耳の方向２２Ａは、第１の方向の一例である。左耳の方向２２Ｂは、第２の方向の一例である。

上述した実施の形態の機能を実現するソフトウエアのプログラムコードを記録した記憶媒体を、端末２００に供給してもよい。そして、端末２００が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、上述の実施形態が、達成されることは言うまでもない。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は、いずれかの実施の形態を構成することになる。ここで、記憶媒体は、記録媒体または非一時的な記憶媒体である。

また、コンピュータ装置が読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけではない。そのプログラムコードの指示に従って、コンピュータ装置上で動作しているオペレーティングシステム（ＯＳ）等が実際の処理の一部または全部を行ってもよい。さらに、その処理によって前述した実施形態の機能が実現されてもよいことは言うまでもない。

以上、本発明の好ましい実施形態について説明したが、本発明はこうした実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

１動画再生システム
２無線
１００撮像装置
１１０受付部（撮像装置）
１２０送受信部（撮像装置）
１３０撮像データ取得部
１４０動画データ生成部
１５０音データ取得部
１６０音データ生成部
１７０情報記憶部（撮像装置）
１７１指向性管理テーブル
１７２対応管理テーブル
２００端末
２１０受付部（端末）
２１５再生制御部
２２０送受信部（端末）
２３０動画像デコーダ
２４０表示制御部
２５０音デコーダ
２６０音周波数解析部
２６１ＨＰＦ（ＨｉｇｈＰａｓｓＦｉｌｔｅｒ）
２６２ＬＰＦ（ＬｏｗＰａｓｓＦｉｌｔｅｒ）
２６４ＢＰＦ（ＢａｎｄＰａｓｓＦｉｌｔｅｒ）
２７０音合成部
２７１高周波数成分合成部
２７２低周波数成分合成部
２７３音出力データ生成部
２７５中周波数成分合成部
２７６出力調整部
２８０音処理部
２９０情報記憶部（端末）

特開２０１３−２５０８３８号公報

Claims

撮像装置により撮像されたパノラマ動画データと、該パノラマ動画データの撮影時に、集音された音データの各々と、該音データの各々の方向とを取得する取得部と、
前記パノラマ動画データの所定の領域を切り出して画面に表示する表示制御部と、
前記所定の領域の前記パノラマ動画データ内での方向と、前記音データの各々の方向との角度を基に、前記音データの各々の所定の周波数より高い高周波成分の出力レベルを調整し、前記高周波成分の出力レベルが調整された音データの各々を合成して出力する音出力制御部と、を有する情報処理装置。
前記所定の領域の前記パノラマ動画データ内での方向は、前記所定の領域の中央位置と、撮像時の前記撮像装置の位置とから特定され、
前記音データの方向は、前記撮像装置の位置と、該音データを集音した集音装置の指向性とから特定される、請求項１に記載の情報処理装置。
前記音出力制御部は、
前記所定の領域の前記パノラマ動画データ内での方向と直交する第１の方向及び第２の方向を特定し、
前記音データの方向が、前記第１の方向に近い程、該音データの前記高周波成分の出力レベルが強調されるように調整された音データを出力し、
前記音データの方向が、前記第２の方向に近い程、該音データの前記高周波成分の出力レベルが強調されるように調整された音データを出力する、請求項１又は２に記載の情報処理装置。
前記音出力制御部は、前記音データの各々の前記所定の周波数以下の低周波数成分を平均化して出力する、請求項１乃至３のいずれか一項に記載の情報処理装置。
前記画面に表示する前記パノラマ動画データの領域の変更指示を受けて、前記表示制御部は、前記画面に表示す前記パノラマ動画データの領域を変更し、
前記パノラマ動画データの領域が変更されたことに応じて、前記音出力制御部は、変更された領域の前記パノラマ動画データ内での方向と、前記音データの各々の方向との角度を基に、前記高周波成分の出力レベルを調整する、請求項１乃至４のいずれか一項に記載の情報処理装置。
前記音出力制御部は、
前記音データの各々の前記高周波成分の中で、最も値が大きい一の周波数を特定し、
該一の周波数が、前記音データの各々で一致するか否かを判断し、
前記一の周波数が一致すると判断された場合、前記音データの各々の中で、最も大きい前記一の周波数の値を有する音データの前記高周波成分の出力レベルが大きくなるように調整する、請求項１乃至５のいずれか一項に記載の情報処理装置。
前記一の周波数が一致すると判断された場合、前記音出力制御部は、前記音データの各々の中で、最も大きい該一の周波数の値を有しない音データの前記高周波成分の出力レベルが小さくなるように調整する、請求項６に記載の情報処理装置。
撮像装置により撮像されたパノラマ動画データと、該パノラマ動画データの撮影時に、集音された音データの各々と、該音データの各々の方向とを取得するステップと、
前記パノラマ動画データの所定の領域を切り出して画面に表示するステップと、
前記所定の領域の前記パノラマ動画データ内での方向と、前記音データの各々の方向との角度を基に、前記音データの各々の所定の周波数より高い高周波成分の出力レベルを調整し、前記高周波成分の出力レベルが調整された音データの各々を合成して出力するステップと、をコンピュータに実行させるプログラム。