JP2019140667A - Information processing unit, information processing system, data generation method and program - Google Patents

Information processing unit, information processing system, data generation method and program Download PDF

Info

Publication number
JP2019140667A
JP2019140667A JP2018203385A JP2018203385A JP2019140667A JP 2019140667 A JP2019140667 A JP 2019140667A JP 2018203385 A JP2018203385 A JP 2018203385A JP 2018203385 A JP2018203385 A JP 2018203385A JP 2019140667 A JP2019140667 A JP 2019140667A
Authority
JP
Japan
Prior art keywords
image
data
dimensional
sound data
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018203385A
Other languages
Japanese (ja)
Inventor
啓太郎 清水
Keitaro Shimizu
啓太郎 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to US16/237,790 priority Critical patent/US10817980B2/en
Publication of JP2019140667A publication Critical patent/JP2019140667A/en
Pending legal-status Critical Current

Links

Abstract

To generate 2D sound data incident to 2D image data, when reproducing a prescribed range of entire-celestial-sphere image as a 2D image.SOLUTION: A communication terminal 5 for displaying the entire-celestial-sphere image 210 acquired by an imaging apparatus 1, and reproducing 3D sound data 230 acquired incident to the entire-celestial-sphere image data 210 acquired by the imaging apparatus 1 accepts crop designation operation in the displayed entire-celestial-sphere image. The communication terminal 5 generates crop image data 610 corresponding to a crop range 6100 from the entire-celestial-sphere image data 210, and generates sound data for reproduction 650 corresponding to the crop range 6100 from the 3D sound data 230.SELECTED DRAWING: Figure 11

Description

本発明は、情報処理装置、情報処理システム、データ生成方法およびプログラムに関する。   The present invention relates to an information processing apparatus, an information processing system, a data generation method, and a program.

一度の撮影で、360°の全天球パノラマ画像を得る特殊なデジタルカメラが提供されている。このようなデジタルカメラにおいて、静止画のみならず、立体音響データ(三次元音データ)を含む全天球動画を撮影することができる。   A special digital camera that obtains a 360 ° panoramic image at one time is provided. In such a digital camera, not only a still image but also an omnidirectional video including stereophonic sound data (three-dimensional sound data) can be taken.

例えば、特許文献1は、全周カメラで撮影された全周動画データに対応する立体音声データから、動画映像の表示範囲に応じた立体音声を再生して出力する内容を開示している。   For example, Patent Document 1 discloses the content of reproducing and outputting three-dimensional audio corresponding to the display range of a video image from the three-dimensional audio data corresponding to the all-round video data captured by the all-round camera.

また、スマートフォン等の情報処理装置において、全天球動画の一部である二次元動画を再生することで、利用者は従来のデジタルカメラで撮影された動画と同じ平面動画を視聴することができる。   In addition, by playing back a two-dimensional moving image that is a part of the omnidirectional moving image in an information processing apparatus such as a smartphone, the user can view the same flat moving image as a moving image shot with a conventional digital camera. .

全天球動画の所定の範囲を二次元動画として再生させる場合、スマートフォン等の情報処理装置は、ユーザに違和感なく二次元動画を視聴させるために、二次元画像データの表示範囲に適応した二次元音データを出力する必要がある。しかし、従来の方法では、全天球画像の所定の範囲を二次元画像として表示させる場合、二次元画像データに付随した二次元音データを生成することができないという問題があった。   When reproducing a predetermined range of the omnidirectional video as a two-dimensional video, an information processing device such as a smartphone is adapted to the display range of the two-dimensional image data so that the user can view the two-dimensional video without a sense of incongruity. It is necessary to output sound data. However, in the conventional method, when a predetermined range of the omnidirectional image is displayed as a two-dimensional image, there is a problem that the two-dimensional sound data accompanying the two-dimensional image data cannot be generated.

本発明に係る情報処理装置は、撮影装置によって取得された全天球画像を表示するとともに、前記全天球画像に付随して取得された三次元音データを再生する情報処理装置であって、表示された前記全天球画像における所定の表示方向の指定を受け付ける受付手段と、前記全天球画像のデータから、前記指定された表示方向に対応する二次元画像データを生成するともに、前記三次元音データから、前記指定された表示方向に対応する二次元音データを生成する生成手段と、を備える。   An information processing apparatus according to the present invention is an information processing apparatus that displays an omnidirectional image acquired by an imaging device and reproduces three-dimensional sound data acquired accompanying the omnidirectional image, Receiving means for accepting designation of a predetermined display direction in the displayed omnidirectional image; and generating two-dimensional image data corresponding to the designated display direction from the data of the omnidirectional image, and the tertiary Generating means for generating two-dimensional sound data corresponding to the designated display direction from the original sound data.

本発明によれば、全天球画像の所定の領域を二次元画像として表示させる場合、二次元画像データに付随した二次元音データを生成することができる。   According to the present invention, when a predetermined region of the omnidirectional image is displayed as a two-dimensional image, two-dimensional sound data accompanying the two-dimensional image data can be generated.

(a)は撮影装置の左側面図であり、(b)は撮影装置の背面図であり、(c)は撮影装置の平面図であり、(d)は撮影装置の底面図である。(A) is a left side view of the photographing apparatus, (b) is a rear view of the photographing apparatus, (c) is a plan view of the photographing apparatus, and (d) is a bottom view of the photographing apparatus. 撮影装置の使用イメージ図である。It is a usage image figure of an imaging device. (a)は撮影装置で撮影された半球画像(前)、(b)は撮影装置で撮影された半球画像(後)、(c)は正距円筒図法により表された画像を示した図である。(A) is a hemisphere image (front) photographed by the photographing apparatus, (b) is a hemispheric image photographed by the photographing apparatus (rear), and (c) is a diagram showing an image represented by equirectangular projection. is there. (a)は正距円筒射影画像で球を被う状態を示した概念図、(b)は全天球画像を示した図である。(A) is the conceptual diagram which showed the state which covered the sphere with an equirectangular projection image, (b) is the figure which showed the omnidirectional image. 全天球画像を3次元の立体球とした場合の仮想カメラおよび所定領域の位置を示した図である。It is the figure which showed the position of the virtual camera and predetermined area at the time of making a omnidirectional image into a three-dimensional solid sphere. (a)は図5の立体斜視図、(b)は通信端末のディスプレイに所定領域の画像が表示されている状態を示す図である。(A) is a three-dimensional perspective view of FIG. 5, (b) is a figure which shows the state in which the image of the predetermined area is displayed on the display of a communication terminal. 所定領域情報と所定領域Tの画像との関係を示した図である。FIG. 6 is a diagram illustrating a relationship between predetermined area information and an image of a predetermined area T. 第1の実施形態に係る情報処理システムのシステム構成の一例を示す図である。It is a figure which shows an example of the system configuration | structure of the information processing system which concerns on 1st Embodiment. 第1の実施形態に係る撮影装置のハードウエア構成の一例を示す図である。It is a figure which shows an example of the hardware constitutions of the imaging device which concerns on 1st Embodiment. 第1の実施形態に係る通信端末のハードウエア構成の一例を示す図である。It is a figure which shows an example of the hardware constitutions of the communication terminal which concerns on 1st Embodiment. 第1の実施形態に係る情報処理システムの機能構成の一例を示す図である。It is a figure which shows an example of a function structure of the information processing system which concerns on 1st Embodiment. 第1の実施形態に係る撮影データの一例を示す図である。It is a figure which shows an example of the imaging | photography data which concern on 1st Embodiment. 第1の実施形態に係る画像・音処理部の詳細な機能構成の一例を示す図である。It is a figure which shows an example of the detailed functional structure of the image and sound process part which concerns on 1st Embodiment. 第1の実施形態に係る再生用データの一例を示す図である。It is a figure which shows an example of the data for reproduction | regeneration based on 1st Embodiment. 第1の実施形態に係る撮影装置における撮影データの記録処理の一例を示すフローチャートである。6 is a flowchart illustrating an example of shooting data recording processing in the shooting apparatus according to the first embodiment. アンビソニックスを採用する場合における音データの集音から再生までの処理の一例を示すフローチャートである。It is a flowchart which shows an example of the process from the collection of sound data to reproduction | regeneration in the case of employ | adopting ambisonics. 三次元音データの座標軸を説明する図である。It is a figure explaining the coordinate axis of three-dimensional sound data. 第1の実施形態に係る情報処理システムにおける再生用データの生成処理の一例を示すシーケンス図である。It is a sequence diagram which shows an example of the production | generation process of the data for reproduction | regeneration in the information processing system which concerns on 1st Embodiment. 第1の実施形態に係る通信端末における全天球画像データの表示処理を説明するための概略図である。It is the schematic for demonstrating the display process of the omnidirectional image data in the communication terminal which concerns on 1st Embodiment. 第1の実施形態に係る通信端末における表示画像に対するクロップ処理を説明するための概略図である。It is the schematic for demonstrating the crop process with respect to the display image in the communication terminal which concerns on 1st Embodiment. 第1の実施形態に係る通信端末における全天球画像におけるクロップ画像の位置の算出処理を説明するための概略図である。It is the schematic for demonstrating the calculation process of the position of the crop image in the omnidirectional image in the communication terminal which concerns on 1st Embodiment. 第1の実施形態におけるクロップ画像の座標情報の一例を示す図である。It is a figure which shows an example of the coordinate information of the crop image in 1st Embodiment. 第1の実施形態に係る再生用音データの音源方向の一例を説明するための概略図である。It is the schematic for demonstrating an example of the sound source direction of the sound data for reproduction | regeneration which concerns on 1st Embodiment. 第1の実施形態における再生用音データの生成方法の一例を示す概略図である。It is the schematic which shows an example of the production | generation method of the sound data for reproduction | regeneration in 1st Embodiment. 第1の実施形態における再生用音データを生成するためのパラメータの一例を示す図である。It is a figure which shows an example of the parameter for producing | generating the sound data for reproduction | regeneration in 1st Embodiment. 第2の実施形態に係る情報処理システムのシステム構成の一例を示す図である。It is a figure which shows an example of the system configuration | structure of the information processing system which concerns on 2nd Embodiment. 第2の実施形態に係る画像処理サーバのハードウエア構成の一例を示す図である。It is a figure which shows an example of the hardware constitutions of the image processing server which concerns on 2nd Embodiment. 第2の実施形態に係る情報処理システムの機能構成の一例を示す図である。It is a figure which shows an example of a function structure of the information processing system which concerns on 2nd Embodiment. 第2の実施形態に係る画像・音処理部の詳細な機能構成の一例を示す図である。It is a figure which shows an example of the detailed functional structure of the image and sound process part which concerns on 2nd Embodiment. 第2の実施形態に係る情報処理システムにおける再生用データの生成処理の一例を示すシーケンス図である。It is a sequence diagram which shows an example of the production | generation process of the data for reproduction | regeneration in the information processing system which concerns on 2nd Embodiment. 第1の実施形態の変形例1に係る撮影データの一例を示す図である。It is a figure which shows an example of the imaging | photography data which concern on the modification 1 of 1st Embodiment. 第1の実施形態の変形例1に係る再生用データの一例を示す図である。It is a figure which shows an example of the data for reproduction | regeneration which concerns on the modification 1 of 1st Embodiment.

以下、図面を参照しながら、発明を実施するための形態を説明する。なお、図面の説明において同一要素には同一符号を付し、重複する説明は省略する。   Hereinafter, embodiments for carrying out the invention will be described with reference to the drawings. In the description of the drawings, the same elements are denoted by the same reference numerals, and redundant descriptions are omitted.

●実施形態の概要●
以下、実施形態の概要について説明する。まずは、図1乃至図7を用いて、全天球画像の生成方法について説明する。
● Summary of embodiment ●
Hereinafter, an outline of the embodiment will be described. First, a method for generating an omnidirectional image will be described with reference to FIGS.

まず、図1を用いて、撮影装置1の外観を説明する。撮影装置1は、全天球(360°)パノラマ画像の元になる撮影画像を得るためのデジタルカメラである。図1(a)は撮影装置の左側面図であり、図1(b)は撮影装置の背面図であり、図1(c)は撮影装置の平面図であり、図1(d)は撮影装置の底面図である。   First, the external appearance of the photographing apparatus 1 will be described with reference to FIG. The photographing apparatus 1 is a digital camera for obtaining a photographed image that is the basis of a panoramic image of a celestial sphere (360 °). 1A is a left side view of the photographing apparatus, FIG. 1B is a rear view of the photographing apparatus, FIG. 1C is a plan view of the photographing apparatus, and FIG. It is a bottom view of an apparatus.

図1(a)、図1(b)、図1(c)、図1(d)に示すように、撮影装置1の上部には、正面側(前側)に魚眼型のレンズ102aおよび背面側(後側)に魚眼型のレンズ102bが設けられている。撮影装置1の内部には、後述の撮像素子(画像センサ)103a,103bが設けられている。撮影装置1は、それぞれレンズ102a、102bを介して被写体や風景を撮影することで、半球画像(画角180°以上)を得ることができる。撮影装置1の正面側と反対側の面には、シャッターボタン115aが設けられている。また、撮影装置1の側面には、電源ボタン115b、Wi−Fi(Wireless Fidelity(登録商標))ボタン115cおよび撮影モード切替ボタン115dが設けられている。電源ボタン115b、およびWi−Fiボタン115cは、いずれも押下されるたびに、オンとオフが切り替えられる。また、撮影モード切替ボタン115dは、押下されるたびに、静止画の撮影モードと動画の撮影モードが切り替えられる。なお、シャッターボタン115a、電源ボタン115b、Wi−Fiボタン115cおよび撮影モード切替ボタン115dは、操作部115の一部である。操作部115は、これらのボタンに限られない。   As shown in FIGS. 1 (a), 1 (b), 1 (c), and 1 (d), a fish-eye lens 102a on the front side (front side) and the back side are arranged on the upper part of the photographing apparatus 1. A fish-eye lens 102b is provided on the side (rear side). Inside the photographing apparatus 1, imaging elements (image sensors) 103a and 103b, which will be described later, are provided. The photographing apparatus 1 can obtain a hemispherical image (angle of view of 180 ° or more) by photographing a subject or a landscape through the lenses 102a and 102b, respectively. A shutter button 115 a is provided on the surface opposite to the front side of the photographing apparatus 1. Further, a power button 115b, a Wi-Fi (Wireless Fidelity (registered trademark)) button 115c, and a shooting mode switching button 115d are provided on the side surface of the photographing apparatus 1. Each time the power button 115b and the Wi-Fi button 115c are pressed, they are switched on and off. The shooting mode switching button 115d switches between a still image shooting mode and a moving image shooting mode each time the button is pressed. The shutter button 115a, the power button 115b, the Wi-Fi button 115c, and the shooting mode switching button 115d are part of the operation unit 115. The operation unit 115 is not limited to these buttons.

また、撮影装置1の底部150の中央には、カメラ用三脚に撮影装置1を取り付けるための三脚ねじ穴151が設けられている。また、底部150の左端側には、Micro USB(Universal Serial Bus(登録商標))端子152が設けられている。底部150の右端側には、HDMI(High-Definition Multimedia Interface(登録商標))端子153が設けられている。   A tripod screw hole 151 for attaching the photographing device 1 to a camera tripod is provided in the center of the bottom 150 of the photographing device 1. A micro USB (Universal Serial Bus (registered trademark)) terminal 152 is provided on the left end side of the bottom 150. An HDMI (High-Definition Multimedia Interface (registered trademark)) terminal 153 is provided on the right end side of the bottom 150.

次に、図2を用いて、撮影装置1の使用状況を説明する。図2は、撮影装置の使用イメージ図である。撮影装置1は、図2に示すように、例えば、利用者が手に持って利用者の周りの被写体を撮影するために用いられる。この場合、図1に示した撮像素子103aおよび撮像素子103bによって、それぞれ利用者の周りの被写体が撮像されることで、二つの半球画像を得ることができる。   Next, the usage situation of the imaging device 1 will be described with reference to FIG. FIG. 2 is a usage image diagram of the photographing apparatus. As shown in FIG. 2, the photographing apparatus 1 is used, for example, for photographing a subject around the user by holding it in his hand. In this case, two hemispherical images can be obtained by imaging the subject around the user by the imaging device 103a and the imaging device 103b shown in FIG.

次に、図3および図4を用いて、撮影装置1で撮影された画像から正距円筒射影画像ECおよび全天球画像CEが作成されるまでの処理の概略を説明する。図3(a)は撮影装置で撮影された半球画像(前側)、図3(b)は撮影装置で撮影された半球画像(後側)、図3(c)は正距円筒図法により表された画像(以下、「正距円筒射影画像」という)を示した図である。図4(a)は正距円筒射影画像で球を被う状態を示した概念図、図4(b)は全天球画像を示した図である。   Next, an outline of processing until an equirectangular projection image EC and an omnidirectional image CE are created from an image photographed by the photographing apparatus 1 will be described with reference to FIGS. 3 and 4. 3A is a hemispheric image (front side) photographed by the photographing apparatus, FIG. 3B is a hemispheric image photographed by the photographing apparatus (rear side), and FIG. 3C is represented by equirectangular cylindrical projection. FIG. 6 is a diagram showing a captured image (hereinafter referred to as an “equal-distance cylindrical projection image”). FIG. 4A is a conceptual diagram showing a state where a sphere is covered with an equirectangular projection image, and FIG. 4B is a diagram showing an omnidirectional image.

図3(a)に示すように、撮像素子103aによって得られた画像は、後述のレンズ102aによって湾曲した半球画像(前側)となる。また、図3(b)に示すように、撮像素子103bによって得られた画像は、後述のレンズ102bによって湾曲した半球画像(後側)となる。そして、撮影装置1は、半球画像(前側)と180度反転された半球画像(後側)とを合成して、図3(c)に示すような正距円筒射影画像ECを作成する。   As shown in FIG. 3A, an image obtained by the image sensor 103a is a hemispherical image (front side) curved by a lens 102a described later. Further, as shown in FIG. 3B, the image obtained by the image sensor 103b is a hemispherical image (rear side) curved by a lens 102b described later. Then, the photographing apparatus 1 combines the hemispherical image (front side) and the hemispherical image inverted by 180 degrees (rear side) to create an equirectangular projection image EC as shown in FIG.

そして、撮影装置1は、OpenGLES(Open Graphics Library for Embedded Systems)を利用することで、図4(a)に示すように、球面を覆うように正距円筒射影画像を貼り付け、図4(b)に示すような全天球画像CEを作成する。このように、全天球画像CEは、正距円筒射影画像ECが球の中心を向いた画像として表される。なお、OpenGLESは、2D(2-Dimensions)および3D(3-Dimensions)のデータを視覚化するために使用するグラフィックスライブラリである。また、全天球画像CEは、静止画であっても動画であってもよい。   Then, the photographing apparatus 1 uses OpenGLES (Open Graphics Library for Embedded Systems) to paste an equirectangular projection image so as to cover the spherical surface as shown in FIG. An omnidirectional image CE as shown in FIG. In this way, the omnidirectional image CE is represented as an image in which the equirectangular projection image EC faces the center of the sphere. Note that OpenGLES is a graphics library used to visualize 2D (2-Dimensions) and 3D (3-Dimensions) data. The omnidirectional image CE may be a still image or a moving image.

以上のように、全天球画像CEは、球面を覆うように貼り付けられた画像であるため、人間が見ると違和感を持ってしまう。そこで、撮影装置1は、所定のディスプレイに、全天球画像CEの一部の所定領域(以下、「所定領域画像」という)を湾曲の少ない平面画像として表示させることで、人間に違和感を与えない表示をすることができる。これに関して、図5および図6を用いて説明する。   As described above, since the omnidirectional image CE is an image that is pasted so as to cover the spherical surface, it is uncomfortable when viewed by a human. Therefore, the photographing apparatus 1 displays a predetermined area (hereinafter referred to as “predetermined area image”) of the whole celestial sphere image CE on a predetermined display as a flat image with less curvature, thereby giving a sense of incongruity to humans. Can not display. This will be described with reference to FIGS.

図5は、全天球画像を三次元の立体球とした場合の仮想カメラおよび所定領域の位置を示した図である。仮想カメラICは、三次元の立体球として表示されている全天球画像CEに対して、その画像を見るユーザの視点の位置に相当するものである。また、図6(a)は図5の立体斜視図、図6(b)はディスプレイに表示された場合の所定領域画像を表す図である。また、図6(a)は、図4に示した全天球画像CEを、三次元の立体球CSで表している。このように生成された全天球画像CEが、立体球CSであるとした場合、図5に示すように、仮想カメラICは、全天球画像CEの内部に位置している。全天球画像CEにおける所定領域Tは、仮想カメラICの撮影領域であり、全天球画像CEを含む三次元の仮想空間における仮想カメラICの撮影方向と画角を示す所定領域情報によって特定される。   FIG. 5 is a diagram showing the positions of the virtual camera and the predetermined area when the omnidirectional image is a three-dimensional solid sphere. The virtual camera IC corresponds to the position of the viewpoint of the user who views the omnidirectional image CE displayed as a three-dimensional solid sphere. FIG. 6A is a three-dimensional perspective view of FIG. 5, and FIG. 6B is a diagram showing a predetermined area image when displayed on the display. FIG. 6A shows the omnidirectional image CE shown in FIG. 4 as a three-dimensional solid sphere CS. When the omnidirectional image CE generated in this way is a solid sphere CS, the virtual camera IC is located inside the omnidirectional image CE as shown in FIG. The predetermined area T in the omnidirectional image CE is a shooting area of the virtual camera IC, and is specified by predetermined area information indicating the shooting direction and angle of view of the virtual camera IC in the three-dimensional virtual space including the omnidirectional image CE. The

そして、図6(a)に示す所定領域画像Qは、図6(b)に示すように、所定のディスプレイに、仮想カメラICの撮影領域の画像として表示される。図6(b)に示す画像は、初期設定(デフォルト)された所定領域情報によって表された所定領域画像である。以下、仮想カメラICの撮影方向(ea,aa)と画角(α)を用いて説明する。   Then, the predetermined area image Q shown in FIG. 6A is displayed as an image of the photographing area of the virtual camera IC on a predetermined display as shown in FIG. 6B. The image shown in FIG. 6B is a predetermined area image represented by the predetermined (default) predetermined area information. Hereinafter, description will be made using the shooting direction (ea, aa) and the angle of view (α) of the virtual camera IC.

図7を用いて、所定領域情報と所定領域Tの画像の関係について説明する。なお、図7は、所定領域情報と所定領域Tの画像の関係との関係を示した図である。「ea」はelevation angle、「aa」はazimuth angle、「α」は画角(Angle)を示す。すなわち、仮想カメラICの姿勢は、撮影方向(ea,aa)で示される仮想カメラICの注視点が、仮想カメラICの撮影領域である所定領域Tの中心点CPとなるように変更される。所定領域画像Qは、全天球画像CEにおける所定領域Tの画像である。fは、仮想カメラICから中心点CPまでの距離である。Lは所定領域Tの任意の頂点と中心点CPとの距離である(2Lは対角線)。そして、図7では、一般的に以下の(式1)で示される三角関数が成り立つ。   The relationship between the predetermined area information and the image of the predetermined area T will be described with reference to FIG. FIG. 7 is a diagram showing the relationship between the predetermined region information and the relationship between the images of the predetermined region T. “Ea” represents an elevation angle, “aa” represents an azimuth angle, and “α” represents an angle of view. That is, the attitude of the virtual camera IC is changed so that the gazing point of the virtual camera IC indicated by the shooting direction (ea, aa) becomes the center point CP of the predetermined area T that is the shooting area of the virtual camera IC. The predetermined area image Q is an image of the predetermined area T in the omnidirectional image CE. f is the distance from the virtual camera IC to the center point CP. L is a distance between an arbitrary vertex of the predetermined region T and the center point CP (2L is a diagonal line). In FIG. 7, a trigonometric function represented by the following (formula 1) is generally established.

●第1の実施形態●
続いて、図8乃至図25を用いて、本発明の第1の実施形態について説明する。なお、以下の説明において、撮影装置1によって動画が撮影される例を説明するが、撮影装置1によって静止画が撮影される場合も同様である。この場合、撮影装置1によって撮影された静止画に対して数秒程度の音データが付随して取得される。
● First embodiment ●
Subsequently, a first embodiment of the present invention will be described with reference to FIGS. In the following description, an example in which a moving image is shot by the shooting device 1 will be described, but the same applies to a case where a still image is shot by the shooting device 1. In this case, sound data of about several seconds is acquired with respect to the still image photographed by the photographing apparatus 1.

●システム構成
まず、図8を用いて、本実施形態の情報処理システムの構成の概略について説明する。図8は、第1の実施形態に係る情報処理システムのシステム構成の一例を示す図である。図8に示す情報処理システムは、撮影装置1で撮影された全天球画像の所定の領域を二次元画像として通信端末5に表示させる場合、二次元画像データに付随した二次元音データを生成することができるシステムである。
System Configuration First, an outline of the configuration of the information processing system according to the present embodiment will be described with reference to FIG. FIG. 8 is a diagram illustrating an example of a system configuration of the information processing system according to the first embodiment. The information processing system shown in FIG. 8 generates two-dimensional sound data associated with two-dimensional image data when a predetermined region of the omnidirectional image photographed by the photographing device 1 is displayed on the communication terminal 5 as a two-dimensional image. It is a system that can do.

第1の実施形態に係る情報処理システムは、撮影装置1および通信端末5によって構成されている。撮影装置1は、上述のように、被写体や風景等を撮影して全天球(パノラマ)画像の元になる二つの半球画像を得るための特殊なデジタルカメラである。   The information processing system according to the first embodiment includes an imaging device 1 and a communication terminal 5. As described above, the photographing apparatus 1 is a special digital camera for photographing a subject, a landscape, and the like to obtain two hemispherical images that are the basis of an omnidirectional (panoramic) image.

通信端末5は、Wi−Fi(Wireless Fidelity(登録商標))、Bluetooth(登録商標)、NFC(Near field communication)等の近距離無線通信技術を利用して、撮影装置1と無線通信を行なうことができるスマートフォンである。また、通信端末5は、自装置に設けられた後述のディスプレイ517に、撮影装置1から取得した画像(静止画または動画)を表示することができる。通信端末5は、情報処理装置の一例である。   The communication terminal 5 performs wireless communication with the photographing apparatus 1 using a short-range wireless communication technology such as Wi-Fi (Wireless Fidelity (registered trademark)), Bluetooth (registered trademark), NFC (Near field communication), or the like. It is a smartphone that can. In addition, the communication terminal 5 can display an image (still image or moving image) acquired from the imaging device 1 on a display 517 (described later) provided in the own device. The communication terminal 5 is an example of an information processing device.

なお、通信端末5は、近距離無線通信技術を利用せずに、有線ケーブルによって撮影装置1と通信を行なうようにしてもよい。また、通信端末5は、スマートフォンのみならず、タブレット型PC(Personal Computer:パーソナルコンピュータ)、ノートPCまたはデスクトップPC等であってもよい。   Note that the communication terminal 5 may communicate with the photographing apparatus 1 through a wired cable without using the short-range wireless communication technology. The communication terminal 5 may be not only a smartphone but also a tablet PC (Personal Computer), a notebook PC, a desktop PC, or the like.

●ハードウエア構成
続いて、図9および図10を用いて、第1の実施形態における撮影装置1および通信端末5のハードウエア構成を説明する。なお、図9および図10に示すハードウエア構成は、各実施形態において同様の構成を備えていてもよく、必要に応じて構成要素が追加または削除されてもよい。
Hardware Configuration Next, the hardware configuration of the imaging device 1 and the communication terminal 5 in the first embodiment will be described with reference to FIGS. 9 and 10. The hardware configurations shown in FIGS. 9 and 10 may have the same configuration in each embodiment, and components may be added or deleted as necessary.

〇撮影装置のハードウエア構成〇
まず、図9を用いて、撮影装置1のハードウエア構成を説明する。図9は、第1の実施形態に係る撮影装置のハードウエア構成の一例を示す図である。以下では、撮影装置1は、二つの撮像素子を使用した全天球(全方位)撮影装置とするが、撮像素子は二つ以上いくつでもよい。また、撮影装置1は、必ずしも全方位撮影専用の装置である必要はなく、通常のデジタルカメラやスマートフォン等に後付けの全方位の撮像ユニットを取り付けることで、実質的に撮影装置1と同じ機能を有するようにしてもよい。
O Hardware configuration of the imaging device O First, the hardware configuration of the imaging device 1 will be described with reference to FIG. FIG. 9 is a diagram illustrating an example of a hardware configuration of the photographing apparatus according to the first embodiment. Hereinafter, the imaging device 1 is an omnidirectional (omnidirectional) imaging device using two imaging elements, but the number of imaging elements may be two or more. The photographing device 1 does not necessarily have to be a dedicated device for omnidirectional photographing. By attaching a retrofit omnidirectional imaging unit to a normal digital camera, a smartphone, or the like, substantially the same function as the photographing device 1 is obtained. You may make it have.

撮影装置1は、撮像ユニット101、画像処理ユニット104、撮像制御ユニット105、マイクロフォン108a〜マイクロフォン108d、音処理ユニット109、CPU(Central Processing Unit)111、ROM(Read Only Memory)112、SRAM(Static Random Access Memory)113、DRAM(Dynamic Random Access Memory)114、操作部115、ネットワークI/F116、通信I/F117、アンテナ117aおよび電子コンパス118によって構成されている。   The imaging apparatus 1 includes an imaging unit 101, an image processing unit 104, an imaging control unit 105, a microphone 108a to a microphone 108d, a sound processing unit 109, a CPU (Central Processing Unit) 111, a ROM (Read Only Memory) 112, an SRAM (Static Random). It includes an access memory (113), a dynamic random access memory (DRAM) 114, an operation unit 115, a network I / F 116, a communication I / F 117, an antenna 117a, and an electronic compass 118.

このうち、撮像ユニット101は、各々半球画像を結像するための180°以上の画角を有する広角レンズ(いわゆる魚眼レンズ)102a,102bと、各広角レンズに対応させて設けられている二つの撮像素子103a,103bを備えている。撮像素子103a,103bは、魚眼レンズ102a,102bによる光学像を電気信号の画像データに変換して出力するCMOS(Complementary Metal Oxide Semiconductor)センサやCCD(Charge Coupled Device)センサ等の画像センサ、この画像センサの水平または垂直同期信号や画素クロック等を生成するタイミング生成回路、この撮像素子の動作に必要な種々のコマンドやパラメータ等が設定されるレジスタ群等を有している。   Among these, the imaging unit 101 includes wide-angle lenses (so-called fisheye lenses) 102a and 102b each having an angle of view of 180 ° or more for forming a hemispherical image, and two imaging units provided corresponding to the wide-angle lenses. Elements 103a and 103b are provided. The image sensors 103a and 103b are image sensors such as a CMOS (Complementary Metal Oxide Semiconductor) sensor and a CCD (Charge Coupled Device) sensor that convert an optical image obtained by the fish-eye lenses 102a and 102b into electric signal image data and output the image data. A timing generation circuit for generating a horizontal or vertical synchronization signal, a pixel clock, and the like, and a register group in which various commands and parameters necessary for the operation of the image sensor are set.

撮像素子103a,103bは、それぞれ画像処理ユニット104とパラレルI/Fバスで接続されている。また、撮像素子103a,103bは、それぞれ撮像制御ユニット105とシリアルI/Fバス(I2Cバス等)で接続されている。画像処理ユニット104、撮像制御ユニット105および音処理ユニット109は、バス110を介してCPU111と接続される。さらに、バス110は、ROM112、SRAM113、DRAM114、操作部115、ネットワークI/F116、通信I/F117および電子コンパス118等と接続される。   The image sensors 103a and 103b are respectively connected to the image processing unit 104 by a parallel I / F bus. The imaging elements 103a and 103b are connected to the imaging control unit 105 via a serial I / F bus (I2C bus or the like). The image processing unit 104, the imaging control unit 105, and the sound processing unit 109 are connected to the CPU 111 via the bus 110. Furthermore, the bus 110 is connected to the ROM 112, SRAM 113, DRAM 114, operation unit 115, network I / F 116, communication I / F 117, electronic compass 118, and the like.

画像処理ユニット104は、撮像素子103a,103bから出力される画像データをパラレルI/Fバスを通して取り込む。そして、画像処理ユニット104は、それぞれの画像データに対して所定の処理を施した後、これらの画像データを合成処理して、図3(c)に示したような正距円筒射影画像のデータを作成する。   The image processing unit 104 takes in the image data output from the image sensors 103a and 103b through the parallel I / F bus. Then, the image processing unit 104 performs predetermined processing on the respective image data, and then combines these image data to obtain equirectangular cylindrical projection image data as shown in FIG. Create

撮像制御ユニット105は、一般に撮像制御ユニット105をマスタデバイス、撮像素子103a,103bをスレーブデバイスとして、I2Cバスを利用して、撮像素子103a,103bのレジスタ群にコマンド等を設定する。必要なコマンド等は、CPU111から受け取る。また、撮像制御ユニット105は、同じくI2Cバスを利用して、撮像素子103a,103bのレジスタ群のステータスデータ等を取り込み、CPU111に送る。   In general, the imaging control unit 105 sets a command or the like in a register group of the imaging elements 103a and 103b using the I2C bus with the imaging control unit 105 as a master device and the imaging elements 103a and 103b as slave devices. Necessary commands and the like are received from the CPU 111. The imaging control unit 105 also uses the I2C bus to capture status data and the like of the register groups of the imaging elements 103a and 103b and send them to the CPU 111.

また、撮像制御ユニット105は、操作部115のシャッターボタンが押下されたタイミングで、撮像素子103a,103bに画像データの出力を指示する。撮影装置1は、ディスプレイ(例えば、通信端末5のディスプレイ517)によるプレビュー表示機能、静止画や動画の表示に対応する機能を持つ場合もある。動画の場合は、撮像素子103a,103bからの画像データの出力は、所定のフレームレート(フレーム/分)によって連続して行われる。   The imaging control unit 105 instructs the imaging elements 103a and 103b to output image data at the timing when the shutter button of the operation unit 115 is pressed. The photographing apparatus 1 may have a preview display function by a display (for example, the display 517 of the communication terminal 5) and a function corresponding to the display of a still image or a moving image. In the case of a moving image, output of image data from the image sensors 103a and 103b is continuously performed at a predetermined frame rate (frame / minute).

また、撮像制御ユニット105は、後述するように、CPU111と協働して撮像素子103a,103bの画像データの出力タイミングの同期をとる同期制御手段としても機能する。なお、本実施形態において、撮影装置1は、ディスプレイが設けられていないが、表示部を設けてもよい。   Further, as will be described later, the imaging control unit 105 also functions as a synchronization control unit that synchronizes the output timing of image data of the imaging elements 103a and 103b in cooperation with the CPU 111. In the present embodiment, the photographing apparatus 1 is not provided with a display, but may be provided with a display unit.

マイクロフォン108a〜マイクロフォン108dは、それぞれ、撮影装置1の周辺環境から集音し、集音した音を音(信号)データに変換する。音処理ユニット109は、マイクロフォン108から出力される音データをI/Fバスを通して取り込み、音データに対して所定の処理を施す。なお、マイクロフォン108は、所定の配置構成を有する4つのマイクロフォン108a〜108dを含み構成されており、好ましくは、アンビソニックス・マイクロフォンである。マイクロフォン108は、本実施形態において、それぞれ周辺環境から集音する集音手段を構成する。また、図2は、マイクロフォン108が撮影装置1に内蔵される場合のみを示すが、マイクロフォン108は、撮影装置1に外付けされてもよい。さらに、マイクロフォン108の数は、4つに限られない。   Each of the microphones 108a to 108d collects sound from the surrounding environment of the photographing apparatus 1, and converts the collected sound into sound (signal) data. The sound processing unit 109 takes in sound data output from the microphone 108 through the I / F bus and performs predetermined processing on the sound data. Note that the microphone 108 includes four microphones 108a to 108d having a predetermined arrangement configuration, and is preferably an ambisonics microphone. In the present embodiment, the microphones 108 constitute sound collecting means for collecting sound from the surrounding environment. FIG. 2 shows only the case where the microphone 108 is built in the photographing apparatus 1, but the microphone 108 may be externally attached to the photographing apparatus 1. Further, the number of microphones 108 is not limited to four.

CPU111は、撮影装置1の全体の動作を制御すると共に必要な処理を実行する。ROM112は、CPU111のための種々のプログラムを記憶している。SRAM113およびDRAM114はワークメモリであり、CPU111で実行するプログラムや処理途中のデータ等を記憶する。特に、DRAM114は、画像処理ユニット104での処理途中の画像データや処理済みの正距円筒射影画像のデータを記憶する。   The CPU 111 controls the overall operation of the photographing apparatus 1 and executes necessary processes. The ROM 112 stores various programs for the CPU 111. The SRAM 113 and the DRAM 114 are work memories, and store programs executed by the CPU 111 and data being processed. In particular, the DRAM 114 stores image data being processed by the image processing unit 104 and processed equirectangular projection image data.

操作部115は、シャッターボタン115a等の操作ボタンの総称である。ユーザは、操作部115を操作することで、種々の撮影モードや撮影条件等を入力する。   The operation unit 115 is a general term for operation buttons such as the shutter button 115a. The user operates the operation unit 115 to input various shooting modes, shooting conditions, and the like.

ネットワークI/F116は、SDカード等の外付けのメディアまたはパーソナルコンピュータ等とのインターフェース回路(USBI/F等)の総称である。ネットワークI/F116は、無線、有線を問わない。DRAM114に記憶された正距円筒射影画像のデータは、ネットワークI/F116を介して外付けのメディアに記録されたり、必要に応じてネットワークI/F116を介して通信端末5等の外部端末(装置)に送信されたりする。   The network I / F 116 is a general term for an interface circuit (USB I / F or the like) with an external medium such as an SD card or a personal computer. The network I / F 116 may be wireless or wired. Data of the equirectangular projection image stored in the DRAM 114 is recorded on an external medium via the network I / F 116, or an external terminal (device) such as the communication terminal 5 via the network I / F 116 as necessary. ).

通信I/F117は、撮影装置1に設けられたアンテナ117aを介して、Wi−Fi(登録商標)、NFCまたはBluetooth(登録商標)等の近距離無線通信技術によって、通信端末5等の外部端末(装置)と通信を行う。通信I/F117は、正距円筒射影画像のデータを通信端末5等の外部端末(装置)に送信することができる。   The communication I / F 117 is connected to an external terminal such as the communication terminal 5 by a short-range wireless communication technology such as Wi-Fi (registered trademark), NFC, or Bluetooth (registered trademark) via an antenna 117 a provided in the photographing apparatus 1. Communicate with (device). The communication I / F 117 can transmit data of the equirectangular projection image to an external terminal (apparatus) such as the communication terminal 5.

電子コンパス118は、地球の磁気から撮影装置1の方位を算出し、方位情報を出力する。方位情報は、Exifに沿った関連情報(メタデータ)の一例であり、撮影画像の画像補正等の画像処理に利用される。なお、関連情報は、画像の撮影日時、および画像データのデータ容量の各データを含む。   The electronic compass 118 calculates the azimuth of the photographing apparatus 1 from the earth's magnetism and outputs azimuth information. The azimuth information is an example of related information (metadata) along Exif, and is used for image processing such as image correction of a captured image. Note that the related information includes each data of the shooting date and time of the image and the data capacity of the image data.

〇通信端末のハードウエア構成〇
続いて、図10を用いて、通信端末5のハードウエア構成について説明する。図10は、第1の実施形態に係る通信端末のハードウエア構成の一例を示す図である。通信端末5は、CPU501、ROM502、RAM503、EEPROM(Electrically Erasable Programmable Read-Only Memory)504、CMOSセンサ505、撮像素子I/F513a、加速度・方位センサ506、メディアI/F508およびGPS受信部509を備えている。
O Hardware configuration of communication terminal O Next, the hardware configuration of the communication terminal 5 will be described with reference to FIG. FIG. 10 is a diagram illustrating an example of a hardware configuration of the communication terminal according to the first embodiment. The communication terminal 5 includes a CPU 501, a ROM 502, a RAM 503, an EEPROM (Electrically Erasable Programmable Read-Only Memory) 504, a CMOS sensor 505, an image sensor I / F 513a, an acceleration / direction sensor 506, a media I / F 508, and a GPS receiver 509. ing.

CPU501は、通信端末5全体の動作を制御する。ROM502は、IPL(Initial Program Loader)等のCPU501の駆動に用いられるプログラムを記憶する。RAM503は、CPU501のワークエリアとして使用される。EEPROM504は、CPU501の制御にしたがって、通信端末用プログラム等の各種データの読み出しまたは書き込みを行う。   The CPU 501 controls the overall operation of the communication terminal 5. The ROM 502 stores a program used for driving the CPU 501 such as an IPL (Initial Program Loader). The RAM 503 is used as a work area for the CPU 501. The EEPROM 504 reads or writes various data such as a communication terminal program under the control of the CPU 501.

CMOSセンサ505は、CPU501の制御に従って被写体(主に自画像)を撮像し画像データを得る。撮像素子I/F513aは、CMOSセンサ512の駆動を制御する回路である。加速度・方位センサ506は、地磁気を検知する電子磁気コンパス、ジャイロコンパスおよび加速度センサ等の各種センサである。メディアI/F508は、フラッシュメモリ等の記録メディア507に対するデータの読み出しまたは書き込み(記憶)を制御する。GPS受信部509は、GPS衛星からGPS信号を受信する。   The CMOS sensor 505 captures a subject (mainly a self-portrait) under the control of the CPU 501 and obtains image data. The image sensor I / F 513 a is a circuit that controls driving of the CMOS sensor 512. The acceleration / direction sensor 506 is various sensors such as an electronic magnetic compass, a gyrocompass, and an acceleration sensor that detect geomagnetism. A media I / F 508 controls reading or writing (storage) of data with respect to a recording medium 507 such as a flash memory. The GPS receiver 509 receives GPS signals from GPS satellites.

また、通信端末5は、遠距離通信回路511、アンテナ511a、CMOSセンサ512、撮像素子I/F513b、マイク514、スピーカ515、音入出力I/F516、ディスプレイ517、外部機器接続I/F518、近距離通信回路519、近距離通信回路519のアンテナ519aおよびタッチパネル521を備えている。   The communication terminal 5 includes a long-distance communication circuit 511, an antenna 511a, a CMOS sensor 512, an image sensor I / F 513b, a microphone 514, a speaker 515, a sound input / output I / F 516, a display 517, an external device connection I / F 518, A distance communication circuit 519, an antenna 519a of the near field communication circuit 519, and a touch panel 521 are provided.

遠距離通信回路511は、後述する通信ネットワーク100を介して、他の機器と通信する回路である。CMOSセンサ512は、CPU501の制御に従って被写体を撮像して画像データを得る内蔵型の撮像手段の一種である。撮像素子I/F513bは、CMOSセンサ512の駆動を制御する回路である。マイク514は、音声を入力する内蔵型の集音手段の一種である。音入出力I/F516は、CPU501の制御に従ってマイク514およびスピーカ515との間で音信号の入出力を処理する回路である。   The long-distance communication circuit 511 is a circuit that communicates with other devices via a communication network 100 described later. The CMOS sensor 512 is a kind of built-in imaging unit that captures an image of a subject under the control of the CPU 501 and obtains image data. The image sensor I / F 513b is a circuit that controls driving of the CMOS sensor 512. The microphone 514 is a kind of built-in sound collecting means for inputting sound. The sound input / output I / F 516 is a circuit that processes input / output of a sound signal between the microphone 514 and the speaker 515 under the control of the CPU 501.

ディスプレイ517は、被写体の画像や各種アイコン等を表示する液晶や有機EL等の表示手段の一種である。外部機器接続I/F518は、各種の外部機器を接続するためのインターフェースである。近距離通信回路519は、Wi−Fi、NFC、またはBluetooth等の通信回路である。タッチパネル521は、利用者がディスプレイ517を押下することで、通信端末5を操作する入力手段の一種である。   A display 517 is a kind of display means such as a liquid crystal display or an organic EL display that displays an image of a subject, various icons, and the like. The external device connection I / F 518 is an interface for connecting various external devices. The short-range communication circuit 519 is a communication circuit such as Wi-Fi, NFC, or Bluetooth. The touch panel 521 is a kind of input means for operating the communication terminal 5 when the user presses the display 517.

また、通信端末5は、バスライン510を備えている。バスライン510は、CPU501等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。   The communication terminal 5 includes a bus line 510. The bus line 510 is an address bus, a data bus, or the like for electrically connecting each component such as the CPU 501.

なお、上記各プログラムが記憶されたHD(Hard Disk)やCD−ROM等の記録媒体は、いずれもプログラム製品(Program Product)として、国内または国外へ提供されることができる。   Note that any recording medium such as an HD (Hard Disk) or a CD-ROM in which the above programs are stored can be provided as a program product domestically or abroad.

●機能構成
続いて、第1の実施形態に係る装置および端末の機能構成について説明する。図11は、第1の実施形態に係る情報処理システムの機能構成の一例を示す図である。
Functional Configuration Next, the functional configuration of the device and the terminal according to the first embodiment will be described. FIG. 11 is a diagram illustrating an example of a functional configuration of the information processing system according to the first embodiment.

〇撮影装置の機能構成〇
まず、図11を用いて、撮影装置1の機能構成について説明する。撮影装置1によって実現される機能は、通信部11、受付部12、撮像部13、集音部14、センサ情報取得部15、判断部16、画像・音処理部17、記憶・読出部18および記憶部1000を含む。
O Functional Configuration of Imaging Device O First, the functional configuration of the imaging device 1 will be described with reference to FIG. The functions realized by the photographing apparatus 1 include a communication unit 11, a reception unit 12, an imaging unit 13, a sound collection unit 14, a sensor information acquisition unit 15, a determination unit 16, an image / sound processing unit 17, a storage / reading unit 18, and A storage unit 1000 is included.

通信部11は、通信端末5等の外部装置と、Wi−Fi(登録商標)等の近距離無線通信技術によって通信を行う機能である。通信部11は、主に、図9に示したCPU111の処理、並びに通信I/F117およびアンテナ117aによって実現される。   The communication unit 11 has a function of communicating with an external device such as the communication terminal 5 using a short-range wireless communication technology such as Wi-Fi (registered trademark). The communication unit 11 is mainly realized by the processing of the CPU 111 illustrated in FIG. 9, the communication I / F 117, and the antenna 117a.

受付部12は、利用者からの操作入力を受け付ける機能である。受付部12は、主に、図9に示した操作部115およびCPU111の処理によって実現される。   The accepting unit 12 is a function that accepts an operation input from a user. The receiving unit 12 is mainly realized by the processing of the operation unit 115 and the CPU 111 illustrated in FIG.

撮像部13は、被写体や風景画像等を撮像し、撮影画像データを得る機能である。撮影画像データは、図3(a)、(b)に示したように、全天球画像データの元になる二つの半球画像データである。撮影画像データは、静止画のみならず、動画であってもよい。撮像部13は、主に、図9に示した撮像ユニット101、画像処理ユニット104および撮像制御ユニット105、並びにCPU111の処理によって実現される。   The imaging unit 13 has a function of capturing a subject, a landscape image, and the like to obtain captured image data. As shown in FIGS. 3A and 3B, the captured image data is two hemispherical image data that is the basis of the omnidirectional image data. The captured image data may be not only a still image but also a moving image. The imaging unit 13 is mainly realized by the processing of the imaging unit 101, the image processing unit 104, the imaging control unit 105, and the CPU 111 illustrated in FIG.

集音部14は、撮影装置1の周囲の音を集音する機能である。集音部14は、主に、図9に示したマイクロフォン108および音処理ユニット109、並びにCPU111の処理によって実現される。集音部14は、図9に示した複数のマイクロフォン108(108a〜108d)を用いて集音された集音データを取得する。   The sound collection unit 14 has a function of collecting sounds around the photographing apparatus 1. The sound collecting unit 14 is mainly realized by the processing of the microphone 108 and the sound processing unit 109 and the CPU 111 shown in FIG. The sound collection unit 14 acquires sound collection data collected using the plurality of microphones 108 (108a to 108d) illustrated in FIG.

センサ情報取得部15は、電子コンパス118等のセンサから、各方位(方位角、磁北)の方向等のセンサ検出結果情報を取得する機能である。計測される各方位の方向等のセンサ検出結果情報は、撮影装置1の所定時点の姿勢を示すものである。センサ情報取得部15は、主に、図9にした電子コンパス118およびCPU111の処理によって実現される。   The sensor information acquisition unit 15 has a function of acquiring sensor detection result information such as the direction of each azimuth (azimuth angle, magnetic north) from a sensor such as the electronic compass 118. The sensor detection result information such as the direction of each azimuth measured indicates the posture of the photographing apparatus 1 at a predetermined time point. The sensor information acquisition unit 15 is mainly realized by the processing of the electronic compass 118 and the CPU 111 shown in FIG.

判断部16は、図9に示したCPU111の処理によって実現され、各種判断を行う機能である。   The determination unit 16 is realized by the processing of the CPU 111 shown in FIG.

画像・音処理部17は、撮像部13によって得られた撮影画像データ、または集音部14によって得られた音データに対して、各種処理を行う機能である。画像・音処理部17は、例えば、二つの撮像素子103a、103bのそれぞれによって得られた二つの半球画像データ(図3(a)、(b))に基づいて、正距円筒射影画像データ(図3(c))を作成する。また、画像・音処理部17は、例えば、集音部14によって得られた音データに基づいて、三次元音データ230を作成する。画像・音処理部17は、主に、図9に示したCPU111からの命令によって実現される。   The image / sound processing unit 17 has a function of performing various processes on the captured image data obtained by the imaging unit 13 or the sound data obtained by the sound collecting unit 14. The image / sound processing unit 17, for example, equirectangular projection image data (based on the two hemispherical image data (FIGS. 3A and 3B) obtained by the two image sensors 103 a and 103 b, respectively). FIG. 3C is created. Further, the image / sound processing unit 17 creates the three-dimensional sound data 230 based on the sound data obtained by the sound collection unit 14, for example. The image / sound processing unit 17 is mainly realized by a command from the CPU 111 shown in FIG.

記憶・読出部18は、記憶部1000に各種データを記憶させ、または記憶部1000から各種データを読み出す機能である。記憶・読出部18は、主に、図9に示したCPU111の処理によって実現される。記憶部1000は、主に、図9に示したROM112、SRAM113およびDRAM114によって実現される。また、記憶部1000は、撮影データファイル200を記憶している。   The storage / reading unit 18 has a function of storing various data in the storage unit 1000 or reading various data from the storage unit 1000. The storage / reading unit 18 is realized mainly by the processing of the CPU 111 shown in FIG. The storage unit 1000 is mainly realized by the ROM 112, the SRAM 113, and the DRAM 114 shown in FIG. In addition, the storage unit 1000 stores a shooting data file 200.

〇撮影データファイル
ここで、記憶部1000に記憶されたデータの詳細について説明する。図12は、第1の実施形態に係る撮影データファイルのデータ構造の一例を示す図である。撮影データファイル200は、撮影装置1によって被写体が撮影されて取得された画像データおよび音データを記憶したファイルである。図12に示す撮影データファイル200は、全天球画像データ210のチャンネル、傾斜角データ250のチャンネル、音データ220のチャンネルおよび三次元音データ230のチャンネルを含む。撮影データファイル200は、撮影装置1の内部におけるデータの伝送路としてのチャンネルごとに各データを記憶することによって、全天球画像データ210、音データ220、三次元音データ230および傾斜角データ250を単一ファイルで記憶することができる。
O Captured data file Here, the detail of the data memorize | stored in the memory | storage part 1000 is demonstrated. FIG. 12 is a diagram illustrating an example of the data structure of the shooting data file according to the first embodiment. The shooting data file 200 is a file that stores image data and sound data acquired by shooting a subject by the shooting apparatus 1. 12 includes a channel of omnidirectional image data 210, a channel of inclination angle data 250, a channel of sound data 220, and a channel of three-dimensional sound data 230. The photographic data file 200 stores each data for each channel as a data transmission path inside the photographic device 1, so that the omnidirectional image data 210, the sound data 220, the three-dimensional sound data 230, and the tilt angle data 250 Can be stored in a single file.

全天球画像データ210は、動画形式の一つであるMPEG方式で記録され、GOP(Group Of Picture)と呼ばれる単位で符号化されている。ここで、GOPは、少なくとも1つの基準フレーム(MPEGでは、Iピクチャ)を含み構成される一群のフレーム集合の単位をいう。全天球画像データ210は、例えば、MPEG4 AVC/H.264のメディアデータである。   The omnidirectional image data 210 is recorded in the MPEG system, which is one of the moving image formats, and is encoded in a unit called GOP (Group Of Picture). Here, GOP refers to a unit of a group of frames configured to include at least one reference frame (I picture in MPEG). The omnidirectional image data 210 is, for example, MPEG4 AVC / H. H.264 media data.

音データ220、三次元音データ230および傾斜角データ250は、GOPに対応する時間区間で区切られて記録されている。音データ220、三次元音データ230および傾斜角データ250は、記録開始を基準として、音データ220、三次元音データ230および傾斜角データ250の記録された時間が一致するように関連づけられている。したがって、傾斜角データ250と音データ220と三次元音データ230は、記録開始からの経過時間を一致させることが可能となる。   The sound data 220, the three-dimensional sound data 230, and the inclination angle data 250 are recorded by being divided by a time interval corresponding to the GOP. The sound data 220, the three-dimensional sound data 230, and the tilt angle data 250 are related so that the recorded times of the sound data 220, the three-dimensional sound data 230, and the tilt angle data 250 coincide with each other on the basis of the recording start. . Therefore, the inclination angle data 250, the sound data 220, and the three-dimensional sound data 230 can match the elapsed time from the start of recording.

音データ220は、マイクロフォン108によって集音された音信号に基づいて生成される音データである。音データ220は、複数のマイクロフォン108a〜108dのチャンネルごとに記録される。音データ220は、例えば、後述するアンビソニックのAフォーマットに基づいて生成される。   The sound data 220 is sound data generated based on the sound signal collected by the microphone 108. The sound data 220 is recorded for each channel of the plurality of microphones 108a to 108d. The sound data 220 is generated based on, for example, an ambisonic A format described later.

三次元音データ230は、後述するアンビソニックスのBフォーマットに基づいて生成される立体音響データである。三次元音データ230は、複数のマイクロフォン108a〜108dのチャンネルごとに記憶された音データ220を用いて生成される。三次元音データ230の生成方法の詳細は、後述する。   The three-dimensional sound data 230 is stereophonic data generated based on the Ambisonics B format described later. The three-dimensional sound data 230 is generated using the sound data 220 stored for each channel of the plurality of microphones 108a to 108d. Details of the method of generating the three-dimensional sound data 230 will be described later.

音データ220および三次元音データ230は、例えば、AAC−LC(AAC Low Complexity)およびLinear PCM(Pulse Code Modulation)方式等の非圧縮音声フォーマットによって記録されている。なお、音データ220および三次元音データ230は、MP3(MPEG Layer 3)等の圧縮音声フォーマットとして記録されていてもよい。なお、撮影データファイル200は、音データ220および三次元音データ230の少なくとも一方を含んでいればよい。これは、先に示したように、三次元音データ230は、音データ220により生成されるものであるためである。例えば、音データ220のみが記録されている場合は、必要に応じて、音データ220から三次元音データ230を生成すればよいため、データ量の削減に寄与する。また、三次元音データ230のみが記録されている場合は、音データ220から生成する必要がなく、さらにデータ量の削減に寄与する。   The sound data 220 and the three-dimensional sound data 230 are recorded in an uncompressed audio format such as AAC-LC (AAC Low Complexity) and Linear PCM (Pulse Code Modulation). Note that the sound data 220 and the three-dimensional sound data 230 may be recorded as a compressed audio format such as MP3 (MPEG Layer 3). The captured data file 200 only needs to include at least one of the sound data 220 and the three-dimensional sound data 230. This is because the three-dimensional sound data 230 is generated from the sound data 220 as described above. For example, when only the sound data 220 is recorded, the three-dimensional sound data 230 may be generated from the sound data 220 as necessary, which contributes to a reduction in the data amount. Further, when only the three-dimensional sound data 230 is recorded, it is not necessary to generate the sound data 220, which further contributes to the reduction of the data amount.

傾斜角データ250は、撮影装置1の姿勢情報を含むメタデータである。撮影装置1の姿勢情報は、撮影装置1の所定時点における姿勢を示すデータである。傾斜角データ250は、全天球画像の座標系における撮影装置1の向き方向を、pitch、roll、Yawで示される三軸のデータとして記述している。   The tilt angle data 250 is metadata including posture information of the photographing apparatus 1. The posture information of the photographing device 1 is data indicating the posture of the photographing device 1 at a predetermined time. The tilt angle data 250 describes the direction of the photographing apparatus 1 in the coordinate system of the omnidirectional image as three-axis data indicated by pitch, roll, and Yaw.

なお、全天球画像データ210、音データ220、三次元音データ230および傾斜角データ250は、単一のファイル200として保存されるものとするが、特に限定されるものではなく、別々のファイルとして保存されてもよい。また、撮影データファイル200は、フレームの単位で、全天球画像データ210、音データ220、三次元音データ230および傾斜角データ250を関連づけた構成であってもよい。   Note that the omnidirectional image data 210, the sound data 220, the three-dimensional sound data 230, and the tilt angle data 250 are stored as a single file 200, but are not particularly limited and are separate files. May be stored as Further, the shooting data file 200 may have a configuration in which the omnidirectional image data 210, the sound data 220, the three-dimensional sound data 230, and the tilt angle data 250 are associated with each other in units of frames.

〇通信端末の機能構成〇
次に、図11を用いて、通信端末5の機能構成について説明する。通信端末5により実現される機能は、通信部51、受付部52、表示制御部53、音再生部54、判断部55、画像・音処理部56、記憶・読出部57および記憶部5000を含む。通信端末5は、全天球動画を再生するための専用のアプリケーションプログラムをインストールしている。通信端末5は、例えば、インストールされたアプリケーションプログラムをCPU501が実行することによって、本発明に係るデータ生成方法を実現する。
O Functional configuration of communication terminal O Next, the functional configuration of the communication terminal 5 will be described with reference to FIG. Functions realized by the communication terminal 5 include a communication unit 51, a reception unit 52, a display control unit 53, a sound reproduction unit 54, a determination unit 55, an image / sound processing unit 56, a storage / reading unit 57, and a storage unit 5000. . The communication terminal 5 is installed with a dedicated application program for reproducing the omnidirectional video. The communication terminal 5 realizes the data generation method according to the present invention, for example, by the CPU 501 executing the installed application program.

通信部51は、撮影装置1等の外部装置と、Wi−Fi(登録商標)等による近距離無線通信技術によって通信を行う機能である。通信部51は、主に、図10に示したCPU501の処理、並びに近距離通信回路519およびアンテナ519aによって実現される。   The communication unit 51 has a function of performing communication with an external device such as the photographing device 1 using a short-range wireless communication technology such as Wi-Fi (registered trademark). The communication unit 51 is mainly realized by the processing of the CPU 501 shown in FIG. 10, the short-range communication circuit 519, and the antenna 519a.

受付部52は、利用者から各種選択または入力を受け付ける機能である。受付部52は、主に、タッチパネル521およびCPU501の処理によって実現される。なお、タッチパネル521は、ディスプレイ517と共用であってもよい。また、受付部52は、タッチパネル以外の入力手段によって実現されてもよい。受付部52は、受付手段の一例である。   The accepting unit 52 is a function that accepts various selections or inputs from the user. The accepting unit 52 is mainly realized by processing of the touch panel 521 and the CPU 501. Note that the touch panel 521 may be shared with the display 517. Moreover, the reception part 52 may be implement | achieved by input means other than a touch panel. The reception unit 52 is an example of a reception unit.

表示制御部53は、通信端末5のディスプレイ517に各種画像を表示させる(再生する)ための制御を行う機能である。画像表示方法は、特に限定されるものではなく、全天球画像をそのまま表示させてもよいし、全天球画像の所定画角に対応する画像範囲を切り出して表示させてもよい。表示制御部53は、例えば、再生用データ生成部63によって生成されたクロップ画像データ610を再生する。表示制御部53は、主に、図10に示したCPU501の処理によって実現される。表示制御部53は、二次元画像データを再生する再生手段の一例である。また、表示制御部53は、二次元動画を再生する再生手段の一例である。   The display control unit 53 is a function that performs control for displaying (reproducing) various images on the display 517 of the communication terminal 5. The image display method is not particularly limited, and the omnidirectional image may be displayed as it is, or an image range corresponding to a predetermined angle of view of the omnidirectional image may be cut out and displayed. For example, the display control unit 53 reproduces the crop image data 610 generated by the reproduction data generation unit 63. The display control unit 53 is mainly realized by the processing of the CPU 501 shown in FIG. The display control unit 53 is an example of a reproducing unit that reproduces two-dimensional image data. The display control unit 53 is an example of a playback unit that plays back a two-dimensional video.

音再生部54は、通信端末5のスピーカ515から音データを再生させるための制御を行う機能である。音再生部54は、再生用データ生成部63によって生成された再生用音データ650を再生する。音再生部54は、主に、図10に示したCPU501の処理によって実現される。音再生部54は、二次元音データを再生する再生手段の一例である。また、音再生部54は、二次元動画を再生する再生手段の一例である。   The sound reproducing unit 54 has a function of performing control for reproducing sound data from the speaker 515 of the communication terminal 5. The sound reproduction unit 54 reproduces the reproduction sound data 650 generated by the reproduction data generation unit 63. The sound reproducing unit 54 is realized mainly by the processing of the CPU 501 shown in FIG. The sound reproducing unit 54 is an example of a reproducing unit that reproduces two-dimensional sound data. The sound reproducing unit 54 is an example of a reproducing unit that reproduces a two-dimensional moving image.

判断部55は、主に、図10に示したCPU501の処理によって実現され、各種判断を行う。   The determination unit 55 is realized mainly by the processing of the CPU 501 illustrated in FIG. 10 and performs various determinations.

画像・音処理部56は、撮影装置1から取得した全天球画像データ210および音データ(三次元音データ230または後述する再生用音データ650)を、通信端末5で再生するための各種処理を行う機能である。画像・音処理部56は、主に、図10に示したCPU501からの命令によって実現される。   The image / sound processing unit 56 performs various processes for reproducing the omnidirectional image data 210 and the sound data (three-dimensional sound data 230 or reproduction sound data 650 described later) acquired from the photographing apparatus 1 on the communication terminal 5. It is a function to perform. The image / sound processing unit 56 is mainly realized by a command from the CPU 501 shown in FIG.

記憶・読出部57は、記憶部5000に各種データを記憶させ、または記憶部5000から各種データを読み出す機能である。記憶・読出部57は、主に、図10に示したCPU501の処理によって実現される。記憶部5000は、主に、図10に示したROM502、EEPROM504および記録メディア507によって実現される。また、記憶部5000は、後述する再生用データファイル600を記憶している。記憶部500は、記憶手段の一例である。   The storage / reading unit 57 has a function of storing various data in the storage unit 5000 or reading various data from the storage unit 5000. The storage / reading unit 57 is mainly realized by the processing of the CPU 501 shown in FIG. The storage unit 5000 is mainly realized by the ROM 502, the EEPROM 504, and the recording medium 507 shown in FIG. The storage unit 5000 stores a reproduction data file 600 described later. The storage unit 500 is an example of a storage unit.

〇画像・音処理部の詳細な機能構成
ここで、図13を用いて、画像・音処理部56の機能構成について詳細に説明する。図13は、第1の実施形態に係る画像・音処理部の詳細な機能構成の一例を示す図である。画像・音処理部56は、画像データ管理部61、音データ管理部62および再生用データ生成部63を有する。
Detailed Functional Configuration of Image / Sound Processing Unit Here, the functional configuration of the image / sound processing unit 56 will be described in detail with reference to FIG. FIG. 13 is a diagram illustrating an example of a detailed functional configuration of the image / sound processing unit according to the first embodiment. The image / sound processing unit 56 includes an image data management unit 61, a sound data management unit 62, and a reproduction data generation unit 63.

画像データ管理部61は、全天球画像データ210の表示範囲を管理、制御、保持する機能である。画像データ管理部61は、例えば、通信端末5の利用者によって指定された全天球画像データ210に含まれる所定の領域であるクロップ画像データ610(二次元画像データの一例)の位置または表示方向を特定する。クロップ画像データ610の位置または表示方向は、例えば、クロップ画像データ610の座標情報である。画像データ管理部61は、主に、図10に示したCPU501の処理によって実現される。画像データ管理部61は、表示方向特定手段の一例である。   The image data management unit 61 has a function of managing, controlling, and holding the display range of the omnidirectional image data 210. The image data management unit 61, for example, the position or display direction of the crop image data 610 (an example of two-dimensional image data) that is a predetermined area included in the omnidirectional image data 210 designated by the user of the communication terminal 5. Is identified. The position or display direction of the crop image data 610 is coordinate information of the crop image data 610, for example. The image data management unit 61 is realized mainly by the processing of the CPU 501 shown in FIG. The image data management unit 61 is an example of a display direction specifying unit.

音データ管理部62は、クロップ画像データ610に対応する再生用音データ650を管理、制御、保持する機能である。音データ管理部62は、画像データ管理部61によって特定されたクロップ画像データ610の位置または表示方向に基づいて、三次元音データ230における音源方向を特定する。音データ管理部62は、主に、図10に示したCPU501の処理によって実現される。音データ管理部62は、音源方向特定手段の一例である。   The sound data management unit 62 has a function of managing, controlling, and holding reproduction sound data 650 corresponding to the crop image data 610. The sound data management unit 62 specifies the sound source direction in the three-dimensional sound data 230 based on the position or display direction of the crop image data 610 specified by the image data management unit 61. The sound data management unit 62 is realized mainly by the processing of the CPU 501 shown in FIG. The sound data management unit 62 is an example of a sound source direction specifying unit.

再生用データ生成部63は、撮影装置1から受信した撮影データファイル200を用いて、再生用データファイル600を生成する機能である。再生用データ生成部63は、例えば、全天球画像データ210からクロップ画像データ610を生成するとともに、三次元音データ230から再生用音データ650を生成する。再生用データ生成部63は、主に、図10に示したCPU501の処理によって実現される。再生用データ生成部63は、生成手段の一例である。   The reproduction data generation unit 63 has a function of generating a reproduction data file 600 using the photographing data file 200 received from the photographing apparatus 1. For example, the reproduction data generation unit 63 generates crop image data 610 from the omnidirectional image data 210 and also generates reproduction sound data 650 from the three-dimensional sound data 230. The reproduction data generation unit 63 is mainly realized by the processing of the CPU 501 shown in FIG. The reproduction data generation unit 63 is an example of a generation unit.

〇再生用データファイル
ここで、記憶部5000に記憶されたデータの詳細について説明する。図14は、第1の実施形態に係る再生用データの一例を示す図である。図14に示す再生用データファイル600は、通信端末5において、全天球動画を二次元動画として再生するためのメディアデータである。
Here, the details of the data stored in the storage unit 5000 will be described. FIG. 14 is a diagram illustrating an example of reproduction data according to the first embodiment. The reproduction data file 600 shown in FIG. 14 is media data for reproducing the omnidirectional video as a two-dimensional video in the communication terminal 5.

再生用データファイル600は、1フレームごとに、クロップ画像データ610と、再生用音データ650を関連づけて記憶している。クロップ画像データ610は、通信端末5に表示された全天球画像から、利用者によってクロップ処理された画像データである。クロップ処理は、全天球画像データの一部である所定の領域を切り出す(クロップする)処理である。所定の領域は、ユーザによる特定の入力操作によって指定された、全天球画像データの一部の領域である。クロップ画像データ610は、二次元画像データの一例である。   The reproduction data file 600 stores the crop image data 610 and the reproduction sound data 650 in association with each other for each frame. The crop image data 610 is image data cropped by the user from the omnidirectional image displayed on the communication terminal 5. The cropping process is a process of cutting out (crop) a predetermined area that is a part of the omnidirectional image data. The predetermined area is a partial area of the omnidirectional image data designated by a specific input operation by the user. The crop image data 610 is an example of two-dimensional image data.

再生用音データ650は、クロップ画像データ610の全天球画像データにおける位置に対応する音データである。再生用音データ650は、左右(LとR)の二つのチャンネルの音データを有する。再生用音データ650は、これらの二つのチャンネルの音データ(LとR)を合成して生成されたステレオフォニックス再生のためのステレオ音データである。再生用音データ650は、二次元音データの一例である。   The reproduction sound data 650 is sound data corresponding to a position in the omnidirectional image data of the crop image data 610. The reproduction sound data 650 includes sound data of two channels, left and right (L and R). The reproduction sound data 650 is stereo sound data for stereophonic reproduction generated by synthesizing sound data (L and R) of these two channels. The reproduction sound data 650 is an example of two-dimensional sound data.

●撮影データの記録処理
図15は、第1の実施形態に係る撮影装置における撮影データの記録処理の一例を示すフローチャートである。図15に示す処理は、例えば、撮影装置1の筐体に設けられる操作部115の押下といった、記録開始の指示を行うための特定の動作に応答して開始される。
Shooting Data Recording Process FIG. 15 is a flowchart illustrating an example of shooting data recording process in the shooting apparatus according to the first embodiment. The process illustrated in FIG. 15 is started in response to a specific operation for giving an instruction to start recording, such as pressing the operation unit 115 provided in the housing of the photographing apparatus 1.

ステップS101において、撮影装置1の撮像部13は、撮像素子103a,103bを用いて撮像された画像データを取得する。撮像部13によって取得される画像データは、例えば、図3(a)、(b)に示した二つの半球画像データである。   In step S101, the imaging unit 13 of the imaging apparatus 1 acquires image data captured using the imaging elements 103a and 103b. The image data acquired by the imaging unit 13 is, for example, the two hemispherical image data illustrated in FIGS.

ステップS102において、撮影装置1の画像・音処理部17は、ステップS101で取得した画像データに画像処理を施す。画像・音処理部17は、例えば、取得された二つの半球画像データ(図3(a)、(b))に基づいて、正距円筒射影画像データ(図3(c))を生成する。なお、撮影装置1は、フレーム集合の単位で画像データの取得および画像処理が行うものとする。   In step S102, the image / sound processing unit 17 of the photographing apparatus 1 performs image processing on the image data acquired in step S101. For example, the image / sound processing unit 17 generates equirectangular projection image data (FIG. 3C) based on the acquired two hemispherical image data (FIGS. 3A and 3B). Note that the photographing apparatus 1 performs image data acquisition and image processing in units of frame sets.

撮影装置1は、図15に示す処理を開始した場合、ステップS101およびステップS102の処理と並行して、ステップS103およびステップS104の処理を実行する。   When the processing illustrated in FIG. 15 is started, the imaging device 1 executes the processing of step S103 and step S104 in parallel with the processing of step S101 and step S102.

ステップS103において、撮影装置1の集音部14は、マイクロフォン108a〜108dから音処理ユニット109を介して、マイクロフォン108ごとに集音された集音データを取得する。ステップS104において、撮影装置1の画像・音処理部17は、ステップS103で取得した集音データに音処理を施す。画像・音処理部17は、例えば、マイクロフォン108ごとに集音された集音データを、音処理ユニット109を用いて、アンビソニックスのA−フォーマットに対応する音データ220に変換する。なお、ここでは、撮影装置1は、フレーム集合の単位に対応する時間区間の集音データの取得および音処理が行われるものとする。   In step S <b> 103, the sound collection unit 14 of the photographing apparatus 1 acquires sound collection data collected for each microphone 108 from the microphones 108 a to 108 d via the sound processing unit 109. In step S104, the image / sound processing unit 17 of the photographing apparatus 1 performs sound processing on the collected sound data acquired in step S103. For example, the image / sound processing unit 17 converts the collected sound data collected for each microphone 108 into sound data 220 corresponding to the A-format of Ambisonics using the sound processing unit 109. Here, it is assumed that the photographing apparatus 1 performs acquisition and sound processing of sound collection data in a time interval corresponding to a frame set unit.

ステップS105において、撮影装置1のセンサ情報取得部15は、電子コンパス118から、ステップS101およびステップS103での画像データおよび音データの記録時のセンサ検出結果情報を取得する。ステップS106において、撮影装置1は、電子コンパス118を用いて取得したセンサ検出結果情報に基づいて、記録時の撮影装置1の傾斜角および方位を算出する。   In step S <b> 105, the sensor information acquisition unit 15 of the photographing apparatus 1 acquires sensor detection result information from the electronic compass 118 when recording image data and sound data in steps S <b> 101 and S <b> 103. In step S <b> 106, the imaging apparatus 1 calculates the tilt angle and orientation of the imaging apparatus 1 at the time of recording based on sensor detection result information acquired using the electronic compass 118.

ステップS107において、撮影装置1の画像・音処理部17は、音データ220を用いて、三次元音データ230を生成する。三次元音データ230の生成方法の詳細は、後述する。   In step S <b> 107, the image / sound processing unit 17 of the photographing apparatus 1 generates three-dimensional sound data 230 using the sound data 220. Details of the method of generating the three-dimensional sound data 230 will be described later.

ステップS108において、撮影装置1の記憶・読出部18は、記憶部1000に、全天球画像データ210、三次元音データ230および傾斜角データ250を関連づけて、撮影データファイル200として記憶させる。撮影データファイル200は、フレーム集合分の全天球画像データ210、三次元音データ230および傾斜角データ250をそれぞれ関連づけて記録する。なお、図12に示したように、撮影データファイル200は、音データ220が記憶されていてもよい。   In step S <b> 108, the storage / reading unit 18 of the photographing apparatus 1 associates the omnidirectional image data 210, the three-dimensional sound data 230, and the tilt angle data 250 with the storage unit 1000 and stores them as the photographing data file 200. The photographic data file 200 records omnidirectional image data 210, three-dimensional sound data 230, and tilt angle data 250 for a set of frames in association with each other. Note that, as shown in FIG. 12, the shooting data file 200 may store sound data 220.

ステップS109において、撮影装置1は、記録終了の指示を受け付けたか否かを判定する。撮影装置1は、記録終了の指示をまだ受け付けていないと判定された場合(NO)、ステップS101およびステップS103の処理を繰り返して、次のフレーム集合に対する処理を進める。一方、撮影装置1は、記録終了の指示を受け付けたと判定された場合(YES)、ファイルを閉じて、本処理を終了させる。   In step S109, the imaging apparatus 1 determines whether an instruction to end recording has been received. If it is determined that the recording end instruction has not yet been received (NO), the imaging apparatus 1 repeats the processing of step S101 and step S103, and proceeds with the processing for the next frame set. On the other hand, when it is determined that the recording end instruction has been received (YES), the photographing apparatus 1 closes the file and ends the process.

●三次元音データの生成処理
以下、図16および図17を用いて、三次元音データ230としてアンビソニックスを採用する場合における、集音から再生までの流れを説明する。図16(a)は、第1の実施形態における音データの集音から再生までの処理の一例を示すフローチャートである。
3D Sound Data Generation Processing The flow from sound collection to reproduction when ambisonics is adopted as the 3D sound data 230 will be described below with reference to FIGS. 16 and 17. FIG. 16A is a flowchart illustrating an example of processing from sound collection to reproduction in the first embodiment.

ステップS151aにおいて、撮影装置1の集音部14は、図9に示したマイクロフォン108ごとに、集音データを取得する。ステップS152aにおいて、撮影装置1の画像・音処理部17は、集音されたチャンネルごとの集音データを、アンビソニックスのAフォーマットの音データ220(LF,LB,RF,RB)に、それぞれ変換する。変換された音データ220(LF,LB,RF,RB)は、傾斜角データ250に関連づけて撮影データファイル200に記録される。なお、ステップS152aの処理は、図15に示したステップS104の処理と同様である。   In step S151a, the sound collection unit 14 of the photographing apparatus 1 acquires sound collection data for each microphone 108 illustrated in FIG. In step S152a, the image / sound processing unit 17 of the photographing apparatus 1 converts the collected sound data for each collected channel into ambisonics A format sound data 220 (LF, LB, RF, RB). To do. The converted sound data 220 (LF, LB, RF, RB) is recorded in the photographing data file 200 in association with the inclination angle data 250. Note that the processing in step S152a is the same as the processing in step S104 shown in FIG.

ステップS153aにおいて、撮影装置1の画像・音処理部17は、音データ220(LF,LB,RF,RB)に天頂補正を施す。ステップS154aにおいて、撮影装置1の画像・音処理部17は、は、天頂補正された音データ(A−フォーマットのLF´,LB´,RF´,RB´)を、アンビソニックエンコーダによりエンコードして、アンビソニックスのBフォーマットの三次元音データ230(W,X,Y,Z)を生成する。エンコードは、例えば、式2で表すことができる。撮影装置1は、正四面体の頂点に配置させた指向性マイク4つを使用して集音し、集音した4つの音データから無指向性信号Wおよび双指向性信号X,Y,Zを生成する。   In step S153a, the image / sound processing unit 17 of the photographing apparatus 1 performs zenith correction on the sound data 220 (LF, LB, RF, RB). In step S154a, the image / sound processing unit 17 of the photographing apparatus 1 encodes the zenith corrected sound data (A-format LF ′, LB ′, RF ′, RB ′) with an ambisonic encoder. , Three-dimensional sound data 230 (W, X, Y, Z) of B format of Ambisonics is generated. The encoding can be expressed by Equation 2, for example. The photographing apparatus 1 collects sound using four directional microphones arranged at the apex of a regular tetrahedron, and the omnidirectional signal W and the bi-directional signals X, Y, Z are obtained from the collected sound data. Is generated.

Bフォーマットへの変換処理の結果、無指向性信号Wおよび双指向性信号X,Y,Zは、仮想的な無指向性マイクと双指向性マイクで集音したものとして取り扱われる。   As a result of the conversion process to the B format, the omnidirectional signal W and the bidirectional signals X, Y, and Z are handled as collected by a virtual omnidirectional microphone and a bidirectional microphone.

図17(a)は、撮影装置1における軸の定義を説明する図である。図17(a)に示すように撮影装置1を利用者が保持した場合、撮影装置1の上下方向がZ軸に対応づけられており、撮影装置1の左右方向がX軸に対応づけられており、撮影装置1の前後方向がY軸に対応づけられている。また、図17(b)〜図17(e)は、立体音響における集音指向特性を説明する図である。B−フォーマットのWチャンネルは、図17(b)に示すような無指向なマイクロフォン108での集音信号に対応する。B−フォーマットのX,Y,Zの各チャンネルは、図17(c)〜図17(e)に示すような双指向性のマイクロフォンでの集音信号に対応する。三次元音データ230は、式2に示すように、マイクロフォン108ごとに集音された集音データを用いた簡便な演算により生成される。   FIG. 17A is a diagram for explaining the definition of axes in the photographing apparatus 1. When the user holds the photographing apparatus 1 as shown in FIG. 17A, the vertical direction of the photographing apparatus 1 is associated with the Z axis, and the left and right direction of the photographing apparatus 1 is associated with the X axis. In addition, the front-rear direction of the photographing apparatus 1 is associated with the Y axis. Moreover, FIG.17 (b)-FIG.17 (e) are the figures explaining the sound collection directivity characteristic in a stereophonic sound. The B-format W channel corresponds to a sound collection signal from the omnidirectional microphone 108 as shown in FIG. Each of the B-format X, Y, and Z channels corresponds to a sound collection signal with a bidirectional microphone as shown in FIGS. 17 (c) to 17 (e). As shown in Expression 2, the three-dimensional sound data 230 is generated by a simple calculation using sound collection data collected for each microphone 108.

ステップS155aにおいて、撮影装置1の画像・音処理部17は、生成した三次元音データ230(W,X,Y,Z)を、アンビソニックデコーダによりデコードする。画像・音処理部17は、このデコード処理によって、通信端末5のスピーカ515の構成に応じたスピーカ駆動信号を生成する。撮影装置1は、デコードされた三次元音データ230(生成されたスピーカ駆動信号)を、通信端末5へ送信する。なお、三次元音データ230のデコード処理は、通信端末5の画像・音処理部56によって行われてもよい。   In step S155a, the image / sound processing unit 17 of the photographing apparatus 1 decodes the generated three-dimensional sound data 230 (W, X, Y, Z) by an ambisonic decoder. The image / sound processing unit 17 generates a speaker drive signal corresponding to the configuration of the speaker 515 of the communication terminal 5 by the decoding process. The imaging device 1 transmits the decoded three-dimensional sound data 230 (generated speaker drive signal) to the communication terminal 5. Note that the decoding process of the three-dimensional sound data 230 may be performed by the image / sound processing unit 56 of the communication terminal 5.

そして、ステップS156aにおいて、通信端末5の音再生部54は、デコードされた三次元音データ230を再生(生成したスピーカ駆動信号を放音)する。これにより、方向性を含めた音場が再現される。   In step S156a, the sound reproduction unit 54 of the communication terminal 5 reproduces the decoded three-dimensional sound data 230 (sounds the generated speaker drive signal). Thereby, the sound field including directionality is reproduced.

図16(b)は、他の実施形態における音データの集音から再生までの処理の一例を示すフローチャートである。図16(b)に示す他の実施形態において、撮影装置1は、複数のマイクロフォン108から取得された音データ220をエンコードして、三次元音データ230が一旦生成する。そして、撮影装置1は、三次元音データ230上で天頂補正が施される。   FIG. 16B is a flowchart illustrating an example of processing from sound collection to reproduction of sound data according to another embodiment. In another embodiment shown in FIG. 16B, the imaging device 1 encodes the sound data 220 acquired from the plurality of microphones 108 to generate the three-dimensional sound data 230 once. The photographing apparatus 1 is subjected to zenith correction on the three-dimensional sound data 230.

ステップS151bにおいて、撮影装置1の集音部14は、図9に示したマイクロフォン108ごとに、集音データを取得する。ステップS152bにおいて、撮影装置1の画像・音処理部17は、集音されたチャンネルごとの集音データを、アンビソニックのAフォーマットの音データ220(LF,LB,RF,RB)に、それぞれ変換する。なお、ステップS152bの処理は、図15に示したステップS104の処理と同様である。   In step S151b, the sound collection unit 14 of the photographing apparatus 1 acquires sound collection data for each microphone 108 illustrated in FIG. In step S152b, the image / sound processing unit 17 of the photographing apparatus 1 converts the collected sound data for each collected channel into ambisonic A format sound data 220 (LF, LB, RF, RB). To do. Note that the processing in step S152b is the same as the processing in step S104 shown in FIG.

ステップS153bにおいて、撮影装置1の画像・音処理部17は、音データ220(LF,LB,RF,RB)をエンコードして、三次元音データ230(B−フォーマットのW,X,Y,Z)を生成する。生成された三次元音データ230は、傾斜角データ250に関連づけて撮影データファイル200に記録される。   In step S153b, the image / sound processing unit 17 of the photographing apparatus 1 encodes the sound data 220 (LF, LB, RF, RB) to generate three-dimensional sound data 230 (B-format W, X, Y, Z). ) Is generated. The generated three-dimensional sound data 230 is recorded in the photographing data file 200 in association with the tilt angle data 250.

ステップS154bにおいて、撮影装置1の画像・音処理部17は、三次元音データ230(W,X,Y,Z)に天頂補正を施す。図17(a)に示すように、水平面上でγだけ回転することに相当する天頂補正は、例えば、下記式3で表される射影変換により実現することができる。   In step S154b, the image / sound processing unit 17 of the photographing apparatus 1 performs zenith correction on the three-dimensional sound data 230 (W, X, Y, Z). As shown in FIG. 17A, the zenith correction corresponding to the rotation by γ on the horizontal plane can be realized by, for example, projective transformation represented by the following Expression 3.

ステップS155bにおいて、撮影装置1の画像・音処理部17は、天頂補正された三次元音データ(B−フォーマットのW´,X´,Y´,Z´)を、アンビソニックデコーダによりデコードする。画像・音処理部17は、このデコード処理によって、通信端末5の通信端末5のスピーカ515の構成に応じたスピーカ駆動信号を生成する。撮影装置1は、天頂補正およびデコード処理が施された三次元音データ230(生成されたスピーカ駆動信号)を、通信端末5へ送信する。なお、天頂補正された三次元音データ(W´,X´,Y´,Z´)のデコード処理は、通信端末5の画像・音処理部56によって行われてもよい。   In step S155b, the image / sound processing unit 17 of the photographing apparatus 1 decodes the zenith corrected three-dimensional sound data (B-format W ′, X ′, Y ′, Z ′) by an ambisonic decoder. The image / sound processing unit 17 generates a speaker drive signal corresponding to the configuration of the speaker 515 of the communication terminal 5 of the communication terminal 5 by this decoding process. The imaging device 1 transmits the three-dimensional sound data 230 (generated speaker drive signal) subjected to zenith correction and decoding processing to the communication terminal 5. Note that the decoding process of the three-dimensional sound data (W ′, X ′, Y ′, Z ′) corrected for zenith may be performed by the image / sound processing unit 56 of the communication terminal 5.

そして、ステップS156bにおいて、通信端末5の音再生部54は、三次元音データ230を再生(生成したスピーカ駆動信号を放音)する。これにより、方向性を含めた音場が再現される。   In step S156b, the sound reproduction unit 54 of the communication terminal 5 reproduces the three-dimensional sound data 230 (sounds the generated speaker drive signal). Thereby, the sound field including directionality is reproduced.

このように、撮影装置1は、所定時点の音データ220または三次元音データ230に関連づけて、対応する時点の傾斜角データ250を記録する。撮影装置1は、音データ220または三次元音データ230に対して、傾斜角データ250に応じた天頂補正を施すことができる。そのため、利用者は、マイクロフォン108の状態を気にすることなく、撮影装置1を動かしながら、全天球動画を撮影することができる。   As described above, the photographing apparatus 1 records the tilt angle data 250 at the corresponding time in association with the sound data 220 or the three-dimensional sound data 230 at the predetermined time. The imaging apparatus 1 can perform zenith correction according to the tilt angle data 250 on the sound data 220 or the three-dimensional sound data 230. Therefore, the user can shoot the omnidirectional video while moving the imaging device 1 without worrying about the state of the microphone 108.

なお、図16(a)および図16(b)は、通信端末5が複数のラウドスピーカを含むものとして説明した。しかしながら、三次元音データ230は、ヘッドホンを用いて視聴される構成であってもよい。その場合は、撮影装置1の画像・音処理部17は、一旦、所定の構成を有するラウドスピーカ用の信号にデコードした後、所定の頭部伝達関数(Head-Related Transfer Function:HRTF)を畳み込んで足し合わせることにより、バイノーラル信号として、通信端末5に接続されたヘッドホンに出力する。   16A and 16B have been described on the assumption that the communication terminal 5 includes a plurality of loudspeakers. However, the 3D sound data 230 may be viewed using headphones. In that case, the image / sound processor 17 of the photographing apparatus 1 once decodes the signal for a loudspeaker having a predetermined configuration, and then convolves a predetermined head-related transfer function (HRTF). And adding them together, it outputs to the headphones connected to the communication terminal 5 as a binaural signal.

また、図16(a)および図16(b)は、音データ220(A−フォーマットのLF,LB,RF、RB)および三次元音データ230(B−フォーマットのW,X,Y,Z)が、傾斜角データ250に関連づけて記録されるものとして説明した。しかしながら、記録される音データ220および三次元音データ230の形式は、これに限られない。   FIGS. 16A and 16B show sound data 220 (A-format LF, LB, RF, RB) and three-dimensional sound data 230 (B-format W, X, Y, Z). Is described as being recorded in association with the tilt angle data 250. However, the format of the recorded sound data 220 and the three-dimensional sound data 230 is not limited to this.

さらに、図16(a)および図16(b)は、音データに関する処理(音データ220への変換、天頂補正、エンコード、デコード)を撮影装置1によって行われるものとして説明した。しかしながら、音データに関する処理の少なくとも一部は、通信端末5によって行われる構成であってもよい。この場合、例えば、通信端末5は、例えば、全天球動画の視聴時において、撮影装置1から取得した音データ220に傾斜角データ250に応じた天頂補正を施す構成であってもよい。   Further, FIG. 16A and FIG. 16B have been described on the assumption that processing related to sound data (conversion to sound data 220, zenith correction, encoding, decoding) is performed by the photographing apparatus 1. However, a configuration in which at least a part of the processing related to the sound data is performed by the communication terminal 5 may be used. In this case, for example, the communication terminal 5 may be configured to perform zenith correction according to the inclination angle data 250 on the sound data 220 acquired from the imaging device 1, for example, when viewing the omnidirectional video.

●第1の実施形態の処理または動作
続いて、図18乃至図25を用いて、第1の実施形態における二次元動画の生成および再生方法について説明する。図18は、第1の実施形態に係る情報処理システムにおける再生用データの生成処理の一例を示すシーケンス図である。
Processing or Operation of the First Embodiment Next, a method for generating and playing back a two-dimensional moving image according to the first embodiment will be described with reference to FIGS. FIG. 18 is a sequence diagram illustrating an example of reproduction data generation processing in the information processing system according to the first embodiment.

まず、ステップS201において、撮影装置1の通信部11は、画像・音処理部17によって生成した撮影データファイル200を、通信端末5へ送信する。なお、撮影データファイル200は、図15乃至図17により説明した方法によって、画像・音処理部17によって生成される。撮影データファイル200は、撮影装置1によって被写体が撮影されて取得された全天球動画のデータであり、図12に示したように、全天球画像データ210、音データ220、三次元音データ230および傾斜角データ250を含む。   First, in step S <b> 201, the communication unit 11 of the photographing apparatus 1 transmits the photographing data file 200 generated by the image / sound processing unit 17 to the communication terminal 5. The image data file 200 is generated by the image / sound processor 17 by the method described with reference to FIGS. The photographic data file 200 is omnidirectional video data obtained by photographing the subject by the photographic device 1, and as shown in FIG. 12, omnidirectional image data 210, sound data 220, three-dimensional sound data. 230 and tilt angle data 250.

ステップS202において、通信端末5の画像・音処理部56は、通信部51によって受信された撮影データファイル200から基準情報を取得する。基準情報は、撮影データファイル200に含まれる全天球画像データ210を、通信端末5のディスプレイ517に平面画像として表示させるためのメタデータである。基準情報は、例えば、画像データの表示範囲方向の角度θS、画角αおよび表示画像の奥行z等を含む。 In step S <b> 202, the image / sound processing unit 56 of the communication terminal 5 acquires reference information from the shooting data file 200 received by the communication unit 51. The reference information is metadata for causing the omnidirectional image data 210 included in the captured data file 200 to be displayed as a planar image on the display 517 of the communication terminal 5. The reference information includes, for example, the angle θ S in the display range direction of the image data, the angle of view α, the depth z of the display image, and the like.

図19(a)は、通信端末5に表示される画像の概略を説明するための図である。通信端末5は、図19(a)に示す視野範囲の画像をディスプレイ517に表示させる。視野範囲は、仮想カメラICの撮影領域であって、表示範囲方向と画角αによって特定される。視野範囲は、図5に示した所定領域Tに対応するものである。表示範囲方向は、図5で説明したように、全天球画像データ210を含む三次元の仮想空間における仮想カメラICの撮影方向(撮影方向の基準位置)である。表示範囲方向の角度θsは、仮想カメラICにおける全天球画像の撮影方向の基準位置から表示範囲方向までの角度である。図19(a)において、表示範囲方向の角度θsは、0°である。 FIG. 19A is a diagram for explaining an outline of an image displayed on the communication terminal 5. The communication terminal 5 causes the display 517 to display an image in the visual field range shown in FIG. The visual field range is a shooting area of the virtual camera IC, and is specified by the display range direction and the angle of view α. The visual field range corresponds to the predetermined region T shown in FIG. The display range direction is the shooting direction (reference position of the shooting direction) of the virtual camera IC in the three-dimensional virtual space including the omnidirectional image data 210 as described with reference to FIG. The angle θ s in the display range direction is an angle from the reference position in the shooting direction of the omnidirectional image in the virtual camera IC to the display range direction. In FIG. 19A, the angle θ s in the display range direction is 0 °.

ステップS203において、通信端末5の表示制御部53は、ディスプレイ517に画像を表示させる。図19(b)は、通信端末5に表示される表示画像の一例である。図19(b)に示す表示画面6000は、図19(a)に示した視野範囲における画像である。   In step S <b> 203, the display control unit 53 of the communication terminal 5 displays an image on the display 517. FIG. 19B is an example of a display image displayed on the communication terminal 5. A display screen 6000 shown in FIG. 19B is an image in the visual field range shown in FIG.

ステップS204において、通信端末5の受付部52は、表示画面6000に対するクロップ範囲指定操作を受け付ける(受付ステップの一例)。具体的には、受付部52は、図19(b)に示した表示画面6000の下部に表示されるクロップ画像のアイコンの選択を受け付ける。表示制御部53は、受付部52によってクロップ画像のアイコンの選択が受け付けられた場合、表示画面6000に、図20(a)に示すクロップ範囲6100を表示させる。そして、受付部52は、図20(a)に示すクロップ範囲6100に対するクロップ範囲指定操作を受け付けることにより、クロップ範囲を指定する。   In step S204, the reception unit 52 of the communication terminal 5 receives a crop range designation operation for the display screen 6000 (an example of a reception step). Specifically, the accepting unit 52 accepts selection of a crop image icon displayed at the bottom of the display screen 6000 shown in FIG. When the selection of the crop image icon is received by the reception unit 52, the display control unit 53 displays the crop range 6100 shown in FIG. 20A on the display screen 6000. Then, the accepting unit 52 designates the crop range by accepting a crop range designation operation for the crop range 6100 shown in FIG.

クロップ範囲指定操作は、例えば、クロップ範囲6100に対するタップ、ドラッグ、スワイプ、ピンチイン、ピンチアウト等の特定の入力操作である。また、クロップ範囲は、図20(b)に示すように、全天球画像データの視野範囲における所定の領域である。通信端末5の利用者は、クロップ範囲6100に対するクロップ範囲指定操作を行うことによって、クロップ範囲6100の移動、およびクロップ範囲6100の拡大もしくは縮小を行うことができる。   The crop range designation operation is, for example, a specific input operation such as tap, drag, swipe, pinch-in, and pinch-out for the crop range 6100. The crop range is a predetermined region in the field of view of the omnidirectional image data as shown in FIG. The user of the communication terminal 5 can move the crop range 6100 and enlarge or reduce the crop range 6100 by performing a crop range designation operation on the crop range 6100.

ステップS205において、通信端末5の画像データ管理部61は、全天球画像におけるクロップ画像の表示方向を特定する。クロップ画像の表示方向は、全天球画像における、指定されたクロップ範囲6100の画像であるクロップ画像6200の位置を示す。   In step S205, the image data management unit 61 of the communication terminal 5 specifies the display direction of the cropped image in the omnidirectional image. The display direction of the crop image indicates the position of the crop image 6200 that is an image in the specified crop range 6100 in the omnidirectional image.

ここで、図21および図22を用いて、クロップ画像の表示方向の特定処理について説明する。まず、画像データ管理部61は、図21(a)に示すように、クロップ画像6200の座標情報を算出する。クロップ画像6200の座標情報は、通信端末5に表示された視野領域における平面画像(XY平面)上の座標データである。画像データ管理部61は、クロップ画像6200のX座標の最大値(Xmax)および最小値(Xmin)、並びにY座標の最大値(Ymax)および最小値(Ymin)を算出する。   Here, the specifying process of the display direction of the cropped image will be described with reference to FIGS. 21 and 22. First, the image data management unit 61 calculates coordinate information of the cropped image 6200 as shown in FIG. The coordinate information of the crop image 6200 is coordinate data on a planar image (XY plane) in the visual field area displayed on the communication terminal 5. The image data management unit 61 calculates the maximum value (Xmax) and minimum value (Xmin) of the X coordinate of the cropped image 6200, and the maximum value (Ymax) and minimum value (Ymin) of the Y coordinate.

次に、画像データ管理部61は、算出したクロップ画像6200の座標情報を用いて、クロップ画像6200の中心座標C(X,Y)を算出する。図22は、図21(a)に示すクロップ画像6200のパラメータの一例を示す図である。図22に示すパラメータは、クロップ画像6200を特定するためのパラメータであり、ステップS201で取得した表示画面6000の基準情報、およびクロップ画像6200の座標情報を含む。図21(a)に示す表示画面6000は、水平方向の画角αが120°、奥行zが0.5、表示範囲方向の角度θsが0°である。また、図21(a)に示すクロップ画像6200の座標情報は、X座標(Xmax,Xmin)=(0.95,−0.45)、Y座標(Ymax,Ymin)=(−0.20,0.20)である。さらに、図21(a)に示すクロップ画像の中心位置の座標情報C(X,Y)は、(0.25,0)である。 Next, the image data management unit 61 calculates the center coordinates C (X, Y) of the crop image 6200 using the calculated coordinate information of the crop image 6200. FIG. 22 is a diagram illustrating an example of parameters of the crop image 6200 illustrated in FIG. The parameters shown in FIG. 22 are parameters for specifying the crop image 6200, and include the reference information of the display screen 6000 acquired in step S201 and the coordinate information of the crop image 6200. A display screen 6000 shown in FIG. 21A has a horizontal field angle α of 120 °, a depth z of 0.5, and a display range direction angle θ s of 0 °. Further, the coordinate information of the cropped image 6200 shown in FIG. 21A includes X coordinate (Xmax, Xmin) = (0.95, −0.45), Y coordinate (Ymax, Ymin) = (− 0.20, 0.20). Furthermore, the coordinate information C (X, Y) of the center position of the cropped image shown in FIG. 21A is (0.25, 0).

そして、画像データ管理部61は、算出したクロップ画像6200の座標情報を用いて、クロップ画像の表示方向の角度θを算出する。クロップ画像の表示方向の角度θは、クロップ画像に対する画像仮想カメラICにおける全天球画像の撮影方向の基準位置からクロップ画像の表示方向までの角度である。   Then, the image data management unit 61 calculates the angle θ in the display direction of the cropped image using the calculated coordinate information of the cropped image 6200. The crop image display direction angle θ is an angle from the reference position in the shooting direction of the omnidirectional image in the image virtual camera IC to the crop image to the display direction of the crop image.

図21(b)は、クロップ画像の表示方向の角度θの算出方法の概略を説明するための図である。図21(b)に示すように、aは、XZ平面における仮想カメラICにおける全天球画像の撮影方向の基準位置からクロップ画像6200の中心位置までの距離である。zは、表示画面6000の奥行である。クロップ画像6200の表示角度θは、式4を用いて算出される。   FIG. 21B is a diagram for explaining an outline of a method for calculating the angle θ in the display direction of the cropped image. As shown in FIG. 21B, a is the distance from the reference position in the shooting direction of the omnidirectional image in the virtual camera IC on the XZ plane to the center position of the cropped image 6200. z is the depth of the display screen 6000. The display angle θ of the crop image 6200 is calculated using Equation 4.

図21(a)に示すクロップ画像6200の場合、a=0.25、z=0.5であるため、θは、22.5°である。このように、画像データ管理部61は、クロップ画像6200の表示方向の角度θを算出することによって、クロップ画像6200の表示方向を特定する。)   In the case of the cropped image 6200 shown in FIG. 21A, since a = 0.25 and z = 0.5, θ is 22.5 °. In this manner, the image data management unit 61 specifies the display direction of the crop image 6200 by calculating the angle θ of the display direction of the crop image 6200. )

なお、ステップS204におけるクロップ範囲指定操作は、図20に示したようなクロップ範囲6100を四角形で示される形状で指定する操作のみならず、中心位置を指定する操作であっても良い。つまり、範囲を形状で示すのではなく、表示画面6000に表示されている全天球画像における所定の表示方向(位置)を指定する構成であってもよい。通信端末5の受付部52は、全天球画像における所定の表示方向(位置)の指定を受け付ける。この場合、範囲は、予め設定されている形状や大きさ(例えば、4:3、16:9等の二次元表示に適した大きさが設定されていればよい。)で範囲指定がなされる。これにより、図18に示したステップS204およびステップS205の処理が集約され、ユーザによる全天球画像における所定の表示方向(位置)を指定する処理となる。   Note that the crop range designation operation in step S204 may be an operation for designating the center position as well as an operation for designating the crop range 6100 as shown in FIG. In other words, a configuration may be used in which a predetermined display direction (position) in the omnidirectional image displayed on the display screen 6000 is designated instead of showing the range in shape. The accepting unit 52 of the communication terminal 5 accepts designation of a predetermined display direction (position) in the omnidirectional image. In this case, the range is designated by a preset shape and size (for example, a size suitable for two-dimensional display such as 4: 3, 16: 9, etc. may be set). . Thereby, the processing of step S204 and step S205 shown in FIG. 18 is integrated, and processing for designating a predetermined display direction (position) in the omnidirectional image by the user is performed.

ステップS206において、通信端末5の音データ管理部62は、特定されたクロップ画像6200の表示方向に基づいて、三次元音データ230における音源方向を特定する。具体的には、音データ管理部62は、算出されたクロップ画像6200の表示方向の角度θに対応する音源方向の角度θ0を算出する。音源方向の角度θ0は、「θs(表示範囲方向の角度)+θ(クロップ画像6200の表示方向の角度)」で表される値である。この場合において、表示範囲方向の角度θs=0°であるため、クロップ画像6200の表示方向に対応する音源方向の角度θ0は、θ0=θとなる。 In step S <b> 206, the sound data management unit 62 of the communication terminal 5 identifies the sound source direction in the three-dimensional sound data 230 based on the identified display direction of the cropped image 6200. Specifically, the sound data management unit 62 calculates a sound source direction angle θ 0 corresponding to the calculated crop image 6200 display direction angle θ. The angle θ 0 in the sound source direction is a value represented by “θ s (angle in the display range direction) + θ (angle in the display direction of the cropped image 6200)”. In this case, since the angle θ s in the display range direction is 0 °, the angle θ 0 in the sound source direction corresponding to the display direction of the cropped image 6200 is θ 0 = θ.

そして、音データ管理部62は、算出した音源方向を基準とした左右のチャンネル方向の角度θ1およびθ2を算出する。音データ管理部62は、クロップ画像6200の表示方向に対応する音源方向を基準として等間隔に離れた二つの方向を、再生用音データ650の音源方向として特定する。具体的には、音データ管理部62は、図23に示すように、例えば、クロップ画像6200の表示方向に対応する音源方向から−45°方向の左ch(チャンネル)のチャンネル方向の角度θ1、クロップ画像6200の表示方向に対応する音源方向から+45°方向の右ch(チャンネル)のチャンネル方向の角度θ2を算出する。図21(a)に示すクロップ画像6200の場合、θ1は、θ0−45°であるため、θ1=−22.5°となる。一方で、θ2は、θ0+45°であるため、θ2=67.5°となる。 Then, the sound data management unit 62 calculates the angles θ 1 and θ 2 in the left and right channel directions with reference to the calculated sound source direction. The sound data management unit 62 specifies two directions separated at equal intervals with reference to the sound source direction corresponding to the display direction of the crop image 6200 as the sound source direction of the reproduction sound data 650. Specifically, as shown in FIG. 23, the sound data management unit 62, for example, the angle θ 1 in the channel direction of the left ch (channel) in the −45 ° direction from the sound source direction corresponding to the display direction of the crop image 6200. Then, the angle θ 2 in the channel direction of the right ch (channel) in the + 45 ° direction from the sound source direction corresponding to the display direction of the crop image 6200 is calculated. In the case of the cropped image 6200 shown in FIG. 21A, θ 1 is θ 0 −45 °, and θ 1 = −22.5 °. On the other hand, since θ 2 is θ 0 + 45 °, θ 2 = 67.5 °.

音データ管理部62は、クロップ画像6200の表示方向に対応する音源方向から左チャンネル方向までの角度と、クロップ画像6200の表示方向に対応する音源方向から右チャンネル方向までの角度の和が90°になるように、θ1とθ2を算出する。なお、クロップ画像6200の表示方向に対応する音源方向から左チャンネル方向までの角度と、クロップ画像6200の表示方向に対応する音源方向から右チャンネル方向までの角度の和は、90°に限られず、クロップ画像6200の表示方向に対応する音源方向から左右のチャンネル方向までの角度が略同一であればよい。このように、音データ管理部62は、二チャンネル分の音源方向の角度θ1、θ2を算出することによって、三次元音データ230における音源方向として、再生用音データ650の音源方向を特定する。 The sound data management unit 62 calculates the sum of the angle from the sound source direction corresponding to the display direction of the crop image 6200 to the left channel direction and the angle from the sound source direction corresponding to the display direction of the crop image 6200 to the right channel direction is 90 °. Θ 1 and θ 2 are calculated so that Note that the sum of the angle from the sound source direction corresponding to the display direction of the crop image 6200 to the left channel direction and the angle from the sound source direction corresponding to the display direction of the crop image 6200 to the right channel direction is not limited to 90 °. The angles from the sound source direction corresponding to the display direction of the cropped image 6200 to the left and right channel directions may be substantially the same. Thus, the sound data management unit 62 specifies the sound source direction of the reproduction sound data 650 as the sound source direction in the three-dimensional sound data 230 by calculating the angles θ 1 and θ 2 of the sound source direction for two channels. To do.

ステップS207において、通信端末5の音データ管理部62は、再生用音データ650のチャンネル角を決定する。具体的には、音データ管理部62は、算出した再生用音データ650のチャンネル方向の角度θ1、θ2から、チャンネル角θL、θRを決定する。図24に示すように、θLは、二次元ステレオ音声の左chの角度であり、θRは、二次元ステレオ音声の右chの角度である。音データ管理部62は、左chの音源方向の角度θ1を、撮影方向の基準位置から左回りの角度に変換したチャンネル角θLを決定する。同様に、音データ管理部62は、右chの音源方向の角度θ2を、撮影方向の基準位置から左回りの角度に変換したチャンネル角θRを決定する。 In step S207, the sound data management unit 62 of the communication terminal 5 determines the channel angle of the reproduction sound data 650. Specifically, the sound data management unit 62 determines the channel angles θ L and θ R from the calculated angles θ 1 and θ 2 of the reproduction sound data 650 in the channel direction. As shown in FIG. 24, θ L is the angle of the left channel of the two-dimensional stereo sound, and θ R is the angle of the right channel of the two-dimensional stereo sound. The sound data management unit 62 determines the channel angle θ L obtained by converting the angle θ 1 in the sound source direction of the left channel into a counterclockwise angle from the reference position in the shooting direction. Similarly, the sound data management unit 62 determines the channel angle θ R obtained by converting the angle θ 2 in the sound source direction of the right channel into a counterclockwise angle from the reference position in the shooting direction.

ステップS208において、再生用データ生成部63は、通信端末5で再生するための再生用データを生成する(生成ステップの一例)。具体的には、再生用データ生成部63は、決定された再生用音データのチャンネル角に対応する再生用音データを生成する。   In step S208, the reproduction data generation unit 63 generates reproduction data for reproduction by the communication terminal 5 (an example of a generation step). Specifically, the reproduction data generation unit 63 generates reproduction sound data corresponding to the determined channel angle of the reproduction sound data.

図25は、第1の実施形態における再生用音データを生成するためのパラメータの一例を示す図である。図25に示すパラメータは、図14に示した再生用データファイル600に含まれる1フレーム分の再生用音データ650を作成するためのパラメータである。図25に示すパラメータは、上述したθ、θ0、角度θ1、角度θ2、左ch角度θLおよび右ch角度θRのデータを含む。 FIG. 25 is a diagram illustrating an example of parameters for generating sound data for reproduction in the first embodiment. The parameters shown in FIG. 25 are parameters for creating the reproduction sound data 650 for one frame included in the reproduction data file 600 shown in FIG. The parameters shown in FIG. 25 include data on the above-described θ, θ 0 , angle θ 1 , angle θ 2 , left ch angle θ L and right ch angle θ R.

左chの角度θLは、22.5°であり、右chの角度θRは、292.5°である。再生用データ生成部63は、式5を用いて再生用音データ650を生成する。 The left channel angle θ L is 22.5 °, and the right channel angle θ R is 292.5 °. The reproduction data generation unit 63 generates reproduction sound data 650 using Expression 5.

W、X、Yは、アンビソニックスのBフォーマットのパラメータである。W、X、Yのパラメータは、図16に示した方法によって、撮影データファイル200に含まれる音データ220を用いて算出することができる。pは、所定の方向を指し示す所定の一次極パターン(無指向性、カーディオイド、ハイパーカーディオイド、8の字形等)を得るためのパラメータである。pのパラメータに対応する一次極パターンは、表1に記載する。そのため、右chの音データML(θL,p)と左chの音データMR(θR,p)に用いられるW,X,Y,Z,pの値は、同じ値である。なお、pの値は、取得(生成)したい音のパターンに応じて適宜設定または変更可能である。 W, X and Y are parameters of the B format of Ambisonics. The W, X, and Y parameters can be calculated using the sound data 220 included in the photographic data file 200 by the method shown in FIG. p is a parameter for obtaining a predetermined primary pole pattern (omnidirectional, cardioid, hypercardioid, figure-eight, etc.) indicating a predetermined direction. The primary pole pattern corresponding to the parameter of p is listed in Table 1. Therefore, the values of W, X, Y, Z, and p used for the right ch sound data M LL , p) and the left ch sound data M RR , p) are the same value. Note that the value of p can be set or changed as appropriate according to the sound pattern desired to be acquired (generated).

再生用データ生成部63は、式5によって、右chの音データML(θL,p)、左chの音データMR(θR,p)の2ch分の音データを生成する。このように、再生用データ生成部63は、クロップ画像6200の表示方向に基づく角度情報と、三次元音データ230の配列との積によって、再生用音データ650を生成することができる。 The reproduction data generation unit 63 generates sound data for two channels of right-channel sound data M LL , p) and left-channel sound data M RR , p) according to Equation 5. As described above, the reproduction data generation unit 63 can generate the reproduction sound data 650 based on the product of the angle information based on the display direction of the cropped image 6200 and the arrangement of the three-dimensional sound data 230.

そして、再生用データ生成部63は、生成した再生用音データ650を、対応するフレームのクロップ画像データ610に関連づけて再生用データを生成する。再生用音データML(θL,p)とMR(θR,p)は、図14に示した再生用音データ650の1フレーム分の音データ(LとR)に対応する。 Then, the reproduction data generation unit 63 generates reproduction data by associating the generated reproduction sound data 650 with the crop image data 610 of the corresponding frame. The reproduction sound data M LL , p) and M RR , p) correspond to sound data (L and R) for one frame of the reproduction sound data 650 shown in FIG.

ステップS209において、記憶・読出部57は、再生用データ生成部63によって生成された再生用データを、再生用データファイル600として、記憶部5000に記憶させる。   In step S209, the storage / readout unit 57 causes the storage unit 5000 to store the reproduction data generated by the reproduction data generation unit 63 as the reproduction data file 600.

ステップS210において、通信端末5の表示制御部53および音再生部54は、再生用データファイル600に含まれるクロップ画像データ610の表示、および再生用音データ650の再生を行う。このように、通信端末5は、生成した再生用データを、1フレームごとに再生していくことで、全天球動画の所定の範囲を二次元動画として再生させることができる。   In step S <b> 210, the display control unit 53 and the sound reproduction unit 54 of the communication terminal 5 display the crop image data 610 included in the reproduction data file 600 and reproduce the reproduction sound data 650. Thus, the communication terminal 5 can reproduce the predetermined range of the omnidirectional moving image as a two-dimensional moving image by reproducing the generated reproduction data for each frame.

なお、上記の説明において、撮影装置1による撮影処理によって全天球画像を取得する例を説明したが、撮影装置1によって取得される画像は、全天球画像に限られず、所定値以上の画角を有する広角画像であればよい。この場合、広角画像は、広角カメラやステレオカメラ等の撮影装置1によって取得される。すなわち、撮影装置1は、所定値より焦点距離の短いレンズを用いて撮影された画像(全天球画像、広角画像)を取得可能な撮影手段であればよい。   In the above description, the example in which the omnidirectional image is acquired by the imaging process by the imaging device 1 has been described. However, the image acquired by the imaging device 1 is not limited to the omnidirectional image, and an image of a predetermined value or more. Any wide-angle image having a corner may be used. In this case, the wide-angle image is acquired by the photographing apparatus 1 such as a wide-angle camera or a stereo camera. That is, the imaging device 1 may be an imaging unit that can acquire an image (omnidirectional image, wide-angle image) captured using a lens having a focal length shorter than a predetermined value.

●第1の実施形態の効果
したがって、第1の実施形態に係る情報処理システムは、全天球動画の所定の領域を二次元動画に変換した場合、二次元画像データに付随した二次元音データを生成することができる。
Effect of First Embodiment Accordingly, when the information processing system according to the first embodiment converts a predetermined area of the omnidirectional video into a two-dimensional video, the two-dimensional sound data attached to the two-dimensional image data. Can be generated.

●第1の実施形態の変形例1●
続いて、第1の実施形態の変形例1について説明する。上記の第1の実施形態において、撮影装置1によって被写体を撮影して取得された全天球動画から。被写体の一部を含む二次元動画を生成する処理を説明したが、撮影装置1によって撮影される画像または通信端末5によって再生される画像は、静止画であってもよい。この場合、撮影装置1の記憶部1000に記憶される撮影データファイル200(図12参照)に変えて、図31に示す撮影データファイル200aが記憶されている。図31は、第1の実施形態の変形例1に係る撮影データの一例を示す図である。図31に示す撮影データファイル200aは、静止画としての全天球画像データ210aが所定のフォーマットで記憶しており、撮影時間を基準として、音データ220a、三次元音データ230aおよび傾斜角データ250aがそれぞれ記憶している。これにより、撮影装置1は、静止画としての全天球画像を撮影しながら、適切な時間、音データを記録することができる。なお、全天球画像データ210aは、図31のように同じ画像を記録してもよいし、時間の経過毎に異なる画像を記録してもよい。
● Modification 1 of the first embodiment ●
Subsequently, Modification 1 of the first embodiment will be described. In the first embodiment, from the omnidirectional video obtained by photographing the subject by the photographing device 1. Although the process of generating a two-dimensional moving image including a part of the subject has been described, the image captured by the imaging device 1 or the image reproduced by the communication terminal 5 may be a still image. In this case, a shooting data file 200a shown in FIG. 31 is stored instead of the shooting data file 200 (see FIG. 12) stored in the storage unit 1000 of the shooting apparatus 1. FIG. 31 is a diagram illustrating an example of shooting data according to the first modification of the first embodiment. The photographic data file 200a shown in FIG. 31 stores omnidirectional image data 210a as a still image in a predetermined format, and the sound data 220a, the three-dimensional sound data 230a, and the tilt angle data 250a are based on the photographing time. Remember each. Thereby, the imaging device 1 can record sound data for an appropriate time while capturing an omnidirectional image as a still image. As the omnidirectional image data 210a, the same image may be recorded as shown in FIG. 31, or a different image may be recorded every time.

また、通信端末5の記憶部5000には、再生用データファイル600(図14参照)に変えて、図32に示す再生用データファイル600aが記憶されている。図32に示す再生用データファイル600aは、静止画としてのクロップ画像データ610aが所定のフォーマットで記憶しており、1フレームごとに再生用音データ650aが記憶している。これにより、通信端末5は、静止画を再生しながら、適切な時間、音データを再生することができる。なお、クロップ画像データ610aは、図32のように同じ画像であってもよいし、時間の経過毎に異なる画像であってもよい。   The storage unit 5000 of the communication terminal 5 stores a reproduction data file 600a shown in FIG. 32 instead of the reproduction data file 600 (see FIG. 14). In the reproduction data file 600a shown in FIG. 32, crop image data 610a as a still image is stored in a predetermined format, and reproduction sound data 650a is stored for each frame. Thereby, the communication terminal 5 can reproduce sound data for an appropriate time while reproducing a still image. Note that the crop image data 610a may be the same image as shown in FIG. 32, or may be an image that changes with the passage of time.

なお、通信端末5の表示制御部53は、撮影装置1によって取得された静止画としての全天球画像に基づいて生成された、静止画としての二次元画像を再生する構成であってもよい。また、通信端末5の表示制御部53は、撮影装置1によって取得された全天球動画に基づいて生成された、静止画としての二次元画像を再生する構成であってもよい。   The display control unit 53 of the communication terminal 5 may be configured to reproduce a two-dimensional image as a still image generated based on the omnidirectional image as a still image acquired by the imaging device 1. . The display control unit 53 of the communication terminal 5 may be configured to reproduce a two-dimensional image as a still image generated based on the omnidirectional video acquired by the imaging device 1.

●第1の実施形態の変形例2●
続いて、第1の実施形態の変形例2について説明する。上記の第1の実施形態は、再生用データとして、クロップ画像データ610(二次元画像データの一例)と、音源方向が特定された再生用音データ650(二次元音データの一例)が生成される例を説明したが、通信端末5は、クロップ画像データ610を生成せずに、再生用音データ650のみを生成する構成であってもよい。ユーザが特定したクロップ範囲によるクロップされる二次元画像データは、撮影装置1によって撮影されて取得された全天球画像データの一部である。そのため、通信端末5は、予めクロップ範囲を記憶しておき、図18に示した処理により、音源方向が特定された再生用音データ650のみを生成する。通信端末5は、再生用データを再生する場合、クロップ範囲として特定された表示方向(位置)から表示範囲の変更を受け付けないようにし、生成された再生用音データ650と併せて再生する。これにより、通信端末5は、二次元画像データを生成する処理を行う必要が無いため、処理時間およびデータ量を削減することができる。
● Modification 2 of the first embodiment ●
Then, the modification 2 of 1st Embodiment is demonstrated. In the first embodiment, crop image data 610 (an example of two-dimensional image data) and reproduction sound data 650 (an example of two-dimensional sound data) in which a sound source direction is specified are generated as reproduction data. However, the communication terminal 5 may generate only the reproduction sound data 650 without generating the crop image data 610. The two-dimensional image data cropped by the crop range specified by the user is a part of the omnidirectional image data captured and acquired by the imaging device 1. Therefore, the communication terminal 5 stores the cropping range in advance, and generates only the reproduction sound data 650 in which the sound source direction is specified by the process shown in FIG. When reproducing the reproduction data, the communication terminal 5 does not accept the change of the display range from the display direction (position) specified as the crop range, and reproduces it together with the generated reproduction sound data 650. Thereby, since the communication terminal 5 does not need to perform the process which produces | generates two-dimensional image data, it can reduce processing time and data amount.

●第2の実施形態●
次に、第2の実施形態に係る情報処理システムついて説明する。なお、第1の実施形態と同一構成および同一機能は、同一の符号を付して、その説明を省略する。第2の実施形態に係る情報処理システムは、画像処理サーバ7が、二次元音データの生成を行う。そのため、第2の実施形態に係る情報処理システムは、通信端末5Aの処理負担を低減しつつ、二次元画像データに付随した二次元音データを生成することができる。
● Second embodiment ●
Next, an information processing system according to the second embodiment will be described. The same configurations and functions as those in the first embodiment are denoted by the same reference numerals, and the description thereof is omitted. In the information processing system according to the second embodiment, the image processing server 7 generates two-dimensional sound data. Therefore, the information processing system according to the second embodiment can generate two-dimensional sound data attached to the two-dimensional image data while reducing the processing burden on the communication terminal 5A.

●システム構成
まずは、図26を用いて、第2の実施形態の情報処理システムの構成の概略について説明する。図26は、第2の実施形態に係る情報処理システムのシステム構成の一例を示す図である。図26に示すように、第2の実施形態の情報処理システムは、第1の実施形態に係る構成に、更に画像処理サーバ7が追加されている。通信端末5Aと画像処理サーバ7は、インターネットやイントラネット等の通信ネットワーク100を介して相互通信することができる。
System Configuration First, an outline of the configuration of the information processing system according to the second embodiment will be described with reference to FIG. FIG. 26 is a diagram illustrating an example of a system configuration of an information processing system according to the second embodiment. As shown in FIG. 26, in the information processing system according to the second embodiment, an image processing server 7 is further added to the configuration according to the first embodiment. The communication terminal 5A and the image processing server 7 can communicate with each other via a communication network 100 such as the Internet or an intranet.

画像処理サーバ7は、サーバコンピュータであり、複数台のサーバコンピュータで分散して画像処理を行なう場合も含まれる。画像処理サーバ7は、撮影装置1で撮影された全天球動画データおよび通信端末5Aで表示(再生する)二次元動画のデータを記憶している。また、画像処理サーバ7は、通信端末5Aからの要求に応じて、全天球動画データに対する画像および音声処理を行い、処理データを通信端末5Aに提供する。画像処理サーバ7は、外部装置の一例である。   The image processing server 7 is a server computer, and includes a case where image processing is performed in a distributed manner by a plurality of server computers. The image processing server 7 stores omnidirectional video data captured by the imaging device 1 and two-dimensional video data displayed (reproduced) by the communication terminal 5A. Further, the image processing server 7 performs image and sound processing on the omnidirectional video data in response to a request from the communication terminal 5A, and provides the processing data to the communication terminal 5A. The image processing server 7 is an example of an external device.

●ハードウエア構成
続いて、図27を用いて、第2の実施形態における画像処理サーバ7のハードウエア構成を説明する。なお、第2の実施形態における撮影装置1および通信端末5Aのハードウエア構成は、第1の実施形態と同様の構成であるため、説明を省略する。
Hardware Configuration Next, the hardware configuration of the image processing server 7 in the second embodiment will be described with reference to FIG. Note that the hardware configurations of the imaging device 1 and the communication terminal 5A in the second embodiment are the same as those in the first embodiment, and thus the description thereof is omitted.

〇画像処理サーバのハードウエア構成
図27は、第2の実施形態に係る画像処理サーバのハードウエア構成の一例を示す図である。画像処理サーバ7は、一般的なコンピュータによって構築されている。画像処理サーバ7は、CPU701、ROM702、RAM703、HDD(Hard Disk Drive)705、メディアI/F707、ディスプレイ708、ネットワークI/F709、キーボード711、マウス712、CD−RW(Compact Disc-ReWritable)ドライブ714およびバスライン710を備えている。なお、画像処理サーバ7は、サーバとして機能するため、キーボード711やマウス712等の入力装置や、ディスプレイ708等の出力装置を備えていなくてもよい。
O Hardware Configuration of Image Processing Server FIG. 27 is a diagram illustrating an example of a hardware configuration of the image processing server according to the second embodiment. The image processing server 7 is constructed by a general computer. The image processing server 7 includes a CPU 701, ROM 702, RAM 703, HDD (Hard Disk Drive) 705, media I / F 707, display 708, network I / F 709, keyboard 711, mouse 712, CD-RW (Compact Disc-ReWritable) drive 714. And a bus line 710. Since the image processing server 7 functions as a server, the image processing server 7 may not include an input device such as the keyboard 711 and the mouse 712 and an output device such as the display 708.

CPU701は、画像処理サーバ7全体の動作を制御する。ROM702は、CPU701の駆動に用いられるプログラムを記憶する。RAM703は、CPU701のワークエリアとして使用される。HDD705は、CPU701の制御にしたがってHD704に対する各種データの読み出し、または書き込みを制御する。HD704は、プログラム等の各種データを記憶する。メディアI/F707は、フラッシュメモリ等の記録メディア706に対するデータの読み出し、または書き込み(記憶)を制御する。   The CPU 701 controls the overall operation of the image processing server 7. The ROM 702 stores a program used for driving the CPU 701. The RAM 703 is used as a work area for the CPU 701. The HDD 705 controls reading or writing of various data with respect to the HD 704 according to the control of the CPU 701. The HD 704 stores various data such as programs. The media I / F 707 controls reading or writing (storage) of data with respect to a recording medium 706 such as a flash memory.

ディスプレイ708は、カーソル、メニュー、ウィンドウ、文字、または画像等の各種情報を表示する。ネットワークI/F709は、通信ネットワーク100を利用してデータ通信をするためのインターフェースである。キーボード711は、文字、数値、各種指示等の入力のための複数のキーを備えた入力手段の一種である。マウス712は、各種指示の選択や実行、処理対象の選択、カーソルの移動等を行う入力手段の一種である。CD−RWドライブ714は、着脱可能な記録媒体の一例としてのCD−RW713に対する各種データの読み出し等を制御する。   The display 708 displays various information such as a cursor, menu, window, character, or image. A network I / F 709 is an interface for performing data communication using the communication network 100. The keyboard 711 is a kind of input means provided with a plurality of keys for inputting characters, numerical values, various instructions, and the like. The mouse 712 is a kind of input means for selecting and executing various instructions, selecting a processing target, moving a cursor, and the like. The CD-RW drive 714 controls reading of various data with respect to a CD-RW 713 as an example of a removable recording medium.

また、画像処理サーバ7は、バスライン710を備えている。バスライン710は、図32に示すCPU701等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。   Further, the image processing server 7 includes a bus line 710. The bus line 710 is an address bus, a data bus, or the like for electrically connecting each component such as the CPU 701 shown in FIG.

●機能構成
図28は、第2の実施形態に係る情報処理システムの機能構成の一例を示す図である。通信端末5Aによって実現される機能は、通信端末5に含まれる機能に加え、サーバ通信部58を含む。
Functional Configuration FIG. 28 is a diagram illustrating an example of a functional configuration of the information processing system according to the second embodiment. The functions realized by the communication terminal 5 </ b> A include a server communication unit 58 in addition to the functions included in the communication terminal 5.

サーバ通信部58は、インターネット等の通信ネットワーク100を介して、他の装置(例えば、他の通信端末5Aまたは画像処理サーバ7)との間で、各種データまたは情報の送受信を行う機能である。サーバ通信部58は、主に、図10に示した遠距離通信回路511およびCPU501の処理によって実現される。サーバ通信部58は、送信手段の一例である。   The server communication unit 58 has a function of transmitting / receiving various data or information to / from other devices (for example, another communication terminal 5A or the image processing server 7) via the communication network 100 such as the Internet. The server communication unit 58 is realized mainly by the processing of the long-range communication circuit 511 and the CPU 501 shown in FIG. The server communication unit 58 is an example of a transmission unit.

画像処理サーバ7によって実現される機能は、通信部71、画像・音処理部72、判断部73、記憶・読出部74および記憶部7000を含む。   The functions realized by the image processing server 7 include a communication unit 71, an image / sound processing unit 72, a determination unit 73, a storage / reading unit 74, and a storage unit 7000.

通信部71は、通信ネットワーク100を介して、他の装置(例えば、他のサーバまたは通信端末5A)との間で各種データまたは情報の送受信を行う機能である。通信部71は、主に、図27に示したネットワークI/F709およびCPU701の処理によって実現される。   The communication unit 71 has a function of transmitting / receiving various data or information to / from another device (for example, another server or the communication terminal 5A) via the communication network 100. The communication unit 71 is mainly realized by the processing of the network I / F 709 and the CPU 701 illustrated in FIG.

画像・音処理部72は、通信端末5Aから送られてきた各種データに対して、各種処理を行う機能である。画像・音処理部72は、主に、図27に示したCPU701からの命令によって実現される。   The image / sound processing unit 72 is a function for performing various processes on various data transmitted from the communication terminal 5A. The image / sound processor 72 is mainly realized by a command from the CPU 701 shown in FIG.

判断部73は、図27に示したCPU701の処理によって実現され、各種判断を行う機能である。   The determination unit 73 is realized by the processing of the CPU 701 shown in FIG.

記憶・読出部74は、記憶部7000に各種データを記憶させ、または記憶部7000から各種データを読み出す機能である。記憶・読出部74は、主に、図27に示したCPU701の処理によって実現される。記憶部7000は、主に、図27に示したROM702、HD704および記録メディア706によって実現される。また、記憶部7000は、図12に示した撮影データファイル200および図14に示した再生用データファイル600を記憶している。   The storage / reading unit 74 has a function of storing various data in the storage unit 7000 or reading various data from the storage unit 7000. The storage / reading unit 74 is mainly realized by the processing of the CPU 701 shown in FIG. The storage unit 7000 is mainly realized by the ROM 702, the HD 704, and the recording medium 706 shown in FIG. Further, the storage unit 7000 stores the shooting data file 200 shown in FIG. 12 and the reproduction data file 600 shown in FIG.

ここで、図29を用いて、画像・音処理部72の機能構成について詳細に説明する。図29は、第2の実施形態に係る画像・音処理部の詳細な機能構成の一例を示す図である。画像・音処理部72は、画像データ管理部81、音データ管理部82および再生用データ生成部83を含む。   Here, the functional configuration of the image / sound processing unit 72 will be described in detail with reference to FIG. FIG. 29 is a diagram illustrating an example of a detailed functional configuration of the image / sound processing unit according to the second embodiment. The image / sound processing unit 72 includes an image data management unit 81, a sound data management unit 82, and a reproduction data generation unit 83.

画像データ管理部81は、全天球画像データ210の表示範囲を管理、制御、保持する機能である。画像データ管理部81は、例えば、通信端末5Aの利用者によって指定された全天球画像データ210に含まれる所定の領域であるクロップ画像データ610(二次元画像データの一例)の表示方向(位置)を特定する。画像データ管理部81は、主に、図27に示したCPU701の処理によって実現される。画像データ管理部81は、表示方向特定手段の一例である。   The image data management unit 81 has a function of managing, controlling, and holding the display range of the omnidirectional image data 210. For example, the image data management unit 81 displays the display direction (position) of crop image data 610 (an example of two-dimensional image data) that is a predetermined area included in the omnidirectional image data 210 specified by the user of the communication terminal 5A. ). The image data management unit 81 is mainly realized by the processing of the CPU 701 shown in FIG. The image data management unit 81 is an example of a display direction specifying unit.

音データ管理部82は、クロップ画像データ610に対応する再生用音データ650を管理、制御、保持する機能である。音データ管理部82は、画像データ管理部81によって特定されたクロップ画像データ610の表示方向(位置)に基づいて、三次元音データ230における音源方向を特定する。音データ管理部82は、主に、図27に示したCPU701の処理によって実現される。音データ管理部82は、音源方向特定手段の一例である。   The sound data management unit 82 is a function for managing, controlling, and holding reproduction sound data 650 corresponding to the crop image data 610. The sound data management unit 82 specifies the sound source direction in the three-dimensional sound data 230 based on the display direction (position) of the crop image data 610 specified by the image data management unit 81. The sound data management unit 82 is realized mainly by the processing of the CPU 701 shown in FIG. The sound data management unit 82 is an example of a sound source direction specifying unit.

再生用データ生成部83は、通信端末5Aからの要求に応じて、記憶部7000に記憶された撮影データファイル200を用いて、再生用データファイル600を生成する機能である。再生用データ生成部83は、例えば、全天球画像データ210からクロップ画像データ610を生成するとともに、三次元音データ230から再生用音データ650を生成する。再生用データ生成部83は、主に、図27に示したCPU701の処理によって実現される。再生用データ生成部83は、生成手段の一例である。   The reproduction data generation unit 83 has a function of generating a reproduction data file 600 using the shooting data file 200 stored in the storage unit 7000 in response to a request from the communication terminal 5A. For example, the reproduction data generation unit 83 generates crop image data 610 from the omnidirectional image data 210 and also generates reproduction sound data 650 from the three-dimensional sound data 230. The reproduction data generation unit 83 is realized mainly by the processing of the CPU 701 shown in FIG. The reproduction data generation unit 83 is an example of a generation unit.

●第2の実施形態の処理または動作
続いて、図30を用いて、第2の実施形態における二次元動画の生成および再生方法について説明する。図30は、第2の実施形態に係る情報処理システムにおける再生用データの生成処理の一例を示すシーケンス図である。
Processing or Operation of Second Embodiment Next, a two-dimensional moving image generation and playback method according to the second embodiment will be described with reference to FIG. FIG. 30 is a sequence diagram illustrating an example of reproduction data generation processing in the information processing system according to the second embodiment.

ステップS301において、撮影装置1の通信部11は、画像・音処理部17によって生成した撮影データファイル200を、近距離無線通信を用いて、通信端末5Aへ送信する。なお、撮影データファイル200は、図15乃至図17により説明した方法によって、画像・音処理部17によって生成される。撮影データファイル200は、撮影装置1によって撮像された全天球動画のデータであり、図12に示したように、全天球画像データ210、音データ220、三次元音データ230および傾斜角データ250を含む。   In step S301, the communication unit 11 of the photographing apparatus 1 transmits the photographing data file 200 generated by the image / sound processing unit 17 to the communication terminal 5A using short-range wireless communication. The image data file 200 is generated by the image / sound processor 17 by the method described with reference to FIGS. The photographic data file 200 is omnidirectional video data imaged by the photographic device 1, and as shown in FIG. 12, omnidirectional image data 210, sound data 220, three-dimensional sound data 230, and tilt angle data. 250.

ステップS302において、通信端末5Aのサーバ通信部58は、通信部51によって受信された撮影データファイル200を、通信ネットワーク100を経由して、画像処理サーバ7へ送信する。   In step S <b> 302, the server communication unit 58 of the communication terminal 5 </ b> A transmits the captured data file 200 received by the communication unit 51 to the image processing server 7 via the communication network 100.

ステップS303において、画像処理サーバ7の記憶・読出部74は、通信部71によって受信された撮影データファイル200を、記憶部7000に記憶させる。   In step S <b> 303, the storage / reading unit 74 of the image processing server 7 stores the shooting data file 200 received by the communication unit 71 in the storage unit 7000.

ステップS304において、通信端末5Aの画像・音処理部56は、通信部51によって受信された撮影データファイル200から基準情報を取得する。ステップS305において、通信端末5Aの表示制御部53は、ディスプレイ517に画像(例えば、表示画面6000)を表示させる。ステップS306において、通信端末5Aの受付部52は、表示画面6000に対するクロップ範囲指定操作を受け付ける。なお、ステップS304〜ステップS306の処理は、図18で示したステップS202〜ステップS204の処理と同様である。   In step S <b> 304, the image / sound processing unit 56 of the communication terminal 5 </ b> A acquires reference information from the captured data file 200 received by the communication unit 51. In step S305, the display control unit 53 of the communication terminal 5A causes the display 517 to display an image (for example, the display screen 6000). In step S306, the accepting unit 52 of the communication terminal 5A accepts a crop range designation operation for the display screen 6000. Note that the processing from step S304 to step S306 is the same as the processing from step S202 to step S204 shown in FIG.

ステップS307において、通信端末5Aのサーバ通信部58は、クロップ画像6200の表示範囲情報を、通信ネットワーク100を経由して、画像処理サーバ7へ送信する。表示範囲情報は、クロップ画像6200の座標情報を含む。表示範囲情報は、方向情報の一例である。なお、ステップS307において、通信端末5Aのサーバ通信部58は、クロップ画像6200の表示範囲情報とともに、クロップ画像6200に対応する撮影データファイル200を、画像処理サーバ7へ送信してもよい。この場合、ステップS302の処理は、行われなくてもよい。   In step S307, the server communication unit 58 of the communication terminal 5A transmits the display range information of the cropped image 6200 to the image processing server 7 via the communication network 100. The display range information includes coordinate information of the crop image 6200. The display range information is an example of direction information. Note that in step S307, the server communication unit 58 of the communication terminal 5A may transmit the captured data file 200 corresponding to the crop image 6200 to the image processing server 7 together with the display range information of the crop image 6200. In this case, the process of step S302 may not be performed.

ステップS308において、画像処理サーバ7の画像データ管理部81は、全天球画像におけるクロップ画像6200の表示方向を特定する。ステップS308の処理は、図18で示したステップS205の処理と同様である。   In step S308, the image data management unit 81 of the image processing server 7 specifies the display direction of the cropped image 6200 in the omnidirectional image. The processing in step S308 is the same as the processing in step S205 shown in FIG.

なお、第2の実施形態に係る情報処理システムは、通信端末5Aの画像データ管理部61が、ステップS307において、クロップ画像6200の座標情報を算出する。そして、画像処理サーバ7の画像データ管理部81は、ステップS308において、クロップ画像6200の中心座標C(X,Y)を算出し、算出したクロップ画像6200の座標情報を用いてクロップ画像の表示方向θを算出する。   In the information processing system according to the second embodiment, the image data management unit 61 of the communication terminal 5A calculates the coordinate information of the crop image 6200 in step S307. In step S308, the image data management unit 81 of the image processing server 7 calculates the center coordinates C (X, Y) of the crop image 6200, and uses the calculated coordinate information of the crop image 6200 to display the crop image display direction. θ is calculated.

ステップS309において、画像処理サーバ7の音データ管理部82は、特定されたクロップ画像6200の表示方向に基づいて、三次元音データ230における音源方向を特定する。ステップS310において、画像処理サーバ7の音データ管理部82は、再生用音データ650のチャンネル角を決定する。ステップS311において、画像処理サーバ7の再生用データ生成部83は、通信端末5Aで再生するための再生用データを生成する。なお、ステップS309〜ステップS311の処理は、図18で示したステップS206〜ステップS208の処理と同様である。   In step S309, the sound data management unit 82 of the image processing server 7 specifies the sound source direction in the three-dimensional sound data 230 based on the specified display direction of the cropped image 6200. In step S310, the sound data management unit 82 of the image processing server 7 determines the channel angle of the reproduction sound data 650. In step S311, the reproduction data generation unit 83 of the image processing server 7 generates reproduction data for reproduction by the communication terminal 5A. Note that the processing from step S309 to step S311 is the same as the processing from step S206 to step S208 shown in FIG.

ステップS312において、画像処理サーバ7の記憶・読出部74は、再生用データ生成部83によって生成された再生用データを、再生用データファイル600として記憶部7000に記憶させる。ステップS313において、画像処理サーバ7の通信部71は、再生用データ生成部83によって生成された再生用データを、通信ネットワーク100を経由して通信端末5Aへ送信する。なお、ステップS312の処理とステップS313の処理の順序は、前後してもよく、または並列して行われてもよい。   In step S <b> 312, the storage / reading unit 74 of the image processing server 7 stores the reproduction data generated by the reproduction data generation unit 83 in the storage unit 7000 as the reproduction data file 600. In step S313, the communication unit 71 of the image processing server 7 transmits the reproduction data generated by the reproduction data generation unit 83 to the communication terminal 5A via the communication network 100. In addition, the order of the process of step S312 and the process of step S313 may be followed, or may be performed in parallel.

ステップS314において、通信端末5Aの表示制御部53および音再生部54は、サーバ通信部58によって受信された再生用データに含まれるクロップ画像データ610の表示、および再生用音データ650の再生を行う。このように、通信端末5Aは、画像処理サーバ7によって生成された再生用データを、1フレームごとに再生していくことで、全天球動画の所定の範囲を二次元動画として表示させることができる。   In step S314, the display control unit 53 and the sound reproduction unit 54 of the communication terminal 5A display the crop image data 610 included in the reproduction data received by the server communication unit 58 and reproduce the reproduction sound data 650. . In this way, the communication terminal 5A can display the predetermined range of the omnidirectional video as a two-dimensional video by reproducing the data for reproduction generated by the image processing server 7 for each frame. it can.

●第2の実施形態の効果
したがって、第2の実施形態に係る情報処理システムは、画像処理サーバ7によって再生用データの生成処理を行うため、通信端末5Aの処理負担を低減しつつ、二次元画像データに付随した二次元音データを生成することができる。
Effect of Second Embodiment Accordingly, since the information processing system according to the second embodiment performs reproduction data generation processing by the image processing server 7, the processing load on the communication terminal 5A is reduced and two-dimensional. Two-dimensional sound data accompanying the image data can be generated.

●第2の実施形態の変形例●
続いて、第2の実施形態の変形例について説明する。上記の第2の実施形態は、通信端末5Aが撮影装置1から送信された撮影データを画像処理サーバ7へ送信する例を説明したが、通信端末5Aの記憶部5000に撮影データファイル200が記憶されている場合、通信端末5Aは、画像処理サーバ7へ撮影データを送信しなくてもよい。この場合、図30に示したステップS302の処理は省略され、ステップS307の処理において表示範囲情報とともに、撮影データファイル200に時系列で記憶されている音データ220、三次元音データ230および傾斜角データ250が、通信端末5Aから画像処理サーバ7へ送信される。そして、通信端末5Aは、再生データを再生する場合は、撮影データを指定された表示範囲で表示するとともに、画像処理サーバ7によって生成された再生データ(再生用音データ650)を再生することができる。
● Modification of the second embodiment ●
Subsequently, a modification of the second embodiment will be described. In the second embodiment described above, the communication terminal 5A transmits the shooting data transmitted from the shooting device 1 to the image processing server 7. However, the shooting data file 200 is stored in the storage unit 5000 of the communication terminal 5A. If it is, the communication terminal 5 </ b> A does not have to transmit the shooting data to the image processing server 7. In this case, the process of step S302 shown in FIG. 30 is omitted, and the sound data 220, the three-dimensional sound data 230, and the inclination angle stored in the shooting data file 200 in time series together with the display range information in the process of step S307. Data 250 is transmitted from the communication terminal 5 </ b> A to the image processing server 7. Then, when reproducing the reproduction data, the communication terminal 5A displays the photographing data in the designated display range and reproduces the reproduction data (reproduction sound data 650) generated by the image processing server 7. it can.

●まとめ●
以上説明したように、本発明の一実施形態に係る通信端末5(情報処理装置の一例)は、撮影装置1によって取得された全天球画像データ210を表示するとともに、撮影装置1によって取得された全天球画像データ210に付随して取得された三次元音データ230を再生する通信端末5であって、表示された全天球画像におけるクロップ指定操作(所定の表示方向の指定の一例)を受け付ける。そして、通信端末5は、全天球画像データ210から、クロップ範囲6100(指定された表示方向の一例)に対応するクロップ画像データ610(二次元画像データの一例)を生成するともに、三次元音データ230から、クロップ範囲6100に対応する再生用音データ650(二次元音データの一例)を生成する。これにより、通信端末5は、全天球画像の所定の領域を二次元画像として表示させる場合、二次元画像データに付随した二次元音データを生成することができる。
● Summary ●
As described above, the communication terminal 5 (an example of an information processing apparatus) according to an embodiment of the present invention displays the omnidirectional image data 210 acquired by the imaging apparatus 1 and is acquired by the imaging apparatus 1. The communication terminal 5 that reproduces the three-dimensional sound data 230 acquired along with the omnidirectional image data 210, and performs a crop designation operation on the displayed omnidirectional image (an example of designation of a predetermined display direction). Accept. Then, the communication terminal 5 generates crop image data 610 (an example of two-dimensional image data) corresponding to the crop range 6100 (an example of a designated display direction) from the omnidirectional image data 210, and also generates a three-dimensional sound. From the data 230, reproduction sound data 650 (an example of two-dimensional sound data) corresponding to the cropping range 6100 is generated. Thereby, the communication terminal 5 can produce | generate the two-dimensional sound data accompanying the two-dimensional image data, when displaying the predetermined area | region of an omnidirectional image as a two-dimensional image.

また、本発明の一実施形態に係る通信端末5(情報処理装置の一例)は、撮影装置1によって撮影された、全天球画像データ210および三次元音データ230を含む全天球動画から二次元動画を生成する通信端末5であって、全天球動画におけるクロップ指定操作(所定の領域の指定の一例)を受け付ける。そして、通信端末5は、全天球動画から、クロップ範囲6100(指定された領域の一例)に対応するクロップ画像データ610(二次元画像データの一例)を生成するともに、三次元音データ230から、クロップ範囲6100に対応する再生用音データ650(二次元音データの一例)を生成する。そのため、通信端末5は、全天球動画の所定の領域を二次元動画として再生させる場合、二次元画像データに付随した二次元音データを生成することができる。   In addition, the communication terminal 5 (an example of an information processing apparatus) according to an embodiment of the present invention is based on the omnidirectional video including the omnidirectional image data 210 and the three-dimensional sound data 230 captured by the imaging apparatus 1. A communication terminal 5 that generates a three-dimensional moving image, and accepts a crop designation operation (an example of designation of a predetermined area) in an omnidirectional moving image. Then, the communication terminal 5 generates crop image data 610 (an example of two-dimensional image data) corresponding to the crop range 6100 (an example of a designated area) from the omnidirectional video, and from the three-dimensional sound data 230. , Reproduction sound data 650 (an example of two-dimensional sound data) corresponding to the cropping range 6100 is generated. Therefore, the communication terminal 5 can generate two-dimensional sound data accompanying the two-dimensional image data when reproducing a predetermined area of the omnidirectional video as a two-dimensional video.

さらに、本発明の一実施形態に係る通信端末5(情報処理装置の一例)は、再生用音データ650(二次元音データの一例)と、クロップ画像データ610(二次元画像データの一例)とを用いて、再生用データ(二次元動画の一例)を生成し、生成した再生用データを記憶する。そして、通信端末5は、記憶された再生用データを再生する。そのため、通信端末5は、全天球動画の所定の領域を二次元動画として再生させる場合、二次元画像データに付随した二次元音データを再生することで、利用者に感じる違和感を低減させることができる。   Furthermore, the communication terminal 5 (an example of an information processing apparatus) according to an embodiment of the present invention includes a reproduction sound data 650 (an example of two-dimensional sound data), and crop image data 610 (an example of two-dimensional image data). Is used to generate reproduction data (an example of a two-dimensional moving image), and the generated reproduction data is stored. Then, the communication terminal 5 reproduces the stored reproduction data. Therefore, when the predetermined area of the omnidirectional video is reproduced as a two-dimensional video, the communication terminal 5 reduces the sense of discomfort felt by the user by reproducing the two-dimensional sound data attached to the two-dimensional image data. Can do.

また、本発明の一実施形態に係る通信端末5(情報処理装置の一例)は、全天球動画における、クロップ範囲6100(指定された領域の一例)の位置を特定する。そして、通信端末5は、特定されたクロップ範囲6100の位置に基づいて、全天球動画に含まれる三次元音データ230における音源方向を特定し、特定された音源方向、および三次元音データ230に基づいて、クロップ範囲6100に対応する再生用音データ650(二次元音データの一例)を生成する。そのため、通信端末5は、全天球動画の所定の領域を二次元動画として再生させる場合、二次元画像データの位置に対応した音源方向の二次元音データを生成することができる。   In addition, the communication terminal 5 (an example of an information processing apparatus) according to an embodiment of the present invention specifies the position of the crop range 6100 (an example of a designated area) in the omnidirectional video. Then, the communication terminal 5 specifies the sound source direction in the three-dimensional sound data 230 included in the omnidirectional video based on the position of the specified crop range 6100, and specifies the specified sound source direction and the three-dimensional sound data 230. Based on, reproduction sound data 650 (an example of two-dimensional sound data) corresponding to the cropping range 6100 is generated. Therefore, the communication terminal 5 can generate two-dimensional sound data in the sound source direction corresponding to the position of the two-dimensional image data when reproducing a predetermined region of the omnidirectional moving image as a two-dimensional moving image.

さらに、本発明の一実施形態に係る三次元音データ230は、アンビソニックスのBフォーマットに基づいて生成される立体音響データである。そのため、通信端末5(情報処理装置の一例)は、全天球動画に含まれ三次元音データ230のパラメータを用いることで、二次元画像データに付随した二次元音データを生成することができる。   Furthermore, the three-dimensional sound data 230 according to an embodiment of the present invention is stereophonic data generated based on the Ambisonics B format. Therefore, the communication terminal 5 (an example of an information processing device) can generate 2D sound data associated with 2D image data by using the parameters of the 3D sound data 230 included in the omnidirectional video. .

また、本発明の一実施形態に係る情報処理システムは、撮影装置1によって取得された全天球画像データ210を表示するとともに、撮影装置1によって取得された全天球画像データ210に付随して取得された三次元音データ230を再生する通信端末5A(情報処理装置の一例)と、通信端末5Aと通信ネットワークを経由して接続された画像処理サーバ7(外部装置の一例)とを備える情報処理システムである。通信端末5Aは、表示された全天球画像におけるクロップ指定操作(所定の表示方向の指定の一例)を受け付け、三次元音データ230、およびクロップ範囲6100(指定された表示方向の一例)を示す表示範囲情報(方向情報の一例)を、画像処理サーバ7へ送信する。そして、画像処理サーバ7は、三次元音データ230から、クロップ範囲6100に対応する再生用音データ650(二次元音データの一例)を生成する。そのため、本発明の一実施形態に係る情報処理システムは、画像処理サーバ7によって二次元音データの生成処理を行うため、通信端末5Aの処理負担を低減しつつ、二次元画像データに付随した二次元音データを生成することができる。   In addition, the information processing system according to the embodiment of the present invention displays the omnidirectional image data 210 acquired by the imaging device 1 and is attached to the omnidirectional image data 210 acquired by the imaging device 1. Information including a communication terminal 5A (an example of an information processing apparatus) that reproduces the acquired three-dimensional sound data 230, and an image processing server 7 (an example of an external apparatus) connected to the communication terminal 5A via a communication network. It is a processing system. The communication terminal 5A receives a crop designation operation (an example of designation of a predetermined display direction) in the displayed omnidirectional image, and shows the three-dimensional sound data 230 and the crop range 6100 (an example of the designated display direction). Display range information (an example of direction information) is transmitted to the image processing server 7. Then, the image processing server 7 generates reproduction sound data 650 (an example of two-dimensional sound data) corresponding to the cropping range 6100 from the three-dimensional sound data 230. Therefore, since the information processing system according to the embodiment of the present invention performs the two-dimensional sound data generation process by the image processing server 7, the processing load on the communication terminal 5A is reduced and the two-dimensional image data attached to the two-dimensional image data is reduced. Dimensional sound data can be generated.

さらに、本発明の一実施形態に係る情報処理システムは、撮影装置1によって撮影された、全天球画像データ210および三次元音データ230を含む全天球動画に基づいて生成された二次元動画を再生する通信端末5A(情報処理装置の一例)と、通信端末5Aと通信ネットワーク100を経由して接続された画像処理サーバ7(外部装置の一例)とを備える情報処理システムである。通信端末5Aは、全天球動画におけるクロップ指定操作(所定の領域の指定の一例)を受け付け、全天球動画、およびクロップ範囲6100(指定された領域の一例)を示す表示範囲情報(領域情報の一例)を、画像処理サーバ7へ送信する。そして、画像処理サーバ7は、全天球動画から、クロップ範囲6100に対応するクロップ画像データ610(二次元画像データの一例)を生成するともに、三次元音データ230から、クロップ範囲6100に対応する再生用音データ650(二次元音データの一例)を生成する。そのため、本発明の一実施形態に係る情報処理システムは、画像処理サーバ7によって二次元動画の生成処理を行うため、通信端末5Aの処理負担を低減しつつ、二次元画像データに付随した二次元音データを生成することができる。   Furthermore, the information processing system according to an embodiment of the present invention is a two-dimensional moving image generated based on a omnidirectional moving image including the omnidirectional image data 210 and the three-dimensional sound data 230 that is captured by the image capturing device 1. Is an information processing system including a communication terminal 5A (an example of an information processing apparatus) that reproduces the image and an image processing server 7 (an example of an external apparatus) connected to the communication terminal 5A via a communication network 100. The communication terminal 5A receives a crop designation operation (an example of designation of a predetermined area) in the omnidirectional video, and displays display area information (area information) indicating the omnidirectional video and the crop range 6100 (an example of the designated area). Is transmitted to the image processing server 7. Then, the image processing server 7 generates crop image data 610 (an example of two-dimensional image data) corresponding to the crop range 6100 from the omnidirectional video, and also corresponds to the crop range 6100 from the three-dimensional sound data 230. Reproduction sound data 650 (an example of two-dimensional sound data) is generated. For this reason, the information processing system according to the embodiment of the present invention performs the two-dimensional video generation process by the image processing server 7, so that the two-dimensional image attached to the two-dimensional image data is reduced while reducing the processing burden on the communication terminal 5 </ b> A. Sound data can be generated.

また、本発明の一実施形態に係るデータ生成方法は、撮影装置1によってによって取得された全天球画像データ210を表示するとともに、撮影装置1によって取得された全天球画像データ210に付随して取得された三次元音データ230を再生する通信端末5(情報処理装置の一例)が実行するデータ生成方法であって、表示された全天球画像におけるクロップ指定操作(所定の表示方向の指定の一例)を受け付ける受付ステップと、全天球画像データ210から、クロップ範囲6100(指定された表示方向の一例)に対応するクロップ画像データ610(二次元画像データの一例)を生成するともに、三次元音データ230から、クロップ範囲6100に対応する再生用音データ650(二次元音データの一例)を生成する生成ステップと、を実行する。これにより、本発明の一実施形態に係るデータ生成方法は、全天球画像の所定の領域を二次元画像として表示させる場合、二次元画像データに付随した二次元音データを生成することができる。   In addition, the data generation method according to the embodiment of the present invention displays the omnidirectional image data 210 acquired by the imaging device 1 and accompanies the omnidirectional image data 210 acquired by the imaging device 1. Is a data generation method executed by the communication terminal 5 (an example of an information processing device) that reproduces the three-dimensional sound data 230 acquired in this way, and includes a crop designation operation (designation of a predetermined display direction) in the displayed omnidirectional image And an omnidirectional image data 210, and crop image data 610 (an example of two-dimensional image data) corresponding to the crop range 6100 (an example of a designated display direction) is generated from the celestial sphere image data 210. A generation step for generating reproduction sound data 650 (an example of two-dimensional sound data) corresponding to the cropping range 6100 from the original sound data 230. And up, to run. Accordingly, the data generation method according to the embodiment of the present invention can generate two-dimensional sound data associated with two-dimensional image data when a predetermined region of the omnidirectional image is displayed as a two-dimensional image. .

さらに、本発明の一実施形態に係る動画生成方法は、撮影装置1によって撮影された、全天球画像データ210および三次元音データ230を含む全天球動画から二次元動画を生成する通信端末5(情報処理装置の一例)が実行する動画生成方法であって、全天球動画におけるクロップ指定操作(所定の領域の指定の一例)を受け付ける受付ステップと、全天球動画から、クロップ範囲6100(指定された領域の一例)に対応するクロップ画像データ610(二次元画像データの一例)を生成するともに、三次元音データ230から、クロップ範囲6100に対応する再生用音データ650(二次元音データの一例)を生成する生成ステップと、を実行する。そのため、本発明の一実施形態に係る動画生成方法は、全天球動画の所定の領域を二次元動画として再生させる場合、二次元画像データに付随した二次元音データを生成することができる。   Furthermore, the moving image generating method according to an embodiment of the present invention is a communication terminal that generates a two-dimensional moving image from an omnidirectional moving image including the omnidirectional image data 210 and the three-dimensional sound data 230 captured by the photographing apparatus 1. 5 (an example of an information processing device) is a moving image generation method executed by a reception step of accepting a crop designation operation (an example of designation of a predetermined area) in an omnidirectional video, and a crop range 6100 from the omnidirectional video. Crop image data 610 (an example of two-dimensional image data) corresponding to (an example of a designated area) is generated, and reproduction sound data 650 (a two-dimensional sound) corresponding to the crop range 6100 is generated from the three-dimensional sound data 230. Generating an example of data). Therefore, the moving image generating method according to an embodiment of the present invention can generate two-dimensional sound data associated with two-dimensional image data when a predetermined area of the omnidirectional moving image is reproduced as a two-dimensional moving image.

●補足●
なお、各実施形態の機能は、アセンブラ、C、C++、C#、Java(登録商標)等のレガシープログラミング言語やオブジェクト指向プログラミング言語等で記述されたコンピュータ実行可能なプログラムにより実現でき、各実施形態の機能を実行するためのプログラムは、電気通信回線を通じて頒布することができる。
● Supplement ●
The functions of the embodiments can be realized by a computer-executable program written in a legacy programming language such as an assembler, C, C ++, C #, Java (registered trademark), an object-oriented programming language, or the like. The program for executing the function can be distributed through a telecommunication line.

また、各実施形態の機能を実行するためのプログラムは、ROM、EEPROM、EPROM(Erasable Programmable Read-Only Memory)、フラッシュメモリ、フレキシブルディスク、CD−ROM、CD−RW、DVD−ROM、DVD−RAM、DVD−RW、ブルーレイディスク、SDカード、MO(Magneto-Optical disc)等の装置可読な記録媒体に格納して頒布することもできる。   In addition, programs for executing the functions of the embodiments are ROM, EEPROM, EPROM (Erasable Programmable Read-Only Memory), flash memory, flexible disk, CD-ROM, CD-RW, DVD-ROM, DVD-RAM. , DVD-RW, Blu-ray disc, SD card, MO (Magneto-Optical disc) and the like can be stored and distributed.

さらに、各実施形態の機能の一部または全部は、例えばFPGA(Field Programmable Gate Array)等のプログラマブル・デバイス(PD)上に実装することができ、またはASICとして実装することができ、各実施形態の機能をPD上に実現するためにPDにダウンロードする回路構成データ(ビットストリームデータ)、回路構成データを生成するためのHDL(Hardware Description Language)、VHDL(Very High Speed Integrated Circuits Hardware Description Language)、Verilog−HDL等により記述されたデータとして記録媒体により配布することができる。   Furthermore, part or all of the functions of each embodiment can be mounted on a programmable device (PD) such as an FPGA (Field Programmable Gate Array), or can be mounted as an ASIC. Circuit configuration data (bitstream data) downloaded to the PD in order to realize the above functions on the PD, HDL (Hardware Description Language) for generating the circuit configuration data, VHDL (Very High Speed Integrated Circuits Hardware Description Language), It can be distributed on a recording medium as data described in Verilog-HDL or the like.

これまで本発明の一実施形態に係る情報処理装置、情報処理システム、データ生成方法およびプログラムについて説明してきたが、本発明は上述した実施形態に限定されるものではなく、他の実施形態の追加、変更または削除等、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。   The information processing apparatus, the information processing system, the data generation method, and the program according to an embodiment of the present invention have been described so far, but the present invention is not limited to the above-described embodiment, and other embodiments are added. Any change can be made within the range that can be conceived by those skilled in the art, such as changes or deletions, and any embodiment is included in the scope of the present invention as long as the effects and advantages of the present invention are exhibited.

1 撮影装置
5 通信端末(情報処理装置の一例)
7 画像処理サーバ(外部装置の一例)
52 受付部(受付手段の一例)
53 表示制御部(再生手段の一例)
54 音再生部(再生手段の一例)
61 画像データ管理部(表示方向特定手段の一例)
62 音データ管理部(音源方向特定手段の一例)
63 再生用データ生成部(生成手段の一例)
5000 記憶部(記憶手段の一例)
1 photographing device 5 communication terminal (an example of information processing device)
7 Image processing server (an example of an external device)
52 reception part (an example of reception means)
53 Display control unit (an example of playback means)
54 sound playback unit (an example of playback means)
61 Image data management unit (an example of display direction specifying means)
62 Sound data management unit (an example of sound source direction specifying means)
63 Data generator for reproduction (an example of generating means)
5000 storage unit (an example of storage means)

特開2015−220745号公報JP 2015-220745 A

Claims (10)

撮影装置によって取得された全天球画像を表示するとともに、前記全天球画像に付随して取得された三次元音データを再生する情報処理装置であって、
表示された前記全天球画像における所定の表示方向の指定を受け付ける受付手段と、
前記全天球画像のデータから、前記指定された表示方向に対応する二次元画像データを生成するともに、前記三次元音データから、前記指定された表示方向に対応する二次元音データを生成する生成手段と、
を備える情報処理装置。
An information processing device that displays the omnidirectional image acquired by the imaging device and reproduces the three-dimensional sound data acquired accompanying the omnidirectional image,
Accepting means for accepting designation of a predetermined display direction in the displayed omnidirectional image;
Two-dimensional image data corresponding to the specified display direction is generated from the omnidirectional image data, and two-dimensional sound data corresponding to the specified display direction is generated from the three-dimensional sound data. Generating means;
An information processing apparatus comprising:
請求項1に記載の情報処理装置であって、更に、
前記生成された前記二次元画像データおよび前記二次元音データを記憶する記憶手段と、
前記記憶された前記二次元画像データおよび前記二次元音データを再生する再生手段と、を備える情報処理装置。
The information processing apparatus according to claim 1, further comprising:
Storage means for storing the generated two-dimensional image data and the two-dimensional sound data;
An information processing apparatus comprising: reproduction means for reproducing the stored two-dimensional image data and the two-dimensional sound data.
請求項1または2に記載の情報処理装置であって、更に、
前記指定された表示方向を特定する表示方向特定手段と、
前記特定された表示方向に基づいて、前記三次元音データにおける音源方向を特定する音源方向特定手段と、を備え、
前記生成手段は、前記特定された音源方向および前記三次元音データに基づいて、前記指定された表示方向に対応する二次元音データを生成する、情報処理装置。
The information processing apparatus according to claim 1, further comprising:
Display direction specifying means for specifying the specified display direction;
Sound source direction specifying means for specifying a sound source direction in the three-dimensional sound data based on the specified display direction,
The information processing apparatus generates the two-dimensional sound data corresponding to the designated display direction based on the specified sound source direction and the three-dimensional sound data.
前記音源方向特定手段は、前記表示方向から等間隔に離れた二つの方向を、前記音源方向として特定し、
前記生成手段は、前記特定した二つの前記音源方向を用いて、前記二次元音データを生成する、
請求項1乃至3のいずれか一項に記載の情報処理装置。
The sound source direction specifying means specifies two directions that are equidistant from the display direction as the sound source direction,
The generating means generates the two-dimensional sound data using the two specified sound source directions.
The information processing apparatus according to any one of claims 1 to 3.
前記生成手段は、前記二次元音データと前記二次元画像データとを用いて、二次元動画を生成し、
前記記憶手段は、前記二次元動画を記憶し、
前記再生手段は、前記記憶された二次元動画を再生する請求項2乃至4のいずれか一項に記載の情報処理装置。
The generating means generates a two-dimensional moving image using the two-dimensional sound data and the two-dimensional image data,
The storage means stores the two-dimensional video,
The information processing apparatus according to any one of claims 2 to 4, wherein the reproduction unit reproduces the stored two-dimensional moving image.
前記三次元音データは、アンビソニックスのBフォーマットに基づいて生成される立体音響データである、請求項1乃至5のいずれか一項に記載の情報処理装置。   The information processing apparatus according to any one of claims 1 to 5, wherein the three-dimensional sound data is stereophonic sound data generated based on an Ambisonics B format. 撮影装置によって取得された全天球画像を表示するとともに、前記全天球画像に付随して取得された三次元音データを再生する情報処理装置と、前記情報処理装置と通信ネットワークを経由して接続された外部装置とを備える情報処理システムであって、
前記情報処理装置は、
表示された前記全天球画像における所定の表示方向の指定を受け付ける受付手段と、
前記三次元音データ、および前記指定された表示方向を示す方向情報を、前記外部装置へ送信する送信手段と、を備え、
前記外部装置は、
前記三次元音データから、前記指定された表示方向に対応する二次元音データを生成する生成手段と、
を備える情報処理システム。
An information processing device that displays the omnidirectional image acquired by the imaging device and reproduces the three-dimensional sound data acquired accompanying the omnidirectional image, and the information processing device via the communication network An information processing system comprising a connected external device,
The information processing apparatus includes:
Accepting means for accepting designation of a predetermined display direction in the displayed omnidirectional image;
Transmitting means for transmitting the three-dimensional sound data and the direction information indicating the designated display direction to the external device;
The external device is
Generating means for generating two-dimensional sound data corresponding to the designated display direction from the three-dimensional sound data;
An information processing system comprising:
請求項7に記載の情報処理システムであって、
前記送信手段は、前記三次元音データ、前記方向情報および前記全天球画像のデータを、前記外部装置へ送信し、
前記生成手段は、前記全天球画像のデータから、前記指定された表示方向に対応する二次元画像データを生成するともに、前記三次元音データから、前記指定された表示方向に対応する二次元音データを生成する情報処理システム。
The information processing system according to claim 7,
The transmission means transmits the three-dimensional sound data, the direction information and the omnidirectional image data to the external device,
The generating means generates two-dimensional image data corresponding to the specified display direction from the data of the omnidirectional image, and also generates a two-dimensional image corresponding to the specified display direction from the three-dimensional sound data. An information processing system that generates sound data.
撮影装置によって取得された全天球画像を表示するとともに、前記全天球画像に付随して取得された三次元音データを再生する情報処理装置が実行するデータ生成方法であって、
表示された前記全天球画像における所定の表示方向の指定を受け付ける受付ステップと、、
前記全天球画像のデータから、前記指定された表示方向に対応する二次元画像データを生成するともに、前記三次元音データから、前記指定された表示方向に対応する二次元音データを生成する生成ステップと、
を実行するデータ生成方法。
A data generation method executed by an information processing apparatus that displays an omnidirectional image acquired by an imaging device and reproduces three-dimensional sound data acquired accompanying the omnidirectional image,
An accepting step of accepting designation of a predetermined display direction in the displayed omnidirectional image;
Two-dimensional image data corresponding to the specified display direction is generated from the omnidirectional image data, and two-dimensional sound data corresponding to the specified display direction is generated from the three-dimensional sound data. Generation step;
Data generation method to execute.
コンピュータに請求項9に記載の方法を実行させるプログラム。   The program which makes a computer perform the method of Claim 9.
JP2018203385A 2018-02-07 2018-10-30 Information processing unit, information processing system, data generation method and program Pending JP2019140667A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/237,790 US10817980B2 (en) 2018-02-07 2019-01-02 Information processing apparatus, information processing system, data generation method, and recording medium storing program code

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018020318 2018-02-07
JP2018020318 2018-02-07

Publications (1)

Publication Number Publication Date
JP2019140667A true JP2019140667A (en) 2019-08-22

Family

ID=67695556

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018203385A Pending JP2019140667A (en) 2018-02-07 2018-10-30 Information processing unit, information processing system, data generation method and program

Country Status (1)

Country Link
JP (1) JP2019140667A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021058635A (en) * 2013-12-05 2021-04-15 アーロン ベンジャミン アダース Technique for transportation

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021058635A (en) * 2013-12-05 2021-04-15 アーロン ベンジャミン アダース Technique for transportation

Similar Documents

Publication Publication Date Title
JP7322940B2 (en) Image communication system, image communication terminal, image communication method, program, and recording medium
JP6756269B2 (en) Communication terminals, image communication systems, communication methods, and programs
JP6805861B2 (en) Image processing equipment, image processing system, image processing method and program
US10721116B2 (en) Communication terminal, method for controlling display of image, and non-transitory computer-readable storage medium
KR102327160B1 (en) Apparatus and method for processing image received through a plurality of cameras
US20190082144A1 (en) Communication terminal, image communication system communication method, and non-transitory recording medium
CN111726520B (en) Imaging device, imaging system, and image processing method
KR20190029096A (en) Apparatus and method for processing image received through a plurality of cameras
JP7196399B2 (en) Sound device, sound system, method and program
JP2014165763A (en) Editing device, editing method, and editing program
JP2023027280A (en) Acoustic device, imaging apparatus, acoustic system, method, and program
US20170091899A1 (en) Image management apparatus and system, and method for controlling display of captured image
US10817980B2 (en) Information processing apparatus, information processing system, data generation method, and recording medium storing program code
JP2019140667A (en) Information processing unit, information processing system, data generation method and program
JP2018026642A (en) Image management system, image communication system, image management method, and program
JP7017045B2 (en) Communication terminal, display method, and program
JP6586819B2 (en) Image management system, image communication system, image management method, and program
US11533430B2 (en) Image capturing device with display control, image communication system, and method for display control, and recording medium
JP2017162014A (en) Communication terminal, image communication system, display method, and program
JP2021097326A (en) Communication terminal, photographing system, image processing method, and program
JP6992338B2 (en) Communication system, communication management method, program, system and communication method
JP7205323B2 (en) Communication terminal, image communication system, display method, and program
WO2022220306A1 (en) Video display system, information processing device, information processing method, and program
JP6816403B2 (en) Image management system, image communication system, image management method, and program
JP2020162118A (en) Photographing device, photographing system, image processing method, and program