JP2023057399A

JP2023057399A - 情報処理装置、情報処理方法

Info

Publication number: JP2023057399A
Application number: JP2021166915A
Authority: JP
Inventors: 毅小澤; Takeshi Ozawa
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-10-11
Filing date: 2021-10-11
Publication date: 2023-04-21
Also published as: US20230111528A1

Abstract

【課題】映像におけるフレームごとに、姿勢変化において不連続点がない姿勢表現で表現された姿勢情報を、該フレームと共に効率的に取得可能にするファイルを生成するための技術を提供すること。【解決手段】撮像されたフレームの撮像姿勢を示す情報を、姿勢変化において不連続点がない姿勢表現の姿勢情報に変換し、該フレームの圧縮符号化データと、該姿勢情報と、をファイルに格納する。【選択図】図２

Description

本発明は、圧縮符号化データのファイルの生成技術に関するものである。

近年、全周囲３６０度の映像をビデオカメラで撮影し、記録された映像を、ＨＭＤ（ヘッドマウントディスプレイ）やスマートフォンで視聴したり、視聴者の全周囲にプロジェクションされた全周囲映像として視聴することが行われている。視聴する映像は圧縮符号化され、ISO Base File FormatやＭＰ４ファイルフォーマット等の動画ファイルとして保存することが可能である。ＭＰ４ファイルフォーマット等の動画ファイルをネットワークを介して伝送してストリーミング再生する国際標準に、ＭＰＥＧ－ＤＡＳＨ（Dynamic Adaptive Streaming over HTTP）がある。

ＨＭＤで全周囲映像を視聴する場合、視聴者がＨＭＤを向ける方向と視野角に対応する部分映像が全周囲映像から適切に選択され、ＨＭＤで再生される必要がある。ＨＭＤは視聴者の閲覧姿勢を傾きセンサを用いて常に監視し、該監視により検出された閲覧姿勢を基に適切な映像の切り出しを行う。一般的に姿勢の表現方法には、オイラー角や四元数（クォータニオン）、方向余弦行列がある。直交座標軸からの３つの角度で構成されるオイラー角は、一時点の姿勢が直観的に認識し易いという利点がある反面、姿勢が制限なしに変化する場合に表示する映像の向きに断続性が発生するという課題がある。そのため、４つの係数から成り、パラメータ数が増える反面、断続性の課題を持たない四元数がＨＭＤの姿勢表現では多く使用されている。

一方、近年は全周囲映像の撮影形態としてビデオカメラが固定されるという制約や撮影中のビデオカメラの動きが精密に制御されるという制約なしに、手持ち撮影やドローン（無人飛行機）にビデオカメラを搭載して撮影するといった撮影形態が求められている。しかし、撮影時のビデオカメラの姿勢に動きがある場合、全周囲映像において閲覧者が閲覧する領域（閲覧領域）の選択を、ＨＭＤでの閲覧者の姿勢情報のみから行うと、撮影時のビデオカメラの姿勢が考慮されずに閲覧領域が選択されることになってしまう。このような場合、ＨＭＤが撮影時のビデオカメラの姿勢情報を取得し、該姿勢情報を考慮して閲覧領域の選択を行うことで、適切な閲覧領域の選択が可能となる。撮影時の姿勢情報を視聴時に利用する方法は特許文献１に開示されている。

特許第6599436号

従来技術では、撮影時の姿勢情報を表現する方法にオイラー角などの角度情報を使用する方法は提案されている。しかし、前述の通り、オイラー角では、姿勢が連続的に自由に変化して撮影が行われた場合には、表示する映像の向きに断続性が発生するという課題を内在してしまう。また、ＨＭＤの姿勢表現では、四元数や方向余弦行列が使用される例が多いため、撮影時の姿勢情報がオイラー角の場合には該オイラー角を四元数や方向余弦行列に変換する変換処理が必要となる。しかし、ＨＭＤにおける映像再生時には映像の復号処理を行うため、これに加えてこのような変換処理をフレームごとに行うことは多分なコストが生じる。

本発明では、映像におけるフレームごとに、姿勢変化において不連続点がない姿勢表現で表現された姿勢情報を、該フレームと共に効率的に取得可能にするファイルを生成するための技術を提供する。

本発明の一様態は、撮像されたフレームの撮像姿勢を示す情報を、姿勢変化において不連続点がない姿勢表現の姿勢情報に変換し、該フレームの圧縮符号化データと、該姿勢情報と、をファイルに格納する格納制御手段を備えることを特徴とする。

本発明の構成によれば、映像におけるフレームごとに、姿勢変化において不連続点がない姿勢表現で表現された姿勢情報を、該フレームと共に効率的に取得可能にするファイルを生成することができる。

撮像装置の一例を示す図。撮像装置１０１の機能構成例を示すブロック図。四元数の姿勢情報の時系列の一例を示す図。（ａ）はＭＰ４ファイル２０７の構成例を示す図、（ｂ）はｓｔｒａＢｏｘ４０４の構成定義例を示す図。生成部２０３が行う処理のフローチャート。ｓｔｒａＢｏｘ４０４の構成例を示す図。ｓｔｒａＢｏｘ４０４の別の構成例を示す図。ｓｔｒａＢｏｘ４０４の構成例を示す図。ｓｔｒａＢｏｘ４０４の構成例を示す図。ｓｔｒａＢｏｘ４０４の構成例を示す図。生成部２０３が行う処理のフローチャート。ｓｔｒａＢｏｘ４０４の構成例を示す図。コンピュータ装置のハードウェア構成例を示すブロック図。

以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

［第１の実施形態］
本実施形態では、撮像されたフレームの撮像姿勢を示す情報を、姿勢変化において不連続点がない姿勢表現の姿勢情報に変換し、該フレームの圧縮符号化データと、該姿勢情報と、をファイルに格納（格納制御）する情報処理装置の一例について説明する。本実施形態では、このような情報処理装置の一例として、全方位（全周囲）の映像（動画像）を撮像可能な撮像装置について説明する。本実施形態に係る撮像装置は、撮像した映像における各フレーム（撮像画像）を符号化してファイルに格納すると共に、該フレームの撮像時における該撮像装置の姿勢を示す情報を、姿勢変化において不連続点がない姿勢表現の姿勢情報に変換し、該姿勢情報を該ファイルに格納する。このような撮像装置の一例を図１に示す。

撮像装置１０１ａはドローン１０２に取り付けられており、ユーザがコントローラを操作してドローン１０２の飛行操作を行うことで撮像装置１０１ａは、様々な姿勢における全方位の映像を撮像することができる。図１では、撮像装置１０１ａが取り付けられたドローン１０２が矢印で示す如く左から右に移動しながら撮像装置１０１ａの姿勢を変化させて撮像を行っている状態を示している。

撮像装置１０１ｂはユーザ１０４による手持ちカメラであり、ユーザが手持ちカメラである撮像装置１０１ｂの姿勢を変化させることで該撮像装置１０１ｂは様々な姿勢における全方位の映像を撮像することができる。図１では、ユーザ１０４が矢印で示す如く左から右に移動しながら撮像装置１０１ｂの姿勢を変化させて撮像を行っている状態を示している。

このように、撮像装置の姿勢を変化させて全方位の映像を撮像するための方法には様々な方法があり、本実施形態では、様々な姿勢における全方位の映像を撮像するための方法は特定の方法に限定されない。

次に、本実施形態に係る撮像装置１０１（上記の撮像装置１０１ａや撮像装置１０１ｂにも適用可能な撮像装置）の機能構成例について、図２のブロック図を用いて説明する。以下では図２に示した各機能部は何れもハードウェアで実装されているものとして説明する。

撮像部２０１は、全方位の映像を撮像可能であり、撮像した全方位の映像を全方位映像データとして出力する。符号化部２０２は、撮像部２０１から出力された全方位映像データをＨ．２６４やＨ．２６５といった映像符号化方式で圧縮符号化する。

姿勢センサ２０４は、自身の姿勢を撮像装置１０１の姿勢として検出し、該検出した姿勢を示す情報を検出姿勢情報として出力する。ここで、姿勢センサ２０４は、撮像部２０１と同期して動作している場合には、撮像部２０１により撮像された各フレームの撮像時における撮像装置１０１の姿勢を検出することになる。また姿勢センサ２０４は、撮像部２０１と非同期に動作している場合には、撮像部２０１により撮像された各フレームの撮像時近傍における撮像装置１０１の姿勢を検出することになる。

演算部２０５は、姿勢センサ２０４から出力された検出姿勢情報を、「姿勢変化において不連続点がない姿勢表現の姿勢情報」の一例である「四元数の姿勢情報」に変換する。姿勢センサ２０４は連続的（定期的若しくは不定期的）に姿勢の検出を行い、演算部２０５は、姿勢センサ２０４により連続的に検出されたそれぞれの姿勢の検出姿勢情報を四元数の姿勢情報に変換する。演算部２０５により得られる四元数の姿勢情報の時系列の一例を図３に示す。

図３には、時間（Ｔｉｍｅ）＝０．０００、０．０３３、０．０６６、０．０９９、０．１３２のそれぞれで検出された姿勢について演算部２０５が求めた姿勢情報（四元数ｑｘ、ｑｙ、ｑｚ、ｑｗの値）が示されている。四元数ｑｘ、ｑｙ、ｑｚ、ｑｗのそれぞれの値は－１＜ｑｋ≦１（ｋ＝ｘ、ｙ、ｚ、ｗ）となる。

生成部２０３は、符号化部２０２による圧縮符号化により生成される圧縮符号化データと、演算部２０５による変換によって生成される四元数の姿勢情報と、を含むＭＰ４ファイルフォーマットのファイルをＭＰ４ファイル２０７として生成する。その際、生成部２０３は、圧縮符号化データにおける復号単位であるサンプル（フレーム）ごとに、該サンプルと、該サンプルの撮像時における撮像装置１０１の四元数の姿勢情報と、をＭＰ４ファイル２０７に格納する。

出力部２０６は、生成部２０３が生成したＭＰ４ファイル２０７を出力する。出力部２０６によるＭＰ４ファイル２０７の出力先は特定の出力先に限らない。例えば、出力部２０６は、ＭＰ４ファイル２０７を有線もしくは無線のネットワークを介して外部の装置に対して送信しても良いし、ＭＰ４ファイル２０７を撮像装置１０１が有する若しくは撮像装置１０１に挿入されているメモリ装置に格納しても良い。

ＭＰ４ファイル２０７の構成例を図４（ａ）に示す。ＩＳＯＢａｓｅＦｉｌｅＦｏｒｍａｔやＭＰ４ファイルフォーマットでは、ファイルは図４（ａ）に示す如く構造化されており、映像の圧縮符号化データなどのメディアデータはｍｄａｔＢｏｘ４０１に格納される。更にメディアデータの再生情報はメディアトラックとしてヘッダ情報のｔｒａｋＢｏｘ４０２に格納される。ｔｒａｋＢｏｘ４０２は、メディアデータにおける復号単位であるサンプルごとの情報をテーブルとして構成するｓｔｂｌＢｏｘ４０３を有し、各サンプルの再生時間やデータ長が格納される。

本実施形態では、ｓｔｂｌＢｏｘ４０３にサンプルごとの姿勢情報を格納するためのｓｔｒａＢｏｘ４０４を定義した。ｓｔｒａＢｏｘ４０４の構成定義例を図４（ｂ）に示す。

図４（ｂ）ではｓｔｒａＢｏｘ４０４をＳａｍｐｌｅＲｅｃｏｒｄｉｎｇＡｔｔｉｔｕｄｅＢｏｘとして定義し、静的定義されたビット和の値が格納されるｆｌａｇフィールドにより、姿勢情報の形式が四元数であることが示されるものとする。

ｆｌａｇフィールドには、姿勢情報データの記載方法として、サンプルごとの個別ｆｌａｇの有無、姿勢情報データ長、姿勢情報の絶対値または差分値が記載できることとする。姿勢情報データは、ｅｎｔｒｙ＿ｃｏｕｎｔ個のサンプルのそれぞれの配列データとして格納され、サンプルごとに、ｆｌａｇ、四元数の姿勢情報（ｑｘ、ｑｙ、ｑｚ、ｑｗ）の格納フィールドを定義している。ここでは、ｆｌａｇはサンプルの姿勢情報が存在するか否かを示す１ビットの情報（１：存在する０：存在しない）であるものとする。

１サンプル（１フレーム）分のメディアデータおよび姿勢情報をＭＰ４ファイル２０７に格納するために生成部２０３が行う処理について、図５（ａ）のフローチャートに従って説明する。撮像装置１０１は、撮像した各フレームについて図５（ａ）のフローチャートに従った処理を行うことで、該フレームの圧縮符号化データと、該フレームの撮像時における撮像装置１０１の四元数の姿勢情報と、をＭＰ４ファイル２０７に格納する。

なお、図５（ａ）のフローチャートでは、サンプルごとにｆｌａｇをＭＰ４ファイル２０７に格納するのではなく、全サンプルで共通の１つのｆｌａｇをＭＰ４ファイル２０７に格納するものとする。つまり、ここでは全てのサンプルについて姿勢情報が得られるものとするので、全てのサンプルについて「１」を示す１つのｆｌａｇがＭＰ４ファイル２０７に格納されるものとする。

ステップＳ５０１では、生成部２０３は、符号化部２０２からサンプルのメディアデータ（サンプルの圧縮符号化データ）を取得する。ステップＳ５０２では、生成部２０３は、ステップＳ５０１で取得したサンプルのメディアデータを、ＭＰ４ファイル２０７のｍｄａｔＢｏｘ４０１に格納する。ステップＳ５０３では、生成部２０３は、演算部２０５により該サンプルについて得られた四元数の姿勢情報を、ＭＰ４ファイル２０７のｓｔｒａＢｏｘ４０４に格納する。

ＭＰ４ファイル２０７におけるｓｔｒａＢｏｘ４０４の構成例を図６（ａ）に示す。図６（ａ）においてフィールド６０１，６０２のそれぞれは、１つのサンプルについて四元数の姿勢情報を格納するためのフィールドであり、ｑｘ、ｑｙ、ｑｚ、ｑｗを４バイト長のデータとして格納するためのフィールドである。

このように、本実施形態によれば、撮像した各フレームの圧縮符号化データを格納するファイルに、該フレームの撮像姿勢を四元数の姿勢情報に変換して格納する。これによりＨＭＤは、自身がどれだけ回転しても、切り出す画像領域の決定に必要な「撮像姿勢」として適切な「姿勢変化において不連続点がない姿勢表現の姿勢情報」を、フレーム単位で取得することができる。また、映像の再生時には四元数の姿勢情報への変換が必要ないので、再生時における処理負荷を軽減させることができる。

［第２の実施形態］
本実施形態を含む以下の各実施形態では、第１の実施形態との差分について説明し、以下で特に触れない限りは第１の実施形態と同様であるものとする。第１の実施形態では、姿勢センサ２０４は撮像部２０１と同期して動作しているものとしたので、サンプルごとに四元数の姿勢情報が得られ、よって、サンプルごとの四元数の姿勢情報がＭＰ４ファイル２０７に格納される。

これに対し、本実施形態では、姿勢センサ２０４は、撮像部２０１と非同期に動作しているものとする。このとき、撮像タイミングから規定の範囲内のタイミングで姿勢センサ２０４が姿勢検出ができてない可能性があり、その場合、フレームに対応する四元数の姿勢情報が得られないことになる。

１サンプル（１フレーム）分のメディアデータおよび姿勢情報をＭＰ４ファイル２０７に格納するために生成部２０３が行う処理について、図５（ｂ）のフローチャートに従って説明する。図５（ａ）と同様、図５（ｂ）のフローチャートに従った処理も、撮像装置１０１により撮像される各フレームについて行われることになる。図５（ｂ）において図５（ａ）に示した処理ステップと同様の処理ステップには同様のステップ番号を付しており、該処理ステップに係る説明は省略する。

ステップＳ５０４では、生成部２０３は、演算部２０５が過去に求めた四元数の姿勢情報から、サンプルの撮像タイミングから一定範囲内のタイミングで姿勢センサ２０４が検出した検出姿勢情報に対応する四元数の姿勢情報を検索する。

この検索の結果、演算部２０５が過去に求めた四元数の姿勢情報から、サンプルの撮像タイミングから一定範囲内のタイミングで姿勢センサ２０４が検出した検出姿勢情報に対応する四元数の姿勢情報が見つかれば、処理はステップＳ５０６に進む。

一方、演算部２０５が過去に求めた四元数の姿勢情報から、サンプルの撮像タイミングから一定範囲内のタイミングで姿勢センサ２０４が検出した検出姿勢情報に対応する四元数の姿勢情報が見つからなかった場合には、処理はステップＳ５０８に進む。

ステップＳ５０６では、生成部２０３は、「上記の検索により四元数の姿勢情報が見つかった」（サンプルの姿勢情報があった）ことを示すｆｌａｇをＭＰ４ファイル２０７に格納する。ステップＳ５０７では、生成部２０３は、上記の検索により見つけた四元数の姿勢情報を、ＭＰ４ファイル２０７のｓｔｒａＢｏｘ４０４に格納する。

一方、ステップＳ５０８では、生成部２０３は、「上記の検索により四元数の姿勢情報が見つからなかった」（サンプルの姿勢情報はなかった）ことを示すｆｌａｇをＭＰ４ファイル２０７に格納する。

このようにして生成されるＭＰ４ファイル２０７におけるｓｔｒａＢｏｘ４０４の構成例を図６（ｂ）に示す。フィールド６０４，６０６のそれぞれは、「上記の検索により四元数の姿勢情報が見つかった」（サンプルの姿勢情報があった）ことを示すｆｌａｇと、上記の検索により見つけた四元数の姿勢情報（ｑｘ、ｑｙ、ｑｚ、ｑｗ）と、が格納されたフィールドである。フィールド６０５は、「上記の検索により四元数の姿勢情報が見つからなかった」（サンプルの姿勢情報はなかった）ことを示すｆｌａｇが格納されたフィールドである。

［第３の実施形態］
ＭＰ４ファイル２０７におけるｓｔｒａＢｏｘ４０４の別の構成例を図７（ａ）に示す。図７（ａ）のｓｔｒａＢｏｘ４０４では、四元数の姿勢情報であるｑｘ、ｑｙ、ｑｚ、ｑｗのそれぞれを２バイト長のデータとして格納している。これは、姿勢の検出精度が低い場合にデータ長を短くすることでｓｔｒａＢｏｘ４０４への効率的なデータ格納を実現させることを目的としている。

フィールド７０１、７０２のそれぞれには、上記の実施形態よりも短いデータ長で姿勢情報が格納されている。データ長短縮の有無はｆｌａｇｓフィールド７０３で判断可能としている。このように、姿勢情報のデータ長は姿勢の検出精度に応じたデータ長としても良い。

ＭＰ４ファイル２０７におけるｓｔｒａＢｏｘ４０４の別の構成例を図７（ｂ）に示す。図７（ｂ）のｓｔｒａＢｏｘ４０４では、四元数の姿勢情報（ｑｘ、ｑｙ、ｑｚ、ｑｗ）のデータ長がサンプルごとに可変である。フィールド７０４には姿勢情報が２バイト長のデータとして格納されており、フィールド７０５には姿勢情報が４バイト長のデータとして格納されている。フィールド７０４のｆｌａｇフィールド７０６には、フィールド７０４に格納されている姿勢情報のバイト長が判断可能なビットフラグが設定される。同様に、フィールド７０５のｆｌａｇフィールド７０７には、フィールド７０５に格納されている姿勢情報のバイト長が判断可能なビットフラグが設定される。

［第４の実施形態］
本実施形態では、「サンプル間（フレーム間）における四元数の姿勢情報の差分」が格納されるｓｔｒａＢｏｘ４０４の構成例としていくつかの構成例を説明する。しかし、以下に説明する構成はあくまでも一例であり、以下に説明する構成に限定することを意図したものではない。

ｓｔｒａＢｏｘ４０４の構成例を図８に示す。図８の構成では、「サンプル間における四元数の姿勢情報の差分」が４バイト（固定長）のデータとしてｓｔｒａＢｏｘ４０４に格納されている。

フィールド８０１は、最初のサンプルに対応するフィールドであり、最初のサンプルに対応するｑｘ、ｑｙ、ｑｚ、ｑｗの絶対値が格納される。フィールド８０２は、２番目のサンプルに対応するフォールドであり、最初のサンプルに対応するｑｘ、ｑｙ、ｑｚ、ｑｗと、２番目のサンプルに対応するｑｘ、ｑｙ、ｑｚ、ｑｗと、のそれぞれの差分が格納される。

フィールド８０３は、３番目のサンプルに対応するフォールドであり、２番目のサンプルに対応するｑｘ、ｑｙ、ｑｚ、ｑｗと、３番目のサンプルに対応するｑｘ、ｑｙ、ｑｚ、ｑｗと、のそれぞれの差分が格納される。

ｓｔｒａＢｏｘ４０４の構成例を図９に示す。図９の構成では、「サンプル間における四元数の姿勢情報の差分」が２バイト（固定長）のデータとしてｓｔｒａＢｏｘ４０４に格納されている。

フィールド９０１は、最初のサンプルに対応するフィールドであり、最初のサンプルに対応するｑｘ、ｑｙ、ｑｚ、ｑｗの絶対値と、フィールド９０１が絶対値が格納されるフィールドであることを示すｆｌａｇと、が格納される。

フィールド９０２は、２番目のサンプルに対応するフォールドであり、最初のサンプルに対応するｑｘ、ｑｙ、ｑｚ、ｑｗと、２番目のサンプルに対応するｑｘ、ｑｙ、ｑｚ、ｑｗと、のそれぞれの差分が格納される。

フィールド９０３は、３番目のサンプルに対応するフォールドであり、２番目のサンプルに対応するｑｘ、ｑｙ、ｑｚ、ｑｗと、３番目のサンプルに対応するｑｘ、ｑｙ、ｑｚ、ｑｗと、のそれぞれの差分が格納される。

絶対値ではなく差分値を使用することでデータ長が小さくて十分な場合に有効な構成となる。２番目以降のサンプルに対応する四元数の姿勢情報が「前のサンプルの四元数の姿勢情報に対する差分」であること、及びデータ長が２バイトであることは、ｆｌａｇｓフィールド９０４に設定されているビットフラグで判別する。

ｓｔｒａＢｏｘ４０４の構成例を図１０に示す。図１０の構成では、「サンプル間における四元数の姿勢情報の差分」が可変長のデータとしてｓｔｒａＢｏｘ４０４に格納されている。

フィールド１０００は、最初のサンプルに対応するフィールドであり、最初のサンプルに対応するｑｘ、ｑｙ、ｑｚ、ｑｗの絶対値と、フィールド１０００が絶対値が格納されるフィールドであることを示すｆｌａｇと、が格納される。

フィールド１００１は、２番目のサンプルに対応するフォールドであり、最初のサンプルに対応するｑｘ、ｑｙ、ｑｚ、ｑｗと、２番目のサンプルに対応するｑｘ、ｑｙ、ｑｚ、ｑｗと、のそれぞれの差分が２バイトのデータとして格納される。該差分のバイト長はｆｌａｇフィールド１００３にて示されている。

フィールド１００２は、３番目のサンプルに対応するフォールドであり、２番目のサンプルに対応するｑｘ、ｑｙ、ｑｚ、ｑｗと、３番目のサンプルに対応するｑｘ、ｑｙ、ｑｚ、ｑｗと、のそれぞれの差分が４バイトのデータとして格納される。該差分のバイト長はｆｌａｇフィールド１００４に格納されている。

［第５の実施形態］
本実施形態では、姿勢センサ２０４のキャリブレーションを行った直後のサンプル（第１サンプル）に対応する四元数の姿勢情報を、該姿勢情報の絶対値を表す４バイトのデータとしてｓｔｒａＢｏｘ４０４に格納する。そして、第Ｎ（Ｎは２以上の整数）サンプルに対応する四元数の姿勢情報を、第（Ｎ－１）サンプルに対応する四元数の姿勢情報との差分を表す２バイトのデータとしてｓｔｒａＢｏｘ４０４に格納する。

１サンプル（１フレーム）分のメディアデータおよび姿勢情報をＭＰ４ファイル２０７に格納するために生成部２０３が行う処理について、図１１のフローチャートに従って説明する。図１１のフローチャートに従った処理も、撮像装置１０１により撮像される各フレームについて行われることになる。図１１において図５（ａ）、（ｂ）に示した処理ステップと同様の処理ステップには同様のステップ番号を付しており、該処理ステップに係る説明は省略する。

ステップＳ１１０１では、生成部２０３は、演算部２０５から得られた四元数の姿勢情報が、姿勢センサ２０４のキャリブレーションが行われた直後のサンプルの四元数の姿勢情報であるか否かを判断する。この判断の結果、演算部２０５から得られた四元数の姿勢情報が、姿勢センサ２０４のキャリブレーションが行われた直後のサンプルの四元数の姿勢情報である場合には、処理はステップＳ１１０２に進む。一方、演算部２０５から得られた四元数の姿勢情報が、姿勢センサ２０４のキャリブレーションが行われた直後のサンプルの四元数の姿勢情報ではない場合には、処理はステップＳ１１０４に進む。

ステップＳ１１０２では、生成部２０３は、演算部２０５から得られた四元数の姿勢情報の絶対値を４バイトのデータとして、ＭＰ４ファイル２０７のｓｔｒａＢｏｘ４０４に格納する。ステップＳ１１０３では、生成部２０３は、姿勢センサ２０４のキャリブレーションが行われた直後のサンプルに対応するｆｌａｇフィールドに同期フラグを設定する。

一方、ステップＳ１１０４では、生成部２０３は、演算部２０５から得られた四元数の姿勢情報と、前のサンプルに対応する四元数の姿勢情報と、の差分を２バイトのデータとして、ＭＰ４ファイル２０７のｓｔｒａＢｏｘ４０４に格納する。

このようなＭＰ４ファイル２０７を再生する再生装置では、同期フラグを含むｆｌａｇフィールドに対応する姿勢情報はそのまま利用する。一方、再生装置は、同期フラグを含まないｆｌａｇフィールドに対応する着目サンプルについては、該着目サンプルの姿勢情報（差分）と、該着目サンプルの前のサンプルの復元した姿勢情報と、を加算して該着目サンプルの姿勢情報を復元し、該復元した姿勢情報を利用する。

図１１のフローチャートに従って生成されるｓｔｒａＢｏｘ４０４の構成例を図１２に示す。フィールド１２０１，１２０２，１２０４は、姿勢センサ２０４のキャリブレーション直後のサンプルではないサンプルに対応する四元数の姿勢情報と、その前のサンプルの姿勢情報と、の差分を表す２バイトのデータとして格納するためのフィールドである。

フィールド１２０３は、姿勢センサ２０４のキャリブレーション直後のサンプルに対応する四元数の姿勢情報の絶対値を４バイトのデータとして格納するためのフィールドである。

［第６の実施形態］
上記の実施形態では、「姿勢変化において不連続点がない姿勢表現の姿勢情報」の一例として「四元数の姿勢情報」を用いたが、方向余弦行列等、他の情報を「姿勢変化において不連続点がない姿勢表現の姿勢情報」として用いても良い。

また、上記の実施形態では、撮像部２０１は映像のみを収集ものとして説明したが、映像に加えて音声を収集するようにしても良い。そのような場合、ＭＰ４ファイル２０７には各フレームの圧縮符号化データと各フレームに対応する音声の圧縮符号化データとが格納されることになる。

上記の実施形態では、図２の各機能部はハードウェアで実装されているものとして説明したが、符号化部２０２、演算部２０５、生成部２０３、出力部２０６はソフトウェア（コンピュータプログラム）で実装しても良い。この場合、このようなコンピュータプログラムを実行可能なコンピュータ装置は撮像装置１０１に適用可能である。

また、上記の情報処理装置は、符号化部２０２、演算部２０５、生成部２０３、出力部２０６を有する装置であって、撮像部２０１および姿勢センサ２０４が外付け装置として接続された該装置にも適用可能である。この場合も、符号化部２０２、演算部２０５、生成部２０３、出力部２０６はハードウェアで実装しても良いが、ソフトウェアで実装しても良く、後者の場合、このようなコンピュータプログラムを実行可能なコンピュータ装置は情報処理装置に適用可能である。このようなコンピュータ装置のハードウェア構成例について、図１３のブロック図を用いて説明する。

ＣＰＵ１３０１は、ＲＡＭ１３０２やＲＯＭ１３０３に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりＣＰＵ１３０１はコンピュータ装置全体の動作制御を行うと共に、情報処理装置が行うものとして説明した各処理を実行もしくは制御する。

ＲＡＭ１３０２は、ＲＯＭ１３０３や外部記憶装置１３０６からロードされたコンピュータプログラムやデータを格納するためのエリア、Ｉ／Ｆ１３０７を介して外部から受信したデータを格納するためのエリア、を有する。さらにＲＡＭ１３０２は、ＣＰＵ１３０１が各種の処理を実行する際に用いるワークエリアを有する。このようにＲＡＭ１３０２は、各種のエリアを適宜提供することができる。

ＲＯＭ１３０３には、コンピュータ装置の設定データ、コンピュータ装置の起動に係るコンピュータプログラムやデータ、コンピュータ装置の基本動作に係るコンピュータプログラムやデータ、などが格納されている。

操作部１３０４は、キーボード、マウス、タッチパネルなどのユーザインターフェースであり、ユーザが操作することで各種の指示をＣＰＵ１３０１に対して入力することができる。

表示部１３０５は、液晶画面やタッチパネル画面を有し、ＣＰＵ１３０１による処理結果を画像や文字などでもって表示することができる。なお、表示部１３０５は、画像や文字を投影するプロジェクタなどの投影装置であっても良い。

外部記憶装置１３０６は、ハードディスクドライブ装置などの大容量情報記憶装置である。外部記憶装置１３０６には、ＯＳ、情報処理装置が行うものとして説明した各種の処理をＣＰＵ１３０１に実行もしくは制御させるためのコンピュータプログラムやデータ、などが保存されている。外部記憶装置１３０６に保存されているコンピュータプログラムやデータは、ＣＰＵ１３０１による制御に従って適宜ＲＡＭ１３０２にロードされ、ＣＰＵ１３０１による処理対象となる。

Ｉ／Ｆ１３０７は、外部の装置との間のデータ通信を行うための通信インターフェースである。例えば、Ｉ／Ｆ１３０７には、上記の撮像部２０１および姿勢センサ２０４を接続することができる。この場合、撮像部２０１により撮像された映像や姿勢センサ２０４により検出された検出姿勢情報は、Ｉ／Ｆ１３０７を介してＲＡＭ１３０２や外部記憶装置１３０６に格納される。

ＣＰＵ１３０１、ＲＡＭ１３０２、ＲＯＭ１３０３、操作部１３０４、表示部１３０５、外部記憶装置１３０６、Ｉ／Ｆ１３０７は何れもシステムバス１３０８に接続されている。

なお、上記で説明したコンピュータプログラムは、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等の形態であっても良い。

また、このようなコンピュータプログラムを供給するための記録媒体としては、以下に示す媒体がある。例えば、フロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＣＤ－ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ－ＲＯＭ，ＤＶＤ－Ｒ）などである。

また、上記のコンピュータプログラムの供給方法としては、以下に示す方法も可能である。すなわち、クライアントコンピュータのブラウザからインターネットのホームページに接続し、そこから上記のコンピュータプログラムそのもの（又は圧縮され自動インストール機能を含むファイル）をハードディスク等の記録媒体にダウンロードする。また、上記のコンピュータプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、上記のコンピュータプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明に含まれるものである。

また、上記のコンピュータプログラムを暗号化してＣＤ－ＲＯＭ等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせることも可能である。すなわち該ユーザは、その鍵情報を使用することによって暗号化されたコンピュータプログラムを実行し、コンピュータにインストールさせることができる。

また、上記の各実施形態で使用した数値、処理タイミング、処理順、処理の主体、データ（情報）の送信先／送信元／格納場所などは、具体的な説明を行うために一例として挙げたもので、このような一例に限定することを意図したものではない。

また、以上説明した各実施形態の一部若しくは全部を適宜組み合わせて使用しても構わない。また、以上説明した各実施形態や変形例の一部若しくは全部を選択的に使用しても構わない。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

２０１：撮像部２０２：符号化部２０３：生成部２０４：姿勢センサ２０５：演算部２０６：出力部

Claims

撮像されたフレームの撮像姿勢を示す情報を、姿勢変化において不連続点がない姿勢表現の姿勢情報に変換し、該フレームの圧縮符号化データと、該姿勢情報と、をファイルに格納する格納制御手段を備えることを特徴とする情報処理装置。
前記格納制御手段は、フレームに対応する姿勢情報が得られた場合には、その旨を示す情報と、該姿勢情報と、を前記ファイルに格納することを特徴とする請求項１に記載の情報処理装置。
前記格納制御手段は、フレームに対応する姿勢情報が得られなかった場合には、その旨を示す情報を前記ファイルに格納することを特徴とする請求項１または２に記載の情報処理装置。
前記姿勢情報のデータ長は姿勢の検出精度に応じたデータ長であることを特徴とする請求項１ないし３の何れか１項に記載の情報処理装置。
前記姿勢情報のデータ長はフレームごとに可変であることを特徴とする請求項１ないし３の何れか１項に記載の情報処理装置。
前記格納制御手段は、姿勢情報の絶対値もしくはフレーム間における姿勢情報の差分をファイルに格納することを特徴とする請求項１に記載の情報処理装置。
前記差分は固定長のデータであることを特徴とする請求項６に記載の情報処理装置。
前記差分は可変長のデータであることを特徴とする請求項６に記載の情報処理装置。
前記格納制御手段は、前記撮像姿勢を検出するセンサのキャリブレーション直後のフレームについては、該フレームに対応する姿勢情報の絶対値を前記ファイルに格納し、該キャリブレーション直後ではないフレームについては、フレーム間における姿勢情報の差分を前記ファイルに格納することを特徴とする請求項１に記載の情報処理装置。
前記姿勢情報は、四元数（クォータニオン）、方向余弦行列のいずれかであることを特徴とする請求項１ないし９の何れか１項に記載の情報処理装置。
前記ファイルはＭＰ４ファイルフォーマットのファイルであることを特徴とする請求項１ないし１０の何れか１項に記載の情報処理装置。
更に、
前記撮像姿勢を検出するセンサと、
前記フレームを撮像する撮像部と
を備えることを特徴とする請求項１ないし１１の何れか１項に記載の情報処理装置。
情報処理装置の格納制御手段が、撮像されたフレームの撮像姿勢を示す情報を、姿勢変化において不連続点がない姿勢表現の姿勢情報に変換し、該フレームの圧縮符号化データと、該姿勢情報と、をファイルに格納することを特徴とする情報処理方法。
コンピュータを、請求項１ないし１２の何れか１項に記載の情報処理装置の格納制御手段として機能させるためのコンピュータプログラム。