JP5333229B2

JP5333229B2 - 再生装置及び再生方法、並びにコンピュータ・プログラム

Info

Publication number: JP5333229B2
Application number: JP2009538186A
Authority: JP
Inventors: 俊二岡田; 憲一郎有留; 幸雄磯部
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-10-23
Filing date: 2008-10-20
Publication date: 2013-11-06
Anticipated expiration: 2028-10-20
Also published as: CN101828391A; WO2009054333A1; US8260118B2; CN102724515A; JPWO2009054333A1; EP2202968B1; EP2202968A4; CN101828391B; EP2202968A1; KR20100067115A; CN102724515B; US20100183277A1

Description

本発明は、デジタルビデオカメラなどの映像を記録媒体に記録する映像再生装置及び映像再生方法に係り、特に、例えば個人レベルで撮影した映像を映像揺れなどの悪影響を防ぎながら再生する映像再生装置及び映像再生方法に関する。

さらに詳しくは、本発明は、撮影した映像に含まれる横揺れを抑制しながら再生して、視聴者が船酔いに似た症状を起こすのを防ぐ映像再生装置及び映像再生方法に係り、特に、撮影記録時の顔検出位置情報を使って、映像再生時に顔の横揺れを抑制する映像再生装置及び映像再生方法に関する。

最近、フィルムや感光板を使って撮影する銀塩カメラに代わって、画像をデジタル符号化処理して保存するデジタルカメラが後半に普及している。この種のデジタルカメラは、光電変換及び蓄積を行なう画素配列の受光部をフォトダイオードにより構成した固体撮像素子で画像をキャプチャする。固体撮像素子として、例えばＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ：電荷結合素子）やＣＭＯＳ（ＣｏｍｐｒｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ：相補型金属酸化物半導体）などを挙げることができる。

デジタルカメラで撮影された画像は、例えばＭＰＥＧ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ）などの所定の符号化フォーマットで符号化された後、記録媒体に記録される。また、このような記録画像は、復号して再生出力することができる。例えば、デジタルカメラに備え付けられたＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）などの表示装置を通じて再生したり、さらには記録媒体を撮影装置から取り出し、他の再生装置に装填して表示再生したりすることができる。あるいは、昨今のネットワーク技術の発達に伴い、デジタルカメラをパーソナル・コンピュータやその他の情報機器に接続して、記録媒体の入れ替え操作を行なうこともなく、記録媒体から読み出した画像をデータ転送して表示再生することができる。

ところで、撮影技術の未熟な個人が、操作不慣れで（例えば、大きな手ぶれ）によってカメラを激しく動かせしてしまうことがよくあり、動画像の撮影時には映像揺れとなって記録されてしまう。勿論、多くのデジタルカメラには、光学レンズで補正する機械式手振れ補正手段や、イメージ・センサ上での画像処理で補正する電子式手振れ補正手段といった、手振れ補正機能が搭載されている。しかしながら、大きな揺れの補正は除去が不可能であり、撮影映像全体が大きく揺れてしまう。

揺れを含んだ映像を視聴すると、映像酔いをもたらす危険をはらんでいる。映像揺れを横揺れと縦揺れに分類するならば、横揺れは船酔いに似た現象である。最近では一般家庭にも大画面テレビが普及しているが、とりわけ大画面で揺れる映像を見たときには、視聴者は映像揺れにより映像酔いが起こり易い。揺れが特に酷い場合には、吐き気や頭痛といった人体への影響が生じるため、映像の安全性にも係わる問題である。

放送制作現場では、このような映像酔いなどに対応するための映像作成マニュアルが準備されている。すなわち、放送局などでの事前にコントロールされた映像コンテンツの場合、放送システムとして送信側と受信側で、悪影響映像を示すメタ情報を介して映像信号を制御することによって、悪影響を防ぐ仕組みが提案されている。これに対して、個人レベルで撮影した映像の規制は難しく、個人で撮影した映像を再生出力した際に映像酔いをもたらす危険をはらんでいる。

例えば、撮像された動画像を符号化して記録する際には、撮像された動画像の大きな揺れを検出して大きな揺れに対応した動画像の再生時における揺れを低減するように制御するための再生制御情報を付加しておき、動画像を再生する際には再生制御情報に基づいて再生を制御する撮像記録再生装置について提案がなされている（例えば、特許文献１を参照のこと）。ところが、当該撮像記録再生装置は、大きな揺れは停止し静止へと変更されるため映像酔いは事前に防止するものであるが、動画像再生時に再生画面から映像揺れ自体を補正するものではない。

また、動画データの記録時には、現在のフレームと１つ前のフレームとの画像のずれ量（ずれ方向を含む）を公知の画像処理によって検出し、このずれ量を手振れ情報として動画データのチャンクのサブヘッダに記録しておき、動画データの再生時には、あらかじめオリジナルの動画データの全エリアＡよりも小さい手振れ補正用エリアＢを設定しておき、オリジナルの動画データから手振れ補正用エリアＢ内の動画データを切り出して所定の画像サイズにリサイズする、動画記録装置並びに動画再生装置について提案がなされている（例えば、特許文献２を参照のこと）。このような動画記録装置並びに動画再生装置によれば、現在のフレームと１つ前のフレームとの画像のずれ量を手振れとして検出する場合、動画データから手振れを除去することはできても、顔の横揺れを十分に除去することはできないものと思料される。

特開２００７−１３４８２２号公報特開２００４−２４８１７１号公報

本発明の目的は、例えば個人レベルで撮影した映像を映像揺れなどの悪影響を防ぎながら再生することができる、優れた映像再生装置及び映像再生方法を提供することにある。

本発明のさらなる目的は、撮影した映像に含まれる横揺れを抑制しながら再生して、視聴者が船酔いに似た症状を起こすのを防ぐことができる、優れた映像再生装置及び映像再生方法を提供することにある。

本発明は、上記課題を参酌してなされたものであり、所定の動画フォーマットにより付随する属性情報とともに記録媒体に記録された映像ストリームを再生する映像再生装置であって、前記記録媒体には、属性情報として映像ストリームから検出された顔の中心位置座標からなる顔検出位置情報が記録されており、
前記の記録された映像ストリームを前記属性情報とともに前記記録媒体から読み取る読み取り手段と、
前記の読み取られた映像ストリームを復号する復号手段と、
前記属性情報に含まれる顔検出位置情報に基づいて画面移動量を予測して、映像ストリームに含まれる顔揺れを補正する顔揺れ補正手段と、
前記の顔揺れを補正した後の映像ストリームを出力する出力手段と、
を具備することを特徴とする映像再生装置である。

例えば個人レベルで撮影した映像には操作の不慣れなどに起因して映像揺れが含まれることが多い。デジタルビデオカメラで撮影した映像を大画面テレビなどで再生する際、酷く揺れる映像を見たときには、映像揺れにより映像酔いが起こり易く、吐き気や頭痛といった人体への影響が生じるため、映像の安全性にも関わる問題である。手ぶれ補正機能では十分に除去できない大きな映像揺れがある場合に映像酔いを事前に防止する撮影記録再生装置について幾つか提案されているが、顔の横揺れに起因する映像酔いを防ぐ再生装置若しくは再生方法は存在しない。

これに対し、本発明によれば、顔検出技術を用いて映像に含まれる顔を検出し、顔の中心位置座標からなる顔検出位置情報を属性情報として、撮影した動画像とともに記録しておき、映像再生時には記録しておいた顔検出位置情報を使って顔の横揺れを補正するようにしている。この結果、ユーザが大画面テレビなどで再生映像を視聴する場合であっても、映像酔いを起こすのを防ぐことができる。

本発明に係る映像再生装置は、例えばＭＰＥＧ形式に符号化して記録媒体上に記録されている映像データを再生する。ＭＰＥＧフォーマットでは、複数フレーム分の画像を基に１つの画面を生成するので、ＧＯＰと呼ばれる複数のフレームからなるグループを単位として扱う（周知）。そして、撮影映像に含まれる被写体の検出顔の中心位置座標からなる顔検出位置情報が、ＧＯＰの属性情報として記録しておく。例えば、ＧＯＰ毎に、０．５秒単位で、検出顔の中心位置座標からなる顔検出位置情報を属性情報としてストリームの属性情報部に記録しておく。

また、本発明に係る映像再生装置は、映像再生時に、属性情報として記録されている顔検出位置情報を先読みして、時間連続的に補間平均して、映像の再生顔揺れ補正の制御を行なうようにしている。このとき、再生画像を顔中心座標で拡大再生する。記録した映像が高画質（ＨＤ）画像であれば、少々拡大しても画質の劣化は目立たない。属性情報として記録した顔検出位置情報を再生時に読み取ることによって、時間的に長い先読みが実現される。したがって、時刻経過に伴う横座標位置変化データが長い期間分、読み取って処理することができるので、精度よい画面の顔の横揺れ補正が実現される。

再生開始時に、画像精細品位モードと画像アスペクト・モードを取得する。記録された顔検出位置情報が含まれる映像の再生時には、ＧＯＰストリームの顔中心位置座標データを含むＧＯＰ属性情報を一括読みにより多数のＧＯＰ分だけ読み取ると、フレーム再生表示時刻と顔中心位置座標の早見表（以下、「顔位置情報テーブル」とも呼ぶ）を、フィールド単位で作成する。そして、顔中心位置座標に対してＧＯＰ単位での欠落時間を補間して、フレーム単位での時間移動平均演算により、各フレームで画面内の顔検出中央位置の移動量を時間軸平均化演算する。

映像拡大処理を行なう際には、画面中心からオフセットした検出顔の中心位置座標を中心とした所定の拡大率により、再生画像の中心オフセット拡大処理をフレーム単位で施すことによって、再生映像の横揺れ補正を実現することができる。

なお、再生中の顔中心位置データの読み取り更新は、再生映像ストリームの再生ストリーム・バッファへの読み取り更新要求が発生するタイミングで、映像ストリームの一括読み取りの際に実施する。

また、顔検出位置情報の読み取り更新を行ない、フィールド単位で顔位置情報テーブルを生成することにより、ＧＯＰ属性情報上の当該テーブルを使って顔検出の有無及び検出顔の中心位置座標の予測時間変化補正制御を精度よく滑らかに行なうことができる。

本発明によれば、例えば個人レベルで撮影した映像を映像揺れなどの悪影響を防ぎながら再生することができる、優れた映像再生装置及び映像再生方法を提供することができる。

また、本発明によれば、撮影した映像に含まれる横揺れを抑制しながら再生して、視聴者が船酔いに似た症状を起こすのを防ぐことができる、優れた映像再生装置及び映像再生方法を提供することができる。

また、本発明によれば、撮影記録時の顔検出位置情報を使って、映像再生時に顔の横揺れを好適に抑制することができる、優れた映像再生装置及び映像再生方法を提供することができる。

本発明によれば、符号化された映像音声ストリームのカメラ撮影記録再生時の属性情報と、ストリーム・データの先読み処理を活用することによって、顔揺れの正確な予測と顔の横揺れ補正により、再生映像の人物横揺れを効果的に防止することができる。例えば、デジタルカメラで撮影したような個人的な映像を再生する際の横揺れ防止を実現し、大画面テレビ上での視聴を快適にすることができる。

本発明のさらに他の目的、特徴や利点は、後述する本発明の実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。

図１は、本発明の実施に供される撮影記録再生装置１００の構成を模式的に示した図である。図２Ａは、ＵＤＦファイルシステムの一例（ＳＤフォーマットの場合）を示した図である。図２Ｂは、ＵＤＦファイルシステムの他の例（ＨＤフォーマットの場合）を示した図である。図３は、ＤＶＤＶｉｄｅｏのデータ構造を示した図である。図４Ａは、人物の右シフト位置の画像拡大補正を行なう様子を示した図である。図４Ｂは、人物の左シフト位置の画像拡大補正を行なう様子を示した図である。図５Ａは、目や口などの顔パーツのパターンと人の顔形分布の一致により顔中心位置座標を出力する様子を示した図である。図５Ｂは、顔検出位置情報をストリームの属性情報として記録する様子を示した図である。図６Ａは、ディスクから再生し、ＶＯＢＵ（ＧＯＰ）毎の属性情報を読み出す再生ストリーム制御を説明するための図である。図６Ｂは、読み込んでリング・バッファに積まれた顔検出中心座標情報データ集合と、それに対応する各ＧＯＰの先頭位置に対応するＰＴＳのリスト情報データを示した図である。図７は、再生時の位置情報の読み取りシーケンスを説明するための図である。図８Ａは、再生顔座標から顔の横揺れ補正パラメータを変換する処理を説明するための図である。図８Ｂは、再生顔座標から顔の横揺れ補正パラメータを変換する処理を説明するための図である。図９Ａは、ストリームのサーチのために、ＶＯＢＵ属性情報として保持しているサーチ情報がメディア上の位置アドレスを指す制御を説明するための図である。図９Ｂは、データ・バッファに蓄積されたＶＯＢＵデータが再生で消費され、残り少なくなったときに次のＲＵＶデータが読み取り蓄積される様子を示した図である。図１０は、顔中心位置座標からフレーム時刻経過での低周波横位置座標変化を取り出して補正する制御を説明するための図である。図１１Ａは、顔中心位置座標のフィールド毎の補間計算方法を説明するための図である。図１１Ｂは、フィールド毎の移動量δλを格納するテーブルを示した図である。図１２は、映像ストリームの記録を行なう動作上で、ＡＲＩデータに顔検出中心情報を書き込む手順を示したシーケンス図である。図１３は、映像ストリームの再生を行なう動作上で、ＡＲＩデータから顔検出中心情報を読み出すための手順を示したシーケンス図である。図１４は、顔の横揺れ情報と縦揺れ情報の組み合わせにより再生画面の揺れ補正を行なう様子を示した図である。図１５は、顔検出位置情報を用いて画面揺れ補正してベースバンドの再生映像拡大処理を行なための処理手順を示したフローチャートである。図１６は、画面横方向を顔検出位置情報で横揺れ補正を施すとともに、縦方向を背景の風景水平検出位置座標で縦揺れ補正を施し、これらを組み合わせてベースバンドの再生映像拡大処理を行なための処理手順を示したフローチャートである。

符号の説明

１００…撮影記録再生装置
１０１…システム制御部
１０１Ａ…静止画アプリケーション・フォーマット制御部
１０１Ｂ…動画アプリケーション・フォーマット制御部
１０１Ｃ…動画ＨＤアプリケーション・フォーマット制御部
１０１Ｄ…ＵＤＦ論理ファイルシステム部
１０１Ｅ…フラッシュ・ファイルシステム部
１０１Ｆ…ＤＶＤ／ＨＤＤドライブ制御部
１０２…映像音声入出力インターフェース
１０２Ａ…顔検出制御部
１０３…コーデック部
１０３Ａ…静止画コーデック部
１０３Ｂ…動画像コーデック部
１０３Ｃ…動画ＨＤコーデック部
１０４…フラッシュ・メモリ・ドライブ
１０４Ａ…インターフェース
１０４Ｂ…ＣＩＳ情報記録部
１０４Ｃ…マルチウェイ・キャッシュ
１０４Ｄ…メモリ制御部
１０４Ｅ…ＮＶＲＡＭバンク
１０５…外付けドライブ
１０５Ａ…ホスト・インターフェース
１０５Ｂ…デバイス情報記録部
１０５Ｃ…ドライブ・キャッシュ
１０５Ｄ…メモリ制御部
１０５Ｅ…ディスク
１０６…ドライブ制御部
１０７…データ制御部
１０８…プログラム・メモリ
１０９…ユーザ・インターフェース
１１０…ＰＣ入出力インターフェース
１１１…時刻データ部

以下、図面を参照しながら本発明の実施形態について詳解する。

図１には、本発明の実施に供される撮影記録再生装置１００の構成を模式的に示している。図示の撮影記録再生装置１００は、例えば、映像音声入出力インターフェース１０２を介して取り込まれる映像音声ストリーム・データの符号化、符号化データのフラッシュ・メモリ・ドライブ１０４への記録、フラッシュ・メモリ・ドライブ１０４に記録したデータの外付けドライブ（ＤＶＤドライブ若しくはＨＤＤドライブ）１０５へのコピーといったデータ記録動作、フラッシュ・メモリ・ドライブ１０４や外付けドライブ１０５からのデータの読み出し、読み出しデータの復号処理、並びにＰＣ入出力インターフェース１１０を介した画面出力などのデータ再生動作を行なう。また、これらの動作は、基本的には、ユーザ・インターフェース１０９を介したユーザ操作に応じて起動する。以下、撮影記録再生装置１００内の各部について説明する。

システム制御部１０１は、プログラム・メモリ１０８上に展開されたプログラムを実行することにより、当該装置１００全体の動作を統括的にコントロールする。システム制御部１０１が行なう主な処理は、映像音声ストリーム・データのファイル・フォーマット管理と、フラッシュ・メモリ・ドライブ１０４並びに外付けドライブ１０５のファイルシステム管理である。

静止画アプリケーション・フォーマット制御部１０１Ａは、符号化された静止画データを静止画のアプリケーション（ＡＰ）・フォーマット、例えば、ＪＰＥＧ（ＪｏｉｎｔＰｈｏｔｏｇｒａｐｈｉｃＥｘｐｅｒｔｓＧｒｏｕｐ）や、ＪＦＩＦ（ＪｐｅｇＦｉｌｅＩｎｔｅｒｃｈａｎｇｅＦｏｒｍａｔ）、Ｅｘｉｆ（ＥｘｃｈａｎｇｅａｂｌｅＩｍａｇｅｆｉｌｅＦｏｒｍａｔ）、ＴＩＦＦ（ＴａｇＩｍａｇｅＦｉｌｅＦｏｒｍａｔ）などに変換するためのファイル・ヘッダなどの管理情報を生成する。

動画アプリケーション・フォーマット制御部１０１Ｂは、符号化された動画像をＭＰＥＧなどの動画像のアプリケーション・ファイルに変換するための管理情報を生成する。具体的には、ＭＰＥＧ形式で符号化された動画像データを入力すると、これをＤＶＤＶｉｄｅｏのアプリケーション・フォーマットに準拠したファイル群に変換して、ＵＤＦファイルシステムに従って格納する。

動画ＨＤアプリケーション・フォーマット制御部１０１Ｃは、符号化されたＨＤ動画像をＨ．２４６などのＨＤ動画像のアプリケーション・フォーマット変換する管理情報を生成する。

ＵＤＦ（ＵｎｉｖｅｒｓａｌＤｉｓｋＦｏｒｍａｔ）論理ファイルシステム部１０１Ｄは、ＯＳＴＡ（ＯｐｔｉｃａｌＳｔｏｒａｇｅＴｅｃｈｎｏｌｏｇｙＡｓｓｏｃｉａｔｉｏｎ）が策定する光ディスク・フォーマットＵＤＦに従って、パケット書き込み方式による外付けドライブ１０５（但し、ＤＶＤドライブなどの光ディスク・ドライブの場合）に対するファイルの追加や削除といった処理を通常のファイルシステムを通じて行なう。フラッシュ・ファイルシステム部１０１Ｅは、フラッシュ・メモリ・ドライブ１０４内のＮＶＲＡＭ（ＮｏｎＶｏｌａｔｉｌｅＲＡＭ）バンク１０４Ｅの物理的な特性を考慮したファイルシステムであり、フラッシュ・メモリ・ドライブ１０４のアドレス管理、ガーベジ・コレクション、イレーズ回数の平均化などの処理を行なう。ＤＶＤ／ＨＤＤドライブ制御部１０１Ｆは、外付けドライブ１０５用のデバイス・ドライバに相当し、外付けドライブ１０５に対する記録や再生などの動作の制御を行なう。

撮影記録再生装置１００には、映像音声入出力インターフェース１０２を介して、情報機器やＡＶ機器（デジタルスチルカメラやデジタルビデオカメラ、その他静止画や動画像のソース機器）が有線若しくは無線で接続されており、静止画データや映像音声ストリーム・データのやり取りなどを行なう。

本実施形態では、映像音声入出力インターフェース１０２は顔検出制御部１０２Ａを備えており、例えば同インターフェース１０２を介して接続されるデジタルビデオカメラから入力する映像ストリーム・データから、映像に含まれる被写体の顔の中心位置座標を例えばＧＯＰ毎に検出し、後段の動画像コーデック部１０３Ｂに供給するようになっている。顔検出制御部１０２Ａは、周知の顔認識技術に基づいて、目や口などの顔パーツのパターンと人の顔形分布の一致により顔中心位置座標を検出することができる。顔検出制御部１０２Ａによって検出された顔中心位置座標から映像ストリームにおける映像揺れを算出することができるが、その詳細については後述に譲る。

時刻データ部１１１は、現在時刻を経時するデバイスである。本実施形態では、時刻データ部１１１は、静止画アプリケーション時刻を静止画コーデック部１０３Ａに供給し、動画アプリケーション時刻を動画像コーデック部１０３Ｂに供給する。

コーデック部１０３は、データの符号化並びに符号化データの復号処理を行なう。静止画コーデック部１０３Ａは、ＡＶ機器から入力した静止画データの符号化、並びに、符号化された静止画データの復号処理を行なう。動画像コーデック部１０３Ｂは、ＡＶ機器から入力した動画像ストリーム・データの符号化、並びに、符号化された動画像データの復号処理を行なう。動画ＨＤコーデック部１０３Ｃは、ＡＶ機器から入力した動画ＨＤの符号化、並びに、符号化された動画ＨＤデータの復号処理を行なう。

本実施形態では、動画像コーデック部１０３Ｂは、映像音声入出力インターフェースを介して送られてくる映像ストリーム・データの記録を行なう際に、顔検出部１０２ＡがＧＯＰ毎に検出する顔中心位置座標を、動画アプリケーション時刻と対応付けて、ＧＯＰの属性情報として記録するようになっている。

データ制御部１０７は、符号化された映像音声データとこの映像音声データの管理情報を蓄積し、記録開始に備える。ドライブ制御部１０６は、例えばＡＴＡＰＩ（ＡＴＡｔｔａｃｈｍｅｎｔＰａｃｋｅｔＩｎｔｅｒｆａｃｅ）プロトコルに従い、フラッシュ・メモリ・ドライブ１０４又は外付けドライブ１０５のドライブ内部ファーム情報を取得してドライブ・メディア状態を監視し、ドライブ・メディア状態に応じてメディア記録再生開始を指示する。ドライブ制御部１０６は、映像音声データがシステム・ストリームとしてＧＯＰ単位で格納されたビデオ・オブジェクト単位が複数集合されパケット化されたＲＵＶ（ＲｅｃｏｒｄｉｎｇＵｎｉｔＶｉｄｅｏＯｂｊｅｃｔ）をまとめてメディアに記録する制御を行なう。例えば、数１０ＭＢ蓄積されると、まとめてディスク１０５Ｅに記録する繰り返し制御を行なっている。なお、光ディスクでは、ＲＵＶはセル（ＣＥＬＬ）に相当する。ＲＵＶ若しくはＣＥＬＬは、１回の書き込み動作でバッファから記録メディアにまとめて書き込みされ、あるいは、１回の読み出し動作で再生メディアからバッファにまとめて読み出される、ＶＯＢＵ（ＶｉｄｅｏＯＢｊｅｃｔＵｎｉｔ）単位である。

フラッシュ・メモリ・ドライブ１０４は、インターフェース１０４Ａを介してメモリ制御部１０４Ｄと接続されている。ＣＩＳ（ＣａｒｄＩｎｆｏｒｍａｔｉｏｎＳｔｒｕｃｔｕｒｅ）情報記録部１０４Ｂには、フラッシュ・メモリ・ドライブ１０４のデータ形式、パーティション編成、ベンダ情報、デバイス情報などが記録されている。メモリ制御部１０４Ｄは、マルチウェイ・キャッシュ１０４Ｃに一時的に蓄積されたデータを、ＮＶＲＡＭバンク１０４Ｅ内の該当するメモリ・チップにデータを書き込む（各メモリ・チップは、データを記録するＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）チップである）。

外付けドライブ１０５は、例えば、ホスト・インターフェース１０５ＡはＡＴＡ規格に準拠したコマンドをドライブ制御部１０６から受信する。デバイス情報記録部１０５Ｂは、型番などデバイス・ドライバの識別情報を記録している。メモリ制御部１０５Ｄは、光ピックアップ（若しくは磁気ヘッド）を位置制御して、一時記録領域であるドライブ・キャッシュ１０５Ｃに蓄積されたデータをディスク１０５Ｅ上に記録する。例えばＤＶＤの最小記録単位は、ＥＣＣ（ＥｒｒｏｒＣｏｒｒｅｃｔｉｎｇＣｏｄｅ）ブロックと呼ばれ、１ＥＣＣブロックは３２Ｋバイトである。

ユーザ・インターフェース１０９から映像音声データの再生が指示されると、ＵＤＦ論理ファイルシステム部１０１Ｄ又はフラッシュ・ファイルシステム部１０１Ｅは、該当するストリーム・ファイルの開始セクタと終了セクタとを検索する。ドライブ制御部１０６は、フラッシュ・メモリ・ドライブ１０４又は外付けドライブ１０５に開始セクタと終了セクタに記録されたデータの読み出しを指示する。続いて、データ制御部１０７は、外付けドライブ１０５から読み出されたデータを静止画コーデック部１０３Ａ、動画像コーデック部１０３Ｂ、動画ＨＤコーデック部１０３Ｃのいずれかに出力する。静止画コーデック部１０３Ａは読み出された符号化静止画データを復号し、動画コーデック部１０３Ｂは読み出された符号化動画データを復号し、動画ＨＤコーデック部１０３Ｃは読み出された動画ＨＤデータを復号する。そして、復号したデータを、映像音声インターフェース１０２を介して外部機器に転送して、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）やスピーカなど（いずれも図示しない）に出力する。

ＰＣインターフェース１１０には、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）などの有線若しくは無線、あるいは光通信のインターフェースを利用して、ＰＣやその他の大画面を持つ映像再生装置などが接続されている。

ユーザ・インターフェース１０９から映像音声データの転送が指示されると、ＵＤＦ論理ファイルシステム部１０１Ｄ又はフラッシュ・ファイルシステム部１０１Ｅは該当するストリーム・ファイルの開始セクタと終了セクタとを検索し、ドライブ制御部１０６はフラッシュ・メモリ・ドライブ１０４又は外付けドライブ１０５に開始セクタと終了セクタに記録されたデータの読み出しを指示する。そして、読み出されたデータを、ＰＣインターフェース１１０を介して転送先の機器に転送する。

既に述べたように、ＵＤＦ論理ファイルシステム部１０１Ｄは、ＵＤＦフォーマットに従って、外付けドライブ１０５に対するファイルの追加や削除といった処理を通常のファイルシステムを通じて行なう。ＵＤＦ論理ファイルシステム部１０１Ｄは、フラッシュ・メモリ・ドライブ１０４上に、ＵＤＦファイルシステムを構築する。

図２Ａには、ＵＤＦファイルシステムの一例（ＳＤフォーマットの場合）を示している。図示のＵＤＦファイルシステムは、ディレクトツリー構造のファイルシステムであり、ルート・ディレクトリの直下の階層に３つのディレクトリが生成されている。動画アプリケーション・フォーマット制御部１０１Ｂは、ＭＰＥＧ形式で符号化された動画像データをＤＶＤＶｉｄｅｏのアプリケーション・フォーマットに準拠したファイル群に変換して、ルート・ディレクトリ直下のディレクトリ「ＶＩＤＥＯ＿ＴＳ」に格納する。ＤＶＤＶｉｄｅｏのアプリケーション・フォーマットに準拠したファイル群は、“ＩＦ”という拡張子が付いた管理ファイルと、“ＶＯＢ”という拡張子が付いたデータ格納ファイルからなり、これらのファイルはＵＤＦファイルシステム上で管理される。

図２Ｂには、ＵＤＦファイルシステムの他の例（ＨＤフォーマットの場合）を示している。ルート・ディレクトリ直下のＭＯＤＥＬＣＦＧ．ＩＮＤファイルは、ベンダ固有定義のファイル、製造業者の決めた情報ファイルである。また、ルート・ディレクトリの直下の階層には、ＡＶＣＨＤ、ＡＶＦ＿ＩＮＦ、ＤＣＩＭという３つのフォルダが生成されている。ＡＶＣＨＤディレクトリ内には、さらにＢＤＭＶフォルダが設けられ、ＢＤＭＶフォルダ内には、動画映像記録アプリケーション・フォーマットで規定されたフォルダ、ファイル群が記録される。ＩＮＤＥＸ．ＢＤＭは、インデックス・ファイルで、動画チャプタを登録し管理するファイルである。ＭＯＶＩＥＯＢＪ．ＢＤＭは、アプリケーションで決められたファイルで、動画チャプタを登録し管理するファイルである。ＣＬＩＰＩＮＦフォルダ内には、クリップ情報ファイル（動画チャプタ内部ストリームへのアクセスを管理するファイル）が格納される。ＰＬＡＹＬＩＳＴフォルダ内には、プレイリスト・ファイル（動画チャプタへのコンテンツ毎のアクセスを管理するファイル）が格納される。ＳＴＲＥＡＭフォルダ内には、動画ストリーム・ファイルが格納される。本実施形態では、顔検出制御部１０２Ａで検出される顔検出位置情報は、ＧＯＰの属性情報として、動画ストリームの描くピクチャに分散して記録される。ＡＶＦ＿ＩＮＦフォルダ内には、ユーザ操作を支援する分類グループ登録情報、好み情報を管理するファイル群が格納される。ＤＣＩＭフォルダ内には、静止画記録アプリケーション・フォーマットで規定されたフォルダ、静止画撮影ファイル群が格納される。

図３には、ＤＶＤＶｉｄｅｏのデータ構造を示している。光ディスクは、半径の中心から端へ向かう論理アドレス配置を有している。この論理アドレス配置の先頭には、ＵＤＦの管理情報が記録されている。ＶＭＧは、ディスク全体の管理情報が書かれている。ＶＴＳ１乃至ＶＴＳｎには、１つのタイトルが格納されている。個々のＶＴＳは、ＶＴＳＩとＶＴＳＴＴ＿ＶＯＢＳで構成される。ＶＴＳＩには、各ＶＴＳの管理情報が書かれており、ＶＳＴＴ＿ＶＯＢＳには、映像本体が格納される。

ＶＳＴＴ＿ＶＯＢＳは、ＶＯＢの集合（ＶＯＢ１…ＶＯＢｎ）である。１つのＶＯＢは、２５５個以下のＣＥＬＬ（ＲＵＶ）から構成される。ＣＥＬＬは、複数のＶＯＢＵから構成されている。ＶＯＢＵのサイズは再生時間に依存する。各ＶＯＢＵの再生時間は０４〜１．０秒である。本実施形態では、１ＶＯＢＵを１ＧＯＰ（０．５秒）とする。最後のＶＯＢＵの再生時間は、例外的に１．２秒である。

ＶＯＢＵは、ＮＶ＿ＰＣＫ、Ｖ＿ＰＣＫ、Ａ＿ＰＣＫ、Ｓ＿ＰＣＫ、ＡＲＩ＿ＰＣＫから構成される。ＮＶ＿ＰＣＫには、再生表示に関する管理情報を格納するＰＣＩと、アクセスに関する管理情報を格納するＤＳＩから構成される。Ｖ＿ＰＣＫはＭＰＥＧビデオ・データを格納し、Ａ＿ＰＣＫはＭＰＥＧオーディオ・データを格納し、Ｓ＿ＰＣＫはＭＰＥＧサブピクチャ・データを格納する。ＮＶ＿ＰＣＫ、Ｖ＿ＰＣＫ、Ａ＿ＰＣＫ、Ｓ＿ＰＣＫには動画再生時刻管理情報が付加されており、映像、音声、並びにサブピクチャが同期を取って再生される。また、ＡＲＩ＿ＰＣＫには、画面上の被写体の検出顔の中心位置座標すなわち顔検出位置情報が格納され、再生時に顔の横揺れ補正の処理に利用されるが、この点の詳細については後述に譲る。ＶＯＢＵを構成するＮＶ−ＰＣＫ、Ｖ＿ＰＣＫ、Ａ、Ｓ＿ＰＣＫ、ＡＲＩ＿ＰＣＫは、すべて２Ｋバイトである。これらのファイルは、動画像アプリケーション・フォーマット制御部１０１Ｂで作成される。

続いて、動画アプリケーション・フォーマット制御部１０１Ｂにおける、ファイル群の生成処理について説明する。

動画アプリケーション・フォーマット制御部１０１Ｂは、まず、Ｖ＿ＰＣＫ、Ａ＿ＰＣＫ、Ｓ＿ＰＣＫを作成する。動画アプリケーション・フォーマット制御部１０１Ｂは、入力したＭＰＥＧ動画像データを、ＭＰＥＧ映像データ、ＭＰＥＧ音声データ、ＭＰＥＧサブピクチャ・データに多重化分離し、各データをそれぞれ２ＫバイトのＶ＿ＰＣＫ、Ａ＿ＰＣＫ、Ｓ＿ＰＣＫに格納する。また、動画アプリケーション・フォーマット制御部１０１Ｂは、顔検出制御部１０２Ａで検出され顔検出位置情報をＡＲＩ＿ＰＣＫに格納する。動画アプリケーション・フォーマット制御部１０１Ｂは、これらのパケットを生成する度に該当するＶＯＢＵ＿ＴＢＬを更新する。ＶＯＢＵ＿ＴＢＬは、パケットの管理情報を蓄積している。

そして、動画アプリケーション・フォーマット制御部１０１Ｂは、ＶＯＢＵ＿ＴＢＬからＮＶ＿ＰＣＫ又はＲＤＩ＿ＰＣＫを生成し、生成したＮＶ＿ＰＣＫをＶ＿ＰＣＫ、Ａ＿ＰＣＫ、Ｓ＿ＰＣＫの先頭に付加して、ＶＯＢＵを生成する。

さらに、動画アプリケーション・フォーマット制御部１０１Ｂは、ＶＯＢＵをまとめて、１つのＣＥＬＬを生成する。動画アプリケーション・フォーマット制御部１０１Ｂは、ＣＥＬＬを生成する度に、ＶＴＳ＿ＴＢＬを更新する。ＶＴＳ＿ＴＢＬは、ＰＧＣ（ＰｒｏｇｒａｍＣｈａｉｎ）を構成している。

それぞれのＣＥＬＬには固有のＩＤ番号が付与されている。ＰＧＣは、そのＣＥＬＬの再生順を指定するものである。ＰＣＧ内で１つ以上の連続する番号のＣＥＬＬをまとめたものを１つのプログラムとして定義することができる。また、ＰＣＧ内で１つ以上の連続する番号のプログラムをまとめたもの１つのＶＯＢとして定義することができる。ＶＯＢは、ユーザが映像ストリームにアクセスする単位となる「チャプタ」に相当するものである（ユーザは、チャプタ毎に再生のスタート並びにストップを指示することができる）。

動画アプリケーション・フォーマット制御部１０１Ｂは、複数のＶＯＢをまとめてＶＯＢＵ格納用のファイルを生成する。図２Ａに示すフォーマット例では、“ＶＴＳ＿０１＿＊．ＶＯＢ”（＊は、数字）と名付けられたファイルがＶＯＢＵ格納用のファイルである。

動画アプリケーション・フォーマット制御部１０１Ｂは、ＶＴＳ＿ＴＢＬを含むＶＴＳＩを作成し、ＶＴＳＩ格納用のファイルを生成する。図２Ａに示すフォーマット例では、“ＶＴＳ＿０１＿＊．ＩＦＯ”がＶＴＳＩ格納用のファイルである。動画アプリケーション・フォーマット制御部１０１Ｂは、最後に、全体の管理情報をまとめたＶＭＧ格納用のファイルを生成する。図２Ａに示すフォーマット例では、ＶＩＤＥＯ＿ＴＳ．ＩＦＯがＶＭＧ格納用のファイルである。

本実施形態に係る撮影記録再生装置１００では、映像音声入出力インターフェース１０２を介してデジタルビデオカメラから撮影映像ストリームを入力したときに、顔検出制御部１０２Ａは、映像ストリームから検出された顔の中心位置座標を、顔検出位置情報として０．５秒ＧＯＰ単位で出力する。そして、動画像コーデック部１０３Ｂが映像データの符号化処理を行なう際に、動画アプリケーション・フォーマット制御部１０１Ｂが作成を指示するストリーム属性情報（ＡＲＩ＿ＰＣＫ）に顔検出位置情報を設定して、フラッシュ・メモリ・ドライブ１０４若しくは外付けドライブ１０５に記録するようになっている。

また、フラッシュ・メモリ・ドライブ１０４若しくは外付けドライブ１０５に記録されている映像ストリームの読み取りを行なう場合には、動画像コーデック部１０３Ｂで映像ストリームの復号処理を行なう際に、動画アプリケーション・フォーマット制御部１０１Ｂは該当するストリーム属性情報（ＡＲＩ＿ＰＣＫ）から顔検出位置情報の取得を併せて指示する。そして、画像拡大再生時には、顔検出位置情報を基に、被写体の顔が読み取り再生映像の中心とするよう、顔の横位置の補正を行なうことができる。この結果、大画面テレビなどで再生映像を視聴する場合であっても、ユーザが映像酔いを起こすのを防ぐことができる。

なお、本出願以前においても、撮影映像から顔検出する技術は存在し、例えばカメラ制御部において顔検出を行なうのが一般的である。しかしながら、顔の存在の有無を動画再生見出し画面のチャプタ属性情報として付随させて利用する程度であり、ベースバンド映像処理で再生映像中の顔の位置補正（顔揺れの補正）に利用するものは存在しない。

図４には、顔検出位置情報を利用して再生映像拡大、再生顔横ユレ補正制御を行なう様子を示している。同図では特に被写体の顔位置の左右補正を行なう例を示している。顔位置の左右補正を行なうのは、人間の視覚追随は左右に追随するために、顔の横揺れは視聴者に錯覚を強く与え左右の揺れを感じさせ気分を悪くさせるからであり、左右補正により横揺れを好適に除去して視聴者の不快感を解消することができる。

再生開始時には、画像精細品位モードと画像アスペクト・モードを取得する。画面中心位置に対する顔検出位置情報のオフセットは、モードがＨＤの１９２０／１０８０のモード、ＳＤのワイド／ノーマル（記録では一律、７２０ピクセル）のいずれであるかに応じて可変である。

図４Ａには、人物の右シフト位置の画像拡大補正を行なう様子を示している。再生時の元画像の顔が右位置にオフセットしている場合、画面中心位置に対し検出顔の中心位置が右にオフセットしており、このオフセットを取り除くとともに、その顔検出中心位置を中心にベースバンド映像処理で再生画像を所定の倍率で拡大処理することによって、人物の横揺れが補正される。

また、図４Ｂには、人物の左シフト位置の画像拡大補正を行なう様子を示している。再生時の元画像の顔が左位置にオフセットしている場合、画面中心位置に対し顔検出中心位置が左にオフセットしており、同様に、このオフセットを取り除くとともに、その顔検出中心位置を中心にベースバンド映像処理で再生画像を所定の倍率で拡大処理することによって、人物の横揺れが補正される。

なお、人物の体は縦長であり、バストショットの場合など、被写体の体全体が常に画面に入っているとは限らないから、縦揺れの補正は難しいことがある。横揺れは上述したように顔検出中心位置で補正し、縦揺れは背景中心位置で補正する方法が考えられる。（被写体の顔を撮影するとき、顔が画面から外れて輪郭が切れないようにする。これに対し、人体を撮影するときは、人体は顔を含むバストショットや顔アップで撮影することが多いので、人体の縦方向の揺れを人体全体の輪郭と縦サイズ、人体像中心の移動で見ることはできない。）

図５には、顔中心座標情報のメディアへの記録書き込み制御を行なう様子を示している。

図５Ａに示すように、映像音声入出力インターフェース１０２を介してデジタルビデオカメラなどから映像ストリームを入力すると、顔検出制御部１０２Ａは、肌色検出並びに目や口などの顔パーツのパターンと人の顔形分布の一致により検出顔の中心位置座標を検出すると、これを顔検出位置情報として後段の動画像コーデック部１０３Ｂに出力する。

動画像コーデック部１０３Ｂでは、記録時の動画像ストリーム・データの符号化並びに再生時のデータ復号を行なうが、本実施形態では、顔検出位置情報をＧＯＰの属性情報として使用しながら記録再生制御する。

図５Ｂには、記録再生制御の様子を示している。カメラ撮影時のカメラ撮影情報データなどのユーザ・データは、ＡＲＩ情報として動画ストリームに記録される（ＡＲＩは、ＡｄｄｉｔｉｏｎａｌＲｅｃｏｒｄｉｎｇＩｎｆｏｒｍａｔｉｏｎ（付加的記録情報）の略称）。顔検出制御部１０２Ａから取得される検出顔の中心位置座標は、ＡＲＩ情報内のカメラ撮影情報の拡張データの１つとなる。そして、０．５秒分の１ＧＯＰを記録１ＶＯＢＵとして作成するときに、顔検出フラグと検出顔の中心位置座標データを含む顔検出位置情報を、ＶＯＢＵ属性データに付加して（図３を参照のこと）、ディスクなどの記録媒体に記録する。

図６には、動画データの再生時に顔検出位置情報データを取得して顔揺れ補正の制御を図解している。

図６Ａには、ディスクから再生し、ＶＯＢＵ（ＧＯＰ）毎の属性情報を読み出す再生ストリーム制御を図解している。図６Ａに示すように、ＶＯＢＵ情報の中にＡＲＩデータが記録されて存在しており、動画再生時には読み取りを行なう。例えば、その名称を「ＭＮＦＩデータ」とする。ＶＯＢＵに付属するＡＲＩデータを読み出す度に、ＭＮＦＩデータの中の顔検出位置情報を、再生顔位置補正用のリング・バッファに蓄積していく。リング・バッファの大きさは、１２８ＶＯＢＵ分とする。

ここで、ＲＵＶというバッファ・サイズに収まるデータ量をまとめて読み出す処理によって、連続するストリームで複数のＶＯＢＵがまとめて読み出されている。そのサイズは撮影時の被写体が動いている場合はバッファ・サイズとなり、そうでない場合でも、再生サーチ制御の都合で、最大数を１２８ＶＯＢＵ分までの読み込みに制限する。

図６Ｂには、読み込んでリング・バッファに積まれた顔検出位置情報の集合と、それに対応する各ＧＯＰの先頭位置に対応するＰＴＳ（ＰｒｅｓｅｎｔａｔｉｏｎＴｉｍｅＳｔａｍｐ）のリスト情報データを示している。ＧＯＰの先頭位置に対応するＰＴＳのリスト情報データの時刻情報とともに、対応する顔検出位置情報をベースバンド映像処理にかける。ベースバンド映像処理では、その顔検出位置情報を中心に所定の指定倍率で画像を拡大ズームして再生することによって、フレーム毎に再生画像の横揺れを補正する処理を行なうことができる。

図７には、再生時の位置情報の読み取りシーケンスを図解している。但し、同図中の「上位」とは、ユーザ操作とのインターフェースを担当するソフトウェア層に相当し、主にユーザ操作や記録、再生、編集の開始及び終了、編集点時刻の指定、チャプタ・コンテンツの番号や時刻を扱う。また、「下位」とは、実際に記録メディアへのアクセスを制御するソフトウェア層に相当し、映像コーデックの符号化・復号処理、記録フォーマットに従ったデータのバッファリング及び記録メディアへの書き込み、並びに、記録フォーマットに従った記録メディアからのデータ読み取り及びバッファリングと映像コーデックへの送り出しを制御する。

ファイルシステムから読み取りされたＲＵＶからストリーム再生データベースを介して、ＰＴＳが読み取られる。上位層の処理では仮想的に、記録時に時間離散的にデータベースを保有する場合もある。しかし、そこには映像音声の可変長ストリームに対応できるサーチ情報はなく、上位は推定する演算で推定してほぼそれくらいの時刻位置を指定できるだけである。

上位が適当に指定するＰＴＳのデータベースの作り方は、顔インデックス機能（Ｆａｃｅ）の場合は、記録中にＡＶＣｏｎ（動画コーデック部１０３Ｂ／１０３Ｃ内の、符号化復号ハードウェアを時刻情報とともに制御する制御ブロックに相当）から渡されたＰＴＳを登録する（動画の符号化復号制御では、デコード・タイムスタンプと再生表示タイムスタンプ（ＰＴＳ）という時刻情報が必ず一緒に必要となるので、そこから時刻情報を取得することができる）。ここで言う顔インデックスは、動画撮影において新たに顔検出した時点で顔インデックスとなるサムネイルをインデックス登録する機能があり、再生時には顔インデックスとなる複数のサムネイルを並べて表示される。

再生制御側では、そのＰＴＳ推定値を受け取り、それを含む近辺のＲＵＶをアクセスして再生読み取りバッファに蓄積すると同時に、該当するＶＯＢＵ番号の実ＰＴＳを取得し位置情報として取得する。前回の再生がストップしたままであればレジューム情報を一時的に揮発タイプのメモリ上に保持しているので、その位置から正確な再生を可能に実現する。レジューム情報がない場合は、上位指定された仮想ＰＴＳ時刻位置を受けて、その辺のデータをまとめて読み取ってスタートしてみる制御を行なう。そして、その辺りで指定されたＰＴＳに近いもの（ＶＯＢＵ）をみつけてそこから再生を開始する。

ここで言う、「指定されたＰＴＳに近いもの」とは、ユーザ操作とのインターフェースを担当する上位層ソフトウェアが時刻で再生位置を指定するのに対して、下位の動画コーデック部１０３Ｂ／１０３Ｃ及び動画アプリケーション・フォーマット制御部１０１Ｂ／１０１Ｃでは、メディアからバッファに読み出した符号化ストリームの中に含まれるＰＴＳ情報を取り出し、上位層で指定された再生指定時刻に最も近いＰＴＳ情報を選択することを意味する（上位層は、メディアに記録された符号化ストリームを直接制御するものではなく、ストリーム中のＰＴＳを直接指定することはできないからである）。上位層で再生時刻が指定されると、まず、上位の持っているＤｕｒａｔｉｏｎから抽象的に演算して、想定ＰＴＳを指定する。下位層は、想定ＰＴＳを上位から渡されると、ＭＡＶＩ（Ｍ２ＰＳ）、ＮＶ＿ＰＣＫ（ＤＶＤ）、ＭＤ＿ＰＣＫ（ＡＶＣＨＤ）を読み出して、上位から渡され指定されたＰＴＳに近いＶＯＢＵをピックアップして当てはめる。

本実施形態でも、その再生で指定されたフレームのＰＴＳ時刻情報と、それに対応する顔検出位置情報をセットにして取り扱う制御をしている。

再生画面上の顔検出枠は、図８Ａに示すように、ｘｙ画面座標系を用いて、顔中心位置座標（ｘ_s，ｙ_s）と顔サイズ（ｘ_c，ｙ_c）で表すことができる（但し、座標値はピクセル単位で表されるものとする）。顔中心位置（ｘ_s，ｙ_s）は、ＡＲＩ＿ＤＡＴＡに記録される顔検出位置情報から計算し、顔サイズ（ｘ_c，ｙ_c）は顔検出画面枠サイズから計算することができる。顔中心位置（ｘ_s，ｙ_s）と、顔サイズ（ｘ_c，ｙ_c）は、再生顔揺れ補正に必要なパラメータである。

動画を拡大再生処理する際、顔中心位置座標を中心にして単純に拡大することができない場合があり、補正処理が必要となる。例えば、図８Ｂ左に示すように、顔中心位置座標を中心にして拡大すると顔検出枠の一部が画面拡大した後の再生画面の表示範囲から外れてしまう場合である。このような場合、顔検出枠が画面内部の片に納まる位置にシフト補正する左右補正幅制限を設けることによって、異常な再生顔揺れ補正がなされることを防止する制御を行なう。図８Ｂ右に示すように、拡大再生画面の表示範囲に顔検出枠の各々の辺が拡大再生画面の表示範囲の各辺に接する位置に修正し、顔検出枠が拡大再生画面の表示範囲内部に収まるように顔中心位置座標を補正する処理を行なう。顔検出枠は、顔全体をふくむ枠であることを前提にしている。したがって、顔枠表示座標が拡大再生画面の範囲内に収まれば、顔枠内部の顔全体も拡大再生画面の中に納まり、顔が欠けることなく好ましい表示となる。

本実施形態では、映像再生時には、顔検出位置情報を先読みして、時間連続的に補間平均して、映像の再生顔揺れ補正の制御を行なう。記録した顔検出位置情報を再生時に読み取れば、時間的に長い先読みが実現される。したがって、時刻経過に伴う横座標位置変化データが長い期間分、読み取って処理することができるので、精度よい画面の顔の横揺れ補正が実現される。

図９Ａには、ストリームのサーチのために、ＶＯＢＵ属性情報として保持しているサーチ情報がメディア上の位置アドレスを指す制御を図解している。サーチ情報は、ＶＯＢＵとそのメディア上のアドレス位置を示すもので、ＲＵＶ読み取りで取得される。ＶＯＢＵに含まれるＧＯＰ（１ＧＯＰ、２ＧＯＰなども可能）を位置サーチして指定されるＶＯＢＵ先頭を頭出しするために、サーチ情報が用いられる。但し、動画ストリームの符号化後のビットレートが低くデータ・サイズがバッファ・メモリ容量サイズよりも小さく済んでしまう場合でも、無限にサーチ情報を持つ訳ではなく、ＶＯＢＵとして最大で１２８ＶＯＢＵまでをサーチすることができるように、ＶＯＢＵのサーチ情報テーブルの最大数を持っている。１ＲＵＶＭａｘは、１２８〜１２０ＶＯＢＵ、又は、２０ＭＢ（但し、ＲＵＶバッファ・サイズに２０ＭＢを使うとき）である。通常の動画撮影では、被写体映像に細部情報を含み、且つ動きがあるので、符号化してもサイズはあまり圧縮されず、バッファ・サイズの上限に達しないうちに１２８ＶＯＢＵになることはない。

ＶＯＢＵの映像音声属性情報テーブルは、そのサーチ情報を基に、ＶＯＢＵ映像音声ストリームのストリーム属性、時刻カウンタ情報などを再生制御部が読み取ることによって構成される。ここで、ＡＲＩデータに含まれる顔検出位置情報もＶＯＢＵ毎にまとまって取得されている。

再生開始からＶＯＢＵデータがメディアから読み取られ、データ・バッファに蓄積されるが、やがて再生でそのＶＯＢＵデータが消費される。データ・バッファ内のＶＯＢＵデータが残り少なくなったとき（例えば、残り１０ＶＯＢＵ程度を切ったとき）、図９Ｂに示すように、読み取り更新要求が発生され、次のＲＵＶデータが読み取り蓄積される。同図では、データ・バッファの上限は例として１２８ＶＯＢＵあるいは１８ＭＢまでとして説明している。

図１０には、顔中心位置座標からフレーム時刻経過での低周波横位置座標変化を取り出して補正する制御を図解している。再生開始時にはサーチに備えて１２８ＶＯＢＵまで先に読み取り、データ・バッファに蓄積する。すなわち、データをバッファに先読みしてから再生するので、時間的に先読みしたデータに含まれる顔中心位置座標の時間的変化も事前に予測することが可能になる。

顔検出位置情報は、ＶＯＢＵとともに属性情報としてＡＲＩデータ内から取得される。ＡＲＩデータ内の顔検出位置情報は、実際にはディスクメディアから０．５秒毎のフレームに対しては不連続な位置データが取得される。また、被写体が移動して画面エリアを外れて顔を見失い顔検出されていない期間も存在し得る。ＲＵＶ単位で大量のＶＯＢＵをバッファに先読み取得して、フレーム補間、顔検出位置情報のない区間の補間、０．５秒単位の顔検出位置情報（すなわち、被写体検出顔の中心位置座標）の不連続な画面上の座標変化として確実な未来予測位置を得ながら平滑化するので、視覚的に違和感のない、時刻的に未来予測位置を見込んだ効率的な横揺れ補正が実現される。

ＧＯＰ毎に被写体の検出顔の中心位置が移動すると、再生画面上ではカクカクした顔の横揺れ補正になってしまう。そこで、フィールド毎の座標を補間計算して、座標情報量を増加しスムーズに追従させるようにしている。図１１には、顔中心位置座標のフィールド毎の補間計算方法を図解している。図１１Ａでは、縦軸に再生映像表示時間の時間軸を映像フレーム単位で示し、横軸にはそれに対応する画面上における検出顔の中心の横位置座標をとっている。拡大再生の顔中心位置はＶＯＢＵ毎に得られる。ベースバンド映像処理では、各ＶＯＢＵから読み取った顔検出位置情報の水平移動位置を時間平滑化し、拡大再生した顔の横中心位置として設定する。

１ＧＯＰ（０．５秒）毎の顔中心座標２点から、１フィールド（ＮＴ＝１５、ＰＡＬ＝１２）毎の移動量を計算する。そして、さらに最大移動制限量の範囲を設けて、顔中心座標の移動可能範囲の制限内で、１フィールドごとに割り切れる移動平均演算での顔中心位置座標の移動量を算出するようにしている。

図１１Ａに示す例では、最初のＧＯＰの顔中心位置を点Ａ、次のＧＯＰの顔中心位置を点Ｂ、３番目のＧＯＰの顔中心位置を点Ｃとし、それぞれ０．５秒毎に読み取られるＶＯＢＵに属するＡＲＩデータ内の顔検出位置である。そして、それぞれの点の間は映像フレームであって、ＮＴＳＣでは１５フレーム、ＰＡＬでは１２フレームの表示時刻軸で構成される。

ここで、Ａ点、Ｂ点、Ｃ点そのままにリニア直線的に各フレーム時刻に座標を割り当てる計算方法は簡易であるが、補正動作が視覚的に画面横方向に０．５秒毎の不連続に補正量が決定され補正されるので滑らかな横揺れ補正が実現されず、面白くない。

これに対し、ＮＴＳＣ又はＰＡＬのフィールド数で割り切れる、例えば０．５秒を３等分し時刻中間に２点を設け、それに対して重み係数付き時間前後双方向の移動平均をとって平滑化することによって、ＧＯＰ単位、ＶＯＢＵ時間単位毎ではなく、フレーム単位で滑らかに横位置補正が実現される。１フィールド毎の移動量δλは、下式により計算される。

上式において、Ｎ_GOPはＧＯＰ中のフレーム数（ＮＴＳＣでは１５、ＰＡＬでは１２）、Ｋ_AVEは重み加算平均の正規化係数である。

フィールド毎の顔中心座標位置をＡからδ●毎にＢまで求め、図１１Ｂに示すようなテーブルを作成する。

ベースバンドの再生映像拡大処理の際にこの情報を与えてその座標中心で拡大処理表示することによって、顔の横揺れ、縦揺れが効果的に補正される。

図１２は、映像ストリームの記録を行なう動作上で、ＡＲＩデータに顔検出中心情報を書き込む手順を示したシーケンス図である。

映像ストリームの記録時には、上位の記録制御によって記録を開始している状態である。このときデータ・バッファを制御して、符号化しているコーデック部１０３は、０．５秒のＶＯＢＵを作成する毎にカメラ情報更新要求を上位に発する。

この要求に応じた記録属性制御によって、別途カメラブロックからカメラ撮影情報を取得して時刻や映像信号など撮影に伴う映像ストリームのＶＯＢＵ属性情報がコーデック部１０３に与えられ、コーデック部１０３では映像ストリームの符号化が行なわれる。

続いて、ＡＲＩ情報書き込みのためにカメラ・データを与えて、ＡＲＩのカメラ・データを作成更新させる。

図１２に示したシーケンス図上では、カメラから撮影データとして与えられたものが記録再生に望ましい形式で与えられなかった場合に、記録制御によって顔位置座標を設定する処理を代行し、カメラ撮影属性情報としてのＡＲＩデータを撮影映像ストリームに属性情報として付加する情報更新動作を記録中のＶＯＢＵ毎に行なう動作を図解している。

図１３は、映像ストリームの再生を行なう動作上で、ＡＲＩデータから顔検出中心情報を読み出すための手順を示したシーケンス図である。

映像ストリーム再生開始時には、再生速度の設定（通常再生は１倍速）、映像方式のＨＤ（１９２０／１０８０）、ＳＤ（７２０／７１２／３５２など）とその横ピクセル・サイズの相違による種別、動画再生属性情報としてのＲＵＶを蓄積するストリーム・バッファの蓄積上限値並びに下限値、ストリーム・サーチ・アドレスのリスト・テーブル段数設定、デコード情報リストと段数と上限並びに下限設定、映像音声の再生情報テーブルの段数と上限並びに下限設定を行なってから、映像ストリーム・データの再生デコード再生表示を開始する。

ＲＵＶ単位で一連の多数ＶＯＢＵをまとめて記録媒体から読み取り、そのカウンタ・データから時、分、秒からなる時刻情報を作成して時刻表示データとして出力し、上位部の再生制御では、ＯＳＤ（ＯｎＳｃｒｅｅｎＤｉｓｐｌａｙ）やグラフィック表示などの映像出力制御の文字表示が行なわれる。ここで言う上位部とは、ユーザ操作やインターフェースを担当するソフトウェア層に相当する（前述）。

続いて、ＡＲＩデータのリストから、ＡＲＩ情報を解析して初回のＶＯＢＵのデータを得る。

以上が映像ストリームの再生開始時におけるＡＲＩデータに含まれる顔検出中心座標位置を取得するまでの手順である。

映像ストリームの再生中、コーデック部１０３が自身のバッファに蓄えているＶＯＢＵをデコード再生で消費して、ＶＯＢＵデータ蓄積量が設定下限値を下回ると、コーデック部１０３は、次のＲＵＶをまとめて記録媒体から読み取るとともに、再生属性制御のために、データ制御部１０７に対して、映像再生情報消費の通知と再生情報更新要求を与える。

この要求に応答して、再生属性制御として、コーデック部１０３から現在再生しているＶＯＢＵのカウンタ・データを取得して、ＨＭＳ表示時間制御としてＨＭＳ（時間、分、秒）時間値を更新し、そのデータ値を出力する。上位の再生制御では、ＨＭＳの更新値を画面の再生時刻進行表示値として使用する。

その後、システム制御部１０１は、再生属性制御のために、ＡＲＩ情報を解析してＡＲＩデータを設定更新する。動画アプリケーション・フォーマット制御部１０１Ｂは、の動画像コーデック部１０３Ｂを使い、映像音声入出力インターフェースを介して送られてくる映像ストリーム・データの記録を行なう際に、顔検出部１０２ＡがＧＯＰ毎に検出する顔中心座標位置情報を、動画アプリケーション時刻と対応付けて、ＧＯＰの属性情報として、ＡＲＩに記録するようにしている。ここで、ＡＲＩが値変化していて更新が必要であれば、更新処理に入る。また、ＡＲＩ情報の更新処理が全く不要で、前のＶＯＢＵと一致していれば、更新しないまま値をそのまま保持して次の更新機会まで待つ。

カメラ撮影情報データに一部でも情報更新あれば、ＡＲＩデータの更新を実行する。例えば、検出顔の中心位置座標が横に移動変化していた場合には、その情報でＡＲＩデータを更新して、上位における再生制御のために出力する。

ここで、システム制御部１０１内で行なわれる映像音声アプリケーション・フォーマット制御では、映像編集によって所定のＶＯＢＵデータ区間を非表示として映像の中間部分削除を行なうことができる場合があり、それに対応する処理が必要になる。すなわち、これに対応するＡＲＩ情報解析の制御としては、アプリケーション・フォーマット制御によって再生ストリーム・データが再生表示属性から再生非表示属性に移ってしまった状態では、元の映像ストリームのＶＯＢＵからの読み取ったＡＲＩデータに違いがあってもＡＲＩの更新制御はしないで保持し続けることで対応する。また、映像ストリームの表示属性が非表示属性中は、ＡＲＩデータは更新制御しない。さらにまた、映像ストリームの非表示区間から表示区間に移行したタイミングの後では、ＡＲＩデータの内容に不一致があれば、更新して上位の再生制御のためにＡＲＩデータを出力し、情報を更新する。

再生制御では、ベースバンドの再生映像拡大処理のためにこの情報を与えて、その座標中心で拡大処理表示することによって（図４を参照のこと）、画面の横揺れ並びに縦揺れを効果的に補正する。

図１４には、顔の横揺れ情報と縦揺れ情報の組み合わせにより再生画面の揺れ補正を行なう様子を示している。

既に述べたように、顔検出位置情報を基に画面の横揺れ情報を取得する。また、顔検出位置情報以外の情報（他の種類の被写体）から得られる画像位置座標を基に縦揺れ情報を取得する。縦揺れ情報を顔以外の被写体から取得するのは、顔は身体の一部であって、上下動とその位置を判別することは難しい場合があるからである（前述）。また、人間の視覚特性として、横揺れの補正は顔でしてほしいが、縦ユレはより緩やかな、画面全体を支配する風景背景の縦ユレの検出に基づいて補正を行なって欲しい場合がある。

図１４には、スキップして移動してゆく人物を撮影した場合の映像ストリームから画面揺れを補正する様子を例示している。

撮影時には、カメラ制御部の被写体位置検出制御によって、顔検出中心座標を横座標で取得する。その際、背景水平線縦位置揺れ、傾き情報データを縦座標で取得し、映像ストリームとともに記録媒体に記録する。

また、再生時には、画面横方向を顔検出位置情報で横揺れ補正を施すとともに、縦方向を背景の風景水平検出位置座標で縦揺れ補正を施し、これらを組み合わせてベースバンドの再生映像拡大処理を行なって、その座標中心で拡大処理表示することによって、横揺れ並びに縦揺れの双方が効果的に補正される。

図１５には、顔検出位置情報を用いて画面揺れ補正してベースバンドの再生映像拡大処理を行なための処理手順をフローチャートの形式で示している。記録時には、映像ストリームとともに、顔検出位置情報を含む属性情報が併せて記録媒体に記録されているものとする。

映像ストリーム・データとその属性情報の読み取り処理として、まず、１ＲＵＶ分の映像ストリーム・データと対応する属性情報が記録媒体から読み出す。その際、１ＲＵＶ期間の属性情報から顔検出位置情報のデータ列を取得して、読み出した映像ストリームの各フレーム再生時刻に対応する顔検出位置情報を記述した顔位置情報テーブルを作成する（ステップＳ１）。

そして、１ＲＵＶ分のデータをバッファ・メモリに一括して書き込む（ステップＳ２）。

以上の処理を１ＲＵＶ毎に繰り返し実行する。

また、ベースバンドにおける属性情報の処理のうち、顔位置演算処理として、時間軸にわたる映像のＧＯＰに付随する顔位置情報テーブルの属性情報を、複数ＧＯＰからなるＲＵＶとして一括してメモリ上に先読みし、時刻の重み移動平均演算で平滑計算した、修正後の顔位置情報テーブルを作成する（ステップＳ１１）。

そして、再生画面上での顔揺れ補正のために、現在の１ＲＵＶデータの処理が完了するまでの間（ステップＳ１３のＮｏ）、再生表示時刻に対応する修正後の顔位置情報を逐次出力する（ステップＳ１２）。

また、ベースバンドにおける再生画像の出力制御処理は、まずミュート状態に制御されているが（ステップＳ２１）、バッファ・メモリに蓄えられている１ＲＵＶ分の映像ストリーム・データが復号処理されると、これをメモリの所定のアドレス位置にロードする（ステップＳ２２）。

そして、ベースバンドにおける再生画像の出力制御処理は、ＰＴＳにより再生画表示時刻が与えられ、対応する顔検出位置情報を取得すると、再生表示時刻情報に対応するメモリ上の再生画映像を、顔位置中心に抜き出して（ステップＳ２３）、再生画を拡大ズーム出力して、顔揺れ補正が施された再生画を出力する（ステップＳ２４）。

以上の処理を、現在の１ＲＵＶデータの処理が完了するまでの間（ステップＳ２５のＮｏ）、繰り返し実行する。

また、図１６には、画面横方向を顔検出位置情報で横揺れ補正を施すとともに、縦方向を背景の風景水平検出位置座標で縦揺れ補正を施し、これらを組み合わせてベースバンドの再生映像拡大処理を行なための処理手順をフローチャートの形式で示している。記録時には、映像ストリームとともに、顔検出位置情報を含む属性情報が併せて記録媒体に記録されているものとする。

映像ストリーム・データとその属性情報の読み取り処理として、まず、１ＲＵＶ分の映像ストリーム・データと対応する属性情報が記録媒体から読み出す。その際、１ＲＵＶ期間の属性情報から顔検出位置情報のデータ列を取得して、読み出した映像ストリームの各再生時刻に対応する顔検出位置情報を記述した顔位置情報テーブルを作成するとともに、水平線情報のデータ列から、各再生時刻に対応する背景水平線の画面縦位置情報テーブルを作成する（ステップＳ１０１）。

以上の処理を１ＲＵＶ毎に繰り返し実行する。

また、ベースバンドにおける属性情報の処理のうち、顔位置演算処理として、上記の顔位置情報テーブルをメモリ上に一括取得して、第１の時刻の重み移動平均演算で平滑計算した、修正後の顔位置情報テーブルを作成する。さらに、背景水平線の画面縦位置情報テーブルをメモリ上に一括取得して、第２の時刻の重み移動平均演算で平滑計算した、修正後の画面縦位置情報テーブルを作成する（ステップＳ１１１）。

そして、再生画面上での顔揺れ補正のために、現在の１ＲＵＶデータの処理が完了するまでの間（ステップＳ１１３のＮｏ）、再生表示時刻毎に、対応する修正後の顔位置情報及び画面縦位置情報を合成した中心位置情報を逐次出力する（ステップＳ１１２）。

また、ベースバンドにおける再生画像の出力制御処理は、まずミュート状態に制御されているが（ステップＳ１２１）、バッファ・メモリに蓄えられている１ＲＵＶ分の映像ストリーム・データが復号処理されると、これをメモリにマッピングする（ステップＳ１２２）。

そして、ＰＴＳにより再生画表示時刻を与え、対応する合成後の中心位置座標を取得すると、再生表示時刻情報に対応するメモリ上の再生画映像を、当該中心位置に抜き出して（ステップＳ１２３）、再生画を拡大ズーム出力して、顔揺れ補正が施された再生画を出力する（ステップＳ１２４）。

以上の処理を、現在の１ＲＵＶデータの処理が完了するまでの間（ステップＳ１２５のＮｏ）、繰り返し実行する。

なお、本発明における、デジタルカメラで撮影した映像を再生する際の横揺れ防止処理は、専用ハードウェア上で実施される以外に、コンピュータ上で所定のプログラム・コードを実行させるという形態でも実現することが可能である、かかるプログラム・コードは、コンピュータを、映像ストリームを属性情報とともに記録媒体から読み取る読み取り手段、読み取られた映像ストリームを復号する復号手段、属性情報に含まれる顔検出位置情報に基づいて画面移動量を予測して、映像ストリームに含まれる顔揺れを補正する顔揺れ補正手段、顔揺れを補正した後の映像ストリームを出力する出力手段として機能させるものである。

かかるコンピュータ・プログラムは、コンピュータ上で所定の処理を実現するようにコンピュータ可読形式で記述されたコンピュータ・プログラムを定義したものである。換言すれば、このようなコンピュータ・プログラムをコンピュータにインストールすることによって、コンピュータ上では協働的作用が発揮され、本願の請求項１に係る映像再生装置と同様の作用効果を得ることができる。

以上、特定の実施形態を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。

本明細書では、カメラで撮影するなどして得られた映像ストリームをＭＰＥＧ形式の動画フォーマットで付随する属性情報とともに記録媒体に記録し、且つ記録媒体から再生出力するシステムに適用した実施形態を中心に説明してきたが、本発明の要旨はこれに限定されるものではない。ＭＰＥＧ以外の動画フォーマットで映像ストリームを記録再生する場合であっても、本発明が同様に実現可能であることは言うまでもない。

要するに、例示という形態で本発明を開示してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本発明の要旨を判断するためには、特許請求の範囲を参酌すべきである。

Claims

複数のフレーム分の画面グループを単位として構成される映像ストリームの各画面グループの１番目のフレームにおける顔の中心位置座標を含む顔位置情報に基づき、画面移動量を予測し、映像ストリームに含まれる顔の揺れを補正し、再生するように制御する制御部を具備し、
前記制御部は、複数の画面グループ分だけ先読みし、フレーム再生表示時刻と顔の中心位置座標の対応テーブルをフィールド単位で作成し、画面グループ単位毎の顔の中心位置座標からフィールド毎の顔の中心位置の移動量を計算し、さらに最大移動制限量の範囲内で割り切れる数のフィールド集合の移動平均により顔の中心位置座標を補正する、
再生装置。
前記制御部は、画面中心位置に対する顔の中心位置座標のオフセットを取り除くとともに、再生用の画像を顔の中心位置座標で所定の拡大率により拡大することにより、映像ストリームに含まれる顔の揺れを補正し、再生するように制御する、
請求項１に記載の再生装置。
前記制御部は、映像ストリームの再生ストリーム・バッファへの読み取り更新要求が発生するタイミングで、映像ストリームとともに顔の中心位置座標を一括して先読みする、
請求項１に記載の再生装置。
前記制御部は、所定の拡大率により再生用の画像を拡大すると、顔検出エリアが画面範囲を一部外れてしまう場合には、顔検出エリアが画面内部の辺に収まる位置にシフト補正する左右補正幅制限を設ける、
請求項２に記載の再生装置。
前記制御部は、画面中心位置に対する顔の中心位置座標の水平方向のオフセットを取り除くことによって横揺れを補正するとともに、画面中心位置に対する背景の風景水平検出位置座標のオフセットを取り除くことによって縦揺れを補正する、
請求項１に記載の再生装置。
コンピュータが備える制御手段が、複数のフレーム分の画面グループを単位として構成される映像ストリームの各画面グループの１番目のフレームにおける顔の中心位置座標を含む顔位置情報に基づき、画面移動量を予測し、映像ストリームに含まれる顔の揺れを補正し、再生するように制御する制御ステップを有し、
前記制御ステップでは、複数の画面グループ分だけ先読みし、フレーム再生表示時刻と顔の中心位置座標の対応テーブルをフィールド単位で作成し、画面グループ単位毎の顔の中心位置座標からフィールド毎の顔の中心位置の移動量を計算し、さらに最大移動制限量の範囲内で割り切れる数のフィールド集合の移動平均により顔の中心位置座標を補正する、
再生方法。
複数のフレーム分の画面グループを単位として構成される映像ストリームの各画面グループの１番目のフレームにおける顔の中心位置座標を含む顔位置情報に基づき、画面移動量を予測し、映像ストリームに含まれる顔の揺れを補正し、再生するように制御する制御部としてコンピュータを機能させ、
前記制御部は、複数の画面グループ分だけ先読みし、フレーム再生表示時刻と顔の中心位置座標の対応テーブルをフィールド単位で作成し、画面グループ単位毎の顔の中心位置座標からフィールド毎の顔の中心位置の移動量を計算し、さらに最大移動制限量の範囲内で割り切れる数のフィールド集合の移動平均により顔の中心位置座標を補正する、
コンピュータ可読形式で記述されたコンピュータ・プログラム。