以下に本発明の実施の形態を説明するが、本発明の構成要件と、明細書又は図面に記載の実施の形態との対応関係を例示すると、次のようになる。この記載は、本発明をサポートする実施の形態が、明細書又は図面に記載されていることを確認するためのものである。従って、明細書又は図面中には記載されているが、本発明の構成要件に対応する実施の形態として、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その構成要件に対応するものではないことを意味するものではない。逆に、実施の形態が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。
本発明の一側面の情報処理装置(例えば、図6の再生装置)は、
画像コンテンツの全部または一部分をユーザが選択するインデックスを含むGUI(Graphical User Interface)画像の表示を制御する情報処理装置であって、
1以上の画像コンテンツのそれぞれについての各インデックスを含む第1のGUI画像(例えば図10や図11の動画選択GUI画像150)の表示を制御し、
前記第1のGUI画像から1のインデックスが前記ユーザにより選択されたとき(例えば図11の例ではカーソル152が配置されたサムネイル画像151が選択されたとき)、
選択されたインデックスに対応する画像コンテンツの全部または一部分を前記ユーザが選択するインデックスとして、その全部または一部から検出された人物の顔に対応する顔サムネイル画像(例えば図1の動画コンテンツ1の顔区間11乃至14のそれぞれに対応する顔サムネイル画像21乃至24)を含む第2のGUI画像(例えば図12や図13の顔サムネイルGUI画像161)の表示を制御する制御手段(例えば図6の制御部71)
を備える。
前記制御手段は、
前記第2のGUI画像から前記顔サムネイル画像が前記ユーザにより選択されたとき、さらに、
前記第1のGUI画像から選択された前記インデックスに対応する前記画像コンテンツのうちの、前記顔サムネイル画像に対応する前記顔が検出された前記全部または一部分の再生(例えば図12の例では顔サムネイル画像22がカーソル201により選択されているので、図1の顔区間11の再生)を制御する(例えば、図6の制御部71のシステム制御部91等が、ビデオデコード部76や画像合成部78を制御することで、画像表示部79に動画像等を表示させる)。
前記1以上の画像コンテンツは、動画コンテンツ(例えば図1の動画コンテンツ1)を含み、
前記動画コンテンツにおける1以上の一部分のそれぞれから、他の一部分とは異なる人物と判断される顔がそれぞれ検出されており、
前記制御手段は、前記第1のGUI画像から前記動画コンテンツのインデックスが前記ユーザにより選択されたとき、前記動画コンテンツにおける前記1以上の一部分のそれぞれのインデックスとして、それぞれの一部分から検出された前記顔のそれぞれに対応する1以上の顔サムネイル画像(例えば図1や図12等の顔サムネイル画像21乃至24)を含む前記第2のGUI画像の表示を制御する。
前記動画コンテンツにおける1つの前記一部分の前記顔サムネイル画像(例えば図1の顔サムネイル画像21)は、その一部分から生成された静止画像(例えば図2の静止画像31−1)に含まれていた前記顔の領域(例えば図2の顔32−1)が切り出された結果得られる画像自身、またはその画像に基づいて生成された画像である。
前記制御手段は、さらに、前記第2のGUI画像に代えて、1以上の前記顔サムネイル画像のそれぞれ(例えば図12や図13の顔サムネイル画像21乃至24のそれぞれ)が生成された元の前記静止画像にそれぞれ対応する1以上のサムネイル画像(例えば図12や図13のサムネイル画像181乃至184)を、それぞれに対応する前記一部分のインデックスとする第3のGUI画像(例えば図12や図13の元シーンGUI画像162)の表示を制御する。
前記制御手段は、さらに、前記第2のGUI画像において選択されている前記顔サムネイル画像に対応する前記一部分の前記動画コンテンツにおける位置を示す画像(例えば図12や図13のタイムライン191)を含む第4のGUI画像(例えば図12や図13のタイムラインGUI画像163)の表示を制御する。
前記動画コンテンツと、前記1以上の顔サムネイル画像とが対応付けられて記録媒体(例えば図4の記録メディア51)に記録されており、前記制御手段は、前記記録媒体から前記1以上の顔サムネイル画像を読み出す制御をさらに行い、読み出された前記1以上の顔サムネイル画像を含む前記第2のGUI画像の表示を制御する。
本発明の一側面の情報処理方法は、
画像コンテンツの全部または一部分をユーザが選択するインデックスを含むGUI(Graphical User Interface)画像の表示を制御する情報処理装置の情報処理方法(例えば、図6の再生装置の図14に示される処理方法)において、
1以上の画像コンテンツのそれぞれについての各インデックスを含む第1のGUI画像の表示を制御し(例えば図14の動画選択画面表示状態S3−2を維持する制御を行い)、
前記第1のGUI画像から1のインデックスが前記ユーザにより選択されたとき(例えば状態遷移条件C12が満たされたとき)、選択されたインデックスに対応する画像コンテンツの全部または一部分を前記ユーザが選択するインデックスとして、その全部または一部から検出された人物の顔に対応する顔サムネイル画像を含む第2のGUI画像の表示を制御する(例えば、再生装置の状態を動画選択画面表示状態S3−2から顔サムネイル画面表示状態S5−1に遷移させ、その状態S5−1を維持する制御を行う)
ステップを含む。
本発明の一側面のプログラムは、例えば上述した本発明の一側面の情報処理方法のステップを含むプログラムであって、例えば図44のパーソナルコンピュータにより実行される。
次に、本発明の理解を容易なものとするため、はじめに、図1を参照して、本発明により実現可能な動画コンテンツの再生指示操作の概略について説明する。
ここに、コンテンツとは人間の創造的活動により生み出されるものをいい、それらのうちの画像を少なくとも含むコンテンツを画像コンテンツという。また、画像コンテンツは、主に動画像から構成される動画コンテンツと、主に静止画像から構成される静止画コンテンツとに大別される。ただし、本明細書では、いわゆるコンテンツデータ、即ち、人間の創造的活動により生み出されたものが装置によって処理可能な形態とされたもの、例えば電気信号とされたものや記録媒体に記録されたもの等も、特に区別せずにまとめて、コンテンツと称する。
また、以下の説明では、コンテンツはファイル単位で記録媒体に記録されるとし、コンテンツの個数はファイル単位で表現する。即ち、以下の説明では、1つのコンテンツとは、1つのファイルとして記録媒体に記録され得るコンテンツをいう。
従来、複数の動画コンテンツの中から所望の1つの再生を指示するための再生指示操作として、次のような操作が知られている。即ち、複数の動画コンテンツのインデックスとしての各サムネイル画像の一覧がユーザに提示され、ユーザは、その一覧の中から、再生を所望する動画コンテンツに対応するサムネイル画像を選択する、といった再生指示操作が知られている。
本発明では、このような再生指示操作に加えて、さらに、例えば図1に示されるような再生指示操作が可能になる。
図1の例では、再生対象の動画コンテンツ1のうちの、特定人物が連続して登場してきていると判断される区間11に対して、その特定人物の顔の画像がサムネイル画像21として対応付けられている。
なお、以下、区間11のように、動画像中に特定人物が連続して登場してきていると判断される区間を、顔区間と称する。また、サムネイル画像21のように、顔の画像がサムネイル画像として採用されている場合、そのサムネイル画像を特に顔サムネイル画像と称する。
このような顔区間11の他、動画コンテンツ1には顔区間12乃至14のそれぞれがさらに存在し、顔サムネイル画像22乃至24のそれぞれが対応付けられている。
これにより、動画コンテンツ1のうちの顔区間11乃至14の各インデックスの一覧として、顔サムネイル画像21乃至24の一覧がユーザに提示され、ユーザは、その一覧の中から、再生を所望する顔区間に対応する顔サムネイル画像を選択する、といった再生指示操作が可能になる。なお、このような再生指示操作や、それに対応する装置側の処理の詳細については、図4以降の図面を用いて後述する。
換言すると、動画コンテンツに登場する人物やその登場位置を、ユーザに適切かつ判り易く提示すべく、人物の登場位置のひとつとして顔区間が採用され、その顔区間のインデックスとして、その顔区間に登場している人物の顔を含む顔サムネイル画像が採用されている。従って、このような顔サムネイル画像や顔区間を利用することで、上述した要望、即ち、登場人物から動画コンテンツの内容を把握したり、様々な登場人物の中から特定人物のシーンを検索して再生したいといった要望に適切に応えることが可能になる。
以下、このような顔区間の特定手法と顔サムネイル画像の作成手法の概略について、図2と図3を参照して説明する。ただし、各手法の概略の説明において、処理の主体は、単に装置と称する。
図2の例では、動画コンテンツ1は、MPEG(Moving Picture Experts Group)データとして構成されている。即ち、動画コンテンツ1は、複数のGOP(Group Of Picture)から構成されている。
この場合、装置は、動画コンテンツ1を所定の単位毎に区分し、各単位のそれぞれから1枚の静止画像をそれぞれ生成する。この単位は特に限定されず、後述する別の例では主に1つのGOPからなる単位(以下、1GOP単位と称する。同様に以下、k個のGOPからなる単位をkGOP単位と称する)とされているが、ここでは、図2にあわせて2GOP単位であるとする。即ち、ここでは、2GOP単位から1枚の静止画像が生成されるとする。
なお、静止画像の生成手法自体は、特に限定されず、例えば図2の例では、2GOP単位のうちの先頭のGOPから静止画像を生成する手法が採用されている。さらに、そのGOPから静止画像を生成する手法も、特に限定されず、例えば図3に示される手法等を採用することができる。
即ち、図3において、Bと記述された四角はBピクチャを示しており、Iと記述された四角はIピクチャを示しており、また、Pと記述された四角はPピクチャを示している。また、各ピクチャ内の左端付近の数字は、自身が属するGOPにおける先頭からの自身の配置順番を示している。即ち、図3の例では、1つのGOPは15のピクチャから構成されている。
この場合、例えば、装置は、Bピクチャを静止画像として生成することができる。具体的には、装置は、参照しているIピクチャを読み出し、そのIピクチャに基づいてBピクチャを静止画像として生成する。なお、図3には、3番目のIピクチャに基づいて1番目のBピクチャが静止画像として生成された例が示されている。
また例えば、装置は、GOPの先頭から各ピクチャを順次読み出していき、Iピクチャを読み出した段階で、そのIピクチャを静止画像として生成することができる。なお、図3には、3番目のIピクチャが静止画像として生成された例が示されている。
図2に戻り、装置は、このようにして2GOP単位から静止画像を生成すると、その静止画像から顔の検出を試みる。
例えばここで、図2中左から3番目の2GOP単位が処理対象単位とされており、その処理対象単位から静止画像31−1が生成されたとする。また、図2の例では、卵型の形状が人間の顔とされている。この場合、静止画像31−1には、人間の顔が含まれているので、その顔の領域が検出されることになる。そこで、装置は、検出した顔を含む画像(以下、顔画像と称する)32−1を静止画像31−1から抽出する。
このとき、処理対象単位の直前の2GOP単位、即ち、図2の例では2番目の2GOP単位から顔が検出されていなければ、装置は、顔が検出された処理対象単位の先頭位置、即ち、図2の例では3番目の2GOP単位の先頭位置を顔区間11の開始位置として決定する。
ただし、静止画像を生成する単位が2GOP単位以上の長さの場合、処理対象単位の直前の単位に含まれる後半部分のGOPには、同一人物の顔が含まれている可能性がある。そこで、装置は、図2の例のように3番目の2GOP単位の先頭位置を、顔区間11の開始位置と直ちに決定せずに、開始位置の候補にするに留め、その候補の直前の幾つかのGOPについても、同一人物の顔が含まれているか否かを判定し、含まれていない場合には、その候補を顔区間11の開始位置として確定する一方、含まれている場合には、同一人物の顔が含まれている最先のGOPの先頭位置を、顔区間11の開始位置として確定するようにしてもよい。
このようにして顔区間11の開始位置を決定すると引き続き、装置は、それ以降の各2GOP単位を順次処理対象単位としていき、処理対象単位から静止画像を生成し、その静止画像から顔画像の抽出を試みていく、といった処理を繰り返す。
例えば、図2の例では4番目の2GOP単位が処理対象単位とされている場合には、静止画像31−2が生成され、それから顔画像32−2が抽出される。この場合、装置は、この顔画像32−2と、その前に抽出された顔画像32−1との比較判断を行い、同一人物の顔であると判断したときは、顔画像32−2が抽出された2GOP単位、即ち、4番目の2GOP単位も顔区間11の範囲内であると判断する。
同様に、装置は、次の5番目の2GOP単位を処理対象単位として、それから静止画像31−3を生成し、顔画像32−3を抽出する。そして、装置は、この顔画像32−3と、その前に抽出された顔画像32−2との比較判断を行い、同一人物の顔であると判断したときには、顔画像32−3が抽出された2GOP単位、即ち、5番目の2GOP単位も顔区間11の範囲内であると判断する。
さらに、装置は、次の6番目の2GOP単位を処理対象単位として、それから静止画像31−4を生成し、顔の検出を試みる。図2の例の静止画像31−4には顔が含まれていないので、顔は検出されない。そこで、装置は、顔が検出されなくなった2GOP単位、即ち、6番目の2GOP単位の先頭位置、換言すると、その前の5番目の2GOP単位の最後尾位置を、顔区間11の終了位置の候補とする。
ここで、「候補」と記述したのは、2GOP単位に相当する時間は人間にとって短時間であり、そのような短時間に顔が検出されなくとも、その後に同一人物の顔が再度検出されれば、その顔が検出されなかった短時間についても、顔区間が継続している最中であるとみなすことができるからである。即ち、装置は、顔区間11の終了位置の候補決定後も、それ以降の幾つかの2GOP単位について同様に顔の検出を行い、顔が検出されない期間がある程度継続した段階で、顔区間11の終了位置の候補を、顔区間11の終了位置として確定する。
このようにして顔区間11の特定が終了すると、装置は、その顔区間11のインデックスとして顔サムネイル画像21を生成し、顔区間11と対応付ける。なお、顔区間11の顔サムネイル画像21は、上述した静止画像32−1乃至32−3から検出された顔と同一人物と判断される顔の画像であれば足りる。従って、例えば、装置は、顔区間11決定後、その顔区間11から新たな顔画像を生成して、それを顔サムネイル画像21として採用してもよい。また、例えば、装置は、顔区間11を特定している最中に使用した顔画像のうちの何れか1枚を顔サムネイル画像21として採用することもできる。なお、図2の例では、後者の手法が採用されており、顔画像32−1乃至32−3のうちの最初に使用された顔画像32−1が、顔サムネイル画像21として採用されている。
また、装置は、ユーザの便宜のため、顔区間11のインデックスとして、顔サムネイル画像21の他、顔サムネイル画像21の顔を含む静止画像全体をサムネイル画像41として生成することもできる。例えば、図2の例では、顔画像32−1が顔サムネイル画像21として採用されているため、顔画像32−1の抽出元である静止画像31−1全体がサムネイル画像41として採用されている。
即ち、図1には図示されていないが、動画コンテンツ1のうちの顔区間11乃至14のそれぞれのインデックスとして、各顔サムネイル画像21乃至24の他、対応する各静止画像全体の各サムネイル画像もそれぞれも生成することができる。この場合、それらのサムネイル画像の一覧もユーザに提示され、ユーザは、その一覧の中から、再生を所望する顔区間に対応するサムネイル画像を選択する、といった再生指示操作も可能になる。なお、このような再生指示操作や、それに対応する装置側の処理の詳細については、図4以降の図面を用いて後述する。
以上、図2と図3を参照して、顔区間の特定手法と顔サムネイル画像の作成手法の概略について説明した。各手法のさらなる詳細な説明については、図31以降の図面を用いて後述する。
以上説明した顔サムネイル画像の指定による顔区間の再生を可能とするように、コンテンツを記録メディアに記録させる場合、その記録メディアは例えば図4の構造を取ることができる。即ち、図4は、本発明が適用される記録メディアの構造例を示している。
図4の例の記録メディア51には、実データ領域52とリソースデータ領域53とが形成されている。
実データ領域52には、N個(Nは0以上の整数値)のコンテンツ64−1乃至64−Nが記録される。図4の例では、1つのコンテンツ64−K(Kは1乃至Nのうちの何れかの値)は、ビデオデータとオーディオデータとから構成されている。即ち、1つのコンテンツ64−Kは、ビデオデータとオーディオデータとを含む1つのファイルを意味する。
1つのコンテンツ64−Kに対して、それを再生するために必要なリソースデータ65−Kがリソースデータ領域53に記録される。
リソースデータ65−Kには、コンテンツ64−Kについての、管理情報、サムネイル情報および各サムネイル、並びに、コンテンツメタ情報、顔区間メタ情報、および、顔サムネイルが含まれる。
管理情報とは、コンテンツ64−K全体を管理するための各種情報の集合体である。
サムネイルとは、図2のサムネイル画像41等、コンテンツ64−Kのうちの所定の再生期間のインデックスとしての画像である。ただし、かかる画像は、所定の形式の画像データとしてリソースデータ領域53に記録されている。
サムネイル情報とは、上述した各サムネイルに関する各種情報の集合体である。
コンテンツメタ情報とは、コンテンツ64−Kに関するメタ情報であり、例えばコンテンツ64−Kを再生するために必要な基本情報等を含む。ただし、次の顔区間メタ情報は除く。
顔区間メタ情報とは、図1の顔区間11乃至14等の顔区間を再生するために必要な各種情報の集合体である。例えば本実施の形態では、図5に示されるように、顔区間メタ情報は、再生情報、開始時間、再生時間、および記録位置を含んでいる。再生情報とは、例えばコンテンツ64−Kについてのいわゆるコーデック情報である。開始時間とは、顔区間の開始位置を示す情報であり、例えば開始位置を再生時刻に換算した値や、開始位置に対応するGOPのGOP番号等の形態で記載される。再生位置とは、顔区間の長さを示す情報であり、例えば顔区間の長さを再生時間に換算した値や、顔区間の長さをGOP数に換算した値等の形態で記載される。記録位置とは、例えば顔区間が記録されている実データ領域52内の位置を特定する情報、例えば記録メディア51が光ディスクである場合にはセクタ等を示す情報である。
図4に戻り、顔サムネイルとは、図1の顔サムネイル画像21乃至24等、顔区間のインデックスとしての画像である。ただし、かかる画像は、所定の形式の画像データとしてリソースデータ領域53に記録されている。なお、顔サムネイルは、そのインデックスとなっている顔区間の顔区間メタ情報と対応付けて記録されている。
ただし、図4の例では、コンテンツ64−Kのリソースデータ65−Kは1つのファイルではなく、管理情報ファイル61、サムネイル画像ファイル62、およびメタファイル63のそれぞれに分割されて記録される。
換言すると、コンテンツ64−1乃至64−Nのそれぞれの管理情報はまとめて、管理情報ファイル61に含められる。コンテンツ64−1乃至64−Nのそれぞれのサムネイル情報および各サムネイルは、サムネイル画像ファイルに含められる。コンテンツ64−1乃至64−Nのそれぞれのコンテンツメタ情報並びに各顔区間メタ情報および顔サムネイルは、メタファイル63に含められる。
即ち、コンテンツ64−Kの各顔区間メタ情報および顔サムネイルは、コンテンツ64−Kのメタ情報のひとつとしてメタファイルに63に含められる。具体的には例えば、コンテンツ64−Kが図1の動画コンテンツ1である場合には、顔区間11についての顔区間メタ情報と顔サムネイル画像21との組、顔区間12についての顔区間メタ情報と顔サムネイル画像22との組、顔区間13についての顔区間メタ情報と顔サムネイル画像23との組、および、顔区間14についての顔区間メタ情報と顔サムネイル画像24との組、並びに、コンテンツ1のコンテンツメタ情報の集合体が、メタファイル63に含められる。
このようなリソースデータ65−K等のリソースデータを利用することにより、後述する登場人物の顔一覧や位置の表示を再検索なしで、高速に表示することができる。外部からのコンテンツに関する情報の検索要求に対して、リソースデータのみを送信することにより、応答性を改善することができる。
また、リソースデータを利用することで、例えば後述するように、特定の人物が記録されている部分を抽出して新たな動画像データを生成したり、特定の人物が記録されている動画像データのみを再生させたり、特定の人物が記録されている動画像データのみをバックアップさせたりすることが可能となり、自動編集/自動再生/自動バックアップを行う際のデータ抽出に利用することができる。
図6は、かかる図4の構造を有する記録メディア51に記録されたコンテンツ64−Kを再生する再生装置の機能的構成例を示している。即ち、図6は、本発明が適用される情報処理装置としての再生装置の機能的構成例を示している。
ユーザは、図6の例の再生装置に対して、図1を用いて上述した再生指示操作、即ち、顔サムネイル画像を指定することで顔区間の再生を指示する操作を行うことができる。換言すると、図6の例の再生装置は、かかる再生指示操作に対応する処理を実行し、また、記録メディア51に記録されたコンテンツ64−Kのうちの、再生指示操作で指示された顔区間の再生を行う処理を実行することができる。
このため、図6の例の再生装置は、制御部71乃至操作部80を含むように構成されている。
制御部71は、システム制御部91、UI制御部92、およびコンテンツ管理情報制御部93を含むように構成されている。
システム制御部91は、オーディオデコード部74、ビデオデコード部76、静止画デコード部77、および画像合成部78に対する各種制御処理を実行する。
UI(User Interface)制御部92は、画像表示部79に表示されるGUI(Graphical User Interface)画像、例えば後述する図10乃至図13に示されるGUI画像と操作部80とを利用したGUIについての各種制御を行う。
コンテンツ管理情報制御部93は、記録メディア51に記録されている図4のコンテンツ64−Kの再生を行うための管理情報、即ち、リソースデータ65−Kのうちの必要な情報を適宜RAM73の管理情報領域101上に展開する。また、コンテンツ管理情報制御部93は、その管理情報領域101上に展開された各種情報を利用して、例えば後述する図10乃至図13に示されるGUI画像の生成や更新を画像データの形態で実行し、その画像データを静止画デコード部77に提供する。なお、管理情報領域101上に展開される情報の具体例については、図7と図8を用いて後述する。
分離部72は、記録メディア51に記録されているコンテンツ64−1乃至64−Nのうちの再生対象のコンテンツ64−Kの少なくとも一部を読み出して、オーディオデータとビデオデータとに分離して、それぞれRAM73の実データ領域102に記憶させる。なお、「コンテンツ64−Kの少なくとも一部を読み出して」と記述したのは、上述したように、コンテンツ64−Kの一部の区間、例えば顔区間だけの再生も可能だからである。
RAM(Random Access Memory)73には、実データ領域102と管理情報領域101とが設けられている。実データ領域102には、上述したように、ビデオデータとオーディオデータ等の実データが記憶される。管理情報領域101には、上述したように、記録メディア51のリソースデータ65−Kのうちの幾つかの情報が管理情報として記憶される。管理情報領域101のさらなる詳細については、図7と図8を用いて後述する。
オーディオデコード部74は、システム制御部91の制御に基づいて、実データ領域102からオーディオデータを読み出して、音声出力部75のフォーマットの音声信号に変換する変換処理を実行し、その結果得られる音声信号を音声出力部75に提供する。音声出力部75は、オーディオデコード部74からの音声信号に対応する音声、即ち、再生対象のコンテンツ64−Kのオーディオデータに対応する音声を出力する。
ビデオデコード部76は、システム制御部91の制御に基づいて、実データ領域102からビデオデータを読み出して、画像表示部79のフォーマットの画像信号に変換する変換処理を実行し、例えばビデオデータがMPEGデータの場合にはいわゆるMPEGデコード処理を実行し、その結果得られる画像信号を画像合成部78に提供する。
静止画デコード部77は、システム制御部91の制御に基づいて、管理情報領域101から静止画データを読み出し、例えば静止画データの形態のGUI画像を読み出して、画像表示部79のフォーマットの画像信号に変換する変換処理を実行し、その結果得られる画像信号を画像合成部78に提供する。
画像合成部78は、ビデオデコード部76からの画像信号と静止画デコード部77からの画像信号とを合成し、画像表示部79に提供する。画像表示部79は、画像表示部79からの画像信号に対応する画像を表示する。即ち、再生対象のコンテンツ64−Kのビデオデータに対応する動画像や、後述する図10乃至図13のGUI画像等が画像表示部79に表示される。また、図14乃至図16を用いて後述する静止画像も画像表示部79に表示される。
ここで、図7と図8を参照して、RAM73の管理情報領域101の詳細例について説明する。
図7に示されるように、管理情報領域101には、画像処理用領域111、プロパティ領域112、サムネイル領域113、およびメタ領域114が形成されている。
画像処理用領域111には、例えば、後述する図10乃至図13のGUI画像の画像データや、その画像データに対してコンテンツ管理情報制御部93が画像処理を施すために必要な各種情報が記憶される。
プロパティ領域112には、エントリ数やコンテンツ64−Kのサイズ等、図4の記録メディア51へのアクセスに必要な共通情報や、各エントリのプロパティデータ(以下、プロパティエントリと称する)が記憶される。
エントリとは、コンテンツ64−Kのうちの、再生指示がなされた区間をいい、例えば図1の例の顔区間11乃至14等の各顔区間もエントリの1つとなり得る。従って、エントリのプロパティエントリとは、その区間を再生するために必要な各種情報である。
サムネイル領域113には、各エントリのサムネイル等の情報(以下、サムネイルエントリと称する)が記憶される。
メタ領域114には、各エントリのメタデータ等の情報(以下、メタエントリと称する)が記憶される。なお、顔区間がエントリとなっている場合、そのエントリのメタエントリには、対応する顔区間メタ情報と顔サムネイルとの組(図4参照)が含まれる。
ただし、各エントリのプロパティエントリ、メタエントリ、および、サムネイルエントリのそれぞれは、プロパティ領域112、サムネイル領域113、およびメタ領域114のそれぞれにばらばらに記憶されるのではなく、図8の各矢印に示されるように、エントリ毎に対応付けられて記憶される。
次に、このような図6の例の再生装置を利用したユーザの再生指示操作と、その再生指示操作に対応する再生装置の処理との一例について説明する。
図9は、再生指示操作に対応して再生装置が取り得る各状態の一例を示している。
図9において、各状態は、1つのブロックで示されており、そのブロックに引かれた“S”を含む符号により判別される。1つの状態から1つの状態への状態遷移(同一の状態に留まる場合も含む)は、所定の条件(以下、状態遷移条件と称する)が満たされると実行される。このような状態遷移条件は、図9おいては、1つの状態から1つの状態への遷移を表す矢印に、“C”を含む符号を付して表されている。なお、これらの内容は、後述する他の状態遷移図についても同様である。
例えば再生指示の開始を示す操作が操作部80によりなされた場合、UI制御部92は、状態遷移条件C1が満たされたと判定し、再生装置の状態をメディア一覧表示状態S1に遷移させる。
メディア一覧表示状態S1に遷移すると、コンテンツ管理情報制御部93は、メディア一覧GUI画像を画像データの形態でRAM73の管理情報領域101上に生成し、静止画デコード部77に提供する。システム制御部91は、静止画デコード部77と画像合成部78を制御することで、メディア一覧GUI画像の形態を画像データから画像信号に変換して、画像表示部79に提供する。すると、画像表示部79には、メディア一覧GUI画像が表示される。これにより、メディア一覧GUI画像と操作部80とを利用したGUIが可能になる。
ここに、メディア一覧とは、再生装置が再生可能な各種記録メディアのそれぞれのインデックスの一覧をいう。即ち、図示はしないが、かかるメディア一覧が表示され、その一覧の中から所望の記録メディアに対応するインデックスを選択する操作を受け付けるGUI画像が、メディア一覧GUI画像である。
なお、後述する別のGUI画像が画面表示部79に表示されて、その別のGUI画像と操作部80とを利用するGUIが可能になるまでの一連の処理は、上述したメディア一覧GUI画像についての一連の処理と基本的に同様の処理となる。従って、以下、それらの一連の処理は、処理対象のGUI画像の表示処理と称し、その詳細の説明は省略する。
メディア一覧の中から所望の1つの記録メディアを選択する操作が操作部80によりなされた場合、UI制御部92は、状態遷移条件C2が満たされたと判定し、再生装置の状態をメディア一覧表示状態S1からファイル/フォルダ一覧表示状態S2に遷移させる。
ファイル/フォルダ一覧表示状態S2に遷移すると、制御部71は、ファイル/フォルダ一覧GUI画像の表示処理を実行する。
ファイル/フォルダ一覧とは、選択された記録メディアに含まれるフォルダやファイルのアイコンを例えばツリー構造で示す一覧をいう。即ち、図示はしないが、かかるファイル/フォルダ一覧が表示され、その表示の中から所望の1つのフォルダ等に対応するアイコンを選択する操作を受け付けるGUI画像が、ファイル/フォルダ一覧GUI画像である。
なお、ファイル/フォルダ一覧GUI画像には、例えばメディア一覧GUI画像を再表示させるためのソフトウエアボタンが含まれており、かかるソフトウエアボタンを押下する操作がなされると、状態遷移条件C3が満たされたと判定されて、再生装置の状態がファイル/フォルダ一覧表示状態S2からメディア一覧表示状態S1に遷移する。
また、ファイル/フォルダ一覧GUI画像の中から所望の1つのフォルダを選択する操作が操作部80によりなされた場合、UI制御部92は、状態遷移条件C4が満たされたと判定し、再生装置の状態をファイル/フォルダ一覧表示状態S2からフォルダ内ファイル表示状態S3に遷移させる。
具体的には例えば本実施の形態では、フォルダ内ファイル表示状態S3には、一般表示状態S3−1、動画選択画面表示状態S3−2、および、静止画選択画面表示状態S3−3といった3状態が存在する。ファイル/フォルダ一覧表示状態S2からは、これらの3状態うちの一般表示状態S3−1に遷移する。即ち、一般表示状態S3−1が、フォルダ内ファイル表示状態S3のデフォルト状態である。
一般表示状態S3−1に遷移すると、制御部71は、ファイル選択GUI画像の表示処理を実行する。
なお、図示はしないが、ファイル選択GUI画像には、例えばファイル/フォルダ一覧GUI画像を再表示させるためのソフトウエアボタンが含まれており、かかるソフトウエアボタンを押下する操作がなされると、状態遷移条件C5が満たされたと判定されて、再生装置の状態が一般表示状態S3−1からファイル/フォルダ一覧表示状態S2に遷移する。
ここに、ファイル選択GUI画像とは、例えば図示はしないが、選択された記録メディアのフォルダ内に含まれる各ファイルがアイコン等で表示され、所定のアイコンを選択する操作を受け付けるGUI画像をいう。アイコンを選択するとは、そのアイコンに対応するファイルを選択したことを意味する。
この場合、例えば、選択された記録メディアが上述した図4の記録メディア51であるときには、動画コンテンツとしてのコンテンツ64−1乃至64−Nはファイルとして形成されている。従って、コンテンツ64−Kのファイルを選択する操作を行うということは、コンテンツ64−Kの再生指示操作を行うことに他ならない。
しかしながら、ユーザは、ファイルのアイコンを見ただけでは、そのアイコンは、動画コンテンツのファイルであるのか、それとも別の種類のファイルであるのかを判別することは困難である。さらに、ユーザは、動画コンテンツであることまで判別できたとしても、その動画コンテンツのアイコンを見ただけでは、その内容まで認識することは非常に困難である。
そこで、例えば本実施の形態では、図10に示されるような動画選択GUI画像150が用意されている。即ち、動画選択GUI画像150とは、ファイル形態の各動画コンテンツのそれぞれのインデックスとして、各動画コンテンツの代表画像がそれぞれサムネイル画像151として一覧表示され、各サムネイル画像151のうちの所定のものを選択する操作を受け付けるGUI画像をいう。
このような動画選択GUI画像150を表示させるためのソフトウエアボタンが、図示はしないが、ファイル選択GUI画像に含まれており、かかるソフトウエアボタンを押下する操作がなされると、図9の状態遷移条件C6が満たされたと判定されて、再生装置の状態が一般表示状態S3−1から動画選択画面表示状態S3−2に遷移する。
動画選択画面表示状態S3−2に遷移すると、制御部71は、上述した図10の動画選択GUI画像150の表示処理を実行する。
なお、図10には図示はしないが、動画選択GUI画像150には、例えばファイル選択GUI画像を再表示させるためのソフトウエアボタンが含まれており、かかるソフトウエアボタンを押下する操作がなされると、状態遷移条件C7が満たされたと判定されて、再生装置の状態が動画選択画面表示状態S3−2から一般表示状態S3−1に遷移する。
図10の動画選択GUI画像150が表示された状態で、例えば図11に示されるように、ユーザは、操作部80を操作することでカーソル152を所望のサムネイル画像151の位置まで移動させ、操作部80の所定の操作を行うことで、そのカーソル152が配置されたサムネイル画像151を選択することができる。
この場合、サムネイル画像151の選択とは、サムネイル画像151に対応する動画コンテンツの再生指示操作を行ったことを意味する。ただし、本実施の形態では、図1を用いて説明したように、動画コンテンツ全体の再生を指示する再生指示操作(以下、全体再生指示操作)と、動画コンテンツの一部分である顔区間の再生を指示する再生指示操作(以下、顔区間再生指示操作)との2種類が少なくとも存在する。
従って、サムネイル画像151の選択操作についても、全体再生指示操作に対応する第1の選択操作と、顔区間再生指示操作に対応する第2の選択操作との2種類が存在する。
この場合、第1の選択操作がなされると、状態遷移条件C10が満たされたと判定されて、再生装置の状態が動画選択画面表示状態S3−2から動画再生状態S6に遷移する。
動画再生状態S6に遷移すると、制御部71は、全体再生指示操作がなされた動画コンテンツの再生を行う。即ち、状態遷移条件C10が満たされて動画再生状態S6に遷移すると、記録メディアから動画コンテンツ全体が読み出されて、その最初からの再生が行われる。なお、この再生の動作は、図6の構成の説明を参照することで容易に理解できると思われるので、ここではその説明は省略する。
動画コンテンツの最後までの再生が終了したときや、動画コンテンツの再生の停止操作等がなされたとき、状態遷移条件C11が満たされたと判定されて、再生装置の状態が動画再生状態S6から動画選択画面表示状態S3−2に遷移する。
これに対して、顔区間再生指示操作に対応する第2の選択操作がなされると、状態遷移条件C12が満たされたと判定されて、再生装置の状態が動画選択画面表示状態S3−2から顔区間再生選択画面表示状態S5に遷移する。
顔区間再生選択画面表示状態S5に遷移すると、顔区間再生選択GUI画像の表示処理を実行する。
ここに、顔区間再生選択GUI画像とは、動画選択画面GUI画像にて選択された動画コンテンツのうちの、所望の顔区間の再生指示操作を受け付けるGUI画像をいう。
顔区間再生選択GUI画像として、本実施の形態では例えば、図12に示されるような3つのGUI画像161乃至163が用意されている。
図12において、左方のGUI画像161は、動画コンテンツに含まれる各顔区間のそれぞれのインデックス一覧として、顔サムネイル画像の一覧が表示され、その一覧の中から所定の顔画像サムネイルを選択することで、その顔サムネイル画像に対応する顔区間の再生指示操作を受け付けるGUI画像である。かかるGUI画像161を、以下、顔サムネイルGUI画像161と称する。
例えば図12の例では、上述した図1のコンテンツ1が選択されたとして、そのコンテンツ1に含まれる顔区間11乃至14のそれぞれに対応する顔サムネイル画像21乃至24のそれぞれの一覧が、顔サムネイルGUI画像161に表示されている。
図12の顔サムネイルGUI画像161が表示された状態で、例えば図12に示されるように、ユーザは、操作部80を操作することでカーソル201を所望の顔サムネイル画像の位置まで移動させ、操作部80の所定の操作を行うことで、そのカーソル201が配置された顔サムネイル画像に対応する顔区間の再生指示操作を行うことができる。
例えば図12の例ではカーソル201は顔サムネイル画像22に配置されているので、図1の顔区間12の再生指示操作が行われることになる。この場合、記録メディア51等から動画コンテンツ1のうちの顔区間12が読み出されて、その再生が行われる。なお、この再生の動作は、図6の構成の説明を参照することで容易に理解できると思われるので、ここではその説明は省略する。
ここで、コンテンツ1の中から顔区間12として読み出す範囲を特定する手法の一例について、以下、簡単に説明する。上述したように、記録メディア51に記録されている顔区間12についての顔区間メタ情報(図5)により、コンテンツ1のうちの顔区間12に対応する範囲の特定は可能である。従って、顔サムネイル画像22の選択操作の前に、顔区間12のエントリが既に行われていれば、顔区間12についての顔区間メタ情報は、そのエントリのメタエントリとして管理情報領域101に記録されている(図8参照)。そこで、このメタエントリにより、顔区間12として読み出す範囲を特定することができる。また、顔サムネイル画像22の選択操時点で、顔区間12のエントリが行われていなければ、その時点で、顔区間12のエントリを行えばよい。
このような顔サムネイルGUI画像161に対して、GUI画像162においては、顔区間のインデックスとして、顔画像ではなく、その顔画像が抽出された元の静止画像全体に対応するサムネイル画像が採用されている。そこで、かかるGUI画像162を、以下、元シーンGUI画像162と称する。
例えば図12の例では、顔サムネイル画像21乃至24のそれぞれが抽出された元の静止画像に対応するサムネイル画像181乃至184のそれぞれが、顔区間11乃至14のそれぞれのインデックスとして元シーンGUI画像162に表示されている。
従って、図12の元シーンGUI画像162が表示された状態で、例えば図12に示されるように、ユーザは、操作部80を操作することでカーソル201を所望のサムネイル画像の位置まで移動させ、操作部80の所定の操作を行うことで、そのカーソル201が配置されたサムネイル画像に対応する顔区間の再生指示操作を行うことができる。
例えば図12の例ではカーソル201はサムネイル画像182に配置されているので、図1の顔区間12の再生指示操作が行われることになる。すると、記録メディア51等から動画コンテンツ1のうちの顔区間12が読み出されて、その再生が行われる。
さらに、本実施の形態では、ユーザは、顔サムネイルGUI画像161上で所望の顔サムネイル画像にカーソル201を配置させた後、または、元シーンGUI画像162上で所望のサムネイル画像にカーソル201を配置させた後、即ち、顔サムネイルGUI画像161または元シーンGUI画像162において所定の顔区間を選択した後、操作部80の所定の操作を行うことで、その所定の顔区間についての動画コンテンツ中の時間位置を示すタイムライン191を含むGUI画像163を表示させることができる。例えば、図12の例では、上述したように顔区間12が選択されているので、タイムライン191としては、図1の動画コンテンツ1に対応する帯状の画像が表示され、その帯状の画像内に顔区間12を示す画像のみが表示されている。以下、このようなGUI画像163を、タイムラインGUI画像163と称する。
このタイムラインGUI画像163が表示された状態で、ユーザは、操作部80の所定の操作を行うことで、そのタイムライン191に表示された顔区間の再生指示操作を行うことができる。
例えば図12の例ではタイムライン191には、図1の顔区間12のみが表示されているので、その顔区間12の再生指示操作が行われることになる。すると、記録メディア51等から動画コンテンツ1のうちの顔区間12が読み出されて、その再生が行われる。
さらにまた、図12の例では、1つの顔サムネイル画像21または1つのサムネイル画像181が選択されているのみであるが、図13に示されるように顔サムネイル画像21乃至24の全部またはサムネイル画像181乃至184の全部を選択することもできるし、或いは、それらのうちの幾つかの顔サムネイル画像またはサムネイル画像だけを選択することができる。即ち、1回の再生指示操作で複数の顔区間の選択も可能である。
この場合、1回の再生指示操作で選択された各顔区間、例えば図13の例では顔区間11乃至14(図1参照)が順番に連続再生されることになる。
このように、本実施の形態では、顔区間再生選択GUI画像として、図12に示されるような3種類のGUI画像、即ち、顔サムネイルGUI画像161、元シーンGUI画像162、および、タイムラインGUI画像163のそれぞれが用意されている。従って、図14に示されるように、顔区間選択画面表示状態S5には、顔サムネイルGUI画像161が表示される顔サムネイル画面表示状態S5−1、元シーンGUI画像162が表示される元シーン画面表示状態S5−2、および、タイムラインGUI画像163が表示されるタイムライン画面表示状態S5−3の3状態が存在する。
顔サムネイル画面表示状態S5−1、元シーン画面表示状態S5−2、または、タイムライン画面表示状態S5−3で、上述した1以上の顔区間の再生指示操作が行われると、状態遷移条件C14−1、C14−2、またはC14−3が満たされたと判定されて、再生装置の状態が動画再生状態S6に遷移する。
動画再生状態S6に遷移すると、制御部71は、上述したように、再生指示操作がなされた1以上の顔区間の連続再生を行う。
1以上の顔区間の最後までの連続再生が終了したときや、途中で再生の停止操作等がなされたとき、状態遷移条件C11が満たされたと判定されて、再生装置の状態が動画再生状態S6から動画選択画面表示状態S3−2に遷移する。
また、図示はしないが、顔サムネイルGUI画像161、元シーンGUI画像162、および、タイムラインGUI画像163のそれぞれには、例えば動画選択GUI画像150を再表示させるためのソフトウエアボタンが含まれており、かかるソフトウエアボタンを押下する操作がなされると、状態遷移条件C13−1、C13−2、またはC13−3が満たされたと判定されて、再生装置の状態が動画選択画面表示状態S3−2に遷移する。
また、図示はしないが、顔サムネイルGUI画像161、元シーンGUI画像162、および、タイムラインGUI画像163のそれぞれには、例えば別の種類の顔区間選択GUI画像を表示させるためのソフトウエアボタンが含まれており、かかるソフトウエアボタンを押下する操作がなされると、状態遷移条件C21乃至C26のうちの何れかが満たされたと判定されて、再生装置の状態が、顔サムネイル画面表示状態S5−1、元シーン画面表示状態S5−2、および、タイムライン画面表示状態S5−3のうちの、所定の1つから選択指示された別の1つに遷移する。
以上説明したように、図6等の構成を有する本発明が適用される再生装置は、顔サムネイルGUI画像161等をユーザに提示して顔サムネイル画像等をユーザに選択させることで、選択された顔サムネイル画像等に対応する顔区間の再生を行うことができる。
また、ユーザは、顔サムネイル画像等を1つのみならず複数選択可能である。この場合、選択された複数の顔サムネイル画像等のそれぞれに対応する複数の顔区間が連続して再生される。例えば、上述した図13の例では、図1の動画コンテンツ1の顔区間11乃至14のそれぞれに対応する顔サムネイル画像21乃至24またはサムネイル画像181乃至184が選択されているので、顔区間11乃至14がその順番で連続して再生される。
そこで、さらに、選択された1以上の顔区間を1つの新コンテンツとして、即ち、1つの新ファイルとして生成し、それを外部の記録メディア51等に新たに記録させたり、また、ネットワークを介する等して外部の図示せぬ装置に転送する、といった手法の実現も可能である。以下、かかる手法を、一括書込転送手法と称する。
具体的には例えば、図15の例のように、動画コンテンツ1の顔区間11乃至14のそれぞれに対応する顔サムネイル画像21乃至24が選択された後、所定の操作に応じて、顔区間11乃至14がその順番で再生される新コンテンツ211を生成し、新コンテンツ211のインデックスとしてのサムネイル画像212を動画選択GUI画像150に新規追加したり、新コンテンツ211を記録メディア51に記録する、といった一括書込転送手法の実現も可能になる。
ただし、一括書込転送手法を装置に適用するためには、図4乃至図14を用いて上述した内容に加えてさらに、例えば次の図16乃至図18に示される措置が必要となる。
即ち、上述した図12の顔サムネイルGUI画像161と元シーンGUI画像162のそれぞれを利用して、一括書込転送手法を実現するためには、例えば、図16に示されるように、顔サムネイルGUI画像161にソフトウエアボタン251−1乃至253−1を追加したり、元シーンGUI画像162にソフトウエアボタン251−2乃至253−2を追加するとよい。
なお、以下、ソフトウエアボタン251−1乃至253−1のそれぞれと、ソフトウエアボタン251−2乃至253−2のそれぞれとを個々に区別する必要がない場合、それらをまとめて単に、ソフトウエアボタン251乃至253のそれぞれと称する。さらに、以下、ソフトウエアボタン251乃至253のそれぞれを、図16の記載に併せて、再生ボタン251、ファイル生成ボタン252、および、外部書込みボタン253のそれぞれと称する。
再生ボタン251とは、選択された1以上の顔サムネイル画像またはサムネイル画像のそれぞれに対応する1以上の顔区間をその順番で連続して再生させるための再生指示操作を行うソフトウエアボタンをいう。
ファイル生成ボタン252とは、選択された1以上の顔サムネイル画像またはサムネイル画像のそれぞれに対応する1以上の顔区間を新コンテンツとして、即ち、新ファイルとして生成し、再生装置内部のメモリ、例えば後述する図17のRAM73等に記憶させるための指示操作を行うソフトウエアボタンをいう。このファイル生成ボタン252の押下操作により、上述した図15の新コンテンツ211の例のように、新コンテンツに対応するサムネイル画像が動画選択GUI画像150に新規追加される。従って、ユーザは、新規追加のサムネイル画像を選択することで、新コンテンツの再生指示操作を行うことが可能になる。
外部書込みボタン253とは、選択された1以上の顔サムネイル画像またはサムネイル画像のそれぞれに対応する1以上の顔区間を新コンテンツとして、即ち、新ファイルとして生成し、外部の記録媒体51等に記録させたり、ネットワークを介在する等して外部の装置に転送するための指示操作を行うソフトウエアボタンをいう。この外部書込みボタン253の押下により、上述した図15の新コンテンツ211の例のように、新コンテンツを記録メディア51等に記録させることが可能になる。
図17は、一括書込転送手法が適用された記録再生装置の構成例を示している。即ち、図17は、本発明が適用される情報処理装置としての記録再生装置の構成例であって、図6とは異なる例を示している。
なお、図17の記録再生装置において、図6の再生装置と対応する部分には対応する符号を付してあり、対応する部分については適宜説明を省略する。
上述したように、一括書込転送手法では、顔サムネイル画像等を用いて選択された1以上の顔区間を1つの新コンテンツとして、即ち、1つの新ファイルとして生成することが可能になる。ただし、複数の顔区間が選択された場合、それらの複数の顔区間のそれぞれを繋げる編集作業が必要となる。この編集作業は、例えば本実施の形態では、ベースバンド信号の状態で行われる。そこで、図17の記録再生装置では、図6の再生装置のオーディオデコード部74、ビデオデコード部76、および、静止画デコード部77のそれぞれの代わりに、デコード処理(圧縮符号化)に加えてさらにエンコード処理(伸張復号処理)も可能な各機能ブロック、即ち、オーディオエンコードデコード部261、ビデオエンコードデコード部262、および、静止画エンコードデコード部263のそれぞれが設けられているのである。
即ち、図17の記録再生装置が、例えば図15の例の新コンテンツ211を生成する場合には、その処理の一環として次のような処理を実行する。即ち、例えば顔区間11乃至14がMPEGデータの形態でRAM73に格納されているとする。この場合、ビデオエンコードデコード部262は、顔区間11乃至14のそれぞれに対して、いわゆるMPEGエンコード処理(伸張復号処理)を施すことで、その形態をMPEGデータからベースバンド信号の形態に変換する。ベースバンド信号の顔区間11乃至14は、例えばRAM73の管理情報領域101の画像処理用領域111(図7)に記憶される。制御部71は、この顔区間11乃至14を繋ぎ合わせた新コンテンツ211をベースバンド信号の形態で生成し、ビデオエンコードデコード部262に提供する。すると、ビデオエンコードデコード部262は、新コンテンツ211に対していわゆるMPEGデコード処理(圧縮符号化処理)を施すことで、その形態をベースバンド信号からMPEGデータに変換し、RAM73の実データ領域73等に記憶させる。
なお、新コンテンツ211に音声が含まれる場合には、オーディオエンコードデコード部261によって、上述したビデオエンコードデコード部262と同様の処理が実行される。
また、図17の例では、このような新コンテンツ211等の新コンテンツを記録メディア51に記録させるべく、コンテンツ管理情報制御部93が記録メディア51に対して直接アクセスできるように構成されている。
このような図17の構成を有する記録再生装置は、図9乃至図14を用いて上述した処理を、図6の再生装置と全く同様に実行できる。即ち、図17の記録再生装置は、ユーザの再生指示操作に対応する処理と、その再生指示操作を受けてコンテンツを再生する処理とを実行できる。
さらに、図17の記録再生装置は、例えば図18に例示されているような一括書き出し処理を実行できる。
なお、この一括書き出し処理は、記録再生装置の状態が上述した図14の顔区間選択画面表示状態S5となっている場合に実行される。即ち、例えば本実施の形態では、上述した図16の顔サムネイルGUI画像161や元シーンGUI1画像62が画像表示部79に表示されている状態で、一括書き出し処理が実行される。
図18のステップS21において、図17の制御部71のUI制御部92は、ファイル生成ボタン252または外部書込みボタン253が押下されたか否かを判定する。
ファイル生成ボタン252または外部書込みボタン253の何れもが押下されていない場合、ステップS21の処理でNOであると判定されて、処理はステップS21に戻され、再度ステップS21の判定処理が繰り返される。
その後、ファイル生成ボタン252または外部書込みボタン253が押下されると、ステップS21の処理でYESであると判定されて、処理はステップS22に進む。
ステップS22において、コンテンツ管理制御部93は、選択されている顔サムネイル画像またはサムネイル画像に対応する部分を連続再生するためのリソースデータを生成する。
ステップS23において、コンテンツ管理制御部93は、そのリソースデータを含む一時フォルダをRAM73の管理情報領域101に生成する。
具体的には例えば、図19の例のように、顔サムネイルGUI画像161が利用されて、顔サムネイル画像21乃至24が選択された後、ファイル生成ボタン252−1または外部書込みボタン253−1が押下されたとする。
この場合、顔サムネイル画像21乃至24のそれぞれは顔区間11乃至14のそれぞれのインデックスとされていることから、ステップS22の処理で、顔区間11乃至14のそれぞれを再生するためのリソースデータ271乃至274が生成され、ステップS23の処理で、それらを含む一時フォルダ261がRAM73の管理情報領域101に記録される。ここで、リソースデータ271乃至274とは、例えば顔区間11乃至14についての顔区間メタ情報と顔サムネイルとの組(図4参照)を含むデータである。
図18のステップS24において、UI制御部92は、押下されたボタンは、ファイル生成ボタン252であるか否かを判定する。
ファイル生成ボタン252が押下された場合には、ステップS24の処理でYESであると判定されて、処理はステップS25に進む。
ステップS25において、コンテンツ管理情報制御部93は、RAM73の共通管理情報領域に一時フォルダの情報を書き込むことで、その一時フォルダを恒久的なフォルダにする。これにより、一括書き出し処理は終了となる。
これに対して、外部書込みボタン253が押下された場合には、ステップS24の処理でNOであると判定されて、処理はステップS26に進む。
ステップS26において、コンテンツ管理情報制御部93とシステム制御部91は、一時フォルダ内のリソースデータと実データとを一体にした新コンテンツをファイルとして作成する。なお、実データの作成処理については、ビデオエンコードデコード部262の説明等で上述したとおりである。
ステップS27において、コンテンツ管理情報制御部93は、新コンテンツをファイルとして外部の記録メディア51等に記録させる。これにより、一括書き出し処理は終了となる。
なお、図17の例では図示していないが、記録再生装置が、他の装置との通信機能を有していれば、ステップS27の処理として、その通信機能を利用して、新コンテンツを他の装置に送信するようにしてもよい。
ところで、上述した例では、顔サムネイル画像は動画コンテンツに対応付けられていたが、顔サムネイル画像は静止画コンテンツに対応付けることも可能である。これにより、ユーザは、動画コンテンツの場合と全く同様に、顔サムネイル画像の一覧が表示されたGUI画像を利用して、静止画コンテンツの検索操作や再生指示操作を行うことができる。
ただし、再生指示操作で指定可能な静止画コンテンツの数は、動画コンテンツに比較すると遥かに多い場合が多々ある。このような場合には、静止画コンテンツの全てに対応する顔サムネイル画像の一覧を表示させるよりも、例えば、同一人物が含まれると判断される静止画コンテンツを1つのグループにまとめ、そのグループに属する静止画像のうちの所定の1枚の顔サムネイル画像を代表顔サムネイル画像として、各グループの代表顔サムネイル画像の一覧を表示させる方が、ユーザにとって便宜である。
具体的には例えば、図20に示されるように、記録メディア51に記録されている静止画コンテンツが、3人のそれぞれの人物を示す3つのグループに属するとすれば、3つのグループのそれぞれに対してフォルダ271乃至273(以下、人物フォルダ271乃至273と称する)のそれぞれを設け、それらの人物フォルダ271乃至273のそれぞれの中に、対応するグループに属する1以上の静止画像のそれぞれを表示するための各リソースデータを含めればよい。例えばリソースデータとしては、対応する顔サムネイル画像と、その顔サムネイル画像と静止画コンテンツのリンク情報とを含むデータを採用することができる。
この場合、この人物フォルダ271乃至273は、記録メディア51等に予め記憶させておいてもよいし、図6の再生装置等により後程生成されて自身のRAM73の管理情報領域101等に記憶されるようにしてもよい。
以下、人物フォルダ271乃至273がRAM73の管理情報領域101等に記憶されている場合に実現可能な図6の再生装置の処理例について説明する。
この場合、再生装置の状態は、上述した図9の各状態のうちの未説明の静止画像選択画面表示状態S3−3を取り得る。
静止画像選択画面表示状態S3−3とは、静止画選択GUI画像を表示している状態をいう。
静止画選択GUI画像とは、各人物ファイルのインデックスとして、対応する代表顔サムネイル画像等が一覧表示され、所望の人物ファイルに対応する代表顔サムネイル画像を選択する操作を受け付けるGUI画像等のGUI画像をいう。ここに、「等」と記載したのは、左記のGUI画像により1つの人物ファイルが選択された後に、その人物ファイルに含まれる各サムネイル画像等が一覧表示されるGUI画像も、静止画選択GUI画像のひとつとして含むからである。なお、静止画選択GUI画像の具体例については、図22乃至図25を用いて後述する。
このような静止画選択GUI画像を表示させるためのソフトウエアボタンが、図示はしないが、一般表示状態S3−1において表示されるファイル選択GUI画像に含まれており、かかるソフトウエアボタンを押下する操作がなされると、状態遷移条件C8が満たされたと判定されて、再生装置の状態が一般表示状態S3−1から静止画選択画面表示状態S3−3に遷移する。
静止画選択画面表示状態S3−3に遷移すると、図6の制御部71は、静止画選択GUI画像の表示処理を実行する。
具体的には例えば本実施の形態では、静止画選択画面表示状態S3−3には、図21に示されるように、静止画一覧画面表示状態S31、顔サムネイル画面表示状態S32、顔サムネイル元画像画面表示状態S33、および、選択人物元画像一覧画面表示状態S34の4状態が存在する。
一般表示状態S3−1からは、これら4状態のうちの静止画一覧画面表示状態S31に遷移する。即ち、静止画一覧画面表示状態S31が、静止画選択画面表示状態S3−3のデフォルト状態である。
静止画一覧画面表示状態S31に遷移すると、制御部71は、静止画一覧GUI画像の表示処理を実行する。
なお、図示はしないが、静止画一覧GUI画像には、例えばファイル選択GUI画像を再表示させるためのソフトウエアボタンが含まれており、かかるソフトウエアボタンを押下する操作がなされると、状態遷移条件C9が満たされたと判定されて、再生装置の状態が静止画一覧画面表示状態S31から一般表示状態S3−1に遷移する。
ここに、静止画一覧GUI画像とは、例えば図示はしないが、選択されたフォルダ内にファイルとして含まれる全ての静止画コンテンツのインデックスの一覧表示として、その静止画コンテンツ自身に対応するサムネイル画像の一覧が表示され、その一覧の中から所望のサムネイル画像を選択する操作を受け付けるGUI画像をいう。
この静止画一覧GUI画像が表示された状態で所定のサムネイル画像が選択されると、即ち、そのサムネイル画像に対応する静止画コンテンツの再生指示がなされると、状態遷移条件C15−1が満たされたと判定されて、再生装置の状態が静止画一覧画面表示状態S31から静止画表示状態S4に遷移する。
静止画表示状態S4に遷移すると、制御部71は、再生指示操作がなされた静止画コンテンツの再生を行う。即ち、状態遷移条件C15−1が満たされて静止画表示状態S4に遷移すると、記録メディア51等から静止画コンテンツが読み出されて、その再生が行われる。即ち図6の画像表示部79に静止画像が表示される。なお、この静止画コンテンツの再生の動作は、動作対象のひとつとして図6のビデオデコード部76の代わりに静止画デコード部77が利用される以外は、動画コンテンツの再生動作と基本的に同様であるので、ここではその説明は省略する。
静止画コンテンツの再生の停止操作等がなされたとき、状態遷移条件C16−1が満たされたと判定されて、再生装置の状態が静止画表示状態S4から静止画一覧画面表示状態S31に遷移する。
ところで、上述したように、静止画一覧GUIではサムネイル画像として全ての静止画コンテンツ自体が表示されることになるので、その静止画コンテンツの数が多いときは、サムネイル画像の数もその分多くなる。従って、そのような数多くのサムネイル画像の中から所望の1つを選択するのはユーザにとって酷である。
そこで、本実施の形態では、上述したように、人物フォルダ毎に、各人物を示す代表顔サムネイル画像が1つずつ対応付けられており、かかる代表顔サムネイル画像の一覧が表示され、その一覧から所望の代表顔サムネイル画像の選択を受け付けるGUI画像が設けられている。以下、かかるGUI画像も、顔サムネイルGUI画像と称する。
図示はしないが、静止画一覧GUI画像には、例えば顔サムネイルGUI画像を表示させるためのソフトウエアボタンが含まれており、かかるソフトウエアボタンを押下する操作がなされると、状態遷移条件C51が満たされたと判定されて、再生装置の状態が静止画一覧画面表示状態S31から顔サムネイル画面表示状態S32に遷移する。
顔サムネイル画面表示状態S32に遷移すると、制御部71は、顔サムネイルGUI画像の表示処理を実行する。
これにより、例えば図22に示されるような顔サムネイルGUI画像301が表示される。図22の例では、4つの人物フォルダのそれぞれのインデックスとしての代表顔サムネイル画像311乃至314の一覧が、顔サムネイルGUI画像301に表示されている。
なお、実際には、代表顔サムネイル画像311乃至314のそれぞれには、人物の顔の画像が含まれることになるが、図22の例では説明を容易なものとするために、人物の名称を示すα乃至θが図示されている。即ち、図22の例では、代表顔サムネイル画像311は、人物αの人物フォルダのインデックスであり、実際には人物αの顔の画像が含まれる。同様に、代表顔サムネイル画像312は、人物βの人物フォルダのインデックスであり、実際には人物βの顔の画像が含まれる。代表顔サムネイル画像313は、人物γの人物フォルダのインデックスであり、実際には人物γの顔の画像が含まれる。代表顔サムネイル画像314は、人物θの人物フォルダのインデックスであり、実際には人物θの顔の画像が含まれる。
なお、本実施の形態ではさらに、図23に示されるGUI画像302、即ち、人物フォルダのインデックスとして、代表顔画像ではなく、その代表顔画像が抽出された元の静止画像がサムネイル画像として表示されたGUI画像302も用意されている。そこで、かかるGUI画像302を、以下、顔サムネイル元画像GUI画像302と称する。
例えば図23の例では、図22の代表顔サムネイル画像311乃至314のそれぞれが抽出された元の静止画像であるサムネイル画像321乃至324の一覧が、顔サムネイル元画像GUI画像302に表示されている。なお、カーソル331については後述する。
図示はしないが、図22の顔サムネイルGUI画像301には、例えば図23の顔サムネイル元画像GUI画像302を表示させるためのソフトウエアボタンが含まれており、かかるソフトウエアボタンを押下する操作がなされると、図21の状態遷移条件C53が満たされたと判定されて、再生装置の状態が顔サムネイル画面表示状態S32から顔サムネイル元画像画面表示状態S33に遷移する。
顔サムネイル元画像画面表示状態S33に遷移すると、制御部71は、顔サムネイル元画像GUI画像302の表示処理を実行する。これにより、例えば図23の顔サムネイル元画像GUI画像302が表示される。
また、図示はしないが、図23の顔サムネイル元画像GUI画像302には、例えば図22の顔サムネイルGUI画像301を表示させるためのソフトウエアボタンが含まれており、かかるソフトウエアボタンを押下する操作がなされると、図21の状態遷移条件C54が満たされたと判定されて、再生装置の状態が顔サムネイル元画像画面表示状態S33から顔サムネイル画面表示状態S32に遷移する。
また、図22の顔サムネイルGUI画像301が表示された状態で、例えば図24に示されるように、ユーザは、操作部80を操作することでカーソル341を所望の代表顔サムネイル画像311の位置まで移動させ、操作部80の所定の操作を行うことで、そのカーソル341が配置された代表顔サムネイル画像311に対応する人物フォルダ、即ち、人物αの人物フォルダの再生指示操作を行うことができる。
同様に、図23の顔サムネイル元画像GUI画像302が表示された状態で、例えば同図に示されるように、ユーザは、操作部80を操作することでカーソル331を所望のサムネイル画像321の位置まで移動させ、操作部80の所定の操作を行うことで、そのカーソル331が配置されたサムネイル画像321に対応する人物フォルダ、即ち、人物αの人物フォルダの再生指示操作を行うことができる。
このようにして、図24の顔サムネイルGUI画像301が表示された状態で人物αの人物フォルダの再生指示操作が行われ場合には、図21の状態遷移条件C55が満たされ、また、図23の顔サムネイル元画像GUI画像302が表示された状態で人物αの人物フォルダの再生指示操作が行われ場合には、状態遷移条件C57が満たされ、その結果、再生装置の状態は選択人物元画像一覧画面表示状態S34に遷移する。
選択人物元画像一覧画面表示状態S34に遷移すると、制御部71は、選択人物元画像一覧GUI画像の表示処理を実行する。
ここに、選択人物元画像一覧GUI画像とは、選択された人物フォルダ内に含まれる全ての静止画コンテンツ自身、即ち、選択された人物を含む静止画コンテンツ自身がサムネイル画像として一覧表示され、所定のサムネイル画像を選択する操作を受け付けるGUI画像をいう。
例えばここでは、人物αの人物フォルダが選択されたので、図25に示されるように、人物αを含む静止画像351乃至356がサムネイル画像として一覧表示された選択人物元画像一覧GUI画像303が表示される。
なお、図示はしないが、この選択人物元画像一覧GUI画像303には、例えば図22の顔サムネイルGUI画像301を表示させるためのソフトウエアボタンが含まれており、かかるソフトウエアボタンを押下する操作がなされると、図21の状態遷移条件C56が満たされたと判定されて、再生装置の状態が選択人物元画像一覧画面表示状態S34から顔サムネイル画面表示状態S32に遷移する。
図25の選択人物元画像一覧GUI画像303が表示された状態で、例えば同図に示されるように、ユーザは、操作部80を操作することでカーソル361を所望のサムネイル画像356の位置まで移動させ、操作部80の所定の操作を行うことで、そのカーソル361が配置されたサムネイル画像356に対応する静止画コンテンツの再生指示操作を行うことができる。
このようにして静止画コンテンツの再生指示がなされると、図21の状態遷移条件C15−2が満たされたと判定されて、再生装置の状態が選択人物元画像一覧画面表示状態S34から静止画表示状態S4に遷移する。
静止画表示状態S4に遷移すると、制御部71は、再生指示操作がなされた静止画コンテンツの再生を行う。即ち、状態遷移条件C15−1が満たされて静止画表示状態S4に遷移すると、記録メディア51等から静止画コンテンツが読み出されて、その再生が行われる。具体的には例えば、図26に示されるように、再生対象の静止画像356を含むGUI304が表示される。
なお、説明の簡略上、図25と図26の静止画像356は同符号が付されているが、実際には、図26の静止画像356がオリジナルサイズ(オリジナル解像度)であり、そのオリジナルサイズの縮小画像等が、図25の選択人物元画像一覧GUI画像303におけるサムネイル画像として利用されている。
静止画コンテンツの再生の停止操作等がなされたとき、図21の状態遷移条件C16−2が満たされたと判定されて、再生装置の状態が静止画表示状態S4から選択人物元画像一覧画面表示状態S34に遷移する。
以上、図21乃至図26を用いて、静止画コンテンツの再生指示操作に対する処理の説明をしたが、その処理の実行主体は図6の構成の再生装置とされた。ただし、その実行主体は図6の再生装置に限定されず、例えば上述した図17の記録再生装置も動作主体となり得る。
この場合、図17の記録再生装置は、図15を用いて上述した一括書込転送手法が適用可能であることから、かかる一括書込転送手法を静止画コンテンツに対した処理として、例えば次のような処理も実行できる。即ち、図17の記録再生装置は、上述した人物フォルダを新たに生成し、その新たな人物フォルダに対応する代表顔サムネイル画像を図22の顔サムネイルGUI画像301に追加したり、その新たな人物フォルダと、対応する幾つかの静止画コンテンツとを、外部の記録メディア51に新たに記録させたり、また、ネットワークを介する等して外部の図示せぬ装置に転送することもできる。
具体的には例えば、図27に示されるように、静止画一覧GUI画像361に、図16と同様の再生ボタン251−3、ファイル生成ボタン252−3、および、外部書込みボタン253−3を追加することで、図17の記録再生装置は例えば次のような処理を実行できる。
なお、図27の例では、静止画一覧GUI画像361におけるサムネイル画像371乃至374のそれぞれは、静止画コンテンツ381乃至384のそれぞれのインデックスとされている。
例えばここで、静止画一覧GUI画像361において、サムネイル画像371乃至374の全てが選択された後、ファイル生成ボタン252−3または外部書込みボタン253−3が押下されたとする。
この場合、図17の記録再生装置の制御部71は、静止画コンテンツ381乃至384のそれぞれを再生するためのリソースデータ391乃至394を生成して、それらを含む一時フォルダ398を例えばRAM73の管理情報領域101に記録する。ここで、リソースデータ391乃至394として、例えば上述したように、静止画コンテンツ381乃至384のそれぞれについての、対応する顔サムネイル画像と、その顔サムネイルと自身のリンク情報とを含むデータを採用することができる。この場合、これらの顔サムネイル画像のうちの所定の1枚を代表顔サムネイル画像として採用することができる。
そして、ファイル生成ボタン252−3が押下された場合には、図17のコンテンツ管理情報制御部93は、RAM73の共通管理情報領域に一時フォルダ398の情報を書き込むことで、その一時フォルダ398を恒久的なフォルダにする。これにより、一括書き出し処理は終了となる。
これに対して、外部書込みボタン253−3が押下された場合には、図17のコンテンツ管理情報制御部93とシステム制御部91は、一時フォルダ398内のリソースデータ391乃至394と静止画コンテンツ381乃至384とを一体にした新コンテンツをファイルとして作成する。そして、コンテンツ管理情報制御部93は、新コンテンツをファイルとして外部の記録メディア51に記録させたり、図示せぬ他の装置に送信する。
以上、本発明が適用される情報処理装置の実施の形態として、図4の記録メディア51に記録されている動画コンテンツまたは静止画コンテンツを再生可能な装置であって、顔サムネイル画像を利用した再生指示操作のGUIを提供可能な装置について説明してきた。
次に、本発明が適用される情報処理装置の実施の別の形態として、顔サムネイル画像を利用した再生指示操作のGUIを提供可能とするように、動画コンテンツや静止画コンテンツを記録媒体51等に記録する画像記録装置について説明する。
図28は、かかる画像記録装置の機能的構成例を示している。
図28の例では、画像記録装置401は、制御部411乃至書込部415を含むように構成されている。
制御部411は、例えばCPU(Central Processing Unit)等で構成され、図示せぬROM(Read Only Memory)等に記憶されているプログラムに従って各種の制御処理を実行する。即ち、制御部411は、撮像部412乃至書込部415のそれぞれの動作を制御する。
撮像部412は、例えばデジタルビデオカメラ等で構成され、被写体を撮像し、その撮像の結果得られる画像信号を例えばベースバンド信号の形態で画像加工部413に提供する。
画像加工部413は、撮像部412からの画像信号に対して各種画像処理を施すことで、画像信号に対応する動画像または静止画像に対して各種加工を施し、各種加工後の動画像または静止画像に対応する画像信号をベースバンド信号の形態で画像圧縮部414に提供する。なお、詳細については後述するが、ここでいう「画像の加工」として、上述した顔区間の特定や、その顔区間のインデックスとしての顔サムネイル画像やサムネイル画像の作成も含まれており、かかる顔区間の情報や、顔サムネイル画像やサムネイル画像も所定のデータとして画像加工部413から出力されて、制御部411や書込部415に提供される。
画像圧縮部414は、撮像部412から画像加工部413を介してベースバンド信号の形態で提供されてきた画像信号に対して、所定の圧縮符号化処理を施し、例えば動画像信号であればいわゆるMPEGデコード処理を施し、その結果得られる圧縮画像データを書込部415に提供する。なお、後述するように、この圧縮画像データ(MPEGデータ等)は、顔区間検出用の画像信号として画像加工部413に提供される場合もある。
書込部415は、画像圧縮部414から提供されてきた画像データを画像コンテンツとして、即ち、1ファイルとして記録メディア51に書き込むとともに、その画像コンテンツのリソースデータも記録メディア51に書き込む。このリソースデータの中には、画像加工部413または制御部411から提供された顔サムネイル画像や顔区間の情報を含む。即ち、顔サムネイル画像や顔区間の情報が、上述した図4の顔サムネイルと顔区間メタ情報との組として、記録メディア51のリソースデータ領域53に書き込まれる。
図29は、かかる画像記録装置401のうちの画像加工部413の詳細な機能的構成例を示している。
図29の例では、画像加工部413は、ノイズ除去部421乃至画像情報検出部427を含むように構成されている。
ノイズ除去部421は、制御部411の制御に基づいて、撮像部412から提供される画像信号に対して、その画像信号に対応するカメラ撮像画像に含まれる不要なノイズを除去するノイズ除去処理を施し、その結果得られる画像信号を拡大/縮小部423に提供する。
具体的には例えば、ノイズ除去部421は、そのノイズ除去処理として、フレームメモリ422を用いて次のような処理を実行する。即ち、ノイズ除去部421は、フレームメモリ422から読み出すノイズ除去後の1フレーム前(処理対象フレームに対して1つ前)の画像信号と、撮像部412から現時点で入力されてくる処理対象フレームについての画像信号とを用いて、2つの画像信号間から得られるノイズ成分を、処理対象フレームについての画像信号から除去する。そして、ノイズ除去部421は、ノイズが除去された処理対象フレームについての画像信号を、拡大/縮小部423に提供する。かかる画像信号はまた、次のフレームが処理対象フレームとなったときに1フレーム前の画像信号として利用されるように、フレームメモリ422に書き戻される。なお、その際、除去する強度調節パラメータが制御部411から提供されるので、ノイズ除去部421においては、カメラ撮像画像に応じたノイズ除去処理がなされる。
拡大/縮小部423は、制御部411からの所定の拡大率あるいは縮小率の指示に従って、ノイズ除去部421からの画像信号に対して拡大または縮小処理を施し、その結果得られる画像信号を信号変換部424に提供する。なお、制御部411からの指示がない場合、または拡大率若しくは縮小率として等倍率が指示された場合、拡大/縮小部423は、画像信号をそのまま、即ち、そのままの画像のサイズの状態で、信号変換部424に提供する。
信号変換部424は、拡大/縮小部423から提供された画像信号に対して、制御部411から指示されたビデオエフェクト種類についての画像処理を施し、その結果得られる画像信号を画像合成部425に提供するとともに、画像情報検出部427に提供する。信号変換部424の画像処理の種類は特に限定されず、例えば、セピアやモノクロやネガポジ反転に変換したり、モザイク処理やぼかし処理などを採用できる。なお、信号変換部424は、拡大/縮小部423から提供された画像信号を、何の画像処理も施さずに、即ち何の加工もせずにそのまま画像合成部425等に提供することもある。
画像合成部425は、信号変換部424から提供された画像信号に対して、制御部411から指示された合成種類についての合成処理を施して、その結果得られる画像信号を画像圧縮部414に提供する。なお、画像合成部425の画像処理の種類は特に限定されず、例えば、フレームメモリ426に事前に用意されたグラフィック画像とαブレンディングによる透過合成を施す合成処理や、フレームメモリ426に事前に用意された画像との間で時間軸に沿って徐々に遷移させるフェーダー合成処理、即ちフェードインやフェードアウト処理等を採用することができる。なお、画像合成部425は、信号変換部424から提供された画像信号に対して、何の合成処理も施さずに、即ち何の画像も合成せずにそのまま画像圧縮部414に出力することもある。
画像情報検出部427は、制御部411の制御に基づいて、信号変換部424または画像圧縮部414からの画像信号に対して各種画像処理を施すことで、文字情報や顔情報を抽出し、書込部415や制御部411に提供する。ここに顔情報とは、上述した顔区間の情報や顔サムネイル画像等を含む情報である。
図30は、かかる画像情報検出部427の詳細な機能的構成例を示している。
図30の例では、画像情報検出部427は、静止画生成部431、顔画像処理部432、および、サムネイル生成部433を含むように構成されている。
静止画生成部431は、信号変換部424または画像圧縮部414から提供された画像信号から、静止画像を画像データの形式で生成し、顔画像処理部432に提供する。なお、信号変換部424または画像圧縮部414から静止画像に対応する画像信号が提供された場合には、その画像信号はそのまま顔画像処理部432に提供される。
顔画像処理部432は、制御部411の制御に基づいて、静止画生成部431により提供された静止画像から人物の顔を検出し、その人物の顔画像を静止画像から抽出する等の各種処理を実行する。これらの各種処理結果は、制御部411やサムネイル生成部433に提供される。なお、ここでいう各処理結果の一例として、例えば後述する図35の顔画像テーブル等が挙げられる。
サムネイル生成部433は、制御部411の制御に基づいて、顔画像処理部432または制御部411からの情報を利用して、上述した顔区間を特定し、またその顔区間のインデックスとしての顔サムネイル画像等を生成し、その結果得られる顔区間の情報や顔サムネイル画像等を制御部411や書込部415に提供する。
次に、図31のフローチャートを参照して、図30の画像情報検出部427や制御部411等が実行するリソースデータ生成記録処理の一例について説明する。
ここに、図31に例示されているリソースデータ生成記録処理とは、上述した図4の記録メディア51に対して動画コンテンツ64−Kとともに記録されるリソースデータ65−Kのうちの、特に顔サムネイルと顔区間メタ情報との組についての処理であって、具体的には、その組が生成されて記録メディア51に記録されるまでの一連の処理をいう。
なお、図31のフローチャートは、画像圧縮部414からMPEGデータの形態で画像信号が提供される場合の例を示している。即ち、図31の例では、MPEGデータを構成する複数のGOPが所定の順番で順次画像情報検出部427に提供されてくることが前提とされている。換言すると、図31は、図2を用いて上述した静止画像を生成する単位が1GOP単位の場合の例を示している。従って、かかる単位が1GOP単位以外の場合であっても、後述する処理対象GOPをかかる単位に置き換えることで、後述するリソースデータ生成記録処理が実行できる。
図31のステップS101において、画像情報検出部427の静止画生成部431は、最新のGOPを処理対象GOPに設定する。
ステップS102において、静止画生成部431は、処理対象GOPから静止画像を生成する。なお、ステップS102における静止画像の生成手法は特に限定されないが、ここでは、MPEGデータのGOPが提供されてきているので、図3を用いて上述した手法を採用することができる。
ステップS103において、静止画生成部431は、静止画像のサイズを変更する。
サイズ変更後の静止画像が静止画生成部431から顔画像処理部432に提供されると、処理はステップS104に進む。
ステップS104において、顔画像処理部432は、静止画像から顔の検出を試みる。なお、顔の検出手法自体は特に限定されないが、ここでは、静止画像に複数の顔が含まれている場合には1つの顔ずつ順次検出する手法が採用されているとする。
ステップS105において、顔画像処理部432は、顔が検出されたか否かを判定する。
ステップS105において、1つの顔を検出したと判定した場合、顔画像処理部432は、ステップS106において、その検出した1つの顔に関する顔検出情報を生成する。かかる顔検出情報については後述する。
その後、処理はステップS104に戻され、それ以降の処理が繰り返される。即ち、静止画像に複数の顔が含まれている場合には、それらの複数の顔が順次検出され、それらの複数の顔のそれぞれに関する顔検出情報が順次生成される。
ここで、図32と図33を用いて、顔検出情報の具体例について説明する。
例えば、ステップS101の処理で、図32に示されるGOPが処理対象GOPに設定されて、ステップS102の処理で静止画像501が生成され、ステップS103の処理で静止画像501のサイズが変更されて、その結果、静止画像502が得られたとする。
この静止画像502には、図33に示されるように顔の領域502−1,502−2(以下単に、顔502−1,502−2と称する)が含まれているとする。
この場合、ステップS104の処理で顔502−1が検出され、ステップS105の処理でYESであると判定された後、ステップS106の処理で、図33に示される顔検出情報503−1が生成される。
図33の例では、顔検出情報503−1には、GOP番号、顔ID、位置、高さ、幅、サイズ、および類似度(スコア)が含まれている。GOP番号とは、例えば処理対象GOPに付されている番号である。顔IDとは、例えば顔502−1を他の顔と区別するための識別子である。位置とは、例えば顔502−1の静止画像502における位置、具体的には例えば、左上端の画素の位置である。高さとは、例えば顔502−1の高さ方向の画素数である。幅とは、例えば顔502−1の横方向の画素数である。サイズとは、例えば顔502−1のサイズ、即ち解像度である。なお、類似度(スコア)については、後述するが、ステップS106の処理の段階では、所定の初期値、例えば0が代入されるとする。
このような顔検出情報503−1が生成されると、処理はステップS104に戻されて、今度は、顔502−2が検出され、ステップS105の処理でYESであると判定された後、ステップS106の処理で図33に示される顔検出情報503−2が生成される。
その後、処理はステップS104に戻されるが、この時点になると、静止画像502には未検出の顔は含まれていないので、ステップS105の処理でNOであると判定されて、処理はステップS107に進む。
以下引き続き、図31のステップS107以降の処理について説明する。
ステップS107において、顔画像処理部432は、1以上の顔検出情報が生成されたか否かを判定する。
図示はしないが、静止画像に1つの顔も含まれていない場合、当然ながら顔は検出されず、顔検出情報も生成されない。従って、このような場合、ステップS107の処理でNOであると判定されて、処理はステップS110に進む。ただし、ステップS110以降の処理については後述する。
これに対して、静止画像に1以上の顔が含まれており、これらのうちの少なくとも1つの検出に成功した場合には、顔検出情報も少なくとも1つ生成される。従って、このような場合、ステップS107の処理でYESであると判定されて、処理はステップS108に進む。
ステップS108において、顔画像処理部432は、1以上の顔検出情報のそれぞれに基づいて、静止画像から1以上の顔画像のそれぞれを切り出す。
具体的には例えば上述した図33に示される2つの顔検出情報503−1,503−2が生成された場合には、図34に示されるような顔画像511−1,顔画像511−2が切り出される。ここに、顔画像511−1とは、図33の静止画像502のうちの顔502−1に対応する静止画像である。また、顔画像511−2とは、図33の静止画像502のうちの顔502−2に対応する静止画像である。
次に、図31のステップS109において、顔画像処理部432は、図35に示されるようなテーブルの生成や更新をするために必要な各種処理を実行する。
例えば処理対象GOPの番号が1であった場合には、図35に示されるようなテーブルが新規に生成される。その新規生成された段階のテーブルは、代表顔画像とGOP番号1の行のみから構成されている。その後、処理対象GOPが番号i(iは図35の例では1乃至nのうちの何れかの値)になると、図35のテーブルのうちの、GOP番号iに対応する行が追加され、そのGOP番号iの各項目に対して、「顔情報」または「無」の情報が記載されることで、テーブルの更新が行われていく。
即ち、図35のテーブルにおいてGOP番号iの行は、番号iのGOPについての次のような情報が記載される。即ち、図35の各列は、現在リソースデータの生成対象となっている動画コンテンツの各登場人物を示している。なお、図35の例では、説明を容易なものとするために、各列の一番上には、登場人物の名としてA乃至Hが記載されているが、実際のテーブルにはかかる記載は必須ではない。また、ここでは、1つの列に対応する人物は、他の列に対応する人物とは別人物であるとするが、実世界においては同一人物である場合もある。即ち、詳細については図36を用いて後述するが、例えば人物Bと人物Dとは、実世界において同一人物(図36でいう実人物b)であるが、図35の例では別人物として判断されている。
例えば、図35のテーブルの一番左方の列、即ち人物Aを示す列において、一番上の行には、人物Aの代表顔画像が画像データの形態で格納される。人物Aの代表画像とは、例えば、番号1乃至nのそれぞれのGOPに対して実行された図31のステップS108の処理において、それぞれ切り出された人物Aの顔画像のうちの所定の1枚をいう。なお、例えば本実施の形態では、最初に切り出された顔画像が代表画像として採用される。
また、人物Aを示す列において、番号iの行には、「顔情報」または「無」が記載される。番号iの行に「顔情報」が記載されている場合には、番号iのGOPから生成された静止画像に人物Aが含まれていると判断されたことを意味する。これに対して、番号iの行に「無」が記載されている場合には、番号iのGOPから生成された静止画像に人物Aが含まれていないと判断されたことを意味する。なお、人物Aが含まれるか否かの判断の手法は、特に限定されない。かかる手法の具体例については、例えば図38乃至図41を用いて後述する。
なお、以下、このような図35のテーブルを顔画像テーブルと称する。また、以下、上述したような図31のステップS109の処理、即ち、処理対象GOPの番号が1の場合には図35の顔画像テーブルを生成してGOP番号1の行の各項目に「顔情報」または「無」を記載し、また、処理対象GOPの番号がiの場合には図35の顔画像テーブルのうちのGOP番号iの行の各項目に「顔情報」または「無」を記載する処理を、顔画像テーブル生成/更新処理と称する。
なお、ステップS109の顔画像テーブル生成/更新処理の詳細例については、図38乃至図42を参照して後述する。
このようなステップS109の顔画像テーブル生成/更新処理が終了すると、図31に示されるように、処理はステップS110に進む。
ステップS110において、顔画像処理部432は、処理対象GOPは最後のGOPであるか否かを判定する。
処理対象GOPが最後のGOPではない場合、処理はステップS101に戻されそれ以降の処理が繰り返される。即ち、例えば図35の例では、番号nのGOPが最後のGOPであるので、番号1乃至nのそれぞれのGOPに対してステップS101乃至S110のループ処理が繰り返し実行される。
そして、最後の番号nのGOPについてのステップS109の顔画像テーブル生成/更新処理が終了すると、顔画像テーブルの記載状態は図35に示される状態となり、次のステップS110の処理でYESであると判定される。すると、図35の記載状態の顔画像テーブルがサムネイル生成部433に提供されて、処理はステップS111に進む。
ステップS111において、サムネイル生成部433は、顔画像テーブルに基づいて、各人物毎に、顔サムネイル画像の生成と顔区間の特定をそれぞれ行う。
ステップS111における各人物とは、顔画像テーブルに登録されている各人物、具体的には例えば図35の例では人物A乃至Hをいう。
ここで、図36と図37を参照して、ステップS111の処理についてさらに詳しく説明する。
図36は、図35の例の顔画像テーブルのうちの人物A乃至Eまでの情報を、タイミングチャート形式に描き直した図である。図36において、横軸は、GOP番号を示している。また、図36中一番上から、実人物a、実人物b、実人物c、および実人物dのそれぞれについてのタイミングチャートが示されている。これらの各タイミングチャートは、楕円が内在する四角の横方向への積み重ねにより構成されている。この楕円が内在する四角は、所定のGOPから抽出された1枚の顔画像を示している。即ち、番号iのGOPにおいて顔画像が存在していることは、図35のGOP番号iの項目に「顔情報」が記載されていることを意味し、一方、顔画像が存在しないことは、図35の番号iの項目に「無」が記載されていることを意味する。また、各タイミングチャートの下方の大文字のアルファベットは、図35の例の人物の名称に対応している。
即ち、ここで注意すべき点は、図35の例では人物の名称として大文字のアルファベットが採用されているのに対して、図36の例では人物の名称として小文字のアルファベットが採用され、かつ実人物と記載されている点である。即ち、図35の例で大文字のアルファベットを用いて記載されている人物A乃至Eとは、後述するように、画像情報検出部427により検出された人物をいう。これに対して、図36の例で小文字のアルファベットにより記載された実人物a乃至dとは、実世界に現存する人物をいう。即ち、図35と図36の例では、画像情報検出部427により別人物として検出された人物Bと人物Dとは、実世界では同一の実人物bとして現存している。この点の理由については後述する。
例えば、実人物aについては、GOP番号1乃至3の各GOPで顔画像が生成され、GOP番号4のGOPでは顔画像は生成されなかったが、その後、GOP番号5,6において再度顔画像が生成されている。このように、数GOP程度の短期間内に顔画像が生成されなかったような場合には、同一人物Aが連続して登場していると認定される。即ち、このような場合、サムネイル生成部433は、人物Aの顔区間とは、GOP番号1乃至3のGOPからなる区間ではなく、図37に示されるように、GOP番号1乃至6のGOPからなる区間521−Aであると特定する。そして、サムネイル生成部433は、人物Aの顔区間521−Aのインデックスとして顔サムネイル画像522−Aを生成する。
なお、顔サムネイル画像522−Aの生成手法については、特に限定せず、新たに生成してもよいが、ここでは図35の顔画像テーブルに人物Aの代表画像が含まれているので、かかる代表画像が顔サムネイル画像522−Aとして利用されるとする。なお、他の顔サムネイル画像についても、この生成手法に従って同様に生成されるとする。
一方、実人物bについては、GOP番号1乃至4の各GOPで顔画像が生成された、その後顔画像は長期間生成されず、GOP番号n-5乃至nにおいて再度顔画像が生成されている。このように、長期間顔画像が生成されなかった場合には、顔画像処理部432によりそれぞれ別人物B,Cと認定される。その結果、図35の顔画像テーブルでは、それぞれ別人物B,Cとして別々に登録されるのである。ただし、このことの詳細については、図42を参照して後述する。
この場合、サムネイル生成部433は、人物Bの顔区間とは、図37に示されるように、GOP番号1乃至4のGOPからなる区間521−Bであると特定する。そして、サムネイル生成部433は、人物Bの顔区間521−Bのインデックスとして顔サムネイル画像522−Bを生成する。
また、サムネイル生成部433は、人物Dの顔区間とは、図37に示されるように、GOP番号n-5乃至nのGOPからなる区間521−Dであると特定する。そして、サムネイル生成部433は、人物Dの顔区間521−Dのインデックスとして顔サムネイル画像522−Dを生成する。
なお、同一人物か否かの判定となる期間は、特に限定されない。即ち、顔画像が登場しなかった期間が短期間であれば、連続した顔区間の一部とみなす一方、長期間であれば顔区間とはみなさないと上述したが、その短期間と長期間との判断手法は特に限定されない。例えば、顔画像が生成される単位、即ち図36や図37の例では1GOP単位の所定の整数倍を閾値として予め設定し、顔画像が登場しなかった期間が閾値以下であれば、顔区間の一部とみなし、閾値を超えていれば顔区間とはみなさない、といった判断手法を採用できる。なお、かかる判断手法が適用された処理が、後述する図4のステップS124周辺の処理である。
その他の人物についても同様に顔区間の特定と顔サムネイルの生成が行われる。
即ち、サムネイル生成部433は、実人物cに対応する人物Cの顔区間とは、図37に示されるように、GOP番号2乃至nのGOPからなる区間521−Cであると特定する。そして、サムネイル生成部433は、人物Cの顔区間521−Cのインデックスとして顔サムネイル画像522−Cを生成する。
また、サムネイル生成部433は、実人物dに対応する人物Eの顔区間とは、図37に示されるように、GOP番号n-3乃至nのGOPからなる区間521−Eであると特定する。そして、サムネイル生成部433は、人物Eの顔区間521−Eのインデックスとして顔サムネイル画像522−Eを生成する。
その他図示はしないが、図35でいう人物F乃至Hのそれぞれについても、顔区間が特定され、その顔区間に対応する顔サムネイル画像が生成される。
すると、図31のステップS111の処理は終了し、その処理結果、即ち、各人物のそれぞれについての顔区間と顔サムネイルの各組が、サムネイル生成部433から制御部411または書込部415に提供される。
ステップS112において、制御部411または書込部415は、各人物の顔サムネイルと顔区間とを含むメタ情報、即ち、図4の顔区間メタ情報と顔サムネイルとの組からなるメタ情報を生成する。制御部411によりメタ情報が生成された場合には、そのメタ情報は書込部415に提供される。
ステップS113において、書込部415は、ステップS112の処理で生成されたメタ情報を、管理情報等ともにコンテンツのリソースデータとして、記録メディア51等に記録する。
これにより、リソースデータ生成記録処理は終了となる。
次に、図38乃至図43を参照して、かかる図31のリソースデータ生成記録処理のうちのステップS109の処理、即ち、顔画像テーブル生成/更新処理の詳細例について説明する。
図35の例の顔画像テーブルを用いて説明したように、顔画像テーブル生成/更新処理では、処理対象GOPの番号iの行についての各項目に「顔情報」または「無」がそれぞれ記載される。具体的には例えば人物Aについて、番号iの処理対象GOPに、人物Aの顔画像が登場していると判定される場合には、人物Aを示す列の番号iの行の項目に「顔情報」と記載される一方、人物Aの顔画像が登場していないと判定される場合には、人物Aを示す列の番号iの行の項目に「無」と記載される。他の人物B乃至Hのそれぞれについても同様である。
従って、顔画像テーブル生成/更新処理では、番号iの処理対象GOPに、特定人物の顔画像が登場しているか否かの判定処理が必要となる。この判定処理のアルゴリズム、即ち、判定手法自体は、特に限定されないが、例えば本実施の形態では、図38乃至図41に示される手法が採用されているとする。即ち、図38乃至図41に示される手法とは、本発明が適用される手法のひとつであり、以下、顔画像有無判定手法と称する。
図38において、静止画像602は、図31のステップS102の処理で番号iの処理対象GOPから生成された静止画像を示している。顔画像612−1乃至612−3のそれぞれは、各ステップS104の処理で静止画像602からそれぞれ検出された顔602−1乃至602−3のそれぞれに対応する顔画像を示している。即ち、ステップS108の処理で静止画像602からそれぞれ切り出された顔画像が、顔画像612−1乃至612−3である。
一方、静止画像601は、処理対象GOPの1つ前のGOP、即ち、番号i-1のGOPから生成された静止画像を示している。顔画像611−1,611−2のそれぞれは、静止画像601からそれぞれ検出された顔601−1,601−2のそれぞれに対応する顔画像を示している。即ち、静止画像601からそれぞれ切り出された顔画像が、顔画像611−1,611−2である。
この場合、図30の顔画像処理部432は、図38に示されるように、番号iの処理対象GOPについての顔画像612−1乃至612−3を比較対象として、それよりも前のGOPについての顔画像、即ち図38の例では顔画像611−1,611−2を被比較対象として、各比較対象と各被比較対象との組合せ全てについて、それぞれの比較処理、例えばいわゆるマッチング処理を実行することで、各組合せにおける比較対象と被比較対象とは同一人物の顔画像であるか否かをそれぞれ評価する。
このマッチング処理の手法自体は、特に限定されないが、例えば本実施の形態では、次の手法が採用されている。即ち、番号k(kは、組合せの番号であって、1以上組合せ総数以下の番号)の組合せについては、比較対象の顔画像と被比較対象の顔画像との類似度(以下、akと記述する)と、比較対象の顔画像の静止画像内における座標と被比較対象の顔画像の静止画像内における座標との距離(以下、bkと記述する)との両者を用いた所定の演算により得られる値をスコアSkとして、そのスコアSkにより、比較対象と被比較対象とは同一人物の顔画像であるか否かを評価する、といった手法が採用されている。
ここで、スコアのSkの演算手法自体は、akとbkとを用いれば足り、例えば本実施の形態では、次の式(1)によりスコアSkが演算されるとする。なお、式(1)において、α,βは、距離と類似度とを比較可能とするためのパラメータ、即ち、正規化のためのパラメータを示している。
Sk= √α*ak+β*bk ・・・(1)
また、akの演算手法も特に限定されず、例えば、いわゆる主成分分析を用いた類似度の演算手法等を採用できる。また、bkの演算手法については、例えば次のような手法を採用することができる。即ち、比較対象と被比較対象となる各顔画像は、各顔検出情報に基づいて生成されたものである。この顔検出情報は、図33に示されるように、静止画像における顔の位置を有している。従って、比較対象についての顔検出情報に記載された位置と、被比較対象についての顔検出情報に記載された位置との差分をbkとする、といったbkの演算手法を採用することができる。
このようにして、図30の顔画像処理部432は、各比較対象と各被比較対象との全組合せについてのスコアSkを演算すると、次に、各スコアSkに基づいて、全組合せの中から、同一人物の顔画像の組合せであると判定できるペア(以下、マッチペアと称する)を選抜していく。
具体的には例えば本実施の形態では、図39乃至図41に示されるようにして、マッチペアが選抜されていく。
即ち、図39は、マッチペアの選択の基本原則を説明する図である。図39には、図38と同様の顔画像、即ち、比較対象としての顔画像612−1乃至612−3と、被比較対象としての顔画像611−1,611−2が示されている。
図39において、比較対象としての顔画像612−1乃至612−3のうちの所定のひとつから、被比較対象としての顔画像611−1,611−2のうちの所定のひとつに引かれた各両矢印は、スコアSkが演算された組合せを示している。また、実線の両矢印は、現存する組合せの中で最高のスコアSkを有する組合せを示しており、点線の両矢印は、それ以外の組合せを示している。ただし、詳細については後述するが、最高のスコアSkを有する組合せであっても、そのスコアSkが閾値以下の組み合わせについては、点線の両矢印で示されている。この両矢印の内容については、後述する図40と図41とにおいても同様である。
図39の各両矢印で示されるように、図30の顔画像処理部432は、原則として、現存する組合せの中で最高のスコアSkを有する組合せを、マッチペアとして選抜する。
具体的には例えば、図39の白抜き矢印の左方の例の場合、即ち、比較対象としての顔画像612−1乃至612―3と、被比較対象としての顔画像611−1,611−2との全ての組合せが存在する場合には、顔画像612−1と顔画像611−1とが実線の両矢印で結ばれていることから、即ち、最高のスコアSkを有することから、この組合せがマッチペアとして最初に選抜される。
次に、顔画像処理部432は、選抜されたマッチペアに含まれる顔画像611−1,612−1のうちの何れか一方を含む他の組合せ全てを、次のマッチペアの選抜候補から除外する。その結果、図39の白抜き矢印の右方に示されるように、比較対象としての顔画像612−2,612−3と、被比較対象としての顔画像611−2との全組合せが次のマッチペアの選抜候補となる。この場合、顔画像612−3と顔画像611−2とが実線の両矢印で結ばれていることから、即ち、最高のスコアSkを有することから、この組合せがマッチペアとして次に選抜される。
図39の例では、2回目に選抜されたマッチペアに含まれる顔画像611−2,612−3の何れか一方を含む他の組合せの全てが除外されると、スコアSkが演算された組合せ自体が存在しなくなることから、マッチング処理は終了となる。これに対して、図示はしないが、仮に組合せが残存している場合には、組合せがなくなるまで、上述した一連の処理が繰り返されてマッチペアが順次選抜されていく。
以上、図39を用いてマッチペアの選抜手法の基本原則について説明したが、本実施の形態では、この基本原則に基づく図40と図41に示されるマッチペアの選抜手法が採用されている。なお、図40と図41の例では、説明の簡略上、比較対象から顔画像612−3は省略されている。以下、図40と図41とのマッチペアの選択手法について、図39を用いて説明した基本原則との差異を中心に説明していく。
即ち、図39の例では、説明の簡略上、被比較対象の顔画像は、番号iの処理対象GOPのひとつ前の番号i-1のGOPについての顔画像611−1,611−2のみとされた。しかしながら、番号i-1のGOPから生成された静止画像には特定人物の顔が含まれているとは限らない。そこで、本実施の形態では、特定人物の被比較対象の顔画像としては、処理対象GOPに対して、一番近い過去のGOPから生成された顔画像(以下、最新の顔画像と称する)が採用される。
具体的には例えば、図40の例では、処理対象GOPの1つ前の番号i-1のGOPからは、人物Aの顔画像611−1と、人物Bの顔画像611−2とが生成されている。また、処理対象GOPの2つ前の番号i-2のGOPから、人物Aの顔画像610−1と、人物Bの顔画像610−2とが生成されている。そして、処理対象GOPの3つ前の番号i-3のGOPからは、人物Bの顔画像609−2と、人物Cの顔画像609−3とが生成されている。
この場合、人物Aと人物Bについては、最新の顔画像は顔画像611−1,611−2のそれぞれとなり、図39の例と同様に、これらの顔画像611−1,611−2が被比較対象となる。ところが、番号i-1,i-2のGOPにおいて、人物Cは登場しておらず、即ち、人物Cの顔画像は生成されていない。そこで、このような場合、番号i-3のGOPから生成された顔画像609−3が最新の顔画像となることから、かかる顔画像609−3が、人物Cについての被比較対象となるのである。
このようにして被比較対象が決定された後は、原則として図39を用いて説明したマッチング処理(基本原則の処理)が行われて、順次マッチペアが選抜されていく。
例えば図40の例では、図39の例と同様に、最初に、顔画像612−1と顔画像611−1との組合せがマッチペアとして選抜される。これにより、番号iのGOPについての顔画像612−1は人物Aの顔画像であると判定され、その結果、図35の顔画像テーブルの人物Aの番号iの項目には「顔情報」が記載される。
そして、選抜されたマッチペアに含まれる顔画像611−1,612−1のうちの少なくとも一方を含む他の組合せの全てが、次のマッチペアの選抜候補から除外される。すると、図40の例では、顔画像612−2と顔画像611−2との組合せと、顔画像612−2と顔画像609−3との組合せとが次のマッチペアの選抜候補となり、これらの選抜候補の中から次のマッチペアが選抜される。具体的には、顔画像612−2と顔画像611−2とが実線の両矢印で結ばれていることから、即ち、最高のスコアSkを有することから、この組合せがマッチペアとして次に選抜される。これにより、番号iのGOPについての顔画像612−2は人物Bの顔画像であると判定され、その結果、図35の顔画像テーブルの人物Bの番号iの項目には「顔情報」が記載される。
ただし、顔画像612−2と顔画像611−2との組合せが、現存する組合せの中で最高のスコアSkを有するといっても、そのスコアSkがあまりに低い値の場合には、番号iのGOPについての顔画像612−2は人物Bの顔画像であると判定することは無理がある。従って、このような場合を考慮して、本実施の形態では例えば、スコアSkが所定の閾値以下の組み合わせについては、マッチペアとはせずに(マッチペア候補から除外し)、その組合せに含まれる比較対象の顔画像は新たな登場人物の顔画像であると判定することにする。
具体的には例えば図41の例では、顔画像612−2と顔画像611−2との組合せのスコアSkが所定の閾値以下であるとされており、その結果、顔画像61−2は、人物Bではなく新たな登場人物Dの顔画像で有ると判定されている。この場合、図35の顔画像テーブルに人物Dの列が新たに登録され、その人物Dの列の番号1乃至i-1の各項目には「無」が記載され、番号iの項目には「顔情報」が記載される。
また、例えば上述した図36に示されるように、実世界の実人物bについては、番号4までのGOPを最後としてその後顔画像は長期間生成されず、番号n-5のGOPになって再度顔画像が生成されている。この番号n-5のGOPが処理対象GOPとなっている場合、人物Bの被比較対象として採用される最新の顔画像とは、番号4のGOPについての顔画像となる。このような場合、比較対象である番号n-5の顔画像と、被比較対象である番号4のGOPについての顔画像との組合せのスコアSkがたとえ最高値であったとしても、期間が離れすぎていることから、例えば実施の形態では、番号n-5の顔画像は、人物Bの顔画像とは判定せずに、人物Bとは別の人物Dの顔画像と判定することにする。この場合も、図35の顔画像テーブルの列に人物Dの列が新たに登録され、その人物Dの列の番号1乃至n-6の各項目には「無」が記載され、番号n-5の項目には「顔情報」が記載される。
なお、別人物とみなす期間の設定については、上述したように特に限定されず、例えば3秒に相当するGOP期間、といったように設計者等が任意に設定可能である。
また、以上のようにして選抜されたマッチペアについてのスコアSkが、そのマッチペアに含まれる比較対象についての顔検出情報の「類似度(スコア)」の項目(図33参照)に記載される。
以上、図38乃至図41を参照して、本発明が適用される手法のひとつの顔画像有無判定手法について説明した。
かかる顔画像有無判定手法が適用された場合の図31のステップS109の処理、即ち、顔画像テーブル生成/更新処理の一例が、図42のフローチャートとして示されている。
図42のステップS121において、図30の顔画像処理部432は、処理対象GOPについての1以上の各顔画像と、顔画像テーブルに登録されている全人物の各顔画像との組合せの全てについて、それぞれマッチング処理を実行して、スコアSkをそれぞれ算出する。
なお、処理対象GOPについての1以上の各顔画像が上述した比較対象であり、顔画像テーブルに登録されている全人物の各顔画像が、上述した最新の顔画像としての被比較対象である。顔画像テーブルに登録されている全人物とは、例えば図35の例では、人物A乃至Hである。
ステップS122において、顔画像処理部432は、最高のスコアSkを有する組合せを、処理対象組として設定する。
ステップS123において、顔画像処理部432は、処理対象組のスコアSkは閾値を超えているか否かを判定する。
処理対象組のスコアSkが閾値を超えている場合、ステップS123の処理でYESであると判定されて、処理はステップS124に進む。
ステップS124において、顔画像処理部432は、処理対象組の時間間隔は閾値以下であるか否かを判定する。ここで、時間間隔とは、例えば、処理対象組に含まれる2つの顔画像のそれぞれが生成された2つのGOPの時間間隔をいう。具体的には例えば、処理対象GOPの番号iに対して、処理対象組に含まれる被比較対象についてのGOPの番号がj(jはi-1以下の整数値)の場合、i-j等が時間間隔として採用可能である。
処理対象組の時間間隔が閾値以下の場合、ステップS124の処理でYESであると判定されて、処理はステップS125に進む。
ステップS125において、顔画像処理部432は、処理対象組をマッチペアとして確定する。
ステップS126において、顔画像処理部432は、マッチペアに含まれる処理対象GOPについての顔画像の人物と、そのマッチペアに含まれる他方の顔画像の人物とは同一人物であると認定する。
ステップS127において、顔画像処理部432は、顔画像テーブルのうちの、マッチペアに含まれる顔画像の人物の処理対象GOPの項目に「顔情報」と記載する。
ステップS128において、顔画像処理部432は、マッチペアに含まれる顔画像についての全組合せ(マッチペア含む)を除外する。
ステップS129において、顔画像処理部432は、組合せは残っているか否かを判定する。
組合せが残っている場合には、ステップS129の処理でYESであると判定されて、処理はステップS123の処理に戻され、それ以降の処理が繰り返される。即ち、次のステップS122の処理で、残っている組合せの中で最高のスコアSkを有する組合せが処理対象組として設定されて、ステップS123以降の処理が繰り返される。
ただし、処理対象組のスコアSkが閾値以下の場合にはステップS123の処理でNOであると判定され、また、処理対象組の時間間隔が閾値を超えている場合にはステップS124の処理でNOであると判定されて、それぞれ処理はステップS130に進む。
ステップS130において、顔画像処理部432は、処理対象組に含まれる顔画像を、新たな登場人物の代表画像として顔画像テーブルに登録する。その後、処理はステップS129に進み、それ以降の処理が実行される。
以上のステップS122乃至S130のループ処理が実行されて、その結果組合せが存在しなくなると、ステップS129の処理でNOであると判定されて、処理はステップS131に進む。
ステップS131において、顔画像処理部432は、顔画像テーブルにおける未記載の処理対象GOPの項目に対して「無」と記載する。
これにより、顔画像テーブル生成/更新処理は終了となる。即ち、図31のステップS109の処理は終了し、処理はステップS110に進むことになる。
以上、図29の画像加工部413の画像情報検出部427の処理として、動画コンテンツ用のリソースデータを生成して記録する処理、即ち図31のリソースデータ生成記録処理について説明してきた。
さらに、画像情報検出部427は、図43に示される静止画リソースデータ生成記録処理を実行することで、静止画コンテンツ用のリソースデータとして、上述した図20の人物フォルダ271乃至273等を生成して記録メディア51に記録させることもできる。
即ち、図43のステップS151において、画像情報検出部427は、記録対象の1以上の静止画コンテンツのうちの所定の1つを処理対象静止画像に設定する。記録対象の1以上の静止画コンテンツとは、例えば図20の例では記録メディア51に記録されている全静止画コンテンツをいう。
ステップS151の処理後、ステップS152乃至S157の処理が実行される。このステップS152乃至S157のそれぞれの処理は、上述した図31のステップS103乃至S108のそれぞれの処理と基本的に同様の処理であるため、ここではその説明は省略する。ただし、顔検出情報が1つも生成されなかった場合には、図43の例ではステップS156の処理でNOであると判定されて処理はステップS164に進む点が、図31の例の処理とは異なる点である。なお、ステップS164以降の処理については後述する。
ステップS157の処理の結果、処理対象静止画像から1以上の顔画像が切り出されると、処理はステップS158に進む。
ステップS158において、画像情報検出部427は、1以上の顔画像のうちの所定の1枚を処理対象顔画像に設定する。
ステップS159において、画像情報検出部427は、処理対象顔画像は新規の人物の顔画像であるか否かを判定する。
ステップS159において、処理対象顔画像は新規の人物の顔画像であると判定した場合、画像情報検出部427は、ステップS160において、新規人物用の人物フォルダを製作する。これにより、処理はステップS161に進む。
これに対して、ステップS159において、処理対象顔画像は新規の人物の顔画像ではないと判定した場合、即ち、処理対象顔画像は既出人物の顔画像であると判定した場合、画像情報検出部427は、ステップS160の処理を実行せずに、処理をステップS161に進める。
ステップS161において、画像情報検出部427は、処理対象顔画像から顔サムネイル画像等の静止画リソースデータを生成する。そして、ステップS162において、画像情報検出部427は、その静止画リソースデータを、対応する人物フォルダに含める。
ステップS163において、画像情報検出部427は、未設定の顔画像は存在するか否かを判定する。
ステップS157の処理の結果として処理対象静止画像から切り出された1以上の顔画像の中に、処理対象顔画像にまだ設定されていない顔画像が存在する場合、ステップS163の処理でYESであると判定されて、処理はステップS158に戻り、それ以降の処理が繰り返される。
即ち、ステップS157の処理の結果として処理対象静止画像から切り出された1以上の顔画像のそれぞれに対して、ステップS158乃至S163のループ処理が繰り返し実行される。すると、ステップS163の処理でNOであると判定されて、処理はステップS164に進む。
また、上述したように、ステップS156の処理でNOであると判定された場合も処理はステップS164に進む。
ステップS164において、画像情報検出部427は、未設定の静止画コンテンツは存在するか否かを判定する。
記録対象の1以上の静止画コンテンツの中に、処理対象静止画像にまだ設定されていないものが存在する場合、ステップS164の処理でYESであると判定されて、処理はステップS151に戻り、それ以降の処理が繰り返される。
即ち、記録対象の1以上の静止画コンテンツのそれぞれに対して、ステップS151乃至S164のループ処理が実行される。すると、ステップS164の処理でNOであると判定されて、処理はステップS165に進む。
ステップS165において、画像情報検出部427は、各人物フォルダを管理情報等ともに、静止画リソースデータとして記録メディア51等に記録する。
これにより、静止画リソースデータ生成処理は終了となる。
ところで、上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
図44は、上述した一連の処理をプログラムにより実行するパーソナルコンピュータの構成の例を示すブロック図である。即ち、図6の再生装置、図17の記録再生装置、および、図28の画像記録装置401のそれぞれの全体または一部分を、図44のパーソナルコンピュータで構成することもできる。
図44において、CPU(Central Processing Unit)701は、ROM(Read Only Memory)702、または記憶部708に記憶されているプログラムに従って各種の処理を実行する。RAM(Random Access Memory)703には、CPU701が実行するプログラムやデータなどが適宜記憶される。これらのCPU701、ROM702、およびRAM703は、バス704により相互に接続されている。
CPU701にはまた、バス704を介して入出力インタフェース705が接続されている。入出力インタフェース705には、キーボード、マウス、マイクロホンなどよりなる入力部706、ディスプレイ、スピーカなどよりなる出力部707が接続されている。CPU701は、入力部706から入力される指令に対応して各種の処理を実行する。そして、CPU701は、処理の結果を出力部707に出力する。
入出力インタフェース705に接続されている記憶部708は、例えばハードディスクからなり、CPU701が実行するプログラムや各種のデータを記憶する。通信部709は、インターネットやローカルエリアネットワークなどのネットワークを介して外部の装置と通信する。
また、通信部709を介してプログラムを取得し、記憶部708に記憶してもよい。
入出力インタフェース705に接続されているドライブ210は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア211が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記憶部708に転送され、記憶される。
コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを格納するプログラム記録媒体は、図44に示されるように、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)を含む)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア211、または、プログラムが一時的もしくは永続的に格納されるROM702や、記憶部708を構成するハードディスクなどにより構成される。プログラム記録媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインタフェースである通信部709を介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を利用して行われる。
なお、本明細書において、プログラム記録媒体に格納されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本明細書において、システムとは、複数の装置または回路により構成される装置または回路全体を表すものである。