JP4612772B2

JP4612772B2 - 画像処理方法、画像処理装置、コンピュータ読み取り可能な記憶媒体

Info

Publication number: JP4612772B2
Application number: JP2000377686A
Authority: JP
Inventors: ラエコウァルドジュリー
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1999-12-14
Filing date: 2000-12-12
Publication date: 2011-01-12
Anticipated expiration: 2020-12-12
Also published as: US20030002715A1; US7606397B2; AUPQ464099A0; JP2001273505A

Description

【０００１】
【発明の属する技術分野】
本発明は画像データの分類に関し、特に、編集者が、自動的に画像データを情緒的に表現できるようにした分類方法に関するものである。
【０００２】
【従来の技術】
画像（フィルム、ビデオ、スライド、ショーなど）のビデオシーケンスの編集は、視聴者から所望の反応を得るために、画像のシーケンスを単に時間的に並べる以上の技術を備える人間の編集者による入力を必要としている。その作品の意図するメッセージや目的を視聴者に理解させるために、その編集者は人間的な理解に基づいてそれらを引出し、それをシーケンスにした動画や静止画に適応する。
【０００３】
映画会社は画像から所望の意味を得るために多くの技術を使用し、そのような技術には、種々のショット、動画及び静止画の識別や応用、種々のカメラアングルの使用、種々のレンズ、及びフィルム効果が含まれている。こうして作成された作品となる画像から意味を獲得する処理は、フィルム制作者やフィルム編集者によってテンプレートとして使用されるストーリーボードに翻訳されたストーリーやメッセージで開始される。一度、フィルムが撮影されると、その編集者には結果として得られた画像と、順番を示すショットリストが与えられる。スクリーンライタがその記述されたストーリーを翻訳し、ストーリー順番を示すショットリストに記述する、その作品の初期の段階では、書かれた言語は目で見える言語になっている。これは視聴者がそのストーリーを告げられ、そのメッセージを理解しなければならないという方法による。動画像の視覚特性は通常、その俳優（出演者）の経験に関連した会話を有し、たいていの場合、告げられたストーリーやそのストーリー内での俳優の感情に関連した、明白な物語とは無縁である。従って、そのスクリーンライタは種々のショットから得られた目に見える言語を用いて、付加情報を生成しなければならない。
【０００４】
種々のショットタイプやイメージの例を図１Ａ乃至図１Ｇに示す。図１Ａは、ある環境に置かれたている出演者を分かりやすくし、視聴者を特定の位置におくための極端に長い（引いた）ショット（ＥＬＳ）の例を示している。図１Ｂもまた、ある環境に置かれたている出演者を分かりやすくし、視聴者を特定の位置におくための長い（引いた）ショット（ＬＳ）の例を示している。ある場合には、ＥＬＳはＬＳよりも、よりドラマチックである。図１Ｃは、出演者達がより視聴者に近づいた状態で、この物語の重要な主題を示すための、長いショットからの途中経過である、中間ロングショット（ＭＬＳ）を示している。通常、人間を対象にしている場合、ＭＬＳでは膝から上を写す。図１Ｄは、中間ショット（ＭＳ）を示し、ここでは、人間は通常、腰から上が映され、このショットでは、視聴者がその環境での反応や、特別な話題が展開されるのが理解できる。図１Ｅは、中程度にクローズドアップした状態（ＭＣＵ）を示し、ここでは人間は胸から上が表示される。このＭＣＵは、話し中の出演者の感情を含む、話題やコミュニケーションの理解に有用である。図１Ｆは、クローズアップした状態（ＣＵ）を示し、人間にたいして、その顔や肩を、そのショット内に入れており、その話題に関連した出演者の感情を明瞭に理解するのに有効である。このクローズアップは、より大きなドラマ的な効果を達成するためにイメージされている出演者の立場に、視聴者を注目させるのに有効である。図１Ｇは、更に極端にクローズアップした状態（ＥＣＵ）を示し、これは顔の一部を非常に接近して撮影したもので、これは意図する感情のドラマ的な効果が、この話の内容を越えたものとなっている。このＥＣＵは時として、視聴者に嫌がられたり、脅すことになるので、スリラー映画やホラー映画ではしばしば使用される。これら図１Ａ乃至図１Ｇで示す画像の順番において、種々のショットが明らかに異なる意味を持つことが理解されるであろう。例えば、図１Ｆと図１Ｇのいずれにおいても、飛んでいる凧が見えていない。また図１Ｄと図１Ｅでは、凧は、図１Ａから図１Ｃに見られるような、牛によって示される農場の上を飛んでいることがわからない。更に、図１Ａからは、その出演者が微笑んでいるか、或は実際、目が開いているかどうかは明らかではない。
【０００５】
人物の体全体を写した写真或は動画は、その人物の顔のクローズアップである場合、正確に同じ人間の写真であっても、別の意味があると視聴者に理解されるかもしれない。完全に人物の身体を移すショットは、一般的には、視聴者によって、有益であり、その出演者の社会的要因、特定の環境と関連付けるのに有効であると解釈されている。
【０００６】
この例を図２Ａ乃至図２Ｃを参照して説明する。これらの図では、同じ人物が３種類のショットで示されている。図２Ａは、ある風景の中でのワイドショットであり、その場所、人物、その場面内でなされる動きに関して、より有効的に情報を提供する。図２Ｂは、人物とその周辺内でのミッドショットで、その場所と動きから、その人物の特性を強調するように変化している。図２Ｃは、その人物のクローズアップを示し、視聴者の注目をその人物に引き付けている。
【０００７】
パンは、スクリーンライタによってなされる技術で、視聴者があるシーンの情報に専心できるように援助するものである。この技術は、広い風景や、映画などであるショットを確定するのに使用される。カメラが動かない時に得られる、ストレートショットは、このパンの効果に相反する。ストレートショットでは、視聴者は、そのシーンに沿って目を移動させて情報を探さねばならないのに対し、このパンでは、視聴者は特定のメッセージを探す必要がなくても、視聴者にその情報を提供することができる。パンでのカメラの移動は、視聴者に、そのシーンで見られるそれら要素を指示し、正しく使用されれば、情報を解釈したり、その情報に専心したりする人間の方法を模倣するようにできる。図３Ａは、複数の画像要素（例えば、太陽、家、牛、人間及び凧）を含むスチルショットの一例を示す図で、視聴者はこれらを走査して情報を得ることが出来る。映画では、１つのスチルショットは、視聴者を、そのストーリーの場所及び関係に位置付けるための、１つの確定するショットとして使用される。シーンライタは、このショットに基づいて後続のシーンを意味のあるものにする。図３Ｂは、４つの連続したフレームでの、ズーム、スプレッドを併用したパン技術の一例を示す図である。
【０００８】
更に、ダイレクト、ストレートショットとは逆に、カメラのアングルを変えることは、その話だけでは表現できない別の意味である、人物からの意味を生成するのに使用される。例えば、新聞やテレビのジャーナリストは、しばしばカメラアングルを変更して、好ましい選挙候補者に関する宣伝を依頼する。例えば、ロウアングルで撮影された会見が、視聴者に優勢な人物を表していたり、同一人物であっても、ハイアングルで撮影されると、下に見られることがある。同様な技術が映画においても使用され、敵対者とその被害者の効果をドラマ的に増大させている。ここで被害者がハイアングルで撮影されると、弱くて攻撃を受けやすく見えるだけでなく、視聴者はその人物に同情し、その恐怖をも体験することになる。
【０００９】
図４Ａは、目のレベルのショットを示し、図４Ｂ乃至図４Ｅで見られるような他のショットで使用されるアングルとは別の標準ショットである。図４Ｂは、ハイアングルショットを示し、人物を目下の位置におくのに使用される。図４Ｃは、ロウアングルショットを示し、ここではカメラアングルはロウに保たれ、人物を目上に見せている。図４Ｄは、傾いたカメラアングルでのショットを示し、ここではカメラは中心から外れて保持され、これにより視聴者は、その人物は通常とは違う、或は性格的にアンバランスな状態にあると思う様になる。図４Ｅは、ダッチアングルショットを示し、これは「急げ時間がない」といった急ぎの状態を示すか、あるいはその人物に奇妙な効果を与えるのに使用される。こうして、いい方向にも悪い方向にも、何か迷ってしまうといったメッセージを視聴者が受取ることになる。
【００１０】
上述したのに加えて、特別なストーリーが展開されていることを教示する多くの画像やショットがある。トラッキングショットは、出演者に続いて視聴者が、その動きの一部を経験できるものである。パンは、シーンをパノラマ的に描写すると共に、シーン内で人物に対して意味付けや重要性を指示する。スイッシュ(swish)パンも同様であるが、シーン内の遷移を表すのに、より使用される。
チルトショットは、カメラをある点からアップ或はダウンするもので、これは人が人物や、これにより表された情報を含む垂直の物体を評価する方法を真似たものである。携帯カメラによる映像は、視聴者に撮影が直ちに行われているように描写し、カメラが支持されていて（例えば、三脚や台で）撮影された映像に関連している時、最良の効果を得るためにしばしば使用される。
【００１１】
衝撃的な視覚言語を理解することは、イメージをより意味のある方法で表すことである。同時期の動画の結果と初期の映画制作との比較することが好ましい。初期の動画の例は、舞台での動きの遷移を反映した、上からの人物の完全なショットをで構成されている。例えば、チャーリチャップリンの映画制作とストーリーテラーの時代は、ドラマチック、及び情緒に満ちた動画と対照的である。先駆者である監督Ｄ．Ｗグリフス（Griffths）は、映画にドラマを産み出さすためにショットのパレットを使用することを初めて紹介した。これにより視聴者は、その映画の人物の感情と同じ経験ができるようになった。
【００１２】
映画会社はまたそのストーリーを説明するために他の技術を使用している。その技術はレンズの選択とフィルム効果を含んでいる。これらは視聴者に、その映画の意図しているメッセージや目的を理解させやすくする。視聴者は、どのようにして、或は気づいたとしても、これらの技術がどのようにイメージに適用されているかを理解する必要がない。実際には、この技術が適正に適用されれば、この方法は視聴者にとって明らかになることさえないであろう。
【００１３】
成功した映画会社によって必要とされたこのような技術は、成功した技術のメッセージを築き上げた多くの熟練者達の協動作業とともに、長年の教育や実践を通して得られたものである。対照的に、アマチュア映像制作者及び家庭でのビデオ制作者(home video makers)はそのような方法を理解又は適用するための技術及び機会をしばしば欠いている。しかし、プロが制作した映像作品によく接しているアマチュア及び家庭での映像制作者は、莫大な費用を要するハリウッド作品のようにではないにせよ、自分の作品をプロの制作作品にある程度でも近づけるために洗練したいと思っている。現在、そのような方法を用いて将来の映像制作者を教育するためのコースに特化した多くの映画学校があるけれども、しばしばこのようなコースはアマチュア映像制作者の出席を禁じている。アマチュア映像制作者を手助けするであろう現在利用可能な他の方法には、典型的には画像の配列を助けるソフトウェア製品及び／又は将来の映像制作者を教育するためのインタラクティブな教育技術が含まれる。しかしながら、現在のソフトウェアアプローチは、小規模な（家庭での）作品に用いるには法外な費用及び技術が必要なため広く用いられるには至っていない。
【００１４】
不慣れな編集者にとって、時間もまた現在のフィルム編集技術に関する大きな要因である。典型的には、ショットを計画し、その順番を考えるのに必要な時間は平均的な家庭／アマチュア映像制作者の現実的な範囲を十分に超えるものである。
【００１５】
従って、不慣れな（アマチュア）映画製作者が広範な計画又はショット形式の試験を行うことなく、所望の観衆に対して感情的な効果を伝える映像作品を創作することのできる手段を提供することが望ましい。
【００１６】
【課題を解決するための手段】
この必要性は、画像の自動分類、及び／或いは、様々な感情的なカテゴリ別の撮影を通して要求され、その上で、所望とする感情効果を実現するための編集できるようにすることである。
【００１７】
本発明の目的を達成するために、例えば、本発明の画像処理方法は以下の構成を備える。
即ち、顔検出手段が、入力された画像シーケンスの各画像から人間の顔を検出する顔検出工程と、
判定手段が、前記各画像について、検出された前記顔のサイズの前記画像のサイズに対する関係を判定する判定工程と、
分類手段が、前記関係に基づいて前記各画像を分類する分類工程と、
編集手段が、前記分類工程による前記画像シーケンスの各画像の分類結果に基づいて、当該画像シーケンスを編集する編集工程と
を備えることを特徴とする。
【００２１】
【発明の実施の形態】
図５に、画像記録及び生成システム５００の模式図を示す。図において、シーン５０２は、ディジタルビデオカメラ又はディジタルスチルカメラのような画像記録装置５０４を用いてキャプチャされる。シーン５０２がスチルカメラによってキャプチャされる場合、典型的には連続したスチル画像が記録され、実際には、ビデオカメラによって記録されるような連続した画像を補足する。画像の取り込みに関連して、カメラ５０４から出力され、典型的には画像データ５０６ａ、ビデオデータ５０６ｂ、音声データ５０６ｃ及び「カメラ」メタデータ５０６ｄから構成されるキャプチャデータ５０６が生成される。カメラメタデータ５０６は通常カメラによって自動的に生成されるメタデータ又はユーザによってカメラに手入力されるメタデータを表す。このようなメタデータは、画像又はフレーム番号、キャプチャの実時間（日付を含んでも良い）、カメラ設定の詳細（絞り、露出等）及び、光量などの環境情報を含むことができる。
【００２２】
好ましくは、カメラ５０４で記録されたキャプチャデータ５０４は５０８として、典型的には演算システムに付随する大容量記憶装置５１０に転送され、すぐにビジュアル言語分類システム５２２への相互接続５２０を介して利用可能になる。分類システム５０８は映像制作者(film maker)の編集がしやすいように構成されるメタデータを生成する。ビジュアル言語分類システム５２２は、さらなるメタデータとして構成された分類データ５２４を出力する。分類データ５２４は個々の画像に関連し、大容量記憶装置５２６に記憶することができる。記憶装置５２６に記憶された分類データ５２４は、接続５１２を介した記憶装置５１０へのアクセスを通じて編集モジュール５１４へ出力することができる。編集モジュールは、プレゼンテーションユニット５１６を介して、表示のためにテレビジョンディスプレイのようなディスプレイユニット５１８に出力されるか、大容量記憶装置５１９へ出力される、編集されたシーケンス５２８の編成を提供する。いくつかの実装において、記憶装置５１０、５２６及び５１９は統合的に形成されても良い。
【００２３】
分類システム５２２は記憶装置５１０にある画像分析のためのコンテンツ分析を行う。分類システム５２２で実行される分析は写真家が画像もしくは画像シーケンスをキャプチャした時点における意図に関する情報を提供するように構成される。このような分析は人間の顔面検出及び、好ましくは空、草原、うす茶色又は茶色の地面といった風景の特徴や、自動車、建造物など他の特徴的形状を含む、視覚的にはっきりした特徴の検出を含むことができる。また、例えば、人の会話、自動車の通過、スポーツの試合における、ボールをバットで打った際のバシッという音といった、画像シーケンス内の具体的なイベントを特定するために、好ましくは音声分析を用いることができる。分類システム５２２は、ある画像シーケンス又はシーケンス中の特定の画像において特定されるコンテンツに関連する、又はコンテンツを示すメタデータを提供する。
【００２４】
分類システム５２２によって適用可能なコンテンツ分析の１つの具体例は顔面検出であり、これによって画像もしくはそのシーケンスにおける特定の人物の同定及び追跡が可能になる。図５の装置に用いることができる顔面検出装置の一例が、Poggio等による米国特許第５，６４２，４３１号に記載されている。また、別の例がオーストラリア公開特許公報第AU-A-33982/99号に記載されている。このような顔面検出装置は典型的には画像フレーム内において皮膚の色を有し、顔を表すであろう画素のグループもしくは領域を検出し、それによって検出したグループ又は領域、すなわち顔面に対するメタデータによるタグ付け並びにモニタを可能にする。このようなモニタリングは検出された顔面の高さ及び幅に関する境界ボックス(boundary box)の確立及び、その後複数の画像に渡るボックスの変化及び移動の追跡を含むことができる。
【００２５】
図１Ａから１Ｇの画像シーケンスにおいて、図１Ａ及び図１Ｂの細かなコンテンツは一般に正確な顔面検出を行うには小さすぎる。そのため、これらのフレームは顔のない画像(non-face images)として分類される。しかし、図１Ｃから１Ｇの各々において、凧揚げをしている人物の顔は非常によく認識でき、かつ個々の画像の重要な特徴である。従って、これらの画像は自動的に顔のある画像(face images)として分類され、このような分類は分類システム５２２によって実行されるコンテンツ分析によって生成されるメタデータ５２４として同定されるほか、画像とともに提供されるメタデータ５０６ｄにリンク付けもしくは関連づけされる。
【００２６】
さらに、好ましい実施形態において、全体の画像サイズに対する割合としての検出顔面サイズは、ショットの形式確立及び記録に用いられる。例えば、ショットの形式を同定するための簡単なルールを確立することができる。第１のルールは、顔が検出されたが、画面に対して検出された顔の大きさがかなり小さい場合、その画像は遠景ショット(long shot)として分類するというものでよい。同様のルールは、顔が検出され、その大きさが画像とほぼ同じであるというものである。この場合、画像はクローズアップとして分類されるであろう。極端なクローズアップの場合、顔面が画像全体を占めるか、顔面が画像とほぼ同じ大きさだが、画像からはみ出ている。
【００２７】
別の例として、ＭＬＳである図１Ｃでは、顔面が画像の約２％を表している。また、顔面が画像の約４％を占める図１Ｄは、ＭＳである。図１Ｅについては顔面が画像の約１０％の大きさである、ＭＣＵとなる。図１ＦのＣＵショットは顔面が画像の約６０％の場合、ＥＣＵについては顔面が画像の約８０％を超える場合である。このようにして、対象が顔であるか、いくつかの他の同定可能な画像構成（例えば、牛、家、自動車等）であるかに関わらず、対象に関してショットの形式を定義するための好ましいルールセットを確立することができる。ルールの例を以下に示す。
【００２８】
ミディアムロングショット（ＭＬＳ）対象が画像の2.5%未満
ミディアムショット（ＭＳ）対象が画像の2.5%を超え、10%未満
ミディアムクローズアップ（ＭＣＵ）対象が画像の10%を超え、30%未満
クローズアップ（ＣＵ）対象が画像の30%を超え、80%未満
極端なクローズアップ（ＥＣＵ）対象が画像の80%超
ここで、映像制作者は、望むなら利用可能なソースの長さの特定形式、又は達成したい特定の編集効果に依存してルールを変化させることができる。
【００２９】
分類のための内容分析に関する別の例としてカメラ傾斜角（チルト角）が挙げられる。これは、イメージフレーム中における検出された顔の相対位置を調べることによって評価することができる。例えば、図４Ａに示されるように、顔がイメージフレーム中の中央部に検出されている場合、これはアイレベルショット（eye-level shot）として分類され得る。また、図４Ｂでは、主体がフレームの底部に配置されているが、このような場合は、ハイアングルショットに分類され得る。検出された顔の位置決めは、所望の分類を提供するように、イメージフレームのタイリング（tiling）と関連させ得る。フレームの中のタイルは、アイレベル、ハイショット、ローショット、レフトサイド、ライトサイドに前もって分類しておく。ある（複数の）タイルにおいて検出された顔の位置は、次に、平均のタイル位置を決定するのに使用され、その結果、平均した顔のタイルの位置に従ってイメージを分類することができる。そのような手法は容易に図４Ａ〜４Ｄのイメージに適用され得る。
【００３０】
図４Ｅのダッチショットは、イメージ内のエッジを検出することによって判断され得る。そのようなエッジは、多くの既知のエッジ検出構成の１つを用いて検出され得るものである。イメージにおけるエッジは、しばしば地平線或いは他の水平のエッジを示すか、ビルディングの壁によって形成されるような垂直なエッジを示す。その結果、実質的に非垂直で、非水平であるとして検出されるエッジはダッチショットを示す可能性がある。検出されたエッジの傾斜の角度をイメージフレームと比較することによって、分類が実行されてもよい。その角度がおよそ０度かまたはおよそ９０度である場合、それぞれは地平線か垂直な壁を表していると考えられる。従って、そのようなものはトラディショナルショットの可能性が高い。しかしながら、傾斜の角度が実質的にそれらの値の間である場合には、ダッチショットであることが示される。そのような検出のための好ましい傾斜の角度は３０〜６０度であろうが、これは所望であればユーザによって決定されてもよい。
【００３１】
別の実施形態では、ビジュアル言語分類システムは、シーンによって伝えられる情緒的なメッセージに関連する他の用語（term）でもって、ユーザが分類を補うことを可能とする。そのようなマニュアルで入力されるメタデータは、図１Ｃ〜１Ｇの例において、「幸福」、「笑顔」、「レジャー」、および「楽しみ」などの用語を用いることができる。また、「凧上げ」などのような、より複雑な説明文が入れられてもよい。このマニュアルで入力されたメタデータは、自動的に生成されたメタデータを補うことができ、自動的に生成されたメタデータとともに格納され得る。
【００３２】
そのような処理の結果、格納５２６は、最終的な生成物を形成するのに使用されるべく、ソースイメージの内容を表すメタデータを含むように形成される。メタデータは、タイミング情報や順序づけ情報（例えば、シーンの数など）を含むだけでなく、後続の編集処理におけるプロンプト（指示メッセージ）として使用することが可能な、イメージの内容及びショットタイプを表す情報をも含む。
【００３３】
データベース５２６が形成されると、次に、ユーザは、選択されたイメージの編集を開始することができる。これは、記憶装置５１０から適切なイメージ或いは適切な一連のイメージを抽出する編集システム５１４を起動することによってなされる。メタデータ記憶装置５２６の中に保管された情報を使用して、ユーザは容易に特定のイメージを編集することができる。データベース情報は、多くの他のイメージの中から、ソースかターゲットの一方もしくは両方として、フェードインとフェードアウトポイントを定義したり、ズームの変化が必要なイメージを定義したり、個々のイメージの中のズーミング操作のためのフォーカス中心を表すことができる興味あるポイントを定義したりするのに使用され得る。
【００３４】
編集システム５１４によって実行される編集は、さまざまな方法で分類部５２４を使用して動作することができる。例えば、ユーザがロングショットでイメージシーケンスを開始させようと思った場合、従って、全ロングショットをリスト化するべくシステム５１４に要求を入力するかもしれない。そして、システム５１４は、予めロングショットとして分類されたイメージのピック−リスト（pick-list）を形成するために、記憶装置５２６に問い合わせを行なう。そして、ユーザは、編集シーケンスを開始するために、そのリストからロングショットを選択することができる。こうして、各イメージ或いはショットシーケンスに関するサーチ可能な情報として準備されたソースが提供されることによって、分類のためにユーザが費やす編集時間を減少させる。別の例は、主体の顔にある「恐れ」の感情を示すことを要求する場合である。顔は典型的には、ミディアムショットの下では、あらゆる重要な細部も検出されないので、記憶装置５２６の検索はすべてのミディアムショット、クローズアップおよび極端なクローズアップのためになされる。対応するピックリストは、ユーザが一般に、「恐れ」を示すものを決定するのに利用可能な全てのイメージの数よりも少ない数のイメージをレビューすればよいように生成される。そして、「恐れ」などのユーザ入力されたメタデータは、そのような感情を示すそれらのイメージに対する自動的に生成された分類を補うことができる。
【００３５】
上述したようなイメージの自動化された内容分析は、イメージのシーケンスの迅速な処理を可能とし、強化された編集結果の形成を容易にする。例えば、ビデオソースが２５フレーム／秒を有して提供される場合、５秒間のショットは１２５個のフレームの編集を必要とする。各フレームに手動による顔検出と焦点の確立を実行することは、時間浪費的であるし、人間の非一貫性による首尾一貫しない結果をもたらす傾向がある。内容分析による自動化により、各フレームにおける顔の位置が一貫して適用される規則に従って見つけられる。その時に必要なことのすべては、始め、終わりのポイントおよび対応する編集機能を、ユーザに選択させることである（例えば、ズーム値、始めの０％、および終わりの６０％）。
【００３６】
ソース素材のメタデータ分析は以下を含むことができる。すなわち、
(i)タイムコードと日付データ;
(ii)ＧＰＳデータ;
(iii)画像品質分析（シャープネス、色、内容の品質等）;
(iv)オリジナルのショットタイプ検出;
(v)オブジェクト検出とカスタムオブジェクト検出（著者によって決定された）;
(vi)動き検出;
(vii)顔検出;
(viii)オーディオ検出;
(ix)衝突検出;
(x)タイル(インターフレーム構造)分析;そして
(xi)ユーザ入力されたメタデータ。
【００３７】
図５を参照する上述の方法は、図６に示されるような従来の汎用コンピュータシステム６００を使用して実行されるのが好ましく、図６では、図５の処理が、コンピュータシステム６００内で実行するアプリケーションプログラムのようなソフトウェアとして実現されても良い。ソフトウェアは２つの部分に分割しても良く、１つは、分類及び編集方法を実行し、もう１つは、残りの部分とユーザ間のユーザインタフェースを管理する。ソフトウェアは、例えば、以下に説明するような記憶装置を含むコンピュータ可読媒体に記憶されても良い。ソフトウェアは、コンピュータ可読媒体からコンピュータにロードされ、そして、コンピュータによって実行される。このようなソフトウェアを有するコンピュータ可読媒体あるいはそのコンピュータ可読媒体に記憶されたコンピュータプログラムは、コンピュータプログラム製品である。コンピュータにおけるコンピュータプログラム製品の使用は、画像あるいは画像シーケンスの分類及び間接編集を行う装置に効果を与えるので好ましい。
【００３８】
コンピュータシステム６００は、コンピュータモジュール６０１、キーボード６０２及びマウス６０３のような入力装置、プリンタ６１５、画像表示装置６１４、スピーカ６１１を含む出力装置を備える。変調−復調（モデム）トランシーバ装置６１６は、例えば、電話回線６２１あるいは他の機能媒体を介して接続可能な通信ネットワーク６２０へ及びから通信するコンピュータモジュール６０１によって使用される。モデム６１６は、インターネット、かつローカルエリアネットワーク（ＬＡＮ）あるいはワイドエリアネットワーク（ＷＡＮ）のような他のネットワークシステムへのアクセスを実行するために使用することができる。
【００３９】
コンピュータモジュール６０１は、典型的には、少なくとも１つのプロセッサユニット６０５、例えば、半導体ランダムアクセスメモリ（ＲＡＭ）及びリードオンリメモリ（ＲＯＭ）から構成されるメモリユニット６０６、音声／画像インタフェース６０７、キーボード６０２及びマウス６０３かつオプションのジョイスティック（不図示）用のＩ／Ｏインタフェース６１３、モデム６１６用インタフェース６０８を含む入力／出力（Ｉ／Ｏ）インタフェース群を含んでいる。提供される記憶装置６０９は、典型的には、ハードディスクドライブ６１０及びフロッピーディスクドライブ６１１を含んでいる。磁気テープドライブ（不図示）も使用しても良い。ＣＤ−ＲＯＭドライブ６１２は、典型的には、データの不揮発ソースとして提供される。コンピュータモジュール６０１の構成要素６０５から６１３は、典型的には、当業者に知られるコンピュータシステム６００の従来の動作モードを得る方法で、内部接続バス６０４を介して通信を行う。上述の構成を実行できるコンピュータ例としては、ＩＢＭ−ＰＣ互換機、サンスパークステーションあるいはそれらを改良した同種のコンピュータシステムが含まれる。
【００４０】
典型的には、アプリケーションプログラムは、ハードディスクドライブ６１０上に常駐し、読み出され、そして、プロセッサ６０５による自身の実行で制御される。プログラムの中間記憶及びネットワーク６２０からフェッチされる任意のデータは、たいていはハードディスクドライブ６１０と協同する半導体メモリ６０６を使用して達成される。いくつかの例では、アプリケーションプログラムは、ＣＤ−ＲＯＭあるいはフロッピーディスク上で符号化された状態でユーザに供給され、かつ対応するドライブ６１２あるいは６１１を介して読み出すことができ、あるいはモデム装置６１６を介してネットワーク６２０からユーザによって読み出すことができる。また、更に、ソフトウェアは、他のコンピュータ可読媒体からコンピュータシステム６００にロードすることができ、この他のコンピュータ可読媒体は、磁気テープ、ＲＯＭあるいは集積回路、光磁気ディスク、コンピュータモジュール６０１と他の装置間の無線あるいは赤外線送信チャネル、ＰＣＭＣＩＡカードのようなコンピュータ可読カード、ウェブサイト及びその類に記録されたｅメール送信及び情報を含むインターネット及びイントラネットを含んでいる。上述の説明は、コンピュータ可読媒体に関する単なる例である。他のコンピュータ可読媒体が使用されても良い。
【００４１】
図６を参照して説明される方法は、システムの機能あるいは補助機能を実行する１つ以上の集積回路のような専用ハードウェアで選択的あるいは補助的に実現されも良い。このような専用ハードウェアは、グラフィックプロセッサ、デジタル信号プロセッサ、あるいは１つ以上のマイクロプロセッサ及び付随メモリ群を含めることができる。例えば、ズーム及び画像補間のような特殊視覚効果は、そのような機能用に構成される専用ハードウェア装置で実行されても良い。例えば、顔面検出あるいは音声処理用に使用される他の処理モジュール群は、専用ＤＳＰ装置で実行されても良い。
【００４２】
図５に関する上述の説明は、画像内容から導出される分類に基づく出力表示を生成するために編集システム５１４がどのように使用できるかを示している。編集に対する更なるアプローチは、図７のフローチャートで示されるテンプレートに基づくアプローチ７００を使用して達成されても良く、例えば、編集システム５１４内で実行することができる。方法７００は、ステップ７０２で開始し、そこで、単一の開始−終了遷移間長の部分である所望のクリップが処理対象として選択される。生成物を生成するために、いくつかのクリップがシーケンス内で処理されても良い。これについては、所望のテンプレートがクリップに適用するために選択されるステップ７０４以降で行われる。これに関するテンプレートは、様々なショット及び所望の視覚効果を達成するクリップタイプに適用できる編集規則群である。選択的には、テンプレートはクリップ部だけに適用する必要があり、あるいはいくつかの場合では、所望の処理用に抽出する１つ以上の静止画あるいは動画だけに適用する必要がある。典型的には、いくつかのテンプレート７０６は、選択７０８に対して利用可能である。各テンプレート７０６は、それぞれがいくかのデフォルト設定を有するブール規則群として確立されても良い。テンプレート例として、以下の表１を示し、ここでは、特定ショットタイプに適用される先頭である特定視覚効果を定義している。
【００４３】
【表１】

【００４４】
表１のテンプレートでは、上述の顔面検出条件に基づく様々なショットタイプが列挙されている。２つの「その他」のショットタイプが示され、これらには、例えば、顔面が検出されないあるいはいくつかの検出可能な被写体が判定可能である場合がある。このような例としては、キャプチャされた他の色のレーシングカーに対し、ユーザへの特定注目物が白色のレーシングカーを含むフレームであっても良い。このようなレーシングカーは、分類システム５２２によって検出されても良く、この分類システム５２２は、「その他＃１」として分類されるべき上記フレームを可能にすることによって、実際の白色領域とその色の実際の移動の両方を検出するように構成される。この移動は、連続する隣接フレームを介するフレームを走査するレーシングカーの実際の移動であっても良く、一方で、実際の背景の移動が発生する。このような分類は、ＥＣＵ、ＣＵ、ＭＣＵ等の上述のアプローチを別々にして生成されても良い。表１に示されるように、ＥＣＵ、ＣＵ、ＭＣＵ及びその他＃１のそれぞれのショットタイプは、編集表示に含むように選択される。
【００４５】
ステップ７１２におけるユーザの決定に従って、選択されたテンプレート（すなわち、テンプレート＃２）は変わり得る。変更が要求されると、次に、ステップ７１４へ進み、ユーザがテンプレートテーブル内のブール値を修正することが許可される。上述した通り、選択されていないそれらのショットタイプ（すなわち、ＭＳ，ＭＬＳ、ＬＳ及びその他＃２）は、テーブルを使用不能とし、そこに陰が付けられて示される。それらの選択されたショットタイプは、その後、ユーザによって修正された、それぞれ対応する効果を有し得る。示すように、複数の異なる再生速度が提供され、いずれか一つのショットタイプの選択は、同じショットタイプのために他のものを不能にする。各ＥＣＵ及びＣＵは、異なる１／４速度で応答するように選択され、ＭＣＵは自然な速度で再生する。その他＃１のショットタイプで捕捉されたレーシングカーは、顔のショットとモーターカーのショットとの違いを強調し、ユーザの要求を満たすために、４倍速で再生するために選択される。カラーフィルタは効果を発揮するようにされているが、選択された各ショットは、設定で選択されたモノクローム（Ｂ＆Ｗ）を有し、カラー変化が除去される。そのような効果は、一定のオレンジ又はブラウンの薄色をフレーム全体を提供し得、この例では、古いセピア色の効果で画像を再生させる。音は、顔のショットでは不可能であるがレーシングカーのショットでは可能となる。
【００４６】
隣接するショットタイプ間の転換のために、ズームされた特徴も提供される。テーブル１の例に示すように、ＭＣＵショットは、”＋２”のズームとされ、これは、２秒間にわたって生じるズームを伴う、次のショットタイプ（すなわちＣＵ）に対するズームインを表している。通常、ズームの間、画像は、自動的にディスプレイのサイズに維持される。ズームアウトも可能であり、マイナスシンボル（−）によって示される。期間は、秒、フレーム若しくは瞬間（すなわち、＋＋）で特定され得、後者は、編集された製品に含めるための直接新たなフレームを生成する。テーブル１におけるズームの変化は、隣接するショットタイプ間で生じることにより特定される。あるいは、ズームの程度及びズームの期間は、各ショットタイプ（例えば、ＭＣＵ：１５０％：２５フレーム；ＣＵ：２００％：１０フレーム；ＥＣＵ：３０％：５０フレーム）とは別々に特定され得る。この手法では、編集された製品は、所定の期間にわたって、特定のショットタイプのために、製品の心情的な効果を強調することにより、他のショットタイプに対するズームを示し得る。例えば、ＭＣＵからＥＣＵへのズームは、”劇的な”テンプレートの一部を形成し得、観る者の注意を中央のキャラクタに集中させるためにＥＣＵのものが用いられる。”賞賛される”テンプレートは、ＭＣＵからＣＵへのズームに含まれ得る。
【００４７】
画像の編集効果の他の形式は、所望のテンプレートに適用され得る。
【００４８】
一旦修正すると、テンプレートは保存され、制御はステップ７０４へ戻り、ユーザはちょうど修正したテンプレートを選択することができる。一旦テンプレートが選択されると、ステップ７１６へ進み、クリップのシーケンスが、記憶装置７１８に維持されたカメラメタデータから引き出される。一旦正しいシーケンスが形成されると、シーケンスは、選択されたテンプレートを適用することにより、ステップ７２０において編集される。このステップは、最初に、分類メタデータを記憶装置７１８から供給してショットタイプを決定し、その後、ショットが適用される様々な効果が選択されるビデオデータを供給することを含む。この結果、ステップ７２２の出力が提示され、記憶装置に送られるか、直接ディスプレイ装置へ再生される。
【００４９】
なお、多様なテンプレートが生成され、その各々は、ソース画像上で、そこに含まれるショットタイプの分類に応じて感動的な編集スタイルを表現し得ることはいうまでもない。また、個々のクリップ又は場面は、主題に基づく表現スタイルの変更により、異なるテンプレートを用いて編集され得る。従って、モーターレースへの家族的な見物は、ＭＳのものやＭＬＳのものに限定されるが実質的に自然な場面を用いたピクニックのランチを描いた場面や、テーブル１に関して上述した手法で編集されたアクション場面や、或いは、レース中のクラッシュを強調するために用いられる実質的にスローモーションのスーパーアクション場面を含む。クラッシュは、重要性を示すタグと共に、場面のその一部のメタデータをユーザが捕捉することにおって分類され得る。また、テーブル１のテンプレートは、他意部分は、ショット距離に依存するが、上述したチルトアングルのような他の分類は、代替的に又は追加的に含まれる。
【００５０】
［産業上の利用分野］
画像編集や再生産の分野、ショットや対象の識別、総合的な編集の厳しい訓練を受けたアマチュアの映画会社が特別な応用を見つけるときにも適用可能である。
【００５１】
前述のものは、本発明のうちいくつかの実施形態であって、変更及び／又は変化は本発明の趣旨を損なうことなく行うことができる。又、記載された実施形態は一例であって、これに限定されるものではない。
【図面の簡単な説明】
本発明の１又はそれ以上の実施の形態は、以下の図面を参照して説明されている。
【図１Ａ】フィルムメーカーによって用いられる複数のショットレンジを示す図である。
【図１Ｂ】フィルムメーカーによって用いられる複数のショットレンジを示す図である。
【図１Ｃ】フィルムメーカーによって用いられる複数のショットレンジを示す図である。
【図１Ｄ】フィルムメーカーによって用いられる複数のショットレンジを示す図である。
【図１Ｅ】フィルムメーカーによって用いられる複数のショットレンジを示す図である。
【図１Ｆ】フィルムメーカーによって用いられる複数のショットレンジを示す図である。
【図１Ｇ】フィルムメーカーによって用いられる複数のショットレンジを示す図である。
【図２Ａ】フィルムメーカーによって用いられる３つの異なる撮影タイプを示す図である。
【図２Ｂ】フィルムメーカーによって用いられる３つの異なる撮影タイプを示す図である。
【図２Ｃ】フィルムメーカーによって用いられる３つの異なる撮影タイプを示す図である。
【図３Ａ】ビューワの心理状態に影響を与えるパンの効果を示す図である。
【図３Ｂ】ビューワの心理状態に影響を与えるパンの効果を示す図である。
【図４Ａ】フィルムメーカーによって用いられる様々なアングルのカメラ撮影を示す図である。
【図４Ｂ】フィルムメーカーによって用いられる様々なアングルのカメラ撮影を示す図である。
【図４Ｃ】フィルムメーカーによって用いられる様々なアングルのカメラ撮影を示す図である。
【図４Ｄ】フィルムメーカーによって用いられる様々なアングルのカメラ撮影を示す図である。
【図４Ｅ】フィルムメーカーによって用いられる様々なアングルのカメラ撮影を示す図である。
【図５】画像記録システム及び画像生成システムの概略ブロック図である。
【図６】開示されたアレンジを実行可能な汎用コンピュータシステムの概略ブロック図である。
【図７】ビデオ編集用テンプレートの使用を示すフローチャートである。

Claims

顔検出手段が、入力された画像シーケンスの各画像から人間の顔を検出する顔検出工程と、
判定手段が、前記各画像について、検出された前記顔のサイズの前記画像のサイズに対する関係を判定する判定工程と、
分類手段が、前記関係に基づいて前記各画像を分類する分類工程と、
編集手段が、前記分類工程による前記画像シーケンスの各画像の分類結果に基づいて、当該画像シーケンスを編集する編集工程と
を備えることを特徴とする画像処理方法。
前記分類工程では、前記顔のサイズが前記画像のサイズよりも小さい場合に、当該画像を遠隔ショットとして分類することを特徴とする請求項１に記載の画像処理方法。
前記分類工程では、前記顔のサイズが前記画像のサイズと略同一である場合、当該画像をクローズアップとして分類することを特徴とする請求項１に記載の画像処理方法。
前記分類工程では、前記顔のサイズが前記画像のサイズよりも大きい場合に、当該画像を極大クローズアップとして分類することを特徴とする請求項１に記載の画像処理方法。
前記分類工程では、前記画像のサイズに対する前記顔のサイズの割合と閾値との大小関係に基づいて、当該画像を分類することを特徴とする請求項１に記載の画像処理方法。
顔検出手段が、入力された画像シーケンスの各画像から人間の顔を検出する顔検出工程と、
判定手段が、前記各画像について、検出された前記顔の前記画像に対する相対位置を判定する判定工程と、
分類手段が、前記相対位置に基づいて前記画像を分類する分類工程と、
編集手段が、前記分類工程による前記画像シーケンスの各画像の分類結果に基づいて、当該画像シーケンスを編集する編集工程と
を備えることを特徴とする画像処理方法。
前記分類工程では、前記相対位置が前記画像の下部である場合に、当該画像をハイショットとして分類されることを特徴とする請求項６に記載の画像処理方法。
前記分類工程では、前記相対位置が前記画像の中央部である場合に、当該画像をアイレベルショットとして分類されることを特徴とする請求項６に記載の画像処理方法。
前記分類工程では、前記相対位置が前記画像の上部である場合に、当該画像をローショットとして分類されることを特徴とする請求項６に記載の画像処理方法。
更に、エッジ検出手段が、前記画像内のエッジを検出するエッジ検出工程と、
判別手段が、前記画像の軸に対する前記エッジの傾き角を判別する判別工程とを備え、
前記分類工程では、前記傾き角が所定の範囲にある場合に、当該画像をダッチショットとして分類することを特徴とする請求項６に記載の画像処理方法。
更に、所定被写体検出手段が、前記画像から人間以外の所定被写体を検出する所定被写体検出工程と、
前記画像内の前記所定被写体の相対的な動きを評価する評価工程とを備え、
前記分類工程では、前記評価工程における評価に基づいて前記画像を分類することを特徴とする請求項６に記載の画像処理方法。
前記所定被写体検出工程では、前記所定被写体として所定色の領域を検出することを特徴とする請求項１１に記載の画像処理方法。
前記編集工程では、前記分類工程による各分類に対して複数の編集操作の１つを対応づけた編集テンプレートを参照して編集を実行することを特徴とする請求項６に記載の画像処理方法。
前記複数の編集操作は、再生速度のバリエーション、拡大／縮小、ぼかし、色のバリエーションの少なくとも１つを含むことを特徴とする請求項１３に記載の画像処理方法。
入力された画像シーケンスの各画像から人間の顔を検出する顔検出手段と、
前記各画像について、検出された前記顔のサイズの前記画像のサイズに対する関係を判定する判定手段と、
前記関係に基づいて前記画像を分類する分類手段と、
前記分類手段による前記画像シーケンスの各画像の分類結果に基づいて、当該画像シーケンスを編集する編集手段と
を備えることを特徴とする画像処理装置。
入力された画像シーケンスの各画像から人間の顔を検出する顔検出手段と、
前記各画像について、検出された前記顔の前記画像に対する相対位置を判定する判定手段と、
前記相対位置に基づいて前記画像を分類する分類手段と、
前記分類手段による前記画像シーケンスの各画像の分類結果に基づいて、当該画像シーケンスを編集する編集手段と
を備えることを特徴とする画像処理装置。
コンピュータを
入力された画像シーケンスの各画像から人間の顔を検出する顔検出手段、
前記各画像について、検出された前記顔のサイズの前記画像のサイズに対する関係を判定する判定手段、
前記関係に基づいて前記画像を分類する分類手段、
前記分類手段による前記画像シーケンスの各画像の分類結果に基づいて、当該画像シーケンスを編集する編集手段
として機能させるためのコンピュータプログラムを格納した、コンピュータ読み取り可能な記憶媒体。
コンピュータを
入力された画像シーケンスの各画像から人間の顔を検出する顔検出手段、
前記各画像について、検出された前記顔の前記画像に対する相対位置を判定する判定手段、
前記相対位置に基づいて前記画像を分類する分類手段、
前記分類手段による前記画像シーケンスの各画像の分類結果に基づいて、当該画像シーケンスを編集する編集手段
として機能させるためのコンピュータプログラムを格納した、コンピュータ読み取り可能な記憶媒体。