JP4047264B2

JP4047264B2 - 動画像処理装置、動画像処理方法および動画像処理プログラム

Info

Publication number: JP4047264B2
Application number: JP2003377282A
Authority: JP
Inventors: 恒青木
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2003-09-30
Filing date: 2003-11-06
Publication date: 2008-02-13
Anticipated expiration: 2023-11-06
Also published as: JP2005130416A; US20050089224A1; US7778470B2

Description

本発明は、画像の内容が切り替る画像変化点で分割された動画像である部分動画像を複数含むメタショットを生成する動画像処理装置、動画像処理方法および動画像処理プログラムに関するものである。

高性能なパーソナルコンピュータ（ＰＣ）やハードディスクレコーダーの普及により、映像・動画像をデジタル化して保存する技術が発達してきている。この技術は、ハードウェア、ソフトウェアの形態で実現されており、また、業務用に限らず家庭用のハードウェア等においても実現されている。

具体的には、例えばＰＣ内、またはレコーダー内のハードディスク（ＨＤＤ）に電磁的に映像を記録する。従って、目的の番組を少ない待ち時間で再生開始できる、不要番組の限定的削除が容易であるなど、従来のビデオテープにはなかったメリットがある。このような利便性の向上により、録画等の操作をより簡単に行うことができるようになってきた。

その一方で、大量の映像等が記録されると、所望の場面の検索が困難になるという問題が生じた。早送り機能などを用いて番組を、いわゆる「飛ばし見」することにより検索時間を短縮することでこのような問題に対処可能である。

しかし、このような「飛ばし見」は、例えば数秒に１フレームといったように番組内容の構造と無関係な物理的な単位で表示フレームを間引きするため、興味ある場面を行き過ぎてしまうという新たな問題が生じた。

このような問題を解決するために、画像処理技術を用い、動画像中の画像が切り替わる画像変化点（以下、「カット点」と称す）によって動画像を部分動画像に分割し、ショット、すなわち部分動画像毎に飛ばし見を可能とする技術研究や製品開発がなされてきている。

上記のような映像の分割として、たとえばコマーシャルと番組本編、ニュース番組の話題転換など番組内容に即した分割が可能であるが、例えば資料映像の切り替わりなど、上記の映像分割の技術では適切に分割処理を行えない画像が大量に含まれている。

また、生成されたショットには、再生される時間長が数秒程度と短いものが多い。このように１つのショットの時間長が極端に短い場合には、検索時間を短縮できるという効果も期待できない。

この問題を解決するために、本願出願人は、類似ショットのアイコン表示を省略することによって一覧表示の視認性を向上させる方法を提案した（特許文献１参照）。また、映像の繰り返し単位をグルーピング（連続する複数のショットの集合にする＝メタショット化）することにより、本来の番組内容により近い単位で映像を構造化する方法が提案されている。
特開平９−２７０００６号公報青木ら著「繰返しショットの統合による階層化アイコンを用いたビデオ・インタフェース」（情報処理学会論文誌 Vol.39, No.5 pp.1317-1324, 1998年）

上記文献の方法によれば、ニュースなどのように番組全体にニュースキャスター（アンカーパーソン）のショットが分散している番組では番組全体がメタショットとしてグルーピングされてしまい、適切なメタショットに分割できないという問題がある。

また、番組の種類によって、適切なメタショットに分割するための方法が異なるため番組の種別によらずに、自動的に適切なメタショットに分割する技術の提供が望まれている。

本発明は、上記に鑑みてなされたものであって、番組の種類によらず適切なショットに分割することのできる動画像処理装置、動画像処理方法および動画像処理プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明の第１発明は、動画像の内容が切り替る画像変化点で分割された部分動画像を複数含むメタショットを生成する動画像処理装置であって、前記部分動画像同士の類似度を計測する類似度計測手段と、前記類似度計測手段が計測した前記類似度に基づいて、類似する部分動画像を特定する類似ショット特定手段と、前記類似ショット特定手段が特定した、前記類似する部分動画像に対して同一のグループ属性を付与するグループ化手段と、前記グループ化手段によって生成されたグループから、予め定められた条件に従って、前記メタショットの先頭とすべき先頭部分動画像の属する先頭グループを選択する先頭グループ選択手段と、前記先頭グループ選択手段が選択した前記先頭グループに属する部分動画像が前記動画像中で出現する出現パターンに基づいて、前記先頭グループに含まれる部分動画像から前記先頭部分動画像を選択する先頭ショット選択手段と、前記先頭ショット選択手段が選択した前記先頭部分動画像を先頭に有する前記メタショットを生成するメタショット生成手段とを備えたことを特徴とする動画像処理装置を提供する。

ここで本発明において、前記メタショット生成手段は、前記先頭部分動画像の開始位置を境界とするメタショットを生成することを特徴とする。

また本発明において、同一のグループに属する部分動画像の個数と、予め定められた基準個数とを比較するショット個数比較手段をさらに備え、前記先頭グループ選択手段は、前記ショット個数比較手段によって同一のグループに属する部分動画像の個数が前記基準個数に比べて多いと判断された場合に、当該グループを前記先頭グループとして選択することを特徴とする。

また本発明において、同一のグループに属する部分動画像のうち再生時間長が最短である部分動画像の再生時間長と、予め定められた基準最短時間長とを比較する最短時間長比較手段をさらに備え、前記先頭グループ選択手段は、前記最短時間長比較手段によって前記最短である部分動画像の再生時間長が前記基準最短時間長に比べて長いと判断された場合に、当該グループを前記先頭グループとして選択することを特徴とする。

また本発明において、同一のグループに属する部分動画像のうち再生時間長が最長である部分動画像の再生時間長と、予め定められた基準最長基準時間長とを比較する最長時間長比較手段をさらに備え、前記先頭グループ選択手段は、前記最長時間長比較手段によって前記最長である部分動画像の再生時間長が前記基準最長時間長に比べて長いと判断された場合に、当該グループを前記先頭グループとして選択することを特徴とする。

また本発明において、同一のグループに属する部分動画像の再生時間長の平均値を算出する時間長平均値算出手段と、前記時間長平均値算出手段が算出した前記再生時間長の平均値と、予め定められた基準平均時間長とを比較する平均時間長比較手段とをさらに備え、前記先頭グループ選択手段は、前記平均時間長比較手段によって前記再生時間長の平均値が前記基準平均時間長に比べて長いと判断された場合に、当該グループを前記先頭グループとして選択することを特徴とする。

また本発明において、同一のグループに属する部分動画像のうち前記動画像において最初に配置されている部分動画像と、前記動画像において最後に配置されている部分動画像との間の再生時間長を測定するショット間時間長測定手段と、前記ショット間時間長測定手段によって測定された部分動画像間再生時間長と、予め定められた基準部分動画像間時間長とを比較するショット間時間長比較手段とをさらに備え、前記先頭グループ選択手段は、前記ショット間時間長比較手段によって前記部分動画像間再生時間長が前記基準部分動画像間時間長に比べて長いと判断された場合に、当該グループを前記先頭グループとして選択することを特徴とする。

また本発明において、第１のグループに属する全ての部分動画像が、前記第１のグループ以外のグループに属する２つの部分動画像の間に配置されているか否かを判断するショット位置判断手段をさらに備え、前記先頭グループ選択手段は、前記ショット位置判断手段によって前記第１のグループに属する全ての部分動画像が、前記第１のグループ以外のグループに属する２つの部分動画像の間に配置されていないと判断された場合に、前記第１のグループを先頭グループとして選択することを特徴とする。

また本発明において、同一のグループに属する複数の部分動画像の出現パターンに基づいて、前記グループに属する、対象部分動画像が対話の場面を示す部分動画像である確率を示す対話度数を算出する対話度数算出手段をさらに備え、前記先頭ショット選択手段は、前記対話度数算出手段によって算出された前記対話度数が予め定められた基準値よりも小さい場合に、前記対象部分動画像を先頭部分動画像として選択することを特徴とする。

また本発明において、同一のグループに属する複数の部分動画像の出現パターンに基づいて、前記グループに属する、対象部分動画像が対話の場面を示す部分動画像である確率を示す対話度数を算出する対話度数算出手段をさらに備え、前記先頭ショット選択手段は、前記対話度数算出手段によって算出された前記対話度数が予め定められた基準値よりも大きいような時間区間を対話区間と判定し、判定された対話区間から先頭部分動画像を選択、または選択対象から除外することを特徴とする。

また本発明において、前記先頭ショット選択手段は、第１のグループに属する部分動画像の一つと、第２のグループに属する部分動画像の一つとを選択し、これら２つの部分動画像のうち動画像中で先頭に近い側にあるもの開始時刻から、動画像中で末尾に近い側にあるものの終了時刻までの区間に対する上記対話度数を算出し、計算された対話度数が最大になるような第２のグループ、およびそのグループに属する部分動画像を選択し、選択された第１のグループに属する部分動画像の一つに対する対話度数の最大値が予め定められた対話度数より高いときに、対話度数の最大値をなした２つの部分動画像およびその間の時間区間を対話区間と判定し、判定された対話区間から先頭部分動画像を選択、または選択対象から除外することを特徴とする。

また本発明において、前記先頭ショット選択手段は対話区間を判定し、対話区間に属する部分動画像を先頭部分動画像として選択しないことを特徴とする。

また本発明において、前記先頭ショット選択手段は対話区間を判定し、対話区間中で先
頭、または末尾、または両方の部分動画像を先頭部分動画像として選択することを特徴とする。

また本発明において、前記先頭ショット選択手段は対話区間を判定し、対話区間中にいずれかのグループに属する部分動画像が存在している場合には、いずれかのグループに属し、対話区間中で先頭に最も近いもの、またはいずれかのグループに属し、対話区間中で最も末尾に近いもの、または両方の部分動画像を先頭部分動画像として選択することを特徴とする。

また本発明において、前記先頭ショット選択手段は対話区間を判定し、前記先頭グループ選択手段によって先頭グループとして選択されたいずれかのグループに属する部分動画像が対話区間中に存在している場合には、いずれかの先頭グループに属し、対話区間中で先頭に最も近いもの、またはいずれかの先頭グループに属し、対話区間中で最も末尾に近いもの、または両方の部分動画像を先頭部分動画像として選択することを特徴とする。

また本発明において、前記先頭ショット選択手段は対話区間を判定し、前記グループ化手段によって設定されたグループのうち、そのグループに属するすべての部分動画像が、動画像中でいずれの対話区間にも属さないという条件を満たすグループの有無を判定し、当該グループが存在する場合には、当該グループに属する部分動画像を先頭部分動画像として選択することを特徴とする。

また本発明において、所定のグループに属する対象部分動画像を含み、予め定められた時間長を有する基準範囲を特定する基準範囲特定手段と、いずれかのグループに属し、かつ前記基準範囲特定手段が特定した前記基準範囲内に配置された部分動画像の時間長の合計を算出するショット時間長算出手段とをさらに備え、前記対話度数算出手段は、前記基準範囲特定手段が特定した前記基準範囲の時間長に対する、前記ショット時間長算出手段が算出した合計の時間長の比率を、前記対話度数として算出することを特徴とする。

また本発明において、所定のグループに属する対象部分動画像を含み、予め定められた時間長を有する基準範囲を特定する基準範囲特定手段と、前記基準範囲特定手段が特定した前記基準範囲に含まれる部分動画像の個数を計測する第１のショット個数計測手段と、いずれかのグループに属し、かつ前記基準範囲特定手段が特定した前記基準範囲内に配置された部分動画像の個数を計測する第２のショット個数計測手段とをさらに備え、前記対話度数算出手段は、前記第１のショット個数計測手段が計測した部分動画像の個数に対する、前記第２のショット個数計測手段が計測した部分動画像の個数の比率を、前記対話度数として算出することを特徴とする。

また本発明において、前記動画像中で対話度数を算出するべき対象時間区間を特定する範囲特定手段と、いずれかのグループに属し、かつ前記範囲特定手段が特定した前記範囲内に配置された部分動画像の時間長の合計を算出するショット時間長算出手段とをさらに備え、前記対話度数算出手段は、前記範囲特定手段が特定した前記基準範囲の時間長に対する、前記ショット時間長算出手段が算出した合計の時間長の比率を、前記対話度数として算出することを特徴とする。

また本発明において、前記動画像中で対話度数を算出するべき対象時間区間を特定する範囲特定手段と、いずれかのグループに属し、かつ前記範囲特定手段が特定した前記範囲内に配置された部分動画像の個数を計測するショット個数計測手段とをさらに備え、前記対話度数算出手段は、前記範囲特定手段が特定した前記基準範囲の時間長に対する、前記ショット個数計測手段が計測した部分動画像の個数の比率を、前記対話度数として算出することを特徴とする。

また本発明において、前記動画像中で対話度数を算出するべき対象時間区間を特定する範囲特定手段と、いずれかのグループに属し、かつ前記範囲特定手段が特定した前記範囲内に配置された部分動画像の時間長の合計を算出するショット時間長算出手段と、いずれかのグループに属し、かつ前記範囲特定手段が特定した前記範囲内に配置された部分動画像の個数を計測するショット個数計測手段とをさらに備え、前記対話度数算出手段は、前記範囲特定手段が特定した前記基準範囲の時間長に対する、前記ショット時間長算出手段が算出した合計の時間長の比率と、前記範囲特定手段が特定した前記基準範囲の時間長に対する、前記ショット個数計測手段が計測した部分動画像個数の比率との積を前記対話度数として算出することを特徴とする。

また本発明において、動画像に対応する解析処理条件を受信する解析パラメータ受信手段をさらに備え、前記類似度計測手段、前記先頭グループ選択手段、前記先頭ショット選択手段の少なくとも１つは、上記解析パラメータ受信手段が受信した基準条件に基づいて部分動画像同士の類似度を計測、または先頭グループの選択、または先頭ショットの選択を行うことを特徴とする。

また本発明の第３発明は、動画像の内容が切り替る画像変化点で分割された部分動画像を複数含むメタショットを生成する動画像処理方法であって、前記部分動画像同士の類似度を計測する類似度計測ステップと、前記類似度計測ステップにおいて計測された前記類似度に基づいて、類似する部分動画像を特定する類似ショット特定ステップと、前記類似ショット特定ステップにおいて特定された、前記類似する部分動画像に対して同一のグループ属性を付与するグループ化ステップと、前記グループ化ステップにおいて生成されたグループから、予め定められた条件に従って、前記メタショットの先頭とすべき先頭部分動画像の属する先頭グループを選択する先頭グループ選択ステップと、前記先頭グループ選択ステップにおいて選択された前記先頭グループに属する部分動画像が前記動画像中で出現する出現パターンに基づいて、前記先頭グループに含まれる部分動画像から前記先頭部分動画像を選択する先頭ショット選択ステップと、前記先頭ショット選択ステップにおいて選択された前記先頭部分動画像を先頭に有する前記メタショットを生成するメタショット生成ステップとを有することを特徴とする動画像処理方法を提供する。

ここで本発明においては、動画像に対応する解析処理条件を受信する解析パラメータ受信ステップをさらに備え、前記類似ショット特定ステップ、前記先頭グループ選択ステップ、先頭ショット選択ステップの少なくとも１つは、上記解析パラメータ受信ステップが受信した基準条件に基づいて類似ショットを特定、または先頭グループを選択、またはショットを選択することを特徴とする。

また本発明の第４発明は、動画像の内容が切り替る画像変化点で分割された部分動画像を複数含むメタショットを生成する動画像処理をコンピュータに実行させる動画像処理プログラムであって、前記部分動画像同士の類似度を計測する類似度計測ステップと、前記類似度計測ステップにおいて計測された前記類似度に基づいて、類似する部分動画像を特定する類似ショット特定ステップと、前記類似ショット特定ステップにおいて特定された、前記類似する部分動画像に対して同一のグループ属性を付与するグループ化ステップと、前記グループ化ステップにおいて生成されたグループから、予め定められた条件に従って、前記メタショットの先頭とすべき先頭部分動画像の属する先頭グループを選択する先頭グループ選択ステップと、前記先頭グループ選択ステップにおいて選択された前記先頭グループに属する部分動画像が前記動画像中で出現する出現パターンに基づいて、前記先頭グループに含まれる部分動画像から前記先頭部分動画像を選択する先頭ショット選択ステップと、前記先頭ショット選択ステップにおいて選択された前記先頭部分動画像を先頭に有する前記メタショットを生成するメタショット生成ステップとをコンピュータに実行させることを特徴とする動画像処理プログラムを提供する。

また本発明の第５発明は、動画像から画像の内容が切り替わる画像変化点を検出するカット検出ステップと、前記カット検出ステップにおいて検出された前記画像変化点で分割された動画像である部分動画像間の類似度を計測する類似度計測ステップと、前記類似度計測ステップにおいて計測された前記類似度に基づいて、類似する部分動画像を特定する類似ショット特定ステップと、前記類似ショット特定ステップにおいて特定された類似する複数の部分動画像に対して同一のグループ属性を付与するグループ化ステップと、前記グループ化ステップにおいてグループ化された類似する部分動画像が動画像中で出現する出現パターンに基づいて、前記動画像の種別を判定する動画像種別判定ステップとを有することを特徴とする動画像処理方法を提供する。

ここで本発明においては、動画像に対応する解析処理条件を受信する解析パラメータ受信ステップをさらに備え、前記カット検出ステップ、前記類似ショット特定ステップ、前記グループ化ステップ、前記動画像種別判定ステップの少なくとも１つは、上記解析パラメータ受信ステップが受信した基準条件に基づいてカットを検出、または類似ショットを特定、またはグループ化、または動画像種別の判定を行うことを特徴とする。

また本発明の第６発明においては、動画像から画像の内容が切り替わる画像変化点を検出するカット検出ステップと、前記カット検出ステップにおいて検出された前記画像変化点で分割された動画像である部分動画像間の類似度を計測する類似度計測ステップと、
前記類似度計測ステップにおいて計測された前記類似度に基づいて、類似する部分動画像を特定する類似ショット特定ステップと、前記類似ショット特定ステップにおいて特定された類似する複数の部分動画像に対して同一のグループ属性を付与するグループ化ステップと、前記グループ化ステップにおいてグループ化された類似する部分動画像が動画像中で出現する出現パターンに基づいて、前記動画像の種別を判定する動画像種別判定ステップとをコンピュータ実行させることを特徴とする動画像処理プログラムを提供する。

ここで本発明においては、動画像に対応する解析処理条件を受信する解析パラメータ受信ステップをさらに備え、前記カット検出ステップ、前記類似ショット特定ステップ、前記グループ化ステップ、前記動画像種別判定ステップの少なくとも１つは、上記解析パラ
メータ受信ステップが受信した基準条件に基づいてカットを検出、または類似ショットを特定、またはグループ化、または動画像種別の判定を行うことを特徴とする。

本発明にかかる動画像処理装置は、類似ショットが出現する出現パターンに基づいて、メタショットの先頭ショットを選択するので、ニュース番組などの映像に対して適切な単位のメタショットを生成することができるという効果を奏する。

以下に、本発明にかかる動画像処理装置、動画像処理方法および動画像処理プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、実施例においては、一例として動画像としてニュース番組の映像を取得した場合の処理について説明する。なお、以下に記載の「ショット」は、特許請求の範囲に記載の部分動画像に相当する。

図１は、実施例１にかかる動画像処理装置１０の機能構成を示すブロック図である。動画像処理装置１０は、動画像取得部１０１と、カット検出部１０２と、ショット区間定義部１０３と、類似ショット検出部１０４と、グループ化部１１０と、メタショット先頭グループ判定部１０５と、メタショット先頭時刻判定部１０６と、メタショット生成部１０７と、動画像出力部１０８と、統計処理部１２０と、統計値保持部１２２と、対話度数算出部１２４とを備えている。

動画像取得部１０１は、例えば当該動画像処理装置１０に接続された放送番組受信機（チューナー）などを介して外部から動画像を取得する。動画像取得部１０１は、非圧縮の動画像を取得してもよい。また、ＤＶ形式や動画像圧縮の標準形式であるＭＰＥＧ−１，２，４などのデジタルデータに変換された動画像を取得してもよい。

動画像取得部１０１は、取得した動画像をカット検出部１０２が処理するのに好適な形式に変換し、変換後の動画像をカット検出部１０２に渡す。ここで、好適な形式への変換とは、例えば圧縮（エンコード）されている動画像を伸長（デコード）する処理である。またカット検出部１０２による処理において必要十分な画像サイズに大きさを変換する処理である。

カット検出部１０２は、１枚毎に入力された画像フレームに対し、直前に入力された画像フレームとの類似度を計算し、画像の内容が切り替わる画像変化点、すなわちカット点を検出する。また、ＭＰＥＧ−２のように画像圧縮に予測符号化を用いている動画像を取得した場合には、予測符号量の変動を用いることによってカット点を検出してもよい。

なお、カット検出部１０２がカット点を検出する方法は実施例に限定されるものではなく、既に知られている様々な手法によって実現されてもよい。こうした手法は本願出願人によって出願された特開平９−９３５８８などにも述べられている。

ショット区間定義部１０３は、カット検出部１０２によって検出された、時間的に最も近い位置に並ぶ２つのカット点に囲まれた時間区間に属する画像フレームの集合をショットと定義する。例えば、再生開始から３分１５秒２０後に再生されるフレームである３分１５秒２０フレームの直前にカット点が検出され、かつ３分２１秒１２フレームの直前に次のカット点が検出された場合に、３分１５秒２０フレームから３分２１秒１１フレームまでを１つのショットと定義する。ここで、再生時刻とは、映像を再生させた場合に、映像開始から所定のフレームが再生されるまでに要する時間である。

類似ショット検出部１０４は、ショット区間定義部１０３が定義したショットを１単位として、類似するショットを検出する。具体的には、ショットに含まれる１または２以上のフレームを対象とするそれぞれのショットから選択する。そしてこれらのフレーム同士を比較することによって類似度を計測する。

ショット自体の類似比較については本願出願人によって出願された特開平９−２７０００６の方法などを用いることができる。この方法によれば、対象となる２つのフレームのそれぞれにおいて特徴量を算出する。そして、これら２つの特徴量の距離を計算する。例えば各フレームに属する画素の色相（ｈｕｅ）値から３６分割のヒストグラムを計算し、３６分割それぞれの度数を要素としたベクトルを特徴量として利用する場合には、３６次元空間における２特徴量点の距離を計算する。この距離が類似度に対応する値であって、距離の値が小さいほど類似度が高い。

こうして計測した類似度が予め定められた値以上である場合に、これら２つのショットを互いに類似するショットとして検出する。このように、ショット同士の類似度に基づいて類似ショットを検出する。

なお、類似ショット検出部１０４は、１つの動画像に含まれる１つのショットに対して、当該動画像に含まれる他の全てのショットと類似度を計測するが、他の例としては、１つのショットに対して、当該ショットと時間的に近傍にある所定の数のショットに限定して、類似度を計測してもよい。なお、類似ショット検出部１０４は、本発明の類似度計測手段および類似ショット特定手段を構成する。

グループ化部１１０は、類似ショット検出部１０４が検出した類似ショットに対して同一のラベルを付与することによって類似ショットをグループ化する。統計処理部１２０は、グループ化部１１０から取得した情報に基づいて、例えば、１つの動画像における各グループの出現回数などグループに関する統計情報を生成する。統計値保持部１２２は、統計処理部１２０によって生成された統計情報を保持する。

メタショット先頭グループ判定部１０５は、統計値保持部１２２に保持される統計情報に基づいて、類似ショット検出部１０４により生成されたグループからメタショットの先頭ショットとなるべき特徴的なショットのグループを選択する。

ニュース番組においては、１つのニュース項目をメタショットとするのが適当である場合が多いため、ニュース項目の冒頭を先頭ショットとして検出できることが望ましい。ニュース項目の冒頭ではアンカーパーソン（ニュースキャスター／アナウンサー）が登場する場合が多い。そこで、アンカーパーソンが登場する場面をメタショットの先頭グループとして検出できれば適切なメタショットを生成することができる。

メタショット先頭グループ判定部１０５がアンカーパーソンのショットを選択する方法、すなわちメタショット先頭グループを判定する方法としては、たとえば類似ショットグループに属する複数のショットについて、ニュース番組中での出現回数、番組全体に渡る出現の時間的分布の広範さ、そのグループに属するショットの時間長などの条件のうち１または２以上の条件に基づいて判定する方法が採用される。先頭グループの判定方法については後に詳述する。

なお、実施例にかかるメタショット先頭グループ判定部１０５は、本発明のショット個数比較手段、最短時間長比較手段、最長時間長比較手段、時間長平均値算出手段、平均時間長比較手段、ショット間時間長測定手段、ショット間時間長比較手段、ショット位置判
断手段を構成する。

メタショット先頭時刻判定部１０６は、メタショット先頭グループ判定部１０５から先頭グループの判定結果を取得する。メタショット先頭グループ判定部１０５から取得した判定結果に基づいて、先頭グループと判定されたグループに属するショットから、実際にメタショットの先頭となるべきショットを特定し、特定した先頭ショットの開始位置に対応する再生時刻をメタショット先頭時刻と定義する。

具体的には、当該ショットの再生時間長が所定の長さ以上のものを先頭ショットとして特定する。例えば、１つのニュース項目中にゲストとの対話でアンカーパーソンが登場する場合がある。この場合、アンカーパーソンがゲストとの対話で登場する時間は、ニュース項目の冒頭に登場する時間よりも短いことが多い。従って、このようにショットの再生時間長を所定の長さ以上と制限することにより、ニュース項目中に含まれるアンカーパーソンのショットを先頭ショットの候補から除外することができる。

また他の例としては、メタショット先頭時刻判定部１０６は、当該ショットの再生時間長が所定の長さ以下のものを先頭ショットとして特定してもよい。また他の例としては、同じ類似ショットグループに属する他のショットとの時間的な間隔、他の類似ショットグループに属するショットとの時間的な前後関係、分布、包含関係などの条件に基づいて先頭ショットを特定してもよい。

また、これら複数の条件のうちから選択した一の条件のみに基づいて先頭ショットを特定してもよく、また他の例としては、これら複数の条件の全てまたはこれら複数の条件から選択した２以上の条件に基づいて先頭ショットを特定してもよい。なお、メタショット先頭時刻判定部１０６は、本発明の先頭ショット選択手段を構成する。

メタショット生成部１０７は、メタショット先頭時刻判定部１０６が特定した先頭ショットを先頭とするメタショットを生成する。具体的には、メタショット先頭時刻から次のメタショット先頭時刻までの間に連続して配置された複数のショットそれぞれに対して、同一のメタショットであることを示す同一のラベルを付与する。

ニュース番組の映像においては、ニュース番組の先頭から、最初にメタショット先頭時刻が登場する直前までの時刻を番組オープニングと判定し、オープニングのメタショットとしてラベル付けしてもよい。また、最後のメタショット先頭時刻からニュース番組の終了までのショットをメタショットとしてもよい。

以上のように、動画像がメタショットによって分割されると、その分割結果を動画像出力部１０８から出力する。こうして出力されたデータは、例えば表示装置に送られる。そして、表示装置では、メタショットに基づいて動画像の映像内容の一覧が表示される。またはメタショット単位で再生表示される。

動画像出力部１０８は、メタショット生成部１０７によってメタショットに分割された動画像を出力する。動画像は、例えば表示装置に向けて出力されてもよい。この場合には、表示装置において、映像（番組）内容を一覧表示する。または動画像がメタショット単位で視聴される。

このように、メタショットの区間に対応させて動画像を表示することにより、例えばニュース項目毎の画面一覧を作成することができる。またリモコンの「スキップ」ボタンを操作することにより、あるニュース項目を視聴しているときでも次のニュース項目の先頭のショットを視聴することができる。

図２は、統計値保持部１２２が保持する統計情報を模式的に示している。図２に示すように、類似ショットグループを識別するグループＩＤに対応付けて、各グループに関する情報を保持している。各グループに関する情報は、本実施例においてはそのグループに属するショットの数（以下「回数」と称す）、グループに属するショットの中で再生時間が最短であるものの再生時間長（最短）、グループに属するショットの中で再生時間が最長の再生時間長（最長）、グループに属するショットの再生時間長の平均値（平均長）、そのグループに属する最初のショットの開始時刻から最後のショットの終了時刻までの再生時間長（分布）、およびそのショットグループがほかのショットグループによって包含されているかどうか（被包含）である。

ここで、被包含の概念について説明する。ニュース番組においては、先頭ショットとすべきアンカーパーソンのショットは、動画像の全体に渡って点在している。そして、例えばアンカーパーソンのショットのうち、各ニュース項目の間に配置されたショットはアンカーパーソン以外の所定のグループに属する２つのショットに挟まれていないような関係を、被包含の関係と定義する。

一方、各ニュース項目の映像に対応するショットは、動画像における所定の再生時刻の範囲にのみ偏在している。そして、ニュース項目の前後には、アンカーパーソンのショットが配置されている。このように、所定のグループに属する２つのショットに挟まれているような関係を包含の関係と定義する。

以上のことから、ニュース番組においては、被包含のグループであるか否かに基づいて、アンカーパーソンのショットのグループ、すなわち先頭グループか否かを判定することができる。

以下、図３を参照しつつ被包含の概念についてより具体的に説明する。図３は動画像を模式的に示す図である。各長方形は１つのショットを表し、例えばＡと付された長方形はＡグループに属するショットを示している。すなわち同じ記号が付与されたショットはそれぞれ同じグループに属する。また、横軸は時間軸である。すなわち、ショット７０１、ショット７０６の順に再生される。また、ＢショットおよびＣショットは、動画像において図３に示す以外の位置には存在しないこととする。

図３において、グループＣに属するＣショット７０８，７０９は、いずれもＡショット７０４とＡショット７０５の間に配置されている。また、Ａショット７０４およびＡショット７０５は、時間軸方向において連続して出現する２つのショットである。この場合、グループＣは包含のグループである。

このように、同一のグループに属し、時間軸方向に連続して出現する２つのショットの間に、同一のグループに属する全てのショットが存在する場合に、２つのショット間に存在するショットのグループは、被包含のグループとなる。

一方、Ｂショット７０６およびＢショット７０７は、いずれもＡショットに挟まれているが、Ｂショット７０６とＢショット７０７の間にＡショット７０２が挟まれており、Ｂショット７０６およびＢショット７０７は、連続する２つのＡショットの間には存在していない。従って、グループＢは被包含のグループである。

一方、Ａグループにおいては、例えば、Ａショット７０３は、Ｂショット７１２に続いて配置されているが、Ａショット７０３の後にＢショットが配置されていない。従って、被包含のグループではないと判断される。

ここで、メタショット先頭グループ判定部１０５が統計値保持部１２２に格納されている統計情報に基づいて先頭グループを選択する処理について、図４および図５を参照しつつ説明する。

図４は、ニュース番組を模式的に示している。横軸は時間軸である。ニュース番組は、上段から下段へと再生される。図５は、各グループに属するショットの内容を示している。Ａグループはアンカーパーソンのショットである。ＢグループはワシントンＤＣ駐在の特派員が登場するショットである。Ｃグループは答弁する首相が登場するショットである。Ｄグループは県庁舎の映像ショットである。Ｅグループはアンカーパーソンを別のカメラ構図で捕らえたショットである。

ニュース番組の開始から始まるメタショットは、ニュース番組の概要を紹介するニュース概要ショットである。ニュース概要ショットには、後述する２番目のニュース項目である「混迷する予算委員会討議」という内容のヘッドラインのＣショット７１０が含まれている。Ｃショット７１０は、答弁する首相の横顔の映像である。

これに続いて、ショット７０２からショット７０７の間は、１番目のニュース項目であるアメリカ議会の話題に対応するメタショットである。

Ａショット７１２は、アンカーパーソンが挨拶し、最初のニュース項目のリード部分をアナウンスする映像である。そして、ＢショットとＡショットが交互に配置されるシーンが続く（７１３から７１６）。これは、ワシントンＤＣ駐在の特派員とアンカーパーソンが中継で対話するシーンである。そして、この対話のあと、アメリカ国会の映像が２ショット入り（７１７、７１８）、このニュース項目が終了する。

続いて、Ａショット７２０からショット７２２の間は、２番目のニュース項目に対応するメタショットである。２番目のニュース項目に対応するメタショットにおいては、Ａショット７２０の次に国会議事堂のショットおよび予算委員会討議室のショットが配置されている。

さらにこれに続いてＣショット７２１も配置されている。Ｃショット７２１は、ニュース概要のメタショットに含まれているＣショット７１０と同一のショットである。

続くＡショット７３１からショット７３２の間は、３番目のニュース項目に対応するメタショットである。３番目のニュース項目は、ある地方自治体の歳入不足を報じるものである。県庁舎のＤショット７３１，７３２を含む報道シーンで構成されている。

続くＡショット７３４からショット７３５の間は、４番目のニュース項目に対応するメタショットである。また、Ｅショット７４０，７４２，７４４から始まるニュース項目は、それぞれ為替と株価、天気予報、エンディングである。

以上のようなニュース番組において、メタショット先頭グループ判定部１０５は例えば、グループに属するショットの数、すなわち回数に基づいて先頭グループを特定する。具体的には「登場回数が３回以上」という条件に合致するグループを先頭グループとして特定する。このように、所定の回数以上登場するグループを先頭グループとして特定する。これにより、図４および図５を参照しつつ説明したニュース番組においては、Ａグループが特定される。このように、望ましいグループを特定することができる。

または、アンカーパーソンが極端に多く登場することはないので、所定の回数以下の登
場回数である場合に、当該グループを先頭グループとして特定してもよい。

また、「同一グループに属するショットの最短の長さが１０秒以上」、すなわち同一グループに属するショットの最短の長さが所定の値以上であることを条件として先頭グループを特定してよい。さらにまた、「同一グループに属するショットの最長の長さが２１秒以上」、すなわち同一グループに属するショットの最長の長さが所定の値以上であることを条件として先頭グループを特定してもよい。

また、「同一グループに属するショットの長さの平均値が１２秒以上」、すなわち同一グループに属するショットの長さの平均値が所定の値以上であることを条件として先頭グループを特定してもよい。さらにまた、同一グループに属するショットの長さの平均値が所定の値以上であることを条件として先頭グループを特定してもよい。

図４および図５を参照しつつ説明したニュース番組においては、「同一グループに属するショットの最長の長さが２１秒以上」という条件により図２を参照しつつ説明した統計情報からＡグループが特定される。

また、そのグループに属する最初のショットの開始時刻から最後のショットの終了時刻までの長さ、すなわち分布に基づいてもよい。具体的には、「分布が３分以上」という条件に合致するグループを先頭グループとして特定する。この条件によりＡグループとＣグループが特定される。

この場合、さらに、冒頭に登場するＣグループのような、特別な登場を含むグループを除外するために、「分布」としていた条件を「同一ショットグループ中で２番目以降に登場するショットの『分布』」とすることにより正確に先頭グループを特定することができる。

他の例としては、「同一ショットグループに属するショットが再生される位置、すなわち配置の分散を計算し、配置の平均的な再生時間から、その分散に一定係数を積算した時間以上離れているショットを除外した『分布』」などを条件としてもよい。

また「被包含」のグループであることを条件にしてもよい。これにより、ＡグループとＣグループを特定することができる。

以上、メタショット先頭グループ判定部１０５が先頭グループを選択する条件について説明したが、上記条件のうちから選択した１又は２以上の条件に基づいて先頭グループを特定してもよい。

また、動画像が動画像取得部１０１に入力されるのに先立ち、または入力された際に解析パラメータ受信部１９０が上記のカット検出部１０２、類似ショット検出部１０４、メタショット先頭グループ判定部１０５、メタショット先頭時刻判定部１０６の各処理に必要な条件（パラメータ）を受信し、これら検出部、判定部に供給してもよい。

例えば、ＥＰＧまたはｉＥＰＧと呼ばれる電子番組表サービスでは、インターネット上で番組内容や放送チャンネル、開始・終了時刻などを提供している。これと同様に、あるいはＥＰＧまたはｉＥＰＧ情報の一部として、解析パラメータをインターネット上に提供するサービスがあった場合には、本発明の動画像処理装置は録画番組に応じて検出、判定のパラメータを変えることができる。

具体的には、話題の変わり目ごとに必ず類似したタイトル画面が挿入されるような、特
定のバラエティ番組が入力される場合、本発明の動画像処理装置はその番組特有のパラメータ設定を録画前、あるいは録画中にインターネットからダウンロードする。本発明の動画像処理装置は、ダウンロードされた「３回以上登場する類似ショットであって、登場の最小間隔が２分以上」などという条件を用いて、より高精度に話題ごとのメタショットを作成できる。

解析パラメータのダウンロード手段はインターネットに限定されない。例えば、４月中旬、１０月中旬など、新番組が出揃った時期に、ＣＤ−ＲＯＭやメモリカードなどの形態で番組ごとの最適な解析パラメータ設定が供給されてもよい。解析パラメータ受信部１９０は番組が本装置に入力された際に、その番組に対応する最適パラメータ設定を記録メディアから読み取り、それを各検出、判定部に供給してもよい。また、記録メディアに記録された最適パラメータを一旦本装置内の記録領域（図示せず）にコピーし、解析パラメータ受信部１９０は本装置に番組が入力された際に、この記録領域から最適パラメータを読み取り、各検出、判定部に供給してもよい。

図６は、動画像処理装置１０における動画像処理を示すフローチャートである。動画像処理は、主に、ショット区間定義処理、グループ化処理およびメタショット生成処理の３つの処理を含んでいる。

まず、ショット区間定義処理が行われる。すなわち、カット検出部１０２は、画像フレームを１フレームずつ取得する入力する（ステップＳ２０２）そして、カット検出部１０２は、ステップＳ２０２において取得した画像フレームの直前に取得した画像フレームと、ステップＳ２０２において取得した画像フレームとの類似度を計算し、類似度に基づいてカット点を検出する。

取得した画像フレームがカット点である場合（ステップＳ２０３，Ｙｅｓ）、ショット区間定義部１０３は、当該カット点から直前のカット点までの間をショット区間として定義する（ステップＳ２０４）。

以上ステップＳ２０２からステップＳ２０４の処理を繰り返す。映像（番組）全体についてのショット区間の定義が完了すると（ステップＳ２０１，Ｙｅｓ）、ショット区間定義処理が完了し、グループ化処理に進む。

類似ショット検出部１０４は、所定のショットを基準ショットとして選択し、当該ショットと比較すべき対象ショットとの類似度を判定する（ステップＳ２０７）。そして、対象ショットが基準ショットと類似していると判断した場合には（ステップＳ２０８，Ｙｅｓ）、グループ化部１１０は、当該対象ショットと基準ショットに対して同一のグループを識別するラベルを付与する。すなわち、対象ショットと基準ショットとをグループ化する（ステップＳ２０９）。

以上のステップＳ２０７およびステップＳ２０８の処理を、１つの基準ショットに対する全ての対象ショットについて繰り返す。全ての対象ショットに対して処理が完了すると（ステップＳ２０６，Ｙｅｓ）、基準ショットを替えて、再度ステップＳ２０７およびステップＳ２０８の処理を繰り返す。

そして、映像全体について基準ショットと対象ショットとの類似度判定処理が完了すると（ステップＳ２０５，Ｙｅｓ）、グループ化処理が完了し、次のメタショット生成処理に進む。

メタショット先頭グループ判定部１０５は、統計値保持部１２２に保持される統計情報
に基づいて、先頭グループを特定する。そして、メタショット先頭時刻判定部１０６は、メタショット先頭グループ判定部１０５が特定した先頭グループに基づいて、メタショット先頭時刻を定義する。処理対象となっているグループが先頭グループの条件に合致すると（ステップＳ２１１）、メタショット生成部１０７は、当該グループを先頭ショットとするメタショットを生成する（ステップＳ２１２）。

以上ステップＳ２１１およびステップ２１２を繰り返す。映像全体についてメタショットの生成が完了すると（ステップＳ２１０，Ｙｅｓ）、メタショット生成処理が完了し、動画像処理が完了する。
なお、既出のように解析パラメータ受信ステップ（図示せず）が存在し、本処理前あるいは本処理中に解析パラメータ受信ステップによってインターネットなどから受信された番組ごとの最適パラメータ設定を用いてステップＳ２０３，Ｓ２０７，Ｓ２１１が検出、判定処理を行ってもよい。

以上のように、実施例１にかかる動画像処理装置１０は、同一のグループに属するショットの出現パターンに基づいて先頭ショットを特定するので、必要以上に細かいメタショットを生成することを避けることができる。これにより、ユーザによる所定のシーンの検索等を容易にすることができる。

動画像処理装置１０における動画像処理は、（１）ショット区間定義処理、（２）グループ化処理、（３）メタショット生成処理の３つの処理（図２の破線で囲まれた部分）で構成されている。実施例においては、動画像に含まれる全てのショットに対して（１）ショット区間定義処理が完了した後に、（２）グループ化処理に移行した。同様に、動画像に含まれる全てのショットに対して（２）グループ化処理が完了した後に、（３）メタショット生成処理に移行した。これにかえて、他の例としては、動画像処理装置に一時記憶領域（図示せず）を設けることにより、映像の入力を行いながら上記３つの処理を並行して実行してもよい。

例えば、新しいカットが検出され、ショット区間が定義されるたびに、そのショット区間と過去のショット区間に対する類似ショットの判定を行い、そこまでの類似ショット判定結果に基づいて当座のメタショット生成を行ってもよい。このように、並列に処理を実行することによりニュース番組の終了後、きわめて短い時間で処理結果を得ることができる。

図７は、動画像処理装置１０のハードウェア構成を示す図である。動画像処理装置１０は、ハードウェア構成として、動画像処理装置１０における動画像処理を実行するプログラムなどが格納されているＲＯＭ５２、ＲＯＭ５２内のプログラムに従って動画像処理装置１０の各部を制御し、動画像処理等を実行するＣＰＵ５１、ワークエリアが形成され、動画像処理装置１０の制御に必要な種々のデータが記憶されているＲＡＭ５３、ネットワークに接続して、通信を行う通信I／Ｆ５７、および各部を接続するバス６２を備えている。

先に述べた動画像処理装置１０における動画像処理を実行する動画像処理プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フロッピー（Ｒ）ディスク（ＦＤ）、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録されて提供される。

また、本実施例の動画像処理プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。

この場合には、動画像処理プログラムは、動画像処理装置１０において上記記録媒体から読み出して実行することにより主記憶装置上にロードされ、上記ソフトウェア構成で説明した各部が主記憶装置上に生成されるようになっている。

次に、実施例２にかかる動画像処理装置１０について説明する。実施例２に係る動画像処理装置１０は、例えば、図４に示すニュース番組におけるニュース項目１におけるＡショット７１４，７１６のように、メタショットの先頭ショットとならないショットを、対話度数という指標に基づいて特定する。ここで、対話度数とは、先頭ショットとすべきか否か問題となっているショットを含む所定の時間範囲内における当該ショットの出現頻度を示す値である。なお、対話度数については後に詳述する。

図８は、実施例２にかかる動画像処理装置１０の機能構成を示すブロック図である。実施例２にかかる動画像処理装置１０は、実施例１にかかる動画像処理装置１０の機能構成に加えて、対話度数算出部１２４をさらに備えている。対話度数算出部１２４は、ショット区間定義部１０３、類似ショット検出部１０４、グループ化部１１０から取得した情報に基づいて、対話度数を算出する。また、メタショット先頭時刻判定部１０６は、対話度数算出部１２４が算出した対話度数に基づいてメタショットの先頭とすべきショットを特定する。

なお、実施例にかかる対話度数算出部１２４は、本発明にかかる対話度数算出手段、基準範囲特定手段、ショット時間長算出手段、第１のショット個数算出手段、第２のショット個数算出手段を構成する。

図９は、に示したショット７１１からショット７２０、すなわちアンカーパーソンと特派員の対話シーンを示している。図９を参照しつつ、対話度数算出部１２４が、Ａショット７１４が先頭メタショットか否かを検討する際に利用される対話度数を算出する処理について説明する。

まず、対象となるＡショット７１４の中央の時刻から前後に規定時間（たとえば１分、３０秒など）だけ離れた時刻までの範囲を基準範囲とし、基準範囲に存在するショットを抜き出す。図９に示す動画像においては、ショット７１１からショット７１７を抜き出す。本実施例においては、ショット７１１およびショット７１７のように、基準範囲にショットの一部が含まれているようなショットも抜き出す。さらにショット７１１からショット７１７までの間から、いずれかのグループに属するショットを抜き出す。

そして、ショット７１１からショット７１７までの合計時間に対する、グループに属するショットの合計時間の割合を算出する。このグループに属するショットの合計時間の割合が対話度数である。

図９に示す動画像においては、いずれかのグループに属するショットは、ショット７１２〜７１６である。従って、ショット７１２からショット７１６までの合計時間をショット７１１〜ショット７１７までの合計時間で除算した結果がショット７１４に対する対話度数であり、図９に示す動画像においては、対話度数は、０．８８となる。

図９に示したアンカーパーソンと特派員の対話シーンのように、ニュース項目中に配置されたショットＡに対しては、高い対話度数が算出される。従って、対話度数が一定値以上となるショットは、先頭ショットとして選択しないことにより、先頭ショット以外のショットを除外することができる。すなわち、メタショット先頭時刻判定部１０６は、対話
度数算出部１２４から対話度数を取得し、取得した対話度数が一定値よりも小さい場合に、当該ショットを先頭ショットとして特定する。

なお、対話度数の算出処理は上記実施例に限定されない。本実施例においては、対象とするショットの中央の時刻から前後に規定時間離れた位置までの範囲を基準範囲として、グループに属するショットの割合を算出したが、規定時間の基準はショットの中央の時刻でなくてもよい。例えば、時間的に前の位置（番組の先頭側）は対象とするショットの開始時刻から規定時間離れた位置までとしてもよい。また時間的に後の位置（番組の終了側）は対象とするショットの終了時刻から規定時間離れた位置までとしてもよい。

また、実施例においては、基準範囲にショットの一部が含まれている場合には、当該ショットを抜き出したが、これにかえて、基準範囲にショットの全体が完全に含まれているようなショットのみを抜き出してもよい。また他の例としては、基準範囲にショットの一部が含まれている場合には、基準範囲に含まれている部分の再生時間長のみを対話度数算出の対象としてもよい。

また、実施例においては、「いずれかのグループに属するショットの割合」を算出したが、これにかえて、「基準範囲内にすべてのショットが存在するようなグループに属するショットの割合」を算出してもよい。すなわち、グループに属するショットであっても、当該グループに属するショットが、対象となる基準範囲外にも配置されている場合には、当該グループに属するショットは、割合を算出する対象としない。

また実施例においては、再生時間長の割合を算出したが、これにかえて、ショットの個数の割合を算出してもよい。具体的には、基準範囲に含まれる全てのショットの個数を計測する。また基準範囲に含まれかついずれかのグループに属するショットの個数を計測する。そして、全てのショットの個数に対するグループに属するショットの個数比率を算出する。この比率が対話度数である。図９の例ではいずれかのグループに属するショット数は５であり、基準範囲に含まれるショット数は７である。従って、この場合の対話度数は、５／７である。

別の対話度数算出方法としては、基準範囲に含まれかついずれかのグループに属するショットの個数を、基準時間の長さで除算するものも考えられる。この数値は単位時間あたりの対話関与ショット数を表す。図９の例では、５（個）／５０（秒）＝０．１（個／秒）となる。

さらに別の対話度数算出方法としては、再生時間長の割合と、上記の単位時間あたりの対話関与ショット数の積を用いることもできる。図９の場合、０．８８×０．１＝０．０８８となる。この場合の対話度数は、基準範囲内で対話に参加しているショットの数が多いほど大きく、基準範囲内で対話に参加しているショットが占める時間が長いほど大きくなる。言い換えると、基準範囲内でより速いスピードで類似ショットがより多く繰り返し登場するほど大きな数値となり、対話の活発さを示す指標となることが期待できる。

また、実施例においては、あるショットを対象として、当該ショットを中心とした基準範囲を特定したが、これにかえて、ある時刻を対象として、当該時刻を中心とした基準範囲を特定してもよい。

図１０は、図９を参照しつつ説明した算出方法によって算出された対話度数を示している。図１０に示すグラフの横軸は時間を示す。また縦軸は対話度数を示す。なお、図１０に示すグラフは、実際のニュース番組に対して計算したものである。１００１は、あるニュース項目について出演者がスタジオで短く討論する部分に相当する。１００２はゲスト
がスタジオで出演し、ニュースキャスターがインタビューしつつ討論している部分に相当する。１００３はスポーツコーナーに相当する。１００３においては、スポーツニュースのキャスターが繰り返し登場する。さらに、野球を報じる部分ではピッチャーのショット、バッターのショットなどが類似ショットとして繰り返し登場する。これは、異なるバッター、異なるピッチャーであってもカメラアングルが同一であるために類似ショットと判定されるためである。

１００２に相当するシーンではインタビュアーとしてのニュースキャスターが短い時間内に繰り返し登場するため、これらのショットが全て先頭ショットと特定されることが懸念される。そこで、メタショット先頭時刻判定部１０６は、例えば対話度数が規定値以上となる区間においては、当該区間に含まれるメタショット先頭グループのショットのうち最初の１つのショットのみを先頭ショットとして特定してもよい。これにより、対談シーンから大量にメタショット先頭ショットが発生することを抑制することができる。なお、図１０のグラフにおいては、例えば対話度数０．２を規定値としてもよい。

対話度数の計算をショット単位ではなく時刻単位で行った場合、対話度数が規定範囲に到達、あるいは規定範囲から離脱する時刻と、ショット境界とが一致しない場合がある。この場合、メタショットの境界とショットの境界とを一致させなくてもよい。

例えば、先頭ショットが検出された場合に、対話度数が規定値以上にとなる時刻のうち、当該先頭ショットから最も近い時刻を開始時刻として決定してもよい。または、対話度数が規定値以下となる時刻のうち、当該先頭ショットから最も近い時刻を開始時刻として決定してもよい。

図１１を参照しつつ、メタショットの境界時刻の決定方法をより具体的に説明する。図１１は、先頭ショットと、当該先頭ショットに対する対話度数を模式的に示している。

１３０１は、ショット単位で求められたメタショット先頭ショットである。１３０２は、対話度数を示している。１３０３は、対話度数がこの数字以上である区間は対話区間であると判定する規定値である。

図１１に示す先頭ショットにおいては、ショット単位でメタショットを定義する場合のメタショット先頭時刻は１３０４になる。これに対して、時刻単位でメタショットを定義する場合にはメタショット先頭時刻は１３０５になる。このように、時刻単位で対話度数を計算した場合には、メタショットのショットの境界と異なる位置をメタショット先頭時刻としてもよい。

別の方法でメタショットを定義する方法について例示する。図２５には、動画像中の６１番目のショットから７４番目のショットまでに関し、それぞれのショットの継続時間、および類似ショットによってグループ化されたグループ名が示されている。「対話度数」の部分には、既出のように基準範囲に対する再生時間長の割合と、単位時間あたりの対話関与ショット数の積が示されている。ここでいう「基準範囲」とは、ショット番号６１の列にはショット６１からショット６１までの区間を、ショット番号６２の列にはショット６１から６２までの区間を、ショット番号７４の列にはショット６１から７４までの区間を基準範囲とした場合の対話度数を示した。ここでは便宜的に数値の単位は分の逆数であり、数値を６０で除算したものが秒の逆数単位となる。

例えば、ショット６１から６４までの区間だけをみると、この区間で繰り返し登場しているのはグループＢに属するショット６２とショット６４のみで、これらの合計時間は９秒である。ショット６１から６４までの合計時間は２７秒であるから、対話度数は（９（
秒）÷２７（秒））×（２（個）÷２７（秒）×６０（秒／分））＝１．５となる。

このように基準範囲を伸長していくと、ショット６１を開始ショットとした場合、ショット６９までの区間で対話度数が最大となる。対話区間と見なすことができる対話度数の最低値を予め例えば２と決めておけば、ショット６１から６９までの対話度数８．１はこれを上回る。したがってメタショット先頭時刻判定部１０６はショット６１からショット６９までを対話区間と設定する。

このように設定された対話区間をそのままメタショットとし、メタショット先頭時刻判定部１０６はメタショットの先頭ショットの開始時刻をメタショット先頭時刻としてもよい。また、この対話区間で先頭または終端にあるショットをメタショットの先頭としてもよい。さらに、いずれかの類似ショットグループに属すショットであって、対話区間中で最初または最後に登場するものをメタショットの先頭としてもよい。また、メタショット先頭グループ判定部１０５がメタショット先頭グループと判定したグループに属すショットであって、対話区間中で最初または最後に登場するものをメタショットの先頭としてもよい。

図１２は、実施例２にかかる動画像処理装置１０の動画像処理を示すフローチャートである。実施例２にかかる動画像処理装置１０においては、グループ化処理が完了すると、次に、対話度数算出部１２４が、先頭グループに含まれるショットのうち処理対象となるショットの対話度数を算出する（ステップＳ２２０）。そして、ステップＳ２１０へ進む。また、先頭ショットを特定する処理（ステップＳ２１１，ステップＳ２１２）においては、メタショット先頭時刻判定部１０６は、対話度数算出部１２４が算出した対話度数に基づいて先頭ショットを特定し、特定した先頭ショットの開始時刻をメタショット先頭時刻と定義する。

なお、実施例２にかかる動画像処理装置１０のこれ以外の構成および処理は、実施例１にかかる動画像処理装置１０の構成および処理と同様である。

なお、類似ショットが繰り返し出現することを条件として先頭ショットを特定すると、図５に示したようなニュース項目を箇条書きにした画面７５６が先頭ショットとして特定される場合がある。画面７５６のような画面は、アンカーパーソン同様、ニュース番組においてニュース項目の切り替わりである場合が多いので、このような画面を先頭ショットとしても問題ない。このため、先頭ショットとして特定されるショットは、アンカーパーソンのショットに限定されない。

また、既出の対話区間定義を用いてバラエティ番組などをコーナーごとに分割することもできる。以下ではこの方法の一例を説明する。図２６は雑学知識を紹介する番組の類似ショット登場パターンを模式的に示したものである。この番組ではスタジオでの出演者のトークと、雑学紹介ビデオが交互に登場し、雑学紹介ビデオの前にはその雑学知識を番組に投稿した人の氏名が紹介される。

スタジオトーク場面では出演者の映像が交互に登場する。しかし雑学紹介ビデオ部分には類似ショットがほとんど登場しなかったり、雑学紹介ビデオ部分のみで完結する類似ショット登場となる傾向にある。したがって既出の方法で対話区間を定義すると、それぞれの雑学知識に反応するスタジオトーク部分と、雑学紹介ビデオの一部区間が対話区間となる。

このため、対話区間に一度も含まれなかった（あるいはきわめて少ない回数しか含まれなかった）類似ショットグループを選択することにより、図２６の「Ｍ」のようにコーナ
ーごとに特徴的なショットを選び出すことができる。類似ショットＭは雑学知識を投稿した人の氏名が紹介されるショットであり、司会者が「それでは次の雑学です」と紹介する類似ショットＡに続くショットである。

類似ショットＭは対話区間２５０１に含まれないため、仮に対話区間２５０１をこれに続く類似ショットＭまで１ショット分拡張すると対話度数が低下する。このため、対話区間２５０１は図２６に示したように定義されている。これにより、類似ショットＭはどの対話区間にも属さなかった。

上記のように対話区間に属さなかった類似ショットグループに属するショットをメタショット先頭ショットすることにより、バラエティ番組においてもコーナーごとに分割することができる。また、対話区間に属さなかった類似ショットグループが複数ある場合には、その時間分布や平均長などを利用してさらに絞り込んでもよい。

このような手法によるバラエティ番組のコーナー分割は、ある種のクイズ番組でも用いることができる。たとえば問題ビデオを見てからスタジオ回答者が討論し、正解ビデオを流すような番組であって、問題ビデオの前に「問題」、正解ビデオの前に「正解」といった、決まったパターンが全画面で表示されるような場合、「問題」「正解」といったショットも対話区間に属さない可能性が高い。

以上のように、実施例２にかかる動画像処理装置１０においては、対話度数に基づいて先頭ショットを特定するので、より適切なメタショットを生成することができる。

次に、実施例３にかかる動画像処理装置１０について説明する。実施例３に係る動画像処理装置１０は、取得した動画像の番組種別を判定する。ここで、番組種別とは、ニュース番組、ドラマ、スポーツ番組などの種類のことである。

図１３は、実施例３に係る動画像処理装置１０の機能構成を示すブロック図である。実施例３に係る動画像処理装置１０は、実施例１に係る動画像処理装置１０におけるメタショット先頭グループ判定部１０５およびメタショット先頭時刻判定部１０６にかえて、番組種別判定部１３０を備えている。番組種別判定部１３０は、類似ショットがグループ化されると、類似ショットの時間的分布に基づいて入力された番組の種別を判定する。そして、番組種別判定部１３０によって判定された番組種を示す番組種別情報は、動画像出力部１０８から外部機器に向けて出力される。

番組種別を取得した外部機器は、番組種別情報に基づいて、番組種別に応じた処理を行うことができる。外部機器がハードディスクレコーダーのような録画装置である場合には、録画のビットレートを変化させたり、録画済番組一覧を表示する際に判定された番組種を表示したりすることに用いてもよい。また、カット検出や類似ショット検出のための判定パラメータの自動設定の用途に供してもよい。

なお、実施例にかかる番組種別判定部１３０は、本発明にかかるショット個数比較手段、最短時間長比較手段、最長時間長比較手段、時間長平均値算出手段、平均値判定手段、基準平均時間グループ数計測手段、ショット間時間長測定手段、ショット間時間長判定手段、グループ計測手段、グループ存在範囲特定手段、およびメタショット特定手段を構成する。

図１４は、実施例３にかかる統計値保持部１２２が保持する統計情報を模式的に示している。なお、図１４に示す統計情報は後述する架空のドラマ番組に対して統計処理部１２
０が生成した統計情報である。

図１５は、ドラマ番組を模式的に示している。図４に模式的に示したニュース番組と同様に、横軸は時間軸である。また、ドラマ番組は上段から下段に順に再生される。図１５を参照しつつ番組種別判定部１３０が番組種別を判定するアルゴリズムについて詳述する。

番組種別判定部１３０は、例えば「メタショットの先頭ショットとなるグループ」が存在するか否かに基づいてニュース番組であるか否かを判定する。すなわち、先頭ショットとなるグループが１つ以上存在する場合には、ニュース番組であると判定する。また、先頭ショットとなるグループが存在しない場合には、ニュース番組以外の番組であると判定する。

なお、「メタショットの先頭ショットとなるグループ」が存在するか否かを判断する処理は、実施例１において説明したメタショット先頭グループ判定部１０５がメタショット先頭グループを選択する処理と同様である。

より具体的には、ニュース番組中のアンカーパーソンのショットを選別する処理を行う。すなわち類似ショットグループに属するショットの登場回数、最短ショットの時間長、最長ショットの時間長、ショットの時間長の平均、ショットの分布時間が一定範囲内にあるもの等の条件に基づいてメタショット先頭ショットと判定する。

ここで、図１６を参照しつつ、図１５におけるショット６０１からショット６０２を１つのメタショットとして定義する処理について説明する。なお、この手順は既出の文献（青木ら「繰返しショットの統合による階層化アイコンを用いたビデオ・インタフェース」（情報処理学会論文誌 Vol.39, No.5 pp.1317-1324, 1998年））にも記載されている。

図１６において、類似ショットのＡグループに属するショットは、時間範囲１１０１に登場する。同様にＢグループおよびＣグループは、時間範囲１１０２および時間範囲１１０３に登場する。これらの時間範囲を時間軸上の集合と見なし、その和集合を求めると時間範囲１１０４が求まる。以上の処理により、時間範囲１１０４（すなわち、図１６の６０１から６０２まで）をメタショットと定義することができる。

以上の処理によりメタショットを定義した後、当該メタショットの出現パターンに基づいて番組種別を判定する。

具体的には、同一のグループに属するショットの再生時間長が最短である最短ショットの再生時間長が１０秒以上である、すなわち最短ショットの再生時間長が所定の値以上であるようなグループを選択し、選択したグループの数が番組全体に含まれる全グループ数の５０％以上となる場合に、当該番組をドラマと判定する。

すなわち、最短ショットの再生時間長が所定の値以上であるようなグループを選択し、選択したグループの数の番組全体に含まれる全グループ数に対する比率が所定の値以上の場合に、当該番組をドラマと判定する。

上記判定条件の他の例としては、最短ショットの最短時間長が所定の値以上であることにかえて、最短ショットの時間長が番組全体の時間長における所定の比率以上であることを条件としてもよい。

また、選択したグループの数の番組全体に含まれる全グループ数に対する比率が所定の
値以上であることにかえて、選択したグループに属するショットの合計の時間長の番組全体の時間長に対する比率が所定の値以上であることを条件としてもよい。また、選択したグループの数の番組全体に含まれる全グループ数に対する比率が所定の値以上であることにかえて、選択したグループに属するショットの登場回数の番組全体のショット数における比率が所定の値以上であることを条件としてもよい。なおこの場合のメタショットとは、図１６を参照しつつ説明したメタショットである。

また、番組全体においてメタショットが登場する回数、番組全体において出現するメタショットの再生時間の合計値、再生時間長が最短であるメタショットの再生時間長、再生時間長が最長であるメタショットの再生時間長、および動画像に含まれるメタショットの平均再生時間長などに基づいて番組種別を判定する。このようにメタショットの出現パターンに基づいて番組種別を判定することができる。

または、同一のグループに属するショットの再生時間長の平均値を算出し、当該平均値が予め定められた基準平均時間長範囲内の値となるグループの数をカウントし、カウントしたグループの数に基づいて番組種別を判定してもよい。このようにメタショットに含まれるショットの番組全体における出現パターンに基づいて番組種別を判定してもよい。

また他の例としては、同一のグループに属するショットのうち番組において最初に配置されているショットと最後に配置されているショットとの間にショット間再生時間長を測定し、ショット間再生時間長が予め定められている基準ショット間再生時間長範囲内の値となるグループの数をカウントし、カウントしたグループの数に基づいて番組種別を判定してもよい。この場合も例えばニュース番組か否かを判定することができる。

なおこれらの条件のうち１の条件に基づいて番組種別を判定してもよく、またはこれらの条件のうちから選択いた複数の条件の組み合わせに基づいて番組種別を判定してもよい。

また、動画像が動画像取得部１０１に入力されるのに先立ち、または入力された際に解析パラメータ受信部１９０が上記のカット検出部１０２、類似ショット検出部１０４、番組種判定部１３０の各処理に必要な条件（パラメータ）を受信し、これら検出部、判定部に供給してもよい。解析パラメータ１９０がパラメータを受信する先としては、実施例１で既出のようにインターネットや記録メディアなどが想定される。

図１７は、実施例３にかかる動画像処理装置１０における動画像処理を示すフローチャートである。実施例３にかかる動画像処理装置１０の動画像処理においては、（１）ショット区間定義処理、（２）グループ化処理に続いて、番組種別判定処理が行われる（ステップＳ２３０）。番組種別判定処理においては、番組種別判定部１３０が上述の処理により動画像の番組種別を判定する。

なお、既出のように解析パラメータ受信ステップ（図示せず）が存在し、本処理前あるいは本処理中に解析パラメータ受信ステップによってインターネットなどから受信された番組ごとの最適パラメータ設定を用いてステップＳ２０３，Ｓ２０７，Ｓ２３０が検出、判定処理を行ってもよい。

なお、実施例３にかかる動画像処理装置１０のこれ以外の構成および処理は、実施例１にかかる動画像処理装置１０の構成および処理と同様である。

以上のように実施例３にかかる動画像処理装置１０は、類似ショットの出現パターンに基づいて番組種別を判定することができるので、映像の視聴、検索および編集等の効率を
向上させることができる。また、当該番組の動画像を処理する場合には、判定された番組種別に応じた処理を行うことができる。

次に実施例４にかかる動画像処理装置１０について説明する。実施例４にかかる動画像処理装置１０は、対話度数を用いてメタショットを定義する。図１８は、実施例４にかかる動画像処理装置１０の機能構成を示すブロック図である。実施例４にかかる動画像処理装置１０は、実施例３にかかる動画像処理装置１０の機能構成に加えて、さらに対話度数算出部１２４を備えている。番組種別判定部１３０は、対話度数算出部１２４が算出した対話度数に基づいて番組種別を判定する。

図１９は、図１０と同様に、実際のクイズ番組に対して算出した対話度数を示すグラフである。なお、説明のために若干の修正を加えてある。横軸の黒帯１２０１〜１２０８の部分はスタジオにおいて司会者や回答者が対話している場面である。

この番組では、黒帯１２０１の前にオープニングおよび第一問の出題ビデオが流れる。続いて、スタジオにおける出演者の回答シーン、正解ビデオが流れるシーン、スタジオでコメントがなされるシーン、次の問題の出題ビデオが流れるシーンの順に続く構成である。

図１９のグラフからスタジオシーンでは対話度数が高く、オープニングや出題ビデオ、正解ビデオでは低くなっていることがわかった。これは、オープニングや出題ビデオ、正解ビデオの区間では、類似ショットが登場しない傾向にあるためである。したがって、しきい値１２１０を設定し、対話度数が閾値以上である区間をスタジオシーンのメタショットであると判別することができる。

さらに、このように、対話度数が閾値以上となる区間が予め定められた個数存在することを条件として、「ドラマ・映画」であると推定してもよい。

また他の例としては、対話度数が閾値以上となるメタショットの時間長の合計を算出し、算出した値が予め定められた規定範囲内の値である場合に「ドラマ・映画」であると推定してもよい。

また他の例としては、メタショット中で最長のものの時間長が規定範囲内であるという条件、メタショットの時間長の平均が規定範囲内であるという条件、を用いてもよい。

また、相撲や野球、テニスなどのスポーツ中継番組においては、複数の固定カメラから撮影された映像を組み合わせて放送する傾向にある。従って、類似ショットが番組全体にわたって登場する。

そこで、例えば、実施例３において説明したニュース番組であると推定するための条件に合致せず、かつ番組の半分以上の時間的範囲において類似ショットが出現する場合には、当該番組はスポーツ番組であると推定してもよい。

番組種別の判定方法は上記の方法に限定されない。既出の対話度数を番組全体に対して求めることにより番組種別を判定する方法の一例を以下で説明する。

図２７はニュース９番組とバラエティ１２番組に対して、番組全体の対話度数を求めたものである。白四角（□）がバラエティ番組を、黒四角（■）がニュース番組をあらわしている。横軸は対話度数を表す。縦軸は実施例２のバラエティ番組をコーナー分割する手
法を（ニュースを含む）すべての番組に対して適用した際に、最初のコーナータイトルが現れる時刻を番組全体の長さで割った割合である。なお、対話度数は見やすさのために対数目盛にしてある。

図２７でわかるように、ニュース番組とバラエティ番組には番組全体の対話度数において明確な傾向がある。したがって、適切な対話度数を閾値としてニュース番組（領域Ａ）とバラエティ番組（領域ＢおよびＣ）を弁別することが可能である。

また、バラエティ番組において領域Ｃにある３番組は、コーナータイトル画面がコーナーごとに繰り返し現れるものであるが、縦軸の尺度において下方に現れる傾向が観測できる。したがって、コーナータイトルが現れる時刻について適切な閾値を設定することによって、バラエティ番組でもコーナーごとに分割することが適当であるものと、そうでないものを弁別することができる。

このように類似ショットの時間的分布に基づいて番組の種別を判定すればよく、その具体的条件は実施例に限定されるものではない。

図２０は、実施例４にかかる動画像処理装置１０における動画像処理を示すフローチャートである。実施例４にかかる動画像処理においては、実施例３において説明した対話度数算出処理（ステップＳ２２０）の直前に対話度数算出処理（ステップＳ２２０）を行う。対話度数算出処理における対話度数算出部１２４の処理については上述の通りである。

なお、実施例４にかかる動画像処理装置１０のこれ以外の構成および処理は、実施例３にかかる動画像処理装置１０の構成および処理と同様である。

次に、実施例５にかかる動画像処理装置１０について説明する。実施例５にかかる動画像処理装置１０は、動画像を複数の小区間に分割し、各小区間毎に、番組種別を判定する。ここで、小区間とは、単純に動画像開始から３分ごと、３０秒ごとといった一定時間長で区切られた区間のことである。また他の例としては、連続する３ショット、１０ショットといった一定ショット数で区切られた区間でもよい。

図２１は、実施例５にかかる動画像処理装置１０の機能構成を示すブロック図である。実施例５にかかる動画像処理装置１０は、実施例３にかかる動画像処理装置１０の機能構成に加えて、小区間定義部２４０をさらに備えている。小区間定義部２４０は、動画像を複数の小区間に分割する。なお、実施の形態にかかる小区間定義部２４０は、本発明にかかる分割手段を構成する。

また、動画像が動画像取得部１０１に入力されるのに先立ち、または入力された際に解析パラメータ受信部１９０が上記のカット検出部１０２、類似ショット検出部１０４、番組種判定部１３０の各処理に必要な条件（パラメータ）を受信し、これら検出部、判定部に供給してもよい。

解析パラメータ１９０がパラメータを受信する先としては、実施例１で既出のようにインターネットや記録メディアなどが想定される。

図２２は、実施例５にかかる動画像処理装置１０における動画像処理を示すフローチャートである。実施例５にかかる動画像処理においては、実施例３において説明したショット区間定義処理（ステップＳ２０４）に続いて、小区間定義処理（ステップＳ２４０）を行う。小区間定義処理における小区間定義部２４０の処理については上述の通りである。

上記のようにして小区間ごとに番組種が検出されると、たとえば「１４分００秒〜１５分００秒：インタビュー」あるいは「７分１１秒〜９分４９秒：歌唱」というように、一つの番組でありながら、複数の構成要素（トーク、インタビュー、歌唱、ニュースアナウンスなど）が複合している番組においても、各コーナーに対して自動的に種別属性を付与することができる。

これにより、番組自体が複数のコーナーを持っている場合には、それぞれがどういった種別（ニュース、インタビュー、トークなど）であるという属性を自動で付与することができるので、ユーザはそれを手がかりに自分が視聴したい場面を容易に検索することができる。

なお、実施例５にかかる動画像処理装置１０のこれ以外の構成および処理は、実施例３にかかる動画像処理装置１０の構成および処理と同様である。

次に、実施例６にかかる動画像処理装置１０について説明する。実施例６にかかる動画像処理装置１０は、対話度数に基づいて各小区間に対する番組種別を判定する。図２３は、実施例６にかかる動画像処理装置１０の機能構成を示すブロック図である。また、図２４は、実施例６にかかる動画像処理装置１０における動画像処理を示すフローチャートである。実施例５にかかる動画像処理においては、実施例５における番組種別判定処理（ステップＳ２３０）の直前に、対話度数算出処理（ステップＳ２２０）が行われる。対話度数算出処理における対話度数算出部１２４の処理については上述の通りである。

なお、実施例６にかかる動画像処理装置１０のこれ以外の構成および処理は、実施例５にかかる動画像処理装置１０の構成および処理と同様である。

以上、本発明を実施の形態を用いて説明したが、上記実施の形態に多様な変更または改良を加えることができる。

以上のように、本発明にかかる動画像処理装置、動画像処理方法および動画像処理プログラムは、メタショットを生成するのに有用であり、特に、適切な長さのメタショットを生成するのに適している。

実施例１にかかる動画像処理装置１０の機能構成を示すブロック図である。統計値保持部１２２が保持する統計情報を模式的に示す図である。動画像を模式的に示す図である。ニュース番組を模式的に示す図である。各グループに属するショットの内容を示す図である。動画像処理装置１０における動画像処理を示すフローチャートである。動画像処理装置１０のハードウェア構成を示す図である。実施例２にかかる動画像処理装置１０の機能構成を示すブロック図である。アンカーパーソンと特派員の対話シーンを模式的に示す図である。図９を参照しつつ説明した算出方法によって算出された対話度数のグラフを示す図である。先頭ショットと、当該先頭ショットに対する対話度数を模式的に示す図である。実施例２にかかる動画像処理装置１０の動画像処理を示すフローチャートである。実施例３に係る動画像処理装置１０の機能構成を示すブロック図である。実施例３にかかる統計値保持部１２２が保持する統計情報を模式的に示す図である。ドラマ番組を模式的に示す図である。メタショットを定義する処理を説明するための図である。実施例３にかかる動画像処理装置１０における動画像処理を示すフローチャートである。実施例４にかかる動画像処理装置１０の機能構成を示すブロック図である。実際のクイズ番組に対して算出した対話度数のグラフを示す図である。実施例４にかかる動画像処理装置１０における動画像処理を示すフローチャートである。実施例５にかかる動画像処理装置１０の機能構成を示すブロック図である。実施例５にかかる動画像処理装置１０における動画像処理を示すフローチャートである。実施例６にかかる動画像処理装置１０の機能構成を示すブロック図である。実施例６にかかる動画像処理装置１０における動画像処理を示すフローチャートである。対話度数を用いた対話区間設定を模式的に示す図であるバラエティ番組の類似ショット登場パターンを模式的に示す図である対話度数とコーナータイトル登場時刻を用いた番組種別判定を模式的に示す図である

符号の説明

１０動画像処理装置
１０１動画像取得部
１０２カット検出部
１０３ショット区間定義部
１０４類似ショット検出部
１０５メタショット先頭グループ判定部
１０６メタショット先頭時刻判定部
１０７メタショット生成部
１０８動画像出力部
１１０グループ化部
１２０統計処理部
１２２統計値保持部
１２４対話度数算出部
１３０番組種別判定部
１９０解析パラメータ受信部
２４０小区間定義部

Claims

動画像の内容が切り替る画像変化点で分割された部分動画像を複数含むメタショットを生成する動画像処理装置であって、
前記部分動画像同士の類似度を計測する類似度計測手段と、
前記類似度計測手段が計測した前記類似度に基づいて、類似する部分動画像を特定する類似ショット特定手段と、
前記類似ショット特定手段が特定した、前記類似する部分動画像に対して同一のグループ属性を付与するグループ化手段と、
前記グループ化手段によって生成されたグループから、予め定められた条件に従って、前記メタショットの先頭とすべき先頭部分動画像の属する先頭グループを選択する先頭グループ選択手段と、
前記先頭グループ選択手段が選択した前記先頭グループに属する部分動画像が前記動画像中で出現する出現パターンに基づいて、前記先頭グループに含まれる部分動画像から前記先頭部分動画像を選択する先頭ショット選択手段と、
前記先頭ショット選択手段が選択した前記先頭部分動画像を先頭に有する前記メタショットを生成するメタショット生成手段と
を備えたことを特徴とする動画像処理装置。
前記メタショット生成手段は、前記先頭部分動画像の開始位置を境界とするメタショットを生成することを特徴とする請求項１に記載の動画像処理装置。
同一のグループに属する部分動画像の個数と、予め定められた基準個数とを比較するショット個数比較手段をさらに備え、
前記先頭グループ選択手段は、前記ショット個数比較手段によって同一のグループに属する部分動画像の個数が前記基準個数に比べて多いと判断された場合に、当該グループを前記先頭グループとして選択することを特徴とする請求項１または２に記載の動画像処理装置。
同一のグループに属する部分動画像のうち再生時間長が最短である部分動画像の再生時間長と、予め定められた基準最短時間長とを比較する最短時間長比較手段をさらに備え、
前記先頭グループ選択手段は、前記最短時間長比較手段によって前記最短である部分動画像の再生時間長が前記基準最短時間長に比べて長いと判断された場合に、当該グループを前記先頭グループとして選択することを特徴とする請求項１から３のいずれか一項に記載の動画像処理装置。
同一のグループに属する部分動画像のうち再生時間長が最長である部分動画像の再生時間長と、予め定められた基準最長時間長とを比較する最長時間長比較手段をさらに備え、
前記先頭グループ選択手段は、前記最長時間長比較手段によって前記最長である部分動画像の再生時間長が前記基準最長時間長に比べて長いと判断された場合に、当該グループを前記先頭グループとして選択することを特徴とする請求項１から４のいずれか一項に記載の動画像処理装置。
同一のグループに属する部分動画像の再生時間長の平均値を算出する時間長平均値算出手段と、
前記時間長平均値算出手段が算出した前記再生時間長の平均値と、予め定められた基準平均時間長とを比較する平均時間長比較手段と
をさらに備え、
前記先頭グループ選択手段は、前記平均時間長比較手段によって前記再生時間長の平均値が前記基準平均時間長に比べて長いと判断された場合に、当該グループを前記先頭グル
ープとして選択することを特徴とする請求項１から５のいずれか一項に記載の動画像処理装置。
同一のグループに属する部分動画像のうち前記動画像において最初に配置されている部分動画像と、前記動画像において最後に配置されている部分動画像との間の再生時間長を測定するショット間時間長測定手段と、
前記ショット間時間長測定手段によって測定された部分動画像間再生時間長と、予め定められた基準部分動画像間時間長とを比較するショット間時間長比較手段と
をさらに備え、
前記先頭グループ選択手段は、前記ショット間時間長比較手段によって前記部分動画像間再生時間長が前記基準部分動画像間時間長に比べて長いと判断された場合に、当該グループを前記先頭グループとして選択することを特徴とする請求項１から６のいずれか一項に記載の動画像処理装置。
第１のグループに属する全ての部分動画像が、前記第１のグループ以外のグループに属する２つの部分動画像の間に配置されているか否かを判断するショット位置判断手段をさらに備え、
前記先頭グループ選択手段は、前記ショット位置判断手段によって前記第１のグループに属する全ての部分動画像が、前記第１のグループ以外のグループに属する２つの部分動画像の間に配置されていないと判断された場合に、前記第１のグループを先頭グループとして選択することを特徴とする請求項１から７のいずれか一項に記載の動画像処理装置。
同一のグループに属する複数の部分動画像の出現パターンに基づいて、前記グループに属する、対象部分動画像が対話の場面を示す部分動画像である確率を示す対話度数を算出する対話度数算出手段をさらに備え、
前記先頭ショット選択手段は、前記対話度数算出手段によって算出された前記対話度数が予め定められた基準値よりも小さい場合に、前記対象部分動画像を先頭部分動画像として選択することを特徴とする請求項１から８のいずれか一項に記載の動画像処理装置。
同一のグループに属する複数の部分動画像の出現パターンに基づいて、前記グループに属する、対象部分動画像が対話の場面を示す部分動画像である確率を示す対話度数を算出する対話度数算出手段をさらに備え、
前記先頭ショット選択手段は、前記対話度数算出手段によって算出された前記対話度数が予め定められた基準値よりも大きいような時間区間を対話区間と判定し、判定された対話区間から先頭部分動画像を選択、または選択対象から除外することを特徴とする請求項１から８のいずれか一項に記載の動画像処理装置。
前記先頭ショット選択手段は、第１のグループに属する部分動画像の一つと、第２のグループに属する部分動画像の一つとを選択し、これら２つの部分動画像のうち動画像中で先頭に近い側にあるもの開始時刻から、動画像中で末尾に近い側にあるものの終了時刻までの区間に対する上記対話度数を算出し、計算された対話度数が最大になるような第２のグループ、およびそのグループに属する部分動画像を選択し、
選択された第１のグループに属する部分動画像の一つに対する対話度数の最大値が予め定められた対話度数より高いときに、対話度数の最大値をなした２つの部分動画像およびその間の時間区間を対話区間と判定し、判定された対話区間から先頭部分動画像を選択、または選択対象から除外することを特徴とする請求項１から８のいずれか一項に記載の動画像処理装置。
前記先頭ショット選択手段は対話区間を判定し、対話区間に属する部分動画像を先頭部分動画像として選択しないことを特徴とする請求項１０または１１に記載の動画像処理装
置。
前記先頭ショット選択手段は対話区間を判定し、対話区間中で先頭、または末尾、または両方の部分動画像を先頭部分動画像として選択することを特徴とする請求項１０または１１に記載の動画像処理装置。
前記先頭ショット選択手段は対話区間を判定し、対話区間中にいずれかのグループに属する部分動画像が存在している場合には、いずれかのグループに属し、対話区間中で先頭に最も近いもの、またはいずれかのグループに属し、対話区間中で最も末尾に近いもの、または両方の部分動画像を先頭部分動画像として選択することを特徴とする請求項１０または１１に記載の動画像処理装置。
前記先頭ショット選択手段は対話区間を判定し、前記先頭グループ選択手段によって先頭グループとして選択されたいずれかのグループに属する部分動画像が対話区間中に存在している場合には、いずれかの先頭グループに属し、対話区間中で先頭に最も近いもの、またはいずれかの先頭グループに属し、対話区間中で最も末尾に近いもの、または両方の部分動画像を先頭部分動画像として選択することを特徴とする請求項１０または１１に記載の動画像処理装置。
前記先頭ショット選択手段は対話区間を判定し、前記グループ化手段によって設定されたグループのうち、そのグループに属するすべての部分動画像が、動画像中でいずれの対話区間にも属さないという条件を満たすグループの有無を判定し、当該グループが存在する場合には、当該グループに属する部分動画像を先頭部分動画像として選択することを特徴とする請求項１０または１１に記載の動画像処理装置。
所定のグループに属する対象部分動画像を含み、予め定められた時間長を有する基準範囲を特定する基準範囲特定手段と、
いずれかのグループに属し、かつ前記基準範囲特定手段が特定した前記基準範囲内に配置された部分動画像の時間長の合計を算出するショット時間長算出手段とをさらに備え、
前記対話度数算出手段は、前記基準範囲特定手段が特定した前記基準範囲の時間長に対する、前記ショット時間長算出手段が算出した合計の時間長の比率を、前記対話度数として算出することを特徴とする請求項９から１６のいずれか一項に記載の動画像処理装置。
所定のグループに属する対象部分動画像を含み、予め定められた時間長を有する基準範囲を特定する基準範囲特定手段と、
前記基準範囲特定手段が特定した前記基準範囲に含まれる部分動画像の個数を計測する第１のショット個数計測手段と、
いずれかのグループに属し、かつ前記基準範囲特定手段が特定した前記基準範囲内に配置された部分動画像の個数を計測する第２のショット個数計測手段とをさらに備え、
前記対話度数算出手段は、前記第１のショット個数計測手段が計測した部分動画像の個数に対する、前記第２のショット個数計測手段が計測した部分動画像の個数の比率を、前記対話度数として算出することを特徴とする請求項９から１６のいずれか一項に記載の動画像処理装置。
前記動画像中で対話度数を算出するべき対象時間区間を特定する範囲特定手段と、
いずれかのグループに属し、かつ前記範囲特定手段が特定した前記範囲内に配置された部分動画像の時間長の合計を算出するショット時間長算出手段とをさらに備え、
前記対話度数算出手段は、前記範囲特定手段が特定した前記基準範囲の時間長に対する、前記ショット時間長算出手段が算出した合計の時間長の比率を、前記対話度数として算
出することを特徴とする請求項９から１６のいずれか一項に記載の動画像処理装置。
前記動画像中で対話度数を算出するべき対象時間区間を特定する範囲特定手段と、
いずれかのグループに属し、かつ前記範囲特定手段が特定した前記範囲内に配置された部分動画像の個数を計測するショット個数計測手段とをさらに備え、
前記対話度数算出手段は、前記範囲特定手段が特定した前記基準範囲の時間長に対する、前記ショット個数計測手段が計測した部分動画像の個数の比率を、前記対話度数として算出することを特徴とする請求項９から１６のいずれか一項に記載の動画像処理装置。
前記動画像中で対話度数を算出するべき対象時間区間を特定する範囲特定手段と、
いずれかのグループに属し、かつ前記範囲特定手段が特定した前記範囲内に配置された部分動画像の時間長の合計を算出するショット時間長算出手段と、
いずれかのグループに属し、かつ前記範囲特定手段が特定した前記範囲内に配置された部分動画像の個数を計測するショット個数計測手段とをさらに備え、
前記対話度数算出手段は、前記範囲特定手段が特定した前記基準範囲の時間長に対する、前記ショット時間長算出手段が算出した合計の時間長の比率と、前記範囲特定手段が特定した前記基準範囲の時間長に対する、前記ショット個数計測手段が計測した部分動画像個数の比率との積を前記対話度数として算出することを特徴とする請求項９から１６のいずれか一項に記載の動画像処理装置。
動画像に対応する解析処理条件を受信する解析パラメータ受信手段をさらに備え、
前記類似度計測手段、前記先頭グループ選択手段、前記先頭ショット選択手段の少なくとも１つは、上記解析パラメータ受信手段が受信した基準条件に基づいて部分動画像同士の類似度を計測、または先頭グループの選択、または先頭ショットの選択を行うことを特徴とする請求項１から２１のいずれか一項に記載の動画像処理装置。