JP4047264B2 - 動画像処理装置、動画像処理方法および動画像処理プログラム - Google Patents

動画像処理装置、動画像処理方法および動画像処理プログラム Download PDF

Info

Publication number
JP4047264B2
JP4047264B2 JP2003377282A JP2003377282A JP4047264B2 JP 4047264 B2 JP4047264 B2 JP 4047264B2 JP 2003377282 A JP2003377282 A JP 2003377282A JP 2003377282 A JP2003377282 A JP 2003377282A JP 4047264 B2 JP4047264 B2 JP 4047264B2
Authority
JP
Japan
Prior art keywords
moving image
shot
group
time length
partial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003377282A
Other languages
English (en)
Other versions
JP2005130416A (ja
Inventor
恒 青木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2003377282A priority Critical patent/JP4047264B2/ja
Priority to US10/935,245 priority patent/US7778470B2/en
Publication of JP2005130416A publication Critical patent/JP2005130416A/ja
Application granted granted Critical
Publication of JP4047264B2 publication Critical patent/JP4047264B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/20Disc-shaped record carriers

Description

本発明は、 画像の内容が切り替る画像変化点で分割された動画像である部分動画像を複数含むメタショットを生成する動画像処理装置、動画像処理方法および動画像処理プログラムに関するものである。
高性能なパーソナルコンピュータ(PC)やハードディスクレコーダーの普及により、映像・動画像をデジタル化して保存する技術が発達してきている。この技術は、ハードウェア、ソフトウェアの形態で実現されており、また、業務用に限らず家庭用のハードウェア等においても実現されている。
具体的には、例えばPC内、またはレコーダー内のハードディスク(HDD)に電磁的に映像を記録する。従って、目的の番組を少ない待ち時間で再生開始できる、不要番組の限定的削除が容易であるなど、従来のビデオテープにはなかったメリットがある。このような利便性の向上により、録画等の操作をより簡単に行うことができるようになってきた。
その一方で、大量の映像等が記録されると、所望の場面の検索が困難になるという問題が生じた。早送り機能などを用いて番組を、いわゆる「飛ばし見」することにより検索時間を短縮することでこのような問題に対処可能である。
しかし、このような「飛ばし見」は、例えば数秒に1フレームといったように番組内容の構造と無関係な物理的な単位で表示フレームを間引きするため、興味ある場面を行き過ぎてしまうという新たな問題が生じた。
このような問題を解決するために、画像処理技術を用い、動画像中の画像が切り替わる画像変化点(以下、「カット点」と称す)によって動画像を部分動画像に分割し、ショット、すなわち部分動画像毎に飛ばし見を可能とする技術研究や製品開発がなされてきている。
上記のような映像の分割として、たとえばコマーシャルと番組本編、ニュース番組の話題転換など番組内容に即した分割が可能であるが、例えば資料映像の切り替わりなど、上記の映像分割の技術では適切に分割処理を行えない画像が大量に含まれている。
また、生成されたショットには、再生される時間長が数秒程度と短いものが多い。このように1つのショットの時間長が極端に短い場合には、検索時間を短縮できるという効果も期待できない。
この問題を解決するために、本願出願人は、類似ショットのアイコン表示を省略することによって一覧表示の視認性を向上させる方法を提案した(特許文献1参照)。また、映像の繰り返し単位をグルーピング(連続する複数のショットの集合にする=メタショット化)することにより、本来の番組内容により近い単位で映像を構造化する方法が提案されている。
特開平9−270006号公報 青木ら著 「繰返しショットの統合による階層化アイコンを用いたビデオ・インタフェース」(情報処理学会論文誌 Vol.39, No.5 pp.1317-1324, 1998年)
上記文献の方法によれば、ニュースなどのように番組全体にニュースキャスター(アンカーパーソン)のショットが分散している番組では番組全体がメタショットとしてグルーピングされてしまい、適切なメタショットに分割できないという問題がある。
また、番組の種類によって、適切なメタショットに分割するための方法が異なるため番組の種別によらずに、自動的に適切なメタショットに分割する技術の提供が望まれている。
本発明は、上記に鑑みてなされたものであって、番組の種類によらず適切なショットに分割することのできる動画像処理装置、動画像処理方法および動画像処理プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明の第1発明は、動画像の内容が切り替る画像変化点で分割された部分動画像を複数含むメタショットを生成する動画像処理装置であって、前記部分動画像同士の類似度を計測する類似度計測手段と、前記類似度計測手段が計測した前記類似度に基づいて、類似する部分動画像を特定する類似ショット特定手段と、前記類似ショット特定手段が特定した、前記類似する部分動画像に対して同一のグループ属性を付与するグループ化手段と、前記グループ化手段によって生成されたグループから、予め定められた条件に従って、前記メタショットの先頭とすべき先頭部分動画像の属する先頭グループを選択する先頭グループ選択手段と、前記先頭グループ選択手段が選択した前記先頭グループに属する部分動画像が前記動画像中で出現する出現パターンに基づいて、前記先頭グループに含まれる部分動画像から前記先頭部分動画像を選択する先頭ショット選択手段と、前記先頭ショット選択手段が選択した前記先頭部分動画像を先頭に有する前記メタショットを生成するメタショット生成手段とを備えたことを特徴とする動画像処理装置を提供する。
ここで本発明において、前記メタショット生成手段は、前記先頭部分動画像の開始位置を境界とするメタショットを生成することを特徴とする。
また本発明において、同一のグループに属する部分動画像の個数と、予め定められた基準個数とを比較するショット個数比較手段をさらに備え、前記先頭グループ選択手段は、前記ショット個数比較手段によって同一のグループに属する部分動画像の個数が前記基準個数に比べて多いと判断された場合に、当該グループを前記先頭グループとして選択することを特徴とする。
また本発明において、同一のグループに属する部分動画像のうち再生時間長が最短である部分動画像の再生時間長と、予め定められた基準最短時間長とを比較する最短時間長比較手段をさらに備え、前記先頭グループ選択手段は、前記最短時間長比較手段によって前記最短である部分動画像の再生時間長が前記基準最短時間長に比べて長いと判断された場合に、当該グループを前記先頭グループとして選択することを特徴とする。
また本発明において、同一のグループに属する部分動画像のうち再生時間長が最長である部分動画像の再生時間長と、予め定められた基準最長基準時間長とを比較する最長時間長比較手段をさらに備え、前記先頭グループ選択手段は、前記最長時間長比較手段によって前記最長である部分動画像の再生時間長が前記基準最長時間長に比べて長いと判断された場合に、当該グループを前記先頭グループとして選択することを特徴とする。
また本発明において、同一のグループに属する部分動画像の再生時間長の平均値を算出する時間長平均値算出手段と、前記時間長平均値算出手段が算出した前記再生時間長の平均値と、予め定められた基準平均時間長とを比較する平均時間長比較手段とをさらに備え、前記先頭グループ選択手段は、前記平均時間長比較手段によって前記再生時間長の平均値が前記基準平均時間長に比べて長いと判断された場合に、当該グループを前記先頭グループとして選択することを特徴とする。
また本発明において、同一のグループに属する部分動画像のうち前記動画像において最初に配置されている部分動画像と、前記動画像において最後に配置されている部分動画像との間の再生時間長を測定するショット間時間長測定手段と、前記ショット間時間長測定手段によって測定された部分動画像間再生時間長と、予め定められた基準部分動画像間時間長とを比較するショット間時間長比較手段とをさらに備え、前記先頭グループ選択手段は、前記ショット間時間長比較手段によって前記部分動画像間再生時間長が前記基準部分動画像間時間長に比べて長いと判断された場合に、当該グループを前記先頭グループとして選択することを特徴とする。
また本発明において、第1のグループに属する全ての部分動画像が、前記第1のグループ以外のグループに属する2つの部分動画像の間に配置されているか否かを判断するショット位置判断手段をさらに備え、前記先頭グループ選択手段は、前記ショット位置判断手段によって前記第1のグループに属する全ての部分動画像が、前記第1のグループ以外のグループに属する2つの部分動画像の間に配置されていないと判断された場合に、前記第1のグループを先頭グループとして選択することを特徴とする。
また本発明において、同一のグループに属する複数の部分動画像の出現パターンに基づいて、前記グループに属する、対象部分動画像が対話の場面を示す部分動画像である確率を示す対話度数を算出する対話度数算出手段をさらに備え、前記先頭ショット選択手段は、前記対話度数算出手段によって算出された前記対話度数が予め定められた基準値よりも小さい場合に、前記対象部分動画像を先頭部分動画像として選択することを特徴とする。
また本発明において、同一のグループに属する複数の部分動画像の出現パターンに基づいて、前記グループに属する、対象部分動画像が対話の場面を示す部分動画像である確率を示す対話度数を算出する対話度数算出手段をさらに備え、前記先頭ショット選択手段は、前記対話度数算出手段によって算出された前記対話度数が予め定められた基準値よりも大きいような時間区間を対話区間と判定し、判定された対話区間から先頭部分動画像を選択、または選択対象から除外することを特徴とする。
また本発明において、前記先頭ショット選択手段は、第1のグループに属する部分動画像の一つと、第2のグループに属する部分動画像の一つとを選択し、これら2つの部分動画像のうち動画像中で先頭に近い側にあるもの開始時刻から、動画像中で末尾に近い側にあるものの終了時刻までの区間に対する上記対話度数を算出し、計算された対話度数が最大になるような第2のグループ、およびそのグループに属する部分動画像を選択し、選択された第1のグループに属する部分動画像の一つに対する対話度数の最大値が予め定められた対話度数より高いときに、対話度数の最大値をなした2つの部分動画像およびその間の時間区間を対話区間と判定し、判定された対話区間から先頭部分動画像を選択、または選択対象から除外することを特徴とする。
また本発明において、前記先頭ショット選択手段は対話区間を判定し、対話区間に属する部分動画像を先頭部分動画像として選択しないことを特徴とする。
また本発明において、前記先頭ショット選択手段は対話区間を判定し、対話区間中で先
頭、または末尾、または両方の部分動画像を先頭部分動画像として選択することを特徴とする。
また本発明において、前記先頭ショット選択手段は対話区間を判定し、対話区間中にいずれかのグループに属する部分動画像が存在している場合には、いずれかのグループに属し、対話区間中で先頭に最も近いもの、またはいずれかのグループに属し、対話区間中で最も末尾に近いもの、または両方の部分動画像を先頭部分動画像として選択することを特徴とする。
また本発明において、前記先頭ショット選択手段は対話区間を判定し、前記先頭グループ選択手段によって先頭グループとして選択されたいずれかのグループに属する部分動画像が対話区間中に存在している場合には、いずれかの先頭グループに属し、対話区間中で先頭に最も近いもの、またはいずれかの先頭グループに属し、対話区間中で最も末尾に近いもの、または両方の部分動画像を先頭部分動画像として選択することを特徴とする。
また本発明において、前記先頭ショット選択手段は対話区間を判定し、前記グループ化手段によって設定されたグループのうち、そのグループに属するすべての部分動画像が、動画像中でいずれの対話区間にも属さないという条件を満たすグループの有無を判定し、当該グループが存在する場合には、当該グループに属する部分動画像を先頭部分動画像として選択することを特徴とする。
また本発明において、所定のグループに属する対象部分動画像を含み、予め定められた時間長を有する基準範囲を特定する基準範囲特定手段と、いずれかのグループに属し、かつ前記基準範囲特定手段が特定した前記基準範囲内に配置された部分動画像の時間長の合計を算出するショット時間長算出手段とをさらに備え、前記対話度数算出手段は、前記基準範囲特定手段が特定した前記基準範囲の時間長に対する、前記ショット時間長算出手段が算出した合計の時間長の比率を、前記対話度数として算出することを特徴とする。
また本発明において、所定のグループに属する対象部分動画像を含み、予め定められた時間長を有する基準範囲を特定する基準範囲特定手段と、前記基準範囲特定手段が特定した前記基準範囲に含まれる部分動画像の個数を計測する第1のショット個数計測手段と、いずれかのグループに属し、かつ前記基準範囲特定手段が特定した前記基準範囲内に配置された部分動画像の個数を計測する第2のショット個数計測手段とをさらに備え、前記対話度数算出手段は、前記第1のショット個数計測手段が計測した部分動画像の個数に対する、前記第2のショット個数計測手段が計測した部分動画像の個数の比率を、前記対話度数として算出することを特徴とする。
また本発明において、前記動画像中で対話度数を算出するべき対象時間区間を特定する範囲特定手段と、いずれかのグループに属し、かつ前記範囲特定手段が特定した前記範囲内に配置された部分動画像の時間長の合計を算出するショット時間長算出手段とをさらに備え、前記対話度数算出手段は、前記範囲特定手段が特定した前記基準範囲の時間長に対する、前記ショット時間長算出手段が算出した合計の時間長の比率を、前記対話度数として算出することを特徴とする。
また本発明において、前記動画像中で対話度数を算出するべき対象時間区間を特定する範囲特定手段と、いずれかのグループに属し、かつ前記範囲特定手段が特定した前記範囲内に配置された部分動画像の個数を計測するショット個数計測手段とをさらに備え、前記対話度数算出手段は、前記範囲特定手段が特定した前記基準範囲の時間長に対する、前記ショット個数計測手段が計測した部分動画像の個数の比率を、前記対話度数として算出することを特徴とする。
また本発明において、前記動画像中で対話度数を算出するべき対象時間区間を特定する範囲特定手段と、いずれかのグループに属し、かつ前記範囲特定手段が特定した前記範囲内に配置された部分動画像の時間長の合計を算出するショット時間長算出手段と、いずれかのグループに属し、かつ前記範囲特定手段が特定した前記範囲内に配置された部分動画像の個数を計測するショット個数計測手段とをさらに備え、前記対話度数算出手段は、前記範囲特定手段が特定した前記基準範囲の時間長に対する、前記ショット時間長算出手段が算出した合計の時間長の比率と、前記範囲特定手段が特定した前記基準範囲の時間長に対する、前記ショット個数計測手段が計測した部分動画像個数の比率との積を前記対話度数として算出することを特徴とする。
また本発明において、動画像に対応する解析処理条件を受信する解析パラメータ受信手段をさらに備え、前記類似度計測手段、前記先頭グループ選択手段、前記先頭ショット選択手段の少なくとも1つは、上記解析パラメータ受信手段が受信した基準条件に基づいて部分動画像同士の類似度を計測、または先頭グループの選択、または先頭ショットの選択を行うことを特徴とする。
また本発明の第3発明は、動画像の内容が切り替る画像変化点で分割された部分動画像を複数含むメタショットを生成する動画像処理方法であって、前記部分動画像同士の類似度を計測する類似度計測ステップと、前記類似度計測ステップにおいて計測された前記類似度に基づいて、類似する部分動画像を特定する類似ショット特定ステップと、前記類似ショット特定ステップにおいて特定された、前記類似する部分動画像に対して同一のグループ属性を付与するグループ化ステップと、前記グループ化ステップにおいて生成されたグループから、予め定められた条件に従って、前記メタショットの先頭とすべき先頭部分動画像の属する先頭グループを選択する先頭グループ選択ステップと、前記先頭グループ選択ステップにおいて選択された前記先頭グループに属する部分動画像が前記動画像中で出現する出現パターンに基づいて、前記先頭グループに含まれる部分動画像から前記先頭部分動画像を選択する先頭ショット選択ステップと、前記先頭ショット選択ステップにおいて選択された前記先頭部分動画像を先頭に有する前記メタショットを生成するメタショット生成ステップとを有することを特徴とする動画像処理方法を提供する。
ここで本発明においては、動画像に対応する解析処理条件を受信する解析パラメータ受信ステップをさらに備え、前記類似ショット特定ステップ、前記先頭グループ選択ステップ、先頭ショット選択ステップの少なくとも1つは、上記解析パラメータ受信ステップが受信した基準条件に基づいて類似ショットを特定、または先頭グループを選択、またはショットを選択することを特徴とする。
また本発明の第4発明は、動画像の内容が切り替る画像変化点で分割された部分動画像を複数含むメタショットを生成する動画像処理をコンピュータに実行させる動画像処理プログラムであって、前記部分動画像同士の類似度を計測する類似度計測ステップと、前記類似度計測ステップにおいて計測された前記類似度に基づいて、類似する部分動画像を特定する類似ショット特定ステップと、前記類似ショット特定ステップにおいて特定された、前記類似する部分動画像に対して同一のグループ属性を付与するグループ化ステップと、前記グループ化ステップにおいて生成されたグループから、予め定められた条件に従って、前記メタショットの先頭とすべき先頭部分動画像の属する先頭グループを選択する先頭グループ選択ステップと、前記先頭グループ選択ステップにおいて選択された前記先頭グループに属する部分動画像が前記動画像中で出現する出現パターンに基づいて、前記先頭グループに含まれる部分動画像から前記先頭部分動画像を選択する先頭ショット選択ステップと、前記先頭ショット選択ステップにおいて選択された前記先頭部分動画像を先頭に有する前記メタショットを生成するメタショット生成ステップとをコンピュータに実行させることを特徴とする動画像処理プログラムを提供する。
ここで本発明においては、動画像に対応する解析処理条件を受信する解析パラメータ受信ステップをさらに備え、前記類似ショット特定ステップ、前記先頭グループ選択ステップ、先頭ショット選択ステップの少なくとも1つは、上記解析パラメータ受信ステップが受信した基準条件に基づいて類似ショットを特定、または先頭グループを選択、またはショットを選択することを特徴とする。
また本発明の第5発明は、動画像から画像の内容が切り替わる画像変化点を検出するカット検出ステップと、前記カット検出ステップにおいて検出された前記画像変化点で分割された動画像である部分動画像間の類似度を計測する類似度計測ステップと、前記類似度計測ステップにおいて計測された前記類似度に基づいて、類似する部分動画像を特定する類似ショット特定ステップと、前記類似ショット特定ステップにおいて特定された類似する複数の部分動画像に対して同一のグループ属性を付与するグループ化ステップと、前記グループ化ステップにおいてグループ化された類似する部分動画像が動画像中で出現する出現パターンに基づいて、前記動画像の種別を判定する動画像種別判定ステップとを有することを特徴とする動画像処理方法を提供する。
ここで本発明においては、動画像に対応する解析処理条件を受信する解析パラメータ受信ステップをさらに備え、前記カット検出ステップ、前記類似ショット特定ステップ、前記グループ化ステップ、前記動画像種別判定ステップの少なくとも1つは、上記解析パラメータ受信ステップが受信した基準条件に基づいてカットを検出、または類似ショットを特定、またはグループ化、または動画像種別の判定を行うことを特徴とする。
また本発明の第6発明においては、動画像から画像の内容が切り替わる画像変化点を検出するカット検出ステップと、前記カット検出ステップにおいて検出された前記画像変化点で分割された動画像である部分動画像間の類似度を計測する類似度計測ステップと、
前記類似度計測ステップにおいて計測された前記類似度に基づいて、類似する部分動画像を特定する類似ショット特定ステップと、前記類似ショット特定ステップにおいて特定された類似する複数の部分動画像に対して同一のグループ属性を付与するグループ化ステップと、前記グループ化ステップにおいてグループ化された類似する部分動画像が動画像中で出現する出現パターンに基づいて、前記動画像の種別を判定する動画像種別判定ステップとをコンピュータ実行させることを特徴とする動画像処理プログラムを提供する。
ここで本発明においては、動画像に対応する解析処理条件を受信する解析パラメータ受信ステップをさらに備え、前記カット検出ステップ、前記類似ショット特定ステップ、前記グループ化ステップ、前記動画像種別判定ステップの少なくとも1つは、上記解析パラ
メータ受信ステップが受信した基準条件に基づいてカットを検出、または類似ショットを特定、またはグループ化、または動画像種別の判定を行うことを特徴とする。
本発明にかかる動画像処理装置は、類似ショットが出現する出現パターンに基づいて、メタショットの先頭ショットを選択するので、ニュース番組などの映像に対して適切な単位のメタショットを生成することができるという効果を奏する。
以下に、本発明にかかる動画像処理装置、動画像処理方法および動画像処理プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、実施例においては、一例として動画像としてニュース番組の映像を取得した場合の処理について説明する。なお、以下に記載の「ショット」は、特許請求の範囲に記載の部分動画像に相当する。
図1は、実施例1にかかる動画像処理装置10の機能構成を示すブロック図である。動画像処理装置10は、動画像取得部101と、カット検出部102と、ショット区間定義部103と、類似ショット検出部104と、グループ化部110と、メタショット先頭グループ判定部105と、メタショット先頭時刻判定部106と、メタショット生成部107と、動画像出力部108と、統計処理部120と、統計値保持部122と、対話度数算出部124とを備えている。
動画像取得部101は、例えば当該動画像処理装置10に接続された放送番組受信機(チューナー)などを介して外部から動画像を取得する。動画像取得部101は、非圧縮の動画像を取得してもよい。また、DV形式や動画像圧縮の標準形式であるMPEG−1,2,4などのデジタルデータに変換された動画像を取得してもよい。
動画像取得部101は、取得した動画像をカット検出部102が処理するのに好適な形式に変換し、変換後の動画像をカット検出部102に渡す。ここで、好適な形式への変換とは、例えば圧縮(エンコード)されている動画像を伸長(デコード)する処理である。またカット検出部102による処理において必要十分な画像サイズに大きさを変換する処理である。
カット検出部102は、1枚毎に入力された画像フレームに対し、直前に入力された画像フレームとの類似度を計算し、画像の内容が切り替わる画像変化点、すなわちカット点を検出する。また、MPEG−2のように画像圧縮に予測符号化を用いている動画像を取得した場合には、予測符号量の変動を用いることによってカット点を検出してもよい。
なお、カット検出部102がカット点を検出する方法は実施例に限定されるものではなく、既に知られている様々な手法によって実現されてもよい。こうした手法は本願出願人によって出願された特開平9−93588などにも述べられている。
ショット区間定義部103は、カット検出部102によって検出された、時間的に最も近い位置に並ぶ2つのカット点に囲まれた時間区間に属する画像フレームの集合をショットと定義する。例えば、再生開始から3分15秒20後に再生されるフレームである3分15秒20フレームの直前にカット点が検出され、かつ3分21秒12フレームの直前に次のカット点が検出された場合に、3分15秒20フレームから3分21秒11フレームまでを1つのショットと定義する。ここで、再生時刻とは、映像を再生させた場合に、映像開始から所定のフレームが再生されるまでに要する時間である。
類似ショット検出部104は、ショット区間定義部103が定義したショットを1単位として、類似するショットを検出する。具体的には、ショットに含まれる1または2以上のフレームを対象とするそれぞれのショットから選択する。そしてこれらのフレーム同士を比較することによって類似度を計測する。
ショット自体の類似比較については本願出願人によって出願された特開平9−270006の方法などを用いることができる。この方法によれば、対象となる2つのフレームのそれぞれにおいて特徴量を算出する。そして、これら2つの特徴量の距離を計算する。例えば各フレームに属する画素の色相(hue)値から36分割のヒストグラムを計算し、36分割それぞれの度数を要素としたベクトルを特徴量として利用する場合には、36次元空間における2特徴量点の距離を計算する。この距離が類似度に対応する値であって、距離の値が小さいほど類似度が高い。
こうして計測した類似度が予め定められた値以上である場合に、これら2つのショットを互いに類似するショットとして検出する。このように、ショット同士の類似度に基づいて類似ショットを検出する。
なお、類似ショット検出部104は、1つの動画像に含まれる1つのショットに対して、当該動画像に含まれる他の全てのショットと類似度を計測するが、他の例としては、1つのショットに対して、当該ショットと時間的に近傍にある所定の数のショットに限定して、類似度を計測してもよい。なお、類似ショット検出部104は、本発明の類似度計測手段および類似ショット特定手段を構成する。
グループ化部110は、類似ショット検出部104が検出した類似ショットに対して同一のラベルを付与することによって類似ショットをグループ化する。統計処理部120は、グループ化部110から取得した情報に基づいて、例えば、1つの動画像における各グループの出現回数などグループに関する統計情報を生成する。統計値保持部122は、統計処理部120によって生成された統計情報を保持する。
メタショット先頭グループ判定部105は、統計値保持部122に保持される統計情報に基づいて、類似ショット検出部104により生成されたグループからメタショットの先頭ショットとなるべき特徴的なショットのグループを選択する。
ニュース番組においては、1つのニュース項目をメタショットとするのが適当である場合が多いため、ニュース項目の冒頭を先頭ショットとして検出できることが望ましい。ニュース項目の冒頭ではアンカーパーソン(ニュースキャスター/アナウンサー)が登場する場合が多い。そこで、アンカーパーソンが登場する場面をメタショットの先頭グループとして検出できれば適切なメタショットを生成することができる。
メタショット先頭グループ判定部105がアンカーパーソンのショットを選択する方法、すなわちメタショット先頭グループを判定する方法としては、たとえば類似ショットグループに属する複数のショットについて、ニュース番組中での出現回数、番組全体に渡る出現の時間的分布の広範さ、そのグループに属するショットの時間長などの条件のうち1または2以上の条件に基づいて判定する方法が採用される。先頭グループの判定方法については後に詳述する。
なお、実施例にかかるメタショット先頭グループ判定部105は、本発明のショット個数比較手段、最短時間長比較手段、最長時間長比較手段、時間長平均値算出手段、平均時間長比較手段、ショット間時間長測定手段、ショット間時間長比較手段、ショット位置判
断手段を構成する。
メタショット先頭時刻判定部106は、メタショット先頭グループ判定部105から先頭グループの判定結果を取得する。メタショット先頭グループ判定部105から取得した判定結果に基づいて、先頭グループと判定されたグループに属するショットから、実際にメタショットの先頭となるべきショットを特定し、特定した先頭ショットの開始位置に対応する再生時刻をメタショット先頭時刻と定義する。
具体的には、当該ショットの再生時間長が所定の長さ以上のものを先頭ショットとして特定する。例えば、1つのニュース項目中にゲストとの対話でアンカーパーソンが登場する場合がある。この場合、アンカーパーソンがゲストとの対話で登場する時間は、ニュース項目の冒頭に登場する時間よりも短いことが多い。従って、このようにショットの再生時間長を所定の長さ以上と制限することにより、ニュース項目中に含まれるアンカーパーソンのショットを先頭ショットの候補から除外することができる。
また他の例としては、メタショット先頭時刻判定部106は、当該ショットの再生時間長が所定の長さ以下のものを先頭ショットとして特定してもよい。また他の例としては、同じ類似ショットグループに属する他のショットとの時間的な間隔、他の類似ショットグループに属するショットとの時間的な前後関係、分布、包含関係などの条件に基づいて先頭ショットを特定してもよい。
また、これら複数の条件のうちから選択した一の条件のみに基づいて先頭ショットを特定してもよく、また他の例としては、これら複数の条件の全てまたはこれら複数の条件から選択した2以上の条件に基づいて先頭ショットを特定してもよい。なお、メタショット先頭時刻判定部106は、本発明の先頭ショット選択手段を構成する。
メタショット生成部107は、メタショット先頭時刻判定部106が特定した先頭ショットを先頭とするメタショットを生成する。具体的には、メタショット先頭時刻から次のメタショット先頭時刻までの間に連続して配置された複数のショットそれぞれに対して、同一のメタショットであることを示す同一のラベルを付与する。
ニュース番組の映像においては、ニュース番組の先頭から、最初にメタショット先頭時刻が登場する直前までの時刻を番組オープニングと判定し、オープニングのメタショットとしてラベル付けしてもよい。また、最後のメタショット先頭時刻からニュース番組の終了までのショットをメタショットとしてもよい。
以上のように、動画像がメタショットによって分割されると、その分割結果を動画像出力部108から出力する。こうして出力されたデータは、例えば表示装置に送られる。そして、表示装置では、メタショットに基づいて動画像の映像内容の一覧が表示される。またはメタショット単位で再生表示される。
動画像出力部108は、メタショット生成部107によってメタショットに分割された動画像を出力する。動画像は、例えば表示装置に向けて出力されてもよい。この場合には、表示装置において、映像(番組)内容を一覧表示する。または動画像がメタショット単位で視聴される。
このように、メタショットの区間に対応させて動画像を表示することにより、例えばニュース項目毎の画面一覧を作成することができる。またリモコンの「スキップ」ボタンを操作することにより、あるニュース項目を視聴しているときでも次のニュース項目の先頭のショットを視聴することができる。
図2は、統計値保持部122が保持する統計情報を模式的に示している。図2に示すように、類似ショットグループを識別するグループIDに対応付けて、各グループに関する情報を保持している。各グループに関する情報は、本実施例においてはそのグループに属するショットの数(以下「回数」と称す)、グループに属するショットの中で再生時間が最短であるものの再生時間長(最短)、グループに属するショットの中で再生時間が最長の再生時間長(最長)、グループに属するショットの再生時間長の平均値(平均長)、そのグループに属する最初のショットの開始時刻から最後のショットの終了時刻までの再生時間長(分布)、およびそのショットグループがほかのショットグループによって包含されているかどうか(被包含)である。
ここで、被包含の概念について説明する。ニュース番組においては、先頭ショットとすべきアンカーパーソンのショットは、動画像の全体に渡って点在している。そして、例えばアンカーパーソンのショットのうち、各ニュース項目の間に配置されたショットはアンカーパーソン以外の所定のグループに属する2つのショットに挟まれていないような関係を、被包含の関係と定義する。
一方、各ニュース項目の映像に対応するショットは、動画像における所定の再生時刻の範囲にのみ偏在している。そして、ニュース項目の前後には、アンカーパーソンのショットが配置されている。このように、所定のグループに属する2つのショットに挟まれているような関係を包含の関係と定義する。
以上のことから、ニュース番組においては、被包含のグループであるか否かに基づいて、アンカーパーソンのショットのグループ、すなわち先頭グループか否かを判定することができる。
以下、図3を参照しつつ被包含の概念についてより具体的に説明する。図3は動画像を模式的に示す図である。各長方形は1つのショットを表し、例えばAと付された長方形はAグループに属するショットを示している。すなわち同じ記号が付与されたショットはそれぞれ同じグループに属する。また、横軸は時間軸である。すなわち、ショット701、ショット706の順に再生される。また、BショットおよびCショットは、動画像において図3に示す以外の位置には存在しないこととする。
図3において、グループCに属するCショット708,709は、いずれもAショット704とAショット705の間に配置されている。また、Aショット704およびAショット705は、時間軸方向において連続して出現する2つのショットである。この場合、グループCは包含のグループである。
このように、同一のグループに属し、時間軸方向に連続して出現する2つのショットの間に、同一のグループに属する全てのショットが存在する場合に、2つのショット間に存在するショットのグループは、被包含のグループとなる。
一方、Bショット706およびBショット707は、いずれもAショットに挟まれているが、Bショット706とBショット707の間にAショット702が挟まれており、Bショット706およびBショット707は、連続する2つのAショットの間には存在していない。従って、グループBは被包含のグループである。
一方、Aグループにおいては、例えば、Aショット703は、Bショット712に続いて配置されているが、Aショット703の後にBショットが配置されていない。従って、被包含のグループではないと判断される。
ここで、メタショット先頭グループ判定部105が統計値保持部122に格納されている統計情報に基づいて先頭グループを選択する処理について、図4および図5を参照しつつ説明する。
図4は、ニュース番組を模式的に示している。横軸は時間軸である。ニュース番組は、上段から下段へと再生される。図5は、各グループに属するショットの内容を示している。Aグループはアンカーパーソンのショットである。BグループはワシントンDC駐在の特派員が登場するショットである。Cグループは答弁する首相が登場するショットである。Dグループは県庁舎の映像ショットである。Eグループはアンカーパーソンを別のカメラ構図で捕らえたショットである。
ニュース番組の開始から始まるメタショットは、ニュース番組の概要を紹介するニュース概要ショットである。ニュース概要ショットには、後述する2番目のニュース項目である「混迷する予算委員会討議」という内容のヘッドラインのCショット710が含まれている。Cショット710は、答弁する首相の横顔の映像である。
これに続いて、ショット702からショット707の間は、1番目のニュース項目であるアメリカ議会の話題に対応するメタショットである。
Aショット712は、アンカーパーソンが挨拶し、最初のニュース項目のリード部分をアナウンスする映像である。そして、BショットとAショットが交互に配置されるシーンが続く(713から716)。これは、ワシントンDC駐在の特派員とアンカーパーソンが中継で対話するシーンである。そして、この対話のあと、アメリカ国会の映像が2ショット入り(717、718)、このニュース項目が終了する。
続いて、Aショット720からショット722の間は、2番目のニュース項目に対応するメタショットである。2番目のニュース項目に対応するメタショットにおいては、Aショット720の次に国会議事堂のショットおよび予算委員会討議室のショットが配置されている。
さらにこれに続いてCショット721も配置されている。Cショット721は、ニュース概要のメタショットに含まれているCショット710と同一のショットである。
続くAショット731からショット732の間は、3番目のニュース項目に対応するメタショットである。3番目のニュース項目は、ある地方自治体の歳入不足を報じるものである。県庁舎のDショット731,732を含む報道シーンで構成されている。
続くAショット734からショット735の間は、4番目のニュース項目に対応するメタショットである。また、Eショット740,742,744から始まるニュース項目は、それぞれ為替と株価、天気予報、エンディングである。
以上のようなニュース番組において、メタショット先頭グループ判定部105は例えば、グループに属するショットの数、すなわち回数に基づいて先頭グループを特定する。具体的には「登場回数が3回以上」という条件に合致するグループを先頭グループとして特定する。このように、所定の回数以上登場するグループを先頭グループとして特定する。これにより、図4および図5を参照しつつ説明したニュース番組においては、Aグループが特定される。このように、望ましいグループを特定することができる。
または、アンカーパーソンが極端に多く登場することはないので、所定の回数以下の登
場回数である場合に、当該グループを先頭グループとして特定してもよい。
また、「同一グループに属するショットの最短の長さが10秒以上」、すなわち同一グループに属するショットの最短の長さが所定の値以上であることを条件として先頭グループを特定してよい。さらにまた、「同一グループに属するショットの最長の長さが21秒以上」、すなわち同一グループに属するショットの最長の長さが所定の値以上であることを条件として先頭グループを特定してもよい。
また、「同一グループに属するショットの長さの平均値が12秒以上」、すなわち同一グループに属するショットの長さの平均値が所定の値以上であることを条件として先頭グループを特定してもよい。さらにまた、同一グループに属するショットの長さの平均値が所定の値以上であることを条件として先頭グループを特定してもよい。
図4および図5を参照しつつ説明したニュース番組においては、「同一グループに属するショットの最長の長さが21秒以上」という条件により図2を参照しつつ説明した統計情報からAグループが特定される。
また、そのグループに属する最初のショットの開始時刻から最後のショットの終了時刻までの長さ、すなわち分布に基づいてもよい。具体的には、「分布が3分以上」という条件に合致するグループを先頭グループとして特定する。この条件によりAグループとCグループが特定される。
この場合、さらに、冒頭に登場するCグループのような、特別な登場を含むグループを除外するために、「分布」としていた条件を「同一ショットグループ中で2番目以降に登場するショットの『分布』」とすることにより正確に先頭グループを特定することができる。
他の例としては、「同一ショットグループに属するショットが再生される位置、すなわち配置の分散を計算し、配置の平均的な再生時間から、その分散に一定係数を積算した時間以上離れているショットを除外した『分布』」などを条件としてもよい。
また「被包含」のグループであることを条件にしてもよい。これにより、AグループとCグループを特定することができる。
以上、メタショット先頭グループ判定部105が先頭グループを選択する条件について説明したが、上記条件のうちから選択した1又は2以上の条件に基づいて先頭グループを特定してもよい。
また、動画像が動画像取得部101に入力されるのに先立ち、または入力された際に解析パラメータ受信部190が上記のカット検出部102、類似ショット検出部104、メタショット先頭グループ判定部105、メタショット先頭時刻判定部106の各処理に必要な条件(パラメータ)を受信し、これら検出部、判定部に供給してもよい。
例えば、EPGまたはiEPGと呼ばれる電子番組表サービスでは、インターネット上で番組内容や放送チャンネル、開始・終了時刻などを提供している。これと同様に、あるいはEPGまたはiEPG情報の一部として、解析パラメータをインターネット上に提供するサービスがあった場合には、本発明の動画像処理装置は録画番組に応じて検出、判定のパラメータを変えることができる。
具体的には、話題の変わり目ごとに必ず類似したタイトル画面が挿入されるような、特
定のバラエティ番組が入力される場合、本発明の動画像処理装置はその番組特有のパラメータ設定を録画前、あるいは録画中にインターネットからダウンロードする。本発明の動画像処理装置は、ダウンロードされた「3回以上登場する類似ショットであって、登場の最小間隔が2分以上」などという条件を用いて、より高精度に話題ごとのメタショットを作成できる。
解析パラメータのダウンロード手段はインターネットに限定されない。例えば、4月中旬、10月中旬など、新番組が出揃った時期に、CD−ROMやメモリカードなどの形態で番組ごとの最適な解析パラメータ設定が供給されてもよい。解析パラメータ受信部190は番組が本装置に入力された際に、その番組に対応する最適パラメータ設定を記録メディアから読み取り、それを各検出、判定部に供給してもよい。また、記録メディアに記録された最適パラメータを一旦本装置内の記録領域(図示せず)にコピーし、解析パラメータ受信部190は本装置に番組が入力された際に、この記録領域から最適パラメータを読み取り、各検出、判定部に供給してもよい。
図6は、動画像処理装置10における動画像処理を示すフローチャートである。動画像処理は、主に、ショット区間定義処理、グループ化処理およびメタショット生成処理の3つの処理を含んでいる。
まず、ショット区間定義処理が行われる。すなわち、カット検出部102は、画像フレームを1フレームずつ取得する入力する(ステップS202)そして、カット検出部102は、ステップS202において取得した画像フレームの直前に取得した画像フレームと、ステップS202において取得した画像フレームとの類似度を計算し、類似度に基づいてカット点を検出する。
取得した画像フレームがカット点である場合(ステップS203,Yes)、ショット区間定義部103は、当該カット点から直前のカット点までの間をショット区間として定義する(ステップS204)。
以上ステップS202からステップS204の処理を繰り返す。映像(番組)全体についてのショット区間の定義が完了すると(ステップS201,Yes)、ショット区間定義処理が完了し、グループ化処理に進む。
類似ショット検出部104は、所定のショットを基準ショットとして選択し、当該ショットと比較すべき対象ショットとの類似度を判定する(ステップS207)。そして、対象ショットが基準ショットと類似していると判断した場合には(ステップS208,Yes)、グループ化部110は、当該対象ショットと基準ショットに対して同一のグループを識別するラベルを付与する。すなわち、対象ショットと基準ショットとをグループ化する(ステップS209)。
以上のステップS207およびステップS208の処理を、1つの基準ショットに対する全ての対象ショットについて繰り返す。全ての対象ショットに対して処理が完了すると(ステップS206,Yes)、基準ショットを替えて、再度ステップS207およびステップS208の処理を繰り返す。
そして、映像全体について基準ショットと対象ショットとの類似度判定処理が完了すると(ステップS205,Yes)、グループ化処理が完了し、次のメタショット生成処理に進む。
メタショット先頭グループ判定部105は、統計値保持部122に保持される統計情報
に基づいて、先頭グループを特定する。そして、メタショット先頭時刻判定部106は、メタショット先頭グループ判定部105が特定した先頭グループに基づいて、メタショット先頭時刻を定義する。処理対象となっているグループが先頭グループの条件に合致すると(ステップS211)、メタショット生成部107は、当該グループを先頭ショットとするメタショットを生成する(ステップS212)。
以上ステップS211およびステップ212を繰り返す。映像全体についてメタショットの生成が完了すると(ステップS210,Yes)、メタショット生成処理が完了し、動画像処理が完了する。
なお、既出のように解析パラメータ受信ステップ(図示せず)が存在し、本処理前あるいは本処理中に解析パラメータ受信ステップによってインターネットなどから受信された番組ごとの最適パラメータ設定を用いてステップS203,S207,S211が検出、判定処理を行ってもよい。
以上のように、実施例1にかかる動画像処理装置10は、同一のグループに属するショットの出現パターンに基づいて先頭ショットを特定するので、必要以上に細かいメタショットを生成することを避けることができる。これにより、ユーザによる所定のシーンの検索等を容易にすることができる。
動画像処理装置10における動画像処理は、(1)ショット区間定義処理、(2)グループ化処理、(3)メタショット生成処理の3つの処理(図2の破線で囲まれた部分)で構成されている。実施例においては、動画像に含まれる全てのショットに対して(1)ショット区間定義処理が完了した後に、(2)グループ化処理に移行した。同様に、動画像に含まれる全てのショットに対して(2)グループ化処理が完了した後に、(3)メタショット生成処理に移行した。これにかえて、他の例としては、動画像処理装置に一時記憶領域(図示せず)を設けることにより、映像の入力を行いながら上記3つの処理を並行して実行してもよい。
例えば、新しいカットが検出され、ショット区間が定義されるたびに、そのショット区間と過去のショット区間に対する類似ショットの判定を行い、そこまでの類似ショット判定結果に基づいて当座のメタショット生成を行ってもよい。このように、並列に処理を実行することによりニュース番組の終了後、きわめて短い時間で処理結果を得ることができる。
図7は、動画像処理装置10のハードウェア構成を示す図である。動画像処理装置10は、ハードウェア構成として、動画像処理装置10における動画像処理を実行するプログラムなどが格納されているROM52、ROM52内のプログラムに従って動画像処理装置10の各部を制御し、動画像処理等を実行するCPU51、ワークエリアが形成され、動画像処理装置10の制御に必要な種々のデータが記憶されているRAM53、ネットワークに接続して、通信を行う通信I/F57、および各部を接続するバス62を備えている。
先に述べた動画像処理装置10における動画像処理を実行する動画像処理プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フロッピー(R)ディスク(FD)、DVD等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
また、本実施例の動画像処理プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。
この場合には、動画像処理プログラムは、動画像処理装置10において上記記録媒体から読み出して実行することにより主記憶装置上にロードされ、上記ソフトウェア構成で説明した各部が主記憶装置上に生成されるようになっている。
次に、実施例2にかかる動画像処理装置10について説明する。実施例2に係る動画像処理装置10は、例えば、図4に示すニュース番組におけるニュース項目1におけるAショット714,716のように、メタショットの先頭ショットとならないショットを、対話度数という指標に基づいて特定する。ここで、対話度数とは、先頭ショットとすべきか否か問題となっているショットを含む所定の時間範囲内における当該ショットの出現頻度を示す値である。なお、対話度数については後に詳述する。
図8は、実施例2にかかる動画像処理装置10の機能構成を示すブロック図である。実施例2にかかる動画像処理装置10は、実施例1にかかる動画像処理装置10の機能構成に加えて、対話度数算出部124をさらに備えている。対話度数算出部124は、ショット区間定義部103、類似ショット検出部104、グループ化部110から取得した情報に基づいて、対話度数を算出する。また、メタショット先頭時刻判定部106は、対話度数算出部124が算出した対話度数に基づいてメタショットの先頭とすべきショットを特定する。
なお、実施例にかかる対話度数算出部124は、本発明にかかる対話度数算出手段、基準範囲特定手段、ショット時間長算出手段、第1のショット個数算出手段、第2のショット個数算出手段を構成する。
図9は、に示したショット711からショット720、すなわちアンカーパーソンと特派員の対話シーンを示している。図9を参照しつつ、対話度数算出部124が、Aショット714が先頭メタショットか否かを検討する際に利用される対話度数を算出する処理について説明する。
まず、対象となるAショット714の中央の時刻から前後に規定時間(たとえば1分、30秒など)だけ離れた時刻までの範囲を基準範囲とし、基準範囲に存在するショットを抜き出す。図9に示す動画像においては、ショット711からショット717を抜き出す。本実施例においては、ショット711およびショット717のように、基準範囲にショットの一部が含まれているようなショットも抜き出す。さらにショット711からショット717までの間から、いずれかのグループに属するショットを抜き出す。
そして、ショット711からショット717までの合計時間に対する、グループに属するショットの合計時間の割合を算出する。このグループに属するショットの合計時間の割合が対話度数である。
図9に示す動画像においては、いずれかのグループに属するショットは、ショット712〜716である。従って、ショット712からショット716までの合計時間をショット711〜ショット717までの合計時間で除算した結果がショット714に対する対話度数であり、図9に示す動画像においては、対話度数は、0.88となる。
図9に示したアンカーパーソンと特派員の対話シーンのように、ニュース項目中に配置されたショットAに対しては、高い対話度数が算出される。従って、対話度数が一定値以上となるショットは、先頭ショットとして選択しないことにより、先頭ショット以外のショットを除外することができる。すなわち、メタショット先頭時刻判定部106は、対話
度数算出部124から対話度数を取得し、取得した対話度数が一定値よりも小さい場合に、当該ショットを先頭ショットとして特定する。
なお、対話度数の算出処理は上記実施例に限定されない。本実施例においては、対象とするショットの中央の時刻から前後に規定時間離れた位置までの範囲を基準範囲として、グループに属するショットの割合を算出したが、規定時間の基準はショットの中央の時刻でなくてもよい。例えば、時間的に前の位置(番組の先頭側)は対象とするショットの開始時刻から規定時間離れた位置までとしてもよい。また時間的に後の位置(番組の終了側)は対象とするショットの終了時刻から規定時間離れた位置までとしてもよい。
また、実施例においては、基準範囲にショットの一部が含まれている場合には、当該ショットを抜き出したが、これにかえて、基準範囲にショットの全体が完全に含まれているようなショットのみを抜き出してもよい。また他の例としては、基準範囲にショットの一部が含まれている場合には、基準範囲に含まれている部分の再生時間長のみを対話度数算出の対象としてもよい。
また、実施例においては、「いずれかのグループに属するショットの割合」を算出したが、これにかえて、「基準範囲内にすべてのショットが存在するようなグループに属するショットの割合」を算出してもよい。すなわち、グループに属するショットであっても、当該グループに属するショットが、対象となる基準範囲外にも配置されている場合には、当該グループに属するショットは、割合を算出する対象としない。
また実施例においては、再生時間長の割合を算出したが、これにかえて、ショットの個数の割合を算出してもよい。具体的には、基準範囲に含まれる全てのショットの個数を計測する。また基準範囲に含まれかついずれかのグループに属するショットの個数を計測する。そして、全てのショットの個数に対するグループに属するショットの個数比率を算出する。この比率が対話度数である。図9の例ではいずれかのグループに属するショット数は5であり、基準範囲に含まれるショット数は7である。従って、この場合の対話度数は、5/7である。
別の対話度数算出方法としては、基準範囲に含まれかついずれかのグループに属するショットの個数を、基準時間の長さで除算するものも考えられる。この数値は単位時間あたりの対話関与ショット数を表す。図9の例では、5(個)/50(秒)=0.1(個/秒)となる。
さらに別の対話度数算出方法としては、再生時間長の割合と、上記の単位時間あたりの対話関与ショット数の積を用いることもできる。図9の場合、0.88×0.1=0.088となる。この場合の対話度数は、基準範囲内で対話に参加しているショットの数が多いほど大きく、基準範囲内で対話に参加しているショットが占める時間が長いほど大きくなる。言い換えると、基準範囲内でより速いスピードで類似ショットがより多く繰り返し登場するほど大きな数値となり、対話の活発さを示す指標となることが期待できる。
また、実施例においては、あるショットを対象として、当該ショットを中心とした基準範囲を特定したが、これにかえて、ある時刻を対象として、当該時刻を中心とした基準範囲を特定してもよい。
図10は、図9を参照しつつ説明した算出方法によって算出された対話度数を示している。図10に示すグラフの横軸は時間を示す。また縦軸は対話度数を示す。なお、図10に示すグラフは、実際のニュース番組に対して計算したものである。1001は、あるニュース項目について出演者がスタジオで短く討論する部分に相当する。1002はゲスト
がスタジオで出演し、ニュースキャスターがインタビューしつつ討論している部分に相当する。1003はスポーツコーナーに相当する。1003においては、スポーツニュースのキャスターが繰り返し登場する。さらに、野球を報じる部分ではピッチャーのショット、バッターのショットなどが類似ショットとして繰り返し登場する。これは、異なるバッター、異なるピッチャーであってもカメラアングルが同一であるために類似ショットと判定されるためである。
1002に相当するシーンではインタビュアーとしてのニュースキャスターが短い時間内に繰り返し登場するため、これらのショットが全て先頭ショットと特定されることが懸念される。そこで、メタショット先頭時刻判定部106は、例えば対話度数が規定値以上となる区間においては、当該区間に含まれるメタショット先頭グループのショットのうち最初の1つのショットのみを先頭ショットとして特定してもよい。これにより、対談シーンから大量にメタショット先頭ショットが発生することを抑制することができる。なお、図10のグラフにおいては、例えば対話度数0.2を規定値としてもよい。
対話度数の計算をショット単位ではなく時刻単位で行った場合、対話度数が規定範囲に到達、あるいは規定範囲から離脱する時刻と、ショット境界とが一致しない場合がある。この場合、メタショットの境界とショットの境界とを一致させなくてもよい。
例えば、先頭ショットが検出された場合に、対話度数が規定値以上にとなる時刻のうち、当該先頭ショットから最も近い時刻を開始時刻として決定してもよい。または、対話度数が規定値以下となる時刻のうち、当該先頭ショットから最も近い時刻を開始時刻として決定してもよい。
図11を参照しつつ、メタショットの境界時刻の決定方法をより具体的に説明する。図11は、先頭ショットと、当該先頭ショットに対する対話度数を模式的に示している。
1301は、ショット単位で求められたメタショット先頭ショットである。1302は、対話度数を示している。1303は、対話度数がこの数字以上である区間は対話区間であると判定する規定値である。
図11に示す先頭ショットにおいては、ショット単位でメタショットを定義する場合のメタショット先頭時刻は1304になる。これに対して、時刻単位でメタショットを定義する場合にはメタショット先頭時刻は1305になる。このように、時刻単位で対話度数を計算した場合には、メタショットのショットの境界と異なる位置をメタショット先頭時刻としてもよい。
別の方法でメタショットを定義する方法について例示する。図25には、動画像中の61番目のショットから74番目のショットまでに関し、それぞれのショットの継続時間、および類似ショットによってグループ化されたグループ名が示されている。「対話度数」の部分には、既出のように基準範囲に対する再生時間長の割合と、単位時間あたりの対話関与ショット数の積が示されている。ここでいう「基準範囲」とは、ショット番号61の列にはショット61からショット61までの区間を、ショット番号62の列にはショット61から62までの区間を、ショット番号74の列にはショット61から74までの区間を基準範囲とした場合の対話度数を示した。ここでは便宜的に数値の単位は分の逆数であり、数値を60で除算したものが秒の逆数単位となる。
例えば、ショット61から64までの区間だけをみると、この区間で繰り返し登場しているのはグループBに属するショット62とショット64のみで、これらの合計時間は9秒である。ショット61から64までの合計時間は27秒であるから、対話度数は(9(
秒)÷27(秒))×(2(個)÷27(秒)×60(秒/分))=1.5となる。
このように基準範囲を伸長していくと、ショット61を開始ショットとした場合、ショット69までの区間で対話度数が最大となる。対話区間と見なすことができる対話度数の最低値を予め例えば2と決めておけば、ショット61から69までの対話度数8.1はこれを上回る。したがってメタショット先頭時刻判定部106はショット61からショット69までを対話区間と設定する。
このように設定された対話区間をそのままメタショットとし、メタショット先頭時刻判定部106はメタショットの先頭ショットの開始時刻をメタショット先頭時刻としてもよい。また、この対話区間で先頭または終端にあるショットをメタショットの先頭としてもよい。さらに、いずれかの類似ショットグループに属すショットであって、対話区間中で最初または最後に登場するものをメタショットの先頭としてもよい。また、メタショット先頭グループ判定部105がメタショット先頭グループと判定したグループに属すショットであって、対話区間中で最初または最後に登場するものをメタショットの先頭としてもよい。
図12は、実施例2にかかる動画像処理装置10の動画像処理を示すフローチャートである。実施例2にかかる動画像処理装置10においては、グループ化処理が完了すると、次に、対話度数算出部124が、先頭グループに含まれるショットのうち処理対象となるショットの対話度数を算出する(ステップS220)。そして、ステップS210へ進む。また、先頭ショットを特定する処理(ステップS211,ステップS212)においては、メタショット先頭時刻判定部106は、対話度数算出部124が算出した対話度数に基づいて先頭ショットを特定し、特定した先頭ショットの開始時刻をメタショット先頭時刻と定義する。
なお、実施例2にかかる動画像処理装置10のこれ以外の構成および処理は、実施例1にかかる動画像処理装置10の構成および処理と同様である。
なお、類似ショットが繰り返し出現することを条件として先頭ショットを特定すると、図5に示したようなニュース項目を箇条書きにした画面756が先頭ショットとして特定される場合がある。画面756のような画面は、アンカーパーソン同様、ニュース番組においてニュース項目の切り替わりである場合が多いので、このような画面を先頭ショットとしても問題ない。このため、先頭ショットとして特定されるショットは、アンカーパーソンのショットに限定されない。
また、既出の対話区間定義を用いてバラエティ番組などをコーナーごとに分割することもできる。以下ではこの方法の一例を説明する。図26は雑学知識を紹介する番組の類似ショット登場パターンを模式的に示したものである。この番組ではスタジオでの出演者のトークと、雑学紹介ビデオが交互に登場し、雑学紹介ビデオの前にはその雑学知識を番組に投稿した人の氏名が紹介される。
スタジオトーク場面では出演者の映像が交互に登場する。しかし雑学紹介ビデオ部分には類似ショットがほとんど登場しなかったり、雑学紹介ビデオ部分のみで完結する類似ショット登場となる傾向にある。したがって既出の方法で対話区間を定義すると、それぞれの雑学知識に反応するスタジオトーク部分と、雑学紹介ビデオの一部区間が対話区間となる。
このため、対話区間に一度も含まれなかった(あるいはきわめて少ない回数しか含まれなかった)類似ショットグループを選択することにより、図26の「M」のようにコーナ
ーごとに特徴的なショットを選び出すことができる。類似ショットMは雑学知識を投稿した人の氏名が紹介されるショットであり、司会者が「それでは次の雑学です」と紹介する類似ショットAに続くショットである。
類似ショットMは対話区間2501に含まれないため、仮に対話区間2501をこれに続く類似ショットMまで1ショット分拡張すると対話度数が低下する。このため、対話区間2501は図26に示したように定義されている。これにより、類似ショットMはどの対話区間にも属さなかった。
上記のように対話区間に属さなかった類似ショットグループに属するショットをメタショット先頭ショットすることにより、バラエティ番組においてもコーナーごとに分割することができる。また、対話区間に属さなかった類似ショットグループが複数ある場合には、その時間分布や平均長などを利用してさらに絞り込んでもよい。
このような手法によるバラエティ番組のコーナー分割は、ある種のクイズ番組でも用いることができる。たとえば問題ビデオを見てからスタジオ回答者が討論し、正解ビデオを流すような番組であって、問題ビデオの前に「問題」、正解ビデオの前に「正解」といった、決まったパターンが全画面で表示されるような場合、「問題」「正解」といったショットも対話区間に属さない可能性が高い。
以上のように、実施例2にかかる動画像処理装置10においては、対話度数に基づいて先頭ショットを特定するので、より適切なメタショットを生成することができる。
次に、実施例3にかかる動画像処理装置10について説明する。実施例3に係る動画像処理装置10は、取得した動画像の番組種別を判定する。ここで、番組種別とは、ニュース番組、ドラマ、スポーツ番組などの種類のことである。
図13は、実施例3に係る動画像処理装置10の機能構成を示すブロック図である。実施例3に係る動画像処理装置10は、実施例1に係る動画像処理装置10におけるメタショット先頭グループ判定部105およびメタショット先頭時刻判定部106にかえて、番組種別判定部130を備えている。番組種別判定部130は、類似ショットがグループ化されると、類似ショットの時間的分布に基づいて入力された番組の種別を判定する。そして、番組種別判定部130によって判定された番組種を示す番組種別情報は、動画像出力部108から外部機器に向けて出力される。
番組種別を取得した外部機器は、番組種別情報に基づいて、番組種別に応じた処理を行うことができる。外部機器がハードディスクレコーダーのような録画装置である場合には、録画のビットレートを変化させたり、録画済番組一覧を表示する際に判定された番組種を表示したりすることに用いてもよい。また、カット検出や類似ショット検出のための判定パラメータの自動設定の用途に供してもよい。
なお、実施例にかかる番組種別判定部130は、本発明にかかるショット個数比較手段、最短時間長比較手段、最長時間長比較手段、時間長平均値算出手段、平均値判定手段、基準平均時間グループ数計測手段、ショット間時間長測定手段、ショット間時間長判定手段、グループ計測手段、グループ存在範囲特定手段、およびメタショット特定手段を構成する。
図14は、実施例3にかかる統計値保持部122が保持する統計情報を模式的に示している。なお、図14に示す統計情報は後述する架空のドラマ番組に対して統計処理部12
0が生成した統計情報である。
図15は、ドラマ番組を模式的に示している。図4に模式的に示したニュース番組と同様に、横軸は時間軸である。また、ドラマ番組は上段から下段に順に再生される。図15を参照しつつ番組種別判定部130が番組種別を判定するアルゴリズムについて詳述する。
番組種別判定部130は、例えば「メタショットの先頭ショットとなるグループ」が存在するか否かに基づいてニュース番組であるか否かを判定する。すなわち、先頭ショットとなるグループが1つ以上存在する場合には、ニュース番組であると判定する。また、先頭ショットとなるグループが存在しない場合には、ニュース番組以外の番組であると判定する。
なお、「メタショットの先頭ショットとなるグループ」が存在するか否かを判断する処理は、実施例1において説明したメタショット先頭グループ判定部105がメタショット先頭グループを選択する処理と同様である。
より具体的には、ニュース番組中のアンカーパーソンのショットを選別する処理を行う。すなわち類似ショットグループに属するショットの登場回数、最短ショットの時間長、最長ショットの時間長、ショットの時間長の平均、ショットの分布時間が一定範囲内にあるもの等の条件に基づいてメタショット先頭ショットと判定する。
ここで、図16を参照しつつ、図15におけるショット601からショット602を1つのメタショットとして定義する処理について説明する。なお、この手順は既出の文献(青木ら「繰返しショットの統合による階層化アイコンを用いたビデオ・インタフェース」(情報処理学会論文誌 Vol.39, No.5 pp.1317-1324, 1998年))にも記載されている。
図16において、類似ショットのAグループに属するショットは、時間範囲1101に登場する。同様にBグループおよびCグループは、時間範囲1102および時間範囲1103に登場する。これらの時間範囲を時間軸上の集合と見なし、その和集合を求めると時間範囲1104が求まる。以上の処理により、時間範囲1104(すなわち、図16の601から602まで)をメタショットと定義することができる。
以上の処理によりメタショットを定義した後、当該メタショットの出現パターンに基づいて番組種別を判定する。
具体的には、同一のグループに属するショットの再生時間長が最短である最短ショットの再生時間長が10秒以上である、すなわち最短ショットの再生時間長が所定の値以上であるようなグループを選択し、選択したグループの数が番組全体に含まれる全グループ数の50%以上となる場合に、当該番組をドラマと判定する。
すなわち、最短ショットの再生時間長が所定の値以上であるようなグループを選択し、選択したグループの数の番組全体に含まれる全グループ数に対する比率が所定の値以上の場合に、当該番組をドラマと判定する。
上記判定条件の他の例としては、最短ショットの最短時間長が所定の値以上であることにかえて、最短ショットの時間長が番組全体の時間長における所定の比率以上であることを条件としてもよい。
また、選択したグループの数の番組全体に含まれる全グループ数に対する比率が所定の
値以上であることにかえて、選択したグループに属するショットの合計の時間長の番組全体の時間長に対する比率が所定の値以上であることを条件としてもよい。また、選択したグループの数の番組全体に含まれる全グループ数に対する比率が所定の値以上であることにかえて、選択したグループに属するショットの登場回数の番組全体のショット数における比率が所定の値以上であることを条件としてもよい。なおこの場合のメタショットとは、図16を参照しつつ説明したメタショットである。
また、番組全体においてメタショットが登場する回数、番組全体において出現するメタショットの再生時間の合計値、再生時間長が最短であるメタショットの再生時間長、再生時間長が最長であるメタショットの再生時間長、および動画像に含まれるメタショットの平均再生時間長などに基づいて番組種別を判定する。このようにメタショットの出現パターンに基づいて番組種別を判定することができる。
または、同一のグループに属するショットの再生時間長の平均値を算出し、当該平均値が予め定められた基準平均時間長範囲内の値となるグループの数をカウントし、カウントしたグループの数に基づいて番組種別を判定してもよい。このようにメタショットに含まれるショットの番組全体における出現パターンに基づいて番組種別を判定してもよい。
また他の例としては、同一のグループに属するショットのうち番組において最初に配置されているショットと最後に配置されているショットとの間にショット間再生時間長を測定し、ショット間再生時間長が予め定められている基準ショット間再生時間長範囲内の値となるグループの数をカウントし、カウントしたグループの数に基づいて番組種別を判定してもよい。この場合も例えばニュース番組か否かを判定することができる。
なおこれらの条件のうち1の条件に基づいて番組種別を判定してもよく、またはこれらの条件のうちから選択いた複数の条件の組み合わせに基づいて番組種別を判定してもよい。
また、動画像が動画像取得部101に入力されるのに先立ち、または入力された際に解析パラメータ受信部190が上記のカット検出部102、類似ショット検出部104、番組種判定部130の各処理に必要な条件(パラメータ)を受信し、これら検出部、判定部に供給してもよい。解析パラメータ190がパラメータを受信する先としては、実施例1で既出のようにインターネットや記録メディアなどが想定される。
図17は、実施例3にかかる動画像処理装置10における動画像処理を示すフローチャートである。実施例3にかかる動画像処理装置10の動画像処理においては、(1)ショット区間定義処理、(2)グループ化処理に続いて、番組種別判定処理が行われる(ステップS230)。番組種別判定処理においては、番組種別判定部130が上述の処理により動画像の番組種別を判定する。
なお、既出のように解析パラメータ受信ステップ(図示せず)が存在し、本処理前あるいは本処理中に解析パラメータ受信ステップによってインターネットなどから受信された番組ごとの最適パラメータ設定を用いてステップS203,S207,S230が検出、判定処理を行ってもよい。
なお、実施例3にかかる動画像処理装置10のこれ以外の構成および処理は、実施例1にかかる動画像処理装置10の構成および処理と同様である。
以上のように実施例3にかかる動画像処理装置10は、類似ショットの出現パターンに基づいて番組種別を判定することができるので、映像の視聴、検索および編集等の効率を
向上させることができる。また、当該番組の動画像を処理する場合には、判定された番組種別に応じた処理を行うことができる。
次に実施例4にかかる動画像処理装置10について説明する。実施例4にかかる動画像処理装置10は、対話度数を用いてメタショットを定義する。図18は、実施例4にかかる動画像処理装置10の機能構成を示すブロック図である。実施例4にかかる動画像処理装置10は、実施例3にかかる動画像処理装置10の機能構成に加えて、さらに対話度数算出部124を備えている。番組種別判定部130は、対話度数算出部124が算出した対話度数に基づいて番組種別を判定する。
図19は、図10と同様に、実際のクイズ番組に対して算出した対話度数を示すグラフである。なお、説明のために若干の修正を加えてある。横軸の黒帯1201〜1208の部分はスタジオにおいて司会者や回答者が対話している場面である。
この番組では、黒帯1201の前にオープニングおよび第一問の出題ビデオが流れる。続いて、スタジオにおける出演者の回答シーン、正解ビデオが流れるシーン、スタジオでコメントがなされるシーン、次の問題の出題ビデオが流れるシーンの順に続く構成である。
図19のグラフからスタジオシーンでは対話度数が高く、オープニングや出題ビデオ、正解ビデオでは低くなっていることがわかった。これは、オープニングや出題ビデオ、正解ビデオの区間では、類似ショットが登場しない傾向にあるためである。したがって、しきい値1210を設定し、対話度数が閾値以上である区間をスタジオシーンのメタショットであると判別することができる。
さらに、このように、対話度数が閾値以上となる区間が予め定められた個数存在することを条件として、「ドラマ・映画」であると推定してもよい。
また他の例としては、対話度数が閾値以上となるメタショットの時間長の合計を算出し、算出した値が予め定められた規定範囲内の値である場合に「ドラマ・映画」であると推定してもよい。
また他の例としては、メタショット中で最長のものの時間長が規定範囲内であるという条件、メタショットの時間長の平均が規定範囲内であるという条件、を用いてもよい。
また、相撲や野球、テニスなどのスポーツ中継番組においては、複数の固定カメラから撮影された映像を組み合わせて放送する傾向にある。従って、類似ショットが番組全体にわたって登場する。
そこで、例えば、実施例3において説明したニュース番組であると推定するための条件に合致せず、かつ番組の半分以上の時間的範囲において類似ショットが出現する場合には、当該番組はスポーツ番組であると推定してもよい。
番組種別の判定方法は上記の方法に限定されない。既出の対話度数を番組全体に対して求めることにより番組種別を判定する方法の一例を以下で説明する。
図27はニュース9番組とバラエティ12番組に対して、番組全体の対話度数を求めたものである。白四角(□)がバラエティ番組を、黒四角(■)がニュース番組をあらわしている。横軸は対話度数を表す。縦軸は実施例2のバラエティ番組をコーナー分割する手
法を(ニュースを含む)すべての番組に対して適用した際に、最初のコーナータイトルが現れる時刻を番組全体の長さで割った割合である。なお、対話度数は見やすさのために対数目盛にしてある。
図27でわかるように、ニュース番組とバラエティ番組には番組全体の対話度数において明確な傾向がある。したがって、適切な対話度数を閾値としてニュース番組(領域A)とバラエティ番組(領域BおよびC)を弁別することが可能である。
また、バラエティ番組において領域Cにある3番組は、コーナータイトル画面がコーナーごとに繰り返し現れるものであるが、縦軸の尺度において下方に現れる傾向が観測できる。したがって、コーナータイトルが現れる時刻について適切な閾値を設定することによって、バラエティ番組でもコーナーごとに分割することが適当であるものと、そうでないものを弁別することができる。
このように類似ショットの時間的分布に基づいて番組の種別を判定すればよく、その具体的条件は実施例に限定されるものではない。
図20は、実施例4にかかる動画像処理装置10における動画像処理を示すフローチャートである。実施例4にかかる動画像処理においては、実施例3において説明した対話度数算出処理(ステップS220)の直前に対話度数算出処理(ステップS220)を行う。対話度数算出処理における対話度数算出部124の処理については上述の通りである。
なお、実施例4にかかる動画像処理装置10のこれ以外の構成および処理は、実施例3にかかる動画像処理装置10の構成および処理と同様である。
次に、実施例5にかかる動画像処理装置10について説明する。実施例5にかかる動画像処理装置10は、動画像を複数の小区間に分割し、各小区間毎に、番組種別を判定する。ここで、小区間とは、単純に動画像開始から3分ごと、30秒ごとといった一定時間長で区切られた区間のことである。また他の例としては、連続する3ショット、10ショットといった一定ショット数で区切られた区間でもよい。
図21は、実施例5にかかる動画像処理装置10の機能構成を示すブロック図である。実施例5にかかる動画像処理装置10は、実施例3にかかる動画像処理装置10の機能構成に加えて、小区間定義部240をさらに備えている。小区間定義部240は、動画像を複数の小区間に分割する。なお、実施の形態にかかる小区間定義部240は、本発明にかかる分割手段を構成する。
また、動画像が動画像取得部101に入力されるのに先立ち、または入力された際に解析パラメータ受信部190が上記のカット検出部102、類似ショット検出部104、番組種判定部130の各処理に必要な条件(パラメータ)を受信し、これら検出部、判定部に供給してもよい。
解析パラメータ190がパラメータを受信する先としては、実施例1で既出のようにインターネットや記録メディアなどが想定される。
図22は、実施例5にかかる動画像処理装置10における動画像処理を示すフローチャートである。実施例5にかかる動画像処理においては、実施例3において説明したショット区間定義処理(ステップS204)に続いて、小区間定義処理(ステップS240)を行う。小区間定義処理における小区間定義部240の処理については上述の通りである。
なお、既出のように解析パラメータ受信ステップ(図示せず)が存在し、本処理前あるいは本処理中に解析パラメータ受信ステップによってインターネットなどから受信された番組ごとの最適パラメータ設定を用いてステップS203,S207,S230が検出、判定処理を行ってもよい。
上記のようにして小区間ごとに番組種が検出されると、たとえば「14分00秒〜15分00秒:インタビュー」あるいは「7分11秒〜9分49秒:歌唱」というように、一つの番組でありながら、複数の構成要素(トーク、インタビュー、歌唱、ニュースアナウンスなど)が複合している番組においても、各コーナーに対して自動的に種別属性を付与することができる。
これにより、番組自体が複数のコーナーを持っている場合には、それぞれがどういった種別(ニュース、インタビュー、トークなど)であるという属性を自動で付与することができるので、ユーザはそれを手がかりに自分が視聴したい場面を容易に検索することができる。
なお、実施例5にかかる動画像処理装置10のこれ以外の構成および処理は、実施例3にかかる動画像処理装置10の構成および処理と同様である。
次に、実施例6にかかる動画像処理装置10について説明する。実施例6にかかる動画像処理装置10は、対話度数に基づいて各小区間に対する番組種別を判定する。図23は、実施例6にかかる動画像処理装置10の機能構成を示すブロック図である。また、図24は、実施例6にかかる動画像処理装置10における動画像処理を示すフローチャートである。実施例5にかかる動画像処理においては、実施例5における番組種別判定処理(ステップS230)の直前に、対話度数算出処理(ステップS220)が行われる。対話度数算出処理における対話度数算出部124の処理については上述の通りである。
なお、実施例6にかかる動画像処理装置10のこれ以外の構成および処理は、実施例5にかかる動画像処理装置10の構成および処理と同様である。
以上、本発明を実施の形態を用いて説明したが、上記実施の形態に多様な変更または改良を加えることができる。
以上のように、本発明にかかる動画像処理装置、動画像処理方法および動画像処理プログラムは、メタショットを生成するのに有用であり、特に、適切な長さのメタショットを生成するのに適している。
実施例1にかかる動画像処理装置10の機能構成を示すブロック図である。 統計値保持部122が保持する統計情報を模式的に示す図である。 動画像を模式的に示す図である。 ニュース番組を模式的に示す図である。 各グループに属するショットの内容を示す図である。 動画像処理装置10における動画像処理を示すフローチャートである。 動画像処理装置10のハードウェア構成を示す図である。 実施例2にかかる動画像処理装置10の機能構成を示すブロック図である。 アンカーパーソンと特派員の対話シーンを模式的に示す図である。 図9を参照しつつ説明した算出方法によって算出された対話度数のグラフを示す図である。 先頭ショットと、当該先頭ショットに対する対話度数を模式的に示す図である。 実施例2にかかる動画像処理装置10の動画像処理を示すフローチャートである。 実施例3に係る動画像処理装置10の機能構成を示すブロック図である。 実施例3にかかる統計値保持部122が保持する統計情報を模式的に示す図である。 ドラマ番組を模式的に示す図である。 メタショットを定義する処理を説明するための図である。 実施例3にかかる動画像処理装置10における動画像処理を示すフローチャートである。 実施例4にかかる動画像処理装置10の機能構成を示すブロック図である。 実際のクイズ番組に対して算出した対話度数のグラフを示す図である。 実施例4にかかる動画像処理装置10における動画像処理を示すフローチャートである。 実施例5にかかる動画像処理装置10の機能構成を示すブロック図である。 実施例5にかかる動画像処理装置10における動画像処理を示すフローチャートである。 実施例6にかかる動画像処理装置10の機能構成を示すブロック図である。 実施例6にかかる動画像処理装置10における動画像処理を示すフローチャートである。 対話度数を用いた対話区間設定を模式的に示す図である バラエティ番組の類似ショット登場パターンを模式的に示す図である 対話度数とコーナータイトル登場時刻を用いた番組種別判定を模式的に示す図である
符号の説明
10 動画像処理装置
101 動画像取得部
102 カット検出部
103 ショット区間定義部
104 類似ショット検出部
105 メタショット先頭グループ判定部
106 メタショット先頭時刻判定部
107 メタショット生成部
108 動画像出力部
110 グループ化部
120 統計処理部
122 統計値保持部
124 対話度数算出部
130 番組種別判定部
190 解析パラメータ受信部
240 小区間定義部

Claims (22)

  1. 動画像の内容が切り替る画像変化点で分割された部分動画像を複数含むメタショットを生成する動画像処理装置であって、
    前記部分動画像同士の類似度を計測する類似度計測手段と、
    前記類似度計測手段が計測した前記類似度に基づいて、類似する部分動画像を特定する類似ショット特定手段と、
    前記類似ショット特定手段が特定した、前記類似する部分動画像に対して同一のグループ属性を付与するグループ化手段と、
    前記グループ化手段によって生成されたグループから、予め定められた条件に従って、前記メタショットの先頭とすべき先頭部分動画像の属する先頭グループを選択する先頭グループ選択手段と、
    前記先頭グループ選択手段が選択した前記先頭グループに属する部分動画像が前記動画像中で出現する出現パターンに基づいて、前記先頭グループに含まれる部分動画像から前記先頭部分動画像を選択する先頭ショット選択手段と、
    前記先頭ショット選択手段が選択した前記先頭部分動画像を先頭に有する前記メタショットを生成するメタショット生成手段と
    を備えたことを特徴とする動画像処理装置。
  2. 前記メタショット生成手段は、前記先頭部分動画像の開始位置を境界とするメタショットを生成することを特徴とする請求項1に記載の動画像処理装置。
  3. 同一のグループに属する部分動画像の個数と、予め定められた基準個数とを比較するショット個数比較手段をさらに備え、
    前記先頭グループ選択手段は、前記ショット個数比較手段によって同一のグループに属する部分動画像の個数が前記基準個数に比べて多いと判断された場合に、当該グループを前記先頭グループとして選択することを特徴とする請求項1または2に記載の動画像処理装置。
  4. 同一のグループに属する部分動画像のうち再生時間長が最短である部分動画像の再生時間長と、予め定められた基準最短時間長とを比較する最短時間長比較手段をさらに備え、
    前記先頭グループ選択手段は、前記最短時間長比較手段によって前記最短である部分動画像の再生時間長が前記基準最短時間長に比べて長いと判断された場合に、当該グループを前記先頭グループとして選択することを特徴とする請求項1から3のいずれか一項に記載の動画像処理装置。
  5. 同一のグループに属する部分動画像のうち再生時間長が最長である部分動画像の再生時間長と、予め定められた基準最長時間長とを比較する最長時間長比較手段をさらに備え、
    前記先頭グループ選択手段は、前記最長時間長比較手段によって前記最長である部分動画像の再生時間長が前記基準最長時間長に比べて長いと判断された場合に、当該グループを前記先頭グループとして選択することを特徴とする請求項1から4のいずれか一項に記載の動画像処理装置。
  6. 同一のグループに属する部分動画像の再生時間長の平均値を算出する時間長平均値算出手段と、
    前記時間長平均値算出手段が算出した前記再生時間長の平均値と、予め定められた基準平均時間長とを比較する平均時間長比較手段と
    をさらに備え、
    前記先頭グループ選択手段は、前記平均時間長比較手段によって前記再生時間長の平均値が前記基準平均時間長に比べて長いと判断された場合に、当該グループを前記先頭グル
    ープとして選択することを特徴とする請求項1から5のいずれか一項に記載の動画像処理装置。
  7. 同一のグループに属する部分動画像のうち前記動画像において最初に配置されている部分動画像と、前記動画像において最後に配置されている部分動画像との間の再生時間長を測定するショット間時間長測定手段と、
    前記ショット間時間長測定手段によって測定された部分動画像間再生時間長と、予め定められた基準部分動画像間時間長とを比較するショット間時間長比較手段と
    をさらに備え、
    前記先頭グループ選択手段は、前記ショット間時間長比較手段によって前記部分動画像間再生時間長が前記基準部分動画像間時間長に比べて長いと判断された場合に、当該グループを前記先頭グループとして選択することを特徴とする請求項1から6のいずれか一項に記載の動画像処理装置。
  8. 第1のグループに属する全ての部分動画像が、前記第1のグループ以外のグループに属する2つの部分動画像の間に配置されているか否かを判断するショット位置判断手段をさらに備え、
    前記先頭グループ選択手段は、前記ショット位置判断手段によって前記第1のグループに属する全ての部分動画像が、前記第1のグループ以外のグループに属する2つの部分動画像の間に配置されていないと判断された場合に、前記第1のグループを先頭グループとして選択することを特徴とする請求項1から7のいずれか一項に記載の動画像処理装置。
  9. 同一のグループに属する複数の部分動画像の出現パターンに基づいて、前記グループに属する、対象部分動画像が対話の場面を示す部分動画像である確率を示す対話度数を算出する対話度数算出手段をさらに備え、
    前記先頭ショット選択手段は、前記対話度数算出手段によって算出された前記対話度数が予め定められた基準値よりも小さい場合に、前記対象部分動画像を先頭部分動画像として選択することを特徴とする請求項1から8のいずれか一項に記載の動画像処理装置。
  10. 同一のグループに属する複数の部分動画像の出現パターンに基づいて、前記グループに属する、対象部分動画像が対話の場面を示す部分動画像である確率を示す対話度数を算出する対話度数算出手段をさらに備え、
    前記先頭ショット選択手段は、前記対話度数算出手段によって算出された前記対話度数が予め定められた基準値よりも大きいような時間区間を対話区間と判定し、判定された対話区間から先頭部分動画像を選択、または選択対象から除外することを特徴とする請求項1から8のいずれか一項に記載の動画像処理装置。
  11. 前記先頭ショット選択手段は、第1のグループに属する部分動画像の一つと、第2のグループに属する部分動画像の一つとを選択し、これら2つの部分動画像のうち動画像中で先頭に近い側にあるもの開始時刻から、動画像中で末尾に近い側にあるものの終了時刻までの区間に対する上記対話度数を算出し、計算された対話度数が最大になるような第2のグループ、およびそのグループに属する部分動画像を選択し、
    選択された第1のグループに属する部分動画像の一つに対する対話度数の最大値が予め定められた対話度数より高いときに、対話度数の最大値をなした2つの部分動画像およびその間の時間区間を対話区間と判定し、判定された対話区間から先頭部分動画像を選択、または選択対象から除外することを特徴とする請求項1から8のいずれか一項に記載の動画像処理装置。
  12. 前記先頭ショット選択手段は対話区間を判定し、対話区間に属する部分動画像を先頭部分動画像として選択しないことを特徴とする請求項10または11に記載の動画像処理装
    置。
  13. 前記先頭ショット選択手段は対話区間を判定し、対話区間中で先頭、または末尾、または両方の部分動画像を先頭部分動画像として選択することを特徴とする請求項10または11に記載の動画像処理装置。
  14. 前記先頭ショット選択手段は対話区間を判定し、対話区間中にいずれかのグループに属する部分動画像が存在している場合には、いずれかのグループに属し、対話区間中で先頭に最も近いもの、またはいずれかのグループに属し、対話区間中で最も末尾に近いもの、または両方の部分動画像を先頭部分動画像として選択することを特徴とする請求項10または11に記載の動画像処理装置。
  15. 前記先頭ショット選択手段は対話区間を判定し、前記先頭グループ選択手段によって先頭グループとして選択されたいずれかのグループに属する部分動画像が対話区間中に存在している場合には、いずれかの先頭グループに属し、対話区間中で先頭に最も近いもの、またはいずれかの先頭グループに属し、対話区間中で最も末尾に近いもの、または両方の部分動画像を先頭部分動画像として選択することを特徴とする請求項10または11に記載の動画像処理装置。
  16. 前記先頭ショット選択手段は対話区間を判定し、前記グループ化手段によって設定されたグループのうち、そのグループに属するすべての部分動画像が、動画像中でいずれの対話区間にも属さないという条件を満たすグループの有無を判定し、当該グループが存在する場合には、当該グループに属する部分動画像を先頭部分動画像として選択することを特徴とする請求項10または11に記載の動画像処理装置。
  17. 所定のグループに属する対象部分動画像を含み、予め定められた時間長を有する基準範囲を特定する基準範囲特定手段と、
    いずれかのグループに属し、かつ前記基準範囲特定手段が特定した前記基準範囲内に配置された部分動画像の時間長の合計を算出するショット時間長算出手段とをさらに備え、
    前記対話度数算出手段は、前記基準範囲特定手段が特定した前記基準範囲の時間長に対する、前記ショット時間長算出手段が算出した合計の時間長の比率を、前記対話度数として算出することを特徴とする請求項9から16のいずれか一項に記載の動画像処理装置。
  18. 所定のグループに属する対象部分動画像を含み、予め定められた時間長を有する基準範囲を特定する基準範囲特定手段と、
    前記基準範囲特定手段が特定した前記基準範囲に含まれる部分動画像の個数を計測する第1のショット個数計測手段と、
    いずれかのグループに属し、かつ前記基準範囲特定手段が特定した前記基準範囲内に配置された部分動画像の個数を計測する第2のショット個数計測手段とをさらに備え、
    前記対話度数算出手段は、前記第1のショット個数計測手段が計測した部分動画像の個数に対する、前記第2のショット個数計測手段が計測した部分動画像の個数の比率を、前記対話度数として算出することを特徴とする請求項9から16のいずれか一項に記載の動画像処理装置。
  19. 前記動画像中で対話度数を算出するべき対象時間区間を特定する範囲特定手段と、
    いずれかのグループに属し、かつ前記範囲特定手段が特定した前記範囲内に配置された部分動画像の時間長の合計を算出するショット時間長算出手段とをさらに備え、
    前記対話度数算出手段は、前記範囲特定手段が特定した前記基準範囲の時間長に対する、前記ショット時間長算出手段が算出した合計の時間長の比率を、前記対話度数として算
    出することを特徴とする請求項9から16のいずれか一項に記載の動画像処理装置。
  20. 前記動画像中で対話度数を算出するべき対象時間区間を特定する範囲特定手段と、
    いずれかのグループに属し、かつ前記範囲特定手段が特定した前記範囲内に配置された部分動画像の個数を計測するショット個数計測手段とをさらに備え、
    前記対話度数算出手段は、前記範囲特定手段が特定した前記基準範囲の時間長に対する、前記ショット個数計測手段が計測した部分動画像の個数の比率を、前記対話度数として算出することを特徴とする請求項9から16のいずれか一項に記載の動画像処理装置。
  21. 前記動画像中で対話度数を算出するべき対象時間区間を特定する範囲特定手段と、
    いずれかのグループに属し、かつ前記範囲特定手段が特定した前記範囲内に配置された部分動画像の時間長の合計を算出するショット時間長算出手段と、
    いずれかのグループに属し、かつ前記範囲特定手段が特定した前記範囲内に配置された部分動画像の個数を計測するショット個数計測手段とをさらに備え、
    前記対話度数算出手段は、前記範囲特定手段が特定した前記基準範囲の時間長に対する、前記ショット時間長算出手段が算出した合計の時間長の比率と、前記範囲特定手段が特定した前記基準範囲の時間長に対する、前記ショット個数計測手段が計測した部分動画像個数の比率との積を前記対話度数として算出することを特徴とする請求項9から16のいずれか一項に記載の動画像処理装置。
  22. 動画像に対応する解析処理条件を受信する解析パラメータ受信手段をさらに備え、
    前記類似度計測手段、前記先頭グループ選択手段、前記先頭ショット選択手段の少なくとも1つは、上記解析パラメータ受信手段が受信した基準条件に基づいて部分動画像同士の類似度を計測、または先頭グループの選択、または先頭ショットの選択を行うことを特徴とする請求項1から21のいずれか一項に記載の動画像処理装置。
JP2003377282A 2003-09-30 2003-11-06 動画像処理装置、動画像処理方法および動画像処理プログラム Expired - Fee Related JP4047264B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003377282A JP4047264B2 (ja) 2003-09-30 2003-11-06 動画像処理装置、動画像処理方法および動画像処理プログラム
US10/935,245 US7778470B2 (en) 2003-09-30 2004-09-08 Moving picture processor, method, and computer program product to generate metashots

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003342210 2003-09-30
JP2003377282A JP4047264B2 (ja) 2003-09-30 2003-11-06 動画像処理装置、動画像処理方法および動画像処理プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2007282311A Division JP4491009B2 (ja) 2003-09-30 2007-10-30 動画像処理装置

Publications (2)

Publication Number Publication Date
JP2005130416A JP2005130416A (ja) 2005-05-19
JP4047264B2 true JP4047264B2 (ja) 2008-02-13

Family

ID=34525382

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003377282A Expired - Fee Related JP4047264B2 (ja) 2003-09-30 2003-11-06 動画像処理装置、動画像処理方法および動画像処理プログラム

Country Status (2)

Country Link
US (1) US7778470B2 (ja)
JP (1) JP4047264B2 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090103886A1 (en) * 2005-06-27 2009-04-23 Matsushita Electric Industrial Co., Ltd. Same scene detection method, device, and storage medium containing program
JP2007200249A (ja) * 2006-01-30 2007-08-09 Nippon Telegr & Teleph Corp <Ntt> 映像検索方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2007325027A (ja) * 2006-06-01 2007-12-13 Oki Electric Ind Co Ltd 画像分割方法、画像分割装置、および画像分割プログラム
US8233048B2 (en) 2006-09-19 2012-07-31 Mavs Lab. Inc. Method for indexing a sports video program carried by a video stream
US20080123955A1 (en) * 2006-11-29 2008-05-29 Chia-Hung Yeh Method for estimating boundary of video segment in video streams
JP5010292B2 (ja) 2007-01-18 2012-08-29 株式会社東芝 映像属性情報出力装置、映像要約装置、プログラムおよび映像属性情報出力方法
WO2008127319A2 (en) * 2007-01-31 2008-10-23 Thomson Licensing Method and apparatus for automatically categorizing potential shot and scene detection information
US7894954B2 (en) * 2007-06-04 2011-02-22 King Young Technology Co., Ltd. Power control system for car computer
JP5060224B2 (ja) 2007-09-12 2012-10-31 株式会社東芝 信号処理装置及びその方法
TWI355852B (en) * 2007-11-28 2012-01-01 Avermedia Tech Inc Video recording and playing system and method for
WO2009130773A1 (ja) * 2008-04-24 2009-10-29 パイオニア株式会社 再生装置及び方法、並びにコンピュータプログラム
KR101401974B1 (ko) * 2008-04-30 2014-06-02 삼성전자주식회사 녹화된 뉴스 프로그램들을 브라우징하는 방법 및 이를 위한장치
JP5056687B2 (ja) * 2008-09-12 2012-10-24 富士通株式会社 再生装置及びコンテンツ再生プログラム
JP4770960B2 (ja) * 2009-03-30 2011-09-14 カシオ計算機株式会社 画像検索システム及び画像検索方法
KR20110032610A (ko) * 2009-09-23 2011-03-30 삼성전자주식회사 장면 분할 장치 및 방법
JP5424930B2 (ja) * 2010-02-19 2014-02-26 キヤノン株式会社 画像編集装置およびその制御方法およびプログラム
JP4875193B1 (ja) 2010-07-28 2012-02-15 株式会社東芝 放送録画装置及び放送録画方法
JP5092000B2 (ja) * 2010-09-24 2012-12-05 株式会社東芝 映像処理装置、方法、及び映像処理システム
JP6492849B2 (ja) * 2015-03-24 2019-04-03 富士ゼロックス株式会社 ユーザプロファイル作成装置、動画像分析装置、動画像再生装置、及びユーザプロファイル作成プログラム
JP6571472B2 (ja) * 2015-09-28 2019-09-04 ザイオソフト株式会社 医用画像処理装置、医用画像撮像装置、医用画像処理方法、医用画像撮像方法、及び医用画像処理プログラム
US11138438B2 (en) * 2018-05-18 2021-10-05 Stats Llc Video processing for embedded information card localization and content extraction

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3329408B2 (ja) 1993-12-27 2002-09-30 日本電信電話株式会社 動画像処理方法および装置
US6023520A (en) * 1995-07-06 2000-02-08 Hitach, Ltd. Method and apparatus for detecting and displaying a representative image of a shot of short duration in a moving image
JPH0993588A (ja) 1995-09-28 1997-04-04 Toshiba Corp 動画像処理方法
JP3534368B2 (ja) 1996-04-03 2004-06-07 株式会社東芝 動画像処理方法及び動画像処理装置
JP4021545B2 (ja) 1998-03-12 2007-12-12 株式会社東芝 デジタル動画像処理装置およびデジタル動画像処理方法
JPH11266449A (ja) 1998-03-17 1999-09-28 Toshiba Corp 映像構造化装置及び映像化のためのプログラムを記録した記録媒体
WO2000048397A1 (fr) * 1999-02-15 2000-08-17 Sony Corporation Procede de traitement de signal et dispositif de traitement video/audio
US6807306B1 (en) * 1999-05-28 2004-10-19 Xerox Corporation Time-constrained keyframe selection method
JP3757719B2 (ja) 1999-11-19 2006-03-22 松下電器産業株式会社 音響データ分析方法及びその装置
US6754389B1 (en) * 1999-12-01 2004-06-22 Koninklijke Philips Electronics N.V. Program classification using object tracking
KR100464076B1 (ko) * 2001-12-29 2004-12-30 엘지전자 주식회사 동영상 비디오 브라우징 방법과 장치
US7164798B2 (en) * 2003-02-18 2007-01-16 Microsoft Corporation Learning-based automatic commercial content detection

Also Published As

Publication number Publication date
JP2005130416A (ja) 2005-05-19
US20050089224A1 (en) 2005-04-28
US7778470B2 (en) 2010-08-17

Similar Documents

Publication Publication Date Title
JP4047264B2 (ja) 動画像処理装置、動画像処理方法および動画像処理プログラム
JP5322550B2 (ja) 番組推奨装置
US8448068B2 (en) Information processing apparatus, information processing method, program, and storage medium
US20080044085A1 (en) Method and apparatus for playing back video, and computer program product
US8103149B2 (en) Playback system, apparatus, and method, information processing apparatus and method, and program therefor
JP2009135957A (ja) データ圧縮パラメータを利用したビデオコンテンツ分析方法およびシステム
US20150169963A1 (en) Video importance rating based on compressed domain video features
US20050264703A1 (en) Moving image processing apparatus and method
KR20060027826A (ko) 비디오 처리장치, 비디오 처리장치용 집적회로, 비디오처리방법, 및 비디오 처리 프로그램
KR20070007788A (ko) 콘텐츠 재생장치
US8793733B2 (en) Information processing apparatus, information processing method, and program for enabling computer to execute same method
JP2003101939A (ja) 映像情報要約装置、映像情報要約方法及び映像情報要約プログラム
JPWO2006016590A1 (ja) 情報信号処理方法、情報信号処理装置及びコンピュータプログラム記録媒体
KR20030026529A (ko) 키프레임 기반 비디오 요약 시스템
US20100259688A1 (en) method of determining a starting point of a semantic unit in an audiovisual signal
JPWO2006059436A1 (ja) 映像コンテンツ再生支援方法、映像コンテンツ再生支援システム、及び情報配信プログラム
EP1293914A2 (en) Apparatus, method and processing program for summarizing image information
US20080095515A1 (en) Contents Character Information Acquisition Method, Contents Character Information Acquisition Program, Contents Character Information Acquisition Apparatus, and Video Content Recording Apparatus
JP3728775B2 (ja) 動画像の特徴場面検出方法及び装置
JP4491009B2 (ja) 動画像処理装置
WO2010125757A1 (ja) 映像音声再生装置、映像音声記録再生装置、映像音声再生方法、および映像音声記録再生方法
JPH1139343A (ja) 映像検索装置
JP4698545B2 (ja) 情報処理装置及び方法及びプログラム並びに記憶媒体
JP5266981B2 (ja) 電子機器、情報処理方法及びプログラム
JP3906854B2 (ja) 動画像の特徴場面検出方法及び装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050210

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050415

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050606

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070831

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071030

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071121

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101130

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101130

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111130

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121130

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131130

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees