JP2010186358A

JP2010186358A - 映像分類方法、映像分類装置および映像分類プログラム

Info

Publication number: JP2010186358A
Application number: JP2009030659A
Authority: JP
Inventors: Kota Hidaka; 浩太日高; Akira Kojima; 明小島; Takeshi Irie; 豪入江
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-02-13
Filing date: 2009-02-13
Publication date: 2010-08-26
Anticipated expiration: 2029-02-13
Also published as: JP5144557B2

Abstract

【課題】本発明は、映像を視聴することなく、その映像がどのようなタイプの映像であるのかを分類できるようにする新たな映像分類技術の提供を目的とする。
【解決手段】映像の「どの位置」が「どの程度盛り上がっているのか」に着眼点を置き、分類対象の映像の視聴を要求することなく、分類対象の映像の示す傾向を映像の盛り上がりの観点で分類することで、どのようなタイプの映像であるのかを分類する。具体的には、まず最初に、要約映像の作成に用いられる映像部分抽出の判定基準に従って、入力した映像の中に含まれる盛り上がり部分を抽出する。続いて、抽出した映像の盛り上がり部分が映像本編のどの位置にあるのかを検出することで、入力した映像の示す映像特徴パターンを特定する。続いて、特定した映像特徴パターンが予め設定した代表映像特徴パターンのどれに該当するのかを判断することで、入力した映像の属するクラスを判定する。
【選択図】図１

Description

本発明は、映像を分類する映像分類方法およびその装置と、その映像分類方法の実現に用いられる映像分類プログラムとに関し、特に、映像を視聴することなく、その映像がどのようなタイプの映像であるのかを分類できるようにする映像分類方法およびその装置と、その映像分類方法の実現に用いられる映像分類プログラムとに関する。

映像を視聴することなく、その映像がどのようなタイプの映像なのかが分かると利便性が高い。

しかしながら、今のところ、そのような映像分類技術については実現されていないのが実情であり、現実には、ユーザが映像を短時間に視聴できるようにして、その視聴に基づいて、ユーザがどのようなタイプの映像であるのかを分類するようにしているというのが実情である。

このときに用いられる映像の短時間化に関する発明として、例えば、下記の特許文献１には、音声の強調状態に着目し、映像および音声コンテンツを短時間に視聴できるようにする発明が提案されている。

また、下記の非特許文献１には、同様に強調音声に着目することで、ユーザに盛り上がった印象の短時間化映像を提供できるようにする発明が示されている。

また、下記の非特許文献２では、音声の笑い声に着目して、短時間化映像を生成する発明が示されている。

特許第3803311 号, 日高浩太, 水野理, 中嶌信弥, 「音声処理方法及びその方法を使用した装置及びそのプログラム」

「強調音声抽出に基づく速覧手法「チョコパラ」によるサムネール自動生成の印象評価」, 日高浩太, 入江豪, 佐藤隆, 谷口行信, 中嶌信弥, 小川克彦, 2008年度画像電子学会第36回年次大会入江豪, 日高浩太, 宮下直也, 佐藤隆, 谷口行信, 「個人撮影映像を対象とした映像速覧のための"笑い"シーン検出法」, 映像情報メディア学会誌, vol.62, no.2, pp.227-233, 2008.

しかしながら、今のところ、そのような映像分類技術については実現されていないのが実情である。

確かに、ユーザがどのようなタイプの映像なのかを短時間に分類できるようにするために、特許文献１、非特許文献１，２に記載されるように、映像を短時間に視聴できるようにするための様々な手法が提案されている。

しかしながら、このような手法は映像を短時間に視聴できる利便性はあるものの、視聴すること自体は必要であった。

これから、従来技術に従っていると、映像がどのようなタイプの映像であるのかを分類するのに、ユーザに対してその映像の視聴を要求することになることから、ユーザに対して多大な負荷を強いるという問題があった。

本発明は、かかる事情に着目してなされたもので、その目的とするところは、映像を視聴することなく、その映像がどのようなタイプの映像であるのかを分類できるようにする新たな映像分類技術の提供を目的とする。

この目的を達成するために、本発明の映像分類装置は、音声や音楽コンテンツを持つ映像を分類するために、（１）分類対象の映像を入力する入力手段と、（２）入力手段の入力した分類対象の映像の中に含まれる映像の盛り上がり部分を抽出する抽出手段と、（３）抽出手段の抽出した映像の盛り上がり部分が映像本編のどの位置にあるのかを検出することで、入力手段の入力した分類対象の映像の示す映像特徴パターンを特定する特定手段と、（４）特定手段の特定した映像特徴パターンが予め設定した複数の代表映像特徴パターンのどれに該当するのかを判断することで、入力手段の入力した分類対象の映像の属するクラスを判定する判定手段と、（５）複数の分類対象の映像について特定手段が特定した映像特徴パターンをクラスタリングすることで、代表映像特徴パターンを生成する生成手段と、（６）判定手段によるクラスの判定を終えた映像を、そのクラスの情報と対応付けて、検索処理の対象となる映像を蓄積する映像蓄積手段に登録する登録手段とを備えるように構成する。

この構成を採るときに、抽出手段は、要約映像の作成に用いられる映像部分抽出の判定基準に従って、分類対象の映像の中に含まれる映像部分を抽出することで、映像の盛り上がり部分を抽出することがある。

また、特定手段は、映像本編を所定の数の映像区間に分割し、それぞれの映像区間に出現する盛り上がり部分の個数を検出して、その検出結果に基づいて、分類対象の映像の示す映像特徴パターンを特定することがある。

以上の各処理手段が動作することで実現される本発明の映像分類方法はコンピュータプログラムでも実現できるものであり、このコンピュータプログラムは、適当なコンピュータ読み取り可能な記録媒体に記録して提供されたり、ネットワークを介して提供され、本発明を実施する際にインストールされてＣＰＵなどの制御手段上で動作することにより本発明を実現することになる。

このように構成される本発明の映像分類装置では、分類対象の映像を入力すると、まず最初に、要約映像の作成に用いられる映像部分抽出の判定基準などのような判断基準に従って、入力した映像の中に含まれる映像部分を抽出することにより、映像の盛り上がり部分を抽出する。

例えば、強調音声の出現する映像部分を抽出したり、笑い声の出現する映像部分を抽出することなどにより、入力した映像の中に含まれる映像の盛り上がり部分を抽出するのである。

続いて、抽出した映像の盛り上がり部分が映像本編のどの位置にあるのかを検出することで、入力した映像の示す映像特徴パターンを特定する。

例えば、映像本編を所定の数の映像区間に分割し、それぞれの映像区間に出現する盛り上がり部分の個数を検出して、その検出結果に基づいて、入力した映像のどの位置がどの程度盛り上がっているのかを示す盛り上がりパターンを生成して、それを映像特徴パターンとして特定するのである。

続いて、特定した映像特徴パターンが予め設定した複数の代表映像特徴パターンのどれに該当するのかを判断することで、入力した映像の属するクラスを判定する。

例えば、特定した映像特徴パターンとそれぞれの代表映像特徴パターンとの間の類似度を算出して、最も類似する代表映像特徴パターンを選択して、その選択した代表映像特徴パターンの属するクラスを、入力した映像の属するクラスとして判定するのである。

このようにして、本発明の映像分類装置は、映像の「どの位置」が「どの程度盛り上がっているのか」に着眼点を置き、ユーザに対して分類対象の映像の視聴を要求することなく、分類対象の映像の示す傾向を映像の盛り上がりの観点で分類することで、分類対象の映像がどのようなタイプの映像であるのかを分類するように処理するのである。

この構成を採るときに、実際の映像を処理することなく代表映像特徴パターンを生成することも可能ではあるが、分類対象の映像に合った代表映像特徴パターンの生成を実現するために、そのような方法を用いずに、これまでに入力した映像について特定した映像特徴パターンをメモリに保持するようにしておいて、それらの映像特徴パターンをクラスタリングすることで代表映像特徴パターンを生成するようにしてもよい。

また、この構成を採るときに、映像特徴パターンを使って映像を検索できるようにするために、クラスの判定を終えた映像を、そのクラスの情報と対応付けて、検索処理の対象となる映像を蓄積する映像蓄積手段に登録するようにしてもよい。このような映像蓄積手段を構築すると、クラスの識別情報を検索キーとする映像の検索を実現することができるようになることで、映像特徴パターンを検索キーとする映像の検索を実現することができるようになる。

本発明によれば、映像を視聴することなく、分類対象の映像がどのようなタイプの映像であるのかを分類することができるようになる。

さらに、本発明によれば、過去の映像の映像特徴パターンに基づいて生成された代表映像特徴パターンと照らし合わせることによって、分類対象の映像がどのようなタイプの映像であるのかを分類するので、分類対象の映像がどのようなタイプの映像であるのかを適格に分類することができるようになる。

さらに、本発明によれば、映像の「どの位置」が「どの程度盛り上がっているのか」という観点から、分類対象の映像がどのようなタイプの映像であるのかを分類するので、ユーザに分かり易い形で、分類対象の映像がどのようなタイプの映像であるのかを分類することができるようになる。

しかも、本発明によれば、映像の「どの位置」が「どの程度盛り上がっているのか」という観点から映像を検索することができるようになるので、分類を終えた映像についてその検索を行うことで、過去の類似する映像とそれらの映像の持つ属性情報を知ることができるようになる。そして、映像の分類を行わなくても、このような盛り上がりのパターンを示す映像を検索するという要求に対して、その検索を行うことができることになるので、そのような要求に対して応えることができるようになる。

本発明の映像分類装置の装置構成図である。本発明の映像分類装置のハードウェア構成図である。盛り上がりパターンの特定処理の説明図である。盛り上がりパターンの説明図である。代表パターン格納部のデータ構造の説明図である。盛り上がりパターンの説明図である。盛り上がりパターンの説明図である。盛り上がりパターンの説明図である。盛り上がりパターンの説明図である。盛り上がりパターンの説明図である。映像情報蓄積部のデータ構造の説明図である。本発明の映像分類装置の実行するフローチャートである。

以下、実施の形態に従って本発明を詳細に説明する。

図１に、本発明を具備する映像分類装置１の装置構成の一例を図示する。

この図に示すように、本発明の映像分類装置１は、映像入力部１００と、映像格納部１０１と、盛り上がり抽出部１０２と、盛り上がりパターン特定部１０３と、代表パターン格納部１０４と、クラス判定部１０５と、映像情報蓄積部１０６と、映像情報検索部１０７と、分類結果出力部１０８と、盛り上がりパターン格納部１０９と、代表パターン生成部１１０とを備える。

ここで、図２に示すように、本発明の映像分類装置１は、ハードウェア構成的には、ＣＰＵ１０００と、バス２０００と、バス２０００を介してＣＰＵ１０００に接続されるプログラムメモリ３０００と、バス２０００を介してＣＰＵ１０００に接続されるデータメモリ４０００と、バス２０００を介してＣＰＵ１０００に接続される通信インタフェース５０００とから構成される。

この構成を採るときに、図１に示す映像入力部１００、盛り上がり抽出部１０２、盛り上がりパターン特定部１０３、クラス判定部１０５、映像情報検索部１０７、分類結果出力部１０８および代表パターン生成部１１０についてはプログラムメモリ３０００に記憶される。また、図１に示す映像格納部１０１、代表パターン格納部１０４、映像情報蓄積部１０６および盛り上がりパターン格納部１０９についてはデータメモリ４０００に記憶される。

また、通信インタフェース５０００は、ＣＰＵ１０００の制御の下、インターネット上のサーバ及びインターネットサイトとの間で、通信ネットワークにより規定される通信プロトコルに従い通信を行う。通信プロトコルとしては、例えば、ＴＣＰ／ＩＰ（Transmission Control Protocol/Internet Protocol)が使用される。

〔１〕各処理部について
〔１−１〕映像入力部１００の処理
映像入力部１００は、音声や音楽コンテンツを持つ分類対象の映像を入力して、映像格納部１０１に格納する。

この処理にあたって、映像入力部１００は、入力した映像から音声情報を抽出する処理を行う。例えば、avi フォーマットであれば、visual／audio 情報が格納されており、映像からaudio 情報を抽出する。なお、本発明において、音声と言う場合、音声および音楽などの楽音を指すものとする。

〔１−２〕盛り上がり抽出部１０２の処理
盛り上がり抽出部１０２は、分類対象の映像の中に含まれる映像の盛り上がり部分を抽出する。

この盛り上がり部分の抽出は、例えば、要約映像の作成に用いられる映像部分抽出の判定基準に従って、分類対象の映像の中に含まれる映像部分（要約映像を構成することになる映像部分）を抽出することで行われるものであり、例えば、強調音声部分を持つ映像部分を抽出したり、笑っている音声部分を持つ映像部分を抽出することなどにより行う。

前述した特許第3803311 号では、強調音声の状態を確率的に標記しており、平静音声に対してどの程度強調音声らしいのかの指標を規定している。この指標を用いることで、シーンに相当する音声段落ごとに付与されたこの指標を降順に並べることにより各シーンの優先順位を決めることが可能であり、それに基づいて任意の長さの要約映像の作成が実現可能となる。

盛り上がり抽出部１０２は、このような強調音声らしさの指標を使い、強調音声区間と同期する映像部分を抽出することで、分類対象の映像の中に含まれる盛り上がりの映像部分を抽出することができる。本発明者らは、前述した非特許文献１で、このような強調音声らしさの指標が“盛り上り”の印象を与えることについて示している。

また、盛り上がり抽出部１０２は、笑っている音声区間と同期する映像部分を抽出することで、分類対象の映像の中に含まれる盛り上がりの映像部分を抽出することができる。本発明者らは、前述した非特許文献２で、音声の笑い声に着目して短時間化映像を生成する発明を開示したが、この発明では、より笑っている音声区間を検出することができるので、この検出結果に基づいて、より笑っているシーンをより盛り上がっているシーンと判断することで、分類対象の映像の中に含まれる盛り上がりの映像部分を抽出することができる。

〔１−３〕盛り上がりパターン特定部１０３の処理
盛り上がりパターン特定部１０３は、盛り上がり抽出部１０２の抽出した映像の盛り上がり部分が映像本編のどの位置にあるのかを検出することで、分類対象の映像の示す盛り上がりパターンを特定する。

図３に従って、盛り上がりパターン特定部１０３の実行する処理について具体的に説明するならば、盛り上がりパターン特定部１０３は、分類対象の映像をｎ等分（図３の例では７等分）して、分割した各区間について、盛り上がり抽出部１０２の抽出した盛り上がりの映像部分が何個出現したのかを計数することで、図４に示すようなヒストグラムで表される盛り上がりパターンを特定するのである。

ここで、図３では、映像本編の全長をＴとした場合に、Ｔ／Ｓの長さに要約した要約映像を生成する場合に抽出することになる映像部分を、盛り上がりの映像部分として抽出したことを想定している。

また、映像によって全長が異なることにより盛り上がりの映像部分の出現個数に違いがあることを配慮するのであれば、ヒストグラムを各映像における盛り上がりの映像部分の出現個数の総和によって正規化し、割合として求めればよい。その結果、分類対象の映像の盛り上がりパターン（ヒストグラム）はｎ個の割合のベクトルとして生成されることになる。

〔１−４〕代表パターン格納部１０４のデータ構造
代表パターン格納部１０４は、盛り上がりパターン特定部１０３の特定した盛り上がりパターン（ヒストグラム）の分類先となる代表盛り上がりパターンについての情報を管理する。

例えば、図５に示すように、盛り上がりパターン特定部１０３の特定した盛り上がりパターンの分類先となる代表盛り上がりパターンとして、
（イ）図６に示すような盛り上がりパターンを示すＩＤ＝０１を持つ前半盛り上がり型の代表盛り上がりパターンと、
（ロ）図７に示すような盛り上がりパターンを示すＩＤ＝０２を持つ前半後半盛り上がり型の代表盛り上がりパターンと、
（ハ）図８に示すような盛り上がりパターンを示すＩＤ＝０３を持つ局所的盛り上がり型の代表盛り上がりパターンと、
（ニ）図９に示すような盛り上がりパターンを示すＩＤ＝０４を持つ後半盛り上がり型の代表盛り上がりパターンと、
（ホ）図１０に示すような盛り上がりパターンを示すＩＤ＝０５を持つ平均型の代表盛り上がりパターンと
いう５種類があるということを管理するとともに、それらの各代表盛り上がりパターンについての図６〜図１０に示すような盛り上がりパターン（ヒストグラム）の情報を管理するのである。

ここで、代表パターン格納部１０４は、盛り上がりパターン特定部１０３が盛り上がりパターンの特定の際に分割する映像の区画数と同じ区画数を持つ代表盛り上がりパターンを管理することになる。また、盛り上がりパターン特定部１０３が分類対象の映像の盛り上がりパターンを正規化する場合には、それに合わせて正規化した代表盛り上がりパターンを管理することになる。

〔１−５〕クラス判定部１０５の処理
クラス判定部１０５は、盛り上がりパターン特定部１０３の特定した盛り上がりパターンが代表パターン格納部１０４に格納される代表盛り上がりパターンのどれに該当するのかを判断することで、分類対象の映像の属するクラスを判定して、その判定を終えた映像をそのクラスの判定結果（代表盛り上がりパターンのＩＤ）と対応をとりつつ映像情報蓄積部１０６に格納するとともに、その判定を終えた映像の持つ属性情報（撮影の年月日や撮影場所や撮影者などの情報）と、その判定を終えた映像について盛り上がりパターン特定部１０３が特定した盛り上がりパターンとを映像情報蓄積部１０６に格納する。

さらに、クラス判定部１０５は、クラスの判定結果と、判定を終えた映像について盛り上がりパターン特定部１０３が特定した盛り上がりパターンとを分類結果出力部１０８に通知する。

さらに、クラス判定部１０５は、判定を終えた映像について盛り上がりパターン特定部１０３が特定した盛り上がりパターンを盛り上がりパターン格納部１０９に格納する。

前述したように、盛り上がりパターン特定部１０３の特定した盛り上がりパターンはｎ個の割合のベクトルとして生成され、代表パターン格納部１０４に格納される代表盛り上がりパターンもまたｎ個の割合のベクトルとして生成されているので、この２つのベクトルの距離を計算することで、盛り上がりパターン特定部１０３の特定した盛り上がりパターンが代表パターン格納部１０４に格納される代表映像特徴パターンのどれに該当するのかを判定できる。

これから、クラス判定部１０５は、その判定を行って、その判定を終えた映像をその判定結果と対応をとりつつ映像情報蓄積部１０６に格納するとともに、その判定を終えた映像の持つ属性情報と、その判定を終えた映像について盛り上がりパターン特定部１０３が特定した盛り上がりパターンとを映像情報蓄積部１０６に格納するのである。

これに加えて、クラス判定部１０５は、クラスの判定結果と、判定を終えた映像について盛り上がりパターン特定部１０３が特定した盛り上がりパターンとを分類結果出力部１０８に通知し、さらに、判定を終えた映像について盛り上がりパターン特定部１０３が特定した盛り上がりパターンを盛り上がりパターン格納部１０９に格納するのである。

〔１−６〕映像情報蓄積部１０６のデータ構造
映像情報蓄積部１０６は、クラス判定部１０５による格納処理を受けて、分類処理を終えた映像がどのグラスに属するのかという情報を蓄積するとともに、それらの映像と、それらの映像の持つ属性情報と、それらの映像の示す盛り上がりパターン特定部１０３により特定された盛り上がりパターンとを蓄積する。

例えば、図１１に示すように、分類処理を終えた映像がどのグラスに属するのかという情報を蓄積するとともに、それらの映像と、それらの映像の持つ属性情報と、それらの映像の示す盛り上がりパターンとを蓄積するのである。

〔１−７〕映像情報検索部１０７の処理
映像情報検索部１０７は、図１１に示すようなデータ構造を持つ映像情報蓄積部１０６を検索することで、例えば、検索要求で指定されたクラスに属する映像の中から、検索要求で指定された属性情報を持つ映像を検索してユーザに提示したり、そのクラスに属する映像の中から、検索要求で指定された盛り上がりパターンに最も類似する盛り上がりパターンを持つ映像を検索してユーザに提示するなどの検索処理を行う。

映像情報蓄積部１０６に蓄積される情報に従って、例えば、映像作家や映像ジャンルによって盛り上がりパターンの傾向が分離することが可能である。これから、ユーザは、例えば、映像作家Ａらしい盛り上がりパターン、ジャンルＢらしい盛り上がりパターンと言った観点で映像を検索することが可能となる。

〔１−８〕分類結果出力部１０８の処理
分類結果出力部１０８は、分類対象の映像についてクラス判定部１０５が得たクラスの判定結果をユーザに提示したり、その映像について盛り上がりパターン特定部１０３が特定した盛り上がりパターンをユーザに提示したり、その判定結果に属する映像の持つ属性情報（類似する映像のタイトルや制作者などの情報）を映像情報蓄積部１０６から取得してユーザに提示するなどの処理を行う。

〔１−９〕代表パターン生成部１１０の処理
盛り上がりパターン格納部１０９には、クラス判定部１０５の格納処理に従って、これまでに分類を終えた映像について盛り上がりパターン特定部１０３が特定した盛り上がりパターンが格納されている。

この盛り上がりパターン格納部１０９に格納される盛り上がりパターンを受けて、代表パターン生成部１１０は、これらの盛り上がりパターンをクラスタリングすることにより代表盛り上がりパターンを生成して、それらを代表パターン格納部１０４に格納する処理を行う。

例えば、Ｍ_N個の映像の盛り上がりパターン（ヒストグラムベクトル）をベクトル量子化し、Ｈ_N個の重心ベクトルを求めれば、これらの盛り上がりパターンのクラスタリングを行うことができる。その結果、Ｈ_Nの代表盛り上がりパターンを生成することができる。なお、ベクトル量子化については、例えば、ＬＧＢ法（Y.Linde, A.Buzo, and R.M.Gray, "An Algorithm for Vector Quantizer Design", IEEE Trans. Commn. Vol.Com-28, 1980, pp.84-95.)などにより実施すればよい。

〔２〕本発明の映像分類装置１の実行する処理
図１２に、図１のように構成される本発明の映像分類装置１の実行するフローチャートを図示する。

次に、このフローチャートに従って、図１のように構成される本発明の映像分類装置１の実行する処理について詳細に説明する。

本発明の映像分類装置１は、図１２のフローチャートに示すように、まず最初に、ステップＳ１００で、分類対象の映像を入力して、その映像から音声情報を抽出する。

続いて、ステップＳ１０１で、抽出した音声情報を使って、分類対象の映像の盛り上がり部分を抽出する。例えば、強調音声区間と同期する映像部分を抽出することで、分類対象の映像の中に含まれる盛り上がりの映像部分を抽出するのである。

続いて、ステップＳ１０２で、抽出した映像の盛り上がり部分が映像本編のどの位置になるのかを検出することで、図４に示したような分類対象の映像の示す盛り上がりパターンを特定する。

続いて、ステップＳ１０３で、代表パターン格納部１０４に格納される代表盛り上がりパターンの格納位置を示す変数ｉに先頭の格納位置を示す１をセットし、ステップＳ１０２で特定した盛り上がりパターンと代表パターン格納部１０４に格納される代表盛り上がりパターンとの間の距離を記憶する変数Ｌに大きな値をセットし、変数Ｌの値の算出元となった代表盛り上がりパターンの格納位置を示す変数ｉ（Ｌ）に初期値である０をセットする。

続いて、ステップＳ１０４で、代表パターン格納部１０４から、第ｉ番目の格納位置に格納されている代表盛り上がりパターンを読み出す。

続いて、ステップＳ１０５で、ステップＳ１０２で特定した盛り上がりパターンとステップＳ１０４で読み出した代表盛り上がりパターンとの間の距離を算出する。前述したように、この２つの盛り上がりパターンは例えばｎ個の割合のベクトルとして生成されているので、この２つのベクトルの距離を計算するのである。

続いて、ステップＳ１０６で、算出した距離が変数Ｌの値よりも小さいのか否かを判断して、算出した距離が変数Ｌの値よりも小さいことを判断するときには、ステップＳ１０７に進んで、変数Ｌに対して算出した距離をセットするとともに、変数ｉ（Ｌ）に対して変数ｉの値をセットする。一方、算出した距離が変数Ｌの値よりも小さくないことを判断するときには、このステップＳ１０７の処理を省略する。

続いて、ステップＳ１０８で、変数ｉの値が最大値であるｉmax （図５の例ではｉmax ＝５）に到達したのか否かを判断して、変数ｉの値がｉmax に到達していないことを判断するときには、ステップＳ１０９に進んで、変数ｉの値を１つインクリメントしてから、ステップＳ１０４〜ステップＳ１０７の処理を繰り返すべく、ステップＳ１０４の処理に戻る。

一方、ステップＳ１０８の判断処理に従って、変数ｉの値がｉmax に到達したことを判断するときには、ステップＳ１１０に進んで、代表パターン格納部１０４の第ｉ（Ｌ）番目の格納位置に格納されている代表盛り上がりパターンのＩＤを分類結果とする。

このとき、分類結果とした代表盛り上がりパターンとステップＳ１０２で特定した盛り上がりパターンとの間の距離が規定の閾値よりも大きい場合には、該当する代表盛り上がりパターンが存在しないとする分類結果とすることも可能である。

続いて、ステップＳ１１１で、判定を終えた映像、その映像の分類結果・属性情報・盛り上がりパターンを図１１に示すようなデータ構造を持つ映像情報蓄積部１０６に格納する。

このようにして構築される映像情報蓄積部１０６の蓄積データを受けて、前述したように、映像情報検索部１０７は、映像情報蓄積部１０６を検索することで、検索要求で指定されたクラスに属する映像の中から、検索要求で指定された属性情報を持つ映像を検索してユーザに提示するなどの検索処理を行う。

続いて、ステップＳ１１２で、判定を終えた映像の分類結果・盛り上がりパターンを分類結果出力部１０８に通知する。

この通知を受けて、前述したように、分類結果出力部１０８は、分類対象の映像について得た分類結果をユーザに提示したり、その映像について特定した盛り上がりパターンをユーザに提示するなどの出力処理を行う。

続いて、ステップＳ１１３で、判定を終えた映像の盛り上がりパターンを盛り上がりパターン格納部１０９に格納する。

このようにして格納される盛り上がりパターン格納部１０９の格納データを受けて、前述したように、代表パターン生成部１１０は、これらの盛り上がりパターンをクラスタリングすることにより代表盛り上がりパターンを生成して、それらを代表パターン格納部１０４に格納する処理を行う。

このようにして、図１のように構成される本発明の映像分類装置１は、映像を視聴することなく、分類対象の映像がどのようなタイプの映像であるのかを分類するように処理するのである。

本発明については様々な利用形態が考えられる。例えば、昨今インターネット上に映像を共有するサービスが出現し、代表的なものにＣｌｉｐＬｉｆｅ（http://cliplife.jp）があるが、これについては著作権的に問題のある映像が投稿される現状がある。

そこで、本発明を利用することで、映画、テレビ番組などのプレミアム映像に見られがちな盛り上がりパターンを、例えば、図１０に示すような平均型（平均的に盛り上っている盛り上がりパターン）であるなどと予め学習しておいて、投稿映像が同一の盛り上がりパターンであるときに、投稿を許可しない、削除する、警告するなどの対処を施すことが可能となる。

本発明は映像を分類する場合に適用できるものであり、本発明によれば、分類対象の映像を視聴することなく、映像の「どの位置」が「どの程度盛り上がっているのか」という観点から、分類対象の映像がどのようなタイプの映像であるのかを分類することができるようになる。

１映像分類装置
１００映像入力部
１０１映像格納部
１０２盛り上がり抽出部
１０３盛り上がりパターン特定部
１０４代表パターン格納部
１０５クラス判定部
１０６映像情報蓄積部
１０７映像情報検索部
１０８分類結果出力部
１０９盛り上がりパターン格納部
１１０代表パターン生成部

Claims

映像を分類する映像分類方法であって、
分類対象の映像を入力する過程と、
前記入力した分類対象の映像の中に含まれる映像の盛り上がり部分を抽出する過程と、
前記抽出した映像の盛り上がり部分が映像本編のどの位置にあるのかを検出することで、前記入力した分類対象の映像の示す映像特徴パターンを特定する過程と、
前記特定した映像特徴パターンが予め設定した複数の代表映像特徴パターンのどれに該当するのかを判断することで、前記入力した分類対象の映像の属するクラスを判定する過程とを備えることを、
特徴とする映像分類方法。
請求項１に記載の映像分類方法において、
前記抽出する過程では、要約映像の作成に用いられる映像部分抽出の判定基準に従って、分類対象の映像の中に含まれる映像部分を抽出することで、映像の盛り上がり部分を抽出することを、
特徴とする映像分類方法。
請求項１または２に記載の映像分類方法において、
前記特定する過程では、映像本編を所定の数の映像区間に分割し、それぞれの映像区間に出現する前記盛り上がり部分の個数を検出して、その検出結果に基づいて、分類対象の映像の示す映像特徴パターンを特定することを、
特徴とする映像分類方法。
請求項１ないし３のいずれか１項に記載の映像分類方法において、
複数の分類対象の映像について特定した前記映像特徴パターンをクラスタリングすることで、前記代表映像特徴パターンを生成する過程を備えることを、
特徴とする映像分類方法。
請求項１ないし３のいずれか１項に記載の映像分類方法において、
前記クラスの判定を終えた映像を、そのクラスの情報と対応付けて、検索処理の対象となる映像を蓄積する映像蓄積手段に登録する過程を備えることを、
特徴とする映像分類方法。
映像を分類する映像分類装置であって、
分類対象の映像を入力する手段と、
前記入力した分類対象の映像の中に含まれる映像の盛り上がり部分を抽出する手段と、
前記抽出した映像の盛り上がり部分が映像本編のどの位置にあるのかを検出することで、前記入力した分類対象の映像の示す映像特徴パターンを特定する手段と、
前記特定した映像特徴パターンが予め設定した複数の代表映像特徴パターンのどれに該当するのかを判断することで、前記入力した分類対象の映像の属するクラスを判定する手段とを備えることを、
特徴とする映像分類装置。
請求項６に記載の映像分類装置において、
前記抽出する手段は、要約映像の作成に用いられる映像部分抽出の判定基準に従って、分類対象の映像の中に含まれる映像部分を抽出することで、映像の盛り上がり部分を抽出することを、
特徴とする映像分類装置。
請求項６または７に記載の映像分類装置において、
前記特定する手段は、映像本編を所定の数の映像区間に分割し、それぞれの映像区間に出現する前記盛り上がり部分の個数を検出して、その検出結果に基づいて、分類対象の映像の示す映像特徴パターンを特定することを、
特徴とする映像分類装置。
請求項１ないし５のいずれか１項に記載の映像分類方法をコンピュータに実行させるための映像分類プログラム。