JP6090927B2

JP6090927B2 - 映像区間設定装置及びプログラム

Info

Publication number: JP6090927B2
Application number: JP2013136460A
Authority: JP
Inventors: 松尾　賢治; 賢治松尾; 山田　健太郎; 健太郎山田; 内藤　整; 整内藤
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2013-06-28
Filing date: 2013-06-28
Publication date: 2017-03-08
Anticipated expiration: 2033-06-28
Also published as: JP2015011525A

Description

本発明は、映像区間設定装置及びプログラムに関し、特に、映像のアノテーション（検索等の用途で、映像内の各区間に内容に関連するキーワードを記述すること）を補助して作業中に要する労力を軽減し、映像認識のための学習用サンプル（映像データと各区間の内容に関連するキーワードのセット）の高効率な生成を補助することにも利用可能な、映像区間設定装置及びプログラムに関する。

非特許文献１では、映像認識方法が提案されており、特に、一人称の視点での映像（一人称映像）が撮影できる小型カメラをユーザが装着し、食事・料理・テレビ視聴等の18種類程度の日常生活の行動を推定することを目的としている。具体的には、(1)画像内に含まれる個々のオブジェクトを認識し、(2)オブジェクトの共起関係からユーザ行動を推定、する手順を新規の特徴とした行動推定方法が提案されている。

例えば、図3に示す非特許文献１の手順の概念図のように、(手順1)により視野映像内で高い信頼度で認識できたオブジェクトが「テレビ・テーブル・リモコン」であった場合、(手順2)により、あらかじめ学習した判定基準に照らし合わせ、物体の共起関係を表現する共起特徴量から、ユーザ行動として「テレビ視聴」が推定される。各手順は以下の通りである。

まず、(手順1)は、画像内に含まれるオブジェクトの認識及びその特徴量の抽出である。当該(手順1)におけるオブジェクト認識は、非特許文献2に記載されている一般物体認識方法を適用することによって計算機上で実現が可能であり、フレーム単位でオブジェクトを認識した後さらに、その共起特徴量を得る。

次に、(手順2)では、ユーザ行動を推定するために、予め次を行っておく。すなわち、判定の基準となるオブジェクトの共起特徴量とユーザ行動の普遍的な関係を、事前に多数の学習用サンプル（物体の共起特徴量とユーザ行動を表現するキーワードのセット）を用い、SVM(サポートベクトルマシン)に代表される機械学習方法等で学習しておく。特に、見た目の変動および雑音に強い認識を実現するため、見本となる学習用サンプルをあらかじめ多数準備し、それらのサンプルに共通する特徴を機械学習により抽出して、判定基準を決めておく。

この際、当該学習用サンプルを生成、準備するためには、映像の目視確認を通して、人の判断により、映像の各区間で写っているユーザの行動を分類し、手作業でキーワードを付ける作業（映像アノテーション）が必要となる。

例えば、図４に示す通り、ある10,000フレーム分の映像があった場合、その内容を目視により確認し、第100フレーム目から2,900フレーム分が「テレビ視聴」、第5,000フレーム目以降が「食事」であるといった、ユーザ行動に関するキーワードを付け、物体の共起特徴量とセットにする必要がある。

また、当該(手順2)に関連する技術として、以下２つが挙げられる。

第一に、映像アノテーションに関する技術的な取り組みがある。従来の技術では、映像区間を予め設定し、設定された映像区間単位に映像のある対象範囲に対してアノテーションを付与すると共に、映像区間単位に映像と同期してアノテーションを閲覧することを実現したものがある。代表として例えば、特許文献１や特許文献２がある。

第二に、(手順2)の推定が区間単位で行われることに関連して、映像区間を設定するための技術としては、例えば次のようなものがある。

例えば、非特許文献３に代表される映像だけでなく、各種のセンサ情報を使ってイベントを検出する方法がある。また、特許文献３に代表される、映像区間の切り替え位置で用いられるトランジション等の映像表現効果を検出し、同一の映像区間を検出する方法がある。さらに、非特許文献４に代表される、音声の発話区間及びスライドに含まれるキーワードを発話した場合をトピックとして検出する方法がある。

特開２００９−１４７５３８号公報特開２００３−２８３９８１号公報特許第３３７８７７３号公報

Hamed Pirsiavash, Deva Ramanan, "Detecting activities of daily living in first-person camera views", CVPR 2012 P. Felzenszwalb, R. Girshick, D. McAllester, D. Ramanan, "Object Detection with Discriminatively Trained Part Based Models," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 9, pp. 1627-1645, Sep. 2010. 杉本吉隆、丸谷宜史、角所考、美濃導彦、「講師行動の統計的性質に基づいた講義撮影のための講義状況の認識手法」情報処理学会、研究報告CVIM Vol.2006 No.25 pp.179-186 北出祐、河原達也、「講義の自動アーカイブ化のためのスライドと発話の対応付け」情報処理学会、研究報告 CVIM Vol.2005 No.12 pp.59-64

しかしながら、(手順2)を可能にするための事前学習において必要となる、上記の従来の目視を基本とした映像アノテーションは次の問題を含んでいる。

第一に、目視に時間的な労力を要する。基本的には映像を実時間で目視確認した上で各区間に相応しい映像内容に関連するキーワードを付ける必要があるため、巻き戻しや繰り返しの再生を多用することもあり、実時間以上の膨大な作業時間を要する。

第二に、映像内容の切り替わる境界を判断するのに労力を要する。また、正確に決定できない場合が生じる。特に、低刺激に鈍感で、例えば、なだらかに映像の内容が切り替わる場合等、映像内容の切り替わる境界（切れ目）を常に画一的な基準により安定した精度で決定するのが人間は不得意である（どこで切れば良いか決めにくい）。

以上のような問題に関しては、上記説明した関連する技術（映像アノテーション及び映像区間設定）においても、次のような問題がある。

映像アノテーションに関する従来の特許文献１や特許文献２は、設定された映像区間単位に映像のある対象範囲に対してアノテーションを付与するものであったが、映像区間は予め設定されているという前提条件であった。映像区間の設定については具体的な実現方法が開示されず、他で提案されている映像区間の設定方法を流用することを期待したものであった。

また、従来の区間設定の方法については次の課題があった。まず、非特許文献３はセンサ情報を、非特許文献４は音声信号を必要とする。映像信号だけからは区間を設定するのは困難であった。また、特許文献３の記載の方法は、専門家が編集した映像ではなく、例えば一般的なホームビデオ等の未編集の映像に対しては、トランジション等の明確な映像区間の切り替え効果は検出できないため、映像区間を設定できない問題があった。一般的な映像を対象とし、映像信号の解析処理を通して、映像区間の設定を実現可能とする、汎用的な映像区間の設定方法が求められていた。

本発明は、上記従来技術の課題に鑑みて、映像信号に対する汎用的な区間設定を実現することを第1の目的とする。また、当該汎用的な区間設定のもとで、映像のアノテーション作業中に要する労力を軽減させることを第２の目的とする。さらに、これらのもとで、映像認識の学習用サンプル（映像データと各区間の内容に関連するキーワードのセット）を高効率に生成できるようにすることを第３の目的とする。

上記目的を達成するため、本発明は、映像区間を設定する映像区間設定装置であって、映像をフレーム単位で読み込み、所定の信号処理の適用により特徴量へと変換する特徴量変換部と、前記映像の各フレームを、前記変換された特徴量の類似に基づいてクラスタへと分類するクラスタリング部と、前記クラスタリング部による分類結果に基づいて同じ映像内容が連続する区間を映像区間として決定する区間決定部と、を備え、前記特徴量変換部が、フレーム画像内に含まれるオブジェクトを認識するオブジェクト認識部を具備し、当該認識されたオブジェクトより抽出した観測量の共起関係を当該フレーム画像に対する共起特徴量として、前記特徴量を得ることを第１の特徴とする。

また、本発明は、前記特徴量変換部が、前記観測量を、前記認識されたオブジェクトの各々につき、当該オブジェクトの数、ゆう度及び面積並びに当該数、ゆう度及び面積の割合、の少なくとも１つの組み合わせとして抽出することを第２の特徴とする。

また、本発明は、前記特徴量変換部は、オブジェクトの面積を前記組み合わせに含めて前記観測量を抽出し、この際、予め当該面積をフレーム画像全体の大きさで正規化することを第３の特徴とする。

また、本発明は、前記オブジェクト認識部が、Bag Of Visual Wordsに基づく一般物体認識の手法を用いてオブジェクトを認識することを第４の特徴とする。

また、本発明は、前記クラスタリング部が、最短距離法等の階層的クラスタリング手法により、または、k-means法等の分割最適化クラスタリング手法により、前記クラスタへの分類を行うことを第５の特徴とする。

また、本発明は、前記クラスタリング部が、X-meansにより、または、無次元分布を持つノンパラメトリックトピックモデルディリクレ過程を利用した変分ベイズ推定により、オフラインで前記クラスタへの分類を行うことを第６の特徴とする。

また、本発明は、前記クラスタリング部が、無次元分布を持つノンパラメトリックトピックモデルディリクレ過程にSequential Update Greedy SearchアルゴリズムおよびChinese Restaurant Processアルゴリズムを適用することで、オンラインで前記クラスタへの分類を行うことを第７の特徴とする。

また、本発明は、前記決定された映像区間を映像として、または、当該映像より得た代表画像として、ユーザに対して表示する表示部と、当該表示された映像区間に対応するキーワードの入力をユーザより受け付ける入力部と、当該映像区間及び／又は当該映像区間に対して前記抽出された特徴量と、当該入力されたキーワードを対応づけて、学習用サンプル又はキーワード付与映像区間を生成する生成部と、をさらに備えることを第８の特徴とする。

また、本発明は、前記入力されたキーワードを履歴として蓄積する履歴部をさらに備え、前記表示部は、前記決定された映像区間を映像として、または、当該映像より得た代表画像として、ユーザに対して前記表示する際に、併せて、前記蓄積されたキーワードの履歴をユーザに対して表示し、前記入力部では、当該蓄積され表示されたキーワードの中からのユーザによる選択を含めて、前記キーワードの入力をユーザより受け付けることを第９の特徴とする。

さらに、本発明は、前記表示部は、前記履歴をユーザに対して表示するに際して、当該表示している映像区間と同一のクラスタに前記クラスタリング部で分類され、且つ、前記入力部で既にキーワードの入力を受け付けた映像区間が存在する場合には、当該既に入力を受け付けた映像区間に対応するキーワードを、優先的に表示することを第１０の特徴とする。

第１又は第２の特徴によれば、映像区間が、画像内に含まれるオブジェクトの共起に基づいて、自動で決定されるようになる。したがって、映像の内容に応じた映像区間の自動設定が可能となり、映像区間の決定に要する労力が省かれる。すなわち、映像内容を目視確認することなく、映像区間が設定可能となる。よって、第１の目的が達成される。

第３の特徴によれば、映像の解像度に影響をうけなくなる。解像度の異なる映像からでも共通して使える特徴量が抽出できる。

第４の特徴によれば、現実世界では多様性による内的要因だけでなくオクルージョンや照明変動等の外的要因によりオブジェクトの見た目の変動が大きいが、これらの変動を抑制し、より安定した特徴量が得られるようになる。結果として、安定した映像区間の設定が可能となる。

第５の特徴によれば、特徴量空間の分布を配慮して特徴量を性質の類似する既存のクラスタへと分類できるようになる。この際、クラスタの数を所望の数に固定できるため、キーワードの総数を指定できるようになる。

第６又は第７の特徴によれば、特徴量を性質の類似する既存のクラスタへと分類すると同時に、性質の類似するクラスタが無い場合は新規にクラスタを生成することができるようになり、あらかじめクラスタ数を設定する必要が無くなる。キーワードの数を映像の内容に合わせて適応的に決定することができるようになる。

第７の特徴によれば、さらに、共起特徴量をオンラインで高速にクラスタリングできるようになる。映像の場合、抽出される特徴量は時間に比例して積算されたデータサイズとなる。長尺映像の場合、処理対象となるデータサイズが膨大となり、このような膨大なサイズのデータに対して計算機上でクラスタリング等の処理を行うのは、現実的ではない処理時間を要すると同時に、メモリ容量の観点で実現不可能な場合がある。しかし、映像データをフレーム単位で読み込んだ順に即時処理を完了させられるオンライン処理の実現によって、このような事態を回避することができる。

第８の特徴によれば、ユーザは提示された区間内の映像または代表画像を目視確認するだけで、その区間にキーワードを付与することができるようになり、映像アノテーションを効率化することができるようになり、第２の目的が達成される。この結果、例えば、一人称映像に対して適用すれば、前記非特許文献1に記載のユーザ行動推定方法で用いる学習用サンプルを効率的に作成できるようになる。よって、第３の目的が達成される。また、その学習用サンプルを用いることで、ユーザ行動を推定できる映像認識を実現できるようになる。

第９の特徴によれば、過去に入力したキーワードの履歴に照らし合わせて映像内容を判断できるようになるため、リスト内に所望のキーワードがあれば入力する労力を軽減することができる。また、キーワードが木構造で与えられる場合であって、且つ、リスト内に所望のキーワードが無い場合は、過去に入力したキーワードの履歴を考慮して、適切な意味階層の言語の決定判断に集中できるようになる。キーワードの表記ゆれ等も防ぐことができる。

第１０の特徴によれば、当該キーワードを入力しようとしている映像区間が、既にキーワードが入力された映像区間と同一のクラスタに分類された映像区間である場合は、同じクラスタに分類されていることから当該既に入力されたのと同じキーワードを付与すべきである確率が高いところ、当該同じキーワードが優先的に表示されるので、ユーザにおける入力作業の効率化を図る可能性を高めることができる。

映像区間設定装置の機能ブロック図である。クラスタリング結果から映像区間を得る例を示す図である。非特許文献１の推定手順を概念的に示す図である。人が判断し、手作業にて行われる映像アノテーションを概念的に示す図である。

図１は、本発明の一実施形態に係る映像区間設定装置の機能ブロックである。映像区間設定装置10は、特徴量変換部1、クラスタリング部2、区間決定部3、表示部4、履歴部5、入力部6及び生成部7を含む。特徴量変換部1はさらに、オブジェクト認識部11を含む。

なお、特徴量変換部1、クラスタリング部2及び区間決定部3により、映像区間が設定され、表示部4、履歴部5、入力部6及び生成部7は、当該設定された映像区間をユーザに提示して、ユーザのアノテーション作業を補助する際の構成である。従って、前者1,2,3のみが、いわば狭義の「映像区間設定装置」であり、これにさらに後者4,5,6,7を加えた全体を「映像アノテーション補助装置」と称してもよいが、当該全体1〜7を含んで広義の「映像区間設定装置」であるものとする。

以下、各部の詳細を説明する。

（特徴量変換部1）
特徴量変換部1は、映像をフレーム単位で読み込み、信号処理により抽出された特徴量へと変換する。ここでは、特徴量変換部1が、フレーム画像内に含まれるオブジェクトを認識するオブジェクト認識部11を具備し、当該認識されたオブジェクトに対する観測量の共起関係を特徴量とした、共起特徴量を得るものとする。当該オブジェクト認識部11は、Bag Of Visual Wordsのフレームワークに基づいた一般物体認識の手順で実施してもよい。

[非特許文献５]Csurka, G., Bray, C., Dance, C. and Fan, L. "Visual categorization with bags of keypoints," in Proc. of ECCV Workshop on Statistical Learning in Computer Vision, pp. 59-74(2004).

なお、Bag Of Visual Wordsのフレームワークに基づいた具体的な一般物体認識の手順は上記の非特許文献５にて開示されている。当該開示されているBag Of Visual Wordsのフレームワークで画像から特徴量を求める手順は、以下１．〜４．の通りである。

１．各画像から局所特徴量（例えば、128次元のSIFTやSURF等による）を算出する。
２．局所特徴量をクラスタリングし、セントロイドをvisual word（代表的なパターン）と規定する。
３．新規に画像から抽出された各局所特徴量に一番近いvisual wordを求め、visual wordのヒストグラムで画像全体の特徴量を表現する。
４．あらかじめ多数の学習サンプルから抽出された特徴量を機械学習（SVM等）し、生成された識別器を用いて、認識を実現する。

なお、前述の非特許文献２で採用されている一般物体認識は、同様にBag Of Visual Words をさらに洗練化したものであり、画像内から複数のオブジェクトが認識でき、オブジェクトの存在する矩形領域（位置と幅・高さ）と共にゆう度を得ている。

したがって、特徴量変換部1では、前記観測量として、オブジェクト認識部11により認識された各オブジェクトの「数、ゆう度及び面積」の値そのものと、当該「数、ゆう度及び面積」のそれぞれの全体に対する割合と、の中から選んだ所定の一つ以上の組み合わを、フレーム内の共起を関係づける共起特徴量として取り扱う。

例えば、あるオブジェクトAについての観測量は、その認識された数n_A、ゆう度L_A及び面積S_A（ゆう度及び面積は当該n_A個の平均などを利用してもよい）によって、(n_A, L_A, S_A)とし、あるいは、これを全体を定義する所定値に対して規格化した(n_A', L_A', S_A')とする。その他のオブジェクトB等についても同様に観測量を(n_B, L_B, S_B)あるいは(n_B', L_B', S_B')等とする。フレーム内の共起特徴量は、(n_A, L_A, S_A, n_B, L_B, S_B, ...)あるいは(n_A', L_A', S_A' ,n_B', L_B', S_B', ...)等として求めることができる。

ここで、観測量として「数、ゆう度及び面積」の全てを用いるか、あるいは所定の一部分のみを用いるか、それぞれ規格化するか否か、等は、各オブジェクトにつき所望の設定を予め与えておくことができ、所望のフレーム内の共起特徴量を定義しておくことができる。例えば、上記の例であれば、共起特徴量を、(n_A, S_A' ,n_B', L_B', S_B, ...)等のように定義してもよい。

なお、観測量として認識されたオブジェクトの「面積」を用いる場合、画像全体の大きさで正規化することで、映像の解像に影響を受けなくなる。こうして、解像度の異なる映像からでも共通して使える特徴量が抽出できる。

（クラスタリング部2）
クラスタリング部2は、複数のデータを類似性に基づいて分類するものであって、前記特徴量変換部1にて得られる各フレームの特徴量を性質の類似するクラスタへと分類する。このクラスタリング処理により、映像の各フレームにはクラスタ番号（当該フレームが分類され所属するクラスタの番号）が1つだけ付与されることになる。

以下、当該クラスタリング部2にて適用できる具体的な手法として、大きく分けて３つの手法を説明する。

第一に、最短距離法等の階層的クラスタリング手法またはk-means法等の分割最適化クラスタリング手法を適用してよい。いずれも広く知れ渡る公知の技術であるため、ここでの詳細は割愛する。これらの方法により、特徴量空間の分布を配慮して特徴量を性質の類似する既存のクラスタへと分類できるようになる。この際、クラスタの数を所望の数に固定できるため、キーワードの総数を指定できるようになる。

第二に、X-meansまたは無次元分布を持つノンパラメトリックトピックモデルディリクレ過程を利用した変分ベイズ推定により、オフライン（映像全体を対象とした一括処理）でクラスタリングを行う手法を適用してもよい。

第三に、無次元分布を持つノンパラメトリックトピックモデルディリクレ過程にSeaquential Update Greedy SearchアルゴリズムおよびChinese Restaurant Processアルゴリズムを適用して、クラスタリングをオンラインで行う手法を適用してもよい。

これら第二、第三のクラスタリング手法によると、特徴量を性質の類似する既存のクラスタへと分類すると同時に、性質の類似するクラスタが無い場合は新規にクラスタを生成することができるようになり、あらかじめクラスタ数を設定する必要が無くなる。キーワードの数を映像の内容に合わせて適応的に決定することができるようになる。

特に、第三のクラスタリング手法では、共起特徴量をオンラインで高速にクラスタリングできるようになる。映像の場合、抽出される特徴量は時間に比例して積算されたデータサイズとなる。長尺映像の場合、処理対象となるデータサイズが膨大となり、このような膨大なサイズのデータに対して、オフラインの一括処理によって計算機上でクラスタリング等の処理を行うのは、現実的ではない処理時間を要すると同時に、メモリ容量の観点で実現不可能な場合がある。映像データをフレーム単位で読み込んだ順に即時処理を完了させられる、オンライン処理の実現が求められ、第三のクラスタリング手法はこの観点で好適である。

なお、第二、第三のクラスタリング手法の詳細については後述する。

（区間決定部3）
区間決定部3は、前記クラスタリング部2による分類結果に基づいて、同じ映像内容が連続するとみなせる区間の各々を、映像区間として決定し、当該映像区間を表示部4及び生成部7へと出力する。

例えば、前述の図４にて示した、ある10,000フレーム分の映像については、次のような結果となる。すなわち、当該映像における内容を仮に目視により確認したとすると、画像内のオブジェクトとしてテレビやリモコンの共起が見られ、当該共起が特徴量として得られていると考えられる第100フレーム目から2,900フレーム分と、その後の食べ物や皿の共起が特徴量として得られていると考えられる第5,000フレーム目以降とでは、クラスタリング部2により自動で異なるクラスタ番号が割り当てられ、区間決定部3により異なる映像区間として出力されることとなる。

なお、区間決定部3では、時系列上隣接しているフレーム間であって、且つ、当該隣接する両者に異なるクラスタ番号が割り当てられている場所を、映像区間の境界と決定する。また、時系列上隣接しているフレームで、同一のクラスタ番号が割り当てられていれば、同じ映像区間に属するものとして判定し、当該同じクラスタ番号である判定が継続して得られる一連のフレームを一つの映像区間とする。

例えば、ある映像について図２のようなクラスタリング結果となったとする。ここでは、当該映像のフレーム全体は、クラスタC1及びC2の2つに分類され、区間D1（一連の連続するフレーム群を「区間」とする。以下同様）はクラスタC1に分類され、続く区間D2はクラスタC2に分類され、さらに続く区間D3はクラスタC1に分類されたとする。

図２の場合、映像区間の境界は、区間D1の最後のフレームと区間D2の最初のフレームとの間のd1と、区間D2の最後のフレームと区間D3の最初のフレームとの間のd2と、の2箇所となり、３つの映像区間D1,D2及びD3が得られる。

なお一般に、クラスタリング部2によってn個のクラスタに分類された際に、当該n種類が映像の時系列上においてどのように並んで現れているかということに依存して、映像区間はn個以上得られることとなる。この際、各クラスタに属する映像が時系列上で分断されている数だけ、当該n個よりも多い数の映像区間が結果として得られることとなる。図２の例では、2個のクラスタのうち片方のC1が、D1及びD3に分断されているので、2+1=3個の映像区間が得られている。

（表示部4）
表示部4は、区間決定部3で得られた各映像区間を、映像としてまたは代表画像としてユーザに対して表示し、後述の入力部6におけるアノテーションの入力を促す。当該表示する際に、各映像区間からランダムでフレーム画像を抽出して代表画像としてもよいし、映像区間の先頭や中央等の決められた位置のフレーム画像を代表画像として抽出しても良い。あるいは、映像区間の全体又は一部を映像として表示しても良い。その区間の映像内容をユーザに表示し、入力部6に入力するキーワードを連想できるようにするのが表示部4の目的である。

（入力部6及び生成部7）
入力部6は、ユーザにより入力された、表示部4で表示された映像区間に対するキーワードを受け取り、生成部7へ渡す。生成部7では、当該入力されたキーワードを、対応する映像区間に付与して、学習用サンプル又はキーワード付与映像区間を生成する。

この際、生成部7は、特徴量変換部1にて認識されたオブジェクトの共起特徴量と、入力部6にて入力されたキーワードをセットにすることで、映像認識のための学習用サンプルを生成する。なお、キーワードと映像区間に対応する何とをセットにして学習用サンプルを生成するかについては、学習器の構成に応じて種々の設定が可能であり、共起特徴量の他にも、映像区間そのものを対応付けてもよいし、共起特徴量と映像区間の両者を対応付けるようにしてもよい。

なお、生成部7は、上記のようにして「学習用サンプル」を生成するが、当該「学習用サンプル」と同一のデータを「キーワード付与映像区間」として生成してもよい。すなわち、当該「学習用サンプル」は、映像認識の学習の用途に利用可能であるが、その他にも検索用など、種々の用途が可能であるので、用途を学習に限定しないものとして、「キーワード付与映像区間」が生成されてもよい。

（履歴部5）
履歴部5は、入力部6を介して過去に入力されたキーワードを蓄積する。当該蓄積されているキーワードの履歴を表示部4が一覧表示することにより、入力部6にて付与するキーワードを一覧の中から選択することで入力可能にすることができる。

すなわち、履歴部5の利用により、ユーザが既に入力したキーワードについては、当該ユーザにいわゆるフリーテキスト形式で入力させる手間を省くことができる。未入力のキーワードについては、当該フリーテキスト形式などでユーザが入力する。なお、キーワードが木構造で記述される場合であれば、履歴部5は当該木構造のもとでキーワードを蓄積し、表示部4では当該木構造にてキーワードを表示し、入力部6では当該木構造に対して新たな枝を定義することでキーワードを受け付けるようにしてもよい。

なお、履歴部5及び表示部4では、追加的な処理として、ある新たな映像区間に対してユーザのキーワードの入力を促す際に、当該映像区間と同じクラスタに属する映像区間で、既にキーワードが入力されているものにおけるキーワードを、その他のキーワードよりも優先的にユーザに表示するようにしてもよい。

例えば、図２の映像の例でキーワードを入力する際に、区間D1（∈クラスタC1）に「テレビ視聴」と入力し、区間D2（∈クラスタC2）に「食事」と入力した後、区間D3（∈クラスタC1）のキーワードの入力を受け付ける際は、同じクラスタC1に属する区間D1について既に入力された「テレビ視聴」を選択候補として「食事」よりも優先的に表示させる（例えばリスト形式で、先頭側に表示させるなど）ようにしてもよい。

なおまた、同じクラスタに属し、既にキーワードの入力がなされた映像区間が複数ある場合は、当該入力しようとしている区間に時間的に近いものに対して入力されたキーワードを当該近い順番に、あるいは、当該複数の中で入力されたキーワード種類の多数決の順番で、選択候補として優先的に表示させてもよい。

以下、前述のクラスタリング部2における第二及び第三のクラスタリング手法の詳細を説明する。

（第二手法について）
第二手法では、特徴量変換部1にて得られた各々のフレームの共起特徴量に対するクラスタの割り当ては、変分ベイズ推定により、全共起特徴量の集合Xに対して周辺ゆう度を最大化する適切なクラスタを割り当てることにより実現する。フレーム番号dで得られた共起特徴量をx_dとする。x_d∈Xである。

最大化対象となる全共起特徴量の集合Xに対する周辺ゆう度pの潜在変数は、共起特徴量x_dの所属変数z_dと、ディリクレ過程の混合確率πと、ディリクレ分布のパラメータμである。ここで、α₀およびβ₀をディリクレ過程とディリクレ分布それぞれのハイパーパラメータとすると、最大化対象である全共起特徴量の集合Xに対する周辺ゆう度pは次式で定義される。

周辺ゆう度pの解を直接求めることはできない。そのため、変分ベイズ推定により事後分布の近似分布qを仮定して、Jensenの不等式により、ゆう度の下限を反復的に最大化することで、近似的に最適解を求める。ここでは、ディリクレ過程を近似する事後分布qとして有限対称ディリクレ分布を使用する。事後分布は次式で表現できる。

ただし、α_kはk番目の有限対称ディリクレ分布のハイパーパラメータ、μ_{k_i}はk番目のディリクレ分布のi次元目のパラメータ、φ_d(z_d=k)は共起特徴量x_dがクラスタkに分類され、その所属z_dがz_d=kとなる確率を示す。多項分布混合モデルの事後分布qのハイパーパラメータα_kとμ_{k_i}および所属確率φ_d(z_d=k)の更新式は下記の通りであり、周辺ゆう度の下限を最大化するための更新式となる。ただし、 x_{d_j}は共起特徴量x_dのj番目の要素に関する観測量、Ψ（）はディガンマ関数である。

Dを共起特徴量の総数とすると、本第二手法は、初期のクラスタの総数KをK＝Dと設定して実行する。更新式の計算を繰り返すうちに、各々の所属確率φ_d(z_d=k)はある一定値に収束すると考えられる。このとき、d番目のフレームから得られた共起特徴量x_dについて全クラスタの中ら最も高い所属確率φ_d(z_d=k)を示すクラスタkを特定し、共起特徴量x_dはクラスタkに分類されるものとして、その所属z_d=kと決定する。その所属確率φ_dが他のどのクラスタと比較しても小さいことから共起特徴量が一つも所属しないクラスタも発生するため、本第二手法実行後に求まるクラスタの総数は初期に設定した値よりも減り、最適なクラスタ数へと収束する。上記の通り、本第二手法により、更新式の計算を繰り返すアプローチを取る事によって、クラスタ数の推定が実現可能となる。

（第三手法について）
第三手法では、クラスタリングをオンラインで行うため、無次元分布を持つノンパラメトリックトピックモデルディリクレ過程にSequential Update Greedy Searchアルゴリズムを適用する。計算コストがクラスタ数に応じて線形であり、高速な処理を実現可能とある。同時に、本第三手法においても第二手法同様にクラスタ数もディリクレ過程の枠組みで自動的に発見するため、Chinese Restaurant Processアルゴリズムを適用する。Chinese Restaurant Processアルゴリズムはディリクレ過程から生成される無限次元離散分布の一生成方法であり、それまでに観測されていないクラスタの確率までも仮想的に保持し、クラスタ数を適応的に増やすことが可能となる。新規にd番目のフレームで得られた共起特徴量x_dに対して、次式のゆう度関数pを最大にするクラスタ<k>を選択し、共起特徴量x_dはクラスタkに分類されるものとして、その所属z_dをz_d=kと決定する。

ゆう度関数pは、上記の通り、新規にd番目のフレームで得られた共起特徴量x_d、それまでに過去のフレームで得られた共起特徴量の集合X^[-d]（表記[-d]はx_dを含まないことを意味する）、過去の所属の集合Z^-[-d]（表記[-d]はz_dを含まないことを意味する）、ディリクレ過程とディリクレ分布のそれぞれのハイパーパラメータα₀、β₀を条件とする条件付き確率として算出する。

無次元分布を持つノンパラメトリックトピックモデルディリクレ過程にSequential Update Greedy SearchアルゴリズムおよびChinese Restaurant Processアルゴリズムを適用してクラスタリングをオンラインで行う流れについて、以下の（手順１）〜（手順４）として、さらに詳細に説明する。新規にd番目のフレームで得られた共起特徴量x_dの次元がJであるとする。共起特徴量x_dの最適な所属クラスタｋをオンラインに推定する。このとき、所属z_dはz_d=kであり、共起特徴量x_dがクラスタkに分類されることを意味するものとする。

手順１：
共起特徴量x₁がクラスタk=1に分類されるものとし、その所属z₁をz₁=1と初期化する。

手順２：
クラスタk=1の度数n(k=1, μ_j)を共起特徴量x₁を用いて更新し、k=1のディリクレ分布のパラメータμ(k=1)の確率の期待値を次式の通り再計算する。ここで、ディリクレ分布のパラメータμの次元数はJであり、μ={μ₁, …, μ_j, …, μ_J}である。

手順３：
新規にd番目のフレームで得られた共起特徴量x_dに対して最適な所属z_dを以下のゆう度関数pから推定する。ただし、集合X^[-d]はそれまでそこまでの全ての観測を意味し、集合Z^[-d]は過去の全ての所属（いずれも表記[-d]はx_dやz_dを含まないことを意味する）を示す。

手順４：
クラスタ<k>の度数n(k=1, μ_j)を共起特徴量x_dを用いて更新し、<k>のディリクレ分布のパラメータμ(<k>)の確率の期待値を再計算する。
ここでは、ディリクレ過程のハイパーパラメータα₀を、次式に示す通り複数のα_tを使用して、推定の枠組み内で周辺化する。

複数のα_tに関しては、広範囲に渡る一様分布を設定すれば、ディリクレ過程のハイパーパラメータα₀を安定して求められる。αの推定は次式により逐次的に更新する。

共起特徴量x_dがクラスタkに分類されるとした場合のz_d=kの条件付き確率は、次式の通り、Chinese Restaurant Processアルゴリズムにより最適に計算する。

共起特徴量x_dがクラスタkに分類されるとした場合のz_d=kの事後確率は、次式により計算する。

なお、本発明は、コンピュータに読み取られ、当該コンピュータを図１の各部として機能させる、あるいは、当該コンピュータに図１の各部に対応する手順を実行させる、プログラムとして提供されてもよい。

10…映像区間設定装置、1…特徴量変換部、11…オブジェクト認識部、2…クラスタリング部、3…区間決定部、4…表示部、5…履歴部、6…入力部、7…生成部

Claims

映像区間を設定する映像区間設定装置であって、
映像をフレーム単位で読み込み、所定の信号処理の適用により特徴量へと変換する特徴量変換部と、
前記映像の各フレームを、前記変換された特徴量の類似に基づいてクラスタへと分類するクラスタリング部と、
前記クラスタリング部による分類結果に基づいて同じ映像内容が連続する区間を映像区間として決定する区間決定部と、を備え、
前記特徴量変換部が、
フレーム画像内に含まれるオブジェクトを認識するオブジェクト認識部を具備し、
当該認識されたオブジェクトより抽出した観測量の共起関係を当該フレーム画像に対する共起特徴量として、前記特徴量を得るものであり、
前記決定された映像区間を映像として、または、当該映像より得た代表画像として、ユーザに対して表示する表示部と、
当該表示された映像区間に対応するキーワードの入力をユーザより受け付ける入力部と、
前記入力されたキーワードを履歴として蓄積する履歴部と、をさらに備え、
前記表示部は、前記決定された映像区間を映像として、または、当該映像より得た代表画像として、ユーザに対して前記表示する際に、併せて、前記蓄積されたキーワードの履歴をユーザに対して表示し、
前記入力部では、当該蓄積され表示されたキーワードの中からのユーザによる選択を含めて、前記キーワードの入力をユーザより受け付け、
前記表示部は、前記履歴をユーザに対して表示するに際して、当該表示している映像区間と同一のクラスタに前記クラスタリング部で分類され、且つ、前記入力部で既にキーワードの入力を受け付けた映像区間が存在する場合には、当該既に入力を受け付けた映像区間に対応するキーワードを、優先的に表示することを特徴とする映像区間設定装置。
前記特徴量変換部が、前記観測量を、前記認識されたオブジェクトの各々につき、当該オブジェクトの数、ゆう度及び面積並びに当該数、ゆう度及び面積の割合、の少なくとも１つの組み合わせとして抽出することを特徴とする請求項１に記載の映像区間設定装置。
前記特徴量変換部は、オブジェクトの面積を前記組み合わせに含めて前記観測量を抽出し、この際、予め当該面積をフレーム画像全体の大きさで正規化することを特徴とする請求項２に記載の映像区間設定装置。
前記オブジェクト認識部が、Bag Of Visual Wordsに基づく一般物体認識の手法を用いてオブジェクトを認識することを特徴とする請求項１ないし３のいずれかに記載の映像区間設定装置。
前記クラスタリング部が、最短距離法等の階層的クラスタリング手法により、または、k-means法等の分割最適化クラスタリング手法により、前記クラスタへの分類を行うことを特徴とする請求項１ないし４のいずれかに記載の映像区間設定装置。
前記クラスタリング部が、X-meansにより、または、無次元分布を持つノンパラメトリックトピックモデルディリクレ過程を利用した変分ベイズ推定により、オフラインで前記クラスタへの分類を行うことを特徴とする請求項１ないし４のいずれかに記載の映像区間設定装置。
前記クラスタリング部が、無次元分布を持つノンパラメトリックトピックモデルディリクレ過程にSequential Update Greedy SearchアルゴリズムおよびChinese Restaurant Processアルゴリズムを適用することで、オンラインで前記クラスタへの分類を行うことを特徴とする請求項１ないし４のいずれかに記載の映像区間設定装置。
前記映像区間及び／又は前記映像区間に対して前記抽出された特徴量と、前記入力されたキーワードを対応づけて、学習用サンプル又はキーワード付与映像区間を生成する生成部をさらに備えることを特徴とする請求項１ないし７のいずれかに記載の映像区間設定装置。
前記映像が一人称映像であり、前記映像区間が当該一人称映像における行動に対応することを特徴とする請求項１ないし８のいずれかに記載の映像区間設定装置。
映像区間を設定する映像区間設定プログラムであって、コンピュータに、
映像をフレーム単位で読み込み、所定の信号処理の適用により特徴量へと変換する特徴量変換手順と、
前記映像の各フレームを、前記変換された特徴量の類似に基づいてクラスタへと分類するクラスタリング手順と、
前記クラスタリング手順による分類結果に基づいて同じ映像内容が連続する区間を映像区間として決定する区間決定手順と、を実行させ、
前記特徴量変換手順は、
フレーム画像内に含まれるオブジェクトを認識するオブジェクト認識手順を具備し、
当該認識されたオブジェクトより抽出した観測量の共起関係を当該フレーム画像に対する共起特徴量として、前記特徴量を得るものであり、
前記決定された映像区間を映像として、または、当該映像より得た代表画像として、ユーザに対して表示する表示手順と、
当該表示された映像区間に対応するキーワードの入力をユーザより受け付ける入力手順と、
前記入力されたキーワードを履歴として蓄積する履歴手順と、をさらに実行させ、
前記表示手順は、前記決定された映像区間を映像として、または、当該映像より得た代表画像として、ユーザに対して前記表示する際に、併せて、前記蓄積されたキーワードの履歴をユーザに対して表示し、
前記入力手順では、当該蓄積され表示されたキーワードの中からのユーザによる選択を含めて、前記キーワードの入力をユーザより受け付け、
前記表示手順は、前記履歴をユーザに対して表示するに際して、当該表示している映像区間と同一のクラスタに前記クラスタリング手順で分類され、且つ、前記入力手順で既にキーワードの入力を受け付けた映像区間が存在する場合には、当該既に入力を受け付けた映像区間に対応するキーワードを、優先的に表示することを特徴とする映像区間設定プログラム。