<第1実施の形態>
[本発明の情報処理装置を適用したレコーダの一実施の形態]
図1は、本発明の情報処理装置を適用したレコーダの一実施の形態の構成例を示すブロック図である。
図1のレコーダは、例えば、HD(Hard Disk)レコーダ等であり、テレビジョン放送の番組や、インターネット等のネットワークを介して提供されるコンテンツ、ビデオカメラ等で撮影したコンテンツ等の各種のコンテンツを録画(記録)(記憶)することができる。
すなわち、図1において、レコーダは、コンテンツ記憶部11、学習装置12、アノテーションモデル記憶部13、アノテーション付与装置14、フレーム検索装置15、及び、表示制御装置16を有する。
なお、コンテンツ記憶部11、学習装置12、アノテーションモデル記憶部13、アノテーション付与装置14、フレーム検索装置15、及び、表示制御装置16は、全体を、1つの装置(筐体)として構成することもできるし、複数の装置に分けて構成することもできる。
すなわち、例えば、コンテンツ記憶部11、学習装置12、及び、アノテーションモデル記憶部13を、ホームネットワーク上のサーバやインターネット上のサーバ等の1つの装置として構成し、アノテーション付与装置14、フレーム検索装置15、及び、表示制御装置16のそれぞれは、クライアント等の別の装置として構成することができる。
コンテンツ記憶部11は、例えば、テレビジョン放送の番組等の、画像を含むコンテンツを記憶(記録)する。コンテンツ記憶部11へのコンテンツの記憶が、そのコンテンツの録画となり、その録画がされたコンテンツ(コンテンツ記憶部11に記憶されたコンテンツ)は、例えば、ユーザの操作に応じて再生される。
なお、コンテンツ記憶部11には、その他、ビデオカメラ等で撮影したコンテンツや、webサーバからダウンロードしたコンテンツ等を記憶させることができる。
学習装置12は、例えば、コンテンツ記憶部11に記憶されたコンテンツを、所定の特徴量空間において自己組織的に構造化し、コンテンツの構造(時空間構造)を表すモデルを求める学習(統計学習)を行う。
すなわち、学習装置12は、コンテンツ記憶部11に記憶されたコンテンツのうちの、コンテンツの画像の内容を説明する説明テキストを取得することができるコンテンツを、後述するアノテーションモデルの学習に用いる学習用コンテンツに選択する。
さらに、学習装置12は、学習用コンテンツの画像の各フレームの画像特徴量を抽出するとともに、その学習用コンテンツの画像の内容を説明する説明テキストにおいて各単語が出現する頻度に関する単語頻度情報を、説明テキストのテキスト特徴量として抽出する。
そして、学習装置12は、学習用コンテンツから抽出した画像特徴量、及び、テキスト特徴量を含むマルチストリームを、アノテーション用のアノテーション用系列として用いて、マルチストリームHMM(Hidden Markov Model)であるアノテーションモデルの学習を行い、その学習後のアノテーションモデルを、アノテーションモデル記憶部13に供給する。
アノテーションモデル記憶部13は、学習装置12から供給されるアノテーションモデルを記憶する。
アノテーション付与装置14は、アノテーションモデル記憶部13に記憶されたアノテーションモデルを用いて、コンテンツ記憶部11に記憶されたコンテンツのうちの、アノテーションを付与する対象とする対象コンテンツにアノテーションを付与する。
フレーム検索装置15は、アノテーションモデル記憶部13に記憶されたアノテーションモデルを用いて、コンテンツ記憶部11に記憶されたコンテンツのうちの、所定のキーワードに内容が合致するフレームであるキーワードフレームを検索する対象とする対象コンテンツから、キーワードフレームを検索する。
表示制御装置16は、アノテーションモデル記憶部13に記憶されたアノテーションモデルを用いて、コンテンツ記憶部11に記憶されたコンテンツのうちの、アノテーションを付与する対象とする対象コンテンツのフレームに付与されるアノテーションを表示させる表示制御を行う。
なお、ここでは、コンテンツ記憶部11に記憶されるコンテンツのデータは、画像、音声、及び、必要な字幕のテキストのデータ(ストリーム)を含むこととする。
但し、学習用コンテンツは、少なくとも画像が含まれ、かつ、字幕のテキスト等の説明テキストが、何らかの方法で取得することができるコンテンツであればよく、アノテーション付与装置14、フレーム検索装置15、及び、表示制御装置16で処理の対象となる対象コンテンツは、少なくとも画像が含まれるコンテンツであればよい。
また、学習用コンテンツ、及び、対象コンテンツは、画像を含まないが、音声を含むコンテンツであって良い。
[学習装置12の構成例]
図2は、図1の学習装置12の構成例を示すブロック図である。
学習装置12は、特徴量抽出部21、及び、モデル学習部22を有する。
特徴量抽出部21は、コンテンツ記憶部11に記憶されたコンテンツの中から、アノテーションモデルの学習に用いるコンテンツを、学習用コンテンツとして選択し、コンテンツ記憶部11から取得する(読み出す)。
ここで、特徴量抽出部21は、コンテンツ記憶部11に記憶されたコンテンツの中から、例えば、字幕のテキストを含むコンテンツ等の、コンテンツの画像の内容を説明する説明テキストを取得することができるコンテンツを、学習用コンテンツとして選択する。
説明テキストとしては、コンテンツに含まれる字幕のテキストの他、放送番組のコーナごとの放送開始時刻、放送終了時刻、出演者、及び、コーナの内容の要約等のメタデータを、放送番組の終了後に配信する有料サービス(以下、番組メタデータサービスともいう)のサービス提供者が提供するメタデータや、ユーザがキーボード等を操作することによって入力する、コンテンツを説明するテキスト等を採用することができる。
また、特徴量抽出部21は、例えば、所定のカテゴリに属する1以上のコンテンツを、1つのアノテーションモデルの学習に用いる学習用コンテンツとして選択する。
所定のカテゴリに属するコンテンツとは、例えば、ジャンルが同一の番組や、連続番組、毎週又は毎日その他周期的に放送される番組(タイトルが同一の、いわゆるシリーズものの番組)等の、コンテンツに潜む、コンテンツの構造が共通するコンテンツを意味する。
カテゴリとなるジャンルについては、例えば、スポーツ番組や、ニュース番組、音楽番組等といった、いわば大まかな分類を採用することもできるが、例えば、サッカーの試合の番組や野球の試合の番組等といった、いわば細かい分類であることが望ましい。
また、例えば、サッカーの試合の番組であれば、チャンネル(放送局)が異なるごとに、異なるカテゴリに属するコンテンツに分類することができる。
なお、コンテンツのカテゴリとして、どのようなカテゴリを採用するかは、例えば、図1のレコーダに、あらかじめ設定されていることとする。
また、コンテンツ記憶部11に記憶されたコンテンツのカテゴリは、例えば、テレビジョン放送で番組とともに送信されてくる、番組のタイトルやジャンル等のメタデータや、インターネット上のサイトが提供する番組の情報等から認識することができる。
ここで、学習装置12は、アノテーションモデルの学習を、カテゴリごとに行う。図1のアノテーション付与装置14、フレーム検索装置15、及び、表示制御装置16でも、対象コンテンツの処理を、その対象コンテンツのカテゴリに一致するカテゴリのアノテーションモデルを用いて行う。但し、以下では、カテゴリについての説明は、適宜、省略する。
特徴量抽出部21は、コンテンツ記憶部11からの学習用コンテンツに含まれる画像の各フレームの特徴量である画像特徴量を抽出して、モデル学習部22に供給する。
ここで、特徴量抽出部21は、例えば、学習用コンテンツのフレームを、順次、注目フレームとして、注目フレームを、複数の小領域であるサブ領域に分割する。
さらに、特徴量抽出部21は、例えば、各サブ領域のサブ領域特徴量を抽出し、注目フレームのサブ領域特徴量をコンポーネントとするベクトルを、注目フレームの画像特徴量として、モデル学習部22に供給する。
サブ領域特徴量としては、サブ領域の画素値(例えば、RGB成分や、YUV成分等)を用いて、サブ領域の大域的な特徴量が求められる。
ここで、サブ領域の大域的な特徴量とは、サブ領域を構成する画素の位置の情報を用いずに、画素値だけを用いて、加法的に計算される、例えば、ヒストグラムのような特徴量をいう。
大域的な特徴量としては、例えば、GISTと呼ばれる特徴量を採用することができる。GISTについては、例えば、A. Torralba, K. Murphy, W. Freeman, M. Rubin, "Context-based vision system for place and object recognition", IEEE Int. Conf. Computer Vision, vol. 1, no. 1, pp. 273-280, 2003.に、詳細が記載されている。
なお、大域的な特徴量は、GISTに限定されるものではない。すなわち、大域的な特徴量は、局所的な位置、明度、視点等の見えの変化に対して頑強な(変化を吸収するような)(Robustな)特徴量であれば良い。そのような特徴量としては、例えば、HLCA(局所高次相関)や、LBP(Local Binary Patterns)、カラーヒストグラム等がある。
HLCAについては、例えば、N. Otsu, T. Kurita, "A new scheme for practical flexible and intelligent vision systems", Proc. IAPR Workshop on Computer Vision, pp.431-435, 1988に、詳細が記載されている。LBPについては、例えば、Ojala T, Pietikainen M & Maenpaa T, "Multiresolution gray-scale and rotation invariant texture classification with Local Binary Patterns", IEEE Transactions on Pattern Analysis and Machine Intelligence 24(7):971-987に、詳細が記載されている(Pietikainen、及び、Maenpaaの"a"は、正確には、"a"の上部に、"・・"を付加した文字)。
以上のような、サブ領域特徴量をコンポーネントとするベクトルである画像特徴量は、局所的な変化(サブ領域内で起こる変化)に対しては頑強であるが、フレーム全体としてのパターンの配置の変化に対してはディスクリミネイティブ(鋭敏に違いを見分ける性質)であるような特徴量となる。
このような画像特徴量によれば、フレーム間のシーン(内容)の類似性を、適切に判定することができる。例えば、「浜辺」のシーンは、フレームの上方に「空」があり、中央に「海」があり、画面下方に「砂浜」があればよく、「砂浜」のどこに人がいるかや、「空」のどこに雲があるか等は、シーンが「浜辺」のシーンであるかどうかに関係がない。サブ領域特徴量をコンポーネントとするベクトルである画像特徴量は、このような観点からシーンの類似性を判定する(シーンを分類する)のに適しており、以下、適宜、シーン特徴量ともいう。
特徴量抽出部21は、コンテンツ記憶部11からの学習用コンテンツに含まれる画像の各フレームの画像特徴量(シーン特徴量)を抽出する他、その学習用コンテンツの説明テキストにおいて各単語が出現する頻度に関する単語頻度情報を、説明テキストのテキスト特徴量として抽出し、モデル学習部22に供給する。
なお、特徴量抽出部21は、学習用コンテンツに、字幕のテキストが含まれている場合には、その字幕のテキストを、説明テキストとして採用する。
また、特徴量抽出部21は、外部から、説明テキストが入力される場合、すなわち、例えば、番組メタデータサービスのサービス提供者から、番組のメタデータが提供される場合や、ユーザがキーボード等を操作することによって、学習用コンテンツを説明するテキストが入力される場合には、そのサービス提供者からのメタデータや、ユーザからのテキストを、説明テキストとして採用することができる。
その他、特徴量抽出部21では、学習用コンテンツに含まれる音声の音声認識を行い、その音声認識の結果であるテキストを、説明テキストとして採用することができる。
ここで、以下では、説明を簡単にするために、説明テキストとしては、コンテンツに含まれる字幕のテキストを採用することとする。
モデル学習部22は、特徴量抽出部21から供給される学習用コンテンツの画像特徴量、及び、テキスト特徴量を含むマルチストリームを、コンテンツにアノテーションを付与するためのアノテーション用のアノテーション用系列として、そのアノテーション用系列を用いて、マルチストリームHMMであるアノテーションモデルの学習を行う。
そして、モデル学習部22は、学習後のアノテーションモデルを、アノテーションモデル記憶部13に供給して記憶させる。
ここで、HMMは、最初に、状態siにいる初期確率πi、状態siから状態sjに状態遷移する状態遷移確率aij、及び、状態siから、所定の観測値oが観測(出力)される出力確率分布bi(o)で規定される。
出力確率分布bi(o)としては、観測値oが離散値(多項分布)である場合には、確率となる離散値(の分布)が用いられるが、観測値oが連続値である場合には、確率分布関数が用いられる。確率分布関数としては、例えば、平均値(平均ベクトル)と分散(共分散行列)とで定義されるガウス分布等を採用することができる。
HMMの学習は、例えば、EM(Expextation Maximization)アルゴリズムに基づくパラメータ推定方法であるBaum-Welchの再推定法によって行うことができる。
なお、アノテーションモデルとして、エルゴディック(Ergodic)型のHMM(状態遷移に制約がないHMM)を採用する場合には、HMMの状態数が多いと、HMMのパラメータ(初期確率πi、状態遷移確率aij、及び、出力確率分布bi(o))の初期値によっては、ローカルミニマムに収束し、適切なパラメータを得られないことがある。
そこで、「自然界の現象の殆どや、ビデオコンテンツを生み出すカメラワークや番組構成は、スモールワールドネットワークのようなスパースな結合によって表現可能である」という仮説を採用し、アノテーションモデルとしては、状態遷移を、スパース(Sparse)な構造に制約したHMMを採用することとする。
ここで、スパースな構造とは、ある状態から任意の状態への状態遷移が可能なエルゴディック型のHMMのような密な状態遷移ではなく、ある状態から状態遷移することができる状態が非常に限定されている構造(状態遷移が疎らな構造)である。
なお、ここでは、スパースな構造であっても、他の状態への状態遷移は、少なくとも1つ存在し、また、自己遷移は存在することとする。
上述したように、モデル学習部22は、特徴量抽出部21から供給される学習用コンテンツの画像特徴量、及び、テキスト特徴量を含むマルチストリームであるアノテーション用系列を用いて、マルチストリームHMMであるアノテーションモデルの学習を、例えば、Baum-Welchの再推定法によって行う。
マルチストリームHMMでは、観測値の複数の系列(ストリーム)であるマルチストリームが観測される。
そして、マルチストリームHMMでは、マルチストリームを構成する個々の系列(ストリーム)(以下、構成要素系列ともいう)に対して、その構成要素系列をマルチストリームHMMに影響させる度合いである重み(以下、系列重みともいう)を設定することができる。
系列重みにいついては、マルチストリームHMMの学習時に重要視する構成要素系列に対して、大きな系列重みを設定することで、マルチストリームHMMの学習結果が局所解に陥らないように事前知識を与えることができる。
また、マルチストリームHMMを用いた認識時(最尤状態系列を求めるとき)に、重要視しない構成要素系列に対して、小さな系列重みを設定することで、その構成要素系列の影響を(ほとんど)受けない認識結果を得ることができる。
なお、マルチストリームHMMの詳細は、例えば、田村 哲嗣, 岩野 公司, 古井 貞煕,「オプティカルフローを用いたマルチモーダル音声認識の検討」、日本音響学会 2001年秋季講演論文集, 1-1-14, pp.27-28 (2001-10)等に記載されている。
上述の文献では、audio-visual speech recognition の分野での、マルチストリームHMMの使用例が紹介されている。すなわち、音声のSN比(Signal to Noise ratio)が低いときは、音声の特徴量の系列の系列重みを低くし、音声よりも画像の影響がより大きくなるようにして、学習と認識を行うことが記載されている。
マルチストリームHMMが、マルチストリームでない単一の系列を用いるHMMと異なる点は、式(1)に示すように、マルチストリームを構成する各構成要素系列o[m]の出力確率分布b[m]j(o[m])に、事前に設定した系列重みWmを考慮して、マルチストリーム全体の出力確率分布bj(o[1],o[2],・・・,o[M])を計算する点である。
ここで、式(1)において、Mは、マルチストリームを構成する構成要素系列o[m]の数(ストリーム数)を表し、系列重みWmは、マルチストリームを構成するM個の構成要素系列のうちのm番目の構成要素系列o[m]の系列重みを表す。
いまの場合、モデル学習部22で学習に用いられるマルチストリームであるアノテーション用系列は、画像特徴量の系列o[1]とテキスト特徴量の系列o[2]との2つの構成要素系列で構成される。
この場合、系列重みW1及びW2としては、例えば、いずれも、0.5を採用することができる。
いま、例えば、1個目の構成要素系列o[1]である画像特徴量として、サブ領域特徴量をコンポーネントとするベクトルを採用するとともに、2個目の構成要素系列o[2]であるテキスト特徴量として、各単語の頻度(頻度そのもの、又は、頻度を正規化した値)を採用することとする。
この場合、1個目の構成要素系列o[1]である画像特徴量は、連続値のベクトルであり、出力確率分布(観測モデル)b[1]j(o[1])として、例えば、平均値(平均ベクトル)がμ[1]jで、分散(共分散行列)がσ2 [1]jのガウス分布N(μ[1]j,σ2 [1]j)が用いられる。
また、2個目の構成要素系列o[2]であるテキスト特徴量は、各単語の頻度(頻度そのもの、又は、頻度を正規化した値)の多項分布であり、出力確率分布b[2]j(o[2])として、多項分布が用いられる。
以上のような2つの構成要素系列o[1]及びo[2]で構成されるアノテーション用系列を用いたマルチストリームHMMの学習、すなわち、Baum-Welchの再推定法では、E(Expextation)ステップにおいて、初期確率πi、状態遷移確率aij、及び、式(1)に従って求められる出力確率分布bj(o[1],o[2])を用いて、h番目の学習用コンテンツについて、時刻t(学習用コンテンツの第tフレーム(先頭からtフレーム目))に、状態jにいる状態確率γ(h) t,jが、単一の系列を用いるHMMの学習の場合と同様にして求められる。
また、M(Maximization)ステップでは、Eステップで求められた状態確率γ(h) t,jを用いて、画像特徴量の出力確率分布(観測モデル)b[1]j(o[1])としてのガウス分布の平均値μ[1]j、及び、分散σ2 [1]jが、単一の系列を用いるHMMの学習の場合と同様に、式(2)に従って求められる。
ここで、式(2)において、Hは、学習用コンテンツの数(コンテンツ数)を表し、o(h) [1](t)は、H個の学習用コンテンツのうちのh番目の学習用コンテンツの第tフレームの画像特徴量を表す。
さらに、Mステップでは、Eステップで求められた状態確率γ(h) t,jを用いて、テキスト特徴量によって頻度が表される各単語の出力確率分布(離散シンボル観測モデル)b[2]jとしての多項分布が、多項分布を観測モデル(出力確率分布)として有するHMMの学習の場合と同様に、式(3)に従って求められる。
ここで、式(3)において、o(h) [2](t)は、H個の学習用コンテンツのうちのh番目の学習用コンテンツの第tフレームのテキスト特徴量である各単語の頻度の多項分布を表し、b[2]jは、状態sjにおいて、各単語が観測される出力確率分布である多項分布を表す。
なお、多項分布がK個のシンボルの分布を表し、各時刻tに、K個のシンボルのうちの1個のシンボルが観測される場合には、多項分布o(h) [2](t)は、時刻tに観測される1個のシンボルの分布(確率)が1であり、残りのシンボルの分布がすべて0である多項分布となる。
[特徴量抽出部21の第1の構成例]
図3は、図2の特徴量抽出部21の第1の構成例を示すブロック図である。
図3において、特徴量抽出部21は、画像取得部31、画像特徴量抽出部32、説明テキスト取得部33、テキスト特徴量抽出部34、及び、同期部35を有する。
画像取得部31は、コンテンツ記憶部11に記憶されたコンテンツの中から、説明テキストを取得することができるコンテンツを、学習用コンテンツとして選択して取得する。
さらに、画像取得部31は、学習用コンテンツから、画像を逆多重化(分離)することにより取得して、画像特徴量抽出部32に供給する。
画像特徴量抽出部32は、画像取得部31からの画像の各フレームを、時間順に、注目フレームに選択し、注目フレームから、フレームの内容(シーン)の類似性を判定するのに適した画像特徴量であるシーン特徴量を抽出し、同期部35に供給する。
説明テキスト取得部33は、例えば、コンテンツ記憶部11から、画像取得部31が取得するのと同一の学習用コンテンツを取得し、その学習用コンテンツから、字幕のテキストを逆多重化することにより取得して、説明テキストとして、テキスト特徴量抽出部34に供給する。
なお、説明テキスト取得部33では、学習用コンテンツに含まれる字幕のテキストの他、上述したように、番組メタデータサービスのサービス提供者から、番組のメタデータを取得することや、ユーザがキーボード等を操作することによって入力したテキスト、学習用コンテンツに含まれる音声の音声認識を行うことにより得られる音声認識結果としてのテキスト等を、説明テキストとして取得することができる。
テキスト特徴量抽出部34は、説明テキスト取得部33からの説明テキストとしての字幕のテキストについて、例えば、数秒や数十秒等の所定の時間長の窓を、一定間隔でずらしながら、窓内に表示される字幕のテキストに含まれる単語を、1つの文書として抽出する。
さらに、テキスト特徴量抽出部34は、文書から、その文書において各単語が出現する頻度を表す多項分布を、テキスト特徴量として抽出し、同期部35に供給する。
ここで、文書において各単語が出現する頻度を表す多項分布は、単語頻度情報、すなわち、説明テキストにおいて各単語が出現する頻度に関する情報である。
同期部35は、画像特徴量抽出部32から供給されるシーン特徴量と、テキスト特徴量抽出部34から供給されるテキスト特徴量とを、フレーム単位で同期させて出力する。
すなわち、シーン特徴量は、フレームごとに得られるので、フレーム単位に存在するが、テキスト特徴量は、文書、つまり、一定間隔でずらされる窓ごとに得られるので、フレーム単位に存在するとは限らない。
同期部35は、注目する注目フレームから抽出されたシーン特徴量と、例えば、注目フレームに時間的に最も近い位置の窓から得られた(文書から抽出された)テキスト特徴量や、注目フレーム以降の時刻の位置の窓であって、注目フレームに時間的に最も近い位置の窓から得られたテキスト特徴量とのセットが、注目フレームのシーン特徴量とテキスト特徴量とのセットになるように、画像特徴量抽出部32から供給されるシーン特徴量と、テキスト特徴量抽出部34から供給されるテキスト特徴量とを同期させ、モデル学習部22(図2)に出力する。
[テキスト特徴量の抽出]
図4ないし図6は、図3のテキスト特徴量抽出部34によるテキスト特徴量の抽出を説明する図である。
すなわち、図4は、字幕CSVデータ、及び、中間データの例を示す図である。
説明テキスト取得部33(図3)は、学習用コンテンツから、説明テキストとしての字幕のテキストを含む字幕データ(字幕ストリーム)を取得し、テキスト特徴量抽出部34に供給する。
テキスト特徴量抽出部34(図3)は、字幕データから、字幕の表示開始時刻と、説明テキストとしての字幕のテキストとを抽出する。
ここで、図4の字幕CSVデータは、コンテンツに含まれる字幕データを、CSV(カンマ区切り)表現にデコードしたデータである。
字幕CSVデータの第1列(左から1列目)のデータは、字幕の表示開始時刻としてのPTS(Presentation Time Stamp)であり、第4列のデータは、字幕のテキストである。
なお、字幕CSVデータのある行の字幕のテキストは、その行の表示開始時刻から、次の行の表示開始時刻の直前まで表示されることとする。
テキスト特徴抽出部34は、字幕CSVデータの第1列のPTSで表現された表示開始時刻を、例えば、学習用コンテンツの先頭を基準とするミリ秒で表現された時刻に変換する。
さらに、テキスト特徴抽出部34は、字幕CSVデータの第4列の字幕のテキストを形態素解析することにより、字幕のテキストを、単語(形態素)に分節化するとともに、各単語の品詞を求める。
また、テキスト特徴量抽出部34は、字幕のテキストから分節化された単語の中から、アノテーションに有用な単語を抽出する。
すなわち、テキスト特徴量抽出部34は、字幕のテキストから分節化された単語の中から、例えば、名詞、動詞、形容詞、及び、副詞等の特定の品詞の単語を、有用な単語の候補として抽出し、さらに、有用な単語の候補から、例えば、ひらがな1文字の単語や、ひらがなだけで構成される単語を削除する。
そして、テキスト特徴量抽出部34は、残った有用な単語の候補を、有用な単語に確定し、その有用な単語と、ミリ秒で表現された表示開始時刻とのセットを、テキスト特徴量の抽出に用いる中間的な中間データとする。
ここで、本件発明者が行った、実際のデータを用いた実験によれば、品詞が、名詞、及び、動詞の単語を、有用な単語の候補として抽出し、その有用な単語の候補から、ひらがな1文字の単語、ひらがなだけで構成されている単語、及び、数字を削除することで、アノテーションとして、比較的適切な単語が付与される結果が得られている。
図5は、中間データを頻度データに変換する方法を説明する図である。
テキスト特徴量抽出部34は、学習用コンテンツから中間データを求めると、その中間データを頻度データに変換する。
すなわち、テキスト特徴量抽出部34は、学習用コンテンツの時間軸に沿って、例えば、30秒の時間長の窓(窓関数)を、30秒間隔でずらしていく。そして、テキスト特徴量抽出部34は、学習用コンテンツの中間データに含まれる単語の中から、窓内(窓に対応する時間内)に表示される字幕のテキストに含まれる単語を、1つの擬似的な文書(以下、擬似文書ともいう)として抽出する。
この場合、学習用コンテンツについて、30秒ごとに、その30秒の間に表示される字幕のテキストに含まれる単語(のうちの有用な単語)を、擬似文書として得ることができる。
学習用コンテンツとして、複数のコンテンツが存在する場合には、テキスト特徴量抽出部34は、その複数のコンテンツごとに、擬似文書を得る。
なお、テキスト特徴量抽出部34において、擬似文書の抽出に用いる窓の時間長は、30秒に限定されるものではない。
また、擬似文書の抽出にあたり、窓は、一部がオーバーラップするようにずらすことができる。例えば、30秒の時間長の窓を、15秒間隔でずらすことにより、15秒間ずつオーバラップしながらずれていく窓を実現することができる。
テキスト特徴量抽出部34は、学習用コンテンツすべてについて、擬似文書を得ると、擬似文書すべてから、重複しないように単語を列挙し、各単語と、その単語にユニークな単語ID(Identification)とを対応付けて登録した単語辞書を生成する。
なお、擬似文書から生成される単語辞書は、学習用コンテンツの中間データからであっても、生成することができる。
テキスト特徴量抽出部34は、単語辞書を生成すると、その単語辞書を参照し、各擬似文書について、その擬似文書に出現する単語の頻度を求め、その単語の単語IDと対応付けた頻度データを生成する。
ここで、単語辞書は、例えば、アノテーションモデル記憶部13に供給され、単語辞書の生成に用いられた学習用コンテンツを用いた学習によって得られるアノテーションモデルとともに記憶される。
図6は、テキスト特徴量の例を示す図である。
テキスト特徴量抽出部34は、擬似文書の頻度データを、単語辞書に登録されている各単語の頻度に変換する。
すなわち、単語辞書に登録されている単語の総数がK個であり、そのうちのk番目の単語の頻度をk番目のコンポーネントとするK次元のベクトルを、登録単語頻度ベクトルということとすると、テキスト特徴量抽出部34は、擬似文書の頻度データを、登録単語頻度ベクトルに変換する。
ここで、自然言語処理では、文書の特徴量として、BoW(Bag-of-Words)と呼ばれる特徴量が用いられることがあるが、登録単語頻度ベクトルは、BoWと呼ばれる特徴量と等価である。
テキスト特徴量抽出部34は、擬似文書の頻度データを変換した登録単語頻度ベクトルの各コンポーネントを、そのコンポーネントである頻度の総和で除算し、その除算の結果られるベクトルを、テキスト特徴量として、同期部35に出力する。
以上のような擬似文書のテキスト特徴量は、擬似文書において、単語辞書に登録されている各単語が出現する頻度(確率)を表す多項分布になっている。
[学習処理]
図7は、図2の学習装置12がアノテーションモデルの学習を行う学習処理を説明するフローチャートである。
学習装置12(図2)では、ステップS11において、特徴量抽出部21は、コンテンツ記憶部11に記憶されたコンテンツの中から、例えば、字幕のテキストを含むコンテンツ等の、コンテンツの画像の内容を説明する説明テキストを取得することができるコンテンツを、学習用コンテンツとして選択し、処理は、ステップS12に進む。
ステップS12では、特徴量抽出部12は、コンテンツ記憶部11からの学習用コンテンツに含まれる画像の各フレームから、画像特徴量としてのシーン特徴量を抽出するとともに、コンテンツ記憶部11からの学習用コンテンツに含まれる説明テキストとしての字幕テキストから、各単語が出現する頻度に関する単語頻度情報を、テキスト特徴量として抽出する。
そして、特徴量抽出部12は、シーン特徴量と、テキスト特徴量とを、フレーム単位で同期させ、モデル学習部22に供給して、処理は、ステップS12からステップS13に進む。
ステップS13では、モデル学習部22は、特徴量抽出部21からの学習用コンテンツの画像特徴量、及び、テキスト特徴量を含むマルチストリームであるアノテーション用系列を用いて、マルチストリームHMMであるアノテーションモデルの学習を行う。
そして、モデル学習部22は、学習後のアノテーションモデルを、アノテーションモデル記憶部13に供給して記憶させ、学習処理は終了する。
以上の学習処理によれば、マルチストリームHMMであるアノテーションモデルにおいて、学習用コンテンツに潜む、コンテンツの構造(例えば、番組構成や、カメラワーク等が作り出す構造)が自己組織的に獲得される。
その結果、学習処理よって得られるアノテーションモデルとしてのマルチストリームHMMの各状態は、学習によって獲得されたコンテンツの構造の要素に対応し、状態遷移は、コンテンツの構造の要素どうしの間での、時間的な遷移(シーンの移り変わり)を表現する。
そして、アノテーションモデルの状態は、特徴量空間(特徴量抽出部21(図2)で抽出されるシーン特徴量及びテキスト特徴量のそれぞれの軸によって定義される空間)において、空間的な距離が近く、かつ、時間的な前後関係が似ているフレーム群(つまり「似たシーン」)をまとめて表現する。
したがって、学習処理によれば、特徴量空間が、状態分割される。
ここで、例えば、コンテンツがクイズ番組である場合には、大雑把には、クイズの出題、ヒントの提示、出演者による解答、正解発表、という流れを、番組の基本的な流れとして、この基本的な流れの繰り返しによって、クイズ番組が進行していく。
上述の番組の基本的な流れが、コンテンツの構造に相当し、その流れ(構造)を構成する、クイズの出題、ヒントの提示、出演者による解答、正解発表のそれぞれが、コンテンツの構造の要素に相当する。
また、例えば、クイズの出題から、ヒントの提示への進行等が、コンテンツの構造の要素どうしの間での、時間的な遷移に相当する。
なお、アノテーションモデルとしてのマルチストリームHMMの各状態は、その状態において、シーン特徴量(のモーダル)と、テキスト特徴量(のモーダル)とのそれぞれが観測される観測モデル(出力確率分布)を有する。
すなわち、アノテーションモデルの各状態は、各値のシーン特徴量が観測(出力)される出力確率分布と、単語辞書の各単語が観測される頻度(確率)を表す多項分布である出力確率分布とを有する。
そして、アノテーションモデルの各状態において観測される確率が高いシーン特徴量が抽出される画像と、その状態において観測される確率が高い単語とは、同時に観測されやすいので、ある状態において観測される確率が高い単語は、その状態において観測される確率が高いシーン特徴量が抽出される画像(シーン)の内容を表現している、ということができる。
したがって、アノテーションモデルの各状態において観測される確率が高い単語は、その状態において観測される確率が高いシーン特徴量が抽出される画像(フレーム)のアノテーションとして利用することができる。
すなわち、アノテーションモデルによれば、コンテンツへのアノテーションの付与を、容易に行うことができる。
[アノテーション付与装置14の構成例]
図8は、図1のアノテーション付与装置14の構成例を示すブロック図である。
アノテーション付与装置14は、特徴量抽出部41、最尤状態系列算出部42、及び、単語選択部43を有する。
特徴量抽出部41は、コンテンツ記憶部11に記憶されたコンテンツの中から、アノテーションの付与の対象とする対象コンテンツを選択し、コンテンツ記憶部11から取得する(読み出す)。
ここで、特徴量抽出部41では、対象コンテンツが、例えば、ユーザの操作に従って選択される。また、例えば、コンテンツ記憶部11に記憶されたコンテンツのうちの、まだ、対象コンテンツとして選択されていないコンテンツ(アノテーションが付与されていないコンテンツ)を、対象コンテンツとして選択することもできる。
コンテンツ記憶部11に記憶されたコンテンツの中から対象コンテンツとして選択するコンテンツは、学習用コンテンツのように、説明テキストを取得することができるコンテンツであってもよいし、説明テキストを取得することができないコンテンツであってもよい。
対象コンテンツが、説明テキストを取得することができるコンテンツである場合、すなわち、例えば、対象コンテンツが、字幕のテキストを含むコンテンツである場合、特徴量抽出部41は、学習装置12の特徴量抽出部21(図2)と同様に、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量と、説明テキストとしての字幕のテキストのテキスト特徴量としての単語頻度情報とを抽出する。
さらに、特徴量抽出部41は、フレームごとのシーン特徴量とテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部42に供給する。
また、対象コンテンツが、説明テキストを取得することができないコンテンツである場合、特徴量抽出部41は、学習装置12の特徴量抽出部21(図2)と同様に、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量を抽出する。
さらに、特徴量抽出部41は、例えば、0や1等の所定の値の多項分布であるダミーのデータ(テキスト特徴量と同一次元の多項分布)を、テキスト特徴量として用い、フレームごとのシーン特徴量とダミーのデータであるテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部42に供給する。
最尤状態系列算出部42は、アノテーションモデル記憶部13に記憶されたアノテーションモデル(マルチストリームHMM)において、特徴量抽出部41からのアノテーション用系列が観測される最尤状態系列(アノテーション用系列が観測される尤度が最も高いアノテーションモデルの状態の系列)を、例えば、Viterbiアルゴリズムに従って求め、単語選択部43に供給する。
最尤状態系列は、その最尤状態系列のt番目の状態(になっているアノテーションモデルの状態)において、対象コンテンツの第tフレームが観測されることが、尤もらしいことを表す。
ここで、マルチストリームHMMであるアノテーションモデルにおいて、ある系列(時系列データ)が観測される最尤状態系列を求めることは、その系列を、マルチストリームHMMを用いて認識(パターン認識)することに相当する。
また、アノテーション用系列は、対象コンテンツのフレーム単位のシーン特徴量とテキスト特徴量とから構成されるので、対象コンテンツのフレーム単位のサンプル値の系列であり、そのようなアノテーション用系列に対して、最尤状態系列を求めることにより、対象コンテンツの各フレームは、最尤状態系列を構成する各状態に対応付けられる。
したがって、最尤状態系列によれば、対象コンテンツの第tフレームは、最尤状態系列のt番目の状態に対応付けられるので、対象コンテンツの第tフレームが、最尤状態系列のt番目の状態にクラスタリングされているとみなすことができる。
なお、アノテーション用系列を構成するテキスト特徴量が、単語頻度情報である場合には、最尤状態系列算出部42は、最尤状態系列を求めるにあたり、式(1)に従って計算する、マルチストリームであるアノテーション用系列の出力確率分布bj(o[1],o[2],・・・,o[M])の系列重みWmを、各構成要素系列o[m]に等分配する値、すなわち、例えば、1/Mとする。
したがって、アノテーション用系列が、シーン特徴量の構成要素系列o[1]と、テキスト特徴量の構成要素系列o[2]との2種類(2モーダル)で構成される場合、系列重みW1及びW2は、いずれも、0.5にされる。
また、アノテーション用系列を構成するテキスト特徴量が、ダミーのデータである場合には、最尤状態系列算出部42は、最尤状態系列を求めるにあたり、式(1)に従って計算する、マルチストリームであるアノテーション用系列の出力確率分布bj(o[1],o[2],・・・,o[M])の系列重みWmを、テキスト特徴量の構成要素系列については、0とし、他の構成要素系列については、例えば、1/(M-1)とする。
ここで、式(1)では、系列重みWmの総和が1になるように、系列重みWmを設定するようになっているが、系列重みWmは、その総和が1以外の値になるように設定してもよい。
単語選択部43は、対象コンテンツのフレームを、順次、注目フレームとして、最尤状態系列算出部42からの最尤状態系列の、注目フレームに対応する状態において観測される単語の頻度(出力確率)の多項分布である出力確率分布において、頻度が高い単語(観測される確率が高い単語)、すなわち、例えば、頻度が最も高い単語や、頻度が上位R(>1)位以内の単語を、注目フレームに付与するアノテーション(となる単語)として選択する。
単語選択部43において、注目フレームについて、アノテーションが選択されることにより、注目フレームにアノテーションが付与される。
そして、単語選択部43は、対象コンテンツの各フレームに、アノテーションを付与すると、対象コンテンツのフレームごとに付与されたアノテーションを、アノテーション単語情報として出力する。
単語選択部43が出力するアノテーション単語情報は、例えば、コンテンツ記憶部11に供給され、対象コンテンツに対応付けて記憶される。コンテンツ記憶部11に記憶されたアノテーション単語情報は、例えば、対象コンテンツの再生時に、その対象コンテンツのフレームとともに、そのフレームに付与されるアノテーションを表示するのに用いることができる。
[アノテーション付与処理]
図9は、図8のアノテーション付与装置14が対象コンテンツにアノテーションを付与するアノテーション付与処理を説明するフローチャートである。
ステップS21において、特徴量抽出部41は、コンテンツ記憶部11に記憶されたコンテンツの中から、アノテーションの付与の対象とする対象コンテンツを選択し、コンテンツ記憶部11から取得して、処理は、ステップS22に進む。
ステップS22では、特徴量抽出部41は、対象コンテンツが、説明テキストを取得することができるコンテンツであるか、又は、説明テキストを取得することができないコンテンツであるかを判定する。
ステップS22において、対象コンテンツが、説明テキストを取得することができるコンテンツであると判定された場合、すなわち、例えば、対象コンテンツが、字幕のテキストを含むコンテンツである場合、処理は、ステップS23に進み、特徴量抽出部41は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量と、説明テキストとしての字幕のテキストのテキスト特徴量としての単語頻度情報とを抽出する。
さらに、特徴量抽出部41は、フレームごとのシーン特徴量とテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部42に供給して、処理は、ステップS23からステップS25に進む。
また、ステップS22において、対象コンテンツが、説明テキストを取得することができないコンテンツであると判定された場合、すなわち、例えば、対象コンテンツが、字幕のテキストを含まないコンテンツである場合、処理は、ステップS24に進み、特徴量抽出部41は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量を抽出する。
さらに、特徴量抽出部41は、例えば、ダミーのデータを、テキスト特徴量として用い、フレームごとのシーン特徴量とダミーのデータであるテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部42に供給して、処理は、ステップS24からステップS25に進む。
ステップS25では、最尤状態系列算出部42は、アノテーションモデル記憶部13に記憶されたアノテーションモデル(マルチストリームHMM)の中から、対象コンテンツのカテゴリに一致するカテゴリのアノテーションモデル(対象コンテンツのカテゴリに一致するカテゴリの学習用コンテンツを用いて学習が行われたアノテーションモデル)を取得する。
さらに、最尤状態系列算出部42は、アノテーションモデル記憶部13から取得したアノテーションモデルにおいて、特徴量抽出部41からのアノテーション用系列が観測される最尤状態系列を求め、単語選択部43に供給して、処理は、ステップS25からステップS26に進む。
ステップS26では、単語選択部43は、対象コンテンツのフレームを、順次、注目フレームとして、最尤状態系列算出部42からの最尤状態系列の、注目フレームに対応する状態において観測される単語の頻度の多項分布に基づいて、注目フレームに付与するアノテーション(となる単語)を選択する。
すなわち、対象コンテンツの第tフレームが注目フレームであるとすると、単語選択部43は、最尤状態系列のt番目の状態において観測される単語の頻度の多項分布において、頻度が高い単語を、第tフレームに付与するアノテーションとして選択し、これにより、第tフレームに、アノテーションが付与される。
その後、対象コンテンツのフレームのすべてに、アノテーションが付与されると、処理は、ステップS26からステップS27に進み、単語選択部43は、対象コンテンツのフレームごとに付与されたアノテーションと、そのフレームのフレーム番号(第tフレームのt)とを対応付け、アノテーション単語情報として出力し、アノテーション付与処理は、終了する。
以上のように、アノテーション付与装置14では、対象コンテンツの画像の各フレームの画像特徴量を抽出し、その画像特徴量を用いて、アノテーション用系列を構成し、アノテーションモデルにおいて、アノテーション用系列が観測される最尤状態系列を求め、最尤状態系列の状態のうちの、注目する注目フレームに対応する状態において観測される多項分布において頻度が高い単語を、注目フレームに付与するアノテーションとして選択するので、対象コンテンツへのアノテーションの付与を、容易に行うことができる。
また、アノテーション付与装置14では、対象コンテンツについて、説明テキストを取得することができる場合(説明テキストが存在する場合)には、対象コンテンツの画像の各フレームの画像特徴量と、説明テキストのテキスト特徴量とを抽出し、その画像特徴量、及び、テキスト特徴量を含むアノテーション用系列を構成し、対象コンテンツについて、説明テキストを取得することができない場合(説明テキストが存在しない場合)には、テキスト特徴量として、ダミーのデータを用い、画像特徴量、及び、ダミーのデータであるテキスト特徴量を含むアノテーション用系列を構成するので、説明テキストの存在の有無に関係なく、対象コンテンツ(の各フレーム)に、アノテーションを付与することができる。
すなわち、例えば、説明テキストとしての字幕のテキストを含む対象コンテンツについては、その対象コンテンツの字幕のテキストに出現しない単語であっても、対象コンテンツの内容を適切に表現する単語が、アノテーションモデルにおいて観測される確率が高い場合には、その単語が、アノテーションとして、対象コンテンツに付与される。
また、例えば、説明テキストとしての字幕のテキストを含まない対象コンテンツについては、説明テキストが存在しないのにもかかわらず、アノテーションが付与される。
[フレーム検索装置15の構成例]
図10は、図1のフレーム検索装置15の構成例を示すブロック図である。
フレーム検索装置15は、特徴量抽出部51、最尤状態系列算出部52、キーワード合致度算出部53、キーワード供給部54、及び、フレーム選択部55を有する。
特徴量抽出部51は、コンテンツ記憶部11に記憶されたコンテンツの中から、所定のキーワードに内容が合致するフレームであるキーワードフレームを検索する対象とする対象コンテンツを、例えば、図8の特徴量抽出部41と同様に選択し、コンテンツ記憶部11から取得する(読み出す)。
すなわち、特徴量抽出部51は、例えば、ユーザの操作に従って、対象コンテンツを選択する。また、特徴量抽出部51は、例えば、コンテンツ記憶部11に記憶されたコンテンツのうちの、まだ、対象コンテンツとして選択されていないコンテンツを、対象コンテンツとして選択する。
なお、コンテンツ記憶部11に記憶されたコンテンツの中から対象コンテンツとして選択するコンテンツは、学習用コンテンツのように、説明テキストを取得することができるコンテンツであってもよいし、説明テキストを取得することができないコンテンツであってもよい。
対象コンテンツが、説明テキストを取得することができるコンテンツである場合、すなわち、例えば、対象コンテンツが、字幕のテキストを含むコンテンツである場合、特徴量抽出部51は、図8の特徴量抽出部41と同様に、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量と、説明テキストとしての字幕のテキストのテキスト特徴量としての単語頻度情報とを抽出する。
さらに、特徴量抽出部51は、フレームごとのシーン特徴量とテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部52に供給する。
また、対象コンテンツが、説明テキストを取得することができないコンテンツである場合、特徴量抽出部51は、図8の特徴量抽出部41と同様に、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量を抽出し、ダミーのデータを、テキスト特徴量として用い、フレームごとのシーン特徴量とダミーのデータであるテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成する。
そして、特徴量抽出部51は、フレームごとのシーン特徴量とダミーのデータであるテキスト特徴量とから構成したアノテーション用系列を、最尤状態系列算出部52に供給する。
最尤状態系列算出部52は、図8の最尤状態系列算出部42と同様に、アノテーションモデル記憶部13に記憶されたアノテーションモデル(マルチストリームHMM)において、特徴量抽出部51からのアノテーション用系列が観測される最尤状態系列を求め、キーワード合致度算出部53に供給する。
キーワード合致度算出部53には、最尤状態系列52から、対象コンテンツについての最尤状態系列が供給される他、キーワード供給部54から、所定の単語(群)が、キーワードとして供給される。
キーワード合致度算出部53は、対象コンテンツのフレームを、順次、注目フレームとして、最尤状態系列算出部52からの最尤状態系列の、注目フレームに対応する状態において観測される単語の頻度の多項分布、つまり、注目フレームに対応する状態の出力確率分布において、キーワード供給部54からのキーワードが観測される確率(頻度)を、注目フレームの内容がキーワードに合致しているキーワード合致度として算出し、フレーム選択部55に供給する。
キーワード供給部54は、例えば、ユーザがキーボード等を操作することにより入力した単語を、対象コンテンツからフレームを検索するためのキーワードとして、そのキーワードを含む、検索を要求する検索クエリ(query)を、キーワード合致度算出部53に供給する。
フレーム選択部55は、コンテンツ記憶部11から、対象コンテンツを取得し、キーワード合致度選択部53からのキーワード合致度に基づいて、対象コンテンツから、キーワード(検索クエリ)に合致するキーワードフレームを選択する。
すなわち、フレーム選択部55は、例えば、対象コンテンツから、キーワード合致度選択部53からのキーワード合致度が所定の閾値(以下、検索閾値ともいう)より高いフレームを、キーワードフレームとして選択する。
そして、フレーム選択部55は、対象コンテンツから選択したキーワードフレームの時系列順の並びを、対象コンテンツのダイジェストであるキーワードダイジェストとして出力する。
なお、検索閾値は、例えば、あらかじめ設定しておくこともできるし、ユーザの操作に応じて設定することもできる。
フレーム選択部55が出力するキーワードダイジェストは、例えば、ユーザの操作に応じて再生される。この場合、ユーザは、対象コンテンツのうちの、キーワードが内容を表すシーンだけを、ダイジェストとして、視聴することができる。
ここで、キーワードダイジェストの再生については、キーワードダイジェストを構成するフレームを、その並び順(時系列順)に再生する他、キーワード合致度が高い順に再生することも可能である。
[フレーム検索処理]
図11は、図10のフレーム検索装置15が対象コンテンツからキーワードフレームを検索し、キーワードダイジェストを生成するフレーム検索処理を説明するフローチャートである。
キーワード供給部55は、例えば、ユーザの操作に応じて、キーワードを含む検索クエリを、キーワード合致度算出部53に供給する。
また、ステップS31ないしS35において、図9のステップS21ないしS25とそれぞれ同様の処理が行われる。
すなわち、ステップS31において、特徴量抽出部51は、コンテンツ記憶部11に記憶されたコンテンツの中から、アノテーションの付与の対象とする対象コンテンツを選択し、コンテンツ記憶部11から取得して、処理は、ステップS32に進む。
ステップS32では、特徴量抽出部51は、対象コンテンツが、説明テキストを取得することができるコンテンツであるか、又は、説明テキストを取得することができないコンテンツであるかを判定する。
ステップS32において、対象コンテンツが、説明テキストを取得することができるコンテンツであると判定された場合、ステップS33に進み、特徴量抽出部51は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量と、説明テキストのテキスト特徴量としての単語頻度情報とを抽出する。
さらに、特徴量抽出部51は、フレームごとのシーン特徴量とテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部52に供給して、処理は、ステップS33からステップS35に進む。
また、ステップS32において、対象コンテンツが、説明テキストを取得することができないコンテンツであると判定された場合、処理は、ステップS34に進み、特徴量抽出部51は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量を抽出する。
さらに、特徴量抽出部51は、例えば、ダミーのデータを、テキスト特徴量として用い、フレームごとのシーン特徴量とダミーのデータであるテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部52に供給して、処理は、ステップS34からステップS35に進む。
ステップS35では、最尤状態系列算出部52は、アノテーションモデル記憶部13に記憶されたアノテーションモデルの中から、対象コンテンツのカテゴリに一致するカテゴリのアノテーションモデルを取得する。
さらに、最尤状態系列算出部52は、アノテーションモデル記憶部13から取得したアノテーションモデルにおいて、特徴量抽出部51からのアノテーション用系列が観測される最尤状態系列を求め、キーワード合致度算出部53に供給して、処理は、ステップS35からステップS36に進む。
ステップS36では、キーワード合致度算出部53は、対象コンテンツのフレームを、順次、注目フレームとして、最尤状態系列算出部52からの最尤状態系列の、注目フレームに対応する状態において観測される単語の頻度の多項分布に基づいて、注目フレームのキーワード合致度を求める。
すなわち、対象コンテンツの第tフレームが注目フレームであるとすると、キーワード合致度算出部53は、最尤状態系列のt番目の状態において観測される単語の頻度の多項分布における、キーワード供給部54からの検索クエリに含まれるキーワードの頻度(キーワードが観測される確率)を、第tフレームのキーワード合致度として求める。
キーワード合致度算出部53は、対象コンテンツのフレームのすべてについて、キーワード合致度を求めると、そのキーワード合致度を、フレーム選択部55に供給して、処理は、ステップS36からステップS37に進む。
ステップS37では、フレーム選択部55は、コンテンツ記憶部11から、対象コンテンツを取得し、キーワード合致度選択部53からのキーワード合致度に基づいて、対象コンテンツから、キーワード(検索クエリ)に合致するキーワードフレームを選択する。
すなわち、フレーム選択部55は、例えば、対象コンテンツから、キーワード合致度選択部53からのキーワード合致度が検索閾値より高いフレームを、キーワードフレームとして選択し、そのキーワードフレームの時系列順の並びを、キーワードダイジェストとして出力して、フレーム検索処理を終了する。
以上のように、フレーム検索装置15では、対象コンテンツの画像の各フレームの画像特徴量を抽出し、その画像特徴量を用いて、アノテーション用系列を構成し、アノテーションモデルにおいて、アノテーション用系列が観測される最尤状態系列を求め、最尤状態系列の状態のうちの、注目する注目フレームに対応する状態において観測される単語の多項分布において、キーワードの頻度が検索閾値より高い場合に、注目フレームを、キーワードフレームとして選択するので、そのようなキーワードフレームだけのキーワードダイジェストを再生するという、アノテーションモデルを利用したアプリケーションを提供することができる。
なお、フレーム検索装置15でも、アノテーション付与装置14と同様に、対象コンテンツについて、説明テキストを取得することができる場合には、対象コンテンツの画像の各フレームの画像特徴量と、説明テキストのテキスト特徴量とを抽出し、その画像特徴量、及び、テキスト特徴量を含むアノテーション用系列を構成し、対象コンテンツについて、説明テキストを取得することができない場合には、テキスト特徴量として、ダミーのデータを用い、画像特徴量、及び、ダミーのデータであるテキスト特徴量を含むアノテーション用系列を構成するので、説明テキストの存在の有無に関係なく、対象コンテンツから、キーワードダイジェストを生成することができる。
ここで、図10及び図11では、検索クエリに、1つのキーワードだけが含まれることとして、フレーム選択部55において、そのキーワードに合致するフレーム(キーワード合致度が検索閾値より高いフレーム)を、キーワードフレームとして、対象コンテンツから検索(選択)するようにしたが、検索クエリには、複数のキーワードからなる検索式を含め、その検索式に合致するフレームを、キーワードフレームとして、対象コンテンツから検索することができる。
図12ないし図14は、複数のキーワードからなる検索式に合致するフレームを、キーワードフレームとして検索する方法を説明する図である。
例えば、いま、4つのキーワードKW#1,KW#2,KW#3,KW#4からなる検索式(KW#1 AND KW#2) OR (KW#3 AND KW#4)を含む検索クエリが、キーワード供給部54からキーワード合致度算出部53に供給されたとする。
ここで、AND検索式KW#1 AND KW#2は、キーワードKW#1とKW#2の両方に合致することを表し、OR検索式KW#1 OR KW#2は、キーワードKW#1又はKW#2に合致することを表す。検索式(KW#1 AND KW#2) OR (KW#3 AND KW#4)において、括弧()は、そのかっこ内の検索式を優先的に処理することを表す。
検索式(KW#1 AND KW#2) OR (KW#3 AND KW#4)を含む検索クエリについては、キーワード合致度算出部53は、その検索クエリに含まれるキーワードKW#1,KW#2,KW#3,KW#4のそれぞれに対して、対象コンテンツの各フレームのキーワード合致度を求める。
図12は、キーワードKW#1,KW#2,KW#3,KW#4のそれぞれに対して求められた、対象コンテンツの各フレームのキーワード合致度の例を示す図である。
図12では、キーワードKW#1に対する対象コンテンツの第tフレーム、第t+1フレーム、第t+2フレーム、第t+3フレーム、第t+4フレーム、及び、第t+5フレームのキーワード合致度は、それぞれ、100,150,20,0,0,0になっている。
また、キーワードKW#2に対する対象コンテンツの第tフレームないし第t+5フレームのキーワード合致度は、それぞれ、50,200,30,0,0,0になっている。
さらに、キーワードKW#3に対する対象コンテンツの第tフレームないし第t+5フレームのキーワード合致度は、それぞれ、0,0,0,150,40,200になっており、キーワードKW#4に対する対象コンテンツの第tフレームないし第t+5フレームのキーワード合致度は、それぞれ、0,0,0,200,100,50になっている。
キーワード合致度算出部53は、キーワードKW#1ないしKW#4のそれぞれに対するキーワード合致度を求めると、検索クエリのAND検索式については、キーワード合致度の数値minオペレーションを行い、検索クエリのOR検索式については、キーワード合致度の数値maxオペレーションを行うことによって、検索クエリ(の検索式)に対するキーワード合致度を求める。
図13は、AND検索式の演算としての数値minオペレーションを説明する図である。
キーワード合致度算出部53は、検索式(KW#1 AND KW#2) OR (KW#3 AND KW#4)のAND検索式KW#1 AND KW#2、及び、AND検索式KW#3 AND KW#4のそれぞれに従い、キーワード合致度の数値minオペレーションを行うことによって、AND検索式KW#1 AND KW#2に対するキーワード合致度と、AND検索式KW#3 AND KW#4に対するキーワード合致度とを求める。
すなわち、キーワード合致度算出部53は、AND検索式KW#1 AND KW#2に従い、対象コンテンツの各フレームについて、キーワードKW#1に対するキーワード合致度と、キーワードKW#2に対するキーワード合致度とのうちの、値が小さい方のキーワード合致度を、AND検索式KW#1 AND KW#2に対するキーワード合致度として選択する。
同様に、キーワード合致度算出部53は、AND検索式KW#3 AND KW#4に従い、対象コンテンツの各フレームについて、キーワードKW#3に対するキーワード合致度と、キーワードKW#4に対するキーワード合致度とのうちの、値が小さい方のキーワード合致度を、AND検索式KW#3 AND KW#4に対するキーワード合致度として選択する。
その結果、図13に示すように、第tフレームないし第t+5フレームの、AND検索式KW#1 AND KW#2に対するキーワード合致度は、それぞれ、100,150,100,0,0,0となり、AND検索式KW#3 AND KW#4に対するキーワード合致度は、それぞれ、0,0,0,150,40,50となる。
その後、キーワード合致度算出部53は、検索式(KW#1 AND KW#2) OR (KW#3 AND KW#4)のOR検索式に従い、キーワード合致度の数値maxオペレーションを行うことによって、そのOR検索式に対するキーワード合致度を求める。
図14は、OR検索式の演算としての数値maxオペレーションを説明する図である。
キーワード合致度算出部53は、OR検索式(KW#1 AND KW#2) OR (KW#3 AND KW#4)に従い、対象コンテンツの各フレームについて、AND検索式KW#1 AND KW#2に対するキーワード合致度と、AND検索式KW#3 AND KW#4に対するキーワード合致度とのうちの、値が大きい方のキーワード合致度を、OR検索式(KW#1 AND KW#2) OR (KW#3 AND KW#4)に対するキーワード合致度として選択する。
その結果、図14に示すように、第tフレームないし第t+5フレームの、OR検索式(KW#1 AND KW#2) OR (KW#3 AND KW#4)に対するキーワード合致度、すなわち、検索クエリの検索式(KW#1 AND KW#2) OR (KW#3 AND KW#4)に対するキーワード合致度は、それぞれ、100,150,100,150,40,50となる。
キーワード合致度算出部53は、以上のようにして、検索クエリ(の検索式(KW#1 AND KW#2) OR (KW#3 AND KW#4))に対するキーワード合致度を求めると、その検索クエリに対するキーワード合致度を、フレーム選択部55(図10)に供給する。
フレーム選択部55は、キーワード合致算出部53からの、検索クエリに対するキーワード合致度が検索閾値より高いフレームを、検索クエリに合致するキーワードフレームとして、対象コンテンツから選択する。
例えば、いま、検索閾値が、90に設定されていることとすると、図14では、第tフレームないし第t+5フレームの中の、検索クエリに対するキーワード合致度が検索閾値より高い第tフレームないし第t+3フレームが、キーワードフレームとして選択される。
[表示制御装置16の構成例]
図15は、図1の表示制御装置16の構成例を示すブロック図である。
表示制御装置16は、特徴量抽出部61、最尤状態系列算出部62、及び、表示制御部63を有する。
特徴量抽出部61は、コンテンツ記憶部11に記憶されたコンテンツの中から、アノテーションの付与の対象とする対象コンテンツを、例えば、ユーザの操作に従って選択し、コンテンツ記憶部11から取得する(読み出す)。
そして、特徴量抽出部61は、図8の特徴量抽出部41と同様に、対象コンテンツから、画像特徴量としてのシーン特徴量を抽出し、そのシーン特徴量を用いて、アノテーション用系列を構成して、最尤状態系列算出部62に供給する。
すなわち、対象コンテンツが、説明テキストを取得することができるコンテンツである場合、特徴量抽出部61は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量と、説明テキストのテキスト特徴量としての単語頻度情報とを抽出する。
さらに、特徴量抽出部61は、フレームごとのシーン特徴量とテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部62に供給する。
また、対象コンテンツが、説明テキストを取得することができないコンテンツである場合、特徴量抽出部61は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量を抽出し、ダミーのデータを、テキスト特徴量として用い、フレームごとのシーン特徴量とダミーのデータであるテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成する。
そして、特徴量抽出部61は、フレームごとのシーン特徴量とダミーのデータであるテキスト特徴量とから構成したアノテーション用系列を、最尤状態系列算出部62に供給する。
最尤状態系列算出部62は、図8の最尤状態系列算出部42と同様に、アノテーションモデル記憶部13に記憶されたアノテーションモデル(マルチストリームHMM)において、特徴量抽出部61からのアノテーション用系列が観測される最尤状態系列を求め、表示制御部63に供給する。
表示制御部63は、例えば、図8の単語選択部43と同様に、最尤状態系列算出部62からの最尤状態系列を用いて、対象コンテンツのフレームに付与されるアノテーションを求め(アノテーションとなる単語を選択し)、図示せぬディスプレイに表示させる。
すなわち、表示制御部63は、対象コンテンツのフレームを、順次、注目フレームとして、最尤状態系列算出部62からの最尤状態系列の、注目フレームに対応する状態において観測される単語の頻度(出力確率)の多項分布である出力確率分布において、頻度が高い単語(観測される確率が高い単語)を、注目フレームに付与するアノテーション(となる単語)として選択することにより、注目フレームにアノテーションを付与する。
そして、表示制御部63は、対象コンテンツの各フレームに付与されたアノテーションを、例えば、アノテーションモデルの状態ごとに、ディスプレイに表示させる。
ここで、対象コンテンツのフレームのうちの、ある状態siに対応するフレーム(最尤状態系列を構成する状態の中に、アノテーションモデルの状態siが存在する場合の、その状態siに対応するフレームすべて)については、その状態siの出力確率分布に基づいて、アノテーションが付与されるので、同一の単語が、アノテーションとして付与される。
したがって、フレームには、アノテーションモデルの状態の単位で、アノテーションが付与されるので(同一の状態siに対応するフレームには、同一のアノテーションが付与されるので)、表示制御部63では、対象コンテンツの各フレームに付与されたアノテーションを、アノテーションモデルの状態ごとに、ディスプレイに表示させることができる。
対象コンテンツの各フレームに付与されたアノテーションを、アノテーションモデルの状態ごとに表示する方法としては、例えば、モデルマップを用いる方法がある。
モデルマップは、アノテーションモデルの状態が配置されるマップであり、表示制御部63は、モデルマップ上の状態の位置の座標である状態座標を求め、その状態座標の位置に、対応する状態を配置したモデルマップを描画する。
図16は、表示制御部63で描画されるモデルマップの例を示す図である。
ここで、アノテーションモデルにおいて、対象コンテンツから得られるアノテーション用系列が観測される最尤状態系列(以下、対象コンテンツに対するアノテーションモデルの最尤状態系列ともいう)の先頭を基準とする時刻tの状態(最尤状態系列を構成する、先頭からt番目の状態)を、s(t)と表すとともに、対象コンテンツのフレーム数を、Tと表すこととする。
この場合、対象コンテンツに対するアノテーションモデルの最尤状態系列は、T個の状態s(1),S(2),・・・,s(T)の系列であり、そのうちのt番目の状態(時刻tの状態)s(t)は、対象コンテンツの時刻tのフレーム(フレームt)に対応する。
また、アノテーションモデルの状態の総数をNと表すこととすると、時刻tの状態s(t)は、アノテーションモデルを構成するN個の状態s1,s2,・・・,sNのうちのいずれかである。
いま、対象コンテンツに対するアノテーションモデルの最尤状態系列の時刻tの状態s(t)が、N個の状態s1ないしsNのうちのi番目の状態siであるとすると、時刻tのフレームは、状態siに対応する。
したがって、最尤状態系列が求められることにより、対象コンテンツの各フレームは、アノテーションモデルのN個の状態s1ないしsNのうちのいずれかに対応付けられる。
対象コンテンツに対するアノテーションモデルの最尤状態系列の実体は、対象コンテンツの各時刻tのフレームが対応する、N個の状態s1ないしsNのうちのいずれかの状態の状態IDの系列である。
表示制御部63(図15)は、アノテーションモデル記憶部13に記憶されたアノテーションモデル(最尤状態系列を求めるのに用いられたアノテーションモデル)の1つの状態siから他の1つの状態sjへの状態間距離dij *を、1つの状態siから他の1つの状態sjへの状態遷移確率aijに基づいて求める。
ここで、表示制御部63は、例えば、状態遷移確率aijが所定の閾値(例えば、(1/N)×10-2)より大である場合、状態間距離dij *を、例えば、0.1(小さい値)とし、状態遷移確率aijが所定の閾値以下である場合、状態間距離dij *を、例えば、1.0(大きい値)とする。
表示制御部63は、アノテーションモデルのN個の状態の任意の状態siから任意の状態sjへの状態間距離dij *を求めると、その状態間距離dij *をコンポーネントとするN行N列の行列(状態間距離行列)を用いて、状態座標Yiを求める。
すなわち、表示制御部63は、アノテーションモデルのN個の状態s1ないしsNが配置されるマップであるモデルマップ上の、1つの状態siから他の1つの状態sjへのユークリッド距離dijと、状態間距離行列の状態間距離dij *との誤差が小さくなるように、モデルマップ上の状態siの位置の座標である状態座標Yiを求める。
具体的には、例えば、表示制御部63は、ユークリッド距離dijと、状態間距離dij *との統計的な誤差に比例するSammon Mapのエラー関数Eを最小にするように、状態座標Yiを求める。
ここで、Sammon Mapは、多次元尺度法の1つであり、その詳細は、例えば、J. W. Sammon, JR., "A Nonlinear Mapping for Data Structure Analysis", IEEE Transactions on Computers, vol. C-18, No. 5, May 1969に記載されている。
Sammon Mapでは、例えば、式(4)のエラー関数Eを最小にするように、例えば、2次元のマップであるモデルマップ上の状態座標Yi=(xi,yi)(x座標とy座標)が求められる。
ここで、式(4)において、Nは、アノテーションモデルの状態の総数を表し、i及びjは、1ないしNの範囲の整数値をとる、状態を特定する状態IDである。
dij *は、状態間距離行列の第i行第j列の要素(コンポーネント)を表し、状態siから状態sjへの状態間距離を表す。dijは、モデルマップ上の、状態siの位置の座標(状態座標)Yiと、状態sjの位置の座標Yjとの間のユークリッド距離を表す。
表示制御部63は、式(4)のエラー関数Eが最小になるように、状態座標Yi(i=1,2,・・・,N)を、勾配法の反復適用により求める。
そして、表示制御部63は、状態座標Yiの位置に、対応する状態si(の画像)を配置したモデルマップ(のグラフィクス)を描画する。また、表示制御部63は、モデルマップ上の状態どうしの間を、その状態どうしの間の状態遷移確率に応じて結ぶ線分を描画する。
さらに、表示制御部63は、モデルマップ上の状態siの位置に、その状態siに対応するフレームを代表する代表画像や、その状態siに対応するフレームに付与されたアノテーションを配置し、ディスプレイに表示させる。
なお、表示制御部63は、コンテンツ記憶部11から対象コンテンツを取得し、その対象コンテンツの、状態siに対応するフレームのうちの、表示時刻(再生時刻)が最も早いフレーム(コンテンツの、より先頭側のフレーム)を縮小することで得られるサムネイル等を、状態siに対応するフレームの代表画像として生成する。
ここで、状態siに対応するフレームの代表画像としては、状態siに対応するフレームのうちの、表示時刻が最も早いフレーム(先頭のフレーム)だけを用いた静止画のサムネイルの他、例えば、先頭側の複数フレームを用いた、アニメーションGIFのような動画のサムネイルを採用することが可能である。
図16は、表示制御部63によって表示されるモデルマップのみの表示例(代表画像とアノテーションが配置されていないモデルマップの表示例)を示している。
図16のモデルマップにおいて、楕円は、状態を表し、楕円どうしを結ぶ線分(点線)は、状態遷移を表す。また、楕円に付してある数字は、その楕円が表す状態の状態IDを表す。
表示制御部63は、上述したようにして求められる状態座標Yiの位置に、対応する状態si(の画像(図16では、楕円))を配置したモデルマップ(のグラフィクス)を描画する。
さらに、表示制御部63は、モデルマップ上の状態どうしの間を、その状態どうしの間の状態遷移確率に応じて結ぶ線分を描画する。すなわち、表示制御部63は、モデルマップ上の状態siから他の状態sjへの状態遷移確率が、所定の閾値より大である場合には、それらの状態siとsjとの間を結ぶ線分を描画する。
ここで、モデルマップにおいて、状態等は、強調して描画することができる。
すなわち、図16のモデルマップにおいて、状態siは、楕円(円を含む)等で描画されるが、この状態siを表す楕円等は、例えば、その状態siの出力確率分布bi(o)の最大値等に応じて、半径や色を変化させて描画することができる。
また、モデルマップ上の状態どうしの間を、その状態どうしの間の状態遷移確率に応じて結ぶ線分は、状態遷移確率の大きさに応じて、線分の幅や色を変化させて描画することができる。
ところで、図15の表示制御部63において、式(4)のエラー関数Eを、そのまま採用し、エラー関数Eを最小にするように、モデルマップ上の状態座標Yiを求めた場合、状態(を表す楕円)は、図16に示したように、モデルマップ上に、円状に配置される。
そして、この場合、円状のモデルマップの円周付近(外側)(外縁)に、状態が密集し、状態の配置が見にくくなって、いわば、可視性が損なわれることがある。
そこで、図15の表示制御部63では、式(4)のエラー関数Eを修正し、修正後のエラー関数Eを最小にするように、モデルマップ上の状態座標Yiを求めることができる。
すなわち、表示制御部63では、ユークリッド距離dijが、所定の閾値THd(例えば、THd=1.0等)より大であるかどうかを判定する。
そして、ユークリッド距離dijが、所定の閾値THdより大でない場合には、表示制御部63は、式(4)のエラー関数の演算において、ユークリッド距離dijとして、そのユークリッド距離dijを、そのまま用いる。
一方、ユークリッド距離dijが、所定の閾値THdより大である場合には、表示制御部63は、式(4)のエラー関数の演算において、ユークリッド距離dijとして、状態間距離dij *を用いる(dij=dij *とする)(ユークリッド距離dijを、状態間距離dij *に等しい距離とする)。
この場合、モデルマップにおいて、ユークリッド距離dijが、ある程度近い(閾値THdより大でない)2つの状態si及びsjに注目したときには、状態座標Yi及びYjは、ユークリッド距離dijと状態間距離dij *とが一致するように(ユークリッド距離dijが状態間距離dij *に近づくように)変更される。
一方、モデルマップにおいて、ユークリッド距離dijが、ある程度遠い(閾値THdより大の)2つの状態si及びsjに注目したときには、状態座標Yi及びYjは、変更されない。
その結果、ユークリッド距離dijが、ある程度遠い2つの状態si及びsjは、ユークリッド距離dijが遠いままとされるので、図16に示したように、モデルマップの円周(外縁)付近に、状態が密集することによって、可視性が損なわれることを防止することができる。
図17は、修正後のエラー関数Eを用いて得られるモデルマップの表示例を示す図である。
図17のモデルマップによれば、円周付近に、状態が密集していないことを確認することができる。
図18及び図19は、表示制御部63によって表示される、代表画像とアノテーションとが配置されたモデルマップの表示例を示す図である。
なお、図19は、図18の太線の楕円で囲む部分を拡大した拡大図である。
図18及び図19では、状態siは、矩形で描画されている。
但し、図18及び図19のモデルマップでは、アノテーションモデルの状態の中で、対応するフレーム(対象コンテンツのフレーム)が存在する状態だけが、矩形で描画されており、対応するフレームが存在しない状態は、描画されていない(状態遷移を表す線分どうしの交点として描画されている)。
また、対応するフレームが存在する状態を表す矩形には、その状態に対応するフレームの代表画像が表示(配置)され、さらに、下部には、その状態に対応するフレームに付与されたアノテーションとしての単語が表示されている。
表示制御部63では、例えば、ユーザが再生を要求したコンテンツを、対象コンテンツとして、その対象コンテンツについて、図18及び図19に示したような、代表画像とアノテーションとが配置されたモデルマップを表示させることができる。
さらに、表示制御部63では、現在再生されているフレーム(以下、再生フレームともいう)に対応する状態については、代表画像に代えて、再生フレームの画像を、代表画像より大きく表示させることができる。
また、表示制御部63では、再生フレームに対応する状態については、アノテーションも、他の状態より大きく表示させることができる。
さらに、表示制御部63では、ユーザにより、代表画像が指定されたときに、その代表画像が表示された状態に対応するフレームのうちの、例えば、表示時刻が最も早いフレームから再生を開始するように、対象コンテンツの再生制御を行うことができる。
ここで、アノテーションモデルの状態に対応するフレームに付与されるアノテーションを、状態のアノテーションともいい、アノテーションモデルの状態に対応するフレームの代表画像を、状態の代表画像ともいう。
以上のように、対象コンテンツについて、アノテーションモデルの状態ごとに、その状態のアノテーション及び代表画像を表示することにより、ユーザは、アノテーションや代表画像を参照することにより、興味がある内容のフレームを(の集まり)、容易に探し出すことができ、そのフレームからの再生を行うことができる。
したがって、ユーザが、状態のアノテーションを見て、再生を開始するフレームを指定するという、アノテーションを利用したアプリケーションを提供することができる。
[表示制御処理]
図20は、図15の表示制御装置16がモデルマップを表示させる表示制御処理を説明するフローチャートである。
ステップS51ないしS55において、表示制御装置16では、図9のステップS21ないしS25とそれぞれ同様の処理が行われる。
すなわち、ステップS51において、特徴量抽出部61は、コンテンツ記憶部11に記憶されたコンテンツの中から、ユーザの操作に従って再生が指示されたコンテンツを、アノテーションの付与の対象とする対象コンテンツとして選択し、コンテンツ記憶部11から取得して、処理は、ステップS52に進む。
ステップS52では、特徴量抽出部61は、対象コンテンツが、説明テキストを取得することができるコンテンツであるか、又は、説明テキストを取得することができないコンテンツであるかを判定する。
ステップS52において、対象コンテンツが、説明テキストを取得することができるコンテンツであると判定された場合、ステップS53に進み、特徴量抽出部61は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量と、説明テキストのテキスト特徴量としての単語頻度情報とを抽出する。
さらに、特徴量抽出部61は、フレームごとのシーン特徴量とテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部62に供給して、処理は、ステップS53からステップS55に進む。
また、ステップS52において、対象コンテンツが、説明テキストを取得することができないコンテンツであると判定された場合、処理は、ステップS54に進み、特徴量抽出部61は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量を抽出する。
さらに、特徴量抽出部61は、例えば、ダミーのデータを、テキスト特徴量として用い、フレームごとのシーン特徴量とダミーのデータであるテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部62に供給して、処理は、ステップS54からステップS55に進む。
ステップS55では、最尤状態系列算出部62は、アノテーションモデル記憶部13に記憶されたアノテーションモデルの中から、対象コンテンツのカテゴリに一致するカテゴリのアノテーションモデルを取得する。
さらに、最尤状態系列算出部62は、アノテーションモデル記憶部13から取得したアノテーションモデルにおいて、特徴量抽出部61からのアノテーション用系列が観測される最尤状態系列を求め、表示制御部63に供給して、処理は、ステップS55からステップS56に進む。
ここで、対象コンテンツについて、最尤状態系列が求められることにより、対象コンテンツの第tフレームは、アノテーションモデルの状態のうちの、最尤状態系列のt番目の状態になっている状態に対応付けられる。
ステップS56では、表示制御部63は、コンテンツ記憶部11から対象コンテンツを取得する。さらに、表示制御部63は、アノテーションモデル記憶部13に記憶されたアノテーションモデルの各状態について、その状態に対応する、対象コンテンツのフレームを用いて、状態(に対応するフレーム)の代表画像を生成し、処理は、ステップS56からステップS57に進む。
すなわち、いま、アノテーションモデルのある状態に注目すると、表示制御部63は、注目する注目状態に対応する、対象コンテンツのフレームのうちの、表示時刻が最も早いフレームを縮小することで得られるサムネイルを、注目状態の代表画像として生成する。
なお、注目状態に対応するフレームが存在しない場合(最尤状態系列に、注目状態が存在しない場合)、注目状態については、代表画像は生成されない。
ステップS57では、表示制御部63は、アノテーション付与装置14(図18)と同様に、対象コンテンツのフレームを、順次、注目フレームとして、最尤状態系列算出部62からの最尤状態系列の、注目フレームに対応する状態において観測される単語の頻度の多項分布に基づいて、頻度(出力確率)が高い単語を、注目フレームに付与するアノテーション(となる単語)として選択し、これにより、注目フレームに、アノテーションを付与する。
ここで、ある状態に対応するフレームには、同一のアノテーションが付与されるので、対象コンテンツの各フレームに、アノテーションを付与することは、状態にアノテーションを付与することと等価である。
なお、状態へのアノテーションの付与は、その状態に対応するフレームへのアノテーションの付与と同様に、その状態において観測される単語の頻度の多項分布に基づいて、頻度(出力確率)が高い単語を、状態に付与するアノテーション(となる単語)として選択することにより行うことができる。
ステップS57において、対象コンテンツのフレームのすべてに、アノテーションが付与されると、処理は、ステップS58に進み、表示制御部63は、アノテーションモデル記憶部13に記憶されたアノテーションモデル(対象コンテンツについて、最尤状態系列を求めるのに用いられたアノテーションモデル)を用い、上述したようにして、モデルマップ(図16、図17)を生成する。
そして、処理は、ステップS58からステップS59に進み、表示制御部63は、モデルマップを、ディスプレイに表示させる。
さらに、表示制御部63は、ステップS56で生成された代表画像、及び、ステップS57で求められたアノテーションを用い、モデルマップ上の各状態(但し、対象コンテンツについて求められた最尤状態系列を構成しない状態を除く)に、その状態の代表画像とアノテーションとを表示させる。
その後、処理は、ステップS59からステップS60に進み、表示制御部63は、対象コンテンツの再生制御を行う。
すなわち、表示制御部63は、例えば、対象コンテンツの最初のフレームから再生を開始させ、図18に示したように、モデルマップ上の、現在再生されているフレーム(再生フレーム)に対応する状態については、代表画像に代えて、再生フレームの画像を、代表画像より大きく表示させるとともに、アノテーションを、他の状態より大きく表示させる。
さらに、表示制御部63は、例えば、ユーザにより、モデルマップ上の、代表画像及びアノテーションが表示された状態が指定されると、いま、再生フレームになっているフレームの再生を終了させ、ユーザにより指定された状態に対応するフレームのうちの、表示時刻が最も早いフレームを、再生フレームとして、再生を再開させる。
以上のように、表示制御装置16では、対象コンテンツの画像の各フレームの画像特徴量を抽出し、その画像特徴量を用いて、アノテーション用系列を構成し、アノテーションモデルにおいて、アノテーション用系列が観測される最尤状態系列を求め、最尤状態系列の状態のうちの、注目する注目フレームに対応する状態において観測される多項分布において頻度が高い単語を、注目フレームに付与するアノテーションとして選択し、例えば、モデルマップを用いた表示形式(図18、図19)で、アノテーションモデルの状態ごとに、状態に対応するフレームに付与するアノテーションを表示させるので、ユーザは、対象コンテンツに付与されたアノテーションを、一覧することができる。
また、表示制御装置16によれば、アノテーションが表示されるモデルマップ上の状態が指定されると、その状態に対応するフレームの再生を開始するという、アノテーションを利用したアプリケーションを提供することができる。
さらに、表示制御装置16でも、アノテーション付与装置14、及び、フレーム検索装置15と同様に、対象コンテンツについて、説明テキストを取得することができる場合には、対象コンテンツの画像の各フレームの画像特徴量と、説明テキストのテキスト特徴量とを抽出し、その画像特徴量、及び、テキスト特徴量を含むアノテーション用系列を構成し、対象コンテンツについて、説明テキストを取得することができない場合には、テキスト特徴量として、ダミーのデータを用い、画像特徴量、及び、ダミーのデータであるテキスト特徴量を含むアノテーション用系列を構成するので、説明テキストの存在の有無に関係なく、対象コンテンツについて、アノテーションを表示することができる。
ここで、対象コンテンツのフレームに付与されたアノテーションの、アノテーションモデルの状態ごとの表示は、モデルマップを用いた表示形式(図18、図19)以外の表示形式(ビュー)で行うことが可能である。
すなわち、対象コンテンツのフレームに付与されたアノテーションの、アノテーションモデルの状態ごとの表示は、状態のアノテーションを、例えば、一方向に並べた表示形式や、2次元の表形式に並べた表示形式等で表示することが可能である。
なお、学習装置12の特徴量抽出部21(図2)、アノテーション付与装置14の特徴量抽出部41(図8)、フレーム検索装置15の特徴量抽出部51(図10)、及び、表示制御装置16の特徴量抽出部61(図15)は、学習装置12の特徴量抽出部21(図2)によって兼用することが可能である。
また、アノテーション付与装置14の最尤状態系列算出部42(図8)、フレーム検索装置15の最尤状態系列算出部52(図10)、及び、表示制御装置16の最尤状態系列算出部62(図16)は、そのうちのいずれか1つによって兼用することが可能である。
[特徴量抽出部21の第2の構成例]
図21は、図2の特徴量抽出部21の第2の構成例を示すブロック図である。
なお、図21において、図3の場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
図21の特徴量抽出部21は、画像取得部31、説明テキスト取得部33、テキスト特徴量抽出部34、及び、同期部35を有する点で、図3の場合と共通する。
但し、図21の特徴量抽出部21は、画像特徴量抽出部32に代えて、画像特徴量抽出部101が設けられているとともに、音声取得部102、及び、音声特徴量抽出部103が新たに設けられている点で、図3の場合と相違する。
画像特徴量抽出部101は、第1画像特徴量抽出部1011、第2画像特徴量抽出部1012、及び、第3画像特徴量抽出部1013を有し、画像取得部31から供給される画像の各フレームから、複数種類の画像特徴量として、例えば、第1画像特徴量、第2画像特徴量、及び、第3画像特徴量を抽出し、同期部35に供給する。
すなわち、第1画像特徴量抽出部1011は、画像取得部31からの画像の各フレームを、時間順に、注目フレームに選択し、注目フレームから、例えば、図3の画像特徴量抽出部32と同様にして、シーン特徴量を、第1画像特徴量として抽出し、同期部35に供給する。
第2画像特徴量抽出部1012は、画像取得部31からの画像の各フレームを、時間順に、注目フレームに選択し、注目フレームから、例えば、人物が映っている領域を囲む最小の矩形の領域である人物矩形領域を検出する。
さらに、第2画像特徴量抽出部1012は、注目フレームを、複数の小領域であるサブ領域に分割し、各サブ領域について、そのサブ領域に存在する人物矩形領域のピクセル数を、サブ領域のピクセル数で除算することによって、サブ領域に占める人物矩形領域の割合(以下、人物矩形領域率ともいう)を求める。
そして、第2画像特徴量抽出部1012は、注目フレームの各サブ領域の人物矩形領域率をコンポーネントとするベクトルを構成し、そのベクトルを、注目フレームから抽出された第2画像特徴量として、同期部35に供給する。
第3特徴量抽出部1012は、画像取得部31からの画像の各フレームを、時間順に、注目フレームに選択し、注目フレームから、例えば、人物の顔が映っている領域を囲む最小の矩形の領域である顔矩形領域を検出する。
さらに、第3画像特徴量抽出部1013は、注目フレームを、複数の小領域であるサブ領域に分割し、各サブ領域について、そのサブ領域に存在する顔矩形領域のピクセル数を、サブ領域のピクセル数で除算することによって、サブ領域に占める顔矩形領域の割合(以下、顔矩形領域率ともいう)を求める。
そして、第3画像特徴量抽出部1013は、注目フレームの各サブ領域の顔矩形領域率をコンポーネントとするベクトルを構成し、そのベクトルを、注目フレームから抽出された第3画像特徴量として、同期部35に供給する。
なお、画像特徴量抽出部101において抽出する複数種類の画像特徴量は、上述したような第1画像特徴量ないし第3画像特徴量に限定されるものではない。
音声取得部102は、例えば、コンテンツ記憶部11から、画像取得部31が取得するのと同一の学習用コンテンツを取得し、その学習用コンテンツから、音声を逆多重化(分離)することにより取得して、音声特徴量抽出部103に供給する。
音声特徴量抽出部103は、音声取得部102からの音声から、音声特徴量を抽出し、同期部35に供給する。
すなわち、例えば、音声特徴量抽出部103は、音声分類(sound classification, audio classification)の分野で利用されているような、音声からシーン(例えば、「音楽」、「非音楽」、「ノイズ」、「人の声」、「人の声+音楽」、および「観衆」など)を分類するのに適した音声特徴量を生成するための原始的な特徴量であるプリミティブ特徴量を抽出する。
ここで、プリミティブ特徴量としては、例えば、音声のエネルギーや、ゼロ交差レート、スペクトル重心等がある。プリミティブ特徴量の抽出の方法については、例えば、「Zhu Liu; Jincheng Huang; Yao Wang; Tsuhan Chen, Audio feature extraction and analysis for scene classification, First Workshop on Multimedia Signal Processing, 1997., IEEE Volume, Issue , 23-25 Jun 1997 Page(s):343 - 348」、および「Brezeale, D. Cook, D.J., Automatic Video Classification: A Survey of the Literature, IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews, May 2008, Volume: 38, Issue: 3, pp. 416-430」に記載されている。
音声特徴量抽出部103は、例えば、0.05秒等の時間長の窓を、0.05秒等の一定間隔でずらしながら、窓内の音声から、1種類以上のプリミティブ特徴量を抽出する。
さらに、音声特徴量抽出部103は、プリミティブ特徴量を抽出した時刻を、順次、注目時刻として注目し、注目時刻の前後の0.5秒等の間のプリミティブ特徴量の平均値と分散等の統計量を求め、その平均値と分散をコンポーネントとするベクトルを、注目時刻の音声特徴量として、同期部35に供給する。
なお、図21において、同期部35は、画像特徴量抽出部101から供給される第1画像特徴量ないし第3画像特徴量、音声特徴量抽出部103から供給される音声特徴量、及び、テキスト特徴量抽出部34から供給されるテキスト特徴量を、フレーム単位で同期させて出力する。
すなわち、同期部35は、例えば、注目する注目フレームから抽出された第1画像特徴量ないし第3画像特徴量、注目フレームの開始時刻等の所定の時刻に最も近い時刻の音声特徴量、及び、注目フレーム以降の時刻の位置の窓であって、注目フレームに時間的に最も近い位置の窓から得られたテキスト特徴量のセットが、注目フレームの第1画像特徴量ないし第3画像特徴量、音声特徴量、及び、テキスト特徴量のセットになるように、画像特徴量抽出部101から供給される第1画像特徴量ないし第3画像特徴量、音声特徴量抽出部103から供給される音声特徴量、及び、テキスト特徴量抽出部34から供給されるテキスト特徴量を同期させ、モデル学習部22(図2)に出力する。
この場合、モデル学習部22は、特徴量抽出部21から供給される学習用コンテンツの第1画像特徴量ないし第3画像特徴量、音声特徴量、及び、テキスト特徴量を含むマルチストリームを、コンテンツにアノテーションを付与するためのアノテーション用のアノテーション用系列として、そのアノテーション用系列を用いて、マルチストリームHMMであるアノテーションモデルの学習を行う。
したがって、この場合、モデル学習部22で学習に用いられるマルチストリームであるアノテーション用系列は、第1画像特徴量ないし第3画像特徴量、音声特徴量、及び、テキスト特徴量の5つの構成要素系列o[1],o[2],o[3],o[4],o[5]で構成される。
そして、そのようなアノテーション用系列を用いて学習が行われることにより得られるアノテーションモデルの状態は、第1画像特徴量ないし第3画像特徴量、音声特徴量、及び、テキスト特徴量の(5つのモーダルの)軸によって定義される空間である特徴量空間において、空間的な距離が近く、かつ、時間的な前後関係が似ているフレーム群をまとめて表現する(特徴量空間を状態分割する)。
なお、図21に示したように、学習装置12の特徴量抽出部21において、第1画像特徴量ないし第3画像特徴量、音声特徴量、及び、テキスト特徴量の5つの特徴量が抽出される場合には、アノテーション付与装置14の特徴量抽出部41(図8)、フレーム検索装置15の特徴量抽出部51(図10)、及び、表示制御装置16の特徴量抽出部61(図15)でも、特徴量抽出部21と同様に、第1画像特徴量ないし第3画像特徴量、音声特徴量、及び、テキスト特徴量の5つの特徴量が抽出され、その5つの特徴量を含むアノテーション用系列を用いて、処理が行われる。
但し、アノテーション付与装置14の特徴量抽出部41(図8)、フレーム検索装置15の特徴量抽出部51(図10)、及び、表示制御装置16の特徴量抽出部61(図15)では、対象コンテンツが、説明テキストを取得することができないコンテンツである場合には、テキスト特徴量としては、上述したように、ダミーのデータが用いられる。
以上のように、アノテーション用系列を、多数の種類の特徴量である第1画像特徴量ないし第3画像特徴量、音声特徴量、及び、テキスト特徴量から構成することにより、アノテーション用系列をシーン特徴量とテキスト特徴量とから構成する場合に比較して、コンテンツを、より適切に(精度良く)、内容が類似するフレームに分類することができる(最尤状態系列を求めたときに、内容が類似するフレームが、同一の状態に対応するようになる)。
なお、音声特徴量としては、上述したプリミティブ特徴量(の平均値や分散)の他、音声認識等の音声処理で用いられている、例えば、MFCC(Mel Frequency Cepstrum Coefficient)等を採用することができる。
[特徴量抽出部21の第3の構成例]
図22は、図2の特徴量抽出部21の第3の構成例を示すブロック図である。
なお、図22において、図3の場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
図22の特徴量抽出部21は、画像取得部31、画像特徴量抽出部32、説明テキスト取得部33、テキスト特徴量抽出部34、及び、同期部35を有する点で、図3の場合と共通する。
但し、図22の特徴量抽出部21は、基底空間学習部151、基底空間データ記憶部152、次元圧縮部153、基底空間学習部161、基底空間データ記憶部162、及び、次元圧縮部153が新たに設けられている点で、図3の場合と相違する。
基底空間学習部151には、画像特徴量抽出部32から、学習用コンテンツの画像特徴量が供給される。
基底空間学習部151は、画像特徴量を写像するための、画像特徴量の次元より小さい次元の画像用基底空間の基底空間データを、画像特徴量抽出部32からの画像特徴量を用いて求め、基底空間データ記憶部152に供給する。
基底空間データ記憶部152は、基底空間学習部151からの画像用基底空間の基底空間データを記憶する。
次元圧縮部153には、画像特徴量抽出部32から、学習用コンテンツの画像特徴量が供給される。
次元圧縮部153は、基底空間データ記憶部152に記憶された画像用基底空間の基底空間データに基づき、画像特徴量抽出部32からの画像特徴量の次元を小さくする次元圧縮を行い、次元圧縮後の画像特徴量を、同期部35に供給する。
ここで、画像特徴量抽出部32で抽出される画像特徴量は、ベクトルであり、基底空間学習部151は、画像特徴量抽出部32からの学習用コンテンツの画像特徴量を用い、例えば、k-means法により、ベクトル量子化に用いるコードブックを、画像用基底空間の基底空間データとして求める。
そして、次元圧縮部153は、画像用基底空間の基底空間データとしてのコードブックを用いて、画像特徴量抽出部32からの画像特徴量のベクトル量子化を行うことにより次元圧縮を行い、コードブックに登録されたセントロイドベクトルのうちの、画像特徴量抽出部32からの画像特徴量としてのベクトルとの距離が最も近いセントロイドベクトルを表すコード(スカラの離散値)を、次元圧縮後の画像特徴量として求める。
したがって、次元圧縮部153では、画像特徴量抽出部32からの画像特徴量としての所定の次元のベクトルが、1次元のコードに次元圧縮されるが、この次元圧縮は、1次元のコードの空間を、画像用基底空間として、所定の次元のベクトルを、画像用基底空間に写像していると捉えることができる。
なお、画像特徴量の次元圧縮は、ベクトル量子化の他、例えば、HMMやSOM(Self Organizing Maps)を用いて行うことができる。
すなわち、画像特徴量抽出部32で抽出される画像特徴量を用いて、HMMの学習を行い、学習後のHMMにおいて、画像特徴量の時系列が観測される最尤状態系列を求め、その最尤状態系列において、各画像特徴量に対応する状態の状態IDを、次元圧縮後の画像特徴量として求めることができる。
また、例えば、画像特徴量抽出部32で抽出される画像特徴量を用いて、SOMの学習を行い、学習後のSOMに対して、画像特徴量を入力したときに、勝者(winner)となるノードを表すIDを、次元圧縮後の画像特徴量として求めることができる。
基底空間学習部161には、テキスト特徴量抽出部34から、学習用コンテンツのテキスト特徴量が供給される。
基底空間学習部161は、テキスト特徴量を写像するための、テキスト特徴量の次元より小さい次元のテキスト用基底空間の基底空間データを、テキスト特徴量抽出部34からのテキスト特徴量を用いて求め、基底空間データ記憶部162に供給する。
基底空間データ記憶部162は、基底空間学習部161からのテキスト用基底空間の基底空間データを記憶する。
次元圧縮部163には、テキスト特徴量抽出部34から、学習用コンテンツのテキスト特徴量が供給される。
次元圧縮部163は、基底空間データ記憶部162に記憶されたテキスト用基底空間の基底空間データに基づき、テキスト特徴量抽出部34からのテキスト特徴量の次元を小さくする次元圧縮を行い、次元圧縮後のテキスト特徴量を、同期部35に供給する。
ここで、テキスト特徴量抽出部34で抽出されるテキスト特徴量は、説明テキストにおいて各単語が出現する頻度に関する単語頻度情報であり、例えば、図5及び図6で説明したように、所定の窓内(窓に対応する時間内)に表示される字幕のテキストに含まれる単語を、擬似文書として得られる、その擬似文書に、K個の単語が登録された単語辞書(図5)の各単語が出現する頻度をコンポーネントとするK次元のベクトル(登録単語頻度ベクトル)である。
基底空間学習部161は、擬似文書から得られるテキスト特徴量としての登録単語頻度ベクトルを用いて、例えば、LDA(Latent Dirichlet Allocation)の学習を行うことにより、LDAのパラメータを、テキスト用基底空間の基底空間データとして求める。
そして、次元圧縮部163は、テキスト用基底空間の基底空間データとしてのLDAのパラメータを用いて、擬似文書から得られたテキスト特徴量を、その擬似文書に対するLDAの各潜在トピックの尤度であるトピック尤度に変換し、トピック尤度が最大の潜在トピックを表すトピックラベル(スカラの離散値)を、次元圧縮後のテキスト特徴量として求める。
したがって、次元圧縮部163では、テキスト特徴量抽出部34からのテキスト特徴量としてのK次元の登録単語頻度ベクトルが、1次元のトピックラベルに次元圧縮されるが、この次元圧縮は、1次元のトピックラベルの空間を、テキスト用基底空間として、K次元の登録単語頻度ベクトルを、テキスト用基底空間に写像していると捉えることができる。
図23は、図22の基底空間学習部161が、テキスト用基底空間の基底空間データとしてのLDAのパラメータを求める、LDAの学習を説明する図である。
基底空間学習部161は、擬似文書から得られるテキスト特徴量としての登録単語頻度ベクトルを用いて、LDAの学習を行うことにより、LDAのパラメータを求める。
LDAについては、例えば、David M. Blei, Andrew Y. Ng, Michael I. Jordan 著 “Latent Dirichlet Allocation”, Journal of Machine Learning Research 3 (2003) 993-1022.等に記載されている。
ここで、図23では、擬似文書から得られるテキスト特徴量としての登録単語頻度ベクトルの代わりに、図5で説明した頻度データ、すなわち、単語辞書に登録されているK個の単語のうちの、擬似文書に出現する単語の単語IDと、その単語の出現頻度(擬似文書に出現する頻度)とを対応付けた頻度データを図示してある。テキスト特徴量としての登録単語頻度ベクトルと、頻度データとは、等価なデータである。
LDAのパラメータとしては、いわゆるαパラメータ及びβパラメータが求められるとともに、LDAの潜在トピックtopic(をトピックとする文書)において、単語辞書に登録された単語wordが生起される(対数)生起確率log(P(word|topic))が、単語辞書に登録された各単語(学習用コンテンツから得られる擬似文書に出現するすべての単語それぞれ)と、LDAの各潜在トピックとの組み合わせすべてについて求められる。
したがって、単語辞書に登録された単語の数がK個であり、LDAの潜在トピックの数がD個であるとすると、単語の生起確率log(P(word|topic))は、は、K×D個だけ求められる。
なお、LDAの学習において、潜在トピックの数Dとしては、あらかじめ決められた所定の値が用いられる。
基底空間学習部161は、LDAの学習を行うことにより、LDAのパラメータを求めた後、単語の生起確率log(P(word|topic))を用いて、LDAの各潜在トピックにおいて出現頻度が高い単語とその単語の出現頻度とを登録したトピック対頻出単語テーブルの作成を行う。
すなわち、基底空間学習部161は、LDAの各潜在トピックを、順次、注目トピックとして、注目トピックにおいて、単語辞書の各単語が生起される生起確率log(P(word|topic))に、所定の定数(例えば、1000等)を乗算することにより、生起確率log(P(word|topic))を、注目トピックの文書に単語辞書の各単語が出現する出現頻度(回数)に変換する。
さらに、基底空間学習部161は、注目トピックについて求められた単語辞書の各単語が出現する出現頻度を、所定の閾値(例えば、1等)と比較し、単語辞書の単語の中から、所定の閾値以上の出現頻度の単語を、注目トピックにおいて出現頻度が高い単語(以下、頻出単語ともいう)として選択する。
そして、基底空間学習部161は、注目トピックのトピックラベル、注目トピックにおいて出現頻度が高い頻出単語、及び、頻出単語の出現頻度を対応付けて、トピック対頻出単語テーブルに登録する。
ここで、図23のトピック対頻出単語テーブルにおいて、"ldamap"の後の括弧{}内の数字が、トピックラベルであり、その後の"words"に続いて記載されている単語が、直前のトピックラベルが表す潜在トピックにおいて出現頻度が高い頻出単語である。
また、頻出単語の後の"word_cnt"に続いて記載されている数字が、各頻出単語の出現頻度であり、その後の"numwords"に続く数字は、頻出単語の出現頻度の総和である。
なお、トピック対頻出単語テーブルにおいて、各潜在トピックの頻出単語は、出現頻度の降順(出現頻度の大きい順)にソートしておくことができる。
また、トピック対頻出単語テーブルは、例えば、アノテーションモデル、及び、単語辞書とともに、アノテーションモデル記憶部13に記憶しておくことができる。
基底空間学習部161は、以上のLDAのパラメータと、トピック対頻出単語テーブルとを、テキスト用基底空間の基底空間データとして求める。
図24は、図22の次元圧縮部163が、図23で説明したテキスト用基底空間の基底空間データを用いて行う、テキスト特徴量の次元圧縮を説明する図である。
次元圧縮部163は、テキスト用基底空間の基底空間データとしてのLDAのパラメータを用いて、擬似文書から得られたテキスト特徴量を、その擬似文書に対するLDAの各潜在トピックの尤度であるトピック尤度に変換し、トピック尤度が最大の潜在トピックを表すトピックラベル(スカラの離散値)を、次元圧縮後のテキスト特徴量として求める。
ここで、LDAのパラメータを用いたLDA認識処理によれば、文書docにおける各単語の出現頻度を表す頻度データから、その文書docのトピックがLDAの各潜在トピックであることの尤度を表すトピック尤度P(topic|doc)を、LDA認識処理の結果であるLDA認識結果データとして得ることができる。
次元圧縮部163は、テキスト用基底空間の基底空間データとしてのLDAのパラメータを用い、テキスト特徴量抽出部34からの、擬似文書から得られたテキスト特徴量としてのK次元の登録単語頻度ベクトルを入力として、LDA認識処理を行うことにより、テキスト特徴量が得られた擬似文書に対するLDAの各潜在トピックのトピック尤度を求める。
したがって、LDA認識処理によれば、LDAの潜在トピックの数がD個であるとすると、K次元の登録単語頻度ベクトルが、D次元の離散確率分布としてのD個の潜在トピックのトピック尤度に写像されることになる。
次元圧縮部163は、テキスト特徴量に対して、LDAのD個の潜在トピックのトピック尤度を求めると、そのD個の潜在トピックのトピック尤度の中の最大値である最大トピック尤度を検出し、その最大トピック尤度の潜在トピックのトピックラベルを、次元圧縮後のテキスト特徴量として出力する。
以上のように、画像特徴量やテキスト特徴量の次元圧縮を行うことにより、次元圧縮を行わない場合に比較して、アノテーションモデルとしてのマルチストリームHMMの学習や、最尤状態系列を求める処理に要する演算量を低減することができる。
なお、図22では、同期部35は、次元圧縮部153からの次元圧縮後の画像特徴量であるコード(以下、画像コードともいう)と、次元圧縮部163からの次元圧縮後のテキスト特徴量であるトピックラベルとを、フレーム単位で同期させて、モデル学習部22(図2)に出力する。
モデル学習部22は、特徴量抽出部21(の同期部35)からの画像コードとトピックラベルとの系列を、アノテーション用系列として、マルチストリームHMMであるアノテーションモデルの学習を、Baum-Welchの再推定法に従って行う。
ここで、いまの場合、アノテーション用系列は、1個目の構成要素系列o[1]としての画像コードの系列と、2個目の構成要素系列o[2]としてのトピックラベルの系列との2つの構成要素系列で構成される。
アノテーション用系列の1個目の構成要素系列o[1]である画像コードは、離散値であり、アノテーションモデルの各状態sjの出力確率分布(観測モデル)b[1]j(o[1])として、多項分布が用いられる。
また、2個目の構成要素系列o[2]であるトピックラベルも、離散値であり、アノテーションモデルの各状態sjの出力確率分布b[2]j(o[2])として、多項分布が用いられる。
この場合、Baum-Welchの再推定法では、Eステップにおいて、初期確率πi、状態遷移確率aij、及び、式(1)に従って求められる出力確率分布bj(o[1],o[2])を用いて、h番目の学習用コンテンツについて、時刻tに、状態jにいる状態確率γ(h) t,jが、単一の系列を用いるHMMの学習の場合と同様にして求められる。
また、Mステップでは、Eステップで求められた状態確率γ(h) t,jを用いて、各画像コードが観測される出力確率分布b[1]jとしての多項分布、及び、各トピックラベルが観測される出力確率分布b[2]jとしての多項分布が、多項分布を観測モデル(出力確率分布)として有するHMMの学習の場合と同様に、式(5)に従って求められる。
ここで、式(5)において、o(h) [m](t)は、H個の学習用コンテンツのうちのh番目の学習用コンテンツの第tフレームにおいて、各画像コード(m=1のとき)、又は、各トピックラベル(m=2のとき)の観測の有無を示す多項分布を表す。
画像コードの多項分布o(h) [1](t)は、画像コードの総数がK'個であるとすると、時刻tに観測される1個の画像コードの分布(確率)が1であり、残りの画像コードの分布がすべて0である多項分布となる。
また、トピックラベルの多項分布o(h) [2](t)は、トピックラベルの総数(潜在トピックの数)がD個であるとすると、時刻tに観測される1個のトピックラベルの分布(確率)が1であり、残りのトピックラベルの分布がすべて0である多項分布となる。
図25は、学習装置12の特徴量抽出部21が図22に示したように構成される場合の、アノテーション付与装置14の特徴量抽出部41(図8)の構成例を示すブロック図である。
なお、フレーム検索装置15の特徴量抽出部51(図10)、及び、表示制御装置16の特徴量抽出部61(図15)も、アノテーション付与装置14の特徴量抽出部41と同様に構成される。
図25において、アノテーション付与装置14(図8)の特徴量抽出部41は、画像取得部171、画像特徴量抽出部172、基底空間データ記憶部173、次元圧縮部174、説明テキスト取得部181、テキスト特徴量抽出部182、基底空間データ記憶部183、次元圧縮部184、及び、同期部191を有する。
図25の特徴抽出部41において、基底空間データ記憶部173は、図22の基底空間学習部151で求められた画像用基底空間の基底空間データを記憶し、基底空間データ記憶部183は、図22の基底空間学習部161で求められたテキスト用基底空間の基底空間データを記憶する。
そして、画像取得部171、画像特徴量抽出部172、次元圧縮部174、説明テキスト取得部181、テキスト特徴量抽出部182、次元圧縮部184、及び、同期部191では、対象コンテンツについて、図22の画像取得部31、画像特徴量抽出部32、次元圧縮部153、説明テキスト取得部33、テキスト特徴量抽出部34、次元圧縮部163、及び、同期部35とそれぞれ同様の処理が行われ、これにより、次元圧縮後の画像特徴量としての画像コードと、次元圧縮後のテキスト特徴量としてのトピックラベルとがフレーム単位で同期したアノテーション用系列が構成される。
但し、説明テキストを取得することができない対象コンテンツについては、次元圧縮後のテキスト特徴量としてのトピックラベルとして、ダミーのデータ(1次元の離散値)を用いて、アノテーション用系列が構成される。
なお、図22の特徴量抽出部21では、画像特徴量とテキスト特徴量の両方について、次元圧縮を行うこととしたが、次元圧縮は、画像特徴量とテキスト特徴量のうちの一方についてだけ行うことが可能である。
図25の特徴量抽出部41でも、同様である。但し、画像特徴量やテキスト特徴量について、次元圧縮を行うかどうかは、特徴量抽出部21と、特徴量抽出部41(特徴量抽出部51及び61)とで、一致させる必要がある。
[テキスト特徴量について次元圧縮を行う場合のアノテーション付与処理]
図26は、少なくともテキスト特徴量の次元圧縮が行われる場合の、図8のアノテーション付与装置14によるアノテーション付与処理を説明するフローチャートである。
なお、図26では(後述する図27、図28、及び、図30でも同様)、例えば、画像特徴量、及び、テキスト特徴量の次元圧縮が行われることとする。
ステップS101において、特徴量抽出部41(図8)は、コンテンツ記憶部11に記憶されたコンテンツの中から、アノテーションの付与の対象とする対象コンテンツを選択し、コンテンツ記憶部11から取得して、処理は、ステップS102に進む。
ステップS102では、特徴量抽出部41は、対象コンテンツが、説明テキストを取得することができるコンテンツであるか、又は、説明テキストを取得することができないコンテンツであるかを判定する。
ステップS102において、対象コンテンツが、説明テキストを取得することができるコンテンツであると判定された場合、処理は、ステップS103に進み、特徴量抽出部41は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量と、説明テキストとしての字幕のテキストのテキスト特徴量としての単語頻度情報とを抽出する。
さらに、特徴量抽出部41は、フレームごとのシーン特徴量とテキスト特徴量とのそれぞれの次元圧縮を行い、その次元圧縮後のシーン特徴量とテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成する。そして、特徴量抽出部41は、アノテーション用系列を、最尤状態系列算出部42に供給して、処理は、ステップS103からステップS105に進む。
また、ステップS102において、対象コンテンツが、説明テキストを取得することができないコンテンツであると判定された場合、処理は、ステップS104に進み、特徴量抽出部41は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量を抽出する。
さらに、特徴量抽出部41は、フレームごとのシーン特徴量の次元圧縮を行う。そして、特徴量抽出部41は、例えば、ダミーのデータ(例えば、所定の値のトピックラベル)を、次元圧縮後のテキスト特徴量として用い、次元圧縮後のシーン特徴量とダミーのデータである次元圧縮後のテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部42に供給して、処理は、ステップS104からステップS105に進む。
ステップS105では、最尤状態系列算出部42は、アノテーションモデル記憶部13に記憶されたアノテーションモデル(マルチストリームHMM)の中から、対象コンテンツのカテゴリに一致するカテゴリのアノテーションモデル(対象コンテンツのカテゴリに一致するカテゴリの学習用コンテンツを用いて学習が行われたアノテーションモデル)を取得する。
さらに、最尤状態系列算出部42は、アノテーションモデル記憶部13から取得したアノテーションモデルにおいて、特徴量抽出部41からのアノテーション用系列が観測される最尤状態系列を求め、単語選択部43に供給して、処理は、ステップS105からステップS106に進む。
ステップS106では、単語選択部43は、対象コンテンツのフレームを、順次、注目フレームとして、最尤状態系列算出部42からの最尤状態系列の、注目フレームに対応する状態において観測される潜在トピック(のトピックラベル)の出力確率分布に基づいて、注目フレームの内容を表現するのに適した潜在トピックを、フレームトピックとして選択する。
すなわち、対象コンテンツの第tフレームが注目フレームであるとすると、単語選択部43は、最尤状態系列のt番目の状態において観測される潜在トピック(のトピックラベル)の出力確率分布において、出力確率が高い潜在トピックを、第tフレームのフレームトピックとして選択する。
ここで、第tフレームのフレームトピックとしては、最尤状態系列のt番目の状態において観測される潜在トピックの出力確率分布において、出力確率が最も高い潜在トピックや、出力確率が上位の複数の潜在トピックを選択することができる。
対象コンテンツの各フレームのフレームトピックが選択されると、処理は、ステップS106からステップS107に進み、単語選択部43は、トピック対頻出単語テーブル(図23)に基づき、対象コンテンツの各フレームについて、そのフレームのフレームトピックの頻出単語を、そのフレームに付与するアノテーションとして選択する。
すなわち、対象コンテンツの第tフレームが注目フレームであるとすると、単語選択部43は、トピック対頻出単語テーブルにおいて、注目フレームである第tフレームのフレームトピック(になっている潜在トピック)の頻出単語のうちの、例えば、出現頻度が最も高い頻出単語や、出現頻度が上位の複数の頻出単語を、注目フレームに付与するアノテーションとして選択する。
なお、注目フレームである第tフレームのフレームトピックとして、複数の潜在トピックが選択されている場合には、その複数の潜在トピックのそれぞれの頻出単語から、注目フレームに付与するアノテーション(となる単語)を選択することができる。
すなわち、注目フレームである第tフレームのフレームトピックとして、複数の潜在トピックが選択されている場合には、例えば、第tフレームのフレームトピックになっている複数の潜在トピックのそれぞれの頻出単語のうちの、出現頻度が最も高い頻出単語を、第tフレームに付与するアノテーションとして選択することができる。
また、注目フレームである第tフレームのフレームトピックとして、複数の潜在トピックが選択されている場合には、例えば、第tフレームのフレームトピックになっている潜在トピックの出力確率(最尤状態系列のt番目の状態において観測される、フレームトピックになっている潜在トピックの出力確率)を、その潜在トピックの頻出単語の出現頻度に乗算することにより、出現頻度を補正し、補正後の出現頻度が最も高い単語や、補正後の出現頻度が上位の複数の頻出単語を、第tフレームに付与するアノテーションとして選択することができる。
単語選択部43が、対象コンテンツのフレームすべてを、注目フレームとして、注目フレームに付与するアノテーションとしての単語を選択し、これにより、対象コンテンツのフレームのすべてに、アノテーションが付与されると、処理は、ステップS107からステップS108に進み、単語選択部43は、対象コンテンツのフレームごとに付与されたアノテーションと、そのフレームのフレーム番号(第tフレームのt)とを対応付け、アノテーション単語情報として出力し、アノテーション付与処理は、終了する。
以上のように、アノテーション付与装置14において、対象コンテンツの画像の各フレームの画像特徴量を抽出し、次元圧縮を行って、次元圧縮後の画像特徴量を用いて、アノテーション用系列を構成し、アノテーションモデルにおいて、アノテーション用系列が観測される最尤状態系列を求め、最尤状態系列の状態のうちの、注目する注目フレームに対応する状態において出力確率が高いトピックラベルが表す潜在トピックを、注目フレームの内容を表すフレームトピックとして選択し、トピック対頻出単語テーブルに基づき、フレームトピックにおいて出現頻度が高い頻出単語を、注目フレームに付与するアノテーションとして選択する場合にも、図9の場合と同様に、対象コンテンツへのアノテーションの付与を、容易に行うことができる。
[テキスト特徴量について次元圧縮を行う場合のフレーム検索処理]
図27は、少なくともテキスト特徴量の次元圧縮が行われる場合の、図10のフレーム検索装置15によるフレーム検索処理を説明するフローチャートである。
キーワード供給部55は、例えば、ユーザの操作に応じて、キーワードを含む検索クエリを、キーワード合致度算出部53に供給する。
また、ステップS121ないしS125において、図26のステップS101ないしS105とそれぞれ同様の処理が行われる。
すなわち、ステップS121において、特徴量抽出部51(図10)は、コンテンツ記憶部11に記憶されたコンテンツの中から、対象コンテンツを選択し、コンテンツ記憶部11から取得して、処理は、ステップS122に進む。
ステップS122では、特徴量抽出部51は、対象コンテンツが、説明テキストを取得することができるコンテンツであるか、又は、説明テキストを取得することができないコンテンツであるかを判定する。
ステップS122において、対象コンテンツが、説明テキストを取得することができるコンテンツであると判定された場合、ステップS123に進み、特徴量抽出部51は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量と、説明テキストのテキスト特徴量としての単語頻度情報とを抽出する。
さらに、特徴量抽出部51は、フレームごとのシーン特徴量とテキスト特徴量とのそれぞれの次元圧縮を行い、次元圧縮後のシーン特徴量とテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成する。そして、特徴量抽出部51は、アノテーション用系列を、最尤状態系列算出部52に供給して、処理は、ステップS123からステップS125に進む。
また、ステップS122において、対象コンテンツが、説明テキストを取得することができないコンテンツであると判定された場合、処理は、ステップS124に進み、特徴量抽出部51は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量を抽出する。
さらに、特徴量抽出部51は、フレームごとのシーン特徴量の次元圧縮を行う。そして、特徴量抽出部51は、例えば、ダミーのデータを、次元圧縮後のテキスト特徴量として用い、次元圧縮後のシーン特徴量とダミーのデータである次元圧縮後のテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部52に供給して、処理は、ステップS124からステップS125に進む。
ステップS125では、最尤状態系列算出部52は、アノテーションモデル記憶部13に記憶されたアノテーションモデルの中から、対象コンテンツのカテゴリに一致するカテゴリのアノテーションモデルを取得する。
さらに、最尤状態系列算出部52は、アノテーションモデル記憶部13から取得したアノテーションモデルにおいて、特徴量抽出部51からのアノテーション用系列が観測される最尤状態系列を求め、キーワード合致度算出部53に供給して、処理は、ステップS125からステップS126に進む。
ステップS126では、キーワード合致度算出部53は、対象コンテンツのフレームを、順次、注目フレームとして、最尤状態系列算出部52からの最尤状態系列の、注目フレームに対応する状態において観測される潜在トピック(のトピックラベル)の出力確率分布に基づいて、注目フレームの内容を表現するのに適した潜在トピックを、フレームトピックとして選択する。
すなわち、対象コンテンツの第tフレームが注目フレームであるとすると、キーワード度合致度算出部53は、例えば、最尤状態系列のt番目の状態において観測される潜在トピック(のトピックラベル)の出力確率分布において、出力確率が最も高い潜在トピックを、第tフレームのフレームトピックとして選択する。
その後、処理は、ステップS126からステップS127に進み、キーワード合致度算出部53は、トピック対頻出単語テーブル(図23)に基づき、各潜在トピックについて、キーワード供給部54からの検索クエリに含まれるキーワード(に一致する頻出単語)の出現頻度を求め、その出現頻度をコンポーネントとする頻度ベクトルを求める。
すなわち、LDAの潜在トピックの数がD個であるとすると、キーワード合致度算出部53は、トピック対頻出単語テーブルにおいて、D個の潜在トピックのうちの1個目の潜在トピックの頻出単語の中から、キーワードに一致する頻出単語を検出し、その頻出単語の出現頻度を獲得する。
キーワード合致度算出部53は、2個目以降の潜在トピックについても、同様にして、キーワードに一致する頻出単語の出現頻度を獲得し、D個の潜在トピックについて獲得した、キーワードに一致する頻出単語の出現頻度をコンポーネントとするD次元の頻度ベクトルを求める。
したがって、例えば、LDAの潜在トピックの数が10個である場合、例えば、(10,50,0,0,2,0,0,0,4,0)のような10次元のベクトルが、頻度ベクトルとして求められる。
ここで、頻度ベクトル(10,50,0,0,2,0,0,0,4,0)の、例えば、(左から)3番目のコンポーネントである0は、3個目の潜在トピックの頻出単語のうちの、キーワードに一致する頻出単語の出現頻度が、0であることを表す。
なお、トピック対頻出単語テーブルにおいて、ある潜在トピックの頻出単語の中に、キーワードに一致する頻出単語が存在しない場合、その潜在トピックについては、キーワードに一致する頻出単語の出現頻度は、0とされる。
キーワードについて、頻度ベクトルが求められると、処理は、ステップS127からステップS128に進み、キーワード合致度算出部53は、頻度ベクトルに基づき、対象コンテンツの各フレームについて、そのフレームのフレームトピック(になっている潜在トピック)において、キーワード(に一致する頻出単語)が出現する出現頻度を、キーワード合致度として求める。
すなわち、対象コンテンツの第tフレームが注目フレームであるとすると、キーワード合致度算出部53は、第tフレームのフレームトピックになっている潜在トピックにおいて、キーワードに一致する頻出単語が出現する出現頻度を、第tフレームのキーワード合致度として、頻度ベクトルから獲得する。
例えば、第tフレームのフレームトピックが、D個の潜在トピックのうちのd番目の潜在トピックである場合には、D次元の頻度ベクトルのd番目(第d次元)のコンポーネントになっている出現頻度が、第tフレームのキーワード合致度として獲得される。
キーワード合致度算出部53は、対象コンテンツのフレームのすべてについて、キーワード合致度を求めると、そのキーワード合致度を、フレーム選択部55に供給して、処理は、ステップS128からステップS129に進む。
ステップS129では、フレーム選択部55は、コンテンツ記憶部11から、対象コンテンツを取得し、キーワード合致度選択部53からのキーワード合致度に基づいて、対象コンテンツから、キーワード(検索クエリ)に合致するキーワードフレームを選択する。
すなわち、フレーム選択部55は、例えば、図11の場合と同様に、対象コンテンツから、キーワード合致度選択部53からのキーワード合致度が検索閾値より高いフレームを、キーワードフレームとして選択し、そのキーワードフレームの時系列順の並びを、キーワードダイジェストとして出力して、フレーム検索処理を終了する。
以上のように、フレーム検索装置15において、対象コンテンツの画像の各フレームの画像特徴量を抽出し、次元圧縮を行って、次元圧縮後の画像特徴量を用いて、アノテーション用系列を構成し、アノテーションモデルにおいて、アノテーション用系列が観測される最尤状態系列を求め、最尤状態系列の状態のうちの、注目する注目フレームに対応する状態において出力確率が高いトピックラベルが表す潜在トピックを、注目フレームの内容を表すフレームトピックとして選択し、トピック対頻出単語テーブルに基づき、フレームトピックにおけるキーワードの出現頻度を求め、キーワードの出現頻度が高い注目フレームを、キーワードフレームとして選択する場合にも、図11の場合と同様に、キーワードフレームだけのキーワードダイジェストを再生するという、アノテーションモデルを利用したアプリケーションを提供することができる。
[テキスト特徴量について次元圧縮を行う場合の表示制御処理]
図28は、少なくともテキスト特徴量の次元圧縮が行われる場合の、図15の表示制御装置16によるモデルマップの表示制御処理を説明するフローチャートである。
ステップS141ないしS145において、表示制御装置16では、図26のステップS101ないしS105とそれぞれ同様の処理が行われる。
すなわち、ステップS141において、特徴量抽出部61(図15)は、コンテンツ記憶部11に記憶されたコンテンツの中から、ユーザの操作に従って再生が指示されたコンテンツを、アノテーションの付与の対象とする対象コンテンツとして選択し、コンテンツ記憶部11から取得して、処理は、ステップS142に進む。
ステップS142では、特徴量抽出部61は、対象コンテンツが、説明テキストを取得することができるコンテンツであるか、又は、説明テキストを取得することができないコンテンツであるかを判定する。
ステップS142において、対象コンテンツが、説明テキストを取得することができるコンテンツであると判定された場合、ステップS143に進み、特徴量抽出部61は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量と、説明テキストのテキスト特徴量としての単語頻度情報とを抽出する。
さらに、特徴量抽出部61は、フレームごとのシーン特徴量とテキスト特徴量とのそれぞれの次元圧縮を行い、その次元圧縮後のシーン特徴量とテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成する。そして、特徴量抽出部61は、アノテーション用系列を、最尤状態系列算出部62に供給して、処理は、ステップS143からステップS145に進む。
また、ステップS142において、対象コンテンツが、説明テキストを取得することができないコンテンツであると判定された場合、処理は、ステップS144に進み、特徴量抽出部61は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量を抽出する。
さらに、特徴量抽出部61は、フレームごとのシーン特徴量の次元圧縮を行う。そして、特徴量抽出部61は、例えば、ダミーのデータを、次元圧縮後のテキスト特徴量として用い、次元圧縮後のシーン特徴量とダミーのデータである次元圧縮後のテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部62に供給して、処理は、ステップS144からステップS145に進む。
ステップS145では、最尤状態系列算出部62は、アノテーションモデル記憶部13に記憶されたアノテーションモデル(マルチストリームHMM)の中から、対象コンテンツのカテゴリに一致するカテゴリのアノテーションモデルを取得する。
さらに、最尤状態系列算出部62は、アノテーションモデル記憶部13から取得したアノテーションモデルにおいて、特徴量抽出部61からのアノテーション用系列が観測される最尤状態系列を求め、表示制御部63に供給して、処理は、ステップS145からステップS146に進む。
ステップS146では、表示制御部63は、図20のステップS56と同様に、コンテンツ記憶部11から対象コンテンツを取得する。さらに、表示制御部63は、図20のステップS56と同様に、アノテーションモデル記憶部13に記憶されたアノテーションモデルの各状態について、その状態に対応する、対象コンテンツのフレームを用いて、状態(に対応するフレーム)の代表画像を生成し、処理は、ステップS146からステップS147に進む。
ステップS147では、表示制御部63は、アノテーションモデルとトピック対頻出単語テーブルとを用いて、図26のステップS106及びS107と同様の処理を行い、対象コンテンツの各フレームに付与するアノテーション(となる単語)として選択し、対象コンテンツの各フレームに、アノテーションを付与する。
すなわち、表示制御部63は、対象コンテンツのフレームを、順次、注目フレームとして、最尤状態系列算出部62からの最尤状態系列の、注目フレームに対応する状態において観測される潜在トピック(のトピックラベル)の出力確率分布に基づいて、注目フレームの内容を表現するのに適した潜在トピックを、フレームトピックとして選択する。
さらに、表示制御部63は、トピック対頻出単語テーブル(図23)に基づき、対象コンテンツの各フレームについて、そのフレームのフレームトピックの頻出単語を、そのフレームに付与するアノテーションとして選択する。
その後、処理は、ステップS147からステップS148に進み、表示制御部63は、図20のステップS58と同様に、アノテーションモデル記憶部13に記憶されたアノテーションモデル(対象コンテンツについて、最尤状態系列を求めるのに用いられたアノテーションモデル)を用い、モデルマップ(図16、図17)を生成して、処理は、ステップS149に進む。
ステップS149では、表示制御部63は、図20のステップS59と同様に、モデルマップを、ディスプレイに表示させ、さらに、モデルマップ上の各状態に、その状態の代表画像とアノテーションとを表示させ、処理は、ステップS150に進む。
ステップS150では、表示制御部63は、図20のステップS60と同様に、対象コンテンツの再生制御を行う。
以上のように、表示制御装置16において、対象コンテンツの画像の各フレームの画像特徴量を抽出し、次元圧縮を行って、次元圧縮後の画像特徴量を用いて、アノテーション用系列を構成し、アノテーションモデルにおいて、アノテーション用系列が観測される最尤状態系列を求めることにより、対象コンテンツの各フレームに対応する状態を求め、その状態において出力確率が高いトピックラベルが表す潜在トピックを、その状態に対応するフレームの内容を表すフレームトピックとして選択し、トピック対頻出単語テーブルに基づき、フレームトピックにおいて出現頻度が高い単語を、そのフレームトピックが内容を表すフレームに付与するアノテーションとして求め、アノテーションモデルの状態ごとに、その状態に対応するフレームに付与するアノテーションを表示させる場合にも、図20の場合と同様に、ユーザは、対象コンテンツに付与されたアノテーションを、一覧することができ、また、アノテーションが表示されるモデルマップ上の状態が指定されると、その状態に対応するフレームの再生を開始するというような、アノテーションを利用したアプリケーションを提供することができる。
ところで、上述のように、LDAのパラメータ(テキスト用基底空間の基底空間データ)を用いて、テキスト特徴量の次元圧縮を行い、その次元圧縮後のテキスト特徴量であるトピックラベルを含むアノテーション用系列を用いて学習を行うことにより得られるアノテーションモデルによれば、表示制御装置16において、いわば、LDAの潜在トピックを媒介として、アノテーション(となる頻出単語)が、対象コンテンツ(の各フレーム)に付与される。
このように、潜在トピックを媒介として、アノテーションが対象コンテンツに付与される場合には、対象コンテンツに付与されたアノテーションは、上述したようなモデルマップ(図16、図17)を用いた表示形式等によって、アノテーションモデルの状態ごとに表示する他、潜在トピックごとに表示することができる。
図29は、対象コンテンツに付与されたアノテーションを、潜在トピックごとに表示した表示例を示す図である。
すなわち、図29は、LDAの潜在トピックに対応する矩形のトピック欄が、2次元の表形式に並んだトピックリストの例を示している。
トピックリストには、LDAの潜在トピックの数に等しい数のトピック欄が格子状に配置され、各トピック欄には、1つの潜在トピックが対応付けられる。
そして、トピック欄には、そのトピック欄に対応する潜在トピック(トピック欄に対応付けられた潜在トピック)の頻出単語が、例えば、出現頻度の高い順に並べて表示される。
なお、図29では、トピック欄に表示される頻出単語は、トピック欄の大きさの都合で、所定の文字数としての20文字に制限されている。
また、トピックリストの、あるトピック欄に注目すると、注目する注目トピック欄に、頻出単語が表示されるのは、その注目トピック欄に対応する潜在トピックをフレームトピックとするフレームが、対象コンテンツに存在する場合である。
したがって、対象コンテンツのいずれのフレームのフレームトピックにも選択されなかった潜在トピックに対応するトピック欄には、頻出単語は表示されない。
図29では、例えば、左上や右上等のトピック欄に、頻出単語が表示されていないが、このように、頻出単語が表示されていない左上や右上等のトピック欄は、そのトピック欄に対応する潜在トピックをフレームトピックとするフレームが、対象コンテンツに存在しなかったことを表す。
図30は、図15の表示制御装置16によるトピックリストの表示制御処理を説明するフローチャートである。
ステップS171ないしS176において、表示制御装置16では、図26のステップS101ないしS106とそれぞれ同様の処理が行われる。
すなわち、ステップS171において、特徴量抽出部61(図15)は、コンテンツ記憶部11に記憶されたコンテンツの中から、ユーザの操作に従って再生が指示されたコンテンツを、アノテーションの付与の対象とする対象コンテンツとして選択し、コンテンツ記憶部11から取得して、処理は、ステップS172に進む。
ステップS172では、特徴量抽出部61は、対象コンテンツが、説明テキストを取得することができるコンテンツであるか、又は、説明テキストを取得することができないコンテンツであるかを判定する。
ステップS172において、対象コンテンツが、説明テキストを取得することができるコンテンツであると判定された場合、ステップS173に進み、特徴量抽出部61は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量と、説明テキストのテキスト特徴量としての単語頻度情報とを抽出する。
さらに、特徴量抽出部61は、フレームごとのシーン特徴量とテキスト特徴量とのそれぞれの次元圧縮を行い、その次元圧縮後のシーン特徴量とテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成する。そして、特徴量抽出部61は、アノテーション用系列を、最尤状態系列算出部62に供給して、処理は、ステップS173からステップS175に進む。
また、ステップS172において、対象コンテンツが、説明テキストを取得することができないコンテンツであると判定された場合、処理は、ステップS174に進み、特徴量抽出部61は、対象コンテンツから、フレームごとの画像特徴量としてのシーン特徴量を抽出する。
さらに、特徴量抽出部61は、フレームごとのシーン特徴量の次元圧縮を行う。そして、特徴量抽出部61は、例えば、ダミーのデータを、次元圧縮後のテキスト特徴量として用い、次元圧縮後のシーン特徴量とダミーのデータである次元圧縮後のテキスト特徴量とを含むマルチストリームを、アノテーション用系列として構成し、そのアノテーション用系列を、最尤状態系列算出部62に供給して、処理は、ステップS174からステップS175に進む。
ステップS175では、最尤状態系列算出部62は、アノテーションモデル記憶部13に記憶されたアノテーションモデル(マルチストリームHMM)の中から、対象コンテンツのカテゴリに一致するカテゴリのアノテーションモデルを取得する。
さらに、最尤状態系列算出部62は、アノテーションモデル記憶部13から取得したアノテーションモデルにおいて、特徴量抽出部61からのアノテーション用系列が観測される最尤状態系列を求め、表示制御部63に供給して、処理は、ステップS175からステップS176に進む。
ステップS176では、表示制御部63は、対象コンテンツのフレームを、順次、注目フレームとして、最尤状態系列算出部62からの最尤状態系列の、注目フレームに対応する状態において観測される潜在トピック(のトピックラベル)の出力確率分布に基づいて、出力確率が最も高い潜在トピックを、フレームトピックとして選択し、処理は、ステップS177に進む。
ステップS177では、表示制御部63は、LDAの各潜在トピックに対応するトピック欄を有するトピックリスト(図29)を生成し、処理は、ステップS178に進む。
ステップS178では、表示制御部63は、トピックリストの各トピック欄に、そのトピック欄に対応する潜在トピックをフレームトピックとする、対象コンテンツのフレームを対応付け、処理は、ステップS179に進む。
ステップS179では、表示制御部63は、トピック対頻出単語テーブル(図23)に基づき、トピック欄に対応する潜在トピックの頻出単語を、そのトピック欄に対応付けられたフレームに付与するアノテーションとして選択し、そのトピック欄に配置する。
その後、処理は、ステップS179からステップS180に進み、表示制御部63は、トピックリストを、ディスプレイに表示させ、処理は、ステップS181に進む。
ステップS181では、表示制御部63は、対象コンテンツの再生制御を行う。
すなわち、表示制御部63は、例えば、ユーザにより、トピックリスト上のトピック欄が指定されると、そのトピック欄に対応付けられているフレームの再生を開始させる。
したがって、ユーザは、トピック欄に表示されたアノテーションとしての単語を見て、そのトピック欄に対応付けられているフレームの内容の概要を把握し、興味があれば、トピック欄を指定することにより、そのトピック欄に対応付けられたフレームの再生を行わせることができる。
なお、表示制御装置16において、対象コンテンツに付与されたアノテーションの表示形式は、ユーザの操作等に従って切り替えることが可能である。
すなわち、表示制御装置16では、例えば、モデルマップと、トピックリストとの両方を作成し、アノテーションの表示形式を、モデルマップを用いた表示形式と、トピックリストを用いた表示形式との間で、相互に切り替えることができる。
図31及び図32は、アノテーションの表示形式の切り替えを説明する図である。
すなわち、図31は、トピックリストを用いたアノテーションの表示形式の例を示す図である。
ユーザは、トピックリストのトピック欄に表示されたアノテーションとしての単語を見て、そのトピック欄に対応付けられているフレームの内容の概要を把握し、興味を持った場合には、そのトピック欄を指定することにより、そのトピック欄に対応する潜在トピックを、興味がある興味トピックとして選択することができる。
表示制御装置16は、ユーザによって、興味トピックが選択された場合、興味トピックに選択された潜在トピックに対応するトピック欄(以下、興味トピック欄ともいう)を、強調して表示させることができる。
図31では、興味トピック欄(となったトピック欄)が、その興味トピック欄に配置されたアノテーションとしての単語に、太線によるアンダーラインが表示されることにより強調されている。
なお、興味トピック欄の強調の方法は、アンダーラインを表示する方法に限定されるものではない。すなわち、興味トピック欄は、他のトピック欄とは異なる特定の色(例えば、赤等)で表示すること等によって、強調することが可能である。
また、図31では(図29でも同様)、トピックリストのトピック欄には、アノテーションとしての単語だけを表示することとしたが、トピック欄には、その他、例えば、そのトピック欄に対応付けられたフレームを代表する代表画像を生成して表示することができる。
図32は、モデルマップを用いたアノテーションの表示形式の例を示す図である。
すなわち、図32は、図31のトピックリストの表示から切り替えられたモデルマップ(の表示)を示している。
モデルマップでは、図18及び図19で説明したように、アノテーションモデルの状態の中で、対応するフレーム(対象コンテンツのフレーム)が存在する状態だけが、矩形で表示される。そして、対応するフレームが存在する状態を表す矩形には、その状態に対応するフレームの代表画像が表示され、さらに、下部には、その状態に対応するフレームに付与されたアノテーションとしての単語が表示される。
そして、現在再生されているフレーム(再生フレーム)に対応する状態については、代表画像に代えて、再生フレームの画像が、代表画像より大きく表示され、アノテーションも、他の状態より大きく表示される。
表示制御装置16では、トピックリストの表示から切り替えられたモデルマップについては、トピックリストの興味トピック欄に対応付けられたフレームに対応する状態(を表す矩形や、その矩形内の代表画像、アノテーション等)を、強調して表示することができる。
ここで、図32では、モデルマップ上の、興味トピック欄に対応付けられたフレームに対応する状態が、その状態を表す矩形の下部に、太線が表示されることにより強調されている。
以上のように、トピックリストの表示から切り替えられたモデルマップにおいて、トピックリストの興味トピック欄に対応付けられたフレームに対応する状態を、強調して表示することにより、ユーザは、トピックリストにおいて、興味トピック欄とするトピック欄を選択した後に、モデルマップに切り替えることで、モデルマップ上で、興味トピックに対応付けられたフレーム、つまり、ユーザが興味を持っている内容のフレームに対応する状態を、一目で認識することができる。
なお、モデルマップにおいて、ユーザによって、ある状態が選択された場合には、表示制御装置16では、ユーザによって選択された状態である選択状態に対応するフレームのフレームトピックと一致するフレームトピックのフレームに対応する他の状態を検出し、選択状態とともに、強調して表示することができる。
[特徴量抽出部21の第4の構成例]
図33は、図2の特徴量抽出部21の第4の構成例を示すブロック図である。
なお、図33において、図21、又は、図22の場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
図33の特徴量抽出部21は、画像取得部31、画像特徴量抽出部101、説明テキスト取得部33、テキスト特徴量抽出部34、同期部35、音声取得部102、及び、音声特徴量抽出部103を有する点で、図21の場合と共通する。
さらに、図33の特徴量抽出部21は、基底空間学習部151、基底空間データ記憶部152、次元圧縮部153、基底空間学習部161、基底空間データ記憶部162、及び、次元圧縮部153を有する点で、図22の場合と共通する。
そして、図33の特徴量抽出部21は、基底空間学習部201、基底空間データ記憶部202、次元圧縮部203、基底空間学習部211、基底空間データ記憶部212、次元圧縮部213、基底空間学習部221、基底空間データ記憶部222、及び、次元圧縮部223が、新たに設けられている点で、図21及び図22の場合と相違する。
基底空間学習部201には、画像特徴量抽出部101から、学習用コンテンツの第2画像特徴量が供給される。
基底空間学習部201は、例えば、基底空間学習部151と同様に、第2画像特徴量を写像するための、第2画像特徴量の次元より小さい次元の画像用基底空間の基底空間データとしてのコードブック等を、画像特徴量抽出部101からの第2画像特徴量を用いて求め、基底空間データ記憶部202に供給する。
基底空間データ記憶部202は、基底空間学習部201からの基底空間データを記憶する。
次元圧縮部203には、画像特徴量抽出部101から、学習用コンテンツの第2画像特徴量が供給される。
次元圧縮部203は、例えば、次元圧縮部153と同様に、基底空間データ記憶部202に記憶された基底空間データに基づき、画像特徴量抽出部101からの第2画像特徴量の次元を小さくする次元圧縮としてのベクトル量子化等を行い、次元圧縮後の第2画像特徴量を、同期部35に供給する。
基底空間学習部211には、画像特徴量抽出部101から、学習用コンテンツの第3画像特徴量が供給される。
基底空間学習部211は、例えば、基底空間学習部151と同様に、第3画像特徴量を写像するための、第3画像特徴量の次元より小さい次元の画像用基底空間の基底空間データとしてのコードブック等を、画像特徴量抽出部101からの第3画像特徴量を用いて求め、基底空間データ記憶部212に供給する。
基底空間データ記憶部212は、基底空間学習部211からの基底空間データを記憶する。
次元圧縮部213には、画像特徴量抽出部101から、学習用コンテンツの第3画像特徴量が供給される。
次元圧縮部213は、例えば、次元圧縮部153と同様に、基底空間データ記憶部212に記憶された基底空間データに基づき、画像特徴量抽出部101からの第3画像特徴量の次元を小さくする次元圧縮としてのベクトル量子化等を行い、次元圧縮後の第3画像特徴量を、同期部35に供給する。
基底空間学習部221には、音声特徴量抽出部103から、学習用コンテンツの音声特徴量が供給される。
基底空間学習部221は、例えば、基底空間学習部151と同様に、音声特徴量を写像するための、音声特徴量の次元より小さい次元の音声用基底空間の基底空間データとしてのコードブック等を、音声特徴量抽出部103からの音声特徴量を用いて求め、基底空間データ記憶部222に供給する。
基底空間データ記憶部222は、基底空間学習部221からの基底空間データを記憶する。
次元圧縮部223には、音声特徴量抽出部103から、学習用コンテンツの音声特徴量が供給される。
次元圧縮部223は、例えば、次元圧縮部153と同様に、基底空間データ記憶部222に記憶された基底空間データに基づき、音声特徴量抽出部103からの音声特徴量の次元を小さくする次元圧縮としてのベクトル量子化等を行い、次元圧縮後の音声特徴量を、同期部35に供給する。
図21では、第1画像特徴量ないし第3画像特徴量、音声特徴量、及び、テキスト特徴量を、そのまま用いて、アノテーション用系列が構成されるが、図33では、第1画像特徴量ないし第3画像特徴量、音声特徴量、及び、テキスト特徴量の次元圧縮が行われ、その次元圧縮後の第1画像特徴量ないし第3画像特徴量、音声特徴量、及び、テキスト特徴量から、アノテーション用系列が構成され、アノテーションモデルの学習に用いられる。
図34は、学習装置12の特徴量抽出部21が図33に示したように構成される場合の、図8のアノテーション付与装置14の特徴量抽出部41(フレーム検索装置15の特徴量抽出部51(図10)、及び、表示制御装置16の特徴量抽出部61(図15))の構成例を示すブロック図である。
図34において、アノテーション付与装置14(図8)の特徴量抽出部41は、画像取得部171、画像特徴量抽出部172、基底空間データ記憶部173、次元圧縮部174、説明テキスト取得部181、テキスト特徴量抽出部182、基底空間データ記憶部183、次元圧縮部184、同期部191、基底空間データ記憶部261、次元圧縮部262、基底空間データ記憶部271、次元圧縮部272、音声取得部281、音声特徴量抽出部282、基底空間データ記憶部283、及び、次元圧縮部284を有する。
さらに、画像特徴量抽出部172は、第1画像特徴量抽出部1721、第2画像特徴量抽出部1722、及び、第3画像特徴量抽出部1723を有する。
図34の特徴量抽出部41において、基底空間データ記憶部173は、図33の基底空間学習部151で求められた基底空間データを、基底空間データ記憶部183は、図33の基底空間学習部161で求められた基底空間データを、基底空間データ記憶部261は、図33の基底空間学習部201で求められた基底空間データを、基底空間データ記憶部271は、図33の基底空間学習部211で求められた基底空間データを、基底空間データ記憶部283は、図33の基底空間学習部221で求められた基底空間データを、それぞれ記憶する。
そして、画像取得部171、第1画像特徴量抽出部1721、第2画像特徴量抽出部1722、第3画像特徴量抽出部1723、次元圧縮部174、説明テキスト取得部181、テキスト特徴量抽出部182、次元圧縮部184、同期部191、次元圧縮部262、次元圧縮部272、音声取得部281、音声特徴量抽出部282、及び、次元圧縮部284において、対象コンテンツについて、図33の画像取得部31、第1画像特徴量抽出部1021、第2画像特徴量抽出部1022、第3画像特徴量抽出部1023、次元圧縮部153、説明テキスト取得部33、テキスト特徴量抽出部34、次元圧縮部163、同期部35、次元圧縮部203、次元圧縮部213、音声取得部102、音声特徴量抽出部103、及び、次元圧縮部223とそれぞれ同様の処理が行われ、これにより、次元圧縮後の第1画像特徴量ないし第3画像特徴量、音声特徴量、及び、テキスト特徴量を含むアノテーション用系列が構成される。
但し、説明テキストを取得することができない対象コンテンツについては、次元圧縮後のテキスト特徴量としてのトピックラベルとして、ダミーのデータを用いて、アノテーション用系列が構成される。
<第2実施の形態>
[本発明の情報処理装置を適用したレコーダの他の一実施の形態]
図35は、本発明の情報処理装置を適用したレコーダの他の一実施の形態の構成例を示すブロック図である。
図35のレコーダ(以下、ブラウジングレコーダともいう)は、例えば、HD(Hard Disk)レコーダ等であり、テレビジョン放送の番組や、インターネット等のネットワークを介して提供されるコンテンツ、ビデオカメラ等で撮影したコンテンツ等の各種のコンテンツを録画(記録)(記憶)することができる。
すなわち、図35において、ブラウジングレコーダは、操作部301、制御部302、コンテンツ取得部310、コンテンツ記憶部311、学習装置312、アノテーションモデル記憶部313、及び、ブラウジング制御装置314を有する。
操作部301は、図35のブラウジングレコーダの筐体に設けられたボタンや、ブラウジングレコーダを遠隔制御するリモートコマンダ等であり、ユーザによって操作され、その操作に対応した操作信号を、制御部302に供給する。
制御部302は、操作部301の操作等に応じて、コンテンツ取得部310ないしブラウジング制御部314を制御する。
コンテンツ取得部310は、テレビジョン放送の番組等の画像を含むコンテンツを取得し、コンテンツ記憶部311に供給する。
すなわち、コンテンツ取得部310は、例えば、チューナや、STB(Set Top Box)、NIC(Network Interface Card)等のネットワークI/F(Inter face)で構成することができ、この場合、コンテンツを、地上ディジタル放送、衛星ディジタル放送、CATV網、インターネットその他のネットワーク等の、図示せぬ伝送媒体を介して取得する。
また、コンテンツ取得部310は、例えば、記録媒体を駆動するドライブ等で構成することができ、この場合、コンテンツを、例えば、ビデオカメラが内蔵するハードディスクや、ビデオカメラから取り外されたメモリカード等の半導体メモリ、テープ状記録媒体、ディスク状記録媒体等の記録媒体から取得する。
なお、以下では、説明を簡単にするため、コンテンツ取得部310は、テレビジョン放送の番組(放送番組)を受信するチューナで構成されることとする。
コンテンツ記憶部311は、コンテンツ取得部310からのコンテンツを記憶(記録)する。コンテンツ記憶部311へのコンテンツの記憶が、そのコンテンツの録画となり、その録画がされたコンテンツ(コンテンツ記憶部311に記憶されたコンテンツ)は、例えば、ユーザによる操作部301の操作に応じて再生される。
学習装置312は、図1の学習装置12と同様に構成され、コンテンツ記憶部311に記憶されたコンテンツを、所定の特徴量空間において自己組織的に構造化し、コンテンツの構造(時空間構造)を表すモデルを求める学習(統計学習)を行う。
すなわち、学習装置312は、コンテンツ記憶部311に記憶されたコンテンツのうちの、コンテンツの画像の内容を説明する説明テキストを取得することができるコンテンツを、アノテーションモデルの学習に用いる学習用コンテンツに選択する。
さらに、学習装置312は、学習用コンテンツの画像の各フレームの画像特徴量を抽出するとともに、その学習用コンテンツの画像の内容を説明する説明テキストにおいて各単語が出現する頻度に関する単語頻度情報を、説明テキストのテキスト特徴量として抽出する。
そして、学習装置312は、学習用コンテンツから抽出した画像特徴量、及び、テキスト特徴量を含むマルチストリームであるアノテーション用系列を構成し、そのアノテーション用系列を用いて、マルチストリームHMMであるアノテーションモデルの学習を行う。
学習装置312は、アノテーションモデルの学習を行うと、その学習後のアノテーションモデルを、アノテーションモデル記憶部313に供給する。
アノテーションモデル記憶部313は、学習装置312から供給されるアノテーションモデルを記憶する。
ブラウジング制御装置314は、アノテーションモデル記憶部313に記憶されたアノテーションモデルを用いて、コンテンツ記憶部311に記憶されたコンテンツのうちの、シーンを抽出する対象の対象コンテンツから、時間的に連続する1フレーム以上のフレームの集まりであるシーンを抽出し、そのシーンの代表画像を、表示時刻(再生時刻)順に並べて表示させる。
すなわち、ブラウジング制御装置314は、ユーザが、対象コンテンツの内容を迅速に把握することができるように、対象コンテンツを、シーンに分けて、各シーンを構成するフレームの代表画像と、アノテーションとを、表示時刻順に表示させる。
また、ブラウジング制御装置314は、対象コンテンツの中から、ユーザが興味を持っているシーンを迅速に探し出すことができるように、対象コンテンツから、ユーザが操作部301を操作することにより入力したキーワードに内容が合致するフレーム(キーワードフレーム)を有するシーンを検出し、各シーンを構成するフレームの代表画像を、表示時刻順に表示させる。
[ブラウジングレコーダが行う処理の概要]
図36ないし図39は、図35のブラウジングレコーダが行う処理の概要を説明する図である。
ここで、番組の中には、複数のコーナから構成される番組がある。例えば、テレビジョン放送のニュース番組は、経済ニュースや、社会ニュース、スポーツニュース等の複数のニューストピックのコーナ(シーン)から構成される。
かかるニュース番組については、例えば、レコーダにおいて、EPG(Electronic Program Guide)のデータを取得することにより、放送開始時刻や、放送終了時刻、出演者、番組の内容の概要を提示する(表示させる)ことができる。
しかしながら、レコーダにおいて、EPGのデータを用いて、例えば、ある日のあるチャンネル(放送局)のニュース番組において、どのようなニューストピックが何時何分から取り上げられているかを提示することはできない。
また、レコーダによれば、レコーダに組み込まれたブラウザにおいて、EPG上に、番組が録画済みかどうかを表示し、EPG上の、録画済みの番組が指定されたときに、その録画済みの番組の再生を、番組の先頭から開始する、いわゆる頭出しを行うことができる。
しかしながら、レコーダにおいて、録画済みの番組の所定のコーナの頭出しを行うことはできない。
以上のように、レコーダは、番組を、いわば、番組単位で扱い、コーナ単位では扱わないので、番組"全体"の概要の表示や、番組の頭出しは、行うことができるが、番組のコーナごとの概要の表示や、コーナの頭出しは、行うことができない。
ところで、番組を、コーナ等の、内容的にまとまったシーンに区切り、そのシーンごとに、シーンの概要を認識することができるような番組のブラウジング(以下、シーンブラウジングともいう)の仕方を、ユーザに提供することができれば便利である。
レコーダにおいて、前述の、有料サービスである番組メタデータサービスで配信される、番組のコーナごとの開始時刻、終了時刻、出演者、及び、コーナの内容の要約等のメタデータを処理することにより、ユーザがシーンブラウジングを行うことが可能になると考えられるが、そのようなレコーダは提案されていない。
また、レコーダにおいて、録画済みの番組について、ユーザが所望するコーナの頭出しを行う方法として、ユーザに、所望するコーナの内容を表現する単語を、キーワードとして入力してもらい、録画済みの番組から、ユーザが入力したキーワードを含む字幕が表示されるフレームを検出し、そのフレームから再生を開始する方法が考えられる。
しかしながら、録画済みの番組から、ユーザが入力したキーワードを含む字幕が表示されるフレームを検出する方法は、字幕がない番組には、適用することができない。さらに、ユーザが所望するコーナに字幕が表示されても、その字幕に、ユーザが入力したキーワードが含まれなければ、ユーザが所望するコーナ(のフレーム)は、検出されない。
また、レコーダにおいて、録画済みの番組の音声から、ユーザが入力したキーワードを検出し、そのキーワードを含む音声が発話されているフレームから、再生を開始することで、ユーザが所望するコーナの頭出しを行う方法が考えられる。
しかしながら、録画済みの番組の音声から、ユーザが入力したキーワードを検索する方法では、やはり、ユーザが所望するコーナの音声に、ユーザが入力したキーワードが発話されていなければ、ユーザが所望するコーナ(のフレーム)は、検出されない。
図35のブラウジングレコーダでは、上述したアノテーションモデルを用いて、シーンを抽出する対象の対象コンテンツから、時間的に連続する1フレーム以上のフレームの集まりであるシーンを抽出し、そのシーンの代表画像を、時刻順に並べて表示させることで、ユーザが、コンテンツを構成するシーンの概要を容易に認識することができるシーンブラウジングを行うことを可能とする。
すなわち、ブラウジングレコーダでは、アノテーションモデルの学習、アノテーションモデルを用いての、対象コンテンツからのシーンの抽出、及び、シーンの代表画像を、時刻順に並べて表示させる表示制御が行われる。
図36は、図35のブラウジングレコーダによるアノテーションモデルの学習の概要を説明する図である。
ブラウジングレコーダでは、制御部302が、シーンブラウジングを行うコンテンツのジャンルを、ブラウジングジャンルに設定する。
ここで、制御部302は、例えば、ユーザによる操作部301の操作に従って、ブラウジングジャンルの設定を行う。ここでは、例えば、ジャンルとしてのニュースが、ブラウジングジャンルに設定されたこととする。
ブラウジングレコーダでは、コンテンツ取得部310が、例えば、EPGのデータから、各番組のジャンルを認識し、ジャンルがブラウジングジャンルであるニュースに一致する番組を録画する。すなわち、これにより、ジャンルがブラウジングジャンルに一致するニュース番組が、コンテンツ記憶部311に記憶される。
そして、ブラウジングレコーダでは、学習装置312が、コンテンツ記憶部311に記憶された、過去の一定期間に(放送されて)録画された録画番組の中で、ジャンルがブラウジングジャンルであるニュースに一致し、かつ、字幕のテキストを含む録画番組を、アノテーションモデルの学習に用いる学習用コンテンツとして読み出し、その学習用コンテンツを用いて、マルチストリームHMMであるアノテーションモデルの学習(コンテンツ構造学習)を、図1の学習装置12と同様にして行う。
そして、学習装置312は、学習後のアノテーションモデルを、アノテーションモデル記憶部313に供給して記憶させる。
図37は、図35のブラウジングレコーダによる、アノテーションモデルを用いての、対象コンテンツからのシーンの抽出の概要を説明する図である。
ブラウジングレコーダでは、ブラウジング制御装置314が、コンテンツ記憶部311に記憶された、過去の一定期間に(放送されて)録画された録画番組の中で、ジャンルがブラウジングジャンルであるニュースに一致する録画番組を、字幕のテキストの有無に関係なく、対象コンテンツとして読み出し、アノテーションモデル記憶部313に記憶されたアノテーションモデルを用いて、対象コンテンツに、アノテーションを付与するアノテーション付与処理を、図1のアノテーション付与装置14と同様にして行う。
すなわち、ブラウジング制御装置314は、対象コンテンツについて、アノテーション用系列を構成し、アノテーションモデル記憶部313に記憶されたアノテーションモデル(マルチストリームHMM)において、対象コンテンツのアノテーション用系列が観測される最尤状態系列を求める(状態認識を行う)。
さらに、ブラウジング制御装置314は、対象コンテンツのアノテーション用系列が観測される最尤状態系列に基づいて、対象コンテンツの各フレーム(各時刻)に、アノテーション(となる単語)を付与する。
そして、ブラウジング制御装置314は、対象コンテンツから、同一のアノテーションが付与されている、時間的に連続する1フレーム以上のフレームの集まりを、シーンとして抽出し、これにより、対象コンテンツを、シーンに区分する。
ここで、ある注目フレームと同一のアノテーションが付与されているフレームには、アノテーションとして付与されている単語すべてが注目フレームと一致するフレームの他、アノテーションとして付与されている単語のうちの一部の単語が注目フレームと一致するフレームを含めることができる。
図38は、図35のブラウジングレコーダによる、シーンの代表画像を、表示時刻順に並べて表示させる表示制御の概要を説明する図である。
ブラウジングレコーダにおいて、ブラウジング制御装置314は、対象コンテンツのすべてを、シーンに区分すると、各対象コンテンツについて、シーンの代表画像を、表示時刻順に並べて表示させる。
すなわち、ブラウジング制御装置314は、対象コンテンツの各シーンについて、例えば、そのシーンの最初のフレームのサムネイルを、代表画像として生成し、対象コンテンツの各シーンの代表画像を、表示時刻順に、例えば、上から下方向(縦方向)等の一方向に並べた画像(以下、時刻順概要表示画像ともいう)を生成する。
そして、ブラウジング制御装置314は、図示せぬディスプレイに、EPGを表示させ、そのEPGの番組欄のうちの対象コンテンツの番組欄に、その対象コンテンツの時刻順概要表示画像を表示させる。
ここで、ブラウジング制御装置314では、時刻順概要表示画像の各シーンの代表画像の縦方向(時刻方向)の長さは、そのシーンの時間(そのシーンを構成するフレーム数)に比例させることができる。
また、ブラウジング制御装置314では、時刻順概要表示画像の各シーンの代表画像については、例えば、図38に示すように、吹き出しの形等で、シーンを構成するフレームに付与されたアノテーションとしての単語を表示させることができる。
さらに、ブラウジング制御装置314では、アノテーションとしての単語と、対象コンテンツとしてのニュース番組において、その単語が使用されるときのニュースのジャンル(以下、メタジャンルともいう)とを対応付けたメタジャンル辞書を用意しておき、時刻順概要表示画像の各シーンの代表画像については、アノテーションとともに、又は、アノテーションに代えて、メタジャンルを表示させることができる。
以上のように、ブラウジング制御装置314によれば、ブラウジングジャンルの番組、すなわち、ここでは、ニュース番組について、時刻順概要表示画像が、その時刻順概要表示画像の各シーン(を構成するフレーム)に付与されたアノテーションとともに、EPG上に表示される。
したがって、ユーザは、時刻順概要表示画像とアノテーションを見て、過去の一定期間に録画されたニューズ番組を構成するシーンの概要を、容易に認識することができる。
また、ブラウジング制御装置314では、対象コンテンツから、同一のアノテーションが付与されている、時間的に連続する1フレーム以上のフレームの集まりを、シーンとして抽出することにより、対象コンテンツを、シーンに区分するので、シーンは、対象コンテンツであるニュース番組の、例えば、経済ニュースや、社会ニュース、スポーツニュース等のコーナに一致している蓋然性が高い。
したがって、EPG上に表示された、ニュース番組の時刻順概要表示画像によれば、ユーザは、各ニュース番組が、どのようなコーナで構成されているかを、一見して(いわゆる、パッと見で)把握することができる。
さらに、ユーザは、例えば、スポーツニュースに興味がある場合に、ニュース番組の中で、スポーツニュースのコーナが、そのくらいの時刻から、どのくらいの時間だけ放送されているのかを把握することができる。
なお、ブラウジング制御装置314では、対象コンテンツを、シーンに区分するときに、例えば、対象コンテンツの先頭(のフレーム)を基準とする各シーンの開始時刻と終了時刻とを検出することができる。
この場合、ブラウジング制御装置314では、EPG上に表示された、ニュース番組の時刻順概要表示画像を構成する代表画像のうちの、あるシーンの代表画像が、ユーザによる操作部301の操作によって指定されたときに、そのシーンを、開始時刻から再生することができる。すなわち、ニュース番組の、あるコーナ(シーン)の頭出しを行うことができる。
また、ブラウジング制御装置314では、ニュース番組の時刻順概要表示画像として、ニュース番組のすべてのシーン(コーナ)の代表画像を並べた画像の他、ニュース番組のシーン(コーナ)のうちの、ユーザが操作部301を操作することにより入力したキーワードによって内容が表現されるコーナの代表画像を並べた画像を生成し、EPG上に表示させることができる。
すなわち、図39は、ユーザが入力したキーワードによって内容が表現されるコーナ(シーン)のみの代表画像を、表示時刻順に並べた時刻順概要表示画像を表示させる表示制御の概要を説明する図である。
ユーザは、操作部301を操作することにより、キーワードを含む検索クエリを入力することができる。
ここで、検索クエリには、キーワードの他、図12ないし図14で説明したようなAND検索式やOR検索式を含めることができる。
図35のブラウジングレコーダでは、ブラウジング制御装置314が、コンテンツ記憶部311に記憶された、過去の一定期間に録画された録画番組の中で、ジャンルがブラウジングジャンルであるニュースに一致する録画番組を、対象コンテンツとして読み出し、アノテーションモデル記憶部313に記憶されたアノテーションモデルを用いて、対象コンテンツから、ユーザが入力した検索クエリに含まれるキーワードに内容が合致するフレームであるキーワードフレームを検索するフレーム検索処理を、図1のフレーム検索装置15と同様にして行う。
そして、ブラウジング制御装置314は、対象コンテンツから検索したキーワードフレームから、時間的に連続する1フレーム以上のキーワードフレームの集まりを、シーンとして抽出し、これにより、対象コンテンツのキーワードフレームを、シーンに区分する。
すなわち、ブラウジング制御装置314は、対象コンテンツのキーワードフレームのうちの、最初のキーワードフレームを注目フレームに選択し、注目フレームを、1番目のシーンを構成するフレームとして、1番目のシーンに含める。
さらに、ブラウジング制御装置314は、対象コンテンツのキーワードフレームのうちの、次のキーワードフレームを新たな注目フレームに選択し、注目フレームが、直前に注目フレームであったキーワードフレーム(以下、直前フレームともいう)と表示時刻が連続しているキーワードフレームである場合、つまり、対象コンテンツにおいて、注目フレームが、直前フレームの次のフレームである場合、注目フレームを、1番目のシーンを構成するフレームとして、1番目のシーンに含める。
その後、ブラウジング制御装置314は、対象コンテンツのキーワードフレームのうちの、次のキーワードフレームを新たな注目フレームに選択し、注目フレームが、直前フレームと表示時刻が連続しているキーワードフレームである間は、注目フレームを、1番目のシーンを構成するフレームとして、1番目のシーンに含めることを繰り返す。
一方、注目フレームが、直前フレームと表示時刻が連続していないキーワードフレームである場合、つまり、対象コンテンツにおいて、注目フレームが、直前フレームの次の次のフレーム以降のフレームである場合、ブラウジング制御装置314は、注目フレームを、新たなシーンとしての2番目のシーンを構成するフレームとして、2番目のシーンに含める。
以下、同様にして、ブラウジング制御装置314は、対象コンテンツのキーワードフレームを、1以上のシーンに区分する。
その後、ブラウジング制御装置314は、各対象コンテンツについて、シーンの代表画像を、表示時刻順に並べて表示させる。
すなわち、ブラウジング制御装置314は、対象コンテンツのキーワードフレームから構成される各シーンについて、例えば、そのシーンの最初のフレームのサムネイルを、代表画像として生成し、対象コンテンツの各シーンの代表画像を、表示時刻順に、例えば、上から下方向等の一方向に並べた時刻順概要表示画像を生成する。
そして、ブラウジング制御装置314は、図示せぬディスプレイに、EPGを表示させ、そのEPGの番組欄のうちの対象コンテンツの番組欄に、その対象コンテンツの時刻順概要表示画像を表示させる。
ここで、ブラウジング制御装置314では、図38の場合と同様に、時刻順概要表示画像の各シーンの代表画像の縦方向の長さは、そのシーンの時間に比例させることができる。さらに、図38の場合と同様に、時刻順概要表示画像の各シーンの代表画像については、シーンを構成するフレームに付与されるアノテーションとしての単語や、メタジャンルを表示させることができる。
[ブラウジング制御装置314の構成例]
図40は、図35のブラウジング制御装置314の構成例を示すブロック図である。
ブラウジング制御装置314は、アノテーション付与部331、フレーム検索部332、シーン構成部333、及び、表示制御部334を有する。
アノテーション付与部331は、コンテンツ記憶部311に記憶された対象コンテンツを、順次、注目コンテンツに選択する。
そして、アノテーション付与部331は、図1のアノテーション付与装置14と同様に、アノテーションモデル記憶部313に記憶されたアノテーションモデルを用いて、注目コンテンツの各フレームに、アノテーションを付与し、注目コンテンツのフレームごとに付与されたアノテーションと、そのフレームのフレーム番号(第tフレームのt)とを対応付けたアノテーション単語情報を、シーン構成部333に供給する。
フレーム検索部332は、コンテンツ記憶部311に記憶された対象コンテンツを、順次、注目コンテンツに選択する。
そして、フレーム検索部332は、図1のフレーム検索装置15と同様に、アノテーションモデル記憶部313に記憶されたアノテーションモデルを用いて、注目コンテンツからキーワードフレームを検索し、そのキーワードフレームの時系列順の並びであるキーワードダイジェストを、シーン構成部333に供給する。
シーン構成部333は、アノテーション付与部331から供給されるアノテーション単語情報や、フレーム検索部332から供給されるキーワードダイジェストを用いて、コンテンツ記憶部311に記憶された注目コンテンツをシーンに区分する(注目コンテンツのシーンを構成する)。
さらに、シーン構成部333は、注目コンテンツの各シーンの代表画像を生成し、その各シーンの代表画像を、表示時刻順に、上から下方向に並べた時刻順概要表示画像を生成し、表示制御部334に供給する。
ここで、シーン構成部333は、注目コンテンツを、シーンに区分するときに、各シーンの開始時刻、及び、終了時刻(以下、シーン時刻情報ともいう)を検出し、時刻順概要表示画像とともに、表示制御部334に供給する。
表示制御部334は、図示せぬディスプレイに、EPGを表示させ、そのEPGの番組欄のうちの注目コンテンツの番組欄に、その注目コンテンツの時刻順概要表示画像を表示させる。
また、表示制御部334は、アノテーション付与部331で得られたアノテーション単語情報を用いて、例えば、図38に示したように、シーンを構成するフレームに付与されたアノテーションとしての単語を表示させる。
さらに、表示制御部334は、EPG上に表示された時刻順概要表示画像を構成する代表画像のうちの、あるシーンの代表画像が、ユーザによる操作部301(図35)の操作によって指定されることによって、そのシーンの頭出しが指示された場合、そのシーンを含むコンテンツを、頭出しの対象とする頭出しコンテンツとして認識し、頭出しを行うシーンの開始時刻を、シーン構成部333からのシーン時刻情報から認識する。
そして、表示制御部334は、コンテンツ記憶部311から、頭出しコンテンツを読み出し、頭出しを行うシーンから再生する再生制御を行う。
[ブラウジングレコーダの処理]
以下、図35のブラウジングレコーダで行われる各種の処理を説明する。
図41は、図35のブラウジングレコーダで行われる設定処理を説明するフローチャートである。
設定処理では、各種の設定が行われる。
すなわち、設定処理では、ステップS211において、制御部302(図35)が、アノテーションモデルの学習を開始する時刻である学習開始時刻の設定を行い、処理は、ステップS212に進む。
ここで、学習開始時刻については、ブラウジングレコーダの工場等において、例えば、22時等の所定の時刻を、デフォルトの時刻に設定しておき、そのデフォルトの時刻を、学習開始時刻に設定することができる。
また、学習開始時刻は、ユーザの操作に従って設定することができる。すなわち、例えば、ユーザが、操作部301(図35)を操作することにより、学習開始時刻となる時刻を入力した場合には、その時刻を、学習開始時刻に設定することができる。
なお、学習開始時刻としては、例えば、曜日ごとに異なる時刻を設定することができる。
また、学習開始時刻の設定では、カレンダを表示し、ユーザに、一日ごとに異なる時刻を、学習開始時刻として入力してもらうことが可能である。
さらに、学習開始時刻としては、ユーザが操作部301を操作することにより、過去に、学習開始時刻として入力した時刻を設定することが可能である。
ステップS212では、制御部302は、学習用コンテンツを取得する学習用コンテンツ取得期間を設定し、処理は、ステップS213に進む。
ここで、制御部302では、学習開始時刻から1週間ないし数週間等だけ遡った時刻から、学習開始時刻(の直前)までの期間を、デフォルトの期間として、そのデフォルトの期間を、学習用コンテンツ取得期間に設定することができる。
また、制御部302では、ユーザによる操作部301の操作に従った、学習開始時刻以前の期間を、学習用コンテンツ取得期間に設定することができる。
ステップS213では、制御部302は、シーンブラウジングを行う対象のコンテンツ、すなわち、ブラウジング制御装置314(図35、図40)において、シーンを抽出する対象の対象コンテンツを取得する対象コンテンツ取得期間を設定し、処理は、ステップS214に進む。
ここで、制御部302は、例えば、学習開始時刻から1週間等だけ遡った時刻から、学習開始時刻(の直前)までの期間を、デフォルトの期間として、そのデフォルトの期間を、対象コンテンツ取得期間に設定する。
また、制御部302では、ユーザによる操作部301の操作に従って、対象コンテンツ取得期間を設定することができる。
但し、制御部302は、学習用コンテンツ取得期間と重複する期間を、対象コンテンツ取得期間に設定する。したがって、対象コンテンツ取得期間は、学習用コンテンツ取得期間に包含される。
学習用コンテンツ取得期間と重複する期間を、対象コンテンツ取得期間に設定することにより、内容がそれほど異ならないコンテンツを、学習用コンテンツ、及び、対象コンテンツとして用いることができる。
すなわち、例えば、オリンピックが開催されている時期のコンテンツを、対象コンテンツとする場合に、やはり、オリンピックが開催されている時期のコンテンツを、学習用コンテンツとして学習を行ったアノテーションモデルを用いて、アノテーション付与処理、及び、フレーム検索処理を行うことができる。
ステップS214では、制御部302は、ジャンルがブラウジングジャンルであるニュースのコンテンツ(ニュース番組)の中で、学習用コンテンツ取得期間に放送されるコンテンツを、録画対象のコンテンツである録画対象コンテンツに設定する。
そして、制御部302は、録画対象コンテンツの録画予約を行って、すなわち、録画対象コンテンツが放送されるチャンネル、録画を開始する録画開始時刻(録画対象コンテンツの放送開始時刻)、及び、録画を終了する録画終了時刻(録画対象コンテンツの放送終了時刻)の設定を行って、設定処理は、終了する。
ここで、上述したように、対象コンテンツ取得期間は、学習用コンテンツ取得期間に包含されるので、ジャンルがブラウジングジャンルであるニュースのコンテンツ(ニュース番組)の中で、学習用コンテンツ取得期間に放送されるニュース番組が、録画対象コンテンツに設定されることにより、ジャンルがブラウジングジャンルであるニュースのコンテンツ(ニュース番組)の中で、対象コンテンツ取得期間に放送されるニュース番組も、録画対象コンテンツに設定される。
なお、ジャンルがブラウジングジャンルであるニュースのコンテンツの中からの、録画対象コンテンツの設定は、ユーザによる操作部301の操作に従って行うことが可能である。
すなわち、制御部302では、EPG上に、学習用コンテンツ取得期間に放送される、ジャンルがブラウジングジャンルであるニュースのコンテンツ(ニュース番組)を、図示せぬディスプレイに表示させ、そのEPG上から、ユーザが操作部301を操作することにより選択したニュース番組を、録画対象コンテンツに設定することができる。
図42は、図35のブラウジングレコーダで行われるコンテンツ取得関連処理を説明するフローチャートである。
コンテンツ取得関連処理では、録画対象コンテンツの取得に関連する処理が行われる。
すなわち、コンテンツ取得関連処理では、ステップS221において、制御部302は、現在時刻が、任意の録画対象コンテンツの録画開始時刻であるかどうかを判定する。
ステップS221において、現在時刻が録画開始時刻であると判定された場合、処理は、ステップS222に進み、制御部302は、録画対象コンテンツの録画を、録画終了時刻まで行うように、コンテンツ取得部310を制御し、処理は、ステップS221に戻る。
ここで、コンテンツ取得部310は、制御部302の制御に従って、録画対象コンテンツの予約録画を行い、コンテンツ記憶部311に記憶させる。
一方、ステップS221において、現在時刻が録画開始時刻でないと判定された場合、処理は、ステップS222をスキップして、ステップS223に進み、制御部302は、コンテンツ記憶部311に記憶(録画)されたコンテンツの中に、消去条件を満たすコンテンツがあるかどうかを判定する。
ここで、消去条件とは、コンテンツを消去する条件であり、例えば、学習用コンテンツ取得期間より前に放送(録画)されたことを採用することができる。
この場合、コンテンツ記憶部311に記憶されたコンテンツの中に、学習用コンテンツ取得期間より前に放送されたコンテンツがあれば、消去条件を満たすコンテンツがあると判定される。
ステップS223において、コンテンツ記憶部311に記憶されたコンテンツの中に、消去条件を満たすコンテンツがあると判定された場合、処理は、ステップS224に進み、制御部302は、コンテンツ記憶部311に記憶されたコンテンツの中の、消去条件を満たすコンテンツを消去して、処理は、ステップS221に戻る。
ここで、消去条件を満たすコンテンツを、コンテンツ記憶部311から消去することにより、コンテンツ記憶部311の記憶容量が圧迫されることを防止することができる。
なお、ユーザは、操作部301を操作することにより、コンテンツ記憶部311に記憶されたコンテンツに、いわゆるプロテクトをかけることができる。
制御部302は、プロテクトがかけられているコンテンツについては、消去条件を満たしても、消去を行わない。
一方、ステップS223において、コンテンツ記憶部311に記憶されたコンテンツの中に、消去条件を満たすコンテンツがないと判定された場合、処理は、ステップS224をスキップして、ステップS221に戻る。
なお、図35のブラウジングレコーダの性能によっては、コンテンツの予約録画を行いながら、学習装置312において、そのコンテンツの各フレームの特徴量の抽出を行うことができる。
学習装置312において抽出された特徴量は、学習装置312でのアノテーションモデルの学習の他、ブラウジング制御装置314(図40)のアノテーション付与部331でのアノテーション付与処理や、フレーム検索部332でのフレーム検索処理に用いることができる。
また、本実施の形態では、コンテンツ取得部310は、テレビジョン放送の番組を受信するチューナで構成されるが、コンテンツ取得部310が、複数のチューナを有する場合には、録画(放送)の時間帯が重複する複数の録画対象コンテンツがあっても、コンテンツ取得部310が有するチューナの数を限度として、録画の時間帯が重複する複数の録画対象コンテンツの録画を行うことができる。
なお、録画の時間帯が重複する録画対象コンテンツの数が、コンテンツ取得部310が有するチューナの数を超える場合には、コンテンツ取得部310は、所定の録画ルールに従って、チューナの数に等しい数の録画対象コンテンツを、優先的に録画する。
録画ルールとしては、例えば、録画開始時刻が早いコンテンツほど、優先的に録画することや、録画開始時刻が同一のコンテンツどうしについては、字幕のテキストを含むコンテンツを、優先的に録画すること等を採用することができる。
また、ユーザは、操作部301を操作することにより、録画の時間帯が重複する複数の録画対象コンテンツについて、録画の優先順位を設定することができる。ユーザが録画の優先順位を設定した場合、録画ルールにかかわらず、ユーザが設定した優先順位で、コンテンツの録画が行われる。
ここで、コンテンツ記憶部311には、録画がされたコンテンツ(及びその特徴量)を、字幕のテキストを含むコンテンツと、含まないコンテンツとに分けて記憶させておくことができる。
図35のブラウジングレコーダにおいて、予約録画によって、学習用コンテンツ取得期間に放送された録画対象コンテンツがコンテンツ記憶部311に記憶され、(現在時刻が)学習開始時刻となると、学習装置312は、コンテンツ記憶部311に記憶された、ジャンルがブラウジングジャンルであるニュースのコンテンツ(ニュース番組)のうちの、学習用コンテンツ取得期間に放送されたコンテンツの中から、字幕のテキストを有するコンテンツを、学習用コンテンツとして選択する。
なお、字幕のテキストを有しないコンテンツであっても、例えば、番組メタデータサービス等から、説明テキストとなる番組のメタデータを取得することができるコンテンツについては、学習用コンテンツとして選択することが可能である。
学習装置312(図35)は、学習用コンテンツの選択後、図1の学習装置12と同様に、学習用コンテンツから、アノテーション用系列を構成し、そのアノテーション用系列を用いて、マルチストリームHMMであるアノテーションモデルの学習を行う。
そして、学習装置312は、学習後のアノテーションモデルを、アノテーションモデル記憶部313に供給して記憶させる。
図43は、ブラウジング制御装置314が、アノテーションモデルを用いて行う処理(ブラウジング制御処理)を説明するフローチャートである。
ユーザが、例えば、ジャンルがブラウジングジャンルの番組のブラウジングを行うように、操作部301を操作すると、ブラウジング制御装置314は、ブラウジング制御処理を開始する。
ブラウジング制御処理では、ステップS241において、ブラウジング制御装置314(図40)のアノテーション付与部331が、コンテンツ記憶部311に記憶された、ジャンルがブラウジングジャンルであるニュースのコンテンツ(ニュース番組)のうちの、対象コンテンツ取得期間に放送されたコンテンツのすべてを、対象コンテンツに選択し、処理は、ステップS242に進む。
ステップS242では、アノテーション付与部331は、図1のアノテーション付与装置14と同様に、アノテーションモデル記憶部313に記憶されたアノテーションモデルを用いて、各対象コンテンツの各フレームに、アノテーション(となる単語)を付与し、各対象コンテンツについて、各フレームに付与されたアノテーションを含むアノテーション単語情報を、シーン構成部333に供給して、処理は、ステップS243に進む。
ステップS243では、シーン構成部333が、コンテンツ記憶部311に記憶された各対象コンテンツについて、アノテーション付与部331からのアノテーション単語情報に基づき、同一のアノテーションが付与されている、時間的に連続する1フレーム以上のフレームの集まりを、シーンとして抽出し、これにより、対象コンテンツを、シーンに区分する。
さらに、シーン構成部333は、各対象コンテンツについて、各シーンの開始時刻、及び、終了時刻であるシーン時刻情報を検出し、処理は、ステップS244に進む。
ステップS244では、シーン構成部333は、各対象コンテンツについて、対象コンテンツを構成する各シーンの代表画像を生成し、処理は、ステップS245に進む。
ステップS245では、シーン構成部333は、各対象コンテンツについて、対象コンテンツを構成する各シーンの代表画像を、表示(再生)時刻順に、上から下方向に並べた時刻順概要表示画像を生成する。
そして、シーン構成部333は、各対象コンテンツについて、時刻順概要表示画像を、シーン時刻情報、及び、アノテーション単語情報とともに、表示制御部334に供給して、処理は、ステップS245からステップS246に進む。
ステップS246では、表示制御部334は、EPGのデータを取得(受信)し、そのEPGのデータを用いて、EPG(の画像)を生成する。
さらに、表示制御部334は、各対象コンテンツについて、EPG上の対象コンテンツの番組欄に、その対象コンテンツの時刻順概要表示画像を配置するとともに、その時刻順概要表示画像の各シーンの代表画像の近傍に、例えば、図38に示したように、吹き出しの形で、シーンを構成するフレームに付与されたアノテーションとしての単語を配置する。
ここで、表示制御部334は、シーンを構成するフレームに付与されたアノテーションとしての単語を、シーン構成部333からのアノテーション単語情報から認識する。
その後、処理は、ステップS246からステップS247に進み、表示制御部334は、時刻順概要表示画像とアノテーションとが配置されたEPGを、図示せぬディスプレイに表示させ、処理は、ステップS248に進む。
ステップS248では、表示制御部334は、対象コンテンツの再生制御を行う。
すなわち、表示制御部334は、EPG上に表示された、対象コンテンツの時刻順概要表示画像を構成する代表画像のうちの、あるシーンの代表画像が、ユーザによる操作部301の操作によって指定されると、そのシーンを含むコンテンツを、頭出しの対象とする頭出しコンテンツとして認識し、ユーザによって代表画像が指定されたシーンの開始時刻を、シーン構成部333からのシーン時刻情報から認識する。
そして、表示制御部334は、コンテンツ記憶部311から、頭出しコンテンツとしての対象コンテンツを読み出し、その対象コンテンツの再生を、ユーザによって代表画像が指定されたシーンの開始時刻から開始する再生制御を行う。
ところで、表示制御部334は、時刻順概要表示画像とアノテーションとが配置されたEPGを表示するときに、キーワード(を含む検索クエリ)を入力するキーワード入力欄も、図示せぬディスプレイに表示させることができる。
キーワード入力欄には、ユーザが操作部301(図35)を操作することにより、キーワード(を含む検索クエリ)を入力することができ、ブラウジング制御部314は、キーワード入力欄に、キーワードが入力されると、各対象コンテンツについて、対象コンテンツのシーン(コーナ)のうちの、ユーザが操作部301を操作することにより入力したキーワードによって内容が表現されるコーナのみの代表画像を並べた画像を生成し、EPG上に表示させる。
すなわち、図44は、ユーザがキーワードを入力した場合にブラウジング制御装置314が行う処理を説明するフローチャートである。
ユーザが操作部301(図35)を操作することにより、キーワード入力欄にキーワード(を含む検索クエリ)を入力すると、ステップS261において、ブラウジング制御装置314(図40)のフレーム検索部332が、コンテンツ記憶部311に記憶された、ジャンルがブラウジングジャンルであるニュースのコンテンツ(ニュース番組)のうちの、対象コンテンツ取得期間に放送されたコンテンツのすべてを、対象コンテンツに選択し、処理は、ステップS262に進む。
すなわち、ステップS261では、コンテンツ記憶部311(図35)に記憶されたコンテンツのうちの、図43のステップS241において対象コンテンツに選択されるコンテンツが、対象コンテンツとして選択される。
ステップS262では、フレーム検索部332が、図1のフレーム検索装置15と同様に、アノテーションモデル記憶部313に記憶されたアノテーションモデルを用い、各対象コンテンツについて、ユーザが入力したキーワードに対するキーワード合致度が高いフレームであるキーワードフレームを検索し、そのキーワードフレームを時系列に並べたキーワードダイジェストを生成して、シーン構成部333(図40)に供給する。
その後、処理は、ステップS262からステップS263に進み、シーン構成部333は、各対象コンテンツについて、フレーム検索部332からのキーワードダイジェストを構成するキーワードフレームから、時間的に連続する1フレーム以上のフレームの集まり(表示(再生)時刻が連続しているフレームの集まり)を、シーンとして抽出し、これにより、対象コンテンツのキーワードダイジェストを、シーンに区分する。
さらに、シーン構成部333は、各対象コンテンツについて、各シーンの開始時刻、及び、終了時刻であるシーン時刻情報を検出し、処理は、ステップS264に進む。
ステップS264では、シーン構成部333は、各対象コンテンツについて、対象コンテンツのキーワードダイジェストを構成する各シーンの代表画像を生成し、処理は、ステップS265に進む。
ステップS265では、シーン構成部333は、各対象コンテンツについて、対象コンテンツのキーワードダイジェストを構成する各シーンの代表画像を、表示(再生)時刻順に、上から下方向に並べた時刻順概要表示画像を生成する。
そして、シーン構成部333は、各対象コンテンツについて、時刻順概要表示画像を、シーン時刻情報とともに、表示制御部334に供給して、処理は、ステップS265からステップS266に進む。
ステップS266では、表示制御部334は、EPGのデータを取得(受信)し、そのEPGのデータを用いて、EPG(の画像)を生成する。
さらに、表示制御部334は、各対象コンテンツについて、EPG上の対象コンテンツの番組欄に、その対象コンテンツの時刻順概要表示画像を配置する。
その後、処理は、ステップS266からステップS267に進み、表示制御部334は、時刻順概要表示画像が配置されたEPGを、図示せぬディスプレイに表示させ、処理は、ステップS268に進む。
ステップS268では、表示制御部334は、対象コンテンツの再生制御を行う。
すなわち、表示制御部334は、EPG上に表示された、対象コンテンツの時刻順概要表示画像を構成する代表画像のうちの、あるシーンの代表画像が、ユーザによる操作部301の操作によって指定されると、そのシーンを含むコンテンツを、頭出しの対象とする頭出しコンテンツとして認識し、ユーザによって代表画像が指定されたシーンの開始時刻を、シーン構成部333からのシーン時刻情報から認識する。
そして、表示制御部334は、コンテンツ記憶部311から、頭出しコンテンツとしての対象コンテンツを読み出し、その対象コンテンツの再生を、ユーザによって代表画像が指定されたシーンの開始時刻から開始する再生制御を行う。
なお、ユーザは、操作部301を操作することによって、EPG上の、時刻順概要表示画像が配置された番組欄を指定することができる。
この場合、表示制御部334では、ユーザによって指定された番組欄に対応する対象コンテンツのキーワードダイジェストを再生する再生制御を行うことができる。
キーワードダイジェストの再生では、そのキーワードダイジェストを構成するキーワードフレームを、時系列に(表示時刻順で)再生することや、キーワード合致度が高い順に再生することができる。
なお、ブラウジングジャンルは、ニュースに限定されるものではない。
また、時刻順概要表示画像は、EPG上ではなく、単独で表示することができる。すなわち、1以上の対象コンテンツの時刻順概要表示画像は、先頭の位置(最初のシーンの代表画像の位置)を揃えて、時刻順概要表示画像を構成するシーンの代表画像が並ぶ方向(本実施の形態では、縦方向)と直交する方向(本実施の形態では、横方向)に並べて表示することができる。
さらに、図35のブラウジングレコーダにおいて、学習用コンテンツ及び対象コンテンツとして用いるコンテンツは、テレビジョン放送の放送番組の他、インターネット上のサーバから提供されるコンテンツ等を採用することができる。
[本発明を適用したコンピュータの説明]
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
そこで、図45は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク405やROM403に予め記録しておくことができる。
あるいはまた、プログラムは、リムーバブル記録媒体411に格納(記録)しておくことができる。このようなリムーバブル記録媒体411は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブル記録媒体411としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。
なお、プログラムは、上述したようなリムーバブル記録媒体411からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク405にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。
コンピュータは、CPU(Central Processing Unit)402を内蔵しており、CPU402には、バス401を介して、入出力インタフェース410が接続されている。
CPU402は、入出力インタフェース410を介して、ユーザによって、入力部407が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)403に格納されているプログラムを実行する。あるいは、CPU402は、ハードディスク405に格納されたプログラムを、RAM(Random Access Memory)404にロードして実行する。
これにより、CPU402は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU402は、その処理結果を、必要に応じて、例えば、入出力インタフェース410を介して、出力部406から出力、あるいは、通信部408から送信、さらには、ハードディスク405に記録等させる。
なお、入力部407は、キーボードや、マウス、マイク等で構成される。また、出力部406は、LCD(Liquid Crystal Display)やスピーカ等で構成される。
ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。
また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。