JP2005150943A

JP2005150943A - 動画像話題分割点決定装置

Info

Publication number: JP2005150943A
Application number: JP2003382817A
Authority: JP
Inventors: Keiichiro Hoashi; 啓一郎帆足; Kazunori Matsumoto; 一則松本
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2003-11-12
Filing date: 2003-11-12
Publication date: 2005-06-09

Abstract

【課題】動画像コンテンツにおける話題分割点をテキスト情報を生成することなく決定でき、また、精度よく安定して話題分割点を決定することができる動画像話題分割点決定装置を提供すること。
【解決手段】ショット分割処理手段２１で動画像データをショットごとに分割し、ショット特徴量抽出手段２２で各ショットごとの特徴量を抽出する。ショット自動分類処理手段２３は、特徴量を元にショットの自動分類を行い、話題分割点識別処理手段２４は、連続したショットの特徴量を元に話題分割点の有無を識別する。話題分割点決定手段２５は、ショット自動分類処理手段２３の分類結果と話題分割点識別処理手段２４の識別結果を組み合わせて動画像における話題分割点を決定する。ショット自動分類および話題分割点有無識別の規範は、学習データ２６を用いた学習により得られる。
【選択図】図２

Description

本発明は、動画像話題分割点決定装置に関し、特に、動画像コンテンツにおける話題分割点情報をユーザに提示するシステムに適用することができる動画像話題分割点決定装置に関する。

動画像を検索する場合、動画像コンテンツにおいて話題がどのように分割されているかの情報をユーザに提示して検索を支援する方法が知られている。例えば、下記特許文献１には、ビデオデータにおける音声データを文字列としてテキスト化し、これにより得られた文字列を元に共通の話題が継続するセグメントを抽出し、各セグメントにおける話題と各セグメント間の入れ子構造を同定してユーザに提示するビデオデータ検索支援方法が記載されている。

上記ビデオデータ検索支援方法では、テレビの文字放送のように既に文字情報が付加されている場合には音声データの文字列へのテキスト化を省略できるが、それ以外の場合には音声認識装置やキーボードなどを用いて音声データを文字列へテキスト化することが必要となる。
特開平５−３４２２６３号公報

上記特許文献１に記載された技術では、共通の話題が継続するセグメントを抽出する前に、ビデオデータにおける音声データをテキスト化してテキスト情報を生成しなければならない。

テレビの文字放送のようにテキスト情報が元々存在していればテキスト化を省略できるが、通常のテレビ放送のビデオデータやホームビデオで録画した画像などのパーソナルコンテンツのように、テキスト情報が存在しない場合には、セグメント抽出の前処理としてテキスト化が必要である。

音声データのテキスト化には、作業者が音声を聞き取ってテキスト化する、いわゆる「書き起こし」という手法、音声データの元原稿から作業者がキーボードなどで入力する手法、音声データを音声認識装置に入力して、テキスト情報を生成する手法などが用いられる。

しかし、「書き起こし」や元原稿から作業者が入力する手法は、人手によるものであるため手間が掛かり、膨大な量の動画像データに適用することが困難であるという問題がある。また、音声認識装置を用いる手法は、使用する音声認識装置の精度や音声の質によって認識エラーが発生して後段の話題分割の精度が影響されるという問題がある。

本発明の目的は、上記課題を解決し、動画像コンテンツにおける話題分割点をテキスト情報を生成することなく決定でき、また、精度よく安定して話題分割点を決定することができる動画像話題分割点決定装置を提供することにある。

上記課題を解決するために、本発明は、動画像における話題分割点を決定する動画像話題分割点決定装置において、動画像データから所定区間ごとの特徴量を抽出する特徴量抽出部と、前記特徴量抽出手段により抽出された特徴量に基づいて、動画像における話題分割点を決定する話題分割点決定部とを備える点に第１の特徴がある。

また、本発明は、前記特徴量抽出部が、動画像データをショットごとに分割するショット分割処理手段と、前記ショット分割処理手段で分割された個々のショットから特徴量を抽出するショット特徴量抽出手段とを備える点に第２の特徴がある。

また、本発明は、前記話題分割点決定部が、前記特徴量抽出手段により抽出された特徴量を元に、ショットの自動分類を行うショット自動分類処理手段と、前記ショット自動分類処理手段での分類結果を用いて動画像における話題分割点を決定する話題分割点決定処理手段とを備える点に第３の特徴がある。

また、本発明は、前記話題分割点決定部が、連続したショットで前記特徴量抽出手段により抽出された特徴量を元に、話題分割点の有無を識別する話題分割点識別処理手段と、前記話題分割点識別処理手段での識別結果を用いて動画像における話題分割点を決定する話題分割点決定処理手段とを備える点に第４の特徴がある。

さらに、本発明は、前記話題分割点決定部が、前記特徴量抽出手段により抽出された特徴量を元に、ショットの自動分類を行うショット自動分類処理手段と、連続したショットで前記特徴量抽出手段により抽出された特徴量を元に、話題分割点の有無を識別する話題分割点識別処理手段と、前記ショット自動分類処理手段での分類結果と前記話題分割点識別処理手段での識別結果を組み合わせて動画像における話題分割点を決定する話題分割点決定処理手段とを備える点に第５の特徴がある。

本発明では、動画像データから抽出した特徴量に基づいて動画像における話題分割点を決定するので、動画像データからテキスト情報を生成することなく、話題分割点を決定することが可能であり、決定された話題分割点に基づいて話題分割を行うことが可能になる。したがって、ホームビデオで録画した画像などのパーソナルコンテンツなど、テキスト情報の生成が困難な動画像データについても話題分割が可能となる。

以下、図面を参照して本発明を説明する。図１は、本発明に係る動画像話題分割点決定装置の基本構成を示すブロック図である。動画像データは、まず、特徴量抽出部１に入力される。入力される動画像データは、画像に付随する音声データを伴うものでも構わない。

特徴量抽出部１は、入力された動画像データの所定区間ごとの特徴量を抽出し、抽出した特徴量を話題分割点決定部２に入力する。特徴量を抽出する単位である所定区間は、予め定めた一定区間とすることもできるし、話題分割点があると予測される区間、例えばショットごとの区間とすることもできる。

話題分割点決定部２は、入力された所定区間ごとの特徴量に基づいて、動画像における話題分割点を決定する。この決定の規範は、話題分割点が予め分かっている画像データの特徴量を学習データとして与え、この学習結果により定めることができる。

図２は、本発明に係る動画像話題分割点決定装置の具体的実施形態を示すブロック図である。本実施形態のショット分割処理手段２１とショット特徴量抽出手段２２は、図１の特徴抽出部１に対応し、ショット所自動分類処理手段２３と話題分割点識別処理手段２４と話題分割点決定処理手段２５は、図１の話題分割点決定部２に対応する。

動画像データは、まず、ショット分割処理手段２１に入力される。ショット分割処理手段２１は、入力された動画像データをショット単位（shot1,shot2,shot3,・・・）に自動的に分割する。ここでのショット分割処理には、例えば特開2000-36966号公報「動画像のカット画面グループ検出装置」に記載されているカット点抽出技術を利用できる。

ショット特徴抽出処理手段２２は、ショット分割処理手段２１で分割された各ショットから各ショットごとの特徴量を抽出する。ショットの特徴量としては、各ショットの画像の色情報（ショットの先頭フレームやキーフレームや最終フレームの配色など）、画像の動き情報（縦方向および横方向の少なくとも一方での動き度合いなど）、各ショットに含まれるオーディオデータの音量（RMS）、オーディオの種別（音声、音楽、雑音、無音であるかなど）などを上げることができる。

なお、ここで抽出する特徴量は、１種でもよいし複数種でもよい。複数種の特徴量（a,b,c,・・・）を抽出する場合、各ショットの特徴量をベクトル（shot1(a,b,c,・・・),shot2(a,b,c,・・・),shot3(a,b,c,・・・),・・・）として扱う。ショット特徴抽出処理手段２２で抽出された各ショットごとの特徴量は、ショット自動分類処理手段２３および話題分割点識別処理手段２４に入力される

ショット自動分類処理手段２３は、ショット特徴抽出処理手段２２で抽出された特徴量を元に、各ショットを予め決められたショットカテゴリに分類する。ショットカテゴリは、各ショットがどのような範疇に入るものであるかを示すものであり、例えば、話題分割対象の動画像データがニュース番組の場合、ショットカテゴリとしては、「キャスタショット」、「レポートショット」、「コマーシャルショット」などを上げることができる。

ここで用いる自動分類アルゴリズムとしては、例えば、「Vapnik:Statistical learning theory, A Wiley-Interscience Publication, 1998」に記載されているサポートベクタマシン（SVM）を利用できる。

図３は、サポートベクタマシン（SVM）の概念の説明図である。同図に示すように、サポートベクタマシン（SVM）は、分離超平面ｈ^＊およびグレーゾーン（距離Ｄ）を有する。分離超平面ｈ^＊は、自動分類の閾値であり、グレーゾーン（距離Ｄ）は、自動分類結果が比較的曖昧な領域である。

ショット自動分類処理手段２３は、分離超平面ｈ^＊や距離Ｄが設定されたサポートベクタマシン（SVM）により、入力動画像データにおける各ショットを予め決められたショットカテゴリに分類する。あるショットの特徴量が分離超平面ｈ^＊あるいはグレーゾーンからの離間距離は、分類結果の確実性を示すスコアとなる。

図３では、縦軸を特徴量ａ、横軸を特徴量ｂとし、例えば、キャスタショットであるか否かを分類する分類器の場合、キャスタショットの特徴量の位置を「＋」、キャスタショットでないショットの特徴量の位置を「−」で示している。なお、図３は、抽出する特徴量が２種ａ，ｂの場合であるが、それ以上の場合にはそれに対応した次元位置でのプロットとなるのはもちろんである。図３で○を付してあるように、特徴量がグレーゾーン内にあるショットは、不確実であるとして当該ショットカテゴリに分類しないようにすることができる。

分離超平面ｈ^＊や距離Ｄは、以下のようにして学習データ２６から学習することにより得ることができる。まず、予めショットカテゴリが分かっている学習データ２６を用意する。次に、この学習データ２６をショット自動分類処理手段２３のサポートベクタマシン（SVM）に与え、各ショットカテゴリに含まれている特徴量などについて学習を行わせる。この学習結果に基づいて自動分類が最適に行われるように分離超平面ｈ^＊や距離Ｄパラメータを設定する。これにより、例えば「キャスタショット」、「レポートショット」、「コマーシャルショット」であるか否かを分類するための分類器などが構築される。

話題分割点識別処理手段２４は、連続したショットの特徴量を元に、話題分割点の有無を自動的に識別する。話題分割点の有無を識別するためのツールも、ショット自動分類処理の場合と同様に、まず、話題分割点が含まれている一連のショット並びに話題分割点が含まれていないショットを含む学習データ２６を用意し、この学習データ２６を話題分割点識別処理手段２４の話題分割点識別アルゴリズムに与え、話題分割点が含まれている一連のショット並びに話題分割点が含まれていないショットの特徴量などについて学習を行わせ、この学習結果に基づいて話題分割点識別アルゴリズムにおけるパラメータなどを最適に設定することにより実現できる。上述のサポートベクタマシン（SVM）は、話題分割点識別アルゴリズムとしても利用できる。

図４は、話題分割点識別アルゴリズムにおける学習の説明図である。ここでは、ショットshot1，shot2，shot3，shot4，・・・が連続し、ショットshot4とショットshot6にそれぞれ話題分割点１，２が存在する学習データの例である。この例の場合、「＋」としてプロットされるのは、連続ショット｛shot4,shot5｝と｛shot8,shot9｝であり、それ以外の連続ショット｛shot1,shot2｝、｛shot2,shot3｝では「−」としてプロットされる。このプロットに対し「＋」と「−」が最適に分離されるように分離超平面ｈ^＊やグレーゾーン（距離Ｄ）を設定することにより話題分割点を識別するためのツールを構築できる。

ショット自動分類処理手段２３で分類されたショットカテゴリおよび話題分割点識別処理手段２４で識別された話題分割点有無の情報は、話題分割点決定処理手段２５に入力される。

話題分割点決定処理手段２５は、ショット自動分類処理手段２３で分類されたショットカテゴリおよび話題分割点識別処理手段２４で識別された話題分割点有無の情報を元に、動画像データにおける話題分割点を決定する。

この場合、ショット自動分類処理手段２３のショット自動分類処理結果を単独に用いて話題分割点を決定することができる。例えば、動画像データがニュース番組の場合、ショット自動分類処理で新たなキャスタショットの発生が検出されたとき、その発生時点が話題分割点である可能性が大きい。このように、ショットカテゴリの変化点を話題分割点として決定することができる。また、ショット自動分類処理手段２３の処理結果のスコア（分離超平面ｈ^＊あるいはグレーゾーンからの距離）などに基づき、ショットカテゴリの変化点の中からショットカテゴリの変化が発生している可能性がより大きい点のみを話題分割点として決定することもできる。

また、話題分割点識別処理手段２４の話題分割識別処理結果を単独に用いても話題分割点を決定することができる。例えば、話題分割点識別処理で話題分割点有りと識別された全ての連続ショットを話題分割点とすることができる。また、話題分割点有りと識別された連続ショットから話題分割点識別処理結果のスコアを考慮して選択したものを話題分割点とすることもできる。なお、連続ショットにおける話題分割点は、連続ショットのショット間とするのが一般的であると考えられるが、ショット中の適当な位置とすることも考えられる。

さらに、ショット自動分類処理手段２３のショット自動分類処理結果と話題分割点識別処理手段２４の話題分割識別処理結果を組み合わせることによっても話題分割点を決定することができる。例えば、ショット自動分類処理手段２３のショット自動分類処理結果から、より確実性のあるものを選択して話題分割点とするために話題分割点識別処理手段２４の話題分割識別処理結果を利用することができる。また、ショット自動分類処理手段２３でのショット自動分類処理で分類されたショットの中を、さらに詳細に分割して話題分割点とするために話題分割点識別処理手段２４の話題分割識別処理結果を利用することができる。この場合、ショット自動分類処理の結果からカテゴリが変化したと認識されたショット間を話題分割点の候補として列挙し、列挙された全ての候補に対して話題分割点識別処理を実行して話題分割点を決定するようにすれば、話題分割の精度を向上させることができるとともに、話題分割点識別処理の負担を軽減することができる。

以上のようにして決定された話題分割点は、話題分割結果提示処理手段２７によりユーザに提示される。ユーザは、提示された話題分割点を参照して動画像データから自己が希望する動画像データのみを分割して取得することができる。

本発明は、パーソナルコンテンツなどの動画像データの話題分割に適用でき、また、動画像データベースより話題分割に基づく特定の動画像を提供したり、動画像に関連するサービスを行う動画像サーバなどにも適用できる。

本発明に係る動画像話題分割点決定装置の基本構成を示すブロック図である。本発明に係る動画像話題分割点決定装置の具体的実施形態を示すブロック図である。サポートベクタマシン（SVM）の概念の説明図である。話題分割点識別アルゴリズムにおける学習の説明図である。

符号の説明

１・・・特徴抽出部、２・・・話題分割点決定部、２１・・・ショット分割処理手段、２２・・・ショット特徴抽出処理手段、２３・・・ショット自動分類処理手段、２４・・・話題分割点識別処理手段、２５・・・話題分割点決定処理手段、２６・・・学習データ、２７・・・話題分割結果提示処理手段

Claims

動画像における話題分割点を決定する動画像話題分割点決定装置において、
動画像データから所定区間ごとの特徴量を抽出する特徴量抽出部と、
前記特徴量抽出手段により抽出された特徴量に基づいて、動画像における話題分割点を決定する話題分割点決定部とを備えることを特徴とする動画像話題分割点決定装置。
前記特徴量抽出部は、
動画像データをショットごとに分割するショット分割処理手段と、
前記ショット分割処理手段で分割された個々のショットから特徴量を抽出するショット特徴量抽出手段とを備えることを特徴とする請求項１に記載の動画像話題分割点決定装置。
前記話題分割点決定部は、前記特徴量抽出手段により抽出された特徴量を元に、ショットの自動分類を行うショット自動分類処理手段と、前記ショット自動分類処理手段での分類結果を用いて動画像における話題分割点を決定する話題分割点決定処理手段とを備えることを特徴とする請求項２に記載の動画像話題分割点決定装置。
前記話題分割点決定部は、連続したショットで前記特徴量抽出手段により抽出された特徴量を元に、話題分割点の有無を識別する話題分割点識別処理手段と、前記話題分割点識別処理手段での識別結果を用いて動画像における話題分割点を決定する話題分割点決定処理手段とを備えることを特徴とする請求項２に記載の動画像話題分割点決定装置。
前記話題分割点決定部は、前記特徴量抽出手段により抽出された特徴量を元に、ショットの自動分類を行うショット自動分類処理手段と、連続したショットで前記特徴量抽出手段により抽出された特徴量を元に、話題分割点の有無を識別する話題分割点識別処理手段と、前記ショット自動分類処理手段での分類結果と前記話題分割点識別処理手段での識別結果を組み合わせて動画像における話題分割点を決定する話題分割点決定処理手段とを備えることを特徴とする請求項２に記載の動画像話題分割点決定装置。