JP3601959B2 - Video structuring method and apparatus, and recording medium storing video structuring program - Google Patents
Video structuring method and apparatus, and recording medium storing video structuring program Download PDFInfo
- Publication number
- JP3601959B2 JP3601959B2 JP04506098A JP4506098A JP3601959B2 JP 3601959 B2 JP3601959 B2 JP 3601959B2 JP 04506098 A JP04506098 A JP 04506098A JP 4506098 A JP4506098 A JP 4506098A JP 3601959 B2 JP3601959 B2 JP 3601959B2
- Authority
- JP
- Japan
- Prior art keywords
- counting
- video
- number sequence
- sequence
- appearances
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は、映像を構造化する方法および装置に関する。
【0002】
【従来の技術】
映像データベースの検索や表示のためには、映像を適当な時間的区間に分割し、分割された映像を構造化することによって、映像を管理することが望ましい。
【0003】
従来は、まず、フレーム画像の比較により、画面が大きく変化する時点で映像を分割する。ここで分割された映像の時間的区間は「ショット」と呼ばれる。次にショットをひとつ以上集めて、「シーン」と呼ばれる階層を作る。シーンは、意味的な区切りによって映像を分割した単位であり、例えば、同じ撮影場所や同じテーマが連続するショットを集めてシーンとする。
【0004】
従来は、シーンを自動的に構成するためには、モデルを用いた。例えば、ニュース映像を対象にする場合、あるニュースキャスター出現ショットから次のニュースキャスター出現ショットまでをひとつのシーンとするというモデルを作る。そして、ニュースキャスターの存在するショットを、フレーム画像の分析によって抽出し、自動的にシーンを切り出すことによって、ニュース映像を構造化する。
【0005】
【発明が解決しようとする課題】
従来技術では、シーンの意味的な分類に基づいて映像を分割しているため、モデルの定義に任意性があり、一般的な構造化が難しく、実際のデータの性質を反映しない場合があるという問題があった。
【0006】
具体的には、従来技術には次のような問題がある。まず、映像の意味の解釈は現状の技術では難しいため、自動化が難しい。さらに、大量の映像データを対象にして構造化を行おうとした場合には、均質な構造化ができない。また、モデルに基づく映像解釈は、対象が限定され一般性に乏しく、実際の映像データに含まれている未知の構造を反映するのは難しい。
【0007】
そこで、本発明の目的は、頻度の高い映像表現を抽出をすることができ、映像の一般的で均質な構造化処理の自動化を容易にし、実際のデータの性質を反映した構造化が可能な映像構造化方法および装置を提供することである。
【0008】
【課題を解決するための手段】
前記課題を解決するために、本発明の映像構造化方法は、
時間的区間に分割された映像の前記区間における特徴量ベクトルを抽出する特徴量抽出段階と、特徴量ベクトルを番号に変換し、映像を番号列によって表す量子化段階と、番号列において部分番号列の出現回数を計数する計数段階を有し、
前記計数段階が、前記番号列の参照列を作成する参照列作成段階と、前記参照列を一定の順序で並べ替えるソート段階と、並べ替えられた前記参照列において隣接する部分番号列間で一致する番号列の長さである一致長を求めるとともにその出現回数を計数する一致番号計数段階と、部分番号列を、一致長と、出現回数に基づいて、並べ替えるソート段階とを有する。
また、本発明の他の映像構造化方法は、
時間的に区分された映像の特徴量ベクトルを抽出する特徴量抽出段階と、前記特徴量ベクトルを番号に変換し、映像を番号列によって表す量子化段階と、前記番号列において部分番号列の出現回数を計数する計数段階とを有し、
前記計数段階が、前記番号列の参照列を作成する参照列作成段階と、前記参照列を一定の順序で並べ替えるソート段階と、並べ替えられた前記参照列において隣接する部分番号列間で一致する番号列の長さである一致長を求めるとともにその出現回数を計数する一致部分番号列計数段階と、量子化段階が、特徴量ベクトルを番号に変換するときに出力する尤度と、一致長と、出現回数に基づいて、前記部分番号列を並べ替えるソート段階を有する。
【0009】
本発明は、映像データに繰り返し現れる特徴量の列を抽出することにより映像を構造化する。本発明が扱う映像は、ショットなどの時間的区間に分割されて入力されるとする。また、ショット分割の方法として、例えば、フレーム画像を比較して、画面が大きく変化する時点で映像をショットに分割する方法を用いることができる。
【0010】
映像データの特徴量を量子化し、番号列化し、その番号列の部分番号列の出現回数を計数するので、頻度の高い映像表現を抽出することができ、映像の構造化処理の自動化が容易になり、一般的で均質な構造化が可能で、実際のデータの性質を反映した構造化ができる。結果を並べ替えて出力するので、結果の観察が容易になる。あるいは、量子化の品質を利用して結果を並べ替えて出力するので、意味のある結果を観察しやすい。
【0015】
本発明の実施態様によれば、計数段階が、部分番号列に包含され、出現回数が該部分番号列と同じ部分番号列を除外する。断片的な映像表現を除外するので、結果の観察が容易になる。
【0019】
本発明の映像構造化装置は、時間的区間に分割された映像の前記区間における特徴量ベクトルを抽出する特徴量抽出手段と、特徴量ベクトル番号に変換し、映像を番号列によって表す量子化手段と、前記番号列において部分番号列の出現回数を計数する計数手段を有し、計数手段が、前記番号列の参照列を作成する参照列作成手段と、前記参照列を一定の順序で並べ替えるソート手段と、並べ替えられた前記参照列において隣接する部分番号列間で一致する番号列の長さである一致長を求めるとともにその出現回数を計数する一致部分番号列計数手段と、部分番号列を、一致長と、出現回数に基づいて、並べ替えるソート手段とを有する。
本発明の他の映像構造化装置は、時間的区間における映像の特徴量ベクトルを抽出する特徴量抽出手段と、前記特徴量ベクトル番号に変換し、映像を番号列によって表す量子化手段と、 前記番号列において部分番号列の出現回数を計数する計数手段を有し、計数手段が、前記番号列の参照列を作成する参照列作成手段と、前記参照列を一定の順序で並べ替えるソート手段と、並べ替えられた参照列において隣接する部分番号列間で一致する番号列の長さである一致長を求めるとともにその出現回数を計数する一致部分番号列計数手段と、量子化手段が、特徴量ベクトルを番号に変換するときに出力する尤度と、一致長と、出現回数に基づいて、部分番号列を並べ替えるソート手段を有する。
【0020】
本発明の実施態様によれば、計数手段が、部分番号列に包含される部分番号列を除外して出現回数を計数する。
【0023】
【発明の実施の形態】
次に、本発明の実施の形態について図面を参照して説明する。
【0024】
図1を参照すると、本発明の第1の実施形態の映像構造化装置は、時間的区間に分割された映像の前記区間における映像の特徴量ベクトルを抽出する特徴量抽出部11と、特徴量ベクトルを番号に変換し、映像を番号列によって表す量子化部12と、番号列において部分番号列の出現回数を計数する計数部13から構成される。
【0025】
次に、本実施形態の動作を図2により説明する。
【0026】
まず、特徴量抽出段階21において、時間的区間ごとに、映像の特徴量ベクトルを抽出する。次に、量子化段階22において、特徴量ベクトルを1次元の番号に変換する。これにより、映像は番号列によって表される。最後の計数段階23において、部分番号列の出現回数を計数する。
【0027】
図3を用いて、特徴量抽出段階21の例を説明する。図3(1)〜(3)はそれぞれ、映像の特徴量の例として、フレーム画像と、音声信号と、映像に付加された付加情報の、3つを示している。フレーム画像は、画素値のRGB値を用いて、ベクトルとして表すことができる。また、音声信号は、サンプリングにより、波形の数値の列としてベクトル化できる。また、付加情報は、個々の属性値を数値として表しベクトル化する。名義尺度については適当に数字を割り当てる。例えば、テロップの有無をそれぞれ1,0として表す。
【0028】
以上のように、フレーム画像、音声信号、付加情報を特徴量ベクトルとして表す。実際に用いる特徴量ベクトルとして、これらの特徴量ベクトルをすべて、あるいは、任意の組み合わせで連結したもの、あるいは、どれかひとつの特徴量ベクトルを単独で用いることができる。
【0029】
なお、以上挙げた特徴量はこれに限定されるものではなく、例えば、フレーム画像の画素値として、色相、明度、彩度を用いてもよいし、音声信号の特徴量として、周波数スペクトルを用いてもよい。また。動き情報などの特徴量を用いてもよい。
【0030】
次に、図4と表1を用いて、量子化段階22の第1の例を説明する。量子化段階22では、特徴量ベクトルの次元数を1次元にまで小さくする。次元数を小さくするためには、例えば、フレーム画像の特徴量ベクトルは、空間的に画素値を間引くことによって、次元数を減らすことができる。
【0031】
【表1】
また、表1のような量子化テーブルを用いて、0〜255までの値域を0〜3までに縮退させ、より少ないビット数によって数値を表すことができる。例えば、図4に示すような、[30,150,50,200]という4次元のベクトルxは、表1の量子化テーブルによって、[0,2,1,3]というベクトルyに変換される。さらに、yの要素を4進数の桁の数値とすると、39という1次元の数値cに変換することができる。
【0032】
次に、図5を用いて、量子化段階22の第2の例を説明する。この例では、いわゆるベクトル量子化の方法を用いて、特徴量ベクトルを1次元の数値に変換する。まず、分割段階31において、特徴量ベクトルの集合を部分集合に分割する。このとき、距離の近い特徴量ベクトルは同じ部分集合に属するようにする。部分集合に通し番号をつけ、量子化段階32において、各特徴量ベクトルを部分集合の番号によって表す。このようにすれば、距離の近い特徴量ベクトルを同じ番号によって表すことができる。
【0033】
次に、図6と表2〜表5を用いて、計数段階23の第1の例を説明する。本例では、まず、参照列作成段階41において、番号列を参照する参照列を作成する。例えば、“123421232”という番号列が入力されたとすると、参照列は表2のように作成される。
【0034】
【表2】
つまり、参照列の要素a〜iは、それぞれ入力番号列の1〜9番目の要素から始まる部分番号列を参照する。例えば、cは、3番目の要素から始まる“3421232”という部分番号列を参照する。なお、ここではアルファベットを用いて参照列の要素を表したが、数字を用いて表してもよい。図6に戻って、次に、ソート段階42において、参照列の個々の要素が参照する部分番号列を比較して、参照列を一定の順序で並べ替える。例えば、部分番号列を辞書順に並べ替えると、表3のようになる。
【0035】
なお、ここでいう「辞書順」とは、部分番号列のより先頭の数字が小さい順と定義する。つまり、部分番号列sのi番目の番号をs(i)と表すと、2つの部分番号列aとbの大小を次のように判定する。まず、先頭のa(1)とb(1)を比較し、a(1)<b(1)ならばa<bと判定し、a(1)>b(1)ならばa>bと判定する。もしa(1)=b(1)ならば、比較する位置をひとつ進め、a(2)とb(2)を同様に比較する。以下同様にaとbの大小関係が判定されるまで、順番に比較する位置を進めながら比較していく。ただし、a、bのどちらかが終端に達した場合は、終端に達した部分番号列の方が大きいと判定する。例を示すと、
「123」<「124」<「12」<「234」
という大小関係になる。「124」と「12」の比較では「12」の方が先に終端に達するため、「124」<「12」という大小関係になっていることに注意する。
【0036】
【表3】
次に、一致部分番号列計数段階43では、並べ替えられた前記参照列において隣接する部分番号列間で一致する部分番号列とその出現回数を計数する。本例では、表3の行の上から2行づつ比較していき、一致する番号の長さを求める。例えば、fとaを比較すれば、先頭の“123”が一致するので、一致長は3となる。以下、aとe,eとgというように順番に一致長を求め、表4のように一致長の表を作成する。
【0037】
【表4】
最後に、個々の一致長について、部分番号列と出現回数列を求める。例えば、一致長3については、表4を順番に見ると、fが3以上の一致長になっている。したがって、fが参照する部分番号列の先頭から3個目までの“123”を部分番号列とし、fとaの2回を出現回数とする。一致長2については、fとgが条件を満たす。fについては、部分番号列が“12”で、出現回数はf,aの2回、gについては、部分番号列が“23”で、出現回数はg,bの2回である。一致長1については、fと、e,g,bと、hが条件を満たす。それぞれ、fについては、部分番号列が“1”で、出現回数はf,aの2回、e,g,bについては、部分番号列が“2”で、出現回数はe,g,b,iの4回、hについては、部分番号列が“3”で、出現回数はh,c,の2回となる。このようにして表4を分析することによって、一致長ごとに、部分番号列と、出現回数を求めることができ、その結果、表5のような出現回数表を得ることができる。
【0038】
【表5】
本例では、ある部分番号列に包含される部分番号列があっても出現回数が数えられてしまう。このため、ある部分番号列がN回出現すると、その部分番号列に包含される部分番号列は、少なくともN回の計数をもつことになる。例えば、表5では“123”という部分番号列に包含される“12”という部分番号列が、“123”と同じ出現回数になっている。このように断片的な結果が数多く生成され、結果を観察するのが困難になる。そこで、ある部分番号列に包含される部分番号列を除外して計数する例を図7を用いて説明する。
【0039】
図7の51と52は、それぞれ図6の41と42と同じである。一致長計数段階53では、一致部分番号列計数段階43と同様に、並べ替えられた参照列において隣接する部分番号列間で一致する部分番号列の長さを求め、参照列に記録する。表6〜表9の例を用いて説明する。表4の一致長を表6の一致長A欄に記録し、一致長B欄には、A欄の値か、上の行のA欄の値の大きい方を記録する。B欄は、A欄によって示される部分番号列の長さを意味している。例えば、f,aのB欄は3になるが、これは、fのA欄の3によって、fとaが参照する部分番号列の先頭から3個が一致していることを、fとaそれぞれに記録することを意味する。
【0040】
【表6】
次に、ソート段階54で、参照列を元の順序に戻すと、表7のようになる。
【0041】
【表7】
採否判定段階55において、一致長を比較し、部分番号列の採否を判定する。表7では、B欄の値を上から2行づつ比較していく、下の行が上の行と等しいか上回る場合に、下の行を採用する。また、第1行目は無条件で採用する。それ以外の場合は採用しない。表7では、採用の場合を○で、不採用の場合を×で表し、C欄に記録している。次に、ソート段階56において、ソート段階52と同じ順序で参照列を並べ替えると、表8のようになる。
【0042】
【表8】
一致部分番号列計数段階57では、B欄の一致長を見ながら、部分番号列とその出現回数を計数する。このとき、C欄の採否結果を参照し、○の場合のみ計数する。したがって、一致長3の場合は、部分番号列は“123”で、出現回数はfとaの2回となる。一致長2については、g,bが該当するが、いずれもC欄が×になっているので計数は0となる。同様に、一致長1については、部分番号列が“2”で、出現回数はe,iの2回となる。以上の結果、表9のような出現回数表を得ることができる。
【0043】
【表9】
さて、一般に、計数結果は膨大なものになるため、何らかの指針に沿って並べ替えて観察することが必要である。そこで、図8,9を用いて、本発明の第2の実施形態を説明する。この実施形態では、第1の実施形態に、ソート部14(ソート段階24)を付加して、計数結果を並べ替えることを特徴とする。
【0044】
表10を用いて、ソート段階24の第1の例を説明する。ここでは、表5の計数結果の出力を出現回数の大きい順に並べ、出現回数が同じ場合は、一致長の大きい順に並べ、さらに一致長が同じ場合は、部分番号列の辞書順に並べる。なお、この例では、出現回数、一致長、部分番号列の優先順に比較したが、他の優先順に比較して並べ替えてもよい。
【0045】
【表10】
次に、表11を用いて、ソート段階24の第2の例を説明する。この例では、出現回数と一致長の積の値の大きい順に並べ替えている。積の値が等しいときは、一致長、部分番号列を用いて並べ替えている。こうすることにより、出現回数と一致長との積は、部分番号列が占める番号長を表すので、全体のデータをより多く占める順に観察することができる。
【0046】
【表11】
次に、図10と表12〜14を参照して本発明の第3の実施形態を説明する。
【0047】
本実施形態では、量子化部12(量子段階)において特徴量ベクトルを1次元の番号に変換するときに尤度を出力するものとする。例えば、量子化段階の第1の例のように数値の間引きを行う場合は、間引きによって生じた誤差の逆数や、最大誤差との差の絶対値を尤度として用いることができる。また、量子化段階の第2の例のように、ベクトル量子化を用いる場合には、特徴ベクトルの部分集合の重心から各特徴量ベクトルまでの距離の逆数を尤度として用いることができる。
【0048】
【表12】
表12では、例として表2〜表5と同じ番号列が表12のような尤度と一緒に入力されるとする。表13は表5と同じ結果であるが、部分番号列に対応する尤度の和を求めている。例えば、一致長3は、参照列fとaで、部分番号列“123”が出現しているが、それぞれの尤度和は、(80+60+90)と(100+90)となり、これらを合計して520という尤度和をもつ。
【0049】
【表13】
このようにそれぞれの部分番号列について尤度和を求め、尤度和の大きい順に並べ替えると表14のようになる。
【0050】
【表14】
この例でも、第2の例と同様に、全体のデータをより多く占める順に観察することができる。さらに、量子化段階で尤度が高い場合ほど重み付けされてより上位に観察することができる。逆に、量子化誤差が大きい場合は、尤度が小さくなり下位に位置することになる。つまり、量子化の品質を結果の順位付けに利用することが可能になる。
【0051】
図11を参照すると、本発明の第4の実施形態の映像構造化装置は、時間的区間に分割された映像を入力する入力装置61と、部分番号列の出現回数を出力する、ディスプレイ、プリンタなどの出力装置62と、以上の各実施形態で説明した特徴量抽出、量子化、計数、さらにはソートの各処理をコンピュータに実行させるための映像構造化プログラムを記録した、FD,CD−ROM、半導体メモリなどの記録媒体63と、記録媒体63から映像構造化プログラムを読み込んで実行するデータ処理装置64で構成されている。
【0052】
本発明は、その主旨を逸脱しない範囲で種々の変形が可能である。例えば、並べ変えの順序を逆にしたり、番号の代わりにアルファベットなどの記号を用いてもよい。
【0053】
【発明の効果】
以上説明したように、本発明は、下記のような効果がある。
【0054】
請求項1と4と7の発明は、映像データの特徴量を量子化し、番号列化し、その番号列の部分番号列の出現回数を計数するので、頻度の高い映像表現を抽出することができ、映像の構造化処理の自動化が容易になり、一般的で均質な構造化が可能で、実際のデータの性質を反映した構造化ができ、また結果を並べ替えて出力するので、結果の観察が容易である。
請求項2と5と7の発明は、映像データの特徴量を量子化し、番号列化し、その番号列の部分番号列の出現回数を計数するので、頻度の高い映像表現を抽出することができ、映像の構造化処理の自動化が容易になり、一般的で均質な構造化が可能で、実際のデータの性質を反映した構造化ができ、また量子化の品質を利用して結果を並べ替えて出力するので、意味のある結果を観察しやすい。
【0059】
請求項3,6,7の発明は、ある部分番号列に包含され、出現回数が該部分番号列と同じ部分番号列を除外して出現回数を計数するので、断片的な映像表現を除外して結果の観察が容易になる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態の映像構造化装置の構成図である。
【図2】第1の実施形態の処理の流れ図である。
【図3】特徴量抽出の例を示す図である。
【図4】量子化段階22の第1の例を示す図である。
【図5】量子化段階22の第2の例を示す図である。
【図6】計数段階23の第1の例を示す流れ図である。
【図7】計数段階23の第2の例を示す流れ図である。
【図8】本発明の第2の実施形態の映像構造化装置の構成図である。
【図9】第2の実施形態の処理を示す流れ図である。
【図10】本発明の第3の実施形態の映像構造化装置の構成図である。
【図11】本発明の第4の実施形態の映像構造化装置の構成図である。
【符号の説明】
11 特徴量抽出部
12 量子化部
13 計数部
14 ソート部
21 特徴量抽出段階
22 量子化段階
23 計数段階
24 ソート段階
31 分割段階
32 量子化段階
41 参照列作成段階
42 ソート段階
43 一致部分番号列計数段階
51 参照列作成段階
52,54,56 ソート段階
53 一致長計数段階
55 採否判定段階
57 一致部分番号列計数段階
61 入力装置
62 出力装置
63 記録媒体
64 データ処理装置[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a method and an apparatus for structuring an image.
[0002]
[Prior art]
In order to search and display the video database, it is desirable to manage the video by dividing the video into appropriate time sections and structuring the divided video.
[0003]
Conventionally, first, a video is divided at a time point when a screen greatly changes by comparing frame images. The temporal section of the divided image is called a “shot”. Next, collect one or more shots to create a hierarchy called a "scene". A scene is a unit obtained by dividing a video by a semantic break. For example, shots in which the same shooting location and the same theme are consecutive are collected to be a scene.
[0004]
Conventionally, a model is used to automatically compose a scene. For example, when a news video is targeted, a model is created in which a scene from a certain newscaster appearance shot to the next newscaster appearance shot is defined as one scene. Then, the news video is structured by extracting the shot in which the newscaster is present by analyzing the frame image and automatically cutting out the scene.
[0005]
[Problems to be solved by the invention]
In the prior art, because the video is divided based on the semantic classification of the scene, the definition of the model is arbitrary, general structuring is difficult, and it may not reflect the properties of the actual data There was a problem.
[0006]
Specifically, the prior art has the following problems. First, the interpretation of the meaning of video is difficult with current technology, so automation is difficult. Furthermore, when attempting to structure a large amount of video data, uniform structuring cannot be performed. Further, video interpretation based on a model has limited objects and lacks generality, and it is difficult to reflect an unknown structure included in actual video data.
[0007]
Therefore, it is an object of the present invention to be able to extract frequent image expressions, facilitate automation of general and homogeneous structuring of images, and enable structuring that reflects the properties of actual data. It is to provide an image structuring method and apparatus.
[0008]
[Means for Solving the Problems]
In order to solve the above-mentioned problem, a video structuring method of the present invention includes:
A feature value extracting step of extracting a feature value vector in the section of the video divided into temporal sections, a quantization step of converting the feature quantity vector into a number and representing the video by a number sequence, and a partial number sequence in the number sequence It has a counting stage for counting the number of occurrences of,
The counting step includes a reference column creating step of creating a reference column of the number sequence, a sorting step of rearranging the reference column in a fixed order, and a coincidence between adjacent partial number sequences in the sorted reference column. A matching number counting step of obtaining a matching length which is the length of a number sequence to be performed and counting the number of appearances, and a sorting step of rearranging the partial number strings based on the matching length and the number of occurrences.
Further, another image structuring method of the present invention includes:
A feature amount extracting step of extracting a feature amount vector of a temporally segmented video, a quantization step of converting the feature amount vector into a number and representing the video by a number sequence, and the appearance of a partial number sequence in the number sequence A counting step of counting the number of times,
The counting step includes a reference column creating step of creating a reference column of the number sequence, a sorting step of rearranging the reference column in a fixed order, and a coincidence between adjacent partial number sequences in the sorted reference column. A matching part number sequence counting step of calculating a matching length, which is the length of the number sequence to be performed, and counting the number of appearances; a likelihood output when the quantization step converts a feature vector into a number; And a sorting step of sorting the partial number sequence based on the number of appearances.
[0009]
According to the present invention, a video is structured by extracting a sequence of feature values that repeatedly appear in video data. It is assumed that a video handled by the present invention is input after being divided into time sections such as shots. Further, as a method of dividing shots, for example, a method of comparing frame images and dividing a video into shots at a time when a screen greatly changes can be used.
[0010]
Quantizing the feature amount of video data, converting it into a number sequence, and counting the number of appearances of the partial number sequence of the number sequence, it is possible to extract frequent video expressions and easily automate the video structuring process. In other words, general and homogeneous structuring is possible, and structuring that reflects the properties of actual data can be performed. Since the results are rearranged and output, it is easy to observe the results. Alternatively, since the results are rearranged and output using the quality of quantization, meaningful results can be easily observed.
[0015]
According to an embodiment of the present invention, the counting step are encompassed part number column, that number of occurrences misses dividing the same part number column said partial number sequence. Eliminating fragmentary video representations makes it easier to observe the results.
[0019]
The video structuring apparatus according to the present invention is characterized in that a feature value extracting means for extracting a feature value vector in the section of a video divided into temporal sections, and a quantization means for converting the feature vector number into a feature vector number and representing the video by a number sequence And counting means for counting the number of appearances of the partial number sequence in the number sequence , wherein the counting device rearranges the reference sequence in a fixed order with reference sequence creating means for creating a reference sequence of the number sequence. Sorting means; matching part number string counting means for obtaining a matching length which is the length of a number string matching between adjacent part number strings in the rearranged reference string and counting the number of appearances; Are sorted based on the matching length and the number of appearances.
Another image structuring apparatus of the present invention includes a feature amount extraction unit that extracts a feature amount vector of a video in a time section, a quantization unit that converts the feature amount vector number into a number sequence and represents the video by a number sequence, A counting means for counting the number of appearances of the partial number sequence in the number sequence, the counting device forming a reference sequence of the number sequence, and a sorting device for rearranging the reference sequence in a predetermined order; A matching part number sequence counting means for calculating a matching length which is a length of a number sequence matching between adjacent part number sequences in the sorted reference string and counting the number of appearances thereof; There is a sorting means for rearranging the partial number sequence based on the likelihood output when converting a vector into a number, the matching length, and the number of appearances.
[0020]
According to the embodiment of the present invention, the counting means counts the number of appearances excluding the partial number sequence included in the partial number sequence.
[0023]
BEST MODE FOR CARRYING OUT THE INVENTION
Next, embodiments of the present invention will be described with reference to the drawings.
[0024]
Referring to FIG. 1, a video structuring apparatus according to a first embodiment of the present invention includes a feature
[0025]
Next, the operation of the present embodiment will be described with reference to FIG.
[0026]
First, in a
[0027]
An example of the feature
[0028]
As described above, the frame image, the audio signal, and the additional information are represented as a feature vector. As the feature amount vector to be actually used, all of these feature amount vectors, one obtained by connecting them in an arbitrary combination, or any one of the feature amount vectors can be used alone.
[0029]
Note that the feature amounts described above are not limited to this. For example, hue, lightness, and saturation may be used as pixel values of a frame image, or a frequency spectrum may be used as a feature amount of an audio signal. You may. Also. A feature amount such as motion information may be used.
[0030]
Next, a first example of the
[0031]
[Table 1]
Further, by using a quantization table as shown in Table 1, the value range from 0 to 255 is reduced to 0 to 3, and a numerical value can be represented by a smaller number of bits. For example, a four-dimensional vector x of [30, 150, 50, 200] as shown in FIG. 4 is converted into a vector y of [0, 2, 1, 3] by the quantization table of Table 1. . Furthermore, if the element of y is a quaternary number, it can be converted to a one-dimensional numerical value c of 39.
[0032]
Next, a second example of the
[0033]
Next, a first example of the counting
[0034]
[Table 2]
That is, the elements a to i of the reference sequence each refer to the partial number sequence starting from the first to ninth elements of the input number sequence. For example, c refers to the partial number sequence “342212” starting from the third element. Here, although the elements of the reference column are represented using alphabets, they may be represented using numbers. Returning to FIG. 6, next, in the sorting
[0035]
Here, the “dictionary order” is defined as the order in which the leading numeral of the partial number sequence is smaller. That is, when the i-th number of the partial number sequence s is represented as s (i), the magnitude of the two partial number sequences a and b is determined as follows. First, a (1) and b (1) at the beginning are compared, and if a (1) <b (1), it is determined that a <b. If a (1)> b (1), a> b is determined. judge. If a (1) = b (1), the position to be compared is advanced by one, and a (2) and b (2) are similarly compared. In the same manner, the comparison is performed while sequentially moving the position to be compared until the magnitude relationship between a and b is determined. However, if either a or b reaches the end, it is determined that the partial number sequence that has reached the end is larger. For example,
“123” <“124” <“12” <“234”
The relationship becomes big and small. Note that in the comparison between “124” and “12”, since “12” reaches the end earlier, the magnitude relationship is “124” <“12”.
[0036]
[Table 3]
Next, in the matching part number
[0037]
[Table 4]
Finally, for each matching length, a partial number sequence and an appearance frequency sequence are obtained. For example, with regard to the
[0038]
[Table 5]
In this example, the number of appearances is counted even if there is a partial number sequence included in a certain partial number sequence. Therefore, when a certain partial number sequence appears N times, the partial number sequence included in the partial number sequence has at least N counts. For example, in Table 5, the partial number sequence “12” included in the partial number sequence “123” has the same number of appearances as “123”. Many such fragmentary results are generated, making it difficult to observe the results. Thus, an example in which counting is performed by excluding a partial number sequence included in a certain partial number sequence will be described with reference to FIG.
[0039]
7 are the same as 41 and 42 in FIG. 6, respectively. In the matching
[0040]
[Table 6]
Next, in the sorting
[0041]
[Table 7]
In the adoption /
[0042]
[Table 8]
In the matching part number
[0043]
[Table 9]
By the way, in general, the counting result becomes enormous, and it is necessary to rearrange and observe according to some guideline. Therefore, a second embodiment of the present invention will be described with reference to FIGS. This embodiment is characterized in that the sorting unit 14 (sorting step 24) is added to the first embodiment to rearrange the counting results.
[0044]
A first example of the sorting
[0045]
[Table 10]
Next, a second example of the sorting
[0046]
[Table 11]
Next, a third embodiment of the present invention will be described with reference to FIG. 10 and Tables 12 to 14.
[0047]
In the present embodiment, it is assumed that the likelihood is output when the quantization unit 12 (quantum stage) converts a feature vector into a one-dimensional number. For example, when numerical values are thinned out as in the first example of the quantization stage, the reciprocal of an error caused by the thinning or the absolute value of the difference from the maximum error can be used as the likelihood. When vector quantization is used as in the second example of the quantization step, the reciprocal of the distance from the center of gravity of the subset of feature vectors to each feature vector can be used as likelihood.
[0048]
[Table 12]
In Table 12, it is assumed that the same number sequence as in Tables 2 to 5 is input together with likelihoods as in Table 12 as an example. Table 13 shows the same result as Table 5, but calculates the sum of likelihoods corresponding to the partial number sequence. For example, as for the
[0049]
[Table 13]
Thus, the sum of likelihoods is obtained for each partial number sequence and rearranged in descending order of the likelihood sums, as shown in Table 14.
[0050]
[Table 14]
Also in this example, as in the second example, observation can be performed in the order in which the entire data occupies more. Furthermore, the higher the likelihood in the quantization stage, the higher the weight and the higher the likelihood of observation. Conversely, when the quantization error is large, the likelihood is reduced and the quantization error is positioned lower. That is, the quality of the quantization can be used for ranking the results.
[0051]
Referring to FIG. 11, an image structuring apparatus according to a fourth embodiment of the present invention includes an
[0052]
The present invention can be variously modified without departing from the gist thereof. For example, the rearrangement order may be reversed, or a symbol such as an alphabet may be used instead of a number.
[0053]
【The invention's effect】
As described above, the present invention has the following effects.
[0054]
According to the first, fourth and seventh aspects of the present invention, the feature quantity of the video data is quantized and converted into a number sequence, and the number of appearances of the partial number sequence of the number sequence is counted. , Making it easy to automate the video structuring process, enabling general and homogeneous structuring, structuring that reflects the nature of the actual data, and reordering and outputting the results to observe the results Is easy.
According to the second, fifth and seventh aspects of the present invention, the feature quantity of the video data is quantized and converted into a number sequence, and the number of appearances of the partial number sequence of the number sequence is counted. , Making it easy to automate video structuring processing, enabling general and homogeneous structuring, structuring that reflects the nature of the actual data, and reordering results using the quality of quantization. Output, it is easy to observe meaningful results.
[0059]
The invention of
[Brief description of the drawings]
FIG. 1 is a configuration diagram of a video structuring apparatus according to a first embodiment of the present invention.
FIG. 2 is a flowchart of a process according to the first embodiment.
FIG. 3 is a diagram illustrating an example of feature amount extraction.
FIG. 4 is a diagram illustrating a first example of a
FIG. 5 shows a second example of the
FIG. 6 is a flowchart showing a first example of the counting
FIG. 7 is a flowchart showing a second example of the counting
FIG. 8 is a configuration diagram of a video structuring apparatus according to a second embodiment of the present invention.
FIG. 9 is a flowchart illustrating processing according to the second embodiment.
FIG. 10 is a configuration diagram of a video structuring apparatus according to a third embodiment of the present invention.
FIG. 11 is a configuration diagram of a video structuring apparatus according to a fourth embodiment of the present invention.
[Explanation of symbols]
DESCRIPTION OF
Claims (7)
前記区間における映像の特徴量ベクトルを抽出する特徴量抽出段階と、
前記特徴量ベクトルを番号に変換し、映像を番号列によって表す量子化段階と、
前記番号列において部分番号列の出現回数を計数する計数段階と
を有し、
前記計数段階が、
前記番号列の参照列を作成する参照列作成段階と、
前記参照列を一定の順序で並べ替えるソート段階と、
並べ替えられた前記参照列において隣接する部分番号列間で一致する番号列の長さである一致長を求めるとともにその出現回数を計数する一致部分番号列計数段階と、
前記部分番号列を、一致長と、出現回数に基づいて、並べ替えるソート段階と
を有する映像構造化方法。An image structuring method for structuring an image divided into time sections,
A feature value extraction step of extracting a feature value vector of a video in the section,
A quantization step of converting the feature amount vector into a number and representing the video by a number sequence;
Counting the number of appearances of the partial number sequence in the number sequence,
The counting step includes:
A reference column creating step of creating a reference column of the number sequence,
A sorting step of sorting the reference columns in a certain order;
A matching part number string counting step of determining a matching length that is the length of a number string that matches between adjacent part number strings in the sorted reference string and counting the number of appearances thereof ;
A video structuring method, comprising: a sorting step of sorting the partial number sequence based on a matching length and the number of appearances .
前記区間における映像の特徴量ベクトルを抽出する特徴量抽出段階と、
前記特徴量ベクトルを番号に変換し、映像を番号列によって表す量子化段階と、
前記番号列において部分番号列の出現回数を計数する計数段階と
を有し、
前記計数段階が、
前記番号列の参照列を作成する参照列作成段階と、
前記参照列を一定の順序で並べ替えるソート段階と、
並べ替えられた前記参照列において隣接する部分番号列間で一致する番号列の長さである一致長を求めるとともにその出現回数を計数する一致部分番号列計数段階と、
前記量子化段階が、特徴量ベクトルを番号に変換するときに出力する尤度と、一致長と、出現回数に基づいて、前記部分番号列を並べ替えるソート段階と
を有する映像構造化方法。 An image structuring method for structuring an image divided into time sections,
A feature value extraction step of extracting a feature value vector of a video in the section,
A quantization step of converting the feature amount vector into a number and representing the video by a number sequence;
A counting step of counting the number of appearances of the partial number sequence in the number sequence;
Has,
The counting step includes:
A reference column creating step of creating a reference column of the number sequence,
A sorting step of sorting the reference columns in a certain order;
A matching part number string counting step of determining a matching length that is the length of a number string that matches between adjacent part number strings in the sorted reference string and counting the number of appearances thereof;
A video structure comprising: a sorting step of rearranging the partial number sequence based on a likelihood output when converting a feature amount vector into a number, a matching length, and the number of appearances. Method.
前記区間における映像の特徴量ベクトルを抽出する特徴量抽出手段と、
前記特徴量ベクトル番号に変換し、映像を番号列によって表す量子化手段と、
前記番号列において部分番号列の出現回数を計数する計数手段と
を有し、
前記計数手段が、
前記番号列の参照列を作成する参照列作成手段と、
前記参照列を一定の順序で並べ替えるソート手段と、
並べ替えられた前記参照列において隣接する部分番号列間で一致する番号列の長さである一致長を求めるとともにその出現回数を計数する一致部分番号列計数手段と、
部分番号列を、一致長と、出現回数に基づいて、並べ替えるソート手段と
を有する映像構造化装置。An image structuring device for structuring an image divided into temporal sections,
Feature amount extracting means for extracting a feature amount vector of a video in the section,
Quantizing means for converting the feature amount vector number and representing the video by a number sequence;
Have a counting means for counting the number of occurrences of part number string in the number column,
The counting means,
Reference column creation means for creating a reference column of the number sequence,
Sorting means for rearranging the reference columns in a certain order;
Matching part number sequence counting means for determining a matching length that is the length of a number sequence matching between adjacent part number sequences in the sorted reference sequence and counting the number of appearances thereof,
A video structuring apparatus comprising: sorting means for rearranging a partial number sequence based on a matching length and the number of appearances.
前記区間における映像の特徴量ベクトルを抽出する特徴量抽出手段と、
前記特徴量ベクトル番号に変換し、映像を番号列によって表す量子化手段と、
前記番号列において部分番号列の出現回数を計数する計数手段と
を有し、
前記計数手段が、
前記番号列の参照列を作成する参照列作成手段と、
前記参照列を一定の順序で並べ替えるソート手段と、
並べ替えられた前記参照列において隣接する部分番号列間で一致する番号列の長さである一致長を求めるとともにその出現回数を計数する一致部分番号列計数手段と、
前記量子化手段が、特徴量ベクトルを番号に変換するときに出力する尤度と、一致長と、出現回数の比較結果に基づいて、前記部分番号列を並べ替えるソート手段と
を有する映像構造化装置。 An image structuring device for structuring an image divided into temporal sections,
Feature amount extracting means for extracting a feature amount vector of a video in the section,
Quantizing means for converting the feature amount vector number and representing the video by a number sequence;
Counting means for counting the number of appearances of the partial number sequence in the number sequence;
Has,
The counting means,
Reference column creation means for creating a reference column of the number sequence,
Sorting means for rearranging the reference columns in a certain order;
Matching part number sequence counting means for determining a matching length that is the length of a number sequence matching between adjacent part number sequences in the sorted reference sequence and counting the number of appearances thereof,
A sorter that sorts the partial number sequence based on a likelihood output when the feature value vector is converted into a number, a match length, and a comparison result of the number of appearances,
An image structuring device having:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP04506098A JP3601959B2 (en) | 1998-02-26 | 1998-02-26 | Video structuring method and apparatus, and recording medium storing video structuring program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP04506098A JP3601959B2 (en) | 1998-02-26 | 1998-02-26 | Video structuring method and apparatus, and recording medium storing video structuring program |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11242685A JPH11242685A (en) | 1999-09-07 |
JP3601959B2 true JP3601959B2 (en) | 2004-12-15 |
Family
ID=12708825
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP04506098A Expired - Fee Related JP3601959B2 (en) | 1998-02-26 | 1998-02-26 | Video structuring method and apparatus, and recording medium storing video structuring program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3601959B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2458510B1 (en) * | 2010-11-29 | 2014-05-07 | NTT DoCoMo, Inc. | Method and apparatus for performing a cross-correlation |
-
1998
- 1998-02-26 JP JP04506098A patent/JP3601959B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH11242685A (en) | 1999-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Doulamis et al. | A fuzzy video content representation for video summarization and content-based retrieval | |
US8452043B2 (en) | System for identifying motion video content | |
JP4777059B2 (en) | Image search apparatus and image search method | |
US6870957B1 (en) | Picture feature extraction device, picture retrieving device, and methods thereof for picture feature extraction and retrieving picture | |
KR100706389B1 (en) | Image search method and apparatus considering a similarity among the images | |
US20100303366A1 (en) | Method for Identifying Motion Video/Audio Content | |
JP3692018B2 (en) | Telop information processing device | |
JP2011237879A (en) | Similar video retrieving device | |
CN110502664A (en) | Video tab indexes base establishing method, video tab generation method and device | |
WO2009140824A1 (en) | A system for identifying motion video/audio content | |
JPWO2010061537A1 (en) | SEARCH DEVICE, SEARCH METHOD, AND PROGRAM | |
CN111177432A (en) | Large-scale image retrieval method based on hierarchical depth hash | |
KR100775773B1 (en) | Automatic extraction method of the structure of a video sequence | |
Nasir et al. | Event detection and summarization of cricket videos | |
US20110252035A1 (en) | Image processing apparatus, image processing method, and program | |
JP3601959B2 (en) | Video structuring method and apparatus, and recording medium storing video structuring program | |
JP2004192555A (en) | Information management method, device and program | |
JP3358692B2 (en) | Video block classification method and apparatus | |
JP2005339537A (en) | Telop information display device | |
US20050162442A1 (en) | Target object appearing position display apparatus | |
JP3916813B2 (en) | Data series search apparatus and method | |
Saraceno | Video content extraction and representation using a joint audio and video processing | |
JP4154459B2 (en) | Digital video processing method and apparatus | |
CN113420786A (en) | Semi-supervised classification method for feature mixed image | |
Tabrizi et al. | Video summarization using genetic algorithm and information theory |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040303 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040506 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20040506 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20040506 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040908 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040921 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081001 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091001 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101001 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111001 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121001 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131001 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |