JPH09128401A - 動画像検索装置及びビデオ・オン・デマンド装置 - Google Patents

動画像検索装置及びビデオ・オン・デマンド装置

Info

Publication number
JPH09128401A
JPH09128401A JP7281014A JP28101495A JPH09128401A JP H09128401 A JPH09128401 A JP H09128401A JP 7281014 A JP7281014 A JP 7281014A JP 28101495 A JP28101495 A JP 28101495A JP H09128401 A JPH09128401 A JP H09128401A
Authority
JP
Japan
Prior art keywords
vector
moving image
image
scene
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7281014A
Other languages
English (en)
Inventor
Hiroshi Ikeuchi
洋 池内
Ikuo Karashi
育雄 芥子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP7281014A priority Critical patent/JPH09128401A/ja
Publication of JPH09128401A publication Critical patent/JPH09128401A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 自然言語を用いて内容検索を可能にする動画
像検索装置を提供する。 【解決手段】 自然言語からなる質問文テキストを入力
することのできる入力手段6と、単語をN次元ベクトル
空間内のベクトルに対応づける単語辞書11と、動画像
から抽出した複数の代表シーンに対して各シーンの動画
像中での位置を表すインデックスと各シーンの内容を自
然言語で表した画像テキストとを保持する動画像データ
7と、ベクトル生成手段12と、検索手段13とを含
み、ベクトル生成手段12は単語辞書11を用いて質問
文テキスト及び画像テキストから質問文ベクトル及び画
像ベクトルを生成し、検索手段13は質問文ベクトルと
画像ベクトルとの類似度に基づいて質問文テキストに適
合するシーンの検索を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ビデオテープ等に
記録されている動画像やビデオ・オン・デマンド(VO
D)システム上に蓄積されている動画像を自然言語を用
いて検索できる動画像検索装置に関するものである。
【0002】
【従来の技術】従来、自然言語による画像検索として
は、キーワードを用いた検索の手法が主に用いられてい
る。これは予め各画像にその特徴を表す複数のキーワー
ドを付加しておき、入力文として与えられたキーワード
と画像に付加されたキーワードとの一致度により望みの
画像を検索するものである。
【0003】画像がビデオ映像等の動画像である場合に
は動画像の中から複数の代表シーンを選び出し、各々の
代表シーンに対して上述のようにキーワードを付与して
キーワード検索を行なう方法がある。検索結果の出力
は、各シーンを静止画像として保持しておき、検索され
た静止画像を出力する方法、各シーンの動画中での位置
を示すインデックスを保持しておき、検索されたインデ
ックスを用いてシーンの頭出しを行ない動画再生する方
法などがある。
【0004】ビデオ・オン・デマンド(VOD)システ
ムは、サービス供給者の提供するビデオ映像等の動画像
データに対し、通信回線で接続された端末利用者がビデ
オタイトルを指定する等の方法で欲しい動画像データを
得るものである。VOD上の動画像データに対し、端末
利用者が特定のシーンを検索する方法としても、上述の
キーワード検索の手法を利用できる。
【0005】
【発明が解決しようとする課題】上述のキーワードによ
る画像検索では、キーワードとして画像に付加された単
語でしか検索できず、利用者が入力する単語と同じ単語
を予めキーワードとして画像に付加しておくことも事実
上不可能である。キーワード検索には、この他にも個々
の単語でしか検索できない、画像に付加された単語と同
じ単語で検索した場合にはヒットするものの画像に付加
された単語と意味上は同じであっても別の単語で検索し
た場合にはヒットしない、高精度の検索を行おうとする
と検索式の作成が難しい、ノイズが多い等の問題があ
り、使い勝手がよい検索方法であるとは言えない。
【0006】本発明は、自然言語を用いてキーワード検
索ではなく内容検索を可能にする動画像検索装置を提供
することを目的とする。
【0007】
【課題を解決するための手段】本発明においては、画像
に付加された自然言語による内容説明文(以下、画像テ
キストという)と、与えられた自然言語による質問文
(以下、質問文テキストという)との類似度を求めるこ
とで動画像の検索を行なう。類似度の算出に当たって
は、画像テキストを単語辞書を用いてN個の特徴単語と
関連付けたN次元ベクトル空間内のベクトル(画像ベク
トル)に変換し、また質問文テキストを同じく単語辞書
を用いてN次元ベクトル空間内のベクトル(質問文ベク
トル)に変換した上で、これら画像ベクトルと質問文ベ
クトルの類似度を算出する。類似度は、例えば2つのベ
クトルの内積を計算することで定量的に求められる。
【0008】このように、自然言語による画像の内容説
明文と質問文を、N個の特徴単語と関連づけて、いわば
N次元の意味空間内のベクトルに変換して比較するた
め、人間の知識や感性に基づいた意味的な類似度の算出
が可能となる。その結果、画像テキスト中に現れない単
語を含んだ質問文に対しても、質問文に意味的に合致し
た画像が検索される。また、全ての画像を類似度の大き
い順にランク付けすることができる。
【0009】より具体的には、本発明の動画像検索装置
は、自然言語からなる質問文テキストを入力することの
できる入力手段と、単語をN次元ベクトル空間内のベク
トルに対応づける単語辞書と、動画像から抽出した複数
の代表シーンに対して各シーンの動画像中での位置を表
すインデックスと各シーンの内容を自然言語で表した画
像テキストとを保持する動画像データと、ベクトル生成
手段と、検索手段とを含み、ベクトル生成手段は単語辞
書を用いて質問文テキスト及び画像テキストから質問文
ベクトル及び画像ベクトルを生成し、検索手段は質問文
ベクトルと画像ベクトルとの類似度に基づいて質問文テ
キストに適合するシーンの検索を行うことを特徴とす
る。
【0010】動画像データは、シーンのインデックスと
画像ベクトルとを保持してもよい。さらに、検索手段に
よって検索された類似度の高い画像ベクトルに対応する
シーン番号から順に格納するバッファと、バッファに格
納されたシーン番号に対応するインデックスを参照して
シーンを再生する画像再生手段と、再生されたシーンを
出力する出力手段を備えることもできる。
【0011】また、動画像から抽出した複数の代表シー
ンの内容を自然言語で表した画像テキストを保持する動
画像データに対して、ベクトル生成手段で画像ベクトル
を作成することで、検索用の動画像データベースの構築
が可能となる。さらに、サービス提供側と端末とが通信
回線で結ばれているビデオ・オン・デマンド装置のサー
ビス提供側に動画像データ、単語辞書、ベクトル生成手
段、検索手段、記憶手段、画像再生手段等を備え、端末
側に上記の入力手段、出力手段を備えることにより、端
末側から内容検索が可能なビデオ・オン・デマンド装置
を構成することができる。
【0012】
【発明の実施の形態】以下、図面を参照して本発明を詳
細に説明する。図1は、ビデオテープの動画像を検索す
る動画像検索装置の一例を示すブロック図である。この
例の動画像検索装置は、CPU1、CPU1に接続され
たROM2、RAM3、ハードディスク等の記憶手段
4、及びI/Oインターフェイス5を介してCPU1に
接続されたキーボード等の入力手段6、ビデオテープの
動画像データ7、画像再生手段8を含む。画像再生手段
8には出力手段9が接続されている。ROM2には、単
語のベクトルを保持している単語辞書11が格納されて
いる。ROM2は、電気的に書き換え可能なROMでも
よく、この場合は、単語辞書11を改訂することができ
る。ビデオテープの動画像データ7は、ビデオテープと
ビデオテープの最初のシーンの部分に付属するデータ
(テキスト、インデックス)を半導体メモリ等に記憶し
たものを指す。CPU1は、ベクトル生成手段12や検
索手段13の機能を実現する。
【0013】キーボード等の入力手段6から質問文が入
力されると、CPU1によって実現されるベクトル生成
手段12はROM2に記憶された単語辞書11を用いて
検索対象となるビデオテープの動画像データ7及び質問
文から画像ベクトル及び質問文ベクトルを生成する。検
索手段13は、画像ベクトルと質問文ベクトルを比較し
て質問文に合致するシーンを検索する。RAM3には、
質問文に対する類似度とシーンの番号等のデータが記憶
される。検索されたビデオテープのシーンはビデオデッ
キ等の画像再生手段8で再生され、テレビジョンモニタ
等の出力手段9に出力され表示される。
【0014】図2は、動画像データ7の説明図である。
この例の動画像データは、ビデオ映像20の中から予め
代表的なn個のシーンを抽出してデータ化したものであ
り、シーン1〜nのビデオテープ中での位置を示すイン
デックス・データ21と、各シーン1〜nの内容を自然
言語で記述した画像テキスト・データ22からなる。図
3(a),(b)に、シーンとそれに付加されたインデ
ックス及び自然言語テキストの一例を示す。一般に動画
像は、時間的に連続するフレームに分かれており、フレ
ームを高速で連続的に表示することで動画を表示する。
図3(a)の例では、飛行機の飛行シーンに対し、自然
言語による画像テキスト「飛んでいる飛行機」が与えら
れており、ビデオテープ中での最初のフレーム位置を指
示するインデックスIa が与えられている。また図3
(b)に示すバスの走行シーンに対しては、自然言語に
よる画像テキスト「走っているバス」が与えられ、ビデ
オテープ中での始めのフレームの位置を指示するインデ
ックスIb が与えられている。画像再生手段8は、与え
られたインデックスに対し、その指し示すフレームの位
置までテープの頭出しを行なった後、一定時間の再生を
行なうよう構成されている。
【0015】次に、単語ベクトルについて説明する。図
4はROM2に格納された単語辞書11の一部を示した
ものであり、単語辞書は各単語に対してその特徴を表す
単語ベクトルを保持している。単語ベクトルは、N個の
特徴単語に関連させて、単語の意味を分散的に表現した
ものである。いま特徴単語のリストが{山、海、空、人
間、文明、スポーツ、....、旅行}であるとする
と、ある単語とこれらN個の特徴単語との関連性をその
関連の程度に応じて多値、最も簡単には2値で表現する
ことによって生成されたN次元のベクトルがその単語の
単語ベクトルである。いま簡単のため、特徴単語との関
連性を、関係あり「1」と関係なし「0」の2値で表現
する場合を例にとって説明すると、「アルプス」という
単語は、山と関係があるので「1」、海とは関係がない
ので「0」、空とも関係がないので「0」と、特徴単語
との関連性を順次1又は0で表現することで、{1,
0,0,....,1}という単語ベクトルが割り当て
られる。同様に「宇宙」は、山や海とは関係がなく、空
とは関係があるので、「宇宙」という単語の単語ベクト
ルは{0,0,1,....,0}となる。このように
全ての単語と特徴単語との関連を予め解析することで、
単語辞書は全ての単語についての単語ベクトルを保持し
ている。単語ベクトルの作成に関しては、信学技法AI
92−99(1993−1)「大規模文書データベース
からの連想検索」(電子情報通信学会)において、百科
辞書を利用することにより人間の知識を反映した大規模
な単語ベクトルの構成方法が提案されている。
【0016】次に、画像テキスト・データ22に蓄積さ
れている自然言語による画像テキスト及び検索者が入力
手段6から入力した自然言語による質問文テキストから
画像ベクトル及び質問文ベクトルを生成するベクトル生
成手段12の機能について説明する。自然言語による画
像テキスト及び質問文テキスト(以下、両者を合わせて
自然言語テキストという)が単語である場合には、その
単語の単語ベクトルをそのまま画像ベクトルあるいは質
問文ベクトルとする。一方、自然言語テキストが複数の
単語を組み合わせたものである場合には、自然言語テキ
ストから単語を抽出し、その単語のベクトル和を正規化
したベクトルを画像ベクトルあるいは質問文ベクトルと
して生成する。
【0017】例えば、自然言語テキスト「火山の噴火」
のベクトルは以下のようにして生成される。まず上記テ
キストから単語辞書を用いて単語抽出を行なう。単語抽
出の方法としては、文字列の一致で行なう方法や構文解
析を用いる方法などが知られており、いずれの方法を用
いてもよい。いま、「火山の噴火」から単語抽出によっ
て、「火山」と「噴火」の2つの単語が抽出されたとす
ると、この2つ単語のベクトルを単語辞書から得る。こ
こでの説明だけのために、いま特徴単語のリストを
{山、海、空、人間、文明、スポーツ、動作、災害、旅
行}とし、単語「火山」のベクトルを(1,0,0,
0,0,0,0,1,1)、単語「噴火」のベクトルを
(1,0,1,0,0,0,1,1,0)とする。次
に、この2つのベクトルの和をCV0 とする、すなわち
CV0 は次式(1)のように計算される。
【0018】 CV0 =(1,0,0,0,0,0,0,1,1) +(1,0,1,0,0,0,1,1,0) =(2,0,1,0,0,0,1,2,1) ……(1) さらにCV0 を正規化したものをCVとして自然言語テ
キスト「火山の噴火」のベクトルを得る。ここでベクト
ルw=(w1,w2,…,wN)の正規化とは、下式
(2)式で定義されるベクトルwの長さLをある一定の
値L0 に揃えることであり、wを正規化したベクトルv
は下式(3)で与えられる。ベクトルの各要素は、処理
の高速化とメモリ資源の容量節約のため、正規化ののち
整数値になるように量子化してもよい。
【0019】 L={(w12+(w22+…+(wN21/2 ……(2) v=(L0/L)w =(w10/L,w20/L,…,wN0/L) ……(3) ここでL0=10とすると、CV0の長さL及びCVは次
式(4)及び(5)で与えられる。(5)式のベクトル
CVは、各要素が整数値となるように量子化を行ってあ
るが、この量子化は必ずしも必要ではない。
【0020】 L=(22+02+12+02+02+02+12+22+121/2 =111/2≒3.32 ……(4) CV=10/3.32(2,0,1,0,0,0,1,2,1) →(6,0,3,0,0,0,3,6,3) ……(5) 図1に示したベクトル生成手段12は、質問文として入
力手段6から入力された自然言語による質問文テキスト
から上述の方法で質問文ベクトルを生成する。さらにビ
デオ映像の各代表シーン1〜nに対して付加されている
自然言語による画像テキストからも同様に各シーンの画
像ベクトルを生成する。ここでは、自然言語テキストが
2つの単語からなる場合について説明したが、3つ以上
の単語からなる自然言語テキストに対しても全く同様の
方法でベクトルを生成することができる。
【0021】検索手段13の機能について以下に説明す
る。この例では類似度をベクトル間の内積で与える。つ
まり、質問文テキストと各シーンに付加された画像テキ
ストとの類似度を質問文ベクトルと各シーンの画像ベク
トルとの内積によって算出し、それが大きいものほど類
似度が大きいと判断する。なお、ベクトルv=(v1
2,…,vN)とベクトルw=(w1,w2,…,wN
との内積pは次式(6)で定義される。
【0022】 p=v11+v22+…+vNN ……(6) 例として、質問文テキスト「パイロット」に対して、図
3に示した飛行機の飛行シーン(シーン1とする)とバ
スの走行シーン(シーン2とする)の類似度を以下で計
算する。まず質問文テキスト「パイロット」から上述の
ように質問文ベクトルを生成する。いまその生成された
質問文ベクトルをVg=(0,0,6,6,6,0,
0,0,0)とする。同様に、シーン1に付加されてい
る画像テキスト「飛んでいる飛行機」と、シーン2に付
加されている画像テキスト「走っているバス」からも、
上述の例のようにして画像ベクトルを生成する。このよ
うにして生成されたシーン1に対する画像ベクトルをV
1=(0,0,8,0,4,0,4,0,4)、シーン
2に対する画像ベクトルをV2=(0,0,0,0,
5,5,5,0,5)とする。このとき、質問文テキス
ト「パイロット」に対するシーン1の類似度p1
(7)式で与えられ、シーン2の類似度p2 は(8)式
で与えられる。
【0023】 p1=0*0+0*0+6*8+6*0+6*4+0*0+0*4+0*0+0*4 =72 ……(7) p2=0*0+0*0+6*0+6*0+6*5+0*5+0*5+0*0+0*5 =30 ……(8) 従ってこの場合には、質問文テキスト「パイロット」に
対してはシーン1の方がシーン2よりも類似度が高いと
判定される。
【0024】図5は、この例の動画像検索装置の動作を
示すフローチャートである。入力手段6から質問文が入
力される(S1)と、ベクトル生成手段12は上述のよ
うに単語辞書を用いて質問文ベクトルを生成する(S
2)。1番目のシーンを指すようにカウンタiを1に初
期化し(S3)、ベクトル生成手段は上述のようにシー
ンiに付加されている画像テキストからシーンiの画像
ベクトルを生成する(S4)。検索手段13は質問文と
シーンiの類似度すなわち質問文ベクトルとシーンiの
画像ベクトルとの内積pi を求める(S5)。求められ
た内積pi はシーンの番号iとの組(pi,i)として
RAM3内のバッファに格納される(S6)。次のシー
ンを指すようにカウンタiをインクリメントし(S
7)、シーンがまだある場合にはS4に戻る(S8)。
これ以上シーンが無い場合にはバッファに格納された内
積とシーンの番号の組{(p1,1),(p2,2),
…,(pn,n)}を内積の大きい順にソートする(S
9)。ソートした結果を{(pi1 i1),(pi2
2),…,(pij,ij),…,(pin,in)}とす
る。
【0025】次に画像再生手段8は、ソートされた最初
のシーンを指すようにカウンタjを1に初期化し(S1
0)、バッファにあるソート後のj番目の内積とシーン
の番号の組(pij,ij)からシーン番号ijを取り出す
(S11)。次に動画像のインデックス・データ21か
らシーンijのインデックスを取り出し(S12)、そ
のインデックスに示された位置までテープの頭出しを行
ない、一定時間の間再生し出力手段に出力する(S1
3)。次に、検索された次のシーンを指すようにjをイ
ンクリメントし(S14)、検索されたシーンがまだ残
っている場合にはS11に戻り、これ以上シーンが無い
場合にはフローは終了する(S15)。
【0026】これにより質問文ベクトルとの内積の大き
いもの、つまり類似度の大きいものから順にシーンが再
生され、よって質問文と意味的に近いシーンから順に検
索される。検索者は、望みのシーンが見つかったところ
で検索をストップすることができる。上記説明では、全
ての代表的なシーンを質問文ベクトルとの内積が大きい
順に再生するようにしたが、再生の仕方はそれに限定さ
れるものではなく、上位の一定個数だけのシーンを再生
する方法、内積が所定の閾値以上のものだけを再生する
方法とすることもできる。また検索されたシーンを一定
時間ずつ再生する方法の他にも、利用者の選択により次
の検索されたシーンに移る、前に再生されたシーンに戻
る、あるいは再生を終る等の処理を行なうこともでき
る。
【0027】上記例では、動画像データをインデックス
・データ21と画像テキスト・データ22とで構成し、
検索の度毎に単語辞書を用いて画像テキスト・データか
ら画像ベクトルを生成していた。この方法は、検索シス
テムが単語辞書の内容に依存しないため、異なる単語辞
書を備える動画像検索装置間の互換性を確保することが
でき、また単語辞書の改訂に当たってビデオ映像の動画
像データに修正を加える必要がない等、自由度の大きな
システムを構築できる利点がある。反面、検索のために
質問文を入力する度に単語辞書を用いて全ての代表シー
ンの画像テキストから画像ベクトルを生成するため検索
に時間がかかるという問題があり、また質問文の入力の
度に画像テキスト・データ22を画像ベクトルに変換す
るという同一の処理を反復実行するという点で無駄があ
る。
【0028】この点を改善する第1の方法として、図2
に図示したビデオ映像の画像テキスト・データ22に代
えて、画像ベクトル・データを保持する方法がある。各
代表シーンに付加すべき画像ベクトルは、シーンの内容
を表す自然言語テキストから単語辞書を用いて生成す
る。この方法によると、検索時にベクトル生成手段12
は入力手段6から入力された質問文テキストに対してだ
け単語辞書を用いて質問文ベクトルの生成を行えばよ
く、図5のS4の処理を省略することができるため、検
索時間を短縮することができる。ただし、この方法によ
ると、動画像データには特定の単語辞書を用いて自然言
語テキストから変換された画像ベクトルが保持されるた
め、動画像データに単語辞書依存性が生じ、動画像検索
装置の単語辞書が動画像データの変換に用いた単語辞書
と異なる場合には検索精度が低下したり、検索ができな
くなる等の問題が生じる可能性がある。また、装置に装
備されている単語辞書を改訂する場合には、動画像デー
タ中の画像ベクトルもその改訂された単語辞書を用いて
生成されたものに変更する必要がある。
【0029】検索時間の短縮及び処理の効率化を図る第
2の方法としては、図5のS4で生成された画像ベクト
ルを記憶手段に記憶する方法がある。この場合、動画像
データとしては図2に示したインデックス・データ21
と画像テキスト・データ22を保持し、入力手段6から
最初の質問文を入力した1回目の検索のときだけ、ベク
トル生成手段12で単語辞書を用いて各シーン1〜nの
画像テキストから画像ベクトルを生成する。生成された
各シーンの画像ベクトルはメモリあるいはディスク等の
記憶手段4に記憶保持される。同じ動画像データを対象
とする2回目以降の検索においては、各シーンの画像ベ
クトルをベクトル生成手段12で生成することをやめ、
ディスク4に記憶したものを読み出して利用する。この
方法によると、2回目以降の検索において検索時間を短
縮することができ、また検索システムが単語辞書の内容
に依存することが回避されるためシステムの自由度も大
きい。
【0030】図6は、本発明によるビデオ・オン・デマ
ンド(VOD)装置のブロック図である。サービス提供
側のベクトル生成手段12や検索手段13の機能を実現
するCPU1、単語辞書11を格納したROM2、RA
M3やディスク4等の記憶手段、I/Oインターフェイ
ス5を介して接続された動画像データ7、画像再生手段
8については、図1に記載のものと同様の構成である。
端末側は、質問文を入力するキーボード等の入力手段6
と、検索結果を出力するテレビジョンモニタ等の出力手
段9を備える。入力手段6は、データ送信手段31を介
してサービス提供側に質問文を送信する。サービス提供
側は、送信された質問文に対し上述の方法で質問文ベク
トルの生成、シーンの検索、再生を行なう。再生された
映像はデータ送信手段32を介して端末の出力手段9に
送信され出力される。データ送信手段31,32は、通
信回線にデータ信号をそのまま送るようにしてもよい
し、コード化した信号を送るようにしてもよい。図で
は、端末側からサービス提供者側へデータを送信するデ
ータ送信手段31と、サービス提供者側から端末側へデ
ータを送信するデータ送信手段32を別個に設けたが、
これらのデータ送信手段はもちろん1つの送信手段で実
現してもよい。また、動画像データ7は、前述のように
その画像テキスト・データに代えて画像ベクトルのデー
タを用いてもよい。
【0031】この例のVOD装置に置いても、端末から
の任意の自然言語入力に対して、サービス提供側の動画
像データから意味的に合致するシーンの検索を行ない、
端末に出力することができる。
【0032】
【発明の効果】本発明によると、動画像データから任意
の自然言語入力でのシーンの検索が可能になる。また検
索に人間の知識を反映した単語辞書を用いているため、
人間の知識・感性等を反映した意味的なシーンの検索が
可能である。
【図面の簡単な説明】
【図1】本発明の一例の構成図。
【図2】動画像データの構成を表す図。
【図3】動画シーンとインデックス及び自然言語テキス
トの一例を示す説明図。
【図4】単語辞書の一部を表す説明図。
【図5】検索動作を示すフローチャート。
【図6】ビデオ・オン・デマンド装置の構成例を示す
図。
【符号の説明】
1…CPU、2…ROM、3…RAM、4…ディスク、
5…I/Oインターフェイス、6…入力手段、7…動画
像データ、8…画像再生手段、9…出力手段、11…単
語辞書、12…ベクトル生成手段、13…検索手段、2
0…ビデオ映像、21…インデックス・データ、22…
画像テキスト・データ、31,32…データ送信手段

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 自然言語からなる質問文テキストを入力
    することのできる入力手段と、単語をN次元ベクトル空
    間内のベクトルに対応づける単語辞書と、動画像から抽
    出した複数の代表シーンに対して各シーンの動画像中で
    の位置を表すインデックスと各シーンの内容を自然言語
    で表した画像テキストとを保持する動画像データと、ベ
    クトル生成手段と、検索手段とを含み、 前記ベクトル生成手段は前記単語辞書を用いて前記質問
    文テキスト及び画像テキストから質問文ベクトル及び画
    像ベクトルを生成し、前記検索手段は前記質問文ベクト
    ルと画像ベクトルとの類似度に基づいて質問文テキスト
    に適合するシーンの検索を行うことを特徴とする動画像
    検索装置。
  2. 【請求項2】 自然言語からなる質問文テキストを入力
    することのできる入力手段と、単語をN次元ベクトル空
    間内のベクトルに対応づける単語辞書と、動画像から抽
    出した複数の代表シーンに対して各シーンの動画像中で
    の位置を表すインデックスと各シーンの内容を前記単語
    辞書を用いてベクトルで表した画像ベクトルとを保持す
    る動画像データと、ベクトル生成手段と、検索手段とを
    含み、 前記ベクトル生成手段は前記単語辞書を用いて前記質問
    文テキストから質問文ベクトルを生成し、前記検索手段
    は前記質問文ベクトルと画像ベクトルとの類似度に基づ
    いて質問文テキストに適合するシーンの検索を行うこと
    を特徴とする動画像検索装置。
  3. 【請求項3】 前記単語辞書はN個の特徴単語との関連
    性によって単語をN次元ベクトル空間内のベクトルに対
    応づけ、また前記検索手段は質問文ベクトルと画像ベク
    トルの内積の大きさによって両者の類似度を判定するこ
    とを特徴とする請求項1又は2記載の動画像検索装置。
  4. 【請求項4】 前記ベクトル生成手段は、動画像中から
    抽出された複数のシーンに対して各々自然言語テキスト
    が保持されている動画像データに対し、単語をN次元ベ
    クトル空間内のベクトルに対応づける単語辞書を用いて
    各シーンに対応する自然言語テキストから各シーンの画
    像ベクトルを生成し、記録手段に格納することを特徴と
    する請求項1、2又は3記載の動画像検索装置。
  5. 【請求項5】 端末利用者により入力された自然言語か
    らなる質問文テキストに対し、サービス供給側の保持す
    る動画像データから対応する動画を検索し、端末に出力
    するビデオ・オン・デマンド装置において、 前記動画像データは動画像から抽出された複数の代表シ
    ーンの動画像中での位置を表すインデックス及び各シー
    ンの内容を自然言語で表した画像テキストを含み、単語
    をN次元ベクトル空間内のベクトルに対応づける単語辞
    書を用いて前記質問文テキスト及び画像テキストから質
    問文ベクトル及び画像ベクトルを生成し、前記質問文ベ
    クトルと画像ベクトルとの類似度に基づいて前記質問文
    に適合するシーンの検索を行い、検索されたシーンのイ
    ンデックス位置から動画像を再生して端末に送信するこ
    とを特徴とするビデオ・オン・デマンド装置。
JP7281014A 1995-10-27 1995-10-27 動画像検索装置及びビデオ・オン・デマンド装置 Pending JPH09128401A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7281014A JPH09128401A (ja) 1995-10-27 1995-10-27 動画像検索装置及びビデオ・オン・デマンド装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7281014A JPH09128401A (ja) 1995-10-27 1995-10-27 動画像検索装置及びビデオ・オン・デマンド装置

Publications (1)

Publication Number Publication Date
JPH09128401A true JPH09128401A (ja) 1997-05-16

Family

ID=17633087

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7281014A Pending JPH09128401A (ja) 1995-10-27 1995-10-27 動画像検索装置及びビデオ・オン・デマンド装置

Country Status (1)

Country Link
JP (1) JPH09128401A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11167583A (ja) * 1997-12-04 1999-06-22 Nippon Telegr & Teleph Corp <Ntt> テロップ文字認識方法および映像蓄積表示装置、テロップ文字認識・検索端末、映像検索端末
JP2003084783A (ja) * 2001-09-17 2003-03-19 Sharp Corp 音楽データ再生装置、音楽データ再生方法、音楽データ再生プログラム、並びに音楽データ再生プログラムを記録した記録媒体
WO2013058118A1 (ja) * 2011-10-20 2013-04-25 日本電気株式会社 テキスト含意判定装置、テキスト含意判定方法、及びコンピュータ読み取り可能な記録媒体
JP2016081265A (ja) * 2014-10-16 2016-05-16 日本電気株式会社 映像選択装置、映像選択方法、映像選択プログラム、特徴量生成装置、特徴量生成方法及び特徴量生成プログラム
JP2018517959A (ja) * 2015-06-24 2018-07-05 グーグル エルエルシー ビデオのための代表ビデオフレームの選択
JP2019511764A (ja) * 2016-01-29 2019-04-25 アリババ グループ ホウルディング リミテッド 質問を推薦する方法及び装置
WO2022003826A1 (ja) * 2020-06-30 2022-01-06 日本電気株式会社 映像提供システム、映像提供方法、及びコンピュータプログラム
WO2022070340A1 (ja) * 2020-09-30 2022-04-07 日本電気株式会社 映像検索システム、映像検索方法、及びコンピュータプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05282379A (ja) * 1992-02-06 1993-10-29 Internatl Business Mach Corp <Ibm> 動画像の管理方法及び管理装置
JPH0721202A (ja) * 1993-06-18 1995-01-24 Sharp Corp 非コード化情報のデータベース化方式

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05282379A (ja) * 1992-02-06 1993-10-29 Internatl Business Mach Corp <Ibm> 動画像の管理方法及び管理装置
JPH0721202A (ja) * 1993-06-18 1995-01-24 Sharp Corp 非コード化情報のデータベース化方式

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11167583A (ja) * 1997-12-04 1999-06-22 Nippon Telegr & Teleph Corp <Ntt> テロップ文字認識方法および映像蓄積表示装置、テロップ文字認識・検索端末、映像検索端末
JP2003084783A (ja) * 2001-09-17 2003-03-19 Sharp Corp 音楽データ再生装置、音楽データ再生方法、音楽データ再生プログラム、並びに音楽データ再生プログラムを記録した記録媒体
WO2013058118A1 (ja) * 2011-10-20 2013-04-25 日本電気株式会社 テキスト含意判定装置、テキスト含意判定方法、及びコンピュータ読み取り可能な記録媒体
US8762132B2 (en) 2011-10-20 2014-06-24 Nec Corporation Textual entailment recognition apparatus, textual entailment recognition method, and computer-readable recording medium
JP2016081265A (ja) * 2014-10-16 2016-05-16 日本電気株式会社 映像選択装置、映像選択方法、映像選択プログラム、特徴量生成装置、特徴量生成方法及び特徴量生成プログラム
JP2018517959A (ja) * 2015-06-24 2018-07-05 グーグル エルエルシー ビデオのための代表ビデオフレームの選択
JP2019511764A (ja) * 2016-01-29 2019-04-25 アリババ グループ ホウルディング リミテッド 質問を推薦する方法及び装置
WO2022003826A1 (ja) * 2020-06-30 2022-01-06 日本電気株式会社 映像提供システム、映像提供方法、及びコンピュータプログラム
WO2022070340A1 (ja) * 2020-09-30 2022-04-07 日本電気株式会社 映像検索システム、映像検索方法、及びコンピュータプログラム

Similar Documents

Publication Publication Date Title
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
US6442540B2 (en) Information retrieval apparatus and information retrieval method
KR101255405B1 (ko) 텍스트 메타데이터를 갖는 음성문서의 인덱싱 및 검색방법, 컴퓨터 판독가능 매체
US11222053B2 (en) Searching multilingual documents based on document structure extraction
JP5894149B2 (ja) Top−k処理を活用した意味の充実
JPH10507554A (ja) 探索できるディジタルビデオライブラリを作成する方法および装置ならびにそのようなライブラリを利用するシステムおよび方法
KR100478934B1 (ko) 객체기반 엠팩-4 컨텐츠 편집/저작과 검색 장치 및 방법
US11776536B2 (en) Multi-modal interface in a voice-activated network
CN113704507A (zh) 数据处理方法、计算机设备以及可读存储介质
CN113128431B (zh) 视频片段检索方法、装置、介质与电子设备
JPH09128401A (ja) 動画像検索装置及びビデオ・オン・デマンド装置
CN117235250A (zh) 一种对话摘要生成方法、装置和设备
CN109800326B (zh) 一种视频处理方法、装置、设备和存储介质
CN115115432B (zh) 基于人工智能的产品信息推荐方法及装置
KR102252522B1 (ko) 내용 기반 동영상 목차 자동생성 방법 및 시스템
CN114328820A (zh) 信息搜索方法以及相关设备
CN112507105A (zh) 一种基于微信公众号的多模智能问答系统及方法
KR20220130863A (ko) 음성-텍스트 변환 영상 리소스 매칭 기반 멀티미디어 변환 콘텐츠 제작 서비스 제공 장치
KR100493635B1 (ko) 멀티미디어 데이터 검색 및 브라우징 시스템
KR102435244B1 (ko) 음성 정보의 영상 리소스 매칭을 이용한 멀티미디어 변환 콘텐츠 제작 서비스 제공 장치
CN113806588B (zh) 搜索视频的方法和装置
Balzano et al. Lectures Retrieval: Improving Students’ E-learning Process with a Search Engine Based on ASR Model
Hentschel et al. Open up cultural heritage in video archives with mediaglobe
Harrando Representation, information extraction, and summarization for automatic multimedia understanding
JP2002049625A (ja) 画像検索装置および画像検索方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040831

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050125

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050802