JP3504439B2

JP3504439B2 - 映像検索方法

Info

Publication number: JP3504439B2
Application number: JP19627096A
Authority: JP
Inventors: 伸治安部; 正治倉掛; 和己小高
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1996-07-25
Filing date: 1996-07-25
Publication date: 2004-03-08
Anticipated expiration: 2016-07-25
Also published as: JPH1040260A

Description

【発明の詳細な説明】【０００１】【発明の属する技術分野】本発明は、映像中の文字情報
をインデクスとして利用し、検索要求として入力された
利用者側の文脈に対応する映像の区間を提示する映像検
索方法に関する。【０００２】【従来の技術】映像情報を対象とする情報検索手法、あ
るいは検索を目的とした映像情報構造化手法に関して近
年多くの手法が提案されている。その中でも、検索要求
として映像に関する意味内容的な記述を入力することに
よって、映像検索の実現を目指す技術（参考文献１，
２）が提案されている。【０００３】参考文献１，２は、映像に付加されたテク
スト情報（参考文献１はシナリオ情報を利用、参考文献
２は字幕情報を利用）を使って映像を構造化し、任意の
映像区間を意味的な記述によって検索する手法である。【０００４】参考文献：［１］竹下敦、“対話のインタラクション構造を用い
た話題の認識”、情報処理学会研究技術報告８７−１
０，ｐｐ．７５−８２（１９９２）。【０００５】［２］柳沼良知、坂内正夫、ＤＰマッチン
グを用いたドラマ映像・音声・シナリオ文書の対応付け
手法の一提案、信学論、Vol. J79-D-II, No.5, pp.747-
755(1996) 。【０００６】【発明が解決しようとする課題】参考文献１，２は字幕
方法やシナリオなどのように内容的に映像と同期したテ
クスト情報が得られる場合を前提としており、テクスト
情報の対話的な話題構造の解析によって、テクストと同
期した映像を構造化する手法である。しかしながら、一
般の放送映像などを対象とする場合、字幕放送やシナリ
オ情報などのような、映像内容と意味的に同期した内容
を持つテクスト情報を入手することは一般に困難である
場合が多い。【０００７】本発明の目的は、字幕放送やシナリオの存
在を前提としない手法によって、検索要求として入力さ
れた利用者の文脈に対応する映像の区間を提示する映像
検索方法を提供することにある。【０００８】【課題を解決するための手段】本発明の映像検索方法
は、映像中のフレーム画像シーケンスからカットチェン
ジ点を検出するカットチェンジ検出段階と、映像中から
テロップを切り出してテクスト情報として認識するテロ
ップ情報認識段階と、認識されたテクスト情報を形態素
解析にかけ、語彙を抽出する形態素解析段階と、抽出さ
れた語彙を、テロップが検出されたカットに対するイン
デクスとし、次に、テロップから得られる語彙に対し
て、時間軸上次に得られるテロップからの語彙と共有す
る上位概念の語彙が存在するかどうかを辞書を用いて調
べ、存在する場合には、両方の語彙が得られた区間を結
ぶ、テロップが提示されていない区間も含むマクロな区
間に対して上位概念の語彙をインデクスとして付与する
ことによって、映像の文脈を形成する映像文脈形成段階
と、利用者によって入力された入力文を形態素解析にか
け、語彙群を抽出する利用者入力文形態素解析段階と、
前記利用者入力文形態素解析段階で得られた語彙群を用
いて、映像とは独立に蓄積された新聞・雑誌を含む記事
の記事データベースの中から、利用者入力文と最も多く
の語彙を共有する記事を連想記事として検索し、次に、
該連想記事からも形態素解析によって語彙群を抽出する
連想記事検索段階と、前記利用者入力文形態素解析段階
で抽出された語彙群と前記連想記事検索段階で抽出され
た語彙群の和集合をとって、入力者側の文脈を形成する
入力者側文脈形成段階と、入力者側の文脈と語彙が一致
する、前記映像文脈形成段階で得られた映像の文脈を持
つ映像区間を検索結果の映像として提示する文脈照合段
階を有する。【０００９】本発明は、映像内に付加されたテクスト情
報としては比較的一般的なテロップ情報を検索のための
インデクスとして利用し、意味的な記述による映像の検
索を実現するための方法であって、テロップ情報がその
特徴として映像の意味的な最小単位であるカットを単位
に付与されていることを利用する。【００１０】まず、映像のカットチェンジ点を参考文献
５，６の手法を用いて自動的に検出し、次に、参考文献
３，４の方法を利用して映像中からテロップを切り出し
てテクスト情報として認識し、次にテロップから認識さ
れたテクスト情報を形態素解析にかけ、概念（語彙、特
に名詞）を抽出してテロップが検出されたカットに対す
るインデクスとし、次に、テロップから得られる概念に
対して、時間軸上次に得られるテロップからの概念と共
有する上位概念が存在するかどうかを辞書（シソーラ
ス）を用いて調べ、存在する場合には、両方の概念が得
られたとき区間を結ぶマクロな区間（テロップが提示さ
れいない区間も含める）に対して上位概念をインデクス
として付与することによって、映像の文脈を形成する。【００１１】次に、利用者によって入力された検索要求
に相当する入力文を形態素解析にかけ概念群（語彙群）
を抽出し、次に、映像とは独立に蓄積した新聞・雑誌な
どの記事データベースの中から、入力文と最も多くの語
彙を共有する記事を連想記事として検索し、次に、連想
記事からも形態素解析によって概念群（語彙群）を抽出
し、次に、入力文から抽出された概念群に連想記事から
抽出された概念群を加えることにより入力者側の文脈を
形成する。【００１２】最後に、入力者側の文脈中の語彙と一致す
る文脈を持つ映像区間を次々と検索して提示することに
よって、入力者側の文脈と対応付けられた映像の文脈が
表す映像区間を、検索結果の映像として提示する。【００１３】テロップ情報は映像情報に対して、時間的
にも内容的にも同期したテクスト情報としては、字幕放
送やシナリオ情報に比較して一般的であり、テロップを
映像検索のためのインデクスとして利用することによっ
て、従来の方法と比較して検索の対象映像を一般化でき
る。【００１４】ただし、テロップ情報をインデクスとして
利用する上での欠点として、・必ずしもすべてのカットに対して付与されておらず、・テクスト情報としての情報量が字幕放送やシナリオ情
報に比較して極めて少ない、という特徴がある。そのために本方法では、辞書（シソ
ーラス）を用いた映像文脈形成方法と、映像とは独立に
蓄積した記事情報を用いた連想的な入力者側文脈形成方
法とによって、テクスト情報の不足を補い、文脈という
概念による間接的な対応関係を利用した検索方法の実現
によって対処している。【００１５】したがって、本方法は、映像中の特定の区
間をターゲットサーチ的に検索する技術というよりは、
入力に対して文脈的に関連する映像区間を編集して提示
する技術であり、必ずしも直接的な対応関係のない区間
が提示される場合がある。しかしながら、ターゲットの
ような明確な意図を持たない利用者に対しては、むしろ
本方法のような緩やかな解釈を伴う間接的な対応関係が
有効な情報源となると考えられ、コンサルティング業務
の支援や思考の支援などへ適用可能である。【００１６】参考文献：［３］根本敦史、半谷精一郎、宮内一洋、テロップの認
識による資料映像の検索について、１９９４年信学春季
大会Ｄ−４２７（１９９４）。【００１７】［４］倉掛正治、桑野秀豪、新井啓之、小
高和己、認識技術を用いた映像中キーターゲットインデ
クシングの検討、信学技報 IE95-150, PRU95-237, pp.1
5-20 (1996) 。【００１８】［５］宮武教、吉澤聡、上田博唯、フ
レーム相関係数の変化率に着目したカットの自動検出方
法、１９９０信学春季大会Ｄ−２９９（１９９０）。【００１９】［６］大辻清太、外村佳伸、大庭有二、輝
度情報を使った動画像ブラウジング、信学技報ＩＥ９０
−６（１９９０）。【００２０】【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。【００２１】図１は本発明の実施形態で映像検索方法を
実施する装置の構成を示すブロック図である。【００２２】本装置は、検索対象である映像情報を蓄積
する映像情報記憶部１と、映像中のフレーム画像シーケ
ンスからカットチェンジ点を自動検出するカットチェン
ジ検出部２と、映像中からテロップを切り出してテクス
ト情報として認識するテロップ情報認識部３と、テロッ
プから認識されたテクスト情報から形態素解析により概
念を抽出する形態素解析部４と、辞書（シソーラス）６
と、テロップから得られる概念に対して、時間軸上次に
得られるテロップからの概念と共有する上位概念が存在
するかどうかを辞書（シソーラス）６を用いて調べ、存
在する場合には、両方の概念が得られたとき区間を結ぶ
マクロな区間（テロップが提示されていない区間も含め
る）に対して上位概念をインデクスとして付与すること
によって、映像の文脈を形成する映像文脈形成部５と、
利用者が検索要求する入力文として入力するための検索
要求入力部７と、新聞・雑誌の記事を蓄積する記事デー
タベース８と、形態素解析により入力文から概念群を抽
出する形態素解析部９と、記事データベース８の中か
ら、入力文と最も多くの語彙を共有する記事を連想記事
として検索する連想記事検索部１０と、入力文から抽出
された概念群に連想記事から抽出された概念群を加える
ことにより入力者側の文脈を形成する入力者側文脈形成
部１１と、入力者側の文脈中の語彙と一致する文脈を持
つ映像区間を次々と検索して提示することによって、入
力者側の文脈と対応付けられた映像の文脈が表す映像区
間を検索結果の映像として提示する文脈照合部１２で構
成されている。【００２３】図２は図１の装置の処理例を示す図であ
る。【００２４】映像情報記録部１に蓄積された映像からカ
ットチェンジ検出部２によってカットチェンジ点を検出
し、映像を１〜１０・・・のカットに分割する。【００２５】映像情報記憶部１において、１〜１０・・
・のカットからなる映像シーケンスに対して“大仏
殿”、“二月堂”、“三月堂”、“猿沢池”、“興福
寺”、“五重塔”、“南円堂”などのような概念を含む
テロップが表示されているものとする。これらのテロッ
プ情報を、テロップ情報認識部３、形態素解析部４を用
いてテクスト情報として認識し、概念（“大仏殿”、
“二月堂”、“三月堂”、“猿沢池”他）を抽出する。【００２６】次に、映像情報記憶部１において、映像の
時間軸上のカット１から抽出された概念“大仏殿”とそ
の次に現れるカット３から抽出される概念“二月堂”と
の間に、共有する上位概念が存在するかどうかを辞書
（シソーラス）を用いて調べる。この例の場合には、
“東大寺”という概念を共有するので、両方の概念が得
られたカットを結ぶマクロな区間、この例の場合には、
カット１〜３に対して上位概念“東大寺”をインデクス
として付与する。映像文脈形成部５では、このような処
理をすべてのカットに対して施し、映像の文脈（元の映
像情報に対してマクロな区間と上位概念を抽出したも
の）を形成する。【００２７】図２の例では、利用者によって検索要求に
相当する入力文「奈良の大仏を見てから猿沢池に寄っ
て」が検索要求入力部７から入力されたものとする。形
態素解析部９によって入力文から概念群（“奈良”、
“大仏”、“猿沢池”）を抽出する。【００２８】次に、連想記事検索部１０によって、記事
データベース８の中から入力文と最も多くの概念を共有
する記事を連想記事として検索し、検索された記事も形
態素解析処理を施して概念を抽出する。この例の場合、
入力文と２つの概念（“奈良”、“大仏”）を共有する
記事、「奈良の観光スポットと言えば東大寺、大仏殿前
の参道には土産物屋が並び、鹿せんべいも売られてい
る。」が検索されたものとする。さらにこの記事に形態
素解析処理を施して概念を抽出する。【００２９】次に、入力者文脈形成部１１によって、入
力文と記事から抽出された概念群の和集合をとり、入力
者側の文脈、「“奈良”、“観光スポット”、“観
光”、“スポット”、“東大寺”、“大仏殿”、“大
仏”、“前”、“参道”、“土産物屋”、“土産物”、
“土産”、“鹿せんべい”、“鹿”、“せんべい”、
“猿沢池”」を形成する。【００３０】最後に、文脈照合部１２によって、映像の
文脈と入力者側の文脈を照合し、入力者側の文脈と共通
の概念を持つ映像の文脈、この例の場合にはカット１〜
３およびカット５を検索結果の映像として提示する。【００３１】【発明の効果】以上説明したように本発明は、以下のよ
うな効果がある。【００３２】（１）映像に付与されているテロップ情報
をインデクスとして利用することによって、映像に対す
るインデクシングを自動化することができ、また、テロ
ップはシナリオ情報や字幕放送に比較して一般的である
ので、従来の手法に比較して対象映像を一般化すること
ができる。【００３３】（２）テロップは、テクスト情報としての
情報量がシナリオ情報や字幕放送に比較して小さいが、
テロップからの概念を辞書（シソーラス）を用いて上位
へ展開して映像の文脈を形成していることと、入力文を
映像とは独立に蓄積した記事情報により連想的に展開し
て入力者側文脈を形成していることによって、入力文と
連想的に関連する映像を検出することが可能となり、テ
ロップの少ない情報量を補うことが可能となる。

【図面の簡単な説明】【図１】本発明を実施する装置の構成例を示すブロック
図である。【図２】図１の装置の処理例を示す図である。【符号の説明】１映像情報記憶部２カットチェンジ検出部３テロップ情報認識部４形態素解析部５映像文脈形成部６辞書（シソーラス）７検索要求（入力文）入力部８記事データベース９形態素解析部１０連想記事検索部１１入力者側文脈形成部１２文脈照合部

フロントページの続き (56)参考文献特開平７−306866（ＪＰ，Ａ) 茂木祐治外，ニュース映像中の文字認識に基づく記事の索引付け，信学技報（ＩＥ95−153，ＰＲＵ95−240），1996 年３月15日，第95巻，第582号，第33 〜40頁熊谷篤外，字幕の時間的・空間的特徴を利用した動画像からの字幕領域の抽出，1995年（第23回）画像電子学会年次大会予稿，1995年６月６日，ｐ．23 −24 鈴木信太朗外，文字認識技術を応用した放送の自動収録システム，テレビジョン学会技術報告（放送現業），1994年 10月27日，Ｖｏｌ．18，Ｎｏ．59，ｐ. 13−18 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30 G06T 7/40

Claims

(57)【特許請求の範囲】【請求項１】映像中のフレーム画像シーケンスからカ
ットチェンジ点を検出するカットチェンジ検出段階と、映像中からテロップを切り出してテクスト情報として認
識するテロップ情報認識段階と、認識されたテクスト情報を形態素解析にかけ、語彙を抽
出する形態素解析段階と、抽出された語彙を、テロップが検出されたカットに対す
るインデクスとし、次に、テロップから得られる語彙に
対して、時間軸上次に得られるテロップからの語彙と共
有する上位概念の語彙が存在するかどうかを辞書を用い
て調べ、存在する場合には、両方の語彙が得られた区間
を結ぶ、テロップが提示されていない区間も含むマクロ
な区間に対して上位概念の語彙をインデクスとして付与
することによって、映像の文脈を形成する映像文脈形成
段階と、利用者によって入力された入力文を形態素解析にかけ、
語彙群を抽出する利用者入力文形態素解析段階と、前記利用者入力文形態素解析段階で得られた語彙群を用
いて、映像とは独立に蓄積された新聞・雑誌を含む記事
の記事データベースの中から、利用者入力文と最も多く
の語彙を共有する記事を連想記事として検索し、次に、
該連想記事からも形態素解析によって語彙群を抽出する
連想記事検索段階と、前記利用者入力文形態素解析段階で抽出された語彙群と
前記連想記事検索段階で抽出された語彙群の和集合をと
って、入力者側の文脈を形成する入力者側文脈形成段階
と、入力者側の文脈と語彙が一致する、前記映像文脈形成段
階で得られた映像の文脈を持つ映像区間を検索結果の映
像として提示する文脈照合段階を有する映像検索方法。