JPH0630367A - 映像検索方法および装置 - Google Patents

映像検索方法および装置

Info

Publication number
JPH0630367A
JPH0630367A JP4181151A JP18115192A JPH0630367A JP H0630367 A JPH0630367 A JP H0630367A JP 4181151 A JP4181151 A JP 4181151A JP 18115192 A JP18115192 A JP 18115192A JP H0630367 A JPH0630367 A JP H0630367A
Authority
JP
Japan
Prior art keywords
audio
video
information
block
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4181151A
Other languages
English (en)
Inventor
Yoko Niikura
陽子 新倉
Hiroshi Hamada
洋 浜田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP4181151A priority Critical patent/JPH0630367A/ja
Publication of JPH0630367A publication Critical patent/JPH0630367A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Receiver Circuits (AREA)

Abstract

(57)【要約】 【目的】 音声ブロックを検索の鍵とする映像検索方法
および装置を提供する。 【構成】 映像と音声とを有するデータ・ベースについ
て映像信号データおよび音響信号データを予め計算機内
に蓄積し、蓄積された音響信号データについて音響の存
在する区間を抽出し、抽出された音響区間を模式的にデ
ィスプレイし、ディスプレイされる音響区間の内の特定
の音響区間を指定し、指定した音響区間に対応する映像
を抽出し、抽出された映像と音声とを同期出力する映像
検索方法および装置。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、映像検索装置に関
し、特に音響信号および映像信号を有するデータ・ベー
スにおいて、音響信号を鍵として映像信号を検索する映
像検索方法および装置に関する。
【0002】
【従来の技術】音響処理技術、映像処理技術その他の信
号処理技術が進歩したことにより、従来、データとして
数値・文字データのみを取り扱ってきたコンピュータ、
ワーク・ステーションの如き計算機において、音声情報
および映像情報をもデータとして取り扱うマルチメディ
ア処理が可能となった。そして、データの圧縮技術の進
歩、記憶装置の大容量化に伴って、音声および映像のデ
ータを大量に蓄積することも可能となった。ここで、種
々のデータの蓄積が可能になると共に大量のデータの蓄
積が可能になるにつれて、蓄積されたデータを如何に検
索するかが重要な問題となる。テキストのみを取り扱う
場合は、文字列検索に代表されるように、指定されたキ
ーとデータとの間のマッチングにより検索をすることが
可能であった。しかし、音声或は映像の如く時間的に継
続していると共に時間と共に変化するデータについて
は、上述の通りのテキスト・データについての検索と同
様の手法による検索は困難である。音声の自動認識が実
現された場合には、文字列をキーとした音声の検索も可
能となるが、現実の音声認識技術では不可能である。一
方、映像を言葉により検索する場合は、映像と言葉との
間の対応をとる技術が必要であり、また、スケッチその
他の描画により映像を検索するには、あいまいな図形と
映像との間のマッチングをとる技術が不可欠である。現
在、これらは何れも実現困難である。
【0003】映像の情報検索については、従来、以下の
如き手法が採用されてきた。 1、シーケンシャル・サーチ 連続情報である音声と映像とを同時に連続的に再生して
必要な映像を探し出す方法である。 2、タイム・コードとの間の対応を利用 先ず、最初に音声、映像の情報を始めから再生し、その
際タイム・コードを対応づけする。その後、タイム・コ
ードを手掛かりとして必要な映像を取り出す方法であ
る。
【0004】3、画像INDEX 連続的なデータである動画像から、例えばカメラ位置の
変化点(シーンの切り替わり)、動画中に含まれる特定
の物体の変化に着目して動画をいくつかの区間に分割し
た上で、その各区間における最も変化の少ない部分、最
も変化の大きい部分、或はその区間の最初の映像をその
区間の代表映像としてインデックスとし、これを手がか
りとして必要な映像を取り出す方法である。
【0005】
【発明が解決しようとする課題】上述の手法には、次の
如き問題がある。 1’シーケンシャル・サーチ 基本的に原データをそのまま再生することによる検索方
式でってインデックス付け或は記号化を行わないので、
大容量の情報検索においては時間がかかる。
【0006】2’タイム・コードとの間の対応を利用 本来、タイム・コードは音声、映像情報とは直接関係の
ない記号であるにもかかわらず、利用者は常に無意味な
記号であるタイム・コードとそれに対応する映像との間
の関係を意識しなくてはならない。 3’画像INDEX 映像の種類によってはシーンの切り替わりが少ないも
の、或は動きの変化が少ないものがあり、変化点をみつ
けにくいものがある。そのために、不必要に細かくイン
デックスがつけられたり、逆に粗すぎるインデックス付
けとなる問題がある。
【0007】この発明は、従来の映像検索方法および装
置の上述の通りの問題を解消するものである。
【0008】
【課題を解決するための手段】映像と音声とを有するデ
ータ・ベースについて映像信号データおよび音響信号デ
ータを予め計算機内に蓄積し、蓄積された音響信号デー
タについて音響の存在する区間を抽出し、抽出された音
響区間を模式的にディスプレイし、ディスプレイされる
音響区間の内の特定の音響区間を指定し、指定した音響
区間に対応する映像を抽出し、抽出された映像と音声と
を同期出力する映像検索方法を構成し、そして、外部か
ら音声情報および映像情報を入力してこれらを音声デー
タ記憶部2および映像データ記憶部3に蓄積する音声映
像入力部1を具備し、音声と映像との間の対応関係を求
める音声・映像対応部4を具備し、音声情報を複数の音
声ブロックに区分する音声区間抽出部6を具備し、音声
ブロックをブロックとして管理するためのデータである
音声ブロック情報8を作成する音声ブロック情報生成部
7を具備し、音声ブロック情報8の有する情報に基づい
て各音声ブロックを模式化してディスプレイする音声ブ
ロック表示部9を具備し、利用者が音声ブロックを選択
指定する音声ブロック指定部10を具備し、音声ブロッ
ク指定部10により指定された音声情報と映像情報とを
対応づける対応映像検索部11を具備し、対応映像検索
部11において対応づけられた音声情報と映像情報とを
音声データ記憶部2および映像データ記憶部3から取り
出して両者を同期出力する映像・音声出力部12を具備
する映像検索装置、をも構成した。
【0009】
【実施例】映像と音声を併せ持ったデータベースにおい
て、音声を鍵として映像検索を行う。音声は映像同様連
続情報として蓄積されているが、映像のように常に情報
が存在するのではなく、必ず無音の区間が存在するので
複数の部分に区分することが可能である。特に、会話な
どの対話音声などは、各話者の発言の切り替わりが存在
するので、これが意味上の区分とも一致する。この発明
は、この区分された音声の単位をひとつのインデックス
と考え、音声情報と映像情報を対応づけることにより、
区分化が難しい映像情報を検索することを可能とするも
のである。
【0010】この発明の実施例を、図1を参照して説明
する。この発明は、音声・映像情報を入力することおよ
びこれら両者の対応づけを実施する過程と、映像検索を
実施する過程とに大別される。図1は、この発明におけ
る音声・映像情報の入力、音声区間の抽出、および音声
と映像との間の対応づけの例を示すフロー図である。図
1において、音声映像入力部1は外部から音声情報およ
び映像情報を入力して、これらをそれぞれ音声データ記
憶部2或は映像データ記憶部3に蓄積する。入力する音
声情報と映像情報とは、マイクロホンおよびカメラとい
う互いに独立した2個の入力装置を介して取り込みを実
施するのが一般的であるが、音声情報と映像情報とが一
緒に記憶されているビデオ・テープレコーダのような外
部記憶媒体から取り込むことも可能である。
【0011】音声情報は、コンピュータにより処理する
ことができる様にするために、ディジタル情報に変換し
て音声データ記憶部2に取り込む。ディジタル化する場
合のサンプリング周波数は、音声品質を考慮すると8kH
z 以上が望ましい。以下の説明においては、音声サンプ
リング周波数12kHz とした場合について述べる。一
方、映像情報は入力した後でコンピュータ処理を必要と
しないが、後から検索する必要があることから、ランダ
ムなアクセスが可能となるように時間情報に対応したイ
ンデックスを付与した上で映像データとして映像データ
記憶部3に取り入れる。その方法としては、ディジタル
化してコンピュータ内に取り込み、アドレスをインデッ
クスとして蓄積する方法、或はビデオ・テープレコーダ
にタイム・コードと共に蓄積しておく方法、その他の方
法がある。
【0012】音声情報および映像情報の入力を考えると
き、音声情報は12kHz サンプリングの場合で8.3マ
イクロ秒毎に1サンプルである一方、映像は通常1秒間
に30画面で構成されている。取り込まれた音声と映像
とは独立して蓄積されているので、音声情報を鍵として
映像を検索するには、両者の対応づけをする必要があ
る。対応をとるには、例えば対応を計算式として蓄えて
おく方法、対応テーブルを作成する方法がある。以下に
おいては、対応テーブルを有する場合について説明す
る。
【0013】音声・映像対応部4は、音声と映像との間
の対応関係を表す音声・映像対応テーブル5を作成す
る。ここで、音声データ記憶部2および映像データ記憶
部3に記憶されるデータが共に時刻をインデックスとし
てアクセス可能なものであるならば、音声・映像対応テ
ーブル5は不用である。この実施例は、映像情報が1秒
間に30フレーム(画面)で構成され、フレーム番号を
インデックスとしてアクセス可能とされている場合であ
って、音声情報は音声サンプル・データの番号(サンプ
ル番号)をインデックスとして蓄積されている場合を例
に説明する。この場合、映像情報の1フレームに対して
音声サンプル数は400となる。図2は映像フレーム番
号と音声サンプル番号との間の対応を示す音声・映像対
応テーブル5の例を示す。この例は各映像フレーム番号
に対応する音声サンプル番号の始めの数値と終わりの数
値がテーブルとして格納されている例である。
【0014】音声区間抽出部6においては、取り込んだ
音声情報の内から音声の存在しない区間を検出し、これ
に基づいて音声情報を複数の小区間に分ける。この様に
して生成された音声区間のそれぞれを以下においては
“音声ブロック”と称す。音声区間の抽出方法は種々提
案されている(例えば、L.Rabiner and M.Sambur“ AnA
lgorithm for Determining the Endpoints of Isolated
Utterances”文献:Bell System Technical Journal,
vol.54, Feb. 1975)。これらの抽出方法は、音声のパ
ワーを予め定めたいき値と比較して音声区間を見いだす
方法が一般的である。
【0015】音声区間抽出部6により抽出された音声区
間抽出結果は音声ブロック情報生成部7に蓄積される。
音声ブロック情報生成部7は、音声データを区間抽出す
ることにより作成した音声ブロックをブロックとして管
理するためのデータを作成する。ここにおいては、1個
の音声ブロックを最初の音声サンプル番号と最後の音声
サンプル番号により表わし、各音声ブロックに音声ブロ
ック番号をつけ、音声ブロック番号と2個の音声サンプ
ル番号(音声ブロックの始点および終点)をデータとす
る音声ブロック情報8を作成する例を図3を参照して説
明する。
【0016】ここにおいては、音声サンプル番号を使用
して音声ブロックを示す方法を採用したが、1個の音声
ブロックの開始時刻とその時間長、或は開始時刻と終了
時刻とを指定することも可能である。この場合、音声を
入力した時に一緒に時間情報を取入れ、時間を音声デー
タのインデックスとして使用すればよい。ここで、音声
・映像対応テーブル5は映像フレーム番号と音声サンプ
ル番号とをデータとして有しており、音声ブロック情報
8は音声ブロック番号と音声サンプル番号とを有してい
る。従って、音声・映像対応テーブル5および音声ブロ
ック情報8双方の共通データである音声サンプル番号に
より映像フレーム番号とブロック番号とを対応づけるこ
とができる。
【0017】図4はこの発明による映像の検索の説明を
するためのフロー図である。図4において、音声ブロッ
ク表示部9は音声ブロック情報8の有する情報に基づい
て各音声ブロックを模式化し、これを“音声ブロック
図”として出力装置にディスプレイする。図5は模式化
された音声ブロックの表示例を示す図である。この例
は、連続情報である音声をイメージしやすいように、時
間軸を直線としてこの直線上に四角形の塊として音声ブ
ロックを表示している。画面上の表示面積には限りがあ
るが、スクロールすることにより大量の音声情報を表示
することも可能である。音声ブロックの表示は、時間の
流れを水平方向としたものを例示したが、これを垂直方
向としても差し支えはない。利用者がこの表示上の映像
検索のための鍵として画面上の音声ブロックを選択でき
さえすればよい。
【0018】図6に示される表示例は、図5に示される
音声ブロックの各音声ブロックにその内容を示す分類名
を付与したものである。図5に示される音声ブロック
は、利用者が音声ブロックを指定する際にどの音声ブロ
ックを選択すればよいのか判然としないが、利用者が判
別し易いように音声の意味内容によって分類された分類
名を表示することも可能である。図6の表示を実施する
には、利用者或はデータ・ベース作成者が抽出された音
声ブロックに予めその内容を表す分類名を与えておく必
要がある。
【0019】音声ブロック指定部10は利用者のブロッ
ク選択を処理する。利用者は、音声ブロックが表示され
た音声ブロック表示部9の画面上において、マウス或は
キーボードその他の入力装置を使用して希望の音声ブロ
ックをカーソルのポイント・アウトその他の手法により
指定する。結果は音声ブロック番号として得られ、この
番号は次いで対応映像検索部11に渡される。
【0020】対応映像検索部11は、音声ブロック指定
部10により得られた音声ブロック番号に基づいて音声
ブロック情報8における音声サンプル番号をひきだし、
更に音声サンプル番号に基づいて音声・映像対応テーブ
ル5を参照し、該当する音声ブロックに対応する映像フ
レーム番号を得る。この結果、音声ブロック番号と映像
フレーム番号の対応づけが図られる。後で説明されるこ
とであるが、対応づけを行う際、必ずしも音声ブロック
のはじめの音声サンプル番号は映像フレームのはじめに
対応する音声サンプル番号であるとは限らない。同様
に、音声ブロックの終わりの音声サンプル番号は必ずし
も、映像フレームの終わりに対応する音声サンプル番号
であるとは限らない。この場合は、音声ブロックの最初
と最後のサンプル番号を含む複数の映像フレームを対応
させることとする。
【0021】音声サンプル番号と映像フレームとの間の
対応をとる例を図7に示す。図7に示される例において
は、音声ブロック番号3に対応して音声ブロックは10
25番のサンプルから始まり、3750番のサンプルに
おいて終止している。音声ブロックの始点である102
5番は、音声・映像対応テーブルを参照すると、映像フ
レーム番号3に対応する音声サンプル番号の始点である
800番と終点である1199番との間の中間に対応す
るものである。この場合、映像フレームとして3を選択
し、音声ブロックの開始位置に対応する映像フレームの
開始番号は3とする。一方、音声ブロックの終了位置3
750番のサンプルは映像フレーム番号9に対応する音
声サンプル番号の始点である3600番と終点である3
999番との間の中間に対応している。この場合、映像
フレームとして9を選択し、音声ブロックの終了位置に
対応する映像フレームの終了番号は9とする。従って最
終的に検索される映像フレームは3から9までとなり、
これらの映像に合わせて出力される音声は800番のサ
ンプルから3999番までのサンプルとなる。以上の様
に、最終的に出力する際には音声の欠落が生じない手法
により対応を求めることが望ましい。
【0022】映像・音声出力部12は、対応映像検索部
11において対応づけられた映像フレーム番号および音
声ブロック番号に基づいて、対象となる音声情報と映像
情報とを音声データ記憶部2および映像データ記憶部3
からとりだして両者を同時に出力する。映像情報につい
ては、映像フレーム番号に対応する映像情報をディスプ
レイに再生する。これと同時に、対応する音声ブロック
の音声情報をスピーカーに出力する。音声情報はコンピ
ュータ内にディジタル化されて蓄積されているので、再
生の際は再びアナログ変換する必要がある。
【0023】音声ブロックと映像フレームを対応させた
際に、図7に示される如く音声ブロックの最初のサンプ
ル番号とそのサンプル番号を含んだ映像フレームのはじ
めのサンプル番号とが異なる場合、映像再生と同時に音
声再生を行うと、最大33msec 分の指定ブロック外の
音声まで再生することとなる。しかし、この33msec
という時間は音声上は極く微小さなものであるので、こ
れだけ余分に音声再生をしても格別問題とはならない。
音声ブロックの最後のサンプル番号とそのサンプル番号
を含んだ映像フレームの終わりにサンプル番号が異なる
場合も同様である。
【0024】
【発明の効果】以上の通りであって、この発明の映像検
索方法および装置は音声ブロックを検索の鍵として映像
検索をすることができる。これにより連続的な情報であ
る映像情報を効率的に検索・アクセスすることができる
に到った。
【図面の簡単な説明】
【図1】この発明における音声・映像情報の入力、音声
区間の抽出、および音声と映像との間の対応づけの例を
示すフロー図。
【図2】映像フレーム番号と音声サンプル番号との間の
対応を示す音声・映像対応テーブルを示す図。
【図3】音声ブロック情報を示す図。
【図4】この発明による映像の検索の説明をするための
フロー図。
【図5】模式化された音声ブロックの表示例を示す図。
【図6】図5に示される音声ブロックの各音声ブロック
にその内容を示す分類名を付与したものを示す図。
【図7】音声サンプル番号と映像フレームとの間の対応
をとる例を示す図。
【符号の説明】
1 音声映像入力部 2 音声データ記憶部 3 映像データ記憶部 4 音声・映像対応部 6 音声区間抽出部 7 音声ブロック情報生成部 8 音声ブロック情報 9 音声ブロック表示部 10 音声ブロック指定部 11 対応映像検索部 12 映像・音声出力部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 映像と音声とを有するデータ・ベースに
    ついて映像信号データおよび音響信号データを予め計算
    機内に蓄積し、蓄積された音響信号データについて音響
    の存在する区間を抽出し、抽出された音響区間を模式的
    にディスプレイし、ディスプレイされる音響区間の内の
    特定の音響区間を指定し、指定した音響区間に対応する
    映像を抽出し、抽出された映像と音声とを同期出力する
    ことを特徴とする映像検索方法。
  2. 【請求項2】 外部から音声情報および映像情報を入力
    してこれらを音声データ記憶部および映像データ記憶部
    に蓄積する音声映像入力部を具備し、音声と映像との間
    の対応関係を求める音声・映像対応部を具備し、音声情
    報を複数の音声ブロックに区分する音声区間抽出部を具
    備し、音声ブロックをブロックとして管理するためのデ
    ータである音声ブロック情報を作成する音声ブロック情
    報生成部7を具備し、音声ブロック情報8の有する情報
    に基づいて各音声ブロックを模式化してディスプレイす
    る音声ブロック表示部を具備し、利用者が音声ブロック
    を選択指定する音声ブロック指定部を具備し、音声ブロ
    ック指定部により指定された音声情報と映像情報とを対
    応づける対応映像検索部を具備し、対応映像検索部にお
    いて対応づけられた音声情報と映像情報とを音声データ
    記憶部および映像データ記憶部から取り出して両者を同
    期出力する映像・音声出力部を具備することを特徴とす
    る映像検索装置。
JP4181151A 1992-07-08 1992-07-08 映像検索方法および装置 Pending JPH0630367A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4181151A JPH0630367A (ja) 1992-07-08 1992-07-08 映像検索方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4181151A JPH0630367A (ja) 1992-07-08 1992-07-08 映像検索方法および装置

Publications (1)

Publication Number Publication Date
JPH0630367A true JPH0630367A (ja) 1994-02-04

Family

ID=16095779

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4181151A Pending JPH0630367A (ja) 1992-07-08 1992-07-08 映像検索方法および装置

Country Status (1)

Country Link
JP (1) JPH0630367A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09214879A (ja) * 1996-02-07 1997-08-15 Toshiba Corp 動画像処理方法
JPH11167583A (ja) * 1997-12-04 1999-06-22 Nippon Telegr & Teleph Corp <Ntt> テロップ文字認識方法および映像蓄積表示装置、テロップ文字認識・検索端末、映像検索端末

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09214879A (ja) * 1996-02-07 1997-08-15 Toshiba Corp 動画像処理方法
JPH11167583A (ja) * 1997-12-04 1999-06-22 Nippon Telegr & Teleph Corp <Ntt> テロップ文字認識方法および映像蓄積表示装置、テロップ文字認識・検索端末、映像検索端末

Similar Documents

Publication Publication Date Title
JP4905103B2 (ja) 動画再生装置
JPH06110945A (ja) 音楽データベース作成装置及びその検索装置
US7792831B2 (en) Apparatus, system and method for extracting structure of song lyrics using repeated pattern thereof
JPH09185879A (ja) レコーディング・インデクシング方法
JP2000236494A (ja) シーンを検索する方法及びその装置
CN113326387B (zh) 一种会议信息智能检索方法
CN110781328A (zh) 基于语音识别的视频生成方法、系统、装置和存储介质
EP1403852B1 (en) Voice activated music playback system
JP3437617B2 (ja) 時系列データ記録再生装置
KR20060100646A (ko) 영상물의 특정 위치를 검색하는 방법 및 영상 검색 시스템
JP2004153764A (ja) メタデータ制作装置及び検索装置
JP3036099B2 (ja) データ管理方法
JPH0668168A (ja) 音響キーワードによる映像検索方法および装置
JPH03291752A (ja) データ検索装置
JPH0991928A (ja) 映像の編集方法
JP2004289530A (ja) 記録再生装置
KR20010037652A (ko) 오디오 색인화 장치 및 그 방법과 그를 이용한 오디오 검색 시스템 및 그 방법
JPH0630367A (ja) 映像検索方法および装置
WO1997009683A1 (fr) Systeme de mediatisation d&#39;informations multimedia contenant des informations audio
JPH08249343A (ja) 音声情報取得装置及び音声情報取得方法
JP3594359B2 (ja) 情報検索装置
JP3021252B2 (ja) データ検索方法及びデータ検索装置
JP2006195900A (ja) マルチメディアコンテンツ生成装置及び方法
US6026407A (en) Language data storage and reproduction apparatus
JP2000067085A (ja) 非コ―ド化情報のデ―タベ―ス化方式