JPH07105235A - 画像検索方法及び画像検索装置 - Google Patents

画像検索方法及び画像検索装置

Info

Publication number
JPH07105235A
JPH07105235A JP5252798A JP25279893A JPH07105235A JP H07105235 A JPH07105235 A JP H07105235A JP 5252798 A JP5252798 A JP 5252798A JP 25279893 A JP25279893 A JP 25279893A JP H07105235 A JPH07105235 A JP H07105235A
Authority
JP
Japan
Prior art keywords
keyword
component
image
onomatopoeia
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5252798A
Other languages
English (en)
Other versions
JP3021252B2 (ja
Inventor
Yasuko Matsuoka
靖子 松岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP5252798A priority Critical patent/JP3021252B2/ja
Publication of JPH07105235A publication Critical patent/JPH07105235A/ja
Application granted granted Critical
Publication of JP3021252B2 publication Critical patent/JP3021252B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 画像と同期して記憶されている音声の中の擬
音情報を検索キーとして用いることにより、データベー
ス入力時の画像の特徴抽出等の作業者にかかる負担を軽
減し、また、キーワード等の言語的な情報では表現しき
れなかった画像の曖昧さを少なくする画像検索装置を提
供することを目的とする。 【構成】 画像と音声とが同期して記録された画像を検
索する方法において、検索用に入力されたキーワードか
らそのキーワードに関連した擬音成分を抽出すると共
に、擬音成分に対応した画像データの特徴を表すような
音声の周波数パターンを作成し、その周波数パターンを
検索キーとして使用して画像検索を行う。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、画像検索方法及び画像
検索装置に係り、特に画像と音声が同期して記録された
データを検索するための画像検索方法及び画像検索装置
に関するものである。
【0002】
【従来の技術】放送局等においては、ビデオテープ等、
画像と音声とを同期して記録した画像データが大量に蓄
積されており、これらのデータから自分の必要とするデ
ータを高速に取り出すことができる画像検索装置が望ま
れている。
【0003】従来の画像検索装置における画像検索方法
には、あらかじめ画像に付与したキーワードにより検索
を行うキーワード法と、画像自体の特徴抽出を行いその
特徴によりマッチングを行って検索をする特徴抽出法が
ある。
【0004】前者は、各画像データに整理番号や関連の
あるキーワードをつける方式であり、画像の持つ情報を
キーワードで表し、キーワードどうしに関係を持たせる
ことにより画像を検索しやすくしている。
【0005】後者は、画像自体を直接検索キーとして用
いる方法であり、画像認識の手法を用いて画像自体の特
徴抽出を行い、その特徴を検索キーとし、検索キーとマ
ッチングした画像を出力する。
【0006】
【発明が解決しようとする課題】しかしながら、前述の
キーワード法は、画像に対するキーワードの付け方が人
により異なるので、検索者がキーワードの入力者と異な
る場合に必要な画像を検索することが難しい。これは、
画像情報には、キーワードのような言語的な情報で表し
得る情報だけでなく、意味的な情報や感覚的な情報が含
まれているので、キーワードだけでは表現できなかった
り、適当なキーワードが見つからなかったりするためで
ある。また、検索者は、検索したい画像をはっきりと指
定する必要があるので、入力時につけたキーワードを覚
えておかなければならなかった。しかし、データベース
が大きくなると、すべての画像についてキーワードを覚
えておくことは困難になる。
【0007】また、前述の特徴抽出法の場合、画像から
の特徴抽出とマッチングをどのように行うかが問題であ
る。そして、画像の特徴は、人によってさまざまな見方
があり、一概に決めることがでず、検索者が、検索した
い画像をどのように入力するのかも問題である。特に、
検索したい画像のイメージがあいまいな場合には、装置
が検索者の意図を読み取らなければならない。また、い
ずれの場合でも、画像をデータベースに入力するときに
手間がかかった。
【0008】本発明は、このような点に鑑みなされたも
のであり、画像と同期して記憶されている音声の中の擬
音情報を検索キーとして用いることにより、データベー
ス入力時の画像の特徴抽出等の作業者にかかる負担を軽
減し、また、キーワード等の言語的な情報では表現しき
れなかった画像の曖昧さを少なくする画像検索装置を提
供することを目的とする。
【0009】
【課題を解決するための手段】上記目的を達成するため
に、本出願の請求項1に記載の発明では、画像データの
特徴を表すような音声の周波数パターンを検索キーとし
て利用して画像検索を行なうことを特徴とする。
【0010】さらに、本出願の請求項2に記載の発明で
は、音声周波数パターンを検索キーとして使用できる検
索装置として、あらかじめ画像と音声が同期して記録さ
れているデータベースと、入力文を入力する入力部と、
入力された入力文から検索の対象となるキーワードを抽
出するキーワード抽出部と、各キーワードに対応する擬
音成分キーワード、及び擬音成分に対応する音声の周波
数パターンを持つメモリと、抽出したキーワードを擬音
成分に対応づけると共に前記メモリから擬音成分に対応
した音声の周波数パターンを抽出する変換部と、メモリ
から抽出した音声の周波数パターンとデータベースの音
声データとのマッチングをとる整合部と、マッチングの
結果から画像を出力する出力部とを具備することを特徴
とする。
【0011】
【作用】本出願の請求項1に記載の発明によれば、検索
用に入力されたキーワードから該キーワードに対応する
擬音成分を抽出するとともに、この擬音成分に対応した
音声の周波数パターンを抽出しこれをも検索キーとして
用いるため、よりきめの細かい画像検索を行なうことが
できる。
【0012】また、本出願の請求項2に記載の発明によ
れば、キーボード等の入力部から入力された入力文は、
キーワード抽出部においてキーワードが抽出され、変換
部において擬音成分に対応した音声の周波数パターンを
持つメモリから、抽出した擬音成分に対応した音声の周
波数パターンが抽出される。その後、整合部においてメ
モリ部から抽出された各擬音成分の音声の周波数パター
ンとデータベースの音声パターンとのマッチングがとら
れ、出力部からマッチングした音声パターンと同期する
画像が出力されることになるので、キーボードから文を
入力するだけで、データベースに記録された音声をも検
索に利用することができ、効率的な検索が可能な検索装
置を得ることができる。
【0013】
【実施例】以下、本発明の好適な実施例を図を参照しな
がら説明する。図1は、本発明にかかる画像検索装置の
一実施例の全体構成図である。図1において、1は検索
者が入力文を入力する入力部、2は入力された入力文か
ら検索の対象となるキーワードを抽出するキーワード抽
出部、3は抽出されたキーワードに対応する擬音成分を
抽出すると共に、擬音成分に対応した音声波形の標準パ
ターンを抽出する変換部であり、後述のメモリ4を参照
してキーワードに対応する擬音成分を抽出する擬音成分
抽出部31と、後述のメモリ4を参照して擬音成分に対
応した音声周波数パターンを抽出する標準周波数パター
ン抽出部32より成る。そして、4はメモリであり、キ
ーワードに対応した擬音成分キーワードを記憶する第1
のメモリ41と、擬音成分によって特定される実際の音
声の周波数パターンを記憶する第2のメモリ42によっ
て構成されている。また、5は各擬音成分の周波数パタ
ーンとデータベースの音声データとのマッチングを取っ
て両パターンの類似度をとり全ての類似度を合計し、し
きい値を判定する整合部、6は検索対象となる画像と音
声が同期しているデータを蓄積しているデータベース、
7は前記整合部のしきい値の判定結果を基に検索結果を
出力する出力部である。
【0014】次に、図2のフローチャートを参照して、
図1に係る画像検索装置の動作を説明する。図1のデー
タベース5には、あらかじめ画像と音声が同期して記録
されたデータが蓄えられている。検索者はまず、入力部
1から入力文を入力する(S1)。入力の形式として
は、キーボード、手書き入力、音声などさまざまなもの
があるが、入力部1ではどれを用いても構わない。入力
文から検索の対象となるキーワードが抽出される(S
2)。
【0015】ここで、キーワードには、あらかじめキー
ワードを特徴づけるような擬音情報が対応づけられてい
る。この擬音情報とは、車の走る音や犬の鳴き声、人の
歓声など、人の話す言葉とは異なる音のことである。画
像と音声が同期したデータとしては、例えばテレビ番組
を録画したビデオがあるが、このデータの特徴を表すに
は、画像情報とともに音声情報も重要である。また、同
じキーワードによって表わされる画像は、音声情報にも
共通の情報があるので検索の際には、それらのうち擬音
情報をも利用する。例えば、キーワードが「サッカー」
の場合、サッカーに共通の擬音情報は、「観客の声」
「ゴールの音」「ボールを蹴る時の音」「笛の音」等が
考えられる。
【0016】このような各擬音情報に応じ、第1のメモ
リ41に、あらかじめ、例えば「サッカー」に対する擬
音成分として、擬音成分キーワード「観客」、「ゴー
ル」、「ボール」「笛」を記憶させておくものとする。
すると、入力部1への入力文から抽出されたキーワード
が「サッカー」であれば、変換部3の擬音成分抽出部3
1は、第1のメモリ41を参照して、擬音成分として前
述の擬音成分キーワード「観客」、「ゴール」、「ボー
ル」、「笛」を抽出する。
【0017】このように抽出された擬音成分は、変換部
3の標準周波数パターン抽出部32に送られる。擬音成
分に対応するデータは、音なので特有の音声波形を持
つ。それを周波数分析することによって、周波数パター
ンが得られる。標準周波数パターン抽出部32は、第2
のメモリ42を参照し、このメモリ42から各擬音成分
キーワード「観客」、「ゴール」、「ボール」、「笛」
に対応した周波数パターンを読み出してくる。
【0018】図3は、抽出されたキーワード8が「サッ
カー」の場合、「サッカー」に対して擬音成分キーワー
ド9〜12が対応づけられ、さらに各擬音成分キーワー
ド9〜12に応じて周波数パターン13〜16が対応づ
けられている場合を図示している。図3の周波数パター
ン13〜16において、パターンの横軸は時間を表し、
縦軸は周波数を表している。
【0019】キーワードとして「サッカー」の場合を例
にとって説明すれば、「サッカー」に対応する擬音成分
キーワード9、10、11、12は、各々「観客」、
「ゴール」、「ボール」、「笛」であり、抽出された周
波数パターン13〜16は、各々「サッカー場における
観客の声」の代表的な周波数パターン、「サッカーのゴ
ールの際の音」の代表的な周波数パターン、「サッカー
ボールを蹴る音」の代表的な周波数パターン、「サッカ
ー場における笛の音」の代表的な周波数パターンであ
る。
【0020】このようにして、変換部3では、キーワー
ドから擬音成分キーワードへの対応づけを行ない(S
3)、さらに、擬音成分キーワードからその擬音成分に
対応する周波数パターンへの対応づけを行なう(S
4)。
【0021】次に、検索者が入力した入力文について検
索キーとなる周波数パターンが得られたら、整合部5に
おいて、各周波数パターンごとにデータベース6の音声
情報の中の音声データとマッチングをとる(S5)。こ
こで、画像と音声が同期したデータのうち、音声データ
のみを検索に用い、音声データを周波数分析し、これを
データベースの入力パターンとする。
【0022】ここで、図4を用いて、データーベースの
入力パターン及び擬音成分パターンの類似度を求める方
法について説明する。図4において、21はデータベー
スの入力パターンであり、検索者が入力した入力文にお
ける擬音成分の周波数パターン23と同様に、横軸が時
間を表し、縦軸が周波数を表している。図4に示すよう
に、データベースからの入力パターン21において、マ
ッチング区間の先頭を語頭22とする。語頭22を定め
て、擬音成分パターン23と入力パターン21との類似
度を、例えばDPマッチングを用いて求めととしたとき
の結果を、図4中のグラフで示し、横軸に時間、縦軸に
類似度を取っている。ここでいう類似度とは、検索キー
となる擬音成分の周波数パターンと、図1におけるデー
タベース6の音声データの周波数パターンである入力パ
ターンとがどれだけ類似しているかを表すものである。
【0023】例えばDPマッチングでは、同じ擬音パタ
ーンでも時間的に収縮している場合が考えられるので、
語頭22を定めたら、マッチング区間24の長さを少し
伸び縮みさせる。伸び縮みさせた区間ごとにいくつか類
似度を求め、最もパターンの類似度の高いものをその語
頭での類似度と決める。図4に示したような場合では、
マッチング区間aとマッチング区間bとの両方で類似度
を求める。語頭を時間軸方向に少しずつずらしていけ
ば、データベースの入力パターン全体とマッチングする
ことができる。このような処理を、メモリ部4から得ら
れた検索に必要なすべての擬音成分の周波数パターンに
ついて行ない、周波数パターンごとの類似度を求め、グ
ラフで示す。
【0024】なお、本実施例では、音声データの類似度
を求める方法として、DPマッチングを用いたが、これ
に限定されるものではなく、この他にも多数あり、音声
認識等に利用されている技術が応用できることはいうま
でもない。
【0025】次に、上記のようにして求めた類似度のグ
ラフを計算する(S6)。図4における類似度のグラフ
を初め、全ての類似度のグラフを加算したものが、図5
に示すものである。次に、しきい値の判定を行う(S
7)。これは、図5に示すしきい値25より類似度の高
いグラフの部分が、必要な擬音成分を多く含むと考えら
れるからである。図5においてしきい値25より類似度
が高い部分を、音声データに関する検索結果とする。デ
ータベースは、画像と音声が同期しているから、音声に
合った画像を検索し、画像と音声を同時に出力する(S
8)。但し、このしきい値は必要に応じて変更すること
ができる。
【0026】以上の説明では、キーワード自体による検
索は述べていないが、このキーワード自体をも利用した
検索を合わせ持つように構成しても良いということはい
うまでもない。
【0027】
【発明の効果】以上説明したように、本発明の画像検索
方法及び画像検索装置によれば、データベース入力時に
キーワードを付与する必要がなく、画像の特徴抽出も行
わなくてよいので作業者の負担を軽減することができ
る。これまで画像検索を難しくしていた画像のあいまい
さを擬音情報を使うことで補うことができ、また、同じ
キーワードであれば違う画像であっても検索することが
できる。これにより検索者は効率的な検索を行なうこと
ができる。
【0028】また、動画像情報に比べ情報量の少ない音
声情報を用いることによって、検索の手間を軽減するこ
とができる。さらに、各擬音成分にはそれぞれその擬音
成分に対応する周波数パターンを持たせておきキーワー
ドは異なっても同じ擬音成分を含んでいれば同じ周波数
パターンを用いることができるので、メモリの削減にな
る。
【図面の簡単な説明】
【図1】本発明の一実施例の画像検索装置の全体構成図
である。
【図2】図1の画像検索装置の画像処理の動作を説明す
るフローチャートである。
【図3】キーワードと擬音成分の周波数パターンとの対
応づけを説明する図である。
【図4】入力パターン及び擬音成分パターンの類似度を
求める方法について説明する図である。
【図5】入力パターン及び擬音成分パターンの類似度に
よる検索結果を説明する図である。
【符号の説明】
1 入力部 2 キーワード抽出部 3 変換部 4 メモリ 5 整合部 6 データベース 7 出力部 8 キーワード 9,10,11,12 擬音成分キーワード 13,14,15,16 周波数パターン 21 入力パターン 23 擬音成分パターン

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 画像と音声とが同期して記録された画像
    を検索する方法において、検索用に入力されたキーワー
    ドから該キーワードに関連した擬音成分を抽出すると共
    に、擬音成分に対応した音声の周波数パターンを作成
    し、該周波数パターンを検索キーとして使用することを
    特徴とする画像検索方法。
  2. 【請求項2】 あらかじめ画像と音声とが同期して記録
    されているデータベースと、 入力文を入力する入力部と、 入力された入力文から検索の対象となるキーワードを抽
    出するキーワード抽出部と、 各キーワードに対応する擬音成分キーワード、及び各擬
    音成分キーワードに対応した音声の周波数パターンを持
    つメモリと、 抽出したキーワードを擬音成分に対応づけると共に前記
    メモリから擬音成分に対応した音声の周波数パターンを
    抽出する変換部と、 メモリから抽出した音声の周波数パターンとデータベー
    スの音声データとのマッチングをとる整合部と、 マッチングの結果から画像を出力する出力部とを具備し
    てなることを特徴とする画像検索装置。
JP5252798A 1993-10-08 1993-10-08 データ検索方法及びデータ検索装置 Expired - Fee Related JP3021252B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5252798A JP3021252B2 (ja) 1993-10-08 1993-10-08 データ検索方法及びデータ検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5252798A JP3021252B2 (ja) 1993-10-08 1993-10-08 データ検索方法及びデータ検索装置

Publications (2)

Publication Number Publication Date
JPH07105235A true JPH07105235A (ja) 1995-04-21
JP3021252B2 JP3021252B2 (ja) 2000-03-15

Family

ID=17242391

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5252798A Expired - Fee Related JP3021252B2 (ja) 1993-10-08 1993-10-08 データ検索方法及びデータ検索装置

Country Status (1)

Country Link
JP (1) JP3021252B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001016935A1 (fr) * 1999-08-26 2001-03-08 Sony Corporation Procede et dispositif d'extraction/traitement d'informations, et procede et dispositif de stockage
JP2004258659A (ja) * 2003-02-25 2004-09-16 Mitsubishi Electric Research Laboratories Inc スポーツイベントのオーディオ信号からハイライトを抽出する方法およびシステム
JP2006309920A (ja) * 2005-03-30 2006-11-09 Toshiba Corp 情報処理装置及びその方法
US7214868B2 (en) 2002-12-12 2007-05-08 Sony Corporation Acoustic signal processing apparatus and method, signal recording apparatus and method and program

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001016935A1 (fr) * 1999-08-26 2001-03-08 Sony Corporation Procede et dispositif d'extraction/traitement d'informations, et procede et dispositif de stockage
US7260226B1 (en) 1999-08-26 2007-08-21 Sony Corporation Information retrieving method, information retrieving device, information storing method and information storage device
US8165306B2 (en) 1999-08-26 2012-04-24 Sony Corporation Information retrieving method, information retrieving device, information storing method and information storage device
US7214868B2 (en) 2002-12-12 2007-05-08 Sony Corporation Acoustic signal processing apparatus and method, signal recording apparatus and method and program
JP2004258659A (ja) * 2003-02-25 2004-09-16 Mitsubishi Electric Research Laboratories Inc スポーツイベントのオーディオ信号からハイライトを抽出する方法およびシステム
JP2007264652A (ja) * 2003-02-25 2007-10-11 Mitsubishi Electric Corp ハイライト抽出装置、ハイライト抽出方法、ハイライト抽出プログラム、およびハイライト抽出プログラムが記憶された記録媒体
JP2006309920A (ja) * 2005-03-30 2006-11-09 Toshiba Corp 情報処理装置及びその方法
JP4621607B2 (ja) * 2005-03-30 2011-01-26 株式会社東芝 情報処理装置及びその方法

Also Published As

Publication number Publication date
JP3021252B2 (ja) 2000-03-15

Similar Documents

Publication Publication Date Title
US7257533B2 (en) Database searching and retrieval using phoneme and word lattice
US8694317B2 (en) Methods and apparatus relating to searching of spoken audio data
US10074363B2 (en) Method and apparatus for keyword speech recognition
CN103559214B (zh) 视频自动生成方法及装置
JP3488174B2 (ja) 内容情報と話者情報を使用して音声情報を検索するための方法および装置
KR101537370B1 (ko) 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법
US7983915B2 (en) Audio content search engine
US8209171B2 (en) Methods and apparatus relating to searching of spoken audio data
US7590605B2 (en) Lattice matching
JP5142769B2 (ja) 音声データ検索システム及び音声データの検索方法
US8688725B2 (en) Search apparatus, search method, and program
JP2010161722A (ja) データ処理装置、データ処理方法、及び、プログラム
Akbacak et al. Open-vocabulary spoken term detection using graphone-based hybrid recognition systems
JP2010262413A (ja) 音声情報抽出装置
JP3021252B2 (ja) データ検索方法及びデータ検索装置
JP2004233541A (ja) ハイライトシーン検出システム
KR100348901B1 (ko) 오디오/영상물의 음향적 장면분할방법
JPH0668168A (ja) 音響キーワードによる映像検索方法および装置
JP2004145161A (ja) 音声データベース登録処理方法,音声発生源認識方法,音声発生区間検索方法,音声データベース登録処理装置,音声発生源認識装置,音声発生区間検索装置,並びにそのプログラムおよびそのプログラムの記録媒体
JPH06175698A (ja) 音声検索装置
JP2000067085A (ja) 非コ―ド化情報のデ―タベ―ス化方式
JP4033049B2 (ja) 映像音声とシナリオテキストとの整合方法および装置、並びに前記方法を記録した記憶媒体とコンピュータソフトウェア
JP2007293602A (ja) 映像検索システム、映像検索方法およびプログラム
EP1688915A1 (en) Methods and apparatus relating to searching of spoken audio data
EP1688914A1 (en) Method and apparatus relating to searching of spoken audio data

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080114

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090114

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100114

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110114

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees