JP3021252B2

JP3021252B2 - データ検索方法及びデータ検索装置

Info

Publication number: JP3021252B2
Application number: JP5252798A
Authority: JP
Inventors: 靖子松岡
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1993-10-08
Filing date: 1993-10-08
Publication date: 2000-03-15
Anticipated expiration: 2015-03-15
Also published as: JPH07105235A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、特に画像と音声が同期
して記録されたデータを検索するための画像検索方法及
び画像検索装置に関するものである。

【０００２】

【従来の技術】放送局等においては、ビデオテープ等、
画像と音声とを同期して記録した画像データが大量に蓄
積されており、これらのデータから自分の必要とするデ
ータを高速に取り出すことができる画像検索装置が望ま
れている。

【０００３】従来の画像検索装置における画像検索方法
には、あらかじめ画像に付与したキーワードにより検索
を行うキーワード法と、画像自体の特徴抽出を行いその
特徴によりマッチングを行って検索をする特徴抽出法が
ある。

【０００４】前者は、各画像データに整理番号や関連の
あるキーワードをつける方式であり、画像の持つ情報を
キーワードで表し、キーワードどうしに関係を持たせる
ことにより画像を検索しやすくしている。

【０００５】後者は、画像自体を直接検索キーとして用
いる方法であり、画像認識の手法を用いて画像自体の特
徴抽出を行い、その特徴を検索キーとし、検索キーとマ
ッチングした画像を出力する。

【０００６】

【発明が解決しようとする課題】しかしながら、前述の
キーワード法は、画像に対するキーワードの付け方が人
により異なるので、検索者がキーワードの入力者と異な
る場合に必要な画像を検索することが難しい。これは、
画像情報には、キーワードのような言語的な情報で表し
得る情報だけでなく、意味的な情報や感覚的な情報が含
まれているので、キーワードだけでは表現できなかった
り、適当なキーワードが見つからなかったりするためで
ある。また、検索者は、検索したい画像をはっきりと指
定する必要があるので、入力時につけたキーワードを覚
えておかなければならなかった。しかし、データベース
が大きくなると、すべての画像についてキーワードを覚
えておくことは困難になる。

【０００７】また、前述の特徴抽出法の場合、画像から
の特徴抽出とマッチングをどのように行うかが問題であ
る。そして、画像の特徴は、人によってさまざまな見方
があり、一概に決めることができず、検索者が、検索し
たい画像をどのように入力するのかも問題である。特
に、検索したい画像のイメージがあいまいな場合には、
装置が検索者の意図を読み取らなければならない。ま
た、いずれの場合でも、画像をデータベースに入力する
ときに手間がかかった。

【０００８】本発明は、このような点に鑑みなされたも
のであり、画像と同期して記憶されている音声の中の擬
音情報を検索キーとして用いることにより、データベー
ス入力時の画像の特徴抽出等の作業者にかかる負担を軽
減し、また、キーワード等の言語的な情報では表現しき
れなかった画像の曖昧さを少なくする画像検索装置を提
供することを目的とする。

【０００９】

【課題を解決するための手段】上記目的を達成するため
に、本願発明においては、検索文を入力し、入力された
検索文から、検索文に含まれるキーワードを抽出し、抽
出されたキーワードに対応する擬音成分キーワードを抽
出し、擬音成分キーワードに対応する標準周波数パター
ンを抽出し、抽出された各標準周波数パターンと、デー
タベース内の各データの音声データとのマッチングを行
い類似度を求め、所定の類似度以上のデータを検索結
果とすることを特徴とする。

【００１０】

【００１１】

【作用】本出願によれば、検索用に入力されたキーワー
ドから該キーワードに対応する擬音成分キーワードを抽
出するとともに、この擬音成分キーワードに対応した音
声の周波数パターンを抽出しこれを検索キーとして用い
るため、よりきめの細かいデータ検索を行うことができ
る。

【００１２】

【００１３】

【実施例】以下、本発明の好適な実施例を図を参照しな
がら説明する。図１は、本発明にかかる画像検索装置の
一実施例の全体構成図である。図１において、１は検索
者が入力文を入力する入力部、２は入力された入力文か
ら検索の対象となるキーワードを抽出するキーワード抽
出部、３は抽出されたキーワードに対応する擬音成分を
抽出すると共に、擬音成分に対応した音声波形の標準パ
ターンを抽出する変換部であり、後述のメモリ４を参照
してキーワードに対応する擬音成分を抽出する擬音成分
抽出部３１と、後述のメモリ４を参照して擬音成分に対
応した音声周波数パターンを抽出する標準周波数パター
ン抽出部３２より成る。そして、４はメモリであり、キ
ーワードに対応した擬音成分キーワードを記憶する第１
のメモリ４１と、擬音成分によって特定される実際の音
声の周波数パターンを記憶する第２のメモリ４２によっ
て構成されている。また、５は各擬音成分の周波数パタ
ーンとデータベースの音声データとのマッチングを取っ
て両パターンの類似度をとり全ての類似度を合計し、し
きい値を判定する整合部、６は検索対象となる画像と音
声が同期しているデータを蓄積しているデータベース、
７は前記整合部のしきい値の判定結果を基に検索結果を
出力する出力部である。

【００１４】次に、図２のフローチャートを参照して、
図１に係る画像検索装置の動作を説明する。図１のデー
タベース５には、あらかじめ画像と音声が同期して記録
されたデータが蓄えられている。検索者はまず、入力部
１から入力文を入力する（Ｓ１）。入力の形式として
は、キーボード、手書き入力、音声などさまざまなもの
があるが、入力部１ではどれを用いても構わない。入力
文から検索の対象となるキーワードが抽出される(Ｓ
２)。

【００１５】ここで、キーワードには、あらかじめキー
ワードを特徴づけるような擬音情報が対応づけられてい
る。この擬音情報とは、車の走る音や犬の鳴き声、人の
歓声など、人の話す言葉とは異なる音のことである。画
像と音声が同期したデータとしては、例えばテレビ番組
を録画したビデオがあるが、このデータの特徴を表すに
は、画像情報とともに音声情報も重要である。また、同
じキーワードによって表わされる画像は、音声情報にも
共通の情報があるので検索の際には、それらのうち擬音
情報をも利用する。例えば、キーワードが「サッカー」
の場合、サッカーに共通の擬音情報は、「観客の声」
「ゴールの音」「ボールを蹴る時の音」「笛の音」等が
考えられる。

【００１６】このような各擬音情報に応じ、第１のメモ
リ４１に、あらかじめ、例えば「サッカー」に対する擬
音成分として、擬音成分キーワード「観客」、「ゴー
ル」、「ボール」「笛」を記憶させておくものとする。
すると、入力部１への入力文から抽出されたキーワード
が「サッカー」であれば、変換部３の擬音成分抽出部３
１は、第１のメモリ４１を参照して、擬音成分として前
述の擬音成分キーワード「観客」、「ゴール」、「ボー
ル」、「笛」を抽出する。

【００１７】このように抽出された擬音成分は、変換部
３の標準周波数パターン抽出部３２に送られる。擬音成
分に対応するデータは、音なので特有の音声波形を持
つ。それを周波数分析することによって、周波数パター
ンが得られる。標準周波数パターン抽出部３２は、第２
のメモリ４２を参照し、このメモリ４２から各擬音成分
キーワード「観客」、「ゴール」、「ボール」、「笛」
に対応した周波数パターンを読み出してくる。

【００１８】図３は、抽出されたキーワード８が「サッ
カー」の場合、「サッカー」に対して擬音成分キーワー
ド９〜１２が対応づけられ、さらに各擬音成分キーワー
ド９〜１２に応じて周波数パターン１３〜１６が対応づ
けられている場合を図示している。図３の周波数パター
ン１３〜１６において、パターンの横軸は時間を表し、
縦軸は周波数を表している。

【００１９】キーワードとして「サッカー」の場合を例
にとって説明すれば、「サッカー」に対応する擬音成分
キーワード９、１０、１１、１２は、各々「観客」、
「ゴール」、「ボール」、「笛」であり、抽出された周
波数パターン１３〜１６は、各々「サッカー場における
観客の声」の代表的な周波数パターン、「サッカーのゴ
ールの際の音」の代表的な周波数パターン、「サッカー
ボールを蹴る音」の代表的な周波数パターン、「サッカ
ー場における笛の音」の代表的な周波数パターンであ
る。

【００２０】このようにして、変換部３では、キーワー
ドから擬音成分キーワードへの対応づけを行ない（Ｓ
３）、さらに、擬音成分キーワードからその擬音成分に
対応する周波数パターンへの対応づけを行なう（Ｓ
４）。

【００２１】次に、検索者が入力した入力文について検
索キーとなる周波数パターンが得られたら、整合部５に
おいて、各周波数パターンごとにデータベース６の音声
情報の中の音声データとマッチングをとる（Ｓ５）。こ
こで、画像と音声が同期したデータのうち、音声データ
のみを検索に用い、音声データを周波数分析し、これを
データベースの入力パターンとする。

【００２２】ここで、図４を用いて、データーベースの
入力パターン及び擬音成分パターンの類似度を求める方
法について説明する。図４において、２１はデータベー
スの入力パターンであり、検索者が入力した入力文にお
ける擬音成分の周波数パターン２３と同様に、横軸が時
間を表し、縦軸が周波数を表している。図４に示すよう
に、データベースからの入力パターン２１において、マ
ッチング区間の先頭を語頭２２とする。語頭２２を定め
て、擬音成分パターン２３と入力パターン２１との類似
度を、例えばＤＰマッチングを用いて求めたときの結果
を、図４中の横軸に時間、縦軸に類似度を取ったグラフ
で示す。ここでいう類似度とは、検索キーとなる擬音成
分の周波数パターンと、図１におけるデータベース６の
音声データの周波数パターンである入力パターンとがど
れだけ類似しているかを表すものである。

【００２３】例えばＤＰマッチングでは、同じ擬音パタ
ーンでも時間的に収縮している場合が考えられるので、
語頭２２を定めたら、マッチング区間２４の長さを少し
伸び縮みさせる。伸び縮みさせた区間ごとにいくつか類
似度を求め、最もパターンの類似度の高いものをその語
頭での類似度と決める。図４に示したような場合では、
マッチング区間ａとマッチング区間ｂとの両方で類似度
を求める。語頭を時間軸方向に少しずつずらしていけ
ば、データベースの入力パターン全体とマッチングする
ことができる。このような処理を、メモリ部４から得ら
れた検索に必要なすべての擬音成分の周波数パターンに
ついて行ない、周波数パターンごとの類似度を求め、グ
ラフで示す。

【００２４】なお、本実施例では、音声データの類似度
を求める方法として、ＤＰマッチングを用いたが、これ
に限定されるものではなく、この他にも多数あり、音声
認識等に利用されている技術が応用できることはいうま
でもない。

【００２５】次に、上記のようにして求めた類似度のグ
ラフを加算する（Ｓ６）。図４における類似度のグラフ
を初め、全ての類似度のグラフを加算したものが、図５
に示すものである。次に、しきい値の判定を行う（Ｓ
７）。これは、図５に示すしきい値２５より類似度の高
いグラフの部分が、必要な擬音成分を多く含むと考えら
れるからである。図５においてしきい値２５より類似度
が高い部分を、音声データに関する検索結果とする。デ
ータベースは、画像と音声が同期しているから、音声に
合った画像を検索し、画像と音声を同時に出力する（Ｓ
８）。但し、このしきい値は必要に応じて変更すること
ができる。

【００２６】以上の説明では、キーワード自体による検
索は述べていないが、このキーワード自体をも利用した
検索を合わせ持つように構成しても良いということはい
うまでもない。

【００２７】

【発明の効果】以上説明したように、本発明の画像検索
方法及び画像検索装置によれば、データベース入力時に
キーワードを付与する必要がなく、画像の特徴抽出も行
わなくてよいので作業者の負担を軽減することができ
る。これまで画像検索を難しくしていた画像のあいまい
さを擬音情報を使うことで補うことができ、また、同じ
キーワードであれば違う画像であっても検索することが
できる。これにより検索者は効率的な検索を行なうこと
ができる。

【００２８】また、動画像情報に比べ情報量の少ない音
声情報を用いることによって、検索の手間を軽減するこ
とができる。さらに、各擬音成分にはそれぞれその擬音
成分に対応する周波数パターンを持たせておきキーワー
ドは異なっても同じ擬音成分を含んでいれば同じ周波数
パターンを用いることができるので、メモリの削減にな
る。

【図面の簡単な説明】

【図１】本発明の一実施例の画像検索装置の全体構成図
である。

【図２】図１の画像検索装置の画像処理の動作を説明す
るフローチャートである。

【図３】キーワードと擬音成分の周波数パターンとの対
応づけを説明する図である。

【図４】入力パターン及び擬音成分パターンの類似度を
求める方法について説明する図である。

【図５】入力パターン及び擬音成分パターンの類似度に
よる検索結果を説明する図である。

【符号の説明】

１入力部２キーワード抽出部３変換部４メモリ５整合部６データベース７出力部８キーワード９，１０，１１，１２擬音成分キーワード１３，１４，１５，１６周波数パターン２１入力パターン２３擬音成分パターン

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩＧ１０Ｌ 5/06 Ａ (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30 G10L 15/02 G10L 15/10 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】データベースに記録されている画像と音
声が同期して記録されたデータを検索する方法におい
て、検索文を入力するステップと、入力された検索文から、検索文に含まれるキーワードを
抽出するステップと、抽出されたキーワードに対応する擬音成分キーワードを
抽出するステップと、擬音成分キーワードに対応する標準周波数パターンを抽
出するステップと、抽出された各標準周波数パターンと、データベース内の
各データの音声データとのマッチングを行い類似度を求
めるステップと、所定の類似度以上のデータを検索結果とするステップと
を備えることを特徴とするデータ検索方法。
【請求項２】あらかじめ画像と音声とが同期して記録
されているデータを記録しているデータベースと、検索文を入力する入力部と、入力された検索文から検索の対象となるキーワードを抽
出するキーワード抽出部と、各キーワードに対応する擬音成分キーワード及び各擬音
成分キーワードに対応した音声の周波数パターンを持つ
メモリと、抽出したキーワードを擬音成分キーワードに対応づけ、
擬音成分キーワードに対応した音声の周波数パターンを
抽出する変換部と、メモリから抽出した音声の周波数パターンと、データベ
ース内の各データの音声データとのマッチングを行い類
似度を求める整合部と、所定の類似度以上のデータを検索結果として出力する出
力部とを備えることを特徴とするデータ検索装置。