JP3021252B2 - データ検索方法及びデータ検索装置 - Google Patents

データ検索方法及びデータ検索装置

Info

Publication number
JP3021252B2
JP3021252B2 JP5252798A JP25279893A JP3021252B2 JP 3021252 B2 JP3021252 B2 JP 3021252B2 JP 5252798 A JP5252798 A JP 5252798A JP 25279893 A JP25279893 A JP 25279893A JP 3021252 B2 JP3021252 B2 JP 3021252B2
Authority
JP
Japan
Prior art keywords
keyword
data
onomatopoeic
search
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP5252798A
Other languages
English (en)
Other versions
JPH07105235A (ja
Inventor
靖子 松岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP5252798A priority Critical patent/JP3021252B2/ja
Publication of JPH07105235A publication Critical patent/JPH07105235A/ja
Application granted granted Critical
Publication of JP3021252B2 publication Critical patent/JP3021252B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、特に画像と音声が同期
して記録されたデータを検索するための画像検索方法及
び画像検索装置に関するものである。
【0002】
【従来の技術】放送局等においては、ビデオテープ等、
画像と音声とを同期して記録した画像データが大量に蓄
積されており、これらのデータから自分の必要とするデ
ータを高速に取り出すことができる画像検索装置が望ま
れている。
【0003】従来の画像検索装置における画像検索方法
には、あらかじめ画像に付与したキーワードにより検索
を行うキーワード法と、画像自体の特徴抽出を行いその
特徴によりマッチングを行って検索をする特徴抽出法が
ある。
【0004】前者は、各画像データに整理番号や関連の
あるキーワードをつける方式であり、画像の持つ情報を
キーワードで表し、キーワードどうしに関係を持たせる
ことにより画像を検索しやすくしている。
【0005】後者は、画像自体を直接検索キーとして用
いる方法であり、画像認識の手法を用いて画像自体の特
徴抽出を行い、その特徴を検索キーとし、検索キーとマ
ッチングした画像を出力する。
【0006】
【発明が解決しようとする課題】しかしながら、前述の
キーワード法は、画像に対するキーワードの付け方が人
により異なるので、検索者がキーワードの入力者と異な
る場合に必要な画像を検索することが難しい。これは、
画像情報には、キーワードのような言語的な情報で表し
得る情報だけでなく、意味的な情報や感覚的な情報が含
まれているので、キーワードだけでは表現できなかった
り、適当なキーワードが見つからなかったりするためで
ある。また、検索者は、検索したい画像をはっきりと指
定する必要があるので、入力時につけたキーワードを覚
えておかなければならなかった。しかし、データベース
が大きくなると、すべての画像についてキーワードを覚
えておくことは困難になる。
【0007】また、前述の特徴抽出法の場合、画像から
の特徴抽出とマッチングをどのように行うかが問題であ
る。そして、画像の特徴は、人によってさまざまな見方
があり、一概に決めることがでず、検索者が、検索し
たい画像をどのように入力するのかも問題である。特
に、検索したい画像のイメージがあいまいな場合には、
装置が検索者の意図を読み取らなければならない。ま
た、いずれの場合でも、画像をデータベースに入力する
ときに手間がかかった。
【0008】本発明は、このような点に鑑みなされたも
のであり、画像と同期して記憶されている音声の中の擬
音情報を検索キーとして用いることにより、データベー
ス入力時の画像の特徴抽出等の作業者にかかる負担を軽
減し、また、キーワード等の言語的な情報では表現しき
れなかった画像の曖昧さを少なくする画像検索装置を提
供することを目的とする。
【0009】
【課題を解決するための手段】上記目的を達成するため
に、本願発明においては、検索文を入力し、入力された
検索文から、検索文に含まれるキーワードを抽出し、抽
出されたキーワードに対応する擬音成分キーワードを抽
出し、擬音成分キーワードに対応する標準周波数パター
ンを抽出し、抽出された各標準周波数パターンと、デー
タベース内の各データの音声データとのマッチングを行
い類似度を求め、 所定の類似度以上のデータを検索結
果とすることを特徴とする。
【0010】
【0011】
【作用】本出願によれば、検索用に入力されたキーワー
ドから該キーワードに対応する擬音成分キーワードを抽
出するとともに、この擬音成分キーワードに対応した音
声の周波数パターンを抽出しこれを検索キーとして用い
るため、よりきめの細かいデータ検索を行うことができ
る。
【0012】
【0013】
【実施例】以下、本発明の好適な実施例を図を参照しな
がら説明する。図1は、本発明にかかる画像検索装置の
一実施例の全体構成図である。図1において、1は検索
者が入力文を入力する入力部、2は入力された入力文か
ら検索の対象となるキーワードを抽出するキーワード抽
出部、3は抽出されたキーワードに対応する擬音成分を
抽出すると共に、擬音成分に対応した音声波形の標準パ
ターンを抽出する変換部であり、後述のメモリ4を参照
してキーワードに対応する擬音成分を抽出する擬音成分
抽出部31と、後述のメモリ4を参照して擬音成分に対
応した音声周波数パターンを抽出する標準周波数パター
ン抽出部32より成る。そして、4はメモリであり、キ
ーワードに対応した擬音成分キーワードを記憶する第1
のメモリ41と、擬音成分によって特定される実際の音
声の周波数パターンを記憶する第2のメモリ42によっ
て構成されている。また、5は各擬音成分の周波数パタ
ーンとデータベースの音声データとのマッチングを取っ
て両パターンの類似度をとり全ての類似度を合計し、し
きい値を判定する整合部、6は検索対象となる画像と音
声が同期しているデータを蓄積しているデータベース、
7は前記整合部のしきい値の判定結果を基に検索結果を
出力する出力部である。
【0014】次に、図2のフローチャートを参照して、
図1に係る画像検索装置の動作を説明する。図1のデー
タベース5には、あらかじめ画像と音声が同期して記録
されたデータが蓄えられている。検索者はまず、入力部
1から入力文を入力する(S1)。入力の形式として
は、キーボード、手書き入力、音声などさまざまなもの
があるが、入力部1ではどれを用いても構わない。入力
文から検索の対象となるキーワードが抽出される(S
2)。
【0015】ここで、キーワードには、あらかじめキー
ワードを特徴づけるような擬音情報が対応づけられてい
る。この擬音情報とは、車の走る音や犬の鳴き声、人の
歓声など、人の話す言葉とは異なる音のことである。画
像と音声が同期したデータとしては、例えばテレビ番組
を録画したビデオがあるが、このデータの特徴を表すに
は、画像情報とともに音声情報も重要である。また、同
じキーワードによって表わされる画像は、音声情報にも
共通の情報があるので検索の際には、それらのうち擬音
情報をも利用する。例えば、キーワードが「サッカー」
の場合、サッカーに共通の擬音情報は、「観客の声」
「ゴールの音」「ボールを蹴る時の音」「笛の音」等が
考えられる。
【0016】このような各擬音情報に応じ、第1のメモ
リ41に、あらかじめ、例えば「サッカー」に対する擬
音成分として、擬音成分キーワード「観客」、「ゴー
ル」、「ボール」「笛」を記憶させておくものとする。
すると、入力部1への入力文から抽出されたキーワード
が「サッカー」であれば、変換部3の擬音成分抽出部3
1は、第1のメモリ41を参照して、擬音成分として前
述の擬音成分キーワード「観客」、「ゴール」、「ボー
ル」、「笛」を抽出する。
【0017】このように抽出された擬音成分は、変換部
3の標準周波数パターン抽出部32に送られる。擬音成
分に対応するデータは、音なので特有の音声波形を持
つ。それを周波数分析することによって、周波数パター
ンが得られる。標準周波数パターン抽出部32は、第2
のメモリ42を参照し、このメモリ42から各擬音成分
キーワード「観客」、「ゴール」、「ボール」、「笛」
に対応した周波数パターンを読み出してくる。
【0018】図3は、抽出されたキーワード8が「サッ
カー」の場合、「サッカー」に対して擬音成分キーワー
ド9〜12が対応づけられ、さらに各擬音成分キーワー
ド9〜12に応じて周波数パターン13〜16が対応づ
けられている場合を図示している。図3の周波数パター
ン13〜16において、パターンの横軸は時間を表し、
縦軸は周波数を表している。
【0019】キーワードとして「サッカー」の場合を例
にとって説明すれば、「サッカー」に対応する擬音成分
キーワード9、10、11、12は、各々「観客」、
「ゴール」、「ボール」、「笛」であり、抽出された周
波数パターン13〜16は、各々「サッカー場における
観客の声」の代表的な周波数パターン、「サッカーのゴ
ールの際の音」の代表的な周波数パターン、「サッカー
ボールを蹴る音」の代表的な周波数パターン、「サッカ
ー場における笛の音」の代表的な周波数パターンであ
る。
【0020】このようにして、変換部3では、キーワー
ドから擬音成分キーワードへの対応づけを行ない(S
3)、さらに、擬音成分キーワードからその擬音成分に
対応する周波数パターンへの対応づけを行なう(S
4)。
【0021】次に、検索者が入力した入力文について検
索キーとなる周波数パターンが得られたら、整合部5に
おいて、各周波数パターンごとにデータベース6の音声
情報の中の音声データとマッチングをとる(S5)。こ
こで、画像と音声が同期したデータのうち、音声データ
のみを検索に用い、音声データを周波数分析し、これを
データベースの入力パターンとする。
【0022】ここで、図4を用いて、データーベースの
入力パターン及び擬音成分パターンの類似度を求める方
法について説明する。図4において、21はデータベー
スの入力パターンであり、検索者が入力した入力文にお
ける擬音成分の周波数パターン23と同様に、横軸が時
間を表し、縦軸が周波数を表している。図4に示すよう
に、データベースからの入力パターン21において、マ
ッチング区間の先頭を語頭22とする。語頭22を定め
て、擬音成分パターン23と入力パターン21との類似
度を、例えばDPマッチングを用いて求めたときの結果
を、図4中の横軸に時間、縦軸に類似度を取ったグラフ
で示。ここでいう類似度とは、検索キーとなる擬音成
分の周波数パターンと、図1におけるデータベース6の
音声データの周波数パターンである入力パターンとがど
れだけ類似しているかを表すものである。
【0023】例えばDPマッチングでは、同じ擬音パタ
ーンでも時間的に収縮している場合が考えられるので、
語頭22を定めたら、マッチング区間24の長さを少し
伸び縮みさせる。伸び縮みさせた区間ごとにいくつか類
似度を求め、最もパターンの類似度の高いものをその語
頭での類似度と決める。図4に示したような場合では、
マッチング区間aとマッチング区間bとの両方で類似度
を求める。語頭を時間軸方向に少しずつずらしていけ
ば、データベースの入力パターン全体とマッチングする
ことができる。このような処理を、メモリ部4から得ら
れた検索に必要なすべての擬音成分の周波数パターンに
ついて行ない、周波数パターンごとの類似度を求め、グ
ラフで示す。
【0024】なお、本実施例では、音声データの類似度
を求める方法として、DPマッチングを用いたが、これ
に限定されるものではなく、この他にも多数あり、音声
認識等に利用されている技術が応用できることはいうま
でもない。
【0025】次に、上記のようにして求めた類似度のグ
ラフを算する(S6)。図4における類似度のグラフ
を初め、全ての類似度のグラフを加算したものが、図5
に示すものである。次に、しきい値の判定を行う(S
7)。これは、図5に示すしきい値25より類似度の高
いグラフの部分が、必要な擬音成分を多く含むと考えら
れるからである。図5においてしきい値25より類似度
が高い部分を、音声データに関する検索結果とする。デ
ータベースは、画像と音声が同期しているから、音声に
合った画像を検索し、画像と音声を同時に出力する(S
8)。但し、このしきい値は必要に応じて変更すること
ができる。
【0026】以上の説明では、キーワード自体による検
索は述べていないが、このキーワード自体をも利用した
検索を合わせ持つように構成しても良いということはい
うまでもない。
【0027】
【発明の効果】以上説明したように、本発明の画像検索
方法及び画像検索装置によれば、データベース入力時に
キーワードを付与する必要がなく、画像の特徴抽出も行
わなくてよいので作業者の負担を軽減することができ
る。これまで画像検索を難しくしていた画像のあいまい
さを擬音情報を使うことで補うことができ、また、同じ
キーワードであれば違う画像であっても検索することが
できる。これにより検索者は効率的な検索を行なうこと
ができる。
【0028】また、動画像情報に比べ情報量の少ない音
声情報を用いることによって、検索の手間を軽減するこ
とができる。さらに、各擬音成分にはそれぞれその擬音
成分に対応する周波数パターンを持たせておきキーワー
ドは異なっても同じ擬音成分を含んでいれば同じ周波数
パターンを用いることができるので、メモリの削減にな
る。
【図面の簡単な説明】
【図1】本発明の一実施例の画像検索装置の全体構成図
である。
【図2】図1の画像検索装置の画像処理の動作を説明す
るフローチャートである。
【図3】キーワードと擬音成分の周波数パターンとの対
応づけを説明する図である。
【図4】入力パターン及び擬音成分パターンの類似度を
求める方法について説明する図である。
【図5】入力パターン及び擬音成分パターンの類似度に
よる検索結果を説明する図である。
【符号の説明】
1 入力部 2 キーワード抽出部 3 変換部 4 メモリ 5 整合部 6 データベース 7 出力部 8 キーワード 9,10,11,12 擬音成分キーワード 13,14,15,16 周波数パターン 21 入力パターン 23 擬音成分パターン
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI G10L 5/06 A (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 G10L 15/02 G10L 15/10 JICSTファイル(JOIS)

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 データベースに記録されている画像と音
    声が同期して記録されたデータを検索する方法におい
    て、 検索文を入力するステップと、 入力された検索文から、検索文に含まれるキーワードを
    抽出するステップと、 抽出されたキーワードに対応する擬音成分キーワードを
    抽出するステップと、 擬音成分キーワードに対応する標準周波数パターンを抽
    出するステップと、 抽出された各標準周波数パターンと、データベース内の
    各データの音声データとのマッチングを行い類似度を求
    めるステップと、 所定の類似度以上のデータを検索結果とするステップと
    を備えることを特徴とするデータ検索方法。
  2. 【請求項2】 あらかじめ画像と音声とが同期して記録
    されているデータを記録しているデータベースと、 検索文を入力する入力部と、 入力された検索文から検索の対象となるキーワードを抽
    出するキーワード抽出部と、 各キーワードに対応する擬音成分キーワード及び各擬音
    成分キーワードに対応した音声の周波数パターンを持つ
    メモリと、 抽出したキーワードを擬音成分キーワードに対応づけ
    擬音成分キーワードに対応した音声の周波数パターンを
    抽出する変換部と、 メモリから抽出した音声の周波数パターンと、データベ
    ース内の各データの音声データとのマッチングを行い類
    似度を求める整合部と、所定の類似度以上のデータを検索結果として 出力する出
    力部とを備えることを特徴とするデータ検索装置。
JP5252798A 1993-10-08 1993-10-08 データ検索方法及びデータ検索装置 Expired - Fee Related JP3021252B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5252798A JP3021252B2 (ja) 1993-10-08 1993-10-08 データ検索方法及びデータ検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5252798A JP3021252B2 (ja) 1993-10-08 1993-10-08 データ検索方法及びデータ検索装置

Publications (2)

Publication Number Publication Date
JPH07105235A JPH07105235A (ja) 1995-04-21
JP3021252B2 true JP3021252B2 (ja) 2000-03-15

Family

ID=17242391

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5252798A Expired - Fee Related JP3021252B2 (ja) 1993-10-08 1993-10-08 データ検索方法及びデータ検索装置

Country Status (1)

Country Link
JP (1) JP3021252B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1178201C (zh) 1999-08-26 2004-12-01 索尼公司 信息检索方法及设备、信息存储方法及设备
JP3891111B2 (ja) 2002-12-12 2007-03-14 ソニー株式会社 音響信号処理装置及び方法、信号記録装置及び方法、並びにプログラム
US20040167767A1 (en) * 2003-02-25 2004-08-26 Ziyou Xiong Method and system for extracting sports highlights from audio signals
JP4621607B2 (ja) * 2005-03-30 2011-01-26 株式会社東芝 情報処理装置及びその方法

Also Published As

Publication number Publication date
JPH07105235A (ja) 1995-04-21

Similar Documents

Publication Publication Date Title
US6990448B2 (en) Database annotation and retrieval including phoneme data
US6580437B1 (en) System for organizing videos based on closed-caption information
US7983915B2 (en) Audio content search engine
US5649060A (en) Automatic indexing and aligning of audio and text using speech recognition
JP3488174B2 (ja) 内容情報と話者情報を使用して音声情報を検索するための方法および装置
US7590605B2 (en) Lattice matching
JP5142769B2 (ja) 音声データ検索システム及び音声データの検索方法
US20080270110A1 (en) Automatic speech recognition with textual content input
WO2000036833A1 (fr) Procede et appareil permettant de retrouver vocalement des scenes video ou audio
JP5296598B2 (ja) 音声情報抽出装置
US20120041947A1 (en) Search apparatus, search method, and program
JPH08227426A (ja) データ検索装置
Witbrock et al. Speech recognition for a digital video library
JP3021252B2 (ja) データ検索方法及びデータ検索装置
JP2004233541A (ja) ハイライトシーン検出システム
US5987412A (en) Synthesising speech by converting phonemes to digital waveforms
KR20030014804A (ko) 폐쇄자막 기반의 뉴스 비디오 데이터베이스 생성 장치 및방법과 그에 따른 내용기반 검색/탐색 방법
KR100348901B1 (ko) 오디오/영상물의 음향적 장면분할방법
JPH0668168A (ja) 音響キーワードによる映像検索方法および装置
Hsieh et al. Improved spoken document retrieval with dynamic key term lexicon and probabilistic latent semantic analysis (PLSA)
JPH06175698A (ja) 音声検索装置
JP2000067085A (ja) 非コ―ド化情報のデ―タベ―ス化方式
US6026407A (en) Language data storage and reproduction apparatus
JP2000020551A (ja) 音声データ検索装置および記憶媒体
JPH10254478A (ja) 音声原稿最適照合装置および方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080114

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090114

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100114

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110114

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees