JP2006155042A - マルチメディア情報検索システム及びプログラム - Google Patents

マルチメディア情報検索システム及びプログラム Download PDF

Info

Publication number
JP2006155042A
JP2006155042A JP2004342304A JP2004342304A JP2006155042A JP 2006155042 A JP2006155042 A JP 2006155042A JP 2004342304 A JP2004342304 A JP 2004342304A JP 2004342304 A JP2004342304 A JP 2004342304A JP 2006155042 A JP2006155042 A JP 2006155042A
Authority
JP
Japan
Prior art keywords
image
sound
feature amount
data
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004342304A
Other languages
English (en)
Other versions
JP4621909B2 (ja
Inventor
Takiya Shibata
滝也 柴田
Yukari Kawasaki
由加里 川崎
Maika Kawasaki
舞佳 川崎
Junko Kanamori
淳香 金森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tokyo Denki University
Original Assignee
Tokyo Denki University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Denki University filed Critical Tokyo Denki University
Priority to JP2004342304A priority Critical patent/JP4621909B2/ja
Publication of JP2006155042A publication Critical patent/JP2006155042A/ja
Application granted granted Critical
Publication of JP4621909B2 publication Critical patent/JP4621909B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

【課題】 ユーザが画像情報をキーにその画像情報とマッチングする音情報をデータベースから検索し、あるいは音情報をキーにその音情報とマッチングする画像情報をデータベースから検索するマルチメディア情報検索システムを提供する。
【解決手段】 この発明のマルチメディア情報検索システムでは、入力された音データを周波数分析して音特徴量を生成し、この音特徴量にマッチングする画像コントラストファクタを決定し、この画像コントラストファクスをキーにして画像識別子と画像データと画像コントラストファクタとを対応させた画像レコードを多種類登録している画像データベースを検索し、該当する画像データを抽出する、あるいはその逆の検索を行う。
【選択図】 図1

Description

本発明は、コントラストモデルを用いたマルチメディア情報検索システム及びプログラムに関する。
従来、インターネット上の検索に利用されるGoogle(登録商標)、Yahoo!(登録商標)のような検索システムは、テキストによる検索が主であり、テキスト以外の異なるメディア情報間の検索システムはほとんど知られていない。また画像情報や音情報のような異なるメディアデータを編集には各種情報に関連する知識が必要とされ、専門技術者でなければこのような情報の編集ができない。しかも専門技術者であってもインターネット上にあるメディア情報をすべて見ることはできない。反面、現在、高度な専門知識を有しないユーザが多量に流されるインターネット上のマルチメディアデータにアクセスするようになってきている。また、地上波ディジタル放送が解禁されると、その放送に流すコンテンツの重要が増加することが予想される。
このような現実では、高度な知識を有しない一般ユーザであっても異なるメディアデータを編集できるシステムが存在するようになれば、コンテンツの内容の幅が広がり、将来のコンテンツ産業の拡大が期待できる。
本発明は、このような従来の技術的課題に鑑みてなされたもので、ユーザが画像情報をキーにその画像情報とマッチングする音情報を音データベースから検索できるマルチメディア情報検索システム及びプログラムを提供することを目的とする。
本発明はまた、ユーザが音情報をキーにその音情報とマッチングする画像情報を画像データベースから検索できるマルチメディア情報検索システム及びプログラムを提供することを目的とする。
本発明の第1の特徴は、表示出力、印字出力、ネットワークに対する情報入出力、入力手段からの情報入力を処理する入出力処理部と、画像識別子と画像データと画像特徴量とを対応させた画像レコードを多種類登録している画像データベースと、前記入出力処理部に入力された音データを周波数分析し、音特徴量を生成する音分析部と、前記音分析部の生成した音特徴量にマッチングする画像特徴量を決定する音・画像マッチング処理部と、前記音・画像マッチング処理部の決定した画像特徴量をキーにして前記画像データベースを検索し、該当する画像特徴量を持つ画像データを抽出する画像データベース検索部とを備えたマルチメディア情報検索システムにある。
ここで、前記画像データベースは、画像識別子と、画像データと、当該画像データに対して、
Figure 2006155042
の画像特徴量算出式に基づいて算出した画像特徴量Crg,Cybとを対応させた画像レコードを多種類保持しており、前記音分析部は、入力された音データに対して、
Figure 2006155042
式に基づいて、音特徴量Cfを求め、前記音・画像マッチング処理部は、音特徴量Cfとこれにマッチングする画像特徴量Crg,Cybとの対応データを保持していて、前記音分析部の求めた音特徴量Cfに対して当該対応データを参照して当該音特徴量にマッチングする画像特徴量Crg,Cygを決定するものとすることができる。
また、前記画像データベースは、画像識別子と、画像データと、当該画像データに対して、
Figure 2006155042
の画像特徴量算出式に基づいて算出した画像特徴量としての彩度Cs1又はCs2とを対応させた画像レコードを多種類保持しており、前記音分析部は、入力された音データに対して、前記音特徴量Cfを求め、前記音・画像マッチング処理部は、音特徴量Cfとこれにマッチングする画像彩度Cs1又はCs2との対応データを保持していて、前記音分析部の求めた音特徴量Cfに対して当該対応データを参照して当該音特徴量にマッチングする画像彩度Cs1又はCs2を決定するものとすることができる。
また、前記画像データベースは、画像識別子と、画像データと、当該画像データに対して、
Figure 2006155042
の画像特徴量算出式に基づいて算出した画像特徴量としての明度Cbrとを対応させた画像レコードを多種類保持しており、前記音分析部は、入力された音データに対して、前記音特徴量Cfを求め、前記音・画像マッチング処理部は、音特徴量Cfとこれにマッチングする画像明度Cbrとの対応データを保持していて、前記音分析部の求めた音特徴量Cfに対して当該対応データを参照して当該音特徴量にマッチングする画像明度Cbrを決定するものとすることができる。
本発明の第2の特徴は、表示出力、印字出力、ネットワークに対する情報入出力、入力手段からの情報入力を処理する入出力処理部と、音識別子と音データと音特徴量とを対応させた音レコードを多種類登録している音データベースと、前記入出力処理部に入力された画像データに所定の画像特徴量算出式を適用して画像特徴量を生成する画像分析部と、前記画像分析部の生成した画像特徴量にマッチングする音特徴量を決定する画像・音マッチング処理部と、前記画像・音マッチング処理部の決定した音特徴量をキーにして前記音データベースを検索し、該当する音特徴量を持つ音データを抽出する音データベース検索部とを備えたマルチメディア情報検索システムにある。
ここで、前記音データベースは、音識別子と、音データと、当該音データに対して、
Figure 2006155042
の音特徴量算出式に基づいて算出した音特徴量Cfとを対応させた音レコードを多種類保持しており、前記画像分析部は、入力された画像データに対して、
Figure 2006155042
式に基づいて、画像特徴量Crg,Cybを求め、前記画像・音マッチング処理部は、画像特徴量Crg,Cybとこれにマッチングする音特徴量Cfとの対応データを保持していて、前記画像分析部の求めた画像特徴量Crg,Cybに対して当該対応データを参照して当該画像特徴量にマッチングする音特徴量Cfを決定するものとすることができる。
また、前記音データベースは、音識別子と、音データと、当該音データに対して、前記音特徴量算出式に基づいて算出した音特徴量Cfとを対応させた音レコードを多種類保持しており、前記画像分析部は、入力された画像データに対して、
Figure 2006155042
式に基づいて、画像特徴量としての彩度Cs1又はCs2を求め、前記画像・音マッチング処理部は、画像特徴量Cs1又はCs2とこれにマッチングする音特徴量Cfとの対応データを保持していて、前記画像分析部の求めた画像彩度Cs1又はCs2に対して当該対応データを参照して当該画像彩度にマッチングする音特徴量Cfを決定するものとすることができる。
また、前記音データベースは、音識別子と、音データと、当該音データに対して、前記音特徴量算出式に基づいて算出した音特徴量Cfとを対応させた音レコードを多種類保持しており、前記画像分析部は、入力された画像データに対して、
Figure 2006155042
式に基づいて、画像特徴量としての明度Cbrを求め、前記画像・音マッチング処理部は、画像明度Cbrとこれにマッチングする音特徴量Cfとの対応データを保持していて、前記画像分析部の求めた画像明度Cbrに対して当該対応データを参照して当該画像明度にマッチングする音特徴量Cfを決定するものとすることができる。
本発明の第3の特徴は、入力された音データを周波数分析し、音特徴量を生成する音分析ステップと、前記音分析ステップで生成した音特徴量にマッチングする画像特徴量を決定する音・画像マッチング処理ステップと、前記音・画像マッチング処理ステップで決定した画像特徴量をキーにして、画像識別子と画像データと画像特徴量とを対応させた画像レコードを多数保持している画像データベースを検索し、該当する画像特徴量を持つ画像データを抽出する画像データベース検索ステップとをコンピュータに実行させるマルチメディア情報検索プログラムにある。
ここで、前記画像データベースは、画像識別子と、画像データと、当該画像データに対して、
Figure 2006155042
の画像特徴量算出式に基づいて算出した画像特徴量Crg,Cybとを対応させた画像レコードを多種類保持しており、前記音分析ステップでは、入力された音データに対して、
Figure 2006155042
式に基づいて、音特徴量Cfを求め、前記音・画像マッチング処理ステップでは、音特徴量Cfとこれにマッチングする画像特徴量Crg,Cybとの対応データを保持していて、前記音分析ステップで求めた音特徴量Cfに対して当該対応データを参照して当該音特徴量にマッチングする画像特徴量Crg,Cygを決定するものとすることができる。
また、前記画像データベースは、画像識別子と、画像データと、当該画像データに対して、
Figure 2006155042
の画像特徴量算出式に基づいて算出した画像特徴量としての彩度Cs1又はCs2とを対応させた画像レコードを多種類保持しており、前記音分析ステップでは、入力された音データに対して、前記音特徴量Cfを求め、前記音・画像マッチング処理ステップでは、音特徴量Cfとこれにマッチングする画像彩度Cs1又はCs2との対応データを保持していて、前記音分析部の求めた音特徴量Cfに対して当該対応データを参照して当該音特徴量にマッチングする画像彩度Cs1又はCs2を決定するものとすることができる。
また、前記画像データベースは、画像識別子と、画像データと、当該画像データに対して、
Figure 2006155042
の画像特徴量算出式に基づいて算出した画像特徴量としての明度Cbrとを対応させた画像レコードを多種類保持しており、前記音分析ステップでは、入力された音データに対して、前記音特徴量Cfを求め、前記音・画像マッチング処理ステップでは、音特徴量Cfとこれにマッチングする画像明度Cbrとの対応データを保持していて、前記音分析ステップで求めた音特徴量Cfに対して当該対応データを参照して当該音特徴量にマッチングする画像明度Cbrを決定するものとすることができる。
本発明の第4の特徴は、入力された画像データに所定の画像特徴量算出式を適用して画像特徴量を生成する画像分析ステップと、前記画像分析ステップで生成した画像特徴量にマッチングする音特徴量を決定する画像・音マッチング処理ステップと、前記画像・音マッチング処理ステップで決定した音特徴量をキーにして、音識別子と音データと音特徴量とを対応させた音レコードを多種類登録している音データベースを検索し、該当する音特徴量を持つ音データを抽出する音データベース検索ステップとをコンピュータに実行させるマルチメディア情報検索プログラムにある。
ここで、前記音データベースは、音識別子と、音データと、当該音データに対して、
Figure 2006155042
の音特徴量算出式に基づいて算出した音特徴量Cfとを対応させた音レコードを多種類保持しており、前記画像分析ステップでは、入力された画像データに対して、
Figure 2006155042
式に基づいて、画像特徴量Crg,Cybを求め、前記画像・音マッチング処理ステップでは、画像特徴量Crg,Cybとこれにマッチングする音特徴量Cfとの対応データを保持していて、前記画像分析ステップで求めた画像特徴量Crg,Cybに対して当該対応データを参照して当該画像特徴量にマッチングする音特徴量Cfを決定するものとすることができる。
また、前記音データベースは、音識別子と、音データと、当該音データに対して、前記音特徴量算出式に基づいて算出した音特徴量Cfとを対応させた音レコードを多種類保持しており、前記画像分析ステップでは、入力された画像データに対して、
Figure 2006155042
式に基づいて、画像特徴量としての彩度Cs1又はCs2を求め、前記画像・音マッチング処理ステップでは、画像特徴量Cs1又はCs2とこれにマッチングする音特徴量Cfとの対応データを保持していて、前記画像分析ステップで求めた画像彩度Cs1又はCs2に対して当該対応データを参照して当該画像彩度にマッチングする音特徴量Cfを決定するものとすることができる。
また、前記音データベースは、音識別子と、音データと、当該音データに対して、前記音特徴量算出式に基づいて算出した音特徴量Cfとを対応させた音レコードを多種類保持しており、前記画像分析ステップでは、入力された画像データに対して、
Figure 2006155042
式に基づいて、画像特徴量としての明度Cbrを求め、前記画像・音マッチング処理ステップでは、画像明度Cbrとこれにマッチングする音特徴量Cfとの対応データを保持していて、前記画像分析ステップで求めた画像明度Cbrに対して当該対応データを参照して当該画像明度にマッチングする音特徴量Cfを決定するものとすることができる。
本発明によれば、ユーザが入力される画像情報をキーにその画像情報とマッチングする音情報をデータベースから検索できる。
また本発明によれば、ユーザが入力される音情報をキーにその音情報とマッチングする画像情報をデータベースから検索できる。
以下、本発明の実施の形態を図に基づいて詳説する。
(第1の実施の形態)図1は本発明の1つの実施の形態のマルチメディア情報検索システムの構成を示している。本実施の形態のマルチメディア情報検索システムは、入力された音データに調和する画像データを検索して抽出する機能、また入力された画像データに調和する音データを検索して抽出する機能を備えていて、表示装置10、図示しないプリンタやネットワークに対する情報出力、キーボード11、図示しないポインティングデバイスやネットワークからの情報入力を処理する入出力処理部1、入力された音データを分析して保存処理する音分析部2、入力された画像データを分析し保存処理する画像分析部3、音分析部2にて分析された音データを保存する音データベース4、画像分析部3にて分析された画像データを保存する画像データベース5、音データとマッチする画像データの検索又はその逆の検索を実行し、入力された音データにマッチする画像データ、又は入力された画像データにマッチする音データを抽出するマッチング処理部6、これらのすべての要素をプログラムに従って制御する制御部7を備えている。なお、本システムは本来、コンピュータシステムに当該諸機能を備えたマルチメディア情報検索プログラムをインストールして実行させることにより実現されるものであるが、ここでは説明の便宜のために音分析部2、画像分析部3、マッチング処理部6等、個別のブロックに分けて示している。
次に、上記構成のマルチメディア情報検索システムによる検索動作について説明する。まず、音データベース4、画像データベース5に音データ、画像データを登録する処理を説明する。音特徴量算出式に基づいて多数の音データそれぞれの音特徴量を算出し、音識別子と音データとこの音特徴量とを対応させて音データベース4に登録する。同様に画像特徴量算出式に基づいて多数の画像データそれぞれの画像特徴量を算出し、画像識別子と画像データとこの画像特徴量とを対応させて画像データベース5に登録する。
まず、画像のコントラストモデルを以下のように定義する。
Figure 2006155042
コントラストの計算は、画像全体のRGBそれぞれの平均値r,g,bを求めた後、(1)、(2)式に代入し、コントラスト値Crg,Cybを求める。そして、彩度の近似式Cs1,Cs2を(3)、(4)式にて求める。
Figure 2006155042
調和に関連して、ムーン・スペンサーは二色配色の色彩調和の理論を提案している(乾敏郎著、「建築の色彩設計」、鹿島出版会、1976年)。それによれば、図2、図3に示したように、色相、彩度、明度の「同等」、「類似」の二色配色では調和度が高くなる一方、少し異種の色相、彩度、明度では調和度が低くなる。そしてこの現象はすべての色相、彩度、明度に相対的に起こる。
一方、同じような現象が二音和音(純音)にも起こる。異なる周波数から成る二音和音において、その周波数との差によって協和・不協和が生じる。図4は周波数差と協和・不協和との分布を示している(Plomp&Leveltの分布)が、色相の場合と同様に二音和音の協和度は周波数が同等、接近しているときには高くなる一方、少し周波数が離れると不協和度が大きくなり、V字型の分布となる。
この現象を踏まえ、画像データに関して導き出したのが上式(1)〜(4)である。これを用いて、横軸を色相(0°から360°)、縦軸を画像コントラスト値にした分布を図5に示している。この図5のグラフを見れば、図4の周波数差と協和度・不協和度との分布と同じようなV字型の分布になっていることが分かる。
<実験1の内容>
次に、画像コントラストモデルと音の協和音・不協和音との間での調和・不調和の関係を検証するために、次のような心理実験1を実施した。つまり、明るい色調の画像には協和音が調和すると感じるか、不協和音が調和すると感じるか、また逆に暗い色調の画像には協和音が調和すると感じるか、不協和音が調和すると感じるかをテストした。
・画像サンプル:黒地に紫の画像、和紙テクスチャ、樹木表面、空、イチョウの葉、カラフルビーズの計6種類。
・和音サンプル:協和音2種類(A4−C4、A4−F4)、不協和音2種類(G8−A4、A4−A#4)の二音和音計4種類。
・実験サンプル:二音和音のみ4種類、自然画像6種類×二音和音4種類、計28サンプル。音サンプルは電子ピアノの生演奏。
・有効被験者:20歳代前半の大学生8名。
・スケール:調和度・不調和度を7段階(1に近いほど調和度が高い)で評価する。
画像コントラストモデル値Crg,Cybとこの実験結果による調和度・不調和度の関係を図6、図7に示している。この結果から、図6に示すように、協和音については、コントラスト値Crgとの調和度が正の相関(図6では負であるが、調和度が小さいと調和となるため)があり、コントラスト値Crgが大きいほど調和度が上がる傾向を確認できる。他方、Cybとの相関は弱い。図7に示すように、不協和音については、コントラスト値Cybとの調和度が負の相関があり、コントラスト値Cybが小さいほど調和度が上がる傾向がある。他方、Crgとの相関は弱い。つまり、調和度を上げる方法としては、協和音にはコントラスト値Crgが大きい画像、他方、不協和音にはコントラスト値Cybが小さい画像が有効であることが分かった。
これから、画像と音の調和・不調和について判断する場合、二音和音が協和音あるいは不協和音かによって調和する画像が異なる。したがって、画像と音との調和・不調和を推定するためには二音和音が協和音か不協和音かを推定した上でマッチングする画像を決める必要がある。
上述の二音和音の周波数の差と協和度・不協和度の分布を参考にして構築した数式による推定モデルは次の通りである。この推定モデルを構築する上で、次の項目を前提条件とした。
(a)1オクターブ内でのモデル。
(b)1オクターブ内の最小周波数f0と最大周波数f1(=2f0)を利用。
(c)ウェーバーの法則を利用。
(d)画像のコントラストモデルを参考。
上の(a)、(b)の条件より、fをオクターブ内の任意の周波数、f0を1オクターブ内の最小周波数=基準周波数、f1(=2f0)を1オクターブ内の最大周波数とする。上の(1)式の画像コントラストモデルにおいて、変数はr,gの2変数からなっており、二音和音では周波数fだけの1変数である。図4のようなV字型の分布にするためには、上の条件(c)のウェーバーの法則を用い、2つの変数fa,fbを次の(5)、(6)式のように定義した。ここで、faは周波数fと基準周波数f0との差を基準周波数f0で割り、fbは最大周波数f1と周波数fとの差を基準周波数f0で割った値とする。
Figure 2006155042
また上の条件(d)より、(1)、(2)式の画像コントラストモデルを参考にして、周波数コントラストモデルCf’を次の(7)式のように定義する。
Figure 2006155042
しかし、Plomp&Leveltの分布により、最不協和になるときCf=0にならないので、次の(8)式のようにパラメータαを導入する。これによって、Cf=0のときの周波数の値が変化する。
Figure 2006155042
(5)、(6)式をこの(8)式に代入すると、
Figure 2006155042
となる。
Cf=0のとき、fの値をf’とすると、
Figure 2006155042
である。ここで、Zwickerらの臨界帯域幅fwのモデル式を、
Figure 2006155042
と近似する。そうすれば、Plomp&Leveltの分布は、
Figure 2006155042
のときに0(=Cf)となるので、(11)式より、
Figure 2006155042
が得られる。そこで、(10)、(12)式よりf’を消去すれば、次の(13)式が得られる。
Figure 2006155042
(9)式にこの(13)式を代入すると、
Figure 2006155042
となる。図8は基準周波数がf0=440Hzのとき、図9は基準周波数がf0=880Hzのときの周波数fとCf値の分布を示している。よって、(1)、(2)、(14)式を用いて、画像と音の調和・不調和を自動推定することが可能になる。そしてさらに実験と解析を続けたところ、実際には、画像の彩度と音の協和度、また画像の彩度と音の不協和度との間に相関があることが見出せた。
図1に示した本実施の形態のシステムは、この(3)、(4)式と(12)式を演算し、この結果から、画像と音の調和度・不調和度を自動推定し、与えられた音にマッチングする画像を抽出し、また逆に与えられた画像にマッチングする音を抽出する。
<データベースへの登録>
まず、音データベース4、画像データベース5に対するデータ蓄積処理は、次による。記録メディアあるいはネットワークを通じて多種類の音データを順次、入出力処理部1を通じて入力し、音分析部2によって(14)式に基づいて協和度・不協和度を演算し、識別子、音データ、演算結果を音データベース4に順次登録しておく。同様に、記録メディアあるいはネットワークを通じて多種類の画像データを順次、入出力処理部1を通じて入力し、画像分析部3によって(3)、(4)式に基づいて彩度を演算し、識別子、画像データ、演算結果を画像データベース5に順次登録しておく。
<音をキーにした画像検索>
入力される音データをキーにして調和する画像を検索して抽出する処理を、図10のフローチャートを用いて説明する。入力される音データに対して、その協和度、不協和度を(14)式によって分析する(ステップS1,S2)。協和音とする基準は、0.6<Cf≦1.0、逆に不協和音とする基準は、0≦Cf<0.3、そして0.3≦Cf≦0.6はそのどちらでもないとする。
続いて、この音データの協和度・不協和度に応じて調和度の高い画像の彩度を決定するマッチング処理をし(ステップS3)、その彩度を持つ画像データを画像データベース5から抽出する(ステップS4)。
<画像をキーにした音検索>
入力される画像データをキーにして調和する音を検索して抽出する処理を、図11のフローチャートを用いて説明する。入力される画像データに対して、その彩度を(3)、(4)式によって分析する(ステップS11,S12)。
続いて、この画像データの彩度に応じて調和度の高い音の協和度、不協和度を決定するマッチング処理をし(ステップS13)、その協和度、不協和度を持つ音データを音データベース4から抽出する(ステップS14)。つまり、0.6<Cf≦1.0のCfを持つ音データを協和音として抽出し、逆に0≦Cf<0.3のCfを持つ音データを不協和音として抽出する。
以上の処理により、本発明のシステムでは、入力される音データに対してマッチングする画像データを画像データベースを検索して抽出してユーザに提案することができ、また逆に入力される画像データに対してマッチングする音データを音データベースを検索して抽出してユーザに提案することができる。
なお、上記実施の形態では画像データについては静止画像について説明したが、動画像データについても各フレームごとに、あるいは一定時間間隔のフレームごとの画像特徴量を算出することで、音データとの調和を考えることができる。
(第2の実施の形態)本発明の第2の実施の形態のマルチメディア情報検索システムについて説明する。第2の実施の形態のシステムの構成は図1に示した第1の実施の形態と同様であるが、画像データを分析して画像特徴量を算出するために用いる式が異なっている。
すなわち、本実施の形態では、画像分析部3にて入力される画像データのRGBについて画像全体で次の(15)式によって明度Cbrを算出する。そして画像識別子と画像データとこの画像特徴量としての明度データとを対応させ、多数の画像データについて画像データベース5に登録しておく。但し、(15)式において「256」はRGB各階調を0〜255の256段階で表示している場合に正規化するための数値であり、システムが採用する画像データのフォーマットによって異なるものである。
Figure 2006155042
また入力される画像データに対して調和度の高い音データを音データベース4から抽出する処理では、画像分析部3において入力された画像データに対して上述の演算によって画像特徴量を算出し、マッチング処理部6において得られた画像特徴量に対して調和度の高い音特徴量、すなわち、協和音であるか不協和音であるかを判断し、該当するCf値を持つ音データを音データベース4から抽出するのである。本実施の形態でも、明度Cbrの高い画像データに対しては協和音が調和し、明度Cbrの低い画像データに対しては不協和音が調和するものとして音データベース4から抽出する。
この第2の実施の形態のマルチメディア情報検索システムによれば、明るい画像に協和音が対応し、暗い画像に対して不協和音が対応し、相互に検索することができる。なお、上記実施の形態でも画像データについては静止画像について説明したが、動画像データについても各フレームごとに、あるいは一定時間間隔のフレームごとの画像特徴量を算出することで、音データとの調和を考えることができる。
<実験2の内容>
次に、画像明度と音の協和音・不協和音との間での調和・不調和の関係を検証するために、次のような心理実験2を実施した。つまり、明るい画像には協和音が調和すると感じるか、不協和音が調和すると感じるか、また逆に暗い画像には協和音が調和すると感じるか、不協和音が調和すると感じるかをテストした。
・画像サンプル:画像データ2000種類から26種類を選定。
・和音サンプル:協和音1種類、不協和音1種類の二音和音計2種類。
・実験サンプル:二音和音のみ2種類、自然画像26種類×二音和音2種類、計54サンプル。音サンプルは電子ピアノの生演奏。
・有効被験者:20代前半の大学生16名。
・スケール:調和度・不調和度を7段階(1に近いほど調和度が高い)で評価する。
この実験2データ結果として、明度Cbrと調和度・不調和度の関係を図12、図13に示す。その結果から、図12に示すように、協和音については、明度Cbrは調和度と正の相関(図12では負だが、調和度が小さいと調和となるため)があり、明度Cbrが大きいほど調和度が上がる傾向があることが確認できた。また、図13に示すように、不協和音については、明度Cbrと負の相関があり、明度Cbrが小さいほど調和度が上がる傾向があることが確認できた。よって、調和度を上げる方法として、協和音には明度Cbrが大きい画像、一方、不協和音には明度Cbrが小さい画像が有効であると結論できた。
なお、上記第1、第2の実施の形態では、音データから調和度の高い画像データを検索して抽出する機能とその逆の検索・抽出機能を併有するシステムを示したが、音データから調和度の高い画像データを検索・抽出するだけの機能、あるいは逆に画像データから調和度の高い音データを検索・抽出するだけの機能の片方向だけの機能を有するマルチメディア情報検索システムを構築することも可能である。
本発明によれば、入力される音に対してマッチングする画像をデータベースを検索して抽出してユーザに提案することができ、または入力される画像に対してマッチングする音をデータベースを検索して抽出してユーザに提案することができるので、ある音楽を演奏している場所でスクリーンにその音楽の推移していく各部の協和度、不協和度に応じて調和する彩度の画像を連続的に変化させながら表示していくことができ、また逆に、ある映像を投影している場所で音空間にその映像の彩度の変化に応じて調和する協和度、不協和度の音を連続的に変化させながら再生していくことができ、再生する音と映像のマッチングが図れる。
本発明の1つの実施の形態のマルチメディア情報検索システムのブロック図。 二色配色の色相間の調和、不調和の関係を示す図。 二色配色の彩度、明度間の調和、不調和の関係を示す別の図。 二音和音の周波数差と協和・不協和の関係を示すグラフ。 画像の色相とコントラストモデル値Crg,Cybとの関係分布を示すグラフ。 画像コントラストモデル値Crg,Cybと協和音との調和度の相関グラフ。 画像コントラストモデル値Crg,Cybと不協和音との調和度の相関グラフ。 基準周波数440Hzに対する他の音の周波数fと調和度Cfとの関係を示すグラフ。 基準周波数880Hzに対する他の音の周波数fと調和度Cfとの関係を示すグラフ。 上記実施の形態による音情報をキーにした画像情報検索処理のフローチャート。 上記実施の形態による画像情報をキーにした音情報検索処理のフローチャート。 画像明度Cbrと協和音との調和度の相関グラフ。 画像明度Cbrと不協和音との調和度の相関グラフ。
符号の説明
1 入出力処理部
2 音分析部
3 画像分析部
4 音データベース
5 画像データベース
6 マッチング処理部
7 制御部
10 表示装置
11 キーボード

Claims (16)

  1. 表示出力、印字出力、ネットワークに対する情報入出力、入力手段からの情報入力を処理する入出力処理部と、
    画像識別子と画像データと画像特徴量とを対応させた画像レコードを多種類登録している画像データベースと、
    前記入出力処理部に入力された音データを周波数分析し、音特徴量を生成する音分析部と、
    前記音分析部の生成した音特徴量にマッチングする画像特徴量を決定する音・画像マッチング処理部と、
    前記音・画像マッチング処理部の決定した画像特徴量をキーにして前記画像データベースを検索し、該当する画像特徴量を持つ画像データを抽出する画像データベース検索部とを備えたマルチメディア情報検索システム。
  2. 前記画像データベースは、画像識別子と、画像データと、当該画像データに対して、
    Figure 2006155042
    の画像特徴量算出式に基づいて算出した画像特徴量Crg,Cybとを対応させた画像レコードを多種類保持しており、
    前記音分析部は、入力された音データに対して、
    Figure 2006155042
    式に基づいて、音特徴量Cfを求め、
    前記音・画像マッチング処理部は、音特徴量Cfとこれにマッチングする画像特徴量Crg,Cybとの対応データを保持していて、前記音分析部の求めた音特徴量Cfに対して当該対応データを参照して当該音特徴量にマッチングする画像特徴量Crg,Cygを決定することを特徴とする請求項1に記載のマルチメディア情報検索システム。
  3. 前記画像データベースは、画像識別子と、画像データと、当該画像データに対して、
    Figure 2006155042
    の画像特徴量算出式に基づいて算出した画像特徴量としての彩度Cs1又はCs2とを対応させた画像レコードを多種類保持しており、
    前記音分析部は、入力された音データに対して、
    Figure 2006155042
    式に基づいて、音特徴量Cfを求め、
    前記音・画像マッチング処理部は、音特徴量Cfとこれにマッチングする画像彩度Cs1又はCs2との対応データを保持していて、前記音分析部の求めた音特徴量Cfに対して当該対応データを参照して当該音特徴量にマッチングする画像彩度Cs1又はCs2を決定することを特徴とする請求項1に記載のマルチメディア情報検索システム。
  4. 前記画像データベースは、画像識別子と、画像データと、当該画像データに対して、
    Figure 2006155042
    の画像特徴量算出式に基づいて算出した画像特徴量としての明度Cbrとを対応させた画像レコードを多種類保持しており、
    前記音分析部は、入力された音データに対して、
    Figure 2006155042
    式に基づいて、音特徴量Cfを求め、
    前記音・画像マッチング処理部は、音特徴量Cfとこれにマッチングする画像明度Cbrとの対応データを保持していて、前記音分析部の求めた音特徴量Cfに対して当該対応データを参照して当該音特徴量にマッチングする画像明度Cbrを決定することを特徴とする請求項1に記載のマルチメディア情報検索システム。
  5. 表示出力、印字出力、ネットワークに対する情報入出力、入力手段からの情報入力を処理する入出力処理部と、
    音識別子と音データと音特徴量とを対応させた音レコードを多種類登録している音データベースと、
    前記入出力処理部に入力された画像データに所定の画像特徴量算出式を適用して画像特徴量を生成する画像分析部と、
    前記画像分析部の生成した画像特徴量にマッチングする音特徴量を決定する画像・音マッチング処理部と、
    前記画像・音マッチング処理部の決定した音特徴量をキーにして前記音データベースを検索し、該当する音特徴量を持つ音データを抽出する音データベース検索部とを備えたマルチメディア情報検索システム。
  6. 前記音データベースは、音識別子と、音データと、当該音データに対して、
    Figure 2006155042
    の音特徴量算出式に基づいて算出した音特徴量Cfとを対応させた音レコードを多種類保持しており、
    前記画像分析部は、入力された画像データに対して、
    Figure 2006155042
    式に基づいて、画像特徴量Crg,Cybを求め、
    前記画像・音マッチング処理部は、画像特徴量Crg,Cybとこれにマッチングする音特徴量Cfとの対応データを保持していて、前記画像分析部の求めた画像特徴量Crg,Cybに対して当該対応データを参照して当該画像特徴量にマッチングする音特徴量Cfを決定することを特徴とする請求項5に記載のマルチメディア情報検索システム。
  7. 前記音データベースは、音識別子と、音データと、当該音データに対して、
    Figure 2006155042
    の音特徴量算出式に基づいて算出した音特徴量Cfとを対応させた音レコードを多種類保持しており、
    前記画像分析部は、入力された画像データに対して、
    Figure 2006155042
    式に基づいて、画像特徴量としての彩度Cs1又はCs2を求め、
    前記画像・音マッチング処理部は、画像特徴量Cs1又はCs2とこれにマッチングする音特徴量Cfとの対応データを保持していて、前記画像分析部の求めた画像彩度Cs1又はCs2に対して当該対応データを参照して当該画像彩度にマッチングする音特徴量Cfを決定することを特徴とする請求項5に記載のマルチメディア情報検索システム。
  8. 前記音データベースは、音識別子と、音データと、当該音データに対して、
    Figure 2006155042
    の音特徴量算出式に基づいて算出した音特徴量Cfとを対応させた音レコードを多種類保持しており、
    前記画像分析部は、入力された画像データに対して、
    Figure 2006155042
    式に基づいて、画像特徴量としての明度Cbrを求め、
    前記画像・音マッチング処理部は、画像明度Cbrとこれにマッチングする音特徴量Cfとの対応データを保持していて、前記画像分析部の求めた画像明度Cbrに対して当該対応データを参照して当該画像明度にマッチングする音特徴量Cfを決定することを特徴とする請求項5に記載のマルチメディア情報検索システム。
  9. 入力された音データを周波数分析し、音特徴量を生成する音分析ステップと、
    前記音分析ステップで生成した音特徴量にマッチングする画像特徴量を決定する音・画像マッチング処理ステップと、
    前記音・画像マッチング処理ステップで決定した画像特徴量をキーにして、画像識別子と画像データと画像特徴量とを対応させた画像レコードを多数保持している画像データベースを検索し、該当する画像特徴量を持つ画像データを抽出する画像データベース検索ステップとをコンピュータに実行させるマルチメディア情報検索プログラム。
  10. 前記画像データベースは、画像識別子と、画像データと、当該画像データに対して、
    Figure 2006155042
    の画像特徴量算出式に基づいて算出した画像特徴量Crg,Cybとを対応させた画像レコードを多種類保持しており、
    前記音分析ステップでは、入力された音データに対して、
    Figure 2006155042
    式に基づいて、音特徴量Cfを求め、
    前記音・画像マッチング処理ステップでは、音特徴量Cfとこれにマッチングする画像特徴量Crg,Cybとの対応データを保持していて、前記音分析ステップで求めた音特徴量Cfに対して当該対応データを参照して当該音特徴量にマッチングする画像特徴量Crg,Cygを決定することを特徴とする請求項9に記載のマルチメディア情報検索プログラム。
  11. 前記画像データベースは、画像識別子と、画像データと、当該画像データに対して、
    Figure 2006155042
    の画像特徴量算出式に基づいて算出した画像特徴量としての彩度Cs1又はCs2とを対応させた画像レコードを多種類保持しており、
    前記音分析ステップでは、入力された音データに対して、
    Figure 2006155042
    式に基づいて、音特徴量Cfを求め、
    前記音・画像マッチング処理ステップでは、音特徴量Cfとこれにマッチングする画像彩度Cs1又はCs2との対応データを保持していて、前記音分析ステップで求めた音特徴量Cfに対して当該対応データを参照して当該音特徴量にマッチングする画像彩度Cs1又はCs2を決定することを特徴とする請求項9に記載のマルチメディア情報検索プログラム。
  12. 前記画像データベースは、画像識別子と、画像データと、当該画像データに対して、
    Figure 2006155042
    の画像特徴量算出式に基づいて算出した画像特徴量としての明度Cbrとを対応させた画像レコードを多種類保持しており、
    前記音分析ステップでは、入力された音データに対して、
    Figure 2006155042
    式に基づいて、音特徴量Cfを求め、
    前記音・画像マッチング処理ステップでは、音特徴量Cfとこれにマッチングする画像明度Cbrとの対応データを保持していて、前記音分析ステップで求めた音特徴量Cfに対して当該対応データを参照して当該音特徴量にマッチングする画像明度Cbrを決定することを特徴とする請求項9に記載のマルチメディア情報検索プログラム。
  13. 入力された画像データに所定の画像特徴量算出式を適用して画像特徴量を生成する画像分析ステップと、
    前記画像分析ステップで生成した画像特徴量にマッチングする音特徴量を決定する画像・音マッチング処理ステップと、
    前記画像・音マッチング処理ステップで決定した音特徴量をキーにして、音識別子と音データと音特徴量とを対応させた音レコードを多種類登録している音データベースを検索し、該当する音特徴量を持つ音データを抽出する音データベース検索ステップとをコンピュータに実行させるマルチメディア情報検索プログラム。
  14. 前記音データベースは、音識別子と、音データと、当該音データに対して、
    Figure 2006155042
    の音特徴量算出式に基づいて算出した音特徴量Cfとを対応させた音レコードを多種類保持しており、
    前記画像分析ステップでは、入力された画像データに対して、
    Figure 2006155042
    式に基づいて、画像特徴量Crg,Cybを求め、
    前記画像・音マッチング処理ステップでは、画像特徴量Crg,Cybとこれにマッチングする音特徴量Cfとの対応データを保持していて、前記画像分析ステップで求めた画像特徴量Crg,Cybに対して当該対応データを参照して当該画像特徴量にマッチングする音特徴量Cfを決定することを特徴とする請求項13に記載のマルチメディア情報検索プログラム。
  15. 前記音データベースは、音識別子と、音データと、当該音データに対して、
    Figure 2006155042
    の音特徴量算出式に基づいて算出した音特徴量Cfとを対応させた音レコードを多種類保持しており、
    前記画像分析ステップでは、入力された画像データに対して、
    Figure 2006155042
    式に基づいて、画像特徴量としての彩度Cs1又はCs2を求め、
    前記画像・音マッチング処理ステップでは、画像特徴量Cs1又はCs2とこれにマッチングする音特徴量Cfとの対応データを保持していて、前記画像分析ステップで求めた画像彩度Cs1又はCs2に対して当該対応データを参照して当該画像彩度にマッチングする音特徴量Cfを決定することを特徴とする請求項13に記載のマルチメディア情報検索プログラム。
  16. 前記音データベースは、音識別子と、音データと、当該音データに対して、
    Figure 2006155042
    の音特徴量算出式に基づいて算出した音特徴量Cfとを対応させた音レコードを多種類保持しており、
    前記画像分析ステップでは、入力された画像データに対して、
    Figure 2006155042
    式に基づいて、画像特徴量としての明度Cbrを求め、
    前記画像・音マッチング処理ステップでは、画像明度Cbrとこれにマッチングする音特徴量Cfとの対応データを保持していて、前記画像分析ステップで求めた画像明度Cbrに対して当該対応データを参照して当該画像明度にマッチングする音特徴量Cfを決定することを特徴とする請求項13に記載のマルチメディア情報検索プログラム。

JP2004342304A 2004-11-26 2004-11-26 マルチメディア情報検索システム及びプログラム Expired - Fee Related JP4621909B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004342304A JP4621909B2 (ja) 2004-11-26 2004-11-26 マルチメディア情報検索システム及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004342304A JP4621909B2 (ja) 2004-11-26 2004-11-26 マルチメディア情報検索システム及びプログラム

Publications (2)

Publication Number Publication Date
JP2006155042A true JP2006155042A (ja) 2006-06-15
JP4621909B2 JP4621909B2 (ja) 2011-02-02

Family

ID=36633298

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004342304A Expired - Fee Related JP4621909B2 (ja) 2004-11-26 2004-11-26 マルチメディア情報検索システム及びプログラム

Country Status (1)

Country Link
JP (1) JP4621909B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009266005A (ja) * 2008-04-25 2009-11-12 Clarion Co Ltd 画像検索方法、画像検索プログラム、楽曲再生装置、および楽曲検索用物品
JP2012015809A (ja) * 2010-06-30 2012-01-19 Kddi Corp 楽曲選択装置、楽曲選択方法および楽曲選択プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11308513A (ja) * 1998-04-17 1999-11-05 Casio Comput Co Ltd 画像再生装置及び画像再生方法
JP2001184357A (ja) * 1999-12-24 2001-07-06 Victor Co Of Japan Ltd マルチメディア素材検索装置
WO2004046965A2 (en) * 2002-11-15 2004-06-03 Koninklijke Philips Electronics N.V. Content retrieval based on semantic association

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11308513A (ja) * 1998-04-17 1999-11-05 Casio Comput Co Ltd 画像再生装置及び画像再生方法
JP2001184357A (ja) * 1999-12-24 2001-07-06 Victor Co Of Japan Ltd マルチメディア素材検索装置
WO2004046965A2 (en) * 2002-11-15 2004-06-03 Koninklijke Philips Electronics N.V. Content retrieval based on semantic association

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009266005A (ja) * 2008-04-25 2009-11-12 Clarion Co Ltd 画像検索方法、画像検索プログラム、楽曲再生装置、および楽曲検索用物品
JP2012015809A (ja) * 2010-06-30 2012-01-19 Kddi Corp 楽曲選択装置、楽曲選択方法および楽曲選択プログラム

Also Published As

Publication number Publication date
JP4621909B2 (ja) 2011-02-02

Similar Documents

Publication Publication Date Title
Humphrey et al. OpenMIC-2018: An Open Data-set for Multiple Instrument Recognition.
JP4340907B2 (ja) オーディオビジュアルサマリ作成方法および装置
CN109862393B (zh) 视频文件的配乐方法、系统、设备及存储介质
CN103793446A (zh) 音乐视频的生成方法和系统
US7199300B2 (en) Information search apparatus, information search method, and information recording medium on which information search program is computer-readably recorded
US20240046644A1 (en) Video classification method, device and system
CN110213670A (zh) 视频处理方法、装置、电子设备及存储介质
JP4548495B2 (ja) 情報処理置および方法、並びにプログラム
JP2009157442A (ja) データ検索装置および方法
Gillick et al. Estimating Unobserved Audio Features for Target-Based Orchestration.
CN110781835A (zh) 一种数据处理方法、装置、电子设备和存储介质
CN111667805A (zh) 一种伴奏音乐的提取方法、装置、设备和介质
JP4621909B2 (ja) マルチメディア情報検索システム及びプログラム
Bocko et al. Automatic music production system employing probabilistic expert systems
US20200151837A1 (en) Method for performing legal clearance review of digital content
JP2007079736A (ja) データ編集装置、データ編集方法およびデータ編集プログラム
Brunner et al. Neural symbolic music genre transfer insights
Fernández Martínez et al. Combining audio-visual features for viewers' perception classification of Youtube car commercials
WO2020055173A1 (en) Method and system for audio content-based recommendations
Gomez-Marin et al. Drum rhythm spaces: From polyphonic similarity to generative maps
Grenier et al. Unsupervised classification techniques for multipitch estimation
JP4459269B2 (ja) 曲検索装置、曲検索方法及び曲検索用プログラム並びに情報記録媒体
Lukasik Towards timbre-driven semantic retrieval of violins
Kosta Computational modelling and quantitative analysis of dynamics in performed music
WO2017131272A1 (ko) 음악 감정 분석 시스템 및 이를 이용한 감정 분석 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100526

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100601

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100715

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100928

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101007

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131112

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131112

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees