JP4202964B2 - 映像データへの楽曲データ付加装置 - Google Patents

映像データへの楽曲データ付加装置 Download PDF

Info

Publication number
JP4202964B2
JP4202964B2 JP2004137517A JP2004137517A JP4202964B2 JP 4202964 B2 JP4202964 B2 JP 4202964B2 JP 2004137517 A JP2004137517 A JP 2004137517A JP 2004137517 A JP2004137517 A JP 2004137517A JP 4202964 B2 JP4202964 B2 JP 4202964B2
Authority
JP
Japan
Prior art keywords
video
parameter
sensitivity parameter
data
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004137517A
Other languages
English (en)
Other versions
JP2005321460A (ja
Inventor
敏雄 茂出木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2004137517A priority Critical patent/JP4202964B2/ja
Publication of JP2005321460A publication Critical patent/JP2005321460A/ja
Application granted granted Critical
Publication of JP4202964B2 publication Critical patent/JP4202964B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Of Color Television Signals (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

本発明は、放送、ストリーミング伝送、DVD映像パッケージなどの民生・業務用途における映像コンテンツの制作分野において好適な映像・音楽データの加工技術に関する。
映像(動画像)を主体とした番組を制作する際には、セリフ、ナレーションといった音声とともに、音響効果としてBGMや効果音が挿入されることがよく行われている。ドラマやドキュメンタリーなどではストーリーに合わせて映像を盛り上げるために、特に楽曲の選定は重要であり、基本的にサウンドデザイナーの手作業に頼らざるを得ず、ストーリーに合わせて新規に作曲されることもある。しかし、環境映像やCGアニメーションなどのバックに流す音楽は、ちょうどカラオケのバックに流す環境映像のようにストーリー性は要求されないため、それほど慎重に楽曲を選定する必要はなく、できるだけ著作権料や編集コストを安価に抑えることが望まれる。近年、映像にBGMを付加するMA(Multi Audio, Multitrack Audio recording)作業を効率化する技術についても、いくつか提案されてきている(例えば、特許文献1〜2参照)。
特開2001−312497号公報 特開2004−29324号公報
上記特許文献1に記載の発明は、文書の内容分類に基づいて最適な楽曲を選定するものであるが、対象が分類分けを明確に行える文書に限定され、分類と楽曲選択のロジック部分で設計者の主観が入るという問題がある。また、上記特許文献2に記載の発明は、映像・音声コンテンツに連動させてBGMを付加するものであるが、BGMの選曲がユーザの嗜好を反映させるというものであり、映像コンテンツに基づいたものとなっていない。
上記のような点に鑑み、本発明は、映像を解析し、その映像に最適な音楽を選択して、映像に付加することが可能な映像データへの楽曲データ付加装置を提供することを課題とする。
上記課題を解決するため、本発明では、映像データへの楽曲データ付加装置を、楽曲をデジタルデータ化した楽曲データを複数記憶した楽曲データ記憶手段と、前記楽曲データに対して音響解析を実施して算出された音量、音高、音符数、和声、倍音、テンポの6項目の各パラメータを音響感性パラメータとして、前記楽曲データを特定する情報と対応づけて記録した音響感性パラメータ記憶手段と、映像データに対して映像解析を実施してコントラスト、色相、彩度、明度、色数、フレーム変動の6項目の各パラメータを映像感性パラメータとして算出する映像解析手段と、前記映像感性パラメータのコントラストを前記音響感性パラメータの音量に、前記映像感性パラメータの色相を前記音響感性パラメータの音高に、前記映像感性パラメータの彩度を前記音響感性パラメータの音符数に、前記映像感性パラメータの明度を前記音響感性パラメータの和声に、前記映像感性パラメータの色数を前記音響感性パラメータの倍音に、前記映像感性パラメータのフレーム変動を前記音響感性パラメータのテンポに、各映像感性パラメータ、各音響感性パラメータをその値が上位から下位まで所定数の区分に分けた場合に、対応する区分となるように変換するパラメータ変換手段と、前記映像感性パラメータから変換された前記音響感性パラメータを基に、前記音響感性パラメータ記憶手段を検索し、該当する楽曲特定情報を1以上抽出して、利用者に提示する検索実行手段と、前記検索実行手段により提示された楽曲特定情報の中から利用者により選択された楽曲特定情報に対応する楽曲データを前記楽曲データ記憶手段から抽出し、抽出された楽曲データを前記映像データに対応付けて付加する楽曲データ付加手段を有する構成としたことを特徴とする。
本発明によれば、楽曲データの内容を解析して音量、音高、音符数、和声、倍音、テンポの6項目の各パラメータを音響感性パラメータとして算出しておき、対象とする映像データの解析を行ってコントラスト、色相、彩度、明度、色数、フレーム変動の6項目の各パラメータを映像感性パラメータとして算出し、各映像感性パラメータ、各音響感性パラメータをその値が上位から下位まで所定数の区分に分けた場合に、対応する区分となるように変換し、対応する楽曲データを抽出し、抽出した楽曲データを映像データに付加するようにしたので、映像データの内容に最適な楽曲データを容易に選択して付加することが可能となる。
以下、本発明の実施形態について図面を参照して詳細に説明する。
(1.楽曲データの準備)
まず、楽曲が記録された音響信号をデジタル化した楽曲データについて説明する。時系列信号として与えられたアナログ音響信号を従来の一般的なPCMの手法を用いてデジタル化する。具体的には、所定のサンプリング周波数でアナログ音響信号をサンプリングし、振幅を所定の量子化ビット数を用いてデジタルデータに変換する処理を行う。このようにしてデジタル化した音響信号は、量子化ビット数に応じた値をもつサンプルの時系列の集合となる。例えば、サンプリング周波数を48kHz、量子化ビット数を16ビットとした場合、1秒間のアナログ音響信号は、−32768〜32767の値をとるサンプル48000個からなるデジタル音響信号に変換されることになる。このようにして得られたデジタル音響信号の各サンプルi(i=0〜S−1)の値をX(i)とする。例えば、3分間のステレオ音楽の場合、サンプリング周波数を48kHzとすると、サンプル数S=17280000(=48000×2×180)となる。なお、ステレオ音楽の場合、元の左右の信号から得られたサンプルは、交互に記録されることになる。
(2.音響感性パラメータの作成)
上記のようなデジタル音響信号すなわち楽曲データに対して、検索用の各音響感性パラメータを算出する。具体的には、専用のソフトウェアが搭載されたコンピュータに、対象とする楽曲データを読み込ませ、読み込んだ楽曲データに対して、以下の各数式に従った処理を行うことにより算出される。音楽のダイナミックレンジを表す音量パラメータPvは以下の〔数式1〕により算出される。
〔数式1〕
Pv=20・log10(Σi=0,S-1|X(i)|/S)
上記〔数式1〕においては、楽曲データを構成するS個のサンプルの絶対値の平均の対数をとり、それに20を乗じることにより音量パラメータPvを算出している。すなわち、この音量パラメータPvが大きいほど全体として音量が大きい楽曲であるということになる。
また、音楽の左右空間的な広がりを示すステレオパラメータPsは以下の〔数式2〕により算出される。
〔数式2〕
Ps=20・log10(Σi=0,S/2-1|R(i)|・2/S)
但し、|x(2i)|≧|x(2i+1)|のときR(i)=x(2i)/x(2i+1)
|x(2i)|<|x(2i+1)|のときR(i)=x(2i+1)/x(2i)
上記〔数式2〕においては、連続する偶数番目と奇数番目のサンプル値の絶対値の大きさに応じてR(i)の算出を異ならせており、|R(i)|の値が必ず1以上の値をとるようにしている。なお、連続する偶数番目のサンプルと奇数番目のサンプルは同時刻における左右のチャンネルのサンプルを表している。すなわち、このステレオパラメータPsが大きいほど全体として広がりのある楽曲であるということになる。
音高パラメータPp、音符数パラメータPn、和声パラメータPh、倍音パラメータPoの算出のためには、元の楽曲データの周波数成分の特徴が必要となる。このため、上記楽曲データに対して、所定のサンプル数からなる解析フレーム単位で周波数解析を行い、スペクトルZ(n)を算出する。本実施形態では、nをMIDI符号におけるノートナンバーに対応させている。MIDI符号におけるノートナンバーは、0〜127までの128通りの値をとり、それぞれピアノの鍵盤の1つのキーを示すことになる。すなわち、Z(n)は各音階における音の強度を表すことになる。
具体的には、あらかじめ周波数の異なる128個の周期関数を調和信号として用意しておき、あらかじめ用意された128個の周期関数と、単位区間内の区間信号との相関を求める演算を行うことになる。本実施形態では、周期関数として三角関数を用意している。これらの三角関数は、同一周波数をもった正弦関数sin(2πf(n)i/F)と余弦関数cos(2πf(n)i/F)との対から構成されており、128通りの標準周波数f(0)〜f(127)のそれぞれについて、正弦関数および余弦関数の対が定義されていることになる。ここでは、同一の周波数をもった正弦関数および余弦関数からなる一対の関数を、当該周波数についての周期関数として定義することにする。すなわち、ある特定の周波数についての周期関数は、一対の正弦関数および余弦関数によって構成されることになる。このように、一対の正弦関数と余弦関数とにより周期関数を定義するのは、信号に対する周期関数の相関値を求める際に、相関値が位相の影響を受ける事を考慮するためである。なお、各三角関数内の変数Fおよびiは、音響信号Xについてのサンプリング周波数F(例えば、44.1kHz)およびサンプル番号iに相当する変数である。例えば、周波数f(0)についての正弦波は、sin(2πf(0)i/F)で示され、任意のサンプル番号iを与えると、区間信号を構成する第i番目のサンプルと同一時間位置における周期関数の振幅値が得られる。ここでは、128通りの標準周波数f(0)〜f(127)を以下に示す〔数式3〕で定義する。
〔数式3〕
f(n)=440×2γ(n)
γ(n)=(n−69)/12
ただし、n=0,1,2,・・・,127
このような式によって標準周波数を定義しておくと、MIDIデータに対応した音高が得られることになる。なぜなら、このような定義によって設定される128通りの標準周波数f(0)〜f(127)は、等比級数をなす周波数値をとることになり、MIDIデータで利用されるノートナンバーに対応した周波数になるからである。したがって、128通りの標準周波数f(0)〜f(127)は、対数尺度で示した周波数軸上に等間隔(MIDIにおける半音単位)に設定した周波数ということになる。
続いて、任意の区間の区間信号に対する各周期関数の相関の求め方について、具体的な説明を行う。ここでは、区間長Tをもった解析フレームkについて、サンプリング周波数Fでサンプリングが行なわれており、全部でT組(ステレオの場合2T個)のサンプル値が得られているものとする。この場合、任意のサンプル番号iについては、X(i)なる振幅値がデジタルデータとして与えられていることになる。
このような音響信号X(i)に対して、上記の周期関数を利用して、以下の〔数式4〕により周波数解析が行われることになる。
〔数式4〕
Zk(n)=[[Σi=kT,kT+T-1 (X(2i)+X(2i+1)) /(2・cos (2πf(n)i/F)) ]2+[Σi=kT,kT+T-1 (X(2i)+X(2i+1)) /(2・sin (2πf(n)i/F)) ]2 ]1/4
上記〔数式4〕において、X(2i)、X(2i+1)は、デジタル音響信号Xにおけるサンプル番号iの振幅値であり、sin(2πf(n)i/F)、cos(2πf(n)i/F)は、時間軸上での同位置における正弦関数、余弦関数の振幅値である。
上記のような周波数解析を楽曲データの全区間に渡って行う。すなわち、各解析フレームを2Tサンプルとした場合、K(=S/(2T))個の解析フレームについて行うことになる。この結果、k(k=0,…,K−1)番目の解析フレームについて各周波数(ここではノートナンバーn)に対応した強度値Zk(n)が得られることになる。
周波数解析の結果であるZk(n)を利用して、音楽の平均的な音域を示す音高パラメータPpは以下の〔数式5〕により算出される。
〔数式5〕
Pp=[Σk=0,K-1{Σn=0,N-1n・Zk(n)/Σn=0,N-1Zk(n) }]/K
また、合奏されている楽器数に比例して音色の豊かさを示す音符数パラメータPnは以下の〔数式6〕により算出される。
〔数式6〕
Pn={Σk=0,K-1C(k)}/K
ただし、C(k)はフレームkにおいて、Zk(n)>閾値となるnの総数
また、音楽の調性・明るさ、短調系・長調系を示す和声パラメータPhは以下の〔数式7〕により算出される。
〔数式7〕
Ph=[Σk=0,K-1{Zk(m+4) −Zk(m+3)+Zk(m+16)−Zk(m+15)+Zk(m−8)−Zk(m−9)}/6]/K
上記〔数式7〕中、mはフレームkにおいてn=0〜N−1の中でZk(n)が最大となる場合のnを意味する。すなわち、mは強度が最大となる音階を示している。また、上記〔数式7〕中、Zk(m+4)はmの長三度の音程(+4半音)、Zk(m+3) はmの短三度の音程(+3半音)を示し、Zk(m+16)はmの1オクターブ上の音程の長三度の音程(+12+4半音)、Zk(m+15) はmの1オクターブ上の音程の短三度の音程(+12+3半音)を示し、Zk(m−8) はmの1オクターブ下の音程の長三度の音程(−12+4半音)を示し、Zk(m−9) はmの1オクターブ上の音程の短三度の音程(−12+3半音)を示している。つまり、上記〔数式7〕は、最大強度となるmの上下オクターブ音を含めて長三度の音程が短三度の音程よりどの程度大きいのかを算出することになる。
また、倍音の豊かさ、音色の豊かさを示す倍音パラメータPoは以下の〔数式8〕により算出される。
〔数式8〕
Po=[Σk=0,K-1{Σn=0,N-1(Zk(n)+Zk(n+12) +Zk(n+19) +Zk(n+24)}/4]/K
上記〔数式8〕において、n+12 、n+19、n+24は、それぞれnの2倍、3倍、4倍の周波数となる音階を示している。
テンポパラメータPt、リズムパラメータPrの算出のためには、元のデジタル音響信号を間引いたものについての周波数成分の特徴が必要となる。そのため、デジタル音響信号を構成するサンプルを1/60に間引く処理を行う。具体的には、{X(i)+X(i+2)+,…,+X(i+118)}/60からなる60サンプルごとの平均値を新たなサンプルの値Y1(j)とし、{X(i+1)+X(i+3)+,…,+X(i+119)}/60からなる60サンプルごとの平均値を新たなサンプルの値Y2(j)とする処理を行う。この場合、左右のチャンネル別に行う必要があるので、偶数番目の60サンプルを1サンプルに、奇数番目の60サンプルを1サンプルにそれぞれ間引くことになる。この結果、Sサンプルあったデジタル音響信号は、S/60サンプルとなる。続いて、間引き後の楽曲データY1(j)、Y2(j)に対して上記と同様に周波数解析を行う。具体的には、間引き処理と周波数解析は、以下の〔数式9〕により算出されることになる。なお、〔数式9〕におけるY(j)としては、Y1(j)、Y2(j)の2つについて算出を行う。
〔数式9〕
Zk(n)=[[Σj=kT,kT+T-1 Y(j) ・cos (2πf(n)j/F) ]2 +[Σj=kT,kT+T-1Y(j) ・sin (2πf(n)j/F) ]2 ]1/4
この場合も解析フレームは間引き後の2Tサンプルとしているので、全体の解析フレーム数が減り、L(=K/60)個となる。このため、上記楽曲データに対して、所定のサンプル数からなる解析フレームk(k=0〜L−1)単位で周波数解析を行い、スペクトルZk(n)が算出される。テンポパラメータPt、リズムパラメータPrの算出には、各解析フレームkにおいて値が大きい最上位2つのZk(n)のノートナンバーM1(k)、M2(k)(M1(k)<M2(k))を用いる。
周波数解析の結果であるM1(k)、M2(k)を利用して、平均的な基本ビート・テンポを示すテンポパラメータPtは以下の〔数式10〕により算出される。
〔数式10〕
Pt={Σk=0,L-1440・2(M2(k)-64)/12}/L
ただし、単位はBPM(1分あたりの拍数)
また、平均的なリズム・拍子を示すリズムパラメータPrは以下の〔数式11〕により算出される。
〔数式11〕
Pr={Σk=0,L-1100・2(M1(k)-M2(k))/12}/L
上記〔数式1〕〜〔数式11〕を利用して算出したパラメータは、楽曲データとは独立した音響感性パラメータ記憶手段20に記録される。音響感性パラメータ記憶手段20には、前記各音響感性パラメータを記憶するが、さらに、各音響感性パラメータについて、音響感性パラメータ記憶手段20に記録されている全同一パラメータ項目における順位を算出し、記憶する。これは、登録された楽曲の中から相対的な感性特徴に基づいて検索するために用意される。
(3.楽曲データ付加装置)
次に、楽曲データ付加装置について説明する。図1は第1の実施形態における楽曲データ付加装置の構成図である。図1において、10は楽曲データ記憶手段、20は音響感性パラメータ記憶手段、30は映像解析手段、40はパラメータ変換手段、50は検索実行手段、60は楽曲データ付加手段である。図1に示す楽曲データ付加装置は、ハードウェアとしてはコンピュータ本体およびその周辺機器で構成され、これらのハードウェアに各手段として機能するための専用のソフトウェアを搭載することにより実現される。
楽曲データ記憶手段10は、選択対象とする楽曲データを記憶するためのものである。楽曲データとしては、アナログ音響信号をPCM等の手法によりデジタル化した非圧縮のデジタル音響信号の形式で記録しても良いし、デジタル音響信号をさらにロスレス型圧縮で符号化した符号化データの形式で記録しても良い。いずれにしても楽曲データは、楽曲データを特定するための楽曲IDをもたせて記録される。
音響感性パラメータ記憶手段20は、上述のようにして、各楽曲データに対して算出された8つの音響感性パラメータを記憶するためのものである。具体的には、各楽曲データの楽曲IDと対応付けて記録される。本実施形態では、上記音響感性パラメータのうち、ステレオパラメータPs、リズムパラメータPrを除いた6つの音響感性パラメータを使用することになる。したがって、音量パラメータPv、音高パラメータPp、音符数パラメータPn、和声パラメータPh、倍音パラメータPo、テンポパラメータPtの6つの各音響感性パラメータと楽曲IDとを対応付けて記録しておいても良い。また、上述のように、各音響感性パラメータの全楽曲中の順位も記録されている。図2に音響感性パラメータ記憶手段に記憶された情報の一例を示す。3000曲の楽曲データが記録されている場合、「0001」〜「3000」の各楽曲IDに対応して各楽曲データについて算出した感性パラメータが記録される。図2において、各パラメータ値の記録欄には、「/」の記号を境にしてパラメータ値と順位が記録されている。
映像解析手段30は、処理対象とする映像ファイルの内容を解析する機能を有している。具体的には、複数の映像フレームで構成される映像データについて、その内容を解析し、色数、フレーム変動、色相、彩度、明度、コントラストの6つの映像感性パラメータを算出する。ここで、各映像感性パラメータの算出手法について説明しておく。本実施形態では、処理対象とする映像データが複数の映像フレーム(1秒30フレーム程度)で記録され、各映像フレームを構成する各画素がR,G,Bそれぞれ8ビットで記録されている場合を例にとって説明する。
色数パラメータの算出については、まず、各フレームに何通りの画素値が使用されているかを算出する。本実施形態では、R、G、Bの各原色が8ビットで表現されているため、1画素について約1677万通りの組合せが有りうるが、あまり細かくし過ぎても意味がないので、各画素各原色の値を16で除算して、0〜15の16段階の値に変換し、この16段階のいずれに属するかにより、何通りの画素値を使用しているかの判断とする。すなわち、f番目のフレームfの各画素(x,y)の各原色R、G、Bの値を、R(f,x,y)、G(f,x,y)、B(f,x,y)とした場合、R(f,x,y)、G(f,x,y)、B(f,x,y)の値を16で割って、0〜15の16段階に変換し、フレームf内全画素のRGB組合せの頻度を算出し、0以外の頻度になるRGB組合せ数をカウントする。最小は1で最大は4096となる。各フレームについての色数を算出したら、全フレームについて、その色数の平均を算出する。色数平均値が1〜99の場合、色数パラメータを「下位」とし、色数平均値が100〜500の場合、色数パラメータを「中位」とし、色数平均値が501〜4096の場合、色数パラメータを「上位」とする。
フレーム変動パラメータの算出については、まず、f番目のフレームfの各画素(x,y)の各原色R、G、Bの値を、R(f,x,y)、G(f,x,y)、B(f,x,y)と、f−1番目のフレームf−1の各画素(x,y)の各原色R、G、Bの値を、R(f−1,x,y)、G(f−1,x,y)、B(f−1,x,y)を利用して、以下の〔数式12〕により、フレーム間画素差分D(x,y)を算出する。
〔数式12〕
D(x,y)=〔{R(f,x,y)−R(f−1,x,y)}2+{G(f,x,y)−G(f−1,x,y)}2+{B(f,x,y)−B(f−1,x,y)}21/2
上記〔数式12〕においては、結局、隣接するフレーム間の各画素の各色同士の差分の二乗平均を算出していることになる。上記〔数式12〕を用いてフレームfにおける全画素(x,y)についてD(x,y)を算出した後、その平均値を算出し、さらに、先頭フレームを除く全フレームについての平均値を算出する。このフレーム間差分値の平均値が0〜49の場合はフレーム変動パラメータを「下位」とし、フレーム間差分値の平均値が50〜150の場合はフレーム変動パラメータを「中位」とし、フレーム間差分値の平均値が151〜441の場合はフレーム変動パラメータを「上位」とする。
色相、彩度、明度、コントラストの各パラメータを算出するためには、各フレームの画素のRGBの値をHSVに変換する必要がある。このような、R,G,BをH,S,Vに変換する手法は周知の手法を用いることができるが、具体的に説明しておく。0≦R≦255、0≦G≦255、0≦B≦255、0≦H≦360、0≦S≦255、0≦V≦255とし、R,G,Bの最大値をMax、R,G,Bの最小値をMinとすると、H,S,Vは、以下の〔数式13〕により算出される。
〔数式13〕
V=Max
S=255×(Max−Min)/Max
r=(Max−R)/(Max−Min)
g=(Max−G)/(Max−Min)
b=(Max−B)/(Max−Min)
Rが最大のとき、H=60×(b−g)
Gが最大のとき、H=60×(r−b)+120
Bが最大のとき、H=60×(g−r)+240
(H<0の場合、H←H+360で正値にする)
なお、上記〔数式13〕において、Maxが0の場合はS=0とし、Max−Minが0の場合はr=0とする。全フレームの全画素についてHSVの値が算出できたら、全フレーム全画素のH、S、Vの平均値を算出する。Hの平均値が0〜119の場合は色相パラメータを「下位」とし、Hの平均値が120〜239の場合は色相パラメータを「中位」とし、Hの平均値が240〜359の場合は色相パラメータを「上位」とする。また、Sの平均値が0〜49の場合は彩度パラメータを「下位」とし、Sの平均値が50〜150の場合は彩度パラメータを「中位」とし、Sの平均値が151〜255の場合は彩度パラメータを「上位」とする。また、Vの平均値が0〜49の場合は明度パラメータを「下位」とし、Vの平均値が50〜150の場合は明度パラメータを「中位」とし、Vの平均値が151〜255の場合は明度パラメータを「上位」とする。
続いて、各フレーム内の全画素についてVの最大値と最小値を求め、その差分Cを算出する。続いて、この差分Cの全フレームについての平均値を算出する。Cの平均値が0〜49の場合はコントラストパラメータを「下位」とし、Cの平均値が50〜150の場合はコントラストパラメータを「中位」とし、Cの平均値が151〜255の場合はコントラストパラメータを「上位」とする。
パラメータ変換手段40は、映像解析手段により算出された映像感性パラメータを音響感性パラメータに変換する機能を有している。映像感性パラメータを音響感性パラメータに変換する場合の対応関係を図3に示す。図3に示すように、パラメータ変換手段40は、コントラストパラメータを音量パラメータに、色相パラメータを音高パラメータに、彩度パラメータを音符数パラメータに、明度パラメータを和声パラメータに、色数パラメータを倍音パラメータに、フレーム変動パラメータをテンポパラメータに、それぞれ変換する。変換する際に、各映像感性パラメータの値は、各音響感性パラメータのパラメータ条件として設定される。例えば、コントラストパラメータの値が「上位」を示すものであれば、音量パラメータのパラメータ条件は「上位」として設定される。同様にして、各音響感性パラメータの値が、各音響感性パラメータのパラメータ条件として設定されることになる。
検索実行手段50は、パラメータ変換手段40により得られた音響感性パラメータのパラメータ条件を用いて検索を実行する機能を有している。検索の実行は、例えば、3000曲の楽曲の中から検索する場合、音量パラメータが上位、すなわち、音量パラメータの順位が1位〜1000位のものを検索する。同様に、他の音量パラメータについても検索し、各音量パラメータの全ての条件を満たす楽曲IDが抽出される。
抽出された結果はディスプレイ装置の画面に表示される。具体的には、候補数の欄に抽出された楽曲の数および各楽曲の楽曲IDが表示される。利用者がいずれかを選択してOKボタンをクリックすると、1つの楽曲が決定され、映像データに付加されることになる。
具体的には、決定された楽曲IDの楽曲を付加すべき旨の情報が楽曲付加手段60に伝達され、楽曲付加手段は指定された楽曲IDに対応する楽曲データを楽曲データ記憶手段10から抽出する。そして、映像データのフレームレートに合わせて、所定の再生時間に対応した長さのデータを楽曲データブロックとして抽出し、各映像フレームに対応付けて記録する。全映像フレームについて、楽曲データブロックを対応付けて記録することにより、楽曲データが映像データに付加されることになる。
ここで、楽曲データ付加前と付加後の映像データの構造を図4に示す。図4(a)は、楽曲データ付加前の映像データの構造、すなわち、映像データ記憶手段70に記憶された映像データの構造を示している。また、図4(b)は、楽曲データ付加後の映像データの構造、すなわち、楽曲データ付加手段60により出力される映像データの構造を示している。図4(a)において、1,2、fはフレーム番号、Vは映像フレーム、Aは音響データブロックを示している。図4(a)に示すように、処理前の映像データは、複数の映像フレームにより構成されたものとなっている。図4(a)に示したような映像データに対して映像解析手段30が解析を行い、楽曲データ付加手段60が楽曲データ記憶手段10から抽出した楽曲データを1/30秒単位の音響データブロックに分割し、各映像フレームと交互に記録していくことにより図4(b)に示したような構造の映像データが得られることになる。図4(b)に示したような楽曲データが付加された映像データを汎用的に普及している動画フォーマット(例えば、Microsoft社AVIフォーマット、Audio-Visual Interleave形式)で記録しておけば、そのままコンピュータで再生可能となる。汎用的な動画フォーマットでは、1秒間30フレーム(正確にはNTSC規格の1秒間29.97フレーム)で構成されていることが多く、例えば、3分の動画データであれば、5400フレームで構成されることになる。また、映像フレームVは、圧縮されているのが通常であり、圧縮方式により、1つの映像フレームVから静止画像を復元できる場合もあり、他の映像フレームVを利用しなければ静止画像を復元できない場合もある。楽曲データは、フレーム単位、すなわち1/30秒単位で区分され、音響データブロックAとして記録される。例えば、サンプリング周波数48kHzでステレオ音響信号をサンプリングした場合は、1つの音響データブロックには、1/30秒に相当する3200サンプルが記録されることになる。
(4.複数の楽曲データの付加)
上記の例では、1つの映像データに対して1つの楽曲データを付加するようにしたが、1つの映像データに対して2以上の楽曲データを付加するようにすることも可能である。例えば、映像の状態が途中で大きく変化した場合、その映像の状態に合わせて楽曲データも変化させることが望ましい。このような処理を行う場合には、具体的には、映像解析手段30が各映像パラメータの算出を行う際、映像パラメータを算出するための値が、あらかじめ定めた閾値以上に大きく変化している場合、その変化があったフレームの前までのフレーム群について一旦平均値を算出し、そのフレームまでの映像感性パラメータを算出する。例えば、各フレームについて算出したC,H,S,V,色数の値が隣接するフレーム間で大きく異なる場合、また、フレーム変動の値自体が大きい場合には、そのフレームまでの映像感性パラメータを算出することになる。そして、そのフレームから後については、別途平均値を算出して別の映像感性パラメータを算出する。このようにして、1つの映像データについて各映像感性パラメータの値が複数算出されることになる。パラメータ変換手段40では、各映像感性パラメータについて値が複数与えられた場合には、それぞれの値に基づいて音響感性パラメータのパラメータ条件を設定し、複数の楽曲データの検索を行い、映像感性パラメータ算出の基となるC,H,S,V,色数等の値が大きく変化したフレームの前後で、異なる楽曲データを付加することになる。楽曲データを切り換える際は、クロスフェード(前の楽曲と次の楽曲を若干オーバーラップさせ、オーバーラップ部分で前の楽曲のレベルを徐々に下げ、次の楽曲のレベルを徐々に上げる基本的なミキシング手法)により自動的につなげることもできるが、MAエンジニアによる手作業による編集が中心となる。
本発明に係る楽曲データ付加装置の構成図である。 音声感性パラメータ記憶手段20に記憶された情報の一例を示す図である。 映像感性パラメータと音声感性の対応関係を示す図である。 楽曲データ付加前と付加後の映像データの構造を示す図である。
符号の説明
10・・・楽曲データ記憶手段
20・・・音響感性パラメータ記憶手段
30・・・映像解析手段
40・・・パラメータ変換手段
50・・・検索実行手段
60・・・楽曲データ付加手段
70・・・映像データ記憶手段

Claims (5)

  1. 楽曲をデジタルデータ化した楽曲データを複数記憶した楽曲データ記憶手段と、
    前記楽曲データに対して音響解析を実施して算出された音量、音高、音符数、和声、倍音、テンポの6項目の各パラメータを音響感性パラメータとして、前記楽曲データを特定する情報と対応づけて記録した音響感性パラメータ記憶手段と、
    映像データに対して映像解析を実施してコントラスト、色相、彩度、明度、色数、フレーム変動の6項目の各パラメータを映像感性パラメータとして算出する映像解析手段と、
    前記映像感性パラメータのコントラストを前記音響感性パラメータの音量に、前記映像感性パラメータの色相を前記音響感性パラメータの音高に、前記映像感性パラメータの彩度を前記音響感性パラメータの音符数に、前記映像感性パラメータの明度を前記音響感性パラメータの和声に、前記映像感性パラメータの色数を前記音響感性パラメータの倍音に、前記映像感性パラメータのフレーム変動を前記音響感性パラメータのテンポに、各映像感性パラメータ、各音響感性パラメータをその値が上位から下位まで所定数の区分に分けた場合に、対応する区分となるように変換するパラメータ変換手段と、
    前記映像感性パラメータから変換された前記音響感性パラメータを基に、前記音響感性パラメータ記憶手段を検索し、該当する楽曲特定情報を1以上抽出して、利用者に提示する検索実行手段と、
    前記検索実行手段により提示された楽曲特定情報の中から利用者により選択された楽曲特定情報に対応する楽曲データを前記楽曲データ記憶手段から抽出し、抽出された楽曲データを前記映像データに対応付けて付加する楽曲データ付加手段と、
    を有することを特徴とする映像データへの楽曲データ付加装置。
  2. 請求項1において、
    前記パラメータ変換手段は、その値を基に各映像感性パラメータ、各音響感性パラメータをともに上位、中位、下位の3つの区分に分けるものであり、各映像感性パラメータが上位の場合に、各音響感性パラメータを上位として、各映像感性パラメータが中位の場合に、各音響感性パラメータを中位として、各映像感性パラメータが下位の場合に、各音響感性パラメータを下位として、変換するものであり、
    前記検索実行手段は、前記音響感性パラメータ記憶手段に記憶された各音響感性パラメータの値を参照し、前記音響感性パラメータの区分に属する音響感性パラメータの値をもつ楽曲特定情報を抽出することを特徴とする映像データへの楽曲データ付加装置。
  3. 請求項1または請求項2において、
    前記楽曲データの音響解析は、楽曲データの波形データ解析、周波数解析、時間軸を間引いた周波数解析の3手法で構成され、前記音響感性パラメータの中で、波形データ解析により音量パラメータが算出され、周波数解析により、音高、音符数、和声、倍音の各パラメータが算出され、時間軸を間引いた周波数解析により、テンポパラメータが算出されるものであることを特徴とする映像データへの楽曲データ付加装置。
  4. 請求項1から請求項3のいずれかにおいて、
    前記映像データの映像解析は、各映像フレーム内のRGBで構成される各画素の原色の組合せから色数が算出され、隣接フレーム間の各原色同士の差分の二乗平均値によりフレーム変動が算出され、各映像フレーム内のRGBで構成される各画素をHSV色空間値に変換し、Hのフレーム内平均値を基に色相が算出され、Sのフレーム内平均値を基に彩度が算出され、Vのフレーム内平均値を基に明度が算出され、Vのフレーム内の最大値と最小値の差を基にコントラストが算出されるものであることを特徴とする映像データへの楽曲データ付加装置。
  5. 請求項1から請求項4のいずれかにおいて、
    前記映像解析手段によりフレーム単位に算出された映像パラメータについて、隣接フレーム間で映像パラメータの値が所定の値以上に顕著に変化する箇所がある場合、その前後の映像フレームで前記映像データを分断し、映像パラメータの平均値を分断された前後のフレーム群ごとに算出することにより、前記パラメータ変換手段に複数の映像パラメータを渡すものであることを特徴とする映像データへの楽曲データ付加装置。
JP2004137517A 2004-05-06 2004-05-06 映像データへの楽曲データ付加装置 Expired - Fee Related JP4202964B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004137517A JP4202964B2 (ja) 2004-05-06 2004-05-06 映像データへの楽曲データ付加装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004137517A JP4202964B2 (ja) 2004-05-06 2004-05-06 映像データへの楽曲データ付加装置

Publications (2)

Publication Number Publication Date
JP2005321460A JP2005321460A (ja) 2005-11-17
JP4202964B2 true JP4202964B2 (ja) 2008-12-24

Family

ID=35468820

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004137517A Expired - Fee Related JP4202964B2 (ja) 2004-05-06 2004-05-06 映像データへの楽曲データ付加装置

Country Status (1)

Country Link
JP (1) JP4202964B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4976716B2 (ja) * 2006-03-22 2012-07-18 クラリオン株式会社 車載音響機器
JP4489058B2 (ja) * 2006-07-13 2010-06-23 アルパイン株式会社 和音判定方法および装置
JP4548424B2 (ja) * 2007-01-09 2010-09-22 ヤマハ株式会社 楽音処理装置およびプログラム
JP5371609B2 (ja) * 2009-07-29 2013-12-18 株式会社第一興商 映像作品の内容の流れが選曲に影響するカラオケ装置
KR101579229B1 (ko) * 2014-07-31 2015-12-21 경북대학교 산학협력단 영상 출력 장치 및 그 제어 방법
KR20190080086A (ko) * 2017-12-28 2019-07-08 심재훈 그래픽 컨텐츠 기반 작곡서비스 운영장치

Also Published As

Publication number Publication date
JP2005321460A (ja) 2005-11-17

Similar Documents

Publication Publication Date Title
US9875304B2 (en) Music selection and organization using audio fingerprints
US10242097B2 (en) Music selection and organization using rhythm, texture and pitch
JP5282548B2 (ja) 情報処理装置、音素材の切り出し方法、及びプログラム
US10225328B2 (en) Music selection and organization using audio fingerprints
JP4313563B2 (ja) 楽曲検索装置及び方法
JP2010122630A (ja) 情報処理装置、音声解析方法、及びプログラム
US10623480B2 (en) Music categorization using rhythm, texture and pitch
JP2005156713A (ja) 楽曲自動分類装置及び方法
CN1717716B (zh) 用于生成音乐数据的设备和方法
US11271993B2 (en) Streaming music categorization using rhythm, texture and pitch
Kirchhoff et al. Evaluation of features for audio-to-audio alignment
KR100512143B1 (ko) 멜로디 기반 음악 검색방법과 장치
JP4202964B2 (ja) 映像データへの楽曲データ付加装置
JP4799333B2 (ja) 楽曲分類方法、楽曲分類装置及びコンピュータプログラム
JPH10247099A (ja) 音声信号の符号化方法および音声の記録再生装置
JP5005445B2 (ja) コード名検出装置及びコード名検出用プログラム
JP4932614B2 (ja) コード名検出装置及びコード名検出用プログラム
JP4483561B2 (ja) 音響信号分析装置、音響信号分析方法及び音響信号分析プログラム
JP5879813B2 (ja) 複数音源の識別装置および複数音源に連動する情報処理装置
JP4268328B2 (ja) 音響信号の符号化方法
JP4413643B2 (ja) 楽曲検索再生装置
JP2006201614A (ja) 音程認識装置およびこれを利用した音声変換装置
JP4152502B2 (ja) 音響信号の符号化装置および符号データの編集装置
Müller et al. Music synchronization
JP4156252B2 (ja) 音響信号の符号化方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080708

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080822

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080917

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081009

R150 Certificate of patent or registration of utility model

Ref document number: 4202964

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111017

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121017

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131017

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees