JP4982860B2 - 音響処理のための情報処理装置、音響処理方法、プログラム、および音響検索システム - Google Patents

音響処理のための情報処理装置、音響処理方法、プログラム、および音響検索システム Download PDF

Info

Publication number
JP4982860B2
JP4982860B2 JP2007199332A JP2007199332A JP4982860B2 JP 4982860 B2 JP4982860 B2 JP 4982860B2 JP 2007199332 A JP2007199332 A JP 2007199332A JP 2007199332 A JP2007199332 A JP 2007199332A JP 4982860 B2 JP4982860 B2 JP 4982860B2
Authority
JP
Japan
Prior art keywords
acoustic data
acoustic
sound
block
physiological level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007199332A
Other languages
English (en)
Other versions
JP2009036862A (ja
Inventor
昌志 村上
和夫 川口
俊一 加藤
Original Assignee
学校法人 中央大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 学校法人 中央大学 filed Critical 学校法人 中央大学
Priority to JP2007199332A priority Critical patent/JP4982860B2/ja
Publication of JP2009036862A publication Critical patent/JP2009036862A/ja
Application granted granted Critical
Publication of JP4982860B2 publication Critical patent/JP4982860B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、コンピュータによる音響処理に関し、より詳細には、人間の感性により適合するように処理を行う、情報処理装置、音響処理方法、プログラム、音響検索システムに関する。
近年のマルチメディア技術とそのコンテンツの増加により、様々な音楽サービスが開発されており、特に音楽検索においては、様々な研究がなされている。しかし、これらの検索は、曲名や作曲者名といった音楽のメタデータを元にしており、音楽そのものを分類することにより検索しているものは少ない。また、手作業で人間が音楽を何らかの基準で分類して、その分類に基づいて検索サービスを提供する処理も考えられるが、個音楽を分類するには、一定の基準が要求され、また効率的なサービスを行うことができるとは言えない。曲名や作曲者名に依らずに、人間の感性・嗜好によって音楽を検索する研究もなされている(非特許文献1、非特許文献2)。
これらの先行研究では、ユーザの楽曲に対する評価などからから得られるメタデータを、協調フィルタリング技術を適用することでユーザに作曲者や楽曲を推薦する、といったサービスが考えられている。このような研究については、聴取者側の、音楽に対しての主観的な評価は得られるが、音楽そのものについては考えていないために、そこから得られる音楽の類似性が得られず、必ずしも聴取者が満足できる検索結果を得られているとはいえなかった。また、音楽などの楽曲や音響データについて、言語検索などのように、類似検索や意味(セマンティック)検索を行うことができないという不都合があった。
また、特開2005−56021号公報(特許文献1)では、検索対象情報の所定の単位毎にあらかじめ特徴部分を定義し、当該特徴部分を抽出する特徴抽出部と、ユーザに対し前記抽出された特徴部分を提供し、その特徴部分に関する嗜好の入力を促し、当該入力情報を取り込んでユーザの嗜好を示すユーザプロファイルを生成するユーザプロファイル生成部とを含む情報検索装置が開示されている。
特許文献1に開示された情報検索装置は、ユーザの嗜好に対応した特徴を有する音楽の抽出を可能とするものの、外部から取得した音響データに一致または類似する音響データを検索することには適用できない。また、ユーザが入力する認識レベルの範囲での音響データを検索することはできないという不都合があった。
橋本雄弥、福井健一、森本甲一、栗原聡、沼尾正行:楽曲構造における個人感性獲得機構、人工知能学会全国大会(20回) 市川裕也、田村哲嗣、速水悟:印象語のグループ化を用いた楽曲推薦システム、人工知能学会全国大会(20回) 特開2005−56021号公報
本発明は、上記従来技術の問題点に鑑みてなされたものであり、本発明は、より人間の感性に近い、良好な音響再生を可能とする情報処理装置、音響処理方法およびプログラムを提供することを目的とする。
また、本発明は、音響データに対しても類似検索を可能とし、さらにユーザの認識レベルの範囲に適合する音響データを検索してユーザに提示する、情報処理装置、音響処理方法、プログラムおよび音響検索システムを提供することを目的とする。
本発明では、音楽を主観的に評価、分類するために、音楽そのものについての新たな特徴量を提案し、音を生理学的なレベルで捉える聴覚心理学の視点から、聴覚の属性によって音楽を解析する。本発明によれば、複雑な分析手法を用いることなく、音楽の特徴量を生理的なレベルでの聴覚の属性において特徴付けることを可能とし、その結果、より人間の生理的レベルでの聴覚特性に適合する音響処理が可能となる。
すなわち、本発明によれば、音響データを処理するための情報処理装置であって、前記情報処理装置は、実スペクトルとして音響データを取得し、取得した前記音響データに対して周波数域および時間域によりブロックを割当て、前記ブロックごとにパワースペクトルを計算する音響データ処理手段と、
前記音響データ処理手段からのブロック単位でのパワースペクトルから前記ブロックについて同時および時間的に前後する音の影響の尺度を与えるため、比較するべき2つのブロックの異なる音域間のパワースペクトルの対数の差を、比較するべき2つのブロックの異なる音域間のパワースペクトルの対数の合計値で除算して生成されるブロック間コントラストをそれぞれ計算し、計算した前記ブロック間コントラストを生理的レベル特徴量とする音響分析手段と、
前記生理的レベル特徴量を前記音響データを識別するための音響識別値に対応付けて登録する生理的レベル特徴量データベース手段と
を含む、情報処理装置が提供される。
本発明の前記音響データ処理手段は、
前記音響データを取得する音響取得手段と、
前記音響データに対して前記周波数域および前記時間域に対応する前記ブロックを割当てる周波数時間分割手段と、
前記ブロックに含まれる前記周波数域について前記時間域で短時間フーリエ変換を実行して前記ブロック単位での前記パワースペクトルを計算するフーリエ変換手段と
を含むことができる。
本発明の前記音響分析手段は、
前記パワースペクトルから前記生理的レベル特徴量を計算するための特徴量計算手段と、
前記音響データについての前記生理的レベル特徴量に対して認知的レベルでの情報を提供するためのイメージ語を取得するイメージ語取得手段と、
前記イメージ語が与える前記認知的レベルから前記イメージ語を前記生理的レベル特徴量に相関づけて、認知的レベル特徴量データベース手段に登録する分析手段と
を含むことができる。
本発明の前記音響データまたは前記イメージ語の入力を受け取って、前記生理的レベル特徴量データベース手段を検索し、前記音響データに生理的レベルで類似するか、または前記イメージ語の前記認知的レベルに類似する前記音響データを検索する検索処理部を含むことができる。本発明の前記音響データは、音楽であり、WAVEフォーマット、MPEGフォーマット、MP3フォーマットとして前記情報処理装置が取得することができる。
本発明によれば、コンピュータにより音響データを処理するための音響処理方法であって、前記音響処理方法は、コンピュータが、
実スペクトルとして音響データを取得し、取得した前記音響データに対して周波数域および時間域によりブロックを割当て、前記ブロックごとにパワースペクトルを計算するステップと、
前記ブロック単位でのパワースペクトルから前記ブロックについて同時および時間的に前後する音の影響の尺度を与えるため、比較するべき2つのブロックの異なる音域間のパワースペクトルの対数の差を、比較するべき2つのブロックの異なる音域間のパワースペクトルの対数の合計値で除算して生成されるブロック間コントラストをそれぞれ計算し、計算した前記ブロック間コントラストを生理的レベル特徴量とするステップと、
前記生理的レベル特徴量を前記音響データを識別するための音響識別値に対応付けて生理的レベル特徴量データベース手段に登録するステップと
を実行する、音響処理方法が提供される。
本発明では、前記パワースペクトルを計算するステップは、
前記音響データを取得するステップと、
前記音響データに対して前記周波数域および前記時間域に対応する前記ブロックを割当てるステップと、
前記ブロックに含まれる前記周波数域について前記時間域で短時間フーリエ変換を実行して前記ブロック単位での前記パワースペクトルを計算するステップと
を含むことができる。
本発明では、生理的レベル特徴量を計算するステップは、
前記パワースペクトルから前記生理的レベル特徴量を計算するステップと、
前記音響データについての前記生理的レベル特徴量に対して認知的レベルでの情報を提供するためのイメージ語を取得するステップと、
前記イメージ語が与える前記認知的レベルから前記イメージ語を前記生理的レベル特徴量に相関づけて、認知的レベル特徴量データベース手段に登録するステップと
を含むことができる。
本発明では、さらに前記コンピュータが、前記音響データまたは前記イメージ語の入力を受け取って、前記生理的レベル特徴量データベース手段を検索し、前記音響データに生理的レベルで類似するか、または前記イメージ語の前記認知的レベルに類似する前記音響データを検索するステップを実行することができる。
本発明の前記音響データは、音楽であり、WAVEフォーマット、MPEGフォーマット、MP3フォーマットとして前記情報処理装置が取得することができる。
さらに本発明によれば、上記いずれかに記載の各手段としてコンピュータを機能させる、コンピュータ実行可能なプログラムが提供できる。
また、本発明によれば、
ネットワークを介して音響データを検索する音響検索システムであって、前記音響検索システムは、
ネットワークと、
前記音響データと、ブロック単位で同時および時間的に前後する音の影響の尺度を与えるブロック間コントラストを含む生理的レベル特徴量とを対応付けて登録するデータベースと、
前記ネットワークに接続された上記いずれかに記載の情報処理装置と、
前記ネットワークに接続され、前記情報処理装置に対して検索クエリーを送信するネットワーククライアントと、
を含み、前記情報処理装置は、前記検索クエリーで前記データベースを検索し、前記検索クエリーに一致するかまたは類似する前記音響データを検索して、前記検索クエリーを発行した前記ネットワーククライアントに送付する、音響検索システムが提供できる。
以下、本発明について実施形態をもって説明するが、本発明は、実施形態に限定されるものではない。図1は、人間の知覚過程に見られる解釈による音楽の類似・非類似性やイメージ語による表現のモデル階層100を示す。人間の知覚レベルは、物理的レベル、生理的レベル、心理的レベル、認知的レベルといった階層に分類することができる。物理的レベルは、人間が音を知覚する以前の、音そのものの特徴(周波数による物理信号としての固有の特徴)に基づいて音を理解するレベルである。
また、生理的レベルとは、人間の感覚器を通して対象からの刺激が感覚神経系に入力され、聴覚の属性による生理的な応答特性や神経経路で行われる種々の特徴抽出の結果に基づいて音を理解するレベルである。このレベルでの理解には個人の主観性はほとんど関与しない段階と考えられる。さらに、心理的レベルとは、生理的レベルで得られた表現に、各個人の嗜好などに基づいた重み付けを行い、音楽の類似・非類似性や、これに基づくグルーピングにより、音または音楽の特徴を表現・解釈するレベルである。
この階層では、音の類似性の判断に、各個人の主観的基準の違いが現れる場合もある。さらに、認知的レベルでは、心理レベルでグルーピングした各グループに対して、これを総称する言葉(イメージ語)を対応付けて音を解釈するレベルである。個人の主観性が大きく作用する段階であるということができる。
本実施形態では、生理的レベルでの音響分析について、音域区間および時間区間で規定されたブロック単位でパワースペクトルを計算させ、対象とする音響データの特徴量として使用する。音響データの解析結果は、逆に音響データ、特に楽曲の音響データを使用した検索に使用する。
図2は、本実施形態の情報処理装置200の機能ブロック図である。情報処理装置200は、パーソナルコンピュータ、ワークステーションまたはサーバなどとして構成することができる。情報処理装置200は、中央処理装置(CPU)、RAM、ROMなどを実装し、本実施形態の音響処理方法のためのプログラムを実装する。CPUとしては、例えば、PENTIUM(登録商標)〜PENTIUM(登録商標)IV、PENTIUM(登録商標)互換CPU、POWER PC(登録商標)、MIPSなどを挙げることができる。
また、使用するオペレーティング・システム(OS)としては、MacOS(商標)、Windows(登録商標)、Windows(登録商標)200X Server、UNIX(登録商標)、AIX(登録商標)、LINUX(登録商標)またはそれ以外の適切なOSを挙げることができる。さらに、情報処理装置200は、上述したOS上で動作する、C++、Visual C++、VisualBasic、Java(登録商標)、Perl、Rubyなどのオブジェクト指向のプログラミング言語により記述されたアプリケーション・プログラムを格納し、実行する。
また、情報処理装置200は、スタンドアローンの情報処理装置として構成することができる。また、他の実施形態では、情報処理装置200は、ネットワーク(図示せず)を介してネットワーククライアント(図示せず)に類似音響を検索して提供する音響検索システムのサーバとして構成することができる。情報処理装置200をサーバとして構成する実施形態では、情報処理装置200は、インターネットなどに接続されたウェブサーバとして構成することが好ましい。情報処理装置200をウェブサーバとして機能させる場合、情報処理装置200は、RFC2616などで規定されるHTTPプロトコルを使用してネットワーククライアントからの検索要求を受け付け、楽曲などの検索を実行する。なお、この場合、情報処理装置200が実装するプログラムは、CGIプログラム、Servletなどを使用して実装することができる。
情報処理装置200は、本実施形態にしたがって楽曲を検索し、検索結果をHTTPレスポンスとしてネットワーククライアントに返すことにより、ネットワーククライアントが要求した楽曲を通知している。ネットワーククライアントは、例えば、楽曲の一部をWavファイルなどとして送信するか、または楽曲のイメージを指定するイメージ語などをCGIフォームから入力し、情報処理装置200による検索を依頼する。情報処理装置200は、フォームとして送付されたイメージ語を使用して音響データに基づいて楽曲の検索を実行し、検索された楽曲のタイトルなどをネットワーククライアントに送付する。
情報処理装置200の詳細な機能構成について説明する。情報処理装置200は、音響データ処理部202と、音響分析部204と、検索処理部206とを含んで構成されている。音響データ処理部202は、本実施形態にしたがい、実スペクトルとして音響データを取得し、音域および時間で規定されたブロックごとの音響データを生成する。また、音響データ処理部202は、情報処理装置200が検索エンジンとして機能する場合、取得した音響データの前処理手段としても機能する。音響分析部204は、音響データ処理部202の処理結果を受領して各種特徴量を計算し、生理的レベル特徴量データベース(DB)222に登録する。また、音響分析部204は、本実施形態では、楽曲を表現するイメージ語などに対し、重回帰分析部218により与えられる重回帰係数と生理的レベル特徴量とを対応させ、認知的レベル特徴量として、認知的レベル特徴量データベース(DB)224に登録する。なお、他の実施形態では、重回帰分析部218の代わりに、「正準相関分析」「判別分析」「SVM」などによる分析を行うことが可能な、分析処理部として実装することができる。
検索処理部206は、距離計算部220を含んで構成されている。検索処理部206は、取得した音響データまたはイメージ語を検索キーとして、生理的レベル特徴量DB222または認知的レベル特徴量DB224に照会を行い、取得した特徴量と、照会した特徴量との間の距離を計算する。なお、特徴量は、音響データ特徴付け空間の座標軸として定義することができ、特定の実施形態では、距離計算部220は、取得した音響データと生理的レベル特徴量DB222に登録された特徴量との間のノルム計算として実行することができる。
また、イメージ語を使用する場合、イメージ語に対応する重回帰係数を照会し、特徴量種類および重回帰係数を加味したノルム計算を実行する。検索処理部206は、距離計算の結果、ヒットした楽曲のタイトルまたは他の実施形態では、楽曲自体を、情報処理装置200の外部出力とする。
音響データ処理部202は、さらに詳細には、音響取得部208を備えており、外部マイクロホン226、ネットワーク228、または記録媒体230などを介して取得するWaveファイルや、MPEG、MP3といったフォーマットの音響データを取得する。なお、外部マイクロホン226から音響データを取得する場合、A/D変換処理部(図示せず)を実装していてもよい。取得した音響データは、周波数時間分割部210に渡される。周波数時間分割部210は、音響データの周波数範囲を複数の音域で分割し、さらに、後述するフーリエ変換部212での短時間フーリエ変換のための時間ウィンドウを設定する。
図3には、周波数時間分割部210が使用する音域指定データの実施形態を示す。図3に示す音域指定データ300は、音響データの実スペクトルを、6つの音域に分割して指定している。図3に示した実施形態では、音域を、超低音域から高音域まで、6音域に分割して指定する。なお、本実施形態では、図3に示した音域指定以外の音域指定データを使用することも可能であり、図3の音域データは、単に例示的なものである。また、周波数時間分割部210は、実スペクトルを、後述する時間区間sごとにバッファリングし、フーリエ変換部212へと渡す処理を実行する。周波数時間分割部210の上記処理により、音響データの実スペクトルは、周波数区間および時間区間で指定される複数のブロックごとに処理され、ブロックごとの特徴量が計算される。
フーリエ変換部212は、本実施形態では、取得した実時間スペクトルに対し、短時間フーリエ変換を施す。短時間フーリエ変換は、入力された音響データの所定の時間区間ごとに、フーリエ変換を行い、パワースペクトル(PS)を求め、時間区間を順次ずらしてパワースペクトルを生成する方法である。
本実施形態では、短時間フーリエ変換を行うため、時間域を定義するための時間区間sを、以下の条件を使用して決定した。
Figure 0004982860
n=12とすることで、分割される1領域あたりの時間は、BPM(Beats Per Minute)が160であるテンポの曲の基準となる、音符1つあたりの時間に相当する。ここで、BPMとは、四分音符が一分間に何回現れるかを示すものであり、一般的に音楽のテンポを表す指標として使われている値である。また、n=12という値は、n=11(BPM=320)、n=13(BPM=80)とした場合に比べ、分割される1領域あたりの時間が短すぎず長すぎない適切な値を提供する。また、n<11、13<nの範囲のnの値については、本実施形態では使用することも可能である。しかしながら、分割される1領域あたりの時間区間をn=12とする場合に比較し、時間区間が短すぎたり、長すぎるなどの点から、n=12を時間区間を設定するための標準値として使用することが好ましい。
生成されたブロックごとのPSは、特徴量計算部214に送られる。特徴量計算部214では、ウェーバー・フェヒナーの法則に基づき、PSの対数であるlog(PS)を計算する。さらに特徴量計算部214は、各ブロックごとの同時間音域間コントラストおよび別時間ブロック間コントラストを計算する。本実施形態で、用語「コントラスト」とは、下記式(2)で与えられる値のことを意味する。
Figure 0004982860
上記コントラストに、評価対象のブロックのパワー合計値を使用することにより、人間の神経系の応答特性とよくマッチするものと考えられる。なお、同時間ブロック間コントラストは、同時に複数の音が発生した場合、互いの音に影響を及ぼすと考えられるため、同一の時間区間tにおける異なる音域間のlogPSのコントラストとして定義される。また、別時間ブロック間コントラストは、複数の音が連続して鳴った場合、前の音が後の音の聞こえ方に影響を及ぼすと考えられるため、異なる時間区間t、t+1における音域間のlogPSのコントラストとして定義される。
図4は、本実施形態で、情報処理装置200に入力される音響データの実時間スペクトル400を示す。図4中、縦軸が周波数(Hz)であり、横軸が時間(sec)である。情報処理装置200は、図4に示す実時間スペクトル400を取得すると、周波数時間分割部210により、実時間スペクトルのデータを、図5に示すブロックに割当てる。
図5は、実時間スペクトルに対するブロック割当て500の実施形態を示す。実時間スペクトルには、ブロック502〜ブロック508が割当てられていて、各ブロックに含まれる値が短時間フーリエ変換に処理対象データとされる。また、「a」で示されたブロック506、508は、同時間ブロック間コントラストを計算するために用いられるブロック位置を例示する。また、「b」で示すブロック502、504は、別時間ブロック間コントラストを計算するために用いられるブロックを例示する。
音響分析部204が計算した特徴量である、ブロック単位のPS、同時間ブロック間コントラスト、別時間ブロック間コントラストは、それぞれブロックに対応付けられて、生理的レベル特徴量DB222に登録される。
また、音響分析部204は、さらに、イメージ語取得部216と、重回帰分析部218とを含んで構成される。イメージ語取得部216は、認知的レベルでの特徴量を作成するため、楽曲などのイメージを表すためのイメージ語を、例えばキーボードまたはネットワークから取得する。取得したイメージ語は、重回帰分析されて、生理的レベル特徴量と相関付けられ、重回帰係数などと共に、認知的レベル特徴量DB224に登録される。
図6は、本実施形態の音響分析方法での、音響データ処理部202の処理についての実施形態のフローチャートを示す。処理は、ステップS600から開始し、ステップS601で音響データを取得する。ステップS602では、音響データの実スペクトルに対し、周波数区間および時間区間を割当てブロック化する。ステップS603では、ブロックごとに音響データのPSを計算する。ステップS604では、さらにブロックごとにPSの対数logPSを計算し、バッファメモリなどにブロック識別値に対応付けて登録する。
ステップS605では、同時間区間の異なる音域について同時に異なる音が発生した影響の尺度を与える同時間ブロック間コントラストを計算し、ブロック識別値に対応してバッファメモリなどに登録する。さらにステップS606では、異なる時刻の音の影響を特徴付けるために別時間ブロック間コントラストを計算し、バッファメモリなどにブロック識別値に対応付けて登録する。ステップS606の処理をより具体的に簡略化して説明すると、同時間ブロック間コントラストでは、バイオリンとコントラバスとに関連する音を対比し、別時間ブロック間コントラストは、バイオリンの時間変化の対比も行い、さらにバイオリンとコントラバスとの対比処理も行う。ステップS607では、ブロック識別値ごとにPS、同時間ブロック間コントラスト、別時間ブロック間コントラスト、および楽曲のタイトルなどの音響識別値と共に、生理的レベル特徴量DB222データベースに登録し、ステップS608で処理を終了させる。なお、図6の処理が完了した段階で処理対象の音響データについての生理的レベル特徴量が登録される。なお、本実施形態では、単一の音響データについて、合計216次元の独立した特徴量が生成され、生理的レベル特徴量DB222に登録される。
図7は、本実施形態での認知的レベル特徴量を生成するための処理の実施形態でのフローチャートを示す。図7の処理は、ステップS700から開始し、ステップS701で音響データを取得する。ステップS702では、音響データの実スペクトルに対し、周波数区間および時間区間を割当てブロック化する。ステップS703では、ブロックごとに音響データのPSを計算する。ステップS704では、さらにブロックごとにPSの対数logPSを計算し、バッファメモリなどにブロック識別値に対応付けて登録する。
ステップS705では、同時間区間の異なる音域について同時に異なる音が発生した影響の尺度を与える同時間ブロック間コントラストを計算し、ブロック識別値に対応してバッファメモリなどに登録する。さらにステップS706では、同音域間でのコントラストを計算するとともに、異なる時刻の音の影響を特徴付けるために別時間ブロック間コントラストを計算し、バッファメモリなどにブロック識別値に対応付けて登録する。なお、この処理は、ステップS606で説明したと同様の処理を用いることができる。ステップS707では、ブロック識別値ごとにイメージ語に対する重回帰係数、相関係数、重相関式およびイメージ語を取得する。ステップS708では、生理的レベル特徴量に対応付けて、重相関係数を認知的レベル特徴量DB224に登録し、ステップS709で処理を終了させる。
なお、認知的レベル特徴量としては、生理的レベル特徴量と重回帰係数などとを対応付けて登録するデータ構造とすることもできるし、重回帰係数などと音響識別値とを対応付けて登録し、生理的レベル特徴量については音響識別値をインデックスとして参照する構成とすることができる。これらの特定の実装形式は、記憶容量や検索速度など、特定のハードウェア資源の構成に応じて適宜選択することができる。
図8は、情報処理装置200が、音響データを取得して実行する音響検索処理の実施形態についてのフローチャートを示す。図8の処理は、ステップS800から開始し、ステップS801で音響データを取得する。ステップS802では、音響データ処理部202による前処理を実行する。その後、ステップS803では、検索処理部206により前処理データと、生理的レベル特徴量DB222から呼び出した生理的レベル特徴量とをブロック単位で距離計算する。
ステップS804では、最小距離の音響識別値で指定される音響データを検索結果として抽出し、ステップS805で処理を終了する。なお、検索結果は、最小距離の音響データのみを出力してもよいが、例えばトップ10など、最小距離から降順に、例えば10の音響データを選択し、検索結果として出力することもできる。
図9は、本実施形態の音響検索処理の第2の実施形態のフローチャートを示す。図9に示す処理は、ステップS900から開始し、ステップS901で、イメージ語を取得する。ステップS902でイメージ語に対応付けられた重相関係数および重相関式を取得し、ステップS903で生理的レベル特徴量DB222または認識レベル特徴量DB224に登録された各特徴量について、重回帰分析を行い、目的関数の最小化を行う。ステップS904でイメージ語についての目的変数を最小化する音響識別値を有する音響データを検索結果として抽出し、ステップS905で処理を終了させる。なお、ステップS903の処理では、図8の第1実施形態と同様、最小値を与える音響データから降順に10個の音響データを取得して検索候補として出力することもできる。なお、検索は、目的関数を最小化するのではなく、目的関数を最大化することによっても行うことができ、重回帰分析の係数設定に応じて適宜選択することができる。
以下、本発明につき、具体的な実施例をもって説明するが、本発明は、後述する実施例に限定されるものではない。
(実施例1:生理的レベル特徴量の評価)
音響データは、音響データの素材集(株式会社イーフロンティア、“音満タンDX”)効果音と人の声が録音されているものを除いた576曲を音楽データベースとした。さらに、576曲の音楽データベースからランダムに50曲を選択し、これを検索クエリーとして類似音楽の検索実験を行った。生理的レベル特徴量の評価は、検索結果の上位5位、10位、15位、20位までの平均適合率を求め、高速フーリエ変換により計算したPSを使用した検索結果と比較対比することにより行った。図10には、評価のために使用した音響データのフォーマットおよび結果を示す。図10(a)に示すように、音響データは、Waveファイルのフォーマットとされ、サンプリングレートは、22050Hz、量子化ビットは、8ビットとし、チャンネル数は、モノラルとした。
図10(b)には、本実施形態の特徴量を使用した場合と、高速フーリエ変換を使用した場合のそれぞれの検索結果のうち、検索クエリーとして使用した音響データのヒット率を示す。図10(b)に示すように、本実施形態のブロック化特徴量を使用した検索結果は、高速フーリエ変換を使用した検索結果に比較して、約10%程度高い適合率を与えることが示された。高速フーリエ変換は、特徴量を音域・時間で分割していないため、曲の全体的な特徴のみを表すので、適合率が本実施例のブロック化特徴量による結果よりも低い適合率となったものと推定される。
さらに、図10の結果に対して、Wilcoxonの符号付順位和検定を行い、本実施形態のブロック特徴量を用いた場合の適合率と、高速フーリエ変換を用いた場合の適合率との差について有意性を検証した。その結果、有意水準1%で2つの特徴量の適合率の差が有意と認められた。よって、提案特徴量を用いた場合、高速フーリエ変換より優れた精度を得られることが示された。
(実施例2:認知的レベル特徴量の評価)
認知的レベルでの感性モデルの妥当性を検証するために、人の感性と音楽の物理的な特徴を結びつける媒介として、イメージ語と呼ばれる形容詞を導入し、音響データを検索した。
(イメージ語の選出と実験概要)
聴覚感性モデル構築に使用するイメージ語を決めるため、予め被験者に「音楽の評価によく用いるイメージ語」についてアンケートを行った。その結果、1位〜6位までに挙げられたイメージ語を実験で用いるイメージ語として選出した。使用したイメージ語を図11に示す。
次の段階として、実施例1で選択した576曲の音楽データベースからランダムに選択した288曲に対し、各イメージ語が当てはまるか当てはまらないかを5段階での評価をボランティアにより評価し、それぞれの音楽データについて、各イメージ語の評価値を目的変数とし、選択した288曲の物理特徴量を説明変数として、重回帰分析を行った。重回帰分析の結果得られた重回帰係数および重回帰式を、イメージ語ごとに求まった重回帰式をそのイメージ語についての聴覚感性モデルとして、認知的レベル特徴量DB224に登録した。また、216次元の物理特徴量をそのまま説明変数として用いた場合と、ステップワイズ法を用いて変数選択を行った場合での適合率について、2通りの解析を行った。
(実験結果)
構築した聴覚感性モデルを用いて、音楽の感性検索実験を行い、その検索精度から構築した聴覚感性モデルの評価を行った。具体的には、576曲の音楽データベースから聴覚感性モデル構築に使用しなかった残りの288曲を選択し、その生理的レベル特徴量に対してイメージ語ごとの重回帰式を当てはめ、求まった推定値が最小とする音楽を検索する。検索結果の評価は、イメージ語ごとに推定値の上位20位までの適合率をボランティアによる評価により決定した。
また、ステップワイズ法で変数選択を行わなかった場合と、変数選択を行った場合の重相関係数の差ついて、有意性が認められなかったため、両方の重回帰式について実験を行った。
実験結果を図12に示す。図12に示すように、イメージ語を検索クエリーとして検索を行った結果、極めて高い水準でイメージ語に対応した音楽データが検索されていることが示された。また、すべてのイメージ語について、変数選択を行った場合の適合率の方が同等以上の結果が得られた。この適合率の差について、Wilcoxonの符号付順位和検定を行った結果、有意水準1%で適合率の差が認められた。
本発明の上記機能は、C++、Java(登録商標)、Java(登録商標)Beans、Java(登録商標)Applet、Java(登録商標)Script、Perl、Rubyなどのオブジェクト指向プログラミング言語などで記述された装置実行可能なプログラムにより実現でき、装置可読な記録媒体に格納して頒布することができる。
これまで本発明を実施形態をもって説明してきたが、本発明は実施形態に限定されるものではなく、他の実施形態、追加、変更、削除など、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。
人間の知覚過程に見られる解釈による音楽の類似・非類似性やイメージ語による表現のモデル階層を示した図。 本実施形態の情報処理装置の機能ブロック図。 周波数時間分割部が使用する音域指定データの実施形態を示した図。 本実施形態で、情報処理装置に入力される音響データの実時間スペクトルを示した図。 実時間スペクトルに対するブロック割当ての実施形態を示した図。 本実施形態の音響分析方法での、音響データ処理部202の処理についての実施形態のフローチャート。 本実施形態での認知的レベル特徴量を生成するための処理の実施形態でのフローチャート。 情報処理装置が、音響データを取得して実行する音響検索処理の実施形態についてのフローチャート。 本実施形態の音響検索処理の第2の実施形態のフロチャート。 評価のために使用した音響データのフォーマットおよび結果を示した図。 実験に使用したイメージ語を示した図。 イメージ語を検索クエリーとして検索を行った実験結果を示した図。
符号の説明
100…モデル階層、200…情報処理装置、202…音響データ処理部、204…音響処理部、206…検索処理部、208…音響取得部、210…周波数時間分割部、212…フーリエ変換部、214…特徴量計算部、216…イメージ語取得部、218…重回帰分析部、220…距離計算部、222…生理的レベル特徴量DB、224…認知的レベル特徴量DB、226…外部マイクロホン、228…ネットワーク、230…記録媒体

Claims (12)

  1. 音響データを処理するための情報処理装置であって、前記情報処理装置は、
    実スペクトルとして音響データを取得し、取得した前記音響データに対して周波数域および時間域によりブロックを割当て、前記ブロックごとにパワースペクトルを計算する音響データ処理手段と、
    前記音響データ処理手段からのブロック単位でのパワースペクトルから前記ブロックについて同時および時間的に前後する音の影響の尺度を与えるため、比較するべき2つのブロックの異なる音域間のパワースペクトルの対数の差を、比較するべき2つのブロックの異なる音域間のパワースペクトルの対数の合計値で除算して生成されるブロック間コントラストをそれぞれ計算し、計算した前記ブロック間コントラストを生理的レベル特徴量とする音響分析手段と、
    前記生理的レベル特徴量を前記音響データを識別するための音響識別値に対応付けて登録する生理的レベル特徴量データベース手段と
    を含む、情報処理装置。
  2. 前記音響データ処理手段は、
    前記音響データを取得する音響取得手段と、
    前記音響データに対して前記周波数域および前記時間域に対応する前記ブロックを割当てる周波数時間分割手段と、
    前記ブロックに含まれる前記周波数域について前記時間域で短時間フーリエ変換を実行して前記ブロック単位での前記パワースペクトルを計算するフーリエ変換手段と
    を含む、請求項1に記載の情報処理装置。
  3. 前記音響分析手段は、
    前記パワースペクトルから前記生理的レベル特徴量を計算するための特徴量計算手段と、
    前記音響データについての前記生理的レベル特徴量に対して認知的レベルでの情報を提供するためのイメージ語を取得するイメージ語取得手段と、
    前記イメージ語が与える前記認知的レベルから前記イメージ語を前記生理的レベル特徴量に相関づけて、認知的レベル特徴量データベース手段に登録する分析手段と
    を含む、請求項1または2記載の情報処理装置。
  4. 前記音響データまたは前記イメージ語の入力を受け取って、前記生理的レベル特徴量データベース手段を検索し、前記音響データに生理的レベルで類似するか、または前記イメージ語の前記認知的レベルに類似する前記音響データを検索する検索処理部を含む、請求項1〜3のいずれか1項に記載の情報処理装置。
  5. 前記音響データは、音楽であり、WAVEフォーマット、MPEGフォーマット、MP3フォーマットとして前記情報処理装置が取得する、請求項1〜4のいずれか1項に記載の情報処理装置。
  6. コンピュータにより音響データを処理するための音響処理方法であって、前記音響処理方法は、コンピュータが、
    実スペクトルとして音響データを取得し、取得した前記音響データに対して周波数域および時間域によりブロックを割当て、前記ブロックごとにパワースペクトルを計算するステップと、
    前記ブロック単位でのパワースペクトルから前記ブロックについて同時および時間的に前後する音の影響の尺度を与えるため、比較するべき2つのブロックの異なる音域間のパワースペクトルの対数の差を、比較するべき2つのブロックの異なる音域間のパワースペクトルの対数の合計値で除算して生成されるブロック間コントラストをそれぞれ計算し、計算した前記ブロック間コントラストを生理的レベル特徴量とするステップと、
    前記生理的レベル特徴量を前記音響データを識別するための音響識別値に対応付けて生理的レベル特徴量データベース手段に登録するステップと
    を実行する、音響処理方法。
  7. 前記パワースペクトルを計算するステップは、
    前記音響データを取得するステップと、
    前記音響データに対して前記周波数域および前記時間域に対応する前記ブロックを割当てるステップと、
    前記ブロックに含まれる前記周波数域について前記時間域で短時間フーリエ変換を実行して前記ブロック単位での前記パワースペクトルを計算するステップと
    を含む、請求項6に記載の音響処理方法。
  8. 前記生理的レベル特徴量を計算するステップは、
    前記パワースペクトルから前記生理的レベル特徴量を計算するステップと、
    前記音響データについての前記生理的レベル特徴量に対して認知的レベルでの情報を提供するためのイメージ語を取得するステップと、
    前記イメージ語が与える前記認知的レベルから前記イメージ語を前記生理的レベル特徴量に相関づけて、認知的レベル特徴量データベース手段に登録するステップと
    を含む請求項6または7記載の音響処理方法。
  9. さらに前記コンピュータが、前記音響データまたは前記イメージ語の入力を受け取って、前記生理的レベル特徴量データベース手段を検索し、前記音響データに生理的レベルで類似するか、または前記イメージ語の前記認知的レベルに類似する前記音響データを検索するステップを実行する、請求項6〜8のいずれか1項に記載の音響処理方法。
  10. 前記音響データは、音楽であり、WAVEフォーマット、MPEGフォーマット、MP3フォーマットとして前記コンピュータが取得する、請求項6〜9のいずれか1項に記載の音響処理方法。
  11. 請求項1〜5のいずれか1項に記載の各手段としてコンピュータを機能させる、コンピュータ実行可能なプログラム。
  12. ネットワークを介して音響データを検索する音響検索システムであって、前記音響検索システムは、
    ネットワークと、
    前記音響データと、ブロック単位で同時および時間的に前後する音の影響の尺度を与えるブロック間コントラストを含む生理的レベル特徴量とを対応付けて登録するデータベースと、
    前記ネットワークに接続された請求項1〜5のいずれか1項に記載の情報処理装置と、
    前記ネットワークに接続され、前記情報処理装置に対して検索クエリーを送信するネットワーククライアントと、
    を含み、前記情報処理装置は、前記検索クエリーで前記データベースを検索し、前記検索クエリーに一致するかまたは類似する前記音響データを検索して、前記検索クエリーを発行した前記ネットワーククライアントに送付する、音響検索システム。
JP2007199332A 2007-07-31 2007-07-31 音響処理のための情報処理装置、音響処理方法、プログラム、および音響検索システム Expired - Fee Related JP4982860B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007199332A JP4982860B2 (ja) 2007-07-31 2007-07-31 音響処理のための情報処理装置、音響処理方法、プログラム、および音響検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007199332A JP4982860B2 (ja) 2007-07-31 2007-07-31 音響処理のための情報処理装置、音響処理方法、プログラム、および音響検索システム

Publications (2)

Publication Number Publication Date
JP2009036862A JP2009036862A (ja) 2009-02-19
JP4982860B2 true JP4982860B2 (ja) 2012-07-25

Family

ID=40438864

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007199332A Expired - Fee Related JP4982860B2 (ja) 2007-07-31 2007-07-31 音響処理のための情報処理装置、音響処理方法、プログラム、および音響検索システム

Country Status (1)

Country Link
JP (1) JP4982860B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013008956A1 (ja) * 2011-07-14 2013-01-17 日本電気株式会社 音響処理方法と音響処理システム、ビデオ処理方法とビデオ処理システム、音響処理装置およびその制御方法と制御プログラム
JP5961048B2 (ja) * 2012-06-25 2016-08-02 日本放送協会 聴覚印象量推定装置及びそのプログラム
KR20200142787A (ko) 2019-06-13 2020-12-23 네이버 주식회사 멀티미디어 신호 인식을 위한 전자 장치 및 그의 동작 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4622199B2 (ja) * 2001-09-21 2011-02-02 日本ビクター株式会社 楽曲検索装置及び楽曲検索方法
JP3886372B2 (ja) * 2001-12-13 2007-02-28 松下電器産業株式会社 音響変節点抽出装置及びその方法、音響再生装置及びその方法、音響信号編集装置、音響変節点抽出方法プログラム記録媒体、音響再生方法プログラム記録媒体、音響信号編集方法プログラム記録媒体、音響変節点抽出方法プログラム、音響再生方法プログラム、音響信号編集方法プログラム
JP2004334160A (ja) * 2002-09-24 2004-11-25 Matsushita Electric Ind Co Ltd 特徴量抽出装置
JP4483561B2 (ja) * 2004-12-10 2010-06-16 日本ビクター株式会社 音響信号分析装置、音響信号分析方法及び音響信号分析プログラム

Also Published As

Publication number Publication date
JP2009036862A (ja) 2009-02-19

Similar Documents

Publication Publication Date Title
Alluri et al. Exploring perceptual and acoustical correlates of polyphonic timbre
Fu et al. A survey of audio-based music classification and annotation
Li et al. Music data mining
US6657117B2 (en) System and methods for providing automatic classification of media entities according to tempo properties
US7532943B2 (en) System and methods for providing automatic classification of media entities according to sonic properties
Mitrović et al. Features for content-based audio retrieval
McKinney et al. Ambiguity in tempo perception: What draws listeners to different metrical levels?
US7035873B2 (en) System and methods for providing adaptive media property classification
US20030045954A1 (en) System and methods for providing automatic classification of media entities according to melodic movement properties
US20050097075A1 (en) System and methods for providing automatic classification of media entities according to consonance properties
CN106991163A (zh) 一种基于演唱者声音特质的歌曲推荐方法
Gygi et al. Development of the database for environmental sound research and application (DESRA): Design, functionality, and retrieval considerations
Smith et al. Audio properties of perceived boundaries in music
Hoffmann et al. Music recommendation system
Thorogood et al. Impress: A Machine Learning Approach to Soundscape Affect Classification for a Music Performance Environment.
JP4982860B2 (ja) 音響処理のための情報処理装置、音響処理方法、プログラム、および音響検索システム
Corcoran et al. Playing it straight: Analyzing jazz soloists’ swing eighth-note distributions with the weimar jazz database
Aucouturier Sounds like teen spirit: Computational insights into the grounding of everyday musical terms
Herrera et al. SIMAC: Semantic interaction with music audio contents
Chen et al. Cross-cultural music emotion recognition by adversarial discriminative domain adaptation
Schindler et al. The europeana sounds music information retrieval pilot
Tzanetakis et al. Music analysis and retrieval systems for audio signals
US20030120679A1 (en) Method for creating a database index for a piece of music and for retrieval of piece of music
Hughes et al. Fractal dimensions of music and automatic playlist generation: similarity search via MP3 song uploads
Lukasik Towards timbre-driven semantic retrieval of violins

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100715

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120313

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120405

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150511

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees