JP4982860B2

JP4982860B2 - 音響処理のための情報処理装置、音響処理方法、プログラム、および音響検索システム

Info

Publication number: JP4982860B2
Application number: JP2007199332A
Authority: JP
Inventors: 昌志村上; 和夫川口; 俊一加藤
Original assignee: 学校法人中央大学
Priority date: 2007-07-31
Filing date: 2007-07-31
Publication date: 2012-07-25
Anticipated expiration: 2027-07-31
Also published as: JP2009036862A

Description

本発明は、コンピュータによる音響処理に関し、より詳細には、人間の感性により適合するように処理を行う、情報処理装置、音響処理方法、プログラム、音響検索システムに関する。

近年のマルチメディア技術とそのコンテンツの増加により、様々な音楽サービスが開発されており、特に音楽検索においては、様々な研究がなされている。しかし、これらの検索は、曲名や作曲者名といった音楽のメタデータを元にしており、音楽そのものを分類することにより検索しているものは少ない。また、手作業で人間が音楽を何らかの基準で分類して、その分類に基づいて検索サービスを提供する処理も考えられるが、個音楽を分類するには、一定の基準が要求され、また効率的なサービスを行うことができるとは言えない。曲名や作曲者名に依らずに、人間の感性・嗜好によって音楽を検索する研究もなされている（非特許文献１、非特許文献２）。

これらの先行研究では、ユーザの楽曲に対する評価などからから得られるメタデータを、協調フィルタリング技術を適用することでユーザに作曲者や楽曲を推薦する、といったサービスが考えられている。このような研究については、聴取者側の、音楽に対しての主観的な評価は得られるが、音楽そのものについては考えていないために、そこから得られる音楽の類似性が得られず、必ずしも聴取者が満足できる検索結果を得られているとはいえなかった。また、音楽などの楽曲や音響データについて、言語検索などのように、類似検索や意味（セマンティック）検索を行うことができないという不都合があった。

また、特開２００５−５６０２１号公報（特許文献１）では、検索対象情報の所定の単位毎にあらかじめ特徴部分を定義し、当該特徴部分を抽出する特徴抽出部と、ユーザに対し前記抽出された特徴部分を提供し、その特徴部分に関する嗜好の入力を促し、当該入力情報を取り込んでユーザの嗜好を示すユーザプロファイルを生成するユーザプロファイル生成部とを含む情報検索装置が開示されている。

特許文献１に開示された情報検索装置は、ユーザの嗜好に対応した特徴を有する音楽の抽出を可能とするものの、外部から取得した音響データに一致または類似する音響データを検索することには適用できない。また、ユーザが入力する認識レベルの範囲での音響データを検索することはできないという不都合があった。
橋本雄弥、福井健一、森本甲一、栗原聡、沼尾正行：楽曲構造における個人感性獲得機構、人工知能学会全国大会(20回) 市川裕也、田村哲嗣、速水悟：印象語のグループ化を用いた楽曲推薦システム、人工知能学会全国大会(20回) 特開２００５−５６０２１号公報

本発明は、上記従来技術の問題点に鑑みてなされたものであり、本発明は、より人間の感性に近い、良好な音響再生を可能とする情報処理装置、音響処理方法およびプログラムを提供することを目的とする。
また、本発明は、音響データに対しても類似検索を可能とし、さらにユーザの認識レベルの範囲に適合する音響データを検索してユーザに提示する、情報処理装置、音響処理方法、プログラムおよび音響検索システムを提供することを目的とする。

本発明では、音楽を主観的に評価、分類するために、音楽そのものについての新たな特徴量を提案し、音を生理学的なレベルで捉える聴覚心理学の視点から、聴覚の属性によって音楽を解析する。本発明によれば、複雑な分析手法を用いることなく、音楽の特徴量を生理的なレベルでの聴覚の属性において特徴付けることを可能とし、その結果、より人間の生理的レベルでの聴覚特性に適合する音響処理が可能となる。

すなわち、本発明によれば、音響データを処理するための情報処理装置であって、前記情報処理装置は、実スペクトルとして音響データを取得し、取得した前記音響データに対して周波数域および時間域によりブロックを割当て、前記ブロックごとにパワースペクトルを計算する音響データ処理手段と、
前記音響データ処理手段からのブロック単位でのパワースペクトルから前記ブロックについて同時および時間的に前後する音の影響の尺度を与えるため、比較するべき２つのブロックの異なる音域間のパワースペクトルの対数の差を、比較するべき２つのブロックの異なる音域間のパワースペクトルの対数の合計値で除算して生成されるブロック間コントラストをそれぞれ計算し、計算した前記ブロック間コントラストを生理的レベル特徴量とする音響分析手段と、
前記生理的レベル特徴量を前記音響データを識別するための音響識別値に対応付けて登録する生理的レベル特徴量データベース手段と
を含む、情報処理装置が提供される。

本発明の前記音響データ処理手段は、
前記音響データを取得する音響取得手段と、
前記音響データに対して前記周波数域および前記時間域に対応する前記ブロックを割当てる周波数時間分割手段と、
前記ブロックに含まれる前記周波数域について前記時間域で短時間フーリエ変換を実行して前記ブロック単位での前記パワースペクトルを計算するフーリエ変換手段と
を含むことができる。

本発明の前記音響分析手段は、
前記パワースペクトルから前記生理的レベル特徴量を計算するための特徴量計算手段と、
前記音響データについての前記生理的レベル特徴量に対して認知的レベルでの情報を提供するためのイメージ語を取得するイメージ語取得手段と、
前記イメージ語が与える前記認知的レベルから前記イメージ語を前記生理的レベル特徴量に相関づけて、認知的レベル特徴量データベース手段に登録する分析手段と
を含むことができる。

本発明の前記音響データまたは前記イメージ語の入力を受け取って、前記生理的レベル特徴量データベース手段を検索し、前記音響データに生理的レベルで類似するか、または前記イメージ語の前記認知的レベルに類似する前記音響データを検索する検索処理部を含むことができる。本発明の前記音響データは、音楽であり、ＷＡＶＥフォーマット、ＭＰＥＧフォーマット、ＭＰ３フォーマットとして前記情報処理装置が取得することができる。

本発明によれば、コンピュータにより音響データを処理するための音響処理方法であって、前記音響処理方法は、コンピュータが、
実スペクトルとして音響データを取得し、取得した前記音響データに対して周波数域および時間域によりブロックを割当て、前記ブロックごとにパワースペクトルを計算するステップと、
前記ブロック単位でのパワースペクトルから前記ブロックについて同時および時間的に前後する音の影響の尺度を与えるため、比較するべき２つのブロックの異なる音域間のパワースペクトルの対数の差を、比較するべき２つのブロックの異なる音域間のパワースペクトルの対数の合計値で除算して生成されるブロック間コントラストをそれぞれ計算し、計算した前記ブロック間コントラストを生理的レベル特徴量とするステップと、
前記生理的レベル特徴量を前記音響データを識別するための音響識別値に対応付けて生理的レベル特徴量データベース手段に登録するステップと
を実行する、音響処理方法が提供される。

本発明では、前記パワースペクトルを計算するステップは、
前記音響データを取得するステップと、
前記音響データに対して前記周波数域および前記時間域に対応する前記ブロックを割当てるステップと、
前記ブロックに含まれる前記周波数域について前記時間域で短時間フーリエ変換を実行して前記ブロック単位での前記パワースペクトルを計算するステップと
を含むことができる。

本発明では、生理的レベル特徴量を計算するステップは、
前記パワースペクトルから前記生理的レベル特徴量を計算するステップと、
前記音響データについての前記生理的レベル特徴量に対して認知的レベルでの情報を提供するためのイメージ語を取得するステップと、
前記イメージ語が与える前記認知的レベルから前記イメージ語を前記生理的レベル特徴量に相関づけて、認知的レベル特徴量データベース手段に登録するステップと
を含むことができる。

本発明では、さらに前記コンピュータが、前記音響データまたは前記イメージ語の入力を受け取って、前記生理的レベル特徴量データベース手段を検索し、前記音響データに生理的レベルで類似するか、または前記イメージ語の前記認知的レベルに類似する前記音響データを検索するステップを実行することができる。

本発明の前記音響データは、音楽であり、ＷＡＶＥフォーマット、ＭＰＥＧフォーマット、ＭＰ３フォーマットとして前記情報処理装置が取得することができる。

さらに本発明によれば、上記いずれかに記載の各手段としてコンピュータを機能させる、コンピュータ実行可能なプログラムが提供できる。

また、本発明によれば、
ネットワークを介して音響データを検索する音響検索システムであって、前記音響検索システムは、
ネットワークと、
前記音響データと、ブロック単位で同時および時間的に前後する音の影響の尺度を与えるブロック間コントラストを含む生理的レベル特徴量とを対応付けて登録するデータベースと、
前記ネットワークに接続された上記いずれかに記載の情報処理装置と、
前記ネットワークに接続され、前記情報処理装置に対して検索クエリーを送信するネットワーククライアントと、
を含み、前記情報処理装置は、前記検索クエリーで前記データベースを検索し、前記検索クエリーに一致するかまたは類似する前記音響データを検索して、前記検索クエリーを発行した前記ネットワーククライアントに送付する、音響検索システムが提供できる。

以下、本発明について実施形態をもって説明するが、本発明は、実施形態に限定されるものではない。図１は、人間の知覚過程に見られる解釈による音楽の類似・非類似性やイメージ語による表現のモデル階層１００を示す。人間の知覚レベルは、物理的レベル、生理的レベル、心理的レベル、認知的レベルといった階層に分類することができる。物理的レベルは、人間が音を知覚する以前の、音そのものの特徴（周波数による物理信号としての固有の特徴）に基づいて音を理解するレベルである。

また、生理的レベルとは、人間の感覚器を通して対象からの刺激が感覚神経系に入力され、聴覚の属性による生理的な応答特性や神経経路で行われる種々の特徴抽出の結果に基づいて音を理解するレベルである。このレベルでの理解には個人の主観性はほとんど関与しない段階と考えられる。さらに、心理的レベルとは、生理的レベルで得られた表現に、各個人の嗜好などに基づいた重み付けを行い、音楽の類似・非類似性や、これに基づくグルーピングにより、音または音楽の特徴を表現・解釈するレベルである。

この階層では、音の類似性の判断に、各個人の主観的基準の違いが現れる場合もある。さらに、認知的レベルでは、心理レベルでグルーピングした各グループに対して、これを総称する言葉（イメージ語）を対応付けて音を解釈するレベルである。個人の主観性が大きく作用する段階であるということができる。

本実施形態では、生理的レベルでの音響分析について、音域区間および時間区間で規定されたブロック単位でパワースペクトルを計算させ、対象とする音響データの特徴量として使用する。音響データの解析結果は、逆に音響データ、特に楽曲の音響データを使用した検索に使用する。

図２は、本実施形態の情報処理装置２００の機能ブロック図である。情報処理装置２００は、パーソナルコンピュータ、ワークステーションまたはサーバなどとして構成することができる。情報処理装置２００は、中央処理装置（ＣＰＵ）、ＲＡＭ、ＲＯＭなどを実装し、本実施形態の音響処理方法のためのプログラムを実装する。ＣＰＵとしては、例えば、ＰＥＮＴＩＵＭ（登録商標）〜ＰＥＮＴＩＵＭ（登録商標）ＩＶ、ＰＥＮＴＩＵＭ（登録商標）互換ＣＰＵ、ＰＯＷＥＲＰＣ（登録商標）、ＭＩＰＳなどを挙げることができる。

また、使用するオペレーティング・システム（ＯＳ）としては、ＭａｃＯＳ（商標）、Ｗｉｎｄｏｗｓ（登録商標）、Ｗｉｎｄｏｗｓ（登録商標）２００ＸＳｅｒｖｅｒ、ＵＮＩＸ（登録商標）、ＡＩＸ（登録商標）、ＬＩＮＵＸ（登録商標）またはそれ以外の適切なＯＳを挙げることができる。さらに、情報処理装置２００は、上述したＯＳ上で動作する、Ｃ＋＋、ＶｉｓｕａｌＣ＋＋、ＶｉｓｕａｌＢａｓｉｃ、Ｊａｖａ（登録商標）、Ｐｅｒｌ、Ｒｕｂｙなどのオブジェクト指向のプログラミング言語により記述されたアプリケーション・プログラムを格納し、実行する。

また、情報処理装置２００は、スタンドアローンの情報処理装置として構成することができる。また、他の実施形態では、情報処理装置２００は、ネットワーク（図示せず）を介してネットワーククライアント（図示せず）に類似音響を検索して提供する音響検索システムのサーバとして構成することができる。情報処理装置２００をサーバとして構成する実施形態では、情報処理装置２００は、インターネットなどに接続されたウェブサーバとして構成することが好ましい。情報処理装置２００をウェブサーバとして機能させる場合、情報処理装置２００は、ＲＦＣ２６１６などで規定されるＨＴＴＰプロトコルを使用してネットワーククライアントからの検索要求を受け付け、楽曲などの検索を実行する。なお、この場合、情報処理装置２００が実装するプログラムは、ＣＧＩプログラム、Ｓｅｒｖｌｅｔなどを使用して実装することができる。

情報処理装置２００は、本実施形態にしたがって楽曲を検索し、検索結果をＨＴＴＰレスポンスとしてネットワーククライアントに返すことにより、ネットワーククライアントが要求した楽曲を通知している。ネットワーククライアントは、例えば、楽曲の一部をＷａｖファイルなどとして送信するか、または楽曲のイメージを指定するイメージ語などをＣＧＩフォームから入力し、情報処理装置２００による検索を依頼する。情報処理装置２００は、フォームとして送付されたイメージ語を使用して音響データに基づいて楽曲の検索を実行し、検索された楽曲のタイトルなどをネットワーククライアントに送付する。

情報処理装置２００の詳細な機能構成について説明する。情報処理装置２００は、音響データ処理部２０２と、音響分析部２０４と、検索処理部２０６とを含んで構成されている。音響データ処理部２０２は、本実施形態にしたがい、実スペクトルとして音響データを取得し、音域および時間で規定されたブロックごとの音響データを生成する。また、音響データ処理部２０２は、情報処理装置２００が検索エンジンとして機能する場合、取得した音響データの前処理手段としても機能する。音響分析部２０４は、音響データ処理部２０２の処理結果を受領して各種特徴量を計算し、生理的レベル特徴量データベース（ＤＢ）２２２に登録する。また、音響分析部２０４は、本実施形態では、楽曲を表現するイメージ語などに対し、重回帰分析部２１８により与えられる重回帰係数と生理的レベル特徴量とを対応させ、認知的レベル特徴量として、認知的レベル特徴量データベース（ＤＢ）２２４に登録する。なお、他の実施形態では、重回帰分析部２１８の代わりに、「正準相関分析」「判別分析」「ＳＶＭ」などによる分析を行うことが可能な、分析処理部として実装することができる。

検索処理部２０６は、距離計算部２２０を含んで構成されている。検索処理部２０６は、取得した音響データまたはイメージ語を検索キーとして、生理的レベル特徴量ＤＢ２２２または認知的レベル特徴量ＤＢ２２４に照会を行い、取得した特徴量と、照会した特徴量との間の距離を計算する。なお、特徴量は、音響データ特徴付け空間の座標軸として定義することができ、特定の実施形態では、距離計算部２２０は、取得した音響データと生理的レベル特徴量ＤＢ２２２に登録された特徴量との間のノルム計算として実行することができる。

また、イメージ語を使用する場合、イメージ語に対応する重回帰係数を照会し、特徴量種類および重回帰係数を加味したノルム計算を実行する。検索処理部２０６は、距離計算の結果、ヒットした楽曲のタイトルまたは他の実施形態では、楽曲自体を、情報処理装置２００の外部出力とする。

音響データ処理部２０２は、さらに詳細には、音響取得部２０８を備えており、外部マイクロホン２２６、ネットワーク２２８、または記録媒体２３０などを介して取得するＷａｖｅファイルや、ＭＰＥＧ、ＭＰ３といったフォーマットの音響データを取得する。なお、外部マイクロホン２２６から音響データを取得する場合、Ａ／Ｄ変換処理部（図示せず）を実装していてもよい。取得した音響データは、周波数時間分割部２１０に渡される。周波数時間分割部２１０は、音響データの周波数範囲を複数の音域で分割し、さらに、後述するフーリエ変換部２１２での短時間フーリエ変換のための時間ウィンドウを設定する。

図３には、周波数時間分割部２１０が使用する音域指定データの実施形態を示す。図３に示す音域指定データ３００は、音響データの実スペクトルを、６つの音域に分割して指定している。図３に示した実施形態では、音域を、超低音域から高音域まで、６音域に分割して指定する。なお、本実施形態では、図３に示した音域指定以外の音域指定データを使用することも可能であり、図３の音域データは、単に例示的なものである。また、周波数時間分割部２１０は、実スペクトルを、後述する時間区間ｓごとにバッファリングし、フーリエ変換部２１２へと渡す処理を実行する。周波数時間分割部２１０の上記処理により、音響データの実スペクトルは、周波数区間および時間区間で指定される複数のブロックごとに処理され、ブロックごとの特徴量が計算される。

フーリエ変換部２１２は、本実施形態では、取得した実時間スペクトルに対し、短時間フーリエ変換を施す。短時間フーリエ変換は、入力された音響データの所定の時間区間ごとに、フーリエ変換を行い、パワースペクトル（ＰＳ）を求め、時間区間を順次ずらしてパワースペクトルを生成する方法である。

本実施形態では、短時間フーリエ変換を行うため、時間域を定義するための時間区間ｓを、以下の条件を使用して決定した。

n=12とすることで、分割される1領域あたりの時間は、BPM(Beats Per Minute)が160であるテンポの曲の基準となる、音符１つあたりの時間に相当する。ここで、BPMとは、四分音符が一分間に何回現れるかを示すものであり、一般的に音楽のテンポを表す指標として使われている値である。また、n=12という値は、n=11(BPM=320)、n=13(BPM=80)とした場合に比べ、分割される1領域あたりの時間が短すぎず長すぎない適切な値を提供する。また、n<11、13<nの範囲のnの値については、本実施形態では使用することも可能である。しかしながら、分割される1領域あたりの時間区間をn=12とする場合に比較し、時間区間が短すぎたり、長すぎるなどの点から、n=12を時間区間を設定するための標準値として使用することが好ましい。

生成されたブロックごとのＰＳは、特徴量計算部２１４に送られる。特徴量計算部２１４では、ウェーバー・フェヒナーの法則に基づき、ＰＳの対数であるｌｏｇ（ＰＳ）を計算する。さらに特徴量計算部２１４は、各ブロックごとの同時間音域間コントラストおよび別時間ブロック間コントラストを計算する。本実施形態で、用語「コントラスト」とは、下記式（２）で与えられる値のことを意味する。

上記コントラストに、評価対象のブロックのパワー合計値を使用することにより、人間の神経系の応答特性とよくマッチするものと考えられる。なお、同時間ブロック間コントラストは、同時に複数の音が発生した場合、互いの音に影響を及ぼすと考えられるため、同一の時間区間tにおける異なる音域間のlogPSのコントラストとして定義される。また、別時間ブロック間コントラストは、複数の音が連続して鳴った場合、前の音が後の音の聞こえ方に影響を及ぼすと考えられるため、異なる時間区間t、t+1における音域間のlogPSのコントラストとして定義される。

図４は、本実施形態で、情報処理装置２００に入力される音響データの実時間スペクトル４００を示す。図４中、縦軸が周波数（Ｈｚ）であり、横軸が時間（ｓｅｃ）である。情報処理装置２００は、図４に示す実時間スペクトル４００を取得すると、周波数時間分割部２１０により、実時間スペクトルのデータを、図５に示すブロックに割当てる。

図５は、実時間スペクトルに対するブロック割当て５００の実施形態を示す。実時間スペクトルには、ブロック５０２〜ブロック５０８が割当てられていて、各ブロックに含まれる値が短時間フーリエ変換に処理対象データとされる。また、「ａ」で示されたブロック５０６、５０８は、同時間ブロック間コントラストを計算するために用いられるブロック位置を例示する。また、「ｂ」で示すブロック５０２、５０４は、別時間ブロック間コントラストを計算するために用いられるブロックを例示する。

音響分析部２０４が計算した特徴量である、ブロック単位のＰＳ、同時間ブロック間コントラスト、別時間ブロック間コントラストは、それぞれブロックに対応付けられて、生理的レベル特徴量ＤＢ２２２に登録される。

また、音響分析部２０４は、さらに、イメージ語取得部２１６と、重回帰分析部２１８とを含んで構成される。イメージ語取得部２１６は、認知的レベルでの特徴量を作成するため、楽曲などのイメージを表すためのイメージ語を、例えばキーボードまたはネットワークから取得する。取得したイメージ語は、重回帰分析されて、生理的レベル特徴量と相関付けられ、重回帰係数などと共に、認知的レベル特徴量ＤＢ２２４に登録される。

図６は、本実施形態の音響分析方法での、音響データ処理部２０２の処理についての実施形態のフローチャートを示す。処理は、ステップＳ６００から開始し、ステップＳ６０１で音響データを取得する。ステップＳ６０２では、音響データの実スペクトルに対し、周波数区間および時間区間を割当てブロック化する。ステップＳ６０３では、ブロックごとに音響データのＰＳを計算する。ステップＳ６０４では、さらにブロックごとにＰＳの対数logPSを計算し、バッファメモリなどにブロック識別値に対応付けて登録する。

ステップＳ６０５では、同時間区間の異なる音域について同時に異なる音が発生した影響の尺度を与える同時間ブロック間コントラストを計算し、ブロック識別値に対応してバッファメモリなどに登録する。さらにステップＳ６０６では、異なる時刻の音の影響を特徴付けるために別時間ブロック間コントラストを計算し、バッファメモリなどにブロック識別値に対応付けて登録する。ステップＳ６０６の処理をより具体的に簡略化して説明すると、同時間ブロック間コントラストでは、バイオリンとコントラバスとに関連する音を対比し、別時間ブロック間コントラストは、バイオリンの時間変化の対比も行い、さらにバイオリンとコントラバスとの対比処理も行う。ステップＳ６０７では、ブロック識別値ごとにＰＳ、同時間ブロック間コントラスト、別時間ブロック間コントラスト、および楽曲のタイトルなどの音響識別値と共に、生理的レベル特徴量ＤＢ２２２データベースに登録し、ステップＳ６０８で処理を終了させる。なお、図６の処理が完了した段階で処理対象の音響データについての生理的レベル特徴量が登録される。なお、本実施形態では、単一の音響データについて、合計２１６次元の独立した特徴量が生成され、生理的レベル特徴量ＤＢ２２２に登録される。

図７は、本実施形態での認知的レベル特徴量を生成するための処理の実施形態でのフローチャートを示す。図７の処理は、ステップＳ７００から開始し、ステップＳ７０１で音響データを取得する。ステップＳ７０２では、音響データの実スペクトルに対し、周波数区間および時間区間を割当てブロック化する。ステップＳ７０３では、ブロックごとに音響データのＰＳを計算する。ステップＳ７０４では、さらにブロックごとにＰＳの対数logPSを計算し、バッファメモリなどにブロック識別値に対応付けて登録する。

ステップＳ７０５では、同時間区間の異なる音域について同時に異なる音が発生した影響の尺度を与える同時間ブロック間コントラストを計算し、ブロック識別値に対応してバッファメモリなどに登録する。さらにステップＳ７０６では、同音域間でのコントラストを計算するとともに、異なる時刻の音の影響を特徴付けるために別時間ブロック間コントラストを計算し、バッファメモリなどにブロック識別値に対応付けて登録する。なお、この処理は、ステップＳ６０６で説明したと同様の処理を用いることができる。ステップＳ７０７では、ブロック識別値ごとにイメージ語に対する重回帰係数、相関係数、重相関式およびイメージ語を取得する。ステップＳ７０８では、生理的レベル特徴量に対応付けて、重相関係数を認知的レベル特徴量ＤＢ２２４に登録し、ステップＳ７０９で処理を終了させる。

なお、認知的レベル特徴量としては、生理的レベル特徴量と重回帰係数などとを対応付けて登録するデータ構造とすることもできるし、重回帰係数などと音響識別値とを対応付けて登録し、生理的レベル特徴量については音響識別値をインデックスとして参照する構成とすることができる。これらの特定の実装形式は、記憶容量や検索速度など、特定のハードウェア資源の構成に応じて適宜選択することができる。

図８は、情報処理装置２００が、音響データを取得して実行する音響検索処理の実施形態についてのフローチャートを示す。図８の処理は、ステップＳ８００から開始し、ステップＳ８０１で音響データを取得する。ステップＳ８０２では、音響データ処理部２０２による前処理を実行する。その後、ステップＳ８０３では、検索処理部２０６により前処理データと、生理的レベル特徴量ＤＢ２２２から呼び出した生理的レベル特徴量とをブロック単位で距離計算する。

ステップＳ８０４では、最小距離の音響識別値で指定される音響データを検索結果として抽出し、ステップＳ８０５で処理を終了する。なお、検索結果は、最小距離の音響データのみを出力してもよいが、例えばトップ１０など、最小距離から降順に、例えば１０の音響データを選択し、検索結果として出力することもできる。

図９は、本実施形態の音響検索処理の第２の実施形態のフローチャートを示す。図９に示す処理は、ステップＳ９００から開始し、ステップＳ９０１で、イメージ語を取得する。ステップＳ９０２でイメージ語に対応付けられた重相関係数および重相関式を取得し、ステップＳ９０３で生理的レベル特徴量ＤＢ２２２または認識レベル特徴量ＤＢ２２４に登録された各特徴量について、重回帰分析を行い、目的関数の最小化を行う。ステップＳ９０４でイメージ語についての目的変数を最小化する音響識別値を有する音響データを検索結果として抽出し、ステップＳ９０５で処理を終了させる。なお、ステップＳ９０３の処理では、図８の第１実施形態と同様、最小値を与える音響データから降順に１０個の音響データを取得して検索候補として出力することもできる。なお、検索は、目的関数を最小化するのではなく、目的関数を最大化することによっても行うことができ、重回帰分析の係数設定に応じて適宜選択することができる。

以下、本発明につき、具体的な実施例をもって説明するが、本発明は、後述する実施例に限定されるものではない。

（実施例１：生理的レベル特徴量の評価）
音響データは、音響データの素材集（株式会社イーフロンティア、“音満タンDX”）効果音と人の声が録音されているものを除いた576曲を音楽データベースとした。さらに、576曲の音楽データベースからランダムに50曲を選択し、これを検索クエリーとして類似音楽の検索実験を行った。生理的レベル特徴量の評価は、検索結果の上位5位、10位、15位、20位までの平均適合率を求め、高速フーリエ変換により計算したＰＳを使用した検索結果と比較対比することにより行った。図１０には、評価のために使用した音響データのフォーマットおよび結果を示す。図１０（ａ）に示すように、音響データは、Ｗａｖｅファイルのフォーマットとされ、サンプリングレートは、22050Hz、量子化ビットは、８ビットとし、チャンネル数は、モノラルとした。

図１０（ｂ）には、本実施形態の特徴量を使用した場合と、高速フーリエ変換を使用した場合のそれぞれの検索結果のうち、検索クエリーとして使用した音響データのヒット率を示す。図１０（ｂ）に示すように、本実施形態のブロック化特徴量を使用した検索結果は、高速フーリエ変換を使用した検索結果に比較して、約１０％程度高い適合率を与えることが示された。高速フーリエ変換は、特徴量を音域・時間で分割していないため、曲の全体的な特徴のみを表すので、適合率が本実施例のブロック化特徴量による結果よりも低い適合率となったものと推定される。

さらに、図１０の結果に対して、Wilcoxonの符号付順位和検定を行い、本実施形態のブロック特徴量を用いた場合の適合率と、高速フーリエ変換を用いた場合の適合率との差について有意性を検証した。その結果、有意水準1%で2つの特徴量の適合率の差が有意と認められた。よって、提案特徴量を用いた場合、高速フーリエ変換より優れた精度を得られることが示された。
（実施例２：認知的レベル特徴量の評価）
認知的レベルでの感性モデルの妥当性を検証するために、人の感性と音楽の物理的な特徴を結びつける媒介として、イメージ語と呼ばれる形容詞を導入し、音響データを検索した。

（イメージ語の選出と実験概要）
聴覚感性モデル構築に使用するイメージ語を決めるため、予め被験者に「音楽の評価によく用いるイメージ語」についてアンケートを行った。その結果、1位〜6位までに挙げられたイメージ語を実験で用いるイメージ語として選出した。使用したイメージ語を図１１に示す。

次の段階として、実施例１で選択した576曲の音楽データベースからランダムに選択した288曲に対し、各イメージ語が当てはまるか当てはまらないかを5段階での評価をボランティアにより評価し、それぞれの音楽データについて、各イメージ語の評価値を目的変数とし、選択した288曲の物理特徴量を説明変数として、重回帰分析を行った。重回帰分析の結果得られた重回帰係数および重回帰式を、イメージ語ごとに求まった重回帰式をそのイメージ語についての聴覚感性モデルとして、認知的レベル特徴量ＤＢ２２４に登録した。また、216次元の物理特徴量をそのまま説明変数として用いた場合と、ステップワイズ法を用いて変数選択を行った場合での適合率について、2通りの解析を行った。

（実験結果）
構築した聴覚感性モデルを用いて、音楽の感性検索実験を行い、その検索精度から構築した聴覚感性モデルの評価を行った。具体的には、576曲の音楽データベースから聴覚感性モデル構築に使用しなかった残りの288曲を選択し、その生理的レベル特徴量に対してイメージ語ごとの重回帰式を当てはめ、求まった推定値が最小とする音楽を検索する。検索結果の評価は、イメージ語ごとに推定値の上位20位までの適合率をボランティアによる評価により決定した。

また、ステップワイズ法で変数選択を行わなかった場合と、変数選択を行った場合の重相関係数の差ついて、有意性が認められなかったため、両方の重回帰式について実験を行った。

実験結果を図１２に示す。図１２に示すように、イメージ語を検索クエリーとして検索を行った結果、極めて高い水準でイメージ語に対応した音楽データが検索されていることが示された。また、すべてのイメージ語について、変数選択を行った場合の適合率の方が同等以上の結果が得られた。この適合率の差について、Wilcoxonの符号付順位和検定を行った結果、有意水準1%で適合率の差が認められた。

本発明の上記機能は、Ｃ＋＋、Ｊａｖａ（登録商標）、Ｊａｖａ（登録商標）Ｂｅａｎｓ、Ｊａｖａ（登録商標）Ａｐｐｌｅｔ、Ｊａｖａ（登録商標）Ｓｃｒｉｐｔ、Ｐｅｒｌ、Ｒｕｂｙなどのオブジェクト指向プログラミング言語などで記述された装置実行可能なプログラムにより実現でき、装置可読な記録媒体に格納して頒布することができる。

これまで本発明を実施形態をもって説明してきたが、本発明は実施形態に限定されるものではなく、他の実施形態、追加、変更、削除など、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。

人間の知覚過程に見られる解釈による音楽の類似・非類似性やイメージ語による表現のモデル階層を示した図。本実施形態の情報処理装置の機能ブロック図。周波数時間分割部が使用する音域指定データの実施形態を示した図。本実施形態で、情報処理装置に入力される音響データの実時間スペクトルを示した図。実時間スペクトルに対するブロック割当ての実施形態を示した図。本実施形態の音響分析方法での、音響データ処理部２０２の処理についての実施形態のフローチャート。本実施形態での認知的レベル特徴量を生成するための処理の実施形態でのフローチャート。情報処理装置が、音響データを取得して実行する音響検索処理の実施形態についてのフローチャート。本実施形態の音響検索処理の第２の実施形態のフロチャート。評価のために使用した音響データのフォーマットおよび結果を示した図。実験に使用したイメージ語を示した図。イメージ語を検索クエリーとして検索を行った実験結果を示した図。

符号の説明

１００…モデル階層、２００…情報処理装置、２０２…音響データ処理部、２０４…音響処理部、２０６…検索処理部、２０８…音響取得部、２１０…周波数時間分割部、２１２…フーリエ変換部、２１４…特徴量計算部、２１６…イメージ語取得部、２１８…重回帰分析部、２２０…距離計算部、２２２…生理的レベル特徴量ＤＢ、２２４…認知的レベル特徴量ＤＢ、２２６…外部マイクロホン、２２８…ネットワーク、２３０…記録媒体

Claims

音響データを処理するための情報処理装置であって、前記情報処理装置は、
実スペクトルとして音響データを取得し、取得した前記音響データに対して周波数域および時間域によりブロックを割当て、前記ブロックごとにパワースペクトルを計算する音響データ処理手段と、
前記音響データ処理手段からのブロック単位でのパワースペクトルから前記ブロックについて同時および時間的に前後する音の影響の尺度を与えるため、比較するべき２つのブロックの異なる音域間のパワースペクトルの対数の差を、比較するべき２つのブロックの異なる音域間のパワースペクトルの対数の合計値で除算して生成されるブロック間コントラストをそれぞれ計算し、計算した前記ブロック間コントラストを生理的レベル特徴量とする音響分析手段と、
前記生理的レベル特徴量を前記音響データを識別するための音響識別値に対応付けて登録する生理的レベル特徴量データベース手段と
を含む、情報処理装置。
前記音響データ処理手段は、
前記音響データを取得する音響取得手段と、
前記音響データに対して前記周波数域および前記時間域に対応する前記ブロックを割当てる周波数時間分割手段と、
前記ブロックに含まれる前記周波数域について前記時間域で短時間フーリエ変換を実行して前記ブロック単位での前記パワースペクトルを計算するフーリエ変換手段と
を含む、請求項１に記載の情報処理装置。
前記音響分析手段は、
前記パワースペクトルから前記生理的レベル特徴量を計算するための特徴量計算手段と、
前記音響データについての前記生理的レベル特徴量に対して認知的レベルでの情報を提供するためのイメージ語を取得するイメージ語取得手段と、
前記イメージ語が与える前記認知的レベルから前記イメージ語を前記生理的レベル特徴量に相関づけて、認知的レベル特徴量データベース手段に登録する分析手段と
を含む、請求項１または２記載の情報処理装置。
前記音響データまたは前記イメージ語の入力を受け取って、前記生理的レベル特徴量データベース手段を検索し、前記音響データに生理的レベルで類似するか、または前記イメージ語の前記認知的レベルに類似する前記音響データを検索する検索処理部を含む、請求項１〜３のいずれか１項に記載の情報処理装置。
前記音響データは、音楽であり、ＷＡＶＥフォーマット、ＭＰＥＧフォーマット、ＭＰ３フォーマットとして前記情報処理装置が取得する、請求項１〜４のいずれか１項に記載の情報処理装置。
コンピュータにより音響データを処理するための音響処理方法であって、前記音響処理方法は、コンピュータが、
実スペクトルとして音響データを取得し、取得した前記音響データに対して周波数域および時間域によりブロックを割当て、前記ブロックごとにパワースペクトルを計算するステップと、
前記ブロック単位でのパワースペクトルから前記ブロックについて同時および時間的に前後する音の影響の尺度を与えるため、比較するべき２つのブロックの異なる音域間のパワースペクトルの対数の差を、比較するべき２つのブロックの異なる音域間のパワースペクトルの対数の合計値で除算して生成されるブロック間コントラストをそれぞれ計算し、計算した前記ブロック間コントラストを生理的レベル特徴量とするステップと、
前記生理的レベル特徴量を前記音響データを識別するための音響識別値に対応付けて生理的レベル特徴量データベース手段に登録するステップと
を実行する、音響処理方法。
前記パワースペクトルを計算するステップは、
前記音響データを取得するステップと、
前記音響データに対して前記周波数域および前記時間域に対応する前記ブロックを割当てるステップと、
前記ブロックに含まれる前記周波数域について前記時間域で短時間フーリエ変換を実行して前記ブロック単位での前記パワースペクトルを計算するステップと
を含む、請求項６に記載の音響処理方法。
前記生理的レベル特徴量を計算するステップは、
前記パワースペクトルから前記生理的レベル特徴量を計算するステップと、
前記音響データについての前記生理的レベル特徴量に対して認知的レベルでの情報を提供するためのイメージ語を取得するステップと、
前記イメージ語が与える前記認知的レベルから前記イメージ語を前記生理的レベル特徴量に相関づけて、認知的レベル特徴量データベース手段に登録するステップと
を含む請求項６または７記載の音響処理方法。
さらに前記コンピュータが、前記音響データまたは前記イメージ語の入力を受け取って、前記生理的レベル特徴量データベース手段を検索し、前記音響データに生理的レベルで類似するか、または前記イメージ語の前記認知的レベルに類似する前記音響データを検索するステップを実行する、請求項６〜８のいずれか１項に記載の音響処理方法。
前記音響データは、音楽であり、ＷＡＶＥフォーマット、ＭＰＥＧフォーマット、ＭＰ３フォーマットとして前記コンピュータが取得する、請求項６〜９のいずれか１項に記載の音響処理方法。
請求項１〜５のいずれか１項に記載の各手段としてコンピュータを機能させる、コンピュータ実行可能なプログラム。
ネットワークを介して音響データを検索する音響検索システムであって、前記音響検索システムは、
ネットワークと、
前記音響データと、ブロック単位で同時および時間的に前後する音の影響の尺度を与えるブロック間コントラストを含む生理的レベル特徴量とを対応付けて登録するデータベースと、
前記ネットワークに接続された請求項１〜５のいずれか１項に記載の情報処理装置と、
前記ネットワークに接続され、前記情報処理装置に対して検索クエリーを送信するネットワーククライアントと、
を含み、前記情報処理装置は、前記検索クエリーで前記データベースを検索し、前記検索クエリーに一致するかまたは類似する前記音響データを検索して、前記検索クエリーを発行した前記ネットワーククライアントに送付する、音響検索システム。