JP4982860B2 - 音響処理のための情報処理装置、音響処理方法、プログラム、および音響検索システム - Google Patents
音響処理のための情報処理装置、音響処理方法、プログラム、および音響検索システム Download PDFInfo
- Publication number
- JP4982860B2 JP4982860B2 JP2007199332A JP2007199332A JP4982860B2 JP 4982860 B2 JP4982860 B2 JP 4982860B2 JP 2007199332 A JP2007199332 A JP 2007199332A JP 2007199332 A JP2007199332 A JP 2007199332A JP 4982860 B2 JP4982860 B2 JP 4982860B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic data
- acoustic
- sound
- block
- physiological level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
橋本雄弥、福井健一、森本甲一、栗原聡、沼尾正行:楽曲構造における個人感性獲得機構、人工知能学会全国大会(20回) 市川裕也、田村哲嗣、速水悟:印象語のグループ化を用いた楽曲推薦システム、人工知能学会全国大会(20回)
また、本発明は、音響データに対しても類似検索を可能とし、さらにユーザの認識レベルの範囲に適合する音響データを検索してユーザに提示する、情報処理装置、音響処理方法、プログラムおよび音響検索システムを提供することを目的とする。
前記音響データ処理手段からのブロック単位でのパワースペクトルから前記ブロックについて同時および時間的に前後する音の影響の尺度を与えるため、比較するべき2つのブロックの異なる音域間のパワースペクトルの対数の差を、比較するべき2つのブロックの異なる音域間のパワースペクトルの対数の合計値で除算して生成されるブロック間コントラストをそれぞれ計算し、計算した前記ブロック間コントラストを生理的レベル特徴量とする音響分析手段と、
前記生理的レベル特徴量を前記音響データを識別するための音響識別値に対応付けて登録する生理的レベル特徴量データベース手段と
を含む、情報処理装置が提供される。
前記音響データを取得する音響取得手段と、
前記音響データに対して前記周波数域および前記時間域に対応する前記ブロックを割当てる周波数時間分割手段と、
前記ブロックに含まれる前記周波数域について前記時間域で短時間フーリエ変換を実行して前記ブロック単位での前記パワースペクトルを計算するフーリエ変換手段と
を含むことができる。
前記パワースペクトルから前記生理的レベル特徴量を計算するための特徴量計算手段と、
前記音響データについての前記生理的レベル特徴量に対して認知的レベルでの情報を提供するためのイメージ語を取得するイメージ語取得手段と、
前記イメージ語が与える前記認知的レベルから前記イメージ語を前記生理的レベル特徴量に相関づけて、認知的レベル特徴量データベース手段に登録する分析手段と
を含むことができる。
実スペクトルとして音響データを取得し、取得した前記音響データに対して周波数域および時間域によりブロックを割当て、前記ブロックごとにパワースペクトルを計算するステップと、
前記ブロック単位でのパワースペクトルから前記ブロックについて同時および時間的に前後する音の影響の尺度を与えるため、比較するべき2つのブロックの異なる音域間のパワースペクトルの対数の差を、比較するべき2つのブロックの異なる音域間のパワースペクトルの対数の合計値で除算して生成されるブロック間コントラストをそれぞれ計算し、計算した前記ブロック間コントラストを生理的レベル特徴量とするステップと、
前記生理的レベル特徴量を前記音響データを識別するための音響識別値に対応付けて生理的レベル特徴量データベース手段に登録するステップと
を実行する、音響処理方法が提供される。
前記音響データを取得するステップと、
前記音響データに対して前記周波数域および前記時間域に対応する前記ブロックを割当てるステップと、
前記ブロックに含まれる前記周波数域について前記時間域で短時間フーリエ変換を実行して前記ブロック単位での前記パワースペクトルを計算するステップと
を含むことができる。
前記パワースペクトルから前記生理的レベル特徴量を計算するステップと、
前記音響データについての前記生理的レベル特徴量に対して認知的レベルでの情報を提供するためのイメージ語を取得するステップと、
前記イメージ語が与える前記認知的レベルから前記イメージ語を前記生理的レベル特徴量に相関づけて、認知的レベル特徴量データベース手段に登録するステップと
を含むことができる。
ネットワークを介して音響データを検索する音響検索システムであって、前記音響検索システムは、
ネットワークと、
前記音響データと、ブロック単位で同時および時間的に前後する音の影響の尺度を与えるブロック間コントラストを含む生理的レベル特徴量とを対応付けて登録するデータベースと、
前記ネットワークに接続された上記いずれかに記載の情報処理装置と、
前記ネットワークに接続され、前記情報処理装置に対して検索クエリーを送信するネットワーククライアントと、
を含み、前記情報処理装置は、前記検索クエリーで前記データベースを検索し、前記検索クエリーに一致するかまたは類似する前記音響データを検索して、前記検索クエリーを発行した前記ネットワーククライアントに送付する、音響検索システムが提供できる。
音響データは、音響データの素材集(株式会社イーフロンティア、“音満タンDX”)効果音と人の声が録音されているものを除いた576曲を音楽データベースとした。さらに、576曲の音楽データベースからランダムに50曲を選択し、これを検索クエリーとして類似音楽の検索実験を行った。生理的レベル特徴量の評価は、検索結果の上位5位、10位、15位、20位までの平均適合率を求め、高速フーリエ変換により計算したPSを使用した検索結果と比較対比することにより行った。図10には、評価のために使用した音響データのフォーマットおよび結果を示す。図10(a)に示すように、音響データは、Waveファイルのフォーマットとされ、サンプリングレートは、22050Hz、量子化ビットは、8ビットとし、チャンネル数は、モノラルとした。
(実施例2:認知的レベル特徴量の評価)
認知的レベルでの感性モデルの妥当性を検証するために、人の感性と音楽の物理的な特徴を結びつける媒介として、イメージ語と呼ばれる形容詞を導入し、音響データを検索した。
聴覚感性モデル構築に使用するイメージ語を決めるため、予め被験者に「音楽の評価によく用いるイメージ語」についてアンケートを行った。その結果、1位〜6位までに挙げられたイメージ語を実験で用いるイメージ語として選出した。使用したイメージ語を図11に示す。
構築した聴覚感性モデルを用いて、音楽の感性検索実験を行い、その検索精度から構築した聴覚感性モデルの評価を行った。具体的には、576曲の音楽データベースから聴覚感性モデル構築に使用しなかった残りの288曲を選択し、その生理的レベル特徴量に対してイメージ語ごとの重回帰式を当てはめ、求まった推定値が最小とする音楽を検索する。検索結果の評価は、イメージ語ごとに推定値の上位20位までの適合率をボランティアによる評価により決定した。
Claims (12)
- 音響データを処理するための情報処理装置であって、前記情報処理装置は、
実スペクトルとして音響データを取得し、取得した前記音響データに対して周波数域および時間域によりブロックを割当て、前記ブロックごとにパワースペクトルを計算する音響データ処理手段と、
前記音響データ処理手段からのブロック単位でのパワースペクトルから前記ブロックについて同時および時間的に前後する音の影響の尺度を与えるため、比較するべき2つのブロックの異なる音域間のパワースペクトルの対数の差を、比較するべき2つのブロックの異なる音域間のパワースペクトルの対数の合計値で除算して生成されるブロック間コントラストをそれぞれ計算し、計算した前記ブロック間コントラストを生理的レベル特徴量とする音響分析手段と、
前記生理的レベル特徴量を前記音響データを識別するための音響識別値に対応付けて登録する生理的レベル特徴量データベース手段と
を含む、情報処理装置。 - 前記音響データ処理手段は、
前記音響データを取得する音響取得手段と、
前記音響データに対して前記周波数域および前記時間域に対応する前記ブロックを割当てる周波数時間分割手段と、
前記ブロックに含まれる前記周波数域について前記時間域で短時間フーリエ変換を実行して前記ブロック単位での前記パワースペクトルを計算するフーリエ変換手段と
を含む、請求項1に記載の情報処理装置。 - 前記音響分析手段は、
前記パワースペクトルから前記生理的レベル特徴量を計算するための特徴量計算手段と、
前記音響データについての前記生理的レベル特徴量に対して認知的レベルでの情報を提供するためのイメージ語を取得するイメージ語取得手段と、
前記イメージ語が与える前記認知的レベルから前記イメージ語を前記生理的レベル特徴量に相関づけて、認知的レベル特徴量データベース手段に登録する分析手段と
を含む、請求項1または2記載の情報処理装置。 - 前記音響データまたは前記イメージ語の入力を受け取って、前記生理的レベル特徴量データベース手段を検索し、前記音響データに生理的レベルで類似するか、または前記イメージ語の前記認知的レベルに類似する前記音響データを検索する検索処理部を含む、請求項1〜3のいずれか1項に記載の情報処理装置。
- 前記音響データは、音楽であり、WAVEフォーマット、MPEGフォーマット、MP3フォーマットとして前記情報処理装置が取得する、請求項1〜4のいずれか1項に記載の情報処理装置。
- コンピュータにより音響データを処理するための音響処理方法であって、前記音響処理方法は、コンピュータが、
実スペクトルとして音響データを取得し、取得した前記音響データに対して周波数域および時間域によりブロックを割当て、前記ブロックごとにパワースペクトルを計算するステップと、
前記ブロック単位でのパワースペクトルから前記ブロックについて同時および時間的に前後する音の影響の尺度を与えるため、比較するべき2つのブロックの異なる音域間のパワースペクトルの対数の差を、比較するべき2つのブロックの異なる音域間のパワースペクトルの対数の合計値で除算して生成されるブロック間コントラストをそれぞれ計算し、計算した前記ブロック間コントラストを生理的レベル特徴量とするステップと、
前記生理的レベル特徴量を前記音響データを識別するための音響識別値に対応付けて生理的レベル特徴量データベース手段に登録するステップと
を実行する、音響処理方法。 - 前記パワースペクトルを計算するステップは、
前記音響データを取得するステップと、
前記音響データに対して前記周波数域および前記時間域に対応する前記ブロックを割当てるステップと、
前記ブロックに含まれる前記周波数域について前記時間域で短時間フーリエ変換を実行して前記ブロック単位での前記パワースペクトルを計算するステップと
を含む、請求項6に記載の音響処理方法。 - 前記生理的レベル特徴量を計算するステップは、
前記パワースペクトルから前記生理的レベル特徴量を計算するステップと、
前記音響データについての前記生理的レベル特徴量に対して認知的レベルでの情報を提供するためのイメージ語を取得するステップと、
前記イメージ語が与える前記認知的レベルから前記イメージ語を前記生理的レベル特徴量に相関づけて、認知的レベル特徴量データベース手段に登録するステップと
を含む請求項6または7記載の音響処理方法。 - さらに前記コンピュータが、前記音響データまたは前記イメージ語の入力を受け取って、前記生理的レベル特徴量データベース手段を検索し、前記音響データに生理的レベルで類似するか、または前記イメージ語の前記認知的レベルに類似する前記音響データを検索するステップを実行する、請求項6〜8のいずれか1項に記載の音響処理方法。
- 前記音響データは、音楽であり、WAVEフォーマット、MPEGフォーマット、MP3フォーマットとして前記コンピュータが取得する、請求項6〜9のいずれか1項に記載の音響処理方法。
- 請求項1〜5のいずれか1項に記載の各手段としてコンピュータを機能させる、コンピュータ実行可能なプログラム。
- ネットワークを介して音響データを検索する音響検索システムであって、前記音響検索システムは、
ネットワークと、
前記音響データと、ブロック単位で同時および時間的に前後する音の影響の尺度を与えるブロック間コントラストを含む生理的レベル特徴量とを対応付けて登録するデータベースと、
前記ネットワークに接続された請求項1〜5のいずれか1項に記載の情報処理装置と、
前記ネットワークに接続され、前記情報処理装置に対して検索クエリーを送信するネットワーククライアントと、
を含み、前記情報処理装置は、前記検索クエリーで前記データベースを検索し、前記検索クエリーに一致するかまたは類似する前記音響データを検索して、前記検索クエリーを発行した前記ネットワーククライアントに送付する、音響検索システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007199332A JP4982860B2 (ja) | 2007-07-31 | 2007-07-31 | 音響処理のための情報処理装置、音響処理方法、プログラム、および音響検索システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007199332A JP4982860B2 (ja) | 2007-07-31 | 2007-07-31 | 音響処理のための情報処理装置、音響処理方法、プログラム、および音響検索システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009036862A JP2009036862A (ja) | 2009-02-19 |
JP4982860B2 true JP4982860B2 (ja) | 2012-07-25 |
Family
ID=40438864
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007199332A Expired - Fee Related JP4982860B2 (ja) | 2007-07-31 | 2007-07-31 | 音響処理のための情報処理装置、音響処理方法、プログラム、および音響検索システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4982860B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013008956A1 (ja) * | 2011-07-14 | 2013-01-17 | 日本電気株式会社 | 音響処理方法と音響処理システム、ビデオ処理方法とビデオ処理システム、音響処理装置およびその制御方法と制御プログラム |
JP5961048B2 (ja) * | 2012-06-25 | 2016-08-02 | 日本放送協会 | 聴覚印象量推定装置及びそのプログラム |
KR20200142787A (ko) | 2019-06-13 | 2020-12-23 | 네이버 주식회사 | 멀티미디어 신호 인식을 위한 전자 장치 및 그의 동작 방법 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4622199B2 (ja) * | 2001-09-21 | 2011-02-02 | 日本ビクター株式会社 | 楽曲検索装置及び楽曲検索方法 |
JP3886372B2 (ja) * | 2001-12-13 | 2007-02-28 | 松下電器産業株式会社 | 音響変節点抽出装置及びその方法、音響再生装置及びその方法、音響信号編集装置、音響変節点抽出方法プログラム記録媒体、音響再生方法プログラム記録媒体、音響信号編集方法プログラム記録媒体、音響変節点抽出方法プログラム、音響再生方法プログラム、音響信号編集方法プログラム |
JP2004334160A (ja) * | 2002-09-24 | 2004-11-25 | Matsushita Electric Ind Co Ltd | 特徴量抽出装置 |
JP4483561B2 (ja) * | 2004-12-10 | 2010-06-16 | 日本ビクター株式会社 | 音響信号分析装置、音響信号分析方法及び音響信号分析プログラム |
-
2007
- 2007-07-31 JP JP2007199332A patent/JP4982860B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009036862A (ja) | 2009-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alluri et al. | Exploring perceptual and acoustical correlates of polyphonic timbre | |
Fu et al. | A survey of audio-based music classification and annotation | |
Li et al. | Music data mining | |
US6657117B2 (en) | System and methods for providing automatic classification of media entities according to tempo properties | |
US7532943B2 (en) | System and methods for providing automatic classification of media entities according to sonic properties | |
Mitrović et al. | Features for content-based audio retrieval | |
McKinney et al. | Ambiguity in tempo perception: What draws listeners to different metrical levels? | |
US7035873B2 (en) | System and methods for providing adaptive media property classification | |
US20030045954A1 (en) | System and methods for providing automatic classification of media entities according to melodic movement properties | |
US20050097075A1 (en) | System and methods for providing automatic classification of media entities according to consonance properties | |
CN106991163A (zh) | 一种基于演唱者声音特质的歌曲推荐方法 | |
Gygi et al. | Development of the database for environmental sound research and application (DESRA): Design, functionality, and retrieval considerations | |
Smith et al. | Audio properties of perceived boundaries in music | |
Hoffmann et al. | Music recommendation system | |
Thorogood et al. | Impress: A Machine Learning Approach to Soundscape Affect Classification for a Music Performance Environment. | |
JP4982860B2 (ja) | 音響処理のための情報処理装置、音響処理方法、プログラム、および音響検索システム | |
Corcoran et al. | Playing it straight: Analyzing jazz soloists’ swing eighth-note distributions with the weimar jazz database | |
Aucouturier | Sounds like teen spirit: Computational insights into the grounding of everyday musical terms | |
Herrera et al. | SIMAC: Semantic interaction with music audio contents | |
Chen et al. | Cross-cultural music emotion recognition by adversarial discriminative domain adaptation | |
Schindler et al. | The europeana sounds music information retrieval pilot | |
Tzanetakis et al. | Music analysis and retrieval systems for audio signals | |
US20030120679A1 (en) | Method for creating a database index for a piece of music and for retrieval of piece of music | |
Hughes et al. | Fractal dimensions of music and automatic playlist generation: similarity search via MP3 song uploads | |
Lukasik | Towards timbre-driven semantic retrieval of violins |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100715 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120209 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120313 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120405 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150511 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |