JP2007534995A - 音声信号を分類する方法及びシステム - Google Patents

音声信号を分類する方法及びシステム Download PDF

Info

Publication number
JP2007534995A
JP2007534995A JP2007510188A JP2007510188A JP2007534995A JP 2007534995 A JP2007534995 A JP 2007534995A JP 2007510188 A JP2007510188 A JP 2007510188A JP 2007510188 A JP2007510188 A JP 2007510188A JP 2007534995 A JP2007534995 A JP 2007534995A
Authority
JP
Japan
Prior art keywords
feature
feature vector
classification
music
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007510188A
Other languages
English (en)
Inventor
ディルク ブレーバールト
マーティン マッキネイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2007534995A publication Critical patent/JP2007534995A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2230/00General physical, ergonomic or hardware implementation of electrophonic musical tools or instruments, e.g. shape or architecture
    • G10H2230/005Device type or category
    • G10H2230/015PDA [personal digital assistant] or palmtop computing devices used for musical purposes, e.g. portable music players, tablet computers, e-readers or smart phones in which mobile telephony functions need not be used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2230/00General physical, ergonomic or hardware implementation of electrophonic musical tools or instruments, e.g. shape or architecture
    • G10H2230/005Device type or category
    • G10H2230/021Mobile ringtone, i.e. generation, transmission, conversion or downloading of ringing tones or other sounds for mobile telephony; Special musical data formats or protocols herefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/011Files or data streams containing coded musical information, e.g. for transmission
    • G10H2240/046File format, i.e. specific or non-standard musical file format used in or adapted for electrophonic musical instruments, e.g. in wavetables
    • G10H2240/061MP3, i.e. MPEG-1 or MPEG-2 Audio Layer III, lossy audio compression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • G10H2240/081Genre classification, i.e. descriptive metadata for classification or selection of musical pieces according to style
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/091Info, i.e. juxtaposition of unrelated auxiliary information or commercial messages with or between music files
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/135Library retrieval index, i.e. using an indexing scheme to efficiently retrieve a music piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/155Library update, i.e. making or modifying a musical database using musical parameters as indices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • G10H2250/031Spectrum envelope processing

Abstract

本発明は、音声入力信号(1)を分類する方法であって、前記音声信号(1)の複数の特徴(2)を抽出するステップと、これらの特徴(2)に基づき前記入力音声信号(1)に関する特徴ベクトル(3)を導出するステップと、前記入力音声信号(1)に関する前記特徴ベクトル(3)が、特定の公表日情報にそれぞれ対応する複数の分類(C1、C2、…、Cn)のいずれかの範囲にある可能性を決定するステップと、を有する方法を記載する。

Description

本発明は、全般的に音声入力信号、特に音楽トラックを分類するシステム及び方法に関するとともに、音声入力信号、特に音楽トラックを分類する音声処理装置に関する。
消費者は、ブロードバンド技術、伝送帯域幅、及びインターネットの発達の結果として、また消費者用の記憶装置の容量が益々増加しているおかげで、現在、急速に増加する量のマルチメディアコンテンツへのアクセスを有する。10000曲を超える音楽コレクションは、例外ではない。この増加に伴い、コンテンツの自動フィルタ化ステップ、処理ステップ、及び記憶ステップに関する必要性が生じている。斯様な大規模な音楽データベースからの音楽の組織化及び選択は、困難であり、時間の浪費である。この問題は、実際の音声データファイルへ特定の方法で添付された追加的な情報タグであると理解され得るメタデータを含ませることによって部分的に対処され得る。メタデータは、しばしば、サービス提供者により提供されるが、これらのサービスを利用するためには、消費者は、多くの場合、該サービス提供者へのオンライン接続を必要とし、このサービス提供者は、消費者に取得されるデータに関してたいてい課金するであろう。したがって、外部サービス提供者からのメタデータの取得は、消費者に取って常に魅力的ではないかもしれない。
音声の自動分類に関する現在の技術は、一般的に、分析が基づかれ得る音声から抽出される関連する特徴に依存する。例えば、国際特許公開公報第01/20483 A2号は、第1の音楽片と類似する第2の音楽片に関するデータベースにおいて検索する方法を記載する。この文書では、該データベースは、パラメータの形式にある一種のメタデータとそれぞれ関連付けられる楽曲のコレクションから構成される。パラメータは、第1の音楽片において識別され、データベースにおける一致する一群のパラメータを位置特定するために分析される。この方法は、第1楽曲に類似する第2楽曲を位置特定することに制限され、したがって、全て同じである楽曲を聴取したいと望まないであろうユーザにとって非常に限定された興味でしかなくあり得る。
最近の研究は、人々の音楽の好みが、人々が10歳から20歳の間であった頃に人気のあった音楽と一致することを示している。このことは、多くの人が、例えば80年代などの特定の10年間からの音楽に関する好みを有することを意味する。特定の時代からの楽曲、又はその時代から生じているように聞こえる楽曲を発見することは難しい。楽曲の公表日を示すメタデータは、特にメタデータの使用が比較的近年の開発であり、古いコレクションがメタデータを使用し得ないので、コレクション中の楽曲のすべてに関して常に入手可能ではあり得ない。
したがって、本発明の目的は、メタデータを使用することなく、音声セグメントの公表日を容易に特定するのに用いられ得る方法及びシステムを提供することである。
この目的を果たすために、本発明は、公表日に従い音声入力信号を分類する方法であって、当該方法は、以下のステップ、すなわち、前記音声信号の少なくとも1つの特徴を抽出するステップと、前記少なくとも1つの抽出された特徴に基づき前記入力音声信号に関する特徴ベクトルを導出するステップと、前記入力音声信号に関する前記特徴ベクトルが、特定の公表日情報にそれぞれ対応する複数の分類のいずれかの範囲にある可能性を決定するステップと、有する。ここにおいて、該「音声入力信号」は、音声データファイル、音楽トラック、サウンドトラック及びMP3音楽ファイルなどから生じ得る信号である。該音声入力信号は、更なるデジタル信号処理に関してデジタル形式に変換されるのが必ずというわけではないが好ましい、例えばマイクからなどのアナログ信号でもあり得る。該音声信号の短い引用は、本発明による方法を用いてその公表日の推定に関して十分である。
上述の方法に従い音声入力信号の公表日を分類する適切なシステムは、以下の手段、すなわち、該音声入力信号の少なくとも1つの特徴を抽出する特徴抽出ユニット、前記少なくとも1つの特徴に基づき前記入力音声信号に関する特徴ベクトルを導出する導出ユニット、及び前記入力音声信号に関する前記特徴ベクトルが、特定の公表日情報にそれぞれ対応する複数の分類のいずれかの範囲にある可能性を決定する可能性決定ユニットを備える。
斯様な方法及びシステムは、音声入力信号の公表日を自動的に推定する容易な手法を提供する。これにより、該フレーズ公表日は、特定の暦年だけでなく、「70年代初期」若しくは「1998年前後のいつか」、又は特定の日付のようないかなる他の時間点などの期間をも示すように意図され得る。例えば、公表日は、音声信号が公表された可能性が最も高い不確定性の尺度を規定する持続時間によって先行される又は後に続き得る年として規定される公表年であり得る。特定の音声信号に関する識別された公表の期間を形成する時間スパンの全体長さは、該音声信号が日付をつけられ得る正確性の尺度として解釈され得る。したがって、識別される年を形成する比較的短い時間スパンは、対応する音声信号が、識別される公表期間から生じるように確信して仮定され得、長い時間スパンは、該音声信号の元の提案される日付に関する不確定性の尺度を参酌し得ることを示し得る。
本発明の適切な応用例によって、実際の公表日と知覚される公表日との間の区別も行われ得る。前記実際の公表日は、実際に、特定の曲が公表された年であるのに対して、前記知覚される公表日は、たいていの聴取者が該曲を関連付け得る年である。カバーバージョンとオリジナルとの両方に関して異なる実際の公表日の情報は、抽出される特徴を元にして正確に推定され得る。オリジナルに非常に類似するカバーバージョンの場合であって、カバーバージョンがジャンル特性及びスタイルなどにおいてオリジナルとはっきりと違わないが、相当後に公表された場合において、当該カバーバージョンは、所望である場合、知覚される公表日を用いて分類され得る。
従属項及び後続の説明は、本発明の特に有利な実施例及び特徴を開示する。
「特徴」は、信号帯域、信号エネルギー、スペクトルロールオフ周波数及びスペクトル重心などの音声入力信号の記述的な特性である。特性を抽出する前に、音声信号は、通常、デジタル形式に変換される。その後、例えば音声標本のオーバーラップするフレームから特徴が計算され得る。パワースペクトルを計算するステップ、パワースペクトルを正規化するステップ、及び複数の個別のエネルギーバンドにわたりエネルギーを計算するステップなどの更なる処理ステップは、複数の追加的な特徴を与えるために前記抽出される特徴に実行される。最終的に、特徴の全体の群の間から、特徴の選択が、前記音声入力信号に関する特徴ベクトルを与えるために、一緒に集められる。
該入力音声信号に関して斯様にして導出される特徴ベクトルは、その後、該音声信号を分類するのに用いられ得る。この目的を果たすために、特定の公表日情報にそれぞれが対応する複数の可能な分類のうちのいずれか1つの範囲に該特徴ベクトルが入る可能性を決定するのに、該特徴ベクトルに分析が実行される。分類は、点のクラスタによってグラフィカルに表現され得、各点は、特徴ベクトルによって示される。該クラスタは、n次元特徴空間において構成されるように理解され得、nは、各特徴ベクトルを計算するのに用いられる特徴の数に対応する。各クラスタは、特定の公表日に関する音声信号の分類に関して表される音声信号コレクションからの音声信号に関して事前に計算された特徴ベクトルに基づき構築される。該音声信号コレクションは、高い分類成功率を保証するために、好ましくは、所望の公表日分類の全てにわたり分布する十分に大量の音声信号を有する。
本発明の好ましい実施例において、特定の公表日情報を表す分類(又はそれに対応するクラスタ)は、この公表日情報に関連付けられる事前に計算される特徴ベクトルのコレクションから導出されるモデルによって記述され得る。斯様なモデルは、例えば、各分類が自身の平均ベクトル及び自身の共分散行列を有するガウス多変数モデルであり得る。モデル空間の次元性は、可能な最良の分類化結果を保証するために、可能な限り低く保たれる一方で、生じるモデルの分類又はクラスタ間の可能な最良の識別を与える特徴を選択する。用いる最適な特徴の群を発生させるために、次元低減及び特徴各付けの既知の方法が適用され得る。この特徴の群は、音声信号のコレクションに基づき分類モデルを構築するとともに、後に、該モデルを用いて分類されるべきいかなる入力音声信号に関しても特徴ベクトルを計算するのに用いられる。
音声入力信号の特徴ベクトルが特定の分類の範囲に入る可能性を計算する、すなわち特徴ベクトルを分類することに関して、多数の既知の方法が利用可能である。
本発明の好ましい実施例において、判別分析(discriminant analysis)の方法が適用される。この分析の方法を用いると、特徴ベクトルは、特定の分類がこの特徴ベクトルを含む可能性を決定するBayesルールなどを用い、各分類に関する平均値及び共分散行列に基づき各分類に関して事前に計算された可能性密度を適用して分類され得る。該共分散行列が複数の分類にわたり異なる場合、判別関数は二次であり、これにより、決定境界は、該特徴空間において二次表面を形成する。この方法は、この場合に、二次判別分析と呼ばれる。共分散行列が複数の分類にわたり一定である場合、決定境界は、特徴空間のおいて線形表面を形成し、当該分析の方法は、線形判別分析として知られている。
これらの分析の方法を用いると、該特徴空間における特徴ベクトルの位置は、「局地化」され得、これにより、この位置が最も近くに関連付けられる分類が決定され得る。該特徴ベクトルが特定の公表日と関連付けられる特定の分類の中心に向かって明確に位置される場合、該関連付けられる音声入力信号は、「1970」などの対応する日付に公表されたとして仮定され得る。しかし、該特徴ベクトルが縁部又はクラスタの境界に更に向かって位置される場合、不正確性は、該公表日を形成する時間スパンに反映される。例えば、公表日又は公表年はそれぞれ、該音声入力信号に関して、「1970±2」として報告され得る。
特徴の選択は、該分類方法の成功にかなりの効果を有し得る。したがって、本発明の特に好ましい実施例において、該音声入力信号を分類するのに用いられる特徴ベクトルは、該音声入力信号の聴覚フィルタ時間包絡線変調特徴及び/又は心理音響特徴を有する。
聴覚フィルタ時間包絡線(AFTE)変調特徴は、ガンマトーンフィルタとして知られる特定の種類の複数のフィルタを用いて入力音声信号をフィルタ処理することによって得られ、このガンマトーンフィルタのスペクトル形状は、人間聴覚システムの周波数解像度に似ている。更なる処理は、AFTE特徴の一群を与えるのにフィルタ処理された信号に実行される。AFTE特徴群のパワーフルな特性は、分類化目的に関する関連情報を含む波形周波数スペクトル及び包絡線周波数スペクトルの部分の識別を可能にするものである。分類化に関する標準ガウスフレームワークを用いると、結果は、特徴の時間的振る舞いが自動音声分類化に関して重要であることを示す。加えて、分類化は、標準特徴よりもむしろ聴覚知覚のモデルからの特徴に基づく場合、平均してより良い。
心理音響特徴は、ラフネス(roughness)、シャープネス(sharpness)、ラウドネス(loudness)などの知覚されるものに基づく。ラフネスは、約20-150Hzの範囲における時間的包絡線変調の知覚であり、70Hz付近で変調に関する最大値を示す。ラウドネスは、強度の感覚であり、シェープネスは、高周波数エネルギーの相対的強度及びスペクトル密度に関する知覚である。これらの特徴は、音楽制作のいくつかの品質が、録音及びミキシング機器における発達に対応して年を経て変化し、これらの品質が心理音響特徴によって部分的に反映されることが確認されているので、公表年分類において特に有用性があり得る。例えば、音楽のラウドネスは、年を経ると徐々に増加してきており、これにより、ラウドネスは、音楽片の元の日付をつけることにおいて良い効果とされ得る。
このことは、本文書に記載のシステムが実際の及び知覚される発売日分類の両方に関して用いられるのを可能にする。既述のように、音楽片が作成されて、そしてかなり後に公表されていたとしても、この音楽片が、特定の時間から日付をつけるように知覚され得る。実際の公表日は、記載の方法を用いて識別され得る。
好ましくは、ラウドネスなどの特徴のいくつかを反復して調整し、分類処理を実行することによって、知覚される公表日も容易に識別され得る。該調整は、特徴に関する重み付け係数を適合するステップ、又はいくつかの類似の手続きを含み得る。例えば、Abbaのナンバーのカバーバージョン、又はAbbaのスタイルをコピーする傾向のある音楽片は、90年代に公表されたとしても、ラウドネス等から導出される特徴が70年代に関して典型的なレベルを反映するように調整される場合、70年代後半であるとなお正確に識別され得る。一方で、本発明は、過去のジャンルの典型的な特性を示す音楽片の正確な公表日を、この音楽片がかなり後の時間点で公表されたとしても認識し得る。
本発明は、様々な音声処理応用例に関して有用であり得る。例えば、好ましい実施例において、上述の音声入力信号の公表年を推定する分類システムは、特定の公表日の年に従い音声標本を選択する音声処理装置に組み込まれ得る。該音声処理装置は、公表日に基づきデータベースから1つ又は複数の音楽データファイルを選択する音楽クエリシステムを備え得る。該音声処理装置は、公表日を推定する前に音楽データファイルから抽出される音声信号の特徴に実行されるべきいずれかの処理ステップを決定するために、ユーザ入力を解釈し得る。例えば、該装置のユーザは、音楽片がその音楽片の実際の公表日に基づき選択されるべきであるか、又は音楽片が知覚される公表日に基づき選択されるべきであるかを特定するパラメータを入力することが可能である。斯様にして、該ユーザは、1つ又は複数のジャンルの中から、又は特定の10年間若しくは時間スパンから、音楽のコレクションを容易に寄せ集めることが可能であり、又は該ユーザは、実際の公表年に関わらず、60年代タイプのロックンロールなどの特定の種類の音楽を特定することを好み得る。特定の音楽片に関して推定されると、該音声処理装置は、将来の使用のために、該実際の及び/又は知覚される公表日情報を、ローカル又は外部データベースに記憶し得る。
該音声処理装置の別の実施例は、所望のシーケンスに従い音楽データベースから複数の音楽片を選択する自動DJ機器を含み得る。斯様な自動DJ機器は、録音スタジオ、ラジオ又はテレビ局、及びディスコなどにおけるプロ用の装置であり得るか、又はPC、家庭用娯楽装置、PDA又は携帯電話などに組み込まれ得る。該自動DJ機器は、選択される音楽片を再生する音声出力を備え得るか、又は音楽を再生する別個の手段に接続され得る。該自動DJ機器は、例えばインターネットなどの遠隔音楽データベースに、又は例えば家庭用娯楽装置のMP3ファイルのリストなどのローカルの音楽データベースに接続する手段を特徴とし得る。該ユーザは、例えば、60年代スタイルのロックンロールを特定し、更にその後に70年代のスタイルのディスコなどの異なるジャンルが続くように特定し得る。該自動DJ機器は、特定されるジャンルの音楽に関する実際の及び知覚される公表日情報に関して音楽データベースを検索し、所望の順序で複数の音楽片のリストを編集する。
本発明に従う分類化システムは、計算機プログラムとしてかなり経済的に実現され得る。フィルタバンク、共振器フィルタバンク、エネルギー合計ユニット、格付けユニット及びテンポスキームコンパイラなどの、音楽入力信号に関するあいまいさの尺度を決定する全てのコンポーネントは、計算機プログラムモジュールの形で実現され得る。いかなる所要のソフトウェア又はアルゴリズムも、ハードウェア装置の処理器において符号化され得、これにより、既存のハードウェア装置は、本発明の特徴から利益を得るように適合され得る。代わりに、音楽入力信号に関するあいまいさの尺度を決定するコンポーネントは、ハードウェアモジュールを用いて少なくとも一部同様に実現され得、これにより、本発明は、デジタル及び/又はアナログ音楽入力信号に適用され得る。
本発明の実施例の1つにおいて、該音楽データベースは、記載の方法を用いて事前に編集される関連公表日情報のリストから分離して記憶装置に含まれ得るか、その両方は、例えば個人用計算機などの同一の装置に、又はCD若しくはDVDなどに記憶され得る。該音楽データベースは、1つの場所に記憶され得るか、又は例えば音楽CDのコレクションなどのいくつかの装置に分散され得る。本発明の好ましい実施例において、該音楽データベース及び該音楽データベースの要素に関する公表日情報は、特定の音楽片に関する公表日情報を初めに取得するのに最小の労力が必要とされるような方法で記憶される。
本発明の他の目的及び特徴は、添付の図面を併せて考慮される以下の詳細な説明から明らかになる。しかし、図面は、例証の目的のみに関して設計され、本発明の制限の規定として設計されるものではないことを理解されるべきである。
図1において、この場合音楽データファイル、音楽トラック、MP3ファイル又は類似のものから生じるデジタル音楽入力信号1である音声信号1は、分類システム4に入力される。
特徴抽出ユニット5において、特徴2が、10個の743msの音声入力信号標本のから抽出される。音楽トラックの開始部及び終了部は、多くの場合、主要な部分とは幾分異なって聞こえ得るので、該標本は、トラックの又は音楽データファイルの中間部に対する位置から取得されるのが好ましい。
後に続く導出ユニット6において、1つの特徴ベクトル3が、入力音声信号1の10個のフレームのそれぞれの特徴2に関して計算される。
各特徴ベクトル3は、その後、可能性決定ユニット7で分類処理を受け、そこでは、特徴ベクトル3が複数の可能な分類のうちの1つの特定の分類の範囲に入る可能性を決定するために、分析のステップが実行される。
したがって、分類化システム4は、当該分類化処理に関して必要とされる情報を含むデータベース9へのアクセスを有する。データベース9は、例えば、2人の聴取者に、大量の曲を聴取させ、それらを「1966‐1970」及び「1970‐1974」などの特定の公表日情報にそれぞれ対応する所定の分類リスト(C1,C2,…,Cn)に従い独立して分類させることによって構築及び教育されている。各楽曲又はトラックは、その分類(C1、C2、…、Cn)に関してどれだけ良い例であるかに関してスコアを用いて格付けされ得る。以下の規準を満たす全てのトラックからなる減らされたコレクションが、これらの曲から識別される。
・両方の聴取者によって識別される分類(C1、C2、…、Cn)がトラックに関して同一である。
・各トラックの格付け又はスコアが、所定の最小値よりも大きかった。
・各アーティスト又はアルバムからのトラックの最大数が、2であった。
特徴ベクトルは、入力信号の特徴ベクトルの計算と同様に、該減らされたコレクションのトラックのそれぞれに関して計算される。これらの特徴ベクトル及び聴取者によって提供される分類情報を用いることによって、分類(C1、C2、…、Cn)を表すモデルが構築され得る。この情報は、分類処理で用いるためにデータベース9に記憶される。データベースを教育する特徴ベクトルを導出するステップを含む処理ステップは、分類に関して入力音声信号1から特徴ベクトルを導出する後に用いられるステップと同一である。
分類システム4は、分類処理の完了の後で、図示はされないディスプレイに出力するなどの適切な方法で結果8を報告する。該出力は、「トラック ABC:公表年1990±2」の形式であり得、「ABC」で識別されるトラックが1990年に公表されたことが最も可能性は高いが、2年の不確定要素が考慮されなければならないことを示す。
図2は、2次元特徴ベクトル空間におけるクラスタによって表される複数の分類(C1,C2)のグラフィカル表現を示す。通常、該複数の特徴ベクトル及び該ベクトル空間の次元性は、相当高くあり得るが、これらは容易に2次元表現では示され得ない。したがって、簡単化のために、該グラフは、2つの特徴f1及びf2によって構築される2次元特徴空間に制限されている。
例証の目的のために、分類システム4が2つの音楽トラック「X」及び「Y」を分類するのに用いられていることを仮定してみる。更に、分類システム4は、2つの分類1又は2のうちの1つに分類することが可能であり、分類C1は、70年代初期の音楽(「1970−1974」)を表し、C2は70年代後期の音楽(「1975−1979」)を表すことを仮定してみる。音楽トラック「X」及び「Y」に関する特徴ベクトルFx及びFyは、既述のように計算され、可能性導出ユニット7は、ここで、これら2つの特徴ベクトルFx及びFyが所属する可能性が最も高い分類を位置特定するように進める。Fxが明らかに分類C1内に位置されるので、該可能性決定ユニットは、音楽トラック「X」が分類C1によって表される時間スパンの中央から生じると確信を持って結論付け、「1972±1」をこの音楽トラックに関する分類結果として報告し得る。一方で、Fyは、分類C1及び分類C2の間であるが、C2よりもC1にむしろ近くに位置特定される。したがって、可能性決定ユーザ装置ユニット7は、これら特徴ベクトルが計算されていた音楽トラックは、これら分類間のいつかから生じることを結論付け、「1974±4」の推定公表年を報告し、該トラックが1974前後に公表された可能性が最も高いが、推定される4年までの前後に公表され得ていたことを示す。不確定性は、特徴ベクトルFx,Fy及び分類C1とC2との重心の距離の尺度である。
入力信号1に関して計算される特徴ベクトル3を分類する場合、可能性決定ユニット7は、特定の場合において、特徴2のいくつかが修正される場合、より良い分類結果が達成され得ると結論付け得る。可能性決定ユニット7は、適切な信号10を用いて、必要な修正を特徴抽出ユニット5に知らせる。該修正を実行した後で、特徴抽出ユニット5は、新たに計算される特徴2を導出ユニット6へ転送し、これにより、分類処理は、新しい特徴ベクトル3を用いて再び実行され得る。この反復処理は、可能性決定ユニット7が結果8が満足いくものであると結論付けるまで繰り返され得る。
本発明は、好ましい実施例及び変更態様の形式で開示されているが、本発明の範囲から逸脱することなく、多数の変更態様及び修正態様がなされ得ることを理解され得る。例えば、ラジオ放送及び映画のサウンドトラックなどのいかなる種類の音声も、記載の方法を用いて日付をつけられ得る。更に、本発明は、記載の分析の方法を用いることに制限されないが、いかなる適切な分析方法をも適用され得る。
明瞭性の目的のために、本出願において単数形の構成要素は、複数個の斯様な構成要素の存在を排除せず、他のステップ又は要素の存在を排除しないことを理解されるべきである。「ユニット」は、明確に単数の実体として記載されない場合、複数のブロック又は装置を備え得る。
図1は、本発明の実施例に従う音楽片の公表日の年を決定するシステムの概略的ブロック図である。 図2は、2次元特徴ベクトル空間の複数の分類のグラフィカル表現である。

Claims (11)

  1. 音声入力信号を分類する方法であって、
    −前記音声信号の少なくとも1つの特徴を抽出するステップと、
    −前記少なくとも1つの抽出された特徴に基づき前記入力音声信号に関する特徴ベクトルを導出するステップと、
    −前記入力音声信号に関する前記特徴ベクトルが、特定の公表日情報にそれぞれ対応する複数の分類のいずれかの範囲にある可能性を決定するステップと、
    を有する方法。
  2. 特定の公表日情報を表す分類が、音声信号コレクションからの音声信号に関して事前に計算されるとともにこの発明日情報に関連付けられる特徴ベクトルに基づき規定される、請求項1に記載の方法。
  3. 特定の公表日情報を表す分類が、この発明日情報に関連付けられる事前に計算された特徴ベクトルのコレクションから導出されるモデルによって記述される、請求項2に記載の方法。
  4. 前記音声入力信号に関する前記特徴ベクトルが特定の分類の範囲にある可能性を決定するステップが、前記特徴ベクトルに関する判別分析を実行するステップを有する、請求項1ないし3のいずれか一項に記載の方法。
  5. 前記特徴ベクトルが、
    −前記音声信号の心理音響的特徴、及び/又は
    −前記音声入力信号の時間的包絡線の聴覚モデル表現を記述する特徴、
    を有する、請求項1に記載の方法。
  6. 前記特徴の抽出ステップが、各特徴に関するパワースペクトルを計算するステップと、前記パワースペクトルを正規化するステップと、複数の個別のエネルギーバンドにわたりエネルギーを計算するステップと、を有する、請求項1又は請求項2に記載の方法。
  7. 前記入力音声信号の前記特徴が、前記入力音声信号の最適分類に関する特徴ベクトルを得るために前記分類処理において繰り返し調整される、請求項1ないし請求項6のいずれか一項に記載の方法。
  8. 音声入力信号を分類する分類システムであって、以下の手段、すなわち、
    −前記音声信号の少なくとも1つの特徴を抽出する特徴抽出ユニットと、
    −前記少なくとも1つの抽出された特徴に基づき前記入力音声信号に関する特徴ベクトルを導出する導出ユニットと、
    −前記入力音声信号に関する前記特徴ベクトルが、特定の公表日情報にそれぞれ対応する複数の分類のいずれかの範囲にある可能性を決定する可能性決定ユニットと、
    を備える分類システム。
  9. 請求項8に記載の分類システムを備え、特定の公表日に従い音声項目を選択する音声処理装置。
  10. 実際の又は知覚される公表日に従う前記音楽のグループ化が得られるように、公表日のユーザ規定シーケンスに従い音楽データベースから音楽片を選択する自動DJ機器を備える、請求項9に記載の音声処理装置。
  11. プログラム可能な音声処理装置のメモリに直接ロード可能な計算機プログラムであって、前記プログラムが前記音声処理装置で実行される場合に、請求項1ないし7のいずれか一項に記載の方法のステップを実行するソフトウェア符号部分を有する、計算機プログラム。
JP2007510188A 2004-04-29 2005-04-21 音声信号を分類する方法及びシステム Pending JP2007534995A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP04101841 2004-04-29
PCT/IB2005/051299 WO2005106844A1 (en) 2004-04-29 2005-04-21 Method of and system for classification of an audio signal

Publications (1)

Publication Number Publication Date
JP2007534995A true JP2007534995A (ja) 2007-11-29

Family

ID=34964519

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007510188A Pending JP2007534995A (ja) 2004-04-29 2005-04-21 音声信号を分類する方法及びシステム

Country Status (9)

Country Link
US (1) US20080243512A1 (ja)
EP (1) EP1745463B1 (ja)
JP (1) JP2007534995A (ja)
KR (1) KR20070004891A (ja)
CN (1) CN1998044B (ja)
AT (1) ATE400870T1 (ja)
DE (1) DE602005008041D1 (ja)
TW (1) TW200606816A (ja)
WO (1) WO2005106844A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010197862A (ja) * 2009-02-26 2010-09-09 Toshiba Corp 信号帯域拡張装置

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7974495B2 (en) 2002-06-10 2011-07-05 Digimarc Corporation Identification and protection of video
US7747551B2 (en) * 2007-02-21 2010-06-29 Neurovista Corporation Reduction of classification error rates and monitoring system using an artificial class
US20080300702A1 (en) * 2007-05-29 2008-12-04 Universitat Pompeu Fabra Music similarity systems and methods using descriptors
CN101622659B (zh) * 2007-06-06 2012-02-22 松下电器产业株式会社 音质编辑装置及音质编辑方法
EP2068255A3 (en) * 2007-12-07 2010-03-17 Magix Ag System and method for efficient generation and management of similarity playlists on portable devices
KR101615262B1 (ko) 2009-08-12 2016-04-26 삼성전자주식회사 시멘틱 정보를 이용한 멀티 채널 오디오 인코딩 및 디코딩 방법 및 장치
US8637557B2 (en) 2009-10-19 2014-01-28 Taisho Pharmaceutical Co., Ltd Aminothiazole derivative
CN102842310A (zh) * 2012-08-10 2012-12-26 上海协言科学技术服务有限公司 中国民族民间音乐音频修复的音频特征提取及使用的方法
US9965685B2 (en) 2015-06-12 2018-05-08 Google Llc Method and system for detecting an audio event for smart home devices
US10902043B2 (en) 2016-01-03 2021-01-26 Gracenote, Inc. Responding to remote media classification queries using classifier models and context parameters
TWI658458B (zh) * 2018-05-17 2019-05-01 張智星 歌聲分離效能提升之方法、非暫態電腦可讀取媒體及電腦程式產品
CN111259189B (zh) * 2018-11-30 2023-04-18 马上消费金融股份有限公司 一种音乐分类方法及装置
CN110992982A (zh) * 2019-10-28 2020-04-10 广州荔支网络技术有限公司 音频分类方法、装置及可读存储介质
CN115206294B (zh) * 2022-09-16 2022-12-06 深圳比特微电子科技有限公司 训练方法、声音事件检测方法、装置、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001052009A (ja) * 1999-08-06 2001-02-23 Sony Corp 情報処理装置および方法、並びに媒体
JP2003015684A (ja) * 2001-05-21 2003-01-17 Mitsubishi Electric Research Laboratories Inc 1つの音源から生成される音響信号から特徴を抽出するための方法及び複数の音源から生成される音響信号から特徴を抽出するための方法
JP2003058147A (ja) * 2001-08-10 2003-02-28 Sony Corp 音楽コンテンツ自動分類装置及び自動分類方法
JP2003316818A (ja) * 2002-02-21 2003-11-07 Kddi Corp 情報検索方法及びその装置、コンピュータプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6077084A (en) * 1997-04-01 2000-06-20 Daiichi Kosho, Co., Ltd. Karaoke system and contents storage medium therefor
US6233555B1 (en) * 1997-11-25 2001-05-15 At&T Corporation Method and apparatus for speaker identification using mixture discriminant analysis to develop speaker models
DE19824353A1 (de) * 1998-05-30 1999-12-02 Philips Patentverwaltung Vorrichtung zur Verifizierung von Signalen
US8326584B1 (en) * 1999-09-14 2012-12-04 Gracenote, Inc. Music searching methods based on human perception
US20020002899A1 (en) * 2000-03-22 2002-01-10 Gjerdingen Robert O. System for content based music searching
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US7277766B1 (en) * 2000-10-24 2007-10-02 Moodlogic, Inc. Method and system for analyzing digital audio files
US6763148B1 (en) * 2000-11-13 2004-07-13 Visual Key, Inc. Image recognition methods
US6892193B2 (en) * 2001-05-10 2005-05-10 International Business Machines Corporation Method and apparatus for inducing classifiers for multimedia based on unified representation of features reflecting disparate modalities
US20030033370A1 (en) * 2001-08-07 2003-02-13 Nicholas Trotta Media-related content personalization
US6915009B2 (en) * 2001-09-07 2005-07-05 Fuji Xerox Co., Ltd. Systems and methods for the automatic segmentation and clustering of ordered information
US6987221B2 (en) * 2002-05-30 2006-01-17 Microsoft Corporation Auto playlist generation with multiple seed songs
US6957226B2 (en) * 2002-06-27 2005-10-18 Microsoft Corporation Searching multi-media databases using multi-media queries
US7043477B2 (en) * 2002-10-16 2006-05-09 Microsoft Corporation Navigating media content via groups within a playlist

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001052009A (ja) * 1999-08-06 2001-02-23 Sony Corp 情報処理装置および方法、並びに媒体
JP2003015684A (ja) * 2001-05-21 2003-01-17 Mitsubishi Electric Research Laboratories Inc 1つの音源から生成される音響信号から特徴を抽出するための方法及び複数の音源から生成される音響信号から特徴を抽出するための方法
JP2003058147A (ja) * 2001-08-10 2003-02-28 Sony Corp 音楽コンテンツ自動分類装置及び自動分類方法
JP2003316818A (ja) * 2002-02-21 2003-11-07 Kddi Corp 情報検索方法及びその装置、コンピュータプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010197862A (ja) * 2009-02-26 2010-09-09 Toshiba Corp 信号帯域拡張装置
US8271292B2 (en) 2009-02-26 2012-09-18 Kabushiki Kaisha Toshiba Signal bandwidth expanding apparatus

Also Published As

Publication number Publication date
WO2005106844A1 (en) 2005-11-10
EP1745463A1 (en) 2007-01-24
US20080243512A1 (en) 2008-10-02
EP1745463B1 (en) 2008-07-09
TW200606816A (en) 2006-02-16
DE602005008041D1 (de) 2008-08-21
CN1998044B (zh) 2011-08-03
KR20070004891A (ko) 2007-01-09
ATE400870T1 (de) 2008-07-15
CN1998044A (zh) 2007-07-11

Similar Documents

Publication Publication Date Title
EP1745463B1 (en) Method of and system for classification of an audio signal
Mandel et al. Song-level features and support vector machines for music classification
Allamanche et al. Content-based Identification of Audio Material Using MPEG-7 Low Level Description.
US6748360B2 (en) System for selling a product utilizing audio content identification
US9077581B2 (en) Device and method for monitoring, rating and/or tuning to an audio content channel
JP4640463B2 (ja) 再生装置、表示方法および表示プログラム
US9304988B2 (en) System and method for performing automatic audio production using semantic data
JP2005322401A (ja) メディア・セグメント・ライブラリを生成する方法、装置およびプログラム、および、カスタム・ストリーム生成方法およびカスタム・メディア・ストリーム発信システム
WO2004095315A1 (en) Parameterized temporal feature analysis
CN101292280A (zh) 导出音频输入信号的一个特征集的方法
JP5498017B2 (ja) 第1特徴ベクトル及び第2特徴ベクトルの間の類似性距離を計算する方法及び装置
WO2015114216A2 (en) Audio signal analysis
EP2145269A2 (en) Method of organising content items
KR20160069784A (ko) 음악 플레이리스트 생성방법, 및 음악 플레이리스트 생성장치
Niyazov et al. Content-based music recommendation system
Venkatesh et al. Artificially synthesising data for audio classification and segmentation to improve speech and music detection in radio broadcast
US20240038258A1 (en) Audio content identification
EP3920049A1 (en) Techniques for audio track analysis to support audio personalization
Williamson Automatic Music Similarity Assessment and Recommendation
CN113032616A (zh) 音频推荐的方法、装置、计算机设备和存储介质
KR20100007102A (ko) 온라인을 통한 디지털 컨텐츠 관리 시스템
Fourer et al. Objective characterization of audio signal quality: applications to music collection description
Ziemer et al. Acoustic features from the recording studio for Music Information Retrieval Tasks
Gartner et al. An adaptive distance measure for similarity based playlist generation
US20240022224A1 (en) Automatic generation and selection of target profiles for dynamic equalization of audio content

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110705

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111005

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111013

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120508