JP4021851B2 - 音声信号を特徴付ける方法 - Google Patents

音声信号を特徴付ける方法 Download PDF

Info

Publication number
JP4021851B2
JP4021851B2 JP2003556905A JP2003556905A JP4021851B2 JP 4021851 B2 JP4021851 B2 JP 4021851B2 JP 2003556905 A JP2003556905 A JP 2003556905A JP 2003556905 A JP2003556905 A JP 2003556905A JP 4021851 B2 JP4021851 B2 JP 4021851B2
Authority
JP
Japan
Prior art keywords
signal
audio signal
classification
energy
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003556905A
Other languages
English (en)
Other versions
JP2005513576A (ja
Inventor
ロデ,グザヴィエ
ヴォルム,ローラン
ペータース,ジョフロワ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of JP2005513576A publication Critical patent/JP2005513576A/ja
Application granted granted Critical
Publication of JP4021851B2 publication Critical patent/JP4021851B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stereophonic System (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Auxiliary Devices For Music (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

発明の詳細な説明
本発明は、異なる周波数帯域において時間の経過につれて変化する音声信号を、特定パラメータに応じて特徴付ける方法に関するものである。本発明の分野は、音声信号認識の分野である。音声信号認識は、特に無許可で使用される音楽作品の確認のために適用される。
実際、デジタル化方法および多重媒体の開発により、このような不正使用がかなり増加した。その結果、印税徴収の責任を負う代理店は、新しい問題をかかえている。なぜなら、これらの音楽作品の作者に対して支払うべき報酬を申し分なく評価し、配当するために、特に対話型デジタルネットワーク(例えば、インターネット)において、上記不正使用を識別するためのなんらかの方法があるはずだからである。
その結果、音楽作品に限定しないように、より一般的に音声信号について考察する。
従って、本発明の目的は、音声信号のデータベースを作成することである。各音声信号を、1つのマーキング(empreinte)によって特徴付けておき、同じように特徴付けられた未知の音声信号があれば、この信号を検索し、上記未知信号のマーキングとデータベースにある範囲のマーキングとを迅速に比較することができる。
マーキングは、以下の方法で決定される特定パラメータを含む。第1ステップでは、振幅x(t)が、異なる周波数帯域kに応じて、時間tとともに変化する音声信号を分析する。すなわち、x(k、t)は、周波数帯域kにおいて濾波された音声信号の振幅であり、これを、図1a)に示す。
図1c)に示すように、この濾波された音声信号の短期エネルギーE(k、t)は、図1b)に示す窓h(t)を使用して計算する。この窓h(t)は、2N秒間に対応して与えられる。上記窓をS秒ずつずらせてこの計算を繰り返す。
これらの値E(k、t)は、周波数帯域kにおいて音声信号x(k、t)を2N秒間抽出した特定パラメータを構成する。
他のパラメータは、異なる周波数帯域jに対してE(k、t)のエネルギーを計算することによって得られる。この計算は、図2b)に示す窓h’(t)を使用して行なう。この窓h’(t)は、2N’秒間に対応している。上記窓をS’秒ずつずらせて、この計算を繰り返す。図2c)に示すF(j、k、t)が得られる。音声信号の振幅から独立させるために、これらのF(j、k、t)値を、これらの最大値に対して標準化する。
こうして標準化した値は、周波数のk帯域において音声信号x(k、t)を2N’秒間抽出した特定パラメータのを構成する。異なる周波数帯域jに対してE(k、t)の位相も計算することができる。P(j、k、t)が得られる。P(j、k、t)値を、基準値P(1、j、t)に対して標準化し、音声信号を2N’秒間抽出した他の特定パラメータを得る。例えば、エネルギーE(k、t)の平均値を他のパラメーターとして加えてもよい。
本発明の目的は、異なる周波数帯域kにおいて期間Dに渡る時間tに応じて変化し、それゆえ、x(k、t)と記される音声信号x(t)を、特定パラメータに応じて特徴付ける方法に関するものである。この方法は、原則的に、信号x(t)を格納するステップと、各周波数帯域kに対する上記信号x(k、t)のエネルギーE(k、t)を計算し、得られたエネルギーE(k、t)の値を格納するステップと、音声信号x(t)の期間Dに対する特定パラメータの範囲を得るために、一定の間隔でこの計算を繰り返すステップとを含むことを特徴とする。
ただし、kは、2Nの期間の時間窓h(t)に応じて1〜Kの範囲で変化する。また、エネルギーE(k、t)の値は、抽出期間2Nの音声信号x(t)の特定パラメータを構成する。
さらに、上記方法は、周波数帯域jに対するE(k、t)のエネルギーF(k、j、t)を計算し、格納するステップと、音声信号x(t)の期間Dに対する特定パラメータの範囲を得るために、一定の間隔でこの計算を繰り返すステップとを含む。ただし、jは、2N’の期間の時間窓h’(t)に応じて1〜Jの範囲で変化する。また、得られたエネルギーF(j、k、t)のJxK値は、抽出期間2N’の音声信号x(t)の特定パラメータを構成する。
上記方法は、周波数帯域jに対するエネルギーE(k、t)の位相P(j、k、t)を計算するステップと、得られた位相P(j、k、t)の値を、音声信号x(t)の特定パラメータに含めるステップとを含んでいてもよい。ただし、jは、1からJの範囲で変化し、jは、kとは異なるものである。
上記方法は、各周波数帯域jに対して、2N’秒間のエネルギーE(k、t)の平均値を計算するステップと、音声信号x(t)の期間Dに対する特定パラメータの範囲を得るために、一定の間隔でこの計算を繰り返すステップと、こうして得られた平均値を、音声信号x(t)の特定パラメータに含めるステップとをさらに含んでいてもよい。
1つの特徴によると、上記方法は、音声信号x(t)の特定パラメータを、x(t)を表すベクトルの成分とみなすステップと、パラメータが存在しているのと同じ次元数の空間に、ベクトルを位置決定するステップと、最近似ベクトルを含む分類を定義するステップと、上記分類を記録するステップとを含む。
上記分類が、分類間の距離と分類内の距離とを有する場合、上記方法は、特定パラメータから、分類内の距離に対して比較的大きな分類間の距離を得られるパラメータを選択するステップと、選択したパラメータを記録するステップとを含むことが有利である。
さらに、本発明は、音声信号を識別するための装置に関するものである。上記装置は、データベースサーバーを備えることを特徴とする。このデータベースサーバーは、上記で説明したような、特定パラメータに応じて音声信号を特徴付けるための方法を実施する手段と、データベースにある上記信号を検索するための手段とを有する。
上記検索手段は、音声信号が属する分類を直接認識する手段と、未知の音声信号の特定パラメータをデータベースのパラメータと比較することによって分類を検索する手段とを備えることが好ましい。分類は、例えば最近傍アルゴリズム法を使用して選択されている。
本発明の他の特徴および利点は、非限定的な例を参考にした説明および添付の図を参考にするとより明らかになる。
図1a)・1b)・1c)は、それぞれ、周波数帯域kにおいて濾波した音声信号x(k、t)、ハミング窓h(t)および信号(k、t)の短期エネルギーE(k、t)の変化をプロットした図である。図2a)・2b)・2c)は、それぞれ、周波数帯域kに対するエネルギーE(k、t)、ハミング窓h’(t)および周波数帯域jに対するE(k、t)のエネルギーF(j、k、t)の変化をプロットした図である。図3は、信号x(k、t)のマーキングを構成するベクトルV[x(t)]の範囲を示す図である。図4は、マーキングの格納を示す図である。図5は、2つのパラメータに応じた音声信号の分類を示す図である。図6は、最近傍アルゴリズム法を使用して音声信号を検索する方法を示す図である。図7は、音声信号のマーキングを格納するためのデータベースサーバーを示す図である。
この特徴付けの方法に基づいて処理される音声信号は、特にコンパクトディスクに記録された音声信号である。以下では、音声信号x(t)を、サンプリング周波数feにおいてサンプルされたデジタル信号とする。このサンプリング周波数は、例えば11025Hzである。これは、コンパクトディスクに対する現在のサンプリング周波数(44100Hz)の4分の1に相当する。
しかしながら、アナログ音声信号を特徴付けることもできる。まず、アナログ−デジタル変換機を使用して、アナログ音声信号をデジタル信号に変換する必要がある。さて、図1a)に示す音声信号x(k、t)(ただし、k=k)は、周波数feにおいてサンプルされたデジタル信号であり、周波数帯域kにおける濾波の後に得られるものである。このサンプルされたデジタル信号の各値は、例えば16ビットに符号化されている。周波数帯域は、約20Hz〜20kHzの範囲で変化する可聴スペクトル帯域であり、周波数帯域K(kは1〜Kの範囲で変化する)に区分化されている。例えば、K=127である。
図1c)に示す短期エネルギーE(k、t)(ただし、k=k)を、2N秒間、窓h(t)を使用して計算する。例えば、図1b)に示すハミング窓は、約23m秒間に相当している。
E(k、t)は、時間−周波数または時間−度数の図表にサンプルした音声信号x(t)の変換のモジュールの平方である。利用できる変換は、フーリエ変換、余弦変換、ハートレー変換およびウエーブレット変換である。帯域パスフィルターのバンクもこの種の変換を行なう。短期フーリエ変換により、音楽信号分析に適した時間−周波数表示が可能となる。従って、エネルギーE(k、t)を、以下のように表わす。
Figure 0004021851
ただし、iは、i=−1となるiである。
音声信号についての窓を、S秒ずつ(例えば10m秒ずつ)ずらす。その結果、E(k、t)が10m秒毎にサンプルされる。E(k、t)、E(k、t)などが得られる(ただし、t=t+10m秒)。
K成分E(k、t)を有するベクトルによって、S秒毎に、音声信号x(t)を符号化する。これらの成分のそれぞれは、周波数帯域Kにおける23m秒間の音声信号x(t)のエネルギーを符号化する。
他のパラメータは、いわゆる上記計算を再現し、今度はその計算を図2a〜図2c)に示すようにE(k、t)に適用することにより得られる。エネルギーE(k、t)は、Jの異なる周波数帯域において濾波する。E(j、k、t)は、周波数帯域jにおいて濾波されたエネルギーE(k、t)である。ただし、jが、1〜Jの範囲で変化する(例えばJ=51)。
次に、2N’秒の窓h’(t)を使用して、k=kおよびj=jについて図2c)に示すF(j、k、t)を計算する。例えば、ハミング窓は、10秒間に相当している。ただし、iは、i=−1であり、以下のように表せる:
Figure 0004021851
この例では、音声信号x(t)が、各秒(S’=1)毎に127x51パラメータF(j、k、t)によって符号化されている。各実数F(j、k、t)は、周波数帯域jにおける10秒(2N’=10)間のエネルギー信号E(k、t)のエネルギーを表している。
F(j、k、t)を、多少強い信号の振幅から独立させるために、これらの値を、基準値に関連付ける。この場合、kおよびjの全てに対するF(j、k、t)の最大値について考慮する。このように、K×JのパラメータはF(j、k、t)/F(j、k、t)によって得られる。
さらに、各周波数帯域jにおけるエネルギーE(k、t)の位相を、2N’秒毎に計算する:P(j、k、t)である。このために、各周波数帯域jにおけるE(k、t)のフーリエ変換の増加を計算する。
Figure 0004021851
上記のように、これらの値を基準値に関連付ける。この場合、第2周波数帯域(j=1)に対するP(j、k、t)の値について考察する。なぜなら、サンプルの時間的な基準は知られていないからである。つまり、時間の基点は分からない。
このため、以下の式を用いて、関連付けられた位相(phases rapportees)φ(j、k、t)を計算する:
φ(1、k、t)=P(1、k、t)
φ(j、k、t)=P(j、k、t)−P(1、k、t)・f(k)/f(l)、(k>1の場合)
ただし、f(k)は、チャネルkの中央周波数である。
このように、関連付けられた位相φ(j、k、t)の値に対応するK×Jのパラメータが得られる。
他のパラメータ、特に、2N’秒間のエネルギーE(k、t)の平均値について考慮してもよく、これは、各周波数帯域jに対するものである:E(j、k、t)。これらの標準化されたパラメータの範囲は、一定の間隔で、マーキングを定義する。このマーキングは、ベクトルV(x(t))であると考えられる。標準化パラメータの範囲(例えば、F(j、k、t)/FMおよびP(j、k、t)−P(j、1、t))は、S’秒毎にマーキングを定義する。このマーキングは、2×K×J次元(本例では2×127×51つまり約13000)を有するベクトルV(x(t))と考えられる。1パラメータにつき1次元、各ベクトルは、2N’秒(本例では10秒)間抽出した音声信号x(t)を特徴付けている。
この特徴付けを、S’秒毎(例えば、(S’=1))に繰り返す。
図3に示すように、T秒間の信号x(t)は、最終的に、LベクトルVによって特徴付けられる。Lは、ほぼT/S’に等しい。10mnまたは600秒間続く音声信号に対して、600のベクトル、すなわち、600×2×J×Kのパラメータが得られる。
これらのベクトルは、サーバーまたはコンパクトディスクに設けられているデータベースの格納ゾーン10に格納される。図4は、信号のベクトルVまたはVAによる作品A、同じく作品BのためのVBなどの範囲を表している。
これらのベクトルの成分の数を減らすことが望ましい。言い換えると、データベースにおけるその格納部に鑑みて、より小さなサイズのベクトルまたはマーキングを得るためにパラメータの数を減らすことが望ましい。さらに、未知の音声信号のマーキングを、データベースにあるマーキングの数と比較する場合、検索が迅速に実行されるように、比較するパラメータの数を減らしたほうが望ましい。
これらのパラメータは、全てが同じ量の情報を含んでいるわけではない。一部のパラメータは、冗長なもの、または、無駄なものである。それゆえ、相互情報量計算を使用して、全てのパラメータのうちの最も重要なパラメータを選択する。相互情報量計算については、PROC. ICASSP ’99, Phoenix, Arizona, USA, March 1999 H. YANG, S. VAN VUUREN, H. HERMANSKY, 「相互情報量により測定された時間−周波数特性の関連性(“Relevancy of Time-Frequency Features for Phonetic Classification Measured by Mutual Information”)」という刊行物に記載されている。このようにK〜KおよびJ〜Jは、制限されている。
これらのパラメータを選択する方法について説明する。これらの音声信号の各マーキング、すなわち、これらの音声信号の各ベクトルは、R〜N次元の空間に分類されている。Nは、ベクトルの成分の数である。簡易化するために、2次元P1、P2を有するベクトルについての分類例を、図5に示す。
近似(proximite)によってベクトルをまとめることによって、分類C(m)を定義する。ただし、mは1〜Mの範囲で変化する。例えば、ある分類が、ある音楽作品に対応していると判断できる。この場合、Mは、データベースに格納された音楽作品の数である。
これらの分類C(m)とパラメータとの間の相互情報量計算の結果、パラメータの適合性が分類間および分類内の距離に関連していることが分かる。適合パラメータにより、分類内の距離Dと比べて分類間の距離dが比較的大きいことが確実となる。
このように、適合パラメータのみを保持することにより、KおよびJを定義する。例えば、344Hz、430Hz、516Hz、608Hzおよび689Hzをそれぞれ中心とする5つ(K=5)の周波数帯域について考慮することができる。J=3について試験を行った。その結果、分類C(m)は、2×K×J以下の成分を含むベクトルVq(x)で構成されている。
=5およびJ=3について、1000時間の音楽を含むデータベースのメモリーのサイズの例を挙げる。また、パラメータとしてE(k、t)およびF(j、k、t)について考察した。なお、各パラメータは、4バイトを使用して符号化されている。
10m秒毎に計算したE(k、t)パラメータは、1000×3600×100×5×4バイトつまり約7ギガバイトを占有している。
各秒毎に計算したパラメータF(j、k、t)は、1000×3600×3×5×4バイトつまり約200メガバイトを占有している。これらのパラメータは、音声信号の基準に関連付けられている。基準が1バイトでそれぞれ符号化されている100の特徴を含むとすると、これらの基準は、1000×10×100バイトつまり約1メガバイトを占有している。このようなデータベースは、最終的に約7ギガバイトを占有する。
未知の音声信号を識別したいときは、まず、未知の音声信号が完全な音楽作品またはその抽出である可能性があるものとして、上記で説明したように、マーキング(図6のV(xinc)を参照)を作成する。
次に、データベースにあるこのマーキングの分類を検索することは、図6に示す一般的な方法によると、このマーキングV(xinc)のパラメータを、データベースのマーキングのパラメータと比較するステップを含む。最も近似している最近傍と呼ばれるマーキングは、以下の方法で分類を定義する。分類は、最近傍の大多数の分類である。
データベースサーバー1を、図7に図式的に示す。このデータベースサーバーは、データベースのデータ用の格納ゾーン10を備えている。この格納ゾーンに、混合音声信号のマーキングが、その基準に応じて格納される。さらに、データベースサーバーは、上記の特徴およびプログラムを格納するメモリー11と、プログラムを実行するためにメモリーとともに作動するプロセッサー12とを備えている。当然、データベースサーバーは、I/Oインターフェース13とデバイス素子を相互に接続しているバス14とを備えている。
新しい音声信号が、データベース1に入ると、インターフェース13は、その基準部を有する信号x(t)を受信する。未知の信号しか認識されなかったら、インターフェース13は、未知の信号x(t)のみを受信する。
出力時には、インピーダンス13が、未知の信号に対する検索に応答する。格納ゾーン10に未知の信号が存在していなければ、応答は否定的である。信号を認識したら、応答は、認識した信号の基準部を含んでいる。
a)・b)・c)は、それぞれ、周波数帯域kにおいて濾波した音声信号x(k、t)、ハミング窓h(t)および信号(k、t)の短期エネルギーE(k、t)の変化をプロットした図である。 a)・b)・c)は、それぞれ、周波数帯域kに対するエネルギーE(k、t)、ハミング窓h’(t)および周波数帯域jに対するE(k、t)のエネルギーF(j、k、t)の変化をプロットした図である。 信号x(k、t)のマーキングを構成するベクトルV[x(t)]の範囲を示す図である。 マーキングの格納を示す図である。 2つのパラメータに応じた音声信号の分類を示す図である。 最近傍アルゴリズム法を使用して音声信号を検索する方法を示す図である。 音声信号のマーキングを格納するためのデータベースサーバーを示す図である。

Claims (6)

  1. 異なる周波数帯域kにおいて期間Dに渡る時間tに応じて変化し、それゆえ、x(k、t)と記される音声信号x(t)を、特定パラメータに応じて特徴付ける方法において、
    信号x(t)を格納するステップと、
    期間2Nの時間窓h(t)に応じて1〜Kの範囲で変化する各周波数帯域kに対する上記信号x(k、t)のエネルギー信号E(k、t)を計算し、格納するステップと、
    第2ステップにおいて、期間2N’の時間窓h’(t)を使用して1〜Jの範囲で変化する周波数帯域jにおける期間2N’のエネルギー信号E(k、t)のエネルギーF(j、k、t)と、周波数帯域jに対するエネルギー信号E(k、t)の位相φ(j、k、t)と、を計算し、格納するステップと、を含み、
    エネルギーF(j、k、t)および位相φ(j、k、t)の得られたJ×K値が、音声信号x(t)の期間2N’に抽出された特定パラメータを構成しており、
    さらに、音声信号x(t)の期間Dに対する全ての特定パラメータを得るために、一定の間隔で上記計算を繰り返すステップを含むことを特徴とする方法。
  2. 各周波数帯域jに対して、2N’秒に渡るエネルギー信号E(k、t)の平均値を計算するステップと、
    音声信号x(t)の期間Dに対する全ての特定パラメータを得るために、一定の間隔で上記計算を繰り返すステップと、
    得られた平均値を、音声信号x(t)の特定パラメータに含めるステップとをさらに含む請求項1に記載の方法。
  3. 音声信号x(t)の特定パラメータを、x(t)を表すベクトルの成分とみなすステップと、
    最近似ベクトルをまとめた分類を定義するステップと、
    上記分類を記録するステップとを含む請求項1または2に記載の方法。
  4. 上記分類が、分類間の距離および分類内の距離を有し、
    特定パラメータから、分類内の距離に対して比較的大きな分類間の距離を得られるパラメータを選択するステップと、
    選択したパラメータを記録するステップとを含む請求項3に記載の方法。
  5. 請求項1ないし4のいずれか1項に基づいて、特定パラメータに応じて音声信号を特徴付けるための方法を実施する手段と、データベースにある上記信号を検索する検索手段とを有するデータベースサーバーを備えている音声信号識別装置。
  6. 上記検索手段が、音声信号の属する分類を認識するための手段と、最近傍アルゴリズム法を用いて、未知の音声信号の特定パラメータとデータベースの特定パラメータとを比較するための手段とを含む請求項3または4と組み合わせた請求項5に記載の装置。
JP2003556905A 2001-12-27 2002-12-24 音声信号を特徴付ける方法 Expired - Lifetime JP4021851B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0116949A FR2834363B1 (fr) 2001-12-27 2001-12-27 Procede de caracterisation d'un signal sonore
PCT/FR2002/004549 WO2003056455A1 (fr) 2001-12-27 2002-12-24 Procede de caracterisation d'un signal sonore

Publications (2)

Publication Number Publication Date
JP2005513576A JP2005513576A (ja) 2005-05-12
JP4021851B2 true JP4021851B2 (ja) 2007-12-12

Family

ID=8871036

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003556905A Expired - Lifetime JP4021851B2 (ja) 2001-12-27 2002-12-24 音声信号を特徴付ける方法

Country Status (8)

Country Link
US (1) US20050163325A1 (ja)
EP (1) EP1459214B1 (ja)
JP (1) JP4021851B2 (ja)
AT (1) ATE498163T1 (ja)
AU (1) AU2002364878A1 (ja)
DE (1) DE60239155D1 (ja)
FR (1) FR2834363B1 (ja)
WO (1) WO2003056455A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8918316B2 (en) * 2003-07-29 2014-12-23 Alcatel Lucent Content identification system
DE102004021404B4 (de) * 2004-04-30 2007-05-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Wasserzeicheneinbettung
JP4665836B2 (ja) * 2006-05-31 2011-04-06 日本ビクター株式会社 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57147695A (en) * 1981-03-06 1982-09-11 Fujitsu Ltd Voice analysis system
JPS6193500A (ja) * 1984-10-12 1986-05-12 松下電器産業株式会社 音声認識装置
JPH0519782A (ja) * 1991-05-02 1993-01-29 Ricoh Co Ltd 音声特徴抽出装置
JP3336619B2 (ja) * 1991-07-12 2002-10-21 ソニー株式会社 信号処理装置
US5536902A (en) * 1993-04-14 1996-07-16 Yamaha Corporation Method of and apparatus for analyzing and synthesizing a sound by extracting and controlling a sound parameter
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
US6201176B1 (en) * 1998-05-07 2001-03-13 Canon Kabushiki Kaisha System and method for querying a music database
JP2000114976A (ja) * 1998-10-07 2000-04-21 Nippon Columbia Co Ltd 量子化ノイズ低減装置およびビット長拡張装置
NL1013500C2 (nl) * 1999-11-05 2001-05-08 Huq Speech Technologies B V Inrichting voor het schatten van de frequentie-inhoud of het spectrum van een geluidssignaal in een ruizige omgeving.
JP3475886B2 (ja) * 1999-12-24 2003-12-10 日本電気株式会社 パターン認識装置及び方法並びに記録媒体
US6657117B2 (en) * 2000-07-14 2003-12-02 Microsoft Corporation System and methods for providing automatic classification of media entities according to tempo properties

Also Published As

Publication number Publication date
FR2834363A1 (fr) 2003-07-04
DE60239155D1 (de) 2011-03-24
ATE498163T1 (de) 2011-02-15
JP2005513576A (ja) 2005-05-12
FR2834363B1 (fr) 2004-02-27
US20050163325A1 (en) 2005-07-28
AU2002364878A1 (en) 2003-07-15
EP1459214B1 (fr) 2011-02-09
EP1459214A1 (fr) 2004-09-22
WO2003056455A1 (fr) 2003-07-10

Similar Documents

Publication Publication Date Title
US6995309B2 (en) System and method for music identification
JP5826291B2 (ja) 音声信号からの特徴フィンガープリントの抽出及びマッチング方法
Lu et al. Content-based audio classification and segmentation by using support vector machines
CN109493881B (zh) 一种音频的标签化处理方法、装置和计算设备
CN101292280B (zh) 导出音频输入信号的一个特征集的方法
Zhang Automatic singer identification
EP1760693B1 (en) Extraction and matching of characteristic fingerprints from audio signals
US8352259B2 (en) Methods and apparatus for audio recognition
JP2005522074A (ja) 話者識別に基づくビデオのインデックスシステムおよび方法
US20060155399A1 (en) Method and system for generating acoustic fingerprints
KR100676863B1 (ko) 음악 검색 서비스 제공 시스템 및 방법
WO2006132596A1 (en) Method and apparatus for audio clip classification
CN113327626A (zh) 语音降噪方法、装置、设备及存储介质
Dong et al. A novel representation of bioacoustic events for content-based search in field audio data
Dong et al. Similarity-based birdcall retrieval from environmental audio
CN106098081A (zh) 声音文件的音质识别方法及装置
CN109271501B (zh) 一种音频数据库的管理方法及系统
JP4021851B2 (ja) 音声信号を特徴付ける方法
CN117409761A (zh) 基于频率调制的人声合成方法、装置、设备及存储介质
KR100766170B1 (ko) 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법
Joshi et al. Extraction of feature vectors for analysis of musical instruments
Chu et al. Peak-Based Philips Fingerprint Robust to Pitch-Shift for Audio Identification
Dong et al. Birdcall retrieval from environmental acoustic recordings using image processing
Liang et al. A Histogram Algorithm for Fast Audio Retrieval.
Gruhne Robust audio identification for commercial applications

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061017

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070116

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20070116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20070116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070403

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070629

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070730

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070904

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070927

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101005

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4021851

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111005

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121005

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121005

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131005

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term