JP2003015684A - Method for extracting feature from acoustic signal generated from one sound source and method for extracting feature from acoustic signal generated from a plurality of sound sources - Google Patents

Method for extracting feature from acoustic signal generated from one sound source and method for extracting feature from acoustic signal generated from a plurality of sound sources

Info

Publication number
JP2003015684A
JP2003015684A JP2002146685A JP2002146685A JP2003015684A JP 2003015684 A JP2003015684 A JP 2003015684A JP 2002146685 A JP2002146685 A JP 2002146685A JP 2002146685 A JP2002146685 A JP 2002146685A JP 2003015684 A JP2003015684 A JP 2003015684A
Authority
JP
Japan
Prior art keywords
features
sound
acoustic signal
spectral
signal generated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002146685A
Other languages
Japanese (ja)
Inventor
A Kasei Michael
マイケル・エー・カセイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Research Laboratories Inc
Original Assignee
Mitsubishi Electric Research Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Research Laboratories Inc filed Critical Mitsubishi Electric Research Laboratories Inc
Publication of JP2003015684A publication Critical patent/JP2003015684A/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Abstract

PROBLEM TO BE SOLVED: To provide a computerized method for extracting features from acoustic signals generated from one or a plurality of sound sources. SOLUTION: The acoustic signal are first windowed and filtered to produce a spectral envelope for each source. The dimensionality of the spectral envelope is then reduced to produce a set of features for the acoustic signal. The features in the set are clustered to produce a group of features for each of the sources. The features in each group include spectral features and corresponding temporal features characterizing each source. Each group of features is a quantitative descriptor that is also associated with a qualitative descriptor. Hidden Markov models are trained with sets of known features and stored in a database. The database can then be indexed by sets of unknown features to select or recognize like acoustic signals.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、全般に音響信号処
理の分野に関し、詳細には音響信号を認識し、指数化
し、探索する方法に関する。
FIELD OF THE INVENTION The present invention relates generally to the field of acoustic signal processing, and more particularly to a method for recognizing, indexing and searching acoustic signals.

【0002】[0002]

【従来の技術】これまで、環境音および周囲音の特徴を
抽出することに関してはほとんど研究がなされてこなか
った。大部分の従来技術の音響信号表現法は、人間の音
声および音楽に集中してきた。一方、足音、交通音、ド
アをバタンと閉める音、レーザガンの音、コツコツたた
く音、たたきつける音、雷鳴、葉がカサカサ擦れる音、
水が流れる音などの映画、テレビ、ビデオゲームおよび
仮想環境において聞かれる多くの音響効果のために適し
た表現法はない。これらの環境音響信号は一般に、音声
および音楽に比べて特徴を抽出するのが非常に難しい。
なぜなら、それらの信号が多くの場合に、雑音を含み、
重ね合わせられた多数の成分と、反復および散乱のよう
な高次の構造的な成分とを含むためである。
2. Description of the Related Art Up to now, little research has been done on extracting features of environmental sounds and ambient sounds. Most prior art acoustic signal representations have focused on human voice and music. On the other hand, footsteps, traffic sounds, door slamming sounds, laser gun sounds, knocking sounds, knocking sounds, thundering sounds, rustling leaves,
There is no suitable representation for many sound effects heard in movies, television, video games and virtual environments such as the sound of water flowing. These environmental acoustic signals are generally much more difficult to extract features than voice and music.
Because their signals are often noisy,
This is because it contains a large number of superimposed components and higher order structural components such as repetition and scattering.

【0003】そのような表現方式を用いることができる
1つの特定の応用形態は映像処理である。映像物体を抽
出し、圧縮し、探索し、分類するための方法が利用可能
である。たとえば、種々のMPEG標準規格を参照され
たい。「可聴周波数帯音の」対象物が音声の場合以外
に、そのような「可聴周波数帯音の」対象物を処理する
方法は存在しない。たとえば、ジョンウエインが六連発
拳銃を撃ちながら馬で疾走している全ての映像の位置を
識別するために、映像ライブラリを探索することが望ま
れる場合がある。確かに、ジョンウエインあるいは馬を
視覚的に特定することは可能である。しかしながら、疾
走する馬のリズミカルなパカッパカッという音、リボル
バーの断続的な撃発音を選別することは非常に難しい。
可聴周波数帯音の事象を認識することにより、映像内の
動作を詳細に描写することができる。
One particular application in which such representation schemes can be used is video processing. Methods are available for extracting, compressing, searching, and classifying video objects. See, for example, various MPEG standards. There is no way to process such an "audio band" object, except when the "audio band" object is speech. For example, it may be desirable for John Wayne to search a video library to identify the locations of all the videos galloping on a horse while shooting a six-shot pistol. Indeed, it is possible to visually identify John Wayne or a horse. However, it is very difficult to sort out the rhythmic squeaking noise of a galloping horse and the intermittent sounding of a revolver.
By recognizing audio frequency band events, it is possible to delineate motions in the video.

【0004】その表現法を用いることができる別の応用
形態は音の合成である。試行錯誤以外の方法で音を合成
して生成できるようになるには、その前に音の特徴が特
定されなければならない。
Another application in which the expression can be used is in sound synthesis. Before a sound can be synthesized and generated by a method other than trial and error, the characteristics of the sound must be specified.

【0005】従来技術では、音声以外の音のための表現
は一般に、たとえば、特定の楽器の音色を再現するこ
と、その特定の楽器を識別すること、周囲の海の音から
潜水艦の音を区別すること、その鳴き声によって水中哺
乳類を認識することのような、特定のクラスの音声以外
の音に集中してきた。これらの応用形態はそれぞれ、特
定の応用形態を越えて一般化されることのない特定の配
列の音響的特徴を必要とする。
In the prior art, representations for sounds other than speech generally include, for example, reproducing the timbre of a particular instrument, identifying that particular instrument, distinguishing the sound of a submarine from the sounds of the surrounding sea. In doing so, I have focused on sounds other than a certain class of sounds, such as recognizing underwater mammals by their calls. Each of these applications requires a particular array of acoustic features that is not generalized beyond the particular application.

【0006】これらの特定の応用形態に加えて、他の研
究は、一般化される音響的な情景の分析表現を開発する
ことに集中してきた。この研究は、「計算による聴覚情
景分析」として知られるようになった。これらのシステ
ムは、そのアルゴリズムの複雑さに起因して、多大な計
算処理作業を必要とする。典型的には、それらのシステ
ムは、人工知能および種々の推論方式からのヒューリス
ティックな方式を利用する。
In addition to these particular applications, other research has focused on developing generalized analytical representations of acoustic scenes. This study became known as "Computational Auditory Scene Analysis." These systems require a great deal of computational work due to the complexity of their algorithms. Typically, these systems utilize heuristics from artificial intelligence and various inference schemes.

【0007】そのようなシステムは音響表現に関する難
問題への有益な洞察を与えるが、そのシステムの性能
が、混合された状態の音響信号の分類および合成に関し
て満足のいくものであることは一度も示されていない。
While such systems provide useful insights into the challenges of acoustic representation, it has never been shown that the system's performance is satisfactory with respect to the classification and synthesis of mixed state acoustic signals. It has not been.

【0008】さらに別の応用形態では、音の表現を用い
て、環境音、背景雑音、音響効果(効果音)、動物音、
音声、音声以外の鳴き声および音楽を含む幅広い範囲の
音の現象を含む可聴周波数帯音の媒体を指数化すること
ができる。これにより、自動的に抽出された指数を用い
て、可聴周波数帯音の媒体を探索するための音認識ツー
ルを設計できるようになるであろう。これらのツールを
用いて、映画あるいは報道番組のような多くの内容を含
むサウンドトラックを、内容の意味論的記述によって、
あるいは目標とする可聴周波数帯音の照会への類似性に
よって探索することができる。たとえば、ライオンがほ
えたり、あるいは像が鳴き声をあげたりする全ての映像
クリップの位置を特定することが望まれる。
[0008] In still another application form, the expression of sound is used to generate environmental sounds, background noise, sound effects (sound effects), animal sounds,
Media in the audible frequency range can be indexed, including a wide range of sound phenomena including voice, non-voice cry and music. This will allow the use of automatically extracted indices to design sound recognition tools for searching media in the audio frequency band. With these tools, a soundtrack containing a lot of content, such as a movie or a news show, can be described by a semantic description of the content.
Alternatively, it can be searched by the similarity to the query of the target audible frequency band sound. For example, it is desirable to locate all video clips where the lion roars or the image roars.

【0009】自動分類および指数化への数多くの実現可
能なアプローチがある。Wold等(IEEE Multimedia,
pp.27- 36, 1996)、Martin等の「Musical inst
rument identification: a pattern-recognition appro
ach」(Presented at the 136th Meeting of the Acous
tic Society of America, Norfolk, VA, 1998)は楽器
のための厳密な分類を記載する。Zhang等の「Cont
ent-based classification and retrieval of audio」
(SPIE 43rd Annual Meeting, Conference on Advanced
Signal Processing Algorithms, Architectures and I
mplementationsVIII, 1998)は、スペクトログラムデー
タを用いてモデルをトレーニングするシステムを記載
し、Boreczky等の「A hidden Markov model fr
amework for video segmentation using audio and ima
ge features」(Proceedings of ICASSP'98, pp.3741-
3744, 1998)はマルコフモデルを利用する。
There are numerous feasible approaches to automatic classification and indexing. Wold, etc. (IEEE Multimedia,
pp.27-36, 1996), Martin et al., "Musical inst
rument identification: a pattern-recognition appro
ach ”(Presented at the 136th Meeting of the Acous
The tic Society of America, Norfolk, VA, 1998) describes a strict classification for musical instruments. Zhang et al. "Cont
ent-based classification and retrieval of audio ''
(SPIE 43rd Annual Meeting, Conference on Advanced
Signal Processing Algorithms, Architectures and I
mplementationsVIII, 1998) describe a system for training a model using spectrogram data, which is described in Borecczky et al., “A hidden Markov model fr
amework for video segmentation using audio and ima
ge features "(Proceedings of ICASSP'98, pp.3741-
3744, 1998) uses the Markov model.

【0010】[0010]

【発明が解決しようとする課題】可聴周波数帯音媒体を
指数化し、探索することは特に、マルチメディアのため
に新たに現れたMPEG−7標準規格に密接に関連す
る。その標準規格は、一般的な音のクラスに対して統合
されたインターフェースを必要とする。符号器の互換性
は設計に関する1つの要素である。その際、1つの実施
形態によって提供される指数を有する「音の」データベ
ースを、異なる実施形態によって抽出されたデータベー
スと比較することができる。
The indexing and searching of audio frequency band sound media is particularly closely related to the emerging MPEG-7 standard for multimedia. The standard requires an integrated interface for common sound classes. Encoder compatibility is a factor in design. In doing so, a “sound” database with indices provided by one embodiment can be compared to a database extracted by a different embodiment.

【0011】[0011]

【課題を解決するための手段】コンピュータ化された方
法によって、1つあるいは複数の音源から生成される音
響信号から特徴が抽出される。その音響信号は最初にウ
インドウ処理され、フィルタリングされて、各音源に対
するスペクトル包絡線が生成される。その後、スペクト
ル包絡線の次元数が低減され、その音響信号のための1
組の特徴が生成される。その組内の特徴はクラスタ化さ
れ、各音源に対する一群の特徴が生成される。各群内の
特徴は各音源を特徴付けるスペクトル的特徴および対応
する時間的特徴とを含む。
Features are extracted from an acoustic signal generated from one or more sound sources by a computerized method. The acoustic signal is first windowed and filtered to generate a spectral envelope for each source. Then the dimensionality of the spectral envelope is reduced to 1 for that acoustic signal.
A set of features is generated. The features in the set are clustered to produce a group of features for each sound source. The features within each group include spectral features and corresponding temporal features that characterize each sound source.

【0012】各群の特徴は定量的記述子であり、定量的
記述子は定性的記述子にも関連付けられる。隠れマルコ
フモデルが既知の特徴の組によってトレーニングされ、
データベースに格納される。その際、そのデータベース
は、類似の音響信号を選択、あるいは認識するために、
未知の特徴の組によって指数化されることができる。
A feature of each group is a quantitative descriptor, which is also associated with a qualitative descriptor. Hidden Markov models are trained by a known set of features,
Stored in the database. At that time, the database selects or recognizes similar acoustic signals,
It can be indexed by a set of unknown features.

【0013】[0013]

【発明の実施の形態】図1は、本発明による、信号の混
合物101からスペクトル的特徴108および時間的特
徴109を抽出するための方法100を示す。本発明の
方法100は、音源を分類する目的で、録音された音か
ら特徴を明確にし、それを抽出するために、またパラメ
ータの合成のような構造化されたマルチメディアの応用
形態において目的を変更して再利用する(re-purpose)
ために用いることができる。またその方法は、他の線形
の混合物、さらには多次元の混合物から特徴を抽出する
ためにも用いることができる。その混合物は、1つの音
源から、あるいはステレオ音源のような多数の音源から
得られる。
DETAILED DESCRIPTION OF THE INVENTION FIG. 1 shows a method 100 for extracting spectral features 108 and temporal features 109 from a mixture 101 of signals according to the present invention. The method 100 of the present invention has the purpose of characterizing and extracting features from recorded sounds for the purpose of classifying sound sources, and in structured multimedia applications such as parameter synthesis. Change and reuse (re-purpose)
Can be used for The method can also be used to extract features from other linear mixtures as well as multidimensional mixtures. The mixture can be obtained from one sound source or multiple sound sources such as a stereo sound source.

【0014】録音された信号から特徴を抽出するため
に、本発明による方法は独立成分分析(ICA)に基づ
く統計的な手法を利用する。4次までの累積的な拡張に
よって定義されるコントラスト関数を用いて、ICA変
換は、時間−周波数観測行列121の基底の回転を生成
する。
To extract features from the recorded signal, the method according to the invention makes use of a statistical technique based on independent component analysis (ICA). With a contrast function defined by a cumulative extension up to the 4th order, the ICA transform produces a rotation of the basis of the time-frequency observation matrix 121.

【0015】結果として生成される基底成分は可能な限
り統計的に独立であり、混合物音源101内の個々の特
徴、たとえば音の構造の特徴を明らかにする。これらの
特徴的な構造を用いて、信号を分類するか、あるいは予
測可能な特徴を有する新しい信号を特定することができ
る。
The resulting basis components are as statistically independent as possible, revealing individual features within the mixture sound source 101, such as the structure of the sound. These characteristic structures can be used to classify signals or identify new signals with predictable characteristics.

【0016】本発明による表現は、小さな組の特徴から
多数の音の振舞いを合成することができる。また本発明
による表現は、衝突する、弾む、叩きつける、擦るなど
の複雑な音響的な事象構造、ならびに材料、大きさ、形
状などの音響的な対象物の特性を合成することができ
る。
The representation according to the invention is able to synthesize the behavior of multiple tones from a small set of features. The representation according to the invention is also able to synthesize complex acoustic event structures such as collisions, bounces, hits, rubs, etc., as well as acoustic object properties such as material, size, shape.

【0017】その方法100では、可聴周波数帯音混合
物101が最初に対数フィルタのバンク110によって
処理される。各フィルタは、所定の周波数範囲のための
帯域通過信号111を生成する。典型的には、40〜5
0の帯域通過信号111が生成され、人間の耳の周波数
応答特性を真似るように、高域の周波数範囲より低域の
周波数範囲において多くの信号が生成される。別法で
は、そのフィルタとして、定Q(CQ)あるいはウェー
ブレットフィルタバンクを用いることができるか、ある
いはそのフィルタが、短時間高速フーリエ変換表現(S
TFT)の場合のように線形に配置されることができ
る。
In the method 100, the audio band sound mixture 101 is first processed by a bank 110 of logarithmic filters. Each filter produces a bandpass signal 111 for a given frequency range. Typically 40-5
The bandpass signal 111 of 0 is generated, and many signals are generated in the low frequency range rather than the high frequency range so as to mimic the frequency response characteristics of the human ear. Alternatively, the filter may be a constant Q (CQ) or wavelet filter bank, or the filter may be a short-time fast Fourier transform representation (S
They can be arranged linearly as in the case of (TFT).

【0018】ステップ120では、各帯域通過信号は短
い、たとえば20msecセグメントに「ウインドウ処
理」され、観測行列が生成される。各行列は、数百もの
サンプルを含むことができる。ステップ110および1
20の詳細は、図2および図3にさらに詳細に示され
る。ウインドウ処理はフィルタリングの前に行われるこ
とができることに留意されたい。
In step 120, each bandpass signal is "windowed" into short, eg 20 msec, segments to generate an observation matrix. Each matrix can contain hundreds of samples. Steps 110 and 1
Details of 20 are shown in more detail in FIGS. Note that windowing can be done before filtering.

【0019】ステップ130では、観測行列121に特
異値分解(SVD)が適用され、次元数を低減された行
列131が生成される。SVDは、1873年にイタリ
アの幾何学者ベルトラーミによって初めて記載された。
特異値分解は、主成分分析(PCA)の明確な一般化で
ある。m×n行列の特異値分解は、以下の形式の任意の
因数分解である。
In step 130, singular value decomposition (SVD) is applied to the observation matrix 121 to generate a matrix 131 having a reduced dimensionality. The SVD was first described in 1873 by the Italian geometricist Bertrami.
Singular value decomposition is a well-defined generalization of principal component analysis (PCA). Singular value decomposition of an m × n matrix is an arbitrary factorization of the form

【0020】X=UΣV X = UΣV T

【0021】ただし、Uはm×mの直交行列、すなわち
Uは正規直交列を有し、Vはn×nの直交行列であり、
Σは、iがjに等しくない場合に、成分σij=0を有
する特異値のm×nの対角行列である。
However, U is an m × m orthogonal matrix, that is, U has an orthonormal column, V is an n × n orthogonal matrix,
Σ is a m × n diagonal matrix of singular values with components σ ij = 0, where i is not equal to j.

【0022】1つの利点として、かつPCAとは対照的
に、SVDは非正方行列を分解することができ、それに
より、共分散行列の計算をすることを必要とせずに、ス
ペクトルあるいは時間いずれかの方向において観測行列
を直接に分解することができる。SVDは、共分散行列
を求めることを必要とせずに、非正方行列を直接に分解
するので、結果として生成される基底は、ダイナミック
レンジの問題に対して、PCAより影響を受けにくい。
As an advantage, and in contrast to PCA, SVD is capable of decomposing non-square matrices, thereby either spectrally or temporally without the need for covariance matrix computations. The observation matrix can be decomposed directly in the direction. Since SVD directly decomposes a non-square matrix without the need to find a covariance matrix, the resulting basis is less sensitive to dynamic range issues than PCA.

【0023】本発明の方法は、ステップ140におい
て、次元数を低減された行列131にオプションの独立
成分分析(ICA)を適用する。ブラインド信号分離の
ための擬似ニューロアーキテクチャに基づく反復オンラ
インアルゴリズムを用いるICAがよく知られている。
最近、ICA問題を解決するための多数のニューラルネ
ットワークアーキテクチャが提案されている。たとえば
1995年1月17日にSejnowskiに付与された「Adapt
ive system for broadband multisignal discriminatio
n in a channel with reverberation」というタイトル
の米国特許第5,383,164号を参照されたい。
The method of the present invention applies optional Independent Component Analysis (ICA) to the reduced dimension matrix 131 in step 140. ICAs that use an iterative online algorithm based on a pseudo-neuro architecture for blind signal separation are well known.
Recently, numerous neural network architectures have been proposed to solve the ICA problem. For example, "Adapt given to Sejnowski on January 17, 1995.
ive system for broadband multisignal discriminatio
See U.S. Pat. No. 5,383,164 entitled "n in a channel with reverberation."

【0024】ICAはスペクトル的特徴108および時
間的特徴109を生成する。ベクトルとして表されるス
ペクトル的特徴は、セグメンテーションウインドウ内の
統計的に最も独立している成分の推定値に対応する。時
間的特徴は、同じくベクトルとして表され、そのセグメ
ントの過程におけるスペクトル成分の展開を記述する。
The ICA produces spectral features 108 and temporal features 109. The spectral features, represented as vectors, correspond to estimates of the statistically most independent components within the segmentation window. Temporal features, also represented as vectors, describe the evolution of spectral components during the course of that segment.

【0025】スペクトルおよび時間ベクトルの各対は、
ベクトルの外積を用いて結合され、所与の入力スペクト
ルのための部分スペクトルを再構成することができる。
これらのスペクトルが、フィルタバンク表現がそうであ
るように可逆的である場合には、独立した時間領域信号
を推定することができる。その方式において記述される
各独立した成分の場合に、以前のセグメント内の成分の
ための互換性スコアの行列が利用可能である。これによ
り、最も可能性の高い連続した対応を推定することによ
って、時間にわたって成分を追跡できるようになる。時
間的に前方を見ているときにのみ、後方互換性行列に等
しい。
Each pair of spectrum and time vector is
Vector cross products can be combined to reconstruct the partial spectrum for a given input spectrum.
Independent time domain signals can be estimated if these spectra are reversible as the filterbank representation does. For each independent component described in that scheme, a matrix of compatibility scores for the components in the previous segment is available. This allows the components to be tracked over time by estimating the most likely consecutive correspondence. Equal to the backward compatibility matrix only when looking forward in time.

【0026】可聴周波数帯音のトラックの独立成分分解
を用いて、可聴周波数帯音トラック内の個々の信号成分
を推定することができる。全階数の信号行列(N個の音
源のN個の線形の混合物)が利用できない場合には分離
問題は取り扱いにくいが、周波数領域表現の短い時間的
なセクションの独立成分を使用することにより、根底に
ある音源への近似を与えることができる。これらの近似
は、分類および認識作業、および音の間の比較のために
用いることができる。
Independent component decomposition of the audio band sound track can be used to estimate individual signal components within the audio band sound track. The separation problem is awkward when a full rank signal matrix (N linear mixture of N sources) is not available, but by using the independent components of a short temporal section of the frequency domain representation An approximation to the sound source at can be given. These approximations can be used for classification and recognition tasks, and comparisons between sounds.

【0027】図3に示されるように、時間周波数分布
(TFD)は、いくつかの音響領域においてより多くの
エネルギーを搬送する、より低い周波数成分の寄与を小
さくするために、電力スペクトル密度(PSD)115
によって正規化することができる。
As shown in FIG. 3, the time-frequency distribution (TFD) has a power spectral density (PSD) to reduce the contribution of lower frequency components that carry more energy in some acoustic regions. ) 115
Can be normalized by

【0028】図4および図5はそれぞれ、規則的なリズ
ムで演奏される打楽器に関する時間的および空間的分解
を示す。観測可能な構造によって、シェイクに対応する
広帯域の分節的な成分と、金属シェルの鳴動に対応する
水平方向の層構造とが明らかになる。
FIGS. 4 and 5 respectively show the temporal and spatial decomposition for percussion instruments played in regular rhythms. The observable structure reveals a broad band segmental component corresponding to the shake and a horizontal layered structure corresponding to the ringing of the metal shell.

【0029】音の音響的な特徴のための応用形態 本発明は多数の応用形態において用いることができる。
その抽出された特徴は、音源的混合物内の固有の構造を
表す、音響的混合物の分離可能な成分と見なすことがで
きる。抽出された特徴は、その成分を認識、あるいは特
定するために、パターン認識技術によって決定される1
組の先験的なクラスと比較することができる。これらの
分類器は、音素、音響効果、楽器、動物音あるいは任意
の他のコーパスによる分析モデルの領域にあることがで
きる。抽出された特徴は、逆フィルタバンクを用いて個
別に再合成し、それにより音源の音響的混合物の「純粋
化」を達成することができる。一例の用途は、いくつか
の成分を、目的を変更して再利用するために、あるいは
音楽の構造を自動的に分析するために、録音された音か
ら歌手、ドラムおよびギターを分離することである。別
の例は、映画を自動的に字幕翻訳するために、背景雑音
から俳優の声を分離し、明瞭な音声信号をスピーチレコ
グナイザに渡すことである。
Applications for Acoustic Features of Sound The present invention can be used in numerous applications.
The extracted features can be considered as separable components of the acoustic mixture, which represent unique structures within the source mixture. The extracted features are determined by pattern recognition techniques to recognize or identify their components 1
Can be compared to a set of a priori classes. These classifiers can be in the area of analysis models with phonemes, sound effects, musical instruments, animal sounds or any other corpus. The extracted features can be recombined individually using an inverse filter bank, thereby achieving "purification" of the acoustic mixture of the sound source. One example application is the separation of singers, drums and guitars from recorded sounds, for repurposed reusing of some components, or for automatic analysis of the structure of music. is there. Another example is to separate the actor's voice from the background noise and pass a clear audio signal to the speech recognizer for automatic subtitle translation of the movie.

【0030】スペクトル的特徴および時間的特徴は、混
合物内の個々の音の対象物の音響的構造の種々の特性を
識別するために個別に考慮することができる。スペクト
ル的特徴は、材料、大きさ、形状のような特性を説明す
ることができるのに対して、時間的特徴は、弾む、壊
す、叩きつけるなどの振舞いを説明することができる。
こうして、コップを叩きつけることは、コップが弾むこ
と、あるいは土器を叩きつけることから区別することが
できる。抽出された特徴は、音源の音の変更された合成
事例を生成するために、変更し、再合成することができ
る。入力音が、コップを叩きつけるなどの複数の音響的
特徴を含む1つの音の事象である場合には、個々の特徴
を、再合成のために制御することができる。これは、仮
想的な環境において音を生成することなどのモデルによ
る媒体の応用形態のために有用である。
The spectral and temporal features can be considered individually to identify various characteristics of the acoustic structure of individual sound objects within the mixture. Spectral features can describe properties such as material, size, shape, while temporal features can describe behavior such as bouncing, breaking, slamming, and the like.
Thus, beating a cup can be distinguished from bouncing the cup or beating an earthenware. The extracted features can be modified and resynthesized to produce a modified synthetic case of the sound of the source. If the input sound is a single sound event that includes multiple acoustic features such as slamming a cup, the individual features can be controlled for resynthesis. This is useful for media applications with models such as producing sound in a virtual environment.

【0031】指数化および探索 また本発明を用いて、多くの異なるタイプの音、たとえ
ば音響効果、動物音、楽器、音声、重なり合った音、環
境音、男性的な音、女性的な音を含む大きなマルチメデ
ィアデータベースを指数化し、探索することもできる。
Indexing and Searching The invention can also be used to include many different types of sounds, such as sound effects, animal sounds, musical instruments, sounds, overlapping sounds, environmental sounds, masculine sounds, feminine sounds. You can also index and search large multimedia databases.

【0032】この文脈では、音の記述は一般に2つのタ
イプ、すなわちカテゴリラベルによる文字を用いる定性
的な記述と、確率論的なモデル状態を用いる定量的な記
述とに分割される。カテゴリラベルは、音の内容につい
ての定性的な情報を提供する。この形式における記述
は、インターネットサーチエンジン、あるいは文字フィ
ールドを用いる任意の処理ツールのような、文字による
照会の応用形態に適している。
In this context, phonetic descriptions are generally divided into two types: qualitative descriptions using letters with category labels and quantitative descriptions using probabilistic model states. Category labels provide qualitative information about the sound content. The description in this form is suitable for textual query applications, such as Internet search engines, or any processing tool that uses textual fields.

【0033】対照的に、定量的記述子は、可聴周波数帯
音のセグメントについてのコンパクトな情報を含み、音
の類似性の数値評価のために用いることができる。たと
えば、これらの記述子を用いて、ビデオあるいはオーデ
ィオ録音において特定の楽器を識別することができる。
定性的および定量的記述子は、可聴周波数帯音の例示照
会探索の応用形態に適合する。
In contrast, the quantitative descriptor contains compact information about a segment of the audio band sound and can be used for the numerical evaluation of the similarity of sounds. For example, these descriptors can be used to identify a particular instrument in a video or audio recording.
The qualitative and quantitative descriptors are adapted to the application of an example query search for audio band sounds.

【0034】音認識記述子および記述方式 定性的記述子 録音された可聴周波数帯音をクラスにセグメント化する
間に、その内容についての関連する意味的情報を取得す
ることが望まれる。たとえば、映像サウンドトラック内
の悲鳴を認識することにより、恐怖あるいは危険を指示
することができ、笑い声によって喜劇を指示することが
できる。さらに、音は人の存在を指示することができ、
それゆえ、これらの音が属する映像セグメントは、人を
含むクリップを探索する際の候補として用いることがで
きる。音のカテゴリおよび分類方式記述子は、カテゴリ
概念を、このタイプの複雑な関係型の探索方式を可能に
する階層構造に編成するための手段を提供する。
Sound Recognition Descriptors and Description Schemes Qualitative Descriptors While segmenting a recorded audio band sound into classes, it is desired to obtain relevant semantic information about its content. For example, recognizing a scream in the video soundtrack can indicate fear or danger, and a laugh can indicate a comedy. In addition, the sound can indicate the presence of a person,
Therefore, the video segment to which these sounds belong can be used as a candidate when searching for clips containing people. The sound category and taxonomy descriptors provide a means for organizing category concepts into a hierarchical structure that enables this type of complex relational search strategy.

【0035】音のカテゴリ 簡単な分類法600のための図6に示されるように、記
述方式(DS)は、音のカテゴリに名前をつけるために
用いられる。一例として、イヌがほえる音は、サブカテ
ゴリとして「ほえ声」611を有する定性的カテゴリラ
ベル「イヌ」610を与えられることができる。さらに
「うなり声」612あるいは「遠ぼえ」613は、「イ
ヌ」の望ましいサブカテゴリにすることができる。最初
の2つのサブカテゴリは密接に関連付けられるが、第3
のサブカテゴリは全く異なる音の事象である。それゆ
え、図6は、4つのカテゴリが、ルートノードとして
「イヌ」610を有する分類法に編成されることを示
す。各カテゴリは、その分類法内の別のカテゴリに対し
て少なくとも1つの関係リンク601を有する。初期設
定によって、収容されるカテゴリは、その収容している
カテゴリより狭いカテゴリ(NC)601と見なされ
る。しかしながら、この例では、「うなり声」は「ほえ
声」と概ね同義であるが、それよりは好ましくないもの
として定義される。そのような構造を獲得するために、
本発明の記述方式の一部として以下の関係が定義され
る。
Sound Categories As shown in FIG. 6 for a simple taxonomy 600, description schemes (DS) are used to name sound categories. As an example, a dog barking sound may be given the qualitative category label “dog” 610 with “barking” 611 as a subcategory. Further, "groans" 612 or "howls" 613 can be a desirable subcategory of "dogs". The first two subcategories are closely related, but the third
The subcategories of are completely different sound events. Therefore, FIG. 6 shows that the four categories are organized into a taxonomy with “dog” 610 as the root node. Each category has at least one relational link 601 to another category within its taxonomy. By default, the contained category is considered to be a narrower category (NC) 601 than the contained category. However, in this example, "groan" is generally synonymous with "croak" but is defined as less preferred. To obtain such a structure,
The following relationships are defined as part of the description scheme of the present invention.

【0036】BC−より広いカテゴリは、関連付けられ
るカテゴリが、収容しているカテゴリより意味において
より一般的であることを意味する。NC−より狭いカテ
ゴリは、関連付けられるカテゴリが、収容しているカテ
ゴリより意味においてより限定的であることを意味す
る。US−現在のカテゴリより好ましいため、現在のカ
テゴリと概ね同義の関連付けられるカテゴリを用いる。
UF−現在のカテゴリの使用がほぼ同義の関連付けられ
るカテゴリよりも好ましい。RC−関連付けられるカテ
ゴリが、同義、ある程度同義、より広いあるいはより狭
いカテゴリではないが、収容するカテゴリに関連付けら
れる。
BC-Wide category means that the associated category is more general in meaning than the containing category. NC-Narrower category means that the associated category is more specific in meaning than the containing category. US-Use associated categories that are generally synonymous with the current category because they are preferred over the current category.
UF-Use of the current category is preferred over nearly synonymous associated categories. RC-The associated category is not synonymous, somewhat synonymous, wider or narrower, but associated with the containing category.

【0037】以下のXMLスキーマコードは、記述定義
言語(DDL)を用いて、図6に示されるカテゴリ分類
法のための定性的な記述方式を如何に例示化するかを示
す。
The following XML Schema code illustrates how to use the Definition Definition Language (DDL) to exemplify the qualitative description scheme for the category classification scheme shown in FIG.

【0038】[0038]

【数2】 [Equation 2]

【0039】カテゴリおよび方式属性はともに、以下の
さらに詳細に記載される確率モデルのような定量的記述
方式からのカテゴリおよび分類法を参照するために用い
ることができる固有の識別子を提供する。ラベル記述子
は、各カテゴリのための有意味の意味ラベルを与え、関
係記述子は、本発明による分類法のカテゴリの中の関係
を記述する。
The category and scheme attributes together provide a unique identifier that can be used to refer to categories and taxonomies from quantitative description schemes such as the probabilistic model described in more detail below. Label descriptors give meaningful semantic labels for each category, and relationship descriptors describe the relationships among the categories of the taxonomy according to the invention.

【0040】分類方式 図7に示されるように、カテゴリを関係リンクによって
分類方式700に結合して、より豊富な分類法を作成す
ることができる。たとえば、「ほえ声」611は「イ
ヌ」610のサブカテゴリであり、「イヌ」610は
「ペット」701のサブカテゴリである。それはカテゴ
リ「ネコ」710も同じである。ネコ710は、音のカ
テゴリ「鳴き声」711および「のどを鳴らす音」71
2を有する。以下は、2つのカテゴリ「イヌ」および
「ネコ」を含む「ペット」のための簡単な分類方式の一
例である。
Classification Scheme As shown in FIG. 7, categories can be combined with classification scheme 700 by relational links to create a richer classification scheme. For example, “bark” 611 is a subcategory of “dog” 610, and “dog” 610 is a subcategory of “pet” 701. The same applies to the category "cat" 710. The cat 710 has the categories of sounds “crowing” 711 and “throating sound” 71.
Have two. The following is an example of a simple classification scheme for "pets", which includes two categories, "dogs" and "cats."

【0041】予め定義された方式を拡張することにより
この分類方式を実施するために、「ネコ」の名前を付さ
れた第2の方式は以下のように例示化される。
In order to implement this classification scheme by extending the predefined scheme, a second scheme named "cat" is illustrated as follows.

【0042】[0042]

【数3】 [Equation 3]

【0043】ここでこれらのカテゴリを結合するため
に、「ペット」と呼ばれる分類方式が、予め定義された
方式を参照して例示化される。
To combine these categories here, a classification scheme called "pet" is illustrated with reference to a predefined scheme.

【0044】[0044]

【数4】 [Equation 4]

【0045】ここでは、「ペット」と呼ばれる分類方式
は、「イヌ」および「ネコ」のカテゴリ要素の全てを含
み、ルートとして付加的なカテゴリ「ペット」を含む。
上記のような定性的分類法は、文字指数化の応用形態の
場合には十分である。
Here, the classification system called "pet" includes all of the category elements "dog" and "cat", and the additional category "pet" as a root.
The above qualitative classification methods are sufficient for character indexing applications.

【0046】以下のセクションは、定性的記述子ととも
に用いられ、完全な音の指数化および探索エンジンを形
成することができる、分類および指数化のための定量的
記述子を記載する。
The following section describes quantitative descriptors for classification and indexing that can be used with qualitative descriptors to form a complete phonetic indexing and search engine.

【0047】定量的記述子 音認識定量的記述子は、統計的な分類器とともに用いら
れることになる可聴信号の特徴を記述する。音認識定量
的記述子は、音響効果および楽器を含む一般的な音の認
識のために用いることができる。示唆される記述子に加
えて、可聴周波数帯音の構造の中で定義される任意の他
の記述子を、分類のために用いることができる。
Quantitative Descriptor The Sound Recognition Quantitative Descriptor describes the characteristics of an audible signal that will be used with a statistical classifier. Sound recognition quantitative descriptors can be used for general sound recognition, including sound effects and musical instruments. In addition to the suggested descriptors, any other descriptor defined in the structure of audio band sounds can be used for classification.

【0048】可聴周波数帯スペクトル基底特徴 音の分類のために最も広範に用いられる特徴は、電力ス
ペクトルスライスあるいはフレームのようなスペクトル
による表現である。典型的には、各スペクトルスライス
はn次元のベクトルであり、nはスペクトルチャネルの
数であり、1024チャネルまでのデータのチャネルを
有する。可聴周波数帯音の構造記述子によって表現され
るような対数周波数スペクトルによって、次元数を約3
2チャネルまで低減することができる。それゆえ、スペ
クトルによって導出される特徴は一般に、高い次元数に
起因して確率モデル分類器とは互換性がない。確率分類
器は、10次元より少ない次元数で最も良好に動作す
る。
The most widely used feature for the classification of audio frequency band spectral basis features is a spectral representation such as a power spectrum slice or frame. Each spectral slice is typically an n-dimensional vector, where n is the number of spectral channels and has up to 1024 channels of data. The number of dimensions is approximately 3 by the logarithmic frequency spectrum as represented by the structure descriptor of the audio frequency band sound.
It can be reduced to 2 channels. Therefore, the features derived by the spectrum are generally not compatible with stochastic model classifiers due to their high dimensionality. Probability classifiers work best with fewer than 10 dimensions.

【0049】それゆえ、上記および下記のような特異値
分解(SVD)によって生成される低次元数の基底関数
が好ましい。その際、可聴周波数帯音スペクトル基底記
述子は、確率モデル分類器のために適した低次元の部分
空間にそのスペクトルを射影するために用いられる基底
関数のためのコンテナである。
Therefore, low dimensional basis functions generated by singular value decomposition (SVD) as described above and below are preferred. The audio spectrum sound spectrum basis descriptor is then a container for the basis functions used to project that spectrum into a low-dimensional subspace suitable for the stochastic model classifier.

【0050】本発明は、音の各クラス、およびサブクラ
スのための基底を決定する。その基底は、音の特徴空間
の統計的に最も規則的な特徴を獲得する。次元数の低減
は、上記のように、データから導出された基底関数の行
列に対してスペクトルベクトルを射影することにより行
われる。基底関数は、行の数がスペクトルベクトルの長
さに対応し、列の数が基底関数の数に対応する行列の列
に格納される。基底射影は、スペクトルと基底ベクトル
との行列積である。
The present invention determines the basis for each class and subclass of sounds. The basis captures the statistically most regular features of the sound feature space. The reduction of the number of dimensions is performed by projecting the spectrum vector on the matrix of the basis function derived from the data as described above. Basis functions are stored in columns of a matrix, where the number of rows corresponds to the length of the spectral vector and the number of columns corresponds to the number of basis functions. The base projection is the matrix product of the spectrum and the base vector.

【0051】基底関数から再構成されるスペクトログラ
ム 図8は、本発明による4つの基底関数から再構成される
スペクトログラム800を示す。その具体的なスペクト
ログラムは「ポップ」音楽のためのものである。左側の
スペクトル基底ベクトル801は、ベクトルの外積を用
いて、基底射影ベクトル802と結合される。それぞれ
結果として生成される外積の行列は加算され、最終的な
再構成物が生成される。基底関数は、元のデータより少
ない次元数において情報を最大にするように選択され
る。たとえば、基底関数は、主成分分析(PCA)ある
いはKarhunen−Loeve変換(KLT)を用
いて抽出される無相関の特徴に対応するか、あるいは独
立成分分析(ICA)によって抽出される統計的に独立
の成分に対応することができる。KLTあるいはホテリ
ング変換は、二次の統計値、すなわち共分散がわかって
いる際に好ましい逆相関変換である。この再構成は、図
13を参照してさらに詳細に記載される。
Spectrogram Reconstructed from Basis Functions FIG. 8 shows a spectrogram 800 reconstructed from four basis functions according to the present invention. Its concrete spectrogram is for "pop" music. The left spectral basis vector 801 is combined with the basis projection vector 802 using the vector cross product. The resulting outer product matrices are added together to produce the final reconstruction. The basis functions are chosen to maximize the information in a smaller number of dimensions than the original data. For example, the basis functions correspond to uncorrelated features extracted using principal component analysis (PCA) or Karhunen-Loeve transform (KLT), or statistically independent extracted by independent component analysis (ICA). Can correspond to the components of. The KLT or Hotelling transform is the preferred inverse correlation transform when the quadratic statistic, or covariance, is known. This reconstruction is described in more detail with reference to FIG.

【0052】分類の目的を果たすために、全クラスのた
めの基底が導出される。こうして、分類空間は、そのク
ラスの最も統計的に顕著な成分を含む。以下のDDL例
示化は、一連の31チャネルの対数周波数スペクトルを
5次元に低減する基底射影行列を定義する。
To serve the purposes of classification, a basis for all classes is derived. Thus, the classification space contains the most statistically significant components of that class. The following DDL instantiation defines a basis projection matrix that reduces the series of 31 channel logarithmic frequency spectra in five dimensions.

【0053】[0053]

【数5】 [Equation 5]

【0054】低エッジ、高エッジ、ならびに分解能属性
は、基底関数の下側周波数限界および上側周波数限界、
ならびにオクターブバンド表記法におけるスペクトルチ
ャネルの間隔を与える。本発明による分類構造では、音
の全クラスのための基底関数が、そのクラスのための確
率モデルとともに格納される。
The low edge, high edge, and resolution attributes are the lower and upper frequency limits of the basis function,
And the spacing of the spectral channels in octave band notation. In the classification structure according to the invention, the basis functions for all classes of sounds are stored along with the probabilistic model for that class.

【0055】音認識の特徴 音認識のために用いられる特徴を集めて、種々の異なる
応用形態のために用いることができる1つの記述方式に
することができる。初期設定の可聴周波数帯音スペクト
ル射影記述子は、多くの音のタイプ、たとえば、音響効
果ライブラリから得られた音、および楽器のサンプルデ
ィスクの分類において良好に役割を果たす。
Sound Recognition Features The features used for sound recognition can be aggregated into one description scheme that can be used for a variety of different applications. The default audio spectrum projection descriptors play a good role in the classification of many sound types, for example sounds obtained from sound effects libraries, and sample discs of musical instruments.

【0056】基底特徴は、上記のような可聴周波数帯音
スペクトル包絡線抽出プロセスから導出される。可聴周
波数帯音スペクトル射影記述子は、同じく上記のよう
に、1組の基底関数に対するスペクトル包絡線の射影に
よって得られる、次元数を低減した特徴のためのコンテ
ナである。たとえば、可聴周波数帯音スペクトル包絡線
は、対数で配置される周波数帯へのリサンプリングとと
もに、スライディングウインドウFFT解析によって抽
出される。好ましい実施形態では、解析フレーム周期は
10msecである。しかしながら、30msec持続
時間のスライディング抽出ウインドウが、ハミングウイ
ンドウで用いられる。30msec間隔は、十分なスペ
クトル分解能を提供し、オクターブバンドスペクトルの
62.5Hz幅の最初のチャネルを概ね分解するように
選択される。FFT解析ウインドウの大きさは、次に大
きな2の累乗のサンプル数である。これは32kHzで
30msecの場合に、960サンプルが存在するが、
FFTは1024サンプルにおいて実行されることにな
ることを意味する。44.1kHzで30msecの場
合、1323サンプルが存在するが、FFTは2048
サンプルにおいて実行されることになり、ウインドウ外
のサンプルは0に設定される。
The base features are derived from the audio frequency band sound spectrum envelope extraction process as described above. The audio frequency spectrum projection descriptor is a container for reduced dimensionality features obtained by projection of the spectral envelope over a set of basis functions, also as described above. For example, the audible frequency band sound spectrum envelope is extracted by a sliding window FFT analysis along with resampling into frequency bands arranged in logarithm. In the preferred embodiment, the analysis frame period is 10 msec. However, a sliding extraction window of 30 msec duration is used in the Hamming window. The 30 msec interval is chosen to provide sufficient spectral resolution and generally resolve the 62.5 Hz wide first channel of the octave band spectrum. The size of the FFT analysis window is the next largest power of two samples. In case of 30 msec at 32 kHz, there are 960 samples,
It means that the FFT will be performed on 1024 samples. At 44.1 kHz for 30 msec, there are 1323 samples, but the FFT is 2048.
It will be executed in samples and samples outside the window will be set to zero.

【0057】図9aおよび図9bは、時間指数910の
場合の3つのスペクトル基底成分901〜903と、図
10aおよび図10bにおける「笑い声」スペクトログ
ラム1000のための周波数指数920の場合の生成さ
れる基底射影911〜913とを示す。ここでの形式
は、図4および図5に示される形式と類似である。図1
0aは、笑い声の対数目盛のスペクトログラムを示して
おり、図10bはスペクトログラムを再構成したものを
示す。いずれの図面とも、x軸およびy軸上にそれぞれ
時間および周波数指数をプロットする。
9a and 9b show the three spectral basis components 901-903 for the time index 910 and the generated basis for the frequency index 920 for the "laughter" spectrogram 1000 in FIGS. 10a and 10b. Projections 911 to 913 are shown. The format here is similar to that shown in FIGS. 4 and 5. Figure 1
0a shows the logarithmic scale spectrogram of laughter, and FIG. 10b shows the reconstructed spectrogram. Both figures plot the time and frequency index on the x and y axes, respectively.

【0058】基底記述子に加えて、別の定量的記述子の
大きなシーケンスを用いて、楽器分類のための用いられ
る場合が多い調波包絡線および基本周波数特徴のよう
な、音のクラスの特別な特性を用いて分類器を定義する
ことができる。
In addition to the base descriptors, a large sequence of other quantitative descriptors is used to identify special classes of sounds, such as harmonic envelopes and fundamental frequency features often used for instrument classification. A classifier can be defined using various properties.

【0059】本発明によってなされるような次元数低減
の1つの利便性は、拡大縮小可能な1組の記述子に基づ
く任意の記述子が、同じサンプリングレートでスペクト
ル記述子に付加できることである。さらに、適切な基底
を、スペクトルに基づく基底と同じようにして、拡張さ
れた特徴の組全体に対して計算することができる。
One convenience of dimensionality reduction as done by the present invention is that any descriptor based on a scalable set of descriptors can be added to the spectral descriptor at the same sampling rate. Moreover, suitable bases can be calculated for the entire extended feature set in the same manner as spectrally based bases.

【0060】基底関数を用いるスペクトログラム要約化 本発明による音認識の特徴記述方式のための別の応用形
態は、効率的なスペクトログラム表現である。スペクト
ログラムを視覚化および要約化するために、可聴周波数
帯音スペクトル基底射影および可聴周波数帯音スペクト
ル基底特徴を、非常に効率のよい記憶機構として用いる
ことができる。
Spectrogram Summarization Using Basis Functions Another application for the feature description scheme of sound recognition according to the present invention is efficient spectrogram representation. To visualize and summarize the spectrogram, the audio frequency band sound spectrum basis projections and audio frequency band sound spectrum basis features can be used as a very efficient storage mechanism.

【0061】スペクトログラムを再構成するために、本
発明は以下により詳細に記載される式2を用いる。式2
は、上記のように図8にも示される、各基底関数とその
対応するスペクトログラム基本射影とのクロス乗積から
2次元のスペクトログラムを構成する。
To reconstruct the spectrogram, the present invention uses Equation 2, which is described in more detail below. Formula 2
Constructs a two-dimensional spectrogram from the cross product of each basis function and its corresponding spectrogram basic projection, which is also shown in FIG. 8 as described above.

【0062】確率モデル記述方式 有限状態モデル スペクトル的特徴は時間にわたって変動するので、音の
現象は動的である。この非常に大きな時間的変動が、音
響信号に、認識のための特徴的な「指紋」を与える。そ
れゆえ、本発明のモデルは、特定の音源あるいは音のク
ラスによって生成される音響信号を、有限の状態数に分
割する。その分割は、スペクトル的特徴に基づく。個々
の音は、この状態空間を通る、それらの音の軌跡によっ
て記述される。このモデルが、図11aおよび図11b
に関して、以下により詳細に記載される。各状態は、ガ
ウス分布のような連続確率分布によって表現されること
ができる。
Stochastic Model Description Finite State Model Since the spectral features fluctuate over time, the phenomenon of sound is dynamic. This very large temporal variation gives the acoustic signal a characteristic "fingerprint" for recognition. Therefore, the model of the present invention divides the acoustic signal generated by a particular sound source or class of sounds into a finite number of states. The division is based on spectral features. Individual sounds are described by their trajectories through this state space. This model is shown in FIGS. 11a and 11b.
Will be described in more detail below. Each state can be represented by a continuous probability distribution such as a Gaussian distribution.

【0063】状態空間を通る音のクラスの動的な振舞い
は、現在の状態を与えるときに、次の状態への推移の確
率を記述するk×kの推移行列によって表される。推移
行列Tは、時間t−lにおける状態iから時間tにおけ
る状態jへの推移の確率をモデル化する。初期の状態分
布は、確率のk×1ベクトルであり、典型的には有限状
態モデルにおいても用いられる。このベクトルのk番目
の要素は、最初の観測フレームにおいて状態kにある確
率である。
The dynamic behavior of a class of sounds passing through the state space is represented by a k × k transition matrix that describes the probability of transition to the next state given the current state. The transition matrix T models the probability of a transition from state i at time t-1 to state j at time t. The initial state distribution is a k × 1 vector of probabilities and is also typically used in finite state models. The kth element of this vector is the probability of being in state k in the first observation frame.

【0064】ガウス分布タイプ 多次元ガウス分布は、音の分類中に状態をモデル化する
ために用いられる。ガウス分布は、平均値mの1×nベ
クトルと、n×nの共分散行列Kとによってパラメータ
化される。ただしnは各観測ベクトルにおける特徴の数
である。ガウスパラメータを与えると、特定のベクトル
xに対する確率の計算のための式は以下のようになる。
Gaussian Distribution Type The multidimensional Gaussian distribution is used to model states during sound classification. The Gaussian distribution is parameterized by a 1 × n vector of mean m and an n × n covariance matrix K. However, n is the number of features in each observation vector. Given the Gaussian parameters, the formula for calculating the probabilities for a particular vector x is:

【0065】[0065]

【数6】 [Equation 6]

【0066】連続隠れマルコフモデルは、状態観測確率
のための連続確率分布モデルを有する有限状態モデルで
ある。以下のDDL例示化は、ガウス状態を有する連続
隠れマルコフモデルを表すための確率モデル記述方式の
使用の一例である。この例では、浮動小数点数が、表示
の目的のためにのみ、小数点以下2桁に丸められてい
る。
The continuous hidden Markov model is a finite state model having a continuous probability distribution model for state observation probabilities. The following DDL instantiation is an example of the use of a stochastic model description scheme to represent a continuous Hidden Markov Model with Gaussian states. In this example, floating point numbers are rounded to two decimal places for display purposes only.

【0067】[0067]

【数7】 [Equation 7]

【0068】この例では、「確率モデル」は、基底確率
モデルクラスから導出される、ガウス分布タイプとして
例示化される。
In this example, the "stochastic model" is instantiated as a Gaussian distribution type, which is derived from the base stochastic model class.

【0069】音認識モデル記述方式 これまで、本発明による方法では、応用形態の構造を全
く用いることなくツールを分離してきた。以下のデータ
タイプは、上記の記述子および記述方式を結合して、音
の分類および指数化のための統合された構造にする。音
のセグメントは、分類器の出力に基づくカテゴリラベル
で指数化することができる。さらに、確率モデルパラメ
ータは、データベース内の音の指数化のために用いるこ
とができる。状態のようなモデルパラメータによって指
数化することは、照会カテゴリが未知であるとき、ある
いはカテゴリの範囲より狭い照合判定基準が必要とされ
るときに、例示照会応用形態によって必要とされる。
Sound Recognition Model Description Method Up to now, the method according to the present invention has separated tools without using any structure of application form. The following data types combine the above descriptors and description schemes into a unified structure for sound classification and indexing. The sound segment can be indexed with a category label based on the output of the classifier. In addition, the probabilistic model parameters can be used for indexing sounds in the database. Indexing by model parameters such as state is needed by the example query application when the query category is unknown or when a matching criterion narrower than the range of categories is needed.

【0070】音認識モデル 音認識モデル記述方式は、隠れマルコフモデルあるいは
ガウス混合モデルのような音のクラスの確率モデルを特
定する。以下の例は、図6の「ほえ声」音カテゴリ61
1の隠れマルコフモデルの例示化である。その音のクラ
スのための確率モデルおよび関連する基底関数は、先に
記載された例の場合と同じように定義される。
Sound Recognition Model The sound recognition model description method specifies a stochastic model of a class of sounds such as a Hidden Markov Model or Gaussian Mixture Model. The example below shows the "croak" sound category 61 of FIG.
2 is an illustration of a Hidden Markov Model of 1. The probabilistic model and associated basis functions for that class of sounds are defined in the same way as for the example described above.

【0071】[0071]

【数8】 [Equation 8]

【0072】音モデル状態パス この記述子は有限状態確率モデルを参照し、そのモデル
を通して音の動的な状態パスを記述する。音をモデル状
態にセグメント化することにより、あるいは規則的な間
隔で状態パスをサンプリングすることにより、2つの態
様で音を指数化することができる。第1の場合には、各
可聴周波数帯音セグメントは、1つの状態への参照を含
み、そのセグメントの持続時間は、その状態のための有
効持続時間を指示する。第2の場合には、音は、モデル
状態を参照する、サンプリングされた一連の指数によっ
て記述される。比較的長い状態持続時間を有する音カテ
ゴリは、1セグメント、1状態アプローチを用いて効率
的に記述される。比較的短い状態持続時間を有する音
は、サンプリングされた一連の状態指数を用いて、さら
に効率的に記述される。
Sound Model State Path This descriptor references a finite state probability model and describes the dynamic state path of the sound through that model. By segmenting the sound into model states or by sampling the state path at regular intervals, the sound can be indexed in two ways. In the first case, each audio band tone segment contains a reference to a state, and the duration of that segment indicates the effective duration for that state. In the second case, the sound is described by a series of sampled indices that refer to model states. Tone categories with relatively long state durations are efficiently described using a one-segment, one-state approach. Sounds with relatively short state durations are more efficiently described using a series of sampled state indices.

【0073】図11aは、図6のイヌほえ声音611の
対数スペクトログラム(周波数対時間)1100を示
す。図11bは、同じ時間間隔にわたって、図11aの
ほえ声モデルのための連続隠れマルコフモデルを通した
状態の音モデル状態パスシーケンスを示す。図11bで
は、x軸は時間指数であり、y軸は状態指数である。
FIG. 11a shows the log spectrogram (frequency vs. time) 1100 of the dog bark sound 611 of FIG. FIG. 11b shows a sound model state pass sequence of states through a continuous Hidden Markov Model for the roaring model of FIG. 11a over the same time interval. In FIG. 11b, the x-axis is the time index and the y-axis is the state index.

【0074】音認識分類器 図12は、分類器の全ての必要な成分のために1つのデ
ータベース1200を用いる音認識分類器を示す。その
音認識分類器は、多数の確率モデル間の関係を記述し、
それにより分類器のオントロジを定義する。たとえば、
階層的レコグナイザは、図6および図7の場合に記載さ
れるように、ルートノードにおいて、動物のような広範
な音のクラスを、また葉ノードにおいて、イヌ:ほえ
声、およびネコ:鳴き声、のような、より細かいクラス
を分類することができる。この方式は、グラフの記述子
方式構造を用いて、分類器のオントロジと音のカテゴリ
の分類法との間の対応関係を定義し、階層的音モデル
が、所与の分類法の場合にカテゴリ記述を抽出するため
に用いられるようにする。
Sound Recognition Classifier FIG. 12 shows a sound recognition classifier that uses one database 1200 for all required components of the classifier. The sound recognition classifier describes the relationships between multiple probabilistic models,
It defines the ontology of the classifier. For example,
Hierarchical recognizers have a wide range of animal-like sound classes at the root node and dogs: barks and cats: barks at the root nodes, as described in FIGS. 6 and 7. Such a finer class can be classified. This method uses the descriptor descriptor structure of the graph to define the correspondence between the ontology of the classifier and the taxonomy of the sound categories, and the hierarchical sound model is categorical for the given taxonomy. Be used to extract the description.

【0075】図13は、モデルのデータベースを構成す
るためのシステム1300を示す。図13に示されるシ
ステムは、図1に示されるシステムの拡張形である。こ
こでは、スペクトル包絡線を抽出するためにフィルタリ
ングする前に、入力音響信号がウインドウ処理される。
そのシステムは、たとえば、WAV形式のオーディオフ
ァイルの形で、可聴周波数帯音入力1301を取り込む
ことができる。そのシステムは、ファイルから可聴周波
数帯音特徴を抽出し、これらの特徴で隠れマルコフモデ
ルをトレーニングする。またそのシステムは、各音のク
ラスの場合に音の標本のディレクトリを用いる。階層的
ディレクトリ構造は、所望の分類法に対応するオントロ
ジを定義する。1つの隠れマルコフモデルが、そのオン
トロジの各ディレクトリの場合にトレーニングされる。
FIG. 13 shows a system 1300 for constructing a database of models. The system shown in FIG. 13 is an extension of the system shown in FIG. Here, the input acoustic signal is windowed before being filtered to extract the spectral envelope.
The system can capture audio band input 1301 in the form of, for example, a WAV format audio file. The system extracts audible frequency band sound features from the file and trains Hidden Markov Models with these features. The system also uses a directory of sound samples for each sound class. The hierarchical directory structure defines the ontology that corresponds to the desired taxonomy. One hidden Markov model is trained for each directory of its ontology.

【0076】可聴周波数帯音特徴抽出 図13のシステム1300は、上記のように、音響信号
から可聴周波数帯音スペクトル基底関数および特徴を抽
出するための方法を示す。入力音響信号1301は、1
つの音源、たとえば人、動物、楽器によって、あるいは
多数の音源、たとえば人と動物、多数の楽器、または合
成音によって生成することができる。後者の場合に、音
響信号は混合物である。入力音響信号は最初に10ms
ecフレームにウインドウ処理される(1310)。図
1では、入力信号は、ウインドウ処理前に帯域通過フィ
ルタリングされることに留意されたい。ここでは、音響
信号は最初にウインドウ処理され、その後フィルタリン
グされ(1320)、短時間対数周波数スペクトル(sh
ort-time logarithmic-in-frequency spectrum)を抽出
する。フィルタリングは、大きさを二乗した(squared-
magnitude)短時間フーリエ変換のような、時間−周波
数電力スペクトル分析を実行する。その結果は、M個の
フレームとN個の周波数(frequency bins)とを有する
行列である。スペクトルベクトルxは、この行列の行で
ある。
Audio Frequency Band Sound Feature Extraction System 1300 of FIG. 13 illustrates a method for extracting audio frequency band sound spectrum basis functions and features from an acoustic signal, as described above. The input acoustic signal 1301 is 1
It can be produced by one sound source, eg a person, an animal, an instrument, or by a number of sound sources, eg a person and an animal, an instrument, or a synthetic sound. In the latter case, the acoustic signal is a mixture. Input sound signal is 10ms first
Window processing is performed on the ec frame (1310). Note that in FIG. 1, the input signal is bandpass filtered before windowing. Here, the acoustic signal is first windowed, then filtered (1320), and the short-time logarithmic frequency spectrum (sh
ort-time logarithmic-in-frequency spectrum) is extracted. Filtering is squared size (squared-
magnitude) Perform a time-frequency power spectrum analysis, such as a short time Fourier transform. The result is a matrix with M frames and N frequency bins. The spectral vector x is the row of this matrix.

【0077】ステップ1330は、対数目盛の正規化を
実行する。各スペクトルベクトルxは、電力スペクトル
からデシベル目盛1331に、z=10log
10(x)で変換される。ステップ1332は、以下の
ようにベクトル要素のL2ノルムを決定する。
Step 1330 performs logarithmic scale normalization. Each spectrum vector x is calculated from the power spectrum on the decibel scale 1331 and z = 10 log.
It is converted by 10 (x). Step 1332 determines the L2 norm of the vector element as follows.

【0078】[0078]

【数9】 [Equation 9]

【0079】その後、新しい単位ノルムスペクトルベク
トルは、各スライスzをその電力rで割ったz/rによ
ってスペクトル包絡線(〜)Xを決定され、結果として
正規化されたスペクトル包絡線(〜)X1340は、基
底抽出プロセス1360に渡される。なお、(〜)X
は、〜がXの上に付いていることを表す。
The new unit norm spectral vector is then determined as the spectral envelope (~) X by z / r, which is each slice z divided by its power r, resulting in the normalized spectral envelope (~) X1340. Is passed to the base extraction process 1360. Note that (~) X
Indicates that ~ is attached to X.

【0080】スペクトル包絡線(〜)Xは、各ベクトル
を、観測行列の形の行のようにする。結果的な行列の大
きさはM×Nである。ただし、Mは時間フレームの数で
あり、Nは周波数(frequency bins)の数である。その
行列は以下の構造を有するであろう。
The spectral envelope (-) X makes each vector look like a row in the form of an observation matrix. The resulting matrix size is M × N. However, M is the number of time frames and N is the number of frequencies (frequency bins). The matrix will have the following structure:

【0081】[0081]

【数10】 [Equation 10]

【0082】基底抽出 基底関数は、図1の特異値分解SVD130を用いて抽
出される。SVDは、コマンド[U,S,V]=SVD
(X,0)を用いて実行される。「簡潔な」SVDを用
いることが好ましい。簡潔なSVDは、SVDの因数分
解中に不要な行および列を省略する。本発明では、行の
基底関数は必要ないため、SVDの抽出効率は高くな
る。SVDは以下のように行列を因数分解する。(〜)
X=USVただし、(〜)Xは3つの行列の行列積に
分解され、Uは行基底、Sは対角特異値行列であり、V
は転置された列基底関数である。その基底は、最初のK
個の基底関数のみ、すなわちVの最初のK個の列のみを
保有することにより低減される。
Basis Extraction Basis functions are extracted using the singular value decomposition SVD 130 of FIG. SVD is command [U, S, V] = SVD
Performed using (X, 0). It is preferred to use a "brief" SVD. The concise SVD omits unnecessary rows and columns during SVD factorization. In the present invention, since the row basis function is not necessary, the SVD extraction efficiency is high. SVD factors a matrix as follows. (~)
X = USV T However, (˜) X is decomposed into a matrix product of three matrices, U is a row basis, S is a diagonal singular value matrix, and V is
Is the transposed column basis function. The basis is the first K
It is reduced by retaining only B basis functions, ie only the first K columns of V.

【0083】[0083]

【数11】 [Equation 11]

【0084】ただしKは典型的には、音の特徴による応
用形態の場合に3〜10の基底関数の範囲にある。K個
の基底関数のために保有される情報の割合を決定するた
めに、行列S内に含まれる特異値が用いられる。
However, K is typically in the range of 3-10 basis functions for sound feature applications. The singular values contained in the matrix S are used to determine the proportion of information retained for the K basis functions.

【0085】[0085]

【数12】 [Equation 12]

【0086】ただし、I(K)はK個の基底関数の場合
に保有される情報の割合であり、Nはスペクトル(spec
tral bins)の数にも等しい基底関数の全数である。S
VD基底関数は、その行列の列に格納される。
However, I (K) is the ratio of information held in the case of K basis functions, and N is the spectrum (spec
The total number of basis functions equal to the number of tral bins). S
The VD basis functions are stored in the columns of that matrix.

【0087】応用形態間で最大限に互換性を持たせるた
めに、基底関数は、単位L2ノルムを有する列を含み、
その関数は、他の取り得る基底関数に対してk次元の情
報を最大にする。基底関数は、PCA抽出によって与え
られるような直交性か、あるいはICA抽出によって与
えられるような非直交性にすることができる。以下を参
照されたい。基本射影および再構成は、以下の分析−合
成式によって記述される。
For maximum compatibility between applications, the basis functions include columns with unit L2 norm,
The function maximizes k-dimensional information relative to other possible basis functions. The basis functions can be orthogonal as provided by PCA extraction or non-orthogonal as provided by ICA extraction. See below. The basic projection and reconstruction are described by the following analysis-synthesis formula.

【0088】[0088]

【数13】 [Equation 13]

【0089】ただし、Xはスペクトル包絡線であり、Y
はスペクトル的特徴であり、Vは時間的特徴である。ス
ペクト的特徴は、特徴のm×k観測行列から抽出され、
Xはスペクトルベクトルが行として編成されたm×nの
スペクトルデータ行列であり、Vは列に編成される基底
関数のn×k行列である。
Where X is the spectral envelope and Y
Is a spectral feature and V is a temporal feature. Spectral features are extracted from the m × k observation matrix of features,
X is an m × n spectral data matrix in which spectral vectors are organized in rows, and V is an n × k matrix of basis functions organized in columns.

【0090】最初の式は特徴抽出に対応し、第2の式は
スペクトル再構成に対応する。図8を参照されたい。た
だし、Vは、非直交性の場合のVの擬似逆行列を表
す。
The first equation corresponds to feature extraction and the second equation corresponds to spectral reconstruction. See FIG. 8. However, V + represents the pseudo inverse matrix of V in the case of non-orthogonality.

【0091】独立成分分析低減されたSVD基底Vが抽
出された後に、オプションのステップが、最大限に統計
的に独立な方向に、基底回転を実行することができる。
これは、スペクトログラムの独立成分を分離し、特徴の
最大の分離を必要とする全ての応用形態について有用で
ある。先に得られた基底関数を用いて、統計的に独立し
た基底を見つけ出すために、よく知られており、幅広く
紹介されている独立成分分析(ICA)プロセスのうち
の任意のものを用いることができる。たとえば、JAD
EあるいはFastICAがあり、Cardoso,
J.F.およびLaheld,B.H.による「Equiva
riant adaptive source separation」(IEEE Trans. On
Signal Processing, 4: 112- 114, 1996)あるいはH
yvarinen,Aによる「Fast and robust fixed-
point algorithms for independent component analysi
s」(IEEE Trans. On Neural Networks, 10(3): 626- 6
34, 1999)を参照されたい。
Independent Component Analysis After the reduced SVD basis V has been extracted, an optional step can perform basis rotation in maximally statistically independent directions.
This separates the independent components of the spectrogram and is useful for all applications requiring maximum separation of features. It is possible to use any of the well-known and widely introduced independent component analysis (ICA) processes to find statistically independent bases using the previously obtained basis functions. it can. For example, JAD
E or FastICA, Cardoso,
J. F. And Laheld, B .; H. By "Equiva
riant adaptive source separation "(IEEE Trans. On
Signal Processing, 4: 112- 114, 1996) or H
Yvarinen, A, “Fast and robust fixed-
point algorithms for independent component analysi
s '' (IEEE Trans. On Neural Networks, 10 (3): 626-6
34, 1999).

【0092】以下のICAの使用は、1組のベクトル
を、統計的に独立したベクトル[(−)V ,A]=
ica(V )に分解する。ただし、新しい基底は、
SVD入力ベクトルと、ICAプロセスによって与えら
れる推定された混合行列Aの擬似逆行列との積として得
られる。ICA基底は、SVD基底と同じ大きさであ
り、基底行列の列に格納される。保有される情報の比I
(K)は、所与の抽出方法を用いる際にSVDに同等で
ある。基底関数(−)V1361は、データベース1
200に格納することができる。なお、(−)Vは、−
がVの上に付いていることを表す。
The following use of ICA uses the set of vectors as a statistically independent vector [(−) V T k , A] =
Decompose into ica (V T k ). However, the new basis is
It is obtained as the product of the SVD input vector and the pseudo-inverse of the estimated mixing matrix A given by the ICA process. The ICA basis has the same size as the SVD basis and is stored in the columns of the basis matrix. Ratio of information held I
(K) is equivalent to SVD when using a given extraction method. The basis function (−) V K 1361 is the database 1
Can be stored in 200. In addition, (-) V is-
Indicates that V is attached above V.

【0093】入力音響信号が多数の音源から生成される
混合物である場合に、SVDによって生成される特徴の
組は、その特徴の次元数に等しい次元数を有する任意の
既知のクラスタ化技法によって、群としてクラスタ化す
ることができる。これにより、類似の特徴が同じ群とし
て集められる。したがって、各群は、1つの音源によっ
て生成される音響信号の特徴を含む。クラスタ化におい
て用いられることになる群の数は、所望の弁別のレベル
に応じて、手動あるいは自動で設定することができる。
When the input acoustic signal is a mixture produced from multiple sources, the set of features produced by SVD is by any known clustering technique having a dimensionality equal to that of the features. It can be clustered as a group. This brings similar features together in the same group. Thus, each group contains features of the acoustic signal produced by one sound source. The number of groups to be used in clustering can be set manually or automatically, depending on the level of discrimination desired.

【0094】スペクトル部分空間基底関数の利用 射影あるいは時間的特徴Yを求めるために、スペクトル
包絡線行列Xは、スペクトル的特徴Vの基底ベクトルと
掛け合わされる。このステップは、SVDおよびICA
基底関数のいずれの場合とも同じであり、すなわち
(〜)Y=(〜)X(−)Vである。ただし、Y
は、基底Vに対するスペクトルの射影後の次元数を低減
された特徴からなる行列である。
Utilization of Spectral Subspace Basis Function In order to determine the projection or temporal feature Y, the spectral envelope matrix X is multiplied with the basis vector of the spectral feature V. This step is for SVD and ICA
The basis function is the same in any case, that is, (~) Yk = (~) X (-) Vk . However, Y
Is a matrix of features whose dimensionality is reduced after projection of the spectrum on the basis V.

【0095】独立したスペクトログラム再構成および視
覚化のために、本発明は、正規化ステップ1330抽出
を省略することにより、正規化されないスペクトル射影
を抽出する。すなわち、Y=X(−)Vである。こ
こで、独立したスペクトログラムを再構成するために、
図8に示されるようなX成分は、K番目の射影ベクト
ルyおよびK番目の逆基底ベクトルvに対応する個
別のベクトル対を利用し、再構成式X=y(−)v
を適用する。ただし、「+」演算子は、SVD基底
関数のための転置を示し、SVD基底関数は直交性であ
るか、あるいはICAの場合の擬似逆行列であり、非直
交性である。
For independent spectrogram reconstruction and visualization, the present invention extracts the unnormalized spectral projections by omitting the normalization step 1330 extraction. That is, Yk = X (-) Vk . Now, to reconstruct an independent spectrogram,
The X k component as shown in FIG. 8 uses the individual vector pairs corresponding to the Kth projection vector y k and the Kth inverse basis vector v k , and the reconstruction formula X k = y k (−) v
Apply + k . However, the “+” operator indicates the transpose for the SVD basis function, which is orthogonal, or is the pseudo-inverse matrix for ICA and is non-orthogonal.

【0096】独立成分によるスペクトログラム要約化 これらの記述子のための使用形態の1つは、完全なスペ
クトログラムより少ないデータでスペクトログラムを効
率的に表すことである。独立成分基底を用いると、たと
えば図8に示されるような、個々のスペクトログラム再
構成物は一般に、スペクトログラム内の音源対象物に対
応する。
Spectrogram Summarization with Independent Components One use form for these descriptors is to efficiently represent the spectrogram with less data than the complete spectrogram. Using the independent component basis, each spectrogram reconstruction, such as that shown in FIG. 8, generally corresponds to a source object in the spectrogram.

【0097】モデル獲得およびトレーニング 音分類器を設計する際の困難な作業の大部分は、トレー
ニングデータを収集し、準備することに費やされる。音
の範囲は、音のカテゴリの範囲を反映することになる。
たとえば、イヌのほえ声は、個々のほえ声、連続した多
数のほえ声、あるいは一度に多数のイヌがほえる声を含
むことができる。モデル抽出プロセスは、データの範囲
に適応し、それにより、より狭い範囲の標本が、より特
殊化した分類器を生成する。
Much of the difficult work in designing model acquisition and training sound classifiers is spent collecting and preparing training data. The range of sounds will reflect the range of categories of sounds.
For example, the barking of dogs can include individual barking, multiple barkings in sequence, or barking of many dogs at once. The model extraction process adapts to a range of data such that a narrower range of samples produces a more specialized classifier.

【0098】図14は、既知の音源1401によって生
成される音響信号から、上記のように、特徴1410お
よび基底関数1420を抽出するためのプロセス140
0を示す。その後、これらを用いて、隠れマルコフモデ
ルをトレーニングする(1440)。トレーニングされ
たモデルは、それらの対応する特徴とともにデータベー
ス1200に格納される。トレーニング中に、監視され
ていないクラスタ化プロセスを用いて、n次元の特徴空
間をk個の状態に分割する。特徴空間は、次元数を低減
された観測ベクトルによって占められる。そのプロセス
は、kのための初期の推測を与えるとき、推移行列を切
り詰めることにより、所与のデータの場合の状態の最適
な数を決定する。典型的には、良好な分類器性能として
は、5〜10状態で十分である。
FIG. 14 illustrates a process 140 for extracting features 1410 and basis functions 1420 from an acoustic signal produced by a known sound source 1401 as described above.
Indicates 0. Then, they are used to train a Hidden Markov Model (1440). The trained models are stored in the database 1200 along with their corresponding features. During training, an unsupervised clustering process is used to partition the n-dimensional feature space into k states. The feature space is occupied by observation vectors with reduced dimensionality. The process determines the optimal number of states for a given data by truncating the transition matrix when giving an initial guess for k. Typically, 5-10 states are sufficient for good classifier performance.

【0099】隠れマルコフモデルは、Forward−
Backwardプロセスとしても知られる、よく知ら
れているBaum−Welchプロセスの変形プロセス
でトレーニングされる。これらのプロセスは、事前エン
トロピー(entropic prior)の使用、および期待最大
(EM)プロセスの決定論的アニーリングの実施によっ
て拡張される。
The hidden Markov model is Forward-
It is trained on a variation of the well known Baum-Welch process, also known as the Backward process. These processes are extended by the use of entropic priors and the implementation of deterministic annealing of the expected maximum (EM) process.

【0100】適切なHMMトレーニングプロセス143
0に関する詳細については、Brandによる「Pattern dis
covery via entropy minimization」(Proceedings, Un
certainty'99. Society of Artificial intelligence a
nd Statistics #7, MorganKaufmann, 1999)およびBran
dによる「Structure discovery in conditional probab
ility models via an entropic prior and parameter e
xtinction」(Neural Computation, 1999)に記載され
る。
Appropriate HMM training process 143
For more on 0, see "Pattern dis
covery via entropy minimization "(Proceedings, Un
certainty'99. Society of Artificial intelligence a
nd Statistics # 7, Morgan Kaufmann, 1999) and Bran
`` Structure discovery in conditional probab by d
ility models via an entropic prior and parameter e
xtinction ”(Neural Computation, 1999).

【0101】各既知の音源のための各HMMがトレーニ
ングされた後、そのモデルは、その基底関数、すなわ
ち、音の特徴の組とともに永続記憶装置1200に保管
される。音のカテゴリの分類法全体に対応して、多数の
音のモデルがトレーニングされているとき、HMMはと
もに、より大きな音認識分類器データ構造に集められ、
それにより図12に示されるようなモデルのオントロジ
が生成される。そのオントロジを用いて、定性的および
定量的記述子を有する新しい音を指数化する。
After each HMM for each known sound source has been trained, its model is stored in persistent storage 1200 along with its basis functions, ie, the set of sound features. Corresponding to the overall sound category taxonomy, when multiple sound models are being trained, both HMMs are collected in a larger sound recognition classifier data structure,
Thereby, an ontology of the model as shown in FIG. 12 is generated. The ontology is used to index new sounds with qualitative and quantitative descriptors.

【0102】音記述子 図15は、DDLファイルとして保管される予めトレー
ニングされた分類器を用いて、データベース内の音を指
数化するための自動抽出システム1500を示す。未知
の音が、WAVファイル1501のような媒体音源形式
から読み出される。その未知の音は、上記のようにスペ
クトル射影される(1520)。その後、その射影、す
なわち特徴の組を用いて、データベース1200からH
MMのうちの1つを選択する(1530)。ビタビ復号
器1540を用いて、その未知の音のためのモデルを通
して、最適のモデルと状態パスとの両方を与えることが
できる。すなわち、その音のウインドウ処理された各フ
レームに対して1つのモデル状態が存在する。図11b
を参照されたい。その後、各音は、そのカテゴリ、モデ
ル参照およびモデル状態パスによって指数化され、その
記述子が、DDL形式でデータベースに書き込まれる。
その後、指数化されたデータベース1599は、上記の
ような格納される記述子のうちの任意の記述子、たとえ
ば全てのイヌのほえ声を用いて、一致する音を見つけ出
すために探索されることができる。その後、概ね類似の
音を、結果リスト1560において提供することができ
る。
Sound Descriptor FIG. 15 shows an automatic extraction system 1500 for indexing sounds in a database using a pre-trained classifier stored as a DDL file. The unknown sound is read from a medium sound source format such as the WAV file 1501. The unknown sound is spectrally projected 1520 as described above. Then, using that projection, or set of features, from database 1200 to H
One of the MMs is selected (1530). The Viterbi decoder 1540 can be used to provide both the optimal model and the state path through the model for that unknown sound. That is, there is one model state for each windowed frame of the sound. Figure 11b
Please refer to. Each sound is then indexed by its category, model reference and model state path, and its descriptor is written to the database in DDL format.
The indexed database 1599 may then be searched to find a matching sound using any of the stored descriptors as described above, eg, all dog barks. it can. A generally similar sound may then be provided in the results list 1560.

【0103】図16は、10個の音のクラス1601〜
1610、それぞれトリの鳴き声、拍手喝采、イヌのほ
え声、爆音、足音、コップの割れる音、銃声、運動靴、
笑い声および電話のための分類性能を示す。そのシステ
ムの性能は、専門家の音響効果ライブラリによって指定
されるような音響効果のラベルを用いて、グラウンド・
トゥルースに対して測定された。示される結果は、分類
器のトレーニング中には用いられない新規の音のための
ものであり、それゆえ、分類器の一般化能力を例示す
る。その平均性能は、約95%正確である。
FIG. 16 shows ten sound classes 1601 to 1601.
1610, respectively, crowing of birds, applause of applause, barking of dogs, roaring sounds, footsteps, sounds of breaking cups, gunshots, sports shoes,
Shows classification performance for laughter and phone calls. The performance of the system is determined by using the sound effect labels as specified by the expert sound effect library to
Measured against Truth. The results shown are for new sounds that are not used during training of the classifier, and thus exemplify the generalization ability of the classifier. Its average performance is about 95% accurate.

【0104】標本探索応用形態 以下のセクションは、DDLによる照合および媒体音源
形式の照会の両方を用いて探索を実行するために、その
記述方式を如何に用いるかの例を与える。
Sample Search Application The following section gives an example of how to use the description scheme to perform a search using both DDL matching and media source format queries.

【0105】DDLを用いる例示照会 簡略化された形で図17に示されるように、音の照会
が、DDL形式の音モデル状態パス記述1710を用い
て、システム1700に提示される。そのシステムはそ
の照会を読み出し、内部データ構造をその記述情報で占
有する。この記述は、ディスク上に格納される音のデー
タベース1599から取り出される記述と照合される
(1550)。最もよく似た音のソートされた結果リス
ト1560が戻される。
Example Query Using DDL As shown in FIG. 17 in simplified form, a phonetic query is presented to system 1700 using a DDL-formatted sound model state path description 1710. The system reads the query and populates an internal data structure with its descriptive information. This description is matched (1550) with the description retrieved from the sound database 1599 stored on disk. A sorted result list 1560 of the most similar sounds is returned.

【0106】照合ステップ1550は、状態パスヒスト
グラム間の二乗誤差の和(SSE)を用いることができ
る。この照合手順は、ほとんど計算を必要とせず、格納
される状態パス記述子から直接に計算されることができ
る。
The matching step 1550 can use the sum of squared errors (SSE) between the state path histograms. This matching procedure requires very little computation and can be calculated directly from the stored state path descriptors.

【0107】状態パスヒストグラムは、ある音が各状態
において費やす全時間長を、その音の全長で割ったもの
であり、それによりランダムな変数として状態指数を有
する離散確率密度関数を与える。照会音ヒストグラム
と、データベース内の各音のヒストグラムとの間のSS
Eは、距離測定基準として用いられる。距離が0である
ことは全く同じもの同士であることを暗示し、0以外の
値で距離が増加していく場合は、より大きく異なるもの
同士である。この距離測定基準を用いて、データベース
内の音を類似性のためにランク付けし、その際、上から
最も近いものが最初に掲載されたリストとして、所望の
数のものが戻される。
The state path histogram is the total length of time a note spends in each state divided by the total length of the note, thereby giving a discrete probability density function with the state index as a random variable. SS between the query sound histogram and the histogram of each sound in the database
E is used as a distance metric. The fact that the distance is 0 implies that they are exactly the same, and when the distance increases with a value other than 0, it means that they are much different. This distance metric is used to rank the sounds in the database for similarity, returning the desired number of the closest listed first from the top.

【0108】図18aは状態パスを示しており、図18
bは笑い声の音の照会に関する状態パスヒストグラムを
示す。図19aは状態パスを示しており、図19bは、
その照会に対して5つの最もよく一致する音に関するヒ
ストグラムを示す。全ての一致する音は、その照会と同
じクラスからのものであり、そのシステムが正確に動作
していることを指示する。
FIG. 18a shows the state path.
b shows a state path histogram for a laughing sound query. Figure 19a shows the state path and Figure 19b shows
A histogram for the five best matching sounds for the query is shown. All matching sounds are from the same class as the query, indicating that the system is working correctly.

【0109】オントロジの構造を利用するために、分類
法によって定義されるような、同等あるいはそれより狭
いカテゴリ内の音が、一致する音として戻される。こう
して、「イヌ」カテゴリは、ある分類法において「イ
ヌ」に関連付けられる全てのカテゴリに属する音を戻す
であろう。
To take advantage of the ontology's structure, the sounds in the equal or narrower categories, as defined by the taxonomy, are returned as matching sounds. Thus, the "dog" category will return sounds that belong to all categories associated with "dog" in a taxonomy.

【0110】可聴周波数帯音を用いる例示照会 またそのシステムは、入力として可聴周波数帯信号を用
いる照会も実行することができる。ここでは、例示照会
応用形態に対する入力は、DDL記述による照会の代わ
りに、可聴周波数帯音による照会である。この場合に、
可聴周波数帯音特徴抽出プロセスが最初に実行され、す
なわちスペクトログラムおよび包絡線抽出が行われ、そ
の後、その分類器内の各モデルの場合に、格納される基
底関数の組に対する射影が行われる。
Example Queries Using Audio Band Sounds The system may also perform queries using audio band signals as input. Here, the input for the example query application is a query by audible frequency band sound, instead of a query by DDL description. In this case,
The audio frequency band feature extraction process is performed first, that is, the spectrogram and envelope extraction, followed by the projection on the set of stored basis functions for each model in the classifier.

【0111】結果的に生成される次元数を低減された特
徴は、所与の分類器のためのビタビ復号器に渡され、所
与の特徴のための最尤スコアを有するHMMが選択され
る。ビタビ復号器は概ね、その分類方式のためのモデル
照合アルゴリズムとして機能する。モデル参照および状
態パスが記録され、その結果が、最初の例の場合のよう
な予め計算されたデータベースに対して照合される。
The resulting reduced dimensionality features are passed to the Viterbi decoder for the given classifier and the HMM with the maximum likelihood score for the given feature is selected. . The Viterbi decoder generally functions as a model matching algorithm for that classification scheme. The model reference and state path are recorded and the results are collated against a precomputed database as in the first case.

【0112】本発明の精神および範囲内で、種々の他の
適合および変更がなされる場合があることは理解された
い。それゆえ、添付の請求の範囲の目的は、本発明の真
の精神および範囲内に入るような全てのかかる変形およ
び変更を網羅することである。
It should be understood that various other adaptations and modifications may be made within the spirit and scope of the invention. Therefore, the purpose of the appended claims is to cover all such variations and modifications as fall within the true spirit and scope of the invention.

【図面の簡単な説明】[Brief description of drawings]

【図1】 本発明による信号の混合物から特徴を抽出す
るための方法の流れ図である。
1 is a flow chart of a method for extracting features from a mixture of signals according to the present invention.

【図2】 フィルタリングおよびウインドウ処理ステッ
プのブロック図である。
FIG. 2 is a block diagram of filtering and windowing steps.

【図3】 正規化し、低減し、抽出するステップのブロ
ック図である。
FIG. 3 is a block diagram of the steps of normalizing, reducing and extracting.

【図4】 金属打楽器の特徴のグラフである。FIG. 4 is a graph of characteristics of a metal percussion instrument.

【図5】 金属打楽器の特徴のグラフである。FIG. 5 is a graph of characteristics of a metal percussion instrument.

【図6】 イヌがほえる声に関する記述モデルのブロッ
ク図である。
FIG. 6 is a block diagram of a descriptive model for a dog barking.

【図7】 ペットの音に関する記述モデルのブロック図
である。
FIG. 7 is a block diagram of a descriptive model regarding the sound of a pet.

【図8】 4つのスペクトル基底関数および基底射影か
ら再構成されるスペクトログラムである。
FIG. 8 is a spectrogram reconstructed from four spectral basis functions and basis projections.

【図9a】 笑い声に関する基底射影包絡線である。FIG. 9a is a base-projective envelope for laughter.

【図9b】 図9aの笑い声に関する可聴周波数帯音ス
ペクトルである。
9b is an audible frequency band sound spectrum for the laughter of FIG. 9a.

【図10a】 笑い声に関する対数目盛のスペクトログ
ラムである。
FIG. 10a is a spectrogram on a logarithmic scale for laughter.

【図10b】 笑い声に関する再構成されたスペクトロ
グラムである。
FIG. 10b is a reconstructed spectrogram for laughter.

【図11a】 イヌがほえる場合の対数目盛のスペクト
ログラムである。
FIG. 11a is a spectrogram on a logarithmic scale when a dog barks.

【図11b】 図11aのイヌがほえる場合の連続隠れ
マルコフモデルを通した状態の音モデル状態パスのシー
ケンス図である。
FIG. 11b is a sequence diagram of a sound model state path through a continuous hidden Markov model when the dog of FIG. 11a barks.

【図12】 音認識分類器のブロック図である。FIG. 12 is a block diagram of a sound recognition classifier.

【図13】 本発明による音を抽出するためのシステム
のブロック図である。
FIG. 13 is a block diagram of a system for extracting sounds according to the present invention.

【図14】 本発明による隠れマルコフモデルをトレー
ニングするためのプロセスのブロック図である。
FIG. 14 is a block diagram of a process for training a Hidden Markov Model according to the present invention.

【図15】 本発明による音を特定し、かつ分類するた
めのシステムのブロック図である。
FIG. 15 is a block diagram of a system for identifying and classifying sounds according to the present invention.

【図16】 図15のシステムの性能のグラフである。16 is a graph of performance of the system of FIG.

【図17】 本発明による音照会システムのブロック図
である。
FIG. 17 is a block diagram of a sound inquiry system according to the present invention.

【図18a】 笑い声の状態パスのブロック図である。18a is a block diagram of a laughing state path. FIG.

【図18b】 笑い声の状態パスのヒストグラムであ
る。
FIG. 18b is a histogram of laughing state paths.

【図19a】 一致する笑い声の状態パスを示す図であ
る。
FIG. 19a is a diagram showing matching laughing state paths.

【図19b】 一致する笑い声の状態パスのヒストグラ
ムである。
FIG. 19b is a histogram of matching laughing state paths.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 マイケル・エー・カセイ アメリカ合衆国、マサチューセッツ州、ケ ンブリッジ、チャウンシー・ストリート 26、ナンバー 9 Fターム(参考) 5D015 AA06 HH23    ─────────────────────────────────────────────────── ─── Continued front page    (72) Inventor Michael A. Kasei             Que, Massachusetts, United States             Bridge, Chauncey Street             26, number 9 F-term (reference) 5D015 AA06 HH23

Claims (18)

【特許請求の範囲】[Claims] 【請求項1】 1つの音源から生成される音響信号から
特徴を抽出するための方法であって、 スペクトル包絡線を生成するために、前記音響信号をウ
インドウ処理し、フィルタリングするステップと、 1組の特徴を生成するために、前記スペクトル包絡線の
次元数を低減するステップであって、前記組は、前記1
つの音源を特徴付けるスペクトル的特徴および対応する
時間的特徴を含むステップとを含む1つの音源から生成
される音響信号から特徴を抽出するための方法。
1. A method for extracting features from an acoustic signal generated from one sound source, the method comprising windowing and filtering the acoustic signal to generate a spectral envelope. Reducing the dimensionality of the spectral envelope to generate the feature of
A method for extracting features from an acoustic signal generated from one sound source, the method comprising: spectral features characterizing one sound source and steps including corresponding temporal features.
【請求項2】 前記音響信号のスペクトログラムを再構
成するために、外積を用いて前記スペクトル的特徴と前
記時間的特徴とを乗算するステップをさらに含む請求項
1記載の1つの音源から生成される音響信号から特徴を
抽出するための方法。
2. The source of claim 1, further comprising the step of multiplying the spectral features with the temporal features using an outer product to reconstruct the spectrogram of the acoustic signal. A method for extracting features from an acoustic signal.
【請求項3】 前記組内の前記特徴を分離するために、
前記1組の特徴に独立成分分析を適用するステップをさ
らに含む請求項1記載の1つの音源から生成される音響
信号から特徴を抽出するための方法。
3. To separate the features in the set:
The method for extracting features from an acoustic signal generated from a single sound source according to claim 1, further comprising applying an independent component analysis to the set of features.
【請求項4】 前記スペクトル包絡線の前記次元数を低
減する前に、前記スペクトル包絡線を対数目盛にし、L
2で正規化し、デシベル目盛および単位L2ノルムにす
るステップをさらに含む請求項1記載の1つの音源から
生成される音響信号から特徴を抽出するための方法。
4. The spectral envelope is logarithmically scaled prior to reducing the dimensionality of the spectral envelope, L
The method for extracting features from an acoustic signal generated from one source according to claim 1, further comprising the step of normalizing by 2 to a decibel scale and a unit L2 norm.
【請求項5】 複数の音源から生成される音響信号から
特徴を抽出するための方法であって、 スペクトル包絡線を生成するために、前記音響信号をウ
インドウ処理し、フィルタリングするステップと、 1組の特徴を生成するために、前記スペクトル包絡線の
次元数を低減するステップと、 前記複数の音源の各音源のための一群の特徴を生成する
ために、前記組内の前記特徴をクラスタ化するステップ
であって、前記各群内の前記特徴は、前記各音源を特徴
付けるスペクトル的特徴および対応する時間的特徴を含
むステップとを含む複数の音源から生成される音響信号
から特徴を抽出するための方法。
5. A method for extracting features from an acoustic signal generated from a plurality of sound sources, the method comprising windowing and filtering the acoustic signal to generate a spectral envelope. Reducing the dimensionality of the spectral envelope to produce a feature of the plurality of sources, and clustering the features in the set to produce a group of features for each source of the plurality of sources. A step of: extracting the features from an acoustic signal generated from a plurality of sound sources, the features in each group comprising spectral features characterizing each of the sound sources and corresponding temporal features; Method.
【請求項6】 前記各群の特徴は、前記各音源の定量的
記述子であり、 前記各音源のためのカテゴリを生成するために、定性的
記述子と前記各定量的記述子とを関連付けるステップを
さらに含む請求項5記載の複数の音源から生成される音
響信号から特徴を抽出するための方法。
6. The feature of each group is a quantitative descriptor of each of the sound sources, and associates a qualitative descriptor with each of the quantitative descriptors to generate a category for each of the sound sources. The method for extracting features from acoustic signals generated from a plurality of sound sources according to claim 5, further comprising steps.
【請求項7】 データベース内のカテゴリを、ある分類
法の分類された音源として編成するステップと、 前記データベース内の前記各カテゴリと少なくとも1つ
の他のカテゴリとを関連型リンクによって関連付けるス
テップとをさらに含む請求項6記載の複数の音源から生
成される音響信号から特徴を抽出するための方法。
7. The method of organizing categories in a database as classified sound sources of a taxonomy, and associating each of the categories in the database with at least one other category by an associative link. 7. A method for extracting features from an acoustic signal generated from a plurality of sound sources according to claim 6, comprising.
【請求項8】 前記カテゴリは、記述定義言語(DD
L)を用いて前記データベースに格納される請求項7記
載の複数の音源から生成される音響信号から特徴を抽出
するための方法。
8. The category is a description definition language (DD).
Method for extracting features from acoustic signals generated from a plurality of sound sources according to claim 7 stored in the database using L).
【請求項9】 DDL例示化内の特定のカテゴリが、特
定の音源の一連の対数周波数スペクトルを、より少ない
次元数に低減する基底射影行列を定義する請求項8記載
の複数の音源から生成される音響信号から特徴を抽出す
るための方法。
9. A particular category within a DDL instantiation is generated from a plurality of sources as defined in claim 8 which defines a basis projection matrix that reduces the series of logarithmic frequency spectra of the particular source to a smaller number of dimensions. A method for extracting features from an acoustic signal.
【請求項10】 前記カテゴリは、環境音、背景雑音、
音響効果、重なり合った音、動物音、音声、音声以外の
鳴き声および音楽を含む請求項6記載の複数の音源から
生成される音響信号から特徴を抽出するための方法。
10. The category includes environmental sounds, background noise,
7. A method for extracting features from acoustic signals generated from multiple sound sources according to claim 6, including sound effects, overlapping sounds, animal sounds, voices, non-voice calls and music.
【請求項11】 前記データベース内の概ね類似のカテ
ゴリをクラスの階層として結合するステップをさらに含
む請求項7記載の複数の音源から生成される音響信号か
ら特徴を抽出するための方法。
11. The method for extracting features from an acoustic signal generated from a plurality of sound sources according to claim 7, further comprising the step of combining generally similar categories in the database as a hierarchy of classes.
【請求項12】 特定の定量的記述子はさらに、調波包
絡線記述子と、基本周波数記述子とを含む請求項6記載
の複数の音源から生成される音響信号から特徴を抽出す
るための方法。
12. The specific quantitative descriptor for extracting features from an acoustic signal generated from a plurality of sound sources according to claim 6, further comprising a harmonic envelope descriptor and a fundamental frequency descriptor. Method.
【請求項13】 前記時間的特徴は、時間の経過による
前記スペクトル的特徴の軌跡を記述し、 特定の音源によって生成される前記音響信号を、前記対
応するスペクトル的特徴に基づいて有限数の状態に分割
するステップと、 連続確率分布によって前記各状態を表すステップと、 現在の状態を与えるときに、次の状態への推移の確率を
モデル化するために、前記時間的特徴を推移行列によっ
て表すステップとをさらに含む請求項5記載の複数の音
源から生成される音響信号から特徴を抽出するための方
法。
13. The temporal feature describes a trajectory of the spectral feature over time, and the acoustic signal generated by a specific sound source is subjected to a finite number of states based on the corresponding spectral feature. To represent each of the states by a continuous probability distribution, and to model the probability of transition to the next state when the current state is given, the temporal features are represented by a transition matrix. The method for extracting features from an acoustic signal generated from a plurality of sound sources according to claim 5, further comprising:
【請求項14】 前記連続確率分布は、平均値mの1×
nベクトルと、n×n共分散行列Kとによってパラメー
タ化されるガウス分布であり、ただしnは各スペクトル
包絡線内のスペクトル的特徴の数であり、特定のスペク
トル包絡線xの確率は、 【数1】 によって与えられる請求項13記載の複数の音源から生
成される音響信号から特徴を抽出するための方法。
14. The continuous probability distribution has a mean value m of 1 ×
is a Gaussian distribution parameterized by an n vector and an n × n covariance matrix K, where n is the number of spectral features in each spectral envelope and the probability of a particular spectral envelope x is Number 1] A method for extracting features from an acoustic signal generated from a plurality of sound sources according to claim 13, provided by:
【請求項15】 前記各音源は既知であり、 前記各既知の音源の場合に、前記特徴の組を用いて隠れ
マルコフモデルをトレーニングするステップと、 関連するスペクトル的特徴の組を有する前記各トレーニ
ングされた隠れマルコフモデルをデータベースに格納す
るステップとをさらに含む請求項5記載の複数の音源か
ら生成される音響信号から特徴を抽出するための方法。
15. Each of the sources is known, and for each of the known sources, training a hidden Markov model with the set of features, and each training with an associated set of spectral features. The method for extracting features from acoustic signals generated from a plurality of sound sources according to claim 5, further comprising the step of storing the hidden Hidden Markov Model in a database.
【請求項16】 1組の音響信号は既知のカテゴリに属
し、 前記音響信号のためのスペクトル基底を抽出するステッ
プと、 前記音響信号の前記時間的特徴を用いて隠れマルコフモ
デルをトレーニングするステップと、 前記関連するスペクトル基底関数を有する各トレーニン
グされた隠れマルコフモデルを格納するステップとをさ
らに含む請求項5記載の複数の音源から生成される音響
信号から特徴を抽出するための方法。
16. The set of acoustic signals belongs to a known category, extracting a spectral basis for the acoustic signals, and training a hidden Markov model using the temporal features of the acoustic signals. , Storing each trained Hidden Markov Model having said associated spectral basis function, the method for extracting features from an acoustic signal generated from a plurality of sound sources according to claim 5.
【請求項17】 未知の音源から未知の音響信号を生成
するステップと、 未知のスペクトル包絡線を生成するために、前記未知の
信号をウインドウ処理し、フィルタリングするステップ
と、 1組の未知の特徴を生成するために、前記未知のスペク
トル包絡線の次元数を低減するステップであって、前記
組は、前記未知の音源を特徴付ける未知のスペクトル的
特徴と、対応する未知の時間的特徴とを含むステップ
と、 前記未知の音源を特定するために、前記未知の特徴の組
に最もよく適合する格納された隠れマルコフモデルのう
ちの1つを選択するステップとをさらに含む請求項15
記載の複数の音源から生成される音響信号から特徴を抽
出するための方法。
17. A step of generating an unknown acoustic signal from an unknown sound source, a step of windowing and filtering the unknown signal to generate an unknown spectral envelope, and a set of unknown features. Reducing the dimensionality of the unknown spectral envelope to generate the set, the set including unknown spectral features that characterize the unknown sound source and corresponding unknown temporal features. The method further comprising the steps of: and selecting one of the stored Hidden Markov Models that best fits the unknown feature set to identify the unknown source.
A method for extracting features from an acoustic signal generated from a plurality of sources as described.
【請求項18】 複数の前記格納された隠れマルコフモ
デルは、前記未知の音源に概ね類似の複数の未知の音源
を特定するために選択される請求項17記載の複数の音
源から生成される音響信号から特徴を抽出するための方
法。
18. The sound generated from multiple sound sources of claim 17, wherein a plurality of the stored hidden Markov models are selected to identify a plurality of unknown sound sources that are generally similar to the unknown sound source. A method for extracting features from a signal.
JP2002146685A 2001-05-21 2002-05-21 Method for extracting feature from acoustic signal generated from one sound source and method for extracting feature from acoustic signal generated from a plurality of sound sources Pending JP2003015684A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/861808 2001-05-21
US09/861,808 US20010044719A1 (en) 1999-07-02 2001-05-21 Method and system for recognizing, indexing, and searching acoustic signals

Publications (1)

Publication Number Publication Date
JP2003015684A true JP2003015684A (en) 2003-01-17

Family

ID=25336821

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002146685A Pending JP2003015684A (en) 2001-05-21 2002-05-21 Method for extracting feature from acoustic signal generated from one sound source and method for extracting feature from acoustic signal generated from a plurality of sound sources

Country Status (4)

Country Link
US (1) US20010044719A1 (en)
EP (1) EP1260968B1 (en)
JP (1) JP2003015684A (en)
DE (1) DE60203436T2 (en)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004310091A (en) * 2003-04-01 2004-11-04 Microsoft Corp Method and apparatus for formant tracking using residual model
JP2005049878A (en) * 2003-07-29 2005-02-24 Lucent Technol Inc Content identification system
JP2005202932A (en) * 2003-11-19 2005-07-28 Mitsubishi Electric Research Laboratories Inc Method of classifying data into a plurality of classes
JP2007514959A (en) * 2003-07-01 2007-06-07 フランス テレコム Method and system for analysis of speech signals for compressed representation of speakers
JP2007534995A (en) * 2004-04-29 2007-11-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Method and system for classifying audio signals
WO2008126627A1 (en) * 2007-03-26 2008-10-23 Nec Corporation Voice analysis device, voice classification method, and voice classification program
WO2008126347A1 (en) * 2007-03-16 2008-10-23 Panasonic Corporation Voice analysis device, voice analysis method, voice analysis program, and system integration circuit
JP2009169439A (en) * 2007-02-21 2009-07-30 Sony Corp Signal separating device, signal separating method, and computer program
JP2010117653A (en) * 2008-11-14 2010-05-27 Yamaha Corp Signal processing device and program
JP2010541350A (en) * 2007-09-26 2010-12-24 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ Apparatus and method for extracting ambient signal in apparatus and method for obtaining weighting coefficient for extracting ambient signal, and computer program
JP2012514228A (en) * 2008-12-31 2012-06-21 アールト コルケアコウルスエーティ Method for pattern discovery and pattern recognition
US10431191B2 (en) 2017-12-18 2019-10-01 Tatsuya Daikoku Method and apparatus for analyzing characteristics of music information

Families Citing this family (109)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7013301B2 (en) * 2003-09-23 2006-03-14 Predixis Corporation Audio fingerprinting system and method
US8122236B2 (en) 2001-10-24 2012-02-21 Aol Inc. Method of disseminating advertisements using an embedded media player page
CN1223194C (en) 2000-10-24 2005-10-12 汤姆森许可公司 Method of sizing an embedded media player page
US20020103920A1 (en) 2000-11-21 2002-08-01 Berkun Ken Alan Interpretive stream metadata extraction
AU2002346116A1 (en) * 2001-07-20 2003-03-03 Gracenote, Inc. Automatic identification of sound recordings
EP1280298A1 (en) * 2001-07-26 2003-01-29 BRITISH TELECOMMUNICATIONS public limited company Method and apparatus of detecting network activity
US7343082B2 (en) * 2001-09-12 2008-03-11 Ryshco Media Inc. Universal guide track
US7359550B2 (en) * 2002-04-18 2008-04-15 Mitsubishi Electric Research Laboratories, Inc. Incremental singular value decomposition of incomplete data
KR100820385B1 (en) * 2002-04-25 2008-04-10 랜드마크 디지털 서비시즈 엘엘씨 Robust and Invariant Audio Pattern Matching
WO2004015954A1 (en) * 2002-08-07 2004-02-19 British Telecommunications Public Limited Company Server for sending electronics messages
FR2844079B1 (en) * 2002-08-30 2005-08-26 France Telecom ASSOCIATIVE SYSTEM OF MULTIMEDIA OBJECT DESCRIPTION
EP1579422B1 (en) * 2002-12-24 2006-10-04 Koninklijke Philips Electronics N.V. Method and system to mark an audio signal with metadata
US7617104B2 (en) * 2003-01-21 2009-11-10 Microsoft Corporation Method of speech recognition using hidden trajectory Hidden Markov Models
US7091409B2 (en) * 2003-02-14 2006-08-15 University Of Rochester Music feature extraction using wavelet coefficient histograms
DE10313875B3 (en) * 2003-03-21 2004-10-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Device and method for analyzing an information signal
EP1620811A1 (en) 2003-04-24 2006-02-01 Koninklijke Philips Electronics N.V. Parameterized temporal feature analysis
SG140445A1 (en) * 2003-07-28 2008-03-28 Sony Corp Method and apparatus for automatically recognizing audio data
US7454334B2 (en) * 2003-08-28 2008-11-18 Wildlife Acoustics, Inc. Method and apparatus for automatically identifying animal species from their vocalizations
US20050049876A1 (en) * 2003-08-28 2005-03-03 Ian Agranat Method and apparatus for automatically identifying animal species from their vocalizations
GB0326539D0 (en) * 2003-11-14 2003-12-17 Qinetiq Ltd Dynamic blind signal separation
EP1704695B1 (en) * 2003-11-27 2008-02-27 Advestigo System for intercepting multimedia documents
DE602004017496D1 (en) * 2003-12-05 2008-12-11 Kenwood Corp DEVICE CONTROL DEVICE AND DEVICE CONTROL METHOD
US7565213B2 (en) * 2004-05-07 2009-07-21 Gracenote, Inc. Device and method for analyzing an information signal
DE102004036154B3 (en) * 2004-07-26 2005-12-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for robust classification of audio signals and method for setting up and operating an audio signal database and computer program
US7505902B2 (en) * 2004-07-28 2009-03-17 University Of Maryland Discrimination of components of audio signals based on multiscale spectro-temporal modulations
US8938390B2 (en) * 2007-01-23 2015-01-20 Lena Foundation System and method for expressive language and developmental disorder assessment
US9240188B2 (en) 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US10223934B2 (en) 2004-09-16 2019-03-05 Lena Foundation Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback
US7895138B2 (en) 2004-11-23 2011-02-22 Koninklijke Philips Electronics N.V. Device and a method to process audio data, a computer program element and computer-readable medium
US20060116878A1 (en) * 2004-11-30 2006-06-01 Kenji Nagamine Asthma diagnostic apparatus, asthma diagnostic method, and storage medium storing asthma diagnostic program
US7617188B2 (en) 2005-03-24 2009-11-10 The Mitre Corporation System and method for audio hot spotting
US7475014B2 (en) * 2005-07-25 2009-01-06 Mitsubishi Electric Research Laboratories, Inc. Method and system for tracking signal sources with wrapped-phase hidden markov models
US20070237342A1 (en) * 2006-03-30 2007-10-11 Wildlife Acoustics, Inc. Method of listening to frequency shifted sound sources
US9020964B1 (en) 2006-04-20 2015-04-28 Pinehill Technology, Llc Generation of fingerprints for multimedia content based on vectors and histograms
US8463000B1 (en) 2007-07-02 2013-06-11 Pinehill Technology, Llc Content identification based on a search of a fingerprint database
US7801868B1 (en) 2006-04-20 2010-09-21 Datascout, Inc. Surrogate hashing
US8549022B1 (en) 2007-07-02 2013-10-01 Datascout, Inc. Fingerprint generation of multimedia content based on a trigger point with the multimedia content
US7991206B1 (en) 2007-07-02 2011-08-02 Datascout, Inc. Surrogate heuristic identification
US7774385B1 (en) * 2007-07-02 2010-08-10 Datascout, Inc. Techniques for providing a surrogate heuristic identification interface
US7840540B2 (en) 2006-04-20 2010-11-23 Datascout, Inc. Surrogate hashing
US8156132B1 (en) 2007-07-02 2012-04-10 Pinehill Technology, Llc Systems for comparing image fingerprints
US7814070B1 (en) 2006-04-20 2010-10-12 Datascout, Inc. Surrogate hashing
US9633356B2 (en) 2006-07-20 2017-04-25 Aol Inc. Targeted advertising for playlists based upon search queries
US7499858B2 (en) * 2006-08-18 2009-03-03 Talkhouse Llc Methods of information retrieval
CN101226526A (en) * 2007-01-17 2008-07-23 上海怡得网络有限公司 Method for searching music based on musical segment information inquest
WO2008090564A2 (en) * 2007-01-24 2008-07-31 P.E.S Institute Of Technology Speech activity detection
US8453170B2 (en) * 2007-02-27 2013-05-28 Landmark Digital Services Llc System and method for monitoring and recognizing broadcast data
US8126262B2 (en) * 2007-06-18 2012-02-28 International Business Machines Corporation Annotating video segments using feature rhythm models
US8140331B2 (en) * 2007-07-06 2012-03-20 Xia Lou Feature extraction for identification and classification of audio signals
JP5169760B2 (en) * 2008-01-28 2013-03-27 富士通株式会社 Communication device, reception data size check method, multiple determination circuit, and multiple determination method
US7782195B2 (en) * 2008-03-19 2010-08-24 Wildlife Acoustics, Inc. Apparatus for scheduled low power autonomous data recording
US20090235809A1 (en) * 2008-03-24 2009-09-24 University Of Central Florida Research Foundation, Inc. System and Method for Evolving Music Tracks
DE102008021362B3 (en) * 2008-04-29 2009-07-02 Siemens Aktiengesellschaft Noise-generating object i.e. letter sorting machine, condition detecting method, involves automatically adapting statistical base-classification model of acoustic characteristics and classifying condition of noise-generating object
US8682660B1 (en) * 2008-05-21 2014-03-25 Resolvity, Inc. Method and system for post-processing speech recognition results
WO2010019831A1 (en) * 2008-08-14 2010-02-18 21Ct, Inc. Hidden markov model for speech processing with training method
US20100057452A1 (en) * 2008-08-28 2010-03-04 Microsoft Corporation Speech interfaces
US8954173B1 (en) 2008-09-03 2015-02-10 Mark Fischer Method and apparatus for profiling and identifying the source of a signal
US20100138010A1 (en) * 2008-11-28 2010-06-03 Audionamix Automatic gathering strategy for unsupervised source separation algorithms
US9286911B2 (en) * 2008-12-15 2016-03-15 Audio Analytic Ltd Sound identification systems
GB2466242B (en) 2008-12-15 2013-01-02 Audio Analytic Ltd Sound identification systems
US20100174389A1 (en) * 2009-01-06 2010-07-08 Audionamix Automatic audio source separation with joint spectral shape, expansion coefficients and musical state estimation
CN101546555B (en) * 2009-04-14 2011-05-11 清华大学 Constraint heteroscedasticity linear discriminant analysis method for language identification
CN102460190A (en) * 2009-06-23 2012-05-16 瑞典爱立信有限公司 Method and an arrangement for a mobile telecommunications network
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US20110276882A1 (en) 2010-05-04 2011-11-10 Kai Buehler Automatic grouping for users experiencing a specific broadcast media
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
US8805697B2 (en) 2010-10-25 2014-08-12 Qualcomm Incorporated Decomposition of music signals using basis functions with time-evolution information
US8971651B2 (en) 2010-11-08 2015-03-03 Sony Corporation Videolens media engine
US8700400B2 (en) * 2010-12-30 2014-04-15 Microsoft Corporation Subspace speech adaptation
ES2834442T3 (en) * 2011-05-11 2021-06-17 Silentium Ltd Noise control system and method
US9928824B2 (en) 2011-05-11 2018-03-27 Silentium Ltd. Apparatus, system and method of controlling noise within a noise-controlled volume
US8938393B2 (en) * 2011-06-28 2015-01-20 Sony Corporation Extended videolens media engine for audio recognition
US8732739B2 (en) 2011-07-18 2014-05-20 Viggle Inc. System and method for tracking and rewarding media and entertainment usage including substantially real time rewards
US9098576B1 (en) * 2011-10-17 2015-08-04 Google Inc. Ensemble interest point detection for audio matching
US8965766B1 (en) * 2012-03-15 2015-02-24 Google Inc. Systems and methods for identifying music in a noisy environment
GB2504918B (en) * 2012-04-23 2015-11-18 Tgt Oil And Gas Services Fze Method and apparatus for spectral noise logging
US9263060B2 (en) 2012-08-21 2016-02-16 Marian Mason Publishing Company, Llc Artificial neural network based system for classification of the emotional content of digital music
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US9159327B1 (en) 2012-12-20 2015-10-13 Google Inc. System and method for adding pitch shift resistance to an audio fingerprint
US9489965B2 (en) * 2013-03-15 2016-11-08 Sri International Method and apparatus for acoustic signal characterization
CN104078050A (en) 2013-03-26 2014-10-01 杜比实验室特许公司 Device and method for audio classification and audio processing
KR101756287B1 (en) * 2013-07-03 2017-07-26 한국전자통신연구원 Apparatus and method for extracting features for speech recognition
DE102013111784B4 (en) 2013-10-25 2019-11-14 Intel IP Corporation AUDIOVERING DEVICES AND AUDIO PROCESSING METHODS
US9514753B2 (en) * 2013-11-04 2016-12-06 Google Inc. Speaker identification using hash-based indexing
KR101473592B1 (en) * 2013-12-05 2014-12-16 한국항공우주연구원 Apparatus and method for distortion signal detection
DE112015003945T5 (en) 2014-08-28 2017-05-11 Knowles Electronics, Llc Multi-source noise reduction
EP3889954B1 (en) * 2014-09-25 2024-05-08 Sunhouse Technologies, Inc. Method for extracting audio from sensors electrical signals
US11308928B2 (en) * 2014-09-25 2022-04-19 Sunhouse Technologies, Inc. Systems and methods for capturing and interpreting audio
EP3023884A1 (en) * 2014-11-21 2016-05-25 Thomson Licensing Method and apparatus for generating fingerprint of an audio signal
US10134389B2 (en) * 2015-09-04 2018-11-20 Microsoft Technology Licensing, Llc Clustering user utterance intents with semantic parsing
US10534994B1 (en) * 2015-11-11 2020-01-14 Cadence Design Systems, Inc. System and method for hyper-parameter analysis for multi-layer computational structures
US9830931B2 (en) * 2015-12-31 2017-11-28 Harman International Industries, Incorporated Crowdsourced database for sound identification
US10346405B2 (en) * 2016-10-17 2019-07-09 International Business Machines Corporation Lower-dimensional subspace approximation of a dataset
CN109964461B (en) * 2016-11-16 2021-10-26 杜塞尔多夫华为技术有限公司 Method and apparatus for transmitting and receiving multicarrier signal
GB201718800D0 (en) * 2017-11-14 2017-12-27 Univ London Queen Mary Sound effects synthesis
WO2019113477A1 (en) 2017-12-07 2019-06-13 Lena Foundation Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness
US10249293B1 (en) 2018-06-11 2019-04-02 Capital One Services, Llc Listening devices for obtaining metrics from ambient noise
US11069334B2 (en) * 2018-08-13 2021-07-20 Carnegie Mellon University System and method for acoustic activity recognition
EP3847646B1 (en) 2018-12-21 2023-10-04 Huawei Technologies Co., Ltd. An audio processing apparatus and method for audio scene classification
CN110910479B (en) * 2019-11-19 2023-09-22 中国传媒大学 Video processing method, device, electronic equipment and readable storage medium
RU2728121C1 (en) * 2019-12-20 2020-07-28 Шлюмберже Текнолоджи Б.В. Method of determining characteristics of filtration flow in a borehole zone of formation
US11295756B2 (en) * 2019-12-27 2022-04-05 Robert Bosch Gmbh Ontology-aware sound classification
CN111626093B (en) * 2020-03-27 2023-12-26 国网江西省电力有限公司电力科学研究院 Method for identifying related bird species of power transmission line based on sound power spectral density
US11670322B2 (en) 2020-07-29 2023-06-06 Distributed Creation Inc. Method and system for learning and using latent-space representations of audio signals for audio content-based retrieval
CN112464777B (en) * 2020-11-20 2023-04-18 电子科技大学 Intelligent estimation method for vertical distance of optical fiber vibration source
US20230358872A1 (en) * 2022-05-03 2023-11-09 Oracle International Corporation Acoustic fingerprinting

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5293448A (en) * 1989-10-02 1994-03-08 Nippon Telegraph And Telephone Corporation Speech analysis-synthesis method and apparatus therefor
US5502789A (en) * 1990-03-07 1996-03-26 Sony Corporation Apparatus for encoding digital data with reduction of perceptible noise
US5377305A (en) * 1991-10-01 1994-12-27 Lockheed Sanders, Inc. Outer product neural network
JPH07146679A (en) * 1992-11-13 1995-06-06 Internatl Business Mach Corp <Ibm> Method and system for converting audio data
DE4316297C1 (en) * 1993-05-14 1994-04-07 Fraunhofer Ges Forschung Audio signal frequency analysis method - using window functions to provide sample signal blocks subjected to Fourier analysis to obtain respective coefficients.
US5383164A (en) * 1993-06-10 1995-01-17 The Salk Institute For Biological Studies Adaptive system for broadband multisignal discrimination in a channel with reverberation
US5625749A (en) * 1994-08-22 1997-04-29 Massachusetts Institute Of Technology Segment-based apparatus and method for speech recognition by analyzing multiple speech unit frames and modeling both temporal and spatial correlation
GB9419388D0 (en) * 1994-09-26 1994-11-09 Canon Kk Speech analysis
US5812972A (en) * 1994-12-30 1998-09-22 Lucent Technologies Inc. Adaptive decision directed speech recognition bias equalization method and apparatus
US5878389A (en) * 1995-06-28 1999-03-02 Oregon Graduate Institute Of Science & Technology Method and system for generating an estimated clean speech signal from a noisy speech signal
JP3266819B2 (en) * 1996-07-30 2002-03-18 株式会社エイ・ティ・アール人間情報通信研究所 Periodic signal conversion method, sound conversion method, and signal analysis method
US5865626A (en) * 1996-08-30 1999-02-02 Gte Internetworking Incorporated Multi-dialect speech recognition method and apparatus
JP3707154B2 (en) * 1996-09-24 2005-10-19 ソニー株式会社 Speech coding method and apparatus
US5835912A (en) * 1997-03-13 1998-11-10 The United States Of America As Represented By The National Security Agency Method of efficiency and flexibility storing, retrieving, and modifying data in any language representation
US5930753A (en) * 1997-03-20 1999-07-27 At&T Corp Combining frequency warping and spectral shaping in HMM based speech recognition
US5946656A (en) * 1997-11-17 1999-08-31 At & T Corp. Speech and speaker recognition using factor analysis to model covariance structure of mixture components
US6141644A (en) * 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
US6321200B1 (en) * 1999-07-02 2001-11-20 Mitsubish Electric Research Laboratories, Inc Method for extracting features from a mixture of signals

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004310091A (en) * 2003-04-01 2004-11-04 Microsoft Corp Method and apparatus for formant tracking using residual model
JP4652232B2 (en) * 2003-07-01 2011-03-16 フランス・テレコム Method and system for analysis of speech signals for compressed representation of speakers
JP2007514959A (en) * 2003-07-01 2007-06-07 フランス テレコム Method and system for analysis of speech signals for compressed representation of speakers
JP2005049878A (en) * 2003-07-29 2005-02-24 Lucent Technol Inc Content identification system
US9336794B2 (en) 2003-07-29 2016-05-10 Alcatel Lucent Content identification system
JP2005202932A (en) * 2003-11-19 2005-07-28 Mitsubishi Electric Research Laboratories Inc Method of classifying data into a plurality of classes
JP2007534995A (en) * 2004-04-29 2007-11-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Method and system for classifying audio signals
JP2009169439A (en) * 2007-02-21 2009-07-30 Sony Corp Signal separating device, signal separating method, and computer program
JP5038403B2 (en) * 2007-03-16 2012-10-03 パナソニック株式会社 Speech analysis apparatus, speech analysis method, speech analysis program, and system integrated circuit
WO2008126347A1 (en) * 2007-03-16 2008-10-23 Panasonic Corporation Voice analysis device, voice analysis method, voice analysis program, and system integration circuit
US8478587B2 (en) 2007-03-16 2013-07-02 Panasonic Corporation Voice analysis device, voice analysis method, voice analysis program, and system integration circuit
US8630853B2 (en) 2007-03-26 2014-01-14 Nec Corporation Speech classification apparatus, speech classification method, and speech classification program
WO2008126627A1 (en) * 2007-03-26 2008-10-23 Nec Corporation Voice analysis device, voice classification method, and voice classification program
JP2010541350A (en) * 2007-09-26 2010-12-24 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ Apparatus and method for extracting ambient signal in apparatus and method for obtaining weighting coefficient for extracting ambient signal, and computer program
US8588427B2 (en) 2007-09-26 2013-11-19 Frauhnhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program
TWI426502B (en) * 2007-09-26 2014-02-11 Fraunhofer Ges Forschung Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program
JP2010117653A (en) * 2008-11-14 2010-05-27 Yamaha Corp Signal processing device and program
JP2012514228A (en) * 2008-12-31 2012-06-21 アールト コルケアコウルスエーティ Method for pattern discovery and pattern recognition
US10431191B2 (en) 2017-12-18 2019-10-01 Tatsuya Daikoku Method and apparatus for analyzing characteristics of music information

Also Published As

Publication number Publication date
EP1260968A1 (en) 2002-11-27
EP1260968B1 (en) 2005-03-30
DE60203436D1 (en) 2005-05-04
DE60203436T2 (en) 2006-02-09
US20010044719A1 (en) 2001-11-22

Similar Documents

Publication Publication Date Title
EP1260968B1 (en) Method and system for recognizing, indexing, and searching acoustic signals
Casey General sound classification and similarity in MPEG-7
Casey MPEG-7 sound-recognition tools
Stöter et al. Countnet: Estimating the number of concurrent speakers using supervised learning
Dennis Sound event recognition in unstructured environments using spectrogram image processing
Serizel et al. Acoustic features for environmental sound analysis
US6321200B1 (en) Method for extracting features from a mixture of signals
Barchiesi et al. Acoustic scene classification: Classifying environments from the sounds they produce
Kim et al. Audio classification based on MPEG-7 spectral basis representations
Tzanetakis et al. Marsyas: A framework for audio analysis
US9558762B1 (en) System and method for distinguishing source from unconstrained acoustic signals emitted thereby in context agnostic manner
Lee et al. Automatic recognition of bird songs using cepstral coefficients
Vivek et al. Acoustic scene classification in hearing aid using deep learning
Huang et al. Large-scale weakly-supervised content embeddings for music recommendation and tagging
Schröter et al. Segmentation, classification, and visualization of orca calls using deep learning
Ntalampiras et al. Exploiting temporal feature integration for generalized sound recognition
Andono et al. Bird Voice Classification Based on Combination Feature Extraction and Reduction Dimension with the K-Nearest Neighbor.
Bang et al. Evaluation of various feature sets and feature selection towards automatic recognition of bird species
Casey Reduced-rank spectra and minimum-entropy priors as consistent and reliable cues for generalized sound recognition
Bang et al. Recognition of bird species from their sounds using data reduction techniques
Casey Sound• Classification and Similarity
Lu et al. Context-based environmental audio event recognition for scene understanding
Segarceanu et al. Environmental acoustics modelling techniques for forest monitoring
Harb et al. A general audio classifier based on human perception motivated model
Therese et al. A linear visual assessment tendency based clustering with power normalized cepstral coefficients for audio signal recognition system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050512

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081125

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090421