JP2003140671A - Separating device for mixed sound - Google Patents

Separating device for mixed sound

Info

Publication number
JP2003140671A
JP2003140671A JP2001339622A JP2001339622A JP2003140671A JP 2003140671 A JP2003140671 A JP 2003140671A JP 2001339622 A JP2001339622 A JP 2001339622A JP 2001339622 A JP2001339622 A JP 2001339622A JP 2003140671 A JP2003140671 A JP 2003140671A
Authority
JP
Japan
Prior art keywords
layer
calculation
sound
frequency
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001339622A
Other languages
Japanese (ja)
Other versions
JP4119112B2 (en
Inventor
Hitoshi Ito
仁 伊藤
Koji Tsujino
広司 辻野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2001339622A priority Critical patent/JP4119112B2/en
Priority to US10/052,309 priority patent/US7076433B2/en
Priority to DE60221927T priority patent/DE60221927T2/en
Priority to EP02001599A priority patent/EP1227471B1/en
Priority to EP07101552A priority patent/EP1775720B1/en
Publication of JP2003140671A publication Critical patent/JP2003140671A/en
Application granted granted Critical
Publication of JP4119112B2 publication Critical patent/JP4119112B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

PROBLEM TO BE SOLVED: To separate a desired sound from a mixed input signal in which unsteady noise and a plurality of sounds are superposed one over another. SOLUTION: A sound separating device as an embodiment of the invention has a frequency analyzing means which takes a frequency analysis of the mixed input signal generated by mixing sound signals generated by different sound sources with a target signal to calculates a spectrum and an amplitude maximum point at each time, a feature extracting means which has a narrow-band layer analyzing narrow-band feature parameters by using the spectrum and amplitude maximum point and one or more wide-band layers analyzing wide- band feature parameters by using the feature parameters extracted by the narrow-band layer and extracts feature parameters associated with the target signal, and a signal composing means which composes the target signal according to the extracted featured parameters.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、混合入力信号から
目的信号を分離する信号分離装置に関し、より詳細に
は、非定常な雑音や複数の音声が重畳している混合入力
信号から所望の音声信号を分離する装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a signal separating apparatus for separating a target signal from a mixed input signal, and more particularly to a desired sound from a mixed input signal on which non-stationary noise or a plurality of sounds are superposed. An apparatus for separating signals.

【0002】[0002]

【従来の技術】従来、センサ等に入力される混合入力信
号から必要な音声信号を分離する手法として、スペクト
ルサブトラクション法が知られている。この手法では、
雑音と目的とする信号とが含まれる混合入力信号のスペ
クトルから雑音のスペクトルを減算することによって目
的信号を分離する。
2. Description of the Related Art Heretofore, a spectral subtraction method has been known as a method for separating a required audio signal from a mixed input signal input to a sensor or the like. With this technique,
The target signal is separated by subtracting the noise spectrum from the spectrum of the mixed input signal containing the noise and the target signal.

【0003】具体的には、例えば、雑音と目的信号とを
含む混合入力信号のスペクトルの中から、目的信号が存
在せず雑音のみを含むことが明らかな区間から求められ
るスペクトルを雑音のスペクトルとみなし、これを目的
信号の含まれる区間の混合入力信号のスペクトルから減
算することによって目的信号のスペクトルを分離する。
別の例としては、混合入力信号を集音するマイクロホン
とは別に背景雑音のみを集音するマイクロホンを用意
し、後者から得られるスペクトルを前者のスペクトルか
ら減算することで混合入力信号から目的信号を分離す
る。
Specifically, for example, from the spectrum of a mixed input signal containing noise and a target signal, a spectrum obtained from a section in which it is clear that the target signal does not exist and contains only noise is called the noise spectrum. Assuming and subtracting this from the spectrum of the mixed input signal in the section including the target signal, the spectrum of the target signal is separated.
As another example, prepare a microphone that collects only background noise separately from a microphone that collects the mixed input signal, and subtract the spectrum obtained from the latter from the spectrum of the former to obtain the target signal from the mixed input signal. To separate.

【0004】これとは別の方法として、音声の母音や楽
器音の構造上の特徴である調波構造を利用して目的信号
のみを抽出する方法がある。一例として、母音の基本周
波数とその高調波に対応するスペクトル通過特性を持つ
櫛形フィルタを混合入力信号に適用することで、調波構
造を持つ信号だけを抽出することができる。
As another method, there is a method of extracting only a target signal by utilizing a harmonic structure which is a structural feature of a vowel of a voice or a musical instrument sound. As an example, only a signal having a harmonic structure can be extracted by applying a comb filter having a spectral pass characteristic corresponding to the fundamental frequency of a vowel and its harmonics to a mixed input signal.

【0005】さらに別の方法として、混合入力信号の周
波数スペクトルを時系列順に並べたf-tマップにおい
て、周波数方向の振幅極大点を走査抽出し、これを周波
数成分を構成すべき点の候補点として抽出し、これら極
大点を時間方向に順に結んでいくことによって目的信号
の周波数成分を抽出する方法が知られている。例えば、
f-tマップ上のある時刻における振幅極大点と次の時刻
における振幅極大点とを比較し、周波数やパワー、音源
方向などに連続性が見られる極大点同士を時間方向に順
次接続していって目的信号を再現する。
As still another method, in the ft map in which the frequency spectra of the mixed input signals are arranged in time series, the maximum amplitude point in the frequency direction is scanned and extracted, and this is extracted as a candidate point of a point that should constitute a frequency component. However, a method is known in which the frequency components of the target signal are extracted by sequentially connecting these maximum points in the time direction. For example,
The purpose is to compare the amplitude maximum points at a certain time on the ft map with the amplitude maximum points at the next time, and connect the maximum points that show continuity in frequency, power, sound source direction, etc. sequentially in the time direction. Reproduce the signal.

【0006】複数の信号分離方法を組み合わせた方法も
いくつか知られている。特開平9-257559号公報には、局
所構造情報を利用して振幅極大点をまとめて抽出する手
法が開示されている。この手法では、スペクトルの振幅
極大点を周波数成分候補点とし、各周波数成分候補点に
対し、近傍に位置する近傍点との関係から、周波数成分
を構成しているかどうかを判定し、得られた周波数成分
候補点に対して、時間、周波数及びパワー値に関しての
連続性を判断し、連続性を持つ点どうしを接続し、周波
数成分を抽出する。
Several methods are known in which a plurality of signal separation methods are combined. Japanese Patent Laid-Open No. 9-257559 discloses a method of collectively extracting amplitude maximum points using local structure information. In this method, the maximum amplitude point of the spectrum is set as a frequency component candidate point, and it is determined whether or not a frequency component is formed from the relationship between each frequency component candidate point and the neighboring points located in the neighborhood. For the frequency component candidate points, the continuity with respect to time, frequency, and power value is determined, points having continuity are connected, and the frequency component is extracted.

【0007】[0007]

【発明が解決しようとする課題】しかし上述した音分離
方法には、それぞれ以下で述べるような問題がある。
However, each of the sound separation methods described above has the following problems.

【0008】まずスペクトルサブトラクション法では、
定常的な雑音しか分離することができず、複数の音声信
号が重畳する入力信号から1つの音声信号を分離した
り、ドアの開閉音のような突発的な雑音を分離したりす
ることはできない。
First, in the spectral subtraction method,
Only stationary noise can be separated, and it is not possible to separate one audio signal from an input signal on which multiple audio signals are superimposed, or to separate sudden noise such as door opening / closing sound. .

【0009】櫛形フィルタを用いる方法は、音声信号が
定常的な基本周波数を有する場合には有効である。しか
し、一般に音声信号の基本周波数は動的に変化するの
で、実際問題としてこの方法が有効となる場面は少な
い。
The method using the comb filter is effective when the audio signal has a stationary fundamental frequency. However, since the fundamental frequency of the audio signal generally changes dynamically, there are few practical cases where this method is effective.

【0010】振幅極大点で周波数成分を抽出する方法に
おいては、振幅極大点の時間方向での連続性を一意に定
めることが困難であるという問題がある。特にS/N比
が高い場合には、候補となる極大点が増えるため多義性
が高くなってしまう。また目的とする信号の周波数成分
の近くに他の信号のエネルギーが存在し、振幅極大点が
近接している場合には、それらの信号を区別することが
できない。また、振幅極大点を求めるのに離散フーリエ
変換等の手法を用いた場合、入力信号に含まれる音響成
分の基本周波数と離散フーリエ変換の解像度が異なった
り、入力信号に含まれる音響成分が変調していたり、異
なる音源の振幅極大点が近接していると、正確な振幅極
大点の周波数を求めることができないので、実際の周波
数成分抽出は困難になる。
In the method of extracting the frequency component at the maximum amplitude point, it is difficult to uniquely determine the continuity of the maximum amplitude point in the time direction. In particular, when the S / N ratio is high, the maximum points that are candidates increase and the polysemy becomes high. Further, when the energy of another signal exists near the frequency component of the target signal and the amplitude maximum points are close to each other, those signals cannot be distinguished. When a method such as discrete Fourier transform is used to obtain the maximum amplitude point, the fundamental frequency of the acoustic component contained in the input signal and the resolution of the discrete Fourier transform are different, or the acoustic component contained in the input signal is modulated. However, if the amplitude maximum points of different sound sources are close to each other, the frequency of the amplitude maximum point cannot be accurately determined, so that actual frequency component extraction becomes difficult.

【0011】従って本発明は、非定常な雑音や重畳した
複数の音声信号も分離することができる音分離方法を提
供することを目的とする。また、目的信号の基本周波数
や振幅が動的に変化する場合でも目的信号を分離でき、
さらに目的信号と雑音の周波数成分が近接している場合
(すなわちS/N比が高い場合)においても有効に目的
信号を分離できる音分離装置を提供することを目的とす
る。
Therefore, it is an object of the present invention to provide a sound separation method capable of separating non-stationary noise and a plurality of superimposed voice signals. In addition, the target signal can be separated even when the fundamental frequency and amplitude of the target signal dynamically change,
It is another object of the present invention to provide a sound separation device that can effectively separate a target signal even when the frequency components of the target signal and noise are close to each other (that is, when the S / N ratio is high).

【0012】[0012]

【課題を解決するための手段】本発明の音分離装置は、
異なる音源より発せられた音響信号と目的信号とが混合
された混合入力信号から前記目的信号を分離する音分離
装置であって、前記混合入力信号を周波数分析して各時
刻におけるスペクトル及び振幅極大点を計算する周波数
分析手段と、前記スペクトル及び振幅極大点を用いて狭
域的な特徴パラメータを分析する狭域層と、前記狭域層
により抽出された特徴パラメータを用いて広域的な特徴
パラメータを分析する1つ以上の広域層とを有し、前記
目的信号に関連する特徴パラメータを抽出する特徴抽出
手段と、抽出された特徴パラメータに基づいて前記目的
信号を合成する信号合成手段とを含むよう構成される。
The sound separating device of the present invention comprises:
A sound separation device for separating the target signal from a mixed input signal in which acoustic signals emitted from different sound sources and a target signal are mixed, wherein the spectrum and amplitude maximum points at each time are analyzed by frequency analysis of the mixed input signal. A frequency analysis means for calculating, a narrow layer for analyzing a narrow characteristic parameter using the spectrum and the amplitude maximum point, and a wide range characteristic parameter using the characteristic parameter extracted by the narrow layer. And a signal synthesizing unit for synthesizing the target signal based on the extracted feature parameter, the feature extracting unit including one or more wide-area layers to be analyzed, the feature extracting unit extracting the feature parameter associated with the target signal. Composed.

【0013】この発明によると、特徴抽出手段において
狭域的な特徴パラメータと広域的な特徴パラメータを共
に扱うことで、目的信号の分離の精度が特定の特徴パラ
メータの抽出精度に依存することがなくなる。抽出する
特徴パラメータには、入力信号に含まれている周波数成
分候補点の周波数/振幅値とそれらの変化、調波性、ピ
ッチ連続性、イントネーションなどの時系列データの他
に、オンセット/オフセット、音源方向等も含まれる。
また特徴抽出手段に設けられる層の数は抽出される特徴
パラメータの種類に応じて可変とすることができる。
According to the present invention, the feature extraction means handles both the narrow range feature parameter and the wide range feature parameter so that the accuracy of separating the target signal does not depend on the accuracy of extracting the particular feature parameter. . The characteristic parameters to be extracted include frequency / amplitude values of frequency component candidate points included in the input signal and their time series data such as changes, harmonics, pitch continuity, and intonation, as well as onset / offset. , Sound source direction, etc. are also included.
Further, the number of layers provided in the feature extraction means can be variable according to the type of the feature parameter to be extracted.

【0014】本発明の別の形態では、前記狭域層及び広
域層は、それぞれの層において分析された特徴パラメー
タを相互に供給し、該供給された特徴パラメータに基づ
いてそれぞれの層の特徴パラメータを更新するよう構成
される。
In another aspect of the present invention, the narrow area layer and the wide area layer mutually supply the characteristic parameters analyzed in the respective layers, and the characteristic parameters of the respective layers based on the supplied characteristic parameters. Is configured to update.

【0015】この形態によると、特徴抽出手段の各層に
おいて分析された特徴パラメータを相互に供給し合うの
で、特徴パラメータ間で整合性をとることができ、従っ
て特徴パラメータの抽出精度を上げることができる。
According to this aspect, the feature parameters analyzed in each layer of the feature extracting means are mutually supplied, so that the feature parameters can be matched with each other, and thus the feature parameter extraction accuracy can be improved. .

【0016】本発明のさらに別の形態では、前記狭域層
は、前記周波数成分候補点の周波数及びその変化と振幅
及びその変化を計算する瞬時符号化層である。
[0016] In still another form of the present invention, the narrow layer is an instantaneous coding layer for calculating a frequency and a change thereof and an amplitude and a change thereof of the frequency component candidate point.

【0017】この形態によると、瞬時の時間変化情報を
利用することで同一音源信号の緩やかな振幅、周波数の
変化に追従することができる。
According to this aspect, it is possible to follow a gradual change in the amplitude and frequency of the same sound source signal by utilizing the instantaneous time change information.

【0018】本発明のさらに別の形態では、前記広域層
は、前記周波数成分候補点の周波数及びその変化から調
波構造を有する周波数成分候補点をグループ化し、該調
波構造の基本周波数及びその変化を計算する調波性計算
層と、複数の時刻における前記基本周波数及びその変化
から信号の連続性を計算するピッチ連続性計算層とを含
む。
[0018] In still another mode of the present invention, the wide-area layer groups frequency component candidate points having a harmonic structure based on the frequencies of the frequency component candidate points and changes thereof, and determines the fundamental frequency of the harmonic structure and its It includes a harmonic calculation layer for calculating changes and a pitch continuity calculation layer for calculating signal continuity from the fundamental frequency and changes thereof at a plurality of times.

【0019】計算する変化の例としては、時間変化率が
挙げられるが、これ以外にも周波数成分候補点の変化を
捉えられるものであれば二次導関数等を用いることもで
きる。
As an example of the change to be calculated, there is a time change rate, but other than this, a second derivative or the like may be used as long as it can catch the change of the frequency component candidate point.

【0020】この形態によると、非定常な雑音中にある
目的信号もその一貫性を利用して分離可能であり、また
大局的な特徴パラメータより基本周波数の緩やかな振
幅、周波数の変化に追従することができる。
According to this aspect, the target signal in the non-stationary noise can be separated by utilizing its consistency, and the amplitude of the fundamental frequency and the change of the frequency are tracked according to the global characteristic parameter. be able to.

【0021】本発明の一形態では、前記階層はそれぞれ
同様の処理を行って特徴パラメータを計算する1つまた
は複数の計算素子で構成されており、該計算素子は上位
の接続する階層及び下位の接続する階層に含まれる各計
算素子と前記計算した特徴パラメータを相互に供給する
よう構成される。
In one embodiment of the present invention, the hierarchy is composed of one or a plurality of calculation elements that respectively perform similar processing to calculate a characteristic parameter, and the calculation elements are connected to an upper hierarchy and a lower hierarchy. It is configured to mutually supply each calculation element included in the connected hierarchy and the calculated characteristic parameter.

【0022】この形態によると、抽出する特徴の独立性
が高まり、柔軟な特徴パラメータの更新が実現される。
ここで計算素子とは、特徴パラメータに対応して一対一
で生成され、それぞれが同様の処理を行い、他の計算素
子と特徴パラメータを相互に供給する機能を持つ情報処
理素子であり、物理的な素子を意味しているのではな
い。
According to this aspect, the independence of the features to be extracted is increased, and flexible updating of the feature parameters is realized.
Here, the calculation element is an information processing element that is generated one-to-one corresponding to the characteristic parameter, performs the same processing, and has a function of mutually supplying the characteristic parameter to another calculation element. It does not mean a simple element.

【0023】本発明のさらに別の形態では、前記計算素
子は、上位の接続する階層に含まれる計算素子より供給
された特徴パラメータと前記計算した特徴パラメータと
の間の整合の度合を示す第1の整合性関数を計算し、下
位の接続する階層に含まれる計算素子より供給された特
徴パラメータと前記計算した特徴パラメータとの間の整
合の度合を示す第2の整合性関数を計算し、それぞれの
整合性関数の積で表される妥当性指標を最大化するよう
に特徴パラメータを更新するよう構成される。
[0023] In still another form of the present invention, the calculation element has a first degree indicating a degree of matching between the characteristic parameter supplied from the calculation element included in a higher-level connected layer and the calculated characteristic parameter. And calculating a second consistency function indicating a degree of matching between the feature parameter supplied from the calculation element included in the lower connecting hierarchy and the calculated feature parameter, The feature parameters are configured to be updated so as to maximize the validity index represented by the product of the consistency functions of the.

【0024】この形態によると、計算素子間で相互に特
徴パラメータを参照し、特徴パラメータ間の整合性を高
めていくことができる。
According to this aspect, it is possible to mutually refer to the characteristic parameters among the calculation elements and improve the consistency between the characteristic parameters.

【0025】本発明のさらに別の形態では、前記妥当性
指標は前記下位の階層に含まれる計算素子に供給され
る。
In yet another form of the present invention, the validity index is supplied to a computing element included in the lower hierarchy.

【0026】この形態によると、計算素子に対する上位
の階層の拘束力を高めて計算の収束時間を短縮したり、
逆に拘束力を弱めて影響を軽微にしたりすることができ
る。これによって計算回数が少ないうちは多くの特徴パ
ラメータを保持しておき、各階層間で整合が取れてくる
のに伴って生き残り条件を厳しくし、特徴パラメータの
精度を上げるといった制御を行うことができるようにな
る。さらに、上位層の妥当性指標が更新されるごとに閾
値を計算し、妥当性指標の値が該閾値を下回ると計算素
子を消滅させることによって不必要な特徴パラメータを
早期に取り除くことができ、また前記妥当性指標が所定
値より大きい場合には1つ下位の層に新たな計算素子を
生成するなどの柔軟なデータ更新が可能となる。
According to this aspect, the binding force of the upper hierarchy with respect to the calculation element is increased to shorten the calculation convergence time,
On the contrary, the restraint force can be weakened to reduce the influence. As a result, it is possible to retain many feature parameters while the number of calculations is small, and tighten the survival conditions as the layers become more consistent and increase the precision of the feature parameters. Like Furthermore, a threshold value is calculated every time the validity index of the upper layer is updated, and when the value of the validity index falls below the threshold value, unnecessary feature parameters can be removed early by eliminating the calculation element. Further, when the validity index is larger than a predetermined value, it is possible to flexibly update data, such as creating a new calculation element in the layer one level below.

【0027】[0027]

【発明の実施の形態】以下、本発明の実施形態について
図面を参照して説明する。
BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described below with reference to the drawings.

【0028】<第1の実施形態>図1は本発明の第1の
実施形態である音分離装置100の全体的な構成を示すブ
ロック図である。音分離装置100には、信号入力部101、
周波数分析部102、特徴抽出部103、及び信号合成部104
が含まれる。音分離装置100は、雑音や種々音源より発
せられる信号が重畳している混合入力信号に含まれる種
々の特徴を分析し、特徴間の整合性を整理し、目的信号
を分離する。音分離装置100の要部は、例として本発明
の特徴を含むソフトウェアを入出力装置、CPU、メモ
リ、外部記憶装置等を備えたコンピュータやワークステ
ーション等で実行することにより実現されるが、一部を
ハードウェアにより実現することもできる。図1は、こ
れを踏まえて構成を機能ブロックで表現している。
<First Embodiment> FIG. 1 is a block diagram showing the overall structure of a sound separation device 100 according to a first embodiment of the present invention. The sound separation device 100 includes a signal input unit 101,
Frequency analysis unit 102, feature extraction unit 103, and signal synthesis unit 104
Is included. The sound separation device 100 analyzes various features included in a mixed input signal on which noise and signals emitted from various sound sources are superimposed, sorts out the consistency between the features, and separates a target signal. The main part of the sound separation device 100 is realized by, for example, executing software including the features of the present invention on a computer or workstation equipped with an input / output device, a CPU, a memory, an external storage device, etc. The unit can also be realized by hardware. Based on this, FIG. 1 expresses the configuration with functional blocks.

【0029】信号入力部101には音分離の対象となる混
合入力信号が入力される。信号入力部101は、具体的に
は例えばマイクロホンのような音響入力端子であり、混
合入力信号を直接集音する。この場合音響入力端子は1
つとは限られず、2つ以上使用することもできる。音響
入力端子が2つ以上ある場合には、後述するように音源
方向を目的信号の特徴として利用する形態が実施可能と
なる。別の実施形態では、混合入力信号は予め準備され
た音響信号ファイルであり、この場合信号入力部101は
音響信号ファイルを取りこむ処理を行う。
A mixed input signal to be the target of sound separation is input to the signal input unit 101. The signal input unit 101 is specifically an acoustic input terminal such as a microphone, and directly collects mixed input signals. In this case, the sound input terminal is 1
The number is not limited to two, and two or more can be used. When there are two or more sound input terminals, a mode in which the sound source direction is used as a feature of the target signal can be implemented as described later. In another embodiment, the mixed input signal is a sound signal file prepared in advance, and in this case, the signal input unit 101 performs a process of taking the sound signal file.

【0030】周波数分析部102は、信号入力部101に入力
された信号にA/D変換を施し、ディジタル化された信
号を適当な時間間隔で周波数分析して各時刻における周
波数スペクトルを求め、そのスペクトルを時系列順に並
べたf-tマップを作成する。周波数分析は、例えば既知
のフーリエ変換やウェーブレット変換、フィルタバンク
による帯域分割などの手法を用いて行う。さらに、求め
たスペクトルの振幅極大点を求める。
The frequency analysis unit 102 subjects the signal input to the signal input unit 101 to A / D conversion, frequency-analyzes the digitized signal at appropriate time intervals, and obtains a frequency spectrum at each time. Create an ft map in which spectra are arranged in chronological order. The frequency analysis is performed by using a known Fourier transform, wavelet transform, band division by a filter bank, or the like. Further, the maximum amplitude point of the obtained spectrum is obtained.

【0031】特徴抽出部103は周波数分析部102からf-t
マップを受け取り、各スペクトルとその振幅極大点から
特徴パラメータを抽出し、それらの中から目的信号の特
徴パラメータを推定する。
The feature extraction unit 103 is separated from the frequency analysis unit 102 by ft.
The map is received, the characteristic parameters are extracted from each spectrum and its maximum amplitude point, and the characteristic parameters of the target signal are estimated from them.

【0032】信号合成部104は、推定された特徴パラメ
ータから目的信号の波形を再構成する。具体的には、各
時刻毎に推定された種々の特徴パラメータから正弦波な
どのテンプレート波形を使用して目的信号の波形を再構
成する。
The signal synthesizer 104 reconstructs the waveform of the target signal from the estimated characteristic parameters. Specifically, the waveform of the target signal is reconstructed using a template waveform such as a sine wave from various characteristic parameters estimated at each time.

【0033】こうして混合音声信号から抽出され再構成
された目的信号は、スピーカ(図示せず)に送られて再
生され、またはディスプレイ(図示せず)に送られて目
的信号のスペクトルが表示される。
The target signal thus extracted and reconstructed from the mixed audio signal is sent to a speaker (not shown) for reproduction, or sent to a display (not shown) to display the spectrum of the target signal. .

【0034】<特徴抽出部の構成>混合入力信号には、
入力信号を構成する各音源から発せられた信号の様々な
特徴パラメータが含まれている。これらの特徴パラメー
タはいくつかに分類することができる。例えばピッチや
変調、イントネーションといった時間周波数領域に広域
的に現れるものや、音源位置情報のように狭域的に現れ
るもの、周波数スペクトルの極大点やその瞬時変化とい
った瞬時に現れるものがあり、これらは階層的に表すこ
とができる。また同一音源から発せられた信号の特徴パ
ラメータは、相互に関連性を持っているはずである。本
発明ではこれに着目し、特徴抽出部を階層構造とし各階
層で異なる特徴パラメータを処理する構成としており、
階層間で最も整合が取れるように各階層における特徴パ
ラメータを更新していく。
<Structure of Feature Extraction Unit> In the mixed input signal,
It contains various characteristic parameters of the signal emitted from each sound source that constitutes the input signal. These characteristic parameters can be classified into several types. For example, there are those that appear broadly in the time-frequency domain such as pitch, modulation, and intonation, those that appear narrowly like sound source position information, and those that appear instantaneously such as the maximum point of the frequency spectrum and its instantaneous change. It can be represented hierarchically. Further, the characteristic parameters of the signals emitted from the same sound source should be related to each other. In the present invention, paying attention to this, the feature extraction unit has a hierarchical structure and is configured to process different feature parameters in each hierarchy.
The characteristic parameters in each layer are updated so that the layers are most consistent.

【0035】図2は特徴抽出部103を3層の階層構造と
した場合の音分離装置100を示している。図示するよう
に、階層には局所的特徴抽出層106、中間的特徴抽出層1
07、大局的特徴抽出層108が含まれる。なお、階層構造
は抽出する特徴パラメータの種類に応じて4層以上設け
ることができ、また2層にすることもできる。4層以上
となる場合は、中間的特徴抽出層が対応する数だけ増え
ていくことになる。さらに、一部の階層を並列に配置す
ることもできるが、これについては第2の実施形態及び
第3の実施形態と関連して後述する。
FIG. 2 shows a sound separation device 100 in which the feature extraction unit 103 has a three-layer hierarchical structure. As shown in the figure, there are a local feature extraction layer 106 and an intermediate feature extraction layer 1 in the hierarchy.
07, a global feature extraction layer 108 is included. It should be noted that the hierarchical structure can be provided in four layers or more, or in two layers, depending on the type of the characteristic parameter to be extracted. When the number of layers is four or more, the number of intermediate feature extraction layers increases by a corresponding number. Further, some layers may be arranged in parallel, which will be described later in connection with the second and third embodiments.

【0036】特徴抽出部103の各階層は、それぞれ異な
る特徴パラメータを分析する。局所的特徴抽出層106と
中間的特徴抽出層107、中間的特徴抽出層107と大局的特
徴抽出層108とは相互に論理的に接続されている。周波
数分析部102において作成されたf-tマップは、特徴抽出
部103の中の局所的特徴抽出層106に渡される。
Each layer of the feature extraction unit 103 analyzes different feature parameters. The local feature extraction layer 106 and the intermediate feature extraction layer 107, and the intermediate feature extraction layer 107 and the global feature extraction layer 108 are logically connected to each other. The ft map created by the frequency analysis unit 102 is passed to the local feature extraction layer 106 in the feature extraction unit 103.

【0037】各階層は、まず下位に位置する階層から渡
される特徴パラメータに基づいて、自層で抽出する特徴
パラメータを計算する。計算された特徴パラメータは上
位及び下位に位置する階層に渡される。上下の階層とは
お互いの特徴パラメータが拘束条件になっており、接続
されている上下層の特徴パラメータと自層の特徴パラメ
ータとの間で整合が取れるように特徴パラメータを更新
する。
Each layer first calculates the characteristic parameter extracted by itself based on the characteristic parameter passed from the lower layer. The calculated characteristic parameters are passed to the upper and lower layers. The characteristic parameters of the upper and lower layers are constraint conditions, and the characteristic parameters are updated so that the characteristic parameters of the upper and lower layers connected to each other and the characteristic parameters of the own layer are matched.

【0038】各層における特徴パラメータと上下層の特
徴パラメータとの間で最も整合が取れたとき、特徴抽出
部103は最適な解が得られたと判断して、目的信号を再
構成できる特徴パラメータを分析結果として出力する。
When the feature parameters in each layer and the feature parameters in the upper and lower layers are best matched, the feature extraction unit 103 determines that the optimum solution is obtained, and analyzes the feature parameters that can reconstruct the target signal. Output as a result.

【0039】図3は特徴抽出部103における各階層で抽
出する特徴パラメータの組み合わせの一例と、各階層に
おける処理の流れを示すブロック図である。この実施例
では、局所的特徴抽出層106では瞬時符号化を、中間的
特徴抽出層107では調波性計算を、大局的特徴抽出層108
ではピッチ連続性計算をそれぞれ行っている。
FIG. 3 is a block diagram showing an example of a combination of feature parameters extracted by each layer in the feature extraction unit 103 and a flow of processing in each layer. In this embodiment, the local feature extraction layer 106 performs instantaneous encoding, the intermediate feature extraction layer 107 performs harmonic calculation, and the global feature extraction layer 108.
Respectively, the pitch continuity is calculated.

【0040】瞬時符号化層(局所的特徴抽出層)は、f-
tマップに基づいて入力信号に含まれている周波数成分
候補点の周波数、振幅、及びそれらの時間変化率を計算
する。この計算は、例えば特願2001-16055号に開示され
ている瞬時符号化方法により実現できる。具体的には、
入力信号にA/D変換を施し窓関数を乗じた後、離散フ
ーリエ変換を実行し入力信号のスペクトルを計算する。
さらに入力信号のパワースペクトルを計算し、その振幅
極大点に対応する単位信号を単数または複数生成する。
各単位信号は、周波数、振幅、及びそれらの時間変化率
をパラメータとして持っている。各単位信号はA/D変
換され離散フーリエ変換によりスペクトルが計算され
る。単位信号が複数の場合、それらは加え合わせられ
る。入力信号のスペクトルと単位信号和のスペクトルの
振幅/位相空間での二乗誤差が計算され、誤差が最小な
るよう単位信号の数や各単位信号のパラメータを変更す
ることによって、最終的に入力信号に含まれている周波
数成分候補点の周波数、振幅とその時間変化率を得るこ
とができる。
The instantaneous coding layer (local feature extraction layer) is f-
Based on the t map, the frequencies and amplitudes of the frequency component candidate points included in the input signal and their time change rates are calculated. This calculation can be realized by the instantaneous encoding method disclosed in Japanese Patent Application No. 2001-16055, for example. In particular,
After subjecting the input signal to A / D conversion and multiplying by the window function, discrete Fourier transform is executed to calculate the spectrum of the input signal.
Further, the power spectrum of the input signal is calculated, and a single signal or a plurality of unit signals corresponding to the amplitude maximum points are generated.
Each unit signal has a frequency, an amplitude, and their rate of change over time as parameters. Each unit signal is A / D converted and the spectrum is calculated by the discrete Fourier transform. If there are multiple unit signals, they are added together. The squared error in the amplitude / phase space of the spectrum of the input signal and the spectrum of the unit signal sum is calculated, and finally the input signal is changed by changing the number of unit signals and the parameters of each unit signal to minimize the error. It is possible to obtain the frequency and amplitude of the included frequency component candidate points and the time change rate thereof.

【0041】瞬時符号化層には調波性計算層で計算され
た調波構造の特徴パラメータが入力され、自層で求めた
瞬時情報の特徴パラメータとの整合性が検証される。
The characteristic parameter of the harmonic structure calculated in the harmonic calculation layer is input to the instantaneous coding layer, and the consistency with the characteristic parameter of the instantaneous information obtained in its own layer is verified.

【0042】調波性計算層(中間的特徴抽出層)は、瞬
時符号化層で計算された周波数とその時間変化率から、
各時刻における信号の調波性を計算する。すなわち、あ
る基本周波数f0の整数倍(n×f0)の周波数、及びある変
化率df0の整数倍(n×df0)の変化率を持つ周波数成分候
補点群を1つの調波構造音の周波数成分としてグループ
化する。調波性計算層の出力は、調波構造音の基本周波
数とその変化率である。調波性計算層にはピッチ連続性
計算層で計算された各時刻の基本周波数情報が入力さ
れ、自層で求めた特徴パラメータとの整合性が検証され
る。
The harmonic calculation layer (intermediate feature extraction layer) calculates from the frequency calculated in the instantaneous coding layer and its rate of change over time,
Calculate the harmonic nature of the signal at each time. That is, a frequency component candidate point group having a frequency that is an integer multiple (n × f 0 ) of a certain fundamental frequency f 0 and a change rate that is an integer multiple (n × df 0 ) of a certain change rate df 0 is set as one harmonic structure. Group as sound frequency components. The output of the harmonic calculation layer is the fundamental frequency of the harmonic structure sound and its rate of change. The fundamental frequency information at each time calculated by the pitch continuity calculation layer is input to the harmonic calculation layer, and the consistency with the characteristic parameters obtained by the own layer is verified.

【0043】調波性計算層は、各時刻において調波構造
音を選び出すので、櫛形フィルタのように予め基本周波
数を記憶させておく必要がない。また、基本周波数が変
動した場合でも、各時刻において調波構造が存在するの
で、調波構造音を検出することができる。
Since the harmonic calculation layer selects the harmonic structured sound at each time, it is not necessary to store the fundamental frequency in advance like a comb filter. Further, even if the fundamental frequency fluctuates, since the harmonic structure exists at each time, the harmonic structure sound can be detected.

【0044】ピッチ連続性計算層(大局的特徴抽出層)
は、調波性計算層で求められた基本周波数とその時間変
化率から、時間的に連続なピッチの流れを計算する。例
えば、ある時刻のピッチ周波数とその変化率が得られれ
ば、その前後の時刻のピッチの大まかな値は予測でき
る。この予測されたピッチと実際にその時刻に存在する
ピッチとの誤差が一定の範囲内にあるものを、ひとかた
まりのピッチの流れとしてグループ化する。ピッチ連続
性計算層の出力は、ピッチの流れと、その流れを構成す
る周波数成分候補点の振幅である。
Pitch Continuity Calculation Layer (Global Feature Extraction Layer)
Calculates a temporally continuous pitch flow from the fundamental frequency obtained by the harmonic calculation layer and its rate of change over time. For example, if the pitch frequency at a certain time and its change rate are obtained, the rough value of the pitch at the time before and after that can be predicted. Those in which the error between the predicted pitch and the pitch actually existing at that time are within a certain range are grouped as a pitch flow of a block. The output of the pitch continuity calculation layer is the pitch flow and the amplitudes of the frequency component candidate points forming the flow.

【0045】続いて各階層における処理の流れについて
説明する。
Next, the flow of processing in each layer will be described.

【0046】まず周波数分析部から得られたf-tマップ
に対して瞬時符号化計算を行い、特徴パラメータとして
入力信号に含まれている周波数成分候補点の周波数fと
その時間変化率dfを算出する(301)。周波数fと時間変化
率dfは、調波性計算層に送られる。
First, instantaneous coding calculation is performed on the ft map obtained from the frequency analysis unit to calculate the frequency f of the frequency component candidate points included in the input signal as a characteristic parameter and its time change rate df ( 301). The frequency f and the time change rate df are sent to the harmonic calculation layer.

【0047】調波性計算層は、各時刻において周波数成
分候補点に対応する周波数fの間の関係及び時間変化率d
fの間の関係を調べて、倍音関係にある、すなわち調波
構造を持つ周波数成分候補点群をグループ化し(以下
「調波性グループ」と言う)、特徴パラメータとして各
グループの基本周波数f0及びその変化率df0を求める(30
2)。この段階では、調波性グループは複数存在し得る。
The harmonic calculation layer calculates the relationship between the frequencies f corresponding to the frequency component candidate points at each time and the rate of change d with time.
By examining the relationship between f, the frequency component candidate point groups having a harmonic relationship, that is, having a harmonic structure are grouped (hereinafter referred to as “harmonic group”), and the fundamental frequency f 0 of each group is used as a characteristic parameter. And its change rate df 0 (30
2). At this stage, there can be multiple harmonic groups.

【0048】各時刻で計算された調波性グループの基本
周波数f0とその変化率df0は、ピッチ連続性計算層に渡
される。ピッチ連続性計算層は、ある一定時間に渡って
各時刻における基本周波数f0と変化率df0をそれぞれ比
較し、これらを滑らかに結ぶことのできるピッチ連続曲
線を推定する(303)。特徴パラメータは、ピッチ連続曲
線の周波数とその変化率である。ピッチ連続曲線は、1
つの目的信号に雑音等が混入されている場合、1つのf-
tマップに対して1つだけ計算されるはずであるが、実
際の環境では図4を参照して後述するようにピッチ連続
曲線が一意に定まることは少ないので、複数のピッチ連
続曲線が候補として推定される。また2つ以上の音声信
号を含む混合信号を分離する場合は、2つ以上のピッチ
連続曲線が推定されることになる。
The fundamental frequency f 0 of the harmonic group and its rate of change df 0 calculated at each time are passed to the pitch continuity calculation layer. The pitch continuity calculation layer compares the fundamental frequency f 0 and the rate of change df 0 at each time over a certain period of time, and estimates a pitch continuity curve that can smoothly connect these (303). The characteristic parameters are the frequency of the continuous pitch curve and its rate of change. Pitch continuous curve is 1
When noise is mixed in two target signals, one f-
Only one should be calculated for the t-map, but in a real environment it is unlikely that the pitch continuous curve will be uniquely determined, as described later with reference to FIG. 4, so multiple pitch continuous curves are candidates. Presumed. Further, when separating a mixed signal including two or more voice signals, two or more pitch continuous curves are estimated.

【0049】こうして調波性計算層、ピッチ連続性計算
層で特徴パラメータが求められると、各階層で整合性計
算が行われる(304)。具体的には、瞬時符号化層は調波
性計算層から特徴パラメータを受け取り、自層の特徴パ
ラメータとの整合性を計算する。調波性計算層は瞬時符
号化層とピッチ連続性計算層から特徴パラメータを受け
取り、自層の特徴パラメータとの整合性を計算する。ピ
ッチ連続性計算層は調波性計算層から特徴パラメータを
受け取り、自層の特徴パラメータとの整合性を計算す
る。これらの整合性計算は、各階層で同時並列的に進行
する。同時に計算を実行することで、各階層の特徴パラ
メータ間の整合性をとることができる。
When the characteristic parameters are obtained in the harmonic calculation layer and the pitch continuity calculation layer in this manner, consistency calculation is performed in each layer (304). Specifically, the instantaneous coding layer receives the characteristic parameter from the harmonic calculation layer and calculates the consistency with the characteristic parameter of its own layer. The harmonic calculation layer receives the characteristic parameters from the instantaneous coding layer and the pitch continuity calculation layer, and calculates the consistency with the characteristic parameters of its own layer. The pitch continuity calculation layer receives the characteristic parameter from the harmonicity calculation layer and calculates the consistency with the characteristic parameter of its own layer. These consistency calculations proceed in parallel in each layer. By performing the calculation at the same time, the consistency between the characteristic parameters of each layer can be obtained.

【0050】各階層は計算した整合性に基づいて自層の
特徴パラメータを更新する。更新された特徴パラメータ
はさらに図中の矢印で示すように上下の階層に渡され、
整合性計算が行われていく(305)。
Each layer updates the characteristic parameters of its own layer based on the calculated consistency. The updated characteristic parameters are further passed to the upper and lower layers as indicated by the arrow in the figure,
Consistency calculations are performed (305).

【0051】全ての階層間で整合性がとれた時、計算は
終了する(306)。続いて各階層は目的信号の特徴パラメ
ータとして調波構造の基本周波数f0と含まれる高調波nf
0(nは整数)、その変化率dnf0、振幅a(nf0,t)及び位相
θnf0を各時刻毎に出力する(307)。この結果を使用し
て信号を再構成することにより、目的音声信号が分離さ
れる。このように、様々な特徴パラメータ間の整合性に
基づいて全体の計算を並列的に行う手法により、複雑な
構造を有する調波構造音をロバストに分離することが可
能となる。
When all layers are consistent, the calculation ends (306). Next, each layer is the fundamental parameter f 0 of the harmonic structure and the harmonics nf
0 (n is an integer), its rate of change dnf 0 , the amplitude a (nf 0 , t) and the phase θnf 0 are output at each time (307). By using this result to reconstruct the signal, the target audio signal is separated. As described above, it is possible to robustly separate a harmonic structured sound having a complicated structure by the method of performing the entire calculation in parallel based on the consistency between various characteristic parameters.

【0052】上述の説明では、簡単のためにf-tマップ
上で調波構造をグループ化しているが、このグループ化
は瞬時符号化層で抽出される特徴の数に応じて4次元以
上の特徴空間でも行うことができる。例えば各周波数成
分候補点の周波数とその変化率に加えて各周波数成分候
補点の振幅とその変化率を利用して、周波数成分候補点
の周波数及び振幅の変化が連続するようにグループ化を
行うことができる。これは同一音源からの信号のピッチ
が連続しているのと同様に、同一音源からの信号の振幅
が連続していることに対応している。他の瞬時符号化特
徴についても同様である。
In the above description, the harmonic structures are grouped on the ft map for simplification, but this grouping is based on the feature space of four dimensions or more depending on the number of features extracted in the instantaneous coding layer. But you can do it too. For example, in addition to the frequency of each frequency component candidate point and its change rate, the amplitude of each frequency component candidate point and its change rate are used to perform grouping so that the frequency and amplitude of the frequency component candidate point change continuously. be able to. This corresponds to the fact that the amplitudes of the signals from the same sound source are continuous, just as the pitches of the signals from the same sound source are continuous. The same applies to other instantaneous coding features.

【0053】以上に説明した実施形態のように音声信号
の局所構造に注目し音分離を行う手法は、上述の特開平
9-257559号公報のようにこれまでにもいくつか提案され
ている。このような従来手法で問題となるのは、ある振
幅極大点が次の時刻のどの振幅極大点と結び付くべきか
が一意には定まらないことである。この点について、図
4を用いて説明する。
The method of performing sound separation by paying attention to the local structure of the audio signal as in the embodiment described above is described in the above-mentioned Japanese Patent Laid-Open No.
Several proposals have been made so far, such as Japanese Patent No. 9-257559. The problem with such a conventional method is that it is not uniquely determined to which amplitude maximum point at a next time a certain amplitude maximum point should be connected. This point will be described with reference to FIG.

【0054】図4は混合入力信号の周波数分析によって
得られたf-tマップの例である。混合入力信号は2つの
連続した音声信号を含み、瞬間的に雑音が入っているも
のとする。図中の黒丸は混合入力信号のスペクトルの振
幅極大点を表す。 (a)は従来手法によるピッチ連続性の
推定結果を示す。この手法では、ある時刻における周波
数方向の振幅極大点を次の時刻における振幅極大点と結
び付けていくことで音の流れを推定する。しかし、図示
するように接続可能な流れは何通りも考えられ、一意に
は定まらない。特にS/N比が低い場合には、目的信号
の近傍に結び付ける候補点が増えるので問題はさらに困
難となる。
FIG. 4 is an example of the ft map obtained by frequency analysis of mixed input signals. It is assumed that the mixed input signal contains two consecutive audio signals and is instantaneously noisy. The black circles in the figure represent the maximum amplitude points of the spectrum of the mixed input signal. (a) shows the estimation result of pitch continuity by the conventional method. In this method, the flow of sound is estimated by connecting the amplitude maximum point in the frequency direction at a certain time with the amplitude maximum point at the next time. However, as shown in the figure, there are many possible connectable flows and they are not uniquely determined. Especially when the S / N ratio is low, the number of candidate points connected to the vicinity of the target signal increases, and the problem becomes more difficult.

【0055】それに対し上述の実施形態では、瞬時符号
化によって(b)に示すように離散フーリエ変換解像度の
ずれや入力信号の変調、周波数成分の近接によって、実
際の周波数成分とずれている可能性のある振幅極大点で
はなく、周波数成分候補点とその変化率が求まるため、
f-tマップ上で矢印で表しているようにその周波数がど
の方向に変化するのかが分かる。従って図(b)中に実線
と点線で示すように音の流れが明確になり、×印が付さ
れている2つの矢印のような周波数成分候補点は雑音と
して分離される。
On the other hand, in the above-described embodiment, there is a possibility that there is a deviation from the actual frequency component due to the deviation of the discrete Fourier transform resolution, the modulation of the input signal, and the proximity of the frequency component due to the instantaneous encoding as shown in (b). Since the frequency component candidate point and its rate of change are obtained instead of the amplitude maximum point with
You can see in which direction the frequency changes, as indicated by the arrow on the ft map. Therefore, the sound flow becomes clear as shown by the solid line and the dotted line in FIG. 7B, and the frequency component candidate points such as the two arrows marked with X are separated as noise.

【0056】さらにこの実施形態では、同一音源より発
せられる音声信号に含まれる音響的特徴間には関連性が
あり、またその性質が急激に変化せず一貫性を持つこと
に着目している。従って、非定常な雑音中にある音声信
号も、音声信号の一貫性を利用して分離可能であり、ま
た大局的な特徴パラメータより同一音源信号の緩やかな
振幅、周波数の変化に追従することができる。
Further, in this embodiment, attention is paid to the fact that the acoustic features included in the voice signals emitted from the same sound source are related to each other and the properties thereof are not abruptly changed but have consistency. Therefore, a voice signal in non-stationary noise can be separated by utilizing the consistency of the voice signal, and it is possible to follow the gradual amplitude and frequency changes of the same sound source signal from the global characteristic parameters. it can.

【0057】また、性質の異なる種々の特徴パラメータ
を同時に抽出し関連付けることで、単体の特徴抽出精度
が確保できない入力信号でも相互に不確定なところを補
い合い、全体として特徴抽出精度を上げることができ
る。
Further, by simultaneously extracting and associating various characteristic parameters having different properties, even in the case of an input signal for which the characteristic extraction accuracy of a single unit cannot be ensured, the uncertainties can be complemented and the characteristic extraction accuracy can be improved as a whole. .

【0058】<計算素子>本発明の実施形態では、各階
層は1つまたは複数の計算素子で構成される。本明細書
において「計算素子」とは、特徴パラメータに対応して
一対一で生成され、それぞれが同一の処理を行い、他の
計算素子と特徴パラメータを相互に供給する機能を持つ
情報処理素子であり、物理的な素子を意味しているので
はない。
<Computing Element> In the embodiment of the present invention, each layer is composed of one or more computing elements. In the present specification, a “calculation element” is an information processing element that is generated in a one-to-one correspondence with a characteristic parameter, performs the same processing, and has a function of mutually supplying the characteristic parameter with another calculation element. Yes, it does not mean a physical element.

【0059】図5は各階層の計算素子による構成の一例
を示した図である。上から順に大局的特徴抽出層、中間
的特徴抽出層、局所的特徴抽出層に対応する計算素子の
構成が示されている。ここでは図5の括弧内に示したよ
うな上述の実施形態の特徴の組み合わせに対して図5の
説明を行うが、他の特徴の組み合わせに対しても同様で
ある。501は周波数分析部により供給されるf-tマップの
例であり、4つの時刻t1、t2、t3、t4に対してそれ
ぞれ5、3、5、5個の振幅極大点(図中黒点で表す)
が検出された場合を表している。
FIG. 5 is a diagram showing an example of the configuration of the calculation elements in each layer. The configurations of the calculation elements corresponding to the global feature extraction layer, the intermediate feature extraction layer, and the local feature extraction layer are shown in order from the top. Here, although FIG. 5 is described for the combination of the features of the above-described embodiment as shown in the parentheses of FIG. 5, the same applies to other combinations of the features. 501 is an example of the ft map supplied by the frequency analysis unit, which is 5, 3 , 5 , and 5 amplitude maximum points (black points in the figure) for four times t 1 , t 2 , t 3 , and t 4 , respectively. Represents)
Is detected.

【0060】局所的特徴抽出層では、f-tマップ上の振
幅極大点に対応した計算素子が生成される。図5中で
は、計算素子は黒塗りの正方形(例えば503)で示され
ている。中間的特徴抽出層では、互いに調波関係にある
局所的特徴抽出層の計算素子の1グループに対して1つ
の計算素子が生成される。図5では、時刻t1、t3、t
4についてそれぞれ調波構造が認められるので、中間的
特徴抽出層に3つの計算素子j-2、j、j+1が生成され
る。これらは図中に黒塗りの直方体(例えば504)で示さ
れている。時刻t2に関しては、周波数成分候補点間の
数が少なく調波構造が認められるに至らなかったので、
この時点では計算素子j-1は生成されない。
In the local feature extraction layer, the vibration on the f-t map is
A calculation element corresponding to the maximum width point is generated. In Figure 5
The computational element is shown as a black square (eg 503)
ing. In the intermediate feature extraction layer, they are in a harmonic relationship with each other.
One for each group of computational elements in the local feature extraction layer
The calculation element of is generated. In FIG. 5, time t1, T3, T
FourSince a harmonic structure is recognized for each of
Three calculation elements j-2, j, j + 1 are generated in the feature extraction layer.
It These are shown as black boxes (e.g. 504) in the figure.
Has been. Time t2For, between the frequency component candidate points
Since there were few numbers and no harmonic structure was recognized,
At this time, the calculation element j-1 is not generated.

【0061】大局的特徴抽出層では、調波性計算によっ
て計算された基本周波数とその変化率から、時刻t1
らt4に渡ってピッチ連続性があると思われるグループ
に対して計算素子が生成される。図5では、計算素子j-
2、j、j+1に対してピッチ連続性があると認められたの
で、計算素子iが生成されている。これは図7中に横方
向に長い1つの直方体(505)で示されている。
In the global feature extraction layer, from the fundamental frequency calculated by the harmonic calculation and the rate of change thereof, calculation elements are provided for the group that seems to have pitch continuity from time t 1 to t 4. Is generated. In FIG. 5, the calculation element j-
Since it is recognized that there is pitch continuity for 2, j and j + 1, the calculation element i is generated. This is shown in FIG. 7 by one laterally long rectangular parallelepiped (505).

【0062】整合性計算が進行して計算素子iの妥当性
が強くなると、時間t2に相当する中間的特徴抽出層に
おける計算素子の存在の妥当性が強くなるので、計算素
子j-1が生成される。これは図中白抜きの直方体506で示
されている。さらに整合性計算を続けることにより計算
素子j-2、j-1、j+1の妥当性が強くなると、局所的特徴
抽出層において白抜きの正方形(例えば502)で示され
ている個所の計算素子の存在の妥当性が強くなるので、
それぞれ対応する計算素子が生成される。
As the consistency calculation progresses and the validity of the calculation element i becomes stronger, the validity of the calculation element in the intermediate feature extraction layer corresponding to the time t 2 becomes stronger. Is generated. This is indicated by a hollow rectangular parallelepiped 506 in the figure. If the validity of the calculation elements j-2, j-1, j + 1 becomes stronger by continuing the consistency calculation, the calculation of the part indicated by a white square (eg 502) in the local feature extraction layer is performed. Since the validity of the existence of the element becomes stronger,
Corresponding computing elements are generated.

【0063】実際の音分離においては、f-tマップ上に
は目的信号以外の音声信号や雑音の振幅極大点があり、
これらに対しても局所的特徴抽出層に計算素子が生成さ
れ、その中で調波関係のあるグループに対しては、中間
的特徴抽出層に対応する計算素子が生成される。特に整
合性計算の開始当初は複数の調波性グループが認められ
ることが多い。大局的特徴抽出層においても同様であ
る。しかしこのような計算素子は、整合性計算が進行す
るにつれ妥当性が低いと判定され、消滅してしまう。こ
のようにして、目的信号の特徴パラメータに対応する計
算素子が淘汰されていく。
In actual sound separation, there is an amplitude maximum point of a voice signal other than the target signal and noise on the ft map,
Also for these, a calculation element is generated in the local feature extraction layer, and a calculation element corresponding to the intermediate feature extraction layer is generated for a group having a harmonic relationship among them. In particular, multiple harmonic groups are often recognized at the beginning of the consistency calculation. The same applies to the global feature extraction layer. However, such a calculation element is determined to be less appropriate as the consistency calculation progresses, and disappears. In this way, the calculation element corresponding to the characteristic parameter of the target signal is selected.

【0064】図5に示した計算素子による各階層の構成
は例に過ぎず、また整合性計算の進捗につれ計算素子の
構成は常に変化することに注意されたい。なぜなら、上
述したように、計算開始時はf-tマップ上の全ての振幅
極大点に対して計算素子が生成されるが、計算が進むと
妥当性が低い計算素子は消滅し、妥当性の高い計算素子
のみが生き残り、計算が収束するからである。図5は各
時刻において1つの調波構造しか認められなかった場
合、あるいは整合性計算が進行し妥当性の低い調波構造
に対応する計算素子が消滅した場合に対応していると考
えることができる。
It should be noted that the configuration of each layer by the calculation element shown in FIG. 5 is merely an example, and the configuration of the calculation element always changes as the consistency calculation progresses. This is because, as described above, calculation elements are generated for all the amplitude maximum points on the ft map at the start of calculation, but as the calculation progresses, calculation elements with low validity disappear and calculation with high validity is performed. This is because only the elements survive and the calculation converges. It can be considered that FIG. 5 corresponds to the case where only one harmonic structure is observed at each time, or the case where the calculation element corresponding to the harmonic structure of low validity disappears due to the progress of the consistency calculation. it can.

【0065】図6は計算素子600の構成の一例を示す機
能ブロック図である。以下の説明において、当該計算素
子が含まれる階層をN層、1つ下位の階層を(N−1)
層、1つ上位の階層を(N+1)層と呼ぶことにする。ま
た(N+1)層の計算素子の番号をi、N層の計算素子の
番号をj、(N−1)層の計算素子の番号をkで表す。
FIG. 6 is a functional block diagram showing an example of the configuration of the calculation element 600. In the following description, the layer including the calculation element is N layer, and the layer one lower layer is (N-1).
The layer and the next higher layer will be referred to as (N + 1) layer. Further, the number of the calculation element of the (N + 1) layer is represented by i, the number of the calculation element of the N layer is represented by j, and the number of the calculation element of the (N−1) layer is represented by k.

【0066】下位整合性計算部604は、(N−1)層で計
算される特徴パラメータ集合PN-1より、自層で抽出す
る特徴に適合したものを見つけ、パラメータPNjを計算
する。続いて、N層の特徴パラメータPNjとの整合性R
Njを次式のBottom-Up関数(BUF)により計算する。
The lower consistency calculation unit 604 finds a feature parameter set P N-1 calculated in the (N-1) layer that matches the feature extracted in its own layer, and calculates the parameter P Nj . Then, the consistency R with the characteristic parameter P Nj of the N layer
Nj is calculated by the Bottom-Up function (BUF) of the following equation.

【0067】[0067]

【数1】 [Equation 1]

【0068】上位整合性計算部601は、上位の(N+1)
層の各計算素子で計算される特徴パラメータの集合P
(N+1)iと、N層の特徴パラメータPNjとの整合性QNj
次式のTop-Down関数(TDF)により計算する。
The upper consistency calculation unit 601 determines the upper (N + 1)
A set P of characteristic parameters calculated by each calculation element of the layer
The consistency Q Nj between (N + 1) i and the characteristic parameter P Nj of the N layer is calculated by the Top-Down function (TDF) of the following equation.

【0069】[0069]

【数2】 ここで、S(N+1)iは(N+1)層の妥当性指標である(妥当
性指標については後述する)。
[Equation 2] Here, S (N + 1) i is the validity index of the (N + 1) layer (the validity index will be described later).

【0070】パラメータの数は各層にふくまれる計算素
子の数に対応している。図6の中間的特徴抽出層にある
計算素子の場合は、(N−1)層から供給されるパラメー
タの数はkであり、(N+1)層から供給されるパラメー
タの数は1である。
The number of parameters corresponds to the number of calculation elements included in each layer. For the computing element in the intermediate feature extraction layer of FIG. 6, the number of parameters supplied from the (N-1) layer is k, and the number of parameters supplied from the (N + 1) layer is one.

【0071】整合性計算部601、604でそれぞれ計算され
た整合性関数QNj、RNjは乗算部602で掛け合わされ
て、妥当性指標SNjが計算される。妥当性指標SNjは、
N層における計算素子jのパラメータPNjの確からしさ
を表すパラメータであり、パラメータ空間では整合性関
数QNjとRNjとの重なり合う部分として表現される。
The matching functions Q Nj and R Nj respectively calculated by the matching calculation units 601 and 604 are multiplied by the multiplication unit 602 to calculate the validity index S Nj . The validity index S Nj is
It is a parameter that represents the certainty of the parameter P Nj of the calculation element j in the N layer, and is expressed as an overlapping portion of the matching functions Q Nj and R Nj in the parameter space.

【0072】閾値計算部603は、N層内のすべての計算
素子のために閾値計算関数(TCF)により閾値Sthを算
出する。閾値Sthは、上位層の妥当性指標S(N+1)iを参
照しつつ、計算の初期段階では比較的小さな値に設定さ
れ、計算が収束していくにつれ大きな値に設定される。
閾値計算部603は、計算素子600には含まれない。
The threshold calculator 603 calculates the threshold S th by the threshold calculation function (TCF) for all the calculation elements in the N layer. The threshold value S th is set to a relatively small value in the initial stage of calculation while referring to the validity index S (N + 1) i of the upper layer, and is set to a large value as the calculation converges.
The threshold value calculation unit 603 is not included in the calculation element 600.

【0073】閾値比較部605は、閾値Sthと妥当性指標
Njとを比較する。妥当性指標SNjが閾値Sthを下回っ
ていた場合は、この計算素子の存在の妥当性が低いこと
を意味するので、計算素子は消滅する。
The threshold comparing section 605 compares the threshold S th with the validity index S Nj . If the validity index S Nj is lower than the threshold value S th , it means that the validity of the existence of this calculation element is low, and therefore the calculation element disappears.

【0074】パラメータ更新部606は、妥当性指標SNj
が最大になるようにパラメータPNjを更新する。更新さ
れたパラメータPNjは、次の計算サイクルで(N+1)層
及び(N−1)層の計算素子に渡される。
The parameter updating unit 606 uses the validity index S Nj.
The parameter P Nj is updated so that The updated parameter P Nj is passed to the calculation elements of the (N + 1) layer and the (N−1) layer in the next calculation cycle.

【0075】特徴抽出部において最上位にある階層にお
いては、計算素子自体の構成は図6に示したものと同一
であるが、計算素子に入力されるパラメータは図7に示
すようになる。この場合、上位層からの妥当性指標の代
わりに大局的特徴抽出層にある計算素子のうち最も妥当
性の高い素子の指標(Swin)を使用する。また上位層か
らのパラメータの代わりに、下位層からのパラメータを
パラメータ推測関数(PPF)607により計算した結果(P
predict)を使用して、整合性QNj及び閾値St hを算出す
る。従って、TDFは次式のようになる。
At the highest hierarchy in the feature extraction section, the configuration of the calculation element itself is the same as that shown in FIG. 6, but the parameters input to the calculation element are as shown in FIG. In this case, instead of the validity index from the upper layer, the index (S win ) of the most valid element among the calculation elements in the global feature extraction layer is used. In addition, instead of the parameters from the upper layer, the parameters from the lower layer are calculated by the parameter estimation function (PPF) 607 (P
predict) was used to calculate the consistency Q Nj and the threshold S t h. Therefore, the TDF is as follows.

【0076】[0076]

【数3】 [Equation 3]

【0077】妥当性指標SNjが高い計算素子は、下位の
層(N−1)層における計算素子のTDFに与える影響が
強くなり、それぞれの妥当性指標を大きくする効果があ
る。逆に妥当性指標SNjが低い計算素子は影響力が小さ
くなり、SNjが閾値Sthを下回ると消滅する。閾値Sth
は(N+1)層の妥当性指標が変化するたびに計算され、
さらにTCFは固定でなく計算の進捗により変化する。
これにより、計算回数が少ないうちは多くの計算素子
(すなわち対応する特徴パラメータ)を残しておき、各階
層間で整合が取れてくるのに伴って生き残り条件を厳し
くすることができるため、閾値を固定する場合に比べ特
徴パラメータの精度を上げることができる。
A calculation element having a high validity index S Nj has a strong influence on the TDF of the calculation element in the lower layer (N-1) layer, and has an effect of increasing each validity index. On the contrary, the calculation element with the low validity index S Nj has a small influence, and disappears when S Nj falls below the threshold value S th . Threshold S th
Is calculated every time the validity index of the (N + 1) layer changes,
Furthermore, the TCF is not fixed but changes depending on the progress of calculation.
This allows many calculation elements while the number of calculations is small.
(I.e., the corresponding feature parameter) is left, and the survival condition can be tightened as the levels of matching become more consistent, so the precision of the feature parameter can be improved compared to when the threshold value is fixed. it can.

【0078】図8は、上述した計算素子により構成され
た(N−1)層、N層、(N+1)層を有する特徴抽出部に
おける計算の流れを説明するフローチャートである。
FIG. 8 is a flow chart for explaining the flow of calculation in the feature extraction section having the (N-1) layer, N layer, and (N + 1) layer formed by the above-mentioned calculation elements.

【0079】計算が開始されると、まず必要な初期設定
が行われる(801)。続いて、(N−1)層、N層、(N+
1)層のそれぞれにおいて、接続する層から入力される
パラメータデータに基づいて、各層の計算素子のパラメ
ータ更新値が計算され(803)、各層の計算素子のパラメ
ータが更新される(805)。さらに妥当性指標の計算も行
われる(807)。
When the calculation is started, first, necessary initialization is performed (801). Then, (N-1) layer, N layer, (N +
1) In each of the layers, the parameter update value of the calculation element of each layer is calculated based on the parameter data input from the layer to be connected (803), and the parameter of the calculation element of each layer is updated (805). In addition, the validity index is calculated (807).

【0080】計算したパラメータに基づき、各層はそれ
ぞれ接続している層との接続関係を更新する(809)。こ
のとき、妥当性指標が閾値を下回った計算素子は消滅す
る(811)。また、必要となった計算素子が新たに生成さ
れる(813)。
Based on the calculated parameters, each layer updates the connection relation with the layer to which each layer is connected (809). At this time, the calculation element whose validity index is below the threshold disappears (811). In addition, a necessary calculation element is newly generated (813).

【0081】全ての計算素子のパラメータ更新値が設定
値を下回ると(815)、各層間の整合が取れたものとして
計算を終了する。計算素子の中にパラメータ更新値が設
定値を上回るものがあれば、再度更新値が計算され(80
3)、以下同様の計算が繰り返される。
When the parameter update values of all the calculation elements fall below the set values (815), it is determined that the layers have been matched, and the calculation ends. If there is a parameter update value that exceeds the set value among the calculation elements, the update value is calculated again (80
3), and the same calculation is repeated thereafter.

【0082】<第2の実施形態>各階層で抽出する特徴
パラメータは第1の実施形態に関連して述べた組み合わ
せに限定されず、採用する特徴のタイプに応じて局所
的、中間的、大局的の各特徴抽出層に割り当てる構成を
取ることができる。他に利用できる特徴としては、オン
セット/オフセットやイントネーション等が挙げられ
る。それぞれ適当な方法により特徴パラメータが抽出さ
れ、整合がとれるように階層間で特徴パラメータがやり
取りされる点は、上述の第1の実施形態と同じである。
<Second Embodiment> The feature parameters extracted in each layer are not limited to the combinations described in connection with the first embodiment, and may be local, intermediate, or global depending on the type of feature to be adopted. A configuration can be adopted in which each target feature extraction layer is assigned. Other available features include onset / offset and intonation. The feature parameters are extracted by an appropriate method, and the feature parameters are exchanged between layers so as to achieve matching, as in the first embodiment described above.

【0083】本発明の第2の実施形態では、図9のよう
に、音響入力端子を2つ設けることにより音源方向を特
徴として利用するように構成することができる。この場
合は、図示するように音源方向分析部911を別に設け、
音源方向情報を特徴抽出部915に供給する。音源方向分
析の方法は、周知の技術、例えばマイクロホンに到達す
る音の時間差または音圧差から音源方向を分析する方法
や、あるいは、入力信号を周波数分析し、周波数毎の到
達時間差及び/または音圧差から音源方向を分析する等
の方法で良い。
In the second embodiment of the present invention, as shown in FIG. 9, two sound input terminals can be provided to use the sound source direction as a feature. In this case, a sound source direction analysis unit 911 is separately provided as shown in the figure,
The sound source direction information is supplied to the feature extraction unit 915. The method of sound source direction analysis is a well-known technique, for example, a method of analyzing the sound source direction from the time difference or sound pressure difference of the sound reaching the microphone, or frequency analysis of the input signal, and the arrival time difference and / or sound pressure difference for each frequency. A method such as analyzing the direction of the sound source may be used.

【0084】音源の方向を分析するために、混合入力信
号は、複数の音響入力端子(本実施形態ではマイクL901
とマイクR903の2つ)により集音される。周波数分析部
905では、マイクL901、マイクR903により集音された
信号がそれぞれ別々にFFT等の手法で分析され、周波
数スペクトルが求められる。
In order to analyze the direction of the sound source, the mixed input signal is input to a plurality of acoustic input terminals (microphone L901 in this embodiment).
And microphone R903)). Frequency analysis section
In 905, the signals collected by the microphone L901 and the microphone R903 are separately analyzed by a method such as FFT, and a frequency spectrum is obtained.

【0085】特徴抽出部915には、マイクと同数の瞬時
符号化層が設けられる。本実施形態では、マイクLとマ
イクRにそれぞれ対応する瞬時符号化層(L)917と瞬時
符号化層(R)919が設けられ、スペクトルを受け取る。
瞬時符号化層917、919は、それぞれ受け取った周波数ス
ペクトルを元に、周波数成分候補点の周波数と振幅、そ
の時間変化を計算する。
The feature extraction unit 915 is provided with the same number of instantaneous coding layers as the microphones. In this embodiment, an instantaneous coding layer (L) 917 and an instantaneous coding layer (R) 919 corresponding to the microphone L and the microphone R are provided to receive the spectrum.
The instantaneous coding layers 917 and 919 calculate the frequency and amplitude of the frequency component candidate point and its change over time based on the received frequency spectrum.

【0086】瞬時符号化層917、919ではまた、調波性計
算層923にて計算される調波性情報を用いて、計算した
周波数成分候補点との整合性を検証する。
The instantaneous coding layers 917 and 919 also use the harmonic information calculated by the harmonic calculation layer 923 to verify the consistency with the calculated frequency component candidate points.

【0087】音源方向分析部911には、マイクL901とマ
イクR903により集音された混合入力信号が入力され
る。入力された信号は、音源方向分析部911においてF
FTと同じ時間窓の幅で切り出され、2つの信号の相互
相関が計算され、その極大点が求められる(図10に示
す黒点)。
To the sound source direction analysis unit 911, the mixed input signal collected by the microphone L901 and the microphone R903 is input. The input signal is F in the sound source direction analysis unit 911.
It is cut out with the same time window width as FT, the cross-correlation of the two signals is calculated, and the maximum point thereof is obtained (black points shown in FIG. 10).

【0088】特徴抽出部915には、音源方向推定層921が
設けられる。音源方向推定層921は、音源方向分析部911
より得られた相互相関のピークのうち、時間方向に引い
た線との誤差が一定値より小さいものを、音源方向の違
いによる時間差と推定する(図10の場合では、τ1、
τ2、τ3の3つが推定されている)。このようにして
推定された音源方向差による各目的信号の到達時間差
は、調波性計算層923に渡される。
The feature extraction unit 915 is provided with a sound source direction estimation layer 921. The sound source direction estimation layer 921 includes a sound source direction analysis unit 911.
Of the obtained cross-correlation peaks, the one with an error smaller than a constant value with the line drawn in the time direction is estimated to be the time difference due to the difference in the sound source direction (in the case of FIG. 10, τ1,
Three are estimated, τ2 and τ3). The arrival time difference of each target signal due to the sound source direction difference estimated in this way is passed to the harmonic calculation layer 923.

【0089】音源方向推定層921はまた、調波性計算層9
23から得られる調波性情報の時間差を用いて、推定され
た各到達時間差との整合性を検証する。
The sound source direction estimation layer 921 also includes the harmonic calculation layer 9
Using the time difference of the harmonic information obtained from 23, the consistency with each estimated arrival time difference is verified.

【0090】調波性計算層923は、瞬時符号化層(L)917
と瞬時符号化層(R)919から得られたローカルピーク
を、音源方向推定層921から得られたそれぞれの到達時
間差分ずらして足し合わせることによって、調波性を計
算する。具体的には、左右のマイク901、903に、τ1、
τ2、τ3ずつ到達時間のずれた相似波形の信号が入力
されることから、瞬時符号化層917、919それぞれからの
出力もτ1、τ2、τ3だけずれた同じ周波数成分候補
点を持つことを利用して、同一音源より到達した目的信
号の周波数成分を強調する。このように音分離装置900
を構成することによって、複数の目的信号を含む混合入
力信号の分離精度を向上させることができる。
The harmonic calculation layer 923 is an instantaneous coding layer (L) 917.
And the local peaks obtained from the instantaneous coding layer (R) 919 are added together with the respective arrival time differences obtained from the sound source direction estimation layer 921 being shifted and added. Specifically, τ1, on the left and right microphones 901, 903,
Since signals of similar waveforms whose arrival times are deviated by τ2 and τ3 are input, it is used that the outputs from the instantaneous coding layers 917 and 919 have the same frequency component candidate points deviated by τ1, τ2, and τ3, respectively. Then, the frequency component of the target signal arriving from the same sound source is emphasized. In this way the sound separation device 900
By configuring the above, it is possible to improve the separation accuracy of the mixed input signal including a plurality of target signals.

【0091】なお、特徴抽出部915のピッチ連続性計算
層925と、信号合成部927の動作は、図3に関して既に説
明したと同様である。また各階層が計算素子により構成
されることも同様であるが、調波性計算層923における
計算素子は、複数の層(すなわち、瞬時符号化層と音源
方向推定層)から特徴パラメータを受け取って特徴パラ
メータを計算し、計算した特徴パラメータを複数の層に
渡すように構成される。
The operations of the pitch continuity calculating layer 925 of the feature extracting unit 915 and the signal synthesizing unit 927 are the same as those already described with reference to FIG. Similarly, each layer is composed of calculation elements, but the calculation element in the harmonic calculation layer 923 receives characteristic parameters from a plurality of layers (that is, the instantaneous coding layer and the sound source direction estimation layer). It is configured to calculate a feature parameter and pass the calculated feature parameter to multiple layers.

【0092】<第3の実施形態>図11は、本発明の第
3の実施形態による音分離装置を示す。
<Third Embodiment> FIG. 11 shows a sound separating device according to a third embodiment of the present invention.

【0093】混合入力信号は、複数の音響入力端子(本
実施形態では2本のマイクL1001とマイクR1003の2
つ)に入力される。周波数分析部1005では、マイクL10
01、マイクR1003により入力された信号がそれぞれ別々
にFFT等の手法で分析され、周波数スペクトルが求め
られる。
The mixed input signal is transmitted through a plurality of acoustic input terminals (two microphones L1001 and R1003 in this embodiment).
Input). In the frequency analysis unit 1005, the microphone L10
The signals input by 01 and the microphone R1003 are separately analyzed by a method such as FFT to obtain a frequency spectrum.

【0094】特徴抽出部1015には、マイクと同数の瞬時
符号化層が設けられる。本実施形態では、マイクLとマ
イクRにそれぞれ対応する瞬時符号化層(L)1017と瞬時
符号化層(R)1019が設けられ、スペクトルを受け取る。
瞬時符号化層1017、1019は、それぞれ受け取った周波数
スペクトルを元に、周波数成分候補点の周波数と振幅、
その時間変化が計算される。
The feature extraction unit 1015 is provided with as many instantaneous coding layers as microphones. In this embodiment, an instantaneous coding layer (L) 1017 and an instantaneous coding layer (R) 1019 corresponding to the microphone L and the microphone R are provided to receive the spectrum.
Instantaneous coding layers 1017, 1019, based on the frequency spectrum received respectively, the frequency and amplitude of the frequency component candidate point,
The change over time is calculated.

【0095】瞬時符号化層1017、1019ではまた、調波性
計算層1023にて計算される調波性情報を用いて、推定さ
れた周波数成分候補点との整合性を検証する。
The instantaneous coding layers 1017 and 1019 also use harmonic information calculated by the harmonic calculation layer 1023 to verify the consistency with the estimated frequency component candidate points.

【0096】音源方向分析部1011は、周波数分析部1005
により行われたFFTから、各周波数チャンネルでの相
互相関を計算し、その極大点を求める(図12に示す黒
点)。また各周波数チャンネルの音圧差も計算する。
The sound source direction analysis unit 1011 includes a frequency analysis unit 1005.
The cross-correlation in each frequency channel is calculated from the FFT performed by the above, and the maximum point is obtained (black points shown in FIG. 12). Also, the sound pressure difference of each frequency channel is calculated.

【0097】特徴抽出部1015には、音源方向推定層1021
が設けられる。音源方向推定層1021は、音源方向分析部
1011から得られた各周波数チャンネルの信号の相互相関
とその極大点、及び各チャンネルの音圧差を併せて求め
ることにより、極大点を大まかに音源別にグループ化す
る。このようにして推定された音源方向差による各目的
信号の到達時間差は、調波性計算層1023に渡される。
The feature extraction unit 1015 has a sound source direction estimation layer 1021.
Is provided. The sound source direction estimation layer 1021 is a sound source direction analysis unit.
The maximum points are roughly grouped by sound source by obtaining the cross-correlation of the signals of the respective frequency channels obtained from 1011 and the maximum points thereof, and the sound pressure difference of each channel. The arrival time difference of each target signal due to the sound source direction difference estimated in this way is passed to the harmonic calculation layer 1023.

【0098】音源方向推定層1021はまた、調波性計算層
1023から得られる調波構造情報を用いて、推定された到
達時間差と音源グループとの整合性を検証する。
The sound source direction estimation layer 1021 is also a harmonic calculation layer.
By using the harmonic structure information obtained from 1023, the consistency between the estimated arrival time difference and the sound source group is verified.

【0099】調波性計算層1023は、瞬時符号化層(L)10
17と瞬時符号化層(R)1019から得られた周波数成分候補
点を、音源方向推定層1021から得られたそれぞれの到達
時間差分ずらして足し合わせ、さらに音源方向推定層10
21から得られる同一音源の情報を用いることによって、
調波性を計算する。
The harmonic calculation layer 1023 is the instantaneous coding layer (L) 10
17 and the frequency component candidate points obtained from the instantaneous coding layer (R) 1019 are shifted by the respective arrival time differences obtained from the sound source direction estimation layer 1021 and added, and the sound source direction estimation layer 10 is further added.
By using the same sound source information obtained from 21,
Calculate harmonics.

【0100】なお、特徴抽出部1015のピッチ連続性計算
層1025と、信号合成部1027の動作は、図3に関して既に
説明したと同様である。また各階層が計算素子により構
成されることも同様であるが、調波性計算層1023におけ
る計算素子は、複数の層(すなわち、瞬時符号化層と音
源方向推定層)から特徴パラメータを受け取って特徴パ
ラメータを計算し、計算した特徴パラメータを複数の層
に渡すように構成される。
The operations of the pitch continuity calculating layer 1025 of the feature extracting unit 1015 and the signal synthesizing unit 1027 are the same as those already described with reference to FIG. Similarly, each layer is composed of calculation elements, but the calculation element in the harmonic calculation layer 1023 receives characteristic parameters from multiple layers (that is, the instantaneous coding layer and the sound source direction estimation layer). It is configured to calculate a feature parameter and pass the calculated feature parameter to multiple layers.

【0101】[0101]

【実施例】上記説明した本発明の第1の実施形態による
音分離装置100を用いて、目的信号に雑音を混入した入
力信号から目的信号を分離した結果を図13から図15
に示す。各図において、(a)は目的信号のスペクトル、
(b)は雑音を混入した入力信号のスペクトル、(c)は雑音
を分離した出力信号のスペクトルをそれぞれ示してい
る。また各図の横軸は時間(msec)であり、縦軸は周波数
(Hz)を表す。入力信号には、ATR音声データベースを
使用した。
FIG. 13 to FIG. 15 show the results of separating a target signal from an input signal in which noise is mixed in the target signal using the sound separation device 100 according to the first embodiment of the present invention described above.
Shown in. In each figure, (a) is the spectrum of the target signal,
(b) shows the spectrum of the input signal mixed with noise, and (c) shows the spectrum of the output signal separated from the noise. The horizontal axis of each figure is time (msec), and the vertical axis is frequency.
(Hz) An ATR voice database was used as the input signal.

【0102】図13は断続的雑音を目的信号に混入した
場合を示す。(a)の目的信号は女性発話「ファミリーレ
ストラン」の一部「ファミリーレス」であり、目的信号
の200ms毎に白色雑音を15msずつ混入させたものを(b)の
入力信号として用いた。(c)の出力信号は、入力信号か
ら抽出した特徴パラメータから波形を合成して作成し
た。図より明らかなように、白色雑音はほぼ完全に除去
されている。
FIG. 13 shows the case where intermittent noise is mixed in the target signal. The target signal in (a) is a part of the "Family Restaurant" uttered by a woman, "Familyless", and white noise was mixed for 15 ms every 200 ms of the target signal, and was used as the input signal in (b). The output signal in (c) was created by synthesizing the waveforms from the characteristic parameters extracted from the input signal. As is clear from the figure, white noise is almost completely removed.

【0103】図14は雑音を時間連続的に目的信号に混
入した場合の結果である。(a)の目的信号は女性発話
「いよいよ」の一部であり、目的信号にS/N比20dBの
白色雑音を付加したものを(b)の入力信号として用い
た。(c)の出力信号は、入力信号から抽出した特徴パラ
メータから波形を合成して作成した。目的信号のスペク
トル形状が高精度で再現されていることが分かる。
FIG. 14 shows the result when noise is continuously mixed in the target signal. The target signal in (a) is a part of the female utterance "Finally," and the target signal added with white noise with an S / N ratio of 20 dB was used as the input signal in (b). The output signal in (c) was created by synthesizing the waveforms from the characteristic parameters extracted from the input signal. It can be seen that the spectral shape of the target signal is reproduced with high accuracy.

【0104】図15は他の音声信号を目的信号に混入し
た場合の分離結果を示す。(a)の目的信号は女性発話
「いよいよ」の一部であり、目的信号にS/N比20dBの
男性発話「うやまう」を付加したものを(b)の入力信号
とした。(c)の出力信号は、入力信号から抽出した特徴
パラメータから波形を合成して作成した。(a)の目的信
号と比較するとスペクトルは若干異なっているものの、
聴感上は問題のないレベルまで目的信号が再現されてい
る。
FIG. 15 shows the separation result when another voice signal is mixed in the target signal. The target signal in (a) is a part of the female utterance "Finally", and the target signal added with the male utterance "Uyamau" with an S / N ratio of 20 dB was used as the input signal in (b). The output signal in (c) was created by synthesizing the waveforms from the characteristic parameters extracted from the input signal. Although the spectrum is slightly different compared to the target signal in (a),
The target signal has been reproduced to a level that is audibly unproblematic.

【0105】以上本発明を特定の実施形態に関して説明
してきたが、本発明はこれらに限定されるものではな
く、種々の変更や代替を行うことができる。例えば、説
明した各実施形態で使用した特徴パラメータは例示のた
めであり、今後の研究で発見される新たな特徴パラメー
タや特徴パラメータ間の関係も本発明において利用する
ことができる。また周波数成分候補点の変化として時間
変化率を用いているが、二次導関数等を用いることもで
きる。
Although the present invention has been described above with reference to specific embodiments, the present invention is not limited to these, and various changes and substitutions can be made. For example, the feature parameters used in each of the described embodiments are for exemplification, and new feature parameters discovered in future research and relationships between feature parameters can also be used in the present invention. Moreover, although the time change rate is used as the change of the frequency component candidate points, a second derivative or the like may be used.

【0106】[0106]

【発明の効果】本発明によれば、混合入力信号のパラメ
ータの時間変化率などの動的特徴量を抽出・利用するこ
とで、非定常な雑音が混在する環境下で目的音をロバス
トに分離することができる。また、予めテンプレートを
用意せずに信号の大局的な特徴と局所的な特徴の評価を
相互作用させながら同時並列的に処理することで、周波
数や振幅が複雑に変化する目的音を柔軟に分離すること
ができる。
According to the present invention, a target sound is robustly separated in an environment in which non-stationary noise is mixed by extracting and utilizing a dynamic feature amount such as a temporal change rate of parameters of a mixed input signal. can do. Also, without preparing a template in advance, the global and local features of the signal can be evaluated in parallel while interacting with each other, so that the target sound with complex frequency and amplitude changes can be separated flexibly. can do.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の第1の実施形態による音分離装置の全
体の構成を示すブロック図である。
FIG. 1 is a block diagram showing an overall configuration of a sound separation device according to a first embodiment of the present invention.

【図2】特徴抽出部の階層構造を示す図である。FIG. 2 is a diagram showing a hierarchical structure of a feature extraction unit.

【図3】特徴抽出部の各階層で行われる処理を示す図で
ある。
FIG. 3 is a diagram showing processing performed in each layer of a feature extraction unit.

【図4】従来の方法と本発明の音分離装置によるピッチ
連続性の検出を説明する図である。
FIG. 4 is a diagram illustrating detection of pitch continuity by a conventional method and the sound separation device of the present invention.

【図5】計算素子による特徴抽出部の構成の一例を示し
た図である。
FIG. 5 is a diagram showing an example of a configuration of a feature extraction unit using a calculation element.

【図6】計算素子の一実施形態を示す図である。FIG. 6 illustrates an embodiment of a computing element.

【図7】計算素子の一実施形態を示す図である。FIG. 7 is a diagram showing an embodiment of a computing element.

【図8】図5に示した特徴抽出部における処理を説明す
るフローチャートである。
FIG. 8 is a flowchart illustrating a process in a feature extraction unit shown in FIG.

【図9】本発明の第2の実施形態による音分離装置の構
成を示すブロック図である。
FIG. 9 is a block diagram showing a configuration of a sound separation device according to a second embodiment of the present invention.

【図10】音源方向の推定を説明するためのグラフであ
る。
FIG. 10 is a graph for explaining estimation of a sound source direction.

【図11】本発明の第3の実施形態による音分離装置の
構成を示すブロック図である。
FIG. 11 is a block diagram showing a configuration of a sound separation device according to a third embodiment of the present invention.

【図12】音源方向の推定を説明するためのグラフであ
る。
FIG. 12 is a graph for explaining estimation of a sound source direction.

【図13】第1の実施形態による音分離装置により音声
信号分離を行った結果を示すスペクトル図である。
FIG. 13 is a spectrum diagram showing a result of audio signal separation performed by the sound separation device according to the first embodiment.

【図14】第1の実施形態による音分離装置により音声
信号分離を行った結果を示すスペクトル図である。
FIG. 14 is a spectrum diagram showing a result of audio signal separation performed by the sound separation device according to the first embodiment.

【図15】第1の実施形態による音分離装置により音声
信号分離を行った結果を示すスペクトル図である。
FIG. 15 is a spectrum diagram showing a result of audio signal separation performed by the sound separation device according to the first embodiment.

【符号の説明】[Explanation of symbols]

100、900、1000 音分離装置 101 信号入力部 102、905、1005 周波数分析部 103、915、1015 特徴抽出部 104、927、1027 信号合成部 106、917、919、1017、1019 局所的特徴抽出層(瞬
時符号化層) 107、923、1023 中間的特徴抽出層(調波性計算層) 108、925、1025 大局的特徴抽出層(ピッチ連続性計
算層) 600 計算素子 601 上位整合性計算部 603 閾値計算部 604 下位整合性計算部 605 閾値比較部 606 パラメータ更新部 901、903、1001、1003 マイク 911、1011 音源方向分析部 921、1021 音源方向推定層
100, 900, 1000 Sound separation device 101 Signal input unit 102, 905, 1005 Frequency analysis unit 103, 915, 1015 Feature extraction unit 104, 927, 1027 Signal synthesis unit 106, 917, 919, 1017, 1019 Local feature extraction layer (Instantaneous coding layer) 107, 923, 1023 Intermediate feature extraction layer (harmonic calculation layer) 108, 925, 1025 Global feature extraction layer (pitch continuity calculation layer) 600 Computation element 601 Upper consistency calculation unit 603 Threshold calculation unit 604 Lower consistency calculation unit 605 Threshold comparison unit 606 Parameter update unit 901, 903, 1001, 1003 Microphone 911, 1011 Sound source direction analysis unit 921, 1021 Sound source direction estimation layer

Claims (12)

【特許請求の範囲】[Claims] 【請求項1】 異なる音源より発せられた音響信号と目
的信号とが混合された混合入力信号から前記目的信号を
分離する音分離装置であって、 前記混合入力信号を周波数分析して各時刻におけるスペ
クトル及び振幅極大点を計算する周波数分析手段と、 前記スペクトル及び振幅極大点を用いて狭域的な特徴パ
ラメータを分析する狭域層と、前記狭域層により抽出さ
れた特徴パラメータを用いて広域的な特徴パラメータを
分析する1つ以上の広域層とを有し、前記目的信号に関
連する特徴パラメータを抽出する特徴抽出手段と、 抽出された特徴パラメータに基づいて前記目的信号を合
成する信号合成手段と、を含む音分離装置。
1. A sound separation device for separating the target signal from a mixed input signal in which acoustic signals emitted from different sound sources and a target signal are mixed, wherein the mixed input signal is frequency-analyzed at each time. Frequency analysis means for calculating a spectrum and an amplitude maximum point, a narrow layer for analyzing a narrow characteristic parameter using the spectrum and the amplitude maximum point, and a wide area using the feature parameter extracted by the narrow layer Characteristic extracting means for extracting characteristic parameters associated with the target signal, the signal synthesizing section synthesizing the target signal based on the extracted characteristic parameters. And a sound separating device including the means.
【請求項2】 前記狭域層及び広域層は、それぞれの層
において分析された特徴パラメータを相互に供給し、該
供給された特徴パラメータに基づいてそれぞれの層の特
徴パラメータを更新する、請求項1に記載の音分離装
置。
2. The narrow and wide layers mutually supply the characteristic parameters analyzed in the respective layers, and update the characteristic parameters of the respective layers based on the supplied characteristic parameters. 1. The sound separation device according to 1.
【請求項3】 前記狭域層は、入力信号に含まれている
周波数成分を構成すべき点の候補点の周波数及びその変
化と、振幅及びその変化を計算する瞬時符号化層であ
る、請求項2に記載の音分離装置。
3. The narrow band layer is an instantaneous coding layer for calculating a frequency of a candidate point that constitutes a frequency component included in an input signal and its change, and an amplitude and its change. Item 2. The sound separation device according to item 2.
【請求項4】 前記広域層は、 前記周波数成分候補点の周波数及びその変化から調波構
造を有する周波数成分候補点をグループ化し、該調波構
造の基本周波数と該調波構造に含まれる高調波及びその
変化を計算する調波性計算層と、 複数の時刻における前記基本周波数及びその変化から信
号の連続性を計算するピッチ連続性計算層と、を含む請
求項2または3に記載の音分離装置。
4. The wide-area layer groups the frequency component candidate points having a harmonic structure based on the frequencies of the frequency component candidate points and their changes, and groups the fundamental frequency of the harmonic structure and the harmonics included in the harmonic structure. The sound according to claim 2, further comprising: a harmonic calculation layer that calculates a wave and its change, and a pitch continuity calculation layer that calculates signal continuity from the fundamental frequency and changes thereof at a plurality of times. Separation device.
【請求項5】 前記広域層は前記混合入力信号を発した
音源の方向を推定する音源方向推定層をさらに含む請求
項3に記載の音分離装置。
5. The sound separation device according to claim 3, wherein the wide area layer further includes a sound source direction estimation layer that estimates a direction of a sound source that has emitted the mixed input signal.
【請求項6】 前記広域層は、 前記周波数成分候補点の周波数及びその変化と前記推定
された音源方向とから調波構造を有する周波数成分候補
点をグループ化し、該調波構造の基本周波数と該調波構
造に含まれる高調波及びその変化を計算する調波性計算
層と、 複数の時刻における前記基本周波数及びその変化から信
号の連続性を計算するピッチ連続性計算層と、を含む請
求項5に記載の音分離装置。
6. The wide-area layer groups frequency component candidate points having a harmonic structure based on the frequency of the frequency component candidate point and its change and the estimated sound source direction, and defines the fundamental frequency of the harmonic structure as a group. And a harmonic continuity calculation layer that calculates harmonics included in the harmonic structure and changes thereof, and a pitch continuity calculation layer that calculates signal continuity from the fundamental frequency and changes thereof at a plurality of times. Item 5. The sound separation device according to item 5.
【請求項7】 前記変化として時間変化率を用いる、請
求項3乃至6の何れか1項に記載の音分離装置。
7. The sound separation device according to claim 3, wherein a time change rate is used as the change.
【請求項8】 前記階層はそれぞれ同様の処理を行って
特徴パラメータを計算する1つまたは複数の計算素子で
構成されており、該計算素子は上位の接続する階層及び
下位の接続する階層に含まれる各計算素子と前記計算し
た特徴パラメータを相互に供給する請求項1乃至7の何
れか1項に記載の音分離装置。
8. The hierarchy is composed of one or a plurality of calculation elements that respectively perform similar processing to calculate a characteristic parameter, and the calculation elements are included in an upper connection layer and a lower connection layer. 8. The sound separation device according to claim 1, wherein the calculated calculation elements and the calculated characteristic parameters are mutually supplied.
【請求項9】 前記計算素子は、上位の接続する階層に
含まれる計算素子より供給された特徴パラメータと前記
計算した特徴パラメータとの間の整合の度合を示す第1
の整合性関数を計算し、下位の接続する階層に含まれる
計算素子より供給された特徴パラメータと前記計算した
特徴パラメータとの間の整合の度合を示す第2の整合性
関数を計算し、それぞれの整合性関数の積で表される妥
当性指標を最大化するように特徴パラメータを更新す
る、請求項8に記載の音分離装置。
9. The first calculation element indicates a degree of matching between the characteristic parameter supplied from the calculation element included in a higher-level connected layer and the calculated characteristic parameter.
And calculating a second consistency function indicating a degree of matching between the feature parameter supplied from the calculation element included in the lower connecting hierarchy and the calculated feature parameter, 9. The sound separation device according to claim 8, wherein the feature parameter is updated so as to maximize the validity index represented by the product of the consistency functions of.
【請求項10】 前記妥当性指標は前記下位の階層に含
まれる計算素子に供給される請求項9に記載の音分離装
置。
10. The sound separation device according to claim 9, wherein the validity index is supplied to a calculation element included in the lower hierarchy.
【請求項11】 前記供給された妥当性指標に基づいて
閾値を計算し前記妥当性指標の値が該閾値を下回ると計
算素子を消滅させる請求項10に記載の音分離装置。
11. The sound separating device according to claim 10, wherein a threshold value is calculated based on the supplied validity index, and the calculation element is extinguished when the value of the validity index falls below the threshold value.
【請求項12】 前記妥当性指標が所定値より大きい場
合には下位の階層に新たな計算素子を生成する請求項1
0に記載の音分離装置。
12. A new calculation element is generated in a lower hierarchy when the validity index is larger than a predetermined value.
The sound separation device according to 0.
JP2001339622A 2001-01-24 2001-11-05 Mixed sound separator Expired - Fee Related JP4119112B2 (en)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2001339622A JP4119112B2 (en) 2001-11-05 2001-11-05 Mixed sound separator
US10/052,309 US7076433B2 (en) 2001-01-24 2002-01-17 Apparatus and program for separating a desired sound from a mixed input sound
DE60221927T DE60221927T2 (en) 2001-01-24 2002-01-23 Device and program for sound coding
EP02001599A EP1227471B1 (en) 2001-01-24 2002-01-23 Apparatus and program for sound encoding
EP07101552A EP1775720B1 (en) 2001-01-24 2002-01-23 Apparatus and program for separating a desired sound from a mixed input sound

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001339622A JP4119112B2 (en) 2001-11-05 2001-11-05 Mixed sound separator

Publications (2)

Publication Number Publication Date
JP2003140671A true JP2003140671A (en) 2003-05-16
JP4119112B2 JP4119112B2 (en) 2008-07-16

Family

ID=19153947

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001339622A Expired - Fee Related JP4119112B2 (en) 2001-01-24 2001-11-05 Mixed sound separator

Country Status (1)

Country Link
JP (1) JP4119112B2 (en)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005048650A1 (en) * 2003-11-17 2005-05-26 Nihon University Signal receiving apparatus and method
WO2005057551A1 (en) * 2003-12-09 2005-06-23 National Institute Of Advanced Industrial Science And Technology Acoustic signal removal device, acoustic signal removal method, and acoustic signal removal program
WO2005057552A1 (en) * 2003-12-09 2005-06-23 National Institute Of Advanced Industrial Science And Technology Acoustic signal removal device, acoustic signal removal method, and acoustic signal removal program
WO2005112007A1 (en) * 2004-05-13 2005-11-24 Fuji Television Network, Inc. Acoustic signal removal device, acoustic signal removal method, and acoustic signal removal program
JP2007017818A (en) * 2005-07-11 2007-01-25 Casio Comput Co Ltd Musical sound controller, and program for musical sound control processing
JP2009002873A (en) * 2007-06-23 2009-01-08 Fuji Tecom Inc Leakage detection device
JP2009109868A (en) * 2007-10-31 2009-05-21 Nagoya Institute Of Technology Sound source localization apparatus
JP2011085904A (en) * 2009-10-15 2011-04-28 Honda Research Inst Europe Gmbh Sound separated from noise with reference information
JP2015179188A (en) * 2014-03-19 2015-10-08 Pioneer DJ株式会社 Voice processor, analysis method for voice processor, and program
JP2015179187A (en) * 2014-03-19 2015-10-08 Pioneer DJ株式会社 Voice processor, musical sound extraction method for voice processor, and program

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005048650A1 (en) * 2003-11-17 2005-05-26 Nihon University Signal receiving apparatus and method
JP4780497B2 (en) * 2003-11-17 2011-09-28 学校法人日本大学 Signal receiving apparatus and method
WO2005057551A1 (en) * 2003-12-09 2005-06-23 National Institute Of Advanced Industrial Science And Technology Acoustic signal removal device, acoustic signal removal method, and acoustic signal removal program
WO2005057552A1 (en) * 2003-12-09 2005-06-23 National Institute Of Advanced Industrial Science And Technology Acoustic signal removal device, acoustic signal removal method, and acoustic signal removal program
WO2005112007A1 (en) * 2004-05-13 2005-11-24 Fuji Television Network, Inc. Acoustic signal removal device, acoustic signal removal method, and acoustic signal removal program
JP2007017818A (en) * 2005-07-11 2007-01-25 Casio Comput Co Ltd Musical sound controller, and program for musical sound control processing
JP4534883B2 (en) * 2005-07-11 2010-09-01 カシオ計算機株式会社 Musical sound control device and musical sound control processing program
JP2009002873A (en) * 2007-06-23 2009-01-08 Fuji Tecom Inc Leakage detection device
JP2009109868A (en) * 2007-10-31 2009-05-21 Nagoya Institute Of Technology Sound source localization apparatus
JP2011085904A (en) * 2009-10-15 2011-04-28 Honda Research Inst Europe Gmbh Sound separated from noise with reference information
JP2015179188A (en) * 2014-03-19 2015-10-08 Pioneer DJ株式会社 Voice processor, analysis method for voice processor, and program
JP2015179187A (en) * 2014-03-19 2015-10-08 Pioneer DJ株式会社 Voice processor, musical sound extraction method for voice processor, and program

Also Published As

Publication number Publication date
JP4119112B2 (en) 2008-07-16

Similar Documents

Publication Publication Date Title
RU2731372C2 (en) Method and system for decomposing an acoustic signal into sound objects, as well as a sound object and use thereof
Gkiokas et al. Music tempo estimation and beat tracking by applying source separation and metrical relations
EP1775720B1 (en) Apparatus and program for separating a desired sound from a mixed input sound
KR20060044629A (en) Isolating speech signals utilizing neural networks
JP2003513339A (en) Signal analysis method and apparatus
JP5127982B2 (en) Music search device
EP2401740A1 (en) Apparatus and method for determining a plurality of local center of gravity frequencies of a spectrum of an audio signal
PL231399B1 (en) Method and system for decomposition acoustic signal into sound objects, the sound object and its application
Roy et al. Precise detection of speech endpoints dynamically: A wavelet convolution based approach
JP4119112B2 (en) Mixed sound separator
CN108369803B (en) Method for forming an excitation signal for a parametric speech synthesis system based on a glottal pulse model
CN107210029A (en) Method and apparatus for handling succession of signals to carry out polyphony note identification
JP3174777B2 (en) Signal processing method and apparatus
Reddy et al. Predominant melody extraction from vocal polyphonic music signal by combined spectro-temporal method
Gong et al. Monaural musical octave sound separation using relaxed extended common amplitude modulation
JP5163606B2 (en) Speech analysis / synthesis apparatus and program
Kirchhoff et al. Towards complex matrix decomposition of spectrograms based on the relative phase offsets of harmonic sounds
JP4513556B2 (en) Speech analysis / synthesis apparatus and program
Ponce de León et al. Instantaneous frequency estimation and representation of the audio signal through Complex Wavelet Additive Synthesis
Abeysekera Multiple pitch estimation of poly-phonic audio signals in a frequency-lag domain using the bispectrum
Borum et al. Additive analysis/synthesis using analytically derived windows
Pelle et al. Robust speech representation of voiced sounds based on synchrony determination with PLLs
JP3223564B2 (en) Pitch extraction method
Kumaraswamy et al. Modified square difference function using fourier series approximation for pitch estimation
JPH1062460A (en) Signal separator

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051018

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051219

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060418

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20060518

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060616

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20060705

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20060804

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080318

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080424

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110502

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110502

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120502

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130502

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees