JP4840423B2 - Audio signal processing apparatus and audio signal processing method - Google Patents

Audio signal processing apparatus and audio signal processing method Download PDF

Info

Publication number
JP4840423B2
JP4840423B2 JP2008232767A JP2008232767A JP4840423B2 JP 4840423 B2 JP4840423 B2 JP 4840423B2 JP 2008232767 A JP2008232767 A JP 2008232767A JP 2008232767 A JP2008232767 A JP 2008232767A JP 4840423 B2 JP4840423 B2 JP 4840423B2
Authority
JP
Japan
Prior art keywords
level
sound source
frequency division
signal
multiplication coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008232767A
Other languages
Japanese (ja)
Other versions
JP2009010996A (en
Inventor
裕司 山田
越 沖本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2008232767A priority Critical patent/JP4840423B2/en
Publication of JP2009010996A publication Critical patent/JP2009010996A/en
Application granted granted Critical
Publication of JP4840423B2 publication Critical patent/JP4840423B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Stereophonic System (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a sound signal processor capable of excellently separating sound signals of a specified sound source selected by a user from sound signals of two systems including sound signals of a plurality of sound sources. <P>SOLUTION: The sound signals of the two systems are divided into a plurality of frequency bands, and a level ratio or a level difference between the sound signals of the two systems in each of the plurality of frequency bands is calculated. A plurality of multiplication coefficient generating sections are provided each for generating a multiplication coefficient corresponding to the calculated level ratio or level difference and corresponding to the sound source to be separated. In accordance with a control signal generated in response to the user's selection of the sound source to be separated, a switch means is controlled to select two of the plurality of multiplication coefficient generating sections. Multiplication coefficients from the selected two multiplication coefficient generating sections are used to output frequency divided spectrums obtained from the sound signals of the two systems, respectively, while controlling the level thereof. <P>COPYRIGHT: (C)2009,JPO&amp;INPIT

Description

この発明は、複数の音源からの音声信号により構成される2系統の入力音声時系列信号から、特定の音源の音声信号を分離するようにする音声信号処理装置および方法に関する。   The present invention relates to an audio signal processing apparatus and method for separating audio signals of a specific sound source from two systems of input audio time series signals composed of audio signals from a plurality of sound sources.

レコードやコンパクトディスク等に記録された左右2チャンネルのステレオ音楽信号の各チャンネルの音声信号には、複数の音源からの音声信号により構成されるものが多数存在する。このようなステレオ音声信号では、2個のスピーカで再生した場合に、前記複数個の音源のそれぞれがスピーカ間に音像として定位するように、レベル差を付加してそれぞれのチャンネルに記録する場合が多い。   Many audio signals of each channel of stereo music signals of two left and right channels recorded on a record, a compact disc, or the like are composed of audio signals from a plurality of sound sources. In such a stereo audio signal, when reproduced by two speakers, a level difference may be added and recorded in each channel so that each of the plurality of sound sources is localized as a sound image between the speakers. Many.

例えば、5個の音源1〜5の信号をS1〜S5とし、これを左右2チャンネルの音声信号SL,SRとして記録する場合に、
SL=S1+0.9S2+0.7S3+0.4S4
SR=S5+0.4S2+0.7S3+0.9S4
のように、各音源1〜5の信号S1〜S5は、左右2チャンネルにおいてレベル差を付けて加算混合して、それぞれのチャンネルの音声信号を形成する。
For example, when recording the signals of five sound sources 1 to 5 as S1 to S5 and recording them as the left and right channel audio signals SL and SR,
SL = S1 + 0.9S2 + 0.7S3 + 0.4S4
SR = S5 + 0.4S2 + 0.7S3 + 0.9S4
As described above, the signals S1 to S5 of the sound sources 1 to 5 are added and mixed with a level difference between the left and right channels to form audio signals of the respective channels.

このようにレベル差が付けられて音源1〜5の信号が左右2チャンネルの音声信号に振り分けられて記録されたステレオ音声信号を、例えば図19に示すように、2個のスピーカ1L、1Rで再生したとする。すると、リスナ2は、各音源1,2,3,4,5に対応した音像A,B,C,D,Eを知覚することができる。また、この音像A,B,C,D,Eは、スピーカ1Lとスピーカ1Rとの間に定位することが知られている。   In this way, a stereo audio signal recorded with the level difference added and the signals of the sound sources 1 to 5 distributed to the left and right channel audio signals is recorded by two speakers 1L and 1R as shown in FIG. 19, for example. Suppose that it was played. Then, the listener 2 can perceive sound images A, B, C, D, and E corresponding to the sound sources 1, 2, 3, 4, and 5, respectively. Further, it is known that the sound images A, B, C, D, and E are localized between the speaker 1L and the speaker 1R.

また、図20に示すように、リスナ2がヘッドホン装置3を装着して、前述した左右2チャンネルのステレオ音声信号を、当該ヘッドホン装置3の左スピーカユニット3Lと、右スピーカユニット3Rとで再生した場合を考える。この場合には、同図に示すように、リスナ2は、各音源1,2,3,4,5に対応した音像A,B,C,D,Eを、頭内に知覚することができる。   Further, as shown in FIG. 20, the listener 2 wears the headphone device 3, and the left and right two-channel stereo audio signals are reproduced by the left speaker unit 3L and the right speaker unit 3R of the headphone device 3. Think about the case. In this case, as shown in the figure, the listener 2 can perceive sound images A, B, C, D, and E corresponding to the sound sources 1, 2, 3, 4, and 5 in the head. .

以上のような一般的な2チャンネルステレオ音声信号から、特定の音源の音声信号だけ分離して出力することができれば、ボーカルの音声のみを抜き出したり、バイオリン等特定の音源の音声のみを抜き出したりすることができ、種々の用途に用いることができる。   If only the sound signal of a specific sound source can be separated and output from the general 2-channel stereo sound signal as described above, only the sound of a vocal or only the sound of a specific sound source such as a violin is extracted. Can be used for various purposes.

このように、2チャンネルステレオ音声信号から、特定の音源の音声信号を分離して出力する方法の一例として、図21に示すような方法が知られている。   As described above, a method shown in FIG. 21 is known as an example of a method for separating and outputting a sound signal of a specific sound source from a two-channel stereo sound signal.

この図21の例では、分離したい音源の音声信号を構成する周波数のエネルギーが大きい部分を取り出すバンドパスフィルタを、分離したい音源に応じて用意する。そして、このバンドパスフィルタにより、分離したい音源の音声信号を、2チャンネルステレオ音声信号から分離する。   In the example of FIG. 21, a band-pass filter for extracting a portion having a large frequency energy constituting the sound signal of the sound source to be separated is prepared according to the sound source to be separated. Then, the sound signal of the sound source to be separated is separated from the two-channel stereo sound signal by this band pass filter.

図21の例は、左チャンネルの音声信号SLから、音源aの音声信号Saと、音源bの音声信号Sbを分離し、右チャンネルの音声信号SRから、音源cの音声信号Scと、音源dの音声信号Sdを分離する場合である。音源分離処理回路7は、音源a〜dのそれぞれに対応する4個のバンドパスフィルタ3〜6からなる。   In the example of FIG. 21, the sound signal Sa of the sound source a and the sound signal Sb of the sound source b are separated from the sound signal SL of the left channel, and the sound signal Sc of the sound source c and the sound source d are separated from the sound signal SR of the right channel. This is a case of separating the audio signal Sd. The sound source separation processing circuit 7 includes four band pass filters 3 to 6 corresponding to the sound sources a to d, respectively.

すなわち、図21に示すように、左チャンネルの音声信号SLは、音源aの音声信号Saを構成する周波数のエネルギーが大きい部分を取り出すバンドパスフィルタ3および音源bの音声信号Sbを構成する周波数のエネルギーが大きい部分を取り出すバンドパスフィルタ4とに供給され、これらバンドパスフィルタ3および4のそれぞれから音声信号SaおよびSbを得るようにする。   That is, as shown in FIG. 21, the audio signal SL of the left channel has a frequency that constitutes the audio signal Sb of the bandpass filter 3 and the audio source b that extract the portion of the frequency energy constituting the audio signal Sa of the audio source a. The band signals are supplied to a band pass filter 4 that extracts a portion with large energy, and audio signals Sa and Sb are obtained from the band pass filters 3 and 4 respectively.

また、右チャンネルの音声信号SRは、音源cの音声信号Scを構成する周波数のエネルギーが大きい部分を取り出すバンドパスフィルタ5および音源dの音声信号Sdを構成する周波数のエネルギーが大きい部分を取り出すバンドパスフィルタ6とに供給され、これらバンドパスフィルタ5および6のそれぞれから音声信号ScおよびSdを得るようにする。   The right channel audio signal SR is a bandpass filter 5 that extracts a portion of the frequency signal constituting the sound signal Sc of the sound source c and a band that extracts a portion of the frequency signal that constitutes the sound signal Sd of the sound source d. The audio signals Sc and Sd are obtained from the band-pass filters 5 and 6, respectively.

参考となる特許文献は、次の通りである。
特表2003−515771号公報
Referenced patent documents are as follows.
Special table 2003-515771 gazette

上述した図21の方法では、例えばベースギターとシンバルなどのように、音源を構成する中心周波数が異なる帯域にある場合は、ある程度、分離することが可能である。しかし、互いに共有する周波数帯域が多い音源同士の場合には、その周波数帯域の重なりや、バンドパスフィルタの選択領域から外れる各音源の高調波を含めて、良好な分離を行うことができないという問題があった。   In the method of FIG. 21 described above, for example, when the center frequency constituting the sound source is in a different band, such as a bass guitar and a cymbal, it can be separated to some extent. However, in the case of sound sources with many frequency bands shared with each other, there is a problem that good separation cannot be performed including the overlapping of the frequency bands and the harmonics of each sound source outside the selected region of the band pass filter. was there.

この発明は、複数の音源の音声信号が含まれている2系統の音声信号から、特定の音源の音声信号を良好に分離することができる音声信号処理装置および方法を提供することを目的とする。   An object of the present invention is to provide an audio signal processing apparatus and method capable of satisfactorily separating an audio signal of a specific sound source from two types of audio signals including audio signals of a plurality of sound sources. .

上記の課題を解決するために発明においては、音声信号処理装置、2系統の時系列音声信号を、それぞれ周波数領域信号に変換する第1および第2の変換手段と、第1の変換手段と第2の変換手段からの周波数領域信号を用いて、対応する周波数分割スペクトル同士のレベル比またはレベル差を算出するレベル算出手段と、それぞれ分離する音源に応じた乗算係数が予め設定され、レベル算出手段からのレベル比またはレベル差の入力に応じて乗算係数を発生する複数の乗算係数発生部と、使用者による分離対象の音源の選択操作に応じて、制御信号を発生する分離音源選択信号発生手段と、分離音源選択信号発生手段からの制御信号に基づいて、複数の乗算係数発生部のうちから、第1および第2の変換手段の出力用とされ、分離対象の音源に応じた乗算係数を発生する2個の乗算係数発生部を選択するスイッチ手段と、スイッチ手段により選択された2個の乗算係数発生部からの乗算係数を用いて、第1の変換手段と第2の変換手段とのそれぞれから得られる周波数領域信号を、周波数分割スペクトルのレベルを制御して出力する出力制御手段と、出力制御手段からの周波数領域信号を、時系列信号に変換する逆変換手段とを設けるようにした Oite the present invention to solve the aforementioned problem, the audio signal processing apparatus, a time-series audio signals of two systems, the first and second converting means for converting the frequency domain signals, respectively, first Level calculation means for calculating the level ratio or level difference between the corresponding frequency division spectra using the frequency domain signals from the conversion means and the second conversion means, and multiplication coefficients corresponding to the sound sources to be separated are preset. A plurality of multiplication coefficient generators for generating a multiplication coefficient in response to an input of a level ratio or a level difference from the level calculation means , and a separation for generating a control signal in accordance with a selection operation of a sound source to be separated by a user a sound source selection signal generating means, based on the control signal from the separation sound source selection signal generating means, from among the multiplier coefficient generating unit of the multiple, is an output of the first and second converting means, separated pairs Switch means for selecting two multiplier coefficient generating unit that occur a multiplication coefficient corresponding to the sound source, using the multiplication factor from the two multiplier coefficient generating unit selected by the switch means, first converting means and the frequency domain signal obtained from each of the second conversion means, and an output control means for outputting the control the level of the frequency spectral, frequency domain signal from the output control unit, the time series signal Inverse conversion means for conversion is provided .

発明においては、各音源の音声信号所定のレベル比あるいはレベル差で、2系統の時系列音声信号に混合されていることを利用する。 In the present invention, the level ratio or level difference of the audio signal of a predetermined sound sources, makes use of the fact that are mixed in time series audio signals of two systems.

したがって本発明では各音源の音声信号が所定のレベル比あるいはレベル差で混合されている2系統の時系列音声信号から、当該レベル比あるいはレベル差を利用して特定の音源の音声信号を良好に分離することができると共に、使用者が分離したい音源を動的に変更することができる。 Therefore, in the present invention , the sound signal of a specific sound source is improved by using the level ratio or level difference from two systems of time series sound signals in which the sound signals of the sound sources are mixed at a predetermined level ratio or level difference. The sound source that the user wants to separate can be dynamically changed.

発明によれば、音声信号処理装置に、2系統の時系列音声信号を、それぞれ周波数領域信号に変換する第1および第2の変換手段と、第1の変換手段と第2の変換手段とからの周波数領域信号を用いて、対応する周波数分割スペクトル同士のレベル比またはレベル差を算出するレベル算出手段と、それぞれ分離する音源に応じた乗算係数が予め設定され、レベル算出手段からのレベル比またはレベル差の入力に応じて乗算係数を発生する複数の乗算係数発生部と、使用者による分離対象の音源の選択操作に応じて、制御信号を発生する分離音源選択信号発生手段と、分離音源選択信号発生手段からの制御信号に基づいて、複数の乗算係数発生部のうちから、第1および第2の変換手段の出力用とされ、分離対象の音源に応じた乗算係数を発生する2個の乗算係数発生部を選択するスイッチ手段と、スイッチ手段により選択された2個の乗算係数発生部からの乗算係数を用いて、第1の変換手段と第2の変換手段とのそれぞれから得られる周波数領域信号を、周波数分割スペクトルのレベルを制御して出力する出力制御手段と、出力制御手段からの周波数領域信号を、時系列信号に変換する逆変換手段とを設けるようにしたことにより、各音源の音声信号が所定のレベル比あるいはレベル差で混合されている2系統の時系列音声信号から、当該レベル比あるいはレベル差を利用して特定の音源の音声信号良好に分離することができると共に、使用者が分離したい音源を動的に変更することができる。 According to the present invention, the audio signal processing device includes the first and second conversion units, the first conversion unit, and the second conversion unit that convert the two time series audio signals into frequency domain signals, respectively. Level calculation means for calculating the level ratio or level difference between the corresponding frequency division spectra using the frequency domain signal from, and the multiplication coefficient corresponding to the sound source to be separated from each other, the level ratio from the level calculation means Alternatively, a plurality of multiplication coefficient generators for generating a multiplication coefficient in response to an input of a level difference, separated sound source selection signal generating means for generating a control signal in accordance with a selection operation of a sound source to be separated by a user, and a separated sound source Based on the control signal from the selection signal generating means, it is used for the output of the first and second conversion means from among a plurality of multiplication coefficient generating sections, and generates a multiplication coefficient corresponding to the sound source to be separated. Each of the first conversion means and the second conversion means using the switching means for selecting the two multiplication coefficient generation sections to be used, and the multiplication coefficients from the two multiplication coefficient generation sections selected by the switching means. Output control means for controlling the frequency-divided spectrum level and outputting the frequency domain signal obtained from the above, and inverse conversion means for converting the frequency domain signal from the output control means into a time-series signal. Accordingly, from the time series audio signals of two systems of audio signals of each sound source are mixed at a predetermined level ratio or level difference, to better separate the audio signal of a specific sound source by using the level ratio or level difference In addition, the sound source that the user wants to separate can be dynamically changed.

以下、この発明による音声信号処理装置および方法の実施形態を、図を参照しながら説明する。   Embodiments of an audio signal processing apparatus and method according to the present invention will be described below with reference to the drawings.

以下の説明においては、前述もした左チャンネル音声信号SLと、右チャンネル音声信号SRとからなるステレオ音声信号から、音源分離する場合について説明する。   In the following description, a description will be given of a case where sound source separation is performed from the stereo audio signal composed of the left channel audio signal SL and the right channel audio signal SR described above.

例えば、左チャンネル音声信号SLと、右チャンネル音声信号SRとに、音源1〜5の音声信号S1〜S5が、次の(式1)および(式2)に示すような割合で、レベル差が付けられて振り分けられて混合されているものとする。   For example, the level difference between the sound signals S1 to S5 of the sound sources 1 to 5 and the left channel sound signal SL and the right channel sound signal SR is as shown in the following (Expression 1) and (Expression 2). It shall be attached, distributed and mixed.

SL=S1+0.9S2+0.7S3+0.4S4 ・・・(式1)
SR=S5+0.4S2+0.7S3+0.9S4 ・・・(式2)
SL = S1 + 0.9S2 + 0.7S3 + 0.4S4 (Formula 1)
SR = S5 + 0.4S2 + 0.7S3 + 0.9S4 (Formula 2)

この(式1)および(式2)を比べると、各音源1〜5の音声信号S1〜S5は、上記のようにレベル差を持って、左チャンネル音声信号SLと右チャンネル音声信号SRとに分配されている。したがって、この分配比率によって、音源を再度、左チャンネル音声信号SLおよび/または右チャンネル音声信号SRとから振り分けることができれば、元の音源は分離できる。   Comparing (Equation 1) and (Equation 2), the audio signals S1 to S5 of the sound sources 1 to 5 have a level difference as described above, and are divided into the left channel audio signal SL and the right channel audio signal SR. Distributed. Therefore, if the sound source can be sorted again from the left channel audio signal SL and / or the right channel audio signal SR by this distribution ratio, the original sound source can be separated.

以下の実施形態においては、各音源が一般的には異なるスペクトラム成分を有していることを利用して、左右2チャンネルステレオ音声信号のそれぞれを十分な解像度を有するFFT処理により周波数領域に変換し、多数個の周波数分割スペクトル成分に分割する。そして、それぞれのチャンネルの音声信号についての、対応する各周波数分割スペクトル同士のレベル比またはレベル差を求める。そして、(式1),(式2)において、分離したい音源の音声信号についての分配比に対応するレベル比またはレベル差となっている周波数分割スペクトルを検出して、当該検出した周波数分割スペクトル成分を分離する。これにより、他の音源からの影響の少ない音源分離を可能にしている。   In the following embodiments, by utilizing the fact that each sound source generally has a different spectrum component, each of the left and right two-channel stereo audio signals is converted into the frequency domain by FFT processing having sufficient resolution. Divide into a number of frequency division spectral components. And the level ratio or level difference of each corresponding frequency division spectrum about the audio | voice signal of each channel is calculated | required. Then, in (Equation 1) and (Equation 2), a frequency division spectrum having a level ratio or level difference corresponding to the distribution ratio for the sound signal of the sound source to be separated is detected, and the detected frequency division spectrum component is detected. Isolate. This enables sound source separation with little influence from other sound sources.

この発明による音声信号の処理装置の実施形態を説明する前に、この発明の実施形態の音声信号の処理装置の実施形態を理解するために参考となる例を、第1〜第4の実施形態として説明する。   Before describing an embodiment of an audio signal processing apparatus according to the present invention, examples to be referred to in order to understand an embodiment of an audio signal processing apparatus according to an embodiment of the present invention are described as first to fourth embodiments. Will be described.

[第1の実施形態の音声信号処理装置の構成]
図1は、第1の実施形態の音声信号処理装置を示すブロック図である。
[Configuration of Audio Signal Processing Device of First Embodiment]
FIG. 1 is a block diagram illustrating an audio signal processing apparatus according to the first embodiment.

2チャンネルステレオ信号のうちの左チャンネル音声信号SLは、直交変換手段の例としてのFFT(Fast Fourier Transform;高速フーリエ変換)部11に供給される。このFFT部11では、信号SLがアナログ信号の時にはデジタル信号に変換された後、FFT処理(高速フーリエ変換)されて、時系列音声信号が周波数領域データに変換される。なお、信号SLがデジタル信号であるときには、FFT部11でのアナログ−デジタル変換は不要であることはいうまでもない。   The left channel audio signal SL of the two-channel stereo signal is supplied to an FFT (Fast Fourier Transform) unit 11 as an example of orthogonal transform means. In the FFT unit 11, when the signal SL is an analog signal, the signal SL is converted into a digital signal, and then subjected to FFT processing (fast Fourier transform) to convert the time-series audio signal into frequency domain data. Needless to say, when the signal SL is a digital signal, the analog-digital conversion in the FFT unit 11 is unnecessary.

一方、2チャンネルステレオ信号のうちの右チャンネル音声信号SRは、直交変換手段の例としてのFFT部12に供給される。そして、このFFT部12で、信号SRがアナログ信号のときにはデジタル信号に変換された後、FFT処理(高速フーリエ変換)されて、時系列音声信号が周波数領域データに変換される。なお、信号SRがデジタル信号であるときには、FFT部12でのアナログ−デジタル変換は不要であることはいうまでもない。   On the other hand, the right channel audio signal SR of the two-channel stereo signal is supplied to the FFT unit 12 as an example of orthogonal transform means. The FFT unit 12 converts the signal SR into a digital signal when the signal SR is an analog signal, and then performs FFT processing (fast Fourier transform) to convert the time-series audio signal into frequency domain data. Needless to say, when the signal SR is a digital signal, the analog-digital conversion in the FFT unit 12 is not necessary.

この例のFFT部11および12は、同様の構成を備え、各時系列信号SL,SRを、互いに異なる複数個の周波数の周波数分割スペクトル成分に分割する。ここで、周波数分割スペクトルとして得る周波数分割数は、音源の分離度の精度に応じた多数とされ、例えば500以上、好ましくは4000以上の周波数分割数とされる。この周波数分割数は、FFT部におけるポイント数に相当する。   The FFT units 11 and 12 of this example have the same configuration, and divide each time series signal SL, SR into frequency division spectrum components of a plurality of different frequencies. Here, the number of frequency divisions obtained as the frequency division spectrum is a large number according to the accuracy of the separation degree of the sound source, for example, 500 or more, preferably 4000 or more. This number of frequency divisions corresponds to the number of points in the FFT section.

各FFT部11およびFFT部12からの周波数分割スペクトル出力F1およびF2は、それぞれ周波数分割スペクトル比較処理部13と、周波数分割スペクトル制御処理部14とに供給される。   The frequency division spectrum outputs F1 and F2 from the FFT units 11 and 12 are supplied to the frequency division spectrum comparison processing unit 13 and the frequency division spectrum control processing unit 14, respectively.

周波数分割スペクトル比較処理部13は、FFT部11およびFFT部12からの周波数分割スペクトル成分F1,F2の、同じ周波数同士のレベル比を算出し、算出したレベル比を周波数分割スペクトル制御処理部14に出力する。   The frequency division spectrum comparison processing unit 13 calculates the level ratio between the same frequencies of the frequency division spectrum components F1 and F2 from the FFT unit 11 and the FFT unit 12, and supplies the calculated level ratio to the frequency division spectrum control processing unit 14. Output.

周波数分割スペクトル制御処理部14は、周波数分割スペクトル比較処理部13からのレベル比の情報を受けて、当該レベル比が所定のものとなっている周波数分割スペクトル成分のみを、FFT部11およびFFT部12の出力の少なくとも一方から抽出する。そして、周波数分割スペクトル制御処理部14は、その抽出結果出力Fexを逆FFT部15に出力する。なお、この例では、周波数分割スペクトル制御処理部14は、レベル比が所定のものとなっている周波数分割スペクトル成分をFFT部11およびFFT部12の出力の両方から抽出して、抽出結果出力Fexとして逆FFT部15に出力する。   The frequency division spectrum control processing unit 14 receives the information of the level ratio from the frequency division spectrum comparison processing unit 13, and converts only the frequency division spectrum components having the predetermined level ratio into the FFT unit 11 and the FFT unit. Extract from at least one of the twelve outputs. Then, the frequency division spectrum control processing unit 14 outputs the extraction result output Fex to the inverse FFT unit 15. In this example, the frequency division spectrum control processing unit 14 extracts the frequency division spectrum component having a predetermined level ratio from both the outputs of the FFT unit 11 and the FFT unit 12, and outputs the extraction result output Fex. Is output to the inverse FFT unit 15.

周波数分割スペクトル制御処理部14では、予め、使用者により、分離すべき音源に応じて、どのようなレベル比の周波数分割スペクトル成分を抽出するかが設定されている。したがって、周波数分割スペクトル制御処理部14からは、使用者が分離したいとして設定されたレベル比で左右2チャンネルに振り分けられている音源の音声信号の周波数分割スペクトル成分のみが抽出されることになる。   In the frequency division spectrum control processing unit 14, the level ratio of the frequency division spectrum component to be extracted is set in advance by the user according to the sound source to be separated. Therefore, the frequency division spectrum control processing unit 14 extracts only the frequency division spectrum components of the sound signal of the sound source that is distributed to the left and right channels at the level ratio that is set to be separated by the user.

逆FFT部15は、周波数分割スペクトル制御処理部14からの抽出結果出力Fexの周波数分割スペクトル成分を元の時系列信号に変換し、その変換出力信号を、使用者が分離したいとして設定した音源の音声信号SOとして出力する。なお、出力音声信号をアナログ信号とする場合には、逆FFT部15の出力側にD/A変換器が設けられて、アナログ音声信号に変換される。以下の実施形態においても同様である。   The inverse FFT unit 15 converts the frequency division spectrum component of the extraction result output Fex from the frequency division spectrum control processing unit 14 into the original time-series signal, and the converted output signal of the sound source set by the user as desired to be separated Output as an audio signal SO. When the output audio signal is an analog signal, a D / A converter is provided on the output side of the inverse FFT unit 15 to convert it to an analog audio signal. The same applies to the following embodiments.

[周波数分割スペクトル比較処理部13の構成]
周波数分割スペクトル比較処理部13は、この例では、機能的には、図2に示すような構成を備える。すなわち、周波数分割スペクトル比較処理部13は、レベル検出部21,22と、レベル比算出部23,24と、セレクタ25とからなる。
[Configuration of Frequency Division Spectrum Comparison Processing Unit 13]
In this example, the frequency division spectrum comparison processing unit 13 is functionally configured as shown in FIG. That is, the frequency division spectrum comparison processing unit 13 includes level detection units 21 and 22, level ratio calculation units 23 and 24, and a selector 25.

レベル検出部21は、FFT部11からの周波数分割スペクトル成分F1のそれぞれの周波数成分のレベルを検出し、その検出出力D1を出力する。また、レベル検出部22は、FFT部12からの周波数分割スペクトル成分F2のそれぞれの周波数成分のレベルを検出し、その検出出力D2を出力する。この例では、各周波数分割スペクトルのレベルは、振幅スペクトルを検出する。なお、各周波数分割スペクトルのレベルとして、パワースペクトルを検出するようにしてもよい。   The level detection unit 21 detects the level of each frequency component of the frequency division spectrum component F1 from the FFT unit 11, and outputs the detection output D1. In addition, the level detection unit 22 detects the level of each frequency component of the frequency division spectrum component F2 from the FFT unit 12, and outputs the detection output D2. In this example, the level of each frequency division spectrum detects an amplitude spectrum. A power spectrum may be detected as the level of each frequency division spectrum.

そして、レベル比算出部23は、D1/D2を算出する。また、レベル比算出部24は、その逆数のD2/D1を算出する。レベル比算出部23およびレベル比算出部24で算出されたレベル比は、セレクタ25に供給され、このセレクタ25から、その一方のレベル比が、出力レベル比rとして取り出される。   Then, the level ratio calculation unit 23 calculates D1 / D2. Further, the level ratio calculation unit 24 calculates D2 / D1 of the reciprocal thereof. The level ratio calculated by the level ratio calculation unit 23 and the level ratio calculation unit 24 is supplied to the selector 25, and one of the level ratios is taken out from the selector 25 as the output level ratio r.

セレクタ25には、分離すべきものとして使用者により設定された音源およびそのレベル比に応じて、レベル比算出部23の出力と、レベル比算出部24の出力のいずれを選択すべきかを選択制御するための選択制御信号SELが供給される。このセレクタ25から得られる出力レベル比rは、周波数分割スペクトル制御処理部14に供給される。   The selector 25 selects and controls which one of the output of the level ratio calculation unit 23 and the output of the level ratio calculation unit 24 should be selected according to the sound source set by the user to be separated and its level ratio. A selection control signal SEL is supplied. The output level ratio r obtained from the selector 25 is supplied to the frequency division spectrum control processing unit 14.

この例においては、周波数分割スペクトル制御処理部14において、分離すべき音源のレベル比として用いられる値は、常に、レベル比r≦1とされている。つまり、周波数分割スペクトル制御処理部14に入力されるレベル比rは、レベルの小さい方の周波数分割スペクトルのレベルを、レベルが大きい方の周波数分割スペクトルのレベルで割ったものとされている。   In this example, the value used as the level ratio of the sound source to be separated in the frequency division spectrum control processing unit 14 is always level ratio r ≦ 1. That is, the level ratio r input to the frequency division spectrum control processing unit 14 is obtained by dividing the level of the frequency division spectrum having the smaller level by the level of the frequency division spectrum having the larger level.

このため、周波数分割スペクトル制御処理部14では、左チャンネルの音声信号SLの方に、より多く含まれるように分配されている音源の信号を分離する場合には、レベル比算出部23からのレベル比算出出力が使用される。逆に、右チャンネルの音声信号SRの方に、より多く含まれるように分配されている音源の信号を分離する場合には、レベル比算出部24からのレベル比算出出力が使用されている。   Therefore, when the frequency division spectrum control processing unit 14 separates the sound source signal distributed so as to be included more in the left channel audio signal SL, the level from the level ratio calculation unit 23 The ratio calculation output is used. On the other hand, when separating the sound source signal distributed so as to be included more in the right channel audio signal SR, the level ratio calculation output from the level ratio calculation unit 24 is used.

例えば、使用者が、分離すべき音源のレベル比として、左チャンネルおよび右チャンネルの信号の分配率の値PL,PR(PL,PRは1以下の値)をそれぞれ設定入力するように定められているものとしたときを考える。この場合、設定された分配率の値PL,PRが、PR/PL≦1であるときには、選択制御信号SELは、セレクタ25からレベル比算出部23の出力(D2/D1)を、出力レベル比rとして選択する選択制御信号とされる。また、設定された分配率の値PL,PRが、PR/PL>1であるときには、選択制御信号SELは、セレクタ25からレベル比算出部24の出力(D1/D2)を、出力レベル比rとして選択する選択制御信号とされる。   For example, it is determined that the user sets and inputs values PL and PR (PL and PR are values of 1 or less) of the left channel and right channel signals as the level ratio of the sound source to be separated. Think of when you are. In this case, when the set distribution ratio values PL and PR are PR / PL ≦ 1, the selection control signal SEL outputs the output (D2 / D1) of the level ratio calculation unit 23 from the selector 25 to the output level ratio. The selection control signal is selected as r. When the set distribution ratio values PL and PR satisfy PR / PL> 1, the selection control signal SEL outputs the output (D1 / D2) of the level ratio calculation unit 24 from the selector 25 to the output level ratio r. As a selection control signal.

なお、使用者により設定された分配率の値PL,PRが互いに等しい(レベル比r=1)ときには、セレクタ25では、レベル比算出部23の出力とレベル比算出部24の出力とのいずれを選択してもよい。   When the distribution ratio values PL and PR set by the user are equal (level ratio r = 1), the selector 25 selects either the output of the level ratio calculation unit 23 or the output of the level ratio calculation unit 24. You may choose.

[周波数分割スペクトル制御処理部14の構成]
周波数分割スペクトル制御処理部14は、この例では、機能的には、図3に示すような構成を備える。すなわち、周波数分割スペクトル制御処理部14は、乗算係数発生部31と、音源分離部32とからなる。そして、音源分離部32は、乗算部33および34と、加算部35とからなる。
[Configuration of Frequency Division Spectrum Control Processing Unit 14]
In this example, the frequency division spectrum control processing unit 14 is functionally configured as shown in FIG. That is, the frequency division spectrum control processing unit 14 includes a multiplication coefficient generation unit 31 and a sound source separation unit 32. The sound source separation unit 32 includes multiplication units 33 and 34 and an addition unit 35.

乗算部33には、FFT部11からの周波数分割スペクトル成分が供給されると共に、乗算係数発生部31からの乗算係数wが供給され、両者の乗算結果が、この乗算部33から加算部35に供給される。また、乗算部34には、FFT部12からの周波数分割スペクトル成分が供給されると共に、乗算係数発生部31からの乗算係数wが供給され、両者の乗算結果が、この乗算部34から加算部35に供給される。そして、加算部35の出力は、周波数分割スペクトル制御処理部14の出力Fexとされる。   The multiplication unit 33 is supplied with the frequency division spectrum component from the FFT unit 11 and the multiplication coefficient w from the multiplication coefficient generation unit 31, and the multiplication result of both is supplied from the multiplication unit 33 to the addition unit 35. Supplied. In addition, the frequency division spectrum component from the FFT unit 12 is supplied to the multiplication unit 34, and the multiplication coefficient w from the multiplication coefficient generation unit 31 is supplied. 35. The output of the adding unit 35 is the output Fex of the frequency division spectrum control processing unit 14.

乗算係数発生部31は、周波数分割スペクトル比較処理部13のセレクタ25からの出力レベル比rの出力を受けて、当該レベル比rに応じた乗算係数wを発生する。乗算係数発生部31は、例えば、レベル比rを変数とした乗算係数wに関する関数発生回路により構成される。乗算係数発生部31に使用する関数として、どのような関数が選ばれるかは、分離すべき音源に応じて使用者により設定された分配率の値PL,PRによる。   The multiplication coefficient generator 31 receives the output of the output level ratio r from the selector 25 of the frequency division spectrum comparison processor 13 and generates a multiplication coefficient w according to the level ratio r. The multiplication coefficient generation unit 31 is configured by a function generation circuit related to the multiplication coefficient w with the level ratio r as a variable, for example. Which function is selected as the function used for the multiplication coefficient generator 31 depends on the distribution ratio values PL and PR set by the user in accordance with the sound source to be separated.

乗算係数発生部31に供給されるレベル比rは、周波数分割スペクトルの各周波数成分単位で変化するものであるので、乗算係数発生部31からの乗算係数wも、周波数分割スペクトルの各周波数成分単位で変化することになる。   Since the level ratio r supplied to the multiplication coefficient generation unit 31 changes in units of each frequency component of the frequency division spectrum, the multiplication coefficient w from the multiplication coefficient generation unit 31 is also set in each frequency component unit of the frequency division spectrum. Will change.

したがって、乗算部33では、FFT部11からの各周波数分割スペクトルのレベルが、乗算係数wにより制御され、また、乗算部34では、FFT部12からの各周波数分割スペクトルのレベルが、乗算係数wにより制御される。   Therefore, in the multiplication unit 33, the level of each frequency division spectrum from the FFT unit 11 is controlled by the multiplication coefficient w, and in the multiplication unit 34, the level of each frequency division spectrum from the FFT unit 12 is changed to the multiplication coefficient w. Controlled by

図4に、乗算係数発生部31としての関数発生回路に用いられる関数の例を示す。例えば、前記(式1)および(式2)で示された左右2チャンネルの音声信号SLおよびSRから、左右チャンネルの音像間の中央に定位する音源の音声信号S3を分離する場合には、乗算係数発生部31としては、図4(a)に示されるような特性の関数発生回路が用いられる。   FIG. 4 shows an example of a function used in a function generation circuit as the multiplication coefficient generation unit 31. For example, when separating the sound signal S3 of the sound source localized in the center between the sound images of the left and right channels from the sound signals SL and SR of the left and right channels shown in the above (Expression 1) and (Expression 2), multiplication is performed. As the coefficient generating unit 31, a function generating circuit having characteristics as shown in FIG.

図4(a)の関数の特性は、左右チャンネルのレベル比rが1、あるいは1に近い場合、つまり、左右チャンネルが同レベルあるいは同レベルに近い周波数分割スペクトル成分では、乗算係数wは1あるいは1近傍となる。そして、この場合には、左右チャンネルのレベル比rが約0.6以下の領域では、乗算係数wは0となっている。   The characteristic of the function of FIG. 4 (a) is that when the level ratio r of the left and right channels is 1 or close to 1, that is, in the frequency division spectrum component where the left and right channels are the same level or close to the same level, 1 vicinity. In this case, the multiplication coefficient w is 0 in a region where the level ratio r of the left and right channels is about 0.6 or less.

したがって、セレクタ25からのレベル比rが1、または1近傍となっている周波数分割スペクトル成分に対する乗算係数wは1、あるいは1に近い値となる。このため、乗算部33および34からは、当該周波数分割スペクトル成分は、ほぼそのままのレベルで出力される。一方、セレクタ25からのレベル比rが、約0.6以下の値となっている周波数分割スペクトル成分に対する乗算係数wは0となるので、乗算部33および34からは、当該周波数分割スペクトル成分は、出力レベルが0とされて、出力されなくなる。   Therefore, the multiplication coefficient w for the frequency division spectrum component for which the level ratio r from the selector 25 is 1 or close to 1 is 1 or a value close to 1. Therefore, the frequency division spectrum components are output from the multipliers 33 and 34 at almost the same level. On the other hand, since the multiplication coefficient w for the frequency division spectrum component for which the level ratio r from the selector 25 is about 0.6 or less is 0, the multiplication units 33 and 34 indicate that the frequency division spectrum component is The output level is set to 0 and no output is made.

すなわち、乗算部33および34からは、多数個の周波数分割スペクトル成分のうち、左右同レベルおよびその近傍となっている周波数分割スペクトル成分は、ほぼそのままのレベルで出力される。そして、左右チャンネルのレベル差が大きい周波数分割スペクトル成分は、出力レベルが0とされて出力されなくなる。この結果、左右2チャンネルの音声信号SL,SRに同レベルで分配された音源の音声信号S3の周波数分割スペクトル成分のみが加算部35から得られることになる。   That is, from the multiple frequency division spectrum components, the left and right same level and the frequency division spectrum components in the vicinity thereof are output from the multiplication units 33 and 34 at almost the same level. Then, the frequency division spectrum component having a large level difference between the left and right channels is set to an output level of 0 and is not output. As a result, only the frequency division spectrum component of the sound signal S3 of the sound source distributed at the same level to the left and right channel sound signals SL and SR is obtained from the adder 35.

また、例えば、前記(式1)および(式2)で示された左右2チャンネルの音声信号SLおよびSRから、左右チャンネルの一方側にのみ定位する音源の音声信号S1またはS5を分離する場合には、乗算係数発生部31としては、図4(b)に示されるような特性の関数発生回路が用いられる。   Also, for example, when the sound signal S1 or S5 of the sound source localized only on one side of the left and right channels is separated from the left and right channel audio signals SL and SR shown in the (Expression 1) and (Expression 2). As the multiplication coefficient generation unit 31, a function generation circuit having characteristics as shown in FIG. 4B is used.

この場合において、この実施形態においては、音声信号S1を分離する場合には、使用者は、分離する音源に対する左右分配率PL:PR=1:0を設定入力する。あるいは、PL=1、PR=0のように設定入力する。このように使用者が設定すると、セレクタ25には、レベル比算出部23からのレベル比を選択するように制御する選択制御信号SELが与えられる。   In this case, in this embodiment, when the audio signal S1 is separated, the user sets and inputs the left / right distribution ratio PL: PR = 1: 0 for the sound source to be separated. Alternatively, settings are input such that PL = 1 and PR = 0. When the user sets in this way, the selector 25 is given a selection control signal SEL for controlling to select the level ratio from the level ratio calculator 23.

一方、音声信号S5を分離する場合には、使用者は、分離する音源に対する左右分配率PL:PR=0:1を設定入力する。あるいは、PL=0、PR=1のように設定入力する。このように使用者が設定すると、セレクタ25には、レベル比算出部24からのレベル比を選択するように制御する選択制御信号SELが与えられる。   On the other hand, when the audio signal S5 is separated, the user inputs the setting of the left / right distribution ratio PL: PR = 0: 1 for the sound source to be separated. Alternatively, settings are input such that PL = 0 and PR = 1. When the user sets in this way, the selector 25 is given a selection control signal SEL for controlling to select the level ratio from the level ratio calculation unit 24.

図4(b)の関数の特性は、左右チャンネルのレベル比rが0、あるいは0近傍の周波数分割スペクトル成分では、乗算係数wは1あるいは1近傍の値となり、左右チャンネルのレベル比rが約0.4以上の領域では、乗算係数wは0となっている。   The characteristic of the function of FIG. 4B is that the frequency ratio spectrum component in which the level ratio r of the left and right channels is 0 or near 0, the multiplication coefficient w is 1 or a value in the vicinity of 1, and the level ratio r of the left and right channels is about In the region of 0.4 or more, the multiplication coefficient w is 0.

したがって、セレクタ25からのレベル比rが0、または0近傍となっている周波数分割スペクトル成分に対する乗算係数wは1、あるいは1に近い値となる。このため、乗算部33および34からは、当該周波数分割スペクトル成分は、ほぼそのままのレベルで出力される。一方、セレクタ25からのレベル比rが、約0.4以上の値となっている周波数分割スペクトル成分に対する乗算係数wは0となるので、乗算部33および34からは、当該周波数分割スペクトル成分は、出力レベルが0とされて、出力されなくなる。   Therefore, the multiplication coefficient w for the frequency division spectrum component in which the level ratio r from the selector 25 is 0 or close to 0 is 1 or a value close to 1. Therefore, the frequency division spectrum components are output from the multipliers 33 and 34 at almost the same level. On the other hand, since the multiplication coefficient w for the frequency division spectrum component in which the level ratio r from the selector 25 is about 0.4 or more is 0, the multiplication units 33 and 34 indicate that the frequency division spectrum component is The output level is set to 0 and no output is made.

すなわち、乗算部33および34からは、多数個の周波数分割スペクトル成分のうち、左右チャンネルの一方が他方に比べて非常に大きいレベルとなっている周波数分割スペクトル成分は、ほぼそのままのレベルで出力される。そして、左右チャンネルのレベル差が少ない周波数分割スペクトル成分は、出力レベルが0とされて出力されなくなる。この結果、左右2チャンネルの音声信号SL,SRの一方にしか分配されていない音源の音声信号S1またはS5の周波数分割スペクトル成分のみが加算部35から得られることになる。   That is, from the multiple frequency division spectral components, the frequency division spectral components in which one of the left and right channels is at a very large level compared to the other of the many frequency division spectral components are output at almost the same level. The Then, the frequency division spectrum component having a small level difference between the left and right channels is set to an output level of 0 and is not output. As a result, only the frequency division spectrum component of the sound signal S1 or S5 of the sound source that is distributed to only one of the left and right two-channel sound signals SL and SR is obtained from the adder 35.

また、例えば、前記(式1)および(式2)で示された左右2チャンネルの音声信号SLおよびSRから、左右チャンネルに所定のレベル差を持って配分されている音源の音声信号S2またはS4を分離する場合には、乗算係数発生部31としては、図4(c)に示されるような特性の関数発生回路が用いられる。   Further, for example, the sound signal S2 or S4 of the sound source distributed with a predetermined level difference to the left and right channels from the sound signals SL and SR of the left and right channels shown in the (Expression 1) and (Expression 2). 4 is used as the multiplication coefficient generator 31 as a function generating circuit having characteristics as shown in FIG.

すなわち、音声信号S2は、D2/D1(=SR/SL)=0.4/0.9=0.44のレベル比で、左右チャンネルに分配されている。また、音声信号S4は、D1/D2(=SL/SR)=0.4/0.9=0.44のレベル比で、左右チャンネルに分配されている。   That is, the audio signal S2 is distributed to the left and right channels at a level ratio of D2 / D1 (= SR / SL) = 0.4 / 0.9 = 0.44. The audio signal S4 is distributed to the left and right channels at a level ratio of D1 / D2 (= SL / SR) = 0.4 / 0.9 = 0.44.

この場合において、この実施形態においては、音声信号S2を分離する場合には、使用者は、分離する音源に対する左右分配率PL:PR=0.9:0.4を設定入力する。あるいは、PL=0.9、PR=0.4のように設定入力する。このように使用者が設定すると、PR/PL<1であるので、セレクタ25には、レベル比算出部23からのレベル比を選択するように制御する選択制御信号SELが与えられる。   In this case, in this embodiment, when the audio signal S2 is separated, the user sets and inputs the left / right distribution ratio PL: PR = 0.9: 0.4 for the sound source to be separated. Alternatively, settings are input such that PL = 0.9 and PR = 0.4. When the user sets in this way, since PR / PL <1, the selector 25 is supplied with a selection control signal SEL for controlling to select the level ratio from the level ratio calculator 23.

一方、音声信号S4を分離する場合には、使用者は、分離する音源に対する左右分配率PL:PR=0.4:0.9を設定入力する。あるいは、PL=0.4、PR=0.9のように設定入力する。このように使用者が設定すると、PR/PL>1であるので、セレクタ25には、レベル比算出部24からのレベル比を選択するように制御する選択制御信号SELが与えられる。   On the other hand, when the audio signal S4 is separated, the user inputs the setting of the left / right distribution ratio PL: PR = 0.4: 0.9 for the sound source to be separated. Alternatively, settings are input such that PL = 0.4 and PR = 0.9. Since the PR / PL> 1 is set by the user in this way, the selector 25 is given a selection control signal SEL for controlling to select the level ratio from the level ratio calculation unit 24.

図4(c)の関数の特性は、左右チャンネルのレベル比rが、D2/D1(=PR/PL)=0.4/0.9=0.44では1、あるいはレベル比rが0.44に近い周波数分割スペクトル成分では、乗算係数wは1あるいは1近傍となる。そして、左右チャンネルのレベル比rが約0.44近傍以外の領域では、乗算係数wは0となっている。   The characteristic of the function of FIG. 4C is that the level ratio r of the left and right channels is 1 when D2 / D1 (= PR / PL) = 0.4 / 0.9 = 0.44, or the level ratio r is 0. For frequency division spectral components close to 44, the multiplication coefficient w is 1 or close to 1. The multiplication coefficient w is 0 in a region where the level ratio r of the left and right channels is not in the vicinity of about 0.44.

したがって、セレクタ25からのレベル比rが0.44、または0.44近傍となっている周波数分割スペクトル成分に対する乗算係数wは1、あるいは1に近い値となる。このため、乗算部33および34からは、当該周波数分割スペクトル成分が、ほぼそのままのレベルで出力される。   Therefore, the multiplication coefficient w for the frequency division spectrum component in which the level ratio r from the selector 25 is 0.44 or in the vicinity of 0.44 is 1 or a value close to 1. Therefore, the frequency division spectrum components are output from the multiplication units 33 and 34 at almost the same level.

一方、セレクタ25からのレベル比rが、約0.44近傍以下の値および約0.44近傍以上の値となっている周波数分割スペクトル成分に対する乗算係数wは0となる。したがって、乗算部33および34からは、当該周波数分割スペクトル成分は、出力レベルが0とされて、出力されなくなる。   On the other hand, the multiplication coefficient w for the frequency division spectrum component in which the level ratio r from the selector 25 is a value below about 0.44 and a value above about 0.44 is zero. Therefore, the frequency division spectrum components are not output from the multipliers 33 and 34 because the output level is 0.

すなわち、乗算部33および34からは、多数個の周波数分割スペクトル成分のうち、左右チャンネルのレベル比が0.44またはその近傍となっている周波数分割スペクトル成分は、ほぼそのままのレベルで出力される。そして、左右チャンネルのレベル比rが、約0.44近傍以下の値および約0.44近傍以上の値となっている周波数分割スペクトル成分は、出力レベルが0とされて出力されなくなる。   That is, from the multiple frequency division spectrum components, the frequency division spectrum components whose level ratio of the left and right channels is 0.44 or in the vicinity thereof are output from the multiplication units 33 and 34 at almost the same level. . The frequency division spectrum component in which the level ratio r of the left and right channels is a value below about 0.44 and a value above about 0.44 is set to an output level of 0 and is not output.

この結果、左右2チャンネルの音声信号SL,SRに、レベル比が0.44で分配された音源の音声信号S2またはS4の周波数分割スペクトル成分のみが加算部35から得られることになる。   As a result, only the frequency division spectrum component of the sound signal S2 or S4 of the sound source distributed at the level ratio of 0.44 to the left and right two-channel sound signals SL and SR is obtained from the adder 35.

以上のようにして、この実施形態によれば、左右2チャンネルに、所定の分配比率で分配された音源の音声信号を、その分配比率に基づいて、当該2チャンネルの音声信号から分離することができる。   As described above, according to this embodiment, the sound signal of the sound source distributed to the left and right channels at a predetermined distribution ratio can be separated from the sound signal of the two channels based on the distribution ratio. it can.

この場合に、上述の実施形態では、分離したい音源の音声信号は、2チャンネルの音声信号の両方から抽出するようにしたが、必ずしも両チャンネルから分離抽出する必要はなく、一方のチャンネルのみから分離抽出するようにしてもよい。   In this case, in the above-described embodiment, the sound signal of the sound source to be separated is extracted from both of the two-channel sound signals. However, it is not always necessary to separate and extract from both channels, but only from one channel. You may make it extract.

また、上述の実施形態では、2系統の音声信号に対して分配された音源の信号のレベル比に基づいて、当該2系統の音声信号から前記音源の信号を分離するようにした。しかし、前記音源の信号の、2系統の音声信号に対するレベル差に基づいて、当該音源の信号を当該2系統の音声信号の少なくとも一方から分離抽出するようにすることもできる。   In the above-described embodiment, the sound source signal is separated from the two audio signals based on the level ratio of the sound source signals distributed to the two audio signals. However, the sound source signal may be separated and extracted from at least one of the two systems of sound signals based on the level difference between the sound source signals and the two systems of sound signals.

なお、以上の説明では、各音源が(式1)、(式2)に従って左右チャンネルに分配された左右2チャンネルステレオ信号を例にして説明した。しかし、意図的に分配されない通常のステレオ音楽信号においても、図4に示した関数の選択特性に従って該当する音源を分離することができる。   In the above description, the left and right two-channel stereo signals in which each sound source is distributed to the left and right channels according to (Equation 1) and (Equation 2) have been described as an example. However, even in a normal stereo music signal that is not intentionally distributed, the corresponding sound source can be separated according to the selection characteristic of the function shown in FIG.

また、例えば、他の例では図4(d),(e)等の様に、関数を変えることにより、分離するレベル比範囲を変える、広くする、狭くするなど、異なる音源選択性を持たせることもできる。   In another example, as shown in FIGS. 4D, 4E, etc., by changing the function, the level ratio range to be separated is changed, widened, narrowed, etc., so as to have different sound source selectivity. You can also

音源のスペクトラム構成に関しても、多くのステレオ音楽信号は異なるスペクトラムを持つ音源から構成されるが、それらの音源についても、上述と同様にして分離することが可能となる。   With regard to the spectrum configuration of the sound source, many stereo music signals are composed of sound sources having different spectra, but these sound sources can also be separated in the same manner as described above.

また、スペクトラム重複部が多い音源同士に関しても、FFT部11,12における周波数分解能を上げることにより、例えば4000ポイント以上のFFT回路を用いることにより、音源分離の質を更に向上させることができる。   In addition, even for sound sources having many spectrum overlapping portions, the quality of sound source separation can be further improved by increasing the frequency resolution in the FFT units 11 and 12, for example, by using an FFT circuit of 4000 points or more.

[第2の実施形態の音声信号処理装置の構成]
上述した第1の実施形態では、2系統の音声信号、上述の例では、左右2チャンネルステレオ信号SL,SRから、所定のレベル比あるいはレベル差を持って分配された1つの音源の音声信号を、少なくとも前記2系統の音声信号の一方から分離抽出するようにした。
[Configuration of Audio Signal Processing Device of Second Embodiment]
In the first embodiment described above, the sound signal of one sound source distributed with a predetermined level ratio or level difference from the two audio signals, in the above example, the left and right two-channel stereo signals SL and SR. In addition, it is separated and extracted from at least one of the two audio signals.

以下に説明する第2の実施形態では、2系統の音声信号から1つの音源の音声信号のみを分離抽出するのではなく、2系統の音声信号に所定のレベル比あるいはレベル差を持って分配されている複数個の音源の音声信号を、同時に、分離抽出するように構成する。   In the second embodiment described below, instead of separating and extracting only the sound signal of one sound source from the two sound signals, the sound signals are distributed to the two sound signals with a predetermined level ratio or level difference. The audio signals of a plurality of sound sources are separated and extracted at the same time.

図5は、この第2の実施形態の音声信号処理装置の構成例を示すもので、図1の第1の実施形態に対応する部分には、同一符号を付してある。ただし、この例では、周波数分割スペクトル比較処理部13および周波数分割スペクトル制御処理部14の構成が、複数個の音源の音声信号を分離するための構成とされて図1に示した第1の実施形態とは異なる。また、逆FFT部は、分離抽出する出力数だけ設けられる。   FIG. 5 shows an example of the configuration of the audio signal processing apparatus according to the second embodiment. Parts corresponding to those of the first embodiment shown in FIG. However, in this example, the configurations of the frequency division spectrum comparison processing unit 13 and the frequency division spectrum control processing unit 14 are configured to separate audio signals of a plurality of sound sources, and the first implementation shown in FIG. Different from form. In addition, as many inverse FFT units as the number of outputs to be separated and extracted are provided.

図6は、この第2の実施形態における周波数分割スペクトル比較処理部13と、周波数分割スペクトル制御処理部14の部分の内部構成例を示すものである。   FIG. 6 shows an internal configuration example of the frequency division spectrum comparison processing unit 13 and the frequency division spectrum control processing unit 14 in the second embodiment.

この第2の実施形態における周波数分割スペクトル比較処理部13は、前述した第1の実施形態と同様にして、レベル検出部21および22、レベル比算出部23および24を備えている。そして、これらレベル比算出部23および24において、FFT部11および12からの各周波数分割スペクトル成分のレベル比D2/D1およびD1/D2を検出する。そして、この例においては、各レベル比算出部23および24からのレベル比検出出力は、分離する音源の数に等しい数の複数個のセレクタ251,252、・・・25nにそれぞれ供給される。   The frequency division spectrum comparison processing unit 13 in the second embodiment includes level detection units 21 and 22 and level ratio calculation units 23 and 24 as in the first embodiment described above. Then, the level ratio calculation units 23 and 24 detect the level ratios D2 / D1 and D1 / D2 of each frequency division spectrum component from the FFT units 11 and 12. In this example, the level ratio detection outputs from the level ratio calculation units 23 and 24 are respectively supplied to a plurality of selectors 251, 252,... 25n equal to the number of sound sources to be separated.

これら複数個のセレクタ251,252、・・・25nのそれぞれには、分離したい音源の音声信号の左右2チャンネルへの分配率に応じて、レベル比算出部23および24からのレベル比検出出力の一方を選択するための選択制御信号SEL1、SEL2、・・・、SELnが供給される。すなわち、前述したように、選択制御信号SEL1、SEL2、・・・、SELnは、分離したい音源の音声信号がより多く分配されているチャンネル側のレベルが分母となるレベル比をセレクタ251,252、・・・25nのそれぞれが選択するような信号とされる。   Each of the plurality of selectors 251, 252,... 25n receives level ratio detection outputs from the level ratio calculation units 23 and 24 according to the distribution ratio of the sound signal of the sound source to be separated to the left and right channels. Selection control signals SEL1, SEL2,..., SELn for selecting one are supplied. That is, as described above, the selection control signals SEL1, SEL2,..., SELn have the level ratios with selectors 251, 252,. ... 25n is selected.

周波数分割スペクトル制御処理部14は、分離する音源の数に等しい数の複数個の乗算係数発生部311,312,・・・,31nおよび音源分離部321,322,・・・,32nを備える。そして、周波数分割スペクトル比較処理部13の複数個のセレクタ251,252、・・・25nのそれぞれからのレベル比r1、r2、・・・、rnが、乗算係数発生部311,312,・・・,31nの対応するものにそれぞれ供給される。   The frequency division spectrum control processing unit 14 includes a plurality of multiplication coefficient generation units 311, 312,..., 31 n equal to the number of sound sources to be separated and sound source separation units 321, 322,. The level ratios r1, r2,..., Rn from the plurality of selectors 251, 252,... 25n of the frequency division spectrum comparison processing unit 13 are the multiplication coefficient generation units 311, 312,. , 31n respectively.

乗算係数発生部311,312,・・・,31nのそれぞれには、前述の第1の実施形態と同様に、分離したい音源の音声信号の左右2チャンネル音声信号への分配比に対応した、レベル比に対する乗算係数の関数(前述の図4の関数例参照)が設定とされる。   Each of the multiplication coefficient generators 311, 312,..., 31n has a level corresponding to the distribution ratio of the sound signal of the sound source to be separated to the left and right two-channel sound signals, as in the first embodiment. A function of a multiplication coefficient with respect to the ratio (see the function example in FIG. 4 described above) is set.

したがって、これら乗算係数発生部311,312,・・・,31nのそれぞれからは、セレクタ251,252、・・・25nのそれぞれからのレベル比r1、r2、・・・、rnのそれぞれに応じた乗算係数であって、分離する音源の音声信号に応じた乗算係数w1、w2、・・・、wnが発生する。これら乗算係数発生部311,312,・・・,31nからの乗算係数w1、w2、・・・、wnのそれぞれは、音源分離部321,322,・・・,32nのそれぞれに供給される。   Therefore, the multiplication factor generators 311, 312,..., 31n correspond to the level ratios r1, r2,..., Rn from the selectors 251, 252,. Multiplication coefficients w1, w2,..., Wn corresponding to the sound signal of the sound source to be separated are generated. The multiplication coefficients w1, w2,..., Wn from the multiplication coefficient generation units 311, 312,..., 31n are supplied to the sound source separation units 321, 322,.

音源分離部321,322,・・・,32nのそれぞれは、前述の音源分離部32と同様に、出力F1およびF2のそれぞれと、乗算係数とを乗算する乗算部33および34と、両乗算部33,34の出力を加算する加算部35とを備える構成を有している。   Each of the sound source separation units 321, 322,..., 32 n is similar to the sound source separation unit 32 described above, and each of the multiplication units 33 and 34 that multiplies each of the outputs F 1 and F 2 by a multiplication coefficient, and both multiplication units. And an adder 35 that adds the outputs of 33 and 34.

音源分離部321,322,・・・,32nのそれぞれの乗算部33,34からは、それぞれ分離したい音源の音声信号の左右2チャンネル音声信号への分配比、あるいはその近傍のレベル比となっている周波数分割スペクトル成分が、ほぼそのままのレベルで出力される。そして、乗算部33,34からの、その他の周波数分割スペクトル成分は、小レベルあるいはレベル0とされる。この結果、音源分離部321,322,・・・,32nのそれぞれからは、それぞれ分離を希望する音源の周波数分割スペクトル成分の抽出出力Fex1、Fex2、・・・、Fexnが得られる。   From the multipliers 33 and 34 of the sound source separation units 321, 322,..., 32n, the distribution ratio of the sound signal of the sound source to be separated to the left and right two-channel sound signals, or the level ratio in the vicinity thereof is obtained. The existing frequency division spectrum component is output at almost the same level. The other frequency division spectrum components from the multipliers 33 and 34 are set to a small level or level 0. As a result, extraction outputs Fex1, Fex2,..., Fexn of the frequency division spectrum components of the sound sources desired to be separated are obtained from the sound source separation units 321, 322,.

そして、音源分離部321,322,・・・,32nからの抽出出力Fex1、Fex2、・・・、Fexnのそれぞれが、対応する逆FFT部151,152、・・・、15nに供給される。この逆FFT部151,152、・・・、15nで、抽出出力Fex1、Fex2、・・・、Fexnのそれぞれが、元の時系列信号としての音声信号に戻され、分離された音源の音声信号出力SO1,SO2,・・・,SOnとして出力される。   Then, the extracted outputs Fex1, Fex2,..., Fexn from the sound source separation units 321, 322,..., 32n are supplied to the corresponding inverse FFT units 151, 152,. In the inverse FFT units 151, 152,..., 15n, the extracted outputs Fex1, Fex2,..., Fexn are returned to the original audio signals as time series signals, and the audio signals of the separated sound sources are separated. Output as SO1, SO2,..., SOn.

[第3の実施形態の音声信号処理装置の構成]
この第3の実施形態は、左右2チャンネルの音声信号の、それぞれのチャンネルの音声信号SL,SRから、同じ音源の音声信号あるいは異なる音源の音声信号を分離抽出する場合の例である。
[Configuration of Audio Signal Processing Device According to Third Embodiment]
The third embodiment is an example in the case where the audio signals of the same sound source or the audio signals of different sound sources are separated and extracted from the audio signals SL and SR of the respective left and right channel audio signals.

図7は、この第3の実施形態の音声信号処理装置の構成例を示すブロック図である。この例においても、FFT部11および12からの周波数分割スペクトル成分からなる出力F1およびF2は、周波数分割スペクトル比較処理部13および周波数分割スペクトル制御処理部14に供給される。   FIG. 7 is a block diagram showing a configuration example of the audio signal processing device according to the third embodiment. Also in this example, the outputs F1 and F2 comprising the frequency division spectrum components from the FFT units 11 and 12 are supplied to the frequency division spectrum comparison processing unit 13 and the frequency division spectrum control processing unit 14.

そして、周波数分割スペクトル制御処理部14からは、後述するように、左チャンネルの音声信号SLから抽出された所定の音源の音声信号の周波数分割スペクトル成分出力FexLと、右チャンネルの音声信号SRから抽出された所定の音源の音声信号の周波数分割スペクトル成分出力FexRとが得られ、それぞれ逆FFT部15Lおよび15Rに供給されて、元の時系列の音声信号に戻され、この逆FFT部15Lおよび15Rから所定の音源の出力音声信号SOLおよびSORとして導出される。   Then, as described later, the frequency division spectrum control processing unit 14 extracts the frequency division spectrum component output FexL of the audio signal of the predetermined sound source extracted from the audio signal SL of the left channel and the audio signal SR of the right channel. The frequency division spectrum component output FexR of the sound signal of the predetermined sound source is obtained, supplied to the inverse FFT units 15L and 15R, respectively, and returned to the original time-series audio signal, and the inverse FFT units 15L and 15R Are derived as output sound signals SOL and SOR of a predetermined sound source.

この第3の実施形態における周波数分割スペクトル比較処理部13は、前述した第1の実施形態と同様にして、レベル検出部21および22、レベル比算出部23および24を備えている。そして、周波数分割スペクトル比較処理部13は、FFT部11および12からの各周波数分割スペクトル成分のレベル比D2/D1およびD1/D2を検出する。そして、この例においては、各レベル比算出部23および24からのレベル比検出出力は、左チャンネル用のセレクタ25Lと、右チャンネル用のセレクタ25Rとに、それぞれ供給される。   The frequency division spectrum comparison processing unit 13 in the third embodiment includes level detection units 21 and 22 and level ratio calculation units 23 and 24 as in the first embodiment described above. Then, the frequency division spectrum comparison processing unit 13 detects the level ratios D2 / D1 and D1 / D2 of the frequency division spectrum components from the FFT units 11 and 12. In this example, the level ratio detection outputs from the level ratio calculation units 23 and 24 are supplied to the left channel selector 25L and the right channel selector 25R, respectively.

これらセレクタ25L、25Rのそれぞれには、左右2チャンネルのそれぞれから分離したい音源の音声信号の左右2チャンネルへの分配率に応じて、レベル比算出部23および24からのレベル比検出出力の一方を選択するための選択制御信号SELL、SELRが供給される。すなわち、前述と同様に、選択制御信号SELL、SELRは、分離したい音源の音声信号がより多く分配されているチャンネル側のレベルが分母となるレベル比を、セレクタ25L、25Rのそれぞれが選択するような信号とされる。   Each of the selectors 25L and 25R receives one of the level ratio detection outputs from the level ratio calculation units 23 and 24 in accordance with the distribution ratio of the sound signal of the sound source to be separated from the left and right channels to the left and right channels. Selection control signals SELL and SELR for selection are supplied. That is, as described above, the selection control signals SELL and SELR are such that each of the selectors 25L and 25R selects a level ratio in which the level on the channel side where more audio signals of the sound source to be separated are distributed becomes the denominator. Signal.

周波数分割スペクトル制御処理部14は、左チャンネル用の乗算係数発生部31Lおよび右チャンネル用の乗算係数発生部31Rと、左チャンネル用の乗算部32Lおよび右チャンネル用乗算部32Rを備えて構成される。そして、周波数分割スペクトル比較処理部13のセレクタ25Lからのレベル比rLが乗算係数発生部31Lに供給され、また、セレクタ25Rからのレベル比rRが乗算係数発生部31Rに供給される。 Frequency spectral control unit 14 is configured with a multiplier coefficient generating unit 31R for the multiplier coefficient generating unit 31L and the right channel for the left channel, the multiplying unit 32L and the multiplying unit 32R for the right channel for the left channel The The level ratio rL from the selector 25L of the frequency division spectrum comparison processing unit 13 is supplied to the multiplication coefficient generation unit 31L, and the level ratio rR from the selector 25R is supplied to the multiplication coefficient generation unit 31R.

乗算係数発生部31L、31Rのそれぞれには、前述の第1の実施形態と同様に、分離したい音源の音声信号の左右2チャンネル音声信号への分配比に対応した、レベル比に対する乗算係数の関数(前述の図4の関数例参照)が設定とされる。   Each of the multiplication coefficient generators 31L and 31R has a function of a multiplication coefficient for the level ratio corresponding to the distribution ratio of the sound signal of the sound source to be separated to the left and right two-channel sound signals, as in the first embodiment. (See the function example in FIG. 4 described above).

したがって、これら乗算係数発生部31L、31Rのそれぞれからは、セレクタ25L、25Rのそれぞれからのレベル比rL、rRのそれぞれに応じた乗算係数であって、分離する音源の音声信号に応じた乗算係数wL、wRが、乗算部32L、32Rのそれぞれに供給される。   Therefore, each of the multiplication coefficient generators 31L and 31R is a multiplication coefficient corresponding to each of the level ratios rL and rR from each of the selectors 25L and 25R, and is a multiplication coefficient corresponding to the sound signal of the sound source to be separated. wL and wR are supplied to the multipliers 32L and 32R, respectively.

これにより、乗算部32L,32Rのそれぞれからは、それぞれ分離したい音源の音声信号の左右2チャンネル音声信号への分配比、あるいはその近傍のレベル比となっている周波数分割スペクトル成分は、ほぼそのままのレベルで出力され、その他の周波数分割スペクトル成分は、小レベルあるいはレベル0とされる。この結果、乗算部32L、32Rのそれぞれからは、それぞれ分離を希望する音源の周波数分割スペクトル成分の抽出出力FexL、FexRが得られる。   Thereby, from each of the multipliers 32L and 32R, the distribution ratio of the sound signal of the sound source to be separated to the left and right two-channel sound signals, or the frequency division spectrum component which is the level ratio in the vicinity thereof is almost unchanged. The other frequency division spectral components are output at a level, and are set to a small level or level 0. As a result, the frequency division spectrum component extraction outputs FexL and FexR of the sound source desired to be separated are obtained from the multipliers 32L and 32R, respectively.

そして、乗算部32L、32Rからの抽出出力FexL、FexRのそれぞれが、対応する逆FFT部15L、15Rに供給されて、元の時系列信号としての音声信号に戻され、分離された音源の音声信号出力SOL、SORとして出力される。   Then, the extracted outputs FexL and FexR from the multipliers 32L and 32R are respectively supplied to the corresponding inverse FFT units 15L and 15R to be returned to the original audio signal as the time series signal, and the sound of the separated sound source Output as signal outputs SOL and SOR.

この第3の実施形態において、乗算係数発生部31L、31Rに設定される関数は、左右2チャンネルから分離しようとする音源が異なるものに応じたものとされるだけでなく、左右2チャンネルに所定のレベル比あるいはレベル差で分配された同じ音源の音声信号を、分離するための関数とすることもできる。   In the third embodiment, the functions set in the multiplication coefficient generators 31L and 31R are not limited to those corresponding to different sound sources to be separated from the left and right two channels, but are also predetermined for the two left and right channels. The sound signal of the same sound source distributed with the level ratio or level difference can be used as a function for separating.

後者の場合には、セレクタ25Lおよび25Rは、レベル比算出部23,24のうちの同じレベル比を選択して出力すると共に、乗算係数発生部31Lおよび31Rも同じ関数を用いるようにすれば良い。これにより、例えば、前述した左右2チャンネルのステレオ信号SL,SRについての(式1)および(式2)における信号S2やS4を、左右チャンネルのそれぞれの音声信号SL,SRから分離抽出して、出力SOL,SORとして導出することができる。   In the latter case, the selectors 25L and 25R may select and output the same level ratio of the level ratio calculation units 23 and 24, and the multiplication coefficient generation units 31L and 31R may use the same function. . Thereby, for example, the signals S2 and S4 in (Equation 1) and (Equation 2) for the stereo signals SL and SR of the left and right channels described above are separated and extracted from the audio signals SL and SR of the left and right channels, respectively. It can be derived as outputs SOL and SOR.

この場合において、乗算係数発生部31L,31Rに設定するレベル比対乗算係数の関数の特性としては、同一の音源を分離する際に、全く同じ特性とするのではなく、例えば図8(a),(b)に示すように、関数の特性曲線を相似形とすると共に、レベル比rに対する乗算係数wの大きさを異ならせるようにすることもできる。   In this case, the characteristic of the function of the level ratio versus the multiplication coefficient set in the multiplication coefficient generators 31L and 31R is not the same characteristic when the same sound source is separated. For example, FIG. , (B), the characteristic curve of the function can be similar, and the magnitude of the multiplication coefficient w with respect to the level ratio r can be varied.

このようにすれば、例えば左右チャンネルにレベル差を持って分配されていた音源の音声信号を、左右チャンネルの音声信号SL,SRから分離した音声信号SOL,SORとして、同一のレベルで出力することができるようになる。   In this way, for example, the sound signal of the sound source distributed with a level difference between the left and right channels is output at the same level as the sound signals SOL and SOR separated from the left and right channel sound signals SL and SR. Will be able to.

[第4の実施形態の音声信号処理装置の構成;自動採譜装置]
図9は、図7の実施形態の変形例としての第4の実施形態を示すものである。この第4の実施形態は、音声信号処理装置を自動採譜装置の構成とするものである。
[Configuration of Audio Signal Processing Device of Fourth Embodiment; Automatic Music Recording Device]
FIG. 9 shows a fourth embodiment as a modification of the embodiment of FIG. In the fourth embodiment, the audio signal processing apparatus is configured as an automatic music recording apparatus.

すなわち、図9の実施形態においては、図7における逆FFT部15L,15Rの代わりに、周波数分割スペクトル最大レベル検出部16L,16Rを、周波数分割スペクトル制御処理部14の出力側に設ける。   That is, in the embodiment of FIG. 9, frequency division spectrum maximum level detection units 16L and 16R are provided on the output side of the frequency division spectrum control processing unit 14 instead of the inverse FFT units 15L and 15R in FIG.

この実施形態では、分離された音源はそのスペクトル構成から、振幅レベルが最大レベルとなる周波数分割スペクトル成分が、その音源の基音であると判断される。このことに基づいて、周波数分割スペクトル最大レベル検出部16L,16Rは、周波数分割スペクトル制御処理部14からの出力FexL、FexRのうちから、前記振幅レベルが最大レベルとなる周波数分割スペクトル成分の周波数を検出する。そして、その検出した周波数f1、f2とレベルV1、V2をデータとして出力する。   In this embodiment, it is determined from the spectrum configuration of the separated sound source that the frequency division spectral component having the maximum amplitude level is the fundamental sound of the sound source. Based on this, the frequency division spectrum maximum level detection units 16L and 16R determine the frequency of the frequency division spectrum component having the maximum amplitude level from the outputs FexL and FexR from the frequency division spectrum control processing unit 14. To detect. The detected frequencies f1 and f2 and levels V1 and V2 are output as data.

そして、図示は、省略したが、周波数分割スペクトル最大レベル検出部16L,16Rからの周波数f1、f2とレベルV1,V2とを、例えば音高検出装置に供給して音高を検出する。そして、その検出した音高を記録媒体に記録したり、あるいは、譜面に記入する装置(採譜装置)を用いて譜面に記入したりすることができる。   And although illustration was abbreviate | omitted, the frequency f1, f2 and level V1, V2 from the frequency division spectrum maximum level detection parts 16L and 16R are supplied to a pitch detection apparatus, for example, and a pitch is detected. Then, the detected pitch can be recorded on a recording medium, or can be entered on a score using a device (scoring device) for writing on the score.

以上のようにして、この第4の実施形態によれば、ステレオ音声信号から、まず音源を分離し、次に分離された音源のスペクトルを解析することにより、音源の音高を検出する。そして、当該検出した音高に基づいて、自動採譜をすることができるので、複数の音源が混ざったステレオ音源から、自動採譜を可能とするシステムを実現することができる。   As described above, according to the fourth embodiment, the sound source is first separated from the stereo sound signal, and then the spectrum of the separated sound source is analyzed to detect the pitch of the sound source. Since automatic music recording can be performed based on the detected pitch, a system that enables automatic music recording from a stereo sound source in which a plurality of sound sources are mixed can be realized.

なお、図9の例では、左チャンネルと右チャンネルのそれぞれから音源を分離して、自動採譜を行なうようにした。しかし、図5および図6を用いて説明した第2の実施形態のように、2チャンネルの音声信号のそれぞれから、複数個の音源の周波数分割スペクトル成分を抽出する例においても、自動採譜装置を実現することができる。すなわち、図5において、逆FFT部151,152,・・・,15nのすべてを、周波数分割スペクトル最大レベル検出部に置き換え、その出力として最大レベルの周波数分割スペクトルの周波数およびレベルをそれぞれ得るようにする。また、これと共に、それら周波数およびレベル出力を、音高検出装置を介して採譜装置に供給するようにする。   In the example of FIG. 9, automatic music transcription is performed by separating the sound source from each of the left channel and the right channel. However, as in the second embodiment described with reference to FIGS. 5 and 6, the automatic musical score device is also used in the example of extracting the frequency division spectrum components of a plurality of sound sources from each of the two-channel audio signals. Can be realized. That is, in FIG. 5, all of the inverse FFT units 151, 152,..., 15 n are replaced with the frequency division spectrum maximum level detection unit, and the frequency and level of the maximum level frequency division spectrum are obtained as outputs thereof. To do. At the same time, these frequency and level outputs are supplied to the music transcription device via the pitch detection device.

また、この第4の実施形態の自動採譜装置は、第1の実施形態の場合に適用することもできるものである。また、後述する、音源分離を行なう音声信号処理装置の実施形態の場合にも適用可能であることは言うまでもない。   Further, the automatic music transcription device of the fourth embodiment can also be applied to the case of the first embodiment. Needless to say, the present invention is also applicable to an embodiment of an audio signal processing apparatus that performs sound source separation, which will be described later.

[第5の実施形態の音声信号処理装置の構成]
この第5の実施形態は、この発明による音声信号処理装置の実施形態である。この第5の実施形態は、2チャンネルの音声信号から使用者が分離したい音源を動的に変更することができるようにする場合である。
[Configuration of Audio Signal Processing Device in Fifth Embodiment]
The fifth embodiment is an embodiment of an audio signal processing device according to the present invention. In the fifth embodiment, the sound source that the user wants to separate from the two-channel audio signal can be dynamically changed.

この第5の実施形態は、第3の実施形態に適用した場合である。すなわち、2チャンネルの音声信号SL,SRのそれぞれから別々の音源(同じ音源でもよい)の音声信号を分離するようにする場合において、それぞれ分離する音源を使用者が動的に選択変更できるようにした場合である。   This fifth embodiment is applied to the third embodiment. That is, when the sound signals of different sound sources (or the same sound source) are separated from each of the two-channel sound signals SL and SR, the user can dynamically select and change the sound sources to be separated. This is the case.

図10に示すこの第5の実施形態においては、周波数分割スペクトル制御処理部14は、左チャンネル用の乗算係数発生部として、複数個の乗算係数発生部31L1,31L2,・・・,31Lnを設ける。また、周波数分割スペクトル制御処理部14は、それら複数個の乗算係数発生部31L1,31L2,・・・,31Lnのいずれか一つからの乗算係数を選択して、当該選択した乗算係数を、乗算係数wLとして乗算部32Lに供給するスイッチ回路36Lを備える。   In the fifth embodiment shown in FIG. 10, the frequency division spectrum control processing unit 14 is provided with a plurality of multiplication coefficient generation units 31L1, 31L2,..., 31Ln as multiplication coefficient generation units for the left channel. . Further, the frequency division spectrum control processing unit 14 selects a multiplication coefficient from any one of the plurality of multiplication coefficient generation units 31L1, 31L2,..., 31Ln, and multiplies the selected multiplication coefficient. A switch circuit 36L that supplies the coefficient wL to the multiplier 32L is provided.

また、同様にして、周波数分割スペクトル制御処理部14は、右チャンネル用の乗算係数発生部として、複数個の乗算係数発生部31R1,31R2,・・・,31Rnを設ける。そして、周波数分割スペクトル制御処理部14は、それら複数個の乗算係数発生部31R1,31R2,・・・,31Rnのいずれか一つからの乗算係数を選択して、当該選択した乗算係数を、乗算係数wRとして乗算部32Rに供給するスイッチ回路36Rを備える。   Similarly, the frequency division spectrum control processing unit 14 includes a plurality of multiplication coefficient generation units 31R1, 31R2,..., 31Rn as right channel multiplication coefficient generation units. Then, the frequency division spectrum control processing unit 14 selects a multiplication coefficient from any one of the plurality of multiplication coefficient generation units 31R1, 31R2,..., 31Rn, and multiplies the selected multiplication coefficient. A switch circuit 36R that supplies the multiplier unit 32R as a coefficient wR is provided.

複数個の乗算係数発生部31L1,31L2,・・・,31Lnおよび31R1,31R2,・・・,31Rnのそれぞれには、例えば、左右チャンネルのレベル比が種々の値となる音源を分離するために用いるレベル比対乗算係数の関数が、設定される。   Each of the plurality of multiplication coefficient generators 31L1, 31L2,..., 31Ln and 31R1, 31R2,. A function of level ratio to multiplication factor to be used is set.

また、周波数分割スペクトル比較処理部13には、レベル比算出部23,24のレベル比算出出力を受けて、いずれか一方のレベル比算出出力を、乗算係数発生部31L1,31L2,・・・,31Ln,31R1,31R2,・・・,31Rnのそれぞれに供給する選択分配回路250が設けられる。   Further, the frequency division spectrum comparison processing unit 13 receives the level ratio calculation outputs of the level ratio calculation units 23 and 24, and outputs one of the level ratio calculation outputs to the multiplication coefficient generation units 31L1, 31L2,. 31Ln, 31R1, 31R2,..., 31Rn are provided with a selective distribution circuit 250 for supplying them.

そして、この第5の実施形態においては、分離音源選択信号発生部17が設けられる。この分離音源選択信号発生部17は、後述するように選択操作手段を通じた、使用者による、分離する音源の選択操作に応じた信号Maを受けて、選択分配回路250に供給する選択信号SELTを発生する。また、分離音源選択信号発生部17は、スイッチ回路36Lをスイッチ制御する信号SWLおよびスイッチ回路36Rをスイッチ制御する信号SWRを発生する。   In the fifth embodiment, a separated sound source selection signal generation unit 17 is provided. The separated sound source selection signal generation unit 17 receives a signal Ma according to a selection operation of a sound source to be separated by a user through a selection operation unit as will be described later, and receives a selection signal SELT to be supplied to the selection distribution circuit 250. appear. Further, the separated sound source selection signal generation unit 17 generates a signal SWL that controls the switch circuit 36L and a signal SWR that controls the switch circuit 36R.

図示は省略するが、この例の音声信号処理装置は、例えば選択操作つまみやボタン、タッチパネル付きLCDなどの表示部を通じたグラフィカル・ユーザ・インターフェースを通じて、使用者からの分離する音源の選択操作を受け付けるようにする。このとき、選択操作対象となるのは、乗算係数発生部31L1,31L2,・・・,31Ln,31R1,31R2,・・・,31Rnに設定された関数により分離可能な複数個の音源である。   Although not shown, the audio signal processing apparatus of this example accepts a selection operation of a sound source to be separated from a user through a graphical user interface through a display unit such as a selection operation knob or button or an LCD with a touch panel, for example. Like that. At this time, the selection operation target is a plurality of sound sources that can be separated by the functions set in the multiplication coefficient generators 31L1, 31L2,..., 31Ln, 31R1, 31R2,.

例えば、分離可能な複数の音源としては、左チャンネルの音像定位位置から右チャンネルの音像定位位置の間において、音像定位位置を徐々に変更するようなものとすることができる。   For example, the plurality of separable sound sources may be configured such that the sound image localization position is gradually changed between the sound image localization position of the left channel and the sound image localization position of the right channel.

この場合において、使用者は、左チャンネルおよび右チャンネルのそれぞれについて、独立に分離する音源を指定することができるようにされている。   In this case, the user can designate sound sources to be separated independently for each of the left channel and the right channel.

例えば、左チャンネルの乗算係数発生部31L1からの乗算係数によって左チャンネルの音声信号SLから分離可能な音源が、使用者によって、前記選択操作つまみやボタン、あるいはグラフィカル・ユーザ・インターフェースを通じて選択されたときには、その選択操作に応じた信号Maを受けた分離音源選択信号発生部17は、当該信号Maに対応したスイッチ制御信号SWLおよび選択信号SELTを発生する。   For example, when a sound source that can be separated from the left channel audio signal SL by the multiplication coefficient from the left channel multiplication coefficient generator 31L1 is selected by the user through the selection operation knob, button, or graphical user interface. The separated sound source selection signal generator 17 that receives the signal Ma according to the selection operation generates the switch control signal SWL and the selection signal SELT corresponding to the signal Ma.

そして、このとき、スイッチ回路36Lは、分離音源選択信号発生部17からのスイッチ制御信号SWLにより、乗算係数発生部31L1を選択する状態に切り換えられる。また、選択分配回路250は、選択信号SELTにより、レベル比算出部23,24の一方(レベル比が1以下になる方)が選択されて、乗算係数発生部31L1に供給される。   At this time, the switch circuit 36L is switched to the state of selecting the multiplication coefficient generator 31L1 by the switch control signal SWL from the separated sound source selection signal generator 17. The selection / distribution circuit 250 selects one of the level ratio calculation units 23 and 24 (the one in which the level ratio is 1 or less) based on the selection signal SELT and supplies the selected one to the multiplication coefficient generation unit 31L1.

これにより、乗算部32Lからは、選択指定された通りの音源の周波数分割スペクトル成分FexLが得られ、逆FFT部15Lにより、元の時系列の音声信号に戻されて出力SOLとして出力される。   Thus, the frequency division spectrum component FexL of the sound source as selected and designated is obtained from the multiplication unit 32L, and is returned to the original time-series audio signal by the inverse FFT unit 15L and output as the output SOL.

右チャンネルにおいても、同様にして、使用者により選択設定された、分離したい音源の音声信号が抽出される。   Similarly, in the right channel, the sound signal of the sound source to be separated and set by the user is extracted.

なお、図10の第5の実施形態は、2チャンネルの音声信号のそれぞれから、所定の音源の音声信号をそれぞれ分離抽出する場合(第3の実施形態に適用した場合)であるが、第5の実施形態は、第1の実施形態や第2の実施形態にも適用可能である。   Note that the fifth embodiment of FIG. 10 is a case where the audio signal of a predetermined sound source is separately extracted from each of the audio signals of two channels (when applied to the third embodiment). This embodiment can also be applied to the first embodiment and the second embodiment.

すなわち、例えば第1の実施形態に適用する場合には、図3において、乗算係数発生部31の代わりに複数個の乗算係数発生部を設ける。また、それらの複数個の乗算係数発生部と、音源分離部32との間に、複数個の乗算係数発生部の1つからの乗算係数を音源分離部32に供給するようにするスイッチ回路を設ける。さらに、使用者の選択操作信号Maを受け付け、スイッチ回路をスイッチ制御すると共に、乗算係数発生部にレベル比算出部23,24の出力のうちの適切な方のレベルを供給するように制御する信号を発生する分離音源選択信号発生部を設けるようにする。   That is, for example, when applied to the first embodiment, a plurality of multiplication coefficient generators are provided in place of the multiplication coefficient generator 31 in FIG. In addition, a switch circuit is provided between the plurality of multiplication coefficient generation units and the sound source separation unit 32 so as to supply the multiplication coefficient from one of the plurality of multiplication coefficient generation units to the sound source separation unit 32. Provide. Further, a signal for receiving the user's selection operation signal Ma, switching the switch circuit, and controlling the multiplication coefficient generator to supply the appropriate level of the outputs of the level ratio calculators 23 and 24. Is provided with a separated sound source selection signal generator.

また、例えば第2の実施形態に適用する場合には、図6において、乗算係数発生部311,312,・・・,31nのそれぞれの代わりに複数個の乗算係数発生部を設ける。さらに、それらの複数個の乗算係数発生部と、音源分離部321,322,・・・,32nのそれぞれとの間に、複数個の乗算係数発生部の1つからの乗算係数を音源分離部321,322,・・・,32nのそれぞれに供給するようにする複数個のスイッチ回路を設ける。さらに、また、使用者の選択操作信号Maを受け付け、各スイッチ回路をスイッチ制御するスイッチ制御信号を発生する。そして、乗算係数発生部のそれぞれにレベル比算出部23,24の出力のうちの適切な方のレベルを供給するように制御する信号を発生する分離音源選択信号発生部を設けるようにする。   For example, when applied to the second embodiment, a plurality of multiplication coefficient generators are provided in place of each of the multiplication coefficient generators 311, 312,..., 31 n in FIG. Further, a multiplication coefficient from one of the plurality of multiplication coefficient generators is set between the plurality of multiplication coefficient generators and each of the sound source separators 321, 322,. A plurality of switch circuits are provided so as to be supplied to 321, 322,. Further, it accepts a user's selection operation signal Ma and generates a switch control signal for controlling each switch circuit. Then, a separate sound source selection signal generation unit that generates a signal to be controlled so as to supply an appropriate level of the outputs of the level ratio calculation units 23 and 24 to each of the multiplication coefficient generation units is provided.


[第6の実施形態の音声信号処理装置の構成]
以上の実施形態においては、2チャンネルの音声信号に、各音源の音声信号が分配されるときの位相は、2チャンネルで同相としたが、逆相で音源の音声信号が分配される場合もある。一例として、次の(式3)および(式4)のように、6個の音源MS1〜MS6からの音声信号S1〜S6が左右2チャンネルに分配されたステレオ音声信号SL,SRを考える。

[Configuration of Audio Signal Processing Device of Sixth Embodiment]
In the above embodiment, the phase when the sound signal of each sound source is distributed to the sound signal of 2 channels is the same phase of 2 channels, but the sound signal of the sound source may be distributed in the opposite phase. . As an example, consider stereo audio signals SL and SR in which audio signals S1 to S6 from six sound sources MS1 to MS6 are distributed to two left and right channels as in the following (Equation 3) and (Equation 4).

SL=S1+0.9S2+0.7S3+0.4S4+0.7S6 ・・・(式3)
SR=S5+0.4S2+0.7S3+0.9S4−0.7S6 ・・・(式4)
SL = S1 + 0.9S2 + 0.7S3 + 0.4S4 + 0.7S6 (Formula 3)
SR = S5 + 0.4S2 + 0.7S3 + 0.9S4-0.7S6 (Formula 4)

すなわち、音源MS3の音声信号S3と、音源MS6の音声信号S6とは、左右チャンネルに、それぞれ同レベルで分配されている。しかし、音源MS3の音声信号S3は、左右チャンネルに同相で分配されているのに対して、MS6の音声信号S6は、左右チャンネルに逆相で分配されている。   That is, the sound signal S3 of the sound source MS3 and the sound signal S6 of the sound source MS6 are distributed to the left and right channels at the same level. However, the audio signal S3 of the sound source MS3 is distributed in the same phase to the left and right channels, whereas the audio signal S6 of the MS6 is distributed in the opposite phase to the left and right channels.

このため、上述の実施の形態と同様にして、位相を考慮せず、レベル比あるいはレベル差のみを用いて音源MS3の音声信号S3または音源MS6の音声信号S6のいずれかを分離抽出しようとしても、いずれか一方を分離抽出することはできない。音声信号S3とS6とは、同レベルで左右チャンネルに分配されているからである。   For this reason, as in the above-described embodiment, it is possible to separate and extract either the sound signal S3 of the sound source MS3 or the sound signal S6 of the sound source MS6 using only the level ratio or the level difference without considering the phase. , Either one cannot be separated and extracted. This is because the audio signals S3 and S6 are distributed to the left and right channels at the same level.

そこで、この第6の実施形態では、上述と同様にしてレベル比あるいはレベル差を用いて音声成分を分離した後、位相差を用いて更なる分離をすることにより、音源MS3の音声信号S3と音源MS6の音声信号S6をも分離して出力することができるようにする。   Therefore, in the sixth embodiment, after the audio component is separated using the level ratio or the level difference in the same manner as described above, and further separated using the phase difference, the audio signal S3 of the sound source MS3 is separated from the audio signal S3. The sound signal S6 of the sound source MS6 can also be separated and output.

図11は、この第6の実施形態の音声信号処理装置の構成例を示すブロック図である。この第6の実施形態の音声信号処理装置における周波数分割スペクトル比較処理部103は、レベル比較処理部1031と、位相比較処理部1032とを備える。   FIG. 11 is a block diagram showing a configuration example of the audio signal processing apparatus according to the sixth embodiment. The frequency division spectrum comparison processing unit 103 in the audio signal processing device according to the sixth embodiment includes a level comparison processing unit 1031 and a phase comparison processing unit 1032.

また、この第6の実施形態における周波数分割スペクトル制御処理部104は、第1周波数分割スペクトル制御処理部1041と、位相差に基づいた音源分離処理を実行するための第2周波数分割スペクトル制御処理部1042とを備える。 Also, the frequency division spectral control processing unit 104 in the sixth embodiment, the first frequency spectral control unit 1041, the second round wavenumber spectrum control processor for executing sound source separation processing based on the phase difference Unit 1042.

図12は、この第6の実施形態における周波数分割スペクトル比較処理部103と、周波数分割スペクトル制御処理部104の部分の詳細構成例を示すブロック図である。すなわち、周波数分割スペクトル比較処理部103のレベル比較処理部1031は、前述した第1の実施形態の周波数分割スペクトル比較処理部13と同様の構成の備え、レベル検出部21,22と、レベル比算出部23,24と、セレクタ25とからなる。   FIG. 12 is a block diagram illustrating a detailed configuration example of portions of the frequency division spectrum comparison processing unit 103 and the frequency division spectrum control processing unit 104 according to the sixth embodiment. That is, the level comparison processing unit 1031 of the frequency division spectrum comparison processing unit 103 has the same configuration as the frequency division spectrum comparison processing unit 13 of the first embodiment described above, and the level detection units 21 and 22 and the level ratio calculation. Units 23 and 24 and a selector 25.

そして、周波数分割スペクトル制御処理部104の第1周波数分割スペクトル制御処理部1041も、前述の第1の実施形態の周波数分割スペクトル制御処理部14とほぼ同様の構成を備える。すなわち、周波数分割スペクトル制御処理部1041は、乗算係数発生部31と、乗算部33および34とからなる音源分離部32の構成とされている。ただし周波数分割スペクトル制御処理部1041は、加算部35は有しない。   The first frequency division spectrum control processing unit 1041 of the frequency division spectrum control processing unit 104 also has substantially the same configuration as the frequency division spectrum control processing unit 14 of the first embodiment described above. That is, the frequency division spectrum control processing unit 1041 has a configuration of a sound source separation unit 32 including a multiplication coefficient generation unit 31 and multiplication units 33 and 34. However, the frequency division spectrum control processing unit 1041 does not include the adding unit 35.

そして、図11および図12に示すように、レベル比較処理部1031からのレベル比出力rは、第1の実施形態と全く同様にして、第1周波数分割スペクトル制御処理部1041の乗算係数発生部31に供給される。そして、この乗算係数発生部31から当該乗算係数発生部31に設定された関数に応じた乗算係数wrが発生し、乗算部33,34に供給される。   As shown in FIGS. 11 and 12, the level ratio output r from the level comparison processing unit 1031 is the same as that in the first embodiment, and the multiplication coefficient generation unit of the first frequency division spectrum control processing unit 1041 is used. 31. A multiplication coefficient wr corresponding to the function set in the multiplication coefficient generation unit 31 is generated from the multiplication coefficient generation unit 31 and supplied to the multiplication units 33 and 34.

乗算部33には、FFT部11からの周波数分割スペクトル成分が供給されており、当該周波数分割スペクトル成分と乗算係数wrとの乗算結果が、この乗算部33から得られる。また、乗算部34には、FFT部12からの周波数分割スペクトル成分が供給されており、当該周波数分割スペクトル成分と乗算係数wrとの乗算結果が、この乗算部34から得られる。   The multiplication unit 33 is supplied with the frequency division spectrum component from the FFT unit 11, and the multiplication result of the frequency division spectrum component and the multiplication coefficient wr is obtained from the multiplication unit 33. Further, the frequency division spectrum component from the FFT unit 12 is supplied to the multiplication unit 34, and a multiplication result of the frequency division spectrum component and the multiplication coefficient wr is obtained from the multiplication unit 34.

すなわち、乗算部33,34からは、FFT部11,12からの周波数分割スペクトル成分のそれぞれが、乗算係数発生部31からの乗算係数wrに応じてレベル制御された状態の出力が得られる。   That is, the multipliers 33 and 34 provide outputs in a state in which the frequency division spectrum components from the FFT units 11 and 12 are level-controlled in accordance with the multiplication coefficient wr from the multiplication coefficient generator 31.

前述したように、乗算係数発生部31は、レベル比rを変数とした乗算係数wrに関する関数発生回路により構成される。乗算係数発生部31に使用する関数として、どのような関数が選ばれるかは、分離すべき音源の左右2チャンネルの音声信号への分配率による。   As described above, the multiplication coefficient generation unit 31 includes a function generation circuit related to the multiplication coefficient wr with the level ratio r as a variable. Which function is selected as the function used for the multiplication coefficient generator 31 depends on the distribution ratio of the sound source to be separated to the left and right channel audio signals.

例えば、乗算係数発生部31には、図4に示したような特性の、乗算係数wrのレベル比に関する関数が設定される。例えば、左右2チャンネルに同レベルで分配される音源の音声信号を分離抽出する場合には、前述したように、図4(a)に示した特定の関数が、乗算係数発生部31に設定される。   For example, a function relating to the level ratio of the multiplication coefficient wr having characteristics as shown in FIG. For example, when the sound signal of a sound source distributed to the left and right channels at the same level is separated and extracted, the specific function shown in FIG. 4A is set in the multiplication coefficient generator 31 as described above. The

この第6の実施形態では、乗算部33,34の出力は、それぞれ周波数分割スペクトル比較処理部103の位相比較処理部1032に供給されると共に、周波数分割スペクトル制御処理部104の第2周波数分割スペクトル制御処理部1042に供給される。   In the sixth embodiment, the outputs of the multiplying units 33 and 34 are respectively supplied to the phase comparison processing unit 1032 of the frequency division spectrum comparison processing unit 103 and the second frequency division spectrum of the frequency division spectrum control processing unit 104. It is supplied to the control processing unit 1042.

位相比較処理部1032は、図12に示すように、乗算部33,34の出力の位相差φを検出する位相差検出部26からなり、その位相差φの情報を第2周波数分割スペクトル制御処理部1042に供給する。   As shown in FIG. 12, the phase comparison processing unit 1032 includes a phase difference detection unit 26 that detects the phase difference φ of the outputs of the multiplication units 33 and 34, and the information of the phase difference φ is subjected to a second frequency division spectrum control process. Supplied to the unit 1042.

第2周波数分割スペクトル制御処理部1042は、2個の乗算係数発生部301および305と、乗算部302,303および乗算部306,307と、加算部304および308とからなる。   The second frequency division spectrum control processing unit 1042 includes two multiplication coefficient generation units 301 and 305, multiplication units 302 and 303, multiplication units 306 and 307, and addition units 304 and 308.

そして、乗算部302には、第1周波数分割スペクトル制御処理部1041の乗算部33の出力が供給されると共に、乗算係数発生部301からの乗算係数wp1が供給され、両者の乗算結果が、この乗算部302から加算部304に供給される。また、乗算部303には、第1周波数分割スペクトル制御処理部1041の乗算部34の出力が供給されると共に、乗算係数発生部301からの乗算係数wp1が供給され、両者の乗算結果が、この乗算部303から加算部304に供給される。そして、加算部304の出力は、周波数分割スペクトル制御処理部104の第1の出力Fex1とされる。   The multiplication unit 302 is supplied with the output of the multiplication unit 33 of the first frequency division spectrum control processing unit 1041 and also supplied with the multiplication coefficient wp1 from the multiplication coefficient generation unit 301. The data is supplied from the multiplier 302 to the adder 304. Further, the multiplication unit 303 is supplied with the output of the multiplication unit 34 of the first frequency division spectrum control processing unit 1041 and the multiplication coefficient wp1 from the multiplication coefficient generation unit 301. The data is supplied from the multiplier 303 to the adder 304. The output of the adding unit 304 is the first output Fex1 of the frequency division spectrum control processing unit 104.

また、乗算部306には、第1周波数分割スペクトル制御処理部1041の乗算部33の出力が供給されると共に、乗算係数発生部305からの乗算係数wp2が供給され、両者の乗算結果が、この乗算部306から加算部308に供給される。また、乗算部307には、第1周波数分割スペクトル制御処理部1041の乗算部34の出力が供給されると共に、乗算係数発生部305からの乗算係数wp2が供給され、両者の乗算結果が、この乗算部307から加算部308に供給される。そして、加算部308の出力は、周波数分割スペクトル制御処理部104の第2の出力Fex2とされる。   Further, the multiplication unit 306 is supplied with the output of the multiplication unit 33 of the first frequency division spectrum control processing unit 1041 and is also supplied with the multiplication coefficient wp2 from the multiplication coefficient generation unit 305. The data is supplied from the multiplier 306 to the adder 308. The multiplication unit 307 is supplied with the output of the multiplication unit 34 of the first frequency division spectrum control processing unit 1041 and the multiplication coefficient wp2 from the multiplication coefficient generation unit 305. The data is supplied from the multiplier 307 to the adder 308. The output of the adding unit 308 is the second output Fex2 of the frequency division spectrum control processing unit 104.

乗算係数発生部301および305は、位相差検出部26からの位相差φの情報を受けて、当該位相差φに応じた乗算係数wp1およびwp2を発生する。乗算係数発生部301および305は、位相差φを変数とした乗算係数wpに関する関数発生回路により構成される。乗算係数発生部301および305に使用する関数として、どのような関数が選ばれるかは、分離すべき音源の前記2チャンネルに対する位相差に応じて、使用者により設定される。   Multiplication coefficient generators 301 and 305 receive information on phase difference φ from phase difference detection unit 26 and generate multiplication coefficients wp1 and wp2 corresponding to the phase difference φ. Multiplication coefficient generators 301 and 305 are configured by a function generation circuit related to multiplication coefficient wp using phase difference φ as a variable. Which function is selected as the function used for the multiplication coefficient generators 301 and 305 is set by the user according to the phase difference of the sound source to be separated with respect to the two channels.

乗算係数発生部301および305に供給される位相差φは、周波数分割スペクトルの各周波数成分単位で変化するものであるので、乗算係数発生部301および305からの乗算係数wp1およびwp2も、周波数分割スペクトルの各周波数成分単位で変化する。   Since the phase difference φ supplied to the multiplication coefficient generators 301 and 305 changes for each frequency component of the frequency division spectrum, the multiplication coefficients wp1 and wp2 from the multiplication coefficient generators 301 and 305 are also frequency division. Varies with each frequency component of the spectrum.

したがって、乗算部302および乗算部306では、乗算部33からの各周波数分割スペクトルのレベルが、乗算係数wp1およびwp2により制御される。また、乗算部303および乗算部307では、乗算部34からの各周波数分割スペクトルのレベルが、乗算係数wp1およびwp2により制御される。   Therefore, in multiplier 302 and multiplier 306, the level of each frequency division spectrum from multiplier 33 is controlled by multiplication coefficients wp1 and wp2. In addition, in the multiplication unit 303 and the multiplication unit 307, the level of each frequency division spectrum from the multiplication unit 34 is controlled by the multiplication coefficients wp1 and wp2.

図13に、乗算係数発生部301および305としての関数発生回路に用いられる関数の例を示す。   FIG. 13 shows an example of a function used in the function generation circuit as the multiplication coefficient generation units 301 and 305.

図13(a)の関数の特性は、左右チャンネルの位相差φが0、あるいは0に近い場合、つまり、左右チャンネルが同相あるいは同相に近い周波数分割スペクトル成分では、乗算係数wpは1あるいは1近傍となる。また、左右チャンネルの位相差φが約π/4以上の領域では、乗算係数wpは0となっている。   The characteristic of the function of FIG. 13A is that the multiplication coefficient wp is 1 or near 1 when the phase difference φ between the left and right channels is 0 or close to 0, that is, in the frequency division spectrum component where the left and right channels are in phase or close to in phase It becomes. The multiplication coefficient wp is 0 in the region where the phase difference φ between the left and right channels is about π / 4 or more.

例えば乗算係数発生部301に、この図13(a)の特性の関数が設定されている場合において、位相差検出部26からの位相差φが0、または0近傍となっている周波数分割スペクトル成分に対する乗算係数wpは1、あるいは1に近い値となる。したがって、乗算部302、303からは、当該周波数分割スペクトル成分は、ほぼそのままのレベルで出力される。一方、位相差検出部26からの位相差φが、約π/4以上の値となっている周波数分割スペクトル成分に対する乗算係数wpは0となるので、乗算部302,303からは、当該周波数分割スペクトル成分は、出力レベルが0とされて、出力されなくなる。   For example, when the function of the characteristic shown in FIG. 13A is set in the multiplication coefficient generator 301, the frequency division spectrum component in which the phase difference φ from the phase difference detector 26 is 0 or close to 0. The multiplication coefficient wp for is 1 or a value close to 1. Therefore, the frequency division spectrum components are output from the multipliers 302 and 303 at almost the same level. On the other hand, since the multiplication coefficient wp for the frequency division spectrum component in which the phase difference φ from the phase difference detection unit 26 has a value of about π / 4 or more is 0, the multiplication units 302 and 303 receive the frequency division. Spectral components are not output at an output level of 0.

すなわち、乗算部302,303からは、多数個の周波数分割スペクトル成分のうち、左右同相およびその近傍の位相差となっている周波数分割スペクトル成分は、ほぼそのままのレベルで出力される。左右チャンネルの位相差が大きい周波数分割スペクトル成分は、出力レベルが0とされて出力されなくなる。この結果、左右2チャンネルの音声信号SL,SRに同相で分配された音源の音声信号の周波数分割スペクトル成分のみが加算部304から得られることになる。   That is, from the multiple frequency division spectrum components, the frequency division spectrum components having a phase difference between the left and right in-phase and the vicinity thereof are output from the multiplication units 302 and 303 at almost the same level. A frequency division spectrum component having a large phase difference between the left and right channels is set to an output level of 0 and is not output. As a result, only the frequency division spectrum component of the sound signal of the sound source distributed in phase with the left and right two-channel sound signals SL and SR is obtained from the adder 304.

つまり、この図13(a)の特性の関数は、左右2チャンネルに同相で分配されている音源の信号を抽出する際に用いられる。   That is, the characteristic function shown in FIG. 13A is used to extract a sound source signal distributed in phase to the left and right channels.

また、図13(b)の関数の特性は、左右チャンネルの位相差φがπ、あるいはπに近い場合、つまり、左右チャンネルが逆相あるいは逆相に近い周波数分割スペクトル成分では、乗算係数wpは1あるいは1近傍となる。また、左右チャンネルの位相差φが約3π/4以下の領域では、乗算係数wpは0となっている。   In addition, the characteristic of the function of FIG. 13B is that when the phase difference φ between the left and right channels is π or close to π, that is, in the frequency division spectrum component where the left and right channels are close to or out of phase, the multiplication coefficient wp 1 or 1 vicinity. The multiplication coefficient wp is 0 in the region where the phase difference φ between the left and right channels is about 3π / 4 or less.

例えば乗算係数発生部301に、この図13(b)の特性の関数が設定されている場合において、位相差検出部26からの位相差φがπ、またはπ近傍となっている周波数分割スペクトル成分に対する乗算係数wpは1、あるいは1に近い値となる。したがって、乗算部302、303からは、当該周波数分割スペクトル成分は、ほぼそのままのレベルで出力される。一方、位相差検出部26からの位相差φが、約3π/4以下の値となっている周波数分割スペクトル成分に対する乗算係数wpは0となるので、乗算部302,303からは、当該周波数分割スペクトル成分は、出力レベルが0とされて、出力されなくなる。   For example, when the function of the characteristic shown in FIG. 13B is set in the multiplication coefficient generator 301, the frequency division spectrum component in which the phase difference φ from the phase difference detector 26 is π or in the vicinity of π. The multiplication coefficient wp for is 1 or a value close to 1. Therefore, the frequency division spectrum components are output from the multipliers 302 and 303 at almost the same level. On the other hand, since the multiplication coefficient wp for the frequency division spectrum component in which the phase difference φ from the phase difference detection unit 26 is about 3π / 4 or less is 0, the multiplication units 302 and 303 receive the frequency division. Spectral components are not output at an output level of 0.

すなわち、乗算部302,303からは、多数個の周波数分割スペクトル成分のうち、左右逆相およびその近傍の位相差となっている周波数分割スペクトル成分は、ほぼそのままのレベルで出力される。そして、左右チャンネルの位相差が小さい周波数分割スペクトル成分は、出力レベルが0とされて出力されなくなる。この結果、左右2チャンネルの音声信号SL,SRに逆相で分配された音源の音声信号の周波数分割スペクトル成分のみが加算部304から得られることになる。   That is, from the multiple frequency division spectrum components, the frequency division spectrum components having a phase difference between the left and right phases and the vicinity thereof are output from the multiplication units 302 and 303 at almost the same level. Then, the frequency division spectrum component having a small phase difference between the left and right channels is set to an output level of 0 and is not output. As a result, only the frequency division spectrum component of the sound signal of the sound source distributed in opposite phases to the left and right two-channel sound signals SL and SR is obtained from the adding unit 304.

つまり、この図13(b)の特性の関数は、左右2チャンネルに逆相で分配されている音源の信号を抽出する際に用いられる。   That is, the characteristic function shown in FIG. 13B is used to extract a sound source signal distributed in opposite phases to the left and right channels.

同様にして、図13(c)の特性の関数は、左右チャンネルの位相差φが約π/2、あるいは約π/2に近い場合の周波数分割スペクトル成分では、乗算係数wpは1あるいは1近傍となり、その他の位相差φの領域では、乗算係数wpは0となっている。したがって、この図13(c)の特性の関数は、左右2チャンネルに、互いに約π/2だけ異なる位相で分配されている音源の信号を抽出する際に用いられる。   Similarly, the characteristic function of FIG. 13C shows that the multiplication coefficient wp is 1 or near 1 in the frequency division spectrum component when the phase difference φ between the left and right channels is about π / 2 or close to about π / 2. Thus, the multiplication coefficient wp is 0 in other regions of the phase difference φ. Therefore, the function of the characteristic shown in FIG. 13C is used when extracting the sound source signal distributed to the left and right channels with phases different from each other by about π / 2.

その他、乗算係数発生部301および305には、分離する音源の音声信号の2チャンネルへ分配する際の位相差に応じて、図13(d)や(e)に示すような特性の関数を設定することもできる。   In addition, in the multiplication coefficient generators 301 and 305, a function of characteristics as shown in FIGS. 13D and 13E is set according to the phase difference when the sound signal of the sound source to be separated is distributed to two channels. You can also

以上のようにして、周波数分割スペクトル制御処理部104から得られる第1の出力Fex1および第2の出力Fex2は、逆FFT部1501および1502にそれぞれ供給されて、元の時系列の音声信号に戻される。この時系列の音声信号は、第1および第2の出力信号SO10およびSO20として導出される。これら第1および第2の出力信号SO10およびSO20をアナログ信号として導出する場合には、逆FFT部1501および1502の出力段にD/A変換器が設けられる。   As described above, the first output Fex1 and the second output Fex2 obtained from the frequency division spectrum control processing unit 104 are supplied to the inverse FFT units 1501 and 1502, respectively, and returned to the original time-series audio signal. It is. This time-series audio signal is derived as the first and second output signals SO10 and SO20. When these first and second output signals SO10 and SO20 are derived as analog signals, D / A converters are provided at the output stages of inverse FFT units 1501 and 1502.

この第6の実施形態において、例えば、前記(式3)および(式4)で示された左右2チャンネルの音声信号SLおよびSRから、同レベルであるが、同相で左右チャンネルに分配された音源MS3の音声信号S3と、逆相で左右チャンネルに分配された音源MS6の音声信号S6とを、出力Fex1およびFex2として分離する場合には、乗算係数発生部31には、図4(a)に示したような特定の関数が設定され、また、乗算係数発生部301には、図13(a)に示すような特性となる関数が設定され、さらに乗算係数発生部305には、図13(b)に示すような特性となる関数が設定される。   In the sixth embodiment, for example, sound sources distributed at the same level but distributed to the left and right channels from the left and right two-channel audio signals SL and SR shown in (Expression 3) and (Expression 4). When separating the audio signal S3 of MS3 and the audio signal S6 of the sound source MS6 distributed to the left and right channels in opposite phases as outputs Fex1 and Fex2, the multiplication coefficient generator 31 has the configuration shown in FIG. A specific function as shown in FIG. 13 is set, a function having characteristics as shown in FIG. 13A is set in the multiplication coefficient generation unit 301, and a function shown in FIG. A function having characteristics as shown in b) is set.

すると、図11および図12に示すように、周波数分割スペクトル制御処理部104の第1周波数分割スペクトル制御処理部1041の乗算部33からは、左チャンネルの音声信号SLをFFTした信号(周波数分割スペクトル)のうちの、(S3+S6)なる周波数分割スペクトル成分が得られ、また、乗算部34からは、右チャンネルの音声信号SRをFFTした信号(周波数分割スペクトル)のうちの、(S3−S6)なる周波数分割スペクトル成分が得られる。つまり、信号S3とS6とは、左右チャンネルに同レベルで分配されているので、第1周波数分割スペクトル制御処理部1041では、分離できずに出力されることになる。   Then, as shown in FIG. 11 and FIG. 12, the multiplication unit 33 of the first frequency division spectrum control processing unit 1041 of the frequency division spectrum control processing unit 104 receives a signal (frequency division spectrum) obtained by performing FFT on the audio signal SL of the left channel. ) Of the frequency division spectrum component of (S3 + S6) is obtained, and the multiplication unit 34 obtains (S3-S6) of the signal (frequency division spectrum) obtained by FFT of the audio signal SR of the right channel. A frequency division spectral component is obtained. That is, since the signals S3 and S6 are distributed to the left and right channels at the same level, the first frequency division spectrum control processing unit 1041 outputs them without being separated.

しかし、この第6の実施形態では、信号S3とS6とが逆相で左右チャンネルに分配されていることを利用して、次のようにして、当該信号S3と、S6とが分離される。   However, in the sixth embodiment, the signals S3 and S6 are separated as follows using the fact that the signals S3 and S6 are distributed to the left and right channels in opposite phases.

すなわち、乗算部33および34の出力は、周波数分割スペクトル比較処理部103の位相比較処理部1032を構成する位相差検出部26に供給されて、両出力の位相差φが検出される。そして、この位相差検出部26で検出された位相差φの情報は、乗算係数発生部301に供給されるとともに、乗算係数発生部305に供給される。   That is, the outputs of the multipliers 33 and 34 are supplied to the phase difference detection unit 26 constituting the phase comparison processing unit 1032 of the frequency division spectrum comparison processing unit 103, and the phase difference φ between both outputs is detected. Information on the phase difference φ detected by the phase difference detection unit 26 is supplied to the multiplication coefficient generation unit 301 and also to the multiplication coefficient generation unit 305.

乗算係数発生部301では、図13(a)に示すような特性の関数が設定されていることから、乗算部302,303では、左右チャンネルに同相で分配されている音源の音声信号を抽出する。すなわち、周波数分割スペクトル成分(S3+S6)と、周波数分割スペクトル成分(S3−S6)のうちの、同相関係にある音源MS3の音声信号S3の周波数分割スペクトル成分のみが乗算部302および303のそれぞれから得られ、加算部304に供給される。   In the multiplication coefficient generator 301, the function of the characteristic as shown in FIG. 13A is set. Therefore, the multipliers 302 and 303 extract the sound signal of the sound source distributed in phase to the left and right channels. . That is, only the frequency division spectral components of the audio signal S3 of the sound source MS3 in the in-phase relationship among the frequency division spectral components (S3 + S6) and the frequency division spectral components (S3-S6) are obtained from the multipliers 302 and 303, respectively. And supplied to the adding unit 304.

したがって、加算部304からは、音源MS3の音声信号S3の周波数分割スペクトル成分が、出力信号Fex1として導出され、逆FFT部1501に供給される。そして、分離された音声信号S3は、逆FFT部1501で時系列信号に戻され、出力信号SO10として出力される。   Therefore, the frequency division spectrum component of the audio signal S3 of the sound source MS3 is derived as the output signal Fex1 from the adding unit 304 and supplied to the inverse FFT unit 1501. The separated audio signal S3 is returned to the time series signal by the inverse FFT unit 1501 and output as the output signal SO10.

一方、乗算係数発生部305では、図13(b)に示すような特性の関数が設定されていることから、乗算部306,307では、左右チャンネルに逆相で分配されている音源の音声信号を抽出する。すなわち、周波数分割スペクトル成分(S3+S6)と、周波数分割スペクトル成分(S3−S6)のうちの、逆相関係にある音源MS6の音声信号S6の周波数分割スペクトル成分のみが乗算部306および307のそれぞれから得られ、加算部308に供給される。   On the other hand, in the multiplication coefficient generation unit 305, the function of the characteristic as shown in FIG. 13B is set. Therefore, in the multiplication units 306 and 307, the sound signal of the sound source distributed in opposite phases to the left and right channels. To extract. That is, only the frequency division spectrum component of the audio signal S6 of the sound source MS6 in the opposite phase among the frequency division spectrum component (S3 + S6) and the frequency division spectrum component (S3-S6) is obtained from each of the multipliers 306 and 307. Obtained and supplied to the adder 308.

したがって、加算部308からは、音源MS6の音声信号S6の周波数分割スペクトル成分が、出力信号Fex2として導出され、逆FFT部1502に供給される。そして、分離された音声信号S6は、逆FFT部1502で時系列信号に戻され、出力信号SO20として出力される。   Therefore, the frequency division spectrum component of the audio signal S6 of the sound source MS6 is derived from the addition unit 308 as the output signal Fex2, and is supplied to the inverse FFT unit 1502. The separated audio signal S6 is returned to the time series signal by the inverse FFT unit 1502 and output as the output signal SO20.

なお、図11および図12に示した実施形態では、第2周波数分割スペクトル制御処理部1042では、第1周波数分割スペクトル制御処理部1041においてレベル比を用いては分離できない2つの信号、上述の例では、同相の信号S3と、逆相の信号S6とを、それぞれ乗算係数および乗算部を用いて、それぞれ分離するようにしたが、それらレベル比を用いては分離できない2つの信号の一方を、位相差φと乗算係数を用いて、分離したら、当該分離した信号を、第1周波数分割スペクトル制御処理部1041からの信号の和(乗算部33の出力と乗算部34の出力を加算した信号)から減算することにより、前記2つの信号の他方の信号を、分離するようにすることもできる。   In the embodiment shown in FIG. 11 and FIG. 12, the second frequency division spectrum control processing unit 1042 has two signals that cannot be separated using the level ratio in the first frequency division spectrum control processing unit 1041, the above-described example. Then, the in-phase signal S3 and the anti-phase signal S6 are separated using the multiplication coefficient and the multiplication unit, respectively. However, one of the two signals that cannot be separated using the level ratio is Once separated using the phase difference φ and the multiplication coefficient, the separated signal is summed with the signal from the first frequency division spectrum control processing unit 1041 (the signal obtained by adding the output of the multiplier 33 and the output of the multiplier 34). By subtracting from the other signal, the other signal of the two signals can be separated.

なお、図11、図12の実施形態では、2個の分離音源信号を得るようにしたが、出力する分離音源信号は、1個でもよい。また、第2の実施形態のように、より多数個の音源の音声信号を同時に分離する場合にも、この第6の実施形態を適用することができるのは言うまでもない。   In the embodiment shown in FIGS. 11 and 12, two separated sound source signals are obtained. However, one separated sound source signal may be output. Needless to say, the sixth embodiment can also be applied to the case where a plurality of sound sources are simultaneously separated as in the second embodiment.

また、図11、図12の実施形態は、2系統の周波数分割スペクトルのレベル比に基づいて、2系統の音声信号に同レベルで分配されている音源成分を抽出した後、その抽出結果の2系統の周波数分割スペクトルについての位相差に基づいて、所望の音源分離を行なうようにしたが、例えば入力音声信号が、(S3+S6)および(S3−S6)のような、2系統の音声信号の場合には、位相差のみに基づいて、音源分離を行なうことができることは言うまでもない。   11 and 12 extract the sound source component distributed at the same level in the two audio signals on the basis of the level ratio of the two frequency division spectrums. The desired sound source separation is performed based on the phase difference of the frequency division spectrum of the system. For example, when the input audio signal is a two-system audio signal such as (S3 + S6) and (S3-S6) Needless to say, sound source separation can be performed based only on the phase difference.

また、第4の実施形態として説明した自動採譜装置にも、この第6の実施形態は適用可能である。   The sixth embodiment can also be applied to the automatic musical score device described as the fourth embodiment.

[第7の実施形態の音声信号処理装置]
図14は、第7の実施形態の音声信号処理装置の構成例を示すブロック図である。この図14の例においては、左右2チャンネルの音声信号SL、SRの一方、図の例では、左チャンネルの音声信号SLから、デジタルフィルタを用いて、左右チャンネルに所定のレベル比あるいはレベル差で分配された音源の音声信号を分離するようにする。
[Audio Signal Processing Device of Seventh Embodiment]
FIG. 14 is a block diagram illustrating a configuration example of the audio signal processing device according to the seventh embodiment. In the example of FIG. 14, one of the left and right channel audio signals SL and SR, and in the example of the figure, the left channel audio signal SL is applied to the left and right channels with a predetermined level ratio or level difference using a digital filter. The sound signal of the distributed sound source is separated.

すなわち、左チャンネルの音声信号(この例ではデジタル信号)SLは、タイミング調整用の遅延部41を通じてデジタルフィルタ42に供給される。このデジタルフィルタ42には、後述するようにして、分離したい音源の音声信号の、左右チャンネルに対するレベル比に基づいて形成されるフィルタ係数が供給されて、前記分離したい音源の音声信号が、このデジタルフィルタ42から抽出されるようにされる。   That is, the audio signal SL (digital signal in this example) SL of the left channel is supplied to the digital filter 42 through the delay unit 41 for timing adjustment. As will be described later, the digital filter 42 is supplied with filter coefficients formed based on the level ratio of the sound signal of the sound source to be separated to the left and right channels, and the sound signal of the sound source to be separated is supplied to the digital filter 42. It is extracted from the filter 42.

前記フィルタ係数は、次のようにして形成される。先ず、左右チャンネルの音声信号SLおよびSR(デジタル信号)は、FFT部43およびFFT部44にそれぞれに供給されて、FFT処理されて時系列音声信号が周波数領域データに変換され、FFT部43およびFFT部44のそれぞれから、周波数が互いに異なる多数個の周波数分割スペクトル成分が出力される。   The filter coefficient is formed as follows. First, the left and right channel audio signals SL and SR (digital signals) are supplied to the FFT unit 43 and the FFT unit 44, respectively, and subjected to FFT processing to convert the time series audio signal into frequency domain data. From each of the FFT units 44, a large number of frequency division spectrum components having different frequencies are output.

FFT部43および44のそれぞれからの周波数分割スペクトル成分のそれぞれは、レベル検出部45,46に供給されて、その振幅スペクトルあるいはパワースペクトルが検出されることにより、そのレベルが検出される。そして、レベル検出部45,46の各々で検出されたレベル値D1,D2は、レベル比算出部47に供給され、そのレベル比D1/D2またはD2/D1の一方が算出される。   Each of the frequency division spectrum components from each of the FFT units 43 and 44 is supplied to the level detection units 45 and 46, and the amplitude spectrum or power spectrum thereof is detected, whereby the level is detected. The level values D1 and D2 detected by each of the level detection units 45 and 46 are supplied to the level ratio calculation unit 47, and one of the level ratios D1 / D2 or D2 / D1 is calculated.

このレベル比算出部47で算出されたレベル比の値は、重み付け係数発生部48に供給される。この重み付け係数発生部48は、前述の実施形態の乗算係数発生部に対応するものであり、分離したい音源の音声信号の、左右2チャンネルの音声信号に対する混合レベル比およびその近傍のレベル比では大きな値の重み付け係数を出力し、その他のレベル比では小さな重み付け係数を出力する。この重み付け係数は、FFT部43,44の出力である周波数分割スペクトル成分の各周波数ごとに得られる。   The level ratio value calculated by the level ratio calculation unit 47 is supplied to the weighting coefficient generation unit 48. The weighting coefficient generation unit 48 corresponds to the multiplication coefficient generation unit of the above-described embodiment, and is large in the mixing level ratio of the sound signal of the sound source to be separated to the sound signal of the left and right channels and the level ratio in the vicinity thereof. A value weighting coefficient is output, and a small weighting coefficient is output for other level ratios. This weighting coefficient is obtained for each frequency of the frequency division spectrum component that is the output of the FFT units 43 and 44.

この重み付け係数発生部48からの周波数領域の重み付け係数は、フィルタ係数生成部49に供給され、時間軸領域のフィルタ係数に変換される。このフィルタ係数生成部49は、周波数領域の重み付け係数を、逆FFTを行なうことにより、デジタルフィルタ42に供給するフィルタ係数を得る。   The frequency domain weighting coefficient from the weighting coefficient generating section 48 is supplied to the filter coefficient generating section 49 and converted into a time axis domain filter coefficient. The filter coefficient generation unit 49 obtains a filter coefficient to be supplied to the digital filter 42 by performing inverse FFT on the weighting coefficient in the frequency domain.

そして、このフィルタ係数生成部49からのフィルタ係数が、デジタルフィルタ42に供給されて、デジタルフィルタ42から、重み付け係数発生部48に設定された関数に応じた音源の音声信号成分が分離抽出されて、出力SOとされる。なお、遅延部41は、デジタルフィルタ42に供給されるフィルタ係数が生成されるまでの処理遅延時間を調整するためのものである。   Then, the filter coefficient from the filter coefficient generation unit 49 is supplied to the digital filter 42, and the sound signal component of the sound source corresponding to the function set in the weighting coefficient generation unit 48 is separated and extracted from the digital filter 42. , Output SO. The delay unit 41 is for adjusting the processing delay time until the filter coefficient supplied to the digital filter 42 is generated.

図14の例は、レベル比のみを考慮したものであるが、位相差のみ、またレベル比と位相差を合わせて考慮する構成とすることもできる。すなわち、例えばレベル比と位相差とを合わせて考慮する場合には、図示は省略するが、FFT部43および44の出力を位相差検出部にも供給すると共に、検出した位相差をも、重み付け係数発生部に供給する。この例の場合の重み付け係数発生部は、分離する音源の左右2チャンネルの音声信号に対するレベル差のみではなく、位相差をも変数として重み付け係数を発生する関数発生回路の構成とされる。   Although the example of FIG. 14 considers only the level ratio, it may be configured to consider only the phase difference or the level ratio and the phase difference together. That is, for example, when considering the level ratio and the phase difference together, although not shown, the outputs of the FFT units 43 and 44 are also supplied to the phase difference detection unit, and the detected phase difference is also weighted. Supply to the coefficient generator. In this example, the weighting coefficient generator has a function generating circuit that generates a weighting coefficient using not only the level difference of the sound signal to be separated from the left and right channel audio signals but also the phase difference as a variable.

つまり、この場合の重み付け係数発生部は、分離しようとする音源の音声信号の、左右2チャンネルにおけるレベル比およびその近傍のレベル比のときであって、前記、分離しようとする音源の音声信号の、左右2チャンネルにおける位相差およびその近傍の位相差のときには、大きい重み付け係数を発生し、その他では小さい係数を発生するような関数に設定される。   In other words, the weighting coefficient generator in this case has the level ratio of the sound signal of the sound source to be separated in the left and right channels and the level ratio in the vicinity thereof. In the case of the phase difference between the left and right two channels and the phase difference in the vicinity thereof, the function is set so as to generate a large weighting coefficient and otherwise generate a small coefficient.

そして、その重み付け係数発生部からの重み付け係数が逆FFTされることにより、デジタルフィルタ42のフィルタ係数とされるものである。   Then, the weighting coefficient from the weighting coefficient generation unit is subjected to inverse FFT to be a filter coefficient of the digital filter 42.

なお、図14では、左チャンネルのみから希望する音源の音声信号を分離するようにしたが、右チャンネルの音声信号についても、フィルタ係数を発生する系を、別個に同様に設けることにより、同様に所定の音源の音声信号を分離することができる。   In FIG. 14, the sound signal of the desired sound source is separated from only the left channel. However, for the sound signal of the right channel, a system for generating a filter coefficient is provided in the same manner in a similar manner. An audio signal of a predetermined sound source can be separated.

[その他の実施形態の音声信号処理装置]
上述の実施形態において、入力音声信号をFFTする場合、楽音のように長い時系列信号をそのままFFT処理することは困難なので、所定分析区間に区分けして、当該分析区間ごとの区分データを得ることによりFFT処理を行なう。
[Audio signal processing apparatus of other embodiment]
In the above-described embodiment, when FFT is performed on an input audio signal, it is difficult to perform FFT processing on a long time-series signal as it is in a musical sound. Therefore, it is divided into predetermined analysis sections, and division data for each analysis section is obtained. To perform the FFT processing.

しかしながら、時系列データを単純に一定の長さだけ取り出し、音源分離処理を行った後、逆FFT変換して結合した場合、その結合点において波形の不連続点を発生し、音として聞いた場合、ノイズを発生すると言う問題がある。   However, when time series data is simply taken out to a certain length, and after performing sound source separation processing and combined by inverse FFT transformation, a waveform discontinuity is generated at that connection point and heard as sound There is a problem of generating noise.

そこで、第8の実施形態では、区分データを取り出すのに、図15に示すように、区間1、区間2、区間3、区間4、・・・の長さを、それぞれ同じ長さの単位区間とするが、隣り合う区間では、前記単位区間の長さの例えば1/2の区間分を、互いに重複するように各区間を設定して、各区間の区分データを取り出すようにする。なお、図15において、x0、x1、x2、x3、・・・、xnは、デジタル音声信号のサンプルデータを示している。   Therefore, in the eighth embodiment, as shown in FIG. 15, in order to extract the segment data, the lengths of section 1, section 2, section 3, section 4,. However, in the adjacent sections, each section is set so that, for example, a section of ½ of the length of the unit section overlaps, and the segment data of each section is extracted. In FIG. 15, x0, x1, x2, x3,..., Xn indicate sample data of the digital audio signal.

このようにして処理すると、上述の実施形態のようにして音源分離処理され、逆FFT 変換された時系列データ(y0、y1、y2、y3、・・・、yn)も、図16に示す出力区分データ1,2のように、重複区間を持つことになる。   When processed in this manner, time series data (y0, y1, y2, y3,..., Yn) subjected to sound source separation processing and inverse FFT transformed as in the above-described embodiment is also output as shown in FIG. Like the segment data 1 and 2, there will be overlapping sections.

そして、この第8の実施形態では、図16に示すように、重複区間を持って隣り合う出力区分データ、例えば出力区分データ1,2の重複区間に対して、図16に示すような三角窓の特性となる窓関数1、2の処理を行ない、各出力区分データ1,2の重複区間における同時刻データ同士を加算することにより、図16に示すような出力合成データを得るようにする。これにより、波形の不連続点の無い、すなわちノイズの無い、分離された出力音声信号が得られる。   In the eighth embodiment, as shown in FIG. 16, the triangular window as shown in FIG. 16 is used for the output section data adjacent to each other with overlapping sections, for example, the overlapping sections of the output section data 1 and 2. The window functions 1 and 2 having the above characteristics are processed, and the same time data in the overlapping sections of the output segment data 1 and 2 are added to obtain output composite data as shown in FIG. As a result, a separated output audio signal having no waveform discontinuity, that is, no noise is obtained.

さらに、第9の実施形態では、区分データを取り出すのに、図17に示すように、隣り合う区分データの一定区間として、区間1、区間2、区間3、区間4のように、互いに重複して取り出すようにすると同時に、これらの各区間の区分データを、FFT処理する前に、図17に示すような三角窓の窓関数1,2,3,4の、窓関数処理を行なう。   Furthermore, in the ninth embodiment, as shown in FIG. 17, the segment data is extracted as a certain segment of adjacent segment data, such as segment 1, segment 2, segment 3, and segment 4, as shown in FIG. At the same time, before the FFT processing is performed on the division data of each section, the window functions of the triangular window functions 1, 2, 3, and 4 as shown in FIG. 17 are performed.

そして、この図17に示すような窓関数処理を行なった後、FFT変換処理を行なうようにする。そして、しかるべき音源分離処理された信号を、逆FFT変換すると、図18に示すような出力区分データ1、2が得られる。この出力区分データは、既に重複部において窓関数処理されたデータになっているので、出力部では、各重複区分データ部を加算するだけで、波形の不連続点のないノイズの無い、分離された音声信号を得ることが可能となる。   Then, after the window function process as shown in FIG. 17 is performed, the FFT conversion process is performed. Then, when the signal subjected to appropriate sound source separation processing is subjected to inverse FFT conversion, output segment data 1 and 2 as shown in FIG. 18 are obtained. Since this output segment data has already been subjected to window function processing in the overlapped portion, the output unit can be separated without any discontinuous points in the waveform by simply adding each overlapping segment data portion. It is possible to obtain a sound signal.

なお、上述の窓関数としては、三角窓の他、ハニング窓またはハミング窓、あるいはブラックマン窓、などを用いることができる。   In addition to the triangular window, a Hanning window, a Hamming window, a Blackman window, or the like can be used as the above window function.

また、上述の実施形態では、時間離散信号を直交変換することにより、周波数領域の信号に変換し、ステレオチャンネル間の周波数分割スペクトルを比較するようにしたが、原理的には時間領域で信号を多数のバンドバスフィルタにより細分化し、各周波数バンドについて同様の処理を行なうように構成するようにしてもよい。ただし、上述の実施形態のように、FFT処理をする方が、周波数分解能を上げることが容易であり、分離する音源の分離度を向上させることができるので、実用性が大きい。   In the above-described embodiment, the time discrete signal is orthogonally transformed to be converted into a frequency domain signal, and the frequency division spectrum between the stereo channels is compared. It may be configured such that the same processing is performed for each frequency band by subdividing by a number of band-pass filters. However, as in the above-described embodiment, the FFT processing is easier to increase the frequency resolution and can improve the separation degree of the sound source to be separated, and thus has great practicality.

なお、上述の実施形態では、この発明が適用される2系統の音声信号として、2チャンネルステレオ信号について説明したが、この発明は、音源の音声信号が所定のレベル比あるいはレベル差で分配される2つの音声信号であれば、どのような2系統の音声信号であっても適用可能である。位相差についても同様である。   In the above-described embodiment, the two-channel stereo signal has been described as the two audio signals to which the present invention is applied. However, in the present invention, the sound signal of the sound source is distributed with a predetermined level ratio or level difference. Any two audio signals can be applied as long as they are two audio signals. The same applies to the phase difference.

また、上述の実施形態では、2系統の音声信号についての周波数分割スペクトルのレベル比を求め、乗算係数発生部は、レベル比対乗算係数の関数を用いるようにしたが、2系統の音声信号についての周波数分割スペクトルのレベル差を求め、乗算係数発生部は、当該レベル差対乗算係数の関数を用いるようにしてもよい。   Further, in the above-described embodiment, the level ratio of the frequency division spectrum for the two audio signals is obtained, and the multiplication coefficient generator uses the function of the level ratio versus the multiplication coefficient. However, for the two audio signals The level difference of the frequency division spectrum may be obtained, and the multiplication coefficient generation unit may use a function of the level difference versus the multiplication coefficient.

また、時系列信号を周波数領域の信号に変換する直交変換手段としては、FFT処理手段に限られるものではなく、周波数分割スペクトルのレベルや位相を比較することができるものであれば、どのようなものであってもよい。   Further, the orthogonal transform means for converting the time series signal into the frequency domain signal is not limited to the FFT processing means, and any means can be used as long as the level and phase of the frequency division spectrum can be compared. It may be a thing.

この発明による音声信号処理装置を説明するための第1の実施形態の構成例を示すブロック図である。1 is a block diagram showing a configuration example of a first embodiment for explaining an audio signal processing device according to the present invention; FIG. 図1の一部である周波数分割スペクトル比較処理部の構成例を示すブロック図である。It is a block diagram which shows the structural example of the frequency division spectrum comparison process part which is a part of FIG. 図1の一部である周波数分割スペクトル制御処理部の構成例を示すブロック図である。It is a block diagram which shows the structural example of the frequency division spectrum control process part which is a part of FIG. 周波数分割スペクトル制御処理部の乗算係数発生部31に設定される関数の幾つかの例を示す図である。It is a figure which shows some examples of the function set to the multiplication coefficient generation part 31 of a frequency division spectrum control process part. この発明による音声信号処理装置を説明するための第2の実施形態の構成例を示すブロック図である。It is a block diagram which shows the structural example of 2nd Embodiment for demonstrating the audio | voice signal processing apparatus by this invention. 図5の一部の周波数分割スペクトル比較処理部および周波数分割スペクトル制御処理部の構成例を示すブロック図である。It is a block diagram which shows the structural example of the one part frequency division spectrum comparison process part of FIG. 5, and a frequency division spectrum control process part. この発明による音声信号処理装置を説明するための第3の実施形態の構成例を示すブロック図である。It is a block diagram which shows the structural example of 3rd Embodiment for demonstrating the audio | voice signal processing apparatus by this invention. 図7の例における乗算係数発生部31L,31Rに設定される関数の幾つかの例を示す図である。It is a figure which shows some examples of the function set to the multiplication coefficient generation | occurrence | production parts 31L and 31R in the example of FIG. この発明による音声信号処理装置を説明するための第4の実施形態の構成例を示すブロック図である。It is a block diagram which shows the structural example of 4th Embodiment for demonstrating the audio | voice signal processing apparatus by this invention. この発明による音声信号処理装置の実施形態である第5の実施形態の構成例を示すブロック図である。It is a block diagram which shows the structural example of 5th Embodiment which is embodiment of the audio | voice signal processing apparatus by this invention. この発明による音声信号処理装置の第6の実施形態の構成例を示すブロック図である。It is a block diagram which shows the structural example of 6th Embodiment of the audio | voice signal processing apparatus by this invention. 図11の一部の周波数分割スペクトル比較処理部および周波数分割スペクトル制御処理部の構成例を示すブロック図である。It is a block diagram which shows the structural example of the one part frequency division spectrum comparison process part of FIG. 11, and a frequency division spectrum control process part. 図12の乗算係数発生部301,302に設定される関数の幾つかの例を示す図である。It is a figure which shows some examples of the function set to the multiplication coefficient generation part 301,302 of FIG. この発明による音声信号処理装置の第7の実施形態の構成例を示すブロック図である。It is a block diagram which shows the structural example of 7th Embodiment of the audio | voice signal processing apparatus by this invention. この発明による音声信号処理装置の第8の実施形態の構成例を説明するための図である。It is a figure for demonstrating the structural example of 8th Embodiment of the audio | voice signal processing apparatus by this invention. この発明による音声信号処理装置の第8の実施形態の構成例を説明するための図である。It is a figure for demonstrating the structural example of 8th Embodiment of the audio | voice signal processing apparatus by this invention. この発明による音声信号処理装置の第9の実施形態の構成例を説明するための図である。It is a figure for demonstrating the structural example of 9th Embodiment of the audio | voice signal processing apparatus by this invention. この発明による音声信号処理装置の第9の実施形態の構成例を説明するための図である。It is a figure for demonstrating the structural example of 9th Embodiment of the audio | voice signal processing apparatus by this invention. 複数の音源からなる2チャンネルの信号による音像定位を説明するための図である。It is a figure for demonstrating the sound image localization by the signal of 2 channels consisting of a several sound source. 複数の音源からなる2チャンネルの信号による音像定位を説明するための図である。It is a figure for demonstrating the sound image localization by the signal of 2 channels consisting of a several sound source. 従来の、特定音源の音声信号の分離装置を説明するためのブロック図である。It is a block diagram for demonstrating the conventional separation apparatus of the audio | voice signal of a specific sound source.

符号の説明Explanation of symbols

10…音声信号処理装置、11,12…FFT部、13…周波数分割スペクトル比較処理部、14…周波数分割スペクトル制御処理部、15…逆FFT部、21,22…レベル検出部、23,24…レベル比算出部、25…セレクタ、31…乗算係数発生部、32…音源分離部、33,34…乗算部、35…加算部、16L,16R…周波数分割スペクトル最大レベル検出部、1032…位相比較処理部   DESCRIPTION OF SYMBOLS 10 ... Audio | voice signal processing apparatus, 11, 12 ... FFT part, 13 ... Frequency division spectrum comparison process part, 14 ... Frequency division spectrum control processing part, 15 ... Inverse FFT part, 21,22 ... Level detection part, 23, 24 ... Level ratio calculation unit, 25 ... selector, 31 ... multiplication coefficient generation unit, 32 ... sound source separation unit, 33, 34 ... multiplication unit, 35 ... addition unit, 16L, 16R ... frequency division spectrum maximum level detection unit, 1032 ... phase comparison Processing part

Claims (11)

2系統の時系列音声信号を、それぞれ周波数領域信号に変換する第1および第2の変換手段と、
前記第1の変換手段と前記第2の変換手段からの前記周波数領域信号を用いて、対応する周波数分割スペクトル同士のレベル比またはレベル差を算出するレベル算出手段と、
それぞれ分離する音源に応じた乗算係数が予め設定され、前記レベル算出手段からの前記レベル比またはレベル差の入力に応じて前記乗算係数を発生する複数の乗算係数発生部と、
使用者による分離対象の前記音源の選択操作に応じて、制御信号を発生する分離音源選択信号発生手段と、
前記分離音源選択信号発生手段からの前記制御信号に基づいて、前記複数の乗算係数発生部のうちから、前記第1および第2の変換手段の出力用とされ、前記分離対象の前記音源に応じた前記乗算係数を発生する2個の乗算係数発生部を選択するスイッチ手段と、
前記スイッチ手段により選択された前記2個の乗算係数発生部からの前記乗算係数を用いて、前記第1の変換手段と前記第2の変換手段とのそれぞれから得られる前記周波数領域信号を、前記周波数分割スペクトルのレベルを制御して出力する出力制御手段と、
前記出力制御手段からの前記周波数領域信号を、時系列信号に変換する逆変換手段と、
を備える音声信号処理装置。
First and second conversion means for converting two systems of time-series audio signals into frequency domain signals,
Using the frequency domain signal from said first converting means and the second conversion means, and the level calculating means for calculating a level ratio or level difference between corresponding frequency division spectrums,
A plurality of multiplication coefficient generators configured to generate multiplication coefficients according to the input of the level ratio or the level difference from the level calculation unit, in which multiplication coefficients corresponding to the sound sources to be separated from each other are preset .
Depending on the sound source of the selection operation to be separated by the user, and separating the sound source selection signal generating means for generating a control signal,
Based on the control signal from the separated sound source selection signal generating means, it is used for output of the first and second conversion means from among the plurality of multiplication coefficient generating sections, and depends on the sound source to be separated. switch means for selecting two multiplier coefficient generating unit that occur the multiplication coefficient,
Using the multiplication factor from the two multiplier coefficient generating unit selected by said switch means, said frequency-domain signal obtained from each of said first converting means and the second conversion means, wherein Output control means for controlling and outputting the level of the frequency division spectrum; and
And inverse conversion means for converting the frequency domain signal from the output control unit, the time series signal,
An audio signal processing apparatus comprising:
前記スイッチ手段は、The switch means includes
前記分離音源選択信号発生手段からの前記制御信号に基づいて、前記複数の乗算係数発生部のうちから、それぞれ前記分離対象の異なる前記音源に応じた前記乗算係数を発生する2個の乗算係数発生部を選択し、Based on the control signal from the separated sound source selection signal generating means, two multiplication coefficient generations for generating the multiplication coefficients corresponding to the different sound sources to be separated from the plurality of multiplication coefficient generation units, respectively. Select
前記出力制御手段は、The output control means includes
前記スイッチ手段により選択された前記2個の乗算係数発生部からの前記乗算係数を用いて、前記第1の変換手段と前記第2の変換手段とのそれぞれから得られる前記周波数領域信号を、前記周波数分割スペクトルのレベルを制御して、それぞれ前記分離対象の異なる前記音源に対応する前記周波数分割スペクトルを有する2系統の周波数領域信号として出力するUsing the multiplication coefficients from the two multiplication coefficient generators selected by the switch means, the frequency domain signal obtained from each of the first conversion means and the second conversion means, The level of the frequency division spectrum is controlled and output as two frequency domain signals each having the frequency division spectrum corresponding to the sound source different from the separation target.
請求項1に記載の音声信号処理装置。The audio signal processing apparatus according to claim 1.
前記スイッチ手段は、The switch means includes
前記分離音源選択信号発生手段からの前記制御信号に基づいて、前記複数の乗算係数発生部のうちから、それぞれ前記分離対象の同一の前記音源に応じた前記乗算係数を発生する2個の乗算係数発生部を選択し、Based on the control signal from the separated sound source selection signal generating means, two multiplication coefficients for generating the multiplication coefficient corresponding to the same sound source to be separated from the plurality of multiplication coefficient generation units, respectively. Select the generator,
前記出力制御手段は、The output control means includes
前記スイッチ手段により選択された前記2個の乗算係数発生部からの前記乗算係数を用いて、前記第1の変換手段と前記第2の変換手段とのそれぞれから得られる前記周波数領域信号を、前記周波数分割スペクトルのレベルを制御して、それぞれ前記分離対象の同一の前記音源に対応する前記周波数分割スペクトルを有する2系統の周波数領域信号として出力するUsing the multiplication coefficients from the two multiplication coefficient generators selected by the switch means, the frequency domain signal obtained from each of the first conversion means and the second conversion means, The level of the frequency division spectrum is controlled and output as two frequency domain signals each having the frequency division spectrum corresponding to the same sound source to be separated.
請求項1に記載の音声信号処理装置。The audio signal processing apparatus according to claim 1.
前記スイッチ手段は、The switch means includes
前記分離音源選択信号発生手段からの前記制御信号に基づいて、前記複数の乗算係数発生部のうちから、それぞれ前記分離対象の異なる前記音源に応じた前記乗算係数を発生する2個の乗算係数発生部を選択し、Based on the control signal from the separated sound source selection signal generating means, two multiplication coefficient generations for generating the multiplication coefficients corresponding to the different sound sources to be separated from the plurality of multiplication coefficient generation units, respectively. Select
前記出力制御手段は、The output control means includes
前記スイッチ手段により選択された前記2個の乗算係数発生部のうち一方の乗算係数発生部からの前記乗算係数を用いて、前記第1の変換手段と前記第2の変換手段とのそれぞれから得られる前記周波数領域信号を、前記周波数分割スペクトルのレベルを制御して、それぞれ前記分離対象の異なる前記音源のうち一方の音源に対応する前記周波数分割スペクトルを有する2系統の周波数領域信号として出力し、前記スイッチ手段により選択された前記2個の乗算係数発生部のうち他方の乗算係数発生部からの前記乗算係数を用いて、前記第1の変換手段と前記第2の変換手段とのそれぞれから得られる前記周波数領域信号を、前記周波数分割スペクトルのレベルを制御して、それぞれ前記分離対象の異なる前記音源のうち他方の音源に対応する前記周波数分割スペクトルを有する2系統の周波数領域信号として出力するObtained from each of the first conversion means and the second conversion means using the multiplication coefficient from one of the two multiplication coefficient generation sections selected by the switch means. The frequency domain signal to be output is output as two frequency domain signals having the frequency division spectrum corresponding to one of the sound sources different from each other by controlling the level of the frequency division spectrum, Of the two multiplication coefficient generators selected by the switch means, the multiplication coefficient from the other multiplication coefficient generator is used to obtain each of the first conversion means and the second conversion means. The frequency domain signal is controlled by controlling the level of the frequency division spectrum, and corresponds to the other sound source among the different sound sources to be separated. And outputs it as the frequency domain signals of two systems having the frequency spectrum
請求項1に記載の音声信号処理装置。The audio signal processing apparatus according to claim 1.
前記出力制御部からの、前記一方の音源に対応する前記周波数分割スペクトルを有する前記2系統の周波数領域信号を加算して、得られる加算周波数領域信号を出力し、前記他方の音源に対応する前記周波数分割スペクトルを有する前記2系統の周波数領域信号を加算して、得られる加算周波数領域信号を出力する加算手段The output control unit adds the two frequency domain signals having the frequency division spectrum corresponding to the one sound source, outputs an obtained frequency domain signal, and corresponds to the other sound source. Adding means for adding the two frequency domain signals having a frequency division spectrum and outputting the resulting frequency domain signal
を備え、With
前記逆変換手段は、The inverse conversion means includes
前記加算手段からの2種類の前記加算周波数領域信号を、それぞれ前記時系列信号に変換するThe two types of added frequency domain signals from the adding means are converted into the time series signals, respectively.
請求項4に記載の音声信号処理装置。The audio signal processing device according to claim 4.
前記複数の乗算係数発生部は、
それぞれ前記レベル算出手段からの前記レベル比またはレベル差の関数としての前記乗算係数が予め設定され、
前記出力制御手段は、
前記スイッチ手段により選択された前記2個の乗算係数発生部からの前記乗算係数を、前記第1の変換手段と前記第2の変換手段それぞれから得られる前記周波数領域信号に乗算して、前記周波数分割スペクトルの出力レベルを決定す
請求項1に記載の音声信号処理装置。
The plurality of multiplication coefficient generators are
Each of the multiplication factors as a function of the level ratio or level difference from the level calculation means is preset,
The output control means includes
The multiplication coefficient from said switch said selected by means of two multipliers coefficient number rounds producing unit multiplies the frequency domain signal obtained from each of said first converting means and the second converting means Te, that determine the output level of the frequency division spectrum
The audio signal processing apparatus according to claim 1 .
前記複数の乗算係数発生部は、
それぞれ前記レベル算出手段からの前記レベル比またはレベル差の関数として、前記レベル比またはレベル差が所定の範囲である周波数分割スペクトル以外の周波数分割スペクトルのレベルを0とする前記乗算係数が予め設定された
請求項6に記載の音声信号処理装置。
The plurality of multiplication coefficient generators are
As a function of each of the level ratio or level difference from the level calculating means, the multiplication factor which the level ratio or level difference is zero the level of the frequency spectral components other than the frequency spectral is a predetermined range set in advance The
The audio signal processing apparatus according to claim 6 .
記出力制御手段からの前記周波数領域信号に含まれる前記周波数分割スペクトルのうち最大レベルの周波数分割スペクトルを検出し、検出した周波数分割スペクトルを出力データとして出力する検出手段
を備える請求項1に記載の音声信号処理装置。
Detecting a frequency spectral maximum level of the frequency spectral contained in the frequency domain signal from the previous SL output control unit, and outputs the detected frequency spectral as output data detection means
The audio signal processing apparatus according to claim 1 .
前記2系統の時系列音声信号を、所定区間に区分けして区分データとすると共に、隣り合う区分データ一部の区間オーバラップさせ、前記区分データを前記第1および第2の変換手段に供給する区分化手段と、
前記逆変換手段からの、各区分データに対応する前記時系列信号を窓関数処理し、同時刻の前記時系列信号同士を加算して出力する出力手段と
を備える請求項1に記載の音声信号処理装置。
The two time-series audio signals are divided into predetermined sections to be divided data , and some sections of adjacent divided data are overlapped, and the divided data is sent to the first and second conversion means. A segmentation means to supply;
Wherein from the inverse conversion means, the time-series signals corresponding to each partitioned data processing window function, the audio signal according to claim 1 and an output means for adding and outputting the time-series signal to each other at the same time Processing equipment.
前記2系統の時系列音声信号を、所定区間に区分けして区分データとすると共に、隣り合う区分データ一部の区間オーバラップさせ、窓関数処理して、前記区分データを前記第1および第2の変換手段に供給する区分化手段と、
前記逆変換手段からの前記時系列信号を、同時刻の時系列信号同士を加算して出力する
請求項1に記載の音声信号処理装置。
The time-series audio signals of the two systems, as well as the divided to partitioned data in a predetermined period, to overlap a portion of the section of the partitioned data adjacent processes window function, said partitioned data the first and Segmentation means for supplying to the second conversion means;
The time-series signal from the inverse conversion means, for adding and outputting the time series signals with each other at the same time
The audio signal processing apparatus according to claim 1 .
第1および第2の変換手段が、2系統の時系列音声信号を、それぞれ周波数領域信号に変換して、2系統の周波数分割スペクトルを得る変換工程と、
レベル算出手段が、前記変換工程で得られる前記周波数領域信号を用いて、前記2系統の周波数分割スペクトルの、対応する周波数分割スペクトル同士のレベル比またはレベル差を算出するレベル算出工程と、
それぞれ分離する音源に応じた乗算係数が予め設定された複数の乗算係数発生部が、前記レベル算出工程で算出された前記レベル比またはレベル差の入力に応じて前記乗算係数を発生する乗算係数発生工程と、
分離音源選択信号発生手段が、使用者による分離対象の前記音源の選択操作に応じて、制御信号を発生する分離音源選択信号発生工程と、
スイッチ手段が、前記分離音源選択信号発生手段からの前記制御信号に基づいて、前記複数の乗算係数発生部のうちから、前記第1および第2の変換手段の出力用とされ、前記分離対象の前記音源に応じた前記乗算係数を発生する2個の乗算係数発生部を選択するスイッチ工程と、
出力制御手段が、前記スイッチ工程で選択された前記2個の乗算係数発生部からの前記乗算係数を用いて、前記変換工程で得られた前記周波数領域信号を、前記2系統の周波数分割スペクトルそれぞれのレベルを制御して出力する出力制御工程と、
前記出力制御工程で得られる前記周波数領域信号を、時系列信号に変換する逆変換工程と、
を備える音声信号処理方法。
A conversion step in which the first and second conversion means convert the two systems of time-series audio signals into frequency domain signals, respectively, to obtain two systems of frequency division spectrum;
A level calculation step in which a level calculation means calculates a level ratio or a level difference between corresponding frequency division spectra of the two frequency division spectra using the frequency domain signal obtained in the conversion step;
Multiplication coefficient multiplication coefficient corresponding to the sound source to be separated, each plurality of multiplication coefficient generating unit that is set in advance, the multiplication coefficient occurs in response to an input of the level ratio or level difference calculated by the level calculation step Generation process,
Separating sound source selection signal generating means, in response to the selection operation of the sound source to be separated by the user, and separating the sound source selection signal generating step of generating a control signal,
Switching means, based on the control signal from the separating sound source selection signal generating means, from among the plurality of multiplication coefficient generating unit is an output of the first and second converting means, the separation subject a switch step of selecting two multiplier coefficient generating unit that occur the multiplication coefficient corresponding to the sound source,
Output control means, said selected in switch step by using the multiplication factor from the two multiplier coefficient generating unit, the frequency-domain signal obtained by the conversion process, the frequency division spectrum of the two systems an output control step of outputting the level of their respective control to,
An inverse conversion step of converting the frequency domain signal obtained in the output control step into a time-series signal;
An audio signal processing method comprising:
JP2008232767A 2008-09-11 2008-09-11 Audio signal processing apparatus and audio signal processing method Expired - Fee Related JP4840423B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008232767A JP4840423B2 (en) 2008-09-11 2008-09-11 Audio signal processing apparatus and audio signal processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008232767A JP4840423B2 (en) 2008-09-11 2008-09-11 Audio signal processing apparatus and audio signal processing method

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2004260397A Division JP4594681B2 (en) 2004-09-08 2004-09-08 Audio signal processing apparatus and audio signal processing method

Publications (2)

Publication Number Publication Date
JP2009010996A JP2009010996A (en) 2009-01-15
JP4840423B2 true JP4840423B2 (en) 2011-12-21

Family

ID=40325523

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008232767A Expired - Fee Related JP4840423B2 (en) 2008-09-11 2008-09-11 Audio signal processing apparatus and audio signal processing method

Country Status (1)

Country Link
JP (1) JP4840423B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9002035B2 (en) 2011-02-08 2015-04-07 Yamaha Corporation Graphical audio signal control

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110832881B (en) * 2017-07-23 2021-05-28 波音频有限公司 Stereo virtual bass enhancement

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2971162B2 (en) * 1991-03-26 1999-11-02 マツダ株式会社 Sound equipment
JPH0739000A (en) * 1992-12-05 1995-02-07 Kazumoto Suzuki Selective extract method for sound wave in optional direction
JPH06245300A (en) * 1992-12-21 1994-09-02 Victor Co Of Japan Ltd Sound image localization controller
JP3670562B2 (en) * 2000-09-05 2005-07-13 日本電信電話株式会社 Stereo sound signal processing method and apparatus, and recording medium on which stereo sound signal processing program is recorded
JP3755739B2 (en) * 2001-02-15 2006-03-15 日本電信電話株式会社 Stereo sound signal processing method and apparatus, program, and recording medium
JP3716918B2 (en) * 2001-09-06 2005-11-16 日本電信電話株式会社 Sound collection device, method and program, and recording medium
JP3810004B2 (en) * 2002-03-15 2006-08-16 日本電信電話株式会社 Stereo sound signal processing method, stereo sound signal processing apparatus, stereo sound signal processing program
JP3787103B2 (en) * 2002-03-15 2006-06-21 日本電信電話株式会社 Speech processing apparatus, speech processing method, speech processing program
JP4253232B2 (en) * 2002-08-30 2009-04-08 日本電信電話株式会社 Noise suppression method, noise suppression device, noise suppression program
JP2004109779A (en) * 2002-09-20 2004-04-08 Kobe Steel Ltd Speech processor
JP4128848B2 (en) * 2002-10-28 2008-07-30 日本電信電話株式会社 Pitch pitch determination method and apparatus, pitch pitch determination program and recording medium recording the program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9002035B2 (en) 2011-02-08 2015-04-07 Yamaha Corporation Graphical audio signal control

Also Published As

Publication number Publication date
JP2009010996A (en) 2009-01-15

Similar Documents

Publication Publication Date Title
JP4594681B2 (en) Audio signal processing apparatus and audio signal processing method
JP2006100869A (en) Sound signal processing apparatus and sound signal processing method
JP4580210B2 (en) Audio signal processing apparatus and audio signal processing method
KR101532505B1 (en) Apparatus and method for generating an output signal employing a decomposer
RU2666316C2 (en) Device and method of improving audio, system of sound improvement
EP3127115B1 (en) Method and apparatus for generating audio content
CN103650538B (en) Method and apparatus for decomposing a stereo recording using frequency-domain processing employing a spectral weights generator
EP2202729B1 (en) Audio signal interpolation device and audio signal interpolation method
JP2009188971A (en) Musical apparatus
RU2595541C2 (en) Device, method and computer program for generating output stereo signal to provide additional output channels
JP4840423B2 (en) Audio signal processing apparatus and audio signal processing method
EP3772224B1 (en) Vibration signal generation apparatus and vibration signal generation program
JP4797065B2 (en) Audio signal processing apparatus and surround signal generation method, etc.
JP5224586B2 (en) Audio signal interpolation device
JP4462350B2 (en) Audio signal processing apparatus and audio signal processing method
Hirvonen et al. Top-down strategies in parameter selection of sinusoidal modeling of audio
JP6630599B2 (en) Upmix device and program
WO2013176073A1 (en) Audio signal conversion device, method, program, and recording medium
JPH05100669A (en) Electronic musical instrument

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090825

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20091006

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110906

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110919

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141014

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees