JP4594681B2

JP4594681B2 - 音声信号処理装置および音声信号処理方法

Info

Publication number: JP4594681B2
Application number: JP2004260397A
Authority: JP
Inventors: 裕司山田; 越沖本
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-09-08
Filing date: 2004-09-08
Publication date: 2010-12-08
Anticipated expiration: 2024-09-08
Also published as: EP1635611A3; JP2006080708A; KR101220497B1; CN1747608A; US20060050898A1; EP1635611B1; CN1747608B; EP1635611A2; KR20060051054A

Description

この発明は、複数の音源からの音声信号により構成される２系統の入力音声時系列信号から、特定の音源の音声信号を分離するようにする音声信号処理装置および方法に関する。

レコードやコンパクトディスク等に記録された左右２チャンネルのステレオ音楽信号の各チャンネルの音声信号には、複数の音源からの音声信号により構成されるものが多数存在する。このようなステレオ音声信号では、２個のスピーカで再生した場合に、前記複数個の音源のそれぞれがスピーカ間に音像として定位するように、レベル差を付加してそれぞれのチャンネルに記録する場合が多い。

例えば、５個の音源１〜５の信号をＳ１〜Ｓ５とし、これを左右２チャンネルの音声信号ＳＬ，ＳＲとして記録する場合に、
ＳＬ＝Ｓ１＋０．９Ｓ２＋０．７Ｓ３＋０．４Ｓ４
ＳＲ＝Ｓ５＋０．４Ｓ２＋０．７Ｓ３＋０．９Ｓ４
のように、各音源１〜５の信号Ｓ１〜Ｓ５は、左右２チャンネルにおいてレベル差を付けて加算混合して、それぞれのチャンネルの音声信号を形成する。

このようにレベル差が付けられて音源１〜５の信号が左右２チャンネルの音声信号に振り分けられて記録されたステレオ音声信号を、例えば図１９に示すように、２個のスピーカ１Ｌ、１Ｒで再生すると、リスナ２は、各音源１，２，３，４，５に対応した音像Ａ，Ｂ，Ｃ，Ｄ，Ｅを知覚することができる。また、この音像Ａ，Ｂ，Ｃ，Ｄ，Ｅは、スピーカ１Ｌとスピーカ１Ｒとの間に定位することが知られている。

また、図２０に示すように、リスナ２がヘッドホン装置３を装着して、前述した左右２チャンネルのステレオ音声信号を、当該ヘッドホン装置３の左スピーカユニット３Ｌと、右スピーカユニット３Ｒとで再生した場合には、同図に示すように、リスナ２は、各音源１，２，３，４，５に対応した音像Ａ，Ｂ，Ｃ，Ｄ，Ｅを、頭内に知覚することができる。

以上のような一般的な２チャンネルステレオ音声信号から、特定の音源の音声信号だけ分離して出力することができれば、ボーカルの音声のみを抜き出したり、バイオリン等特定の音源の音声のみを抜き出したりすることができて、種々の用途に用いることができる。

このように、２チャンネルステレオ音声信号から、特定の音源の音声信号を分離して出力する方法の一例として、図２１に示すような方法が知られている。この図２１の例は、分離したい音源の音声信号を構成する周波数のエネルギーが大きい部分を取り出すバンドパスフィルタを、分離したい音源に応じて用意し、このバンドパスフィルタにより、分離したい音源の音声信号を、２チャンネルステレオ音声信号から分離するという方法である。

図２１の例は、左チャンネルの音声信号ＳＬから、音源ａの音声信号Ｓａと、音源bの音声信号Ｓｂを分離し、右チャンネルの音声信号ＳＲから、音源ｃの音声信号Ｓｃと、音源ｄの音声信号Ｓｄを分離する場合であり、音源分離処理回路７は、音源ａ〜ｄのそれぞれに対応する４個のバンドパスフィルタ３〜６からなる。

すなわち、図２１に示すように、左チャンネルの音声信号ＳＬは、音源ａの音声信号Ｓａを構成する周波数のエネルギーが大きい部分を取り出すバンドパスフィルタ３および音源ｂの音声信号Ｓｂを構成する周波数のエネルギーが大きい部分を取り出すバンドパスフィルタ４とに供給され、これらバンドパスフィルタ３および４のそれぞれから音声信号ＳａおよびＳｂを得るようにする。

また、右チャンネルの音声信号ＳＲは、音源ｃの音声信号Ｓｃを構成する周波数のエネルギーが大きい部分を取り出すバンドパスフィルタ５および音源ｄの音声信号Ｓｄを構成する周波数のエネルギーが大きい部分を取り出すバンドパスフィルタ６とに供給され、これらバンドパスフィルタ５および６のそれぞれから音声信号ＳｃおよびＳｄを得るようにする。

参考となる特許文献は、次の通りである。
特表２００３−５１５７７１号公報

しかし、上述した図２１の方法では、例えばベースギターとシンバルなどのように、音源を構成する中心周波数が異なる帯域にある場合は、ある程度、分離することが可能であるが、互いに共有する周波数帯域が多い音源同士の場合には、その周波数帯域の重なりや、バンドパスフィルタの選択領域から外れる各音源の高調波を含めて、良好な分離を行うことができないという問題があった。

この発明は、複数の音源の音声信号が含まれている２系統の音声信号から、特定の音源の音声信号を良好に分離することができる音声信号処理装置および方法を提供することを目的とする。

上記の課題を解決するために、請求項１の発明による音声信号処理装置は、
２系統の時系列音声信号を、それぞれ周波数領域信号に変換する第１および第２の変換手段と、
前記第１の変換手段と前記第２の変換手段からの対応する周波数分割スペクトル同士のレベル比またはレベル差を算出するレベル算出手段と、
前記レベル算出手段で算出された前記レベル比またはレベル差に応じた乗算係数であって、分離する音源に応じた乗算係数をそれぞれ発生する複数の乗算係数発生部と、
使用者の選択操作に応じて、制御信号を発生する分離音源選択信号発生手段と、
前記分離音源選択信号発生手段からの前記制御信号に基づいて、前記複数の乗算係数発生部のうちから、少なくとも２個の乗算係数発生部を選択するスイッチ手段と、
前記レベル算出手段における算出結果に応じた乗算係数であって、前記スイッチ手段により選択された乗算係数発生部からの乗算係数を用いて、前記第１の変換手段と前記第２の変換手段とのそれぞれから得られる周波数分割スペクトルのレベルを制御して出力する出力制御手段と、
前記出力制御手段からの周波数領域信号を、時系列信号に変換する逆変換手段と、
を備えることを特徴とする。

この請求項１の発明においては、２系統の時系列音声信号は、それぞれ第１および第２の変換手段により周波数領域信号に変換されて、それぞれ複数個の周波数分割スペクトルからなる成分に変換される。

そして、請求項１では、第１の変換手段と第２の変換手段からの対応する周波数分割スペクトル同士のレベル比またはレベル差が算出され、その算出結果に基づいて、第１の変換手段と第２の変換手段の少なくとも一方から得られる周波数分割スペクトルのレベルを制御して、前記レベル比または前記レベル差が予め定めた値およびその近傍となる周波数成分を抽出して出力する。

予め定めたレベル比あるいはレベル差が、特定の音源の音声信号が前記２系統の音声信号に混合されているレベル比あるいはレベル差に設定されていれば、当該特定の音源の音声信号を構成する周波数領域成分が少なくとも２系統の音声信号の少なくとも一方から抽出されて得られる。つまり、特定の音源の音声信号が抽出される。

また、請求項２の発明は、
請求項１に記載の音声信号処理装置において、
前記第１の変換手段と前記第２の変換手段からの、対応する周波数分割スペクトル同士の位相差を算出する位相差算出手段をさらに備え、
前記出力制御手段は、
前記レベル算出手段における算出結果および前記位相差算出手段で算出された前記位相差に基づいて、前記第１の変換手段と前記第２の変換手段の少なくとも一方から得られる周波数分割スペクトルのレベルを制御して出力する
ことを特徴とする。

請求項２の発明においては、２系統の時系列音声信号は、それぞれ第１および第２の変換手段により周波数領域信号に変換されて、それぞれ複数個の周波数分割スペクトルからなる成分に変換される。

そして、請求項２では、第１の変換手段と第２の変換手段からの対応する周波数分割スペクトル同士の位相差が算出され、その算出結果に基づいて、第１の変換手段と第２の変換手段の少なくとも一方から得られる周波数分割スペクトルのレベルを制御して、前記位相差が予め定めた値およびその近傍となる周波数成分を抽出して出力する。

予め定めた位相差が、特定の音源の音声信号が前記２系統の音声信号に混合されている位相差に設定されていれば、当該特定の音源の音声信号を構成する周波数領域成分が少なくとも２系統の音声信号の少なくとも一方から抽出されて得られる。つまり、特定の音源の音声信号が抽出される。

この発明によれば、２系統の音声信号に対して、所定のレベル比あるいはレベル差、または、所定の位相差をもって、混合された音源の音声信号は、前記２系統の音声信号の少なくとも一方から良好に分離される。

以下、この発明による音声信号処理装置および方法の実施形態を、図を参照しながら説明する。

以下の説明においては、前述もした左チャンネル音声信号ＳＬと、右チャンネル音声信号ＳＲとからなるステレオ音声信号から、音源分離する場合について説明する。

例えば、左チャンネル音声信号ＳＬと、右チャンネル音声信号ＳＲとに、音源１〜５の音声信号Ｓ１〜Ｓ５が、次の（式１）および（式２）に示すような割合で、レベル差が付けられて振り分けられて混合されているものとする。

ＳＬ＝Ｓ１＋０．９Ｓ２＋０．７Ｓ３＋０．４Ｓ４・・・（式１）
ＳＲ＝Ｓ５＋０．４Ｓ２＋０．７Ｓ３＋０．９Ｓ４・・・（式２）

この（式１）および（式２）を比べると、各音源１〜５の音声信号Ｓ１〜Ｓ５は、上記のようにレベル差を持って、左チャンネル音声信号ＳＬと右チャンネル音声信号ＳＲとに分配されているので、この分配比率によって、音源を再度、左チャンネル音声信号ＳＬおよび／または右チャンネル音声信号ＳＲとから振り分けることができれば、元の音源は分離できる。

以下の実施形態においては、各音源が一般的には異なるスペクトラム成分を有していることを利用して、左右２チャンネルステレオ音声信号のそれぞれを十分な解像度を有するＦＦＴ処理により周波数領域に変換して、多数個の周波数分割スペクトル成分に分割する。そして、それぞれのチャンネルの音声信号についての、対応する各周波数分割スペクトル同士のレベル比またはレベル差を求め、（式１），（式２）において、分離したい音源の音声信号についての分配比に対応するレベル比またはレベル差となっている周波数分割スペクトルを検出して、当該検出した周波数分割スペクトル成分を分離することにより、他の音源からの影響の少ない音源分離を可能にしている。

［第１の実施形態の音声信号処理装置の構成］
図１は、第１の実施形態の音声信号処理装置を示すブロック図である。２チャンネルステレオ信号のうちの左チャンネル音声信号ＳＬは、直交変換手段の例としてのＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ；高速フーリエ変換）部１１に供給されて、信号ＳＬがアナログ信号の時にはデジタル信号に変換された後、ＦＦＴ処理（高速フーリエ変換）されて、時系列音声信号が周波数領域データに変換される。なお、信号ＳＬがデジタル信号であるときには、ＦＦＴ部１１でのアナログ−デジタル変換は不要であることはいうまでもない。

一方、２チャンネルステレオ信号のうちの右チャンネル音声信号ＳＲは、直交変換手段の例としてのＦＦＴ部１２に供給されて、信号ＳＲがアナログ信号のときにはデジタル信号に変換された後、ＦＦＴ処理（高速フーリエ変換）されて、時系列音声信号が周波数領域データに変換される。なお、信号ＳＲがデジタル信号であるときには、ＦＦＴ部１２でのアナログ−デジタル変換は不要であることはいうまでもない。

この例のＦＦＴ部１１および１２は、同様の構成を備え、各時系列信号ＳＬ，ＳＲを、互いに異なる複数個の周波数の周波数分割スペクトル成分に分割する。ここで、周波数分割スペクトルとして得る周波数分割数は、音源の分離度の精度に応じた多数とされ、例えば５００以上、好ましくは４０００以上の周波数分割数とされる。この周波数分割数は、ＦＦＴ部におけるポイント数に応じて決定される。

各ＦＦＴ部１１およびＦＦＴ部１２からの周波数分割スペクトル出力Ｆ１およびＦ２は、それぞれ周波数分割スペクトル比較処理部１３と、周波数分割スペクトル制御処理部１４とに供給される。

周波数分割スペクトル比較処理部１３は、ＦＦＴ部１１およびＦＦＴ部１２からの周波数分割スペクトル成分Ｆ１，Ｆ２の、同じ周波数同士のレベル比を算出し、算出したレベル比を周波数分割スペクトル制御処理部１４に出力する。

周波数分割スペクトル制御処理部１４は、周波数分割スペクトル比較処理部１３からのレベル比の情報を受けて、当該レベル比が所定のものとなっている周波数分割スペクトル成分のみを、ＦＦＴ部１１およびＦＦＴ部１２の出力の少なくとも一方から抽出し、その抽出結果出力Ｆｅｘを逆ＦＦＴ部１５に出力する。なお、この例では、周波数分割スペクトル制御処理部１４は、レベル比が所定のものとなっている周波数分割スペクトル成分をＦＦＴ部１１およびＦＦＴ部１２の出力の両方から抽出して、抽出結果出力Ｆｅｘとして逆ＦＦＴ部１５に出力する。

周波数分割スペクトル制御処理部１４では、予め、使用者により、分離すべき音源に応じて、どのようなレベル比の周波数分割スペクトル成分を抽出するかが設定されている。したがって、周波数分割スペクトル制御処理部１４からは、使用者が分離したいとして設定されたレベル比で左右２チャンネルに振り分けられている音源の音声信号の周波数分割スペクトル成分のみが抽出されることになる。

逆ＦＦＴ部１５は、周波数分割スペクトル制御処理部１４からの抽出結果出力Ｆｅｘの周波数分割スペクトル成分を元の時系列信号に変換し、その変換出力信号を、使用者が分離したいとして設定した音源の音声信号ＳＯとして出力する。なお、出力音声信号をアナログ信号とする場合には、逆ＦＦＴ部１５の出力側にＤ／Ａ変換器が設けられて、アナログ音声信号に変換される。以下の実施形態においても同様である。

［周波数分割スペクトル比較処理部１３の構成］
周波数分割スペクトル比較処理部１３は、この例では、機能的には、図２に示すような構成を備える。すなわち、周波数分割スペクトル比較処理部１３は、レベル検出部２１，２２と、レベル比算出部２３，２４と、セレクタ２５とからなる。

レベル検出部２１は、ＦＦＴ部１１からの周波数分割スペクトル成分Ｆ１のそれぞれの周波数成分のレベルを検出し、その検出出力Ｄ１を出力する。また、レベル検出部２２は、ＦＦＴ部１２からの周波数分割スペクトル成分Ｆ２のそれぞれの周波数成分のレベルを検出し、その検出出力Ｄ２を出力する。この例では、各周波数分割スペクトルのレベルは、振幅スペクトルを検出する。なお、各周波数分割スペクトルのレベルとして、パワースペクトルを検出するようにしてもよい。

そして、レベル比算出部２３は、Ｄ１／Ｄ２を算出する。また、レベル比算出部２４は、その逆数のＤ２／Ｄ１を算出する。レベル比算出部２３およびレベル比算出部２４で算出されたレベル比は、セレクタ２５に供給され、このセレクタ２５から、その一方のレベル比が、出力レベル比ｒとして取り出される。

セレクタ２５には、分離すべきものとして使用者により設定された音源およびそのレベル比に応じて、レベル比算出部２３の出力と、レベル比算出部２４の出力のいずれを選択すべきかを選択制御するための選択制御信号ＳＥＬが供給される。このセレクタ２５から得られる出力レベル比ｒは、周波数分割スペクトル制御処理部１４に供給される。

この例においては、周波数分割スペクトル制御処理部１４において、分離すべき音源のレベル比として用いられる値は、常に、レベル比ｒ≦１とされている。つまり、周波数分割スペクトル制御処理部１４に入力されるレベル比ｒは、レベルの小さい方の周波数分割スペクトルのレベルを、レベルが大きい方の周波数分割スペクトルのレベルで割ったものとされている。

このため、周波数分割スペクトル制御処理部１４では、左チャンネルの音声信号ＳＬの方に、より多く含まれるように分配されている音源の信号を分離する場合には、レベル比算出部２３からのレベル比算出出力が使用され、逆に、右チャンネルの音声信号ＳＲの方に、より多く含まれるように分配されている音源の信号を分離する場合には、レベル比算出部２４からのレベル比算出出力が使用されている。

例えば、使用者が、分離すべき音源のレベル比として、左チャンネルおよび右チャンネルの信号の分配率の値ＰＬ，ＰＲ（ＰＬ，ＰＲは１以下の値）をそれぞれ設定入力するように定められているものとしたとき、設定された分配率の値ＰＬ，ＰＲが、ＰＲ／ＰＬ≦１であるときには、選択制御信号ＳＥＬは、セレクタ２５からレベル比算出部２３の出力（Ｄ２／Ｄ１）を、出力レベル比ｒとして選択する選択制御信号とされ、設定された分配率の値ＰＬ，ＰＲが、ＰＲ／ＰＬ＞１であるときには、選択制御信号ＳＥＬは、セレクタ２５からレベル比算出部２４の出力（Ｄ１／Ｄ２）を、出力レベル比ｒとして選択する選択制御信号とされる。

なお、使用者により設定された分配率の値ＰＬ，ＰＲが互いに等しい（レベル比ｒ＝１）ときには、セレクタ２５では、レベル比算出部２３の出力とレベル比算出部２４の出力とのいずれを選択してもよい。

［周波数分割スペクトル制御処理部１４の構成］
周波数分割スペクトル制御処理部１４は、この例では、機能的には、図３に示すような構成を備える。すなわち、周波数分割スペクトル制御処理部１４は、乗算係数発生部３１と、音源分離部３２とからなる。そして、音源分離部３２は、乗算部３３および３４と、加算部３５とからなる。

乗算部３３には、ＦＦＴ部１１からの周波数分割スペクトル成分が供給されると共に、乗算係数発生部３１からの乗算係数ｗが供給され、両者の乗算結果が、この乗算部３３から加算部３５に供給される。また、乗算部３４には、ＦＦＴ部１２からの周波数分割スペクトル成分が供給されると共に、乗算係数発生部３１からの乗算係数ｗが供給され、両者の乗算結果が、この乗算部３４から加算部３５に供給される。そして、加算部３５の出力は、周波数分割スペクトル制御処理部１４の出力Ｆｅｘとされる。

乗算係数発生部３１は、周波数分割スペクトル比較処理部１３のセレクタ２５からの出力レベル比ｒの出力を受けて、当該レベル比ｒに応じた乗算係数ｗを発生する。乗算係数発生部３１は、例えば、レベル比ｒを変数とした乗算係数ｗに関する関数発生回路により構成される。乗算係数発生部３１に使用する関数として、どのような関数が選ばれるかは、分離すべき音源に応じて使用者により設定された分配率の値ＰＬ，ＰＲによる。

乗算係数発生部３１に供給されるレベル比ｒは、周波数分割スペクトルの各周波数成分単位で変化するものであるので、乗算係数発生部３１からの乗算係数ｗも、周波数分割スペクトルの各周波数成分単位で変化することになる。

したがって、乗算部３３では、ＦＦＴ部１１からの各周波数分割スペクトルのレベルが、乗算係数ｗにより制御され、また、乗算部３４では、ＦＦＴ部１２からの各周波数分割スペクトルのレベルが、乗算係数ｗにより制御される。

図４に、乗算係数発生部３１としての関数発生回路に用いられる関数の例を示す。例えば、前記（式１）および（式２）で示された左右２チャンネルの音声信号ＳＬおよびＳＲから、左右チャンネルの音像間の中央に定位する音源の音声信号Ｓ３を分離する場合には、乗算係数発生部３１としては、図４（ａ）に示されるような特性の関数発生回路が用いられる。

図４（ａ）の関数の特性は、左右チャンネルのレベル比ｒが１、あるいは１に近い場合、つまり、左右チャンネルが同レベルあるいは同レベルに近い周波数分割スペクトル成分では、乗算係数ｗは１あるいは１近傍となり、左右チャンネルのレベル比ｒが約０．６以下の領域では、乗算係数ｗは０となっている。

したがって、セレクタ２５からのレベル比ｒが１、または１近傍となっている周波数分割スペクトル成分に対する乗算係数ｗは１、あるいは１に近い値となるので、乗算部３３および３４からは、当該周波数分割スペクトル成分は、ほぼそのままのレベルで出力される。一方、セレクタ２５からのレベル比ｒが、約０．６以下の値となっている周波数分割スペクトル成分に対する乗算係数ｗは０となるので、乗算部３３および３４からは、当該周波数分割スペクトル成分は、出力レベルが０とされて、出力されなくなる。

すなわち、乗算部３３および３４からは、多数個の周波数分割スペクトル成分のうち、左右同レベルおよびその近傍となっている周波数分割スペクトル成分は、ほぼそのままのレベルで出力され、左右チャンネルのレベル差が大きい周波数分割スペクトル成分は、出力レベルが０とされて出力されなくなる。この結果、左右２チャンネルの音声信号ＳＬ，ＳＲに同レベルで分配された音源の音声信号Ｓ３の周波数分割スペクトル成分のみが加算部３５から得られることになる。

また、例えば、前記（式１）および（式２）で示された左右２チャンネルの音声信号ＳＬおよびＳＲから、左右チャンネルの一方側にのみ定位する音源の音声信号Ｓ１またはＳ５を分離する場合には、乗算係数発生部３１としては、図４（ｂ）に示されるような特性の関数発生回路が用いられる。

この場合において、この実施形態においては、音声信号Ｓ１を分離する場合には、使用者は、分離する音源に対する左右分配率ＰＬ：ＰＲ＝１：０を設定入力する。あるいは、ＰＬ＝１、ＰＲ＝０のように設定入力する。このように使用者が設定すると、セレクタ２５には、レベル比算出部２３からのレベル比を選択するように制御する選択制御信号ＳＥＬが与えられる。

一方、音声信号Ｓ５を分離する場合には、使用者は、分離する音源に対する左右分配率ＰＬ：ＰＲ＝０：１を設定入力する。あるいは、ＰＬ＝０、ＰＲ＝１のように設定入力する。このように使用者が設定すると、セレクタ２５には、レベル比算出部２４からのレベル比を選択するように制御する選択制御信号ＳＥＬが与えられる。

図４（ｂ）の関数の特性は、左右チャンネルのレベル比ｒが０、あるいは０近傍の周波数分割スペクトル成分では、乗算係数ｗは１あるいは１近傍の値となり、左右チャンネルのレベル比ｒが約０．４以上の領域では、乗算係数ｗは０となっている。

したがって、セレクタ２５からのレベル比ｒが０、または０近傍となっている周波数分割スペクトル成分に対する乗算係数ｗは１、あるいは１に近い値となるので、乗算部３３および３４からは、当該周波数分割スペクトル成分は、ほぼそのままのレベルで出力される。一方、セレクタ２５からのレベル比ｒが、約０．４以上の値となっている周波数分割スペクトル成分に対する乗算係数ｗは０となるので、乗算部３３および３４からは、当該周波数分割スペクトル成分は、出力レベルが０とされて、出力されなくなる。

すなわち、乗算部３３および３４からは、多数個の周波数分割スペクトル成分のうち、左右チャンネルの一方が他方に比べて非常に大きいレベルとなっている周波数分割スペクトル成分は、ほぼそのままのレベルで出力され、左右チャンネルのレベル差が少ない周波数分割スペクトル成分は、出力レベルが０とされて出力されなくなる。この結果、左右２チャンネルの音声信号ＳＬ，ＳＲの一方にしか分配されていない音源の音声信号Ｓ１またはＳ５の周波数分割スペクトル成分のみが加算部３５から得られることになる。

また、例えば、前記（式１）および（式２）で示された左右２チャンネルの音声信号ＳＬおよびＳＲから、左右チャンネルに所定のレベル差を持って配分されている音源の音声信号Ｓ２またはＳ４を分離する場合には、乗算係数発生部３１としては、図４（ｃ）に示されるような特性の関数発生回路が用いられる。

すなわち、音声信号Ｓ２は、Ｄ２／Ｄ１（＝ＳＲ／ＳＬ）＝０．４／０．９＝０．４４のレベル比で、左右チャンネルに分配されている。また、音声信号Ｓ４は、Ｄ１／Ｄ２（＝ＳＬ／ＳＲ）＝０．４／０．９＝０．４４のレベル比で、左右チャンネルに分配されている。

この場合において、この実施形態においては、音声信号Ｓ２を分離する場合には、使用者は、分離する音源に対する左右分配率ＰＬ：ＰＲ＝０．９：０．４を設定入力する。あるいは、ＰＬ＝０．９、ＰＲ＝０．４のように設定入力する。このように使用者が設定すると、ＰＲ／ＰＬ＜１であるので、セレクタ２５には、レベル比算出部２３からのレベル比を選択するように制御する選択制御信号ＳＥＬが与えられる。

一方、音声信号Ｓ４を分離する場合には、使用者は、分離する音源に対する左右分配率ＰＬ：ＰＲ＝０．４：０．９を設定入力する。あるいは、ＰＬ＝０．４、ＰＲ＝０．９のように設定入力する。このように使用者が設定すると、ＰＲ／ＰＬ＞１であるので、セレクタ２５には、レベル比算出部２４からのレベル比を選択するように制御する選択制御信号ＳＥＬが与えられる。

図４（ｃ）の関数の特性は、左右チャンネルのレベル比ｒが、Ｄ２／Ｄ１（＝ＰＲ／ＰＬ）＝０．４／０．９＝０．４４では１、あるいはレベル比ｒが０．４４に近い周波数分割スペクトル成分では、乗算係数ｗは１あるいは１近傍となり、左右チャンネルのレベル比ｒが約０．４４近傍以外の領域では、乗算係数ｗは０となっている。

したがって、セレクタ２５からのレベル比ｒが０．４４、または０．４４近傍となっている周波数分割スペクトル成分に対する乗算係数ｗは１、あるいは１に近い値となるので、乗算部３３および３４からは、当該周波数分割スペクトル成分が、ほぼそのままのレベルで出力される。一方、セレクタ２５からのレベル比ｒが、約０．４４近傍以下の値および約０．４４近傍以上の値となっている周波数分割スペクトル成分に対する乗算係数ｗは０となるので、乗算部３３および３４からは、当該周波数分割スペクトル成分は、出力レベルが０とされて、出力されなくなる。

すなわち、乗算部３３および３４からは、多数個の周波数分割スペクトル成分のうち、左右チャンネルのレベル比が０．４４またはその近傍となっている周波数分割スペクトル成分は、ほぼそのままのレベルで出力され、左右チャンネルのレベル比ｒが、約０．４４近傍以下の値および約０．４４近傍以上の値となっている周波数分割スペクトル成分は、出力レベルが０とされて出力されなくなる。

この結果、左右２チャンネルの音声信号ＳＬ，ＳＲに、レベル比が０．４４で分配された音源の音声信号Ｓ２またはＳ４の周波数分割スペクトル成分のみが加算部３５から得られることになる。

以上のようにして、この実施形態によれば、左右２チャンネルに、所定の分配比率で分配された音源の音声信号を、その分配比率に基づいて、当該２チャンネルの音声信号から分離することができる。

この場合に、上述の実施形態では、分離したい音源の音声信号は、２チャンネルの音声信号の両方から抽出するようにしたが、必ずしも両チャンネルから分離抽出する必要はなく、一方のチャンネルのみから分離抽出するようにしてもよい。

また、上述の実施形態では、２系統の音声信号に対して分配された音源の信号のレベル比に基づいて、当該２系統の音声信号から前記音源の信号を分離するようにしたが、前記音源の信号の、２系統の音声信号に対するレベル差に基づいて、当該音源の信号を当該２系統の音声信号の少なくとも一方から分離抽出するようにすることもできる。

なお、以上の説明では、各音源が（式１）、（式２）に従って左右チャンネルに分配された左右２チャンネルステレオ信号を例にして説明したが、意図的に分配されない通常のステレオ音楽信号においても、図４に示した関数の選択特性に従って該当する音源を分離することができる。

また、例えば、他の例では図４（ｄ），（ｅ）等の様に、関数を変えることにより、分離するレベル比範囲を変える、広くする、狭くするなど、異なる音源選択性を持たせることもできる。

音源のスペクトラム構成に関しても、多くのステレオ音楽信号は異なるスペクトラムを持つ音源から構成されるが、それらの音源についても、上述と同様にして分離することが可能となる。

また、スペクトラム重複部が多い音源同士に関しても、ＦＦＴ部１１，１２における周波数分解能を上げることにより、例えば４０００ポイント以上のＦＦＴ回路を用いることにより、音源分離の質を更に向上させることができる。

［第２の実施形態の音声信号処理装置の構成］
上述した第１の実施形態では、２系統の音声信号、上述の例では、左右２チャンネルステレオ信号ＳＬ，ＳＲから、所定のレベル比あるいはレベル差を持って分配された１つの音源の音声信号を、少なくとも前記２系統の音声信号の一方から分離抽出するようにした。

以下に説明する第２の実施形態では、２系統の音声信号から１つの音源の音声信号のみを分離抽出するのではなく、２系統の音声信号に所定のレベル比あるいはレベル差を持って分配されている複数個の音源の音声信号を、同時に、分離抽出するように構成した場合である。

図５は、この第２の実施形態の音声信号処理装置の構成例を示すもので、図１の第１の実施形態に対応する部分には、同一符号を付してあるが、この例では、周波数分割スペクトル比較処理部１３および周波数分割スペクトル制御処理部１４の構成が、複数個の音源の音声信号を分離するための構成とされて図１に示した第１の実施形態とは異なるとともに、逆ＦＦＴ部は、分離抽出する出力数だけ設けられる。

図６は、この第２の実施形態における周波数分割スペクトル比較処理部１３と、周波数分割スペクトル制御処理部１４の部分の内部構成例を示すものである。

この第２の実施形態における周波数分割スペクトル比較処理部１３は、前述した第１の実施形態と同様にして、レベル検出部２１および２２、レベル比算出部２３および２４を備えて、ＦＦＴ部１１および１２からの各周波数分割スペクトル成分のレベル比Ｄ２／Ｄ１およびＤ１／Ｄ２を検出する。そして、この例においては、各レベル比算出部２３および２４からのレベル比検出出力は、分離する音源の数に等しい数の複数個のセレクタ２５１，２５２、・・・２５ｎにそれぞれ供給される。

これら複数個のセレクタ２５１，２５２、・・・２５ｎのそれぞれには、分離したい音源の音声信号の左右２チャンネルへの分配率に応じて、レベル比算出部２３および２４からのレベル比検出出力の一方を選択するための選択制御信号ＳＥＬ１、ＳＥＬ２、・・・、ＳＥＬｎが供給される。すなわち、前述したように、選択制御信号ＳＥＬ１、ＳＥＬ２、・・・、ＳＥＬｎは、分離したい音源の音声信号がより多く分配されているチャンネル側のレベルが分母となるレベル比をセレクタ２５１，２５２、・・・２５ｎのそれぞれが選択するような信号とされる。

周波数分割スペクトル制御処理部１４は、分離する音源の数に等しい数の複数個の乗算係数発生部３１１，３１２，・・・，３１ｎおよび音源分離部３２１，３２２，・・・，３２ｎを備える。そして、周波数分割スペクトル比較処理部１３の複数個のセレクタ２５１，２５２、・・・２５ｎのそれぞれからのレベル比ｒ１、ｒ２、・・・、ｒｎが、乗算係数発生部３１１，３１２，・・・，３１ｎの対応するものにそれぞれ供給される。

乗算係数発生部３１１，３１２，・・・，３１ｎのそれぞれには、前述の第１の実施形態と同様に、分離したい音源の音声信号の左右２チャンネル音声信号への分配比に対応した、レベル比に対する乗算係数の関数（前述の図４の関数例参照）が設定とされる。

したがって、これら乗算係数発生部３１１，３１２，・・・，３１ｎのそれぞれからは、セレクタ２５１，２５２、・・・２５ｎのそれぞれからのレベル比ｒ１、ｒ２、・・・、ｒｎのそれぞれに応じた乗算係数であって、分離する音源の音声信号に応じた乗算係数ｗ１、ｗ２、・・・、ｗｎが音源分離部３２１，３２２，・・・，３２ｎのそれぞれに供給される。

音源分離部３２１，３２２，・・・，３２ｎのそれぞれは、図示は省略するが、前述の音源分離部３２と同様に、出力Ｆ１およびＦ２のそれぞれと、乗算係数とを乗算する乗算部３３および３４と、両乗算部３３，３４の出力を加算する加算部３５とを備える構成を有している。

音源分離部３２１，３２２，・・・，３２ｎのそれぞれの乗算部３３，３４からは、それぞれ分離したい音源の音声信号の左右２チャンネル音声信号への分配比、あるいはその近傍のレベル比となっている周波数分割スペクトル成分は、ほぼそのままのレベルで出力され、その他の周波数分割スペクトル成分は、小レベルあるいはレベル０とされる。この結果、音源分離部３２１，３２２，・・・，３２ｎのそれぞれからは、それぞれ分離を希望する音源の周波数分割スペクトル成分の抽出出力Ｆｅｘ１、Ｆｅｘ２、・・・、Ｆｅｘｎが得られる。

そして、音源分離部３２１，３２２，・・・，３２ｎからの抽出出力Ｆｅｘ１、Ｆｅｘ２、・・・、Ｆｅｘｎのそれぞれが、対応する逆ＦＦＴ部１５１，１５２、・・・、１５ｎに供給されて、元の時系列信号としての音声信号に戻され、分離された音源の音声信号出力ＳＯ１，ＳＯ２，・・・，ＳＯｎとして出力される。

［第３の実施形態の音声信号処理装置の構成］
この第３の実施形態は、左右２チャンネルの音声信号の、それぞれのチャンネルの音声信号ＳＬ，ＳＲから、同じ音源の音声信号あるいは異なる音源の音声信号を分離抽出する場合の例である。

図７は、この第３の実施形態の音声信号処理装置の構成例を示すブロック図で、この例においても、ＦＦＴ部１１および１２からの周波数分割スペクトル成分からなる出力Ｆ１およびＦ２は、周波数分割スペクトル比較処理部１３および周波数分割スペクトル制御処理部１４に供給される。

そして、周波数分割スペクトル制御処理部１４からは、後述するように、左チャンネルの音声信号ＳＬから抽出された所定の音源の音声信号の周波数分割スペクトル成分出力ＦｅｘＬと、右チャンネルの音声信号ＳＲから抽出された所定の音源の音声信号の周波数分割スペクトル成分出力ＦｅｘＲとが得られ、それぞれ逆ＦＦＴ部１５Ｌおよび１５Ｒに供給されて、元の時系列の音声信号に戻され、この逆ＦＦＴ部１５Ｌおよび１５Ｒから所定の音源の出力音声信号ＳＯＬおよびＳＯＲとして導出される。

この第３の実施形態における周波数分割スペクトル比較処理部１３は、前述した第１の実施形態と同様にして、レベル検出部２１および２２、レベル比算出部２３および２４を備えて、ＦＦＴ部１１および１２からの各周波数分割スペクトル成分のレベル比Ｄ２／Ｄ１およびＤ１／Ｄ２を検出する。そして、この例においては、各レベル比算出部２３および２４からのレベル比検出出力は、左チャンネル用のセレクタ２５Ｌと、右チャンネル用のセレクタ２５Ｒとに、それぞれ供給される。

これらセレクタ２５Ｌ、２５Ｒのそれぞれには、左右２チャンネルのそれぞれから分離したい音源の音声信号の左右２チャンネルへの分配率に応じて、レベル比算出部２３および２４からのレベル比検出出力の一方を選択するための選択制御信号ＳＥＬＬ、ＳＥＬＲが供給される。すなわち、前述と同様に、選択制御信号ＳＥＬＬ、ＳＥＬＲは、分離したい音源の音声信号がより多く分配されているチャンネル側のレベルが分母となるレベル比を、セレクタ２５Ｌ、２５Ｒのそれぞれが選択するような信号とされる。

周波数分割スペクトル制御処理部１４は、左チャンネル用の乗算係数発生部３１Ｌおよび右チャンネル用の乗算係数発生部３１Ｒと、左チャンネル用の乗算部３２Ｌおよび右チャンネル用乗算部３２Ｒを備えて構成される。そして、周波数分割スペクトル比較処理部１３のセレクタ２５Ｌからのレベル比ｒＬが乗算係数発生部３１Ｌに供給され、また、セレクタ２５Ｒからのレベル比ｒＲが乗算係数発生部３１Ｒに供給される。

乗算係数発生部３１Ｌ、３１Ｒのそれぞれには、前述の第１の実施形態と同様に、分離したい音源の音声信号の左右２チャンネル音声信号への分配比に対応した、レベル比に対する乗算係数の関数（前述の図４の関数例参照）が設定とされる。

したがって、これら乗算係数発生部３１Ｌ、３１Ｒのそれぞれからは、セレクタ２５Ｌ、２５Ｒのそれぞれからのレベル比ｒＬ、ｒＲのそれぞれに応じた乗算係数であって、分離する音源の音声信号に応じた乗算係数ｗＬ、ｗＲが、乗算部３２Ｌ、３２Ｒのそれぞれに供給される。

これにより、乗算部３２Ｌ，３２Ｒのそれぞれからは、それぞれ分離したい音源の音声信号の左右２チャンネル音声信号への分配比、あるいはその近傍のレベル比となっている周波数分割スペクトル成分は、ほぼそのままのレベルで出力され、その他の周波数分割スペクトル成分は、小レベルあるいはレベル０とされる。この結果、乗算部３２Ｌ、３２Ｒのそれぞれからは、それぞれ分離を希望する音源の周波数分割スペクトル成分の抽出出力ＦｅｘＬ、ＦｅｘＲが得られる。

そして、乗算部３２Ｌ、３２Ｒからの抽出出力ＦｅｘＬ、ＦｅｘＲのそれぞれが、対応する逆ＦＦＴ部１５Ｌ、１５Ｒに供給されて、元の時系列信号としての音声信号に戻され、分離された音源の音声信号出力ＳＯＬ、ＳＯＲとして出力される。

この第３の実施形態において、乗算係数発生部３１Ｌ、３１Ｒに設定される関数は、左右２チャンネルから分離しようとする音源が異なるものに応じたものとされるだけでなく、左右２チャンネルに所定のレベル比あるいはレベル差で分配された同じ音源の音声信号を、分離するための関数とすることもできる。

後者の場合には、セレクタ２５Ｌおよび２５Ｒは、レベル比算出部２３，２４のうちの同じレベル比を選択して出力すると共に、乗算係数発生部３１Ｌおよび３１Ｒも同じ関数を用いるようにすれば良い。これにより、例えば、前述した左右２チャンネルのステレオ信号ＳＬ，ＳＲについての（式１）および（式２）における信号Ｓ２やＳ４を、左右チャンネルのそれぞれの音声信号ＳＬ，ＳＲから分離抽出して、出力ＳＯＬ，ＳＯＲとして導出することができる。

この場合において、乗算係数発生部３１Ｌ，３１Ｒに設定するレベル比対乗算係数の関数の特性としては、同一の音源を分離する際に、全く同じ特性とするのではなく、例えば図８（ａ），（ｂ）に示すように、関数の特性曲線を相似形とすると共に、レベル比ｒに対する乗算係数ｗの大きさを異ならせるようにすることもできる。

このようにすれば、例えば左右チャンネルにレベル差を持って分配されていた音源の音声信号を、左右チャンネルの音声信号ＳＬ，ＳＲから分離した音声信号ＳＯＬ，ＳＯＲとして、同一のレベルで出力することができるようになる。

［第４の実施形態の音声信号処理装置の構成；自動採譜装置］
図９は、図７の実施形態の変形例としての第４の実施形態を示すものである。この第４の実施形態は、音声信号処理装置を自動採譜装置の構成とするものである。

すなわち、図９の実施形態においては、図８における逆ＦＦＴ部１５Ｌ，１５Ｒの代わりに、周波数分割スペクトル最大レベル検出部１６Ｌ，１６Ｒを、周波数分割スペクトル制御処理部１４の出力側に設ける。

この実施形態では、分離された音源はそのスペクトル構成から、振幅レベルが最大レベルとなる周波数分割スペクトル成分が、その音源の基音であると判断されることに基づいて、周波数分割スペクトル最大レベル検出部１６Ｌ，１６Ｒは、周波数分割スペクトル制御処理部１４からの出力ＦｅｘＬ、ＦｅｘＲのうちから、前記振幅レベルが最大レベルとなる周波数分割スペクトル成分の周波数を検出し、その検出した周波数ｆ１、ｆ２とレベルＶ１、Ｖ２をデータとして出力する。

そして、図示は、省略したが、周波数分割スペクトル最大レベル検出部１６Ｌ，１６Ｒからの周波数ｆ１、ｆ２とレベルＶ１，Ｖ２とを、例えば音高検出装置に供給して音高を検出し、その検出した音高を記録媒体に記録したり、あるいは、譜面に記入する装置（採譜装置）を用いて譜面に記入したりすることができる。

以上のようにして、この第４の実施形態によれば、ステレオ音声信号から、まず音源を分離し、次に分離された音源のスペクトルを解析することにより、音源の音高を検出し、当該検出した音高に基づいて、自動採譜をすることができるので、複数の音源が混ざったステレオ音源から、自動採譜を可能とするシステムを実現することができる。

なお、図９の例では、左チャンネルと右チャンネルのそれぞれから音源を分離して、自動採譜を行なうようにしたが、図５および図６を用いて説明した第２の実施形態のように、２チャンネルの音声信号のそれぞれから、複数個の音源の周波数分割スペクトル成分を抽出する例においても、自動採譜装置を実現することができる。すなわち、図５において、逆ＦＦＴ部１５１，１５２，・・・，１５ｎのすべてを、周波数分割スペクトル最大レベル検出部に置き換え、その出力として最大レベルの周波数分割スペクトルの周波数およびレベルをそれぞれ得るようにすると共に、それら周波数およびレベル出力を、音高検出装置を介して採譜装置に供給するようにすれば良い。

また、この第４の実施形態の自動採譜装置は、第１の実施形態の場合に適用することもできるものである。また、後述する、音源分離を行なう音声信号処理装置の実施形態の場合にも適用可能であることは言うまでもない。

［第５の実施形態の音声信号処理装置の構成］
この第５の実施形態は、２チャンネルの音声信号から使用者が分離したい音源を動的に変更することができるようにした場合である。

すなわち、この第５の実施形態は、第３の実施形態に適用した場合で、２チャンネルの音声信号ＳＬ，ＳＲのそれぞれから別々の音源（同じ音源でもよい）の音声信号を分離するようにする場合において、それぞれ分離する音源を使用者が動的に選択変更できるようにした場合である。

図１０に示すこの第５の実施形態においては、周波数分割スペクトル制御処理部１４は、左チャンネル用の乗算係数発生部として、複数個の乗算係数発生部３１Ｌ１，３１Ｌ２，・・・，３１Ｌｎを設けると共に、それら複数個の乗算係数発生部３１Ｌ１，３１Ｌ２，・・・，３１Ｌｎのいずれか一つからの乗算係数を選択して、当該選択した乗算係数を、乗算係数ｗＬとして乗算部３２Ｌに供給するスイッチ回路３６Ｌを備える。

また、同様にして、周波数分割スペクトル制御処理部１４は、右チャンネル用の乗算係数発生部として、複数個の乗算係数発生部３１Ｒ１，３１Ｒ２，・・・，３１Ｒｎを設けると共に、それら複数個の乗算係数発生部３１Ｒ１，３１Ｒ２，・・・，３１Ｒｎのいずれか一つからの乗算係数を選択して、当該選択した乗算係数を、乗算係数ｗＲとして乗算部３２Ｒに供給するスイッチ回路３６Ｒを備える。

複数個の乗算係数発生部３１Ｌ１，３１Ｌ２，・・・，３１Ｌｎおよび３１Ｒ１，３１Ｒ２，・・・，３１Ｒｎのそれぞれには、例えば、左右チャンネルのレベル比が種々の値となる音源を分離するために用いるレベル比対乗算係数の関数が、設定される。

また、周波数分割スペクトル比較処理部１３には、レベル比算出部２３，２４のレベル比算出出力を受けて、いずれか一方のレベル比算出出力を、乗算係数発生部３１Ｌ１，３１Ｌ２，・・・，３１Ｌｎ，３１Ｒ１，３１Ｒ２，・・・，３１Ｒｎのそれぞれに供給する選択分配回路２５０が設けられる。

そして、この第５の実施形態においては、分離音源選択信号発生部１７が設けられる。この分離音源選択信号発生部１７は、後述するように選択操作手段を通じた、使用者による、分離する音源の選択操作に応じた信号Ｍａを受けて、選択分配回路２５０に供給する選択信号ＳＥＬＴを発生すると共に、スイッチ回路３６Ｌをスイッチ制御する信号ＳＷＬおよびスイッチ回路３６Ｒをスイッチ制御する信号ＳＷＲを発生する。

図示は省略するが、この例の音声信号処理装置は、例えば選択操作つまみやボタン、タッチパネル付きＬＣＤなどの表示部を通じたグラフィカル・ユーザ・インターフェースを通じて、使用者からの分離する音源の選択操作を受け付けるようにする。このとき、選択操作対象となるのは、乗算係数発生部３１Ｌ１，３１Ｌ２，・・・，３１Ｌｎ，３１Ｒ１，３１Ｒ２，・・・，３１Ｒｎに設定された関数により分離可能な複数個の音源である。

例えば、分離可能な複数の音源としては、左チャンネルの音像定位位置から右チャンネルの音像定位位置の間において、音像定位位置を徐々に変更するようなものとすることができる。

この場合において、使用者は、左チャンネルおよび右チャンネルのそれぞれについて、独立に分離する音源を指定することができるようにされている。

例えば、左チャンネルの乗算係数発生部３１Ｌ１からの乗算係数によって左チャンネルの音声信号ＳＬから分離可能な音源が、使用者によって、前記選択操作つまみやボタン、あるいはグラフィカル・ユーザ・インターフェースを通じて選択されたときには、その選択操作に応じた信号Ｍａを受けた分離音源選択信号発生部１７は、当該信号Ｍａに対応したスイッチ制御信号ＳＷＬおよび選択信号ＳＥＬＴを発生する。

そして、このとき、スイッチ回路３６Ｌは、分離音源選択信号発生部１７からのスイッチ制御信号ＳＷＬにより、乗算係数発生部３１Ｌ１を選択する状態に切り換えられ、また、選択分配回路２５０は、選択信号ＳＥＬＴにより、レベル比算出部２３，２４の一方（レベル比が１以下になる方）が選択されて、乗算係数発生部３１Ｌ１に供給される。

これにより、乗算部３２Ｌからは、選択指定された通りの音源の周波数分割スペクトル成分ＦｅｘＬが得られ、逆ＦＦＴ部１５Ｌにより、元の時系列の音声信号に戻されて出力ＳＯＬとして出力される。

右チャンネルにおいても、同様にして、使用者により選択設定された、分離したい音源の音声信号が抽出される。

なお、図１０の第５の実施形態は、２チャンネルの音声信号のそれぞれから、所定の音源の音声信号をそれぞれ分離抽出する場合（第３の実施形態に適用した場合）であるが、第５の実施形態は、第１の実施形態や第２の実施形態にも適用可能である。

すなわち、例えば第１の実施形態に適用する場合には、図３において、乗算係数発生部３１の代わりに複数個の乗算係数発生部を設けると共に、それらの複数個の乗算係数発生部と、音源分離部３２との間に、複数個の乗算係数発生部の１つからの乗算係数を音源分離部３２に供給するようにするスイッチ回路を設ける。さらに、使用者の選択操作信号Ｍａを受け付け、スイッチ回路をスイッチ制御すると共に、乗算係数発生部にレベル比算出部２３，２４の出力のうちの適切な方のレベルを供給するように制御する信号を発生する分離音源選択信号発生部を設けるようにする。

また、例えば第２の実施形態に適用する場合には、図６において、乗算係数発生部３１１，３１２，・・・，３１ｎのそれぞれの代わりに複数個の乗算係数発生部を設けると共に、それらの複数個の乗算係数発生部と、音源分離部３２１，３２２，・・・，３２ｎのそれぞれとの間に、複数個の乗算係数発生部の１つからの乗算係数を音源分離部３２１，３２２，・・・，３２ｎのそれぞれに供給するようにする複数個のスイッチ回路を設ける。さらに、使用者の選択操作信号Ｍａを受け付け、各スイッチ回路をスイッチ制御するスイッチ制御信号を発生すると共に、乗算係数発生部のそれぞれにレベル比算出部２３，２４の出力のうちの適切な方のレベルを供給するように制御する信号を発生する分離音源選択信号発生部を設けるようにする。

［第６の実施形態の音声信号処理装置の構成］
以上の実施形態においては、２チャンネルの音声信号に、各音源の音声信号が分配されるときの位相は、２チャンネルで同相としたが、逆相で音源の音声信号が分配される場合もある。一例として、次の（式３）および（式４）のように、６個の音源ＭＳ１〜ＭＳ６からの音声信号Ｓ１〜Ｓ６が左右２チャンネルに分配されたステレオ音声信号ＳＬ，ＳＲを考える。

ＳＬ＝Ｓ１＋０．９Ｓ２＋０．７Ｓ３＋０．４Ｓ４＋０．７Ｓ６・・・（式３）
ＳＲ＝Ｓ５＋０．４Ｓ２＋０．７Ｓ３＋０．９Ｓ４−０．７Ｓ６・・・（式４）

すなわち、音源ＭＳ３の音声信号Ｓ３と、音源ＭＳ６の音声信号Ｓ６とは、左右チャンネルに、それぞれ同レベルで分配されているが、音源ＭＳ３の音声信号Ｓ３は、左右チャンネルに同相で分配されているのに対して、ＭＳ６の音声信号Ｓ６は、左右チャンネルに逆相で分配されている。

このため、上述の実施の形態と同様にして、位相を考慮せず、レベル比あるいはレベル差のみを用いて音源ＭＳ３の音声信号Ｓ３または音源ＭＳ６の音声信号Ｓ６のいずれかを分離抽出しようとしても、音声信号Ｓ３とＳ６とは、同レベルで左右チャンネルに分配されているので、いずれか一方を分離抽出することはできない。

そこで、この第６の実施形態では、上述の実施形態と同様に、レベル比あるいはレベル差を用いて音声成分を分離した後、位相差を用いて更なる分離をすることにより、音源ＭＳ３の音声信号Ｓ３と音源ＭＳ６の音声信号Ｓ６をも分離して出力することができるようにする。

図１１は、この第６の実施形態の音声信号処理装置の構成例を示すブロック図である。この第６の実施形態の音声信号処理装置における周波数分割スペクトル比較処理部１０３は、レベル比較処理部１０３１と、位相比較処理部１０３２とを備える。

また、この第６の実施形態における周波数分割スペクトル制御処理部１０４は、第１周波数分割スペクトル制御処理部１０４１と、位相差に基づいた音源分離処理を実行するための第２の周波数分割スペクトル制御処理部１０４２とを備える。

図１２は、この第６の実施形態における周波数分割スペクトル比較処理部１０３と、周波数分割スペクトル制御処理部１０４の部分の詳細構成例を示すブロック図である。すなわち、周波数分割スペクトル比較処理部１０３のレベル比較処理部１０３１は、前述した第１の実施形態の周波数分割スペクトル比較処理部１３と同様の構成の備え、レベル検出部２１，２２と、レベル比算出部２３，２４と、セレクタ２５とからなる。

そして、周波数分割スペクトル制御処理部１０４の第１周波数分割スペクトル制御処理部１０４１も、前述の第１の実施形態の周波数分割スペクトル制御処理部１４とほぼ同様の構成を備え（周波数分割スペクトル制御処理部１０４１は、加算部３５は有しない）、乗算係数発生部３１と、乗算部３３および３４とからなる音源分離部３２の構成とされている。

そして、図１１および図１２に示すように、レベル比較処理部１０３１からのレベル比出力ｒは、第１の実施形態と全く同様にして、第１周波数分割スペクトル制御処理部１０４１の乗算係数発生部３１に供給され、この乗算係数発生部３１から当該乗算係数発生部３１に設定された関数に応じた乗算係数ｗｒが発生し、乗算部３３，３４に供給される。

乗算部３３には、ＦＦＴ部１１からの周波数分割スペクトル成分が供給されており、当該周波数分割スペクトル成分と乗算係数ｗｒとの乗算結果が、この乗算部３３から得られる。また、乗算部３４には、ＦＦＴ部１２からの周波数分割スペクトル成分が供給されており、当該周波数分割スペクトル成分と乗算係数ｗｒとの乗算結果が、この乗算部３４から得られる。

すなわち、乗算部３３，３４からは、ＦＦＴ部１１，１２からの周波数分割スペクトル成分のそれぞれが、乗算係数発生部３１からの乗算係数ｗｒに応じてレベル制御された状態の出力が得られる。

前述したように、乗算係数発生部３１は、レベル比ｒを変数とした乗算係数ｗｒに関する関数発生回路により構成される。乗算係数発生部３１に使用する関数として、どのような関数が選ばれるかは、分離すべき音源の左右２チャンネルの音声信号への分配率による。

例えば、乗算係数発生部３１には、図４に示したような特性の、乗算係数ｗｒのレベル比に関する関数が設定される。例えば、左右２チャンネルに同レベルで分配される音源の音声信号を分離抽出する場合には、前述したように、図４（ａ）に示した特定の関数が、乗算係数発生部３１に設定される。

この第６の実施形態では、乗算部３３，３４の出力は、それぞれ周波数分割スペクトル比較処理部１０３の位相比較処理部１０３２に供給されると共に、周波数分割スペクトル制御処理部１０４の第２周波数分割スペクトル制御処理部１０４２に供給される。

位相比較処理部１０３２は、図１２に示すように、乗算部３３，３４の出力の位相差φを検出する位相差検出部２６からなり、その位相差φの情報を第２周波数分割スペクトル制御処理部１０４２に供給する。

第２周波数分割スペクトル制御処理部１０４２は、２個の乗算係数発生部３０１および３０５と、乗算部３０２，３０３および乗算部３０６，３０７と、加算部３０４および３０８とからなる。

そして、乗算部３０２には、第１周波数分割スペクトル制御処理部１０４１の乗算部３３の出力が供給されると共に、乗算係数発生部３０１からの乗算係数ｗｐ１が供給され、両者の乗算結果が、この乗算部３０２から加算部３０４に供給される。また、乗算部３０３には、第１周波数分割スペクトル制御処理部１０４１の乗算部３４の出力が供給されると共に、乗算係数発生部３０１からの乗算係数ｗｐ１が供給され、両者の乗算結果が、この乗算部３０３から加算部３０４に供給される。そして、加算部３０４の出力は、周波数分割スペクトル制御処理部１０４の第１の出力Ｆｅｘ１とされる。

また、乗算部３０６には、第１周波数分割スペクトル制御処理部１０４１の乗算部３３の出力が供給されると共に、乗算係数発生部３０５からの乗算係数ｗｐ２が供給され、両者の乗算結果が、この乗算部３０６から加算部３０８に供給される。また、乗算部３０７には、第１周波数分割スペクトル制御処理部１０４１の乗算部３４の出力が供給されると共に、乗算係数発生部３０５からの乗算係数ｗｐ２が供給され、両者の乗算結果が、この乗算部３０７から加算部３０８に供給される。そして、加算部３０８の出力は、周波数分割スペクトル制御処理部１０４の第２の出力Ｆｅｘ２とされる。

乗算係数発生部３０１および３０５は、位相差検出部２６からの位相差φの情報を受けて、当該位相差φに応じた乗算係数ｗｐ１およびｗｐ２を発生する。乗算係数発生部３０１および３０５は、位相差φを変数とした乗算係数ｗｐに関する関数発生回路により構成される。乗算係数発生部３０１および３０５に使用する関数として、どのような関数が選ばれるかは、分離すべき音源の前記２チャンネルに対する位相差に応じて、使用者により設定される。

乗算係数発生部３０１および３０５に供給される位相差φは、周波数分割スペクトルの各周波数成分単位で変化するものであるので、乗算係数発生部３０１および３０５からの乗算係数ｗｐ１およびｗｐ２も、周波数分割スペクトルの各周波数成分単位で変化することになる。

したがって、乗算部３０２および乗算部３０６では、乗算部３３からの各周波数分割スペクトルのレベルが、乗算係数ｗｐ１およびｗｐ２により制御され、また、乗算部３０３および乗算部３０７では、乗算部３４からの各周波数分割スペクトルのレベルが、乗算係数ｗｐ１およびｗｐ２により制御される。

図１３に、乗算係数発生部３０１および３０５としての関数発生回路に用いられる関数の例を示す。

図１３（ａ）の関数の特性は、左右チャンネルの位相差φが０、あるいは０に近い場合、つまり、左右チャンネルが同相あるいは同相に近い周波数分割スペクトル成分では、乗算係数ｗｐは１あるいは１近傍となり、左右チャンネルの位相差φが約π／４以上の領域では、乗算係数ｗｐは０となっている。

例えば乗算係数発生部３０１に、この図１３（ａ）の特性の関数が設定されている場合において、位相差検出部２６からの位相差φが０、または０近傍となっている周波数分割スペクトル成分に対する乗算係数ｗｐは１、あるいは１に近い値となるので、乗算部３０２、３０３からは、当該周波数分割スペクトル成分は、ほぼそのままのレベルで出力される。一方、位相差検出部２６からの位相差φが、約π／４以上の値となっている周波数分割スペクトル成分に対する乗算係数ｗｐは０となるので、乗算部３０２，３０３からは、当該周波数分割スペクトル成分は、出力レベルが０とされて、出力されなくなる。

すなわち、乗算部３０２，３０３からは、多数個の周波数分割スペクトル成分のうち、左右同相およびその近傍の位相差となっている周波数分割スペクトル成分は、ほぼそのままのレベルで出力され、左右チャンネルの位相差が大きい周波数分割スペクトル成分は、出力レベルが０とされて出力されなくなる。この結果、左右２チャンネルの音声信号ＳＬ，ＳＲに同相で分配された音源の音声信号の周波数分割スペクトル成分のみが加算部３５から得られることになる。

つまり、この図１３（ａ）の特性の関数は、左右２チャンネルに同相で分配されている音源の信号を抽出する際に用いられる。

また、図１３（ｂ）の関数の特性は、左右チャンネルの位相差φがπ、あるいはπに近い場合、つまり、左右チャンネルが逆相あるいは逆相に近い周波数分割スペクトル成分では、乗算係数ｗｐは１あるいは１近傍となり、左右チャンネルの位相差φが約３π／４以下の領域では、乗算係数ｗｐは０となっている。

例えば乗算係数発生部３０１に、この図１３（ｂ）の特性の関数が設定されている場合において、位相差検出部２６からの位相差φがπ、またはπ近傍となっている周波数分割スペクトル成分に対する乗算係数ｗｐは１、あるいは１に近い値となるので、乗算部３０２、３０３からは、当該周波数分割スペクトル成分は、ほぼそのままのレベルで出力される。一方、位相差検出部２６からの位相差φが、約３π／４以下の値となっている周波数分割スペクトル成分に対する乗算係数ｗｐは０となるので、乗算部３０２，３０３からは、当該周波数分割スペクトル成分は、出力レベルが０とされて、出力されなくなる。

すなわち、乗算部３０２，３０３からは、多数個の周波数分割スペクトル成分のうち、左右逆相およびその近傍の位相差となっている周波数分割スペクトル成分は、ほぼそのままのレベルで出力され、左右チャンネルの位相差が小さい周波数分割スペクトル成分は、出力レベルが０とされて出力されなくなる。この結果、左右２チャンネルの音声信号ＳＬ，ＳＲに逆相で分配された音源の音声信号の周波数分割スペクトル成分のみが加算部３０４から得られることになる。

つまり、この図１３（ｂ）の特性の関数は、左右２チャンネルに逆相で分配されている音源の信号を抽出する際に用いられる。

同様にして、図１３（ｃ）の特性の関数は、左右チャンネルの位相差φが約π／２、あるいは約π／２に近い場合の周波数分割スペクトル成分では、乗算係数ｗｐは１あるいは１近傍となり、その他の位相差φの領域では、乗算係数ｗｐは０となっている。したがって、この図１３（ｃ）の特性の関数は、左右２チャンネルに、互いに約π／２だけ異なる位相で分配されている音源の信号を抽出する際に用いられる。

その他、乗算係数発生部３０１および３０５には、分離する音源の音声信号の２チャンネルへ分配する際の位相差に応じて、図１３（ｄ）や（ｅ）に示すような特性の関数を設定することもできる。

以上のようにして、周波数分割スペクトル制御処理部１０４から得られる第１の出力Ｆｅｘ１および第２の出力Ｆｅｘ２は、逆ＦＦＴ部１５０１および１５０２にそれぞれ供給されて、元の時系列の音声信号に戻され、第１および第２の出力信号ＳＯ１０およびＳＯ２０として導出される。これら第１および第２の出力信号ＳＯ１０およびＳＯ２０をアナログ信号として導出する場合には、逆ＦＦＴ部１５０１および１５０２の出力段にＤ／Ａ変換器が設けられる。

この第６の実施形態において、例えば、前記（式３）および（式４）で示された左右２チャンネルの音声信号ＳＬおよびＳＲから、同レベルであるが、同相で左右チャンネルに分配された音源ＭＳ３の音声信号Ｓ３と、逆相で左右チャンネルに分配された音源ＭＳ６の音声信号Ｓ６とを、出力Ｆｅｘ１およびＦｅｘ２として分離する場合には、乗算係数発生部３１には、図４（ａ）に示したような特定の関数が設定され、また、乗算係数発生部３０１には、図１３（ａ）に示すような特性となる関数が設定され、さらに乗算係数発生部３０５には、図１３（ｂ）に示すような特性となる関数が設定される。

すると、図１１および図１２に示すように、周波数分割スペクトル制御処理部１０４の第１周波数分割スペクトル制御処理部１０４１の乗算部３３からは、左チャンネルの音声信号ＳＬをＦＦＴした信号（周波数分割スペクトル）のうちの、（Ｓ３＋Ｓ６）なる周波数分割スペクトル成分が得られ、また、乗算部３４からは、右チャンネルの音声信号ＳＲをＦＦＴした信号（周波数分割スペクトル）のうちの、（Ｓ３−Ｓ６）なる周波数分割スペクトル成分が得られる。つまり、信号Ｓ３とＳ６とは、左右チャンネルに同レベルで分配されているので、第１周波数分割スペクトル制御処理部１０４１では、分離できずに出力されることになる。

しかし、この第６の実施形態では、信号Ｓ３とＳ６とが逆相で左右チャンネルに分配されていることを利用して、次のようにして、当該信号Ｓ３と、Ｓ６とが分離される。

すなわち、乗算部３３および３４の出力は、周波数分割スペクトル比較処理部１０３の位相比較処理部１０３２を構成する位相差検出部２６に供給されて、両出力の位相差φが検出される。そして、この位相差検出部２６で検出された位相差φの情報は、乗算係数発生部３０１に供給されるとともに、乗算係数発生部３０５に供給される。

乗算係数発生部３０１では、図１３（ａ）に示すような特性の関数が設定されていることから、乗算部３０２，３０３では、左右チャンネルに同相で分配されている音源の音声信号を抽出する。すなわち、周波数分割スペクトル成分（Ｓ３＋Ｓ６）と、周波数分割スペクトル成分（Ｓ３−Ｓ６）のうちの、同相関係にある音源ＭＳ３の音声信号Ｓ３の周波数分割スペクトル成分のみが乗算部３０２および３０３のそれぞれから得られ、加算部３０４に供給される。

したがって、加算部３０４からは、音源ＭＳ３の音声信号Ｓ３の周波数分割スペクトル成分が、出力信号Ｆｅｘ１として導出され、逆ＦＦＴ部１５０１に供給される。そして、分離された音声信号Ｓ３は、逆ＦＦＴ部１５０１で時系列信号に戻され、出力信号ＳＯ１０として出力される。

一方、乗算係数発生部３０５では、図１３（ｂ）に示すような特性の関数が設定されていることから、乗算部３０６，３０７では、左右チャンネルに逆相で分配されている音源の音声信号を抽出する。すなわち、周波数分割スペクトル成分（Ｓ３＋Ｓ６）と、周波数分割スペクトル成分（Ｓ３−Ｓ６）のうちの、逆相関係にある音源ＭＳ６の音声信号Ｓ６の周波数分割スペクトル成分のみが乗算部３０６および３０７のそれぞれから得られ、加算部３０８に供給される。

したがって、加算部３０８からは、音源ＭＳ６の音声信号Ｓ６の周波数分割スペクトル成分が、出力信号Ｆｅｘ２として導出され、逆ＦＦＴ部１５０２に供給される。そして、分離された音声信号Ｓ６は、逆ＦＦＴ部１５０２で時系列信号に戻され、出力信号ＳＯ２０として出力される。

なお、図１１および図１２に示した実施形態では、第２周波数分割スペクトル制御処理部１０４２では、第１周波数分割スペクトル制御処理部１０４１においてレベル比を用いては分離できない２つの信号、上述の例では、同相の信号Ｓ３と、逆相の信号Ｓ６とを、それぞれ乗算係数および乗算部を用いて、それぞれ分離するようにしたが、それらレベル比を用いては分離できない２つの信号の一方を、位相差φと乗算係数を用いて、分離したら、当該分離した信号を、第１周波数分割スペクトル制御処理部１０４１からの信号の和（乗算部３３の出力と乗算部３４の出力を加算した信号）から減算することにより、前記２つの信号の他方の信号を、分離するようにすることもできる。

なお、図１１、図１２の実施形態では、２個の分離音源信号を得るようにしたが、出力する分離音源信号は、１個でもよい。また、第２の実施形態のように、より多数個の音源の音声信号を同時に分離する場合にも、この第６の実施形態を適用することができるのは言うまでもない。

また、図１１、図１２の実施形態は、２系統の周波数分割スペクトルのレベル比に基づいて、２系統の音声信号に同レベルで分配されている音源成分を抽出した後、その抽出結果の２系統の周波数分割スペクトルについての位相差に基づいて、所望の音源分離を行なうようにしたが、例えば入力音声信号が、（Ｓ３＋Ｓ６）および（Ｓ３−Ｓ６）のような、２系統の音声信号の場合には、位相差のみに基づいて、音源分離を行なうことができることは言うまでもない。

また、第４の実施形態として説明した自動採譜装置にも、この第６の実施形態は適用可能である。

［第７の実施形態の音声信号処理装置］
図１４は、第７の実施形態の音声信号処理装置の構成例を示すブロック図である。この図１４の例においては、左右２チャンネルの音声信号ＳＬ、ＳＲの一方、図の例では、左チャンネルの音声信号ＳＬから、デジタルフィルタを用いて、左右チャンネルに所定のレベル比あるいはレベル差で分配された音源の音声信号を分離するようにする。

すなわち、左チャンネルの音声信号（この例ではデジタル信号）ＳＬは、タイミング調整用の遅延部４１を通じてデジタルフィルタ４２に供給される。このデジタルフィルタ４２には、後述するようにして、分離したい音源の音声信号の、左右チャンネルに対するレベル比に基づいて形成されるフィルタ係数が供給されて、前記分離したい音源の音声信号が、このデジタルフィルタ４２から抽出されるようにされる。

前記フィルタ係数は、次のようにして形成される。先ず、左右チャンネルの音声信号ＳＬおよびＳＲ（デジタル信号）は、ＦＦＴ部４３およびＦＦＴ部４４にそれぞれに供給されて、ＦＦＴ処理されて時系列音声信号が周波数領域データに変換され、ＦＦＴ部４３およびＦＦＴ部４４のそれぞれから、周波数が互いに異なる多数個の周波数分割スペクトル成分が出力される。

ＦＦＴ部４３および４４のそれぞれからの周波数分割スペクトル成分のそれぞれは、レベル検出部４５，４６に供給されて、その振幅スペクトルあるいはパワースペクトルが検出されることにより、そのレベルが検出される。そして、レベル検出部４５，４６の各々で検出されたレベル値Ｄ１，Ｄ２は、レベル比算出部４７に供給され、そのレベル比Ｄ１／Ｄ２またはＤ２／Ｄ１の一方が算出される。

このレベル比算出部４７で算出されたレベル比の値は、重み付け係数発生部４８に供給される。この重み付け係数発生部４８は、前述の実施形態の乗算係数発生部に対応するものであり、分離したい音源の音声信号の、左右２チャンネルの音声信号に対する混合レベル比およびその近傍のレベル比では大きな値の重み付け係数を出力し、その他のレベル比では小さな重み付け係数を出力する。この重み付け係数は、ＦＦＴ部４３，４４の出力である周波数分割スペクトル成分の各周波数ごとに得られる。

この重み付け係数発生部４８からの周波数領域の重み付け係数は、フィルタ係数生成部４９に供給され、時間軸領域のフィルタ係数に変換される。このフィルタ係数生成部４９は、周波数領域の重み付け係数を、逆ＦＦＴを行なうことにより、デジタルフィルタ４２に供給するフィルタ係数を得る。

そして、このフィルタ係数生成部４９からのフィルタ係数が、デジタルフィルタ４２に供給されて、デジタルフィルタ４２から、重み付け係数発生部４８に設定された関数に応じた音源の音声信号成分が分離抽出されて、出力ＳＯとされる。なお、遅延部４１は、デジタルフィルタ４２に供給されるフィルタ係数が生成されるまでの処理遅延時間を調整するためのものである。

図１４の例は、レベル比のみを考慮したものであるが、位相差のみ、またレベル比と位相差を合わせて考慮する構成とすることもできる。すなわち、例えばレベル比と位相差とを合わせて考慮する場合には、図示は省略するが、ＦＦＴ部４３および４４の出力を位相差検出部にも供給すると共に、検出した位相差をも、重み付け係数発生部に供給する。この例の場合の重み付け係数発生部は、分離する音源の左右２チャンネルの音声信号に対するレベル差のみではなく、位相差をも変数として重み付け係数を発生する関数発生回路の構成とされる。

つまり、この場合の重み付け係数発生部は、分離しようとする音源の音声信号の、左右２チャンネルにおけるレベル比およびその近傍のレベル比のときであって、前記、分離しようとする音源の音声信号の、左右２チャンネルにおける位相差およびその近傍の位相差のときには、大きい重み付け係数を発生し、その他では小さい係数を発生するような関数に設定される。

そして、その重み付け係数発生部からの重み付け係数が逆ＦＦＴされることにより、デジタルフィルタ４２のフィルタ係数とされるものである。

なお、図１４では、左チャンネルのみから希望する音源の音声信号を分離するようにしたが、右チャンネルの音声信号についても、フィルタ係数を発生する系を、別個に同様に設けることにより、同様に所定の音源の音声信号を分離することができる。

［その他の実施形態の音声信号処理装置］
上述の実施形態において、入力音声信号をＦＦＴする場合、楽音のように長い時系列信号をそのままＦＦＴ処理することは困難なので、所定分析区間に区分けして、当該分析区間ごとの区分データを得ることによりＦＦＴ処理を行なう。

しかしながら、時系列データを単純に一定の長さだけ取り出し、音源分離処理を行った後、逆ＦＦＴ変換して結合した場合、その結合点において波形の不連続点を発生し、音として聞いた場合、ノイズを発生すると言う問題がある。

そこで、第８の実施形態では、区分データを取り出すのに、図１５に示すように、区間１、区間２、区間３、区間４、・・・の長さを、それぞれ同じ長さの単位区間とするが、隣り合う区間では、前記単位区間の長さの例えば１／２の区間分を、互いに重複するように各区間を設定して、各区間の区分データを取り出すようにする。なお、図１５において、ｘ０、ｘ１、ｘ２、ｘ３、・・・、ｘｎは、デジタル音声信号のサンプルデータを示している。

このようにして処理すると、上述の実施形態のようにして音源分離処理され、逆ＦＦＴ変換された時系列データ（ｙ０、ｙ１、ｙ２、ｙ３、・・・、ｙｎ）も、図１６に示す出力区分データ１，２のように、重複区間を持つことになる。

そして、この第８の実施形態では、図１６に示すように、重複区間を持って隣り合う出力区分データ、例えば出力区分データ１，２の重複区間に対して、図１６に示すような三角窓の特性となる窓関数１、２の処理を行ない、各出力区分データ１，２の重複区間における同時刻データ同士を加算することにより、図１６に示すような出力合成データを得るようにする。これにより、波形の不連続点の無い、すなわちノイズの無い、分離された出力音声信号が得られる。

さらに、第９の実施形態では、区分データを取り出すのに、図１７に示すように、隣り合う区分データの一定区間として、区間１、区間２、区間３、区間４のように、互いに重複して取り出すようにすると同時に、これらの各区間の区分データを、ＦＦＴ処理する前に、図１７に示すような三角窓の窓関数１，２，３，４の、窓関数処理を行なう。

そして、この図１７に示すような窓関数処理を行なった後、ＦＦＴ変換処理を行なうようにする。そして、しかるべき音源分離処理された信号を、逆ＦＦＴ変換すると、図１８に示すような出力区分データ１、２が得られる。この出力区分データは、既に重複部において窓関数処理されたデータになっているので、出力部では、各重複区分データ部を加算するだけで、波形の不連続点のないノイズの無い、分離された音声信号を得ることが可能となる。

なお、上述の窓関数としては、三角窓の他、ハニング窓またはハミング窓、あるいはブラックマン窓、などを用いることができる。

また、上述の実施形態では、時間離散信号を直交変換することにより、周波数領域の信号に変換し、ステレオチャンネル間の周波数分割スペクトルを比較するようにしたが、原理的には時間領域で信号を多数のバンドバスフィルタにより細分化し、各周波数バンドについて同様の処理を行なうように構成するようにしてもよい。ただし、上述の実施形態のように、ＦＦＴ処理をする方が、周波数分解能を上げることが容易であり、分離する音源の分離度を向上させることができるので、実用性が大きい。

なお、上述の実施形態では、この発明が適用される２系統の音声信号として、２チャンネルステレオ信号について説明したが、この発明は、音源の音声信号が所定のレベル比あるいはレベル差で分配される２つの音声信号であれば、どのような２系統の音声信号であっても適用可能である。位相差についても同様である。

また、上述の実施形態では、２系統の音声信号についての周波数分割スペクトルのレベル比を求め、乗算係数発生部は、レベル比対乗算係数の関数を用いるようにしたが、２系統の音声信号についての周波数分割スペクトルのレベル差を求め、乗算係数発生部は、当該レベル差対乗算係数の関数を用いるようにしてもよい。

また、時系列信号を周波数領域の信号に変換する直交変換手段としては、ＦＦＴ処理手段に限られるものではなく、周波数分割スペクトルのレベルや位相を比較することができるものであれば、どのようなものであってもよい。

この発明による音声信号処理装置の第１の実施形態の構成例を示すブロック図である。図１の一部である周波数分割スペクトル比較処理部の構成例を示すブロック図である。図１の一部である周波数分割スペクトル制御処理部の構成例を示すブロック図である。周波数分割スペクトル制御処理部の乗算係数発生部３１に設定される関数の幾つかの例を示す図である。この発明による音声信号処理装置の第２の実施形態の構成例を示すブロック図である。図５の一部の周波数分割スペクトル比較処理部および周波数分割スペクトル制御処理部の構成例を示すブロック図である。この発明による音声信号処理装置の第３の実施形態の構成例を示すブロック図である。図７の例における乗算係数発生部３１Ｌ，３１Ｒに設定される関数の幾つかの例を示す図である。この発明による音声信号処理装置の第４の実施形態の構成例を示すブロック図である。この発明による音声信号処理装置の第５の実施形態の構成例を示すブロック図である。この発明による音声信号処理装置の第６の実施形態の構成例を示すブロック図である。図１１の一部の周波数分割スペクトル比較処理部および周波数分割スペクトル制御処理部の構成例を示すブロック図である。図１２の乗算係数発生部３０１，３０２に設定される関数の幾つかの例を示す図である。この発明による音声信号処理装置の第７の実施形態の構成例を示すブロック図である。この発明による音声信号処理装置の第８の実施形態の構成例を説明するための図である。この発明による音声信号処理装置の第８の実施形態の構成例を説明するための図である。この発明による音声信号処理装置の第９の実施形態の構成例を説明するための図である。この発明による音声信号処理装置の第９の実施形態の構成例を説明するための図である。複数の音源からなる２チャンネルの信号による音像定位を説明するための図である。複数の音源からなる２チャンネルの信号による音像定位を説明するための図である。従来の、特定音源の音声信号の分離装置を説明するためのブロック図である。

符号の説明

１０…音声信号処理装置、１１，１２…ＦＦＴ部、１３…周波数分割スペクトル比較処理部、１４…周波数分割スペクトル制御処理部、１５…逆ＦＦＴ部、２１，２２…レベル検出部、２３，２４…レベル比算出部、２５…セレクタ、３１…乗算係数発生部、３２…音源分離部、３３，３４…乗算部、３５…加算部、１６Ｌ，１６Ｒ…周波数分割スペクトル最大レベル検出部、１０３２…位相比較処理部

Claims

２系統の時系列音声信号を、それぞれ周波数領域信号に変換する第１および第２の変換手段と、
前記第１の変換手段と前記第２の変換手段からの対応する周波数分割スペクトル同士のレベル比またはレベル差を算出するレベル算出手段と、
前記レベル算出手段で算出された前記レベル比またはレベル差に応じた乗算係数であって、分離する音源に応じた乗算係数をそれぞれ発生する複数の乗算係数発生部と、
使用者の選択操作に応じて、制御信号を発生する分離音源選択信号発生手段と、
前記分離音源選択信号発生手段からの前記制御信号に基づいて、前記複数の乗算係数発生部のうちから、少なくとも２個の乗算係数発生部を選択するスイッチ手段と、
前記レベル算出手段における算出結果に応じた乗算係数であって、前記スイッチ手段により選択された乗算係数発生部からの乗算係数を用いて、前記第１の変換手段と前記第２の変換手段とのそれぞれから得られる周波数分割スペクトルのレベルを制御して出力する出力制御手段と、
前記出力制御手段からの周波数領域信号を、時系列信号に変換する逆変換手段と、
を備える音声信号処理装置。
請求項１に記載の音声信号処理装置において、
前記第１の変換手段と前記第２の変換手段からの、対応する周波数分割スペクトル同士の位相差を算出する位相差算出手段をさらに備え、
前記出力制御手段は、
前記レベル算出手段における算出結果および前記位相差算出手段で算出された前記位相差に基づいて、前記第１の変換手段と前記第２の変換手段の少なくとも一方から得られる周波数分割スペクトルのレベルを制御して出力する
音声信号処理装置。
請求項１に記載の音声信号処理装置において、
前記出力制御手段は、
前記レベル算出手段で算出されたレベル比またはレベル差の関数として設定された乗算係数の発生部と、前記乗算係数の発生部からの前記乗算係数を、前記第１の変換手段と前記第２の変換手段の少なくとも一方から得られる周波数分割スペクトルに乗算してその出力レベルを決定する音源分離部とを備える
音声信号処理装置。
請求項２に記載の音声信号処理装置において、
前記出力制御手段は、
前記位相差算出手段で算出された位相差の関数として設定された乗算係数の発生部と、前記乗算係数の発生部からの前記乗算係数を、前記第１の変換手段と前記第２の変換手段の少なくとも一方から得られる周波数分割スペクトルに乗算してその出力レベルを決定する音源分離部とを備える
音声信号処理装置。
請求項１に記載の音声信号処理装置において、
前記出力制御手段は、
前記レベル算出手段で算出されたレベル比またはレベル差の関数として設定された乗算係数の発生部を複数個備えると共に、前記複数個の乗算係数の発生部からの前記乗算係数のそれぞれを、前記第１の変換手段と前記第２の変換手段の少なくとも一方から得られる周波数分割スペクトルに乗算してその出力レベルを決定する音源分離部の複数個とを備え、
前記逆変換手段は、
前記複数の音源分離部からのそれぞれの出力を、時系列信号に変換する複数個の逆変換部を備える
音声信号処理装置。
請求項１に記載の音声信号処理装置において、
前記出力制御手段は、
前記レベル算出手段で算出されたレベル比またはレベル差の関数として設定された乗算係数の発生部を複数個備えると共に、前記複数個の乗算係数の発生部からの前記乗算係数のうちの一つを選択する選択部と、
前記選択部からの前記乗算係数を、前記第１の変換手段と前記第２の変換手段の少なくとも一方から得られる周波数分割スペクトルに乗算してその出力レベルを決定する音源分離部とを備える
音声信号処理装置。
請求項１に記載の音声信号処理装置において、
前記出力制御手段からの出力スペクトルのうち最大レベルの周波数を検出し、検出した周波数を出力データとして出力する検出手段をさらに備える
音声信号処理装置。
請求項３に記載の音声信号処理装置において、
前記レベル算出手段で算出されたレベル比またはレベル差が所定の範囲である周波数分割スペクトル以外の周波数分割スペクトルに対する乗算係数を０とする
音声信号処理装置。
請求項１に記載の音声信号処理装置において、
２系統の時系列音声信号を、所定区間に区分けして区分データとすると共に、隣り合う区分データは一部の区間はオーバラップし、前記区分データを前記第１および第２の変換手段に供給する区分化手段と、
前記逆変換手段からの、各区分データに対応する出力時系列信号を窓関数処理し、同時刻の時系列信号同士を加算して出力する出力手段と
を備える音声信号処理装置。
請求項１に記載の音声信号処理装置において、
２系統の時系列音声信号を、所定区間に区分けして区分データとすると共に、隣り合う区分データは一部の区間はオーバラップし、窓関数処理して、前記区分データを前記第１および第２の変換手段に供給する区分化手段と、
前記逆変換手段からの出力時系列信号を、時系列データに逆変換後、同時刻の時系列信号同士を加算して出力する
音声信号処理装置。
第１および第２の変換手段が、２系統の時系列音声信号を、それぞれ周波数領域信号に変換して、２系統の周波数分割スペクトルを得る変換工程と、
レベル算出手段が、前記変換工程で得られる前記２系統の周波数分割スペクトルの、対応する周波数分割スペクトル同士のレベル比またはレベル差を算出するレベル算出工程と、
複数の乗算係数発生部が、前記レベル算出工程で算出された前記レベル比またはレベル差に応じた乗算係数であって、分離する音源に応じた乗算係数をそれぞれ発生する工程と、
分離音源選択信号発生手段が、使用者の選択操作に応じて、制御信号を発生する分離音源選択信号発生工程と、
スイッチ手段が、前記分離音源選択信号発生手段からの前記制御信号に基づいて、前記複数の乗算係数発生部のうちから、少なくとも２個の乗算係数発生部を選択するスイッチ工程と、
出力制御手段が、前記レベル算出工程における算出結果に応じた乗算係数であって、前記スイッチ工程で選択された乗算係数発生部からの乗算係数を用いて、前記変換工程で得られた前記２系統の周波数分割スペクトルのそれぞれの周波数分割スペクトルのレベルを制御して出力する出力制御工程と、
前記出力制御工程で得られる前記周波数領域信号を、時系列信号に変換する逆変換工程と、
を備える音声信号処理方法。
請求項１１に記載の音声信号処理方法において、
前記変換工程で得られる前記２系統の入力音声時系列信号についての周波数分割スペクトルの、対応する周波数分割スペクトル同士の位相差を算出する位相差算出工程をさらに備え、
前記出力制御工程は、
前記レベル算出工程における算出結果および前記位相差算出工程で算出された前記位相差に基づいて、前記変換工程で得られた２系統の周波数分割スペクトルの少なくとも一方の周波数スペクトルのレベルを制御して出力する
音声信号処理方法。
請求項１１に記載の音声信号処理方法において、
前記出力制御工程で得られる出力スペクトルのうち最大レベルの周波数を検出し、検出した周波数を出力データとして出力する検出工程をさらに備える
音声信号処理方法。