<第1実施形態>
図1は、この発明の第1実施形態であるミキシング装置10の構成を示すブロック図である。図1に示すミキシング措置10は、CPU1と、ROM2と、RAM3と、表示部4と、操作部5と、データI/O6と、集音器7−k(k=1〜n)と、A/D変換器8−k(k=1〜n)と、D/A変換器9−j(j=1〜m)と、増幅器10−j(j=1〜m)と、拡声器11−j(j=1〜m)により構成される。各々の機器は、バス12を介してデータの入出力を行う。なお、バス12はオーディオバスやデータバス等を総称したものである。
CPU1は、バス12を介してミキシング装置全体の動作を制御するプロセッサである。ROM2は、ミキシング装置10の基本的な動作を制御するためにCPU1が実行するプログラム(以下、ミキシング制御プログラムという)を記憶した読み出し専用メモリである。RAM3は、CPU1によってワークエリアとして利用される揮発性メモリである。表示部4は、例えば液晶ディスプレイとその駆動回路であり、CPU1からバス12を介して与えられた表示制御信号に基づいて各種画面を表示する。操作部5は、利用者に各種情報を入力させるための手段であり、複数の操作子やタッチパネル等で構成されている。データI/O6は、MIDI(Musical Instruments Digital Interface:登録商標)形式の演奏データやオーディオ形式の波形データを外部から受け取り、音信号として出力するインターフェースである。集音器7−k(k=1〜n)はn個のマイクロホン等により構成され、入力される歌唱者の歌声等をアナログの電気信号に変換してA/D変換器8−k(k=1〜n)に出力する。A/D変換器8−k(k=1〜n)は、集音器7−k(k=1〜n)から出力される各アナログ音信号をデジタル音信号Ak(k=1〜n)に変換する。D/A変換器9−j(j=1〜m)は、ミキシング処理の結果得られるデジタル音信号Bj(j=1〜m)をアナログ音信号に変換する。増幅器10−j(j=1〜m)は、D/A変換器9−j(j=1〜m)から出力されたアナログ音信号を増幅する。拡声器11−j(j=1〜m)は、増幅器10−j(j=1〜m)から出力されるアナログ音信号を音として放音する。
図2は、本実施形態におけるCPU1が実行するミキシング制御プログラム100の構成を説明するための図である。ミキシング制御プログラム100は、分析部101と、生成部102と、合成部103とを含んでいる。分析部101は、逐次入力される音信号Ak(k=1〜n)から特徴量を抽出し、抽出した特徴量に基づき、順位(以下、主音声順位という)を音信号Ak(k=1〜n)に設定する。そして、設定した主音声順位を音信号Ak(k=1〜n)に対応付け、これを分析データとして生成部102に出力する。本実施形態では、分析部101は、特徴量として音量を音信号Ak(k=1〜n)から抽出する。
生成部102は、分析データを受け取ると、音信号Ak(k=1〜n)に設定された主音声順位に従い、音信号Ak(k=1〜n)に適用する音響処理を制御するための制御データを生成する。本実施形態では、音響処理として、音信号Ak(k=1〜n)に対して音像定位処理を施す。そこで、生成部102は、音信号Ak(k=1〜n)に設定された主音声順位に従って、音信号Ak(k=1〜n)の音像定位処理に適用する音像位置を選択し、音信号Ak(k=1〜n)に対応した音像をこれらの選択した音像位置に定位させるための制御データを生成する。例えば、分析部101に音信号A1〜A3が入力され、音信号A1の主音声順位が第3位、音信号A2の主音声順位が第2位、音信号A3の主音声順位が第1位であったとする。この場合、生成部102は、主音声順位が第1位である音信号A3の音像を最も優遇された位置であるセンタに、主音声順位が第2位である音信号A2の音像をその次に優遇された位置である左に、主音声順位が第3位である音信号A1の音像を最も優遇されていない位置である右に定位させるための制御データを生成し、合成部103に出力する。なお、生成部102が選択する音像位置は任意であり、上記例において、主音声順位が第1位である音信号A3の音像を左に、主音声順位が第2位である音信号A2の音像を右に、主音声順位が第3位である音信号A1の音像をセンタに定位させる等、種々のパターンが考えられる。
合成部103は、生成部102から制御データを受け取ると、制御データに従って、音信号Ak(k=1〜n)に音響処理(この例では音像定位処理)を施すとともに、音響処理の結果である音信号をミキシングする。
図3は、本実施形態におけるミキシング制御プログラム100の処理内容を示すフローチャートである。以下、図3を参照し、本実施形態の動作を説明する。複数の歌唱者が歌唱すると、複数の歌唱者の音信号が、集音器7−k(k=1〜n)を介してA/D変換器8−k(k=1〜n)に入力される。そして、A/D変換器8−k(k=1〜n)によりA/D変換された音信号Ak(k=1〜n)は、分析部101および合成部103に入力される。
分析部101は、音信号Ak(k=1〜n)を受け取ると、以下のような算出手順で、音信号Ak(k=1〜n)から特徴量として音量(音信号Ak(k=1〜n)の振幅値)を抽出し、抽出した音量を基に音信号Ak(k=1〜n)に主音声順位を設定する(ステップSA1)。
まず、分析部101は、A/D変換器8−k(k=1〜n)から音信号Ak(k=1〜n)が逐次入力されると、所定の時間単位における音信号Ak(k=1〜n)の振幅値を抽出し、振幅エンベロープを算出する。ここで、設定する時間単位は、所定の一定値や、歌唱者が歌う楽曲の1曲全体の再生時間または1番のみの再生時間等としてもよい。また、VAD(Voice Activity Detection)や、VADとhangover処理を併用した処理等により時間単位を設定してもよい。
次に、分析部101は、算出した音信号Ak(k=1〜n)の振幅エンベロープを平滑化し、振幅エンベロープ波形に重畳されたノイズを除去する。次に、分析部101は、音信号Ak(k=1〜n)の振幅エンベロープのうち、最大の振幅値を有する振幅エンベロープを特定する。そして、振幅エンベロープの最大振幅値によって、音信号Ak(k=1〜n)の振幅エンベロープを除算し正規化する。ここで、正規化した振幅エンベロープが、予め定められた所定の閾値に満たない振幅値を含む場合、その振幅値に対応する区間において音信号Ak(k=1〜n)が入力されていないものとする。
次に、分析部101は、正規化された音信号Ak(k=1〜n)の振幅エンベロープを各々比較し、振幅エンベロープ値の大きな順に主音声順位を与える。すなわち、分析部101は、音信号Ak(k=1〜n)のうち、振幅エンベロープ値が最大のものの主音声順位を第1位、次に大きい振幅エンベロープ値を有する音信号の主音声順位を第2位、…、最も小さな振幅エンベロープ値を有する音信号の主音声順位を第n位とする。従って、最も大きな声で歌う歌唱者の音信号は、複数の歌唱者の歌声の中で最も存在感が大きいため、主音声順位が第1位となる。一方、最も小さな声で歌う歌唱者の音信号は、複数の歌唱者の音声の中で最も存在感が小さいため、主音声順位が第n位(最下位)となる。分析部101は、音信号Ak(k=1〜n)に主音声順位を設定すると、これを音信号Ak(k=1〜n)に対応付け、分析データとして生成部102に出力する(ステップSA2)。
生成部102は、分析部101から分析データを受け取ると、これを基に音信号Ak(k=1〜n)の音像定位処理の制御データを設定する(ステップSA3)。より具体的には、生成部102は、分析データを参照して、例えば最も主音声順位が高い音信号については、音像をセンタに定位させる制御データを設定する。一方、最も主音声順位が低い音信号については、音像を例えば右に定位させる制御データを設定する。生成部102は、音信号Ak(k=1〜n)について各々設定した音像定位処理の制御データを合成部103に出力する。
合成部103は、生成部102から制御データを受け取ると、制御データに従って音信号Ak(k=1〜n)に音像定位処理を施す(ステップSA4)。そして、音像定位処理が施された音信号Ak(k=1〜n)をミキシングし、D/A変換器9−j(j=1〜m)にミキシング結果である音信号Bj(j=1〜m)を出力する(ステップSA5)。ステップSA5の処理が完了すると、ステップSA1に戻り、以上説明したステップSA1〜SA5の処理を繰り返す。
D/A変換器9−j(j=1〜m)は、ミキシング結果である音信号Bj(j=1〜m)をアナログ音信号に変換し、拡声器11−j(j=1〜m)に出力する。拡声器11−j(j=1〜m)は、D/A変換器9−k(k=1〜n)からのアナログ音信号をm個のスピーカから音として放音する。この結果、音信号Ak(k=1〜n)が、制御データにより定まる位置に音像の定位した音としてリスナに聴取される。
本実施形態では、複数の音信号Ak(k=1〜n)に設定された主音声順位に従って、音信号Ak(k=1〜n)の音像定位処理の制御データを設定する。そして、制御データにより定まる位置に音像が定位した音をリスナに聴取させる。従って、本実施形態によると、ユーザは複雑な操作を一切行わずに、複数の音信号Ak(k=1〜n)の状況(この場合、音量の大小関係)に応じて、音信号Ak(k=1〜n)に適用する定位を適切に切り換えることができる。
また、本実施形態では、音量の大きさに応じて音信号Ak(k=1〜n)に主音声順位を設定し、主音声順位が最も大きい音信号Ak(k=1〜n)はセンタに、主音声順位が最も小さい音信号Ak(k=1〜n)は左右に定位するように音像定位処理の制御データを設定する。従って、本実施形態によると、歌唱者に自分の歌声をセンタに定位させるために、大きな声で歌唱する動機づけを行わせることができる。
<第2実施形態>
図4は、この発明の第2実施形態であるミキシング装置20において、CPU1が実行するミキシング制御プログラム200の構成を説明するための図である。ミキシング制御プログラム200は、分析部201と、生成部202と、合成部203と、UI(User Interface)204とを含んでいる。本実施形態におけるミキシング制御プログラム200は、歌唱者の歌声等が録音されたオーディオ形式の波形データを再生して得られる音信号Ak(k=1〜n)にミキシング処理を行う。すなわち、本実施形態に示すミキシング装置20は、第1実施形態に示したように、リアルタイムに入力される複数の音信号Ak(k=1〜n)をミキシングする処理に加えて、録音された複数の音声データ等をミキシングする処理を行う。ミキシング制御プログラム200は、第1実施形態に示すミキシング制御プログラム100に、UI204を含めた構成となっている。UI204は、ユーザの操作により、分析部201、生成部202および合成部203に操作コマンドを送信する。
本実施形態では、分析部201は、音信号Ak(k=1〜n)から特徴量として音量を抽出するだけでなく、音色、定位、音高、歌声の継続時間等の種々の特徴量を抽出する。また、生成部202は、音信号Ak(k=1〜n)の音像定位処理の制御データを設定するだけでなく、音高、音量、音色等の種々の音響効果の制御データを設定する。合成部203は、音信号Ak(k=1〜n)の音像定位処理を制御するだけでなく、音高、音量、音色の制御等の種々の音響処理を音信号Ak(k=1〜n)に施す。
図5は、本実施形態におけるミキシング制御プログラム200の処理内容を示すフローチャートである。以下、図5を参照し、本実施形態の動作を説明する。CPU1の指示により、データI/O6に格納されたオーディオ形式の波形データが再生されると、複数の音信号Ak(k=1〜n)が分析部201に入力される。
分析部201は、音信号Ak(k=1〜n)を受け取ると、音信号Ak(k=1〜n)から種々の特徴量を抽出する(ステップSB1)。より具体的には、分析部201は、音色、定位、音高、歌声の継続時間等の種々の特徴量のうち1または複数の特徴量を抽出する。ここで、分析部201が抽出する特徴量は、ユーザからの指示により選択される。すなわち、ユーザはUI204を介して、抽出すべき特徴量に対応する操作コマンドを分析部201に送信する。これを受け、分析部201は、ユーザから指定された1または複数の特徴量を音信号Ak(k=1〜n)から抽出する。
分析部201は、音信号Ak(k=1〜n)から1または複数の特徴量を抽出すると、音信号Ak(k=1〜n)の主音声順位を設定する。ここで、抽出した特徴量が複数ある場合、分析部201は複数の特徴量について設定された主音声順位を重みづけ加算して統合する。例えば、特徴量として音量と音色が抽出された場合、音量の主音声順位と音色の主音声順位とに重みを与え、音信号Ak(k=1〜n)の主音声順位を重みづけ加算により算出する。そして、重みづけ加算された主音声順位を最終的な主音声順位とする。分析部201は、算出された主音声順位を音信号Ak(k=1〜n)に対応付け、分析データとして生成部202に出力する(ステップSB2)。なお、重みはユーザがUI204を介して、操作コマンドを分析部201に送信することにより指定される。
生成部202は、音信号Ak(k=1〜n)に設定された主音声順位に従い、音信号Ak(k=1〜n)に施す種々の音響処理の制御データを設定する。ここで、生成部202は、定位、音量、音色の制御等の種々の音響処理のうち1または複数の音響処理の制御データを設定する(ステップSB3)。
例えば、音響処理として音量を制御する場合、生成部202は、最も主音声順位が高い音信号Ak(k=1〜n)の音量が最大となるように、音量の制御データを設定する。また、最も主音声順位が低い音信号Ak(k=1〜n)の音量が最小となるように、音量の制御データを設定する。
また、音響処理として音色を制御する場合、生成部202は、最も主音声順位が高い音信号Ak(k=1〜n)の、高音領域における音圧レベルが強調されるように、イコライザの制御データを設定する。また、最も主音声順位が高い音信号Ak(k=1〜n)の音声周波数帯域における音圧レベルが強調されるように、イコライザの制御データを設定してもよい。
音信号Ak(k=1〜n)に施す音響処理は、ユーザからの指示により選択される。すなわち、ユーザはUI204を介して、所望の音響処理を指定する操作コマンドを生成部202に送信する。これを受け、生成部202は、ユーザから指定された1または複数の音響処理の制御データを設定する。生成部202は、音信号Ak(k=1〜n)に施す音響処理の制御データを合成部203に送信する。
合成部203は、生成部202から制御データを受け取ると、制御データに従って音信号Ak(k=1〜n)に音響処理を施す(ステップSB4)。そして、音響処理が施された音信号をミキシングし、ミキシング結果である音信号Bj(j=1〜m)をデータI/O6に出力する(ステップSB5)。ステップSB5の処理が完了すると、ステップSB1に戻り、以上説明したステップSB1〜SB5の処理を繰り返す。データI/O6は、音信号Bj(j=1〜m)を受け取ると、オーディオ形式の波形データとして図示しないメモリに格納する。
本実施形態では、複数の音信号Ak(k=1〜n)から抽出された1または複数の特徴量に基づき、音信号Ak(k=1〜n)の主音声順位が設定される。そして、この主音声順位に従い、音信号Ak(k=1〜n)に1または複数の音響効果が付与される。従って、本実施形態によると、音信号Ak(k=1〜n)の種々の特徴を考慮したバリエーション豊かな音響処理を音信号Ak(k=1〜n)に施すことができる。
本実施形態では、オーディオ形式の波形データを再生して得られる音信号Ak(k=1〜n)に音響処理を施してミキシングする。従って、歌唱者は、自分の歌声等を録音して動画投稿サイトに投稿する場合に、複雑な操作を伴わずに歌声等に音響処理を施して、その歌声等をミキシングすることができる。
また、本実施形態によると、合成部203に音信号Ak(k=1〜n)の音像定位処理の制御を行わせることにより、最も上手に歌う歌唱者の歌声をセンタに定位させ、上手に歌うことができない歌唱者の歌声を左右に定位させることができる。従って、歌唱者に自分の歌声の音像をセンタに定位させるために、歌唱力を向上させようとする動機づけを行わせることができる。
<他の実施形態>
以上、この発明の各種の実施形態について説明したが、この発明には他にも実施形態が考えられる。
(1)第1実施形態において、合成部103は、制御データに従い音信号Ak(k=1〜n)に音像定位処理の制御を施すことにより、音像を水平方向の所定の位置に定位させた。しかし、音像が垂直方向の所定の位置に定位するように、生成部102に制御データを生成させてもよい。
(2)第2実施形態において、分析部201は、オーディオ形式の波形データの全再生区間において音信号Ak(k=1〜n)から特徴量を抽出し、音信号Ak(k=1〜n)に主音声順位を設定してもよい。また、生成部202は、この主音声順位に従い、音信号Ak(k=1〜n)に付与する音響効果の制御データを設定してもよい。さらに、合成部203は、この制御データに基づき、音信号Ak(k=1〜n)に音響処理を施してもよい。これにより、音信号Ak(k=1〜n)全体の音楽的な特徴を考慮した音響処理を音信号Ak(k=1〜n)に施すことができる。
(3)第2実施形態において、分析部201は、音信号Ak(k=1〜n)から抽出した特徴量と模範データから抽出した特徴量との類似性に基づき、音信号Ak(k=1〜n)の主音声順位を決定してもよい。ここで、模範データとは、例えば、模範ボーカルや模範コーラスの歌声、MIDI形式の演奏データ、楽譜データ等のことをいう。模範ボーカルや模範コーラスから抽出する特徴量は、音量、音高、歌声の継続時間等の種々の特徴量のうち1または複数の特徴量であってもよい。この場合、分析部201が抽出する特徴量は、ユーザがUI204を介して所定の操作コマンドを送信することにより指定される。分析部201は、音信号Ak(k=1〜n)から抽出した特徴量と模範データから抽出した特徴量との類似性が最も高い音信号の主音声順位を第1位とし、最も低い音信号の主音声順位を第n位とする。
(4)第2実施形態において、合成部203は、模範データから抽出した特徴量をリファレンスとして、音信号Ak(k=1〜n)の特徴量を補正してもよい。ここで、模範データとは、例えば、MIDI形式の演奏データや模範ボーカルの歌声等のことをいう。例えば、合成部203は、ある演奏区間において、分析部201がMIDI形式の演奏データから取得したピッチカーブデータをリファレンスとして、当該演奏区間における音信号Ak(k=1〜n)のピッチカーブを補正する。また、合成部203は、ある演奏区間において分析部201がMIDI形式の演奏データから取得したベロシティ(音の強弱)データをリファレンスとして、当該演奏区間における音信号Ak(k=1〜n)のアーティキュレーション(例えば、音量・音韻遷移時間)を補正する。また、合成部203は、ある演奏区間において分析部201がMIDI形式の演奏データから取得したビブラート(例えば、音高変化、音量変化)データをリファレンスとして、当該演奏区間における音信号Ak(k=1〜n)のビブラートを補正する。模範データから取得する特徴量は、ユーザがUI204を介して所定の操作コマンドを送信することにより設定される。
また、合成部203は、模範ボーカルの歌声から抽出した声質をリファレンスとして、音信号Ak(k=1〜n)が示す歌声の声質を補正してもよい。
(5)第2実施形態において、合成部203は、模範データから抽出した特徴量と音信号Ak(k=1〜n)から抽出した特徴量とを基に新たな波形データを生成し、当該波形データからなる音信号Ak(k=1〜n)を、音信号Ak(k=1〜n)にミキシングしてもよい。例えば、分析部201は、MIDI形式の演奏データからピッチカーブ、楽曲のコード進行情報、ダイヤトニックスケール等の特徴量を抽出する。合成部203は、この特徴量が音信号Ak(k=1〜n)から抽出した特徴量と調和するように、コーラス音声やダブリング音声等の波形を生成する。そして、生成したコーラス音声やダブリング音声が示す音信号Ak(k=1〜n)と各入力音信号Ak(k=1〜n)とをミキシングすることにより、音信号Ak(k=1〜n)が示す音声にコーラス音声やダブリング音声を重畳させる。模範データから抽出する特徴量は、ユーザがUI204を介して所定の操作コマンドを送信することにより設定される。
(6)第2実施形態において、合成部203は、音信号Ak(k=1〜n)から抽出された特徴量を基に、当該特徴量を取得したパートまたはそれ以外のパートの音信号Ak(k=1〜n)の特徴量を加工してもよい。
例えば、合成部203は、分析部201が音信号Ak(k=1〜n)から抽出したピッチカーブデータを基に、当該ピッチカーブデータを抽出したパートのピッチカーブを加工する。これにより、当該パートのピッチカーブの特徴を適量だけ変化させることができる。また、合成部203は、分析部201が音信号Ak(k=1〜n)から抽出したピッチカーブデータを基に、当該ピッチカーブデータを抽出したパートとは別のパートのピッチカーブを加工してもよい。これにより、あるパートのピッチカーブの特徴を、他のパートにも付与することができる。
また、合成部203は、分析部201が音信号Ak(k=1〜n)から抽出したベロシティデータを基に、当該ベロシティデータを抽出したパートのアーティキュレーションを加工する。これにより、当該パートのアーティキュレーションの特徴を適量だけ変化させることができる。また、合成部203は、分析部201が音信号Ak(k=1〜n)から抽出したベロシティデータを基に、当該ベロシティデータを抽出したパートとは別のパートのアーティキュレーションを加工してもよい。これにより、あるパートのアーティキュレーションの特徴を、他のパートにも付与することができる。
また、合成部203は、分析部201が音信号Ak(k=1〜n)から抽出したビブラートデータを基に、当該ビブラートデータを抽出したパートのビブラートを加工する。これにより、当該パートのビブラートの特徴を適量だけ変化させることができる。また、合成部203は、分析部201が音信号Ak(k=1〜n)から抽出したビブラートデータを基に、当該ビブラートデータを抽出したパートとは別のパートのビブラートを加工してもよい。これにより、あるパートのビブラートの特徴を、他のパートにも付与することができる。
また、合成部203は、分析部201が音信号Ak(k=1〜n)から取得した歌唱者の声質データを基に、当該声質データを取得したパートの声質を加工する。これにより、当該パートの声質の特徴を適量だけ変化させることができる。また、合成部203は、分析部201が音信号Ak(k=1〜n)から抽出した声質データを基に、当該声質データを抽出したパートとは別のパートの声質を加工してもよい。これにより、あるパートの声質の特徴を、他のパートにも付与することができる。
分析部201が音信号Ak(k=1〜n)から抽出する特徴量は、ユーザがUI204を介して所定の操作コマンドを送信することにより設定される。また、合成部203により加工されるパートは、ユーザがUI204を介して、所定の操作コマンドを送信することにより設定される。
(7)第2実施形態において、合成部203は、模範データから抽出された特徴量を基に、所定の区間を設定し、この区間においてのみミキシングされた音信号Ak(k=1〜n)を出力させてもよい。例えば、合成部203は、MIDI形式の演奏データ等の模範データから各種特徴量を抽出し、歌い出し〜Aメロ〜サビに至るまでの区間、歌い出し〜最大音量付近に至るまでの区間、歌いだし〜最小音量付近に至るまでの区間等を特定する。そして、これらの指定された区間においてのみミキシングされた音信号Ak(k=1〜n)を出力する。
また、合成部203は、設定された複数の区間を時系列に接続したダイジェストを作成し、このダイジェストに従い順次ミキシングされた音信号Ak(k=1〜n)を出力してもよい。この場合、ダイジェストの時間長は、ネットワークの混雑状況等を考慮して適宜変更できるようにしてもよい。これらの区間やダイジェストの時間長は、ユーザがUI204を介して、所定の操作コマンドを送信することにより設定される。
(8)第1実施形態および第2実施形態において、合成部103および203に、主音声順位に従い、歌唱者等の画像を表示部4または他の表示手段に表示させるための表示制御信号を出力させてもよい。この場合、主音声順位が最も高い歌唱者の画像を表示部4または他の表示手段のセンタに表示させ、主音声順位が最も低い歌唱者の画像を表示部4または他の表示手段の左右に小さく表示させる。これにより、歌唱者に自身の画像をセンタに表示させるために、歌唱力を向上させようとする動機づけを行わせることができる。
(9)上記(1)〜(8)に示す制御を実行するか否かの判断は、ユーザがUI204を介して、所定の操作コマンドを送信することにより決定してもよい。また、第2実施形態において、逐次入力される複数の音信号Ak(k=1〜n)をリアルタイムでミキシングする処理、または録音された複数の音声データが示す音信号Ak(k=1〜n)をミキシングする処理のいずれを行うかの判断は、ユーザがUI204を介して、所定の操作コマンドを送信することにより決定してもよい。
(10)第1実施形態および第2実施形態に示すミキシング装置は、クライアントサーバシステム(分散型コンピュータシステム)としてもよい。すなわち、クライアント側に集音器7−k(k=1〜n)およびA/D変換器8−k(k=1〜n)を設置し、歌声等の集音および音信号Ak(k=1〜n)のA/D変換を行わせる。そして、A/D変換後の音信号Ak(k=1〜n)をサーバにアップロードし、サーバ側に設置されたCPU1にミキシング制御プログラム100または200を実行させる。そして、ミキシングが施された音信号Bj(j=1〜m)をクライアント側にダウンロードする構成としてもよい。
また、クライアント側で、集音器7−k(k=1〜n)による集音、A/D変換器8−k(k=1〜n)によるA/D変換、分析部101および201による分析データの生成を行わせてもよい。この場合、A/D変換後の音信号Ak(k=1〜n)および分析データをサーバにアップロードし、サーバ側に生成部102および202による制御データの生成、合成部103および203によるミキシングを行わせる。そして、ミキシングが施された音信号Bj(j=1〜m)をクライアント側にダウンロードする構成としてもよい。
また、クライアント側で、集音器7−k(k=1〜n)による集音、A/D変換器8−k(k=1〜n)によるA/D変換、分析部101および201による分析データの生成、生成部102および202による制御データの生成を行わせてもよい。この場合、A/D変換後の音信号Ak(k=1〜n)および制御データをサーバにアップロードし、サーバ側に合成部103および203によるミキシングを行わせる。そして、ミキシングが施された音信号Bj(j=1〜m)をクライアント側にダウンロードする構成としてもよい。
また、クライアントサーバシステムにした場合、サーバ側の処理結果を随時クライアント側でモニタリングできるようにすることで、クライアント側はサーバの処理能力に応じて処理量を調整することができる。
(11)上記各実施形態において、主音声順位が同順位の音信号Ak(k=1〜n)が複数ある場合、以下のような処理を実行してもよい。例えば、主音声順位が第1位の音信号が2つある場合、各々を同率1位とする。そして、第2位を欠番とし、他の音信号に第3位〜第n位までの主音声順位を設定する。あるいは、第2位を欠番とせず、他の音信号Akに第2位〜第n−1位までの主音声順位を設定する。あるいは、主音声順位が第1位の音信号Ak(k=1〜n)が2つある場合、各々を同率1位とせず、添え字の番号k(1〜n)の小さい方の音信号の主音声順位を第1位、大きい方の音信号の主音声順位を第2位と設定してもよい。
(12)上記各実施形態では、歌唱音声信号をミキシングするミキシング装置にこの発明を適用したが、この発明は楽音信号をミキシングするミキシング装置や、歌唱音声信号と楽音信号をミキシングするミキシング装置にも適用可能である。