JP2016082450A

JP2016082450A - ミキシング装置

Info

Publication number: JP2016082450A
Application number: JP2014213087A
Authority: JP
Inventors: 嘉山　啓; Hiroshi Kayama; 啓嘉山; 雅史吉田; Masashi Yoshida; 佳孝浦谷; Yoshitaka Uratani; 森　隆志; Takashi Mori; 隆志森; 国本　利文; Toshifumi Kunimoto; 利文国本; 近藤　多伸; Kazunobu Kondo; 多伸近藤; 隼人大下; Hayato Oshita; 誠橘; Makoto Tachibana
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2014-10-17
Filing date: 2014-10-17
Publication date: 2016-05-16
Anticipated expiration: 2034-10-17
Also published as: JP6492521B2

Abstract

【課題】複雑な操作を行わせることなく、複数の音信号に適切な音響処理を施してミキシングするミキシング装置を提供する。【解決手段】分析部１０１は、複数の音信号Ａｋ（ｋ＝１〜ｎ）から抽出した音量に基づき、音信号Ａｋ（ｋ＝１〜ｎ）に主音声順位を設定する。そして、設定した主音声順位を音信号Ａｋ（ｋ＝１〜ｎ）に対応付け、生成部１０２に出力する。生成部１０２は、主音声順位に従い、音信号Ａｋ（ｋ＝１〜ｎ）の音像定位を制御するための制御データを生成する。合成部１０３は、制御データに従って、音信号Ａｋ（ｋ＝１〜ｎ）に音像定位処理を施すとともに、音像定位処理を施した音信号Ａｋ（ｋ＝１〜ｎ）をミキシングする。【選択図】図２

Description

本発明は、複数の音信号をミキシングするミキシング装置に関する。

マイクロホン等を介して入力される複数の音声信号のミキシングを行うミキシング装置が知られている。この種のミキシング装置では、ミキシング結果を放音したときの音響的効果を高めるため、ミキシング対象である各音声信号に対して、音像定位処理等、各種の音響処理を施す場合がある。

特許第４０６８０６９号

ところで、例えば複数人の歌い手の歌唱音声信号のミキシングを行う場合、それらの各歌唱音声信号の状況は時々刻々と変化する。従って、優れた音響的効果を実現するためには、各歌唱音声信号に適用する音響処理の内容を各歌唱音声の状況に応じて臨機応変に切り換えることが求められる。しかしながら、ミキシング装置の操作に慣れた熟練者でないと、そのような切り換え操作を行うことは困難である。

この発明は、以上説明した事情に鑑みてなされたものであり、複雑な操作を行わせることなく、複数の音信号の状況に応じて、各音信号に適切な音響処理を施してミキシングすることができるミキシング装置を提供することを目的としている。

この発明は、複数の音信号から特徴量を各々抽出し、抽出した各特徴量に基づき、前記複数の音信号に順位を各々設定する分析部と、前記複数の音信号に適用する音響処理を各々制御するための複数の制御データを前記複数の音信号に設定された順位に基づいて各々生成する生成部とを有することを特徴とするミキシング装置を提供する。

かかるミキシング装置によれば、複数の音信号から各々抽出される特徴量が変化すると、これにより各音信号に設定される順位が変化する場合がある。この場合、変化後の各音信号の順位に従って、各音信号に施される音響処理が制御される。従って、時々刻々と変化する複数の音信号の状況に応じて、各音信号に適用する音響処理の内容を制御することができる。

なお、ミキシングの際の音響処理の制御を行う技術を開示した文献として、特許文献１がある。この特許文献１では、歌唱者がカラオケに合わせて、ある歌唱パートを歌唱していることをカラオケ装置が認知すると、その歌唱パートとミキシングするバックコーラスパートの再生音量を小さくする。しかし、この発明は、この特許文献１のようにミキシング対象である１つのパートの音声信号の有無に基づいて他のパートの音声信号の音量を制御するものではなく、ミキシング対象である複数の音信号の特徴量に基づいて複数の音信号に順位を設定し、複数の音信号の順位に従って、各音信号に適用する音響処理を制御するものである。このように、本発明は、特許文献１に開示のものとは全く異なる発明である。

本発明の第１実施形態であるミキシング装置１０の構成を示すブロック図である。同実施形態におけるＣＰＵ１が実行するミキシング制御プログラム１００の構成を説明するための図である。同ミキシング制御プログラム１００の処理内容を示すフローチャートである。本発明の第２実施形態であるミキシング装置２０において、ＣＰＵ１が実行するミキシング制御プログラム２００の構成を説明するための図である。同ミキシング制御プログラム２００の処理内容を示すフローチャートである。

＜第１実施形態＞
図１は、この発明の第１実施形態であるミキシング装置１０の構成を示すブロック図である。図１に示すミキシング措置１０は、ＣＰＵ１と、ＲＯＭ２と、ＲＡＭ３と、表示部４と、操作部５と、データＩ／Ｏ６と、集音器７−ｋ（ｋ＝１〜ｎ）と、Ａ／Ｄ変換器８−ｋ（ｋ＝１〜ｎ）と、Ｄ／Ａ変換器９−ｊ（ｊ＝１〜ｍ）と、増幅器１０−ｊ（ｊ＝１〜ｍ）と、拡声器１１−ｊ（ｊ＝１〜ｍ）により構成される。各々の機器は、バス１２を介してデータの入出力を行う。なお、バス１２はオーディオバスやデータバス等を総称したものである。

ＣＰＵ１は、バス１２を介してミキシング装置全体の動作を制御するプロセッサである。ＲＯＭ２は、ミキシング装置１０の基本的な動作を制御するためにＣＰＵ１が実行するプログラム（以下、ミキシング制御プログラムという）を記憶した読み出し専用メモリである。ＲＡＭ３は、ＣＰＵ１によってワークエリアとして利用される揮発性メモリである。表示部４は、例えば液晶ディスプレイとその駆動回路であり、ＣＰＵ１からバス１２を介して与えられた表示制御信号に基づいて各種画面を表示する。操作部５は、利用者に各種情報を入力させるための手段であり、複数の操作子やタッチパネル等で構成されている。データＩ／Ｏ６は、ＭＩＤＩ（Musical Instruments Digital Interface：登録商標）形式の演奏データやオーディオ形式の波形データを外部から受け取り、音信号として出力するインターフェースである。集音器７−ｋ（ｋ＝１〜ｎ）はｎ個のマイクロホン等により構成され、入力される歌唱者の歌声等をアナログの電気信号に変換してＡ／Ｄ変換器８−ｋ（ｋ＝１〜ｎ）に出力する。Ａ／Ｄ変換器８−ｋ（ｋ＝１〜ｎ）は、集音器７−ｋ（ｋ＝１〜ｎ）から出力される各アナログ音信号をデジタル音信号Ａｋ（ｋ＝１〜ｎ）に変換する。Ｄ／Ａ変換器９−ｊ（ｊ＝１〜ｍ）は、ミキシング処理の結果得られるデジタル音信号Ｂｊ（ｊ＝１〜ｍ）をアナログ音信号に変換する。増幅器１０−ｊ（ｊ＝１〜ｍ）は、Ｄ／Ａ変換器９−ｊ（ｊ＝１〜ｍ）から出力されたアナログ音信号を増幅する。拡声器１１−ｊ（ｊ＝１〜ｍ）は、増幅器１０−ｊ（ｊ＝１〜ｍ）から出力されるアナログ音信号を音として放音する。

図２は、本実施形態におけるＣＰＵ１が実行するミキシング制御プログラム１００の構成を説明するための図である。ミキシング制御プログラム１００は、分析部１０１と、生成部１０２と、合成部１０３とを含んでいる。分析部１０１は、逐次入力される音信号Ａｋ（ｋ＝１〜ｎ）から特徴量を抽出し、抽出した特徴量に基づき、順位（以下、主音声順位という）を音信号Ａｋ（ｋ＝１〜ｎ）に設定する。そして、設定した主音声順位を音信号Ａｋ（ｋ＝１〜ｎ）に対応付け、これを分析データとして生成部１０２に出力する。本実施形態では、分析部１０１は、特徴量として音量を音信号Ａｋ（ｋ＝１〜ｎ）から抽出する。

生成部１０２は、分析データを受け取ると、音信号Ａｋ（ｋ＝１〜ｎ）に設定された主音声順位に従い、音信号Ａｋ（ｋ＝１〜ｎ）に適用する音響処理を制御するための制御データを生成する。本実施形態では、音響処理として、音信号Ａｋ（ｋ＝１〜ｎ）に対して音像定位処理を施す。そこで、生成部１０２は、音信号Ａｋ（ｋ＝１〜ｎ）に設定された主音声順位に従って、音信号Ａｋ（ｋ＝１〜ｎ）の音像定位処理に適用する音像位置を選択し、音信号Ａｋ（ｋ＝１〜ｎ）に対応した音像をこれらの選択した音像位置に定位させるための制御データを生成する。例えば、分析部１０１に音信号Ａ１〜Ａ３が入力され、音信号Ａ１の主音声順位が第３位、音信号Ａ２の主音声順位が第２位、音信号Ａ３の主音声順位が第１位であったとする。この場合、生成部１０２は、主音声順位が第１位である音信号Ａ３の音像を最も優遇された位置であるセンタに、主音声順位が第２位である音信号Ａ２の音像をその次に優遇された位置である左に、主音声順位が第３位である音信号Ａ１の音像を最も優遇されていない位置である右に定位させるための制御データを生成し、合成部１０３に出力する。なお、生成部１０２が選択する音像位置は任意であり、上記例において、主音声順位が第１位である音信号Ａ３の音像を左に、主音声順位が第２位である音信号Ａ２の音像を右に、主音声順位が第３位である音信号Ａ１の音像をセンタに定位させる等、種々のパターンが考えられる。

合成部１０３は、生成部１０２から制御データを受け取ると、制御データに従って、音信号Ａｋ（ｋ＝１〜ｎ）に音響処理（この例では音像定位処理）を施すとともに、音響処理の結果である音信号をミキシングする。

図３は、本実施形態におけるミキシング制御プログラム１００の処理内容を示すフローチャートである。以下、図３を参照し、本実施形態の動作を説明する。複数の歌唱者が歌唱すると、複数の歌唱者の音信号が、集音器７−ｋ（ｋ＝１〜ｎ）を介してＡ／Ｄ変換器８−ｋ（ｋ＝１〜ｎ）に入力される。そして、Ａ／Ｄ変換器８−ｋ（ｋ＝１〜ｎ）によりＡ／Ｄ変換された音信号Ａｋ（ｋ＝１〜ｎ）は、分析部１０１および合成部１０３に入力される。

分析部１０１は、音信号Ａｋ（ｋ＝１〜ｎ）を受け取ると、以下のような算出手順で、音信号Ａｋ（ｋ＝１〜ｎ）から特徴量として音量（音信号Ａｋ（ｋ＝１〜ｎ）の振幅値）を抽出し、抽出した音量を基に音信号Ａｋ（ｋ＝１〜ｎ）に主音声順位を設定する（ステップＳＡ１）。

まず、分析部１０１は、Ａ／Ｄ変換器８−ｋ（ｋ＝１〜ｎ）から音信号Ａｋ（ｋ＝１〜ｎ）が逐次入力されると、所定の時間単位における音信号Ａｋ（ｋ＝１〜ｎ）の振幅値を抽出し、振幅エンベロープを算出する。ここで、設定する時間単位は、所定の一定値や、歌唱者が歌う楽曲の１曲全体の再生時間または１番のみの再生時間等としてもよい。また、ＶＡＤ（Voice Activity Detection）や、ＶＡＤとｈａｎｇｏｖｅｒ処理を併用した処理等により時間単位を設定してもよい。

次に、分析部１０１は、算出した音信号Ａｋ（ｋ＝１〜ｎ）の振幅エンベロープを平滑化し、振幅エンベロープ波形に重畳されたノイズを除去する。次に、分析部１０１は、音信号Ａｋ（ｋ＝１〜ｎ）の振幅エンベロープのうち、最大の振幅値を有する振幅エンベロープを特定する。そして、振幅エンベロープの最大振幅値によって、音信号Ａｋ（ｋ＝１〜ｎ）の振幅エンベロープを除算し正規化する。ここで、正規化した振幅エンベロープが、予め定められた所定の閾値に満たない振幅値を含む場合、その振幅値に対応する区間において音信号Ａｋ（ｋ＝１〜ｎ）が入力されていないものとする。

次に、分析部１０１は、正規化された音信号Ａｋ（ｋ＝１〜ｎ）の振幅エンベロープを各々比較し、振幅エンベロープ値の大きな順に主音声順位を与える。すなわち、分析部１０１は、音信号Ａｋ（ｋ＝１〜ｎ）のうち、振幅エンベロープ値が最大のものの主音声順位を第１位、次に大きい振幅エンベロープ値を有する音信号の主音声順位を第２位、…、最も小さな振幅エンベロープ値を有する音信号の主音声順位を第ｎ位とする。従って、最も大きな声で歌う歌唱者の音信号は、複数の歌唱者の歌声の中で最も存在感が大きいため、主音声順位が第１位となる。一方、最も小さな声で歌う歌唱者の音信号は、複数の歌唱者の音声の中で最も存在感が小さいため、主音声順位が第ｎ位（最下位）となる。分析部１０１は、音信号Ａｋ（ｋ＝１〜ｎ）に主音声順位を設定すると、これを音信号Ａｋ（ｋ＝１〜ｎ）に対応付け、分析データとして生成部１０２に出力する（ステップＳＡ２）。

生成部１０２は、分析部１０１から分析データを受け取ると、これを基に音信号Ａｋ（ｋ＝１〜ｎ）の音像定位処理の制御データを設定する（ステップＳＡ３）。より具体的には、生成部１０２は、分析データを参照して、例えば最も主音声順位が高い音信号については、音像をセンタに定位させる制御データを設定する。一方、最も主音声順位が低い音信号については、音像を例えば右に定位させる制御データを設定する。生成部１０２は、音信号Ａｋ（ｋ＝１〜ｎ）について各々設定した音像定位処理の制御データを合成部１０３に出力する。

合成部１０３は、生成部１０２から制御データを受け取ると、制御データに従って音信号Ａｋ（ｋ＝１〜ｎ）に音像定位処理を施す（ステップＳＡ４）。そして、音像定位処理が施された音信号Ａｋ（ｋ＝１〜ｎ）をミキシングし、Ｄ／Ａ変換器９−ｊ（ｊ＝１〜ｍ）にミキシング結果である音信号Ｂｊ（ｊ＝１〜ｍ）を出力する（ステップＳＡ５）。ステップＳＡ５の処理が完了すると、ステップＳＡ１に戻り、以上説明したステップＳＡ１〜ＳＡ５の処理を繰り返す。

Ｄ／Ａ変換器９−ｊ（ｊ＝１〜ｍ）は、ミキシング結果である音信号Ｂｊ（ｊ＝１〜ｍ）をアナログ音信号に変換し、拡声器１１−ｊ（ｊ＝１〜ｍ）に出力する。拡声器１１−ｊ（ｊ＝１〜ｍ）は、Ｄ／Ａ変換器９−ｋ（ｋ＝１〜ｎ）からのアナログ音信号をｍ個のスピーカから音として放音する。この結果、音信号Ａｋ（ｋ＝１〜ｎ）が、制御データにより定まる位置に音像の定位した音としてリスナに聴取される。

本実施形態では、複数の音信号Ａｋ（ｋ＝１〜ｎ）に設定された主音声順位に従って、音信号Ａｋ（ｋ＝１〜ｎ）の音像定位処理の制御データを設定する。そして、制御データにより定まる位置に音像が定位した音をリスナに聴取させる。従って、本実施形態によると、ユーザは複雑な操作を一切行わずに、複数の音信号Ａｋ（ｋ＝１〜ｎ）の状況（この場合、音量の大小関係）に応じて、音信号Ａｋ（ｋ＝１〜ｎ）に適用する定位を適切に切り換えることができる。

また、本実施形態では、音量の大きさに応じて音信号Ａｋ（ｋ＝１〜ｎ）に主音声順位を設定し、主音声順位が最も大きい音信号Ａｋ（ｋ＝１〜ｎ）はセンタに、主音声順位が最も小さい音信号Ａｋ（ｋ＝１〜ｎ）は左右に定位するように音像定位処理の制御データを設定する。従って、本実施形態によると、歌唱者に自分の歌声をセンタに定位させるために、大きな声で歌唱する動機づけを行わせることができる。

＜第２実施形態＞
図４は、この発明の第２実施形態であるミキシング装置２０において、ＣＰＵ１が実行するミキシング制御プログラム２００の構成を説明するための図である。ミキシング制御プログラム２００は、分析部２０１と、生成部２０２と、合成部２０３と、ＵＩ（User Interface）２０４とを含んでいる。本実施形態におけるミキシング制御プログラム２００は、歌唱者の歌声等が録音されたオーディオ形式の波形データを再生して得られる音信号Ａｋ（ｋ＝１〜ｎ）にミキシング処理を行う。すなわち、本実施形態に示すミキシング装置２０は、第１実施形態に示したように、リアルタイムに入力される複数の音信号Ａｋ（ｋ＝１〜ｎ）をミキシングする処理に加えて、録音された複数の音声データ等をミキシングする処理を行う。ミキシング制御プログラム２００は、第１実施形態に示すミキシング制御プログラム１００に、ＵＩ２０４を含めた構成となっている。ＵＩ２０４は、ユーザの操作により、分析部２０１、生成部２０２および合成部２０３に操作コマンドを送信する。

本実施形態では、分析部２０１は、音信号Ａｋ（ｋ＝１〜ｎ）から特徴量として音量を抽出するだけでなく、音色、定位、音高、歌声の継続時間等の種々の特徴量を抽出する。また、生成部２０２は、音信号Ａｋ（ｋ＝１〜ｎ）の音像定位処理の制御データを設定するだけでなく、音高、音量、音色等の種々の音響効果の制御データを設定する。合成部２０３は、音信号Ａｋ（ｋ＝１〜ｎ）の音像定位処理を制御するだけでなく、音高、音量、音色の制御等の種々の音響処理を音信号Ａｋ（ｋ＝１〜ｎ）に施す。

図５は、本実施形態におけるミキシング制御プログラム２００の処理内容を示すフローチャートである。以下、図５を参照し、本実施形態の動作を説明する。ＣＰＵ１の指示により、データＩ／Ｏ６に格納されたオーディオ形式の波形データが再生されると、複数の音信号Ａｋ（ｋ＝１〜ｎ）が分析部２０１に入力される。

分析部２０１は、音信号Ａｋ（ｋ＝１〜ｎ）を受け取ると、音信号Ａｋ（ｋ＝１〜ｎ）から種々の特徴量を抽出する（ステップＳＢ１）。より具体的には、分析部２０１は、音色、定位、音高、歌声の継続時間等の種々の特徴量のうち１または複数の特徴量を抽出する。ここで、分析部２０１が抽出する特徴量は、ユーザからの指示により選択される。すなわち、ユーザはＵＩ２０４を介して、抽出すべき特徴量に対応する操作コマンドを分析部２０１に送信する。これを受け、分析部２０１は、ユーザから指定された１または複数の特徴量を音信号Ａｋ（ｋ＝１〜ｎ）から抽出する。

分析部２０１は、音信号Ａｋ（ｋ＝１〜ｎ）から１または複数の特徴量を抽出すると、音信号Ａｋ（ｋ＝１〜ｎ）の主音声順位を設定する。ここで、抽出した特徴量が複数ある場合、分析部２０１は複数の特徴量について設定された主音声順位を重みづけ加算して統合する。例えば、特徴量として音量と音色が抽出された場合、音量の主音声順位と音色の主音声順位とに重みを与え、音信号Ａｋ（ｋ＝１〜ｎ）の主音声順位を重みづけ加算により算出する。そして、重みづけ加算された主音声順位を最終的な主音声順位とする。分析部２０１は、算出された主音声順位を音信号Ａｋ（ｋ＝１〜ｎ）に対応付け、分析データとして生成部２０２に出力する（ステップＳＢ２）。なお、重みはユーザがＵＩ２０４を介して、操作コマンドを分析部２０１に送信することにより指定される。

生成部２０２は、音信号Ａｋ（ｋ＝１〜ｎ）に設定された主音声順位に従い、音信号Ａｋ（ｋ＝１〜ｎ）に施す種々の音響処理の制御データを設定する。ここで、生成部２０２は、定位、音量、音色の制御等の種々の音響処理のうち１または複数の音響処理の制御データを設定する（ステップＳＢ３）。

例えば、音響処理として音量を制御する場合、生成部２０２は、最も主音声順位が高い音信号Ａｋ（ｋ＝１〜ｎ）の音量が最大となるように、音量の制御データを設定する。また、最も主音声順位が低い音信号Ａｋ（ｋ＝１〜ｎ）の音量が最小となるように、音量の制御データを設定する。

また、音響処理として音色を制御する場合、生成部２０２は、最も主音声順位が高い音信号Ａｋ（ｋ＝１〜ｎ）の、高音領域における音圧レベルが強調されるように、イコライザの制御データを設定する。また、最も主音声順位が高い音信号Ａｋ（ｋ＝１〜ｎ）の音声周波数帯域における音圧レベルが強調されるように、イコライザの制御データを設定してもよい。

音信号Ａｋ（ｋ＝１〜ｎ）に施す音響処理は、ユーザからの指示により選択される。すなわち、ユーザはＵＩ２０４を介して、所望の音響処理を指定する操作コマンドを生成部２０２に送信する。これを受け、生成部２０２は、ユーザから指定された１または複数の音響処理の制御データを設定する。生成部２０２は、音信号Ａｋ（ｋ＝１〜ｎ）に施す音響処理の制御データを合成部２０３に送信する。

合成部２０３は、生成部２０２から制御データを受け取ると、制御データに従って音信号Ａｋ（ｋ＝１〜ｎ）に音響処理を施す（ステップＳＢ４）。そして、音響処理が施された音信号をミキシングし、ミキシング結果である音信号Ｂｊ（ｊ＝１〜ｍ）をデータＩ／Ｏ６に出力する（ステップＳＢ５）。ステップＳＢ５の処理が完了すると、ステップＳＢ１に戻り、以上説明したステップＳＢ１〜ＳＢ５の処理を繰り返す。データＩ／Ｏ６は、音信号Ｂｊ（ｊ＝１〜ｍ）を受け取ると、オーディオ形式の波形データとして図示しないメモリに格納する。

本実施形態では、複数の音信号Ａｋ（ｋ＝１〜ｎ）から抽出された１または複数の特徴量に基づき、音信号Ａｋ（ｋ＝１〜ｎ）の主音声順位が設定される。そして、この主音声順位に従い、音信号Ａｋ（ｋ＝１〜ｎ）に１または複数の音響効果が付与される。従って、本実施形態によると、音信号Ａｋ（ｋ＝１〜ｎ）の種々の特徴を考慮したバリエーション豊かな音響処理を音信号Ａｋ（ｋ＝１〜ｎ）に施すことができる。

本実施形態では、オーディオ形式の波形データを再生して得られる音信号Ａｋ（ｋ＝１〜ｎ）に音響処理を施してミキシングする。従って、歌唱者は、自分の歌声等を録音して動画投稿サイトに投稿する場合に、複雑な操作を伴わずに歌声等に音響処理を施して、その歌声等をミキシングすることができる。

また、本実施形態によると、合成部２０３に音信号Ａｋ（ｋ＝１〜ｎ）の音像定位処理の制御を行わせることにより、最も上手に歌う歌唱者の歌声をセンタに定位させ、上手に歌うことができない歌唱者の歌声を左右に定位させることができる。従って、歌唱者に自分の歌声の音像をセンタに定位させるために、歌唱力を向上させようとする動機づけを行わせることができる。

＜他の実施形態＞
以上、この発明の各種の実施形態について説明したが、この発明には他にも実施形態が考えられる。

（１）第１実施形態において、合成部１０３は、制御データに従い音信号Ａｋ（ｋ＝１〜ｎ）に音像定位処理の制御を施すことにより、音像を水平方向の所定の位置に定位させた。しかし、音像が垂直方向の所定の位置に定位するように、生成部１０２に制御データを生成させてもよい。

（２）第２実施形態において、分析部２０１は、オーディオ形式の波形データの全再生区間において音信号Ａｋ（ｋ＝１〜ｎ）から特徴量を抽出し、音信号Ａｋ（ｋ＝１〜ｎ）に主音声順位を設定してもよい。また、生成部２０２は、この主音声順位に従い、音信号Ａｋ（ｋ＝１〜ｎ）に付与する音響効果の制御データを設定してもよい。さらに、合成部２０３は、この制御データに基づき、音信号Ａｋ（ｋ＝１〜ｎ）に音響処理を施してもよい。これにより、音信号Ａｋ（ｋ＝１〜ｎ）全体の音楽的な特徴を考慮した音響処理を音信号Ａｋ（ｋ＝１〜ｎ）に施すことができる。

（３）第２実施形態において、分析部２０１は、音信号Ａｋ（ｋ＝１〜ｎ）から抽出した特徴量と模範データから抽出した特徴量との類似性に基づき、音信号Ａｋ（ｋ＝１〜ｎ）の主音声順位を決定してもよい。ここで、模範データとは、例えば、模範ボーカルや模範コーラスの歌声、ＭＩＤＩ形式の演奏データ、楽譜データ等のことをいう。模範ボーカルや模範コーラスから抽出する特徴量は、音量、音高、歌声の継続時間等の種々の特徴量のうち１または複数の特徴量であってもよい。この場合、分析部２０１が抽出する特徴量は、ユーザがＵＩ２０４を介して所定の操作コマンドを送信することにより指定される。分析部２０１は、音信号Ａｋ（ｋ＝１〜ｎ）から抽出した特徴量と模範データから抽出した特徴量との類似性が最も高い音信号の主音声順位を第１位とし、最も低い音信号の主音声順位を第ｎ位とする。

（４）第２実施形態において、合成部２０３は、模範データから抽出した特徴量をリファレンスとして、音信号Ａｋ（ｋ＝１〜ｎ）の特徴量を補正してもよい。ここで、模範データとは、例えば、ＭＩＤＩ形式の演奏データや模範ボーカルの歌声等のことをいう。例えば、合成部２０３は、ある演奏区間において、分析部２０１がＭＩＤＩ形式の演奏データから取得したピッチカーブデータをリファレンスとして、当該演奏区間における音信号Ａｋ（ｋ＝１〜ｎ）のピッチカーブを補正する。また、合成部２０３は、ある演奏区間において分析部２０１がＭＩＤＩ形式の演奏データから取得したベロシティ（音の強弱）データをリファレンスとして、当該演奏区間における音信号Ａｋ（ｋ＝１〜ｎ）のアーティキュレーション（例えば、音量・音韻遷移時間）を補正する。また、合成部２０３は、ある演奏区間において分析部２０１がＭＩＤＩ形式の演奏データから取得したビブラート（例えば、音高変化、音量変化）データをリファレンスとして、当該演奏区間における音信号Ａｋ（ｋ＝１〜ｎ）のビブラートを補正する。模範データから取得する特徴量は、ユーザがＵＩ２０４を介して所定の操作コマンドを送信することにより設定される。

また、合成部２０３は、模範ボーカルの歌声から抽出した声質をリファレンスとして、音信号Ａｋ（ｋ＝１〜ｎ）が示す歌声の声質を補正してもよい。

（５）第２実施形態において、合成部２０３は、模範データから抽出した特徴量と音信号Ａｋ（ｋ＝１〜ｎ）から抽出した特徴量とを基に新たな波形データを生成し、当該波形データからなる音信号Ａｋ（ｋ＝１〜ｎ）を、音信号Ａｋ（ｋ＝１〜ｎ）にミキシングしてもよい。例えば、分析部２０１は、ＭＩＤＩ形式の演奏データからピッチカーブ、楽曲のコード進行情報、ダイヤトニックスケール等の特徴量を抽出する。合成部２０３は、この特徴量が音信号Ａｋ（ｋ＝１〜ｎ）から抽出した特徴量と調和するように、コーラス音声やダブリング音声等の波形を生成する。そして、生成したコーラス音声やダブリング音声が示す音信号Ａｋ（ｋ＝１〜ｎ）と各入力音信号Ａｋ（ｋ＝１〜ｎ）とをミキシングすることにより、音信号Ａｋ（ｋ＝１〜ｎ）が示す音声にコーラス音声やダブリング音声を重畳させる。模範データから抽出する特徴量は、ユーザがＵＩ２０４を介して所定の操作コマンドを送信することにより設定される。

（６）第２実施形態において、合成部２０３は、音信号Ａｋ（ｋ＝１〜ｎ）から抽出された特徴量を基に、当該特徴量を取得したパートまたはそれ以外のパートの音信号Ａｋ（ｋ＝１〜ｎ）の特徴量を加工してもよい。

例えば、合成部２０３は、分析部２０１が音信号Ａｋ（ｋ＝１〜ｎ）から抽出したピッチカーブデータを基に、当該ピッチカーブデータを抽出したパートのピッチカーブを加工する。これにより、当該パートのピッチカーブの特徴を適量だけ変化させることができる。また、合成部２０３は、分析部２０１が音信号Ａｋ（ｋ＝１〜ｎ）から抽出したピッチカーブデータを基に、当該ピッチカーブデータを抽出したパートとは別のパートのピッチカーブを加工してもよい。これにより、あるパートのピッチカーブの特徴を、他のパートにも付与することができる。

また、合成部２０３は、分析部２０１が音信号Ａｋ（ｋ＝１〜ｎ）から抽出したベロシティデータを基に、当該ベロシティデータを抽出したパートのアーティキュレーションを加工する。これにより、当該パートのアーティキュレーションの特徴を適量だけ変化させることができる。また、合成部２０３は、分析部２０１が音信号Ａｋ（ｋ＝１〜ｎ）から抽出したベロシティデータを基に、当該ベロシティデータを抽出したパートとは別のパートのアーティキュレーションを加工してもよい。これにより、あるパートのアーティキュレーションの特徴を、他のパートにも付与することができる。

また、合成部２０３は、分析部２０１が音信号Ａｋ（ｋ＝１〜ｎ）から抽出したビブラートデータを基に、当該ビブラートデータを抽出したパートのビブラートを加工する。これにより、当該パートのビブラートの特徴を適量だけ変化させることができる。また、合成部２０３は、分析部２０１が音信号Ａｋ（ｋ＝１〜ｎ）から抽出したビブラートデータを基に、当該ビブラートデータを抽出したパートとは別のパートのビブラートを加工してもよい。これにより、あるパートのビブラートの特徴を、他のパートにも付与することができる。

また、合成部２０３は、分析部２０１が音信号Ａｋ（ｋ＝１〜ｎ）から取得した歌唱者の声質データを基に、当該声質データを取得したパートの声質を加工する。これにより、当該パートの声質の特徴を適量だけ変化させることができる。また、合成部２０３は、分析部２０１が音信号Ａｋ（ｋ＝１〜ｎ）から抽出した声質データを基に、当該声質データを抽出したパートとは別のパートの声質を加工してもよい。これにより、あるパートの声質の特徴を、他のパートにも付与することができる。

分析部２０１が音信号Ａｋ（ｋ＝１〜ｎ）から抽出する特徴量は、ユーザがＵＩ２０４を介して所定の操作コマンドを送信することにより設定される。また、合成部２０３により加工されるパートは、ユーザがＵＩ２０４を介して、所定の操作コマンドを送信することにより設定される。

（７）第２実施形態において、合成部２０３は、模範データから抽出された特徴量を基に、所定の区間を設定し、この区間においてのみミキシングされた音信号Ａｋ（ｋ＝１〜ｎ）を出力させてもよい。例えば、合成部２０３は、ＭＩＤＩ形式の演奏データ等の模範データから各種特徴量を抽出し、歌い出し〜Ａメロ〜サビに至るまでの区間、歌い出し〜最大音量付近に至るまでの区間、歌いだし〜最小音量付近に至るまでの区間等を特定する。そして、これらの指定された区間においてのみミキシングされた音信号Ａｋ（ｋ＝１〜ｎ）を出力する。

また、合成部２０３は、設定された複数の区間を時系列に接続したダイジェストを作成し、このダイジェストに従い順次ミキシングされた音信号Ａｋ（ｋ＝１〜ｎ）を出力してもよい。この場合、ダイジェストの時間長は、ネットワークの混雑状況等を考慮して適宜変更できるようにしてもよい。これらの区間やダイジェストの時間長は、ユーザがＵＩ２０４を介して、所定の操作コマンドを送信することにより設定される。

（８）第１実施形態および第２実施形態において、合成部１０３および２０３に、主音声順位に従い、歌唱者等の画像を表示部４または他の表示手段に表示させるための表示制御信号を出力させてもよい。この場合、主音声順位が最も高い歌唱者の画像を表示部４または他の表示手段のセンタに表示させ、主音声順位が最も低い歌唱者の画像を表示部４または他の表示手段の左右に小さく表示させる。これにより、歌唱者に自身の画像をセンタに表示させるために、歌唱力を向上させようとする動機づけを行わせることができる。

（９）上記（１）〜（８）に示す制御を実行するか否かの判断は、ユーザがＵＩ２０４を介して、所定の操作コマンドを送信することにより決定してもよい。また、第２実施形態において、逐次入力される複数の音信号Ａｋ（ｋ＝１〜ｎ）をリアルタイムでミキシングする処理、または録音された複数の音声データが示す音信号Ａｋ（ｋ＝１〜ｎ）をミキシングする処理のいずれを行うかの判断は、ユーザがＵＩ２０４を介して、所定の操作コマンドを送信することにより決定してもよい。

（１０）第１実施形態および第２実施形態に示すミキシング装置は、クライアントサーバシステム（分散型コンピュータシステム）としてもよい。すなわち、クライアント側に集音器７−ｋ（ｋ＝１〜ｎ）およびＡ／Ｄ変換器８−ｋ（ｋ＝１〜ｎ）を設置し、歌声等の集音および音信号Ａｋ（ｋ＝１〜ｎ）のＡ／Ｄ変換を行わせる。そして、Ａ／Ｄ変換後の音信号Ａｋ（ｋ＝１〜ｎ）をサーバにアップロードし、サーバ側に設置されたＣＰＵ１にミキシング制御プログラム１００または２００を実行させる。そして、ミキシングが施された音信号Ｂｊ（ｊ＝１〜ｍ）をクライアント側にダウンロードする構成としてもよい。

また、クライアント側で、集音器７−ｋ（ｋ＝１〜ｎ）による集音、Ａ／Ｄ変換器８−ｋ（ｋ＝１〜ｎ）によるＡ／Ｄ変換、分析部１０１および２０１による分析データの生成を行わせてもよい。この場合、Ａ／Ｄ変換後の音信号Ａｋ（ｋ＝１〜ｎ）および分析データをサーバにアップロードし、サーバ側に生成部１０２および２０２による制御データの生成、合成部１０３および２０３によるミキシングを行わせる。そして、ミキシングが施された音信号Ｂｊ（ｊ＝１〜ｍ）をクライアント側にダウンロードする構成としてもよい。

また、クライアント側で、集音器７−ｋ（ｋ＝１〜ｎ）による集音、Ａ／Ｄ変換器８−ｋ（ｋ＝１〜ｎ）によるＡ／Ｄ変換、分析部１０１および２０１による分析データの生成、生成部１０２および２０２による制御データの生成を行わせてもよい。この場合、Ａ／Ｄ変換後の音信号Ａｋ（ｋ＝１〜ｎ）および制御データをサーバにアップロードし、サーバ側に合成部１０３および２０３によるミキシングを行わせる。そして、ミキシングが施された音信号Ｂｊ（ｊ＝１〜ｍ）をクライアント側にダウンロードする構成としてもよい。

また、クライアントサーバシステムにした場合、サーバ側の処理結果を随時クライアント側でモニタリングできるようにすることで、クライアント側はサーバの処理能力に応じて処理量を調整することができる。

（１１）上記各実施形態において、主音声順位が同順位の音信号Ａｋ（ｋ＝１〜ｎ）が複数ある場合、以下のような処理を実行してもよい。例えば、主音声順位が第１位の音信号が２つある場合、各々を同率１位とする。そして、第２位を欠番とし、他の音信号に第３位〜第ｎ位までの主音声順位を設定する。あるいは、第２位を欠番とせず、他の音信号Ａｋに第２位〜第ｎ−１位までの主音声順位を設定する。あるいは、主音声順位が第１位の音信号Ａｋ（ｋ＝１〜ｎ）が２つある場合、各々を同率１位とせず、添え字の番号ｋ（１〜ｎ）の小さい方の音信号の主音声順位を第１位、大きい方の音信号の主音声順位を第２位と設定してもよい。

（１２）上記各実施形態では、歌唱音声信号をミキシングするミキシング装置にこの発明を適用したが、この発明は楽音信号をミキシングするミキシング装置や、歌唱音声信号と楽音信号をミキシングするミキシング装置にも適用可能である。

１…ＣＰＵ、２…ＲＯＭ、３…ＲＡＭ、４…表示部、５…操作部、６…データＩ／Ｏ、７−ｋ（ｋ＝１〜ｎ）…集音器、８−ｋ（ｋ＝１〜ｎ）…Ａ／Ｄ変換器、９−ｊ（ｊ＝１〜ｍ）…Ｄ／Ａ変換器、１０−ｊ（ｊ＝１〜ｍ）…増幅器、１１−ｊ（ｊ＝１〜ｍ）…拡声器、１２…バス、１０，２０…ミキシング装置、１００，２００…ミキシング制御プログラム、１０１，２０１…分析部、１０２，２０２…生成部、１０３，２０３…合成部、２０４…ＵＩ。

Claims

複数の音信号から特徴量を各々抽出し、抽出した各特徴量に基づき、前記複数の音信号に順位を各々設定する分析部と、
前記複数の音信号に適用する音響処理を各々制御するための複数の制御データを前記複数の音信号に設定された順位に基づいて各々生成する生成部と
を有することを特徴とするミキシング装置。
前記複数の音信号に音響処理を施してミキシングする手段であって、前記複数の音信号に対する音響処理を前記複数の制御データに従って各々制御する合成部を有することを特徴とする請求項１に記載のミキシング装置。
前記分析部は、前記複数の音信号から音量を各々抽出し、抽出した各音量に基づいて、前記複数の音信号に順位を各々設定し、
前記生成部は、前記複数の音信号に設定された順位に基づいて、各音信号に適用する音像位置を切り換えることを特徴とする請求項１または２に記載のミキシング装置。
前記分析部は、前記複数の音信号の各特徴量と基準となる音信号の特徴量との類似度に基づき、前記複数の音信号に順位を各々設定することを特徴とする請求項１または２に記載のミキシング装置。