JP7256164B2

JP7256164B2 - オーディオ処理装置及びオーディオ処理方法

Info

Publication number: JP7256164B2
Application number: JP2020205424A
Authority: JP
Inventors: バルカイイタイ
Original assignee: 新唐科技股▲ふん▼有限公司
Priority date: 2019-12-15
Filing date: 2020-12-10
Publication date: 2023-04-11
Anticipated expiration: 2040-12-10
Also published as: CN112995856A; JP2021097406A; TWI762030B; US10904690B1; CN112995856B; TW202127433A; KR102478252B1; KR20210076855A

Description

本発明は、普通オーディオ信号の処理に関し、特に、混合オーディオ出力の生成のための方法システム及びソフトウェアに関する。

オーディオチャンネルに対する混合の技術は、以前の特許文献にすでに提案され、例えば、米国特許7,522,733は、スピーカーからのステレオオーディオ情報の再生には、複数のステレオチャンネルを合わせる必要があると記載されている。これらの信号の、ある周波数でほぼ同じ大きさ、ほぼ逆の位相を持つ部分を合わせると、当該周波数でのオーディオ情報が失われる。削除される可能性のある領域とオーディオ情報が失われる可能性のある領域を保つために、オーディオエンハンスメントシステムは、これらのステレオチャンネル間の位相関係を調整する。ステレオ信号の空間コンテンツの損失を回避するために、オーディオエンハンスメントシステムは、異なるステレオチャンネル間に存在する差分情報を決定する。オーディオエンハンスメントシステムは、差分情報をエンハンスし、位相調整信号と強化差分情報を混合して強化モノフォニックの出力を生成する。

他の例である米国特許7,212,872は、マルチチャンネルオーディオフォーマットが記載され、映画館、ホームシアター、または音楽環境におけるサラウンドサウンド、フロントまたは他のディスクリートオーディオチャンネルに真のディスクリート及び後方互換性のあるミックスを提供する。追加のディスクリートオーディオ信号は、既存のディスクリートオーディオチャンネルと混合されて例えば5.1オーディオフォーマット等の所定のフォーマットになる。また、これらの追加のディスクリートオーディオチャンネルは、エンコードされ、ビットストリームの拡張ビットとして所定のフォーマットに追加される。既存のマルチチャンネルデコーダーのベースはミックスデコーダーと組み合わせて使用されて、真のディスクリートのN.1マルチチャンネルオーディオを再生することができる。

米国特許7,283,634は、オーディオチャンネルを混合する方法が記載され、当該方法は、不要なアーティファクトを導入したり、元のオーディオのディスクリート表示を過度に柔らかくしたりすることなく、オーディオのバランスを効果的に取り直すことができる。オーディオチャンネルを処理することにより、各対の入力チャンネルに対して1つ又は複数の「相関」オーディオ信号を生成し、この操作が任意の2つ又は複数の入力チャンネル間で実現される。2つのチャンネルにおいてコンテンツが同じまたは非常に類似し、位相遅延がほとんどなくまたは時間遅延がないことを表す同相相関信号は、入力チャンネルと混合される。開示された方法は、通常は失われる非同相の相関信号（かなりの時間または位相遅延がある同じまたは類似の信号）と、入力チャンネルと混合される可能性がある一対の独立した信号（他の入力チャンネルに信号が存在しない）とを生成することができる。同相の相関信号と一対の独立した信号を提供することにより、本方法はオーディオチャンネルのダウンミキシング（downmixing）にも適するようになる。

特許文献には2つの信号を混合する他の解決策が提案された。位相同期ループ（PLL）回路（例えば、米国特許6,590,426に記載されたもの）を用いた解決策は、位相を修正する手段として位相を検出できる。音楽信号の場合、2つの（又は複数の）信号は、同じ位相または周波数さえ共有しない可能性があるため、完全に同じではない可能性があり、1つのチャンネルの位相と別のチャンネル、参照チャンネル、またはターゲットチャンネルの位相とを修正または調整することは、期待した結果が得られない可能性がある。

本発明に係る実施例は、オーディオ処理装置を提供し、当該オーディオ処理装置は、インターフェース、制御プロセッサ、調整プロセッサ、複数のチャンネル修飾子、及びチャンネルコンバイナーを含む。インターフェースは、各オーディオ信号を含むオーディオチャンネルを受信するように配置される。制御プロセッサは、オーディオ信号から制御信号を生成するように配置される。調整プロセッサは、制御信号に基づいて、オーディオ信号のうちの少なくとも1つの振幅に対する調整パラメータを計算するように配置される。複数のチャンネル修飾子は、調整パラメータを使用して、それぞれのオーディオチャンネルにおけるオーディオ信号を調整するよう配置される。チャンネルコンバイナーは、少なくとも1つのチャンネルを調整した後、複数のオーディオチャンネルを合計し、合計されたオーディオチャンネルを出力する。

いくつかの実施例では、制御プロセッサは、制御プロセッサの出力信号振幅と複数のオーディオ信号の1つの振幅との比率に基づいて制御信号を生成するように配置される。そのうち、当該比率は、複数のオーディオ信号間の位相差を示す。いくつかの実施例では、当該比率は時変的(time-dependent) なものである。

1つの実施例では、オーディオ信号、制御信号及び調整パラメータはいずれも時変的なものである。

もう1つの実施例では、制御信号は、複数のオーディオ信号間の相関係数を含み、且つ制御プロセッサは複数のオーディオ信号を相互相関させることによって相関係数を生成するように配置される。

いくつかの実施例では、制御プロセッサは、+1と0の間に変換する相関係数値を割り当てるように配置される。他の実施例では、制御プロセッサは、+1又は-1の相関係数値を割り当てるように配置される。

1つの実施例では、オーディオチャンネルは、モノチャンネルである。もう1つの実施例では、オーディオチャンネルのうちの少なくとも1つはステレオチャンネルである。

いくつかの実施例では、チャンネル修飾子は、スカラー乗算器（scalar multipliers）を含む。

いくつかの実施例では、当該オーディオ処理装置は、マルチ帯域分周器を更に含み、当該マルチ帯域分周器は、各オーディオチャンネルのオーディオ信号を複数のスペクトルバンドに分割し、且つ制御プロセッサに、1対又は複数対の、同じ周波数を有する各スペクトルバンドを提供して、各対に対してそれぞれの制御信号を生成するように配置される。

本発明の別の実施例によれば、オーディオ処理方法を更に提供し、当該オーディオ処理方法は、以下のステップを含む。各オーディオ信号を含むオーディオチャンネルを受信する。複数のオーディオ信号から制御信号を生成する。制御信号に基づいて、調整パラメータを複数のオーディオ信号のうちの少なくとも1つの振幅として計算する。調整パラメータを使用して、各オーディオチャンネルにおけるオーディオ信号を調整する。少なくとも1つのチャネルを調整した後、複数のオーディオチャンネルを合計し、合計されたオーディオチャンネルをユーザに出力する。

いくつかの実施例では、当該オーディオ処理方法は、各オーディオチャンネルのオーディオ信号を複数のスペクトルバンドに分割し、1対又は複数対の、同じ周波数を有するそれぞれのペクトルバンドを生成し、そのうち、制御信号を生成することは、それぞれの対に対して対応する制御信号を生成することを含む。

以下、図面を参照しながら実施例を詳細に説明することにより、本発明をより完全に理解することができる。

図1は本発明の実施例に係るオーディオ処理装置の模式ブロック図である。図2は本発明の実施例に係る、デュアル帯域分周器を更に含むオーディオ処理装置の模式ブロック図である。図3は本発明の実施例に係る、マルチ帯域分周器を更に含むオーディオ処理装置の模式ブロック図である。図4は、本発明の実施例に係る、例えば図1の相関プロセッサによって生成された、オーディオ信号間の位相の関数として測定された相関因子を示す図である。図5は、本発明の実施例に係る、図3のオーディオ処理装置を使用して2つのオーディオチャンネルを混合する方法を模式的に示すフローチャートである。

オーディオ処理領域では、2つの又は複数のチャンネルを混合する（即ち、2つ又は複数のチャンネルを1つのチャンネルに追加する）ことは、録音エンジニア、ライブ又はブロードキャストDJ、音楽プロデューサー、ミュージシャン、自動DJソフトウェア及び多数のソフトウェアで一般的に使用される基本技術であり、例えば音楽アプリケーション（デジタル音楽プレーヤーアプリケーション）等が挙げられる。混合の結果（通常、一つの単純な数学的オペランドのみに係わる）は、必ずしも期待される出力であるとは限りらない。本明細書では、チャンネル(channel)は「チャネル(channel) 」とも呼ばれる。

例えば、位相は180°シフトしたが、コンテンツ（例えば、振幅及び周波数）が類似または同一である2つのモノチャンネルが追加され、実際には加算の代わりに2つのチャンネルが差し引かれ、これは、期待される結果とかなり違うものである。これらの2つのチャネルを差し引くと、エネルギーと情報が不可逆的に失われ、予想される加算により、より多くのエネルギーと情報が提供される。1つのチャンネルのみのコンテンツが他のチャンネルに対して180°位相シフトされている場合、2つのチャンネルを追加すると、少なくとも、一部の情報とエネルギー損失が発生する。

以下に説明される本発明に係る実施例は、オーディオ処理装置及び方法を提供し、当該オーディオ処理装置及び方法は、2つ又は複数のオーディオチャンネルを混合する場合、様々なチャネルタイプの混合に基づく（例えば、複数のモノチャンネルを混合し、複数のステレオチャンネルを単一のステレオ（2つのチャンネル）に混合して出力し、「フルステレオラック」（その定義は後記した通り）を1つのステレオ出力チャネルに混合する）。

いくつかの実施例では、2つのオーディオチャンネルを提供し、各オーディオチャンネルは、時変的なオーディオ信号を含む。オーディオ処理装置のインターフェースはオーディオ信号を受信する。制御プロセッサは2つのオーディオチャンネル信号を用いて典型的で時変的な対応する制御信号を取得し、例えば、2つのオーディオチャンネルからの信号間の時変的な位相差に依存する制御信号を取得する。調整プロセッサ（ゲインプロセッサとも呼ばれる）は、制御信号を用いて、オーディオ信号のうちの少なくとも1つの振幅に対する調整パラメータを計算する。その後、チャネル修飾子素子アセンブリは、調整パラメータを使用してチャネルのオーディオ信号を調整する。最後、チャネルコンバイナーは（少なくとも1つのチャネルを調整した後）2つのオーディオチャンネルを組み合わせ（即ち、混合）、組み合わせたオーディオチャンネルをユーザに出力する。

制御信号（例えば、パラメータ）の例は2つのオーディオチャンネル信号間の相関係数である。調整パラメータの1つの例はチャネルのゲインレベルを変更するためのものである。

上記の説明は、簡単にするために2つのチャネルを考慮しているが、本発明の実施例は、複数の入力チャネルに適用可能である。開示されたオーディオ処理装置は、アナログ（連続）およびデジタル（時間離散および限界分解能）信号を混合することができる。

多くの場合、1つのチャネルで伝送される情報は他のチャネルよりも重要であると見なされる。これは、人間のユーザーの芸術に基づいて決定されてもよく、「例えば、エネルギーの多いチャネルがより重要である」などのような標準に基づいて自動的に事前設定されてもよい。簡単にするために、以下に、より重要なチャネルを「マスターチャネル（master channel）」と呼び、他のチャネルを「スレーブチャネル（slave channel）」と呼ぶ。明確にするために、以下、マスター用語及びスレーブ用語を用いていくつかの選択された動作モードを説明し、開示された技術の様々な部分を強調する。このようなモードは、本発明のいくつかの提案される実施例に過ぎず、非限定的な例としてとられる。

レコーディングスタジオで非常に一般的な第1のモードは、以下に「Mode_A（モードAとも呼ばれる）」と呼ばれ、そのうち、オーディオ処理装置は、信号への干渉を最小限に抑えてマスターチャネルの信号の高純度を維持する。通常、オーディオ処理装置は、当該チャネルの調整パラメータ（例えば、ゲイン）を「+1」（ゲイン値の変更なし、位相反転なし）として一定に保つ。スレーブチャネルにより、Mode_Aを適用するオーディオ処理装置は、さらに変更を加えることができる。例えば、本発明の特定の実施例では、オーディオ処理装置は、スレーブチャネルのゲイン値を制御信号とし、マスターオーディオ信号とスレーブオーディオ信号との間の位相差に応じてスレーブチャネルのゲインを減衰させて、スレーブチャネルの出力功率をそれぞれ減衰させる。

Mode_Aでは、2つの信号間の位相差が180°に近づくと伴い、スレーブチャネルのゲインが低下する。以下に説明するように、このようなゲイン係数の値は、区間[0、180°]内、区間[0、1]内の相対位相の単調減少関数によって記述できる。もちろん、スレーブ信号（スレーブチャネルの信号）はマスター信号（マスターチャネルの信号）から完全に逆相にある場合、干渉（スレーブ）信号はミュートされ、マスター信号のみが出力される。その結果、損失のない純粋な信号が得られる。

別の非限定的な例は、「Mode_B（モードBとも呼ばれる）」と呼ばれ、そのうち、オーディオ処理装置の制御プロセッサは、Mode_Aと同じ方式でハードウェアによって構成される。しかしながら、オーディオ処理装置の判定ロジックは異なる。Mode_Bでは、オーディオ処理装置は、スレーブチャネルの如何なる調整を回避するか、スレーブチャネルの情報を完全に逆相にすることにより、バイナリモードで動作する。例えば、制御プロセッサによって出力された制御信号がゼロまたはゼロに近い場合、それは、これらの信号が互いに打ち消し合い、スレーブチャネルが受信したゲインは「 -1」（ゲインの変化は0 dBであるが、位相は180°だけ反転した）であることを意味する。従って、スレーブ信号を逆相にし、2つの信号（マスター信号とスレーブ信号）を加算し、予期方法で一緒に再生させる。

Mode_Bは、位相反転の理由が、時間とは関係がない（または少なくとも非常にゆっくりと変化する）場合に使用され、例えば、その設計または位置のために位相が反転するマイクの場合に使用される。この場合、ユーザは時間に依存しない決定を行うだけで済む。実用的なシステムは、ユーザがMode_AとMode_Bのどちらかを選択できるように配置される。特に、ソフトウェアの実現では、Mode_AまたはMode_Bをサポートするように配置された単一のシステムを提供することができる。

多くの実際的な状況において、1つ又は複数の主な帯域が存在し、これらの帯域は、ほとんどの不利な位相打ち消し合い作用を占めている。

一般的な状況において、特に電子ダンスミュージックにおいて、所定の繰り返しのリズムの低周波信号（例えば、繰り返される低音音符又は繰り返される低周波音符）及び同様に重要なチャネルが意図的に「繰り返して再生」され得る。この場合、元のラックが逆相で記録されている場合、または信号の低周波音符の間にわずかな不一致または非同期がある場合でも、情報の部分的な打ち消し合いと低周波信号のエネルギー損失が発生する。

この場合、そのうちの1つのラックを一時的に減衰させると誤った結果が生成され、なぜかというと、その目的は、重要な低周波信号を均一に混合するためである。従って、いくつかの実施例では、「Mode_C（モードCとも呼ばれる）」と呼ばれるモードが提供され、開示されるオーディオ処理装置は、マルチ帯域分周器（spectral bands crossover）を更に含み、当該マルチ帯域分周器は、入力された複数のオーディオチャンネルの複数のオーディオ信号を2つ以上のスペクトルバンドに分割するように配置され、そのうち、2つのオーディオチャンネルからのそれぞれの対のそれぞれのスペクトルバンドは同じ周波数を持っている。複数の対のサブセットは、1対のチャネルと見なされ、上記または類似のタイプのオーディオ処理装置によってさらに処理されて、次の操作が実行される。（a）それぞれの制御信号を導出し、（b）少なくとも1つのチャンネル修飾子により、オーディオ信号のうちの少なくとも1つの振幅の調整パラメータに対する調整パラメータを計算し、（c）チャネルのオーディオ信号を調整する。最後に、チャネルコンバイナーを用いて、すべての調整済みの（もしあれば、未調整の）スペクトル帯域サブセットを加算（即ち、混合）し、得られた合計のオーディオチャンネルをユーザに出力する。

一例では、デュアル帯域クロスオーバーを提供し、0で入力チャンネルを分割し、例えば各入力ステレオチャンネルは低周波帯域と高周波帯域に分割され、そのうち、低周波信号は、例えばMode_Bを用いてバイナリ混合を行うことができ、高周波信号は、Mode_Aを用いて混合するか、又はそのまま保持しておくことができる。

本発明に係る実施例は、これらの方法を提供して、（a）如何なる位相差を測定する必要があること、（b）位相に明確に合わせること、及び/又は（c）言及したチャネル上の元のコンテンツに関する如何なる頻度を変更することはなく、1つ以上のチャネル間の位相打ち消し合いによる情報損失を回避する。開示された実施例は、低い計算量要件でリアルタイムに上記のコンテンツを実現する。

本発明の別の実施例では、オーディオ処理装置は、ノーマライザー（normalizer）を更に含み、当該ノーマライザーは、制御プロセッサの前に2つのチャネル入力（マスターとスレーブ）を正規化（normalization）し、これによって、制御プロセッサは、2つの類似の振幅信号用の制御信号を導き出す。別の実施形態では、先読みバッファ(look-ahead buffer)は、調整プロセッサが調整パラメータ（例えば、ゲイン）を計算したまで、信号を遅延させるように配置される。この解決策は、全体的な遅延を増加させるが、単一のサンプルを失うことはなく、位相打ち消し合いを回避する。

通常、プロセッサは、特定のアルゴリズムを含むソフトウェアでプログラムされ、これらのソフトウェアは、プロセッサが前に概説された、プロセッサ関連のステップおよび機能のそれぞれを実行することを可能にする。

様々なタイプのチャネルを混合する（異なるスペクトルバンドの混合を含む）ときエネルギーおよび情報の失いを自動的に回避することにより、開示された技術は、短い待ち時間および低い計算要件の維持を含む改善された混合機能を提供する要求を満たす。
定義

本開示は、いくつかの用語を使用し、それらの定義はここに提供される。
モノチャンネル：

特定の情報セットを有する情報チャネル（連続ドメイン又はディスクリートドメインで表される）である。1つの例としては、スタジオでシングルマイクシンガー、ギターなどの単一の楽器を録音することである。

ダブルモノチャンネル：

2つのモノチャンネルの情報チャネルである。これらの2つのチャネルはまったく相関していない可能性がある。

ステレオチャネル：

2つのモノチャンネルのオーディオ情報チャネルは、通常、特定の相関関係がある。通常の状況では、これら2つのチャネルのコンテンツは関連しており、ステレオ録音を表す。適切に設定されたオーディオ再生システムでこのコンテンツを再生すると、「ファントム画像（phantom image）」を提供することができる。「Blumlein Stereo」（英国特許BP 394,325）と呼ばれることもある。

完全なステレオラック：

ステレオチャネルの一つの特別な状況であり、完全なステレオ音楽コンテンツを収容することができる（即ち、通常、録音された曲又はラックに収容される音が1つの楽器のみではない）。これは、通常、レコーディングスタジオでのオーディオミキシングとマスタリングの結果であり、且つレコード会社の主力商品である。これは、視聴者がCDプレーヤー、ストリーミングメディア方式などを介して使用および視聴する一般的な「音楽ファイル」である。

マルチチャネル：

2つを超えたチャネルが組み合わせて1つの「マルチチャネル」の設定になる。1例としては、サラウンドサウンドシステムまたは録音であり、そのうち、チャネルは、左、右、中、後左、後右及び低周波効果（LFE）等に分けられている。
オーディオミキシング

1つ又は2つのチャネルを1つの共通出力チャネルに追加する。この出力は単一の出力ではない可能性があり、即ち、1つのみのチャネルではない可能性がある。

最も単純で最も一般的な状況は、2つのモノチャンネルを1つのモノチャンネル出力に追加することである。

より複雑であるが非常に一般的な解決策は、2つ（または複数）の「フルオーディオトラック」を単一のステレオ（2つのチャネル）出力に混合することである。

「オーディオミキシング」は、「モノチャンネル」、「ステレオチャネル」、「マルチラックチャネル」又は「フルラック」を指し得る。本開示の全文において、これらの可能性のそれぞれは「チャネル」と呼ばれる。さらに、検討される例では、チャネル「a」とチャネル「b」を混合し、即ち、2つのチャネルがあり、各チャネルは、モノチャンネルとして配置される。しかしながら、開示された発明の実施例は、2つを超えたチャネルの混合、1つのモノチャンネルと他のステレオ（またはそれ以上）チャネルとの混合、2つのステレオチャネルの混合等を含むが、これらに限らず、他のすべての可能性をカバーする。

位相

位相は測定可能な物理的寸法であり、通常、角度（0°-360°）又はPi（0-2Pi）で表される。この検討段階に対して、（少なくとも）2つの情報ソース（チャネル）間の相対的な次元である。本分野では、「チャネル位相」又は「チャネル間位相」と呼ばれることもある。

特定の周波数について、位相は、1つのサウンドトラックと他のサウンドトラックとの間のわずかな遅延と見なすことができる。フルタイムの遅延（「遅延」と呼ばれることもある）は、すべての周波数が同じ時間（通常は、マイクロ秒、楽譜又は1分あたりの拍数を単位に）で遅延されることを示す。ただし、位相遅延により、一部の周波数は時間遅延（2つのチャネル間）と見なされ、他の周波数が遅延されなく、又は第1のグループと同じ時間だけ遅延されない可能性がある。
逆相：

同じコンテンツを持つ2つのチャネル間に180°の位相差があると、それらは「逆相」と呼ばれる。これは、それらの波形が同じ正確な形状を示しているが、水平軸上で反転していることを意味する。これら2つの信号を足し合わせると、情報が完全に失われる。

ドライチャネル

これは、記録技術であり、楽器が記録された電子出力はデジタル又はアナログ領域の記録ミキサーに収集される。アコースティック楽器と「オーディオピックアップ」とを組み合わせて使用することは、一般的なレコーディングスタジオ技術である。そして、「抽出」チャネルによって収集された電子情報を「ドライチャネル」と呼ばれる。例えばアコースティックギター、ダブルベース等が挙げられる。

ウェットチャネル

これは、記録技術であり、記録された信号は、楽器の信号（上記を参照）であるだけでなく、より多くの情報、例えば部屋の残響（部屋迴聲）、録音された電子装置のアンプまたはスピーカーの音、或いはこのチャネル上で実行されているその他のサウンドエフェクトを伝送する可能性がある。

例えば、電子ベースギターを録音するための一般的な技術は、楽器を設定して、それに付随するアンプ-スピーカーをレコーディングスタジオ内に配置することである。1つのマイクによって記録された音声出力は、楽器自体を記録するのではなく、アンプ-スピーカーの音声出力を記録する。これは通常に「ウェットチャネル」と呼ばれる。

別のマイクは、オーディオピックアップ自体の電子情報を録音コンソールに直接送信するが、実際には、楽器の出力から録音テーブルに音声情報が追加されない。これは通常に「ドライチャネル」と呼ばれる。

一般的に使用される技術は、いくつかのウェットチャネルとすべてのドライチャネルとを混合して、新たな混合信号を受信し、より心地よく聞こえることである。

この記録技術は、ベースギターに限定されず、他の楽器において非常に一般的である。ここでは電子ベースギターを一例として説明する。
エネルギー及び位相関連のオーディオチャンネルミキサ

図1は本発明に係る実施例のオーディオ処理装置20の模式ブロック図である。混合されたMode_A及び/又はMode_Bを施すように配置されたオーディオ処理装置20は、インターフェース201を用いて入力として2つのオーディオチャンネル（10、11）を受信し、各オーディオチャンネルは時変的なオーディオ信号を含む。オーディオ処理装置20はアナログ又はデジタル信号を処理するように配置されてもよい。

示されている実施例では、ユーザ又はシステムは、1つの入力チャネルをマスターチャネル（10）として配置し、他の入力チャネルをスレーブチャネル（11）として配置する。簡単にするために、チャネル10と11がモノチャンネルオーディオチャンネルであると想定する。ただし、これは明確で簡単に説明するための非限定的な例である。

制御（例えば、相関）プロセッサ22は、2つのチャネルからオーディオ信号を受信し、且つ、例えば、2つのオーディオチャンネルからのオーディオ信号を相互相関させることによって、オーディオ信号から時変的な制御信号を導出する。相関プロセッサ22は、対応する制御信号23を出力し、例えば、オーディオ信号間の得られた時変的な相関係数を出力する。

1つの実施例では、Mode_Aにおいて、相関プロセッサは、以下の形式を持つ相関係数

を出力する。
式1：

ただし、

はマスターチャネルの瞬時値（連続した単一サンプルまたはディスクリートサンプルであってもよい）であり、

はスレーブチャネルの瞬時値（連続した単一サンプルまたはディスクリートサンプルであってもよい）である。

式1に示すように。開示された実施例では、マスター信号とスレーブ信号との間の位相差を測定する必要がなく、信号の瞬時値を加算および/または減算するだけでよい。式1は特定の実施例であり、且つ、位相の直接測定に依存せずに相関係数を推定する他の実施例は、開示された技術によってカバーされる。式1で説明されている数学関数は他の形式で表現できるが、基本的に同じ数学値を持つ。本発明の異なる実施形態では、相関プロセッサ22から1つ以上の制御信号を出力することができる。

説明されているMode_Aの場合、実際のアプリケーションである。例えば、スレーブチャネルの周波数がマスターチャネルの周波数に非常に密接に相関している記録セッションでは、例えば非限定的な例とする電子ベースギターの音響録音では、スレーブチャネルの周波数はマスターチャネル（ピックアップチャネル）と非常に密接に関連し、なぜかとういと、2つのチャネルの音符と楽譜（即ち周波数）が類似するからである。この場合、式1の極端な状況を見ると、場合によっては、開示された解決策をよりよく理解するのに役立つことがある。

上記の場合、可能性のある状況は

が

に等しいこと（

=

）であり、これは、2つのチャネルが同じまたは少なくとも相関性が高い信号を伝送することを意味する。この場合、式1の結果は{

=1}である。

別の可能性がある場合では、

の振幅は

に等しいが、位相はちょどう180°反転している。この場合、（

=(-

)）及び{

＝0}である。他の位相値の場合、図4に示すように、典型的な相関因子（即ち、関数）はグラフで表すことができる。

時変的な制御信号（例えば、相関係数

）を用いて、調整プロセッサ（例えば、ゲインプロセッサ24）は、マスターチャネル10及びスレーブチャネル11の各オーディオ信号の振幅に対する調整パラメータを計算する。調整パラメータはゲインであり、且つゲインプロセッサ24はゲイン係数（Gm（t）124、Gs（t）224）をマスターチャネル10及びスレーブチャネル11に出力する。

いくつかの実施例では、ここに例として挙げると、マスターチャネルのゲインGm（t）124は一定の「+1」のままであり（ゲインは全く変化しない）、スレーブチャネルのゲインは変化しないままである。Gs（t）224は、「+1」とゼロの間で変化する。1つの例として、ゲイン値を式1の相関係数Cとして使用する。

Gs（t）224がゼロまたはゼロに近い場合、スレーブ信号は、それぞれ、技術的にミュートされるか、またはほとんどミュートされる。従って、信号が互いに打ち消し合う場合にのみ、システムは、重要な信号（マスター信号）を出力し、セカンダリ信号（スレーブ信号）をミュートする。当該システムのユーザは、一時的にスレーブ信号の情報を失うが、開示された技術を利用しないと、2つの信号の位相が打ち消し合うため、信号全体がゼロになり、すべての情報が失われ、これは最悪の結果である。

次に、示される例では、スカラー（scalar）を乗算された各チャネル修飾子25及び27であり、それぞれの調整パラメータを用いてオーディオ信号を調整して（例えば、信号に各ゲイン係数Gm（t）124及びGs（t）224であるスカラーを乗算して）、調整後のオーディオチャンネル26及び28を出力する。

最後に、チャネルコンバイナー30（図1での「追加」混合器）は、2つの調整後のオーディオチャンネル26及び28を加算し、次いで、生成された混合オーディオチャンネル32をユーザに出力する。

上記のように、Mode_Aは一般的な状況であり、この場合、レコーディングエンジニアは、ドライチャネルを電子楽器（例えば、電子ベースギター）のオーディオピックアップからレコーディングコンソール中に直接導入する。その後、部屋内に設置された電子ギターアンプ-スピーカーの前に電気音響マイクを置く。当該マイクの電子出力もレコーディングコントロールパネルによって収集される。一般的な方法は、ドライ信号とウェット信号の少なくとも一部とを混合して、より心地よい全体的な音声を受信することである。上記のように、この2つのチャネルが瞬時的に逆相となると、互いに打ち消し合い、検討された解決策を使用しない限り、結果としてエネルギーが突然失われる。

ただし、検討された一般的な記録技術は、いくつかのアコースティック楽器と共に使用され、例えばアコースティックベース又はダブルベースが挙げられる。この場合、レコーディングエンジニアは、機器のピックアップチャネルをスレーブデバイスとして使用し、アコースティックマイク（又は複数のマイク）をマスターデバイスとして使用することができ、上記のように、マスターデバイス及びスレーブデバイスの役割を「反転」して、電子楽器の場合、一般的な決定は逆のことをすることである。しかし、これは、範囲を如何なる特定の解決策に限定するものではなく、当該解決策では、ユーザ（又はソフトウェア）が一方のチャネルをマスターチャネルとしてマークし、他方のチャネルをスレーブチャネルとしてマークすることができる。

いくつかの実施例では、オーディオ処理装置20はMode_Bに応用され、これは、レコーディングスタジオで、非常に一般的な別の非限定的な使用法である。上記のように、Mode_Bは、位相反転の原因が時間に依存しない静的な状況について説明し、例えばマイクは、その設計又は位置の原因で位相が反転する。この場合、システムは、時間に依存するのではなく、一定の決定を行う必要がある。これはMode_AとMode_Bとの間の主な区別である。

従って、現実のオーディオ処理システムでは、提供される目標はMode_B（Mode_Aではなく）を目標として設計されたシステムであり、時間に制約され、信号の最初の入力後に単一の不変の決定を行うことができる。特定の実施例では、このようなシステムは、ＬＥＤを点灯するか、または位相が逆であることを警告することができ、これにより、人間のユーザが別のボタンを押すことによって論理プロセッサをトリガーして（例えば、Mode_Aと共に使用された同じ制御プロセッサは、連続値関数（例えば、相関関数）ではなく、バイナリ標準または関数を適用し）アクションを実行することが許される。これにより、エラーまたは間違いが原因でシステムが位相を反転することを回避することができる。

ソフトウェアの実装では、Mode_A又はMode_Bをサポートするように配置することができる単一のシステムを考慮してもよい。わかりやすくするために、本発明ではこの2つのモードを異なる解決策として表す。

Mode_Bの非限定的な例では、オーディオ処理装置20の相関プロセッサ22は、Mode_Aと同じ方式で配置されるが、システムにおける論理的判定は異なる。Mode_Bでは、（例えば、Mode_Aにおいて）オーディオ処理装置20はマスターチャネル10のゲインに干渉しない。しかしながら、オーディオ処理装置20は、スレーブチャネル11の情報を180°反転させる。例えば、相関計算機から出力される制御信号は「0」又は「0」に近い場合（信号が互いに打ち消し合うことを意味し）、スレーブチャネル11に得られたゲインは「-1」（0dBですが、位相が逆である）であり、結果として、2つの信号は、期待の方式の通りに再生される。

Mode_Bでは、ユーザは、論理プロセッサ（例えば、モード_Aでは相関プロセッサ22とする同一の制御プロセッサであり、モード_Bではバイナリ機能で操作する）を変更して、バイナリ結果を出力することができる。上記のように、Mode_Bでは、期待される結果は、スレーブチャネルが反転し（当該実施例では（-1）を掛ける）又は変更されないままになる（当該実施例では1を掛ける）ことである。この場合、このロジックは、1つの規則を介して実現することができ、例えば、
式2：

ただし、「sing」は、数学関数「sign」を表し、数学関数「sign」の入力が如何なる正（又はゼロ）の値である場合、その出力は1に等しく、数学関数「sign」の入力が如何なる負値である場合、その出力は（-1）に等しい。この場合、相関因子

が0.5以上である場合、

＝1である。そうでない場合、

は（-1）に等しく、位相は180°反転する。

Mode_Bを使用する一例はドラムセットを録音することであり、通常、各ドラムセットの素子にマイクを配置することによって行われ、例えば、1つのマイクは、バスドラム、異なるトーン、スネアドラム、ハイハット、パーカッションやベルなどにそれぞれ用いられる。通常のやり方は、2つのマイクを別途に追加して部屋の環境（アコースティック残響）を記録してドラムセットに応答する。従って、レコーディングエンジニアは多くのマイクチャネルをレコーディングコントロールパネル中に収集し、これらを操作して必要な音声を受信することは非常に一般的である。

この場合、一方のチャネルの他方のチャネルに対する位相反転は非常に一般的であり、この理由は、（a）記録ケーブルの極性が逆であること、（b）「互いに向き合う」マイク（従って、「プルイン（pull in）」は音声信号への応答とし、他の「プッシュアウト（push out）」は同じ信号への応答とする）、（c）異なるマイクのメーカー及び設計からである。通常、この場合、マスター信号は、単一チャネル（マイクの1つに関連する）であり、スレーブ信号は1つのみではない可能性がある。

この段階でのキャンセルの結果は驚異的であり、記録中のいくつかの周波数及び情報を打ち消し合う可能性がある。レコーディングエンジニアの負担を軽減するために、Mode_Bを使用することができる。

また、Mode_Bでは、トランジションはノートやパーカッションの長さとは関係ない。これはMode_Aと異なり、Mode_Aにおいて、可能な値は連続的（「0」と「1」との間）であり、信号のエネルギーに対して、変換が完了し、即ち比較的速い。

わかりやすくするために、Mode_Bにおけるシステムは、1つのチャネルがマスター制御装置に対して逆相となることを示している可能性があり、したがって、その位相を逆相にしている。しかしながら、音楽信号に関係なく、一度だけ実行でき、これをマイク設定方法の一つの修正とする。しかしながら、Mode_Aにおいて、ゲインは、入力信号に応じて変化するように設計され、且つ、1回の変化後、一定に保たれることがない。
エネルギーおよび位相関連のクロスオーバーオーディオミキサー

図2は本発明の実施例に係る、デュアル帯域分周器130を含むオーディオ処理装置120の模式ブロック図である。例えば、デュアル帯域Mode_Cの混合が必要な場合、オーディオ処理装置120を使用することができる。

示された実施例では、インターフェース202は、図1と同じマスターチャネル10とスレーブチャネル11のオーディオチャンネルを受信して、デュアル帯域分周器130に入力し、当該デュアル帯域分周器130は、入った信号を対応する高周波（HF）帯域110に分割する。この例では、2つの帯域、即ちHF（高周波）及びLF（低周波）が示されている。マスターチャネル10のHF帯域110は、HFドメインにあるので、処理されない。同様に、スレーブチャネル11によって入力されたHF帯域111は、HFドメインにあるので、処理されない。

入力されたマスターチャネル10のLF帯域210は、オーディオ処理装置20に入力される。示された実施例では、オーディオ処理装置20は、マスタードメイン（master domain）にあるので、LF帯域210に対して処理せず、図1に示すように、オーディオ処理装置20は、高い信号純度を維持するためにそれを変更しないように配置される。

一方、スレーブチャネル11によって入力されたLF帯域211を処理することにより、LF帯域210において情報を位相的にキャンセルすると、オーディオ処理装置20は、チャネルを出力混合チャネルLF帯域222に加える前に、まずはLF帯域211を減衰させる。

LF帯域を混合するために、本願に説明されるオーディオ処理装置20は、相関プロセッサ、制御プロセッサ（その使用モードに応じて、相関プロセッサ又は論理プロセッサとも呼ばれる）及び論理プロセッサを含み、Mode_A又はMode_Bを適用して混合して混合チャネルLF帯域222を生成する。

最後に、チャネル加算器40によりLFドメインの混合出力信号をHF信号に加算（チャネルコンバイナー30が信号を加算する方法と類似）し、Mode_Cの混合出力信号44をユーザに出力する。

Mode_Cは、より複雑な状況を処理することができ、2つのチャネル（マスターチャネル及びスレーブチャネル）間の時間変化する周波数変動は、2つの帯域よって解決される状況よりも高い可能性がある。

図3は、本発明の実施例に係る、マルチ帯域分周器33を含むオーディオ処理装置220の模式ブロック図である。例えば、マルチ帯域Mode_Cの混合が必要な場合、オーディオ処理装置220を使用することができる。

示された実施例では、インターフェース203を使用してマスターオーディオチャンネルとスレーブオーディオチャンネルを受信して、マルチ帯域分周器33に入力し、当該分周器は、入力信号スペクトルを複数のスターとスレーブの帯域対、例えば帯域対1210、1220、1230、…1250、1260及び1270に分割する。

図面に示すように、複数のオーディオ処理装置20_1、20_2、20_3、...20_Nは、Mode_A（連続制御信号を有する）又はバイナリMode_Bで並列に動作する。オーディオ処理装置20_1、20_2、20_3、...、20_Nにおけるそれぞれの受信は、スペクトル全体の1つの領域のみの帯域（非限定的な例：100～200Hzの間のすべての周波数）である。図2のHF周波数範囲と類似し、いくつかの帯域（例えば1260及び1270）が処理されない。（例えば）BPF（バンドパスフィルター）を使用すると、スペクトル全体から様々な帯域を簡単に「カットオフ」することができる。

このように、オーディオ処理装置20_1、20_2、20_3、...20_Nのそれぞれは、入力信号及びそれぞれの出力信号の「近い」周波数を処理する。その結果、各オーディオ処理装置20_1、20_2、20_3、…20_N（相関器、理論）の分解能（たとえば、特異性）がより高くなり、それにより、例えばMode_Aを使用して、信号1310、1320、1330、…1350の各信号を生成することによって、より高い品質の信号1310、1320、1330、…1350（例えば、音の純度および振幅の精度）を生成することができる。

最後に、チャネル加算器50によって異なる帯域対の混合出力信号を加算し、当該チャネル加算器50はマルチ帯域Mode_Cの混合出力信号1400をユーザに出力する。

示されている例の図1、2及び3は、単に概念を明確にするために選択されている。図1～3は、本発明に係る実施例に関連する部分のみを示しているが、ほかのシステム素子、例えば電源回路及びユーザ制御インターフェースを省略する可能性がある。

各実施例では、図1及び図2に示されるオーディオ処理装置の様々な素子については、適切なハードウェア（例えば、1つ又は複数のディスクリート素子、1つ又は複数の特定用途向け集積回路（ASIC）及び/又は1つ又は複数のフィールド・プログラマブル・ゲート・アレイ（FPGA））を使用して、図1～3に示すハードウェアを実現するように配置される。開示されたオーディオ処理装置のいくつかの機能、例えば相関プロセッサ22及び/又はゲインプロセッサ24の一部またはすべての機能は、1つ又は複数の汎用プロセッサにおいて実現することができ、これらの汎用プロセッサは、本願に説明されている機能を実行するように、ソフトウェアでプログラムしてもよい。例えば、当該ソフトウェアは、電子の形で、ネットワークを介し、またはホストからプロセッサにダウンロードされるか、或いは、例えば磁気、光、または電子メモリなどの非一時的な有形媒体に、代替的または追加的に提供および/または保存され得る。

図4は、本発明の実施例に係る、例えば図1の相関プロセッサ22によって生成された、オーディオ信号間の位相の関数として測定された相関因子62を示すグラフ60である。いくつかの場合、相関因子62は、スレーブチャネルのゲイン係数、例えば図1のスレーブチャネル11のゲイン係数Gs（t）224に等しい。

図面に示すように、相関因子62は、[0、180]内の信号間の相対位相が+1からゼロまでの単調に減少する関数である。相関因子62のグラフは80Hzの正弦波信号のリアルタイム測定に基づくものであり、且つ、信号間の位相差依存性は明示的に示されていない。式1に示されている実施例は、ここでは非限定的な例として示されている。

図5は、本発明の実施例に係る、図3のオーディオ処理装置220を使用して2つのオーディオチャンネルを混合する方法を模式的に示すフローチャートである。示された実施例によれば、当該アルゴリズムは、以下のプロセスを実行する。オーディオチャンネル入力受信ステップ70で、マスターチャネル及びスレーブチャネルを受信するマルチ帯域分周器33から開始する。次に、マルチ帯域分周器33は、チャネルスペクトル分割ステップ72では、入力チャネルを複数の帯域対信号に分離する。スペクトル入力ステップ74では、複数の帯域対信号のうちの少なくとも一部を各オーディオ処理装置に入力する。各オーディオ処理装置は、スペクトル帯域混合ステップ76では、例えばMode_Aを使用して混合スペクトル信号を生成する。最後に、出力ステップ78では、加算器、例えばチャネル加算器50は、複数の混合スペクトル信号を合計し、結果の信号をユーザに出力する。

本明細書に説明される実施例は、主に録音室等の環境でのオーディオ処理に関するものであるが、本明細書に説明される方法およびシステムは、他の用途にも応用でき、例えば、移動通信及びスマートフォンや移動体計算機などのコンピューティングデバイスでの複数のオーディオチャンネルの処理にも応用できる。例えば、ほとんどの音楽コンテンツ（YouTube、ストリームメディア等）はステレオであるが、ほとんどのセルラー電話装置は、モノチャンネル装置であり、単一のスピーカーから音楽を再生する。従って、再生デバイスは、信号がスピーカーに到達する前に、2つのチャネル（最初は左と右）を1つに「混合」する。開示された実施例は、重要な情報および信号エネルギーを失うことなく当該「混合」を実現する技術を提供する。従って、いくつかの実施例では、開示されたオーディオ処理装置は、携帯電話又は他のモバイル通信及び/又はコンピューティング装置に組み込まれ得る。

従って、上記の実施例は、例としてのみ引用されており、本発明は、上記で具体的に示され、記載されたものに限定されないことが理解される。逆に、本発明の範囲は、上記の様々な特徴のコンビネーションおよびサブコンビネーションを含み、当業者が前述の説明を読んだ後に想到できるこれらの変更およびその変形、並びに修正は、従来技術には開示されない。参照により本特許出願に組み込まれる文書は、本出願の構成部分と見なされるものとし、本明細書の明示的または暗黙的定義と矛盾する形でこれらの組み込まれた文書に定義されている用語の範囲を除いて、本明細書での定義を考慮する必要がある。

10：マスターチャネル
11：スレーブチャネル
110：高周波（HF）帯域
111：高周波（HF）帯域
124：ゲイン係数
130：デュアル帯域分周器
1400：混合出力信号
1210、 1220、1230、…1250、1260及び1270 ：帯域対
1310、1320、1330…1350：信号
20：オーディオ処理装置
20_1、20_2、20_3、... 20_N：オーディオ処理装置
201：インターフェース
202：インターフェース
203：インターフェース
210：低周波（LF）帯域
211：低周波（LF）帯域
22：相関プロセッサ
220：オーディオ処理装置
222：混合チャネルLF帯域
224：ゲイン係数
23：制御信号
24：ゲインプロセッサ
25、27：チャネル修飾子
26、28：オーディオチャンネル
30：チャネルコンバイナー
32：混合オーディオチャンネル
33：マルチ帯域分周器
40：チャネル加算器
44：混合出力信号
50：チャネル加算器
60：グラフ
62：相関因子
70～78：ステップ

Claims

第1のオーディオ信号及び第2のオーディオ信号を含む第1のオーディオチャンネル及び第2のオーディオチャンネルを受信するように配置されるインターフェースと、
当該第1のオーディオ信号及び当該第2のオーディオ信号である複数のオーディオ信号から制御信号を生成するように配置される制御プロセッサと、
当該制御信号に基づいて、当該第2のオーディオ信号の振幅に対する調整パラメータを計算するように配置される調整プロセッサと、
当該調整パラメータを使用して、当該第2のオーディオチャンネルにおける当該第2のオーディオ信号を調整し、当該第1のオーディオ信号は変更しないままであるように配置される複数のチャネル修飾子と、
当該第1のオーディオチャンネル及び当該第2のオーディオチャンネルである複数のオーディオチャンネルを組み合わせ、組み合わせられたオーディオチャンネルを出力するよう配置されるチャネルコンバイナーと、を含み、
当該制御信号は、当該複数のオーディオ信号間の相関係数を含み、且つ当該制御プロセッサは当該複数のオーディオ信号の相互相関性を計算することによって当該相関係数を生成するように配置されるオーディオ処理装置。
当該制御プロセッサは、当該複数のオーディオ信号の両者の2つの瞬時値に基づいて比率を算出し、更に当該比率に基づいて当該制御信号を生成し、そのうち、当該比率は、当該複数のオーディオ信号間の位相差を示し、
当該相関係数は、以下の形式を持つ相関係数Cであることを特徴とする請求項1に記載のオーディオ処理装置。

（ただし、Maは当該2つの瞬時値の一方であり、Slは当該2つの瞬時値の他方である。）
当該比率は時変的なものであることを特徴とする請求項2に記載のオーディオ処理装置。
当該複数のオーディオ信号、当該制御信号及び当該調整パラメータはいずれも時変的なものであることを特徴とする請求項1に記載のオーディオ処理装置。
当該制御プロセッサは、+1と0の間に変換する当該相関係数値を割り当てるように配置されることを特徴とする請求項1に記載のオーディオ処理装置。
当該制御プロセッサは、+1又は-1の当該相関係数値を割り当てるように配置されることを特徴とする請求項1に記載のオーディオ処理装置。
当該複数のオーディオチャンネルは複数のモノチャンネルであることを特徴とする請求項1に記載のオーディオ処理装置。
当該複数のオーディオチャンネルの少なくとも1つはステレオチャンネルであることを特徴とする請求項1に記載のオーディオ処理装置。
これらのチャンネル修飾子は、複数のスカラー乗算器を含むことを特徴とする請求項1に記載のオーディオ処理装置。
当該オーディオ処理装置は、マルチ帯域分周器を含み、当該マルチ帯域分周器は、当該複数のオーディオチャンネルのそれぞれの当該オーディオ信号を複数のスペクトルバンドに分割し、且つ当該制御プロセッサに、当該複数のオーディオチャンネルの1対又は複数対の、同じ周波数を有するスペクトルバンドを提供して、当該それぞれの対に対して同じ周波数を有するスペクトルバンドの制御信号を生成するように配置されることを特徴とする請求項1に記載のオーディオ処理装置。
第1のオーディオ信号及び第2のオーディオ信号を含む第1のオーディオチャンネル及び第2のオーディオチャンネルを受信するステップと、
当該第1のオーディオ信号及び当該第2のオーディオ信号である複数のオーディオ信号から制御信号を生成するステップと、
当該制御信号に基づいて、当該第2のオーディオ信号の振幅の調整パラメータを計算するステップと、
当該調整パラメータを使用して、当該第2のオーディオチャンネルにおける当該第2のオーディオ信号を調整し、当該第1のオーディオ信号は変更しないままであるステップと、
当該第1のオーディオチャンネル及び当該第2のオーディオチャンネルである複数のオーディオチャンネルを組み合わせ、組み合わせられたオーディオチャンネルを出力するステップとを含み、
当該制御信号を生成するステップは、当該複数のオーディオ信号の両者の2つの瞬時値に基づいて比率を算出し、更に当該比率に基づいて当該制御信号を生成することを含み、そのうち、当該比率は、当該複数のオーディオ信号間の位相差を示し、
当該制御信号は、以下の形式を持つ相関係数Cであるオーディオ処理方法。

（ただし、Maは当該2つの瞬時値の一方であり、Slは当該2つの瞬時値の他方である。）
当該比率は時変的なものであることを特徴とする請求項11に記載のオーディオ処理方法。
当該複数のオーディオ信号、当該制御信号及び当該調整パラメータはいずれも時変的なものであることを特徴とする請求項11に記載のオーディオ処理方法。
当該制御信号は、当該複数のオーディオ信号間の相関係数を含み、且つ当該制御信号を生成することは、当該複数のオーディオ信号の相互相関性を計算することを含むことを特徴とする請求項11に記載のオーディオ処理方法。
当該相関係数は+1と0の間に変換することを特徴とする請求項14に記載のオーディオ処理方法。
当該相関係数は+1又は-1であることを特徴とする請求項14に記載のオーディオ処理方法。
当該複数のオーディオチャンネルの少なくとも1つはステレオチャンネルであることを特徴とする請求項11に記載のオーディオ処理方法。
当該複数のオーディオ信号を調整することは、これらのオーディオ信号にスカラーを掛けることを含むことを特徴とする請求項11に記載のオーディオ処理方法。
当該複数のオーディオチャンネルのそれぞれの当該オーディオ信号を複数のスペクトルバンドに分割して、当該複数のオーディオチャンネルの1対又は複数対の同じ周波数を有する各スペクトルバンドを生成することを更に含み、当該制御信号を生成することは、当該それぞれの同じ周波数を有するスペクトルバンドに対して当該制御信号を生成することを含むことを特徴とする請求項11に記載のオーディオ処理方法。