JP6902049B2

JP6902049B2 - 発話信号を含むオーディオ信号のラウドネスレベル自動修正

Info

Publication number: JP6902049B2
Application number: JP2018556359A
Authority: JP
Inventors: トビアスミュンヒ，; アルントヘンスゲンス，
Original assignee: ハーマンベッカーオートモーティブシステムズゲーエムベーハー
Priority date: 2016-07-04
Filing date: 2016-07-04
Publication date: 2021-07-14
Anticipated expiration: 2036-07-04
Also published as: KR102622459B1; CN109643555B; US20190362735A1; EP3479378A1; KR20190025816A; JP2019525213A; US10861481B2; WO2018006927A1; CN109643555A; EP3479378B1

Description

本出願は、異なる信号レベル範囲を有する少なくとも２つの異なるトラックを含み、潜在的な発話信号成分を含む、Ｎチャネルオーディオ入力信号のゲインの適応方法に関する。さらに、そのための対応するシステムが提供される。

音楽及び／または発話を含むオーディオ信号の多くの異なるソースが技術的に知られている。音楽信号は、ＣＤ、ＤＶＤまたは任意の他の記憶媒体上に記憶することができる。特に、ＭＰＥＧ等の新規の圧縮方式の開発に伴い、異なるジャンル及びアーティストのオーディオ信号が記憶媒体上に記憶され、ユーザに送出されるプレイリストに組み合わされてもよい。特に、車両環境において、乗客によって知覚されるオーディオ信号は、オーディオ信号自体ならびに、ロードタイヤの騒音、空気力学的騒音及びエンジンの騒音を含む。異なるオーディオソースの異なるオーディオ信号はしばしば、異なる信号及びダイナミクス圧縮レベルを有する。しばしば、オーディオ出力信号の異なるトラックは、ユーザによって異なるラウドネスレベルで知覚される、異なる信号レベル範囲を有する。特に、車両環境において、受信されるオーディオ信号はユーザに知覚可能であるべきであり、それはすなわち、車両内に存在する騒音を超えなければならないことを意味する。同時に、全体のオーディオ信号レベルは、聴力を損ない得る、または知覚がユーザにとって苦痛である特定のレベルを超えるべきではない。

車両環境において動画をマルチチャンネルオーディオにて再生する際、中央チャネルは発話及び対話を再生している。しかし、発話素材の知覚されるラウドネスはしばしば、ユーザが対話を適切に知覚することができるほど十分でない。

したがって、特に騒音環境下において、オーディオ信号内に存在する発話信号の良好な知覚を維持しながら、オーディオ信号のラウドネスレベルの動的自動修正を可能にする必要がある。

この必要性は、独立請求項の特徴により、充足される。従属請求項において、本発明の好ましい実施形態が例示される。

第１の態様によると、Ｎチャネルオーディオ出力信号を生成するために、Ｎチャネルオーディオ入力信号内に存在する場合に発話信号成分が存在する発話入力チャネルをＮチャネルオーディオ入力信号が含む、Ｎチャネルオーディオ入力信号のゲインの適応方法が提供される。Ｎチャネルオーディオ入力信号は、他のオーディオ入力チャネルをさらに含む。本方法の１つのステップによると、Ｎチャネルオーディオ入力信号の知覚されるラウドネスは動的に決定される。さらに、発話信号成分が発話入力チャネル内に存在するか否かが判定される。発話信号成分が発話入力チャネル内に存在する場合、第１のゲイン制御ユニットから出力される他のオーディオ出力チャネルの少なくとも２つの連続するトラックが事前に定義された信号レベルの範囲または事前に定義されたラウドネス範囲に限定されるように、第１のゲインパラメータにより、Ｎチャネルオーディオ入力信号の判定された知覚されるラウドネスに基づき、他のオーディオ入力チャネルのゲインが第１のゲイン制御ユニットにおいて動的に適応される。第２のゲイン制御ユニットから出力される発話出力チャネルの少なくとも２つの連続するトラックが事前に定義された信号レベルの範囲またはラウドネス範囲に限定されるように、第２のゲインパラメータにより、Ｎチャネルオーディオ入力信号の判定されたラウドネスに基づき、発話入力チャネルのゲインが第２のゲイン制御ユニットにおいて動的に適応される。これにより、第２のゲインパラメータは、第１のパラメータとは異なる。

さらに、Ｎチャネルオーディオ入力信号のゲインを適応させるよう構成された、対応するシステムが提供される。本システムは、Ｎチャネルオーディオ入力信号の知覚されるラウドネスを判定するよう構成された、ラウドネス判定ユニットを含む。さらに、発話信号成分が発話入力チャネル内に存在するか否かを判定するよう構成された、発話検出ユニットが提供される。第１のゲイン制御ユニットが提供されて他のオーディオ入力チャネルのゲインを制御するよう構成され、発話入力チャネルのゲインを制御するよう構成された、第２のゲイン制御ユニットが提供される。発話信号成分が発話入力信号内に存在する場合、第１のゲイン制御ユニットから出力される他のオーディオ出力チャネルの少なくとも２つの連続するトラックが事前に定義された信号レベルの範囲または事前に定義されたラウドネス範囲に限定されるように、第１のゲインパラメータにより、Ｎチャネルオーディオ入力信号の判定された知覚されるラウドネスに基づき、第１のゲイン制御ユニットは、他のオーディオ入力チャネルのゲインを動的に適応させる。第２のゲイン制御ユニットから出力される発話出力チャネルの少なくとも２つの連続するトラックが事前に定義された信号レベルの範囲またはラウドネス範囲に限定されるように、第２のゲインパラメータにより、Ｎチャネルオーディオ入力信号の判定されたラウドネスに基づき、第２のゲイン制御ユニットは発話入力チャネルのゲインを動的に適応させる。第１のゲイン制御ユニット及び第２のゲイン制御ユニットは、異なるゲインパラメータが異なるように、第１のゲイン及び第２のゲインを判定する。

発話成分の明瞭度を向上させるために、発話入力チャネルのゲインが、他のオーディオ入力チャネルのゲインと比較して高く増大する可能性がある。例えば、発話入力信号の信号レベルの発話出力信号の信号レベルに対する比率が、他のオーディオ入力チャネルの信号レベルの他のオーディオ出力チャネルの信号レベルに対する比率より小さいように、第１のゲインパラメータ及び第２のゲインパラメータが決定されてもよい。言い換えれば、他のオーディオ入力チャネルと比較してより高いゲインが発話入力チャネルに適応される。

さらなる例として、第２のゲインパラメータによって、発話入力信号の信号レベルが、第１のゲインパラメータによって増大される他のオーディオ入力チャネルの信号レベルと比較してより高く増大されるように、第１のゲインパラメータ及び第２のゲインパラメータが決定される。

事前に定義された信号レベルの範囲内に信号レベルを保つためにＮチャネルオーディオ入力信号の信号レベルが低減される場合、第２のゲインパラメータによって、発話入力信号の信号レベルが、第１のゲインパラメータによって低減される他のオーディオ入力チャネルの信号レベルと比較してより小さく低減されるように、第１のゲインパラメータ及び第２のゲインパラメータが決定される可能性がある。

上述の特徴または以下に説明する特徴は、表されるそれぞれの組み合わせのみではなく、本発明の範囲を逸脱することなく、他の組み合わせで、または分離して用いることが可能であることが理解される。上述の態様の実施形態の特徴は、別段の明示的な記載がない限り、他の実施形態において互いに組み合わせされてもよい。
本発明は、例えば、以下を提供する。
（項目１）
Ｎチャネルオーディオ出力信号を生成するためのＮチャネルオーディオ入力信号のゲインの適応方法であって、前記Ｎチャネルオーディオ入力信号が、前記Ｎチャネルオーディオ入力信号内に存在する場合に発話信号成分が存在する発話入力チャネル（２１）を含み、他のオーディオ入力チャネル（２０）を含む方法であって、
前記Ｎチャネルオーディオ入力信号の知覚されるラウドネスを動的に判定することと、
発話信号成分が前記発話入力チャネル（２１）内に存在するか否かを判定することと、
発話信号成分が前記発話入力チャネル（２１）内に存在する場合に、
第１のゲイン制御ユニット（４３）から出力される他のオーディオ出力チャネル（４５）の少なくとも２つの連続するトラックが事前に定義された信号レベルの範囲または事前に定義されたラウドネス範囲に限定されるように、第１のゲインパラメータ（３９）により、前記Ｎチャネルオーディオ入力信号の前記判定された知覚されるラウドネスに基づき、前記第１のゲイン制御ユニット（４３）において前記他のオーディオ入力チャネル（２０）のゲインを動的に適応させることと、
第２のゲイン制御ユニット（４４）から出力される発話出力チャネル（４６）の少なくとも２つの連続するトラックが前記事前に定義された信号レベルの範囲またはラウドネス範囲に限定されるように、第２のゲインパラメータ（３８）により、前記Ｎチャネルオーディオ入力信号の前記判定されたラウドネスに基づき、前記発話入力チャネル（２１）のゲインを前記第２のゲイン制御ユニット（４４）において動的に適応させることであって、前記第２のゲインパラメータ（３８）が前記第１のゲインパラメータ（３９）とは異なる、前記適応させることと、
を含む、前記方法。
（項目２）
前記発話入力信号（２１）の前記信号レベルの前記発話出力信号（５２）の前記信号レベルに対する比率が、前記他のオーディオ入力チャネル（２０）の前記信号レベルの前記他のオーディオ出力チャネル（５１）の前記信号レベルに対する比率より小さいように、前記第１のゲインパラメータ（３９）及び前記第２のゲインパラメータ（３８）が決定される、項目１に記載の方法。
（項目３）
前記第２のゲインパラメータ（３８）によって、前記発話入力信号の前記信号レベルが、前記第１のゲインパラメータ（３９）によって増大される前記他のオーディオ出力チャネルの前記信号レベルと比較してより高く増大されるように、前記第１のゲインパラメータ（３９）及び前記第２のゲインパラメータ（３８）が決定される、前記項目１または２に記載の方法。
（項目４）
前記第２のゲインパラメータによって、前記発話入力信号（２１）の前記信号レベルが、前記第１のゲインパラメータ（３９）によって低減される前記他のオーディオ入力チャネルの前記信号レベルと比較してより小さく低減されるように、前記第１のゲインパラメータ（３９）及び前記第２のゲインパラメータ（３８）が決定される、先行項目のいずれか１項に記載の方法。
（項目５）
全てのＮチャネル合計のために、前記Ｎチャネルオーディオ入力信号に対する前記知覚されるラウドネスが判定される、先行項目のいずれか１項に記載の方法。
（項目６）
前記Ｎチャネルオーディオ入力信号の別個のグループのために、前記知覚されるラウドネスが個別に判定される、項目１から４のいずれかに記載の方法。
（項目７）
発話信号成分が前記発話入力チャネル（２１）内に存在するか否かを判定することが、
オーディオフレームに前記発話入力チャネルを分離すること、
フレームごとに特徴抽出を実行すること、
特徴空間において、前記抽出された特徴をクラスタリングすること、
のステップを含む、
先行項目のいずれか１項に記載の方法。
（項目８）
前記Ｎチャネルオーディオ入力信号が出力される空間において周辺騒音を推定することのステップであって、前記推定された周辺騒音を考慮して前記他のオーディオ入力チャネルの前記ゲイン及び前記発話入力チャネルが適応される前記ステップをさらに含む、先行項目のいずれか１項に記載の方法。
（項目９）
前記Ｎチャネルオーディオ入力信号が車両内部に出力され、前記周辺騒音を推定することが、車両速度を判定することと、前記判定された車両速度に基づいて前記周辺騒音を判定することを含む、項目８に記載の方法。
（項目１０）
前記発話入力チャネル内に発話信号成分が一切存在しない場合に、前記オーディオ入力チャネル（２０）及び前記発話入力チャネル（２１）が同じゲインによって適応される、先行項目のいずれか１項に記載の方法。
（項目１１）
Ｎチャネルオーディオ出力信号を生成するためにＮチャネルオーディオ入力信号のゲインを適応させるよう構成されたシステムであって、前記Ｎチャネルオーディオ入力信号が、前記Ｎチャネルオーディオ入力信号内に存在する場合に発話信号成分が存在する発話入力チャネル（２１）を含み、他のオーディオ入力チャネル（２０）を含むシステムであって、
前記Ｎチャネルオーディオ入力信号の知覚されるラウドネスを判定するよう構成された、ラウドネス判定ユニット（３１）と、
発話信号成分が前記発話入力チャネル（２１）内に存在するか否かを判定するよう構成された、発話検出ユニット（３７）と、
前記他のオーディオ入力チャネル（２０）のゲインを制御するよう構成された、第１のゲイン制御ユニット（４３）と、
前記発話入力チャネル（２０）のゲインを制御するよう構成された、第２のゲイン制御ユニット（４４）と、
前記発話入力信号内に発話信号成分が存在すると前記発話検出ユニットが検出する場合に、
前記第１のゲイン制御ユニット（４３）から出力される他のオーディオ出力チャネル（５１）の少なくとも２つの連続するトラックが事前に定義された信号レベルの範囲または事前に定義されたラウドネス範囲に限定されるように、前記第１のゲインパラメータ（３９）により、前記Ｎチャネルオーディオ入力信号の前記判定された知覚されるラウドネスに基づき、前記他のオーディオ入力チャネル（２０）の前記ゲインを動的に適応させる前記第１のゲイン制御ユニット（４３）と、
第２のゲイン制御ユニット（４４）から出力される発話出力チャネル（５２）の少なくとも２つの連続するトラックが前記事前に定義された信号レベルの範囲またはラウドネス範囲に限定されるように、第２のゲインパラメータ（３８）により、前記Ｎチャネルオーディオ入力信号の前記判定されたラウドネスに基づき、前記発話入力チャネル（２１）の前記ゲインを動的に適応させる前記第２のゲイン制御ユニット（４４）であって、前記第２のゲインパラメータが前記第１のゲインパラメータとは異なる、前記第２のゲイン制御ユニット（４４）と、
を含む、前記システム。
（項目１２）
前記発話入力信号（２１）の前記信号レベルの前記発話出力信号（５２）の前記信号レベルに対する比率が、前記他のオーディオ入力チャネル（２０）の前記信号レベルの前記他のオーディオ出力チャネル（５１）の前記信号レベルに対する比率より小さいように、前記第１の制御ユニット（４３）及び前記第２のゲイン制御ユニット（４４）が、前記第１のゲインパラメータ及び前記第２のゲインパラメータを決定する、項目１１に記載のシステム。
（項目１３）
前記第２のゲインパラメータによって、前記発話入力信号の前記信号レベルが、前記第１のゲインパラメータによって増大される前記他のオーディオ出力チャネルの前記信号レベルよりも高く増大されるように、前記第１のゲイン制御ユニット（４３）及び前記第２のゲイン制御ユニット（４４）が前記第１のゲインパラメータ及び前記第２のゲインパラメータを決定する、前記項目１１または１２に記載のシステム。
（項目１４）
前記第２のゲインパラメータによって、前記発話入力信号（２１）の前記信号レベルが、前記第１のゲインパラメータによって低減される前記他のオーディオ入力チャネルの前記信号レベルよりも小さく低減されるように、前記第１のゲイン制御ユニット（４３）及び前記第２のゲイン制御ユニット（４４）が前記第１のゲインパラメータ及び前記第２のゲインパラメータを決定する、項目１１から１３のいずれか１項に記載のシステム。
（項目１５）
前記ラウドネス判定ユニット（３１）が、組み合わせられたラウドネスレベルとしての全てのＮチャネル合計のために、前記Ｎチャネルオーディオ入力信号のための前記知覚されるラウドネスを判定するよう構成される、項目１１から１４のいずれか１項に記載のシステム。
（項目１６）
前記ラウドネス判定ユニット（３１）が、前記Ｎチャネルオーディオ入力信号の別個のグループのために、前記知覚されるラウドネスを個別に判定するように構成される、項目１１から１４のいずれかに記載のシステム。
（項目１７）
オーディオフレームに前記発話入力チャネルを分離すること、
フレームごとに特徴抽出を実行すること、
特徴空間において、前記抽出された特徴をクラスタリングすること、
を含むステップに基づき、発話信号成分が前記発話入力チャネル内に存在するか否かを判定するよう前記発話検出ユニット（３７）が構成される、項目１１から１６のいずれか１項に記載のシステム。
（項目１８）
前記Ｎチャネルオーディオ入力信号が出力される空間において周辺騒音を推定する騒音推定器（５０）をさらに含み、前記推定された周辺騒音を考慮して前記他のオーディオ入力チャネルの前記ゲイン及び前記発話入力チャネルを適応させるよう第１のゲイン制御ユニット（４３）及び第２のゲイン制御ユニット（４４）が構成される、項目１１から１７のいずれか１項に記載のシステム。
（項目１９）
前記Ｎチャネルオーディオ入力信号が車両内部に出力され、車両速度を判定し、前記判定された車両速度に基づいて前記周辺雑音を判定するよう前記雑音推定器が構成される、項目１１から１８のいずれかに記載のシステム。
（項目２０）
Ｎチャネルオーディオ出力信号を生成するためにＮチャネルオーディオ入力信号のゲインを適応させるよう構成されたシステムであって、前記Ｎチャネルオーディオ入力信号が、前記Ｎチャネルオーディオ入力信号内に存在する場合に発話信号成分が存在する発話入力チャネルを含み、他のオーディオ入力チャネルを含むシステム（４００）であって、
少なくとも１つのプロセッサ（４２０）と、
前記少なくとも１つのプロセッサによって実行可能な命令を含むメモリ（４３０）を含み、項目１から１０のいずれかに記載の方法を実行するよう前記システムが操作可能である、
前記システム（４００）。

本発明の前述のおよび追加的な特徴ならびに効果は、同様の参照番号が同様の要素を指す添付図面と併せ読むことにより、以下の詳細な説明から明らかである。

Ｎチャネルオーディオ入力信号のゲインを適応させるために利用されるシステムを概略的に示す。オーディオ入力信号のラウドネスを判定し、Ｎチャネルオーディオ入力信号の発話信号成分を検出するために利用されるオーディオ分析ユニットのより詳細な図を示す。ラウドネスを平滑化する、すなわち、ラウドネスの増大に対する迅速な反応及び、ラウドネスレベルの低減時の遅延した反応のための種々の時定数を含む、ゲイン適応のないオーディオ入力信号及び推定されるラウドネスの例を示す。自動ラウドネス調整のために調整され、完全な信号内容が知られている際に理想的に修正されるべき、図３のオーディオ入力信号の動的レベル調整を示す。図２のオーディオ分析ユニット内で利用される発話検出ユニットにおいて、発話信号成分が検出される方法を概略的に示す。Ｎチャネルオーディオ入力信号のあるブロックから別のブロックへのゲイン変化を表すオーディオ信号への時定数の導入を概略的に示す。定義された信号レベルの範囲内に留まるように信号レベルが低減される、自動ラウドネス適応前後のＮチャネルオーディオ入力信号の信号レベルを示す。信号レベルが増大される自動ラウドネス適応前後のＮチャネルオーディオ入力信号の信号レベルの別の例を示す。他の信号成分とは異なる方法で発話信号成分が適応されるシステムの概略図を示す。

本発明の実施形態について、添付図面を参照しながら以下に説明する。実施形態の以下の説明は限定的な意味では解釈されるべきものではないことが理解される。本発明の範囲は、例証の目的のために解釈され、以下に説明する実施形態または図面に限定されるものではない。

図面は表現として見なされるべきであり、図面内の例示される要素は必ずしも原寸に比例しているわけではない。むしろ、様々な要素は、それらの機能及び一般的目的が当業者に明らかとなるように表現される。図面に示される、または本明細書に記載される機能ブロック、装置、構成要素または物理的機能単位間の任意の接続または結合が、間接的な接続または結合によって実行されてもよい。構成要素間の結合は、有線または無線接続を通して確立されてもよい。さらに、機能ブロックは、ハードウェア、ソフトウェア、ファームウェアまたはその組み合わせにおいて実行されてもよい。

図１において、Ｎチャネルオーディオ入力信号のラウドネスを適応させることができるシステムが示される。Ｎチャネルオーディオ入力信号は、５．１．または７．１．オーディオ信号とすることができ、ＣＤ、ＤＶＤまたは、ハードディスク等の任意の他の記憶媒体上に記憶されてもよい。Ｎチャネルオーディオ入力信号は、入力信号内に存在する場合に発話信号成分が存在する、発話入力チャネル２１を含む。５．１．または７．１．オーディオ信号において、発話入力チャネルは中央チャネルとすることができる。さらに、Ｎチャネルオーディオ入力チャネルは、他のオーディオ入力チャネル２０を含む。

示されるシステムは特に、人間の聴覚の心理音響定位モデルを利用して、また、信号統計を利用して、チャネルオーディオ入力信号のラウドネスが判定されるオーディオ信号分析ユニット３０を含む。

信号分析ユニット３０において、人間の聴覚の心理音響モデルに基づき、また、信号統計に基づき、ラウドネスが判定される。以下にさらに詳細に説明するように、音の定位のためにラウドネスを推定する目的で、また、オーディオ入力信号内に主要な要因として、例えば、ポーズ中に、または２つのトラック間に、騒音が存在するか否かを判定するために、心理音響モデルが利用される。信号統計は、ラウドネスを判定するか、または推定するための、また、オーディオ信号内に騒音のあるポーズが存在するか否かを判定するための、第２の根拠である。例として、娯楽用オーディオ信号の信号強度を判定することができる。以下にさらに説明するように、心理音響モデルのみに基づいて、または、統計的信号モデルと組み合わせて、適応可能な時定数を動的に判定することによって、ラウドネス適応が判定される。

図２において、オーディオ信号分析ユニット３０のより詳細な図が示される。
オーディオ信号分析ユニット３０において、Ｎチャネルオーディオ入力信号は、ダウンミキシングユニット３６におけるダウンミックスの対象となる。本例において、ダウンミキシングは、Ｎチャネルオーディオ入力信号において、異なるチャネルが信号分析ユニット３０にて個別に分析されるか否か、または、オーディオ信号の特定のグループが生成されるか否かがダウンミキシングユニットにて判定されることを意味する。例として、５．１サラウンド信号の前方信号チャネルがともにあるグループか、または前方信号チャネル及び中央チャネルにグループ分けされてもよく、一方で、後方チャネルまたはサラウンドチャネルが別のグループにグループ分けされてもよい。したがって、ダウンミキシングユニットにおいて、オーディオ入力信号の異なる入力チャネルがどのグループにおいて処理されるか、または、全てのチャネルが個別に処理されるか否かが判定される。発話入力チャネル２０はさらに、発話成分が発話入力チャネル内に存在するか否かが検出される判定発話検出ユニット３７に供給される。対話等の発話信号成分がＮチャネルオーディオ入力信号内に存在する場合、それらは発話入力チャネル内に存在する。他のオーディオ入力チャネル２０は、発話入力成分を含まない。発話検出ユニットについては、図５を参照しながら以下にさらに詳細に説明する。

オーディオ信号分析ユニットはさらに、受信されたオーディオ入力信号のラウドネスを推定するラウドネス判定ユニット３１を含む。ラウドネス判定ユニット３１は、当該技術分野で既知の、特にＩＴＵ−ＲＢＳ１７７０−１に説明される方法でラウドネスを判定してもよい。Ｎチャネルオーディオ入力信号の定位及び、ラウドネスの判定のさらなる詳細のために、同様に、２００３年１０月の１１５ｔｈＣｏｎｖｅｎｔｉｏｎ、ＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎＰａｐｅｒ５８６４における、ＷｏｌｆｇａｎｇＨｅｓｓ他による「ＡｃｏｕｓｔｉｃａｌＥｖａｌｕａｔｉｏｎｏｆＶｉｒｔｕａｌＲｏｏｍｓｂｙＭｅａｎｓｏｆＢｉｎａｕｒａｌＡｃｔｉｖｉｔｙＰａｔｔｅｒｎｓ」、１９８６年１２月のＪｏｕｒｎａｌｏｆＡｃｏｕｓｔｉｃＳｏｃｉｅｔｙｏｆＡｍｅｒｉｃａの１６０８〜１６２２ページ、Ｖｏｌ．８０（６）における、Ｗ．Ｌｉｎｄｅｍａｎｎの「ＥｘｔｅｎｓｉｏｎｏｆａＢｉｎａｕｒａｌＣｒｏｓｓ−ＣｏｒｒｅｌａｔｉｏｎＭｏｄｅｌｂｙＣｏｎｔｒａｌａｔｅｒａｌＩｎｈｉｂｉｔｉｏｎ．Ｉ．ＳｉｍｕｌａｔｉｏｎｏｆＬａｔｅｒａｌｉｚａｔｉｏｎｆｏｒＳｔａｔｉｏｎａｒｙＳｉｇｎａｌｓ」、及び、ＩＴＵ−ＲＢＳ１７７０−１を参照する。しかし、当該技術分野で既知の、オーディオ信号のラウドネスを判定するための任意の他の方法が利用されてもよいことは言及されるべきである。

ラウドネス判定ユニット３１はさらに、ラウドネスを判定するために、また、入力信号２０及び２１を聞き取る際に、その信号がユーザによって定位され得るか否か、ならびにその場所を判定するために、人間の聴覚の両耳聴モデルを利用してもよい。両耳聴モデルは、オーディオ入力信号の空間的知覚をシミュレーションし、オーディオ入力信号が主に騒音または音楽もしくは発話等の任意の他の入力信号のいずれを含むかを判定することを可能にする。オーディオ入力信号の定位について、本出願に上述した文書において、または、ＥＰ１５２２８６８Ａ１にて記載されているように、Ｗ．Ｌｉｎｄｅｍａｎｎの文書において、または、上述のＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎＰａｐｅｒ５８６４において、より詳細に説明される。定位技術により、他の音声信号から騒音を識別し、オーディオ入力信号において騒音のみが検出される場合に、増大したゲインによってこの騒音が出力されることを回避することが可能になる。また、ポーズが検出された際に、時定数生成ユニット３２によって生成された適応可能な時定数をリセットすることが可能になる。ラウドネス判定ユニット３１は、人間の聴覚の心理音響定位モデルを利用して、オーディオ入力信号のラウドネスを推定する。２つの連続するトラック間のポーズの検出が、ポーズ検出ユニット３３によって、概略的に示される。

さらに、ラウドネス判定ユニット３１は、オーディオ入力信号のラウドネスを推定するために、または、信号のポーズを検出するために、統計的信号処理を付加的に利用することができる。オーディオ入力信号の統計的分析において、オーディオ入力信号の異なるサンプルの実際の信号レベルが判定される。例えば、入力信号のいくつかの連続するサンプルがガウス分布に従う場合、処理されたサンプルが騒音を含むが、他のオーディオ信号は一切含まないものと推定され得る。

オーディオ信号分析ユニットはその後、オーディオ入力信号２０及び２１に導入する時定数を算出するために、ラウドネス推定の結果を利用する。図２において、時定数の算出が時定数生成器３２によってシンボル化される。図６に関連して詳細に説明するように、時定数により、ゲインが適応される。

オーディオ信号分析ユニット３０はさらに、発話入力チャネル２１の、また、他のオーディオ入力チャネル２０のゲインを適応させる、ゲイン判定ユニット３５を含む。ラウドネス判定ユニット３１は、ｄＢラウドネス同等物（ｄＢＬＥＱ）を発することにより、音楽入力信号の特定の部分、例えば、いくつかのサンプルを含むブロックに関して、ラウドネスを提供する。ゲイン判定ユニット３５は、例えば、図７及び８において示されるように、図の下部における−１２ｄＢ、または、任意の他の信号レベル閾値等の、オーディオ信号の出力時に満たされるべき事前に定義された信号レベルを有する。ゲイン判定ユニット３５において、判定されたラウドネスは、ゲインを算出するために取得される平均信号レベルから減算される。例えば、判定されたラウドネスが、−５ｄＢに対応する場合、また、目標が−１２ｄＢフルスケールである場合、約−１２ｄＢの平均信号レベルを有するためにゲインを低減することによって、ゲインは適宜、適応されなければならない。ゲイン判定ユニットは、他のオーディオ入力チャネル２０のために第１のゲインパラメータを判定し、発話入力チャネル２１のために第２のゲインパラメータを判定する。図６に関連して説明するように、ゲイン判定ユニットは、ゲインを適応させるために利用される時定数を算出する。

ゲイン判定ユニットは、発話入力チャネルに存在する対話がユーザによってより良好に知覚されることができるような方法で、発話入力チャネルの、また、他のオーディオ入力チャネルのゲインを適応させるよう構成される。

例えば、全体の信号レベルが増大する際に、第２のゲインパラメータによって増大される発話入力信号の信号レベルは、第１のゲインパラメータによって増大される他のオーディオ入力チャネルの信号レベルと比較してより高く増大されてもよい。言い換えれば、発話入力信号の信号レベルの発話出力信号の信号レベルに対する比率が、他のオーディオ入力チャネルの信号レベルの他のオーディオ出力チャネルの信号レベルに対する比率より小さいように、第１のゲインパラメータ及び第２のパラメータが決定される。

しかし、特定の範囲内に信号レベルを保つためにオーディオ信号の合計信号レベルは低減されるべきである場合、第２のゲインパラメータによって低減される発話入力信号の信号レベルが、第１のゲインパラメータによって低減される他のオーディオ入力チャネルの信号レベルと比較してより小さく低減されるように、発話入力信号の信号レベルが低減されるべく、第１のゲインパラメータ及び第２のゲインパラメータが決定されてもよい。

車両環境において、利用される車両に応じて、異なる周囲騒音が車両の乗員によって知覚される。車両音声信号は、騒音成分及びオーディオ信号成分を含む。騒音信号成分は、ロードタイヤの騒音、空気力学的騒音またはエンジンの騒音に起因し得る。騒音は、６０ｄＢＳＰＬ（信号圧力レベル）と８５ｄＢＳＰＬとの間の値を有し得る。聴覚痛閾値は１２０ｄＢＳＰＬ程度であるため、オーディオ信号成分の範囲は２０〜４０ｄＢＳＰＬ内にある。

図１を再び参照すると、発話入力チャネルのためのオーディオ信号分析ユニットの信号出力３８及び他のオーディオ入力チャネルのための信号出力３９が、信号制御ユニット４０に入力される。時定数の形式でゲイン適応を説明する信号出力３８がゲイン制御ユニット４４に供給され、一方、信号出力３９がゲイン制御ユニット４３に供給される。他のオーディオ入力チャネル２１は、第１の遅延要素４１に入力される。遅延要素は、とりわけ、信号分析ユニットにおけるゲインの判定のため、また、潜在的な発話信号成分の検出のために必要な遅延を入力信号２０に導入する。遅延要素により、時定数判定の目的であったオーディオ信号に対応する正確な時定数を用いて、信号分析ユニット３０によって処理される信号が実際に制御されることが保証される。同じ方法で、発話入力信号２１が、対応する遅延が発話入力信号に導入される第２の遅延ユニット４２に供給される。示される実施形態において、２つの異なる遅延ユニット４１及び４２が提供されるが、信号２０及び２１に導入される遅延が好ましくは同じであるため、単一の遅延ユニットが利用されてもよい。

信号制御ユニット４０はさらに、他のオーディオ入力チャネルのためのゲイン制御ユニット４３及び、発話入力チャネル２１のためのゲイン制御ユニット４４を含む。ゲイン制御ユニット３５によって判定されるゲインが実際に、ゲイン制御ユニット４３から出力される他のオーディオ出力チャネル４５の、または、ゲイン制御ユニット４４から出力される発話出力チャネル４６の信号出力レベルに影響を与える量が、ゲイン制御ユニット４３、４４により判定される。このために、オーディオ信号分析ユニット３０によるゲイン修正が出力に利用されるパーセンテージをユーザが示すことができるユーザインターフェース（図示せず）が提供されてもよい。組み合わせられた出力信号６０内に存在するように、ゲインの１００％が出力されるべきである場合、ゲイン判定ユニット３５によって判定される値が引き継がれる。しかし、例えばユーザが１曲内においてラウドネス変化を維持したい等、ユーザがゲイン適応を望まない可能性もある。この例において、ゲイン制御ユニット４３内でユーザがゲイン適応を０％に設定する、すなわち、ユニット３０において判定される修正が出力に一切利用されない可能性がある。ゲイン制御ユニット４３において、例えば、０％と１００％の間に要因を設定することによって、ゲイン修正量を判定することができる。要因が０％に設定される場合、時定数に影響なくゲインが判定される。

ユーザインターフェースに加えて、または、ユーザインターフェースの代わりに、車両室内の周辺騒音を推定する騒音推定器５０を提供することができる。上述のように、車両速度は車両室内の騒音に強く影響を与える。車両が非常に低速で移動しているか、静止している場合、ゲイン判定ユニットによって判定されるゲイン適応は必要であると見なされなくてもよい。出力信号６０がゲイン制御ユニットに一切影響されるべきでない、すなわち、ユニット３０において判定される修正が出力に一切利用されない場合、ゲイン制御ユニットは、出力信号がユニット３０において実行される算出に影響される要因を０％に設定することができる。騒音推定器５０は、車両速度を受信することができ、また、車両速度と騒音との間の関係が提供される表５１にアクセスすることができる。この表は、車両製造社によって設定された、事前に定義された表であってもよい。通常、表５１において与えられた値を適応させることを運転者に可能にするべきではない。しかし、表において与えられた値は、例えば、音声設定を調整することができるソフトウェアツールによって変更されてもよい。車両速度がより速い場合、周辺騒音もまた、８０ｄＢ（Ａ）にであってもよい。この例では、１０５ｄＢ（Ａ）の閾値が超えられるべきでない場合、２５ｄＢ（Ａ）のみに留まる。周辺騒音が８０ｄＢ（Ａ）である場合、上述のように、ゲイン判定ユニットによってオーディオ出力信号のラウドネスが動的に判定されてもよい。ゲイン判定ユニットは周辺騒音に基づいて０％と１００％との間で要因を判定することができ、このパーセンテージは、上述のように、ラウドネスが適応されるべき量を示す。示される実施形態において、車両速度は周辺騒音を判定するための唯一の変数である。しかし、他の要因が単独で、または、マイクロフォン（図示せず）によって判定されるような周辺騒音等の車両速度と組み合わせて利用されてもよい。

図３の上部において、オーディオ入力信号の信号レベルがフルスケールで示される。すなわち、０ｄＢフルスケール（０ｄＢＦＳ）が、デジタル領域における最大の潜在的な信号レベルに割り当てられる。ｄＢフルスケールとは、フルスケールに対するデシベルを意味する。図３の上部から分かるように、信号レベル、したがって同様に、ユーザによって知覚される信号に対応するラウドネスレベルが大幅に変化する。図３の下部において、信号入力レベルから対応するラウドネスが推定された。ラウドネス推定の１つの可能性が、ＲｅｃｏｍｍｅｎｄａｔｉｏｎＩＴＵ−ＲＢＳ．１７７０−１（「ＡｌｇｏｒｉｔｈｍｓｔｏＭｅａｓｕｒｅＡｕｄｉｏＰｒｏｇｒａｍＬｏｕｄｎｅｓｓａｎｄｔｏａＰｅａｋＡｕｄｉｏＬｅｖｅｌ」）において説明される。本出願において、ラウドネスは両耳聴定位モデルを通じて推定されてもよい。図３に示す音声信号が車両内のユーザに再生される場合、オーディオ信号の一部が不快なラウドネスで知覚されてもよく、一方で、オーディオ信号の他の部分がユーザによって正確に知覚されるには低すぎると見なされてもよい。図４において、図３の信号の理想的に調整されたレベルが示される。例えば、範囲２０１における信号サンプルはより低い信号レベルに適応されるべきであり、一方で、範囲２０２における信号は、ユーザによる良好な知覚のために、より高い信号レベルに適応されるべきである。同様に、範囲２０３における信号は、強く低減された信号レベルで出力されるべきである。

図４の下部において、上部において理想的に調整されたレベルの対応する推定されたラウドネスが示される。図２の下部を図４の下部と比較すると、図４に示されるラウドネス評価が図３に示されるラウドネス評価よりも好ましいと推定され得る。図４のラウドネス評価は、図３のラウドネス評価よりも良好に知覚されることができる。ここでは、平滑化された、比較的一定なラウドネスに達し、それが視覚化される。

図５は、発話検出ユニットの部分のより詳細な図を示す。発話検出ユニットは、発話入力信号が発話成分を含むか否かを判定しなければならない。このために、発話入力信号は、分割ユニット３７０において定義された長さのフレーム、例えば、２秒に分離されてもよく、特徴抽出ユニット３７１において、フレームごとに特徴が算出され、抽出されてもよい。したがって、発話入力信号がフレームに分割され、特徴抽出のためにバッファに入力され、バッファ内容ごとに、特徴抽出が実行される。ユニット３７２において、抽出された特徴に基づき、分類が実行される。例えば、平均値及び標準偏差が算出されてもよい。最終的に、ユニット３７３において、クラスタリングが実行される。このクラスタリングユニット３７３において、特徴空間におけるクラスタリング中心を判定し、各特徴ベクトルを最も近い中心に割り当てるために、フレームごとにクラスラベルの発見が試みられる。例として、Ｋ平均アルゴリズムが利用されてもよい。

ユニット３７１における抽出特徴は、合計スペクトルパワー、零交差率または、メル周波数ケプストラム係数（ＭＦＣＣｓ）等の特徴を含んでもよい。

発話入力信号内の発話信号成分を検出するために、当該技術分野で既知の任意の他の方法が利用され得ることを理解すべきである。発話検出は特に、曲内に発生する発話及びテキストを識別するよう構成されるべきである。ゲイン判定ユニットによってこれらの成分に、Ｎチャネルオーディオ入力信号における他の非発話成分と比較して異なる処理を行うために、発話言語の発話成分のみが検出されるべきである。

発話検出ユニットの出力は、０％から１００％の間の確率とすることができる。確率が特定のレベルを上回る場合、発話検出ユニットは発話入力チャネル内に発話が存在すると仮定してもよく、ゲイン判定ユニットがオーディオ入力チャネルと比較して異なる方法で発話入力チャネルを制御することができるように、ゲイン判定ユニットに情報を適宜伝達してもよい。発話入力チャネル内に発話が一切存在しないと発話検出ユニットが仮定する場合、発話入力チャネル及び他のオーディオ入力チャネルの両方を、同様に適応させることができる。

図６において、発話出力チャネル４６の１つの異なるサンプル６１から６３が、異なる時定数７１から７３によって個別に示される。時定数７１から７３は、１つのサンプルから次のサンプルにラウドネスがどのように適応されるかを示す。時定数は、上昇する時定数または下降する時定数とすることができる。上昇する時定数は１つのサンプルから次のサンプルに信号ゲインがどのように増大されるかを示し、一方で、下降する時定数は１つのサンプルから次のサンプルへのゲインの低減を示す。時定数７１から７３は、上昇する時定数が下降する時定数よりもはるかに迅速に適応され得るように判定される。例えば、２つのトラック間またはトラック内で信号ポーズが判定される場合、騒音の増幅を回避するために、オーディオ信号レベルは増大されるべきではない。新規トラックが開始する際、非常に低い信号レベルの直後に、高い信号レベルが発生してもよい。ラウドネス推定の上昇する時定数は、新規トラック開始時の信号レベルが大幅に増大することを回避するために、適宜に適応されるべきである。オーディオ信号レベルの低減の場合の下降する時定数のみにより、増大に比較して、信号レベルのより緩やかな低減が可能である。さらに、時定数は、適応可能な時定数である。すなわち、トラックが長いほど、時定数の反応は緩やかである。平滑化されたラウドネス推定もまた、人間がラウドネスを知覚するのと同様の方法でのラウドネス推定を保証する。ピーク及びディップは、人間の聴覚システムによって平滑化される。オーディオトラックの増大時間とともに時定数がより緩やかに変化するという事実により、オーディオ信号のダイナミクスが維持される。しかしまた、音楽信号の長いランタイムに達する際、増大するラウドネスのより短い反応時間により、迅速な信号増大への適切な反応が保証される。さらに、時定数は、発話出力チャネルにおける発話を含む成分が、他のオーディオ出力チャネルの成分と比較して異なる方法で適応されるものである。図６の上部はさらに、異なる時定数９１から９３によって分離された他のオーディオ出力チャネル４５の異なるサンプルを示す。

図６の下部において、出力信号４５及び４６についてのゲイン増大及びゲイン低減が時間の経過とともに示される。音楽サンプルの第１のブロック６４に関して、第１のゲイン７５が示されるように判定される。続く信号ブロック６５に関して増大されたゲインが判定され、信号ブロック６６がわずかに低減したゲインとともにそれに続き、ゲイン低減は７６によってシンボル化されるように適応される。時定数を利用したラウドネス適応に基づき、ブロックごとのゲイン、すなわち、ブロックごとの目標ゲインが判定される。ブロックｎの目標ゲインはその後、前のブロックｎ−１の目標ゲインから開始する線形ランプにて達成される。下部に示される例において、対応するゲイン９５及び９６を有する異なるサンプル８４から８６を含む発話出力チャネルについてのゲイン増大及びゲイン低減が示される。ブロック６４の終端で発話が検知されると仮定される。さらに、発話信号成分は、発話成分の明瞭度を向上させるために、他の成分と比較して増大されるべきであると仮定される。ゲイン７５をゲイン９５と比較すると、発話出力チャネル４６は、他のオーディオ出力チャネル４５と比較して、より強い増大を受けたものと推定され得る。

トラック内の、または２つのトラック間のポーズが判定される場合、時定数がリセットされてもよい。図２の信号分析ユニット３０において実行されるポーズ検出またはトラック検出が、ポーズ検出ユニット３３及びトラック検出ユニット３４によってシンボル化される。図２の実施形態において、ラウドネス判定ユニット３１、時定数生成ユニット３２、ポーズ及びトラック検出ユニット３３及び３４、ゲイン判定ユニット３５、ダウンミックスユニット３６ならびに発話検出ユニット３７が別個のユニットとして示される。しかし、異なるユニットがより少ないユニットに組み込まれてもよいこと、また、ユニットがいくつかのユニットまたは１つのユニットにさえ組み合わせられてもよいことが当業者に明らかとなるだろう。さらに、信号分析ユニットは、ハードウェア要素によって、またはソフトウェア要素によって、または、ハードウェアとソフトウェアとの組み合わせによって、設計されてもよい。

図７において、自動ラウドネス適応の第１の例が示される。図７の上部において、ラウドネス推定前のオーディオ入力信号が示される。オーディオ入力信号の２つのチャネルから分かるように、入力信号は異なる入力レベル範囲を包含する。最大インプットレベルは０ｄＢフルスケールであってもよい。図７の下部において、ラウドネス推定後のオーディオ出力信号１９及びゲイン適応が示される。図７の上部から分かるように、平均信号レベルは−１２ｄＢフルスケールに設定される。同時に、オーディオ信号の動的構造が維持される。

図８において、入力レベルが−２０ｄＢフルスケールの最大入力レベルを有する別の例が示される。図８の下部において、ラウドネス推定後のオーディオ出力信号１９及びゲイン適応が示される。再び動的構造が維持され、平均信号レベルは再び−１２ｄＢフルスケールになる。図７及び８の上部において示される入力信号がユーザに出力された場合、不快に高い信号レベルを回避し、信号レベルが聴くには低すぎるオーディオ信号の部分についての信号を増大させるために、ユーザは音量を頻繁に調整しなければならない。

図９は、システム４００の概略的なアーキテクチャビューを示す。システム４００は、他の図に関連して上述した全てのステップを実行するよう構成することができる。システム４００は、詳細には図示されない入力ユニット及び出力ユニットを有するインターフェース４１０を含む。図１に示す組み合わせられた出力信号６０の出力のためにインターフェースが提供される。図１に関連して上述したように、インターフェースは、異なる入力信号２０、２１を受信するように、さらに構成される。

さらに、システム４００の操作を担当する処理ユニット４２０が提供される。例えば、デジタル信号処理装置（ＤＳＰ）等の１つまたは複数の処理装置を含む処理ユニット４２０は、メモリ４３０上で命令を実行することができ、メモリは、読み出し専用メモリ、ランダムアクセスメモリ、マスストレージ等を含んでもよい。メモリはさらに、図１から８に関連して上述したように、発話信号成分がＮチャネルオーディオ入力信号の他のオーディオ入力チャネルと比較して異なる方法で適応される、システムの上述の機能を実行するために、処理ユニット４２０によって実行される好適なプログラムコードを含むことができる。

本出願により、システムがラウドネスを推定し、出力前にゲインを自動的かつ動的に揃えるため、ユーザによる頻繁な音量調整が必要なくなる。さらに、Ｎチャネル信号内に存在する発話成分をよりよく理解することができるように、異なる成分のゲインが適応される。

Claims

Ｎチャネルオーディオ出力信号を生成するためのＮチャネルオーディオ入力信号のゲインを適応させる方法であって、前記Ｎチャネルオーディオ入力信号が、発話入力チャネル（２１）を含み、発話信号成分は、前記Ｎチャネルオーディオ入力信号内に存在する場合に前記発話入力チャネル内に存在し、前記Ｎチャネルオーディオ入力信号が、他のオーディオ入力チャネル（２０）を含み、前記方法は、
前記Ｎチャネルオーディオ入力信号の知覚されるラウドネスを動的に判定することと、
発話信号成分が前記発話入力チャネル（２１）内に存在するか否かを判定することと、
発話信号成分が前記発話入力チャネル（２１）内に存在する場合に、
第１のゲイン制御ユニット（４３）から出力される他のオーディオ出力チャネル（４５）の少なくとも２つの連続するトラックが事前に定義された信号レベルの範囲または事前に定義されたラウドネス範囲に限定されるように、第１のゲインパラメータ（３９）により、前記Ｎチャネルオーディオ入力信号の前記判定された知覚されるラウドネスに基づき、前記第１のゲイン制御ユニット（４３）において前記他のオーディオ入力チャネル（２０）のゲインを動的に適応させることと、
第２のゲイン制御ユニット（４４）から出力される発話出力チャネル（４６）の少なくとも２つの連続するトラックが前記事前に定義された信号レベルの範囲またはラウドネス範囲に限定されるように、第２のゲインパラメータ（３８）により、前記Ｎチャネルオーディオ入力信号の前記判定されたラウドネスに基づき、前記発話入力チャネル（２１）のゲインを前記第２のゲイン制御ユニット（４４）において動的に適応させることであって、前記第２のゲインパラメータ（３８）が前記第１のゲインパラメータ（３９）とは異なる、ことと、
を含み、
発話信号成分が前記発話入力チャネル（２１）内に存在するか否かを判定することが、
オーディオフレームに前記発話入力チャネルを分離するステップと、
フレームごとに特徴抽出を実行するステップと、
特徴空間において、前記抽出された特徴をクラスタリングするステップと
を含み、
前記Ｎチャネルオーディオ入力信号のＮチャネルの別個のグループの各々に対して、前記知覚されるラウドネスが判定される、方法。
前記発話入力チャネル内に発話信号成分が一切存在しない場合に、前記他のオーディオ入力チャネル（２０）及び前記発話入力チャネル（２１）が同じゲインによって適応される、請求項１に記載の方法。
Ｎチャネルオーディオ出力信号を生成するためのＮチャネルオーディオ入力信号のゲインを適応させる方法であって、前記Ｎチャネルオーディオ入力信号が、発話入力チャネル（２１）を含み、発話信号成分は、前記Ｎチャネルオーディオ入力信号内に存在する場合に前記発話入力チャネル内に存在し、前記Ｎチャネルオーディオ入力信号が、他のオーディオ入力チャネル（２０）を含み、前記方法は、
前記Ｎチャネルオーディオ入力信号の知覚されるラウドネスを動的に判定することと、
発話信号成分が前記発話入力チャネル（２１）内に存在するか否かを判定することと、
発話信号成分が前記発話入力チャネル（２１）内に存在する場合に、
第１のゲイン制御ユニット（４３）から出力される他のオーディオ出力チャネル（４５）の少なくとも２つの連続するトラックが事前に定義された信号レベルの範囲または事前に定義されたラウドネス範囲に限定されるように、第１のゲインパラメータ（３９）により、前記Ｎチャネルオーディオ入力信号の前記判定された知覚されるラウドネスに基づき、前記第１のゲイン制御ユニット（４３）において前記他のオーディオ入力チャネル（２０）のゲインを動的に適応させることと、
第２のゲイン制御ユニット（４４）から出力される発話出力チャネル（４６）の少なくとも２つの連続するトラックが前記事前に定義された信号レベルの範囲またはラウドネス範囲に限定されるように、第２のゲインパラメータ（３８）により、前記Ｎチャネルオーディオ入力信号の前記判定されたラウドネスに基づき、前記発話入力チャネル（２１）のゲインを前記第２のゲイン制御ユニット（４４）において動的に適応させることであって、前記第２のゲインパラメータ（３８）が前記第１のゲインパラメータ（３９）とは異なる、ことと、
を含み、
発話信号成分が前記発話入力チャネル（２１）内に存在するか否かを判定することが、
オーディオフレームに前記発話入力チャネルを分離するステップと、
フレームごとに特徴抽出を実行するステップと、
特徴空間において、前記抽出された特徴をクラスタリングするステップと
を含み、
前記発話入力チャネル内に発話信号成分が一切存在しない場合に、前記他のオーディオ入力チャネル（２０）及び前記発話入力チャネル（２１）が同じゲインによって適応される、方法。
組み合わせられたラウドネスレベルとして、前記Ｎチャネルオーディオ入力信号の全てのＮチャネルを組み合わせた前記Ｎチャネルオーディオ入力信号に対して、前記知覚されるラウドネスが判定される、請求項３に記載の方法。
前記発話入力信号（２１）の前記信号レベルの前記発話出力信号（５２）の前記信号レベルに対する比率が、前記他のオーディオ入力チャネル（２０）の前記信号レベルの前記他のオーディオ出力チャネル（５１）の前記信号レベルに対する比率より小さいように、前記第１のゲインパラメータ（３９）及び前記第２のゲインパラメータ（３８）が決定される、請求項１〜４のいずれか１項に記載の方法。
前記第２のゲインパラメータ（３８）によって、前記発話入力信号の前記信号レベルが、前記第１のゲインパラメータ（３９）によって増大される前記他のオーディオ入力チャネルの前記信号レベルと比較してより高く増大されるように、前記第１のゲインパラメータ（３９）及び前記第２のゲインパラメータ（３８）が決定される、請求項１〜５のいずれか１項に記載の方法。
前記第２のゲインパラメータによって、前記発話入力信号（２１）の前記信号レベルが、前記第１のゲインパラメータ（３９）によって低減される前記他のオーディオ入力チャネルの前記信号レベルと比較してより小さく低減されるように、前記第１のゲインパラメータ（３９）及び前記第２のゲインパラメータ（３８）が決定される、請求項１〜６のいずれか１項に記載の方法。
前記Ｎチャネルオーディオ入力信号が出力される空間において周辺騒音を推定するステップであって、前記推定された周辺騒音を考慮して前記他のオーディオ入力チャネルの前記ゲイン及び前記発話入力チャネルが適応される、ステップをさらに含む、請求項１〜７のいずれか１項に記載の方法。
前記Ｎチャネルオーディオ入力信号が車両の内部に出力され、前記周辺騒音を推定することが、車両速度を判定することと、前記判定された車両速度に基づいて前記周辺騒音を判定することとを含む、請求項８に記載の方法。
Ｎチャネルオーディオ出力信号を生成するためにＮチャネルオーディオ入力信号のゲインを適応させるよう構成されたシステムであって、前記Ｎチャネルオーディオ入力信号が、発話入力チャネル（２１）を含み、発話信号成分は、前記Ｎチャネルオーディオ入力信号内に存在する場合に前記発話入力チャネル内に存在し、前記Ｎチャネルオーディオ入力信号が、他のオーディオ入力チャネル（２０）を含み、前記システムは、
前記Ｎチャネルオーディオ入力信号の知覚されるラウドネスを判定するよう構成された、ラウドネス判定ユニット（３１）と、
発話信号成分が前記発話入力チャネル（２１）内に存在するか否かを判定するよう構成された、発話検出ユニット（３７）と、
前記他のオーディオ入力チャネル（２０）のゲインを制御するよう構成された、第１のゲイン制御ユニット（４３）と、
前記発話入力チャネル（２０）のゲインを制御するよう構成された、第２のゲイン制御ユニット（４４）と
を含み、
前記発話入力信号内に発話信号成分が存在すると前記発話検出ユニットが検出する場合に、
前記第１のゲイン制御ユニット（４３）は、前記第１のゲイン制御ユニット（４３）から出力される他のオーディオ出力チャネル（５１）の少なくとも２つの連続するトラックが事前に定義された信号レベルの範囲または事前に定義されたラウドネス範囲に限定されるように、第１のゲインパラメータ（３９）により、前記Ｎチャネルオーディオ入力信号の前記判定された知覚されるラウドネスに基づき、前記他のオーディオ入力チャネル（２０）の前記ゲインを動的に適応させ、
前記第２のゲイン制御ユニット（４４）は、前記第２のゲイン制御ユニット（４４）から出力される発話出力チャネル（５２）の少なくとも２つの連続するトラックが前記事前に定義された信号レベルの範囲またはラウドネス範囲に限定されるように、第２のゲインパラメータ（３８）により、前記Ｎチャネルオーディオ入力信号の前記判定されたラウドネスに基づき、前記発話入力チャネル（２１）の前記ゲインを動的に適応させ、前記第２のゲインパラメータが前記第１のゲインパラメータとは異なり、
オーディオフレームに前記発話入力チャネルを分離すること、
フレームごとに特徴抽出を実行すること、
特徴空間において、前記抽出された特徴をクラスタリングすること、
を含むステップに基づき、発話信号成分が前記発話入力チャネル内に存在するか否かを判定するよう前記発話検出ユニット（３７）が構成され、
前記Ｎチャネルオーディオ入力信号のＮチャネルの別個のグループの各々に対して、前記知覚されるラウドネスが判定される、システム。
前記発話入力信号（２１）の前記信号レベルの前記発話出力信号（５２）の前記信号レベルに対する比率が、前記他のオーディオ入力チャネル（２０）の前記信号レベルの前記他のオーディオ出力チャネル（５１）の前記信号レベルに対する比率より小さいように、前記第１のゲイン制御ユニット（４３）及び前記第２のゲイン制御ユニット（４４）が、前記第１のゲインパラメータ及び前記第２のゲインパラメータを決定する、請求項１０に記載のシステム。
前記第２のゲインパラメータによって、前記発話入力信号の前記信号レベルが、前記第１のゲインパラメータによって増大される前記他のオーディオ入力チャネルの前記信号レベルよりも高く増大されるように、前記第１のゲイン制御ユニット（４３）及び前記第２のゲイン制御ユニット（４４）が前記第１のゲインパラメータ及び前記第２のゲインパラメータを決定する、請求項１０または１１に記載のシステム。
前記第２のゲインパラメータによって、前記発話入力信号（２１）の前記信号レベルが、前記第１のゲインパラメータによって低減される前記他のオーディオ入力チャネルの前記信号レベルよりも小さく低減されるように、前記第１のゲイン制御ユニット（４３）及び前記第２のゲイン制御ユニット（４４）が前記第１のゲインパラメータ及び前記第２のゲインパラメータを決定する、請求項１０〜１２のいずれか１項に記載のシステム。
前記Ｎチャネルオーディオ入力信号が出力される空間において周辺騒音を推定するよう構成された騒音推定器（５０）をさらに含み、前記推定された周辺騒音を考慮して前記他のオーディオ入力チャネルの前記ゲイン及び前記発話入力チャネルを適応させるよう前記第１のゲイン制御ユニット（４３）及び前記第２のゲイン制御ユニット（４４）が構成される、請求項１０〜１３のいずれか１項に記載のシステム。
前記Ｎチャネルオーディオ入力信号が車両の内部に出力され、車両速度を判定し、前記判定された車両速度に基づいて前記周辺雑音を判定するよう前記雑音推定器が構成される、請求項１４に記載のシステム。
Ｎチャネルオーディオ出力信号を生成するためにＮチャネルオーディオ入力信号のゲインを適応させるよう構成されたシステムであって、前記Ｎチャネルオーディオ入力信号が、発話入力チャネルを含み、発話信号成分は、前記Ｎチャネルオーディオ入力信号内に存在する場合に前記発話入力チャネル内に存在し、前記Ｎチャネルオーディオ入力信号が、他のオーディオ入力チャネルを含み、前記システムは、
少なくとも１つのプロセッサ（４２０）と、
前記少なくとも１つのプロセッサによって実行可能な命令を含むメモリ（４３０）と
を含み、請求項１〜９のいずれか１項に記載の方法を実行するよう前記システムが操作可能である、システム（４００）。