JP7397066B2

JP7397066B2 - オーディオ分類を介した動的な音量調整のための方法、コンピュータ可読記憶媒体及び装置

Info

Publication number: JP7397066B2
Application number: JP2021512702A
Authority: JP
Inventors: マーカスクレーマー，; ロバートクーバー，; スティーブンディー．シェルフ，; キャメロンオーブリーサマーズ，
Original assignee: グレースノートインコーポレイテッド
Priority date: 2018-09-07
Filing date: 2019-09-06
Publication date: 2023-12-12
Anticipated expiration: 2039-09-06
Also published as: EP3847542A1; KR20210082440A; EP3847542A4; US11086591B2; CN113614684A; KR20230144650A; US20200081683A1; JP2024037766A; KR102584779B1; JP2021536705A; WO2020051544A1

Description

関連出願

[0001]本特許は、２０１８年９月７日に出願された米国特許仮出願第６２／７２８，６７７号、及び２０１８年１０月１２日に出願された米国特許仮出願第６２／７４５，１４８号の優先権及び利益を主張する。米国特許仮出願第６２／７０２，７３４号及び米国特許仮出願第６２／７４５，１４８号は、その全体が引用により本明細書に組み込まれている。

開示の分野

[0002]本開示は一般には音量調整に関し、より詳細には、オーディオ分類を介した動的な音量調整のための方法及び装置に関する。

背景

[0003]近年、様々な特性の多数のメディアが、ますます増加するチャネルを使用して配信されている。これらのメディアは、より従来型のチャネル（たとえば、ラジオ）を使用して、又はより最近開発されたチャネルを使用して、たとえば、インターネットに接続されたストリーミングデバイスを使用するなどして、受信することができる。これらのチャネルが発展するにつれて、複数のソースからの音響（audio、オーディオ）を処理して出力することが可能なシステムも開発されている。たとえば、一部の自動車メディアシステムは、コンパクトディスク（ＣＤ）、ブルートゥース（登録商標）接続デバイス、ユニバーサルシリアルバス（ＵＳＢ）接続デバイス、Ｗｉ－Ｆｉ接続デバイス、補助入力、及び他のソースからメディアを配信することが可能である。

[0004]図１は、オーディオ分類を介した動的な音量調整のための本開示の教示に従って構築された例示的なシステムの概略図である。

[0005]図２は、図１のメディアユニットのさらなる詳細を示すブロック図である。

[0006]図３は、図１及び図２のメディアユニットが使用するための訓練されたモデルを提供することが可能なオーディオ分類エンジンを示すブロック図である。

[0007]図４は、図１及び図２のメディアユニット１０６を実装してオーディオ分類を介した動的な音量調整を実行するために使用することができる例示的な機械可読命令を表すフローチャートである。 [0007]図５は、図１及び図２のメディアユニット１０６を実装してオーディオ分類を介した動的な音量調整を実行するために使用することができる例示的な機械可読命令を表すフローチャートである。

[0008]図６は、図４及び図５の命令を実行して図１及び図２の例示的なメディアユニット１０６を実装することができる例示的なプロセッサプラットフォームの概略図である。

[0009]図は縮尺通りではない。図面（複数可）及び添付の明細書全体を通して、同一又は同様の部分を参照するために、可能な限り同じ参照番号を使用する。

詳細な説明

[0010]従来のオーディオメディアの実装では、異なるメディアに関連付けられたオーディオ信号は、異なる音量を有する場合がある。たとえば、あるＣＤのメディアは、他のＣＤのメディアとは大幅に異なる音量で録音及び／又はマスタリングされる場合がある。同様に、ストリーミングデバイスから取得されるメディアは、異なるデバイスから取得されるメディア、又は同じデバイスから異なるアプリケーションを介して取得されるメディアとは大幅に異なる音量レベルを有する場合がある。ユーザがますます様々な異なるソースからのメディアを聞くようになると、ソース間及び同じソースのメディア間の音量レベルの違いが非常に顕著になり、聴取者を苛立たせる可能性がある。

[0011]音量均一化のいくつかの従来のアプローチでは、ダイナミックレンジ圧縮器を利用して、音量閾値を満たすようにオーディオ信号のダイナミックレンジ全体を圧縮する。いくつかの従来の実装では、そのようなダイナミックレンジ圧縮は、オーディオ信号の音量閾値を満たすように、オーディオ信号の音量を継続的に監視して調整する。このような継続的な調整は、トラックの元のダイナミクスが大幅に改変されるので、オーディオ信号の聴取者の知覚にはっきりと分かる影響を及ぼす。いくつかの例では、ダイナミックレンジ圧縮により、（たとえば、オーディオにアーティファクトが導入されることによって）オーディオ信号の知覚品質が大幅に劣化する。

[0012]本明細書に開示した例示的な方法、装置、システム、及び製造品では、オーディオ分類を使用してオーディオ信号のカテゴリを特定し、続いて、オーディオ信号を目標音量範囲内に収めるために必要なダイナミックレンジ圧縮の量を最小化するように音量調整を実行する。本明細書に開示した例示的な方法、装置、システム、及び製造品は、オーディオ信号の分類とリアルタイムの入力オーディオ測定値との組み合わせを利用して、オーディオ信号に適用可能な目標ゲイン値を特定する。たとえば、オーディオ信号に関連付けられる分類グループを特定した後、（たとえば、音量ゲイン調整値を分類グループに関連付けるルックアップテーブルから）分類ゲイン値を取得することができる。さらに、オーディオ信号の入力音量を特定することができる。次いで、入力音量及び推奨される分類ゲイン値に基づいて、目標ゲイン値を特定することができる。目標ゲイン値は、音量を目標音量範囲（たとえば、－２１ｄｂＦＳから±１ｄｂＦＳ以内）に近づけるために入力オーディオ信号に適用される音量調整であり、その結果、ゲイン調整された信号が圧縮器に提供された場合に、ゲイン調整された信号を目標音量範囲内に収めるために必要な圧縮量が低減される。

[0013]本明細書に開示した例示的な方法、装置、システム、及び製造品では、入力オーディオ信号の分類と、オーディオ信号の入力音量とに基づいて目標ゲイン値を計算して、オーディオ信号の音量を目標音量範囲内に収めるために必要な圧縮量を低減する。いくつかの例では、入力オーディオ信号が最初に検出されると、入力オーディオ信号が分類され、入力オーディオ信号の音量が特定されるまでに、オーディオ信号の音量を目標音量範囲内に収めるように、オーディオ信号のダイナミックレンジが最初に圧縮される。いくつかの例では、オーディオ信号が最初に検出されたときに、オーディオ信号を調整するために圧縮のみを利用すると、聴取者は圧縮が、手動の音量調整によらないオーディオレベルの減少であると簡単に気付く場合がある。しかしながら、オーディオ信号の初期音量と、オーディオ信号の分類とが特定されると、オーディオ信号の音量を目標音量範囲内に収めるために必要な圧縮量を低減させるための目標ゲイン値が計算される。いくつかの例では、分類及び初期音量の特定は、最初の圧縮の使用が聴取者に気付かれないほど十分迅速に（たとえば、５秒以内、１秒以内などに）行うことができる。

[0014]本明細書に開示したいくつかの例示的な方法、装置、システム、及び製造品は、オーディオ信号のソースの変化を特定し、変化に対処する。いくつかの例では、圧縮の使用に加えて、又はその代わりに、初期音量調整が実行される。たとえば、オーディオ信号入力の変化（たとえば、オーディオ信号なしからオーディオ信号提示への変化、あるオーディオ信号入力ソースから他のオーディオ信号入力ソースへの変化など）に応答して、（たとえば、オーディオ信号のソースに固有の以前の音量調整設定に基づいて）初期音量レベルを特定することができ、初期音量レベル調整を実行することができる。いくつかの例では、初期音量レベル調整は「フェードイン」技術を使用して実行され、この技術は入力信号の変化後にオーディオ音量レベルを徐々に増加させるものである。いくつかの例では、初期音量レベル調整は、オーディオ入力信号のタイプ（たとえば、ＦＭラジオ、ＡＭラジオ、ＣＤ、補助オーディオソースなど）に関連付けられた、記憶された設定に基づくことができる。

[0015]本明細書に開示した例示的な方法、装置、システム、及び製造品は、オーディオ信号を複数の分類グループのうちの１つ又は複数に分類する。分類グループを特定する際に、分類グループの特性（たとえば、利用可能なヘッドルームの量、典型的なダイナミックレンジなど）を使用して、最小限の損失で（たとえば、最小限のダイナミックレンジ圧縮を利用して）オーディオ信号の音量を調整することができる。いくつかの例では、訓練データにおけるパターン認識を使用して、分類グループを識別することができる。たとえば、オーディオ信号は、信号内に表されている楽器、オーディオ信号が制作された年、音楽のジャンルなどの要因に基づいてグループ化することができる。訓練データがグループ化されると、ダイナミックレンジ値の分布、音量値の分布、又は他の任意のオーディオ特性などの特性が、分類グループに関連付けられて（たとえば、ルックアップテーブルに）記憶される。いくつかの例では、オーディオ信号を分類する場合に、（たとえば、オーディオ信号が属する１つの特定の分類グループを出力するのとは対照的に）確率分布を求めることができる。たとえば、分類処理は、オーディオ信号が１９７６年～１９９５年のドラムなしの音楽を表すグループに属する可能性が５０％であり、オーディオ信号が１９９６年から現在までのドラムなしの音楽を表すグループに属する可能性が３０％であり、オーディオ信号が１９７６年～１９９５年の合成ドラムを含む音楽を表すグループに属する可能性が１８％であり、又は他のグループに属する可能性が２％であることを出力することができる。いくつかのそのような例では、音量調整を実行するために分類グループに関連付けられたゲイン値を選択することは、平均化技術を含むことができる（たとえば、各グループに関連付けられたゲイン値を特定し、オーディオ信号がそれぞれのグループに属する確率に応じて各値に重み付けを行う）。

[0016]本明細書に開示したいくつかの例示的な方法、装置、システム、及び製造品では、代表的な様々なオーディオ信号（たとえば、多数のジャンル、多数の期間などを表すもの）の音量プロファイルの大規模なコーパスを利用して、オーディオ信号の分類を実行するようにオーディオ信号分類器を訓練する。たとえば、音量プロファイルは、ある曲の中の複数の時間における音量値を含む。いくつかの例では、音量プロファイルに加えて、又はその代わりに、オーディオ信号の他のプロファイル及び／又は表現を利用して、オーディオ信号分類器を訓練することができる。いくつかの例では、クラスタリングを音量プロファイルに実行して、オーディオ信号分類器を訓練する。いくつかの例では、オーディオ信号分類器は、音量プロファイルの音量、ダイナミックレンジ、及び／又は他の任意のプロパティに基づいて音量プロファイルのクラスタを特定するように訓練される。オーディオ信号分類器は、音量プロファイルをダイナミックレンジのグループにクラスタリングすることができ、次いで、オーディオ信号分類器は、到来したオーディオ（たとえば、入力オーディオ信号）を分類グループのうちの１つ又は複数に割り当てることができる。

[0017]本明細書に開示した例示的な方法、装置、システム、及び製造品では、オーディオ信号の分類グループを特定した後、ゲイン値をオーディオ信号に適用することによって、オーディオ信号の音量レベルを調整することができる。ゲイン値は、分類グループに固有のものとすることができる。たとえば、分類グループが、（一部のポップミュージックなどのように）比較的狭い正規化されたダイナミックレンジを有するオーディオ信号に関連付けられている場合、大幅な音量調整を行って、オーディオ信号の音量レベルを目標音量範囲に近づけることができる（たとえば、トラック全体のおおよその音量の偏差を求めることが可能なため）。逆に、分類グループが、比較的広いダイナミックレンジを有するオーディオ信号に関連付けられている場合、より少ない音量調整を行って、オーディオ信号を可聴レベル内に維持することができる。

[0018]オーディオ信号に関連付けられた分類グループに基づくゲイン値の適用に続いて、圧縮を利用して、オーディオ信号の音量を目標音量範囲内に収めることができる。ダイナミックレンジ圧縮は全体的なオーディオ品質の低減（たとえば、オーディオ信号のいくらかの損失）をもたらす場合があるので、本明細書に開示した例示的な方法、装置、システム、及び製造品は、提示中のオーディオのタイプに固有の（たとえば、分類グループに固有の）ゲイン値を最初に適用することによって音量調整技術を改善し、したがって、オーディオ信号の音量レベルを目標音量範囲内に適合させるために必要なダイナミックレンジ圧縮の量を低減させる。

[0019]本明細書に開示したいくつかの例示的な方法、装置、システム、及び製造品では、動的な音量調整の状況でオーディオ信号が分類されると、オーディオ信号の特性がその分類グループから推定され、この特性を利用して、最小限の圧縮又は無圧縮で、オーディオ信号の音量を目標音量閾値に近づけるための目標ゲイン値が特定される。

[0020]本明細書に開示したいくつかの例示的な方法、装置、システム、及び製造品では、目標ゲイン値を特定する場合に、入力音量測定値が考慮される。たとえば、入力音量が－１５ｄｂＦＳであると特定され、目標音量範囲が－２１ｄｂＦＳから±１ｄｂＦＳ以内（たとえば、－２０ｄｂＦＳ～－２２ｄｂＦＳ）である場合、目標ゲイン値は、分類グループが不変であっても、入力音量が－１０ｄｂＦＳであると特定された場合よりも小さい負のゲイン値である必要がある。いくつかのそのような例では、目標ゲイン値を特定する場合に、入力音量測定値は分類ゲイン値よりも重く重み付けされ、その理由は、最終的に、特定のオーディオ信号の実際の入力音量レベルが、クラスに基づく予測よりも、音量を調整できる量をより示しているためである（たとえば、リアルタイムの測定値は、オーディオ信号のクラスに関連付けられた予測よりも正確な場合がある）。いくつかの例では、目標ゲイン値を計算するために、分類ゲイン値と入力音量との平均が求められる。たとえば、入力音量が－１５ｄｂＦＳであると特定され、分類ゲイン値（たとえば、分類グループのオーディオ信号の平均ダイナミックレンジに基づいて特定されるもの）が、音量を－６ｄｂＦＳだけ調整できることを示しているが、目標音量範囲が－２１ｄｂＦＳから±１ｄｂＦＳである場合、分類ゲイン値のみに依存すると、誤差の余地が極端に小さくなる（たとえば、ダイナミックレンジが予想よりも広い場合、音量はしばしば－０２０ｄｂＦＳ～２２ｄｂＦＳの目標音量範囲外になる可能性が高い）。代わりに、目標ゲイン値が入力音量と分類ゲイン値との中間（たとえば、平均）として計算される場合、目標ゲイン値は、依然として誤差の余地を残しながら、オーディオ信号の音量を目標ゲイン値に近づける。

[0021]本明細書に開示したいくつかの例示的な方法、装置、システム、及び製造品では、一定の間隔（たとえば、３秒ごと、１０秒ごとなど）で入力音量レベルが測定され、一定の間隔で分類が実行される。入力音量の変化（たとえば、その間隔の平均入力音量の変化、その間隔の入力音量の偏差の変化）に応じて、及び／又は分類グループの変化に応じて、新しい目標ゲイン値を特定することができる。いくつかの例では、目標ゲイン値間を遷移する場合に、平滑化フィルタを利用して、２つのゲイン値間をスムーズに遷移することによって、各間隔での音量の顕著な変動を回避することができる。いくつかの例では、目標ゲイン値の大きい変化は、目標ゲイン値の比較的小さい変化よりも遅い速度で傾斜が与えられる。

[0022]本明細書に開示した例示的な方法、装置、システム、及び製造品は、オーディオ信号の音量レベルを目標音量範囲内に調整する。いくつかの例では、聴取者はその後、音量レベルを手動で（たとえば、音量つまみを回す、音量レベルを変更する音声命令を提供するなどして）調整することができ、この調整は次いで、音量調整されたオーディオ信号にゲイン値を適用することによって実施される。このように、聴取者は依然としてオーディオ信号を聞く音量を選ぶことができるが、異なるソース間のばらつき、トラック間のばらつきなどに合わせて調整するのではなく、一貫した標準的な音量レベルから（たとえば、目標音量範囲から）音量を選ぶことができる。したがって、本明細書に開示した技術は、入力オーディオを、一貫した音量範囲内にロックされるように調整することを可能にする。本明細書に開示したいくつかの例示的な方法、装置、システム、及び製造品では、手動の音量調整時に、動的な音量調整を中止することができる。たとえば、ユーザが音量レベルを手動で（たとえば、音量つまみを回す、音量レベルを変更する音声命令を提供するなどして）調整した場合、オーディオレベルの自動調整（たとえば、オーディオを分類し、分類に基づいてゲイン値を選択し、オーディオレベルを監視することなどによるもの）を中止することができ、ユーザはオーディオレベルを完全に制御することが可能になる。

[0023]本明細書に開示したいくつかの例示的な方法、装置、システム、及び製造品では、音量調整をさらに改善するために、オーディオ信号を識別することができる。たとえば、本明細書に開示したいくつかの例示的な技術では、オーディオ信号に関連するメタデータを取得するために、メディアを識別するためのオーディオ指紋が利用される。オーディオ指紋採取とは、テレビ放送、ラジオ放送、広告（テレビ及び／又はラジオ）、ダウンロード型のメディア、ストリーミングメディア、パッケージ済みメディアなど、メディアを識別するために使用される技術である。既存のオーディオ透かし技術は、メディア識別情報、及び／又はメディア識別情報にマッピング可能な識別子などの１つ又は複数のオーディオコード（たとえば、１つ又は複数の指紋）をオーディオ及び／又はビデオコンポーネントに埋め込むことによって、メディアを識別する。いくつかの例では、オーディオ又はビデオコンポーネントは、透かしを隠すのに十分な信号特性を有するように選択される。本明細書で使用する場合、「指紋」、「コード」、「署名」、又は「透かし」という用語を同義的に使用し、メディアを識別する目的で、又はチューニングなどの他の目的で（たとえば、パケット識別ヘッダ）、メディア（たとえば、番組又は広告）のオーディオ又はビデオに挿入又は埋め込み可能な任意の識別情報（たとえば、識別子）を意味するように定義する。本明細書で使用する場合、「メディア」とは、オーディオ及び／又は視覚（静止画又は動画）コンテンツ及び／又は広告を指す。指紋採取されたメディアを識別するために、指紋（複数可）を抽出及び使用して、参照指紋のテーブルにアクセスし、参照指紋はメディア識別情報にマッピングされている。

[0024]本明細書に開示した例では、車両のオーディオシステムのコンポーネント、又はそのオーディオシステムと通信するコンポーネントによって、音量調整を実行することができる。いくつかの例では、動的な音量調整器、又は動的な音量調整が可能な他のコンポーネントを含むメディアユニットを、車両のヘッドユニットに含めることができる。そのような例では、車両ヘッドユニットは、補助入力、ＣＤ入力、無線信号受信機入力、スマートデバイスからの外部ストリーム、ブルートゥース入力、ネットワーク接続（たとえば、インターネットへの接続）から、又は他の任意のソースを介して、オーディオ信号を受信することができる。たとえば、動的な音量調整は、ホームエンターテインメントシステムのメディアシステム上で実行することができ、複数のソース（たとえば、ＤＶＤプレーヤー、セットトップボックスなど）がオーディオ信号を伝達することができ、オーディオ信号は、ソース及びメディア間での音量レベルの正規化を試みるように動的に調整される。他の例では、動的な音量調整は、任意の状況で、又は任意のメディアデバイス（複数可）に対して実行することができる。

[0025]オーディオ分類を介した動的な音量調整のための例示的な手順では、正規化された大音量のポップミュージックに対応するオーディオ信号にアクセスする。オーディオ信号に関連付けられたオーディオ信号入力の変化を検出した後、ダイナミックレンジ圧縮器はオーディオを目標音量範囲（たとえば、－２１ｄｂＦＳ）に圧縮する。この圧縮と並行して、オーディオ信号分類器は、オーディオ信号に対応する分類グループを特定する。たとえば、分類グループは、１９９６年から現在までの期間の合成ドラム及びベースを含む音楽に対応することができる。この分類グループは、特定の音量調整レベル（たとえば、－１５ｄｂＦＳ）に関連付けることができる。いくつかの例では、分類グループに関連付けられたこの音量調整レベルは、現在のオーディオ音量レベルに基づいて特定される音量レベル調整値に加えて、又はその代わりに考慮することができる。この音量調整レベルに関連付けられた音量調整に続いて、少量のオーディオ圧縮を実行するだけで、目標音量範囲に到達することができる。たとえば、音量調整ステップによって音量が第１の値（たとえば、－１７．５０ｄｂＦＳ）に下がり、目標音量範囲が第１の値を超える第２の値（たとえば、－２１ｄｂＦＳ）付近である場合、少量のオーディオ圧縮を実行して、オーディオ信号を第２の値に（たとえば、－２１ｄｂＦＳ付近かつ目標音量範囲内に）することができる。したがって、信号を少量（たとえば、３．５ｄｂＦＳ）だけ低下させるダイナミックレンジ圧縮のみが実行され、オーディオ品質は、圧縮が必要な信号を元のオーディオ入力から目標音量範囲に低下させる（たとえば、オーディオ信号を－２１ｄｂＦＳ圧縮する）よりも大幅に優れている。

[0026]図１は、動的な音量調整のための本開示の教示に従って構築された例示的なシステム１００の概略図である。例示的なシステム１００は、オーディオ信号をメディアユニット１０６に送信するメディアデバイス１０２、１０４を含む。メディアユニット１０６は、オーディオ信号を処理し、信号をオーディオアンプ１０８に送信し、続いて、オーディオアンプ１０８は、増幅されたオーディオ信号を出力して、出力デバイス１１０を介して提示する。

[0027]図１に示した例の例示的なメディアデバイス１０２は、ポータブルメディアプレーヤー（たとえば、ＭＰ３プレーヤー）である。例示的なメディアデバイス１０２は、メディアに対応するオーディオ信号を記憶又は受信し、オーディオ信号を他のデバイスに送信することが可能である。図１に示した例では、メディアデバイス１０２は、補助ケーブルを介してオーディオ信号をメディアユニット１０６に送信する。いくつかの例では、メディアデバイス１０２は、他の任意のインターフェースを介してオーディオ信号をメディアユニット１０６に送信することができる。

[0028]図１に示した例の例示的なメディアデバイス１０４は、モバイルデバイス（たとえば、携帯電話）である。例示的なメディアデバイス１０４は、メディアに対応するオーディオ信号を記憶又は受信し、オーディオ信号を他のデバイスに送信することが可能である。図１に示した例では、メディアデバイス１０４は、オーディオ信号をメディアユニット１０６に無線で送信する。いくつかの例では、メディアデバイス１０４は、Ｗｉ－Ｆｉ、ブルートゥース、及び／又は他の任意の技術を使用して、オーディオ信号をメディアユニット１０６に送信することができる。いくつかの例では、メディアデバイス１０４は、聴取者が車両で提示するメディアを選択するために、車両のコンポーネント又は他のデバイスとやりとりすることができる。メディアデバイス１０２、１０４は、オーディオ信号を記憶する、及び／又はオーディオ信号にアクセスすることが可能な任意のデバイスとすることができる。いくつかの例では、メディアデバイス１０２、１０４は、車両に統合することができる（たとえば、ＣＤプレーヤー、ラジオなど）。

[0029]図１に示した例の例示的なメディアユニット１０６は、オーディオ信号を受信し、オーディオ信号を処理することが可能である。図１に示した例では、例示的なメディアユニット１０６は、メディアデバイス１０２、１０４からメディア信号を受信し、メディア信号を処理して動的な音量調整を実行する。例示的なメディアユニット１０６は、メディアに埋め込まれた識別子（たとえば、指紋、透かし、署名など）に基づいてオーディオ信号を識別することが可能である。例示的なメディアユニット１０６はさらに、オーディオ信号に関連付けられたメディアに対応するメタデータにアクセスすることが可能である。いくつかの例では、メタデータは、メディアユニット１０６の記憶デバイスに記憶される。いくつかの例では、メタデータは、他の場所から（たとえば、ネットワークを介してサーバから）アクセスされる。さらに、例示的なメディアユニット１０６は、メタデータに基づいて平均ゲイン値を特定及び適用して、音量閾値を満たすようにオーディオ信号の平均音量を調整することによって、動的な音量調整を実行することが可能である。例示的なメディアユニット１０６はさらに、出力デバイス１１０によって出力されているオーディオを監視して、リアルタイムにオーディオセグメントの平均音量レベルを求めることが可能である。オーディオ信号がメディアに対応するものとして識別されない場合、及び／又はオーディオ信号に関して音量情報を含むメタデータが利用可能でない場合、例示的なメディアユニット１０６は、所望の音量レベルを実現するためのオーディオ信号の圧縮を提供するダイナミックレンジ圧縮が可能である。いくつかの例では、例示的なメディアユニット１０６は、車両内の他のデバイス（たとえば、カーラジオヘッドユニット）の一部として含まれる。いくつかの例では、例示的なメディアユニット１０６は、ソフトウェアとして実装され、直接接続（たとえば、有線接続）又はネットワーク（たとえば、クラウド上で利用可能なもの）のいずれかを介して利用可能な他のデバイスの一部として含まれる。いくつかの例では、例示的なメディアユニット１０６は、オーディオアンプ１０８及び出力デバイス１１０に組み込むことができ、オーディオ信号の処理に続いて、オーディオ信号を単独で出力することができる。

[0030]図１に示した例の例示的なオーディオアンプ１０８は、メディアユニット１０６によって処理されたオーディオ信号を受信し、出力デバイス１１０による出力のために信号の適切な増幅を実行することが可能なデバイスである。いくつかの例では、オーディオアンプ１０８は、出力デバイス１１０と統合することができる。いくつかの例では、オーディオアンプ１０８は、メディアユニット１０６からの増幅出力値に基づいてオーディオ信号を増幅する。いくつかの例では、オーディオアンプ１０８は、聴取者からの入力（たとえば、車両の乗客又は運転手による音量セレクタの調整）に基づいてオーディオ信号を増幅する。

[0031]図１に示した例の例示的な出力デバイス１１０は、スピーカーである。いくつかの例では、出力デバイス１１０は、複数のスピーカー、ヘッドホン、又はオーディオ信号を聴取者に提示することが可能な他の任意のデバイスとすることができる。いくつかの例では、出力デバイス１１０は、視覚的要素も出力可能にすることができる（たとえば、スピーカー付きテレビ）。

[0032]図１に示した例示的なシステム１００は、車両における動的な音量調整の実装を参照して説明しているが、例示的なシステム１００に含まれるデバイスの一部又は全部は、任意の環境に任意の組み合わせで実装することができる。たとえば、システム１００は家の娯楽室に存在することができ、メディアデバイス１０２、１０４は、ゲーム機、仮想現実デバイス、セットトップボックス、或いはメディアにアクセスする、及び／又はメディアを送信することが可能な他の任意のデバイスとすることができる。さらに、いくつかの例では、メディアは、視覚的要素も含むことができる（たとえば、テレビ番組、映画など）。

[0033]図２は、図１に示したメディアユニット１０６の例示的な実装のさらなる詳細を提供するブロック図２００である。例示的なメディアユニット１０６は、オーディオ信号を受信し、オーディオ信号を処理して、オーディオ信号の音量を目標音量範囲内に動的に調整することが可能である。動的な音量調整に続いて、例示的なメディアユニット１０６は、音量調整されたオーディオ信号２２８をオーディオアンプ１０８に送信して、出力デバイス１１０によって出力される前に増幅されるようにする。

[0034]例示的なメディアユニット１０６は、例示的な入力オーディオ信号２０２と、例示的な入力信号検出器２０４とを含む。この信号検出器は、例示的な圧縮器ゲイン比較器２０６と、例示的なオーディオ音量／パワー比較器２０８と、例示的なオーディオサンプル比較器２１０とを含み、これらは全て、オーディオソースの変化が起こったか否かの判定２１２を行うために使用される。例示的なメディアユニット１０６は、例示的な入力音量検出器２１４、例示的なオーディオ信号分類器２１６、例示的な分類データベース２１８、例示的な音量調整器２２０、例示的なオーディオ信号識別器２２２、例示的なダイナミックレンジ圧縮器２２４、及び例示的なリアルタイムオーディオ監視器２２６をさらに含む。システムから結果的に得られる出力は、例示的な音量調整されたオーディオ信号２２８である。

[0035]例示的な入力オーディオ信号２０２は、処理及び出力されて提示されるオーディオ信号である。入力オーディオ信号２０２は、無線信号（たとえば、ＦＭ信号、ＡＭ信号、衛星無線信号など）、コンパクトディスク、補助ケーブル（たとえば、メディアデバイスに接続されるもの）、ブルートゥース信号、Ｗｉ－Ｆｉ信号、又は他の任意のメディアからアクセスすることができる。入力オーディオ信号２０２は、入力信号検出器２０４、オーディオ信号分類器２１６、及び／又はリアルタイムオーディオ監視器２２６によってアクセスされる。入力オーディオ信号２０２は、音量調整器２２０及び／又はダイナミックレンジ圧縮器２２４によって変換される。

[0036]例示的な入力信号検出器２０４は、入力オーディオ信号２０２を検出する。いくつかの例では、入力信号検出器２０４は、入力オーディオ信号２０２が新しい入力オーディオ信号に関連するものか又は新しい入力オーディオ信号ソースに関連するものか（たとえば、ＡＭ信号がＦＭ信号に切り替わる、補助デバイス信号がＣＤに切り替わるなど）を検出する。いくつかの例では、入力信号検出器２０４は、メディアユニット１０６がオフ状態であった後に、入力オーディオ信号２０２が始まったときに（たとえば、メディアユニット１０６の電源がオンになり、入力オーディオ信号２０２が始まったときに）、入力オーディオ信号２０２を検出する。いくつかの例では、入力信号検出器２０４は、入力オーディオ信号２０２が新しい場合（たとえば、入力の変化を示す新しいタイプの入力オーディオ信号を表す場合、メディアユニットがこれまでに何のオーディオ信号も提示していなかった後に始まった信号を表す場合など）、オーディオ信号分類器２１６と通信して、分類処理を開始する。いくつかの例では、入力信号検出器２０４は、オーディオソースが変化したかを判定する。たとえば、入力信号検出器２０４は、例示的な圧縮器ゲイン比較器２０６、例示的な音量／パワー比較器２０８、及び例示的なオーディオサンプル比較器２１０を介して、オーディオ入力ソースが変化したかを判定することができ、これを例示的なソース変化判定器が使用して、オーディオソース信号が変化したかを判定する２１２。

[0037]例示的な圧縮器ゲイン比較器２０６は、ダイナミックレンジ圧縮器２２４の現在のゲインをダイナミックレンジ圧縮器２２４の以前のゲインと比較する。たとえば、圧縮器ゲイン比較器２０６は、入力オーディオ信号２０２の現在のサンプルブロックに関連付けられたダイナミックレンジ圧縮器２２４のゲインを、以前のサンプルブロック（たとえば、以前の３秒間のサンプル、以前の５秒間のサンプル、以前の１０秒間のサンプルなど）に関連付けられたダイナミックレンジ圧縮器２２４の平均（たとえば、算術平均、中央値など）ゲインと比較することができる。いくつかの例では、圧縮器ゲイン比較器２０６は、ダイナミックレンジ圧縮器２２４の以前のゲインの平均に対するダイナミックレンジ圧縮器２２４の現在のゲインの比率を出力することができる。他の例では、圧縮器ゲイン比較器２０６は、ダイナミックレンジ圧縮器２２４の現在のゲインとダイナミックレンジ圧縮器２２４の以前の動的ゲインの平均との比較に関連する他の任意の適切な値（たとえば、差など）を出力することができる。

[0038]例示的な音量／パワー比較器２０８は、入力オーディオ信号２０２の現在のパワーを入力オーディオ信号２０２の以前のパワーと比較する。たとえば、パワー比較器２０８は、入力オーディオ信号２０２の現在のパワーを、以前のサンプルブロック（たとえば、以前の３秒間のサンプル、以前の５秒間のサンプル、以前の１０秒間のサンプルなど）に関連付けられた入力オーディオ信号２０２の平均（たとえば、算術平均、中央値など）パワーと比較することができる。いくつかの例では、パワー比較器２０８は、入力オーディオ信号２０２の現在のサンプルの二乗平均平方根（ＲＭＳ）パワーを、入力オーディオ信号２０２の以前のサンプルに関連するＲＭＳパワー（複数可）と比較することができる。いくつかの例では、パワー比較器２０８は、メディアユニット１０６のピーク出力を照会して、オーディオサンプルのＲＭＳパワーを求めることができる。いくつかの例では、パワー比較器２０８は、Ｋ重み付け（Ｋ－ｗｅｉｇｈｔｉｎｇ）が適用された後、以前のＲＭＳパワー（複数可）の平均に対する現在のＲＭＳパワーの比率を出力することができる。他の例では、パワー比較器２０８は、入力オーディオ信号２０２の現在のＲＭＳパワーと入力オーディオ信号２０２の以前のＲＭＳパワー（複数可）の平均との比較に関連する他の任意の適切な値（たとえば、差など）を出力することができる。

[0039]例示的なオーディオサンプル比較器２１０は、入力オーディオ信号２０２のサンプルの現在の値を入力オーディオ信号２０２の以前の値と比較する。いくつかの例では、オーディオサンプル比較器２１０は、入力オーディオ信号２０２の現在のブロックのサンプルの最大振幅に基づいて、オーディオサンプルの値を特定する。いくつかの例では、オーディオサンプル比較器２１０は、オーディオサンプルの値を正規化された値（たとえば、１と－１の間など）として特定する。他の例では、オーディオサンプル比較器２１０は、任意の適切なスケールに基づいてオーディオサンプルの値を特定することができる。いくつかの例では、オーディオサンプル比較器２１０は、特定されたオーディオサンプル値の絶対値を求める。たとえば、オーディオサンプル比較器２１０は、入力オーディオ信号２０２の現在の最大オーディオサンプル値を、以前のサンプルブロック（たとえば、以前の３秒間のサンプル、以前の５秒間のサンプル、以前の１０秒間のサンプルなど）に関連付けられた入力オーディオ信号２０２の平均（たとえば、算術平均、中央値など）オーディオサンプル値と比較することができる。いくつかの例では、オーディオサンプル比較器２１０は、以前のオーディオサンプルブロックの平均に対する現在の最大オーディオサンプル値の比率を出力することができる。他の例では、オーディオサンプル比較器２１０は、入力オーディオ信号２０２の現在のオーディオサンプルと、入力オーディオ信号２０２の以前のオーディオサンプルブロックの平均との比較に関連する他の任意の適切な値（たとえば、差など）を出力することができる。

[0040]例示的なソース変化判定器２１２は、例示的な圧縮器ゲイン比較器２０６、例示的なパワー比較器２０８、及び／又は例示的なオーディオサンプル比較器２１０の出力（複数可）に基づいて、入力オーディオ信号２０２のオーディオソースが変化したかを判定する。たとえば、ソース変化判定器２１２は、回帰分析（たとえば、線形回帰、二項回帰、最小二乗法、ロジスティック回帰など）を使用して、ソースの変化が発生したかを判定することができる。そのような例では、ソース変化判定器２１２はさらに、ラベル付き入力データに基づいて回帰分析を行うことができる。たとえば、ラベル付き入力データは、パワー比較、圧縮器ゲイン比較、及び／又はオーディオサンプル比較に対応する値からの分類の結果として、ソース変化あり又はソース変化なしの二分決定（binary decision、バイナリディシジョン）を行うことにより、オーディオソースが変化したかの表示を含むことができる。他の例では、ソース変化判定器２１２は、オーディオソースの変化が発生したかを判定するための他の任意の適切な予測モデル（たとえば、機械学習、ニューラルネットワークなど）を使用することができる。いくつかの例では、ソース変化判定器２１２は、ソースの変化が時間枠内（たとえば、以前の３秒間など）に発生したかを示すバイナリ値を出力することができる。たとえば、ソース変化判定器２１２は、ソースの変化が発生していないことを示すために「０」を出力することができ、ソースの変化が発生したことを示すために「１」を出力することができる。他の例では、ソース変化判定器２１２は、オーディオソースの変化が発生したことを示すための他の任意の適切な表示を出力することができる。

[0041]例示的な入力音量検出器２１４は、入力オーディオ信号２０２に関連する音量レベルを特定する。いくつかの例では、入力オーディオ信号２０２が新しい入力オーディオ信号であることを入力信号検出器２０４が示す場合に、入力音量検出器２１４は、入力オーディオ信号２０２に関連する初期入力音量レベル値を特定する。いくつかの例では、入力音量検出器２１４は、入力オーディオ信号が最初に受信された場合に、ダイナミックレンジ圧縮器２２４に音量レベルを提供して、入力オーディオ信号２０２のダイナミックレンジ圧縮を可能にする。たとえば、入力音量検出器２１４は、入力オーディオ信号２０２の初期音量レベルをダイナミックレンジ圧縮器２２４に提供することができ、次いで、ダイナミックレンジ圧縮器２２４は、入力オーディオ信号２０２の音量レベルが目標音量範囲内に収まるように、ダイナミックレンジを調整することができる。図示した例の入力音量検出器２１４は、一定の間隔で（たとえば、３秒間隔、５秒間隔などで）音量レベルを特定する。いくつかの例では、入力音量検出器２１４は、その間隔の平均（たとえば、算術平均、中央値など）音量レベルを求める。いくつかの例では、入力音量検出器２１４は、その間隔の音量レベルの偏差を求める。

[0042]例示的なオーディオ信号分類器２１６は、入力オーディオ信号の分類を特定する。いくつかの例では、オーディオ信号分類器２１６は、入力オーディオ信号２０２の特性を分析して、入力オーディオ信号２０２が属する分類グループを特定する。いくつかの例では、オーディオ信号分類器２１６は、ニューラルネットワークを利用してダイナミックレンジの予測を支援し、入力オーディオ信号２０２に適用される音量削減の量を音量調整器２２０に通知する。たとえば、オーディオ信号分類器２１６が利用する、及び／又はこれに組み込むことができる分類モデルを、ニューラルネットワークを利用して、訓練及び出力することができる。メディアユニット１０６が（たとえば、オーディオ信号分類器２１６などが）使用するための訓練されたモデルを提供することが可能な例示的なオーディオ分類エンジンを示すブロック図を図３に示している。いくつかの例では、訓練データに関連するオーディオ特性は、ニューラルネットワークによって分類グループを識別するために使用され、分類グループに関連付けて記憶される。たとえば、平均ダイナミックレンジ、ダイナミックレンジの偏差、平均音量、音量の平均偏差などのオーディオ特性を分類グループに対して特定し、分類データベース２１８及び／又は他のアクセス可能な場所に（たとえば、ルックアップテーブルに）記憶することができる。

[0043]いくつかの例では、オーディオ信号分類器２１６及び／又は図３のオーディオ分類エンジン３００は、代表的な様々なオーディオ信号（たとえば、様々な楽器、様々なジャンルなどを表すもの）の音量プロファイル及び／又は他の表現にアクセスし、代表的な様々なオーディオ信号の音量プロファイル及び／又は他の表現に基づいてクラスを識別するように（たとえば、クラスタリングを使用して）オーディオ信号分類器２１６のモデルを訓練する。たとえば、音量プロファイル及び／又は他の表現は、音量及び／又はダイナミックレンジに基づいてクラスタリングすることができる。次いで、オーディオ信号分類器２１６は、入力オーディオ信号２０２を分析して、クラスに関連付けられた１つ又は複数のプロパティと比較することが可能な、入力オーディオ信号２０２の音量、ダイナミックレンジ、及び／又は他のプロパティを特定することによって、入力オーディオ信号２０２を分類することができる。

[0044]図示した例のオーディオ信号分類器２１６は、様々なタイプのオーディオ信号に関連付けられた複数の分類グループ（たとえば、９つの分類グループ、１０個の分類グループなど）から１つ又は複数の分類グループを特定する。たとえば、分類グループは、入力オーディオ信号２０２によって表される音楽のジャンル、入力オーディオ信号２０２によって表される音楽の期間、入力オーディオ信号２０２において識別される異なる楽器などに関連付けることができる。いくつかの例では、分類グループは、読み上げコンテンツ（ｓｐｏｋｅｎｃｏｎｔｅｎｔ）、ポップミュージック、ロックミュージック、ヒップホップミュージックなどに関連付けることができる。一部の例示的な分類グループには、スピーチ、１９７５年以前のドラムなしの音楽、１９７６年～１９９５年のドラムなしの音楽、１９９６年～現在のドラムなしの音楽、１９７６年～１９９５年の合成ドラムを含む音楽、１９９６年～現在の合成ドラムを含む音楽、１９７５年以前の本物のドラムを含む音楽、１９７６年～１９９５年の本物のドラムを含む音楽、及び／又は１９９６年～現在の本物のドラムを含む音楽が含まれる。したがって、分類グループは、録音及び／又は再生機能の技術的な違いが、制作される音楽／サウンドの音量及び／又はダイナミックレンジの違いに対応する、異なる時代の音楽／サウンド制作に対応することができる。分類グループは、追加的又は代替的に、オーディオコンテンツの音量及び／又はダイナミックレンジの観察された（たとえば、ヒューリスティックに導出された）特性に基づくことができる。

[0045]オーディオ信号分類器２１６は、入力オーディオ信号２０２の任意の特性を利用して、入力オーディオ信号２０２を分類することができる。たとえば、オーディオ信号分類器２１６は、入力オーディオ信号２０２のスペクトル特性、入力オーディオ信号２０２の定Ｑ変換（ＣＱＴ：ｃｏｎｓｔａｎｔＱｔｒａｎｓｆｏｒｍ）特性、又は他の任意のパラメータを使用することができる。いくつかの例では、オーディオ信号の時間サンプル、スペクトログラム（複数可）、要約、変換、及び／又は記述が、オーディオ信号分類器２１６への入力として使用される。このような特性は、入力オーディオ信号の分類グループを特定するためのニューラルネットワークモデルに入力することができる。いくつかの例では、ニューラルネットワークモデルは、分類データベース２１８からアクセスすることができる。

[0046]図示した例のオーディオ信号分類器２１６は、単一のクラス（たとえば、スピーチ、１９９６年以降のドラムを含む音楽など）を出力するか、又は複数のクラスに関連する確率分布を出力することができる。いくつかの例では、オーディオ信号分類器２１６は、オーディオ信号に対応する確率が最も高いクラスを特定し、オーディオ信号がこのクラスに属するという表示を出力する。他の例では、オーディオ信号分類器２１６は、オーディオ信号がそれぞれのクラスに属することに関連する確率（たとえば、オーディオ信号が「スピーチ」クラスに属する可能性は６０パーセント）を出力する。いくつかの例では、閾値パーセンテージを利用して、確率分布が出力される場合と比べた、単一のクラスが出力される場合を特定することができる。たとえば、オーディオ信号がスピーチクラスに属する可能性が９０パーセントであるとオーディオ信号分類器２１６が識別した場合、この可能性は閾値パーセンテージを超える場合があり、オーディオ信号分類器２１６は、オーディオ信号をスピーチクラスに属するものとして識別することが可能になる。いくつかの例では、閾値パーセンテージが満たされない場合、確率分布を出力することができ、又はオーディオ信号分類器２１６は、オーディオ信号に関連付けられたクラスを識別できないことを示すことができる。

[0047]入力オーディオ信号２０２の分類グループを特定したことに応答して、オーディオ信号分類器２１６は、分類グループに関連付けられた分類ゲイン値を選択することができ、分類ゲイン値を音量調整器２２０及び／又はダイナミックレンジ圧縮器２２４に伝達することができる。いくつかの例では、オーディオ信号分類器２１６は、分類グループに関連付けられた１つ又は複数のルックアップテーブルから分類ゲイン値にアクセスする。いくつかの例では、分類ゲイン値は、１つ又は複数の分類グループに関連付けられた１つ又は複数のテーブルからの値の組み合わせとして特定される。たとえば、オーディオ信号が各分類グループに属する確率を示す確率分布をオーディオ信号分類器２１６が出力する場合、各グループに関連付けられたテーブルを取得することができ、各分類グループの相対的な確率に基づいてゲイン値又は他の調整値（たとえば、ＥＱ値）を組み合わせて重み付けすることができる。

[0048]いくつかの例では、オーディオ信号分類器２１６は、分類グループを音量調整器２２０及び／又はダイナミックレンジ圧縮器２２４に提供し、次いでこれらは分類グループに関連付けられた調整パラメータにアクセスし、及び／又は調整パラメータを特定する。いくつかの例では、オーディオ信号分類器２１６は、（１）分類ゲイン値、及び／又は（２）オーディオの音量レベルが再分析されるべき時間に対応する期間を出力する。

[0049]例示的な分類データベース２１８は、オーディオ信号分類に関連するデータの保管場所である。いくつかの例では、分類データベース２１８は、オーディオ信号を分類するために使用されるモデル（たとえば、ニューラルネットワークモデル）を記憶する。いくつかの例では、図３に示し、さらに詳細に説明するオーディオ分類エンジンからモデルにアクセスし、及び／又はモデルを取得する。いくつかの例では、分類データベース２１８は、オーディオ信号、オーディオ指紋、及び／又はメディアユニット１０６によって利用される他の任意のデータを記憶することができる。分類データベース２１８は、ルックアップテーブル又は他の記憶手段、たとえば、分類グループに関連付けられたオーディオパラメータを記憶するためのものを記憶する。例示的な分類データベース２１８は、揮発性メモリ（たとえば、同期ダイナミックランダムアクセスメモリ（ＳＤＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、ラムバスダイナミックランダムアクセスメモリ（ＲＤＲＡＭ）など）、及び／又は不揮発性メモリ（たとえば、フラッシュメモリ）によって実装することができる。分類データベース２１８は、追加的又は代替的に、１つ又は複数のダブルデータレート（ＤＤＲ）メモリ、たとえば、ＤＤＲ、ＤＤＲ２、ＤＤＲ３、モバイルＤＤＲ（ｍＤＤＲ）などによって実装することができる。分類データベース２１８は、追加的又は代替的に、１つ又は複数の大容量記憶デバイス、たとえば、ハードディスクドライブ（複数可）、コンパクトディスクドライブ（複数可）、デジタル多用途ディスクドライブ（複数可）などによって実装することができる。図示した例では、分類データベース２１８を単一のデータベースとして示しているが、分類データベース２１８は、任意の数及び／又はタイプ（複数可）のデータベースによって実装することができる。さらに、分類データベース２１８に記憶されたデータは、任意のデータ形式、たとえば、バイナリデータ、コンマ区切りデータ、タブ区切りデータ、構造化クエリ言語（ＳＱＬ）構造などとすることができる。

[0050]図２に示した例の例示的な音量調整器２２０は、オーディオ信号の音量レベルを調整する。いくつかの例では、例示的な音量調整器２２０は、オーディオ信号の音量を既知の音量値（たとえば、入力音量検出器２１４によって特定されるもの）から所望の音量値（たとえば、目標音量範囲付近の値）に変換する単一の平均ゲイン値を特定する。図示した例の音量調整器２２０は、入力音量検出器２１４及び／又はオーディオ信号分類器２１６と通信して、目標ゲイン値を特定する。音量調整器２２０は、オーディオ信号分類器２１６によって識別された１つ又は複数の分類グループに対応する分類ゲイン値と、入力音量検出器２１４によって検出された入力音量レベルとに基づいて（たとえば、分類ゲイン値と入力音量との平均を計算することによって）、目標ゲインを計算する。いくつかの例では、音量調整器２２０は、１つ又は複数の重みを、オーディオ信号分類器２１６からアクセスされる分類ゲイン値と、入力音量検出器２１４からアクセスされる入力音量とに適用する。

[0051]いくつかの例では、音量調整器２２０は、ソースの変化が検出された場合（たとえば、ソースがＦＭ局から補助入力に変化した場合）、オーディオ信号に適用されるゲイン値をリセットする。いくつかのそのような例では、音量調整器２２０はゲイン値をゼロに設定し、入力音量検出器２１４及びオーディオ信号分類器２１６が新たに検出されたオーディオ信号に関する情報を音量調整器２２０に提供して目標ゲイン値を特定するまでに、ダイナミックレンジ圧縮器２２４は、圧縮を実行してオーディオ信号の音量を目標音量範囲内に調整する。

[0052]図示した例の音量調整器２２０は、異なる音量調整の間をスムーズに遷移する（たとえば、平滑化フィルタ、平均化フィルタなどを使用する）。いくつかの例では、音量調整器２２０が、目標ゲイン値の大きい変化が必要であると判定した場合、音量調整器２２０は、新しい目標ゲイン値にゆっくりと遷移する。逆に、音量調整器２２０は、目標ゲイン値のより小さい知覚しにくい変化の間をより迅速に遷移することができる。図示した例の音量調整器２２０は、単極平滑化フィルタを使用して、目標ゲイン値の間を遷移する。

[0053]いくつかの例では、音量調整器２２０は、入力音量検出器２１４からの更新された入力音量値、及び／又はオーディオ信号分類器２１６からの更新された分類出力が、以前の入力音量値及び／又は以前の分類出力に対する差分閾値を満たすか否かを判定する。いくつかのそのような例では、音量調整器２２０は、更新された入力音量値及び／又は更新された分類出力が、目標ゲイン値を計算するために使用される以前の値に対する差分閾値を満たす場合にのみ、新しい目標ゲイン値を特定する。

[0054]図示した例の例示的な音量調整器２２０は、目標ゲイン値をオーディオ信号に適用して、オーディオ信号を変換する。いくつかの例では、音量調整器２２０は、入力信号検出器２０４が入力オーディオ信号２０２を検出した場合に、フェードイン音量調整を使用して初期音量調整を実行する（たとえば、新しい信号が検出された場合に、音量を最小化し、その後徐々に音量を増加させる）。いくつかの例では、音量調整器２２０は、アクセスしている入力信号のタイプの以前の音量値に基づいて、初期音量値を設定することができる。たとえば、入力オーディオ信号２０２がＦＭオーディオ信号である場合、音量調整器２２０は、ＦＭオーディオ信号に利用された以前の音量レベルを特定し、現在の初期音量をこの値に設定することができる。音量調整器２２０は、入力オーディオ信号２０２の初期音量を独立して調整することができ、又はダイナミックレンジ圧縮器２２４と連携して、入力オーディオ信号２０２を最初に検出したときに調整することができる。

[0055]図２に示した例の例示的なオーディオ信号識別器２２２は、入力オーディオ信号２０２に対応するメディアを識別する。いくつかの例では、メディアユニット１０６は、オーディオ信号識別器２２２を含まなくてもよく、オーディオ信号分類器２１６による分類のみに基づいて入力オーディオ信号２０２を修正することができる。いくつかの例では、オーディオ信号識別器２２２は、オーディオ信号に埋め込まれたメディア識別子（たとえば、指紋）と、既知の又は参照オーディオ署名との比較を実行して、オーディオ信号のメディアを特定する。いくつかの例では、例示的なオーディオ信号識別器２２２は、一致する参照メディア識別子を見つけることができる。そのような例では、オーディオ信号識別器２２２は、入力オーディオ信号２０２に含まれるメディアに固有の識別情報を音量調整器２２０及び／又はダイナミックレンジ圧縮器２２４に渡して、入力オーディオ信号２０２を調整することができる。いくつかの例では、オーディオ信号識別器２２２は、外部データベース（たとえば、中心施設のもの）とやりとりして、一致する参照署名を見つけることができる。いくつかの例では、オーディオ信号識別器２２２は、内部データベース（たとえば、分類データベース２１８など）とやりとりして、一致する参照署名を見つけることができる。

[0056]図２に示した例の例示的なダイナミックレンジ圧縮器２２４は、入力オーディオ信号２０２を圧縮することが可能である。いくつかの例では、ダイナミックレンジ圧縮器２２４は、入力オーディオ信号２０２が、目標音量閾値（たとえば、所望の音量レベルに関連付けられたもの）を満たす平均音量レベルを有するように、オーディオ圧縮を実行する。いくつかの例では、ダイナミックレンジ圧縮器２２４は継続的にアクティブであり、音量調整器２２０によって行われた任意の音量調整の後に入力オーディオ信号２０２の圧縮を実行して、入力オーディオ信号２０２を目標音量閾値内（たとえば、－２１ｄｂＦＳから±０．５ｄｂＦＳ以内）に収める。いくつかの例では、ダイナミックレンジ圧縮器２２４は、入力オーディオ信号２０２が目標音量閾値内に収まるよう調整されるようにする際の最終ステップとして機能する。いくつかの例では、入力オーディオ信号２０２に対して実行されるダイナミックレンジ圧縮の量は、音量調整されたオーディオ信号２２８の出力品質に反比例する（たとえば、動的な音量圧縮が大きいほど、音量調整されたオーディオ信号２２８の品質が低下し、たとえば、損失が多くなる）。

[0057]図２に示した例の例示的なリアルタイムオーディオ監視器２２６は、リアルタイムの音量測定データを収集する。たとえば、リアルタイムオーディオ監視器２２６は、現在のオーディオ音量レベルをある期間（たとえば、７５０ミリ秒）の平均として特定することができる。いくつかの例では、リアルタイムオーディオ監視器２２６は、監視期間（たとえば、１０秒、１分など）の間、入力オーディオ信号２０２を継続的に監視する。そのような例では、リアルタイムオーディオ監視器２２６は、監視期間の間、音量レベルを分析して、音量調整器２２０又はダイナミックレンジ圧縮器２２４のいずれかによる後続の調整が必要か否かを判定することができる。いくつかの例では、リアルタイムオーディオ監視器２２６は、入力オーディオ信号２０２の持続時間の間、入力オーディオ信号２０２を継続的に監視する。いくつかの例では、リアルタイムオーディオ監視器２２６は、ある期間（たとえば、７５０ミリ秒）の平均音量レベルが目標音量範囲内（たとえば、－２１ｄｂＦＳから±０．５ｄｂＦＳ以内）に収まっているか否かを判定する。音量レベルが目標音量範囲内に収まっていないことに応答して、オーディオ信号分類器２１６は、入力オーディオ信号２０２の特性を再分析して、入力オーディオ信号２０２の再分類を試みることができる。いくつかの例では、ある期間の平均音量レベルが目標音量範囲内に収まっていないとリアルタイムオーディオ監視器２２６が判定したことに応答して、音量調整器２２０及び／又はダイナミックレンジ圧縮器２２４は、入力オーディオ信号２０２をさらに調整する。

[0058]図示した例のリアルタイムオーディオ監視器２２６は、タイマーを含み、及び／又はタイマーにアクセスして、オーディオ信号分類器２１６によって出力された以前の分類以降の期間が更新時間閾値を満たすか否かを判定する。いくつかの例では、更新時間閾値は操作者によって設定される。たとえば、リアルタイムオーディオ監視器２２６は、３秒の更新時間閾値で構成することができ、すなわち、オーディオ信号分類器２１６は、３秒間隔でオーディオ信号を再分類することになる（たとえば、３秒ごとに、過去３秒間に対して分類処理を実行する）。追加的又は代替的に、図示した例の入力音量検出器２１４は、最後の分類以降、及び／又は最後の入力音量計算以降の期間（たとえば、前の例では３秒間）のオーディオ信号の入力音量（たとえば、平均入力音量）を特定する。いくつかのそのような例では、オーディオ信号を再分類した後、及び／又は新しい入力音量を特定した後、音量調整器２２０は、新しい分類及び／又は新しい入力音量に基づいて、新しい目標ゲイン値を特定することができる。

[0059]図２のメディアユニット１０６を実装する例示的な方法を図４に示しているが、図２に示した要素、処理、及び／又はデバイスのうちの１つ又は複数を組み合わせる、分割する、再配置する、省略する、排除する、及び／又は他の任意の方法で実装することができる。さらに、図２の例示的なソース変化判定器２１２、例示的な入力音量検出器２１４、例示的なオーディオ信号分類器２１６、例示的な分類データベース２１８、例示的な音量調整器２２０、例示的なオーディオ信号識別器２２２、例示的なダイナミックレンジ圧縮器２２４、例示的なリアルタイムオーディオ監視器２２６、及び／又は、より一般的には、例示的なメディアユニット１０６によって使用される例示的な入力信号検出器２０４、例示的な圧縮器ゲイン比較器２０６、例示的な音量／パワー比較器２０８、及び例示的なオーディオサンプル比較器２１０は、ハードウェア、ソフトウェア、ファームウェア、並びに／或いはハードウェア、ソフトウェア、及び／又はファームウェアの任意の組み合わせによって実装することができる。したがって、たとえば、図２の例示的なソース変化判定器２１２、例示的な入力音量検出器２１４、例示的なオーディオ信号分類器２１６、例示的な分類データベース２１８、例示的な音量調整器２２０、例示的なオーディオ信号識別器２２２、例示的なダイナミックレンジ圧縮器２２４、例示的なリアルタイムオーディオ監視器２２６、及び／又は、より一般的には、例示的なメディアユニット１０６によって使用される例示的な入力信号検出器２０４、例示的な圧縮器ゲイン比較器２０６、例示的な音量／パワー比較器２０８、及び例示的なオーディオサンプル比較器２１０はいずれも、１つ又は複数のアナログ又はデジタル回路（複数可）、論理回路、プログラマブルプロセッサ（複数可）、プログラマブルコントローラ（複数可）、グラフィックス処理ユニット（複数可）（ＧＰＵ（複数可））、デジタルシグナルプロセッサ（複数可）（ＤＳＰ（複数可））、特定用途向け集積回路（複数可）（ＡＳＩＣ（複数可））、プログラマブルロジックデバイス（複数可）（ＰＬＤ（複数可））、並びに／或いはフィールドプログラマブルロジックデバイス（複数可）（ＦＰＬＤ（複数可））によって実装することができる。純粋にソフトウェア及び／又はファームウェアの実装を含む本特許の装置又はシステムの請求項のいずれかを読む場合、図２の例示的なソース変化判定器２１２、例示的な入力音量検出器２１４、例示的なオーディオ信号分類器２１６、例示的な分類データベース２１８、例示的な音量調整器２２０、例示的なオーディオ信号識別器２２２、例示的なダイナミックレンジ圧縮器２２４、例示的なリアルタイムオーディオ監視器２２６、及び／又は、より一般的には、例示的なメディアユニット１０６によって使用される例示的な入力信号検出器２０４、例示的な圧縮器ゲイン比較器２０６、例示的な音量／パワー比較器２０８、及び例示的なオーディオサンプル比較器２１０のうちの少なくとも１つは、ソフトウェア及び／又はファームウェアを含む、メモリ、デジタル多用途ディスク（ＤＶＤ）、コンパクトディスク（ＣＤ）、ブルーレイディスクなどの非一時的（non-transitory、ノントランジトリ）コンピュータ可読記憶デバイス又は記憶ディスクを含むように本明細書に明示的に定義する。またさらに、図１の例示的なメディアユニット１０６は、図２に示したものに加えて、又はその代わりに、１つ又は複数の要素、処理、及び／又はデバイスを含むことができ、並びに／或いは、図示した要素、処理、及びデバイスのうちのいずれか又は全てを２つ以上含むことができる。本明細書で使用する場合、「通信する」という句は、その変形を含めて、直接通信並びに／或いは１つ又は複数の中間コンポーネントを介した間接通信を含み、直接の物理的な（たとえば、有線の）通信及び／又は常時通信を必要とせず、むしろさらに、定期的な間隔、スケジュールされた間隔、非定期的な間隔、及び／又は１回限りのイベントでの選択的な通信を含む。

[0060]図３は、図１及び図２のメディアユニット１０６が使用するための訓練されたモデルを提供することが可能なオーディオ分類エンジン３００を示すブロック図である。深層学習ネットワークであれ、他の経験／観察に基づく学習システムであれ、機械学習技術を使用して、たとえば、結果を最適化すること、画像内のオブジェクトを見つけること、音声を理解して音声をテキストに変換すること、検索エンジンの結果の関連性を向上させることなどができる。多くの機械学習システムは、初期の特徴及び／又はネットワークの重みが種として与えられ、機械学習ネットワークの学習及び更新を通じて修正されるが、深層学習ネットワークは、分析に「有効な」特徴を識別するように自身を訓練する。多層アーキテクチャを使用すると、深層学習技術を採用した機械は、従来の機械学習技術を使用した機械よりも適切に生データを処理することができる。様々なレイヤの評価又は抽象化を使用することで、相関性の高い値又は特徴的なテーマのグループのデータを調べることが容易になる。

[0061]ニューラルネットワークであれ、深層学習ネットワークであれ、及び／又は他の経験／観察に基づく学習システム（複数可）であれ、機械学習技術を使用して、たとえば、最適な結果を生成すること、画像内のオブジェクトを見つけること、音声を理解して音声をテキストに変換すること、検索エンジンの結果の関連性を向上させることなどができる。深層学習は、線形変換及び非線形変換を含む複数の処理レイヤを有するディープグラフを使用してデータの高レベルの抽象化をモデル化するための一連のアルゴリズムを使用する機械学習のサブセットである。多くの機械学習システムは、初期の特徴及び／又はネットワークの重みが種として与えられ、機械学習ネットワークの学習及び更新を通じて修正されるが、深層学習ネットワークは、分析に「有効な」特徴を識別するように自身を訓練する。多層アーキテクチャを使用すると、深層学習技術を採用した機械は、従来の機械学習技術を使用した機械よりも適切に生データを処理することができる。様々なレイヤの評価又は抽象化を使用することで、相関性の高い値又は特徴的なテーマのグループのデータを調べることが容易になる。

[0062]たとえば、畳み込みニューラルネットワーク（ＣＮＮ）を利用する深層学習は、畳み込みフィルタを使用してデータをセグメント化することによって、データ内の学習済みの観察可能な特徴を見つけて識別する。ＣＮＮアーキテクチャの各フィルタ又はレイヤは、データの選択性及び不変性を高めるように入力データを変換する。データのこの抽象化により、機械は、分類しようとしているデータの特徴に焦点を合わせ、無関係な背景情報を無視することが可能になる。

[0063]深層学習は、多くのデータセットには、低レベルの特徴を包含する高レベルの特徴が含まれているという条件で機能する。たとえば、画像を調べる場合、オブジェクトを探すのではなく、探しているオブジェクトを形成するパーツを形成するモチーフを形成するエッジを探す方が効率的である。これらの特徴の階層は、多くの異なる形式のデータで見出すことができる。

[0064]学習された観察可能な特徴には、教師あり学習の間に機械によって学習されたオブジェクト及び定量化可能な規則性が含まれる。十分に分類されたデータの大規模なセットが提供された機械は、新しいデータの分類の成功に関連して、特徴を区別して抽出する態勢がより整っている。

[0065]転移学習を利用する深層学習機械は、データの特徴を人間の専門家によって確認された特定の分類に適切に結び付けることができる。逆に、同じ機械は、人間の専門家から誤った分類を知らされた場合、分類のパラメータを更新し得る。設定及び／又は他の構成情報は、たとえば、設定及び／又は他の構成情報の学習された使用によってガイドすることができ、システムがより多く（たとえば、繰り返し、及び／又は複数のユーザによって）使用されるにつれて、所与の状況に対して、設定及び／又は他の構成情報のばらつき及び／又は他の可能性の数を低減することができる。

[0066]例示的な深層学習ニューラルネットワークを、たとえば、専門家が分類したデータのセットで訓練することができる。このデータのセットはニューラルネットワークの最初のパラメータを構築し、これが教師あり学習の段階になる。教師あり学習の段階中に、ニューラルネットワークを、所望の動作が達成されたか否かについてテストすることができる。

[0067]所望のニューラルネットワークの動作が達成されると（たとえば、機械が指定された閾値に従って動作するように訓練された、など）、機械を配備して使用することができる（たとえば、「実際の」データで機械をテストするなどする）。動作中に、ニューラルネットワークの分類を（たとえば、専門家のユーザ、エキスパートシステム、参照データベースなどによって）確認又は拒否して、ニューラルネットワークの動作を改善し続けることができる。そして、例示的なニューラルネットワークはニューラルネットワークの動作を特定する分類のパラメータが、進行中の相互作用に基づいて更新されるので、転移学習の状態になる。特定の例では、ニューラルネットワーク３０２などのニューラルネットワークは、オーディオ分類スコアリングエンジン３０４などの他の処理に直接的なフィードバックを提供することができる。特定の例では、ニューラルネットワーク３０２はデータを出力し、データは（たとえば、クラウドなどを介して）バッファリングされ、他の処理に提供される前に検証される。

[0068]図３の例では、ニューラルネットワーク３０２は、分類訓練データに関連する以前の結果データから入力を受け取り、オーディオ信号に関連付けられる分類グループを予測するためのアルゴリズムを出力する。ネットワーク３０２は、何らかの初期相関を種として与えることができ、次いで、進行中の経験から学習することができる。いくつかの例では、ニューラルネットワーク３０２は、少なくとも１つの分類訓練データからフィードバックを継続的に受ける。図３の例では、オーディオ分類エンジン３００の動作寿命を通じて、ニューラルネットワーク３０２はフィードバックを介して継続的に訓練され、例示的なオーディオ分類スコアリングエンジン３０４は、ニューラルネットワーク３０２に基づいて、及び／又は所望に応じて追加の分類訓練データに基づいて更新することができる。ネットワーク３０２は、役割、場所、状況などに基づいて学習及び進化することができる。

[0069]いくつかの例では、ニューラルネットワーク３０２によって生成されたモデルの正確度は、例示的なオーディオ分類スコアリングエンジン検証器３０６によって特定することができる。そのような例では、オーディオ分類スコアリングエンジン３０４及びオーディオ分類スコアリングエンジン検証器３０６のうちの少なくとも一方は、分類訓練データのセットを受け取る。さらに、そのような例では、オーディオ分類スコアリングエンジン３０４は、分類検証データに関連する入力を受け取り、分類検証データに関連する１つ又は複数のオーディオ分類を予測する。予測された結果は、オーディオ分類スコアリングエンジン検証器３０６に配られる。オーディオ分類スコアリングエンジン検証器３０６は、分類検証データに関連付けられた既知のオーディオ分類を追加で受け取り、既知のオーディオ分類を、オーディオ分類スコアリングエンジン３０４から受け取った予測された分類と比較する。いくつかの例では、この比較により、ニューラルネットワーク３０２によって生成されたモデルの正確度が得られる（たとえば、９５回の比較が一致となり、５回が誤りとなった場合、モデルは９５％正確である、など）。ニューラルネットワーク３０２が所望の正確度に達すると（たとえば、ネットワーク３０２が訓練され、配備の準備ができると）、オーディオ分類スコアリングエンジン検証器３０６は、モデルを図２のオーディオ信号分類器２１６に出力して、分類訓練データ及び／又は分類検証データ以外のオーディオを分類する際に使用できるようにすることができる。

[0070]図２のメディアユニット１０６を実装するための例示的なハードウェア論理、機械可読命令、ハードウェア実装の状態機械、及び／又はそれらの任意の組み合わせを表すフローチャートを、図４及び図５に示す。機械可読命令は、図６に関連して以下で説明する例示的なプロセッサプラットフォーム６００に示すプロセッサ６１２などのコンピュータプロセッサによって実行される実行可能プログラム又は実行可能プログラムの一部とすることができる。プログラムは、ＣＤ－ＲＯＭ、フロッピーディスク、ハードドライブ、ＤＶＤ、ブルーレイディスク、又はプロセッサ６１２に関連付けられたメモリなどの非一時的コンピュータ可読記憶媒体に記憶されたソフトウェアで具現化することができるが、プログラム全体及び／又はその一部は、代替的に、プロセッサ６１２以外のデバイスによって実行し、及び／又はファームウェア若しくは専用ハードウェアで具現化することができる。さらに、図４及び図５に示したフローチャートを参照して例示的なプログラムを説明しているが、例示的なメディアユニット１０６を実装する他の多くの方法を代替的に使用することができる。たとえば、ブロックの実行順序を変更することができ、及び／又は記載したブロックの一部を変更する、排除する、又は組み合わせることができる。追加的又は代替的に、ブロックのいずれか又は全ては、ソフトウェア又はファームウェアを実行せずに対応する動作を実行するように構成される１つ又は複数のハードウェア回路（たとえば、ディスクリート及び／又は集積アナログ及び／又はデジタル回路、ＦＰＧＡ、ＡＳＩＣ、比較器、演算増幅器（オペアンプ）、論理回路など）によって実装することができる。

[0071]上記のように、図４及び図５の例示的な処理は、非一時的コンピュータ及び／又は機械可読媒体、たとえば、ハードディスクドライブ、フラッシュメモリ、読み取り専用メモリ、コンパクトディスク、デジタル多用途ディスク、キャッシュ、ランダムアクセスメモリ、並びに／或いは情報が任意の期間記憶される（たとえば、長期間、永続的に、短い瞬間の間、一時的にバッファリングするため、及び／又は情報をキャッシュするため）他の任意の記憶デバイス又は記憶ディスクなどに記憶された実行可能命令（たとえば、コンピュータ及び／又は機械可読命令）を使用して実装することができる。本明細書で使用する場合、非一時的コンピュータ可読媒体という用語は、任意のタイプのコンピュータ可読記憶デバイス及び／又は記憶ディスクを含み、伝搬信号を除外し、伝送媒体を除外するように明示的に定義する。

[0072]「含む（Ｉｎｃｌｕｄｉｎｇ）」及び「備える（ｃｏｍｐｒｉｓｉｎｇ）」（並びにそれらの全ての形及び時制）は、本明細書ではオープンエンドの用語として使用する。したがって、ある請求項が、任意の形の「含む（ｉｎｃｌｕｄｅ）」又は「備える（ｃｏｍｐｒｉｓｅ）」（たとえば、備える（ｃｏｍｐｒｉｓｅｓ）、含む（ｉｎｃｌｕｄｅｓ）、備える（ｃｏｍｐｒｉｓｉｎｇ）、含む（ｉｎｃｌｕｄｉｎｇ）、有する（ｈａｖｉｎｇ）、など）を前文として、又は任意の種類の請求項の記述内で使用している場合は常に、対応する請求項又は記述の範囲から外れることなく追加の要素、用語などが存在できることを理解されたい。本明細書で使用する場合、「少なくとも」という句を、請求項の前文などにおける移行語として使用している場合、「備える（ｃｏｍｐｒｉｓｉｎｇ）」及び「含む（ｉｎｃｌｕｄｉｎｇ）」という用語がオープンエンドであるのと同様に、その句はオープンエンドである。「及び／又は」という用語は、たとえば、Ａ、Ｂ、及び／又はＣなどの形で使用される場合、Ａ、Ｂ、Ｃの任意の組み合わせ又はサブセット、たとえば、（１）Ａのみ、（２）Ｂのみ、（３）Ｃのみ、（４）ＡとＢ、（５）ＡとＣ、（６）ＢとＣ、及び（７）ＡとＢとＣを指す。本明細書において、構造、コンポーネント、アイテム、オブジェクト、及び／又は物を説明する文脈で使用する場合、「Ａ及びＢの少なくとも１つ」という句は、（１）少なくとも１つのＡ、（２）少なくとも１つのＢ、並びに（３）少なくとも１つのＡ及び少なくとも１つのＢ、のうちのいずれかを含む実装を指すものとする。同様に、本明細書において、構造、コンポーネント、アイテム、オブジェクト、及び／又は物を説明する文脈で使用する場合、「Ａ又はＢの少なくとも１つ」という句は、（１）少なくとも１つのＡ、（２）少なくとも１つのＢ、並びに（３）少なくとも１つのＡ及び少なくとも１つのＢ、のうちのいずれかを含む実装を指すものとする。本明細書において、処理、命令、アクション、アクティビティ、及び／又はステップの実施又は実行を説明する文脈で使用する場合、「Ａ及びＢの少なくとも１つ」という句は、（１）少なくとも１つのＡ、（２）少なくとも１つのＢ、並びに（３）少なくとも１つのＡ及び少なくとも１つのＢ、のうちのいずれかを含む実装を指すものとする。同様に、本明細書において、処理、命令、アクション、アクティビティ、及び／又はステップの実施又は実行を説明する文脈で使用する場合、「Ａ又はＢの少なくとも１つ」という句は、（１）少なくとも１つのＡ、（２）少なくとも１つのＢ、並びに（３）少なくとも１つのＡ及び少なくとも１つのＢ、のうちのいずれかを含む実装を指すものとする。

[0073]図１及び図２のメディアユニット１０６を実装するための、オーディオ分類を介した動的な音量調整を実施するために実行可能な例示的な機械可読命令を図４及び図５に示す。前述の図及び関連する説明を参照して、例示的な機械可読命令４００は、ブロック４０２から始まる。ブロック４０２において、例示的なメディアユニット１０６は、オーディオ信号入力の変化を検出する。いくつかの例では、入力信号検出器２０４が、オーディオ信号入力の変化を検出する。たとえば、オーディオ信号が開始した場合があり（たとえば、メディアユニット１０６がこれまでにアクセスしていたオーディオ信号はなく、新しいものが開始した）、又はオーディオ信号が変更された場合がある（たとえば、ＦＭ無線信号がＡＭ無線信号に変更された）。ブロック４０２の実行については、図５に関連して以下でより詳細に説明する。

[0074]ブロック４０４において、例示的なメディアユニット１０６は、目標音量範囲を満たすように入力オーディオ信号２０２を圧縮する。いくつかの例では、ダイナミックレンジ圧縮器２２４が、目標音量範囲を満たすように入力オーディオ信号２０２を圧縮する。

[0075]ブロック４０６において、例示的なメディアユニット１０６は、入力オーディオ信号２０２の分類グループを特定する。いくつかの例では、オーディオ信号分類器２１６が、入力オーディオ信号の分類グループを特定する。いくつかの例では、オーディオ信号分類器２１６は、入力オーディオ信号の１つ又は複数の特性（たとえば、ＣＱＴ値）と、訓練された機械学習モデルとの比較に基づいて分類グループを特定する。オーディオ信号分類器２１６は、追加的又は代替的に、１つ又は複数の分類グループに関連する確率分布を求めることができる。

[0076]ブロック４０８において、例示的なメディアユニット１０６は、入力オーディオ信号２０２の入力音量を特定する。いくつかの例では、入力音量検出器２１４が、入力オーディオ信号２０２の入力音量を特定する。いくつかの例では、入力音量検出器２１４は、ある期間（たとえば、３秒、５秒など）にわたる入力オーディオ信号２０２の平均入力音量を求める。いくつかの例では、入力音量検出器２１４は、ある期間にわたる入力オーディオ信号２０２の音量の偏差を求める。いくつかの例では、入力音量検出器２１４は、１つ又は複数の瞬間音量値を測定する。

[0077]ブロック４１０において、例示的なメディアユニット１０６は、入力オーディオ信号２０２の分類グループに関連付けられたルックアップテーブルを利用して、分類ゲイン値を特定する。いくつかの例では、オーディオ信号分類器２１６は、オーディオ信号分類器２１６によって入力オーディオ信号２０２に関連付けられるように特定された１つ又は複数の分類グループに関連付けられたルックアップテーブルを利用して、分類ゲイン値を特定する。いくつかの例では、分類ゲイン値は、分類グループを表す単一の値である（たとえば、分類グループの訓練データで観察された平均ダイナミックレンジに基づくもの、分類グループの訓練データで観察された平均音量に基づくものなど）。いくつかの例では、分類ゲイン値は、オーディオ信号分類器２１６によって出力された確率分布に基づいて求められる（たとえば、入力オーディオ信号２０２が分類グループのうちの１つ又は複数に属する確率に基づいて、１つ又は複数のゲイン値が計算される）。

[0078]ブロック４１２において、例示的なメディアユニット１０６は、入力音量及び分類ゲイン値に重み付けして、目標ゲイン値を特定する。いくつかの例では、音量調整器２２０は、第１の重みを入力音量に適用し、第２の重みを分類ゲイン値に適用し、続いて、重み付けされた入力音量と、重み付けされた分類ゲイン値とに基づいて目標ゲイン値を特定する。いくつかの例では、入力音量は、分類ゲイン値の予測とは対照的に、オーディオ信号の実際の状態を示すので、音量調整器２２０は、分類ゲイン値より大きい重みを入力に適用する。いくつかの例では、音量調整器２２０は、目標ゲイン値を入力音量測定値と目標音量範囲との間の値として特定する。いくつかの例では、音量調整器２２０は、入力音量と、分類ゲイン値を適用して得られる音量レベルとの平均を計算し、目標分類ゲイン値は、入力オーディオ信号２０２の音量をこの平均音量レベルにするために必要なゲインとして特定される。

[0079]ブロック４１４において、例示的なメディアユニット１０６は、平滑化フィルタを使用して、目標ゲイン値をオーディオ信号に適用する。いくつかの例では、音量調整器２２０が、平滑化フィルタを使用して、目標ゲイン値を入力オーディオ信号２０２に適用する。音量調整器２２０は、異なるタイプのフィルタ（たとえば、メディアンフィルタ、カルマンフィルタなど）を利用して、第１のゲイン値及び更新されたゲイン値（たとえば、分類及び／又は入力音量が更新された場合のもの）の間、又はゲイン値なし及びゲイン値あり（たとえば、新しいオーディオ信号が検出された場合）の間の遷移を平滑化することができる。

[0080]ブロック４１６において、例示的なメディアユニット１０６は、目標音量範囲を満たすように圧縮値を調整する。いくつかの例では、ダイナミックレンジ圧縮器２２４が、目標音量範囲を満たすように圧縮値を調整する。たとえば、音量調整器２２０が、入力オーディオ信号２０２に適用されるゲイン値を増加させた場合、ダイナミックレンジ圧縮器２２４は、入力オーディオ信号２０２を目標音量範囲内に収めるために必要なダイナミックレンジ圧縮が少なくて済むので、圧縮値を減少させることができる。逆に、音量調整器２２０が、入力オーディオ信号２０２に適用されるゲイン値を減少させた場合、ダイナミックレンジ圧縮器２２４は、入力オーディオ信号２０２を目標音量範囲内に収めるためにより多くのダイナミックレンジ圧縮が必要とされるので、圧縮値を増加させることができる。

[0081]ブロック４１８において、例示的なメディアユニット１０６は、最後の分類以降の時間が更新時間閾値を満足又は超過しているか否かを判定する。いくつかの例では、リアルタイムオーディオ監視器２２６が、最後の分類が実行されてからの時間が更新時間閾値を満足又は超過しているか否かを判定する。いくつかの例では、リアルタイムオーディオ監視器２２６は、最後の入力音量計算が行われてからの時間、及び／又は音量調整器２２０によって最後の音量調整が実行されてからの時間が更新時間閾値を満足又は超過しているか否かを判定する。最後の分類以降の時間が更新時間閾値を満足又は超過していることに応答して、処理はブロック４２４に移る。逆に、最後の分類以降の時間が更新時間閾値を満足も超過もしていないことに応答して、処理はブロック４２０に移る。

[0082]ブロック４２０において、例示的なメディアユニット１０６は、オーディオ入力ソースの変化が発生したかを判定する。いくつかの例では、入力信号検出器２０４が、オーディオ入力ソースの変化が発生したかを判定する（たとえば、入力ソースがＦＭラジオから補助入力に変化した、入力ソースがＣＤからＡＭラジオに変化した、など）。オーディオ入力ソースの変化が発生したことに応答して、処理はブロック４２２に移る。逆に、オーディオ入力ソースの変化が発生していないことに応答して、処理はブロック４１８に移る。ブロック４２０の実行については、図５に関連して以下でより詳細に説明する。

[0083]ブロック４２２において、例示的なメディアユニット１０６は、ゲイン値をリセットする。いくつかの例では、音量調整器２２０が、ゲイン値をリセットする。たとえば、音量調整器２２０は、（異なる入力ソースからの以前のオーディオ信号に対して特定された）以前の目標ゲイン値が、新しいオーディオ信号に対してもはや有効ではない場合があるので、ゲイン値をゼロに設定することができる。したがって、（たとえば、分類及び入力音量の特定に続いて）新しい目標ゲイン値が特定されるまでに、ゲイン値は１にリセットされ、ダイナミックレンジ圧縮器２２４は、目標音量範囲を満たすように入力オーディオ信号２０２を圧縮する。

[0084]ブロック４２４において、例示的なメディアユニット１０６は、最後の分類以降の期間にわたる入力音量を特定する。いくつかの例では、入力音量検出器２１４が、最後の分類以降の期間にわたる入力音量を特定する。たとえば、リアルタイムオーディオ監視器２２６が３秒の更新間隔で構成されている場合、（たとえば、ブロック４１８において）更新間隔の全期間が経過すると、入力音量検出器２１４は、更新間隔の入力音量を特定する。いくつかの例では、更新間隔の間の平均入力音量が求められる。

[0085]ブロック４２６において、例示的なメディアユニット１０６は、最後の分類以降の期間にわたるオーディオ信号に基づいて、更新された分類グループを特定する。いくつかの例では、オーディオ信号分類器２１６が、最後の分類以降の期間にわたるオーディオ信号に基づいて、更新された分類グループを特定する。たとえば、リアルタイムオーディオ監視器２２６が３秒の更新間隔で構成されている場合、最後の分類から３秒が経過すると、オーディオ信号分類器２１６は、オーディオ信号の１つ又は複数の特性を分析して、更新された分類グループを特定する。いくつかの例では、更新された分類グループは、以前に特定された分類グループと同じである。

[0086]ブロック４２８において、例示的なメディアユニット１０６は、動的音量が有効であるか否かを判定する。たとえば、メディアユニット１０６の操作者は、（たとえば、スイッチを介して、メディアユニット１０６の設定を介してなど）動的音量を有効又は無効にすることができる。動的音量が有効になっていることに応答して、処理はブロック４１０に移る。逆に、動的音量が有効になっていないことに応答して、処理は終了する。

[0087]図５は、図４のブロック４０２及び／又はブロック４２０を実行するための例示的な処理５００を示すフローチャートである。例示的な処理５００は、ブロック５０２から始まる。ブロック５０２において、圧縮器ゲイン比較器２０６は、現在の圧縮器ゲインを最近の過去の圧縮器ゲインと比較する。たとえば、圧縮器ゲイン比較器２０６は、入力オーディオ信号２０２の現在のサンプルに関連付けられたダイナミックレンジ圧縮器２２４のゲインを、以前のサンプルブロック（たとえば、以前の３秒間のサンプル、以前の５秒間のサンプル、以前の１０秒間のサンプルなど）に関連付けられたダイナミックレンジ圧縮器２２４の平均（たとえば、算術平均、中央値など）ゲインと比較することができる。いくつかの例では、圧縮器ゲイン比較器２０６は、以前のサンプルブロック（たとえば、以前の３秒間のサンプル、以前の５秒間のサンプル、以前の１０秒間のサンプルなど）に関連付けられたダイナミックレンジ圧縮器２２４の平均（たとえば、算術平均、中央値など）ゲインに対する、入力オーディオ信号２０２の現在のサンプルブロックに関連付けられたダイナミックレンジ圧縮器２２４の現在のゲインの比率を出力することができる。

[0088]ブロック５０４において、パワー比較器２０８は、入力オーディオ信号２０２の現在の音量／パワーを、オーディオ信号の最近の過去の音量／パワー（複数可）と比較する。たとえば、パワー比較器２０８は、入力オーディオ信号２０２の現在のＲＭＳパワーを、以前のサンプルブロック（たとえば、以前の３秒間のサンプル、以前の５秒間のサンプル、以前の１０秒間のサンプルなど）に関連付けられた入力オーディオ信号２０２の平均（たとえば、算術平均、中央値など）パワーと比較することができる。いくつかの例では、パワー比較器２０８は、ピークメータ出力を照会して、ＲＭＳパワーを特定することができる。いくつかの例では、パワー比較器２０８は、以前のＲＭＳパワー（複数可）の平均に対する現在のＲＭＳパワーの比率を出力することができる。

[0089]ブロック５０６において、オーディオサンプル比較器２１０は、現在のオーディオサンプルブロックの最大値を最近のオーディオサンプル値（複数可）と比較する。たとえば、オーディオサンプル比較器２１０は、入力オーディオ信号２０２の現在のオーディオサンプル値を、以前のサンプルブロック（たとえば、以前の３秒間のサンプル、以前の５秒間のサンプル、以前の１０秒間のサンプルなど）に関連付けられた入力オーディオ信号２０２の平均（たとえば、算術平均、中央値など）オーディオサンプル値と比較することができる。いくつかの例では、オーディオサンプル比較器２１０は、以前のサンプルブロックの平均に対する現在のオーディオサンプル値の比率を出力することができる。

[0090]ブロック５０８において、ソース変化判定器２１２は、オーディオサンプル比較、圧縮器ゲイン比較、及びパワー比較を分析して、ソースの変化が発生したかを判定する。たとえば、ソース変化判定器２１２は、回帰分析（たとえば、線形回帰、二項回帰、最小二乗法、ロジスティック回帰など）を使用して、ソースの変化が発生したかを判定することができる。他の例では、ソース変化判定器２１２は、ソースの変化が発生したかを判定するために他の任意の適切な手段（たとえば、ニューラルネットワークなど）を使用することができる。

[0091]ブロック５１０において、ソース変化判定器２１２は、ソースの変化が発生したことをＲＭＳ比較、圧縮器ゲイン比較、及び／又はオーディオサンプル比較が示しているか否かを判定する。ソースの変化が発生したことをＲＭＳ比較、圧縮器ゲイン比較、及び／又はオーディオサンプル比較が示していると、ソース変化判定器２１２がロジスティック回帰又は他の分類方法を介して判定した場合、処理５００はブロック５１２に進む。ソースの変化が発生していないことをＲＭＳ比較、圧縮器ゲイン比較、及び／又はオーディオサンプル比較が示しているとソース変化判定器２１２が判定した場合、処理５００はブロック５１４に進む。

[0092]ブロック５１２において、ソース変化判定器２１２は、ソースの変化が発生したことを示す。たとえば、ソース変化判定器２１２は、入力信号検出器２０４に、ソースの変化が発生したことをメディアユニット１０６に示させることができる。

[0093]ブロック５１４において、ソース変化判定器２１２は、ソースの変化が発生していないことを示す。たとえば、ソース変化判定器２１２は、入力信号検出器２０４に、ソースの変化が発生していないことをメディアユニット１０６に示させることができる。その後、処理５００は終了する。

[0094]図６は、図４の命令を実行して図１及び図２のメディアユニット１０６を実装するように構成される例示的なプロセッサプラットフォーム６００のブロック図である。プロセッサプラットフォーム６００は、たとえば、サーバ、パーソナルコンピュータ、ワークステーション、自己学習機械（たとえば、ニューラルネットワーク）、モバイルデバイス（たとえば、携帯電話、スマートフォン、アイパッド（ｉＰａｄ）（登録商標）などのタブレット）、携帯情報端末（ＰＤＡ）、インターネット家電、ＤＶＤプレーヤー、ＣＤプレーヤー、デジタルビデオレコーダー、ブルーレイプレーヤー、ゲーム機、パーソナルビデオレコーダー、セットトップボックス、ヘッドセット若しくは他のウェアラブルデバイス、又は他の任意のタイプのコンピューティングデバイスとすることができる。

[0095]図示した例のプロセッサプラットフォーム６００は、プロセッサ６１２を含む。図示した例のプロセッサ６１２はハードウェアである。たとえば、プロセッサ６１２は、任意の所望のファミリ又はメーカー製の１つ又は複数の集積回路、論理回路、マイクロプロセッサ、ＧＰＵ、ＤＳＰ、又はコントローラによって実装することができる。ハードウェアプロセッサは、半導体ベース（たとえば、シリコンベース）のデバイスとすることができる。この例では、プロセッサは、図２の例示的なソース変化判定器２１２例示的な入力音量検出器２１４、例示的なオーディオ信号分類器２１６、例示的な分類データベース２１８、例示的な音量調整器２２０、例示的なオーディオ信号識別器２２２、例示的なダイナミックレンジ圧縮器２２４、例示的なリアルタイムオーディオ監視器２２６、及び／又は、より一般的には、例示的なメディアユニット１０６によって使用される、例示的な入力信号検出器２０４、例示的な圧縮器ゲイン比較器２０６、例示的な音量／パワー比較器２０８、及び例示的なオーディオサンプル比較器２１０を実装する。

[0096]図示した例のプロセッサ６１２は、ローカルメモリ６１３（たとえば、キャッシュ）を含む。図示した例のプロセッサ６１２は、バス６１８を介して揮発性メモリ６１４及び不揮発性メモリ６１６を含むメインメモリと通信する。揮発性メモリ６１４は、同期ダイナミックランダムアクセスメモリ（ＳＤＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、ラムバス（ＲＡＭＢＵＳ）（登録商標）ダイナミックランダムアクセスメモリ（ＲＤＲＡＭ（登録商標））、及び／又は他の任意のタイプのランダムアクセスメモリデバイスによって実装することができる。不揮発性メモリ６１６は、フラッシュメモリ及び／又は他の任意の所望のタイプのメモリデバイスによって実装することができる。メインメモリ６１４、６１６へのアクセスは、メモリコントローラによって制御される。

[0097]図示した例のプロセッサプラットフォーム６００はまた、インターフェース回路６２０を含む。インターフェース回路６２０は、任意のタイプのインターフェース規格、たとえば、イーサネット（登録商標）インターフェース、ユニバーサルシリアルバス（ＵＳＢ）、ブルートゥース（Ｂｌｕｅｔｏｏｔｈ）（登録商標）インターフェース、近距離通信（ＮＦＣ）インターフェース、及び／又はＰＣＩエクスプレスインターフェースなどによって実装することができる。

[0098]図示した例では、１つ又は複数の入力デバイス６２２がインターフェース回路６２０に接続される。入力デバイス（複数可）６２２により、ユーザはデータ及び／又はコマンドをプロセッサ６１２に入力することが可能になる。入力デバイス（複数可）は、たとえば、オーディオセンサ、マイクロフォン、カメラ（静止画又はビデオ）、キーボード、ボタン、マウス、タッチスクリーン、トラックパッド、トラックボール、アイソポイント、及び／又は音声認識システムによって実装することができる。

[0099]また、１つ又は複数の出力デバイス６２４が図示した例のインターフェース回路６２０に接続される。出力デバイス６２４は、たとえば、ディスプレイデバイス（たとえば、発光ダイオード（ＬＥＤ）、有機発光ダイオード（ＯＬＥＤ）、液晶ディスプレイ（ＬＤＣ）、ブラウン管ディスプレイ（ＣＲＴ）、インプレーススイッチング（ＩＰＳ）ディスプレイ、タッチスクリーンなど）、触覚出力デバイス、プリンター及び／又はスピーカーによって実装することができる。したがって、図示した例のインターフェース回路６２０は、典型的には、グラフィックスドライバカード、グラフィックスドライバチップ、及び／又はグラフィックスドライバプロセッサを含む。

[00100]図示した例のインターフェース回路６２０はまた、送信機、受信機、送受信機、モデム、住居用ゲートウェイ、無線アクセスポイント、及び／又はネットワーク６２６を介した外部のマシン（たとえば、任意の種類のコンピューティングデバイス）とのデータ交換を容易にするためのネットワークインターフェースなどの通信デバイスを含む。通信は、たとえば、イーサネット接続、デジタル加入者線（ＤＳＬ）接続、電話回線接続、同軸ケーブルシステム、衛星システム、見通し線無線システム、携帯電話システムなどを介することができる。

[00101]図示した例のプロセッサプラットフォーム６００はまた、ソフトウェア及び／又はデータを記憶するための１つ又は複数の大容量記憶デバイス６２８を含む。そのような大容量記憶デバイス６２８の例には、フロッピーディスクドライブ、ハードドライブディスク、コンパクトディスクドライブ、ブルーレイディスクドライブ、独立ディスク冗長アレイ（ＲＡＩＤ）システム、及びデジタル多用途ディスク（ＤＶＤ）ドライブが含まれる。

[00102]図４の機械実行可能命令６３２は、大容量記憶デバイス６２８、揮発性メモリ６１４、不揮発性メモリ６１６、及び／又はＣＤ又はＤＶＤなどの取り外し可能な非一時的コンピュータ可読記憶媒体に記憶することができる。

[00103]上記から、異なる特性を有するメディアをほぼ同じ音量で再生できるようにメディアの音量を調整しつつ、この音量を実現するために必要とされる圧縮量を最小限に抑える例示的な方法、装置、及び製造品を開示していることが理解されよう。従来の音量均等化の実装は圧縮のみに依存しており、その結果、オーディオ信号にはっきりと分かる変化が生じるが、本明細書に開示した例は、オーディオ信号をインテリジェントに分類し、たとえば、ゲイン値で大幅に改変可能な比較的狭いダイナミックレンジを有するオーディオ信号と、より多くの圧縮を必要とする場合があるより広いダイナミックレンジを有するオーディオ信号とを区別する、オーディオ信号に関連付けられた分類に基づいて平均ゲイン値を特定することを可能にする。本明細書に開示した例示的な技術は、入力音量測定値と、オーディオ信号の分類に関連するパラメータとの組み合わせを利用して、リアルタイムに入力オーディオ信号の音量をインテリジェントに調整する。本明細書に開示した例では、（たとえば、オーディオ信号の分類の変化、観測された入力音量の変化などのために）初期分析後に音量調整を補正する必要がある場合に、音量レベルを継続的に調整する技術を説明している。本明細書に開示した例示的な技術は、オーディオ信号入力の変化の後に、オーディオ信号の音量レベルを最初に調整する技術をさらに含む。そのような技術は、ユーザにはほぼ知覚不可能であり、異なる又は同様のソースからの異なるメディアを実質的に同じ音量で再生して、シームレスなメディア提示体験を可能にするので、従来の実装よりも有利である。

[00104]いくつかの例では、本発明の動的音量のように、例示的なオーディオダイナミックレンジ圧縮器を常にアクティブにして、信号を特定の範囲（たとえば、－２１ｄｂＦＳ）に下げることができる。他の例では、オーディオダイナミックレンジ圧縮器を一定時間アクティブにすることができる。

[00105]いくつかの例では、本発明の動的音量のように、例示的なリアルタイム音量検出器を入力に適用して、１つ又は複数の間隔（たとえば、７５０ミリ秒間隔）にわたる現在の平均レベルを測定することができる。そのような例では、現在の平均レベルを初期及び進行中の推測として使用して、音量をどれだけ減少させることができるかをガイドすることができる。

[00106]いくつかの例では、ニューラルネットワークベースの分類器は、ダイナミックレンジの予測を支援することもでき、適用可能な音量の減少を通知する。これは、最初は、改善の可能性がある現在のカテゴリ分類器（たとえば、９つの分類器、１５個の分類器など）に基づくことができる。いくつかの例では、現在のカテゴリ分類器の数量を増やすことにより、異なるリアルタイム性及びニューラルネットワークのアプローチを使用するダイナミックレンジ予測器をより正確にすることができる。各例において、音量を減少可能な量に関連する精度を高めることができる。

[00107]いくつかの例では、目標は、圧縮器が到達可能な特定のレベル（たとえば、－１２ｄｂＦＳ）の近くまで音量を減少させることである。減少量が特定されると、単極平滑化フィルタを使用して、入力の現在のフル音量から特定された量まで下げることができる。圧縮器は、平均して特定のレベル（たとえば、－２１ｄｂＦＳ）に音量を保持し続けるが、入力を下げる必要がある量は、量を目標まで減少させているので、少なくすることができる。

[00108]本明細書に開示した方法、装置、及びシステムの動作の説明例では、十分に正規化された大音量のポップミュージックが、入力を介して配信され得る。圧縮器は０．０ｄｂＦＳの素材を－２１ｄｂＦＳまで下げることができる。実質的に並行して、入力音量検出器は、入力が平均で－１ｄｂＦＳで流れていると判定し、分類器は、１９９６年から現在までの合成ドラム及びベースを含む音楽が提示されていると判定する。このカテゴリは－１５ｄｂＦＳの削減量を生成し、音量検出器は－２０ｄｂＦＳを生成する。２つの値は平均化され、信号を－１７．５０ｄｂＦＳだけ減少させることができ、基準値の－２１ｄｂＦＳに到達するために、さらに３．５デシベルだけ減少させることができる。圧縮器が（たとえば、上記の減少に基づいて）閾値より３．５デシベル大きい信号を低下させるので、圧縮器のみが利用される場合に行われるはずの、閾値より２１デシベル高い信号を低下させることと比較して、オーディオ品質が改善される。

[00109]オーディオ分類を介した動的な音量調整のための例示的な方法、装置、システム、及び製造品を本明細書に開示している。さらなる例及びそれらの組み合わせは、以下を含む。例１は、ニューラルネットワークを使用して、第１の音量レベルに関連するオーディオ信号のパラメータを分析して、オーディオ信号に関連付けられる分類グループを特定するオーディオ信号分類器と、オーディオ信号の入力音量を特定する入力音量検出器と、オーディオ信号にゲイン値を適用する音量調整器であって、ゲイン値が分類グループ及び入力音量に基づき、ゲイン値が第１の音量レベルを第２の音量レベルに修正する、音量調整器と、オーディオ信号に圧縮値を適用するダイナミックレンジ圧縮器であって、圧縮値が第２の音量レベルを、目標音量閾値を満たす第３の音量レベルに修正する、ダイナミックレンジ圧縮器と、を備える、装置を含む。

[00110]例２は、オーディオ信号のソースが変化したかを判定するソース変化判定器をさらに含む、例１に記載の装置を含む。

[00111]例３は、ソース変化判定器が、オーディオ信号のソースが変化したかの判定を、（１）オーディオ信号に関連付けられた現在の圧縮器ゲインと、オーディオ信号に関連付けられた以前の圧縮器ゲインとの比較、（２）オーディオ信号に関連付けられたＲＭＳパワーと、オーディオ信号に関連付けられた以前のＲＭＳパワーとの比較、又は（３）オーディオ信号に関連付けられた現在のオーディオサンプル値と、オーディオ信号に関連付けられた以前のオーディオサンプル値との比較、のうちの少なくとも１つに基づいて行う、例２に記載の装置を含む。

[00112]例４は、音量調整器がさらに、オーディオ信号のソースが変化したとの判定に応答して、オーディオ信号のゲイン値をリセットする、例２に記載の装置を含む。

[00113]例５は、分類グループが、（１）オーディオ信号によって表される音楽のジャンル、（２）オーディオ信号によって表される音楽の期間、又は（３）オーディオ信号によって表される音楽における楽器の有無、のうちの少なくとも１つに関連付けられる、例１に記載の装置を含む。

[00114]例６は、入力音量検出器がさらに、第１の期間にわたる第４の音量レベルが目標音量閾値内に収まっていないと判定し、第１の期間が第２の期間の後に発生し、第３の音量レベルが第２の期間に関連しており、ダイナミックレンジ圧縮器がさらに、圧縮値を第５の音量レベルに調整し、調整された圧縮値が、第４の音量レベルを、目標音量閾値を満たす第５の音量レベルに修正する、例１に記載の装置を含む。

[00115]例７は、目標音量閾値が、フルスケールに対するデシベル（ｄＢＦＳ）で、２１ｄＢＦＳから５ｄＢＦＳ以内である、例１に記載の装置を含む。

[00116]例８は、命令を含む非一時的コンピュータ可読記憶媒体であって、命令が、実行された場合に、プロセッサに少なくとも、ニューラルネットワークを使用して、第１の音量レベルに関連するオーディオ信号のパラメータを分析して、オーディオ信号に関連付けられる分類グループを特定することと、オーディオ信号の入力音量を特定することと、オーディオ信号にゲイン値を適用することであって、ゲイン値が分類グループ及び入力音量に基づき、ゲイン値が第１の音量レベルを第２の音量レベルに修正する、適用することと、オーディオ信号に圧縮値を適用することであって、圧縮値が第２の音量レベルを、目標音量閾値を満たす第３の音量レベルに修正する、適用することと、を行わせる、非一時的コンピュータ可読記憶媒体を含む。

[00117]例９は、命令が、実行された場合に、プロセッサに、オーディオ信号のソースが変化したかを判定すること、を行わせる、例８に記載の非一時的コンピュータ可読記憶媒体を含む。

[00118]例１０は、オーディオ信号のソースが変化したかの判定が、（１）オーディオ信号に関連付けられた現在の圧縮器ゲインと、オーディオ信号に関連付けられた以前の圧縮器ゲインとの比較、（２）オーディオ信号に関連付けられたＲＭＳパワーと、オーディオ信号に関連付けられた以前のＲＭＳパワーとの比較、又は（３）オーディオ信号に関連付けられた現在のオーディオサンプル値と、オーディオ信号に関連付けられた以前のオーディオサンプル値との比較、のうちの少なくとも１つに基づく、例９に記載の非一時的コンピュータ可読記憶媒体を含む。

[00119]例１１は、命令が、実行された場合に、プロセッサに、オーディオ信号のソースが変化したとの判定に応答して、オーディオ信号のゲイン値をリセットすること、を行わせる、例９に記載の非一時的コンピュータ可読記憶媒体を含む。

[00120]例１２は、分類グループが、（１）オーディオ信号によって表される音楽のジャンル、（２）オーディオ信号によって表される音楽の期間、又は（３）オーディオ信号によって表される音楽における楽器の有無、のうちの少なくとも１つに関連付けられる、例１１に記載の非一時的コンピュータ可読記憶媒体を含む。

[00121]例１３は、命令が、実行された場合に、プロセッサに、第１の期間にわたる第４の音量レベルが目標音量閾値内に収まっていないと判定することであって、第１の期間が第２の期間の後に発生し、第３の音量レベルが第２の期間に関連している、判定することと、圧縮値を第５の音量レベルに調整することであって、調整された圧縮値が、第４の音量レベルを、目標音量閾値を満たす第５の音量レベルに修正する、調整することと、を行わせる、例８に記載の非一時的コンピュータ可読記憶媒体を含む。

[00122]例１４は、目標音量閾値が、フルスケールに対するデシベル（ｄＢＦＳ）で、２１ｄＢＦＳから５ｄＢＦＳ以内である、例８に記載の非一時的コンピュータ可読記憶媒体を含む。

[00123]例１５は、ニューラルネットワークを使用して、第１の音量レベルに関連するオーディオ信号のパラメータを分析して、オーディオ信号に関連付けられる分類グループを特定するステップと、オーディオ信号の入力音量を特定するステップと、オーディオ信号にゲイン値を適用するステップであって、ゲイン値が分類グループ及び入力音量に基づき、ゲイン値が第１の音量レベルを第２の音量レベルに修正する、適用するステップと、オーディオ信号に圧縮値を適用するステップであって、圧縮値が第２の音量レベルを、目標音量閾値を満たす第３の音量レベルに修正する、適用するステップと、を含む、方法を含む。

[00124]例１６は、オーディオ信号のソースが変化したかを判定するステップをさらに含む、例１５に記載の方法を含む。

[00125]例１７は、オーディオ信号のソースが変化したかを判定するステップが、（１）オーディオ信号に関連付けられた現在の圧縮器ゲインと、オーディオ信号に関連付けられた以前の圧縮器ゲインとの比較、（２）オーディオ信号に関連付けられたＲＭＳパワーと、オーディオ信号に関連付けられた以前のＲＭＳパワーとの比較、又は（３）オーディオ信号に関連付けられた現在のオーディオサンプル値と、オーディオ信号に関連付けられた以前のオーディオサンプル値との比較、のうちの少なくとも１つに基づく、例１６に記載の方法を含む。

[00126]例１８は、オーディオ信号のソースが変化したとの判定に応答して、オーディオ信号のゲイン値をリセットするステップをさらに含む、例１６に記載の方法を含む。

[00127]例１９は、分類グループが、（１）オーディオ信号によって表される音楽のジャンル、（２）オーディオ信号によって表される音楽の期間、又は（３）オーディオ信号によって表される音楽における楽器の有無、のうちの少なくとも１つに関連付けられる、例１５に記載の方法を含む。

[00128]例２０は、第１の期間にわたる第４の音量レベルが目標音量閾値内に収まっていないと判定するステップであって、第１の期間が第２の期間の後に発生し、第３の音量レベルが第２の期間に関連している、判定するステップと、圧縮値を調整して、第４の音量レベルを、目標音量閾値を満たす第５の音量レベルに修正するステップと、をさらに含む、例１５に記載の方法を含む。

[00129]本明細書では特定の例示的な方法、装置、及び製造品を開示しているが、本特許の対象範囲はこれらに限定されない。それどころか、本特許は、本特許の特許請求の範囲内に適正に入る全ての方法、装置、及び製造品を含む。

Claims

装置であって、
ニューラルネットワークを使用して、オーディオ信号のパラメータを分析して、前記オーディオ信号に関連付けられる分類グループを特定するオーディオ信号分類器と、
前記オーディオ信号の入力音量を特定する入力音量検出器と、
音量調整器であって、
前記分類グループに基づき前記オーディオ信号分類器によって特定された分類ゲイン値を受信し、
第１の重みを前記入力音量に適用し第２の重みを前記分類ゲイン値に適用することにより、前記入力音量と前記分類ゲイン値との間の中間としての中間のゲイン値を特定し、
前記オーディオ信号に前記中間のゲイン値を適用し、前記中間のゲイン値が、前記オーディオ信号の音量を目標音量閾値の範囲に近づけるために適用される、音量調整器と、
前記オーディオ信号に圧縮値を適用するダイナミックレンジ圧縮器であって、前記圧縮値が、前記オーディオ信号の音量を前記目標音量閾値の範囲内に収まるよう調整するために適用される、ダイナミックレンジ圧縮器と、
を備える、装置。
前記オーディオ信号のソースが変化したかを判定するソース変化判定器をさらに含む、請求項１に記載の装置。
前記ソース変化判定器が、前記オーディオ信号の前記ソースが変化したかの判定を、
（１）前記オーディオ信号に関連付けられた現在の圧縮器ゲインと、前記オーディオ信号に関連付けられた以前の圧縮器ゲインとの比較、
（２）前記オーディオ信号に関連付けられたＲＭＳパワーと、前記オーディオ信号に関連付けられた以前のＲＭＳパワーとの比較、又は
（３）前記オーディオ信号に関連付けられた現在のオーディオサンプル値と、前記オーディオ信号に関連付けられた以前のオーディオサンプル値との比較、
のうちの少なくとも１つに基づいて行う、請求項２に記載の装置。
前記音量調整器がさらに、前記オーディオ信号の前記ソースが変化したとの判定に応答して、前記オーディオ信号の前記中間のゲイン値をリセットする、請求項２に記載の装置。
前記分類グループが、
（１）前記オーディオ信号によって表される音楽のジャンル、
（２）前記オーディオ信号によって表される前記音楽の期間、又は
（３）前記オーディオ信号によって表される前記音楽における楽器の有無、
のうちの少なくとも１つに関連付けられる、請求項１に記載の装置。
最後の音量調整が実行されてからの時間が更新時間閾値を満足又は超過したことに応答して、ある期間にわたる前記オーディオ信号の平均音量レベルが前記目標音量閾値の範囲内に収まっているか否かを判定するリアルタイムオーディオ監視器を更に備えており、
前記平均音量レベルが前記目標音量閾値の範囲内に収まっていないとの前記リアルタイムオーディオ監視器の判定に応答して、前記ダイナミックレンジ圧縮器が、前記圧縮値を調整することにより前記オーディオ信号の音量をさらに調整する、
請求項１に記載の装置。
前記目標音量閾値の範囲が、フルスケールに対するデシベル（ｄＢＦＳ）で、－２１ｄＢＦＳから５ｄＢＦＳ以内である、請求項１に記載の装置。
命令を含む非一時的コンピュータ可読記憶媒体であって、前記命令が、実行された場合に、プロセッサに少なくとも、
オーディオ信号のソースが変化したかを、（１）前記オーディオ信号に関連付けられた現在の圧縮器ゲインと、前記オーディオ信号に関連付けられた以前の圧縮器ゲインとの比較、又は（２）前記オーディオ信号に関連付けられたＲＭＳパワーと、前記オーディオ信号に関連付けられた以前のＲＭＳパワーとの比較、のうちの少なくとも１つに基づき、判定することと、
前記ソースが変化したとの前記プロセッサの判定に応答して、
ニューラルネットワークを使用して、前記オーディオ信号のパラメータを分析して、前記オーディオ信号に関連付けられる分類グループを特定することと、
前記オーディオ信号の入力音量を特定することと、
前記オーディオ信号に前記分類グループ及び前記入力音量に基づくゲイン値を適用することであって、前記ゲイン値が、前記オーディオ信号の音量を目標音量閾値の範囲に近づけるために適用される、適用することと、
前記オーディオ信号に圧縮値を適用することであって、前記圧縮値が、前記オーディオ信号の音量を前記目標音量閾値の範囲内に収まるよう調整するために適用される、適用することと、
を行わせる、非一時的コンピュータ可読記憶媒体。
前記命令が、実行された場合に、前記プロセッサに、前記オーディオ信号の前記ソースが変化したとの判定に応答して、前記オーディオ信号の前記ゲイン値をリセットすること、を行わせる、請求項８に記載の非一時的コンピュータ可読記憶媒体。
前記分類グループが、
（１）前記オーディオ信号によって表される音楽のジャンル、
（２）前記オーディオ信号によって表される前記音楽の期間、又は
（３）前記オーディオ信号によって表される前記音楽における楽器の有無、
のうちの少なくとも１つに関連付けられる、請求項９に記載の非一時的コンピュータ可読記憶媒体。
前記命令が、実行された場合に、前記プロセッサに、
最後の音量調整が実行されてからの時間が更新時間閾値を満足又は超過したことに応答して、ある期間にわたる前記オーディオ信号の平均音量レベルが前記目標音量閾値の範囲内に収まっているか否かを判定することと、
前記平均音量レベルが前記目標音量閾値の範囲内に収まっていないとの判定に応答して、前記圧縮値を調整することにより前記オーディオ信号の音量を調整することと、
を行わせる、請求項８に記載の非一時的コンピュータ可読記憶媒体。
前記目標音量閾値の範囲が、フルスケールに対するデシベル（ｄＢＦＳ）で、－２１ｄＢＦＳから５ｄＢＦＳ以内である、請求項８に記載の非一時的コンピュータ可読記憶媒体。
方法であって、
ニューラルネットワークを使用して、オーディオ信号のパラメータを分析して、前記オーディオ信号に関連付けられる分類グループを特定し、前記オーディオ信号がソースからの信号である、分析するステップと、
前記オーディオ信号の入力音量を特定するステップと、
前記オーディオ信号の前記ソースの変化に応答して、初期音量調整を実行するステップであって、前記初期音量調整が前記ソースに固有の以前の音量調整設定に基づく、実行するステップと、
前記オーディオ信号に前記分類グループ及び前記入力音量に基づくゲイン値を適用するステップであって、前記ゲイン値が、前記オーディオ信号の音量を目標音量閾値の範囲に近づけるために適用される、適用するステップと、
前記オーディオ信号に圧縮値を適用するステップであって、前記圧縮値が、前記オーディオ信号の音量を前記目標音量閾値の範囲内に収まるよう調整するために適用される、適用するステップと、
前記オーディオ信号の前記ソースが変化したかを判定するステップと、
前記オーディオ信号の前記ソースが変化したとの判定に応答して、前記オーディオ信号の前記ゲイン値をゼロにリセットするステップと、
を含む、方法。
前記オーディオ信号の前記ソースが変化したかを判定する前記ステップが、
（１）前記オーディオ信号に関連付けられた現在の圧縮器ゲインと、前記オーディオ信号に関連付けられた以前の圧縮器ゲインとの比較、
（２）前記オーディオ信号に関連付けられたＲＭＳパワーと、前記オーディオ信号に関連付けられた以前のＲＭＳパワーとの比較、又は
（３）前記オーディオ信号に関連付けられた現在のオーディオサンプル値と、前記オーディオ信号に関連付けられた以前のオーディオサンプル値との比較、
のうちの少なくとも１つに基づく、請求項１３に記載の方法。
前記分類グループが、
（１）前記オーディオ信号によって表される音楽のジャンル、
（２）前記オーディオ信号によって表される前記音楽の期間、又は
（３）前記オーディオ信号によって表される前記音楽における楽器の有無、
のうちの少なくとも１つに関連付けられる、請求項１３に記載の方法。
最後の音量調整が実行されてからの時間が更新時間閾値を満足又は超過したことに応答して、ある期間にわたる前記オーディオ信号の平均音量レベルが前記目標音量閾値の範囲内に収まっているか否かを判定するステップと、
前記平均音量レベルが前記目標音量閾値の範囲内に収まっていないとの判定に応答して、前記圧縮値を調整することにより前記オーディオ信号の音量を調整するステップと、
をさらに含む、請求項１３に記載の方法。
前記オーディオ信号が、メディアユニットへの入力であり、前記ソースの変化が、第１のメディアデバイスから第２のメディアデバイスへの入力の変化に対応する、請求項１３に記載の方法。
前記第１の重みが前記第２の重みより大きい、請求項１に記載の装置。
前記オーディオ信号が、メディアユニットへの入力であり、前記ソースの変化が、第１のメディアデバイスから第２のメディアデバイスへの前記入力の変化に対応する、請求項８に記載の非一時的コンピュータ可読記憶媒体。
前記メディアユニットは、カーラジオヘッドユニットの部品である、請求項１９に記載の非一時的コンピュータ可読記憶媒体。