JP7071508B2

JP7071508B2 - 音量調整のための方法、コンピュータ可読記憶媒体及び装置

Info

Publication number: JP7071508B2
Application number: JP2020537547A
Authority: JP
Inventors: ロバートクーバー，; ジェフリースコット，; マーカスケー．クレーマー，; アニーシュバータカビー，
Original assignee: グレースノートインコーポレイテッド
Priority date: 2018-01-07
Filing date: 2019-01-07
Publication date: 2022-05-19
Anticipated expiration: 2039-01-07
Also published as: US11824507B2; EP3735742A1; US10778168B2; WO2019136371A1; JP2021510038A; US20190214954A1; KR102510899B1; CN112020827A; US11545949B2; KR20230038820A; KR20200108872A; US20230216461A1; EP3735742A4; US20240039498A1; US20200412313A1

Description

関連出願

[0001]本特許は、２０１８年１月７日に出願された「ＭＥＴＨＯＤＳＡＮＤＡＰＰＡＲＡＴＵＳＦＯＲＤＹＮＡＭＩＣＶＯＬＵＭＥＡＤＪＵＳＴＭＥＮＴ」という表題の米国仮出願第６２／６１４，４３９号の利益及びそれに対する優先権を主張するものである。米国仮出願第６２／６１４，４３９号は、その全体が参照により本明細書に組み込まれる。

本開示の分野

[0002]本開示は、一般には、音量調整、及びより詳細には、音量調整のための方法及び装置に関する。

背景

[0003]近年、種々の特徴を持つ数多くのメディアが、ますます多くのチャネルを使用して搬送されている。詳細には、音声メディアは、より従来型のチャネル（例えば、無線）を使用して、又は、インターネット接続されたストリーミングデバイスを使用するなど、もっと最近になって開発されたチャネルを使用して受信され得る。これらのチャネルが開発されたことにより、複数ソースからの音声を処理及び出力することができるシステムも同様に開発されてきた。いくつかの自動車メディアシステムは、例えば、コンパクトディスク（ＣＤ）、ブルートゥース［登録商標］接続デバイス、ユニバーサルシリアルバス（ＵＳＢ）接続デバイス、Ｗｉ－Ｆｉ接続デバイス、補助入力、及び他のソースからメディアを搬送することができる。

[0004]図１は、音量調整のための本開示の教示に従って構築される例示的なシステムの概略図である。

[0005]図２は、図１のメディアユニットのさらなる詳細を示すブロック図である。

[0006]図３は、音量調整を実施するために図１及び図２のメディアユニット１０６を実装するために使用され得る例示的なマシン可読命令を表すフローチャートである。

[0007]図４は、音声信号を出力し、音声信号のリアルタイム音量調整を提供するように図１及び図２のメディアユニット１０６を実装するために使用され得る例示的なマシン可読命令を表すフローチャートである。

[0008]図５は、音量調整を実施してソース間及びメディア間の音声を正規化するように図１及び図２のメディアユニット１０６を実装するために使用され得る例示的なマシン可読命令を表すフローチャートである。

[0009]図６は、図１及び図２の例示的なメディアユニット１０６を実装するために図３～図５の命令を実行し得る例示的なプロセッサプラットフォームの概略図である。

[0010]図は縮尺通りではない。可能な限り、同じ参照番号が、同じ又は同様の部分について言及するために、図面全体及び付随する書面による説明を通して使用される。

詳細な説明

[0011]従来の音声メディア実装形態において、異なるメディアと関連付けられた音声信号は、異なる音量を有し得る。例えば、あるＣＤ上のメディアは、別のＣＤのメディアとは著しく異なる音量で記録及び／又はマスター作成され得る。同様に、ストリーミングデバイスから取得されるメディアは、異なるデバイスから取得されるメディア、又は異なるアプリケーションを介して同じデバイスから取得されるメディアとは著しく異なる音量レベルを有し得る。ユーザが様々な異なるソースからのメディアをますます聴くようになると、ソース間及び同じソースのメディア間の音量レベルにおける差は、極めて顕著になり得、リスナを苛立たせる可能性があり得る。

[0012]音量正則化に対するいくつかの従来の手法においては、ダイナミックレンジ圧縮器が、音量しきい値を満足するように音声信号のダイナミックレンジ全体を圧縮するために利用される。いくつかの従来の実装形態においては、そのようなダイナミックレンジ圧縮は、音声信号の音量しきい値を満足するように、音声信号の音量を絶え間なくモニタし、調整する。そのような連続的な調整は、トラックの元のダイナミクスが著しく変更されるため、リスナによる音声信号の知覚に影響を及ぼす。いくつかの例では、ダイナミックレンジ圧縮は、音声信号の知覚品質を著しく劣化させる。

[0013]本明細書に開示される例示的な方法、装置、システム、及び製品において、メディアメタデータは、メディア単位（例えば、曲、トラックなど）の平均音声レベルを決定するために使用される。平均音声レベルは、次いで、所望の音量レベル（本明細書では目標音量レベルとも称される）を達成するように音声信号に適用するための適切なゲイン値を決定するために利用される。いくつかの例では、所望の音量レベルは、すべての信号が一貫した平均音量レベルで出力されて、最適なユーザ体験を可能にするように、すべての音声信号にわたって維持される。さらに、いくつかの例では、音量レベルを、音声信号の出力中に規則的な増分でモニタして、そのセグメントの音量レベルが音量しきい値を満足する平均音量を有するかどうかを決定する。そのような例では、音量は、この場合も、セグメント中の音量と所望の音量レベルとの差を計算に入れるように動的に調整され得る。さらに、音量レベルがメディア内に表される音量レベルともはや同じではなくなるように変更又は調整されているメディアの場合、規則的な増分でモニタすることは、メタデータに基づいた間違ったゲインが、音声信号の音量を所望の範囲の外側にあるように調整することを防ぐ。

[0014]本明細書に開示される例示的な方法、装置、システム、及び製品において、音量レベルは、音量がセーフリスニング音量範囲内に留まることを確実にするように調整され得る。例えば、比較的静かなトラックが増幅され、次いで再生が、非常に大音量を既に有するトラックへ遷移する場合、音量レベルは、新しいトラックを危険な音量レベル（例えば、人間のヒアリング又はレンダリング技能に比較的すぐに損傷を与え得る音量レベル）で再生することを回避するように調整される必要がある。本明細書に開示されるいくつかの例では、バッファ（例えば、１秒バッファ、３秒バッファなど）は、音声信号がソース（例えば、ディスク、ラジオ放送局、携帯電話など）から入力される時間と、それが出力される時間との間の遅延として作用するように用いられ、以て音量レベルの急速な変動を防ぎ、バッファ期間中の音量レベルの分析及び調整を可能にする。

[0015]本明細書に開示されるいくつかの例示的な技術においては、音声信号に関するメタデータを取得するために、音声透かしを利用してメディアを識別する。音声透かしは、テレビ放送、ラジオ放送、広告（テレビ及び／又はラジオ）、ダウンロードメディア、ストリーミングメディア、事前にパッケージ化されたメディアなどのメディアを識別するために使用される技術である。既存の音声透かし技術は、メディア識別情報及び／又はメディア識別情報にマッピングされ得る識別子などの１つ又は複数の音声コード（例えば、１つ又は複数の透かし）を、音声成分及び／又は映像成分に埋め込むことによって、メディアを識別する。いくつかの例では、音声成分又は映像成分は、透かしを隠すのに十分な信号特徴を有するように選択される。本明細書で使用される場合、用語「コード」又は「透かし」は、交換可能に使用され、メディアを識別する目的のため、又はチューニング（例えば、パケット識別ヘッダ）などの別の目的のためにメディアの音声又は映像（例えば、番組又は広告）に挿入され得る、又は埋め込まれ得る任意の識別情報（例えば、識別子）を意味するように定義される。本明細書で使用される場合、「メディア」は、音声及び／又は視覚（静又は動）コンテンツ及び／又は広告を指す。フィンガープリント付きメディアを識別するため、透かし（複数可）は、抽出されて、メディア識別情報にマップされる参照透かしのテーブルにアクセスするために使用される。

[0016]本明細書に開示されるいくつかの例示的な技術においては、音声信号に関するメタデータを取得するために、音声フィンガープリントを利用してメディアを識別する。音声フィンガープリントは、テレビ放送、ラジオ放送、広告（テレビ及び／又はラジオ）、ダウンロードメディア、ストリーミングメディア、事前にパッケージ化されたメディアなどのメディアを識別するために使用される技術である。モニタ対象メディアに含まれる及び／又は埋め込まれるコード及び／又は透かしに基づいたメディアモニタリング技術とは異なり、フィンガープリント又はシグネチャベースのメディアモニタリング技術は、一般的に、モニタリング時間間隔の間、モニタ対象メディアの１つ又は複数の固有特性を使用して、メディアのための実質的に固有のプロキシを生成する。そのようなプロキシは、シグネチャ又はフィンガープリントと称され、メディア信号（複数可）の任意の態様（複数可）（例えば、モニタされているメディア提示を形成する音声信号及び／又は映像信号）を表す任意の形態（例えば、一連のデジタル値、波形など）をとり得る。シグネチャは、あるタイマ間隔にわたって連続して収集される一連のシグネチャであってもよい。良好なシグネチャは、同じメディア提示を処理するときに繰り返し可能であるが、他の（例えば、異なる）メディアの他の（例えば、異なる）提示に対して固有である。したがって、用語「フィンガープリント」及び「シグネチャ」は、本明細書では交換可能に使用され、メディアの１つ又は複数の固有特性から生成される、メディアを識別するためのプロキシを意味するように本明細書では定義される。

[0017]シグネチャベースのメディアモニタリングは、一般的に、モニタ対象メディアデバイスによって出力されるメディア信号（例えば、音声信号及び／又は映像信号）を表すシグネチャ（複数可）を決定（例えば、生成及び／又は収集）し、モニタ対象シグネチャ（複数可）を既知の（例えば、参照）メディアソースに対応する１つ又は複数の参照シグネチャと比較することを伴う。相互相関値、ハミング距離などの様々な比較基準を評価して、モニタ対象シグネチャが特定の参照シグネチャに一致するかどうかを決定し得る。モニタ対象シグネチャと参照シグネチャのうちの１つの一致が発見されると、モニタ対象メディアは、モニタ対象シグネチャと一致する参照シグネチャによって表される特定の参照メディアに対応すると識別され得る。メディアの識別子、提示時間、放送チャネルなどの属性が、参照シグネチャについて収集されるため、これらの属性は、次いで、モニタ対象シグネチャが参照シグネチャに一致したモニタ対象メディアと関連付けられ得る。

[0018]本明細書に開示されるいくつかの例示的な技術において、音声信号は、テキストマッチング（例えば、アーティスト、アルバム、タイトルなどに関するテキストを利用すること）、又は音声信号（例えば、ＩＤ３タグに埋め込まれるカタログ識別子、ＩＳＲＣ識別子など）と関連付けられた識別子を使用することによって識別される。本明細書に開示される例示的な技術は、任意の音声信号識別技術を利用して音声信号を識別し得る。

[0019]本明細書に開示されるいくつかの例示的な技術において、識別可能でない音声信号、及び故に、メタデータが利用可能でない音声信号は、所望の音量レベルを維持するように動的に圧縮される。例えば、コマーシャルは、メタデータを有するメディアに関する識別可能な音声信号間に流れ得る。そのような例では、音量レベルは、識別可能な音声信号の各々についての平均音量レベルに基づき調整され、動的圧縮を使用して合間のコマーシャルの音量レベルを調整して、音量の劇的な変化を回避する。

[0020]本明細書に開示される例では、音量調整は、車両のオーディオシステムの構成要素によって、又は車両のオーディオシステムと通信している構成要素によって実施され得る。いくつかの例では、動的音量調整器又は動的音量調整が可能な他の構成要素を含むメディアユニットは、車両のヘッドユニットに含まれ得る。そのような例において、車両ヘッドユニットは、補助入力、ＣＤ入力、ラジオ信号受信器入力、スマートデバイスからの外部ストリーム、ブルートゥース入力、ネットワーク接続（例えば、インターネットへの接続）、又は任意の他のソースから音声信号を受信し得る。例えば、動的音量調整は、家庭用娯楽システム内のメディアシステム上で実施され得、複数のソース（例えば、ＤＶＤプレイヤ、セットトップボックスなど）は、ソース及びメディア間で音声レベルを正規化することを目指して動的に調整される音声信号を通信し得る。他の例では、動的音量調整は、任意の設定で、又は任意のメディアデバイス（複数可）のために実施され得る。

[0021]本明細書に開示される例示的な方法、装置、システム、及び製品において、ユーザによって指定される音量設定は、ソースタイプを識別するデータと関連して記憶される。例えば、ユーザが自らのモバイルデバイスを操作している間にユーザによって選択される音量レベルが記憶され得る。追加的又は代替的に、音量レベルは、ユーザ選好を満足するように、又は特定の入力ソースが使用されているときの要件を満足するように、本明細書に開示される技術を利用して自動的に調整され得る。いくつかのそのような音量レベルは、初期音量レベルを構成するために、ソース変更が発生したときに活用され得る。例えば、ユーザが音声ソースをラジオから携帯電話に切り替える場合、本明細書に開示される例示的な技術は、初期音量レベルを構成するために携帯電話のための音声設定履歴を参照する。同様に、音量設定履歴は、入力ソースの現在の音量レベルをレベル履歴と比較し、一貫した及び安全なリスナ体験を確実にするように調整を行うために使用され得る。

[0022]図１は、音量調整のための本開示の教示に従って構築される例示的なシステム１００の概略図である。例示的なシステム１００は、音声信号をメディアユニット１０６に伝送するメディアデバイス１０２、１０４を含む。メディアユニット１０６は、音声信号を処理し、信号を音声増幅器１０８に伝送し、続いて音声増幅器１０８が、出力デバイス１１０を介して提示されることになる増幅された音声信号を出力する。

[0023]図１の図示された例の例示的なメディアデバイス１０２は、ポータブルメディアプレイヤ（例えば、ＭＰ３プレイヤ）である。例示的なメディアデバイス１０２は、メディアに対応する音声信号を記憶又は受信し、音声信号を他のデバイスに伝送することができる。図１の図示された例において、メディアデバイス１０２は、補助ケーブルを介して音声信号をメディアユニット１０６に伝送する。いくつかの例では、メディアデバイス１０２は、任意の他のインターフェースを介して音声信号をメディアユニット１０６に伝送する。

[0024]図１の図示された例の例示的なメディアデバイス１０４は、モバイルデバイス（例えば、携帯電話）である。例示的なメディアデバイス１０４は、メディアに対応する音声信号を記憶又は受信し、音声信号を他のデバイスに伝送することができる。図１の図示された例において、メディアデバイス１０４は、ワイヤレスで音声信号をメディアユニット１０６に伝送する。いくつかの例では、メディアデバイス１０４は、Ｗｉ－Ｆｉ、ブルートゥース、及び／又は任意の他の技術を使用して音声信号をメディアユニット１０６に伝送し得る。いくつかの例では、メディアデバイス１０４は、リスナが車両内での提示のためのメディアを選択するために、車両の構成要素又は他のデバイスと対話し得る。メディアデバイス１０２、１０４は、音声信号を記憶すること及び／又は音声信号にアクセスすることができる任意のデバイスであってもよい。いくつかの例では、メディアデバイス１０２、１０４は、車両と一体であってもよい（例えば、ＣＤプレイヤ、ラジオなど）。

[0025]図１の図示された例の例示的なメディアユニット１０６は、音声信号を受信すること、及びそれらを処理することができる。図１の図示された例において、メディアユニット１０６は、メディアデバイス１０２、１０４からメディア信号を受信し、それらを処理して音量調整を実施する。例示的なメディアユニット１０６は、メディアに埋め込まれた、又はメディアから導出される識別子（例えば、フィンガープリント、透かし、シグネチャなど）に基づき音声信号を識別することができる。例示的なメディアユニット１０６は、さらに、音声信号と関連付けられたメディアに対応するメタデータにアクセスすることができる。いくつかの例では、メタデータは、メディアユニット１０６の記憶デバイスに記憶される。いくつかの例では、メタデータは、別の場所から（例えば、ネットワークを介してサーバから）アクセスされる。さらには、例示的なメディアユニット１０６は、メタデータに基づき平均ゲイン値を決定及び適用して、音量しきい値を満足するように音声信号の平均音量を調整することによって、動的音量調整を実施することができる。例示的なメディアユニット１０６は、さらに、出力デバイス１１０によって出力されている音声をモニタして、リアルタイムに音声セグメントの平均音量レベルを決定することができる。音声信号がメディアに対応するものとして識別されない場合、及び／又は音声信号について、音量情報を含むメタデータを利用できない場合、例示的なメディアユニット１０６は、所望の音量レベルを達成するために音声信号の圧縮を提供するダイナミックレンジ圧縮が可能である。いくつかの例では、例示的なメディアユニット１０６は、車両内の別のデバイスの部分（例えば、カーラジオヘッドユニット）として含まれる。いくつかの例では、例示的なメディアユニット１０６は、ソフトウェアとして実装され、直接接続（例えば、有線接続）又はネットワーク（例えば、クラウド上で利用可能）のいずれかを通じて利用可能である別のデバイスの部分として含まれる。いくつかの例では、例示的なメディアユニット１０６は、音声増幅器１０８及び出力デバイス１１０と共に組み込まれてもよく、音声信号の処理の後にそれ自体が音声信号を出力してもよい。

[0026]図１の図示された例の例示的な音声増幅器１０８は、メディアユニット１０６によって処理された音声信号を受信すること、及び出力デバイス１１０による出力のための信号の適切な増幅を実施することができるデバイスである。いくつかの例では、音声増幅器１０８は、出力デバイス１１０に組み込まれ得る。いくつかの例では、音声増幅器１０８は、メディアユニット１０６からの増幅出力値に基づき音声信号を増幅する。いくつかの例では、音声増幅器１０８は、リスナ（例えば、音量セレクタを調整する車両の乗客又は運転者）からの入力に基づき音声信号を増幅する。

[0027]図１の図示された例の例示的な音声出力デバイス１１０は、スピーカである。いくつかの例では、音声出力デバイス１１０は、複数のスピーカ、ヘッドフォン、又は音声信号をリスナに提示することができる任意の他のデバイスであってもよい。いくつかの例では、出力デバイス１１０は、視覚要素（例えば、映像）も同様に出力することができてもよい（例えば、スピーカ付きのテレビ）。いくつかのそのような例では、視覚要素は、メディアを識別するために利用され得る（例えば、映像に含まれる透かしに基づき、映像から導出されるフィンガープリントに基づきなど）。いくつかのそのような例では、音量調整に加えて、又はその代替として、本明細書に説明される技術は、映像内に表されるメディアの識別に基づき、映像の特徴を調整する（例えば、輝度を調整する、ガンマ補正を実施する、色のバランス補正を実施するなど）ために実装され得る。

[0028]図１の図示される例示的なシステム１００は、車両における音量調整実装形態を参照して説明されるが、例示的なシステム１００に含まれるデバイスの一部又はすべては、任意の環境において、及び任意の組み合わせで、実装され得る。例えば、システム１００は、家庭の娯楽室内にあってもよく、メディアデバイス１０２、１０４は、ゲーム機、仮想現実デバイス、セットトップボックス、又はメディアにアクセスすること及び／若しくはメディアを伝送することができる任意の他のデバイスであってもよい。加えて、いくつかの例では、メディアは、視覚要素も同様に含み得る（例えば、テレビ番組、映画など）。

[0029]メディアユニット１０６の例示的な実装形態のさらなる詳細を提供するブロック図２００が、図２に図示される。例示的なメディアユニット１０６は、音声信号を受信すること、及び音声信号を処理して、音声信号の音量を所望のレベルまで動的に調整することができる。動的音量調整の後、例示的なメディアユニット１０６は、出力デバイス１１０による出力の前に増幅のために音声増幅器１０８に音声信号を伝送する。

[0030]図２に示されるように、図示された例示的なメディアユニット１０６は、動的音量調整器２０２、データストア２０４、メタデータデータベース２０６、及びダイナミックレンジ圧縮器２０８を含む。動的音量調整器２０２は、音声信号アクセッサ２１０、音声信号識別器２１２、メタデータアクセッサ２１４、音量調整器２１６、リアルタイム音声モニタ２１８、及び音声信号出力器２２０をさらに含む。

[0031]例示的な動的音量調整器２０２は、音声信号を受信すること、及びその音声信号に対して動的音量調整を実施することができる。いくつかの例では、例示的な動的音量調整器２０２は、動的音量調整器２０２によってアクセスされる音声信号を識別する。いくつかの例では、動的音量調整器２０２は、信号が処理中に一時的に記憶され得るデータストア２０４から音声信号にアクセスし得る。いくつかの例では、動的音量調整器２０２は、音声信号に埋め込まれた識別子を利用して音声信号に対応するメディアを決定する。例示的な動的音量調整器２０２は、任意の技術を使用して、受信した音声信号に対応するメディアを決定し得る。いくつかの例では、音量調整器２０２は、音量情報に対応するメタデータ（例えば、メディア単位にわたる平均音量、メディアのあるセグメントの間の平均音量など）を獲得することができる。いくつかの例では、例示的な音量調整器２０２は、音声信号のための所望の平均音量を達成するために音声信号に適用するための適切な平均ゲイン値を決定することができる。いくつかの例では、例示的な音量調整器２０２は、図１の図示された例の音声増幅器１０８に音声信号をサンプル内で提示（例えば、出力）し、音声サンプルが提示されるときにサンプルに対するリアルタイムの音量測定値を絶え間なく収集する。そのような例では、例示的な音量調整器２０２は、音声信号のセグメント（例えば、３秒セグメント）の間の平均音量レベルを生成し、そのセグメントの間の平均音量レベルが音量しきい値を満足するかどうかを決定する。いくつかの例では、例示的な音量調整器２０２は、所望の音量レベル及び音量しきい値で事前に構成される。例示的な音量調整器２０２は、そのセグメントがしきい値を満足する平均音量レベルを有さないことに応答して、提示されることになる全体的な音声信号のゲインを調整し得る。いくつかの例では、例示的な音量調整器２０２は、音声サンプル全体にわたるセグメントについての平均音量レベルに対応するメタデータ（例えば、現行音量推測データ）を利用して、音声信号の１つ又は複数の異なるセグメントにおいて実装され得る１つ又は複数のゲイン値を決定し得る。いくつかの例では、音量調整器２０２は、音声信号内のメディアに関するメディア識別子（例えば、フィンガープリント）を絶え間なくモニタして、伝送されているメディアにおける変化が発生したかどうかを決定し得る。

[0032]図２の図示された例の例示的なデータストア２０４は、音声信号及びメディアユニット１０６によって利用される他のデータのための記憶位置である。データストア２０４は、揮発性メモリ（例えば、シンクロナスダイミックランダムアクセスメモリ（ＳＤＲＡＭ）、ダイミックランダムアクセスメモリ（ＤＲＡＭ）、ＲＡＭＢＵＳダイミックランダムアクセスメモリ（ＲＤＲＡＭ）など）、及び／又は不揮発性メモリ（例えば、フラッシュメモリ）で実装され得る。データストア２０４は、追加的又は代替的に、ＤＤＲ、ＤＤＲ２、ＤＤＲ３、モバイルＤＤＲ（ｍＤＤＲ）などの、１つ又は複数のダブルデータレート（ＤＤＲ）メモリで実装され得る。データストア２０４は、追加的又は代替的に、ハードディスクドライブ（複数可）、コンパクトディスクドライブ（複数可）、デジタルバーサタイルディスク（複数可）などの、１つ又は複数の大容量記憶デバイスで実装され得る。図示された例では、データストア２０４は、単一のデータベースとして図示されるが、データストア２０４は、任意の数及び／又はタイプ（複数可）のデータベースで実装されてもよい。さらには、データストア６６０に記憶されるデータは、例えば、バイナリデータ、コンマ区切りデータ、タブ区切りデータ、構造化照会言語（ＳＱＬ）構造など、任意のデータ形式のものであってもよい。いくつかの例では、例示的なデータストア２０４及び例示的なメタデータデータベース２０６は、同じ記憶位置であってもよい。いくつかの例では、データストア２０４は、仮想記憶位置（例えば、ネットワークを介してアクセス可能なサーバ）であってもよい。

[0033]例示的なメタデータデータベース２０６は、メディアに対応するメタデータのための記憶位置である。例示的なメタデータデータベース２０６は、例示的な音声信号識別器２１２によって音声信号内で識別されたメディアに関するメタデータを例示的なメタデータアクセッサ２１４に提供する。いくつかの例では、メタデータデータベース２０６に記憶されるメタデータは、メディア単位（例えば、トラック、曲など）の平均音量情報、及び／又はメディア単位のセグメント（例えば、曲全体にわたって３秒間隔）の平均音量情報などの情報を含む。例示的なメタデータデータベース２０６は、揮発性メモリ（例えば、シンクロナスダイミックランダムアクセスメモリ（ＳＤＲＡＭ）、ダイミックランダムアクセスメモリ（ＤＲＡＭ）、ＲＡＭＢＵＳダイミックランダムアクセスメモリ（ＲＤＲＡＭ）など）、及び／又は不揮発性メモリ（例えば、フラッシュメモリ）で実装され得る。メタデータデータベース２０６、追加的又は代替的に、ＤＤＲ、ＤＤＲ２、ＤＤＲ３、モバイルＤＤＲ（ｍＤＤＲ）などの、１つ又は複数のダブルデータレート（ＤＤＲ）メモリで実装され得る。メタデータデータベース２０６は、追加的又は代替的に、ハードディスクドライブ（複数可）、コンパクトディスクドライブ（複数可）、デジタルバーサタイルディスク（複数可）などの、１つ又は複数の大容量記憶デバイスで実装され得る。図示された例では、メタデータデータベース２０６は、単一のデータベースとして図示されるが、メタデータデータベース２０６は、任意の数及び／又はタイプ（複数可）のデータベースで実装されてもよい。さらには、メタデータデータベース２０６に記憶されるデータは、例えば、バイナリデータ、コンマ区切りデータ、タブ区切りデータ、構造化照会言語（ＳＱＬ）構造など、任意のデータ形式のものであってもよい。

[0034]図２の図示された例の例示的なダイナミックレンジ圧縮器２０８は、識別されない音声信号、及び／又は所望の音量要件を満たすために対応するメタデータを利用することができない音声信号のダイナミックレンジを圧縮及び／又は拡張することができる。いくつかの例では、ダイナミックレンジ圧縮器２０８は、信号が所望のレベルに関連した音量しきい値を満足する平均音量レベルを有するように、音声ダイナミックレンジ圧縮及び／又は音声ダイナミックレンジ拡張を実施する。いくつかの例では、ダイナミックレンジ圧縮器は、バックグラウンドで連続的に実行し、音量調整器２１６がメタデータの欠如、又は識別可能なメディアの欠如により音声信号の音量を動的に調整することができないときにいつも起動される。例示的なダイナミックレンジ圧縮器２０８は、音声信号が所望の音量値に関連した音量しきい値を満足しない音量振幅を有するとき、信号が瞬間的に圧縮又は拡張されるように、圧縮を実施する。そのような例では、音声信号の局所的なダイナミックレンジは、圧縮又は拡張に起因して変更され得る。いくつかの例では、例示的なダイナミックレンジ圧縮器２０８は、音声信号、又は音声信号の一部分を、その音声信号、又は音声信号の一部分が圧縮された後に、リアルタイム音声モニタ２１８に転送する。

[0035]図２の図示された例の例示的な音声信号アクセッサ２１０は、処理のために音声信号にアクセスする。いくつかの例では、例示的な音声信号アクセッサ２１０は、図１の図示された例のメディアデバイス１０２、１０４から信号を受信する。いくつかの例では、音声信号アクセッサ２１０は、処理の前に入来音声信号の一時的なバッファとして作用し得るデータストア２０４から音声信号を取得する。いくつかの例では、音声信号アクセッサ２１０は、音声信号が最初にアクセスされる時間と音声信号が出力される時間との間の遅延を結果としてもたらすバッファ（例えば、１秒バッファ）を実施して、動的音量調整器２０２に分析及び音量調整のための時間を提供する。バッファ期間中、音声信号は、音声信号識別器２１２によって識別され得、メタデータは、メタデータアクセッサ２１４によって、音声信号について取得され得、音量レベルは、（例えば、メタデータから、音量設定履歴からなどの）参照音声レベルと比較され得、音声信号の部分の音量レベルが調整され得、及び／又は音声信号の全体の音量レベルが調整され得る。任意の分析及び／又は音量調整ステップは、音量一貫性、ユーザ体験、及び／又は音量レベル安全性を向上させるためにバッファ期間中に発生し得る。例示的な音声信号アクセッサ２１０は、任意のソースからの、及び任意の形態にある音声信号を受信し得る。図示された例の音声信号アクセッサ２１０は、リアルタイム音声モニタ２１８、音声信号識別器２１２、及び／又はメディアユニット１０６の任意の他の構成要素に音声信号を通信する。

[0036]図２の図示された例の例示的な音声信号識別器２１２は、例示的な音声信号アクセッサ２１０によってアクセスされる音声信号に対応するメディアを識別する。いくつかの例では、音声信号識別器２１２は、音声信号に埋め込まれたメディア識別子（例えば、フィンガープリント）の、既知又は参照の音声シグネチャとの比較を実施して、音声信号のメディアを決定する。例示的な音声信号識別器２１２が、識別を実施するためにメディア内のシグネチャを発見しない場合、例示的な音声信号識別器２１２は、音声信号の動的圧縮を実施するようにダイナミックレンジ圧縮器２０８に指示する。同様に、例示的な音声信号識別器２１２がシグネチャを発見するが、参照との一致に基づきメディアを決定することができない場合、例示的な音声信号識別器２１２は、音声信号の動的圧縮を実施するようにダイナミックレンジ圧縮器２０８に指示する。いくつかの例では、例示的な音声信号識別器２１２は、マッチング参照シグネチャを発見することができる。そのような例では、音声信号識別器２１２は、メディアに対応するメタデータにアクセスするために例示的なメタデータアクセッサ２１４に識別情報を引き渡し得る。いくつかの例では、音声信号識別器２１２は、マッチング参照シグネチャを発見するために（例えば、中核的施設における）外部データベースと対話し得る。いくつかの例では、音声信号識別器２１２は、マッチング参照シグネチャを発見するために内部データベース（例えば、データストア２０４、及び／又はメタデータデータベース２０６）と対話し得る。いくつかの例では、音声信号識別器２１２は、透かしを利用して音声信号を識別する。いくつかの例では、音声信号識別器２１２は、他の識別子（例えば、ＩＤ３タグに埋め込まれたカタログ識別子、ＩＳＲＣ識別子など）を利用して音声信号を識別する。音声信号識別器２１２は、任意の技術を利用して音声信号を識別し得る。

[0037]図２の図示された例の例示的なメタデータアクセッサ２１４は、音声信号識別器２１２によって識別されるメディアに対応するメタデータにアクセスすることができる。いくつかの例では、メタデータアクセッサ２１４は、メディア単位（例えば、トラック）の平均音量、及びメディア単位（例えば、トラック）全体にわたる現行音量レベルに関する情報を抽出する。いくつかの例では、メタデータは、メタデータデータベース２０６から取得され得る。いくつかの例では、メタデータは、外部位置（例えば、中核的施設における記憶位置、ネットワークを介してアクセス可能な記憶位置など）から取得され得る。いくつかの例では、利用可能なメタデータは、動的音量調整器２０２のために使用可能なデータを提供するためにメタデータアクセッサ２１４によって処理され得る。いくつかの例では、音量メトリックは、既存の技術及び規格（例えば、本明細書内で参照によりここに組み込まれるＩＴＵ－Ｒ規格ＢＳ．１７７０－４に提示されるような音声プログラマラウドネスを測定するためのアルゴリズム）を使用して処理され得る。例えば、メタデータは、全時間セグメントにおける音量情報を含み得、メタデータアクセッサ２１４は、時間スパン全体にわたる平均音量を決定し得る。いくつかの例では、メタデータアクセッサ２１４は、動的音量調整を実施するために有用なデータに到達するのに必要な任意の計算及び変換を実施し得る。いくつかの例では、メタデータアクセッサ２１４によってアクセスされるメタデータは、メディアの平均音量と所望の音量との差を表す値を含み得、これは、その後、音声信号に平均ゲインを適用するために使用され得る。

[0038]図２の図示された例の例示的な音量調整器２１６は、音声信号の音量レベルを調整する。いくつかの例では、例示的な音量調整器２１６は、音声信号の音量を既知の音量値（例えば、メタデータ内に示されるような）から所望の音量値（例えば、事前に構成された値）へ変換する単一の平均ゲイン値を決定する。そのような例では、例示的な音量調整器２１６は、ゲイン値を音声信号全体に適用して音声信号を変換する。いくつかの例では、例示的な音量調整器２１６は、追加的又は代替的に、リアルタイム音声モニタ２１８からフィードバックされてきた出力レベル（例えば、音量レベル）、及び音声信号の指定のセグメント（例えば、１つのサンプル又は複数のサンプル）についての平均音量レベルが所望の音量レベルに関連した音量しきい値を満足しない（例えば、音量目標を満足しない）ことに応答して、出力されている音声信号にリアルタイムでゲイン値を適用し得る。いくつかの例では、例示的な音量調整器２１６は、メディアのメタデータによって示される平均音量レベルに基づき、音声信号全体にグローバルゲイン値を適用し得る。いくつかの例では、例示的な音量調整器２１６は、メタデータ内で示される大きい音量変化に基づき、及び／又はしきい値が満足されていない（例えば、目標出力レベルが達成されていない）ことを示す、例示的なリアルタイム音声モニタ２１８によって収集されるリアルタイムデータに基づき、音声信号の他のセグメントとは著しく異なる（例えば、より低い又はより高い）音量を有する音声信号の領域にローカルゲイン値を適用し得る。いくつかの例では、メタデータアクセッサ２１４によって取得されるメタデータは、所望の音量レベルを達成するように音声信号に適用するための適切なゲインを直接示すデータを含む。いくつかの例では、例示的な音量調整器２１６は、メタデータアクセッサ２１４によってアクセスされるメタデータに含まれる連続した音量ストリームを使用することによって、将来を考慮した調整能力を有し得る。いくつかの例では、例示的な音量調整器２１６は、音声信号のダイナミックレンジにおける変化が発生する前にこれらの変化を捕らえるように音量に対する調整を行うために、例示的なリアルタイム音声モニタ２１８及びメタデータアクセッサ２１４と連携して機能し得る。例えば、メタデータアクセッサ２１４によってアクセスされるメタデータに含まれる連続的な音量ストリームは、大きい音量変化を示し得、これは、音量調整器２１６が、大きい音量事象の発生前に、ゆっくりと進む音量変化を適用することによって補正することができるものである。したがって、メタデータに示される音量変化の前に、例示的な音量調整器２１６は、音声信号に対するゲイン値を漸進的に調整し、結果としてメディアの音量を調整し得る。

[0039]加えて、リアルタイム音声モニタ２１８は、音量しきい値が満足されていない（例えば、目標音量レベルが達成されていない）ことを示し、リアルタイムで適用されるべき追加の補正因子を音量調整器２１６に供給し得る。いくつかの例では、音声のダイナミックレンジにおける緩徐かつ僅かなシフトは、例示的なダイナミックレンジ圧縮器２０８によって適用される圧縮とは対照的に、補正因子の適用から生じ得る。

[0040]いくつかの例では、音量調整器２１６は、新規メディアが検出される時、及び／又は新規ソースが検出される時に単一の音量調整を行う。そのような手法は、単一の音量調整がソース間及びメディア間で正規化するために行われ得、次いでこの所望の音量レベルが、新規ソース又は新規メディアが検出されるまで維持され得る（以て目立った音量調整を回避する）ことから、連続的な音量調整と比較していくつかの例においては好ましい場合がある。いくつかのそのような例では、音量調整器２１６は、異なるメディア間の正規化を可能にするために、メタデータ内に示されるようなメディアの平均音量に基づき第１のゲインを、及び、ソース間の音量の正規化を可能にするために、入力音声信号とメタデータ内に表される瞬間的な音量測定値との比較に基づき第２のゲインを算出（computing, コンピューティング）する。音量調整器２１６は、入力音声信号の未変更の音量を利用して、この初期の未変更の音量をメタデータアクセッサ２１４からのメタデータ内の瞬間的な音量と比較することによって第２のゲイン値を決定する。次いで、音量調整器２１６は、第１のゲイン値及び第２のゲイン値の両方に基づき適用ゲイン値を算出し、この適用ゲイン値に基づき入力音声信号の音量を調整する。いくつかのそのような例では、第１及び第２のゲイン値は、両方とも、ゲイン値が適用される前の音量測定値に基づく（例えば、未変更の入力音声信号に基づく）。

[0041]いくつかの例では、音量調整器２１６は、音声信号の部分のみの音量レベルを調整する。例えば、音量調整器２１６は、特定のチャネルの音量レベルを調整し得る（例えば、５．１ｍｉｘでのセンターチャネルにおける音量を増大して、映画における会話の認識性を向上する）。

[0042]いくつかの例では、音量調整器２１６によって構成される音量レベルは、データ履歴として記憶される。いくつかの例では、音量レベル履歴は、初期音量レベルを設定するために、ソースが変化するときに（例えば、ラジオから補助入力への移行、ＣＤからラジオ入力への移行など）利用される。いくつかの例では、リアルタイム音声モニタ２１８は、現在の音量レベルをソース及び／又はユーザと関連付けられた音量レベル履歴と比較して、音量調整器２１６に、それに応じて音量レベルを調整するように（例えば、ユーザの選好履歴に適うように音量レベルを低減する、セーフリスニング音量範囲内に留まるように音量レベルを低減するなど）させる。

[0043]図２の図示された例の例示的なリアルタイム音声モニタ２１８は、リアルタイム音量測定データを収集し、音声信号のサンプルについての平均音量レベルを生成し、音声信号のセグメントが、所望の音量レベルに関連した音量しきい値（例えば、目標音量）を満足しない平均音量値を有するかどうかを決定する。例示的なリアルタイム音声モニタ２１８は、音声信号アクセッサ２１０によってアクセスされる入力音声信号、並びに、音声信号が音量調整器２１６によって変更された後、及び／又は音声信号がダイナミックレンジ圧縮器２０８によって変更された後の、メディアユニット１０６の音声出力をモニタする。いくつかの例では、リアルタイム音声モニタ２１８は、処理された音声信号の出力の前に、処理された音声信号から直接音量データを収集し得る。いくつかの例では、リアルタイム音声モニタ２１８はまた、別個の測定デバイス又は機序から音量データ（例えば、メタデータアクセッサ２１４によってアクセスされるメタデータから音量ストリーム）を収集し得る。例示的なリアルタイム音声モニタ２１８は、音声信号のセグメントが所望の音量レベルに関連した音量しきい値（例えば、目標音量）を満足しないという決定に応答して、音量調整器２１６にデータを提供し得る。次いで例示的な音量調整器２１６は、続いて、音声信号を補正するためにゲイン値をローカル又はグローバルに（例えば、音声信号全体にわたって）適用し得、その結果として、音声信号は、次いで、所望の音量レベルに関連した音量しきい値を満足する。いくつかの例では、例示的なリアルタイム音声モニタ２１８は、リアルタイム音声レベルが計算されるサンプル間隔範囲（例えば、７５０ミリ秒～３秒）で事前に構成され得る。いくつかの例では、計算された出力音量レベルを、サンプリング範囲（例えば、７５０ミリ秒～３秒）内のメタデータアクセッサ２１４によってアクセスされるメタデータからのデータのストリームと比較して、音声信号の平均音量レベル及びこのレベルと目標音量レベルとの差を計算する。いくつかの例では、サンプルサイズ、サンプル頻度、及び他のパラメータ（例えば、しきい値）は、構成可能であってもよい。

[0044]ソース間を正規化するためにゲイン値が計算されるいくつかの例では、リアルタイム音声モニタ２１８は、未変更の入力音声信号の初期音量を決定し、ゲイン値が計算されるように、この音量を音量調整器２１６に通信する。いくつかのそのような例では、リアルタイム音声モニタ２１８は、ソース変化が発生したかどうか、又はメディアにおける変化が発生したかどうかを決定し得、以て音量調整器２１６が、新規ゲイン値を計算して、異なるメディア及び／又は異なるソースを正規化することを可能にする。

[0045]いくつかの例では、リアルタイム音声モニタ２１８は、現在の音量レベルを安全な音量レベル範囲及び／又は安全な音量しきい値と比較する。例えば、リアルタイム音声モニタ２１８は、音量レベルが安全なリスニング音量しきい値を超えるときに音量低減をもたらすように構成され得る。

[0046]図２の図示された例の例示的な音声信号出力器２２０は、提示のための音声信号を出力する。いくつかの例では、音声信号出力器２２０は、図１の出力デバイス１１０の要件を満たすように音声信号に対して変換を実施する。いくつかの例では、音声信号がダイナミックレンジ圧縮器２０８によって圧縮された後、それは、動的音量調整器２０２の音声信号出力器２２０に伝送される。いくつかの例では、例示的な音声信号出力器２２０は、音声信号を増幅器又は出力デバイスに伝送する前に、音声信号が音量要件を満たすという最終確認を可能にするために、リアルタイム音声モニタ２１８と直接通信している。

[0047]図１のメディアユニット１０６を実装する例示的な様式は、図２に図示されるが、図２に図示される要素、プロセス、及び／又はデバイスの１つ又は複数は、組み合わされても、分割されても、再配置されても、省略されても、削除されても、及び／又は任意の他の方式で実装されてもよい。さらに、例示的な動的音量調整器２０２、例示的なデータストア２０４、例示的なメタデータデータベース２０６、例示的なダイナミックレンジ圧縮器２０８、例示的な音声信号アクセッサ２１０、例示的な音声信号識別器２１２、例示的なメタデータアクセッサ２１４、例示的な音量調整器２１６、例示的なリアルタイム音声モニタ２１８、例示的な音声信号出力器２２０、及び／又は、より一般的には、図１の例示的なメディアユニット１０６は、ハードウェア、ソフトウェア、ファームウェア、並びに／又は、ハードウェア、ソフトウェア、及び／若しくはファームウェアの任意の組み合わせで実装され得る。したがって、例えば、例示的な動的音量調整器２０２、例示的なデータストア２０４、例示的なメタデータデータベース２０６、例示的なダイナミックレンジ圧縮器２０８、例示的な音声信号アクセッサ２１０、例示的な音声信号識別器２１２、例示的なメタデータアクセッサ２１４、例示的な音量調整器２１６、例示的なリアルタイム音声モニタ２１８、例示的な音声信号出力器２２０、及び／又は、より一般的には、例示的なメディアユニット１０６のいずれかは、１つ又は複数のアナログ又はデジタル回路（複数可）、論理回路、プログラマブルプロセッサ（複数可）、特定用途向け集積回路（複数可）（ＡＳＩＣ（複数可））、プログラマブル論理デバイス（複数可）（ＰＬＤ（複数可））、及び／又はフィールドプログラマブル論理デバイス（複数可）（ＦＰＬＤ（複数可））で実装されてもよい。純粋なソフトウェア及び／又はファームウェア実装形態を網羅するための本特許の装置又はシステム請求項のいずれかを読むとき、例示的な動的音量調整器２０２、例示的なデータストア２０４、例示的なメタデータデータベース２０６、例示的なダイナミックレンジ圧縮器２０８、例示的な音声信号アクセッサ２１０、例示的な音声信号識別器２１２、例示的なメタデータアクセッサ２１４、例示的な音量調整器２１６、例示的なリアルタイム音声モニタ２１８、例示的な音声信号出力器２２０、及び／又は、より一般的には、例示的なメディアユニット１０６のうちの少なくとも１つは、ソフトウェア及び／又はファームウェアを含む、メモリ、デジタルバーサタイルディスク（ＤＶＤ）、コンパクトディスク（ＣＤ）、ブルーレイディスクなどの持続性の（non-transitory、ノントランジトリ）コンピュータ可読記憶デバイス又は記憶ディスクを含むことがここに明示的に定義される。さらに依然として、図１の例示的なメディアユニット１０６は、図２に図示されるものに加えて、及びその代わりに、１つ又は複数の要素、プロセス、及び／若しくはデバイスを含み得、並びに／又は、図示された要素、プロセス、及びデバイスのいずれか若しくはすべてのうちの２つ以上を含み得る。

[0048]図１及び図２のメディアユニット１０６を実装するための例示的なマシン可読命令を表すフローチャートは、図３～図５に示される。この例では、マシン可読命令は、図６に関連して以下に論じられる例示的なプロセッサプラットフォーム６００に示されるプロセッサ６１２などのプロセッサによる実行のためのプログラムを含む。プログラムは、プロセッサ６１２と関連付けられたＣＤ－ＲＯＭ、フロッピーディスク、ハードドライブ、ＤＶＤ、ブルーレイディスク、又はメモリなどの持続性コンピュータ可読記憶媒体に記憶されるソフトウェアにおいて具現化され得るが、プログラム全体及び／又はその部分は、代替的に、プロセッサ６１２以外のデバイスによって実行され得る、及び／又はファームウェア若しくは専用ハードウェアにおいて具現化され得る。さらに、例示的なプログラムは、図３～図５に図示されるフローチャートを参照して説明されるが、例示的なメディアユニット１０６を実装するための多くの他の方法が、代替的に使用され得る。例えば、ブロックの実行の順序は変えられてもよく、及び／又は説明されるブロックのいくつかは、変えられても、削除されても、又は省略されてもよい。追加的又は代替的に、ブロックのいずれか又はすべては、ソフトウェア又はファームウェアを実行することなく対応する動作を実施するように構造化される１つ又は複数のハードウェア回路（例えば、個別及び／又は集積アナログ及び／又はデジタル回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、比較器、演算増幅器（ｏｐ－ａｍｐ）、論理回路など）で実装されてもよい。

[0049]上で述べたように、図３～図５の例示的なプロセスは、情報が任意の持続時間の間（例えば、長期間にわたって、永続的に、短い瞬間の間、一時的なバッファリングの間、及び／又は情報のキャッシュの間）記憶される、ハードディスクドライブ、フラッシュメモリ、リードオンリメモリ、ＣＤ、ＤＶＤ、キャッシュ、ランダムアクセスメモリ、及び／又は任意の他の記憶デバイス若しくは記憶ディスクなどの持続性のコンピュータ及び／又はマシン可読媒体に記憶される符号化命令（例えば、コンピュータ及び／又はマシン可読命令）を使用して実施され得る。本明細書で使用される場合、持続性コンピュータ可読媒体という用語は、任意のタイプのコンピュータ可読記憶デバイス及び／又は記憶ディスクを含むこと、及び伝播信号を除外すること、及び伝送媒体を除外することが明示的に定義される。「含む（ｉｎｃｌｕｄｉｎｇ）」及び「備える（ｃｏｍｐｒｉｓｉｎｇ）」（並びにそれらのすべての形態及び時制）は、オープンエンドの用語であるように本明細書では使用される。したがって、請求項が、「含む（ｉｎｃｌｕｄｅ）」又は「備える（ｃｏｍｐｒｉｓｅ）」の任意の形態（例えば、備える（ｃｏｍｐｒｉｓｅｓ）、含む（ｉｎｃｌｕｄｅｓ）、備えること（ｃｏｍｐｒｉｓｉｎｇ）、含むこと（ｉｎｃｌｕｄｉｎｇ）など）に続いて何かを列挙するときにはいつでも、追加の要素、用語などが対応する請求項の範囲から外れることなく存在し得るということを理解されたい。本明細書で使用される場合、「少なくとも」という句は、請求項のプリアンブルにおいて移行用語として使用される場合、用語「備える（ｃｏｍｐｒｉｓｉｎｇ）」及び「含む（ｉｎｃｌｕｄｉｎｇ）」がオープンエンドであるのと同じ様式でオープンエンドである。

[0050]図１及び図２のメディアユニット１０６を実装するための、及び音声信号の音量調整を実施するために実行され得る、例示的なマシン可読命令は、図３に図示される。先の図面及び関連した説明を参照すると、例示的なマシン可読命令３００は、例示的な動的音量調整器２０２が音声信号を受信すること（ブロック３０２）から始まる。例えば、音声信号アクセッサ２１０は、任意のメディアソースから音声信号を受信し得るか、任意の場所から音声信号にアクセスし得る。

[0051]ブロック３０４において、例示的な動的音量調整器２０２は、音声信号のメディアが識別可能であるかどうかを決定する。例えば、音声信号識別器２１２が、音声信号のメディアが識別可能であるかどうかを決定し得る。いくつかの例では、音声信号識別器２１２は、音声信号に埋め込まれたメディア識別子（例えば、透かし、ＩＤ３タグ、ＩＳＲＣ識別子など）を利用して参照識別子と比較する。いくつかの例では、音声信号識別器２１２は、メディアユニット１０６上に位置するか、又は異なる場所（例えば、中核的施設）に位置する参照データベースと対話し得る。そのような例では、音声信号識別器２１２は、参照データベースに識別子を提供し得、この参照データベースにおいてマッチング識別子の検索が実施され得る。いくつかの例では、音声信号識別器２１２は、音声信号から導出されるフィンガープリントを利用して、音声信号内に表されるメディアが識別可能であるかどうかを決定する。音声信号識別器２１２は、任意の技術を利用して、音声信号内に表されるメディアが識別可能であるかどうかを決定し得る。音声信号のメディアが識別可能であることに応答して、処理はブロック３０８へ移行する。逆に、音声信号のメディアが識別可能ではないことに応答して、処理はブロック３０６へ移行する。

[0052]ブロック３０６において、例示的なメディアユニット１０６は、音声信号のレンジを動的に圧縮して、所望の音量レベルに関連したしきい値を満足するように平均音量レベルを変更する。いくつかの例では、ダイナミックレンジ圧縮器２０８は、音声信号のメディアが識別可能ではないことに応答して、音声信号を動的に圧縮する。いくつかの例では、ダイナミックレンジ圧縮器２０８は、音声信号が音量しきい値を満足しない領域において圧縮されるように、音声を増分的に圧縮する。いくつかの例では、ダイナミックレンジ圧縮器２０８は、音声信号の平均音量が所望の音量に関連したしきい値を満足するように、音声信号全体を圧縮する。

[0053]ブロック３０８において、例示的な動的音量調整器２０２は、平均全体音量及び指定の間隔での現行音量を含む、メディアのメタデータを獲得する。例えば、例示的なメタデータアクセッサ２１４は、音声信号識別器２１２によって識別されるメディアに対応するメタデータをメタデータデータベース２０６から取得し得る。いくつかの例では、例示的なメタデータアクセッサ２１４は、メディアの平均全体音量（例えば、トラックの平均音量）、並びに指定の間隔（例えば、平均音量を計算するためのセグメント）での現行音量（例えば、メディア全体にわたる複数の音量値）を示すデータを受信する。いくつかの例では、メタデータアクセッサ２１４は、メディアの平均音量と所望の音量との差を表す値を含むメタデータにアクセスし得る。そのような例では、メタデータは、所望の音量を達成するように音声信号に適用されるべきゲイン値をさらに含み得る。いくつかの例では、メタデータアクセッサ２１４は、獲得されるメタデータに基づきこれらの値（例えば、平均音量、現行音量、ゲイン値など）のいずれかを計算し得る。いくつかの例では、メタデータアクセッサ２１４は、メディアのセグメントに対応する平均音量の平均に基づきメディアの平均音量を計算し得る。例えば、メタデータアクセッサ２１４は、メディア全体にわたる指定の増分での平均音量データに対応するメタデータにアクセスし得る。そのような例では、メタデータアクセッサ２１４は、次いで、トラックのすべてのセグメントの平均値を平均することによってメディア（例えば、トラック）の平均音量を計算し得る。

[0054]ブロック３１０において、例示的な動的音量調整器２０２は、メタデータに基づき平均ゲインを音声信号に適用して、所望の音量レベルに関連したしきい値を満足するように平均音量を調整する。いくつかの例では、例示的な音量調整器２１６は、平均ゲインを音声信号に適用して、所望の音量レベルに関連したしきい値を満足するように音声信号の平均音量を調整する。例えば、音量調整器２１６は、所望の音量レベル（例えば、マイナス２１デシベルＬｏｕｄｎｅｓｓ，Ｋ－ｗｅｉｇｈｔｅｄ，ｒｅｌａｔｉｖｅｔｏｆｕｌｌｓｃａｌｅ）、及び一部又はすべての音量平均が満足しなければならない指定のしきい値で構成され得る。例えば、しきい値は、所望の音量レベルからの偏差又は音量レベルの許容範囲であり得る。いくつかの例では、音量調整器２１６は、メタデータアクセッサ２１４によってアクセスされるメタデータから直接平均ゲイン値にアクセスする。いくつかの例では、音量調整器２１６は、メタデータアクセッサ２１４によってアクセスされるメタデータに基づき平均ゲイン値を計算する。いくつかの例では、音量調整器２１６は、平均ゲインを音声信号全体に適用する。いくつかの例では、音量調整器２１６は、指定の間隔での現行音量に関するメタデータを利用して、異なるゲイン値をメディアの異なるセグメントに適用する。例示的な音量調整器２１６は、メディアのダイナミクス全体に影響を与えることなく音量しきい値を満足するように音量を調節する方式として、平均ゲイン値を適用する。

[0055]ブロック３１２において、例示的なメディアユニット１０６は、音声信号を出力する。いくつかの例では、例示的な動的音量調整器２０２が音声信号を出力する。音声信号を出力するための詳細な命令は、図４に提供される。

[0056]図１及び図２のメディアユニット１０６を実装するための、及び音声信号を出力し、音声信号のリアルタイム音量調整を提供するために実行され得る、例示的なマシン可読命令は、図４に図示される。先の図面及び関連した説明を参照すると、例示的なマシン可読命令４００は、動的音量調整器２０２が提示されるべき音声信号のサンプルを出力することから始まる。例えば、音声信号出力器２２０は、増幅器又は出力デバイスに出力されるべき音声信号のサンプルを出力し得る。本明細書で使用される場合、音声信号のサンプルは、提示のための音声信号全体を出力することとは対照的に、音声信号のセグメントを指す。

[0057]ブロック４０４において、例示的な動的音量調整器２０２は、音声サンプルが出力される際にリアルタイム音量測定データを収集する。例えば、リアルタイム音声モニタ２１８は、出力音声信号の音量に関するデータを収集する。いくつかの例では、データ収集は、音量測定値を収集する際のサンプルサイズ（例えば、３秒）、並びに音量測定データが収集される頻度を指すサンプル頻度（例えば、７５０ミリ秒ごと）を有し得る。いくつかの例では、リアルタイム音声モニタ２１８は、音声信号の実際の提示の前にデータを収集して、音声信号音量の最終補正を可能にする。他の例では、リアルタイム音声モニタ２１８は、音声信号が提示される際にデータを収集して、その後の提示のための音声信号の補正を可能にする。

[0058]ブロック４０６において、例示的な動的音量調整器２０２は、再生された音声信号の指定の時間スパンにわたる平均音量レベルを生成する。いくつかの例では、例示的なリアルタイム音声モニタ２１８が、再生された音声信号の指定の時間スパンにわたる平均音量レベルを生成する。いくつかの例では、例示的なリアルタイム音声モニタ２１８は、出力音声サンプルに関する平均音量測定値を生成する。いくつかの例では、指定の時間スパンは、音声信号のサンプルの同じ持続時間を指す。他の例では、指定の時間スパンは、サンプルの持続時間とは異なってもよく、複数のサンプル（例えば、３秒の平均化時間スパンである一方、サンプルは１秒の長さ）を含み得る。

[0059]ブロック４０８において、例示的な動的音量調整器２０２は、指定の時間スパンにわたる音量測定値が、メタデータ内に示されるような指定の時間スパンにわたる音量データに対応するかどうかを決定する。例えば、リアルタイム音声モニタ２１８は、生成された平均音量レベルを、音声信号によって表されるメディアに対応するメタデータと比較し得る。例示的なリアルタイム音声モニタ２１８は、指定の時間スパンにわたる音量測定値が、メタデータ内の音量データに対応するかどうかを、平均音量間の差を決定し、この差がマッチングしきい値を満足するかどうかを決定することによって、決定する。いくつかの例では、音声信号は、識別されない場合があり、またメタデータが比較のために利用可能ではない場合があり、結果として、音量測定値がメタデータ内に示されるいかなる音量データとも一致しないということをもたらす。指定の時間スパンにわたる音量測定値がメタデータ内に示される指定の時間スパンにわたる音量データに対応しないことに応答して、処理はブロック４１０へ移行する。逆に、指定の時間スパンにわたる音量測定値がメタデータ内に示される指定の時間スパンにわたる音量データに対応することに応答して、処理はブロック４１６へ移行する。いくつかの例では、例示的なリアルタイム音声モニタ２１８は、加えて、指定の時間スパンにわたる音量測定値を音声信号の来たるセグメントに対応するメタデータと比較して、音量変化が予期されるかどうかを決定し得る。そのような例では、例示的なリアルタイム音声モニタ２１８は、メタデータからのそのような予測情報を音量調整器２１６に提供して、音声信号の音量及び／又はダイナミックレンジの来たる変化を捕らえるように音量を徐々に調整し得る。

[0060]ブロック４１０において、例示的な動的音量調整器２０２は、指定の時間スパンにわたる平均音量レベルが所望の音量レベルに関連した音量しきい値を満足するかどうかを決定する。例えば、リアルタイム音声モニタ２１８は、指定の時間スパンにわたる平均音量レベルが、所望の音量レベルに関連した音量しきい値（例えば、マイナス２１デシベルＬｏｕｄｎｅｓｓ，Ｋ－ｗｅｉｇｈｔｅｄ，ｒｅｌａｔｉｖｅｔｏｆｕｌｌｓｃａｌｅ）を満足するかどうかを決定し得る。指定の時間スパンにわたる平均音量レベルが所望の音量レベルに関連した音量しきい値を満足することに応答して、処理はブロック４１４に移行する。逆に、指定の時間スパンにわたる平均音量が所望の音量レベルに関連した音量しきい値を満足しないことに応答して、処理はブロック４１０に移行する。

[0061]ブロック４１２において、例示的な動的音量調整器２０２は、平均測定音量と所望の音量レベルとの差を決定する。例えば、リアルタイム音声モニタ２１８は、指定の時間スパンにわたる平均音量レベルから所望の音量レベルを減算して、２つの値の間の差を決定し得る。

[0062]ブロック４１４において、例示的な動的音量調整器２０２は、この差に基づきゲイン値を適用して、音声信号を所望の音量レベルに調整する。例えば、音量調整器２１６は、平均測定音量と所望の音量レベルとの差に基づき音声信号に適用するためのゲイン値を計算して、音声信号を所望の音量レベルに調整し得る。いくつかの例では、音量調整器２１６は、余りの音声信号にゲイン値を適用し得る。いくつかの例では、音量調整器２１６は、音声信号が同じメディアに対応する限りゲイン値を適用し得る。いくつかの例では、音量調整器２１６は、音声信号内の異なるセグメントにおける音量レベルの差を捕らえるようにゲイン値をローカルに適用し得る。

[0063]ブロック４１６において、例示的な動的音量調整器２０２は、認識可能なメディア提示又は認識不可能なメディア提示のいずれかに対応する現在の音声信号が、完全に出力されたかどうかを決定する。例えば、音声信号識別器２１２は、認識可能なメディア提示又は認識不可能なメディア提示データのいずれかに対応する現在の音声信号が完全に出力されたかどうかを、音声信号のメディア識別子の存在（又はその欠如）に基づき決定し得る。例えば、音声信号識別器２１２は、メディア識別子のために音声信号を絶え間なくモニタし得る。例示的な音声信号識別器２１２は、次いで、メディア識別子における変化、又はメディア識別子の存在における変化（例えば、メディア識別子の未発見からメディア識別子の発見へ）を、メディア提示又は認識不可能なメディア提示に対応する音声信号が完全に出力されたという指標として解釈し得る。例示的な音声信号識別器２１２は、新規の音声信号が存在するかどうかを確認するためにこの検証を実施し、これには、新規ゲイン値が利用可能なメタデータに基づき算出されることが必要であり得るか、又はメディアが識別不可能である場合にはダイナミックレンジ圧縮が実施されることが必要であり得る。認識可能なメディア提示又は認識不可能なメディア提示に対応する現在の音声信号が完全に出力されたことに応答して、処理は図３の命令に戻り、完結する。逆に、認識可能なメディア提示又は認識不可能なメディア提示に対応する現在の音声信号が完全に出力されていないことに応答して、処理はブロック４０２へ移行する。

[0064]図１及び図２のメディアユニット１０６を実装するための、並びにソース間及びメディア間の音量を正規化するように音量調整を実施するために実行され得る、例示的なマシン可読命令は、図５に図示される。先の図面及び関連した説明を参照すると、例示的なマシン可読命令５００は、例示的なメディアユニット１０６が音声信号にアクセスすること（ブロック５０２）から始まる。いくつかの例では、音声信号アクセッサ２１０は、入力音声信号にアクセスする。

[0065]ブロック５０４において、例示的なメディアユニット１０６は、音声信号で伝達されたメディアが識別可能であるかどうかを決定する。いくつかの例では、音声信号識別器２１２が、音声信号によって伝達されたメディアが識別可能であるかどうかを決定する。音声信号識別器２１２は、任意の透かし、コード、及び／又は他の識別子が音声信号に埋め込まれているかどうかを決定し得る。いくつかの例では、音声信号識別器２１２は、音声信号に基づきシグネチャを決定し、このシグネチャが参照シグネチャと共に記憶位置に表されるかどうかを決定する。音声信号で伝達されたメディアが識別可能であることに応答して、処理はブロック５０８へ移行する。逆に、音声信号で伝達されたメディアが識別可能ではないことに応答して、処理はブロック５０６へ移行する。

[0066]ブロック５０６において、例示的なメディアユニット１０６は、音量しきい値を満足するように音声信号のダイナミックレンジを圧縮又は拡張する。いくつかの例では、ダイナミックレンジ圧縮器２０８が、音量しきい値を満足するように音声信号のダイナミックレンジを圧縮又は拡張する。いくつかの例では、音量しきい値は、音声信号の音量が納まるべき範囲である。いくつかの例では、音量しきい値は、最大又は最小音量値である。

[0067]ブロック５０８において、例示的なメディアユニット１０６は、音声信号で伝達されたメディアを識別する。いくつかの例では、音声信号識別器２１２は、透かし、コード、シグネチャ、フィンガープリント、及び／又は任意の他の識別技術を利用して、音声信号で伝達されたメディアを識別する。

[0068]ブロック５１０において、例示的なメディアユニット１０６は、メディアの平均音量及びメディアの時変音量測定値を含むメタデータを獲得する。いくつかの例では、メタデータアクセッサ２１４が、メディアの平均音量及びメディアの時変音量測定値を含むメタデータを獲得する。メディアの平均音量は、メディアの特徴的な音量である。異なる曲は、例えば、異なる平均音量値を有し得る。平均音量値は、したがって、異なるメディア（例えば、異なる曲）間の音量レベルを正規化することを助けるために利用され得る。メディアの時変音量測定値は、特定の時間におけるメディアの瞬間的な音量測定値を含む。時変音量測定値は、したがって、入力音声信号の瞬間的な音量を、メタデータ内に表される期待値と比較するために利用され得、異なるソース間の音量レベルの正規化を可能にする。

[0069]ブロック５１２において、例示的なメディアユニット１０６は、メディアの平均音量に基づき第１のゲイン値を算出して、異なるメディア間の音量を正規化する。いくつかの例では、音量調整器２１６が、メディアの平均音量に基づき第１のゲイン値を算出して、異なるメディア間の音量を正規化する。第１のゲイン値を算出するため、音量調整器２１６は、メタデータアクセッサ２１４からのメタデータ及びリアルタイム音声モニタ２１８によって測定される音量に基づき、第１のゲイン値を算出する。第１のゲイン値は、識別されたメディアの特定の音量を捕らえるゲインを表す。例えば、比較的静かな曲は、比較的より音の大きい曲よりも大きいポジティブゲインを有し得るが、これは両方の曲を音量しきい値範囲内にするためである。

[0070]ブロック５１４において、例示的なメディアユニット１０６は、音声信号の音量と時変音量測定値との比較に基づき第２のゲイン値を算出して、ソース間を正規化する。いくつかの例では、例示的な音量調整器２１６が、音声信号の音量と時変音量測定値との比較に基づき第２のゲイン値を算出して、ソース間を正規化する。例えば、補助入力を介してメディアユニット１０６に接続されるメディアプレイヤは、ＣＤとは異なるベースライン音量を有し得る。したがって、異なるソース間の音量を正規化するため、入力音量とメタデータの時変音量測定値との瞬間的な比較が実施されて、ソース固有の音量差をオフセットするためのゲインを決定する。第１のゲイン（メディアの平均音量に関するゲイン）の適用前の入力信号の音量レベルは、メタデータ内のメディアの時変測定値と比較される。いくつかの例では、時変音量測定値は、メタデータに含まれない。いくつかのそのような例では、第１のゲイン値が計算され適用され得る。逆に、いくつかの例では、平均音量測定値は、メタデータに含まれない。いくつかのそのような例では、第２のゲイン値が計算され適用され得る。

[0071]ブロック５１６において、例示的なメディアユニット１０６は、第１のゲイン値及び第２のゲイン値に基づき、音声信号に適用するための適用ゲイン値を計算する。いくつかの例では、音量調整器２１６が、第１のゲイン値及び第２のゲイン値に基づき、音声信号に適用するための適用ゲイン値を計算する。いくつかの例では、適用ゲイン値は、第１のゲイン値のみ又は第２のゲイン値のみに基づき得る。

[0072]ブロック５１８において、例示的なメディアユニット１０６は、適用ゲイン値を音声信号に適用する。いくつかの例では、音量調整器２１６が、適用ゲイン値を音声信号に適用する。

[0073]ブロック５２０において、例示的なメディアユニット１０６は、メディアにおける変化が検出されたかどうかを決定する。いくつかの例では、音声信号識別器２１２が、メディアの異なる識別表示に基づき、又はメディアの識別表示の損失に基づき（例えば、透かし及び／又は他の識別子がもはや検出されない）、メディアにおける変化が検出されたかどうかを決定する。メディアにおける変化が検出されていることに応答して、処理はブロック５０８へ移行する。逆に、メディアにおける変化が検出されていないことに応答して、処理はブロック５２２へ移行する。

[0074]ブロック５２２において、例示的なメディアユニット１０６は、ソースにおける変化が検出されたかどうかを決定する。いくつかの例では、音声信号アクセッサ２１０が、ソースにおける変化が検出されたかどうかを決定する。ソースにおける変化が検出されていることに応答して、処理はブロック５１４へ移行する。逆に、ソースにおける変化が検出されていないことに応答して、処理はブロック５２４へ移行する。

[0075]ブロック５２４において、例示的なメディアユニット１０６は、モニタリングを継続するかどうかを決定する。モニタリングを継続することに応答して、処理はブロック５２０へ移行する。逆に、モニタリングを継続しないことに応答して、処理は終了する。

[0076]図６は、図１及び図２の例示的なメディアユニット１０６を実装するために図３～図５の方法を実施するための命令を実行することができる例示的なプロセッサプラットフォーム６００のブロック図である。プロセッサプラットフォーム６００は、例えば、サーバ、パーソナルコンピュータ、モバイルデバイス（例えば、携帯電話、スマートフォン、ｉＰａｄ（登録商標）などのタブレット）、パーソナルデジタルアシスタント（ＰＤＡ）、インターネット家電、ＤＶＤプレイヤ、ＣＤプレイヤ、デジタル映像レコーダ、ブルーレイプレイヤ、ゲーム機、パーソナルビデオレコーダ、セットトップボックス、又は任意の他のタイプのコンピューティングデバイスであり得る。

[0077]図示された例のプロセッサプラットフォーム６００は、プロセッサ６１２を含む。図示された例のプロセッサ６１２は、ハードウェアである。例えば、プロセッサ６１２は、任意の所望のファミリ又は製造業者からの１つ又は複数の集積回路、論理回路、マイクロプロセッサ、又はコントローラで実装され得る。ハードウェアプロセッサは、半導体ベース（例えば、シリコンベース）のデバイスであってもよい。この例では、プロセッサ６１２は、例示的な動的音量調整器２０２、例示的なデータストア２０４、例示的なメタデータデータベース２０６、例示的なダイナミックレンジ圧縮器２０８、例示的な音声信号アクセッサ２１０、例示的な音声信号識別器２１２、例示的なメタデータアクセッサ２１４、例示的な音量調整器２１６、例示的なリアルタイム音声モニタ２１８、例示的な音声信号出力器２２０、及び／又は、より一般的には、図１の例示的なメディアユニット１０６を実装する。図示された例のプロセッサ６１２は、ローカルメモリ６１３（例えば、キャッシュ）を含む。図示された例のプロセッサ６１２は、バス６１８を介して、揮発性メモリ６１４及び不揮発性メモリ６１６を含むメインメモリと通信している。揮発性メモリ６１４は、シンクロナスダイミックランダムアクセスメモリ（ＳＤＲＡＭ）、ダイミックランダムアクセスメモリ（ＤＲＡＭ）、ＲＡＭＢＵＳダイミックランダムアクセスメモリ（ＲＤＲＡＭ）、及び／又は任意の他のタイプのランダムアクセスメモリデバイスで実装され得る。不揮発性メモリ６１６は、フラッシュメモリ及び／又は任意の他の所望のタイプのメモリデバイスで実装され得る。メインメモリ６１４、６１６へのアクセスは、メモリコントローラによって制御される。

[0078]図示された例のプロセッサプラットフォーム６００は、インターフェース回路６２０も含む。インターフェース回路６２０は、イーサネット［登録商標］インターフェース、ユニバーサルシリアルバス（ＵＳＢ）、及び／又は周辺構成要素相互接続（ＰＣＩ）Ｅｘｐｒｅｓｓインターフェースなどの任意のタイプのインターフェース規格で実装され得る。

[0079]図示された例では、１つ又は複数の入力デバイス６２２は、インターフェース回路６２０に接続される。入力デバイス（複数可）６２２は、ユーザがデータ及び／又はコマンドをプロセッサ６１２に入力することを可能にする。入力デバイス（複数可）は、例えば、音声センサ、マイク、カメラ（静止又は映像）、キーボード、ボタン、マウス、タッチスクリーン、トラックパッド、トラックボール、アイソポイント（ｉｓｏｐｏｉｎｔ）デバイス、及び／又は声認識システムで実装され得る。

[0080]１つ又は複数の出力デバイス６２４もまた、図示された例のインターフェース回路６２０に接続される。出力デバイス６２４は、例えば、ディスプレイデバイス（例えば、発光ダイオード（ＬＥＤ）、有機発光ダイオード（ＯＬＥＤ）、液晶ディスプレイ、陰極線管ディスプレイ（ＣＲＴ）、タッチスクリーン、触覚出力デバイス、プリンタ、及び／又はスピーカ）で実装され得る。図示された例のインターフェース回路６２０は、したがって、典型的には、グラフィックドライバカード、グラフィックドライバチップ、及び／又はグラフィックドライバプロセッサを含む。

[0081]図示された例のインターフェース回路６２０はまた、ネットワーク６２６（例えば、イーサネット接続、デジタル加入者回線（ＤＳＬ）、電話回線、同軸ケーブル、携帯電話システムなど）を介した外部マシン（例えば、任意の種類のコンピューティングデバイス）とのデータの交換を促進するために、トランスミッタ、レシーバ、トランシーバ、モデム、及び／又はネットワークインターフェースカードなどの通信デバイスを含む。

[0082]図示された例のプロセッサプラットフォーム６００はまた、ソフトウェア及び／又はデータを記憶するための１つ又は複数の大容量記憶デバイス６２８を含む。そのような大容量記憶デバイス６２８の例は、フロッピディスクドライブ、ハードドライブディスク、コンパクトディスクドライブ、ブルーレイディスクドライブ、独立した複数のディスクからなる冗長配列（ＲＡＩＤ）システム、及びＤＶＤドライブを含む。

[0083]図３～図５の方法を実施するための符号化命令６３２は、大容量記憶デバイス６２８、揮発性メモリ６１４、不揮発性メモリ６１６、及び／又はＣＤ若しくはＤＶＤなどの取り外し可能な持続性コンピュータ可読記憶媒体に記憶され得る。

[0084]先述から、メディアの元のダイナミクスを変更することなく、異なる初期音量特徴を有するメディアがほぼ同じ音量で再生され得るように、メディアの音量を調整する例示的な方法、装置、及び製品が開示されているということを理解されたい。音量均一化の従来の実装形態は、音量を絶え間なく調整し、その結果として音声信号に対して知覚可能な変化を引き起こすが、本明細書に開示される例は、メディアに関するメタデータに基づいた平均ゲイン値による調整を使用した音量均一化を可能にする。加えて、本明細書に開示される例は、音声信号と、適切な平均ゲインが最初に計算されたときの対応するメタデータメディアとの間に差がある場合にトラックの音量を調整するためのリアルタイムモニタリングの技術を説明する。そのような技術は、それらがユーザには感知できないこと、及びシームレスなメディア提示体験のために異なるソース又は同様のソースからの異なるメディアが実質的に同じ音量で再生されることを可能にすることから、従来の実装形態よりも有利である。

[0085]音量を調整するための例示的な装置が開示される。例示的な装置は、音声信号内に表されるメディアを識別するための音声信号識別器、音声信号内のメディアを識別することに応答してメディアと関連付けられたメタデータにアクセスし、メタデータに基づきメディアの平均音量を決定するためのメタデータアクセッサを含む。例示的な装置は、メディアの平均音量に基づき決定される平均ゲイン値に基づき、音声信号の出力音量を調整するための音量調整器を含む。

[0086]いくつかの例では、例示的な装置は、指定の時間スパンについて音声信号のサンプルの平均測定音量と所望の音量レベルとの差を決定するためのリアルタイム音声モニタを含み、音量調整器は、差に基づいた第２のゲイン値に基づき音声信号の音量を調整するためのものである。

[0087]いくつかの例では、平均ゲイン値は、音声信号に適用される初期音量調整であり、第２のゲイン値は、音声信号に適用されるその後の音量調整である。

[0088]いくつかの例では、例示的な装置は、音声信号識別器が音声信号内に表されるメディアを識別することができないときに、音声信号を圧縮するためのダイナミックレンジ圧縮器を含む。

[0089]いくつかの例では、例示的な装置は、音声信号をバッファするための音声信号アクセッサを含み、バッファすることは、音声信号を出力することにおける遅延を引き起こして、メディアを識別し、メタデータにアクセスし、平均音量を決定するための時間を提供する。

[0090]いくつかの例では、平均ゲイン値は、セーフリスニング音量範囲に基づき決定される。

[0091]いくつかの例では、平均ゲイン値は、音声信号のソースタイプについての音量設定履歴に基づき決定される。

[0092]例示的な持続性コンピュータ可読記憶媒体が本明細書に開示される。例示的な持続性コンピュータ可読記憶媒体は、命令を含み、該命令は、実行されると、プロセッサに少なくとも、音声信号内に表されるメディアを識別することと、音声信号内のメディアを識別することに応答してメディアと関連付けられたメタデータにアクセスすることと、メタデータに基づき、メディアの平均音量を決定することと、メディアの平均音量に基づき決定される平均ゲイン値に基づき、音声信号の出力音量を調整することとを行わせる。

[0093]いくつかの例では、コンピュータ可読命令は、実行されると、プロセッサに、指定の時間スパンについて音声信号のサンプルの平均測定音量と所望の音量レベルとの差を決定することと、差に基づいた第２のゲイン値に基づき音声信号の音量を調整することとをさらに行わせる。

[0094]いくつかの例では、平均ゲイン値は、音声信号に適用される初期音量調整であり、第２のゲイン値は、音声信号に適用されるその後の音量調整である。

[0095]いくつかの例では、コンピュータ可読命令は、実行されると、プロセッサに、音声信号内に表されるメディアが識別されないとき、音声信号を圧縮することを行わせる。

[0096]いくつかの例では、コンピュータ可読命令は、実行されると、プロセッサに、音声信号をバッファすることを行わせ、バッファすることは、音声信号を出力することにおける遅延を引き起こして、メディアを識別し、メタデータにアクセスし、平均音量を決定するための時間を提供する。

[0097]いくつかの例では、平均ゲイン値は、セーフリスニング音量範囲に基づき決定される。

[0098]いくつかの例では、平均ゲイン値は、音声信号のソースタイプについての音量設定履歴に基づき決定される。

[0099]本明細書に開示される例示的な方法は、音声信号内に表されるメディアを識別するステップと、音声信号内のメディアを識別することに応答してメディアと関連付けられたメタデータにアクセスするステップと、メタデータに基づき、メディアの平均音量を決定するステップと、メディアの平均音量に基づき決定される平均ゲイン値に基づき、音声信号の出力音量を調整するステップとを含む。

[00100]いくつかの例では、本方法は、指定の時間スパンについて音声信号のサンプルの平均測定音量と所望の音量レベルとの差を決定するステップと、差に基づいた第２のゲイン値に基づき音声信号の音量を調整するステップとを含む。

[00101]いくつかの例では、平均ゲイン値は、音声信号に適用される初期音量調整であり、第２のゲイン値は、音声信号に適用されるその後の音量調整である。

[00102]いくつかの例では、本方法は、音声信号内に表されるメディアが識別されないとき、音声信号を圧縮するステップをさらに含む。

[00103]いくつかの例では、本方法は、音声信号をバッファするステップをさらに含み、バッファすることは、音声信号を出力することにおける遅延を引き起こして、メディアを識別し、メタデータにアクセスし、平均音量を決定するための時間を提供する。

[00104]いくつかの例では、平均ゲイン値は、セーフリスニング音量範囲に基づき決定される。

[00105]特定の例示的な方法、装置、及び製品が本明細書に開示されているが、本特許の対象の範囲はそれらに限定されない。むしろ、本特許は、本特許の特許請求の範囲内に公正に入るすべての方法、装置、及び製品を網羅する。
［発明の項目］
［項目１］
音声音量を調整するための装置であって、
音声信号内に表されるメディアを識別するための音声信号識別器と、
メタデータアクセッサであり、
前記音声信号内の前記メディアを識別することに応答して前記メディアと関連付けられたメタデータにアクセスし、
前記メタデータに基づき、前記メディアの平均音量を決定するためのメタデータアクセッサと、
前記メディアの前記平均音量に基づき決定される平均ゲイン値に基づき、前記音声信号の出力音量を調整するための音量調整器と
を備える、装置。
［項目２］
指定の時間スパンについて前記音声信号のサンプルの平均測定音量と所望の音量レベルとの差を決定するためのリアルタイム音声モニタをさらに含み、前記音量調整器が、前記差に基づいた第２のゲイン値に基づき前記音声信号の前記音量を調整するためのものである、項目１に記載の装置。
［項目３］
前記平均ゲイン値が、前記音声信号に適用される初期音量調整であり、前記第２のゲイン値が、前記音声信号に適用されるその後の音量調整である、項目２に記載の装置。
［項目４］
前記音声信号識別器が前記音声信号内に表されるメディアを識別することができないときに、前記音声信号を圧縮するためのダイナミックレンジ圧縮器をさらに含む、項目１に記載の装置。
［項目５］
前記音声信号をバッファするための音声信号アクセッサをさらに含み、前記バッファすることが、前記音声信号を出力することにおける遅延を引き起こして、前記メディアを識別し、前記メタデータにアクセスし、前記平均音量を決定するための時間を提供する、項目１に記載の装置。
［項目６］
前記平均ゲイン値が、セーフリスニング音量範囲に基づき決定される、項目１に記載の装置。
［項目７］
前記平均ゲイン値が、前記音声信号のソースタイプについての音量設定履歴に基づき決定される、項目１に記載の装置。
［項目８］
コンピュータ可読命令を含む持続性コンピュータ可読記憶媒体であって、前記コンピュータ可読命令が、実行されると、プロセッサに少なくとも
音声信号内に表されるメディアを識別することと、
前記音声信号内の前記メディアを識別することに応答して、前記メディアと関連付けられたメタデータにアクセスすることと、
前記メタデータに基づき、前記メディアの平均音量を決定することと、
前記メディアの前記平均音量に基づき決定される平均ゲイン値に基づき、前記音声信号の出力音量を調整することと、
を行わせる、持続性コンピュータ可読記憶媒体。
［項目９］
前記コンピュータ可読命令が、実行されると、前記プロセッサに
指定の時間スパンについて前記音声信号のサンプルの平均測定音量と所望の音量レベルとの差を決定することと、
前記差に基づいた第２のゲイン値に基づき前記音声信号の前記音量を調整することと、
を行わせる、項目８に記載の持続性コンピュータ可読記憶媒体。
［項目１０］
前記平均ゲイン値が、前記音声信号に適用される初期音量調整であり、前記第２のゲイン値が、前記音声信号に適用されるその後の音量調整である、項目９に記載の持続性コンピュータ可読記憶媒体。
［項目１１］
前記コンピュータ可読命令が、実行されると、前記プロセッサに、前記音声信号内に表されるメディアが識別されないときに、前記音声信号を圧縮することを行わせる、項目８に記載の持続性コンピュータ可読記憶媒体。
［項目１２］
前記コンピュータ可読命令が、実行されると、前記プロセッサに、前記音声信号をバッファすることを行わせ、前記バッファすることが、前記音声信号を出力することにおける遅延を引き起こして、前記メディアを識別し、前記メタデータにアクセスし、前記平均音量を決定するための時間を提供する、項目８に記載の持続性コンピュータ可読記憶媒体。
［項目１３］
前記平均ゲイン値が、セーフリスニング音量範囲に基づき決定される、項目８に記載の持続性コンピュータ可読記憶媒体。
［項目１４］
前記平均ゲイン値が、前記音声信号のソースタイプについての音量設定履歴に基づき決定される、項目８に記載の持続性コンピュータ可読記憶媒体。
［項目１５］
音声信号内に表されるメディアを識別するステップと、
前記音声信号内の前記メディアを識別することに応答して、前記メディアと関連付けられたメタデータにアクセスするステップと、
前記メタデータに基づき、前記メディアの平均音量を決定するステップと、
前記メディアの前記平均音量に基づき決定される平均ゲイン値に基づき、前記音声信号の出力音量を調整するステップと
を含む方法。
［項目１６］
指定の時間スパンについて前記音声信号のサンプルの平均測定音量と所望の音量レベルとの差を決定するステップと、
前記差に基づいた第２のゲイン値に基づき前記音声信号の前記音量を調整するステップと、をさらに含む、項目１５に記載の方法。
［項目１７］
前記平均ゲイン値が、前記音声信号に適用される初期音量調整であり、前記第２のゲイン値が、前記音声信号に適用されるその後の音量調整である、項目１６に記載の方法。
［項目１８］
前記音声信号内に表される前記メディアが識別されないときに、前記音声信号を圧縮するステップをさらに含む、項目１５に記載の方法。
［項目１９］
前記音声信号をバッファするステップをさらに含み、前記バッファすることが、前記音声信号を出力することにおける遅延を引き起こして、前記メディアを識別し、前記メタデータにアクセスし、前記平均音量を決定するための時間を提供する、項目１５に記載の方法。
［項目２０］
前記平均ゲイン値が、セーフリスニング音量範囲に基づき決定される、項目１５に記載の方法。

Claims

音声音量を調整するための装置であって、
音声信号内に表されるメディアを識別するための音声信号識別器と、
メタデータアクセッサであり、
前記音声信号内の前記メディアを識別することに応答して前記メディアと関連付けられたメタデータにアクセスし、
前記メタデータに基づき、前記メディアの平均音量を決定するためのメタデータアクセッサと、
第１のゲイン値に基づき、前記音声信号の出力音量を調整するための音量調整器であり、
前記第１のゲイン値が、
他のメディア間の前記音声信号の出力音量の正規化を可能にするための第２のゲイン値であり、前記メディアの前記平均音量に基づき決定される第２のゲイン値と、
ソース間の前記音声信号の出力音量の正規化を可能にするための第３のゲイン値であり、前記音声信号と、前記メタデータ内に表される瞬間的な音量測定値との比較に基づき決定される第３のゲイン値と、
を使用して決定される、音量調整器と
を備える、装置。
指定の時間スパンについて前記音声信号のサンプルの平均測定音量と所望の音量レベルとの差を決定するためのリアルタイム音声モニタをさらに含み、前記音量調整器が、前記差に基づいた第４のゲイン値に基づき前記音声信号の前記出力音量を調整するためのものである、請求項１に記載の装置。
前記第１のゲイン値が、前記音声信号に適用される初期音量調整であり、前記第４のゲイン値が、前記音声信号に適用されるその後の音量調整である、請求項２に記載の装置。
前記音声信号識別器が前記音声信号内に表される前記メディアを識別することができないときに、前記音声信号を圧縮するためのダイナミックレンジ圧縮器をさらに含む、請求項１に記載の装置。
前記音声信号をバッファするための音声信号アクセッサをさらに含み、前記バッファすることが、前記音声信号を出力することにおける遅延を引き起こして、前記メディアを識別し、前記メタデータにアクセスし、前記平均音量を決定するための時間を提供する、請求項１に記載の装置。
前記第１のゲイン値が、セーフリスニング音量範囲に基づき決定される、請求項１に記載の装置。
前記第１のゲイン値が、前記音声信号のソースタイプについての音量設定履歴に基づき決定される、請求項１に記載の装置。
コンピュータ可読命令を含む持続性コンピュータ可読記憶媒体であって、前記コンピュータ可読命令が、実行されると、プロセッサに少なくとも
音声信号内に表されるメディアを識別することと、
前記音声信号内の前記メディアを識別することに応答して、前記メディアと関連付けられたメタデータにアクセスすることと、
前記メタデータに基づき、前記メディアの平均音量を決定することと、
第１のゲイン値に基づき、前記音声信号の出力音量を調整することであり、
前記第１のゲイン値が、
異なるメディア間の前記出力音量の正規化のための第２のゲイン値であり、前記メディアの前記平均音量に基づき決定される第２のゲイン値と、
異なるソース間の前記出力音量の正規化のための第３のゲイン値であり、前記音声信号と、前記メタデータ内に含まれる瞬間的な音量測定値との比較に基づき決定される第３のゲイン値と、
を使用して決定される、調整することと、
を行わせる、持続性コンピュータ可読記憶媒体。
前記コンピュータ可読命令が、実行されると、前記プロセッサに
指定の時間スパンについて前記音声信号のサンプルの平均測定音量と所望の音量レベルとの差を決定することと、
前記差に基づいた第４のゲイン値に基づき前記音声信号の前記出力音量を調整することと、
を行わせる、請求項８に記載の持続性コンピュータ可読記憶媒体。
前記第１のゲイン値が、前記音声信号に適用される初期音量調整であり、前記第４のゲイン値が、前記音声信号に適用されるその後の音量調整である、請求項９に記載の持続性コンピュータ可読記憶媒体。
前記コンピュータ可読命令が、実行されると、前記プロセッサに、前記音声信号内に表される前記メディアが識別されないときに、前記音声信号を圧縮することを行わせる、請求項８に記載の持続性コンピュータ可読記憶媒体。
前記コンピュータ可読命令が、実行されると、前記プロセッサに、前記音声信号をバッファすることを行わせ、前記バッファすることが、前記音声信号を出力することにおける遅延を引き起こして、前記メディアを識別し、前記メタデータにアクセスし、前記平均音量を決定するための時間を提供する、請求項８に記載の持続性コンピュータ可読記憶媒体。
前記第１のゲイン値が、セーフリスニング音量範囲に基づき決定される、請求項８に記載の持続性コンピュータ可読記憶媒体。
前記第１のゲイン値が、前記音声信号のソースタイプについての音量設定履歴に基づき決定される、請求項８に記載の持続性コンピュータ可読記憶媒体。
音声信号内に表されるメディアを識別するステップと、
前記音声信号内の前記メディアを識別することに応答して、前記メディアと関連付けられたメタデータにアクセスするステップと、
前記メタデータに基づき、前記メディアの平均音量を決定するステップと、
第１のゲイン値に基づき、前記音声信号の出力音量を調整するステップであり、
前記第１のゲイン値が、
異なるメディア間の前記出力音量の正規化のための第２のゲイン値であり、前記メディアの前記平均音量に基づき決定される第２のゲイン値と、
異なるソース間の前記出力音量の正規化のための第３のゲイン値であり、前記音声信号と、前記メタデータ内に含まれる瞬間的な音量測定値との比較に基づき決定される第３のゲイン値と、
を使用して決定される、調整するステップと
を含む方法。
指定の時間スパンについて前記音声信号のサンプルの平均測定音量と所望の音量レベルとの差を決定するステップと、
前記差に基づいた第４のゲイン値に基づき前記音声信号の前記出力音量を調整するステップと、をさらに含む、請求項１５に記載の方法。
前記第１のゲイン値が、前記音声信号に適用される初期音量調整であり、前記第４のゲイン値が、前記音声信号に適用されるその後の音量調整である、請求項１６に記載の方法。
前記音声信号内に表される前記メディアが識別されないときに、前記音声信号を圧縮するステップをさらに含む、請求項１５に記載の方法。
前記音声信号をバッファするステップをさらに含み、前記バッファすることが、前記音声信号を出力することにおける遅延を引き起こして、前記メディアを識別し、前記メタデータにアクセスし、前記平均音量を決定するための時間を提供する、請求項１５に記載の方法。
前記第１のゲイン値が、セーフリスニング音量範囲に基づき決定される、請求項１５に記載の方法。