JP2015531084A

JP2015531084A - 主観的忠実度のための音声コンテンツの変換

Info

Publication number: JP2015531084A
Application number: JP2015527646A
Authority: JP
Inventors: アントネリーズ、ダーシー; オストロバー、ルイス
Original assignee: ワーナー・ブラザーズ・エンターテイメント・インコーポレイテット
Priority date: 2012-08-15
Filing date: 2013-08-15
Publication date: 2015-10-29
Anticipated expiration: 2033-08-15
Also published as: US11075609B2; CN104541328A; CN104541328B; HK1211737A1; EP2885786B1; US20200403590A1; EP2885786A1; US10340870B2; US20140050334A1; US10700657B2; EP2885786A4; WO2014028783A1; US20200162050A1; JP6231102B2; US20180006622A1; US9748914B2

Abstract

リスナに音楽などの音声プログラミングを配信するための方法または装置は、コンテンツが異なるリスナによって知覚される方法と同様にリスナがコンテンツを知覚するように、音声コンテンツを変換するために、リスナ音声知覚特性（時にリスナ個人波形プロファイルと称される）を識別、記録、および適用することを含んでもよい。音声試験ツールは、個々のリスナ個人波形プロファイルを識別および記録するためのソフトウェアアプリケーションとして実装されてもよい。信号プロセッサは、異なるプロファイル間の差異に基づき音声出力を提供するために、個々のリスナ個人波形プロファイルを使用して、ソース音声コンテンツを処理するアルゴリズムを作動させてもよい。【選択図】図１

Description

本願は概して、コンピュータを使用して音声データを処理することに関し、より具体的には、コンテンツプロデューサまたは他の人物の聴覚経験に対する主観的忠実度のために、音声コンテンツを変換することに関する。

アナログおよびデジタル音声コンテンツは通常、様々な種類のアナログおよびデジタル媒体を介して、創作、記録、記憶、および消費者に配信される。例えば、ＣＤ、ＤＶＤ、ＢＤ、磁気テープ、ＬＰレコード、フィルムプリント、デジタルファイル、およびストリームが、消費者によって楽しまれる十分な忠実度をもたらすために、種々の固有の限界および利点を有して使用される。上記の創作、記録、記憶、および伝送媒体および手段のうちの多くの利点および欠点は、よく知られている。

各リスナは、その聴覚経験に個人的な一連の知覚特性をもたらす。各リスナの聴力と知覚装置との間には自然な差異があるため、個々のリスナは、別の人物によって、例えばコンテンツプロデューサによって経験されるようには、同一のコンテンツとは異なって音声コンテンツを経験し得る。自然な周波数、動的、および時間領域偏差が、リスナ間の各耳の間を含む、異なるリスナ間に存在し得る。これらの自然的に発生する差異は、明らかな音響強度、ピッチ、異なる周波数における「可聴閾値」などの閾値、および位置的キューへの感度における差異を含み得る。

ポピュラー音楽および映画／エピソードサウンドトラックのクリエイティブプロデューサのミックスが入手可能であり、それぞれが、周波数応答曲線およびバランス、動力学、またはサラウンド、エコー、遅延、もしくは他の位置的キューなどの単一チャネル、ステレオ、もしくは多チャネル効果など、ある特定の音声特性を重視し得るクリエイティブな選択を強調する。しかしながら、各リスナの外耳および内耳の身体的特性、ならびに各リスナの知覚バイアスは、同一の環境中で同一の音響再生装置を使用しているときでさえ、同一の録音を聴取するときに各リスナが聞こえるものに影響を及ぼす。各リスナが聞こえるものの差異は、リスナが、クリエイティブプロデューサが目的としたものを主観的に知覚することを妨げることによって、プロデューサとリスナとの間のコミュニケーションにわずかな障害を引き起こす可能性がある。

特定の録音（時に「ミックス」と称される）の提示におけるクリエイティブな目的は、特定の聴取経験、例えば、ある特定の周波数バランス、動力学、およびサラウンド音場を含む聴取経験をリスナに提供することを含み得る。音声再生のための創作、記録、記憶、および配信システムは多くの場合、ソースコンテンツに高忠実度を提供しようとして厳しく管理されるが、それにもかかわらず、各リスナの耳および知覚バイアスは、プレイヤデバイスを使用して録音を聴取するときに、制御されない方法でリスナの聴覚経験に影響を及ぼし得る。したがって、リスナの主観的経験は、オーディオプレイヤおよび聴取環境における高忠実度再生への細心の注意にもかかわらず、コンテンツプロデューサによって意図された音響的経験と一致しない可能性がある。

高忠実度のために音声コンテンツを処理するための従来の方法のこれらおよび他の制限は、本明細書に開示された新規の方法および装置によって克服され得る。

主観的忠実度を達成するために、音声コンテンツを変換するための方法、装置、およびシステムが、発明を実施するための形態に詳述され、ある特定の態様が以下に要約される。この発明の概要および発明を実施するための形態は、総合的な開示の補完的な部分として解釈されるべきであり、それらの部分は、重複主題および／または補足主題を含んでもよい。いずれの項における省略も、総合的な本出願書に記載される任意の要素の優先順位または相対的重要性を示さない。項間の差異は、個々の開示から明らかになるように、異なる用語を使用した代替の実施形態、追加の詳細、または同一の実施形態の代替の記載の補足的な開示を含んでもよい。

音楽などの音声プログラミングをリスナに配信する方法は、別のリスナが、コンテンツがコンテンツプロデューサなどの参照リスナによって知覚される方法と同様にコンテンツを知覚するように、音声コンテンツを変換するために、参照リスナの（例えば、コンテンツプロデューサの）音声知覚特性（本明細書において時にリスナの個人波形プロファイル（ＰＷＰ）と称される）を識別、記録、および適用することを含んでもよい。したがって、ある意味では、音声信号は、リスナに対して測定または推定されたＰＷＰと、コンテンツプロデューサなどの何らかの他の人物に対して測定または推定されたＰＷＰとの間の差異に基づき、各リスナに対してカスタムメイドされ得る。

方法の態様は、クリエイティブプロデューサおよび各対象とするリスナのそれぞれの固有の個人波形プロファイルを識別および記録するために、音声試験ツールおよびソフトウェアアプリケーションを適用することを含んでもよい。方法はさらに、音声出力を提供するために、個々のリスナの個人波形プロファイルを使用して、ソース音声コンテンツを処理するアルゴリズムの動作を含んでもよい。音声出力は、第２のリスナに、ソース音声コンテンツの第１のリスナの主観的経験により近く、音声出力を主観的に経験させるように構成される。その結果、聴衆の一員の主観的聴取経験が、任意の他の人物、例えば、音声クリエイティブプロデューサの聴取経験により近くなるように行われ得、聴衆の一員であるリスナが他の人物と同様の聴取経験を共有できるようにする。

いくつかの実施形態では、音声入力および音声出力に連結されたデジタル信号プロセッサが、音声信号を処理するための方法を実施してもよい。方法は、聴力測定参照プロファイル、聴力測定リスナプロファイル、および符号化された入力音声信号を受信することを含んでもよい。方法はさらに、出力音声信号が差異を補償するように、参照プロファイルまたは好ましいリスナのプロファイルと他のリスナプロファイルとの間の差異に基づき、信号プロセッサを使用して、入力音声信号を出力音声信号に変換することを含んでもよい。変換は、符号化された信号上でデジタル的に実施され、符号化された出力信号を生成してもよい。代替方法において、変換は、デジタルプロセッサの制御下で、復号されたアナログ音声信号を操作する増幅器および／または遅延回路を使用して実施されてもよい。

いくつかの実施形態では、入力音声信号を変換することは、参照およびリスナプロファイルの対応する１つ以上の周波数における差異に比例して、入力音声信号の１つ以上の周波数を変更することを含んでもよい。方法はさらに、第１の人物に対する聴力検査結果に基づき、聴力測定参照プロファイルを生成することと、第２の人物に対する聴力検査結果に基づき、聴力測定リスナプロファイルを生成することとを含んでもよい。その場合、入力音声信号を変換することはさらに、差異が、第１の人物が第２の人物よりも音に敏感であることを示す、１つ以上の周波数において、入力信号を増大させることによって、かつ差異が、第１の人物が第２の人物ほど音に敏感ではないことを示す、１つ以上の周波数において、入力信号を軽減することによって、出力信号を生成することをさらに含んでもよい。入力信号を増大させることは、例えば、音声スペクトルの定義された周波数帯域部分にわたって、信号の振幅を増加させることを含んでもよい。同様に、入力信号を軽減することは、例えば、音声スペクトルの定義された周波数帯域部分にわたって、信号の振幅を減少させることを含んでもよい。

一態様では、符号化された入力音声信号は、第１の人物によって編集されているものとして示されてもよい。例えば、第１の人物は、音声信号が得られる音声トラックまたはプログラムのクリエイティブプロデューサであってもよい。オーディオプレイヤは、リスナが音声信号の変換の基礎を理解することができるように、プロデューサの指示を提供してもよい。出力音声信号は、オーディオプレイヤデバイスによって再生され、第２の人物によって聴取されるとき、第２の人物の聴取経験が、出力音声信号から生成される音に対して、第１の人物に対する聴取経験により近くなるように構成されてもよい。第１の人物がコンテンツプロデューサであるとき、第２の人物（例えば、音声の消費者）は、よりプロデューサによって経験および意図されたように、音声コンテンツを経験し得る。

他の態様では、聴力測定リスナプロファイルを生成することは、聴力測定リスナプロファイルがリスナの群に対する総計基準を表すように、一般集団のサンプルに対する聴力測定データに基づいてもよい。例えば、総計（例えば、平均または中央）聴力測定プロファイルは、異なる性別および年齢幅に対して作成されてもよい。これらの平均プロファイルは、個人の聴力測定データが利用可能ではないときに、リスナプロファイルに接近するために使用されてもよい。

異なる周波数における感度の差異を補償することに加えて、方法はまた、聴覚応答に必要とされる時間の差異を補償するために使用されてもよい。外耳道および耳の他の身体的構造に差異があるため、個人は、わずかに異なる時間に音を知覚し得る。時間の差異は、位置的キューまたは動的効果を知覚する上で差異を引き起こし得る。これらの差異を補償するために、入力音声信号を変換することは、参照およびリスナプロファイルの対応する１つ以上の時間における差異に比例して、入力音声信号の１つ以上の時間における音声信号の位相を変更することを含んでもよい。例えば、位相を変更することは、音声信号によって符号化された音が発生する時間を変化させることによって、音声信号の定義されたサブバンドに対して実施されてもよい。タイムシフトは、異なるチャネル（例えば、右もしくは左チャネル）または上記のチャネルの周波数帯域の音が互いに対して生じる時間を変化させてもよい。

関連した態様では、音声処理装置は、上記で要約された方法および方法の態様のいずれかを実施するために提供されてもよい。装置は、例えば、メモリに連結されたプロセッサであって、メモリが、装置に上記のような動作を実施させるためのプロセッサによる実行のための命令を保持する、プロセッサと、ソース音声信号を提供するためにプロセッサに連結された音声入力と、変換された音声信号を出力するためにプロセッサに連結された音声出力とを含んでもよい。プロセッサ、音声入力、および音声出力を含む装置のある特定の態様（例えば、ハードウェア態様）は、メディアプレイヤ、ｍｐ３プレイヤ、コンピュータサーバ、パーソナルコンピュータ、ネットワーク対応テレビ、セットトップボックス、スマートフォン、ノートパッドまたはタブレットコンピュータ、ラップトップコンピュータ、および音声コンテンツにアクセスするために使用される様々な種類の他のコンピュータデバイスなどの機器によって例示され得る。同様に、プロセッサによって実行されるとき、音声信号処理に適したコンピュータデバイスに、上記に要約されたような方法および方法の態様を実施させ得る、符号化された命令を保持する、非一時的コンピュータ可読媒体を含む、製造物品が提供されてもよい。

主観的忠実度のために音声コンテンツを変換するための方法、装置、およびシステムのさらなる実施形態、態様、および詳細は、以下の発明を実施するための形態に示される。

１つ以上の種々の実施形態に従った本技術は、以下の図面を参照して詳述される。図面は例示目的のみで提供され、単に本技術の典型的または例示的な実施形態を図示するにすぎない。同様の要素番号は、図面のうちの１つ以上に表示される同様の要素を示すために使用され得る。

本明細書に記載されるような方法を実施するために使用されてもよいシステムの一実施形態を示す、概略図である。本明細書に記載される方法を支持および実行するためのオーディオプレイヤの一実施形態を示す、概略ブロック図である。主観的忠実度のために音声コンテンツを変換する一般的な態様を示す、状態図である。主観的忠実度のために音声コンテンツを変換するためのデータフローおよび過程を示す、ブロック図である。位置的キュー感度の聴力検査のためのグラフィカルユーザインターフェースの一例を示す、簡略化したスクリーンショットである。異なる周波数における聴覚感度を示す、聴力図の一例である。異なる周波数における知覚時間差を示す、聴力図の一例である。代替実施形態における、ＰＷＰ差異に基づいて音声信号を変更するための信号プロセッサおよび過程の態様を示す、ブロック図である。代替実施形態における、ＰＷＰ差異に基づいて音声信号を変更するための信号プロセッサおよび過程の態様を示す、ブロック図である。主観的忠実度のために音声コンテンツを変換することに関連して、音声処理装置によって実施され得る動作を示す図である。主観的忠実度のために音声コンテンツを変換することに関連して、音声処理装置によって実施され得る動作を示す図である。主観的忠実度のために音声コンテンツを変換することに関連して、音声処理装置によって実施され得る動作を示す図である。主観的忠実度のために音声コンテンツを変換することに関連して、音声処理装置によって実施され得る動作を示す図である。主観的忠実度のために音声コンテンツを変換するように構成される音声処理装置を示す図である。

以下の記載において、説明目的で、１つ以上の実施形態の徹底的な理解を提供するために、多くの特定の詳細が記載される。しかしながら、１つ以上の実施形態は、これらの特定の詳細なしで実施されてもよいことが明らかであり得る。他の場合において、よく知られている構造およびデバイスが、１つ以上の実施形態の記載を容易にするためにブロック図形態で示される。

音声処理のための既知の方法に反して、本技術は、周波数、動力学、および時間領域において音声を単調または実質的に歪みのない状態にするために音声を補正しないし、何らかの形態の一般的な応答フィルタリングを使用して、複数のリスナ（すなわち、１つの部屋内の複数のリスナ位置における）用にも補正しない。代わりに、本技術は、異なるリスナの聴力間の自然な差異を補償するために、音声信号を意図的に歪ませるか、または別様に輪郭を付けるために使用されてもよい。音声は、クリエイティブプロデューサの個人波形プロファイルに従って輪郭が付けられたそのミックスが他人によって楽しまれ得るように、すでに決定された個人波形プロファイルに従って輪郭が付けられてもよい。

この音声処理は、クリエイティブプロデューサの音声コンテンツのオリジナルおよび個人の経験と一致した方法で、音声コンテンツの特定の経験をより広く共有するために使用され得る。クリエイティブプロデューサのＰＷＰは、デフォルトまたは推定されたＰＷＰを参照して、他のリスナのために他のコンテンツを変換するために使用され得るか、あるいはクリエイティブプロデューサのＰＷＰは、下流のリスナのＰＷＰを置き換えるために効果的に操作するために使用され得る。

本技術の一態様では、各リスナの聴覚応答力および知覚特性またはバイアスの基本的および大きな影響を及ぼす特性のいくつか、例えば、クリエイティブ音声プロデューサの聴覚および音声知覚特性は、パラメータの形態の一貫した双方向の方法で、各リスナのＰＷＰを識別および記録することによって特徴づけられる。例えば、双方向の聴力測定式アプリケーションが、パーソナルコンピュータ、スマートフォン、タブレット、またはノートパッドコンピュータ上で実行されてもよい。アプリケーションは、ビジュアルユーザインターフェースを通して管理される試験プロトコルを用いて、ヘッドホンまたは小型イヤホンを通して聴取され得る聴力測定音を生成してもよい。基準からの各リスナの異なる聴覚応答バイアスまたは偏差は、聴力検査データまたは聴覚パラメータの１セットとして識別および記録され得る。パラメータとして識別および記録され得る各リスナの聴覚および知覚バイアスの基本的なおよび大きな影響を及ぼす特性の例としては、例えば、周波数応答力の基準からの聴力測定偏差、異なる音量レベルに対する周波数応答力、すなわち、ラウドネス曲線、全体バランス、すなわち、周波数応答傾斜、および位置キューに対する感度が挙げられ得る。

他の態様では、アルゴリズムは、双方向の聴力測定式試験アプリケーションから抽出し、ＰＷＰパラメータを聴力図もしくは信号変換関数として使用され得る他の表示に変換するために、または音声コンテンツを変換するソフトウェアを駆動するために使用されてもよい。例えば、クリエイティブプロデューサのＰＷＰは、参照値（複数を含む）と比較した聴力図として表示され、次いで、例えば、選択された周波数および／またはチャネルにおける音声周波数またはタイムシフトを増大または軽減することによって、他の測定された聴力検査パラメータＰＷＰが比較および変換され得る基準として使用されてもよい。好ましいクリエイティブプロデューサ以外のリスナに対して、ある特定の測定された聴覚特性を有するクリエイティブプロデューサによって記録されているソース資料は、たとえ聴力検査パラメータによって表される他のリスナの聴覚特性がクリエイティブプロデューサとは異なっていても、周波数応答、動力学、位置キュー、およびクリエイティブプロデューサの聴覚を制御する他の関連特性を復元または別様に協調／非強調するために、例えば等化およびフィルタリング技術を使用して、「正規化」または別様に変換されてもよい。

他の態様では、分散型およびホストコンピューティングリソースのシステムが、記録されたＰＷＰ変換を記憶およびアクセス可能にするために、例えば、クラウドストレージを介してデータを記憶し、記憶されたデータへのアクセスを提供するために、使用されてもよい。このデータは後に、ＰＷＰ中に記録されたバイアスと一致した方法で、音声コンテンツを変換するために選択され、音声コンテンツに適用され得る。一人物のＰＷＰは、ＰＷＰパラメータ間の差異に基づき、例えば、選択的周波数強調／非強調、異なる音量バランスにおける周波数感度、および位置キュー強調／非強調によって、別の人物のＰＷＰに対してスワップアウトされ得る。

一モードにおいて、クリエイティブプロデューサのＰＷＰ変換は、このクリエイティブプロデューサによってすでにミックスされたコンテンツだけではなく、任意のコンテンツに適用され得る。別のモードにおいて、クリエイティブプロデューサのＰＷＰ変換は、好ましいクリエイティブプロデューサのＰＷＰ変換対下流のリスナのＰＷＰ変換に照らして、所望の音声特性が増大または軽減されるように、下流のリスナのＰＷＰ変換が、クリエイティブプロデューサのＰＷＰ変換の音声特性をよりよく伝達する逆変換パラメータを使用して、正規化され得るように、第２の異なるリスナのＰＷＰと比較され得る。例えば、フィルタリングまたは他のＰＷＰ関連強調／非強調は、クリエイティブプロデューサによって意図されるが、下流のリスナによって意図された忠実度で知覚されない、ある特定の周波数、周波数帯域、動力学、またはバランス特性を復元してもよい。別のモードにおいて、ＰＷＰの第１または第２のモードは、例えば比較目的で、スイッチを切られ得る。

ＰＷＰ変換特性が上記の双方向の聴力測定式試験を使用して識別および記録され得る、異なる環境がある。例えば、試験は、小型イヤホン試験を介して外耳道で、ヘッドホンを使用してオンイヤーもしくはオーバーイヤーで、またはラウドスピーカを使用して部屋もしくは仕切りのない空間などの空間で、実施されてもよい。この場合、外耳道が小型イヤホンを介して伝達される音に影響を与える方法とは異なる方法で、部屋およびヘッドホンが音声システム（例えば、従来のスピーカまたはヘッドホン）によって再生される音を「読み込む」ため、異なる層の解釈が関わり得る。

同様に、例えば、ヘッドホンもしくは小型イヤホンを介して、またはラウドスピーカを使用して部屋もしくは仕切りのない空間で、音声コンテンツが楽しまれ得る、異なる環境がある。加えて、異なる音声再生システムがいくつかの周波数、周波数帯域、動力学、および位置キューを再生することが可能であることまたは不可能であることは、装置およびこれらの環境の詳細によって異なる。

そのような環境の差異を説明するために、ＰＷＰを作成するためのアプリケーション試験の異なるモードは、聴力検査または聴取環境がそれぞれ、インイヤ式小型イヤホン、オーバーイヤーもしくはオンイヤーヘッドホン、または他の「包囲」環境であるかどうかに応じて作成されてもよい。再生環境におけるインイヤ式小型イヤホン、オーバーイヤーもしくはオンイヤーヘッドホン、または他の「包囲」環境の変化は、ＰＷＰ変換を適用するときに考慮されてもよい。

聴力検査のための双方向のアプリケーションは、標準的な聴力検査よりも異なるかつ面白いユーザインターフェースを有して作成され得る。例えば、インターフェースは、ユーザが、ＰＷＰの関連パラメータを識別および記録するために、ある特定の周波数、周波数帯域、動力学、および位置キュー材料を強調するコンテンツを使用して、何が「より心地良いか、またはあまり心地良くないか」を選択することを可能にするように構成されてもよい。

コンテンツに適用される、または別のＰＷＰ変換と置き換えられる、ＰＷＰ変換の加法的および／または減法的音声特性は、それにより音声コンテンツを変更し、その結果、一人物が別の人物により近く音声コンテンツを聴取および知覚することができる。例えば、消費者は、２人のリスナの異なる内耳／外耳および知覚バイアスにもかかわらず、クリエイティブプロデューサが聴取および意図したものにより近く聴取することができる。

本明細書に開示された特徴および態様は、図１に示されるシステム１００、またはリスナもしくはリスナの群に対する聴力測定データを取得すること、ソース音声コンテンツを取得すること、変換されたコンテンツを取得するために音声コンテンツを処理すること、および変換されたコンテンツから音声出力を提供することが可能な任意の他のシステム内で実装されてもよい。システム１００は、広域ネットワーク（ＷＡＮ）１１２を介して、または任意の他の好適な方法で通信している、ある特定の信号伝達および処理コンポーネントを含んでもよい。例えば、コンポーネントは、内部バス、無線ネットワーク、ローカルエリアネットワーク、または他の通信ネットワークもしくは回線のうちの１つ以上によって通信してもよい。

システム１００は、音声コンテンツ生成のためのコンポーネント１０２を含んでもよく、それは、聴力測定モジュール１１４を使用して測定され得る、個人的な聴覚および知覚特性を有し得る、ビデオプロデューサ１０４によって操作されてもよい。したがって、音声コンテンツ生成モジュール１０２は、ビデオプロデューサ１０４による試験過程を通して、またはデータストアから、例えばクラウドストレージ１０６からすでに取得されたＰＷＰまたは他のプロファイルを取り出すことによって、ＰＷＰまたは他の聴力測定プロファイルを取得するために、聴力測定モジュール１１４と連動してもよい。音声コンテンツ生成モジュール１０２は、音声生成の技術分野で既知のような任意の好適な音声ミキシングおよび編集装置を備えてもよく、デジタルおよびアナログコンポーネントの両方を含んでもよい。いったん特定の音声コンテンツが生成およびリリースされると、コンテンツは、コンテンツサーバ１０８にデジタル形態（例えば、ｍｐ３または他の音声フォーマットで）で提供されてもよく、コンテンツサーバ１０８は、任意の好適な非一時的コンピュータ可読媒体、例えば、クラウドストレージコンポーネント１０６、または他の有形媒体中の音声コンテンツの記憶の準備をしてもよい。

コンテンツサーバ１０８は、ＷＡＮ１１２と通信しているコンピュータサーバとして構成されてもよい。サーバ１０８は、クラウドストレージ１０６からの音声コンテンツおよびＰＷＰまたは他の聴力測定データの記憶および取り出しを管理してもよい。サーバ１０８およびクラウドストレージは、データを記憶および分散するための１つの好適なモードの一例であり、他のモードもまた好適であり得ることが理解されるべきである。例えば、音声コンテンツおよびＰＷＰデータは、携帯媒体上、例えば光ディスクまたはメモリデバイス上で記憶および分散されてもよい。

システム１００は、インテリジェントオーディオプレイヤ１１０を含んでもよく、それは、専用のハードウェアおよび／またはソフトウェアによって、専用オーディオプレイヤ、またはより汎用な機械の専用モジュールとして構成されてもよい。オーディオプレイヤはまた、音声ストリームに同期化されたビデオを再生してもよい。インテリジェントオーディオプレイヤ１１０は、例えば、パーソナルコンピュータ、スマートフォン、ノートブックコンピュータ、ノートパッドコンピュータ、タブレットコンピュータ、多機能テレビ、または他のコンポーネント中で具体化されてもよい。プレイヤ１１０は、有線および／または無線インターフェースを介して、ＷＡＮ１１２と通信してもよい。プレイヤ１１０は、聴力測定モジュール１１４又は同様のモジュールを使用して測定され得る、個人的な聴覚および知覚特性を有する、音声の消費者１１６によって操作されてもよい。

聴力測定モジュール１１４は、インテリジェントオーディオプレイヤ１１０の１つのコンポーネントとして含まれてもよく、または別個のハードウェア中のスタンドアロン型コンポーネントとして構成されてもよい。代替方法において、聴力測定モジュール１１４の第１の部分は、オーディオプレイヤ１１０中に、第２の部分は別個のハードウェア中に実装されてもよく、第１および第２の部分は、聴力検査過程を実施するために、ＷＡＮ１１２または他の接続を介して互いと連動してもよい。

図２を参照すると、例示的なインテリジェントオーディオプレイヤ２００の線図が示される。オーディオプレイヤ２００は、コンピュータであってもよく、またはコンピュータを含んでもよい。選択された実施形態では、コンピュータ２００は、プロセッサメモリ２０４に動作可能に連結される、プロセッサ２０２を含んでもよく、プロセッサメモリ２０４は、プロセッサ２０２による実行のための２進化機能モジュールを保持する。そのような２進化機能モジュールは、入力／出力およびメモリアクセスなどのシステム機能を処理するための動作システム２０６、ユーザインターフェース、例えば、ディスプレー装置２２８および音声出力ポート２１８を介して、聴力検査を実施するための聴力測定モジュール２０８、聴力測定モジュール２０８からのＰＷＰを参照ＰＷＰで処理するための比較モジュール、ならびにユーザＰＷＰ（または選択された平均的な群のＰＷＰ）の、音声プロデューサからの参照ＰＷＰまたは他の基準との比較に基づき、入力音声コンテンツを変換するための音声処理モジュール２１２を含んでもよい。

バス２１４または他の通信コンポーネントは、コンピュータ２００内の情報の通信を支持してもよい。プロセッサ２０２は、特定のタスクを定義する機械可読ソフトウェアコードを実行することによって、本明細書に開示された特徴および態様に従って、特定のタスクを実施するように構成される、特殊または専用マイクロプロセッサであってもよい。プロセッサメモリ２０４（例えば、ランダムアクセスメモリ（ＲＡＭ）または他の動的記憶デバイス）は、バス２１４、またはプロセッサ２０２に直接接続され、プロセッサ２０２によって実行される情報および命令を記憶してもよい。メモリ２０４はまた、プロセッサ２０２によって実行される命令の実行中、一時変数または他の中間情報を記憶してもよい。

記憶デバイス２２４中のコンピュータ可読媒体は、バス２１４に接続され、プロセッサ２０２に対する静的情報および命令を記憶してもよく、例えば、記憶デバイス２２４は、オーディオプレイヤ２００の電源が切られているとき、モジュール２０６、２０８、２１０、および２１２を記憶してもよく、そこから、モジュールは、クライアント２００の電源が入れられるとき、プロセッサメモリ２０４にロードされてもよい。記憶デバイス２２４は、情報、命令、またはそれらのいくつかの組み合わせ、例えば、プロセッサ２０２によって実行されるとき、オーディオプレイヤ２００に本明細書に記載される方法の１つ以上の動作を実施させる命令を保持する、非一時的コンピュータ可読媒体を含んでもよい。

通信インターフェース２１６もまた、バス２１４に接続され得る。通信インターフェース２１６は、任意にルータ／モデム２２６および有線または無線接続（図示せず）を介して、オーディオプレイヤ２００と１つ以上の外部デバイス、例えば、コンテンツサーバ１０８との間の双方向データ通信を提供または支持してもよい。加えて、オーディオプレイヤ２００は、ユーザに可聴出力を生成するための好適な音声受信機／スピーカシステム、例えば小型イヤホン２２８、外部ヘッドホン、外部またはステレオ／サラウンド音響システムを駆動するための、音声出力ポート２１８を含んでもよい。外耳道に挿入される高品質内部イヤホンは、外部ヘッドホンまたはスピーカが使用されるとき存在する環境上または身体構造上の差異を排除するために有利であることが理解されるべきである。したがって、より一貫したかつ予測可能な結果が、聴力検査およびコンテンツ聴取のための外部システムの代わりに、小型イヤホンを使用することによって達成され得る。

オーディオプレイヤ２００は、ディスプレー装置２２８に接続されてもよい（例えば、バス２１４およびグラフィック処理ユニット２２０を介して）。ディスプレー２２８は、オーディオプレイヤ２００のユーザに情報を表示するための任意の好適な構成を含んでもよい。例えば、ディスプレー２２８は、視覚的表示でオーディオプレイヤ２００のユーザに情報を示すために、液晶ディスプレー（ＬＣＤ）、タッチスクリーンＬＣＤ（例えば、容量ディスプレー）、発光ダイオード（ＬＥＤ）ディスプレー、プロジェクタ、または他のディスプレーデバイスを含むか、または利用してもよい。

１つ以上の入力デバイス２３０（例えば、英数字キーボード、マイクロホン、キーパッド、リモートコントローラ、ゲームコントローラ、カメラ、またはカメラアレイ）は、クライアント２００に情報およびコマンドを通信するために、ユーザ入力ポート２２２を介してバス２１４に接続されてもよい。選択された実施形態では、入力デバイス２３０は、カーソルの位置決定の制御を提供または支持してもよい。カーソルの位置決定の制御を提供または支持するカーソル制御デバイスは、ポインティングデバイスとも呼ばれるが、物理的移動を受信または追跡し、その移動を、カーソル移動を示す電気信号に変換するために、マウス、トラックボール、トラックパッド、タッチスクリーン、カーソル方向キー、または他のデバイスとして構成されてもよい。カーソル制御デバイスは、例えばタッチセンサ式スクリーンを使用して、ディスプレー装置２２８に組み込まれてもよい。カーソル制御デバイスは、プロセッサ２０２に方向情報およびコマンド選択を通信し、ディスプレー２２８上のカーソル移動を制御してもよい。カーソル制御デバイスは、２つ以上の自由度を有してもよく、例えば、デバイスが平面または三次元空間中のカーソル位置または他のポインティング／選択情報を特定することを可能にする。

オーディオプレイヤ２００は、１つ以上のソース音声コンテンツおよび関連した聴力測定参照プロファイルを受信、処理、および出力するために使用されてもよい。選択された実施形態では、１つ以上のソース音声コンテンツおよび関連した聴力測定参照プロファイルの受信、処理、および出力は、メインメモリ２０４に含有される１つ以上の命令の１つ以上のシーケンスを実行するプロセッサ２０２に応答してもよい。メインメモリ２０４に含有される１つ以上の命令は、別の非一時的コンピュータ可読媒体（例えば、記憶デバイス２２４）からメインメモリ２０４に読み込まれてもよい。

メインメモリ２０４に含有される命令シーケンスの実行は、プロセッサ２０２に、本明細書に記載される手順または工程のうちの１つ以上を実施させてもよい。選択された実施形態では、多重処理配列中の１つ以上のプロセッサ２０２もまた、メインメモリ２０４に含有される命令シーケンスを実行するために採用されてもよい。あるいは、またはそれに加えて、ファームウェアが、本明細書に開示された特徴および態様に従って手順または工程を実装するために、ソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせて使用されてもよい。本明細書に開示された特徴および態様に従った実施形態は、ハードウェア回路およびソフトウェアの任意の特定の組み合わせに限定されない。

図３を参照すると、異なるリスナまたはリスナの群の聴力測定プロファイル間の差異に基づいた、音声信号変更過程３００の一般的な態様が示される。初期状態３０８は、クリエイティブプロデューサによって構成されるようなソース音声コンテンツを表す。初期状態３０８は、種々の方法で、例えばデジタル音声ファイル、例えば、ｍｐ３、ＡＩＦＦ、ｗａｖ、ｗｍａ、または他のフォーマットでフォーマットされたファイルによって、コンピュータメモリ中で表されてもよい。初期状態３０８が、ある期間にわたって、特にスピーカまたはイヤホンなどのトランスデューサからの物理的音声出力を表すデータによって定義されてもよいことが明らかとなるはずである。したがって、初期状態データは、入力デジタル音声ファイルがオーディオプレイヤによって再生されたとき、すでに達成された、または結果となり得た、物理的状態（例えば、特定の音）の変化の特定のパターンを表す。

音声変換過程３００は、最終状態３１０を出力するために初期状態３０８で動作する、コンピュータプロセッサによって実施される、入力出力計算過程である（またはそれを含む）。最終状態３１０は同様に、スピーカまたはイヤホンなどのトランスデューサからの物理的音声出力を表す。したがって、音声変換過程３００は、入力として、入力デバイスを介して初期状態３０８およびユーザ入力を受信し、音声出力デバイスによって生成される音の物理的パターンを表す状態データを、最終状態３１０に変換する、状態機械として動作してもよい。続いて、最終出力状態は、オーディオプレイヤからの物理的出力で実現され、出力は、参照ＰＷＰによって定義された実際のまたは仮想的な人物の知覚に近づく主観的知覚を可能にするために、定義されたリスナのＰＷＰに基づきカスタマイズされる、動的音場の出力を含む。

音声変換過程３００は、いくつかの双方向のモジュール、例えば、聴力測定プロファイリングモジュール３０２、プロファイル比較または処理モジュール３０４、および音声信号処理モジュール３０６を含んでもよい。モジュール３００は、他のモジュール、例えば、音声コンテンツサーバモジュール、音声ドライバモジュール、グラフィクスモジュールなどを含んでもよく、それらは例示を簡単にするために図示されない。聴力測定プロファイリングモジュール３０２は、聴力検査データおよび関連パラメータ、例えばＰＷＰを取得および管理してもよい。プロファイル比較または処理モジュール３０４は、音声ファイルを変換するために使用され得る差異を決定するために、２つ以上の異なるＰＷＰまたは他の聴力測定プロファイルを処理してもよい。音声処理モジュール３０６は、プロファイル比較または処理モジュール３０４からの入力に基づき、最終状態を決定してもよい。

図４は、主観的忠実度のために音声コンテンツを変換するためのデータフローおよび処理ブロックの一例を示すブロック図である。音声コンテンツ生成過程４０２は、コンピュータ可読記憶媒体４０６、例えば、磁気または光記憶媒体上でソース音声コンテンツを記憶してもよい、サーバ４０４に、ソース音声コンテンツを出力してもよい。聴力検査過程４０８は、参照人物（例えば、コンテンツプロデューサ）または参照人物の群に対する個々のＰＷＰ、およびリスナの群に対するリスナ（例えば、消費者）または総計プロファイルを作成してもよい。サーバ４０４は、例えば、データベースまたは表を使用して、対応するデータ記録に対する識別子を関連付けることによって、ソース音声コンテンツに対する基準として、参照人物または群に対するＰＷＰを識別してもよい。聴力検査過程は、記憶媒体４０６中の記憶のために、サーバ４０４にＰＷＰを出力してもよい。続いて、オーディオプレイヤデバイスは、ソース音声コンテンツに対する要求（図示せず）をサーバ４０４に伝送してもよい。要求は、オーディオプレイヤを介して要求を創作するものとして識別される、ソース音声コンテンツおよびリスナに対する識別子を含んでもよい。

ソース音声コンテンツに対する要求に応答して、サーバ４０４は、コンテンツおよび参照ＰＷＰを関連付ける記録に基づき、ソース音声コンテンツ、参照人物または群に対するＰＷＰを読み出してもよい。サーバ４０４はまた、リスナに対するＰＷＰを読み出し、データオブジェクトとしてＰＷＰおよび音声コンテンツを、信号プロセッサ４１０に提供してもよい。代替方法において、参照人物またはリスナに対するＰＷＰは、音声コンテンツよりも早いまたは遅い時間に提供されてもよく、またはオーディオプレイヤがリスナＰＷＰをローカルで生成している場合、リスナＰＷＰは、代わりにローカルメモリから読み出されてもよい。信号プロセッサ４１０は、変更または変換された音声コンテンツを生成するために、参照人物およびリスナに対する異なるＰＷＰに基づき、音声コンテンツを処理する。信号プロセッサ４１０は、クライアントオーディオプレイヤデバイスのモジュールとして、または別個の機械上の遠隔処理として実装されてもよい。プロセッサ４１０は、変換された音声コンテンツを、音声トランスデューサ４１２、例えば、オーディオプレイヤの小型イヤホン、ヘッドホン、またはスピーカに提供する。次いで、トランスデューサは、音声ドライバによって、変換された音声コンテンツから生成されたリスナ４１４への音声を出力する。

聴力検査モジュール４０８は、聴力検査プロトコルを動作させるためのグラフィカルユーザインターフェースを有する使いやすいアプリケーションとして、オーディオプレイヤまたはサーバ上で実装されてもよい。例えば、図５は、タッチセンサ式ディスプレースクリーン５０２を含む、オーディオプレイヤ５００上のスクリーンショットの一例を示す。タッチセンサ式ディスプレースクリーンは、聴力検査のアプリケーション中、ユーザを誘導するために使用されてもよい。プレイヤ５００の音声出力ポートを一組の小型イヤホン（内部イヤホン）もしくは外部ヘッドホンに、またはあまり好ましくはないが、一組のスピーカを駆動する音声受信機に接続し、プレイヤ５００で動作する聴力測定プログラムによって生成される可聴およびグラフィカル命令に従うことによって、ユーザは、自身に聴力検査を行ってもよい。アプリケーションとしてオーディオプレイヤまたはサーバ上で実装されてもよい聴力検査モジュールは、例えば、Ａｐｐｌｅ（商標）、ＡｐｐＳｔｏｒｅ（商標）を介してｉＰｏｄ（商標）またはｉＰａｄ（商標）に利用可能な、関連した音声デバイスの「ａｐｐｓｔｏｒｅ」を介して利用可能になる、アプリケーションであってもよい。

より従来の周波数感度試験において、聴力測定アプリケーションは、種々の周波数および電力レベルにおいて、一式の音を生成してもよい。スクリーンに触れることによって、ユーザは、音が聴取されるときはいつでもフィードバックを提供し、プレイヤはそれにより、各周波数における聴覚閾値を決定することができる。任意に、プログラムは、試験過程をより魅力的にするために、スコアまたは進捗インジケータを維持および表示してもよい。他の試験において、聴力測定アプリケーションは、動的効果および位置的キューに対する感度を試験してもよい。図５は、位置的キューに対する感度を試験するためのスクリーン５０２の一例を示す。聴力検査器は、位置的キューの種々のレベルでの音のシーケンスを生成してもよい。ユーザは、例えば、リスナの相対位置を表す人物アイコン５０６の周囲に位置付けられた複数のノードから、３Ｄ位置ノード５０４を選択することによって、明らかな３Ｄの発音元を区別することが可能になるまで聴取する。したがって、プレイヤは、音声コンテンツ中の位置的キューに対するリスナの感度を決定することができる。他の聴覚試験、例えば、右耳と左耳との間の時間感度の差異もまた、プレイヤ５００によって行われ得る。

周波数感度データは、図６Ａに示されるように、周波数応答表６００として従来法で表され得る。閾値感度は、縦軸６０４上のデシベルで表され、選択された試験周波数は、横軸６０２上のヘルツ（Ｈｚ）で表される。例示された実施例において、上側の曲線６０６は、第１の（例えば、右）耳を表し、下側の曲線６０８は、特定のリスナに対してより感度が低い第２の（例えば、左）耳を表してもよい。曲線６０６および６０８を表すデータは、任意の好適な数値形式で（例えば、数列として）符号化され、リスナのＰＷＰの一部として記憶されてもよい。

図６Ｂは、ＰＷＰ中に含まれてもよい非従来的な試験データのほんの一例として、非従来的な聴力図６５０を示す。聴力図は、縦軸６５４上に時間（例えば、ミリ秒または数十ミリ秒）を、横軸６５２上にヘルツの選択された試験周波数を含む。曲線６５６は、例えば、リスナの右耳と左耳との間の時間感度の差異を表す。さらなる例として、２５０Ｈｚにおいて、曲線は、右耳が左耳よりも約１．４時間単位前に音を聴取することを示す。時間感度の差異は、位置的キューまたは他の動的効果を知覚する上で重要であり得る。曲線６５６は、任意の好適なフォーマットで符号化され、リスナＰＷＰの第２の部分として記憶されてもよい。

図７Ａは、ＰＷＰ差異に基づき、音声信号を変更するための信号プロセッサおよび過程７００の態様を示し、ここで、符号化された音声信号は、同一のフォーマットで別のデジタル信号を生成するために再符号化され、参照ＰＷＰとリスナＰＷＰとの間の差異を補償するために変換される。特定のリスナＰＷＰが利用可能ではない場合、一般的または総計リスナＰＷＰが、特定のリスナに対して決定されたＰＷＰに置き換えられてもよいことが理解されるべきである。デジタル符号化されたデータ７０４は、再符号化のためのプロセッサおよびアルゴリズムを含む制御回路７０２によって制御される、デジタル再符号化過程７０６に入力される。再符号化は、参照とリスナプロファイルおよび／または位相／タイムシフトとの間の差異に比例して、周波数の関数としてゲインを増大させることを含んでもよい。再符号化された音声データ７０８は、従来の方法でデコーダ７１０によって復号され、復号されたデジタル音声データ７１２を生成してもよい。復号されたデータは、デジタル／アナログ変換器７１４に提供されてもよく、それは、デジタルデータを処理し、アナログ音声信号７１６を作成する。アナログ音声信号７１６は、増幅器７１８に提供されてもよく、それは、信号を増幅し、増幅されたアナログ信号７２０を音声トランスデューサ７２２に提供する。音声トランスデューサ７２２は、リスナ７２６によって聴取されてもよい音７２４を生成する。

図７Ｂは、ＰＷＰ差異に基づき、音声信号を変更するための信号プロセッサおよび過程７５０の態様を示し、ここで、符号化された音声信号は最初に復号され、アナログ形態に変換され、アナログ信号は、参照ＰＷＰとリスナＰＷＰとの間の差異に基づき、変換（調節）される。元の符号化された音声データ７５２は、従来の方法で復号された音声信号７５６を作成するデコーダ７５４に提供されてもよい。復号された音声信号７５６は、アナログ音声信号７６０を生成するデジタル／アナログ変換器７５８に提供されてもよい。

任意に、アナログ音声信号７６０は、チャネル遅延／フィルタモジュール７６２に提供されてもよい。制御アルゴリズムを動作させるプロセッサを含む制御回路７７０の制御下で、遅延／フィルタモジュール７６２は、参照およびリスナＰＷＰプロファイルによって定義された時間感度差異に比例して、別々のチャネル（例えば、右および左チャネル）を遅延させてもよい。例えば、右チャネルに対するＰＷＰの比較が、参照人物が左耳よりも右耳でリスナよりも速く応答することを示す場合、遅延／フィルタモジュール７６２は、補償するために左チャネルを遅延させてもよい。さらなる例として、遅延／フィルタモジュールは、差異に比例した量で左チャネルを遅延させ、リスナのより遅い右耳が左耳の知覚に「追いつく」ことを可能にしてもよい。参照およびリスナＰＷＰプロファイルによって定義された時間感度差異は、特に、位置的キューの個々の知覚に影響を及ぼし得る。

代替方法において、または加えて、遅延／フィルタモジュール７６２および制御回路７７０は、ＰＷＰまたはＰＷＰの一部分から得られたフィルタを使用して、復号された音声信号７６０をフィルタにかけてもよい。例えば、ＰＷＰは、頭部伝達関数（ＨＲＴＦ）を含んでもよい。ＨＲＴＦは、当該技術分野において既知であり、外耳（耳介）によって引き起こされる音への反射および回折効果を説明する関数のセットとして理解され得る。耳介によって引き起こされる音の反射および回折は、単独でまたは内耳の構造と組み合わせて、音の位置の特定、すなわち、音が生じる位置の知覚において重要な役割を果たし得る。したがって、ＨＲＴＦを使用したフィルタリングは、三次元（３Ｄ）空間でリスナの発音元の知覚を変化させるために使用されてもよい。ＨＲＴＦが参照およびリスナの個々のＰＷＰに含まれる範囲で、モジュール７６２は、リスナによって知覚される位置的キューが参照人物によって経験される位置的キューにより厳密に一致するように、音声信号７６０をフィルタにかけてもよい。ＨＲＴＦフィルタリングは、異なる個人の耳介／内耳形状間の差異を補償してもよい。さらなる例として、挿耳型トランスデューサ（例えば、イヤホンまたは人工内耳）が参照人物ではなくリスナによってのみ使用されている場合、ＨＲＴＦフィルタリングは、リスナの音声経路における耳介の非存在を補償するために使用されてもよい。代替方法において、ＨＲＴＦまたは他のフィルタリングは、図７Ａのモジュール７０６で示されるデジタル処理を使用して適用されてもよいことが理解されるべきである。

ＨＲＴＦは、異なる個人間で有意に異なり得、ＨＲＴＦの正確な測定は、個人が概して許容するよりも厳密かつ退屈な試験過程を必要とし得る。したがって、過程７００または７５０等の音声信号変換過程は、ユーザが何らかの外部マーカー、例えば、耳介の大きさおよび形状に基づき、一般的なＨＲＴＦを選択することを可能にし得る。代替方法において、または加えて、システムは、位置的キュー試験過程からのユーザフィードバックに基づき、推定されたＨＲＴＦを選択してもよい。例えば、定義された音声信号に対するユーザの位置感覚に関する情報を取得するために、図５に示されるユーザインターフェースを使用して、システムは、ユーザをいくつかの推定されたＨＲＴＦのうちの１つに関連付けるか、またはアルゴリズムを使用して推定されたＨＲＴＦを生成してもよい。

加えて、アナログ音声信号７６４は、制御回路７７０の制御下で増幅器７６６に提供されてもよい。増幅器７６６は、回路７７０の制御下で、ＰＷＰ間の周波数感度差異を補償するために、アナログ信号７６４のゲインを増大または軽減してもよい。増幅器は、増幅された音声信号７６８を音声トランスデューサ７７２に提供してもよく、それは、リスナ７７６に対する音７７４を生成する。図７Ａおよび７Ｂはほんの一例であり、デジタルまたはアナログ信号の特定の例示されたモードまたはモジュールへの調節を限定するものとして理解されるべきではない。

したがって、本技術の実施形態は、パラメータと一致した方法で、リスナの関連した音声知覚特性を識別および記録し、次いで、これらのパラメータを、変換、例えば、アルゴリズムを使用して音声コンテンツに適用され得るフィルタまたは他の強調／非強調機能のセットとして記憶する、双方向の聴力検査アプリケーションを介した、リスナの個人波形プロファイルの収集を含んでもよい。この方法で、ユーザのＰＷＰ変換は、音声コンテンツがリスナに示される前に、音声コンテンツに適用され得るか、または別のユーザのＰＷＰと置き換えられ得る。そのようにして、ＰＷＰ変換が上記のようにアクセスされ得るクリエイティブプロデューサによって聴取されるように、作成、ミックス、または別様に輪郭が付けられた音声コンテンツは、後続のリスナの異なるＰＷＰの効果を軽減する方法でコンテンツを変換するために、クリエイティブプロデューサのＰＷＰを使用することによって、それが聴取されることをプロデューサが意図したものにより近い音が出るように変換され得る。

音声処理動作および装置
上記の例は、コンピュータ、例えば、オーディオプレイヤ、サーバ、またはオーディオプレイヤおよびサーバのいくつかの組み合わせによって実施される１つ以上の方法で具体化され得る。開示された主題に従って実装され得る方法は、種々のフローチャートを参照してよりよく理解される。方法は例示を簡単にするために一連の動作／ブロックとして示され、記載されるが、いくつかのブロックが、本明細書に図示および記載されるものとは異なる順序で、および／または他のブロックと実質的に同時に生じ得るため、特許請求の範囲に記載された主題が、ブロックの数または順序によって制限されないことを理解および認識されたい。さらに、全ての例示されたブロックが本明細書に記載される方法を実装するために必要とされるとは限らない場合がある。ブロックと関連した機能性は、ソフトウェア、ハードウェア、それらの組み合わせ、または任意の他の好適な手段（例えば、デバイス、システム、過程、またはコンポーネント）によって実装されてもよいことを理解されたい。加えて、本明細書全体を通して開示される方法は、開示される方法の種々のデバイスへの記憶、伝送、および転送を容易にするために、製造品、例えば、非一時的コンピュータ可読媒体上に符号化された命令および／またはデータとして記憶されることが可能であることをさらに理解されたい。当業者は、方法が別の方法として、状態図中などで一連の相互に関連する状態または事象として示され得ることを理解および認識するであろう。

図８に示されるように、音声処理装置は、主観的忠実度のための音声信号を参照聴力測定プロファイルに変換するための方法８００を実施してもよい。方法８００は、８１０において、信号プロセッサによって聴力測定参照プロファイルを受信することを含んでもよい。例えば、信号プロセッサは、音声メタデータ中のクリエイティブプロデューサに対するＰＷＰを受信してもよく、または音声メタデータから得られた参照識別子を使用して、サーバからの参照を要求および受信してもよい。

方法８００はさらに、８２０において、聴力測定リスナプロファイルを受信する信号プロセッサを含んでもよい。例えば、信号プロセッサは、信号プロセッサと同一のプレイヤデバイス上で実行するアプリケーションによる前の聴力測定から得られた、コンピュータメモリからのリスナプロファイルを読み出してもよい。

方法８００はさらに、８３０において、符号化された入力音声信号を受信することを含んでもよい。例えば、信号プロセッサを含むオーディオプレイヤは、コンピュータ可読媒体からの符号化された音声ファイルを読み出してもよく、ネットワーク上でファイルをダウンロードしてもよく、またはストリーミング音声を介してファイルを受信してもよい。

方法８００はさらに、８４０において、出力音声信号が差異を補償するように、参照プロファイルとリスナプロファイルとの間の差異に基づき、入力音声信号を出力音声信号に変換することを実施してもよい信号プロセッサを含んでもよい。変換は、符号化された信号上でデジタル的に実施され、符号化された出力信号を生成してもよい。代替方法において、変換は、デジタルプロセッサの制御下で、復号されたアナログ音声信号を操作する増幅器および／または遅延回路を使用して実施されてもよい。信号プロセッサは、変換前に参照プロファイルとリスナプロファイルとの間の差異を決定してもよい。変換は、データフォーマットの変化を要求も除外もしない。

図９〜１１を参照すると、音声変換過程に関して、いくつかの追加の動作９００、１０００、および１１００が示され、それは、単独でまたはオーディオプレイヤおよび／または別のサーバと組み合わせて、コンピュータサーバによって実施されてもよい。動作９００、１０００、および１１００のうちの１つ以上は任意に、方法８００の一部として実施されてもよい。これらの動作の要素は、任意の動作順序で実施されてもよく、または特定の実施の発生順を必要とすることなく、開発アルゴリズムによって包含されてもよい。動作は独立して実施され得、相互排他的ではない。したがって、別の下流または上流の動作が実施されるかどうかに関わらず、いくつかの追加の動作のうちのいずれか１つが実施され得る。例えば、方法８００が動作９００、１０００、および１１００のうちの少なくとも１つを含む場合、方法８００は、例示され得る任意の後続の下流の動作（複数を含む）を必ずしも含む必要なく、少なくとも１つの動作後に終了してもよい。

一態様では、図９を参照すると、方法８００はさらに、９１０において、参照およびリスナプロファイルの対応する１つ以上の周波数における差異に比例して、入力音声信号の１つ以上の周波数を変更することを含んでもよい。例えば、信号プロセッサは、特定の異なる周波数での聴力測定から補間することによって、各周波数における差異を計算してもよい。次いで、信号プロセッサは、各周波数における差異に比例して、ゲインを増大または低減してもよい。例えば、方法８００はさらに、９２０において、差異が、第１の人物が第２の人物よりも音に敏感であることを示す、１つ以上の周波数において、入力信号を増大させること、および差異が、第１の人物が第２の人物ほど音に敏感ではないことを示す、１つ以上の周波数において、入力信号を軽減することをさらに含んでもよい。入力信号を増大させることは、１つ以上の選択された周波数帯域において、適用可能な音声スペクトルの選択された部分にわたって、信号の振幅を増加させることを含んでもよい。入力信号を軽減することは、１つ以上の選択された周波数帯域において、適用可能な音声スペクトルの選択された部分にわたって、信号の振幅を減少させることを含んでもよい。

代替方法において、または加えて、方法８００はさらに、９３０において、参照およびリスナプロファイルの対応する１つ以上の時間における差異に比例して、入力音声信号の１つ以上の時間における音声信号の位相を変更することを含んでもよい。例えば、方法８００はさらに、９４０において、音声信号によって符号化された音が発生する時間を変化させることによって、音声信号の定義されたサブバンドに対して位相を変更することを含んでもよい。

別の態様では、図１０を参照すると、方法８００はさらに、１０１０において、第１の人物に対する聴力検査結果に基づき、聴力測定参照プロファイルを生成することを含んでもよい。例えば、第１の人物は、音声クリエイティブプロデューサであってもよく、その個人的な知覚特性が、音声製品の生成を決定したか、またはそれに影響を与えた。その場合、方法は、１０２０において、符号化された入力音声信号が第１の人物によって編集されているものとして示されることを決定することを含んでもよい。同様に、方法８００は、１０３０において、第２の人物に対する聴力検査結果に基づき、聴力測定リスナプロファイルを生成することを含んでもよい。したがって、方法８００はさらに、１０４０において、第２の人物に対する出力音声信号を再生することを含んでもよく、それにより第２の人物の第２の聴取経験が、出力音声信号から生成された音に対して、第１の人物に対する第１の聴取経験により近くなる。

他の態様では、図１１を参照すると、方法８００はさらに、１１１０において、一般集団のサンプルに対する聴力測定データに基づき、聴力測定リスナプロファイルを生成することを含んでもよい。例えば、集団データは、個人の聴力測定プロファイルデータが利用可能ではない場合に使用するために、特定の集団に対して収集されてもよい。例えば、方法８００はさらに、１１２０において、リスナの群に対する総計基準を表す、聴力測定リスナプロファイルを生成することを含んでもよい。総計基準は、例えば、平均または中央値を含んでもよい。方法８００は、１１３０において、リスナの群の一員として識別される人物に対する出力音声信号を再生することを含んでもよく、それにより、その人物の聴取経験が、聴力測定参照プロファイルによって表される参照聴取経験により近くなる。

図１２を参照すると、主観的忠実度のために音声変換過程を実装するために、オーディオプレイヤ、またはオーディオプレイヤおよびサーバの組み合わせとして構成されてもよい、例示的な装置１２００が提供される。

例示されるように、一実施形態では、装置１２００は、聴力測定参照プロファイルを受信するための電気コンポーネントまたは手段１２０２を含んでもよい。例えば、電気コンポーネントまたは手段１２０２は、メモリコンポーネント１２１６に連結される少なくとも１つの制御プロセッサ１２１０を含んでもよい。制御プロセッサは、メモリコンポーネント中にプログラム命令として保持されてもよいアルゴリズムを動作させてもよい。アルゴリズムは、例えば、音声メタデータから得られたプロファイル識別子をサーバに提供すること、およびそれに応答してサーバからプロファイルデータを受信することを含んでもよい。

装置１２００はさらに、聴力測定リスナプロファイルを受信するための電気コンポーネントまたはモジュール１２０４を含んでもよい。例えば、電気コンポーネントまたは手段１２０４は、メモリコンポーネント１２１６に連結される少なくとも１つの制御プロセッサ１２１０を含んでもよい。制御プロセッサは、メモリコンポーネント中にプログラム命令として保持されてもよいアルゴリズムを動作させてもよい。アルゴリズムは、例えば、ローカルメモリからユーザ識別子を取得すること、およびユーザ識別子に基づき、ローカルデータ表から記憶されたリスナプロファイルを取り出すことを含んでもよい。代替方法において、アルゴリズムは、ユーザ識別子をサーバに提供すること、およびユーザ識別子を提供したことに応答して、サーバからリスナプロファイルを受信することを含んでもよい。

装置１２００はさらに、符号化された入力音声信号を受信するための電気コンポーネントまたはモジュール１２０６を含んでもよい。例えば、電気コンポーネントまたは手段１２０６は、メモリコンポーネント１２１６に連結される少なくとも１つの制御プロセッサ１２１０を含んでもよい。制御プロセッサは、メモリコンポーネント中にプログラム命令として保持されてもよいアルゴリズムを動作させてもよい。アルゴリズムは、例えば、コンピュータ可読媒体から符号化された音声ファイルを読み出すこと、サーバからファイルをダウンロードすること、またはサーバからストリーミング音声ファイルを受信することを含んでもよい。

装置１２００はさらに、出力音声信号が差異を補償するように、参照プロファイルとリスナプロファイルとの間の差異に基づき、入力音声信号を出力音声信号に変換するための電気コンポーネントまたはモジュール１２０８を含んでもよい。例えば、電気コンポーネントまたは手段１２０８は、メモリコンポーネント１２１６に連結される少なくとも１つの制御プロセッサ１２１０を含んでもよい。制御プロセッサは、メモリコンポーネント中にプログラム命令として保持されてもよいアルゴリズムを動作させてもよい。アルゴリズムは、例えば、差異が、第１の人物が第２の人物よりも音に敏感であることを示す、１つ以上の周波数において、入力信号を増大させること、および差異が、第１の人物が第２の人物ほど音に敏感ではないことを示す、１つ以上の周波数において、入力信号を軽減することを含んでもよい。代替方法において、または加えて、アルゴリズムは、参照およびリスナプロファイルの対応する１つ以上の時間における差異に比例して、入力音声信号の１つ以上の時間における音声信号の位相を変更することを含んでもよい。

装置１２００は、図８〜１１に関連して記載される追加の動作８００〜１１００のいずれかまたは全部を実施するための同様の電気コンポーネントを含んでもよく、それらは、説明を簡単にするために、図１２には示されない。

関連した態様では、装置１２００は任意に、少なくとも１つのプロセッサを有するプロセッサコンポーネント１２１０を含んでもよい。プロセッサ１２１０は、バス１２１２または同様の通信連結を介して、コンポーネント１２０２〜１２０８または同様のコンポーネントと動作通信していてもよい。プロセッサ１２１０は、電気コンポーネント１２０２〜１２０８によって実施される過程または機能の開始およびスケジューリングを行ってもよい。

さらなる関連した態様では、装置１２００は、クライアントとサーバとの間の通信を可能にする、ネットワークインターフェースコンポーネント１２１４を含んでもよい。装置１２００は任意に、情報を記憶するためのコンポーネント、例えば、メモリデバイス／コンポーネント１２１６を含んでもよい。コンピュータ可読媒体またはメモリコンポーネント１２１６は、バス１２１２などを介して装置１２００の他のコンポーネントに動作可能に連結されてもよい。メモリコンポーネント１２１６は、コンポーネント１２０２〜１２０８、そのサブコンポーネント、またはプロセッサ１２１０の過程および動作、または本明細書に開示された方法を実装するためのコンピュータ可読命令およびデータを記憶するように適合されてもよい。メモリコンポーネント１２１６は、コンポーネント１２０２〜１２０８と関連した機能を実行するための命令を保持してもよい。コンポーネント１２０２〜１２０８は、メモリ１２１６の外部にあるものとして示されているが、それらはメモリ１２１６内に存在することができることを理解されたい。

開示された過程における工程の特定の順序または階層がただの一例にすぎないことが理解される。設計の選好に基づき、過程における工程の特定の順序または階層が、本開示の範囲内にとどまりながら、配列し直されてもよいことが理解される。添付の方法の特許請求の範囲は、見本の順序における種々の工程の要素を示し、示される特定の順序および階層に限定されることを意図しない。

当業者は、情報および信号が、種々の異なるテクノロジーおよび技術のいずれかを使用して表示されてもよいことを理解するであろう。例えば、上記の説明全体を通して参照され得るデータ、命令、コマンド、情報、信号、ビット、記号、およびチップは、電圧、電流、電磁波、磁場もしくは磁性粒子、光場または光学粒子、またはこれらの任意の組み合わせによって表されてもよい。

当業者は、本明細書に開示された実施形態と関連して記載される種々の例示的な論理ブロック、モジュール、回路、およびアルゴリズム工程が、電子ハードウェア、コンピュータソフトウェア、または両方の組み合わせとして実装されてもよいことをさらに理解するであろう。ハードウェアおよびソフトウェアのこの互換性を明確に例示するために、種々の例示的なコンポーネント、ブロック、モジュール、回路、および工程が、概してそれらの機能性の観点から上記に記載されてきた。種々の例示的なコンポーネント、ブロック、モジュール、回路、および工程の機能性がハードウェアまたはソフトウェアとして実装されるかどうかは、全体のシステムに課せられた特定のアプリケーションおよび設計の制約によって決まる。当業者は、各特定のアプリケーションに対して、異なる方法で記載された機能性を実装してもよいが、異なる方法による記載された機能性の実装の決定は、本開示範囲からの逸脱を引き起こすものとして解釈されるべきではない。

本明細書に開示された実施形態と関連して記載される種々の例示的な論理ブロック、モジュール、および回路は、本明細書に記載される機能を実施するように設計される、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、もしくは他のプログラマブル論理デバイス、離散ゲート、もしくはトランジスタ論理、離散ハードウェアコンポーネント、またはこれらの任意の組み合わせを用いて実装または実施されてもよい。汎用プロセッサは、マイクロプロセッサであってもよいが、代替方法において、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であってもよい。プロセッサはまた、コンピュータデバイスの組み合わせ、例えば、ＤＳＰおよびマイクロプロセッサの組み合わせ、複数のマイクロプロセッサ、ＤＳＰコア、システムオンチップ（ＳＯＣ）、または任意の他のそのような構成と併せた１つ以上のマイクロプロセッサとして実装されてもよい。

開示された実施形態の前述は、当業者が本開示を作製または使用することを可能にするために提供される。これらの実施形態の種々の修正が、当業者には容易に明らかとなり、本明細書に定義された一般的原理は、本開示の精神または範囲から逸脱することなく他の実施形態に適用され得る。したがって、本開示は、本明細書に示される実施形態に限定されることを意図せず、本明細書に開示された原理および新規の特徴と一致した最も広い範囲が与えられるものとする。

Claims

音声信号を処理するための方法であって、
聴力測定参照プロファイルを受信することと、
聴力測定リスナプロファイルを受信することと、
符号化された入力音声信号を信号プロセッサに提供することと、
前記参照プロファイルと前記リスナプロファイルとの間の差異に基づき、前記信号プロセッサを使用して、前記入力音声信号を出力音声信号に変換し、前記出力音声信号が前記差異を補償することと、
を含む、方法。
前記入力音声信号を変換することは、前記参照およびリスナプロファイルの対応する１つ以上の周波数における前記差異に比例して、前記入力音声信号の１つ以上の周波数を変更することを含む、請求項１に記載の方法。
第１の人物に対する聴力検査結果に基づき、前記聴力測定参照プロファイルを生成することをさらに含む、請求項１に記載の方法。
第２の人物に対する聴力検査結果に基づき、前記聴力測定リスナプロファイルを生成することをさらに含む、請求項３に記載の方法。
前記変換することは、前記差異が、前記第１の人物が前記第２の人物よりも音に敏感であることを示す、１つ以上の周波数において、前記入力信号を増大させることによって、かつ前記差異が、前記第１の人物が前記第２の人物ほど音に敏感ではないことを示す、１つ以上の周波数において、前記入力信号を軽減することによって、前記出力信号を生成することをさらに含む、請求項４に記載の方法。
前記入力信号を増大させることは、音声スペクトルの定義された周波数帯域部分にわたって、前記信号の振幅を増加させることを含む、請求項５に記載の方法。
前記符号化された入力音声信号は、前記第１の人物によって編集されているものとして示される、請求項４に記載の方法。
前記出力音声信号は、オーディオプレイヤデバイスによって再生され、第２の人物によって聴取されるとき、前記第２の人物の聴取経験が、前記出力音声信号から生成される音に対して、前記第１の人物に対する聴取経験により近くなるように構成される、請求項４に記載の方法。
前記聴力測定リスナプロファイルがリスナの群に対する総計基準を表すように、一般集団のサンプルに対する聴力測定データに基づき、前記聴力測定リスナプロファイルを生成することをさらに含む、請求項３に記載の方法。
前記入力音声信号を変換することは、前記参照およびリスナプロファイルの対応する１つ以上の時間における前記差異に比例して、前記入力音声信号の１つ以上の時間における前記音声信号の位相を変更することを含む、請求項１に記載の方法。
前記位相を変更することは、前記音声信号によって符号化された音が生じる時間を変化させるために、前記音声信号の定義されたサブバンドに対して実施される、請求項１０に記載の方法。
聴力測定参照プロファイルを受信するように、
聴力測定リスナプロファイルを受信するように、
符号化された入力音声信号を受信するように、
前記参照プロファイルと前記リスナプロファイルとの間の差異に基づき、前記入力音声信号を出力音声信号に変換し、前記出力音声信号が前記差異を補償するように、
構成される、少なくとも１つのプロセッサと、
データを記憶するために、前記少なくとも１つのプロセッサに連結される、メモリと、
を備える、装置。
前記プロセッサは、前記参照およびリスナプロファイルの対応する１つ以上の周波数における前記差異に比例して、前記入力音声信号の１つ以上の周波数を変更することによって、前記入力音声信号を変換するようにさらに構成される、請求項１２に記載の装置。
前記プロセッサは、第１の人物に対する聴力検査結果に基づき、前記聴力測定参照プロファイルを生成するようにさらに構成される、請求項１２に記載の装置。
前記プロセッサは、第２の人物に対する聴力検査結果に基づき、前記聴力測定リスナプロファイルを生成するようにさらに構成される、請求項１４に記載の装置。
前記プロセッサは、前記差異が、前記第１の人物が前記第２の人物よりも音に敏感であることを示す、１つ以上の周波数において、前記入力信号を増大させることによって、かつ前記差異が、前記第１の人物が前記第２の人物ほど音に敏感ではないことを示す、１つ以上の周波数において、前記入力信号を軽減することによって、前記入力音声信号を前記出力信号に変換するようにさらに構成される、請求項１５に記載の装置。
前記プロセッサは、音声スペクトルの定義された周波数帯域部分にわたって、前記信号の振幅を増加させることによって、前記入力信号を増大させるようにさらに構成される、請求項１６に記載の装置。
前記プロセッサは、前記符号化された入力音声信号が、前記第１の人物によって編集されているものとして示されることを決定するようにさらに構成される、請求項１５に記載の装置。
前記プロセッサは、第２の人物に対する前記出力音声信号を再生し、それにより前記第２の人物の第２の聴取経験が、前記出力音声信号から生成される音に対して、前記第１の人物に対する第１の聴取経験により近くなるようにさらに構成される、請求項１５に記載の装置。
前記プロセッサは、前記聴力測定リスナプロファイルがリスナの群に対する総計基準を表すように、一般集団のサンプルに対する聴力測定データに基づき、前記聴力測定リスナプロファイルを生成するようにさらに構成される、請求項１２に記載の装置。
前記プロセッサは、前記参照およびリスナプロファイルの対応する１つ以上の時間における前記差異に比例して、前記入力音声信号の１つ以上の時間における前記音声信号の位相を変更することによって、前記入力音声信号を変換するようにさらに構成される、請求項１２に記載の装置。
前記プロセッサは、前記音声信号によって符号化された音が生じる時間を変化させるために、前記音声信号の定義されたサブバンドに対して前記位相を変更するようにさらに構成される、請求項２１に記載の装置。
プロセッサによって実行されるとき、信号処理デバイスに、
聴力測定参照プロファイルを受信する動作、
聴力測定リスナプロファイルを受信する動作、
符号化された入力音声信号を受信する動作、および
前記参照プロファイルと前記リスナプロファイルとの間の差異に基づき、前記入力音声信号を出力音声信号に変換し、前記出力音声信号が前記差異を補償するようにする動作、
を実施させる、符号化された命令を含む、非一時的コンピュータ可読媒体。