JPH08272399A - ラウドネス不確定性に基づく知覚音声圧縮 - Google Patents

ラウドネス不確定性に基づく知覚音声圧縮

Info

Publication number
JPH08272399A
JPH08272399A JP8053589A JP5358996A JPH08272399A JP H08272399 A JPH08272399 A JP H08272399A JP 8053589 A JP8053589 A JP 8053589A JP 5358996 A JP5358996 A JP 5358996A JP H08272399 A JPH08272399 A JP H08272399A
Authority
JP
Japan
Prior art keywords
noise
loudness
masker
masking
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8053589A
Other languages
English (en)
Inventor
Jonathan Brandon Allen
ブランドン アレン ジョナサン
Deepen Sinha
シンハー ディーペン
Mark R Sydorenko
アール. シドレンコ マーク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of JPH08272399A publication Critical patent/JPH08272399A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

(57)【要約】 【課題】 高レベルの信号圧縮を達成するために、人間
の知覚のモデルを使用して、ラウドネス不確定性の尺度
に基づくノイズマスキングのモデルに従ってオーディオ
信号を符号化する。 【解決手段】 1つのサブバンド・合成による分析のフ
レームワーク内で、ラウドネス不確定性の尺度を、もと
のオーディオ信号と合成したオーディオ信号の間のラウ
ドネス差分と比較する。与えられた符号器バンドに対し
て、複数の異なる(仮の)符号化(量子化ステップサイ
ズ)を試行し、ラウドネス不確定性より小さい(しかし
あまり小さすぎない)ラウドネス差分を達成する符号化
を判定する。この符号化(ステップサイズ)は、そのバ
ンドに対して適当であると判断されたものである。この
ステップサイズは、そのバンド内の信号を量子化するた
めに使用することができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、オーディオ信号圧
縮システムに関し、特に、高レベルの信号圧縮を達成す
る際に人間の知覚のモデルを使用するオーディオ信号圧
縮システムに関する。
【0002】
【従来の技術】オーディオ信号の知覚符号化は「知覚マ
スキング」の概念を含む。知覚マスキングとは、音が他
の音(「マスキング信号」という。)の存在下で聴取者
に提示されるためにそのようなマスキング信号がなけれ
ば聞こえる音を聴取者が聞くことができないという心理
音響学的効果のことである。
【0003】この心理音響学的効果は、オーディオ信号
(圧縮される信号)をマスキング信号として扱い、符号
化ノイズ(量子化器ノイズ)をマスキングされる信号と
して扱ういくつかのオーディオ圧縮システムで有効に利
用されている。これらのシステムは、オーディオ信号中
に可聴量子化ノイズを導入することなく、できるだけ大
きい量子化器ステップサイズでオーディオ信号を量子化
しようとしている。当然、可聴効果なしに導入される量
子化ノイズのレベルは、個々のオーディオ信号(マス
カ)がマスキング効果を提供することにどのくらい寄与
しているかの程度の関数となる。オーディオ信号のマス
キング能力が大きいほど、可聴ノイズを導入せずに量子
化を粗くすることができる。量子化が粗くなるほど、圧
縮された信号のビットレートは低くなる。
【0004】オーディオ信号がノイズをマスキングする
能力は、従来は、そのオーディオ信号がどのくらいトー
ン性(あるいは、逆に、ノイズ性)であるかということ
と関連づけて考えられている。オーディオ信号が与えら
れると、それは「純トーン」から「純ノイズ」までの連
続体に沿ってどこかに相当する。従来、ノイズ性が高い
オーディオ信号は、トーン性が高いオーディオ信号に比
べて、量子化ノイズをマスキングするには有効であると
経験的に判断されている。従って、トーン性の尺度
(「トーナリティ」という。)およびノイズ性の尺度
(「カオス」という。)が、量子化ステップサイズを設
定する基礎として、オーディオ圧縮システムによって用
いられている。このようなシステムの例には、米国特許
第5,040,217号(発明者:K. Brandenburgおよ
びJ. D. Johnston)、米国特許第5,341,457号
(発明者:J. L. HallおよびJ. D. Johnston)、米国特
許出願第07/844,804号、第07/844,8
19号、第07/844,811号(いずれも出願日は
1992年5月2日)、および、米国特許第5,22
7,788号がある。これらの文献で説明されているよ
うに、トーナリティ(あるいはカオス)は知覚しきい値
を計算するために使用され、この知覚しきい値がステッ
プサイズを計算するために使用される。トーナリティ
(およびカオス)のような尺度を通じて、これらのシス
テムにより、オーディオ信号の知覚可能な劣化(あるい
はオーディオ信号中の量子化ノイズ)をほとんど(もし
あったとしても)導入せずにビットレートを低減させる
ことが可能となっている。
【0005】従来、上記のようなシステムは、ある1つ
のトーン予測方式を用いてトーナリティ尺度を計算して
いる。与えられた時点におけるオーディオ信号のトーナ
リティは、そのオーディオ信号がその時点で予測された
オーディオ信号値とどのくらいよく一致するかに基づい
て計算されている。この予測は、過去のオーディオ信号
値の関数である。予測されるオーディオ信号値は、その
オーディオ信号が純トーンであるという仮定に基づいて
決定される。予測された信号値がその信号の実際の値に
一致した場合、その実際の信号をトーンモデルによって
うまく表現することができるという仮定が確認され、そ
の結果、トーナリティは大きい値(例えば、正規化スケ
ールで1)となる。他方、予測された信号値が実際の信
号値にあまりよく一致しない場合(これは、信号を純ト
ーンによってうまく表現することができるというもとの
仮定の評価を下げる結果であるが)、トーナリティは比
較的小さい値となる。このようにして、信号には1より
小さいトーナリティ尺度値が割り当てられ、その詳細な
値は、実際の信号が予測された信号と異なる程度に依存
する。(カオスの尺度は、正規化スケールでは、1から
トーナリティの値を引いたものに等しい。)
【0006】
【発明が解決しようとする課題】トーナリティ(および
カオス)の概念は量子化ステップサイズを決定する際に
有効に使用されてきたが、この概念は、さまざまなタイ
プの信号のマスキング能力に対する観測された効果に基
づいており、人間の聴覚系においてそのような信号にさ
らされる結果としてそのような効果がどのようにして引
き起こされるかについての理解に基づくものではない。
【0007】
【課題を解決するための手段】本発明は、ラウドネス不
確定性の尺度に基づくノイズマスキングのモデルに従っ
てオーディオ信号を符号化する方法および装置を提供す
る。ラウドネス不確定性は、人間の聴覚系においてノイ
ズマスキング効果がどのように引き起こされるかについ
ての新たに明らかにされた理解の中心にある。
【0008】本発明の実施例によれば、1つのサブバン
ド・合成による分析のフレームワーク内で、ラウドネス
不確定性の尺度を、もとのオーディオ信号と合成したオ
ーディオ信号の間のラウドネス差分と比較する。与えら
れた符号器バンドに対して、複数の異なる(仮の)符号
化(量子化ステップサイズ)を試行し、ラウドネス不確
定性より小さい(しかしあまり小さすぎない)ラウドネ
ス差分を達成する符号化を判定する。この符号化(ステ
ップサイズ)は、そのバンドに対して適当であると判断
されたものである。このステップサイズは、そのバンド
内の信号を量子化するために使用することができる。
【0009】
【発明の実施の形態】
[はじめに:人間聴覚系におけるラウドネス不確定性]
音は、人間の聴覚系の蝸牛によって変換されるときに、
神経符号に変換される。神経符号は、非斉時的ポアソン
過程に似ている。周知のように、ポアソン点過程では、
過程のランダム変数(ここではスパイクの数)の分散は
平均にほぼ等しい。1kHzの50msトーンバースト
から生じるスパイクの数をNkと仮定する。トーンバー
ストが耳に与えられるごとに、スパイクの数Nkが生成
される。ただしkは試行のインデックスである。例え
ば、最初の試行に対してN1個のスパイクが得られ、1
0回目の試行に対してN10個のスパイクが得られる。全
試行に対するNkの平均値はLであり、ランダム変数Nk
の標準偏差はσNである。スパイク数を生じる過程がポ
アソン過程である場合、σN=L1/2である。
【0010】聴覚信号のラウドネスは、すべての神経繊
維にわたって和をとったスパイクの総数に関係する。本
発明に結びついた研究によれば、マスキングしきい値は
ラウドネスの不確定性(すなわち変動の程度)に関係
し、これはσNに正比例する。従って、この不確定性
は、信号のマスキングしきい値を計算するための理論を
提供する。この理論はまず、部分的ラウドネスの計算を
必要とする。部分的ラウドネスは、基底膜に沿ったラウ
ドネスである。その後、理論は、ポアソンモデルに基づ
いて、それらの部分的ラウドネスの標準偏差の計算を必
要とする。
【0011】本発明の基本的な考え方は、オーディオ信
号の歪みは、特定の周波数範囲における相対ラウドネス
の検出可能な変化を生じる場合にのみ知覚可能であると
いうことである。相対ラウドネスとは、もとの信号(オ
リジナル)と、その信号を符号化したもの(符号化信
号)に基づいて合成された信号のラウドネスの差であ
る。その決定は、人間の聴覚系の関連する蝸牛(あるい
は臨界)周波数バンドのそれぞれにおいてなされる。す
なわち、
【0012】1.オーディオ信号をバンドパスフィルタ
に通す。このフィルタの形状は、人間の「臨界バンド」
フィルタの形状に基づくが、計算効率を改善するように
修正することも可能である。
【0013】2.フィルタの出力を瞬間非線形要素に通
す。この非線形要素は、強度対ラウドネスの関係に基づ
く。
【0014】3.最後に、信号のラウドネスを、非線形
要素の出力の移動指数関数加重平均として計算する。
【0015】ラウドネスの計算は、もとのオーディオ信
号および符号化された(歪んだ)オーディオ信号の両方
に対して実行される。もとの部分的ラウドネス(オリジ
ナル部分的ラウドネス)と符号化信号の部分的ラウドネ
ス(符号化部分的ラウドネス)の差を正規化したもの
は、1つの周波数範囲にわたるそれら2つの信号のラウ
ドネスの間の知覚的距離の尺度を与える。
【0016】周波数範囲(フィルタ)ごとに、オリジナ
ル部分的ラウドネスと符号化部分的ラウドネスの差をオ
リジナルのラウドネスの平方根(すなわち、オリジナル
の不確定性)で除算することにより、検出可能性尺度d
k′(i)が得られる。信号のラウドネスの「不確定
性」は、そのラウドネスの平方根(従って分母にある平
方根)に関係する。パラメータ(主に、部分的ラウドネ
ス計算におけるα)を適当に選択すると、d≧1は知覚
的に検出可能な歪みを表し、d<1は知覚可能でない歪
みを表す。
【0017】このように、上記の方法は、もとのオーデ
ィオ信号とは知覚的に区別できない出力を生成する知覚
オーディオ符号器を作成する基礎を略述している。すべ
てのdk′(i)についてdk′(i)<1に維持するよ
うにオーディオ信号を歪ませる符号器は、オリジナルと
は知覚的に区別できないオーディオ信号を生成する。し
かし、より大きな符号化利得(ビットレートの態気ン)
が所望される場合、すべてのkおよびiに対して関数m
ax[dk′(i)]を最大化する符号器が、もっとも
知覚的に透過的な信号を生成する。
【0018】[実施例]説明を明確にするために、本発
明の実施例は、個別の機能ブロック(「プロセッサ」と
ラベルされた機能ブロックを含む)からなるものとして
提示される。これらのブロックが表す機能は、共用また
は専用のいずれのハードウェアの使用によって提供する
ことも可能である。このハードウェアには、ソフトウェ
アを実行可能なハードウェアも含まれるが、それに制限
されるものではない。例えば、図1に表されたプロセッ
サの機能は、単一の共用プロセッサによって提供される
ことも可能である。(「プロセッサ」という用語の使用
は、ソフトウェアを実行可能なハードウェアのみをさす
ものと解釈してはならない。)
【0019】実施例は、ディジタル信号プロセッサ(D
SP)ハードウェア(例えばAT&TのDSP16ある
いはDSP32C)と、以下で説明する動作を実行する
ソフトウェアを記憶する読み出し専用メモリ(ROM)
と、DSPの結果を記憶するランダムアクセスメモリ
(RAM)とからなる。超大規模集積(VLSI)ハー
ドウェア実施例や、カスタムVLSI回路と汎用DSP
回路の組合せによることも可能である。
【0020】本発明の実施例は、入力オーディオ信号x
(i)を符号化するために、合成による分析・サブバン
ドのフレームワークに従って動作する。信号x(i)
は、知覚モデリングのため、および、符号化の適当な表
現を得るための両方の目的で、周波数成分(すなわち
「サブバンド」)に分解される。これらの各目的ごとに
異なるサブバンドフレームワークが使用される。知覚的
モデリングの目的では、信号x(i)は蝸牛フィルタバ
ンクに入力され、符号化効率の目的では、信号x(i)
は符号化フィルタバンクに入力される。符号化フィルタ
バンクでは、x(i)のM個のサンプルからなるセグメ
ントはM個のサブバンドに分解される。与えられた信号
x(i)のセグメント(1≦i≦M)および与えられた
サブバンドk(1≦k≦M)に対して、仮の符号化(す
なわち量子化)が実行される。初期量子化ステップサイ
ズは、信号のラウドネスLkに基づいて決定される。こ
の仮符号化は量子化ノイズnkを導入する。次に、仮符
号化されたオーディオ信号を使用してオーディオ信号x
k=xk+nkを合成する。次に、この合成されたオー
ディオ信号x^k(ラウドネスL^kを有する)を使用し
て、「検出可能性」メトリックという符号化メトリック
を決定する。検出可能性メトリックは、もとのオーディ
オ信号と合成オーディオ信号の間の計算されたラウドネ
スの変化|ΔLk|=|Lk−L^k|と、そのサブバン
ドのラウドネスの不確定性σLk=Lk 1/2の比較を表す。
次に、このメトリックをあるしきい値と比較して、量子
化によって導入される符号化ノイズが知覚的に検出可能
であるかどうかを判断する。この比較により、次の3つ
の可能性のうちの1つとなる。(i)符号化ノイズは、
信号を強く符号化過剰にしなければ検出できない。(i
i)符号化ノイズは、かなり符号化過剰であるため検出
できない。(iii)符号化ノイズは検出可能である。
【0021】第1の場合、そのセグメントに対する符号
化は完了する。第2の場合、信号は、より粗い量子化器
ステップサイズを用いて再量子化され、検出可能性メト
リックを再計算して、同じ可能性を再検査する。
【0022】第3の場合、2つまでのステップを含む処
理が使用される。これらのステップのうちの第1ステッ
プは、ステップサイズを変更せずにノイズの検出可能性
を低減させようとする試みに関するものである。これ
は、オーディオ信号xkと量子化ノイズnkの間の位相関
係を変更することによりなされる。同じ量子化器ステッ
プサイズを用いてオーディオ信号を再量子化し、検出可
能性メトリックを再計算する。検出可能性メトリックが
今度はしきい値以下になった場合、そのセグメントに対
する符号化は完了する。そうでない場合、量子化ステッ
プサイズを縮小し、オーディオ信号を再量子化する。検
出可能性メトリックを再計算し、上記の可能性を再検査
する。
【0023】[アナライザ(分析器)]図1に、分析お
よび合成の機能を用いる本発明の実施例を示す。この実
施例の分析機能は2つの要素、すなわち、(i)ラウド
ネス計算のためのオーディオ信号の分析と、(ii)量
子化のためのオーディオ信号の分析とを有する。
【0024】これらの2つの分析要素のうちの第1の要
素に関して、符号化されるオーディオ信号x(i)は、
複数の信号サブバンドのそれぞれにおける信号ラウドネ
スを決定するためにラウドネス計算プロセッサ10に供
給される。ラウドネス計算の詳細は図2で実行される。
その図に示したように、ラウドネス計算はサブバンドご
とになされ、サブバンドkに注目することにより蝸牛フ
ィルタバンク11のK個のサブバンドのすべてについて
理解することができる。蝸牛フィルタバンクのサブバン
ドの数Kは、個々のオーディオ信号バンド幅に対して蝸
牛の基底膜をどのくらい正確にモデル化するかに依存す
る。例えば、20kHzのCD品質のオーディオの場
合、このフィルタバンク内のサブバンドの数は約80と
することが可能である。本発明の実施例を実現する際に
用いるのに適当な蝸牛フィルタバンクは当業者には周知
である。例えば、Allen, 68 J. Acoust. Soc. Am., 166
0-70(1980); Allen, et al., 95 J. Acoust. Soc. Am.,
3006 (1994)を参照。信号x(i)は蝸牛フィルタバン
ク11の各フィルタに供給される。フィルタ11−k
は、後続の処理のために、信号の第k蝸牛サブバンドx
kを生成する。このサブバンド信号は、平方関数12−
kおよび立方根関数14−kからなる非線形要素を通過
する。結果として得られる信号xk 2/3は、積分器16−
kによって5ms間にわたって積分される。この非線形
要素は、ラウドネス成長関数の形状の近似であり、現在
の研究に基づいた良好な近似である。しかし、この非線
形要素のさらに良好な近似もまた将来は利用可能になる
こともありうる。また、5ms間の積分期間を変えるこ
とも可能である。次に、積分された信号はファクタα倍
にスケールされる。このスケールファクタは、検出可能
性メトリックを約1であるしきい値と比較することがで
きるようにするために使用される。例えば、1Vの信号
r.m.s.から音圧レベル≒90dBが得られると仮
定すると、α=959.68となる。この結果は、サブ
バンド信号のラウドネスの尺度Lkである。このように
して、ラウドネス計算10は、複数のラウドネス尺度
を、サブバンドごとに1つずつ出力する。
【0025】第2の分析要素に関して、オーディオ信号
x(i)は、可変分解能分析フィルタバンク(VRA
F)70に供給される。このフィルタバンク70は、後
で量子化に使用するために信号の修正離散コサイン変換
(MDCT)を実行する。当業者に周知のように、MD
CTは、極大分割一様周波数分解能サブバンドを提供す
るサブバンド分解フィルタバンクである。また、これに
よれば、フィルタリングされた信号の完全な再構成も可
能であり、従って、特に符号化技術に適している。MD
CT分解能の可変性は、それが生成するサブバンドの数
(すなわち、MDCTの周波数分解能)に関係する。V
RAF70は、時間とともにラウドネスが変化するのに
従ってサブバンドの数を変化させる。VRAF70の詳
細を図3に示す。
【0026】図3に示したように、VRAF70は、バ
ッファメモリ72と、従来の可変分解能MDCTプロセ
ッサ74とからなる。MDCTプロセッサ74の分解能
(すなわちサブバンドの数)は、時間とともに、計算さ
れるラウドネス値Lkに依存し、分解能制御プロセッサ
60(後述)によって決定される。まず、上記のラウド
ネス計算10がオーディオ信号x(i)の同じセグメン
トに対するMDCTの実行に先行するように、オーディ
オ信号x(i)はメモリ72にバッファリングされる。
バッファメモリ72は、オーディオ信号の1024個の
入力サンプルからなるセグメントを2個連続して記憶
し、従来の50%重畳「折り返し(lapped)」変換(フィ
ルタリング)動作のために十分なメモリおよび制御を提
供する。MDCTプロセッサ74は、バッファリングさ
れたセグメント(2048サンプル)に対して、分解能
制御プロセッサ60からの信号によって決定される分解
能Mで従来の折り返し変換を実行する。
【0027】もとのオーディオ信号の48kHzのサン
プリングレートの場合、VRAF70は、2つの分解能
のうちのいずれかで動作する。分解能制御60によって
定常的であると判断された信号に対しては、M=102
4という分解能が使用される。非定常的セグメント(す
なわち、鋭い遷移を含むセグメント)に対しては、M=
128という分解能が使用される。周知のように、与え
られた信号セグメントに対して、周波数分解能が低いこ
とは時間分解能が高い(すなわち、MDCTからの出力
サブバンドサンプル数が大きい)ことを意味し、周波数
分解能が高いことは時間分解能が低い(すなわち、MD
CTからのサブバンドサンプル数が小さい)ことを意味
する。分解能間の切換えは、従来の窓切換え技術によっ
て実行される。例えば、EDLER, "Coding of Audio Sign
als With Overlapping Block Transform and Adaptive
Window Functions(重畳ブロック変換および適応窓関数
によるオーディオ信号の符号化)", 43 Frequenz, 252-
56 (1989)参照。個のようにして、MDCTプロセッサ
74は、バッファ72からの入力サンプルからなる入力
セグメントごとに、M個の出力サブバンドサンプル(M
DCT係数)sm(1≦m≦M)からなるベクトルを生
成する。従来のように、プロセッサ74の周波数分解能
動作が低いことは、与えられた入力セグメントに対して
多くの出力ベクトルを生じ、各ベクトルの長さは小さく
なることになる(Mのサイズに反映される)。出力ベク
トルは量子化プロセッサ80(後述)に供給される。
【0028】分解能制御60は、与えられたオーディオ
信号のセグメントに対して、VRAFの2つの周波数分
解能のうちのいずれが適当であるかを判断する。当業者
には認識されるように、符号化効率を向上させるために
実施例で多数の周波数分解能を使用することを選択する
ことも可能である。また、非一様周波数サブバンドを使
用することも可能である。分解能制御60は、与えられ
たセグメントに対応する各蝸牛サブバンドLk(1≦k
≦K)に対するラウドネス尺度(計算10によって供給
される)をバッファリングする。各サブバンドに対し
て、制御60は、(そのバンド内で)そのセグメントに
対するLkの最小値と最大値の差(絶対値)を形成し、
それをあるしきい値と比較する。例えば、このしきい値
は100である。制御60は、この差がそのしきい値を
超えるようなサブバンドの数をカウントする。このカウ
ントがバンドの所定数より大きい場合、そのセグメント
は非定常的であると分類する。その結果、信号Mは、低
分解能MDCTの必要を示すようにセットされる(M=
128)。そうでない場合、高分解能MDCTが使用さ
れる(M=1024)。例えば、所定数は20であり、
これは、K=80個の蝸牛フィルタバンドのうちの少な
くとも20個が鋭いラウドネス遷移を受けていることを
示す。
【0029】量子化プロセッサ80のために、MDCT
サブバンドは、符号器バンドの小さいセット(jでイン
デックスづけられる)にグループ化される。MDCTサ
ブバンドを符号器バンドにグループ化することは、従来
のように、人間聴覚系の臨界バンド分割を近似するもの
である。(J. D. Johnston and K. Brandenberg, "Wide
band Coding-Perceptual Cosiderations for Speech an
d Music(広帯域符号化−音声および音楽に対する知覚
的考察)", Advances in Speech Signal Processing, e
dited by S. Furui and M. M. Sondhi (1992)参照。)
VRAF70で用いられる周波数の2つの分解能に対応
して2つのこのようなグループ化がある。(付録1参
照。)グループ化とは、グループの各MDCTサブバン
ドが同じステップサイズで量子化され、同じ位相制御処
理を受けるということを指す。(例えば、符号器バンド
の数をNとすると、M=1024に対してN=49であ
り、M=128に対してN=15である。)
【0030】量子化プロセッサ80は、VRAF70か
ら出力ベクトルを受け取り、ラウドネス計算10から出
力される初期ラウドネス信号のセットと、差分ラウドネ
ス検出可能性プロセッサ20からの出力に従ってこれら
のベクトルを量子化する。量子化は、VRAF70から
受け取る各ベクトルごとに実行される。プロセッサ80
は、位相制御83および量子化器86に接続された量子
化器ステップサイズ制御85からなる。位相制御83は
さらにメモリ87(波形辞書という。)に接続される。
メモリ87は、対応する量子化器ノイズ信号ともとのオ
ーディオ信号の間の位相変化を実行するために符号器バ
ンドデータを変更する信号を提供する。量子化ステップ
サイズ制御85は、ラウドネス計算10から受け取るサ
ブバンドラウドネス信号に基づいて、各ベクトルごとに
プロセッサ82から初期量子化器しきい値を受け取る。
また、量子化器ステップサイズ制御85は、DLDP2
0から、位相制御または量子化ステップサイズの変更を
要求する符号器サブバンドに関する情報を受け取る。符
号器サブバンド情報はマッピング機能84によって提供
される。マッピング機能84は、蝸牛サブバンドと符号
器サブバンドの間の記憶された関係(マッピング)81
を用いて個々の蝸牛サブバンドに対して適当な符号器サ
ブバンドを選択する。
【0031】符号器バンド対蝸牛バンドマッピングメモ
リ81は、K個の蝸牛サブバンドとN個の符号器バンド
の間の2ウェイ結合マップである。すなわち、これはi
番目の蝸牛バンドとj番目の符号器バンドが対応する場
合に(i,j)成分が1であるようなK×N行列であ
る。これは、蝸牛フィルタiのマグニチュード応答を見
ることによって決定される。i番目のフィルタのマグニ
チュード応答が、j番目の符号器バンドのパスバンド内
で、ピーク応答の(例えば)−25dBより大きい場
合、結合性は真となる。
【0032】2つのVRAF周波数分解能(M)に対応
して2つの結合マップがある。マッピング81は、個々
の蝸牛バンドに対応する符号器バンドのリストを生成す
るマッピング機能84と、個々の符号器バンドに対応す
る蝸牛サブバンドのリストを必要とする初期ステップサ
イズプロセッサ82の両方によって使用される。
【0033】VRAF70からの各入力ベクトルに対応
する符号器バンド信号の量子化を行うことが可能になる
前に、各符号器バンドに対する初期量子化器ステップサ
イズΔjを計算することが必要である。この計算は初期
ステップサイズプロセッサ82によって実行される。プ
ロセッサ82は、まず、各jに対して、符号器バンドI
j内の平均エネルギーを計算する。この平均エネルギー
は、符号器バンドjに属するMDCTサブバンド信号の
値の平方の総和を、その符号器バンド内のMDCTサブ
バンドの数で除算したものに等しい。
【0034】次に、最小ラウドネス尺度を決定する。こ
れは、まず、各蝸牛サブバンドの(VRAF70からの
入力ベクトルに対応する)M個の係数の各グループに対
する時間にわたる最小ラウドネス値を決定することによ
ってなされる。ただしMは上記の周波数分解能である。
次に、メモリ81からのマッピングに基づいて、符号器
バンドに対して前に決定された最小ラウドネス値の最小
値Lj minを符号器バンドごとに決定する。
【0035】各符号器バンドのノイズパワーNjは、例
えば次のように計算される。 Nj=(Lj min+(Lj min1/23−Ij 各符号器バンドに対する初期量子化器ステップサイズΔ
jは次のように決定される。 Δj=(12Nj1/2
【0036】各符号器バンドごとに、プロセッサ80
は、ステップサイズΔjを用いた従来の一様量子化器8
6で符号器バンドに対応するすべてのMDCT係数を量
子化する。位相制御83はこの時には何の機能も実行し
ない。
【0037】量子化された値はさらに、ハフマン符号化
100のような従来の無損失符号化技術を用いて圧縮さ
れ、符号化ビットストリームが生成される。その後、こ
のビットストリームは、符号器の合成部分に利用可能と
なる。
【0038】[シンセサイザ(合成器)]実施例の合成
による分析方式の合成部分は、無ノイズ復号器110か
ら始まる。復号器110は、無ノイズ100によって適
用された手続きの逆を実行する(すなわち、復号器11
0は従来のハフマン復号を実行する)。復号器110の
出力信号は、量子化プロセッサ80の出力信号に対応す
る。次に、この信号は、逆量子化器120によって逆量
子化される。逆量子化器120は、量子化器ステップサ
イズおよび位相制御の補助情報が与えられれば、プロセ
ッサ80によって実行された量子化器処理の逆を実行す
る。逆量子化器120の出力は、VRAF70の出力に
対応するサブバンド信号のセットである。次に、このサ
ブバンド信号のセットは、周波数分解能Mに関する補助
情報が与えられればVRAF70によって実行された処
理の逆を実行する逆MDCTプロセッサ(VRAF-1
130に入力される。その結果は信号x^(i)であ
り、これは、もとのオーディオ信号に加法的量子化ノイ
ズを加えたものに等しい(すなわちx^(i)=x
(i)+n(i))。
【0039】信号x^(i)は、上記のラウドネス計算
10と同一であるラウドネス計算プロセッサ30に入力
される。その結果は、時変サブバンドラウドネス信号L
kのセットであり、これは、x^(i)に対応するラ
ウドネス(すなわち、もとのオーディオ信号に加えられ
た量子化ノイズの総和に対応するラウドネス)を表す。
重要なことであるが、このラウドネス計算の結果は、も
とのオーディオ信号とノイズ信号の間の位相関係に依存
する。換言すれば、これらの信号が相対的な位相の結果
として強め合うように干渉する程度が全ラウドネスL^
kに影響を及ぼす。このように、重要なのは相対的な信
号およびノイズパワー(エネルギー)だけではない。本
実施例は、以下で説明するように、符号化処理において
相対的な位相関係を実際に利用している。
【0040】[差分ラウドネス検出可能性]ラウドネス
計算30によって提供されるラウドネス信号L^kおよ
びラウドネス計算10によって提供されるラウドネス信
号Lkはいずれも、時変サブバンドメトリックdk
(i)の計算のために差分ラウドネス検出可能性プロセ
ッサ(DLDP)20に供給される。このメトリックは
次式で与えられる。
【数1】 ただし、Lk 1/2は、ラウドネスの聴神経符号化に関連す
る不確定性の推定値である(付録2参照)。このような
不確定性は、平均Lkのポアソン過程Lの標準偏差に
よって表される。従って、この標準偏差はLk 1/2で与え
られる。この比は、差分ラウドネスを、ラウドネスに関
連する不確定性の尺度と比較することを容易にする(こ
のような比較は他のいくつかの方法でも可能である)。
差分ラウドネスがL1/2より大きい場合、符号化ノイズ
は可聴(検出可能)である可能性が高い。そうでない場
合、符号化ノイズは可聴である可能性が低い。
【0041】与えられたオーディオ信号のセグメントの
すべてのiに対するdk′(i)の値が、検出可能性し
きい値(例えば1に等しい)と比較され、その差が記憶
される。この比較は、すべてのサブバンドに対して独立
に行なわれる。dk′(i)の値がすべて1以下である
が第2のしきい値(例えば0.9)以下でないものがあ
る場合、そのセグメントは、蝸牛サブバンドkのパスバ
ンド付近の周波数範囲内には可聴符号化ノイズを含まな
い可能性が高く、強く符号化過剰にされることはない。
このテストがすべてのkについて満たされた場合、その
セグメントの符号化は完了する。第2しきい値の値は、
利用可能なビットが符号化にどのくらい効率的に利用さ
れるかということとともに、符号器の複雑さに影響を与
える。
【0042】いずれかのdk′(i)の値が1を超過す
るか(符号化ノイズの検出可能性を示す)、または、第
2しきい値以下である(かなりの符号化過剰を示す)場
合には、信号は量子化プロセッサ80に送られる。これ
は、(i)k(蝸牛サブバンドを示す)がさらに処理を
必要としていること、および(ii)符号化過剰または
符号化不足の状態を示す。
【0043】[量子化プロセッサにおける量子化器ステ
ップサイズ制御]量子化プロセッサ80は、上記の状態
に従って、符号器バンドに従ってグループ化されたMD
CT係数データの追加処理を行う。ノイズ検出可能性お
よび符号化過剰の2つの状態に対応して追加処理の2つ
のモードがある。第1のモードは、マスキングされてい
ないノイズ(非マスキングノイズ)に対応して、波形辞
書87とともにプロセッサ83による位相制御処理を含
み、必要であればその後、縮小したステップサイズで再
量子化を行う。第2のモードは、符号化過剰に対応し
て、増大したステップサイズでの再量子化を含む。これ
らの状態に対する修正処理の前に、DLDP20によっ
て提供される各蝸牛サブバンドインデックスkは、マッ
プ81における従来のテーブルルックアップを用いるマ
ッピング機能84によって、符号器バンドインデックス
j(単数または複数)のリストにマッピングされる(前
述)。
【0044】[非マスキングノイズの処理]マッピング
機能84によって提供される符号器バンドjで非マスキ
ングノイズに対する修正作用を必要とするものすべてに
対して、上記の位相制御処理83が順次各バンドに適用
される。この処理は、符号器バンドjに対応するMDC
T係数のベクトルから、スケールされたランダム値のベ
クトル(後述の波形辞書87によって提供される)を減
算することによって、量子化ノイズ信号に対するオーデ
ィオ信号の位相を調節する。波形辞書87は、このバン
ドに対する量子化器ステップサイズの値だけスケールさ
れ(乗算され)る。減算の結果のベクトルは次に量子化
器86によって再量子化される。量子化器86は、この
符号器バンドに前に用いたのと同じステップサイズを使
用する。量子化器86の出力は圧縮100に送られ、さ
らに、合成処理(110、120、130、および3
0)に送られて、合成ラウドネスL^kを再生成する。
DLDP20は検出可能性尺度dk′を更新した後、そ
れを、前に計算したdk′と比較して、前に1より大き
かったdk′のうちのいずれかが前にマスキングされて
いた蝸牛バンドをマスキング解除せずに縮小したかどう
かを判断する。前にマスキングされていた蝸牛バンドの
うちのいずれかがマスキング解除された場合、位相制御
ベクトル減算は無視される。そうでない場合、dk′が
減少した蝸牛サブバンドの数を記憶し、次の辞書エント
リを試行する。すべての辞書エントリを試行した後、d
k′の値が縮小したのが最も多いエントリを指定し、符
号器バンドjに対応させる。最良のエントリに対応する
修正されたMDCT係数(ベクトル減算による修正)が
記憶される。すべてのエントリが以前にマスキングされ
ていた蝸牛バンドをマスキング解除することになった場
合、この符号器バンドに対応するMDCT係数は不変の
ままとされる。最良エントリに対応する量子化されたM
DCT係数を用いて追加合成処理を実行し、そのエント
リに対するdk′の値を更新する(このエントリは、上
記の検索中には見失われていたかもしれないものであ
る)。
【0045】非マスキングノイズに対する処理を必要と
する残りのすべての符号器バンドjは次にその後上記の
ように処理される。この結果、位相制御処理に基づくd
k′の最良のセットが得られる(しかも量子化ステップ
サイズに変更はない)。すべてのdk′が1以下である
場合、符号化不足の符号化バンドに対する修正処理はこ
のMDCTベクトルに対しては完了する。しかし、最良
セットのいずれかのdk′が1(しきい値)より大きい
場合、より小さいステップサイズでの再量子化が必要と
なる。
【0046】再量子化の前に、非マスキングノイズを修
正するための処理を必要とする符号器バンドのリスト
を、上記のようにしてdk′の値の最良セットに基づい
て更新する(マッピング機能84の説明を参照)。こう
して非マスキングノイズに対する処理がさらに必要であ
ると判断された符号器バンドに対しては、前のステップ
で有効にされた位相調節は無効にされる。量子化器ステ
ップサイズは、更新されたリスト内のすべての符号器バ
ンドに対して縮小される。ステップサイズは、1より小
さい定数(例えば0.9)を乗算することにより縮小さ
れる。その後、リスト内のすべての符号器の再量子化を
実行する。合成処理もまた実行され、dk′の値の再計
算に達する。非マスキングノイズに対する修正作用を必
要とする符号器バンドのリストは上記のように更新され
る。このリストが空である場合、符号化不足の符号器バ
ンドに対する修正作用および符号化は完了する。リスト
が符号器バンドエントリを含む場合、位相制御をもう1
度実行した後、必要であれば量子化器ステップサイズを
縮小する、などとなる。最終結果は、すべて1より小さ
いdk′の値のセットである。
【0047】波形辞書87は、それぞれ符号器バンドサ
イズに対応するサブ辞書を含む。各サブ辞書は、ガウシ
アン乱数発生器によって発生されたエントリからなる固
定長の正規化ベクトルを含む。付録1から明らかなよう
に、符号器バンドのサイズは2k(k=2,3,4,
5,6)である。各kに対して次元2k-2のサブディレ
クトリがある。
【0048】[符号化過剰の符号器バンドの処理]マッ
ピング機能84によって提供される符号器バンドjのう
ち符号化過剰に対する修正作用を必要とするものすべて
に対して、量子化器ステップサイズは増加され、条件が
軽減される。このような符号器バンドの処理は一度に1
バンドずつ行なわれる。このような各符号器バンドに対
して、量子化ステップサイズは1より大きいファクタ
(例えば1.1)倍に増加される。次に、符号器バンド
MDCT係数を再量子化し、合成処理を実行する。
k′の更新された値を計算し、これらの値のうち1よ
り大きいものがあるかどうかをチェックする。1より大
きいものがない場合、ステップサイズを再び増加させ、
合成を繰り返す。いずれかのdk′の値が(増大したス
テップサイズの適用の結果として)1を越えた場合、こ
の状態の直前のステップサイズがこの符号器バンドの最
終ステップサイズとして選択される。他のすべての符号
化過剰の符号器バンドはこのようにして順に処理され
る。
【0049】[量子化プロセッサ出力]MDCT係数の
各ベクトルに対する量子化プロセッサ80の出力は、各
符号器バンドに対する量子化されたMDCT係数と補助
情報を含む。補助情報には、(符号器バンドごとの)量
子化器ステップサイズ、位相制御処理によって選択され
た辞書エントリへのインデックス(0というインデック
スはこの符号器バンドに対して位相制御処理がないこと
を示す)、および(ベクトルごとの)逆MDCTプロセ
ッサ130の分解能制御のための情報が含まれる。
【0050】さらに、プロセッサ80は、現在のプロセ
ッサ80の出力がチャネルを通じての伝送の際に使用さ
れることを示すフラグを出力する。このフラグTxは、
通信チャネル上に符号化ビットストリームとして符号器
出力を供給する送信器140に供給される。チャネル
は、実際の伝送チャネル(例えば、有線または無線の伝
送チャネル、電話網、インターネットまたはその他のコ
ンピュータネットワーク、LAN、WAN、MANな
ど)、あるいは、記憶媒体(例えば、コンパクトディス
ク(CD)、CD−ROM、半導体メモリ、磁気テープ
またはディスク、光記憶装置など)が可能である。
【0051】[実施例の符号器とともに使用する復号
器]この符号器は合成による分析の符号器であるため、
符号器のシンセサイザ部分は、符号器とともに用いるの
に適した復号器を含む。この復号器は、図1に示した復
号器のシンセサイザ部分に関してすでに説明したよう
に、無ノイズ復号器110、逆量子化器120、および
逆MDCTプロセッサ130の組合せを含む。
【0052】[他の実施例]本発明に従って他の実施例
を構成することも可能である。
【0053】例えば、本発明の実施例は、時間にわたる
信号振幅の変動の尺度としてラウドネス不確定性の尺度
を推定することも可能である。この尺度は、信号自体、
あるいは、信号エネルギーのような関連する量とするこ
とも可能である。このような尺度は、ノイズマスキング
への従来のトーナリティ技術で使用可能である。例え
ば、米国特許出願第08/384097号参照。
【0054】さらに、当業者には明らかなように、上記
の実施例は、可変ビットレート圧縮技術である。固定ビ
ットレートで動作する本発明の実施例も、上記のBrande
nburgおよびJohnstonの文献に記載されたような従来の
「レートループ」メカニズムを使用することにより可能
となる。
【0055】同様に、本実施例は、周知の和/差符号化
技術を使用するステレオオーディオの符号化を行うよう
に拡張することも可能である。J. D. Johnston and A.
J. Ferreira, "Sum-Difference Stereo Transform Codi
ng(和差ステレオ変換符号化)", Proceedings of IEE
E, ICASSP, San Francisco, II-569-572 (1992)参照。
【0056】[付録1] 符号器バンド上限 (I)M=1024
【表1】 (I)M=128
【表2】
【0057】[付録2] 技術的説明 [1.はじめに] [1.1 マスキングモデルの必要性]任意のマスカに
対してマスキングされるしきい値(マスキングしきい
値)を決定する問題は、多くの重要な工学的応用を有す
る精神物理学における基本的な問題である。第1に、マ
スキングしきい値は、音声符号器および音楽符号器にお
いてビット割当てを決定するために必要である[35,
22,39]。第2に、マスキングしきい値は、信号の
ラウドネスを計算する際に重要である[13,37,4
5]。第3に、マスキングは、臨界バンド幅を定義する
際に重要である。第4に、マスキングは、音声明瞭度を
決定する際に調音インデックスを計算する場合に必要と
なる[11]。
【0058】[1.2 中心的問題:トーンマスカ対ノ
イズマスカ]現在、任意のマスカに対してマスキングし
きい値を正確に予測する方法はあまり開発されていな
い。例えば、等しい強度のトーンと狭バンドのノイズと
のマスキング能力の大きな差を考慮に入れることが可能
なモデルはない。周波数がマスカ周波数に集中するよう
なトーンプローブに対するマスキングしきい値を測定す
ると、マスカが狭バンドのノイズである場合は、等強度
のトーンである場合に対して、しきい値が23dBまで
の増大を示す[7,8]。マスキングしきい値のこの差
は、我々が、70dBのSPLトーンを用いてマスキン
グされた聴力計を測定した実験Iの図6に見られる。
【0059】トーン対等強度狭バンドノイズのマスキン
グ能力の差は、マスキング刺激のエネルギースペクトラ
ムに基づいてマスキングしきい値を計算するさまざまな
公知の方法のために特に混乱している。例えば、任意の
音のラウドネスを計算するほとんどの方法は、ラウドネ
スが聴神経内の興奮のパターンと直接関係があるという
仮定に依拠している[12,13,37,45]。これ
らのすべての方法は、精神物理学的なマスキングオーデ
ィオグラムからの音がマスカとして用いられるときにそ
の音によって生成される神経活動のプロフィールを推論
する。マスキングオーディオグラムの下の面積は、神経
活動の表現[13]すなわち「固有ラウドネス」[4
5]に変換され、これは、スペクトラムにわたって積分
すると、その音の全ラウドネスの推定値となる。
【0060】フレッチャー(Fletcher)とマンソン(Munso
n)は、初めてラウドネス計算の方法を発表した。彼ら
は、マスキングオーディオグラムを用いて神経興奮を推
論する際の矛盾に気づいた。強度が等しいトーンと臨界
下バンド幅(SCBW)のノイズとはほぼ同じラウドネ
スを有する[9]が、マスキングオーディオグラムの下
の面積は全く異なる(図6参照)。離散スペクトルを有
する信号(例えば多重合成トーン)[12]と連続スペ
クトルを有する信号[13](例えばノイズあるいは音
声)のマスキング性の差のため、フレッチャーは、マス
キングとラウドネスの間の関係の統一モデルを開発する
ことが妨げられた。ラウドネスを計算するためのツウィ
ッカー(Zwicker)の方法は、同じ概念に基づいている
が、すべての信号をノイズ性として扱うことにより、ト
ーンとノイズのマスキング性の差を無視している[4
5]
【0061】入力音のマスキング性を利用して量子化ノ
イズを隠す音声符号器および音楽符号器の開発は、マス
キングしきい値を計算する際のトーン対ノイズのマスキ
ング効率の差によっても妨げられる[35,22]。こ
れらの符号器の開発者は、2つのクラスの信号(トーン
性対ノイズ性)を定義するという問題とともに、入力信
号のサブバンド内でその2つのクラスを識別するという
問題に取り組んでいる。ノイズ信号とトーン信号のマス
キング性を関係づける統一モデルが存在すれば、これら
の符号器が信号を分類する際に現在直面している問題は
除かれるであろう。
【0062】[1.3 問題のステートメント]我々の
最終的な目標は、任意の信号に対するマスキングしきい
値を予測するマスキングのモデルを開発することであ
る。この論文では、(1)マスカが0(すなわち純トー
ンマスカ)から臨界バンド幅(すなわちSCBWノイズ
マスカ)までの範囲にあり、(2)プローブはマスカと
同じバンド幅の純トーンまたはノイズである、という場
合を検討する。 マスキング刺激≡mT=m(T) t∈[0,T] (1) プローブ刺激 ≡pT=p(T) t∈[0,T] (2) すべての信号は1kHzを中心とする。
【0063】我々の結果が示唆するところでは、トーン
マスカとノイズマスカの間のマスキングしきい値の差
は、プローブがマスカに加えられるときに生じる強度変
化に関係づけられる。I[mT]をマスカの強度とし、
I[mT+pT]をマスカとプローブを足したものの強度
とした場合、強度変化ΔIは次式で与えられる。
【数2】 式5の右端の項はマスカ信号とプローブ信号の間の相関
を表す。このように、プローブをマスカに加えた結果得
られる強度増分は、プローブの強度I[pT]だけでな
く、mTとpTの間の相関にも依存する。相対強度変化Δ
I/Iは、JNDIタスクにおけるウェーバー分数とし
ても知られているが、次式で与えられる。 ΔI/I=(I[mT+pT]−I[mT])/I[mT] (6) =ΔI/I[mT] (7)
【0064】マスカおよびプローブが凍結した(すなわ
ち、決定論的な)信号である場合、強度増分は、正の相
関を有するマスカとプローブの場合に最大であり、負の
相関を有する信号の場合に最小となる。ランダムノイズ
によってマスキングされるトーンの場合のように、マス
カまたはプローブがランダム信号である場合、マスカと
プローブの間の相関は試行ごとに変動する。従って、ト
ーンが他のトーンまたは凍結したノイズに加えられると
きには一定の強度増分であるのに対して、トーンがラン
ダムノイズに加えられるときには強度増分はランダムと
なる。頻繁に、しかも不正確に、強度増分を計算する際
にマスカ信号とプローブ信号は無相関であると仮定され
る。実験について説明する前に、マスキング増分と強度
増分の間の関連づけることに関する問題について説明す
る。
【0065】[1.4 マスカおよびプローブが同じバ
ンド幅である場合]まず、プローブ信号がマスカ信号を
スケールしたコピーである場合、すなわち、 p(t)=αm(t) (8) の場合から始める。ただし、αはスケールファクタであ
る。この場合、信号はマスキングそのものであり、観測
者のタスクは、プローブがマスカに加えられたときに強
度の丁度可知差異(JNDI)を検出することになる。
ΔIはαと次式のように関係づけられる。 ΔI=(2α+α2)I[mT]≒2αI[mT] (αが小さい場合) (9)
【0066】[1.4.1 検出理論を用いたJNDI
の検査]強度増分の検出可能性は、検出理論[14,
6]を用いて調べることができる。信号検出理論の背景
にある基本的な考え方は、観測者は、刺激のランダム関
数である決定変数に基づいて判断を行うということであ
る。例えば、決定変数はJNDIタスクにおける刺激強
度の関数でなければならない。刺激の主観的格付けに伴
う不確定性は、決定変数の分布に反映される。検出理論
によれば、決定変数の分散は、強度のみが異なる刺激ど
うしを区別する被験者の能力を限定する[14,15,
6,26,32,23,19]。
【0067】[1.4.2 決定変数分散の尺度として
のΔI]マスキングおよびJNDIは一般に2区間強制
選択(2−IFC)パラダイムで測定される。ここで、
一方の区間はマスカm(t)を含み、他方の区間はマス
カとプローブを足したものmT+pTを含む。ある試行内
での2つの区間の提示の順序はランダム化され、被験者
は、いずれの区間がプローブを含むかを識別するよう求
められる。プローブレベルは、与えられた検出基準(例
えば76%正しい)に対応するレベルが見つかるまで変
化させられる。いくつかの聴覚検出モデルでは、JND
Iタスクにおける決定変数は、平均値が信号の強度
(I)と線形関係にあるようなガウス分布を有すると仮
定している[14,15,6,32]。例えば、2−I
FCのJNDIタスクでは、標準信号に対応する区間が
ある分布平均を有し、一方、それより高い強度信号に対
応する区間はわずかに大きい平均を有する。2つの区間
の分布が同一の標準偏差を有する場合、被験者は、平均
間の距離が分布の標準偏差に等しいとき(すなわち、
d′=1)に、76%の割合で強いほうの信号を正しく
識別することになる。決定変数の平均値は信号の強度と
単調に関係するため、76%正しいパフォーマンスでの
2つの区間の間の強度の差(すなわち、式3〜式5およ
び式9で定義されるΔI)は、決定変数の分布の標準偏
差の直接の尺度となる。
【0068】[1.4.3 不確定性の内的および外的
な起源]JNDタスクにおける決定変数の分散は、不確
定性の内的および外的な起源に分解される[6,26,
32,4]。内的不確定性は聴覚系の固有の特性であり
(例えば、確率論的神経表現の寄与による不確定性)、
可能な最良のパフォーマンス(例えばトーンJNDI
おける)に対する基本的な限界を表す。外的不確定性は
信号の寄与によるものである。例えば、ガウシアンノイ
ズの有限時間サンプルの強度がある平均値の周りにラン
ダムに変動し、信号レベル不確定性の外的起源となる。
ブース(Buus)は、臨界下バンド幅(SCBW)ガウシア
ンノイズに対するJNDIは、ノイズが、60dBのS
PLより大きい音レベルで、区間ごとにランダムではな
く凍結している場合に小さくなることを示した[4]。
ブースは、凍結ノイズに対するΔI/Iを強度不確定性
(主観的不確定性)の尺度と解釈し、ランダムノイズに
対するΔI/Iを内的および外的を合わせた不確定性
(刺激不確定性)の尺度と解釈している。トーンのΔI
/Iは、等しい強度の凍結SCBWノイズのものと等し
いことがわかっており、これはこの解釈と整合している
[4]。
【0069】[1.4.4 決定変数分散の従来のモデ
ル]グリーン(Green)は、バンド制限時間切断ガウシア
ンノイズの強度分布に対する近似解法を導出した[1
4]。決定変数の値は刺激の強度と線形関係にあるとい
う仮定(「エネルギーモデル」)と、内的不確定性より
も外的信号強度不確定性のほうが優勢であるという暗黙
の仮定との下で、グリーンは、このような検出モデルは
精神物理学的に測定されるパフォーマンスと定量的に整
合していることを示している。しかし、定量的予測は、
観測される人間のパフォーマンスよりも一貫して低い。
予測値と観測値の差は5dBのオーダーである[1
4]。
【0070】ドゥボア(de Boer)は、この差は不確定性
の内的起源の欠如によるものだとし、分散が刺激強度に
比例する内的起源を含めることによってグリーンのモデ
ルを再定式化した[6]。ドゥボアの結果は、精神物理
学的データへの改訂モデルの定量的一致において改善を
示しているが、検出可能性パラメータの値の範囲、およ
び、内的分散を刺激強度に関係づける比例定数の範囲
(これは、場合によっては、負の値を仮定している)
は、データを定量的に説明するためにはドゥボアのモデ
ルが全体的に失敗していることを示している[6]。
【0071】この論文では、これらの「エネルギーモデ
ル」が人間のパフォーマンスを予測することに失敗した
のは聴覚系がエネルギー検出器ではないためであること
を示す実験結果を提示する。我々の結果は、聴覚系にお
ける非線形性が、エネルギーモデルには存在しない、不
確定性のさらに別の起源(波形不確定性)を生じること
を示唆している。決定変数不確定性のこの追加起源は、
エネルギーモデルの失敗を説明する。
【0072】[1.5 JNDIとマスキングしきい値
の関係]以前は、マスカ信号とプローブ信号が同一であ
るとき、マスキングタスクは刺激のJNDIを見つける
ことと等価であると指摘されていた。ミラー(Miller)
[27]は、マスキング実験とJNDI実験の間のこの
「操作的類似性」を最初に明確に指摘した一人である。
他の著者によるその後の文献は、マスキングと強度JN
Dが基本的に関係しているという彼の仮説を承認してい
る[16,5,2,17]。しかし、マスキングと強度
増分の間のこのような関連のもっともらしさにもかかわ
らず、これら2つの現象を定量的に結びつける一般理論
が存在せず、そのため、JNDIデータからマスキング
結果を定量的に予測することができない。
【0073】これら2つのタスクにおいて決定変数が同
じ刺激属性の関数であることを示すことができれば、マ
スキングとJNDIの関係を確立することができる。明
らかに、JNDIタスクの決定変数は、刺激強度のみの
ランダム関数でなければならない。なぜならば、刺激強
度は、試行中に変化する信号の唯一の属性であるからで
ある。これに対して、マスキングタスクの決定変数は、
刺激強度とともに、刺激波形の形状の関数でもありう
る。というのは、これらの属性は両方とも、プローブが
マスカに加えられるときに変化するためである。問題
は、信号強度中の情報に加えて信号波形の詳細に含まれ
る情報を利用した場合にどのくらいの検出パフォーマン
スの改善が期待できるかということである。
【0074】[1.5.1 トーンをランダムSCBW
ノイズに加えることに伴う波形形状の変化は追加情報を
生じない]マスカがSCBWノイズでありプローブがト
ーンであるようなマスキングタスクにおいて観測者に利
用可能な少なくとも2つの知覚キューがあると仮定す
る。第1のキューは信号強度の変化(例えばラウドネス
キュー)であり、第2のキューは信号波形の変化(例え
ばトーナリティキュー)である。いずれのキューも、マ
スキングしきい値より高いトーンレベルに対しては明瞭
に知覚可能である。しかし、我々が興味があるのは、知
覚の絶対最小しきい値を決定する原因となる刺激属性を
識別することである。この知覚キューの問題を解決する
ために、我々は2セットの実験を実行した。
【0075】実験IIでは、2−IFCマスキング実験
を実行した。この実験では、強度キューを制御し、測定
したマスキングしきい値をマスキング刺激のJNDI
比較した。式5によれば、プローブをマスカに加えるこ
とにより生じる強度変化ΔIは、プローブとマスカの間
の相関に依存する。通常、トーンプローブとランダムノ
イズマスカの間の相関はランダムであるため、生じるΔ
Iはランダムである。しかし、我々は、トーンプローブ
およびランダムノイズマスカをディジタル的に発生し、
トーンが常に同相でノイズに加わるようにして、ランダ
ムではなく一定のΔIを生成した。刺激についての詳細
は「方法」の説で説明する。実験IIの結果によれば、
マスキングしきい値でのトーンプローブレベルは、マス
キングSCBWノイズ刺激のJNDIと同等の強度増分
(ΔI)を生成する。この結果は、マスキングと、強度
の丁度可知差異の間の基本的な関係を確立する。
【0076】実験IIIは、絶対最小マスキングしきい
値を決定する原因となる刺激属性が波形ではなく強度で
あることを明瞭に識別するために設計された。実験II
Iでは、3−IFCパラダイムを用いてマスキング刺激
のマスキングしきい値およびJNDIを測定し、その結
果を、2−IFCパラダイムにおける同じ刺激のマスキ
ングしきい値と比較した。3−IFCパラダイムでは、
被験者は「異なって聞こえる区間を選ぶ」ように教示さ
れる。SCBWノイズによってマスキングされたトーン
に対して観測されたしきい値は、2−IFCと3−IF
Cのパラダイムで同一であった。2つのパラダイムでの
結果の類似性は、被験者が、2−IFCパラダイムで絶
対最小しきい値知覚キューを利用したことを示してい
る。なぜならば、被験者は、3−IFCパラダイムにお
いてトーンプローブを含む「異なる」区間を検出するた
めに強度キューまたは波形キューのいずれでも使用する
ことができたであろうからである。実験IIおよびII
Iの結果を組み合わせると、刺激強度だけで、ノイズ中
のトーンを検出するための絶対最小しきい値を説明する
ことができると結論づけられる。
【0077】このようにして、我々は、SCBWノイズ
によってマスキングされた信号に対するしきい値がトー
ンの場合よりも増大することの1つの起源を識別した。
それは、2つのマスカに対するJNDIの差である。ラ
ンダムSCBWノイズに対するJNDIは、トーンの場
合よりも大きいため、ランダムSCBWノイズによって
マスキングされるときは、トーン(あるいは凍結したS
CBWノイズ)の場合よりも、検出可能な強度変化を生
成するためにはプローブを強くしなければならないこと
が予想される。
【0078】増大したしきい値の第2の、しかも等しく
重要な起源は、トーンをランダムノイズに加えることに
より、JNDIタスクにおいて、一定の強度増分ではな
くランダムな強度増分を生じることである。
【0079】[1.5.2 外的不確定性のもう1つの
起源:マスカ−プローブ相関]実験IIおよびIIIに
おいて、ランダムノイズマスカと同相に加えられたトー
ンプローブを検出するためのしきい値を測定した以外
に、プローブとマスカの間の相関を制御しない場合のし
きい値(すなわち、「通常の」マスキングしきい値実
験)も測定した。その結果によれば、プローブとマスカ
の間の相関を制御しないときのほうがマスキングしきい
値が高い。このように、位相制御をせずにランダムノイ
ズマスカにトーンプローブを加えることによって引き起
こされるランダムなΔIは、決定変数不確定性に対する
さらにもう1つの起源となる。このΔI不確定性は、ノ
イズによってマスキングされるプローブのしきい値を引
き上げることに寄与する。
【0080】[1.6 研究の目的]我々の仮説は、任
意のSCBWプローブに対して、それ以上のバンド幅の
任意のSCBWマスカによってマスキングされる場合の
しきい値は、それがランダムであるか決定論的であるか
にかかわらず、内的不確定性(すなわちトーンJN
I)の分布がわかれば予測することができる、という
ものである。この論文における目標は、任意のSCBW
マスカの存在下で狭バンドプローブに対するマスキング
しきい値を正確に予測することができるモデルを開発す
ることである。このようなモデルはとりわけ、トーン対
ノイズのマスキング効率の約20dBの差を説明する。
この研究は、ノイズ中のトーンの存在を検出するとき
に、決定変数は、JNDIの場合のように刺激強度のみ
の関数であるという仮説に基づく。従って、我々が調べ
る中心的な問題は、SCBWマスカによってマスキング
されるトーンに対するしきい値における強度増分とマス
カのJNDIの間の関係である。
【表3】
【0081】強度増分の検出可能性は、決定変数の統計
的分布によって支配される。決定変数の分布を定める内
的起源およびいくつかの外的起源がある。表3は、決定
変数不確定性のこれらの起源を分解したものである。以
前の「エネルギーモデル」は、凍結した刺激に対してマ
スカがランダムノイズであるときに、決定変数の分散の
増大を定量的に予測することができない。このようなエ
ネルギーモデルは、バンド制限時間切断ガウシアンノイ
ズのカイ二乗強度分布の寄与による不確定性の外的起源
を含んでいたが、従来の失敗は、外的不確定性のもう1
つの起源である波形不確定性が脱落していることによる
ものであると考えられる。従って、我々は、ガウシアン
ノイズの強度変化の寄与による外的不確定性を切り出
し、波形不確定性および刺激オン/オフ勾配による少量
の強度不確定性のみを残すように実験を設計した。この
ために、我々のランダムノイズ刺激は、強度は一定だが
位相はランダムな正弦波を足し合わせることにより生成
される。このようなノイズ刺激は、一定の強度(一定の
スペクトラムレベル)を有するが区間ごとにランダムな
波形である。このようにして、区間ごとに強度がランダ
ムに変化するランダムガウシアンノイズ刺激とは異な
り、我々の一定スペクトラムレベルのランダムノイズに
よる決定変数の不確定性の起源は、強度変化に帰するこ
とはできない。さらに、このようなノイズ刺激を使用す
ることにより、プローブ信号とマスカ信号の間の相関に
対する制御が可能となるため、決定変数の分散へのマス
カ−プローブ相関不確定性の寄与を調べることが可能と
なる。
【0082】表4は、実行した実験の要約である。実験
Iでは、我々の一定スペクトラムレベルのランダムノイ
ズが、以前にガウシアンランダムノイズを使用して観測
されたトーン対ノイズマスキングの結果[7,8]を再
現することを確認している。実験Iでは、(1)固定位
相トーンマスカ、(2)幅120Hzの平坦スペクトラ
ムのランダムノイズマスカ、および(3)ランダム位相
トーンマスカ、に対するマスキングオーディオグラムを
測定している。すべてのマスカの中心周波数は1kHz
であり、70dBのSPLで提示されている。オーディ
オグラムは、2−IFCパラダイムを用いて測定されて
いる。
【0083】実験IIでは、SCBWマスカによってマ
スキングされたトーンに対するしきい値と、SCBWマ
スカのJNDIを、2−IFCパラダイムを用いて測定
している。マスカバンド幅は0Hz(すなわち純トー
ン)から120Hz(すなわち平坦スペクトラムランダ
ムノイズマスカ)までの範囲にわたる。ここでも、すべ
てのマスカの中心周波数は1kHzであり、70dBの
SPLで提示される。マスキングしきい値測定は2群に
分けられる。第1群では、プローブとマスカの間の相関
は制御されない。従って、プローブをランダムノイズに
加えると、試行ごとにランダムな強度増分が生じる。第
2群のマスキング実験では、トーンとマスカの間の相関
は制御され、マスキングノイズ波形はランダムのまま
で、試行ごとに一定の強度増分が得られる。
【0084】実験IIIは、しきい値を測定するために
2−IFCではなく3−IFCを用いていることを除い
ては実験IIと同一である。
【0085】最後に、モデルを提案し、JNDIデータ
からすべてのマスキングしきい値データを予測すること
によって、その妥当性をテストする。
【0086】
【表4】 表4 :この論文で実行した実験を上に要約する。ここ
で、n(t)は1kHzを中心とする70dB SPL
の一定スペクトラムレベルのランダムノイズ信号であ
り、s(t)は70dBの1kHz正弦波であり、S
(t,f)は周波数fHzの正弦波である。ノイズ信号
の上付き添字(i≠j≠k)は、ランダムノイズの異な
る実現が各区間(および試行)中に提示されることを強
調しており、一方、正弦波信号の添字は、異なる位相の
正弦波が各区間中に提示されることがあることを強調し
ている。ノイズの上付き添字のスターは、そのノイズは
区間ごとにランダムであったが、ノイズマスカとトーン
プローブの間の相関は、正弦波をノイズに加えるとノイ
ズ実現のいかんにかかわらず一定強度増分が得られるよ
うに制御されたことを示す。
【0087】[2 方法] [2.1 刺激]すべての刺激は40kHzのサンプリ
ングレートでディジタル的に発生された。刺激の継続時
間は100ミリ秒であった。刺激を滑らかにオン・オフ
するために5ミリ秒間のコサイン勾配を用いた。
【0088】[2.1.1 マスカ]図5(上段)に、
マスカとして使用する3つの異なる刺激の振幅スペクト
ラムを示す。マスキング刺激のバンド幅(BW)は0
(すなわち純トーン)、40Hz、および120Hzで
あった。狭バンドノイズ(NBN)刺激が、等しい振幅
(図5参照)と、一様分布からランダムに選択された位
相割当てとを有する正弦波を足し合わせることによって
構成された。各区間および試行ごとに新たな位相割当て
を引き出した。マスキング刺激は常に70dB−SPL
で提示され、NBNの正弦波成分の振幅は刺激のバンド
幅とは逆の関係にある(図5参照)。マスカを構成する
隣り合う正弦波の間の周波数増分は刺激の基本周波数に
よって決定される。刺激の継続時間が100msecで
あるため、基本周波数は10Hzである。1kHzを中
心とする40Hzバンド幅信号は、図5に示すように、
980Hz、990Hz、1000Hz、1010H
z、および1020Hzの周波数における5つの成分を
含む。
【0089】[2.1.2 プローブ]2つのタイプの
しきい値測定値が得られた。それらは、(1)0Hz、
40Hz、および120Hzに等しいバンド幅を有する
信号のJNDIと、(2)バンド幅が0Hz、40H
z、および120Hzの背景マスカの存在下でのトーン
に対するしきい値である。図5の中段に、これらの2つ
の検出タスクで使用したプローブの振幅スペクトラムを
示す(プローブは灰色のベクトルで表し、マスカは黒色
のベクトルで表してある)。JNDI実験では、プロー
ブは単にマスカをスケールしたコピーである。プローブ
をマスカに加えると、信号の強度増分が生じる(式8、
9)。実験IIおよびIIIのマスキングタスクでは、
プローブは常に1kHzの純トーンであった(すなわち
プローブは、NBNマスカの中心成分と同じ周波数を有
する)。実験Iのマスキングオーディオグラムでは、プ
ローブは可変周波数トーンであった。
【0090】NBNマスカの中心成分に対する1kHz
トーンプローブの位相は、実験IIおよびIIIのマス
キングタスクにおいて特に興味があったものである。ベ
クトルPはプローブpTの大きさおよび位相を表し、ベ
クトルMはマスカmTの中心(1kHz)成分の大きさ
および位相を表すとする。図5の下段は、我々がデータ
を収集したPとMの間の3つの異なる相対位相(re
φ)条件のベクトル図である。プローブはマスカに、同
相で(reφ=0)、逆相で(reφ=πラジアン)、
またはランダムな位相関係で(reφ∈[0,2π))
加えられた。ベクトルの長さは信号の大きさを表し、M
とPの間の相対角度は相対的な位相関係を表す。図5
で、マスカおよび結果の信号(S=M+P)の大きさは
3つのすべての場合について一定に保持されているが、
プローブの大きさはMおよびPの相対位相に依存する。
この図は、MとPの間の相対位相が変化するとともに同
じ信号(S)の大きさを達成するために必要なプローブ
の大きさの差を強調している。
【0091】[2.2 ハードウェア]刺激は486P
C上で実時間でディジタル的に生成された。ArielのD
SP−16で信号をアナログに変換した後、15kHz
ローパスフィルタ(Wavetek Brickwall Filter)を通し
た。YamahaのYH−2ヘッドセットを分解して、Sokoli
chドライバに類似したドライバのうちの1つを筐体内に
入れることによってトランスデューサを構成した。長さ
80センチメートルのヘッドセット送気管を使用して、
ドライバから耳へ音響刺激を送った。この管はEtymotic
のER−14フォームイヤチップで終端した。フォーム
プラグを被験者の耳道に挿入し、閉領域音伝達系を完成
した。B&KサウンドレベルメータおよびB&K415
7カプラを用いて較正を実行した。SYSid(Ariel
Corporation)を用いて、音響系内の歪みを測定し、歪
み生成物のレベルは結果に影響を及ぼさないことを確認
した。
【0092】[2.3 データ収集プロトコル]しきい
値は、2区間強制選択(2−IFC)パラダイムまたは
3−IFCパラダイムのいずれかを用いて測定した。1
00msecの提示区間は500msecで分離され
た。すなわち、被験者が前の試行に対する応答に入った
後、次の提示の開始の前に500msecの待機期間が
あった。タスクにおいて、3アップ/1ダウン適応手順
を用いて、精神測定学曲線のd′=1の点の付近に測定
値が集中するようにアルゴリズムを強制した。被験者
は、プローブを含む区間を選択するように教示された。
被験者が正しい区間を選択したかどうかについての視覚
的フィードバックが被験者に知らされた。
【0093】[2.4 データ解析]76%正答に対応
するプローブレベルを見つけるために、精神測定学関数
をデータに当てはめた。精神測定学関数は、プローブレ
ベルをdB−SPLで表現したときに累積正規形式によ
って近似することができると仮定した。累積正規分布を
データに当てはめるかわりに、次のロジスティック関数
近似を用いた[18]。
【数3】 ただし、Pcorrectは正しい応答の確率であり、LdB
dB単位でのプローブレベルであり、mはm−IFCタ
スクにおける選択肢の数であり(例えば、我々の実験で
はm=2または3)、LMはPcorrect=(1+m)/2
mに対応する精神測定学関数の「中点」であり、LS
「広がり」である。我々のモデルの状況では、プローブ
SPL(dB)の関数である累積正規分布によって精神
測定学関数を近似することは粗雑である。式10は単
に、測定した精神測定学的データに視覚的に受け入れら
れる当てはめをしたシグモイド関数である。ほとんどす
べてのデータは精神測定学関数の中点の周りに集まって
いたため、さらに正確な(しかもさらに複雑な)形式の
精神測定学関数を見つけようとしても、当てはめの大幅
な改善はなかったであろう。最尤手順を用いて、データ
への関数の最適当てはめを与える式10のパラメータを
見出した。Pcorrect=76%に対応するプローブレベ
ルの推定値がこの関数から得られた。LSを正確に決定
するために76%基準の上下に十分な数の測定値を得る
一方で、LMを正確に決定するために76%正答のすぐ
近くにほとんどの点を集中させるために、「ダウン」ス
テップサイズは、10回目の反転を行うまでは2dBで
あり、その後20回目の反転を行うまでは1dBであ
り、その後試行のブロックの終了までは0.5dBであ
った。1ブロックの試行は30回の反転まで行なわれ
た。各実験は一般に1ブロックからなり、実験ごとに平
均約125個の測定値が得られた。場合によっては、実
験を繰り返し、次のブロックの試行の結果を前のブロッ
クの試行と組み合わせた。このようにして、各しきい値
の推定値は、約125〜375回の試行に対する被験者
の応答に基づくものであった。捨てたり選択したりした
データはない。
【0094】[2.5 被験者]実験では4人の被験者
を用いた。すべての被験者は、以前に音響心理学タスク
の経験を多く有していた。被験者#1は30代の男性で
ある。被験者#2は50代の男性である。被験者#3は
20代の女性である。被験者#4は50代の男性であ
る。被験者#4を除くすべての被験者は正常なオーディ
オグラムを有していた。被験者#4は、20dBの老人
性難聴による聴覚損失を示した。最初の2人の被験者は
それぞれ第1および第2の発明者である。
【0095】[3 結果] [3.1 実験I:トーンマスカ対ノイズマスカに対す
るマスキングオーディオグラム] [3.1.1 凍結位相トーンマスカ]我々の一定スペ
クトラムレベルのランダムノイズマスカがバンドパスガ
ウシアンノイズと類似のマスキング特性を有することを
確認するため、イーガン(Egan)とヘイク(Hake)の実験
[7]およびエーマー(Ehmer)の実験[8]を繰り返し
た。マスキングオーディオグラムを、トーンプローブを
用いて、トーンマスカに対して、および、幅120Hz
の一定スペクトラムレベルランダムノイズマスカに対し
て測定した。いずれのマスカも、1kHzを中心とし、
全体のSPLは70dBで提示された。トーンプローブ
およびトーンマスカは区間ごとに同じ位相(すなわち凍
結)を有していた。ランダムNBNマスカは区間ごとに
異なる波形を有していた。図6に結果を示す。
【0096】図6は、一定スペクトラムレベルノイズマ
スカではなくバンドパスガウシアンノイズを用いたイー
ガンとヘイクによって以前に示されたものと同じ定量的
結果を示している。すなわち、マスカの中心周波数にお
けるマスキングしきい値は、トーンマスカの場合よりも
一定スペクトラムレベルランダムノイズマスカのほうが
20dB大きい。下の曲線は無音におけるしきい値を示
す。
【0097】図6におけるその他のいくつかの特徴もま
たイーガンとヘイクの結果[7]と整合している。マス
カの中心周波数付近のマスキングしきい値の大きい差と
は対照的に、中心周波数から離れたマスキングしきい値
は、トーンとSCBWノイズマスカの場合で比較的類似
している。イーガンとヘイクは、トーンマスキングオー
ディオグラムにおけるくぼみおよびピークををうなりの
聴取が原因だとした。
【0098】[3.1.2 ランダム位相トーンマス
カ]図6に要約した実験は繰り返されたが、今度は、ト
ーンマスカの位相を区間ごとにランダムに変えた。トー
ンマスカの位相は一様分布から引き出した。トーンマス
カの位相をランダム化することにより、トーンマスカを
さらにこの性質を有するランダムノイズマスカのように
した。図7に、結果のマスキングオーディオグラムを示
す。幅120Hzのノイズに対するマスキングオーディ
オグラムは前図に示したものと同一である。
【0099】図6のトーンマスカに対するマスキングオ
ーディオグラムと図7のものと比較すると、以下の相違
点が注目される。トーンマスカ周波数から離れたプロー
ブ周波数に対しては、マスキングしきい値の曲線は、ラ
ンダム位相トーンマスカの場合のほうが固定位相トーン
マスカに比べて滑らかである。(固定位相マスカの場合
のくぼみおよびピークは、イーガンとヘイクが示唆した
ようなうなりではなく、基底膜上のプローブおよびマス
カの歪み生成物の強め合いおよび弱め合いの足し合わせ
によるものと考えられる。)ランダム位相トーンマスキ
ングオーディオグラムの曲線は、NBNマスキングオー
ディオグラムのプロフィールに接近して追従している。
ランダム位相トーンに対するマスキングしきい値は、マ
スカ周波数から離れたプローブ周波数に対しては、NB
Nの場合よりわずかに大きい。120HzのNBNマス
カと比べて、1kHzプローブに対するマスキングしき
い値は、マスキングトーンがランダム位相の場合より約
10dB大きい。これは、マスキングトーンが固定位相
を有するときに20dB小さいことと対照的である。
れらのすべての観測は、トーンマスカとノイズマスカの
間のマスキングしきい値の差の一部はプローブとマスカ
の間の異なる相関、および、歪み生成物との異なる相関
によるものであるという仮説と整合している。
【0100】[3.2 実験IIおよびIII:さまざ
まなバンド幅マスカに対する1kHzにおけるマスキン
グしきい値およびJNDIの測定] [3.2.1 実験II:2−IFCタスク]70dB
−SPLからの強度増分に対する丁度可知差異を先の4
人の被験者で測定した。刺激のバンド幅に対する観測し
たしきい値のプロットを図8の破線で表す。注意すべき
点であるが、強度のJNDは、一定スペクトラムレベル
ランダムマスカ(BW>0)の場合のほうが固定位相ト
ーンマスカ(BW=0)に比べて3dB〜10dB大き
くなる傾向がある。エネルギーモデルでは、トーンと我
々の一定エネルギーノイズの間のJNDIの差を予測し
ないであろう。トーンとノイズJNDIの差は被験者に
依存する。
【0101】70dB−SPLのマスカの存在下におけ
るトーンの検出しきい値を図8でも実線でつないで示
す。マスカは、JNDI実験で用いた刺激と同一であ
る。トーンマスキングしきい値に対して、プローブとマ
スカ成分の間の3つの相異なる相対位相関係、すなわ
ち、同相、逆相、およびランダム相対位相(図5の下段
参照)を表す、対応する3つの曲線がある。これらの3
つの相対位相の場合分けは、マスカとプローブの間の相
関が正の極大(同相加算)、負の極大(逆相加算)、お
よびランダム相関(ランダム相対位相加算)の条件に対
応する。図8の結果は、マスキングしきい値はプローブ
とマスカの間の相関の性質に非常に敏感であることを示
している。実際、マスキングしきい値は、相関に依存し
て、臨界バンドに近いマスカバンド幅に対しては10d
Bほども変化することがあり、0に近いマスカバンド幅
の場合には30dBほども変化することがある。
【0102】トーンをますかに加えることによって引き
起こされる強度の変化がマスキングしきい値におけるパ
フォーマンスを説明するのに十分であるかどうかを検討
するために、マスキングタスクにおけるしきい値での強
度増分をJNDIタスクにおける強度増分と比較した。
図9において、図8での下から2つの曲線に対応するデ
ータが、プローブをマスカに加えたときの相対強度変化
ΔI/Iについて再プロットされている。図9の縦軸の
値は式7に従って計算されている。
【0103】図9は、JNDIタスクとマスキングタス
ク(同相加算)におけるΔIが同一であることを示して
いる。このように、マスカの存在下でトーンプローブを
検出するためのしきい値は、トーンを同相でマスカに加
えることによって引き起こされる強度増分がマスキング
刺激のJNDIに等しいときに達成される。
【0104】トーンがマスカ中の対応する周波数成分と
同相でない場合には、同じ強度増分を達成するためには
より大きい振幅のプローブトーンが必要となる。この直
観的な結果は、式5から演繹することができることであ
るが、図5のフェーザ図に説明されている。ここで、プ
ローブとマスカの間の相対位相が増大するにつれて、同
じ信号振幅を達成するためには、プローブベクトルの長
さを増大させなければならない。
【0105】図10は、マスカとプローブの間の相関の
2つの極端な場合に対して、相対強度増分ΔI/Iをプ
ローブ強度の関数としてプロットした図である。上のグ
ラフは、マスカが純トーン(すなわちBW=0Hz)の
場合を示し、下のグラフはマスカが狭バンドのノイズ
(BW=40Hz)の場合を示している。実線は、プロ
ーブを同相でマスカに加えた場合(図5の左下の図で示
した条件)を表し、破線はプローブをπラジアンの逆相
でマスカに加えた場合(図5の中央下の図)を表す。水
平な一点鎖線は、丁度可知強度変化に対応するレベル
(BW=0に対して約±0.57dB、BW=40に対
して約±1.2dB)に引いてある。垂直な一点鎖線
は、同相および逆相の曲線が+0.57dBおよび+
1.2dBの線をそれぞれ通過するところに引いてあ
る。これらの交点に対応するプローブ強度は、図8の被
験者#1に対する幅0および40Hzのマスカの場合の
同相および逆相で測定されたものと同じである。
【0106】[3.2.2 実験III:3−IFCタ
スク]図10はまた、精神物理学的に測定されたマスキ
ングしきい値が測定手順によってどのくらい影響される
かも示している。例えば、被験者は、2−IFCタスク
においてプローブを含む区間を選択するように教示され
る。1つの合理的な判断基準は、トーン性に聞こえるほ
うの区間を選ぶことである。しかし、マスキングしきい
値付近のプローブ強度に対して、図9に示したマスキン
グタスクとJNDIタスクにおけるΔI/Iの間の類似
性は、被験者が強度キューに基づいていることを示唆し
ている。この場合、被験者は、強いほうの区間がプロー
ブを含んでいる可能性が最も高いと推測するであろう。
図10は、プローブをノイズに加えたときに、刺激の強
度は実際には減少することがあることを示している。こ
のように、被験者は、強いほうの区間を正しく識別して
も、誤った区間を選ぶことがありうる。他方では、被験
者が3−IFCタスクにおいてプローブを含む区間を識
別するよう教示されている場合、被験者は、他の2つの
区間とは最も異なって聞こえる区間を選択するであろ
う。従って、被験者は、プローブを加えることによって
丁度可知量だけ強度が増減しても、プローブを含む区間
を正しく識別することになる。最も重要なことは、3−
IFC実験は、トーンをノイズマスカ(例えばトーナリ
ティキュー)に加えることに伴う波形変化が、プローブ
の存在を検出するためのさらに低いしきい値キューを与
えることがあることを示すことである。
【0107】波形キューがより低いしきい値キューを与
えるかどうかについての問題を解決するために、マスキ
ングおよびJNDIの実験を、3−IFCパラダイムを
用いて繰り返した。被験者は、異なって聞こえる区間を
選択するように教示された。3−IFC実験の結果を図
11に示す。図11は、2−IFC実験(前に図8に示
した)からの結果と対比してプロットされている。図1
1のしきい値は、d′=1の検出基準に対するものであ
り、2−IFCパラダイムにおいては76%正答に、3
−IFCパラダイムにおいては63正答%に対応する。
すべての被験者に対して、3−IFCパラダイムと2−
IFCパラダイムの間で結果が異なるのは2つのデータ
点のみである。これらの点は、プローブを逆相でまたは
ランダム位相でトーンマスカに加えた場合に対応する。
残りの場合には、2−IFCパラダイムと3−IFCパ
ラダイムでしきい値はほぼ同じである。
【0108】図11に示した2−IFCおよび3−IF
Cのパラダイムの結果は、被験者が強度キューに基づい
てマスキングタスクにおける判定をするという仮説と整
合する。2つのパラダイムにおける結果の間の異同は、
ΔI/Iをプローブ強度に対してプロットした図10を
参照することによって説明することができる。マスカが
純トーンである場合(図10の上のグラフ)、逆相およ
び同相加算のそれぞれに対して、強度の丁度可知減分
は、強度の丁度可知増分とほぼ同じプローブレベルで達
成される。これは、3−IFCパラダイムにおける純ト
ーンマスカに対する同相および逆相の場合が類似してい
る理由を説明する。純トーンマスカに対してランダム位
相の場合は、固定位相の場合よりもわずかに大きいしき
い値を有する。これは、プローブとマスカの間の相関
(相対位相関係)が常に極大強度の減分または増分を生
じるとは限らないためである。
【0109】マスカがノイズ(バンド幅=40Hzおよ
び120Hz)のときの2つのパラダイムでの結果にお
ける類似性は、図10の下のグラフを参照して、強度キ
ューによって説明することができる。極大強度減分はか
ろうじて強度の変化を検出するためのしきい値を越える
(図10で破線で表した逆相の場合)。その結果、被験
者は、プローブが存在することにより2−IFCパラダ
イムの場合のように強度増分が生じた場合にのみプロー
ブ区間を正しく識別することになる。マスカバンド幅が
40Hzより大きい場合には強度減分はさらに検出され
る可能性が小さくなる。なぜならば、最大強度減分は、
マスカのバンド幅が増大するにつれて減少するためであ
る。このようにして、2−IFCおよび3−IFCのパ
ラダイムにおけるノイズ中のトーンに対するマスキング
しきい値の類似性は、これらのマスキング実験における
最小しきい値を与える強度と整合する。
【0110】図8〜図11に示した結果は、強度のJN
Dとマスキングしきい値(古典的に別個の無関係な音響
心理学的現象として論じられてきた)が聴覚系の同じ物
理的制限に関係するという仮説を支持する。この概念は
さらに聴覚系のモデルに発展する。そのモデルは、JN
Iデータから図8に示したすべての結果を予測するこ
とを試みることによってテストする。
【0111】図13に、これらの予測の結果を示す。こ
の図では、図8からの結果が、予測されるマスキングし
きい値と対比してプロットされている。同相および逆相
の予測値は、上記および図10に示したようにして計算
されている。直観的には、ランダム相対位相予測値が同
相と逆相の予測値の間のどこかに入ると予想されるであ
ろう。ランダム位相予測値を計算する方法が次節の主題
である。
【0112】[4 モデル] [4.1 モデルの基本仮定:決定変数]ここで、図
8、図9および図11で要約した実験結果に基づくモデ
ルを提案する。図9に示したように、マスキングタスク
およびJNDIタスクにおけるしきい値ΔI/Iが等し
いことは、被験者が、いずれのタスクにおいても同じ刺
激パラメータの関数である決定変数を用いていることを
示唆している。関連する刺激パラメータは、信号の強度
に密接に関係している。しかし、マスカバンド幅を増大
させるにつれてΔI/Iが増大することは、この決定変
数が刺激波形の関数でもあることを示唆している。なぜ
ならば、刺激強度の分布は、バンド幅が変化しても変化
していないからである。
【0113】図12は、我々のマスキングおよびJND
Iのデータと整合するモデルを示す。このモデルでは、
観測者は、仮説的なチャネルの出力に基づいてすべての
判断を行う。その出力の値を決定変数という。決定変数
は入力信号のランダム関数である。決定変数関数は、図
12の4つの連続する処理ブロックによってあらわされ
る4つの成分に分解される。この処理にはバンドパスフ
ィルタ、信号の非線形単調変換、積分器、および信号依
存内的不確定性の付加が含まれる。この論文で用いるす
べての信号は臨界下バンド幅を有するため、通過バンド
が信号のバンド幅より広いフィルタの効果を実質的に無
視することができる。
【0114】このモデルにおいて、SCBW刺激波形s
(t)と決定変数Nの値の間の関係を次のように要約す
ることができる。 N=G+e(G) (11)ただし、
【数4】 関数λは入力信号の非線形変換を記述し、Tは刺激の継
続時間であり、eは平均0の確率過程である。ランダム
関数eは内的不確定性を表す。不確定性eは、Gの関数
を分散とする正規分布である。 e=Normal(μ=0,σ2 G) (13) この論文の第5節で、非線形関数λがラウドネス成長関
数と密接に関係することを示唆する結果を提示する。し
かし、この論文におけるマスキングタスクに対しては、
モデルλは次のようなべき関数としてモデル化すれば十
分である。[26] λ(s)∝sc (14) ただしc=2/3である。やがて明らかになるように、
JNDIをマスキングに関係づけるためには、モデルは
関数λの厳密な形に関して変化しない。
【0115】[4.2 モデルにおける刺激の表現]図
12のブロック図の右側の3列のグラフは、3つの異な
る入力に対するモデルのさまざまな点における信号およ
び分布を示す。上段は入力音響信号を表す。これらのプ
ロットは、信号の単一の提示の一部のスナップショット
を表す。残りの段のグラフは、系に対する信号の多重提
示に基づく。したがって、第1列は、チャネルへの純ト
ーンの多重提示の場合を表す。純トーンは決定論的であ
るため、チャネルは各提示中に厳密に同じ信号を見る。
第2列は、ランダムSCBW一定スペクトラムレベルノ
イズの異なる実現が提示された場合を表す。この場合、
チャネルは各提示中に異なる波形を見る。最終列は、純
トーンを、中央の列で用いたランダムSCBWノイズに
加えた場合を表す。純トーンと、SCBWノイズ中の対
応する成分の間の相対位相は試行ごとにランダムであ
る。
【0116】[4.2.1 外的不確定性とGの分布]
刺激に伴う外的不確定性は、Gの分布によって表現され
る。単一の刺激提示に対して、Gの値は、非線形要素を
通過後の信号の積分によって与えられる。多重刺激提示
の場合、Gの値は各提示ごとに異なることがある(波形
がランダムの場合)ため、Gの値は分布する。聴覚系の
非線形要素の和が二乗則非線形要素に等しい場合(例え
ば、式14でc=2としたエネルギーベースの検出器)
であれば、一定スペクトラムレベルノイズの標本空間内
のすべての波形は厳密に同じGの値を与えることにな
る。しかし、我々のモデルの非線形性は二乗非線形性で
はないため、これらのいずれの波形のGの値も、標本空
間内の他のいずれの波形のGの値ともわずかに異なるこ
とになる。我々のノイズ刺激に対して結果として得られ
るGの分布は十分にガウシアンに近いため、それを次の
ように近似することができる。 G(ノイズ)=Normal(μnoise,σ2 noise) (15) ノイズ波形の標本空間にわたるGの集団平均値(式15
のμnoise)は、等強度の純トーンのものにほぼ等し
い。 μnoise=E[G(強度Iのノイズ)]≒G(強度Iのトーン) (16 ) ただし、E[G]はGの期待値である。Gの分散(式1
5のσ2 noise)は、ノイズのパラメータ(例えばノイズ
のバンド幅)に依存する。式15によって与えられるG
の分布は、一定スペクトラムレベル(一定強度)ノイズ
入力の場合のものである。ランダムノイズによってマス
キングされたトーンの場合のように、入力がランダム強
度分布を有する場合、Gの分布は必ずしもガウシアンに
なるとは限らない。
【0117】刺激に基づく不確定性は、図12のグラフ
の第2行(中段)に示されている。これらのグラフは、
第1行に示した刺激の多くの提示から生じるGの確率密
度関数(PDF)を示すものである。横軸はGの値に対
応し、縦軸はそのGの値の生起の周波数(確率)を表
す。純トーンの場合(図12の第1列)、信号の同一の
コピーが各区間中に非線形要素を通過するため、この分
布はデルタ関数となる。ランダム一定強度SCBWノイ
ズの場合(図12の中央の列)、この分布はガウシアン
の形をとる(式15)。最後に、トーンとランダムSC
BWノイズを加えたものからなる合成信号の場合(図1
2の最終列)、チャネルに入る前の音響信号の強度は試
行ごとに変わる。この強度分布は付録で導出されてい
る。従って、第2行の最終列に示したGのPDFは、ト
ーンとノイズの相互作用による合成信号中の強度の変化
とともに、非線形要素によって導入される変化も反映し
ている。
【0118】[4.2.2 内的不確定性とNの分布]
神経表現の確率論的性質の寄与のある付加的不確定性を
含む決定変数NのPDF、すなわち、内的不確定性e
を、グラフの下段に示す。まず、第1列に示した純トー
ンの場合に注目する。トーンに対するGのPDFはデル
タ関数であるため、トーンに対するJNDIはeの分散
によって決定される。従って、eの分散は、トーンの強
度の丁度可知差異に対するΔI/Iから推論することが
できる。トーンのΔI/Iは強度に依存するため[3
3](「ウェーバーの法則へのニアミス」)、eの分散
はGに依存しなければならない(式13参照)[26,
32,23,19]。左下のグラフは、トーンに対する
NのPDFを示している。この正規分布は平均Gおよび
分散σ2 Gを有する。
【0119】残りの2つの列ではGの分布はデルタ関数
ではない。Gの分散が大きくない場合、eの分布は、G
がノイズGの期待値に等しい(式16)ようなトーンに
対するものとほぼ同じである。Gの期待値は3つのすべ
ての場合でほぼ同じであるため、内的不確定性eの分散
は3つのすべての場合にほぼ同じである。このようにし
て、最後の2つの列におけるNのPDFは、トーンの場
合からのeの分布と、最後の2つの列におけるGのPD
Fとの畳込みによって計算することができる。図12の
グラフの最終行は、これらの畳込みの結果を示す。
【0120】[4.3 モデルを用いてJNDIデータ
からマスキングしきい値を予測]前節で説明したモデル
は、SCBWプローブ以上のバンド幅のSCBWマスカ
の存在下でSCBWプローブの識別を要求するしきい値
検出タスクを予測するという仮説を立てる。ただし、次
の1点、すなわち、信号波形に含まれる、より低いしき
い値の情報のうち全信号強度に既に存在していないもの
はないことに注意する。実験IIIでは、この論文で用
いる刺激がこの要件を満たすことを示した。しかし、マ
スキング刺激が、トーンプローブとは異なる周波数を有
する1つまたは2つの離散的なトーンからなる例を取り
上げると、この場合、観測者は、プローブをマスカに加
えるときに全強度の大きな変化を検出する前に「うな
り」(あるいはうなりレートの変化)の存在を検出する
ことになる。これは、信号の波形が、信号の全強度の変
化より低い知覚しきい値を有する予測可能な時間的強度
キューの形式の情報を含む場合を表す。この場合はこの
モデルを用いては説明することができない。しかし、こ
のモデルを用いて、JNDIと、トーンプローブまたは
SCBWノイズプローブをSCBWノイズマスカに加え
た場合の検出しきい値とを説明することができるはずで
ある。
【0121】[4.3.1 モデルの「未知数」]現
在、モデルには2つの未知数がある。第1の未知数は、
正規分布の内的不確定性の分散である。このパラメータ
は、トーンに対するJNDIから推論することができ
る。第2の未知数は非線形要素の厳密な形、すなわち関
数λである。次節では、関数λがラウドネス成長関数と
関係していることの証拠を示す。λの厳密な形は、ラン
ダムSCBWノイズに対するJNDIを予測するために
のみ必要である。ノイズマスカに対するJNDIを予測
するかわりに、この節では、単に実験IIからの測定値
を用いる。
【0122】[4.3.2 測定したJNDIからNの
PDFを推論する]JNDIの測定値からNのPDFを
推論するため、モデルの2つの特徴を利用する。第1
に、JNDIタスクにおけるNのPDFは2つの正規P
DF、すなわち、GのPDFとeのPDFの畳込みに等
しいため、Nは正規分布でなければならない。第2に、
Nの期待値は、信号の強度の立方根にほぼ線形に関係す
る(式14参照)。すなわち、
【数5】 あるいは同値であるが
【数6】 である。ただし、βは比例定数である。このようにし
て、検出理論に従って、Nの標準偏差は、2−IFCの
JNDIタスクにおける76%正答レベル(すなわち
d′=1)に対応するΔIに次のように関係づけられ
る。
【数7】 トーンまたは凍結ノイズに対するJNDIの測定の場
合、Gの分布はデルタ関数であるため、σNは内的不確
定性eの分散の直接の尺度である。しかし、ランダムノ
イズJNDIタスクではGは正規分布するため、σNは内
的および外的な不確定性の結合されたものの尺度であ
る。
【0123】[4.3.3 一定強度増分を有するマス
キングタスクにおけるNのPDF]我々の結果は、トー
ンプローブを固定位相関係でランダムSCBWマスカ中
の対応する成分に加えた場合のマスキングしきい値は、
それぞれのJNDI実験で観測されるのと同じΔI/I
に対応していたことを示している(図9)。このよう
に、強度増分は、生成された方法にかかわらず、決定変
数Nに対する同じPDFを生じなければならない。重要
な点であるが、この場合のトーンとランダムSCBWノ
イズ信号を合成したものの強度は試行を通じて一定であ
った。換言すれば、トーンとノイズを足し合わせたもの
に対するΔIのPDFはデルタ関数であった。
【0124】[4.3.4 ランダムな強度増分を有す
るマスキングタスクにおけるNのPDF]トーンプロー
ブとランダムSCBWノイズマスカの間の位相関係が制
御されていないとき、結果として得られる強度増分は試
行ごとにランダムに変化する。強度増分のランダム性
は、外的不確定性のもう1つの起源を表し、Gの分布、
従ってNの分布に反映されなければならない。この場合
は図2の右端の列に示されている。
【0125】ランダムな強度増分の場合に対応するNの
PDFは以下のように計算することができる。まず、ト
ーンとランダムSCBWノイズを足し合わせたもののΔ
Iに対するPDFを決定する。このPDFを記述する解
析的表式は付録に導出されている。次に、このΔIのP
DFを、式18を用いてN領域における分布に変換し、
それを、ランダムSCBWノイズマスカの測定されたJ
NDIから推論されたNに対するPDFとの畳込みをと
る。
【0126】[4.3.5 ランダムSCBWノイズに
よってマスキングされたトーンしきい値の推定値の計
算]2−IFCタスクにおいて被験者がプローブを含む
区間を正しく識別する確率を決定するためには、トーン
とランダムSCBWノイズを足し合わせた場合における
決定変数の値がランダムノイズSCBWノイズだけの場
合における決定変数の値より大きい確率を次式のように
計算しなければならない。
【数8】 ただし、PCは、プローブを含む区間を正しく識別する
確率であり、P(条件)は、NのPDFから決定される
ように「条件」を実現する確率である。注意すべき点で
あるが、この積分の結果はβの値には依存しない。
【0127】[4.4 モデル化の結果]図13に、図
8からの測定されたマスキングしきい値(実線)を再プ
ロットし、それを、我々のモデルを用いてJNDIしき
い値から予測したマスキングしきい値(破線)と比較し
ている。固定位相関係(同相、またはπラジアン逆相)
でプローブをマスカに加えた場合の予測値は、そのマス
カを用いたJNDI実験で見出されるのと同じΔIに対
応するプローブトーン強度を見出すことによって計算さ
れる(この手順は図式的に図10に示されている)。ラ
ンダム位相関係でプローブをマスカに加えた場合の予測
値は、2−IFCタスクにおける76%正答識別の確率
に対応するプローブレベルを見出すことによって計算さ
れる。特に、ランダム位相の場合は、プローブ強度を選
択し、前節で説明したモデルにおいて強度分布を計算し
た後、式22の評価をすることにより予測された。この
計算は、76%正答に対応するプローブレベルが見出さ
れるまで反復された。この探索は、推定されるプローブ
レベルが反復間で±0.01dBより小さい変化になっ
たときに終了した。
【0128】図13の予測値は、非線形関数λ(s)=
cでc=2/3という指数を用いて計算した。0.3
から3までの10倍にわたる範囲のcの値がすべて同様
の予測値(±0.2dB以内)を与えることも発見し
た。関数λは強度領域からN領域に写像するために使用
され、Nの値は非常に制限された近傍に分布するため、
これらの予測値は、小さい範囲の値におけるλの振舞い
のみに敏感である。これらの予測値がcの値に敏感でな
いことは単に、λの指数が区間[0.3,3.0]内に
あるときに、問題となる領域にわたってλを直線で合理
的に近似することができるという事実による。
【0129】[5 非線形要素のモデル化]前節では、
マスキング信号のJNDIからマスキングしきい値を正
確に予測するモデルを開発した。次に、トーンのJND
Iからマスキング信号のJNDIを予測することが可能な
モデルの概略を説明する。これらの2つのモデルの組合
せにより、ランダム信号のJNDIおよびマスキングし
きい値を、内的不確定性の単一の推定値、すなわちトー
ンJNDIから予測することが可能となる。
【0130】JNDI測定値からマスキングしきい値を
予測するためにはλの近似のみが必要であったが、トー
ンJNDIが与えられた場合にノイズ信号のJNDIを予
測するためにはλの正確な記述が必要である。非線形要
素は、波形不確定性がいかにして知覚強度不確定性に変
換されるかを決定する。波形の瞬間強度は0からある大
きな値まで変化するため、この全範囲にわたるλの正確
な記述を必要とする。これは、JNDIからマスキング
しきい値を予測する場合のような狭い範囲にわたる近似
的な記述とは対照的である。
【0131】非線形要素に対する論理的選択はラウドネ
ス成長関数である。我々のモデルにおける決定変数は信
号強度のみの関数であり、決定変数は刺激強度の主観的
格付けを表すため、信号強度(すなわち圧力)をラウド
ネスに関係づけるラウドネス成長関数はこのモデルと整
合する。我々は、次式のような、ラウドネス成長関数に
対するフレッチャーの代数的近似[10]を採用した。
【数9】 ただし、ラウドネス(loudness)の単位はソン(sone)であ
り、s40は、40ソンのラウドネスを有する正弦波の振
幅である。
【0132】ノイズJNDIを予測するために、非線形
要素として式23を有するモデル(図12)を通じて一
定スペクトラムレベルノイズ刺激の数千の実現を行い、
GのPDFの推定値すなわち外的不確定性を構成した。
その後、トーンJNDIから推定される内的不確定性と
GのPDFとの畳込みを行い、決定変数の分布、すなわ
ちNのPDFに到達した。最後に、76%正答弁別に必
要なΔNを計算し、式23を用いてそれと等価なΔIに
変換した。
【0133】図14に、一定スペクトラムレベルノイズ
のJNDIの予測値を、被験者#1に対して測定された
値とともに示す。2つの別個の予測値が図14に示され
ている。それらは、(1)フレッチャーのラウドネス成
長関数(式23)を非線形要素として用いた予測値と、
(2)エネルギーモデル(式14でc=2としたもの)
を非線形要素として用いた予測値である。定量的には、
ラウドネス成長関数を非線形要素として用いた予測値は
すべて、測定した結果の95%信頼限界内にある。定量
的には、バンド幅の関数として予測されたJNDIは、
測定されたJNDIと同じパターンに従う。他方、エネ
ルギーモデルは、ノイズJNDIを予測することに完全
に失敗している。ランダムノイズを入力するために用い
た5msecのオン/オフ勾配によって導入される少量
のエネルギー変化のために、ノイズに対してエネルギー
モデルを用いて予測されたJNDIは、トーンに対する
ものよりもわずかに大きい。
【0134】[6 考察] [6.1 マスキングは強度弁別タスクである]この論
文では、マスキング刺激のバンド幅へのトーンマスキン
グしきい値の依存性(すなわち、トーン対臨界下バンド
幅のランダムノイズマスカ)を説明し、トーンマスキン
グしきい値を予測する定量的モデルを開発することを試
みた。我々は、いくつかのマスキングおよびJNDI
実験の結果を報告し、これらのいずれのタスクにおいて
も人間のパフォーマンスが聴覚系の強度弁別限界に関係
づけられることを示した。
【0135】図9では、マスキングしきい値においてト
ーンをランダム狭バンドマスカに加えることによって引
き起こされる相対強度増分ΔI/IがマスカのJNDI
に等しいことを示した。図9のマスキング実験は、区間
ごとにマスキングノイズの波形が変化しても、一定振幅
プローブトーンを加えることが試行を通じて刺激の強度
に一定の(決定論的な)増分を引き起こすように設計さ
れた。図9のマスキングおよびJNDIのタスクにおけ
るしきい値強度増分が等しいことは、マスキングタスク
とJNDIタスクが根本的に関係しているというミラー
の仮説[27]の定量的証明である。
【0136】さらに、マスキングタスクとJNDIタス
クの間でΔI/Iが等しいことは、観測者の判断が基づ
いている決定変数が同じ刺激属性、すなわち刺激強度の
関数であることを示している。しかし、これらのデータ
を収集するために用いた2−IFCパラダイムでは、さ
らに波形キューもまた存在するが利用されてはいないこ
とを排除することはできない。我々は、3−IFCパラ
ダイムを用いてマスキング実験を繰り返すことによっ
て、検出可能性の最小絶対しきい値を説明するには刺激
強度で十分であることを確認した。被験者は、この3−
IFCタスクにおいて「異なる」区間を識別するために
時間的波形キューおよび全体的強度キューのいずれも自
由に利用することができたが、図11の3−IFCと2
−IFCの比較は、波形キューは強度キューより低いし
きい値を有していないことを示している。
【0137】同相のトーン(ノイズによってマスキング
されたトーン)を加えることによってSCBWノイズマ
スカの強度を増大させることと、マスカのスケールされ
たコピー(マスカJNDI)を加えることによってその
強度を増大させることは、バンド幅を変えずにマスカの
強度を変化させる2つの極端の方法を表している。一方
の場合、マスカのスペクトラムの1成分のみの振幅を変
化させ、他方の場合、マスカのスペクトラムの全成分を
変化させた。しかし、検出しきい値におけるΔI/Iは
これらの2つの場合で同じであった。この観測は、マス
カ以下のバンド幅を有しマスカに加えたときに一定の強
度変化を引き起こす(すなわち、マスカとの相関が一
定)任意のSCBWプローブは、同じしきい値ΔI/I
を有することを意味する。
【0138】トーンプローブとマスカの間の相関(位相
関係)を制御しなかったときは、実験は、ノイズマスキ
ングタスクにおける標準的なトーンと類似していた。こ
の状況では、ΔIは、ノイズマスカの個々の実現に依存
して試行ごとに変化する(式5)。強度増分のこの付加
的な不確定性は決定変数の分布に反映される。このマス
カとプローブを足し合わせた場合の決定変数の分布はも
はやマスカのみの分布の線形シフトによって近似するこ
とはできない。この決定変数の分布は、神経表現的な不
確定性(図12の加法的ガウシアン不確定性)およびラ
ンダム波形を有する信号を非線形系に通すことの寄与に
よる不確定性によるのみならず、ΔIの不確定性によっ
ても決定される。決定変数分布に対する強度増分不確定
性の効果は図12の最終列に示されている。ΔIの不確
定性は、マスキングしきい値の上昇に寄与するさらにも
う1つの起源を有する。
【0139】この研究は、最初は、他のトーンによって
マスキングされた場合のトーンプローブに対するマスキ
ングしきい値と、等強度の狭バンドランダムノイズの場
合との大きな差(図6)を説明する必要によって動機づ
けられた。今、我々は、この差の根拠を説明することが
可能であり、さらに重要なことは、この差を定量的に予
測することが可能である。マスカがトーンではなくSC
BWランダムノイズであるときにしきい値の増大に寄与
する3つの要因がある。これらの要因のそれぞれの意味
を図15を利用して分析することができる。
【0140】図15に、被験者#1に対する実験IIか
らの結果を再プロットする(これらは以前に図8に示し
たのと同じデータである)。大きい円が、このグラフ上
の2つのデータ点の周りに描かれている。これらのデー
タ点は、70dB SPLのトーンによってマスキング
されたトーン(しきい値=46dB SPL)と、70
dB SPLで幅40Hzのランダムノイズによってマ
スキングされたトーン(しきい値=67dB SPL)
に対するマスキングしきい値に対応する。水平な点線
は、これらの2つのマスカの存在下におけるマスキング
しきい値に対応するプローブレベルのところに引いてあ
る。これらのマスキングしきい値の間には21dBの差
がある。さらに2つの水平な点線が、幅40Hzのノイ
ズマスカのしきい値JNDI(50dB SPL)と、
同じノイズマスカに同相で加えられたトーンに対するマ
スキングしきい値(57dB SPL)に対応するレベ
ルに引いてある。4つの点線で区切られる領域に1〜3
の番号を付けてある。これらの3つの領域(増分)は、
トーン対ノイズマスカに対するマスキングしきい値間の
差の原因となる3つの要因の相対的な寄与を示してい
る。増分#1は、ランダム一定スペクトラムノイズマス
カに伴う波形不確定性によるしきい値の4dBの増大が
あることを示している。増分#2は、ノイズプローブに
対するJNDIを、トーンプローブを同相でマスカに加
えたものに対する同等のΔIに変換する代数的結果によ
る7dBの増大があることを示している。最後に、増分
#3は、トーンを相関制御なしでランダムノイズに加え
ることに伴うΔIの不確定性による10dBの増大があ
ることを示している。
【0141】[6.2 マスカとJNDIの間の関係]
我々は、一定スペクトラムレベルSCBWランダムノイ
ズに対するJNDIが、テストした強度では、等しい強
度のトーンの場合よりも大きいことを発見した(図
9)。第5節では、ランダムノイズに対するΔIが大き
くなることは、区間ごとに変わる波形を有する信号を非
線形系に通すことによる決定変数分布の「広がり」の結
果であることを示した。決定変数分布の広がりは、刺激
中の強度増分を弁別することが可能になるために要求さ
れるΔIの増大として反映される。
【0142】我々の平坦なスペクトラムのノイズの場合
のように入力信号のエネルギーが区間にかかわらず一定
である場合、非線形要素の後の信号の積分は必ずしも一
定ではない。グリーン[14]やドゥ・ボア[6]の
「エネルギー検出器」モデルのような二乗非線形要素の
後に積分器がある系のみが、我々の一定エネルギーSC
BWランダムノイズが提示される場合に決定変数に対し
て一定値を予測する。図14で示したように、エネルギ
ー検出器モデルは、信号のバンド幅が0から増大するに
つれてJNDIの増大を予測することに失敗する。しか
し、非線形要素としてラウドネス成長関数を用いること
により、ノイズの場合のJNDIの増大が予測される。
【0143】ラウドネス成長関数は、聴力損失の量およ
びタイプに依存して個人ごとに変わる[36]。従っ
て、ラウドネス成長関数は被験者のノイズJNDIを部
分的に決定するため、ノイズJNDIに対して我々が観
測したように個人ごとの変化が予想される。我々の実験
では、ラウドネス成長関数の測定はしなかった。しか
し、被験者#4は、大きな老人性難聴による聴力損失が
あったが、他の被験者と同様に、信号バンド幅の関数と
してJNDIの大きな変化は示さなかった(図8参
照)。観測は、被験者#4型の3人の被験者とは大きく
異なるラウドネス成長関数を有することと整合する。こ
の結果はさらに、被験者#4のラウドネス成長関数が二
乗非線形要素(すなわち、真の「エネルギー検出器」)
に類似していることを示唆している。ノイズJNDI
おけるこの被験者依存性変化が非線形要素の形に強く依
存することを、ノイズ中のトーンに対するマスキングし
きい値がマスカとプローブの間のランダムな相関の統計
に依存し非線形要素には部分的にしか依存しないために
相対的にあまり変化しないことと対比すると興味深い。
【0144】我々のモデルはまた、一定エネルギーのS
CBWノイズではなくバンドパスガウシアンノイズを使
用した場合には、JNDIはさらに大きくなったことも
意味する。狭バンドガウシアンノイズに対してJNDI
が大きくなることが予想されるのは、波形変化に加えて
信号のエネルギーが区間ごとに変化し、特にエネルギー
分散が最大である非常に狭いバンドの信号に対してはそ
うであるためである。
【0145】純トーンの場合のように刺激が決定論的
(すなわち反復可能波形)である場合、非線形要素を通
すことにより区間ごとに同じ出力信号が生じ、信号のレ
ベルへの追加の不確定性の寄与はない。我々のモデル
は、すべての決定論的な臨界下バンド幅の信号のJND
Iは同じであると予測する。換言すれば、「凍結した」
SCBWノイズ刺激は、等しい強度のトーンと同じJN
Iを有するはずである。なぜならば、いずれの信号
も、区間ごとに、系の非線形要素に対して同じ波形を提
示するためである。
【0146】[6.3 モデルと以前の研究との関係] [6.3.1 最適検出器と人間の聴覚系の比較]2−
IFCタスクにおける聴覚系の音響心理学的パフォーマ
ンスを、2つのタイプの最適検出器、すなわち、(1)
2つの区間内のエネルギー(あるいは、同じことである
が、強度)を比較する検出器[14,6]、および
(2)2つの区間の信号波形を比較する検出器[21]
と比較した。タスクが、トーンを含むのが2つの区間の
うちのいずれであるかを識別することであって、一方の
区間はランダム狭バンドガウシアンノイズとトーンを足
し合わせたものを含み、他方の区間はランダムノイズの
みを含む場合、これらの2つの検出器は同一のパフォー
マンスを生じる。
【0147】ピーターソン(Peterson)他[29]は、バ
ンド制限時間切断ガウシアンノイズマスカの場合に結果
として生じる波形変化に基づいて、マスカのみと、マス
カとプローブを足し合わせたものとを弁別するように設
計された最適検出器のパフォーマンスを解析した。プロ
ーブがノイズマスカと同じバンド幅および継続時間のラ
ンダム狭バンドガウシアンノイズである場合(すなわ
ち、ノイズJNDIタスク)、ピーターソン等の結果
は、強度変化を判断基準とする検出器を用いてグリーン
によって得られたもの[14]と同一である。
【0148】また、ピーターソン他[29]は、有限時
間正弦波をランダム狭バンドガウシアンノイズマスカに
加えることから生じる波形変化の弁別可能性も導出し
た。その導出は、正弦波の周波数がランダムノイズのパ
スバンド内にあること、および、その位相が観測者には
未知であることを仮定していた。我々は、同じ条件の下
で、結果として生じる強度増分の検出可能性を導出し、
波形変化に基づくピーターソンの最適検出器に対して得
られたのと同じ解析的結果を得た。この一致から、我々
は、ガウシアンノイズのみと、ノイズとトーンを足し合
わせた場合とを弁別する際に、信号の波形に含まれる情
報で、信号の強度に既に存在していない追加情報(例え
ばエンベロープやピークなど)はないと結論する。
【0149】ガウシアンノイズを、波形およびスペクト
ラムが「浮動」しているために波形情報の詳細が除去さ
れあるいは最小化された信号と見ることによって、これ
らの理論的結果に対する直観的感覚を得ることができ
る。例えば、バンド制限時間切断ガウシアンノイズのス
ペクトラムの成分振幅はレイリー分布である。低レベル
のトーンをこのノイズに加えることにより、ノイズスペ
クトラム中の1成分の振幅が変化するが、この振幅変化
は、その成分の振幅の固有のランダム変化から区別する
ことができないかもしれない。この状況は、ノイズもラ
ンダムである場合のノイズの強度に対する状況と類似し
ている。
【0150】要約すると、これらの理論的結果は、この
論文に関係する2つの具体的な検出タスク、すなわち、
(1)ランダム狭バンドガウシアンノイズ中でのトーン
の検出、および(2)ランダム狭バンドガウシアンノイ
ズ中での強度増分の検出において、信号波形の関数であ
る決定変数を有する最適検出器は、信号強度のみの関数
である決定変数を有する検出器より良好なパフォーマン
スを生じないことを示している。これらの結論は、最適
な検出器に適用される。
【0151】しかし、最適検出モデルを用いて人間の精
神物理学的パフォーマンスを定量的に予測しようとする
試み[14,6,21]は一般的に失敗している。これ
らの失敗は、人間の観測者は聴覚検出タスクにおいて最
適でない(次善の)動作をしていることを示唆してい
る。人間における次善のパフォーマンスは、(1)信号
波形に含まれる情報が聴覚系を通じて弁別が実際に行な
われる場所まで伝わる間の非線形歪みとともに、(2)
聴覚系の制限されたスペクトラム分解能によるものであ
る。いずれの場合にも、人間のパフォーマンスを定性的
予測する際の最適検出モデルの成功は、これらのモデ
ルは音響心理学的パフォーマンスに対する有用な洞察を
提供してはいるが、定量的予測値を解釈する際には特に
注意しなければならないことを示唆している。
【0152】この論文で用いた一定スペクトラムレベル
のノイズは真のガウシアンノイズのランダムスペクトル
を有しないが、実験IIIの結果は、トーンをこのノイ
ズに加えることに伴う波形キューが強度キューより低い
しきい値を有しないことを示している。人間の聴覚系に
SCBWノイズの個々の周波数成分を分解する能力があ
れば、おそらく、スペクトラム(波形)キューはより低
いしきい値キューを与えるであろう。
【0153】[6.3.2 生理学的相関物]この論文
で提示したモデルの開発および展望は、以前に発表され
た音響心理学的モデルの成功によってのみならず、中枢
神経系(CNS)における神経生理学的信号処理の理解
における最近の進歩によっても影響を受けている。しか
し、十分な確実さをもって特定の生理学的機構をモデル
の要素に割り当てる際の困難のため、本発明のモデルは
現象論的構成として提示している。
【0154】フィルタは、基底膜上の固定点における運
動から、信号振幅の神経表現への変換を表す。この要素
がフィルタを表すのは、基底膜上の各点が特にある狭い
範囲の周波数(臨界バンド)に敏感なためである。
【0155】非線形性は、基底膜運動に存在する力学的
非線形性のみならず、膜運動から内部の有毛細胞による
聴神経インパルスへの寄与による非線形性と、それに続
いて、神経処理およびシナプスを通じて高次のニューロ
ンへの伝達の寄与による非線形性も表す。従って、認知
場所において評価される刺激レベルは、これらのシステ
ム非線形性の関数となる[46]。
【0156】最近の神経生理学的証拠は、CNSにおけ
る音響刺激エンベロープの表現が、聴神経に対する腹蝸
牛核(VCN)の主細胞の出力において増強されること
を示唆している[40,41]。これは、聴覚系が特
に、刺激エンベロープに関する情報を保存し、または増
強することに関係していることを示唆している。さら
に、明らかに、VCN主細胞の出力における刺激エンベ
ロープの神経表現は、音響刺激の非線形関数である[4
0,41]。また、神経生理学的証拠は、刺激エンベロ
ープに関する情報が、聴覚皮質細胞の出力で表現される
ことも示唆しているが、この表現はVCNの出力おける
表現に比べてローパスフィルタリングされているようで
ある(概説は[24]を参照)。音響刺激の中枢表現の
これらの性質は、刺激エンベロープに関する情報が脳内
の高次(認知)中枢で利用可能であるという概念と整合
し、時間にわたる刺激エンベロープの比較および統合さ
れたレベルの比較を行う基盤となる。
【0157】[6.3.3 精神物理学的相関物]加法
的な内的ガウス分布不確定性は、単に、神経符号化の固
有の確率論的性質を説明する近似的な方法である。多く
の精神物理学的モデルは、独立の加法的不確定性として
振る舞う内的期起源を含めることによってこれを明示的
に説明している。発表されているほとんどのモデルは、
内的不確定性はガウス分布であると仮定しているが、そ
の分散の刺激への依存性をどのようにモデル化するかで
相違している。例えば、この分散は、刺激強度[30,
32]、決定変数の期待値[26,23,19]、およ
び刺激強度の平方[6]またはこれらの組合せ[47,
32]に比例するということが提案されている。周知の
ように、3kHz〜5kHzより大きい最良周波数を有
する聴神経繊維の統計は、第1近似までは、不応時間に
よって修正したポアソン過程として見ることができる
[38,42,25]。このように、フレッチャーとマ
ンソンが最初に提案したように[12]弁別過程が聴神
経における事象の回数に基づく場合、何人かが示唆して
いるように[26,23,19]、内的分散は決定変数
の期待値と関係すると仮定することは合理的であろう。
しかし、聴神経とは異なり、聴覚CNS内の主細胞の神
経放電パターンの統計もまた同様に極めて規則的である
可能性がある[3,43,1]。実際の弁別が聴覚系内
のどこで起きているかについては曖昧であるため、弁別
過程をモデル化するためにいずれの統計的性質を仮定す
べきかを予測することはできない。トーンJNDI[2
6,23,19]およびラウドネス成長[23,19]
を予測する際のいくつかの概念的に類似したモデルの成
功は、内的不確定性の分布は、広範囲の強度にわたって
ほぼ一定の平均対分散比を有するガウス過程としてモデ
ル化することができることを示唆している。
【0158】異なる刺激間の弁別は意識的タスクである
ため、決定変数への値の割当ては皮質レベルで起きてい
ると仮定される。我々はこの過程を積分としてモデル化
する。信号波形の変換されたノイズのある表現は、その
継続時間にわたって積分され、入力刺激の主観的格付け
を表すある値、すなわち決定変数に到達する。同等のこ
とであるが、この過程は、刺激によって顕在化した作用
ポテンシャルの数をカウントすることと見ることもでき
る[12,46]。信号の時間的詳細は積分器によって
無視されるが、我々の実験結果は、タスクがSCBWノ
イズ中でトーンを検出することである場合、波形の時間
的詳細にさらに含まれる情報はないことを示唆してい
る。
【0159】一定スペクトラムレベルのランダムノイズ
のJNDIを予測する際の「ラウドネスモデル」(第5
節)の成功は、知覚される信号のラウドネスと我々のモ
デルにおける決定変数の値の間の対応を示唆している。
周知のように、ラウドネスは、数百ミリ秒までの刺激継
続時間の単調増加関数である[28,31,34]。こ
のように、我々のモデルにおける積分要素は、被験者が
信号レベルを積分することができる継続時間を表す時間
重み付き関数(すなわち、漏れのある積分器)を最終的
には含むべきである。同等のことであるが、この「漏
れ」積分器は、100ミリ秒のオーダーの時定数を有す
るローパスフィルタと見ることもできる。我々は、我々
の100ミリ秒刺激は、聴覚系の積分限界によって影響
を受けないほど十分に短いと仮定し、従って、この特徴
をモデルには含めない。我々のモデルにおける積分器に
よって表されるローパスフィルタは、ミリ秒のオーダー
の時定数を有する脳幹の神経処理の寄与によるローパス
フィルタとは異なりそれより優れている。すべてのニュ
ーロンに固有のこのローパスフィルタリングはおそら
く、信号における振幅変調の検出可能性を制限する。
【0160】純トーンと、等強度(すなわち等しいRM
S SPL)の狭バンドノイズ(BW<CB)の知覚さ
れるラウドネスは等しいことが示されている[9]。こ
の関係はおそらく、フィルタが矩形でないために厳密に
は正しくないが、この関係からのずれは、発表されてい
るラウドネス一致結果における誤差を超えない。それゆ
え、我々のモデルにおける非線形要素はこの条件を満た
さなければならない(式16参照)。
【0161】[6.4 結論]・歴史的には、マスキン
グと強度の丁度可知差異とは別個の現象として対処され
ている。いくつかの論文はこの2つの現象の間の関連の
仮説を立てている。我々の結果はこの関連を定量的に証
明している。・マスキングおよびJNDIはいずれも、
聴覚系の同じ基本的なΔIの制限に関係している。 ・全強度変化はノイズ中のトーンの検出に対する最低し
きい値キューである。 ・任意のプローブに対するマスキングしきい値は、マス
キング刺激のJNDIと、プローブとマスカの間の相関
とが与えられれば正確に予測することができる。 ・聴覚系における非線形要素は、トーンとランダムノイ
ズJNDIの差に寄与する。 ・聴覚系における非線形要素が既知である場合、純トー
ンに対するJNDIのみが与えられれば、任意の臨界下
バンド幅マスカの存在下でプローブに対するマスキング
しきい値を予測することが可能である。 ・トーンマスカ対ランダムノイズマスカのマスキング効
率の差は、(1)マスカのランダム波形によるJNDI
の増大と、(2)プローブをランダムマスカに加えるこ
とから生じる強度増分の不確定性とによる。
【0162】[8 付録] [8.1 ランダムな相対位相を有する2つの正弦波の
和の振幅分布]ランダムな相対位相を有する2つの正弦
波の和の振幅分布を導出する。
【0163】以下のように置く。
【数10】 (すなわち、φは区間[0,π]にわたって一様に分布
する。)
【0164】次の関係からYの分布fY(Y)を求め
る。
【数11】 ただし、
【数12】 である。式31〜33と関係式sin(x)=±(1−
cos2(x))1/2を組み合わせると、次式を得る。
【数13】
【0165】[8.2 平坦スペクトラムノイズマスカ
をランダム位相トーンに加えたときの強度分布]ここで
は、マスカが「方法」の説で説明したタイプの平坦スペ
クトラムNBNでありプローブがSCBWノイズの成分
のうちの1つと同じ周波数を有する正弦波信号であると
きのマスカ+プローブ信号の強度分布を導出する。既
に、プローブをある固定位相関係で対応するSCBWノ
イズ成分に加えた場合については説明した。この場合
は、結果として生じる強度分布が一定であるために自明
であった。ここでは、プローブとSCBWノイズ成分の
間の位相関係が一様分布であると仮定し、式34を用い
て、マスカのバンド幅および強度、ならびにプローブ強
度の関数として強度分布に対する解析的表式を導出す
る。この分布は、マスカ強度に対するデシベルで表すこ
とにする。
【0166】マスカがバンド幅0(純トーン)であると
きその振幅がA0bwであると仮定する。その場合、同じ
RMSを維持しながらマスカのバンド幅を増大させる
と、マスカの各正弦波成分の振幅はAcomp=A0bw
(Ncomp1/2となる。ただし、Ncompは成分の数であ
る。Bをトーンプローブの振幅であると定義すると、マ
スカ+プローブ信号の強度ZdBは次式で与えられる。 ZdB=10log[(Ncomp−1)Acomp 2−Y2] (35) ただし、Yは、プローブをマスカの対応する成分に加え
た結果生じる正弦波信号の振幅、すなわち、Y=|A
comp+B|である。我々の目的は、マスカのみの強度に
関するZdBの分布の解析的表式を導出することである。
【0167】ZdBの分布は、式35および34から、次
式を用いて決定することができる。 fZ(Z)=fY(Y)/(dZ/dY) (36) ただし、fY(Y)は式34で与えられ、 dZ/dY=20Y/(ln10[(Ncomp−1)Acomp 2+Y2]) ( 37) である。少しの代入計算の後、次式を得る。
【数14】
【0168】[参考文献] [1] Carol C. Blackburn and Murray B. Sachs, "Clas
sification of unit types in the anteroventral coch
lear nucleus: PST histograms and regularityanalysi
s", J. Neurophysiol., 62(6), 1303-29, December 198
9. [2] C. E. Bos and E. de Boer, "Masking and discri
mination", J. Acoust.Soc. Am., 39(4), 708-15, 196
6. [3] T. R. Bourk, "Electrical Responses of Neural
Units inthe Anteroventral Cochlear Nucleus of the
Cat", PhD thesis, Massachusetts Institute ofTechno
logy, Cambridge, MA, 1976. [4] Soren Buus, "Level discrimination of frozen a
nd random noise", J. Acoust. Soc. Am., 87(6), 2643
-54, June 1990. [5] E. de Boer, "Note on the critical bandwidth",
J. Acoust. Soc. Am.,34(7), 985-986, July 1962. [6] E. de Boer, "Intensitiy discrimination of flu
ctuating signals", J.Acoust. Soc. Am., 40(3), 552-
60, 1966. [7] James P. Egan and Harold W. Hake, "On the mas
king patterns of a simple auditory stimulus", J. A
coust. Soc. Am., 22(5), 622-30, September 1950. [8] Richard H. Ehmer, "Masking by tones vs noise
bands", J. Acoust. Soc. Am., 31(9), 1253-6, Septem
ber 1959. [9] R. Feldkeller and E. Zwicker, "Das Ohr als Na
chrichtenempfaenger",S. Hirzel Verlag, Stuttgart,
1956. [10] Harvey Fletcher, "Speech and Hearing in Comm
unication", Robert E.Krieger Publishing Co., Hunti
ngton, NY, 1972 (1953). [11] Harvey Fletcher and R. H. Galt, "Perception
of speech and its relation to telephony", J. Acous
t. Soc. Am., 22, 89-151, 1950. [12] Harvey Fletcher and W. A. Munson, "Loudness,
its definition, measurement, and calculation", J.
Acoust. Soc. Am., 5, 82-108, 1933. [13] Harvey Fletcher and W. A. Munson, "Relation
between loudness and masking", J. Acoust. Soc. A
m., 9, 1-10, 1937. [14] David M. Green, "Auditory detection of a noi
se signal", J. Acoust.Soc. Am., 32(1), 121-31, Jan
uary 1960. [15] David M. Green and John A. Swets, "Signal De
tection Theory and Psychophysics", John Wiley and
Sons, Inc., New York, 1966. [16] Donald D. Greenwood, "Auditory masking and t
he critical band", J.Acoust. Soc. Am., 33(4), 484-
502, April 1961a. [17] Donald D. Greenwood, "The intensity DL of to
nes: Dependence of signal/masker ratio on tone lev
el and on spectrum of added noise", Hear. Res. 65,
1-39, 1993. [18] Joe L. Hall, "Hybrid adaptive procedure for
estimation of psychometric functions", J. Acoust.
Soc. Am., 69(6), 1763-9, June 1981. [19] William S. Hellman and Rhona P. Hellman, "In
tensity discriminationas the driving force for lou
dness: application to pure tones in quiet",J. Acou
st. Soc. Am., 87(3), 1255-65, March 1970. [20] I. J. Hirsh, W. A. Rosenblith and W. D. War
d, "The masking of clicks by pure tones and bands
of noise", J. Acoust. Soc. Am., 22(5), 631-7,Septe
mber 1950. [21] Lloyd A. Jeffress, "Stimulus-oriented approa
ch to detection", J. Acoust. Soc. Am., 36(4), 766-
74, April 1964. [22] James D. Johnston and Karlheinz Brandenburg,
"Wideband coding - perceptual considerations for
speech and music", In Sadaoki Furui and M. Mohan S
ondhi, editors, Advances in Speech Signal Processi
ng, pages 109-140, Marcel Dekker, Inc., New York,
1992. [23] Gerard Lachs, Radhi Al-Shaikh, Rosalie A. Sa
ia and Malvin C. Teich, "A neural-counting model b
ased on physiological characteristics of theperiph
eral auditory system v. application to loudness es
timation and intensity discrimination", IEEE Tran
s. Syst., Man, Cybern., SMC-14(16), 819-36, Novemb
er 1984. [24] Gerald Langner, "Periodicity coding in the a
uditory system", Hear.Res., 60, 115-42, 1992. [25] June Li, "Estimation of the recovery dischar
ge probability in catauditory nerve spike trains a
nd computer simulations", PhD thesis, The Johns Ho
pkins University, Baltimore, MD, May 1991. [26] W. J. McGill and J. P. Goldberg, "Pure-tone
intensity discrimination and energy detection", J.
Acoust. Soc. Am., 44(2), 576-81, 1968. [27] George A. Miller, "Sensitivity to changes in
the intensity of white noise and its relation to
masking and loudness", J. Acoust. Soc. Am.,19(4),
609-19, July 1947. [28] W. A. Munson, "The growth of auditory sensat
ion", J. Acoust. Soc.Am., 19(4), 584-91, July 194
7. [29] W. W. Peterson, T. G. Birdsall and W. C. Fo
x, "The theory of signal detectability", Inst. Rad
io Engrs. Trans. Grp. Inf. Theory, 4, 171-212, 195
4. [30] Sheila M. Pfafflin and M. V. Mathews, "Energ
y-detection model of monaural auditory detection",
J. Acoust. Soc. Am., 34(12), 1842-53, December 19
62. [31] E. Port, "Ueber die Lautstaerke einzelner ku
rzer Schallimpulse", Acustica, 13, 212-23, 1963. [32] David H. Raab and Israel A. Goldberg, "Audit
ory intensity discrimination with bursts of reprod
ucible noise", J. Acoust. Soc. Am., 57(2), 437-47,
February 1975. [33] R. R. Riesz, "The differential sensitivity o
f the ear for pure tones", Phys. Rev., 31, 867-75,
1928. [34] Bertram Scharf, "Loudness", In Edward C. Car
terette and Morton P.Friedman, editors, Handbook o
f Perception, volume IV Hearing, pages 187-242, Ac
ademic Press, NY, 1978. [35] M. R. Schroeder, B. S. Atal and J. L. Hall,
"Optimizing digital speech coders by exploiting m
asking properties of the human ear", J. Acoust. So
c. Am., 66(6), 1647-52, December 1979. [36] John C. Steinberg and Mark B. Gardner, "On t
he auditory significance of the term hearing los
s", J. Acoust. Soc. Am., 11, 270-7, January 1940. [37] S. S. Stevens and H. Davis, "Hearing, Its Ps
ychology and Physiology", Reprinted by the America
n Inst. Physics for the Acoust. Soc. Am., 1983 (19
38). [38] M. C. Teich and S. M. Khanna, "Pulse-number
distribution for the neural spike train in the ca
t's auditory nerve", J. Acoust. Soc. Am., 77,1110-
28, 1985. [39] Raymond N. J. Veldhuis, "Bit rates in audio
source coding", IEEE J. Select. Areas Commun., 10
(1), 86-96, January 1992. [40] Xiaoqin Wang and Murray B. Sachs, "Neural en
coding of single-formant stimuli in the cat i. res
ponses of auditory nerve fibers", J. Neurophysio
l., 70(3), 1054-75, September 1993. [41] Xiaoqin Wang and Murray B. Sachs, "Neural en
coding of single-formant stimuli in the cat ii. re
sponses of anteroventral cochlear nucleus units",
J. Neurophysiol., (in press), 1994. [42] E. D. Young and Patrick E. Barta, "Rate resp
onses of auditory nerve fibers to tones in noise n
ear masked threshold", J. Acoust. Soc. Am.,79(2),
426-42, February 1986. [43] Eric D. Young, Jeanne-Marie Robert and Willi
am P. Shofner, "Regularity and latency of units in
the ventral cochlear nucleus: Implicationsfor uni
t classification and generation of response proper
ties", J. Neurophysiol., 60(1), 1-29, July 1988. [44] I. M. Young and C. H. Wenner, "Masking of wh
ite noise by pure tone, frequency-modulated tone,
and narrow-band noise", J. Acoust. Soc. Am.,41(3),
700-6, November 1966. [45] Eberhard Zwicker and Bertram Scharf, "A mode
l of loudness summation", Psychological Review, 72
(1), 3-26, 1965. [46] Josef J. Zwislocki, "Temporal summation of l
oudness: An analysis",J. Acoust. Soc. Am., 46(2),
431-441, 1969. [47] Josef J. Zwislocki and Herbert N. Jordan, "O
n the relations of intensity jnds to loudness and
neural noise", J. Acoust. Soc. Am., 79(3), 772-80,
March 1986.
【0169】[付録3] [要約]聴覚理論における古典的な問題はラウドネスL
(I)と強度JND ΔIの間の関係である。強度JN
DはJ(I)≡ΔI/Iによって定義されるウェーバー
分数で表現されることが多い。その理由は、この比は定
数であるべきだと期待されるためである(すなわち、ウ
ェーバーの法則)。やや不満なことは、もっとも基本的
な純トーンJNDの場合にJ(I)が定数ではないとい
う観察である。同じく不満なことは、ウェーバーの法則
がなぜそのまま成り立つのかが説明されないままである
ことである。ΔIに対応するラウドネスの変化としてラ
ウドネスJNDΔL(I)を定義する。ヘルマン(Hellm
an)とヘルマン(Hellman)の理論(JASA,1990)
を用いて、リース(Riesz)(1928)のJNDデータ
をフレッチャー(Fletcher)とマンソン(Munson)のラウド
ネス成長データ(JASA,1933)と比較する。こ
の比較に基づいて、我々は ΔL≒(L)1/2 を主張し、ラウドネスについてはフェヒナーの法則が成
り立たないことを示す。この結果の意味は、広範囲のレ
ベル(0〜70dB SL)および周波数(0.25〜
16kHz)にわたって、単一試行ラウドネスLの統
計はポアソン的である、すなわち、 σ2(L)=L ということである。ただし、L≡E(L)およびσ2
(L)≡E(L−L)2である。これは、純トーン
ラウドネス符号が、少なくともこの範囲の周波数および
レベルに対して、神経発火レートに基づくという考えと
整合する。
【0170】[定義:強度JND]Iは信号強度
【数15】 である。
【0171】強度JNDは強度のしきい値変化ΔIによ
って定義される。ただし、
【数16】 であり、αは信号利得の丁度可知変化である。従って、 ΔI=I(2α+α2) である。
【0172】ウェーバー関数は次式で定義される。 J≡ΔI/I=2α+α2
【0173】[定義:ラウドネスJND]単一試行ラウ
ドネスLはランダム変数(確率変数)である。
【0174】ラウドネスL(I)≡EL(I)は、単
一試行ラウドネスのアンサンブル平均である。
【0175】σ2(L)≡E(L−L)2は、単一試
行ラウドネスの分散である。
【0176】(平均)ラウドネスLの強度Iにおけるテ
イラー級数展開は L(I+ΔI)=L(I)+ΔI(dL/dI)+HO
Tである。
【0177】高次項(HOT)を無視して、ラウドネス
JND ΔLを次式で定義する。
【数17】
【0178】これは、ラウドネスJND ΔL(I)
が、Iで評価したラウドネス関数の勾配によって強度J
ND ΔI(I)と関係づけられるということである。
これを、小JND近似と呼ぶ。
【0179】[どのようにしてJNDをカウントする
か] 方法: ・テイラー級数の小JND近似 ΔL=ΔI(dL/dI) (1) から出発して、変数分離し積分してJNDの数を得る。
・I1とI2の間の強度JNDの総数N12≡N(I1
2)(Riesz 1928; Fletcher 1929, pages 160, 226)
は、
【数18】 である。 ・L1とL2の間のラウドネスJNDの総数L12≡N(L
1,L2)は、
【数19】 である。
【0180】JNDの数は、どのようにカウントしても
同じでなければならない。
【0181】[ウェーバーの法則(1846)とは何か
?]ウェーバーの法則とは、ウェーバー分数が一定であ
る(J≡ΔI/I=J0)ことである。
【0182】ウェーバーの法則および強度JND計数関
数(式2)から、次のようになる。
【数20】
【0183】ウェーバーの法則が成り立つとき(例え
ば、広バンドノイズ)、強度JNDの数は強度比の対数
に比例する。
【0184】[フェヒナーの仮説(1860)とは何か
?]フェヒナーの仮説(仮定)とは、ラウドネスJND
ΔL(I)が一定である(すなわち、Iとは独立であ
る)ということである。
【0185】フェヒナーは、「2つの強度I1とI2の間
のラウドネスの全変化はJNDの数をカウントすること
によって見出される」と仮定した。
【0186】フェヒナーの仮説およびJND計数公式
(式3)から、次のようになる。
【数21】
【0187】[フェヒナーの法則とは何か?]ウェーバ
ーの法則が成り立つ(式7)と仮定した場合の強度JN
Dの数を、フェヒナーの仮説が成り立つ(式9)と仮定
した場合のラウドネスJNDの数と等しいと置くことに
よりフェヒナーの法則が得られる。その等式は次のよう
になる。 (L2−L1)/ΔL=(1/J0)log(I2/I1
【0188】これは、フェヒナーの仮説とウェーバーの
法則が両方とも同時に真であることによっているので、
ウェーバー・フェヒナーの法則と呼ぶべきであろう。
(フレッチャーは彼の1929年の本の中でこのように
呼んでいる。)
【0189】[我々が示したいこと]フェヒナーの仮説
(ΔLは一定である)は真ではない。 ・従って、フェヒナーの法則は真ではない。
【0190】[結論]我々は、リースとフレッチャー・
マンソンの生のデータから直接に次のことを示す。 N12=C((L21/2−(L11/2) (11) ただし、Cは周波数および強度とはほとんど独立であ
り、1に近い。
【0191】このことからΔL=(2/C)(L
(I))1/2が得られる。その理由は、式3を(Cを定
数として扱って)直接積分すると
【数22】 となり、これは実験結果であるからである。
【0192】従って、式9より N12=(L2−L1)/ΔL となるため、フェヒナーの仮説(ΔL一定)は成り立た
ない。この式は、式11に要約されるようなデータとは
著しく不一致となる。
【0193】[考察]ラウドネスJNDがラウドネスの
平方根に比例する(すなわち、ΔL≒(L(I))1/2
とは何を意味するか。
【0194】[解答] ・上記の解析から、ΔL≒(L(I))1/2である。 ・信号検出理論から、ΔL≒σ(L)である。 ・ΔLを消去すると、次のように結論される。 L≒σ2(L) ただし、L≡ELおよびσ2(L)≡E(L
L)2である。 ・要約:単一試行ラウドネスの平均は単一試行ラウドネ
スの分散に比例する。
【0195】このことをさらに探究するためのモデルが
必要である。
【0196】[モデルの仮定]単一試行ラウドネスL
(I)が70dB SPL以下でポアソン的である場
合、これは我々の実験観測値を満たす。
【0197】Lが高レベルのパルス伝搬の不応性によ
って制限される場合(不感時間)、これは70dB以上
の効果を説明する。
【0198】[注釈]ラウドネス加法性実験に基づく
と、次のように仮定するのが合理的である。
【数23】 ただし、
【数24】 は、単一試行瞬間部分ラウドネスと呼ばれるポアソンラ
ンダム変数であり、強度I、時刻t、および位置xにお
ける神経スパイクレートを記述する。また、xLは基底
膜の長さである。この仮定は、この議論では用いない
が、定義を動機づけるためのものである。
【0199】このような不感時間で修正したポアソン過
程に対して、
【数25】 である。ただし、σ2(L)≡E(L−L)2および
L≡ELである。
【0200】平均の分散に対する比rはファノ(Fano)係
数と呼ばれる。不応極限より低いレベルの場合、r=1
(ポアソン過程)である。活動ポテンシャル伝搬の不応
性により、
【数26】
【数27】 に依存すると仮定する。
【0201】[強度JND計数公式の導出]小JND近
似(式1)から、 ΔL=ΔI(dL/dI) (12) である。
【0202】変数分離し、積分し、信号検出理論ΔL=
d′σから、
【数28】 である。
【0203】左辺はN12の定義であり、右辺でポアソン
の仮定を用いると、
【数29】 となる。
【0204】rのレベル依存性を無視することができる
場合、それを積分の外に出して、次式が得られる。
【数30】 これは式11と一致する。
【0205】[ラウドネスが与えられた場合のウェーバ
ー分数の導出]小JND近似(式1)から、 ΔL=ΔI(dL/dI) (16) である。
【0206】J(I)≡ΔI/Iについて解くと、 J(I)=ΔL/(IdL/dI) (17) となる。
【0207】SDTの仮定から、 J(I)=d′σ(L)/(IdL/dI) (18) である。
【0208】ポアソンの仮定から、
【数31】 となる。これにより、L(I)が与えられた場合にJ
(I)を計算することができる(Hellman and Hellman 1
990)。
【0209】[JNDとマスキングの関係はどのような
ものか]JNDの場合、
【数32】 である。ただし、s(t)は信号であり、αはスケール
ファクタである。従って、 J≡ΔI/I=2α+α2 である。
【0210】マスキングの場合、
【数33】 である。ただし、m(t)はマスカであり、αは、プロ
ーブ信号p(t)にかかるスケールファクタである。p
の強度がmの強度に等しいと定義すると、
【数34】 となる。我々は、マスキングにおいて相互作用項が非常
に重要であることを発見した(Sydorenko and Allen 199
5)。この項は、mとpの間の方向余弦(すなわち次式)
と解釈することができる。
【数35】
【0211】[参考文献] Fletcher, H. (1929), "Speech and Hearing", D. Van
Nostrand Company, Inc., New York. Fletcher, H. and Munson, W. (1933), "Loudness, its
definition, measurement, and calculation", Journa
l of the Acoustical Society of America, 5, 82-108. Hellman, W. and Hellman, R. (1990), "Intensity dis
crimination as the driving force for loudness: App
lication to pure tones in quiet", Journal ofthe Ac
oustical Society of America, 87(3), 1255-1271. Riesz, R. (1928), "Differential intensity sensitiv
ity of the ear for pure tones", Physical Review, 3
1(2), 867-875. Sydorenkoi, M. and Allen, J. (1995), "The relation
ship between the justnoticeable difference (jnd) i
n intensity and the masked threshold of sub-critic
al bandwidth signals", in Midwinter research meeti
ng, ARO, Talk 218.
【図面の簡単な説明】
【図1】本発明の実施例の図である。
【図2】図1の実施例で使用されるラウドネス計算の説
明図である。
【図3】図1の実施例で使用される可変分解能分析フィ
ルタバンクの図である。
【図4】図1の実施例で使用される量子化プロセッサの
図である。
【図5】実験で用いた刺激の図である。上段:マスキン
グ刺激の振幅スペクトルである。マスキング刺激のバン
ド幅は0Hz(純トーン)、40Hzまたは120Hz
(狭バンドノイズ)である。すべてのマスカは1kHz
を中心とし70dBのSPLで1122リ秒の継続時間
で提示される。ノイズマスカ成分の位相はランダム(一
様分布)である。中段:プローブの振幅スペクトラムで
ある(灰色のベクトル)。プローブは(1)マスカのス
ケールしたコピー(JNDIタスク)、または(2)1
kHzトーン(マスキングタスク)のいずれかである。
プローブはマスカと同時に出力される。下段:マスキン
グタスク(中段の#2の場合)における1kHzトーン
プローブ(P)とマスカの1kHz成分(M)の間の位
相関係である。プローブとマスカの相対位相(reφ)
は0(同相)、πラジアン(逆相)、またはランダム
(一様分布)のいずれかである。MとSの大きさ(ベク
トルの長さ)は3つのすべての例で同じである。Pの大
きさは位相関係に依存して異なる。
【図6】被験者#1に対して可変周波数純トーンプロー
ブを用いたマスキングオーディオグラムの図である。マ
スカ:(1)中心が1kHzで70dBのSPLでの幅
120kHzの一定スペクトラムレベルのランダムノイ
ズ(*の実線)、(2)70dBのSPLでの1kHz
トーン(oの破線)、および(3)無音(xの点線)。
トーンマスカおよびトーンプローブはこの実験では凍結
されている(すなわち区間ごとに同じ位相である)。従
って、トーンマスカとトーンプローブの間の相関は一定
であるが、ノイズマスカとトーンプローブの間の相関は
ランダムである。1kHzにおけるマスキングしきい値
はノイズマスカでは66dB SPLであり、トーンマ
スカでは46dB SPLである。この20dBの差が
この論文の焦点である。
【図7】トーンマスカに対するオーディオグラムを例外
として、この図のすべての条件および結果は図2のもの
と同じである。この実験では、1kHz70dB SP
Lのトーンマスカの位相は区間ごとにランダムである。
ランダム位相トーンマスカの場合の1kHzにおけるマ
スキングしきい値は73dB SPLであり、図2で用
いた凍結トーンマスカの場合よりも27dB大きい。
【図8】マスカのバンド幅に対するマスキングしきい値
でのプローブレベルのプロット(2−IFC 76%正
答)の図である。破線は、プローブがマスカのスケール
されたコピーであるJNDI実験に対応する。実線は、
プローブが1kHzトーンであるマスキング実験に対応
する。マスキングプロット上の3つの異なる記号
(「*」、「+」、「x」)は、トーンプローブとマス
カの1kHz成分の間の3つの異なる相対位相関係(そ
れぞれ「同相」、「πラジアン逆相」、および「ランダ
ム位相」)に対応する。線上にない(すなわち、記号を
連結する線の上下にある)記号は、推定されるしきい値
の95%信頼限界(±2σ)を表す。すべてのマスカ
は、トーンを除き、区間ごとにランダムである。
【図9】マスカのバンド幅に対するマスキングしきい値
での相対強度増分(ΔI/I)のプロット(2−IFC
76%正答)の図である。JNDIと、「同相加算」
に対するトーンマスキングしきい値とに対応する2セッ
トのデータが示されている。データおよび関連する記号
は、ΔI/Iに関してプロットされていることを除いて
は図8の下から2つの曲線に示したものと同じである。
線上にない(すなわち、記号を連結する線の上下にあ
る)記号は、推定されるしきい値の95%信頼限界(±
2σ)を表す。
【図10】プローブトーン強度の関数としての相対強度
増分ΔI/Iのプロットの図である。マスカは、上のグ
ラフではトーンであり、下のグラフでは幅40Hzの一
定スペクトラムレベルのノイズである。各グラフにおい
て、ΔI/Iは、(1)プローブトーンをマスカに「同
相で」加えた場合(すなわち、mTとpTの間に最大の正
の相関がある場合)と、(2)プローブトーンをマスカ
に「πラジアン逆相で」加えた場合(すなわち、mT
Tの間に最大の負の相関がある場合)についてプロッ
トされている。水平の一点鎖線は、刺激強度の丁度可知
変化に対するしきい値を示す。垂直の一点鎖線は、相対
位相の2つの場合における丁度可知強度増分に対する限
界をΔI/Iがちょうど越えるところを示している。
【図11】3−IFCタスクの場合(63%正答でd′
=1)対2−IFCタスクの場合(76%正答でd′=
1)において、マスカバンド幅の関数としてのマスキン
グしきい値におけるプローブレベルのプロットの図であ
る。実線は2−IFCタスクで測定した点(図8と同じ
データ)を連結し、破線は3−IFCタスクで測定した
点を連結している。4つの異なる記号「o」、「*」、
「+」、および「x」は、それぞれ、JNDタスク(す
なわちpT=αmT)で収集したデータと、トーンプロー
ブとマスカの1kHz成分の間の相対位相関係が同相、
πラジアン逆相、およびランダム位相であるようなマス
キングタスクで収集したデータを表す。線上にない記号
(すなわち、記号を連結する線の上下にある記号)は、
推定されるしきい値の95%信頼限界(±2σ)を表
す。この結果は、被験者がプローブの存在を識別する際
に強度キューを用いるという仮説と整合する。
【図12】聴覚検出のモデルの図である。
【図13】測定結果対予測した結果の図である。図8の
測定したしきい値を、モデルを用いて予測したしきい値
に対してプロットしている。測定したマスキングしきい
値データは図8のときのように実線で連結されている。
モデルを用いて予測したマスキングしきい値データおよ
び測定したJNDIデータは破線で連結されている。
【図14】測定したJNDIしきい値を、非線形要素の
2つのモデルを用いて予測した値に対してプロットした
図である。測定したしきい値データは白丸で表し、実線
で連結している。上および下の白丸はそれぞれ、測定し
たしきい値の推定される95%信頼限界(±2σ)を表
す。ラウドネスモデルおよびエネルギーモデルを用いて
予測したデータはそれぞれ破線および一点鎖線で連結さ
れている。
【図15】ノイズによってマスキングされるトーンの不
確定性の起源の分解の図である。被験者#1に対する実
験IIの結果を上にプロットしている。他のトーンによ
ってマスキングされたトーン、および、ノイズによって
マスキングされたトーンとに対するマスキングしきい値
に対応する点は円で囲まれている。これらの2つのマス
カの間のマスキングしきい値における21dBの差は、
水平の点線によって区切られる3つの寄与に分解されて
いる。これらの寄与は、(1)ランダムノイズマスカに
伴う波形不確定性、(2)トーンプローブを用いてマス
カの強度を増大させた代数的結果、および(3)トーン
をランダムノイズに加えたことによるΔIの不確定性で
ある。さらに詳細には本文を参照。
【図16】フェーザダイヤグラムの図である。
【図17】強度I、ラウドネスL(I)、強度JND
ΔI、ラウドネスJND ΔLおよびラウドネスの勾配
dL/dIの基本的定義の図である。
【図18】式2によって与えられるしきい値N(I,I
0)以上の強度JNDの数に対するリースの公式を、1
928年の彼の測定(Riesz 1928)に基づいて、(L
(I))1/2−(L01/2に対してプロットした図であ
る。ただし、L(I)はラウドネス平衡を用いて測定し
たフレッチャー・マンソンのラウドネスデータ(Fletche
r and Munson 1933)であり、L0はしきい値におけるラ
ウドネスである。異なるパネルは異なる周波数に対する
ものである。
【図19】N(I,I0)/((L(I))1/2
(L01/2)をプロットした図である。ただし、N
(I,I0)は、信号強度の関数としての、式2のしき
い値以上の強度JNDの数である。
【図20】左上のパネルは、フレッチャー・マンソンの
ラウドネス成長データを彼らの表III(Fletcher and
Munson 1933)から示す図である。右上のパネルは、強度
に対するラウドネスのプロットを示す図である。左下に
は、式19を用いてラウドネスデータから計算したJN
D(実線)と、1kHzで(Riesz 1928)によって得られ
た測定したJND(破線および円)の間の関係を示す。
この当てはめにおいて、自由なパラメータd′/r1/2
=2.4とおいた。右下では、式19からd′/r1/2
=2.8で計算したJND(実線)を、Jesteadt et a
l.の公式から計算したJND(破線)と比較している。
【符号の説明】
10 ラウドネス計算プロセッサ 11 蝸牛フィルタバンク 12 平方関数 14 立方根関数 16 積分器 20 差分ラウドネス検出可能性プロセッサ(DLD
P) 30 ラウドネス計算プロセッサ 60 分解能制御プロセッサ 70 可変分解能分析フィルタバンク(VRAF) 72 バッファメモリ 74 可変分解能MDCTプロセッサ 80 量子化プロセッサ 81 マッピング 82 初期ステップサイズプロセッサ 83 位相制御 84 マッピング機能 85 量子化ステップサイズ制御 86 量子化器 87 波形辞書 100 無ノイズ符号器 110 無ノイズ復号器 120 逆量子化器 130 逆MDCTプロセッサ(VRAF-1) 140 送信器
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ディーペン シンハー アメリカ合衆国, 07928 ニュージャー ジー,チャサム,ヒッコリープレイス 25 アパートメント B2 (72)発明者 マーク アール. シドレンコ アメリカ合衆国, 07062 ニュージャー ジー,プレインフィールド,ネザーウッド アヴェニュー 136

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 少なくとも1つの周波数バンドにグルー
    プ化された周波数領域係数のセットからなる周波数領域
    表現を有するオーディオ信号を符号化する方法におい
    て、前記少なくとも1つの周波数バンドに対して、 当該周波数バンドに対応するオーディオ信号の少なくと
    も一部のラウドネス不確定性の少なくとも1つの尺度を
    生成するステップと、 前記少なくとも1つの尺度に基づいて当該周波数バンド
    に対するノイズマスキングしきい値を選択するステップ
    と、 前記ノイズマスキングしきい値に基づいて、当該周波数
    バンドに対応する周波数領域係数の少なくとも1つのセ
    ットを量子化し、当該周波数バンドに対応する符号化さ
    れたオーディオ信号を生成するステップとからなること
    を特徴とする、オーディオ信号を符号化する方法。
JP8053589A 1995-02-06 1996-02-06 ラウドネス不確定性に基づく知覚音声圧縮 Pending JPH08272399A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/384,049 US5682463A (en) 1995-02-06 1995-02-06 Perceptual audio compression based on loudness uncertainty
US384049 1995-02-06

Publications (1)

Publication Number Publication Date
JPH08272399A true JPH08272399A (ja) 1996-10-18

Family

ID=23515820

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8053589A Pending JPH08272399A (ja) 1995-02-06 1996-02-06 ラウドネス不確定性に基づく知覚音声圧縮

Country Status (6)

Country Link
US (1) US5682463A (ja)
EP (1) EP0725494B1 (ja)
JP (1) JPH08272399A (ja)
CA (1) CA2167967A1 (ja)
DE (1) DE69602773T2 (ja)
ES (1) ES2142543T3 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006065342A (ja) * 1999-10-01 2006-03-09 Coding Technologies Ab 可変時間/周波数分解能および時間/周波数切り替えを使用する効率的なスペクトルエンベロープ符号化
JP2009532738A (ja) * 2006-04-04 2009-09-10 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション Mdct領域におけるオーディオ信号音量測定と改良

Families Citing this family (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6000833A (en) * 1997-01-17 1999-12-14 Massachusetts Institute Of Technology Efficient synthesis of complex, driven systems
US6144937A (en) * 1997-07-23 2000-11-07 Texas Instruments Incorporated Noise suppression of speech by signal processing including applying a transform to time domain input sequences of digital signals representing audio information
US6466912B1 (en) 1997-09-25 2002-10-15 At&T Corp. Perceptual coding of audio signals employing envelope uncertainty
US6055502A (en) * 1997-09-27 2000-04-25 Ati Technologies, Inc. Adaptive audio signal compression computer system and method
US6091773A (en) * 1997-11-12 2000-07-18 Sydorenko; Mark R. Data compression method and apparatus
US6092040A (en) * 1997-11-21 2000-07-18 Voran; Stephen Audio signal time offset estimation algorithm and measuring normalizing block algorithms for the perceptually-consistent comparison of speech signals
US6405338B1 (en) * 1998-02-11 2002-06-11 Lucent Technologies Inc. Unequal error protection for perceptual audio coders
US6122610A (en) * 1998-09-23 2000-09-19 Verance Corporation Noise suppression for low bitrate speech coder
JP3739959B2 (ja) * 1999-03-23 2006-01-25 株式会社リコー デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
US6246978B1 (en) * 1999-05-18 2001-06-12 Mci Worldcom, Inc. Method and system for measurement of speech distortion from samples of telephonic voice signals
TW499672B (en) * 2000-02-18 2002-08-21 Intervideo Inc Fast convergence method for bit allocation stage of MPEG audio layer 3 encoders
US6813600B1 (en) * 2000-09-07 2004-11-02 Lucent Technologies Inc. Preclassification of audio material in digital audio compression applications
US6732071B2 (en) * 2001-09-27 2004-05-04 Intel Corporation Method, apparatus, and system for efficient rate control in audio encoding
US20030131350A1 (en) 2002-01-08 2003-07-10 Peiffer John C. Method and apparatus for identifying a digital audio signal
AU2004248544B2 (en) * 2003-05-28 2010-02-18 Dolby Laboratories Licensing Corporation Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal
US7460684B2 (en) * 2003-06-13 2008-12-02 Nielsen Media Research, Inc. Method and apparatus for embedding watermarks
WO2005002200A2 (en) * 2003-06-13 2005-01-06 Nielsen Media Research, Inc. Methods and apparatus for embedding watermarks
US6980933B2 (en) * 2004-01-27 2005-12-27 Dolby Laboratories Licensing Corporation Coding techniques using estimated spectral magnitude and phase derived from MDCT coefficients
DE102004009955B3 (de) * 2004-03-01 2005-08-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ermitteln einer Quantisierer-Schrittweite
TWI404419B (zh) 2004-04-07 2013-08-01 Nielsen Media Res Inc 與壓縮過音頻/視頻資料一起使用之資料插入方法、系統、機器可讀取媒體及設備
JP4661074B2 (ja) * 2004-04-07 2011-03-30 ソニー株式会社 情報処理システム、情報処理方法、並びにロボット装置
US7617109B2 (en) * 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
NZ552644A (en) 2004-07-02 2008-09-26 Nielsen Media Res Inc Methods and apparatus for mixing compressed digital bit streams
AU2005299410B2 (en) 2004-10-26 2011-04-07 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
US8199933B2 (en) 2004-10-26 2012-06-12 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
US7927617B2 (en) * 2005-04-18 2011-04-19 Basf Aktiengesellschaft Preparation comprising at least one conazole fungicide
US8964997B2 (en) * 2005-05-18 2015-02-24 Bose Corporation Adapted audio masking
US20060262938A1 (en) * 2005-05-18 2006-11-23 Gauger Daniel M Jr Adapted audio response
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
US8332216B2 (en) * 2006-01-12 2012-12-11 Stmicroelectronics Asia Pacific Pte., Ltd. System and method for low power stereo perceptual audio coding using adaptive masking threshold
US8194880B2 (en) 2006-01-30 2012-06-05 Audience, Inc. System and method for utilizing omni-directional microphones for speech enhancement
US9185487B2 (en) * 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
US8204252B1 (en) 2006-10-10 2012-06-19 Audience, Inc. System and method for providing close microphone adaptive array processing
US8744844B2 (en) 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
TWI517562B (zh) * 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
ES2359799T3 (es) 2006-04-27 2011-05-27 Dolby Laboratories Licensing Corporation Control de ganancia de audio usando detección de eventos auditivos basada en la sonoridad específica.
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8204253B1 (en) 2008-06-30 2012-06-19 Audience, Inc. Self calibration of audio device
US8150065B2 (en) * 2006-05-25 2012-04-03 Audience, Inc. System and method for processing an audio signal
US8849231B1 (en) 2007-08-08 2014-09-30 Audience, Inc. System and method for adaptive power control
US8934641B2 (en) * 2006-05-25 2015-01-13 Audience, Inc. Systems and methods for reconstructing decomposed audio signals
US20080004873A1 (en) * 2006-06-28 2008-01-03 Chi-Min Liu Perceptual coding of audio signals by spectrum uncertainty
WO2008045950A2 (en) 2006-10-11 2008-04-17 Nielsen Media Research, Inc. Methods and apparatus for embedding codes in compressed audio data streams
CA2665153C (en) 2006-10-20 2015-05-19 Dolby Laboratories Licensing Corporation Audio dynamics processing using a reset
US8521314B2 (en) * 2006-11-01 2013-08-27 Dolby Laboratories Licensing Corporation Hierarchical control path with constraints for audio dynamics processing
US8259926B1 (en) 2007-02-23 2012-09-04 Audience, Inc. System and method for 2-channel and 3-channel acoustic echo cancellation
ATE535906T1 (de) * 2007-07-13 2011-12-15 Dolby Lab Licensing Corp Tonverarbeitung mittels auditorischer szenenanalyse und spektraler asymmetrie
US8189766B1 (en) 2007-07-26 2012-05-29 Audience, Inc. System and method for blind subband acoustic echo cancellation postfiltering
EP2177054B1 (en) * 2007-07-31 2014-04-09 Phonak AG Method for adjusting a hearing device with frequency transposition and corresponding arrangement
JP5229234B2 (ja) * 2007-12-18 2013-07-03 富士通株式会社 非音声区間検出方法及び非音声区間検出装置
US8143620B1 (en) 2007-12-21 2012-03-27 Audience, Inc. System and method for adaptive classification of audio sources
US8180064B1 (en) 2007-12-21 2012-05-15 Audience, Inc. System and method for providing voice equalization
US8194882B2 (en) 2008-02-29 2012-06-05 Audience, Inc. System and method for providing single microphone noise suppression fallback
US8355511B2 (en) 2008-03-18 2013-01-15 Audience, Inc. System and method for envelope-based acoustic echo cancellation
US8521530B1 (en) 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
US8774423B1 (en) 2008-06-30 2014-07-08 Audience, Inc. System and method for controlling adaptivity of signal modification using a phantom coefficient
US8218783B2 (en) * 2008-12-23 2012-07-10 Bose Corporation Masking based gain control
CN102265513B (zh) 2008-12-24 2014-12-31 杜比实验室特许公司 频域中的音频信号响度确定和修改
US8229125B2 (en) * 2009-02-06 2012-07-24 Bose Corporation Adjusting dynamic range of an audio system
US8223985B2 (en) * 2009-04-22 2012-07-17 General Electric Company Masking of pure tones within sound from a noise generating source
US9055374B2 (en) * 2009-06-24 2015-06-09 Arizona Board Of Regents For And On Behalf Of Arizona State University Method and system for determining an auditory pattern of an audio segment
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US9008329B1 (en) 2010-01-26 2015-04-14 Audience, Inc. Noise reduction using multi-feature cluster tracker
US8718290B2 (en) 2010-01-26 2014-05-06 Audience, Inc. Adaptive noise reduction using level cues
US9378754B1 (en) 2010-04-28 2016-06-28 Knowles Electronics, Llc Adaptive spatial classifier for multi-microphone systems
CN103098131B (zh) 2010-08-24 2015-03-11 杜比国际公司 调频立体声无线电接收器的间歇单声道接收的隐藏
US9685921B2 (en) 2012-07-12 2017-06-20 Dts, Inc. Loudness control with noise detection and loudness drop detection
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
DE112015004185T5 (de) 2014-09-12 2017-06-01 Knowles Electronics, Llc Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
US10374564B2 (en) 2017-04-20 2019-08-06 Dts, Inc. Loudness control with noise detection and loudness drop detection
CN115171709B (zh) * 2022-09-05 2022-11-18 腾讯科技(深圳)有限公司 语音编码、解码方法、装置、计算机设备和存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5341457A (en) * 1988-12-30 1994-08-23 At&T Bell Laboratories Perceptual coding of audio signals
US5040217A (en) * 1989-10-18 1991-08-13 At&T Bell Laboratories Perceptual coding of audio signals
JP2861238B2 (ja) * 1990-04-20 1999-02-24 ソニー株式会社 ディジタル信号符号化方法
KR100312664B1 (ko) * 1991-03-29 2002-12-26 소니 가부시끼 가이샤 디지탈신호부호화방법
EP0506394A2 (en) * 1991-03-29 1992-09-30 Sony Corporation Coding apparatus for digital signals
EP0535889B1 (en) * 1991-09-30 1998-11-11 Sony Corporation Method and apparatus for audio data compression
US5227788A (en) * 1992-03-02 1993-07-13 At&T Bell Laboratories Method and apparatus for two-component signal compression
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006065342A (ja) * 1999-10-01 2006-03-09 Coding Technologies Ab 可変時間/周波数分解能および時間/周波数切り替えを使用する効率的なスペクトルエンベロープ符号化
JP4628921B2 (ja) * 1999-10-01 2011-02-09 ドルビー インターナショナル アクチボラゲット 可変時間/周波数分解能および時間/周波数切り替えを使用する効率的なスペクトルエンベロープ符号化
JP2009532738A (ja) * 2006-04-04 2009-09-10 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション Mdct領域におけるオーディオ信号音量測定と改良
US8504181B2 (en) 2006-04-04 2013-08-06 Dolby Laboratories Licensing Corporation Audio signal loudness measurement and modification in the MDCT domain

Also Published As

Publication number Publication date
DE69602773D1 (de) 1999-07-15
ES2142543T3 (es) 2000-04-16
EP0725494A1 (en) 1996-08-07
EP0725494B1 (en) 1999-06-09
CA2167967A1 (en) 1996-08-07
US5682463A (en) 1997-10-28
DE69602773T2 (de) 1999-11-11

Similar Documents

Publication Publication Date Title
JPH08272399A (ja) ラウドネス不確定性に基づく知覚音声圧縮
JPH08272400A (ja) ラウドネス不確定性に基づく知覚音声圧縮のトーナリティ
Dau et al. A quantitative model of the ‘‘effective’’signal processing in the auditory system. I. Model structure
KR100269213B1 (ko) 오디오신호의부호화방법
Sinha et al. Low bit rate transparent audio compression using adapted wavelets
Brandenburg OCF--A new coding algorithm for high quality sound signals
CA2225407C (en) Assessment of signal quality
US7164771B1 (en) Process and system for objective audio quality measurement
US20080221875A1 (en) Bit rate reduction in audio encoders by exploiting inharmonicity effects and auditory temporal masking
van de Par et al. A perceptual model for sinusoidal audio coding based on spectral integration
US6091773A (en) Data compression method and apparatus
McAulay et al. Multirate sinusoidal transform coding at rates from 2.4 kbps to 8 kbps
Hant et al. A psychoacoustic-masking model to predict the perception of speech-like stimuli in noise
Zelinski et al. Approaches to adaptive transform speech coding at low bit rates
Sottek et al. Loudness perception and modeling of impulsive sounds
Huettel et al. Using computational auditory models to predict simultaneous masking data: Model comparison
Meky et al. A perceptually-based objective measure for speech coders using abductive network
KR0144841B1 (ko) 음향신호의 적응적 부호화 및 복호화장치
Espinoza-Varas et al. Evaluating a model of auditory masking for applications in audio coding
De et al. Auditory distortion measure for speech coder evaluation—Discrimination information approach
EP1777698B1 (en) Bit rate reduction in audio encoders by exploiting auditory temporal masking
KR970006827B1 (ko) 오디오신호 부호화장치
Dowling et al. Modelling the detectability of changes in auditory signals
KR100289731B1 (ko) 디지탈 오디오 데이타 부호화방법 및 장치
HOLUBE Models of speech perception and psychoacoustics