JPH08272391A - 音声マスキング特性測定方法 - Google Patents
音声マスキング特性測定方法Info
- Publication number
- JPH08272391A JPH08272391A JP6096A JP6096A JPH08272391A JP H08272391 A JPH08272391 A JP H08272391A JP 6096 A JP6096 A JP 6096A JP 6096 A JP6096 A JP 6096A JP H08272391 A JPH08272391 A JP H08272391A
- Authority
- JP
- Japan
- Prior art keywords
- noise
- signal
- masking
- subband
- filter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000873 masking effect Effects 0.000 title claims abstract description 91
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000001228 spectrum Methods 0.000 claims abstract description 25
- 239000011159 matrix material Substances 0.000 claims description 27
- 230000005236 sound signal Effects 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 2
- 238000005259 measurement Methods 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 2
- 210000003477 cochlea Anatomy 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 210000003027 ear inner Anatomy 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000008054 signal transmission Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
(57)【要約】
【課題】 音声マスキング特性測定方法の改善。
【解決手段】 信号のサブバンド構成要素のマスキング
特性を測定し信号についての雑音レベルベクトルを定め
る方法において、信号がサブバンド信号構成要素セット
に分離される。バンドパス雑音構成要素も生成される。
バンドパス雑音とサブバンド信号構成要素との各組み合
せについて、特定のマスキング基準に合う雑音対信号比
の値が定められる。これら組み合せからの値が格納され
る。そして信号をフィルタ処理によってサブバンド構成
要素セットに分割し、格納されている値にアクセスし、
これらの値を組み合せて他の信号のマスキング特性の測
定値を生成することにより他の信号についての雑音レベ
ルベクトルが定められる。
特性を測定し信号についての雑音レベルベクトルを定め
る方法において、信号がサブバンド信号構成要素セット
に分離される。バンドパス雑音構成要素も生成される。
バンドパス雑音とサブバンド信号構成要素との各組み合
せについて、特定のマスキング基準に合う雑音対信号比
の値が定められる。これら組み合せからの値が格納され
る。そして信号をフィルタ処理によってサブバンド構成
要素セットに分割し、格納されている値にアクセスし、
これらの値を組み合せて他の信号のマスキング特性の測
定値を生成することにより他の信号についての雑音レベ
ルベクトルが定められる。
Description
【0001】
【発明の属する技術分野】本発明は、信号の構成要素の
音声マスキング特性を測定して、その信号についての雑
音レベルベクトルを定める方法に関する。
音声マスキング特性を測定して、その信号についての雑
音レベルベクトルを定める方法に関する。
【0002】
【従来の技術】統合サービスディジタルネットワーク
(ISDN)のようなディジタルネットワークにおける
進歩によって、高品質の画像及び音声の伝送に又関心が
引き起こされている。コンパクトディスク及び高品質テ
レビの時代において、ますます高忠実度を求める傾向に
は同様に電話も含まれるようになって来ている。
(ISDN)のようなディジタルネットワークにおける
進歩によって、高品質の画像及び音声の伝送に又関心が
引き起こされている。コンパクトディスク及び高品質テ
レビの時代において、ますます高忠実度を求める傾向に
は同様に電話も含まれるようになって来ている。
【0003】純粋に聴取を楽しむ行為とは別に、よりよ
い音の電話が、特に実業界において必要とされている。
従来の電話方式では、狭帯域音声伝送の帯域幅が300
〜3000Hzに制限されていて、長時間の電話での会
話が聴取者にストレスを与える傾向にある。他方、50
〜7000Hzの範囲の広帯域音声の場合、聴取者に
は、より多くの臨場感(50〜300Hzの範囲での信
号伝送による)とより高い明瞭度(3000〜7000
Hzの範囲での信号伝送による)が得られ、長時間の聴
取でも、より容易に許容できる。
い音の電話が、特に実業界において必要とされている。
従来の電話方式では、狭帯域音声伝送の帯域幅が300
〜3000Hzに制限されていて、長時間の電話での会
話が聴取者にストレスを与える傾向にある。他方、50
〜7000Hzの範囲の広帯域音声の場合、聴取者に
は、より多くの臨場感(50〜300Hzの範囲での信
号伝送による)とより高い明瞭度(3000〜7000
Hzの範囲での信号伝送による)が得られ、長時間の聴
取でも、より容易に許容できる。
【0004】電話ネットワーク上で音声を、広帯域また
は狭帯域のいずれかで伝送するためには、連続時間変数
の連続関数として特徴付けることができる入力音声信号
を、ディジタル信号、すなわち時間及び振幅の両方で離
散した信号に変換する必要がある。この変換は2段階の
プロセスで行われる。まず、入力音声信号が、時間周期
的に(すなわち特定の周波数(レート)で)標本抽出
(サンプリング)されて、連続した値を取るサンプルか
らなる一連のサンプル(サンプルシーケンス)が生成さ
れる。
は狭帯域のいずれかで伝送するためには、連続時間変数
の連続関数として特徴付けることができる入力音声信号
を、ディジタル信号、すなわち時間及び振幅の両方で離
散した信号に変換する必要がある。この変換は2段階の
プロセスで行われる。まず、入力音声信号が、時間周期
的に(すなわち特定の周波数(レート)で)標本抽出
(サンプリング)されて、連続した値を取るサンプルか
らなる一連のサンプル(サンプルシーケンス)が生成さ
れる。
【0005】それから、これらの値が値の有限セット
(2進数字(ビット)で表される)に量子化されて、デ
ィジタル信号が産出される。このディジタル信号はビッ
トレート、すなわち入力信号のサンプリング頻度とサン
プリングされた値に用いられたビット数とを反映する指
定された秒当りビット数、によって特徴付けられる。
(2進数字(ビット)で表される)に量子化されて、デ
ィジタル信号が産出される。このディジタル信号はビッ
トレート、すなわち入力信号のサンプリング頻度とサン
プリングされた値に用いられたビット数とを反映する指
定された秒当りビット数、によって特徴付けられる。
【0006】しかし残念ながら、広帯域伝送によって可
能となった高品質の電話サービスは、広帯域信号に対し
て適切な符号化が行われない場合には一般に、より高い
ビットレートの伝送を必要とする。この適切な符号化と
は、すなわち、広帯域信号を、量子化エラーに起因する
目立ったひずみの発生なしにより、少ない数のビットで
表す形に圧縮できるような符号化である。
能となった高品質の電話サービスは、広帯域信号に対し
て適切な符号化が行われない場合には一般に、より高い
ビットレートの伝送を必要とする。この適切な符号化と
は、すなわち、広帯域信号を、量子化エラーに起因する
目立ったひずみの発生なしにより、少ない数のビットで
表す形に圧縮できるような符号化である。
【0007】最近、音声(人声及び可聴音響を含む)の
高忠実度符号器は、ひずみの平均自乗誤差測定値(例え
ば、信号とその同じ信号が符号化され復号化された形で
の信号との間のエネルギー差の測定値)は符号化された
信号の知覚的品質を必ずしも正確に記述しない、という
考えに基づいている。簡単にいえば、全ての種類のひず
みが人の耳に等しく知覚されるわけではない。
高忠実度符号器は、ひずみの平均自乗誤差測定値(例え
ば、信号とその同じ信号が符号化され復号化された形で
の信号との間のエネルギー差の測定値)は符号化された
信号の知覚的品質を必ずしも正確に記述しない、という
考えに基づいている。簡単にいえば、全ての種類のひず
みが人の耳に等しく知覚されるわけではない。
【0008】(次の文献参照:M. R. Schroeder, B. S.
Atal and J. L. Hall, "Optimizing Digital Speech C
oders by Exploiting Masking Properties of the Huma
n Ear," J. Acous. Soc. Am., Vol. 66, 1647-1652, 19
79; N. Jayant, J. Johnstonand R. Safranek, "Signal
Compression Based on Models of Human Perception,"
Proc. IEEE, Vol. 81, No. 10, pp. 1385-1422, Octob
er 1993; J. D. Johnston, "Transform Coding of Audi
o Signals Using Perceptual Noise Criteria," IEEE
J. Sel. Areas Comm., Vol. 6, pp. 314-323, 1988)
Atal and J. L. Hall, "Optimizing Digital Speech C
oders by Exploiting Masking Properties of the Huma
n Ear," J. Acous. Soc. Am., Vol. 66, 1647-1652, 19
79; N. Jayant, J. Johnstonand R. Safranek, "Signal
Compression Based on Models of Human Perception,"
Proc. IEEE, Vol. 81, No. 10, pp. 1385-1422, Octob
er 1993; J. D. Johnston, "Transform Coding of Audi
o Signals Using Perceptual Noise Criteria," IEEE
J. Sel. Areas Comm., Vol. 6, pp. 314-323, 1988)
【0009】したがって、人の聴覚システムが異なった
種類の雑音をどのように許容するかについての或る程度
の知識が与えられると、量子化エラーの聞こえる度合
(可聴性)(必ずしもエネルギーではないが)を減少さ
せる符号器を設計することができるようになって来てい
る。具体的にいえば、これらの符号器は、聴覚システム
における、マスキングとして知られる現象を利用してい
る。
種類の雑音をどのように許容するかについての或る程度
の知識が与えられると、量子化エラーの聞こえる度合
(可聴性)(必ずしもエネルギーではないが)を減少さ
せる符号器を設計することができるようになって来てい
る。具体的にいえば、これらの符号器は、聴覚システム
における、マスキングとして知られる現象を利用してい
る。
【0010】マスキングは、1つの音によって別の音が
聞こえにくくなるか又はかき消されてしまうという、人
の聴覚現象を表す用語である。一般的な例を示せば、も
しカーラジオの音量を十分に大きくすればエンジンの音
はかき消されてしまう。同様に、もし人がシャワーを浴
びていて、かかってきた電話を取れなかった場合には、
それはシャワーの音が電話の呼び出し音をマスキングし
たからで、もしシャワーの音がなかったとしたら呼び出
し音が聞こえたはずである。
聞こえにくくなるか又はかき消されてしまうという、人
の聴覚現象を表す用語である。一般的な例を示せば、も
しカーラジオの音量を十分に大きくすればエンジンの音
はかき消されてしまう。同様に、もし人がシャワーを浴
びていて、かかってきた電話を取れなかった場合には、
それはシャワーの音が電話の呼び出し音をマスキングし
たからで、もしシャワーの音がなかったとしたら呼び出
し音が聞こえたはずである。
【0011】信号のマスキング特性は一般に、マスキン
グ基準に関して定められる雑音対信号比として測定され
る。例えば、1つのマスキング基準は、ちょうどひずみ
に気付く(JND)レベル、すなわち雑音が聴取者にち
ょうど聞こえるように(可聴に)なる雑音対信号比であ
る。代わって、別のマスキング基準としては、可聴であ
るがうるさくないレベル、すなわち聴取者にその雑音が
聞こえるが、雑音のレベルが聴取者をいらいらさせうる
さく感じさせるほどに高いレベルではない雑音対信号比
が挙げられる。
グ基準に関して定められる雑音対信号比として測定され
る。例えば、1つのマスキング基準は、ちょうどひずみ
に気付く(JND)レベル、すなわち雑音が聴取者にち
ょうど聞こえるように(可聴に)なる雑音対信号比であ
る。代わって、別のマスキング基準としては、可聴であ
るがうるさくないレベル、すなわち聴取者にその雑音が
聞こえるが、雑音のレベルが聴取者をいらいらさせうる
さく感じさせるほどに高いレベルではない雑音対信号比
が挙げられる。
【0012】音響心理学の領域における実験は、純粋な
ト−ン(基音)(すなわち単一周波数)及び狭帯域雑音
のマスキング特性に焦点を置いている。(例えば次の文
献を参照されたい:J. P. Egan and H. W. Hake, "On t
he Masking Pattern of a Simple Auditory Stimulus,"
J. Acous. Soc. Am., Vol. 22, pp. 622-630, 1950;R.
L. Wegel and C. E. Lane, "The Masking of One Pure
Tone by Another and its Probable Relation to the
Dynamics of the Inner Ear," Phys. Rev., Vol. 23, N
o. 2, pp. 266-285, 1924)
ト−ン(基音)(すなわち単一周波数)及び狭帯域雑音
のマスキング特性に焦点を置いている。(例えば次の文
献を参照されたい:J. P. Egan and H. W. Hake, "On t
he Masking Pattern of a Simple Auditory Stimulus,"
J. Acous. Soc. Am., Vol. 22, pp. 622-630, 1950;R.
L. Wegel and C. E. Lane, "The Masking of One Pure
Tone by Another and its Probable Relation to the
Dynamics of the Inner Ear," Phys. Rev., Vol. 23, N
o. 2, pp. 266-285, 1924)
【0013】これらの実験の間に収集された音響心理学
データから次のことが立証された。すなわち、第1の基
音が第2の基音をマスキングするために用いられる場
合、第1の基音のマスキング能力は、第1の基音の周波
数が第2の基音の周波数に近いときに最大化されるこ
と、又狭帯域雑音が第2の基音をマスキングする能力
も、その狭帯域雑音が第2の基音に近い周波数に集中し
たときに最大化されること、である。
データから次のことが立証された。すなわち、第1の基
音が第2の基音をマスキングするために用いられる場
合、第1の基音のマスキング能力は、第1の基音の周波
数が第2の基音の周波数に近いときに最大化されるこ
と、又狭帯域雑音が第2の基音をマスキングする能力
も、その狭帯域雑音が第2の基音に近い周波数に集中し
たときに最大化されること、である。
【0014】そして、低い方の周波数の基音が高い方の
基音をマスキングする場合のほうが高い方の周波数の基
音が低い方の周波数の基音をマスキングする場合よりも
容易であること、も同様に立証された。
基音をマスキングする場合のほうが高い方の周波数の基
音が低い方の周波数の基音をマスキングする場合よりも
容易であること、も同様に立証された。
【0015】
【発明が解決しようとする課題】しかし、より複雑な信
号(広帯域音声のような)のマスキング特性は、より定
めにくい。その理由は部分的には、これらのより複雑な
信号が、マスキング特性の研究が済んでいる基音及び狭
帯域雑音に容易に分解できないことにある。
号(広帯域音声のような)のマスキング特性は、より定
めにくい。その理由は部分的には、これらのより複雑な
信号が、マスキング特性の研究が済んでいる基音及び狭
帯域雑音に容易に分解できないことにある。
【0016】したがって、複雑な信号のマスキング特性
を演繹的に測定する方法、すなわち或る選択されたマス
キング基準に基づいて許容可能な雑音のレベルを演繹的
に定める方法が求められている。このような測定値が得
られれば、これを用いて、本出願と同時に出願された、
本発明人の同時継続出願の、そして本出願と共通の被譲
渡人に譲渡された出願(名称:"Method for Noise Weig
hting Filtering")(ここに本出願の参照文献とする)
に述べられているような音声符号化を改善することがで
きる。
を演繹的に測定する方法、すなわち或る選択されたマス
キング基準に基づいて許容可能な雑音のレベルを演繹的
に定める方法が求められている。このような測定値が得
られれば、これを用いて、本出願と同時に出願された、
本発明人の同時継続出願の、そして本出願と共通の被譲
渡人に譲渡された出願(名称:"Method for Noise Weig
hting Filtering")(ここに本出願の参照文献とする)
に述べられているような音声符号化を改善することがで
きる。
【0017】
【課題を解決するための手段】本発明の中心にあるの
は、広帯域音声のような信号のマスキング特性をそのサ
ブバンド構成要素のマスキング特性から定めることがで
きるという認識である。したがって、本発明は、例えば
フィルタバンクによるなどしてサブバンド構成要素セッ
トに分解できるような信号、のマスキング特性を定める
方法を提供するものである。
は、広帯域音声のような信号のマスキング特性をそのサ
ブバンド構成要素のマスキング特性から定めることがで
きるという認識である。したがって、本発明は、例えば
フィルタバンクによるなどしてサブバンド構成要素セッ
トに分解できるような信号、のマスキング特性を定める
方法を提供するものである。
【0018】一実施例においては、或る与えられたサブ
バンド構成要素について、そのサブバンド構成要素によ
ってマスキングすることができる雑音パワースペクトル
が特定され、これらの雑音パワースペクトルが組み合わ
されて、この信号によってマスキングすることができる
1つの雑音パワースペクトルが産出される。
バンド構成要素について、そのサブバンド構成要素によ
ってマスキングすることができる雑音パワースペクトル
が特定され、これらの雑音パワースペクトルが組み合わ
されて、この信号によってマスキングすることができる
1つの雑音パワースペクトルが産出される。
【0019】別の実施例においては、各サブバンド信号
中のパワーとマスキング行列とに基づいて出力信号が生
成される。入力信号によってマスキングすることができ
る雑音パワースペクトルは、これらの出力信号から定め
られる。
中のパワーとマスキング行列とに基づいて出力信号が生
成される。入力信号によってマスキングすることができ
る雑音パワースペクトルは、これらの出力信号から定め
られる。
【0020】
【発明の実施の形態】図1は、入力信号の或るフレ−ム
(又はセグメント)について、雑音レベルベクトル、す
なわちマスキング基準を超えずにフレ−ムに付加される
雑音スペクトルが演繹的に定められる本発明の方法を説
明する流れ図である。この方法は、3個の主要ステップ
からなる。ステップ120において、入力信号フレ−ム
が、例えばフィルタバンクによるなどして、マスキング
特性が知られている又は定めることができるようなサブ
バンド構成要素に分解される。
(又はセグメント)について、雑音レベルベクトル、す
なわちマスキング基準を超えずにフレ−ムに付加される
雑音スペクトルが演繹的に定められる本発明の方法を説
明する流れ図である。この方法は、3個の主要ステップ
からなる。ステップ120において、入力信号フレ−ム
が、例えばフィルタバンクによるなどして、マスキング
特性が知られている又は定めることができるようなサブ
バンド構成要素に分解される。
【0021】ステップ140において、各構成要素につ
いてのマスキング特性が、例えばデータベース又はライ
ブラリから特定され又はアクセスされる。そしてステッ
プ160において、マスキング特性が組み合わされて、
雑音レベルベクトル、すなわちこの入力信号によってマ
スキングすることができる雑音パワーのスペクトルが定
められる。
いてのマスキング特性が、例えばデータベース又はライ
ブラリから特定され又はアクセスされる。そしてステッ
プ160において、マスキング特性が組み合わされて、
雑音レベルベクトル、すなわちこの入力信号によってマ
スキングすることができる雑音パワーのスペクトルが定
められる。
【0022】なお、本方法においては、入力信号のフレ
−ムが、各々のマスキング特性が既に測定されているよ
うなサブバンド構成要素、の合計として表される。しか
し、入力音声信号の雑音レベルベクトルを定めるために
は、ステップ140において必要とされる構成要素のマ
スキング特性がまず定められなければならない。
−ムが、各々のマスキング特性が既に測定されているよ
うなサブバンド構成要素、の合計として表される。しか
し、入力音声信号の雑音レベルベクトルを定めるために
は、ステップ140において必要とされる構成要素のマ
スキング特性がまず定められなければならない。
【0023】構成要素のマスキング特性のライブラリが
定められ、有利なことにデータベースに格納されると、
マスキング構成要素は常にアクセス、及びオプションと
しての適応が可能であり、これによってどの入力信号の
雑音レベルベクトルでも定めることができる。
定められ、有利なことにデータベースに格納されると、
マスキング構成要素は常にアクセス、及びオプションと
しての適応が可能であり、これによってどの入力信号の
雑音レベルベクトルでも定めることができる。
【0024】図1の本発明の方法においては、音声信号
のマスキング特性、すなわちその音声信号がマスキング
することができる雑音のスペクトルが、その音声の構成
要素のマスキング特性に基づくとすることができること
が認識されている。例えば、音声のマスキング特性を定
めるために、第1の音声入力信号が、例えば複数のサブ
バンド(バンドパス)フィルタからなるフィルタバンク
を用いるなどしてサブバンド構成要素に分割される。
のマスキング特性、すなわちその音声信号がマスキング
することができる雑音のスペクトルが、その音声の構成
要素のマスキング特性に基づくとすることができること
が認識されている。例えば、音声のマスキング特性を定
めるために、第1の音声入力信号が、例えば複数のサブ
バンド(バンドパス)フィルタからなるフィルタバンク
を用いるなどしてサブバンド構成要素に分割される。
【0025】第1の実施例における第1の音声入力信号
によってマスキングすることができる雑音のスペクトル
を定めるために、その音声入力信号の各サブバンド構成
要素によってマスキングすることができる雑音のスペク
トルが定められ、それから全てのサブバンド構成要素の
スペクトルが組み合わされて、その第1の音声入力信号
についての雑音レベルベクトルが求められる。
によってマスキングすることができる雑音のスペクトル
を定めるために、その音声入力信号の各サブバンド構成
要素によってマスキングすることができる雑音のスペク
トルが定められ、それから全てのサブバンド構成要素の
スペクトルが組み合わされて、その第1の音声入力信号
についての雑音レベルベクトルが求められる。
【0026】別の実施例においては、各サブバンド構成
要素について、各サブバンドにおいてどれだけ多くの狭
帯域雑音をマスキングすることができるかを定めるため
の測定が行われる。この測定手順は、2個の入れ子状の
ステップからなる方法として要約できる。すなわち、各
音声サブバンドiについて、又各白色雑音サブバンドに
ついて、マスキング基準に合うように十分な雑音が付加
される点にサブバンドj中の雑音を調整する。この点に
おいて雑音対信号比を測定する。次のサブバンドjにつ
いて反復し、次のサブバンドiについて反復する。
要素について、各サブバンドにおいてどれだけ多くの狭
帯域雑音をマスキングすることができるかを定めるため
の測定が行われる。この測定手順は、2個の入れ子状の
ステップからなる方法として要約できる。すなわち、各
音声サブバンドiについて、又各白色雑音サブバンドに
ついて、マスキング基準に合うように十分な雑音が付加
される点にサブバンドj中の雑音を調整する。この点に
おいて雑音対信号比を測定する。次のサブバンドjにつ
いて反復し、次のサブバンドiについて反復する。
【0027】i及びjの各組み合せであるqi,j につい
ての雑音対信号比測定値は、帯域iにおける第1の音声
入力信号によってマスキングすることができる帯域jに
おける雑音パワーの比を表す。要素qi,j によって行列
Qが形成される。この行列Qの例を図2に示す。ここで
は便宜上、エントリをデシベルに変換してある。
ての雑音対信号比測定値は、帯域iにおける第1の音声
入力信号によってマスキングすることができる帯域jに
おける雑音パワーの比を表す。要素qi,j によって行列
Qが形成される。この行列Qの例を図2に示す。ここで
は便宜上、エントリをデシベルに変換してある。
【0028】図2の行列Qは、狭帯域音声によって狭帯
域雑音をマスキングした実験の結果を示す。横列の番号
は、雑音帯域に対応し、縦列の番号は音声帯域に対応す
る。各要素qi,j は、雑音がマスキングされるように帯
域jの雑音と帯域iの第1の音声入力信号との間に維持
することができる最大パワー比を表す。
域雑音をマスキングした実験の結果を示す。横列の番号
は、雑音帯域に対応し、縦列の番号は音声帯域に対応す
る。各要素qi,j は、雑音がマスキングされるように帯
域jの雑音と帯域iの第1の音声入力信号との間に維持
することができる最大パワー比を表す。
【0029】なお、全てのqi,j が連関する値を有する
わけではない。すなわち行列Q中の或るエントリは空白
である。その理由は、下で述べるように、一般に、雑音
レベルベクトルを定めるために行列Q中の各値をことご
とく定める必要がないためである。下で述べるように、
行列Q中のサブバンドは、帯域幅が一様ではない。すな
わち、各サブバンドの帯域幅は、周波数と共に増大す
る。
わけではない。すなわち行列Q中の或るエントリは空白
である。その理由は、下で述べるように、一般に、雑音
レベルベクトルを定めるために行列Q中の各値をことご
とく定める必要がないためである。下で述べるように、
行列Q中のサブバンドは、帯域幅が一様ではない。すな
わち、各サブバンドの帯域幅は、周波数と共に増大す
る。
【0030】例えば、下で表2に示すように、サブバン
ド1は、0〜80Hzの80Hzの周波数範囲に対応
し、サブバンド20は、6230〜7000Hzの77
0Hzの周波数範囲に対応する。
ド1は、0〜80Hzの80Hzの周波数範囲に対応
し、サブバンド20は、6230〜7000Hzの77
0Hzの周波数範囲に対応する。
【0031】もし第1の音声信号の入力フレ−ムの各サ
ブバンドのパワーが縦列ベクトル、
ブバンドのパワーが縦列ベクトル、
【数1】 として表される場合、雑音レベルベクトルdNLV は、行
列Qとベクトルpとに基づいて、dNLV =Qpとして求
められる。すなわち、図3に示すように、雑音レベルベ
クトルも縦列ベクトルで、n×n行列Qに、入力音声フ
レ−ムの各サブバンドのパワーの縦列nのベクトルを乗
じることによって求められる。
列Qとベクトルpとに基づいて、dNLV =Qpとして求
められる。すなわち、図3に示すように、雑音レベルベ
クトルも縦列ベクトルで、n×n行列Qに、入力音声フ
レ−ムの各サブバンドのパワーの縦列nのベクトルを乗
じることによって求められる。
【0032】いずれの実施例においても、各サブバンド
構成要素によってマスキングされる雑音のスペクトル又
は行列Qの要素のいずれかが、或る与えられた入力信号
について定められると、これらのスペクトル又は要素
は、その与えられた入力信号によってだけでなく他の入
力信号によってもマスキングすることができる雑音のス
ペクトルを定めるのに用いられる。
構成要素によってマスキングされる雑音のスペクトル又
は行列Qの要素のいずれかが、或る与えられた入力信号
について定められると、これらのスペクトル又は要素
は、その与えられた入力信号によってだけでなく他の入
力信号によってもマスキングすることができる雑音のス
ペクトルを定めるのに用いられる。
【0033】例えば、もし第2の入力信号の各サブバン
ドのパワーが縦列ベクトル、
ドのパワーが縦列ベクトル、
【数2】 である場合、雑音レベルベクトルは、入力信号によって
定まるQとベクトルp2とに基づいて、dNLV2 =Qp2
として求められる。
定まるQとベクトルp2とに基づいて、dNLV2 =Qp2
として求められる。
【0034】なお、各qi,j は、特定のマスキング特性
について定められたパワー比である。この定義は、固定
刺激(すなわち統計的特性が時間変換に対して不変であ
るような信号)については意味があるが、音声のような
動的刺激の場合には、レベルが急速に変化する信号に雑
音パワーを付加する際に注意を要する。
について定められたパワー比である。この定義は、固定
刺激(すなわち統計的特性が時間変換に対して不変であ
るような信号)については意味があるが、音声のような
動的刺激の場合には、レベルが急速に変化する信号に雑
音パワーを付加する際に注意を要する。
【0035】この場合には、この問題は、与えられたフ
レ−ム又はセグメント内では音声の雑音パワーに対する
比が予め定められた定数になるように雑音パワーレベル
が音声パワーレベルと共に変わる構成とすることにより
回避できるので有利である。いい替えれば、付加された
雑音レベルが、フレ−ム全域にわたって一定の信号対雑
音比(SN比)を得るために動的に調整される。
レ−ム又はセグメント内では音声の雑音パワーに対する
比が予め定められた定数になるように雑音パワーレベル
が音声パワーレベルと共に変わる構成とすることにより
回避できるので有利である。いい替えれば、付加された
雑音レベルが、フレ−ム全域にわたって一定の信号対雑
音比(SN比)を得るために動的に調整される。
【0036】したがって、1個の音声のサブバンド構成
要素と、もう1個の、すなわち雑音のサブバンド構成要
素との間のマスキング量の測定は、どのSN比の値がマ
スキング基準に合うかを定めるために、部分的な(セグ
メント化した)SN比(又はSN比セグメント)範囲を
有するバンドパス処理された音声フレ−ムの集合を聴取
することからなる。異なるフレ−ムサイズが、下で述べ
るように異なるサブバンドについて用いられるので有利
である。
要素と、もう1個の、すなわち雑音のサブバンド構成要
素との間のマスキング量の測定は、どのSN比の値がマ
スキング基準に合うかを定めるために、部分的な(セグ
メント化した)SN比(又はSN比セグメント)範囲を
有するバンドパス処理された音声フレ−ムの集合を聴取
することからなる。異なるフレ−ムサイズが、下で述べ
るように異なるサブバンドについて用いられるので有利
である。
【0037】上記の方法について下で更に詳細に説明す
る。ステップ140について必要な、信号構成要素のマ
スキング特性を定める方法についてまず説明し、その次
にステップ160における構成要素のマスキング特性を
組み合わせる方法について述べる。そして最後に、本発
明の方法の他の潜在的用法について簡単に述べて説明を
終る。
る。ステップ140について必要な、信号構成要素のマ
スキング特性を定める方法についてまず説明し、その次
にステップ160における構成要素のマスキング特性を
組み合わせる方法について述べる。そして最後に、本発
明の方法の他の潜在的用法について簡単に述べて説明を
終る。
【0038】より詳細な説明においては、まず、次のこ
とを仮定する。すなわち、入力音声信号s(n)がフィ
ルタバンクを介してN個のサブバンド s
1(n),...,sN(n) に分割されること及びマ
スキングされる雑音d(n)も同様にサブバンド構成要
素 d1(n),...,dN(n) に分割されることの
仮定である。各サブバンド対(i,j)について、dj
(n) とsi(n) との間の、雑音対信号比(NS
比)セグメントの最大値を測定する。
とを仮定する。すなわち、入力音声信号s(n)がフィ
ルタバンクを介してN個のサブバンド s
1(n),...,sN(n) に分割されること及びマ
スキングされる雑音d(n)も同様にサブバンド構成要
素 d1(n),...,dN(n) に分割されることの
仮定である。各サブバンド対(i,j)について、dj
(n) とsi(n) との間の、雑音対信号比(NS
比)セグメントの最大値を測定する。
【0039】この測定は、dj(n)+si(n)の組み
合せが、或る与えられたマスキングしきい値に合うよう
に、例えば、dj(n)+si(n)の組み合せが単独の
si(n)に対して聴覚的に区別がつかない(すなわ
ち、ちょうどひずみに気付くレベルに合う)ようにする
ためである。
合せが、或る与えられたマスキングしきい値に合うよう
に、例えば、dj(n)+si(n)の組み合せが単独の
si(n)に対して聴覚的に区別がつかない(すなわ
ち、ちょうどひずみに気付くレベルに合う)ようにする
ためである。
【0040】NS比を、従来のSN比の逆数として定義
する。すなわち次式が成立する。
する。すなわち次式が成立する。
【数3】 ここに、総和の上下限は現音声フレ−ムの範囲である。
【0041】音声及び雑音をサブバンドに分割するため
に、非均一の準臨界帯域幅フィルタバンクを設計する。
用語「準臨界」は、人の内耳迷路内の蝸牛が、各バンド
パスフィルタの帯域幅が臨界帯域幅と称されるようなバ
ンドパスフィルタの集合として表されるという認識にお
いて用いられるものである。文献(H. Fletcher, "Audi
tory Patterns," Rev. Mod. Phy., Vol. 12, pp. 47-6
5, 1940)を参照されたい。
に、非均一の準臨界帯域幅フィルタバンクを設計する。
用語「準臨界」は、人の内耳迷路内の蝸牛が、各バンド
パスフィルタの帯域幅が臨界帯域幅と称されるようなバ
ンドパスフィルタの集合として表されるという認識にお
いて用いられるものである。文献(H. Fletcher, "Audi
tory Patterns," Rev. Mod. Phy., Vol. 12, pp. 47-6
5, 1940)を参照されたい。
【0042】すなわち、フィルタバンク中のフィルタの
特性及びパラメータには、例えばフィルタバンク中のフ
ィルタの帯域幅を定める際のような聴覚的経験からの知
識が組み込まれる。なお、構成要素のマスキング特性の
ライブラリを形成するのに用いられるフィルタバンク
は、図1のステップ120において用いられるフィルタ
バンクと同じものにすると有利である。
特性及びパラメータには、例えばフィルタバンク中のフ
ィルタの帯域幅を定める際のような聴覚的経験からの知
識が組み込まれる。なお、構成要素のマスキング特性の
ライブラリを形成するのに用いられるフィルタバンク
は、図1のステップ120において用いられるフィルタ
バンクと同じものにすると有利である。
【0043】しかし、フィルタバンクサブバンドの或る
1セットについて得られた測定値を他のサブバンドにつ
いてのフィルタバンクに、より容易に適用可能にするた
めには、フィルタバンクに或る制約を設けるのが有利で
ある。詳しくは、次の通りである。
1セットについて得られた測定値を他のサブバンドにつ
いてのフィルタバンクに、より容易に適用可能にするた
めには、フィルタバンクに或る制約を設けるのが有利で
ある。詳しくは、次の通りである。
【0044】すなわち、より大きな減衰という名の下に
通過帯域リプルが顕著に犠牲とされることにはなるが、
各フィルタをできるだけ矩形にする必要がある。隣接フ
ィルタ間の重複については最小にする。したがって、実
験的に測定された蝸牛フィルタの応答が矩形ではなく、
又大幅に重複する傾向にあるという点では、このような
フィルタバンクは人の耳に完全に忠実ではない。
通過帯域リプルが顕著に犠牲とされることにはなるが、
各フィルタをできるだけ矩形にする必要がある。隣接フ
ィルタ間の重複については最小にする。したがって、実
験的に測定された蝸牛フィルタの応答が矩形ではなく、
又大幅に重複する傾向にあるという点では、このような
フィルタバンクは人の耳に完全に忠実ではない。
【0045】それにも拘らずこれらの条件が課される理
由は、究極の関心が符号化の問題にあるためで、(ほ
ぼ)直交のサブバンドでは、同じ情報を2回符号化する
ことが妨げられる。フィルタの合成応答は、ほぼ平坦な
周波数応答であることが必要である。
由は、究極の関心が符号化の問題にあるためで、(ほ
ぼ)直交のサブバンドでは、同じ情報を2回符号化する
ことが妨げられる。フィルタの合成応答は、ほぼ平坦な
周波数応答であることが必要である。
【0046】完全な再構築は必要ではないが、組み合わ
された出力は、知覚的に入力と区別がつかないようにす
るのが有利である。フィルタバンクのこの品質は、聴取
試験によって検証される。異なるグループ遅れに起因す
る可聴ひずみを避けるために、線形フェーズフィルタを
用いる。但し、順方向及び逆方向マスキングの非対称性
から、最小フェーズフィルタを用いるのが望ましい。
された出力は、知覚的に入力と区別がつかないようにす
るのが有利である。フィルタバンクのこの品質は、聴取
試験によって検証される。異なるグループ遅れに起因す
る可聴ひずみを避けるために、線形フェーズフィルタを
用いる。但し、順方向及び逆方向マスキングの非対称性
から、最小フェーズフィルタを用いるのが望ましい。
【0047】この最後の点を、音声信号が単一のスパイ
クからなる場合について説明する。線形フェーズフィル
タバンクの組み合せ出力はフィルタ長さの半分だけ遅れ
た同じスパイクから構成されるが、組み合わされた、フ
ィルタ処理された雑音はスパイクの前後において均一に
分散される。順方向のマスキングは逆方向マスキングよ
りも時間的にはるかに遠くまで延びるので、より多くの
雑音がスパイクの後ではなく前に来ることが望ましい。
これは、より複雑な最小フェーズフィルタを設計するこ
とによって達成される。
クからなる場合について説明する。線形フェーズフィル
タバンクの組み合せ出力はフィルタ長さの半分だけ遅れ
た同じスパイクから構成されるが、組み合わされた、フ
ィルタ処理された雑音はスパイクの前後において均一に
分散される。順方向のマスキングは逆方向マスキングよ
りも時間的にはるかに遠くまで延びるので、より多くの
雑音がスパイクの後ではなく前に来ることが望ましい。
これは、より複雑な最小フェーズフィルタを設計するこ
とによって達成される。
【0048】蝸牛の、Qが一定の、臨界帯域幅特性をモ
デリングするために、次の制約を課すことも有利であ
る。すなわち、合計サブバンド数をN=20とする。こ
の数は、前の実験的方法に見出されるように、0〜7K
Hzの間の臨界帯域の数に概略的に対応する。帯域幅
は、幾何級数的に増加する。
デリングするために、次の制約を課すことも有利であ
る。すなわち、合計サブバンド数をN=20とする。こ
の数は、前の実験的方法に見出されるように、0〜7K
Hzの間の臨界帯域の数に概略的に対応する。帯域幅
は、幾何級数的に増加する。
【0049】第1の帯域が周波数[0,a]の範囲にま
たがるものとし、互いに前後する帯域幅間の比をbとす
ると、これら最後の2つの条件は、次の式に集約でき
る。 f20=a(b20−1)/(b−1) ここに、f20は含めるべき最高周波数データ、音声の場
合には一般に7KHzである。第1の臨界帯域の、前の
測定値に対応して、a=100と設定して、ニュートン
の反復近似化手法を用いてbの値が解かれる。それから
このbの値を用いて、表1に示すような、理想的な帯域
縁セットが生成される。
たがるものとし、互いに前後する帯域幅間の比をbとす
ると、これら最後の2つの条件は、次の式に集約でき
る。 f20=a(b20−1)/(b−1) ここに、f20は含めるべき最高周波数データ、音声の場
合には一般に7KHzである。第1の臨界帯域の、前の
測定値に対応して、a=100と設定して、ニュートン
の反復近似化手法を用いてbの値が解かれる。それから
このbの値を用いて、表1に示すような、理想的な帯域
縁セットが生成される。
【表1】
【0050】これらの理想的な帯域縁を出発点として、
フィルタが設計される。本発明の一実施例においては、
周知のレメス交換アルゴリズムを用いる、20個の51
2ポイント最小最大最適フィルタが設計された。表2
は、各フィルタのパラメータを記載したものである。一
般に、合成フィルタバンク応答がより平坦であるよう
に、しかしフィルタバンクの組み合せ出力が入力と同一
に聞こえるように、帯域縁を調整する必要がある。
フィルタが設計される。本発明の一実施例においては、
周知のレメス交換アルゴリズムを用いる、20個の51
2ポイント最小最大最適フィルタが設計された。表2
は、各フィルタのパラメータを記載したものである。一
般に、合成フィルタバンク応答がより平坦であるよう
に、しかしフィルタバンクの組み合せ出力が入力と同一
に聞こえるように、帯域縁を調整する必要がある。
【表2】
【0051】人の蝸牛はより高い周波数において時間分
解能が増加することが判っているので、各帯域について
のフレ−ムサイズは、帯域フィルタのインパルス応答の
長さに応じて選択するので有利である。より高い帯域で
は、インパルス応答のエネルギーは、時間的に、より集
中し、より小さなフレ−ムサイズが選択されるようにな
る。表3は、雑音帯域番号とフレ−ムサイズとの関係を
示す。
解能が増加することが判っているので、各帯域について
のフレ−ムサイズは、帯域フィルタのインパルス応答の
長さに応じて選択するので有利である。より高い帯域で
は、インパルス応答のエネルギーは、時間的に、より集
中し、より小さなフレ−ムサイズが選択されるようにな
る。表3は、雑音帯域番号とフレ−ムサイズとの関係を
示す。
【表3】
【0052】刺激レベルに対するマスキングの依存が周
知であるにも拘らず、実験中に音の大きさ(ラウドネ
ス)について細かい制約を課す必要は一般にない。実際
の音声符号器の通常の動作条件下でマスキング効果を測
定することで、普通は十分である。
知であるにも拘らず、実験中に音の大きさ(ラウドネ
ス)について細かい制約を課す必要は一般にない。実際
の音声符号器の通常の動作条件下でマスキング効果を測
定することで、普通は十分である。
【0053】したがって、音量調整は、全帯域幅の音声
の聴取に快適なレベルに設定し、全帯域幅を構成するサ
ブバンドの聴取の際もそのままにしておく。その結果、
全帯域幅音声信号の場合よりもはるかに静かに聞こえる
ことになる。聴取試験は、両方の耳に同じ信号が供給さ
れるようにヘッドホンを用いて防音室で行うのが有利で
ある。
の聴取に快適なレベルに設定し、全帯域幅を構成するサ
ブバンドの聴取の際もそのままにしておく。その結果、
全帯域幅音声信号の場合よりもはるかに静かに聞こえる
ことになる。聴取試験は、両方の耳に同じ信号が供給さ
れるようにヘッドホンを用いて防音室で行うのが有利で
ある。
【0054】上に述べたように、雑音のレベルは、一定
のローカルNS比qijを維持するために、個々のフレ−
ムごとに調整する必要がある。図5は、図4のシステム
によって行われるステップを説明する流れ図である。図
4のシステムの動作をステップごとに下に述べる。
のローカルNS比qijを維持するために、個々のフレ−
ムごとに調整する必要がある。図5は、図4のシステム
によって行われるステップを説明する流れ図である。図
4のシステムの動作をステップごとに下に述べる。
【0055】[単位分散雑音フレ−ムを生成する]:ス
テップ405において、単位分散ガウス雑音生成装置3
05を用いてu(n)が生成される。それから、この値
が次式に従って、スケーリングされる。
テップ405において、単位分散ガウス雑音生成装置3
05を用いてu(n)が生成される。それから、この値
が次式に従って、スケーリングされる。
【数4】 ここに、Nはフレ−ムサイズ、mは、m=0から始まる
現フレ−ムの数である。これによって、単位分散雑音が
個々のフレ−ムごとに定まる。
現フレ−ムの数である。これによって、単位分散雑音が
個々のフレ−ムごとに定まる。
【0056】[音声をフィルタ処理する]:ステップ4
10において、現音声フレ−ムを入力する。ステップ4
15において、音声がフィルタバンクの「フィルタj」
315を通してフィルタ処理され、sj(n) が生成さ
れる。
10において、現音声フレ−ムを入力する。ステップ4
15において、音声がフィルタバンクの「フィルタj」
315を通してフィルタ処理され、sj(n) が生成さ
れる。
【0057】[バンドパス音声のエネルギーを測定す
る]:それから「フィルタj」315の出力が、遅れ装
置317を通して送られる。この遅れによって、図4の
システムが、下で述べるように、一定のローカルNS比
を維持するために、先取り(ルックアヘッド)すること
が可能となる。
る]:それから「フィルタj」315の出力が、遅れ装
置317を通して送られる。この遅れによって、図4の
システムが、下で述べるように、一定のローカルNS比
を維持するために、先取り(ルックアヘッド)すること
が可能となる。
【0058】どれだけの雑音をこのフレ−ムに注入する
かを計算するために、ステップ420において、この音
声のエネルギーpj が、エネルギー測定装置320を用
いて次式によって計算される。
かを計算するために、ステップ420において、この音
声のエネルギーpj が、エネルギー測定装置320を用
いて次式によって計算される。
【数5】 ここに、Lは、遅れ量である。
【0059】[バンドパス音声のルックアヘッドエネル
ギーを測定する]:フィルタバンクによって課される本
来の遅れから、フィルタ入力における雑音レベルの調整
は、出力においてすぐにはレジスタされない。したがっ
て、現在の雑音レベルの調整の仕方を決定するのを助け
るために、音声パワーの測定が必要である。
ギーを測定する]:フィルタバンクによって課される本
来の遅れから、フィルタ入力における雑音レベルの調整
は、出力においてすぐにはレジスタされない。したがっ
て、現在の雑音レベルの調整の仕方を決定するのを助け
るために、音声パワーの測定が必要である。
【0060】ルックアヘッドエネルギー(pj の上に山
形をつけた符号で表示)については、sj(n) の1個
のフレ−ムのエネルギーとして、次式により定義され
る。
形をつけた符号で表示)については、sj(n) の1個
のフレ−ムのエネルギーとして、次式により定義され
る。
【数6】 一般に、L=320のサンプルが512ポイントフィル
タについて最良の結果をもたらす。なお、この問題は、
もしフィルタが線形フェーズでなく最小フェーズである
とした場合には、解決が更に容易となる。
タについて最良の結果をもたらす。なお、この問題は、
もしフィルタが線形フェーズでなく最小フェーズである
とした場合には、解決が更に容易となる。
【0061】[望む狭帯域雑音パワーを計算する]:ス
テップ430において、適応制御装置330で、望むN
S比qijを音声パワーに乗じて、望む雑音パワーΔ(次
式)を生成する。 Δ=piqij
テップ430において、適応制御装置330で、望むN
S比qijを音声パワーに乗じて、望む雑音パワーΔ(次
式)を生成する。 Δ=piqij
【0062】[必要とされる広帯域雑音パワーを計算す
る]:フィルタ出力において望む雑音パワーの近似値を
得るためには、帯域幅ωiHz のフィルタについて、フ
ィルタ処理された単位分散雑音がωi/Sの分散を有す
る必要があることを注記したい。ここに、Sはナイキス
ト周波数である。したがって、フィルタ出力において望
む雑音パワーΔを達成しようと試みる際に線形性が利用
される。
る]:フィルタ出力において望む雑音パワーの近似値を
得るためには、帯域幅ωiHz のフィルタについて、フ
ィルタ処理された単位分散雑音がωi/Sの分散を有す
る必要があることを注記したい。ここに、Sはナイキス
ト周波数である。したがって、フィルタ出力において望
む雑音パワーΔを達成しようと試みる際に線形性が利用
される。
【0063】上に述べたフィルタ遅れから、Δを計算す
るために現フレ−ムにおいて音声パワーを用いる代わり
に、望むルックアヘッド雑音エネルギー(Δの上に山形
をつけた符号で表示)が、次式により定義される。
るために現フレ−ムにおいて音声パワーを用いる代わり
に、望むルックアヘッド雑音エネルギー(Δの上に山形
をつけた符号で表示)が、次式により定義される。
【数7】
【0064】それから、次式で示されるルックアヘッド
エネルギーを達成しようと試みるために、雑音が、前調
整装置340においてスケーリングされる。
エネルギーを達成しようと試みるために、雑音が、前調
整装置340においてスケーリングされる。
【数8】
【0065】[調整された雑音をフィルタ処理する]:
調整された雑音e(n)がフィルタ350を用いて帯域
iを通してフィルタ処理されて、ei(n) が生成さ
れ、それから、雑音が再び入力音声フレ−ムと同期する
ように遅れ装置355に供給される。
調整された雑音e(n)がフィルタ350を用いて帯域
iを通してフィルタ処理されて、ei(n) が生成さ
れ、それから、雑音が再び入力音声フレ−ムと同期する
ように遅れ装置355に供給される。
【0066】[バンドパス雑音のエネルギーを測定す
る]:次に、次式に示す実際のバンドパス雑音パワーd
i を測定装置360において測定する。
る]:次に、次式に示す実際のバンドパス雑音パワーd
i を測定装置360において測定する。
【数9】
【0067】[雑音を微調整する]:望むNS比を正確
に達成できるように、雑音を調整するために、乗算器3
80においてフィルタ出力における時間変動する利得g
i を供給する。雑音スペクトルが損傷を受けるスミアリ
ング現象を最小にするために、gi が次式を取るように
円滑に変化させるのが有利である。
に達成できるように、雑音を調整するために、乗算器3
80においてフィルタ出力における時間変動する利得g
i を供給する。雑音スペクトルが損傷を受けるスミアリ
ング現象を最小にするために、gi が次式を取るように
円滑に変化させるのが有利である。
【数10】 ここに、Aは前のフレ−ムからのgi の最終値、Wはス
ムージング・ウインドウの長さ(ハン・ウインドウの半
分と考えてよい)、そしてBはgi の最終値である。
ムージング・ウインドウの長さ(ハン・ウインドウの半
分と考えてよい)、そしてBはgi の最終値である。
【0068】したがって、A及びWが与えられると、次
式のようにして、Bについて解くことが可能である。
式のようにして、Bについて解くことが可能である。
【数11】
【0069】gi はBにおいて線形データあるため、上
の式は次式の形の2次式となる。
の式は次式の形の2次式となる。
【数12】
【0070】したがって、長いウインドウを用いる円滑
な遷移と、短いウインドウを用いる、望む雑音レベルへ
の簡明直截な変化との間で妥協が必要となる。ウインド
ウを短くし過ぎると、バンドパス雑音のスペクトルが損
傷を受けることになる。これは一般に、きわめて目立つ
効果で、マスキングパワーの重大な過小評価につなが
る。しかし、ウインドウを長くし過ぎると、雑音レベル
が音声よりも遅れるときに現れる、より微かなクリック
音につながる。これらのことから、初期値として、W=
N/2が選択された。
な遷移と、短いウインドウを用いる、望む雑音レベルへ
の簡明直截な変化との間で妥協が必要となる。ウインド
ウを短くし過ぎると、バンドパス雑音のスペクトルが損
傷を受けることになる。これは一般に、きわめて目立つ
効果で、マスキングパワーの重大な過小評価につなが
る。しかし、ウインドウを長くし過ぎると、雑音レベル
が音声よりも遅れるときに現れる、より微かなクリック
音につながる。これらのことから、初期値として、W=
N/2が選択された。
【0071】Bについての2次式は通常2個の実数解を
有する。利得の急激な変化を避けてスペクトルの損傷を
減少させるために、一般に、|A−B|を最小にする解
が選択された。
有する。利得の急激な変化を避けてスペクトルの損傷を
減少させるために、一般に、|A−B|を最小にする解
が選択された。
【0072】しかし、時には実数解のない場合がある。
これは、大きな音のフレ−ムから小さな音のフレ−ムへ
の移行する過渡期に生じる。その場合、利得の減少が、
フレ−ム全体について望まれる雑音よりも多くの雑音が
フレ−ムの初めに含まれるという影響が徐々に出たもの
である。このような場合には、正確な解の発見が許され
る範囲で可能最長ウインドウが見出されるまでWが減値
された。
これは、大きな音のフレ−ムから小さな音のフレ−ムへ
の移行する過渡期に生じる。その場合、利得の減少が、
フレ−ム全体について望まれる雑音よりも多くの雑音が
フレ−ムの初めに含まれるという影響が徐々に出たもの
である。このような場合には、正確な解の発見が許され
る範囲で可能最長ウインドウが見出されるまでWが減値
された。
【0073】まれな場合にこの探索がW=0につながる
ことがあるが、これは、音声と雑音との両方が聴取のし
きい値よりも低いような非常にソフトな通過の際だけで
ある。W=0の場合には、gi は次式の形を取る。
ことがあるが、これは、音声と雑音との両方が聴取のし
きい値よりも低いような非常にソフトな通過の際だけで
ある。W=0の場合には、gi は次式の形を取る。
【数13】
【0074】サブバンドが20個あるため、潜在的には
iとjとの400個の組み合せを測定する必要がある。
しかし一般には個々の特定の(i,j)の組み合せの全
てについて実験を行う必要はない。その理由はマスキン
グが、信号構成要素とマスキングされる雑音とが周波数
的にいかに近接しているかに依存するからである。
iとjとの400個の組み合せを測定する必要がある。
しかし一般には個々の特定の(i,j)の組み合せの全
てについて実験を行う必要はない。その理由はマスキン
グが、信号構成要素とマスキングされる雑音とが周波数
的にいかに近接しているかに依存するからである。
【0075】したがって、測定値は一般に、|i−j|
≦2であるようなi及びjについて採取する必要があ
る。|i−j|>2であるようなqi,j についての値は
一般に、0、すなわち、マスキングが時に3個の帯域に
延びるような小さな値のi及びjの場合を除き、マスキ
ングが生じない、と仮定できる。
≦2であるようなi及びjについて採取する必要があ
る。|i−j|>2であるようなqi,j についての値は
一般に、0、すなわち、マスキングが時に3個の帯域に
延びるような小さな値のi及びjの場合を除き、マスキ
ングが生じない、と仮定できる。
【0076】音声信号についての雑音レベルベクトル、
すなわち入力信号によってマスキングされる雑音のスペ
クトルが、3段階のプロセスによって計算されるという
ことを前に述べた。それらのうち、音声がそれを構成す
る臨界帯域によって最もよく解析できることと、各帯域
のマスキング特性を定めることとについては既に説明し
た。そして、ここでは、プロセスの第3段階として、雑
音レベルベクトルを形成するための、サブバンドのマス
キング特性の重ね合わせについて説明する。
すなわち入力信号によってマスキングされる雑音のスペ
クトルが、3段階のプロセスによって計算されるという
ことを前に述べた。それらのうち、音声がそれを構成す
る臨界帯域によって最もよく解析できることと、各帯域
のマスキング特性を定めることとについては既に説明し
た。そして、ここでは、プロセスの第3段階として、雑
音レベルベクトルを形成するための、サブバンドのマス
キング特性の重ね合わせについて説明する。
【0077】音声パワーのベクトルp=
(p1,...,p20) が与えられ、pi が現フレ−ム
の帯域iの音声パワーに対応するとした場合に、雑音レ
ベルベクトルd=(d1,...,d20) は、これらの
レベル以下で付加された雑音がマスキングしきい値を超
えないように定めることができる。
(p1,...,p20) が与えられ、pi が現フレ−ム
の帯域iの音声パワーに対応するとした場合に、雑音レ
ベルベクトルd=(d1,...,d20) は、これらの
レベル以下で付加された雑音がマスキングしきい値を超
えないように定めることができる。
【0078】この計算は、2個以上のマスキング構成要
素のマスキング効果の付加の仕方についての知識を必要
とする。この効果は単純な組み合せ付加で、正式に表現
すれば次のようになる。
素のマスキング効果の付加の仕方についての知識を必要
とする。この効果は単純な組み合せ付加で、正式に表現
すれば次のようになる。
【0079】[雑音パワーの線形重ね合わせ]:もし信
号Sが雑音パワーベクトルd=(d1,...,d20)T
をマスキングする場合、すなわちdj が現フレ−ムの
帯域jの雑音のパワーであり、Tが置き換えを表し、S
と相関関係にないS’が雑音パワーベクトルd'=(d'
1,...,d'20)T をマスキングする場合、組み合わ
された信号S+S’は、次式で表される雑音パワーベク
トルをマスキングすることになる。 d+d'=(d1+d'1,...,d20+d'20)T
号Sが雑音パワーベクトルd=(d1,...,d20)T
をマスキングする場合、すなわちdj が現フレ−ムの
帯域jの雑音のパワーであり、Tが置き換えを表し、S
と相関関係にないS’が雑音パワーベクトルd'=(d'
1,...,d'20)T をマスキングする場合、組み合わ
された信号S+S’は、次式で表される雑音パワーベク
トルをマスキングすることになる。 d+d'=(d1+d'1,...,d20+d'20)T
【0080】単純な付加が非線形重ね合わせ法則の代わ
りに有利に用いられる。その理由は、これが一般に、信
号のマスキング特性の、より保守的な予測につながるか
らである。
りに有利に用いられる。その理由は、これが一般に、信
号のマスキング特性の、より保守的な予測につながるか
らである。
【0081】なお、概して、重ね合わせの考えは、フィ
ルタバンクの互いに続く帯域が重ならず、したがって1
個の帯域の雑音レベルが他の帯域のレベルに影響を与え
ずに調整でき、又したがって音声が相関関係のないサブ
バンドに分解できる、という仮定に基づいている。した
がって、フィルタバンクにおける、高次でほぼ矩形のフ
ィルタが用いられた。
ルタバンクの互いに続く帯域が重ならず、したがって1
個の帯域の雑音レベルが他の帯域のレベルに影響を与え
ずに調整でき、又したがって音声が相関関係のないサブ
バンドに分解できる、という仮定に基づいている。した
がって、フィルタバンクにおける、高次でほぼ矩形のフ
ィルタが用いられた。
【0082】したがって、もし各音声帯域i=
1,...,20についてマスキング特性、di が知ら
れている場合、雑音レベルベクトルの全体スペクトルd
NLV は与えられたフレ−ムに見出すことができる。この
場合、雑音パワーの単純和は次式で得られる。
1,...,20についてマスキング特性、di が知ら
れている場合、雑音レベルベクトルの全体スペクトルd
NLV は与えられたフレ−ムに見出すことができる。この
場合、雑音パワーの単純和は次式で得られる。
【数14】 音声帯域iについてのマスキングされた雑音ベクトルd
i を求めるには、測定されたしきい値NS比qijを用い
る。音声パワーpi と音声の雑音パワーに対する最小比
qijとが知られているので、qij行列の1個の縦列を用
いる帯域1〜20の最大のマスキングされたパワーは、
次式で計算できる。
i を求めるには、測定されたしきい値NS比qijを用い
る。音声パワーpi と音声の雑音パワーに対する最小比
qijとが知られているので、qij行列の1個の縦列を用
いる帯域1〜20の最大のマスキングされたパワーは、
次式で計算できる。
【数15】 いい替えれば、各帯域の雑音パワーしきい値は、信号パ
ワーとNS比のしきい値との積に等しい。
ワーとNS比のしきい値との積に等しい。
【0083】式(4.2)と式(4.3)とを組み合わ
せて、1個の行列式として要約すると次式となる。 dNLV=Qp (4.4) ここに、Q={qij}(qijが測定されなかった場合、
ゼロ・マスキング、qij=0と仮定する)。
せて、1個の行列式として要約すると次式となる。 dNLV=Qp (4.4) ここに、Q={qij}(qijが測定されなかった場合、
ゼロ・マスキング、qij=0と仮定する)。
【0084】したがって、式(4.4)は、与えられた
音声フレ−ムについての雑音レベルベクトルが、音声フ
レ−ムの入力パワーと、マスキング行列Qによって表さ
れる音声のマスキング特性とに基づいて、どのように定
められるかについて述べている。
音声フレ−ムについての雑音レベルベクトルが、音声フ
レ−ムの入力パワーと、マスキング行列Qによって表さ
れる音声のマスキング特性とに基づいて、どのように定
められるかについて述べている。
【0085】上記の方法は、人の聴覚システムにおける
マスキング効果に関する新たな知識をすぐに取り入れら
れるという点で柔軟性がある。例えば、線形重ね合わせ
の法則は、将来の聴覚実験に基づいてより複雑な関数に
容易に変更することができる。その上、行列Q中の値は
固定する必要がない。マスキング特性が高音量レベルに
おいて変わることが示されたので、行列中の各要素は、
例えばラウドネスに適応できる。又、現音声フレ−ムが
有声音の音声からなるか又は無声音の音声からなるかに
依って異なる行列Qを用いることが容易である。
マスキング効果に関する新たな知識をすぐに取り入れら
れるという点で柔軟性がある。例えば、線形重ね合わせ
の法則は、将来の聴覚実験に基づいてより複雑な関数に
容易に変更することができる。その上、行列Q中の値は
固定する必要がない。マスキング特性が高音量レベルに
おいて変わることが示されたので、行列中の各要素は、
例えばラウドネスに適応できる。又、現音声フレ−ムが
有声音の音声からなるか又は無声音の音声からなるかに
依って異なる行列Qを用いることが容易である。
【0086】以上の説明においては、音声信号の構成要
素のマスキング特性を測定する方法及び音声信号のマス
キングしきい値を定める方法について述べた。又、特定
のハードウエア又はソフトウエアに言及せずに、代わり
に当業者がその利用可能な又は望ましいハードウエア及
びソフトウエアを容易に適応できるような仕方で説明し
た。
素のマスキング特性を測定する方法及び音声信号のマス
キングしきい値を定める方法について述べた。又、特定
のハードウエア又はソフトウエアに言及せずに、代わり
に当業者がその利用可能な又は望ましいハードウエア及
びソフトウエアを容易に適応できるような仕方で説明し
た。
【0087】以上の説明は、本発明の一実施例に関する
もので、この技術分野の当業者であれば、本発明の種々
の変形例を考え得るが、それらはいずれも本発明の技術
的範囲に包含される。
もので、この技術分野の当業者であれば、本発明の種々
の変形例を考え得るが、それらはいずれも本発明の技術
的範囲に包含される。
【0088】
【発明の効果】以上述べたごとく本発明によれば、例え
ばフィルタバンクによるなどして広帯域音声などの音声
をサブバンド構成要素セットに分解し、音声信号のマス
キング特性をそのサブバンド構成要素のマスキング特性
から定めるようにしたので、複雑な信号のマスキング特
性を容易に測定することができ、選択されたマスキング
基準に基づいて、許容可能な雑音のレベルを容易に定め
ることが可能となる。
ばフィルタバンクによるなどして広帯域音声などの音声
をサブバンド構成要素セットに分解し、音声信号のマス
キング特性をそのサブバンド構成要素のマスキング特性
から定めるようにしたので、複雑な信号のマスキング特
性を容易に測定することができ、選択されたマスキング
基準に基づいて、許容可能な雑音のレベルを容易に定め
ることが可能となる。
【0089】そのため、従来技術で問題とされた広帯域
音声を用いるた通信における雑音のマスキングが容易と
なり、電話等の音声による情報伝送の効率が改善され
る。
音声を用いるた通信における雑音のマスキングが容易と
なり、電話等の音声による情報伝送の効率が改善され
る。
【図1】音声信号の雑音レベルベクトルを定めるための
本発明の方法を説明する流れ図である。
本発明の方法を説明する流れ図である。
【図2】マスキング行列Qの要素qi,j を示す説明表で
ある。
ある。
【図3】雑音レベルベクトルの要素を示す行列式であ
る。
る。
【図4】本発明の方法においてマスキング行列Q内の要
素qi,j の値を定めるためのシステムを示す説明図であ
る。
素qi,j の値を定めるためのシステムを示す説明図であ
る。
【図5】本発明の方法においてマスキング行列Q内の要
素qi,j の値を定めるためのプロセスを示す流れ図であ
る。
素qi,j の値を定めるためのプロセスを示す流れ図であ
る。
305 単位分散ガウス雑音生成装置 315、350 フィルタj 317、355 遅れ装置 320 エネルギー測定装置 330 適応制御装置 340 前調整装置 360 測定装置 380 乗算器
───────────────────────────────────────────────────── フロントページの続き (72)発明者 カシミール ウェイアージンスキー アメリカ合衆国,10013 ニューヨーク, ニューヨーク,ナンバー22シー,ブロード ウェイ 376
Claims (22)
- 【請求項1】 信号によってマスキングすることができ
る雑音パワースペクトルを定める、音声マスキング特性
測定方法であって、 前記信号を、サブバンド信号構成要素セットに分離する
ステップと、 前記サブバンド信号構成要素セット中の各サブバンド信
号構成要素によってマスキングすることができる雑音パ
ワースペクトルを特定するステップと、 前記信号によってマスキングすることができる前記雑音
パワースペクトルを産出するために、前記各サブバンド
信号構成要素によってマスキングされる前記特定された
雑音パワースペクトルを組み合わせるステップと、から
なることを特徴とする、音声マスキング特性測定方法。 - 【請求項2】 前記方法において、 前記分離するステップが、 前記信号をフィルタセットからなるフィルタバンクに供
給するステップからなり、該フィルタセット中の各フィ
ルタの出力が前記信号のサブバンド信号構成要素であ
る、ようにしたことを特徴とする請求項1の方法。 - 【請求項3】 前記方法において、 前記組み合わせるステップが、 前記信号によってマスキングされる前記雑音パワースペ
クトルを産出するために前記各サブバンド信号構成要素
によってマスキングされる前記雑音パワースペクトルを
付加するステップ、からなるようにしたことを特徴とす
る請求項1の方法。 - 【請求項4】 前記方法において、 前記信号が広帯域音声であるようにしたことを特徴とす
る請求項1の方法。 - 【請求項5】 入力信号を、サブバンド信号構成要素セ
ットに分離するステップと、 前記サブバンド信号構成要素セット中の各サブバンド信
号構成要素のパワーとマスキング行列Qとに基づいて出
力信号を生成するステップと、からなることを特徴とす
る、マスキングされた信号を生成する方法。 - 【請求項6】 前記方法において、 前記マスキング行列Qがn×n行列であり、前記マスキ
ング行列Qの各要素qi,j が、マスキングすることがで
きる帯域j中の雑音パワーの、帯域i中の前記サブバン
ド信号構成要素のパワーに対する比率である、ようにし
たことを特徴とする請求項5の方法。 - 【請求項7】 前記方法において、 前記入力信号が、音声信号である、ようにしたことを特
徴とする請求項5の方法。 - 【請求項8】 前記方法において、 前記分離するステップが、 前記入力信号をフィルタセットからなるフィルタバンク
に供給するステップからなり、該フィルタセット中の各
フィルタの出力が前記入力信号のサブバンド信号構成要
素である、ようにしたことを特徴とする請求項5の方
法。 - 【請求項9】 入力信号を、各々がパワーレベルによっ
て特徴づけられるn個のサブバンド信号構成要素からな
るサブバンド信号構成要素セットに分離するステップ
と、 n個のサブバンド雑音構成要素からなるサブバンド雑音
構成要素セットを生成するステップと、 1個のサブバンド信号構成要素i(i=1,2,...
n)と1個のサブバンド雑音構成要素j(j=1,
2,...n)との組み合せについて、i番目の前記サ
ブバンド信号構成要素によってマスキングすることがで
きるj番目のサブバンド雑音構成要素中のパワーレベル
の、i番目の前記サブバンド信号構成要素のパワーに対
する比率を測定するステップと、からなることを特徴と
するサブバンド信号対雑音パワーレベル比率測定方法。 - 【請求項10】 前記方法において、 前記各サブバンド信号構成要素によってマスキングする
ことができる前記各サブバンド雑音構成要素のパワーレ
ベルが、マスキング基準に基づいて定められるようにし
たことを特徴とする請求項9の方法。 - 【請求項11】 前記方法において、 前記マスキング基準が、ちょうどひずみに気付くレベル
であるようにしたことを特徴とする請求項10の方法。 - 【請求項12】 前記方法において、 前記マスキング基準が、可聴であるがうるさくないレベ
ルであるようにしたことを特徴とする請求項10の方
法。 - 【請求項13】 前記方法において、 前記分離するステップが、 前記信号を、n個のフィルタを有する第1のフィルタセ
ットからなる第1のフィルタバンクに供給するステップ
からなり、該第1のフィルタバンク中の該第1のフィル
タセットの出力が前記n個のサブバンド信号構成要素か
らなる前記サブバンド信号構成要素セットである、よう
にしたことを特徴とする請求項9の方法。 - 【請求項14】 前記方法において、 前記生成するステップが、広帯域雑音を、第2のフィル
タセットからなり前記第1のフィルタバンクと同じフィ
ルタ特性を有する、第2のフィルタバンクに供給するス
テップからなり、該第2のフィルタバンク中の該第2の
フィルタセットの出力が前記n個のサブバンド雑音構成
要素からなる前記サブバンド雑音構成要素セットであ
る、ようにしたことを特徴とする請求項13の方法。 - 【請求項15】 前記方法において、 前記測定された比率がマスキング行列Qの要素qi,j で
あるようにしたことを特徴とする請求項10の方法。 - 【請求項16】 前記方法が更に、 前記信号によってマスキングすることができる前記雑音
パワースペクトルを産出するために、前記マスキング行
列にベクトルpを乗じるステップからなり、該ベクトル
pの成分pi が入力信号の各サブバンド信号構成要素に
おけるパワーである、ようにしたことを特徴とする請求
項15の方法。 - 【請求項17】 フィルタ処理された音声フレ−ムによ
ってマスキングすることができるフィルタ処理された雑
音のパワーを定める、雑音パワー決定方法であって、 前記フィルタ処理された音声フレ−ムを、指定された時
間だけ遅らせるステップと、 前記フィルタ処理された音声フレ−ムのパワーを定める
ステップと、 前記フィルタ処理された雑音のパワーを測定するステッ
プと、 前記フィルタ処理された雑音を、前記指定された時間だ
け、遅らせるステップと、 前記フィルタ処理された音声フレ−ムによってマスキン
グされる前記フィルタ処理された雑音のパワーを産出す
るために、前記フィルタ処理された雑音のパワーを、前
記フィルタ処理された音声フレ−ムと望ましい雑音対信
号比との関数として調整するステップと、からなること
を特徴とする、雑音パワー決定方法。 - 【請求項18】 前記方法が更に、 前記望ましい雑音対信号比を達成するように、利得信号
を前記フィルタ処理された雑音に乗じるステップからな
るようにしたことを特徴とする請求項17の方法。 - 【請求項19】 前記方法において、 前記指定された時間が前記第1のフィルタのインパクト
応答の関数であるようにしたことを特徴とする請求項1
7の方法。 - 【請求項20】 前記方法において、 前記望ましい雑音対信号比が、マスキング基準に基づい
て定められるようにしたことを特徴とする請求項17の
方法。 - 【請求項21】 前記方法において、 単位分散を有する雑音を生成するステップと、 前記フィルタ処理された雑音を生成するために、前記雑
音を第2のフィルタに供給するステップと、からなるよ
うにしたことを特徴とする請求項17の方法。 - 【請求項22】 入力音声信号を、n個のフィルタを有
するフィルタセットからなるフィルタバンクであって各
該フィルタの出力が該入力信号のn個のサブバンド信号
構成要素からなるサブバンド信号構成要素セット中のそ
れぞれのサブバンド信号構成要素であるようなフィルタ
バンク、に供給するステップと、 マスキング行列Qとベクトルpとの積に基づき出力信号
を生成するステップであって、該マスキング行列Qがn
×n行列であり、その各要素qi,j が、帯域i中の前記
サブバンド信号構成要素によってマスキングすることが
できる帯域j中の雑音のパワーレベルの、帯域i中の前
記サブバンド信号構成要素のパワーレベルに対する比率
であり、該ベクトルpが長さnのベクトルであり、その
各成分pi がi番目のサブバンド信号構成要素であるよ
うな、ステップと、からなることを特徴とする、音声マ
スキング出力生成方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US36737194A | 1994-12-30 | 1994-12-30 | |
US367371 | 1994-12-30 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH08272391A true JPH08272391A (ja) | 1996-10-18 |
Family
ID=23446902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP6096A Pending JPH08272391A (ja) | 1994-12-30 | 1996-01-04 | 音声マスキング特性測定方法 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP0720146A1 (ja) |
JP (1) | JPH08272391A (ja) |
CA (1) | CA2165352A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030120484A1 (en) * | 2001-06-12 | 2003-06-26 | David Wong | Method and system for generating colored comfort noise in the absence of silence insertion description packets |
US10224017B2 (en) * | 2017-04-26 | 2019-03-05 | Ford Global Technologies, Llc | Active sound desensitization to tonal noise in a vehicle |
CN107942152A (zh) * | 2017-11-15 | 2018-04-20 | 中国电子科技集团公司第四十研究所 | 一种微波射频前端的噪声测量装置及测量方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB8608288D0 (en) * | 1986-04-04 | 1986-05-08 | Pa Consulting Services | Noise compensation in speech recognition |
GB8608289D0 (en) * | 1986-04-04 | 1986-05-08 | Pa Consulting Services | Noise compensation in speech recognition |
JPH0743598B2 (ja) * | 1992-06-25 | 1995-05-15 | 株式会社エイ・ティ・アール視聴覚機構研究所 | 音声認識方法 |
-
1995
- 1995-12-12 EP EP95309003A patent/EP0720146A1/en not_active Withdrawn
- 1995-12-15 CA CA 2165352 patent/CA2165352A1/en not_active Abandoned
-
1996
- 1996-01-04 JP JP6096A patent/JPH08272391A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
CA2165352A1 (en) | 1996-07-01 |
EP0720146A1 (en) | 1996-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5825320A (en) | Gain control method for audio encoding device | |
KR101005731B1 (ko) | 주파수 변환에 기초한 불완전한 스펙트럼을 가진 오디오신호의 스펙트럼을 복구하기 위한 방법 및 장치 | |
JP4864201B2 (ja) | 音声信号の量子化ノイズをマスクするためのシステムと方法 | |
CA2550654C (en) | Frequency extension of harmonic signals | |
JP2861238B2 (ja) | ディジタル信号符号化方法 | |
JP3513292B2 (ja) | 雑音荷重フィルタリング方法 | |
US5623577A (en) | Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions | |
US5825310A (en) | Signal encoding method | |
US20030216907A1 (en) | Enhancing the aural perception of speech | |
US20030182104A1 (en) | Audio decoder with dynamic adjustment | |
JP3765622B2 (ja) | オーディオ符号化復号化システム | |
US6604069B1 (en) | Signals having quantized values and variable length codes | |
JPH07273657A (ja) | 情報符号化方法及び装置、情報復号化方法及び装置、並びに情報伝送方法及び情報記録媒体 | |
JPH08237132A (ja) | 信号符号化方法及び装置、信号復号化方法及び装置、並びに情報記録媒体及び情報伝送方法 | |
EP1768104B1 (en) | Signal encoding device and method, and signal decoding device and method | |
US6199038B1 (en) | Signal encoding method using first band units as encoding units and second band units for setting an initial value of quantization precision | |
JP3081378B2 (ja) | 毎秒32kbの可聴周波数信号の符号化方法 | |
JPH0846518A (ja) | 情報符号化方法及び復号化方法、情報符号化装置及び復号化装置、並びに情報記録媒体 | |
US20020177995A1 (en) | Method and arrangement for performing a fourier transformation adapted to the transfer function of human sensory organs as well as a noise reduction facility and a speech recognition facility | |
KR100361720B1 (ko) | 고능율부호화방법및장치 | |
JP3088580B2 (ja) | 変換符号化装置のブロックサイズ決定法 | |
JP3297050B2 (ja) | デコーダスペクトル歪み対応電算式適応ビット配分符号化方法及び装置 | |
JPH08272391A (ja) | 音声マスキング特性測定方法 | |
JP3478267B2 (ja) | ディジタルオーディオ信号圧縮方法および圧縮装置 | |
JP2001343998A (ja) | ディジタルオーディオデコーダ |