JP2002237785A - 人間の聴覚補償によりsidフレームを検出する方法 - Google Patents

人間の聴覚補償によりsidフレームを検出する方法

Info

Publication number
JP2002237785A
JP2002237785A JP2001332962A JP2001332962A JP2002237785A JP 2002237785 A JP2002237785 A JP 2002237785A JP 2001332962 A JP2001332962 A JP 2001332962A JP 2001332962 A JP2001332962 A JP 2001332962A JP 2002237785 A JP2002237785 A JP 2002237785A
Authority
JP
Japan
Prior art keywords
sid
hap
masking
background noise
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001332962A
Other languages
English (en)
Inventor
Dunling Li
リ ダンリン
Gokhan Sisli
シスリ ゴカーン
Daniel Thomas
トーマス ダニエル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telogy Networks Inc
Original Assignee
Telogy Networks Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telogy Networks Inc filed Critical Telogy Networks Inc
Publication of JP2002237785A publication Critical patent/JP2002237785A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding

Abstract

(57)【要約】 【課題】 ディジタル化音声パケットの送信における帯
域幅量を減少させる方法を得る。 【解決手段】 人間の特性である周波数マスキング、経
時マスキング、トーンに基づくラウドネス知覚、及びト
ーンに基づく聴覚差を含む、知覚に関連する複数の要素
に重み付けして、これらの要素に基づいて背景雑音の更
新をすべきか否かの判断をすることにより、無音期間又
は雑音のみの期間を定めて送信を中断するようにして送
信されるパケット数を減少させ、従って送信における帯
域幅量の減少を達成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声が存在しない
ときに、ディジタル化音声アプリケーションにおける帯
域幅の改善に関する。特に、本発明は、音声の中断中の
背景雑音の予測改善が帯域幅消費を減少させるに至るこ
とを示唆している。
【0002】
【従来の技術】ボイス・オーバー・パケット・ネットワ
ーク(VOPN:Voice over packet
network)は、音声即ち音声信号をパケット化
した後に送信することが必要である。アナログ音声信号
は、まずディジタル信号に変換され、かつパルス・コー
ド変調(PCM)ディジタル・ストリーム形式に圧縮さ
れる。図1に示すように、PCMストリームは、エコー
打ち消し(EC:echo cancellatio
n)10、音声有無検出(voice activit
y detection:VAD)12、音声圧縮(C
ODEC)14、プロトコル・コンフィグレーション1
6等のようなゲートウェイのモジュールにより処理され
る。
【0003】音声パケットの送信に使用される帯域幅の
量を減少させるために、種々の技術が開発された。これ
らの技術のうちの一つは、無音(silence)の期
間中に即ち雑音のみが存在するときに送信を停止するこ
とにより、送信パケット数を減少させる。2つのアルゴ
リズム、即ちVADアルゴリズムと、これに続く不連続
送信(Discontinuous Transmis
sion:DTX)アルゴリズムがこの処理を達成す
る。これらの2アルゴリズムが存在し、かつそれらが付
勢されているシステムでは、VAD12が図1に示すよ
うに「音声あり/音声なし」の選択を行う。これら2選
択のうちのいずれかがVADアルゴリズム出力となる。
音声あり(アクティブ)が検出されたときは、CODE
C14内の通常の音声パスをたどって音声情報が一組の
パラメータに圧縮される。音声なし(インアクティブ)
が検出されたときは、DTXアルゴリズムが起動され、
この無音期間の先頭に無音挿入記述子(SID:Sil
ence Insertion Descripto
r)パケット18を送信する。最初に送信するSIDパ
ケット18とは別に、この不活性期間中は、DTXが背
景雑音の変化を解析している。スペクトル変化の場合
は、エンコーダがSIDパケット18を送出する。変化
なしが検出されると、エンコーダは何も送出しない。概
要的に、これらのSIDパケット18は、限られたネッ
トワーク・リソースを利用するために、最小ビット数に
よる背景雑音情報20の標識(signature)を
含む。受信側では、各フレームについて、デコーダが受
信情報に従って音声又は雑音信号を再構築する。受信情
報が音声パラメータを含んでいれば、デコーダは、音声
信号を再構築する。デコーダが情報を受信しなければ、
デコーダは、前に受信したSIDパケット18に埋め込
まれていた雑音パラメータにより雑音を発生する。この
処理は、快適雑音発生(CNG:Comfort No
ise Generation)と呼ばれる。無音期間
においてデコーダがミュートにされると、信号エネルギ
・レベルが急激に低下し、これが会話を不快にする原因
となる。従って、CNGは送信側で背景雑音を模擬する
ことが不可欠である。デコーダが新しいSIDパケット
を受信したときは、次のSIDを受信するまで、現在及
び将来のCNGについて雑音パラメータを更新する。
【0004】ITU標準G.729付録B(ITU s
tandard G.729 Annex B)におい
て、DTX及びCNGアルゴリズムは、種々のレベル
と、音声及び雑音の特性により動作するように設計され
て、ビット速度の節約及び音声の知覚品質が劣化しない
ことを確実にする。G.729付録B SIDフレーム
検出アルゴリズムは、ノンアクティブ期間中に滑らかな
背景雑音を発生するが、背景雑音がほとんど定常的であ
っても、かなりのパーセントでSIDフレームを検出す
る。実際のVOPNシステムにおいて、背景雑音レベル
が非常に低いdBでも、G.729付録Bは、多数のS
IDパケットを連続的に発生する。これに対する一つの
理由は、SID検出アルゴリズムが非常に低レベルの背
景雑音に対して敏感過ぎることにある。他の理由は、不
完全なEC効果である。ECの出力信号は、その入力信
号が定常的であっても、低レベルの雑音ではバースト又
は非定常的な性質を持つ恐れがある。
【0005】
【発明が解決しようとする課題】SIDフレームは、音
声パケットよりもかなり少ないペイロード・ビットを有
するので、理論的には、多くのSIDパケットを発生し
ても帯域幅問題を発生することはないはずである。しか
しながら、VOPNアプリケーションにおいて、音声及
びSIDパケット22は、パケット・ヘッダ24を有す
る必要がある(図2)。そのヘッダ長は、音声及びSI
Dパケットに関して同一である。パケット・ヘッダ24
は、しばしばSIDパケット22において帯域幅のほと
んどを占有している。例えば、RTPプロトコルにおい
て、ヘッダ長は12バイトである。G.729 COD
ECにおいて、SIDの1フレームは2バイトを有し、
かつ音声フレームは10バイトを必要とする。G.72
9 CODECにおいて、SIDフレームのビット速度
は、完全ビット速度(full bit rate)の
20%となり、パケットにパケット・ヘッダ24が付加
されと、RTPヘッダを有するSIDパケット長は、ヘ
ッダを有する音声パケット長の約70%となる。従っ
て、帯域幅を節約するためには音声品質を確保しながら
SIDパケット数を減少させることが非常に重要とな
る。
【0006】
【発明を解決するための手段】G.729付録Bは、最
後に送信したSIDフレームの後の背景雑音特性のスペ
クトル及びエネルギ変化に基づいている。線形予測フィ
ルタにおけるイタクラ(Itakura)距離は、スペ
クトル変化を表すために使用される。この措置は、固定
しきい値を超えたときに、顕著なスペクトル変化を示
す。このエネルギ変化は、現在のインアクティブ・フレ
ームにおける残留信号の量子化エネルギ・レベルと最後
のSIDフレームにおける前記レベルとの間の差とし
て、定義される。このエネルギ差が2dBを超えと、こ
れはかなり大きい。SID検出のしきい値は、固定され
ており、かつ粗ベース(crude basis)なの
で、余分なSIDフレーム数の発生が予測される。従っ
て、定常でない雑音中の帯域幅を節減するために、SI
D更新の遅延機構を使用して、連続する2SIDフレー
ムの送信の間に2フレームの最小スペースを配置する。
この方法がSIDフレームの発生を人為的に制限する。
【0007】本発明は、余分なSIDパケットに対する
人為的なリミッタに代わって、人間の聴覚(HAP:h
uman auditory perception)
の複数要素に基づき、背景雑音更新が正当化されるか否
かを判断する方法を提供する。HAPの固有の様相を特
徴付ける複数の音響係数が既知でありまた研究されてい
る。複雑な圧縮アルゴリズムに対する知覚又は心理的な
音響モデルの適用は、1998年4月発行の信号処理に
ついてのIEEE学会報告、46巻、第4号と、音声信
号をディジタル化して圧縮符号化送信するためにHAP
の適用性に関するフランク・バウムガルテン(Fran
k Baumgarte)のAES論文において説明さ
れている。その他の複数論文が音声信号の符号化に適用
するマスキング技術に、HAPを適用できることを確認
している。
【0008】これらの研究のいくつかは、高忠実度の音
響ファイルを圧縮して効率よく符号化するときに、HA
Pの適用性を認めているが、SID検出においてHAP
を使用すること(即ち、音声通信において背景雑音の知
覚変化を認識すること)は、認識していない。本発明
は、HAP系が知覚し得ない変化を符号化する必要性を
なくすことにより、HAPに基づく遷移のモデル化が背
景雑音予測における変化の符号化を減少できることに注
目している。本発明は、音声圧縮を改善するために音声
を解析するのではなく、その代わりとして、知覚上の背
景雑音の変化における特性を探し求める。
【0009】HAPは、しばしば非線形な前処理システ
ムとしてモデル化される。これは、内耳における機械的
及び電気的な事象を模擬して、従属周波数選択性(de
pendent frequency selecti
vity)のレベルだけではなく、更に抑制及び同時マ
スキングの効果も説明している。周波数マスキング、経
時マスキング(temporal masking)、
トーンに基づくラウドネス知覚、及びトーンに基づく聴
覚差を含む音の知覚には、多数の要素が影響し得る。こ
れらHAPの要素は、背景雑音とは別の要素が背景雑音
に人の耳に知覚し得ない何らかの変化をもたらしたとき
に、マスキングを発生させ得る。マスキングが発生して
いる状況では、変化を知覚できないのであるから、背景
雑音を更新する必要はない。本発明は、これらの要素を
考慮するものであって、各要素を識別し、かつ重み付け
して、SIDパケット発生の適当なレベルを判断するこ
とにより、SIDの検出効率を高める。
【0010】図3に示すように、人の聴覚に対して最も
敏感な周波数(most responsive fr
equency)は、4.5kHz周辺にある。人間の
耳に音が聞こえるためには、信号の周波数が4.5kH
zから高くなるに従って、又は低くなるに従って、音響
レベルは、dB値を増加させる必要がある。これは、静
かなライン26上のしきい値により示す。例えば、2K
Hzの音が聞こえるためには、3dB大きくする必要が
あり、10KHzの音では10dB大きくしてやる必要
があり、一方、周波数0.05の音は47dB増大させ
る必要がある。静かなライン26上のしきい値は、聴覚
認識に必要なdBレベルを示す。
【0011】同時マスキング(simultaneou
s masking)は、周波数マスキングとも呼ば
れ、ハイ・レベル信号とロー・レベル信号とが周波数レ
ンジにおいて接近して存在するときに、ハイ・レベル信
号(マスカー:masker)がロー・レベル信号(マ
スキー:maskee)を抑圧する周波数領域の現象で
ある。図3は、1KHzの純音マスカー及びそのマスキ
ングしきい値を示す。それ以下では信号を聞くことがで
きないマスキングしきい値は、音圧レベルと、マスカー
及びマスキーの周波数とに従属する。図3において、ト
ーンを1KHzで発生すると、その周波数にあるあらゆ
る音を阻止するばかりでなく、1KHz近傍の信号も阻
止する。マスキングしきい値は、発生したトーン近傍で
最大のマスキングを示し、マスキングは、検出可能トー
ン音からその音が遠ざかるに従って急速に低下する。
【0012】プリマスキング及びポストマスキングを含
む経時(temporal)マスキングは、マスキング
信号前後で発生する時間領域の現象である。プリマスキ
ングは、マスカーのあらゆる状態から独立して、約20
ms継続する。しかしながら、ポストマスキングは、マ
スカーの期間長に依存する。図4において、マスキング
信号が時間0から開始され、200ms継続している。
背景雑音は、マスキング信号の期間、人間の聴覚で聞き
取り得ない。加えて、マスキングは、信号の約20ms
前にも発生し、かつマスキング信号の後にも、50から
200ms継続する。
【0013】人間の耳は、種々のラウドネス・レベルに
対して異なる応答レベルを示す。音響レベルが増大する
に従い、感度は周波数上でより一様になる。このような
挙動を図5に示す。本発明は、この原理をも一つのマス
キング特性として利用する。
【0014】本発明の特徴をよりよく理解するために、
下記の図面及び詳細な説明を参照する必要があり、図に
おいて、同一要素は同一参照番号により統一されてい
る。
【0015】
【発明の実施の形態】HAPに基づくSIDフレーム検
出の基礎をなす原理は、現在のフレームと前のSIDフ
レームとの間のエネルギ・レベルの変化、及びHAPに
基づくスペクトル距離の変化を測定することにより、知
覚し得る背景雑音の変化を検出することである。本発明
は、HAPに基づくスペクトル距離(D)を、現在のイ
ンアクティブ・フレームと前のSIDフレームとの間の
重み付けしたライン・スペクトル周波数(LSF:Li
ne Spectral Frequency)距離と
定義する。信号の周波数内容を表わすためにLSFを選
択することは、CELPに基づく大抵のCODECに対
するSID検出中に、LSFパラメータが利用可能であ
るという事実によっている。従って、スペクトル解析計
算を少なくすることができる。
【0016】このSID検出アルゴリズムのフロー・チ
ャートを図6に示す。この処理を開始する最初のステッ
プ30は、式(1)、(2)及び(3)を使用して、H
APに基づくスペクトル距離しきい値、及び信号エネル
ギ・レベルを各フレームに関して計算することである。
【0017】
【数1】
【0018】
【数2】
【0019】
【数3】
【0020】HAPに基づくスペクトル距離は、式
(1)により定義され、また図7は、種々のエネルギ・
レベルを与えた重み付け係数(wm(i))の選択を示す。こ
れらの重み付け係数wm(i)は、ITU−T G729付
録B標準において使用されている重み付け係数である。
これらの重み付け係数は、図5から導き出される。低エ
ネルギ・レベル、従って低ラウドネス・レベルの場合、
周波数が増加するにつれてこれらの重み付け係数が増加
して異なる周波数の影響を均衡させる。ラウドネス・レ
ベルが増加するに従って、複数の重み付け係数は平坦に
なる。図7における重み付け係数wm(i)は、経験的に選
択される。
【0021】このアルゴリズムは、信号の変化が人間の
聴覚反応系に知覚し得るか、かつ/又は意味をなすか
(significant)否かを判断するために、信
号の変化を評価する一組の基準を確立する。この判断に
おける一対は、ラウドネスの知覚に基づいたHAPスペ
クトル距離しきい値である。これらは、Th h及びT
lにより表され、図8に示すように、フレームのエ
ネルギに従って変動する。これらの図は、更に図5にお
けるアーギュメント(arguments)によっても
導き出される。信号エネルギが低下するに従ってラウド
ネスも低下することを調べることは、問題ではない。低
ラウドネス・レベルにおけるしきい値は、低い感度を補
償するためにもっと高い必要がある。最大感度は、高い
ラウドネス・レベルにあり、従って高いラウドネス・レ
ベルには低いしきい値が選択される。図8におけるTh
l値及びTh h値は、実験的に選択される。
【0022】これら2しきい値は、しきい値Th l値
及びTh hの経時マスキングの更新処理に使用され
る。式(3)、(4)及び(5)は、経時マスキングに
基づいてHAPスペクトル距離しきい値の調節(ada
ptation)を表す。
【0023】
【数4】
【0024】
【数5】
【0025】ポスト・マスキングは、50〜200ms
程度であり、上記しきい値の時定数は、50ms、即ち
この実施例では、a=3/4が選択される。Th hi
gh50及びTh low52は、図9に示すように、
バイエス分類子(Bayesclassifier)に
使用される。
【0026】図6は、更に、HAPに基づくスペクトル
距離30が高い方のしきい値Th high36より大き
いときは、SIDフレームが検出される(38)ことを
示す。次に、平均LSFエネルギがリセットされ(4
0)、ラウドネス知覚(32)及び経時マスキング(3
4)に基づいて更新される。距離(30)が低い方のし
きい値Th low(42)より下のときは、現在のフ
レームを非SIDフレームとみなす。スペクトル距離が
Th highとTh lowとの間に入るときは、量
子化されたエネルギ特性Eq(46)を導入して現在の
フレームがSIDであるか否か判断する。Eq>2dB
のときは、SIDパケット(38)を検出する。Eq<
2dBのときは、HAPスペクトル距離しきい値を再計
算する処理(32)及びしきい値を調整する処理(3
4)に戻る前に、平均LSF雑音スペクトルを更新する
(44)。
【0027】次いで、本発明は、聞き取れない背景レベ
ルの変化を表す遷移を排除することができ、かつ背景雑
音における知覚し得る変化に対応したSIDパケット
(38)を発生することができる。図10は、異なる背
景雑音レベルにより付加された種々の雑音(さざめき、
オフィス又は街路の雑音)あり/なしで、クリーンなス
ピーチに対して、HAPに基づくSID検出及びG.7
29付録B SID検出を模擬した結果を示す。PAM
Sは、客観的測定に使用される。新しいアルゴリズム
は、雑音のひどいレベル条件(7〜15列)においてY
LQに関して相当な割合のSID減少をもって標準G7
29付録B SID検出アルゴリズムと同等か又はそれ
を超える性能を示す。他の例(1〜6列)において、新
しいアルゴリズムが標準的なSID検出アルゴリズムと
同一の品質を実行することができないが、SIDの減少
比率は、依然として大きく、YLQ差は、無視可能な範
囲にある。主観テストでも品質に劣化がない、又は実質
的に少ないことを証明した。
【0028】
【表1】
【0029】多くの変形及び異なった実施例は、ここで
開示した本発明の概念の範囲内で実施可能とされ、また
法の記述的な要求に従ってここで詳細に説明した実施例
に多くの変更が可能なので、ここでの詳細は、限定的な
意味ではなく、例示として解釈されるべきである。
【0030】以上の説明に関して更に以下の項を開示す
る。
【0031】(1)ディジタル化音声アプリケーション
において背景雑音の更新が正当か否かを人間の聴覚(H
AP)の要素に基づいて判断するための無音挿入記述子
(SID)フレーム検出方法であって、ディジタル化音
声アプリケーションにおけるSIDフレームを検出し、
前記SIDフレームのそれぞれについてのHAPに基づ
くスペクトル距離しきい値を計算し、前記SIDフレー
ムのそれぞれについてのHAPに基づく信号エネルギ・
レベルを計算し、連続するSIDフレーム間のHAPに
基づくスペクトル距離変化を計算し、前記変化が人間の
聴覚反応系で知覚し得る又は意味を持つ(signif
icant)か否かを判断するために前記信号エネルギ
・レベルにおける変化を評価し、聞き取れない背景レベ
ルの変化を表す前記信号エネルギ・レベルを排除し、背
景雑音における知覚し得る変化に対応したSIDパケッ
トを発生することを含む方法。
【0032】(2)前記HAPに基づくスペクトル距離
しきい値は、前記SIDフレームのエネルギに依存した
変動に対するラウドネスの知覚に基づいて、経験的に選
択され、前記しきい値のレベルは、低い感度を補償する
ように低いラウドネス時に高くされ、かつ前記しきい値
のレベルは、最大感度に対する高いラウドネス・レベル
時に低くされる第1項記載の方法。
【0033】(3)前記HAPに基づくスペクトル距離
変化及び前記エネルギ・レベルの計算は、重み付け係数
を使用して実行される第1項記載の方法。
【0034】(4)前記重み付け係数は、経験的に選択
される第3項記載の方法。
【0035】(5)前記ディジタル化音声アプリケーシ
ョンにおけるSIDフレームの検出は、前記HAPに基
づくスペクトル距離が上側しきい値より大きいときは、
前記SIDフレームを検出し、前記HAPに基づくスペ
クトル距離が下側しきい値より小さいときは、非SID
フレームを検出し、前記スペクトル距離が前記上側しき
い値と前記下側しきい値との間に入り、かつ前記SID
フレームが約2デシベルであるときは、前記SIDフレ
ームを検出する第1項記載の方法。
【0036】(6)ディジタル化音声アプリケーション
において背景雑音の更新が正当か否かを人間の聴覚(H
AP)の要素に基づいて判断するための無音挿入記述子
(SID)フレーム検出方法であって、ディジタル化音
声アプリケーションにおけるSIDフレームを検出し、
前記SIDフレームのそれぞれについてのHAPに基づ
くスペクトル距離しきい値を計算し、前記しきい値は、
前記SIDフレームのエネルギに依存した変動に対する
ラウドネス知覚に基づいて、経験的に選択され、前記し
きい値のレベルは、低い感度を補償するように低いラウ
ドネス時に高くされ、かつ前記しきい値のレベルは、最
大感度に対する高いラウドネス・レベル時に低くされ、
前記SIDフレームのそれぞれについてのHAPに基づ
く信号エネルギ・レベルを計算し、連続するSIDフレ
ーム間のHAPに基づくスペクトル距離変化を計算し、
前記変化が人間の聴覚反応系に知覚し得る又は意味を持
つか否かを判断するために前記信号エネルギ・レベルに
おける変化を評価し、聞き取れない背景レベルの変化を
表す前記信号エネルギ・レベルを排除し、背景雑音にお
ける知覚し得る変化に対応したSIDパケットを発生す
ることを含む方法。
【0037】(7)ディジタル化音声パケットの送信に
おいて使用される帯域幅量を減少させる方法。前記方法
は、無音期間中に、又は雑音のみが存在するときに、送
信を中断することにより、送信されるパケット数を減少
させるために使用される。このシステムは、過度の無音
挿入記述子パケットによる人為的なリミッタの代わり
に、背景雑音の更新が人間の聴覚の複数要素に基づいて
正当化されるか否かを判断する。このシステムは、改善
された音声圧縮のために音声を解析する代わりに、背景
雑音の知覚変化における特性を探し求める。本発明は、
周波数マスキング、経時マスキング、トーンに基づくラ
ウドネス知覚、及びトーンに基づく聴覚差を含む音の知
覚に影響する要素を重み付けする。
【図面の簡単な説明】
【図1】音声、トーン及び無音に対する個別的な処理パ
スを示す機能ブロック図である。
【図2】典型的なパケットを示すフォーマット図であ
る。
【図3】周波数マスキングを示すグラフである。
【図4】経時マスキングを示すグラフである。
【図5】人間の聴覚のラウドネスを示す図である。
【図6】SIDを発生するための背景雑音予測の認識に
関する処理を示す機能フロー・チャートである。
【図7】種々のエネルギ・レベルを与えてHAP関連の
重み付け係数決定を示すグラフである。
【図8】聴覚のラウドネスしきい値を示すグラフであ
る。
【図9】異なるしきい値を与えてSID発生の選択する
ためのベイ予測器のグラフである。
【図10】クリーンなスピーチに対してHAPに基づく
SID検出及びG.729付録BSID検出のシミュレ
ーション結果を示すグラフである。
【符号の説明】
10 エコー打ち消し 12 無音検出 14 音声圧縮 16 プロトコル・コンフィグレーション 18 IDパケット 20 背景雑音情報
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ゴカーン シスリ アメリカ合衆国 メリーランド、ベセス ダ、バッテリィ レイン 4858、ナンバー 201 (72)発明者 ダニエル トーマス アメリカ合衆国 メリーランド、ジャーマ ンタウン、ステージ コーチ コート 7 Fターム(参考) 5K041 AA01 CC01 EE19 FF11 FF21 HH01 HH13 HH24 JJ00 JJ22 JJ40 5K046 BB01 DD25 HH12 HH68 5K066 AA01 BB01 CC02 EE54 JJ17

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 ディジタル化音声アプリケーションにお
    いて背景雑音の更新が正当か否かを人間の聴覚(HA
    P)の要素に基づいて判断するための無音挿入記述子
    (SID)フレーム検出方法であって、 ディジタル化音声アプリケーションにおけるSIDフレ
    ームを検出し、 前記SIDフレームのそれぞれについてのHAPに基づ
    くスペクトル距離しきい値を計算し、 前記SIDフレームのそれぞれについてのHAPに基づ
    く信号エネルギ・レベルを計算し、 連続するSIDフレーム間のHAPに基づくスペクトル
    距離変化を計算し、 前記変化が人間の聴覚反応系で知覚し得る又は意味を持
    つか否かを判断するために前記信号エネルギ・レベルに
    おける変化を評価し、 聞き取れない背景レベルの変化を表す前記信号エネルギ
    ・レベルを排除し、 背景雑音における知覚し得る変化に対応したSIDパケ
    ットを発生することを含む方法。
JP2001332962A 2000-10-31 2001-10-30 人間の聴覚補償によりsidフレームを検出する方法 Pending JP2002237785A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US699366 2000-10-31
US09/699,366 US6807525B1 (en) 2000-10-31 2000-10-31 SID frame detection with human auditory perception compensation

Publications (1)

Publication Number Publication Date
JP2002237785A true JP2002237785A (ja) 2002-08-23

Family

ID=24808998

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001332962A Pending JP2002237785A (ja) 2000-10-31 2001-10-30 人間の聴覚補償によりsidフレームを検出する方法

Country Status (3)

Country Link
US (1) US6807525B1 (ja)
EP (1) EP1229520A3 (ja)
JP (1) JP2002237785A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1299521C (zh) * 2003-10-28 2007-02-07 中兴通讯股份有限公司 一种无线通讯系统中基带至射频信号传输的装置和方法
JP2009545779A (ja) * 2006-07-31 2009-12-24 クゥアルコム・インコーポレイテッド 信号変化検出のためのシステム、方法、および装置
JP2009545778A (ja) * 2006-07-31 2009-12-24 クゥアルコム・インコーポレイテッド 非アクティブフレームの広帯域符号化および復号化を行うためのシステム、方法、および装置
JP2010206515A (ja) * 2009-03-03 2010-09-16 Oki Electric Ind Co Ltd エコーキャンセラ
JP2011199875A (ja) * 2005-06-18 2011-10-06 Nokia Corp 非連続音声送信の際の擬似背景ノイズパラメータ適応送信のためのシステム及び方法

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7386447B2 (en) * 2001-11-02 2008-06-10 Texas Instruments Incorporated Speech coder and method
US7177304B1 (en) * 2002-01-03 2007-02-13 Cisco Technology, Inc. Devices, softwares and methods for prioritizing between voice data packets for discard decision purposes
US7454331B2 (en) * 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
JP4486646B2 (ja) * 2003-05-28 2010-06-23 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション オーディオ信号の感知音量を計算し調整する方法、装置及びコンピュータプログラム
US8090120B2 (en) * 2004-10-26 2012-01-03 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
US8199933B2 (en) 2004-10-26 2012-06-12 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
BRPI0622303B1 (pt) * 2005-04-18 2016-03-01 Basf Se copolímeros cp na forma de um polímero obtido por polimerização com radical de pelo menos três monômeros m diferentes monoetilenicamente insaturados
US20070019931A1 (en) * 2005-07-19 2007-01-25 Texas Instruments Incorporated Systems and methods for re-synchronizing video and audio data
KR100735246B1 (ko) * 2005-09-12 2007-07-03 삼성전자주식회사 오디오 신호 전송 장치 및 방법
US7546125B2 (en) * 2005-10-03 2009-06-09 Divitas Networks, Inc. Enhancing user experience during handoffs in wireless communication
CN101410892B (zh) * 2006-04-04 2012-08-08 杜比实验室特许公司 改进的离散余弦变换域中的音频信号响度测量及修改
TWI517562B (zh) * 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
MY141426A (en) 2006-04-27 2010-04-30 Dolby Lab Licensing Corp Audio gain control using specific-loudness-based auditory event detection
CN101087319B (zh) * 2006-06-05 2012-01-04 华为技术有限公司 一种发送和接收背景噪声的方法和装置及静音压缩系统
US20080317241A1 (en) * 2006-06-14 2008-12-25 Derek Wang Code-based echo cancellation
US20080140767A1 (en) * 2006-06-14 2008-06-12 Prasad Rao Divitas description protocol and methods therefor
US20090016333A1 (en) * 2006-06-14 2009-01-15 Derek Wang Content-based adaptive jitter handling
CN101496095B (zh) * 2006-07-31 2012-11-21 高通股份有限公司 用于信号变化检测的系统、方法及设备
US8849433B2 (en) 2006-10-20 2014-09-30 Dolby Laboratories Licensing Corporation Audio dynamics processing using a reset
US8521314B2 (en) 2006-11-01 2013-08-27 Dolby Laboratories Licensing Corporation Hierarchical control path with constraints for audio dynamics processing
US8571853B2 (en) * 2007-02-11 2013-10-29 Nice Systems Ltd. Method and system for laughter detection
BRPI0813723B1 (pt) * 2007-07-13 2020-02-04 Dolby Laboratories Licensing Corp método para controlar o nível de intensidade do som de eventos auditivos, memória legível por computador não transitória, sistema de computador e aparelho
DE102008009718A1 (de) 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
ES2688021T3 (es) 2012-12-21 2018-10-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Adición de ruido de confort para modelar ruido de fondo a bajas tasas de bits
CA2894625C (en) * 2012-12-21 2017-11-07 Anthony LOMBARD Generation of a comfort noise with high spectro-temporal resolution in discontinuous transmission of audio signals

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2110090C (en) * 1992-11-27 1998-09-15 Toshihiro Hayata Voice encoder
FR2739995B1 (fr) * 1995-10-13 1997-12-12 Massaloux Dominique Procede et dispositif de creation d'un bruit de confort dans un systeme de transmission numerique de parole

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1299521C (zh) * 2003-10-28 2007-02-07 中兴通讯股份有限公司 一种无线通讯系统中基带至射频信号传输的装置和方法
JP2011199875A (ja) * 2005-06-18 2011-10-06 Nokia Corp 非連続音声送信の際の擬似背景ノイズパラメータ適応送信のためのシステム及び方法
JP2009545779A (ja) * 2006-07-31 2009-12-24 クゥアルコム・インコーポレイテッド 信号変化検出のためのシステム、方法、および装置
JP2009545778A (ja) * 2006-07-31 2009-12-24 クゥアルコム・インコーポレイテッド 非アクティブフレームの広帯域符号化および復号化を行うためのシステム、方法、および装置
US8260609B2 (en) 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US8725499B2 (en) 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
US9324333B2 (en) 2006-07-31 2016-04-26 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
JP2010206515A (ja) * 2009-03-03 2010-09-16 Oki Electric Ind Co Ltd エコーキャンセラ
US8433059B2 (en) 2009-03-03 2013-04-30 Oki Electric Industry Co., Ltd. Echo canceller canceling an echo according to timings of producing and detecting an identified frequency component signal

Also Published As

Publication number Publication date
US6807525B1 (en) 2004-10-19
EP1229520A3 (en) 2004-01-21
EP1229520A2 (en) 2002-08-07

Similar Documents

Publication Publication Date Title
JP2002237785A (ja) 人間の聴覚補償によりsidフレームを検出する方法
RU2251750C2 (ru) Обнаружение активности сложного сигнала для усовершенствованной классификации речи/шума в аудиосигнале
Beritelli et al. Performance evaluation and comparison of G. 729/AMR/fuzzy voice activity detectors
KR100455225B1 (ko) 보코더에 의해 인코드되는 다수의 프레임들에 잔존 프레임들을 추가하는 방법 및 장치
EP0661689B1 (en) Noise reducing method, noise reducing apparatus and telephone set
EP2517202B1 (en) Method and device for speech bandwidth extension
KR100302370B1 (ko) 음성구간검출방법과시스템및그음성구간검출방법과시스템을이용한음성속도변환방법과시스템
KR100905585B1 (ko) 음성신호의 대역폭 확장 제어 방법 및 장치
JP2002366174A (ja) G.729の付属書bに準拠した音声アクティビティ検出回路を収束させるための方法
JPH1097292A (ja) 音声信号伝送方法および不連続伝送システム
US20010034601A1 (en) Voice activity detection apparatus, and voice activity/non-activity detection method
JP2003514473A (ja) ノイズ抑制
JP2004514327A (ja) 電気通信網における電話リンクの会話品質の測定
JP2004525540A (ja) 音声通信中に快適ノイズを発生するための方法およびシステム
WO2004079936A1 (en) Preprocessing of digital audio data for improving perceptual sound quality on a mobile phone
JP2009539132A (ja) オーディオ信号の線形予測符号化
EP1554717B1 (en) Preprocessing of digital audio data for mobile audio codecs
JP4989021B2 (ja) 客観的なスピーチ品質評価において時間/言語歪みを反映する方法
US6424942B1 (en) Methods and arrangements in a telecommunications system
CN108133712B (zh) 一种处理音频数据的方法和装置
JPS62274941A (ja) 音声符号化方式
JP2001501790A (ja) 復号された音声パラメータを用いる移動電話で受信された不良データパケットの検出を行う方法およびその装置
EP2743923B1 (en) Voice processing device, voice processing method
JPH0644195B2 (ja) エネルギ正規化および無声フレーム抑制機能を有する音声分析合成システムおよびその方法
US8949121B2 (en) Method and means for encoding background noise information