JP2004534263A - 擬似快適ノイズを発生させる簡単なスペクトル推定技術を実行する方法とシステム - Google Patents
擬似快適ノイズを発生させる簡単なスペクトル推定技術を実行する方法とシステム Download PDFInfo
- Publication number
- JP2004534263A JP2004534263A JP2003504389A JP2003504389A JP2004534263A JP 2004534263 A JP2004534263 A JP 2004534263A JP 2003504389 A JP2003504389 A JP 2003504389A JP 2003504389 A JP2003504389 A JP 2003504389A JP 2004534263 A JP2004534263 A JP 2004534263A
- Authority
- JP
- Japan
- Prior art keywords
- spectrum
- noise signal
- input noise
- estimating
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 111
- 230000003595 spectral effect Effects 0.000 title claims abstract description 19
- 238000001228 spectrum Methods 0.000 claims abstract description 102
- 238000003780 insertion Methods 0.000 claims abstract description 31
- 230000037431 insertion Effects 0.000 claims abstract description 31
- 230000005236 sound signal Effects 0.000 claims abstract description 27
- 230000006870 function Effects 0.000 claims description 58
- 230000015572 biosynthetic process Effects 0.000 claims description 24
- 238000003786 synthesis reaction Methods 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 23
- 238000001514 detection method Methods 0.000 claims description 15
- 238000001914 filtration Methods 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 21
- 238000004891 communication Methods 0.000 description 26
- 238000012545 processing Methods 0.000 description 24
- 229910052734 helium Inorganic materials 0.000 description 20
- 239000001307 helium Substances 0.000 description 20
- SWQJXJOGLNCZEY-UHFFFAOYSA-N helium atom Chemical compound [He] SWQJXJOGLNCZEY-UHFFFAOYSA-N 0.000 description 20
- 238000007726 management method Methods 0.000 description 17
- 230000000694 effects Effects 0.000 description 14
- 230000005540 biological transmission Effects 0.000 description 13
- FYYHWMGAXLPEAU-UHFFFAOYSA-N Magnesium Chemical compound [Mg] FYYHWMGAXLPEAU-UHFFFAOYSA-N 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 229910052749 magnesium Inorganic materials 0.000 description 9
- 239000011777 magnesium Substances 0.000 description 9
- 238000012546 transfer Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 8
- 238000007906 compression Methods 0.000 description 8
- 230000006835 compression Effects 0.000 description 8
- 230000009977 dual effect Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 101150012579 ADSL gene Proteins 0.000 description 6
- 102100020775 Adenylosuccinate lyase Human genes 0.000 description 6
- 108700040193 Adenylosuccinate lyases Proteins 0.000 description 6
- 108091005950 Azurite Proteins 0.000 description 6
- 239000000969 carrier Substances 0.000 description 6
- 239000003795 chemical substances by application Substances 0.000 description 6
- 238000005538 encapsulation Methods 0.000 description 6
- GWBUNZLLLLDXMD-UHFFFAOYSA-H tricopper;dicarbonate;dihydroxide Chemical compound [OH-].[OH-].[Cu+2].[Cu+2].[Cu+2].[O-]C([O-])=O.[O-]C([O-])=O GWBUNZLLLLDXMD-UHFFFAOYSA-H 0.000 description 6
- 230000010354 integration Effects 0.000 description 5
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 4
- 229910052802 copper Inorganic materials 0.000 description 4
- 239000010949 copper Substances 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 230000036961 partial effect Effects 0.000 description 4
- 230000011664 signaling Effects 0.000 description 4
- 230000001629 suppression Effects 0.000 description 4
- 230000002194 synthesizing effect Effects 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 241000036569 Carp sprivivirus Species 0.000 description 3
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 238000007493 shaping process Methods 0.000 description 3
- 229910052710 silicon Inorganic materials 0.000 description 3
- 239000010703 silicon Substances 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000005641 tunneling Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 229910052790 beryllium Inorganic materials 0.000 description 2
- ATBAMAFKBVZNFJ-UHFFFAOYSA-N beryllium atom Chemical compound [Be] ATBAMAFKBVZNFJ-UHFFFAOYSA-N 0.000 description 2
- 238000013144 data compression Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000006727 cell loss Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G5/00—Tone control or bandwidth control in amplifiers
- H03G5/005—Tone control or bandwidth control in amplifiers of digital signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/083—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03B—GENERATION OF OSCILLATIONS, DIRECTLY OR BY FREQUENCY-CHANGING, BY CIRCUITS EMPLOYING ACTIVE ELEMENTS WHICH OPERATE IN A NON-SWITCHING MANNER; GENERATION OF NOISE BY SUCH CIRCUITS
- H03B29/00—Generation of noise currents and voltages
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02168—Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Abstract
本発明に係る方法とシステムは、擬似快適ノイズを発生させる簡単なスペクトル推定技術を実行するためのものである。本発明の他の側面は、無音挿入記述子を送信するために適用プロセスから、フィルタ・パラメータを選別することである。快適ノイズを生成するためにスペクトル推定を行う方法では、入力ノイズ信号を受信するステップと;所定時間アルゴリズムを使用して前記入力ノイズ信号のスペクトルを近似計算するステップと;
音声信号が存在しないタイミングを検出するステップと;そして前記音声信号が存在しないタイミングが検出された時に前記近似計算するステップに基づいて快適ノイズを生成するステップ;とで構成され、前記入力ノイズ信号のスペクトルが所定の時間に渡り略一定であることを特徴とする入力ノイズ信号のスペクトル推定方法が開示されている。
音声信号が存在しないタイミングを検出するステップと;そして前記音声信号が存在しないタイミングが検出された時に前記近似計算するステップに基づいて快適ノイズを生成するステップ;とで構成され、前記入力ノイズ信号のスペクトルが所定の時間に渡り略一定であることを特徴とする入力ノイズ信号のスペクトル推定方法が開示されている。
Description
【技術分野】
【0001】
一般に本発明は、単一のスペクトル推定技術に関連し、特に単一のスペクトルを推定し、より簡単に擬似快適ノイズを発生する方法とシステムに関する。
【背景技術】
【0002】
デジタル加入者線(DSL、Degital Subscriber Loop、xDSL等)は、従来の銅の電話線の上でデジタルデータの高速伝送を可能にする技術を必要とする。すなわちこの技術では、最終ユーザと電話会社の間で既存の銅の電話線の上で高速データ通信ができるように設計されているデジタル電気通信プロトコールを必要とする。
【0003】
2つの従来のモデムが電話システム(例えば公衆回線網(Publish Switched Telephone Network(PSTN))で接続するときに、通信は音声会話と同様に処理することができる。これは電話会社(telco)にとっては投資が必要ない利点がある反面、不利な点は通信に利用できるバンド幅が、音声会話(最高でも通常64kb/s(DS0))に非常に利用できるバンド幅と同じことである。電話会社が信号をアナログよりむしろデジタルとして取り扱う場合には、個々の家庭またはオフィスへ引き込まれている2線の縒り銅線は、通常64kb/sを遥かに超える通信速度を可能とする。
【0004】
用いられる通信プロトコールを変化させ、また種々のサービスレベルを提供して、多くの基本的な通信方法が実行されている。通信の処理能力は約128kb/sから8Mb/s以上であり、また通信は対称形あるいは非対称でもあり得る(すなわち、上り通信と下り通信速度が同じであっても異なってもよい)。さらに通信装置の価格およびサービス料金も、かなり異なっている。
【0005】
多くの異なる種類のモデム通信機器において重要な要素は、音声処理サブシステムであり、それは信号伝達transcodin機能、Dual Tone Modulation Frequency(DTMF)処理機能、エコーキャンセレーション機能等を実装する。、この手の音声処理を必要とする機器には、例えば電話から移動体通信(GSM)の基地局のためのグローバルシステム、更にはブロードバンド用の統合アクセス機器等の全てが含まれる。音声処理サブシステムは、ソフトウェアでアルゴリズムを実行するセットをベースとし、それを特徴とするDegaital Signal Processing(DSP)であってもよい。これらのアルゴリズムは、アルゴリズムのDSPプログラムの専門家によって、アセンブリ・コードの形態にマニュアルでコード化でもよい。また、必要とするアルゴリズムを必要とするコンビネーションで組み合せ、そしてそれらの音声処理サブシステムとインタフェースをとる簡単な方法が望まれている。
【0006】
Voice over Degaital Subscriber Line(VoDSL)により銅線の電話線のインフラで、顧客に優良な音声通信と広範囲なデータ通信アプリを提供することが可能となった。VoDSLは音声通信サービスが可能であるプラットホームの対応部と連動してDSLプラットホームを実装する。このVoDSLは更に、data competitive local exchange carriers(競合電話会社CLECs)に収益力を増やす方法を提供し、incumbent local exchange carries(義務的地域電話会社ILECs)にはケーブルモデムの解決策を提供し、さらにinterexchange carriers(データ交換専門電話会社IXCs)にはローカルな音声網にアクセスできる方法を夫々提供することが出来る。このように、どのようなタイプの電話会社であっても、VoDSLを通して入手可能なサービスの価値を増大すことができるようになる。
【0007】
通常、VoDSLは、他のコンポーネント中に音声ゲートウェイ、統合アクセス・デバイス(IAD)を含んでいる。音声ゲートウェイは、音声交換機または他の類似したデバイスに配信するためのフォーマットにパケット組立し、かつ変換される音声パケットを提供する。音声ゲートウェイはトラフィックが、データ網からアクセスされて、かつサービスおよびデータ交換のためにPSTNに送り届けられるようにすることができる。IADは、DSLモデムとして機能し、他の機能性を実装することが出来る。このIADはDSL通信網サービスと顧客の音声およびデータ装置間のインタフェースを提供する。またこのIADは、DSLネットワークサービスおよび顧客の通信網機器間のインタフェースとして機能する。更に、IADは音声とデータの処理が可能な機器を結合するために用いられる。
【0008】
VoDSLは、またインターネット・プロトコール(IP)を経て伝送されることができる。VoIPはインターネット・プロトコールの上の音声として定義されることができる。そしてインターネット・プロトコールには、IPネットワークの上で音声通話を可能にするすべての技術も含まれる。VoIPと関係しているいくつかの進んだ技術には、音声、faxまたはビデオ・パケットを信頼できる方法で利用者に配信することも含まれる。これは、デジタル化され、インターネットの限られたバンド幅のために圧縮し、かつネットワークを経由して送り出される情報発信源から、音声またはデータを取り込むことにより達成することが出来る。このプロセスは、音声による通信が可能になるように反対方向の処理がされる。このVoIPは、会社および他の法人を含むユーザがIPネットワーク(公衆回線網PSTNに代わり)を経由して通話が出来るようにした。
【0009】
VoDSL、VoIPおよび他の音声アプリケーションを用いる場合には、バンド幅および処理能力を向上するために用いられる無音部分抑制を考慮する必要がある。この無音部分抑制は、通話中の無音部分(つまり誰も話していない部分)をパケットする必要がない様にその部分を取り除くことを意味する。音声およびデータ情報を同時に送信する際のビットレートを最適化するために、音声信号検出器が音声信号の無音部分を検出する。すなわち音声信号中の無音部分を送信するのではなく、所定のデータ(つまり無音挿入記述子)が一連のパケット列に挿入され、これにより本来は音声通信のために割り振られたバンド幅を有効に利用することが出来るようになる。しかしながら効果的なビットレートを提供できる反面、音声データの無音部分に伴う暗騒音を消去すると、通話者が完全な消音無音期間を受信して全く聞こえないという不具合があり、また自然の連続的な通話ではなく通話の完全なOn/Off感覚を伴う不具合がある。
【0010】
無音部分抑制に関連して、快適ノイズ生成(comfort noise generation)がされて、会話やその他の音声信号の無音部分に快適ノイズを挿入して自然的な音声の再生成を行う。従来の快適ノイズ生成器の欠点は、それらが大きなMIPS(100万命令語/秒)および記憶容量を必要とし、効率性および効率的な有効音声伝送を減勢することである。
【0011】
既存の国際電気通信連合(ITU)推奨のG.シリーズG729ABでは、ガウスのノイズ生成のためのより単純な方法を使用するが、それにはノイズが周期性を有するという欠点がある。他のノイズ生成器はさらに大きなMIPSを必要とし、リアルタイム・システムには適さず、またその複雑さは正当化されていない。
【0012】
全ての振動数に対して単位のバンド幅当たりのエネルギーが一定に設定した無秩序なノイズであるホワイトノイズを生成するガウスのホワイトノイズ生成器を、会話と他の音声信号を合成するアプリケーションにおいては、実装することができる。ガウスのノイズ生成器を実装して使用する一つの方法として、統一したランダム生成器上で中心極限定理を使用することが含まれる。しかしながら、特に定振幅スピーチ、ノイズ信号または他のアプリを長時間生成させる時に、これには周期性の欠点がある。また他のノイズ生成器もさらに大きなMIPSを必要とし、リアルタイム・システムには適さず、またその複雑さが正当化されていない。
【0013】
一般的に、過剰な待ち時間がかかると、電話の音声品質を低下させるために、電気通信装置ではこの待ち時間に関しては非常に厳しい要求がある。従って、電気通信で用いられる信号処理アルゴリズムは通常、音声データを非常に小さなブロックにして実行しなければならない。例えば、VoDSLのCustomer Premise Equipment(CPE)では、デジタル信号プロセッサは8kHzの4つのデータサンプルブロックで稼動する。
【0014】
データ・ネットワークシステムの上の先進的な音声圧縮技術は、適用無音圧縮技術およびその復元技術である。この機能の一態様では、『本当の』暗騒音と一致するようにスペクトル的にノイズを生成することを目的としたフィルタで、バンド幅を保存するために伝送されないガウスのホワイトノイズをフィルタする事で擬似暗騒音信号が生成される。
【0015】
しかしながらフィルタ係数が必ずしも正しい利得を含むという訳ではないので、結果として生じるシグナルは本当の暗騒音と同じ強度ではない。またフィルタに対する起動は、一般に本当の暗騒音の利得とは異なる利得の出力を生じる幾つかの利得を有する。加えて、擬似信号の効率的生成は一度に4つのサンプルを生成できるだけであり、信号強度を測定して利得を補正することを難しくする(さらにこの機能が1秒につきほぼ2000回呼ばれていると仮定すると、計算するのに大変な負荷がかかる)。
【0016】
したがって、VoDSLやVoIPの技術分野では、音声信号を伝送するためのより効率的な方法とシステムの必要性が存在する。
【発明の開示】
【発明が解決しようとする課題】
【0017】
本発明は、上記の問題を解決して、さらに付加的な利点を実現することが出来る。そのような発明での一態様は、快適ノイズ生成のための複雑でないスペクトル推定技術を実行するための方法および装置を提供することである。また本発明のある態様は、信号スペクトルを推定して、快適ノイズ(CN)を既存の方法と比較して容易に生成する方法である。さらに本発明の別の態様は、無音挿入記述子の形で、伝送のための適用プロセスからフィルタ・パラメータ・エンコーディングを分離することを含む。MIPSおよびメモリが高価であるシステムにおいて、信号スペクトルが基本的に長時間にわたり不変であるという事実を用いる方法を利用し、この方法が時間とともにスペクトルに適用することになる。生成される快適ノイズがより現実的な入力ノイズのように聞こえ、かつ安定しているという利点を有する。伝送のためのフィルタ・パラメータ・エンコーディングの分離により、さまざまなシステムの間でより大きな相互接続性をこの分離がもたらすという柔軟性を提供することが出来る。他の便益は、MIPSおよびメモリがさらに能率的に使用できることである。
【0018】
更に、既存のITU推奨G.シリーズG729ABは快適ノイズ生成(CNG)のために異なる方法を使用しており、その方法は高レベルのMIPSおよびメモリを必要とする。CNGのためのさまざまな他の実施態様が存在する。例えば本発明の態様は、この種の既存の方法に対して以下の複数の利点を有する。すなわち本発明は、より気持ち良い擬似快適ノイズ(ホワイトノイズに対して)が生成される;リアルタイム・システムで重要な要素である少ないMIPSおよびメモリを必要とする比較的簡単なアルゴリズムを必要とし;フィルタ・パラメータ・エンコーディング(反響音係数に対する)が適用プロセスとは独立して行われ、これにより必要に応じてMIPSを使用する上で、より大きな柔軟性を有し、さらに一方では同一の基本アルゴリズムを維持しながら(唯一の変更が、符号化アルゴリズムである)、フィルタパラメータを他の形式のエンコーディングにエンコードすることができる。
【0019】
本発明の実施態様では、快適ノイズを生成するためにスペクトル推定を行う方法において、入力ノイズ信号を受信するステップと、所定時間アルゴリズムを使用して前記入力ノイズ信号のスペクトルを近似計算するステップと、音声信号が存在しないタイミングを検出するステップと、そして前記音声信号が存在しないタイミングが検出された時に前記近似計算するステップに基づいて快適ノイズを生成するステップ、とで構成され、前記入力ノイズ信号のスペクトルが所定の時間に渡り略一定であることを特徴とする入力ノイズ信号のスペクトル推定方法が開示されている。
【0020】
本発明の他の実施態様では、前記スペクトルを近似計算するステップは、さらに逆予測値を用いて予測信号のスペクトルへ入力ノイズを合わせるステップ;さらに、前記入力ノイズ信号が略6dB以内であることを確認する内部チェックを行うステップを含むことを特徴とし、前記アルゴリズムは平均最少二乗法であり;前記アルゴリズムは漏洩平均最少二乗法であり、前記アルゴリズムは正規化平均最少二乗法であり;前記アルゴリズムは線形予測コーディング・アルゴリズムであり、さらに、前記アルゴリズムをノイズレベルの変化から独立させるために、平均最少二乗のエラーおよび少なくとも平均最少二乗係数の可変精度計算を実行し;前記生成された快適ノイズは略一定であることを特徴とし;さらに、前記スペクトルを近似計算するステップを信号振幅変化から独立させるために前記アルゴリズムを正規化し;少なくとも一つの無音挿入記述子を送信するために前記近似計算のステップから、少なくとも一つの反響係数へエンコードするフィルタ・パラメータを選別し;システム間の互換性が向上することを特徴とし;MIPSおよびメモリーが効果的に利用されることを特徴とし;前記スペクトルを近似計算するステップは、さらに合成フィルタで前記入力ノイズ信号をフィルタ処理するステップを含むことを特徴とする。
【0021】
そして本発明のスペクトル推定方法は、前記合成フィルタが以下の計算式で定義されており、該計算式中でMがタップ数、wが予測計数、Hが変数zの関数であることを特徴とする請求の範囲15記載の入力ノイズ信号のスペクトル推定方法を開示する。
【0022】
さらに前記合成フィルタは10番台の合成フィルタであることを特徴とする。また前記スペクトルを近似計算するステップは、さらに:音声データ間のノイズを検出するステップと;
ノイズに適用するステップと;そして音声が不活発の時に前記適用ステップに基づいて無音挿入記述子を生成するステップ;とで構成されたことを特徴とする。
【0023】
また本発明の入力ノイズ信号のスペクトル推定方法は、前記無音挿入記述子は少なくとも一つの直接形態係数から反響係数へ以下の計算式で変換することで生成されることを特徴とする。
【0024】
さらに前記無音挿入記述子は少なくとも一つの反響係数から直接形態係数へ以下の計算式で変換することで生成されることを特徴とする。
【0025】
また前記スペクトルを近似計算するステップは、さらに音声データ間のノイズを検出するステップと;ノイズに適用するステップと、そして音声が不活発の時に前記入力ノイズ信号の平均スペクトルに基づいてさらに最適なノイズを生成するステップ、とで構成されたことを特徴とする。
【0026】
本発明の他の実施例として、快適ノイズを生成するためにスペクトル推定を行うシステムにおいて、入力ノイズ信号を受信する受信部と;所定時間アルゴリズムを使用して前記入力ノイズ信号のスペクトルを近似計算するエンコーダと、音声信号が存在しないタイミングを検出するデコーダと;そして前記音声信号が存在しないタイミングが検出された時に前記近似計算するステップに基づいて快適ノイズを生成する快適ノイズ生成器、とで構成され、前記入力ノイズ信号のスペクトルが所定の時間に渡り略一定であることを特徴とする入力ノイズ信号のスペクトル推定を行うシステムを開示する。
【0027】
本実施例の他の側面として、前記スペクトルを近似計算するエンコーダは、さらに逆予測値を用いて予測信号のスペクトルへ入力ノイズを合わせることを特徴とし;前記入力ノイズ信号が略6dB以内であることを確認する内部チェックを行うステップを含むことを特徴とし;少なくともノイズスパイク又は音声セグメントが除外されたものに対して、近似計算がされることを特徴とし;前記アルゴリズムは平均最少二乗法であることを特徴とし;前記アルゴリズムは正規化平均最少二乗法であることを特徴とし;前記アルゴリズムは線形予測コーディング・アルゴリズムであることを特徴とし;前記アルゴリズムをノイズレベルの変化から独立させるために、平均最少二乗のエラーおよび少なくとも平均最少二乗係数の可変精度計算が実行されることを特徴とし;前記生成された快適ノイズは略一定であることを特徴とし;さらに、前記スペクトルを近似計算するステップを信号振幅変化から独立させるために前記アルゴリズムが正規化されることを特徴とし;少なくとも一つの無音挿入記述子を送信するために前記近似計算のステップから、少なくとも一つの反響係数へエンコードするフィルタ・パラメータが選別されることを特徴とし;システム間の互換性が向上することを特徴とし;MIPSおよびメモリーが効果的に利用されることを特徴とし;前記入力ノイズ信号をフィルタ処理する合成フィルタを含むことを特徴とする入力ノイズ信号のスペクトル推定を行うシステムを開示する。
【0028】
さらに本発明による入力ノイズ信号のスペクトル推定を行うシステムでは、前記合成フィルタが以下の計算式で定義されており、該計算式中でMがタップ数、wが予測計数、Hが変数zの関数であることを特徴とする。
【0029】
また前記合成フィルタは10番台の合成フィルタであることを特徴とし、前記エンコーダは、さらに、音声データ間のノイズを検出する検出部と、ノイズに適用する適用部と、そして、音声が不活発の時に前記適用部の適用に基づいて無音挿入記述子を生成する無音挿入記述子生成部、とで構成されたことを特徴とする。
【0030】
さらに前記無音挿入記述子は少なくとも一つの直接形態係数から反響係数へ以下の計算式で変換することで生成されることを特徴とする。
【0031】
さらに前記無音挿入記述子は少なくとも一つの反響係数から直接形態係数へ以下の計算式で変換することで生成されることを特徴とする請求の範囲39記載の入力ノイズ信号のスペクトル推定を行うシステム。
【0032】
また前記エンコーダは、さらに、音声データ間のノイズを検出する検出部と、ノイズに適用する適用部と、そして音声が不活発の時に前記入力ノイズ信号の平均スペクトルに基づいてさらに最適なノイズを生成するノイズ生成部、とで構成されたことを特徴とする。
【0033】
添付の図面(それは中に組み込まれて、この明細書の一部を構成する)は、本発明のさまざまな実施態様を例示して、説明と共に、本発明の原理を説明するのに役立つ。
【0034】
頭字語のリスト
AAL−ATM Adaption Layer
(ATM適用レイヤ)
ADSI−Analog Display Services Interface
(アナログ表示装置サービス・インタフェース)
ADSL−Asymmetric Digital Subscriber Line
AGC−Automatic Gain Control
(自動利得制御)
ASICs−Application-Specific Integrated Circuits
(特定用途向け集積回路)
ATM−Asynchronous Transfer Mode
(非同期転送モード)
BUN−Broadband Unified Framework
(ブロードバンド統一フレームワーク)
CBR−Constant Bit Rate
(コンスタント・ビットレート)
CIDCW−Caller Identifier On Call Waiting
(コールウェイティング上の発信者識別子)
CLECs−Competitive Local Exchange Carriers
(競合ローカル交換キャリア)
CN−Comfort Noise
(快適ノイズ)
CNG−Comfort Noise Generation
(快適ノイズの生成)
CO−Central Office
(中央局)
CO/DLC−Central Office/Digital Loop Carrier
(中央局/デジタル・ループ・キャリア)
CPCS−Common Part Convergence Sublayer
(一般の一部集中サブレイヤ)
CPE−Customer Premise Equipment
(顧客の構内機器)
CRC−Cyclic Redundancy
Check
(周期的冗長検査)
CS-ACELP−Conjugate-Structure Algebraic-Code-Excited Linear-Predictive
(接合構造−代数コード強化リニア補語)
DLCI−Data Link Connection Identifier
(データリンク接続特定子)
DSL−Digital Subscriber Line
(デジタル加入者線)
DSL PHY−Digital Subscriber Line Physical Layer Device
(デジタル加入者線物理レイヤ・デバイス)
DSLAM−Digital Subscriber Line Access Multiplexer
(デジタル加入者線アクセス・マルチプレクサ)
DSP−Digital Signal Processing
(デジタル信号処理)
DSVD−Digital Simultaneous Voice and Data
(デジタル音声およびデータの同時送信)
DTM−Dual Tone Modulation
(二重音調変調)
DTMF−Dual Tone Modulation (or Multi) Frequency
(二重トーン変調(または複数)周波数)
ECSR−Echo Canceller with Single Reflector
(単一リフレクタを有するエコーキャンセラ)
EEPROM−Electrically Erasable Programmable Read Only Memory
(電気的消去可能なPROM)
EPD−Early Packet Discard
(初期のパケット廃棄)
GSM−Global System for Mobile
(携帯端末用グローバルシステム)
IAD−Integrated Access Device
(統合アクセス・デバイス)
IADs−Integrated Access Devices
(複数の統合アクセス・デバイス)
IETF−Internet Engineering Task Force
(インターネット技術特別調査委員会)
ILECs−Incumbent Local Exchange Carriers
(義務的サービスを提供する地区電話会社)
IMA−Inverse Multiplexing over ATM
(ATMの上の逆多重化)
IP−Internet Protocol
(インターネット・プロトコール)
ISOS−Integrated Software On Silicon(登録商標)
(商標名)
ISP−Internet Service Provider
(インターネット・サービス・プロバイダ)
ITU−International Telecommunications Union
(国際電気通信ユニオン)
IXCs−Interexchange Carriers
(交換専門電話会社)
L−Length
(長さ)
LMS−Least Mean Square
(平均最小二乗法)
MIPS−Million Instructions Per Second
(100万命令/秒)
NAT−Network Address Translation
(ネットワークアドレス変換)
NLMS−Normalized Least Mean Square
(ガウスの平均最小二乗法)
NRT−Non Real Time
(非リアルタイム)
OAM−Operations and Management
(オペレーションおよび管理)
OSI−Open Systems Interconnection
(開放形システム相互接続)
PBX’s−Private Branch Exchange’s
(構内電話交換システム)
PC−Personal Computer
(パソコン)
PCP/IP−Transmission Control Protocol on top of the Internet
Protocol
(インターネット・プロトコール上の伝送制御プロトコール)
PDU−Protocol Data Unit
(プロトコール・データ・ユニット)
PPD−Partial Packet Discard
(部分的なパケット廃棄)
PpoA−Point to Point Protocol over ATM
(ATMの上のポイントツーポイント・プロトコール)
PPPoE−Point to Point Protocol over Ethernet(登録商標)
(Ethernet(登録商標)の上のポイントツーポイント・プロトコール)
PPTP−Point Tunneling Protocol
(ポイント・トンネリング・プロトコール)
PSTN−Public Switched Telephone Network
(公共電話交換網)
RMS−Root Mean Square
(実効値)
RT−Real Time
(リアルタイム)
RTP−Real-Time Transport Protocol
(リアルタイム搬送プロトコール)
SDRAM - Synchronous Dynamic Random Access Memory
(同期型随時書き込み読み出しメモリ)
SDSL−Symmetric Digital Subscriber Line
(対称デジタル加入者線)
SF−Scale Factor
(スケールファクタ)
SID−Silence Insertion Descriptors
(無音挿入識別子)
SNMP−Simple Network Management Protocal
(簡易ネットワーク管理プロトコール)
SOHO−Small Office/Home Office
(スモールオフィス/ホームオフィス)
SSCS−Service Specific Convergence Sublayer
(サービス特定集中サブレイヤ)
SVCs−Switched Virtual Circuits
(接続仮想回路)
UNI−User Network Interface
(ユーザー・ネットワーク・インタフェース)
USB−Universal Serial Bus
(ユニバーサル直列バス)
V−Volt
(電気ボルト値)
VAGC−Voice Activity Detection with Automatic Gain Control
(自動利得制御による音声信号検出)
VBR−Variable Bit Rate
(可変ビットレート)
VoDSL−Voice over Digital Subscriber Line
(デジタル加入者線の上の音声)
VPI/VCI−Virtual Path Identifier/Virtual Channel Identifier
(仮想パス識別子/仮想チャネル識別子)
WAN−Wide Area Network
(広域ネットワーク)
【課題を解決するための手段】
【0035】
以下の説明は、VoDSLおよびVoIPアプリケーションに関する多くの特定の実施態様と詳細な説明を提供することにより本発明の完全な知識を伝達することを目的とする。しかしながら本発明がこれらの特定の実施態様および詳細に限られていないと理解されるべきであり、それは単に例示に過ぎない。特定の設計および他のニーズに合わせて、周知のシステム及び方法を考慮して当該技術の通常のスキルを所有している者が、種々の代替実施例におけるその目的と利便性のために本発明を使用し得る点に留意すべきである。
【0036】
本発明の一実施例によれば、快適ノイズを生成するための簡便なスペクトルの推定技術を提供することができる。快適ノイズ発生器(CNG)は、音声信号の無音部分を圧縮し、かつ復元するために実装される。CNGは、無音を圧縮するか又は快適ノイズを生成するために、いかなる音声発声検出器、エコーキャンセラまたは他の類似した装置に実装することができる。本発明は、快適ノイズを生成するための信号スペクトルを推定する簡略な技術を提供する。
【0037】
本発明の一態様では、既存の方法と比較してさらに簡便に信号スペクトルを推定して、それにより快適ノイズ(CN)を生成することが出来る。本発明の他の態様では、無音挿入記述子の形で伝送するために適用プロセスからフィルタ・パラメータ・エンコーディングを選別することが含まれる。
【0038】
100万命令/秒(MIPS)およびメモリが高価であるシステムにおいて、本発明の方法では、信号スペクトルが基本的に長時間に渡り一定であるという事実を用い、この方法はその信号スペクトルを所定時間だけ利用する。その結果、快適ノイズが、よりリアルな入力ノイズの表現として生成されることができる。更に、生成された快適ノイズは、さらに均一のノイズとなる。
【0039】
本発明の他の実施例によれば、伝送のためのフィルタ・パラメータ・エンコーディングの選別が、さらなる柔軟性を有することになる。例えば、さまざまなシステム間のより大きな相互接続性を有することになる。加えて、MIPSおよびメモリを能率的に使うことができる。
【0040】
本発明では、より耳ざわりの良い擬似快適ノイズ(例えばホワイトノイズに対して)が生成できる。本発明は、リアルタイムシステムで重要な要素である簡便なアルゴリズムを用い、かつMIPSおよびメモリを節約することができる。フィルタ・パラメータ・エンコーディング(例えば反響係数に対する)が、適用プロセスの中で独立して形成され、これにより必要に応じてMIPSを使用するだけのより大きな柔軟性を提供することができる。他の例では、フィルタパラメータがエンコーディングの他の形式にエンコードされることになっている場合、基本アルゴリズムは一定または基本的に同一のままであり得る。このように、この例では唯一の変更が、エンコーディング・アルゴリズムである。
【0041】
図1は本発明の一実施例に係るエンコーダのフローチャートを例示する。音声を合成するボコーダ(または他の類似したデバイス)かビルトインの無音圧縮機能が装備されていない場合に、この動作モードを使うことができる。システムの圧縮を改良するために、CNGは音声データの部分間で感知される暗騒音に適用することができ、図1にて図示するように音声が聞こえない時に感知ノイズの特性を表す無音挿入記述子(SID)を生成することが出来る。
【0042】
ステップ110で、音声および無音/バックグラウンド・データを含む入力データが受信される。ステップ112で音声活動の「終了間近」、すなわちフロントエンドの会話または音声データの終了間近な部分が決定される。肯定応答が引き出される場合、ステップ114で、G7xxエンコーディングが行なわれる。更に、ステップ116でコードワードデータがチャネル(デコーダに伝送されるチャネル)に送り出され、そしてシステムはステップ110で、入力データを受ける状態になる。否定応答が引き出された場合、ステップ118で快適ノイズ発生器が稼動される。ステップ120で、フィルタ・パラメータ・エンコーディングがSIDをチャネル(デコーダに伝送するチャネル)に送る。そして、システムの状態はステップ110で、入力データを受けるために復帰する。要するに、図1では入力データが音声または無音として分類する方法であって、音声コードワードデータまたはSIDがそれぞれデコーダに発信されるチャネルに送られるステップを図示する。図15で後述するように図1のシステムは、DSPチップのセクション1540で実行することが可能である。
【0043】
図2は本発明の他の実施例であり、SIDが送り出されない時の代替エンコーダのフローチャートを例示する。図15で後述するように図2のシステムは、DSPチップのセクション1540において実装することが可能である。音声活動の「終了間近」でない場合、CNGが稼動してノイズが生成され、ボコーダによってエンコードすることが出来る。このモードは、残留エコーとノイズの組合せが知覚的に不快なときに使うことができる。CNGは、入力の平均スペクトルに基づいて、知覚的に優良なノイズを生成することが出来る。
【0044】
ステップ210で、入力データが受信される。ステップ212で、音声活動の「終了間近」か否かが決定される。「終了間近」でない場合、ステップ214で図示するように、快適ノイズが適用され、かつ生成される。ステップ216で、G7xxエンコーディングがされる。更にステップ210で、コードワードデータが入力データに送り出される。
【0045】
本発明の一実施例によれば、快適ノイズ発生アルゴリズムが、例えば平均最小二乗法(LMS)機能を使用して入力ノイズのスペクトルに近づけるために実行される。しかしながら、他の機能、例えば正規化平均最小二乗法(NLMS)または線形予測分析(LPC)も実行することが可能である。このような応用は、逆予測値が入力ホワイトノイズを予測されたシグナルの必要スペクトルに合わせるという事実を利用している。この応用は、音声が無い時にもいつでも、ノイズを生成するために使用することが出来る。このノイズのスペクトルは所定時間に渡りおよそ一定であるために、本発明の方法はさらに複雑な信号処理をせずに良好な結果をもたらすことができる。個々のモジュールは、下記に詳述されている。ノイズスパイクまたは音声のセグメント化するのを防ぐために、入力が騒音フロアー6dB(または他の予め定められた値)以内にあることを確認する内部チェックをしてもよい。
【0046】
経験的に、第10台の合成フィルタが、効率とMIPS間の良好なバランスを提供するために用いることが出来る。もちろん他のフィルタも、本発明により実装するこができる。これを使用してその安定度をさらに確実にするために、例えば漏洩LMSと呼ばれているLMSアルゴリズムの変形を使用することができる。他の変形も本発明によれば実行することもできる。アルゴリズムを所定の範囲(例えば、-30dBmから-100dBm)のノイズレベルの変化から独立させるために、LMSエラーおよびLMS係数の可変精度計算を実装することも出来る。加えて漏洩LMSは、これを信号振幅変化から独立するように正規化されてもよい。下の方程式において、括弧内の値が、配列に対する太文字表示の中に示す時間および変数に関連する(例えばvec(n)は時間nでの配列「vec」の値に関連する)。
【0047】
パラメータ:
データ:
計算:
【0048】
LMS応用が基本的には予測プロセスであるために、以下の関係が存在する;
合成フィルタは次のようにが定義される;
ホワイトノイズは、上記の合成フィルタH(z)によって、フィルタをかけられることが可能である。
【0049】
上記フィルタおよびその計算された出力利得によってノイズの固定シーケンスをフィルタリングすることにより、近似の利得が算出できる。これを必要利得(騒音フロア−)で割ると、出力を生成する間に用いられるある比率が計算される。
【0050】
SIDは、標準形を格子係数(例えば反響係数)に変換することにより生成されることができる。
デコード機能において、反対の操作で反響係数を標準形係数に変換するために用いても良い。
近似の利得計算は、またデコード機能において実行することができる。この方法は適用する場合の方法と同じ(又は類似)である。
【0051】
出力が電話/音声バンド(150Hz―3400Hz)内であることを確実にするために、合成フィルタの出力は、以下の帯域フィルタをろ過させることが出来る。
【0052】
本発明の他の実施例によれば、リアルタイム音声合成アプリケーションのための単純なガウスのホワイトノイズ発生器を実装する事が出来る。音声合成およびその他のアプリケーションにおいて、ガウスのホワイトノイズ発生器を実装できる。本発明は、さまざまな音声アプリケーションのために周期性を非周期的にするために2つ以上の一定の(または略一定の)生成器を使用する方法とシステムを提供する。本発明は、固定小数点および他システムのために、計算を複雑化させないで長周期を有するガウスのランダムノイズを生成する方法およびシステムを提供する。
【0053】
音声を合成するときに、ガウスのランダムノイズ発生器を実装する事が出来る。説明を簡単にするため例えば、この種のシーケンスは、擬似乱数シーケンス発生器から、そしてそれから中心極限定理から受けることが可能である。擬似乱数発生器の周期が制限されるときには、そのことは通常ケースであるが、特に例えば安定スペクトル信号を合成するときには、生成されたノイズ形式が周期性を有するために、人工的な音声になり易い。本発明は、アプリケーションの簡潔さを危うくせずに、この欠点を解決する方法およびシステムを提供する。
【0054】
実際に非周期的シグナルを生成するために、2つ以上の異なる乱数発生器が、例えば、2の自乗(P=2k)と同一な周期を有するように実装する事が出来る。
【0055】
図3aは、本発明の多重生成器を実装するシステムの実施例である。乱数発生器には、例えば周期が65536回である16-ビット生成器が含まれる。この場合、入力数は6であるが他の値をセットしてもよい。乱数発生器320には、平均算出部340と接続する入力321、322、323、および平均算出器342と接続する入力324、325、326とが含まれる。乱数発生器330には、平均算出器340と接続する入力331、332、333、および平均算出器342と接続する入力334、335、336とが含まれる。平均算出部340は、入力321、322、323、331、332および333の平均値Avg1を出力できる。平均算出器342は、入力324、325、326、334、335および336の平均値Avg2を出力できる。
【0056】
例えば以下の発生器は、周期が216であり、本発明に実装することが出来る。
発生器1(例えば乱数発生器320):
発生器2(例えば乱数発生器322):
【0057】
中心極限定理につき、合計2*Nサンプル(各々の発生器からのN個のサンプル)は、更に下記で詳細に図示するように、ガウスのノイズ出力の単一値を与えるために平均化される。
【0058】
各周期の後、発生器のサンプル発生値の一つが1(又は他の値)だけ進められ、この発生器が他の発生器の周期より本質的に1だけ少ないことになる。両発生器の周期性がP*(P-1)/(gcd(P,N) * gcd(P-1,N))に増加するところで、2つの発生器の周期が相互に素の関係となる。なおこの場合、Pは第1の発生器の周期であり、P-1は第2の発生器の周期であり、そしてgcd(x,y)は2つの数字x,yの最大公約数である。本発明のこの方法は、さまざまな周期を有するM個の乱数発生器に一般化することが出来る。
【0059】
例えば、1つのサンプルが放棄されその周期は使用せず、予め定められた数(例えば1つのサンプル)によって乱数発生器330がセットされるようにしてもよい。その結果、乱数発生器320が65536回繰り返すことができると共に、乱数発生器330は65535回繰り返すことができる。Avg1およびAvg2は、改良された音響的暗騒音を生じるガウス値を計算するために使用することが出来る。これは一つの発生器(例えば330)からの1つのサンプルを廃棄する結果であり、これにより周期性による人為的な音響の弊害を最小限にしている。例えば本発明のように、第2の発生器(例えば330)が第1の発生器(320)とは異なる周期で実行されない場合には、結果として生じる音響的繰返しは例えば略1.2秒に感じられる。本発明は、基本的にこの音響的繰返しを除去する(または、最小化する)ために実行される。
【0060】
音声合成フィルタの起動は図3bにて図示したように、音声を生成するために行われる。
ガウス起動信号312は、音声合成フィルタ310によってフィルタをかけられ、フィルタ出力314の合成音声として示すようにフィルタ信号が生成される。
【0061】
例えば、8000Hzのサンプリングレートでの以下の例を比較することが出来る。ある例では、Pは65536に等しく、かつNは6に等しい。この場合個々にされる各々のガウス発生器の周期は略2秒であり、この発生器の周期は約24時間である。
【0062】
本発明のさらにもう一つの実施態様によれば、スペクトル情報を含んでいるSIDパケットなしの擬似快適ノイズ生成(CNG)が可能となる。
【0063】
音声通話が使用するバンド幅が最小化されなければならない音声通信システムにおいては、会話中の非音声セグメントのバンド幅を減少するために、音声活動の検出、無音期間の圧縮又は消去が行われる。バンド幅は、非音声オーディオについてほとんど情報を送り出さないことにより節約することができる。この種の情報は、SIDパケットにおいて伝送される。
【0064】
現在ではスペクトル情報が伝送されないときには、ホワイトノイズが生成されるが、このホワイトノイズは、圧縮された暗騒音、非転送の暗騒音、更には非音声の暗騒音とはしばしば無関係であるために、聞くためには不快感を与えることになる。従ってこれは感覚的に合わない結果となる。会話の終了情報を受信したら、無音部分を合成することが出来る。非音声の暗騒音信号に伴うスペクトル情報が伝送されない場合、合成された暗騒音信号は一般的には本当の暗騒音と同じスペクトル特性を有しない。これは、誰かが話している時の暗騒音と話していない時の暗騒音に、不快な音響差を生じさせてしまう。本発明は、上述した問題を解決するための方法およびシステムを提供する。特に本発明は、スペクトルの推定を含んでいるSIDパケットが存在しない時に擬似快適ノイズを生成する方法およびシステムを提供する。
【0065】
ある種の無音圧縮方法には、暗騒音のスペクトル特性を示す情報を伝送することができる。他の技術は、暗騒音についての電力レベルを提供するか、または暗騒音については情報を全く提供しない。スペクトル情報がSIDに含まれないときにデコーダは、スペクトル的に適用する暗騒音を生成する如何なる情報をも有しない。SIDにスペクトル情報を含ませないようにする種々のシステム設計思想がある。それらの設計思想には、複雑でなく、かつ相互接続性を有することが含まれる。例えば、複雑でない点に関する考慮には、送信側の機器のシンプルさが含まれ、これによりスペクトル情報を含んでいるSIDの生成を防ぐかまたは非常に制限することが出来る。他の例では、相互接続性に関する考慮には、巧く定義されたSIDに存在する種々の規格が含まれ、これらSIDには暗騒音電力情報、および暗騒音に関する情報ないし情報の不存在情報が含まれている。
【0066】
本発明は、スペクトル情報を含んでいるSIDパケットが存在しない場合に、実際のノイズのスペクトルを反映している擬似快適ノイズを生成する方法およびシステムを提供する。例えば上で議論されるCNGのための簡便なスペクトル推定技術が、快適ノイズを生成するために実行される。
【0067】
本発明は、音声情報と音声とノイズ間での残留情報を用いて、デコーダ側で快適ノイズを生成する方法およびシステムを提供する。ノイズに対するこの適用は、擬似快適ノイズのスペクトルを推定するさまざまなアルゴリズムを使用して達成することが出来る。本発明の一実施例によれば、適用されるブロックに存在する人為構造音の反復生成を防ぐために、ブロックをベースとしたアルゴリズムではなく、むしろ時間に対して適用アルゴリズムが実行される。送信された騒音フロアーと結合されて適用される本発明により、擬似快適ノイズを生成する能力が提供される。図4aには、フローチャートの形で上記考え方が示されている。
【0068】
図4aは本発明の一実施例であり、デコーダ・プロセスのためのフローチャートの一例である。ステップ410で、会話/終了の情報内容が識別される。会話/終了の情報内容が存在する場合には、ステップ412で快適ノイズの適用が実行される。会話/終了の情報内容が存在しない場合には、ステップ414で快適ノイズが生成される。ステップ412およびステップ414からの情報は、ステップ410の入力に送られる。
【0069】
図4bは本発明の一実施例であり、デコーダ・プロセスを実行するシステム400の1つの例である。図4bは更に伝送するために処理される例示的な検出入力信号424と、受信信号438を例示する(両方とも、x方向に信号振幅、y方向に時間を示す)。422は電話または他の音声通信器を表し、音声および他の信号を処理しデコーダ450に送信するエンコーダ420が付けられている。信号は電話または他の音声通信装置452で受信される。この例では、音声信号430および音声信号432は、デバイス422および/または420と関連する音声活動検出器により検出されて、信号440およ信号442としてそれぞれ受信端(450および/または452)に発信される。434は、音声から無音への移行を示す音声信号の会話終了部分を表す。背景音を検知するために騒音フロア−推定器が実装されている。信号436が、背景音を表す。一つの実施例において、背景音436に伴うパワーの測定値は伝送される。
例えば、背景音436は-60dBのパワーを有する。信号444は、-60dBのパワーで生成された背景音を表す。
【0070】
本発明ではデコーダ側で、音声信号440中の短い停止期間(例えば446、448)が適用アルゴリズムで背景音444を生成するために用いられる。換言すれば背景音は、例えば440のような音声信号中の小さな停止期間または瞬間停止期間から自己学習して得られる。この情報は、図4cのフィルタ462を生成するために使用される。その結果、エンコーダ420からデコーダ450に送り出した情報は、音声信号への転送を制限することで節約することが出来る。本発明は、背景音自体が転送されないときにデコーダ側で適用する方法およびシステムを提供する。換言すれば、伝送は音声信号に限られている。その結果、バンド幅を、暗騒音に関連した情報を送り出さないことにより節約することが出来る。他の実施例によれば、会話の終了情報434は暗騒音を生成するために使用される。会話の終了情報434は、音声と非音声部との間での過渡期を表す。このように終了情報434は、444で背景音を生成するために使用される背景音に関する情報を含んでいる。
【0071】
図4cは本発明の一実施例係る背景音を生成するためのシステムの一例である。ホワイトノイズ発生器460は、受信側で非音声部分の間に挿入のための交替背景音を生成するためのホワイトノイズを生成し、さらに乱数発生生成器が他のタイプの生成器でもよいが含まれている。フィルタ462はホワイトノイズ発生器460の出力を受けて、ある実施例においては固定した起動フィルタとなる。更に適用アルゴリズムを経て、フィルタ462は音声信号の停止期間(例えば446および448)または終了部分(例えば434)に関連した情報に基づいて創作してもよい。この情報は、非音声信号間の背景音を正確に、かつ能率的に生成するために使用してもよい。その結果フィルタ462は、真の(又はおおよそ真の)ノイズ又はエンコーダ側での音声信号中で検出したノイズ特性を表すノイズ・シーケンスを出力できる。
【0072】
本発明のさらに別の実施態様によれば、リアルタイム・システムの固定小数点低遅延のアルゴリズムのために、フィルタ利得を決定し、自動利得制御をする方法とシステムを提供できる。高速処理が必須で、フィルタが定数でなく入力信号に基づいた変数であるシステムにおいては、フィルタ利得を決定し、自動利得制御(AGC)のための方法およびシステムが実行されている。本発明は、低MIPSで、通話毎に単一のサンプル(またはほんの僅かなサンプル)を生成するアプリケーションで用いられる方法およびシステムを提供する。また本発明によれば他のアプリケーションにも実装することが出来る。
【0073】
本発明の追加的な態様として、近似計算を使用してフィルタの利得を計算することも含まれる。これには、スペクトルの点でフィルタをかける入力と同様の信号をフィルタにかけ、その信号を微調整することが含まれる。本発明の微調整プロセスは、低遅延でアルゴリズムの低MIPS状態での、短期移動平均二乗計算(a short term moving mean square calculation)に基づいてもよい。また他のバリエーションも実行可能である。
【0074】
さらに他の構成として本発明は、利得の強力計算と比較して低MIPSを使用し、その利得に基づいて出力を基準化する、出力利得を制御する方法およびシステムを提供する。
本発明のこの方法およびシステムは、特に入力される一個のサンプル入力(またはほんの僅かなサンプル)がある場合に応用可能である。
【0075】
本発明の一実施例によればフィルタの近似の出力利得は、既知入力信号(または代表的入力信号)にフィルタをかけることにより算出される。例えば、時間要素が重要でないルーチン、または例えばフィルタ・タップが定数である場合にはアルゴリズムの始めに、この計算は行うことが出来る。その利得(GO)を用いて、与件の出力(GR)の平方二乗平均(RMS)値のために、スケールファクタ(SF)を計算することが出来る。GRの値は他の手段で決定するか、一定の出力レベルであってもよい。
【0076】
図5および図6は本発明の一実施例であり、フィルタおよびフィルタ利得GFのブロック図である。図5は、代表的な入力信号512がフィルタ510によってフィルタをかけられて、514で示すような近似の出力利得となる構成を示している。図6は612で示すように入力利得GIがあり、それが610で示すフィルタ利得GFでフィルタをかけられ、614で示すように出力利得GOとなる構成を示している。本発明の一実施例によれば、図6のフィルタで次のような計算が行われる。
GO=GFxGI
GR=GOxSF
【0077】
利得の微調整のために、アルゴリズムの空時間に計算されたスケーリング係数を出力の利得制御するために、例えばリアルタイムのフィルタリング中に使用することが出来る。
出力はサンプル毎に得られるので、そのようなサンプルブロックの平均二乗値を、例えばブロック長と同様な所定の期間に渡り計算してもよい。予め定められたブロック長(L)に達すると、その平均二乗値が出力RMSの二乗と比較される。この出力RMS値は、他の方法で測定してもよい。この平均値を見つけるのを容易にするために、単純な掛け算で求められるLの逆元を算出するか、またはLは2または他の数の倍数から作ることが可能である。出力の利得がGR−Dデシベル以下か、あるいはGR+Dデシベル以上により、スケールファクタが所定の小さいデルタ(Δ)デシベル分だけ加えることが出来る。このデルタ(Δ)値は変化が急速であるか段階的であるかを示し、Dはユーザ定義の予め定められた常数である。
【0078】
図7は本発明の一実施例であり、AGCを微調整するためのプロセスを例示する。ステップ710で、sで定義されたサンプルが出力される。ステップ712で、二乗合計計算が行われる。ここで二乗合計はsum squares+s2であり、このsはサンプル、sum squaresは各サンプルの二乗の合計である。加えて、カウンタは1または他の予め定められた値で進められる。ステップ714で、カウントがL(例えばブロック長)である予め定められた値より大きくなると、二乗平均計算が実行される。ここでステップ716で示すように、二乗平均はsum squaresをLで割った値である。またその様でなければ、ステップ710に戻り、一つ又はそれ以上のサンプルが出力される。ステップ718で、二乗平均の値が、GR+Dデシベルより大きいと決定される。ここで定数Dは、ユーザ定義の予め定められた定数である。その場合はステップ720で、SFの値は、デルタ(Δ)・デシベルだけ増加される。もしステップ722で二乗平均の値がGR−Dデシベル未満であると決定されると、ステップ724でSFはデルタ・デシベル(Δ)だけ減少される。さもなければ再びステップ710で、一またはそれ以上の出力サンプルをステップ710で受けられる。ステップ720および/またはステップ724の出力からフィードバックループがステップ710に向かう。
【0079】
近似の利得が出力に加えられた後に、生成されたノイズが±2dBの範囲内であることを確認するために、自動利得制御(AGC)が実行される。この出力利得は、1ブロック平均4msで算出される。この平均が必要騒音フロア−の6dbより大きい(小さい)場合、出力利得は4msごと3dB減らすこと(又は増加すること)が出来る。
【0080】
本発明の他の実施例によれば、CNGモジュールは、音声信号の無音部分を圧縮し、かつ復元する。このCNGは、いかなる音声活動検出器、例えば自動利得制御(VAGC)モジュールを有する音声活動検出器、あるいはエコーキャンセラを有する音声活動検出器、例えば単一反響器付エコーキャンセラ(ECSR)と共に、無音を圧縮するか又は快適ノイズを生成するために稼動する。また他の応用にも実装できる。このCNGは、下記の記述および図8から図14に示すように広範囲に使用することが出来る。
【0081】
図8は本発明の一実施例であり、エンコード側でCNGを使用するシステムを例示する。
この動作モードは、ボコーダが無音圧縮機能を有しないときに使用される。システムの圧縮を改良するために、図8に示すようにCNGは、音声データ間のノイズに適用し、また音声が不活発の時には無音挿入記述子(SID)を生成する。
【0082】
図8に示すように、ステップ810で、エンコーダは入力データのBLOCK_SIZEを受けとる。
ステップ812で、音声活動の終了部分が決定される。もし終了部分が不活発の場合には、ステップ818でNFE_runおよびCNG_adapt機能を実行する。必要に応じてステップ820で、SIDパケットが送り出される。もし音声活動の終了部分が活発であれば、ステップ814でG7xxエンコーディングが実行され、ステップ816でチャネルへコードワードが送られ(デコーダに発信される)、これがデコーダで信号情報をデコードするために用いられる。ステップ820および/またはステップ816の出力の後、システムの状態はステップ810で新規な入力データを受けるためにリセットされる。この時点以降は、システムが再始動し、ステップ816の音声コードワードへ入力データを変換し、このプロセスは音声入力が終了するまで(つまり通話終了まで)続行される。
【0083】
図9は本発明の一実施例であり、SIDが送信されない場合にエンコード側でCNGを使用するシステムを例示する。ステップ910で、入力データのBLOCK_SIZEを受取る。音声の終了部分が不活発であると判断されると、ステップ912でCNGが適用され、ステップ914でノイズが生成され、そのノイズはボコーダによってエンコードされる。特に、ステップ914で、NFE_run、CNG_adaptおよびCNG_generate機能が実行される。このモードは、残留エコーとノイズの組合せがが知覚的に不快なときに用いられる。図9に示すようにCNGは、入力の平均スペクトルに基づいて知覚的に向上したノイズを生成する。ステップ912で音声の終了部分が活発的であると決定された場合には、ステップ916でG7xxエンコーディングされ、ステップ918でエンコードされたコードワードがチャネルに送られ(つまりでコーダに送られ)、デコーダで音声が合成される。ステップ918の出力の後、システムはステップ910でリセットされる。そしてシステムはデータサンプルの新規なBLOCK_SIZE数を受ける準備に入り、このプロセスは音声入力が終了するまで(つまり通話の終了まで)続行する。
【0084】
図10は本発明の一実施例であり、デコード側でCNGを使用するシステムを例示する。
ステップ1010で受けられたコードワードが、ステップ1012でSIDであると決定したら、ステップ1014でCNGがこの情報をデコードし、ステップ1016で快適ノイズを生成する。
特に、ステップ1014でCNG_decode機能が実行され、ステップ1016でCNG_generate機能が実行される。SIDは、一般的に生成されるノイズのスペクトル情報(例えば反響係数)を含む。この動作モードは、CNGまたは標準のIETF(または他の)に合致する他の快適ノイズ発生アルゴリズムがエンコード側で使用されている時に用いられる。必要ならCNG_generate()を、割込みサービスルーチン(ISR)において使うことができる。ステップ1012でSIDを受けなかったら、ステップ1018でG7xxコーディングが実行される。ステップ1020で出力データのBLOCK_SIZEが生成され、ステップ1010に送られる。ステップ1020で音声/無音が出力された後で、システムはそれから新規なコードワード又はSIDを受取るためにリセットされ、このプロセスは通話の終わりまで(つまりコードワード又はSIDが終わるまで)続行する。
【0085】
図11は本発明の一実施例であり、デコード側でCNGを使用するシステムの他の例を示す。このケースではSIDは騒音フロア−以外のノイズに関する情報を有しない。CNGはボコーダがデコードしているプロセスの間に音声データ間のノイズに適用し、SIDを受けた場合にノイズを生成する。このシナリオは、ユーザが単純なホワイトノイズよりむしろ実際の暗騒音に近いノイズを生成することを可能にする。
【0086】
ステップ1110でコードワードを受ける。ステップ1112でSIDが検出される。もしSIDを受けず、従って検出されなかった場合は、ステップ1116でG7xxコーディングが実行される。そしてステップ1118でNFE_runおよびCNG_adapt機能が実行される。更に図11は、ステップ1118でデコードされた音声にCNG_adapt()が適用するシステムを示す。ステップ1114で、必要ならISRでCNG_generate()が使用される。ステップ1120で、出力データのBLOCK_SIZEが生成され、ステップ1110に送られる。
【0087】
本発明の特定の実施例に係る例示的な定数、構成、プロトタイプ、メモリ使用および、ファイル説明に関する詳細は以下の通りである。
内部オブジェクトの定義
ローカル・パラメータの定義
オブジェクトの定義
関数のプロトタイプには以下が含まれている:
【0088】
以下は、CNGモジュールに関連する例示的なファイルのリストおよび説明である。
【表1】
【0089】
以下の例示的なコードは、CNGモジュールがどのように適用し、音声信号の無音信号を生成するかを示す。リニアモードのG726は、活動中の音声をコード化しかつデコード化(復元)するために用いられる。またVAGCモジュールは、無音を検出するために用いられる。Silence Insertion Descriptor(無音挿入記述子、SID)は、インターネット技術特別調査委員会(IETF)のフォーマットを有するとみなすことが出来る。
【0090】
以下の例示的なコードは、CNGモジュールがどのようにエコーキャンセレーション・アプリケーションで音声信号の無音部分を圧縮して、復元するかを示す。G726は、活動中の音声をエンコードして、デコード(復元)するために用いられる。この例では、CNGはECSRと稼動する。SIDは、ノイズレベル情報だけを有するとみなされている。
【0091】
本発明のモジュール機能は他のモジュール機能が実装されても、CNG_init()、CNG_adapt()、CNG_decode()およびCNG_generate()を含むことができる。CNG_init()モジュール機能に伴う例示的なコードは、以下を含む:
【0092】
モジュールは最初に呼ばれる初期化機能を有する。CNGの初期化機能CNG_init()を呼び出す前に、2つのデータ構造が生成される。生成される第1の構成には、CNGオブジェクトが含まれる。CNGの各々が同時使用される毎に、1つのオブジェクトが実行される。CNG_init()は、このオブジェクトを初期化する。第2の構成には、CNGパラメータが含まれる。この構成は個々の必要条件に初期化される。下の表2は、例示的なパラメータおよびそれらの範囲を示す。
【0093】
CNG_init()には、3つ(又はそれ以上)の呼出し用の独立変数を使用する。第1の呼出し用の独立変数は、CNGオブジェクト構成にポインタを含む。第2の呼出し用の独立変数は、CNGパラメータ構成にポインタを含む。第3の呼出し用の独立変数は、スクラッチ・スペース(*stack_ptr)を積み重ねるためにポインタを含む。それは、スクラッチ・スペース(例えば一時的数値変数)に割り当てられるメモリの一番下(例えば最も高いアドレス)を示している。
【0094】
もし*stack_ptrが空白を示している場合、既存のCスタックがスクラッチ・スペースのために使われる。もし分離したスクラッチ間隔がある場合には、モジュールが最大のスクラッチ・スペースを使用出来るように充分なメモリを必要とし、さらにこのスクラップ・スペースには、そのモジュールが中断処理された時に必要とするISDが使用できるだけのオーバーヘッド分も含まれる。定数CNG_STACKMEMSIZEはCNGが必要とするスクラッチ・スペースの量を示すが、ISR使用のためのいかなるオーバーヘッド分も含まれていない。
【0095】
【表2】
【0096】
図12は、本発明の一実施例であり、CNG_adapt機能のためのフローチャートを例示する。2つの呼出し用の独立変数は、それぞれCNGオブジェクトおよびNFEオブジェクトを示すポインタを含む。表3は、図12のCNG_adapt機能で使用する例示的なポインタおよびモード割り当てを例示する。CNG_adapt()を呼ぶ前に、ソースポインタ、SID・モードおよびSID・バッファ・ポインタが、割り当てられることになっている。ソースポインタは、適用されるサイズpADAPTSIZEのソース・バッファに対するポインタである。これは、cng_ptr−>src_ptrに割り当てられる。
【0097】
SID・モード値は、CNG_adaptがSID係数を算出するかどうか決定する。SID・モードは、cng_ptr−>sidModeで特定される。SID計算を必要としていないアプリケーションには、このモードはCNG_NO_SIDにセットされ、そうでなければこの値はCNG_REFLC_SIDにセットされる。CNG_REFLC_SIDモードが使われる場合、ユーザはSID・バッファ・ポインタ(cng_ptr−>sid_ptr)を割り当てる必要がある。SID・バッファは、サイズCNG_SIDSIZEでなければならない。
【0098】
CNGオブジェクトが初期化されたあと、全てのpADAPTSIZEサンプル毎に、無音適用(検出されたら)がCNG_adapt()を呼び出すことにより実行される。スピーチが不活動であることが検出された時にCNG_adapt()はいつでも呼ばれる。CNG_adapt()は、ISRにおいては呼ばれることはない。もしSID・モードがCNG_REFLC_SIDにセットされている場合、CNG_adapt()はSID・バッファに騒音フロア−および反響係数を出力する。
【0099】
快適ノイズ・ペイロードがノイズスペクトルに関して騒音フロア−以外のいかなる情報を含んでいない場合には、CNG_adapt()が音声信号のノイズに適用するために呼び出され、生成されるノイズがより良い品質の中であって、実際のノイズに類似していることが確認される。
生成されたノイズに適用されるのを防ぐためにCNG_adapt()は、サンプルのpADAPTSIZE数がデコード化された音声を含み、図11に示すようにCNGがノイズを生成しなかった時に呼ばれる。
【0100】
図12は、本発明の一実施例であり、CNG_adapt機能を実行するためのステップを示す。
ステップ1210で、信号電力−6dBがノイズ電力以下かどうかが決定される。そうでない場合には、ステップ1212でLMS適用が実行される。ステップ1214で、フィルタ利得正規化および出力利得計算が実行される。ステップ1216で、sidModeがCNG_REFLC_SIDに等しいかどうか決定される。その場合は、ステップ1218で、反響係数変換に対して直接形態が実行される。リターン1220は、CNG_adapt機能の終了を示す。
【0101】
【表3】
【0102】
CNG_decode()モジュール機能に関する例示的なコードは、以下の通りである。
【0103】
図13は、本発明の一実施例であり、CNG_decode機能のためのフローチャートを例示する。その機能の唯一の呼び出し独立変数として、この機能はCNGオブジェクトにポインタを取り入れることができる。表3は、ポインタおよびモードの割振りを例示する。CNG_decode()を呼ぶ前に、SIDポインタcng_ptr−>sid_ptrは、バッファーがサイズCNG_SIDSIZEであると指定するように割り当てられる。SIDの使っていない反響係数は、ゼロにセットされる。
【0104】
CNG_decode()は、無音挿入記述子(SID)をデコードし、快適ノイズの生成のためのCNG_generate()で使用されるフィルタ係数およびオブジェクト変数を初期化する。CNG_decode()は、サンプルのあらゆるpADAPTSIZE数ごとに呼ばれる。SIDがノイズスペクトル特性、すなわち全極フィルタの反響係数を含むときに、CNG_decode()が使うことができる。
【0105】
SIDがノイズレベルだけを含むアプリケーションにおいては、CNG_decode()を使用することができない。CNG_adapt()は、図11で示すようにデコーダで使用される。後者の場合、cng_ptr−>sidModeは、MIPSを減らすためにCNG_NO_SIDにセットされる。
【0106】
図13は、本発明の一実施例であり、CNG_decode機能を実行するためのステップを示す。
ステップ1310で、SIDパラメータはデコードされる。そして、標準形変換に対する反響係数が実行される。ステップ1312で、フィルタ利得正規化および出力利得計算が実行される。
リターン1314は、CNG_decode機能の終了を示す。
【0107】
CNG_generate()モジュール機能に関する例示的なコードは、以下の通りである。
【0108】
図14は、本発明の実施例であり、CNG_generate機能のためのフローチャートを例示する。呼び出し独立変数は、CNGオブジェクトに指定するポインタを含むことができる。表3は、ポインタおよびモード割振を例示する。CNG_generate()を呼ぶ前に、cng_ptr−>dst_ptrが、サイズpGENSIZEの出力バッファに指定するために割振られなければならない。
【0109】
CNG_generate()は、各通話毎にサンプルのpGENSIZE数を生成する。この機能は、またISRにおいて呼ばれることがある。この差異は、pGENSIZE(CNG_initを参照)で特定されることである。快適ノイズを生成するための情報はオブジェクトから直接に取り込むことができ、それはCNG_decode()かCNG_adapt()によって、更新される。
【0110】
図14は、本発明の一実施例であり、CNG_generate機能を実行するための例示的なプロセスのためのステップを示す。ステップ1410で、ノイズが合成される。ステップ1412で、バンドバス・フィルタが実行される。ステップ1414で、自動利得制御は実行される。リターン1416は、CNG_generate機能の終了を示す。
【0111】
本発明のモジュール要件の為の機能上の仕様には、音声の無音部分に適用し、快適ノイズを生成し、そして無音挿入記述子を生成することが含まれる。無音部分を適用し、快適ノイズを生成する事としては、復元された快適ノイズまたは暗騒音は、可能な限り原信号のエネルギーおよびスペクトル形状を保存するのがよい。無音挿入記述子を生成することに関しては、SIDは2001年10月付け快適ノイズのためのReal-Tiem Transportation Protocol (TRP) pyaloadに記載されているように生成される。
【0112】
性能スペックには、復元無音(つまり快適ノイズ)の品質を含むことができて、例えば国際電気通信ユニオン(ITU)のネックスBの標準のG.729/G.729Aに準拠してもよい。
【0113】
図15−図19には、上記のようにSIDパケットがない場合にCNGを使用したシステムを例示する。CNGソフトウェアが、デコード側に使われる。コード化側では無音はエネルギーレベルとして圧縮され、スペクトル情報は伝送されない。コード化側ではCNGは必要でない。デコード側では、音声セグメントの間にG7xxデコーダにより生成した音声に適用し、音声セグメントの存在/暗騒音と合成するためにこの情報を用いる。
【0114】
サンタクララ、カリフォルニアのVirata社製、Magnesium(登録商標)製品において、同社はシリコン(ISOS(登録商標))上での統合ソフトウェアを使用し、プレインテグレイトされたソフトで、プレパッケージのシステムで、選択可能なモジュールで、かつシステム的にフレクシブルであるソフトを開発している。これらは迅速な開発、ローリスクな開発につながり、音声処理マーケット向きで、多くの機能とインタフェース・ドライバ、商品名vCore(登録商標)を提供する。この商品は、C54と互換性あるDigital Signal Processing(DSP)と共に提供され、これらはテキサス・インスツルメンツ社により製造されている。この商品は、通信機器にターゲットが絞られており、例えばブロードバンド用のIntegrated Access Devices(IAD 統合アクセス・デバイス)、構内交換機(PBX)、キーシステム、無線ベース通信機、そしてIP電話等である。このハードウェアおよびソフトウェアのこの強力な組合せは、MIPS集約型のVoDSLおよびVoIPアプリケーションを含む音声および電話アルゴリズムに理想的に適合している。
【0115】
上で議論される発明概念は、Virata社のMagnesium(登録商標)DSPチップのような特定集積回路(ASIC)またはチップセットに組み込むことが可能であり、これらは多種多様なアプリケーションに使用することが出来る。図15、図16は、本発明が組み込まれるハードウェア/ソフトウエア・アーキテクチャ1500および1600を例示する。図15のシステムには、プロトコール・プロセッサ1510、ネットワークプロセッサ1520、物理インタフェース・セクション1530および外部デバイス・セクション1540、そして所望の機能性を実装するソフトウェアが含まれている。図15に示すように、快適ノイズ発生器1550の機能性は、音声アルゴリズムまたは他のソフトウェアとして実行される。
【0116】
図16のシステムには、種々のモジュールおよび/またはアプリケーションと通信するソフトウェア・インタフェース1624が含まれており、それらのモジュールおよび/またはアプリケーションは、音声検出および自動利得制御(ACG)モジュール1610、caller identifier on call waiting(通話待ち者の認識子CIDCW)アナログ表示用インタフェース(ADSI)モジュール1612、全二重スピーカーホン・モジュール1614、待ち進行ファックストーン検出モジュール(call progress fax tone detection module)1616、音声エンコーダモジュール1618、二重音調変調(または複数)周波数(DTMF)モジュール検出、移動モジュール1620、そして回線エコーキャンセラ・モジュール1622を含む。本発明によれば、快適ノイズ発生器モジュール1636が提供されている。加えて、顧客アプリケーション1626、Helium(登録商標)ホストインタフェース1628、ホストドライバ1630、チャネルドライバ1632および電話インタフェース・コントロール1634等の他の機能も実装することが出来る。
【0117】
Virata社のMagnesium(登録商標)音声ソフトウェア(vCore(登録商標))は、世界中で何百ものアプリケーションで証明されるオブジェクトおよびソースコード・ソフトウェアライブラリである。
オープンで、フレキシブルなモジュール方式ソフトウェア構造に基づいて、vCore(登録商標)はシステムデ設計者が最小の開発努力で最少の試験努力に最適である効率的なカスタム・ソリューションを提供することを可能にしている。このvCore(登録商標)に伴うソフトウェアモジュールは、電話機能、ネットワーク・エコーキャンセラ、fax/デルタ関数、音声符合化装置および他の機能を含んだ広範囲にわたるアプリケーションに利用することが出来る。
【0118】
上記システムに取り入れられる電話機能には、以下のシステムも含まれる。すなわち、DTMF−二重音調変調(または複数)周波数(Dual Tone Modulation Frequency)の生成および除去、MFD−Multi-周波数トーン検出(Frequency Tone Detection)、UTD−汎用通話待ち状態トーン検出(Universal Call Progress Tone Detection)、シングルで、二重で調整されたFMTD−FAXおよびモデム・トーン検出トーン発振器(Fax and Modem Tone detection Tone Generator)、そして、VAGC−自動利得制御を有する音声活動検出(Voice Activity Detection with Automatic Gain Control)、等である。ネットワーク・エコーキャンセラには、ITU G.168、多重リフレクタ(最高128ms tail)、ITU G.168−単一リフレクタ(48ms tail)が含まれる。システムに取り入れることが可能であるfax/デルタ機能には、発信者番号通知サービス、コールウェイティング機能を有する発信者番号通知サービス、T.38およびI.366.2のfaxリレー、高水準データリンク制御(HDLC)送信/発信および完全双方向性スピーカーホン、等を含む。音声コーダ装置には、G.726,G.728-低遅延コーダ;G.729、G.729A、G.729B、G.729AB、G.729E;G.723.1(G.723.1A);移動体通信用グローバルシステムGSM-EFR,GSM-AMR-音声コーダ;G.722.1−音声コーダ;そして専用コーダ、等を含む。
【0119】
図17から図19を参照して、Voice-over-DSL Integrated Access Devices(IADs、DSL上の音声統合アクセス機器)はしばしば、複雑な技術で広範囲の集積化を必要とする。すなわちそれらには、非同期転送モード(ATM,Asynchronous Transfer Mode)、パケット、ブリッジング、IPおよびルーティング・ネットワーキング、リアルタイム、料金-品質、音声トラフィック処理、音声エンコード/デコード、エコーキャンセレーション、二重音調変調周波数(DTMF)および他のアルゴリズム、音声制御と公衆電話システムの相互接続プロトコール、等が含まれる。これらの技術は、シリコンおよびソフトウェアが必要であり、連続したオペレーションには高集約化を必要とする。
【0120】
Virata社のAzurite(登録商標)チップセットは例えば、DSL Integrated Access Devices(IADs、DSL上の音声統合アクセス機器)をターゲットにした音声とデータの統合解決手段である。これらのチップセットは、DSLの上の音声システム素子を集積化することによって、飛躍的にパフォーマンスや、より低いコストおよびマーケットへの頭出し時間を向上させた。Virata社のAzurite(登録商標)のAzurite(登録商標)3000-シリーズ・チップセットは、Virata社のMagnesium(登録商標)DSP、Helium(登録商標)の通信用プロセッサと完全なソフトウェアの集積化を特徴としている。Virata社のPHY中性Helium通信用プロセッサは、いかなるDegital Subscriber Line Physical Layer Device(DSL PHY外部デジタル加入者線物理レイヤ・デバイス)と共に使用することが可能であり、これらはxDSL、Asymmetric Digital Subscriber Line(ADSL非対称デジタル加入者線)、Symmetric Digital Subscriber Line(SDSL対称デジタル加入者線)、その他の通信回線であり、この3000-シリーズはDSL IADsの広い範囲に適している。Virata社のAzurite(登録商標)4000-シリーズ・チップセットは、Azurite社のマグネシウムDSP、ベリリウム通信用プロセッサおよび完全なソフトウェア集積化を特徴としている。ベリリウム通信用プロセッサには、組込みのADSL PHYを含み、この4000-シリーズはADSL IADsにぴったりの最高水準の集積化を可能にしている。
【0121】
一実施例において本発明は、DSLの中央局(CO)の局内装置に用いる素子に取り入れることも可能である。CO機器は、しばしばビルトイン周辺装置を有する高性能プロセッサを含んで、種々のCO機器アプリケーション用の通信プロトコール群を集積化している。例えば、Central Office/Digital Loop Carrier(CO/DLC中央局/デジタル・ループ・キャリア)環境での発明的解決策のための可能なアプリケーションには、Digital Subscriber Line Access Multiplexer(DSLAM環境デジタル加入者線アクセス・マルチプレクサ)用のライン・カードが含まれる。例えばAzurite社のHelium・プロセッサおよびISOSソフトウェアは、上流に面しているか又はDSLAMまたはminiSLAMアプリケーションのバックプレーンに接続した倍速バッファ付きポートであれば、最高7つの倍速バッファ付(速くて相互積層されたパス)ADSLポート、あるいは最高13のバッファ付(相互積層されたパスだけ)ポートを集中さるために使用される。Heliumの高速UTOPIA2のインタフェースは、異種類のDSL PHY機器をサポートでき、それらの機器には例えばADSL、SHDSL(一方通行の高ビットレート・デジタル加入者線または対称高密度デジタル加入者線)、その他が含まれる。複数の機器が、多くのポートを通してライン・カードをサポートするために使用可能である。Heliumは、ローカル・メモリからも又は遠隔で中央処理装置/メモリからもブートすることが出来る。
【0122】
提供されるソフトウェアは、種々のAsynchronous Transfer Mode(ATM非同期転送モード)をサポートすることができ、それらはOperations and Management(OAMオペレーションおよび管理)、priority queuing(優先順序付きキューイング)、traffic shaping(トラフィック整理)、constant bit rate(CBR一定ビットレート)、real time(rtリアルタイム)-variable bit rate(VBR可変ビットレート)、non real time(nrt非リアルタイム)-VBR(可変ビットレート)、policing(cell tagging、セルタグによる警備)とcongestion management(輻輳管理)、Early Packet Discard(EPD、初期のパケット廃棄)、Partial Packet Discard(PPD部分的なパケット廃棄)、等である。制御プレーンにおいて、HeliumはQ.2931呼出し処理エージェント付で提供され、このエージェントはswitched virtual circuit(SVCs交換仮想回路)をセットアップし、この中で割り当てられたATMレーベル(Virtual Path Identifier/Virtual Channel Identifier(VPI/VCI仮想パス識別子/仮想チャネル識別子))を、物理的なT1 Wide Area Network(WAN広域エリア・ネットワーク)ポートへ結びつける。管理プレーンにおいては、Heliumはsimple network management protocol(SNMP単純なネットワーク管理プロトコール)エージェント付で提供され、モジュールのパフォーマンスを構成または監視するElement Management(要素管理)によって使用される。例えばリンク故障のためのサービス中断イベントを検出したり、cyclic redundancy check(CRC)error counts(周期的冗長チェックエラー数)を保守および報告することである。
【0123】
他の例では、Virata社のHelium(登録商標)プロセッサは、ATMおよびフレーム・リレーの間でのプロトコール変換をサポートするために用いられる。この種の利用は、インターネット・サービス・プロバイダ(ISP)へ、例えばフレーム・リレー・ネットワークを経由してデータを転送するDSLAMまたはATM交換機の中で使用することが出来る。スイッチ・バックプレーンからのATMセルは、UTOPIA-2インタフェースを経由してHeliumによって受信しAAL-5 PDU(Protocoal Data Unitプロトコール・データ・ユニット)に変換される。結果として生じるPDUは、フレーム・リレーに変換を完了するためにData Link Connection Identifier(DLCI)を有するHDLCヘッダにカプセル化される。プロトコールスタック図に示すように逆方向にもこのプロセスは変換可能である。制御プレーンにおいては、HeliumはQ.2931呼出し処理エージェント付で提供され、これはいずれかの物理的なT1 WANポートに、割り当てられたATMラベル(VPI/VCI)と関連付けるSVCをセットアップする。さらに管理プレーンにおいては、HeliumはSNMPエージェント付で提供され、モジュールのパフォーマンスを構成または監視するElement Management(要素管理)によって使用される。
例えばリンク故障のためにアウトオブサービス・イベントを検出すること、CRCエラー数その他を保守および報告することである。
【0124】
さらにもう一つの実施例において、Virata社のHeliumプロセッサは、エッジ・スイッチ又はminiSLAMのためのATM(IMA)ラインカードを経由するInverse Multiplexing(逆多重送信)の設計で使用されている。HeliumのUTOPIA1/2インタフェースは、最高14台の別々のデバイスをサポートする。ソフトウェアは、優先順序付きキューイング、トラフィック・シェーピングおよび警備のようなトラフィック管理機能をサポートする。例えば輻輳の間、低優先順位セル(セル・ロス優先順位(CLP)=1)は遅延して、高優先で例えば音声およびビデオのような遅延しては具合の悪いトラフィックのために、その余地を与える。またはその代りに、EPD(Early Packet Discard初期のパケット廃棄)はエラー・パケットに帰属する全てのセルを廃棄するために起動される。制御プレーンにおいては、Heliumはユーザー・ネットワーク・インタフェース(UNI User Network Interface)3.0/4.0信号スタック付きで提供され、これはセットアップとSVCの取り込みのために用いられる。管理プレーンにおいて、HeliumはSNMPエージェントおよびTelnetアプリケーション付で提供され、これらはIMAモジュールのパフォーマンスを構成するかまたは監視するためにElement Management(要素管理)によって使用される。
【0125】
図17は、DSLホーム/オフィス・ルーターおよびゲートウェイのハードウェアの実施例を例示する。図17に示すように、IAD 1700は規格電話ジャック1710を含み、それによって標準電話線は、Codec/SLIC(シリアルライン・インタフェース回路)1712を経て音声DSPに接続されている。これは、ローカル的に用いられ、ホームオフィスや中小企業で使用するような構内交換機(PBX)またはスモールオフィス/ホームオフィス(SOHO)のゲートウェイ、あるいはリモート的に中央局で用いられる。例えば4-ポートSLICのようなSLIC 1712は、音声DSP 1720へ接続することができ、それは1730で示すように快適ノイズ発生器機能性をサポートしている。音声DSP(例えばマグネシウム)1720およびより高いレベルのATM、情報処理およびパケット化プロセッサは中央局またはPBX/ゲートウェイに常住する。音声DSP 1720はHelium1722へ接続している。Vitrata社のHeliumはシングルチップ、高度統合ATM切替およびレイヤ2/3処理デバイスである。Helium(登録商標)は更に、他の物理インタフェースと同様に、Ethernet(登録商標) およびUniversal Serial Bus(USB)への直接接続を制御するネットワークプロセッサを含んでいる。例えば、Helium1722は10BaseT 1724、Synchronous Dynamic Random Access Memory(SDRAM同期型随時書き込み読み出しメモリ)1726、Electrically Erasable Programmable Read Only Memory(EEPROM電気的消去可能なPROM)、1728(DSL PHY 1740)、その他のインタフェースと接続する。DSL PHY 1740はまた、ADSL 1744へ接続し、それは接続先ラインドライバおよびフィルタ1746と接続する。DSLに対するインタフェースは、1748で提供されている。加えて電源ユニットは、1750で提供されており、それは+5ボルトの(V)または他の電圧をサポートする。
【0126】
音声DSP 1720は音声データをエンコード/圧縮し、信号の無音部分は削除されるか又は圧縮されて、1730で示すように、快適ノイズ発生器機能によってエンコードされる。より高水準プロセッサでIPまたはDSL伝送等のために処理された後に、圧縮音声データは、ネットワーク経由で受信機へ伝送され、その受信機で各レイヤ毎にデコードされ、データパケットは最終的に正確な音声データへデコードされる。快適ノイズ発生器は、Voice DSPのような受信局に常駐し、発信源からのデータに基づいて信号の無音部分をデコードするか、もし無音データが一緒に消去されていれば、信号の無音部分にノイズデータを挿入して復元する。この復元ノイズ・データは検出されたノイズデータに基づくか、或いは音声データ、履歴データ、又は蓄積された音声概略データに基づいている。このように無音データを取り除くことにより、システムではバンド幅を削減することが出来るようになる。しかしながら、無音の期間に信号が切断され、そして快適ノイズデータで復元と挿入が行われている感覚になるのを避けるのが望ましい。
【0127】
音声データ圧縮およびエンコーディングは、Virata社のG.729-Annex BおよびG.729A-Annex B、Conjugate-Structure Algebraic-Code-Excited Linear-Predictive(CS-ACELP)の音声符合化装置アルゴリズムを使用して行なうことが出来る。Virata社のG.729A-Annex B CS-ACELP音声符合化装置アルゴリズム・モジュールは、ITU-T G.729-Annex AおよびAnnex B音声符合化装置規格を実装する。G.729Aに対するAnnex Bが音声活動検出器および快適ノイズ発生器を定義し、V.70 DSVD(Digital Simultaneous Voice and Data)アプリケーション用に最適化されたG.729またはG.729Aと共に使用される。Conjugate-Structure Agebraic-Code-Excited Linear-Predictive Coding機能を用いてコ-デック(つまりコーダ兼デコーダ)や線形データを8kbpsのコードに圧縮する。Virata社のG.729-Annex B CS-ACELP音声符合化装置アルゴリズム・モジュールは、ITU-T G.729-Annex B音声符合化装置規格を実装する。G.729Aに対するAnnex Bが音声活動検出器および快適ノイズ発生器を定義し、V.70 DSVDアプリケーション用に最適化されたG.729またはG.729Aと共に使用される。CS-ACELP コーディング・アルゴリズムを用いてコ-デック(つまりコーダ兼デコーダ)や線形データを8kbpsのコードに圧縮する。
【0128】
MIPS強化G729圧縮アルゴリズムに代わるものとして、本発明では上述の快適ノイズ発生器(CNG)とG726標準とを結合して用い、データ圧縮を行っている。CNGは、例えばVirata社のMagnesium processorのような音声DSP上のvCore(登録商標)の中に常駐している。音声データは圧縮されて、エンコードされ、そして、パケットはより高レベルのパケット化レイヤに送られ、最終的には通信網を経由して伝送される。転送先の受信機に着くと、即座に音声データはデコードされる。そしてCNGはデータをデコードし、音声情報に含まれているノイズ情報を構成するか又は復元する。
【0129】
図18は、本発明の一実施例に係るソフトウエア・アーキテクチャを例示する。DSP-Main 1822は、音声チャネルからホストインタフェース・レイヤ(HST)を経由してホストプロセッサまでのシステムレベルのデータフローを取り扱うために実行される。特に、DSP-Main 1822は、処理の他のタイプと同様に、low overhead processing(低オーバヘッド処理)1824とlow latency processing(短い待ち時間処理)1826をサポートしている。FXSドライバ1836(TFX)は、FXSイベント・インタフェースのための状態遷移およびシグナル・デバウンシングを扱う。下位レイヤは、コーデック1838、SLIC 1840および音声チャネル(CNL)用デバイスドライバ1834のためのデバイスドライバを含む。ブートローダ1830は、スタートアップの後でDSPイメージをロードする。システムは、他の特徴の中で最小のオーバーヘッド、最小のCPU使用、最短の待ち時間および集積化の容易化、等の組合せを提供する。
【0130】
図18は、Virata社のHelium・プロセッサ1810は、Virata社のMagnesium processor 1820に接続し、さらにコーデック/SLIC 1852を経由して電話1850または他のデバイスに接続している状態を図示する。Helium・プロセッサ1810は、ハードウェア抽象レイヤ1814と同様に音声プログラミングインタフェース1812をサポートする。他の機能性は、プロセッサ1810によりサポートされている。Magnesium processor 1820は、シェア-メモリ1828、ブートローダ1830、ホストインタフェース1832、さまざまなアルゴリズム1842-1848(例えば快適ノイズ発生器1842)、他の機能と同様な種々の機能(1834-1840)を含む。
【0131】
図19は、本発明の一実施例に係る集積化したDSLアクセス・デバイス用ソフトウェアを示す。図19に示すように、音声DSPソフトウェアは、通話セットアップ1910、音声処理1912および管理1914を含む。他の音声ソフトウェアも提供される。本発明に係る1916で示す快適ノイズ発生器機能性は、1912の音声処理機能でサポートされている。音声DSPインタフェース1920は、音声DSPソフトウェアと通信用プロセッサ・ソフトウェア間のインタフェースを提供する。通信用プロセッサ・ソフトウェアには以下の機能が含まれる。それらは、電話シグナリング1922、DSPインタフェース1924、Common Service Specific Convergence Sublayer(SSCS一般のサービス特定の集合サブレイヤ)インタフェース1926、Jet Stream SSC 1928、Copperoom SC 1930、専用SSCS 1932、ルーター1934、Network Address Translation(NATネットワークアドレス変換)、Point to Point Tunneling Protocol(PPTP)1936、Transmission Control Protocol on top of the Internet Protocol(TCP/IPインターネット・プロトコールの上に伝送制御プロトコール)1938、Spanning-tree bridge(1940橋渡しツリーブリッジ)、Open Systems Interconnection(OSI)Layer 2(OSIオープンシステム相互接続2レイヤ)1942、Request for Comments RFC 1944、Point to Point Protocol over ATM(PPPoA)1946、Point to Point Protocol over Ethernet(登録商標)(PPPoEイーサネット(登録商標)経由のPoint to Pointのプロトコール)1948、ATM Adaptation Layer(AAL ATM適用レイヤ)-2 Common Part Convergence Sublayer(CPCS)1950、ATM Adaptation Layer(AAL)-5 1952、シグナリング1954、トラフィック管理1956、Broadband Unified Framework(BUN)装置ドライバ・フレームワーク1958、ATM ドライバ1960、およびその他の機能である。
【0132】
データのカプセル化機能性はさまざまな方法により提供されており、それらは例えば1944で示すようなRFC 1483、PPPoA 1946およびPPPoE 1948を含む。カプセル化は、それらの下の論理結合と同様に、一般的に処理される。例えばカプセル化はSpanning-tree bridge 1940またはIPルーター1934に添付されている。最終結果は、従来のパケットインタフェースのポートとカプセル化したポートの間、または単純にカプセル化したポート間で、簡単にルート又はブリッジする能力を含む。1944で示すようにRFC 1483は、ATMネットワークの上の終端局を結合する単純な方法を提供する。PPPoA 1946は、利用者データがIPパケットの形で伝送されることを可能にする。ある例では、PPPoE 1948のカプセル化は、パーソナルコンピュータ(PC)または他のデバイスから、Ethernet(登録商標)経由そしてRFC 1483カプセル化を使ったDSLリンクを経由して、DSL機器へPPPトラフィックを伝送するために使用される。PPPoEリレー・エージェントは、ローカル的に発信されたPPPoEトラフィックがどのセッションに属すのかを決定するためのブリッジとして稼動する。
【0133】
AAL-2(例えば1950)は、音声トラフィックを伝送するために使われる。AALには少なくとも2つのレイヤを含む。下位レイヤは、例えばトレーラ加算、パッディング、CRCチェックおよび他の機能等の共通タスクを取り扱うCPCSを含む。上位レイヤは、例えばデータ転送を担保するような特定のタスクをを取り扱うSSCSを含む。AAL-5(つまり1952)は効率を最大化する意図でデータを効率的かつ確実に伝送することを行い、かつ他の機能を行なう。
【0134】
AAL-5(つまり1952)は、どのようにセルへのセグメント化を行い、どのようにセルからの組立てを行うかを定義する一種のATM適用レイヤである。さまざまなAALが、多様なトラフィック必要条件をサポートするために定めることが出来る。
【0135】
シグナリング1954は、2つのポイント間で仮想回路をダイナミックに決める手段を提供する。Spanning-tree bridges 1940は、spanning-treeオプションで物理的に取り外されたネットワーク間で透明なブリッジを提供する。Spanning-treeアルゴリズムは冗長を扱い、更に堅固性を向上させる。
【0136】
BUN装置ドライバ・フレームワーク1958は広範囲なパケットとセルベースのハードウェア装置に一般的なインタフェースを提供する。BUNはハードウェア依存機能からハードウェア非依存機能を区別するので装置ドライバ・フレームワークと呼ばれ、そのようにして装置ドライバの開発、保守、およびデバッグを簡略にすることができる。
【0137】
ATMドライバ1960は、例えばアプリケーションソフトウェア・タスクおよび物理的なATMポートの間で、データを通過させる。ATMドライバ1960はATMのセルセグメント化と組立て、AALカプセル化、そしてマルチプレックス同時並行の一連のデータを実行する。
【0138】
前述の記述には多くの詳細および特定性が含まれるが、これらは単に説明のために含まれるのであって、本発明の限定と解釈されるべきでない。上記した実施態様に対する多くの変更は、本発明の精神と範囲から逸脱することなく、行うことが可能である。
【0139】
本発明は、本願明細書において記載されている実施例により範囲が限定されることはない。実際は、ここの記載に加えて本発明のさまざまな修正は、前述の説明と添付図面から当業者には明白である。従ってそのような修正は、以下添付の請求の範囲の範囲内であると理解される。更に、本発明は本願明細書において、特定の目的のための特定の環境下で、特定実施の内容で記載されているが、当業者はその有用性はそれに限定されないと認識され、本発明はどのような目的のどのような環境下であっても、効率的に実行可能である。従って本願明細書において下記に述べるクレームセットは、ここに開示した発明の息遣いと精神を考慮に入れて理解されなければならない。
【図面の簡単な説明】
【0140】
本発明は、添付の図面と連動して、以下の発明の詳細な説明を読み込むことによって、より完全によく理解される。
【0141】
【図1】本発明の第1の実施例によるエンコーダの一例を示すフローチャートである。
【図2】本発明の第1の実施例によるエンコーダの他の例を示すフローチャートである。
【図3a】本発明の第2の実施例による多重生成器を実装するシステム一例である。
【図3b】本発明の第2の実施例による音声合成フィルタの一例を示すブロック図である。
【図4a】本発明の第3の実施例によるエンコーダの一例を示すフローチャートである。
【図4b】本発明の第3の実施例によるデコーダ・プロセスを実装するシステムの一例である。
【図4c】本発明の第3の実施例による暗騒音を生成するシステムの一例である。
【図5】本発明の第4の実施例によるフィルタを示すブロック図である。
【図6】本発明の第4の実施例によるフィルタを示すブロック図である。
【図7】本発明の第4の実施例による自動利得制御を微調整するためのプロセスの一例を示すフローチャートである。
【図8】本発明の一実施例よるコード化側上のCNGを使用するシステムの一例を示す。
【図9】本発明の一実施例よるSIDが送り出されない場合にコード化側上のCNGを使用するシステムの一例を示す。
【図10】本発明の一実施例よるデコード化側上のCNGを使用するシステムの一例を示す。
【図11】本発明の他の実施例よるデコード化側上のCNGを使用するシステムの一例を示す。
【図12】本発明の一実施例よるCNG_adapt機能のためのフローチャートを例示する。
【図13】本発明の一実施例よるCNG_generate機能のためのフローチャートを例示する。
【図14】本発明の一実施例よるCNG_decode機能のためのフローチャートを例示する。
【図15】本発明の態様が組み込まれたソフトウエア・アーキテクチャの略図である。
【図16】本発明の態様が組み込まれたソフトウエア・アーキテクチャの略図である。
【図17】本発明の態様が組み込まれたハードウェア・アーキテクチャの略図である。
【図18】本発明の態様が組み込まれたハードウェア・アーキテクチャの概要図である。
【図19】本発明の態様が組み込まれたソフトウエア・アーキテクチャの概要図である。
【0001】
一般に本発明は、単一のスペクトル推定技術に関連し、特に単一のスペクトルを推定し、より簡単に擬似快適ノイズを発生する方法とシステムに関する。
【背景技術】
【0002】
デジタル加入者線(DSL、Degital Subscriber Loop、xDSL等)は、従来の銅の電話線の上でデジタルデータの高速伝送を可能にする技術を必要とする。すなわちこの技術では、最終ユーザと電話会社の間で既存の銅の電話線の上で高速データ通信ができるように設計されているデジタル電気通信プロトコールを必要とする。
【0003】
2つの従来のモデムが電話システム(例えば公衆回線網(Publish Switched Telephone Network(PSTN))で接続するときに、通信は音声会話と同様に処理することができる。これは電話会社(telco)にとっては投資が必要ない利点がある反面、不利な点は通信に利用できるバンド幅が、音声会話(最高でも通常64kb/s(DS0))に非常に利用できるバンド幅と同じことである。電話会社が信号をアナログよりむしろデジタルとして取り扱う場合には、個々の家庭またはオフィスへ引き込まれている2線の縒り銅線は、通常64kb/sを遥かに超える通信速度を可能とする。
【0004】
用いられる通信プロトコールを変化させ、また種々のサービスレベルを提供して、多くの基本的な通信方法が実行されている。通信の処理能力は約128kb/sから8Mb/s以上であり、また通信は対称形あるいは非対称でもあり得る(すなわち、上り通信と下り通信速度が同じであっても異なってもよい)。さらに通信装置の価格およびサービス料金も、かなり異なっている。
【0005】
多くの異なる種類のモデム通信機器において重要な要素は、音声処理サブシステムであり、それは信号伝達transcodin機能、Dual Tone Modulation Frequency(DTMF)処理機能、エコーキャンセレーション機能等を実装する。、この手の音声処理を必要とする機器には、例えば電話から移動体通信(GSM)の基地局のためのグローバルシステム、更にはブロードバンド用の統合アクセス機器等の全てが含まれる。音声処理サブシステムは、ソフトウェアでアルゴリズムを実行するセットをベースとし、それを特徴とするDegaital Signal Processing(DSP)であってもよい。これらのアルゴリズムは、アルゴリズムのDSPプログラムの専門家によって、アセンブリ・コードの形態にマニュアルでコード化でもよい。また、必要とするアルゴリズムを必要とするコンビネーションで組み合せ、そしてそれらの音声処理サブシステムとインタフェースをとる簡単な方法が望まれている。
【0006】
Voice over Degaital Subscriber Line(VoDSL)により銅線の電話線のインフラで、顧客に優良な音声通信と広範囲なデータ通信アプリを提供することが可能となった。VoDSLは音声通信サービスが可能であるプラットホームの対応部と連動してDSLプラットホームを実装する。このVoDSLは更に、data competitive local exchange carriers(競合電話会社CLECs)に収益力を増やす方法を提供し、incumbent local exchange carries(義務的地域電話会社ILECs)にはケーブルモデムの解決策を提供し、さらにinterexchange carriers(データ交換専門電話会社IXCs)にはローカルな音声網にアクセスできる方法を夫々提供することが出来る。このように、どのようなタイプの電話会社であっても、VoDSLを通して入手可能なサービスの価値を増大すことができるようになる。
【0007】
通常、VoDSLは、他のコンポーネント中に音声ゲートウェイ、統合アクセス・デバイス(IAD)を含んでいる。音声ゲートウェイは、音声交換機または他の類似したデバイスに配信するためのフォーマットにパケット組立し、かつ変換される音声パケットを提供する。音声ゲートウェイはトラフィックが、データ網からアクセスされて、かつサービスおよびデータ交換のためにPSTNに送り届けられるようにすることができる。IADは、DSLモデムとして機能し、他の機能性を実装することが出来る。このIADはDSL通信網サービスと顧客の音声およびデータ装置間のインタフェースを提供する。またこのIADは、DSLネットワークサービスおよび顧客の通信網機器間のインタフェースとして機能する。更に、IADは音声とデータの処理が可能な機器を結合するために用いられる。
【0008】
VoDSLは、またインターネット・プロトコール(IP)を経て伝送されることができる。VoIPはインターネット・プロトコールの上の音声として定義されることができる。そしてインターネット・プロトコールには、IPネットワークの上で音声通話を可能にするすべての技術も含まれる。VoIPと関係しているいくつかの進んだ技術には、音声、faxまたはビデオ・パケットを信頼できる方法で利用者に配信することも含まれる。これは、デジタル化され、インターネットの限られたバンド幅のために圧縮し、かつネットワークを経由して送り出される情報発信源から、音声またはデータを取り込むことにより達成することが出来る。このプロセスは、音声による通信が可能になるように反対方向の処理がされる。このVoIPは、会社および他の法人を含むユーザがIPネットワーク(公衆回線網PSTNに代わり)を経由して通話が出来るようにした。
【0009】
VoDSL、VoIPおよび他の音声アプリケーションを用いる場合には、バンド幅および処理能力を向上するために用いられる無音部分抑制を考慮する必要がある。この無音部分抑制は、通話中の無音部分(つまり誰も話していない部分)をパケットする必要がない様にその部分を取り除くことを意味する。音声およびデータ情報を同時に送信する際のビットレートを最適化するために、音声信号検出器が音声信号の無音部分を検出する。すなわち音声信号中の無音部分を送信するのではなく、所定のデータ(つまり無音挿入記述子)が一連のパケット列に挿入され、これにより本来は音声通信のために割り振られたバンド幅を有効に利用することが出来るようになる。しかしながら効果的なビットレートを提供できる反面、音声データの無音部分に伴う暗騒音を消去すると、通話者が完全な消音無音期間を受信して全く聞こえないという不具合があり、また自然の連続的な通話ではなく通話の完全なOn/Off感覚を伴う不具合がある。
【0010】
無音部分抑制に関連して、快適ノイズ生成(comfort noise generation)がされて、会話やその他の音声信号の無音部分に快適ノイズを挿入して自然的な音声の再生成を行う。従来の快適ノイズ生成器の欠点は、それらが大きなMIPS(100万命令語/秒)および記憶容量を必要とし、効率性および効率的な有効音声伝送を減勢することである。
【0011】
既存の国際電気通信連合(ITU)推奨のG.シリーズG729ABでは、ガウスのノイズ生成のためのより単純な方法を使用するが、それにはノイズが周期性を有するという欠点がある。他のノイズ生成器はさらに大きなMIPSを必要とし、リアルタイム・システムには適さず、またその複雑さは正当化されていない。
【0012】
全ての振動数に対して単位のバンド幅当たりのエネルギーが一定に設定した無秩序なノイズであるホワイトノイズを生成するガウスのホワイトノイズ生成器を、会話と他の音声信号を合成するアプリケーションにおいては、実装することができる。ガウスのノイズ生成器を実装して使用する一つの方法として、統一したランダム生成器上で中心極限定理を使用することが含まれる。しかしながら、特に定振幅スピーチ、ノイズ信号または他のアプリを長時間生成させる時に、これには周期性の欠点がある。また他のノイズ生成器もさらに大きなMIPSを必要とし、リアルタイム・システムには適さず、またその複雑さが正当化されていない。
【0013】
一般的に、過剰な待ち時間がかかると、電話の音声品質を低下させるために、電気通信装置ではこの待ち時間に関しては非常に厳しい要求がある。従って、電気通信で用いられる信号処理アルゴリズムは通常、音声データを非常に小さなブロックにして実行しなければならない。例えば、VoDSLのCustomer Premise Equipment(CPE)では、デジタル信号プロセッサは8kHzの4つのデータサンプルブロックで稼動する。
【0014】
データ・ネットワークシステムの上の先進的な音声圧縮技術は、適用無音圧縮技術およびその復元技術である。この機能の一態様では、『本当の』暗騒音と一致するようにスペクトル的にノイズを生成することを目的としたフィルタで、バンド幅を保存するために伝送されないガウスのホワイトノイズをフィルタする事で擬似暗騒音信号が生成される。
【0015】
しかしながらフィルタ係数が必ずしも正しい利得を含むという訳ではないので、結果として生じるシグナルは本当の暗騒音と同じ強度ではない。またフィルタに対する起動は、一般に本当の暗騒音の利得とは異なる利得の出力を生じる幾つかの利得を有する。加えて、擬似信号の効率的生成は一度に4つのサンプルを生成できるだけであり、信号強度を測定して利得を補正することを難しくする(さらにこの機能が1秒につきほぼ2000回呼ばれていると仮定すると、計算するのに大変な負荷がかかる)。
【0016】
したがって、VoDSLやVoIPの技術分野では、音声信号を伝送するためのより効率的な方法とシステムの必要性が存在する。
【発明の開示】
【発明が解決しようとする課題】
【0017】
本発明は、上記の問題を解決して、さらに付加的な利点を実現することが出来る。そのような発明での一態様は、快適ノイズ生成のための複雑でないスペクトル推定技術を実行するための方法および装置を提供することである。また本発明のある態様は、信号スペクトルを推定して、快適ノイズ(CN)を既存の方法と比較して容易に生成する方法である。さらに本発明の別の態様は、無音挿入記述子の形で、伝送のための適用プロセスからフィルタ・パラメータ・エンコーディングを分離することを含む。MIPSおよびメモリが高価であるシステムにおいて、信号スペクトルが基本的に長時間にわたり不変であるという事実を用いる方法を利用し、この方法が時間とともにスペクトルに適用することになる。生成される快適ノイズがより現実的な入力ノイズのように聞こえ、かつ安定しているという利点を有する。伝送のためのフィルタ・パラメータ・エンコーディングの分離により、さまざまなシステムの間でより大きな相互接続性をこの分離がもたらすという柔軟性を提供することが出来る。他の便益は、MIPSおよびメモリがさらに能率的に使用できることである。
【0018】
更に、既存のITU推奨G.シリーズG729ABは快適ノイズ生成(CNG)のために異なる方法を使用しており、その方法は高レベルのMIPSおよびメモリを必要とする。CNGのためのさまざまな他の実施態様が存在する。例えば本発明の態様は、この種の既存の方法に対して以下の複数の利点を有する。すなわち本発明は、より気持ち良い擬似快適ノイズ(ホワイトノイズに対して)が生成される;リアルタイム・システムで重要な要素である少ないMIPSおよびメモリを必要とする比較的簡単なアルゴリズムを必要とし;フィルタ・パラメータ・エンコーディング(反響音係数に対する)が適用プロセスとは独立して行われ、これにより必要に応じてMIPSを使用する上で、より大きな柔軟性を有し、さらに一方では同一の基本アルゴリズムを維持しながら(唯一の変更が、符号化アルゴリズムである)、フィルタパラメータを他の形式のエンコーディングにエンコードすることができる。
【0019】
本発明の実施態様では、快適ノイズを生成するためにスペクトル推定を行う方法において、入力ノイズ信号を受信するステップと、所定時間アルゴリズムを使用して前記入力ノイズ信号のスペクトルを近似計算するステップと、音声信号が存在しないタイミングを検出するステップと、そして前記音声信号が存在しないタイミングが検出された時に前記近似計算するステップに基づいて快適ノイズを生成するステップ、とで構成され、前記入力ノイズ信号のスペクトルが所定の時間に渡り略一定であることを特徴とする入力ノイズ信号のスペクトル推定方法が開示されている。
【0020】
本発明の他の実施態様では、前記スペクトルを近似計算するステップは、さらに逆予測値を用いて予測信号のスペクトルへ入力ノイズを合わせるステップ;さらに、前記入力ノイズ信号が略6dB以内であることを確認する内部チェックを行うステップを含むことを特徴とし、前記アルゴリズムは平均最少二乗法であり;前記アルゴリズムは漏洩平均最少二乗法であり、前記アルゴリズムは正規化平均最少二乗法であり;前記アルゴリズムは線形予測コーディング・アルゴリズムであり、さらに、前記アルゴリズムをノイズレベルの変化から独立させるために、平均最少二乗のエラーおよび少なくとも平均最少二乗係数の可変精度計算を実行し;前記生成された快適ノイズは略一定であることを特徴とし;さらに、前記スペクトルを近似計算するステップを信号振幅変化から独立させるために前記アルゴリズムを正規化し;少なくとも一つの無音挿入記述子を送信するために前記近似計算のステップから、少なくとも一つの反響係数へエンコードするフィルタ・パラメータを選別し;システム間の互換性が向上することを特徴とし;MIPSおよびメモリーが効果的に利用されることを特徴とし;前記スペクトルを近似計算するステップは、さらに合成フィルタで前記入力ノイズ信号をフィルタ処理するステップを含むことを特徴とする。
【0021】
そして本発明のスペクトル推定方法は、前記合成フィルタが以下の計算式で定義されており、該計算式中でMがタップ数、wが予測計数、Hが変数zの関数であることを特徴とする請求の範囲15記載の入力ノイズ信号のスペクトル推定方法を開示する。
【0022】
さらに前記合成フィルタは10番台の合成フィルタであることを特徴とする。また前記スペクトルを近似計算するステップは、さらに:音声データ間のノイズを検出するステップと;
ノイズに適用するステップと;そして音声が不活発の時に前記適用ステップに基づいて無音挿入記述子を生成するステップ;とで構成されたことを特徴とする。
【0023】
また本発明の入力ノイズ信号のスペクトル推定方法は、前記無音挿入記述子は少なくとも一つの直接形態係数から反響係数へ以下の計算式で変換することで生成されることを特徴とする。
【0024】
さらに前記無音挿入記述子は少なくとも一つの反響係数から直接形態係数へ以下の計算式で変換することで生成されることを特徴とする。
【0025】
また前記スペクトルを近似計算するステップは、さらに音声データ間のノイズを検出するステップと;ノイズに適用するステップと、そして音声が不活発の時に前記入力ノイズ信号の平均スペクトルに基づいてさらに最適なノイズを生成するステップ、とで構成されたことを特徴とする。
【0026】
本発明の他の実施例として、快適ノイズを生成するためにスペクトル推定を行うシステムにおいて、入力ノイズ信号を受信する受信部と;所定時間アルゴリズムを使用して前記入力ノイズ信号のスペクトルを近似計算するエンコーダと、音声信号が存在しないタイミングを検出するデコーダと;そして前記音声信号が存在しないタイミングが検出された時に前記近似計算するステップに基づいて快適ノイズを生成する快適ノイズ生成器、とで構成され、前記入力ノイズ信号のスペクトルが所定の時間に渡り略一定であることを特徴とする入力ノイズ信号のスペクトル推定を行うシステムを開示する。
【0027】
本実施例の他の側面として、前記スペクトルを近似計算するエンコーダは、さらに逆予測値を用いて予測信号のスペクトルへ入力ノイズを合わせることを特徴とし;前記入力ノイズ信号が略6dB以内であることを確認する内部チェックを行うステップを含むことを特徴とし;少なくともノイズスパイク又は音声セグメントが除外されたものに対して、近似計算がされることを特徴とし;前記アルゴリズムは平均最少二乗法であることを特徴とし;前記アルゴリズムは正規化平均最少二乗法であることを特徴とし;前記アルゴリズムは線形予測コーディング・アルゴリズムであることを特徴とし;前記アルゴリズムをノイズレベルの変化から独立させるために、平均最少二乗のエラーおよび少なくとも平均最少二乗係数の可変精度計算が実行されることを特徴とし;前記生成された快適ノイズは略一定であることを特徴とし;さらに、前記スペクトルを近似計算するステップを信号振幅変化から独立させるために前記アルゴリズムが正規化されることを特徴とし;少なくとも一つの無音挿入記述子を送信するために前記近似計算のステップから、少なくとも一つの反響係数へエンコードするフィルタ・パラメータが選別されることを特徴とし;システム間の互換性が向上することを特徴とし;MIPSおよびメモリーが効果的に利用されることを特徴とし;前記入力ノイズ信号をフィルタ処理する合成フィルタを含むことを特徴とする入力ノイズ信号のスペクトル推定を行うシステムを開示する。
【0028】
さらに本発明による入力ノイズ信号のスペクトル推定を行うシステムでは、前記合成フィルタが以下の計算式で定義されており、該計算式中でMがタップ数、wが予測計数、Hが変数zの関数であることを特徴とする。
【0029】
また前記合成フィルタは10番台の合成フィルタであることを特徴とし、前記エンコーダは、さらに、音声データ間のノイズを検出する検出部と、ノイズに適用する適用部と、そして、音声が不活発の時に前記適用部の適用に基づいて無音挿入記述子を生成する無音挿入記述子生成部、とで構成されたことを特徴とする。
【0030】
さらに前記無音挿入記述子は少なくとも一つの直接形態係数から反響係数へ以下の計算式で変換することで生成されることを特徴とする。
【0031】
さらに前記無音挿入記述子は少なくとも一つの反響係数から直接形態係数へ以下の計算式で変換することで生成されることを特徴とする請求の範囲39記載の入力ノイズ信号のスペクトル推定を行うシステム。
【0032】
また前記エンコーダは、さらに、音声データ間のノイズを検出する検出部と、ノイズに適用する適用部と、そして音声が不活発の時に前記入力ノイズ信号の平均スペクトルに基づいてさらに最適なノイズを生成するノイズ生成部、とで構成されたことを特徴とする。
【0033】
添付の図面(それは中に組み込まれて、この明細書の一部を構成する)は、本発明のさまざまな実施態様を例示して、説明と共に、本発明の原理を説明するのに役立つ。
【0034】
頭字語のリスト
AAL−ATM Adaption Layer
(ATM適用レイヤ)
ADSI−Analog Display Services Interface
(アナログ表示装置サービス・インタフェース)
ADSL−Asymmetric Digital Subscriber Line
AGC−Automatic Gain Control
(自動利得制御)
ASICs−Application-Specific Integrated Circuits
(特定用途向け集積回路)
ATM−Asynchronous Transfer Mode
(非同期転送モード)
BUN−Broadband Unified Framework
(ブロードバンド統一フレームワーク)
CBR−Constant Bit Rate
(コンスタント・ビットレート)
CIDCW−Caller Identifier On Call Waiting
(コールウェイティング上の発信者識別子)
CLECs−Competitive Local Exchange Carriers
(競合ローカル交換キャリア)
CN−Comfort Noise
(快適ノイズ)
CNG−Comfort Noise Generation
(快適ノイズの生成)
CO−Central Office
(中央局)
CO/DLC−Central Office/Digital Loop Carrier
(中央局/デジタル・ループ・キャリア)
CPCS−Common Part Convergence Sublayer
(一般の一部集中サブレイヤ)
CPE−Customer Premise Equipment
(顧客の構内機器)
CRC−Cyclic Redundancy
Check
(周期的冗長検査)
CS-ACELP−Conjugate-Structure Algebraic-Code-Excited Linear-Predictive
(接合構造−代数コード強化リニア補語)
DLCI−Data Link Connection Identifier
(データリンク接続特定子)
DSL−Digital Subscriber Line
(デジタル加入者線)
DSL PHY−Digital Subscriber Line Physical Layer Device
(デジタル加入者線物理レイヤ・デバイス)
DSLAM−Digital Subscriber Line Access Multiplexer
(デジタル加入者線アクセス・マルチプレクサ)
DSP−Digital Signal Processing
(デジタル信号処理)
DSVD−Digital Simultaneous Voice and Data
(デジタル音声およびデータの同時送信)
DTM−Dual Tone Modulation
(二重音調変調)
DTMF−Dual Tone Modulation (or Multi) Frequency
(二重トーン変調(または複数)周波数)
ECSR−Echo Canceller with Single Reflector
(単一リフレクタを有するエコーキャンセラ)
EEPROM−Electrically Erasable Programmable Read Only Memory
(電気的消去可能なPROM)
EPD−Early Packet Discard
(初期のパケット廃棄)
GSM−Global System for Mobile
(携帯端末用グローバルシステム)
IAD−Integrated Access Device
(統合アクセス・デバイス)
IADs−Integrated Access Devices
(複数の統合アクセス・デバイス)
IETF−Internet Engineering Task Force
(インターネット技術特別調査委員会)
ILECs−Incumbent Local Exchange Carriers
(義務的サービスを提供する地区電話会社)
IMA−Inverse Multiplexing over ATM
(ATMの上の逆多重化)
IP−Internet Protocol
(インターネット・プロトコール)
ISOS−Integrated Software On Silicon(登録商標)
(商標名)
ISP−Internet Service Provider
(インターネット・サービス・プロバイダ)
ITU−International Telecommunications Union
(国際電気通信ユニオン)
IXCs−Interexchange Carriers
(交換専門電話会社)
L−Length
(長さ)
LMS−Least Mean Square
(平均最小二乗法)
MIPS−Million Instructions Per Second
(100万命令/秒)
NAT−Network Address Translation
(ネットワークアドレス変換)
NLMS−Normalized Least Mean Square
(ガウスの平均最小二乗法)
NRT−Non Real Time
(非リアルタイム)
OAM−Operations and Management
(オペレーションおよび管理)
OSI−Open Systems Interconnection
(開放形システム相互接続)
PBX’s−Private Branch Exchange’s
(構内電話交換システム)
PC−Personal Computer
(パソコン)
PCP/IP−Transmission Control Protocol on top of the Internet
Protocol
(インターネット・プロトコール上の伝送制御プロトコール)
PDU−Protocol Data Unit
(プロトコール・データ・ユニット)
PPD−Partial Packet Discard
(部分的なパケット廃棄)
PpoA−Point to Point Protocol over ATM
(ATMの上のポイントツーポイント・プロトコール)
PPPoE−Point to Point Protocol over Ethernet(登録商標)
(Ethernet(登録商標)の上のポイントツーポイント・プロトコール)
PPTP−Point Tunneling Protocol
(ポイント・トンネリング・プロトコール)
PSTN−Public Switched Telephone Network
(公共電話交換網)
RMS−Root Mean Square
(実効値)
RT−Real Time
(リアルタイム)
RTP−Real-Time Transport Protocol
(リアルタイム搬送プロトコール)
SDRAM - Synchronous Dynamic Random Access Memory
(同期型随時書き込み読み出しメモリ)
SDSL−Symmetric Digital Subscriber Line
(対称デジタル加入者線)
SF−Scale Factor
(スケールファクタ)
SID−Silence Insertion Descriptors
(無音挿入識別子)
SNMP−Simple Network Management Protocal
(簡易ネットワーク管理プロトコール)
SOHO−Small Office/Home Office
(スモールオフィス/ホームオフィス)
SSCS−Service Specific Convergence Sublayer
(サービス特定集中サブレイヤ)
SVCs−Switched Virtual Circuits
(接続仮想回路)
UNI−User Network Interface
(ユーザー・ネットワーク・インタフェース)
USB−Universal Serial Bus
(ユニバーサル直列バス)
V−Volt
(電気ボルト値)
VAGC−Voice Activity Detection with Automatic Gain Control
(自動利得制御による音声信号検出)
VBR−Variable Bit Rate
(可変ビットレート)
VoDSL−Voice over Digital Subscriber Line
(デジタル加入者線の上の音声)
VPI/VCI−Virtual Path Identifier/Virtual Channel Identifier
(仮想パス識別子/仮想チャネル識別子)
WAN−Wide Area Network
(広域ネットワーク)
【課題を解決するための手段】
【0035】
以下の説明は、VoDSLおよびVoIPアプリケーションに関する多くの特定の実施態様と詳細な説明を提供することにより本発明の完全な知識を伝達することを目的とする。しかしながら本発明がこれらの特定の実施態様および詳細に限られていないと理解されるべきであり、それは単に例示に過ぎない。特定の設計および他のニーズに合わせて、周知のシステム及び方法を考慮して当該技術の通常のスキルを所有している者が、種々の代替実施例におけるその目的と利便性のために本発明を使用し得る点に留意すべきである。
【0036】
本発明の一実施例によれば、快適ノイズを生成するための簡便なスペクトルの推定技術を提供することができる。快適ノイズ発生器(CNG)は、音声信号の無音部分を圧縮し、かつ復元するために実装される。CNGは、無音を圧縮するか又は快適ノイズを生成するために、いかなる音声発声検出器、エコーキャンセラまたは他の類似した装置に実装することができる。本発明は、快適ノイズを生成するための信号スペクトルを推定する簡略な技術を提供する。
【0037】
本発明の一態様では、既存の方法と比較してさらに簡便に信号スペクトルを推定して、それにより快適ノイズ(CN)を生成することが出来る。本発明の他の態様では、無音挿入記述子の形で伝送するために適用プロセスからフィルタ・パラメータ・エンコーディングを選別することが含まれる。
【0038】
100万命令/秒(MIPS)およびメモリが高価であるシステムにおいて、本発明の方法では、信号スペクトルが基本的に長時間に渡り一定であるという事実を用い、この方法はその信号スペクトルを所定時間だけ利用する。その結果、快適ノイズが、よりリアルな入力ノイズの表現として生成されることができる。更に、生成された快適ノイズは、さらに均一のノイズとなる。
【0039】
本発明の他の実施例によれば、伝送のためのフィルタ・パラメータ・エンコーディングの選別が、さらなる柔軟性を有することになる。例えば、さまざまなシステム間のより大きな相互接続性を有することになる。加えて、MIPSおよびメモリを能率的に使うことができる。
【0040】
本発明では、より耳ざわりの良い擬似快適ノイズ(例えばホワイトノイズに対して)が生成できる。本発明は、リアルタイムシステムで重要な要素である簡便なアルゴリズムを用い、かつMIPSおよびメモリを節約することができる。フィルタ・パラメータ・エンコーディング(例えば反響係数に対する)が、適用プロセスの中で独立して形成され、これにより必要に応じてMIPSを使用するだけのより大きな柔軟性を提供することができる。他の例では、フィルタパラメータがエンコーディングの他の形式にエンコードされることになっている場合、基本アルゴリズムは一定または基本的に同一のままであり得る。このように、この例では唯一の変更が、エンコーディング・アルゴリズムである。
【0041】
図1は本発明の一実施例に係るエンコーダのフローチャートを例示する。音声を合成するボコーダ(または他の類似したデバイス)かビルトインの無音圧縮機能が装備されていない場合に、この動作モードを使うことができる。システムの圧縮を改良するために、CNGは音声データの部分間で感知される暗騒音に適用することができ、図1にて図示するように音声が聞こえない時に感知ノイズの特性を表す無音挿入記述子(SID)を生成することが出来る。
【0042】
ステップ110で、音声および無音/バックグラウンド・データを含む入力データが受信される。ステップ112で音声活動の「終了間近」、すなわちフロントエンドの会話または音声データの終了間近な部分が決定される。肯定応答が引き出される場合、ステップ114で、G7xxエンコーディングが行なわれる。更に、ステップ116でコードワードデータがチャネル(デコーダに伝送されるチャネル)に送り出され、そしてシステムはステップ110で、入力データを受ける状態になる。否定応答が引き出された場合、ステップ118で快適ノイズ発生器が稼動される。ステップ120で、フィルタ・パラメータ・エンコーディングがSIDをチャネル(デコーダに伝送するチャネル)に送る。そして、システムの状態はステップ110で、入力データを受けるために復帰する。要するに、図1では入力データが音声または無音として分類する方法であって、音声コードワードデータまたはSIDがそれぞれデコーダに発信されるチャネルに送られるステップを図示する。図15で後述するように図1のシステムは、DSPチップのセクション1540で実行することが可能である。
【0043】
図2は本発明の他の実施例であり、SIDが送り出されない時の代替エンコーダのフローチャートを例示する。図15で後述するように図2のシステムは、DSPチップのセクション1540において実装することが可能である。音声活動の「終了間近」でない場合、CNGが稼動してノイズが生成され、ボコーダによってエンコードすることが出来る。このモードは、残留エコーとノイズの組合せが知覚的に不快なときに使うことができる。CNGは、入力の平均スペクトルに基づいて、知覚的に優良なノイズを生成することが出来る。
【0044】
ステップ210で、入力データが受信される。ステップ212で、音声活動の「終了間近」か否かが決定される。「終了間近」でない場合、ステップ214で図示するように、快適ノイズが適用され、かつ生成される。ステップ216で、G7xxエンコーディングがされる。更にステップ210で、コードワードデータが入力データに送り出される。
【0045】
本発明の一実施例によれば、快適ノイズ発生アルゴリズムが、例えば平均最小二乗法(LMS)機能を使用して入力ノイズのスペクトルに近づけるために実行される。しかしながら、他の機能、例えば正規化平均最小二乗法(NLMS)または線形予測分析(LPC)も実行することが可能である。このような応用は、逆予測値が入力ホワイトノイズを予測されたシグナルの必要スペクトルに合わせるという事実を利用している。この応用は、音声が無い時にもいつでも、ノイズを生成するために使用することが出来る。このノイズのスペクトルは所定時間に渡りおよそ一定であるために、本発明の方法はさらに複雑な信号処理をせずに良好な結果をもたらすことができる。個々のモジュールは、下記に詳述されている。ノイズスパイクまたは音声のセグメント化するのを防ぐために、入力が騒音フロアー6dB(または他の予め定められた値)以内にあることを確認する内部チェックをしてもよい。
【0046】
経験的に、第10台の合成フィルタが、効率とMIPS間の良好なバランスを提供するために用いることが出来る。もちろん他のフィルタも、本発明により実装するこができる。これを使用してその安定度をさらに確実にするために、例えば漏洩LMSと呼ばれているLMSアルゴリズムの変形を使用することができる。他の変形も本発明によれば実行することもできる。アルゴリズムを所定の範囲(例えば、-30dBmから-100dBm)のノイズレベルの変化から独立させるために、LMSエラーおよびLMS係数の可変精度計算を実装することも出来る。加えて漏洩LMSは、これを信号振幅変化から独立するように正規化されてもよい。下の方程式において、括弧内の値が、配列に対する太文字表示の中に示す時間および変数に関連する(例えばvec(n)は時間nでの配列「vec」の値に関連する)。
【0047】
パラメータ:
データ:
計算:
【0048】
LMS応用が基本的には予測プロセスであるために、以下の関係が存在する;
合成フィルタは次のようにが定義される;
ホワイトノイズは、上記の合成フィルタH(z)によって、フィルタをかけられることが可能である。
【0049】
上記フィルタおよびその計算された出力利得によってノイズの固定シーケンスをフィルタリングすることにより、近似の利得が算出できる。これを必要利得(騒音フロア−)で割ると、出力を生成する間に用いられるある比率が計算される。
【0050】
SIDは、標準形を格子係数(例えば反響係数)に変換することにより生成されることができる。
デコード機能において、反対の操作で反響係数を標準形係数に変換するために用いても良い。
近似の利得計算は、またデコード機能において実行することができる。この方法は適用する場合の方法と同じ(又は類似)である。
【0051】
出力が電話/音声バンド(150Hz―3400Hz)内であることを確実にするために、合成フィルタの出力は、以下の帯域フィルタをろ過させることが出来る。
【0052】
本発明の他の実施例によれば、リアルタイム音声合成アプリケーションのための単純なガウスのホワイトノイズ発生器を実装する事が出来る。音声合成およびその他のアプリケーションにおいて、ガウスのホワイトノイズ発生器を実装できる。本発明は、さまざまな音声アプリケーションのために周期性を非周期的にするために2つ以上の一定の(または略一定の)生成器を使用する方法とシステムを提供する。本発明は、固定小数点および他システムのために、計算を複雑化させないで長周期を有するガウスのランダムノイズを生成する方法およびシステムを提供する。
【0053】
音声を合成するときに、ガウスのランダムノイズ発生器を実装する事が出来る。説明を簡単にするため例えば、この種のシーケンスは、擬似乱数シーケンス発生器から、そしてそれから中心極限定理から受けることが可能である。擬似乱数発生器の周期が制限されるときには、そのことは通常ケースであるが、特に例えば安定スペクトル信号を合成するときには、生成されたノイズ形式が周期性を有するために、人工的な音声になり易い。本発明は、アプリケーションの簡潔さを危うくせずに、この欠点を解決する方法およびシステムを提供する。
【0054】
実際に非周期的シグナルを生成するために、2つ以上の異なる乱数発生器が、例えば、2の自乗(P=2k)と同一な周期を有するように実装する事が出来る。
【0055】
図3aは、本発明の多重生成器を実装するシステムの実施例である。乱数発生器には、例えば周期が65536回である16-ビット生成器が含まれる。この場合、入力数は6であるが他の値をセットしてもよい。乱数発生器320には、平均算出部340と接続する入力321、322、323、および平均算出器342と接続する入力324、325、326とが含まれる。乱数発生器330には、平均算出器340と接続する入力331、332、333、および平均算出器342と接続する入力334、335、336とが含まれる。平均算出部340は、入力321、322、323、331、332および333の平均値Avg1を出力できる。平均算出器342は、入力324、325、326、334、335および336の平均値Avg2を出力できる。
【0056】
例えば以下の発生器は、周期が216であり、本発明に実装することが出来る。
発生器1(例えば乱数発生器320):
発生器2(例えば乱数発生器322):
【0057】
中心極限定理につき、合計2*Nサンプル(各々の発生器からのN個のサンプル)は、更に下記で詳細に図示するように、ガウスのノイズ出力の単一値を与えるために平均化される。
【0058】
各周期の後、発生器のサンプル発生値の一つが1(又は他の値)だけ進められ、この発生器が他の発生器の周期より本質的に1だけ少ないことになる。両発生器の周期性がP*(P-1)/(gcd(P,N) * gcd(P-1,N))に増加するところで、2つの発生器の周期が相互に素の関係となる。なおこの場合、Pは第1の発生器の周期であり、P-1は第2の発生器の周期であり、そしてgcd(x,y)は2つの数字x,yの最大公約数である。本発明のこの方法は、さまざまな周期を有するM個の乱数発生器に一般化することが出来る。
【0059】
例えば、1つのサンプルが放棄されその周期は使用せず、予め定められた数(例えば1つのサンプル)によって乱数発生器330がセットされるようにしてもよい。その結果、乱数発生器320が65536回繰り返すことができると共に、乱数発生器330は65535回繰り返すことができる。Avg1およびAvg2は、改良された音響的暗騒音を生じるガウス値を計算するために使用することが出来る。これは一つの発生器(例えば330)からの1つのサンプルを廃棄する結果であり、これにより周期性による人為的な音響の弊害を最小限にしている。例えば本発明のように、第2の発生器(例えば330)が第1の発生器(320)とは異なる周期で実行されない場合には、結果として生じる音響的繰返しは例えば略1.2秒に感じられる。本発明は、基本的にこの音響的繰返しを除去する(または、最小化する)ために実行される。
【0060】
音声合成フィルタの起動は図3bにて図示したように、音声を生成するために行われる。
ガウス起動信号312は、音声合成フィルタ310によってフィルタをかけられ、フィルタ出力314の合成音声として示すようにフィルタ信号が生成される。
【0061】
例えば、8000Hzのサンプリングレートでの以下の例を比較することが出来る。ある例では、Pは65536に等しく、かつNは6に等しい。この場合個々にされる各々のガウス発生器の周期は略2秒であり、この発生器の周期は約24時間である。
【0062】
本発明のさらにもう一つの実施態様によれば、スペクトル情報を含んでいるSIDパケットなしの擬似快適ノイズ生成(CNG)が可能となる。
【0063】
音声通話が使用するバンド幅が最小化されなければならない音声通信システムにおいては、会話中の非音声セグメントのバンド幅を減少するために、音声活動の検出、無音期間の圧縮又は消去が行われる。バンド幅は、非音声オーディオについてほとんど情報を送り出さないことにより節約することができる。この種の情報は、SIDパケットにおいて伝送される。
【0064】
現在ではスペクトル情報が伝送されないときには、ホワイトノイズが生成されるが、このホワイトノイズは、圧縮された暗騒音、非転送の暗騒音、更には非音声の暗騒音とはしばしば無関係であるために、聞くためには不快感を与えることになる。従ってこれは感覚的に合わない結果となる。会話の終了情報を受信したら、無音部分を合成することが出来る。非音声の暗騒音信号に伴うスペクトル情報が伝送されない場合、合成された暗騒音信号は一般的には本当の暗騒音と同じスペクトル特性を有しない。これは、誰かが話している時の暗騒音と話していない時の暗騒音に、不快な音響差を生じさせてしまう。本発明は、上述した問題を解決するための方法およびシステムを提供する。特に本発明は、スペクトルの推定を含んでいるSIDパケットが存在しない時に擬似快適ノイズを生成する方法およびシステムを提供する。
【0065】
ある種の無音圧縮方法には、暗騒音のスペクトル特性を示す情報を伝送することができる。他の技術は、暗騒音についての電力レベルを提供するか、または暗騒音については情報を全く提供しない。スペクトル情報がSIDに含まれないときにデコーダは、スペクトル的に適用する暗騒音を生成する如何なる情報をも有しない。SIDにスペクトル情報を含ませないようにする種々のシステム設計思想がある。それらの設計思想には、複雑でなく、かつ相互接続性を有することが含まれる。例えば、複雑でない点に関する考慮には、送信側の機器のシンプルさが含まれ、これによりスペクトル情報を含んでいるSIDの生成を防ぐかまたは非常に制限することが出来る。他の例では、相互接続性に関する考慮には、巧く定義されたSIDに存在する種々の規格が含まれ、これらSIDには暗騒音電力情報、および暗騒音に関する情報ないし情報の不存在情報が含まれている。
【0066】
本発明は、スペクトル情報を含んでいるSIDパケットが存在しない場合に、実際のノイズのスペクトルを反映している擬似快適ノイズを生成する方法およびシステムを提供する。例えば上で議論されるCNGのための簡便なスペクトル推定技術が、快適ノイズを生成するために実行される。
【0067】
本発明は、音声情報と音声とノイズ間での残留情報を用いて、デコーダ側で快適ノイズを生成する方法およびシステムを提供する。ノイズに対するこの適用は、擬似快適ノイズのスペクトルを推定するさまざまなアルゴリズムを使用して達成することが出来る。本発明の一実施例によれば、適用されるブロックに存在する人為構造音の反復生成を防ぐために、ブロックをベースとしたアルゴリズムではなく、むしろ時間に対して適用アルゴリズムが実行される。送信された騒音フロアーと結合されて適用される本発明により、擬似快適ノイズを生成する能力が提供される。図4aには、フローチャートの形で上記考え方が示されている。
【0068】
図4aは本発明の一実施例であり、デコーダ・プロセスのためのフローチャートの一例である。ステップ410で、会話/終了の情報内容が識別される。会話/終了の情報内容が存在する場合には、ステップ412で快適ノイズの適用が実行される。会話/終了の情報内容が存在しない場合には、ステップ414で快適ノイズが生成される。ステップ412およびステップ414からの情報は、ステップ410の入力に送られる。
【0069】
図4bは本発明の一実施例であり、デコーダ・プロセスを実行するシステム400の1つの例である。図4bは更に伝送するために処理される例示的な検出入力信号424と、受信信号438を例示する(両方とも、x方向に信号振幅、y方向に時間を示す)。422は電話または他の音声通信器を表し、音声および他の信号を処理しデコーダ450に送信するエンコーダ420が付けられている。信号は電話または他の音声通信装置452で受信される。この例では、音声信号430および音声信号432は、デバイス422および/または420と関連する音声活動検出器により検出されて、信号440およ信号442としてそれぞれ受信端(450および/または452)に発信される。434は、音声から無音への移行を示す音声信号の会話終了部分を表す。背景音を検知するために騒音フロア−推定器が実装されている。信号436が、背景音を表す。一つの実施例において、背景音436に伴うパワーの測定値は伝送される。
例えば、背景音436は-60dBのパワーを有する。信号444は、-60dBのパワーで生成された背景音を表す。
【0070】
本発明ではデコーダ側で、音声信号440中の短い停止期間(例えば446、448)が適用アルゴリズムで背景音444を生成するために用いられる。換言すれば背景音は、例えば440のような音声信号中の小さな停止期間または瞬間停止期間から自己学習して得られる。この情報は、図4cのフィルタ462を生成するために使用される。その結果、エンコーダ420からデコーダ450に送り出した情報は、音声信号への転送を制限することで節約することが出来る。本発明は、背景音自体が転送されないときにデコーダ側で適用する方法およびシステムを提供する。換言すれば、伝送は音声信号に限られている。その結果、バンド幅を、暗騒音に関連した情報を送り出さないことにより節約することが出来る。他の実施例によれば、会話の終了情報434は暗騒音を生成するために使用される。会話の終了情報434は、音声と非音声部との間での過渡期を表す。このように終了情報434は、444で背景音を生成するために使用される背景音に関する情報を含んでいる。
【0071】
図4cは本発明の一実施例係る背景音を生成するためのシステムの一例である。ホワイトノイズ発生器460は、受信側で非音声部分の間に挿入のための交替背景音を生成するためのホワイトノイズを生成し、さらに乱数発生生成器が他のタイプの生成器でもよいが含まれている。フィルタ462はホワイトノイズ発生器460の出力を受けて、ある実施例においては固定した起動フィルタとなる。更に適用アルゴリズムを経て、フィルタ462は音声信号の停止期間(例えば446および448)または終了部分(例えば434)に関連した情報に基づいて創作してもよい。この情報は、非音声信号間の背景音を正確に、かつ能率的に生成するために使用してもよい。その結果フィルタ462は、真の(又はおおよそ真の)ノイズ又はエンコーダ側での音声信号中で検出したノイズ特性を表すノイズ・シーケンスを出力できる。
【0072】
本発明のさらに別の実施態様によれば、リアルタイム・システムの固定小数点低遅延のアルゴリズムのために、フィルタ利得を決定し、自動利得制御をする方法とシステムを提供できる。高速処理が必須で、フィルタが定数でなく入力信号に基づいた変数であるシステムにおいては、フィルタ利得を決定し、自動利得制御(AGC)のための方法およびシステムが実行されている。本発明は、低MIPSで、通話毎に単一のサンプル(またはほんの僅かなサンプル)を生成するアプリケーションで用いられる方法およびシステムを提供する。また本発明によれば他のアプリケーションにも実装することが出来る。
【0073】
本発明の追加的な態様として、近似計算を使用してフィルタの利得を計算することも含まれる。これには、スペクトルの点でフィルタをかける入力と同様の信号をフィルタにかけ、その信号を微調整することが含まれる。本発明の微調整プロセスは、低遅延でアルゴリズムの低MIPS状態での、短期移動平均二乗計算(a short term moving mean square calculation)に基づいてもよい。また他のバリエーションも実行可能である。
【0074】
さらに他の構成として本発明は、利得の強力計算と比較して低MIPSを使用し、その利得に基づいて出力を基準化する、出力利得を制御する方法およびシステムを提供する。
本発明のこの方法およびシステムは、特に入力される一個のサンプル入力(またはほんの僅かなサンプル)がある場合に応用可能である。
【0075】
本発明の一実施例によればフィルタの近似の出力利得は、既知入力信号(または代表的入力信号)にフィルタをかけることにより算出される。例えば、時間要素が重要でないルーチン、または例えばフィルタ・タップが定数である場合にはアルゴリズムの始めに、この計算は行うことが出来る。その利得(GO)を用いて、与件の出力(GR)の平方二乗平均(RMS)値のために、スケールファクタ(SF)を計算することが出来る。GRの値は他の手段で決定するか、一定の出力レベルであってもよい。
【0076】
図5および図6は本発明の一実施例であり、フィルタおよびフィルタ利得GFのブロック図である。図5は、代表的な入力信号512がフィルタ510によってフィルタをかけられて、514で示すような近似の出力利得となる構成を示している。図6は612で示すように入力利得GIがあり、それが610で示すフィルタ利得GFでフィルタをかけられ、614で示すように出力利得GOとなる構成を示している。本発明の一実施例によれば、図6のフィルタで次のような計算が行われる。
GO=GFxGI
GR=GOxSF
【0077】
利得の微調整のために、アルゴリズムの空時間に計算されたスケーリング係数を出力の利得制御するために、例えばリアルタイムのフィルタリング中に使用することが出来る。
出力はサンプル毎に得られるので、そのようなサンプルブロックの平均二乗値を、例えばブロック長と同様な所定の期間に渡り計算してもよい。予め定められたブロック長(L)に達すると、その平均二乗値が出力RMSの二乗と比較される。この出力RMS値は、他の方法で測定してもよい。この平均値を見つけるのを容易にするために、単純な掛け算で求められるLの逆元を算出するか、またはLは2または他の数の倍数から作ることが可能である。出力の利得がGR−Dデシベル以下か、あるいはGR+Dデシベル以上により、スケールファクタが所定の小さいデルタ(Δ)デシベル分だけ加えることが出来る。このデルタ(Δ)値は変化が急速であるか段階的であるかを示し、Dはユーザ定義の予め定められた常数である。
【0078】
図7は本発明の一実施例であり、AGCを微調整するためのプロセスを例示する。ステップ710で、sで定義されたサンプルが出力される。ステップ712で、二乗合計計算が行われる。ここで二乗合計はsum squares+s2であり、このsはサンプル、sum squaresは各サンプルの二乗の合計である。加えて、カウンタは1または他の予め定められた値で進められる。ステップ714で、カウントがL(例えばブロック長)である予め定められた値より大きくなると、二乗平均計算が実行される。ここでステップ716で示すように、二乗平均はsum squaresをLで割った値である。またその様でなければ、ステップ710に戻り、一つ又はそれ以上のサンプルが出力される。ステップ718で、二乗平均の値が、GR+Dデシベルより大きいと決定される。ここで定数Dは、ユーザ定義の予め定められた定数である。その場合はステップ720で、SFの値は、デルタ(Δ)・デシベルだけ増加される。もしステップ722で二乗平均の値がGR−Dデシベル未満であると決定されると、ステップ724でSFはデルタ・デシベル(Δ)だけ減少される。さもなければ再びステップ710で、一またはそれ以上の出力サンプルをステップ710で受けられる。ステップ720および/またはステップ724の出力からフィードバックループがステップ710に向かう。
【0079】
近似の利得が出力に加えられた後に、生成されたノイズが±2dBの範囲内であることを確認するために、自動利得制御(AGC)が実行される。この出力利得は、1ブロック平均4msで算出される。この平均が必要騒音フロア−の6dbより大きい(小さい)場合、出力利得は4msごと3dB減らすこと(又は増加すること)が出来る。
【0080】
本発明の他の実施例によれば、CNGモジュールは、音声信号の無音部分を圧縮し、かつ復元する。このCNGは、いかなる音声活動検出器、例えば自動利得制御(VAGC)モジュールを有する音声活動検出器、あるいはエコーキャンセラを有する音声活動検出器、例えば単一反響器付エコーキャンセラ(ECSR)と共に、無音を圧縮するか又は快適ノイズを生成するために稼動する。また他の応用にも実装できる。このCNGは、下記の記述および図8から図14に示すように広範囲に使用することが出来る。
【0081】
図8は本発明の一実施例であり、エンコード側でCNGを使用するシステムを例示する。
この動作モードは、ボコーダが無音圧縮機能を有しないときに使用される。システムの圧縮を改良するために、図8に示すようにCNGは、音声データ間のノイズに適用し、また音声が不活発の時には無音挿入記述子(SID)を生成する。
【0082】
図8に示すように、ステップ810で、エンコーダは入力データのBLOCK_SIZEを受けとる。
ステップ812で、音声活動の終了部分が決定される。もし終了部分が不活発の場合には、ステップ818でNFE_runおよびCNG_adapt機能を実行する。必要に応じてステップ820で、SIDパケットが送り出される。もし音声活動の終了部分が活発であれば、ステップ814でG7xxエンコーディングが実行され、ステップ816でチャネルへコードワードが送られ(デコーダに発信される)、これがデコーダで信号情報をデコードするために用いられる。ステップ820および/またはステップ816の出力の後、システムの状態はステップ810で新規な入力データを受けるためにリセットされる。この時点以降は、システムが再始動し、ステップ816の音声コードワードへ入力データを変換し、このプロセスは音声入力が終了するまで(つまり通話終了まで)続行される。
【0083】
図9は本発明の一実施例であり、SIDが送信されない場合にエンコード側でCNGを使用するシステムを例示する。ステップ910で、入力データのBLOCK_SIZEを受取る。音声の終了部分が不活発であると判断されると、ステップ912でCNGが適用され、ステップ914でノイズが生成され、そのノイズはボコーダによってエンコードされる。特に、ステップ914で、NFE_run、CNG_adaptおよびCNG_generate機能が実行される。このモードは、残留エコーとノイズの組合せがが知覚的に不快なときに用いられる。図9に示すようにCNGは、入力の平均スペクトルに基づいて知覚的に向上したノイズを生成する。ステップ912で音声の終了部分が活発的であると決定された場合には、ステップ916でG7xxエンコーディングされ、ステップ918でエンコードされたコードワードがチャネルに送られ(つまりでコーダに送られ)、デコーダで音声が合成される。ステップ918の出力の後、システムはステップ910でリセットされる。そしてシステムはデータサンプルの新規なBLOCK_SIZE数を受ける準備に入り、このプロセスは音声入力が終了するまで(つまり通話の終了まで)続行する。
【0084】
図10は本発明の一実施例であり、デコード側でCNGを使用するシステムを例示する。
ステップ1010で受けられたコードワードが、ステップ1012でSIDであると決定したら、ステップ1014でCNGがこの情報をデコードし、ステップ1016で快適ノイズを生成する。
特に、ステップ1014でCNG_decode機能が実行され、ステップ1016でCNG_generate機能が実行される。SIDは、一般的に生成されるノイズのスペクトル情報(例えば反響係数)を含む。この動作モードは、CNGまたは標準のIETF(または他の)に合致する他の快適ノイズ発生アルゴリズムがエンコード側で使用されている時に用いられる。必要ならCNG_generate()を、割込みサービスルーチン(ISR)において使うことができる。ステップ1012でSIDを受けなかったら、ステップ1018でG7xxコーディングが実行される。ステップ1020で出力データのBLOCK_SIZEが生成され、ステップ1010に送られる。ステップ1020で音声/無音が出力された後で、システムはそれから新規なコードワード又はSIDを受取るためにリセットされ、このプロセスは通話の終わりまで(つまりコードワード又はSIDが終わるまで)続行する。
【0085】
図11は本発明の一実施例であり、デコード側でCNGを使用するシステムの他の例を示す。このケースではSIDは騒音フロア−以外のノイズに関する情報を有しない。CNGはボコーダがデコードしているプロセスの間に音声データ間のノイズに適用し、SIDを受けた場合にノイズを生成する。このシナリオは、ユーザが単純なホワイトノイズよりむしろ実際の暗騒音に近いノイズを生成することを可能にする。
【0086】
ステップ1110でコードワードを受ける。ステップ1112でSIDが検出される。もしSIDを受けず、従って検出されなかった場合は、ステップ1116でG7xxコーディングが実行される。そしてステップ1118でNFE_runおよびCNG_adapt機能が実行される。更に図11は、ステップ1118でデコードされた音声にCNG_adapt()が適用するシステムを示す。ステップ1114で、必要ならISRでCNG_generate()が使用される。ステップ1120で、出力データのBLOCK_SIZEが生成され、ステップ1110に送られる。
【0087】
本発明の特定の実施例に係る例示的な定数、構成、プロトタイプ、メモリ使用および、ファイル説明に関する詳細は以下の通りである。
内部オブジェクトの定義
ローカル・パラメータの定義
オブジェクトの定義
関数のプロトタイプには以下が含まれている:
【0088】
以下は、CNGモジュールに関連する例示的なファイルのリストおよび説明である。
【表1】
【0089】
以下の例示的なコードは、CNGモジュールがどのように適用し、音声信号の無音信号を生成するかを示す。リニアモードのG726は、活動中の音声をコード化しかつデコード化(復元)するために用いられる。またVAGCモジュールは、無音を検出するために用いられる。Silence Insertion Descriptor(無音挿入記述子、SID)は、インターネット技術特別調査委員会(IETF)のフォーマットを有するとみなすことが出来る。
【0090】
以下の例示的なコードは、CNGモジュールがどのようにエコーキャンセレーション・アプリケーションで音声信号の無音部分を圧縮して、復元するかを示す。G726は、活動中の音声をエンコードして、デコード(復元)するために用いられる。この例では、CNGはECSRと稼動する。SIDは、ノイズレベル情報だけを有するとみなされている。
【0091】
本発明のモジュール機能は他のモジュール機能が実装されても、CNG_init()、CNG_adapt()、CNG_decode()およびCNG_generate()を含むことができる。CNG_init()モジュール機能に伴う例示的なコードは、以下を含む:
【0092】
モジュールは最初に呼ばれる初期化機能を有する。CNGの初期化機能CNG_init()を呼び出す前に、2つのデータ構造が生成される。生成される第1の構成には、CNGオブジェクトが含まれる。CNGの各々が同時使用される毎に、1つのオブジェクトが実行される。CNG_init()は、このオブジェクトを初期化する。第2の構成には、CNGパラメータが含まれる。この構成は個々の必要条件に初期化される。下の表2は、例示的なパラメータおよびそれらの範囲を示す。
【0093】
CNG_init()には、3つ(又はそれ以上)の呼出し用の独立変数を使用する。第1の呼出し用の独立変数は、CNGオブジェクト構成にポインタを含む。第2の呼出し用の独立変数は、CNGパラメータ構成にポインタを含む。第3の呼出し用の独立変数は、スクラッチ・スペース(*stack_ptr)を積み重ねるためにポインタを含む。それは、スクラッチ・スペース(例えば一時的数値変数)に割り当てられるメモリの一番下(例えば最も高いアドレス)を示している。
【0094】
もし*stack_ptrが空白を示している場合、既存のCスタックがスクラッチ・スペースのために使われる。もし分離したスクラッチ間隔がある場合には、モジュールが最大のスクラッチ・スペースを使用出来るように充分なメモリを必要とし、さらにこのスクラップ・スペースには、そのモジュールが中断処理された時に必要とするISDが使用できるだけのオーバーヘッド分も含まれる。定数CNG_STACKMEMSIZEはCNGが必要とするスクラッチ・スペースの量を示すが、ISR使用のためのいかなるオーバーヘッド分も含まれていない。
【0095】
【表2】
【0096】
図12は、本発明の一実施例であり、CNG_adapt機能のためのフローチャートを例示する。2つの呼出し用の独立変数は、それぞれCNGオブジェクトおよびNFEオブジェクトを示すポインタを含む。表3は、図12のCNG_adapt機能で使用する例示的なポインタおよびモード割り当てを例示する。CNG_adapt()を呼ぶ前に、ソースポインタ、SID・モードおよびSID・バッファ・ポインタが、割り当てられることになっている。ソースポインタは、適用されるサイズpADAPTSIZEのソース・バッファに対するポインタである。これは、cng_ptr−>src_ptrに割り当てられる。
【0097】
SID・モード値は、CNG_adaptがSID係数を算出するかどうか決定する。SID・モードは、cng_ptr−>sidModeで特定される。SID計算を必要としていないアプリケーションには、このモードはCNG_NO_SIDにセットされ、そうでなければこの値はCNG_REFLC_SIDにセットされる。CNG_REFLC_SIDモードが使われる場合、ユーザはSID・バッファ・ポインタ(cng_ptr−>sid_ptr)を割り当てる必要がある。SID・バッファは、サイズCNG_SIDSIZEでなければならない。
【0098】
CNGオブジェクトが初期化されたあと、全てのpADAPTSIZEサンプル毎に、無音適用(検出されたら)がCNG_adapt()を呼び出すことにより実行される。スピーチが不活動であることが検出された時にCNG_adapt()はいつでも呼ばれる。CNG_adapt()は、ISRにおいては呼ばれることはない。もしSID・モードがCNG_REFLC_SIDにセットされている場合、CNG_adapt()はSID・バッファに騒音フロア−および反響係数を出力する。
【0099】
快適ノイズ・ペイロードがノイズスペクトルに関して騒音フロア−以外のいかなる情報を含んでいない場合には、CNG_adapt()が音声信号のノイズに適用するために呼び出され、生成されるノイズがより良い品質の中であって、実際のノイズに類似していることが確認される。
生成されたノイズに適用されるのを防ぐためにCNG_adapt()は、サンプルのpADAPTSIZE数がデコード化された音声を含み、図11に示すようにCNGがノイズを生成しなかった時に呼ばれる。
【0100】
図12は、本発明の一実施例であり、CNG_adapt機能を実行するためのステップを示す。
ステップ1210で、信号電力−6dBがノイズ電力以下かどうかが決定される。そうでない場合には、ステップ1212でLMS適用が実行される。ステップ1214で、フィルタ利得正規化および出力利得計算が実行される。ステップ1216で、sidModeがCNG_REFLC_SIDに等しいかどうか決定される。その場合は、ステップ1218で、反響係数変換に対して直接形態が実行される。リターン1220は、CNG_adapt機能の終了を示す。
【0101】
【表3】
【0102】
CNG_decode()モジュール機能に関する例示的なコードは、以下の通りである。
【0103】
図13は、本発明の一実施例であり、CNG_decode機能のためのフローチャートを例示する。その機能の唯一の呼び出し独立変数として、この機能はCNGオブジェクトにポインタを取り入れることができる。表3は、ポインタおよびモードの割振りを例示する。CNG_decode()を呼ぶ前に、SIDポインタcng_ptr−>sid_ptrは、バッファーがサイズCNG_SIDSIZEであると指定するように割り当てられる。SIDの使っていない反響係数は、ゼロにセットされる。
【0104】
CNG_decode()は、無音挿入記述子(SID)をデコードし、快適ノイズの生成のためのCNG_generate()で使用されるフィルタ係数およびオブジェクト変数を初期化する。CNG_decode()は、サンプルのあらゆるpADAPTSIZE数ごとに呼ばれる。SIDがノイズスペクトル特性、すなわち全極フィルタの反響係数を含むときに、CNG_decode()が使うことができる。
【0105】
SIDがノイズレベルだけを含むアプリケーションにおいては、CNG_decode()を使用することができない。CNG_adapt()は、図11で示すようにデコーダで使用される。後者の場合、cng_ptr−>sidModeは、MIPSを減らすためにCNG_NO_SIDにセットされる。
【0106】
図13は、本発明の一実施例であり、CNG_decode機能を実行するためのステップを示す。
ステップ1310で、SIDパラメータはデコードされる。そして、標準形変換に対する反響係数が実行される。ステップ1312で、フィルタ利得正規化および出力利得計算が実行される。
リターン1314は、CNG_decode機能の終了を示す。
【0107】
CNG_generate()モジュール機能に関する例示的なコードは、以下の通りである。
【0108】
図14は、本発明の実施例であり、CNG_generate機能のためのフローチャートを例示する。呼び出し独立変数は、CNGオブジェクトに指定するポインタを含むことができる。表3は、ポインタおよびモード割振を例示する。CNG_generate()を呼ぶ前に、cng_ptr−>dst_ptrが、サイズpGENSIZEの出力バッファに指定するために割振られなければならない。
【0109】
CNG_generate()は、各通話毎にサンプルのpGENSIZE数を生成する。この機能は、またISRにおいて呼ばれることがある。この差異は、pGENSIZE(CNG_initを参照)で特定されることである。快適ノイズを生成するための情報はオブジェクトから直接に取り込むことができ、それはCNG_decode()かCNG_adapt()によって、更新される。
【0110】
図14は、本発明の一実施例であり、CNG_generate機能を実行するための例示的なプロセスのためのステップを示す。ステップ1410で、ノイズが合成される。ステップ1412で、バンドバス・フィルタが実行される。ステップ1414で、自動利得制御は実行される。リターン1416は、CNG_generate機能の終了を示す。
【0111】
本発明のモジュール要件の為の機能上の仕様には、音声の無音部分に適用し、快適ノイズを生成し、そして無音挿入記述子を生成することが含まれる。無音部分を適用し、快適ノイズを生成する事としては、復元された快適ノイズまたは暗騒音は、可能な限り原信号のエネルギーおよびスペクトル形状を保存するのがよい。無音挿入記述子を生成することに関しては、SIDは2001年10月付け快適ノイズのためのReal-Tiem Transportation Protocol (TRP) pyaloadに記載されているように生成される。
【0112】
性能スペックには、復元無音(つまり快適ノイズ)の品質を含むことができて、例えば国際電気通信ユニオン(ITU)のネックスBの標準のG.729/G.729Aに準拠してもよい。
【0113】
図15−図19には、上記のようにSIDパケットがない場合にCNGを使用したシステムを例示する。CNGソフトウェアが、デコード側に使われる。コード化側では無音はエネルギーレベルとして圧縮され、スペクトル情報は伝送されない。コード化側ではCNGは必要でない。デコード側では、音声セグメントの間にG7xxデコーダにより生成した音声に適用し、音声セグメントの存在/暗騒音と合成するためにこの情報を用いる。
【0114】
サンタクララ、カリフォルニアのVirata社製、Magnesium(登録商標)製品において、同社はシリコン(ISOS(登録商標))上での統合ソフトウェアを使用し、プレインテグレイトされたソフトで、プレパッケージのシステムで、選択可能なモジュールで、かつシステム的にフレクシブルであるソフトを開発している。これらは迅速な開発、ローリスクな開発につながり、音声処理マーケット向きで、多くの機能とインタフェース・ドライバ、商品名vCore(登録商標)を提供する。この商品は、C54と互換性あるDigital Signal Processing(DSP)と共に提供され、これらはテキサス・インスツルメンツ社により製造されている。この商品は、通信機器にターゲットが絞られており、例えばブロードバンド用のIntegrated Access Devices(IAD 統合アクセス・デバイス)、構内交換機(PBX)、キーシステム、無線ベース通信機、そしてIP電話等である。このハードウェアおよびソフトウェアのこの強力な組合せは、MIPS集約型のVoDSLおよびVoIPアプリケーションを含む音声および電話アルゴリズムに理想的に適合している。
【0115】
上で議論される発明概念は、Virata社のMagnesium(登録商標)DSPチップのような特定集積回路(ASIC)またはチップセットに組み込むことが可能であり、これらは多種多様なアプリケーションに使用することが出来る。図15、図16は、本発明が組み込まれるハードウェア/ソフトウエア・アーキテクチャ1500および1600を例示する。図15のシステムには、プロトコール・プロセッサ1510、ネットワークプロセッサ1520、物理インタフェース・セクション1530および外部デバイス・セクション1540、そして所望の機能性を実装するソフトウェアが含まれている。図15に示すように、快適ノイズ発生器1550の機能性は、音声アルゴリズムまたは他のソフトウェアとして実行される。
【0116】
図16のシステムには、種々のモジュールおよび/またはアプリケーションと通信するソフトウェア・インタフェース1624が含まれており、それらのモジュールおよび/またはアプリケーションは、音声検出および自動利得制御(ACG)モジュール1610、caller identifier on call waiting(通話待ち者の認識子CIDCW)アナログ表示用インタフェース(ADSI)モジュール1612、全二重スピーカーホン・モジュール1614、待ち進行ファックストーン検出モジュール(call progress fax tone detection module)1616、音声エンコーダモジュール1618、二重音調変調(または複数)周波数(DTMF)モジュール検出、移動モジュール1620、そして回線エコーキャンセラ・モジュール1622を含む。本発明によれば、快適ノイズ発生器モジュール1636が提供されている。加えて、顧客アプリケーション1626、Helium(登録商標)ホストインタフェース1628、ホストドライバ1630、チャネルドライバ1632および電話インタフェース・コントロール1634等の他の機能も実装することが出来る。
【0117】
Virata社のMagnesium(登録商標)音声ソフトウェア(vCore(登録商標))は、世界中で何百ものアプリケーションで証明されるオブジェクトおよびソースコード・ソフトウェアライブラリである。
オープンで、フレキシブルなモジュール方式ソフトウェア構造に基づいて、vCore(登録商標)はシステムデ設計者が最小の開発努力で最少の試験努力に最適である効率的なカスタム・ソリューションを提供することを可能にしている。このvCore(登録商標)に伴うソフトウェアモジュールは、電話機能、ネットワーク・エコーキャンセラ、fax/デルタ関数、音声符合化装置および他の機能を含んだ広範囲にわたるアプリケーションに利用することが出来る。
【0118】
上記システムに取り入れられる電話機能には、以下のシステムも含まれる。すなわち、DTMF−二重音調変調(または複数)周波数(Dual Tone Modulation Frequency)の生成および除去、MFD−Multi-周波数トーン検出(Frequency Tone Detection)、UTD−汎用通話待ち状態トーン検出(Universal Call Progress Tone Detection)、シングルで、二重で調整されたFMTD−FAXおよびモデム・トーン検出トーン発振器(Fax and Modem Tone detection Tone Generator)、そして、VAGC−自動利得制御を有する音声活動検出(Voice Activity Detection with Automatic Gain Control)、等である。ネットワーク・エコーキャンセラには、ITU G.168、多重リフレクタ(最高128ms tail)、ITU G.168−単一リフレクタ(48ms tail)が含まれる。システムに取り入れることが可能であるfax/デルタ機能には、発信者番号通知サービス、コールウェイティング機能を有する発信者番号通知サービス、T.38およびI.366.2のfaxリレー、高水準データリンク制御(HDLC)送信/発信および完全双方向性スピーカーホン、等を含む。音声コーダ装置には、G.726,G.728-低遅延コーダ;G.729、G.729A、G.729B、G.729AB、G.729E;G.723.1(G.723.1A);移動体通信用グローバルシステムGSM-EFR,GSM-AMR-音声コーダ;G.722.1−音声コーダ;そして専用コーダ、等を含む。
【0119】
図17から図19を参照して、Voice-over-DSL Integrated Access Devices(IADs、DSL上の音声統合アクセス機器)はしばしば、複雑な技術で広範囲の集積化を必要とする。すなわちそれらには、非同期転送モード(ATM,Asynchronous Transfer Mode)、パケット、ブリッジング、IPおよびルーティング・ネットワーキング、リアルタイム、料金-品質、音声トラフィック処理、音声エンコード/デコード、エコーキャンセレーション、二重音調変調周波数(DTMF)および他のアルゴリズム、音声制御と公衆電話システムの相互接続プロトコール、等が含まれる。これらの技術は、シリコンおよびソフトウェアが必要であり、連続したオペレーションには高集約化を必要とする。
【0120】
Virata社のAzurite(登録商標)チップセットは例えば、DSL Integrated Access Devices(IADs、DSL上の音声統合アクセス機器)をターゲットにした音声とデータの統合解決手段である。これらのチップセットは、DSLの上の音声システム素子を集積化することによって、飛躍的にパフォーマンスや、より低いコストおよびマーケットへの頭出し時間を向上させた。Virata社のAzurite(登録商標)のAzurite(登録商標)3000-シリーズ・チップセットは、Virata社のMagnesium(登録商標)DSP、Helium(登録商標)の通信用プロセッサと完全なソフトウェアの集積化を特徴としている。Virata社のPHY中性Helium通信用プロセッサは、いかなるDegital Subscriber Line Physical Layer Device(DSL PHY外部デジタル加入者線物理レイヤ・デバイス)と共に使用することが可能であり、これらはxDSL、Asymmetric Digital Subscriber Line(ADSL非対称デジタル加入者線)、Symmetric Digital Subscriber Line(SDSL対称デジタル加入者線)、その他の通信回線であり、この3000-シリーズはDSL IADsの広い範囲に適している。Virata社のAzurite(登録商標)4000-シリーズ・チップセットは、Azurite社のマグネシウムDSP、ベリリウム通信用プロセッサおよび完全なソフトウェア集積化を特徴としている。ベリリウム通信用プロセッサには、組込みのADSL PHYを含み、この4000-シリーズはADSL IADsにぴったりの最高水準の集積化を可能にしている。
【0121】
一実施例において本発明は、DSLの中央局(CO)の局内装置に用いる素子に取り入れることも可能である。CO機器は、しばしばビルトイン周辺装置を有する高性能プロセッサを含んで、種々のCO機器アプリケーション用の通信プロトコール群を集積化している。例えば、Central Office/Digital Loop Carrier(CO/DLC中央局/デジタル・ループ・キャリア)環境での発明的解決策のための可能なアプリケーションには、Digital Subscriber Line Access Multiplexer(DSLAM環境デジタル加入者線アクセス・マルチプレクサ)用のライン・カードが含まれる。例えばAzurite社のHelium・プロセッサおよびISOSソフトウェアは、上流に面しているか又はDSLAMまたはminiSLAMアプリケーションのバックプレーンに接続した倍速バッファ付きポートであれば、最高7つの倍速バッファ付(速くて相互積層されたパス)ADSLポート、あるいは最高13のバッファ付(相互積層されたパスだけ)ポートを集中さるために使用される。Heliumの高速UTOPIA2のインタフェースは、異種類のDSL PHY機器をサポートでき、それらの機器には例えばADSL、SHDSL(一方通行の高ビットレート・デジタル加入者線または対称高密度デジタル加入者線)、その他が含まれる。複数の機器が、多くのポートを通してライン・カードをサポートするために使用可能である。Heliumは、ローカル・メモリからも又は遠隔で中央処理装置/メモリからもブートすることが出来る。
【0122】
提供されるソフトウェアは、種々のAsynchronous Transfer Mode(ATM非同期転送モード)をサポートすることができ、それらはOperations and Management(OAMオペレーションおよび管理)、priority queuing(優先順序付きキューイング)、traffic shaping(トラフィック整理)、constant bit rate(CBR一定ビットレート)、real time(rtリアルタイム)-variable bit rate(VBR可変ビットレート)、non real time(nrt非リアルタイム)-VBR(可変ビットレート)、policing(cell tagging、セルタグによる警備)とcongestion management(輻輳管理)、Early Packet Discard(EPD、初期のパケット廃棄)、Partial Packet Discard(PPD部分的なパケット廃棄)、等である。制御プレーンにおいて、HeliumはQ.2931呼出し処理エージェント付で提供され、このエージェントはswitched virtual circuit(SVCs交換仮想回路)をセットアップし、この中で割り当てられたATMレーベル(Virtual Path Identifier/Virtual Channel Identifier(VPI/VCI仮想パス識別子/仮想チャネル識別子))を、物理的なT1 Wide Area Network(WAN広域エリア・ネットワーク)ポートへ結びつける。管理プレーンにおいては、Heliumはsimple network management protocol(SNMP単純なネットワーク管理プロトコール)エージェント付で提供され、モジュールのパフォーマンスを構成または監視するElement Management(要素管理)によって使用される。例えばリンク故障のためのサービス中断イベントを検出したり、cyclic redundancy check(CRC)error counts(周期的冗長チェックエラー数)を保守および報告することである。
【0123】
他の例では、Virata社のHelium(登録商標)プロセッサは、ATMおよびフレーム・リレーの間でのプロトコール変換をサポートするために用いられる。この種の利用は、インターネット・サービス・プロバイダ(ISP)へ、例えばフレーム・リレー・ネットワークを経由してデータを転送するDSLAMまたはATM交換機の中で使用することが出来る。スイッチ・バックプレーンからのATMセルは、UTOPIA-2インタフェースを経由してHeliumによって受信しAAL-5 PDU(Protocoal Data Unitプロトコール・データ・ユニット)に変換される。結果として生じるPDUは、フレーム・リレーに変換を完了するためにData Link Connection Identifier(DLCI)を有するHDLCヘッダにカプセル化される。プロトコールスタック図に示すように逆方向にもこのプロセスは変換可能である。制御プレーンにおいては、HeliumはQ.2931呼出し処理エージェント付で提供され、これはいずれかの物理的なT1 WANポートに、割り当てられたATMラベル(VPI/VCI)と関連付けるSVCをセットアップする。さらに管理プレーンにおいては、HeliumはSNMPエージェント付で提供され、モジュールのパフォーマンスを構成または監視するElement Management(要素管理)によって使用される。
例えばリンク故障のためにアウトオブサービス・イベントを検出すること、CRCエラー数その他を保守および報告することである。
【0124】
さらにもう一つの実施例において、Virata社のHeliumプロセッサは、エッジ・スイッチ又はminiSLAMのためのATM(IMA)ラインカードを経由するInverse Multiplexing(逆多重送信)の設計で使用されている。HeliumのUTOPIA1/2インタフェースは、最高14台の別々のデバイスをサポートする。ソフトウェアは、優先順序付きキューイング、トラフィック・シェーピングおよび警備のようなトラフィック管理機能をサポートする。例えば輻輳の間、低優先順位セル(セル・ロス優先順位(CLP)=1)は遅延して、高優先で例えば音声およびビデオのような遅延しては具合の悪いトラフィックのために、その余地を与える。またはその代りに、EPD(Early Packet Discard初期のパケット廃棄)はエラー・パケットに帰属する全てのセルを廃棄するために起動される。制御プレーンにおいては、Heliumはユーザー・ネットワーク・インタフェース(UNI User Network Interface)3.0/4.0信号スタック付きで提供され、これはセットアップとSVCの取り込みのために用いられる。管理プレーンにおいて、HeliumはSNMPエージェントおよびTelnetアプリケーション付で提供され、これらはIMAモジュールのパフォーマンスを構成するかまたは監視するためにElement Management(要素管理)によって使用される。
【0125】
図17は、DSLホーム/オフィス・ルーターおよびゲートウェイのハードウェアの実施例を例示する。図17に示すように、IAD 1700は規格電話ジャック1710を含み、それによって標準電話線は、Codec/SLIC(シリアルライン・インタフェース回路)1712を経て音声DSPに接続されている。これは、ローカル的に用いられ、ホームオフィスや中小企業で使用するような構内交換機(PBX)またはスモールオフィス/ホームオフィス(SOHO)のゲートウェイ、あるいはリモート的に中央局で用いられる。例えば4-ポートSLICのようなSLIC 1712は、音声DSP 1720へ接続することができ、それは1730で示すように快適ノイズ発生器機能性をサポートしている。音声DSP(例えばマグネシウム)1720およびより高いレベルのATM、情報処理およびパケット化プロセッサは中央局またはPBX/ゲートウェイに常住する。音声DSP 1720はHelium1722へ接続している。Vitrata社のHeliumはシングルチップ、高度統合ATM切替およびレイヤ2/3処理デバイスである。Helium(登録商標)は更に、他の物理インタフェースと同様に、Ethernet(登録商標) およびUniversal Serial Bus(USB)への直接接続を制御するネットワークプロセッサを含んでいる。例えば、Helium1722は10BaseT 1724、Synchronous Dynamic Random Access Memory(SDRAM同期型随時書き込み読み出しメモリ)1726、Electrically Erasable Programmable Read Only Memory(EEPROM電気的消去可能なPROM)、1728(DSL PHY 1740)、その他のインタフェースと接続する。DSL PHY 1740はまた、ADSL 1744へ接続し、それは接続先ラインドライバおよびフィルタ1746と接続する。DSLに対するインタフェースは、1748で提供されている。加えて電源ユニットは、1750で提供されており、それは+5ボルトの(V)または他の電圧をサポートする。
【0126】
音声DSP 1720は音声データをエンコード/圧縮し、信号の無音部分は削除されるか又は圧縮されて、1730で示すように、快適ノイズ発生器機能によってエンコードされる。より高水準プロセッサでIPまたはDSL伝送等のために処理された後に、圧縮音声データは、ネットワーク経由で受信機へ伝送され、その受信機で各レイヤ毎にデコードされ、データパケットは最終的に正確な音声データへデコードされる。快適ノイズ発生器は、Voice DSPのような受信局に常駐し、発信源からのデータに基づいて信号の無音部分をデコードするか、もし無音データが一緒に消去されていれば、信号の無音部分にノイズデータを挿入して復元する。この復元ノイズ・データは検出されたノイズデータに基づくか、或いは音声データ、履歴データ、又は蓄積された音声概略データに基づいている。このように無音データを取り除くことにより、システムではバンド幅を削減することが出来るようになる。しかしながら、無音の期間に信号が切断され、そして快適ノイズデータで復元と挿入が行われている感覚になるのを避けるのが望ましい。
【0127】
音声データ圧縮およびエンコーディングは、Virata社のG.729-Annex BおよびG.729A-Annex B、Conjugate-Structure Algebraic-Code-Excited Linear-Predictive(CS-ACELP)の音声符合化装置アルゴリズムを使用して行なうことが出来る。Virata社のG.729A-Annex B CS-ACELP音声符合化装置アルゴリズム・モジュールは、ITU-T G.729-Annex AおよびAnnex B音声符合化装置規格を実装する。G.729Aに対するAnnex Bが音声活動検出器および快適ノイズ発生器を定義し、V.70 DSVD(Digital Simultaneous Voice and Data)アプリケーション用に最適化されたG.729またはG.729Aと共に使用される。Conjugate-Structure Agebraic-Code-Excited Linear-Predictive Coding機能を用いてコ-デック(つまりコーダ兼デコーダ)や線形データを8kbpsのコードに圧縮する。Virata社のG.729-Annex B CS-ACELP音声符合化装置アルゴリズム・モジュールは、ITU-T G.729-Annex B音声符合化装置規格を実装する。G.729Aに対するAnnex Bが音声活動検出器および快適ノイズ発生器を定義し、V.70 DSVDアプリケーション用に最適化されたG.729またはG.729Aと共に使用される。CS-ACELP コーディング・アルゴリズムを用いてコ-デック(つまりコーダ兼デコーダ)や線形データを8kbpsのコードに圧縮する。
【0128】
MIPS強化G729圧縮アルゴリズムに代わるものとして、本発明では上述の快適ノイズ発生器(CNG)とG726標準とを結合して用い、データ圧縮を行っている。CNGは、例えばVirata社のMagnesium processorのような音声DSP上のvCore(登録商標)の中に常駐している。音声データは圧縮されて、エンコードされ、そして、パケットはより高レベルのパケット化レイヤに送られ、最終的には通信網を経由して伝送される。転送先の受信機に着くと、即座に音声データはデコードされる。そしてCNGはデータをデコードし、音声情報に含まれているノイズ情報を構成するか又は復元する。
【0129】
図18は、本発明の一実施例に係るソフトウエア・アーキテクチャを例示する。DSP-Main 1822は、音声チャネルからホストインタフェース・レイヤ(HST)を経由してホストプロセッサまでのシステムレベルのデータフローを取り扱うために実行される。特に、DSP-Main 1822は、処理の他のタイプと同様に、low overhead processing(低オーバヘッド処理)1824とlow latency processing(短い待ち時間処理)1826をサポートしている。FXSドライバ1836(TFX)は、FXSイベント・インタフェースのための状態遷移およびシグナル・デバウンシングを扱う。下位レイヤは、コーデック1838、SLIC 1840および音声チャネル(CNL)用デバイスドライバ1834のためのデバイスドライバを含む。ブートローダ1830は、スタートアップの後でDSPイメージをロードする。システムは、他の特徴の中で最小のオーバーヘッド、最小のCPU使用、最短の待ち時間および集積化の容易化、等の組合せを提供する。
【0130】
図18は、Virata社のHelium・プロセッサ1810は、Virata社のMagnesium processor 1820に接続し、さらにコーデック/SLIC 1852を経由して電話1850または他のデバイスに接続している状態を図示する。Helium・プロセッサ1810は、ハードウェア抽象レイヤ1814と同様に音声プログラミングインタフェース1812をサポートする。他の機能性は、プロセッサ1810によりサポートされている。Magnesium processor 1820は、シェア-メモリ1828、ブートローダ1830、ホストインタフェース1832、さまざまなアルゴリズム1842-1848(例えば快適ノイズ発生器1842)、他の機能と同様な種々の機能(1834-1840)を含む。
【0131】
図19は、本発明の一実施例に係る集積化したDSLアクセス・デバイス用ソフトウェアを示す。図19に示すように、音声DSPソフトウェアは、通話セットアップ1910、音声処理1912および管理1914を含む。他の音声ソフトウェアも提供される。本発明に係る1916で示す快適ノイズ発生器機能性は、1912の音声処理機能でサポートされている。音声DSPインタフェース1920は、音声DSPソフトウェアと通信用プロセッサ・ソフトウェア間のインタフェースを提供する。通信用プロセッサ・ソフトウェアには以下の機能が含まれる。それらは、電話シグナリング1922、DSPインタフェース1924、Common Service Specific Convergence Sublayer(SSCS一般のサービス特定の集合サブレイヤ)インタフェース1926、Jet Stream SSC 1928、Copperoom SC 1930、専用SSCS 1932、ルーター1934、Network Address Translation(NATネットワークアドレス変換)、Point to Point Tunneling Protocol(PPTP)1936、Transmission Control Protocol on top of the Internet Protocol(TCP/IPインターネット・プロトコールの上に伝送制御プロトコール)1938、Spanning-tree bridge(1940橋渡しツリーブリッジ)、Open Systems Interconnection(OSI)Layer 2(OSIオープンシステム相互接続2レイヤ)1942、Request for Comments RFC 1944、Point to Point Protocol over ATM(PPPoA)1946、Point to Point Protocol over Ethernet(登録商標)(PPPoEイーサネット(登録商標)経由のPoint to Pointのプロトコール)1948、ATM Adaptation Layer(AAL ATM適用レイヤ)-2 Common Part Convergence Sublayer(CPCS)1950、ATM Adaptation Layer(AAL)-5 1952、シグナリング1954、トラフィック管理1956、Broadband Unified Framework(BUN)装置ドライバ・フレームワーク1958、ATM ドライバ1960、およびその他の機能である。
【0132】
データのカプセル化機能性はさまざまな方法により提供されており、それらは例えば1944で示すようなRFC 1483、PPPoA 1946およびPPPoE 1948を含む。カプセル化は、それらの下の論理結合と同様に、一般的に処理される。例えばカプセル化はSpanning-tree bridge 1940またはIPルーター1934に添付されている。最終結果は、従来のパケットインタフェースのポートとカプセル化したポートの間、または単純にカプセル化したポート間で、簡単にルート又はブリッジする能力を含む。1944で示すようにRFC 1483は、ATMネットワークの上の終端局を結合する単純な方法を提供する。PPPoA 1946は、利用者データがIPパケットの形で伝送されることを可能にする。ある例では、PPPoE 1948のカプセル化は、パーソナルコンピュータ(PC)または他のデバイスから、Ethernet(登録商標)経由そしてRFC 1483カプセル化を使ったDSLリンクを経由して、DSL機器へPPPトラフィックを伝送するために使用される。PPPoEリレー・エージェントは、ローカル的に発信されたPPPoEトラフィックがどのセッションに属すのかを決定するためのブリッジとして稼動する。
【0133】
AAL-2(例えば1950)は、音声トラフィックを伝送するために使われる。AALには少なくとも2つのレイヤを含む。下位レイヤは、例えばトレーラ加算、パッディング、CRCチェックおよび他の機能等の共通タスクを取り扱うCPCSを含む。上位レイヤは、例えばデータ転送を担保するような特定のタスクをを取り扱うSSCSを含む。AAL-5(つまり1952)は効率を最大化する意図でデータを効率的かつ確実に伝送することを行い、かつ他の機能を行なう。
【0134】
AAL-5(つまり1952)は、どのようにセルへのセグメント化を行い、どのようにセルからの組立てを行うかを定義する一種のATM適用レイヤである。さまざまなAALが、多様なトラフィック必要条件をサポートするために定めることが出来る。
【0135】
シグナリング1954は、2つのポイント間で仮想回路をダイナミックに決める手段を提供する。Spanning-tree bridges 1940は、spanning-treeオプションで物理的に取り外されたネットワーク間で透明なブリッジを提供する。Spanning-treeアルゴリズムは冗長を扱い、更に堅固性を向上させる。
【0136】
BUN装置ドライバ・フレームワーク1958は広範囲なパケットとセルベースのハードウェア装置に一般的なインタフェースを提供する。BUNはハードウェア依存機能からハードウェア非依存機能を区別するので装置ドライバ・フレームワークと呼ばれ、そのようにして装置ドライバの開発、保守、およびデバッグを簡略にすることができる。
【0137】
ATMドライバ1960は、例えばアプリケーションソフトウェア・タスクおよび物理的なATMポートの間で、データを通過させる。ATMドライバ1960はATMのセルセグメント化と組立て、AALカプセル化、そしてマルチプレックス同時並行の一連のデータを実行する。
【0138】
前述の記述には多くの詳細および特定性が含まれるが、これらは単に説明のために含まれるのであって、本発明の限定と解釈されるべきでない。上記した実施態様に対する多くの変更は、本発明の精神と範囲から逸脱することなく、行うことが可能である。
【0139】
本発明は、本願明細書において記載されている実施例により範囲が限定されることはない。実際は、ここの記載に加えて本発明のさまざまな修正は、前述の説明と添付図面から当業者には明白である。従ってそのような修正は、以下添付の請求の範囲の範囲内であると理解される。更に、本発明は本願明細書において、特定の目的のための特定の環境下で、特定実施の内容で記載されているが、当業者はその有用性はそれに限定されないと認識され、本発明はどのような目的のどのような環境下であっても、効率的に実行可能である。従って本願明細書において下記に述べるクレームセットは、ここに開示した発明の息遣いと精神を考慮に入れて理解されなければならない。
【図面の簡単な説明】
【0140】
本発明は、添付の図面と連動して、以下の発明の詳細な説明を読み込むことによって、より完全によく理解される。
【0141】
【図1】本発明の第1の実施例によるエンコーダの一例を示すフローチャートである。
【図2】本発明の第1の実施例によるエンコーダの他の例を示すフローチャートである。
【図3a】本発明の第2の実施例による多重生成器を実装するシステム一例である。
【図3b】本発明の第2の実施例による音声合成フィルタの一例を示すブロック図である。
【図4a】本発明の第3の実施例によるエンコーダの一例を示すフローチャートである。
【図4b】本発明の第3の実施例によるデコーダ・プロセスを実装するシステムの一例である。
【図4c】本発明の第3の実施例による暗騒音を生成するシステムの一例である。
【図5】本発明の第4の実施例によるフィルタを示すブロック図である。
【図6】本発明の第4の実施例によるフィルタを示すブロック図である。
【図7】本発明の第4の実施例による自動利得制御を微調整するためのプロセスの一例を示すフローチャートである。
【図8】本発明の一実施例よるコード化側上のCNGを使用するシステムの一例を示す。
【図9】本発明の一実施例よるSIDが送り出されない場合にコード化側上のCNGを使用するシステムの一例を示す。
【図10】本発明の一実施例よるデコード化側上のCNGを使用するシステムの一例を示す。
【図11】本発明の他の実施例よるデコード化側上のCNGを使用するシステムの一例を示す。
【図12】本発明の一実施例よるCNG_adapt機能のためのフローチャートを例示する。
【図13】本発明の一実施例よるCNG_generate機能のためのフローチャートを例示する。
【図14】本発明の一実施例よるCNG_decode機能のためのフローチャートを例示する。
【図15】本発明の態様が組み込まれたソフトウエア・アーキテクチャの略図である。
【図16】本発明の態様が組み込まれたソフトウエア・アーキテクチャの略図である。
【図17】本発明の態様が組み込まれたハードウェア・アーキテクチャの略図である。
【図18】本発明の態様が組み込まれたハードウェア・アーキテクチャの概要図である。
【図19】本発明の態様が組み込まれたソフトウエア・アーキテクチャの概要図である。
Claims (42)
- 快適ノイズを生成するためにスペクトル推定を行う方法において:
入力ノイズ信号を受信するステップと;
所定時間アルゴリズムを使用して前記入力ノイズ信号のスペクトルを近似計算するステップと;
音声信号が存在しないタイミングを検出するステップと;そして
前記音声信号が存在しないタイミングが検出された時に前記近似計算するステップに基づいて快適ノイズを生成するステップ;とで構成され、前記入力ノイズ信号のスペクトルが所定の時間に渡り略一定であることを特徴とする入力ノイズ信号のスペクトル推定方法。 - 前記スペクトルを近似計算するステップは、さらに逆予測値を用いて予測信号のスペクトルへ入力ノイズを合わせるステップを含むことを特徴とする請求の範囲第1項記載の入力ノイズ信号のスペクトル推定方法。
- さらに、前記入力ノイズ信号が略6dB以内であることを確認する内部チェックを行うステップを含むことを特徴とする請求の範囲第1項記載の入力ノイズ信号のスペクトル推定方法。
- 少なくともノイズスパイク又は音声セグメントが除外されたものに対して、近似計算がされることを特徴とする請求の範囲第3項記載の入力ノイズ信号のスペクトル推定方法。
- 前記アルゴリズムは平均最少二乗法であることを特徴とする請求の範囲第1項記載の入力ノイズ信号のスペクトル推定方法。
- 前記アルゴリズムは漏洩平均最少二乗法であることを特徴とする請求の範囲第1項記載の入力ノイズ信号のスペクトル推定方法。
- 前記アルゴリズムは正規化平均最少二乗法であることを特徴とする請求の範囲第1項記載の入力ノイズ信号のスペクトル推定方法。
- 前記アルゴリズムは線形予測コーディング・アルゴリズムであることを特徴とする請求の範囲第1項記載の入力ノイズ信号のスペクトル推定方法。
- さらに、前記アルゴリズムをノイズレベルの変化から独立させるために、平均最少二乗のエラーおよび少なくとも平均最少二乗係数の可変精度計算を実行するステップを含むことを特徴とする請求の範囲第1項記載の入力ノイズ信号のスペクトル推定方法。
- 前記生成された快適ノイズは略一定であることを特徴とする請求の範囲第1項記載の入力ノイズ信号のスペクトル推定方法。
- さらに、前記スペクトルを近似計算するステップを信号振幅変化から独立させるために前記アルゴリズムを正規化するステップを含むことを特徴とする請求の範囲第1項記載の入力ノイズ信号のスペクトル推定方法。
- さらに、少なくとも一つの無音挿入記述子を送信するために前記近似計算のステップから、少なくとも一つの反響係数へエンコードするフィルタ・パラメータを選別するステップを含むことを特徴とする請求の範囲第1項記載の入力ノイズ信号のスペクトル推定方法。
- システム間の互換性が向上することを特徴とする請求の範囲第12項記載の入力ノイズ信号のスペクトル推定方法。
- MIPSおよびメモリーが効果的に利用されることを特徴とする請求の範囲第13項記載の入力ノイズ信号のスペクトル推定方法。
- 前記スペクトルを近似計算するステップは、さらに合成フィルタで前記入力ノイズ信号をフィルタ処理するステップを含むことを特徴とする請求の範囲第1項記載の入力ノイズ信号のスペクトル推定方法。
- 前記合成フィルタが以下の計算式で定義されており、該計算式中でMがタップ数、wが予測計数、Hが変数zの関数であることを特徴とする請求の範囲第15項記載の入力ノイズ信号のスペクトル推定方法。
- 前記合成フィルタは10番台の合成フィルタであることを特徴とする請求の範囲第15項記載の入力ノイズ信号のスペクトル推定方法。
- 前記スペクトルを近似計算するステップは、さらに:
音声データ間のノイズを検出するステップと;
ノイズに適用するステップと;そして
音声が不活発の時に前記適用ステップに基づいて無音挿入記述子を生成するステップ;とで構成されたことを特徴とする請求の範囲第1項記載の入力ノイズ信号のスペクトル推定方法。 - 前記無音挿入記述子は少なくとも一つの直接形態係数から反響係数へ以下の計算式で変換することで生成されることを特徴とする請求の範囲第18項記載の入力ノイズ信号のスペクトル推定方法。
- 前記無音挿入記述子は少なくとも一つの反響係数から直接形態係数へ以下の計算式で変換することで生成されることを特徴とする請求の範囲第18項記載の入力ノイズ信号のスペクトル推定方法。
- 前記スペクトルを近似計算するステップは、さらに:
音声データ間のノイズを検出するステップと;
ノイズに適用するステップと;そして
音声が不活発の時に前記入力ノイズ信号の平均スペクトルに基づいてさらに最適なノイズを生成するステップ;とで構成されたことを特徴とする請求の範囲第1項記載の入力ノイズ信号のスペクトル推定方法。 - 快適ノイズを生成するためにスペクトル推定を行うシステムにおいて:
入力ノイズ信号を受信する受信部と;
所定時間アルゴリズムを使用して前記入力ノイズ信号のスペクトルを近似計算するエンコーダと;
音声信号が存在しないタイミングを検出するデコーダと;そして
前記音声信号が存在しないタイミングが検出された時に前記近似計算するステップに基づいて快適ノイズを生成する快適ノイズ生成器;とで構成され、前記入力ノイズ信号のスペクトルが所定の時間に渡り略一定であることを特徴とする入力ノイズ信号のスペクトル推定を行うシステム。 - 前記スペクトルを近似計算するエンコーダは、さらに逆予測値を用いて予測信号のスペクトルへ入力ノイズを合わせることを特徴とする請求の範囲第22項記載の入力ノイズ信号のスペクトル推定を行うシステム。
- 前記入力ノイズ信号が略6dB以内であることを確認する内部チェックを行うステップを含むことを特徴とする請求の範囲第22項記載の入力ノイズ信号のスペクトル推定を行うシステム。
- 少なくともノイズスパイク又は音声セグメントが除外されたものに対して、近似計算がされることを特徴とする請求の範囲第24項記載の入力ノイズ信号のスペクトル推定を行うシステム。
- 26.前記アルゴリズムは平均最少二乗法であることを特徴とする請求の範囲第22項記載の入力ノイズ信号のスペクトル推定を行うシステム。
- 前記アルゴリズムは漏洩平均最少二乗法であることを特徴とする請求の範囲第22項記載の入力ノイズ信号のスペクトル推定を行うシステム。
- 前記アルゴリズムは正規化平均最少二乗法であることを特徴とする請求の範囲第22項記載の入力ノイズ信号のスペクトル推定を行うシステム。
- 前記アルゴリズムは線形予測コーディング・アルゴリズムであることを特徴とする請求の範囲第22項記載の入力ノイズ信号のスペクトル推定を行うシステム。
- 前記アルゴリズムをノイズレベルの変化から独立させるために、平均最少二乗のエラーおよび少なくとも平均最少二乗係数の可変精度計算が実行されることを特徴とする請求の範囲第22項記載の入力ノイズ信号のスペクトル推定を行うシステム。
- 前記生成された快適ノイズは略一定であることを特徴とする請求の範囲第22項記載の入力ノイズ信号のスペクトル推定を行うシステム。
- さらに、前記スペクトルを近似計算するステップを信号振幅変化から独立させるために前記アルゴリズムが正規化されることを特徴とする請求の範囲第22項記載の入力ノイズ信号のスペクトル推定を行うシステム。
- 少なくとも一つの無音挿入記述子を送信するために前記近似計算のステップから、少なくとも一つの反響係数へエンコードするフィルタ・パラメータが選別されることを特徴とする請求の範囲第22項記載の入力ノイズ信号のスペクトル推定を行うシステム。
- システム間の互換性が向上することを特徴とする請求の範囲第33項記載の入力ノイズ信号のスペクトル推定を行うシステム。
- MIPSおよびメモリーが効果的に利用されることを特徴とする請求の範囲第34項記載の入力ノイズ信号のスペクトル推定を行うシステム。
- さらに前記入力ノイズ信号をフィルタ処理する合成フィルタを含むことを特徴とする請求の範囲第22項記載の入力ノイズ信号のスペクトル推定を行うシステム。
- 前記合成フィルタが以下の計算式で定義されており、該計算式中でMがタップ数、wが予測計数、Hが変数zの関数であることを特徴とする請求の範囲第36項記載の入力ノイズ信号のスペクトル推定を行うシステム。
- 前記合成フィルタは10番台の合成フィルタであることを特徴とする請求の範囲第36項記載の入力ノイズ信号のスペクトル推定を行うシステム。
- 前記エンコーダは、さらに:
音声データ間のノイズを検出する検出部と;
ノイズに適用する適用部と;そして
音声が不活発の時に前記適用部の適用に基づいて無音挿入記述子を生成する無音挿入記述子生成部;とで構成されたことを特徴とする請求の範囲第22項記載の入力ノイズ信号のスペクトル推定を行うシステム。 - 前記無音挿入記述子は少なくとも一つの直接形態係数から反響係数へ以下の計算式で変換することで生成されることを特徴とする請求の範囲第39項記載の入力ノイズ信号のスペクトル推定を行うシステム。
- 前記無音挿入記述子は少なくとも一つの反響係数から直接形態係数へ以下の計算式で変換することで生成されることを特徴とする請求の範囲第39項記載の入力ノイズ信号のスペクトル推定を行うシステム。
- 前記エンコーダは、さらに:
音声データ間のノイズを検出する検出部と;
ノイズに適用する適用部と;そして
音声が不活発の時に前記入力ノイズ信号の平均スペクトルに基づいてさらに最適なノイズを生成するノイズ生成部;とで構成されたことを特徴とする請求の範囲第22項記載の入力ノイズ信号のスペクトル推定を行うシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US29726501P | 2001-06-12 | 2001-06-12 | |
US30515701P | 2001-07-16 | 2001-07-16 | |
PCT/US2002/018537 WO2002101724A1 (en) | 2001-06-12 | 2002-06-12 | Method and system for implementing a low complexity spectrum estimation technique for comfort noise generation |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004534263A true JP2004534263A (ja) | 2004-11-11 |
Family
ID=26970066
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003504389A Pending JP2004534263A (ja) | 2001-06-12 | 2002-06-12 | 擬似快適ノイズを発生させる簡単なスペクトル推定技術を実行する方法とシステム |
JP2003504387A Pending JP2004536334A (ja) | 2001-06-12 | 2002-06-12 | 無音挿入記述子パケット無しで擬似快適ノイズを発生させる方法とシステム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003504387A Pending JP2004536334A (ja) | 2001-06-12 | 2002-06-12 | 無音挿入記述子パケット無しで擬似快適ノイズを発生させる方法とシステム |
Country Status (5)
Country | Link |
---|---|
US (5) | US20030120484A1 (ja) |
JP (2) | JP2004534263A (ja) |
KR (2) | KR20040028785A (ja) |
CN (2) | CN1539137A (ja) |
WO (4) | WO2002101727A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007065636A (ja) * | 2005-08-31 | 2007-03-15 | Motorola Inc | 音声通信システムにおいて快適雑音を生成する方法および装置 |
JP2019200366A (ja) * | 2018-05-17 | 2019-11-21 | 株式会社トランストロン | エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム |
Families Citing this family (53)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2381702B (en) * | 2001-11-02 | 2004-01-07 | Motorola Inc | Communication system, user equipment and method of performing a conference call therefor |
US7221659B1 (en) * | 2001-12-31 | 2007-05-22 | Cisco Technology, Inc. | Method and system for managing erroneous attenuation of signal |
US20030212550A1 (en) * | 2002-05-10 | 2003-11-13 | Ubale Anil W. | Method, apparatus, and system for improving speech quality of voice-over-packets (VOP) systems |
US20040114536A1 (en) * | 2002-10-16 | 2004-06-17 | O'rourke Aidan | Method for communicating information on fast and slow paths |
EP1590943A1 (en) * | 2003-01-24 | 2005-11-02 | Telefonaktiebolaget LM Ericsson (publ) | Method and arrangement to perform a link test between end nodes in dsl communication networks, using several separate loop-back tests |
US7570937B2 (en) * | 2003-08-21 | 2009-08-04 | Acoustic Technologies, Inc. | Comfort noise generator |
US7596488B2 (en) * | 2003-09-15 | 2009-09-29 | Microsoft Corporation | System and method for real-time jitter control and packet-loss concealment in an audio signal |
US7412376B2 (en) * | 2003-09-10 | 2008-08-12 | Microsoft Corporation | System and method for real-time detection and preservation of speech onset in a signal |
FR2861247B1 (fr) | 2003-10-21 | 2006-01-27 | Cit Alcatel | Terminal de telephonie a gestion de la qualite de restituton vocale pendant la reception |
US7436786B2 (en) * | 2003-12-09 | 2008-10-14 | International Business Machines Corporation | Telecommunications system for minimizing the effect of white noise data packets for the generation of required white noise on transmission channel utilization |
US7426426B2 (en) * | 2004-07-02 | 2008-09-16 | Vibration Research Corporation | System and method for simultaneously controlling spectrum and kurtosis of a random vibration |
US7917356B2 (en) | 2004-09-16 | 2011-03-29 | At&T Corporation | Operating method for voice activity detection/silence suppression system |
US7558286B2 (en) * | 2004-10-22 | 2009-07-07 | Sonim Technologies, Inc. | Method of scheduling data and signaling packets for push-to-talk over cellular networks |
DE102004063290A1 (de) * | 2004-12-29 | 2006-07-13 | Siemens Ag | Verfahren zur Anpassung von Comfort Noise Generation Parametern |
US8767974B1 (en) * | 2005-06-15 | 2014-07-01 | Hewlett-Packard Development Company, L.P. | System and method for generating comfort noise |
US8045542B2 (en) * | 2005-11-02 | 2011-10-25 | Nokia Corporation | Traffic generation during inactive user plane |
US20070118372A1 (en) * | 2005-11-23 | 2007-05-24 | General Electric Company | System and method for generating closed captions |
US20070118364A1 (en) * | 2005-11-23 | 2007-05-24 | Wise Gerald B | System for generating closed captions |
US20070136055A1 (en) * | 2005-12-13 | 2007-06-14 | Hetherington Phillip A | System for data communication over voice band robust to noise |
US8135148B2 (en) * | 2006-04-26 | 2012-03-13 | Microsemi Semiconductor Corp. | Automatic gain control for mobile microphone |
US20080059161A1 (en) * | 2006-09-06 | 2008-03-06 | Microsoft Corporation | Adaptive Comfort Noise Generation |
US7827030B2 (en) * | 2007-06-15 | 2010-11-02 | Microsoft Corporation | Error management in an audio processing system |
US7907977B2 (en) * | 2007-10-02 | 2011-03-15 | Agere Systems Inc. | Echo canceller with correlation using pre-whitened data values received by downlink codec |
KR100932913B1 (ko) * | 2007-12-06 | 2009-12-21 | 한국전자통신연구원 | Ip 데이터와 음성 신호를 동시에 처리하는 복합 스위치및 스위칭 방법 |
DE102008009719A1 (de) * | 2008-02-19 | 2009-08-20 | Siemens Enterprise Communications Gmbh & Co. Kg | Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen |
EP2182513B1 (en) * | 2008-11-04 | 2013-03-20 | Lg Electronics Inc. | An apparatus for processing an audio signal and method thereof |
WO2010138014A1 (en) * | 2009-05-28 | 2010-12-02 | Lsi Corporation | HIGH-PERFORMANCE TONE DETECTION USING A DIGITAL SIGNAL PROCESSOR (DSP) HAVING MULTIPLE ARITHMETIC LOGIC UNITS (ALUs) |
US20110234200A1 (en) * | 2010-03-24 | 2011-09-29 | Kishan Shenoi | Adaptive slip double buffer |
US8862254B2 (en) * | 2011-01-13 | 2014-10-14 | Apple Inc. | Background audio processing |
EP2866228B1 (en) * | 2011-02-14 | 2016-06-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder comprising a background noise estimator |
MY159444A (en) | 2011-02-14 | 2017-01-13 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V | Encoding and decoding of pulse positions of tracks of an audio signal |
PL2661745T3 (pl) | 2011-02-14 | 2015-09-30 | Fraunhofer Ges Forschung | Urządzenie i sposób do ukrywania błędów w zunifikowanym kodowaniu mowy i audio |
SG192746A1 (en) | 2011-02-14 | 2013-09-30 | Fraunhofer Ges Forschung | Apparatus and method for processing a decoded audio signal in a spectral domain |
TR201903388T4 (tr) | 2011-02-14 | 2019-04-22 | Fraunhofer Ges Forschung | Bir ses sinyalinin parçalarının darbe konumlarının şifrelenmesi ve çözülmesi. |
CA2827272C (en) | 2011-02-14 | 2016-09-06 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method for encoding and decoding an audio signal using an aligned look-ahead portion |
AR085794A1 (es) | 2011-02-14 | 2013-10-30 | Fraunhofer Ges Forschung | Prediccion lineal basada en esquema de codificacion utilizando conformacion de ruido de dominio espectral |
MX2013009303A (es) * | 2011-02-14 | 2013-09-13 | Fraunhofer Ges Forschung | Codec de audio utilizando sintesis de ruido durante fases inactivas. |
AU2012217158B2 (en) | 2011-02-14 | 2014-02-27 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Information signal representation using lapped transform |
WO2012110482A2 (en) * | 2011-02-14 | 2012-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Noise generation in audio codecs |
WO2012110448A1 (en) | 2011-02-14 | 2012-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result |
US8589153B2 (en) | 2011-06-28 | 2013-11-19 | Microsoft Corporation | Adaptive conference comfort noise |
CA2895391C (en) * | 2012-12-21 | 2019-08-06 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Comfort noise addition for modeling background noise at low bit-rates |
RU2650025C2 (ru) | 2012-12-21 | 2018-04-06 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Генерирование комфортного шума с высоким спектрально-временным разрешением при прерывистой передаче аудиосигналов |
CN106169297B (zh) | 2013-05-30 | 2019-04-19 | 华为技术有限公司 | 信号编码方法及设备 |
CN103475382B (zh) * | 2013-09-25 | 2015-08-19 | 广州海格通信集团股份有限公司 | 一种零中频高斯白噪声添加方法及装置 |
US9582356B1 (en) * | 2013-11-01 | 2017-02-28 | Marvell International Ltd. | System and method for DDR memory timing acquisition and tracking |
CN104700830B (zh) * | 2013-12-06 | 2018-07-24 | 中国移动通信集团公司 | 一种语音端点检测方法及装置 |
EP2980790A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for comfort noise generation mode selection |
CN108024287B (zh) * | 2016-11-01 | 2022-12-16 | 北京三星通信技术研究有限公司 | 拥塞控制的方法及设备 |
WO2018062832A1 (en) | 2016-09-29 | 2018-04-05 | Samsung Electronics Co., Ltd. | Method and device for controlling congestion |
KR20190000090U (ko) | 2017-06-30 | 2019-01-09 | 김사관 | 창호용 프레임의 연결구조 |
CN109116425B (zh) * | 2018-10-31 | 2021-02-26 | 中国石油化工股份有限公司 | 利用反射波的频谱设计滤波器去除噪音的方法 |
US10969431B1 (en) * | 2019-12-23 | 2021-04-06 | Intel Corporation | Error-tolerant architecture for power-efficient computing |
Family Cites Families (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4243950A (en) * | 1977-04-04 | 1981-01-06 | Gte Laboratories Incorporated | Random noise generators |
US4527798A (en) * | 1981-02-23 | 1985-07-09 | Video Turf Incorporated | Random number generating techniques and gaming equipment employing such techniques |
JPH02239292A (ja) | 1989-03-13 | 1990-09-21 | Canon Inc | 音声合成装置 |
US5153532A (en) | 1989-05-24 | 1992-10-06 | Honeywell Inc. | Noise generator using combined outputs of two pseudo-random sequence generators |
US5537509A (en) | 1990-12-06 | 1996-07-16 | Hughes Electronics | Comfort noise generation for digital communication systems |
US5127053A (en) * | 1990-12-24 | 1992-06-30 | General Electric Company | Low-complexity method for improving the performance of autocorrelation-based pitch detectors |
US5630016A (en) * | 1992-05-28 | 1997-05-13 | Hughes Electronics | Comfort noise generation for digital communication systems |
US5576976A (en) | 1993-09-07 | 1996-11-19 | Rockwell International Corporation | Amplitude detection and automatic gain control of a sparsely sampled sinusoid by adjustment of a notch filter |
JPH07129195A (ja) * | 1993-11-05 | 1995-05-19 | Nec Corp | 音声復号化装置 |
JP3182032B2 (ja) | 1993-12-10 | 2001-07-03 | 株式会社日立国際電気 | 音声符号化通信方式及びその装置 |
US5657422A (en) | 1994-01-28 | 1997-08-12 | Lucent Technologies Inc. | Voice activity detection driven noise remediator |
JP2720800B2 (ja) * | 1994-12-16 | 1998-03-04 | 日本電気株式会社 | 雑音挿入方法および装置 |
EP0720146A1 (en) | 1994-12-30 | 1996-07-03 | AT&T Corp. | A method for measuring speech masking properties |
US5727072A (en) * | 1995-02-24 | 1998-03-10 | Nynex Science & Technology | Use of noise segmentation for noise cancellation |
US6813366B1 (en) * | 1995-05-08 | 2004-11-02 | Digimarc Corporation | Steganographic decoding with transform to spatial domain |
FI105001B (fi) * | 1995-06-30 | 2000-05-15 | Nokia Mobile Phones Ltd | Menetelmä odotusajan selvittämiseksi puhedekooderissa epäjatkuvassa lähetyksessä ja puhedekooderi sekä lähetin-vastaanotin |
FR2739995B1 (fr) | 1995-10-13 | 1997-12-12 | Massaloux Dominique | Procede et dispositif de creation d'un bruit de confort dans un systeme de transmission numerique de parole |
US5794199A (en) * | 1996-01-29 | 1998-08-11 | Texas Instruments Incorporated | Method and system for improved discontinuous speech transmission |
US5722086A (en) * | 1996-02-20 | 1998-02-24 | Motorola, Inc. | Method and apparatus for reducing power consumption in a communications system |
US5883893A (en) * | 1996-09-10 | 1999-03-16 | Cisco Technology, Inc. | ATM voice transport protocol |
SE507370C2 (sv) * | 1996-09-13 | 1998-05-18 | Ericsson Telefon Ab L M | Metod och anordning för att alstra komfortbrus i linjärprediktiv talavkodare |
DE69620272T2 (de) * | 1996-09-24 | 2003-07-24 | Hewlett Packard Co | Datenverabeitungsgerät und -verfahren |
US6269331B1 (en) * | 1996-11-14 | 2001-07-31 | Nokia Mobile Phones Limited | Transmission of comfort noise parameters during discontinuous transmission |
US5960389A (en) * | 1996-11-15 | 1999-09-28 | Nokia Mobile Phones Limited | Methods for generating comfort noise during discontinuous transmission |
TW326070B (en) * | 1996-12-19 | 1998-02-01 | Holtek Microelectronics Inc | The estimation method of the impulse gain for coding vocoder |
FR2761512A1 (fr) | 1997-03-25 | 1998-10-02 | Philips Electronics Nv | Dispositif de generation de bruit de confort et codeur de parole incluant un tel dispositif |
US5893056A (en) * | 1997-04-17 | 1999-04-06 | Northern Telecom Limited | Methods and apparatus for generating noise signals from speech signals |
US6286122B1 (en) * | 1997-07-03 | 2001-09-04 | Nokia Mobile Phones Limited | Method and apparatus for transmitting DTX—low state information from mobile station to base station |
US5983183A (en) | 1997-07-07 | 1999-11-09 | General Data Comm, Inc. | Audio automatic gain control system |
US6289044B1 (en) * | 1998-05-12 | 2001-09-11 | Nortel Networks Limited | Automatic gain control circuit for a modem receiver |
US6104992A (en) | 1998-08-24 | 2000-08-15 | Conexant Systems, Inc. | Adaptive gain reduction to produce fixed codebook target signal |
US6108610A (en) * | 1998-10-13 | 2000-08-22 | Noise Cancellation Technologies, Inc. | Method and system for updating noise estimates during pauses in an information signal |
US7124079B1 (en) | 1998-11-23 | 2006-10-17 | Telefonaktiebolaget Lm Ericsson (Publ) | Speech coding with comfort noise variability feature for increased fidelity |
US6691084B2 (en) * | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
WO2000079748A1 (en) * | 1999-06-23 | 2000-12-28 | At & T Wireless Services, Inc. | Automatic gain control for ofdm receiver |
NO995609L (no) * | 1999-11-15 | 2001-05-16 | Ericsson Telefon Ab L M | AGC-system |
US6724805B1 (en) * | 1999-11-15 | 2004-04-20 | Massachusetts Institute Of Technology | Nonlinear dynamic system for spread spectrum code generation and acquisition |
US6442380B1 (en) | 1999-12-22 | 2002-08-27 | U.S. Philips Corporation | Automatic gain control in a zero intermediate frequency radio device |
JP3508850B2 (ja) | 2000-08-11 | 2004-03-22 | 株式会社ケンウッド | 疑似背景雑音生成方法 |
US6420934B1 (en) * | 2000-08-24 | 2002-07-16 | Telencomm, Inc. | Automatic gain control circuit for signal with diverse power level range |
US6417730B1 (en) * | 2000-11-29 | 2002-07-09 | Harris Corporation | Automatic gain control system and related method |
US6439460B1 (en) * | 2000-12-15 | 2002-08-27 | Yu-Chun Chang | Instant synchronous automatic gain control apparatus |
-
2002
- 2002-01-03 US US10/034,120 patent/US20030120484A1/en not_active Abandoned
- 2002-06-05 US US10/161,621 patent/US20030125910A1/en not_active Abandoned
- 2002-06-05 US US10/161,618 patent/US20030123535A1/en not_active Abandoned
- 2002-06-05 US US10/161,687 patent/US7013271B2/en not_active Expired - Lifetime
- 2002-06-12 JP JP2003504389A patent/JP2004534263A/ja active Pending
- 2002-06-12 WO PCT/US2002/018534 patent/WO2002101727A1/en not_active Application Discontinuation
- 2002-06-12 JP JP2003504387A patent/JP2004536334A/ja active Pending
- 2002-06-12 CN CNA02815326XA patent/CN1539137A/zh active Pending
- 2002-06-12 KR KR10-2003-7016488A patent/KR20040028785A/ko not_active Application Discontinuation
- 2002-06-12 WO PCT/US2002/018537 patent/WO2002101724A1/en active Application Filing
- 2002-06-12 WO PCT/US2002/018535 patent/WO2002101722A1/en active Application Filing
- 2002-06-12 CN CNA028153278A patent/CN1539138A/zh active Pending
- 2002-06-12 WO PCT/US2002/018536 patent/WO2002101723A1/en not_active Application Discontinuation
- 2002-06-12 KR KR10-2003-7016489A patent/KR20040028786A/ko not_active Application Discontinuation
-
2005
- 2005-09-26 US US11/234,121 patent/US20060020449A1/en not_active Abandoned
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007065636A (ja) * | 2005-08-31 | 2007-03-15 | Motorola Inc | 音声通信システムにおいて快適雑音を生成する方法および装置 |
JP4643517B2 (ja) * | 2005-08-31 | 2011-03-02 | モトローラ・インコーポレイテッド | 音声通信システムにおいて快適雑音を生成する方法および装置 |
JP2019200366A (ja) * | 2018-05-17 | 2019-11-21 | 株式会社トランストロン | エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム |
WO2019220951A1 (ja) * | 2018-05-17 | 2019-11-21 | 株式会社トランストロン | エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム |
JP7043344B2 (ja) | 2018-05-17 | 2022-03-29 | 株式会社トランストロン | エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム |
Also Published As
Publication number | Publication date |
---|---|
CN1539137A (zh) | 2004-10-20 |
US20030125910A1 (en) | 2003-07-03 |
WO2002101727A1 (en) | 2002-12-19 |
CN1539138A (zh) | 2004-10-20 |
US20030123535A1 (en) | 2003-07-03 |
US20030120484A1 (en) | 2003-06-26 |
US7013271B2 (en) | 2006-03-14 |
KR20040028785A (ko) | 2004-04-03 |
JP2004536334A (ja) | 2004-12-02 |
US20030078767A1 (en) | 2003-04-24 |
WO2002101723A1 (en) | 2002-12-19 |
WO2002101722A1 (en) | 2002-12-19 |
WO2002101724A1 (en) | 2002-12-19 |
US20060020449A1 (en) | 2006-01-26 |
KR20040028786A (ko) | 2004-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004534263A (ja) | 擬似快適ノイズを発生させる簡単なスペクトル推定技術を実行する方法とシステム | |
US7680042B2 (en) | Generic on-chip homing and resident, real-time bit exact tests | |
US7460479B2 (en) | Late frame recovery method | |
US6298057B1 (en) | System and method for reliability transporting aural information across a network | |
US7835311B2 (en) | Voice-activity detection based on far-end and near-end statistics | |
US20110235500A1 (en) | Integrated echo canceller and speech codec for voice-over IP(VoIP) | |
EP1432220B2 (en) | Switchboard for dual-rate singleband telecommunication system | |
Perkins et al. | Speech transmission performance planning in hybrid IP/SCN networks | |
US20030086444A1 (en) | Voice/tone discriminator | |
US7313233B2 (en) | Tone clamping and replacement | |
Kitawaki et al. | Speech coding technology for ATM networks | |
Baker | Speech transport for packet telephony and voice over IP | |
Rane et al. | Echo cancellation in voice telephony over ATM networks | |
Hall | The design and implementation of a speech codec for packet switched networks | |
Dhir | Voice-Data Convergence—Voice Over IP | |
Volkening | Voice over DSL: CVoDSL, VoATM, and VoIP | |
Kosonen | Voice Quality in IP Telephony |