JP2013210659A - 音声信号に関連するパケットに識別子を含めるためのシステムおよび方法 - Google Patents
音声信号に関連するパケットに識別子を含めるためのシステムおよび方法 Download PDFInfo
- Publication number
- JP2013210659A JP2013210659A JP2013108189A JP2013108189A JP2013210659A JP 2013210659 A JP2013210659 A JP 2013210659A JP 2013108189 A JP2013108189 A JP 2013108189A JP 2013108189 A JP2013108189 A JP 2013108189A JP 2013210659 A JP2013210659 A JP 2013210659A
- Authority
- JP
- Japan
- Prior art keywords
- packet
- signal
- narrowband
- wideband
- encoded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 116
- 238000004891 communication Methods 0.000 claims description 42
- 238000012545 processing Methods 0.000 claims description 21
- 238000012856 packing Methods 0.000 claims description 9
- 230000005284 excitation Effects 0.000 description 183
- 238000001228 spectrum Methods 0.000 description 79
- 239000011295 pitch Substances 0.000 description 77
- 230000005236 sound signal Effects 0.000 description 73
- 238000010586 diagram Methods 0.000 description 66
- 230000006870 function Effects 0.000 description 62
- 230000003595 spectral effect Effects 0.000 description 55
- 238000004458 analytical method Methods 0.000 description 35
- 238000005070 sampling Methods 0.000 description 27
- 230000003044 adaptive effect Effects 0.000 description 23
- 230000015572 biosynthetic process Effects 0.000 description 21
- 230000004044 response Effects 0.000 description 21
- 239000013598 vector Substances 0.000 description 21
- 238000004364 calculation method Methods 0.000 description 20
- 238000003786 synthesis reaction Methods 0.000 description 20
- 230000005540 biological transmission Effects 0.000 description 19
- 230000007704 transition Effects 0.000 description 19
- 239000004606 Fillers/Extenders Substances 0.000 description 14
- 230000007774 longterm Effects 0.000 description 14
- 230000002087 whitening effect Effects 0.000 description 13
- 238000013139 quantization Methods 0.000 description 12
- 230000008859 change Effects 0.000 description 10
- 230000000737 periodic effect Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 7
- 230000001413 cellular effect Effects 0.000 description 7
- 238000013461 design Methods 0.000 description 7
- 238000001914 filtration Methods 0.000 description 7
- 238000009499 grossing Methods 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012886 linear function Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000002441 reversible effect Effects 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000012952 Resampling Methods 0.000 description 3
- 238000005311 autocorrelation function Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 230000003111 delayed effect Effects 0.000 description 3
- 238000007493 shaping process Methods 0.000 description 3
- 230000008054 signal transmission Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000001427 coherent effect Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000006249 magnetic particle Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Mobile Radio Communication Systems (AREA)
- Telephonic Communication Services (AREA)
Abstract
【課題】音声信号に関連するパケットに識別子を含める可変レート音声符号化方法を提供する。
【解決手段】受信される信号は、複数のフレームに分割される。この信号のフレームは、パケット内に符号化される。このパケットが、広帯域パケットとして符号化されるか、または狭帯域パケットとして符号化されるかを決定する。この決定に基づいて、識別子がパケットの中にパックされ、このパケットが伝送される。Nビットパラメータから、少なくとも2つの不正な値がもたらされ、Nビットパラメータからの少なくとも1つのビットを使用して、情報が伝送される。情報を伝送するのに使用されるNビットパラメータからのビットの数は、log2(X)と等しく、Xは、Nビットパラメータからもたらされる不正な値の数である。
【選択図】図38
【解決手段】受信される信号は、複数のフレームに分割される。この信号のフレームは、パケット内に符号化される。このパケットが、広帯域パケットとして符号化されるか、または狭帯域パケットとして符号化されるかを決定する。この決定に基づいて、識別子がパケットの中にパックされ、このパケットが伝送される。Nビットパラメータから、少なくとも2つの不正な値がもたらされ、Nビットパラメータからの少なくとも1つのビットを使用して、情報が伝送される。情報を伝送するのに使用されるNビットパラメータからのビットの数は、log2(X)と等しく、Xは、Nビットパラメータからもたらされる不正な値の数である。
【選択図】図38
Description
本特許出願は、本特許出願の譲受人に譲渡され、参照により本明細書に明確に組み込まれている、2006年7月31日に出願された「SPECIAL HALF-RATE IDENTIFIER PACKET GENERATION AND DECODING」という名称の仮出願第60/834,617号の優先権を主張するものである。
本システムおよび本方法は、一般には音声処理技術に関する。より具体的には、本システムおよび本方法は、音声信号に関連するパケットに識別子を含めることに関する。
ディジタル技術による音声の伝送が、特に長距離アプリケーションおよびディジタル無線電話アプリケーションにおいて普及してきている。このことにより、再構成された音声の知覚される品質を維持しながら通信路を介して送信されることが可能な最少量の情報を特定することへの関心が生じた。音声を圧縮するためのデバイスは、電気通信の多くの分野に用途が見出される。電気通信の例が、無線通信である。無線通信の分野は、例えば、コードレス電話機、ポケットベル、無線ローカルループ、セルラー及びポータブル通信システム(PCS)電話システムなどの無線電話、移動IP(インターネットプロトコル)電話および衛星通信システムを含む多くのアプリケーションを有する。特に重要なアプリケーションが、移動体加入者のための無線電話である。
音声信号に関連するパケットに識別子を含めるための方法について記載する。信号が受信される。この信号は、複数のフレームに分割される。この信号のフレームは、パケット内に符号化される。このパケットが、広帯域パケットとして符号化されるか、または狭帯域パケットとして符号化されるかの決定が行われる。この決定に基づいて、識別子がパケットの中にパックされる。このパケットが伝送される。Nビットパラメータから、少なくとも2つの不正な(illegal)値がもたらされ、Nビットパラメータからの少なくとも1つのビットを使用して、情報が伝送される。情報を伝送するのに使用されるNビットパラメータからのビットの数は、log2(X)と等しく、Xは、Nビットパラメータからもたらされる不正な値の数である。
また、音声信号に関連するパケットに識別子を含めるための装置についても記載する。この装置は、プロセッサと、このプロセッサと電子通信するメモリとを含む。命令が、メモリの中に格納される。これらの命令は、信号を受信し、この信号を複数のフレームに分割し、この信号のフレームをパケット内に符号化し、このパケットが広帯域パケットとして符号化されるか、または狭帯域パケットとして符号化されるかを決定し、この決定に基づいて識別子をパケットの中にパックし、このパケットを伝送するように実行可能である。
また、音声信号に関連するパケットに識別子を含めるように構成されたシステムについても記載する。このシステムは、処理するための手段と、信号を受信するための手段とを含む。この信号を複数のフレームに分割するための手段と、この信号のフレームをパケット内に符号化するための手段とについて記載する。このパケットが広帯域パケットとして符号化されるか、または狭帯域パケットとして符号化されるかを決定するための手段について記載する。この決定に基づいてパケットの中に識別子をパックするための手段と、このパケットを伝送するための手段とについて記載する。
また、コンピュータ可読媒体についても記載する。この媒体は、信号を受信し、この信号を複数のフレームに分割し、この信号のフレームをパケット内に符号化し、このパケットが広帯域パケットとして符号化されるか、または狭帯域パケットとして符号化されるかを決定し、この決定に基づいて識別子をパケットの中にパックし、このパケットを伝送するように実行可能である命令のセットを格納するように構成される。
また、パケットを復号するための方法についても記載する。パケットが受信される。このパケットの中に含められた識別子が分析される。このパケットが、広帯域コーダによって符号化された、または狭帯域コーダによって符号化されたかの判定が行われる。この判定に基づいて、このパケットに関する復号モードが選択される。
また、パケットを復号するための装置についても記載する。この装置は、プロセッサと、このプロセッサと電子通信するメモリとを含む。命令が、このメモリの中に格納される。これらの命令は、パケットを受信し、このパケットの中に含められた識別子を分析し、このパケットが、広帯域コーダによって符号化されたか、または狭帯域コーダによって符号化されたかを判定し、この判定に基づいて、このパケットに関する復号モードを選択するように実行可能である。
また、パケットを復号するように構成されたシステムについても記載する。このシステムは、処理するための手段と、パケットを受信するための手段とを含む。このパケットの中に含められた識別子を分析するための手段と、このパケットが、広帯域コーダによって符号化されたか、または狭帯域コーダによって符号化されたかを判定するための手段とについて記載する。この判定に基づいて、このパケットに関する復号モードを選択するための手段について記載する。
また、コンピュータ可読媒体についても記載する。この媒体は、パケットを受信し、このパケットの中に含められた識別子を分析し、このパケットが、広帯域コーダによって符号化されたか、または狭帯域コーダによって符号化されたかを判定し、この判定に基づいて、このパケットに関する復号モードを選択するように実行可能である命令のセットを格納するように構成される。
次に、システムおよび方法の様々な構成が、図を参照して説明され、図では、同様の符号が、同一の要素、または機能的に類似した要素を示す。本明細書の図において全体的に説明され、例示される本システムおよび本方法の特徴は、多種多様な異なる構成で配置され、設計されることが可能である。このため、以下の詳細な説明は、主張されるとおり、本システムおよび本方法の範囲を限定することは意図しておらず、本システムおよび本方法の構成を単に代表するものである。
本明細書で開示される構成の多くの特徴は、コンピュータソフトウェアとして、電子ハードウェアとして、またはこの両方の組み合わせとして実施されることが可能である。ハードウェアとソフトウェアの、この互換性を明確に示すのに、様々な構成要素が、一般に、それらの構成要素の機能の点で説明される。そのような機能が、ハードウェアとして実施されるか、ソフトウェアとして実施されるかは、その特定のアプリケーション、ならびに全体的なシステムに課せられた設計上の制約に依存する。当業者は、説明される機能を、それぞれの特定のアプリケーションに関して様々な仕方で実施することができるが、そのような実施上の決定は、本システムおよび本方法の範囲からの逸脱を生じさせるものと解釈されてはならない。
説明される機能が、コンピュータソフトウェアとして実施される場合、そのようなソフトウェアは、メモリ装置内に配置される、さらに/またはシステムバスまたはネットワークを介して電子信号として伝送される、任意のタイプのコンピュータ命令またはコンピュータ実行可能コードを含むことが可能である。本明細書で説明される構成要素に関連する機能を実施するソフトウェアは、単一の命令、または複数の命令を備えることが可能であり、さらに、異なるいくつかのコードセグメントにわたって、異なるプログラムの間で、さらにいくつかのメモリ装置にわたって分散させられることが可能である。
本明細書で使用される「ある構成」、「構成」、「複数の構成」、「この構成」、「これらの構成」、「1つまたは複数の構成」、「一部の構成」、「いくつかの構成」、「一構成」、「別の構成」などの用語は、特に明記しない限り、「開示されるシステムおよび方法の1つまたは複数の(ただし、必ずしもすべてではない)構成」を意味する。
「決定すること」という用語(およびこの用語の文法上の変種)は、極めて広い意味で使用される。「決定すること」という用語は、多種多様なアクションを包含し、したがって、「決定すること」には、計算すること、算出すること、処理すること、導き出すこと、調査すること、ルックアップすること(例えば、テーブル、データベース、または別のデータ構造の中でルックアップすること)、確認することなどが含まれることが可能である。また、「決定すること」には、受け取ること(例えば、情報を受け取ること)、アクセスすること(例えば、メモリの中のデータにアクセスすること)などが含まれることも可能である。また、「決定すること」には、解決すること、選択すること、選ぶこと、確立することなどが含まれることも可能である。
「〜に基づいて」という句は、特に明記しない限り、「〜だけに基づいて」を意味しない。つまり、「〜に基づいて」という句は、「〜だけに基づいて」と「少なくとも〜に基づいて」の両方を意味する。
セルラー網には、固定の送信機によるサービスをそれぞれが受けるいくつかのセルから構成された無線網が含まれることが可能である。これらの複数の送信機は、セルサイトまたは基地局と呼ばれることが可能である。セルは、通信路を介して基地局に音声信号を伝送することによってネットワーク内の他のセルと通信することができる。セルは、音声信号を複数のフレーム(例えば、20ms(ミリ秒)の音声信号)に分割することができる。各フレームが、パケット内に符号化されることが可能である。パケットは、ある量のビットを含むことが可能であり、すると、これらのビットが、通信路を介して、受信する基地局、または受信するセルに伝送される。受信する基地局、または受信するセルは、このパケットをアンパック(unpack)し、様々なフレームを復号して、信号を再構築することができる。
パケットは、完全レートパケット(171ビット)として、1/2レートパケット(80ビット)として、1/4レートパケット(40ビット)として、または1/8レートパケット(16ビット)として符号化されることが可能である。さらに、パケットは、狭帯域コーダまたは広帯域コーダを利用して符号化されることが可能である。広帯域コーダによって符号化されるパケットは、完全レートパケット、1/2レートパケット、または1/8レートパケットとして符号化されることが可能である。狭帯域コーダによって符号化されるパケットは、完全レートパケット、1/2レートパケット、1/4レートパケット、または1/8レートパケットとして符号化されることが可能である。広帯域コーダは、CELP(符号励振線形予測:code excited linear prediction)パケットおよびNELP(雑音励振線形予測:noise-excited linear prediction)パケットを含め、様々なタイプのパケットに関して実施されることが可能である。狭帯域コーダは、CELPパケット、PPP(プロトタイプピッチ周期:prototype pitch period)パケット、およびNELPパケットに関して実施されることが可能である。
パケットを符号化した後、そのパケットが、広帯域コーダによって符号化されたか、または狭帯域コーダによって符号化されたかを復号器に示すために、識別子が、そのパケットの中に含められることが可能である。識別子に含められる情報は、そのパケットが、広帯域復号器を使用して復号されるべきか、または狭帯域復号器を使用して復号されるべきかを復号器に示すことが可能である。例えば、4GV(第4世代ボコーダ)WB(広帯域)コーダが、1/2レート(80ビット)パケットを符号化することが可能である。このパケットは、さらなるタイプのパケットを識別する明示的なビットをまったく有さない可能性がある。このため、7ビットピッチ遅れを含む無効なビットパターンを使用して、73ビット(または73ビット未満)を含む1つまたは複数のパケットが識別されることが可能である。しかし、4GV−WBの1/2レートパケットは、74ビットを必要とする可能性があり、このため、4GV−WBの1/2レートパケットのために7ビットピッチ遅れ識別子を利用することは、可能でないことがあり得る(この例において1/2レートに関して利用可能なビットの総数は、80であるので)。一態様では、互いに1ビットだけ異なる7ビットピッチ遅れ識別子の2つの無効なパターンを使用して、4GV−WBの1/2レートパケットが識別されることが可能である。(7ビットのうちの)6ビットが、識別子として使用されることが可能であり、したがって、この異なる1ビットが、73ビットに加えて、4GV−WBの1/2レートパケットによって使用されるように解放され、このことにより、4GV−WBの1/2レートパケットに関して74ビットがもたらされる。
本明細書で説明される構成には、約800bps(ビット/秒)ないし1000bpsの帯域幅増加で広帯域音声信号の伝送および/または格納をサポートする拡張を狭帯域音声コーダに提供するように構成されることが可能なシステム、方法、および装置が含まれる。そのような実施形態の潜在的な利点には、狭帯域システムとの互換性をサポートする埋込み符号化、狭帯域符号化通信路と高帯域符号化通信路の間でビットの割当ておよび再割当てが比較的容易であること、計算リソースを多く使用する広帯域合成操作が回避されること、および計算リソースを多く使用する波形符号化ルーチンによって処理されるべき信号に関して、低いサンプリングレートが維持されることが含まれる。
文脈によって明確に限定されない限り、「計算すること」という用語は、本明細書で、算出すること、生成すること、および値のリストから選択することなどの、通常の意味のいずれを示すようにも使用される。「備えること」という用語が、この説明、および特許請求の範囲において使用される場合、この用語は、他の要素、または他の動作を排除しない。「Aは、Bに基づく」という言い方は、(i)「Aは、Bと等しい」という事例、および(ii)「Aは、少なくともBに基づく」という事例を含め、通常の意味のいずれを示すようにも使用される。「インターネットプロトコル」という用語には、IETF(Internet Engineering Task Force)RCF(Request for Comments)791において説明されるバージョン4、ならびにバージョン6などの後続のバージョンが含まれる。
図1aは、ある構成による広帯域音声符号器A100のブロック図を示す。フィルタバンクA110が、広帯域音声信号S10を濾波して、狭帯域信号S20および高帯域信号S30をもたらすように構成される。狭帯域符号器A120が、狭帯域信号S20を符号化して、NB(狭帯域)フィルタパラメータS40および狭帯域残差信号S50をもたらすように構成される。本明細書でさらに詳細に説明されるとおり、狭帯域符号器A120は、狭帯域フィルタパラメータS40、および符号化された狭帯域励振信号S50を、コードブックインデックスとして、または別の量子化された形態でもたらすように通常、構成される。高帯域符号器A200が、符号化された狭帯域励振信号S50の中の情報に従って高帯域信号S30を符号化して、高帯域符号化パラメータS60をもたらすように構成される。本明細書でさらに詳細に説明されるとおり、高帯域符号器A200は、高帯域符号化パラメータS60を、コードブックインデックスとして、または別の量子化された形態でもたらすように通常、構成される。広帯域音声符号器A100の1つの特定の例が、約8.55kbps(キロビット/秒)のレートで広帯域音声信号S10を符号化するように構成され、約7.55kbpsが、狭帯域フィルタパラメータS40、および符号化された狭帯域励振信号S50のために使用され、約1kbpsが、高帯域符号化パラメータS60のために使用される。
符号化された狭帯域信号と、符号化された高帯域信号を組み合わせて、単一のビットストリームにすることが所望されることが可能である。例えば、符号化された信号を、伝送(例えば、有線伝送路、光伝送路、または無線伝送路を介した)のために、または格納のために、符号化された広帯域音声信号として一緒に多重化することが所望されることが可能である。図1bは、狭帯域フィルタパラメータS40、符号化された狭帯域励振信号S50、および高帯域フィルタパラメータS60を組み合わせて、多重化された信号S70にするように構成された多重化装置A130を含む広帯域音声符号器A100の実施形態A102のブロック図を示す。
符号器A102を含む装置は、多重化された信号S70を、有線通信路、光通信路、または無線通信路などの伝送路に送り込むように構成された回路を含むことも可能である。また、そのような装置は、誤り訂正符号化(例えば、レート適合畳み込み符号化)および/または誤り検出符号化(例えば、巡回冗長符号化)、および/または1つまたは複数の層のネットワークプロトコル符号化(例えば、イーサネット(登録商標)、TCP/IP、cdma2000)などの1つまたは複数の通信路符号化操作を、この信号に対して実行するように構成されることも可能である。
多重化装置A130が、符号化された狭帯域信号(狭帯域フィルタパラメータS40、および符号化された狭帯域励振信号S50を含む)を、多重化された信号S70の分離可能なサブストリームとして埋め込んで、符号化された狭帯域信号が、高帯域信号および/または低帯域信号などの多重化された信号S70の別の部分とは独立に回復され、復号されることが可能であるようにすることが、望ましい可能性がある。例えば、多重化された信号S70は、符号化された狭帯域信号が、高帯域フィルタパラメータS60を取り除くことによって回復されることが可能であるように構成されることが可能である。そのような特徴の1つの可能な利点は、符号化された広帯域信号を、狭帯域信号の復号はサポートするが、高帯域部分の復号はサポートしないシステムに送るのに先立って、トランスコードする必要性が回避されることである。
図2aは、ある構成による広帯域音声復号器B100のブロック図である。狭帯域復号器B110が、狭帯域フィルタパラメータS40、および符号化された狭帯域励振信号S50を復号して、狭帯域信号S90をもたらすように構成される。高帯域復号器B200が、符号化された狭帯域励振信号S50に基づいて、狭帯域励振信号S80に従って高帯域符号化パラメータS60を復号して、高帯域信号S100をもたらすように構成される。この例では、狭帯域復号器B110は、狭帯域励振信号S80を高帯域復号器B200に供給するように構成される。フィルタバンクB120が、狭帯域信号S90と高帯域信号S100を組み合わせて、広帯域音声信号S110をもたらすように構成される。
図2bは、多重化された信号S70から、符号化された信号S40、S50、およびS60をもたらすように構成された逆多重化装置B130を含む広帯域音声復号器B100の実施形態B102のブロック図である。復号器B102を含む装置は、有線通信路、光通信路、または無線通信路などの伝送路から、多重化された信号S70を受信するように構成された回路を含むことが可能である。また、そのような装置は、誤り訂正復号(例えば、レート適合畳み込み復号)および/または誤り検出復号(例えば、巡回冗長復号)、および/または1つまたは複数の層のネットワークプロトコル復号(例えば、イーサネット、TCP/IP、cdma2000)などの1つまたは複数の通信路復号操作を、この信号に対して実行するように構成されることも可能である。
フィルタバンクA110が、分割帯域スキームに従って入力信号を濾波して、低周波数副帯域および高周波数副帯域をもたらすように構成される。この特定のアプリケーションに関する設計基準に依存して、出力される副帯域は、等しい帯域幅を有することも、等しくない帯域幅を有することも可能であり、重なり合うことも、重なり合わないことも可能である。また、2つより多くの副帯域をもたらすフィルタバンクA110の構成も可能である。例えば、そのようなフィルタバンクは、狭帯域信号S20の周波数範囲(50〜300Hzの範囲などの)を下回る周波数範囲内の成分を含む1つまたは複数の低帯域信号をもたらすように構成されることが可能である。また、そのようなフィルタバンクが、高帯域信号S30の周波数範囲(14〜20kHz、16〜20kHz、または16〜32kHzの範囲などの)を超える周波数範囲内の成分を含む1つまたは複数のさらなる高帯域信号をもたらすように構成されることも可能である。そのような事例において、広帯域音声符号器A100が、この信号、またはこれらの信号を別個に符号化するように実施されることが可能であり、さらに、多重化装置A130が、多重化された信号S70の中に、このさらなる符号化された信号、またはこれらのさらなる符号化された信号を含める(例えば、分離可能な部分として)ように構成されることが可能である。
図3aは、低減されたサンプリングレートを有する2つの副帯域信号をもたらすように構成されたフィルタバンクA110の実施形態A112のブロック図を示す。フィルタバンク110は、高周波数(つまり、高帯域)部分と、低周波数(つまり、低帯域)部分とを有する広帯域音声信号S10を受け取るように構成される。フィルタバンクA112は、広帯域音声信号S10を受け取って、狭帯域音声信号S20をもたらすように構成された低帯域処理パスと、広帯域音声信号S10を受け取って、高帯域音声信号S30をもたらすように構成された高帯域処理パスとを含む。ローパスフィルタ110が、広帯域音声信号S10を濾波して、選択された低周波数副帯域を通過させ、ハイパスフィルタ130が、広帯域音声信号S10を濾波して、選択された高周波数副帯域を通過させる。両方の副帯域信号とも、広帯域音声信号S10より狭い帯域幅を有するため、これらの信号のサンプリングレートは、情報の損失なしに、ある程度、低減されることが可能である。ダウンサンプラ120が、所望されるデシメーション率(decimation factor)に従ってローパス信号のサンプリングレートを低減し(例えば、信号のサンプルを取り除くこと、および/またはサンプルを平均値で置き換えることによって)、ダウンサンプラ140が同様に、別の所望されるデシメーション率に従ってハイパス信号のサンプリングレートを低減する。
図3bは、フィルタバンクB120の対応する実施形態B122のブロック図を示す。アップサンプラ150が、狭帯域信号S90のサンプリングレートを高め(例えば、ゼロの詰め込みによって、さらに/またはサンプルを重複させることによって)、ローパスフィルタ160が、アップサンプリングされた信号を濾波して、低帯域部分を通過させる(例えば、エイリアシングを防止するように)。同様に、アップサンプラ170が、高帯域信号S100のサンプリングレートを高め、ハイパスフィルタ180が、アップサンプリングされた信号を濾波して、高帯域部分を通過させる。次に、2つの通過帯域信号が合計されて、広帯域音声信号S110が形成される。復号器B100の一部の実施形態において、フィルタバンクB120が、高帯域復号器B200によって受け取られ、さらに/または計算された1つまたは複数の重みに応じて、この2つの通過帯域信号の加重和をもたらすように構成される。また、2つを超える通過帯域信号を組み合わせるフィルタバンクB120の構成も、企図される。
フィルタ110、130、160、180のそれぞれが、FIR(有限インパルス応答)フィルタとして、またはIIR(無限インパルス応答)フィルタとして実施されることが可能である。符号器フィルタ110および130の周波数応答は、阻止帯域と通過帯域の間に対称的な形状の遷移領域を有することも、相違する形状の遷移領域を有することも可能である。同様に、復号器フィルタ160および180の周波数応答は、阻止帯域と通過帯域の間に対称的な形状の遷移領域を有することも、相違する形状の遷移領域を有することも可能である。ローパスフィルタ110が、ローパスフィルタ160と同一の応答を有し、ハイパスフィルタ130が、ハイパスフィルタ180と同一の応答を有することが、望ましい可能性がある。一例では、この2つのフィルタペア110、130、および160、180は、QMF(直交ミラーフィルタ)バンクであり、フィルタペア110、130は、フィルタペア160、180と同一の係数を有する。
通常の例において、ローパスフィルタ110は、300〜3400Hzの限られたPSTN範囲(例えば、0kHzから4kHzまでの帯域)を含む通過帯域を有する。図4aおよび図4bは、2つの異なる実施例において広帯域音声信号S10、狭帯域信号S20、および高帯域信号S30の相対的な帯域幅を示す。これらの特定の例の両方において、広帯域音声信号S10は、16kHzというサンプリングレート(0kHzから8kHzまでの範囲内の周波数成分を表す)を有し、狭帯域信号S20は、8kHzというサンプリングレート(0kHzから4kHzまでの範囲内の周波数成分を表す)を有する。
図4bの例では、2つの副帯域の間に大きな重なり合いは、存在しない。この例に示される高帯域信号S30は、4〜8kHzの通過帯域を有するハイパスフィルタ130を使用して獲得されることが可能である。そのような事例では、濾波された信号を1/2にダウンサンプリングすることによって、8kHzまでサンプリングレートを低減することが望ましい可能性がある。信号に対するさらなる処理操作の計算の複雑度を大幅に低減するものと見込まれることが可能である、そのような操作は、情報の損失なしに、0kHzないし4kHzの範囲にまで通過帯域エネルギーを低下させる。
図4bの代替の例では、上側の副帯域と下側の副帯域が、相当の重なり合いを有して、3.5kHzないし4kHzの領域が、両方の副帯域信号によって記述されるようになっている。この例における高帯域信号S30は、3.5〜7kHzの通過帯域を有するハイパスフィルタ130を使用して獲得されることが可能である。そのような事例では、濾波された信号を16/7にダウンサンプリングすることによって、7kHzまでサンプリングレートを低減することが望ましい可能性がある。信号に対するさらなる処理操作の計算の複雑度を大幅に低減するものと見込まれることが可能である、そのような操作は、情報の損失なしに、0kHzないし3.5kHzの範囲にまで通過帯域エネルギーを低下させる。
電話通信のための通常のハンドセットにおいて、トランスデューサ(すなわち、マイクロホン、およびイヤホンもしくはスピーカ)の1つまたは複数が、7〜8kHzの周波数範囲にわたって相当の応答を欠いている。図4bの例では、7kHzから8kHzまでの間の広帯域音声信号S10の部分は、符号化された信号の中に含められない。ハイパスフィルタ130の他の特定の例は、3.5〜7.5kHzおよび3.5〜8kHzという通過帯域を有する。
一部の実施形態では、図4bの例における副帯域の間の重なり合いを提供することにより、重なり合った領域にわたる平滑なロールオフを有するローパスフィルタおよび/またはハイパスフィルタの使用が可能になる。そのようなフィルタは、通常、設計するのがより容易であり、計算がそれほど複雑でなく、さらに/または、より尖鋭な応答、または「ブリックウォール(brick-wall)」応答を有するフィルタと比べて、それほど遅延を生じさせない。尖鋭な遷移領域を有するフィルタは、平滑なロールオフを有する同様な次数のフィルタと比べて、より高いサイドローブ(エイリアシングを生じさせる可能性がある)を有する傾向にある。また、尖鋭な遷移領域を有するフィルタは、リンギングアーチファクト(ringing artifact)を生じさせる可能性がある長いインパルス応答を有する可能性もある。1つまたは複数のIIRフィルタを有するフィルタバンク実施形態に関して、重なり合った領域にわたる平滑なロールオフを可能にすることにより、極が単位円からより離れたフィルタ、または複数のフィルタの使用が可能になる可能性があり、このことは、安定した不動点実施(fixed-point implementation)を確実にするのに重要である可能性がある。
副帯域の重なり合いは、聞こえるアーチファクトが、より少なくなること、エイリアシングが低減されること、および/または一方の帯域から他方の帯域への遷移がそれほど目立たなくなることにつながる可能性がある低帯域と高帯域の平滑な混合を可能にする。さらに、狭帯域符号器A120(例えば、波形コーダ)の符号化効率は、周波数が高くなるにつれて低下する可能性がある。例えば、狭帯域コーダの符号化品質は、特に背景雑音が存在する状態において、低いビットレートで低下する可能性がある。そのような事例において、副帯域の重なり合いをもたらすことにより、重なり合った領域における再現される周波数成分の品質が向上する可能性がある。
さらに、副帯域の重なり合いは、聞こえるアーチファクトが、より少なくなること、エイリアシングが低減されること、および/または一方の帯域から他方の帯域への遷移がそれほど目立たなくなることにつながる可能性がある低帯域と高帯域の平滑な混合を可能にする。そのような特徴は、狭帯域符号器A120と高帯域符号器A200が、異なる符号化方法に従って動作する実施形態に関して特に望ましい可能性がある。例えば、異なる符号化技術は、極めて異なって聞こえる信号を生成する可能性がある。コードブックインデックスの形態でスペクトルエンベロープを符号化するコーダは、代わりに振幅スペクトルを符号化するコーダとは異なるサウンドを有する信号を生成する可能性がある。時間領域コーダ(例えば、パルス符号変調コーダ、つまり、PCMコーダ)は、周波数領域コーダとは異なるサウンドを有する信号を生成する可能性がある。スペクトルエンベロープの表現、および対応する残差信号を使用して信号を符号化するコーダは、スペクトルエンベロープの表現を使用して信号を符号化するコーダとは異なるサウンドを有する信号を生成する可能性がある。波形の表現として信号を符号化するコーダは、正弦波コーダからの出力とは異なるサウンドを有する出力を生成する可能性がある。そのような事例において、尖鋭な遷移領域を有するフィルタを使用して、重なり合わない副帯域を規定することは、合成された広帯域信号における副帯域の間で急激な、知覚的に目立つ遷移につながる可能性がある。
補完的な重なり合う周波数応答を有するQMFフィルタバンクが、しばしば、副帯域技術において使用されるものの、そのようなフィルタは、本明細書で説明される広帯域符号化実施形態の少なくともいくつかには適していない。符号器におけるQMFフィルタバンクは、復号器における対応するQMFフィルタバンクにおいて除去される相当な程度のエイリアシングを生じさせるように構成される。そのような構成は、信号が、これらのフィルタバンク間で相当な量の歪みを被るアプリケーションに関して、この歪みが、エイリアス除去特性の有効性を減じる可能性があるので、適していない可能性がある。例えば、本明細書で説明されるアプリケーションは、非常に低いビットレートで動作するように構成された符号化実施形態を含む。非常に低いビットレートの結果、復号された信号は、元の信号と比べて大きく歪んでいるように見える可能性が高く、したがって、QMFフィルタバンクの使用は、除去されないエイリアシングにつながる可能性がある。QMFフィルタバンクを使用するアプリケーションは、通常、より高いビットレート(例えば、AMRの場合、12kbpsを超え、G.722の場合64kbpsを超える)を有する。
さらに、コーダが、元の信号と知覚的に似通っているが、実際には、元の信号とは相当に異なる合成された信号を生成するように構成されることが可能である。例えば、本明細書で説明されるとおり、狭帯域残差から高帯域励振を導き出すコーダが、実際の高帯域残差は、復号された信号には完全に欠如している可能性があるので、そのような信号を生成することが可能である。そのようなアプリケーションにおけるQMFフィルタバンクの使用は、除去されないエイリアシングによって生じる相当な程度の歪みにつながる可能性がある。
QMFエイリアシングによって生じる歪みの量は、影響を受ける副帯域が狭い場合、エイリアシングの影響が、この副帯域の幅と等しい帯域幅に限定されるので、低減される可能性がある。しかし、各副帯域が広帯域幅の約半分を含む、本明細書で説明される例の場合、除去されないエイリアシングによって生じる歪みは、信号の相当な部分に影響を与える可能性がある。また、この信号の品質が、除去されないエイリアシングが生じる周波数帯域の場所によって影響を受ける可能性もある。例えば、広帯域音声信号の中心近く(例えば、3kHzから4kHzまでの間)で生じた歪みは、この信号の端近く(例えば、6kHzより上)で生じた歪みよりもはるかに不快である可能性がある。
QMFフィルタバンクの複数のフィルタの応答は、互いに厳密に関係しているが、フィルタバンクA110およびB120の低帯域パスと高帯域パスは、この2つの副帯域の重なり合いのほかは、完全に無関係であるスペクトルを有するように構成されることが可能である。この2つの副帯域の重なり合いを、高帯域フィルタの周波数応答が、−20dBまで低下するポイントから、低帯域フィルタの周波数応答が、−20dBまで低下するポイントまでの距離と定義する。フィルタバンクA110および/またはB120の様々な例において、この重なり合いは、約200Hzから約1kHzまでの範囲に及ぶ。約400Hzから約600Hzまでの範囲が、符号化効率と知覚的な平滑度の間の望ましいトレードオフを表すことが可能である。前述した1つの特定の例では、重なり合いは、約500Hzである。
図4aおよび図4bに示される操作をいくつかの段階で実行するようにフィルタバンクA112および/またはB122を実施することが、望ましい可能性がある。例えば、図4cは、一連の補間、再サンプリング、デシメーション、およびその他の操作を使用してハイパスフィルタリング操作およびダウンサンプリング操作と機能的に等価な操作を実行するフィルタバンクA112の実施形態A114のブロック図を示す。そのような実施形態は、設計するのがより容易である可能性があり、さらに/またはロジックおよび/またはコードの機能ブロックの再使用を可能にし得る。例えば、同一の機能ブロックを使用して、図4cに示されるとおり、14kHzまでのデシメーション、および7kHzまでのデシメーションの操作が実行されることが可能である。スペクトル反転操作が、信号に、値が+1と−1の間で交替する、関数ejnπまたは数列(−1)nを掛けることによって実施されることが可能である。スペクトル整形操作は、所望される全体的なフィルタ応答を得るように信号を整形するように構成されたローパスフィルタとして実施されることが可能である。
スペクトル反転操作の結果、高帯域信号S30のスペクトルが、反転させられることに留意されたい。符号器、および対応する復号器における後続の操作が、これに相応して構成されることが可能である。例えば、本明細書で説明される高帯域励起発生器A300が、スペクトルが反転された形態も有する高帯域励振信号S120を生成するように構成されることが可能である。
図4dは、一連の補間、再サンプリング、およびその他の操作を使用してアップサンプリング操作およびハイパスフィルタリング操作と機能的に等価な操作を実行するフィルタバンクB122の実施形態B124のブロック図を示す。フィルタバンクB124は、例えば、フィルタバンクA114などの符号器のフィルタバンクにおいて実行されるのと同様の操作を逆にする、高帯域におけるスペクトル反転操作を含む。この特定の例では、フィルタバンクB124は、7100Hzにおける信号の成分を減衰させる低帯域および高帯域におけるノッチフィルタも含むが、そのようなフィルタは、オプションであり、含められなくてもよい。
狭帯域符号器A120が、入力音声信号を(A)フィルタを記述するパラメータのセット、および(B)この記述されたフィルタを駆動して、入力音声信号の合成された再現をもたらす励振信号として符号化するソース・フィルタモデルに従って実施される。図5aは、音声信号のスペクトルエンベロープの例を示す。このスペクトルエンベロープを特徴付けるピークは、声道の共鳴を表し、フォルマントと呼ばれる。ほとんどの音声コーダは、少なくともこの粗いスペクトル構造を、フィルタ係数などのパラメータのセットとして符号化する。
図5bは、狭帯域信号S20のスペクトルエンベロープの符号化に適用される基本的なソース・フィルタ構成の例を示す。分析モジュールが、ある期間(通常20ミリ秒)にわたる音声サウンドに対応する、フィルタを特徴付けるパラメータのセットを計算する。それらのフィルタパラメータに従って構成された白色化フィルタ(分析フィルタまたは予測誤差フィルタとも呼ばれる)が、スペクトルエンベロープを除去して、信号をスペクトルに関して平坦化する。もたらされる白色化された信号(残差とも呼ばれる)は、より小さいエネルギーを有し、このため、より少ない変動を有し、元の音声信号より符号化するのが容易である。また、残差信号の符号化からもたらされる誤差が、スペクトルにわたってより均等に拡散されることも可能である。フィルタパラメータおよび残差は、通信路を介した効率的な伝送のために、通常、量子化される。復号器において、これらのフィルタパラメータに従って構成された合成フィルタが、残差に基づいて信号によって励起されて、元の音声サウンドの合成されたバージョンをもたらす。合成フィルタは、白色化フィルタの伝達関数の逆である伝達関数を有するように、通常、構成される。
図6は、狭帯域符号器A120の基本的な実施形態A122のブロック図を示す。この例では、LPC(線形予測符号化)分析モジュール210が、LP(線形予測)係数(例えば、全極フィルタ1/A(z)の係数)のセットとして、狭帯域信号S20のスペクトルエンベロープを符号化する。分析モジュールは、通常、一連の重なり合わないフレームとして入力信号を処理し、新たな係数セットが、各フレームに関して計算される。フレーム周期は、一般に、信号が、局所的に静止しているものと見込まれることが可能な周期であり、一例は、20ミリ秒(8kHzのサンプリングレートで160のサンプルに相当する)である。一例では、LPC分析モジュール210は、各20ミリ秒フレームのフォルマント構造を特徴付ける10のLPフィルタ係数のセットを計算するように構成される。また、入力信号を一連の重なり合うフレームとして処理する分析モジュールを実施することも可能である。
分析モジュールは、各フレームのサンプルを直接に分析するように構成されることが可能であり、あるいはサンプルにまず、窓関数(例えば、ハミング窓)に従って重み付けされることが可能である。また、この分析は、30ミリ秒の窓などの、フレームより大きい窓にわたって実行されることも可能である。この窓は、対称的である(例えば、5−20−5であり、したがって、20ミリ秒のフレームの直前と直後に5ミリ秒を含む)ことも、非対称的である(例えば、10−20であり、したがって、先行するフレームの後の10ミリ秒を含む)ことも可能である。LPC分析モジュールは、Levinson−Durbin再帰またはLeroux−Gueguenアルゴリズムを使用してLPフィルタ係数を計算するように、通常、構成される。別の実施形態において、分析モジュールは、LPフィルタ係数のセットの代わりに、各フレームに関するケプストラム係数のセットを計算するように構成されることが可能である。
符号器A120の出力レートは、フィルタパラメータを量子化することによって、再現品質に比較的わずかな影響しか与えずに、大幅に低減されることが可能である。線形予測フィルタは、効率的に量子化することが困難であり、量子化および/またはエントロピー符号化のために、LSP(線スペクトル対)またはLSF(線スペクトル周波数)などの別の表現に、通常、マップされる。図6の例では、LPフィルタ係数−LSF変換220が、LPフィルタ係数のセットを、対応するLSFセットに変換する。LPフィルタ係数の他の1対1表現には、PARCOR係数、対数断面積比の値、ISP(イミタンススペクトル対)、ならびにGSM(登録商標)(Global System for Mobile Communications)AMR−WB(適応マルチレート広帯域)コーデックにおいて使用されるISF(イミタンススペクトル周波数)が含まれる。通常、LPフィルタ係数セットと、対応するLSFセットの間の変換は、可逆であるが、構成は、この変換が、誤りなしに可逆ではない符号器A120の実施形態も含む。
量子化器230が、狭帯域LSFのセット(または他の係数表現)を量子化するように構成され、狭帯域符号器A122が、この量子化の結果を狭帯域フィルタパラメータS40として出力するように構成される。そのような量子化器には、入力ベクトルを、テーブルまたはコードブックの中の対応するベクトルエントリに対するインデックスとして符号化するベクトル量子化器が、通常、含まれる。
また、図6に示されるとおり、狭帯域符号器A122は、フィルタ係数のセットに従って構成された白色化フィルタ260(分析フィルタまたは予測誤差フィルタとも呼ばれる)に狭帯域信号S20を通すことによって、残差信号の生成も行う。この特定の例では、白色化フィルタ260は、FIRフィルタとして実施されるが、IIR実施形態が使用されることも可能である。この残差信号は、通常、狭帯域フィルタパラメータS40の中で表現されていない、ピッチと関係する長期構造などの、音声フレームの知覚的に重要な情報を、通常、含む。量子化器270が、符号化された狭帯域励振信号S50として出力するために、この残差信号の量子化された表現を計算するように構成される。そのような量子化器には、入力ベクトルを、テーブルまたはコードブックの中の対応するベクトルエントリに対するインデックスとして符号化するベクトル量子化器が、通常、含まれる。代替として、そのような量子化器は、1つまたは複数のパラメータを送るように構成されることが可能であり、ベクトルは、スパースコードブック方法の場合と同様に、ストレージから取り出されるのではなく、これらのパラメータから復号器において動的に生成されることが可能である。そのような方法は、代数CELP(コードブック励起線形予測)などの符号化スキーム、および3GPP2(第3世代パートナーシップ2)EVRC(拡張可変レートコーデック)などの符号化スキームにおいて使用される。
また、図6に示されるとおり、狭帯域符号器A122は、フィルタ係数のセットに従って構成された白色化フィルタ260(分析フィルタまたは予測誤差フィルタとも呼ばれる)に狭帯域信号S20を通すことによって、残差信号の生成も行う。この特定の例では、白色化フィルタ260は、FIRフィルタとして実施されるが、IIR実施形態が使用されることも可能である。この残差信号は、通常、狭帯域フィルタパラメータS40の中で表現されていない、ピッチと関係する長期構造などの、音声フレームの知覚的に重要な情報を、通常、含む。量子化器270が、符号化された狭帯域励振信号S50として出力するために、この残差信号の量子化された表現を計算するように構成される。そのような量子化器には、入力ベクトルを、テーブルまたはコードブックの中の対応するベクトルエントリに対するインデックスとして符号化するベクトル量子化器が、通常、含まれる。代替として、そのような量子化器は、1つまたは複数のパラメータを送るように構成されることが可能であり、ベクトルは、スパースコードブック方法の場合と同様に、ストレージから取り出されるのではなく、これらのパラメータから復号器において動的に生成されることが可能である。そのような方法は、代数CELP(コードブック励起線形予測)などの符号化スキーム、および3GPP2(第3世代パートナーシップ2)EVRC(拡張可変レートコーデック)などの符号化スキームにおいて使用される。
狭帯域符号器A120が、対応する狭帯域復号器が利用できるのと同一のフィルタパラメータ値に従って、符号化された狭帯域励振信号を生成することが望ましい。このようにして、もたらされる符号化された狭帯域励振信号は、量子化誤差などの、それらのパラメータ値における非理想性をある程度、既に見込むことが可能である。したがって、復号器が利用できるのと同一の係数値を使用して、白色化フィルタを構成することが望ましい。図6に示される符号器A122の基本的な例において、逆量子化器240が、狭帯域符号化パラメータS40を逆量子化し、LSF−LPフィルタ係数変換250が、もたらされた値を、対応するLPフィルタ係数セットに逆にマップし、この係数セットを使用して、量子化器270によって量子化された残差信号を生成するように白色化フィルタ260が構成される。
狭帯域符号器A120の一部の実施形態は、コードブックベクトルのセットの中から、残差信号と最もよく合致するベクトルを識別することによって、符号化された狭帯域励振信号S50を計算するように構成される。しかし、狭帯域符号器A120は、残差信号を実際に生成することなしに、残差信号の量子化された表現を計算するように実施されることも可能であることに留意されたい。例えば、狭帯域符号器A120は、いくつかのコードブックベクトルを使用して、対応する合成された信号を生成し(例えば、現在のフィルタパラメータセットに従って)、知覚的に重み付けされた領域内で元の狭帯域信号S20と最もよく合致する、生成された信号に関連するコードブックベクトルを選択するように構成されることが可能である。
図7は、狭帯域復号器B110の実施形態B112のブロック図を示す。逆量子化器310が、狭帯域フィルタパラメータS40を逆量子化し(この事例では、LSFのセットに)、LSF−LPフィルタ係数変換320が、LSFをフィルタ係数のセットに変換する(例えば、狭帯域符号器A122の逆量子化器240および変換250に関連して前述したとおり)。逆量子化器340が、狭帯域残差信号S40を逆量子化して、狭帯域励振信号S80を生成する。フィルタ係数および狭帯域励振信号S80に基づいて、狭帯域合成フィルタ330が、狭帯域信号S90を量子化する。つまり、狭帯域合成フィルタ330は、逆量子化されたフィルタ係数に従って狭帯域励振信号S80をスペクトルに関して整形して、狭帯域信号S90をもたらすように構成される。また、狭帯域復号器B112は、狭帯域励振信号S80を高帯域符号器A200に供給し、符号器A200は、本明細書で説明されるとおり、この信号S80を使用して高帯域励振信号S120を導き出す。後段で説明される一部の実施形態では、狭帯域復号器B110が、スペクトル傾斜、ピッチ利得およびピッチ遅れ、ならびに音声モードなどの、狭帯域信号と関係するさらなる情報を高帯域復号器B200に供給するように構成されることが可能である。
狭帯域符号器A122と狭帯域復号器B112のシステムは、合成による分析音声コーデックの基本的な例である。CELP(コードブック励起線形予測)符号化は、合成による分析符号化の普及した一系統であり、そのようなコーダの実施形態は、固定の適応コードブックからのエントリの選択、誤差最小化操作、および/または知覚的重み付け操作などの操作を含め、残差の波形符号化を実行することができる。合成による分析符号化の他の実施形態には、MELP(混合励振線形予測)符号化、ACELP(代数CELP)符号化、RCELP(緩和CELP)符号化、RPE(規則的パルス励振)符号化、MPE(マルチパルスCELP)符号化、およびVSELP(ベクトル和励振線形予測)符号化が含まれる。関連する符号化方法には、MBE(多帯域励振)符号化およびPWI(プロトタイプ波形補間)符号化が含まれる。標準化された合成による分析音声コーデックの例には、RELP(残差励振線形予測)を使用するETSI(欧州電気通信標準化協会)−GSM(登録商標)フルレートコーデック(GSM(登録商標) 06.10)、GSM(登録商標)強化フルレートコーデック(ETSI−GSM(登録商標) 06.60)、ITU(国際電気通信連合)標準11.8kb/秒 G.729 Annex E符号器、IS−136(時間分割多元接続スキーム)に関するIS(暫定標準)−641コーデック、GSM(登録商標)−AMR(GSM(登録商標)適応マルチレート)コーデック、および4GVTM(Forth Generation Vocoder)コーデック(カリフォルニア州サンディエゴ所在のQUALCOMM社)が含まれる。狭帯域符号器A120、および対応する復号器B110は、これらの技術のいずれか、あるいは音声信号を、(A)フィルタを記述するパラメータのセット、および(B)この記述されるフィルタを駆動して、音声信号を再現するのに使用される励振信号として音声信号を表現する他の任意の音声符号化技術(知られているか、開発されるかにかかわらず)に従って実施されることが可能である。
白色化フィルタが、狭帯域信号S20から粗いスペクトルエンベロープを除去した後でさえ、相当な量の細かい調波構造、特に有声音声に関して、残る可能性がある。図8aは、母音などの有声信号に関して、白色化フィルタによってもたらされる可能性があるような、残差信号の一例のスペクトルプロットを示す。この例において目に見える周期構造は、ピッチと関係し、同一の話者によって発話される異なる有声サウンドは、異なるフォルマント構造を有するが、類似したピッチ構造を有することが可能である。図8bは、ピッチパルスのシーケンスを時間的に示す、そのような残差信号の例の時間領域プロットを示す。
符号化効率および/または音声品質は、1つまたは複数のパラメータ値を使用して、ピッチ構造の特性を符号化することによって向上させられることが可能である。ピッチ構造の1つの重要な特性は、通常、60Hzから400Hzまでの範囲内にある、最初の調波の周波数(基本周波数とも呼ばれる)である。この特性は、通常、ピッチ遅れとも呼ばれる、基本周波数の逆として、通常、符号化される。ピッチ遅れは、1ピッチ周期内のサンプルの数を示し、1つまたは複数のコードブックインデックスとして符号化されることが可能である。男性の話者からの音声信号は、女性の話者からの音声信号と比べて、より大きいピッチ遅れを有する傾向にある。
ピッチ構造と関係する別の信号特性が、周期性であり、周期性は、調波構造の強度を示し、つまり、信号が調和性である、または非調和性である度合いを示す。周期性の2つの通常の指標が、ゼロ交差およびNACF(正規化された自己相関関数)である。また、周期性は、コードブック利得(例えば、量子化された適応コードブック利得)として符号化されるピッチ利得によって示されることも可能である。
狭帯域符号器A120が、狭帯域信号S20の長期調波構造を符号化するように構成された1つまたは複数のモジュールを含むことが可能である。図9に示されるとおり、使用されることが可能な1つの通常のCELPパラダイムは、短期特性、つまり、粗いスペクトルエンベロープを符号化する開ループLPC分析モジュールと、その後に続く、細かいピッチ、つまり、調波構造を符号化する閉ループ長期予測分析段階を含む。短期特性は、フィルタ係数として符号化され、長期特性は、ピッチ遅れやピッチ利得などのパラメータの値として符号化される。例えば、狭帯域符号器A120が、1つまたは複数のコードブックインデックス(例えば、固定のコードブックインデックスおよび適応コードブックインデックス)、および対応する利得値を含む形態で、符号化された狭帯域励振信号S50を出力するように構成されることが可能である。狭帯域残差信号の、この量子化された表現の計算(例えば、量子化器270による)には、そのようなインデックスを選択すること、およびそのような値を計算することが含まれることが可能である。また、ピッチ構造の符号化には、ピッチプロトタイプ波形の補間が含まれることも可能であり、この操作には、連続するピッチパルス間の差を計算することが含まれることが可能である。長期構造のモデル化は、通常、雑音様であり、構造化されていない無声音声に対応するフレームに関して無効にされることが可能である。
図9に示されるパラダイムによる狭帯域復号器B110の実施形態が、長期構造(ピッチ構造または調波構造)が復元された後、高帯域復号器B200に狭帯域励振信号S80を出力するように構成されることが可能である。例えば、そのような復号器は、符号化された狭帯域励振信号S50の逆量子化されたバージョンとして、狭帯域励振信号S80を出力するように構成されることが可能である。もちろん、高帯域復号器B200が、符号化された狭帯域励振信号S50の逆量子化を実行して、狭帯域励振信号S80を得るように、狭帯域復号器B110を実施することも可能である。
図9に示されるパラダイムによる高帯域音声符号器A100の実施形態において、高帯域符号器A200は、短期分析フィルタまたは白色化フィルタによってもたらされる狭帯域励振信号を受け取るように構成されることが可能である。つまり、狭帯域符号器A120が、長期構造を符号化するのに先立って、高帯域符号器A200に狭帯域励振信号を出力するように構成されることが可能である。しかし、高帯域符号器A200が、狭帯域通信路から、広帯域復号器B200によって受け取られるのと同一の符号化情報を受け取り、高帯域符号器A200によって生成される符号化パラメータが、その情報における非理想性をある程度、既に見込んでいることが可能であるようにすることが望ましい。このため、高帯域符号器A200が、広帯域音声符号器A100によって出力されるのと同一のパラメータ化され、さらに/または量子化された、符号化された狭帯域励振信号S50から狭帯域励振信号S80を再構築することが、好ましい可能性がある。このアプローチの1つの潜在的な利点は、後段で説明される高帯域利得率S60bのより正確な計算である。
狭帯域信号S20の短期構造および/または長期構造を特徴付けるパラメータに加えて、狭帯域符号器A120は、狭帯域信号S20の他の特性と関係するパラメータ値を生成することも可能である。広帯域音声符号器A100による出力のために適切に量子化されることが可能な、これらの値は、狭帯域フィルタパラメータS40のなかに含められても、別個に出力されてもよい。また、高帯域符号器A200が、これらのさらなるパラメータの1つまたは複数に従って、高帯域符号化パラメータS60を計算する(例えば、逆量子化後に)ように構成されることも可能である。広帯域音声復号器B100において、高帯域復号器B200が、狭帯域復号器B110を介して、これらのパラメータ値を受け取る(例えば、逆量子化後に)ように構成されることが可能である。代替として、高帯域復号器B200が、これらのパラメータ値を直接に受け取る(さらに、場合により、逆量子化する)ように構成されてもよい。
さらなる狭帯域符号化パラメータの一例では、狭帯域符号器A120が、各フレームに関するスペクトル傾斜パラメータおよび音声モードパラメータの値を生成する。スペクトル傾斜は、通過帯域にわたるスペクトルエンベロープの形状と関係し、通常、量子化された最初の反射係数によって表される。ほとんどの有声サウンドの場合、スペクトルエネルギーは、周波数が高くなるにつれて低下し、したがって、最初の反射係数は、負であり、−1に近づくことが可能である。ほとんどの無声サウンドは、平坦なスペクトルを有し、したがって、最初の反射係数が、0に近いか、または高い周波数においてより大きいエネルギーを有し、したがって、最初の反射係数は、正であり、+1に近づくことが可能である。
音声モード(発声モードとも呼ばれる)は、現在のフレームが、有声音声を表すか、無声音声を表すかを示す。このパラメータは、フレームに関する周期性(例えば、ゼロ交差、NACF、ピッチ利得)および/または音声活動の1つまたは複数の測定値に基づくバイナリ値、例えばそのような測定値としきい値との関係などを有することが可能である。他の実施形態において、音声モードパラメータは、沈黙または背景雑音などのモード、あるいは沈黙と有声音声の間の遷移を示す他の1つまたは複数の状態を有する。
高帯域符号器A200が、ソース・フィルタモデルに従って高帯域信号S30を符号化するように構成され、このフィルタに関する励振は、符号化された狭帯域励振信号に基づく。図10は、高帯域フィルタパラメータS60aおよび高帯域利得率S60bを含む高帯域符号化パラメータS60のストリームを生成するように構成された高帯域符号器A200の実施形態A202のブロック図を示す。高帯域励振発生器A300が、符号化された狭帯域励振信号S50から高帯域励振信号S120を導き出す。分析モジュールA210が、高帯域信号S30のスペクトルエンベロープを特徴付けるパラメータ値のセットを生成する。この特定の例では、分析モジュールA210は、高帯域信号S30の各フレームに関してLPC分析を実行して、LPフィルタ係数のセットをもたらすように構成される。線形予測フィルタ係数−LSF変換410が、LPフィルタ係数のセットを、対応するLSFセットに変換する。分析モジュール210および変換220を参照して前述したとおり、分析モジュールA210および/または変換410は、他の係数セット(例えば、ケプストラム係数)および/または他の係数表現(例えば、ISP)を使用するように構成されることも可能である。
量子化器420が、高帯域LSF(またはISPなどの、他の係数表現)のセットを量子化するように構成され、高帯域符号器A202が、この量子化の結果を、高帯域フィルタパラメータS60aとして出力するように構成される。そのような量子化器には、入力ベクトルを、テーブルまたはコードブックの中の対応するベクトルエントリに対するインデックスとして符号化するベクトル量子化器が、通常、含まれる。
また、高帯域符号器A202は、高帯域励振信号S120、ならびに分析モジュールA210によって生成された、符号化されたスペクトルエンベロープ(例えば、LPフィルタ係数のセット)に従って、合成された高帯域信号S130をもたらすように構成された合成フィルタA220も含む。合成フィルタA220は、通常、IIRフィルタとして実施されるが、FIR実施形態が使用されることも可能である。ある特定の例では、合成フィルタA220は、6次線形自己回帰フィルタとして実施される。
高帯域利得率計算器A230が、元の高帯域信号S30のレベルと、合成された高帯域信号S130のレベルとの1つまたは複数の差を計算して、フレームに関する利得エンベロープを指定する。入力ベクトルを、テーブルまたはコードブックの中の対応するベクトルエントリに対するインデックスとして符号化するベクトル量子化器として実施されることが可能な量子化器430が、利得エンベロープを指定する1つまたは複数の値を量子化し、高帯域符号器A202が、この量子化の結果を高帯域利得率S60bとして出力するように構成される。
図10に示される実施形態において、合成フィルタA220が、分析モジュールA210からフィルタ係数を受け取るように構成される。高帯域符号器A202の代替の実施形態が、高帯域フィルタパラメータS60aからのフィルタ係数を復号するように構成された逆量子化器および逆変換を含み、この事例では、合成フィルタA220は、代わりに、復号されたフィルタ係数を受け取るように構成される。そのような代替の構成は、高帯域利得計算器A230による利得エンベロープの、より正確な計算をサポートすることができる。
1つの特定の例では、分析モジュールA210および高帯域利得計算器A230は、1フレーム当たり6つのLSFのセット、および5つの利得値のセットをそれぞれ出力し、したがって、狭帯域信号S20の広帯域拡張が、1フレーム当たり11のさらなる値を使用して達せられることが可能である。耳は、高い周波数における周波数誤差にそれほど敏感でない傾向があり、したがって、低いLPC次数における高帯域符号化は、より高いLPC次数における狭帯域符号化と同等の知覚的品質を有する信号をもたらすことが可能である。広帯域符号器A200の通常の実施形態は、スペクトルエンベロープの高品質の再構築に関して、1フレーム当たり8ビットないし12ビットを出力し、時間エンベロープの高品質の再構築に関して、1フレーム当たり8ビットないし12ビットをさらに出力するように構成されることが可能である。別の特定の例では、分析モジュールA210は、1フレーム当たり8つのLSFのセットを出力する。
高帯域符号器A200の一部の実施形態は、高帯域周波数成分を有するランダム雑音信号を生成し、この雑音信号を、狭帯域信号S20、狭帯域励振信号S80、または広帯域信号S30の時間領域エンベロープに従って振幅変調することによって、高帯域励振信号S120を生成するように構成される。そのような雑音ベースの方法は、無声サウンドに関して十分な結果をもたらすことが可能であるが、残差が、通常、調和性であり、したがって、何らかの周期構造を有する有声サウンドに関しては、望ましくない可能性がある。
高帯域励振発生器A300が、狭帯域励振信号S80のスペクトルを高帯域周波数範囲に入り込むように拡張することによって、高帯域励振信号S120を生成するように構成される。図11は、高帯域励振発生器A300の実施形態A302のブロック図を示す。逆量子化器450が、符号化された狭帯域励振信号S50を逆量子化して、狭帯域励振信号S80をもたらすように構成される。スペクトルエクステンダA400が、狭帯域励振信号S80に基づいて調和的に拡張された(harmonically extended)信号S160をもたらすように構成される。結合器470が、雑音発生器480によって生成されたランダム雑音信号と、エンベロープ計算器460によって計算された時間領域エンベロープとを組み合わせて、変調された雑音信号S170をもたらすように構成される。結合器490は、調和的に拡張された信号S60と、変調された雑音信号S170とをミキシングして、高帯域励振信号S120をもたらすように構成される。
一例では、スペクトルエクステンダA400は、狭帯域励振信号S80に対してスペクトル折り返し操作(ミラーリングとも呼ばれる)を実行して、調和的に拡張された信号S160をもたらすように構成される。スペクトル折り返しは、励振信号S80にゼロを詰め込み、次に、エイリアスを保持するようにハイパスフィルタを適用することによって実行されることが可能である。別の例では、スペクトルエクステンダA400は、狭帯域励振信号S80をスペクトルに関して広帯域に平行移動させることによって(例えば、アップサンプリングの後に、一定周波数のコサイン信号を掛けることを介して)、調和的に拡張された信号S160をもたらすように構成される。
スペクトル折り返し方法およびスペクトル平行移動方法は、調波構造の位相および/または周波数が、狭帯域励振信号S80の元の調波構造と不連続である、スペクトルに関して拡張された(spectrally extended)信号をもたらす可能性がある。例えば、そのような方法は、再構築された音声信号において金属的な響きのアーチファクトを生じさせる可能性がある、基本周波数の倍数に一般に位置しないピークを有する信号をもたらす可能性がある。また、これらの方法には、不自然に強い音の特性を有する高周波数の調波をもたらす傾向もある。さらに、PSTN信号が、8kHzでサンプリングされるが、3400Hzを超えないように帯域制限される可能性があるため、狭帯域励振信号S80の上側のスペクトルは、ほとんど、またはまったくエネルギーを含まないことが可能であり、したがって、スペクトル折り返し操作またはスペクトル平行移動操作に従って生成された、拡張された信号は、3400Hzを超えると、スペクトルの穴を有する可能性がある。
調和的に拡張された信号S160を生成する他の方法には、狭帯域励振信号S80の1つまたは複数の基本周波数を識別して、その情報に従って調和音を生成することが含まれる。例えば、励振信号の調波構造は、基本周波数とともに、振幅および位相の情報によって特徴付けられることが可能である。高帯域励振発生器A300の別の実施形態は、基本周波数および振幅(例えば、ピッチ遅れおよびピッチ利得によって示される)に基づいて、調和的に拡張された信号S160を生成する。しかし、調和的に拡張された信号が、狭帯域励振信号S80と位相コヒーレントでない限り、もたらされる復号された音声の品質は、許容できない可能性がある。
非線形関数を使用して、狭帯域励振と位相コヒーレントであり、位相の不連続なしに調波構造を保つ高帯域励振信号が作られることが可能である。また、非線形関数は、スペクトル折り返しやスペクトル平行移動などの方法によってもたらされる純音の高周波数の調波と比べて、より自然に聞こえる傾向にある、高周波数の調波間の、より高い雑音レベルをもたらすことも可能である。スペクトルエクステンダA400の様々な実施形態によって適用されることが可能な通常の、メモリのない(memoryless)非線形関数には、絶対値関数(全波整流とも呼ばれる)、半波整流、2乗、3乗、およびクリッピングが含まれる。スペクトルエクステンダA400の他の実施形態は、メモリを有する非線形関数を適用するように構成されることが可能である。
図12は、狭帯域励振信号S80のスペクトルを拡張する非線形関数を適用するように構成されたスペクトルエクステンダA400の実施形態A402のブロック図である。アップサンプラ510が、狭帯域励振信号S80をアップサンプリングするように構成される。信号を十分にアップサンプリングして、非線形関数が適用された際、エイリアシングが最小限に抑えられるようにすることが望ましい可能性がある。1つの特定の例では、アップサンプラ510が、信号を8倍にアップサンプリングする。アップサンプラ510は、入力信号にゼロを詰め込み、その結果をローパスフィルタにかけることによって、このアップサンプリング操作を実行するように構成されることが可能である。非線形関数計算器520が、アップサンプリングされた信号に非線形関数を適用するように構成される。2乗などの、スペクトル拡張のための他の非線形関数に優る絶対値関数の1つの潜在的な利点は、エネルギー正規化が必要とされないことである。一部の実施形態では、絶対値関数は、各サンプルの符号ビットを除去する、またはクリアすることによって、効率的に適用されることが可能である。また、非線形関数計算器520は、アップサンプリングされた、またはスペクトルに関して拡張された信号の振幅ワーピングを実行するように構成されることも可能である。
ダウンサンプラ530が、非線形関数を適用したことの、スペクトルに関して拡張された結果をダウンサンプリングするように構成される。ダウンサンプラ530が、バンドパスフィルタリング操作を実行して、スペクトルに関して拡張された信号の所望される周波数帯域を選択してから、サンプリングレートを低減する(例えば、不要なイメージによるエイリアシングまたは破損を低減する、または回避するように)ことが、望ましい可能性がある。また、ダウンサンプラ530が、複数の段階でサンプリングレートを低減することが望ましい可能性もある。
図12aは、周波数スケールが様々なプロットにわたって同一であるスペクトル拡張操作の一例において、様々なポイントにおける信号スペクトルを示す図である。プロット(a)は、狭帯域励振信号S80の一例のスペクトルを示す。プロット(b)は、信号S80が8倍にアップサンプリングされた後のスペクトルを示す。プロット(c)は、非線形関数の適用後の拡張されたスペクトルの例を示す。プロット(d)は、ローパスフィルタリングの後のスペクトルを示す。この例では、通過帯域は、高帯域信号S30の周波数上限(例えば、7kHzまたは8kHz)まで広がる。
プロット(e)は、サンプリングレートが4分の1に低減されて、広帯域信号が得られるダウンサンプリングの第1の段階後のスペクトルを示す。プロット(f)は、拡張された信号の高帯域部分を選択するハイパスフィルタリング操作後のスペクトルを示し、プロット(g)は、サンプリングレートが2分の1に低減されるダウンサンプリングの第2の段階後のスペクトルを示す。1つの特定の例では、ダウンサンプラ530は、フィルタバンクA112のハイパスフィルタ130およびダウンサンプラ140(または同一の応答を有する他の構造、もしくは他のルーチン)に広帯域信号を通して、高帯域信号S30の周波数範囲およびサンプリングレートを有する、スペクトルに関して拡張された信号をもたらすことによって、ハイパスフィルタリング、およびダウンサンプリングの第2の段階を実行する。
プロット(g)で見て取ることができるとおり、プロット(f)に示されるハイパス信号のダウンサンプリングは、この信号のスペクトルの反転を生じさせる。この例では、ダウンサンプラ530は、信号に対するスペクトル反転操作を実行するようにも構成される。プロット(h)は、信号に、値が+1と−1の間で交替する関数ejnπまたは数列(−1)nを掛けることによって実行されることが可能である、スペクトル反転操作を適用したことの結果を示す。そのような操作は、信号のディジタルスペクトルを周波数領域においてπという距離だけ偏移させることと等価である。同一の結果が、ダウンサンプリング操作およびスペクトル反転操作を異なる順序で適用することによっても得られることが可能であることに留意されたい。アップサンプリングおよび/またはダウンサンプリングの操作は、高帯域信号S30のサンプリングレート(例えば、7kHz)を有する、スペクトルに関して拡張された信号を得る再サンプリングを含むように構成されることも可能である。
前述したとおり、フィルタバンクA110およびB120は、狭帯域信号S20と高帯域信号S30のいずれか、または両方が、フィルタバンクA110の出力において、スペクトルに関して反転された形態を有し、スペクトルに関して反転された形態で符号化および復号を行われ、フィルタバンクB120において再びスペクトルに関して反転されてから、広帯域音声信号S110において出力されるように実施されることが可能である。そのような事例では、もちろん、図12aに示されるスペクトル反転操作は、高帯域励振信号S120もスペクトルに関して反転された形態を有することが望ましいので、実施されないことが可能である。
スペクトルエクステンダA402によって実行されるスペクトル拡張操作のアップサンプリングおよびダウンサンプリングの様々なタスクは、多くの異なる仕方で構成され、並べられることが可能である。例えば、図12bは、周波数スケールが様々なプロットにわたって同一であるスペクトル拡張操作の別の例において、様々なポイントにおける信号スペクトルを示す図である。プロット(a)は、狭帯域励振信号S80の一例のスペクトルを示す。プロット(b)は、信号S80が2倍にアップサンプリングされた後のスペクトルを示す。プロット(c)は、非線形関数の適用後の拡張されたスペクトルの例を示す。この事例では、より高い周波数において生じることが可能なエイリアシングは、許容される。
プロット(d)は、スペクトル反転操作の後のスペクトルを示す。プロット(e)は、サンプリングレートが2分の1に低減されて、所望される、スペクトルに関して拡張された信号が得られるダウンサンプリングの単一の段階の後のスペクトルを示す。この例では、信号は、スペクトルに関して反転された形態になっており、そのような形態で広帯域信号S30を処理した高帯域符号器A200の実施形態において使用されることが可能である。
非線形関数計算器520によって生成される、スペクトルに関して拡張された信号は、周波数が高くなるにつれ、振幅の、顕著な減少を有する可能性が高い。スペクトルエクステンダA402が、ダウンサンプリングされた信号に対して白色化操作を実行するように構成されたスペクトルフラットナ(flattener)540を含む。スペクトルフラットナ540は、固定白色化操作を実行するように、または適応白色化操作を実行するように構成されることが可能である。適応白色化のある特定の例では、スペクトルフラットナ540は、ダウンサンプリングされた信号から4つのフィルタ係数のセットを計算するように構成されたLPC分析モジュールと、それらの係数に従って信号を白色化するように構成された4次分析フィルタとを含む。スペクトルエクステンダA400の他の実施形態は、スペクトルフラットナ540が、ダウンサンプラ530より前に、スペクトルに関して拡張された信号に作用する構成を含む。
高帯域励振信号S120として、調和的に拡張された信号S160を出力する高帯域励振発生器A300が、実施されることが可能である。しかし、一部の事例では、調和的に拡張された信号を高帯域励振として使用することは、聞こえるアーチファクトをもたらす可能性がある。音声の調波構造は、低帯域と比べて高帯域では、一般に、それほど顕著ではなく、高帯域励振信号において余りにも多く調波構造を使用することは、バズ音の多いサウンドをもたらす可能性がある。このアーチファクトは、女性の話者からの音声信号において特に目立つ可能性がある。
構成には、調和的に拡張された信号S160を雑音信号とミキシングするように構成された高帯域励振発生器A300の実施形態が含まれる。図11に示されるとおり、高帯域励振発生器A302は、ランダム雑音信号を生成するように構成された雑音発生器480を含む。一例では、雑音発生器480は、分散1の白色擬似雑音信号を生成するように構成されるが、他の実施形態では、雑音信号は、白色でなくてもよく、周波数とともに変化するパワー密度を有することが可能である。雑音発生器480が、決定論的関数として雑音信号を出力するように構成されて、雑音信号の状態が、復号器において再現され得るようにすることが、望ましい可能性がある。例えば、雑音発生器480は、狭帯域フィルタパラメータS40および/または符号化された狭帯域励振信号S50などの、同一のフレーム内で先に符号化されている情報の決定論的関数として、雑音信号を出力するように構成されることが可能である。
調和的に拡張された信号S160とミキシングされる前に、雑音発生器480によって生成されたランダム雑音信号は、狭帯域信号S20、高帯域信号S30、狭帯域励振信号S80、または調和的に拡張された信号S160の時間にわたるエネルギー分布を近似する時間領域エンベロープを有するように振幅変調されることが可能である。図11に示されるとおり、高帯域励振発生器A302は、エンベロープ計算器460によって計算された時間領域エンベロープに従って雑音発生器480によって生成された雑音信号を振幅変調するように構成された結合器470を含む。例えば、結合器470は、エンベロープ計算器460によって計算された時間領域エンベロープに従って雑音発生器480の出力を基準化して、変調された雑音信号S170を生成するように構成された乗算器として実施されることが可能である。
図13のブロック図に示される高帯域励振発生器A302の実施形態A304では、エンベロープ計算器460は、調和的に拡張された信号S160のエンベロープを計算するように構成される。図14のブロック図に示される高帯域励振発生器A302の実施形態A306では、エンベロープ計算器460は、狭帯域励振信号S80のエンベロープを計算するように構成される。高帯域励振発生器A302のさらなる実施形態は、狭帯域ピッチパルスの時間的な位置に従って、調和的に拡張された信号S160に雑音を加えるように別の仕方で構成されることが可能である。
エンベロープ計算器460は、エンベロープ計算を、一連のサブタスクを含むタスクとして実行するように構成されることが可能である。図15は、そのようなタスクの例T100の流れ図を示す。サブタスクT110が、2乗された値のシーケンスをもたらすようにエンベロープがモデル化されるべき信号(例えば、狭帯域励振信号S80、または調和的に拡張された信号S160)のフレームの各サンプルの2乗を計算する。サブタスクT120が、2乗された値のシーケンスに対して平滑化操作を実行する。一例では、サブタスクT120は、以下の式
に従って、このシーケンスに1次IIRローパスフィルタを適用し、ただし、xは、フィルタ入力であり、yは、フィルタ出力であり、nは、時間領域インデックスであり、aは、0.5から1までの範囲内の値を有する平滑化係数である。平滑化係数の値は、固定であることが可能であり、あるいは、代替の実施形態では、入力信号における雑音の示度に応じて適応性であることが可能であり、したがって、aは、雑音が存在しない状態で1により近く、雑音が存在する状態で0.5により近い。サブタスクT130が、平滑化されたシーケンスの各サンプルに平方根関数を適用して、時間領域エンベロープを生成する。
エンベロープ計算器460のそのような実施形態は、タスクT100の様々なサブタスクを逐次に、さらに/または並行に実行するように構成されることが可能である。タスクT100のさらなる実施形態では、サブタスクT110には、3〜4kHzの範囲などの、エンベロープがモデル化されるべき信号の所望される周波数部分を選択するように構成されたバンドパス操作が先行することが可能である。
結合器490が、調和的に拡張された信号S160と、変調された雑音信号S170とをミキシングして、高帯域励振信号S120をもたらすように構成される。結合器490の実施形態は、高帯域励振信号S120を、例えば、調和的に拡張された信号S160と変調された雑音信号S170との和として計算するように構成されることが可能である。結合器490のそのような実施形態は、加算に先立って、調和的に拡張された信号S160、および/または変調された雑音信号S170に重み係数を適用することによって、高帯域励振信号S120を加重和として計算するように構成されることが可能である。そのような各重み係数は、1つまたは複数の基準に従って計算されることが可能であり、固定値であることが可能であり、あるいは、代替として、フレームごとに、またはサブフレームごとに計算される適応値である可能性がある。
図16は、高帯域励振信号S120を、調和的に拡張された信号S160と、変調された雑音信号S170との加重和として計算するように構成された結合器490の実施形態492のブロック図を示す。結合器492は、調波重み係数S180に従って、調和的に拡張された信号S160に重みを付け、雑音重み係数S190に従って、変調された雑音信号S170に重みを付け、高帯域励振信号S120を、これらの重み付けされた信号の和として出力するように構成される。この例では、結合器492は、調波重み係数S180および雑音重み係数S190を計算するように構成された重み係数計算器550を含む。
重み係数計算器550は、高帯域励振信号S120における調波成分対雑音成分の所望される比に従って重み係数S180およびS190を計算するように構成されることが可能である。例えば、結合器492が、高帯域信号S30の調波エネルギー対雑音エネルギーの比と同様の調波エネルギー対雑音エネルギーの比を有するように高帯域励振信号S120を生成することが望ましい可能性がある。重み係数計算器550の一部の実施形態では、重み係数S180、S190は、ピッチ利得および/または音声モードなどの、狭帯域信号S20または狭帯域残差信号の周期性と関係する1つまたは複数のパラメータに従って計算される。重み係数計算器550のそのような実施形態は、例えば、調波重み係数S180に、ピッチ利得に比例する値を割り当て、さらに/または無声音声信号に関する雑音重み係数S190に、有声音声信号の場合より高い値を割り当てるように構成されることが可能である。
他の実施形態では、重み係数計算器550は、高帯域信号S30の周期性の測度に従って調波重み係数S180および/または雑音重み係数S190の値を計算するように構成される。1つのそのような例では、重み係数計算器550は、調波重み係数S180を、現在のフレーム、または現在のサブフレームに関する高帯域信号S30の自己相関係数の最大値として計算し、ただし、自己相関は、1ピッチ遅れの遅延を含み、ゼロサンプルの遅延を含まない探索範囲にわたって実行される。図17は、1ピッチ遅れの遅延を中心とし、1ピッチ遅れを超えない幅を有する、長さnサンプルの、そのような探索範囲の例を示す。
また、図17は、重み係数計算器550が、高帯域信号S30の周期性の測度をいくつかの段階で計算する、別のアプローチの例も示す。第1の段階で、現在のフレームが、いくつかのサブフレームに分割され、自己相関係数が最大である遅延が、各サブフレームに関して別個に識別される。前述したとおり、自己相関は、1ピッチ遅れの遅延を含み、ゼロサンプルの遅延を含まない探索範囲にわたって実行される。
第2の段階で、遅延されたフレームが、識別された対応する遅延を各サブフレームに適用し、もたらされるサブフレームを連結して、最適に遅延されたフレームを構築し、元のフレームと、最適に遅延されたフレームとの間の相関係数として、調波重み係数S180を計算することによって構築される。さらなる代替では、重み係数計算器550は、調波重み係数S180を、各サブフレームに関して第1の段階で得られた最大自己相関係数の平均として計算する。また、重み係数計算器550の実施形態は、相関係数を基準化し、さらに/または相関係数を別の値と組み合わせて、調波重み係数S180の値を計算するように構成されることも可能である。
フレームにおける周期性の存在が、別の仕方で示される事例において、重み係数計算器550が、高帯域信号S30の周期性の測度を計算することが望ましい可能性がある。例えば、重み係数計算器550は、ピッチ利得などの、現在のフレームの周期性の別の指標と、あるしきい値との間の関係に従って、高帯域信号S30の周期性の測度を計算するように構成されることが可能である。一例では、重み係数計算器550は、フレームのピッチ利得(例えば、狭帯域残差の適応コードブック利得)が、0.5を超える(代替として、少なくとも0.5の)値を有する場合、高帯域信号S30に対して自己相関操作を実行するように構成される。別の例では、重み係数計算器550は、特定の音声モード状態(例えば、有声信号に関する)を有するフレームに関する高帯域信号S30に対して、自己相関操作を実行するように構成される。そのような事例では、重み係数計算器550は、その他の音声モード状態、および/またはより小さいピッチ利得値を有するフレームに、デフォルトの重み係数を割り当てるように構成されることが可能である。
構成には、周期性以外の、または周期性に加えた特性に従って重み係数を計算するように構成された重み係数計算器550のさらなる実施形態が含まれる。例えば、そのような実施形態は、大きいピッチ遅れを有する音声信号に関する雑音利得率S190に、小さいピッチ遅れを有する音声信号の場合よりも高い値を割り当てるように構成されることが可能である。重み係数計算器550の別のそのような実施形態は、他の周波数成分における信号のエネルギーを基準とした、基本周波数の倍数における信号のエネルギーの測度に従って、広帯域音声信号S10、または高帯域信号S30の調波性の測度を算出するように構成される。
広帯域音声符号器A100の一部の実施形態は、本明細書で説明されるとおり、ピッチ利得、および/または周期性もしくは調波性の別の測度に基づいて、周期性または調波性の指示(例えば、フレームが調波性であるか、非調波性であるかを示す1ビットフラグ)を出力するように構成される。一例では、対応する広帯域音声復号器B100が、この指示を使用して、重み係数計算などの操作を構成する。別の例では、そのような指示は、符号器および/または復号器において、音声モードパラメータの値を計算する際に使用される。
高帯域励振発生器A302が、高帯域励振信号S120を、この励振信号のエネルギーが、重み係数S180およびS190の特定の値による影響を実質的に受けないように生成することが望ましい可能性がある。そのような事例では、重み係数計算器550は、調波重み係数S180または雑音重み係数S190の値を計算し(または高帯域符号器A200の記憶要素または別の要素からそのような値を受け取り)、以下のような式
に従って、その他の重み係数の値を導き出すように構成されることが可能であり、ただし、Wharmonicは、調波重み係数S180を表し、Wnoiseは、雑音重み係数S190を表す。代替として、重み係数計算器550は、現在のフレーム、または現在のサブフレームに関する周期性測度の値に従って、重み係数S180、S190の複数のペアのなかの対応するペアを選択するように構成されることが可能であり、これらのペアは、式(2)などの定エネルギー比を満たすように事前計算される。式(2)が観察される重み係数計算器550の実施形態に関して、調波重み係数S180の通常の値は、約0.7から約1.0までの範囲に及び、雑音重み係数S190の通常の値は、約0.1から約0.7までの範囲に及ぶ。重み係数計算器550の他の実施形態は、調和的に拡張された信号S160と、変調された雑音信号S170との間の所望されるベースライン重み付けに従って変更された式(2)のバージョンに従って動作するように構成されることが可能である。
スパースコードブック(エントリが、大部分、0の値であるコードブック)を使用して、残差の量子化された表現が計算されている場合、合成された音声信号においてアーチファクトが生じる可能性がある。コードブックスパース性(codebook sparseness)は、特に、狭帯域信号が低いビットレートで符号化される場合に生じる。コードブックスパース性によって生じるアーチファクトは、通常、時間的に準周期的であり、大抵、3kHzより上で生じる。人間の耳は、より高い周波数において、より良好な時間分解能を有するため、これらのアーチファクトは、高帯域において、より目立つ可能性がある。
構成には、スパース性防止フィルタリングを実行するように構成された高帯域励振発生器A300の実施形態が含まれる。図18は、逆量子化器450によってもたらされる逆量子化された狭帯域励振信号を濾波するように構成されたスパース性防止フィルタ600を含む高帯域励振発生器A302の実施形態A312のブロック図を示す。図19は、スペクトルエクステンダA400によってもたらされた、スペクトルに関して拡張された信号を濾波するように構成されたスパース性防止フィルタ600を含む高帯域励振発生器A302の実施形態A314のブロック図を示す。図20は、結合器490の出力を濾波して、高帯域励振信号S120をもたらすように構成されたスパース性防止フィルタ600を含む高帯域励振発生器A302の実施形態A316のブロック図を示す。もちろん、実施形態A304と実施形態A306のいずれかの実施形態の特徴と、実施形態A312、実施形態A314、および実施形態A316のいずれかの実施形態の特徴とを兼ね備えた高帯域励振発生器A300の実施形態も、企図されており、本明細書で明確に開示される。スパース性防止フィルタ600は、スペクトルエクステンダA400内部に、つまり、例えば、スペクトルエクステンダA402内の要素510、520、530、および540のいずれかの後に配置されることも可能である。スパース性防止フィルタ600は、スペクトル折り返し、スペクトル平行移動、または調波拡張を実行するスペクトルエクステンダA400の実施形態で使用されることも可能であることも明記される。
スパース性防止フィルタ600は、入力信号の位相を変えるように構成されることが可能である。例えば、高帯域励振信号S120の位相が、ランダム化される、または別の仕方で、時間にわたって、より均等に分布するようにスパース性防止フィルタ600が構成され、整えられることが、望ましい可能性がある。また、スパース性防止フィルタ600の応答が、スペクトルに関して平坦であり、したがって、濾波された信号の振幅スペクトルがそれほど変化しないことも望ましい可能性がある。一例では、スパース性防止フィルタ600は、以下の式による伝達関数を有するオールパス(all-pass)フィルタとして実施される。すなわち、
そのようなフィルタの1つの効果は、入力信号のエネルギーを拡散させて、このエネルギーがもはや、いくつかのサンプルに集中していないようにすることである。
コードブックスパース性によって生じるアーチファクトは、通常、残差がそれほどピッチ情報を含まない雑音様の信号に関して、より目立ち、また、背景雑音における音声に関しても、より目立つ。スパース性は、励振が長期構造を有する事例において、通常、それほどアーチファクトを生じさせず、実際、位相変更は、有音信号において雑音の多さを生じさせる可能性がある。このため、有声信号を濾波し、変更のない少なくともいくつかの有音信号を通過させるようにスパース性防止フィルタ600を構成することが、望ましい可能性がある。有声信号は、低いピッチ利得(例えば、量子化された狭帯域適応コードブック利得)と、平坦である、または周波数が高くなるにつれて上向きに傾斜するスペクトルエンベロープを示す、0または正に近いスペクトル傾斜(例えば、量子化された第1の反射係数)とによって特徴付けられる。スパース性防止フィルタ600の通常の実施形態は、有音サウンド(例えば、スペクトル傾斜の値によって示される)を濾波し、ピッチ利得が、あるしきい値を下回る(代替として、そのしきい値を超えない)場合、有声サウンドを濾波し、さらに、別の仕方で、変更のない信号を通過させるように構成される。
スパース性防止フィルタ600のさらなる実施形態は、異なる最大位相変更角度(例えば、180度までの)を有するように構成された2つ以上のフィルタを含む。そのような事例において、スパース性防止フィルタ600は、ピッチ利得(例えば、量子化された適応コードブック利得またはLTP利得)の値に応じて、これらのコンポーネントフィルタの間で選択を行い、より低いピッチ利得値を有するフレームに関して、より大きい最大位相変更角度が使用されるようにするように構成されることが可能である。また、スパース性防止フィルタ600のある実施形態は、周波数スペクトルのより多くの部分、またはより少ない部分にわたって位相を変更するように構成された、異なるコンポーネントフィルタを含んで、より低いピッチ利得値を有するフレームに関して、入力信号のより広い周波数範囲にわたって位相を変更するように構成されたフィルタが使用されるようにすることも可能である。
符号化された音声信号の正確な再現のために、合成された広帯域音声信号S100の高帯域部分のレベルと狭帯域部分のレベルとの比が、元の広帯域信号S10における比と同様であることが望ましい可能性がある。高帯域符号化パラメータS60aによって表されるスペクトルエンベロープに加えて、高帯域符号器A200は、時間エンベロープまたは利得エンベロープを指定することによって高帯域信号S30を特徴付けるように構成されることが可能である。図10に示されるとおり、高帯域符号器A202は、あるフレームにわたる、またはあるフレームのいくらかの部分にわたる高帯域信号S30のエネルギーと、合成された高帯域信号S130のエネルギーとの差または比などの、この2つの信号の間の関係に従って、1つまたは複数の利得率を計算するように構成され、整えられた高帯域利得率計算器A230を含む。高帯域符号器A202の他の実施形態では、高帯域利得計算器A230は、同様に構成されるが、高帯域信号S30と、狭帯域励振信号S80または高帯域励振信号S120との間の、そのような時間につれ変化する関係に従って、代わりに、利得エンベロープを計算するように整えられる。
狭帯域励振信号S80の時間エンベロープと高帯域信号S30の時間エンベロープは、同様である可能性が高い。したがって、高帯域信号S30と、狭帯域励振信号S80(または高帯域励振信号S120または合成された高帯域信号S130などの、狭帯域励振信号S80から導き出された信号)との間の関係に基づく利得エンベロープを符号化することは、高帯域信号S30に基づく利得エンベロープを符号化することと比べて、一般に、より効率的である。通常の実施形態では、高帯域符号器A202は、各フレームに関して5つの利得率を指定する8ビットないし12ビットの量子化されたインデックスを出力するように構成される。
高帯域利得率計算器A230が、1つまたは複数のサブタスクシリーズを含むタスクとして利得率計算を実行するように構成されることが可能である。図21は、高帯域信号S30と合成された高帯域信号S130の相対的エネルギーに従って、対応するサブフレームに関する利得値を計算する、そのようなタスクの例T200の流れ図を示す。タスク220aおよび220bが、それぞれの信号の対応するサブフレームのエネルギーを計算する。例えば、タスク220aおよび220bは、このエネルギーを、それぞれのサブフレームのサンプルの2乗の和として計算するように構成されることが可能である。タスクT230が、サブフレームに関する利得率を、それらのエネルギーの比の平方根として計算する。この例では、タスクT230は、この利得率を、サブフレームにわたる、高帯域信号S30のエネルギー対合成された高帯域信号S130の比の平方根として計算する。
高帯域利得率計算器A230が、窓関数に従ってサブフレームエネルギーを計算するように構成されることが望ましい可能性がある。図22は、利得率計算タスクT200の、そのような実施形態T210の流れ図を示す。タスクT215aは、高帯域信号S30に窓関数を適用し、タスクT215bは、合成された高帯域信号S130に同一の窓関数を適用する。タスク220aおよび220bの実施形態222aおよび222bが、それぞれの窓のエネルギーを計算し、タスクT230が、サブフレームに関する利得率を、エネルギーの比の平方根として計算する。
隣接するサブフレームに部分的に重なる窓関数を適用することが望ましい可能性がある。例えば、オーバラップ加算の仕方で適用されることが可能な利得率をもたらす窓関数が、サブフレーム間の不連続を減らす、または回避するのに役立つ可能性がある。一例では、高帯域利得率計算器A230は、窓が、隣接する2つのサブフレームのそれぞれに1ミリ秒だけ重なる、図23aに示されるとおりの台形窓関数を適用するように構成される。図23bは、20ミリ秒フレームの5つのサブフレームのそれぞれに対する、この窓関数の適用を示す。高帯域利得率計算器A230の他の実施形態は、異なる重複期間、および/または対称的であることも、非対称的であることも可能な、異なる窓形状(例えば、長方形、ハミング)を有する窓関数を適用するように構成されることが可能である。また、高帯域利得率計算器A230の実施形態が、フレーム内の異なるサブフレームに、異なる窓関数を適用するように構成されること、および/またはフレームが、様々な長さのサブフレームを含むことも可能である。
限定なしに、以下の値は、特定の実施形態に関する例として提示される。20ミリ秒フレームが、これらの事例に関して想定されるが、他の任意の持続時間が、使用されることが可能である。7kHzでサンプリングされる高帯域信号に関して、各フレームは、140のサンプルを有する。そのようなフレームが、等しい長さの5つのサブフレームに分割された場合、各サブフレームは、28のサンプルを有し、図23aに示される窓は、42サンプル幅である。8kHzでサンプリングされる高帯域信号に関して、各フレームは、160のサンプルを有する。そのようなフレームが、等しい長さの5つのサブフレームに分割された場合、各サブフレームは、32のサンプルを有し、図23aに示される窓は、48サンプル幅である。他の実施形態では、任意の幅のサブフレームが使用されることが可能であり、高帯域利得計算器A230のある実施形態が、フレームの各サンプルに関して異なる利得率をもたらすことさえ可能である。
図24は、高帯域復号器B200の実施形態B202のブロック図を示す。高帯域復号器B202は、狭帯域励振信号S80に基づいて高帯域励振信号S120をもたらすように構成された高帯域励振発生器B300を含む。特定のシステム設計選択に応じて、高帯域励振発生器B300は、本明細書で説明される高帯域励振発生器A300の実施形態のいずれに従って実施されてもよい。通常、特定の符号化システムの高帯域符号器の広帯域励振発生器と同一の応答を有するように高帯域励振発生器B300を実施することが望ましい。しかし、狭帯域復号器B110が、通常、符号化された狭帯域励振信号S50の逆量子化を実行するので、ほとんどの事例では、高帯域励振発生器B300は、狭帯域復号器B110から狭帯域励振信号S80を受け取るように実施され、符号化された狭帯域励振信号S50を逆量子化するように構成された逆量子化器を含む必要がない可能性がある。また、狭帯域復号器B110が、フィルタ330などの狭帯域合成フィルタに、逆量子化された狭帯域励振信号が入力される前に、この信号を濾波するように配置されたスパース性防止フィルタ600のインスタンスを含むように実施されることも可能である。
逆量子化器560が、高帯域フィルタパラメータS60aを逆量子化する(この例では、LSFのセットに)ように構成され、LSF−LPフィルタ係数変換570が、これらのLSFを、フィルタ係数のセットに変換するように構成される(例えば、狭帯域符号器A122の逆量子化器240および変換250に関連して前述したとおり)。他の実施形態では、前述したとおり、異なる係数セット(例えば、ケプストラム係数)および/または異なる係数表現(例えば、ISP)が、使用されることが可能である。高帯域合成フィルタB200が、高帯域励振信号S120、およびフィルタ係数のセットに従って、合成された高帯域信号をもたらすように構成される。高帯域符号器が合成フィルタを含む(例えば、前述した符号器A202の例の場合のように)システムに関して、その合成フィルタと同一の応答(例えば、同一の伝達関数)を有するように高帯域合成フィルタB200を実施することが望ましい可能性がある。
また、高帯域復号器B202は、高帯域利得率S60bを逆量子化するように構成された逆量子化器580、および合成された高帯域信号に、逆量子化された利得率を適用して、高帯域信号S100をもたらすように構成され、整えられた利得制御要素590(例えば、乗算器または増幅器)も含む。フレームの利得エンベロープが、複数の利得率によって規定される事例に関して、利得制御要素590は、場合により、対応する高帯域符号器の利得計算器(例えば、高帯域利得計算器A230)によって適用されるのと同一の窓関数であることも、異なる窓関数であることも可能な窓関数に従って、それぞれのサブフレームに利得率を適用するように構成されたロジックを含むことが可能である。高帯域復号器B202の他の実施形態では、利得制御要素590は、同様に構成されるが、代わりに、狭帯域励振信号S80または高帯域励振信号S120に、逆量子化された利得率を適用するように整えられる。
前述したとおり、高帯域符号器と高帯域復号器において同一の状態を得ること(例えば、符号化中に、逆量子化された値を使用することによって)ことが望ましい可能性がある。このため、そのような実施形態による符号化システムにおいて、高帯域励振発生器A300内、および高帯域励振発生器B300内の対応する雑音発生器に関して、同一の状態を確実にすることが望ましい可能性がある。例えば、そのような実施形態の高帯域励振発生器A300およびB300は、雑音発生器の状態が、同一のフレーム内で既に符号化されている情報(例えば、狭帯域フィルタパラメータS40もしくはパラメータS40の一部分、および/または符号化された狭帯域励振信号S50もしくは信号S50の一部分)の決定論的関数であるように構成されることが可能である。
本明細書で説明される要素の量子化器の1つまたは複数(例えば、量子化器230、420、または430)は、分類されたベクトル量子化を実行するように構成されることが可能である。例えば、そのような量子化器は、狭帯域通信路および/または高帯域通信路における同一のフレーム内で既に符号化されている情報に基づいて、コードブックのセットの1つのコードブックを選択するように構成されることが可能である。そのような技術は、通常、さらなるコードブック格納を犠牲にして、より高い符号化効率をもたらす。
例えば、図8および図9を参照して前述したとおり、狭帯域音声信号S20から粗いスペクトラムエンベロープを除去した後、相当な量の周期構造が、残差信号の中に残る可能性がある。例えば、残差信号は、時間につれて、おおまかに周期的なパルスまたはスパイクのシーケンスを含む可能性がある。通常、ピッチと関係するそのような構造は、特に、有声音声信号において生じる可能性が高い。狭帯域残差信号の量子化された表現の計算は、例えば、1つまたは複数のコードブックによって表される長期の周期性のモデルによるこのピッチ構造の符号化を含む。
実際の残差信号のピッチ構造は、周期性モデルに厳密に合致しない可能性がある。例えば、残差信号は、ピッチパルスの位置の規則性に小さいジッタを含む可能性があり、したがって、フレームの中の連続するピッチ間の距離は、厳密に等しくはなく、構造は、完全に規則的ではない。これらの不規則性によって、符号化効率が低下する傾向がある。
狭帯域符号器A120のいくつかの実施形態は、量子化前に、または量子化中に残差に適応時間ワーピングを適用することによって、または符号化された励振信号の中に適応時間ワーピングを別の仕方で含めることによって、ピッチ構造の規則化を実行するように構成される。例えば、そのような符号化は、時間的なワーピングの度合いを選択し、またはそれ以外で計算して(例えば、1つまたは複数の知覚的重み付けおよび/または誤差最小化基準に従って)、もたらされる励振信号が、長期の周期性のモデルに最適に合うようにするように構成されることが可能である。ピッチ構造の規則化は、RCELP(弛緩符号励起線形予測)符号器と呼ばれるCELP符号器によって実行される。
RCELP符号器は、時間ワーピングを適応タイムシフトとして実行するように通常、構成される。このタイムシフトは、負に数ミリ秒から正に数ミリ秒までの範囲の遅延であることが可能であり、聞こえる不連続を回避するように、通常、平滑に変化させられる。一部の実施形態では、そのような符号器は、各フレームまたは各サブフレームが、対応する固定のタイムシフトだけワーピングされる、区分的な仕方で規則化を適用するように構成される。他の実施形態では、符号器は、規則化を連続ワーピング関数として適用するように構成され、したがって、フレームまたはサブフレームは、ピッチ外形(ピッチ軌道とも呼ばれる)に応じてワーピングされる。一部の事例では、符号器は、符号化された励振信号を計算するのに使用される知覚的に重み付けされた入力信号にシフトを適用することによって、符号化された励振信号の中に時間ワーピングを含めるように構成される。
符号器は、規則化され、量子化された、符号化された励振信号を計算し、復号器は、この符号化された励振信号を逆量子化して、復号された音声信号を合成するのに使用される励振信号を得る。このため、復号された出力信号は、規則化によって、符号化された励振信号の中に含められたのと同一の変化する遅延を示す。通常、規則化量を指定する情報は、復号器にまったく伝送されない。
規則化は、残差信号を符号化するのを、より容易にする傾向があり、このことにより、長期予測子からの符号化利得が向上し、このため、全体的な符号化効率が、一般に、アーチファクトを生じさせることなしに、押し上げられる。有声であるフレームに対して規則化を実行することが望ましい可能性がある。例えば、狭帯域符号器A124が、有声信号などの、長期構造を有するフレームまたはサブフレームをシフトするように構成されることが可能である。ピッチパルスエネルギーを含むサブフレームに対して規則化を実行することが望ましい可能性さえある。RCELPコーダの既存の実施形態には、TIA(米国電気通信工業会)IS−127において説明されるEVRC(拡張可変レートコーデック)、および3GPP2(第3世代パートナーシップ2)SMV(選択可能モードボコーダ)が含まれる。
残念ながら、規則化は、高帯域励振が、符号化された狭帯域励振信号から導き出される広帯域音声コーダ(広帯域音声符号器A100および広帯域音声復号器B100を含むシステムなどの)に関して問題を生じさせる可能性がある。時間ワーピングされた信号から導き出されることにより、高帯域励振信号は、一般に、元の高帯域音声信号の時間プロファイルとは異なる時間プロファイルを一般に、有する。つまり、高帯域励振信号は、元の高帯域音声信号ともはや同期していない。
ワーピングされた高帯域励振信号と元の高帯域音声信号の間の時間的なずれが、いくつかの問題を生じさせる可能性がある。例えば、ワーピングされた高帯域励振信号は、元の高帯域音声信号から抽出されたフィルタパラメータに従って構成された合成フィルタに適切なソース励振をもはや与えない可能性がある。その結果、合成された高帯域信号は、復号された広帯域音声信号の知覚される品質を低下させる、聞こえるアーチファクトを含む可能性がある。
また、この時間的なずれは、利得エンベロープ符号化における非効率を生じさせる可能性もある。前述したとおり、狭帯域励振信号S80の時間エンベロープと、高帯域信号S30の時間エンベロープとの間に相関が存在する可能性が高い。これら2つの時間エンベロープ間の関係に応じて高帯域信号の利得エンベロープを符号化することにより、この利得エンベロープを直接に符号化することと比べて、符号化効率の向上が、実現されることが可能である。しかし、符号化された狭帯域励振信号が規則化されると、この相関は、弱められる可能性がある。狭帯域励振信号S80と高帯域信号S30の間の時間的なずれは、高帯域利得率S60bに変動を生じさせる可能性があり、符号化効率が低下する可能性がある。
構成には、対応する符号化された狭帯域励振信号の中に含められた時間ワーピングに従って高帯域音声信号の時間ワーピングを実行する広帯域音声符号化の方法が含まれる。そのような方法の潜在的な利点には、復号された広帯域音声信号の品質を向上させること、および/または高帯域利得エンベロープを符号化することの効率を向上させることが含まれる。
図25は、広帯域音声符号器A100の実施形態AD10のブロック図を示す。符号器AD10は、符号化された狭帯域励振信号S50の計算中に規則化を実行するように構成された狭帯域符号器A120の実施形態A124を含む。例えば、狭帯域符号器A124は、前述したRCELP実施形態の1つまたは複数に従って構成されることが可能である。
また、狭帯域符号器A124は、適用される時間ワーピングの度合いを指定する規則化データ信号SD10を出力するようにも構成される。狭帯域符号器A124が、各フレーム、または各サブフレームに固定のタイムシフトを適用するように構成される様々な事例に関して、規則化データ信号SD10は、各タイムシフト量を、サンプル数、ミリ秒数、または他の何らかの時間インクリメントに関する整数値または非整数値として示す、一連の値を含むことが可能である。狭帯域符号器A124が、フレームまたは他のサンプルシーケンスの時間尺度を別の仕方で変更する(例えば、1つの部分を圧縮し、他の部分を伸張することによって)ように構成された事例に関して、規則化情報信号SD10は、関数パラメータのセットなどの、この変更の対応する記述を含むことが可能である。1つの特定の例において、狭帯域符号器A124は、フレームを3つのサブフレームに分割し、各サブフレームに関する固定のタイムシフトを計算するように構成され、したがって、規則化データ信号SD10は、符号化された狭帯域信号の規則化されるフレームごとに、3つのタイムシフト量を示す。
広帯域音声符号器AD10は、入力信号によって示される遅延量に従って高帯域音声信号S30の諸部分を先に進め、または遅らせて、時間ワーピングされた高帯域音声信号S30aをもたらすように構成された遅延ラインD120を含む。図25に示される例では、遅延ラインD120は、規則化データ信号SD10によって示されるワーピングに従って高帯域音声信号S30を時間ワーピングするように構成される。そのような仕方で、符号化された狭帯域励振信号S50の中に含められたのと同一の量の時間ワーピングが、分析の前に高帯域音声信号S30の対応する部分にも適用される。この例は、遅延ラインD120を、高帯域符号器A200とは別個の要素として示すものの、他の実施形態では、遅延ラインD120は、高帯域符号器の一部として構成される。
高帯域符号器A200のさらなる実施形態は、高帯域利得パラメータS60bの計算より前に、ワーピングされていない高帯域音声信号S30のスペクトル分析(例えば、LPC分析)を実行し、高帯域音声信号S30の時間ワーピングを実行するように構成されることが可能である。そのような符号器は、例えば、時間ワーピングを実行するように構成された遅延ラインD120の実施形態を含むことが可能である。しかし、そのような事例では、ワーピングされていない信号S30の分析に基づく高帯域フィルタパラメータS60aが、高帯域励振信号S120と時間的にずれているスペクトルエンベロープを記述することが可能である。
遅延ラインD120は、所望される時間ワーピング操作を高帯域音声信号S30に適用するのに適した論理要素と格納要素の任意の組み合わせに従って構成されることが可能である。例えば、遅延ラインD120は、所望されるタイムシフトに従ってバッファから高帯域音声信号S30を読み取るように構成されることが可能である。図26aは、シフトレジスタSR1を含む遅延ラインD120のそのような実施形態D122の概略図を示す。シフトレジスタSR1は、高帯域音声信号S30の最新のm個のサンプルを受け取り、格納するように構成された、何らかの長さmのバッファである。値mは、サポートされるべき最大の正の(つまり、「進み」)タイムシフトと最大の負の(つまり、「遅れ」)タイムシフトの少なくとも和と等しい。値mが、高帯域信号S30のフレームまたはサブフレームの長さと等しいことが、好都合である可能性がある。
遅延ラインD122は、シフトレジスタSR1のオフセットロケーションOLから、時間ワーピングされた高帯域信号S30aを出力するように構成される。オフセットロケーションOLの位置は、例えば、規則化データ信号SD10によって示される現在のタイムシフトに従って、基準位置(0タイムシフト)付近で変化する。遅延ラインD122は、等しい進み限度と遅れ限度をサポートするように、あるいは、代替として、一方が、他方より大きい限度をサポートして、一方の方向で、他方の方向より大きいシフトが実行され得るようにするよう、構成されることが可能である。図26aは、負のタイムシフトより大きい正のタイムシフトをサポートするある特定の例を示す。遅延ラインD122は、ある時点で1つまたは複数のサンプル(例えば、出力バス幅に依存する)を出力するように構成されることが可能である。
数ミリ秒を超える大きさを有する規則化タイムシフトは、復号された信号において聞こえるアーチファクトを生じさせる可能性がある。通常、狭帯域符号器A124によって実行される規則化タイムシフトの大きさは、数ミリ秒を超えず、したがって、規則化データ信号SD10によって示されるタイムシフトは、制限される。しかし、そのような事例において、遅延ラインD122が、正の方向および/または負の方向でタイムシフトに最大限度を課すように(例えば、狭帯域符号器によって課せられるよりも厳しい限度を守るように)構成されることが望ましい可能性がある。
図26bは、シフト窓SWを含む遅延ラインD122の実施形態D124の概略図を示す。この例では、オフセットロケーションOLの位置は、シフト窓SWによって制限される。図26bは、バッファ長mが、シフト窓SWの幅より大きい事例を示すものの、遅延ラインD124は、シフト窓SWの幅がmと等しいように実施されることも可能である。
他の実施形態において、遅延ラインD120は、所望されるタイムシフトに従ってバッファに高帯域音声信号S30を書き込むように構成される。図27は、高帯域音声信号S30を受け取り、格納するように構成された2つのシフトレジスタSR2およびSR3を含む遅延ラインD120のそのような実施形態D130の概略図を示す。遅延ラインD130は、例えば、規則化データ信号SD10によって示されるタイムシフトに従って、シフトレジスタSR2らかシフトレジスタSR3にフレームまたはサブフレームを書き込むように構成される。シフトレジスタSR3は、時間ワーピングされた高帯域信号S30を出力するように整えられたFIFOバッファとして構成される。
図27に示される特定の例では、シフトレジスタSR2は、フレームバッファ部分FB1と、遅延バッファ部分DBとを含み、シフトレジスタSR3は、フレームバッファ部分FB2と、進みバッファ部分ABと、遅れバッファ部分RBとを含む。進みバッファABの長さと、遅れバッファRBの長さとは、等しいことも、一方が、他方より長いことも可能であり、したがって、一方向において他方の方向より大きいシフトが、サポートされる。遅延バッファDBと遅れバッファ部分RBは、同一の長さを有するように構成されることが可能である。代替として、遅延バッファDBは、シフトレジスタSR3に格納するのに先立つ、サンプルのワーピングなどの他の処理操作を含むことが可能な、フレームバッファFB1からシフトレジスタSR3へのサンプルの転送に利用される時間間隔を見込んで、遅れバッファRBより短いことも可能である。
図27の例では、フレームバッファFB1は、高帯域信号S30の1つのフレームの長さと等しい長さを有するように構成される。別の例では、フレームバッファFB1は、高帯域信号S30の1つのサブフレームの長さと等しい長さを有するように構成される。そのような事例では、遅延ラインD130は、シフトされるべきフレームのサブフレームに同一の(例えば、平均)遅延を適用するロジックを含むように構成されることが可能である。また、遅延ラインD130は、フレームバッファFB1からの値を、遅れバッファRBまたは進みバッファABの中で上書きされるべき値と平均するロジックを含むことも可能である。さらなる例では、シフトレジスタSR3が、フレームバッファFB1を介して高帯域信号S30の値を受け取るように構成されることが可能であり、そのような事例では、遅延ラインD130は、シフトレジスタSR3に書き込まれる連続するフレーム間、または連続するサブフレーム間の間隙にわたって補間するロジックを含むことが可能である。他の実施形態では、遅延ラインD130は、フレームバッファFB1からのサンプルに対してワーピング操作を実行してから、これらのサンプルをシフトレジスタSR3に書き込む(例えば、規則化データ信号SD10によって記述される関数に従って)ように構成されることが可能である。
遅延ラインD120が、規則化データ信号SD10によって指定されたワーピングに基づくが、このワーピングと同一ではない時間ワーピングを適用することが望ましい可能性がある。図28は、遅延値マッパD110を含む広帯域音声符号器AD10の実施形態AD12のブロック図を示す。遅延値マッパD110は、規則化データ信号SD10によって示されるワーピングを、マップされた遅延値SD10aにマップするように構成される。遅延ラインD120は、マップされた遅延値SD10aによって指定されたワーピングに従って、時間ワーピングされた高帯域音声信号S30aをもたらすように構成される。
狭帯域符号器によって適用されるタイムシフトは、時とともに平滑に展開するものと見込まれることが可能である。したがって、音声のフレーム中にサブフレームに適用される平均狭帯域タイムシフトを計算し、この平均に応じて高帯域音声信号S30の対応するフレームをシフトするだけで、通常、十分である。1つのそのような例では、遅延値マッパD110は、各フレームに関してサブフレーム遅延値の平均を計算するように構成され、遅延ラインD120は、この計算された平均を、高帯域信号S30の対応するフレームに適用するように構成される。他の例では、より短い期間(2つのサブフレーム、またはフレームの1/2などの)にわたる平均、またはより長い期間(2つのフレームなどの)にわたる平均が、計算されて、適用されることも可能である。この平均が、サンプルの非整数値である事例では、遅延値マッパD110は、この値を整数のサンプル数に丸めてから、遅延ラインD120に出力するように構成されることが可能である。
狭帯域符号器A124は、非整数のサンプル数の規則化タイムシフトを、符号化された狭帯域励振信号の中に含めるように構成されることが可能である。そのような事例では、遅延値マッパD110が、狭帯域タイムシフトを整数のサンプル数に丸めるように構成されること、および遅延ラインD120が、この丸められたタイムシフトを高帯域音声信号S30に適用することが望ましい可能性がある。
広帯域音声符号器AD10の一部の実施形態では、狭帯域音声信号S20のサンプリングレートと、高帯域音声信号S30のサンプリングレートとは、異なる可能性がある。そのような事例では、遅延値マッパD110は、狭帯域音声信号S20(または狭帯域励振信号S80)のサンプリングレートと、高帯域音声信号S30のサンプリングレートとの差を見込むように、規則化データ信号SD10の中で示されるタイムシフト量を調整するように構成されることが可能である。例えば、遅延値マッパD110は、これらのサンプリングレートの比に応じてタイムシフト量を基準化するように構成されることが可能である。前述した1つの特定の例では、狭帯域音声信号S20は、8kHzでサンプリングされ、高帯域音声信号S30は、7kHzでサンプリングされる。この事例では、遅延値マッパD110は、各シフト量に7/8を掛けるように構成される。また、遅延値マッパD110の実施形態は、そのような基準化操作を、本明細書で説明される整数に丸める操作および/またはタイムシフト平均操作と一緒に実行するように構成されることも可能である。
さらなる実施形態では、遅延ラインD120は、フレームまたは他のサンプルシーケンスの時間尺度を別の仕方で変更する(例えば、1つの部分を圧縮し、他の部分を伸張することによって)ように構成される。例えば、狭帯域符号器A124が、ピッチ外形またはピッチ軌道などの関数に応じて規則化を実行するように構成されることが可能である。そのような事例では、規則化データ信号SD10は、パラメータのセットなどの、関数の対応する記述を含むことが可能であり、遅延ラインD120は、この関数に従って高帯域音声信号S30のフレームまたはサブフレームをワーピングするように構成されたロジックを含むことが可能である。他の実施形態では、遅延値マッパD110が、関数が、遅延ラインD120によって高帯域音声信号S30に適用されるのに先立って、この関数を平均する、基準化する、および/または丸めるように構成される。例えば、遅延値マッパD110は、サンプルの数をそれぞれが示す1つまたは複数の遅延値を、関数に従って計算するように構成されることが可能であり、これらの遅延値が、次に、遅延ラインD120によって、高帯域音声信号S30の対応する1つまたは複数のフレームまたはサブフレームに適用される。
図29は、対応する符号化された狭帯域励振信号の中に含められた時間ワーピングに従って高帯域音声信号を時間ワーピングする方法MD100に関する流れ図を示す。タスクTD100が、広帯域音声信号を処理して、狭帯域音声信号および高帯域音声信号を得る。例えば、タスクTD100は、フィルタバンクA110の実施形態などの、ローパスフィルタと、ハイパスフィルタとを有するフィルタバンクを使用して、広帯域音声信号を濾波するように構成されることが可能である。タスクTD200は、狭帯域音声信号を、少なくとも、符号化された狭帯域励振信号、および複数の狭帯域フィルタパラメータの中に符号化する。符号化された狭帯域励振信号、および/または符号化されたフィルタパラメータは、量子化されることが可能であり、符号化された狭帯域音声信号は、音声モードパラメータなどの他のパラメータを含むことも可能である。また、タスクTD200は、符号化された狭帯域励振信号の中に時間ワーピングも含める。
タスクTD300が、狭帯域励振信号に基づいて高帯域励振信号を生成する。この事例では、狭帯域励振信号は、符号化された狭帯域励振信号に基づく。少なくとも高帯域励振信号に従って、タスクTD400が、高帯域音声信号を、少なくとも複数の高帯域フィルタパラメータの中に符号化する。例えば、タスクTD400は、高帯域音声信号を、複数の量子化されたLSFの中に符号化するように構成されることが可能である。タスクTD500が、符号化された狭帯域励振信号の中に含められた時間ワーピングと関係する情報に基づく高帯域音声信号に、タイムシフトを適用する。
タスクTD400は、高帯域音声信号に対してスペクトル分析(LPC分析などの)を実行し、さらに/または高帯域音声信号の利得エンベロープを計算するように構成されることが可能である。そのような事例では、タスクTD500は、この分析および/または利得エンベロープ計算に先立って、高帯域音声信号にタイムシフトを適用するように構成されることが可能である。
広帯域音声符号器A100の他の実施形態は、符号化された狭帯域励振信号の中に含められた時間ワーピングによって生じさせられる高帯域励振信号S120の時間ワーピングを逆にするように構成される。例えば、高帯域励振発生器A300が、規則化データ信号SD10、またはマップされた遅延値SD10aを受け取り、この信号D10またはSD10aに基づいて、狭帯域励振信号S80に、さらに/または調和的に拡張された信号S160、または高帯域励振信号S120などの、その後の信号に、対応する逆タイムシフトを適用するように構成された遅延ラインD120の実施形態を含むように実施されることが可能である。
さらなる広帯域音声符号器実施形態は、狭帯域音声信号S20と高帯域音声信号S30を、互いに無関係に符号化するように構成されることが可能であり、したがって、高帯域音声信号S30は、高帯域スペクトルエンベロープおよび高帯域励振信号の表現として符号化される。そのような実施形態は、符号化された狭帯域励振信号の中に含められた時間ワーピングと関係する情報に従って、符号化された高帯域残差信号の時間ワーピングを実行する、または、時間ワーピングを、符号化された高帯域励振信号の中に別の仕方で含めるように構成されることが可能である。例えば、高帯域符号器は、高帯域残差信号に時間ワーピングを適用するように構成された、本明細書で説明される遅延ラインD120および/または遅延値マッパD110の実施形態を含むことが可能である。そのような操作の潜在的な利点には、高帯域残差信号の、より効率的な符号化、ならびに合成された狭帯域音声信号と、高帯域音声信号との間の、より良好な合致が含まれる。
前述したとおり、本明細書で説明される構成には、狭帯域システムとの互換性をサポートし、トランスコードの必要性を回避する、埋込み符号化を実行するのに使用されることが可能な実施形態が含まれる。また、高帯域符号化のサポートは、後方互換性を伴う広帯域サポートを有するチップ、チップセット、デバイス、および/またはネットワーク、ならびに狭帯域サポートを有するチップ、チップセット、デバイス、および/またはネットワークを、費用ベースで区別するのにも役立つ可能性がある。また、本明細書で説明される高帯域符号化のサポートは、低帯域符号化をサポートするための技術と併せて使用されることも可能であり、そのような構成によるシステム、方法、または装置は、例えば、約50Hzまたは100Hzから約7kHzまたは8kHzまでの周波数成分の符号化をサポートすることが可能である。
前述したとおり、音声コーダに高帯域サポートを追加することにより、特に、摩擦音の区別に関して、了解度が向上する可能性がある。そのような区別は、通常、特定の文脈から人間のリスナによって導き出されることが可能であるものの、高帯域サポートは、自動化された音声メニューナビゲーションおよび/または自動呼処理のためのシステムなどの、音声認識アプリケーション、および他のマシン解釈アプリケーションにおける、能力を与えるフィーチャの役割をすることが可能である。
ある構成による装置は、セルラー電話機またはPDA(パーソナルディジタルアシスタント)などの無線通信のためのポータブルデバイスに組み込まれることが可能である。代替として、そのような装置は、VoIPハンドセット、VoIP通信をサポートするように構成されたパーソナルコンピュータ、または電話通信もしくはVoIP通信をルーティングするように構成されたネットワークデバイスなどの、別の通信デバイスの中に含められてもよい。例えば、ある構成による装置は、通信デバイスのためのチップまたはチップセットにおいて実施されることが可能である。特定のアプリケーションに依存して、そのようなデバイスは、音声信号のアナログ・ディジタル変換および/またはディジタル・アナログ変換、音声信号に対して増幅操作および/または他の信号処理操作を実行するための回路、および/または符号化された音声信号の送信および/または受信のための無線周波数回路などのフィーチャを含むことも可能である。
構成が、米国特許出願第60/667,901号および米国特許出願第60/673,965号において開示される、その他のフィーチャの任意の1つまたは複数を含み、さらに/またはそのような任意の1つまたは複数のフィーチャと一緒に使用されることが可能であることが、明確に企図され、開示される。そのようなフィーチャには、高帯域において生じ、狭帯域には実質的に存在しない、短い持続時間の高エネルギーのバーストの除去が含まれる。そのようなフィーチャには、高帯域LSFなどの係数表現の固定の平滑化、または適応平滑化が含まれる。そのようなフィーチャには、LSFなどの係数表現の量子化に関連する雑音の固定の整形または適応整形が含まれる。また、そのようなフィーチャには、利得エンベロープの固定の平滑化または適応平滑化、および利得エンベロープの適応減衰も含まれる。
高帯域励振発生器A300およびB300、高帯域符号器A100、高帯域復号器B200、広帯域音声符号器A100、および広帯域音声復号器B100の実施形態の様々な要素は、例えば、同一のチップ上に、またはチップセット内の2つ以上のチップの間に存在する電子デバイスおよび/または光デバイスとして実施されることが可能であるが、そのような限定なしに、他の構成も企図される。そのような装置の1つまたは複数の要素は、マイクロプロセッサ、組み込みプロセッサ、IPコア、ディジタル信号プロセッサ、FPGA(フィールドプログラマブルゲートアレー)、AASP(特定用途向け標準製品)、およびASIC(特定用途向け集積回路)などの論理要素(例えば、トランジスタ、ゲート)の1つまたは複数の固定アレーまたはプログラマブルアレーを実行するように構成された1つまたは複数の命令セットとして、全体が、または部分的に実施されることが可能である。また、1つまたは複数のそのような要素が、構造(例えば、異なる時点で異なる要素に対応するコードの部分を実行するのに使用されるプロセッサ、異なる時点で異なる要素に対応するタスクを実行するように実行される命令のセット、または異なる時点で異なる要素に関する動作を実行する電子デバイスおよび/または光デバイスの構成)を共有することも可能である。さらに、1つまたは複数のそのような要素が、装置が組み込まれたデバイスまたはシステムの別の動作と関係するタスクなどの、装置の動作と直接に関係しないタスクを実行する、またはそのような他の命令セットを実行するのに使用されることも可能である。
図30は、狭帯域部分と、高帯域部分とを有する音声信号の高帯域部分を符号化する、ある構成による方法M100の流れ図を示す。タスクX100が、高帯域部分のスペクトルエンベロープを特徴付けるフィルタパラメータのセットを計算する。タスクX200が、狭帯域部分から導き出された信号に非線形関数を適用することによって、スペクトルに関して拡張された信号を計算する。タスクX300が、(A)フィルタパラメータのセット、および(B)スペクトルに関して拡張された信号に基づく高帯域励振信号に従って、合成された高帯域信号を生成する。タスクX400が、(C)高帯域部分のエネルギーと、(D)狭帯域部分から導き出された信号のエネルギーとの間の関係に基づいて、利得エンベロープを計算する。
図31aは、ある構成による、高帯域励振信号を生成する方法M200の流れ図を示す。タスクY100が、音声信号の狭帯域部分から導き出された狭帯域励振信号に非線形関数を適用することによって、調和的に拡張された信号を計算する。タスクY200が、調和的に拡張された信号を、変調された雑音信号とミキシングして、高帯域励振信号を生成する。図31bは、タスクY300およびY400を含む別の構成による、高帯域励振信号を生成する方法M210の流れ図を示す。タスクY300は、狭帯域励振信号と、調和的に拡張された信号とのいずれかの信号の時間にわたるエネルギーに応じて、時間領域エンベロープを計算する。タスクY400は、時間領域エンベロープに応じて雑音信号を変調して、変調された雑音信号をもたらす。
図32は、狭帯域部分と、高帯域部分とを有する音声信号の高帯域部分を復号する、ある構成による方法M300の流れ図を示す。タスクZ100が、高帯域部分のスペクトルエンベロープを特徴付けるフィルタパラメータのセットと、高帯域部分の時間エンベロープを特徴付ける利得率のセットとを受け取る。タスクZ200が、狭帯域部分から導き出された信号に非線形関数を適用することによって、スペクトルに関して拡張された信号を計算する。タスクZ300が、(A)フィルタパラメータのセット、および(B)スペクトルに関して拡張された信号に基づく高帯域励振信号に従って、合成された高帯域信号を生成する。タスクZ400が、利得率のセットに基づいて、合成された高帯域信号の利得エンベロープを変調する。例えば、タスクZ400は、狭帯域部分から導き出された励振信号、スペクトルに関して拡張された信号、高帯域励振信号、または合成された高帯域信号に利得率のセットを適用することによって、合成された高帯域信号の利得エンベロープを変調するように構成されることが可能である。
図33は、複数の移動局3302と、複数の基地局3304と、BSC(基地局コントローラ)3306と、MSC(移動交換局)3308とを含むことが可能なCDMA(符号分割多元接続)無線電話システム3300を示す。MSC3308は、PSTN(公衆交換電話網)3310とインターフェースをとるように構成されることが可能である。また、MSC3308は、BSC3306とインターフェースをとるように構成されることも可能である。システム3300内に複数のBSC3306が存在することが可能である。各基地局3304は、少なくとも1つのセクタ(図示せず)を含むことが可能であり、各セクタは、全方向性アンテナ、または基地局3304から径方向に離れるある方向に向けられたアンテナを有することが可能である。代替として、各セクタは、ダイバーシティ受信のための2つのアンテナを含んでもよい。各基地局3304は、複数の周波数割当てをサポートするように設計されることが可能である。セクタと周波数割当ての交わりが、CDMA通信路と呼ばれることが可能である。移動局3302には、セルラー電話機またはPCS(ポータブル通信システム)電話機が含まれることが可能である。
セルラー電話システム3300の動作中、基地局3304は、移動局3302のセットから逆方向リンク信号のセットを受信することが可能である。移動局3302は、電話呼または他の通信を行っていることが可能である。所与の基地局3304によって受信された各逆方向リンク信号は、その基地局3304内で処理されることが可能である。もたらされるデータは、BSC3306に転送されることが可能である。BSC3306は、呼リソース割当て、ならびに基地局3304間のソフトハンドオフの調整を含む移動性管理機能を提供することが可能である。また、BSC3306は、受信されたデータをMSC3308にルーティングすることもでき、MSC3308は、PSTN3310とインターフェースをとるためのさらなるルーティングサービスを提供する。同様に、PSTN3310が、MSC3308とインターフェースをとることが可能であり、MSC3308が、BSC3306とインターフェースをとることが可能であり、BSC3306は、順方向リンク信号のセットを基地局3302のセットに伝送するように基地局3304を制御することが可能である。
図34は、符号器3402と、復号器3404と、伝送媒体3406とを含む信号伝送環境3400を示す。符号器3402は、移動局3302内に、または基地局3304において実装されることが可能である。復号器3404は、基地局3304において、または移動局3302において実装されることが可能である。符号器3402は、音声信号s(n)3410を符号化し、符号化された音声信号senc(n)3412を形成することが可能である。符号化された音声信号3412は、伝送媒体3406を介して復号器3404に伝送されることが可能である。復号器3404は、senc(n)3412を復号して、合成された音声信号
を生成することが可能である。
)を維持しながら、伝送媒体を介して伝送されるビットの数を最小限に抑えよう(すなわち、senc(n)3412の帯域幅を最小限に抑えよう)と努める。この装置は、移動電話機、PDA(パーソナルディジタルアシスタント)、ラップトップコンピュータ、デジタルカメラ、音楽プレーヤ、ゲームデバイス、基地局、またはプロセッサを有する他の任意のデバイスであることが可能である。符号化された音声信号3412の構成は、符号器3402によって利用される特定の音声符号化モードに応じて異なることが可能である。様々な符号化モードが、以下に説明される。
以下に説明される符号器3402および復号器3404の構成要素は、電子ハードウェアとして、コンピュータソフトウェアとして、またはその両方の組み合わせとして実施されることが可能である。これらの構成要素は、これらの構成要素の機能の点で以下に説明される。機能が、ハードウェアとして実施されるか、ソフトウェアとして実施されるかは、システム全体に課せられた特定の応用上の制約、および設計上の制約に依存する可能性がある。伝送媒体3406は、陸上ベースの通信線、基地局と衛星の間のリンク、セルラー電話機と基地局の間、またはセルラー電話機と衛生の間の無線通信を含むが、以上には限定されない、多くの異なる伝送媒体を表すことが可能である。
通信の各パーティが、データを送信することとともに、データを受信することができる。各パーティが、符号器3402および復号器3404を利用することができる。しかし、信号伝送環境3400は、伝送媒体3406の一方の終端において符号器3402を含み、他方の終端において復号器3404を含むものとして、以下に説明される。
この説明では、s(n)3410が、様々な音声サウンドと、沈黙の期間とを含む通常の会話中に得られたディジタル音声信号を含むことが可能である。音声信号s(n)3410は、フレームに分割されることが可能であり、各フレームは、サブフレームにさらに分割されることが可能である。これらの恣意的に選択されたフレーム/サブフレーム境界は、何らかのブロック処理が実行される場合に使用されることが可能である。フレームに対して実行されるものとして説明される操作は、サブフレームに対して実行されることも可能であり、この意味で、フレームとサブフレームは、本明細書で交換可能なように使用される。しかし、s(n)3410は、ブロック処理ではなく、連続処理が実施される場合、フレーム/サブフレームに分割されない可能性がある。このため、以下に説明されるブロック技術は、連続処理に拡張されることが可能である。
符号器3402は、NB(狭帯域)コーダまたはWB(広帯域)コーダとして実施されることが可能である。NBコーダは、信号s(n)3410を8kHzで、ディジタルでサンプリングし、50Hz〜4kHzの帯域幅に存在する信号情報を符号化することができる。NBコーダの例には、拡張可変レートコーダ(EVRC−B)が含まれることが可能である。WBコーダは、信号s(n)3410を16kHzで、ディジタルでサンプリングし、NBコーダの帯域幅に存在する情報に加え、4〜8kHzの範囲の間に存在する情報を符号化することができる。WBコーダの例には、EVRC−WBコーダが含まれることが可能である。一態様では、EVRC−WBは、EVRC−Bの広帯域拡張である。信号s(n)3410から分割された各フレームが、20ms(ミリ秒)のデータ、つまり、160のサンプルを含むことが可能である。各サブフレームは、53または54のデータサンプルを含むことが可能である。これらのパラメータは、音声符号化に関して適切であり得るが、単に例にすぎず、他の適切な代替のパラメータが使用されることも可能である。
符号器3402が、NBコーダとして実施される場合、フレームは、狭帯域パケット3418としてパックされることが可能である。狭帯域パケット3418は、狭帯域識別子3422を含むことが可能である。識別子3422は、狭帯域パケット3418が、NBコーダを使用して符号化されていることを、復号器3404に示すことが可能である。符号器3402が、WBコーダとして実施される場合、フレームは、広帯域パケット3420としてパックされることが可能である。広帯域パケット3420は、広帯域識別子3424を含むことが可能である。識別子3424は、広帯域パケット3420が、WBコーダを使用して符号化されていることを、復号器3404に示すことが可能である。復号器3404は、識別子3422または3424を認識して、NB復号器を実施して、パケット3418が復号されるべきか、またはWB復号器を実施して、パケット3420が復号されるべきかを決定することができるパケット識別モジュール3414を含むことが可能である。
図35は、音声信号に関連するパケットに識別子を含めるための方法3500の一構成を示す流れ図である。一態様では、この識別子は、パケットが、NBコーダによって符号化されたか、またはWBコーダによって符号化されたかを示すことが可能である。方法3500は、符号器3402などの符号器によって実施されることが可能である。
ある信号が、符号器3402によって受け取られる(3502)ことが可能である。一態様では、この信号は、あるタイプの音声信号である。この信号が、分析されて、複数のフレームに分割される(3504)ことが可能である。この信号の分割されたフレームが、ある特定の符号化スキーム(例えば、CELP、PPP、NELP)を使用して、1/2レートで符号化される(3506)ことが可能である。一態様では、パケットは、80ビットを使用して符号化されることが可能である。「1/2レート」という用語は、80ビットを有するパケットを表すのに使用されることが可能である。フレームが、80ビットを含む広帯域1/2レートフレームであるかどうかの判定3508が、行われる。つまり、符号器3402が、WBコーダとして機能して、そのフレームをWB−HR(広帯域1/2レート)フレームとして符号化したかどうかの判定3508が、行われる。フレームが、WB−HRフレームである場合、広帯域識別子が、パケットの中にパックされる(3510)ことが可能である。一態様では、広帯域識別子は、2進数形式における10進数、「126」および「127」の最初の6桁を含む。2進数形式における10進数、「126」は、「1111110」であり、「127」の2進数形式は、「1111111」である。このため、広帯域識別子は、6つの1の列(例えば、「111111」)を含むことが可能である。
3508において、フレームがWB−HRフレームではないと判定された場合、狭帯域識別子が、パケットの中にパックされる(3512)ことが可能である。一態様では、この狭帯域識別子は、遅延パラメータに関連付けられることが可能である。例えば、遅延パラメータを表すのに使用されるビットが、狭帯域識別子として使用されることも可能である。このパケットが、伝送される(3514)ことが可能である。一態様では、このパケットは、復号器に伝送される(3514)。
図36は、パケットを復号する方法3600の一構成を示す流れ図である。方法3600は、復号器3404によって実施されることが可能である。一態様では、1/2レートパケットが、受信される(3602)。1/2レートパケットに含められた識別子が、分析される(3604)ことが可能である。この識別子は、1/2レートパケットが、WBコーダによって符号化されたか、またはNBコーダによって符号化されたかを示すことが可能である。一態様では、この識別子は、無効/不正な遅れである特殊なパケットID(識別子)である。この識別子の分析に基づいて、パケットが、WB−HRパケットであるかどうかの判定(3606)が行われる。パケットが、WB−HRパケットである場合、パケットは、広帯域復号スキームを使用して復号される(3608)。一構成において、復号器3404は、WB復号器として機能する。しかし、パケットが、WB−HRではないと判定(3606)された場合、パケットは、狭帯域復号スキームを使用して復号される(3610)。復号器3404は、NB復号器として機能することが可能である。復号された1つまたは複数のパケットから、信号が再構築される(3612)ことが可能である。
図37は、通信路3706を介してマルチモード復号器3704と通信するマルチモード符号器3702の一構成を示すブロック図である。通信路3706は、RF(無線周波数)インターフェースを含むことが可能である。符号器3702は、関連する復号器(図示せず)を含むことが可能である。符号器3702と、関連する復号器とは、第1の音声コーダを形成することが可能である。復号器3704は、関連する符号器(図示せず)を含むことが可能である。復号器3704と、関連する符号器とは、第2の音声コーダを形成することが可能である。
符号器3702は、初期パラメータ計算モジュール3718と、レート決定モジュール3720と、モード分類モジュール3722と、複数の符号化モード3724、3726、3728と、パケット形成モジュール3730とを含むことが可能である。パケット形成モジュール3730は、パケット識別子3708を挿入することが可能である。符号化モード3724、3726、3728の数が、任意の数の符号化モード3724、3726、3728を意味することが可能である、Nとして示される。簡明のため、3つの符号化モード3724、3726、3728が示され、破線が、他の符号化モードの存在を示している。
復号器3704は、パケット逆アセンブラモジュール3732と、複数の復号モード3734、3736、3738と、ポストフィルタ3740とを含むことが可能である。パケット逆アセンブラモジュール3732は、パケット識別モジュール3714を含むことが可能である。復号モード3734、3736、3738の数が、任意の数の復号モード3734、3736、3738を意味することが可能である、Nとして示される。簡明のため、3つの復号モード3734、3736、3738が示され、破線が、他の復号モードの存在を示している。
音声信号、s(n)3710が、初期パラメータ計算モジュール3718に与えられることが可能である。音声信号s(n)3710は、フレームと呼ばれるサンプルのブロックに分割されることが可能である。値nは、フレーム番号を示すことが可能であり、あるいは値nは、フレーム内のサンプル番号を示すことが可能である。代替の構成では、LP(線形予測)残差信号が、音声信号3710の代わりに使用されることが可能である。このLP残差信号は、CELP(符号励振線形予測)コーダなどの音声コーダによって使用されることが可能である。
初期パラメータ計算モジュール3718は、現在のフレームに基づいて、様々なパラメータを導き出すことができる。一態様では、これらのパラメータには、以下の少なくとも1つが含まれる。すなわち、LPC(線形予測符号化)フィルタ係数、LSP(線スペクトル対)係数、NACF(正規化された自己相関関数)、開ループ遅れ、ゼロ交差レート、帯域エネルギー、およびフォルマント残差信号である。
初期パラメータ計算モジュール3718は、モード分類モジュール3722に結合されることが可能である。モード分類モジュール3722は、符号化モード3724、3726、3728の間で動的に切り替わることが可能である。初期パラメータ計算モジュール3718は、モード分類モジュール3722にパラメータを供給する。モード分類モジュール3722は、レート決定モジュール3720に結合されることが可能である。レート決定モジュール3720は、レートコマンド信号を受け入れることができる。レートコマンド信号は、ある特定のレートで音声信号3710を符号化するよう、符号器3702に指示することが可能である。一態様では、この特定のレートには、音声信号3710が、171ビットを使用して符号化されるべきことを示すことが可能な完全レートが含まれる。別の例では、この特定のレートには、音声信号3710が、80ビットを使用して符号化されるべきことを示すことが可能な1/2レートが含まれる。さらなる例では、この特定のレートには、音声信号3710が、16ビットを使用して符号化されるべきことを示すことが可能な1/8レートが含まれる。
前述したとおり、モード分類モジュール3722は、現在のフレームに関して最も適切な符号化モード3724、3726、3728を選択するために、フレームごとに符号化モード3724、3726、3728の間で動的に切り替わるように結合されることが可能である。モード分類モジュール3722は、パラメータを、事前定義されたしきい値および/または最高限度値と比較することによって、現在のフレームに関する特定の符号化モード3724、3726、3728を選択することができる。さらに、モード分類モジュール3722は、レート決定モジュール3720から受け取られたレートコマンド信号に基づいて、特定の符号化モード3724、3726、3728を選択することができる。例えば、符号化モードA3724が、171ビットを使用して音声信号3710を符号化することが可能であるのに対して、符号化モードB3726は、80ビットを使用して音声信号3710を符号化することが可能である。
フレームのエネルギー含有量に基づき、モード分類モジュール3722は、フレームを、非音声もしくは非活性の音声(例えば、沈黙、背景雑音、または語の合間の休止)として、または音声として分類することができる。フレームの周期性に基づき、モード分類モジュール3722は、音声フレームを、ある特定のタイプの音声、例えば、有声、無声、または遷移として分類することができる。
有声音声には、比較的高い度合いの周期性を示す音声が含まれることが可能であり、母音サウンドが含まれることが可能である。ピッチ周期が、フレームの内容を分析し、再構築するのに使用されることが可能な音声フレームの成分であることが可能である。無声音声には、子音サウンドが含まれることが可能である。遷移音声フレームには、有声音声と無声音声の間の遷移が含まれることが可能である。有声音声としても、無声音声としても分類されないフレームは、遷移音声として分類されることが可能である。
音声モード(発声モードとも呼ばれる)が、現在のフレームが、有声音声であるか、または無声音声であるかを示す。このパラメータは、周期性の1つまたは複数の測度(例えば、ゼロ交差、NACF、ピッチ利得)、および/またはそのような測度としきい値の間の関係などの、フレームに関する音声活動に基づくバイナリ値を有することが可能である。他の実施形態では、音声モードパラメータは、沈黙または背景雑音、あるいは沈黙と有声音声の間の遷移などのモードを示す、他の1つまたは複数の状態を有する。
音声フレームを分類することは、異なるタイプの音声を符号化するのに、異なる符号化モード3724、3726、3728が使用されることを許して、通信路3706などの共有される通信路における帯域幅の、より効率的な使用をもたらすことが可能である。例えば、有声音声は、周期的であり、このため、非常に予測的であるので、低いビットレートの、非常に予測的な符号化モード3724、3726、3728を使用して、有声音声が符号化されることが可能である。
モード分類モジュール3722は、現在のフレームに関する符号化モード3724、3726、3728を、そのフレームの分類に基づいて選択することができる。これらの様々な符号化モード3724、3726、3728は、並行に結合されることが可能である。符号化モード3724、3726、3728の1つまたは複数が、任意の所与の時点で機能可能であり得る。一構成では、1つの符号化モード3724、3726、3728が、現在のフレームの分類に従って選択される。
これらの異なる符号化モード3724、3726、3728は、異なる符号化ビットレート、異なる符号化スキーム、または符号化ビットレートと符号化スキームの異なる組み合わせに従って機能することが可能である。前述したとおり、使用される様々な符号化レートは、完全レート、1/2レート、1/4レート、および/または1/8レートであることが可能である。使用される様々な符号化スキームは、CELP符号化、PPP(プロトタイプピッチ周期)符号化(またはWI(波形補間)符号化)、および/またはNELP(雑音励振線形予測)符号化であることが可能である。このため、例えば、ある特定の符号化モード3724、3726、3728が、完全レートCELPであることが可能であり、別の符号化モード3724、3726、3728が、1/2レートCELPであることが可能であり、別の符号化モード3724、3726、3728が、完全レートPPPであることが可能であり、さらに、別の符号化モード3724、3726、3728が、NELPであることが可能である。
CELP符号化モード3724、3726、3728によれば、線形予測声道モデルが、LP残差信号の量子化されたバージョンで励振させられることが可能である。CELP符号化モードにおいて、現在のフレーム全体が、量子化されることが可能である。CELP符号化モード3724、3726、3728は、音声の比較的正確な再現をもたらすことが可能であるが、比較的高い符号化ビットレートという犠牲を払う。CELP符号化モード3724、3726、3728は、遷移音声として分類されたフレームを符号化するのに使用されることが可能である。
NELP符号化モード3724、3726、3728によれば、濾波された擬似ランダム雑音信号を使用して、LP残差信号がモデル化されることが可能である。NELP符号化モード3724、3726、3728は、低いビットレートを実現する比較的単純な技術であることが可能である。NELP符号化モード3724、3726、3728は、無声音声として分類されたフレームを符号化するのに使用されることが可能である。
PPP符号化モード3724、3726、3728によれば、各フレーム内のピッチ周期のサブセットが、符号化されることが可能である。音声信号の残りの周期は、これらのプロトタイプ周期の合間を補間することによって再構築されることが可能である。PPP符号化の時間領域実施形態において、前のプロトタイプ周期をどのように変更して、現在のプロトタイプ周期を近似すべきかを記述する第1のパラメータセットが、計算されることが可能である。合計されると、現在のプロトタイプ周期と、変更された前のプロトタイプ周期との差を近似する1つまたは複数の符号ベクトルが、選択されることが可能である。第2のパラメータセットが、これらの選択された符号ベクトルを記述する。PPP符号化の周波数領域実施形態において、プロトタイプの振幅スペクトルと位相スペクトルを記述するパラメータのセットが、計算されることが可能である。PPP符号化の実施形態によれば、復号器3704が、振幅と位相を記述するパラメータのセットに基づいて現在のプロトタイプを再構築することによって、出力音声信号3716を合成することが可能である。過去のプロトタイプ周期が、現在のプロトタイプ周期の振幅および/または位相の予測子として使用されることが可能である。この音声信号が、現在の再構築されたプロトタイプ周期と、前の再構築されたプロトタイプ周期との間の領域にわたって補間されることが可能である。プロトタイプは、復号器3704において音声信号3710またはLP残差信号を再構築するために、フレーム内で同様の位置にあった、前のフレームからのプロトタイプを使用して直線補間される、現在のフレームの部分を含むことが可能である。
音声フレーム全体ではなく、プロトタイプ周期を符号化することにより、符号化ビットレートが低減されることが可能である。有声音声として分類されたフレームは、PPP符号化モード3724、3726、3728を使用して符号化されることが可能である。有声音声の周期性を活用することによって、PPP符号化モード3724、3726、3728は、CELP符号化モード3724、3726、3728より低いビットレートを実現することができる。
選択された符号化モード3724、3726、3728は、パケットフォーマットモジュール3730に結合されることが可能である。選択された符号化モード3724、3726、3728は、現在のフレームを符号化または量子化して、量子化されたフレームパラメータ3712をパケットフォーマットモジュール3730に供給することができる。パケットフォーマットモジュール3730は、量子化されたフレームパラメータ3712を組み立てて、フォーマットされたパケット3713にすることができる。パケットフォーマットモジュール3730は、このパケットを、広帯域パケットとして、または狭帯域パケットとしてフォーマットすることができる。パケット識別子3708が、このパケットの中に含められることが可能である。前述したとおり、パケット識別子3708は、復号器3704に、パケットが広帯域パケットであるか、または狭帯域パケットであるかを示すことができる。パケットフォーマットモジュール3730は、フォーマットされたパケット3713を、通信路3706を介して受信機(図示せず)に供給することができる。受信機は、フォーマットされたパケット3713を受信し、復調し、ディジタル化して、そのパケット3713を復号器3704に供給することができる。
復号器3704において、パケット逆アセンブラモジュール3732が、受信機からパケット3713を受け取る。パケット逆アセンブラモジュール3732は、パケット3713をアンパックすることができ、パケット識別モジュール3714が、パケット3713の中に含められたパケット識別子3708を認識することができる。パケット識別モジュール3714は、パケット3713が、WB−HRパケットであること、または狭帯域1/2レートパケットであることを見出すことが可能である。パケット逆アセンブラモジュール3732は、パケットごとに復号モード3734、3736、3738の間で動的に切り替わるように構成されることも可能である。復号モード3734、3736、3738の数は、符号化モード3724、3726、3728の数と同一であることが可能である。番号が付けられた各符号化モード3724、3726、3728が、同一の符号化ビット、および同一の符号化スキームを使用するように構成された、同様に番号が付けられたそれぞれの復号モード3734、3736、3738に関連付けられることが可能である。
パケット逆アセンブラモジュール3732が、パケット3713を検出した場合、パケット3713は、分解されて、該当する復号モード3734、3736、3738に供給される。該当する復号モード3734、3736、3738は、パケット識別子3708の分析に基づいて広帯域復号技術または狭帯域復号技術を実施することができる。パケット逆アセンブラモジュール3732が、パケットを検出しない場合、パケット損失が宣言され、消去復号器(図示せず)が、フレーム消去処理を実行することができる。復号モード3734、3736、3738の並行アレーは、ポストフィルタ3740に結合されることが可能である。該当する復号モード3734、3736、3738は、パケット3713を復号して、または逆量子化して、その情報をポストフィルタ3740に供給することができる。ポストフィルタ3740は、音声フレームを再構築し、または合成し、合成された音声フレーム、
を出力する。
一構成では、量子化されたパラメータ自体は、伝送されない。代わりに、復号器3704における様々なLUT(ルックアップテーブル)(図示せず)の中のアドレスを指定するインデックスであるコードブックが、伝送される。復号器3704は、コードブックインデックスを受け取り、様々なコードブックLUTの中で適切なパラメータ値を探す。したがって、例えば、ピッチ遅れ、適応コードブック利得、およびLSPなどのパラメータに関するコードブックインデックスが、伝送されることが可能であり、関連する3つのコードブックLUTの中で復号器3704によって検索が行われることが可能である。
CELP符号化モードによれば、ピッチ遅れ、ピッチ利得、コードブックパラメータ、およびLSPパラメータが、伝送されることが可能である。LSPコードブックインデックスは、LP残差信号が、復号器3704において合成されることが可能であるため、伝送される。さらに、現在のフレームに関するピッチ遅れ値と、前のフレームに関するピッチ遅れ値との差が、伝送されることが可能である。
音声信号3710が復号器3704において合成されるべきPPP符号化モードによれば、ピッチ遅れパラメータ、振幅パラメータ、および位相パラメータが、伝送される。PPP音声符号化技術によって使用される、より低いビットレートは、絶対ピッチ遅れ情報と相対ピッチ遅れ差分値をともに伝送することは許さない可能性がある。
一例によれば、有声音声フレームなどの非常に周期的なフレームが、現在のフレームに関するピッチ遅れ値と、前のフレームに関するピッチ遅れ値の差を伝送のために量子化し、現在のフレームに関する絶対ピッチ遅れ値を伝送のために量子化することはしない、低ビットレートのPPP符号化モードを使用して伝送される。有声フレームは、非常に周期的な性質があるため、絶対ピッチ遅れ値ではなく、差分値を伝送することにより、より低い符号化ビットレートが実現されることが可能になり得る。一態様では、この量子化は、前のフレームに関するパラメータ値の加重和が計算されるように一般化され、これらの重みの和は、1であり、この加重和が、現在のフレームに関するパラメータ値から引かれる。次に、この差が、量子化されることが可能である。
図38は、可変レート音声符号化方法3800の一例を示す流れ図である。一態様では、方法3800は、パケットを広帯域パケットまたは狭帯域パケットとして符号化する能力を与えられることが可能な単一の移動局3302によって実施される。他の態様では、方法3800は、複数の移動局3302によって実施されることが可能である。つまり、1つの移動局3302が、広帯域パケットまたは狭帯域パケットを符号化する符号器を含むことが可能である一方で、別の移動局3302が、広帯域復号技術または狭帯域復号技術を使用して、そのパケットを復号する復号器を含むことが可能である。現在のフレームの初期パラメータが、計算される(3802)ことが可能である。一構成では、初期パラメータ計算モジュール3718が、これらのパラメータを計算する(3802)。これらのパラメータには、以下の1つまたは複数が含まれることが可能である。すなわち、LPC(線形予測符号化)フィルタ係数、LPS(線スペクトル対)係数、NACF(正規化された自己相関関数)、開ループ遅れ、帯域エネルギー、ゼロ交差レート、およびフォルマント残差信号である。
現在のフレームは、活性として、または非活性として分類される(3804)ことが可能である。一構成では、分類モジュール3722が、現在のフレームを、「活性」の音声、または「非活性」の音声を含むものとして分類する。前述したとおり、s(n)3710は、音声の周期と、沈黙の周期とを含むことが可能である。活性の音声は、発話された語を含むことが可能であるのに対して、非活性の音声は、背景雑音、沈黙、休止などを含むことが可能である。
現在のフレームが、活性として分類されていたか、非活性として分類されていたかの判定3806が、行われる。現在のフレームが、活性として分類される場合、この活性の音声は、有声フレームとして、無声フレームとして、または遷移フレームとしてさらに分類される(3808)。人間の音声は、多くの異なる仕方で分類されることが可能である。音声の2つの分類には、有声サウンドと無声サウンドが含まれることが可能である。有声でない、すなわち無声である音声は、遷移音声として分類されることが可能である。
符号器/復号器モードが、ステップ3806および3808で行われたフレーム分類に基づいて選択される(3810)ことが可能である。様々な符号器/復号器モードが、図37に示されるとおり、並行に接続されることが可能である。これらの異なる符号器/復号器モードは、異なる符号化スキームに従って動作する。いくつかのモードは、ある特性を示す音声信号s(n)3710の符号化部分において、より効果的である可能性がある。
前述したとおり、CELPモードが、遷移音声として分類されたフレームを符号化するのに選択されることが可能である。PPPモードが、有声音声として分類されたフレームを符号化するのに選択されることが可能である。NELPモードが、無声音声として分類されたフレームを符号化するのに選択されることが可能である。同一の符号化技術が、異なるビットレートにおいて、様々なレベルのパフォーマンスで、しばしば、機能させられることが可能である。図37の、異なる符号器/復号器モードは、異なる符号化技術、または異なるビットレートで機能する同一の符号化技術、あるいは以上の組み合わせを表すことが可能である。
選択された符号器モードは、現在のフレームを符号化し(3812)、この符号化されたフレームを、あるビットレートに従ってパケットにフォーマットする(3814)。パケット識別子が、パケットの中に含められる(3816)ことが可能である。パケット識別子は、パケットが、広帯域パケットとして符号化されたか、または狭帯域パケットとして符号化されたかを示すことができる。このパケットが、復号器に送信される(3818)。
図39は、通常の狭帯域1/2レートパケット3902および広帯域1/2レートパケット3904の一構成を示すブロック図である。一態様では、各パケットは、パケット識別子A3906およびパケット識別子B3907などのパケット識別子を含むことが可能である。パケット識別子A3906は、正当な遅れ値3908を含むことが可能であり、パケット識別子B3907は、不正な遅れ値3914を含むことが可能である。不正な遅れ値3914は、あるパケットが、広帯域1/2レートパケット3904であるか、または特別狭帯域1/2レートパケットであるかを復号器に示す値であることが可能である。正当な遅れ値は、あるパケットが、通常の(特別でない)狭帯域1/2レートCELPパケット3902であるかどうかを復号器に示すことが可能である。他の構成では、正当な遅れ値は、あるパケットが、[0:100]の範囲内のピッチ遅れ値を含む、他のいずれかの1/2レートパケットであるかどうかを復号器に示すことが可能である。[0:100]の範囲内のピッチ遅れ値は、単に例として使用される。本システムおよび本方法は、有効である(ある特定の符号化スキームに関連する)値セット、および不正/無効である別の値セットを有する所与のNビットフィールドに適用されることが可能である。
一構成では、通常の狭帯域1/2レートパケット3902は、パケット3902の中に含められる80ビットのそれぞれを利用する。このため、着信するパケットが、通常の(特別でない)狭帯域1/2レートCELPであることを復号器に示すことが可能な、正当な遅れ値3908を格納する遅延パラメータが、使用されることが可能である。一態様では、この遅延パラメータは、7ビットを含む。この遅延パラメータは、「101」から「127」までの10進数の範囲内の値3910であることが可能である。この7ビットフィールドの中の正当な(有効な)遅れ値は、「0」から「100」までの10進数の範囲内の値3910であることが可能である。「0」から「100」までの範囲内の値3910は、2進数形式(例えば、7ビットの2進数)で通常の(特別でない)狭帯域1/2レートCELPパケット3902の中に含められることが可能である。
一態様では、広帯域コーダが、NELP符号化スキームを実施して、無声サウンドを符号化する。無声サウンドに関する信号は、80ビットを有するパケットとして広帯域1/2レートパケット3904の中にパックされることが可能である。しかし、無声サウンドを有するパケットは、遅延を含まないことが可能である。一構成では、無声サウンドに関する信号の許容できる再現が、遅延なしに達せられることが可能であるため、無声サウンドに関して、符号器によって遅延の分析は行われない可能性がある。広帯域1/2レートパケット3904は、80ビットのうち74ビットを利用して、6ビットを空いたままにすることが可能である。広帯域1/2レートパケット3904に関連するパケット識別子B3907は、6つの1の列3912(例えば、「111111」)を含むことが可能である。一構成では、列3912は、「126」および「127」という10進数にマップされることが可能であり(7ビットで)、広帯域1/2レートパケット3904のための識別子として予約されることが可能である。
一構成では、Nビットパラメータからの少なくとも2つの不正な値が、利用されることが可能である。2つの不正な値が使用される場合、Nビットパラメータからの1ビットが、情報を伝送するように空けられることが可能である。さらなる構成では、情報を伝送するように空けられることが可能なNビットパラメータからのビットの数は、log2(X)と等しいことが可能であり、ただし、Xは、Nビットパラメータからもたらされる不正な値の数である。例えば、8つの不正な値が、他の情報を伝送するための3ビットを空けることが可能である。
図40は、様々なタイプのパケットに割り当てられたビットの数を示すチャート4000である。チャート4000は、複数のパラメータ4002を含む。この複数のパラメータ4002内の各パラメータが、ある数のビットを利用することが可能である。チャート4000に示される様々なパケットタイプは、前述した様々な符号化モードの1つを利用して符号化されていることが可能である。これらのパケットタイプには、FCELP(完全レートCELP)4004、HCELP(1/2レートCELP)4006、SPLHCELP(特別1/2レートCELP)4008、FPPP(完全レートPPP)4010、SPLHPPP(特別1/2レートPPP)4012、QPPP(1/4レートPPP)4014、SPLHNELP(特別1/2レートNELP)4016、QNELP(1/4レートNELP)4018、および沈黙符号器4020が含まれることが可能である。
FCELP4004およびFPPP4010は、合計で171ビットを有するパケットであることが可能である。FCELP4004パケットは、SPLHCELP4008パケットに変換されることが可能である。一態様では、FCELP4004パケットは、FCBインデックス(固定コードブックインデックス)やFCB利得(固定コードブック利得)などのパラメータにビットを割り当てる。図示されるとおり、FCELP4004パケットが、SPLHCELP4008パケットに変換されると、FCBインデックス、FCB利得、およびデルタ遅れなどのパラメータに0のビットが割り当てられる。つまり、SPLHCELP4008パケットは、これらのビットなしに復号器に伝送される。SPLHCELP4008パケットは、LSP(線スペクトル対)、ACB(適応コードブック)利得、特別1/2レートID(識別)、特別パケットID、ピッチ遅れ、およびモードビット情報などのパラメータに割り当てられたビットを含む。復号器に伝送されるビットの総数は、171から80に減らされることが可能である。
同様に、FPPP4010パケットは、SPLHPPP4012パケットに変換されることが可能である。図示されるとおり、FPPP4010パケットは、帯域整列パラメータにビットを割り当てる。FPPP4010パケットが、SPLHPPP4012パケットに変換されることが可能である。帯域整列に割り当てられたビットは、破棄されることが可能である。つまり、SPLHPPP4012パケットは、これらのビットなしに復号器に伝送される。復号器に伝送されるビットの総数は、171から80に減らされることが可能である。一構成では、振幅パラメータおよび大域整列パラメータに割り当てられたビットが、SPLHPPP4012パケットの中に含められることが可能である。振幅パラメータは、信号s(n)3710のスペクトルの振幅を示すことが可能であり、大域整列パラメータは、最大限の整列を確実にすることが可能な直線位相偏移を表すことが可能である。
さらに、様々なタイプのパケットが、遅れ/特別パケットIDパラメータに割り当てられたビットを含むことが可能である。遅れ/特別パケットIDパラメータは、ある特定のパケットが、狭帯域符号化技術を使用して符号化されたか、または広帯域符号化技術を使用して符号化されたかを、復号器が認識することを可能にするパケット識別子を表すことが可能である。
本明細書の様々な構成は、異なるパラメータ、および異なるパケットに関して異なる数のビットを使用して示される。本明細書の各パラメータに関連するビットの特定の数は、例示的であり、限定することを意図していない。パラメータは、本明細書で使用される例より多いビット、または少ないビットを含んでもよい。
図41は、ある構成による、通信デバイス4108において利用されることが可能である様々な構成要素を示す。通信デバイス4108は、デバイス4108の動作を制御するプロセッサ4102を含むことが可能である。プロセッサ4102は、CPUと呼ばれることも可能である。ROM(読み取り専用メモリ)とRAM(ランダムアクセスメモリ)の両方を含むことが可能なメモリ4104が、命令およびデータをプロセッサ4102に供給する。また、メモリ4104の一部分が、NVRAM(不揮発性ランダムアクセスメモリ)を含むことも可能である。
また、通信デバイス4108は、アクセス端末装置4108と遠隔ロケーションとの間でデータを送受信することを可能にする送信機4110と受信機4112とを含む筐体4122を含むことも可能である。送信機4110と受信機4112が組み合わされて、トランシーバ4120にされることも可能である。アンテナ4118が、筐体4122に取り付けられて、トランシーバ4120に電気的に結合される。
また、通信デバイス4108は、トランシーバ4120によって受信される信号を検出し、そのような信号のレベルを定量化するのに使用される信号検出器4106も含む。信号検出器4106は、そのような信号を、総エネルギー、PN(擬似雑音当たりのパイロットエネルギー)チップ、パワースペクトル密度、およびその他の信号として検出する。
通信デバイス4108のステートチェンジャ(state changer)4114が、現在の状態、ならびにトランシーバ4120によって受信され、信号検出器4106によって検出された、さらなる信号に基づいて、通信デバイス4108の状態を制御する。デバイス4108は、いくつかの状態のいずれかの状態で動作することができることが可能である。
また、通信デバイス4108は、デバイス4108を制御し、現在のサービスプロバイダシステムが不十分であるとデバイス4108が判定した際に、デバイス4108が、いずれのサービスプロバイダに移行すべきかを決定するのに使用されるシステムディターミナ4124も含む。
通信デバイス4108の様々な構成要素は、データバスに加えて、電力バス、制御信号バス、およびステータス信号バスを含むことが可能なバスシステム4118によって一緒に結合される。しかし、簡明のため、様々なバスは、図41に、バスシステム4118として示される。通信デバイス4108は、信号を処理する際に使用するためのDSP(ディジタル信号プロセッサ)4116を含むことも可能である。
情報および信号は、様々な異なる技術および技法のいずれかを使用して表されることが可能である。例えば、以上の説明全体にわたって言及されることが可能なデータ、命令、コマンド、情報、信号、ビット、シンボル、およびチップは、電圧、電流、電磁波、磁界もしくは磁気粒子、光の場もしくは粒子、または以上の任意の組み合わせによって表現されることが可能である。
本明細書で開示される構成に関連して説明される様々な例示的な論理ブロック、モジュール、回路、およびアルゴリズムステップは、電子ハードウェアとして実施されても、コンピュータソフトウェアとして実施されても、あるいはその両方の組み合わせとして実施されてもよい。ハードウェアとソフトウェアの、この互換性を明確に示すのに、様々な例示的な構成要素、ブロック、モジュール、回路、およびステップが、概ね機能の点で以上に説明されてきた。そのような機能が、ハードウェアとして実施されるか、ソフトウェアとして実施されるかは、全体的なシステムに課される特定の応用上の制約、および設計上の制約に依存する。当業者は、説明される機能を、それぞれの特定の応用例に関して、様々な仕方で実施することができるが、そのような実施上の決定は、本システムおよび本方法の範囲からの逸脱を生じさせるものと解釈されてはならない。
本明細書で開示される構成に関連して説明される様々な例示的な論理ブロック図、モジュール、および回路は、汎用プロセッサ、DSP(ディジタル信号プロセッサ)、ASIC(特定用途向け集積回路)、FPGA(フィールドプログラマブルゲートアレー)信号もしくは他のプログラマブルロジックデバイス、ディスクリートのゲートもしくはトランジスタロジック、ディスクリートのハードウェア構成要素、あるいは本明細書で説明される機能を実行するように設計された以上の任意の組み合わせを使用して、実施される、または実行されることが可能である。汎用プロセッサは、マイクロプロセッサであることが可能であるが、代替として、プロセッサは、任意のプロセッサ、コントローラ、マイクロコントローラ、または状態マシンであってもよい。また、プロセッサは、コンピューティングデバイスの組み合わせとして、例えば、DSPとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサ、DSPコアと連携する1つまたは複数のマイクロプロセッサ、または他の任意のそのような構成として実施されることも可能である。
本明細書で開示される構成に関連して説明される方法またはアルゴリズムのステップは、ハードウェアにおいて直接に、プロセッサによって実行されるソフトウェアモジュールにおいて、またはこの2つの組み合わせで実施されることが可能である。ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROM(消去可能なプログラマブル読み取り専用メモリ)、EEPROM(電気的に消去可能なプログラマブル読み取り専用メモリ)、レジスタ、ハードディスク、リムーバブルなディスク、CD−ROM(コンパクトディスク読み取り専用メモリ)、または当技術分野で知られている他の任意の記憶媒体の中に存在することが可能である。記憶媒体は、プロセッサが、その記憶媒体から情報を読み取ること、およびその記憶媒体に情報を書き込むことができるように、プロセッサに結合されることが可能である。代替として、記憶媒体は、プロセッサと一体化していてもよい。プロセッサと記憶媒体は、ASICの中に存在することが可能である。このASICは、端末装置内に存在することが可能である。代替として、プロセッサと記憶媒体は、端末装置内のディスクリートの構成要素として存在してもよい。
本明細書で開示される方法は、説明される方法を実現するための1つまたは複数のステップまたはアクションを備える。方法ステップおよび/または方法アクションは、本システムおよび本方法の範囲を逸脱することなく、互いに入れ替えられることが可能である。つまり、ステップまたはアクションの特定の順序が、構成の適切な動作のために指定されない限り、特定のステップおよび/または特定のアクションの順序および/または使用は、本システムおよび本方法の範囲を逸脱することなく、変更されることが可能である。本明細書で開示される方法は、ハードウェアで、ソフトウェアで、またはその両方で実施されることが可能である。ハードウェアおよびメモリの例には、RAM、ROM、EPROM、EEPROM、フラッシュメモリ、光ディスク、レジスタ、ハードディスク、リムーバブルなディスク、CD−ROM、または他の任意のタイプのハードウェアおよびメモリが含まれることが可能である。
本システムおよび本方法の特定の構成および応用例が例示され、説明されてきたが、本システムおよび本方法は、本明細書で開示される構成および構成要素そのものに限定されないものと理解されたい。当業者には明白となる様々な変形、変更、および変化が、主張されるシステムおよび方法の趣旨および範囲を逸脱することなく、本明細書で開示される方法およびシステムの構成、動作、および詳細において行われることが可能である。
本システムおよび本方法の特定の構成および応用例が例示され、説明されてきたが、本システムおよび本方法は、本明細書で開示される構成および構成要素そのものに限定されないものと理解されたい。当業者には明白となる様々な変形、変更、および変化が、主張されるシステムおよび方法の趣旨および範囲を逸脱することなく、本明細書で開示される方法およびシステムの構成、動作、および詳細において行われることが可能である。
以下に本件出願当初の特許請求の範囲に記載された発明を付記する。
[1]音声信号に関連するパケットの中に識別子を含めるための方法であって、
信号を受信すること、
前記信号を複数のフレームに分割すること、
前記信号のフレームをパケット内に符号化すること、
前記パケットが、広帯域パケットとして符号化されるか、または狭帯域パケットとして符号化されるかを決定すること、
前記決定に基づいて前記パケットの中に識別子をパックすること、および
前記パケットを伝送することを備える方法。
[2]前記パケットは、広帯域1/2レートパケットとして符号化される[1]に記載の方法。
[3]前記広帯域1/2レートパケットは、80ビットを含む[2]に記載の方法。
[4]前記広帯域1/2レートパケットは、広帯域識別子を含む[2]に記載の方法。
[5]前記広帯域識別子は、10進数で126を2進数形式で備える[4]に記載の方法。
[6]前記広帯域識別子は、10進数で127を2進数形式で備える[4]に記載の方法。
[7]前記広帯域識別子は、6つの1を備える[4]に記載の方法。
[8]前記広帯域1/2レートパケットは、NELP(雑音励振線形予測)符号化スキームを使用して符号化される[2]に記載の方法。
[9]前記フレームは、移動局上の広帯域コーダによって符号化される[1]に記載の方法。
[10]前記フレームを、移動局上の広帯域復号器によって復号することをさらに備える[1]に記載の方法。
[11]第1の移動局から第2の移動局に前記パケットを伝送することをさらに備える[1]に記載の方法。
[12]Nビットパラメータから少なくとも2つの不正な値をもたらすことをさらに備え、前記Nビットパラメータからの少なくとも1ビットは、情報を伝送するのに使用される[1]に記載の方法。
[13]情報を伝送するのに使用される前記Nビットパラメータからのビットの数は、log 2 (X)と等しく、Xは、前記Nビットパラメータからもたらされる不正な値の数である[12]に記載の方法。
[14]音声信号に関連するパケットの中に識別子を含めるための装置であって、
プロセッサと、
前記プロセッサと電子通信するメモリと、
前記メモリの中に格納された命令とを具備し、
前記命令は、信号を受信し、前記信号を複数のフレームに分割し、前記信号のフレームをパケット内に符号化し、前記パケットが、広帯域パケットとして符号化されるか、または狭帯域パケットとして符号化されるかを決定し、前記決定に基づいて前記パケットの中に識別子をパックし、前記パケットを伝送するように実行可能である装置。
[15]前記パケットは、広帯域1/2レートパケットとして符号化される[14]に記載の装置。
[16]前記広帯域1/2レートパケットは、80ビットを含む[15]に記載の装置。
[17]前記広帯域1/2レートパケットは、広帯域識別子を含む[15]に記載の装置。
[18]前記広帯域識別子は、10進数で126を2進数形式で備える[17]に記載の装置。
[19]前記広帯域識別子は、10進数で127を2進数形式で備える[17]に記載の装置。
[20]前記広帯域識別子は、6つの1を備える[17]に記載の装置。
[21]音声信号に関連するパケットの中に識別子を含めるように構成されたシステムであって、
処理するための手段と、
信号を受信するための手段と、
前記信号を複数のフレームに分割するための手段と、
前記信号のフレームをパケット内に符号化するための手段と、
前記パケットが、広帯域パケットとして符号化されるか、または狭帯域パケットとして符号化されるかを決定するための手段と、
前記決定に基づいて前記パケットの中に識別子をパックするための手段と、
前記パケットを伝送するための手段とを備えるシステム。
[22]信号を受信し、
前記信号を複数のフレームに分割し、
前記信号のフレームをパケット内に符号化し、
前記パケットが、広帯域パケットとして符号化されるか、または狭帯域パケットとして符号化されるかを決定し、
前記決定に基づいて前記パケットの中に識別子をパックし、
前記パケットを伝送するように実行可能である命令のセットを格納するように構成されたコンピュータ可読媒体。
[23]パケットを復号するための方法であって、
パケットを受信すること、
前記パケットの中に含められた識別子を分析すること、
前記パケットが、広帯域コーダによって符号化されたか、または狭帯域コーダによって符号化されたかを判定すること、および
前記判定に基づいて前記パケットに関する復号モードを選択することを備える方法。
[24]パケットを復号するための装置であって、
プロセッサと、
前記プロセッサと電子通信するメモリと、
前記メモリの中に格納され、
パケットを受信し、
前記パケットの中に含められた識別子を分析し、
前記パケットが、広帯域コーダによって符号化されたか、または狭帯域コーダによって符号化されたかを判定し、
前記判定に基づいて前記パケットに関する復号モードを選択するように実行可能である命令とを備える装置。
[25]パケットを復号するように構成されたシステムであって、
処理するための手段と、
パケットを受信するための手段と、
前記パケットの中に含められた識別子を分析するための手段と、
前記パケットが、広帯域コーダによって符号化されたか、または狭帯域コーダによって符号化されたかを判定するための手段と、
前記判定に基づいて前記パケットに関する復号モードを選択するための手段とを備えるシステム。
[26]パケットを受信し、
前記パケットの中に含められた識別子を分析し、
前記パケットが、広帯域コーダによって符号化されたか、または狭帯域コーダによって符号化されたかを判定し、
前記判定に基づいて前記パケットに関する復号モードを選択するように実行可能である命令のセットを格納するように構成されたコンピュータ可読媒体。
以下に本件出願当初の特許請求の範囲に記載された発明を付記する。
[1]音声信号に関連するパケットの中に識別子を含めるための方法であって、
信号を受信すること、
前記信号を複数のフレームに分割すること、
前記信号のフレームをパケット内に符号化すること、
前記パケットが、広帯域パケットとして符号化されるか、または狭帯域パケットとして符号化されるかを決定すること、
前記決定に基づいて前記パケットの中に識別子をパックすること、および
前記パケットを伝送することを備える方法。
[2]前記パケットは、広帯域1/2レートパケットとして符号化される[1]に記載の方法。
[3]前記広帯域1/2レートパケットは、80ビットを含む[2]に記載の方法。
[4]前記広帯域1/2レートパケットは、広帯域識別子を含む[2]に記載の方法。
[5]前記広帯域識別子は、10進数で126を2進数形式で備える[4]に記載の方法。
[6]前記広帯域識別子は、10進数で127を2進数形式で備える[4]に記載の方法。
[7]前記広帯域識別子は、6つの1を備える[4]に記載の方法。
[8]前記広帯域1/2レートパケットは、NELP(雑音励振線形予測)符号化スキームを使用して符号化される[2]に記載の方法。
[9]前記フレームは、移動局上の広帯域コーダによって符号化される[1]に記載の方法。
[10]前記フレームを、移動局上の広帯域復号器によって復号することをさらに備える[1]に記載の方法。
[11]第1の移動局から第2の移動局に前記パケットを伝送することをさらに備える[1]に記載の方法。
[12]Nビットパラメータから少なくとも2つの不正な値をもたらすことをさらに備え、前記Nビットパラメータからの少なくとも1ビットは、情報を伝送するのに使用される[1]に記載の方法。
[13]情報を伝送するのに使用される前記Nビットパラメータからのビットの数は、log 2 (X)と等しく、Xは、前記Nビットパラメータからもたらされる不正な値の数である[12]に記載の方法。
[14]音声信号に関連するパケットの中に識別子を含めるための装置であって、
プロセッサと、
前記プロセッサと電子通信するメモリと、
前記メモリの中に格納された命令とを具備し、
前記命令は、信号を受信し、前記信号を複数のフレームに分割し、前記信号のフレームをパケット内に符号化し、前記パケットが、広帯域パケットとして符号化されるか、または狭帯域パケットとして符号化されるかを決定し、前記決定に基づいて前記パケットの中に識別子をパックし、前記パケットを伝送するように実行可能である装置。
[15]前記パケットは、広帯域1/2レートパケットとして符号化される[14]に記載の装置。
[16]前記広帯域1/2レートパケットは、80ビットを含む[15]に記載の装置。
[17]前記広帯域1/2レートパケットは、広帯域識別子を含む[15]に記載の装置。
[18]前記広帯域識別子は、10進数で126を2進数形式で備える[17]に記載の装置。
[19]前記広帯域識別子は、10進数で127を2進数形式で備える[17]に記載の装置。
[20]前記広帯域識別子は、6つの1を備える[17]に記載の装置。
[21]音声信号に関連するパケットの中に識別子を含めるように構成されたシステムであって、
処理するための手段と、
信号を受信するための手段と、
前記信号を複数のフレームに分割するための手段と、
前記信号のフレームをパケット内に符号化するための手段と、
前記パケットが、広帯域パケットとして符号化されるか、または狭帯域パケットとして符号化されるかを決定するための手段と、
前記決定に基づいて前記パケットの中に識別子をパックするための手段と、
前記パケットを伝送するための手段とを備えるシステム。
[22]信号を受信し、
前記信号を複数のフレームに分割し、
前記信号のフレームをパケット内に符号化し、
前記パケットが、広帯域パケットとして符号化されるか、または狭帯域パケットとして符号化されるかを決定し、
前記決定に基づいて前記パケットの中に識別子をパックし、
前記パケットを伝送するように実行可能である命令のセットを格納するように構成されたコンピュータ可読媒体。
[23]パケットを復号するための方法であって、
パケットを受信すること、
前記パケットの中に含められた識別子を分析すること、
前記パケットが、広帯域コーダによって符号化されたか、または狭帯域コーダによって符号化されたかを判定すること、および
前記判定に基づいて前記パケットに関する復号モードを選択することを備える方法。
[24]パケットを復号するための装置であって、
プロセッサと、
前記プロセッサと電子通信するメモリと、
前記メモリの中に格納され、
パケットを受信し、
前記パケットの中に含められた識別子を分析し、
前記パケットが、広帯域コーダによって符号化されたか、または狭帯域コーダによって符号化されたかを判定し、
前記判定に基づいて前記パケットに関する復号モードを選択するように実行可能である命令とを備える装置。
[25]パケットを復号するように構成されたシステムであって、
処理するための手段と、
パケットを受信するための手段と、
前記パケットの中に含められた識別子を分析するための手段と、
前記パケットが、広帯域コーダによって符号化されたか、または狭帯域コーダによって符号化されたかを判定するための手段と、
前記判定に基づいて前記パケットに関する復号モードを選択するための手段とを備えるシステム。
[26]パケットを受信し、
前記パケットの中に含められた識別子を分析し、
前記パケットが、広帯域コーダによって符号化されたか、または狭帯域コーダによって符号化されたかを判定し、
前記判定に基づいて前記パケットに関する復号モードを選択するように実行可能である命令のセットを格納するように構成されたコンピュータ可読媒体。
Claims (26)
- 音声信号に関連するパケットの中に識別子を含めるための方法であって、
信号を受信すること、
前記信号を複数のフレームに分割すること、
前記信号のフレームをパケット内に符号化すること、
前記パケットが、広帯域パケットとして符号化されるか、または狭帯域パケットとして符号化されるかを決定すること、
前記決定に基づいて前記パケットの中に識別子をパックすること、および
前記パケットを伝送することを備える方法。 - 前記パケットは、広帯域1/2レートパケットとして符号化される請求項1に記載の方法。
- 前記広帯域1/2レートパケットは、80ビットを含む請求項2に記載の方法。
- 前記広帯域1/2レートパケットは、広帯域識別子を含む請求項2に記載の方法。
- 前記広帯域識別子は、10進数で126を2進数形式で備える請求項4に記載の方法。
- 前記広帯域識別子は、10進数で127を2進数形式で備える請求項4に記載の方法。
- 前記広帯域識別子は、6つの1を備える請求項4に記載の方法。
- 前記広帯域1/2レートパケットは、NELP(雑音励振線形予測)符号化スキームを使用して符号化される請求項2に記載の方法。
- 前記フレームは、移動局上の広帯域コーダによって符号化される請求項1に記載の方法。
- 前記フレームを、移動局上の広帯域復号器によって復号することをさらに備える請求項1に記載の方法。
- 第1の移動局から第2の移動局に前記パケットを伝送することをさらに備える請求項1に記載の方法。
- Nビットパラメータから少なくとも2つの不正な値をもたらすことをさらに備え、前記Nビットパラメータからの少なくとも1ビットは、情報を伝送するのに使用される請求項1に記載の方法。
- 情報を伝送するのに使用される前記Nビットパラメータからのビットの数は、log2(X)と等しく、Xは、前記Nビットパラメータからもたらされる不正な値の数である請求項12に記載の方法。
- 音声信号に関連するパケットの中に識別子を含めるための装置であって、
プロセッサと、
前記プロセッサと電子通信するメモリと、
前記メモリの中に格納された命令とを具備し、
前記命令は、信号を受信し、前記信号を複数のフレームに分割し、前記信号のフレームをパケット内に符号化し、前記パケットが、広帯域パケットとして符号化されるか、または狭帯域パケットとして符号化されるかを決定し、前記決定に基づいて前記パケットの中に識別子をパックし、前記パケットを伝送するように実行可能である装置。 - 前記パケットは、広帯域1/2レートパケットとして符号化される請求項14に記載の装置。
- 前記広帯域1/2レートパケットは、80ビットを含む請求項15に記載の装置。
- 前記広帯域1/2レートパケットは、広帯域識別子を含む請求項15に記載の装置。
- 前記広帯域識別子は、10進数で126を2進数形式で備える請求項17に記載の装置。
- 前記広帯域識別子は、10進数で127を2進数形式で備える請求項17に記載の装置。
- 前記広帯域識別子は、6つの1を備える請求項17に記載の装置。
- 音声信号に関連するパケットの中に識別子を含めるように構成されたシステムであって、
処理するための手段と、
信号を受信するための手段と、
前記信号を複数のフレームに分割するための手段と、
前記信号のフレームをパケット内に符号化するための手段と、
前記パケットが、広帯域パケットとして符号化されるか、または狭帯域パケットとして符号化されるかを決定するための手段と、
前記決定に基づいて前記パケットの中に識別子をパックするための手段と、
前記パケットを伝送するための手段とを備えるシステム。 - 信号を受信し、
前記信号を複数のフレームに分割し、
前記信号のフレームをパケット内に符号化し、
前記パケットが、広帯域パケットとして符号化されるか、または狭帯域パケットとして符号化されるかを決定し、
前記決定に基づいて前記パケットの中に識別子をパックし、
前記パケットを伝送するように実行可能である命令のセットを格納するように構成されたコンピュータ可読媒体。 - パケットを復号するための方法であって、
パケットを受信すること、
前記パケットの中に含められた識別子を分析すること、
前記パケットが、広帯域コーダによって符号化されたか、または狭帯域コーダによって符号化されたかを判定すること、および
前記判定に基づいて前記パケットに関する復号モードを選択することを備える方法。 - パケットを復号するための装置であって、
プロセッサと、
前記プロセッサと電子通信するメモリと、
前記メモリの中に格納され、
パケットを受信し、
前記パケットの中に含められた識別子を分析し、
前記パケットが、広帯域コーダによって符号化されたか、または狭帯域コーダによって符号化されたかを判定し、
前記判定に基づいて前記パケットに関する復号モードを選択するように実行可能である命令とを備える装置。 - パケットを復号するように構成されたシステムであって、
処理するための手段と、
パケットを受信するための手段と、
前記パケットの中に含められた識別子を分析するための手段と、
前記パケットが、広帯域コーダによって符号化されたか、または狭帯域コーダによって符号化されたかを判定するための手段と、
前記判定に基づいて前記パケットに関する復号モードを選択するための手段とを備えるシステム。 - パケットを受信し、
前記パケットの中に含められた識別子を分析し、
前記パケットが、広帯域コーダによって符号化されたか、または狭帯域コーダによって符号化されたかを判定し、
前記判定に基づいて前記パケットに関する復号モードを選択するように実行可能である命令のセットを格納するように構成されたコンピュータ可読媒体。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US83461706P | 2006-07-31 | 2006-07-31 | |
US60/834,617 | 2006-07-31 | ||
US11/677,173 | 2007-02-21 | ||
US11/677,173 US8135047B2 (en) | 2006-07-31 | 2007-02-21 | Systems and methods for including an identifier with a packet associated with a speech signal |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009523028A Division JP5437067B2 (ja) | 2006-07-31 | 2007-07-31 | 音声信号に関連するパケットに識別子を含めるためのシステムおよび方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013210659A true JP2013210659A (ja) | 2013-10-10 |
Family
ID=38920744
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009523028A Active JP5437067B2 (ja) | 2006-07-31 | 2007-07-31 | 音声信号に関連するパケットに識別子を含めるためのシステムおよび方法 |
JP2013108189A Withdrawn JP2013210659A (ja) | 2006-07-31 | 2013-05-22 | 音声信号に関連するパケットに識別子を含めるためのシステムおよび方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009523028A Active JP5437067B2 (ja) | 2006-07-31 | 2007-07-31 | 音声信号に関連するパケットに識別子を含めるためのシステムおよび方法 |
Country Status (10)
Country | Link |
---|---|
US (1) | US8135047B2 (ja) |
EP (1) | EP2047461B1 (ja) |
JP (2) | JP5437067B2 (ja) |
KR (1) | KR101058760B1 (ja) |
CN (1) | CN104123946B (ja) |
BR (1) | BRPI0714825A2 (ja) |
CA (1) | CA2657424C (ja) |
RU (1) | RU2421828C2 (ja) |
TW (1) | TWI384807B (ja) |
WO (1) | WO2008016947A2 (ja) |
Families Citing this family (140)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7240001B2 (en) * | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
US7460990B2 (en) * | 2004-01-23 | 2008-12-02 | Microsoft Corporation | Efficient coding of digital media spectral data using wide-sense perceptual similarity |
WO2006009074A1 (ja) * | 2004-07-20 | 2006-01-26 | Matsushita Electric Industrial Co., Ltd. | 音声復号化装置および補償フレーム生成方法 |
KR100883652B1 (ko) * | 2006-08-03 | 2009-02-18 | 삼성전자주식회사 | 음성 구간 검출 방법 및 장치, 및 이를 이용한 음성 인식시스템 |
WO2008022181A2 (en) * | 2006-08-15 | 2008-02-21 | Broadcom Corporation | Updating of decoder states after packet loss concealment |
GB0704622D0 (en) * | 2007-03-09 | 2007-04-18 | Skype Ltd | Speech coding system and method |
GB0705328D0 (en) * | 2007-03-20 | 2007-04-25 | Skype Ltd | Method of transmitting data in a communication system |
CN101325537B (zh) * | 2007-06-15 | 2012-04-04 | 华为技术有限公司 | 一种丢帧隐藏的方法和设备 |
US8046214B2 (en) * | 2007-06-22 | 2011-10-25 | Microsoft Corporation | Low complexity decoder for complex transform coding of multi-channel sound |
US7885819B2 (en) * | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
PT2571024E (pt) * | 2007-08-27 | 2014-12-23 | Ericsson Telefon Ab L M | Frequência de transição adaptativa entre preenchimento de ruído e extensão da largura de banda |
KR100921867B1 (ko) * | 2007-10-17 | 2009-10-13 | 광주과학기술원 | 광대역 오디오 신호 부호화 복호화 장치 및 그 방법 |
US8249883B2 (en) * | 2007-10-26 | 2012-08-21 | Microsoft Corporation | Channel extension coding for multi-channel source |
AU2008326956B2 (en) * | 2007-11-21 | 2011-02-17 | Lg Electronics Inc. | A method and an apparatus for processing a signal |
WO2009078093A1 (ja) * | 2007-12-18 | 2009-06-25 | Fujitsu Limited | 非音声区間検出方法及び非音声区間検出装置 |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
KR101413968B1 (ko) * | 2008-01-29 | 2014-07-01 | 삼성전자주식회사 | 오디오 신호의 부호화, 복호화 방법 및 장치 |
US8326641B2 (en) * | 2008-03-20 | 2012-12-04 | Samsung Electronics Co., Ltd. | Apparatus and method for encoding and decoding using bandwidth extension in portable terminal |
US8768690B2 (en) * | 2008-06-20 | 2014-07-01 | Qualcomm Incorporated | Coding scheme selection for low-bit-rate applications |
US20090319263A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
USRE47180E1 (en) * | 2008-07-11 | 2018-12-25 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating a bandwidth extended signal |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US7911975B2 (en) * | 2008-08-26 | 2011-03-22 | International Business Machines Corporation | System and method for network flow traffic rate encoding |
WO2010028292A1 (en) * | 2008-09-06 | 2010-03-11 | Huawei Technologies Co., Ltd. | Adaptive frequency prediction |
US8407046B2 (en) * | 2008-09-06 | 2013-03-26 | Huawei Technologies Co., Ltd. | Noise-feedback for spectral envelope quantization |
US8515747B2 (en) * | 2008-09-06 | 2013-08-20 | Huawei Technologies Co., Ltd. | Spectrum harmonic/noise sharpness control |
WO2010028297A1 (en) * | 2008-09-06 | 2010-03-11 | GH Innovation, Inc. | Selective bandwidth extension |
WO2010031003A1 (en) * | 2008-09-15 | 2010-03-18 | Huawei Technologies Co., Ltd. | Adding second enhancement layer to celp based core layer |
US8577673B2 (en) * | 2008-09-15 | 2013-11-05 | Huawei Technologies Co., Ltd. | CELP post-processing for music signals |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010070770A1 (ja) * | 2008-12-19 | 2010-06-24 | 富士通株式会社 | 音声帯域拡張装置及び音声帯域拡張方法 |
CN101604525B (zh) * | 2008-12-31 | 2011-04-06 | 华为技术有限公司 | 基音增益获取方法、装置及编码器、解码器 |
AU2010209673B2 (en) | 2009-01-28 | 2013-05-16 | Dolby International Ab | Improved harmonic transposition |
BR122019023712B1 (pt) | 2009-01-28 | 2020-10-27 | Dolby International Ab | sistema para gerar um sinal de áudio saída a partir de um sinal de áudio de entrada usando um fator de transposição t, método para transpor um sinal de áudio de entrada por um fator de transposição t e meio de armazenamento |
CN102460574A (zh) * | 2009-05-19 | 2012-05-16 | 韩国电子通信研究院 | 用于使用层级正弦脉冲编码对音频信号进行编码和解码的方法和设备 |
KR101405022B1 (ko) | 2009-09-18 | 2014-06-10 | 돌비 인터네셔널 에이비 | 입력 신호를 전위시키기 위한 시스템 및 방법, 상기 방법을 수행하는 소프트웨어 프로그램 및 컴퓨터 프로그램 제품을 포함하는 저장 매체 |
CN105374362B (zh) * | 2010-01-08 | 2019-05-10 | 日本电信电话株式会社 | 编码方法、解码方法、编码装置、解码装置以及记录介质 |
CN102714040A (zh) * | 2010-01-14 | 2012-10-03 | 松下电器产业株式会社 | 编码装置、解码装置、频谱变动量计算方法和频谱振幅调整方法 |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
JP5651980B2 (ja) * | 2010-03-31 | 2015-01-14 | ソニー株式会社 | 復号装置、復号方法、およびプログラム |
US12002476B2 (en) | 2010-07-19 | 2024-06-04 | Dolby International Ab | Processing of audio signals during high frequency reconstruction |
JP5593244B2 (ja) * | 2011-01-28 | 2014-09-17 | 日本放送協会 | 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体 |
US9767823B2 (en) | 2011-02-07 | 2017-09-19 | Qualcomm Incorporated | Devices for encoding and detecting a watermarked signal |
US9767822B2 (en) * | 2011-02-07 | 2017-09-19 | Qualcomm Incorporated | Devices for encoding and decoding a watermarked signal |
RU2562771C2 (ru) * | 2011-02-16 | 2015-09-10 | Долби Лабораторис Лайсэнзин Корпорейшн | Способы и системы генерирования коэффициентов фильтра и конфигурирования фильтров |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
KR102060208B1 (ko) * | 2011-07-29 | 2019-12-27 | 디티에스 엘엘씨 | 적응적 음성 명료도 처리기 |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
RU2504790C1 (ru) * | 2012-05-24 | 2014-01-20 | Открытое акционерное общество "Российская корпорация ракетно-космического приборостроения и информационных систем" (ОАО "Российские космические системы") | Способ и устройство поиска и обнаружения сигналов |
KR101340048B1 (ko) * | 2012-06-12 | 2013-12-11 | (주)에프씨아이 | 스펙트럼 반전 검출 장치 및 방법 |
CN103928031B (zh) | 2013-01-15 | 2016-03-30 | 华为技术有限公司 | 编码方法、解码方法、编码装置和解码装置 |
WO2014209434A1 (en) * | 2013-02-15 | 2014-12-31 | Max Sound Corporation | Voice enhancement methods and systems |
US9236058B2 (en) * | 2013-02-21 | 2016-01-12 | Qualcomm Incorporated | Systems and methods for quantizing and dequantizing phase information |
CA2908625C (en) * | 2013-04-05 | 2017-10-03 | Dolby International Ab | Audio encoder and decoder |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3008641A1 (en) | 2013-06-09 | 2016-04-20 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP2830064A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection |
US9418671B2 (en) * | 2013-08-15 | 2016-08-16 | Huawei Technologies Co., Ltd. | Adaptive high-pass post-filter |
US20150149157A1 (en) * | 2013-11-22 | 2015-05-28 | Qualcomm Incorporated | Frequency domain gain shape estimation |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US10163447B2 (en) * | 2013-12-16 | 2018-12-25 | Qualcomm Incorporated | High-band signal modeling |
US9697843B2 (en) * | 2014-04-30 | 2017-07-04 | Qualcomm Incorporated | High band excitation signal generation |
FR3020732A1 (fr) * | 2014-04-30 | 2015-11-06 | Orange | Correction de perte de trame perfectionnee avec information de voisement |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
AU2015266863B2 (en) | 2014-05-30 | 2018-03-15 | Apple Inc. | Multi-command single utterance input method |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9583115B2 (en) * | 2014-06-26 | 2017-02-28 | Qualcomm Incorporated | Temporal gain adjustment based on high-band signal characteristic |
CN106486129B (zh) * | 2014-06-27 | 2019-10-25 | 华为技术有限公司 | 一种音频编码方法和装置 |
EP2960903A1 (en) | 2014-06-27 | 2015-12-30 | Thomson Licensing | Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values |
JP5892395B2 (ja) * | 2014-08-06 | 2016-03-23 | ソニー株式会社 | 符号化装置、符号化方法、およびプログラム |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10061554B2 (en) * | 2015-03-10 | 2018-08-28 | GM Global Technology Operations LLC | Adjusting audio sampling used with wideband audio |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20170069306A1 (en) * | 2015-09-04 | 2017-03-09 | Foundation of the Idiap Research Institute (IDIAP) | Signal processing method and apparatus based on structured sparsity of phonological features |
CN107924683B (zh) | 2015-10-15 | 2021-03-30 | 华为技术有限公司 | 正弦编码和解码的方法和装置 |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
PT3696813T (pt) | 2016-04-12 | 2022-12-23 | Fraunhofer Ges Forschung | Codificador de áudio para codificar um sinal de áudio, método para codificar um sinal de áudio e programa de computador sob consideração de uma região espectral de pico detetada numa banda de frequência superior |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10264116B2 (en) * | 2016-11-02 | 2019-04-16 | Nokia Technologies Oy | Virtual duplex operation |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
TWI594231B (zh) * | 2016-12-23 | 2017-08-01 | 瑞軒科技股份有限公司 | 分頻壓縮電路,音訊處理方法以及音訊處理系統 |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10825467B2 (en) * | 2017-04-21 | 2020-11-03 | Qualcomm Incorporated | Non-harmonic speech detection and bandwidth extension in a multi-source environment |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US11876659B2 (en) | 2017-10-27 | 2024-01-16 | Terawave, Llc | Communication system using shape-shifted sinusoidal waveforms |
WO2019084565A1 (en) * | 2017-10-27 | 2019-05-02 | Terawave, Llc | RECEIVER FOR A SPECTRAL HIGH-PERFORMANCE DATA COMMUNICATION SYSTEM USING SINUSOIDAL CODED WAVEFORMS |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
EP3742443B1 (en) * | 2018-01-17 | 2022-08-03 | Nippon Telegraph And Telephone Corporation | Decoding device, method and program thereof |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
CN110365615A (zh) * | 2018-03-26 | 2019-10-22 | 晨星半导体股份有限公司 | 载波频偏估测装置与载波频偏估测方法 |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
CN110660402B (zh) | 2018-06-29 | 2022-03-29 | 华为技术有限公司 | 立体声信号编码过程中确定加权系数的方法和装置 |
EP3671741A1 (en) * | 2018-12-21 | 2020-06-24 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Audio processor and method for generating a frequency-enhanced audio signal using pulse processing |
RU2713750C1 (ru) * | 2019-07-26 | 2020-02-07 | Федеральное государственное автономное образовательное учреждение высшего образования "Дальневосточный федеральный университет" (ДВФУ) | Способ когерентной разнесенной передачи сигнала |
US11380343B2 (en) | 2019-09-12 | 2022-07-05 | Immersion Networks, Inc. | Systems and methods for processing high frequency audio signal |
KR102201169B1 (ko) * | 2019-10-23 | 2021-01-11 | 성균관대학교 산학협력단 | 메타 표면의 반사 계수를 제어하기 위한 시간 부호 생성 방법, 메타 표면의 반사 계수를 제어하기 위한 시공간 부호 생성 방법, 이를 실행하는 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능한 기록매체, 및 이를 이용한 메타 표면의 신호 변조 방법 |
CN111510555B (zh) * | 2020-04-03 | 2021-04-02 | 厦门亿联网络技术股份有限公司 | 一种dect基站通信方法、装置及系统 |
CN111769901B (zh) * | 2020-05-12 | 2023-04-14 | 厦门亿联网络技术股份有限公司 | 一种传输数据帧的dect基站、移动终端及系统 |
CN113270105B (zh) * | 2021-05-20 | 2022-05-10 | 东南大学 | 一种基于混合调制的类语音数据传输方法 |
CN114333862B (zh) * | 2021-11-10 | 2024-05-03 | 腾讯科技(深圳)有限公司 | 音频编码方法、解码方法、装置、设备、存储介质及产品 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69232202T2 (de) | 1991-06-11 | 2002-07-25 | Qualcomm Inc | Vocoder mit veraendlicher bitrate |
JPH06337153A (ja) | 1993-05-28 | 1994-12-06 | Toshiba Corp | 空気調和機 |
KR100560712B1 (ko) * | 1997-06-19 | 2006-03-16 | 가부시끼가이샤 도시바 | 정보데이터 다중화 전송시스템과 그 다중화장치 및 분리장치와,에러정정 부호화장치 및 복호장치 |
KR100273288B1 (ko) * | 1998-04-09 | 2000-12-15 | 김영환 | 디스플레이 패널용 데이터 제어 장치 |
FI991605A (fi) | 1999-07-14 | 2001-01-15 | Nokia Networks Oy | Menetelmä puhekodaukseen ja puhekoodaukseen tarvittavan laskentakapasi teetin vähentämiseksi ja verkkoelementti |
US6567876B1 (en) * | 1999-12-03 | 2003-05-20 | Hewlett-Packard Development Company, L.P. | Docking PCI to PCI bridge using IEEE 1394 link |
US6584438B1 (en) | 2000-04-24 | 2003-06-24 | Qualcomm Incorporated | Frame erasure compensation method in a variable rate speech coder |
US7330814B2 (en) * | 2000-05-22 | 2008-02-12 | Texas Instruments Incorporated | Wideband speech coding with modulated noise highband excitation system and method |
US6631139B2 (en) * | 2001-01-31 | 2003-10-07 | Qualcomm Incorporated | Method and apparatus for interoperability between voice transmission systems during speech inactivity |
US6804340B2 (en) * | 2001-05-03 | 2004-10-12 | Raytheon Company | Teleconferencing system |
US20030172114A1 (en) | 2001-10-24 | 2003-09-11 | Leung Nikolai K. N. | Method and apparatus for data packet transport in a wireless communication system using an internet protocol |
CA2392640A1 (en) | 2002-07-05 | 2004-01-05 | Voiceage Corporation | A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems |
CA2501368C (en) | 2002-10-11 | 2013-06-25 | Nokia Corporation | Methods and devices for source controlled variable bit-rate wideband speech coding |
US7657427B2 (en) | 2002-10-11 | 2010-02-02 | Nokia Corporation | Methods and devices for source controlled variable bit-rate wideband speech coding |
US7254533B1 (en) * | 2002-10-17 | 2007-08-07 | Dilithium Networks Pty Ltd. | Method and apparatus for a thin CELP voice codec |
JP4047296B2 (ja) | 2004-03-12 | 2008-02-13 | 株式会社東芝 | 音声復号化方法及び音声復号化装置 |
WO2004090870A1 (ja) | 2003-04-04 | 2004-10-21 | Kabushiki Kaisha Toshiba | 広帯域音声を符号化または復号化するための方法及び装置 |
DE502005006899D1 (de) * | 2004-10-25 | 2009-04-30 | Bosch Gmbh Robert | Verfahren und vorrichtung zur trennung der abarbeitung von programmcode bei einem rechnersystem mit wenigstens zwei ausführungseinheiten |
AU2006232364B2 (en) | 2005-04-01 | 2010-11-25 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband speech coding |
CN2800435Y (zh) * | 2005-05-24 | 2006-07-26 | 鸿富锦精密工业(深圳)有限公司 | 一种便携式光盘播放器 |
US7177804B2 (en) * | 2005-05-31 | 2007-02-13 | Microsoft Corporation | Sub-band voice codec with multi-stage codebooks and redundant coding |
US7747669B2 (en) * | 2006-03-31 | 2010-06-29 | Intel Corporation | Rounding of binary integers |
-
2007
- 2007-02-21 US US11/677,173 patent/US8135047B2/en active Active
- 2007-07-30 TW TW096127832A patent/TWI384807B/zh active
- 2007-07-31 WO PCT/US2007/074900 patent/WO2008016947A2/en active Application Filing
- 2007-07-31 RU RU2009107164/09A patent/RU2421828C2/ru active
- 2007-07-31 EP EP07840620.4A patent/EP2047461B1/en active Active
- 2007-07-31 CA CA2657424A patent/CA2657424C/en active Active
- 2007-07-31 JP JP2009523028A patent/JP5437067B2/ja active Active
- 2007-07-31 KR KR1020097004320A patent/KR101058760B1/ko active IP Right Grant
- 2007-07-31 BR BRPI0714825-9A patent/BRPI0714825A2/pt not_active IP Right Cessation
- 2007-07-31 CN CN201410359582.2A patent/CN104123946B/zh active Active
-
2013
- 2013-05-22 JP JP2013108189A patent/JP2013210659A/ja not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
EP2047461A2 (en) | 2009-04-15 |
WO2008016947A2 (en) | 2008-02-07 |
KR20090035727A (ko) | 2009-04-10 |
CA2657424C (en) | 2013-05-28 |
JP5437067B2 (ja) | 2014-03-12 |
EP2047461B1 (en) | 2013-04-17 |
US8135047B2 (en) | 2012-03-13 |
US20080027711A1 (en) | 2008-01-31 |
KR101058760B1 (ko) | 2011-08-24 |
CA2657424A1 (en) | 2008-02-07 |
BRPI0714825A2 (pt) | 2013-05-21 |
RU2421828C2 (ru) | 2011-06-20 |
TWI384807B (zh) | 2013-02-01 |
WO2008016947A3 (en) | 2008-03-20 |
TW200816716A (en) | 2008-04-01 |
CN104123946A (zh) | 2014-10-29 |
RU2009107164A (ru) | 2010-09-10 |
CN104123946B (zh) | 2019-04-12 |
JP2010501080A (ja) | 2010-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5437067B2 (ja) | 音声信号に関連するパケットに識別子を含めるためのシステムおよび方法 | |
KR100956523B1 (ko) | 광대역 스피치 코딩을 위한 시스템, 방법, 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20131209 |