JP2016174383A - クリティカリティ閾値制御のためのシステム、方法、装置、およびコンピュータ可読媒体 - Google Patents

クリティカリティ閾値制御のためのシステム、方法、装置、およびコンピュータ可読媒体 Download PDF

Info

Publication number
JP2016174383A
JP2016174383A JP2016089359A JP2016089359A JP2016174383A JP 2016174383 A JP2016174383 A JP 2016174383A JP 2016089359 A JP2016089359 A JP 2016089359A JP 2016089359 A JP2016089359 A JP 2016089359A JP 2016174383 A JP2016174383 A JP 2016174383A
Authority
JP
Japan
Prior art keywords
frame
threshold
information
calculated
copy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016089359A
Other languages
English (en)
Other versions
JP6151405B2 (ja
Inventor
ベンカテシュ・クリシュナン
Krishnan Venkatesh
ダニエル・ジェイ.・シンダー
J Sinder Daniel
ビベク・ラジェンドラン
Rajendran Vivek
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2016174383A publication Critical patent/JP2016174383A/ja
Application granted granted Critical
Publication of JP6151405B2 publication Critical patent/JP6151405B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/0001Systems modifying transmission characteristics according to link quality, e.g. power backoff
    • H04L1/0009Systems modifying transmission characteristics according to link quality, e.g. power backoff by adapting the channel coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/0001Systems modifying transmission characteristics according to link quality, e.g. power backoff
    • H04L1/0014Systems modifying transmission characteristics according to link quality, e.g. power backoff by adapting the source coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/004Arrangements for detecting or preventing errors in the information received by using forward error control
    • H04L1/0056Systems characterized by the type of code used
    • H04L1/007Unequal error protection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/08Arrangements for detecting or preventing errors in the information received by repeating transmission, e.g. Verdan system
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • G10L19/107Sparse pulse excitation, e.g. by using algebraic codebook

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Traffic Control Systems (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Radio Relay Systems (AREA)
  • Telephone Function (AREA)

Abstract

【課題】音声フレーム内の情報のロスに対処するためのシステムおよび方法を提供する。【解決手段】タスクT100は、オーディオ信号内で第2のフレームに先行する第1のフレームのコーディング従属性の推定を計算し、タスクT200は、送信チャネルの状態に関連する情報に基づいて閾値を計算し、タスクT300において、計算された推定と計算された閾値とを比較し、その結果に基づいて、タスクT350は、第1のフレームの冗長コピーを送信することを決定する。【選択図】図4A

Description

米国特許法第119条に基づく優先権の主張
[0001]本特許出願は、2012年1月12日に出願され、本出願の譲受人に譲渡された「SYSTEMS,METHODS,APPARATUS,AND COMPUTER−READABLE MEDIA FOR BIT ALLOCATION FOR REDUNDANT TRANSMISSION」と題する仮出願第61/586,007号の優先権を主張する。本特許出願はまた、2012年1月17日に出願され、本出願の譲受人に譲渡された「SYSTEMS, METHODS, APPARATUS, AND COMPUTER−READABLE MEDIA FOR CRITICALITY THRESHOLD CONTROL」と題する仮出願第61/587,507号の優先権を主張する。本特許出願はまた、2012年5月1日に出願され、本出願の譲受人に譲渡された「SYSTEMS,METHODS,APPARATUS,AND COMPUTER−READABLE MEDIA FOR BIT ALLOCATION FOR REDUNDANT TRANSMISSION」と題する仮出願第61/641,093号の優先権を主張する。
[0002]本開示は、オーディオ通信に関する。
[0003]デジタルオーディオ通信は、回線交換ネットワーク上で実行されてきた。回線交換ネットワークは、物理パスが呼の持続時間の間に2つの端末間に確立されるネットワークである。回線交換アプリケーションでは、送信端末が、オーディオ(たとえば、音声)情報を含む一連のパケットを物理パスを介して受信端末に送る。受信端末は、パケット内に含まれるオーディオ情報(たとえば、音声情報)を使用して、対応するオーディオ信号(たとえば、音声信号)を合成する。
[0004]デジタルオーディオ通信は、パケット交換ネットワーク上で実行されるように開始している。パケット交換ネットワークは、パケットが宛先アドレスに基づいてネットワークを介してルーティングされるネットワークである。パケット交換通信を用いて、ルータは、各パケットのためのパスを個別に決定し、その宛先に達するように、任意の利用可能なパスを通して各パケットを送る。その結果、パケットは、同時にまたは同じ順序で受信端末に到達することはない。パケットを元の順序に戻してそれらを連続的逐次方式で送り出す(play out)ために、受信端末内でデジッタバッファが使用され得る。
[0005]時として、パケットは、送信端末から受信端末に伝送中に失われる。失われたパケットは、合成オーディオ信号の品質を劣化させることがある。したがって、フレーム内(たとえば、音声フレーム内)の情報のロスに対処するためのシステムおよび方法を提供することによる利益が実現され得る。
[0006]一般的構成によるオーディオ信号処理の方法は、オーディオ信号内で第2のフレームに先行する第1のフレームに対するオーディオ信号の第2のフレームのコーディング従属性の推定を計算することを含む。この方法はまた、送信チャネルの状態に関連する情報に基づいて閾値を計算することを含む。この方法はまた、計算された推定と計算された閾値とを比較することと、前記比較することの結果に基づいて第1のフレームの冗長コピーを送信することを決定することとを含む。また、特徴を読み取る機械にそのような方法を実行させる有形特徴を有するコンピュータ可読記憶媒体(たとえば、非一時的媒体)が開示される。
[0007]一般的構成によるオーディオ信号処理のための装置は、オーディオ信号内で第2のフレームに先行する第1のフレームに対するオーディオ信号の第2のフレームのコーディング従属性の推定を計算するための手段を含む。この装置はまた、送信チャネルの状態に関連する情報に基づいて閾値を計算するための手段と、計算された推定と計算された閾値とを比較するための手段と、前記比較することの結果に基づいて第1のフレームの冗長コピーを送信することを決定するための手段とを含む。
[0008]別の一般的構成によるオーディオ信号処理のための装置は、オーディオ信号内で第2のフレームに先行する第1のフレームに対するオーディオ信号の第2のフレームのコーディング従属性の推定を計算するように構成された第1の計算器を含む。この装置はまた、送信チャネルの状態に関連する情報に基づいて閾値を計算するように構成された第2の計算器を含む。この装置はまた、(A)計算された推定と計算された閾値とを比較することと、(B)前記比較することの結果に基づいて第1のフレームの冗長コピーを送信することを決定することとを行うように構成されたモード選択器を含む。
[0009]ネットワークNW10を介して通信している送信端末102および受信端末104の一例を示すブロック図。 [0010]様々な端末デバイスを有するネットワークNW10の実装形態NW20のブロック図。 [0011]オーディオエンコーダAE10の実装形態AE20のブロック図。 [0012]フレームエンコーダFE10の実装形態FE20のブロック図。 [0013]一般的構成による方法M100のフローチャート。 [0014]方法M100の実装形態M110のフローチャート。 [0015]本明細書で説明する、チャネル状態情報と他のシステムパラメータとの間の関係の例を示す図。 本明細書で説明する、チャネル状態情報と他のシステムパラメータとの間の関係の例を示す図。 [0016]オーディオ信号の一連のフレームの一例を示す図。 [0017]方法M100の実装形態M120のフローチャート。 [0018]タスクT200の実装形態T210のフローチャート。 [0019]方法M100の実装形態M200のフローチャート。 [0020]方法M200の実装形態M210のフローチャート。 [0021]方法M110、M120、およびM210の実装形態M300のフローチャート。 [0022]IPv4パケットの図。 [0023]IPv6パケットの図。 [0024]通信デバイスD10のブロック図。 [0025]RTPパケットのペイロードの一例を示す図。 [0026]オーディオデコーダAD10の実装形態AD20のブロック図。 [0027]一般的構成による装置MF100のブロック図。 [0028]装置MF100の実装形態MF110のブロック図。 [0029]装置MF100の実装形態MF120のブロック図。 [0030]装置MF100の実装形態MF200のブロック図。 [0031]手段F200の実装形態F210のブロック図。 [0032]装置MF100の実装形態MF210のブロック図。 [0033]装置MF110、MF120およびMF210の実装形態MF300のブロック図。 [0034]一般的構成による装置AP100のブロック図。 [0035]装置AP100の実装形態AP110のブロック図。 [0036]第2の計算器A200の実装形態A210のブロック図。 [0037]装置AP100の実装形態AP120のブロック図。 [0038]第2の計算器A200の実装形態の一例A220のブロック図。 [0039]装置AP100の実装形態AP200のブロック図。 [0040]装置AP100の実装形態AP210のブロック図。 [0041]装置AP210実装形態AP220のブロック図。 [0042]装置AP110、AP120およびAP210の実装形態AP300のブロック図。 [0043]ワイヤレスデバイス1102のブロック図。 [0044]装置AP300の実装形態AP400のブロック図。 [0045]ハンドセットH100の正面図と、背面図と、側面図。
[0046]本明細書で開示するシステム、方法および装置は、閾値が音声フレームの再送信の頻度を制御するために使用される音声コーディング適用例のために、チャネル状態に基づいて1つまたは複数のクリティカリティ閾値を調節するように実施され得る。
[0047]文脈によって明確に限定されない限り、「信号」という用語は、本明細書では、ワイヤ、バス、または他の伝送媒体上に表された記憶場所(または記憶場所のセット)の状態を含む、その通常の意味のいずれをも示すのに使用される。文脈によって明確に限定されない限り、「発生(generating)」という用語は、本明細書では、計算(computing)または別様の生成(producing)など、その通常の意味のいずれをも示すのに使用される。文脈によって明確に限定されない限り、「計算(calculating)」という用語は、本明細書では、複数の値からの計算(computing)、評価、平滑化、および/または選択など、その通常の意味のいずれをも示すのに使用される。文脈によって明確に限定されない限り、「得る(obtaining)」という用語は、計算、導出、(たとえば、外部デバイスからの)受信、および/または(たとえば、記憶素子のアレイからの)取り出しなど、その通常の意味のいずれをも示すのに使用される。文脈によって明確に限定されない限り、「選択(selecting)」という用語は、2つ以上のセットのうちの少なくとも1つ、かつすべてよりも少数を識別、指示、適用、および/または使用することなど、その通常の意味のいずれをも示すのに使用される。「備える(comprising)」という用語は、本明細書と特許請求の範囲とにおいて使用される場合、他の要素または動作を除外するものではない。「に基づく」(「AはBに基づく」など)という用語は、(i)「から導出される」(たとえば、「BはAの前の形である」)、(ii)「少なくとも〜に基づく」(たとえば、「Aは少なくともBに基づく」)、および特定の文脈で適当な場合に、(iii)「に等しい」(たとえば、「AはBに等しい」)という場合を含む、その通常の意味のいずれをも示すのに使用される。同様に、「に応答して」という用語は、「少なくとも〜に応答して」を含む、その通常の意味のいずれをも示すのに使用される。別段に規定されていない限り、「A、BおよびCのうちの少なくとも1つ」および「A、BおよびCのうちの1つまたは複数」という用語は、「Aおよび/またはBおよび/またはC」を示す。
[0048]別段に規定されていない限り、「一連」という用語は、2つ以上のアイテムのシーケンスを示すのに使用される。「対数」という用語は、10を底とする対数を示すのに使用されるが、他の底へのそのような演算の拡張は本開示の範囲内である。「周波数成分」という用語は、(たとえば、高速フーリエ変換またはMDCTによって生成される)信号の周波数領域表現のサンプル、あるいは信号のサブバンド(たとえば、バーク尺度またはメル尺度サブバンド)など、信号の周波数または周波数帯域のセットのうちの1つを示すのに使用される。
[0049]別段に規定されていない限り、特定の特徴を有する装置の動作のいかなる開示も、類似の特徴を有する方法を開示する(その逆も同様)ことをも明確に意図し、特定の構成による装置の動作のいかなる開示も、類似の構成による方法を開示する(その逆も同様)ことをも明確に意図する。「構成」という用語は、その具体的な文脈によって示されるように、方法、装置、および/またはシステムに関して使用され得る。「方法」、「処理」、「手順」、および「技法」という用語は、具体的な文脈によって別段に規定されていない限り、一般的、互換的に使用される。複数のサブタスクを有する「タスク」もまた一方法である。「装置」および「デバイス」という用語も、特定の文脈によって別段に規定されていない限り、一般的、互換的に使用される。「要素」および「モジュール」という用語は、一般に、より大きい構成の一部分を示すのに使用される。文脈によって明確に限定されない限り、「システム」という用語は、本明細書では、「共通の目的を果たすために相互作用する要素のグループ」を含む、その通常の意味のいずれをも示すのに使用される。「複数の」という用語は、「2つ以上の」を意味する。また、文書の一部分の参照によるいかなる組込みも、その部分内で参照される用語または変数の定義が、その文書中の他の場所、ならびに組み込まれた部分中で参照される図に現れた場合、そのような定義を組み込んでいることを理解されたい。
[0050]別段の指示がない限り、「コーデック」、「ボコーダ」、「オーディオコーダ」、および「音声コーダ」という用語は、オーディオエンコーダと対応するオーディオデコーダとの組合せを指す。別段の指示がない限り、「コーディング」という用語は、符号化および後続の復号を含めて、コーデックを介するオーディオ信号の転移(transfer)を示す。別段の指示がない限り、「送信」という用語は、送信チャネルへの(たとえば、信号の)伝搬を示す。
[0051]本明細書で説明するコーディング方式は、(たとえば非音声オーディオを含む)任意のオーディオ信号をコーディングするために適用され得る。あるいは、そのようなコーディング方式を音声にのみ使うのが望ましいことがある。そのような場合、そのコーディング方式を分類方式とともに使って、音声信号の各フレームの内容の種類を判定し、適切なコーディング方式を選択することができる。
[0052]本明細書で説明されるコーディング方式は、主要なコーデックとして、またはマルチレイヤ内のレイヤもしくはステージとして、またはマルチステージコーデックとして使われ得る。1つのそのような例では、音声信号の周波数成分の一部(たとえば、低域または高域)をコーディングするのにそのようなコーディング方式が使われ、信号の周波数成分の別の部分をコーディングするのに別のコーディング方式が使われる。別のそのような例では、そのようなコーディング方式は、線形予測コーディング(LPC)分析動作の残差など、別のコーディングレイヤの残差(すなわち、元の信号と符号化された信号との間の誤差)であるオーディオ信号をコーディングするために使用される。
[0053]本明細書で説明する方法、システム、および装置は、オーディオ信号を一連のセグメントとして処理するように構成され得る。典型的なセグメント長は約5または10ミリ秒から約40または50ミリ秒にわたり、セグメントは、重複しても(たとえば、隣接するセグメントが25%または50%だけ重複する)、重複しなくてもよい。1つの特定の例では、オーディオ信号は、10ミリ秒の長さをそれぞれ有する一連の重複しないセグメントまたは「フレーム」に分割される。別の特定の例では、各フレームは20ミリ秒の長さを有する。オーディオ信号に対するサンプリングレートの例は、8、12、16、32、44.1、48および192キロヘルツを(制限なしに)含む。
[0054]オーディオ通信アプリケーションは、パケット交換ネットワーク内で実装され得る。たとえば、オーディオ通信アプリケーションは、ボイスオーバインターネットプロトコル(VoIP)ネットワーク内で実装され得る。パケットは、符号化されたオーディオ信号の1つまたは複数のフレームを含み、オーディオ(たとえば、音声)情報を有するパケットは、ネットワーク上で第1のデバイスから第2のデバイスに送信され得る。しかしながら、パケットのうちのいくつかは、パケットの送信中に失われることがある。たとえば、複数のパケットのロス(ときに、バースト的パケットロスと呼ばれる)が、受信デバイスにおける知覚的音声品質の劣化の理由となることがある。
[0055]VoIPネットワーク内のパケットロスによって引き起こされる知覚的音声品質の劣化を緩和するために、2つのタイプの解法が存在する。第1の解法は、受信側ベースのパケットロス隠蔽(PLC:packet loss concealment)手法である。PLC法は、VoIP通信におけるパケットロスの影響をマスキングするために使用され得る。たとえば、PLC法は、送信中に失われたパケットの代わりに代替パケットを生成するように実施され得る。そのようなPLC法は、失われたパケットに可能な限り類似するパケットを生成することを試行し得る。受信側ベースのPLC法は、代替パケットを生成するために、送信側からの追加のリソースまたは支援をまったく必要としない。しかしながら、重要な音声フレームが失われるときは、PLC法は、パケットロスの影響をマスキングするには不十分であることがある。
[0056]第2の解法は、送信側ベースのパケットロス復元手法(packet loss resilient approach)である。そのような手法は、各パケットとともにいくつかの追加のデータを送ることを含み得る前方誤り訂正(FEC)法を含む。追加のデータは、送信中のデータのロスによって引き起こされる誤りを修復するために使用され得る。たとえば、FEC方式は、冗長オーディオフレームを送信し得る。言い換えれば、オーディオフレームの2つ以上のコピー(典型的には2つ)が、送信側によって送信される。これら2つのフレームは、主コピーおよび冗長コピーと呼ばれることがある。
[0057]送信側ベースのパケットロス復元方式は、復号された音声の知覚品質を改善し得るが、これらの方式はまた、音声の送信中に使用される帯域幅を増加させることがある。従来からのFEC方式はまた、実時間の会話にとって許容できないエンドツーエンド遅延を増加させることがある。たとえば、従来の送信側ベースの方式は、2つ異なる時間期間において2回、同じ音声フレームを送る。この手法は、データレートを少なくとも二倍にする。いくつかの従来の方式は、データレートを低減するために、冗長コピーに対して低ビットレートコーデックを使用することがある。しかしながら、低ビットレートコーデックの使用は、エンコーダの複雑さを増すことがある。加えて、いくつかの従来の方式は、フレームの主コピーとフレームの冗長コピーの両方に対して同じ低ビットレートコーデックを使用することがある。この手法は、エンコーダの複雑さを低減するだけでなく、データレートも低減し得るが、基本的な音声品質(すなわち、フレームが失われないときの音声品質)が、大幅に低下することがある。さらに、従来の送信側ベースの方式は、一般に、少なくとも1つのフレーム間隔の追加の遅延を前提として動作する。
[0058]本明細書で説明するシステム、方法、および装置は、音声品質と、遅延およびデータレートとの間の最適なトレードオフを得るために、ソース制御およびチャネル制御FEC方式を提供するように実施され得る。FEC方式は、追加の遅延が導入されないように構成され得る。適度のデータレート増の下で音声品質の高い品質改善が達成され得る。本明細書で説明するFEC方式はまた、任意の目標データレートにおいて動作することができる。一例では、FEC方式および目標データレートは、送信チャネルの条件ならびに外部制御に基づいて適応的に調節され得る。提案されるFEC方式はまた、レガシー通信デバイス(たとえば、レガシーハンドセット)と互換性があるように実施され得る。
[0059]オーディオ(たとえば、音声)通信のためのいくつかのコーデックに対して、各フレームを符号化するのに使用されるビットの総数は、所定の定数である。そのようなコーデックの例には、適応マルチレート(AMR)音声コーデック(たとえば、3GPP(登録商標)技術仕様(TS)26.071、バージョン11.0.0、2012年9月、欧州電気通信標準化機構(ETSI)、www−dot−esti−dot−org、フランス、ソフィア・アンティポリスから入手可能、に記載されている)と、AMR広帯域音声コーデック(たとえば、ITU−T勧告G.722.2、2003年7月、国際電気通信連合、www−dot−itu−dot−int、および/または3GPP技術仕様26.190v11.0.0(2012年9月)、ETSIから入手可能、に記載されている)とが含まれ、ビット数は、フレームに対して選択されたコーディングモードによって決定される。そのような場合には、過去のフレームの冗長コピーを送信することは、現在フレーム内の信号情報をコーディングするために利用可能なビット数において、対応する低減を必要とすることがある。この低減は、復号された音声の知覚品質に悪影響を及ぼすことがある。
[0060]冗長コピーがクリティカルフレームに対してのみ送信される、柔軟性のある手法を実施することが望ましい。「クリティカルフレーム」は、そのロスが、復号された信号の知覚品質に重大な影響を及ぼすことが予測されるフレームである。その上、冗長コピーを現在のフレーム上にピギーバッキングする影響が最小であると予測される場合だけ、そのような冗長コピーを送信することが望ましい。固定ビットレートシステムに対して、現在のフレームをコーディングするために使用されるビット数および過去のフレームの冗長コピー(たとえば、部分コピー)をコーディングするために使用されるビット数の合計が、目標の固定ビットレートTと適合するように、現在のフレームをコーディングするために使用されるビット数を決定することが望ましい。
[0061]図1は、送信チャネルTC10およびRC10を介してネットワークNW10上で通信する送信端末102および受信端末104の一例を示すブロック図である。端末102および104の各々は、本明細書で説明する方法を実行するように、および/または本明細書で説明する装置を含むように実装され得る。送信端末102および受信端末104は、電話(たとえば、スマートフォン)、コンピュータ、オーディオブロードキャストおよび受信機器、ビデオ会議機器などを含む、音声通信をサポートすることが可能な任意のデバイスであり得る。送信端末102および受信端末104は、たとえば、符号分割多元接続(CDMA)機能など、ワイヤレス多元接続技術を用いて実装され得る。CDMAは、スペクトラム拡散通信に基づく変調および多元接続方式である。
[0062]送信端末102はオーディオエンコーダAE10を含み、受信端末104はオーディオデコーダAD10を含む。オーディオエンコーダAE10は、人間音声発生モデルに従ってパラメータ値を抽出することによって、第1のユーザインターフェースUI10(たとえば、マイクロフォンおよびオーディオフロントエンド)からのオーディオ情報(たとえば、音声)を圧縮するために使用され得る。チャネルエンコーダCE10は、パラメータ値をパケットにアセンブルし、送信機TX10は、これらのパラメータ値を含むパケットをネットワークNW10上で送信し、NW10は、送信チャネルTC10を介する、インターネットまたは企業イントラネットなどのパケットベースネットワークを含み得る。送信チャネルTC10は、ワイヤードおよび/またはワイヤレス送信チャネルであってよく、チャネルの品質が、いかにしてどこで決定されるかに応じて、ネットワークNW10のエントリポイント(たとえば、基地局コントローラ)、ネットワークNW10の別のエンティティ(たとえば、チャネル品質分析器)、および/または受信端末104の受信機RX10まで延びるものと考えられ得る。
[0063]受信端末104の受信機RX10は、送信チャネルを介してネットワークNW10からのパケットを受信するために使用される。チャネルデコーダCD10は、パラメータ値を得るためにパケットを復号し、オーディオデコーダAD10は、パケットからのパラメータ値を使用してオーディオ情報を合成する。合成されたオーディオ(たとえば、音声)は、受信端末104上の第2のユーザインターフェースUI20(たとえば、オーディオ出力ステージおよび拡声器)に供給される。図示しないが、様々な信号処理機能が、チャネルエンコーダCE10およびチャネルデコーダCD10内で(たとえば、サイクリック冗長検査(CRC)機能、インターリービングを含む畳み込みコーディングを)、また、送信機TX10および受信機RX10内で(たとえば、デジタル変調および対応する復調、スペクトラム拡散処理、アナログデジタル変換およびデジタルアナログ変換を)実行され得る。
[0064]通信に対する各パーティーは、送信だけでなく受信もでき、各端末はオーディオエンコーダAE10およびデコーダAD10のインスタンスを含み得る。オーディオエンコーダおよびデコーダは、個別のデバイスであってよく、または「ボイスコーダ」もしくは「ボコーダ」として知られる単一のデバイスに組み込まれてもよい。図1に示すように、端末102、104は、ネットワークNW10の一端末におけるオーディオエンコーダAE10と、他の端末におけるオーディオデコーダAD10とともに説明されている。
[0065]送信端末102の少なくとも1つの構成では、オーディオ信号(たとえば、音声)は、第1のユーザインターフェースUI10からオーディオエンコーダAE10にフレームで入力され得、各フレームはサブフレームにさらに区分される。そのような任意のフレーム境界は、何らかのブロック処理が実行される場合に使用され得る。しかしながら、そのようにオーディオサンプルをフレーム(およびサブフレーム)に区分することは、ブロック処理ではなく連続処理が実施される場合は省略され得る。説明する例では、ネットワークNW10上で送信された各パケットは、特定の適用例および全体的な設計制約に応じて1つまたは複数のフレームを含み得る。
[0066]オーディオエンコーダAE10は、可変レートまたは単一固定レートのエンコーダであってよい。可変レートエンコーダは、オーディオコンテンツに応じて(たとえば、音声が存在するかどうかおよび/またはどのタイプの音声が存在するかに応じて)、複数のエンコーダモード(たとえば、異なる固定レート)の間でフレームからフレームに動的に切り替え得る。オーディオデコーダAD10はまた、対応する方式において、対応するデコーダモードの間でフレームからフレームに動的に切り替え得る。受信端末104において許容できる信号再生品質を維持しながら、可能な最低のビットレートを各フレームが達成するために、特定のモードが選択され得る。
[0067]受信端末104はまた、チャネル状態情報120を送信端末102にフィードバックすることができる。1つのそのような例では、受信端末104は、送信端末102からパケットを搬送する送信チャネルの品質に関連する情報を収集するように構成される。受信端末104は、収集された情報を使用してチャネルの品質を推定する。次いで、収集された情報および/またはチャネル品質推定は、チャネル状態情報120として送信端末102にフィードバックされ得る。図1に示すように、たとえば、チャネルエンコーダCE10のインスタンスCE11は、(たとえば、オーディオデコーダAD10から)収集された情報および/または品質推定を、送信機TX10のインスタンスTX11および送信端末102に戻る送信チャネルRC10を介する送信用のパケットにアセンブルし得、送信端末102で、パケットは受信機RX10のインスタンスRX11によって受信され、チャネルデコーダCD10のインスタンスCD11によって逆アセンブルされ、情報および/または推定がオーディオエンコーダAE10に供給される。送信端末102(たとえば、オーディオエンコーダAE10)は、チャネル状態情報120を使用して、本明細書で説明する送信側ベースのパケットロス復元方式に関連する1つまたは複数の機能(たとえば、クリティカリティ閾値)に適合させ得る。
[0068]図2Aは、無線アップリンクおよびダウンリンク送信チャネル上で移動局と通信するトランシーバ基地局BTS1〜BTS3を含むネットワークNW10の実装形態NW20の一例を示す。ネットワークNW20はまた、公衆交換電話網PSTNおよびインターネットINTに接続されたコアネットワークCNW1と、やはりインターネットINTに接続されたコアネットワークCNW2とを含む。ネットワークNW20はまた、トランシーバ局をコアネットワークとインターフェース接続する基地局コントローラBSC1〜BSC3を含む。ネットワークNW20は、端末デバイス間にパケット交換通信を提供するように実施され得る。コアネットワークCNW1はまた、トランシーバ基地局BTS1、BTS2を介して端末デバイスMS1とMS2との間、および/またはそのような端末デバイスとPSTN上の端末デバイスとの間に回線交換通信を提供し得る。
[0069]図2Aはまた、ネットワークNW20を介して(たとえば、パケット交換通信リンク上で)互いに通信し得る異なる端末デバイスの例、すなわち、移動局MS1〜MS3、ボイスオーバIP(VoIP)電話VP、および電気通信プログラム(たとえば、マイクロソフトスカイプ部門、LUからのスカイプソフトウェア)を実行するように構成されるコンピュータCPを示す。端末デバイスMS1〜MS3、VP、およびCPのいずれかは、送信端末102のインスタンスと受信端末104のインスタンスとを含むように実施され得る。移動デバイスMS1〜MS3は、ワイヤレス無線アップリンクおよびダウンリンク送信チャネルを介してネットワークと通信する。端末VPおよびCPは、ワイヤード送信チャネル(たとえば、イーサネット(登録商標)ケーブル)および/またはワイヤレス送信チャネル(たとえば、IEEE 802.11または「WiFi」リンク)を介してネットワークと通信する。ネットワークNW20はまた、ゲートウェイおよび/またはTRAU(トランスコーダおよびレートアダプタユニット)など、中間エンティティを含み得る。
[0070]オーディオエンコーダAE10は、一般に、入力信号を一連の重複しない時間のセグメントすなわち「フレーム」として処理し、新しい符号化されたフレームが、各フレームに対して計算される。フレーム期間は、概して、信号が局所的に静止していることが予測され得る期間であり、一般的な例は、20ミリ秒(16kHzのサンプリングレートで320サンプル、12.8kHzのサンプリングレートで256サンプル、または8kHzのサンプリングレートで160サンプルに相当)と10ミリ秒とを含む。また、入力信号を一連の重複するフレームとして処理するようにオーディオエンコーダAE10を実装することが可能である。
[0071]図2Bは、フレームエンコーダFE10を含むオーディオエンコーダAE10の実装形態AE20のブロック図を示す。フレームエンコーダFE10は、入力信号の一連のフレームCF(「コアオーディオフレーム」)の各々を符号化して、一連の符号化されたオーディオフレームEFのうちの対応する1つを作成するように構成される。オーディオエンコーダAE10はまた、入力信号をフレームに分割すること、およびフレームエンコーダFE10に対するコーディングモードを選択すること(たとえば、タスクT400に関して本明細書で説明するように、初期ビット割振りの再割振りを選択すること)など、追加のタスクを実行するように実施され得る。コーディングモード(たとえば、レート制御)を選択することは、音声活動検出(VAD)を実行することおよび/またはそれ以外にフレームのオーディオコンテンツを分類することを含むことがある。この例では、オーディオエンコーダAE20はまた、コアオーディオフレームCFを処理して、音声活動検出信号VS(たとえば、3GPP TS26.194v11.0.0、2012年9月、ETSIで入手可能、に記載されている)を作成するように構成された音声活動検出器VAD10を含む。
[0072]フレームエンコーダFE10は、一般に、(A)フィルタを記述するパラメータのセット、および(B)記述されたフィルタを駆動してオーディオフレームの合成された再生を作成するためにデコーダにおいて使用される励振信号、として入力オーディオ信号の各フレームを符号化するソースフィルタモデルに従って実装される。音声信号のスペクトルエンベロープは、一般に、声道(たとえば、喉および口の)の共鳴を表し、ホルマントと呼ばれるピークによって特徴づけられる。たいていの音声コーダは、少なくともこの粗いスペクトル構造をフィルタ係数などのパラメータのセットとして符号化する。残りの残留信号は、フィルタを駆動して音声信号を作成し、一般にその強度およびピッチによって特徴づけられるソース(たとえば、声帯によって作成される)としてモデル化され得る。
[0073]フレームエンコーダFE10は、一般に、コードブックベース方式(たとえば、コードブック励振線形予測すなわちCELP)および/またはプロトタイプ波形補間(PWI)方式(たとえば、プロトタイプピッチ期間すなわちPPP)を実行するように実施されるが、フレームエンコーダFE10はまた、他の方式(たとえば、正弦曲線音声コーディングおよび/または変換ベースコーディング)を実行するように実施され得る。符号化されたフレームFEを作成するためにフレームエンコーダFE10によって使用され得る符号化方式の特定の例は、制限なしに、G.726、G.728、G.729A、AMR、AMR−WB、AMR−WB+(たとえば、3GPP TS26.290 v11.0.0、2012年9月(ETSIから入手可能)に記載されている)と、VMR−WB(たとえば、第3世代パートナーシッププロジェクト2(3GPP2)文書C.S0052−A v1.0、2005年4月(www-dot-3gpp2-dot-orgにおいてオンラインで入手可能)に記載されている)と、拡張可変レートコーデック(EVRC:Enhanced Variable Rate Codec、3GPP2文書C.S0014−E v1.0、2011年12月(www-dot-3gpp2-dot-orgにおいてオンラインで入手可能)に記載されている)と、選択可能モードボコーダ音声コーデック(3GPP2文書C.S0030−0,v3.0、2004年1月(www-dot-3gpp2-dot-orgにおいてオンラインで入手可能)に記載されている)と、拡張型音声サービスコーデック(EVS:Enhanced Voice Service codec、たとえば、3GPP TR 22.813 v10.0.0(2010年3月)、ETSIから入手可能、に記載されている)とを含む。
[0074]図3は、前処理モジュールPP10と、線形予測コーディング(LPC)分析モジュールLA10と、開ループピッチ探索モジュールOL10と、適応コードブック(ACB:adaptive codebook)探索モジュールAS10と、固定コードブック(FCB:fixed codebook)探索モジュールFS10と、利得ベクトル量子化(VQ)モジュールGV10とを含むフレームエンコーダFE10の基本的実装形態FE20のブロック図を示す。前処理モジュールPP10は、たとえば、3GPP TS26.190 v11.0.0の5.1節に記載されているように実装され得る。1つのそのような例では、前処理モジュールPP10は、コアオーディオフレーム(たとえば、16kHzから12.8kHzまで)のダウンサンプリングすることと、ダウンサンプリングされたフレームを(たとえば、50Hzの遮断周波数で)ハイパスフィルタ処理することと、フィルタ処理されたフレームのプリエンファシス(たとえば、一次ハイパスフィルタを使用)とを実行するように実装される。
[0075]線形予測コーディング(LPC)分析モジュールLAN10が、各コアオーディオフレームのスペクトルエンベロープを線形予測(LP)係数(たとえば、全極型フィルタ1/A(z)の係数)のセットとして符号化する。一例では、LPC分析モジュールLA10は、各20ミリ秒フレームのホルマント構造を特徴づけるための16個のLPフィルタ係数のセットを計算するように構成される。分析モジュールLA10は、たとえば、3GPP TS26.190 v11.0.0の5.2節に記載されているように実装され得る。
[0076]分析モジュールLA10は、各フレームのサンプルを直接分析するように構成され得、またはサンプルは、最初に、ウィンドウイング関数(たとえば、ハミングウィンドウ)に従って重み付けされ得る。また、分析は、30ミリ秒ウィンドウなど、フレームよりも大きいウィンドウにわたって実行され得る。このウィンドウは、対称(たとえば、このウィンドウが、20ミリ秒フレームの直前および直後に5ミリ秒を含むように、5−20−5)であるか、または非対称(たとえば、このウィンドウが、先行するフレームの最後の10ミリ秒を含むように、10−20)であり得る。LPC分析モジュールは、一般に、Levinson−Durbin再帰またはLeroux−Gueguenアルゴリズムを使用してLPフィルタ係数を計算するように構成される。LPC符号化は音声に好適であるが、それはまた、一般的なオーディオ信号(たとえば、音楽などの非音声を含む)を符号化するためにも使用され得る。別の実装形態では、分析モジュールは、LPフィルタ係数のセットの代わりに、各フレームについてケプストラム係数のセットを計算するように構成され得る。
[0077]線形予測フィルタ係数は、一般に、効率的に量子化することが困難であり、通常、量子化および/またはエントロピー符号化のために、線スペクトル対(LSP)もしくは線スペクトル周波数(LSF)、またはイミッタンススペクトル対(ISP)もしくはイミッタンススペクトル周波数(ISF)など、別の表示にマッピングされる。一例では、分析モジュールLA10は、LPフィルタ係数のセットを対応するISFのセットに変換する。LPフィルタ係数の他の1対1の表現は、PARCOR係数とログ面積比(log-area-ratio)の値とを含む。一般に、LPフィルタ係数のセットとLSF、LSP、ISF、またはISPの対応するセットとの間の変換は可逆であるが、実施形態は、変換が可逆でなく誤差がない分析モジュールLA10の実装形態をも含む。
[0078]分析モジュールLA10は、ISF(またはLSFもしくは他の係数表示)のセットを量子化するように構成され、また、フレームエンコーダFE20は、この量子化の結果をLPCインデックスXLとして出力するように構成される。そのような量子化器は、一般に、入力ベクトルをテーブルまたはコードブック中の対応するベクトルエントリへのインデックスとして符号化するベクトル量子化器を含む。
[0079]フレームエンコーダFE20はまた、適応コードブック探索モジュールAS10においてピッチ分析を簡素化し、閉ループピッチ探索の範囲を縮小するために使用され得る、随意の開ループピッチ探索モジュールOL10を含む。モジュールOL10は、量子化されないLPフィルタ係数に基づく重み付けフィルタを介して入力信号をフィルタ処理し、重み付けされた信号を2つまで間引きし、(現在のレートに応じて)フレーム当たり1回または2回、ピッチ推定を作成するように実施され得る。モジュールOL10は、たとえば、3GPP TS26.190 v11.0.0の5.4節に記載されているように実装され得る。
[0080]適応コードブック(ACB)探索モジュールAS10は、ピッチフィルタの遅延と利得とを作成するために(過去の励振に基づく、「ピッチコードブック」とも呼ばれる)適応コードブックを探索するように構成される。モジュールAS10は、(たとえば、量子化されたおよび量子化されないLPフィルタ係数に基づいて重み付けされた合成フィルタを介してLP残差をフィルタ処理することによって得られるような)目標信号上のサブフレームベースで開ループピッチ推定周りの閉ループピッチ探索を実行し、次いで、示されたわずかなピッチラグにおいて過去の励振を内挿することによって適応コードベクトルを計算し、ACB利得を計算するように実装され得る。モジュールAS10はまた、(特に64サンプルのサブフレームサイズより小さい遅延に対して)LP残差を使用して過去の励振バッファを拡大し、閉ループピッチ探索を簡素化するように実装され得る。モジュールAS10は、(たとえば、各サブフレームに対する)ACB利得と、第1のサブフレームのピッチ遅延(または現在のレートに応じて第1および第3のサブフレームのピッチ遅延)および他のサブフレームの相対的ピッチ遅延を示す量子化されたインデックスとを作成するように実装され得る。モジュールAS10は、たとえば、3GPP TS26.190 v11.0.0の5.7節に記載されているように実装され得る。
[0081]固定コードブック(FCB)探索モジュールFS10は、適応コードベクトルによってモデル化されない励振の部分を表す固定コードブック(「革新コードブック」、「革新的コードブック」、「確率論的コードブック」、または「代数的コードブック」とも呼ばれる)のベクトルを示すインデックスを作成するように構成される。モジュールFS10は、コードブックが必要でないように、(たとえば、パルスの位置および符号を表す)FCBベクトルを再生するのに必要なすべての情報を含むコード語としてコードブックインデックスを作成するように実装され得る。モジュールFS10は、たとえば、3GPP TS26.190 v11.0.0の5.8節に記載されているように実装され得る。
[0082]利得ベクトル量子化モジュールGV10は、各サブフレームに対する利得を含み得るFCBおよびACBの利得を量子化するように構成される。モジュールGV10は、たとえば、3GPP TS26.190 v11.0.0の5.9節に記載されているように実装され得る。
[0083]コードブックベースの手法の代替として、変換ベースの手法が、LPC残留信号を符号化するために使用され得る。たとえば、変形離散コサイン変換(MDCT)は、残差を符号化して、Calliope超広帯域コーデック(QUALCOMM社、カリフォルニア州サンディエゴ)およびAMR−WB+コーデックのTCXオプションにおけるような、MDCT係数のセットを含むパラメータにするために使用され得る。別の例では、変換ベースの手法は、LPC分析を実行することなくオーディオ信号を符号化するために使用される。
[0084]1つまたは複数のパケット交換ネットワーク上で、端末A(たとえば、端末102などの送信ユーザ機器すなわちUE)と端末B(たとえば、端末104などの受信UE)との間の実時間音声通信を実行することが望ましい。AMRおよびAMR−WBなど、前の解法は、ビットレートを低減すること(「レート適合」とも呼ばれる)によって悪いチャネル状態に適合する。VoIP(ボイスオーバインターネットプロトコル)で使用するための次世代コーデックに対して、ビットレートの低減は、ネットワーク内の輻輳を十分に低減することを支援し得ない(たとえば、RTPオーバーヘッドに起因するため。ここで、RTPは、たとえばRFC 3550、基準64(2003年7月)、インターネットエンジニアリングタスクフォース(IETF)に記載の実時間トランスポートプロトコルである)。本明細書で開示する方法は、ボコーダにより大きいロバスト性を与え、および/またはチャネル障害によるコーデック性能問題を解決することができる。
[0085]送信端末Aから受信端末Bへの送信チャネルの品質は、ネットワーク内の1つまたは複数のエンティティによって(たとえば、アップリンク無線チャネルのネットワークの終端におけるトランシーバ基地局によって、コアネットワーク内のトラフィック分析器によって)および/または受信端末Bによって(たとえば、パケットロス率を分析することによって)推定され得る。受信端末Bおよび/または1つまたは複数のそのようなエンティティが、制御信号(たとえば、RFC 1889(1996年1月、IETF)に記載されているRTP制御プロトコル(RTCP)を使用する制御パケット)を介して、および/または別のサービス品質(QoS)フィードバック機構を介して、帯域内メッセージングを使用して、そのようなチャネル状態情報120を送信UEに伝達して戻すことが望ましい。送信端末Aは、障害のあるチャネルの下で良好な性能のために最適化される動作モード(すなわち、「チャネル認識」モード)に切り替えることによって、そのような情報を適用するように実施され得る。また、送信UEは、悪いチャネル状態が予測され得る(たとえば、管理されないネットワーク)場合、呼設定時にチャネル認識動作モードを選択するように構成され得る。
[0086]ボコーダは、悪いチャネル状態(たとえば、パケットエラー、高いジッタなど)の表示に応答して、「チャネル障害ロバストモード」に切り替えるように実施され得る。「チャネル障害ロバストモード」において、音声コーデックは、入力信号のいくつかのクリティカルフレームを、部分的または全体的のいずれかで再送信することを選択することができる。たとえば、「チャネル障害ロバストモード」で動作する音声コーダは、フレームのクリティカリティが一定の所定の閾値を超える場合、フレームの冗長コピーを送信するように構成され得る。特定のフレームのクリティカリティは、そのフレームのロスが、エンコーダで推定されるときに復号された音声に及ぼす知覚的影響の関数として決定され得る。チャネル認識コーデックは、チャネル状態の表示に応答して、チャネル障害ロバストモードと正常な動作モード(すなわち、冗長コピーは送られない)との間を切り替えるように構成され得る。
[0087]本明細書で開示するシステム、方法、および装置は、再送信決定に対する閾値を、チャネル品質推定の関数として設定するように実施され得る。この閾値は、たとえば、フレームが、オーディオ信号の後続フレームのコーディングに関してクリティカルであるかどうかを判断するために使用され得る。非常に良好なチャネルに対して、閾値は非常に高く設定され得る。チャネル品質が劣化するにつれて、閾値は引き下げられて、より多くのフレームがクリティカルであると見なされるようなる。
[0088]図4Aは、タスクT100と、T200と、T300と、T350とを含む、一般的構成によってオーディオ信号M100を処理する方法のフローチャートを示す。タスクT100は、オーディオ信号内で第2のフレームに先行する第1のフレーム(「モデル」フレーム、潜在的に「クリティカル」フレーム)上のオーディオ信号の第2のフレーム(「従属」フレーム)のコーディング従属性の推定を計算する。タスクT200は、送信チャネルの状態に関連する情報に基づいて閾値を計算する。タスクT300は、計算された推定と計算された閾値とを比較する。タスクT300における比較することの結果に基づいて、タスクT350は、第1のフレームの冗長コピーを送信することを決定する。冗長フレームを送信することを決定することは、第1のフレームがクリティカルフレームであることを示すことを含み得る。いくつかの場合、方法M100は、フレームを再送信するか否かを判断するために、追加の符号化遅延が必要でないように実施され得る。
[0089]従属フレームもまたクリティカルフレーム(すなわち、それに後続する別のフレームに対してクリティカル)となる尤度を低減することが望ましい。一般に、この尤度は、モデルフレームの直後にくるフレームに対して最高であり、後続の諸フレームに対して急速に低下する。有声音声に対して、トークスパートにおけるオンセットフレームがクリティカルであること、およびそれの直後にくるフレームもまた、(たとえば、オンセットフレームが失われた場合にカバーするために)クリティカルであることが一般的である。しかしながら、トークスパートにおける別のフレームが(たとえば、ピッチラグ(pitch lag)が変動する場合に)クリティカルとなることも起こり得る。
[0090]フレームオフセットkは、モデルフレームと従属フレームとの間の距離を示すために使用され得る。そのような一例では、フレームオフセットkの値は、モデルフレームnと従属フレーム(n+k)との間のフレーム数の差(たとえば、介在するフレームの数より1多い)である。図5Cは、kの値が3である典型的な例を示す。別の例では、kの値は4である。他のあり得る値は、1、2、3、5、および5より大きい整数を含む。
[0091]方法M100は、(たとえば、システム実装の間または呼設定の間)オフセットkが固定されるように実施され得る。kの値は、元の時間領域信号および最大許容遅延内の(たとえば、ミリ秒の単位の)フレームの長さに従って選択され得る。たとえば、kの値は、(たとえば、フレーム遅延を制限するために)最大許容値によって制約され得る。最大許容遅延が80または100ミリ秒の値を有することが望ましい。そのような場合、kは、20ミリ秒フレームを使用するスキームに対して4もしくは5の最大値、または10ミリ秒フレームを使用するスキームに対して8、9もしくは10の最大値を有し得る。
[0092]オフセットkの値はまた、(たとえば、受信機からのフィードバックによって示される)チャネル状態に従って、呼の間に選択されおよび/または更新され得る。たとえば、連続するフレームの頻繁なロスを(たとえば、長いフェードによって)引き起こしている環境において、より大きいkの値を使用することが望ましい。
[0093]タスクT100が、モデルフレームおよび/または従属フレームの概略的特性評価から特定のロス影響評価までに及ぶ1つまたは複数の規準に基づいて、従属フレームのモデルフレームに対するコーディング従属性の推定(「クリティカリティ尺度」とも呼ばれる)を計算するように実施され得る。そのような推定は、モデルフレームおよび/または従属フレーム内の情報に基づいてよく、また、入力信号内のモデルフレームに隣接する1つまたは複数のフレームからの情報に基づいてもよい。
[0094]クリティカルフレームは、失われたときに、重大な品質劣化を引き起こすことがあるフレームであってよい。異なるモデルフレームは、異なるレベルのクリティカルな状態を有し得る。たとえば、2つのモデルフレームn1およびn2に対して、フレーム(n1+1)(すなわち、フレームn1の次のフレーム)がフレームn1から高度に予測可能であり、フレーム(n2+1)(すなわち、フレームn2の次のフレーム)がフレームn2にまったく依存しない場合、フレームn1を失うことが2つ以上のフレームにわたって品質劣化を引き起こすことがあるので、フレームn1はフレームn2よりクリティカルであり得る。
[0095]タスクT100は、モデルフレームのコーディングタイプ(すなわち、フレームを符号化するために使用されるコーディングプロセス)、および場合によっては従属フレームおよび/またはモデルフレームに隣接する1つまたは複数のフレームの各々のコーディングタイプの表示に基づいて、コーディング従属性の推定を計算するように実施され得る。そのようなコーディングタイプの例は、コード励起線形予測(CELP:code excited linear prediction)、雑音励起線形予測(NELP:noise excited linear prediction)、プロトタイプ波形補間(PWI:prototype waveform interpolation)、またはプロトタイプピッチ周期(PPP:prototype pitch period)を含み得る。この規準の下で、たとえば、CELPモデルフレームは、NELPモデルフレームよりクリティカルであると見なされ得る。
[0096]追加または代替として、タスクT100は、モデルフレームの音声モード(すなわち、フレームの音声コンテンツの分類)、および場合によっては従属フレームおよび/またはモデルフレームに隣接する1つまたは複数のフレームの各々の音声モードに基づいて、コーディング従属性の推定を計算するように実施され得る。音声モードの例は、有声と、非有声と、沈黙と、過渡的とを含み得る。「有声」の分類は、さらに、オンセットと静止とに分割され得る。過渡的の分類は、さらに、オントランジェント(on-transient)とオフトランジェント(off-transient)とに分割され得る。トークスパート内の後続フレームの符号化は、オンセットフレーム内の情報に大きく依存することがあるので、この規準の下で、たとえば、音声オンセットフレーム(トークスパート内の初期フレーム)は、静止有声フレームよりもクリティカルであり得る。一例では、タスクT100は、モデルフレームが音声オンセットフレームであり、従属フレームが静止有声フレームであることの表示に応答して高度の依存を示すために、コーディング従属性の推定を計算するように実施される。
[0097]追加または代替として、タスクT100は、モデルフレームの(および場合によっては従属フレームおよび/またはモデルフレームに隣接する1つまたは複数のフレームの各々の)1つまたは複数の他の特性に基づいて、コーディング従属性の推定を計算するように構成され得る。たとえば、モデルフレームに対するいくつかの重要なパラメータの値が前のフレームに対する対応する値と著しく(たとえば、何らかの所定の閾値より大きく)異なる場合、モデルフレームは、モデルフレームの前のフレームから容易に予測され得ず、モデルフレームのロスは、前のフレームよりもモデルフレームにより類似する後続フレームに悪影響を及ぼすことがあるので、モデルフレームはクリティカルフレームであり得る。
[0098]そのような特性の1つの例は、適応コードブック(ACB)利得である。モデルフレームに対する低ACB利得値は、そのフレームが、そのフレームに先行するフレームと著しく異なることを示し得る一方で、従属フレームに対する高ACB利得値は、そのフレームが、モデルフレームに非常に従属していることを示し得る。図4Bに、タスクT50とT60とを含む方法M100の実装形態M110のフローチャートを示す。タスクT50は、モデルフレームからの情報(たとえば、励振信号)を使用して、従属フレームに対する適応コードベクトルを生成し、タスクT60は、従属フレームの符号化されたバージョンに対するACB利得値を計算する。この例では、タスクT100は、少なくとも計算されたACB利得値に基づいてコーディング従属性の推定を計算するように実施される。
[0099]そのような特性の別の例は、この場合は、
Figure 2016174383
として表現され得る、知覚的に重み付けされたSNR(信号対雑音比)である。
ここで、Lはサンプル内のフレーム長であり、cはモデルフレームnの復号されたバージョンを知覚的に重み付けするフィルタW(z)でフィルタ処理することによって得られる知覚的に重み付けされた信号であり、eは知覚的に重み付けされた誤りである。誤りeは、たとえば、(A)W(z)フィルタ処理されたモデルフレームnの復号バージョンと(B)W(z)フィルタ処理された、フレームnの誤り隠蔽(error-concealed)バージョン(すなわち、フレームはデコーダで利用可能ではないものと仮定する)との間の差として計算され得る。誤り隠蔽バージョンは、フレーム誤り隠蔽アルゴリズムに従って前のフレームからの情報に基づいて計算され得る。たとえば、誤り隠蔽バージョンは、3GPP
TS26.091、v.11.0.0(2012年9月、「Error concealment of lost frames」、ETSIから入手可能)に記載されている手順に従って計算され得る。一例では、W(z)=A(z/γ)H(z)であり、ここで、
Figure 2016174383
であり、a1〜apはモデルフレームnに対するLPCフィルタ係数であり、γ=0.92であり、H(z)=1/(1−0.68z-1)である。代替例では、誤りeは、フィルタW(z)を、復号バージョンと誤り隠蔽バージョンとの間の差に適用することによって計算される。
[00100]追加または代替として、タスクT100は、コーディング従属性の推定を、モデルフレームのロスが1つまたは複数の後続フレーム(たとえば、従属フレーム)のコーディング品質に及ぼす影響の推定として計算するように構成され得る。たとえば、クリティカリティ尺度は、従属フレームおよび場合によってはモデルフレームに後続する1つまたは複数の他のフレームの符号化バージョンからの情報(たとえば、モデルフレームおよび/または後続フレームのうちの1つまたは複数、の適応コードブック利得)に基づくことができる。追加または代替として、そのような尺度は、従属フレームおよび場合によってはモデルフレームに後続する1つまたは複数の他のフレームの各々の復号バージョンの情報(たとえば、復号バージョンの知覚的に重み付けされたSNR)に基づくことができ、ここで、従属フレームおよび/または他の後続フレームは、モデルフレームの情報を使用せずに符号化されていた。
[00101]モデルフレームnに対する従属フレーム(n+k)のそのような尺度の一例は、
Figure 2016174383
として表現され得、ここで、Lはサンプル内のフレーム長であり、cは従属フレーム(n+k)の復号バージョンを知覚的に重み付けするフィルタW(z)でフィルタ処理することによって得られる知覚的に重み付けされた信号であり、eは知覚的に重み付けされた誤りである。誤りeは、この場合、たとえば、(A)モデルフレームnのロスなしにW(z)フィルタ処理された従属フレーム(n+k)の復号バージョンと(B)モデルフレームnの誤り隠蔽バージョンを仮定してW(z)フィルタ処理されたフレーム(n+k)の復号バージョンとの間の差として計算され得る。フィルタW(z)は、従属フレーム(n+k)に対するLPCフィルタ係数を使用して上記で説明したように計算され得る。代替例では、誤りeは、フィルタW(z)を、従属フレーム(n+k)の、正常に復号されたバージョンとロスを仮定して復号されたバージョンとの間の差に適用することによって計算される。
[00102]タスクT200が閾値を計算するために使用する情報は、以下の尺度、すなわち、パケットロス率、パケットロス比、予測されるパケット数、ロス率毎秒、受信されたパケットカウント、ロス推定妥当性(たとえば、間隔に対して予測されるパケット数など、サンプルサイズの尺度に基づく重み尺度)、見かけのスループット、およびジッタのうちの1つまたは複数を含み得、それらは、一連の時間間隔の各々に対して更新され得る。上述のように、受信機および/または(たとえば、送信チャネルに沿った)ネットワーク内の他のエンティティは、制御信号(RTCPメッセージングが1つのそのような制御シグナリング方法の一例である)を介して、および/または別のサービス品質(QoS)フィードバック機構を介して、帯域内メッセージングを使用して、そのようなチャネル状態情報120を送信UEに伝達して戻すように構成され得る。RTCPメッセージング(たとえばIETF仕様RFC 3550に規定される、実時間トランスポート制御プロトコル)を介して提供され得る情報の例は、送信されたオクテットカウントと、送信されたパケットカウントと、予測されるパケットカウントと、失われたパケットの数および/または比率と、ジッタ(たとえば、遅延における変動)と、ラウンドトリップ遅延とを含む。図6Aは、本明細書で説明するチャネル状態情報を受信するタスクT70を含む方法M100の実装形態M120のフローチャートを示す。
[00103]タスクT200はまた、送信チャネルの状態に関連する情報120に基づいて、2つ以上の閾値を計算するように構成され得る。そのような場合、決定タスクT300は、フレーム(および/または1つまたは複数の隣接フレーム)からの情報を使用して、適切な更新された閾値を選択するように構成され得る。たとえば、1つのクリティカリティ閾値を使用して、音声を含むものと判断されるフレームを再送信するかどうかを判断し、別のクリティカリティ閾値を使用して、雑音を含むものと判断されるフレームを再送信するかどうかを判断することが望ましい。別の例では、過渡的(たとえば、オンセット)および静止的音声フレームに対して、ならびに/あるいは有声音声フレームおよび無声音声フレームに対して、異なる閾値が使用される。2つ以上のクリティカリティ閾値が使用される場合に対して、タスクT200は、モデルフレームに対して使用されるべき閾値に対応するクリティカリティ尺度を、2つ以上のクリティカリティ尺度の中から選択するように構成され得る。
[00104]T300は、計算された推定と計算された閾値とを比較するように構成される。タスクT350は、比較の結果に基づいてモデルフレームの冗長コピーを送信するかどうかを決定する。たとえば、タスクT300は、計算された推定が計算された閾値を超える(代替として、よりも小さくない)ときに再送信することを決定するように実施され得る。
[00105]方法M100は、従属フレームがアクティブ音声フレームであるときだけ、タスクT350(および場合によってはタスクT100および/またはT200)が実行されるように実施され得る。代替として、方法M100は、潜在的クリティカルフレームとして非音声フレームを考慮するように実施され得る。一般に、双方向の会話では、各当事者は、しばらくの間話をし、その間に通信システムは当事者の音声を(たとえば、その時間の半分未満で)送信し、他の時間の間休止し、その間に通信システムは沈黙または背景雑音を送信する。沈黙(または背景雑音)期間中の希発送信または不連続送信(DTX)は、会話の知覚品質にほとんど影響を及ぼさないが、セル内/セル間干渉を低減し(したがって、システム能力を潜在的に向上させ)、会話に使用されるモバイルユニットのバッテリー電源を節約する利益をもたらす。
[00106]一般的なDTX方式は、音声活動検出(VAD)を使用する音声エンコーダによって実現される。VADを使用して、エンコーダは、背景雑音からアクティブ音声を区別することができる。エンコーダは、各アクティブ音声セグメント(一般に20msの長さ)を送信のための目標ビットレートパケットで符号化し、クリティカルな背景雑音セグメント(やはり一般に20msの長さ)を比較的小さいサイズのパケットで表す。この小さいパケットは、沈黙を示す沈黙記述子(SID)であってよい。クリティカル背景雑音セグメントは、トークスパートに直ちに続く背景雑音セグメント、またはその特性がそれの前の雑音セグメントと著しく異なる背景雑音セグメントであり得る。他のタイプの背景雑音セグメント(または非クリティカル背景雑音セグメント)は、ゼロビットで表示されるか、削除される(blanked)か、送信されないか、または送信を抑制されることがある。出力パケットのそのようなパターン(すなわち、アクティブセグメント、次にクリティカル背景雑音セグメント、次に非クリティカル背景雑音セグメント)が、純粋に音声エンコーダの入力、またはソースに依存するとき、そのようなDTX方式は、ソース制御DTX方式と呼ばれる。
[00107]図5Aおよび図5Bは、チャネル状態情報、その情報に基づくクリティカリティ閾値、および再送信の決定がもたらされる尤度の間の関係の例を示す。図5Bの例では、報告されたチャネル品質は、図5Aの報告されたチャネル品質より低い。したがって、図5Bのクリティカリティ閾値は、図5Aのクリティカリティ閾値より選択性が小さく、再送信の決定がもたらされる尤度は、より高い。報告されるチャネル品質が低くなりすぎると、再送信の決定がもたらされる尤度は、高くなりすぎることがある。
[00108]方法M100を実施して再送信され得るフレームの数または割合を制限することが望ましい。たとえば、悪いチャネル状態の下で元の音声コーディング品質を保存する性能を改良すること、および/または過度に包括的なクリティカリティ判断によってトリガされ得る再送信による能力ロスを阻むことをバランスさせることが望ましい。
[00109]再送信頻度を制限するための1つの手法は、閾値が、低いキャップ値(low cap value)(すなわち、低い境界値、またはフロア値)の影響を受けるようにタスクT200を実施することであり、キャップ値が、フレームが再送信され得る数に対する制限を設定する。たとえば、タスクT200は、計算される閾値に対して最小値を強制するように実施され得る。図6Bに、サブタスクT210aと、T210bと、T210cとを含むタスクT200のそのような実装形態T210のフローチャートを示す。タスクT210aは、本明細書で説明するように(すなわち、チャネル状態情報に基づいて)候補閾値を計算する。タスクT210bは、計算された候補閾値と、境界値(たとえば、低いキャップ値)とを比較する。この比較の結果に基づいて、タスクT210cは、(A)計算された候補閾値および(B)境界値の中の一方を選択し、それにより、タスクT210は、計算された閾値として選択された値を作成する。たとえば、タスクT210cは、計算された候補値が境界値より大きい(代替として、より小さくはない)場合に計算された候補値を選択し、そうでない場合に境界値を選択するように実施され得る。そのような様式で、タスクT210は、計算された閾値がキャップ値を超える部分をクリップするように構成され得る。タスクT210はまた、比較が失敗すると(たとえば、クリッピングが発生すると)、タスクT210はそのような状態を、(たとえば、状態を記録すること、状態を基地局に報告すること、および/または別の是正措置を実行することのために)別のモジュールに示すように構成され得る。
[00110]もちろん、代替として、クリティカリティ尺度の計算された値がクリティカリティに逆比例するようにタスクT100を実施することも可能である。そのような場合には、タスクT350は、クリティカリティ尺度が計算された閾値より低い(代替として、超えることができない)ときにフレームを再送信することを決定するように構成されてよく、タスクT210は、計算された閾値と高いキャップ値(すなわち、高い境界値、または天井値)とを比較(および場合によってはクリップ)するように構成され得る。
[00111]図7Aに、タスクT400を含む方法M100の実装形態M200のフローチャートを示す。タスクT400は、モデルフレームの冗長コピーを作成する。冗長コピーは、一般に、符号化された信号(すなわち、正常に符号化されたモデルフレームのコピー)でのモデルフレームの主コピーより少ないビット数を有し、主コピーの部分的または全体的ロスによってもたらされる誤りを訂正するための前方誤り訂正(FEC)動作を実行するために、デコーダによって使用され得る。タスクT400は、決定タスクT350の前に、または代替として冗長コピーを送信することをタスクT350によって決定されることに応答して、冗長コピーを作成するように実施され得る。
[00112]一般に、冗長コピーが、後続フレームを復号するために使用され得る良好な基準(たとえば、良好な適応コードブック)を提供することが望ましい。モデルフレームの冗長コピーは、モデルフレームの主コピーのパラメータの一部またはすべてを含み得る。タスクT400は、モデルフレームの主コピーの縮小バージョンとして冗長コピーを作成するように実施され得る。たとえば、主コピーは、周波数エンベロープ情報(たとえば、LPCまたはMDCT係数)および/またはテンポラルエンベロープ情報(たとえば、固定コードブックインデックス、固定コードブック利得、適応コードブック利得、ピッチラグ、および/またはCELPコーデックに対するピッチ利得;プロトタイプパラメータおよび/またはPWIまたはPPPコーデックに対するピッチ情報)などの構成要素を含むモデルフレームの符号化されたバージョンであってよい。タスクT400は、1つまたは複数のそのような構成要素の各々の一部または全部のコピーを含む冗長コピーを作成するように実施され得る。たとえば、タスクT400は、量子化されたLPCフィルタパラメータおよび/または量子化されたテンポラルエンベロープ(たとえば、励振信号)パラメータを識別する1つまたは複数のコードブックインデックスを含む冗長コピーを作成するように実施され得る。
[00113]そのような場合には、タスクT400は、すでに計算されているモデルフレームの主コピーの構成要素を使用して(たとえば、複製および/または圧縮して)冗長コピーをアセンブルするように実施され得る。タスクT400は、ビット制約を満足するような方式で、またはレート制約に関連する構造に従って冗長コピーを作成するように実施され得る。そのような構造は、フレームに対してまたはフレームの1つまたは複数のサブフレームの各々に対して、上述のパラメータ(すなわち、LPCフィルタ情報、ピッチ遅延、固定/適応コードブックインデックス/利得など)などの複数のパラメータの各々に対して、指定されたビット数を含み得る。
[00114]追加または代替として、タスクT400は、モデルフレームの主コピーを作成するために使用されものとは異なるコーディング方法を使用してモデルフレームを符号化することによって、冗長コピーの一部または全部を作成するように実施され得る。そのような場合には、この異なるコーディング方法は、一般に、モデルフレームの主コピーを作成するために使用される方法(たとえば、低次のLPC分析を使用する、広帯域コーデックではなく狭帯域コーデックを使用する、など)より低いレートを有する。そのような異なるコーディング方法は、異なるビットレートおよび/または異なるコーディング方式であってよい(たとえば、主コピーに対するCELPおよび冗長コピーに対するPPPまたはPWI)。一例では、タスクT400は、フレームエンコーダ(たとえば、フレームエンコーダFE20)にモデルフレームと、(たとえば、ビット数としてまたはビットレートとして)示された割振りNmとを供給するように実施される。
[00115]冗長コピーのサイズは、ビット数としてまたはビットレートとして示され得、固定型または適応型であってよい。一例では、冗長コピーのサイズは、オーディオ信号内でモデルフレームに後続し、オーディオ信号上に冗長コピーがピギーバックされるべきフレーム(「キャリア」フレーム)に対する初期ビット割振りTの再分配の一部として示される。キャリアフレームは、従属フレームと同じであってよく、または従属フレームおよびキャリアフレームが異なることができるように、方法M200が実施されてもよい。Tの値に対する特定の例は、253ビット(たとえば、12.65kbps(キロビット毎秒)のビットレートおよび20ミリ秒のフレーム長に対応する)と、192ビット(たとえば、9.6kbpsのビットレートおよび20ミリ秒のフレーム長に対応する)とを含む。
[00116]1つのそのような場合、選択された再割振り分配Nmは、キャリアフレームに対する初期ビット割振りTを、モデルフレームの冗長コピーへのNmビットの割振りとキャリアフレームのコピーへの(T−Nm)ビットの割振りとに分離することを示す。Tビットの割振りの分配のセットの中の1つの選択が、選択されたキャリアフレームのビットレートの変更、およびモデルフレームの冗長コピーを符号化するための低ビットレート方式の選択として実施され得る。たとえば、Tビットの割振りを、モデルフレームの冗長コピーを搬送するためのサイズNmビットの部分とキャリアフレームの主コピーを搬送するためのサイズ(T−Nm)ビットの部分として分配すること(ここで、T=253およびNm=61)が、キャリアフレームのビットレートを12.65kbpsの開始ビットレートから9.6kbpsの低減されたビットレートに変更することと、既存の9.6kbps方式に従ってキャリアフレームを符号化することと、モデルフレームの冗長コピーを符号化するために3.05kbps方式を使用することとによって、(たとえば、AMRコーデック内で)実施され得る。
[00117]各冗長符号化が分配のセットの中の異なる分配に対応する冗長符号化に対して、いくつかのそのような低ビットレート方式を実施することが望ましい。他の開始ビットレートの例は、8.85、8.55、6.6、6.2、4、2.7、および2kbpsを含み、それらは、それぞれ、(たとえば、20ミリ秒のフレーム長に対して)177、171、132、124、80、54および40のTの値に対応する。他の開始ビットレートのさらなる例は、23.85、23.05、19.85、18.25、15.85、14.25、および12.65kbpsを含み、それらは、それぞれ、(たとえば、20ミリ秒のフレーム長に対して)477、461、397、365、317、285および253のTの値に対応する。フレームは、たとえば、(たとえば、CELPコーディングモデルを使用して)本明細書で参照されるAMR−WBコーデックのリリース10に記載されている、そのようなレートに従って符号化され得る。
[00118]タスクT400は、キャリアフレームの圧縮率の尺度の値に従って、冗長コピーのサイズを選択する(たとえば、Tの特定の再割振りを選択する)ように実施され得る。たとえば、そのようなタスクは、高い圧縮率を示す値に応答して冗長コピーに対してより大きいサイズを選択すること(たとえば、対応する再割振りを選択すること)と、低い圧縮率を示す値に応答して冗長コピーに対してより小さいサイズを選択すること(たとえば、対応する再割振りを選択すること)とを行うように構成され得る。圧縮率の静的尺度の一例は、キャリアフレームのサブフレームの、互いに対する相関(たとえば、サブフレームのすべての可能なラグ値およびすべての対(またはすべての隣接する対))にわたる最大相関、またはサブフレームの各対に対する(または各隣接する対に対する)すべての可能なラグ値にわたる最大相関の平均値)として計算され得る開ループメトリックである。圧縮率の動的尺度の一例は、複数の冗長コピーサイズ候補および/またはキャリアフレーム候補の各々に対して、キャリアフレームの知覚品質における関連する変化(たとえば、減少)の尺度を示す閉ループメトリックである。たとえば、そのようなメトリックは、(A)すべての初期ビット割振りTを使用して符号化されるときのキャリアフレームの知覚品質の尺度と(B)冗長コピーサイズ候補が加えられた後に残留する初期ビット割振りの部分だけを使用して符号化されるときのキャリアフレームの知覚品質の尺度との差(たとえば、絶対値の差)または比として計算され得る。
[00119]タスクT400は、選択された再割振り候補に従って後続フレームに対する初期ビット割振りTを第1の部分と第2の部分とに再割振りすることと、キャリアフレームのコピーを第1の部分に符号化することと、モデルフレームの冗長コピーを第2の部分に符号化することとを含み得る。タスクT400は、(たとえば、再割振り決定メトリック計算に対する入力パラメータとして)再割振り候補の選択の前に、または再割振り候補の選択に応答して、キャリアフレームのコピーを作成するように実施され得る。
[00120]固定ビットレート方式に対して本明細書で説明する原理の適用例は上記のとおりである(たとえば、各フレームは同じ初期ビット割振りTを受信する)が、Tビットの全フレーム割振りがフレームごとに変わり得る方式に対して、そのような原理を適用することも可能である。たとえば、キャリアフレームを符号化するために利用可能なビット数Tは、キャリアフレームが音声または雑音を含むかどうか、またはキャリアフレームが有声音声または無声音声を含むかどうか、などに従って変化し得る。
[00121]冗長コピーを符号化するためにビットを再割振りすることの追加または代替として、悪いチャネル状態の下で、クリティカルフレームの冗長コピーを符号化するために使用されるビット数を増加させることが望ましい。チャネル状態に関する入力(たとえば、タスクT70に関して本明細書で説明するチャネル状態情報)に応答して、たとえば、方法200は、障害チャネル上で送信され得る冗長性の程度と頻度とを調節するように実施され得る。冗長コピーを符号化するためにタスクT400内で使用されるビット数は、悪いチャネル状態の下で性能を改善することと元の音声コーディング品質の保存との間のバランス、および/または再送信による能力ロスを低減することを反映する、高いキャップの影響を受けることがある。そのような場合、冗長コピーを符号化するために使用されるビット数は、後続フレームから(すなわち、キャリアフレームから)再割振りされるのではなく、主フレームに追加され得る。たとえば、冗長コピーに対するビット数は、主フレームに対して使用されるビット数に無関係であり得、チャネル容量および/またはネットワーク状態(たとえば、輻輳)など、(たとえば、送信チャネルを介して)受信された情報に関連して決定され得る。
[00122]方法M200はまた、モデルフレームの冗長コピーを含む符号化された信号を作成するタスクT500を含む。たとえば、タスクT500は、上記で説明したように、1つまたは複数のキャリアフレーム(たとえば、元の信号内でモデルフレームに後続するフレームに対応する符号化された信号内のフレーム)上に、冗長コピーをピギーバックするように実施され得る。1つのそのような例では、冗長コピーは、入力オーディオ信号内のモデルフレームに後続するキャリアフレームに割り当てられたパケット内に含まれる。そのような場合、タスクT500は、モデルフレームと元の信号内のキャリアフレームとの間のフレーム数を示すことによって冗長コピーを搬送すべき後続フレームを識別する、キャリアオフセットpの値を決定することを含み得る。代替または追加として、タスクT400は、後続フレームを符号化することから冗長コピーを符号化することに再割振りするためのビット数を選択することを含み得、その選択は、復号されるときにもたらされる後続フレームの知覚品質の尺度に基づくことがある。また、オフセットの値および/または再割振りされたビット数を示す情報を、符号化された信号内に含めるように、タスクT500を実施することも望ましい。代替として、そのような情報は、符号化された信号の中の他の情報からデコーダによって抽出可能であり得る。
[00123]キャリアオフセットpの値は、モデルフレームnとキャリアフレーム(n+p)との間の距離を示す。オフセットpの値は、オフセットkの値と同じ(すなわち、従属フレームがキャリアフレームであるように)であってよく、または方法M200は、従属オフセットkがキャリアオフセットpと異なる値を有することを可能にするように実施されてもよい。方法M200は、モデルフレームとキャリアフレームとの間のオフセットp(たとえば、フレーム数の差の表示、または介在フレームの数より1多い数)が固定されるように実施されてもよい。典型的な例では、pの値は3である。別の例では、pの値は4である。他のあり得る値は、1、2、3、5、および5より大きい整数を含む。
[00124]図7Bに、タスクT500の実装形態T510を含む方法M200の実装形態M210のフローチャートを示す。タスクT510は、モデルフレームnの主コピーを含む第1のパケットを作成するサブタスクT510aを含む。タスクT510はまた、タスクT400によって作成された、キャリアフレーム(n+p)のコピーとモデルフレームnの冗長コピーとを含む第2のパケットを作成するサブタスクT510bを含む。第2のパケットが、モデルフレームの冗長コピーを搬送していることを示す情報、オフセットpの値を示す情報、および/または再割振りされたビットの数Nmを示す情報を含むために、第2のパケットを作成するように、タスクT510bを実施することが望ましい。代替として、そのような情報は、符号化された信号の中の他の情報からデコーダによって抽出可能であり得る。タスクT510は、決定T350を再送信することに応答して、タスクT510bを実行するように実施され得る。図8は、方法M110、M120およびM210の実装形態M300のフローチャートを示す。
[00125]タスクT500は、キャリアフレーム(たとえば、フレーム(n+p))もまたクリティカルフレームとなることが推定される尤度に基づいて、キャリアフレームを選択するように(たとえば、キャリアオフセットpの値を選択するように)実施されてよい。というのは、別のクリティカルフレームの主コピーからのビットを再割振りすることを回避することが望ましいからである。一般に、そのような尤度は、クリティカルフレームの直後にくるフレーム(すなわち、フレーム(n+1))に対して最高であり、pが増加するにつれて急速に低下する。有声音声に対して、オンセットフレームおよびそれの直後にくるフレームが、(たとえば、オンセットフレームが失われる場合をカバーするために)一般的にクリティカルである。しかしながら、別の後続フレームが(たとえば、ピッチラグ(pitch lag)が変動する場合に)クリティカルとなることも起こり得る。
[00126]追加または代替として、タスクT500は、元の時間領域信号および最大許容遅延におけるフレーム長(たとえば、ミリ秒)に従ってキャリアフレームを選択する(たとえば、キャリアオフセットpの値を選択する)ように実施され得る。たとえば、pの値は、(たとえば、フレーム遅延を制限するために)最大許容値によって制約され得る。最大許容遅延が80または100ミリ秒の値を有することが望ましい。そのような場合、pは、20ミリ秒フレームを使用するスキームに対して4もしくは5の最大値、または10ミリ秒フレームを使用するスキームに対して8、9もしくは10の最大値を有し得る。
[00127]追加または代替として、タスクT500は、(たとえば、本明細書で説明するような、受信機からのフィードバックおよび/または他のチャネル状態情報によって示される)チャネル状態に従ってキャリアフレームを選択する(たとえば、キャリアオフセットpの値を選択する)ように実施され得る。たとえば、キャリアオフセットpの値は、フレームの主コピーの送信時刻とそのフレームの冗長コピーの送信時刻との間の間隔の長さを示し、連続するフレームの頻繁なロスを(たとえば、長いフェードによって)引き起こしている環境において、より高いpの値を使用することが望ましい。通常、パケット交換ネットワーク内のパケットロスはバースト的であり、バースト長は、異なるネットワーク状態の下で異なることがある。したがって、動的に調節されるキャリアオフセット値を使用することが、よりよい誤り保護性能をもたらし得る。最適なキャリアオフセット値は、(たとえば、受信機および/または別のエンティティによって送られる)チャネル状態情報を使用して推定され得る。たとえば、キャリアオフセット値は、チャネル状態に基づいて、(たとえば、実行時に)適応的に調節され得る。代替として、キャリアオフセット値はあらかじめ決定されてもよい。
[00128]追加または代替として、タスクT500は、圧縮率の関連する尺度の値に基づいてキャリアフレームを選択する(たとえば、キャリアオフセットpの値を選択する)ように実施され得る。たとえば、タスクT500は、入力オーディオ信号内でモデルフレームに後続するフレームの複数のPの中からキャリアフレームを選択する(たとえば、pの対応する値を選択する、ここで、1<p<Pである)ように実施され得る。そのような場合、タスクT500は、P個のフレームの各々に対して圧縮率尺度の対応する値によって示される、P個の候補フレームの中の最も圧縮可能なフレームとしてキャリアフレームを選択するように実施され得る。そのようなフレーム選択のために使用され得る圧縮率尺度の例は、上記で説明したように、静的尺度(たとえば、開ループメトリック)と動的尺度(たとえば、閉ループメトリック)とを含む。
[00129]方法M200は、Tビットを使用してキャリアフレーム候補(たとえば、ノンキャリアフレーム)の複数のPのうちの少なくとも1つを符号化することを含むように実施され得る。そのような方法は、さらに、Tビットを使用して複数のP個の候補フレームのうちのノンキャリアのフレームの各々を符号化することを含み得る。しかしながら、信号が、2つの隣接するクリティカルフレームまたは場合によっては互いに接近する2つのクリティカルフレームを含むことも可能であり、それにより、1つのクリティカルフレームに関連するP個のキャリアフレーム候補のセットが、他のクリティカルフレームに関連するP個のキャリアフレーム候補のセットと重なる(すなわち、少なくとも1つのフレームを共通に有する)。そのような場合には、共通の後続フレームのうちの1つが、1つのクリティカルフレームの冗長コピーを搬送するために選択され得、共通の後続フレームのうちの別の1つが、他のクリティカルフレームの冗長コピーを搬送するために選択され得、それにより、これら2つの後続フレームの各々は、Tビットより少ないビットを使用して符号化される。選択された後続フレームはそれ自体がクリティカルフレームであることも可能である。いくつかの場合には、たとえば、クリティカルフレームに関連するP個のキャリアフレーム候補のセットは、少なくとも1つの他のクリティカルフレームを、約20パーセントの時間に含み得ることが予測され得る。
[00130]パケットは、1つまたは複数のフレームを含み得る。パケット長を20ミリ秒に制限することが、(たとえば、ラグを短縮するために)望ましい。図9Aは、インターネットプロトコルバージョン4(IPv4:Internet Protocol version 4)と、ユーザデータグラムプロトコル(UDP:User Datagram Protocol)と、RTPとを含むVoIP通信に対して一般的なプロトコルスタックを使用して符号化されたパケットに対するオーバーヘッドの一例を示す。図9Bは、IPバージョン6(IPv6)パケットに対する類似の例を示す。ペイロードサイズの例は、G.711コーデックに対する160バイトと、G.729コーデックに対する20バイトと、G.723.1コーデックに対する24バイトとを含む。本明細書で説明する適応クリティカリティ表示の方法とともに使用され得る他のコーデックは、制限なしに、上述のように、G.726と、G.728と、G.729Aと、AMRと、AMR−WBと、AMR−WB+と、VMR−WBと、EVRCと、SMVと、EVSとを含む。
[00131]図10は、モデルフレームの冗長コピーとモデルフレームに後続するフレームのコピーとを搬送するRTPパケットに対するペイロードの一例を示す。対応するフレームタイプインジケータFTに対して1の値で示されるとき、冗長コピー(ビットr(0)〜r(176))は、AMR−WB 8.85kbpsモードで符号化され、対応するフレームタイプインジケータFTに対して0の値で示されるとき、キャリアフレームのコピー(ビットp(0)〜p(131))は、AMR−WB 6.6kbpsモードで符号化される。この例では、コーデックモード要求インジケータCMRは、受信端末におけるエンコーダに、8.85kbpsモードを採用するように要求し、ペイロードは、最後のオクテットを書き込むために、3つのパディングビットPで終了する。別の例では、ペイロードは、3つ以上の符号化されたフレームを含み得、および/または冗長コピーはキャリアフレームのコピーより少ないビットを有し得(すなわち、より低いレートで符号化され得)、および/または冗長コピーのビットはパケット内のキャリアフレームのコピーのビットに先行し得る(コピーに対する対応するコンテンツ表のエントリの順序は、それに応じて切り替えられる)。
[00132]たとえば、RTPヘッダを12バイトから4バイトに圧縮するために、タスクT510を実施してヘッダ圧縮を使用することが望ましい。RTPヘッダは、送信時間を計算するために使用され得るタイムスタンプと、順序が乱れて受信されたパケットを正しく提示するため、および/またはパケットロスを検出するために使用され得るシーケンス番号とを含む。ロバストヘッダ圧縮(ROHC:Robust Header Compression、IETF
RFC 3095、RFC 3843、および/またはRFC 4815に記載されている)は、より大きい圧縮率(たとえば、1つまたは複数の、場合によってはすべてのパケットヘッダの、1〜4バイトへの圧縮)をサポートするために使用され得る。
[00133]一構成では、タスクT510bは、キャリアフレーム(すなわち、現在の音声フレーム(n+p))のコピーとモデル音声フレームnの冗長コピーとを、受信端末への送信のための実時間プロトコル(RTP)パケットにパケット化するように実施される。タスクT510bの別の構成では、後続フレーム(n+p)のコピーおよびモデル音声フレームnの冗長コピーは、同時に生成されるが、異なる対応するRTPパケットに詰め込まれて受信端末に送信される。どのフォーマットを使用するかの決定は、両端末の能力に基づくことがある。両フォーマットがそれぞれの端末内でサポートされる場合、より低いデータレートをもたらすフォーマットが使用され得る。
[00134]図11は、オーディオデコーダAD10の実装形態AD20のブロック図である。オーディオデコーダAD20は、ボコーダの一部として、スタンドアローンエンティティとして、または受信端末104内の1つまたは複数のエンティティにわたって分配されて実装され得る。オーディオデコーダAD20はまた、VoIPクライアントの一部として実装され得る。
[00135]オーディオデコーダAD20は、それの機能に関して以下で説明される。オーディオデコーダAD20は、ハードウェア、ファームウェア、ソフトウェア、またはそれらの任意の組合せとして実装され得、それが実装される方式は、特定の適用例および全体的なシステムに課された設計制約に応じて決まる。例として、オーディオデコーダAD20は、マイクロプロセッサ、デジタル信号プロセッサ(DSP)、プログラマブルロジック、専用ハードウェア、あるいは任意の他のハードウェアおよび/またはソフトウェアベースの処理エンティティで実装され得る。
[00136]この例では、オーディオデコーダAD20は、デジッタバッファDB10(「ジッタバッファ」とも呼ばれる)を含む。デジッタバッファDB10は、(たとえば、ネットワーク輻輳、タイミング変動、および/またはルート変更による)パケット到着時間の変動によって引き起こされるジッタを低減または除去するハードウェアデバイスまたはソフトウェアプロセスであってよい。デジッタバッファDB10は、パケット内のオーディオフレームを受信し得る。デジッタバッファDB10は、前に到着したパケットのフレームが、正しい順序(たとえば、パケットのタイムスタンプによって示される)でフレームデコーダFD20に連続的に供給され、オーディオひずみがほとんどないきれいな接続をもたらすことができるように、新しく到着するパケットを遅延させるように実施され得る。デジッタバッファDB10は、固定型または適応型であってよい。固定デジッタバッファは、パケットに固定遅延をもたらし得る。一方、適応デジッタバッファは、ネットワークの遅延の変化に適応し得る。デジッタバッファDB10は、符号化されたオーディオフレーム(たとえば、インデックスXL、XF、XGおよびXPを含む)を適切な順序でフレームデコーダFD20に供給し得る。
[00137]フレームのコピーがデジッタバッファによって受信されない場合、フレームロスが、FECが使用されない場合に引き起こされることがある。FECが使用され、現在実行されるべきフレームのコピーが失われると、デジッタバッファDB10は、バッファ内にフレームの冗長コピーがあるかどうかを判断し得る。現在のフレームに対する冗長コピーが利用可能である場合、復号してオーディオサンプルを生成するために、冗長コピーがフレームデコーダFD20に供給され得る。
[00138]加えて、デジッタバッファDB10は、主フレーム(すなわち、元のクリティカルフレーム)と冗長フレーム(すなわち、元のクリティカルフレームの一部または全部のコピー)とを別様に処理するために修正され得る。バッファDB10は、本明細書で説明するFEC動作を実施することに関連する平均遅延が、FEC動作が実施されないときの平均遅延より大きくならないように、これら2つのフレームを別様に処理し得る。たとえば、バッファDB10は、到来パケットが冗長コピーを含むこと(たとえば、パケットが2つのフレームを含むこと)を検出し、この検出に応答して冗長コピーの復号を開始するように実施され得る。
[00139]デジッタバッファDB10からリリースされたオーディオフレームは、フレームデコーダFD20に供給されて、復号されたコアオーディオフレームDF(たとえば、合成音声)を生成し得る。概して、フレームデコーダFD20は、音声を復号して合成音声にする、当業界で知られている任意の方法を実行するように実施され得る。図11の例では、フレームデコーダFD20は、図3を参照して上記で説明した符号化方法に対応するCELP復号方法を使用する。この例では、固定コードベクトル生成器VG10は、FCBインデックスXFと、利得インデックスXGの対応する部分とを復号して、各サブフレームに対する固定コードベクトルを作成し、逆量子化器IA10およびベクトル生成器A50は、ACBインデックスXPと、利得インデックスXGの対応する部分とを復号して、各サブフレームに対する適応コードベクトルを作成し、加算器AD10は、対応するコードベクトルを組み合わせて、励振信号を作成し、メモリME10を更新する(たとえば、3GPP TS 26.190 v11.0.0の6.1節のステップ1〜8に記載されている)。逆量子化器IL10および逆変換モジュールIM10は、LPCインデックスXLを復号してLPフィルタ係数ベクトルを作成し、そのベクトルは、合成フィルタSF10によって励振に加えられて、合成信号を作成する(たとえば、3GPP TS 26.190 v11.0.0の6.1節の最初の段落およびステップ4に記載されている)。生の合成信号は、ポストフィルタPF10に供給され、PF10は、ハイパスフィルタ処理、アップスケーリング、および内挿などの動作を実行し(たとえば、3GPP TS 26.190 v11.0.0の6.2節に記載されている)、復号されたコアオーディオフレームDFを作成するように実施され得る。代替として、制限なしに、フレームデコーダFD20は、NELPまたはPPPフルフレーム復号方法を使用し得る。
[00140]主コピーのパラメータ値のいくつか(すなわち、部分セット)を含むフレームの冗長コピーは、デジッタバッファDB10から部分フレーム復号モジュールに送られ得る。たとえば、フレームデコーダFD20は、冗長コピーが利用可能になる前に、(たとえば、上述の3GPP TS 26.091 v11.0.0に記載されている誤り隠蔽手順に従って)クリティカルフレームに対応するフレームを生成するように実施され得る。この場合、フレームデコーダFD20は、キャリアフレーム(n+p)を復号する前に、(たとえば、固定および適応コードブックインデックスならびに冗長コピーからの利得に従って)メモリME10を更新するように構成された部分フレーム復号モジュールを含み得る。
[00141]受信機の側では、音声フレームは、デジッタバッファDB10内に記憶され得、DB10は適応型であってよい。前述のように、デジッタバッファDB10は、音声フレームに対する平均遅延がFEC技法なしの平均遅延より大きくならないように設計され得る。フレームは、デジッタバッファDB10から適切な順序でフレームデコーダ(たとえば、デコーダFD20)に送られ得る。冗長コピーが主コピーのパラメータの部分セットである場合、部分フレーム復号モジュールが使用され得る。
[00142]本明細書で説明するソース制御およびチャネル制御FEC方式は、パケットロスの数を低減させ得、ロスのバースト性(burstiness)は、データレートの増加をほとんどまたはまったく伴わない。クリティカルフレーム識別は、音声知覚品質とデータレートとの間の良好なトレードオフを確実にするのを助け得る。そのようなFEC方式は、利用可能な帯域幅を効率的に使用するように、また、レガシー通信デバイスとの後方互換性があるように実施され得る。
[00143]オーディオエンコーダAE10は、動的レート制御モジュールを含むように実施され得る。そのようなモジュールは、所定の目標レートに接近するために2つのステップを実施し得る。第1のステップでは、2つの隣接動作点が決定される。これら2つの隣接動作点は、データレートであってよく、目標データレートの値が2つの動作点の値の間にあるように選択される。目標データレートは、能力要求に基づいて外部で指定されてよい。代替として、目標データレートは、たとえば、チャネル状態情報に基づいて内部で指定されてもよい。そのようなレート制御は、事業者が能力要求に基づいてデータレートを決定し得るように、本明細書で説明するFEC方式が、任意の指定されたデータレートで遂行されることを可能にするように実施され得る。
[00144]図12Aに、一般的構成による信号処理MF100のための装置のブロック図を示す。装置MF100は、(たとえば、タスクT100に関して本明細書で説明するように)オーディオ信号内で第2のフレームに先行する第1のフレームに対するオーディオ信号の第2のフレームのコーディング従属性の推定を計算するための手段F100を含む。装置MF100はまた、(たとえば、タスクT200に関して本明細書で説明するように)送信チャネルの状態に関連する情報に基づいて閾値を計算するための手段F200を含む。装置MF100はまた、(たとえば、タスクT300に関して本明細書で説明するように)計算された推定と計算された閾値とを比較するための手段F300を含む。装置MF100はまた、(たとえば、タスクT350に関して本明細書で説明するように)比較することの結果に基づいて第1のフレームの冗長コピーを送信することを決定するための手段F350を含む。
[00145]図12Bは、(たとえば、タスクT50に関して本明細書で説明するように)第2のフレームに対する適応コードベクトルを生成するために第1のフレームからの情報を使用するための手段F50と、(たとえば、タスクT60に関して本明細書で説明するように)第2のフレームの符号化されたバージョンに対するACB利得値を計算するための手段F60とを同様に含む装置MF100の実装形態MF110のブロック図を示す。この場合、手段F100は、適応コードベクトルおよびACB利得値に基づいて計算される推定を計算するように構成される。
[00146]図13Aは、(たとえば、タスクT70に関して本明細書で説明するように)チャネル状態情報を受信するための手段F70を同様に含む装置MF100の実装形態MF120のブロック図を示す。図13Bは、(たとえば、タスクT400に関して本明細書で説明するように)第1のフレームの冗長コピーを作成するための手段F400と、(たとえば、タスクT500に関して本明細書で説明するように)冗長コピーを含む符号化された信号を作成するための手段F500とを同様に含む装置MF100の実装形態MF200のブロック図を示す。
[00147]図14Aは、本明細書で説明するように、装置MF100の任意の実装形態内で随意に使用され得る手段F200の実装形態の一例F210のブロック図を示す。手段F210は、(たとえば、タスクT210aに関して本明細書で説明するように)送信チャネルの状態に関連する情報に基づく計算された値と境界値とを比較するための手段F210aと、(たとえば、タスクT210bおよびT210cに関して本明細書で説明するように)境界値と前記比較することの結果に応答して、計算された閾値として境界値を選択するための手段F210bとを含む。
[00148]図14Bに、手段F500の実装形態F510を含む装置MF200の実装形態MF210のブロック図を示す。手段F510は、(たとえば、タスクT510aに関して本明細書で説明するように)第1のフレームの主コピーを含む第1のパケットを作成するための手段F510aと、(たとえば、タスクT510bに関して本明細書で説明するように)前記決定することに応答して第1のフレームの冗長コピーと第2のフレームのコピーとを含む第2のパケットを作成するための手段F510bとを含む。図15は、装置MF110、MF120およびMF210の実装形態MF300のブロック図を示す。
[00149]図16Aに、第1の計算器A100と、第2の計算器A200と、モード選択器A300とを含む、一般的構成による装置AP100のブロック図を示す。第1の計算器A100は、(たとえば、タスクT100に関して本明細書で説明するように)オーディオ信号内で第2のフレームに先行する第1のフレームに対するオーディオ信号の第2のフレームのコーディング従属性の推定を計算するように構成される。第2の計算器A200は、(たとえば、タスクT200に関して本明細書で説明するように)送信チャネルの状態に関連する情報に基づいて閾値を計算するように構成される。モード選択器A300は、(たとえば、タスクT300およびT350に関して本明細書で説明するように)計算することの結果に基づいて、(A)計算された推定と計算された閾値とを比較することと、(B)比較することの結果に基づいて第1のフレームの冗長コピーを送信することを決定することとを行うように構成される。
[00150]図16Bは、(たとえば、タスクT50に関して本明細書で説明するように)第1のフレームからの情報を使用して第2のフレームに対する適応コードベクトルを生成するように構成されたベクトル生成器A50と、(たとえば、タスクT60に関して本明細書で説明するように)第2のフレームの符号化されたバージョンに対するACB利得値を計算するように構成された適応コードブック利得計算器A60とを同様に含む装置AP100の実装形態AP110のブロック図を示す。この場合、第1の計算器A100は、適応コードベクトルおよびACB利得値に基づいて計算される推定を計算するように構成される。
[00151]図16Cは、本明細書で説明するように、装置AP100の任意の実装形態内で随意に使用され得る第2の計算器A200の実装形態の一例A210のブロック図を示す。計算器A210は、(たとえば、タスクT210aに関して本明細書で説明するように)送信チャネルの状態に関連する情報に基づく計算された値と境界値とを比較するように構成された比較器A210aと、(たとえば、タスクT210bおよびT210cに関して本明細書で説明するように)境界値と前記比較することの結果に応答して、計算された閾値として境界値を選択するように構成された選択器A210bとを含む。
[00152]図16Dは、(たとえば、タスクT70に関して本明細書で説明するように)チャネル状態情報を受信するように構成されたチャネルデコーダCD11を同様に含む装置AP100の実装形態AP120のブロック図を示す。図16Eは、本明細書で説明するように、装置AP100の任意の実装形態内で随意に使用され得る第2の計算器A200の実装形態の一例A220のブロック図を示す。第2の計算器A220は、(たとえば、タスクT200に関して本明細書で説明するように)チャネル状態情報と、第1の閾値と、第2の閾値とに基づいて計算するように構成された閾値計算器A210cと、第1のフレームおよびオーディオ信号内で第1のフレームに隣接するフレームの中の少なくとも1つからの情報に基づいて、第1および第2の閾値の中から計算された閾値を選択するように構成された閾値選択器A210dとを含む。第2の計算器A200は、(たとえば、閾値選択器A210dが、選択された値を計算された値として比較器A210aに供給するように)計算器A210とA220の両方の実装形態として実装され得る。
[00153]図17Aは、(たとえば、タスクT400に関して本明細書で説明するように)第1のフレームの冗長コピーを作成するように構成されたフレームエンコーダFE10の(たとえば、フレームエンコーダFE20の)実装形態A400を同様に含む装置AP100の実装形態AP200と、(たとえば、タスクT500に関して本明細書で説明するように)冗長コピーを含む符号化された信号を作成するように構成されたチャネルエンコーダCE10の実装形態A500とのブロック図を示す。フレームエンコーダA400は、(たとえば、タスクT400に関して本明細書で説明するように)冗長コピーのサイズを選択すること、またはそのような選択を実行するように構成された装置AP200の別のモジュールからサイズの表示を受信することを行うように構成され得る。
[00154]図17Bに、チャネルエンコーダA500の実装形態A510を含む装置AP200の実装形態AP210のブロック図を示す。チャネルエンコーダA510は、(たとえば、タスクT510aに関して本明細書で説明するように)第1のフレームの主コピーを含む第1のパケットを作成することと、(たとえば、タスクT510bに関して本明細書で説明するように)前記決定することに応答して第1のフレームの冗長コピーと第2のフレームのコピーとを含む第2のパケットを作成することとを行うように構成されたパケットアセンブラA510aを含む。図17Cは、(たとえば、チャネル状態情報および/または第2のフレーム圧縮率に基づくなど、タスクT500に関して本明細書で説明するように)第1のフレームと第2のフレームとの間のオーディオ信号の総フレーム数を示すオフセットの値を決定するように構成されたオフセット計算器A520を含む装置AP210の実装形態AP220のブロック図を示す。
[00155]図18Aは、装置AP110、AP120およびAP210の実装形態AP300のブロック図を示す。図19は、第1のユーザインターフェースUI10のインスタンスを含む装置AP300の実装形態AP400と、装置AP110のインスタンスを含み、インターフェースUI10からのオーディオ情報を圧縮するように配列されたオーディオエンコーダAE10(たとえば、オーディオエンコーダAE20)の実装形態AE30とのブロック図を示す。この場合、フレームエンコーダA400は、(たとえば、タスクT400に関して本明細書で説明するように)冗長コピーのサイズを選択すること、またはそのような選択を実行するように構成されたオーディオエンコーダAE30の別のモジュールからサイズの表示を受信することを行うように構成され得る。
[00156]図9Cは、本明細書で説明するように、装置AP100(またはMF100)の実装形態のうちの任意の1つまたは複数の要素を統合するために実装され得るチップまたはチップセットCS10(たとえば、移動局モデム(MSM)チップセット)を含む通信デバイスD10のブロック図を示す。チップ/チップセットCS10は、装置A100またはMF100のソフトウェアおよび/またはファームウェア部を(たとえば、命令として)実行するように構成され得る、1つまたは複数のプロセッサを含み得る。送信端末102は、デバイスD10の実装形態として実現され得る。
[00157]チップ/チップセットCS10は、無線周波数(RF)通信信号を受信し、RF信号の中に符号化されたオーディオ信号(およびチャネル状態情報)を復号して再生するように構成された無線受信機(たとえば、RX10の実装形態)と、(たとえば、第1のユーザインターフェースUI10に関して本明細書で説明するように)マイクロフォンMV10−1および/またはMV10−3を介して受信されたオーディオ情報に基づく符号化されたオーディオ信号(たとえば、タスクT500によって作成された)を、符号化されたオーディオ信号を記載するRF通信信号として送信チャネルに送信するように構成された無線送信機(たとえば、TX10の実装形態)とを含む。そのようなデバイスは、本明細書で参照されるコーデックのうちの任意の1つまたは複数を介して音声通信データをワイヤレスに送信および受信するように構成され得る。
[00158]デバイスD10は、アンテナC30を介してRF通信信号を受信および送信するように構成される。デバイスD10はまた、アンテナC30への経路中にダイプレクサと1つまたは複数の電力増幅器とを含み得る。また、チップ/チップセットCS10は、キーパッドC10を介してユーザ入力を受信し、ディスプレイC20を介して情報を表示するように構成される。この例では、デバイスD10はまた、全地球測位システム(GPS)位置サービス、および/またはワイヤレス(たとえば、Bluetooth(登録商標))ヘッドセットなどの外部デバイスとの短距離通信をサポートするための、1つまたは複数のアンテナC40を含む。別の例では、そのような通信デバイスは、それ自体がBluetooth(登録商標)ヘッドセットであり、キーパッドC10、ディスプレイC20、およびアンテナC30がない。
[00159]通信デバイスD10は、スマートフォンおよびラップトップおよびタブレットコンピュータを含む、様々な通信デバイスに組み込まれ得る。図20は、1つのそのような例の正面図、背面図、および側面図を示しており、ハンドセットH100(たとえば、スマートフォン)は前面に配列された2つの音声マイクロフォンMV10−1およびMV10−3を有し、音声マイクロフォンMV10−2は背面上に配列され、別のマイクロフォンME10(たとえば、強化された方向選択性のためおよび/またはアクティブ雑音消去動作への入力のためにユーザの耳元の音響誤差をキャプチャするため)は正面の上隅に配置され、別のマイクロフォンMR10(たとえば、強化された方向選択性のためおよび/または背景雑音の基準をキャプチャするため)は背面上に配置される。拡声器LS10が、誤差マイクロフォンME10の近くの、正面の上側の中心に配置され、(たとえばスピーカーフォンアプリケーションで)拡声器LS20L、LS20Rも設けられる。そのようなハンドセットのマイクロフォン間の最大距離は、一般に約10または12センチメートルである。
[00160]図18Bは、本明細書で説明する方法(たとえば、方法M100、M110、M120、M200、M210およびM300のうちの任意の1つまたは複数)を実行するように実施され得るワイヤレスデバイス1102のブロック図を示す。送信端末102は、ワイヤレスデバイス1102の実装形態として実現され得る。ワイヤレスデバイス1102は、遠隔局、アクセス端末、ハンドセット、携帯情報端末(PDA)、セルラー電話などであってよい。
[00161]ワイヤレスデバイス1102は、デバイスの動作を制御するプロセッサ1104を含む。プロセッサ1104は中央処理装置(CPU)とも呼ばれることもある。読取り専用メモリ(ROM)とランダムアクセスメモリ(RAM)の両方を含むことができるメモリ1106は、命令とデータとをプロセッサ1104に与える。メモリ1106の一部は不揮発性ランダムアクセスメモリ(NVRAM)をも含むことができる。プロセッサ1104は一般に、メモリ1106内に記憶されたプログラム命令に基づいて、論理および演算動作を実行する。メモリ1106中の命令は、本明細書で説明する方法(複数可)を実施するために実行可能である。
[00162]ワイヤレスデバイス1102は、ワイヤレスデバイス1102と遠隔地との間のデータの送信および受信を可能にするために送信機1110と受信機1112とを含むことができるハウジング1108を含む。送信機1110と受信機1112とを組み合わせてトランシーバ1114を形成することができる。アンテナ1116は、ハウジング1108に取り付けられ、トランシーバ1114に電気的に結合される。ワイヤレスデバイス1102は、複数の送信機、複数の受信機、複数のトランシーバ、および/または複数のアンテナをも含む(図示せず)ことができる。
[00163]この例では、ワイヤレスデバイス1102は、トランシーバ1114によって受信された信号のレベルを検出し、量子化するために使用され得る、信号検出器1118をも含み得る。信号検出器1118は、総エネルギー、擬似ノイズ(PN)チップ当たりのパイロットエネルギー、電力スペクトル密度、および他の信号などの信号を検出できる。ワイヤレスデバイス1102はまた、信号を処理する際に使用するためのデジタル信号プロセッサ(DSP)1120を含む。
[00164]ワイヤレスデバイス1102の様々な構成要素は、データバスに加えて、電力バスと、制御信号バスと、ステータス信号バスとを含み得る、バスシステム1122によって互いに結合される。明確にするために、様々なバスが、バスシステム1122として図18Bにおいて示されている。
[00165]本明細書で開示した方法および装置は、概して任意の送受信および/または音声感知アプリケーション、特にそのようなアプリケーションのモバイル事例または他の持ち運び可能事例において適用され得る。たとえば、本明細書で開示する構成の範囲は、符号分割多元接続(CDMA)無線インターフェースを採用するように構成されたワイヤレス電話通信システムに常駐する、通信デバイスを含む。しかし、本明細書で説明した特徴を有する方法および装置は、有線および/またはワイヤレス(たとえば、CDMA、TDMA、FDMA、および/またはTD−SCDMA)送信チャネルを介したボイスオーバIP(VoIP)を採用するシステムなど、当業者に知られている広範囲の技術を採用する様々な通信システムのいずれにも常駐し得ることが、当業者には理解されよう。
[00166]本明細書で開示した通信デバイスは、パケット交換式であるネットワーク(たとえば、VoIPなどのプロトコルに従ってオーディオ送信を搬送するように構成されたワイヤードおよび/またはワイヤレスネットワーク)および/または回線交換式であるネットワークにおける使用に適応され得ることが明確に企図され、本明細書によって開示される。また、本明細書で開示した通信デバイスは、狭帯域コーディングシステム(たとえば、約4または5キロヘルツの可聴周波数レンジを符号化するシステム)での使用、ならびに/あるいは全帯域広帯域コーディングシステムおよびスプリットバンド広帯域コーディングシステムを含む、広帯域コーディングシステム(たとえば、5キロヘルツを超える可聴周波数を符号化するシステム)での使用に適応され得ることが明確に企図され、本明細書によって開示される。
[00167]説明した構成の提示は、本明細書で開示する方法および他の構造物を当業者が製造または使用できるように与えたものである。本明細書で図示および説明したフローチャート、ブロック図、および他の構造は例にすぎず、これらの構造の他の変形形態も開示の範囲内である。これらの構成に対する様々な変更が可能であり、本明細書で提示した一般的な原理は他の構成にも同様に適用できる。したがって、本開示は、上に示した構成に限定されるものではなく、原開示の一部をなす、出願した添付の特許請求の範囲を含む、本明細書において任意の方法で開示される原理および新規の特徴に一致する最も広い範囲が与えられるべきである。
[00168]情報および信号は、多種多様な技術および技法のいずれかを使用して表され得ることを当業者なら理解されよう。たとえば、上記の説明全体にわたって言及され得るデータ、命令、コマンド、情報、信号、ビット、およびシンボルは、電圧、電流、電磁波、磁界または磁性粒子、光場または光学粒子、あるいはそれらの任意の組合せによって表され得る。
[00169]本明細書で開示した構成の実装形態の重要な設計要件は、圧縮されたオーディオもしくはオーディオビジュアル情報(たとえば、本明細書で識別される例のうちの1つなど、圧縮形式に従って符号化されるファイルまたはストリーム)の再生などの計算集約的適用例、または広帯域通信(たとえば、12、16、32、44.1、48、または192kHzなど、8キロヘルツよりも高いサンプリングレートにおけるボイス通信)の適用例では特に、(一般に百万命令毎秒またはMIPSで測定される)処理遅延および/または計算複雑さを最小にすることを含み得る。
[00170]本明細書で開示した装置(たとえば、装置MF100、MF110、MF120、MF200、MF210、MF300、AP100、AP110、AP120、AP200、AP210、AP300およびAP400の中の任意の装置)は、意図された適用例に好適と見なされる、ソフトウェアとの、および/またはファームウェアとのハードウェアの任意の組合せで実装され得る。たとえば、そのような装置の要素は、たとえば、同じチップ上に、またはチップセット中の2つ以上のチップ間に常駐する電子デバイスおよび/または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のいずれも1つまたは複数のそのようなアレイとして実装され得る。これらの要素のうちの任意の2つ以上、さらにはすべてが、同じ1つまたは複数のアレイ内に実装され得る。そのような1つまたは複数のアレイは、1つまたは複数のチップ内(たとえば、2つ以上のチップを含むチップセット内)に実装され得る。
[00171]本明細書で開示した装置(たとえば、装置MF100、MF110、MF120、MF200、MF210、MF300、AP100、AP110、AP120、AP200、AP210、AP300およびAP400の中の任意の装置)の様々な実装形態の1つまたは複数の要素は、全体または一部が、マイクロプロセッサ、組込みプロセッサ、IPコア、デジタル信号プロセッサ、FPGA(フィールドプログラマブルゲートアレイ)、ASSP(特定用途向け標準製品)、およびASIC(特定用途向け集積回路)など、論理要素の1つまたは複数の固定アレイまたはプログラマブルアレイ上で実行するように構成された命令の1つまたは複数のセットとして実装され得る。本明細書で開示した装置の実装形態の様々な要素のいずれも、1つまたは複数のコンピュータ(たとえば、「プロセッサ」とも呼ばれる、命令の1つまたは複数のセットまたはシーケンスを実行するようにプログラムされた1つまたは複数のアレイを含む機械)としても実施され得、これらの要素のうちの任意の2つ以上、さらにはすべてが、同じそのような1つまたは複数のコンピュータ内に実装され得る。
[00172]本明細書で開示したプロセッサまたは処理するための他の手段は、たとえば、同じチップ上に、またはチップセット中の2つ以上のチップ上に常駐する、1つまたは複数の電子デバイスおよび/または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のいずれも1つまたは複数のそのようなアレイとして実装され得る。そのような1つまたは複数のアレイは、1つまたは複数のチップ内(たとえば、2つ以上のチップを含むチップセット内)に実装され得る。そのようなアレイの例には、マイクロプロセッサ、組込みプロセッサ、IPコア、DSP、FPGA、ASSP、およびASICなど、論理要素の固定アレイまたはプログラマブルアレイがある。本明細書で開示したプロセッサまたは処理するための他の手段は、1つまたは複数のコンピュータ(たとえば、命令の1つまたは複数のセットまたはシーケンスを実行するようにプログラムされた1つまたは複数のアレイを含む機械)あるいは他のプロセッサとしても実施され得る。本明細書で説明したプロセッサは、プロセッサが組み込まれているデバイスまたはシステム(たとえば、オーディオ感知デバイス)の別の演算に関係するタスクなど、方法M100の実装形態のプロシージャに直接関係しないタスクを実施するかまたは命令の他のセットを実行するために使用することが可能である。また、本明細書で開示した方法の一部はオーディオ感知デバイスのプロセッサによって実行され、その方法の別の一部は1つまたは複数の他のプロセッサの制御下で実行されることが可能である。
[00173]本明細書で開示した構成に関して説明した様々な例示的なモジュール、論理ブロック、回路、およびテストならびに他の動作は、電子ハードウェア、コンピュータソフトウェア、またはその両方の組合せとして実装され得ることを、当業者なら諒解されよう。そのようなモジュール、論理ブロック、回路、および動作は、本明細書で開示した構成を生成するように設計された、汎用プロセッサ、デジタル信号プロセッサ(DSP)、ASICまたはASSP、FPGAまたは他のプログラマブル論理デバイス、個別ゲートまたはトランジスタ論理、個別ハードウェア構成要素、あるいはそれらの任意の組合せを用いて実装または実行され得る。たとえば、そのような構成は、少なくとも部分的に、ハードワイヤード回路として、特定用途向け集積回路へと作製された回路構成として、あるいは不揮発性記憶装置にロードされるファームウェアプログラム、または汎用プロセッサもしくは他のデジタル信号処理ユニットなどの論理要素のアレイによって実行可能な命令である機械可読コードとしてデータ記憶媒体からロードされるかもしくはデータ記憶媒体にロードされるソフトウェアプログラムとして実装され得る。汎用プロセッサはマイクロプロセッサであり得るが、代替として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であり得る。プロセッサは、コンピューティングデバイスの組合せ、たとえば、DSPとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、DSPコアと連携する1つまたは複数のマイクロプロセッサ、あるいは任意の他のそのような構成として実装することもできる。ソフトウェアモジュールは、RAM(ランダムアクセスメモリ)、ROM(読取り専用メモリ)、フラッシュRAMなどの不揮発性RAM(NVRAM)、消去可能プログラマブルROM(EPROM)、電気的消去可能プログラマブルROM(EEPROM(登録商標))、レジスタ、ハードディスク、リムーバブルディスク、またはCD−ROMなど、非一時的記憶媒体中に、あるいは当技術分野で知られている任意の他の形態の記憶媒体中に常駐し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替として、記憶媒体はプロセッサに一体化することができる。プロセッサおよび記憶媒体はASIC中に常駐することができる。ASICは、ユーザ端末内に常駐することができる。代替として、プロセッサおよび記憶媒体は、ユーザ端末内に個別構成要素として常駐することもできる。
[00174]本明細書で開示する様々な方法(たとえば、方法M100、M110、M120、M200、M210およびM300の中の任意の方法)は、プロセッサなどの論理要素のアレイによって実行され得、本明細書で説明する装置の様々な要素は、そのようなアレイ上で実行するように設計されたモジュールとして実装され得ることに留意されたい。本明細書で使用する「モジュール」または「サブモジュール」という用語は、ソフトウェア、ハードウェアまたはファームウェアの形態でコンピュータ命令(たとえば、論理式)を含む任意の方法、装置、デバイス、ユニットまたはコンピュータ可読データ記憶媒体を指すことができる。複数のモジュールまたはシステムを1つのモジュールまたはシステムに結合することができ、1つのモジュールまたはシステムを、同じ機能を実行する複数のモジュールまたはシステムに分離することができることを理解されたい。ソフトウェアまたは他のコンピュータ実行可能命令で実装した場合、プロセスの要素は本質的に、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを用いて関連するタスクを実行するコードセグメントである。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の1つまたは複数のセットまたはシーケンス、およびそのような例の任意の組合せを含むことを理解されたい。プログラムまたはコードセグメントは、プロセッサ可読媒体に記憶され得、あるいは搬送波に埋め込まれたコンピュータデータ信号によって伝送媒体または通信リンクを介して送信され得る。
[00175]本明細書で開示した方法、方式、および技法の実装形態は、(たとえば、本明細書に記載する1つまたは複数のコンピュータ可読記憶媒体の有形のコンピュータ可読特徴において)論理要素のアレイ(たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)を含む機械によって実行可能な命令の1つまたは複数のセットとしても有形に実施され得る。「コンピュータ可読媒体」という用語は、情報を記憶または転送することができる、揮発性の、不揮発性の、取外し可能な、および取外し不可能な記憶媒体を含む、任意の媒体を含み得る。コンピュータ可読媒体の例には、電子回路、半導体メモリデバイス、ROM、フラッシュメモリ、消去可能ROM(EROM)、フロッピー(登録商標)ディスケットもしくは他の磁気ストレージ、CD−ROM/DVDもしくは他の光ストレージ、ハードディスクもしくは所望の情報を記憶するために使用され得る任意の他の媒体、光ファイバー媒体、高周波(RF)リンク、または、所望の情報を搬送するために使用されアクセスされ得る任意の他の媒体がある。コンピュータデータ信号は、電子ネットワークチャネル、光ファイバー、無線リンク、電磁リンク、RFリンクなどの伝送媒体を介して伝播することができる、任意の信号を含み得る。コードセグメントは、インターネットまたはイントラネットなどのコンピュータネットワークを介してダウンロードされ得る。いずれの場合も、本開示の範囲は、そのような実施形態によって限定されると解釈すべきではない。
[00176]本明細書で説明した方法のタスクの各々は、ハードウェアで直接実施されてもよく、プロセッサによって実行されるソフトウェアモジュールで実施されてもよく、またはその2つの組合せで実施されてもよい。本明細書で開示する方法の実装形態の典型的な適用例では、論理要素のアレイ(たとえば、論理ゲート)は、この方法の様々なタスクのうちの1つ、複数、さらにはすべてを実行するように構成される。タスクの1つまたは複数(場合によってはすべて)は、論理要素のアレイ(たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)を含む機械(たとえば、コンピュータ)によって読取り可能および/または実行可能である、コンピュータプログラム製品(たとえば、ディスク、フラッシュもしくは他の不揮発性メモリカード、半導体メモリチップなどの1つまたは複数のデータ記憶媒体など)に埋め込まれたコード(たとえば、命令の1つまたは複数のセット)としても実装され得る。本明細書で開示した方法の実装形態のタスクは、2つ以上のそのようなアレイまたは機械によっても実行され得る。これらまたは他の実装形態では、タスクは、セルラー電話など、ワイヤレス通信用のデバイス、またはそのような通信機能を有する他のデバイス内で実行され得る。そのようなデバイスは、(たとえば、VoIPなどの1つまたは複数のプロトコルを使用して)回線交換および/またはパケット交換ネットワークと通信するように構成され得る。たとえば、そのようなデバイスは、符号化フレームを受信および/または送信するように構成されたRF回路を含み得る。
[00177]本明細書で開示した様々な方法は、ハンドセット、ヘッドセット、または携帯情報端末(PDA)などのポータブル通信デバイスによって実行されてよく、本明細書で説明した様々な装置は、そのようなデバイス内に含まれ得ることが明確に開示される。典型的なリアルタイム(たとえば、オンライン)アプリケーションは、そのようなモバイルデバイスを使用して行われる、電話による会話である。
[00178]1つまたは複数の例示的な実施形態では、本明細書で説明した動作は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実施され得る。ソフトウェアで実施される場合、そのような動作は、1つまたは複数の命令またはコードとしてコンピュータ可読媒体に記憶され得るか、あるいはコンピュータ可読媒体を介して送信され得る。「コンピュータ可読媒体」という用語は、コンピュータ可読記憶媒体と通信(たとえば、伝送)媒体の両方を含む。限定ではなく、例として、コンピュータ可読記憶媒体は、(限定はしないが、ダイナミックRAMもしくはスタティックRAM、ROM、EEPROM、および/またはフラッシュRAMを含み得る)半導体メモリ、または強誘電体メモリ、磁気抵抗メモリ、オボニックメモリ、高分子メモリ、または相変化メモリなどの記憶要素のアレイ、CD−ROMもしくは他の光ディスクストレージ、および/または、磁気ディスクストレージもしくは他の磁気ストレージデバイスを備え得る。そのような記憶媒体は、コンピュータによってアクセスされ得る命令またはデータ構造の形態で情報を記憶し得る。通信媒体は、ある場所から別の場所へのコンピュータプログラムの転送を可能にする任意の媒体を含む、命令またはデータ構造の形態の所望のプログラムコードを搬送するために使用されコンピュータによってアクセスされ得る、任意の媒体を備え得る。同様に、いかなる接続も適切にコンピュータ可読媒体と称される。たとえば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL)、または、赤外線、無線、および/もしくはマイクロ波のようなワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、DSL、または、赤外線、無線、および/もしくはマイクロ波のようなワイヤレス技術は、媒体の定義に含まれる。本明細書で使用するディスク(disk)およびディスク(disc)は、コンパクトディスク(disc)(CD)、レーザーディスク(登録商標)(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピーディスク(disk)およびブルーレイ(登録商標)ディスク(disc)(Blu−Ray(登録商標) Disc Association、カリフォルニア州ユニヴァーサルシティー)を含み、ディスク(disk)は、通常、データを磁気的に再生し、ディスク(disc)はデータをレーザで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含めるべきである。
[00179]本明細書で説明した音響信号処理装置は、いくつかの動作を制御するために音声入力を受容し、あるいは背景雑音から所望の雑音を分離することから利益を得ることがある、通信デバイスなどの電子デバイスに組み込まれ得る。多くの適用例では、複数の方向から発生した背景音から明瞭な所望の音を強調または分離することから利益を得ることがある。そのような適用例は、ボイス認識および検出、音声強調および分離、ボイスアクティブ化制御などの機能を組み込んだ電子デバイスまたはコンピューティングデバイスにおけるヒューマンマシンインターフェースを含み得る。そのような音響信号処理装置を、限定された処理機能のみを与えるデバイスに適するように実装するのが望ましいことがある。
[00180]本明細書で説明したモジュール、要素、およびデバイスの様々な実装形態の要素は、たとえば、同じチップ上に、またはチップセット中の2つ以上のチップ上に常駐する、電子デバイスおよび/または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたはゲートなど、論理要素の固定アレイまたはプログラマブルアレイである。本明細書で説明した装置の様々な実装形態の1つまたは複数の要素は、全体または一部が、マイクロプロセッサ、組込みプロセッサ、IPコア、デジタル信号プロセッサ、FPGA、ASSP、およびASICなど、論理要素の1つまたは複数の固定アレイまたはプログラマブルアレイ上で実行するように構成された命令の1つまたは複数のセットとしても実装され得る。
[00181]本明細書で説明した装置の一実装形態の1つまたは複数の要素は、装置が組み込まれているデバイスまたはシステムの別の動作に関係するタスクなど、装置の動作に直接関係しないタスクを実施し、あるいは装置の動作に直接関係しない命令の他のセットを実行するために使用することが可能である。また、そのような装置の実装形態の1つまたは複数の要素は、共通の構造(たとえば、異なる要素に対応するコードの部分を異なる時間に実行するために使用されるプロセッサ、異なる要素に対応するタスクを異なる時間に実施するために実行される命令のセット、あるいは、異なる要素向けの動作を異なる時間に実行する電子デバイスおよび/または光デバイスの構成)を有することが可能である。
[00181]本明細書で説明した装置の一実装形態の1つまたは複数の要素は、装置が組み込まれているデバイスまたはシステムの別の動作に関係するタスクなど、装置の動作に直接関係しないタスクを実施し、あるいは装置の動作に直接関係しない命令の他のセットを実行するために使用することが可能である。また、そのような装置の実装形態の1つまたは複数の要素は、共通の構造(たとえば、異なる要素に対応するコードの部分を異なる時間に実行するために使用されるプロセッサ、異なる要素に対応するタスクを異なる時間に実施するために実行される命令のセット、あるいは、異なる要素向けの動作を異なる時間に実行する電子デバイスおよび/または光デバイスの構成)を有することが可能である。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[C1]
オーディオ信号処理の方法であって、
オーディオ信号内で第2のフレームに先行する第1のフレームに対する前記オーディオ信号の前記第2のフレームのコーディング従属性の推定を計算することと、
送信チャネルの状態に関連する情報に基づいて、閾値を計算することと、
前記計算された推定と前記計算された閾値とを比較することと、
前記比較することの結果に基づいて、前記第1のフレームの冗長コピーを送信することを決定することと
を備える、方法。
[C2]
前記計算された推定が、前記第1のフレームからの情報に基づく、C1に記載の方法。
[C3]
前記第1のフレームからの前記情報を使用して適応コードベクトルを生成することを含み、
前記計算された推定が、前記適応コードベクトルからの情報に基づく、C2に記載の方法。
[C4]
前記計算された推定が、前記第2のフレームの符号化されたバージョンからの情報に基づく、C1から3のいずれか一項に記載の方法。
[C5]
前記計算された推定が、前記第2のフレームの符号化されたバージョンの適応コードブック利得値に基づく、C1から3のいずれか一項に記載の方法。
[C6]
前記計算された推定が、前記第2のフレームの第1の符号化されたバージョンからの情報と、前記第2のフレームの第2の符号化されたバージョンからの情報とに基づき、
前記第1の符号化されたバージョンが、前記第1のフレームの符号化されたバージョンからの情報を使用して符号化され、
前記第2の符号化されたバージョンが、前記第1のフレームの前記符号化されたバージョンからの前記情報を使用しないで符号化される、C1に記載の方法。
[C7]
前記送信チャネルの前記状態に関連する前記情報が、失われたパケットの数を含み、
前記計算された閾値が、前記失われたパケットの数に基づく、C1から6のいずれか一項に記載の方法。
[C8]
前記送信チャネルの前記状態に関連する前記情報が、受信されたパケットの移動時間に基づくジッタ値を含み、
前記計算された閾値が、前記ジッタ値に基づく、C1から7のいずれか一項に記載の方法。
[C9]
ワイヤレス送信チャネルを介する前記送信チャネルの前記状態に関連する前記情報を受信することを含む、C1から8のいずれか一項に記載の方法。
[C10]
前記閾値を前記計算することが、前記計算された閾値に対して最小値を強制することを備える、C1から9のいずれか一項に記載の方法。
[C11]
前記閾値を前記計算することが、
前記送信チャネルの前記状態に関連する前記情報に基づく計算された値と境界値とを比較することと、
前記境界値と前記比較することの結果に応答して、前記境界値を前記計算された閾値として選択することとを備える、C1から9のいずれか一項に記載の方法。
[C12]
前記第1のフレームを符号化して前記第1のフレームの主コピーを作成することと、
前記第1のフレームの前記冗長コピーを作成することと、
前記主コピーと前記冗長コピーとを含む符号化された信号を作成することとを備える、C1から11のいずれか一項に記載の方法。
[C13]
前記第1のフレームの前記主コピーが、長さLの第1の代数的コードベクトルの単位パルスの総数P1の各々に対する位置を示す第1のコード語を含み、
前記第1のフレームの前記冗長コピーが、長さLの第2の代数的コードベクトルの単位パルスの総数P2の各々に対する位置を示す第2のコード語を含み、
P1がP2より大きい、C12に記載の方法。
[C14]
前記符号化された信号を前記作成することが、
前記第1のフレームの前記主コピーを含む第1のパケットを作成することと、
前記決定することに応答して、前記第1のフレームの前記冗長コピーと前記第2のフレームのコピーとを含む第2のパケットを作成することとを備え、
前記符号化された信号が前記第1のパケットおよび前記第2のパケットを含む、C12または13に記載の方法。
[C15]
前記符号化された信号を前記送信チャネルに送信することを含む、C12から14のいずれか一項に記載の方法。
[C16]
前記第1のフレームと前記第2のフレームとの間の前記オーディオ信号のフレームの総数を示すオフセットの値を決定することを含む、C1から15のいずれか一項に記載の方法。
[C17]
前記閾値を前記計算することが、
前記送信チャネルの前記状態に関連する前記情報に基づいて、第1の閾値と第2の閾値とを計算することと、
前記第1のフレームと、前記オーディオ信号内で前記第1のフレームに隣接するフレームとのうちの少なくとも1つからの情報に基づいて、前記第1の閾値と前記第2の閾値とのうちから前記計算された閾値を選択することとを備える、C1から16のいずれか一項に記載の方法。
[C18]
オーディオ信号処理のための装置であって、
オーディオ信号内で第2のフレームに先行する第1のフレームに対する前記オーディオ信号の前記第2のフレームのコーディング従属性の推定を計算するための手段と、
送信チャネルの状態に関連する情報に基づいて閾値を計算するための手段と、
前記計算された推定と前記計算された閾値とを比較するための手段と、
前記比較することの結果に基づいて、前記第1のフレームの冗長コピーを送信することを決定するための手段と
を備える、装置。
[C19]
前記計算された推定が、前記第1のフレームからの情報に基づく、C18に記載の装置。
[C20]
前記第1のフレームからの前記情報を使用して適応コードベクトルを生成するための手段を含み、
前記計算された推定が、前記適応コードベクトルからの情報に基づく、C19に記載の装置。
[C21]
前記計算された推定が、前記第2のフレームの符号化されたバージョンからの情報に基づく、C18から20のいずれか一項に記載の装置。
[C22]
前記計算された推定が、前記第2のフレームの符号化されたバージョンの適応コードブック利得値に基づく、C18から20のいずれか一項に記載の装置。
[C23]
前記計算された推定が、前記第2のフレームの第1の符号化されたバージョンからの情報と、前記第2のフレームの第2の符号化されたバージョンからの情報とに基づき、
前記第1の符号化されたバージョンが、前記第1のフレームの符号化されたバージョンからの情報を使用して符号化され、
前記第2の符号化されたバージョンが、前記第1のフレームの前記符号化されたバージョンからの前記情報を使用しないで符号化される、C18に記載の装置。
[C24]
前記送信チャネルの前記状態に関連する前記情報が、失われたパケットの数を含み、
前記計算された閾値が、前記失われたパケットの数に基づく、C18から23のいずれか一項に記載の装置。
[C25]
前記送信チャネルの前記状態に関連する前記情報が、受信されたパケットの移動時間に基づくジッタ値を含み、
前記計算された閾値が、前記ジッタ値に基づく、C18から24のいずれか一項に記載の装置。
[C26]
ワイヤレス送信チャネルを介する前記送信チャネルの前記状態に関連する前記情報を受信するための手段を含む、C18から25のいずれか一項に記載の装置。
[C27]
前記閾値を計算するための前記手段が、前記計算された閾値に対して最小値を強制するように構成される、C18から26のいずれか一項に記載の装置。
[C28]
前記閾値を計算するための前記手段が、
前記送信チャネルの前記状態に関連する前記情報に基づく計算された値と境界値とを比較するための手段と、
前記境界値と前記比較することの結果に応答して、前記計算された閾値として前記境界値を選択するための手段とを備える、C18から26のいずれか一項に記載の装置。
[C29]
前記第1のフレームを符号化して前記第1のフレームの主コピーを作成するための手段と、
前記第1のフレームの前記冗長コピーを作成するための手段と、
前記主コピーと前記冗長コピーとを含む符号化された信号を作成するための手段とを備える、C18から28のいずれか一項に記載の装置。
[C30]
前記第1のフレームの前記主コピーが、長さLの第1の代数的コードベクトルの単位パルスの総数P1の各々に対する位置を示す第1のコード語を含み、
前記第1のフレームの前記冗長コピーが、長さLの第2の代数的コードベクトルの単位パルスの総数P2の各々に対する位置を示す第2のコード語を含み、
P1がP2より大きい、C29に記載の装置。
[C31]
前記符号化された信号を作成するための前記手段が、
前記第1のフレームの前記主コピーを含む第1のパケットを作成するための手段と、
前記決定することに応答して、前記第1のフレームの前記冗長コピーと前記第2のフレームのコピーとを含む第2のパケットを作成するための手段とを備え、
前記符号化された信号が前記第1のパケットおよび前記第2のパケットを含む、C29または30に記載の装置。
[C32]
前記符号化された信号を前記送信チャネルに送信するための手段を含む、C29から31のいずれか一項に記載の装置。
[C33]
前記第1のフレームと前記第2のフレームとの間の前記オーディオ信号のフレームの総数を示すオフセットの値を決定するための手段を含む、C18から32のいずれか一項に記載の装置。
[C34]
前記閾値を計算するための前記手段が、
前記送信チャネルの前記状態に関連する前記情報に基づいて、第1の閾値と第2の閾値とを計算するための手段と、
前記第1のフレームと、前記オーディオ信号内で前記第1のフレームに隣接するフレームとのうちの少なくとも1つからの情報に基づいて、前記第1の閾値と前記第2の閾値とのうちから前記計算された閾値を選択するための手段とを備える、C18から33のいずれか一項に記載の装置。
[C35]
オーディオ信号処理のための装置であって、
オーディオ信号内で第2のフレームに先行する第1のフレームに対する前記オーディオ信号の前記第2のフレームのコーディング従属性の推定を計算するように構成された第1の計算器と、
送信チャネルの状態に関連する情報に基づいて、閾値を計算するように構成された第2の計算器と、
(A)前記計算された推定と前記計算された閾値とを比較することと、(B)前記比較することの結果に基づいて、前記第1のフレームの冗長コピーを送信することを決定することとを行うように構成されたモード選択器とを備える、装置。
[C36]
前記計算された推定が、前記第1のフレームからの情報に基づく、C35に記載の装置。
[C37]
前記第1のフレームからの前記情報が励振信号を含み、
前記装置が、前記励振信号からの情報を使用して適応コードベクトルを作成するように構成されたベクトル生成器を含み、
前記計算された推定が、前記適応コードベクトルに基づく、C36に記載の装置。
[C38]
前記計算された推定が、前記第2のフレームの符号化されたバージョンからの情報に基づく、C35から37のいずれか一項に記載の装置。
[C39]
前記計算された推定が、前記第2のフレームの符号化されたバージョンの適応コードブック利得値に基づく、C35から37のいずれか一項に記載の装置。
[C40]
前記計算された推定が、前記第2のフレームの第1の符号化されたバージョンからの情報と、前記第2のフレームの第2の符号化されたバージョンからの情報とに基づき、
前記第1の符号化されたバージョンが、前記第1のフレームの符号化されたバージョンからの情報を使用して符号化され、
前記第2の符号化されたバージョンが、前記第1のフレームの前記符号化されたバージョンからの前記情報を使用しないで符号化される、C35に記載の装置。
[C41]
前記送信チャネルの前記状態に関連する前記情報が、失われたパケットの数を含み、
前記計算された閾値が、前記失われたパケットの数に基づく、C35から40のいずれか一項に記載の装置。
[C42]
前記送信チャネルの前記状態に関連する前記情報が、受信されたパケットの移動時間に基づくジッタ値を含み、
前記計算された閾値が、前記ジッタ値に基づく、C35から41のいずれか一項に記載の装置。
[C43]
ワイヤレス送信チャネルを介する前記送信チャネルの前記状態に関連する前記情報を受信するように構成されたチャネルデコーダを含む、C35から42のいずれか一項に記載の装置。
[C44]
前記第2の計算器が、前記計算された閾値に対して最小値を強制するように構成される、C35から43のいずれか一項に記載の装置。
[C45]
前記第2の計算器が、
前記送信チャネルの前記状態に関連する前記情報に基づく計算された値と境界値とを比較するように構成された比較器と、
前記境界値と前記比較することの結果に応答して、前記計算された閾値として前記境界値を選択するように構成された選択器とを備える、C35から43のいずれか一項に記載の装置。
[C46]
前記第1のフレームを符号化して、(A)前記第1のフレームの主コピーと(B)前記第1のフレームの前記冗長コピーとを作成するように構成されたフレームエンコーダと、
前記主コピーと前記冗長コピーとを含む符号化された信号を作成するように構成されたチャネルエンコーダとを備える、C35から45のいずれか一項に記載の装置。
[C47]
前記第1のフレームの前記主コピーが、長さLの第1の代数的コードベクトルの単位パルスの総数P1の各々に対する位置を示す第1のコード語を含み、
前記第1のフレームの前記冗長コピーが、長さLの第2の代数的コードベクトルの単位パルスの総数P2の各々に対する位置を示す第2のコード語を含み、
P1がP2より大きい、C46に記載の装置。
[C48]
前記チャネルエンコーダが、(A)前記第1のフレームの前記主コピーを含む第1のパケットと(B)前記第1のフレームの前記冗長コピーと前記第2のフレームのコピーとを含む第2のパケットとを作成するように構成されたパケットアセンブラを備え、
前記符号化された信号が前記第1のパケットおよび前記第2のパケットを含む、C46または47に記載の装置。
[C49]
前記符号化された信号を前記送信チャネルに送信するように構成された無線送信機を含む、C46から48のいずれか一項に記載の装置。
[C50]
前記第1のフレームと前記第2のフレームとの間の前記オーディオ信号のフレームの総数を示すオフセットの値を決定するように構成されたオフセット計算器を含む、C35から49のいずれか一項に記載の装置。
[C51]
前記第2の計算器が、
前記送信チャネルの前記状態に関連する前記情報に基づいて、第1の閾値と第2の閾値とを計算するように構成された閾値計算器と、
前記第1のフレームと、前記オーディオ信号内で前記第1のフレームに隣接するフレームとのうちの少なくとも1つからの情報に基づいて、前記第1の閾値と前記第2の閾値とのうちから前記計算された閾値を選択するように構成された閾値計算器とを備える、C35から50のいずれか一項に記載の装置。
[C52]
有形な特徴を有する非一時的コンピュータ可読データ記憶媒体であって、前記有形な特徴が、前記特徴を読み取る機械に、C1から17のいずれか一項に記載の方法を実行させる、非一時的コンピュータ可読データ記憶媒体。

Claims (52)

  1. オーディオ信号処理の方法であって、
    オーディオ信号内で第2のフレームに先行する第1のフレームに対する前記オーディオ信号の前記第2のフレームのコーディング従属性の推定を計算することと、
    送信チャネルの状態に関連する情報に基づいて、閾値を計算することと、
    前記計算された推定と前記計算された閾値とを比較することと、
    前記比較することの結果に基づいて、前記第1のフレームの冗長コピーを送信することを決定することとを備える、方法。
  2. 前記計算された推定が、前記第1のフレームからの情報に基づく、請求項1に記載の方法。
  3. 前記第1のフレームからの前記情報を使用して適応コードベクトルを生成することを含み、
    前記計算された推定が、前記適応コードベクトルからの情報に基づく、請求項2に記載の方法。
  4. 前記計算された推定が、前記第2のフレームの符号化されたバージョンからの情報に基づく、請求項1から3のいずれか一項に記載の方法。
  5. 前記計算された推定が、前記第2のフレームの符号化されたバージョンの適応コードブック利得値に基づく、請求項1から3のいずれか一項に記載の方法。
  6. 前記計算された推定が、前記第2のフレームの第1の符号化されたバージョンからの情報と、前記第2のフレームの第2の符号化されたバージョンからの情報とに基づき、
    前記第1の符号化されたバージョンが、前記第1のフレームの符号化されたバージョンからの情報を使用して符号化され、
    前記第2の符号化されたバージョンが、前記第1のフレームの前記符号化されたバージョンからの前記情報を使用しないで符号化される、請求項1に記載の方法。
  7. 前記送信チャネルの前記状態に関連する前記情報が、失われたパケットの数を含み、
    前記計算された閾値が、前記失われたパケットの数に基づく、請求項1から6のいずれか一項に記載の方法。
  8. 前記送信チャネルの前記状態に関連する前記情報が、受信されたパケットの移動時間に基づくジッタ値を含み、
    前記計算された閾値が、前記ジッタ値に基づく、請求項1から7のいずれか一項に記載の方法。
  9. ワイヤレス送信チャネルを介する前記送信チャネルの前記状態に関連する前記情報を受信することを含む、請求項1から8のいずれか一項に記載の方法。
  10. 前記閾値を前記計算することが、前記計算された閾値に対して最小値を強制することを備える、請求項1から9のいずれか一項に記載の方法。
  11. 前記閾値を前記計算することが、
    前記送信チャネルの前記状態に関連する前記情報に基づく計算された値と境界値とを比較することと、
    前記境界値と前記比較することの結果に応答して、前記境界値を前記計算された閾値として選択することと
    を備える、請求項1から9のいずれか一項に記載の方法。
  12. 前記第1のフレームを符号化して前記第1のフレームの主コピーを作成することと、
    前記第1のフレームの前記冗長コピーを作成することと、
    前記主コピーと前記冗長コピーとを含む符号化された信号を作成することとを備える、請求項1から11のいずれか一項に記載の方法。
  13. 前記第1のフレームの前記主コピーが、長さLの第1の代数的コードベクトルの単位パルスの総数P1の各々に対する位置を示す第1のコード語を含み、
    前記第1のフレームの前記冗長コピーが、長さLの第2の代数的コードベクトルの単位パルスの総数P2の各々に対する位置を示す第2のコード語を含み、
    P1がP2より大きい、請求項12に記載の方法。
  14. 前記符号化された信号を前記作成することが、
    前記第1のフレームの前記主コピーを含む第1のパケットを作成することと、
    前記決定することに応答して、前記第1のフレームの前記冗長コピーと前記第2のフレームのコピーとを含む第2のパケットを作成することとを備え、
    前記符号化された信号が前記第1のパケットおよび前記第2のパケットを含む、請求項12または13に記載の方法。
  15. 前記符号化された信号を前記送信チャネルに送信することを含む、請求項12から14のいずれか一項に記載の方法。
  16. 前記第1のフレームと前記第2のフレームとの間の前記オーディオ信号のフレームの総数を示すオフセットの値を決定することを含む、請求項1から15のいずれか一項に記載の方法。
  17. 前記閾値を前記計算することが、
    前記送信チャネルの前記状態に関連する前記情報に基づいて、第1の閾値と第2の閾値とを計算することと、
    前記第1のフレームと、前記オーディオ信号内で前記第1のフレームに隣接するフレームとのうちの少なくとも1つからの情報に基づいて、前記第1の閾値と前記第2の閾値とのうちから前記計算された閾値を選択することとを備える、請求項1から16のいずれか一項に記載の方法。
  18. オーディオ信号処理のための装置であって、
    オーディオ信号内で第2のフレームに先行する第1のフレームに対する前記オーディオ信号の前記第2のフレームのコーディング従属性の推定を計算するための手段と、
    送信チャネルの状態に関連する情報に基づいて閾値を計算するための手段と、
    前記計算された推定と前記計算された閾値とを比較するための手段と、
    前記比較することの結果に基づいて、前記第1のフレームの冗長コピーを送信することを決定するための手段と
    を備える、装置。
  19. 前記計算された推定が、前記第1のフレームからの情報に基づく、請求項18に記載の装置。
  20. 前記第1のフレームからの前記情報を使用して適応コードベクトルを生成するための手段を含み、
    前記計算された推定が、前記適応コードベクトルからの情報に基づく、請求項19に記載の装置。
  21. 前記計算された推定が、前記第2のフレームの符号化されたバージョンからの情報に基づく、請求項18から20のいずれか一項に記載の装置。
  22. 前記計算された推定が、前記第2のフレームの符号化されたバージョンの適応コードブック利得値に基づく、請求項18から20のいずれか一項に記載の装置。
  23. 前記計算された推定が、前記第2のフレームの第1の符号化されたバージョンからの情報と、前記第2のフレームの第2の符号化されたバージョンからの情報とに基づき、
    前記第1の符号化されたバージョンが、前記第1のフレームの符号化されたバージョンからの情報を使用して符号化され、
    前記第2の符号化されたバージョンが、前記第1のフレームの前記符号化されたバージョンからの前記情報を使用しないで符号化される、請求項18に記載の装置。
  24. 前記送信チャネルの前記状態に関連する前記情報が、失われたパケットの数を含み、
    前記計算された閾値が、前記失われたパケットの数に基づく、請求項18から23のいずれか一項に記載の装置。
  25. 前記送信チャネルの前記状態に関連する前記情報が、受信されたパケットの移動時間に基づくジッタ値を含み、
    前記計算された閾値が、前記ジッタ値に基づく、請求項18から24のいずれか一項に記載の装置。
  26. ワイヤレス送信チャネルを介する前記送信チャネルの前記状態に関連する前記情報を受信するための手段を含む、請求項18から25のいずれか一項に記載の装置。
  27. 前記閾値を計算するための前記手段が、前記計算された閾値に対して最小値を強制するように構成される、請求項18から26のいずれか一項に記載の装置。
  28. 前記閾値を計算するための前記手段が、
    前記送信チャネルの前記状態に関連する前記情報に基づく計算された値と境界値とを比較するための手段と、
    前記境界値と前記比較することの結果に応答して、前記計算された閾値として前記境界値を選択するための手段とを備える、請求項18から26のいずれか一項に記載の装置。
  29. 前記第1のフレームを符号化して前記第1のフレームの主コピーを作成するための手段と、
    前記第1のフレームの前記冗長コピーを作成するための手段と、
    前記主コピーと前記冗長コピーとを含む符号化された信号を作成するための手段とを備える、請求項18から28のいずれか一項に記載の装置。
  30. 前記第1のフレームの前記主コピーが、長さLの第1の代数的コードベクトルの単位パルスの総数P1の各々に対する位置を示す第1のコード語を含み、
    前記第1のフレームの前記冗長コピーが、長さLの第2の代数的コードベクトルの単位パルスの総数P2の各々に対する位置を示す第2のコード語を含み、
    P1がP2より大きい、請求項29に記載の装置。
  31. 前記符号化された信号を作成するための前記手段が、
    前記第1のフレームの前記主コピーを含む第1のパケットを作成するための手段と、
    前記決定することに応答して、前記第1のフレームの前記冗長コピーと前記第2のフレームのコピーとを含む第2のパケットを作成するための手段とを備え、
    前記符号化された信号が前記第1のパケットおよび前記第2のパケットを含む、請求項29または30に記載の装置。
  32. 前記符号化された信号を前記送信チャネルに送信するための手段を含む、請求項29から31のいずれか一項に記載の装置。
  33. 前記第1のフレームと前記第2のフレームとの間の前記オーディオ信号のフレームの総数を示すオフセットの値を決定するための手段を含む、請求項18から32のいずれか一項に記載の装置。
  34. 前記閾値を計算するための前記手段が、
    前記送信チャネルの前記状態に関連する前記情報に基づいて、第1の閾値と第2の閾値とを計算するための手段と、
    前記第1のフレームと、前記オーディオ信号内で前記第1のフレームに隣接するフレームとのうちの少なくとも1つからの情報に基づいて、前記第1の閾値と前記第2の閾値とのうちから前記計算された閾値を選択するための手段とを備える、請求項18から33のいずれか一項に記載の装置。
  35. オーディオ信号処理のための装置であって、
    オーディオ信号内で第2のフレームに先行する第1のフレームに対する前記オーディオ信号の前記第2のフレームのコーディング従属性の推定を計算するように構成された第1の計算器と、
    送信チャネルの状態に関連する情報に基づいて、閾値を計算するように構成された第2の計算器と、
    (A)前記計算された推定と前記計算された閾値とを比較することと、(B)前記比較することの結果に基づいて、前記第1のフレームの冗長コピーを送信することを決定することとを行うように構成されたモード選択器とを備える、装置。
  36. 前記計算された推定が、前記第1のフレームからの情報に基づく、請求項35に記載の装置。
  37. 前記第1のフレームからの前記情報が励振信号を含み、
    前記装置が、前記励振信号からの情報を使用して適応コードベクトルを作成するように構成されたベクトル生成器を含み、
    前記計算された推定が、前記適応コードベクトルに基づく、請求項36に記載の装置。
  38. 前記計算された推定が、前記第2のフレームの符号化されたバージョンからの情報に基づく、請求項35から37のいずれか一項に記載の装置。
  39. 前記計算された推定が、前記第2のフレームの符号化されたバージョンの適応コードブック利得値に基づく、請求項35から37のいずれか一項に記載の装置。
  40. 前記計算された推定が、前記第2のフレームの第1の符号化されたバージョンからの情報と、前記第2のフレームの第2の符号化されたバージョンからの情報とに基づき、
    前記第1の符号化されたバージョンが、前記第1のフレームの符号化されたバージョンからの情報を使用して符号化され、
    前記第2の符号化されたバージョンが、前記第1のフレームの前記符号化されたバージョンからの前記情報を使用しないで符号化される、請求項35に記載の装置。
  41. 前記送信チャネルの前記状態に関連する前記情報が、失われたパケットの数を含み、
    前記計算された閾値が、前記失われたパケットの数に基づく、請求項35から40のいずれか一項に記載の装置。
  42. 前記送信チャネルの前記状態に関連する前記情報が、受信されたパケットの移動時間に基づくジッタ値を含み、
    前記計算された閾値が、前記ジッタ値に基づく、請求項35から41のいずれか一項に記載の装置。
  43. ワイヤレス送信チャネルを介する前記送信チャネルの前記状態に関連する前記情報を受信するように構成されたチャネルデコーダを含む、請求項35から42のいずれか一項に記載の装置。
  44. 前記第2の計算器が、前記計算された閾値に対して最小値を強制するように構成される、請求項35から43のいずれか一項に記載の装置。
  45. 前記第2の計算器が、
    前記送信チャネルの前記状態に関連する前記情報に基づく計算された値と境界値とを比較するように構成された比較器と、
    前記境界値と前記比較することの結果に応答して、前記計算された閾値として前記境界値を選択するように構成された選択器とを備える、請求項35から43のいずれか一項に記載の装置。
  46. 前記第1のフレームを符号化して、(A)前記第1のフレームの主コピーと(B)前記第1のフレームの前記冗長コピーとを作成するように構成されたフレームエンコーダと、
    前記主コピーと前記冗長コピーとを含む符号化された信号を作成するように構成されたチャネルエンコーダとを備える、請求項35から45のいずれか一項に記載の装置。
  47. 前記第1のフレームの前記主コピーが、長さLの第1の代数的コードベクトルの単位パルスの総数P1の各々に対する位置を示す第1のコード語を含み、
    前記第1のフレームの前記冗長コピーが、長さLの第2の代数的コードベクトルの単位パルスの総数P2の各々に対する位置を示す第2のコード語を含み、
    P1がP2より大きい、請求項46に記載の装置。
  48. 前記チャネルエンコーダが、(A)前記第1のフレームの前記主コピーを含む第1のパケットと(B)前記第1のフレームの前記冗長コピーと前記第2のフレームのコピーとを含む第2のパケットとを作成するように構成されたパケットアセンブラを備え、
    前記符号化された信号が前記第1のパケットおよび前記第2のパケットを含む、請求項46または47に記載の装置。
  49. 前記符号化された信号を前記送信チャネルに送信するように構成された無線送信機を含む、請求項46から48のいずれか一項に記載の装置。
  50. 前記第1のフレームと前記第2のフレームとの間の前記オーディオ信号のフレームの総数を示すオフセットの値を決定するように構成されたオフセット計算器を含む、請求項35から49のいずれか一項に記載の装置。
  51. 前記第2の計算器が、
    前記送信チャネルの前記状態に関連する前記情報に基づいて、第1の閾値と第2の閾値とを計算するように構成された閾値計算器と、
    前記第1のフレームと、前記オーディオ信号内で前記第1のフレームに隣接するフレームとのうちの少なくとも1つからの情報に基づいて、前記第1の閾値と前記第2の閾値とのうちから前記計算された閾値を選択するように構成された閾値計算器とを備える、請求項35から50のいずれか一項に記載の装置。
  52. 有形な特徴を有する非一時的コンピュータ可読データ記憶媒体であって、前記有形な特徴が、前記特徴を読み取る機械に、請求項1から17のいずれか一項に記載の方法を実行させる、非一時的コンピュータ可読データ記憶媒体。
JP2016089359A 2012-01-12 2016-04-27 クリティカリティ閾値制御のためのシステム、方法、装置、およびコンピュータ可読媒体 Active JP6151405B2 (ja)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
US201261586007P 2012-01-12 2012-01-12
US61/586,007 2012-01-12
US201261587507P 2012-01-17 2012-01-17
US61/587,507 2012-01-17
US201261641093P 2012-05-01 2012-05-01
US61/641,093 2012-05-01
US13/718,797 2012-12-18
US13/718,797 US9047863B2 (en) 2012-01-12 2012-12-18 Systems, methods, apparatus, and computer-readable media for criticality threshold control

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2014552202A Division JP2015510313A (ja) 2012-01-12 2012-12-19 クリティカリティ閾値制御のためのシステム、方法、装置、およびコンピュータ可読媒体

Publications (2)

Publication Number Publication Date
JP2016174383A true JP2016174383A (ja) 2016-09-29
JP6151405B2 JP6151405B2 (ja) 2017-06-21

Family

ID=48780607

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2014552202A Ceased JP2015510313A (ja) 2012-01-12 2012-12-19 クリティカリティ閾値制御のためのシステム、方法、装置、およびコンピュータ可読媒体
JP2014552204A Active JP5996670B2 (ja) 2012-01-12 2012-12-20 オーディオデータの冗長送信に対するビット割振りのためのシステム、方法、装置、およびコンピュータ可読媒体
JP2016089359A Active JP6151405B2 (ja) 2012-01-12 2016-04-27 クリティカリティ閾値制御のためのシステム、方法、装置、およびコンピュータ可読媒体

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP2014552202A Ceased JP2015510313A (ja) 2012-01-12 2012-12-19 クリティカリティ閾値制御のためのシステム、方法、装置、およびコンピュータ可読媒体
JP2014552204A Active JP5996670B2 (ja) 2012-01-12 2012-12-20 オーディオデータの冗長送信に対するビット割振りのためのシステム、方法、装置、およびコンピュータ可読媒体

Country Status (13)

Country Link
US (2) US9047863B2 (ja)
EP (2) EP2812895B1 (ja)
JP (3) JP2015510313A (ja)
KR (2) KR101570631B1 (ja)
CN (2) CN104040622B (ja)
BR (2) BR112014017120B1 (ja)
DK (2) DK2812895T3 (ja)
ES (2) ES2653949T3 (ja)
HU (2) HUE037362T2 (ja)
IN (1) IN2014CN04644A (ja)
SI (1) SI2803065T1 (ja)
TW (1) TWI499247B (ja)
WO (2) WO2013106181A1 (ja)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9047863B2 (en) 2012-01-12 2015-06-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for criticality threshold control
US9178778B2 (en) 2012-03-23 2015-11-03 Avaya Inc. System and method for end-to-end RTCP
US9356917B2 (en) 2012-03-23 2016-05-31 Avaya Inc. System and method for end-to-end encryption and security indication at an endpoint
US9860296B2 (en) 2012-03-23 2018-01-02 Avaya Inc. System and method for end-to-end call quality indication
EP2950459B1 (en) * 2012-04-11 2019-10-02 Huawei Technologies Co., Ltd. Method and apparatus for configuring transmission mode
WO2014094204A1 (en) * 2012-12-17 2014-06-26 Intel Corporation Leveraging encoder hardware to pre-process video content
TWI528777B (zh) * 2012-12-28 2016-04-01 鴻海精密工業股份有限公司 音量調節方法與系統
US9831898B2 (en) * 2013-03-13 2017-11-28 Analog Devices Global Radio frequency transmitter noise cancellation
FR3007230B1 (fr) 2013-06-17 2015-07-31 Sdmo Ind Procede de communication dans un reseau interconnectant au moins deux groupes electrogenes, et dispositif d’interfacage correspondant.
US10614816B2 (en) * 2013-10-11 2020-04-07 Qualcomm Incorporated Systems and methods of communicating redundant frame information
NO2780522T3 (ja) * 2014-05-15 2018-06-09
GB2527365B (en) 2014-06-20 2018-09-12 Starleaf Ltd A telecommunication end-point device data transmission controller
US9984699B2 (en) 2014-06-26 2018-05-29 Qualcomm Incorporated High-band signal coding using mismatched frequency ranges
US9680507B2 (en) * 2014-07-22 2017-06-13 Qualcomm Incorporated Offset selection for error correction data
US9712287B2 (en) 2014-07-31 2017-07-18 Qualcomm Incorporated System and method of redundancy based packet transmission error recovery
TWI602172B (zh) * 2014-08-27 2017-10-11 弗勞恩霍夫爾協會 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法
WO2016144246A1 (en) * 2015-03-12 2016-09-15 Telefonaktiebolaget Lm Ericsson (Publ) Rate control in circuit switched systems
US9948578B2 (en) * 2015-04-14 2018-04-17 Qualcomm Incorporated De-jitter buffer update
US20160323425A1 (en) * 2015-04-29 2016-11-03 Qualcomm Incorporated Enhanced voice services (evs) in 3gpp2 network
IL239333B (en) * 2015-06-10 2020-06-30 Elta Systems Ltd A system for creating, transmitting and receiving additional signals and the useful methods by the way
KR102420450B1 (ko) 2015-09-23 2022-07-14 삼성전자주식회사 음성인식장치, 음성인식방법 및 컴퓨터 판독가능 기록매체
US10504525B2 (en) * 2015-10-10 2019-12-10 Dolby Laboratories Licensing Corporation Adaptive forward error correction redundant payload generation
US10049681B2 (en) * 2015-10-29 2018-08-14 Qualcomm Incorporated Packet bearing signaling information indicative of whether to decode a primary coding or a redundant coding of the packet
US10049682B2 (en) * 2015-10-29 2018-08-14 Qualcomm Incorporated Packet bearing signaling information indicative of whether to decode a primary coding or a redundant coding of the packet
EP3427258B1 (en) 2016-03-07 2021-03-31 Fraunhofer Gesellschaft zur Förderung der Angewand Error concealment unit, audio decoder, and related method and computer program using characteristics of a decoded representation of a properly decoded audio frame
CA3016949C (en) 2016-03-07 2021-08-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Error concealment unit, audio decoder, and related method and computer program fading out a concealed audio frame out according to different damping factors for different frequency bands
CN107528668B (zh) * 2016-06-21 2021-09-24 中兴通讯股份有限公司 一种数据传输方法及设备
CN107845385B (zh) * 2016-09-19 2021-07-13 南宁富桂精密工业有限公司 信息隐藏的编解码方法及系统
KR102214440B1 (ko) * 2016-10-07 2021-02-09 삼성전자주식회사 통화 기능을 수행하는 단말 장치 및 방법
US11088941B2 (en) * 2017-03-23 2021-08-10 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method for transmitting data, terminal device, and network device
US10574830B2 (en) * 2017-06-05 2020-02-25 Qualcomm Incoporated Methods for increasing VoIP network coverage
US10645228B2 (en) * 2017-06-26 2020-05-05 Apple Inc. Adaptability in EVS codec to improve power efficiency
CN109286952B (zh) * 2017-07-19 2022-08-02 中兴通讯股份有限公司 数据传输方法、装置及存储介质
CN108764469A (zh) * 2018-05-17 2018-11-06 普强信息技术(北京)有限公司 一种降低神经网络所需功耗的方法和设备
US11456007B2 (en) 2019-01-11 2022-09-27 Samsung Electronics Co., Ltd End-to-end multi-task denoising for joint signal distortion ratio (SDR) and perceptual evaluation of speech quality (PESQ) optimization
EP4035288A1 (en) 2019-09-25 2022-08-03 Mixhalo Corp. Packet payload mapping for robust transmission of data
CN110890945B (zh) * 2019-11-20 2022-02-22 腾讯科技(深圳)有限公司 数据传输方法、装置、终端及存储介质
CN112820306B (zh) * 2020-02-20 2023-08-15 腾讯科技(深圳)有限公司 语音传输方法、系统、装置、计算机可读存储介质和设备
CN112767955B (zh) * 2020-07-22 2024-01-23 腾讯科技(深圳)有限公司 音频编码方法及装置、存储介质、电子设备
JP2024022698A (ja) * 2020-10-30 2024-02-21 株式会社Preferred Networks 通信装置及び通信方法
US20230073839A1 (en) * 2021-09-09 2023-03-09 Toyota Motor North America, Inc. Hardware timer data expiration

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000165349A (ja) * 1998-09-03 2000-06-16 Lucent Technol Inc 送信機およびデジタル信号を受信機に送信するための方法
JP2002314597A (ja) * 2001-04-09 2002-10-25 Mitsubishi Electric Corp 音声パケット通信装置
WO2010141762A1 (en) * 2009-06-04 2010-12-09 Qualcomm Incorporated Systems and methods for preventing the loss of information within a speech frame

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69528255T2 (de) 1994-04-08 2003-08-07 Echelon Corp Verfahren und gerät zur sicheren winkelmodulationsbasierten kommunikation
TW271524B (ja) * 1994-08-05 1996-03-01 Qualcomm Inc
US5732389A (en) 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
JP3254126B2 (ja) * 1996-02-13 2002-02-04 株式会社日立国際電気 可変レート符号化方式
FI116181B (fi) * 1997-02-07 2005-09-30 Nokia Corp Virheenkorjausta ja virheentunnistusta hyödyntävä informaationkoodausm enetelmä ja laitteet
US6405338B1 (en) 1998-02-11 2002-06-11 Lucent Technologies Inc. Unequal error protection for perceptual audio coders
US20010041981A1 (en) * 2000-02-22 2001-11-15 Erik Ekudden Partial redundancy encoding of speech
JP4022427B2 (ja) * 2002-04-19 2007-12-19 独立行政法人科学技術振興機構 エラー隠蔽方法、エラー隠蔽プログラム、送信装置、受信装置及びエラー隠蔽装置
FI116016B (fi) 2002-12-20 2005-08-31 Oplayo Oy Puskurointijärjestely
WO2004095825A2 (en) * 2003-04-21 2004-11-04 Rgb Networks, Inc. Time-multiplexed multi-program encryption system
US7546508B2 (en) 2003-12-19 2009-06-09 Nokia Corporation Codec-assisted capacity enhancement of wireless VoIP
US7668712B2 (en) * 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
DE602004004376T2 (de) 2004-05-28 2007-05-24 Alcatel Anpassungsverfahren für ein Mehrraten-Sprach-Codec
CN101292459B (zh) 2005-10-17 2011-06-08 艾利森电话股份有限公司 用于估计语音质量的方法和设备
US8255207B2 (en) 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
US20080077410A1 (en) 2006-09-26 2008-03-27 Nokia Corporation System and method for providing redundancy management
TWI382657B (zh) 2007-03-01 2013-01-11 Princeton Technology Corp 音訊處理系統
WO2008119043A1 (en) 2007-03-27 2008-10-02 Armida Technologies Wireless integrated security controller
CN101072083A (zh) * 2007-06-04 2007-11-14 深圳市融合视讯科技有限公司 一种优化网络数据传输冗余纠错率的方法
EP2346028A1 (en) 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
US9047863B2 (en) 2012-01-12 2015-06-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for criticality threshold control

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000165349A (ja) * 1998-09-03 2000-06-16 Lucent Technol Inc 送信機およびデジタル信号を受信機に送信するための方法
JP2002314597A (ja) * 2001-04-09 2002-10-25 Mitsubishi Electric Corp 音声パケット通信装置
WO2010141762A1 (en) * 2009-06-04 2010-12-09 Qualcomm Incorporated Systems and methods for preventing the loss of information within a speech frame

Also Published As

Publication number Publication date
US20130185062A1 (en) 2013-07-18
BR112014017119A2 (pt) 2017-06-13
US20130185084A1 (en) 2013-07-18
BR112014017120A8 (pt) 2017-07-04
WO2013106181A1 (en) 2013-07-18
EP2803065B1 (en) 2017-01-18
SI2803065T1 (sl) 2017-03-31
EP2812895B1 (en) 2017-11-01
US9047863B2 (en) 2015-06-02
KR101585367B1 (ko) 2016-01-13
CN104040622A (zh) 2014-09-10
KR20140111035A (ko) 2014-09-17
BR112014017120B1 (pt) 2021-06-15
HUE037362T2 (hu) 2018-08-28
TW201338468A (zh) 2013-09-16
JP5996670B2 (ja) 2016-09-21
ES2621417T3 (es) 2017-07-04
BR112014017119A8 (pt) 2017-07-04
DK2812895T3 (en) 2018-01-08
US9053702B2 (en) 2015-06-09
WO2013106187A1 (en) 2013-07-18
JP2015510313A (ja) 2015-04-02
HUE032016T2 (en) 2017-08-28
BR112014017119B1 (pt) 2020-12-22
CN104040621A (zh) 2014-09-10
JP2015507221A (ja) 2015-03-05
EP2812895A1 (en) 2014-12-17
CN104040622B (zh) 2017-08-11
TWI499247B (zh) 2015-09-01
BR112014017120A2 (pt) 2017-06-13
EP2803065A1 (en) 2014-11-19
CN104040621B (zh) 2017-06-30
JP6151405B2 (ja) 2017-06-21
IN2014CN04644A (ja) 2015-09-18
ES2653949T3 (es) 2018-02-09
KR20140119735A (ko) 2014-10-10
KR101570631B1 (ko) 2015-11-19
DK2803065T3 (en) 2017-03-13

Similar Documents

Publication Publication Date Title
JP6151405B2 (ja) クリティカリティ閾値制御のためのシステム、方法、装置、およびコンピュータ可読媒体
US10424306B2 (en) Frame erasure concealment for a multi-rate speech and audio codec
US20200194010A1 (en) Systems and methods of communicating redundant frame information

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170412

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170524

R150 Certificate of patent or registration of utility model

Ref document number: 6151405

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250