JP5405659B2 - 消去されたスピーチフレームを再構成するためのシステムおよび方法 - Google Patents

消去されたスピーチフレームを再構成するためのシステムおよび方法 Download PDF

Info

Publication number
JP5405659B2
JP5405659B2 JP2012514141A JP2012514141A JP5405659B2 JP 5405659 B2 JP5405659 B2 JP 5405659B2 JP 2012514141 A JP2012514141 A JP 2012514141A JP 2012514141 A JP2012514141 A JP 2012514141A JP 5405659 B2 JP5405659 B2 JP 5405659B2
Authority
JP
Japan
Prior art keywords
frame
speech frame
speech
erased
index position
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012514141A
Other languages
English (en)
Other versions
JP2012529082A (ja
JP2012529082A5 (ja
Inventor
ファン、ジェン
シンダー、ダニエル・ジェイ.
カンドハダイ、アナンサパドマナブハン・アラサニパライ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2012529082A publication Critical patent/JP2012529082A/ja
Publication of JP2012529082A5 publication Critical patent/JP2012529082A5/ja
Application granted granted Critical
Publication of JP5405659B2 publication Critical patent/JP5405659B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M13/00Coding, decoding or code conversion, for error detection or error correction; Coding theory basic assumptions; Coding bounds; Error probability evaluation methods; Channel models; Simulation or testing of codes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/89Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving methods or arrangements for detection of transmission errors at the decoder

Description

本システムおよび本方法は、通信および無線関連技術に関する。詳細には、本システムおよび本方法は、消去されたスピーチフレームを再構成するためのシステムおよび方法に関する。
デジタル音声通信は、回線交換ネットワークを介して実行されている。回線交換ネットワークは、呼の期間の間、2つの端末間で物理的パスが確立されるネットワークである。回線交換アプリケーションでは、送信端末は、物理的パスを介して、音声情報を含むパケットのシーケンスを受信端末に送る。受信端末は、スピーチを合成するために、パケット内に含まれた音声情報を使用する。
デジタル音声通信は、パケット交換ネットワークを介して実行され始めた。パケット交換ネットワークは、パケットが宛先アドレスに基づいて、その中でそのネットワークの一定のルートで送られるネットワークである。パケット交換通信の場合、ルータは、それぞれのパケットに関するパスを個々に決定して、それをその宛先に至るまで任意の利用可能なパスに送る。結果として、パケットは、同時にまたは同じ順序で受信端末に到着しない。パケットを順序よく戻し、それらのパケットを連続的な順序で再生するために、デジッタバッファを受信端末内で使用できる。
場合によっては、パケットは、送信端末から受信端末への伝送途中に失われる。失われたパケットは、合成スピーチの品質を劣化させる可能性がある。したがって、失われたパケットを再構成するためのシステムおよび方法を提供することによって、利益を実現することが可能である。US 2006/0173687 A1は、フレームのシーケンスを受信するように構成された音声復号器を開示する。フレーム消去補償モジュールは、1つまたは複数の先のフレームの音声パラメータおよび1つまたは複数の後に続くフレームの音声パラメータからフレームのシーケンスの消去されたフレームのための音声パラメータを再構成する。EP 1 746 580 A1は、アコースティック信号パケット通信方法を開示する。送信ユニットは、フレームアコースティック信号および異なるフレームのためのデータに対応するアコースティック信号の両方の同じパケットに包含されるパケットを送信する。フレームが失われた場合、失われたフレームは、データに対応するアコースティック信号を使用することによって取得する。本願発明は、参照がここで行われるべき添付の請求項で定義される。
伝送媒体を介した送信端末および受信端末の一例を示すブロック図。 受信端末のさらなる構成を例示するブロック図。 エンハンストパケットロス補償(enhanced packet loss concealment)(PLC)モジュールを備えた受信端末の1つの構成を例示するブロック図。 将来のフレーム(future frame)を使用して、スピーチフレームを再構成するための方法の一例を示すフローチャート。 図4に示された方法に対応するミーンズプラスファンクション(means plus function)ブロックを例示する図。 スピーチフレームのロスを補償する(conceal)ための方法のさらなる構成を例示するフローチャート。 スピーチフレームのロスを補償するための方法のさらなる例を示すフローチャート。 ワイヤレスデバイスにおいて使用可能な様々なコンポーネントを例示する図。
音声アプリケーションは、パケット交換ネットワーク内で実装可能である。音声情報を伴うパケットは、ネットワーク上で第1のデバイスから第2のデバイスに送信可能である。しかしながら、パケットのうちのいくつかは、パケットの伝送の間に失われる可能性がある。1つの構成では、音声情報(すなわち、スピーチ)は、スピーチフレーム内で編成可能である。パケットは、1つまたは複数のスピーチフレームを含み得る。それぞれのスピーチフレームは、サブフレームにさらに区分化できる。何らかのブロック処理が実行されている場合、任意のフレーム境界を使用できる。しかしながら、ブロック処理ではなく連続的な処理が実施される場合、スピーチサンプルは、フレーム(および、サブフレーム)に区分化されなくてよい。(バースト的なロスと呼ばれることがある)複数のスピーチフレームのロスは、受信デバイスにおいて認知されたスピーチ品質の劣化の原因であり得る。説明された例では、第1のデバイスから第2のデバイスに送信されたそれぞれのパケットは、特定の用途および全体的な設計制約に応じて、1つまたは複数のフレームを含み得る。
データアプリケーションは、回線交換ネットワーク内で実施可能であり、データを伴うパケットは、ネットワーク上で第1のデバイスから第2のデバイスに送信可能である。データパケットは、データの伝送の間に失われる可能性もある。回線交換システムにおいてデータパケット内のフレームのロスを補償する従来の方法は、若干の減衰を伴う先のフレームからの外挿を介して、失われたフレームのパラメータを再構成することである。従来のシステムによって使用されるパケット(または、フレーム)ロス補償方式は、従来のパケットロス補償(PLC:packet loss concealment)と呼ばれる場合がある。外挿は、失われたフレームを再構成するために、先のフレームのフレームパラメータまたはピッチ波形を使用することを含み得る。パケット交換ネットワークにおいて音声通信(すなわち、ボイスオーバインターネットプロトコル(VoIP))の使用は増大しているが、パケット交換ネットワークにおいてパケットロス補償方式)を実施するために、回線交換ネットワークで使用される従来のPLCも使用される。
従来のPLCは、安定した音声領域内に単一のフレームロスが存在する場合、適度に有効であるが、伝送フレームのロスを補償するには適さない場合がある。加えて、従来のPLCは、バースト的なフレームロスにもあまり有効でない場合がある。しかしながら、パケット交換ネットワークでは、高いリンク負荷および高いジッタなど、様々な理由により、パケットロスはバースト的な場合がある。例えば、パケット交換ネットワーク内において、3つ以上の連続的なパケットは失われる場合がある。この場合、従来のPLCアプローチは、適度に良好な知覚品質をユーザに提供するためには十分頑強でない可能性がある。
パケット交換ネットワークにおいて改善された知覚品質を提供するために、エンハンストパケットロス補償方式を使用できる。この補償方式は、将来のフレームアルゴリズムを利用したエンハンストPLCと呼ばれる場合がある。エンハンストPLCアルゴリズムは、失われたパケットのパラメータのうちのいくつかまたはすべてを補間するために、(デジッタバッファ内に格納された)将来のフレームを利用することが可能である。一例では、エンハンストPLCアルゴリズムは、システム容量に影響を及ぼさずに、認知されたスピーチ品質を改善することが可能である。下で説明される本システムおよび本方法は、数々のタイプのスピーチコーデックと共に使用できる。
消去されたスピーチフレームを再構成するための方法が開示される。この方法は、バッファから第2のスピーチフレームを受信することを含み得る。第2のスピーチフレームのインデックス位置は、消去されたスピーチフレームのインデックス位置よりも高い場合がある。この方法は、第2のスピーチフレームと第3のスピーチフレームのうちの1つまたはそれら両方に基づいて、どのタイプのパケットロス補償(PLC)方法を使用するかを決定することを含むことも可能である。第3のスピーチフレームのインデックス位置は、消去されたスピーチフレームのインデックス位置よりも低い場合がある。この方法は、第2のスピーチフレームと第3のスピーチフレームのうちの1つまたはそれら両方から、消去されたスピーチフレームを再構成することを含むことも可能である。
消去されたスピーチフレームを再構成するためのワイヤレスデバイスが開示される。このワイヤレスデバイスは、スピーチフレームのシーケンスを受信するように構成されたバッファを含み得る。このワイヤレスデバイスは、スピーチフレームのシーケンスを復号するように構成された音声復号器を含むことも可能である。この音声復号器は、以下のタイプ、すなわち、後続フレームおよび先のフレームのうちの1つのものである1つまたは複数のフレームから、消去されたスピーチフレームを再構成するように構成されたフレーム消去補償モジュール(frame erasure concealment module)を含み得る。後続フレームは、バッファ内の消去されたスピーチフレームのインデックス位置よりも高いインデックス位置を含み得る。先のフレームは、バッファ内の消去されたスピーチフレームのインデックス位置よりも低いインデックス位置を含み得る。
消去されたスピーチフレームを再構成するための装置が開示される。この装置は、バッファから第2のスピーチフレームを受信するための手段を含み得る。第2のスピーチフレームのインデックス位置は、消去されたスピーチフレームのインデックス位置よりも高い場合がある。この装置は、第2のスピーチフレームと第3のスピーチフレームのうちの1つまたはそれら両方に基づいて、どのタイプのパケットロス補償(PLC)方法を使用するかを決定するための手段を含むことも可能である。第3のスピーチフレームのインデックス位置は、消去されたスピーチフレームのインデックス位置よりも低い場合がある。この装置は、第2のスピーチフレームと第3のスピーチフレームのうちの1つまたはそれら両方から、消去されたスピーチフレームを再構成するための手段を含むことも可能である。
消去されたスピーチフレームを再構成するためのコンピュータプログラム製品が開示される。このコンピュータプログラム製品は、命令を有するコンピュータ可読媒体を含み得る。これらの命令は、バッファから第2のスピーチフレームを受信するためのコードを含み得る。第2のスピーチフレームのインデックス位置は、消去されたスピーチフレームのインデックス位置よりも高い場合がある。これらの命令は、第2のスピーチフレームと第3のスピーチフレームのうちの1つまたはそれら両方に基づいて、どのタイプのパケットロス補償(PLC)方法を使用するかを決定するためのコードを含むことも可能である。第3のスピーチフレームのインデックス位置は、消去されたスピーチフレームのインデックス位置よりも低い場合がある。これらの命令は、第2のスピーチフレームと第3のスピーチフレームのうちの1つまたはそれら両方から、消去されたスピーチフレームを再構成するためのコードを含むことも可能である。
図1は、伝送媒体を介した送信端末102および受信端末104の一例を示すブロック図100である。送信端末102および受信端末104は、電話、コンピュータ、音声ブロードキャストおよび受信装置、ビデオ会議装置などを含む音声通信をサポートすることが可能な任意のデバイスであってよい。1つの構成では、送信端末102および受信端末104は、符号分割多元接続(CDMA)機能など、ワイヤレス多元接続技術を用いて実施可能である。CDMAは、スペクトル拡散通信に基づく変調および多元接続方式である。
送信端末102は、音声符号器106を含むことが可能であり、受信端末104は、音声復号器108を含むことが可能である。音声符号器106は、人の発話生成のモデルに基づいてパラメータを抽出することによって、第1のユーザインターフェース110からスピーチを圧縮するために使用可能である。送信機112は、伝送媒体114を通してこれらのパラメータを含むパケットを送信するために使用可能である。伝送媒体114は、インターネット、もしくは企業イントラネット、または任意のその他の伝送媒体などパケットベースのネットワークであってよい。伝送媒体114のもう一方の終端の受信機116は、パケットを受信するために使用可能である。音声復号器108は、パケット内のパラメータを使用して、スピーチを合成できる。合成スピーチは、受信端末104上の第2のユーザインターフェース118に提供され得る。図示されないが、巡回冗長検査(CRC)機能、インタリーブ、デジタル変調、スペクトル拡散処理、ジッタバッファリングなどを含む、畳み込み符号化など、様々な信号処理機能を送信機112と受信機116の両方において実行することが可能である。
通信に対するそれぞれの当事者は、送信、ならびに受信が可能である。それぞれの端末は、音声符号器と音声復号器とを含み得る。音声符号器および音声復号器は、別個のデバイスであってよく、または「ボコーダ」として知られている、単一のデバイス内に統合されてもよい。以下の詳細な説明では、端末102、104は、伝送媒体114の一方の終端における音声符号器106と、もう一方の終端における音声復号器108とを用いて説明される。
送信端末102の少なくとも1つの構成では、スピーチは、それぞれがサブフレームにさらに区分化された状態で、フレーム内の第1のユーザインターフェース110から音声符号器106への入力であってよい。何らかのブロック処理が実行される場合、これらの任意のフレーム境界を使用できる。しかしながら、ブロック処理ではなく連続的な処理が実施される場合、音声サンプルは、フレーム(および、サブフレーム)に区分化されなくてもよい。説明される例では、伝送媒体114を通して送信されるそれぞれのパケットは、特定の用途、および全体的な設計制約に応じて、1つまたは複数のフレームを含み得る。
音声符号器106は、可変レート符号器、または固定レート符号器であってもよい。可変レート符号器は、スピーチコンテンツに応じて、フレームからフレームに複数の符号器モード間で動的に切り替えることが可能である。音声復号器108も、フレームからフレームに対応する復号器モード間で動的に切り替えることが可能である。受信端末104において許容信号再生を維持しながら、それぞれのフレームが利用可能な最低のビットレートを達成するために特定のモードを選ぶことが可能である。例として、アクティブスピーチは、アクティブスピーチフレームに関する符号化モードを使用して符号化され得る。バックグラウンドノイズは、無音フレームに関する符号化モードを使用して符号化され得る。
音声符号器106および音声復号器108は、線形予測符号(LPC)を使用できる。LPC符号化の場合、スピーチは、その強度とピッチとによって特徴付けられるスピーチソース(声帯)によってモデル形成され得る。声帯からのスピーチは、「フォルマント」と呼ばれるその共振によって特徴付けられる声道(喉および口)を介して移動する。LPC音声符号器は、フォルマントを推定して、スピーチからその効果を除去し、残差スピーチの強度とピッチとを推定することによってスピーチを解析できる。受信終端におけるLPC音声復号器は、このプロセスを反転することによって、そのスピーチを合成することが可能である。詳細には、LPC音声復号器は、スピーチソースを作成するために残差スピーチを使用して、(声道を表す)フィルタを作成するためにフォルマントを使用し、そのスピーチを合成するために、そのフィルタを介してそのスピーチソースを実行することが可能である。
図2は、受信端末204のブロック図である。この構成では、VoIPクライアント230は、下でより十分議論されるデジッタバッファ202を含む。受信端末204は、さらに1つまたは複数の音声復号器208を含む。一例では、受信端末204は、LPCベースの復号器と、2つの他のタイプのコーデック(例えば、ボイススピーチ符号化方式と非ボイススピーチ符号化方式)とを含み得る。復号器208は、フレームエラー検出器226と、フレーム消去補償モジュール206と、スピーチ生成器232とを含み得る。音声復号器208は、ボコーダの一部として実装可能であり、独立型のエンティティとして実装可能であり、または受信端末204内の1つもしくは複数のエンティティを通して分散することも可能である。音声復号器208は、ハードウェア、ファームウェア、ソフトウェア、またはそれらの任意の組合せとして実装可能である。例として、音声復号器208は、マイクロプロセッサ、デジタル信号プロセッサ(DSP)、プログラマブル論理、専用ハードウェア、または任意のその他のハードウェアベースおよび/もしくはソフトウェアベースの処理エンティティを用いて実装可能である。音声復号器208は、下でその機能性の点から説明される。音声復号器208が実装される様式は、その特定の用途と、システム全体に課された設計制約とに依存する。
デジッタバッファ202は、ネットワーク輻輳、タイミングドリフト、およびルート変更に起因するパケット到着時間の変動によって引き起こされるジッタを除去するハードウェアデバイスまたはソフトウェアプロセスであってよい。デジッタバッファ202は、音声パケット内でスピーチフレーム242を受信することが可能である。加えて、デジッタバッファ202は、後で到着したパケットがスピーチ生成器232に正しい順序で継続的に提供され、その結果、音声ひずみをほとんど伴わずにクリアな接続をもたらすことができるように、新しく到着したパケットを遅延させることが可能である。デジッタバッファ202は、固定されてよく、または適応型であってもよい。固定デジッタバッファは、パケットに固定遅延をもたらすことができる。他方で、適応型デジッタバッファは、ネットワークの遅延内の変化に適応できる。デジッタバッファ202は、下で議論されるように、フレーム情報240をフレーム消去補償モジュール206に提供することが可能である。
先に述べたように、巡回冗長検査(CRC)機能、インタリーブ、デジタル変調、スペクトル拡散処理を含めて、畳み込み符号化など、様々な信号処理機能を送信端末102によって実行することが可能である。フレームエラー検出器226は、CRC検査機能を実行するために使用可能である。あるいは、または加えて、チェックサムとパリティビットとを含めて、その他のフレームエラー検出技法を使用できる。一例では、フレームエラー検出器226は、フレーム消去が発生したかどうかを決定することが可能である。「フレーム消去」は、フレームが失われたこと、またはフレームが破損されたことのいずれかを意味する可能性がある。フレームエラー検出器226が現在のフレームが消去されていないことを決定した場合、フレーム消去補償モジュール206は、デジッタバッファ202内に格納されたスピーチフレーム242を開放できる。スピーチフレーム242のパラメータは、フレーム消去補償モジュール206に渡されるフレーム情報240であってよい。フレーム情報240は、スピーチ生成器232に通信されて、スピーチ生成器232によって処理されることが可能である。
他方で、フレームエラー検出器226が現在のフレームが消去されていることを決定した場合、フレームエラー検出器226は、「フレーム消去フラグ」をフーム消去補償モジュール206に提供できる。後でより詳細に説明されるように、消去されたフレームに関する音声パラメータを再構成するために、フレーム消去補償モジュール206を使用できる。
デジッタバッファ202から解放されようと、またはフレーム消去補償モジュール206によって再構成されようと、音声パラメータは、合成スピーチ244を生成するために、スピーチ生成器232に提供可能である。スピーチ生成器232は、合成スピーチ244を生成するためのいくつかの機能を含み得る。一例では、逆コードブック(inverse codebook)212は、固定コードブックパラメータ238を使用できる。例えば、固定コードブックインデックスを残差スピーチに変換して、固定コードブック利得をその残差スピーチに適用するために、逆コードブック212を使用できる。ピッチ情報を残差スピーチに追加し戻す218ことが可能である。ピッチ情報は、「遅延」からピッチ復号器214によって計算できる。ピッチ復号器214は、スピーチサンプルの先のフレームを作成した情報のメモリであり得る。適応コードブック利得など、適応コードブックパラメータ236は、残差スピーチに追加される(218)前に、ピッチ復号器214によってそれぞれのサブフレーム内のメモリ情報に適用され得る。残差スピーチは、フォルマントをスピーチに追加するために、逆変換222からのLPC係数など、線スペクトル対234を使用して、フィルタ220を通じて実行可能である。未処理の合成スピーチは、次いで、フィルタ220からポストフィルタ224に提供可能である。ポストフィルタ224は、スピーチを平滑化して、帯域外成分を削減することができる音声帯域内のデジタルフィルタであってよい。もう1つの構成では、(PPPなどの)ボイススピーチ符号化方式および(NELPなどの)非ボイススピーチ符号化方式を、フレーム消去補償モジュール206によって実装することが可能である。
フレーム消去補償処理の品質は、音声パラメータを再構成する際の精度に伴って改善する。再構成されたスピーチパラメータのより高い精度は、フレームのスピーチコンテンツがより高いときに達成され得る。一例では、無音フレームは、スピーチコンテンツを含まない場合があり、したがって、何の音声品質利得も提供しない可能性がある。したがって、音声復号器208の少なくとも1つの構成では、フレームレートが音声品質利得を達成するために十分高いとき、将来のフレーム内の音声パラメータを使用できる。例として、先のフレームと将来のフレームの両方が無音符号化モード以外のモードで符号化される場合、音声復号器208は、消去されたフレーム内の音声パラメータを再構成するために、先のフレームと将来のフレームの両方の中の音声パラメータを使用できる。すなわち、先のフレームと将来のフレームの両方がアクティブスピーチ符号化モードで符号化されるとき、エンハンストパケットロス補償が使用されることになる。そうでない場合、消去されたフレーム内の音声パラメータは、先のフレームから再構成され得る。このアプローチは、音声品質利得の尤度が低いとき、フレーム消去補償プロセスの複雑さを低減する。フレーム消去の先のフレームと将来のフレームとに関する符号化モードを表示するために、(下でより十分に議論される)フレームエラー検出器226からの「レート決定」を使用できる。もう1つの構成では、2つ以上の将来のフレームがバッファ内に存在し得る。2つ以上の将来のフレームがバッファ内に存在するとき、そのより高いレートのフレームが、より低いレートのフレームよりも消去されたフレームからさらに離れている場合ですら、より高いレートのフレームを選ぶことが可能である。
図3は、本システムおよび本方法による、エンハンストパケットロス補償(PLC)モジュール306を備えた受信端末304の1つの構成を例示するブロック図である。受信端末304は、VoIPクライアント330と復号器308とを含み得る。VoIPクライアント330は、デジッタバッファ302を含むことが可能であり、復号器308は、エンハンストPLCモジュール306を含むことが可能である。デジッタバッファ302は、VoIPクライアント330によって受信された1つまたは複数のスピーチフレームをバッファリングできる。
一例では、VoIPクライアント330は、リアルタイムプロトコル(RTR)パケットを受信する。リアルタイムプロトコル(RTP)は、インターネットなど、ネットワークの音声およびビデオを配信するための標準化されたパケットフォーマットを画定する。1つの構成では、VoIPクライアント330は、受信されたRTPパケットをカプセル解除して、スピーチフレームにすることが可能である。加えて、VoIPクライアント330は、デジッタバッファ302内のスピーチフレームを再順序付けることが可能である。さらに、VoIPクライアント330は、適切なスピーチフレームを復号器308に供給することが可能である。1つの構成では、復号器308は、特定のスピーチフレームに関する要求をVoIPクライアント330に提供する。VoIPクライアント330は、いくつかの復号されたパルス符号変調(PCM)サンプル312を復号器308から受信することも可能である。一例では、VoIPクライアント330は、デジッタバッファ302の行動を調整するために、PCMサンプル312によって提供された情報を使用できる。
1つの構成では、デジッタバッファ302は、スピーチフレームを格納する。バッファ302は、先のスピーチフレーム321と、現在のスピーチフレーム322と、1つまたは複数の将来スピーチフレーム310とを格納することが可能である。前述のように、VoIPクライアント330は、順序が乱れたパケットを受信することが可能である。パケットのスピーチフレームを格納して、正確な順序に再順序付けるために、デジッタバッファ302を使用できる。スピーチフレームが消去された場合(例えば、フレーム消去)、デジッタバッファ302は、1つまたは複数の将来のフレーム(すなわち、消去されたフレームの後に発生するフレーム)を含み得る。フレームは、そのフレームに関連するインデックス位置を有し得る。例えば、将来のフレーム310は、現在のフレーム322よりもより高いインデックス位置を有し得る。同様に、現在のフレーム322は、先のフレーム321よりもより高いインデックス位置を有し得る。
上述のように、復号器308は、エンハンストPLCモジュール306を含み得る。1つの構成では、復号器308は、非広帯域スピーチコーデック復号器であってよく、または広帯域スピーチコーデック復号器であってもよい。フレーム消去が発生して、少なくとも1つの将来のフレーム310が利用可能であるとき、エンハンストPLCモジュール306は、補間ベースのパケットロス補償技法を使用して、消去されたフレームを再構成することが可能である。2つ以上の将来のフレーム310が利用可能である場合、より正確な将来のフレームを選択することが可能である。1つの構成では、将来のフレームのより高い精度は、より高いビットレートによって表示できる。あるいは、将来のフレームのより高い精度は、フレームの時間的な近接性によって表示できる。一例では、スピーチフレームが消去されるとき、フレームは重要なデータを含まない場合がある。例えば、現在のフレーム322は、消去されたスピーチフレームを表す場合がある。フレーム322は、復号器308がフレーム322を適切に復号することを可能にするデータを含まない場合があるため、フレーム322は、消去されたフレームと見なされる場合がある。フレーム消去が発生し、バッファ302内に少なくとも1つの将来のフレーム310が利用可能であるとき、VoIPクライアント330は、将来のフレーム310と任意の関連情報とを復号器308に送ることができる。この関連情報は、重要なデータを含む現在のフレーム322であってよい。この関連情報は、現在の消去されたフレームと利用可能な将来のフレームとの間の相対ギャップを含むことも可能である。一例では、エンハンストPLCモジュール306は、将来のフレーム310を使用して、現在のフレーム322を再構成することが可能である。スピーチフレームは、PCMデータ320として、音声インターフェース318に通信可能である。
エンハンストPLC機能を伴わないシステムでは、VoIPクライアント330は、現在のフレーム322と、現在のフレーム322のレートと、位相整合を行うべきかどうか、タイムワープを行うべきかどうか、およびタイムワープをどのように行うべきかなど、その他の関連情報とを送ることによって、スピーチ復号器308とインターフェースを取ることが可能である。消去が発生するとき、復号器308に送られるとき、現在のフレーム322のレートを、フレーム消去など、ある値に設定することが可能である。エンハンストPLC機能性を可能にして、VoIPクライアント330は、将来のフレーム310と、将来のフレーム310のレートと、(下でさらに説明される)ギャップインジケータとを復号器308に送ることも可能である。
図4は、将来のフレームを使用して、スピーチフレームを再構成するための方法400の一例を示すフローチャートである。方法400は、エンハンストPLCモジュール206によって実施可能である。1つの構成では、インジケータを受信することが可能である(402)。このインジケータは、第1のフレームのインデックス位置と第2のフレームのインデックス位置との間の差を表示できる。例えば、第1のフレームは、「4」のインデックス位置を有してよく、第2のフレームは「7」のインデックス位置を有してよい。この例から、インジケータは「3」であり得る。
一例では、第2のフレームを受信することが可能である(404)。第2のフレームは、第1のフレームよりもより高いインデックス位置を有し得る。すなわち、第2のフレームは、第1のフレームの再生の後の時点で再生可能である。加えて、第2のフレームに関するフレームレートを受信することが可能である(406)。このフレームレートは、第2のフレームを符号化するために使用される符号器のレートを表示できる。フレームレートに関するさらなる詳細は、下で議論される。
1つの構成では、第1のフレームのパラメータを補間することが可能である(408)。このパラメータは、第2のフレームのパラメータと第3のフレームのパラメータとを使用して補間され得る。第3のフレームは、第1のフレームおよび第2のフレームよりも低いインデックス位置を含み得る。すなわち、第3のフレームは現在のフレームおよび将来のフレームの再生の前に再生されるという点で、第3のフレームは、「先のフレーム」と見なすことができる。
上で説明された図4の方法は、図5に例示されるミーンズプラスファンクションブロックに対応する、様々な(1つもしくは複数の)ハードウェアコンポーネントおよび/または(1つもしくは複数の)ソフトウェアコンポーネント、ならびに/あるいは(1つもしくは複数の)ハードウェアモジュールおよび/または(1つもしくは複数の)ソフトウェアモジュールによって実行可能である。すなわち、図4に例示されるブロック402から408は、図5に例示されるミーンズプラスファンクションブロック502から508に対応する。
図6は、パケット内のスピーチフレームのロスを補償するための方法600のさらなる構成を例示するフローチャートである。この方法は、受信端末104の復号器608内のエンハンストPLCモジュール606によって実装可能である。現在のフレームレート612は、復号器608によって受信可能である。現在のフレームレート612が現在のフレーム620が消去されたことを表示するある値を含むか否かについて決定602することができる。一例では、現在のフレームレート612がフレーム消去値に等しいか否かについて決定602することができる。現在のフレームレート612がフレーム消去に等しくないことが決定された場合(602)、現在のフレーム620は、復号モジュール618に通信される。復号モジュール618は、現在のフレーム620を復号できる。
しかしながら、現在のフレームレート612が、現在のフレームが消去されたことを示唆する場合、ギャップインジケータ622は、復号器608に通信される。ギャップインジケータ622は、将来のフレーム610のフレームインデックスと現在のフレーム620(すなわち、消去されたフレーム)のフレームインデックスとの間の差を示す変数であり得る。例えば、現在の消去されたフレーム620がパケット内の第100番目のフレームであり、将来のフレーム610がパケット内の第103番目のフレームである場合、ギャップインジケータ622は、3に等しい可能性がある。ギャップインジケータ622があるしきい値よりも高いか否かについて決定することが可能である(604)。ギャップインジケータ622があるしきい値よりも高くない場合、これは、デジッタバッファ202内に将来のフレームが利用可能でないことを意味し得る。従来のPLCモジュール614は、上述の技法を使用して、現在のフレーム620を再構成するために使用可能である。
一例では、ギャップインジケータ622がゼロよりも大きい場合、これは、デジッタバッファ202内に将来のフレーム610が利用可能であることを意味し得る。前述のように、現在のフレーム620の消去されたパラメータを再構成するために、将来のフレーム610を使用できる。将来のフレーム610は、デジッタバッファ202(図示せず)からエンハンストPLCモジュール606に渡すことができる。加えて、将来のフレーム610に関連する将来のフレームレート616を、エンハンストPLCモジュール606に渡すことも可能である。将来のフレームレート616は、将来のフレーム610のレートまたはフレームタイプを表示できる。例えば、将来のフレームレート616は、その将来のフレームがアクティブスピーチフレームに関する符号化モードを使用して符号化されたことを表示できる。エンハンストPLCモジュール606は、現在のフレーム620の消去されたパラメータを再構成するために、将来のフレーム610と先のフレームとを使用できる。そのインデックス位置が現在のフレーム620のインデックス位置よりもより低い可能性があるため、フレームは先のフレームであり得る。すなわち、先のフレームは、現在のフレーム620の前にデジッタバッファ202から解放される。
図7は、パケット内のスピーチフレームのロスを補償するための方法700のさらなる例を示すフローチャートである。一例では、現在の消去されたフレームは、パケット内の第n番目のフレームであってよい。将来のフレーム710は、第(n+m)番目のフレームであってよい。現在の消去されたフレームのインデックス位置と将来のフレーム710のインデックス位置との間の差を表示するギャップインジケータ708は、mであってよい。1つの構成では、先のフレーム(第(n−1)番目のフレーム)と将来のフレーム710(すなわち、第(n+m)番目のフレーム)との間で消去された第n番目のフレームを再構成するための補間を実行できる。
一例では、将来のフレーム710が「悪いレート」を含むか否かについて決定することができる(702)。伝送の間のデータ破壊を回避するために、将来のフレーム710に関して悪いレート検出を実行することが可能である。将来のフレーム710が悪いレート検出決定702に合格しないことが決定された場合、消去されたフレームのパラメータを再構成するために、従来のPLCモジュール714を使用できる。従来のPLCモジュール714は、消去されたフレームを再構成するために、先に説明された先行技法を実施することが可能である。
将来のフレーム710が悪いレート検出決定702に合格した場合、将来のフレーム内のパラメータは、逆量子化モジュール706によって逆量子化され得る。1つの構成では、消去されたフレームを再構成するためにエンハンストPLCモジュールによって使用されないパラメータは、逆量子化されなくてよい。例えば、将来のフレーム710が符号励起線形予測(CELP)フレームである場合、固定コードブックインデックスは、エンハンストPLCモジュールによって使用されなくてよい。したがって、固定コードブックインデックスは逆量子化されなくてよい。
エンハンストPLCモジュール306を含む復号器108の場合、フレーム消去が発生したとき、実施可能な様々なタイプのパケットロス補償方法が存在し得る。これらの様々な方法の例は、1)従来のPLC方法、2)線スペクトル対(LSP)エンハンストPLC方法、線形予測係数(LPC)方法、イミッタンススペクトル周波数(immittance spectral frequencies)(ISF)方法など、スペクトル包絡パラメータ(spectral envelop parameters)を決定するための方法、3)CELPエンハンストPLC方法、および4)ボイス符号化モードに関するエンハンストPLC方法である。
一例では、スペクトル包絡パラメータ−エンハンストPLC方法は、消去されたフレームのスペクトル包絡パラメータを補間することを必要とする。従来のPLC方法によって実行されるように、外挿によって他のパラメータを推定できる。CELPエンハンストPLC方法では、補間アルゴリズムを使用して、欠けているフレームの励起関連パラメータのうちのいくつかまたはすべてをCELPフレームとして推定することも可能である。同様に、ボイススピーチ符号化方式エンハンストPLC方法では、補間アルゴリズムを使用して、消去されたフレームの励起関連パラメータのうちのいくつかまたはすべてをボイススピーチ符号化方式フレームとして推定することも可能である。1つの構成では、CELPエンハンストPLC方法およびボイススピーチ符号化方式エンハンストPLC方法は、「マルチプルパラメータ−エンハンストPLC方法」と呼ばれる場合もある。一般に、マルチプルパラメータ−エンハンストPLC方法は、励起関連パラメータおよび/またはスペクトル包絡パラメータのうちのいくつかもしくはすべてを補間することを必要とする。
将来のフレーム710のパラメータが逆量子化された後で、マルチプルパラメータ−エンハンストPLC方法が実施されるか否かについて決定を行うことが可能である(732)。決定732は、好ましくないアーティファクトを回避するために使用される。決定732は、先のフレームと将来のフレームの両方のタイプとレートとに基づいて行うことができる。決定732は、先のフレームと将来のフレームとの間の類似性に基づいて行うことも可能である。類似性インジケータは、そのスペクトル包絡パラメータ、そのピッチラグまたは波形に基づいて計算可能である。
マルチプルパラメータ−エンハンストPLC方法の信頼性は、フレーム間のショートスピーチ区分がどの程度安定しているかに依存し得る。例えば、将来のフレーム710および先のフレーム720は、マルチプルパラメータ−エンハンストPLC方法を経由して、信頼性の高い再構成されたフレームを提供するために十分に類似すべきである。先のフレーム720のLPC利得に対する将来のフレーム710のLPC利得の比率は、これら2つのフレーム間の類似性の良好な測度であり得る。LPC利得比率が小さすぎる場合または大きすぎる場合、マルチプルパラメータ−エンハンストPLC方法を使用することは、結果として、アーティファクトを伴ってフレームを再構成させる可能性がある。
一例では、フレーム内の非ボイス領域は、本質的にランダムになる傾向がある。したがって、エンハンストPLCベースの方法は、結果として、バジー音(buzzy sound)を生み出すフレームを再構成させる可能性がある。したがって、先のフレーム720が非ボイスフレームである場合、マルチプルパラメータ−エンハンストPLC方法(CELPエンハンストPLCおよびボイススピーチ符号化方式エンハンストPLC)は使用できない。1つの構成では、フレームの特性、すなわち、フレームがボイスフレームであるか非ボイスフレームであるかを決定するために、いくつかの基準を使用できる。フレームを分類するための基準は、フレームタイプ、フレームレート、第1の反射係数、ゼロ交差レートなどを含む。
先のフレーム720と将来のフレーム710とが十分に類似しないとき、または先のフレーム720が非ボイスフレームであるとき、マルチプルパラメータ−エンハンストPLC方法は使用できない。これらの場合、従来のPLCまたはスペクトル包絡パラメータ−エンハンストPLC方法を使用できる。これらの方法は、(それぞれ)従来のPLCモジュール714と、LSPエンハンストPLCモジュール704など、スペクトル包絡パラメータ−エンハンストPLCモジュールとによって実施可能である。先のフレームのLPC利得に対する将来のフレームのLPC利得の比率が非常に小さいとき、スペクトル包絡パラメータ−エンハンストPLC方法を選ぶことができる。そのような状況において従来のPLC方法を使用することは、消去されたフレームと、その後の良好なフレームとの間の境界にアーティファクトを出現させる可能性がある。
消去されたフレームのパラメータを再構成するために、マルチプルパラメータ−エンハンストPLC方法を使用できることが決定された場合(732)、どのタイプのエンハンストPLC方法(CELP−エンハンストPLCまたはボイススピーチ符号化方式エンハンストPLC)を使用すべきかについて決定722することができる。従来のPLC方法およびスペクトル包絡パラメータ−エンハンストPLC方法の場合、再構成されたフレームのフレームタイプは、再構成されたフレームの前の、先のフレームと同じである。しかしながら、これは、マルチプルパラメータ−エンハンストPLC方法に関していつも当てはまるとは限らない。これまでのシステムでは、現在の消去されたフレームを補償する際に使用される符号化モードは、先のフレームの符号化モードと同じである。しかしながら、本システムおよび本方法では、消去されたフレームに関する符号化モード/符号化タイプは、先のフレームおよび将来のフレームの符号化モード/符号化タイプとは異なる場合がある。
将来のフレーム710が正確でない場合(すなわち、低レートの符号化モード)、将来のフレーム710は、エンハンストPLC方法を実行するために、有用な情報を提供しない可能性がある。したがって、将来のフレーム710が精度の低いフレームである場合、エンハンストPLCは使用できない。代わりに、フレーム消去を補償するために、従来のPLC技法を使用できる。
現在の消去されたフレームの前の先のフレーム720が安定したボイスフレームであるとき、これは、先のフレーム720が安定したボイス領域に位置していることを意味し得る。したがって、従来のPLCアルゴリズムは、欠けているフレームの再構成を積極的に試みることができる。従来のPLCは、バジーアーティファクトを生成する可能性がある。したがって、先のフレーム720が安定したボイスフレームであり、将来のフレーム710がCELPフレームであるか、または非ボイススピーチ符号化フレームである場合、フレーム消去に関して、エンハンストPLCアルゴリズムを使用できる。次いで、バジーアーティファクトを回避するために、CELPエンハンストPLCアルゴリズムを使用できる。CELPエンハンストPLCアルゴリズムは、CELPエンハンストPLCモジュール724によって実施可能である。
将来のフレーム710がアクティブスピーチプロトタイプピッチ期間(active speech prototype pitch period)(FPPP)フレームである場合、ボイススピーチ符号化方式エンハンストPLCアルゴリズムを使用できる。ボイススピーチ符号化方式エンハンストPLCアルゴリズムは、(プロトタイプピッチ期間(PPP)エンハンストPLCモジュールなど)ボイススピーチ符号化方式エンハンストPLCモジュール726によって実施可能である。
1つの構成では、逆方向外挿(backward extrapolation)を行うために将来のフレームを使用できる。例えば、非ボイススピーチ符号化フレームの前に消去が発生する場合、これらのパラメータは、将来の非ボイススピーチ符号化フレームから推定可能である。これは、パラメータが現在の消去されたフレームの前のフレームから推定される従来のPLCとは異なる。
CELPエンハンストPLCモジュール724は、欠けているフレームをCELPフレームとして処理できる。CELPエンハンストPLC方法では、現在の消去されたフレーム(フレームn)のスペクトル包絡パラメータと、遅延と、適応コードブック(ACB)利得と、固定コードブック(FCB)利得とは、先のフレーム、すなわち、フレーム(n−1)と、将来のフレーム、すなわち、フレーム(n+m)との間の補間によって推定可能である。固定コードブックインデックスは、ランダムに生成可能であり、次いで、これらの推定された値に基づいて、現在の消去されたフレームを再構成することが可能である。
将来のフレーム710がアクティブスピーチ符号励起線形予測(FCELP)フレームであるとき、将来のフレーム710は、そこから将来のフレーム710の前のフレームのピッチラグ(すなわち、フレーム(n+m−1)を決定できるデルタ遅延フィールドを含み得る。現在の消去されたフレームの遅延は、第(n−1)番目のフレームの遅延値と第(n+m−1)番目のフレームの遅延値との間の補間によって推定可能である。遅延値の補間の前に、ピッチ2倍増/ピッチ3倍増を検出して、それを処理することが可能である。
先のフレーム720/将来のフレーム710がボイススピーチ符号化フレームまたは非ボイススピーチ符号化フレームであるとき、適応コードブック利得および固定コードブック利得などのパラメータは存在しない場合がある。そのような場合、これらのパラメータに関するいくつかの人工値を生成することが可能である。非ボイススピーチ符号化フレームの場合、ACB利得とFCB利得とはゼロに設定できる。ボイススピーチ符号化フレームの場合、FCB利得はゼロに設定でき、ACB利得は、先のフレームの前のフレームと先のフレームとの間の残差領域内のピッチサイクル波形エネルギーの比率に基づいて決定可能である。例えば、先のフレームがCELPフレームではなく、現在の消去されたフレームを補償するためにCELPモードが使用される場合、それがCELPフレームでない場合ですら、先のフレームのパラメータからacb_gainを推定するためにモジュールを使用できる。
任意の符号化方法の場合、エンハンストPLCを実行するために、先のフレームと将来のフレームとに基づいて、パラメータを補間することが可能である。先のフレームと将来のフレームとの間の類似性を表すために、類似のインジケータを計算できる。そのインジケータが何らかのしきい値よりもより低い(すなわち、あまり類似しない)場合、何らかのパラメータをエンハンストPLCから推定することはできない。代わりに、従来のPLCを使用できる。
CELPフレームと非ボイススピーチ符号化フレームとの間に1つまたは複数の消去が存在するとき、CELP消去処理の間の減衰により、最後に補償されたフレームのエネルギーは非常に低い場合がある。これは、最後に補償されたフレームとその後の良好な非ボイススピーチ符号化フレームとの間にエネルギー断絶を引き起こす可能性がある。この最後の消去されたフレームを補償するために、前述のような非ボイススピーチ復号方式を使用できる。
1つの構成では、消去されたフレームを非ボイススピーチ符号化フレームとして処理することが可能である。パラメータは、将来非ボイススピーチ符号化フレームから複写され得る。再構成された残差信号に関する平滑化動作を除いて、復号は、正規の非ボイススピーチ復号と同じであってよい。この平滑化は、エネルギー継続性を達成するために、先のCELPフレーム内の残差信号のエネルギーと現在のフレーム内の残差信号のエネルギーとに基づいて行われる。
1つの構成では、ギャップインジケータ708を補間係数(IF)計算機730に提供することが可能である。IF729は以下のように計算できる。
Figure 0005405659
消去されたフレームnのパラメータは、先のフレーム(n−1)と将来のフレーム710(n+m)のパラメータから補間できる。消去されたパラメータ、Pは、
Figure 0005405659
として補間できる。
広帯域スピーチコーデックの形でエンハンストPLC方法を実装することは、非広帯域スピーチコーデックの形でエンハンストPLC方法を実装することからの拡張であり得る。広帯域スピーチコーデックの低帯域内のエンハンストPLC処理は、非広帯域スピーチコーデック内のエンハンストPLC処理と同じであり得る。広帯域スピーチコーデック内の高広域パラメータの場合、以下を適用できる。マルチプルパラメータ−エンハンストPLC方法(すなわち、CELPエンハンストPLCまたはボイススピーチ符号化方式エンハンストPLC)によって低帯域パラメータが推定されるとき、補間によって、広帯域パラメータを推定できる。
フレーム消去が発生し、バッファ202内に少なくとも1つの将来のフレームが存在するとき、デジッタバッファ202は、将来のフレームを送るかどうかを決定する役目を果たすことができる。1つの構成では、バッファ内の第1の将来のフレームが無音フレームでないとき、かつギャップインジケータ708がある値以下であるとき、デジッタバッファ202は、第1の将来のフレームを復号器108に送ることになる。例えば、このある値は「4」であってよい。しかしながら、先のフレーム720が従来のPLC方法によって再構成され、先のフレーム720が連続して第2の従来のPLCフレームである状況において、ギャップインジケータがある値以下である場合、デジッタバッファ202は、将来のフレーム710を送ることができる。例えば、このある値は「2」であってよい。加えて、先のフレーム720が従来のPLC方法によって再構成され、かつ先のフレーム720が連続して少なくとも第3の従来のPLCフレームである状況において、バッファ202は、将来のフレーム710を復号器に供給しない場合がある。
一例では、バッファ202内に2つ以上のフレームが存在する場合、エンハンストPLC方法の間に使用されるように、第1の将来のフレームを復号器108に送ることができる。2つ以上の将来のフレームがバッファ内に存在する場合、そのより高いレートのフレームが、より低いレートのフレームよりも、消去されたフレームからさらに離れている場合ですら、より高いレートのフレームを選ぶことが可能である。あるいは、2つ以上の将来のフレームがバッファ内に存在する場合、その時間的に最も近接するフレームが、別の将来のフレームよりもより低いレートのフレームであるかどうかにかかわらず、消去されたフレームに時間的に最も近接するフレームを復号器108に送ることができる。
図8は、ワイヤレスデバイス802内で利用可能な様々なコンポーネントを例示する。ワイヤレスデバイス802は、本明細書で説明される様々な方法を実施するように構成され得るデバイスの一例である。ワイヤレスデバイス802は、遠隔局であってよい。
ワイヤレスデバイス802は、ワイヤレスデバイス802の動作を制御するプロセッサ804を含み得る。プロセッサ804は、中央処理装置(CPU)と呼ばれる場合もある。読出し専用メモリ(ROM)とランダムアクセスメモリ(RAM)の両方を含み得るメモリ806は、命令とデータとをプロセッサ804に提供する。メモリ806の一部は、不揮発性ランダムアクセスメモリ(NVRAM)を含むことも可能である。プロセッサ804は、通常、メモリ806内に格納されたプログラム命令に基づいて、論理演算と算術演算とを実行する。メモリ806内の命令は、本明細書で説明される方法を実施するために実行可能であり得る。
ワイヤレスデバイス802は、ワイヤレスデバイス802と遠隔位置との間のデータの送受信を可能にするために、送信機810と受信機812とを含み得るハウジング808を含むことも可能である。送信機810と受信機812とを組み合わせてトランシーバ814にすることができる。アンテナ816は、ハウジング808に取り付け可能であり、トランシーバ814に電気的に結合可能である。ワイヤレスデバイス802は、(図示されないが)複数の送信機、複数の受信機、複数のトランシーバ、および/または複数のアンテナを含むことも可能である。
ワイヤレスデバイス802は、トランシーバ814によって受信された信号のレベルを検出して、定量化するために使用可能な信号検出器818を含むことも可能である。信号検出器818は、全エネルギー、擬似雑音(PN)当たりのパイロットエネルギーチップ(pilot energy per pseudonoise(PN)chips)、電力スペクトル密度(power spectral density)、およびその他の信号などの信号を検出することが可能である。ワイヤレスデバイス802は、信号を処理する際に使用するためのデジタル信号プロセッサ(DSP)820を含むことも可能である。
ワイヤレスデバイス802の様々なコンポーネントは、データバスに加えて、電力バスと、制御信号バスと、状態信号バスとを含み得るバスシステム822によって一緒に結合され得る。しかしながら、分かりやすくするために、様々なバスは、図8においてバスシステム822として例示される。
本明細書で使用される場合、用語「決定すること」は幅広い様々な動作を包含しており、したがって、「決定すること」は、計算すること、演算すること、処理すること、導出すること、調査すること、調べること(例えば、表、データベース、または別のデータ構造の中を調べること)、確認することなどを含み得る。また、「決定すること」は、受信すること(例えば、情報を受信すること)、アクセスすること(例えば、メモリ中のデータにアクセスすること)などを含み得る。また、「決定すること」は、解決すること、選択すること、選ぶこと、確立することなどを含み得る。
「基づいて」という句は、特に具体的にその他の指定がない限り、「だけに基づいて」を意味しない。すなわち、「基づいて」という句は、「だけに基づいて」と「に少なくとも基づいて」の両方を表す。
本開示に関して説明された様々な例示的な論理ブロック、モジュール、および回路は、汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ信号(FPGA)もしくはその他のプログラマブル論理デバイス、ディスクリートゲートもしくはトランジスタロジック、ディスクリートハードウェアコンポーネント、または本明細書で説明された機能を実行するように設計されたそれらの任意の組合せを用いて実施あるいは実行されることが可能である。汎用プロセッサはマイクロプロセッサであってよいが、代替では、プロセッサは任意の市販のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であってもよい。プロセッサはまた、コンピューティングデバイスの組合せ、例えば、DSPとマイクロプロセッサの組合せ、複数のマイクロプロセッサ、DSPコアと共に1つもしくは複数のマイクロプロセッサ、または任意のその他のそのような構成として実施されることも可能である。
本開示に関して説明される方法またはアルゴリズムのステップは、ハードウェアの形で直接的に、プロセッサによって実行されるソフトウェアモジュールの形で、またはそれら2つの組合せの形で具体化されることが可能である。ソフトウェアモジュールは、技術分野において知られている任意の形態の記憶媒体の中に常駐することが可能である。使用され得る記憶媒体のいくつかの例は、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、着脱可能ディスク、CD−ROMなどを含む。ソフトウェアモジュールは、単一の命令、または多くの命令を備えてよく、いくつかの異なるコード区分上、異なるプログラム間、および複数の記憶媒体の全域で分散されてもよい。記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことが可能であるようにプロセッサに結合される。代替では、記憶媒体は、プロセッサと一体であってもよい。
本明細書で開示された方法は、説明された方法を達成するための1つもしくは複数のステップまたは動作を備える。これらの方法ステップおよび/または方法動作は、請求項の範囲から逸脱することなく互いに交換可能である。すなわち、ステップまたは動作の特定の順序が指定されていない限り、特定のステップおよび/もしくは動作の順序ならびに/または使用は、請求項の範囲から逸脱せずに修正可能である。
説明された機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せの形で実装可能である。ソフトウェアの形で実装される場合、これらの機能は、コンピュータ可読媒体上の1つもしくは複数の命令として格納可能である。コンピュータ可読媒体は、コンピュータによってアクセス可能な任意の利用可能な媒体であってよい。限定ではなく、例として、コンピュータ可読媒体は、RAM、ROM、EEPROM、CD−ROMもしくはその他の光ディスク記憶装置、磁気ディスク記憶装置もしくはその他の磁気記憶デバイス、あるいは所望されるプログラムコードを命令もしくはデータ構造の形で搬送または格納するために使用可能であり、コンピュータによってアクセス可能な任意のその他の媒体を備えることが可能である。本明細書で使用される場合、ディスク(Disk)およびディスク(disc)は、コンパクトディスク(CD)と、レーザディスクと、光ディスクと、デジタル多用途ディスク(DVD)と、フロッピー(登録商標)ディスクと、Blu−ray(登録商標)ディスクとを含み、この場合、ディスク(disks)は、通常、データを磁気的に再生し、一方、ディスク(discs)は、レーザを用いて、データを光学的に再生する。
ソフトウェアまたは命令は、伝送媒体上で送信されることも可能である。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、より対線、デジタル加入者線(DSL)、もしくは赤外線、無線、およびマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、またはその他の遠隔ソースから送信される場合、その同軸ケーブル、光ファイバケーブル、より対線、DSL、または赤外線、無線、およびマイクロ波などのワイヤレス技術は、伝送媒体の定義の中に含まれる。
さらに、図4〜7によって例示された方法および技法など、本明細書で説明された方法および技法を実行するためのモジュールならびに/またはその他の適切な手段は、適用可能な場合、モバイルデバイスおよび/もしくは基地局によってダウンロード可能でありかつ/または取得可能である点を理解されたい。例えば、かかるデバイスは、本明細書で説明された方法を実行するための手段の転送を円滑にするためにサーバに結合できる。あるいは、本明細書で説明された様々な方法は、デバイスに記憶手段を結合または提供するとすぐに、モバイルデバイスおよび/または基地局が様々な方法を取得できるように、記憶手段(例えば、ランダムアクセスメモリ(RAM)、読出し専用メモリ(ROM)、コンパクトディスク(CD)またはフロッピーディスクなどの物理的記憶媒体など)を経由して提供可能である。さらに、本明細書で説明された方法および技法をデバイスに提供するための任意のその他の適切な技法を利用することも可能である。
特許請求の範囲は、上で例示されたまさにその構成およびコンポーネントに限定されない点を理解されたい。請求項の範囲から逸脱せずに、本明細書で説明されたシステム、方法、および装置の構成、動作、および詳細に様々な修正、変更、ならびに改変を行うことが可能である。
以下に本願出願の当初の特許請求の範囲について記載された発明を付記する。
[1]
消去されたスピーチフレームを再構成するための方法であって、
バッファから第2のスピーチフレームを受信することと、ここで、前記第2のスピーチフレームのインデックス位置は、前記消去されたスピーチフレームのインデックス位置よりも高い、
前記第2のスピーチフレームと第3のスピーチフレームのうちの1つまたはそれら両方に基づいて、どのタイプのパケットロス補償(PLC)方法を使用するかを決定することと、ここで、前記第3のスピーチフレームのインデックス位置は、前記消去されたスピーチフレームのインデックス位置よりも低い、
前記第2のスピーチフレームと前記第3のスピーチフレームのうちの1つまたはそれら両方から、前記消去されたスピーチフレームを再構成することと
を備える方法。
[2]
インジケータを受信することをさらに備え、前記インジケータは、前記消去されたスピーチフレームのインデックス位置と前記第2のスピーチフレームのインデックス位置との間の差を表示する、
[1]に記載の方法。
[3]
前記第2のスピーチフレームに関連するフレームレートとフレームタイプとを受信することをさらに備える、
[1]に記載の方法。
[4]
前記第2のスピーチフレームのパラメータと前記第3のスピーチフレームのパラメータとを使用して、前記消去されたスピーチフレームのパラメータを補間することをさらに備える、
[1]に記載の方法。
[5]
前記消去されたスピーチフレームを検出することをさらに備える、
[1]に記載の方法。
[6]
前記インジケータをしきい値と比較することをさらに備える、
[2]に記載の方法。
[7]
前記インジケータから補間係数を計算することをさらに備える、
[2]に記載の方法。
[8]
前記補間係数は、
Figure 0005405659
として計算され、IFは、前記補間係数であり、mは、前記インジケータである、
[7]に記載の方法。
[9]
前記消去されたスピーチフレームを再構成するために、複数の技法のうちの1つを選択することをさらに備える、
[1]に記載の方法。
[10]
前記消去されたスピーチフレームは、符号励起線形予測(CELP)フレームである、
[9]に記載の方法。
[11]
前記消去されたスピーチフレームは、プロトタイプピッチ期間(PPP)フレームである、
[9]に記載の方法。
[12]
前記バッファは、2つ以上のスピーチフレームを備え、前記スピーチフレームのうちのいくつかのインデックス位置は、前記消去されたスピーチフレームのインデックス位置よりも高く、他のスピーチフレームのインデックス位置は、前記消去されたスピーチフレームのインデックス位置よりも低い、
[1]に記載の方法。
[13]
前記バッファ内の前記スピーチフレームのうちの1つを選択することをさらに備え、前記スピーチフレームは、前記スピーチフレームの符号化レート、符号化タイプ、または時間的な近接性に基づいて選択される、
[12]に記載の方法。
[14]
前記バッファ内の前記スピーチフレームのうちの1つを選択することをさらに備え、前記スピーチフレームが前記バッファ内の前記フレームのサイズに基づいて選択される、
[12]に記載の方法。
[15]
前記第2のスピーチフレームの完全性を確認するために、悪いレート検査を適用することをさらに備える、
[1]に記載の方法。
[16]
前記第3のスピーチフレームのフレームタイプが前記第2のスピーチフレームのフレームタイプとは異なる、
[1]に記載の方法。
[17]
エンハンストパケットロス補償アルゴリズムを実施するかまたは従来のパケットロス補償アルゴリズムを実施するかを決定することをさらに備える、
[1]に記載の方法。
[18]
エンハンストパケットロス補償アルゴリズムが実施され、前記エンハンストパケットロス補償アルゴリズムからアーティファクトが生み出されるかどうかを決定することをさらに備える、
[17]に記載の方法。
[19]
前記決定することは、前記第2のスピーチフレームおよび前記第3のスピーチフレームのうちの1つまたは両方のフレームレートとフレームタイプとに基づく、
[17]に記載の方法。
[20]
前記決定することは、前記第2のスピーチフレームおよび前記第3のスピーチフレームの類似性に基づく、
[17]に記載の方法。
[21]
前記スペクトル包絡推定またはピッチ波形に基づいて類似性を計算することをさらに備える、
[20]に記載の方法。
[22]
前記第2のスピーチフレームおよび前記第3のスピーチフレームの特性に基づいて、補間係数を選択することをさらに備える、
[1]に記載の方法。
[23]
逆方向外挿を使用して、前記消去されたスピーチフレームのパラメータを推定することをさらに備える、[1]に記載の方法。
[24]
前記第2のスピーチフレームおよび前記第3のスピーチフレームのフレームタイプと特性とに基づいて、逆方向外挿を使用するかどうかを決定することをさらに備える、
[23]に記載の方法。
[25]
前記消去されたスピーチフレームを再構成するために、前記第2のフレームのパラメータの一部を補間することをさらに備える、
[1]に記載の方法。
[26]
消去されたスピーチフレームを再構成するためのワイヤレスデバイスであって、
スピーチフレームのシーケンスを受信するように構成されたバッファと、
スピーチフレームの前記シーケンスを復号するように構成された音声復号器と
を備え、前記音声復号器は、
後続フレームおよび先のフレームのうちの1つのものである1つまたは複数のフレームから、前記消去されたスピーチフレームを再構成するように構成されたフレーム消去補償モジュールを備え、前記後続フレームは、前記バッファ内の前記消去されたスピーチフレームのインデックス位置よりも高いインデックス位置を備え、前記先のフレームは、前記バッファ内の前記消去されたスピーチフレームのインデックス位置よりも低いインデックス位置を備える、
ワイヤレスデバイス。
[27]
前記フレーム消去補償モジュールは、前記1つまたは複数の後続フレームのパラメータと前記1つまたは複数の先のフレームのパラメータとを使用して、前記消去されたスピーチフレームのパラメータを補間するようにさらに構成される、
[26]に記載のワイヤレスデバイス。
[28]
前記音声復号器は、前記消去されたスピーチフレームを検出するようにさらに構成される、
[26]に記載のワイヤレスデバイス。
[29]
前記フレーム消去補償モジュールは、インジケータを受信するようにさらに構成され、前記インジケータは、前記バッファ内の前記消去されたスピーチフレームのインデックス位置と第2のスピーチフレームのインデックス位置との間の差を表示する、
[26]に記載のワイヤレスデバイス。
[30]
前記フレーム消去補償モジュールは、前記インジケータがしきい値を超えるかどうかを決定するようにさらに構成される、
[29]に記載のワイヤレスデバイス。
[31]
前記フレーム消去補償モジュールは、前記インジケータから補間係数を計算するようにさらに構成される、
[29]に記載のワイヤレスデバイス。
[32]
前記ワイヤレスデバイスは、ハンドセットである、
[26]に記載のワイヤレスデバイス。
[33]
消去されたスピーチフレームを再構成するための装置であって、
バッファから第2のスピーチフレームを受信するための手段と、ここで、前記第2のスピーチフレームのインデックス位置が前記消去されたスピーチフレームのインデックス位置よりも高い、
前記第2のスピーチフレームと第3のスピーチフレームのうちの1つまたはそれら両方に基づいて、どのタイプのパケットロス補償(PLC)方法を使用するかを決定するための手段と、前記第3のスピーチフレームのインデックス位置が前記消去されたスピーチフレームのインデックス位置より低い、
前記第2のスピーチフレームと前記第3のスピーチフレームのうちの1つまたはそれら両方から、前記消去されたスピーチフレームを再構成するための手段と
を備える装置。
[34]
消去されたスピーチフレームを再構成するためのコンピュータプログラム製品であって、命令を有するコンピュータ可読媒体を備え、前記命令は、
バッファから第2のスピーチフレームを受信するためのコードと、ここで、前記第2のスピーチフレームのインデックス位置が前記消去されたスピーチフレームのインデックス位置よりも高い、
前記第2のスピーチフレームと第3のスピーチフレームのうちの1つまたはそれら両方に基づいて、どのタイプのパケットロス補償(PLC)方法を使用するかを決定するためのコードと、ここで、前記第3のスピーチフレームのインデックス位置が前記消去されたスピーチフレームのインデックス位置よりも低い、
前記第2のスピーチフレームと前記第3のスピーチフレームのうちの1つまたはそれら両方から、前記消去されたスピーチフレームを再構成するためのコードと
を備えるコンピュータプログラム製品。

Claims (26)

  1. 消去されたスピーチフレームに関連するインデックス位置を有する前記消去されたスピーチフレームを再構成するための方法であって、
    バッファから第2のスピーチフレームを受信することと、ここで、前記第2のスピーチフレームのインデックス位置は、前記消去されたスピーチフレームのインデックス位置よりも高い、
    前記第2のスピーチフレーム、または前記第2のスピーチフレームと第3のスピーチフレームの両方に基づいて、どのタイプのパケットロス補償、PLC、方法を使用するかを決定することと、ここで、前記第3のスピーチフレームのインデックス位置は、前記消去されたスピーチフレームのインデックス位置よりも低い、
    前記第2のスピーチフレームと前記第3のスピーチフレームのうちの1つまたはそれら両方から、前記消去されたスピーチフレームを再構成することと、
    前記第2のスピーチフレームに関連するフレームレートとフレームタイプとを受信することと
    を備え、前記決定することは、
    前記消去されたスピーチフレームのインデックス位置と前記第2のスピーチフレームのインデックス位置との間の差を表示するインジケータを受信することと、
    前記インジケータがしきい値よりも高いかどうかを決定することと
    を備える方法。
  2. 消去されたスピーチフレームに関連するインデックス位置を有する前記消去されたスピーチフレームを再構成するための方法であって、
    バッファから第2のスピーチフレームを受信することと、ここで、前記第2のスピーチフレームのインデックス位置は、前記消去されたスピーチフレームのインデックス位置よりも高い、
    前記第2のスピーチフレーム、または前記第2のスピーチフレームと第3のスピーチフレームの両方に基づいて、どのタイプのパケットロス補償、PLC、方法を使用するかを決定することと、ここで、前記第3のスピーチフレームのインデックス位置は、前記消去されたスピーチフレームのインデックス位置よりも低い、
    前記第2のスピーチフレームと前記第3のスピーチフレームのうちの1つまたはそれら両方から、前記消去されたスピーチフレームを再構成することと
    を備え、前記決定することは、
    前記消去されたスピーチフレームのインデックス位置と前記第2のスピーチフレームのインデックス位置との間の差を表示するインジケータを受信することと、
    前記インジケータがしきい値よりも高いかどうかを決定することと
    を備える方法。
  3. 前記第2のスピーチフレームのパラメータと前記第3のスピーチフレームのパラメータとを使用して、前記消去されたスピーチフレームのパラメータを補間することをさらに備える、
    請求項1または2に記載の方法。
  4. 前記消去されたスピーチフレームを検出することをさらに備える、
    請求項1または2に記載の方法。
  5. 前記インジケータから補間係数を計算することをさらに備える、
    請求項1または2に記載の方法。
  6. 前記補間係数は、
    Figure 0005405659
    として計算され、IFは、前記補間係数であり、mは、前記インジケータである、
    請求項5に記載の方法。
  7. 前記消去されたスピーチフレームは、符号励起線形予測(CELP)フレームである、
    請求項6に記載の方法。
  8. 前記消去されたスピーチフレームは、プロトタイプピッチ期間(PPP)フレームである、
    請求項6に記載の方法。
  9. 前記バッファは、2つ以上のスピーチフレームを備え、前記スピーチフレームのうちのいくつかのインデックス位置は、前記消去されたスピーチフレームのインデックス位置よりも高く、他のスピーチフレームのインデックス位置は、前記消去されたスピーチフレームのインデックス位置よりも低い、
    請求項1または2に記載の方法。
  10. 前記バッファ内の前記スピーチフレームのうちの1つを選択することをさらに備え、前記スピーチフレームは、前記消去フレームに対する前記スピーチフレームの符号化レート、符号化タイプ、または時間的な近接性に基づいて選択される、
    請求項9に記載の方法。
  11. 前記バッファ内の前記スピーチフレームのうちの1つを選択することをさらに備え、前記スピーチフレームが前記バッファ内の前記フレームのサイズに基づいて選択される、
    請求項9に記載の方法。
  12. 前記第3のスピーチフレームは、前記第2のスピーチフレームのフレームタイプと異なるフレームタイプを有する、
    請求項1または2に記載の方法。
  13. 前記失われたパケットのパラメータのうちいくつかまたはすべてを補間するために将来のフレームを利用することをさらに備える、
    請求項1または2に記載の方法。
  14. 使用するパケットロス補償方法のタイプについて前記決定することは、前記第2のスピーチフレームおよび前記第3のスピーチフレームのうちの1つまたは両方のフレームレートとフレームタイプとに基づく、
    請求項1または2に記載の方法。
  15. 使用するパケットロス補償方法のタイプについて前記決定することは、前記第2のスピーチフレームおよび前記第3のスピーチフレームの類似性に基づく、
    請求項1または2に記載の方法。
  16. 前記類似性は、スペクトル包絡推定またはピッチ波形推定に基づいて計算される、
    請求項15に記載の方法。
  17. 前記第2のスピーチフレームおよび前記第3のスピーチフレームの特性に基づいて、補間係数を選択することをさらに備える、
    請求項1または2に記載の方法。
  18. 逆方向外挿を使用して、前記消去されたスピーチフレームのパラメータを推定することをさらに備える、請求項1または2に記載の方法。
  19. 前記第2のスピーチフレームおよび前記第3のスピーチフレームのフレームタイプと特性とに基づいて、逆方向外挿を使用するかどうかを決定することをさらに備える、
    請求項18に記載の方法。
  20. 前記消去されたスピーチフレームを再構成するために、前記第2のスピーチフレームのパラメータの一部を補間することをさらに備える、
    請求項1または2に記載の方法。
  21. 消去されたスピーチフレームを再構成するための装置であって、
    バッファから第2のスピーチフレームを受信するための手段と、ここで、前記第2のスピーチフレームのインデックス位置が前記消去されたスピーチフレームのインデックス位置よりも高い、
    前記第2のスピーチフレーム、または前記第2のスピーチフレームと第3のスピーチフレームの両方に基づいて、どのタイプのパケットロス補償(PLC)方法を使用するかを決定するための手段と、ここで、前記第3のスピーチフレームのインデックス位置が前記消去されたスピーチフレームのインデックス位置より低い、
    前記第2のスピーチフレームと前記第3のスピーチフレームのうちの1つまたはそれら両方から、前記消去されたスピーチフレームを再構成するための手段と
    を備え、前記決定するための手段は、
    インジケータを受信するための手段と、ここで、前記インジケータは、前記バッファ内の前記消去されたスピーチフレームのインデックス位置と第2のスピーチフレームのインデックス位置との間の差を表示する
    前記インジケータがしきい値を超えるかどうかを決定するための手段と
    を備える、装置。
  22. 前記1つまたは複数の後続フレームのパラメータと前記1つまたは複数の先のフレームのパラメータとを使用して、前記消去されたスピーチフレームのパラメータを補間するための手段をさらに備える
    請求項21に記載の装置。
  23. 前記消去されたスピーチフレームを検出するための手段をさらに備える
    請求項21に記載の装置。
  24. 前記インジケータから補間係数を計算するための手段をさらに備える
    請求項21に記載の装置。
  25. 前記装置は、ハンドセットである、
    請求項21に記載の装置。
  26. 消去されたスピーチフレームを再構成するためのコンピュータプログラムであって、
    少なくとも1つのコンピュータに、バッファから第2のスピーチフレームを受信させるためのコードと、ここで、前記第2のスピーチフレームのインデックス位置が前記消去されたスピーチフレームのインデックス位置よりも高い、
    前記少なくとも1つのコンピュータに、前記第2のスピーチフレーム、または前記第2のスピーチフレームと第3のスピーチフレームの両方に基づいて、どのタイプのパケットロス補償(PLC)方法を使用するかを決定させるためのコードと、ここで、前記第3のスピーチフレームのインデックス位置が前記消去されたスピーチフレームのインデックス位置よりも低い、
    前記少なくとも1つのコンピュータに、前記第2のスピーチフレームと前記第3のスピーチフレームのうちの1つまたはそれら両方から、前記消去されたスピーチフレームを再構成させるためのコードと
    を備え、前記決定させるためのコードは、
    前記少なくとも1つのコンピュータに、前記消去されたスピーチフレームのインデックス位置と前記第2のスピーチフレームのインデックス位置との間の差を表示するインジケータを受信するためのコードと、
    前記少なくとも1つのコンピュータに、前記インジケータがしきい値を超えるかどうかを決定するためのコードと
    を備える、コンピュータプログラム。
JP2012514141A 2009-06-04 2010-06-03 消去されたスピーチフレームを再構成するためのシステムおよび方法 Active JP5405659B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/478,460 2009-06-04
US12/478,460 US8428938B2 (en) 2009-06-04 2009-06-04 Systems and methods for reconstructing an erased speech frame
PCT/US2010/037302 WO2010141755A1 (en) 2009-06-04 2010-06-03 Systems and methods for reconstructing an erased speech frame

Publications (3)

Publication Number Publication Date
JP2012529082A JP2012529082A (ja) 2012-11-15
JP2012529082A5 JP2012529082A5 (ja) 2013-06-06
JP5405659B2 true JP5405659B2 (ja) 2014-02-05

Family

ID=42558205

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012514141A Active JP5405659B2 (ja) 2009-06-04 2010-06-03 消去されたスピーチフレームを再構成するためのシステムおよび方法

Country Status (8)

Country Link
US (1) US8428938B2 (ja)
EP (1) EP2438592B1 (ja)
JP (1) JP5405659B2 (ja)
KR (1) KR101290425B1 (ja)
CN (1) CN102449690B (ja)
ES (1) ES2401171T3 (ja)
TW (1) TWI436349B (ja)
WO (1) WO2010141755A1 (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120032444A (ko) * 2010-09-28 2012-04-05 한국전자통신연구원 적응 코드북 업데이트를 이용한 오디오 신호 디코딩 방법 및 장치
US9026434B2 (en) * 2011-04-11 2015-05-05 Samsung Electronic Co., Ltd. Frame erasure concealment for a multi rate speech and audio codec
CN103886863A (zh) 2012-12-20 2014-06-25 杜比实验室特许公司 音频处理设备及音频处理方法
US9336789B2 (en) * 2013-02-21 2016-05-10 Qualcomm Incorporated Systems and methods for determining an interpolation factor set for synthesizing a speech signal
US9842598B2 (en) * 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability
FR3004876A1 (fr) * 2013-04-18 2014-10-24 France Telecom Correction de perte de trame par injection de bruit pondere.
SG11201510463WA (en) 2013-06-21 2016-01-28 Fraunhofer Ges Forschung Apparatus and method for improved concealment of the adaptive codebook in acelp-like concealment employing improved pitch lag estimation
ES2697474T3 (es) * 2013-06-21 2019-01-24 Fraunhofer Ges Forschung Decodificador de audio que tiene un módulo de extensión de ancho de banda con un módulo de ajuste de energía
PL3011555T3 (pl) * 2013-06-21 2018-09-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Rekonstrukcja ramki sygnału mowy
CN107818789B (zh) 2013-07-16 2020-11-17 华为技术有限公司 解码方法和解码装置
CN108364657B (zh) 2013-07-16 2020-10-30 超清编解码有限公司 处理丢失帧的方法和解码器
US10614816B2 (en) * 2013-10-11 2020-04-07 Qualcomm Incorporated Systems and methods of communicating redundant frame information
MX356164B (es) * 2013-11-13 2018-05-16 Fraunhofer Ges Forschung Codificador para codificar una señal de audio, sistema de audio de transmisión y método para determinar valores de corrección.
CN104751849B (zh) 2013-12-31 2017-04-19 华为技术有限公司 语音频码流的解码方法及装置
US10157620B2 (en) * 2014-03-04 2018-12-18 Interactive Intelligence Group, Inc. System and method to correct for packet loss in automatic speech recognition systems utilizing linear interpolation
CN107369454B (zh) * 2014-03-21 2020-10-27 华为技术有限公司 语音频码流的解码方法及装置
CN105225666B (zh) 2014-06-25 2016-12-28 华为技术有限公司 处理丢失帧的方法和装置
US9984699B2 (en) 2014-06-26 2018-05-29 Qualcomm Incorporated High-band signal coding using mismatched frequency ranges
US9680507B2 (en) 2014-07-22 2017-06-13 Qualcomm Incorporated Offset selection for error correction data
CN112216288A (zh) * 2014-07-28 2021-01-12 三星电子株式会社 用于音频信号的时域数据包丢失隐藏的方法
CN108011686B (zh) * 2016-10-31 2020-07-14 腾讯科技(深圳)有限公司 信息编码帧丢失恢复方法和装置
US10217466B2 (en) * 2017-04-26 2019-02-26 Cisco Technology, Inc. Voice data compensation with machine learning
CN109496333A (zh) * 2017-06-26 2019-03-19 华为技术有限公司 一种丢帧补偿方法及设备
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483878A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
SG11202110071XA (en) * 2019-03-25 2021-10-28 Razer Asia Pacific Pte Ltd Method and apparatus for using incremental search sequence in audio error concealment

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7668712B2 (en) * 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
US8320391B2 (en) 2004-05-10 2012-11-27 Nippon Telegraph And Telephone Corporation Acoustic signal packet communication method, transmission method, reception method, and device and program thereof
US7519535B2 (en) * 2005-01-31 2009-04-14 Qualcomm Incorporated Frame erasure concealment in voice communications
US8355907B2 (en) * 2005-03-11 2013-01-15 Qualcomm Incorporated Method and apparatus for phase matching frames in vocoders
US8155965B2 (en) * 2005-03-11 2012-04-10 Qualcomm Incorporated Time warping frames inside the vocoder by modifying the residual
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
CN101000768B (zh) 2006-06-21 2010-12-08 北京工业大学 嵌入式语音编解码的方法及编解码器
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
CN101155140A (zh) 2006-10-01 2008-04-02 华为技术有限公司 音频流错误隐藏的方法、装置和系统
WO2008056775A1 (fr) 2006-11-10 2008-05-15 Panasonic Corporation Dispositif de décodage de paramètre, dispositif de codage de paramètre et procédé de décodage de paramètre
US8000961B2 (en) * 2006-12-26 2011-08-16 Yang Gao Gain quantization system for speech coding to improve packet loss concealment

Also Published As

Publication number Publication date
KR101290425B1 (ko) 2013-07-29
US20100312553A1 (en) 2010-12-09
ES2401171T3 (es) 2013-04-17
CN102449690B (zh) 2014-05-07
WO2010141755A1 (en) 2010-12-09
TWI436349B (zh) 2014-05-01
CN102449690A (zh) 2012-05-09
JP2012529082A (ja) 2012-11-15
KR20120019503A (ko) 2012-03-06
TW201126510A (en) 2011-08-01
EP2438592A1 (en) 2012-04-11
US8428938B2 (en) 2013-04-23
EP2438592B1 (en) 2013-02-13

Similar Documents

Publication Publication Date Title
JP5405659B2 (ja) 消去されたスピーチフレームを再構成するためのシステムおよび方法
KR100956522B1 (ko) 음성 통신에서의 프레임 소거 은닉
JP5587405B2 (ja) スピーチフレーム内の情報のロスを防ぐためのシステムおよび方法
JP6768886B2 (ja) 冗長フレーム情報を通信するシステムおよび方法
TWI602172B (zh) 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法
JP6306177B2 (ja) 時間ドメイン励振信号を修正するエラーコンシールメントを用いて、復号化されたオーディオ情報を提供する、オーディオデコーダおよび復号化されたオーディオ情報を提供する方法
TWI484479B (zh) 用於低延遲聯合語音及音訊編碼中之錯誤隱藏之裝置和方法
KR101422379B1 (ko) 서브 밴드 코딩 디코더에서 손실 패킷들의 은닉
JP6306175B2 (ja) 時間ドメイン励振信号に基づくエラーコンシールメントを用いて、復号化されたオーディオ情報を提供するオーディオデコーダおよび復号化されたオーディオ情報を提供する方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130408

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20130408

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130604

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130904

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131001

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131030

R150 Certificate of patent or registration of utility model

Ref document number: 5405659

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250