JP2005531017A

JP2005531017A - パケット網環境における音声のコード変換

Info

Publication number: JP2005531017A
Application number: JP2004506009A
Authority: JP
Inventors: ベニャッシン，アディル; シュロモット，イヤール; ス，ホワン−ユウ; ティッセン，ジェス; ガオ，ヤン
Original assignee: マインドスピード・テクノロジーズ・インコーポレイテッド
Priority date: 2002-05-13
Filing date: 2003-02-26
Publication date: 2005-10-13
Also published as: IL165147A0; AU2003217859A1; KR20040104701A; WO2003098598A1; CN1653515A; EP1504441A4; EP1504441A1

Abstract

パケット網環境における音声のコード変更が与えられる。解読器は、第１の符号化方式に従って符号化された第１のビットストリームを受信するように構成される。解読器は、第１の符号化方式に従ってビットストリームを解読し、複数の第１の音声サンプルを生成し、スペクトル特徴、エネルギ、ピッチおよび／またはピッチゲインを含み得る複数の第１の音声パラメータを抽出する。コンバータは次に、複数の第１の音声サンプルおよび複数の第１の音声パラメータを、第２の符号化方式に従って用いるために、複数の第２の音声サンプルおよび複数の第２の音声パラメータに変換する。第１のおよび第２の符号化方式は、たとえばＧ．７１１，Ｇ．７２３．１，Ｇ．７２６またはＧ．７２９であるかもしれず、パラメトリックまたはノンパラメトリックであるかもしれない。符号器は、複数の第２の音声サンプルおよび複数の第２の音声パラメータを受信し、第２の符号化方式に従って第２のビットストリームを生成する。

Description

関連出願
この出願は、１９９９年４月１２日出願の米国仮出願連続番号第６０／１２８，８７３号の利益を主張する、２０００年４月１２日出願の米国出願連続番号第０９／５４７，８３２号の一部継続出願であり、これらはこの出願において完全に引用により援用される。

発明の背景
１．発明の分野
本発明は一般的に音声符号化の分野に関し、より特定的にパケット網環境における音声のコード変換に関するものである。

２．関連技術
インターネットの爆発的な成長に伴って、この従来データ志向のネットワークをボイスオーバーパケット（“ＶｏＰ”）に従った音声通信のために用いることへの関心が高まっている。パケット網での送信のために音声信号をパケット化することは、より安価であるが効果的な、従来の電話サービスに代わるものとして認識されている。ＶｏＰという用語は、たとえばＶｏＩＰおよびパケット化された音声データを用いる他のタイプのサービスを含むことのできる包括的な用語である。

ＶｏＰの拡大が直面する１つの課題は、多様なタイプのネットワークを非常に効果的に接続する必要があるということである。より具体的には、異なるネットワークは、音声を符号化し、圧縮し、かつパケット化するための異なる標準を用いているかもしれないため、ネットワーク間で有意義な接続を達成するためにコード変換手順を実行しなければならない。典型的に、１つのネットワークで通信している送信参加者からの１つの標準に従って符号化された音声データは、別のネットワークのガイドラインのもとで通信している受信参加者によって用いられる標準に変換されなければならない。たとえば、送信参加者の音声は、Ｇ．７２３．１仕様に従って符号化されるかもしれないが、一方で受信参加者はＧ．７２９を用いる。送信参加者からのデータが受信参加者によって理解されるためには、送信参加者からのビットストリームが、Ｇ．７２３．１フォーマットからＧ．７２９フォーマットへ変換されなければならない。

従来のコード変換アプローチにおいて、送信参加者からの符号化されたデータは、送信参加者によって用いられる符号化方法に従って解読される。解読されたデータは次に、受信参加者によって用いられる符号化方法に従って再び符号化される。再び符号化された形式において、このデータは受信参加者に送信される。しかしながら、既知のコード変換方式には、非常に多くの深刻な欠陥がある。たとえば、音声信号の解読および再符号化（「タンデム」プロセス）は、音質を低下させる。より特定的に、低いビットレートの音声解読器において一般的なポストフィルタのタンデム動作は、不快なスペクトル歪をもたらし、かつ音質を著しく低下させるおそれがある。

既知のコード変換方式の別の欠点は、再符号化ステップによってもたらされる望ましくない遅れである。典型的に、解読されたビットストリームの再符号化には、音声信号の特徴が評価される必要がある。このように、たとえば、エネルギ、スペクトル特徴およびピッチを含むパラメータが、ビットストリームから抽出され、信号を再符号化するために用
いられなければならない。さらに、遅れに加えて、再符号化ステップの一部としてこれらのパラメータを抽出する必要があるために、システムがかなり複雑になる。

したがって、既知のコード変換方式の欠点を克服し、かつネットワーク間のコード変換を達成することのできるより効果的な手段を与えることができる、コード変換方法および関連のシステムが当該技術において極めて必要とされている。

発明の概要
本明細書において大まかに記載される本発明の目的に従って、パケット網環境における音声のコード変換が示される。本発明の１つの例示的な局面において、音声信号から生成された第１のビットストリームをコード変換することのできる音声コード変換器が開示される。このコード変換器は、第１の符号化方式に基づいて符号化された第１のビットストリームを受信するように構成された解読器を含む。たとえば、音声信号は、Ｇ．７１１，Ｇ．７２３．１，Ｇ．７２６またはＧ．７２９に従って符号化されてもよく、パラメトリックであるかまたはノンパラメトリックであってもよい。解読器は、第１のビットストリームから、たとえば音声信号のスペクトル特徴、エネルギ、ピッチおよび／またはピッチゲインに関するパラメータを含み得る複数の第１の音声パラメータを抽出する。この解読器はまた、第１の符号化方式に従って第１のビットストリームを解読し、複数の第１の音声サンプルを生成する。ある構成において、解読器はポストフィルタ要素を含み得、このポストフィルタ要素は、システムの複雑さを減じ、かつ後に続く再符号化プロセスによって生成される音声信号の音質を向上させるために使用禁止にされるかもしれない。

複数の第１の音声サンプルおよび複数の第１の音声パラメータは、次にコンバータに送信され、このコンバータは、複数の第１の音声サンプルおよび複数の第１の音声パラメータを、第２の符号化方式に従って用いるために複数の第２の音声サンプルおよび複数の第２の音声パラメータに変換することができる。第２の符号化方式は、たとえば、Ｇ．７１１，Ｇ．７２３．１，Ｇ．７２６またはＧ．７２９であってもよく、パラメトリックまたはノンパラメトリックであってもよい。コンバータによる変換の後で、複数の第２の音声サンプルおよび複数の第２の音声パラメータは符号器に送信される。この符号器は、複数の第２の音声サンプルおよび複数の第２の音声パラメータを受信し、第２のビットストリームを生成し、この第２のビットストリームは、第２の符号化方式に基づいて符号化される。ある構成において、解読器はノイズサプレッサ要素を含み得、このノイズサプレッサ要素は、システムの複雑さを減じ、かつ音声信号の音質を向上させるために使用禁止にされるかもしれない。第１のビットストリームから音声パラメータを抽出し、音声パラメータを変換し、かつ変換された音声パラメータを解読器に与えることによって、符号化プロセスの際の音声パラメータの再評価が回避され、システムの複雑さを減じるおよび遅れを減じるといった多くの有利な結果が達成される。

本発明のこれらのおよび他の局面は、以下に続く図面および明細書をさらに参照して明らかになるであろう。この説明に含まれるすべてのこのような追加のシステム、方法、特徴および利点は、本発明の範囲内にあり、別掲の特許請求の範囲によって保護されることが意図される。

本発明の特徴および利点は、以下に続く詳細な説明および添付の図面を振り返った後で、当業者にとってより容易に明らかになるであろう。

例示の実施例の説明
本発明は、本明細書において機能的なブロック構成要素およびさまざまな処理ステップ
によって記載され得る。このような機能的なブロックは、指定された機能を行なうように構成された任意の数のハードウェア構成要素および／またはソフトウェア構成要素によって実現され得ることを認識すべきである。たとえば、本発明は、さまざまな集積回路構成要素、たとえば記憶素子、デジタル信号処理要素、論理要素等を用いるかもしれず、これらは１つ以上のマイクロプロセッサまたは他の制御装置の制御のもとでさまざまな機能を果たし得る。さらに、本発明は、データ送信、信号方式、信号処理および調整、音の生成および検出等のための任意の数の従来の技術を用い得ることに注目すべきである。当業者にとって周知であり得るこのような一般的な技術は、本明細書において詳細には説明されない。

本明細書に示され記載された特定の実現化例は、単に例示的なものにすぎず、決して本発明の範囲を限定することは意図されていないことを認識すべきである。実際に、簡潔にするために、従来のデータ送信、信号方式および信号処理、ならびに通信システム（およびシステムの個々に動作する構成要素）の他の機能的および技術的な局面は、本明細書において詳細には説明されないかもしれない。さらに、本明細書に含まれるさまざまな図面に示された接続線は、さまざまな要素間の例示の機能的な関係および／または物理的な結合を示すことが意図されている。なお、多くの代替のまたは追加の機能的な関係または物理的な接続が、実際の通信システムにおいて存在し得る。

図１は、パケット化された音声情報の送信をサポートすることのできる例示の通信環境１００を示している。パケット網１０２、たとえばインターネットプロトコル（“ＩＰ”）に準拠するネットワークは、複数の参加者が従来のボイスオーバーパケット技術に従って音声電話をかけることを可能にするインターネット電話技術のアプリケーションをサポートし得る。実際の環境１００において、パケット網１０２は、異なる通信装置および異なる通信サービスプロバイダを有し得るユーザによる参加を可能にする態様で、従来の電話網、ローカルエリアネットワーク、広域エリアネットワーク、公衆交換機、および／またはホームネットワークと通信し得る。たとえば、図１において、参加者１および参加者２は、音声データを含むパケット通信を介して（直接的にまたは間接的に）パケット網１０２と通信する。参加者３は、ゲートウェイ１０４を介してパケット網１０２と通信し、一方で参加者４はゲートウェイ１０６を介してパケット網１０２と通信する。

この説明の文脈の中で、ゲートウェイは音声データをパケットデータに変換する機能的な要素である。したがって、ゲートウェイは、従来の音声情報をパケット網上で送信することのできるパケット化された形式に変換する変換要素と見なされてもよい。ゲートウェイは、電話局、（電話等の）周辺装置、ローカルスイッチ（たとえば公衆交換機と対応付けられたもの）等において実現され得る。このようなゲートウェイの機能性および動作は、当業者にとって周知であるため、詳細には説明されない。本発明はさまざまな従来のゲートウェイの設計と共に実現することができることが認識されるであろう。

環境１００は、異なる音声符号化標準を用いて参加者間で通信するのを可能にする任意の数のコード変換器を含み得る。たとえば、コード変換器１０８は、パケット網１０２に含まれてもよい。コード変換器１０８は、電話局で実現されるか、またはインターネットサービスプロバイダ（“ＩＳＰ”）によって維持されてもよい。この態様で、複数のパケットベースの参加者、たとえば参加者１および２からの音声データは、通常ゲートウェイによって行なわれる変換を行なうことなく、コード変換器１０８によって処理することができる。

別の例として、コード変換器１１０は、ゲートウェイ、たとえばゲートウェイ１０４と対応付けられるかまたはそれに含まれてもよい。この構成において、コード変換器１１０は、ボイスオーバーパケットデータおよび従来の音声信号を受信し処理することができる
かもしれない。最終的に、ゲートウェイ１０４は、参加者３がコード変換器１１０を通してパケット網１０２、およびパケット網１０２に結合された参加者、たとえば参加者１または２とと通信することができるようにする。

本発明に従うと、パケットベースのコード変換器は、電話技術システムにおいて配置されて、異なる標準または音声符号化の技術を用いる参加者間の通信を容易にし得る。周知のように、所与のパケットベースの音声チャネルは、たとえば複数の異なる音声符号化／圧縮標準のうちの１つを採用し得る。さまざまな音声符号化標準が、一般的に当業者に周知であり、たとえばＧ．７１１，Ｇ．７２６，Ｇ．７２８，Ｇ．７２９（Ａ），Ｇ．７２３．１、グローバル・システム・フォー・モバイル・コミュニケーションズ（“ＧＳＮ”）、選択可能モードボコーダ（“ＳＭＶ”）、および、適応マルチレート（“ＡＭＲ”）コーディング、ここに引用により援用される仕様を含み得る。

所与の音声のために用いられる特定の標準は、参加者のインターネットサービスプロバイダ、電話サービスプロバイダ、参加者の周辺装置の設計および他の要因に依存し得る。結果として、コード変換器１０８または１１０等の実用的なコード変換器は、さまざまな標準によって符号化された音声を処理することができる。さらに、このようなコード変換器は、符号化されなかった音声を処理することができる。

図２は、本発明の一実施例に従ってコード変換するための例示の通信システム２００を示している。通信システム２００に示されるように、第１の参加者（すなわち参加者１）は、コード変換器２０６を通して第２の参加者（すなわち参加者２）と通信している。参加者１は、チャネル２０４を介してコード変換器２０６に結合され、参加者２は、チャネル２１６を介してコード変換器２０６に結合される。

示された実施例において、参加者１からの音声データは、符号器２０２によって符号化され、チャネル２０４を介してコード変換器２０６に送信され得る。上述のように、たとえば、参加者のインターネットサービスまたは電話サービスといった要因に依存して、参加者１からの音声データを、好適な符号化標準を用いて、符号器２０２によって圧縮し、符号化する必要があるかもしれない。たとえば、チャネル２０４は、ネットワークベースのパケット網であるかもしれず、この場合、符号器２０２は、音声データをパケット化するために好適なパケットフォーマットを用い得る。このような場合において、チャネル２０４を越えて送信された符号器２０２からの出力データは、１つ以上の符号化標準、たとえばＧ．７２３．１またはＧ．７２９に従った、ビットストリーム形式の符号化されたデジタルデータを含むであろう。代わりに、チャネル２０４は、参加者１をコード変換器２０６に結合するローカルリンクとして機能してもよく、この場合符号器２０２は、参加者１からの音声データを符号化することなくデジタル化し得、デジタル化されたデータはチャネル２０４を越えて送信される。

チャネル２０４を介してコード変換器２０６に到達した参加者１からのビットストリームは、最初に、送信参加者、すなわち参加者１の符号化方法に従ってビットストリームを解読するように構成された解読器２０８に入力されて、処理される。したがって、参加者１からの音声データが、たとえばＧ．７２３．１を用いて符号器２０２によって符号化された場合、解読器２０８はそれに応じてビットストリームを解読するであろう。一実施例において、解読器２０８のポストフィルタ要素（図示せず）は、使用禁止にされてもよく、またはその機能をポストフィルタリングを用いた従来の解読アルゴリズムによく見られる劣化を最小にするまで減じてもよい。

ビットストリーム（すなわち解読されたビットストリーム）からの音声サンプルを生成することに加えて、解読器２０８はまた、ビットストリームからある音声パラメータを抽
出するように構成されている。この出願において「サイド情報」とも呼ばれる音声パラメータは、たとえば、音声信号のエネルギ、スペクトル特徴、ピッチおよびピッチゲインを含み得る。したがって、音声サンプルに加えて、音声パラメータ（またはサイド情報）が解読器２０８によってコンバータ２１２に送信される。

続けて図２を参照して、コンバータ２１２に入力された音声サンプルおよび音声パラメータは、受信参加者に好適な標準に従って符号器によって最終的に符号化されるように好適に処理され、変換される。コンバータ２１２によって行なわれる変換は、音声サンプルおよび／またはたとえば解読器２０８から受信されたパラメータのうちの少なくとも１つに基づいているかもしれない。変換プロセスの一部として、音声サンプルは、符号器２１４によって再符号化されるのに好適なフォーマットに修正され得る。たとえば、参加者１および２が異なるフレーム構造を有する符号化標準を用いている例において、コンバータ２１２はフレームのサイズを変更して、符号器２１４によって用いられるのに適切なフレームサイズに従った音声サンプルを与え得る。コンバータ２１２によって変換された後で、変換された音声サンプルおよび音声パラメータを含む音声情報は、符号器２１４に送信される。なお、いくつかの実施例において、解読器２０８は、音声サンプルをコンバータ２１２に与えるだけかもしれず、音声パラメータ（またはサイド情報）を与えないかもしれない。たとえば、音声信号がＧ．７１１，Ｇ．７２６，Ｇ．７２８等のノンパラメトリックの符号化方式に従って符号化されるときに、コンバータ２１２は、解読器２０８から音声サンプルを受信し、この音声サンプルを変換して、符号器２１４によって用いられるのに適切なフレームサイズに従った音声サンプルを与える。

符号器２１４は、受信参加者、すなわちこの例においては参加者２によって用いられる標準に従って音声情報を符号化するように構成される。したがって、参加者２がたとえば選択可能なモードボコーダ（“ＳＭＶ”）を用いる場合、符号器２１４は、ＳＭＶ標準に従ってビットストリームを符号化するであろう。本発明に従って、符号器２１４は、解読器２０８によって抽出されかつコンバータ２１２によって処理された音声パラメータを用いて音声情報を符号化するように構成することができる。この態様において、従来符号器２１４によって音声情報を再符号化するのに必要とされる、音声信号のエネルギ、スペクトル特徴、ピッチおよびピッチゲイン等のパラメータが、符号器２１４によって音声サンプルから再び抽出される必要がない。したがって、符号器２１４は、スペクトル分析、ピッチ分析といったパラメータ評価タスクを行なう必要がなく、または符号器２１４は、それほど複雑でないパラメータ評価タスクを行なう必要があるだけかもしれない。結果として、本発明のさまざまな実施例のコード変換方式は、従来のコード変換方式と比較して、実質的に処理能力を減じ、遅れを最小にし、全体的なシステムの複雑さを減じる。一実施例において、符号器２１４の防音機能は、システムの複雑さをさらに減じるために使用禁止にされてもよい。さらに、音声パラメータは、最初の解読ステップの間に、再符号化ステップの際に用いられるために抽出されるため、たとえばスペクトルおよびピッチの再評価によってもたらされる信号の劣化が回避される。符号器２１４による符号化に続いて、ビットストリームは、チャネル２１６を介して、次にビットストリームを解読する解読器２１８によって用いられるのに好適なフォーマットで、受信参加者、すなわち参加者２に送信される。

次に図３を参照すると、一実施例に従って例示の通信システム３００を用いて、本発明のコード変換技術を用いたカンファレンスブリッジが示されている。より特定的に、通信システム３００は、いかにして本発明を二人以上の送信参加者から受信参加者への音声信号をコード変換し、かつそれを混合するために用いることができるかを示しており、ここで各々の送信参加者は他方の参加者とは異なる符号化方式を用いているかもしれない。通信システム３００において、参加者１，２および３は、チャネル３０４，３１６および３２２それぞれを介してカンファレンスブリッジ３０６に結合される。この例において、参
加者１および３は双方とも同時に参加者２と通信していることが認識される。

続けて図３を参照して、参加者１からの音声は、符号器３０２によって、チャネル３０４を越えて解読器３０８に送信されるのに好適なフォーマットに符号化される。同様に、符号器３２０は、参加者３からの音声を、チャネル３２２を越えて解読器３２４に送信するのに好適なフォーマットに符号化する。解読器３０８および３２４の双方は、送信参加者によって用いられる符号化方式に従って、参加者１および３によってもたらされるような入力ビットストリームを解読し、かつビットストリームから音声サンプルを生成するように構成することができる。解読器３０８および３２４は、ビットストリームから音声パラメータを抽出してもよく、または音声が本来ノンパラメトリックの標準に従って符号化された場合に音声パラメータを生成してもよい。

解読の後で、参加者１および３の双方の音声サンプルおよび音声パラメータがコンバータ／ミキサ３１２に入力される。コンバータ／ミキサ３１２は、入力された音声サンプルおよび音声パラメータを変換、結合および混合するように構成されて、受信参加者、すなわち参加者２によって用いられる符号化方式に従って符号化するのに好適な単一の音声情報を生成することができる。

送信参加者によって用いられるさまざまな符号化方法に依存して、コンバータ／ミキサ３１２は、受信参加者によって符号化されるのに好適なビットストリームを生成するために、フレームサイズおよび他の要因を考慮に入れる必要があるかもしれない。たとえば、Ｇ．７２３．１は３０ｍｓのフレームサイズを用い、Ｇ．７２９は１０ｍｓのフレームサイズを用いる。したがって、共通のフレーム構成を設定して、解読器３０８および３２４からの音声サンプルを効果的に混合することができるようにし得る。たとえば、入力チャネルのうちの少なくとも１つがＧ．７２３．１を用いて符号化される場合、３０ｍｓのフレームを設定し得る。代わりに、最小公倍数に等しいフレームサイズを用いてもよい。１つのチャネルが、たとえばＧ．７２３．１（３０ｍｓのフレーム）を用いて符号化され、別のチャネルがＧ．４ｋ（２０ｍｓのフレーム）を用いて符号化される場合に、６０ｍｓのフレームを設定し得る。一旦フレームサイズが決定されると、音声サンプルおよび音声パラメータを、混合の際に適切に補間しかつ調整することができる。

この出願に引用により援用される、２０００年４月１２日出願の、出願連続番号第０９／５４７，８３２号は、音声パラメータが混合され補間される方法を開示しており、この方法は周知であり、解読器３０８および３２４から入力された音声パラメータを混合するコンバータ／ミキサ３１２によって用いられ得る。たとえば、２つの信号のスペクトルが重み付き加算を用いて合計され得る。同様の方法を用いて、ピッチおよびエネルギ等の他のパラメータを混合し得る。

一旦コンバータ／ミキサ３１２が、解読器３０８からの信号および解読器３２４からの信号を変換し、それらを混合して、結合されたビットストリームを生成すると、このビットストリームは符号器３１４に送信される。コンバータ／ミキサ３１２はまた、符号器３１４に、入力された音声信号から抽出された音声パラメータを与えることができる。符号器３１４は、参加者２によって用いられるのと同じ符号化標準に従ってビットストリームを再符号化するように構成することができる。たとえば、参加者２がＧ．７２６を用いる場合、符号器３１４はＧ．７２６に従って音声情報を再符号化するであろう。符号器３１４は、解読器３０８および３２４によって抽出されたパラメータを用いて、音声情報を再符号化することによって、再符号化プロセスの際のスペクトルおよびピッチの再評価の必要性を回避し得る。この態様において、このような再評価ステップと関連した複雑さ、処理要求および時間遅延が回避される。符号器３１４による再符号化の後で、音声信号がチャネル３１６を介して参加者２に送信され、解読器３１８は信号を解読する。

次に図４を参照すると、一実施例に従って例示の通信システム４００を用いて、本発明のコード変換技術を用いたカンファレンスブリッジの構成要素が示されている。より特定的に、通信システム４００は、いかにして本発明が、たとえばＧ．７１１，Ｇ．７２６およびＧ．７２８等のノンパラメトリックの符号化標準に従って符号化された、入力された音声信号をコード変換するための効果的な手段を与えるかを示している。図４に示されるように、通信システム４００は、チャネル４０４、カンファレンスブリッジ４０６およびチャネル４１６を含む。チャネル４０４および４１６は、図２に示された通信システム２００のチャネル２０４および２１６とそれぞれ同等であることが認識される。

示されるように、チャネル４０４を介してカンファレンスブリッジ４０６に送信された音声信号は、解読器４０８によって解読されて、入力ビットストリームから音声サンプルを生成する。解読器４０８はまた、ビットストリームから音声パラメータを抽出して、音声が本来Ｇ．７２９またはＧ．７２３．１等のパラメトリック標準を用いて符号化されたインスタンスで音声パラメータを生成し得る。しかしながら、ノンパラメトリック音声符号化標準、たとえばＧ．７１１，Ｇ．７２６およびＧ．７２８は、典型的に信号ピッチおよびスペクトル等のさまざまな音声に関連するパラメータを量子化しないことが認識される。結果として、これらのパラメータは、解読プロセスの際に、ビットストリームから直接解読器４０８によって抽出されないかもしれない。このような例において、図４に示されるように、音声サンプルは、パラメータ抽出モジュール４１０に進路を変え得、このパラメータ抽出モジュールは、以下で説明するように、後で符号器４１４によって用いられるのに所望の音声に関連するパラメータ（またはサイド情報）を抽出する。したがって、パラメータ抽出モジュール４１０は、信号エネルギ、スペクトル特徴、ピッチおよびピッチゲイン等に関連するデータを抽出し、かつこのようなパラメータをコンバータ／ミキサ４１２に与えるように構成することができる。

解読器４０８からの解読された音声サンプル、および、解読器４０８またはパラメータ抽出モジュール４１０のいずれかからの音声パラメータが、コンバータ／ミキサ４１２に入力される。図４に示されるように、コンバータ／ミキサ４１２はまた、他の解読装置（図示せず）からの音声サンプルおよび音声パラメータ（またはサイド情報）を受信する。コンバータ／ミキサ４１２は、解読器４０８およびパラメータ抽出モジュール４１０からの音声サンプルおよび音声パラメータを、音声サンプルおよび音声パラメータ４２０と結合、混合して、再符号化プロセスにおいて符号器４１４によって用いられるのに好適な、結合されたビットストリームにするように構成することができる。たとえば、信号を結合、混合するために、コンバータ／ミキサは、音声サンプルのフレームをサイズ変更して、解読器４１４に好適な共通のフレーム構成を設定し得る。コンバータ／ミキサ４１２はまた、符号器４１４に、ビットストリームを再符号化する際に用いられる音声パラメータ（またはサイド情報）を与えることができる。

結合された音声サンプル、および、コンバータ／ミキサ４１２によって与えられた抽出されたパラメータは、符号器４１４によって用いられて、受信参加者（図示せず）によって用いられる符号化標準に従って、音声信号を再符号化することができる。したがって、コンバータ／ミキサ４１２によって与えられる音声パラメータ（またはサイド情報）を用いることによって、符号器４１４は、再符号化プロセスの際に、スペクトルおよびピッチの再評価の必要性を回避する。この態様において、このような再評価のステップに関連した複雑さ、処理要求および時間遅延が回避される。符号化のステップの後で、符号化された信号は、チャネル４１６を介して受信参加者に送信される。

次に図５を参照して、これは一実施例に従った例示のコード変換方法５００を示している。コード変換方法５００は、たとえば図１におけるコード変換器２０６等のコード変換
器によって行なうことができることが認識される。示されるように、コード変換方法５００はステップ５１０から始まり、ステップ５１２に続き、ステップ５１２で第１の参加者からのビットストリームが受信される。

続いて、ステップ５１４で、ビットストリームからパラメータセットが抽出される。たとえば、パラメータセットは、信号エネルギ、スペクトル特徴、ピッチおよびピッチゲイン等を含み得る。次に、ステップ５１６で、ビットストリームは、第１の参加者によって用いられる符号化方式に従って解読され、音声サンプルが生成される。たとえば、受信されたビットストリームは、Ｇ．７２３．１に従って解読され得、この場合、ビットストリームはＧ．７２３．１に従ってステップ５１６で解読される。

ステップ５１６で音声サンプルが生成された後で、コード変換方法５００はステップ５１８に進み、ステップ５１８で、音声サンプルおよびパラメータセットが再符号化に好適な形式に変換される。音声サンプルおよびパラメータセットが変換される形式は、受信参加者によって用いられる特定の符号化方式に依存し得る。ステップ５２０で、変換された音声サンプルが、受信参加者、すなわちこの例における第２の参加者によって用いられる符号化方式に従って再符号化される。このように、この説明における第２の参加者がたとえばＧ．７２９を用いる場合、ステップ５２０で行なわれる再符号化はＧ．７２９に従って行なわれるであろう。ステップ５２０で行なわれる再符号化は、ステップ５１６でビットストリームから抽出されたパラメータセットを用いることができる。したがって、ステップ５２０で、たとえばスペクトルおよびピッチの再評価を行なうことなく、再符号化を効果的に行なうことができる。なぜなら情報は既に入手可能であるからである。この態様で、コード変換方法５００は、処理要求の減少、最小の遅れ、および、全体的なシステムの複雑さの減少を含む、従来のコード変換アプローチを凌ぐ複数の利点をもたらす。

上記に示された方法およびシステムは、装置上のソフトウェア、ハードウェアまたはファームウェアに存在し得、これらは本発明の精神から逸脱することなく、マイクロプロセッサ、デジタル信号プロセッサ、特定用途向けＩＣもしくはフィールドプログラマブルゲートアレイ（“ＦＰＧＡ”）またはいかなるその組合せで実現することができる。さらに、本発明は、その精神または本質的な特徴から逸脱することなく、他の特定の形態において実現されてもよい。記載された実施例は、すべての点において例示的であるにすぎず、限定的なものではないとして考えられるべきである。

本発明のさまざまな局面が実現され得るパケットベースのネットワークのブロック図である。一実施例に従ったコード変換システムのブロック図である。一実施例に従ってコード変換システムを用いたカンファレンスブリッジのブロック図である。一実施例に従ってコード変換システムを用いたカンファレンスブリッジの構成要素のブロック図である。図２のコード変換システムを用いたコード変換方法の例示のフロー図である。

Claims

音声信号から生成された第１のビットストリームをコード変換することができる音声コード変換器であって、前記音声コード変換器は、
第１の符号化方式に基づいて符号化された前記第１のビットストリームを受信するように構成された解読器を含み、前記解読器は、前記第１のビットストリームから複数の第１の音声パラメータを抽出し、前記解読器は、前記第１の符号化方式に従って前記第１のビットストリームを解読し、複数の第１の音声サンプルを生成し、前記音声コード変換器はさらに、
前記複数の第１の音声サンプルおよび前記複数の第１の音声パラメータを受信するように構成されたコンバータを含み、前記コンバータは、第２の符号化方式に従って用いるために、前記複数の第１の音声サンプルを複数の第２の音声サンプルに変換し、前記複数の第１の音声パラメータを複数の第２の音声パラメータに変換し、前記音声コード変換器はさらに、
前記複数の第２の音声サンプルおよび前記複数の第２の音声パラメータを受信するように構成された符号器を含み、前記符号器は、前記第２の符号化方式に基づいて符号化された第２のビットストリームを生成する、音声コード変換器。
前記コンバータは、前記複数の第１の音声サンプルの第１のフレームサイズを第２のフレームサイズに変換し、前記符号器は、前記第２のフレームサイズを用いて、前記第２の符号化方式に従った前記第２のビットストリームを生成する、請求項１に記載のコード変換器。
前記コンバータは、前記複数の第２の音声パラメータを前記符号器に送信して、前記符号器によるパラメータの再評価を回避することにより遅れを減じる、請求項１に記載のコード変換器。
前記解読器はポストフィルタ要素を含み、前記ポストフィルタ要素は使用禁止にされる、請求項１に記載のコード変換器。
前記符号器はノイズサプレッサを含み、前記ノイズサプレッサは使用禁止にされる、請求項１に記載のコード変換器。
前記複数の第２の音声パラメータは、前記音声信号のエネルギに関する少なくとも１つのパラメータを含む、請求項１に記載のコード変換器。
前記複数の第１の音声パラメータは、前記音声信号のスペクトル特徴に関する少なくとも１つのパラメータを含む、請求項１に記載のコード変換器。
前記複数の第１の音声パラメータは、前記音声信号のピッチに関する少なくとも１つのパラメータを含む、請求項１に記載のコード変換器。
前記複数の第１の音声パラメータは、前記音声信号のピッチゲインに関する少なくとも１つのパラメータを含む、請求項１に記載のコード変換器。
前記コンバータは、前記複数の第２の音声パラメータを前記符号器に送信して、前記符号器によるパラメータの再評価を回避することにより、前記第２のビットストリームから生成された音声信号の劣化を減じる、請求項１に記載のコード変換器。
音声信号から生成された第１のビットストリームをコードを変換するための方法であっ
て、前記音声の方法は、
前記第１のビットストリームから複数の第１の音声パラメータを抽出するステップと、
第１の符号化方式に従って前記第１のビットストリームを解読して、複数の第１の音声サンプルを生成するステップと、
前記複数の第１の音声サンプルを、第２の符号化方式に従って用いるために、複数の第２の音声サンプルに変換するステップと、
前記複数の第１の音声パラメータを、第２の符号化方式に従って用いるために、複数の第２の音声パラメータに変換するステップと、
前記複数の第２の音声パラメータに基づいて、前記複数の第２の音声サンプルを符号化して、前記第２の符号化方式に基づいて符号化された第２のビットストリームを生成するステップとを含む、方法。
前記複数の第１の音声サンプルの第１のフレームサイズを、前記第２の符号化方式に従って使用するために、第２のフレームサイズに変換するステップをさらに含む、請求項１１に記載の方法。
前記複数の第１の音声パラメータを前記複数の第２の音声パラメータに変換する前記ステップを行なって、前記符号化の際のパラメータの再評価を回避して、遅れおよび複雑さを減じる、請求項１１に記載の方法。
前記解読の際にポストフィルタリングを使用禁止にするステップをさらに含む、請求項１１に記載の方法。
前記符号化の際に防音を使用禁止にするステップをさらに含む、請求項１１に記載の方法。
前記複数の第２の音声パラメータは、前記音声信号のエネルギに関する少なくとも１つのパラメータを含む、請求項１１に記載の方法。
前記複数の第１の音声パラメータは、前記音声信号のスペクトル特徴に関する少なくとも１つのパラメータを含む、請求項１１に記載の方法。
前記複数の第１の音声パラメータは、前記音声信号のピッチに関する少なくとも１つのパラメータを含む、請求項１１に記載の方法。
前記複数の第１の音声パラメータは、前記音声信号のピッチゲインに関する少なくとも１つのパラメータを含む、請求項１１に記載の方法。
前記複数の第１の音声パラメータを前記複数の第２の音声パラメータに変換する前記ステップが行なわれて、前記符号化の際にパラメータの再評価を回避することにより、前記第２のビットストリームから生成された音声信号の劣化を減じる、請求項１１に記載の方法。
音声信号から生成された第１のビットストリームをコード変換することができる音声コード変換器であって、前記音声コード変換器は、
第１の符号化方式に基づいて符号化された前記第１のビットストリームを受信するように構成された解読器を含み、前記解読器は、前記第１の符号化方式に従って前記第１のビットストリームを解読し、複数の第１の音声サンプルを生成し、前記音声コード変換器はさらに、
前記複数の第１の音声サンプルを受信するように構成されたパラメータ抽出器モジュー
ルを含み、前記パラメータ抽出器モジュールは、前記複数の第１の音声サンプルから第１の複数の音声パラメータを抽出し、前記音声コード変換器はさらに、
前記複数の第１の音声サンプルおよび前記第１の音声パラメータを受信するように構成されたコンバータ／ミキサを含み、前記コンバータは、第２の符号化方式に従って用いるために、前記複数の第１の音声サンプルを変換し、混合して、複数の第２の音声サンプルを生成し、前記複数の第１の音声パラメータを変換し、混合して、複数の第２の音声パラメータを生成し、前記音声コード変換器はさらに、
前記複数の第２の音声サンプルおよび前記複数の第２の音声パラメータを受信するように構成された符号器を含み、前記符号器は、前記第２の符号化方式に基づいて符号化された第２のビットストリームを生成する、音声コード変換器。
前記コンバータは、前記複数の第２の音声パラメータを前記符号器に送信して、前記符号器によるパラメータの再評価を回避することにより、遅れを減じる、請求項２１に記載のコード変換器。
前記解読器はポストフィルタ要素を含み、前記ポストフィルタ要素は使用禁止にされる、請求項２１に記載のコード変換器。
前記符号器はノイズサプレッサを含み、前記ノイズサプレッサは使用禁止にされる、請求項２１に記載のコード変換器。
前記複数の第２の音声パラメータは、前記音声信号のエネルギに関する少なくとも１つのパラメータを含む、請求項２１に記載のコード変換器。
前記複数の第１の音声パラメータは、前記音声信号のスペクトル特徴に関する少なくとも１つのパラメータを含む、請求項２１に記載のコード変換器。
前記複数の第１の音声パラメータは、前記音声信号のピッチに関する少なくとも１つのパラメータを含む、請求項２１に記載のコード変換器。
前記複数の第１の音声パラメータは、前記音声信号のピッチゲインに関する少なくとも１つのパラメータを含む、請求項２１に記載のコード変換器。
前記コンバータは、前記複数の第２の音声パラメータを前記符号器に送信して、前記符号器によるパラメータの再評価を回避することにより、前記第２のビットストリームから生成された音声信号の劣化を減じる、請求項２１に記載のコード変換器。
音声信号から生成された第１のビットストリームをコード変換することができる音声コード変換器であって、前記音声コード変換器は、
第１の符号化方式に基づいて符号化された前記第１のビットストリームを受信するように構成された解読器を含み、前記解読器は、前記第１の符号化方式に従って前記第１のビットストリームを解読し、前記ビットストリームから複数の第１の音声サンプルを生成し、前記音声コード変換器はさらに、
前記複数の第１の音声サンプルを受信するように構成されたコンバータを含み、前記コンバータは、前記複数の第１の音声サンプルを、第２の符号化方式に従って用いるために、複数の第２の音声サンプルに変換し、前記音声コード変換器はさらに、
前記複数の第２の音声サンプルを受信するように構成された符号器を含み、前記符号器は、前記第２の符号化方式に基づいて符号化された第２のビットストリームを生成する、音声コード変換器。
前記コンバータは、前記複数の第１の音声サンプルの第１のフレームサイズを第２のフレームサイズに変換し、前記符号器は、前記第２のフレームサイズを用いて、前記第２の符号化方式に従った前記第２のビットストリームを生成する、請求項３０に記載のコード変換器。