JP2005531017A - パケット網環境における音声のコード変換 - Google Patents
パケット網環境における音声のコード変換 Download PDFInfo
- Publication number
- JP2005531017A JP2005531017A JP2004506009A JP2004506009A JP2005531017A JP 2005531017 A JP2005531017 A JP 2005531017A JP 2004506009 A JP2004506009 A JP 2004506009A JP 2004506009 A JP2004506009 A JP 2004506009A JP 2005531017 A JP2005531017 A JP 2005531017A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- audio
- parameters
- code converter
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W88/00—Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
- H04W88/18—Service support devices; Network management devices
- H04W88/181—Transcoding devices; Rate adaptation devices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/66—Arrangements for connecting between networks having differing types of switching systems, e.g. gateways
Abstract
パケット網環境における音声のコード変更が与えられる。解読器は、第1の符号化方式に従って符号化された第1のビットストリームを受信するように構成される。解読器は、第1の符号化方式に従ってビットストリームを解読し、複数の第1の音声サンプルを生成し、スペクトル特徴、エネルギ、ピッチおよび/またはピッチゲインを含み得る複数の第1の音声パラメータを抽出する。コンバータは次に、複数の第1の音声サンプルおよび複数の第1の音声パラメータを、第2の符号化方式に従って用いるために、複数の第2の音声サンプルおよび複数の第2の音声パラメータに変換する。第1のおよび第2の符号化方式は、たとえばG.711,G.723.1,G.726またはG.729であるかもしれず、パラメトリックまたはノンパラメトリックであるかもしれない。符号器は、複数の第2の音声サンプルおよび複数の第2の音声パラメータを受信し、第2の符号化方式に従って第2のビットストリームを生成する。
Description
関連出願
この出願は、1999年4月12日出願の米国仮出願連続番号第60/128,873号の利益を主張する、2000年4月12日出願の米国出願連続番号第09/547,832号の一部継続出願であり、これらはこの出願において完全に引用により援用される。
この出願は、1999年4月12日出願の米国仮出願連続番号第60/128,873号の利益を主張する、2000年4月12日出願の米国出願連続番号第09/547,832号の一部継続出願であり、これらはこの出願において完全に引用により援用される。
発明の背景
1.発明の分野
本発明は一般的に音声符号化の分野に関し、より特定的にパケット網環境における音声のコード変換に関するものである。
1.発明の分野
本発明は一般的に音声符号化の分野に関し、より特定的にパケット網環境における音声のコード変換に関するものである。
2.関連技術
インターネットの爆発的な成長に伴って、この従来データ志向のネットワークをボイスオーバーパケット(“VoP”)に従った音声通信のために用いることへの関心が高まっている。パケット網での送信のために音声信号をパケット化することは、より安価であるが効果的な、従来の電話サービスに代わるものとして認識されている。VoPという用語は、たとえばVoIPおよびパケット化された音声データを用いる他のタイプのサービスを含むことのできる包括的な用語である。
インターネットの爆発的な成長に伴って、この従来データ志向のネットワークをボイスオーバーパケット(“VoP”)に従った音声通信のために用いることへの関心が高まっている。パケット網での送信のために音声信号をパケット化することは、より安価であるが効果的な、従来の電話サービスに代わるものとして認識されている。VoPという用語は、たとえばVoIPおよびパケット化された音声データを用いる他のタイプのサービスを含むことのできる包括的な用語である。
VoPの拡大が直面する1つの課題は、多様なタイプのネットワークを非常に効果的に接続する必要があるということである。より具体的には、異なるネットワークは、音声を符号化し、圧縮し、かつパケット化するための異なる標準を用いているかもしれないため、ネットワーク間で有意義な接続を達成するためにコード変換手順を実行しなければならない。典型的に、1つのネットワークで通信している送信参加者からの1つの標準に従って符号化された音声データは、別のネットワークのガイドラインのもとで通信している受信参加者によって用いられる標準に変換されなければならない。たとえば、送信参加者の音声は、G.723.1仕様に従って符号化されるかもしれないが、一方で受信参加者はG.729を用いる。送信参加者からのデータが受信参加者によって理解されるためには、送信参加者からのビットストリームが、G.723.1フォーマットからG.729フォーマットへ変換されなければならない。
従来のコード変換アプローチにおいて、送信参加者からの符号化されたデータは、送信参加者によって用いられる符号化方法に従って解読される。解読されたデータは次に、受信参加者によって用いられる符号化方法に従って再び符号化される。再び符号化された形式において、このデータは受信参加者に送信される。しかしながら、既知のコード変換方式には、非常に多くの深刻な欠陥がある。たとえば、音声信号の解読および再符号化(「タンデム」プロセス)は、音質を低下させる。より特定的に、低いビットレートの音声解読器において一般的なポストフィルタのタンデム動作は、不快なスペクトル歪をもたらし、かつ音質を著しく低下させるおそれがある。
既知のコード変換方式の別の欠点は、再符号化ステップによってもたらされる望ましくない遅れである。典型的に、解読されたビットストリームの再符号化には、音声信号の特徴が評価される必要がある。このように、たとえば、エネルギ、スペクトル特徴およびピッチを含むパラメータが、ビットストリームから抽出され、信号を再符号化するために用
いられなければならない。さらに、遅れに加えて、再符号化ステップの一部としてこれらのパラメータを抽出する必要があるために、システムがかなり複雑になる。
いられなければならない。さらに、遅れに加えて、再符号化ステップの一部としてこれらのパラメータを抽出する必要があるために、システムがかなり複雑になる。
したがって、既知のコード変換方式の欠点を克服し、かつネットワーク間のコード変換を達成することのできるより効果的な手段を与えることができる、コード変換方法および関連のシステムが当該技術において極めて必要とされている。
発明の概要
本明細書において大まかに記載される本発明の目的に従って、パケット網環境における音声のコード変換が示される。本発明の1つの例示的な局面において、音声信号から生成された第1のビットストリームをコード変換することのできる音声コード変換器が開示される。このコード変換器は、第1の符号化方式に基づいて符号化された第1のビットストリームを受信するように構成された解読器を含む。たとえば、音声信号は、G.711,G.723.1,G.726またはG.729に従って符号化されてもよく、パラメトリックであるかまたはノンパラメトリックであってもよい。解読器は、第1のビットストリームから、たとえば音声信号のスペクトル特徴、エネルギ、ピッチおよび/またはピッチゲインに関するパラメータを含み得る複数の第1の音声パラメータを抽出する。この解読器はまた、第1の符号化方式に従って第1のビットストリームを解読し、複数の第1の音声サンプルを生成する。ある構成において、解読器はポストフィルタ要素を含み得、このポストフィルタ要素は、システムの複雑さを減じ、かつ後に続く再符号化プロセスによって生成される音声信号の音質を向上させるために使用禁止にされるかもしれない。
本明細書において大まかに記載される本発明の目的に従って、パケット網環境における音声のコード変換が示される。本発明の1つの例示的な局面において、音声信号から生成された第1のビットストリームをコード変換することのできる音声コード変換器が開示される。このコード変換器は、第1の符号化方式に基づいて符号化された第1のビットストリームを受信するように構成された解読器を含む。たとえば、音声信号は、G.711,G.723.1,G.726またはG.729に従って符号化されてもよく、パラメトリックであるかまたはノンパラメトリックであってもよい。解読器は、第1のビットストリームから、たとえば音声信号のスペクトル特徴、エネルギ、ピッチおよび/またはピッチゲインに関するパラメータを含み得る複数の第1の音声パラメータを抽出する。この解読器はまた、第1の符号化方式に従って第1のビットストリームを解読し、複数の第1の音声サンプルを生成する。ある構成において、解読器はポストフィルタ要素を含み得、このポストフィルタ要素は、システムの複雑さを減じ、かつ後に続く再符号化プロセスによって生成される音声信号の音質を向上させるために使用禁止にされるかもしれない。
複数の第1の音声サンプルおよび複数の第1の音声パラメータは、次にコンバータに送信され、このコンバータは、複数の第1の音声サンプルおよび複数の第1の音声パラメータを、第2の符号化方式に従って用いるために複数の第2の音声サンプルおよび複数の第2の音声パラメータに変換することができる。第2の符号化方式は、たとえば、G.711,G.723.1,G.726またはG.729であってもよく、パラメトリックまたはノンパラメトリックであってもよい。コンバータによる変換の後で、複数の第2の音声サンプルおよび複数の第2の音声パラメータは符号器に送信される。この符号器は、複数の第2の音声サンプルおよび複数の第2の音声パラメータを受信し、第2のビットストリームを生成し、この第2のビットストリームは、第2の符号化方式に基づいて符号化される。ある構成において、解読器はノイズサプレッサ要素を含み得、このノイズサプレッサ要素は、システムの複雑さを減じ、かつ音声信号の音質を向上させるために使用禁止にされるかもしれない。第1のビットストリームから音声パラメータを抽出し、音声パラメータを変換し、かつ変換された音声パラメータを解読器に与えることによって、符号化プロセスの際の音声パラメータの再評価が回避され、システムの複雑さを減じるおよび遅れを減じるといった多くの有利な結果が達成される。
本発明のこれらのおよび他の局面は、以下に続く図面および明細書をさらに参照して明らかになるであろう。この説明に含まれるすべてのこのような追加のシステム、方法、特徴および利点は、本発明の範囲内にあり、別掲の特許請求の範囲によって保護されることが意図される。
本発明の特徴および利点は、以下に続く詳細な説明および添付の図面を振り返った後で、当業者にとってより容易に明らかになるであろう。
例示の実施例の説明
本発明は、本明細書において機能的なブロック構成要素およびさまざまな処理ステップ
によって記載され得る。このような機能的なブロックは、指定された機能を行なうように構成された任意の数のハードウェア構成要素および/またはソフトウェア構成要素によって実現され得ることを認識すべきである。たとえば、本発明は、さまざまな集積回路構成要素、たとえば記憶素子、デジタル信号処理要素、論理要素等を用いるかもしれず、これらは1つ以上のマイクロプロセッサまたは他の制御装置の制御のもとでさまざまな機能を果たし得る。さらに、本発明は、データ送信、信号方式、信号処理および調整、音の生成および検出等のための任意の数の従来の技術を用い得ることに注目すべきである。当業者にとって周知であり得るこのような一般的な技術は、本明細書において詳細には説明されない。
本発明は、本明細書において機能的なブロック構成要素およびさまざまな処理ステップ
によって記載され得る。このような機能的なブロックは、指定された機能を行なうように構成された任意の数のハードウェア構成要素および/またはソフトウェア構成要素によって実現され得ることを認識すべきである。たとえば、本発明は、さまざまな集積回路構成要素、たとえば記憶素子、デジタル信号処理要素、論理要素等を用いるかもしれず、これらは1つ以上のマイクロプロセッサまたは他の制御装置の制御のもとでさまざまな機能を果たし得る。さらに、本発明は、データ送信、信号方式、信号処理および調整、音の生成および検出等のための任意の数の従来の技術を用い得ることに注目すべきである。当業者にとって周知であり得るこのような一般的な技術は、本明細書において詳細には説明されない。
本明細書に示され記載された特定の実現化例は、単に例示的なものにすぎず、決して本発明の範囲を限定することは意図されていないことを認識すべきである。実際に、簡潔にするために、従来のデータ送信、信号方式および信号処理、ならびに通信システム(およびシステムの個々に動作する構成要素)の他の機能的および技術的な局面は、本明細書において詳細には説明されないかもしれない。さらに、本明細書に含まれるさまざまな図面に示された接続線は、さまざまな要素間の例示の機能的な関係および/または物理的な結合を示すことが意図されている。なお、多くの代替のまたは追加の機能的な関係または物理的な接続が、実際の通信システムにおいて存在し得る。
図1は、パケット化された音声情報の送信をサポートすることのできる例示の通信環境100を示している。パケット網102、たとえばインターネットプロトコル(“IP”)に準拠するネットワークは、複数の参加者が従来のボイスオーバーパケット技術に従って音声電話をかけることを可能にするインターネット電話技術のアプリケーションをサポートし得る。実際の環境100において、パケット網102は、異なる通信装置および異なる通信サービスプロバイダを有し得るユーザによる参加を可能にする態様で、従来の電話網、ローカルエリアネットワーク、広域エリアネットワーク、公衆交換機、および/またはホームネットワークと通信し得る。たとえば、図1において、参加者1および参加者2は、音声データを含むパケット通信を介して(直接的にまたは間接的に)パケット網102と通信する。参加者3は、ゲートウェイ104を介してパケット網102と通信し、一方で参加者4はゲートウェイ106を介してパケット網102と通信する。
この説明の文脈の中で、ゲートウェイは音声データをパケットデータに変換する機能的な要素である。したがって、ゲートウェイは、従来の音声情報をパケット網上で送信することのできるパケット化された形式に変換する変換要素と見なされてもよい。ゲートウェイは、電話局、(電話等の)周辺装置、ローカルスイッチ(たとえば公衆交換機と対応付けられたもの)等において実現され得る。このようなゲートウェイの機能性および動作は、当業者にとって周知であるため、詳細には説明されない。本発明はさまざまな従来のゲートウェイの設計と共に実現することができることが認識されるであろう。
環境100は、異なる音声符号化標準を用いて参加者間で通信するのを可能にする任意の数のコード変換器を含み得る。たとえば、コード変換器108は、パケット網102に含まれてもよい。コード変換器108は、電話局で実現されるか、またはインターネットサービスプロバイダ(“ISP”)によって維持されてもよい。この態様で、複数のパケットベースの参加者、たとえば参加者1および2からの音声データは、通常ゲートウェイによって行なわれる変換を行なうことなく、コード変換器108によって処理することができる。
別の例として、コード変換器110は、ゲートウェイ、たとえばゲートウェイ104と対応付けられるかまたはそれに含まれてもよい。この構成において、コード変換器110は、ボイスオーバーパケットデータおよび従来の音声信号を受信し処理することができる
かもしれない。最終的に、ゲートウェイ104は、参加者3がコード変換器110を通してパケット網102、およびパケット網102に結合された参加者、たとえば参加者1または2とと通信することができるようにする。
かもしれない。最終的に、ゲートウェイ104は、参加者3がコード変換器110を通してパケット網102、およびパケット網102に結合された参加者、たとえば参加者1または2とと通信することができるようにする。
本発明に従うと、パケットベースのコード変換器は、電話技術システムにおいて配置されて、異なる標準または音声符号化の技術を用いる参加者間の通信を容易にし得る。周知のように、所与のパケットベースの音声チャネルは、たとえば複数の異なる音声符号化/圧縮標準のうちの1つを採用し得る。さまざまな音声符号化標準が、一般的に当業者に周知であり、たとえばG.711,G.726,G.728,G.729(A),G.723.1、グローバル・システム・フォー・モバイル・コミュニケーションズ(“GSN”)、選択可能モードボコーダ(“SMV”)、および、適応マルチレート(“AMR”)コーディング、ここに引用により援用される仕様を含み得る。
所与の音声のために用いられる特定の標準は、参加者のインターネットサービスプロバイダ、電話サービスプロバイダ、参加者の周辺装置の設計および他の要因に依存し得る。結果として、コード変換器108または110等の実用的なコード変換器は、さまざまな標準によって符号化された音声を処理することができる。さらに、このようなコード変換器は、符号化されなかった音声を処理することができる。
図2は、本発明の一実施例に従ってコード変換するための例示の通信システム200を示している。通信システム200に示されるように、第1の参加者(すなわち参加者1)は、コード変換器206を通して第2の参加者(すなわち参加者2)と通信している。参加者1は、チャネル204を介してコード変換器206に結合され、参加者2は、チャネル216を介してコード変換器206に結合される。
示された実施例において、参加者1からの音声データは、符号器202によって符号化され、チャネル204を介してコード変換器206に送信され得る。上述のように、たとえば、参加者のインターネットサービスまたは電話サービスといった要因に依存して、参加者1からの音声データを、好適な符号化標準を用いて、符号器202によって圧縮し、符号化する必要があるかもしれない。たとえば、チャネル204は、ネットワークベースのパケット網であるかもしれず、この場合、符号器202は、音声データをパケット化するために好適なパケットフォーマットを用い得る。このような場合において、チャネル204を越えて送信された符号器202からの出力データは、1つ以上の符号化標準、たとえばG.723.1またはG.729に従った、ビットストリーム形式の符号化されたデジタルデータを含むであろう。代わりに、チャネル204は、参加者1をコード変換器206に結合するローカルリンクとして機能してもよく、この場合符号器202は、参加者1からの音声データを符号化することなくデジタル化し得、デジタル化されたデータはチャネル204を越えて送信される。
チャネル204を介してコード変換器206に到達した参加者1からのビットストリームは、最初に、送信参加者、すなわち参加者1の符号化方法に従ってビットストリームを解読するように構成された解読器208に入力されて、処理される。したがって、参加者1からの音声データが、たとえばG.723.1を用いて符号器202によって符号化された場合、解読器208はそれに応じてビットストリームを解読するであろう。一実施例において、解読器208のポストフィルタ要素(図示せず)は、使用禁止にされてもよく、またはその機能をポストフィルタリングを用いた従来の解読アルゴリズムによく見られる劣化を最小にするまで減じてもよい。
ビットストリーム(すなわち解読されたビットストリーム)からの音声サンプルを生成することに加えて、解読器208はまた、ビットストリームからある音声パラメータを抽
出するように構成されている。この出願において「サイド情報」とも呼ばれる音声パラメータは、たとえば、音声信号のエネルギ、スペクトル特徴、ピッチおよびピッチゲインを含み得る。したがって、音声サンプルに加えて、音声パラメータ(またはサイド情報)が解読器208によってコンバータ212に送信される。
出するように構成されている。この出願において「サイド情報」とも呼ばれる音声パラメータは、たとえば、音声信号のエネルギ、スペクトル特徴、ピッチおよびピッチゲインを含み得る。したがって、音声サンプルに加えて、音声パラメータ(またはサイド情報)が解読器208によってコンバータ212に送信される。
続けて図2を参照して、コンバータ212に入力された音声サンプルおよび音声パラメータは、受信参加者に好適な標準に従って符号器によって最終的に符号化されるように好適に処理され、変換される。コンバータ212によって行なわれる変換は、音声サンプルおよび/またはたとえば解読器208から受信されたパラメータのうちの少なくとも1つに基づいているかもしれない。変換プロセスの一部として、音声サンプルは、符号器214によって再符号化されるのに好適なフォーマットに修正され得る。たとえば、参加者1および2が異なるフレーム構造を有する符号化標準を用いている例において、コンバータ212はフレームのサイズを変更して、符号器214によって用いられるのに適切なフレームサイズに従った音声サンプルを与え得る。コンバータ212によって変換された後で、変換された音声サンプルおよび音声パラメータを含む音声情報は、符号器214に送信される。なお、いくつかの実施例において、解読器208は、音声サンプルをコンバータ212に与えるだけかもしれず、音声パラメータ(またはサイド情報)を与えないかもしれない。たとえば、音声信号がG.711,G.726,G.728等のノンパラメトリックの符号化方式に従って符号化されるときに、コンバータ212は、解読器208から音声サンプルを受信し、この音声サンプルを変換して、符号器214によって用いられるのに適切なフレームサイズに従った音声サンプルを与える。
符号器214は、受信参加者、すなわちこの例においては参加者2によって用いられる標準に従って音声情報を符号化するように構成される。したがって、参加者2がたとえば選択可能なモードボコーダ(“SMV”)を用いる場合、符号器214は、SMV標準に従ってビットストリームを符号化するであろう。本発明に従って、符号器214は、解読器208によって抽出されかつコンバータ212によって処理された音声パラメータを用いて音声情報を符号化するように構成することができる。この態様において、従来符号器214によって音声情報を再符号化するのに必要とされる、音声信号のエネルギ、スペクトル特徴、ピッチおよびピッチゲイン等のパラメータが、符号器214によって音声サンプルから再び抽出される必要がない。したがって、符号器214は、スペクトル分析、ピッチ分析といったパラメータ評価タスクを行なう必要がなく、または符号器214は、それほど複雑でないパラメータ評価タスクを行なう必要があるだけかもしれない。結果として、本発明のさまざまな実施例のコード変換方式は、従来のコード変換方式と比較して、実質的に処理能力を減じ、遅れを最小にし、全体的なシステムの複雑さを減じる。一実施例において、符号器214の防音機能は、システムの複雑さをさらに減じるために使用禁止にされてもよい。さらに、音声パラメータは、最初の解読ステップの間に、再符号化ステップの際に用いられるために抽出されるため、たとえばスペクトルおよびピッチの再評価によってもたらされる信号の劣化が回避される。符号器214による符号化に続いて、ビットストリームは、チャネル216を介して、次にビットストリームを解読する解読器218によって用いられるのに好適なフォーマットで、受信参加者、すなわち参加者2に送信される。
次に図3を参照すると、一実施例に従って例示の通信システム300を用いて、本発明のコード変換技術を用いたカンファレンスブリッジが示されている。より特定的に、通信システム300は、いかにして本発明を二人以上の送信参加者から受信参加者への音声信号をコード変換し、かつそれを混合するために用いることができるかを示しており、ここで各々の送信参加者は他方の参加者とは異なる符号化方式を用いているかもしれない。通信システム300において、参加者1,2および3は、チャネル304,316および322それぞれを介してカンファレンスブリッジ306に結合される。この例において、参
加者1および3は双方とも同時に参加者2と通信していることが認識される。
加者1および3は双方とも同時に参加者2と通信していることが認識される。
続けて図3を参照して、参加者1からの音声は、符号器302によって、チャネル304を越えて解読器308に送信されるのに好適なフォーマットに符号化される。同様に、符号器320は、参加者3からの音声を、チャネル322を越えて解読器324に送信するのに好適なフォーマットに符号化する。解読器308および324の双方は、送信参加者によって用いられる符号化方式に従って、参加者1および3によってもたらされるような入力ビットストリームを解読し、かつビットストリームから音声サンプルを生成するように構成することができる。解読器308および324は、ビットストリームから音声パラメータを抽出してもよく、または音声が本来ノンパラメトリックの標準に従って符号化された場合に音声パラメータを生成してもよい。
解読の後で、参加者1および3の双方の音声サンプルおよび音声パラメータがコンバータ/ミキサ312に入力される。コンバータ/ミキサ312は、入力された音声サンプルおよび音声パラメータを変換、結合および混合するように構成されて、受信参加者、すなわち参加者2によって用いられる符号化方式に従って符号化するのに好適な単一の音声情報を生成することができる。
送信参加者によって用いられるさまざまな符号化方法に依存して、コンバータ/ミキサ312は、受信参加者によって符号化されるのに好適なビットストリームを生成するために、フレームサイズおよび他の要因を考慮に入れる必要があるかもしれない。たとえば、G.723.1は30msのフレームサイズを用い、G.729は10msのフレームサイズを用いる。したがって、共通のフレーム構成を設定して、解読器308および324からの音声サンプルを効果的に混合することができるようにし得る。たとえば、入力チャネルのうちの少なくとも1つがG.723.1を用いて符号化される場合、30msのフレームを設定し得る。代わりに、最小公倍数に等しいフレームサイズを用いてもよい。1つのチャネルが、たとえばG.723.1(30msのフレーム)を用いて符号化され、別のチャネルがG.4k(20msのフレーム)を用いて符号化される場合に、60msのフレームを設定し得る。一旦フレームサイズが決定されると、音声サンプルおよび音声パラメータを、混合の際に適切に補間しかつ調整することができる。
この出願に引用により援用される、2000年4月12日出願の、出願連続番号第09/547,832号は、音声パラメータが混合され補間される方法を開示しており、この方法は周知であり、解読器308および324から入力された音声パラメータを混合するコンバータ/ミキサ312によって用いられ得る。たとえば、2つの信号のスペクトルが重み付き加算を用いて合計され得る。同様の方法を用いて、ピッチおよびエネルギ等の他のパラメータを混合し得る。
一旦コンバータ/ミキサ312が、解読器308からの信号および解読器324からの信号を変換し、それらを混合して、結合されたビットストリームを生成すると、このビットストリームは符号器314に送信される。コンバータ/ミキサ312はまた、符号器314に、入力された音声信号から抽出された音声パラメータを与えることができる。符号器314は、参加者2によって用いられるのと同じ符号化標準に従ってビットストリームを再符号化するように構成することができる。たとえば、参加者2がG.726を用いる場合、符号器314はG.726に従って音声情報を再符号化するであろう。符号器314は、解読器308および324によって抽出されたパラメータを用いて、音声情報を再符号化することによって、再符号化プロセスの際のスペクトルおよびピッチの再評価の必要性を回避し得る。この態様において、このような再評価ステップと関連した複雑さ、処理要求および時間遅延が回避される。符号器314による再符号化の後で、音声信号がチャネル316を介して参加者2に送信され、解読器318は信号を解読する。
次に図4を参照すると、一実施例に従って例示の通信システム400を用いて、本発明のコード変換技術を用いたカンファレンスブリッジの構成要素が示されている。より特定的に、通信システム400は、いかにして本発明が、たとえばG.711,G.726およびG.728等のノンパラメトリックの符号化標準に従って符号化された、入力された音声信号をコード変換するための効果的な手段を与えるかを示している。図4に示されるように、通信システム400は、チャネル404、カンファレンスブリッジ406およびチャネル416を含む。チャネル404および416は、図2に示された通信システム200のチャネル204および216とそれぞれ同等であることが認識される。
示されるように、チャネル404を介してカンファレンスブリッジ406に送信された音声信号は、解読器408によって解読されて、入力ビットストリームから音声サンプルを生成する。解読器408はまた、ビットストリームから音声パラメータを抽出して、音声が本来G.729またはG.723.1等のパラメトリック標準を用いて符号化されたインスタンスで音声パラメータを生成し得る。しかしながら、ノンパラメトリック音声符号化標準、たとえばG.711,G.726およびG.728は、典型的に信号ピッチおよびスペクトル等のさまざまな音声に関連するパラメータを量子化しないことが認識される。結果として、これらのパラメータは、解読プロセスの際に、ビットストリームから直接解読器408によって抽出されないかもしれない。このような例において、図4に示されるように、音声サンプルは、パラメータ抽出モジュール410に進路を変え得、このパラメータ抽出モジュールは、以下で説明するように、後で符号器414によって用いられるのに所望の音声に関連するパラメータ(またはサイド情報)を抽出する。したがって、パラメータ抽出モジュール410は、信号エネルギ、スペクトル特徴、ピッチおよびピッチゲイン等に関連するデータを抽出し、かつこのようなパラメータをコンバータ/ミキサ412に与えるように構成することができる。
解読器408からの解読された音声サンプル、および、解読器408またはパラメータ抽出モジュール410のいずれかからの音声パラメータが、コンバータ/ミキサ412に入力される。図4に示されるように、コンバータ/ミキサ412はまた、他の解読装置(図示せず)からの音声サンプルおよび音声パラメータ(またはサイド情報)を受信する。コンバータ/ミキサ412は、解読器408およびパラメータ抽出モジュール410からの音声サンプルおよび音声パラメータを、音声サンプルおよび音声パラメータ420と結合、混合して、再符号化プロセスにおいて符号器414によって用いられるのに好適な、結合されたビットストリームにするように構成することができる。たとえば、信号を結合、混合するために、コンバータ/ミキサは、音声サンプルのフレームをサイズ変更して、解読器414に好適な共通のフレーム構成を設定し得る。コンバータ/ミキサ412はまた、符号器414に、ビットストリームを再符号化する際に用いられる音声パラメータ(またはサイド情報)を与えることができる。
結合された音声サンプル、および、コンバータ/ミキサ412によって与えられた抽出されたパラメータは、符号器414によって用いられて、受信参加者(図示せず)によって用いられる符号化標準に従って、音声信号を再符号化することができる。したがって、コンバータ/ミキサ412によって与えられる音声パラメータ(またはサイド情報)を用いることによって、符号器414は、再符号化プロセスの際に、スペクトルおよびピッチの再評価の必要性を回避する。この態様において、このような再評価のステップに関連した複雑さ、処理要求および時間遅延が回避される。符号化のステップの後で、符号化された信号は、チャネル416を介して受信参加者に送信される。
次に図5を参照して、これは一実施例に従った例示のコード変換方法500を示している。コード変換方法500は、たとえば図1におけるコード変換器206等のコード変換
器によって行なうことができることが認識される。示されるように、コード変換方法500はステップ510から始まり、ステップ512に続き、ステップ512で第1の参加者からのビットストリームが受信される。
器によって行なうことができることが認識される。示されるように、コード変換方法500はステップ510から始まり、ステップ512に続き、ステップ512で第1の参加者からのビットストリームが受信される。
続いて、ステップ514で、ビットストリームからパラメータセットが抽出される。たとえば、パラメータセットは、信号エネルギ、スペクトル特徴、ピッチおよびピッチゲイン等を含み得る。次に、ステップ516で、ビットストリームは、第1の参加者によって用いられる符号化方式に従って解読され、音声サンプルが生成される。たとえば、受信されたビットストリームは、G.723.1に従って解読され得、この場合、ビットストリームはG.723.1に従ってステップ516で解読される。
ステップ516で音声サンプルが生成された後で、コード変換方法500はステップ518に進み、ステップ518で、音声サンプルおよびパラメータセットが再符号化に好適な形式に変換される。音声サンプルおよびパラメータセットが変換される形式は、受信参加者によって用いられる特定の符号化方式に依存し得る。ステップ520で、変換された音声サンプルが、受信参加者、すなわちこの例における第2の参加者によって用いられる符号化方式に従って再符号化される。このように、この説明における第2の参加者がたとえばG.729を用いる場合、ステップ520で行なわれる再符号化はG.729に従って行なわれるであろう。ステップ520で行なわれる再符号化は、ステップ516でビットストリームから抽出されたパラメータセットを用いることができる。したがって、ステップ520で、たとえばスペクトルおよびピッチの再評価を行なうことなく、再符号化を効果的に行なうことができる。なぜなら情報は既に入手可能であるからである。この態様で、コード変換方法500は、処理要求の減少、最小の遅れ、および、全体的なシステムの複雑さの減少を含む、従来のコード変換アプローチを凌ぐ複数の利点をもたらす。
上記に示された方法およびシステムは、装置上のソフトウェア、ハードウェアまたはファームウェアに存在し得、これらは本発明の精神から逸脱することなく、マイクロプロセッサ、デジタル信号プロセッサ、特定用途向けICもしくはフィールドプログラマブルゲートアレイ(“FPGA”)またはいかなるその組合せで実現することができる。さらに、本発明は、その精神または本質的な特徴から逸脱することなく、他の特定の形態において実現されてもよい。記載された実施例は、すべての点において例示的であるにすぎず、限定的なものではないとして考えられるべきである。
Claims (31)
- 音声信号から生成された第1のビットストリームをコード変換することができる音声コード変換器であって、前記音声コード変換器は、
第1の符号化方式に基づいて符号化された前記第1のビットストリームを受信するように構成された解読器を含み、前記解読器は、前記第1のビットストリームから複数の第1の音声パラメータを抽出し、前記解読器は、前記第1の符号化方式に従って前記第1のビットストリームを解読し、複数の第1の音声サンプルを生成し、前記音声コード変換器はさらに、
前記複数の第1の音声サンプルおよび前記複数の第1の音声パラメータを受信するように構成されたコンバータを含み、前記コンバータは、第2の符号化方式に従って用いるために、前記複数の第1の音声サンプルを複数の第2の音声サンプルに変換し、前記複数の第1の音声パラメータを複数の第2の音声パラメータに変換し、前記音声コード変換器はさらに、
前記複数の第2の音声サンプルおよび前記複数の第2の音声パラメータを受信するように構成された符号器を含み、前記符号器は、前記第2の符号化方式に基づいて符号化された第2のビットストリームを生成する、音声コード変換器。 - 前記コンバータは、前記複数の第1の音声サンプルの第1のフレームサイズを第2のフレームサイズに変換し、前記符号器は、前記第2のフレームサイズを用いて、前記第2の符号化方式に従った前記第2のビットストリームを生成する、請求項1に記載のコード変換器。
- 前記コンバータは、前記複数の第2の音声パラメータを前記符号器に送信して、前記符号器によるパラメータの再評価を回避することにより遅れを減じる、請求項1に記載のコード変換器。
- 前記解読器はポストフィルタ要素を含み、前記ポストフィルタ要素は使用禁止にされる、請求項1に記載のコード変換器。
- 前記符号器はノイズサプレッサを含み、前記ノイズサプレッサは使用禁止にされる、請求項1に記載のコード変換器。
- 前記複数の第2の音声パラメータは、前記音声信号のエネルギに関する少なくとも1つのパラメータを含む、請求項1に記載のコード変換器。
- 前記複数の第1の音声パラメータは、前記音声信号のスペクトル特徴に関する少なくとも1つのパラメータを含む、請求項1に記載のコード変換器。
- 前記複数の第1の音声パラメータは、前記音声信号のピッチに関する少なくとも1つのパラメータを含む、請求項1に記載のコード変換器。
- 前記複数の第1の音声パラメータは、前記音声信号のピッチゲインに関する少なくとも1つのパラメータを含む、請求項1に記載のコード変換器。
- 前記コンバータは、前記複数の第2の音声パラメータを前記符号器に送信して、前記符号器によるパラメータの再評価を回避することにより、前記第2のビットストリームから生成された音声信号の劣化を減じる、請求項1に記載のコード変換器。
- 音声信号から生成された第1のビットストリームをコードを変換するための方法であっ
て、前記音声の方法は、
前記第1のビットストリームから複数の第1の音声パラメータを抽出するステップと、
第1の符号化方式に従って前記第1のビットストリームを解読して、複数の第1の音声サンプルを生成するステップと、
前記複数の第1の音声サンプルを、第2の符号化方式に従って用いるために、複数の第2の音声サンプルに変換するステップと、
前記複数の第1の音声パラメータを、第2の符号化方式に従って用いるために、複数の第2の音声パラメータに変換するステップと、
前記複数の第2の音声パラメータに基づいて、前記複数の第2の音声サンプルを符号化して、前記第2の符号化方式に基づいて符号化された第2のビットストリームを生成するステップとを含む、方法。 - 前記複数の第1の音声サンプルの第1のフレームサイズを、前記第2の符号化方式に従って使用するために、第2のフレームサイズに変換するステップをさらに含む、請求項11に記載の方法。
- 前記複数の第1の音声パラメータを前記複数の第2の音声パラメータに変換する前記ステップを行なって、前記符号化の際のパラメータの再評価を回避して、遅れおよび複雑さを減じる、請求項11に記載の方法。
- 前記解読の際にポストフィルタリングを使用禁止にするステップをさらに含む、請求項11に記載の方法。
- 前記符号化の際に防音を使用禁止にするステップをさらに含む、請求項11に記載の方法。
- 前記複数の第2の音声パラメータは、前記音声信号のエネルギに関する少なくとも1つのパラメータを含む、請求項11に記載の方法。
- 前記複数の第1の音声パラメータは、前記音声信号のスペクトル特徴に関する少なくとも1つのパラメータを含む、請求項11に記載の方法。
- 前記複数の第1の音声パラメータは、前記音声信号のピッチに関する少なくとも1つのパラメータを含む、請求項11に記載の方法。
- 前記複数の第1の音声パラメータは、前記音声信号のピッチゲインに関する少なくとも1つのパラメータを含む、請求項11に記載の方法。
- 前記複数の第1の音声パラメータを前記複数の第2の音声パラメータに変換する前記ステップが行なわれて、前記符号化の際にパラメータの再評価を回避することにより、前記第2のビットストリームから生成された音声信号の劣化を減じる、請求項11に記載の方法。
- 音声信号から生成された第1のビットストリームをコード変換することができる音声コード変換器であって、前記音声コード変換器は、
第1の符号化方式に基づいて符号化された前記第1のビットストリームを受信するように構成された解読器を含み、前記解読器は、前記第1の符号化方式に従って前記第1のビットストリームを解読し、複数の第1の音声サンプルを生成し、前記音声コード変換器はさらに、
前記複数の第1の音声サンプルを受信するように構成されたパラメータ抽出器モジュー
ルを含み、前記パラメータ抽出器モジュールは、前記複数の第1の音声サンプルから第1の複数の音声パラメータを抽出し、前記音声コード変換器はさらに、
前記複数の第1の音声サンプルおよび前記第1の音声パラメータを受信するように構成されたコンバータ/ミキサを含み、前記コンバータは、第2の符号化方式に従って用いるために、前記複数の第1の音声サンプルを変換し、混合して、複数の第2の音声サンプルを生成し、前記複数の第1の音声パラメータを変換し、混合して、複数の第2の音声パラメータを生成し、前記音声コード変換器はさらに、
前記複数の第2の音声サンプルおよび前記複数の第2の音声パラメータを受信するように構成された符号器を含み、前記符号器は、前記第2の符号化方式に基づいて符号化された第2のビットストリームを生成する、音声コード変換器。 - 前記コンバータは、前記複数の第2の音声パラメータを前記符号器に送信して、前記符号器によるパラメータの再評価を回避することにより、遅れを減じる、請求項21に記載のコード変換器。
- 前記解読器はポストフィルタ要素を含み、前記ポストフィルタ要素は使用禁止にされる、請求項21に記載のコード変換器。
- 前記符号器はノイズサプレッサを含み、前記ノイズサプレッサは使用禁止にされる、請求項21に記載のコード変換器。
- 前記複数の第2の音声パラメータは、前記音声信号のエネルギに関する少なくとも1つのパラメータを含む、請求項21に記載のコード変換器。
- 前記複数の第1の音声パラメータは、前記音声信号のスペクトル特徴に関する少なくとも1つのパラメータを含む、請求項21に記載のコード変換器。
- 前記複数の第1の音声パラメータは、前記音声信号のピッチに関する少なくとも1つのパラメータを含む、請求項21に記載のコード変換器。
- 前記複数の第1の音声パラメータは、前記音声信号のピッチゲインに関する少なくとも1つのパラメータを含む、請求項21に記載のコード変換器。
- 前記コンバータは、前記複数の第2の音声パラメータを前記符号器に送信して、前記符号器によるパラメータの再評価を回避することにより、前記第2のビットストリームから生成された音声信号の劣化を減じる、請求項21に記載のコード変換器。
- 音声信号から生成された第1のビットストリームをコード変換することができる音声コード変換器であって、前記音声コード変換器は、
第1の符号化方式に基づいて符号化された前記第1のビットストリームを受信するように構成された解読器を含み、前記解読器は、前記第1の符号化方式に従って前記第1のビットストリームを解読し、前記ビットストリームから複数の第1の音声サンプルを生成し、前記音声コード変換器はさらに、
前記複数の第1の音声サンプルを受信するように構成されたコンバータを含み、前記コンバータは、前記複数の第1の音声サンプルを、第2の符号化方式に従って用いるために、複数の第2の音声サンプルに変換し、前記音声コード変換器はさらに、
前記複数の第2の音声サンプルを受信するように構成された符号器を含み、前記符号器は、前記第2の符号化方式に基づいて符号化された第2のビットストリームを生成する、音声コード変換器。 - 前記コンバータは、前記複数の第1の音声サンプルの第1のフレームサイズを第2のフレームサイズに変換し、前記符号器は、前記第2のフレームサイズを用いて、前記第2の符号化方式に従った前記第2のビットストリームを生成する、請求項30に記載のコード変換器。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14553302A | 2002-05-13 | 2002-05-13 | |
PCT/US2003/006335 WO2003098598A1 (en) | 2002-05-13 | 2003-02-26 | Transcoding of speech in a packet network environment |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005531017A true JP2005531017A (ja) | 2005-10-13 |
Family
ID=29548267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004506009A Withdrawn JP2005531017A (ja) | 2002-05-13 | 2003-02-26 | パケット網環境における音声のコード変換 |
Country Status (7)
Country | Link |
---|---|
EP (1) | EP1504441A4 (ja) |
JP (1) | JP2005531017A (ja) |
KR (1) | KR20040104701A (ja) |
CN (1) | CN1653515A (ja) |
AU (1) | AU2003217859A1 (ja) |
IL (1) | IL165147A0 (ja) |
WO (1) | WO2003098598A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100369108C (zh) * | 2003-12-18 | 2008-02-13 | 诺基亚公司 | 编码域中的音频增强的方法和设备 |
EP1544848B1 (en) * | 2003-12-18 | 2010-01-20 | Nokia Corporation | Audio enhancement in coded domain |
US7613607B2 (en) | 2003-12-18 | 2009-11-03 | Nokia Corporation | Audio enhancement in coded domain |
JP4721355B2 (ja) * | 2006-07-18 | 2011-07-13 | Kddi株式会社 | 符号化データの符号化則変換方法および装置 |
KR100945245B1 (ko) * | 2007-08-10 | 2010-03-03 | 한국전자통신연구원 | 안전하고 효율적인 음성 패킷 부분 암호화 방법 및 장치 |
JP5054787B2 (ja) | 2007-12-28 | 2012-10-24 | パナソニック株式会社 | 音声混合再生装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5694519A (en) * | 1992-02-18 | 1997-12-02 | Lucent Technologies, Inc. | Tunable post-filter for tandem coders |
FR2700087B1 (fr) * | 1992-12-30 | 1995-02-10 | Alcatel Radiotelephone | Procédé de positionnement adaptatif d'un codeur/décodeur de parole au sein d'une infrastructure de communication. |
JP3616432B2 (ja) * | 1995-07-27 | 2005-02-02 | 日本電気株式会社 | 音声符号化装置 |
US5771452A (en) * | 1995-10-25 | 1998-06-23 | Northern Telecom Limited | System and method for providing cellular communication services using a transcoder |
US5995923A (en) * | 1997-06-26 | 1999-11-30 | Nortel Networks Corporation | Method and apparatus for improving the voice quality of tandemed vocoders |
US6260009B1 (en) * | 1999-02-12 | 2001-07-10 | Qualcomm Incorporated | CELP-based to CELP-based vocoder packet translation |
US7006787B1 (en) * | 2000-02-14 | 2006-02-28 | Lucent Technologies Inc. | Mobile to mobile digital wireless connection having enhanced voice quality |
-
2003
- 2003-02-26 AU AU2003217859A patent/AU2003217859A1/en not_active Abandoned
- 2003-02-26 EP EP03713828A patent/EP1504441A4/en not_active Withdrawn
- 2003-02-26 JP JP2004506009A patent/JP2005531017A/ja not_active Withdrawn
- 2003-02-26 WO PCT/US2003/006335 patent/WO2003098598A1/en not_active Application Discontinuation
- 2003-02-26 CN CNA03810962XA patent/CN1653515A/zh active Pending
- 2003-02-26 KR KR10-2004-7017694A patent/KR20040104701A/ko not_active Application Discontinuation
-
2004
- 2004-11-10 IL IL16514704A patent/IL165147A0/xx unknown
Also Published As
Publication number | Publication date |
---|---|
IL165147A0 (en) | 2005-12-18 |
AU2003217859A1 (en) | 2003-12-02 |
KR20040104701A (ko) | 2004-12-10 |
WO2003098598A1 (en) | 2003-11-27 |
CN1653515A (zh) | 2005-08-10 |
EP1504441A4 (en) | 2005-12-14 |
EP1504441A1 (en) | 2005-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6463414B1 (en) | Conference bridge processing of speech in a packet network environment | |
CN101427551B (zh) | 会议端点的系统和方法 | |
CN1326415C (zh) | 对音频信号进行代码变换的方法、码变换器、网元、无线通信网和通信系统 | |
US8271026B2 (en) | Mobile communication device providing N-way communication through a plurality of communication services | |
JP2001500344A (ja) | タンデム型ボコーダの音質を改良する方法および装置 | |
US8340959B2 (en) | Method and apparatus for transmitting wideband speech signals | |
US8259629B2 (en) | System and method for transmitting and receiving wideband speech signals with a synthesized signal | |
US6697342B1 (en) | Conference circuit for encoded digital audio | |
EP2572499B1 (en) | Encoder adaption in teleconferencing system | |
JP2005531017A (ja) | パケット網環境における音声のコード変換 | |
US20030219009A1 (en) | Method and system for tunneling wideband telephony through the PSTN | |
US7715365B2 (en) | Vocoder and communication method using the same | |
US7460671B1 (en) | Encryption processing apparatus and method for voice over packet networks | |
US20030013465A1 (en) | System and method for pseudo-tunneling voice transmissions | |
US7170988B2 (en) | Method and apparatus for network communication | |
Ehret et al. | Using aacPlus for premium color ring back tones | |
WO2001024549A2 (en) | Voice over pcm technique providing compatibility between pcm data and lower rate vocoder data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20061228 |