JP2004053763A - Speech encoding transmission system of multipoint controller - Google Patents
Speech encoding transmission system of multipoint controller Download PDFInfo
- Publication number
- JP2004053763A JP2004053763A JP2002208664A JP2002208664A JP2004053763A JP 2004053763 A JP2004053763 A JP 2004053763A JP 2002208664 A JP2002208664 A JP 2002208664A JP 2002208664 A JP2002208664 A JP 2002208664A JP 2004053763 A JP2004053763 A JP 2004053763A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- speech
- encoding
- communication terminal
- decoded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Time-Division Multiplex Systems (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
この発明は、符号励振線形予測(Code Excited Linear Prediction:以下、「CELP」とする)方式をはじめとする情報源符号化方式に基づき符号化された符号化音声信号を用いる電話会議(テレビ会議)システムに適用される多地点制御装置(Multi−point Control Unit:以下、「MCU」とする)に関し、特に、多数話者による発言の混在に対応して復号した音声信号を再符号化する多地点制御装置の音声符号化伝送システムに関するものである。
【0002】
【従来の技術】
MCUは、通信ネットワークを介して複数の通信端末を種々の形態で接続し、各通信端末で取り扱われる映像、音声、データ等からなる異種かつ異符号の情報内容を受信および送信の対象とし、各情報内容に合致して交換および分配の処理を施し、処理した情報を複数の通信端末に配信するサービスを提供する装置として開発されてきた。その典型的な適用例は電話会議やテレビ会議のシステムである。MCUで扱う音声の伝送処理については、圧縮符号化が適用されている。
近年、電話帯域の音声を高能率に圧縮符号化する手法として、CELP方式をはじめとした情報源符号化方式に基づくものが、主にデジタル携帯電話、国際通信、企業内通信等の分野で実用化されている。その中でも、ITU−T勧告G.729で使用されるCS−ACELP(Conjugate Structure − Algebraic CodeExcited Linear Prediction :共役構造の代数符号励振線形予測)方式やGSM−AMR(Global System for Mobile communications − Adaptive Multi−Rate)方式等が、国際標準または地域標準方式として採用されている。
【0003】
音声波の中で、特に有声音は、声帯の振動により発生する振動波に、口腔や鼻腔等の声道の共振特性が加わって生じるものである。元来、CELP方式はこのような人間の発声機構をモデル化した符号化方式である。そこでは、声帯振動波は、その繰り返し成分を表現するピッチ周期や、変動成分を表現する雑音パラメータで表現する。また、喉、口、鼻を音声が通過する際の声道伝達特性や、唇の放射特性については、線形予測の手法を用いて近似的に表現される。
【0004】
具体的なCELP方式においては、基本的に2つの符号帳(code book)である適応符号帳(adaptive code book)および雑音符号帳(fixed code book)を用いるほか、LSP量子化符号帳(Line Spectral Pair quantization code book)、利得量子化符号帳(gain quantization code book)を用いる。適応符号帳は、駆動源信号の周期的な信号成分を表現するものであり、過去の駆動源信号をメモリに蓄積し、フレーム周期毎に更新されるものがよく用いられる。一方、雑音符号帳は、適応符号帳では表現できない非周期的な信号成分を表現するものであり、複数の典型的な信号パターンを固定的に蓄積したものがよく用いられる。なお、このタイプの雑音符号帳は、信号パターンを蓄積するためのメモリ量が膨大になるため、その改良版として、近年、少ない本数のパルスで近似的に非周期的な信号成分を表現する代数符号帳が、よく用いられるようになってきた。また、駆動源信号の周期的・非周期的成分の利得は、利得量子化符号帳を用いてベクトル量子化する。さらに、送信すべき音声を線形予測分析した結果得られた線形予測係数をLSPに変換し、これをLSP量子化符号帳を用いてベクトル量子化する。
【0005】
図16は従来のCS−ACELP方式に基づく音声符号化装置の構成例を示すブロック図である。図において、604は線形予測分析処理部、605はLSP(Line Spectral Pair)量子化処理部、606はLSP量子化符号帳、608は多重化部、609は逆量子化処理部、610は適応符号帳、611は代数符号帳、612,616は加算器、613は利得制御増幅部、614は利得量子化符号帳、615は合成フィルタ、617は聴覚重み付フィルタ、618は歪最小化部、624はLPC(Linear Predictive Coding)・LSP変換部である。
【0006】
次に動作について説明する。
線形予測分析処理部604は音声入力からLSPパラメータを得るが、このLSPパラメータは直接LSP量子化処理部605に入力され、LSP量子化符号帳606を参照して符号化される。符号化されたLSPパラメータ(符号帳インデックス)は、逆量子化処理部609に送出されると共に、多重化部608にも送られる。逆量子化処理部609では、符号化されたLSPパラメータ(符号帳インデックス)を基にLSP量子化符号帳606を参照して得られたLSP係数を用いて線形予測係数を計算し、合成フィルタ615に供給する。この合成フィルタ615を含み、適応符号帳610、代数符号帳611、加算器612,616、利得制御増幅部613、利得量子化符号帳614、聴覚重み付フィルタ617で構成される処理ブロック群にて、適応符号帳610、代数符号帳611、及び利得量子化符号帳614の組み合わせを変えることで、複数の音声波形を合成する。歪最小化部618において、これらの複数の合成音声波形と入力信号波形との聴覚重み付けエラー電力(=自乗誤差)を計算し、その中でエラー電力を最小とする適応符号帳610、代数符号帳611、及び利得量子化符号帳614の組み合わせを選択する。いわゆるA−b−S(Analysis by Synthesis)法に基づき音声符号化処理が実行される。このようにして量子化された符号化パラメータ(適応符号帳610、代数符号帳611、及び利得量子化符号帳614等)と、先にLSP量子化処理部605で量子化された量子化パラメータは、多重化部608により多重化された後、復号器側に送られる。
【0007】
次に、上記符号化方式を、MCUを用いた電話会議装置に適用し、1対多、または多対多の通話を行った場合について述べる。
図17は従来のMCUの構成を示すブロック図であり、図において、20は会議端末を構成する電話器、21は交換機、22は回線インタフェース部、23は音声復号処理部、24は音声検出部、25は雑音抑圧部、26は音声加算部、27は分配処理部、28は自端末音声減算部、29は自動利得制御部、30は音声再符号化処理部である。
【0008】
次に動作について説明する。
まず、回線インタフェース部22にて受信された符号化音声は、音声復号処理部23によりチャネル毎に音声信号に復号される。復号された音声信号は、会議端末20からのそれぞれについて、音声検出部24により有音/無音の状態が検出される。この検出結果は、音声加算部26における加算対象端末の決定、雑音抑圧処理部25の雑音抑圧のための重み付け、自動利得制御部29による音声レベルの自動調整のために用いられる。
【0009】
会議参加者数Nが多くなると、背景ノイズレベルもNに比例して大きくなるため、SN比の低下により通話品質の劣化を招くという問題がある。そこで、雑音抑圧処理部25では、無音状態にあるチャネルから入力されてくる雑音を小さくするために、各会議参加者の有音/無音の検出結果に従って有音チャネルと無音チャネルのそれぞれに対して会議参加者数Nに基づく各重み係数を決定し、この重み係数をそれぞれの復号音声信号に掛ける雑音制御処理を行う。音声加算部26では、音声検出部24の検出結果を参照して、加算すべきチャネルの雑音制御処理された復号音声信号を加算する。加算された復号音声信号は、分配処理部27において、各チャネルに再分配される。
【0010】
自端末音声減算部28では、自端末の音声信号の回りこみによるエコーを抑圧し、聴感上のわずらわしさを解消するため、加算された復号音声信号から自端末の信号を減算する。また、多地点の電話会議システムにおいては、多人数の音声を加算することによる飽和歪みを起こす可能性があるため、自動利得制御部29にて、飽和歪みを防ぎ、なおかつ個人や全体の音声レベルを調整する。自動利得制御部29の出力信号は、音声再符号化処理部30にて符号化されて回線に出力される。
【0011】
図17に示された多地点制御装置によるシステムの第1の問題点として、復号・再符号化が繰り返されること(以下、「タンデム接続」という)による音声品質の劣化が挙げられる。CELP方式に基づく音声符号化・復号装置は、非可逆符号化であるため、復号された音声信号は量子化誤差を含んでいる。さらに、これをタンデム接続することにより、再符号化処理にて量子化誤差がさらに蓄積されるため、音声品質の劣化となる。
【0012】
この問題を解決する方法として、例えば特開2000−174909号公報「会議端末制御装置」に示される技術がある。図18はこの多地点制御装置(MCU)の構成を示すブロック図である。図において、2a〜2mはデマルチプレクサ、4は話者検出回路、6は第一セレクタ、8a〜8nはデコーダ(音声復号処理部)、10a〜10nは減衰回路、12は合成回路、14はエンコーダ(音声再符号化処理部)、16は第二セレクタ、18は分配回路である。
【0013】
次に動作について説明する。
MCUが各会議端末からの音声情報を受けると、デマルチプレクサ2a〜2mで有声/無声信号が分離され、その有声/無声信号を用いて、どの会議端末からの圧縮音声符号が有声であるかを話者検出回路4で検出する。また、有声である会議端末の数が計測される。有声、無声の判定がなされると、その情報が第一セレクタ6に送られ、第一セレクタ6において、有声状態の会議端末の数に応じて次のように作動する。
【0014】
有声状態の会議端末が2台以上あった場合には、第一セレクタ6は、有声状態の会議端末を選択してデコーダ8a〜8nに対して1対1の関係で接続し、各圧縮音声符号を送出する。デコーダ8a〜8nの該当するそれぞれは、供給された圧縮音声符号を復号して音声信号を生成する。生成された音声信号は減衰回路10a〜10nで所定の値に減衰される。それぞれの音声信号は、減衰回路10でレベル調整が行われた後、合成回路により合成される。つまり、有声状態の会議端末からの音声がすべて集められる。合成された音声信号は、エンコーダ14で再符号化されて第二セレクタ16へ送られ、分配回路18により全会議端末に伝送される。
【0015】
一方、有声状態の会議端末が1台であった場合には、その旨が第一セレクタ6に伝達され、第一セレクタ6でその有声状態の会議端末が選択され、そのまま直接第二セレクタ16に接続される。第二セレクタ16に接続された有声状態の会議端末の圧縮音声符号は、そのまま分配回路18を介して全会議端末に伝送される。
【0016】
MCUが図18に示す構成をとることにより、単一話者のケースでは、符号化音声のデータ全てがパススルーされるため、タンデム接続が回避され、低ビットレートの音声符号化方式を用いても高品質の音声を提供することができる。
【0017】
また、前述した図17に示された多地点制御装置によるシステムの第2の問題点として、情報源符号化処理特有の劣化要因、すなわち複数話者による同時発言がある。この場合の劣化は著しく、聴感上聞き苦しくなるという問題があった。
前述した従来のCELP方式に基づく音声符号化装置では、図16に示したように、元来、単一話者の発声を想定した符号化を行っている。すなわち、声帯音源(駆動ベクトル)、声道情報(線形予測係数)、利得情報などが符号化の過程で抽出されて量子化伝送される。音声の特徴量を示すパラメータはそれぞれ唯一であり、複数話者の混合音声を送信する場合においては、これを精度よく符号化することができない。例えば、複数話者の混合音声の場合、声帯音源は話者毎に異なる複数種類のピッチ周期情報を含んでいるが、その複数種類のピッチ周期を表現する手段が無い。また、複数話者の混合音声の場合、声道情報も単一話者の場合と比較してスペクトル構造が複雑になっている。さらに、それを忠実に表現する量子化パターン(量子化テーブル)が用意されておらず、量子化時の誤差が大きくなる傾向になる。
【0018】
このような問題を解決する手段として、例えば、特開平10−240299号公報「音声符号化及び復号装置」に示される方式がある。図19はこの公報に開示されたCELP系音声符号化装置の構成を示すブロック図である。図において、31は複数話者音声分離部、321〜32Nは長期予測器、331〜33Nは源音コ―ドブック、34は反射係数分析部、35はのど(喉)近似フィルタ、361〜36N,37は加算器、38は減算器、39はエラー分析部である。
【0019】
次に動作について説明する。
複数話者音声分離部31は、入力される音声信号の周期的特徴を分析して話者数n(1<n≦N)を特定し、この音声信号に含まれる各話者の音声を分離して各話者の源音声A1〜Anとして出力する。複数話者音声分離部31で得られた話者数nは、反射係数分析部34に供給される。反射係数分析部34では、話者数nが1人の場合は10次、2人の場合は15次、それ以上の場合は20次というように、話者数nに応じた次数で反射係数rを算出する。反射係数rは、例えば入力音声の自己相関を用いてFLAT(固定小数点共分散格子型アルゴリズム)を実行することにより求めることができる。求められた反射係数rは、のど近似フィルタ35の係数として与えられる。
【0020】
一方、複数話者音声分離部31で分離された各話者の源音声A1〜Anは、n個の長期予測器321〜32nにそれぞれ入力される。長期予測器321〜32nでは、これらの源音声A1〜Anと前フレームの源音声との相関関係などから源音声のピッチL1〜Lnを抽出する。これらのピッチL1〜Lnによってそれぞれ復号された信号と源音コードブック331〜33nからのコードベクトルとが加算器361〜36nにおいてそれぞれ加算され、各話者についての源音声が復号される。これらの複数話者分の源音声が加算器37によって加算され、のど近似フィルタ35で声道の特徴を付与されて局部復号信号となる。この局部復号信号と入力音声とが減算器38によって減算され、減算器38からのエラー信号が最小となるようにエラー分析部39で源音コードブック331〜33nのインデックスI1〜Inが順次決定される。
【0021】
【発明が解決しようとする課題】
従来の多地点制御装置の音声符号化伝送システムは以上のように構成されているので、量子化誤差の蓄積による音声品質の劣化を回避するために、図18に示した方式を用いた場合、話者検出回路4が、発言者以外の発する短区間の音声(咳払い、相槌など)に反応したり、背景ノイズの変動などによって誤判定を起こしたりする恐れがある。この場合、パススルーと復号・再符号化処理との回路切り替えが頻繁に行われる結果となる。すなわち、図18において、話者検出回路4の判定結果により、エンコーダ14の出力(符号化音声信号)とパススルーされた符号化音声信号とがセレクタ6によって切り替わることになる。ところがCELP方式のような低ビットレートの音声符号化方式の場合には、通常、符号器と復号器とが常に一対で動作することにより、高品質の音声を伝送することができる。しかしながら図18の構成では、セレクタ6の切り替えによって、受信者の会議端末に内蔵されている復号器と対になる符号器が、唯一の発言者の会議端末に内蔵されている符号器とMCUの符号器(エンコーダ14)とに頻繁にスイッチングされる。このため、音声を受ける端末側では、このスイッチングにより音声が不連続となることにより、また音声品質が頻繁に変動することにより不自然に感じられ、聞き苦しくなるという課題があった。
【0022】
また、従来の多地点制御装置の音声符号化伝送システムは以上のように構成されているので、情報源符号化処理特有である複数話者の同時発言による著しい劣化を回避するために、図19に示した方式を用いた場合、話者が増えるたびにピッチ周期情報をその分用意せねばならず、話者の増加に比例してビットレートが増大するため、伝送速度をフレキシブルに変化できる通信網、例えばATM網やIP網に代表される非同期伝送網等、適用できる伝送網が限定されてしまうという課題があった。
【0023】
この発明は、上記の課題を解決するためになされたものであり、1対多または多対多の電話会議で想定される複数話者の同時発言や、高ノイズ環境下での発言、咳払い、相槌などの短区間の発言に対しても高品質な音声伝送を実現できる多地点制御装置の音声符号化伝送システムを得ることを目的とする。
また、この発明は、伝送速度が一定あるいはチャネルあたりの伝送速度に制限を受ける伝送網に対しても適用できる多地点制御装置の音声符号化伝送システムを得ることを目的とする。
【0024】
【課題を解決するための手段】
この発明に係る多地点制御装置の音声符号化伝送システムは、通信ネットワークを介して複数の通信端末と接続し、各通信端末で取り扱われる音声を符号化した符号化音声信号を受信および送信の対象とし、これら符号化音声信号の情報内容に応じて所定の処理を施し、複数の通信端末に対し処理した符号化音声信号を配信する多地点制御装置の音声符号化伝送システムにおいて、各通信端末から受信した符号化音声信号を復号して復号音声信号を生成し、復号音声信号が有音である通信端末を判定し、有音であると判定した通信端末の1つを指定し、その指定した通信端末の復号音声信号における複数種類の音声符号化パラメータのうち一部の音声符号化パラメータについては音声再符号化処理を施すことなく各通信端末に送信し、指定した通信端末の復号音声信号における複数種類の音声符号化パラメータのうち他の音声符号化パラメータおよび他の通信端末の復号音声信号における複数種類の音声符号化パラメータについては音声再符号化処理を施した後に各通信端末に送信するように構成したものである。
【0025】
この発明に係る多地点制御装置の音声符号化伝送システムは、1つの通信端末からの復号音声信号のみが有音である場合には1つの通信端末を指定し、その指定した通信端末の復号音声信号における一部の音声符号化パラメータについては音声再符号化処理を施すことなく各通信端末に送信するように構成したものである。
【0026】
この発明に係る多地点制御装置の音声符号化伝送システムは、複数の通信端末に対して優先順位を設定し、復号音声信号が有音であると判定した通信端末が複数である場合にはその中で優先順位が最も高い1つの通信端末を指定し、その指定した通信端末の復号音声信号における一部の音声符号化パラメータについては音声再符号化処理を施すことなく各通信端末に送信するように構成したものである。
【0027】
この発明に係る多地点制御装置の音声符号化伝送システムは、復号音声信号が有音であると判定した通信端末が複数である場合には先に音声信号を受信した先着順に優先順位を設定するように構成したものである。
【0028】
この発明に係る多地点制御装置の音声符号化伝送システムは、あらかじめ1つの特定の通信端末を優先的に指定して優先順位を設定するように構成したものである。
【0029】
この発明に係る多地点制御装置の音声符号化伝送システムにおける一部の音声符号化パラメータは、ピッチ周期情報を担うパラメータであるように構成したものである。
【0030】
この発明に係る多地点制御装置の音声符号化伝送システムにおける一部の音声符号化パラメータは、スペクトル包絡情報を担うパラメータであるように構成したものである。
【0031】
この発明に係る多地点制御装置の音声符号化伝送システムは、複数の通信端末から受信した復号音声信号が有音であると判定した場合には、有音の通信端末の数に応じて音声符号化パラメータのフレームのビット配分を適応的に設定するように構成したものである。
【0032】
この発明に係る多地点制御装置の音声符号化伝送システムは、複数の通信端末のうち優先順位が第1位の通信端末および第2位の通信端末から受信した復号音声信号が有音であると判定した場合には、第1位の通信端末の復号音声信号におけるピッチ周期情報およびスペクトル包絡情報をそれぞれ担う2つの音声符号化パラメータ並びに第2位の通信端末の復号音声信号におけるピッチ周期情報を担う音声符号化パラメータについては音声再符号化処理を施すことなく各通信端末に送信し、第1位および第2位の通信端末の復号音声信号において音声再符号化処理を施す音声符号化パラメータについては伝送レート制御機能に基づく縮退の量子化ビット制御を行った後に各通信端末に送信するように構成したものである。
【0033】
この発明に係る多地点制御装置の音声符号化伝送システムは、複数の通信端末のうち主音声の通信端末および副音声の通信端末から受信した復号音声信号が有音であると判定した場合には、主音声の通信端末の復号音声信号におけるピッチ周期情報およびスペクトル包絡情報をそれぞれ担う2つの音声符号化パラメータ並びに副音声の通信端末の復号音声信号におけるピッチ周期情報を担う音声符号化パラメータについては音声再符号化処理を施すことなく各通信端末に送信し、主音声および副音声の通信端末の復号音声信号において音声再符号化処理を施す音声符号化パラメータについては伝送レート制御機能に基づく縮退の量子化ビット制御を行った後に各通信端末に送信するように構成したものである。
【0034】
この発明に係る多地点制御装置の音声符号化伝送システムにおける縮退の量子化ビット制御が行われる符号化パラメータは、利得符号帳であるように構成したものである。
【0035】
この発明に係る多地点制御装置の音声符号化伝送システムにおける縮退の量子化ビット制御が行われる符号化パラメータは、雑音符号帳であるように構成したものである。
【0036】
この発明に係る多地点制御装置の音声符号化伝送システムは、音声符号化パラメータについて音声再符号化処理を施した後に各通信端末に送信するかまたは音声再符号化処理を施すことなく各通信端末に送信するかを決定する符号化モード情報を所定ビット数からなる符号化パラメータのフレームに含めるように構成したものである。
【0037】
【発明の実施の形態】
以下、この発明の実施の一形態について図を参照して説明する。
実施の形態1.
図1はこの発明の実施の形態1による音声符号化伝送システムを適用した多地点制御装置の構成を示すブロック図である。図1において、201は交換機、202は回線インタフェース部、203は音声復号処理部、204は音声検出部、205は雑音抑圧処理部、206は音声加算部、207は分配処理部、208は自端末音声減算部、209は自動利得制御部、210は音声再符号化処理部、211は音声符号化パラメータ制御部である。
【0038】
図1の構成の基本的な機能は以下の通りである。
各会議端末(通信端末)からの符号化音声が交換機201を介して回線インタフェース部202で受信される。受信された符号化音声は、音声復号処理部203によりチャネル毎に音声信号に復号される。復号された音声信号は、会議端末からのそれぞれについて、音声検出部204により有音/無音の状態を検出される。この検出結果は、音声加算部206における加算対象端末の決定、雑音抑圧処理部205の雑音抑圧のための重み付け、自動利得制御部209による音声レベルの自動調整のために用いられる。また、音声復号処理部203で復号された復号音声信号および抽出された音声パラメータは、音声符号化パラメータ制御部211に入力される。
【0039】
会議参加者数Nが多くなると、雑音が大きくなり通話品質の劣化を招くので、雑音抑圧処理部205では、無音状態にあるチャネルから入力されてくる雑音を小さくする。そのために、各会議参加者の有音/無音の検出結果に従って有音チャネルと無音チャネルのそれぞれに対して会議参加者数Nに基づく各重み係数を決定し、この重み係数をそれぞれの復号音声信号に掛ける雑音制御処理を行う。音声加算部206では、音声検出部204の検出結果を参照して、加算すべきチャネルの雑音制御処理された復号音声信号を加算する。加算された復号音声信号は、分配処理部207において、各チャネルに再分配される。
【0040】
自端末音声減算部208では、自端末の音声信号の回りこみによるエコーを抑圧し、聴感上のわずらわしさを解消するため、加算された復号音声信号から自端末の信号を減算する。また、多地点の電話会議システムにおいては、多人数の音声を加算することによる飽和歪みを起こす可能性があるため、自動利得制御部209にて、飽和歪みを防ぎ、なおかつ個人や全体の音声レベルを調整する。自動利得制御部209の出力信号は、音声再符号化処理部210において符号化されて回線に出力される。
【0041】
図2は図1の音声符号化パラメータ制御部211のさらに詳細な構成を示すブロック図であり、図において、212はセレクタ、213は分配処理部、214は発言者選択部である。
図2の構成の基本的な機能は以下の通りである。
発言者選択部214は、各チャネルの音声検出部204の検出結果を集計して、発言者が唯一であると見なせる場合に、その発言者の情報(チャネル番号など)をセレクタ212および音声再符号化処理部210に出力する。セレクタ212は、発言者選択部214の選択結果に応じて、音声復号処理部203にて抽出された各チャネルの音声符号化パラメータから音声再符号化処理部210にパススルーする符号化パラメータを選択する。分配処理部213は、セレクタ212で選択された符号化パラメータを、各チャネルの音声再符号化処理部210に再分配する。
【0042】
図3は、図1の音声復号処理部203のさらに詳細な構成を示すブロック図であり、図において、126は多重分離部、131aは適応符号帳、131bは利得復号部、132は復号利得MA予測部、133は代数符号復号部、134はピッチプレフィルタ、135はLSP復号部、136はLSP内挿部、137はLSP・LPC変換部、127,128は制御増幅部、129は加算器、138は合成フィルタ、139はポストフィルタである。
【0043】
図4は、図1の音声再符号化処理部210の構成を示すブロック図であり、上述した図11の音声符号化装置に対応する。図において、104は線形予測分析処理部、105はLSP(Line Spectral Pair)量子化処理部、106はLSP量子化符号帳、108は多重化部、109は逆量子化処理部、110は適応符号帳、111は代数符号帳、112,116は加算器、114は利得量子化符号帳、115は合成フィルタ、117は聴覚重み付フィルタ、118は歪最小化部、119,120,122は切替スイッチ、113a,113bは利得制御増幅部、121はピッチプレフィルタ、125は利得MA予測部、124はLPC(Linear Predictive Coding)・LSP変換部である。
【0044】
次に、動作について説明する。なお、説明のために用いる音声符号化方式については、ITU−T勧告G.729 CS−ACELP方式に基づく。
音声復号処理部203では、伝送されてきた音声符号化データを基に復号処理を実行する。それと共に、発言者の音声に固有の特徴量を示すパラメータ、すなわち、声帯振動波の繰返し周期を表現するピッチ周期情報である適応符号帳インデックスと、声道情報を表現するスペクトル包絡情報であるLSP符号帳インデックスとを音声符号化パラメータ制御部211に出力する。この場合において、音声検出部204の判定結果により、発言者が唯一に決まった場合は、その発言者の端末装置に割り当てたチャネルから受信した符号化パラメータのうち、適応符号帳インデックスとLSP符号帳インデクスとをそのまま音声再符号化処理部210へパススルーする。
【0045】
このとき音声再符号化処理部210では、切替スイッチ119,120,122を各接点119A,120A,122A側に接続し、パススルーされた符号化パラメータについては、再符号化処理すなわち符号帳探索処理を行わずに、そのまま多重化部108に送る。その他のパラメータ(図4においては、代数符号帳インデックスおよび利得符号帳インデックス)については、音声加算された復号音声信号に基づいて再符号化処理を行い、歪最小化部118で最小自乗誤差の探索により最適な量子化値を抽出して多重化部108に送る。多重化部108ではこれらパラメータを多重化して回線インタフェース部202に出力する。
【0046】
ここで、音声検出部204について、例えば、あるチャネルで発言中、他のチャネルから割り込んで発言があった場合は、そのチャネルにおいて音声の立ち上がりを検出しても、即座に発音中のチャネルからの切り替えは行わず、所定の待ち時間を持たせて、発言中のチャネルからの切り替えを遅らせることにより、相槌、咳払いなど、比較的短区間の、重要度の低い発言での切り替えを防ぐ。これが比較的長い割り込み発言であった場合には、スイッチングの遅れが発生するが、音声加算部206の出力(加算復号音声信号)には反映されているため、音声再符号化処理部210で合わせて符号化されるので、頭切れなどの心配はない。但し、音声信号を復号するための重要な情報を含む符号化パラメータである適応符号帳インデックス(ピッチ周期情報)およびLSP符号帳インデックス(スペクトル包絡情報)が一部欠けているため、元々の発言者に比べて割り込み発言の品質は劣化している。しかし、会議運営上、割り込み発言の重要性は低いケースとなることが多く、また、若干ではあるが代数符号帳インデックスの中にも周波数成分に関する情報が漏れているので、実運用上では、例えば、耳障りな音を復号すうような、割込み発言者の音声が異常になるようなことはなく、この劣化は比較的気にならないと言える。
【0047】
また、音声検出部204において、話者が唯一に決まらない場合は、音声再符号化処理部210の、スイッチ119,120,122をそれぞれ119B,120B,122B側に接続することによって、パススルー動作は行わない。したがって、音声再符号化処理部210内において、話者入力のある各チャネルの復号音声について所定の再符号化処理が行われる。
【0048】
以上のように、この実施の形態1によれば、指定した会議端末の復号音声信号における複数種類の音声符号化パラメータのうち一部の音声符号化パラメータについては音声再符号化処理を施すことなく各通信端末に送信し、指定した会議端末の復号音声信号における複数種類の音声符号化パラメータのうち、他の音声符号化パラメータ、および他の通信端末の復号音声信号における複数種類の音声符号化パラメータについては、音声再符号化処理を施した後に各通信端末に送信するので、1対多または多対多の電話会議で想定される複数話者の同時発言や、高ノイズ環境下での発言、咳払い、相槌などの短区間の発言に対しても高品質な音声伝送を実現できるという効果が得られる。
【0049】
すなわち、一部の音声符号化パラメータについてパススルーすることにより、メインの話者(指定した会議端末の話者)に関しては、主要な音声符号化パラメータについては、復号・再符号化を繰り返すことによる劣化を受けずに維持されるため、メイン話者については、パススルー時の音声品質に近いものが再現できるという効果が得られる。また、符号化パラメータが常に音声再符号化処理部を経由しているため、頻繁なスイッチングが発生しても、音声の不連続感は解消されるという効果が得られる。また、品質は常に一定に保たれるため、音声品質が揺らぐことによる不自然感が解消されるという効果が得られる。
【0050】
また、この実施の形態1によれば、音声再符号化処理を施すことなくパススルーする一部の音声符号化パラメータは、ピッチ周期情報を担うパラメータであるので、発言者の音声に固有な声帯振動数の繰り返し周期を表現する情報をそのまま伝送して、高品質な音声伝送を実現できるという効果が得られる。
【0051】
また、この実施の形態1によれば、音声再符号化処理を施すことなくパススルーする一部の音声符号化パラメータは、スペクトル包絡情報を担うパラメータであるので、発言者の口腔や鼻腔等の声道を表現する情報をそのまま伝送して、高品質な音声伝送を実現できるという効果が得られる。
【0052】
実施の形態2.
実施の形態2においては、実施の形態1の図1乃至図3に相当する構成は、ほぼ同じである。ただし、この実施の形態2では、音声復号処理部203から音声符号化パラメータ制御部211にパススルーされる適応符号帳インデックスは、優先順位が第1位の会議端末の話者からの符号化パラメータのうちの第1位の適応符号帳インデックス、および、優先順位が第2位の会議端末の話者からの符号化パラメータのうちの第2位の適応符号帳インデックスである。図5は、この発明の実施の形態2における音声再生符号化処理部の構成を示すブロック図であり、図において、130は切替スイッチ、110bは第2の適応符号帳、113cは利得制御増幅部、140は符号化レート制御部である。他の構成要素は、図4に示した実施の形態1における音声再符号化処理部の構成要素と同じものであるので同一符号を付し、原則としてその説明を省略する。
【0053】
図6は、交換機201に接続される電話機すなわち会議端末の構成を示すブロック図であり、図において、500は回線インタフェース部、501は音声復号処理部、502はD/Aコンバータ、503はスピーカである。
【0054】
図7は、図6の会議端末における音声復号処理部501のさらに詳細な構成を示すブロック図であり、図において、504は多重分離部、505は符号化モード解読部である。他の構成要素は、図5に含まれている一部の構成要素と同じものであるので同一符号を付し、原則としてその説明を省略する。
【0055】
図8は、1話者発言の場合、2話者発言の場合、および3話者発言の場合における符号化パラメータのフレーム構成例を示す説明図である。
【0056】
次に、動作について説明する。なお、実施の形態1の場合と同様に、説明のために用いる音声符号化方式については、ITU−T勧告G.729 CS−ACELP方式に基づく。
スイッチ130は、音声符号化パラメータ制御部211からの第2位の適応符号帳インデックスを入力するか入力しないか切り替える。符号化レート制御部140は、音声符号化パラメータ制御部211と音声再符号化処理部210との間に設けられ、音声符号化パラメータ制御部211からの発言者選択情報に基づき、パラメータの符号化レートを決定する制御信号を代数符号帳111および利得量子化符号帳114に出力するとともに、符号化モード情報をスイッチ119,120,130の切替制御信号として与えるとともに、多重化部108に出力する。多重分離部504は、図5の多重化部108で多重化された音声符号化パラメータを分離する。符号化モード解読部505は、多重分離部504で分離された符号化モード情報(図8のフレームにおける最後の1ビットの値)を解読する。
【0057】
以下、図1〜図9を参照して、全体的な動作を説明する。
いま、話者が唯一である場合には、図1の音声検出部204の検出結果により、図2の発言者選択部214は「1話者発言」であることを決定して、その決定内容を示す発言者選択情報をセレクタ212に出力するとともに、音声再符号化処理部210に転送する。セレクタ212は、その1話者の会議端末に対応しているチャネルから受信した符号化パラメータを選択して分配処理部213に出力する。分配処理部213は、その符号化パラメータ(LSP符号化インデックスおよび第1位の適応符号化インデックス)をそのまま音声再符号化処理部210へパススルーする。このときの動作は、スイッチ130を130B側に接続する。すなわち、第2位の適応符号帳インデックスの入力をオフにする。また、符号化レート制御部140から出力されるビットレートが決定する。他の動作は実施の形態1の場合と全く同一である。
【0058】
また、話者が1人もいない場合、あるいは3者以上が同時に発言した場合は、音声検出部204の検出結果により、発言者選択部214は「3話者以上発言」であることを決定して、その決定内容を示す発言者選択情報をセレクタ212に出力するとともに、音声再符号化処理部210に転送する。この場合には、セレクタ212は符号化パラメータを選択しない。音声再符号化処理部210は、発言者選択情報に応じてタンデム接続による再符号化処理を実行する。すなわち、スイッチ119,120,130をそれぞれ接点119B,120B,130B側に接続して、LSP符号化インデックスのパススルーを行わず、第1位および第2位の適応符号帳インデックスの入力をオフにする。そして、全符号化パラメータについて、音声加算された信号に基づいて再符号化処理を行い、最適な量子化値を探索して多重化部108に送る。もっとも、話者が1人もいない場合には、符号化パラメータが存在しないので、再符号化処理を行うことはない。
【0059】
一方、2話者が同時発言した場合には、発言者選択部214は「2話者発言」であることを決定して、その決定内容を示す発言者選択情報をセレクタ212に出力するとともに、音声再符号化処理部210に転送する。セレクタ212は、その2話者の会議端末に対応しているチャネルから受信した符号化パラメータを選択して分配処理部213に出力する。分配処理部213は、その符号化パラメータをそのまま音声再符号化処理部210へパススルーする。音声再符号化処理部210は、第1の話者のLSP符号化インデックスおよび第1位の適応符号化インデックスをパススルーするとともに、第2の話者の第2位の適応符号化インデックス(ピッチ周期情報)をパススルーする。
【0060】
すなわち、スイッチ119,120,130をそれぞれ接点119A,120A,130A側に接続して、LSP符号化インデックス、第1位および第2位の適応符号帳インデックスを多重化部108に送る。他の符号化パラメータである代数符号化インデックスおよび利得符号化インデックスについては、音声加算された信号に基づいて再符号化処理を行い、最適な量子化値を探索して多重化部108に送る。多重化部108は、これら複数の符号化パラメータを多重化して回線インタフェース部202に出力する。
【0061】
同時に、符号化レート制御部140では、音声符号化パラメータ制御部211からの発言者選択情報に応じて、代数符号化インデックスおよび利得符号化インデックスに割り当てられるビット数を伝送速度に見合うように調整して、それぞれ代数符号帳111および利得量子化符号帳114に出力するとともに、後述する符号化モード情報を生成して、スイッチ119,120,130および多重化部108に出力する。
【0062】
この場合において、符号化モードを2モード設定することとし、「1話者発言」および「3話者以上発言」の符号化モードを「モード0」とし、「2話者発言」の符号化モードを「モード1」とする。すなわち、「0」および「1」の符号化モード情報を設定する。したがって、この符号化モード情報を伝送するには1ビットを必要とする。伝送速度が8キロビット/秒の場合の各モードにおける符号化パラメータの1フレーム(80ビット)のビット割り当ての例を図8および図9に示す。
【0063】
「モード0」においては、ITU−T勧告G.729に示されているビット割り当てとほぼ同じである。すなわち、図8に示すように、「1話者発言」の場合には、LSP符号帳インデックスおよび適応符号帳インデックスの符号化パラメータをパススルーし、「3話者以上発言」の場合には、全ての符号化パラメータをパススルーしない。ただし、伝送速度が8キロビット/秒であるので、標準方式では符号化モード情報を送信する余地がないため、図9に示すように、標準方式でパリティビットとして設定されている1ビットを符号化モード情報に転用して送信する。
【0064】
一方、「モード1」においては、第2位の適応符号化インデックス(13ビット)を送信する必要があるので、その13ビット分だけ他の符号化パラメータのビット割り当てを減らす(これを縮退という)必要がある。したがって、図9および図8に示すように、「2話者発言」の場合には、代数符号帳インデックスを34ビットから22ビットに縮退し、利得符号帳インデックスを14ビットから13ビットに縮退する。そして、第1話者のLSP符号帳インデックスおよび適応符号帳インデックス、並びに、第2話者の第2位の適応符号帳インデックスからなる符号化パラメータをパススルーする。
【0065】
なお、代数符号帳インデックスの縮退方式については、第1サブフレームおよび第2サブフレームともに、ITU−T勧告G.729 Annex D 第D.5.8節に記述されている方式(11ビット量子化)を用いて実現する。また、利得符号帳インデックスの縮退方式については、第1サブフレームはITU−T勧告G.729本体の第3.9節に記載されている方式(7ビット量子化)を用いて、第2サブフレームはITU−T勧告G.729 Annex D 第D.5.9節に記述されている方式(6ビット量子化)を用いて実現する。
【0066】
多重化部108は、これらの符号化パラメータを多重化して、図8に示す1フレームごとに回線インタフェース部202および交換機201を介して、各会議端末に送信する。そして、図6に示した会議端末の受信部において、音声復号処理部501は、交換機201および回線インタフェース部500を介して受信した符号化パラメータのフレームを復号する。すなわち、図7に示した音声復号処理部501において、多重分離部504は、1フレームの符号化パラメータを各符号化パラメータに分離し、符号化モード情報を符号化モード解読部505に出力する。符号化モード解読部505は、その符号化モード情報に基づいて、スイッチ130に切替制御信号を与え、ビット割当情報を代数符号帳111および利得量子化符号帳114に与える。
【0067】
したがって、符号化モード情報が0のフレームを受信したときは、スイッチ130は切替制御信号によって接点130B側に接続され、第2位の適応符号帳インデックスの入力をオフにする。また、代数符号帳111は、ビット割当情報に応じて、ITU−T勧告G.729本体の第4.1節に示された復号方式を用いて代数符号帳インデックスを復号する。また、利得量子化符号帳114も、ビット割当情報に応じて、ITU−T勧告G.729本体の第4.1節に示された復号方式を用いて利得符号帳インデックスを復号する。
【0068】
一方、符号化モード情報が1のフレームを受信したときは、スイッチ130は切替制御信号によって接点130A側に接続され、第2位の適応符号帳インデックスの入力をオンにしてその復号を開始する。また、代数符号帳111は、ビット割当情報に応じて、第1サブフレームについては、ITU−T勧告G.729本体の第4.1節に示された復号方式を用いて代数符号帳インデックスを復号し、第2サブフレームについては、同勧告G.729 Annex D.6章に示された復号方式を用いて代数符号帳インデックスを復号する。次に、第2位の適応符号帳インデックスを復号して得られた第2話者のピッチ周期成分、第1位の適応符号帳インデックスを復号して得られた第1話者のピッチ周期成分、および代数符号帳インデックスを復号して得られた雑音成分を加算器112で加算して、励振信号として合成フィルタ115に出力する。合成フィルタ115は、この励振信号に基づいて声道情報を畳み込み、復号音声を得る。
【0069】
以上のように、この実施の形態2によれば、複数の会議端末から受信した復号音声信号が有音であると判定した場合には、有音の会議端末の数に応じて符号化パラメータのフレームのビット配分を適応的に設定するので、伝送速度が一定あるいはチャネルあたりの伝送速度に制限を受ける伝送網に対しても適用できるという効果が得られる。
【0070】
また、この実施の形態2によれば、複数の会議端末のうち優先順位が第1位の会議端末の第1話者および第2位の会議端末の第2話者から受信した復号音声信号が有音であると判定した場合には、第1話者の復号音声信号におけるピッチ周期情報である第1位の適応符号帳インデックス、およびスペクトル包絡情報であるLSP符号帳インデックスからなる音声符号化パラメータ、並びに、第2話者の復号音声信号におけるピッチ周期情報である第2位の適応符号帳インデックスからなる音声符号化パラメータについては、音声再符号化処理を施すことなく各会議端末にパススルーして送信するので、2話者が同時に発言した場合でも、比較的良好な音声品質の伝送が可能になるという効果が得られる。
【0071】
また、この実施の形態2によれば、音声再符号化処理を施す音声符号化パラメータについては、伝送レート制御機能に基づく縮退の量子化ビット制御を行うので、音声品質の劣化に対して影響の少ない符号化パラメータを縮退させて、第2話者の復号音声信号におけるピッチ周期情報である第2位の適応符号帳インデックスからなる音声符号化パラメータについて音声再符号化処理を施すことなく各会議端末にパススルーして送信するので、2話者が同時に発言した場合でも、音声品質の劣化を抑制できるという効果が得られる。
【0072】
また、この実施の形態2によれば、縮退の量子化ビット制御が行われる符号化パラメータを励振利得である利得符号帳インデックスとしたので、音声品質の劣化に対して影響の少ない利得符号帳インデックスの符号化パラメータを縮退させて、2話者が同時に発言した場合でも、音声品質の劣化を抑制できるという効果が得られる。
【0073】
また、この実施の形態2によれば、縮退の量子化ビット制御が行われる符号化パラメータを雑音符号帳である代数符号帳インデックスとしたので、音声品質の劣化に対して影響の少ない代数符号帳インデックスの符号化パラメータを縮退させて、2話者が同時に発言した場合でも、音声品質の劣化を抑制できるという効果が得られる。
【0074】
また、この実施の形態2によれば、音声符号化パラメータについて音声再符号化処理を施した後に各会議端末に送信するか、または音声再符号化処理を施すことなく各会議端末にパススルーして送信するかを決定する1ビットの符号化モード情報を、80ビットからなる符号化パラメータのフレームに含めるので、伝送レートに影響を与えることなく、特定の符号化パラメータをパススルーするか否かの情報を符号化パラメータのフレームに含めることができるという効果が得られる。
【0075】
実施の形態3.
図10はこの発明の実施の形態3における多地点制御装置の構成を示すブロック図であり、図11は実施の形態3における音声符号化パラメータ制御部のブロック図である。図1に相当する図10の部分には同一符号を付し、図2に相当する図11の部分には同一符号を付し、原則としてその説明を省略する。図10および図11において、215は先着チャネル判定部で、発言のあったチャネルのうち音声検出部204が最初に検出したチャネルの検出結果に応答して音声符号化パラメータ制御部211のセレクタ212を制御するものである。
【0076】
次に、動作について説明する。
発言者が競合した場合、先着チャネル判定部215は、先に発言のあったチャネルについて優先話者と判定し、その判定結果をセレクタ212に与える。セレクタ212は、その先着チャネルの符号化パラメータのみを音声再符号化処理部210へパススルーする。それ以降においては、音声再符号化処理部210は実施の形態1と同様に動作する。
【0077】
以上のように、この実施の形態3によれば、複数の会議端末に対して優先順位を設定し、復号音声信号が有音であると判定した会議端末が複数である場合にはその中で優先順位が最も高い1つの会議端末を指定し、その指定した会議端末の復号音声信号における一部の音声符号化パラメータについては音声再符号化処理を施すことなく各通信端末に送信するので、複数の会議端末の話者が同時に発言した場合でも、会議が混乱するのを回避できるという効果が得られる。
【0078】
また、この実施の形態3によれば、復号音声信号が有音であると判定した会議端末が複数である場合には、先に音声信号を受信した先着順に優先順位を設定するので、無用な咳払い、相槌やルールを逸脱した割込み発言によって、会議の進行が乱されることがないという効果が得られる。
【0079】
実施の形態4.
図12はこの発明の実施の形態4における多地点制御装置およびその他の構成を示すブロック図であり、図13は実施の形態4における音声符号化パラメータ制御部のブロック図である。図1に相当する図12の部分には同一符号を付し、図2に相当する図13の部分には同一符号を付し、原則としてその説明を省略する。図12において、224はMCU制御部であり、インターネットなどを通じて優先話者とする特定のチャネルを優先話者判定部216に登録する。図13において、216は優先話者判定部で、電話会議の特定のチャネルを優先話者として予め登録しておき、復号音声信号と音声検出結果に応じて有音と判定されたチャネルが登録された特定のチャネルであった場合、そのチャンネルの話者を優先話者して判定する。
【0080】
次に、動作について説明する。
例えば、会議主催者は、会議設定時にインターネットなどによりMCU制御部224を介して、会議主催者のチャネルあるいは指名された司会進行役のチャネルなどを、優先話者としてりMCU制御部224に登録しておく。次に、発言者が競合した場合において、登録されている優先話者、すなわち会議主催者のチャネルや指名された司会進行役のチャネルにおいて発言があったとき、優先話者判定部216は、復号音声信号、音声検出結果および登録されたデータとから、優先話者のチャネルを検知し、音声符号化パラメータ制御部211のセレクタ212が該当するチャネルの符号化パラメータのみを音声再符号化処理部210へパススルーするように制御する。それ以降の動作については、実施の形態1の場合と同様である。
【0081】
以上のように、この実施の形態4によれば、あらかじめ1つの特定の会議端末を優先的に指定し、復号音声信号が有音であると判定した複数の会議端末の中に特定の会議端末が含まれている場合には、その特定の会議端末の復号音声信号における一部の音声符号化パラメータについては音声再符号化処理を施すことなく各会議端末にパススルーして送信するので、会議主催者や指名された司会進行役の発言を検知して、発言者が競合した場合でも、円滑な会議進行が可能になるという効果が得られる。
【0082】
実施の形態5.
図14および図15は、この発明の実施の形態5における符号化パラメータのフレーム構成を示す説明図である。なお、この実施の形態5において、多地点制御装置、多地点制御装置における音声再符号化処理部、および会議端末における音声復号処理部の構成は、それぞれ図1、図2および図5、並びに図7に示した実施の形態2における構成と同じである。また、多地点制御装置における音声符号化パラメータ制御部の構成は、図13に示した実施の形態4における構成と同じである。
【0083】
次に、動作について説明する。説明のために用いる音声符号化方式についても、実施の形態2と同様に、ITU−T勧告G.729のCS−ACELP方式に基づく。図1において、音声検出部204の検出結果により、図2における音声符号化パラメータ制御部211の発言者選択部214の選択が「1話者発言」、「2話者発言」、または「3話者以上発言」に決定した場合には、実施の形態2の場合と同様に、その決定に基づく発言者選択情報をセレクタ212に与えるとともに、図5における符号化レート制御部140に出力する。符号化レート制御部140は、この発言者選択情報に応じて、「モード0」または「モード1」を示す1ビットの符号化モード情報を生成して、音声再符号化処理部210に出力する。音声再符号化処理部210は、この符号化モード情報に基づいて、多重化部108から会議端末に出力する符号化パラメータのフレームを構成する。
【0084】
すなわち、「モード1」においては、第2位の適応符号化インデックス(8ビット)を送信する必要があるので、その8ビット分だけ他の符号化パラメータを縮退する必要がある。したがって、図14および図15に示すように、「2話者発言」の場合には、代数符号帳インデックスを34ビットから28ビットに縮退し、利得符号帳インデックスを14ビットから12ビットに縮退する。そして、第1話者のLSP符号帳インデックスおよび適応符号帳インデックス、並びに、第2話者の第2位の適応符号帳インデックスからなる符号化パラメータをパススルーする。
【0085】
なお、代数符号帳インデックスの縮退方式については、第1サブフレームについてはITU−T勧告G.729 Annex D 第D.5.8節に記述されている方式(11ビット量子化)を用い、第2サブフレームについてはITU−T勧告G.729本体第3.8節に記述されている方式(17ビット量子化)を用いて実現する。また、利得符号帳インデックスの縮退方式については、第1サブフレームおよび第2サブフレームともにITU−T勧告G.729 Annex D 第D.5.9節に記述されている方式(6ビット量子化)を用いて実現する。
【0086】
ところで、電話会議システムにおいて使用されるチャネルは、主音声と副音声で構成されている。この場合、主音声は発言者の音声であり、副音声は、例えば発言者の発言に対する同時通訳などが適用される。そこで、図13における優先話者判定部216において、主音声を第1話者とし副音声を第2話者として順位付けを設定しておく。図14に示すように、主音声の符号化パラメータであるLSP符号帳インデックスおよび第1位の適応符号帳インデックスについては、パススルーされた量子化パラメータをそのまま伝送するようにし、副音声の符号化パラメータである第2位の適応符号帳インデックスについては、パススルーされた量子化パラメータを縮退させて伝送する。
【0087】
以上のように、この実施の形態5によれば、主音声および副音声の会議端末から受信した復号音声信号が有音であると判定した場合には、主音声の会議端末の復号音声信号におけるピッチ周期情報およびスペクトル包絡情報をそれぞれ担う2つの音声符号化パラメータ、並びに、副音声の会議端末の復号音声信号におけるピッチ周期情報を担う音声符号化パラメータについては音声再符号化処理を施すことなく各通信端末に送信し、音声再符号化処理を施す音声符号化パラメータについては伝送レート制御機能に基づく縮退の量子化ビット制御を行った後に各会議端末に送信するので、主音声と副音声とが同時に発言した場合でも、副音声の符号化パラメータを縮退させることで、伝送レートを維持しつつ主音声の音声品質の劣化を極力抑えて伝送できるという効果が得られる。
【0088】
また、この実施の形態5によれば、実施の形態2と同様に、音声品質の劣化に対して影響の少ない利得符号帳インデックスの符号化パラメータを縮退させて、2話者が同時に発言した場合でも、音声品質の劣化を抑制できるという効果が得られる。また、音声品質の劣化に対して影響の少ない代数符号帳インデックスの符号化パラメータを縮退させて、2話者が同時に発言した場合でも、音声品質の劣化を抑制できるという効果が得られる。また、伝送レートに影響を与えることなく、特定の符号化パラメータをパススルーするか否かの符号化モード情報を符号化パラメータのフレームに含めることができるという効果が得られる。
【0089】
さらに、上記実施の形態2乃至実施の形態5によれば、実施の形態1と同様に、1対多または多対多の電話会議で想定される複数話者の同時発言や、高ノイズ環境下での発言、咳払い、相槌などの短区間の発言に対しても高品質な音声伝送を実現できるという効果が得られる。また、発言者の音声に固有な声帯振動数の繰り返し周期を表現する情報をそのまま伝送して、高品質な音声伝送を実現できるという効果が得られる。また、発言者の口腔や鼻腔等の声道を表現する情報をそのまま伝送して、高品質な音声伝送を実現できるという効果が得られる。
【0090】
なお、上記各実施の形態においては、通信端末として会議端末(電話機)を例に採ってこの発明を説明したが、通信端末の態様は会議端末に限定されない。例えば、複数種類の音声信号を異なるチャネルで同時に伝送する放送システムや有線放送システムにおいて、その音声信号を受信する複数の受信機を通信端末として適用し、受信機側で特定の1つのチャネル(例えば、主音声のチャネルまたは副音声のチャネル)を指定する構成にしてもよい。
【0091】
【発明の効果】
以上のように、この発明によれば、多地点制御装置の音声符号化伝送システムを、各通信端末から受信した符号化音声信号を復号して復号音声信号を生成し、復号音声信号が有音である通信端末を判定し、有音であると判定した通信端末の1つを指定し、その指定した通信端末の復号音声信号における複数種類の音声符号化パラメータのうち一部の音声符号化パラメータについては音声再符号化処理を施すことなく各通信端末に送信し、指定した通信端末の復号音声信号における複数種類の音声符号化パラメータのうち他の音声符号化パラメータおよび他の通信端末の復号音声信号における複数種類の音声符号化パラメータについては音声再符号化処理を施した後に各通信端末に送信するように構成したので、1対多または多対多の電話会議で想定される複数話者の同時発言や、高ノイズ環境下での発言、咳払い、相槌などの短区間の発言に対しても高品質な音声伝送を実現できるという効果がある。
【0092】
この発明によれば、多地点制御装置の音声符号化伝送システムを、1つの通信端末からの復号音声信号のみが有音である場合には1つの通信端末を指定し、その指定した通信端末の復号音声信号における一部の音声符号化パラメータについては音声再符号化処理を施すことなく各通信端末に送信するように構成したので、1対多または多対多の電話会議において高品質な音声伝送を実現できるという効果がある。
【0093】
この発明によれば、多地点制御装置の音声符号化伝送システムを、複数の通信端末に対して優先順位を設定し、復号音声信号が有音であると判定した通信端末が複数である場合にはその中で優先順位が最も高い1つの通信端末を指定し、その指定した通信端末の復号音声信号における一部の音声符号化パラメータについては音声再符号化処理を施すことなく各通信端末に送信するように構成したので、複数の会議端末の話者が同時に発言した場合でも、会議が混乱するのを回避できるという効果がある。
【0094】
この発明によれば、多地点制御装置の音声符号化伝送システムを、復号音声信号が有音であると判定した通信端末が複数である場合には先に音声信号を受信した先着順に優先順位を設定するように構成したので、無用な咳払い、相槌やルールを逸脱した割込み発言によって、会議の進行が乱されることがないという効果がある。
【0095】
この発明によれば、多地点制御装置の音声符号化伝送システムを、あらかじめ1つの特定の通信端末を優先的に指定して優先順位を設定するように構成したので、会議主催者や指名された司会進行役の発言を検知して、発言者が競合した場合でも、円滑な会議進行が可能になるという効果がある。
【0096】
この発明によれば、多地点制御装置の音声符号化伝送システムにおける一部の音声符号化パラメータを、ピッチ周期情報を担うパラメータであるように構成したので、発言者の音声に固有な声帯振動数の繰り返し周期を表現する情報をそのまま伝送して、高品質な音声伝送を実現できるという効果がある。
【0097】
この発明によれば、多地点制御装置の音声符号化伝送システムにおける一部の音声符号化パラメータを、スペクトル包絡情報を担うパラメータであるように構成したので、発言者の口腔や鼻腔等の声道を表現する情報をそのまま伝送して、高品質な音声伝送を実現できるという効果がある。
【0098】
この発明によれば、多地点制御装置の音声符号化伝送システムを、複数の通信端末から受信した復号音声信号が有音であると判定した場合には、有音の通信端末の数に応じて音声符号化パラメータのフレームのビット配分を適応的に設定するように構成したので、伝送速度が一定あるいはチャネルあたりの伝送速度に制限を受ける伝送網に対しても適用できるという効果がある。
【0099】
この発明によれば、多地点制御装置の音声符号化伝送システムを、複数の通信端末のうち優先順位が第1位の通信端末および第2位の通信端末から受信した復号音声信号が有音であると判定した場合には、第1位の通信端末の復号音声信号におけるピッチ周期情報およびスペクトル包絡情報をそれぞれ担う2つの音声符号化パラメータ並びに第2位の通信端末の復号音声信号におけるピッチ周期情報を担う音声符号化パラメータについては音声再符号化処理を施すことなく各通信端末に送信し、第1位および第2位の通信端末の復号音声信号において音声再符号化処理を施す音声符号化パラメータについては伝送レート制御機能に基づく縮退の量子化ビット制御を行った後に各通信端末に送信するように構成したので、2話者が同時に発言した場合でも、比較的良好な音声品質の伝送が可能になるという効果がある。
【0100】
この発明によれば、多地点制御装置の音声符号化伝送システムを、複数の通信端末のうち主音声の通信端末および副音声の通信端末から受信した復号音声信号が有音であると判定した場合には、主音声の通信端末の復号音声信号におけるピッチ周期情報およびスペクトル包絡情報をそれぞれ担う2つの音声符号化パラメータ並びに副音声の通信端末の復号音声信号におけるピッチ周期情報を担う音声符号化パラメータについては音声再符号化処理を施すことなく各通信端末に送信し、主音声および副音声の通信端末の復号音声信号において音声再符号化処理を施す音声符号化パラメータについては伝送レート制御機能に基づく縮退の量子化ビット制御を行った後に各通信端末に送信するように構成したので、主音声と副音声とが同時に発言した場合でも、副音声の符号化パラメータを縮退させることで、伝送レートを維持しつつ主音声の音声品質の劣化を極力抑えて伝送できるという効果がある。
【0101】
この発明によれば、多地点制御装置の音声符号化伝送システムにおける縮退の量子化ビット制御が行われる符号化パラメータを、利得符号帳であるように構成したので、音声品質の劣化に対して影響の少ない利得符号帳インデックスの符号化パラメータを縮退させて、2話者が同時に発言した場合でも、音声品質の劣化を抑制できるという効果がある。
【0102】
この発明によれば、多地点制御装置の音声符号化伝送システムにおける縮退の量子化ビット制御が行われる符号化パラメータを、雑音符号帳であるように構成したので、音声品質の劣化に対して影響の少ない代数符号帳インデックスの符号化パラメータを縮退させて、2話者が同時に発言した場合でも、音声品質の劣化を抑制できるという効果がある。
【0103】
この発明によれば、多地点制御装置の音声符号化伝送システムを、音声符号化パラメータについて音声再符号化処理を施した後に各通信端末に送信するかまたは音声再符号化処理を施すことなく各通信端末に送信するかを決定する符号化モード情報を所定ビット数からなる符号化パラメータのフレームに含めるように構成したので、伝送レートに影響を与えることなく、特定の符号化パラメータをパススルーするか否かの情報を符号化パラメータのフレームに含めることができるという効果がある。
【図面の簡単な説明】
【図1】この発明の実施の形態1による音声符号化伝送システムに適用した多地点制御装置の構成を示すブロック図である。
【図2】同実施の形態1における音声符号化パラメータ制御部の構成を示すブロック図である。
【図3】同実施の形態1における音声復号処理部の構成を示すブロック図である。
【図4】同実施の形態1における音声再符号化処理部の構成を示すブロック図である。
【図5】同実施の形態2における音声再生符号化処理部の構成を示すブロック図である。
【図6】同実施の形態2における会議端末の受信側の構成を示すブロック図である。
【図7】同実施の形態2における会議端末の音声復号処理部の構成を示すブロック図である。
【図8】同実施の形態2に係る音声符号化パラメータのフレーム構成を示す図である。
【図9】同実施の形態2に係る符号化パラメータの1フレームのビット割り当て例を示す説明図である。
【図10】同実施の形態3における多地点制御装置の構成を示すブロック図である。
【図11】同実施の形態3における音声符号化パラメータ制御部の構成を示すブロック図である。
【図12】同実施の形態4に係る音声符号化伝送システムに適用する多地点制御装置の構成を示すブロック図である。
【図13】同実施の形態4における音声符号化パラメータ制御部の構成を示すブロック図である。
【図14】同実施の形態5に係る音声符号化パラメータのフレーム構成を示す図である。
【図15】同実施の形態5に係る符号化パラメータの1フレームのビット割り当て例を示す説明図である。
【図16】従来のCELP方式に基づく音声符号化装置の構成を示すブロック図である。
【図17】従来の多地点制御装置の構成を示すブロック図である。
【図18】従来の多地点制御装置の他の構成を示すブロック図である。
【図19】従来のCELP系音声符号化装置の構成を示すブロック図である。
【符号の説明】
104 線形予測分析処理部、105 LSP量子化処理部、106 LSP量子化符号帳、108 多重化部、109 逆量子化処理部、110 適応符号帳、110b 第2の適応符号帳、111 代数符号帳(雑音符号帳)、112,116 加算器、113a,113b 利得制御増幅部、113c 利得制御増幅部、114 利得量子化符号帳、115 合成フィルタ、117 聴覚重み付フィルタ、118 歪最小化部、119,120 切替スイッチ、121 ピッチプレフィルタ、124 LPC・LSP変換部、125 利得MA予測部、126 多重分離部、127,128 制御増幅部、129 加算器、130 切替スイッチ、131a 適応符号帳、131b 利得復号部、132 復号利得MA予測部、133 代数符号復号部、134 ピッチプレフィルタ、135LSP復号部、136 LSP内挿部、137 LSP・LPC変換部、138 合成フィルタ、139 ポストフィルタ、140 符号化レート制御部、201 交換機、202 回線インタフェース部、203 声声復号処理部、204 音声検出部、205 雑音抑圧処理部、206 音声加算部、207 分配処理部、208 自端末音声減算部、209 自動利得制御部、210 音声再符号化処理部、211 音声符号化パラメータ制御部、212 セレクタ、213 分配処理部、214 発言者選択部、215 先着チャネル判定部、216
優先話者判定部、224 MCU制御部。[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a telephone conference (teleconference) using an encoded voice signal encoded based on an information source encoding scheme such as a code-excited linear prediction (hereinafter referred to as “CELP”) scheme. More specifically, the present invention relates to a multi-point control unit (hereinafter, referred to as “MCU”) applied to a system, and particularly to a multi-point control unit that re-encodes a decoded audio signal in response to a mixture of utterances by a large number of speakers. The present invention relates to a speech coded transmission system of a control device.
[0002]
[Prior art]
The MCU connects a plurality of communication terminals in various forms via a communication network, and receives and transmits information contents of different and different codes including video, audio, data, and the like handled by each communication terminal. It has been developed as an apparatus that provides a service of performing exchange and distribution processing in accordance with information content and delivering the processed information to a plurality of communication terminals. Typical applications are teleconferencing and videoconferencing systems. For audio transmission processing handled by the MCU, compression encoding is applied.
In recent years, as a technique for efficiently compressing and encoding voice in the telephone band, a technique based on an information source coding scheme such as the CELP scheme has been practically used mainly in fields such as digital mobile phones, international communications, and intra-company communications. Has been Among them, ITU-T Recommendation G. The CS-ACELP (Conjugate Structure-Algebraic CodeExcited Linear Prediction: Algebraic Code Excited Linear Prediction of Conjugate Structure) method used in G.729 and the GSM-AMR (Global System for Mobile-Regulation-Mime-Ratio-Mime-Ratio-Mobi-Ratio-Mobi-Ratio-Mobi. It has been adopted as a regional standard method.
[0003]
Among voice waves, especially voiced sounds are generated by adding resonance characteristics of a vocal tract such as an oral cavity and a nasal cavity to a vibration wave generated by vibration of a vocal cord. Originally, the CELP method is an encoding method that models such a human vocal mechanism. Here, the vocal cord vibration wave is represented by a pitch period representing a repetitive component thereof and a noise parameter representing a fluctuation component. In addition, the vocal tract transfer characteristics when the sound passes through the throat, mouth, and nose and the radiation characteristics of the lips are approximately expressed using a linear prediction method.
[0004]
In a specific CELP system, an adaptive codebook and a fixed codebook, which are basically two codebooks, are used, and an LSP quantized codebook (Line Spectral) is used. Pair quantification code book and gain quantization codebook are used. The adaptive codebook expresses a periodic signal component of a drive source signal, and a code that stores a previous drive source signal in a memory and is updated every frame period is often used. On the other hand, a random codebook expresses a non-periodic signal component that cannot be expressed by an adaptive codebook, and a fixed codebook of a plurality of typical signal patterns is often used. Since this type of noise codebook requires a large amount of memory to store a signal pattern, as an improved version, recently, an algebra that expresses an approximately aperiodic signal component with a small number of pulses has been developed. Codebooks have become popular. Further, the gain of the periodic / aperiodic component of the drive source signal is vector-quantized using a gain quantization codebook. Further, a linear prediction coefficient obtained as a result of the linear prediction analysis of the voice to be transmitted is converted into an LSP, and this is vector-quantized using an LSP quantization codebook.
[0005]
FIG. 16 is a block diagram showing a configuration example of a conventional speech coding apparatus based on the CS-ACELP system. In the figure, 604 is a linear prediction analysis processing unit, 605 is an LSP (Line Spectral Pair) quantization processing unit, 606 is an LSP quantization codebook, 608 is a multiplexing unit, 609 is an inverse quantization processing unit, and 610 is an adaptive code. Book, 611 is an algebraic codebook, 612 and 616 are adders, 613 is a gain control amplifier, 614 is a gain quantization codebook, 615 is a synthesis filter, 617 is an auditory weighting filter, 618 is a distortion minimizing section, and 624. Is an LPC (Linear Predictive Coding) LSP conversion unit.
[0006]
Next, the operation will be described.
The linear prediction
[0007]
Next, a case will be described in which the above-described encoding method is applied to a telephone conference device using an MCU, and one-to-many or many-to-many communication is performed.
FIG. 17 is a block diagram showing the configuration of a conventional MCU. In FIG. 17,
[0008]
Next, the operation will be described.
First, the coded voice received by the
[0009]
When the number N of conference participants increases, the background noise level also increases in proportion to N, and therefore, there is a problem that a decrease in the S / N ratio causes deterioration in speech quality. Therefore, the noise suppression processing unit 25 sets each of the speech channel and the silence channel according to the speech / silence detection result of each conference participant in order to reduce the noise input from the channel in the silence state. Each weight coefficient is determined based on the number of conference participants N, and noise control processing is performed to multiply the decoded voice signal by the weight coefficient. The
[0010]
The own-terminal
[0011]
A first problem of the system using the multipoint control device shown in FIG. 17 is that the voice quality is deteriorated due to repeated decoding and re-encoding (hereinafter, referred to as “tandem connection”). Since the audio encoding / decoding device based on the CELP method is lossy encoding, the decoded audio signal includes a quantization error. Furthermore, by connecting these in tandem, the quantization error is further accumulated in the re-encoding process, and the voice quality is degraded.
[0012]
As a method for solving this problem, for example, there is a technique disclosed in Japanese Patent Application Laid-Open No. 2000-174909 "Conference terminal control device". FIG. 18 is a block diagram showing a configuration of the multipoint control device (MCU). In the figure, 2a to 2m are demultiplexers, 4 is a speaker detection circuit, 6 is a first selector, 8a to 8n are decoders (speech decoding processing units), 10a to 10n are attenuation circuits, 12 is a synthesis circuit, and 14 is an encoder. (Audio re-encoding unit), 16 is a second selector, 18 is a distribution circuit.
[0013]
Next, the operation will be described.
When the MCU receives voice information from each conference terminal, voice / unvoiced signals are separated by the
[0014]
If there are two or more voiced conference terminals, the
[0015]
On the other hand, if there is only one conference terminal in the voiced state, the fact is transmitted to the
[0016]
When the MCU has the configuration shown in FIG. 18, in the case of a single speaker, all data of the coded voice is passed through, so that tandem connection is avoided and a low bit rate voice coding scheme can be used. High quality audio can be provided.
[0017]
As a second problem of the system using the multipoint control device shown in FIG. 17 described above, there is a deterioration factor peculiar to the information source coding process, that is, simultaneous utterances by a plurality of speakers. In this case, the deterioration is remarkable, and there is a problem that the hearing becomes hard to hear.
In the above-described conventional speech coding apparatus based on the CELP scheme, as shown in FIG. 16, coding is originally performed on the assumption that a single speaker speaks. That is, the vocal cord sound source (drive vector), vocal tract information (linear prediction coefficient), gain information, and the like are extracted in the encoding process and are quantized and transmitted. There is only one parameter indicating the feature amount of speech, and when transmitting mixed speech of a plurality of speakers, it cannot be encoded with high accuracy. For example, in the case of a mixed voice of a plurality of speakers, the vocal cord sound source includes a plurality of types of pitch period information different for each speaker, but there is no means for expressing the plurality of types of pitch periods. Also, in the case of a mixed voice of a plurality of speakers, the vocal tract information has a more complex spectral structure than that of a single speaker. Furthermore, a quantization pattern (quantization table) that faithfully expresses it is not prepared, and the error at the time of quantization tends to increase.
[0018]
As means for solving such a problem, for example, there is a method disclosed in Japanese Patent Application Laid-Open No. H10-240299, entitled "Speech Encoding and Decoding Device". FIG. 19 is a block diagram showing a configuration of a CELP speech encoding device disclosed in this publication. In the figure, 31 is a multi-speaker voice separation unit, 32 1 ~ 32 N Is the long-term predictor, 33 1 ~ 33 N Is a source codebook, 34 is a reflection coefficient analysis unit, 35 is a throat (throat) approximation filter, 36 1 ~ 36 N , 37 are an adder, 38 is a subtractor, and 39 is an error analyzer.
[0019]
Next, the operation will be described.
The multi-speaker
[0020]
On the other hand, the source speech A of each speaker separated by the multi-speaker
[0021]
[Problems to be solved by the invention]
Since the conventional voice coded transmission system of the multipoint control device is configured as described above, in order to avoid voice quality deterioration due to accumulation of quantization errors, when the method shown in FIG. 18 is used, There is a possibility that the
[0022]
Further, since the conventional voice coded transmission system of the multipoint control device is configured as described above, in order to avoid remarkable deterioration due to simultaneous utterances of a plurality of speakers, which is peculiar to the information source coding process, FIG. When the method described in (1) is used, the pitch period information must be prepared each time the number of speakers increases, and the bit rate increases in proportion to the increase in the number of speakers. There has been a problem that applicable transmission networks are limited, such as networks, for example, an asynchronous transmission network represented by an ATM network or an IP network.
[0023]
The present invention has been made in order to solve the above-mentioned problems, and has a simultaneous utterance of a plurality of speakers assumed in a one-to-many or many-to-many telephone conference, a utterance in a high noise environment, a coughing, It is an object of the present invention to obtain a voice coded transmission system of a multipoint control device capable of realizing high-quality voice transmission even for short sections such as a hammer.
It is another object of the present invention to provide a voice coded transmission system of a multipoint control device that can be applied to a transmission network in which the transmission speed is constant or the transmission speed per channel is limited.
[0024]
[Means for Solving the Problems]
A voice coded transmission system of a multipoint control device according to the present invention is connected to a plurality of communication terminals via a communication network, and receives and transmits a coded voice signal obtained by coding voice handled by each communication terminal. In the voice coded transmission system of the multi-point control device that performs predetermined processing according to the information content of these coded voice signals and distributes the processed coded voice signal to a plurality of communication terminals, Decoding the received encoded audio signal to generate a decoded audio signal, determining a communication terminal in which the decoded audio signal is voiced, specifying one of the communication terminals determined to be voiced, and specifying the specified communication terminal Some of the plurality of types of speech encoding parameters in the decoded speech signal of the communication terminal are transmitted to each communication terminal without performing speech re-encoding processing and designated. After performing a voice re-encoding process on the other voice coding parameters of the plurality of types of voice coding parameters in the decoded voice signal of the communication terminal and the plurality of types of voice coding parameters in the decoded voice signal of the other communication terminal. It is configured to transmit to each communication terminal.
[0025]
The voice coded transmission system of the multipoint control apparatus according to the present invention designates one communication terminal when only the decoded voice signal from one communication terminal has sound, and decodes the voice of the specified communication terminal. Some speech coding parameters in a signal are transmitted to each communication terminal without performing speech recoding processing.
[0026]
The voice encoding transmission system of the multipoint control device according to the present invention sets a priority order for a plurality of communication terminals, and when there are a plurality of communication terminals that have determined that the decoded voice signal is sound, the One of the communication terminals having the highest priority among the communication terminals is designated, and some of the speech encoding parameters in the decoded speech signal of the designated communication terminal are transmitted to each communication terminal without performing speech re-encoding processing. It is what was constituted.
[0027]
In the voice coded transmission system of the multipoint control device according to the present invention, when there are a plurality of communication terminals that have determined that the decoded voice signal has sound, the priority is set in the order of arrival of the voice signal first. It is configured as follows.
[0028]
The voice coded transmission system of the multipoint control device according to the present invention is configured so that one specific communication terminal is preferentially designated in advance and the priority is set.
[0029]
Some voice coding parameters in the voice coding transmission system of the multipoint control device according to the present invention are configured to be parameters carrying pitch period information.
[0030]
A part of speech encoding parameters in the speech encoding transmission system of the multipoint control device according to the present invention are configured to be parameters carrying spectrum envelope information.
[0031]
The voice coded transmission system of the multipoint control device according to the present invention, when it is determined that the decoded voice signals received from the plurality of communication terminals are voiced, the voice coding is performed according to the number of voiced communication terminals. It is configured to adaptively set the bit allocation of the frame of the parameterization parameter.
[0032]
In the voice coded transmission system of the multipoint control device according to the present invention, when the decoded voice signals received from the first and second communication terminals among the plurality of communication terminals are sound, If it is determined, the two speech coding parameters carry the pitch cycle information and the spectrum envelope information in the decoded speech signal of the first communication terminal and the pitch cycle information in the decoded speech signal of the second communication terminal. The voice coding parameter is transmitted to each communication terminal without performing the voice recoding process, and the voice coding parameter for performing the voice recoding process on the decoded voice signals of the first and second communication terminals is It is configured to perform degenerate quantization bit control based on a transmission rate control function, and then transmit to each communication terminal.
[0033]
The voice coded transmission system of the multipoint control apparatus according to the present invention is configured such that, when it is determined that the decoded voice signal received from the main voice communication terminal and the sub voice communication terminal among the plurality of communication terminals is sound, The two speech coding parameters that carry the pitch period information and the spectrum envelope information in the decoded speech signal of the main speech communication terminal and the speech coding parameter that carries the pitch period information in the decoded speech signal of the sub speech communication terminal Speech encoding parameters to be transmitted to each communication terminal without performing re-encoding processing and subjected to audio re-encoding processing in the decoded audio signals of the main audio and sub audio communication terminals are degenerated quantum based on the transmission rate control function. This is configured to transmit to each communication terminal after performing coded bit control.
[0034]
The encoding parameter for performing the degenerate quantization bit control in the speech encoding transmission system of the multipoint control device according to the present invention is configured to be a gain codebook.
[0035]
The encoding parameter for performing the degenerate quantization bit control in the speech encoding transmission system of the multipoint control apparatus according to the present invention is configured to be a noise codebook.
[0036]
The voice coded transmission system of the multipoint control device according to the present invention may be configured such that voice coded parameters are subjected to voice re-coding processing and then transmitted to each communication terminal or each communication terminal is not subjected to voice re-coding processing. The encoding mode information for deciding whether to transmit the data is transmitted in a frame of an encoding parameter having a predetermined number of bits.
[0037]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing a configuration of a multipoint control apparatus to which a voice coded transmission system according to
[0038]
The basic functions of the configuration of FIG. 1 are as follows.
Coded voice from each conference terminal (communication terminal) is received by the
[0039]
When the number N of conference participants increases, noise increases and the communication quality deteriorates. Therefore, the noise
[0040]
The own-terminal
[0041]
FIG. 2 is a block diagram showing a more detailed configuration of the speech coding
The basic functions of the configuration of FIG. 2 are as follows.
The
[0042]
FIG. 3 is a block diagram showing a more detailed configuration of the speech
[0043]
FIG. 4 is a block diagram illustrating a configuration of the audio
[0044]
Next, the operation will be described. Note that the speech coding scheme used for the description is described in ITU-T Recommendation G. 729 CS-ACELP.
The audio
[0045]
At this time, the voice
[0046]
Here, regarding the
[0047]
In the case where the speaker is not uniquely determined in the
[0048]
As described above, according to the first embodiment, some of the plurality of types of speech encoding parameters in the decoded speech signal of the designated conference terminal are not subjected to speech re-encoding processing. Among the plurality of types of speech encoding parameters transmitted to each communication terminal and in the decoded speech signal of the designated conference terminal, other speech encoding parameters, and a plurality of kinds of speech encoding parameters in the decoded speech signal of another communication terminal Is transmitted to each communication terminal after performing voice re-encoding processing, so simultaneous speeches of multiple speakers assumed in a one-to-many or many-to-many conference call, speeches in a high noise environment, It is possible to obtain an effect that high-quality voice transmission can be realized even for short sections such as coughing and companion speech.
[0049]
That is, by passing through some of the voice coding parameters, the main speaker (the speaker of the designated conference terminal) deteriorates by repeating decoding and re-encoding for the main voice coding parameters. Therefore, the main speaker can be reproduced with a sound quality close to the sound quality at the time of pass-through. Further, since the encoding parameter always passes through the audio re-encoding processing unit, even if frequent switching occurs, the effect of eliminating discontinuity in audio can be obtained. In addition, since the quality is always kept constant, an effect is obtained that the unnatural feeling due to the fluctuation of the voice quality is eliminated.
[0050]
Further, according to the first embodiment, some of the speech encoding parameters that pass through without performing speech re-encoding processing are parameters that carry pitch period information, and therefore, vocal cord vibrations specific to the speaker's speech. An effect is obtained in that information expressing a number of repetition periods is transmitted as it is, and high-quality voice transmission can be realized.
[0051]
Also, according to the first embodiment, some of the speech encoding parameters that pass through without performing speech re-encoding processing are parameters that carry spectral envelope information, and therefore, the voices of the speaker's oral cavity, nasal cavity, etc. An effect is obtained that the information expressing the road can be transmitted as it is to realize high quality voice transmission.
[0052]
In the second embodiment, the configuration corresponding to FIGS. 1 to 3 of the first embodiment is almost the same. However, in the second embodiment, the adaptive codebook index that is passed through from speech
[0053]
FIG. 6 is a block diagram showing the configuration of a telephone or conference terminal connected to the
[0054]
FIG. 7 is a block diagram showing a more detailed configuration of the audio
[0055]
FIG. 8 is an explanatory diagram showing an example of a frame configuration of encoding parameters in the case of one speaker, the case of two speakers, and the case of three speakers.
[0056]
Next, the operation will be described. Note that, as in the case of the first embodiment, the speech coding method used for the description is described in ITU-T Recommendation G. 729 CS-ACELP.
Switch 130 switches between inputting and not inputting the second-order adaptive codebook index from speech coding
[0057]
Hereinafter, the overall operation will be described with reference to FIGS.
Now, when there is only one speaker, the
[0058]
Also, when there is no speaker or three or more speakers speak at the same time, the
[0059]
On the other hand, when two speakers speak at the same time, the
[0060]
That is, the
[0061]
At the same time, the coding
[0062]
In this case, the encoding mode is set to two modes, the encoding mode of "one speaker's speech" and "three or more speakers 'is set to"
[0063]
In “
[0064]
On the other hand, in “
[0065]
In addition, regarding the degeneracy method of the algebraic codebook index, the ITU-T Recommendation G. 729 Annex D This is realized by using the method (11-bit quantization) described in section 5.8. As for the degeneration method of the gain codebook index, the first subframe is defined in ITU-T Recommendation G. Using the method (7-bit quantization) described in section 3.9 of the G.729 body, the second subframe is defined in ITU-T Recommendation G.323. 729 Annex D This is realized by using the method (6-bit quantization) described in section 5.9.
[0066]
The
[0067]
Therefore, when a frame whose encoding mode information is 0 is received, the
[0068]
On the other hand, when the frame of which the encoding mode information is 1 is received, the
[0069]
As described above, according to the second embodiment, when it is determined that the decoded audio signals received from the plurality of conference terminals are voiced, the encoding parameter is determined according to the number of voiced conference terminals. Since the bit allocation of the frame is adaptively set, an effect is obtained that the present invention can be applied to a transmission network where the transmission speed is constant or the transmission speed per channel is limited.
[0070]
Further, according to the second embodiment, the decoded voice signals received from the first speaker of the conference terminal having the first priority and the second speaker of the conference terminal having the second priority among the plurality of conference terminals are provided. If it is determined that there is speech, a speech coding parameter consisting of a first-order adaptive codebook index, which is the pitch period information in the decoded speech signal of the first speaker, and an LSP codebook index, which is the spectrum envelope information. , And a speech encoding parameter consisting of a second-order adaptive codebook index, which is pitch period information in the decoded speech signal of the second speaker, is passed through to each conference terminal without performing speech re-encoding processing. Since the transmission is performed, even if two speakers speak at the same time, an effect of enabling transmission of relatively good voice quality can be obtained.
[0071]
Further, according to the second embodiment, since the degenerate quantization bit control based on the transmission rate control function is performed on the voice coding parameter for performing the voice re-encoding process, the voice quality is not affected by the deterioration of the voice quality. Each of the conference terminals is degenerated by reducing a small number of encoding parameters, and performing a speech re-encoding process on a speech encoding parameter including a second-order adaptive codebook index which is pitch period information in a decoded speech signal of a second speaker. , The effect of suppressing deterioration of voice quality can be obtained even when two speakers speak at the same time.
[0072]
Further, according to the second embodiment, since the coding parameter for which the degenerate quantization bit control is performed is the gain codebook index which is the excitation gain, the gain codebook index which has little effect on the deterioration of voice quality Thus, even if two speakers speak at the same time, it is possible to suppress the deterioration of voice quality.
[0073]
Further, according to the second embodiment, since the coding parameter for performing the degenerate quantization bit control is the algebraic codebook index which is a noise codebook, the algebraic codebook having little effect on the deterioration of speech quality. An effect is obtained in which even if two speakers speak at the same time by degenerating the encoding parameter of the index, deterioration in voice quality can be suppressed.
[0074]
Further, according to the second embodiment, the audio coding parameter is transmitted to each conference terminal after performing the audio re-encoding process, or is passed through each conference terminal without performing the audio re-encoding process. Since 1-bit coding mode information for determining whether to transmit is included in a frame of 80-bit coding parameters, information on whether to pass through a specific coding parameter without affecting the transmission rate. Can be included in the frame of the encoding parameter.
[0075]
FIG. 10 is a block diagram illustrating a configuration of a multipoint control apparatus according to
[0076]
Next, the operation will be described.
When the speakers compete, the first-arrival
[0077]
As described above, according to the third embodiment, priorities are set for a plurality of conference terminals, and when there are a plurality of conference terminals that have determined that the decoded audio signal is a sound, among them, Since one conference terminal having the highest priority is designated, and some of the speech encoding parameters in the decoded speech signal of the designated conference terminal are transmitted to each communication terminal without performing speech re-encoding processing, a plurality of This makes it possible to avoid confusion in the conference even when the speakers of the conference terminal speak simultaneously.
[0078]
Further, according to the third embodiment, if there are a plurality of conference terminals that have determined that the decoded audio signal is sound, priority is set in the order of arrival of the audio signal first, so that unnecessary This has the effect that the progress of the conference is not disturbed by coughing, a hammering, or an interrupted speech that deviates from the rules.
[0079]
FIG. 12 is a block diagram showing a multipoint control device and another configuration according to
[0080]
Next, the operation will be described.
For example, the conference organizer registers the channel of the conference organizer or the channel of the designated moderator via the
[0081]
As described above, according to the fourth embodiment, one specific conference terminal is specified preferentially in advance, and the specific conference terminal is included in the plurality of conference terminals that have been determined to have sound in the decoded audio signal. Is included, a part of the speech encoding parameters in the decoded speech signal of the specific conference terminal is transmitted through each conference terminal without performing speech re-encoding processing, so that the conference host In this case, the speech of the speaker or the nominating facilitator is detected, and even if the speakers compete with each other, the effect is obtained that the conference can be smoothly performed.
[0082]
FIGS. 14 and 15 are explanatory diagrams showing the frame configuration of the encoding parameters according to
[0083]
Next, the operation will be described. As in the second embodiment, the speech coding method used for the description is also the same as in the second embodiment. 729 CS-ACELP system. In FIG. 1, according to the detection result of the
[0084]
That is, in “
[0085]
As for the degeneration method of the algebraic codebook index, the ITU-T Recommendation G. 729 Annex D The method (11-bit quantization) described in section 5.8 is used, and the ITU-T recommendation G. This is realized using the method (17-bit quantization) described in section 3.8 of the G.729 body. As for the degeneration method of the gain codebook index, both the first subframe and the second subframe conform to ITU-T Recommendation G.264. 729 Annex D This is realized by using the method (6-bit quantization) described in section 5.9.
[0086]
By the way, channels used in the telephone conference system are composed of a main audio and a sub audio. In this case, the main voice is the voice of the speaker, and the sub-voice is, for example, a simultaneous translation for the voice of the speaker. Therefore, in the priority
[0087]
As described above, according to the fifth embodiment, when it is determined that the decoded audio signals received from the main audio and sub audio conference terminals are sound, the decoded audio signals of the main audio conference terminal are determined. Two speech coding parameters each carrying pitch cycle information and spectrum envelope information, and speech coding parameters carrying pitch cycle information in a decoded speech signal of a sub-speech conference terminal, are not subjected to speech re-encoding processing. Speech encoding parameters to be transmitted to the communication terminal and subjected to audio re-encoding are transmitted to each conference terminal after performing degenerate quantization bit control based on the transmission rate control function, so that the main audio and the sub audio are Even when speaking at the same time, the coding parameters of the sub-speech are degenerated, minimizing the deterioration of the speech quality of the main speech while maintaining the transmission rate. Effect of transmission is obtained.
[0088]
Further, according to the fifth embodiment, similarly to the second embodiment, when the coding parameters of the gain codebook index which have little effect on the deterioration of voice quality are degenerated, and two speakers speak simultaneously However, the effect that the deterioration of the voice quality can be suppressed can be obtained. In addition, it is possible to obtain an effect that the coding parameters of the algebraic codebook index having little effect on the deterioration of the voice quality are degenerated, and the deterioration of the voice quality can be suppressed even when two speakers speak simultaneously. Further, an effect is obtained that the encoding mode information indicating whether or not to pass through a specific encoding parameter can be included in the frame of the encoding parameter without affecting the transmission rate.
[0089]
Further, according to the second to fifth embodiments, as in the first embodiment, simultaneous utterances of a plurality of speakers assumed in a one-to-many or many-to-many telephone conference, or in a high-noise environment. This makes it possible to achieve high-quality voice transmission even for short-term speeches such as speeches, coughing, and hammering. Further, there is an effect that information expressing the repetition period of the vocal cord frequency unique to the speaker's voice is transmitted as it is, and high-quality voice transmission can be realized. Further, there is an effect that information expressing the vocal tract such as the oral cavity and nasal cavity of the speaker is transmitted as it is, and high-quality voice transmission can be realized.
[0090]
Note that, in each of the above embodiments, the present invention has been described using a conference terminal (telephone) as an example of a communication terminal, but the form of the communication terminal is not limited to the conference terminal. For example, in a broadcasting system or a cable broadcasting system that simultaneously transmits a plurality of types of audio signals on different channels, a plurality of receivers that receive the audio signals are applied as communication terminals, and a specific one channel (for example, , A main audio channel or a sub audio channel).
[0091]
【The invention's effect】
As described above, according to the present invention, the voice coded transmission system of the multipoint control device decodes the coded voice signal received from each communication terminal to generate a decoded voice signal, and the decoded voice signal is Is determined, and one of the communication terminals determined to have sound is designated, and some of the speech encoding parameters of a plurality of types of speech encoding parameters in the decoded speech signal of the designated communication terminal are determined. Is transmitted to each communication terminal without performing voice re-encoding processing, and among a plurality of types of voice coding parameters in the decoded voice signal of the designated communication terminal, other voice coding parameters and decoded voice of another communication terminal Since a plurality of types of voice coding parameters in a signal are transmitted to each communication terminal after performing voice recoding processing, a one-to-many or many-to-many telephone conference A plurality of speakers simultaneously speaking of contemplated and, speaking in a high noise environment, throat clearing, there is an effect that it also provides high-quality voice transmission against remarks short interval, such as back-channel feedback.
[0092]
According to the present invention, the speech coded transmission system of the multipoint control device designates one communication terminal when only the decoded speech signal from one communication terminal has sound, and specifies the communication terminal of the designated communication terminal. Since a part of the voice coding parameter in the decoded voice signal is transmitted to each communication terminal without performing voice re-encoding processing, high quality voice transmission in a one-to-many or many-to-many telephone conference is performed. There is an effect that can be realized.
[0093]
According to the present invention, the voice coded transmission system of the multipoint control apparatus sets a priority order for a plurality of communication terminals, and when there are a plurality of communication terminals that have determined that the decoded voice signal is sound. Designates one communication terminal having the highest priority among them, and transmits some of the speech coding parameters in the decoded speech signal of the designated communication terminal to each communication terminal without performing speech re-encoding processing. Therefore, even when speakers of a plurality of conference terminals speak simultaneously, there is an effect that the conference can be prevented from being confused.
[0094]
According to the present invention, when there are a plurality of communication terminals that determine that the decoded audio signal is sound, the voice encoding transmission system of the multipoint control device assigns the priority in the order of arrival of the audio signal received first. Since the setting is made, there is an effect that the progress of the conference is not disturbed by useless coughing, a hammering, or an interrupt message deviating from the rules.
[0095]
According to the present invention, the voice coded transmission system of the multipoint control device is configured such that one specific communication terminal is preferentially designated in advance and the priorities are set. There is an effect that even if a speaker competes by detecting a moderator's statement, a smooth conference can be performed.
[0096]
According to the present invention, some of the voice coding parameters in the voice coding and transmission system of the multipoint control device are configured to be parameters that carry pitch period information, so that the vocal cord frequency inherent to the voice of the speaker There is an effect that high-quality voice transmission can be realized by transmitting the information expressing the repetition cycle of this as it is.
[0097]
According to the present invention, since some of the speech encoding parameters in the speech encoding transmission system of the multipoint control device are configured to be parameters carrying spectrum envelope information, the vocal tract such as the oral cavity and nasal cavity of the speaker can be obtained. Is transmitted as it is, and high quality voice transmission can be realized.
[0098]
According to the present invention, when it is determined that the decoded audio signal received from the plurality of communication terminals is sound, the voice coded transmission system of the multipoint control device determines the number of the voice communication terminals according to the number of voice communication terminals. Since the configuration is such that the bit allocation of the frame of the voice coding parameter is set adaptively, there is an effect that the present invention can be applied to a transmission network where the transmission speed is constant or the transmission speed per channel is limited.
[0099]
According to the present invention, the voice coded transmission system of the multipoint control device is configured to transmit the decoded voice signal received from the communication terminal having the first priority and the communication terminal having the second priority among the plurality of communication terminals with sound. If it is determined that there are, two speech coding parameters respectively carrying the pitch cycle information and the spectrum envelope information in the decoded speech signal of the first communication terminal and the pitch cycle information in the decoded speech signal of the second communication terminal Are transmitted to each communication terminal without performing a voice re-encoding process, and a voice coding parameter for performing a voice re-coding process on the decoded voice signals of the first and second-rank communication terminals. Is transmitted to each communication terminal after performing degenerate quantization bit control based on the transmission rate control function, so that two speakers speak simultaneously. Even if there is an effect that it is possible to relatively good voice quality transmission.
[0100]
According to the present invention, when the voice coded transmission system of the multipoint control device determines that the decoded voice signal received from the main voice communication terminal and the sub voice communication terminal among the plurality of communication terminals is sound, There are two speech encoding parameters that respectively carry the pitch period information and the spectrum envelope information in the decoded speech signal of the main speech communication terminal, and the speech encoding parameter that carries the pitch period information in the decoded speech signal of the sub speech communication terminal. Is transmitted to each communication terminal without performing audio re-encoding processing, and the audio encoding parameters for performing audio re-encoding processing on the decoded audio signals of the main audio and sub audio communication terminals are degenerated based on the transmission rate control function. Is transmitted to each communication terminal after performing the quantization bit control of the main voice and the sub-voice simultaneously. Even if, by degenerating the coding parameters of the sub-audio, there is an effect that can be transmitted minimizing the degradation of the voice quality of the main voice while maintaining the transmission rate.
[0101]
According to the present invention, since the encoding parameter for performing the degenerate quantization bit control in the audio encoding transmission system of the multipoint control device is configured to be a gain codebook, it has an effect on the degradation of audio quality. Thus, there is an effect that even if two speakers speak at the same time, the deterioration of the voice quality can be suppressed even if the encoding parameters of the gain codebook index with less number are degenerated.
[0102]
According to the present invention, since the encoding parameter for performing the degenerate quantization bit control in the audio encoding transmission system of the multipoint control device is configured to be a noise codebook, it has an effect on the degradation of audio quality. In this case, the coding parameters of the algebraic codebook index with less number are degenerated, so that even if two speakers speak at the same time, there is an effect that the deterioration of the voice quality can be suppressed.
[0103]
According to the present invention, the voice coded transmission system of the multipoint control apparatus transmits the voice coded parameters to the respective communication terminals after performing the voice coded process or performs the voice coded process without performing the voice recoded process. Since the encoding mode information for deciding whether to transmit to the communication terminal is configured to be included in the frame of the encoding parameter consisting of a predetermined number of bits, it is possible to pass through a specific encoding parameter without affecting the transmission rate. There is an effect that the information of whether or not it can be included in the frame of the encoding parameter.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a multipoint control device applied to a speech coded transmission system according to
FIG. 2 is a block diagram showing a configuration of a speech coding parameter control unit according to the first embodiment.
FIG. 3 is a block diagram illustrating a configuration of an audio decoding processing unit according to the first embodiment.
FIG. 4 is a block diagram showing a configuration of a speech re-encoding processing unit according to the first embodiment.
FIG. 5 is a block diagram showing a configuration of an audio reproduction encoding processing unit according to the second embodiment.
FIG. 6 is a block diagram showing a configuration on a receiving side of the conference terminal according to the second embodiment.
FIG. 7 is a block diagram showing a configuration of an audio decoding processing unit of the conference terminal according to the second embodiment.
FIG. 8 is a diagram showing a frame configuration of speech coding parameters according to
FIG. 9 is an explanatory diagram showing an example of bit assignment of one frame of an encoding parameter according to
FIG. 10 is a block diagram showing a configuration of a multipoint control device according to the third embodiment.
FIG. 11 is a block diagram showing a configuration of a speech coding parameter control unit according to the third embodiment.
FIG. 12 is a block diagram showing a configuration of a multipoint control device applied to the speech coded transmission system according to
FIG. 13 is a block diagram showing a configuration of a speech coding parameter control unit according to the fourth embodiment.
FIG. 14 is a diagram showing a frame configuration of speech coding parameters according to
FIG. 15 is an explanatory diagram showing an example of bit assignment of one frame of an encoding parameter according to the fifth embodiment.
FIG. 16 is a block diagram illustrating a configuration of a conventional speech encoding device based on the CELP scheme.
FIG. 17 is a block diagram illustrating a configuration of a conventional multipoint control device.
FIG. 18 is a block diagram showing another configuration of a conventional multipoint control device.
FIG. 19 is a block diagram illustrating a configuration of a conventional CELP-based speech encoding device.
[Explanation of symbols]
104 linear prediction analysis processing unit, 105 LSP quantization processing unit, 106 LSP quantization codebook, 108 multiplexing unit, 109 inverse quantization processing unit, 110 adaptive codebook, 110b second adaptive codebook, 111 algebraic codebook (Noise codebook), 112, 116 adders, 113a, 113b gain control amplifier, 113c gain control amplifier, 114 gain quantization codebook, 115 synthesis filter, 117 auditory weighting filter, 118 distortion minimizing unit, 119 , 120 selector switch, 121 pitch pre-filter, 124 LPC / LSP converter, 125 gain MA predictor, 126 demultiplexer, 127, 128 control amplifier, 129 adder, 130 switch, 131a adaptive codebook, 131b gain Decoding section, 132 Decoding gain MA prediction section, 133 algebraic code decoding section, 134 pitch pref Filter, 135 LSP decoding section, 136 LSP interpolation section, 137 LSP / LPC conversion section, 138 synthesis filter, 139 post filter, 140 coding rate control section, 201 switch, 202 line interface section, 203 voice decoding processing section, 204 Voice detection section, 205 noise suppression processing section, 206 voice addition section, 207 distribution processing section, 208 own terminal voice subtraction section, 209 automatic gain control section, 210 voice recoding processing section, 211 voice coding parameter control section, 212 Selector, 213 distribution processing unit, 214 speaker selection unit, 215 first-arrival channel determination unit, 216
Priority speaker determination unit, 224 MCU control unit.
Claims (13)
各通信端末から受信した符号化音声信号を復号して復号音声信号を生成し、
復号音声信号が有音である通信端末を判定し、
有音であると判定した通信端末の1つを指定し、
その指定した通信端末の復号音声信号における複数種類の音声符号化パラメータのうち一部の音声符号化パラメータについては音声再符号化処理を施すことなく前記各通信端末に送信し、
前記指定した通信端末の復号音声信号における複数種類の音声符号化パラメータのうち他の音声符号化パラメータおよび他の通信端末の復号音声信号における複数種類の音声符号化パラメータについては音声再符号化処理を施した後に前記各通信端末に送信することを特徴とする多地点制御装置の音声符号化伝送システム。A plurality of communication terminals are connected via a communication network, and coded voice signals obtained by coding voice handled by each communication terminal are to be received and transmitted, and predetermined processing is performed according to the information content of these coded voice signals. In the voice coded transmission system of the multipoint control device that distributes the coded voice signal processed to the plurality of communication terminals,
Decoding the encoded audio signal received from each communication terminal to generate a decoded audio signal,
Determining the communication terminal in which the decoded audio signal has sound,
Designate one of the communication terminals determined to be sound,
Of the plurality of types of speech encoding parameters in the decoded speech signal of the specified communication terminal, some of the speech encoding parameters are transmitted to the respective communication terminals without performing speech re-encoding processing,
The voice re-encoding process is performed on the plurality of types of voice encoding parameters in the decoded voice signal of the specified communication terminal and the plurality of types of voice coding parameters in the decoded voice signal of the other communication terminal out of the plurality of types of voice coding parameters. The voice coded transmission system of the multipoint control device, wherein the voice coded transmission system transmits the data to each of the communication terminals after the transmission.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002208664A JP4108396B2 (en) | 2002-07-17 | 2002-07-17 | Speech coding transmission system for multi-point control equipment |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002208664A JP4108396B2 (en) | 2002-07-17 | 2002-07-17 | Speech coding transmission system for multi-point control equipment |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004053763A true JP2004053763A (en) | 2004-02-19 |
JP4108396B2 JP4108396B2 (en) | 2008-06-25 |
Family
ID=31932748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002208664A Expired - Fee Related JP4108396B2 (en) | 2002-07-17 | 2002-07-17 | Speech coding transmission system for multi-point control equipment |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4108396B2 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011518484A (en) * | 2008-03-31 | 2011-06-23 | エコスター テクノロジーズ エル.エル.シー. | Data transfer system, method and apparatus via voice channel of wireless telephone network |
US8867571B2 (en) | 2008-03-31 | 2014-10-21 | Echostar Technologies L.L.C. | Systems, methods and apparatus for transmitting data over a voice channel of a wireless telephone network |
US9521460B2 (en) | 2007-10-25 | 2016-12-13 | Echostar Technologies L.L.C. | Apparatus, systems and methods to communicate received commands from a receiving device to a mobile device |
CN113366568A (en) * | 2019-01-17 | 2021-09-07 | 日本电信电话株式会社 | Multipoint control method, device and program |
US11742490B2 (en) | 2017-03-14 | 2023-08-29 | Murata Manufacturing Co., Ltd. | Positive electrode, battery, battery pack, electronic device, electric motor vehicle, power storage device, and power system |
-
2002
- 2002-07-17 JP JP2002208664A patent/JP4108396B2/en not_active Expired - Fee Related
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9521460B2 (en) | 2007-10-25 | 2016-12-13 | Echostar Technologies L.L.C. | Apparatus, systems and methods to communicate received commands from a receiving device to a mobile device |
JP2011518484A (en) * | 2008-03-31 | 2011-06-23 | エコスター テクノロジーズ エル.エル.シー. | Data transfer system, method and apparatus via voice channel of wireless telephone network |
US8867571B2 (en) | 2008-03-31 | 2014-10-21 | Echostar Technologies L.L.C. | Systems, methods and apparatus for transmitting data over a voice channel of a wireless telephone network |
US9743152B2 (en) | 2008-03-31 | 2017-08-22 | Echostar Technologies L.L.C. | Systems, methods and apparatus for transmitting data over a voice channel of a wireless telephone network |
US11742490B2 (en) | 2017-03-14 | 2023-08-29 | Murata Manufacturing Co., Ltd. | Positive electrode, battery, battery pack, electronic device, electric motor vehicle, power storage device, and power system |
CN113366568A (en) * | 2019-01-17 | 2021-09-07 | 日本电信电话株式会社 | Multipoint control method, device and program |
Also Published As
Publication number | Publication date |
---|---|
JP4108396B2 (en) | 2008-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4518714B2 (en) | Speech code conversion method | |
CN108352162B (en) | Method and system for encoding a stereo sound signal using encoding parameters of a primary channel to encode a secondary channel | |
US20030093268A1 (en) | Frequency domain formant enhancement | |
JP5153791B2 (en) | Stereo speech decoding apparatus, stereo speech encoding apparatus, and lost frame compensation method | |
JP4263412B2 (en) | Speech code conversion method | |
KR20060131851A (en) | Communication device, signal encoding/decoding method | |
KR20090035728A (en) | Voice mixing method, multipoint conference server using the method, and program | |
JP2008026914A (en) | Fidelity-optimized variable frame length encoding | |
WO2006118179A1 (en) | Audio encoding device and audio encoding method | |
JPH0962299A (en) | Code exciting linear predictive coding device | |
AU727706B2 (en) | Repetitive sound compression system | |
US7443978B2 (en) | Method and apparatus for audio coding with noise suppression | |
WO2003036615A1 (en) | Lpc-to-melp transcoder | |
JP4558734B2 (en) | Signal decoding device | |
WO2008069614A1 (en) | Apparatus and method for coding audio data based on input signal distribution characteristics of each channel | |
JPH08305398A (en) | Voice decoding device | |
JP4108396B2 (en) | Speech coding transmission system for multi-point control equipment | |
JP4236675B2 (en) | Speech code conversion method and apparatus | |
Ding | Wideband audio over narrowband low-resolution media | |
JP3649854B2 (en) | Speech encoding device | |
JP4985743B2 (en) | Speech code conversion method | |
JP2001249700A (en) | Voice encoding device and voice decoding device | |
CA2235275C (en) | Repetitive sound compression system | |
JPH08139688A (en) | Voice encoding device | |
AU2814701A (en) | Repetitive sound compression system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050627 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20071030 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20071030 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071030 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080304 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080402 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110411 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |