JP4108396B2 - 多地点制御装置の音声符号化伝送システム - Google Patents

多地点制御装置の音声符号化伝送システム Download PDF

Info

Publication number
JP4108396B2
JP4108396B2 JP2002208664A JP2002208664A JP4108396B2 JP 4108396 B2 JP4108396 B2 JP 4108396B2 JP 2002208664 A JP2002208664 A JP 2002208664A JP 2002208664 A JP2002208664 A JP 2002208664A JP 4108396 B2 JP4108396 B2 JP 4108396B2
Authority
JP
Japan
Prior art keywords
speech
encoding
voice
communication terminal
decoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002208664A
Other languages
English (en)
Other versions
JP2004053763A (ja
Inventor
久 矢島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2002208664A priority Critical patent/JP4108396B2/ja
Publication of JP2004053763A publication Critical patent/JP2004053763A/ja
Application granted granted Critical
Publication of JP4108396B2 publication Critical patent/JP4108396B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Time-Division Multiplex Systems (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、符号励振線形予測(Code Excited Linear Prediction:以下、「CELP」とする)方式をはじめとする情報源符号化方式に基づき符号化された符号化音声信号を用いる電話会議(テレビ会議)システムに適用される多地点制御装置(Multi-point Control Unit:以下、「MCU」とする)に関し、特に、多数話者による発言の混在に対応して復号した音声信号を再符号化する多地点制御装置の音声符号化伝送システムに関するものである。
【0002】
【従来の技術】
MCUは、通信ネットワークを介して複数の通信端末を種々の形態で接続し、各通信端末で取り扱われる映像、音声、データ等からなる異種かつ異符号の情報内容を受信および送信の対象とし、各情報内容に合致して交換および分配の処理を施し、処理した情報を複数の通信端末に配信するサービスを提供する装置として開発されてきた。その典型的な適用例は電話会議やテレビ会議のシステムである。MCUで扱う音声の伝送処理については、圧縮符号化が適用されている。
近年、電話帯域の音声を高能率に圧縮符号化する手法として、CELP方式をはじめとした情報源符号化方式に基づくものが、主にデジタル携帯電話、国際通信、企業内通信等の分野で実用化されている。その中でも、ITU−T勧告G.729で使用されるCS−ACELP(Conjugate Structure - Algebraic Code Excited Linear Prediction :共役構造の代数符号励振線形予測)方式やGSM−AMR(Global System for Mobile communications - Adaptive Multi-Rate)方式等が、国際標準または地域標準方式として採用されている。
【0003】
音声波の中で、特に有声音は、声帯の振動により発生する振動波に、口腔や鼻腔等の声道の共振特性が加わって生じるものである。元来、CELP方式はこのような人間の発声機構をモデル化した符号化方式である。そこでは、声帯振動波は、その繰り返し成分を表現するピッチ周期や、変動成分を表現する雑音パラメータで表現する。また、喉、口、鼻を音声が通過する際の声道伝達特性や、唇の放射特性については、線形予測の手法を用いて近似的に表現される。
【0004】
具体的なCELP方式においては、基本的に2つの符号帳(code book)である適応符号帳(adaptive code book)および雑音符号帳(fixed code book)を用いるほか、LSP量子化符号帳(Line Spectral Pair quantization code book)、利得量子化符号帳(gain quantization code book)を用いる。適応符号帳は、駆動源信号の周期的な信号成分を表現するものであり、過去の駆動源信号をメモリに蓄積し、フレーム周期毎に更新されるものがよく用いられる。一方、雑音符号帳は、適応符号帳では表現できない非周期的な信号成分を表現するものであり、複数の典型的な信号パターンを固定的に蓄積したものがよく用いられる。なお、このタイプの雑音符号帳は、信号パターンを蓄積するためのメモリ量が膨大になるため、その改良版として、近年、少ない本数のパルスで近似的に非周期的な信号成分を表現する代数符号帳が、よく用いられるようになってきた。また、駆動源信号の周期的・非周期的成分の利得は、利得量子化符号帳を用いてベクトル量子化する。さらに、送信すべき音声を線形予測分析した結果得られた線形予測係数をLSPに変換し、これをLSP量子化符号帳を用いてベクトル量子化する。
【0005】
図16は従来のCS−ACELP方式に基づく音声符号化装置の構成例を示すブロック図である。図において、604は線形予測分析処理部、605はLSP(Line Spectral Pair)量子化処理部、606はLSP量子化符号帳、608は多重化部、609は逆量子化処理部、610は適応符号帳、611は代数符号帳、612,616は加算器、613は利得制御増幅部、614は利得量子化符号帳、615は合成フィルタ、617は聴覚重み付フィルタ、618は歪最小化部、624はLPC(Linear Predictive Coding)・LSP変換部である。
【0006】
次に動作について説明する。
線形予測分析処理部604は音声入力からLSPパラメータを得るが、このLSPパラメータは直接LSP量子化処理部605に入力され、LSP量子化符号帳606を参照して符号化される。符号化されたLSPパラメータ(符号帳インデックス)は、逆量子化処理部609に送出されると共に、多重化部608にも送られる。逆量子化処理部609では、符号化されたLSPパラメータ(符号帳インデックス)を基にLSP量子化符号帳606を参照して得られたLSP係数を用いて線形予測係数を計算し、合成フィルタ615に供給する。この合成フィルタ615を含み、適応符号帳610、代数符号帳611、加算器612,616、利得制御増幅部613、利得量子化符号帳614、聴覚重み付フィルタ617で構成される処理ブロック群にて、適応符号帳610、代数符号帳611、及び利得量子化符号帳614の組み合わせを変えることで、複数の音声波形を合成する。歪最小化部618において、これらの複数の合成音声波形と入力信号波形との聴覚重み付けエラー電力(=自乗誤差)を計算し、その中でエラー電力を最小とする適応符号帳610、代数符号帳611、及び利得量子化符号帳614の組み合わせを選択する。いわゆるA−b−S(Analysis by Synthesis)法に基づき音声符号化処理が実行される。このようにして量子化された符号化パラメータ(適応符号帳610、代数符号帳611、及び利得量子化符号帳614等)と、先にLSP量子化処理部605で量子化された量子化パラメータは、多重化部608により多重化された後、復号器側に送られる。
【0007】
次に、上記符号化方式を、MCUを用いた電話会議装置に適用し、1対多、または多対多の通話を行った場合について述べる。
図17は従来のMCUの構成を示すブロック図であり、図において、20は会議端末を構成する電話器、21は交換機、22は回線インタフェース部、23は音声復号処理部、24は音声検出部、25は雑音抑圧部、26は音声加算部、27は分配処理部、28は自端末音声減算部、29は自動利得制御部、30は音声再符号化処理部である。
【0008】
次に動作について説明する。
まず、回線インタフェース部22にて受信された符号化音声は、音声復号処理部23によりチャネル毎に音声信号に復号される。復号された音声信号は、会議端末20からのそれぞれについて、音声検出部24により有音/無音の状態が検出される。この検出結果は、音声加算部26における加算対象端末の決定、雑音抑圧処理部25の雑音抑圧のための重み付け、自動利得制御部29による音声レベルの自動調整のために用いられる。
【0009】
会議参加者数Nが多くなると、背景ノイズレベルもNに比例して大きくなるため、SN比の低下により通話品質の劣化を招くという問題がある。そこで、雑音抑圧処理部25では、無音状態にあるチャネルから入力されてくる雑音を小さくするために、各会議参加者の有音/無音の検出結果に従って有音チャネルと無音チャネルのそれぞれに対して会議参加者数Nに基づく各重み係数を決定し、この重み係数をそれぞれの復号音声信号に掛ける雑音制御処理を行う。音声加算部26では、音声検出部24の検出結果を参照して、加算すべきチャネルの雑音制御処理された復号音声信号を加算する。加算された復号音声信号は、分配処理部27において、各チャネルに再分配される。
【0010】
自端末音声減算部28では、自端末の音声信号の回りこみによるエコーを抑圧し、聴感上のわずらわしさを解消するため、加算された復号音声信号から自端末の信号を減算する。また、多地点の電話会議システムにおいては、多人数の音声を加算することによる飽和歪みを起こす可能性があるため、自動利得制御部29にて、飽和歪みを防ぎ、なおかつ個人や全体の音声レベルを調整する。自動利得制御部29の出力信号は、音声再符号化処理部30にて符号化されて回線に出力される。
【0011】
図17に示された多地点制御装置によるシステムの第1の問題点として、復号・再符号化が繰り返されること(以下、「タンデム接続」という)による音声品質の劣化が挙げられる。CELP方式に基づく音声符号化・復号装置は、非可逆符号化であるため、復号された音声信号は量子化誤差を含んでいる。さらに、これをタンデム接続することにより、再符号化処理にて量子化誤差がさらに蓄積されるため、音声品質の劣化となる。
【0012】
この問題を解決する方法として、例えば特開2000−174909号公報「会議端末制御装置」に示される技術がある。図18はこの多地点制御装置(MCU)の構成を示すブロック図である。図において、2a〜2mはデマルチプレクサ、4は話者検出回路、6は第一セレクタ、8a〜8nはデコーダ(音声復号処理部)、10a〜10nは減衰回路、12は合成回路、14はエンコーダ(音声再符号化処理部)、16は第二セレクタ、18は分配回路である。
【0013】
次に動作について説明する。
MCUが各会議端末からの音声情報を受けると、デマルチプレクサ2a〜2mで有声/無声信号が分離され、その有声/無声信号を用いて、どの会議端末からの圧縮音声符号が有声であるかを話者検出回路4で検出する。また、有声である会議端末の数が計測される。有声、無声の判定がなされると、その情報が第一セレクタ6に送られ、第一セレクタ6において、有声状態の会議端末の数に応じて次のように作動する。
【0014】
有声状態の会議端末が2台以上あった場合には、第一セレクタ6は、有声状態の会議端末を選択してデコーダ8a〜8nに対して1対1の関係で接続し、各圧縮音声符号を送出する。デコーダ8a〜8nの該当するそれぞれは、供給された圧縮音声符号を復号して音声信号を生成する。生成された音声信号は減衰回路10a〜10nで所定の値に減衰される。それぞれの音声信号は、減衰回路10でレベル調整が行われた後、合成回路により合成される。つまり、有声状態の会議端末からの音声がすべて集められる。合成された音声信号は、エンコーダ14で再符号化されて第二セレクタ16へ送られ、分配回路18により全会議端末に伝送される。
【0015】
一方、有声状態の会議端末が1台であった場合には、その旨が第一セレクタ6に伝達され、第一セレクタ6でその有声状態の会議端末が選択され、そのまま直接第二セレクタ16に接続される。第二セレクタ16に接続された有声状態の会議端末の圧縮音声符号は、そのまま分配回路18を介して全会議端末に伝送される。
【0016】
MCUが図18に示す構成をとることにより、単一話者のケースでは、符号化音声のデータ全てがパススルーされるため、タンデム接続が回避され、低ビットレートの音声符号化方式を用いても高品質の音声を提供することができる。
【0017】
また、前述した図17に示された多地点制御装置によるシステムの第2の問題点として、情報源符号化処理特有の劣化要因、すなわち複数話者による同時発言がある。この場合の劣化は著しく、聴感上聞き苦しくなるという問題があった。前述した従来のCELP方式に基づく音声符号化装置では、図16に示したように、元来、単一話者の発声を想定した符号化を行っている。すなわち、声帯音源(駆動ベクトル)、声道情報(線形予測係数)、利得情報などが符号化の過程で抽出されて量子化伝送される。音声の特徴量を示すパラメータはそれぞれ唯一であり、複数話者の混合音声を送信する場合においては、これを精度よく符号化することができない。例えば、複数話者の混合音声の場合、声帯音源は話者毎に異なる複数種類のピッチ周期情報を含んでいるが、その複数種類のピッチ周期を表現する手段が無い。また、複数話者の混合音声の場合、声道情報も単一話者の場合と比較してスペクトル構造が複雑になっている。さらに、それを忠実に表現する量子化パターン(量子化テーブル)が用意されておらず、量子化時の誤差が大きくなる傾向になる。
【0018】
このような問題を解決する手段として、例えば、特開平10−240299号公報「音声符号化及び復号装置」に示される方式がある。図19はこの公報に開示されたCELP系音声符号化装置の構成を示すブロック図である。図において、31は複数話者音声分離部、32〜32は長期予測器、33〜33は源音コ―ドブック、34は反射係数分析部、35はのど(喉)近似フィルタ、36〜36,37は加算器、38は減算器、39はエラー分析部である。
【0019】
次に動作について説明する。
複数話者音声分離部31は、入力される音声信号の周期的特徴を分析して話者数n(1<n≦N)を特定し、この音声信号に含まれる各話者の音声を分離して各話者の源音声A〜Aとして出力する。複数話者音声分離部31で得られた話者数nは、反射係数分析部34に供給される。反射係数分析部34では、話者数nが1人の場合は10次、2人の場合は15次、それ以上の場合は20次というように、話者数nに応じた次数で反射係数rを算出する。反射係数rは、例えば入力音声の自己相関を用いてFLAT(固定小数点共分散格子型アルゴリズム)を実行することにより求めることができる。求められた反射係数rは、のど近似フィルタ35の係数として与えられる。
【0020】
一方、複数話者音声分離部31で分離された各話者の源音声A〜Aは、n個の長期予測器32〜32にそれぞれ入力される。長期予測器32〜32では、これらの源音声A〜Aと前フレームの源音声との相関関係などから源音声のピッチL〜Lnを抽出する。これらのピッチL〜Lnによってそれぞれ復号された信号と源音コードブック33〜33からのコードベクトルとが加算器36〜36においてそれぞれ加算され、各話者についての源音声が復号される。これらの複数話者分の源音声が加算器37によって加算され、のど近似フィルタ35で声道の特徴を付与されて局部復号信号となる。この局部復号信号と入力音声とが減算器38によって減算され、減算器38からのエラー信号が最小となるようにエラー分析部39で源音コードブック33〜33のインデックスI〜Iが順次決定される。
【0021】
【発明が解決しようとする課題】
従来の多地点制御装置の音声符号化伝送システムは以上のように構成されているので、量子化誤差の蓄積による音声品質の劣化を回避するために、図18に示した方式を用いた場合、話者検出回路4が、発言者以外の発する短区間の音声(咳払い、相槌など)に反応したり、背景ノイズの変動などによって誤判定を起こしたりする恐れがある。この場合、パススルーと復号・再符号化処理との回路切り替えが頻繁に行われる結果となる。すなわち、図18において、話者検出回路4の判定結果により、エンコーダ14の出力(符号化音声信号)とパススルーされた符号化音声信号とがセレクタ6によって切り替わることになる。ところがCELP方式のような低ビットレートの音声符号化方式の場合には、通常、符号器と復号器とが常に一対で動作することにより、高品質の音声を伝送することができる。しかしながら図18の構成では、セレクタ6の切り替えによって、受信者の会議端末に内蔵されている復号器と対になる符号器が、唯一の発言者の会議端末に内蔵されている符号器とMCUの符号器(エンコーダ14)とに頻繁にスイッチングされる。このため、音声を受ける端末側では、このスイッチングにより音声が不連続となることにより、また音声品質が頻繁に変動することにより不自然に感じられ、聞き苦しくなるという課題があった。
【0022】
また、従来の多地点制御装置の音声符号化伝送システムは以上のように構成されているので、情報源符号化処理特有である複数話者の同時発言による著しい劣化を回避するために、図19に示した方式を用いた場合、話者が増えるたびにピッチ周期情報をその分用意せねばならず、話者の増加に比例してビットレートが増大するため、伝送速度をフレキシブルに変化できる通信網、例えばATM網やIP網に代表される非同期伝送網等、適用できる伝送網が限定されてしまうという課題があった。
【0023】
この発明は、上記の課題を解決するためになされたものであり、1対多または多対多の電話会議で想定される複数話者の同時発言や、高ノイズ環境下での発言、咳払い、相槌などの短区間の発言に対しても高品質な音声伝送を実現できる多地点制御装置の音声符号化伝送システムを得ることを目的とする。
また、この発明は、伝送速度が一定あるいはチャネルあたりの伝送速度に制限を受ける伝送網に対しても適用できる多地点制御装置の音声符号化伝送システムを得ることを目的とする。
【0024】
【課題を解決するための手段】
この発明に係る多地点制御装置の音声符号化伝送システムは、通信ネットワークを介して複数の通信端末と接続し、各通信端末で取り扱われる音声を符号化した符号化音声信号を受信および送信の対象とし、これら符号化音声信号の情報内容に応じて所定の処理を施し、複数の通信端末に対し処理した符号化音声信号を配信する多地点制御装置の音声符号化伝送システムにおいて、各通信端末から受信した符号化音声信号を復号して復号音声信号を生成し、復号音声信号が有音である通信端末を判定し、有音であると判定した通信端末の1つを指定し、その指定した通信端末の復号音声信号における複数種類の音声符号化パラメータのうち一部の音声符号化パラメータについては音声再符号化処理を施すことなく各通信端末に送信し、指定した通信端末の復号音声信号における複数種類の音声符号化パラメータのうち他の音声符号化パラメータおよび他の通信端末の復号音声信号における複数種類の音声符号化パラメータについては音声再符号化処理を施した後に各通信端末に送信するように構成したものである。
【0025】
この発明に係る多地点制御装置の音声符号化伝送システムは、1つの通信端末からの復号音声信号のみが有音である場合には1つの通信端末を指定し、その指定した通信端末の復号音声信号における一部の音声符号化パラメータについては音声再符号化処理を施すことなく各通信端末に送信するように構成したものである。
【0026】
この発明に係る多地点制御装置の音声符号化伝送システムは、複数の通信端末に対して優先順位を設定し、復号音声信号が有音であると判定した通信端末が複数である場合にはその中で優先順位が最も高い1つの通信端末を指定し、その指定した通信端末の復号音声信号における一部の音声符号化パラメータについては音声再符号化処理を施すことなく各通信端末に送信するように構成したものである。
【0027】
この発明に係る多地点制御装置の音声符号化伝送システムは、復号音声信号が有音であると判定した通信端末が複数である場合には先に音声信号を受信した先着順に優先順位を設定するように構成したものである。
【0028】
この発明に係る多地点制御装置の音声符号化伝送システムは、あらかじめ1つの特定の通信端末を優先的に指定して優先順位を設定するように構成したものである。
【0029】
この発明に係る多地点制御装置の音声符号化伝送システムにおける一部の音声符号化パラメータは、ピッチ周期情報を担うパラメータであるように構成したものである。
【0030】
この発明に係る多地点制御装置の音声符号化伝送システムにおける一部の音声符号化パラメータは、スペクトル包絡情報を担うパラメータであるように構成したものである。
【0031】
この発明に係る多地点制御装置の音声符号化伝送システムは、複数の通信端末から受信した復号音声信号が有音であると判定した場合には、有音の通信端末の数に応じて音声符号化パラメータのフレームのビット配分を適応的に設定するように構成したものである。
【0032】
この発明に係る多地点制御装置の音声符号化伝送システムは、複数の通信端末のうち優先順位が第1位の通信端末および第2位の通信端末から受信した復号音声信号が有音であると判定した場合には、第1位の通信端末の復号音声信号におけるピッチ周期情報およびスペクトル包絡情報をそれぞれ担う2つの音声符号化パラメータ並びに第2位の通信端末の復号音声信号におけるピッチ周期情報を担う音声符号化パラメータについては音声再符号化処理を施すことなく各通信端末に送信し、第1位および第2位の通信端末の復号音声信号において音声再符号化処理を施す音声符号化パラメータについては伝送レート制御機能に基づく縮退の量子化ビット制御を行った後に各通信端末に送信するように構成したものである。
【0033】
この発明に係る多地点制御装置の音声符号化伝送システムは、複数の通信端末のうち主音声の通信端末および副音声の通信端末から受信した復号音声信号が有音であると判定した場合には、主音声の通信端末の復号音声信号におけるピッチ周期情報およびスペクトル包絡情報をそれぞれ担う2つの音声符号化パラメータ並びに副音声の通信端末の復号音声信号におけるピッチ周期情報を担う音声符号化パラメータについては音声再符号化処理を施すことなく各通信端末に送信し、主音声および副音声の通信端末の復号音声信号において音声再符号化処理を施す音声符号化パラメータについては伝送レート制御機能に基づく縮退の量子化ビット制御を行った後に各通信端末に送信するように構成したものである。
【0034】
この発明に係る多地点制御装置の音声符号化伝送システムにおける縮退の量子化ビット制御が行われる符号化パラメータは、利得符号帳であるように構成したものである。
【0035】
この発明に係る多地点制御装置の音声符号化伝送システムにおける縮退の量子化ビット制御が行われる符号化パラメータは、雑音符号帳であるように構成したものである。
【0036】
この発明に係る多地点制御装置の音声符号化伝送システムは、音声符号化パラメータについて音声再符号化処理を施した後に各通信端末に送信するかまたは音声再符号化処理を施すことなく各通信端末に送信するかを決定する符号化モード情報を所定ビット数からなる符号化パラメータのフレームに含めるように構成したものである。
【0037】
【発明の実施の形態】
以下、この発明の実施の一形態について図を参照して説明する。
実施の形態1.
図1はこの発明の実施の形態1による音声符号化伝送システムを適用した多地点制御装置の構成を示すブロック図である。図1において、201は交換機、202は回線インタフェース部、203は音声復号処理部、204は音声検出部、205は雑音抑圧処理部、206は音声加算部、207は分配処理部、208は自端末音声減算部、209は自動利得制御部、210は音声再符号化処理部、211は音声符号化パラメータ制御部である。
【0038】
図1の構成の基本的な機能は以下の通りである。
各会議端末(通信端末)からの符号化音声が交換機201を介して回線インタフェース部202で受信される。受信された符号化音声は、音声復号処理部203によりチャネル毎に音声信号に復号される。復号された音声信号は、会議端末からのそれぞれについて、音声検出部204により有音/無音の状態を検出される。この検出結果は、音声加算部206における加算対象端末の決定、雑音抑圧処理部205の雑音抑圧のための重み付け、自動利得制御部209による音声レベルの自動調整のために用いられる。また、音声復号処理部203で復号された復号音声信号および抽出された音声パラメータは、音声符号化パラメータ制御部211に入力される。
【0039】
会議参加者数Nが多くなると、雑音が大きくなり通話品質の劣化を招くので、雑音抑圧処理部205では、無音状態にあるチャネルから入力されてくる雑音を小さくする。そのために、各会議参加者の有音/無音の検出結果に従って有音チャネルと無音チャネルのそれぞれに対して会議参加者数Nに基づく各重み係数を決定し、この重み係数をそれぞれの復号音声信号に掛ける雑音制御処理を行う。音声加算部206では、音声検出部204の検出結果を参照して、加算すべきチャネルの雑音制御処理された復号音声信号を加算する。加算された復号音声信号は、分配処理部207において、各チャネルに再分配される。
【0040】
自端末音声減算部208では、自端末の音声信号の回りこみによるエコーを抑圧し、聴感上のわずらわしさを解消するため、加算された復号音声信号から自端末の信号を減算する。また、多地点の電話会議システムにおいては、多人数の音声を加算することによる飽和歪みを起こす可能性があるため、自動利得制御部209にて、飽和歪みを防ぎ、なおかつ個人や全体の音声レベルを調整する。自動利得制御部209の出力信号は、音声再符号化処理部210において符号化されて回線に出力される。
【0041】
図2は図1の音声符号化パラメータ制御部211のさらに詳細な構成を示すブロック図であり、図において、212はセレクタ、213は分配処理部、214は発言者選択部である。
図2の構成の基本的な機能は以下の通りである。
発言者選択部214は、各チャネルの音声検出部204の検出結果を集計して、発言者が唯一であると見なせる場合に、その発言者の情報(チャネル番号など)をセレクタ212および音声再符号化処理部210に出力する。セレクタ212は、発言者選択部214の選択結果に応じて、音声復号処理部203にて抽出された各チャネルの音声符号化パラメータから音声再符号化処理部210にパススルーする符号化パラメータを選択する。分配処理部213は、セレクタ212で選択された符号化パラメータを、各チャネルの音声再符号化処理部210に再分配する。
【0042】
図3は、図1の音声復号処理部203のさらに詳細な構成を示すブロック図であり、図において、126は多重分離部、131aは適応符号帳、131bは利得復号部、132は復号利得MA予測部、133は代数符号復号部、134はピッチプレフィルタ、135はLSP復号部、136はLSP内挿部、137はLSP・LPC変換部、127,128は制御増幅部、129は加算器、138は合成フィルタ、139はポストフィルタである。
【0043】
図4は、図1の音声再符号化処理部210の構成を示すブロック図であり、上述した図11の音声符号化装置に対応する。図において、104は線形予測分析処理部、105はLSP(Line Spectral Pair)量子化処理部、106はLSP量子化符号帳、108は多重化部、109は逆量子化処理部、110は適応符号帳、111は代数符号帳、112,116は加算器、114は利得量子化符号帳、115は合成フィルタ、117は聴覚重み付フィルタ、118は歪最小化部、119,120,122は切替スイッチ、113a,113bは利得制御増幅部、121はピッチプレフィルタ、125は利得MA予測部、124はLPC(Linear Predictive Coding)・LSP変換部である。
【0044】
次に、動作について説明する。なお、説明のために用いる音声符号化方式については、ITU−T勧告G.729 CS−ACELP方式に基づく。
音声復号処理部203では、伝送されてきた音声符号化データを基に復号処理を実行する。それと共に、発言者の音声に固有の特徴量を示すパラメータ、すなわち、声帯振動波の繰返し周期を表現するピッチ周期情報である適応符号帳インデックスと、声道情報を表現するスペクトル包絡情報であるLSP符号帳インデックスとを音声符号化パラメータ制御部211に出力する。この場合において、音声検出部204の判定結果により、発言者が唯一に決まった場合は、その発言者の端末装置に割り当てたチャネルから受信した符号化パラメータのうち、適応符号帳インデックスとLSP符号帳インデクスとをそのまま音声再符号化処理部210へパススルーする。
【0045】
このとき音声再符号化処理部210では、切替スイッチ119,120,122を各接点119A,120A,122A側に接続し、パススルーされた符号化パラメータについては、再符号化処理すなわち符号帳探索処理を行わずに、そのまま多重化部108に送る。その他のパラメータ(図4においては、代数符号帳インデックスおよび利得符号帳インデックス)については、音声加算された復号音声信号に基づいて再符号化処理を行い、歪最小化部118で最小自乗誤差の探索により最適な量子化値を抽出して多重化部108に送る。多重化部108ではこれらパラメータを多重化して回線インタフェース部202に出力する。
【0046】
ここで、音声検出部204について、例えば、あるチャネルで発言中、他のチャネルから割り込んで発言があった場合は、そのチャネルにおいて音声の立ち上がりを検出しても、即座に発音中のチャネルからの切り替えは行わず、所定の待ち時間を持たせて、発言中のチャネルからの切り替えを遅らせることにより、相槌、咳払いなど、比較的短区間の、重要度の低い発言での切り替えを防ぐ。これが比較的長い割り込み発言であった場合には、スイッチングの遅れが発生するが、音声加算部206の出力(加算復号音声信号)には反映されているため、音声再符号化処理部210で合わせて符号化されるので、頭切れなどの心配はない。但し、音声信号を復号するための重要な情報を含む符号化パラメータである適応符号帳インデックス(ピッチ周期情報)およびLSP符号帳インデックス(スペクトル包絡情報)が一部欠けているため、元々の発言者に比べて割り込み発言の品質は劣化している。しかし、会議運営上、割り込み発言の重要性は低いケースとなることが多く、また、若干ではあるが代数符号帳インデックスの中にも周波数成分に関する情報が漏れているので、実運用上では、例えば、耳障りな音を復号すうような、割込み発言者の音声が異常になるようなことはなく、この劣化は比較的気にならないと言える。
【0047】
また、音声検出部204において、話者が唯一に決まらない場合は、音声再符号化処理部210の、スイッチ119,120,122をそれぞれ119B,120B,122B側に接続することによって、パススルー動作は行わない。したがって、音声再符号化処理部210内において、話者入力のある各チャネルの復号音声について所定の再符号化処理が行われる。
【0048】
以上のように、この実施の形態1によれば、指定した会議端末の復号音声信号における複数種類の音声符号化パラメータのうち一部の音声符号化パラメータについては音声再符号化処理を施すことなく各通信端末に送信し、指定した会議端末の復号音声信号における複数種類の音声符号化パラメータのうち、他の音声符号化パラメータ、および他の通信端末の復号音声信号における複数種類の音声符号化パラメータについては、音声再符号化処理を施した後に各通信端末に送信するので、1対多または多対多の電話会議で想定される複数話者の同時発言や、高ノイズ環境下での発言、咳払い、相槌などの短区間の発言に対しても高品質な音声伝送を実現できるという効果が得られる。
【0049】
すなわち、一部の音声符号化パラメータについてパススルーすることにより、メインの話者(指定した会議端末の話者)に関しては、主要な音声符号化パラメータについては、復号・再符号化を繰り返すことによる劣化を受けずに維持されるため、メイン話者については、パススルー時の音声品質に近いものが再現できるという効果が得られる。また、符号化パラメータが常に音声再符号化処理部を経由しているため、頻繁なスイッチングが発生しても、音声の不連続感は解消されるという効果が得られる。また、品質は常に一定に保たれるため、音声品質が揺らぐことによる不自然感が解消されるという効果が得られる。
【0050】
また、この実施の形態1によれば、音声再符号化処理を施すことなくパススルーする一部の音声符号化パラメータは、ピッチ周期情報を担うパラメータであるので、発言者の音声に固有な声帯振動数の繰り返し周期を表現する情報をそのまま伝送して、高品質な音声伝送を実現できるという効果が得られる。
【0051】
また、この実施の形態1によれば、音声再符号化処理を施すことなくパススルーする一部の音声符号化パラメータは、スペクトル包絡情報を担うパラメータであるので、発言者の口腔や鼻腔等の声道を表現する情報をそのまま伝送して、高品質な音声伝送を実現できるという効果が得られる。
【0052】
実施の形態2.
実施の形態2においては、実施の形態1の図1乃至図3に相当する構成は、ほぼ同じである。ただし、この実施の形態2では、音声復号処理部203から音声符号化パラメータ制御部211にパススルーされる適応符号帳インデックスは、優先順位が第1位の会議端末の話者からの符号化パラメータのうちの第1位の適応符号帳インデックス、および、優先順位が第2位の会議端末の話者からの符号化パラメータのうちの第2位の適応符号帳インデックスである。図5は、この発明の実施の形態2における音声再生符号化処理部の構成を示すブロック図であり、図において、130は切替スイッチ、110bは第2の適応符号帳、113cは利得制御増幅部、140は符号化レート制御部である。他の構成要素は、図4に示した実施の形態1における音声再符号化処理部の構成要素と同じものであるので同一符号を付し、原則としてその説明を省略する。
【0053】
図6は、交換機201に接続される電話機すなわち会議端末の構成を示すブロック図であり、図において、500は回線インタフェース部、501は音声復号処理部、502はD/Aコンバータ、503はスピーカである。
【0054】
図7は、図6の会議端末における音声復号処理部501のさらに詳細な構成を示すブロック図であり、図において、504は多重分離部、505は符号化モード解読部である。他の構成要素は、図5に含まれている一部の構成要素と同じものであるので同一符号を付し、原則としてその説明を省略する。
【0055】
図8は、1話者発言の場合、2話者発言の場合、および3話者発言の場合における符号化パラメータのフレーム構成例を示す説明図である。
【0056】
次に、動作について説明する。なお、実施の形態1の場合と同様に、説明のために用いる音声符号化方式については、ITU−T勧告G.729 CS−ACELP方式に基づく。
スイッチ130は、音声符号化パラメータ制御部211からの第2位の適応符号帳インデックスを入力するか入力しないか切り替える。符号化レート制御部140は、音声符号化パラメータ制御部211と音声再符号化処理部210との間に設けられ、音声符号化パラメータ制御部211からの発言者選択情報に基づき、パラメータの符号化レートを決定する制御信号を代数符号帳111および利得量子化符号帳114に出力するとともに、符号化モード情報をスイッチ119,120,130の切替制御信号として与えるとともに、多重化部108に出力する。多重分離部504は、図5の多重化部108で多重化された音声符号化パラメータを分離する。符号化モード解読部505は、多重分離部504で分離された符号化モード情報(図8のフレームにおける最後の1ビットの値)を解読する。
【0057】
以下、図1〜図9を参照して、全体的な動作を説明する。
いま、話者が唯一である場合には、図1の音声検出部204の検出結果により、図2の発言者選択部214は「1話者発言」であることを決定して、その決定内容を示す発言者選択情報をセレクタ212に出力するとともに、音声再符号化処理部210に転送する。セレクタ212は、その1話者の会議端末に対応しているチャネルから受信した符号化パラメータを選択して分配処理部213に出力する。分配処理部213は、その符号化パラメータ(LSP符号化インデックスおよび第1位の適応符号化インデックス)をそのまま音声再符号化処理部210へパススルーする。このときの動作は、スイッチ130を130B側に接続する。すなわち、第2位の適応符号帳インデックスの入力をオフにする。また、符号化レート制御部140から出力されるビットレートが決定する。他の動作は実施の形態1の場合と全く同一である。
【0058】
また、話者が1人もいない場合、あるいは3者以上が同時に発言した場合は、音声検出部204の検出結果により、発言者選択部214は「3話者以上発言」であることを決定して、その決定内容を示す発言者選択情報をセレクタ212に出力するとともに、音声再符号化処理部210に転送する。この場合には、セレクタ212は符号化パラメータを選択しない。音声再符号化処理部210は、発言者選択情報に応じてタンデム接続による再符号化処理を実行する。すなわち、スイッチ119,120,130をそれぞれ接点119B,120B,130B側に接続して、LSP符号化インデックスのパススルーを行わず、第1位および第2位の適応符号帳インデックスの入力をオフにする。そして、全符号化パラメータについて、音声加算された信号に基づいて再符号化処理を行い、最適な量子化値を探索して多重化部108に送る。もっとも、話者が1人もいない場合には、符号化パラメータが存在しないので、再符号化処理を行うことはない。
【0059】
一方、2話者が同時発言した場合には、発言者選択部214は「2話者発言」であることを決定して、その決定内容を示す発言者選択情報をセレクタ212に出力するとともに、音声再符号化処理部210に転送する。セレクタ212は、その2話者の会議端末に対応しているチャネルから受信した符号化パラメータを選択して分配処理部213に出力する。分配処理部213は、その符号化パラメータをそのまま音声再符号化処理部210へパススルーする。音声再符号化処理部210は、第1の話者のLSP符号化インデックスおよび第1位の適応符号化インデックスをパススルーするとともに、第2の話者の第2位の適応符号化インデックス(ピッチ周期情報)をパススルーする。
【0060】
すなわち、スイッチ119,120,130をそれぞれ接点119A,120A,130A側に接続して、LSP符号化インデックス、第1位および第2位の適応符号帳インデックスを多重化部108に送る。他の符号化パラメータである代数符号化インデックスおよび利得符号化インデックスについては、音声加算された信号に基づいて再符号化処理を行い、最適な量子化値を探索して多重化部108に送る。多重化部108は、これら複数の符号化パラメータを多重化して回線インタフェース部202に出力する。
【0061】
同時に、符号化レート制御部140では、音声符号化パラメータ制御部211からの発言者選択情報に応じて、代数符号化インデックスおよび利得符号化インデックスに割り当てられるビット数を伝送速度に見合うように調整して、それぞれ代数符号帳111および利得量子化符号帳114に出力するとともに、後述する符号化モード情報を生成して、スイッチ119,120,130および多重化部108に出力する。
【0062】
この場合において、符号化モードを2モード設定することとし、「1話者発言」および「3話者以上発言」の符号化モードを「モード0」とし、「2話者発言」の符号化モードを「モード1」とする。すなわち、「0」および「1」の符号化モード情報を設定する。したがって、この符号化モード情報を伝送するには1ビットを必要とする。伝送速度が8キロビット/秒の場合の各モードにおける符号化パラメータの1フレーム(80ビット)のビット割り当ての例を図8および図9に示す。
【0063】
「モード0」においては、ITU−T勧告G.729に示されているビット割り当てとほぼ同じである。すなわち、図8に示すように、「1話者発言」の場合には、LSP符号帳インデックスおよび適応符号帳インデックスの符号化パラメータをパススルーし、「3話者以上発言」の場合には、全ての符号化パラメータをパススルーしない。ただし、伝送速度が8キロビット/秒であるので、標準方式では符号化モード情報を送信する余地がないため、図9に示すように、標準方式でパリティビットとして設定されている1ビットを符号化モード情報に転用して送信する。
【0064】
一方、「モード1」においては、第2位の適応符号化インデックス(13ビット)を送信する必要があるので、その13ビット分だけ他の符号化パラメータのビット割り当てを減らす(これを縮退という)必要がある。したがって、図9および図8に示すように、「2話者発言」の場合には、代数符号帳インデックスを34ビットから22ビットに縮退し、利得符号帳インデックスを14ビットから13ビットに縮退する。そして、第1話者のLSP符号帳インデックスおよび適応符号帳インデックス、並びに、第2話者の第2位の適応符号帳インデックスからなる符号化パラメータをパススルーする。
【0065】
なお、代数符号帳インデックスの縮退方式については、第1サブフレームおよび第2サブフレームともに、ITU−T勧告G.729 Annex D 第D.5.8節に記述されている方式(11ビット量子化)を用いて実現する。また、利得符号帳インデックスの縮退方式については、第1サブフレームはITU−T勧告G.729本体の第3.9節に記載されている方式(7ビット量子化)を用いて、第2サブフレームはITU−T勧告G.729 Annex D 第D.5.9節に記述されている方式(6ビット量子化)を用いて実現する。
【0066】
多重化部108は、これらの符号化パラメータを多重化して、図8に示す1フレームごとに回線インタフェース部202および交換機201を介して、各会議端末に送信する。そして、図6に示した会議端末の受信部において、音声復号処理部501は、交換機201および回線インタフェース部500を介して受信した符号化パラメータのフレームを復号する。すなわち、図7に示した音声復号処理部501において、多重分離部504は、1フレームの符号化パラメータを各符号化パラメータに分離し、符号化モード情報を符号化モード解読部505に出力する。符号化モード解読部505は、その符号化モード情報に基づいて、スイッチ130に切替制御信号を与え、ビット割当情報を代数符号帳111および利得量子化符号帳114に与える。
【0067】
したがって、符号化モード情報が0のフレームを受信したときは、スイッチ130は切替制御信号によって接点130B側に接続され、第2位の適応符号帳インデックスの入力をオフにする。また、代数符号帳111は、ビット割当情報に応じて、ITU−T勧告G.729本体の第4.1節に示された復号方式を用いて代数符号帳インデックスを復号する。また、利得量子化符号帳114も、ビット割当情報に応じて、ITU−T勧告G.729本体の第4.1節に示された復号方式を用いて利得符号帳インデックスを復号する。
【0068】
一方、符号化モード情報が1のフレームを受信したときは、スイッチ130は切替制御信号によって接点130A側に接続され、第2位の適応符号帳インデックスの入力をオンにしてその復号を開始する。また、代数符号帳111は、ビット割当情報に応じて、第1サブフレームについては、ITU−T勧告G.729本体の第4.1節に示された復号方式を用いて代数符号帳インデックスを復号し、第2サブフレームについては、同勧告G.729 Annex D.6章に示された復号方式を用いて代数符号帳インデックスを復号する。次に、第2位の適応符号帳インデックスを復号して得られた第2話者のピッチ周期成分、第1位の適応符号帳インデックスを復号して得られた第1話者のピッチ周期成分、および代数符号帳インデックスを復号して得られた雑音成分を加算器112で加算して、励振信号として合成フィルタ115に出力する。合成フィルタ115は、この励振信号に基づいて声道情報を畳み込み、復号音声を得る。
【0069】
以上のように、この実施の形態2によれば、複数の会議端末から受信した復号音声信号が有音であると判定した場合には、有音の会議端末の数に応じて符号化パラメータのフレームのビット配分を適応的に設定するので、伝送速度が一定あるいはチャネルあたりの伝送速度に制限を受ける伝送網に対しても適用できるという効果が得られる。
【0070】
また、この実施の形態2によれば、複数の会議端末のうち優先順位が第1位の会議端末の第1話者および第2位の会議端末の第2話者から受信した復号音声信号が有音であると判定した場合には、第1話者の復号音声信号におけるピッチ周期情報である第1位の適応符号帳インデックス、およびスペクトル包絡情報であるLSP符号帳インデックスからなる音声符号化パラメータ、並びに、第2話者の復号音声信号におけるピッチ周期情報である第2位の適応符号帳インデックスからなる音声符号化パラメータについては、音声再符号化処理を施すことなく各会議端末にパススルーして送信するので、2話者が同時に発言した場合でも、比較的良好な音声品質の伝送が可能になるという効果が得られる。
【0071】
また、この実施の形態2によれば、音声再符号化処理を施す音声符号化パラメータについては、伝送レート制御機能に基づく縮退の量子化ビット制御を行うので、音声品質の劣化に対して影響の少ない符号化パラメータを縮退させて、第2話者の復号音声信号におけるピッチ周期情報である第2位の適応符号帳インデックスからなる音声符号化パラメータについて音声再符号化処理を施すことなく各会議端末にパススルーして送信するので、2話者が同時に発言した場合でも、音声品質の劣化を抑制できるという効果が得られる。
【0072】
また、この実施の形態2によれば、縮退の量子化ビット制御が行われる符号化パラメータを励振利得である利得符号帳インデックスとしたので、音声品質の劣化に対して影響の少ない利得符号帳インデックスの符号化パラメータを縮退させて、2話者が同時に発言した場合でも、音声品質の劣化を抑制できるという効果が得られる。
【0073】
また、この実施の形態2によれば、縮退の量子化ビット制御が行われる符号化パラメータを雑音符号帳である代数符号帳インデックスとしたので、音声品質の劣化に対して影響の少ない代数符号帳インデックスの符号化パラメータを縮退させて、2話者が同時に発言した場合でも、音声品質の劣化を抑制できるという効果が得られる。
【0074】
また、この実施の形態2によれば、音声符号化パラメータについて音声再符号化処理を施した後に各会議端末に送信するか、または音声再符号化処理を施すことなく各会議端末にパススルーして送信するかを決定する1ビットの符号化モード情報を、80ビットからなる符号化パラメータのフレームに含めるので、伝送レートに影響を与えることなく、特定の符号化パラメータをパススルーするか否かの情報を符号化パラメータのフレームに含めることができるという効果が得られる。
【0075】
実施の形態3.
図10はこの発明の実施の形態3における多地点制御装置の構成を示すブロック図であり、図11は実施の形態3における音声符号化パラメータ制御部のブロック図である。図1に相当する図10の部分には同一符号を付し、図2に相当する図11の部分には同一符号を付し、原則としてその説明を省略する。図10および図11において、215は先着チャネル判定部で、発言のあったチャネルのうち音声検出部204が最初に検出したチャネルの検出結果に応答して音声符号化パラメータ制御部211のセレクタ212を制御するものである。
【0076】
次に、動作について説明する。
発言者が競合した場合、先着チャネル判定部215は、先に発言のあったチャネルについて優先話者と判定し、その判定結果をセレクタ212に与える。セレクタ212は、その先着チャネルの符号化パラメータのみを音声再符号化処理部210へパススルーする。それ以降においては、音声再符号化処理部210は実施の形態1と同様に動作する。
【0077】
以上のように、この実施の形態3によれば、複数の会議端末に対して優先順位を設定し、復号音声信号が有音であると判定した会議端末が複数である場合にはその中で優先順位が最も高い1つの会議端末を指定し、その指定した会議端末の復号音声信号における一部の音声符号化パラメータについては音声再符号化処理を施すことなく各通信端末に送信するので、複数の会議端末の話者が同時に発言した場合でも、会議が混乱するのを回避できるという効果が得られる。
【0078】
また、この実施の形態3によれば、復号音声信号が有音であると判定した会議端末が複数である場合には、先に音声信号を受信した先着順に優先順位を設定するので、無用な咳払い、相槌やルールを逸脱した割込み発言によって、会議の進行が乱されることがないという効果が得られる。
【0079】
実施の形態4.
図12はこの発明の実施の形態4における多地点制御装置およびその他の構成を示すブロック図であり、図13は実施の形態4における音声符号化パラメータ制御部のブロック図である。図1に相当する図12の部分には同一符号を付し、図2に相当する図13の部分には同一符号を付し、原則としてその説明を省略する。図12において、224はMCU制御部であり、インターネットなどを通じて優先話者とする特定のチャネルを優先話者判定部216に登録する。図13において、216は優先話者判定部で、電話会議の特定のチャネルを優先話者として予め登録しておき、復号音声信号と音声検出結果に応じて有音と判定されたチャネルが登録された特定のチャネルであった場合、そのチャンネルの話者を優先話者して判定する。
【0080】
次に、動作について説明する。
例えば、会議主催者は、会議設定時にインターネットなどによりMCU制御部224を介して、会議主催者のチャネルあるいは指名された司会進行役のチャネルなどを、優先話者としてりMCU制御部224に登録しておく。次に、発言者が競合した場合において、登録されている優先話者、すなわち会議主催者のチャネルや指名された司会進行役のチャネルにおいて発言があったとき、優先話者判定部216は、復号音声信号、音声検出結果および登録されたデータとから、優先話者のチャネルを検知し、音声符号化パラメータ制御部211のセレクタ212が該当するチャネルの符号化パラメータのみを音声再符号化処理部210へパススルーするように制御する。それ以降の動作については、実施の形態1の場合と同様である。
【0081】
以上のように、この実施の形態4によれば、あらかじめ1つの特定の会議端末を優先的に指定し、復号音声信号が有音であると判定した複数の会議端末の中に特定の会議端末が含まれている場合には、その特定の会議端末の復号音声信号における一部の音声符号化パラメータについては音声再符号化処理を施すことなく各会議端末にパススルーして送信するので、会議主催者や指名された司会進行役の発言を検知して、発言者が競合した場合でも、円滑な会議進行が可能になるという効果が得られる。
【0082】
実施の形態5.
図14および図15は、この発明の実施の形態5における符号化パラメータのフレーム構成を示す説明図である。なお、この実施の形態5において、多地点制御装置、多地点制御装置における音声再符号化処理部、および会議端末における音声復号処理部の構成は、それぞれ図1、図2および図5、並びに図7に示した実施の形態2における構成と同じである。また、多地点制御装置における音声符号化パラメータ制御部の構成は、図13に示した実施の形態4における構成と同じである。
【0083】
次に、動作について説明する。説明のために用いる音声符号化方式についても、実施の形態2と同様に、ITU−T勧告G.729のCS−ACELP方式に基づく。図1において、音声検出部204の検出結果により、図2における音声符号化パラメータ制御部211の発言者選択部214の選択が「1話者発言」、「2話者発言」、または「3話者以上発言」に決定した場合には、実施の形態2の場合と同様に、その決定に基づく発言者選択情報をセレクタ212に与えるとともに、図5における符号化レート制御部140に出力する。符号化レート制御部140は、この発言者選択情報に応じて、「モード0」または「モード1」を示す1ビットの符号化モード情報を生成して、音声再符号化処理部210に出力する。音声再符号化処理部210は、この符号化モード情報に基づいて、多重化部108から会議端末に出力する符号化パラメータのフレームを構成する。
【0084】
すなわち、「モード1」においては、第2位の適応符号化インデックス(8ビット)を送信する必要があるので、その8ビット分だけ他の符号化パラメータを縮退する必要がある。したがって、図14および図15に示すように、「2話者発言」の場合には、代数符号帳インデックスを34ビットから28ビットに縮退し、利得符号帳インデックスを14ビットから12ビットに縮退する。そして、第1話者のLSP符号帳インデックスおよび適応符号帳インデックス、並びに、第2話者の第2位の適応符号帳インデックスからなる符号化パラメータをパススルーする。
【0085】
なお、代数符号帳インデックスの縮退方式については、第1サブフレームについてはITU−T勧告G.729 Annex D 第D.5.8節に記述されている方式(11ビット量子化)を用い、第2サブフレームについてはITU−T勧告G.729本体第3.8節に記述されている方式(17ビット量子化)を用いて実現する。また、利得符号帳インデックスの縮退方式については、第1サブフレームおよび第2サブフレームともにITU−T勧告G.729 Annex D 第D.5.9節に記述されている方式(6ビット量子化)を用いて実現する。
【0086】
ところで、電話会議システムにおいて使用されるチャネルは、主音声と副音声で構成されている。この場合、主音声は発言者の音声であり、副音声は、例えば発言者の発言に対する同時通訳などが適用される。そこで、図13における優先話者判定部216において、主音声を第1話者とし副音声を第2話者として順位付けを設定しておく。図14に示すように、主音声の符号化パラメータであるLSP符号帳インデックスおよび第1位の適応符号帳インデックスについては、パススルーされた量子化パラメータをそのまま伝送するようにし、副音声の符号化パラメータである第2位の適応符号帳インデックスについては、パススルーされた量子化パラメータを縮退させて伝送する。
【0087】
以上のように、この実施の形態5によれば、主音声および副音声の会議端末から受信した復号音声信号が有音であると判定した場合には、主音声の会議端末の復号音声信号におけるピッチ周期情報およびスペクトル包絡情報をそれぞれ担う2つの音声符号化パラメータ、並びに、副音声の会議端末の復号音声信号におけるピッチ周期情報を担う音声符号化パラメータについては音声再符号化処理を施すことなく各通信端末に送信し、音声再符号化処理を施す音声符号化パラメータについては伝送レート制御機能に基づく縮退の量子化ビット制御を行った後に各会議端末に送信するので、主音声と副音声とが同時に発言した場合でも、副音声の符号化パラメータを縮退させることで、伝送レートを維持しつつ主音声の音声品質の劣化を極力抑えて伝送できるという効果が得られる。
【0088】
また、この実施の形態5によれば、実施の形態2と同様に、音声品質の劣化に対して影響の少ない利得符号帳インデックスの符号化パラメータを縮退させて、2話者が同時に発言した場合でも、音声品質の劣化を抑制できるという効果が得られる。また、音声品質の劣化に対して影響の少ない代数符号帳インデックスの符号化パラメータを縮退させて、2話者が同時に発言した場合でも、音声品質の劣化を抑制できるという効果が得られる。また、伝送レートに影響を与えることなく、特定の符号化パラメータをパススルーするか否かの符号化モード情報を符号化パラメータのフレームに含めることができるという効果が得られる。
【0089】
さらに、上記実施の形態2乃至実施の形態5によれば、実施の形態1と同様に、1対多または多対多の電話会議で想定される複数話者の同時発言や、高ノイズ環境下での発言、咳払い、相槌などの短区間の発言に対しても高品質な音声伝送を実現できるという効果が得られる。また、発言者の音声に固有な声帯振動数の繰り返し周期を表現する情報をそのまま伝送して、高品質な音声伝送を実現できるという効果が得られる。また、発言者の口腔や鼻腔等の声道を表現する情報をそのまま伝送して、高品質な音声伝送を実現できるという効果が得られる。
【0090】
なお、上記各実施の形態においては、通信端末として会議端末(電話機)を例に採ってこの発明を説明したが、通信端末の態様は会議端末に限定されない。例えば、複数種類の音声信号を異なるチャネルで同時に伝送する放送システムや有線放送システムにおいて、その音声信号を受信する複数の受信機を通信端末として適用し、受信機側で特定の1つのチャネル(例えば、主音声のチャネルまたは副音声のチャネル)を指定する構成にしてもよい。
【0091】
【発明の効果】
以上のように、この発明によれば、多地点制御装置の音声符号化伝送システムを、各通信端末から受信した符号化音声信号を復号して復号音声信号を生成し、復号音声信号が有音である通信端末を判定し、有音であると判定した通信端末の1つを指定し、その指定した通信端末の復号音声信号における複数種類の音声符号化パラメータのうち一部の音声符号化パラメータについては音声再符号化処理を施すことなく各通信端末に送信し、指定した通信端末の復号音声信号における複数種類の音声符号化パラメータのうち他の音声符号化パラメータおよび他の通信端末の復号音声信号における複数種類の音声符号化パラメータについては音声再符号化処理を施した後に各通信端末に送信するように構成したので、1対多または多対多の電話会議で想定される複数話者の同時発言や、高ノイズ環境下での発言、咳払い、相槌などの短区間の発言に対しても高品質な音声伝送を実現できるという効果がある。
【0092】
この発明によれば、多地点制御装置の音声符号化伝送システムを、1つの通信端末からの復号音声信号のみが有音である場合には1つの通信端末を指定し、その指定した通信端末の復号音声信号における一部の音声符号化パラメータについては音声再符号化処理を施すことなく各通信端末に送信するように構成したので、1対多または多対多の電話会議において高品質な音声伝送を実現できるという効果がある。
【0093】
この発明によれば、多地点制御装置の音声符号化伝送システムを、複数の通信端末に対して優先順位を設定し、復号音声信号が有音であると判定した通信端末が複数である場合にはその中で優先順位が最も高い1つの通信端末を指定し、その指定した通信端末の復号音声信号における一部の音声符号化パラメータについては音声再符号化処理を施すことなく各通信端末に送信するように構成したので、複数の会議端末の話者が同時に発言した場合でも、会議が混乱するのを回避できるという効果がある。
【0094】
この発明によれば、多地点制御装置の音声符号化伝送システムを、復号音声信号が有音であると判定した通信端末が複数である場合には先に音声信号を受信した先着順に優先順位を設定するように構成したので、無用な咳払い、相槌やルールを逸脱した割込み発言によって、会議の進行が乱されることがないという効果がある。
【0095】
この発明によれば、多地点制御装置の音声符号化伝送システムを、あらかじめ1つの特定の通信端末を優先的に指定して優先順位を設定するように構成したので、会議主催者や指名された司会進行役の発言を検知して、発言者が競合した場合でも、円滑な会議進行が可能になるという効果がある。
【0096】
この発明によれば、多地点制御装置の音声符号化伝送システムにおける一部の音声符号化パラメータを、ピッチ周期情報を担うパラメータであるように構成したので、発言者の音声に固有な声帯振動数の繰り返し周期を表現する情報をそのまま伝送して、高品質な音声伝送を実現できるという効果がある。
【0097】
この発明によれば、多地点制御装置の音声符号化伝送システムにおける一部の音声符号化パラメータを、スペクトル包絡情報を担うパラメータであるように構成したので、発言者の口腔や鼻腔等の声道を表現する情報をそのまま伝送して、高品質な音声伝送を実現できるという効果がある。
【0098】
この発明によれば、多地点制御装置の音声符号化伝送システムを、複数の通信端末から受信した復号音声信号が有音であると判定した場合には、有音の通信端末の数に応じて音声符号化パラメータのフレームのビット配分を適応的に設定するように構成したので、伝送速度が一定あるいはチャネルあたりの伝送速度に制限を受ける伝送網に対しても適用できるという効果がある。
【0099】
この発明によれば、多地点制御装置の音声符号化伝送システムを、複数の通信端末のうち優先順位が第1位の通信端末および第2位の通信端末から受信した復号音声信号が有音であると判定した場合には、第1位の通信端末の復号音声信号におけるピッチ周期情報およびスペクトル包絡情報をそれぞれ担う2つの音声符号化パラメータ並びに第2位の通信端末の復号音声信号におけるピッチ周期情報を担う音声符号化パラメータについては音声再符号化処理を施すことなく各通信端末に送信し、第1位および第2位の通信端末の復号音声信号において音声再符号化処理を施す音声符号化パラメータについては伝送レート制御機能に基づく縮退の量子化ビット制御を行った後に各通信端末に送信するように構成したので、2話者が同時に発言した場合でも、比較的良好な音声品質の伝送が可能になるという効果がある。
【0100】
この発明によれば、多地点制御装置の音声符号化伝送システムを、複数の通信端末のうち主音声の通信端末および副音声の通信端末から受信した復号音声信号が有音であると判定した場合には、主音声の通信端末の復号音声信号におけるピッチ周期情報およびスペクトル包絡情報をそれぞれ担う2つの音声符号化パラメータ並びに副音声の通信端末の復号音声信号におけるピッチ周期情報を担う音声符号化パラメータについては音声再符号化処理を施すことなく各通信端末に送信し、主音声および副音声の通信端末の復号音声信号において音声再符号化処理を施す音声符号化パラメータについては伝送レート制御機能に基づく縮退の量子化ビット制御を行った後に各通信端末に送信するように構成したので、主音声と副音声とが同時に発言した場合でも、副音声の符号化パラメータを縮退させることで、伝送レートを維持しつつ主音声の音声品質の劣化を極力抑えて伝送できるという効果がある。
【0101】
この発明によれば、多地点制御装置の音声符号化伝送システムにおける縮退の量子化ビット制御が行われる符号化パラメータを、利得符号帳であるように構成したので、音声品質の劣化に対して影響の少ない利得符号帳インデックスの符号化パラメータを縮退させて、2話者が同時に発言した場合でも、音声品質の劣化を抑制できるという効果がある。
【0102】
この発明によれば、多地点制御装置の音声符号化伝送システムにおける縮退の量子化ビット制御が行われる符号化パラメータを、雑音符号帳であるように構成したので、音声品質の劣化に対して影響の少ない代数符号帳インデックスの符号化パラメータを縮退させて、2話者が同時に発言した場合でも、音声品質の劣化を抑制できるという効果がある。
【0103】
この発明によれば、多地点制御装置の音声符号化伝送システムを、音声符号化パラメータについて音声再符号化処理を施した後に各通信端末に送信するかまたは音声再符号化処理を施すことなく各通信端末に送信するかを決定する符号化モード情報を所定ビット数からなる符号化パラメータのフレームに含めるように構成したので、伝送レートに影響を与えることなく、特定の符号化パラメータをパススルーするか否かの情報を符号化パラメータのフレームに含めることができるという効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による音声符号化伝送システムに適用した多地点制御装置の構成を示すブロック図である。
【図2】 同実施の形態1における音声符号化パラメータ制御部の構成を示すブロック図である。
【図3】 同実施の形態1における音声復号処理部の構成を示すブロック図である。
【図4】 同実施の形態1における音声再符号化処理部の構成を示すブロック図である。
【図5】 同実施の形態2における音声再生符号化処理部の構成を示すブロック図である。
【図6】 同実施の形態2における会議端末の受信側の構成を示すブロック図である。
【図7】 同実施の形態2における会議端末の音声復号処理部の構成を示すブロック図である。
【図8】 同実施の形態2に係る音声符号化パラメータのフレーム構成を示す図である。
【図9】 同実施の形態2に係る符号化パラメータの1フレームのビット割り当て例を示す説明図である。
【図10】 同実施の形態3における多地点制御装置の構成を示すブロック図である。
【図11】 同実施の形態3における音声符号化パラメータ制御部の構成を示すブロック図である。
【図12】 同実施の形態4に係る音声符号化伝送システムに適用する多地点制御装置の構成を示すブロック図である。
【図13】 同実施の形態4における音声符号化パラメータ制御部の構成を示すブロック図である。
【図14】 同実施の形態5に係る音声符号化パラメータのフレーム構成を示す図である。
【図15】 同実施の形態5に係る符号化パラメータの1フレームのビット割り当て例を示す説明図である。
【図16】 従来のCELP方式に基づく音声符号化装置の構成を示すブロック図である。
【図17】 従来の多地点制御装置の構成を示すブロック図である。
【図18】 従来の多地点制御装置の他の構成を示すブロック図である。
【図19】 従来のCELP系音声符号化装置の構成を示すブロック図である。
【符号の説明】
104 線形予測分析処理部、105 LSP量子化処理部、106 LSP量子化符号帳、108 多重化部、109 逆量子化処理部、110 適応符号帳、110b 第2の適応符号帳、111 代数符号帳(雑音符号帳)、112,116 加算器、113a,113b 利得制御増幅部、113c 利得制御増幅部、114 利得量子化符号帳、115 合成フィルタ、117 聴覚重み付フィルタ、118 歪最小化部、119,120 切替スイッチ、121 ピッチプレフィルタ、124 LPC・LSP変換部、125 利得MA予測部、126 多重分離部、127,128 制御増幅部、129 加算器、130 切替スイッチ、131a 適応符号帳、131b 利得復号部、132 復号利得MA予測部、133 代数符号復号部、134 ピッチプレフィルタ、135LSP復号部、136 LSP内挿部、137 LSP・LPC変換部、138 合成フィルタ、139 ポストフィルタ、140 符号化レート制御部、201 交換機、202 回線インタフェース部、203 声声復号処理部、204 音声検出部、205 雑音抑圧処理部、206 音声加算部、207 分配処理部、208 自端末音声減算部、209 自動利得制御部、210 音声再符号化処理部、211 音声符号化パラメータ制御部、212 セレクタ、213 分配処理部、214 発言者選択部、215 先着チャネル判定部、216優先話者判定部、224 MCU制御部。

Claims (13)

  1. 通信ネットワークを介して複数の通信端末と接続し、各通信端末で取り扱われる音声を符号化した符号化音声信号を受信および送信の対象とし、これら符号化音声信号の情報内容に応じて所定の処理を施し、前記複数の通信端末に対し処理した符号化音声信号を配信する多地点制御装置の音声符号化伝送システムにおいて、
    各通信端末から受信した符号化音声信号を復号して復号音声信号を生成し、
    復号音声信号が有音である通信端末を判定し、
    有音であると判定した通信端末の1つを指定し、
    その指定した通信端末の復号音声信号における複数種類の音声符号化パラメータのうち一部の音声符号化パラメータについては音声再符号化処理を施すことなく前記各通信端末に送信し、
    前記指定した通信端末の復号音声信号における複数種類の音声符号化パラメータのうち他の音声符号化パラメータおよび他の通信端末の復号音声信号における複数種類の音声符号化パラメータについては音声再符号化処理を施した後に前記各通信端末に送信することを特徴とする多地点制御装置の音声符号化伝送システム。
  2. 1つの通信端末からの復号音声信号のみが有音である場合には前記1つの通信端末を指定し、その指定した通信端末の復号音声信号における一部の音声符号化パラメータについては音声再符号化処理を施すことなく各通信端末に送信することを特徴とする請求項1記載の多地点制御装置の音声符号化伝送システム。
  3. 複数の通信端末に対して優先順位を設定し、復号音声信号が有音であると判定した通信端末が複数である場合にはその中で優先順位が最も高い1つの通信端末を指定し、その指定した通信端末の復号音声信号における一部の音声符号化パラメータについては音声再符号化処理を施すことなく各通信端末に送信することを特徴とする請求項1記載の多地点制御装置の音声符号化伝送システム。
  4. 復号音声信号が有音であると判定した通信端末が複数である場合には先に音声信号を受信した先着順に優先順位を設定することを特徴とする請求項3記載の多地点制御装置の音声符号化伝送システム。
  5. あらかじめ1つの特定の通信端末を優先的に指定して優先順位を設定することを特徴とする請求項3記載の多地点制御装置の音声符号化伝送システム。
  6. 一部の音声符号化パラメータは、ピッチ周期情報を担うパラメータであることを特徴とする請求項1から請求項5のうちのいずれか1項記載の多地点制御装置の音声符号化伝送システム。
  7. 一部の音声符号化パラメータは、スペクトル包絡情報を担うパラメータであることを特徴とする請求項1から請求項5のうちのいずれか1項記載の多地点制御装置の音声符号化伝送システム。
  8. 複数の通信端末から受信した復号音声信号が有音であると判定した場合には、有音の通信端末の数に応じて音声符号化パラメータのフレームのビット配分を適応的に設定することを特徴とする請求項1から請求項7のうちのいずれか1項記載の多地点制御装置の音声符号化伝送システム。
  9. 複数の通信端末のうち優先順位が第1位の通信端末および第2位の通信端末から受信した復号音声信号が有音であると判定した場合には、前記第1位の通信端末の復号音声信号におけるピッチ周期情報およびスペクトル包絡情報をそれぞれ担う2つの音声符号化パラメータ並びに前記第2位の通信端末の復号音声信号におけるピッチ周期情報を担う音声符号化パラメータについては音声再符号化処理を施すことなく各通信端末に送信し、前記第1位および第2位の通信端末の復号音声信号において音声再符号化処理を施す音声符号化パラメータについては伝送レート制御機能に基づく縮退の量子化ビット制御を行った後に前記各通信端末に送信することを特徴とする請求項8項記載の多地点制御装置の音声符号化伝送システム。
  10. 複数の通信端末のうち主音声の通信端末および副音声の通信端末から受信した復号音声信号が有音であると判定した場合には、前記主音声の通信端末の復号音声信号におけるピッチ周期情報およびスペクトル包絡情報をそれぞれ担う2つの音声符号化パラメータ並びに前記副音声の通信端末の復号音声信号におけるピッチ周期情報を担う音声符号化パラメータについては音声再符号化処理を施すことなく各通信端末に送信し、前記主音声および副音声の通信端末の復号音声信号において音声再符号化処理を施す音声符号化パラメータについては伝送レート制御機能に基づく縮退の量子化ビット制御を行った後に前記各通信端末に送信することを特徴とする請求項8記載の多地点制御装置の音声符号化伝送システム。
  11. 縮退の量子化ビット制御が行われる符号化パラメータは、利得符号帳であることを特徴とする請求項9または請求項10記載の多地点制御装置の音声符号化伝送システム。
  12. 縮退の量子化ビット制御が行われる符号化パラメータは、雑音符号帳であることを特徴とする請求項9または請求項10記載の多地点制御装置の音声符号化伝送システム。
  13. 音声符号化パラメータについて音声再符号化処理を施した後に各通信端末に送信するか、または音声再符号化処理を施すことなく前記各通信端末に送信するかを決定する符号化モード情報を所定ビット数からなる符号化パラメータのフレームに含めることを特徴とする請求項1から請求項12のうちのいずれか1項記載の多地点制御装置の音声符号化伝送システム。
JP2002208664A 2002-07-17 2002-07-17 多地点制御装置の音声符号化伝送システム Expired - Fee Related JP4108396B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002208664A JP4108396B2 (ja) 2002-07-17 2002-07-17 多地点制御装置の音声符号化伝送システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002208664A JP4108396B2 (ja) 2002-07-17 2002-07-17 多地点制御装置の音声符号化伝送システム

Publications (2)

Publication Number Publication Date
JP2004053763A JP2004053763A (ja) 2004-02-19
JP4108396B2 true JP4108396B2 (ja) 2008-06-25

Family

ID=31932748

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002208664A Expired - Fee Related JP4108396B2 (ja) 2002-07-17 2002-07-17 多地点制御装置の音声符号化伝送システム

Country Status (1)

Country Link
JP (1) JP4108396B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8369799B2 (en) 2007-10-25 2013-02-05 Echostar Technologies L.L.C. Apparatus, systems and methods to communicate received commands from a receiving device to a mobile device
CN101981872B (zh) * 2008-03-31 2016-04-27 艾科星科技公司 用于经由无线电话网络的话音信道发射数据的系统、方法及设备
US8867571B2 (en) 2008-03-31 2014-10-21 Echostar Technologies L.L.C. Systems, methods and apparatus for transmitting data over a voice channel of a wireless telephone network
JP6809313B2 (ja) 2017-03-14 2021-01-06 株式会社村田製作所 正極、電池、電池パック、電子機器、電動車両、蓄電装置および電力システム
JP7092048B2 (ja) * 2019-01-17 2022-06-28 日本電信電話株式会社 多地点制御方法、装置及びプログラム

Also Published As

Publication number Publication date
JP2004053763A (ja) 2004-02-19

Similar Documents

Publication Publication Date Title
CN108352164B (zh) 将立体声信号时域下混合为主和辅声道的使用左和右声道之间的长期相关差的方法和系统
JP4518714B2 (ja) 音声符号変換方法
US7165035B2 (en) Compressed domain conference bridge
JP5153791B2 (ja) ステレオ音声復号装置、ステレオ音声符号化装置、および消失フレーム補償方法
JP4263412B2 (ja) 音声符号変換方法
KR20060131851A (ko) 통신 장치 및 신호 부호화/복호화 방법
JPH0962299A (ja) コード励振線形予測符号化装置
US7443978B2 (en) Method and apparatus for audio coding with noise suppression
US20030195745A1 (en) LPC-to-MELP transcoder
JP4558734B2 (ja) 信号復号化装置
US9258429B2 (en) Encoder adaption in teleconferencing system
JPH08305398A (ja) 音声復号化装置
JP4108396B2 (ja) 多地点制御装置の音声符号化伝送システム
JP4236675B2 (ja) 音声符号変換方法および装置
JP3649854B2 (ja) 音声符号化装置
JP4985743B2 (ja) 音声符号変換方法
Taleb et al. G. 719: The first ITU-T standard for high-quality conversational fullband audio coding

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050627

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20071030

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20071030

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071030

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080304

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080402

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110411

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees