JP4033840B2 - 音声ミキシング方法、音声ミキシング装置、音声ミキシングプログラム及びこれを記録した記録媒体 - Google Patents

音声ミキシング方法、音声ミキシング装置、音声ミキシングプログラム及びこれを記録した記録媒体 Download PDF

Info

Publication number
JP4033840B2
JP4033840B2 JP2004034827A JP2004034827A JP4033840B2 JP 4033840 B2 JP4033840 B2 JP 4033840B2 JP 2004034827 A JP2004034827 A JP 2004034827A JP 2004034827 A JP2004034827 A JP 2004034827A JP 4033840 B2 JP4033840 B2 JP 4033840B2
Authority
JP
Japan
Prior art keywords
information
mixing
audio
voice
encoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004034827A
Other languages
English (en)
Other versions
JP2005229259A (ja
Inventor
祐介 日和▲崎▼
仲 大室
岳至 森
祥子 栗原
章俊 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004034827A priority Critical patent/JP4033840B2/ja
Publication of JP2005229259A publication Critical patent/JP2005229259A/ja
Application granted granted Critical
Publication of JP4033840B2 publication Critical patent/JP4033840B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Description

本発明は、インターネットを始めとするパケット通信ネットワークにおいて多地点遠隔会議を行うことを目的に、複数地点の音声を受信した後にミキシングをして伝送して再生する場合に用いる音声ミキシング方法、音声ミキシング装置、音声ミキシングプログラム及びこれを記録した記録媒体に関する。
多地点遠隔会議を行なう場合、各地点で発生した音声情報はミキシングサーバに集められ、ミキシングサーバでミキシングされて各対地に返送される。各対地に返送されるミキシング情報は自己を除く他の対地で発生した音声情報とされる。符号化された音声情報をミキシングする場合、符号化情報を一旦、音声信号に復号し、音声信号の形態でミキシングする必要がある。
図1にその一例を示す。図1に示す例ではパケット信号を符号化情報抽出部1−1,1−2,1−3で各対地別の符号化情報を抽出し、その抽出した符号化情報をそれぞれ復号部2−1,2−2,2−3で復号し、復号した音声信号をミキシング部3でミキシングし、ミキシングの後、符号化部4−1,4−2,4−3で再び符号化し、パケット構築部5−1,5−2,5−3でパケット情報に変換し、各対地別にミキシングされたパケット情報を送出している。
ミキシング部3では図1に示す例では一旦総和信号を生成し、この総和信号からそれぞれ、自己の対地情報(自己が送り出した音声情報)を引算し、自己以外の対地情報のみが自己に返送されるように構成した場合を示す。但し、初めから自己以外の対地情報のみを加算して自己に返送するミキシング方法もある。
ここでは、通常、音声帯域は0Hzからサンプリングされた信号のナイキスト周波数付近までを含む帯域とされ、この信号を一括して符号化する方法が用いられるが、広帯域信号を一括に符号化する方法を採る場合は以下に述べるような不都合が生じる。
広帯域信号を0Hzからナイキスト周波数付近まで一括して符号化する方法つまりAM帯域(7.5kHz帯域)以上の広帯域信号を符号化する場合、一括に符号化すると単純に符号化しなければならないサンプル数が狭帯域信号と比べて倍以上になる。従って、AM帯域以上の広帯域符号化を用いて多地点会議システムを構築しようとする場合、処理しなければならない音声帯域が広くなるため、狭帯域の音声符号化方式を用いる場合よりも演算量が増大する。このため、特にソフトウェアでミキシング方式をミキシングサーバに実装した場合、現実的な演算量に収まらずに実現が不可能であった。
ミキシングを効果的に行う方法としてエネルギ最大の音声信号を選択し、このエネルギ最大の音声信号をその送出端末を除く他の端末に送信し、2番目に大きいエネルギの音声信号を最大エネルギを送信した端末に配信するミキシング方法が提案されている(特許文献1)。この特許文献1に開示されたミキシング方法には音声の広帯域化に伴う演算量の増大を減縮しようとする考えは開示されていない。
広帯域信号を符号化する方法として階層符号化方法がある。階層符号化方法の一つとなる帯域分割型の広帯域符号化送信方法を図2に示す。帯域分割型の階層符号化方法は図2に示すように、入力信号を帯域分割フィルタバンク6で高域信号と低域信号とに分離し、高域信号は拡張レイヤ符号化部7−1で符号化し、低域信号は基本レイヤ符号化部7−2で符号化する。各符号化部7−1及び7−2で符号化された高域符号化情報と低域符号化情報は符号化情報構築部8で複合され、音声パケット送信部9から音声パケット信号として送出される。
この帯域分割型の階層符号化方法によれば低域と、高域に分離し、低域のみでも音声を再生することができる利点がある。
この階層符号化方法で符号化された音声符号化情報をミキシングサーバでミキシングする構成を図3に示す。各対地から送られて来た音声パケットはそれぞれ符号化情報抽出部1−1,1−2,1−3でそれぞれの対地別のパケットのみを抽出する。この場合、各対地別の音声パケットから低域符号化情報と高域符号化情報とが分離されて抽出される。
低域符号化情報はそれぞれ低域復号部11−1,11−2,11−3で低域の音声信号に復号され、また高域符号化情報は高域復号部12−1,12−2,12−3で高域の音声信号に復号される。低域復号部で復号された低域音声信号は基本レイヤミキシング部13でミキシングされ、低域符号化部15−1,15−2,15−3でそれぞれ符号化され、パケット構築部5−1,5−2,5−3に入力される。
一方、拡張レイヤミキシング部14では高域復号部12−1,12−2,12−3で復号された高域信号をミキシングし、高域符号化部16−1,16−2,16−3で符号化してパケット構築部5−1,5−2,5−3に入力され、パケット構築部5−1,5−2,5−3から各対地向にミキシングされたパケット(自己以外の音声をミキシングしたパケット)が送出される。各対地に設けられる受信手段は図4に示すように音声パケット受信部51と、符号データ分解部52と、高域信号復号部53と、低域信号復号部54と、帯域合成フィルタバンク56とによって構成される。
特開2000−92218号公報
上述したように、階層符号化方法を用いることにより、符号化復号化に要する演算量は低減できるものの、ミキシングの過程においては低域信号及び高域信号を共に復号し、音声信号に変換してそれぞれをミキシングするため、ミキシングに要する演算量は図1に示した場合と比較して増加する欠点がある。
この発明の目的はこの欠点を一掃することができるミキシング方法及び装置を提案するものである。
この発明の請求項1では複数の地点から送られた音声信号を相互にミキシングし、ミキシングした音声信号を各地点に再送する多地点遠隔会議システムに用いる音声ミキシング方法において、複数の地点から送られる音声信号は基本レイヤ情報と拡張レイヤ情報とを備えた階層符号化情報とされ、階層符号化された基本レイヤ情報を全地点ミキシングし、拡張レイヤ情報は選択的に上記全地点ミキシングした基本レイヤ情報にミキシングし、
地点から送られて来る拡張レイヤ情報に優先度情報を含み、ミキシングサーバはこの優先度情報を参照し、優先度の最も高い拡張レイヤ情報の再送地点を選択し、
地点から送られて来る拡張レイヤ情報に優先度情報を含み、ミキシングサーバはこの優先度情報の最も順位の高い拡張レイヤ情報を発信した地点以外の地点に上記順位が最も高い拡張レイヤ情報をミキシングして再送する音声ミキシング方法を提案する。
この発明の音声ミキシング方法によれば基本レイヤの符号化情報のみを音声信号に復号し、その音声信号のみをミキシングして符号化する処理を施すが、拡張レイヤの符号化情報に関しては復号せずに、符号化情報の形態のまま、ミキシングされた基本レイヤ情報に優先度の高い拡張レイヤの符号化情報をミキシングするから、拡張レイヤ側では復号化、加算及び符号化の演算処理が不要となり、それだけ演算処理量を低減することができる。
また、拡張レイヤの音声情報を相互にミキシングする場合であっても、符号化処理部の数は対地数に関係なく優先度の組合せで発生するミキシングの組合せの数で決定され、符号化処理部の数を低減することができる。
図5に本発明を実施するための最良の形態となる多地点遠隔会議システムの全体の一例を示す。この例では、N=3地点分の会議参加者(対地1、対地2、対地3)が存在し、各対地は各地点の音声データを符号化して、ミキシングサーバ(MCU)に伝送する。ミキシングサーバ(MCU)へは、10ms〜40msの処理単位でパケットを伝送するが、この処理単位は符号化のフレーム長(処理単位)と同期してもよいし、ひとつのパケットを複数フレーム分の符号化データから構築しても良い。
ミキシングサーバ(MCU)では、これらの各地点の音声信号をミキシングするが、対地1向けに対地2と3の音声信号を、対地2向けに対地1と3の音声信号を、対地3向けに対地1と2の音声信号をミキシングする。つまり、以上を一般化するとN地点の多地点遠隔会議を行う場合、i番目の地点の対地には、i地点を除いた全ての地点(N−i地点分)の音声のミキシングを行い、伝送する。これは、i番目の対地に送信する信号を符号化するために、対地毎にその地点以外の信号を全て加算して求める必要がある。しかし、全ての地点を加算した信号から、送信先の対地の信号を引算した信号を符号化すれば、最低限の演算量でミキシングが可能となる。
ここで、図6に、本発明を実施した場合の各対地の送信部(共通)のブロック図を示す。この送信部は、図2を用いて説明した帯域分割型の階層符号化方式に、優先度情報演算部10を加えたものである。このような帯域分割型の階層構成の場合の低域および高域の信号の関係を簡単に図7に示す。この図7では周波数帯域としてサンプリング周波数の半分(ナイキスト周波数)を表示してあるが、実際には4kHzには3.4kHz、8kHzには7.5kHzなどとナイキスト周波数より少し小さい値を持って周波数帯域を制限する。
この優先度情報演算部10では、k番目の処理フレームにおいて、以下の項目の一部もしくは全部を演算する。
1.x1[k]:絶対電力の対数表現
2.x2[k]:高域と低域の絶対電力の比
3.x3[k]:前処理フレームと現フレームの絶対電力の比
4.x4[k]:周期性
次に、以下の1次結合式を用いて、そのフレーム分のデータが損失した場合の予測MOS値を演算する。上記1〜4の演算方法及び予測MOS値の演算方法に関しては後で詳細に説明する。
y[k]=α0+Σn=1 4αnn[k] (1)
こうして得られた予測MOS値は0〜5までの値を取る実数値となり、そのまま伝送してもよいが、付加情報量を低減させるために、予め決めておいた符号帳を用いてスカラー量子化を行ってその符号インデックスのみを伝送してもよい。
以上のようにして得られた低域信号と高域信号の符号化情報及び音声情報(予測MOS値すなわち重要度)は符号化情報構築部8で符号パケットのペイロードデータとして多重化(MUX)され、ミキシングサーバ(MCU)に送信される。
尚、ミキシングサーバ(MCU)はコンピュータで構成される。コンピュータはこの発明で提案する音声ミキシング方法を実行するための音声ミキシングプログラムによって動作する。音声ミキシングプログラムはコンピュータが読み取り可能な磁気記録媒体或はコンパクトディスク(CD)等の記録媒体に記録され、記録媒体からコンピュータにインストールされるか、または通信回線を媒体として通信回線を通じてインストールされる。
コンピュータにインストールされた音声ミキシングプログラムはコンピュータに備えられた中央演算処理装置に解読されてこの発明で提案する音声ミキシング方法を実行する。
図8にこの発明による音声ミキシング方法に従って動作する音声ミキシング装置の一実施例を示す。この実施例では図6を用いて説明した階層符号化方法によって符号化された音声パケットをミキシングする場合のミキシングサーバの実施例を示す。ここでは各対地から送信された音声パケットは符号化情報分解部1−1,1−2,1−3で低域符号化情報(基本レイヤ符号化情報)と高域符号化情報(拡張レイヤ符号化情報)と、優先度情報とに分解される。
低域符号化情報は各低域信号復号部11−1,11−2,11−3で音声信号に復号され、基本レイヤミキシング部13ですべての地点の信号が加算され、総低域信号として求められる。この総低域信号から前述のとおり、各対地自身の低域信号を引算し、各対地向けの低域信号を生成する。こうして得られた各ミキシング済み低域信号は各対地向けに低域符号化部15−1,15−2,15−3で符号化され、各対地向けのミキシング済み低域符号化情報を得る。
次に、各対地から送られて来た優先度情報に基づき選択部21では重要度の高い方から対地を2地点選択する。この選択には、予測MOS値の大小比較によって判別する。つまり、最も予測MOS値が低い(小さい)ものが再生されないと品質に影響する可能性があるため、最も重要となる。
そこで、最も重要度の高い高域符号を発信している対地には、2番目に重要な音声情報を持つ高域符号を、それ以外の対地には最も重要度の高い音声情報を持つ高域符号を選択する。これらの選択は選択部21の制御に従って切替部22と23で実行される。尚、このとき、重要度を1番目と2番目の2点選択せずに、1番目のみを選択し、1番目の重要度を発信した対地に対しては高域が無音となる符号を伝送し、他の対地に対しては最重要度の音声情報を持つ高域符号を伝送する方法もある。音質は1番目と2番目を選択するより多少劣化するが、演算量を一層軽減することが可能となる。
ただし、ここで選択部21では、あまり頻繁に話者が切り替わると異音が聴こえたり、不自然な再生音声になる可能性があるので、ある一定時間(例えば40ms〜200ms)以上は話者を切り替えないように制御する。
ここで各地点向けの低域符号と、切替部22と23で選択された高域符号は、各対地向けのパケット構築部5−1,5−2,5−3で多重化(MUX)され、各対地に向けて伝送される。
以上のようにミキシングルーチンを実施すると、高域部分に関しては復号化および再符号化の演算が不要となり、高域選択処理と符号化情報の複写だけで済むので、低域の復号化及び再符号化に必要とされる演算量とほぼ変らぬ演算量で広帯域ミキシング装置を擬似的に構築することが可能となる。また、切り替えるのは高域だけなため、通常の音声は低域に電力が集中することから、音の途切れなどは一切発生せず、再生音声が籠る程度の品質劣化だけで済む。
以上は1地点の高域符号のみを他の対地に対してミキシングする場合について述べたが、2地点以上から送られて来た高域符号をミキシングする方法も考えられる。図9にその一例を示す。高域符号をミキシングするには高域信号に復号し、高域信号をも加算して符号化する必要がある。このとき、高域信号の選択には、上記のように予測MOS値を用いて重要度の高い方から高域符号を予め選択しておき、最も重要度の高い高域符号を発信している対地には2番目と3番目に重要な音声情報を持つ高域符号を、2番目の重要度を持つ高域符号を発信した対地には1番目と3番目に重要な音声情報を持つ高域符号を、3番目以下の地点には1番目と2番目の符号を、それぞれ復号して加算し、再符号化を行う。各対地の音声受信再生部のブロック構成は図4に示すものを用いれば良い。
上述では拡張レイヤの音声符号を選択する音声情報として重要度を用いた例を説明したが、他の方法として音声区間検出と電力パワーとを用いる方法も考えられる。音声区間検出を用いた実施例の優先度情報演算部10(図6参照)のブロック図を図10に示す。ここでは、実施例1とは異なり、音声情報として重要度(予測MOS値)を演算して伝送するのではなく、音声区間の判別および量子化された絶対電力(パワー)を伝送する。
ここで、広帯域音声はダウンサンプリング部31でダウンサンプリングされ、8kHzサンプリングの狭帯域音声信号を求める。この狭帯域音声信号を10次程度の線形予測分析を行なう線形予測分析部33で線形予測係数を求め、線形予測逆フィルタ32で予測残差信号を求める。この予測残差信号の相関関数演算を相関関数演算部35で行い偏自己相関関数を求め、相関関数最大値演算部36で偏自己相関関数の最大値(ρmax )を求める。
一方、パワー演算部34では狭帯域音声信号からサンプル当りの平均パワー(P)を求める。平均推定音声パワー演算部37では、この平均パワーPの値が閾値Aよりも大きく、偏自己相関関数の最大値ρmax が閾値B以上の処理フレームは推定音声フレームとして扱い、平均推定音声パワーPsを以下の式を用いて求める。
s=(1−α)Ps+αP (2)
ここで、αには0.01〜0.3の値を用いる。この演算式を用いることにより、音声フレームとしての推定誤りがあっても、平均推定音声パワーはゆっくりとしか変化せず、推定誤りに対して頑強になる。また、平均推定背景雑音パワー演算部38では、偏自己相関関数の最大値ρmax が閾値C以下のフレームが一定以上連続するフレームにおいて、平均推定背景雑音パワーPnを以下の式を用いて求める。
n=(1−β)Pn+βP (3)
ここで、βにはαと同様に0.01〜0.3の値を用いる。この演算式を用いる場合も、音声フレームとしての推定誤りがあっても、平均推定音声パワーはゆっくりとしか変化せず、推定誤りに対して頑強になる。以上の値を用いて音声区間または無音区間(あるいは背景雑音区間)の判別を行う論理のフローチャートを図11に示す。
図11に示すステップSP1では平均推定音声パワーPsから無音状態の閾値Dを決める。
ステップSP2で平均パワーPが無音閾値D以下と判定された場合は無音区間と判定する。平均パワーPが無音閾値D以上の場合はステップSP3に進む。
ステップSP3では偏自己相関関数の最大値ρmax が有声音閾値E以上であるか、又は有声音閾値F以上のフレームに続く一定の時間範囲か否かを判定する。良であれば音声区間と判定する。否であればステップSP4に進む。
ステップSP4では平均パワーPが平均推定背景雑音パワーPn・X(Xは定数閾値)以上であるか否かを判定する。良であれば音声区間と判定する。否であればステップSP5に進む。
ステップSP5では連続する2フレームの平均パワーPの和がPn・Y(Yは定数閾値)以上であるか否かを判定する。良であれば音声区間と判定し否であれば無音区間と判定する。
平均パワーPは別途パワー量子化部40においてスカラー量子化を行ってビットの削減をしてもよいし、量子化せずにそのまま実数を伝送しても良い。
ミキシングサーバ(MCU)でのミキシング部(図8又は図9)では、選択部21では、この平均パワーPが最も大きく、かつ音声区間と判別された対地の高域符号(拡張レイヤ情報)を選択し、その拡張レイヤ情報を他の対地に向けて再送する基本レイヤ情報にミキシングする。
実施例1と同様に、ここでも選択部21では、あまり頻繁に話者が切り替わると異音が聴こえたり、不自然な再生音声になる可能性があるので、ある一定時間(例えば40ms〜200ms)以上は話者を切り替えないようにする。
階層符号化方法には上述した帯域分割型の他に品質分割型の階層符号化方法もある。図12に品質分割した基本品質符号化情報と品質拡張符号化情報の例を示す。基本品質符号化情報とは入力信号xを符号化した符号化情報を指す。また品質拡張符号化情報は基本品質符号化情報を復号した信号をx^としたとき、x−x^で求める。品質拡張符号化情報x−x^は基本品質符号化情報で得られるSN比を向上する役割りを持つ。この結果として、品質拡張符号化情報x−x^を符号化して伝送し、伝送先で復号し、その復号した信号を基本品質符号化情報の復号信号に加算すればSN比が改善された復号信号を得ることができる。
図13に品質分割型の符号化送信部の構成を示す。入力信号xは基本品質符号化部41で基本品質符号化情報に符号化される。符号化された基本品質符号化情報は基本品質情報復号部42で復号し、復号信号x^を求める。加算器43で現入力信号xからx−x^を演算し、その差信号を品質拡張信号符号化部45で符号化し、品質拡張符号化情報を得る。この品質拡張符号化情報を符号化情報構築部44で基本品質符号化情報に複合し、音声パケット送信部46から音声パケットとして送信される。
図14に受信再生部の構成を示す。受信再生部では音声パケットを音声パケット受信部51で受信し、自己に送られて来た情報のみを抽出する。符号データ分解部52では基本品質符号化情報と品質拡張符号化情報に分割し、それぞれを復号部53と54に入力し、復号する。復号された基本品質信号と品質拡張信号を加算器56で加算することにより、加算器56からSN比が改善された基本品質信号を得ることができる。
このような階層分割型の符号化を採る信号伝送経路の場合にも図8及び図9に示した音声ミキシング方法に適用することができる。図15及び図16にその実施例を示す。つまり、図15では各対地から送られて来た基本品質符号化情報の復号信号は自己の信号を除いて全てミキシングし、符号化して全ての対地に送信する。重要度の最も高い品質拡張情報又は平均パワーの最も大きい品質拡張情報を選択し、その品質拡張情報をこれを発信した地点以外の地点にミキシングして再送する。また、図16では品質拡張符号を一旦復号し、復号した品質拡張情報を重要度又は平均パワーに応じ優先度の1位と2位の品質拡張情報を選択し、その選択した2つの信号をミキシングし、ミキシングした信号を再度符号化し、1位の優先度を持つ品質拡張情報を発信した対地以外の対地に対して再送する。
品質拡張情報が再送された地点では基本品質情報を復号して再生する際に、再送されて来た品質拡張情報を加算することにより、この品質拡張情報によりSN比が改善される基本品質情報が必ず含まれているため再生される音声のSN比が向上し、聴き取り易い音声を得ることができる。
以上説明した帯域分割型の階層符号化と品質分割型の階層符号化方式とを複合した音声伝送方法も考えられる。つまり、帯域分割型の階層符号化により伝送する音声信号の広帯域化を達し、更に品質分割型の階層符号化によりSN比を改善するから高品質の音声を伝送することができる。この複合型の音声伝送方式の場合の信号の関係を図17に示す。この複合型の音声伝送方法に図8及び図9に示した音声ミキシング方法を適用することができる。その場合には図8と図9に示した選択部21が2組設けられ、一方は高域信号の重要度又は平均パワーの大小により高域信号のミキシング先を決定し、他方は品質拡張情報の重要度又は平均パワーの大小により品質拡張情報のミキシング先を決定するように構成すればよい。
以下では上述した拡張レイヤの優先度情報を演算する方法について説明する。尚、ここでは優先度情報の算出方法を容易に理解するために先ず一般的な符号化方法を例示して優先度を算出する方法を説明し、その後に階層符号化に適用した例を説明する。階層符号化としては帯域分割型の符号化を例示して説明する。
図18に一般的な符号化方法を用いたパケット送信部の構成を示す。入力端子111からの各サンプルがディジタル値とされた音声ディジタル信号(以下音声信号と記す)s[n]はこの種の一般的な符号化器と同様に5ミリ秒から20ミリ秒の単位のフレームにフレーム分割部112で分割され、各フレームごとに、つまり音声信号s[n](nは離散的時刻)がまとめてNサンプル毎に符号化部13で符号化される。例えば32kHzサンプリングの音声信号であれば、N=160サンプルからN=640サンプルである。またフレームごとにパケットの優先度を優先度決定部114で決定する。優先度決定部114の具体例を図17に示す。この例ではそのフレームの音声信号s[n]の特徴量を、複数の説明変数生成部141,142,143でそれぞれ説明変数x1[i],x2[i],x3[i]として生成する。i番目の処理フレームの説明変数xj[i]として、そのフレームの音声信号s[n]を入力して、その絶対電力を説明変数生成部141で次式(1)を計算して求める。
x1[i]=(1/N)Σn=1 Ns[Ni+n]2 (1)
あるいは、次式(2)に示すように絶対電力の対数表現としてx1[i]を求める。
x1[i]=log10((1/N)Σn=1 Ns[Ni+n]2 ) (2)
説明変数生成部142では説明変数生成部141よりの説明変数x1[i]と、前フレーム(i−1)の説明変数x1[i−1]を入力して現フレームの電力の前フレームの電力に対する比を次式(3)により計算して説明変数x2[i]を出力する。
x2[i]=x1[i]/(x1[i−1]) (3)
前フレームの説明変数x1[i−1]を前フレームバッファ142aに格納しておき、式(3)の計算を計算部142bで行い、現フレームの説明変数x1[i]で前フレームバッファ142aに保持する説明変数を更新する。
更に説明変数生成部143では音声信号s[n]を入力して、その自己相関関数(ρ[n])の最大値(周期性)を次式(4)により計算して説明変数x3[i]とする。
x3[i]=max(ρi [k]) (4)
ここで正規化された自己相関関数ρ[n]は、次式(5)を用いて計算する。
ρi[k]=Σn=0 N(s[Ni+n])(s[Ni+n+k])/
Σn=0 N(s[Ni+n])2 (5)
kは1,2,…とし、kの最大値は音声信号s[n]のピッチ周期相当程度とする。この時、自己相関関数をアップサンプリングして、つまり補間してより正確な値を計算するようにした方が良い結果が得られる。
これら求めた説明変数x1[i],x2[i],x3[i]を指標値計算部144で線形結合して指標値y[i]を求める。つまり例えば次式(6)、(7)を計算する。
y[i]=α0+Σj=1 3αjxj[i]^ (6)
xj[i]^は説明変数xjの確率分布の平均を0、分散を1に正規化したもの、つまり次式(7)で求まる。
xj[i]^=(xj[i]−xj′)/γj (7)
xj′,γjはそれぞれ説明変数xjの平均値、標準偏差である。
これらの線形結合係数α0,α1は重回帰分析(例えば奥野忠一他:多変量解析法(改訂版),日科技連,1981参照)を用いて事前に最適化した偏回帰係数値を用いる。例えば1つのパケット(フレーム)を消失させたときの受聴者が主観評価したMOS値をy[i]′とした時、このy[i]′と、式(6)により計算された指標値y[i]との誤差が最小となるように、最小自乗法を用いて、係数αjを求める。α0はMOS値1〜5の平均値である。ここでMOS値1は「非常に悪い」、MOS値5は「非常に良い」と対応する。
係数α0〜α3は、このように決められるから、αjの絶対値が大きいことはその説明変数(特徴量)がパケット(フレーム)消失時の主観評価品質に大きく影響し、αjの絶対値が小さければその説明変数(特徴量)はパケット(フレーム)消失時の主観評価品質への影響が比較的小さいことになる。つまり主観評価品質への影響度が大きい程、係数αjが大きくなるようにαjが決定されている。また指標値y[i]は複数の説明変数(特徴量)x1[i]〜x3[i]を係数α1〜α3を用いて線形結合させたものであるから、1つの説明変数(特徴量)のみにて、パケット(フレーム)消失の主観評価品質に与える影響の程度よりも、より正しく、影響の程度を示すことになる。主観評価品質に対して大きく影響を与えるフレーム、この場合音声であるから聴感的に重要なものは指標値y[i]が小さくなり、重要でないものは指標値が大きくなる傾向になる。
図19中の指標値計算部144において、各説明変数x1〜x3はそれぞれ正規化部144a1〜144a3で正規化され、正規化説明変数x1^〜x3^は乗算部144b1〜144b3で係数α1〜α3がそれぞれ乗算され、これら乗算結果と定数α0は加算部144c1,144c2により加算されて指標値y[i]が出力される。
こうして求められた指標値y[i]は、量子化部145でスカラ量子化され、離散的な値、例えば0,1,…,7の何れかの値の優先度p[i]が出力される。つまり一般的に指標値の小さいパケットは高優先度のものへ、大きいものは低優先度のものへと写像する。写像は以下のような関数で表わすことができる。
p[i]=f(y[i]) (8)
このとき用いる写像関数f(y)は、パケットを総優先度ステップ数に写像するスカラ量子化を用いればよい。このときの量子化のしきい値は、指標値y[i]を等確率で分割する方法や、指標値y[i]の範囲を等分割するなどの方法がある。
線形結合係数の各値は例えばα1=−0.37、α2=−0.1、α3=−0.2であり、その絶対値が大きい程、主観評価品質への影響が大きい。これらの3つの説明変数(特徴量)において絶対電力が大きいフレームが消失すると、主観評価品質への影響が最も大きい、これは音声信号中の大きなレベルのフレームが消失すれば大きな影響を与えることを意味している。自己相関関数の最大値が大きいフレームが消失すると主観評価品質への影響は次に大きい。このことは、そのフレームの絶対電力が小さくても、音声信号があれば、自己相関関数の最大値が大きくなり、そのように音声信号を含むフレームが消失は小さい絶対電力でも比較的大きく影響することを意味している。
従って、説明変数x1〜x3のうち少なくともx1とx3を用い、更にx2も用いると、一層なめらかな段階をもつ優先度p[i]が得られ、そのフレームの消失の主観評価品質への影響がより正確になる。以上の具体例は係数が負の値であり、評価値y[i]が小さい程、高い優先度p[i]とされる。
このようにして各フレームごとに決定された優先度p[i]は符号化部113よりのそのフレームiの符号P[i]と、パケット送出部115(図18)でパケットとして組立てられて出力される。
次に帯域分割型の階層符号化を行なう場合に優先度算出方法を適用した例を説明する。尚、ここでは基本レイヤである低域符号化側にも優先度決定部を設けた例を示す。
図20に示すように広帯域音声信号はフレーム分割部112で一定区間ごとのフレームに分割され、帯域分割部16で帯域通過フィルタを用いてF個の複数帯域に分割される。この帯域の分割方法は、音声信号s[n]が例えば16kHzサンプリングであれば上下各4kHz帯域(F=2)に分割し、32kHzサンプリングであればF=3で0〜4kHz帯域と、4kHz〜8kHz帯域と、8kHz〜16kHz帯域というようにウェーブレットで分割しても良いし、F=4で総て等間隔に各4kHz帯域に分割しても良い。各帯域分割された音声信号は個々の符号化器で、固定時間長(フレーム)ごとに符号化される。このときの音声ブロック(パケット)の分割イメージを図21に示す。図21の例はF=3でフレームごとに各帯域の信号がそれぞれブロック(パケット)とされ、フレームごとに3つのブロック(パケット)が生成されることになる。
図20に示す例では音声信号を上、下2帯域に分割した場合で、分離された低域音声信号s1[n]、高域音声信号s2[n]はそれぞれ低域符号化部113L、高域符号化部113Hで符号化される。また低域音声信号s1[n]、高域音声信号s2[n]はそれぞれ低域優先度決定部114L、高域優先度決定部114Hに入力され、フレームごとのパケット優先度がそれぞれ決定される。
低域優先度決定部114L の具体例を図22に示す。図22において図19と対応する機能構成部分に、同一番号に符号「L」を付けてある。低域音声信号s1[n]は説明変数生成部141Lで式(1)又は(2)と同様に絶対電力又はその対数が計算されて説明変数x1[1,i]が生成される。説明変数生成部142L で式(3)と同様に前フレーム電力比が計算されて説明変数x2[1,i]が生成される。また説明変数生成部143Lで式(4)、(5)と同様に自己相関関数の最大値が計算されて、説明変数x3[1,i]が生成される。
更にこの実施形態では説明変数生成部146L でこの帯域の絶対電力x1[f,i]と、他帯域の絶対電力とが入力されてこの帯域の絶対電力の総電力に対する比が次式(9)により計算され、説明変数x4[f,i]として出力される。
x4[f,i]=x1[f,i]/Σf=1 Fx1[f,i] (9)
図22の例ではF=2であるから、低域のx1[1,i]と高域のx1[2,i]により
x4[1,i]=x1[1,i]/(x1[1,i]+x1[2,i])
が計算される。
指標値計算部144L で説明変数x1[1,i],x2[1,i],x3[1,i],x4[1,i]が線形結合され、次式による指標値y[1,i]が計算される。
y[1,i]=α0+Σj=1 4αjxj[1,i]^
xj[1,i]^=(xj[1,i]−xj[1]′)/γj[1]
この指標値y[1,i]は量子化部145L で量子化され、優先度p[1,i]=f1(y[1,i])が出力される。
同様にして高域優先度決定部114H で指標値
y[2,i]=α0+Σj=1 4αjxj[2,i]^
xj[2,i]^=(xj[2,i]−xj[2]′)/γj[2]
が計算され、更に優先度p[2,i]=f2(y[2,i])が出力される。パケット送出部115は、低域符号化部113Lよりの符号化符号P[1,i]と優先度p[1,i]が1つのパケットとして、また符号化部113Hよりの符号化符号P[2,i]と優先度p[2,i]が1つのパケットとして送出される。
なお一般にF個に帯域分割された場合、f番目の帯域の指標値y[f,i]は
y[f,i]=α0+Σj=1 4αjxj[f,i]^
xj[f,i]^=(xj[f,i]−xj[f]′)/γj[f]
により計算され、優先度p[f,i]はff(y[f,i])により求められる。
係数α4は例えば−0.43であり、α1より大とされる。つまり分割された帯域のフレームの全帯域電力に対する比が大きいことは、その部分に大きな電力の音声信号成分があることになりα1〜α4中で優先度を最も高くすることが好ましいことを意味している。
この発明の音声ミキシング方法及び装置は多地点遠隔会議システムに適用して好適である。
従来の技術を説明するためのブロック図。 階層符号化を説明するためのブロック図。 階層符号化を用いた場合のミキシング方法を説明するためのブロック図。 階層符号化を用いた場合の受信部の構成を説明するためのブロック図。 多地点遠隔会議システムの概要を説明するためのブロック図。 階層符号化に優先度情報を付加して送信する送信部の構成を説明するためのブロック図。 帯域分割型符号化方式の帯域分割の例を説明するための図。 この発明の第1実施例を説明するためのブロック図。 この発明の第2実施例を説明するためのブロック図。 この発明に適用することができる優先度情報の他の算出方法を説明するためのブロック図。 図10で説明した優先度情報に用いる音声区間の判定方法を説明するためのフローチャート。 この発明に適用することができる品質分割型階層符号化を説明するための図。 図12で説明した階層符号化により符号化した情報を送信する送信部の構成を説明するためのブロック図。 図12で説明した階層符号化により符号化された情報を受信して再生する受信部の構成を説明するためのブロック図。 この発明を品質分割型階層符号化に適用した実施例を説明するためのブロック図。 この発明を品質分割型階層符号化に適用した他の例を説明するためのブロック図。 帯域分割型と品質分割型を複合した階層符号化を説明するための図。 一般的な符号化方法に優先度情報算出機能を付加した構成を説明するためのブロック図。 図18に示した優先度情報算出部の内部の構成を説明するためのブロック図。 帯域分割型符号化に優先度決定部を付加した構成を説明するためのブロック図。 帯域分割した信号を帯域−時間座標ブロックに分割した例を示す図。 図20に示した優先度決定部の内部の構成を説明するためのブロック図。
符号の説明
1−1,1−2,1−3 符号化情報抽出部
2−1,2−2,2−3 復号部
3 ミキシング部
4−1,4−2,4−3 符号化部
5−1,5−2,5−3 パケット構築部
6 帯域分割フィルタバンク
7−1 拡張レイヤ符号化部
7−2 基本レイヤ符号化部
8 符号化情報構築部
9 音声パケット送信部
10 優先度情報演算部
11−1,11−2,11−3 低域復号部
12−1,12−2,12−3 高域復号部
13 基本レイヤミキシング部
14 拡張レイヤミキシング部
15−1,15−2,15−3 低域符号化部
16 高域符号化部
21 選択部
22,23 切替部

Claims (9)

  1. 複数の地点から送られた音声信号を相互にミキシングし、ミキシングした音声信号を各地点に再送する多地点遠隔会議システムに用いる音声ミキシング方法において、
    上記複数の地点から送られる音声信号は基本レイヤ情報と優先度情報を含む拡張レイヤ情報とを備えた階層符号化情報とされ、
    上記複数の地点の拡張レイヤ情報のうちの優先度情報の最も順位の高い拡張レイヤ情報を発信した地点以外の地点に対し、
    送出先となる地点以外の全ての上記複数の地点の基本レイヤ情報と、上記優先度情報の最も順位の高い拡張レイヤ情報とをミキシングして送出することを特徴とする音声ミキシング方法。
  2. 請求項記載の音声ミキシング方法において、
    上記優先度情報は各地点で符号化される拡張レイヤ情報の重要度の大小で表わされることを特徴とする音声ミキシング方法。
  3. 請求項記載の音声ミキシング方法において、
    上記優先度情報は各地点で符号化される音声信号の音声区間情報とパワー情報であることを特徴とする音声ミキシング方法。
  4. 請求項1乃至記載の音声ミキシング方法の何れかにおいて、
    上記階層符号化は帯域分割型階層符号化であることを特徴とする音声ミキシング方法。
  5. 請求項1乃至記載の音声ミキシング方法の何れかにおいて、
    上記階層符号化は品質分割型階層符号化であることを特徴とする音声ミキシング方法。
  6. 請求項1乃至記載の音声ミキシング方法の何れかにおいて、
    上記階層符号化を帯域分割型と品質分割型の複合符号化を用いることを特徴とする音声ミキシング方法。
  7. ミキシングサーバを用いた広帯域多地点遠隔会議システムに用いる音声ミキシング装置において、
    広帯域音声信号を基本レイヤ符号化情報と拡張レイヤ符号化情報に階層符号化して送られて来る階層符号化情報の基本レイヤ符号化情報を全地点ミキシングする基本レイヤミキシング手段と、
    各地点から送られて来る拡張レイヤ情報に含まれる優先度情報に従って、優先度の最も高い拡張レイヤ情報を発信した地点を選択する選択部と、
    この選択部が選択した優先度が最も高い拡張レイヤ情報を、この拡張レイヤ情報を発信した地点以外の地点に送出先を切替える切替部と、
    上記基本レイヤミキシング手段の出力を復号化した基本レイヤ情報と、上記切替部の出力である拡張レイヤ情報とを多重化するパケット構築部とを備えることを特徴とする音声ミキシング装置。
  8. コンピュータに請求項1乃至記載の音声ミキシング方法の何れかを実行させる音声ミキシングプログラム。
  9. コンピュータが読み取り可能な記録媒体で構成され、上記請求項記載の音声ミキシングプログラムを記録した記録媒体。
JP2004034827A 2004-02-12 2004-02-12 音声ミキシング方法、音声ミキシング装置、音声ミキシングプログラム及びこれを記録した記録媒体 Expired - Lifetime JP4033840B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004034827A JP4033840B2 (ja) 2004-02-12 2004-02-12 音声ミキシング方法、音声ミキシング装置、音声ミキシングプログラム及びこれを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004034827A JP4033840B2 (ja) 2004-02-12 2004-02-12 音声ミキシング方法、音声ミキシング装置、音声ミキシングプログラム及びこれを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2005229259A JP2005229259A (ja) 2005-08-25
JP4033840B2 true JP4033840B2 (ja) 2008-01-16

Family

ID=35003645

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004034827A Expired - Lifetime JP4033840B2 (ja) 2004-02-12 2004-02-12 音声ミキシング方法、音声ミキシング装置、音声ミキシングプログラム及びこれを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP4033840B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101926159A (zh) * 2008-02-04 2010-12-22 日本电气株式会社 声音混合装置和方法以及多点会议服务器

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4744332B2 (ja) * 2006-03-22 2011-08-10 富士通株式会社 ゆらぎ吸収バッファ制御装置
BRPI0714736A2 (pt) * 2006-08-30 2013-05-07 Nec Corp mÉtodo para misturar vozes para mixar uma pluralidade de informaÇÕes de voz, servidor de conferÊncia multiponto que mistura uma pluridade de informaÇÕpes de voz e programa para executar mistura de vozes
JP2010506207A (ja) * 2006-10-06 2010-02-25 エージェンシー フォー サイエンス,テクノロジー アンド リサーチ エンコード方法、デコード方法、エンコーダ、デコーダ、及びコンピュータプログラム製品
JP4714129B2 (ja) * 2006-11-29 2011-06-29 日本電信電話株式会社 音声/非音声判定補正装置、音声/非音声判定補正方法、音声/非音声判定補正プログラムおよびこれを記録した記録媒体、音声ミキシング装置、音声ミキシング方法、音声ミキシングプログラムおよびこれを記録した記録媒体
JP4709734B2 (ja) * 2006-12-01 2011-06-22 日本電信電話株式会社 話者選択装置、話者選択方法、話者選択プログラムおよびこれを記録した記録媒体
JP4758879B2 (ja) * 2006-12-14 2011-08-31 日本電信電話株式会社 仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置、方法
JPWO2009050896A1 (ja) 2007-10-16 2011-02-24 パナソニック株式会社 ストリーム合成装置、復号装置、方法
WO2009060498A1 (ja) * 2007-11-06 2009-05-14 Fujitsu Limited 多地点間音声通話装置
EP2226995A4 (en) * 2008-02-04 2012-01-11 Nec Corp LANGUAGE MIXER AND MULTIPORT CONFERENCE SERVER
JP5267257B2 (ja) * 2009-03-23 2013-08-21 沖電気工業株式会社 音声ミキシング装置、方法及びプログラム、並びに、音声会議システム
JP5269195B2 (ja) * 2009-05-29 2013-08-21 日本電信電話株式会社 符号化装置、復号装置、符号化方法、復号方法及びそのプログラム
JP5572338B2 (ja) * 2009-06-23 2014-08-13 日本電信電話株式会社 多地点接続装置、多地点接続方法
JP7176418B2 (ja) 2019-01-17 2022-11-22 日本電信電話株式会社 多地点制御方法、装置及びプログラム
JP7092050B2 (ja) * 2019-01-17 2022-06-28 日本電信電話株式会社 多地点制御方法、装置及びプログラム
JP7092048B2 (ja) 2019-01-17 2022-06-28 日本電信電話株式会社 多地点制御方法、装置及びプログラム
JP7092049B2 (ja) 2019-01-17 2022-06-28 日本電信電話株式会社 多地点制御方法、装置及びプログラム
JP7092047B2 (ja) 2019-01-17 2022-06-28 日本電信電話株式会社 符号化復号方法、復号方法、これらの装置及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101926159A (zh) * 2008-02-04 2010-12-22 日本电气株式会社 声音混合装置和方法以及多点会议服务器

Also Published As

Publication number Publication date
JP2005229259A (ja) 2005-08-25

Similar Documents

Publication Publication Date Title
JP4033840B2 (ja) 音声ミキシング方法、音声ミキシング装置、音声ミキシングプログラム及びこれを記録した記録媒体
US7672744B2 (en) Method and an apparatus for decoding an audio signal
JP4589366B2 (ja) 忠実度最適化可変フレーム長符号化
JP4809370B2 (ja) マルチチャネル音声符号化における適応ビット割り当て
RU2418324C2 (ru) Поддиапазонный речевой кодекс с многокаскадными таблицами кодирования и избыточным кодированием
US8639519B2 (en) Method and apparatus for selective signal coding based on core encoder performance
RU2639952C2 (ru) Гибридное усиление речи с кодированием формы сигнала и параметрическим кодированием
JPWO2007116809A1 (ja) ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
KR20160072145A (ko) 리던던트 프레임 정보를 통신하는 시스템들 및 방법들
KR102492119B1 (ko) 오디오 코딩/디코딩 모드를 결정하는 방법 및 관련 제품
CN114550732B (zh) 一种高频音频信号的编解码方法和相关装置
JP4512016B2 (ja) ステレオ信号符号化装置、ステレオ信号符号化方法、プログラム及び記録媒体
CN115171709B (zh) 语音编码、解码方法、装置、计算机设备和存储介质
CN114945982A (zh) 空间音频参数编码和相关联的解码
JP2013084002A (ja) 音声コーデックの品質向上装置およびその方法
EP2127088B1 (en) Audio quantization
KR20220034102A (ko) 오디오 스트림에 있어서의 메타데이터를 코딩하고 가요성 객체간 및 객체내 비트레이트 적응화를 위한 방법 및 시스템
US20130085751A1 (en) Voice communication system encoding and decoding voice and non-voice information
JPH11242499A (ja) 音声符号化/復号化方法および音声信号の成分分離方法
CN1244090C (zh) 具备背景噪声再现的语音编码
US20090129576A1 (en) Relay device, communication terminal, signal decoder, signal processing method, and signal processing program
KR102492791B1 (ko) 시간-도메인 스테레오 인코딩 및 디코딩 방법 및 관련 제품
CN103503065A (zh) 用于衰减低精确度重构的信号区域的方法和解码器
JP2982637B2 (ja) スペクトルパラメータを用いた音声信号伝送システムおよびそれに用いられる音声パラメータ符号化装置および復号化装置
US20090076828A1 (en) System and method of data encoding

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051003

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20051003

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070724

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071016

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071023

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101102

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4033840

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101102

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111102

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111102

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121102

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121102

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131102

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term