JP5158099B2

JP5158099B2 - 音声ミキシング装置および方法ならびに多地点会議サーバ

Info

Publication number: JP5158099B2
Application number: JP2009552440A
Authority: JP
Inventors: 伊藤　　博紀; 一範小澤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-02-04
Filing date: 2009-01-28
Publication date: 2013-03-06
Anticipated expiration: 2029-01-28
Also published as: JPWO2009098975A1; EP2239931A1; EP2239931A4; US8489216B2; CN101926159A; WO2009098975A1; US20100290645A1

Description

本発明は、複数の音声信号をミキシングする技術に関し、特に、多地点会議サービスを提供するサーバ等において用いられる音声信号のミキシング技術に関する。

多地点会議サービスを提供するシステムとして、特開２０００−１７５１７０号公報に記載の多地点テレビ会議システムがある。この多地点テレビ会議システムは、複数の会議端末と、これら会議端末が接続される多地点制御装置とからなる。会議端末が参加者に割り当てられる。

この多地点テレビ会議システムでは、各会議端末が、自端末にて検出した音響（音声）に関する音響信号を多地点制御装置に送信する。多地点制御装置は、各会議端末から受信した音響信号を加算する。そして、多地点制御装置は、会議端末のそれぞれに対して、加算した音響信号から当該会議端末から受信した音響信号を減算し、その減算結果として得られる音響信号を符号化し、その符号化した音響信号を当該会議端末に送信する。

ところで、多地点制御装置は、回線交換網、モバイル網、パケット網等の種々の通信網に適用することが可能である。回線交換網では、ＩＴＵ‐Ｔ（Telecommunication Union Telecommunication Standardization Sector）勧告のＨ．３２３やＨ．３２４により規定される通信プロトコルが用いられる。モバイル網では、３Ｇ−３２４Ｍにより規定される通信プロトコルが用いられる。ＩＰ(Internet Protocol)に基づくパケット網では、ＩＥＴＦ（The Internet Engineering Task Force）のＲＦＣ３５５０ＲＴＰが用いられる。「ＲＦＣ」は「Request for Comments」の略であり、「ＲＴＰ」は「Real-time Transport Protocol」の略である。

また、多地点制御装置には、サンプリング周波数が８ｋＨｚで、帯域が３．４ｋＨｚの電話帯域音声向けの音声符号化器を搭載するものや、サンプリング周波数が１６ｋＨｚで、帯域が７ｋＨｚの広帯域音声向けの音声符号化器を搭載するものなどがある。電話帯域音声向けの音声符号化器として、ＩＴＵ‐Ｔ勧告のＧ．７１１やＧ．７２９，３ＧＰＰで採用されているＡＭＲ(Adaptive Multi-Rate)方式のものや、３ＧＰＰ２で採用されているＥＶＲＣ(Enhanced Variable Rate Codec)方式のものなどが用いられる。広帯域音声向けの音声符号化器として、ＩＴＵ‐Ｔ勧告によるＧ．７２２や３ＧＰＰＴＳ２６．１９０で規定されているＡＭＲ‐ＷＢ(Wide Band)方式のものが用いられる。さらに、ＭＰＥＧ‐４ＡＡＣ(Advanced Audio Coding)などのコーデックを用いることで、より広帯域な音声信号を扱うことが可能である。

多地点会議サービスを利用する上での利便性を考慮すると、電話帯域を利用する端末や広帯域を利用する端末といった、異なる帯域の音声（音響）信号を送受信する端末間においても多地点会議サービスを提供できることが望ましい。しかしながら、上述した多地点制御装置は、電話帯域音声向け、または、広帯域音声向け、といったように、単一の帯域の音声信号にしか対応していないため、異なる帯域の音声信号を送受信する端末間における多地点会議サービスを提供することは困難である。

本発明の目的は、上記課題を解決し、サンプリング周波数が異なる複数の帯域の音声信号をミキシングすることができる、音声ミキシング装置、音声ミキシング方法および多地点会議サーバを提供することにある。

上記目的を達成するため、本発明の音声ミキシング装置は、
サンプリング周波数別に設けられた複数のミキシング処理部からなり、
前記複数のミキシング処理部のそれぞれは、
同一サンプリング周波数の入力音声信号を加算して第１の加算音声信号を生成し、該第１の加算音声信号のサンプリング周波数を他のミキシング処理部で処理可能なサンプリング周波数に変換し、該サンプリング周波数の変換がなされた音声信号を前記他のミキシング処理部に供給し、
自処理部で生成した前記第１の加算音声信号と、前記他のミキシング処理部から供給される、自処理部での処理が可能なサンプリング周波数への変換がなされた前記第１の加算音声信号とを加算して第２の加算音声信号を生成する、ことを特徴とする。

本発明の音声ミキシング方法は、
サンプリング周波数が異なる複数の入力音声信号をサンプリング周波数別に複数のグループに分類する第１のステップと、
前記第１のステップで分類したグループ毎に、同一サンプリング周波数の入力音声信号を加算して第１の加算音声信号を生成し、該第１の加算音声信号のサンプリング周波数を他のグループで処理可能なサンプリング周波数に変換し、該サンプリング周波数の変換がなされた音声信号を前記他のグループに割り当てる第２のステップと、
前記第１のステップで分類したグループ毎に、自グループで生成した前記第１の加算音声信号と、前記他のグループから割り当てられる、自グループでの処理が可能なサンプリング周波数への変換がなされた前記第１の加算音声信号とを加算して第２の加算音声信号を生成する第３のステップと、を含むことを特徴とする。

本発明の多地点会議サーバは、複数の通信端末とネットワークを介して接続される多地点会議サーバであって、
前記複数の通信端末から受信した複数の音声信号をサンプリング周波数別に分類する信号分類部と、
サンプリング周波数別に設けられた複数のミキシング処理部と、を有し、
前記複数のミキシング処理部のそれぞれは、
同一サンプリング周波数の入力音声信号を加算して第１の加算音声信号を生成し、該第１の加算音声信号のサンプリング周波数を他のミキシング処理部で処理可能なサンプリング周波数に変換し、該サンプリング周波数の変換がなされた音声信号を前記他のミキシング処理部に供給し、
自処理部で生成した前記第１の加算音声信号と、前記他のミキシング処理部から供給される、自処理部での処理が可能なサンプリング周波数への変換がなされた前記第１の加算音声信号とを加算して第２の加算音声信号を生成する、ことを特徴とする。

本発明の一実施形態である音声ミキシング装置の構成を示すブロック図である。図１に示す音声ミキシング装置を搭載した多地点会議サーバを用いた多地点会議システムの構成を示すブロック図である。図１に示す音声ミキシング装置のミキシング処理の一手順を示すフローチャートである。

符号の説明

１₁〜１_k ミキシング処理部
１０₁〜１０_n、２０₁〜２０_n、３０₁〜３０_n 音声信号入力端子
１３₁〜１３_k グループ信号加算部
１４₁〜１４_k-1、１２₁〜１２_k-1、１３₁〜１３_k-1 サンプリング変換部
１５₁〜１５_k 全信号加算部
１６₁〜１６_n、２６₁〜２６_n、３６₁〜３６_n 信号減算部
１７₁〜１７_n、２７₁〜２７_n、３７₁〜３７_n 符号化部
１９₁〜１９_n、２９₁〜２９_n、３９₁〜３９_n 音声信号出力端子

次に、本発明の実施形態について図面を参照して説明する。

図１は、本発明の一実施形態である音声ミキシング装置の構成を示すブロック図である。

図１に示す音声ミキシング装置は、多地点制御装置である多地点会議サーバに搭載されるものであって、ｋ個のミキシング処理部１₁〜１_kを有する。多地点会議サーバは、サンプリング周波数の異なる複数の帯域の音声信号を受信することが可能とされており、ミキシング処理部は、その帯域毎に設けられている。すなわち、ミキシング処理部１₁〜１_kの数は、多地点会議サーバで取り扱うことができる帯域の最大数に対応する。ここでは、多地点会議サーバは、ｋ個の異なる帯域Ｂ₁〜Ｂ_kの音声信号を受信するように構成されており、受信した音声信号が帯域別に設けられたミキシング処理部１₁〜１_kに供給される。

本実施形態の音声ミキシング装置の詳細な構成を説明する前に、本実施形態の音声ミキシング装置を搭載する多地点会議サーバの構成について簡単に説明する。

図２は、図１に示した音声ミキシング装置を搭載した多地点会議サーバを用いた多地点会議システムの構成を示すブロック図である。この多地点会議システムは、複数の端末２００と、これら端末２００が伝送路３００を介して接続される多地点会議サーバ１００とを有する。

伝送路３００は、回線交換網、モバイル網、パケット網等の複数の通信網を含む。端末２００と多地点会議サーバ１００の間において音声信号を送受信する際に、それぞれの通信網のプロトコルを通じて、音声信号の呼接続情報（音声信号を送信した端末のアドレス情報、帯域の情報、サンプリング周波数の情報などを含む）が多地点会議サーバ１００に供給される。

複数の端末２００は、伝送路３００を介して送受信される音声信号の帯域およびサンプリング周波数が異なる複数の端末を含む。例えば、サンプリング周波数が８ｋＨｚで、帯域が３．４ｋＨｚの電話帯域音声向けの端末や、サンプリング周波数が１６ｋＨｚで、帯域が７ｋＨｚの広帯域音声向けの端末などが、端末２００として用いられる。なお、各端末２００の構成は基本的に同じである。

端末２００は、ＡＤ変換部２０１、符号化部２０２、送信部２０３、ＤＡ変換部２０４、復号部２０５および受信部２０６からなる。

ＡＤ変換部２０１は、マイクロホン２０７からの音声信号（アナログ信号）をデジタル信号に変換する。符号化部２０２は、ＡＤ変換部２０１から供給された音声信号（デジタル信号）を符号化する。送信部２０３は、符号化部２０２から供給された符号化音声信号を、伝送路３００を介して多地点会議サーバ１００へ送信する。

受信部２０６は、多地点会議サーバ１００からの符号化音声信号（デジタル信号）を、伝送路３００を介して受信する。復号部２０５は、受信部２０６から供給される符号化音声信号を復号する。ＤＡ変換部２０４は、復号部２０５からの復号音声信号（デジタル信号）をアナログ信号に変換する。アナログ信号に変換された音声信号は、ＤＡ変換部２０４からスピーカ２０８に供給される。

多地点会議サーバ１００は、受信部１０１、複数の復号部１０２、信号分類部１０３、音声ミキシング装置１０４および送信部１０５を有する。音声ミキシング装置１０４は、図１に示した音声ミキシング装置である。

受信部１０１は、各端末２００からの音声信号を、伝送路３００を介して受信する。受信した音声信号は、受信部１０１から複数の復号部１０２のいずれかに供給される。復号部１０２は、受信部１０１から供給された音声信号を復号する。復号された音声信号は、復号部１０２から信号分類部１０３に供給される。

信号分類部１０３は、復号部１０２から供給された復号音声信号を、該復号音声信号のサンプリング周波数に応じて、図１に示したミキシング処理部１₁〜１_kのうちの対応するミキシング処理部に供給する。また、信号分類部１０３は、音声ミキシング装置１０４から供給された音声信号を送信部１０５に供給する。復号音声信号のサンプリング周波数は、受信部１０１が音声信号を受信した際に得られる呼制御情報から得ることができる。

送信部１０５は、信号分類部１０３から供給された音声信号を、伝送路３００を介して、複数の端末２００のうちの対応する端末へ送信する。受信部１０１が音声信号を受信した際に得られる呼制御情報に基づいて、送信先となる端末を識別することができる。

音声ミキシング装置１０４は、信号分類部１０３から供給される、サンプリング周波数別に分類された複数の音声信号をミキシングして符号化し、符号化した音声信号を信号分類部１０３に供給する。

以下、図１を参照して音声ミキシング装置１０４の構成を具体的に説明する。

音声ミキシング装置１０４は、ミキシング処理部１₁〜１_kからなる。ミキシング処理部１₁〜１_kは、基本的に同じ構成である。便宜上、図１には、ミキシング処理部１₁、ミキシング処理部１₂およびミキシング処理部１_kについての具体的な構成が示されている。

［ミキシング処理部１₁の構成］
ミキシング処理部１₁は、音声信号入力端子１０₁〜１０_n、グループ信号加算部１３₁、サンプリング変換部１４₁〜１４_k-1、全信号加算部１５₁、信号減算部１６₁〜１６_n、符号化部１７₁〜１７_n、および音声信号出力端子１９₁〜１９_nを有する。

帯域Ｂ₁の音声信号は、音声信号入力端子１０₁〜１０_nに割り振られる。例えば、帯域Ｂ₁の音声信号として、ｎ個の音声信号を受信した場合は、音声信号入力端子１０₁〜１０_nのそれぞれに受信音声信号が供給される。

音声信号入力端子１０₁からの音声信号は、信号減算部１６₁の第１の入力に供給されるとともに、グループ信号加算部１３₁に供給される。これと同様に、音声信号入力端子１０₂〜１０_nからの音声信号は、信号減算部１６₂〜１６_nの第１の入力に供給されるとともに、グループ信号加算部１３₁に供給される。

グループ信号加算部１３₁は、音声信号入力端子１０₁〜１０_nからの音声信号を加算し、その加算結果を出力する。グループ信号加算部１３₁の出力は、サンプリング変換部１４₁〜１４_k-1および全信号加算部１５₁に供給される。

サンプリング変換部１４₁〜１４_k-1は、帯域Ｂ₁を除く他の帯域Ｂ₂〜Ｂ_kに対応して設けられている。サンプリング変換部１４₁は、グループ信号加算部１３₁から供給された音声信号（加算結果）のサンプリング周波数を、帯域Ｂ₂の音声信号のサンプリング周波数に一致するように変換する。例えば、帯域Ｂ₁の音声信号のサンプリング周波数が８ｋＨｚであり、帯域Ｂ₂の音声信号のサンプリング周波数が１６ｋＨｚである場合は、サンプリング変換部１４₁は、グループ信号加算部１３₁からの音声信号のサンプリング周波数を、８ｋＨｚから１６ｋＨｚに変換する。これと同様に、サンプリング変換部１４₂〜１４_k-1も、グループ信号加算部１３₁からの音声信号のサンプリング周波数を対応する帯域の音声信号のサンプリング周波数に変換する。

サンプリング変換部１４₁の出力は、帯域Ｂ₂に対応するミキシング処理部１₂の全信号加算部に供給される。これと同様に、サンプリング変換部１４₂〜１４_k-1の出力は、帯域Ｂ₃〜Ｂ_kに対応するミキシング処理部１₃〜１_kの全信号加算部に供給される。

全信号加算部１５₁は、グループ信号加算部１３₁からの音声信号と他のミキシング処理部１₂〜１_kの各サンプリング変換部からの音声信号とを入力とし、これら入力音声信号を加算する。全信号加算部１５₁の出力は、信号減算部１６₁〜１６_nに供給される。

信号減算部１６₁は、音声信号入力端子１０₁からの音声信号を第１の入力とし、全信号加算部１５₁からの音声信号を第２の入力としており、第２の入力から第１の入力を差し引いた音声信号を出力する。信号減算部１６₁の出力は、符号化部１７₁に供給される。これと同様に、信号減算部１６₂〜１６_nのそれぞれも、音声信号入力端子１０₂〜１０_nのうちの対応する入力端子からの音声信号を第１の入力とし、全信号加算部１５₁からの音声信号を第２の入力としており、第２の入力から第１の入力を差し引いた音声信号を出力する。信号減算部１６₂〜１６_nの出力は、符号化部１７₂〜１７_nに供給される。

符号化部１７₁は、信号減算部１６₁からの音声信号を符号化する。これと同様に、符号化部１７₂〜１７_nも、信号減算部１６₂〜１６_nのうちの対応する信号減算部からの音声信号を符号化する。符号化部１７₁〜１７_nの出力は、音声信号出力端子１９₁〜１９_nに供給される。音声信号出力端子１９₁〜１９_nは、入力された音声信号を図２に示した信号分類部１０３に供給する。

［ミキシング処理部１₂の構成］
ミキシング処理部１₂は、音声信号入力端子２０₁〜２０_n、グループ信号加算部１３₂、サンプリング変換部２４₁〜２４_k-1、全信号加算部１５₂、信号減算部２６₁〜２６_n、符号化部２７₁〜２７_n、および音声信号出力端子２９₁〜２９_nを有する。

帯域Ｂ₂の音声信号は、音声信号入力端子２０₁〜２０_nに割り振られる。音声信号入力端子２０₁〜２０_nの数は、他のミキシング処理部の音声信号入力端子の数と同じであっても、異なっていても良い。

音声信号入力端子２０₁からの音声信号は、信号減算部２６₁の第１の入力に供給されるとともに、グループ信号加算部１３₂に供給される。これと同様に、音声信号入力端子２０₂〜２０_nからの音声信号は、信号減算部２６₂〜２６_nの第１の入力に供給されるとともに、グループ信号加算部１３₂に供給される。

グループ信号加算部１３₂は、音声信号入力端子２０₁〜２０_nからの音声信号を加算し、その加算結果を出力する。グループ信号加算部１３₂の出力は、サンプリング変換部２４₁〜２４_k-1および全信号加算部１５₂に供給される。

サンプリング変換部２４₁〜２４_k-1は、帯域Ｂ₂を除く他の帯域Ｂ₁、Ｂ₃〜Ｂ_kに対応して設けられている。サンプリング変換部２４₁は、グループ信号加算部１３₂から供給された音声信号（加算結果）のサンプリング周波数を、帯域Ｂ₁の音声信号のサンプリング周波数に一致するように変換する。これと同様に、サンプリング変換部２４₂〜２４_k-1も、グループ信号加算部１３₂からの音声信号のサンプリング周波数を対応する帯域の音声信号のサンプリング周波数に変換する。

サンプリング変換部２４₁の出力は、帯域Ｂ₁に対応するミキシング処理部１₁の全信号加算部に供給される。これと同様に、サンプリング変換部２４₂〜２４_k-1の出力は、帯域Ｂ₃〜Ｂ_kに対応するミキシング処理部１₃〜１_kの全信号加算部に供給される。

全信号加算部１５₂は、グループ信号加算部１３₂からの音声信号と他のミキシング処理部１₁、１₃〜１_kの各サンプリング変換部からの音声信号とを入力とし、これら入力音声信号を加算する。全信号加算部１５₂の出力は、信号減算部２６₁〜２６_nに供給される。

信号減算部２６₁は、音声信号入力端子２０₁からの音声信号を第１の入力とし、全信号加算部１５₂からの音声信号を第２の入力としており、第２の入力から第１の入力を差し引いた音声信号を出力する。信号減算部２６₁の出力は、符号化部２７₁に供給される。これと同様に、信号減算部２６₂〜２６_nのそれぞれも、音声信号入力端子２０₂〜２０_nのうちの対応する音声信号入力端からの音声信号を第１の入力とし、全信号加算部１５₂からの音声信号を第２の入力としており、第２の入力から第１の入力を差し引いた音声信号を出力する。信号減算部２６₂〜２６_nの出力は、符号化部２７₂〜２７_nに供給される。

符号化部２７₁は、信号減算部２６₁からの音声信号を符号化する。これと同様に、符号化部２７₂〜２７_nも、信号減算部２６₂〜２６_nのうちの対応する信号減算部からの音声信号を符号化する。符号化部２７₁〜２７_nの出力は、音声信号出力端子２９₁〜２９_nに供給される。音声信号出力端子２９₁〜２９_nは、入力された音声信号を図２に示した信号分類部１０３に供給する。

［ミキシング処理部１_kの構成］
ミキシング処理部１_kは、音声信号入力端子３０₁〜３０_n、グループ信号加算部１３_k、サンプリング変換部３４₁〜３４_k-1、全信号加算部１５_k、信号減算部３６₁〜３６_n、符号化部３７₁〜３７_n、および音声信号出力端子３９₁〜３９_nを有する。

帯域Ｂ_kの音声信号は、音声信号入力端子３０₁〜３０_nに割り振られる。音声信号入力端子３０₁〜３０_nの数は、他のミキシング処理部の音声信号入力端子の数と同じであっても、異なっていても良い。

音声信号入力端子３０₁からの音声信号は、信号減算部３６₁の第１の入力に供給されるとともに、グループ信号加算部１３_kに供給される。これと同様に、音声信号入力端子３０₂〜３０_nからの音声信号は、信号減算部３６₂〜３６_nの第１の入力に供給されるとともに、グループ信号加算部１３_kに供給される。

グループ信号加算部１３_kは、音声信号入力端子３０₁〜３０_nからの音声信号を加算し、その加算結果を出力する。グループ信号加算部１３_kの出力は、サンプリング変換部３４₁〜３４_k-1および全信号加算部１５_kに供給される。

サンプリング変換部３４₁〜３４_k-1は、帯域Ｂ_kを除く他の帯域Ｂ₁〜Ｂ_k-1に対応して設けられている。サンプリング変換部３４₁は、グループ信号加算部１３_kから供給された音声信号（加算結果）のサンプリング周波数を、帯域Ｂ₁の音声信号のサンプリング周波数に一致するように変換する。これと同様に、サンプリング変換部３４₂〜３４_k-1も、グループ信号加算部１３_kからの音声信号のサンプリング周波数を対応する帯域の音声信号のサンプリング周波数に変換する。

サンプリング変換部３４₁の出力は、帯域Ｂ₁に対応するミキシング処理部１₁の全信号加算部に供給される。これと同様に、サンプリング変換部３４₂〜３４_k-1の出力は、帯域Ｂ ₂〜Ｂ_k-1に対応するミキシング処理部１ ₂〜１_k-1の全信号加算部に供給される。

全信号加算部１５_kは、グループ信号加算部１３_kからの音声信号と他のミキシング処理部１₁〜１_k-1の各サンプリング変換部からの音声信号とを入力とし、これら入力音声信号を加算する。全信号加算部１５_kの出力は、信号減算部３６₁〜３６_nに供給される。

信号減算部３６₁は、音声信号入力端子３０₁からの音声信号を第１の入力とし、全信号加算部１５_kからの音声信号を第２の入力としており、第２の入力から第１の入力を差し引いた音声信号を出力する。これと同様に、信号減算部３６₂〜３６_nのそれぞれも、音声信号入力端子３０₂〜３０_nのうちの対応する音声信号入力端子からの音声信号を第１の入力とし、全信号加算部１５_kからの音声信号を第２の入力としており、第２の入力から第１の入力を差し引いた音声信号を出力する。信号減算部３６₁〜３６_nの出力は、符号化部３７₁〜３７_nに供給される。

符号化部３７₁は、信号減算部３６₁からの音声信号を符号化する。これと同様に、符号化部３７₂〜３７_nも、信号減算部３６₂〜３６_nのうちの対応する信号減算部からの音声信号を符号化する。符号化部３７₁〜３７_nの出力は、音声信号出力端子３９₁〜３９_nに供給される。音声信号出力端子３９₁〜３９_nに入力された音声信号は、図２に示した信号分類部１０３に供給される。

他のミキシング処理部１₃〜１_k-1の構成も、基本的に、上述したミキシング処理部１₁、１₂、１_kの構成と同じである。

次に、本実施形態の音声ミキシング装置の動作について詳細に説明する。

図３は、図１に示した音声ミキシング装置のミキシング処理の一手順を示すフローチャートである。

ミキシング処理部１₁〜１_kの動作は基本的に同じである。ここでは、図２に示した信号分類部１０３が、帯域Ｂ₁〜Ｂ_kの音声信号をミキシング処理部１₁〜１_kに供給した場合におけるミキシング処理部１₁の動作について、図１および図３を参照して説明する。なお、帯域Ｂ₁〜Ｂ_kの音声信号のサンプリング周波数はそれぞれサンプリング周波数Ｆ₁〜Ｆ_kとする。

帯域Ｂ₁の音声信号として、サンプリング周波数Ｆ₁の複数の音声信号Ｓ₁〜Ｓ_nが音声信号入力端子１０₁〜１０_nに供給される（ステップＳ１０）。音声信号入力端子１０₁〜１０_nからの音声信号Ｓ₁〜Ｓ_nは、信号減算部１６₁〜１６_nの第１の入力に供給されるとともに、グループ信号加算部１３₁の第１の入力に供給される。

次に、グループ信号加算部１３₁が、音声信号入力端子１０₁〜１０_nからの音声信号Ｓ₁〜Ｓ_nを加算して第１の加算音声信号を生成する（ステップＳ１１）。第１の加算音声信号は、サンプリング変換部１４₁〜１４_k-1および全信号加算部１５₁に供給される。

次に、サンプリング変換部１４₁が、グループ信号加算部１３₁から供給された同一帯域の第１の加算音声信号のサンプリング周波数Ｆ₁をサンプリング周波数Ｆ₂に変換する。これと同様に、サンプリング変換部１４₂〜１４_k-1が、グループ信号加算部１３₁から供給された同一帯域の第１の加算音声信号のサンプリング周波数Ｆ₁をサンプリング周波数Ｆ₃〜Ｆ_kのうちの対応するサンプリング周波数に変換する。サンプリング変換部１４₁〜１４_k-1にてサンプリング周波数が他の帯域のサンプリング周波数に変換された同一帯域の第１の加算音声信号は、他のミキシング処理部１₂〜１_kの全信号加算部１５₂〜１５_kに供給される（ステップＳ１２）。

次に、全信号加算部１５₁が、グループ信号加算部１３₁から供給された同一帯域の第１の加算音声信号と、他のミキシング処理部１₂〜１_kからの、サンプリング周波数が変換された他の同一帯域の第１の加算音声信号とを加算して、同一サンプリング周波数Ｆ₁の第２の加算音声信号を出力する（ステップＳ１３）。全信号加算部１５₁から出力された同一サンプリング周波数Ｆ₁の第２の加算音声信号は、信号減算部１６₁〜１６_nに供給される。

次に、信号減算部１６₁が、全信号加算部１５₁からの第２の加算音声信号（第２の入力）から音声信号入力端子１０₁からの入力音声信号（第１の入力）を差し引いた音声信号を出力する。そして、符号化部１７₁が、信号減算部１６₁からの音声信号を符号化する。これと同様に、信号減算部１６₂〜１６_nのそれぞれが、全信号加算部１５₁からの第２の加算音声信号（第２の入力）から、音声信号入力端子１０₂〜１０_nのうちの対応する入力端子からの音声信号（第１の入力）を差し引いた音声信号を出力する。そして、符号化部１７₂〜１７_nが、信号減算部１６₂〜１６_nからの音声信号を符号化する（ステップＳ１４）。

符号化部１７₁〜１７_nの出力は、音声信号出力端子１９ ₁〜１９_nを介して図２に示した信号分類部１０３に供給される（ステップＳ１５）。

他のミキシング処理部１₂〜１_kにいても、上述のステップＳ１０〜Ｓ１５と同様な手順で、音声ミキシング処理が行われる。

次に、本実施形態の音声ミキシング装置の各ミキシング処理部の動作について、サンプリング周波数の具体的な数値を挙げて説明する。

図２に示した複数の端末２００が、サンプリング周波数が８ｋＨｚである音声信号（例えば、Ｇ．７２９方式やＡＭＲ方式の音声データ）を送受信する第１の端末グループと、サンプリング周波数が１６ｋＨｚである音声信号（例えば、Ｇ．７２２方式やＡＭＲ‐ＷＢ方式の音声データ）を送受信する第２の端末グループと、サンプリング周波数が３２ｋＨｚである音声信号（例えば、ＡＡＣ方式の音声データ）を送受信する第３の端末グループとを含む。

第１の端末グループからの音声信号はミキシング処理部１₁に供給され、第２の端末グループからの音声信号はミキシング処理部１₂に供給され、第３の端末グループからの音声信号はミキシング処理部１₃に供給される。

ミキシング処理部１₁では、図３に示した手順で、第１の端末グループからの音声信号に対するミキシング処理が行われる。このミキシング処理では、サンプリング変換部１４₁が、グループ信号加算部１３₁からの同一帯域の加算音声信号のサンプリング周波数８ｋＨｚを、ミキシング処理部１₂での処理が可能なサンプリング周波数１６ｋＨｚに変換する。

上記のサンプリング周波数８ｋＨｚからサンプリング周波数１６ｋＨｚへのアップサンプリング変換では、例えば、サンプリング周波数８ｋＨｚの音声信号の各サンプルの間に値が０のサンプルを１つ挿入することにより、サンプル数を倍にした音声信号を生成する。そして、その生成した音声信号を、周波数４ｋＨｚ以下の帯域のみを通過させる帯域制限フィルタに通すことにより、サンプリング周波数１６ｋＨｚの音声信号を得る。

また、サンプリング変換部１４₂が、グループ信号加算部１３₁からの同一帯域の加算音声信号のサンプリング周波数８ｋＨｚを、ミキシング処理部１₃での処理が可能なサンプリング周波数３２ｋＨｚに変換する。

上記のサンプリング周波数８ｋＨｚからサンプリング周波数３２ｋＨｚへのアップサンプリング変換では、例えば、サンプリング周波数８ｋＨｚの音声信号の各サンプルの間に値が０のサンプルを３つ挿入することにより、サンプル数を４倍にした音声信号を生成する。そして、その生成した音声信号を、周波数４ｋＨｚ以下の帯域のみを通過させる帯域制限フィルタに通すことにより、サンプリング周波数３２ｋＨｚの音声信号を得る。

上述のサンプリング変換の詳細については、例えば、文献「J.O.Smith, "A Flexible Sampling-Rate Conversion Method," Proc. IEEEICASSP '84 Vol. 9, Part 1, pp.112-115.」を参照できる。

なお、アップサンプリング変換を行う際に、帯域が異なる音声信号をミキシングすることで生じる違和感を避けるために、例えば、高域に擬似的な信号を付加する帯域拡張処理を施してもよい。帯域拡張処理の詳細については、例えば、文献「Yan Ming Cheng, O'Shaughnessy and D. Mermelstein, "Statistical Recovery of Wideband Speech from Narrowband speech," Speech and Audio Processing, IEEE Transactions on Volume 2, Issue 4, Oct. 1994 pp.544-548.」を参照できる。

ミキシング処理部１₂でも、図３に示した手順で、第２の端末グループからの音声信号に対するミキシング処理が行われる。このミキシング処理では、サンプリング変換部２４₁が、グループ信号加算部１３₂からの同一帯域の加算音声信号のサンプリング周波数１６ｋＨｚを、ミキシング処理部１₁での処理が可能なサンプリング周波数８ｋＨｚに変換する。

上記のサンプリング周波数１６ｋＨｚからサンプリング周波数８ｋＨｚへのダウンサンプリング変換では、例えば、サンプリング周波数１６ｋＨｚの音声信号を、周波数４ｋＨｚ以下の帯域のみを通過させる帯域制限フィルタに通した後、１サンプル毎に間引くことにより、サンプリング周波数が８ｋＨｚの音声信号を得る。

また、サンプリング変換部２４₂が、グループ信号加算部１３₂からの同一帯域の加算音声信号のサンプリング周波数１６ｋＨｚを、ミキシング処理部１₃での処理が可能なサンプリング周波数３２ｋＨｚに変換する。

上記のサンプリング周波数１６ｋＨｚからサンプリング周波数３２ｋＨｚへのアップサンプリング変換では、例えば、１６ｋＨｚサンプリングの音声信号の各サンプルの間に値が０のサンプルを１つ挿入することによりサンプル数を倍にした音声信号を生成する。そして、その生成した音声信号を、周波数８ｋＨｚ以下の帯域のみを通過させる帯域制限フィルタに通すことにより、サンプリング周波数が３２ｋＨｚの音声信号を得る。

ミキシング処理部１₃でも、図３に示した手順で、第３の端末グループからの音声信号に対するミキシング処理が行われる。このミキシング処理では、サンプリング変換部３４₁が、グループ信号加算部１３₃からの同一帯域の加算音声信号のサンプリング周波数３２ｋＨｚを、ミキシング処理部１₁での処理が可能なサンプリング周波数８ｋＨｚに変換する。

上記のサンプリング周波数３２ｋＨｚからサンプリング周波数８ｋＨｚへのダウンサンプリング変換では、例えば、サンプリング周波数が３２ｋＨｚの音声信号を、周波数４ｋＨｚ以下の帯域のみを通過させる帯域制限フィルタに通した後、３サンプル毎に間引くことにより、サンプリング周波数が８ｋＨｚの音声信号を得る。

また、サンプリング変換部３４₂が、グループ信号加算部１３₂からの同一帯域の加算音声信号のサンプリング周波数３２ｋＨｚを、ミキシング処理部１₂での処理が可能なサンプリング周波数１６ｋＨｚに変換する。

上記のサンプリング周波数３２ｋＨｚからサンプリング周波数１６ｋＨｚへのダウンサンプリング変換では、例えば、サンプリング周波数が３２ｋＨｚの音声信号を、周波数８ｋＨｚ以下の帯域のみを通過させる帯域制限フィルタに通した後、１サンプル毎に間引くことにより、サンプリング周波数が１６ｋＨｚの音声信号を得る。

上述のようなサンプリング周波数の変換処理により、帯域別に設けられた各ミキシング処理部において、自処理部に供給された音声信号と、他のミキシング処理部に供給された音声信号とのミキシングを行うことができる。

以上説明したように、本実施形態の音声ミキシング装置では、ミキシング処理部１₁〜１_kのそれぞれが、入力された同一帯域の加算音声信号のサンプリング周波数を他のミキシング処理部で処理可能なサンプリング周波数に変換する。さらに、ミキシング処理部１₁〜１_kのそれぞれが、自処理部で生成した同一帯域の加算音声信号と、他のミキシング処理部から供給される、自処理部のサンプリング周波数への変換がなされた同一帯域の加算音声信号とを加算して、同一サンプリング周波数の加算信号を生成する。そして、ミキシング処理部１₁〜１_kのそれぞれが、同一サンプリング周波数の加算信号から入力音声信号を減算し、その減算結果として得られた音声信号を符号化する。

上記の構成によれば、ミキシング処理部１₁〜１_kのそれぞれが、同一帯域の加算音声信号のサンプリング周波数を他のミキシング処理部で処理可能なサンプリング周波数に変換するとともに、自処理部で生成した同一帯域の加算音声信号と、他のミキシング処理部から供給される、自処理部のサンプリング周波数への変換がなされた同一帯域の加算音声信号とを加算することで、複数の異なる帯域の音声信号をミキシングすることが可能となっている。したがって、例えば、電話帯域を利用する端末や広帯域を利用する端末、といった異なる帯域の音声信号を送受信する端末間において、多地点会議サービスを提供することができる。

また、ミキシング処理部１₁〜１_kのそれぞれが、自処理部で生成した同一帯域の加算音声信号と、他のミキシング処理部から供給される、自処理部のサンプリング周波数への変換がなされた同一帯域の加算音声信号とを加算する際に、その加算信号に、予め定められた高域成分を有する擬似音声信号を付加してもよい。これにより、アップサンプリング変換を行う際の、帯域が異なる音声信号をミキシングすることで生じる違和感を避けることができ、低いサンプリング周波数の信号の音質を改善することができる。

上述した本実施形態の音声ミキシング装置は、本発明の一例であり、その構成および動作は、発明の趣旨を逸脱しない範囲で適宜に変更することができる。

例えば、図１に示した音声ミキシング装置において、ミキシング処理部１₁〜１_kは、全信号加算部１５₁〜１５_kから出力される音声信号、または、その出力音声信号を符号化した音声データを、それぞれの出力信号としてもよい。

また、図１に示した音声ミキシング装置において、ミキシング処理部１₁〜１_kの各符号化部（例えば、符号化部１７₁〜１７_k、２７₁〜２７_k、３７₁〜３７_kなど）が、予測符号化器であってもよい。

また、図１および図２に示した構成において、復号部や信号分類部は、音声ミキシング装置内に設けられてもよく、また、受信部に設けられてもよい。

また、図２に示した多地点会議サーバは、プログラムにより動作するコンピュータシステムより実現することができる。このコンピュータシステムの主要部は、プログラムやデータなどを蓄積する記憶装置、キーボードやマウスなどの入力装置、ＬＣＤ（Liquid Crystal Display）などの表示装置、外部との通信を行うモデムなどの通信装置、プリンタなどの出力装置、および記憶装置に格納されたプログラム従って動作し、入力装置からの入力を受け付けて通信装置、出力装置、表示装置の動作を制御する制御装置（ＣＰＵ：Central Processing Unit）から構成される。プログラムとして、図３に示したミキシング処理をＣＰＵに実行させるためのプログラムが記憶装置に格納される。このプログラムは、記録媒体やインターネットを通じて提供されてもよい。また、プログラムとして、図３に示したミキシング処理をＤＳＰ（Digital Signal Processor）に実行させるためのプログラムを提供することもできる。

以上説明した本発明によれば、サンプリング周波数が異なる複数の帯域の音声信号を混在させた音声ミキシングを行うことが可能であるので、例えば、電話帯域を利用する端末や広帯域を利用する端末、といった異なる帯域の音声（音響）信号を送受信する端末間においても多地点会議サービスを提供できる。したがって、多地点音声会議サービスにおける利便性の向上を図ることができる。

本発明は、多地点会議サービスを提供するシステムの他、音声ミキシングを行う装置全般に適用することができる。例えば、本発明は、３ＧＰＰにて規定されたＭＲＦ（Media Resource Function）と呼制御部に相当するＭＲＣＦ（Media Resource Control Function）によって実現される、種々のメディアサービスを提供するシステムに適用することができる。ＭＲＦおよびＭＲＣＦは、所謂、多地点会議システムの多地点制御装置（ＭＣＵ：Multi-Point Control Unit）の機能を実現するために用いられている。

以上、実施形態を参照して本発明を説明したが、本発明は上述した実施形態に限定されるものではない。本発明の構成及び動作については、本発明の趣旨を逸脱しない範囲において、当業者が理解し得る様々な変更を行うことができる。

この出願は、２００８年２月４日に出願された日本出願特願２００８−２３９７６を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

サンプリング周波数別に設けられた複数のミキシング処理部からなり、
前記複数のミキシング処理部のそれぞれは、
同一サンプリング周波数の入力音声信号を加算して第１の加算音声信号を生成し、該第１の加算音声信号のサンプリング周波数を他のミキシング処理部で処理可能なサンプリング周波数に変換し、該サンプリング周波数の変換がなされた音声信号を前記他のミキシング処理部に供給し、
自処理部で生成した前記第１の加算音声信号と、前記他のミキシング処理部から供給される、自処理部での処理が可能なサンプリング周波数への変換がなされた前記第１の加算音声信号とを加算して第２の加算音声信号を生成する、音声ミキシング装置。
前記複数のミキシング処理部のそれぞれは、前記同一サンプリング周波数の入力音声信号毎に、前記第２の加算音声信号から該入力音声信号を差し引いた減算音声信号を生成し、該減算音声信号を符号化する、請求の範囲第１項に記載の音声ミキシング装置。
前記複数のミキシング処理部のそれぞれは、予め定められた高域成分を有する擬似音声信号を前記第２の加算音声信号に加える、請求の範囲第１項または第２項に記載の音声ミキシング装置。
前記複数のミキシング処理部のそれぞれは、
前記同一サンプリング周波数の入力音声信号を加算して前記第１の加算音声信号を生成するグループ信号加算部と、
前記グループ信号加算部にて生成された前記第１の加算音声信号と、前記他のミキシング処理部から供給される、自処理部での処理が可能なサンプリング周波数への変換がなされた前記第１の加算音声信号とを加算して前記第２の加算音声信号を生成する全信号加算部と、
前記同一サンプリング周波数の入力音声信号毎に設けられ、該入力音声信号が第１の入力として供給され、前記全信号加算部で生成された前記第２の加算音声信号が第２の入力として供給され、該第２の入力から該第１の入力を減算する複数の信号減算器と、
前記複数の信号減算器から出力された音声信号をそれぞれ符号化する複数の符号化部と、を有する、請求の範囲第１項乃至第３項のいずれかに記載の音声ミキシング装置。
サンプリング周波数が異なる複数の入力音声信号をサンプリング周波数別に複数のグループに分類する第１のステップと、
前記第１のステップで分類したグループ毎に、同一サンプリング周波数の入力音声信号を加算して第１の加算音声信号を生成し、該第１の加算音声信号のサンプリング周波数を他のグループで処理可能なサンプリング周波数に変換し、該サンプリング周波数の変換がなされた音声信号を前記他のグループに割り当てる第２のステップと、
前記第１のステップで分類したグループ毎に、自グループで生成した前記第１の加算音声信号と、前記他のグループから割り当てられる、自グループでの処理が可能なサンプリング周波数への変換がなされた前記第１の加算音声信号とを加算して第２の加算音声信号を生成する第３のステップと、を含む、音声ミキシング方法。
前記第１のステップで分類したグループのそれぞれにおいて、前記同一サンプリング周波数の入力音声信号毎に、前記第２の加算音声信号から該入力音声信号を差し引いた減算音声信号を生成し、該減算音声信号を符号化するステップを、さらに含む、請求の範囲第５項に記載の音声ミキシング方法。
前記第１のステップで分類したグループのそれぞれにおいて、予め定められた高域成分を有する擬似音声信号を前記第２の加算音声信号に加えるステップを、さらに含む、請求の範囲第５項または第６項に記載の音声ミキシング方法。
複数の通信端末とネットワークを介して接続される多地点会議サーバであって、
前記複数の通信端末から受信した複数の音声信号をサンプリング周波数別に分類する信号分類部と、
サンプリング周波数別に設けられた複数のミキシング処理部と、を有し、
前記複数のミキシング処理部のそれぞれは、
同一サンプリング周波数の入力音声信号を加算して第１の加算音声信号を生成し、該第１の加算音声信号のサンプリング周波数を他のミキシング処理部で処理可能なサンプリング周波数に変換し、該サンプリング周波数の変換がなされた音声信号を前記他のミキシング処理部に供給し、
自処理部で生成した前記第１の加算音声信号と、前記他のミキシング処理部から供給される、自処理部での処理が可能なサンプリング周波数への変換がなされた前記第１の加算音声信号とを加算して第２の加算音声信号を生成する、多地点会議サーバ。