JP5158099B2 - 音声ミキシング装置および方法ならびに多地点会議サーバ - Google Patents

音声ミキシング装置および方法ならびに多地点会議サーバ Download PDF

Info

Publication number
JP5158099B2
JP5158099B2 JP2009552440A JP2009552440A JP5158099B2 JP 5158099 B2 JP5158099 B2 JP 5158099B2 JP 2009552440 A JP2009552440 A JP 2009552440A JP 2009552440 A JP2009552440 A JP 2009552440A JP 5158099 B2 JP5158099 B2 JP 5158099B2
Authority
JP
Japan
Prior art keywords
audio signal
sampling frequency
signal
added
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009552440A
Other languages
English (en)
Other versions
JPWO2009098975A1 (ja
Inventor
伊藤  博紀
一範 小澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009552440A priority Critical patent/JP5158099B2/ja
Publication of JPWO2009098975A1 publication Critical patent/JPWO2009098975A1/ja
Application granted granted Critical
Publication of JP5158099B2 publication Critical patent/JP5158099B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、複数の音声信号をミキシングする技術に関し、特に、多地点会議サービスを提供するサーバ等において用いられる音声信号のミキシング技術に関する。
多地点会議サービスを提供するシステムとして、特開2000−175170号公報に記載の多地点テレビ会議システムがある。この多地点テレビ会議システムは、複数の会議端末と、これら会議端末が接続される多地点制御装置とからなる。会議端末が参加者に割り当てられる。
この多地点テレビ会議システムでは、各会議端末が、自端末にて検出した音響(音声)に関する音響信号を多地点制御装置に送信する。多地点制御装置は、各会議端末から受信した音響信号を加算する。そして、多地点制御装置は、会議端末のそれぞれに対して、加算した音響信号から当該会議端末から受信した音響信号を減算し、その減算結果として得られる音響信号を符号化し、その符号化した音響信号を当該会議端末に送信する。
ところで、多地点制御装置は、回線交換網、モバイル網、パケット網等の種々の通信網に適用することが可能である。回線交換網では、ITU‐T(Telecommunication Union Telecommunication Standardization Sector)勧告のH.323やH.324により規定される通信プロトコルが用いられる。モバイル網では、3G−324Mにより規定される通信プロトコルが用いられる。IP(Internet Protocol)に基づくパケット網では、IETF(The Internet Engineering Task Force)のRFC3550RTPが用いられる。「RFC」は「Request for Comments」の略であり、「RTP」は「Real-time Transport Protocol」の略である。
また、多地点制御装置には、サンプリング周波数が8kHzで、帯域が3.4kHzの電話帯域音声向けの音声符号化器を搭載するものや、サンプリング周波数が16kHzで、帯域が7kHzの広帯域音声向けの音声符号化器を搭載するものなどがある。電話帯域音声向けの音声符号化器として、ITU‐T勧告のG.711やG.729,3GPPで採用されているAMR(Adaptive Multi-Rate)方式のものや、3GPP2で採用されているEVRC(Enhanced Variable Rate Codec)方式のものなどが用いられる。広帯域音声向けの音声符号化器として、ITU‐T勧告によるG.722や3GPP TS26.190で規定されているAMR‐WB(Wide Band)方式のものが用いられる。さらに、MPEG‐4AAC(Advanced Audio Coding)などのコーデックを用いることで、より広帯域な音声信号を扱うことが可能である。
多地点会議サービスを利用する上での利便性を考慮すると、電話帯域を利用する端末や広帯域を利用する端末といった、異なる帯域の音声(音響)信号を送受信する端末間においても多地点会議サービスを提供できることが望ましい。しかしながら、上述した多地点制御装置は、電話帯域音声向け、または、広帯域音声向け、といったように、単一の帯域の音声信号にしか対応していないため、異なる帯域の音声信号を送受信する端末間における多地点会議サービスを提供することは困難である。
本発明の目的は、上記課題を解決し、サンプリング周波数が異なる複数の帯域の音声信号をミキシングすることができる、音声ミキシング装置、音声ミキシング方法および多地点会議サーバを提供することにある。
上記目的を達成するため、本発明の音声ミキシング装置は、
サンプリング周波数別に設けられた複数のミキシング処理部からなり、
前記複数のミキシング処理部のそれぞれは、
同一サンプリング周波数の入力音声信号を加算して第1の加算音声信号を生成し、該第1の加算音声信号のサンプリング周波数を他のミキシング処理部で処理可能なサンプリング周波数に変換し、該サンプリング周波数の変換がなされた音声信号を前記他のミキシング処理部に供給し、
自処理部で生成した前記第1の加算音声信号と、前記他のミキシング処理部から供給される、自処理部での処理が可能なサンプリング周波数への変換がなされた前記第1の加算音声信号とを加算して第2の加算音声信号を生成する、ことを特徴とする。
本発明の音声ミキシング方法は、
サンプリング周波数が異なる複数の入力音声信号をサンプリング周波数別に複数のグループに分類する第1のステップと、
前記第1のステップで分類したグループ毎に、同一サンプリング周波数の入力音声信号を加算して第1の加算音声信号を生成し、該第1の加算音声信号のサンプリング周波数を他のグループで処理可能なサンプリング周波数に変換し、該サンプリング周波数の変換がなされた音声信号を前記他のグループに割り当てる第2のステップと、
前記第1のステップで分類したグループ毎に、自グループで生成した前記第1の加算音声信号と、前記他のグループから割り当てられる、自グループでの処理が可能なサンプリング周波数への変換がなされた前記第1の加算音声信号とを加算して第2の加算音声信号を生成する第3のステップと、を含むことを特徴とする。
本発明の多地点会議サーバは、複数の通信端末とネットワークを介して接続される多地点会議サーバであって、
前記複数の通信端末から受信した複数の音声信号をサンプリング周波数別に分類する信号分類部と、
サンプリング周波数別に設けられた複数のミキシング処理部と、を有し、
前記複数のミキシング処理部のそれぞれは、
同一サンプリング周波数の入力音声信号を加算して第1の加算音声信号を生成し、該第1の加算音声信号のサンプリング周波数を他のミキシング処理部で処理可能なサンプリング周波数に変換し、該サンプリング周波数の変換がなされた音声信号を前記他のミキシング処理部に供給し、
自処理部で生成した前記第1の加算音声信号と、前記他のミキシング処理部から供給される、自処理部での処理が可能なサンプリング周波数への変換がなされた前記第1の加算音声信号とを加算して第2の加算音声信号を生成する、ことを特徴とする。
本発明の一実施形態である音声ミキシング装置の構成を示すブロック図である。 図1に示す音声ミキシング装置を搭載した多地点会議サーバを用いた多地点会議システムの構成を示すブロック図である。 図1に示す音声ミキシング装置のミキシング処理の一手順を示すフローチャートである。
符号の説明
1〜1k ミキシング処理部
101〜10n、201〜20n、301〜30n 音声信号入力端子
131〜13k グループ信号加算部
141〜14k-1、121〜12k-1、131〜13k-1 サンプリング変換部
151〜15k 全信号加算部
161〜16n、261〜26n、361〜36n 信号減算部
171〜17n、271〜27n、371〜37n 符号化部
191〜19n、291〜29n、391〜39n 音声信号出力端子
次に、本発明の実施形態について図面を参照して説明する。
図1は、本発明の一実施形態である音声ミキシング装置の構成を示すブロック図である。
図1に示す音声ミキシング装置は、多地点制御装置である多地点会議サーバに搭載されるものであって、k個のミキシング処理部11〜1kを有する。多地点会議サーバは、サンプリング周波数の異なる複数の帯域の音声信号を受信することが可能とされており、ミキシング処理部は、その帯域毎に設けられている。すなわち、ミキシング処理部11〜1kの数は、多地点会議サーバで取り扱うことができる帯域の最大数に対応する。ここでは、多地点会議サーバは、k個の異なる帯域B1〜Bkの音声信号を受信するように構成されており、受信した音声信号が帯域別に設けられたミキシング処理部11〜1kに供給される。
本実施形態の音声ミキシング装置の詳細な構成を説明する前に、本実施形態の音声ミキシング装置を搭載する多地点会議サーバの構成について簡単に説明する。
図2は、図1に示した音声ミキシング装置を搭載した多地点会議サーバを用いた多地点会議システムの構成を示すブロック図である。この多地点会議システムは、複数の端末200と、これら端末200が伝送路300を介して接続される多地点会議サーバ100とを有する。
伝送路300は、回線交換網、モバイル網、パケット網等の複数の通信網を含む。端末200と多地点会議サーバ100の間において音声信号を送受信する際に、それぞれの通信網のプロトコルを通じて、音声信号の呼接続情報(音声信号を送信した端末のアドレス情報、帯域の情報、サンプリング周波数の情報などを含む)が多地点会議サーバ100に供給される。
複数の端末200は、伝送路300を介して送受信される音声信号の帯域およびサンプリング周波数が異なる複数の端末を含む。例えば、サンプリング周波数が8kHzで、帯域が3.4kHzの電話帯域音声向けの端末や、サンプリング周波数が16kHzで、帯域が7kHzの広帯域音声向けの端末などが、端末200として用いられる。なお、各端末200の構成は基本的に同じである。
端末200は、AD変換部201、符号化部202、送信部203、DA変換部204、復号部205および受信部206からなる。
AD変換部201は、マイクロホン207からの音声信号(アナログ信号)をデジタル信号に変換する。符号化部202は、AD変換部201から供給された音声信号(デジタル信号)を符号化する。送信部203は、符号化部202から供給された符号化音声信号を、伝送路300を介して多地点会議サーバ100へ送信する。
受信部206は、多地点会議サーバ100からの符号化音声信号(デジタル信号)を、伝送路300を介して受信する。復号部205は、受信部206から供給される符号化音声信号を復号する。DA変換部204は、復号部205からの復号音声信号(デジタル信号)をアナログ信号に変換する。アナログ信号に変換された音声信号は、DA変換部204からスピーカ208に供給される。
多地点会議サーバ100は、受信部101、複数の復号部102、信号分類部103、音声ミキシング装置104および送信部105を有する。音声ミキシング装置104は、図1に示した音声ミキシング装置である。
受信部101は、各端末200からの音声信号を、伝送路300を介して受信する。受信した音声信号は、受信部101から複数の復号部102のいずれかに供給される。復号部102は、受信部101から供給された音声信号を復号する。復号された音声信号は、復号部102から信号分類部103に供給される。
信号分類部103は、復号部102から供給された復号音声信号を、該復号音声信号のサンプリング周波数に応じて、図1に示したミキシング処理部11〜1kのうちの対応するミキシング処理部に供給する。また、信号分類部103は、音声ミキシング装置104から供給された音声信号を送信部105に供給する。復号音声信号のサンプリング周波数は、受信部101が音声信号を受信した際に得られる呼制御情報から得ることができる。
送信部105は、信号分類部103から供給された音声信号を、伝送路300を介して、複数の端末200のうちの対応する端末へ送信する。受信部101が音声信号を受信した際に得られる呼制御情報に基づいて、送信先となる端末を識別することができる。
音声ミキシング装置104は、信号分類部103から供給される、サンプリング周波数別に分類された複数の音声信号をミキシングして符号化し、符号化した音声信号を信号分類部103に供給する。
以下、図1を参照して音声ミキシング装置104の構成を具体的に説明する。
音声ミキシング装置104は、ミキシング処理部11〜1kからなる。ミキシング処理部11〜1kは、基本的に同じ構成である。便宜上、図1には、ミキシング処理部11、ミキシング処理部12およびミキシング処理部1kについての具体的な構成が示されている。
[ミキシング処理部11の構成]
ミキシング処理部11は、音声信号入力端子101〜10n、グループ信号加算部131、サンプリング変換部141〜14k-1、全信号加算部151、信号減算部161〜16n、符号化部171〜17n、および音声信号出力端子191〜19nを有する。
帯域B1の音声信号は、音声信号入力端子101〜10nに割り振られる。例えば、帯域B1の音声信号として、n個の音声信号を受信した場合は、音声信号入力端子101〜10nのそれぞれに受信音声信号が供給される。
音声信号入力端子101からの音声信号は、信号減算部161の第1の入力に供給されるとともに、グループ信号加算部131に供給される。これと同様に、音声信号入力端子102〜10nからの音声信号は、信号減算部162〜16nの第1の入力に供給されるとともに、グループ信号加算部131に供給される。
グループ信号加算部131は、音声信号入力端子101〜10nからの音声信号を加算し、その加算結果を出力する。グループ信号加算部131の出力は、サンプリング変換部141〜14k-1および全信号加算部151に供給される。
サンプリング変換部141〜14k-1は、帯域B1を除く他の帯域B2〜Bkに対応して設けられている。サンプリング変換部141は、グループ信号加算部131から供給された音声信号(加算結果)のサンプリング周波数を、帯域B2の音声信号のサンプリング周波数に一致するように変換する。例えば、帯域B1の音声信号のサンプリング周波数が8kHzであり、帯域B2の音声信号のサンプリング周波数が16kHzである場合は、サンプリング変換部141は、グループ信号加算部131からの音声信号のサンプリング周波数を、8kHzから16kHzに変換する。これと同様に、サンプリング変換部142〜14k-1も、グループ信号加算部131からの音声信号のサンプリング周波数を対応する帯域の音声信号のサンプリング周波数に変換する。
サンプリング変換部141の出力は、帯域B2に対応するミキシング処理部12の全信号加算部に供給される。これと同様に、サンプリング変換部142〜14k-1の出力は、帯域B3〜Bkに対応するミキシング処理部13〜1kの全信号加算部に供給される。
全信号加算部151は、グループ信号加算部131からの音声信号と他のミキシング処理部12〜1kの各サンプリング変換部からの音声信号とを入力とし、これら入力音声信号を加算する。全信号加算部151の出力は、信号減算部161〜16nに供給される。
信号減算部161は、音声信号入力端子101からの音声信号を第1の入力とし、全信号加算部151からの音声信号を第2の入力としており、第2の入力から第1の入力を差し引いた音声信号を出力する。信号減算部161の出力は、符号化部171に供給される。これと同様に、信号減算部162〜16nのそれぞれも、音声信号入力端子102〜10nのうちの対応する入力端子からの音声信号を第1の入力とし、全信号加算部151からの音声信号を第2の入力としており、第2の入力から第1の入力を差し引いた音声信号を出力する。信号減算部162〜16nの出力は、符号化部172〜17nに供給される。
符号化部171は、信号減算部161からの音声信号を符号化する。これと同様に、符号化部172〜17nも、信号減算部162〜16nのうちの対応する信号減算部からの音声信号を符号化する。符号化部171〜17nの出力は、音声信号出力端子191〜19nに供給される。音声信号出力端子191〜19nは、入力された音声信号を図2に示した信号分類部103に供給する。
[ミキシング処理部12の構成]
ミキシング処理部12は、音声信号入力端子201〜20n、グループ信号加算部132、サンプリング変換部241〜24k-1、全信号加算部152、信号減算部261〜26n、符号化部271〜27n、および音声信号出力端子291〜29nを有する。
帯域B2の音声信号は、音声信号入力端子201〜20nに割り振られる。音声信号入力端子201〜20nの数は、他のミキシング処理部の音声信号入力端子の数と同じであっても、異なっていても良い。
音声信号入力端子201からの音声信号は、信号減算部261の第1の入力に供給されるとともに、グループ信号加算部132に供給される。これと同様に、音声信号入力端子202〜20nからの音声信号は、信号減算部262〜26nの第1の入力に供給されるとともに、グループ信号加算部132に供給される。
グループ信号加算部132は、音声信号入力端子201〜20nからの音声信号を加算し、その加算結果を出力する。グループ信号加算部132の出力は、サンプリング変換部241〜24k-1および全信号加算部152に供給される。
サンプリング変換部241〜24k-1は、帯域B2を除く他の帯域B1、B3〜Bkに対応して設けられている。サンプリング変換部241は、グループ信号加算部132から供給された音声信号(加算結果)のサンプリング周波数を、帯域B1の音声信号のサンプリング周波数に一致するように変換する。これと同様に、サンプリング変換部242〜24k-1も、グループ信号加算部132からの音声信号のサンプリング周波数を対応する帯域の音声信号のサンプリング周波数に変換する。
サンプリング変換部241の出力は、帯域B1に対応するミキシング処理部11の全信号加算部に供給される。これと同様に、サンプリング変換部242〜24k-1の出力は、帯域B3〜Bkに対応するミキシング処理部13〜1kの全信号加算部に供給される。
全信号加算部152は、グループ信号加算部132からの音声信号と他のミキシング処理部11、13〜1kの各サンプリング変換部からの音声信号とを入力とし、これら入力音声信号を加算する。全信号加算部152の出力は、信号減算部261〜26nに供給される。
信号減算部261は、音声信号入力端子201からの音声信号を第1の入力とし、全信号加算部152からの音声信号を第2の入力としており、第2の入力から第1の入力を差し引いた音声信号を出力する。信号減算部261の出力は、符号化部271に供給される。これと同様に、信号減算部262〜26nのそれぞれも、音声信号入力端子202〜20nのうちの対応する音声信号入力端からの音声信号を第1の入力とし、全信号加算部152からの音声信号を第2の入力としており、第2の入力から第1の入力を差し引いた音声信号を出力する。信号減算部262〜26nの出力は、符号化部272〜27nに供給される。
符号化部271は、信号減算部261からの音声信号を符号化する。これと同様に、符号化部272〜27nも、信号減算部262〜26nのうちの対応する信号減算部からの音声信号を符号化する。符号化部271〜27nの出力は、音声信号出力端子291〜29nに供給される。音声信号出力端子291〜29nは、入力された音声信号を図2に示した信号分類部103に供給する。
[ミキシング処理部1kの構成]
ミキシング処理部1kは、音声信号入力端子301〜30n、グループ信号加算部13k、サンプリング変換部341〜34k-1、全信号加算部15k、信号減算部361〜36n、符号化部371〜37n、および音声信号出力端子391〜39nを有する。
帯域Bkの音声信号は、音声信号入力端子301〜30nに割り振られる。音声信号入力端子301〜30nの数は、他のミキシング処理部の音声信号入力端子の数と同じであっても、異なっていても良い。
音声信号入力端子301からの音声信号は、信号減算部361の第1の入力に供給されるとともに、グループ信号加算部13kに供給される。これと同様に、音声信号入力端子302〜30nからの音声信号は、信号減算部362〜36nの第1の入力に供給されるとともに、グループ信号加算部13kに供給される。
グループ信号加算部13kは、音声信号入力端子301〜30nからの音声信号を加算し、その加算結果を出力する。グループ信号加算部13kの出力は、サンプリング変換部341〜34k-1および全信号加算部15kに供給される。
サンプリング変換部341〜34k-1は、帯域Bkを除く他の帯域B1〜Bk-1に対応して設けられている。サンプリング変換部341は、グループ信号加算部13kから供給された音声信号(加算結果)のサンプリング周波数を、帯域B1の音声信号のサンプリング周波数に一致するように変換する。これと同様に、サンプリング変換部342〜34k-1も、グループ信号加算部13kからの音声信号のサンプリング周波数を対応する帯域の音声信号のサンプリング周波数に変換する。
サンプリング変換部341の出力は、帯域B1に対応するミキシング処理部11の全信号加算部に供給される。これと同様に、サンプリング変換部342〜34k-1の出力は、帯域 2 〜Bk-1に対応するミキシング処理部 2 〜1k-1の全信号加算部に供給される。
全信号加算部15kは、グループ信号加算部13kからの音声信号と他のミキシング処理部11〜1k-1の各サンプリング変換部からの音声信号とを入力とし、これら入力音声信号を加算する。全信号加算部15kの出力は、信号減算部361〜36nに供給される。
信号減算部361は、音声信号入力端子301からの音声信号を第1の入力とし、全信号加算部15kからの音声信号を第2の入力としており、第2の入力から第1の入力を差し引いた音声信号を出力する。これと同様に、信号減算部362〜36nのそれぞれも、音声信号入力端子302〜30nのうちの対応する音声信号入力端子からの音声信号を第1の入力とし、全信号加算部15kからの音声信号を第2の入力としており、第2の入力から第1の入力を差し引いた音声信号を出力する。信号減算部361〜36nの出力は、符号化部371〜37nに供給される。
符号化部371は、信号減算部361からの音声信号を符号化する。これと同様に、符号化部372〜37nも、信号減算部362〜36nのうちの対応する信号減算部からの音声信号を符号化する。符号化部371〜37nの出力は、音声信号出力端子391〜39nに供給される。音声信号出力端子391〜39nに入力された音声信号は、図2に示した信号分類部103に供給される。
他のミキシング処理部13〜1k-1の構成も、基本的に、上述したミキシング処理部11、12、1kの構成と同じである。
次に、本実施形態の音声ミキシング装置の動作について詳細に説明する。
図3は、図1に示した音声ミキシング装置のミキシング処理の一手順を示すフローチャートである。
ミキシング処理部11〜1kの動作は基本的に同じである。ここでは、図2に示した信号分類部103が、帯域B1〜Bkの音声信号をミキシング処理部11〜1kに供給した場合におけるミキシング処理部11の動作について、図1および図3を参照して説明する。なお、帯域B1〜Bkの音声信号のサンプリング周波数はそれぞれサンプリング周波数F1〜Fkとする。
帯域B1の音声信号として、サンプリング周波数F1の複数の音声信号S1〜Snが音声信号入力端子101〜10nに供給される(ステップS10)。音声信号入力端子101〜10nからの音声信号S1〜Snは、信号減算部161〜16nの第1の入力に供給されるとともに、グループ信号加算部131の第1の入力に供給される。
次に、グループ信号加算部131が、音声信号入力端子101〜10nからの音声信号S1〜Snを加算して第1の加算音声信号を生成する(ステップS11)。第1の加算音声信号は、サンプリング変換部141〜14k-1および全信号加算部151に供給される。
次に、サンプリング変換部141が、グループ信号加算部131から供給された同一帯域の第1の加算音声信号のサンプリング周波数F1をサンプリング周波数F2に変換する。これと同様に、サンプリング変換部142〜14k-1が、グループ信号加算部131から供給された同一帯域の第1の加算音声信号のサンプリング周波数F1をサンプリング周波数F3〜Fkのうちの対応するサンプリング周波数に変換する。サンプリング変換部141〜14k-1にてサンプリング周波数が他の帯域のサンプリング周波数に変換された同一帯域の第1の加算音声信号は、他のミキシング処理部12〜1kの全信号加算部152〜15kに供給される(ステップS12)。
次に、全信号加算部151が、グループ信号加算部131から供給された同一帯域の第1の加算音声信号と、他のミキシング処理部12〜1kからの、サンプリング周波数が変換された他の同一帯域の第1の加算音声信号とを加算して、同一サンプリング周波数F1の第2の加算音声信号を出力する(ステップS13)。全信号加算部151から出力された同一サンプリング周波数F1の第2の加算音声信号は、信号減算部161〜16nに供給される。
次に、信号減算部161が、全信号加算部151からの第2の加算音声信号(第2の入力)から音声信号入力端子101からの入力音声信号(第1の入力)を差し引いた音声信号を出力する。そして、符号化部171が、信号減算部161からの音声信号を符号化する。これと同様に、信号減算部162〜16nのそれぞれが、全信号加算部151からの第2の加算音声信号(第2の入力)から、音声信号入力端子102〜10nのうちの対応する入力端子からの音声信号(第1の入力)を差し引いた音声信号を出力する。そして、符号化部172〜17nが、信号減算部162〜16nからの音声信号を符号化する(ステップS14)。
符号化部171〜17nの出力は、音声信号出力端子19 1 〜19nを介して図2に示した信号分類部103に供給される(ステップS15)。
他のミキシング処理部12〜1kにいても、上述のステップS10〜S15と同様な手順で、音声ミキシング処理が行われる。
次に、本実施形態の音声ミキシング装置の各ミキシング処理部の動作について、サンプリング周波数の具体的な数値を挙げて説明する。
図2に示した複数の端末200が、サンプリング周波数が8kHzである音声信号(例えば、G.729方式やAMR方式の音声データ)を送受信する第1の端末グループと、サンプリング周波数が16kHzである音声信号(例えば、G.722方式やAMR‐WB方式の音声データ)を送受信する第2の端末グループと、サンプリング周波数が32kHzである音声信号(例えば、AAC方式の音声データ)を送受信する第3の端末グループとを含む。
第1の端末グループからの音声信号はミキシング処理部11に供給され、第2の端末グループからの音声信号はミキシング処理部12に供給され、第3の端末グループからの音声信号はミキシング処理部13に供給される。
ミキシング処理部11では、図3に示した手順で、第1の端末グループからの音声信号に対するミキシング処理が行われる。このミキシング処理では、サンプリング変換部141が、グループ信号加算部131からの同一帯域の加算音声信号のサンプリング周波数8kHzを、ミキシング処理部12での処理が可能なサンプリング周波数16kHzに変換する。
上記のサンプリング周波数8kHzからサンプリング周波数16kHzへのアップサンプリング変換では、例えば、サンプリング周波数8kHzの音声信号の各サンプルの間に値が0のサンプルを1つ挿入することにより、サンプル数を倍にした音声信号を生成する。そして、その生成した音声信号を、周波数4kHz以下の帯域のみを通過させる帯域制限フィルタに通すことにより、サンプリング周波数16kHzの音声信号を得る。
また、サンプリング変換部142が、グループ信号加算部131からの同一帯域の加算音声信号のサンプリング周波数8kHzを、ミキシング処理部13での処理が可能なサンプリング周波数32kHzに変換する。
上記のサンプリング周波数8kHzからサンプリング周波数32kHzへのアップサンプリング変換では、例えば、サンプリング周波数8kHzの音声信号の各サンプルの間に値が0のサンプルを3つ挿入することにより、サンプル数を4倍にした音声信号を生成する。そして、その生成した音声信号を、周波数4kHz以下の帯域のみを通過させる帯域制限フィルタに通すことにより、サンプリング周波数32kHzの音声信号を得る。
上述のサンプリング変換の詳細については、例えば、文献「J.O.Smith, "A Flexible Sampling-Rate Conversion Method," Proc. IEEEICASSP '84 Vol. 9, Part 1, pp.112-115.」を参照できる。
なお、アップサンプリング変換を行う際に、帯域が異なる音声信号をミキシングすることで生じる違和感を避けるために、例えば、高域に擬似的な信号を付加する帯域拡張処理を施してもよい。帯域拡張処理の詳細については、例えば、文献「Yan Ming Cheng, O'Shaughnessy and D. Mermelstein, "Statistical Recovery of Wideband Speech from Narrowband speech," Speech and Audio Processing, IEEE Transactions on Volume 2, Issue 4, Oct. 1994 pp.544-548.」を参照できる。
ミキシング処理部12でも、図3に示した手順で、第2の端末グループからの音声信号に対するミキシング処理が行われる。このミキシング処理では、サンプリング変換部241が、グループ信号加算部132からの同一帯域の加算音声信号のサンプリング周波数16kHzを、ミキシング処理部11での処理が可能なサンプリング周波数8kHzに変換する。
上記のサンプリング周波数16kHzからサンプリング周波数8kHzへのダウンサンプリング変換では、例えば、サンプリング周波数16kHzの音声信号を、周波数4kHz以下の帯域のみを通過させる帯域制限フィルタに通した後、1サンプル毎に間引くことにより、サンプリング周波数が8kHzの音声信号を得る。
また、サンプリング変換部242が、グループ信号加算部132からの同一帯域の加算音声信号のサンプリング周波数16kHzを、ミキシング処理部13での処理が可能なサンプリング周波数32kHzに変換する。
上記のサンプリング周波数16kHzからサンプリング周波数32kHzへのアップサンプリング変換では、例えば、16kHzサンプリングの音声信号の各サンプルの間に値が0のサンプルを1つ挿入することによりサンプル数を倍にした音声信号を生成する。そして、その生成した音声信号を、周波数8kHz以下の帯域のみを通過させる帯域制限フィルタに通すことにより、サンプリング周波数が32kHzの音声信号を得る。
ミキシング処理部13でも、図3に示した手順で、第3の端末グループからの音声信号に対するミキシング処理が行われる。このミキシング処理では、サンプリング変換部341が、グループ信号加算部133からの同一帯域の加算音声信号のサンプリング周波数32kHzを、ミキシング処理部11での処理が可能なサンプリング周波数8kHzに変換する。
上記のサンプリング周波数32kHzからサンプリング周波数8kHzへのダウンサンプリング変換では、例えば、サンプリング周波数が32kHzの音声信号を、周波数4kHz以下の帯域のみを通過させる帯域制限フィルタに通した後、3サンプル毎に間引くことにより、サンプリング周波数が8kHzの音声信号を得る。
また、サンプリング変換部342が、グループ信号加算部132からの同一帯域の加算音声信号のサンプリング周波数32kHzを、ミキシング処理部12での処理が可能なサンプリング周波数16kHzに変換する。
上記のサンプリング周波数32kHzからサンプリング周波数16kHzへのダウンサンプリング変換では、例えば、サンプリング周波数が32kHzの音声信号を、周波数8kHz以下の帯域のみを通過させる帯域制限フィルタに通した後、1サンプル毎に間引くことにより、サンプリング周波数が16kHzの音声信号を得る。
上述のようなサンプリング周波数の変換処理により、帯域別に設けられた各ミキシング処理部において、自処理部に供給された音声信号と、他のミキシング処理部に供給された音声信号とのミキシングを行うことができる。
以上説明したように、本実施形態の音声ミキシング装置では、ミキシング処理部11〜1kのそれぞれが、入力された同一帯域の加算音声信号のサンプリング周波数を他のミキシング処理部で処理可能なサンプリング周波数に変換する。さらに、ミキシング処理部11〜1kのそれぞれが、自処理部で生成した同一帯域の加算音声信号と、他のミキシング処理部から供給される、自処理部のサンプリング周波数への変換がなされた同一帯域の加算音声信号とを加算して、同一サンプリング周波数の加算信号を生成する。そして、ミキシング処理部11〜1kのそれぞれが、同一サンプリング周波数の加算信号から入力音声信号を減算し、その減算結果として得られた音声信号を符号化する。
上記の構成によれば、ミキシング処理部11〜1kのそれぞれが、同一帯域の加算音声信号のサンプリング周波数を他のミキシング処理部で処理可能なサンプリング周波数に変換するとともに、自処理部で生成した同一帯域の加算音声信号と、他のミキシング処理部から供給される、自処理部のサンプリング周波数への変換がなされた同一帯域の加算音声信号とを加算することで、複数の異なる帯域の音声信号をミキシングすることが可能となっている。したがって、例えば、電話帯域を利用する端末や広帯域を利用する端末、といった異なる帯域の音声信号を送受信する端末間において、多地点会議サービスを提供することができる。
また、ミキシング処理部11〜1kのそれぞれが、自処理部で生成した同一帯域の加算音声信号と、他のミキシング処理部から供給される、自処理部のサンプリング周波数への変換がなされた同一帯域の加算音声信号とを加算する際に、その加算信号に、予め定められた高域成分を有する擬似音声信号を付加してもよい。これにより、アップサンプリング変換を行う際の、帯域が異なる音声信号をミキシングすることで生じる違和感を避けることができ、低いサンプリング周波数の信号の音質を改善することができる。
上述した本実施形態の音声ミキシング装置は、本発明の一例であり、その構成および動作は、発明の趣旨を逸脱しない範囲で適宜に変更することができる。
例えば、図1に示した音声ミキシング装置において、ミキシング処理部11〜1kは、全信号加算部151〜15kから出力される音声信号、または、その出力音声信号を符号化した音声データを、それぞれの出力信号としてもよい。
また、図1に示した音声ミキシング装置において、ミキシング処理部11〜1kの各符号化部(例えば、符号化部171〜17k、271〜27k、371〜37kなど)が、予測符号化器であってもよい。
また、図1および図2に示した構成において、復号部や信号分類部は、音声ミキシング装置内に設けられてもよく、また、受信部に設けられてもよい。
また、図2に示した多地点会議サーバは、プログラムにより動作するコンピュータシステムより実現することができる。このコンピュータシステムの主要部は、プログラムやデータなどを蓄積する記憶装置、キーボードやマウスなどの入力装置、LCD(Liquid Crystal Display)などの表示装置、外部との通信を行うモデムなどの通信装置、プリンタなどの出力装置、および記憶装置に格納されたプログラム従って動作し、入力装置からの入力を受け付けて通信装置、出力装置、表示装置の動作を制御する制御装置(CPU:Central Processing Unit)から構成される。プログラムとして、図3に示したミキシング処理をCPUに実行させるためのプログラムが記憶装置に格納される。このプログラムは、記録媒体やインターネットを通じて提供されてもよい。また、プログラムとして、図3に示したミキシング処理をDSP(Digital Signal Processor)に実行させるためのプログラムを提供することもできる。
以上説明した本発明によれば、サンプリング周波数が異なる複数の帯域の音声信号を混在させた音声ミキシングを行うことが可能であるので、例えば、電話帯域を利用する端末や広帯域を利用する端末、といった異なる帯域の音声(音響)信号を送受信する端末間においても多地点会議サービスを提供できる。したがって、多地点音声会議サービスにおける利便性の向上を図ることができる。
本発明は、多地点会議サービスを提供するシステムの他、音声ミキシングを行う装置全般に適用することができる。例えば、本発明は、3GPPにて規定されたMRF(Media Resource Function)と呼制御部に相当するMRCF(Media Resource Control Function)によって実現される、種々のメディアサービスを提供するシステムに適用することができる。MRFおよびMRCFは、所謂、多地点会議システムの多地点制御装置(MCU:Multi-Point Control Unit)の機能を実現するために用いられている。
以上、実施形態を参照して本発明を説明したが、本発明は上述した実施形態に限定されるものではない。本発明の構成及び動作については、本発明の趣旨を逸脱しない範囲において、当業者が理解し得る様々な変更を行うことができる。
この出願は、2008年2月4日に出願された日本出願特願2008−23976を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (8)

  1. サンプリング周波数別に設けられた複数のミキシング処理部からなり、
    前記複数のミキシング処理部のそれぞれは、
    同一サンプリング周波数の入力音声信号を加算して第1の加算音声信号を生成し、該第1の加算音声信号のサンプリング周波数を他のミキシング処理部で処理可能なサンプリング周波数に変換し、該サンプリング周波数の変換がなされた音声信号を前記他のミキシング処理部に供給し、
    自処理部で生成した前記第1の加算音声信号と、前記他のミキシング処理部から供給される、自処理部での処理が可能なサンプリング周波数への変換がなされた前記第1の加算音声信号とを加算して第2の加算音声信号を生成する、音声ミキシング装置。
  2. 前記複数のミキシング処理部のそれぞれは、前記同一サンプリング周波数の入力音声信号毎に、前記第2の加算音声信号から該入力音声信号を差し引いた減算音声信号を生成し、該減算音声信号を符号化する、請求の範囲第1項に記載の音声ミキシング装置。
  3. 前記複数のミキシング処理部のそれぞれは、予め定められた高域成分を有する擬似音声信号を前記第2の加算音声信号に加える、請求の範囲第1項または第2項に記載の音声ミキシング装置。
  4. 前記複数のミキシング処理部のそれぞれは、
    前記同一サンプリング周波数の入力音声信号を加算して前記第1の加算音声信号を生成するグループ信号加算部と、
    前記グループ信号加算部にて生成された前記第1の加算音声信号と、前記他のミキシング処理部から供給される、自処理部での処理が可能なサンプリング周波数への変換がなされた前記第1の加算音声信号とを加算して前記第2の加算音声信号を生成する全信号加算部と、
    前記同一サンプリング周波数の入力音声信号毎に設けられ、該入力音声信号が第1の入力として供給され、前記全信号加算部で生成された前記第2の加算音声信号が第2の入力として供給され、該第2の入力から該第1の入力を減算する複数の信号減算器と、
    前記複数の信号減算器から出力された音声信号をそれぞれ符号化する複数の符号化部と、を有する、請求の範囲第1項乃至第3項のいずれかに記載の音声ミキシング装置。
  5. サンプリング周波数が異なる複数の入力音声信号をサンプリング周波数別に複数のグループに分類する第1のステップと、
    前記第1のステップで分類したグループ毎に、同一サンプリング周波数の入力音声信号を加算して第1の加算音声信号を生成し、該第1の加算音声信号のサンプリング周波数を他のグループで処理可能なサンプリング周波数に変換し、該サンプリング周波数の変換がなされた音声信号を前記他のグループに割り当てる第2のステップと、
    前記第1のステップで分類したグループ毎に、自グループで生成した前記第1の加算音声信号と、前記他のグループから割り当てられる、自グループでの処理が可能なサンプリング周波数への変換がなされた前記第1の加算音声信号とを加算して第2の加算音声信号を生成する第3のステップと、を含む、音声ミキシング方法。
  6. 前記第1のステップで分類したグループのそれぞれにおいて、前記同一サンプリング周波数の入力音声信号毎に、前記第2の加算音声信号から該入力音声信号を差し引いた減算音声信号を生成し、該減算音声信号を符号化するステップを、さらに含む、請求の範囲第5項に記載の音声ミキシング方法。
  7. 前記第1のステップで分類したグループのそれぞれにおいて、予め定められた高域成分を有する擬似音声信号を前記第2の加算音声信号に加えるステップを、さらに含む、請求の範囲第5項または第6項に記載の音声ミキシング方法。
  8. 複数の通信端末とネットワークを介して接続される多地点会議サーバであって、
    前記複数の通信端末から受信した複数の音声信号をサンプリング周波数別に分類する信号分類部と、
    サンプリング周波数別に設けられた複数のミキシング処理部と、を有し、
    前記複数のミキシング処理部のそれぞれは、
    同一サンプリング周波数の入力音声信号を加算して第1の加算音声信号を生成し、該第1の加算音声信号のサンプリング周波数を他のミキシング処理部で処理可能なサンプリング周波数に変換し、該サンプリング周波数の変換がなされた音声信号を前記他のミキシング処理部に供給し、
    自処理部で生成した前記第1の加算音声信号と、前記他のミキシング処理部から供給される、自処理部での処理が可能なサンプリング周波数への変換がなされた前記第1の加算音声信号とを加算して第2の加算音声信号を生成する、多地点会議サーバ。
JP2009552440A 2008-02-04 2009-01-28 音声ミキシング装置および方法ならびに多地点会議サーバ Expired - Fee Related JP5158099B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009552440A JP5158099B2 (ja) 2008-02-04 2009-01-28 音声ミキシング装置および方法ならびに多地点会議サーバ

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008023976 2008-02-04
JP2008023976 2008-02-04
PCT/JP2009/051302 WO2009098975A1 (ja) 2008-02-04 2009-01-28 音声ミキシング装置および方法ならびに多地点会議サーバ
JP2009552440A JP5158099B2 (ja) 2008-02-04 2009-01-28 音声ミキシング装置および方法ならびに多地点会議サーバ

Publications (2)

Publication Number Publication Date
JPWO2009098975A1 JPWO2009098975A1 (ja) 2011-05-26
JP5158099B2 true JP5158099B2 (ja) 2013-03-06

Family

ID=40952053

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009552440A Expired - Fee Related JP5158099B2 (ja) 2008-02-04 2009-01-28 音声ミキシング装置および方法ならびに多地点会議サーバ

Country Status (5)

Country Link
US (1) US8489216B2 (ja)
EP (1) EP2239931A4 (ja)
JP (1) JP5158099B2 (ja)
CN (1) CN101926159A (ja)
WO (1) WO2009098975A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103259943B (zh) * 2012-02-21 2015-04-22 深圳市东进软件开发有限公司 一种pstn电话会议混音方法
CN104427389B (zh) * 2013-08-27 2018-06-26 广州艾缔亿生物科技有限公司 基于多媒体内容投入式声音信号的广告系统及方法
GB2524984B (en) 2014-04-08 2018-02-07 Acano (Uk) Ltd Audio mixer
JP6476768B2 (ja) * 2014-11-07 2019-03-06 沖電気工業株式会社 音声処理装置、プログラム及び方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63314946A (ja) * 1987-06-17 1988-12-22 Nippon Telegr & Teleph Corp <Ntt> 音声加算方式
JPH1075310A (ja) * 1996-08-29 1998-03-17 Nec Corp 多地点テレビ会議システム
JP2000069179A (ja) * 1998-08-19 2000-03-03 Sony Corp 多地点会議装置及びその方法並びに多地点会議用端末装置
JP2005229259A (ja) * 2004-02-12 2005-08-25 Nippon Telegr & Teleph Corp <Ntt> 音声ミキシング方法、音声ミキシング装置、音声ミキシングプログラム及びこれを記録した記録媒体

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2102857C (en) 1992-12-31 1998-06-23 Alexander Feiner Technique for reducing echoes in conference communications
US5621805A (en) * 1994-06-07 1997-04-15 Aztech Systems Ltd. Apparatus for sample rate conversion
US5647008A (en) * 1995-02-22 1997-07-08 Aztech Systems Ltd. Method and apparatus for digital mixing of audio signals in multimedia platforms
JP3592879B2 (ja) 1997-02-20 2004-11-24 京セラ株式会社 音声情報通信システム及び多地点制御装置
US5907295A (en) * 1997-08-04 1999-05-25 Neomagic Corp. Audio sample-rate conversion using a linear-interpolation stage with a multi-tap low-pass filter requiring reduced coefficient storage
JPH11213558A (ja) * 1998-01-27 1999-08-06 Toshiba Corp 音声データ処理装置およびコンピュータシステム並びに音声データ処理方法
JP2000175170A (ja) 1998-12-04 2000-06-23 Nec Corp 多地点テレビ会議システム及びその通信方法
US7369665B1 (en) * 2000-08-23 2008-05-06 Nintendo Co., Ltd. Method and apparatus for mixing sound signals
US6889182B2 (en) 2001-01-12 2005-05-03 Telefonaktiebolaget L M Ericsson (Publ) Speech bandwidth extension
US7409056B2 (en) 2002-12-16 2008-08-05 Broadcom Corporation Switchboard for dual-rate single-band communication system
JP2005020639A (ja) 2003-06-30 2005-01-20 Nec Engineering Ltd 衛星を利用した多地点テレビ会議システム
JP4305307B2 (ja) * 2004-07-13 2009-07-29 ヤマハ株式会社 ミキサ構成をプログラム可能なディジタルミキサ、ミキサ構成編集装置、及び、ディジタルミキサの制御を行う制御アプリケーションプログラム
JP4250578B2 (ja) 2004-09-07 2009-04-08 株式会社リコー 音声オーディオ装置
US20080215681A1 (en) * 2006-05-01 2008-09-04 Thomas Darcie Network architecture for multi-user collaboration and data-stream mixing and method thereof
US8334891B2 (en) * 2007-03-05 2012-12-18 Cisco Technology, Inc. Multipoint conference video switching
JP5239453B2 (ja) * 2008-03-31 2013-07-17 ヤマハ株式会社 編集装置及び音響信号処理装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63314946A (ja) * 1987-06-17 1988-12-22 Nippon Telegr & Teleph Corp <Ntt> 音声加算方式
JPH1075310A (ja) * 1996-08-29 1998-03-17 Nec Corp 多地点テレビ会議システム
JP2000069179A (ja) * 1998-08-19 2000-03-03 Sony Corp 多地点会議装置及びその方法並びに多地点会議用端末装置
JP2005229259A (ja) * 2004-02-12 2005-08-25 Nippon Telegr & Teleph Corp <Ntt> 音声ミキシング方法、音声ミキシング装置、音声ミキシングプログラム及びこれを記録した記録媒体

Also Published As

Publication number Publication date
JPWO2009098975A1 (ja) 2011-05-26
EP2239931A1 (en) 2010-10-13
EP2239931A4 (en) 2012-01-11
US8489216B2 (en) 2013-07-16
CN101926159A (zh) 2010-12-22
WO2009098975A1 (ja) 2009-08-13
US20100290645A1 (en) 2010-11-18

Similar Documents

Publication Publication Date Title
KR101036965B1 (ko) 음성 믹싱 방법 및 그 방법을 이용하는 다지점 회의 서버와 컴퓨터 판독가능 기록 매체
JP5096498B2 (ja) エンベデッド無音及び背景雑音圧縮
Singh et al. VoIP: State of art for global connectivity—A critical review
KR101468458B1 (ko) 멀티 포인트 환경에서의 스케일러블 오디오
CN103988486A (zh) 在多方电话会议的混音中选择活动信道的方法
US20060282265A1 (en) Methods and apparatus to perform enhanced speech to text processing
JP5158099B2 (ja) 音声ミキシング装置および方法ならびに多地点会議サーバ
US9961209B2 (en) Codec selection optimization
US8358600B2 (en) Method of transmitting data in a communication system
US20130066641A1 (en) Encoder Adaption in Teleconferencing System
Cox et al. Itu-t coders for wideband, superwideband, and fullband speech communication [series editorial]
JP5158098B2 (ja) 音声ミキシング装置および方法ならびに多地点会議サーバ
Chinna Rao et al. Real-time implementation and testing of VoIP vocoders with asterisk PBX using wireshark packet analyzer
US20190051286A1 (en) Normalization of high band signals in network telephony communications
US20040100955A1 (en) Vocoder and communication method using the same
US7619994B2 (en) Adapter for use with a tandem-free conference bridge
Luksa et al. Sound quality assessment in VOIP environment
Varun et al. Transcoding of Voice Codecs G. 711 to G. 729 and Vice-versa Implementation on FPGA
Seung-Han et al. The development of HD-VoIP application with G. 711.1 for smartphone
EP2568619A1 (en) Echo cancelling-codec
CN117577123A (zh) 基于音频编解码器的回声消除装置及电子终端
Varga On Development of New Audio Codecs
Valin et al. RFC 6366: Requirements for an Internet Audio Codec
van den Braak et al. FPGA implementation of Voice-over IP
Delluza et al. Employing Mean Opinion Score of Audio Lossy Compression Algorithms in VoIP Application

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121126

R150 Certificate of patent or registration of utility model

Ref document number: 5158099

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151221

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees