JP2009500976A - 会議通話のための空間化機構 - Google Patents

会議通話のための空間化機構 Download PDF

Info

Publication number
JP2009500976A
JP2009500976A JP2008520900A JP2008520900A JP2009500976A JP 2009500976 A JP2009500976 A JP 2009500976A JP 2008520900 A JP2008520900 A JP 2008520900A JP 2008520900 A JP2008520900 A JP 2008520900A JP 2009500976 A JP2009500976 A JP 2009500976A
Authority
JP
Japan
Prior art keywords
audio
frame
speech
audio signal
control word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008520900A
Other languages
English (en)
Inventor
ペトリ ヤルスケ
ユッシ ヴィロライネン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of JP2009500976A publication Critical patent/JP2009500976A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6016Substation equipment, e.g. for use by subscribers including speech amplifiers in the receiver circuit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/41Electronic components, circuits, software, systems or apparatus used in telephone systems using speaker recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

複数の参加者の会議通話において話者を区別するための方法。符号化された音声パラメータを含む、会議通話の音声フレームが受信ユニットで受信される。受信した音声フレームのうちの少なくとも1つのパラメータは、オーディオコーデックにおいて調査され、音声フレームは、参加者の内の一人に属するように分類され、分類は、調査した少なくとも1つの音声パラメータに基づいて実行される。これらの機能は、話者識別ブロックにおいて実行することが可能であり、テレビ会議処理チェーンの様々な部位に適用可能である。最後に、空間化効果は、オーディオ信号の音響空間における相異なる位置に参加者を配置することによって知らされた差に基づいて、オーディオ信号を再生する端末で生成される。
【選択図】図8

Description

本発明は、テレビ会議システムに関し、より具体的には、会議通話における空間化効果の構成に関する。
様々なオーディオおよびテレビ会議サービスが、特に回路交換電気通信ネットワークにおいて長い間利用可能であった。テレビ会議システムは、分散型システムと集中型システムとに分けることができ、後者は、サービスプロバイダおよび端末の実装を考慮すると、テレビ会議サービスの提供においてより好都合であることが分かっている。
図1は、集中型オーディオ会議サービスを実装するための従来技術のデザインを示す図である。テレビ会議システムは、会議ブリッジ(Conference Bridge) CBと、それと通信する複数の端末UEとを備える。各端末UEは、マイクロホンによって端末ユーザーの音声を受信し、既知の音声コーデックで音声信号を符合化する。符号化音声は会議ブリッジCBに送信され、受信信号から音声信号を復号化する。会議ブリッジCBは、従来技術の処理方法を使用して、オーディオ処理ユニット(audio processing unit) APUにおいて異なる端末から受信した音声信号を組み合わせる。その後、複数の音声信号を含む組み合わせた信号は、既知の音声コーデックによって符合化されて、端末UEに返信され、受信信号から組み合わせ音声信号を復号化する。可聴オーディオ信号は、組み合わせ音声信号からスピーカまたはヘッドホンによって生成される。有害なエコー現象を回避するために、端末によって会議ブリッジに送信された音声信号は、一般的に、その端末に送信すべきオーディオ信号から取り除かれる。
組み合わせ信号は、一般的に、シングルチャネル(モノラルの)オーディオ信号として、または2チャネル(ステレオの)オーディオ信号として、会議ブリッジにおいて生成される。会議ブリッジでは、空間的効果(空間化として知られている)は、見掛け上は2チャネルオーディオ信号で生成することができる。その場合、オーディオ信号は、会議通話の参加者が会議室内の異なる場所にいるような印象を与えるように処理される。その場合、異なるオーディオチャネル上に再生すべきオーディオ信号は、互いに異なる。シングルチャネルオーディオ信号を使用した場合、全ての音声信号(すなわち、組み合わせ信号)は、同じオーディオチャネル上に混合されるように再生される。
空間化は、適切に実装された場合、聴取者は、異なる方向からの各参加者の音声を感じ取ることができるので、会議通話の参加者の音声了解度を向上させる。したがって、空間化は、会議通話システムにおける望ましい機能である。空間化を含む従来技術のテレビ会議システムは、例えば、WO 99/53673、米国特許第6,125,115号、および第5,991,385号に記述されている。
なお、これらの従来技術の機構には、顕著な不利点がある。空間化効果を生成するために、受信端末には、参加者がそれぞれの瞬間に話していることに関する情報が必要である。ほとんどの場合、テレビ会議ブリッジは、その情報を定義することができるが、この情報は、各参加端末に送信すべきテレビ会議ブリッジの出力信号内に含めなければならない。この追加情報を、送信すべき信号内に含めるための標準化された方法は存在しない。その上、この追加情報を含めることで、データ送信に使用される帯域幅が増加することになり、更なる不利点となる。
空間化効果を生成するための代替的な従来の既知の方法では、会議ブリッジ内に空間化ユニットを提供している。全ての入力チャネルは空間化ユニットにおいて空間化され、空間化信号は各参加端末に送信される。これもまた、会議ブリッジの複雑さを増加させる。空間化情報を含む信号には、より大きな帯域幅も必要である。
さらに、特定の場合には、テレビ会議ブリッジであっても、参加者がそれぞれの瞬間に話していることを定義することができない。例えば、モノラルの会議ネットワークと、三次元が可能な(3D-capable)(ステレオ/nフォニック)会議ネットワークとの間のゲートウェイとして、テレビ会議ブリッジを使用することが可能である。そのような状況では、ゲートウェイテレビ会議ブリッジは、モノラルの会議ネットワークのテレビ会議ブリッジから、モノラルの会議ネットワークの参加者の全ての音声信号を含む組み合わせ信号を受信する。また、参加者がそれぞれの瞬間に話していることを定義する追加情報は、ゲートウェイテレビ会議ブリッジが、更なる空間化処理のために、話者を互いに区別することができるように、組み合わせ信号内に含めなければならない。
WO99/53673 米国特許第6,125,115号 米国特許第5,991,385号
発明の摘要
ここに、改善した方法および方法を実行するための技術的な装置を発明し、それによって、いかなる追加情報も受信した組み合わせ信号に含める必要なく、話者の識別を受信時に行うことができる。本発明の様々な側面は、方法、システム、電子デバイス、およびコンピュータプログラムを含み、これらは独立請求項内の記述によって表される。本発明の様々な実施態様を従属請求項に開示する。
第一の側面によれば、本発明による方法は、符号化音声データ内の音声パラメータが、一般的に、代表的なテレビ会議に関係する数人の話者間の区別を行うに十分な情報を含んでいるという観察に基づくものである。その点を考慮して、本発明の第一の側面は、複数の参加者の会議通話において話者を区別するための方法であって、
・ 前記会議通話の音声フレームであって、符号化された音声パラメータを含む音声フレームを受信することと、
・ 前記受信した音声フレームのうちの少なくとも1つの音声パラメータを調査することと、
・ 前記参加者のうちの一人に属するように前記音声フレームを分類することであって、前記分類は、前記調査した少なくとも1つの音声パラメータに基づいて実行されることと、
を有する方法を含む。
一実施態様によれば、前記方法は、前記参加者の前記音声フレームの分類に基づいて、オーディオ信号の音響空間内の相異なる位置に前記参加者を配置することによって、再生すべき前記オーディオ信号に対して空間化効果を生成することをさらに含む。
一実施態様によれば、前記方法は、前記調査した少なくとも1つの音声パラメータにおける差(differences)に基づいて、各参加者の制御ワードを決定することと、音声フレームに制御ワードを添付することであって、各音声フレームの前記制御ワードは、前記特定の音声フレームにおいて話す前記参加者に特徴的なものであることとをさらに含む。
一実施態様によれば、前記方法は、音声フレームに添付された前記制御ワードに基づいて空間化効果を生成することをさらに含む。
一実施態様によれば、前記方法は、前記調査した1つの音声パラメータだけにおける線形差(linear differences)に基づいて、各参加者の前記制御ワードを決定することと、前記制御ワードに基づいて、再生すべき前記オーディオ信号のオーディオチャネルの空間的位置を制御することとをさらに含む。
一実施態様によれば、前記方法は、複数の調査した音声パラメータにおける差(differences)に基づいて前記音声フレームをクラスタ化することと、前記クラスタ化音声フレームの前記音声パラメータにおける差(differences)に基づいて、各参加者の前記制御ワードを決定することと、前記制御ワードに基づいて、再生すべき前記オーディオ信号のオーディオチャネルの空間的位置を制御することとをさらに含む。
一実施態様によれば、前記調査した音声パラメータは、前記音声のピッチ、符号化音声フレームの有声/無声の分類、または符号化音声フレームの任意のLPC(Linear Predictive Coding: 線形予測符号化)パラメータ、のうちの少なくとも1つを含む。
本発明による機構は、顕著な利点を提供する。主たる利点は、テレビ会議の状況において、ネットワークからいかなる話者識別情報も必要としないが、前記識別は、前記受信ユニットだけで実行できることである。さらに、前記符号化音声フレームのパラメータが識別に使用されるので、前記受信器にはいかなる別個の音声解析アルゴリズムも不要であり、その結果、計算上の複雑さが低減されることである。更なる利点は、少数あるいは1つまたは2つの適切に選択した音声パラメータを使用することによって、相異なる空間化効果を前記端末内で達成できることである。
本発明の第二の側面によれば、複数の参加者の会議電話において話者を区別するためのシステムであって、
・ 前記複数の参加者の会議通話の音声フレームであって、符号化された音声パラメータを含む音声フレームを受信するための受信ユニットと、
・ 前記受信した音声フレームのうちの少なくとも1つのパラメータを調査するための抽出ユニットと、
・ 前記参加者のうちの一人に属するように前記音声フレームを分類するための認識ユニットであって、前記分類は、前記調査した少なくとも1つの音声パラメータに基づいて実行される認識ユニットと、
を備えるシステムが提供される。
当該のシステムは、テレビ会議通話の処理チェーン内の様々な位置に適用可能である。これは、前記話者識別プロセスを配置するための特定の自由度が、前記会議ネットワークの異なるステージにおいて、モノラル会議システムを三次元会議システムへ接続するための柔軟性を提供するという顕著な利点を提供する。これらの代替的な位置を、本発明の更なる側面に示す。
本発明の第三の側面によれば、複数の参加者の会議通話のオーディオ信号の三次元空間化のための、コンピュータ可読の媒体上に格納され、データ処理デバイスで実行可能な端末デバイスであって、
・ 前記複数の参加者の会議通話の音声フレームであって、符号化された音声パラメータを含む音声フレームを受信するための手段と、
・ 前記受信した音声フレームのうちの少なくとも1つのパラメータを調査するためのオーディオコーデックと、
・ 前記参加者のうちの一人に属するように前記音声フレームを分類するための手段であって、前記分類は、前記調査した少なくとも1つの音声パラメータにおける差に基づいて実行される手段と、
・ オーディオ信号の音響空間内の相異なる位置に前記参加者を配置することによって、再生すべき前記オーディオ信号に対して空間化効果を生成するための空間化手段と、
を備える端末デバイスが提供される。
第四の実施態様によれば、複数の参加者の会議通話のオーディオ信号の三次元空間化のための、コンピュータ可読の媒体上に格納され、データ処理デバイスで実行可能なコンピュータプログラムであって、
・ 前記複数の参加者の会議通話の音声フレームであって、符号化された音声パラメータを含む音声フレームを受信するためのコンピュータプログラムのコードセクションと、
・ 前記受信した音声フレームのうちの少なくとも1つのパラメータを調査するためのコンピュータプログラムのコードセクションと、
・ 前記参加者のうちの一人に属するように前記音声フレームを分類するためのコンピュータプログラムのコードセクションであって、前記分類は、前記調査した少なくとも1つの音声パラメータに基づいて実行されるコンピュータプログラムのコードセクションと、
・ 前記オーディオ信号の音響空間内の相異なる位置に前記参加者を配置することによって、再生すべき前記オーディオ信号に対して空間化効果を生成するためのコンピュータプログラムのコードセクションとを備えるコンピュータプログラムが提供される。
本発明の第五の側面によれば、テレビ会議システムのための会議ブリッジであって、
・ 複数の参加者の前記複数の参加者の会議通話の音声フレームであって、符号化された音声パラメータを含む音声フレームを受信するための手段と、
・ 前記受信した音声フレームのうちの少なくとも1つのパラメータを調査するためのオーディオコーデックと、
・ 前記参加者のうちの一人に属するように前記音声フレームを分類するための手段トであって、前記分類は、前記調査した少なくとも1つの音声パラメータにおける差に基づいて実行される手段と、
・ オーディオ信号の更なる空間化処理のために、前記オーディオ信号の中に、前記参加者の前記音声フレームの分類に基づく情報を含めるための手段と、
を備える会議ブリッジが提供される。
本発明の第六の側面によれば、複数の参加者の会議通話における話者の区別のための、コンピュータ可読の媒体上に格納され、データ処理デバイスで実行可能なコンピュータプログラムであって、
・ 前記複数の参加者の会議通話の音声フレームであって、符号化された音声パラメータを含む音声フレームを受信するためのコンピュータプログラムのコードセクションと、
・ 前記受信した音声フレームのうちの少なくとも1つのパラメータを調査するためのコンピュータプログラムのコードセクションと、
・ 前記参加者のうちの一人に属するように前記音声フレームを分類するためのコンピュータプログラムのコードセクションであって、前記分類は、前記調査した少なくとも1つの音声パラメータにおける差(differences)に基づいて実行されるコンピュータプログラムのコードセクションと、
・ オーディオ信号の更なる空間化処理のために、前記オーディオ信号の中に、前記参加者の前記音声フレームの分類に基づく情報を含めるためのコンピュータプログラムのコードセクションと、
を備えるコンピュータプログラムが提供される。
本発明の第七の側面によれば、複数のスレーブ端末を会議ブリッジに接続する主端末として動作するための端末デバイスであって、
・ 複数の参加者の前記複数の参加者の会議通話の音声フレームであって、符号化された音声パラメータを含む音声フレームを受信するための手段と、
・ 前記受信した音声フレームの少なくとも1つのパラメータを調査するためのオーディオコーデックと、
・ 前記参加者のうちの一人に属するように前記音声フレームを分類するための手段であって、前記分類は、前記調査した少なくとも1つの音声パラメータにおける差に基づいて実行される手段と、
・ オーディオ信号の更なる空間化処理のために、前記オーディオ信号の中に、前記参加者の前記音声フレームの分類に基づく情報を含めるための手段と、
を備える端末デバイスが提供される。
実施形態の説明
以下、添付の図面を参照して本発明の様々な実施態様および側面を詳細に説明する。
本発明は、あらゆる特定の電気通信システムに限定されるものではないが、あらゆる電気通信システムで使用することができ、音声コーデックは、音声の特徴を分析して、符号化音声のパラメータを、参加者に送信すべきオーディオ信号に含める。その点を考慮して、本発明は、GSM(Global System for Mobile Communications: モバイル通信用グローバルシステム)/UMTS(Universal Mobile Telecommunications System: 汎用モバイル通信システム)システムから既知のEFR/FR/HR音声コーデック((エンハンスト)フル/ハーフレートコーデック)、および狭帯域AMRまたは広帯域AMR音声コーデック(Adaptive Multirate Codec: 適応マルチレートコーデック)のような異なるオーディオおよび音声コーデック、および異なるオーディオフォーマットの符号化および復号化に好適な、AACコーデック(Advanced Audio Coding: アドバンストオーディオコーディング)のようなMPEG1、MPEG2、およびMPEG4オーディオコーディングに使用されるコーデックを使用することができる。したがって、オーディオコーデックという用語は、従来の感覚でのオーディオコーデック、異なるシステムで使用される音声コーデック、およびMPEG4によるCELP+AACのようなスケーラブルビットレートのコーデックのことを指す。よって、当業者は、電気通信システムの性質が、決して本発明の実装を限定するものではなく、本発明は、GSMネットワーク、GPRS(General Packet Radio Service: 汎用パケット無線システム)ネットワーク、UMTSネットワークのなどのような回路交換、またはパケット交換電気通信ネットワーク、およびインターネットを介して使用されるテレビ会議機構に適用可能であるものと理解されよう。
以下、一例として広帯域AMR(AMR-WB)を使用した実施態様を説明する。広帯域音声コーデックAMR-WBは、これまでGSMシステム用に開発されていた狭帯域音声コーデックAMR-NBをさらに発展させたものである。広帯域および狭帯域AMRコーデックはどちらも、最良の音声品質を提供するために、最適なチャネルおよびコーデックモード(音声およびチャネルビットレート)を選択しようとするように、エラー隠蔽のレベルを無線チャネルおよびトラフィック状態に適用させるように構成される。
AMR音声コーデックは、マルチレート音声符号器、ボイスアクティビティ検出(voice activity detection: VAD)を含むソース制御レートダイアグラム、暗騒音生成システム(DTX; Discontinuous Transmission: 不連続伝送)、および受信パーティへの送信による送信パスエラーを防ぐためのエラー隠蔽機構からなる。マルチレート音声コーデックは、統合型音声コーデックであり、その狭帯域バージョンのAMR-NBは、ビットレートが12.2、10.2、7.95、7.4、6.7、5.9、5.15、および4.75 kbit/sである、8つの音声コーデックを含む。同様に、広帯域音声コーデックAMR-WBは、ビットレートが23.85、23.05、19.85、18.25、15.85、14.25、12.65、8.85、および6.60 kbit/sである、9つの音声コーデックを含む。
AMR音声コーデックの音声符号化のオペレーションは、ACELP(代数的コード励起線形予測)法に基づいている。広帯域コーデックAMR-WBは、16 kHzの周波数で音声をサンプリングし、その後に、前処理した音声信号が、動作周波数が12.8 kHzのコーデックにダウンサンプリングされる。これによって、復号化音声信号に対して6.4 kHzの帯域幅が可能となるが、23.85 kbit/sの最高ビットレートで動作するコーデックモードも音声信号の後処理機能を備えることになり、それによって、7 kHzに使用される帯域を増加させる、より高い周波数範囲(6.4から7 kHz)におけるカラード(coloured)ランダム雑音成分の決定が可能となる。
したがって、音声符号器の出力ビットストリームは、代表的なACELP符号器のパラメータである符号化された音声パラメータから構成される。これらのパラメータは、
・ スペクトルコンテンツを記述して、フィルタの短期的な係数を定義する、ISP(Immitance Spectral Pair: イミタンススペクトルペア)ドメインにおいて定量化されたLPC(Linear Predictive Coding: 線形予測符号化)と、
・ 音声の周期構造を記述する、LTP(Long Term Prediction: 長期予測)パラメータと、
線形予測因子の後に残差信号を記述したACELP励起と、
・ 信号ゲインと、
・ 拡張高周波数帯域(最高ビットレートのコーデックにおいてのみ使用される)のゲインパラメータと、
を含む。
図2のブロック図は、音声コーデックにおいて、入力音声が最初にボイスアクティビティ検出(voice activity detection: VAD)ブロック200に適用される、広帯域音声コーデックAMR-WBの一般的な機能的構造を示す図である。このブロックでは、VADアルゴリズムによるオペレーションが入力信号に行われ、音声成分を含むフレームが、ノイズだけを含むフレームから分離される。予備的なVADのパラメータ化は音声成分を含むフレームに行われるが、ノイズだけを含むフレームは、音声符号器をバイパスして不連続伝送(DTX)ブロック202に導かれ、ノイズを含むフレームを低ビットレート(1.75 kbit/s)で符合化する。予備的なVADのパラメータ化によって、一般的に、音声フレームのピッチおよびエネルギーを決定することができる。音声成分を含む音声フレームは、音声符号器204に適用され、前記符号器は、LPCパラメータを計算し(ブロック206)、LTPパラメータを計算し(ブロック208)、また信号ゲインを示すパラメータを計算(ブロック210)するための既知の機能を備える。
音声コーデックは、符号化された音声パラメータをチャネルコーダに供給し、ビットの再編成、いくつかのビットのCRC(Cyclic Redundancy Check: 周期的冗長検査)値の計算、畳み込み符号化、およびパンクチャリングなどの連続するオペレーションが実行される。これらのチャネル符号化音声のパラメータは、トランスミッタを経て受信端末のコーデックに送信され、復号器が、そのチャネル符号化を複合化し、また音声パラメータを複合化することによって、受信器において再生されるべきオーディオ信号を形成する。
図2の広帯域AMR-WB音声コーデックが、図1のテレビ会議ブリッジで使用されることを想定してみる。すなわち、オーディオ処理ユニット(APU)が、異なる端末から受信した音声信号を組み合わせて処理し、複数の音声信号を含む組み合わせ信号が、広帯域AMR-WB音声コーデックによって符合化されて、端末または他の会議ブリッジに返信されることを想定してみる。
本発明の実施態様は、符号化音声データ内の音声パラメータが、一般的に、代表的なテレビ会議に関係する数人の話者間の区別を行うに十分な情報を含んでいるという観察に基づくものである。その点を考慮して、受信ユニット(例、端末、またはゲートウェイテレビ会議ブリッジ)の音声コーデックは、一組の音声パラメータ(すなわち1つ以上のパラメータ)を調査して、調査した音声パラメータにおける差に基づいて話者を互いに区別するように構成される。次いで、話者は、調査した音声パラメータの特徴値に基づいて、以降の音声フレームから識別され、その後、識別された話者の情報は、再生されるべきオーディオ信号に対する空間化効果の生成にさらに使用することができる。
話者識別ブロックの一般的レベルへの実装を示す図3のブロック図を参照して、実施態様を詳述する。図3は、符号化音声フレームの処理に関する機能のみを示す図である。当業者には、符号化音声フレームの音声コーデックへの挿入前に、既知の様々なオペレーションが、受信信号に対して行われることは明らかであろう。なお、少なくともある程度システムに依存し、一般的に、例えば受信フレームのデインターリービングおよび畳み込み復号化を含むこれらのオペレーションは、実施態様の実装に関連するものではない。
受信ユニット(例、端末またはゲートウェイテレビ会議ブリッジ)は、様々な音声パラメータを含む符号化音声フレーム300を受信する。少なくともいくつかの受信した音声フレームから、抽出ブロック302によって1つ以上の所定の音声パラメータがコピーされる。実用上、各音声フレームを調査する必要は無く、例えば、第二または第三の音声フレームごとに調査すれば、実行可能なソリューションを達成することができる。音声パラメータはさらに認識ブロック304に送られ、音声パラメータにおける差に基づいて話者が互いに区別され、次いで、各フレームが話者の内の一人に属するように分類される。認識ブロック304はさらに制御ワードを計算し、話者を識別して、さらにこれを使用して、特定の音声フレームの空間化効果を生成する。その点を考慮して、話者識別ブロック306の基本的な実装は、抽出ブロック302および認識ブロック304を含む。当該の話者識別ブロックは、様々な電話会議アーキテクチャに、およびテレビ会議通話の処理チェーン内に様々な位置に適用可能である。
一実施態様によれば、話者識別ブロックを受信端末内に実装することができ、それによって、再生すべき音声信号に対する空間化効果を生成するためのネットワークからの話者識別情報が不要となる。図4は、端末における実装をさらに詳細に示す図である。端末は、会議ブリッジから符号化音声フレーム400を受信する。抽出ブロック402は、受信した音声フレームから所定の音声パラメータをコピーし、音声パラメータは認識ブロック404に入力される。認識ブロック404は、音声パラメータにおける差を調査し、それに応じて話者を互いに区別し、各フレームを話者のうちの一人に属するように識別する。次いで、認識ブロック404は、認識された話者のそれぞれに対する制御ワードを決定し、制御ワードは、音声フレームの空間化効果の生成にさらに使用される。一方で、端末によって受信した符号化音声フレーム400は、復号プロセスのために、標準音声復号器408(例、AMR-WB音声コーデック)に挿入される。音声復号器408の出力は復号化音声フレームを含み、空間化効果を生成するために空間化処理モジュール410に挿入される。空間化処理モジュール410において、各音声フレームは、話者識別ブロック406によって計算される対応する制御ワードでタグ付けされる。音声の各区間は、聴取者によって感知される音響空間内の相異なる場所から各話者が聴取されるように、音声フレームでタグ付けされた制御ワードに基づいて処理される。これは、それぞれの相手が異なる位置から話すような感覚を与える。再生手段412は、ステレオ再生手段(例、ヘッドホンまたはステレオスピーカ)、または5.1システムのようなマルチチャネルオーディオシステムを含めることが可能である。
空間化は、例えばHRTF(Head Related Transfer Function: 頭部伝達関数)フィルタリングなどによって実行することができ、聴取者の左右の耳に対するバイノーラル信号を生成することは一般に知られていることである。人工ルームエフェクト(例、初期反射または後期残響)を空間化信号に加えて、ソースの客観化および自然度を向上させることができる。空間化は、時間差(両耳間時間差: Interaural Time Difference)、または信号間の振幅差(両耳間振幅差: Interaural Amplitude Difference)を変更することによってのみ行うこともできる。ヒトの聴覚系は、小さな振幅差でも空間的差に変換する。ヘッドホンを使用した場合、フィルタから届いた信号は、このように左右の耳に対して再生することができ、空間的差があるという印象を聴取者に与える。スピーカを使用した場合、聴取者は両耳で両チャネルを聴取するので、クロストーク除去が必要な場合がある。その点を考慮して、クロストーク除去を再生処理の一部として実行することができる。
AMR-WBコーデックと同様に、大部分の音声コーデックは、線形予測符号化(LPC)符号化処理を用いている。これらのコーデックは、音声のピッチおよび音声が有声なのか無声なのかを評価する。ピッチおよびLPCパラメータは、各話者に対して幾分特徴的であり、したがって、話者を認識するための顕著な変数である。必然的に、異なる音声コーデックには、音声エンコーディングに使用したパラメータに基づいて、特定の実装が必要である。
一実施態様によれば、話者識別ブロック306の非常に単純な実装は、音声フレームの識別において、ピッチのような音声パラメータを1つだけ使用することによって達成することができる。それに応じて、抽出ブロック302は、選択されたパラメータ(例、ピッチ)を受信した音声フレームからコピーして、そのパラメータを認識ブロック304に挿入する。認識ブロック304は、パラメータを制御ワードに線形にマップし、線形に生成された制御ワードは、空間化効果の生成に使用することができる。例えば、話者識別ブロックが図4による端末に実装された場合、空間化処理モジュール410は、ステレオ出力の左/右パニングを制御する制御するために、制御ワードを直接使用する。本実施態様の複雑さは非常に低く、実験では、適切に選択された音声パラメータを1つだけしか使用しなくても、相異なる空間化効果が達成できることを示している。
必然的に、符号化音声フレームの複数または全ての音声パラメータを識別に使用した場合に、より顕著な空間化効果を達成することができる。したがって、別の実施態様によれば、抽出ブロック302は、受信した音声フレームから複数の所定のパラメータをコピーして、そのパラメータを認識ブロック304に挿入する。認識ブロック304は、調査した音声パラメータの特徴値に基づいて、音声パラメータのクラスタ化を実行して、各音声フレームがどのクラスタ(すなわち話者)に属するのかを識別する。認識ブロック304は、次いで、各話者(すなわち、音声フレームのクラスタ)を特徴付ける制御ワードを計算する。また、例えば話者識別ブロックの端末実装において、各音声フレームは、空間化処理モジュール410において、それぞれの制御ワードでタグ付けされる。次いで、各話者が音響空間内の相異なる場所に配置される。上述の実施態様と比較した場合、実装の複雑さはある程度増加するが、各音声フレームに対する話者の識別の信頼性はそれぞれ高くなる。
更なる一実施態様によれば、ピッチ値に加えて、有声/無声音声フレームへの分割も音声フレームの分類に利用した場合に、かなり単純な実装であるが、拡張空間化効果が達成される。その中で、音声フレームのピッチ情報は、例えば、音声フレームの音声が明らかに有声であるときにのみピッチ情報をさらに処理するように、同じフレームの有声/無声情報に基づいて処理することができる。音声フレームの音声が無声である場合、ピッチ情報はこのように話者の識別に使用される。有声/無声音声の使用は、一般的に各話者に対して特徴的であるので、更なる情報を提供し、話者を互いに区別することを容易にする。
それでも、当業者は、識別の精度がこの種の用途にはそれほど重要ではないと理解されよう。このように、識別は音声アイテムの再生に影響を及ぼさず、それらに関連する空間化効果に対してのみ影響を及ぼす。したがって、特定の音声アイテムの話者の誤った識別によって、話者が音響空間内の誤った場所に配置されることになり、ある程度の混乱を生じさせるが、それでもメッセージは適切に再生される。
一実施態様によれば、話者識別ブロックによって提供された話者識別情報は、話者識別(例、"話者1")が、それぞれの話者の音声フレームの再生と並行して、端末のディスプレイ画面に表示されるように、受信端末においてさらに利用することができる。現在の話者の視覚的な情報は、空間化効果の知覚を深める。
上述の様々な実施態様によって提供される利点は、当業者に明らかである。主たる利点は、テレビ会議の状況において、ネットワークからいかなる話者識別情報も必要としないが、識別は、受信端末だけで実行できることである。さらに、符号化音声フレームのパラメータが識別に使用されるので、受信器にはいかなる別個の音声解析アルゴリズムも不要であり、その結果、計算上の複雑さが低減されることである。更なる利点は、少数あるいは1つまたは2つの適切に選択した音声パラメータを使用することによって、相異なる空間化効果を端末内で達成できることである。
なお、上述の話者識別ブロックは、異なるテレビ会議アーキテクチャの様々な位置において適用可能である。結果的に、本発明の更なる側面は、本発明による話者識別ブロックを含むテレビ会議ブリッジを開示する。当該のテレビ会議ブリッジは、一般的に、従来のモノラル会議ネットワークを三次元会議ネットワークに接続することによって、ゲートウェイとして動作する。本願明細書で使用される用語"三次元会議ネットワーク"とは、端末が会議ブリッジからステレオ/マルチチャネル符号化音声ストリームを受信することができるか、または、空間化効果のために、いくつかの追加情報をモノラルの音声チャネルと並行して端末に送信できるソリューションのことである。
図4に示される実装例は、必然的に再生手段412を用いずに、テレビ会議ブリッジにも適用することができる。結果的に、テレビ会議ブリッジを実装する一実施態様では、テレビ会議ブリッジは、モノラルのテレビ会議ネットワークから組み合わせ信号を受信し、前記組み合わせ信号は、複数の会議通話参加者からの符号化音声フレーム400を含む。話者識別ブロック406は、上述の端末実装で説明したように動作する。抽出ブロック402は、受信した音声フレームのそれぞれからの所定の音声パラメータを認識ブロック404に入力し、認識ブロック404は、認識された話者のそれぞれに対して制御ワードが識別された後に、音声パラメータにおける差に基づいて、話者の内の一人に属するように各フレームを分類する。組み合わせ信号の符号化音声フレーム400は、復号プロセスのために、テレビ会議ブリッジの音声復号器408に挿入される。復号化音声フレームは、空間化オーディオ処理モジュール410に挿入され、各音声フレームは、話者識別ブロック406によって算出された対応する制御ワードでタグ付けされる。したがって、モノラルのテレビ会議ネットワークからの組み合わせ信号に対する三次元処理は、テレビ会議ブリッジにおいて実行され、それによって、空間的位置は、話者の検出されたアイデンティティに基づいて制御され、処理されたステレオ信号は、最初に符号化され、次いで三次元再生が可能である参加者に送信される。その点を考慮して、本実施態様では、再生手段412は受信端末に実装される。三次元会議ネットワークの端末からの信号のそれぞれは、テレビ会議ブリッジにおいて混合されて組み合わせモノラル信号を形成し、次いで、モノラルのオーディオ信号だけを受信することができる会議通話の参加者に送信される。
図5は、テレビ会議ブリッジの実装の別の実施態様を示す図である。本実施態様では、プロセスの初期段階は、上述の実施態様の初期段階に類似する。話者識別ブロック506は、話者を認識して、各話者の制御ワードを定義する。一方で、組み合わせ信号の符号化音声フレーム500は、テレビ会議ブリッジの音声復号器508において復号化される。本実施態様では、空間化効果を会議ブリッジの出力信号に直接生成する代わりに、IDタグだけが、端末に送信されるべきモノラルの混合信号に添付される。それに応じて、処理モジュール510は、最初に符号化し、次いで端末に送信されるべき音声ストリームと並行して、追加制御ストリームを添付する。処理モジュール510は、制御ワードを追加情報として復号化音声フレームに添付するように構成された、上述の空間化オーディオ処理モジュールとするか、または処理モジュール510は、特定のプロセス専用のものとすることができる。必然的に、本実施態様では、端末は、再生フェーズにおける空間化効果の生成を処理し、それによって、音声区間は、会議ブリッジからの音声ストリームと並行して受信した追加制御ストリームのIDタグに基づいて処理される。
IDタグ情報を、端末に送信されるべきモノラルの混合信号に含めるための様々な変形例が存在する。例えば、IDタグは、音声信号内に組み込むことが可能である。別様には、ビットスチール手法を使用することができるように、すなわち、音声フレームのビットストリーム内のいくつかの冗長ビットが、IDタグを示すために使用されるように、音声信号の冗長性を用いることができる。更なるオプションは、混合信号を端末に送信するために使用されるトランスポートプロトコルを用いることである。会議通話に使用される代表的なトランスポートプロトコルは、RTP(リアルタイムトランスポートプロトコル)であり、RTPの未使用の制御フィールドは、アクティブな話者のID情報を受信器にシグナリングするために使用することが可能である。必然的に、RTCP(リアルタイムトランスポート制御プロトコル)のような別個の制御ストリームは、IDタグのシグナリング専用の使用のためにトランスポートプロトコルとともに使用することが可能である。
図6は、分散型テレビ会議アーキテクチャのための、テレビ会議ブリッジの実装の更なる一実施態様を示す図である。上述のように、話者識別ブロック606において、話者が認識され、制御ワードが各話者に対して定義される。なお、分散型テレビ会議システムの場合、会議ブリッジは、別個の出力信号を生成し、それぞれが、会議通話の一人の参加者の音声を表す。したがって、話者識別ブロック606が、参加者Aがモノラルの混合信号の特定の音声フレーム600で話していることを検出した場合、デマルチプレクサ610は、参加者Aのストリームに関連付けられるべき音声フレームを制御し、その特定のフレームの期間、残りの参加者に対してサイレントフレームまたは快適ノイズフレームが生成される。次いで、話者識別ブロック606が、例えば参加者Bが次に入ってくる音声フレームで話していることを検出した場合、音声フレームは、参加者Bのストリームに関連付けられ、残りの参加者に対してサイレントフレームが生成される。これら全ての(分離された)N個の音声信号は、次いで、それらを再生フェーズ内の異なる位置に空間化するための手段を備えた端末に送信する。
本実施態様では、符号化音声フレーム600を異なるストリームに直接転送することができるので、音声復号器608によって実行されるトランスコーディングがバイパスされることが好ましい。当然、音声フレームを複合化して、次いで生じたPCM(Pulse Code Modulated: パルスコード変調)信号を、次いで端末に送信する前に符号化される異なるストリームに導くことが可能である。
図7aは、テレビ会議の状況にある更なる一実施態様を示す図であり、会議通話に参加する一群のスレーブ端末(ST1からST3)は、主端末(master terminal: MT)を経て会議ブリッジ(conference bridge: CB)に接続される。例えば、複数の会議通話参加者が一室に集まる場合があり、会議ブリッジに接続された一人の参加者の端末が主端末として動作し、他の端末は、例えばBluetooth接続またはWLAN接続を経て、主端末に接続される。このテレビ会議の状況に適用可能な実施態様は、上述の実施態様の変形例である。
図7bに示される一実施態様によれば、主端末は、会議ブリッジから組み合わせ信号700を受信し、主端末の話者識別ブロック706は、話者を認識して各話者に対する制御ワードを定義する。並行して、組み合わせ信号の符号化音声フレーム700は、主端末の音声復号器708において復号化される。本実施態様では、IDタグは、スレーブ端末に送信されるべきモノラルの混合信号に添付される。それに応じて、処理モジュール710は、一般的にスレーブ端末に送信されるべき音声ストリームと並行して、追加制御ストリームを添付する。次いで、スレーブ端末は、再生フェーズにおいて空間化効果を生成し、それによって、音声区間は、添付されたIDタグに基づいて処理される。
図7c内に示される別の実施態様によれば、主端末は、分散型テレビ会議アーキテクチャの原理に基づいて、スレーブ端末に対して動作する。結果的に、主端末は、会議通話の参加者の音声を表す別個の出力信号を生成する。分離された音声信号はスレーブ端末に送信され、再生フェーズにおいて空間化効果を生成する。また、符号化音声フレーム700は、音声復号器708によって実行されるいかなるトランスコーディングも無い、異なるストリームに、直接転送することができる。
話者識別ブロックが、テレビ会議通話の処理チェーン内の様々な位置に適用可能であるという事実によって提供される利点は有意である。主たる利点は、前記話者識別プロセスを配置するための特定の自由度が、前記会議ネットワークの異なるステージにおいて、モノラル会議システムを三次元会議システムへ接続するための柔軟性を提供することである。さらに、話者識別ブロックが会議ブリッジに実装された実施態様では、話者識別プロセスの単純な実装の要件はそれほど重要ではない。よって、話者識別ブロックが会議ブリッジ(サーバー)に実装された場合、より大きな処理能力およびメモリの消費を必要とする高性能ID検出プロセスを使用することが可能である。
図8は、本発明の一実施態様による空間化方法のフローチャートを示す。ステップ800で、テレビ会議通話の符号化された音声パラメータを含む符号化音声フレームが、受信ユニットにおいて受信される。受信ユニットは、話者識別において特定の音声パラメータを使用するための所定の設定を含む。それに応じて、符号化音声の前記所定の音声パラメータが、識別プロセスに入力される(802)。選択された音声パラメータにおける差は駆動因子であり、それに基づいて、各フレームは、話者のうちの一人に属するように分類される(804)。次いで、各話者が制御ワード(単純に話者番号とすることが可能である)によって識別される(806)か、またはより高度な計算が適用された場合、音源の座標パラメータは、聴取者(直角座標: x、y、z; または極座標: アジマス、高度、および距離)、またはパニング、あるいは音声チャネルの空間的位置を制御するためのゲインパラメータに相対的に位置する。その後、一方で標準音声復号器によって複合化された音声フレームは、識別プロセスにおいて算出された対応する制御ワードでタグ付けされる(808)。別様には、上述のように分散型アーキテクチャを使用した場合、複合化がバイパスされることが好ましく、符号化音声フレームは、それぞれの制御ワードに基づいてさらに処理される。
上記ステップは、話者識別に関連するものであり、一般的に、受信ユニット(すなわち、会議ブリッジ、端末、主端末)において実行される。以下のステップも、空間化効果の生成のための処理チェーン内に含まれるが、使用される会議通話アーキテクチャ、実装、および前記アーキテクチャ内の話者識別ブロックの位置に依存するものであり、対応する音声フレームでタグ付けされた制御ワードに基づいて、各音声フレームに対する空間化効果を生成するステップ(810)は、上述のように、処理チェーンの様々な位置で実行することが可能である。したがって、最後のステップを破線で示している。最後に、再生(812)は、聴取者によって感知される音響空間内の相異なる場所から各話者が聴取されるように、オーディオ再生手段を経て、受信端末において常に実行される。
上述の空間化システムおよび方法は、会議通話に参加して、好適な音声復号器および音声再生手段を備えることができるあらゆる端末に実装することができる。図9は、端末、すなわち本発明を適用することができる電子デバイス(ED)の一般的なブロック図である。電子デバイスは、例えば、ワイヤレス移動局またはPDA(Personal Digital Assistant: 携帯情報端末)、有線電話、またはコンピュータとすることが可能である。
電子デバイス(ED)は、中央処理ユニット(central processing unit: CPU)と、メモリ(MEM)と、I/Oシステム(I/O)とを備える。全ての必要な情報は、デバイスのメモリ(MEM)内に格納される。メモリ(MEM)は、例えばROMメモリとすることができるリードオンリーメモリ部分と、例えばRAM(ランダムアクセスメモリ)および/またはフラッシュメモリとすることができる書き込みメモリ部分とを備える。デバイスは、I/Oシステム(I/O)を経て、例えば、他のデバイス、ネットワーク、およびユーザーと通信する。特に、I/Oシステムは、使用される電気通信プロトコルに基づいて会議通話データを送受信するように構成されたトランシーバTx/Rxを備える。トランシーバTx/Rxとともに、音声復号器および音声符号器の機能を備えた少なくとも1つの音声コーデック(CODEC)が存在する。上述のように、本発明による話者識別ブロックは、コーデックに関連して実装されることが好ましい。I/Oシステム(I/O)の一部であるユーザーインターフェース(UI)は、ディスプレイ、キー、およびスピーカのようなオーディオ再生手段、および/またはマイクロホンのような、ユーザーとの通信に必要なインターフェースを備える。デバイスの異なる構成要素から受信した情報は、1つ以上のプロセッサを備え、受信した情報を所望の方法で処理する中央処理ユニット(CPU)に送信される。
会議ブリッジCBは、既知のPCベースのサーバーコンピュータとすることが可能である。その点を考慮して、会議ブリッジは、図10に示されるように、複数の端末および/または別の会議ネットワークから届いたオーディオ信号を受信するための入力(I1、...、IN)と、入力信号を複合化するための一般的に複数の復号器(D1、...、DN)とを備える。入力のオーディオ信号は、オーディオ処理ユニットAPUに送られ、そのオーディオ信号は、信号混合、空間化、フィルタリング、または他の所望の処理方法を含むことが可能な、所望の方法で組み合わせられ、その結果、モノラルまたはステレオ(またはマルチチャネル)の組み合わせ出力オーディオ信号が生成される。本発明による話者識別ブロックは、APUの一部として実装される。会議ブリッジは、メモリMEMと、少なくとも1つのプロセッサを備えた1つ以上の中央処理ユニットCPUとをさらに備え、それによって、オーディオ処理ユニットAPUの機能は、会議ブリッジの共通のメモリ要素および処理ユニットを用いて実装するか、またはオーディオ処理ユニットAPUを専用のユニットとして実装することが可能である。さらに、会議ブリッジは、ブリッジの出力を複合化するための1つ以上の音声符号器(EN)を備える。
実施態様によるステップは、図9の端末の中央処理ユニットにおいて、または図10の会議ブリッジにおいて実行されるプログラムコマンドによって十分に実装することができる。したがって、上述の方法を実装するための前記手段は、一般的に、コンピュータソフトウェアコードとして実装される。コンピュータソフトウェアは、そこから端末のメモリ内にロードすることができる、PCのハードディスクまたはCD-ROMのようなあらゆるメモリ手段内に格納することが可能である。コンピュータソフトウェアは、例えばTCP/IPプロトコルスタックを使用して、ネットワークを介してロードすることもできる。発明的手段を実装するために、ハードウェアソリューションまたはハードウェアおよびソフトウェアソリューションの組み合わせを使用することも可能である。
本発明は上述の実施態様のみに限定されるものではなく、添付の特許請求の範囲内で変更できることは明らかである。
従来技術による集中型テレビ会議システムを示す図である。 広帯域AMR(Adaptive Multi-Rate: 適応マルチレート)音声コーデックの一般的な機能的構造を示す図である。 ブロックチャートを減じた本発明の一実施態様による話者識別システムを示す図である。 本発明の一実施態様による、端末または会議ブリッジに実装される話者識別システムを示す図である。 本発明の更なる一実施態様による、会議ブリッジに実装された話者識別システムを示す図である。 本発明の更なる一実施態様による、分散型テレビ会議システムの会議ブリッジに実装された話者識別システムを示す図である。 一群の端末が主端末を経て会議ブリッジに接続されたテレビ会議の状況を示す図である。 本発明の一実施態様による、図7aの主端末に実装された話者識別システムを示す図である。 本発明の別の一実施態様による、図7aの主端末に実装された話者識別システムを示す図である。 本発明の一実施態様による、空間化方法のフローチャートである。 ブロックチャートを減じた本発明の一実施態様による端末デバイスを示す図である。 ブロックチャートを減じた本発明の一実施態様による会議ブリッジを示す図である。

Claims (32)

  1. 複数の参加者の会議通話において話者を区別するための方法であって、
    ・ 前記会議通話の音声フレームであって、符号化音声パラメータを含む音声フレームを受信することと、
    ・ 前記受信した音声フレームのうちの少なくとも1つの音声パラメータを調査することと、
    ・ 前記参加者のうちの一人に属するように前記音声フレームを分類することであって、前記分類は、前記調査した少なくとも1つの音声パラメータにおける差(differences)に基づいて実行されることと、
    を含む方法。
  2. 前記参加者の前記音声フレームの分類に基づいて、オーディオ信号の音響空間内の相異なる位置に前記参加者を配置することによって、再生すべき前記オーディオ信号に対して空間化効果を生成することをさらに含む、請求項1に記載の方法。
  3. 前記調査した少なくとも1つの音声パラメータにおける差に基づいて、各参加者の制御ワードを決定することと、
    音声フレームに制御ワードを添付することであって、各音声フレームの前記制御ワードは、前記特定の音声フレームにおいて話す前記参加者に特徴的なものであることと、をさらに含む請求項1に記載の方法。
  4. 音声フレームに添付された前記制御ワードに基づいて空間化効果を生成することをさらに含む、請求項3に記載の方法。
  5. 前記調査した1つの音声パラメータだけにおける差に基づいて、各参加者の前記制御ワードを決定することと、
    前記制御ワードに基づいて、再生すべき前記オーディオ信号のオーディオチャネルの空間的位置を制御することと、をさらに含む請求項4に記載の方法。
  6. 複数の調査した音声パラメータにおける差に基づいて前記音声フレームをクラスタ化することと、
    前記クラスタ化音声フレームの前記音声パラメータにおける差に基づいて、各参加者の前記制御ワードを決定することと、
    前記制御ワードに基づいて、再生すべき前記オーディオ信号のオーディオチャネルの空間的位置を制御することと、をさらに含む請求項4に記載の方法。
  7. 前記調査した音声パラメータは、
    ・ 前記音声のピッチ、
    ・ 音声フレームの声分類、
    ・ 音声フレームの任意のLPC(Linear Predictive Coding: 線形予測符号化)パラメータ、のうちの少なくとも1つを含む上記請求項のいずれかに記載の方法。
  8. 複数の参加者の会議電話において話者を区別するためのシステムであって、
    ・ 前記会議通話の音声フレームであって、符号化された音声パラメータを含む音声フレームを受信するための受信ユニットと、
    ・ 前記受信した音声フレームのうちの少なくとも1つのパラメータを調査するための抽出ユニットと、
    ・ 前記参加者のうちの一人に属するように前記音声フレームを分類するための認識ユニットであって、前記分類は、前記調査した少なくとも1つの音声パラメータにおける差(differences)に基づいて実行される認識ユニットと、
    を備えるシステム。
  9. 前記オーディオ信号の音響空間内の相異なる位置に前記参加者を配置することによって、再生すべき前記オーディオ信号に対して空間化効果を生成するための空間化ユニットをさらに備える、請求項8に記載のシステム。
  10. 前記調査した少なくとも1つの音声パラメータにおける差に基づいて、各参加者の制御ワードを決定するための手段と、
    音声フレームに制御ワードを添付する手段ことであって、各音声フレームの前記制御ワードは、前記特定の音声フレームにおいて話す前記参加者に特徴的なものであるための手段と、をさらに備える請求項8に記載のシステム。
  11. 前記空間化ユニットは、音声フレームに添付された前記制御ワードに基づいて前記空間化効果を生成するように構成される、請求項9に記載のシステム。
  12. 前記各参加者の前記制御ワードを決定するための手段は、音声パラメータを1つだけ調査し、前記音声パラメータの線形差に基づいて前記制御ワードを定義するように構成され、
    前記システムは、前記制御ワードに基づいて、再生すべき前記オーディオ信号のオーディオチャネルの空間的位置を制御するための手段をさらに備える、請求項11に記載のシステム。
  13. 複数の調査した音声パラメータにおける差に基づいて前記音声フレームをクラスタ化するための手段と、
    前記クラスタ化音声フレームの前記音声パラメータにおける差に基づいて、各参加者の前記制御ワードを決定するための手段と、
    前記制御ワードに基づいて、再生すべき前記オーディオ信号のオーディオチャネルの空間的位置を制御するための手段と、をさらに備える請求項11に記載のシステム。
  14. 前記調査した音声パラメータは、
    ・ 前記音声のピッチ、
    ・ 音声フレームの声分類、
    ・ 音声フレームの任意のLPCパラメータ、のうちの少なくとも1つを含む請求項8から13のうちのいずれかに記載の方法。
  15. 複数の参加者の会議通話の音声フレームであって、符号化された音声パラメータを含む音声フレームを受信するための受信ユニットと、
    前記受信した音声フレームのうちの少なくとも1つのパラメータを調査するための抽出ユニットと、
    前記参加者のうちの一人に属するように前記音声フレームを分類するための認識ユニットであって、前記分類は、前記調査した少なくとも1つの音声パラメータにおける差(differences)に基づいて実行される認識ユニットと、
    オーディオ信号の音響空間内の相異なる位置に前記参加者を配置することによって、再生すべき前記オーディオ信号に対して空間化効果を生成するための空間化ユニットと、を備える装置。
  16. ステレオまたはマルチチャネルオーディオ再生手段をさらに備える、請求項15に記載の装置。
  17. 同時音声フレームを分類して属させる前記参加者の話者識別を表示するためのディスプレイをさらに備える、請求項15に記載の装置。
  18. 複数の参加者の会議通話のオーディオ信号の三次元空間化のための、コンピュータ可読の媒体上に格納され、データ処理デバイスで実行可能なコンピュータプログラムであって、
    前記会議通話の音声フレームであって、符号化された音声パラメータを含む音声フレームを受信するためのコンピュータプログラムのコードセクションと、
    前記受信した音声フレームのうちの少なくとも1つのパラメータを調査するためのコンピュータプログラムのコードセクションと、
    前記参加者のうちの一人に属するように前記音声フレームを分類するためのコンピュータプログラムのコードセクションであって、前記分類は、前記調査した少なくとも1つの音声パラメータにおける差(differences)に基づいて実行されるコンピュータプログラムのコードセクションと、
    前記オーディオ信号の音響空間内の相異なる位置に前記参加者を配置することによって、再生すべき前記オーディオ信号に対して空間化効果を生成するためのコンピュータプログラムのコードセクションと、を備えるコンピュータプログラム。
  19. 前記調査した少なくとも1つの音声パラメータにおける差に基づいて、各参加者の制御ワードを決定するためのコンピュータプログラムのコードセクションと、
    音声フレームに制御ワードを添付するためのコンピュータプログラムのコードセクションであって、各音声フレームの前記制御ワードは、前記特定の音声フレームにおいて話す前記参加者に特徴的なものであるコンピュータプログラムのコードセクションと、をさらに備える請求項18に記載のコンピュータプログラム。
  20. 空間化効果を生成するための前記コンピュータプログラムのコードセクションは、音声フレームに添付された前記制御ワードに基づいて前記空間化効果を生成するためのコンピュータプログラムのコードセクションをさらに備える、請求項18に記載のコンピュータプログラム。
  21. テレビ会議システムのための会議ブリッジであって、
    複数の参加者の前記会議通話の音声フレームであって、符号化された音声パラメータを含む音声フレームを受信するための受信ユニットと、
    前記受信した音声フレームのうちの少なくとも1つのパラメータを調査するための抽出ユニットと、
    前記参加者のうちの一人に属するように前記音声フレームを分類するための認識ユニットであって、前記分類は、前記調査した少なくとも1つの音声パラメータに基づいて実行される認識ユニットと、
    オーディオ信号の更なる空間化処理のために、前記オーディオ信号の中に、前記参加者の前記音声フレームの分類に基づく情報を含めるためのオーディオ処理ユニットと、を備える会議ブリッジ。
  22. 前記オーディオ処理ユニットは、前記調査した少なくとも1つの音声パラメータにおける差(differences)に基づいて、各参加者の制御ワードを決定するように構成される、請求項21に記載の会議ブリッジ。
  23. 前記制御ワードに基づいて、前記オーディオ信号の音響空間内の相異なる位置に前記参加者を配置することによって、前記参加者に送信すべき前記オーディオ信号に対して空間化効果を生成するための空間化ユニットと、
    前記送信の前に前記空間化オーディオ信号を符合化するための符号器と、を備える請求項22に記載の会議ブリッジ。
  24. 受信端末内の前記オーディオ信号の更なる空間化処理のために、追加制御情報として送信すべき前記オーディオ信号に前記制御ワードを添付するための手段をさらに備える、請求項22に記載の会議ブリッジ。
  25. 前記追加制御情報は、
    ・ 前記オーディオ信号に制御ワードを組み込む方法、
    ・ 前記制御ワードを示すために、前記オーディオ信号の音声フレームの特定のビットをスチールする方法、
    ・ 前記オーディオ信号を送信するために使用されるトランスポートプロトコルの未使用の制御フィールドに前記制御ワードを挿入する方法、
    ・ 前記オーディオ信号とともに別個の制御信号内の制御ワーを送信する方法、
    のうちの1つに基づいて前記オーディオ信号に添付される、請求項24に記載の会議ブリッジ。
  26. 各信号が参加者の音声を表す別個のオーディオ信号を生成するための手段と、
    前記音声フレームの前記制御ワードによって、能動的に話す参加者の音声フレームを前記参加者の別個のオーディオ信号に導くための手段と、
    前記音声フレームの期間中に、サイレントフレームを他の参加者の別個のオーディオ信号に発生させるための手段と、
    前記別個のオーディオ信号を前記参加者のそれぞれに送信するための手段と、をさらに備える請求項22から25のうちのいずれかに記載の会議ブリッジ。
  27. 複数の参加者の会議通話における話者の区別のための、コンピュータ可読の媒体上に格納され、データ処理デバイスで実行可能なコンピュータプログラムであって、
    前記会議通話の音声フレームであって、符号化された音声パラメータを含む音声フレームを受信するためのコンピュータプログラムのコードセクションと、
    前記受信した音声フレームのうちの少なくとも1つのパラメータを調査するためのコンピュータプログラムのコードセクションと、
    前記参加者のうちの一人に属するように前記音声フレームを分類するためのコンピュータプログラムのコードセクションであって、前記分類は、前記調査した少なくとも1つの音声パラメータに基づいて実行されるコンピュータプログラムのコードセクションと、
    オーディオ信号の更なる空間化処理のために、前記オーディオ信号の中に、前記参加者の前記音声フレームの分類に基づく情報を含めるためのコンピュータプログラムのコードセクションと、を備えるコンピュータプログラム。
  28. 複数のスレーブ端末を会議ブリッジに接続する主端末として動作する端末デバイスであって、
    複数の参加者の前記複数の参加者の会議通話の音声フレームであって、符号化された音声パラメータを含む音声フレームを受信するための受信ユニットと、
    前記受信した音声フレームの少なくとも1つのパラメータを調査するためのオーディオコーデックと、
    前記参加者のうちの一人に属するように前記音声フレームを分類するための認識ユニットであって、前記分類は、前記調査した少なくとも1つの音声パラメータに基づいて実行される認識ユニットと、
    オーディオ信号の更なる空間化処理のために、前記オーディオ信号の中に、前記参加者の前記音声フレームの分類に基づく情報を含めるためのオーディオ処理ユニットと、を備える端末デバイス。
  29. 前記オーディオ処理ユニットは、前記調査した少なくとも1つの音声パラメータにおける差(differences)に基づいて、各参加者の制御ワードを決定するように構成される、請求項28に記載の端末デバイス。
  30. スレーブ端末内の前記オーディオ信号の更なる空間化処理のために、追加制御情報として送信すべき前記オーディオ信号に前記制御ワードを添付するための手段をさらに備える、請求項28または29に記載の端末デバイス。
  31. 各信号が参加者の音声を表す別個のオーディオ信号を生成するための手段と、
    前記音声フレームの前記制御ワードによって、能動的に話す参加者の音声フレームを前記参加者の別個のオーディオ信号に導くための手段と、
    前記音声フレームの期間中に、サイレントフレームを他の参加者の別個のオーディオ信号に発生させるための手段と、
    前記別個のオーディオ信号を前記スレーブ端末のそれぞれに送信するための手段と、をさらに備える請求項28から30のうちのいずれかに記載の端末デバイス。
  32. 前記スレーブ端末への接続を確立するための低電力RF手段をさらに備える、請求項28から31のうちのいずれかに記載の端末デバイス。
JP2008520900A 2005-07-11 2006-07-05 会議通話のための空間化機構 Withdrawn JP2009500976A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/179,347 US7724885B2 (en) 2005-07-11 2005-07-11 Spatialization arrangement for conference call
PCT/FI2006/050315 WO2007006856A1 (en) 2005-07-11 2006-07-05 Spatialization arrangement for conference call

Publications (1)

Publication Number Publication Date
JP2009500976A true JP2009500976A (ja) 2009-01-08

Family

ID=37636764

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008520900A Withdrawn JP2009500976A (ja) 2005-07-11 2006-07-05 会議通話のための空間化機構

Country Status (5)

Country Link
US (1) US7724885B2 (ja)
EP (1) EP1902576A4 (ja)
JP (1) JP2009500976A (ja)
CN (1) CN101218813A (ja)
WO (1) WO2007006856A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017099092A1 (ja) * 2015-12-08 2017-06-15 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
JP2019115049A (ja) * 2013-08-05 2019-07-11 インタラクティブ・インテリジェンス・インコーポレイテッド 会議設定における参加者の符号化方法

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070263823A1 (en) * 2006-03-31 2007-11-15 Nokia Corporation Automatic participant placement in conferencing
KR100900438B1 (ko) * 2006-04-25 2009-06-01 삼성전자주식회사 음성 패킷 복구 장치 및 방법
US7853649B2 (en) * 2006-09-21 2010-12-14 Apple Inc. Audio processing for improved user experience
US20080084831A1 (en) * 2006-09-27 2008-04-10 Nortel Networks Limited Active source identification for conference calls
US20080085682A1 (en) * 2006-10-04 2008-04-10 Bindu Rama Rao Mobile device sharing pictures, streaming media and calls locally with other devices
US8700014B2 (en) 2006-11-22 2014-04-15 Bindu Rama Rao Audio guided system for providing guidance to user of mobile device on multi-step activities
US11256386B2 (en) 2006-11-22 2022-02-22 Qualtrics, Llc Media management system supporting a plurality of mobile devices
US10803474B2 (en) 2006-11-22 2020-10-13 Qualtrics, Llc System for creating and distributing interactive advertisements to mobile devices
US8478250B2 (en) 2007-07-30 2013-07-02 Bindu Rama Rao Interactive media management server
US20080187143A1 (en) * 2007-02-01 2008-08-07 Research In Motion Limited System and method for providing simulated spatial sound in group voice communication sessions on a wireless communication device
EP1954019A1 (en) * 2007-02-01 2008-08-06 Research In Motion Limited System and method for providing simulated spatial sound in a wireless communication device during group voice communication sessions
CN101690149B (zh) * 2007-05-22 2012-12-12 艾利森电话股份有限公司 用于群组声音远程通信的方法和装置
EP2009892B1 (fr) * 2007-06-29 2019-03-06 Orange Positionnement de locuteurs en conférence audio 3D
GB2452021B (en) * 2007-07-19 2012-03-14 Vodafone Plc identifying callers in telecommunication networks
US7936705B1 (en) * 2007-08-16 2011-05-03 Avaya Inc. Multiplexing VoIP streams for conferencing and selective playback of audio streams
US8090588B2 (en) * 2007-08-31 2012-01-03 Nokia Corporation System and method for providing AMR-WB DTX synchronization
US9131016B2 (en) * 2007-09-11 2015-09-08 Alan Jay Glueckman Method and apparatus for virtual auditorium usable for a conference call or remote live presentation with audience response thereto
US8363809B2 (en) * 2007-10-26 2013-01-29 Panasonic Corporation Teleconference terminal apparatus, relaying apparatus, and teleconferencing system
KR101452722B1 (ko) * 2008-02-19 2014-10-23 삼성전자주식회사 신호 부호화 및 복호화 방법 및 장치
EP2332346B1 (en) * 2008-10-09 2015-07-01 Telefonaktiebolaget L M Ericsson (publ) A common scene based conference system
US8219400B2 (en) * 2008-11-21 2012-07-10 Polycom, Inc. Stereo to mono conversion for voice conferencing
US8977684B2 (en) 2009-04-14 2015-03-10 Citrix Systems, Inc. Systems and methods for computer and voice conference audio transmission during conference call via VoIP device
KR101040086B1 (ko) * 2009-05-20 2011-06-09 전자부품연구원 오디오 생성방법, 오디오 생성장치, 오디오 재생방법 및 오디오 재생장치
US8737648B2 (en) * 2009-05-26 2014-05-27 Wei-ge Chen Spatialized audio over headphones
WO2010136634A1 (en) * 2009-05-27 2010-12-02 Nokia Corporation Spatial audio mixing arrangement
EP2456184B1 (en) * 2010-11-18 2013-08-14 Harman Becker Automotive Systems GmbH Method for playback of a telephone signal
US20120262536A1 (en) * 2011-04-14 2012-10-18 Microsoft Corporation Stereophonic teleconferencing using a microphone array
US8958567B2 (en) 2011-07-07 2015-02-17 Dolby Laboratories Licensing Corporation Method and system for split client-server reverberation processing
CN103220058A (zh) * 2012-01-20 2013-07-24 旭扬半导体股份有限公司 音频数据与视觉数据同步装置及其方法
EP2829083B1 (en) 2012-03-23 2016-08-10 Dolby Laboratories Licensing Corporation System and method of speaker cluster design and rendering
US9961208B2 (en) 2012-03-23 2018-05-01 Dolby Laboratories Licensing Corporation Schemes for emphasizing talkers in a 2D or 3D conference scene
EP2874411A4 (en) * 2012-07-13 2016-03-16 Sony Corp INFORMATION PROCESSING SYSTEM AND STORAGE MEDIUM
US9491299B2 (en) * 2012-11-27 2016-11-08 Dolby Laboratories Licensing Corporation Teleconferencing using monophonic audio mixed with positional metadata
US9232072B2 (en) * 2013-03-13 2016-01-05 Google Inc. Participant controlled spatial AEC
CN104050969A (zh) 2013-03-14 2014-09-17 杜比实验室特许公司 空间舒适噪声
EP2974253B1 (en) 2013-03-15 2019-05-08 Dolby Laboratories Licensing Corporation Normalization of soundfield orientations based on auditory scene analysis
JP2017519379A (ja) * 2014-03-04 2017-07-13 コムヒア インコーポレイテッド オブジェクトベースの遠隔会議プロトコル
US11076052B2 (en) * 2015-02-03 2021-07-27 Dolby Laboratories Licensing Corporation Selective conference digest
CN111866022B (zh) 2015-02-03 2022-08-30 杜比实验室特许公司 感知质量比会议中原始听到的更高的后会议回放系统
KR20180093676A (ko) * 2017-02-14 2018-08-22 한국전자통신연구원 스테레오 오디오 신호에 대한 태그 삽입 장치 및 태그 삽입 방법, 그리고, 태그 추출 장치 및 태그 추출 방법
CN110998724B (zh) 2017-08-01 2021-05-21 杜比实验室特许公司 基于位置元数据的音频对象分类
CN112820307B (zh) * 2020-02-19 2023-12-15 腾讯科技(深圳)有限公司 语音消息处理方法、装置、设备及介质
KR20220036261A (ko) * 2020-09-15 2022-03-22 삼성전자주식회사 복수의 사용자들과 통화 수행 중 사용자 음성을 처리하는 전자 장치 및 그 작동 방법
US11871208B2 (en) * 2022-01-14 2024-01-09 Verizon Patent And Licensing Inc. Methods and systems for spatial rendering of multi-user voice communication

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5271088A (en) * 1991-05-13 1993-12-14 Itt Corporation Automated sorting of voice messages through speaker spotting
GB2303516A (en) 1995-07-20 1997-02-19 Plessey Telecomm Teleconferencing
US7012630B2 (en) * 1996-02-08 2006-03-14 Verizon Services Corp. Spatial sound conference system and apparatus
US6417933B1 (en) * 1996-12-26 2002-07-09 Lucent Technologies Inc. Teleconferencing and facsimile communications system and method
US5940791A (en) * 1997-05-09 1999-08-17 Washington University Method and apparatus for speech analysis and synthesis using lattice ladder notch filters
US5991385A (en) 1997-07-16 1999-11-23 International Business Machines Corporation Enhanced audio teleconferencing with sound field effect
US6125115A (en) 1998-02-12 2000-09-26 Qsound Labs, Inc. Teleconferencing method and apparatus with three-dimensional sound positioning
EP1070417B1 (en) * 1998-04-08 2002-09-18 BRITISH TELECOMMUNICATIONS public limited company Echo cancellation
US6327567B1 (en) 1999-02-10 2001-12-04 Telefonaktiebolaget L M Ericsson (Publ) Method and system for providing spatialized audio in conference calls
US6266638B1 (en) * 1999-03-30 2001-07-24 At&T Corp Voice quality compensation system for speech synthesis based on unit-selection speech database
JP3699608B2 (ja) * 1999-04-01 2005-09-28 富士通株式会社 話者照合装置及び方法
FR2799914B1 (fr) * 1999-10-14 2001-12-28 France Telecom Identification d'intervenant dans une telereunion
US6559863B1 (en) * 2000-02-11 2003-05-06 International Business Machines Corporation System and methodology for video conferencing and internet chatting in a cocktail party style
US7177808B2 (en) * 2000-11-29 2007-02-13 The United States Of America As Represented By The Secretary Of The Air Force Method for improving speaker identification by determining usable speech
FI114129B (fi) * 2001-09-28 2004-08-13 Nokia Corp Konferenssipuhelujärjestely
US6882971B2 (en) * 2002-07-18 2005-04-19 General Instrument Corporation Method and apparatus for improving listener differentiation of talkers during a conference call
US7617094B2 (en) * 2003-02-28 2009-11-10 Palo Alto Research Center Incorporated Methods, apparatus, and products for identifying a conversation
US7305078B2 (en) * 2003-12-18 2007-12-04 Electronic Data Systems Corporation Speaker identification during telephone conferencing
DE102005004974A1 (de) 2004-02-04 2005-09-01 Vodafone Holding Gmbh Verfahren und System zum Durchführen von Telefonkonferenzen

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019115049A (ja) * 2013-08-05 2019-07-11 インタラクティブ・インテリジェンス・インコーポレイテッド 会議設定における参加者の符号化方法
WO2017099092A1 (ja) * 2015-12-08 2017-06-15 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
JPWO2017099092A1 (ja) * 2015-12-08 2018-09-27 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
US10614823B2 (en) 2015-12-08 2020-04-07 Sony Corporation Transmitting apparatus, transmitting method, receiving apparatus, and receiving method
JP2021107943A (ja) * 2015-12-08 2021-07-29 ソニーグループ株式会社 受信装置および受信方法
JP7218772B2 (ja) 2015-12-08 2023-02-07 ソニーグループ株式会社 受信装置および受信方法

Also Published As

Publication number Publication date
EP1902576A4 (en) 2010-07-28
WO2007006856A1 (en) 2007-01-18
EP1902576A1 (en) 2008-03-26
CN101218813A (zh) 2008-07-09
US7724885B2 (en) 2010-05-25
US20070025538A1 (en) 2007-02-01

Similar Documents

Publication Publication Date Title
US7724885B2 (en) Spatialization arrangement for conference call
US7420935B2 (en) Teleconferencing arrangement
US20080004866A1 (en) Artificial Bandwidth Expansion Method For A Multichannel Signal
CN110770824B (zh) 多流音频译码
US7012901B2 (en) Devices, software and methods for generating aggregate comfort noise in teleconferencing over VoIP networks
US20070263823A1 (en) Automatic participant placement in conferencing
EP1324582A1 (en) Teleconferencing Bridge with comb filtering for spatial sound image
US20050227657A1 (en) Method and apparatus for increasing perceived interactivity in communications systems
EP2959669B1 (en) Teleconferencing using steganographically-embedded audio data
EP3111626B1 (en) Perceptually continuous mixing in a teleconference
US12067992B2 (en) Audio codec extension
US7519530B2 (en) Audio signal processing
EP2359365B1 (en) Apparatus and method for encoding at least one parameter associated with a signal source
CN114600188A (zh) 用于音频编码的装置和方法
WO2010105695A1 (en) Multi channel audio coding
GB2580899A (en) Audio representation and associated rendering
US9258429B2 (en) Encoder adaption in teleconferencing system
US12010496B2 (en) Method and system for performing audio ducking for headsets
JP3898673B2 (ja) 音声通信システム、方法及びプログラム並びに音声再生装置
JP4437011B2 (ja) 音声符号化装置
EP4396814A1 (en) Silence descriptor using spatial parameters
Heron et al. Communicating naturally—the opportunities of wideband coding

Legal Events

Date Code Title Description
A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20100518