JP6392161B2 - 音声会議システム、音声会議装置、その方法及びプログラム - Google Patents

音声会議システム、音声会議装置、その方法及びプログラム Download PDF

Info

Publication number
JP6392161B2
JP6392161B2 JP2015081891A JP2015081891A JP6392161B2 JP 6392161 B2 JP6392161 B2 JP 6392161B2 JP 2015081891 A JP2015081891 A JP 2015081891A JP 2015081891 A JP2015081891 A JP 2015081891A JP 6392161 B2 JP6392161 B2 JP 6392161B2
Authority
JP
Japan
Prior art keywords
sound
audio
voice
unit
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015081891A
Other languages
English (en)
Other versions
JP2016201739A (ja
Inventor
翔一郎 齊藤
翔一郎 齊藤
達也 加古
達也 加古
尚 植松
尚 植松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015081891A priority Critical patent/JP6392161B2/ja
Publication of JP2016201739A publication Critical patent/JP2016201739A/ja
Application granted granted Critical
Publication of JP6392161B2 publication Critical patent/JP6392161B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、遠隔地を結んで行う音声会議で使用される音声会議システム、音声会議装置、その方法及びプログラムに関する。
遠隔地を結んで行う音声会議で使用される音声会議システムの従来技術として特許文献1が知られている。特許文献1では、会議室(自地点)の2つのエリアの音声を分けて収音し、相手側(他地点)で分けて再生するステレオ音声会議システムを示す。
特開2010−288114号公報
グループディスカッションを一つの会議室(拠点A)に集まって行うケースを考える(図1参照)。図1の場合、同じ空間(会議室内)にいる複数のグループ(例えば2〜4)は、それぞれのグループ内での会話を行いながら、隣のグループともコミュニケーションを取ることができる。しかしながら、図2のようにメンバの一部が遠隔地(拠点B)にいる場合にハンズフリー通話(送受話器を手に持つことなく通話を行うことができるように設計された通信機を利用して遠隔地を結んで行う音声通話)で同じことを実現しようとすると、グループ内の会話とグループ間の会話とが、同じ音声信号内に混ざってしまい、遠隔地(拠点B)のメンバは聞き分けることができず、会話が破綻してしまう。特許文献1の音声会議システムを用いた場合であっても、この問題を解決することはできない。なお、拠点とは、音波の存在する空間(音場)を意味し、例えば、同じ建物内であっても、音波が届かない空間(例えば別の部屋)であれば、別の拠点とする。
本発明は、ハンズフリー通話において、1つの会議室などの1つの共通の音場において二つ以上の独立の会話を同時に行えるようにする音声会議システム、音声会議装置、その方法及びプログラムを提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、音声会議システムは、Ksを2以上の整数の何れかとし、共通の音場に配置されるKs個の音声収音再生装置と、Ks個の音声収音再生装置に接続された音声分離通信装置とを含む。音声収音再生装置は、音を収音し、収音信号を得、さらに、再生信号に基づき、音を再生する。音声分離通信装置は、Ks個の音声収音再生装置からそれぞれ得られるKs個の収音信号を用いて、各音声収音再生装置の近傍に存在する話者の音声を強調したKs個の音声信号を得る音声分離部と、Ks個の音声収音再生装置のうちの1つである第一音声収音再生装置を介して指定された他地点に配置された音声分離通信装置に、Ks個の音声信号のうちの1個の音声信号であって、第一音声収音再生装置の近傍に存在する話者の音声を強調した音声信号である第一音声信号を送信せず、残りの(Ks−1)個のうちの1個以上の音声信号からなる第二音声信号を他地点に配置された全ての音声分離送信装置に送信する送信部と、第二音声信号の送信先から受信した再生信号を、第一音声収音再生装置以外の(Ks−1)個の音声収音再生装置のうちの少なくとも1つで再生させる受信部とを含む。
上記の課題を解決するために、本発明の他の態様によれば、音声会議装置は、Ksを2以上の整数の何れかとし、共通の音場に配置されるKs個の音声収音再生部と、Ks個の音声収音再生部に接続された音声分離通信部とを含む。音声収音再生部は、音を収音し、収音信号を得、さらに、再生信号に基づき、音を再生する。音声分離通信部は、Ks個の音声収音再生部からそれぞれ得られるKs個の収音信号を用いて、各音声収音再生部の近傍に存在する話者の音声を強調したKs個の音声信号を得る音声分離部と、Ks個の音声収音再生部のうちの1つである第一音声収音再生部を介して指定された他地点に配置された音声分離通信部に、Ks個の音声信号のうちの1個の音声信号であって、第一音声収音再生部の近傍に存在する話者の音声を強調した音声信号である第一音声信号を送信せず、残りの(Ks−1)個のうちの1個以上の音声信号からなる第二音声信号を他地点に配置された全ての音声分離送信部に送信する送信部と、第二音声信号の送信先から受信した再生信号を、第一音声収音再生部以外の(Ks−1)個の音声収音再生部のうちの少なくとも1つで再生させる受信部とを含む。
上記の課題を解決するために、本発明の他の態様によれば、音声会議方法は、Ksを2以上の整数の何れかとし、共通の音場に配置されるKs個の音声収音再生部と、Ks個の音声収音再生部に接続された音声分離通信部とを用いる。音声会議方法は、音声収音再生部は、音を収音し、収音信号を得、さらに、再生信号に基づき、音を再生するものとし、音声分離通信部が、Ks個の音声収音再生部からそれぞれ得られるKs個の収音信号を用いて、各音声収音再生部の近傍に存在する話者の音声を強調したKs個の音声信号を得る音声分離ステップと、Ks個の音声収音再生部のうちの1つである第一音声収音再生部を介して指定された他地点に配置された音声分離通信部に、Ks個の音声信号のうちの1個の音声信号であって、第一音声収音再生部の近傍に存在する話者の音声を強調した音声信号である第一音声信号を送信せず、残りの(Ks−1)個のうちの1個以上の音声信号からなる第二音声信号を他地点に配置された全ての音声分離送信部に送信する送信ステップと、第二音声信号の送信先から受信した再生信号を、第一音声収音再生部以外の(Ks−1)個の音声収音再生部のうちの少なくとも1つで再生させる受信ステップとを含む。
本発明によれば、ハンズフリー通話において、1つの会議室などの1つの共通の音場において二つ以上の独立の会話を同時に行うことができるという効果を奏する。
発明が解決しようとする課題を説明するための図。 発明が解決しようとする課題を説明するための図。 第一実施形態のポイントを説明するための図。 第一実施形態のポイントを説明するための図。 第一実施形態のポイントを説明するための図。 第一実施形態に係る音声会議システムの機能ブロック図。 図7Aは音声会議システムの収音及び送信時の処理フローを示す図、図7Bは音声会議システムの受信及び再生の処理フローを示す図。 音声収音再生装置の機能ブロック図。 音声分離通信装置の機能ブロック図。 アドレステーブルの例を示す図。 セッションテーブルの例を示す図。 音声分離部の機能ブロック図。 入出力先選択部124Aの機能ブロック図。 タッチパネルに表示される画面の例を示す図。 音声収音再生装置の配置例を示す図。 拠点Bの音声収音再生装置の通話先の設定変更の画面遷移例を示す図。 図16中の※部分での拠点Cの端末状態を示す図。 拠点Bの様子をさらに詳細に記載した図。 音声収音再生装置の配置例を示す図。 音声収音再生装置の配置例を示す図。 音声収音再生装置の配置例を示す図。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態のポイント>
まず、ハンズフリー通話において、1つの共通の音場において二つ以上の独立の会話を同時に行えるようにすることの目的について説明する。例えば、本実施形態の音声会議システムは、以下のような場面で利用される。
(1)複数の遠隔地でのグループディスカッションを、グループごとに会議室を設ける(図3)ことなく、同一の会議室で行いたい(図4、図中、太線の矢印間、及び、一点鎖線の矢印間でそれぞれ独立して会話を行いたい)。例えば、図3では、拠点B、拠点Cのメンバとそれぞれグループディスカッションを行うために、2つの会議室(拠点A及びD)を設けている。
(2)3地点以上の拠点間会議を行っていて、一部の拠点間会議を他の拠点に対して秘匿したい。例えば、拠点Aが発話を行っているが、それに対する意見を拠点Bと拠点Cで事前相談してから拠点Aへ発言したい。つまり、図5に示すように拠点A,拠点B,拠点Cで1つのグループ3(図中、太線の矢印間で会話を行いたい)を作り、さらに、拠点B,拠点Cで1つのグループ4(図中、一点鎖線の矢印間で会話を行いたい)を作り、グループ4の発話内容を拠点Aに対して秘匿したい。
通常の電話回線によるハンズフリー通話では、上述の(2)の場面で目的を達成しようとした場合、ハンズフリー通話の1つの回線に宛先の違う音声信号を混在させることはできないため、拠点A,拠点B,拠点C間でハンズフリー通話を行う回線とは別に、拠点B,拠点C間で別途通話回線を設定する必要がある。しかし、ハンズフリー通話を開催した当人でない場合は各拠点の電話番号を把握していない場合が多く、また通話回線の別設定自体が手間のかかる作業である。
また、近年主流になりつつある、IP網での通話を利用すると、通話先の制御は技術的には音声パケットの宛先の変更により可能となる。しかし、実際に上述の(2)の場面で利用しようとした場合、発話ごとにソフトウェアを操作して手動で宛先を変更するのは煩雑な作業であり、また手動での宛先変更では異なる宛先への通話を同時に行うことはできず、どちらかを選択的にしか実行できない。
上述の(1),(2)の場面で、発話音声と宛先を自動的に判定する方法として、音声会議装置などに付属する拡張マイクを、それぞれの話者グループの近くへ持ってくる方法が考えられる。例えば、図4の場合、拠点Aにおいて、グループ4のメンバがいるテーブルに拡張マイク5を設置し、拡張マイク5で収音した音声信号を拠点Bに送信する。また、拠点Aにおいて、グループ3のメンバがいるテーブルに拡張マイク6を設置し、拡張マイク6で収音した音声信号を拠点Cに送信する。この方法の場合、拡張マイク5、6で収音した収音信号には意図した発話者以外の声も混入する(つまり、グループ4のメンバが発した声が共通の音場に存在する拡張マイク6で収音され、また、グループ3のメンバが発した声が共通の音場に存在する拡張マイク5で収音される)ため通話が分離されない。特に、一方のグループの通話内容が他方のグループのメンバに聞かれたくない内容の通話だった場合(例えば、グループ4の通話内容が、拠点Cにいるグループ3のメンバに聞かれたくない内容だった場合)に問題となる。
拠点Cにいるグループ3のメンバに、グループ4の通話内容が漏れることを完全に遮断したい場合は、図3のように、会議に使う部屋(拠点)を2つ用意してそれぞれの部屋(拠点A,D)で、それぞれ拠点B,Cにいるメンバと通話をすることが考えられる。しかし、会議室(拠点)を2つ用意することがそれだけ手間である。
特許文献1のステレオシステムを使えば、エリアごとに話者の音声を分けて収音することはできるが、そもそも両方の音声を同時に受聴するのが目的なので両方の音声が再生されるため、両方の音声は完全に分離されず、二つ以上の独立の会話を同時に行えるようにするという目的では利用できない。またステレオシステムのため同一の拠点に3つ以上のグループが存在する場合には対応できない。また、特許文献1の音声会議システムは、一体型であることから、二つのグループの物理的な距離を離すことが出来ないため、(1)の場面には不向きである。
本実施形態では、複数のマイクロホンから、特定の発話者の音声のみを強調する技術とマルチチャネルエコーキャンセラ技術とを組み合わせ、共通の音場における複数の発話を分離して送信できるようにすることにより、発話者に応じて音声の送受信先を制御し、複数のハンズフリー通話ないし会議を共通の音場で行えるようにする。
<第一実施形態に係る音声会議システム100
図6は第一実施形態に係る音声会議システム100の機能ブロック図を、図7Aは音声会議システム100の収音及び送信時の処理フローを、図7Bは音声会議システム100の受信及び再生の処理フローを示す。
音声会議システム100は、Ks個(Ksは2以上)の音声収音再生装置110−k(以下、「端末」ともいう)と、少なくとも1つの音声分離通信装置120(以下、「本体」ともいう)とを含む。ただし、sは拠点を表すインデックスであり、s=1,2,…,Sであり、Sは拠点の総数を表し、Ksは拠点s毎の音声収音再生装置の個数を表し、ks=1,2,…,Ksである。ただし、音声収音再生装置110−1,音声収音再生装置110−2,…,音声収音再生装置110−Kと示した場合、拠点sに配置された音声収音再生装置であることを示す。音声収音再生装置110−kは各拠点sの各グループに対して少なくとも2つ配置される。
Ks個の音声収音再生装置110−kは、共通の音場に配置される。
音声分離通信装置120とK個の音声収音再生装置110−kとは、通信可能に接続される。例えば、無線通信(例えばBluetooth(登録商標))により接続されてもよい。無線通信とすることで、配線の手間を省略することができ、配線による制限を受けずに自由に配置することができ、配線により美観を損なわないというメリットがある。
図8は、音声収音再生装置110−kの機能ブロック図を示す。音声収音再生装置110−kは、送受信情報設定部111と、収音部112と、音声送信部113と音声受信部114と再生部115とを含む。
音声収音再生装置110−kは、音を収音し、収音信号を得、さらに、音声信号に基づき、音を再生する。例えば、収音部112は音を収音し、収音信号xk,sを得、音声送信部113を介して音声分離通信装置120に出力する。例えば、収音部112は1個以上のマイクロホンからなる。また、音声収音再生装置110−kは、音声受信部114を介して、再生信号zk,sを受け取り、再生部115は受け取った再生信号zk,sに基づき、音を再生する。例えば、再生部115は1個以上のスピーカからなる。音声収音再生装置110−ksとして、例えば、スマートフォン等を利用してもよい。
図9は、音声分離通信装置120の機能ブロック図を示す。音声分離通信装置120は、K個の音声受信部121−kと、音声分離部123と、送受信部124と、K個の音声送信部126−kとを含む。送受信部124は、入出力先選択部124Aと、通話制御部124Bとを含む。各部の処理内容については、処理の流れに沿って説明する。
≪会議開始時の設定について≫
音声分離通信装置120の通話制御部124Bを操作することにより、拠点間の通話を開始する。通話に関しては、相手先の音声収音再生装置と音声のRTP(Real-time Transport Protocol)パケット(参考文献1参照)を送受信するなどにより実現する。
(参考文献1):”RTP: A Transport Protocol for Real-Time Applications,” IETF Network Working Group Request for Comments: 3550, July 2003.
音声分離通信装置120は、通信中の他地点(他の拠点)のアドレス・ポート番号と通話単位となるセッション(以下「通話セッション」ともいう)のID(以下「セッションID」ともいう)の組み合わせが格納されたアドレステーブルを記憶する。図10は、アドレステーブルの例を示す。なお、IPアドレスが他地点の音声分離通信装置120s'のアドレスを表し(ただし、s'=1,2,…,Sであり、s≠s'とする)、同一拠点に対し複数の通話セッションを設定する場合はポート番号により区別する。他地点の音声分離通信装置120s'では、ポート番号で通話セッションを区別し、通話セッションに括り付けられた端末を判定する。
まず、通話を開始する際に、アドレステーブルにおける通話セッション(図中、セッションIDとする)=「1」に対して、全拠点(全他地点)のアドレスが登録される。また、セッションテーブルにおける自地点のすべての音声収音再生装置110−k(図中、端末番号情報とする)に対して通話セッション=「1」が登録される。図11は、通話セッション=「1」に登録されている音声収音再生装置を表すセッションテーブルの例を示す。言い換えると、通話を開始する際に、新たにセッションを作成し、全拠点の全音声収音再生装置を登録する。
同じセッションIDが付与された自地点の音声収音再生装置と他地点の音声収音再生装置の間で通話でき、会議開始時には、すべての音声収音再生装置110−kはすべての拠点と通話できる状態、もしくは音声分離通信装置120のアドレステーブルに残っている拠点と通話できる状態になっている。
≪会議中の動作について≫
システム全体の動作を示す。Ks個の音声収音再生装置110−kの収音部112が、音を収音し(図7AのS11)、収音信号xk,sを得、出力する。音声収音再生装置110−kの収音部112で収音された収音信号xk,sは、音声送信部113を経て音声分離通信装置120の音声受信部121−kへ伝達される。Ks個の音声収音再生装置110−kからそれぞれ収音されたKs個の収音信号xk,sを、音声分離部123で特定の発話者(特定の音声収音再生装置の近傍に存在する発話者)ごとの音声信号yk,sに分離する(S12)。その音声信号yk,sと特定の音声収音再生装置を示す情報である端末番号情報kc,sとを入出力先選択部124Aへ入力し、入出力先選択部124Aは端末番号情報kc,sを用いて、上述の設定の値(セッションテーブル及びアドレステーブル)に従い音声信号からなるパケットの送信先を設定する。通話制御部124Bは入出力先選択部124Aから渡されたパケットを宛先へ送信する(S13)。
また、通話制御部124Bは、音声パケットを受信すると(図7BのS21)、入出力先選択部124Aに渡す。入出力先選択部124Aは再生信号と宛先情報(送信先アドレスとポート番号)とをパケットから取り出す。宛先情報から、再生対象の音声収音再生装置を選択し、選択された音声収音再生装置に対する再生信号を出力して音声分離部123へ渡す。なお、音声分離部123内のエコーキャンセラ部123Cで再生信号を利用する。音声分離部123は、音声送信部126−kを介して再生対象の音声収音再生装置110−kに再生信号zk,sを出力する。Ks個の音声収音再生装置110−kの再生部115は、音声受信部114を介してそれぞれ再生信号zk,sを受け取り、再生する(S22)。
<音声分離部123>
音声分離部123は、Ks個の音声収音再生装置からそれぞれ得られるKs個の収音信号xk,sを受け取り、これらの収音信号xk,sを用いて、各音声収音再生装置の近傍に存在する話者の音声を強調したKs個の音声信号yk,sを得(S123)、送受信部124に出力する。
音声分離部123の動作を説明する。音声分離部123ではたとえば参考文献2,3の技術を用いる(図12に構成を示す)。
(参考文献2)特開2014−92705号
(参考文献3)特開2014−112190号
なお、本実施形態では音声分離部123の概要を説明する。詳細については参考文献2,3に記載の技術を用いればよい。なお、以下の音声分離部123内の処理において、下付き添え字sを省略する。
<サンプリング周波数変換部123A>
サンプリング周波数変換部123Aは、K個の収音信号xk(ik)を受け取り、サンプリング周波数変換し、特定のサンプリング周波数のK個の変換後の収音信号cxk(ik)を得、出力する。ただし、ikは時間領域のサンプル点を表す整数のインデックスである。すなわち、xk(ik)は、インデックスikで表されるサンプル点の収音信号を表す。
<信号同期部123B>
信号同期部123Bは、K個の変換後の収音信号cxk(ik)を受け取り、K個の変換後の収音信号cxk(ik)をチャネル間で同期させ、K個の収音信号txk(ik)を得て出力する。
<エコーキャンセラ部123C>
エコーキャンセラ部123Cは、K個の収音信号txk(ik)とK個の再生信号zkとを受け取り、収音信号txk(ik)に含まれる、K個の再生信号zkに基づき再生した音に由来する成分を抑圧し、抑圧後の収音信号sxk(ik)を得て出力する。この部分に関しては、既存のマルチチャネルエコーキャンセラ等を利用する(例えば参考文献4参照)。
(参考文献4)特開2005−347957号公報
このとき、エコーキャンセラの参照信号としては、後述する入出力先選択部124Aから送られてくるK個の再生信号zkを利用する。K個の音声収音再生装置110−kで再生された音に由来する成分も収音信号xkに含まれているため、その再生音の影響を除去するためにエコーキャンセラ部123Cを設ける。
なお、参照信号として利用したK個の再生信号zkは、それぞれK個の音声送信部126−kに出力する。
<フレーム分割部123D>
フレーム分割部123Dは、エコー抑圧後のK個の収音信号sxk(ik)を受け取り、所定の時間区間であるフレームに分割する。以下では、チャネルkのr番目のフレームrに属する収音信号をsxk(ik,r,0),・・・,sxk(ik,r,L-1)と表現する。ただし、Lはフレーム長を表す。
<VAD判定部123E>
VAD判定部123Eは、各チャネルk(k=1,2,…,K)の各フレームrに属する収音信号sxk(ik,r,0),・・・,sxk(ik,r,L-1)を受け取り、各フレームrが音声区間であるか非音声区間であるかを判定する。各フレームrに判定結果を表すラベルθrを付与し、出力する。例えば、また、音声区間であることを表すラベルの例はθr=1であり、非音声区間であることを表すラベルの例はθr=0である。
<S/Nベクトル生成部123G>
S/Nベクトル生成部123Gは、各チャネルk(k=1,2,…,K)の各フレームrに属する収音信号sxk(ik,r,0),・・・,sxk(ik,r,L-1)とラベルθrとを受け取り、チャネルkごとに音声区間の収音信号の大きさを非音声区間の収音信号の大きさで正規化した特徴量を得、チャネルk=1,・・・,Kに対して得られた特徴量を要素とするS/Nベクトル(特徴量列)を得て出力する。「特徴量」の例は、非音声区間の収音信号の大きさに対する音声区間の収音信号の大きさの比を表す値である。本実施形態では、収音信号のパワーの平均値を「収音信号の大きさ」とする。
フレームrに属する収音信号sxk(ik,r,0),・・・,sxk(ik,r,L-1)の平均パワーPN(k,r)を計算し、平均パワーPN(k,r)をk番目の要素とする平均パワーベクトルPN(r)=(PN(1,r),・・・,PN(K,r))を非音声パワー記憶部123Fに格納する。
ラベルθrが音声区間を表す場合、S/Nベクトル生成部123Gは、非音声パワー記憶部123Fに格納されている非音声区間のフレームr’の平均パワーベクトルPN(r’)=(PN(1,r’),・・・,PN(K,r’))を取り出す。
さらにS/Nベクトル生成部123Gは、すべてのチャネルkについて、音声区間のフレームrに属する収音信号sxk(ik,r,0),・・・,sxk(ik,r,L-1)の平均パワーをPN(k,r’)で除算し、正規化平均パワーPV(k,r)を得る。S/Nベクトル生成部123Gは、得られた正規化平均パワーPV(k,r)をk番目の要素とするS/NベクトルPV(r)=(Pv(1,r),・・・,Pv(K,r))を出力する。上述の処理を全てのフレームrに対して行う。S/NベクトルPV(r)=(Pv(1,r),・・・,Pv(K,r))が「音声区間の収音信号の大きさを非音声区間の収音信号の大きさで正規化した特徴量」に相当する。
<非音声パワー記憶部123F>
前述のように、非音声パワー記憶部123Fは、S/Nベクトル生成部123Gで得られた平均パワーベクトルPN(r)を格納する。
<ベクトル分類部123H>
ベクトル分類部123Hは、複数個のS/NベクトルPV(r)(K個のチャネルに対して得られた特徴量からなる特徴量列)を受け取り、複数個のS/NベクトルPV(r)をクラスタリングし、各S/NベクトルPV(r)が属する信号区間分類(クラスタ)を決定する。ここでは、各クラスタのラベルをCLとし、ラベルCLは非音声区間を表すラベルθr(本実施形態では0)以外の値(本実施形態では1以上の整数)をとる。例えば、コサイン類似度を距離関数とするクラスタリングによって得られたラベルCLが、入力されたS/NベクトルPV(r)が属する信号区間分類を表す。ベクトル分類部123Hは、入力されたS/NベクトルPV(r)に対して得られたラベルCLをラベルθrに代入してラベルθrを更新する。これにより、音声区間のフレームrのラベルθrはラベルCLの値となり、非音声区間のフレームrのラベルθrは非音声区間を表す値となる。ベクトル分類部123Hは各フレームrのラベルθrを出力する。
<スペクトル算出部123K>
スペクトル算出部123Kは、フレーム分割部123Dで分割された、各チャネルkの各フレームrに属する収音信号sxk(ik,r,0),・・・,sxk(ik,r,L-1)を受け取る。ここで、フレームrでの各チャネルkの収音信号sxk(ik,r,j)を要素とするK次元の縦ベクトルをx(j,r)=[sx1(i1,r,j),・・・,sxK(iK,r,j)]Tと記述する。ただし、[η]は[η]の転置を表す。また、フレームrに属するK次元ベクトルx(0,r),・・・,x(L-1,r)の要素を周波数領域に変換して得られる値を要素とするK次元の縦ベクトルをX(f,r)と記述する。すなわち、フレームrに属するsxk(ik,r,0),・・・,sxk(ik,r,L-1)を周波数領域に変換して得られる値X(k,f,r)をk番目の要素とするK次元の縦ベクトルをスペクトルベクトルX(f,r)=[X(1,f,r),・・・,X(K,f,r)]Tと記述する。ただし、fは離散周波数を表すインデックスである。周波数領域への変換方法の例は、FFT(Fast Fourier Transform)などの離散フーリエ変換である。また、X(k,f,r)の振幅スペクトルA(k,f,r)をk番目の要素とするK次元の縦ベクトルを振幅スペクトルベクトルA(f,r)=[A(1,f,r),・・・,A(K,f,r)]Tと記述する。さらに、X(k,f,r)の位相スペクトルφ(k,f,r)をk番目の要素とするK次元の縦ベクトルを位相スペクトルベクトルφ(f,r)=[φ(1,f,r),・・・,φ(K,f,r)]Tと記述する。スペクトル算出部123Kは、x(j,r)=[sx1(i1,r,j),・・・,sxK(iK,r,j)]Tを周波数領域に変換し、フレームrごとに、k個の振幅スペクトルA(k,f,r)からなる振幅スペクトルベクトルA(f,r)と、k個の位相スペクトルφ(k,f,r)からなる位相スペクトルベクトルφ(f,r)を得て出力する。
<振幅スペクトル記憶部123L及び位相スペクトル記憶部123M>
振幅スペクトルベクトルA(f,r)は振幅スペクトル記憶部123Lに格納され、位相スペクトルベクトルφ(f,r)は位相スペクトル記憶部123Mに格納される。
<フィルタ係数算出部123I及びフィルタ係数記憶部123J>
フィルタ係数算出部123Iは、ベクトル分類部123Hから出力された各フレームrのラベルθr、および振幅スペクトル記憶部123Lから読み出した振幅スペクトルベクトルA(f,r)を受け取る。ここでラベルθrがとり得る値(分類ラベル番号)のうち、音を強調する信号区間分類(強調信号区間分類)を表す分類ラベル番号をcとする。1個の分類ラベル番号cのみが設定されてもよいし、複数個の分類ラベル番号cが設定されてもよい。よって、θr=cは、フレームrが強調信号区間分類に分類されていることを表す。
フィルタ係数算出部123Iは、強調信号区間分類に属するS/NベクトルPV(r)に対応する振幅スペクトルA(k,f,r)を強調するフィルタリングのためのフィルタ係数wc(f)を算出し、出力する。なお、このフィルタ係数wc(f)は、収音信号に含まれる各分類ラベル番号cの音声を強調するフィルタ係数である。またフィルタ係数wc(f)は、チャネルkに対応する係数wc(f,k)をk番目の要素とするK次元の横ベクトル[wc(f,1),・・・,wc(f,K)]である。フィルタ係数算出部123Iは、各インデックスfおよび各分類ラベル番号cについてフィルタ係数wc(f)を得て出力する。さらにフィルタ係数算出部123Iは、θr=cである各フレームrのS/NベクトルPV(r)の要素のうち最大の要素に対応するチャネルを、最大チャネル番号kc,rとして得る。なお、以下、「最大チャネル番号」を「端末番号情報」ともいう。フィルタ係数算出部123Iは、フィルタ係数wc(f)と端末番号情報kc,rとを各分類ラベル番号cに対応付け、フィルタ係数記憶部123Jに格納する。kc,rはフレームrにおいて音声を最もよく収音している音声収音再生装置を表す。
<フィルタリング部123N>
フィルタリング部123Nは、フィルタ係数記憶部123Jから読み出したフィルタ係数wc(f)、および振幅スペクトル記憶部123Lから読み出した振幅スペクトルベクトルA(f,r)を入力として受け取る。フィルタリング部123Nは、振幅スペクトルベクトルA(f,r)を構成する複数個の振幅スペクトルA(1,f,r),・・・,A(K,f,r)に対し、フィルタ係数wc(f)=[wc(f,1),・・・,wc(f,K)]によるフィルタリングを行い、処理後振幅スペクトルAc’(f,r)を得て出力する。例えばフィルタリング部123Nは、次式のように、フィルタ係数wc(f)と振幅スペクトルベクトルA(f,r)との内積を処理後振幅スペクトルAc’(f,r)として得る。
Ac’(f,r)=wc(f)A(f,r)
上述の処理により複数個の振幅スペクトルA(1,f,r),・・・,A(K,f,r)に対し、強調信号区間分類に属するS/NベクトルPV(r)に対応する振幅スペクトルを強調する処理が行われ、複数個の処理後振幅スペクトルAc’(f,r)が得られる。
<位相付与部123O>
位相付与部123Oは、処理後振幅スペクトルAc’(f,r)に、それに対応する位相スペクトルを付与して複素スペクトルYc(f,r)を得て出力する。本実施形態では、位相付与部123Oは、フィルタ係数記憶部123Jから各フレームrおよび各分類ラベル番号cに対応する端末番号情報kc,rを読み出す。位相付与部123Oは、位相スペクトル記憶部123Mから全チャネルkに対応する位相スペクトルφ(k,f,r)を読み出し、それらから端末番号情報kc,rに対応する位相スペクトルφ(kc,r,f,r)を選択する。さらに位相付与部123Oは、フィルタリング部123Nから出力された処理後振幅スペクトルAc’(f,r)を入力として受け取る。位相付与部123Oは、以下の次式のように処理後振幅スペクトルAc’(f,r)に位相スペクトルφ(kc,r,f,r)を付与し、複素スペクトルYc(f,r)を得て出力する。
Yc(f,r)=Ac’(f,r)exp(iφ(kc,r,f,r))
ただし、iは虚数単位であり、expは指数関数である。
<時間領域変換部123P及び音声信号記憶部123Q>
時間領域変換部123Pは、複素スペクトルYc(f,r)を入力として受け取り、複素スペクトルYc(f,r)を時間領域に変換して強調音響信号yc(n,r)(n=0,・・・,L-1)を得る。ただし、nはサンプル点を表すインデックスである。時間領域に変換する方法としては、スペクトル算出部123Kにおいて用いた周波数領域に変換する方法に対応する方法を用いればよい。さらに時間領域変換部123Pは、オーバーラップアド法を用いて強調音響信号yc(n,r)(n=0,・・・,L-1)を合成して時間領域の音声信号を得る。さらに、時間領域変換部123Pは、端末番号情報kc,rが一致する音声信号を加算し、音声信号ykを取得する。
このような構成により、音声分離部123は、複数のマイクロホンの収音信号x1,x2,…,xKから特定の発話者(特定の音声収音再生装置の近傍に存在する発話者)の音声を強調した音声信号ykと、その過程で推定される発話者のチャネル情報(発話者の音声がどの音声収音再生装置から最も得られるかを示す情報であり、本実施形態では端末番号情報kcである)を取り出す。参考文献2で分類ラベル番号cが複数出る場合があるため、音声信号の出力が複数になる場合を考慮し、音声信号ykと端末番号情報kcとを一度、音声信号記憶部123Qに記憶させ、音声信号ykと端末番号情報kcを1セットずつ入出力先選択部124Aに渡す。音声分離部123では、K個の収音信号xkの特徴量であるS/NベクトルPV(r)=(Pv(1,r),・・・,Pv(K,r))に基づいて、ベクトル分類部123Hでクラスタリングし、各S/NベクトルPV(r)が属する信号区間分類(クラスタ)を決定し、クラスタを利用してフィルタ係数を算出する。さらに、算出したフィルタ係数を用いて、音声収音再生装置の近傍に存在する話者の音声を強調した音声信号として得る。
<送受信部124>
送受信部124は、送信時には、Ks個の音声信号yk,sと端末番号情報kc,sとを受け取る。また、送受信部124は、受信時には、通話相手の個数分の再生信号と宛先アドレスとからなる音声パケットを受け取る。前述の通り、会議開始時には、すべての音声収音再生装置110−kはすべての拠点と通話できる状態、もしくは音声分離通信装置120のアドレステーブルに残っている拠点と通話できる状態になっているため、送受信部124は、送受信設定情報pk',sを受け取るまでは、Ks個の音声信号yk,sを全ての他地点に配置された音声分離通信装置120s’に送信する。また、入出力先選択部124Aの音声信号送出部124Ai(図13参照)は、セッションテーブルを参照して、通話相手の個数分の再生信号を、各再生信号を再生する音声収音再生装置110−kの個数に応じてコピーして、Ks個の再生信号zk,sを生成する。送受信部124は、音声信号送出部124Aiで生成されたKs個の再生信号zk,sをそれぞれKs個の音声収音再生装置110−kで再生させる。
送受信部124は、送受信設定情報pk',sを受け取ると以下の処理を行う。なお、送受信設定情報pk',sは、Ks個の音声収音再生装置110−kのうちの1つである音声収音再生装置110−k’を介してユーザの操作により入力される情報であって、音声収音再生装置110−k’の近傍に存在する話者の音声を強調した音声信号yk',sを送信しない他地点を指定する情報である。例えば、図14は、ユーザの操作により、二つの拠点AとCのうち、拠点Aが送信しない他地点として指定された画面状態を表している。
送受信部124は、音声収音再生装置110−k’を介して指定された他地点に配置された音声分離通信装置120(dは1,2,…,Sの何れかであって、d≠s)に、Ks個の音声信号yk,sのうちの1個の音声信号yk',sを送信せずに、指定された他地点以外に配置された音声分離通信装置120d’(d'=1,2,…,S、ただしd'≠d,d'≠s)に、音声信号yk',sを送信する。
また、送受信部124は、音声収音再生装置110−k’以外の音声収音再生装置110−kの近傍に存在する話者の音声を強調した(Ks−1)個の音声信号yk,sのうちの1個以上の音声信号ym,s(m∈{1,2,…,Ks}、m≠k's)を他地点に配置された全ての音声分離送信装置120s’に送信する。
送受信部124は、音声信号yk',sの送信先(指定された他地点以外に配置された音声分離通信装置120d’)から受信した再生信号zk',sを音声収音再生装置110−k’で再生させる。
また、送受信部124は、音声信号ym,sの送信先から受信した再生信号zm,sを、音声収音再生装置110−k’以外の(Ks−1)個の音声収音再生装置110−kのうちの少なくとも1つで再生させる。
例えば、送受信部124は入出力先選択部124A及び通話制御部124Bを用いて以下のように実現する。
<入出力先選択部124A>
図13は、入出力先選択部124Aの機能ブロック図を示す。
(送信時)
通話セッション変換部124Aaは、端末番号情報kc,rを受け取り、セッションテーブル124Abを参照して、端末番号情報kc,rに対応するセッションIDを取得し、出力する。例えば、音声分離部123から端末番号情報kc,rを取得すると、通話セッション変換部124Aaは、セッションテーブル124Abを用いてセッション名に変換する。例えば、
(1)セッションID=「1」:端末番号情報=「1」
(2)セッションID=「2」:端末番号情報=「2」
のようなセッションテーブルがあるとき、kc,r=「2」の場合、セッションID=「2」という情報を出力する。つまり、セッションテーブル124Abには、セッションIDとそのセッションに接続される音声収音再生装置とが対応付けられている。
アドレス変換部124Acは、セッションIDを受け取り、アドレステーブル124Adを参照して、セッションIDに対応する送信先を取得し、出力する。例えば、アドレス変換部124Acでは、セッションIDを受信して送信先アドレスへ変換する。通話開始時に入力された「セッションID=「2」」という情報を受け取ると、たとえば
(1)セッションID=「1」:192.168.1.1 :5004,192.168.1.3:5004
(2)セッションID=「2」:129.168.1.3:5005
のようなアドレステーブル124Adを参照し、送信先、つまり、宛先アドレスとポート番号「129.168.1.3:5005」を得る。つまり、アドレステーブル124Adには、セッションIDと送受信先のアドレスとが対応付けられている。
音声パケット送信部124Aeは、送信先アドレスと音声信号yk,sとを受け取り、送信先アドレスに対して、音声信号をペイロードに持つ音声パケット(たとえばRTPパケット)を生成し、送信する。
(受信時)
音声パケット受信部124Afは、後述する通話制御部124Bから音声パケットを受信すると、宛先アドレスとポートの情報をアドレス変換部124Agへ渡し、再生信号zk,sをペイロードに持つ音声パケットを音声信号送出部124Aiに渡す。
アドレス変換部124Agは、宛先アドレスとポートの情報を受け取り、アドレステーブル124Adを参照して、宛先アドレスとポートの情報に対応するセッションIDを取得し、出力する。例えば、宛先アドレスとポートの情報をセッションIDに変換して、セッションIDを通話セッション変換部124Ahに渡す。
通話セッション変換部124Ahは、セッションIDを受け取り、セッションテーブル124Abを参照して、セッションIDに対応する端末番号情報を受得し、音声信号送出部124Aiに出力する。
音声信号送出部124Aiは、端末番号情報と音声パケットとを受け取り、端末番号情報に対応する音声収音再生装置へのみ受信した音声パケットを再生信号zk,sに変換して送信する。
要は、入出力先選択部124Aは、端末番号情報から送信アドレスを特定し、音声信号を送信し、宛先アドレスから自地点の音声収音再生装置を特定し、その音声収音再生装置で再生信号が再生されるように再生信号を送信する。
≪通話先変更の動作について≫
会議中に音声収音再生装置110−k’の送受信情報設定部111により、音声送受信先の設定を行う動作を示す。送受信情報設定部111は音声収音再生装置に設置されたタッチパネルなどで操作することを想定する。タッチパネルに表示される画面の例を図14に示す。ここで行う設定は音声分離通信装置120の入出力先選択部124Aに結果が反映される。より詳しくは、セッションテーブル124Ab及びアドレステーブル124Adの内容を変更する。
拠点A、B、C間で通話していると想定し、各地点の音声収音再生装置110−kは2台とする。図15は音声収音再生装置110−kの配置例を示し、拠点Aには音声分離通信装置120、音声収音再生装置110−1、110−2、拠点Bには音声分離通信装置120、音声収音再生装置110−1、110−2、拠点Cには音声分離通信装置120、音声収音再生装置110−1、110−2が配置される。図15中、太線の矢印で接続された音声収音再生装置間で通話可能である。拠点Bの音声収音再生装置110−1,110−2の通話先の設定変更の画面遷移例を図16に示す。拠点Bの音声収音再生装置110−1,110−2には拠点A,Cのボタンが表示されている。ここで音声収音再生装置110−2で拠点Aを選択し、拠点Aのハイライト(太線の囲い)を解除すると、「通話先設定を変更しますか?」というメッセージが表示される。OKを押すと、通話先との通信を行い、設定が完了するとメッセージが再度表示され、音声収音再生装置110−1付近では拠点AとC、音声収音再生装置110−2付近では拠点Cのみと通話をする設定が完了する。
図16中の※部分での拠点Cの端末状態を図17に示す。
拠点Bが通話先の設定変更を行うと、新しい通話先である拠点Cの音声収音再生装置110−1,110−2にその旨のメッセージが表示される。拠点Bとの新たな通話グループを作成する場合は、通話先設定を変更したい方の音声収音再生装置110−kで設定変更の依頼を承認する。2拠点間であればただちに、他に通話グループに拠点がある場合は全拠点の承認が出た時点で通話先設定が変更される。通話グループを別に作らない、もともと拠点Cに音声収音再生装置110−kが1台しかなく承認すると全拠点との通話ができなくなる場合は、承認依頼を拒否することも出来る。
この場合の入出力先選択部124Aでの動作を図9に従って説明する。音声収音再生装置110−kから送受信設定情報pk,sを受信した通話制御部124Bは、対象の拠点へ新たな通話セッションの確立を要求する。要求が承認されるとその旨を音声収音再生装置110−kへ知らせるとともに、対象の拠点での承認を受けて通話セッションの確立を行う。その際に確立された新しいセッションと宛先アドレスのセットを、入出力先選択部124Aのアドレステーブルへ登録する。また、入出力先選択部124Aのセッションテーブルに登録されている音声収音再生装置のうち、新しいセッションへ参加した音声収音再生装置の情報を更新する。
この例で通話状態がどのように変更されるかの簡略図を図15に示す。初期状態の設定変更前ではすべての音声収音再生装置同士が音声通話できるようになっていたが、設定変更により拠点BとCの音声収音再生装置110−2,110−2は全体通話(全拠点においてなされる通話)から切り離され、音声収音再生装置110−2,110−2間での通話に切り替わっている。拠点Bの様子をさらに詳細に記載したのが図18である。音声収音再生装置110−1の近く(実線の丸)にいる会議参加者(メンバ)a〜cは、全拠点との会話を行うことができる。一方、音声収音再生装置110−2の近く(点線の丸)にいる会議参加者dは、拠点Cの音声収音再生装置110−2の近くにいる参加者とのみ通話でき、その会話内容は拠点Aには聞こえない。ただし、拠点Aからの音声は拠点Bの音声収音再生装置110−1から再生されるため、拠点Aの会話内容は参加者dは多少離れているものの把握することができ、また拠点Cの音声収音再生装置110−2の近くにいる参加者の声も拠点Bの参加者a〜cは聞くことができる。そのため、参加者a〜dは両方の会話の内容を把握しながら、部分的に拠点Cとだけ会話をすることができる。よって、図2のような場合に、拠点Aにおいて、独立して二つ以上のグループディスカッション(会話)をすることができる。
この際に、参加者dは音声収音再生装置110−1から極端に離れているわけではないため、参加者dの声は音声収音再生装置110−1にも収音される。このままでは拠点Aに参加者dの会話内容が伝わってしまうが、前述の音声分離部123及び送受信部124により、拠点Aへ送信される音声に参加者dの音声は含まれないように処理を行うことが可能である。また、拠点Cの音声収音再生装置110−2の音声についても、拠点Bの音声収音再生装置110−2の再生部115を通して音声収音再生装置110−1に収音されるが、こちらも前述のエコーキャンセル機能により相手に伝わることはない。よって、図15に示すように拠点A,拠点B,拠点Cで1つのグループを作り、さらに、拠点B,拠点Cで1つのグループを作り、拠点B,拠点Cで作られたグループの発話内容を拠点Aに対して秘匿することができる。
このような通話先の設定変更は、一度変更を行った後も再度行うことができる。例えば拠点Bの音声収音再生装置110−2が拠点Cの音声収音再生装置110−2とのみ会話していた状態から、拠点Aの音声収音再生装置110−1とのみ会話をする状態へセッション状態を変更することが可能である。この場合、拠点Cのセッションからの離脱承認と、拠点Aのセッション参加承認を受けてセッションの再作成を行う。また、作成したセッションを削除し、全拠点通話のみに戻すことも出来る。この場合は拠点Bのセッション終了承認を受けてセッションを削除する。
<効果>
以上の構成により、ハンズフリー通話において、1つの会議室などの1つの共通の音場において二つ以上の独立の会話を同時に行うことができる。ハンズフリー通話装置において、発話者に応じて音声の送信先を変更することができるようになる。また、送信音声はグループごとに分離されるが、再生音声はある程度拠点内でグループをまたいで聞こえるようにすることも出来るため、3地点以上の拠点間会議を行っていて、拠点Aが発話を行っているが、それに対する意見を拠点Bと拠点Cで事前相談してから拠点Aへ発言したいようなケースで全体の会話を聞きながら部分的な通話を並行して行うということも出来るようになる。
また、このような構成により、発話者に応じて自動で通話相手先を変えることができる装置を実現した。さらに、発話者分離とエコーキャンセラを組み合わせることにより、ハンズフリーで同一空間にいながら2つの通話を独立に行うことを可能にした。
エコーキャンセラ部123Cでは、収音信号xk,sに含まれるKs個の音声収音再生装置110−ksで再生された音に由来する成分を削除する。これにより、遠隔地同士でも会議室と同様のグループディスカッションが行えるようになる。また、音声が他の地点に漏れないことを利用し、多地点遠隔会議中の秘匿通話にも利用することができる。
<変形例>
本実施形態では、拠点が3つのときについて説明したが、2つでもよいし、4つ以上であってもよい。例えば、図19を用いて、拠点が2つの場合について説明する。図19の場合、会議開始時には拠点間の全ての音声収音再生装置間で会話が可能となっている。例えば、拠点Aの音声収音再生装置110−2を介して、拠点Bに配置された音声分離通信装置120に音声信号y2,1を送信しないと指定され、かつ、拠点Bの音声収音再生装置110−2を介して、拠点Aに配置された音声分離通信装置120に音声信号y2,2を送信しないと指定された場合、拠点Aの音声収音再生装置110−1と拠点Bの音声収音再生装置110−1との間で音声パケットの送受信が行われる。この場合には、音声信号y2,1、y2,2は何れの拠点にも送信しない構成となり、音声収音再生装置110−2、110−2は再生信号を受信せず、再生しない構成となる。この場合であっても、ハンズフリー通話において、1つの会議室などの1つの共通の音場において2つ以上の独立の会話を同時に行うことができる。つまり、拠点A及び拠点Bでは、各拠点における会話と、拠点Aと拠点Bとの間の会話とを同時に行うことができる。なお、この場合には、設定変更の依頼を承認するステップを省略してもよい。
3つ以上の拠点の場合、各拠点には、全拠点と通話するための音声収音再生装置と、一部の拠点に対して通話を秘匿するための音声収音再生装置とを備えればよい。例えば、図20の場合、拠点Aでは、音声収音再生装置110−1と音声収音再生装置110−1との間で拠点A及び拠点B間の秘匿通話が可能となり、音声収音再生装置110−3と音声収音再生装置110−1との間で拠点A及び拠点C間の秘匿通話が可能となり、音声収音再生装置110−2と音声収音再生装置110−2と音声収音再生装置110−2との間で全拠点間の通話である全体通話が可能となる。このように、1つの拠点において2つ以上の秘匿通話を行ってもよい。
例えば、Nを1以上(Ks-1)以下の整数の何れかとし、n=1,2,…,Nとすると、N個の送受信設定情報pn,sは、Ks個の音声収音再生装置110−kのうちのN個の音声収音再生装置110−nを介してユーザの操作によりそれぞれ入力される情報であって、音声収音再生装置110−nの近傍に存在する話者の音声を強調した音声信号yn,sを送信しない他地点d(d∈{1,2,…,S}、d≠s)を指定する情報である。なお、音声収音再生装置110−n毎に他地点dを選択することができる。また、1つの音声収音再生装置110−nを介して2つ以上の他地点dを指定してもよい。送受信部124は、音声収音再生装置110−nを介して指定された他地点に配置された音声分離通信装置120に、Ks個の音声信号yk,sのうちの1個の音声信号yn,sを送信せずに、指定された他地点以外に配置された音声分離通信装置120d’(d'∈{1,2,…,S}、ただしd'≠d,d'≠s)に、音声信号yn,sを送信する。また、送受信部124は、音声収音再生装置110−n以外の音声収音再生装置110−kの近傍に存在する話者の音声を強調した(Ks−N)個の音声信号yk,sのうちの1個以上の音声信号ym,s(m∈{1,2,…,Ks}、m≠ns)を他地点に配置された全ての音声分離送信装置120s’に送信する。送受信部124は、音声信号yn,sの送信先(指定された他地点以外に配置された音声分離通信装置120d’)から受信した再生信号zn,sを音声収音再生装置110−nで再生させる。また、送受信部124は、音声信号ym,sの送信先から受信した再生信号zm,sを、音声収音再生装置110−n以外の(Ks−N)個の音声収音再生装置110−kのうちの少なくとも1つで再生させる。この場合であっても、Nは1以上の整数であり、第一実施形態と同様の処理を含むことになる。
また、必ずしも全ての拠点で秘匿通話が必要となるわけではない。例えば、拠点Aでは秘匿通話を必要としない場合には、図21のような構成としてもよい。
つまり、ハンズフリー通話において、1つの共通の音場において2つ以上の独立の会話を同時に行うためには、少なくとも、2つの音声収音再生装置を含む音声会議システムが、2拠点以上に設置されればよく、全体通話と秘匿通話を実現するためには、3つ以上の拠点を含み、3つ以上の拠点のうちの2拠点以上に2つの音声収音再生装置を含む音声会議システムが設置されればよい。
Ks個の音声収音再生装置110−ksのうちの一つが音声分離通信装置120sの機能を備える構成としてもよい。また、Ks個の音声収音再生装置110−ksと音声分離通信装置120sとを一つの装置により構成してもよい。その場合、音声収音再生装置及び音声分離通信装置をそれぞれ音声収音再生部及び音声分離通信部ともいう。また、送受信部124は送信機能を持つ送信部と、受信機能を持つ受信部とに分けて構成してもよいし、本実施形態のように1つの送受信部として構成してもよい。
なお、図16の説明において、拠点Aを選択し、拠点Aのハイライト(太線の囲い)を解除すると説明したが、拠点Bを選択し、拠点Aのハイライト(太線の囲い)を解除してもよい。この場合、通話する拠点として拠点Bを選択することは、結果的に、通話しない拠点として拠点Aを選択することに相当する。要は、インターフェースの違いであって、本実施形態のように、直接、音声信号を送信しない拠点を選択してもよいし、音声信号を送信する拠点を選択することで間接的に音声信号を送信しない拠点を選択してもよい。
なお、本実施形態では、会議開始時には、すべての音声収音再生装置110−kはすべての拠点と通話できる状態、もしくは音声分離通信装置120のアドレステーブルに残っている拠点と通話できる状態になっているが、アドレステーブルとセッションテーブルの設定を予め変更しておくことで、会議開始時に、秘匿通話が行われる構成としてもよい。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. 通の音場に配置される複数の音声収音再生装置と、前記音声収音再生装置に接続された音声分離通信装置とを含み、
    前記共通の音場とは異なる第二の音場が2以上であるものとし、
    前記音声収音再生装置は、音を収音し、収音信号を得、さらに、再生信号に基づき、音を再生し、
    前記音声分離通信装置は、
    前記複数の音声収音再生装置からそれぞれ得られる収音信号を用いて、各音声収音再生装置の近傍に存在する話者の音声を強調した複数の音声信号を得る音声分離部と、
    前記音声収音再生装置のうちの1つである第一音声収音再生装置を介して指定された第二の音場以外の第二の音場に配置された複数の音声収音再生装置に、通話セッションの確立を要求し、要求の承認を受けて通話セッションの確立を行う通話制御部と、
    前記第一音声収音再生装置を介して指定された前記第二の音場に配置された音声分離通信装置に、前記音声信号のうちの1個の音声信号であって、前記第一音声収音再生装置の近傍に存在する話者の音声を強調した音声信号である第一音声信号を送信せず、前記第一音声信号を除く音声信号からなる第二音声信号を、第二の音場に配置された全ての音声分離送信装置に送信する送信部と、
    前記第二音声信号の送信先から受信した再生信号の内、前記セッションの確立の要求を承認した音声収音再生装置で得た収音信号に対応しない再生信号を、前記第一音声収音再生装置以外の前記共通の音場に配置される音声収音再生装置のうちの少なくとも1つで再生させる受信部とを含
    前記送信部は、前記第一音声収音再生装置を介して指定された第二の音場以外に配置された音声分離通信装置に、前記第一音声信号を送信し、
    前記受信部は、前記第一音声信号の送信先から受信した再生信号の内、前記セッションの確立の要求を承認した音声収音再生装置で得た収音信号に対応する再生信号を前記第一音声収音再生装置で再生させる、
    音声会議システム。
  2. 請求項1の音声会議システムであって、
    前記音声分離部は、複数の前記収音信号の特徴量に基づいて、音声収音再生装置の近傍に存在する話者の音声を強調した音声信号として得る、
    音声会議システム。
  3. 請求項1または請求項2の音声会議システムであって、
    前記音声分離通信装置は、
    複数の収音信号に含まれる、再生信号に基づき複数の前記音声収音再生装置で再生した音に由来した成分を抑圧する
    エコーキャンセル部を含む、
    音声会議システム。
  4. 請求項1から請求項の何れかの音声会議システムであって、
    前記音声分離通信装置は、前記第二音声信号の送信中に、複数の前記音声収音再生装置の何れかを介してユーザにより、前記第一音声信号を送信しない音声分離通信装置を指定し、切り替え可能である、
    音声会議システム。
  5. 通の音場に配置される複数の音声収音再生部と、前記音声収音再生部に接続された音声分離通信部とを含み、
    前記共通の音場とは異なる第二の音場が2以上であるものとし、
    前記音声収音再生部は、音を収音し、収音信号を得、さらに、再生信号に基づき、音を再生し、
    前記音声分離通信部は、
    前記複数の音声収音再生部からそれぞれ得られる収音信号を用いて、各音声収音再生部の近傍に存在する話者の音声を強調した複数の音声信号を得る音声分離部と、
    前記音声収音再生部のうちの1つである第一音声収音再生部を介して指定された第二の音場以外の第二の音場に配置された複数の音声収音再生部に、通話セッションの確立を要求し、要求の承認を受けて通話セッションの確立を行う通話制御部と、
    前記第一音声収音再生部を介して指定された前記第二の音場に配置された音声分離通信部に、前記音声信号のうちの1個の音声信号であって、前記第一音声収音再生部の近傍に存在する話者の音声を強調した音声信号である第一音声信号を送信せず、前記第一音声信号を除く音声信号からなる第二音声信号を、第二の音場に配置された全ての音声分離送信部に送信する送信部と、
    前記第二音声信号の送信先から受信した再生信号の内、前記セッションの確立の要求を承認した音声収音再生部で得た収音信号に対応しない再生信号を、前記第一音声収音再生部以外の前記共通の音場に配置される音声収音再生部のうちの少なくとも1つで再生させる受信部とを含
    前記送信部は、前記第一音声収音再生部を介して指定された第二の音場以外に配置された音声分離通信部に、前記第一音声信号を送信し、
    前記受信部は、前記第一音声信号の送信先から受信した再生信号の内、前記セッションの確立の要求を承認した音声収音再生部で得た収音信号に対応する再生信号を前記第一音声収音再生部で再生させる、
    音声会議装置。
  6. 通の音場に配置される複数の音声収音再生部と、前記音声収音再生部に接続された音声分離通信部とを用いた音声会議方法であって、
    前記共通の音場とは異なる第二の音場が2以上であるものとし、
    前記音声収音再生部は、音を収音し、収音信号を得、さらに、再生信号に基づき、音を再生するものとし、
    前記音声分離通信部が、
    前記複数の音声収音再生部からそれぞれ得られる収音信号を用いて、各音声収音再生部の近傍に存在する話者の音声を強調した複数の音声信号を得る音声分離ステップと、
    前記音声収音再生部のうちの1つである第一音声収音再生部を介して指定された第二の音場以外の第二の音場に配置された複数の音声収音再生部に、通話セッションの確立を要求し、要求の承認を受けて通話セッションの確立を行う通話制御ステップと、
    前記第一音声収音再生部を介して指定された前記第二の音場に配置された音声分離通信部に、前記音声信号のうちの1個の音声信号であって、前記第一音声収音再生部の近傍に存在する話者の音声を強調した音声信号である第一音声信号を送信せず、前記第一音声信号を除く音声信号からなる第二音声信号を、第二の音場に配置された全ての音声分離送信部に送信する送信ステップと、
    前記第二音声信号の送信先から受信した再生信号の内、前記セッションの確立の要求を承認した音声収音再生部で得た収音信号に対応しない再生信号を、前記第一音声収音再生部以外の前記共通の音場に配置される音声収音再生部のうちの少なくとも1つで再生させる受信ステップと
    前記第一音声収音再生部を介して指定された第二の音場以外に配置された音声分離通信装置に、前記第一音声信号を送信するステップと、
    前記第一音声信号の送信先から受信した再生信号の内、前記セッションの確立の要求を承認した音声収音再生部で得た収音信号に対応する再生信号を前記第一音声収音再生部で再生させるステップとを含む、
    音声会議方法。
  7. 請求項1から請求項の何れかの音声分離通信装置としてコンピュータを機能させるためのプログラム。
JP2015081891A 2015-04-13 2015-04-13 音声会議システム、音声会議装置、その方法及びプログラム Active JP6392161B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015081891A JP6392161B2 (ja) 2015-04-13 2015-04-13 音声会議システム、音声会議装置、その方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015081891A JP6392161B2 (ja) 2015-04-13 2015-04-13 音声会議システム、音声会議装置、その方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2016201739A JP2016201739A (ja) 2016-12-01
JP6392161B2 true JP6392161B2 (ja) 2018-09-19

Family

ID=57424723

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015081891A Active JP6392161B2 (ja) 2015-04-13 2015-04-13 音声会議システム、音声会議装置、その方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6392161B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7150114B1 (ja) * 2021-09-02 2022-10-07 株式会社ドワンゴ コミュニケーション支援システム、コミュニケーション支援方法、及びコミュニケーション支援プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11215240A (ja) * 1998-01-22 1999-08-06 Sony Corp 電話会議装置
JP4919077B2 (ja) * 2007-10-05 2012-04-18 ヤマハ株式会社 音声通信端末及び音声通信システム
JP5396603B2 (ja) * 2009-02-02 2014-01-22 株式会社日立国際八木ソリューションズ 電話システム
EP2216974A1 (en) * 2009-02-04 2010-08-11 Alcatel Lucent Method of providing a communication service
JP6175961B2 (ja) * 2013-07-29 2017-08-09 株式会社リコー 通信システム、方法、通信装置およびプログラム

Also Published As

Publication number Publication date
JP2016201739A (ja) 2016-12-01

Similar Documents

Publication Publication Date Title
US8606249B1 (en) Methods and systems for enhancing audio quality during teleconferencing
US11386912B1 (en) Method and computer program product for allowing a plurality of musicians who are in physically separate locations to create a single musical performance using a teleconferencing platform provided by a host server
KR101285391B1 (ko) 음향 객체 정보 융합 장치 및 방법
US20050271194A1 (en) Conference phone and network client
US20080273683A1 (en) Device method and system for teleconferencing
CN103312912B (zh) 一种混音系统及方法
US11782674B2 (en) Centrally controlling communication at a venue
HUE029900T2 (en) Spatial audio processing, program product, electronic device and system
US11521636B1 (en) Method and apparatus for using a test audio pattern to generate an audio signal transform for use in performing acoustic echo cancellation
US8768406B2 (en) Background sound removal for privacy and personalization use
JPH09233198A (ja) 全二重音声会議電話のためのソフトウエアベースのブリッジ方法及び装置
JP6392161B2 (ja) 音声会議システム、音声会議装置、その方法及びプログラム
JP2009118316A (ja) 音声通信装置
JP3898673B2 (ja) 音声通信システム、方法及びプログラム並びに音声再生装置
US20220141341A1 (en) Conference terminal and multi-device coordinating method for conference
JP2006180251A (ja) 複数話者による同時発声を可能とする音声信号処理装置およびプログラム
JP2004072354A (ja) 音声会議システム
JP2004274147A (ja) 音場定位型多地点通話システム
US10419851B2 (en) Retaining binaural cues when mixing microphone signals
JP3828185B2 (ja) 会議支援システムおよび会議支援システムの制御方法
CN111128104B (zh) 一种无线k歌方法、音频设备及智能终端
JP2004336292A (ja) 音声処理システム、装置および方法
JP2003069968A (ja) 現実感を伴う電子会議の実現方法
JP6587088B2 (ja) 音声伝達システム及び音声伝達方法
JP2023107364A (ja) コミュニケーション装置及びコミュニケーション方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180508

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180509

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180702

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180709

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180821

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180822

R150 Certificate of patent or registration of utility model

Ref document number: 6392161

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150