JP2008022360A

JP2008022360A - 音声通信装置、および音声通信システム

Info

Publication number: JP2008022360A
Application number: JP2006193124A
Authority: JP
Inventors: Noriyuki Hata; 紀行畑
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2006-07-13
Filing date: 2006-07-13
Publication date: 2008-01-31

Abstract

【課題】比較的簡素なシステム構成で、特定話者の発話音声の話速を変換し、さらに聞き手毎に個別調整することができる音声通信システム、および音声通信装置を提供する。
【解決手段】地点ｂの会議者Ｊの声が聴き取り難く、地点ａの会議者Ａ，Ｇが話速変換調整を行うと、音声会議装置１１１Ａは、スピーカアレイの各スピーカから放音される音声を調整することで、会議者Ａ，Ｇに対応する方位Ｄｉｒ１１，Ｄｉｒ１８への放音音声のみをそれぞれの話速変換量に基づいて話速変換する。話速変換量はネットワークサーバ１０１に送信され、ネットワークサーバ１０１は会議者Ｊに対する話速変換要求数が所定数になると、会議者Ｊに対応する方位Ｄｉｒ２４からの収音信号を話速変換するように指示するデータを音声会議装置１１１Ｂに与える。音声会議装置１１１Ｂは、方位Ｄｉｒ２４からの収音信号を話速変換して、各音声会議装置１１１Ａ，１１１Ｃに送信する。
【選択図】図１

Description

この発明は、ネットワークを介して相互に音声信号を通信することで遠隔地会議などを行う音声通信システム、およびこの音声通信システムで用いる音声通信装置に関するものである。

複数の地点をネットワークで接続して音声会議やチャットを行う音声通信システムが各種考案されている。

例えば、特許文献１では、それぞれの話者が音声通信装置に相当するパソコンを個別にネットワークへ接続し、仮想会議室で互いに会議をするシステムが開示されている。

そして、特許文献１では、それぞれの話者が個別に音声通信装置を操作して、受信音声信号の音質、音量、音響を調整して放音することで、各話者単位で臨場感の有る会議を行えるものである。
特開平８−１２５７６１号公報

しかしながら、多地点間通信の音声会議においては、各話者によって声の音量、会話速度が異なるため、特定の話者の発言が聴き取り難い場合がある。特許文献１の音声通信システムでは、放音の音質、音量、音響を調整して、特定の話者の声が小さすぎる場合に、聞き取り易いように調整することができるが、個別調整ができないために他の話者の音声も大きくなってしまう。また、会話速度が速すぎてその話者の発言が聴き取り難い場合に、その発言内容を把握し易くするように調整することができなかった。

また、特許文献１の音声通信システムでは、話者毎に音声通信装置を設置しなければならず、会議規模が大きくなると音声通信システムの規模が大幅に大きくなってしまうという問題点が有った。

さらには、１つの音声通信装置に複数の会議者が在席していても、所定方向への放音制御を行うことができないので、全会議者に対して同じ音声しか提供することができなかった。

本発明は、会議者数に影響されにくい比較的簡素なシステム構成で、特定話者の発話音声の話速を変換し、さらに聞き手毎に個別調整することができる音声通信システム、およびこの音声通信システムに用いる音声通信装置を提供することを目的とする。

（１）この発明の音声通信装置は、複数のスピーカを配列してなるスピーカアレイと、放音される音声信号の話速変換量の設定を複数のユーザ方向毎に受け付ける操作受付手段と、前記複数のユーザ方向毎に放音ビームを形成するとともに、前記操作受付手段で受け付けた前記ユーザ方向毎の話速変換量に基づき、指定されたユーザ方向への放音ビームを調整するように、入力した音声信号を話速変換、および遅延して前記複数のスピーカに与える放音制御手段と、を備えたことを特徴とする。

（２）また、この発明の音声通信装置は、複数のマイクを配列してなるマイクアレイと、前記複数のユーザ方向に対して収音ビームを形成するとともに、該収音ビーム強度を比較することで話者方位を同定し、話者方位とともに該話者方位の収音ビームに基づく音声信号を所定の話速変換量で話速変換して外部に出力する収音制御部と、を備えたことを特徴とする。

（３）また、この発明の音声通信システムは、サーバ装置、および複数の請求項２に記載の音声通信装置を相互に接続した音声通信システムであって、各音声通信装置は、前記操作受付部が受け付けた話速変換量を、前記サーバ装置に送信するサーバ通信部を備え、前記サーバ装置は、各音声通信装置から送られてきた話速変換量に基づき、各話者方位毎の基本話速変換量を決定して各音声通信装置に配信する話速変換量決定手段を備え、前記音声通信装置のサーバ通信部は、さらにサーバ装置から前記基本話速変換量を受信し、前記収音制御部は、前記話者方位の収音ビームに基づく音声信号を、前記サーバ装置から受信した基本話速変換量で話速変換して外部に出力することを特徴とする。

この発明では、複数の聴者が話速変換を指定し、話速変換量を指定すると、該当する複数の聴者が在席する位置に配置された各音声通信装置は話速変換操作を受け付ける。各音声通信装置は、この話速変換量をネットワークサーバに送信し、ネットワークサーバはこれを受信する。ネットワークサーバは、受信した話速変換量を比較し、同じ傾向の内容（例えば、全てが遅くするように指定するもの）の受付数が所定値以上であるかどうかを判定する。ここで、所定値とは、例えば、現在ネットワークに接続して会議（音声通信）を行っている会議者（話者）の過半数等で設定する。ネットワークサーバは、所定値以上であると判定すると、該当する話者方位に対して設定された基本話速変換量（例えば平均値）を、該当する音声通信装置に送信する。基本話速変換量を受信した音声通信装置は、該当方位（話者方位）から得られる収音ビームが選択され音声通信信号に変換される際に、当該音声通信信号を時間軸に伸長して、ネットワークに出力する。これにより、所定値以上の聴者が特定話者の音声に対して話速変換する場合に、話者の音声を収音する時に一括して話速変換することができる。

（４）また、この発明の音声通信システムは、各音声通信装置の放音制御部は、他の装置から入力した話者方位毎の音声信号を、前記操作受付部で受け付けたユーザ方向毎の話速変換量と前記基本話速変換量の差分の話速変換量で、前記ユーザ方向毎に話速変換することを特徴とする。

この発明では、前述のような収音時の話速変換を行うと、特定話者からの音声通信信号が収音話速変換量で話速変換された状態で他の各音声通信装置に入力される。この際、各音声通信装置には、ネットワークサーバから同じ収音話速変換量が与えられる。各音声通信装置は、この収音話速変換量と、自装置に操作入力された話速変換量との差分を求める。各音声通信装置は、差分結果に基づいて、話速変換を指定した方位への放音ビームを形成する。これにより、話速変換を指定した聴者に対して、収音話速変換量と指定された話速変換量とが重畳した状態で放音ビームが形成されるのではなく、元々の指定した話速変換量に基づく放音ビームが形成される。

（５）また、この発明の音声通信システムは、各音声通信装置の放音制御部は、他の装置から入力した話者方位毎の音声信号を、話速変換量を受け付けていないユーザ方向について、前記基本話速変換量を打ち消す話速変換量で話速変換することを特徴とする。

この発明では、該当話者の在席する音声通信装置以外の各音声通信装置は、収音話速変換量を取得すると、当該収音話速変換量を打ち消す伸長、圧縮処理を行う。各音声通信装置は、収音話速変換量で話速変換された音声通信信号を入力すると、話速変換の指定を行っていない方位の放音ビームに対して収音話速変換量を打ち消すように伸長、圧縮処理を行う。これにより、話速変換の指定操作を行っていない聴者に対して、収音話速変換量による話速変換を行う以前の通常の話速の話者音声に基づく放音ビームが形成される。

（６）また、この発明の音声通信システムは、各音声通信装置の収音制御部は、前記外部に出力する音声信号を、話速変換してから出力するとともに、話速変換しない音声信号も同時出力し、前記放音制御部は、話速変換量を受け付けていないユーザ方向について、他の装置から入力した前記話速変換しない音声信号で、話速変換せずに放音ビームを生成することを特徴とする。

この発明では、収音話速変換を行う音声通信装置は、話速変換済みの音声通信信号とともに、話速変換をしない音声通信信号をネットワークに出力する。

各音声通信装置は、収音話速変換量で話速変換された音声通信信号、および話速変換をしない音声通信信号を入力すると、話速変換の指定を行っていない方位の放音ビームに対して話速変換をしない音声通信信号をスピーカに供給する。これにより、一旦伸長された音声通信信号を、受信側で圧縮して音質低下することを防止する。

この発明によれば、話者（聴者）の１人１人に対して音声通信装置を配分することなく、１つの音声通信装置に対して複数の話者（聴者）を在席させても、各聴者毎に所望の話速で、話者の発声音を話速変換することができる。

また、この発明によれば、所定値以上の聴者が特定話者からの音声について話速変換を指定した場合に、特定話者から音声を収音する時に一元して話速変換することで、全員に対して同時に話速変換済みの音声を発信することができる。これは、例えば、聴き取りづらいけれど話速変換の指定操作の方法が分からない人がいたり、聴き取りづらいけれど敢えて話速変換の指定操作を行わない人がいる場合に、これらの人々に対しても聴き取りやすい音声を提供することができる。

また、この発明によれば、話速変換の指定操作を行っていない聴者に対しては、特定話者の音声を元のままで放音することができる。これは、例えば、話速変換の指定操作を行っていない人は特に問題なく聴き取れているとする場合に、話速変換を行いたい人には話速変換済み音声を提供し、話速変換の指定操作を行っていない人には元の話速のままの音声を提供することができる。

以下の実施形態では、具体的な音声通信システムの例として、音声会議システムについて、図を参照して説明する。

図１は、本実施形態の音声会議システムの構成図である。
図２（Ａ）は図１に示す音声会議システム中の地点ａの構成を示す図であり、（Ｂ）は図２（Ａ）に示すリモコン装置１２０（１２０Ａ〜１２０Ｇ）の平面図である。
図３は本実施形態の音声会議装置１１１（１１１Ａ〜１１１Ｃ）の両側面図と底面図とを示し、図４は、図３に示す音声会議装置の主要構成を示すブロック図である。
図５は本実施形態のネットワークサーバ１０１の主要構成を示すブロック図である。

本実施形態の音声会議システムは、ネットワーク１００に接続された音声会議装置１１１Ａ〜１１１Ｃと、ネットワークサーバ１０１とを備える。

音声会議装置１１１Ａ〜１１１Ｃは、それぞれ離れた地点ａ〜ｃにそれぞれ配置されている。地点ａには音声会議装置１１１Ａが配置され、地点ｂには音声会議装置１１１Ｂが配置され、地点ｃには音声会議装置１１１Ｃが配置されている。

地点ａには、音声会議装置１１１Ａが配置されており、該音声会議装置１１１Ａを囲むように、会議者Ａ〜Ｇの７人が、音声会議装置１１１Ａに対してそれぞれ方位Ｄｉｒ１１〜Ｄｉｒ１６，Ｄｉｒ１８で在席している。地点ｂには、音声会議装置１１１Ｂが配置されており、該音声会議装置１１１Ｂを囲むように、会議者Ｈ〜会議者Ｌの５人が、音声会議装置１１１Ｂに対して、それぞれ方位Ｄｉｒ２１，Ｄｉｒ２２，Ｄｉｒ２４，Ｄｉｒ２６，Ｄｉｒ２８で在席している。地点ｃには、音声会議装置１１１Ｃが配置されており、該音声会議装置１１１Ｃを囲むように、会議者Ｍ，Ｎ，Ｐ，Ｑが音声会議装置１１１Ｃに対して、それぞれ方位Ｄｉｒ３１，Ｄｉｒ３４，Ｄｉｒ３６，Ｄｉｒ３８で在席している。

ここで、各会議者は音声会議装置を囲んで在席するとともに、それぞれの手元に放音調整用のリモコン１２０を備えている。例えば、図２に示すように、地点ａの場合、音声会議装置１１１Ａを囲んで会議者Ａ〜Ｇが在席し、各会議者Ａ〜Ｇがそれぞれにリモコン１２０Ａ〜１２０Ｇを持っている。

リモコン１２０は、例えば、図２（Ｂ）に示すように、表示部１２１、選択ボタン１２２、実行ボタン１２３、調整キー１２４、リモコン信号送信部１２５を備える。表示部１２１には、現在設定されている「話速」が表示される。なお、「話速」以外にも「音量」や「音質」等の設定項目が表示されるようにしてもよい。

そして、会議者が、選択ボタン１２２で調整したい放音特性（「話速」）を選択し、調整キー１２４で所望速度に調整することができる。「話速」は、例えば、「＋１」や「−３」等の現在値に対する相対値で設定される。なお、ここで示す相対値は、実際の話速変換度を示す数値（２倍速等）ではなく、会議者が調整したい速度の目安（例えば５段階程度）を示すものである。実際の話速変換処理においては、音声区間の先頭部分（例えば７００ｍｓ程度）を１〜２倍程度の伸長率で話速変換し、それ以後の音声については話速変換しない、または圧縮して出力する、といった処理を行う。詳細は後述する。

そして、会議者が実行ボタン１２３で調整を確定すると、リモコン信号送信部１２５から赤外線等のリモコン通信信号が音声会議装置１１１のリモコン送受信部２０に送信される。音声会議装置１１１Ａ〜１１１Ｃは、このリモコン信号から、後述する「音声会議装置毎の個別処理」または「ネットワークサーバによる一括処理」のいずれかに基づいて、放音音声を会議者毎に設定する。

図３に示すように、本実施形態の音声会議装置１１１は、外観機構的に、筐体１１２、脚部１１３、操作部１１４を備える。
筐体１１２は一方向に長尺な略直方体形状からなり、筐体１１２の長尺な辺（面）の両端部には、筐体１１２の下面を設置面から所定間隔離間する所定高さの脚部１１３が設置されている。なお、以下の説明では、筐体１１２の四側面のうち、長尺な面を長尺面、短尺な面を短尺面と称する。

筐体１１２の上面における長尺な方向の一方端には、複数のボタンや表示画面からなる操作部１１４が設置されている。これら操作部１１４は筐体１１２内に設置されたメイン制御部１０に接続し、会議者からの操作入力を受け付けて、メイン制御部１０に出力するとともに、操作内容や実行モード等を表示画面に表示する。

筐体１１２における操作部１１４が設置された側の短尺面には、図示しないが、ネットワーク接続端子等の各種入出力インターフェース端子が設置されている。

筐体１１２の下面には、同形状からなるスピーカＳＰ１〜ＳＰ１６が設置されている。これらスピーカＳＰ１〜ＳＰ１６は長尺方向に沿って一定の間隔で直線状に設置されており、これによりスピーカアレイが構成される。筐体１１２の一方の長尺面には、同形状からなるマイクＭＩＣ１０１〜ＭＩＣ１１６が設置されている。これらマイクＭＩＣ１０１〜ＭＩＣ１１６は長尺方向に沿って一定の間隔で直線状に設置されており、これによりマイクアレイが構成される。また、筐体１１２の他方の長尺面にも、同形状からなるマイクＭＩＣ２０１〜ＭＩＣ２１６が設置されている。これらマイクＭＩＣ２０１〜ＭＩＣ２１６も長尺方向に沿って一定の間隔で直線状に設置されており、これによりマイクアレイが構成される。そして、筐体１１２の下面側には、これらスピーカアレイおよびマイクアレイを覆う形状で形成され、パンチメッシュされた下面グリル（図示せず）が設置されている。なお、本実施形態では、スピーカアレイのスピーカ数を１６本とし、各マイクアレイのマイク数をそれぞれ１６本としたが、これに限ることなく、仕様に応じてスピーカ数およびマイク数は適宜設定すればよい。また、各スピーカ間隔および各マイク間隔は一定ではなくてもよく、例えば、長尺方向に沿って中央部で密に配置され、両端部に向かうに従って疎に配置されるような態様でもよい。

音声会議装置１１１Ａ〜１１１Ｃは、図４に示すように、メイン制御部１０、通信制御部１１、放音制御部１２、Ｄ／Ａコンバータ１３、放音アンプ（ＡＭＰ）１４、収音アンプ（ＡＭＰ）１５、Ａ／Ｄコンバータ１６、収音制御部１７、エコーキャンセル部１８、音声信号補正部１９、リモコン送受信部２０、操作部１１４、スピーカＳＰ１〜ＳＰ１６、マイクＭＩＣ１０１〜ＭＩＣ１１６、ＭＩＣ２０１〜ＭＩＣ２１６、を備える。

メイン制御部１０は、音声会議装置１１１Ａ〜１１１Ｃの全体制御を行うとともに、操作部１１４から入力される電源オン／オフ等の制御に基づいて、装置の各種制御を行う。

マイクＭＩＣ１０１〜ＭＩＣ１１６、ＭＩＣ２０１〜ＭＩＣ２１６は、自装置の周囲に在席する話者からの発声音を含む周囲の音を収音して電気的な収音信号に変換し、収音アンプ１５に与える。収音アンプ１５は収音信号を増幅してＡ／Ｄコンバータ１６に与え、Ａ／Ｄコンバータ１６は、アナログ形式の収音信号をディジタル変換して、収音制御部１７に出力する。

収音制御部１７は、各マイクＭＩＣ１０１〜ＭＩＣ１１６，ＭＩＣ２０１〜ＭＩＣ２１６の収音信号に対して遅延処理等を行い、各会議者のいる方位を含む所定方位に強い指向性を有する収音ビーム信号を生成する。例えば、図１の音声会議装置１１１Ａであれば、会議者Ａの方位に対応する収音方位Ｄｉｒ１１、会議者Ｂの方位に対応する収音方位Ｄｉｒ１２、会議者Ｃの方位に対応する収音方位Ｄｉｒ１３、会議者Ｄの方位に対応する収音方位Ｄｉｒ１４、会議者Ｅの方位に対応する収音方位Ｄｉｒ１５、会議者Ｆの方位に対応する収音方位Ｄｉｒ１６、会議者Ｇの方位に対応する収音方位Ｄｉｒ１８を含む、所定の収音方位Ｄｉｒ１１〜Ｄｉｒ１８のそれぞれに強い指向性を有する収音ビーム信号を生成する。収音制御部１７は、生成した各方位の収音ビーム信号の振幅を比較し、最も振幅の大きい収音ビーム信号を選択して、エコーキャンセル部１８に出力する。また、収音制御部１７は、選択した収音ビーム信号に対応する収音方位Ｄｉｒを抽出して、話者方位データとしてメイン制御部１０に与える。メイン制御部１０は、この話者方位データを通信制御部１１に与える。

エコーキャンセル部１８は、二つのエコーキャンセラ１８１，１８２からなり、各エコーキャンセラ１８１，１８２はそれぞれ適応型フィルタとポストプロセッサとを備える。エコーキャンセラ１８１は、適応型フィルタで音声信号Ｓ１に基づく擬似回帰音信号を生成して、ポストプロセッサで収音制御部１７から出力された収音ビーム信号から、音声信号Ｓ１の擬似回帰音信号を減算して、エコーキャンセラ１８２のポストプロセッサに出力する。エコーキャンセラ１８２は、適応型フィルタで音声信号Ｓ２に基づく擬似回帰音信号を生成して、ポストプロセッサで減算された収音ビーム信号から、音声信号Ｓ２の議事回帰音信号を減算して、音声信号補正部１９に出力する。これにより、スピーカＳＰからマイクＭＩＣへの回り込み音を抑圧する。

音声信号補正部１９は、エコーキャンセル後の収音ビーム信号に、必要に応じて話速変換処理を行うことで音声通信信号を生成する。話速変換処理の要否、話速変換量は、メイン制御部１０により指示される。音声信号補正部１９は、この音声通信信号を通信制御部１１に出力する。

通信制御部１１は、音声信号補正部１９からの音声通信信号に対して、メイン制御部１０からの話者方位データと、装置の認識データとなる装置データとを添付して、ネットワーク通信形式に変換し、ネットワーク１００を介して他の装置に送信する。

また、通信制御部１１は、ネットワーク１００を介して他の装置から音声ファイルを受信する。通信制御部１１は、受信した音声ファイルを、ネットワーク形式のデータから一般的な音声信号に変換して、エコーキャンセル部１８を介して放音制御部１２に出力する。ここで、通信制御部１１は、受け付けた音声ファイルに含まれる装置データおよび話者方位データから送信元の音声会議装置を同定して、それぞれの音声会議装置の音声信号毎に出力する。例えば、本実施形態の音声会議装置１１１Ａの場合、音声会議装置１１１Ｂからの音声信号Ｓ１と、音声会議装置１１１Ｃからの音声信号Ｓ２とを放音制御部１２に出力する。また、装置データおよび話者方位データは、メイン制御部１０にも入力される。

メイン制御部１０は、装置データ、話者方位データ、および自装置の各聴者の方位（例えば上記Ｄｉｒ１１〜Ｄｉｒ１８）を示す聴者の方位データ、およびリモコン送受信部２０から受け付けた「話速」の相対値（以下、放音調整データと言う）に基づいて、放音制御部１２が各スピーカＳＰ１〜ＳＰ１６に与える音声信号をコントロールする。放音制御部１２は、メイン制御部１０の制御に従って、入力された音声信号に対して話速変換処理や遅延処理を行って、音声会議装置の周りに在席する各会議者へ個別の特性で強い指向性を有する放音ビームを形成するように、各スピーカＳＰ１〜ＳＰ１６に対応する放音信号を生成する。

各Ｄ／Ａコンバータ１３は、入力された放音信号をディジタル−アナログ変換して、各放音アンプ１４に与え、各放音アンプ１４はアナログ化された放音信号を増幅して、各スピーカＳＰ１〜ＳＰ１６に与える。各スピーカＳＰ１〜ＳＰ１６は、入力された電気的な音声信号を音声に変換して放音する。

これにより、他装置から送信された発話者の音声は、各会議者へ同時に且つ個別に、受け付けられた放音調整データに対応する放音音声で提供される。すなわち、各会議者に対して、それぞれに適切な話速で音声を放音することができる。

一方、放音時には、メイン制御部１０は、リモコン送受信部２０を介して放音調整データを受け付けると、当該放音調整データに、聴者の方位データと対応する話者方位データを関連付けして通信制御部１１に与える。通信制御部１１は、話者方位データ、およびこれに関連付けられた放音調整データをネットワーク１００を介してネットワークサーバ１０１に送信する。ネットワークサーバ１０１では、各音声通信装置から受信した放音調整データを集計する。

図５に示すように、ネットワークサーバ１０１は、ネットワーク制御部１０２と会議情報記憶部１０３とを備える。
ネットワーク制御部１０２はネットワーク１００全体の制御を行う。また、各装置から送信された上記放音調整データを会議情報記憶部１０３に記録する。会議情報記憶部１０３は、現在会議に参加している会議者数を記憶し、放音調整データに基づく調整内容を記憶する。また、通信会議装置間で送受信された音声を、議事録として音声ＤＢに記憶する。ネットワーク制御部１０２は、会議情報記憶部１０３に記憶された各情報に基づき、特定話者に対する話速変換の要求数が所定閾値以上であれば、その話者の収音音声を話速変換するように指示する収音話速変換データを生成して、各音声会議装置に送信する。この際、収音話速変換データには、話速変換の対象となる音声会議装置を示す装置データと対象の話者方位データとが添付される。なお、この収音話速変換データの送信履歴も会議情報記憶部１０３に記憶される。

各音声通信装置のメイン制御部１０は、収音時に、ネットワークサーバ１０１から与えられた収音話速変換データが自装置に対応するものであるかを検出する。そして、自装置に対する収音話速変換データであれば、当該収音話速変換データを音声信号補正部１９に与える。音声信号補正部１９は、メイン制御部１０からの収音話速変換データと話者方位データとに基づいて、指定された特定話者に対応するエコーキャンセル後の収音ビーム信号に、話速変換処理を行い、音声通信信号を生成する。

また、メイン制御部１０は、放音時には、リモコン送受信部２０から受け付けた放音調整データと、ネットワークサーバ１０１から与えられる収音話速変換データとに基づいて、放音制御データを生成する。この放音制御データとしては、前記収音話速変換データに含まれる話速変換相対値から放音調整データに含まれる話速変換相対値を差分したもの等を用いる。そして、メイン制御部１０は、この放音制御データを放音制御部１２に与える。

なお、収音話速変換データが、自装置を対象とするものではなく、ネットワーク１００に接続する他装置を対象とするものであれば、メイン制御部１０は、収音話速変換データを音声信号補正部１９には与えず、音声信号補正部１９は、入力された収音ビーム信号をそのまま音声通信信号として出力する。このような構成を用いることで、他の各音声会議装置で個別に放音調整せずに、収音側の音声会議装置で音声を話速変換して送信することができる。すなわち、収音側の音声会議装置で、他の各音声会議装置の会議者に対して一括して音の補正（話速変換）を行うことができる。

次に、音声通信システムの具体的な動作について説明する。
図６はネットワークサーバ１０１の収音話速変換設定フローを示すフローチャートである。

ネットワーク制御部１０２は、ネットワーク１００を介して各音声会議装置から放音調整データを順次受信する（Ｓ２０１）。また、同時に、ネットワーク制御部１０２は、それぞれの放音調整データに対応する話者方位データ（装置データを含む）を検出する（Ｓ２０２）。ここで、話者方位データとは、送信元の音声会議装置から送信される音声ファイルに添付された特定話者を指定する方位データであり、放音調整データを取得した時点で、ネットワーク１００にて送受信される音声ファイルから取得する。

ネットワーク制御部１０２は、各放音調整データを解析して、放音調整内容を取得して、話者方位データに関連付けして調整内容ＤＢに記憶する（Ｓ２０３）。ここで、放音調整内容とは、発信元方位データ、および話速変換設定量で表され、話速変換設定量は、現在値に対する大小により設定される。なお、発信元方位データとは、放音調整データが発信された聴者の方位を特定する方位データであり、各音声会議装置からの放音調整データに関連付けして送信されるものである。

ネットワーク制御部１０２は、話者方位データ毎に発信元方位データ数をカウントして、同じ話者方位データに対する発信元方位データが所定閾値以上であることを検出すると（Ｓ２０４）、該当する話者方位データに対応する方位からの音声を収音時に話速変換する収音話速変換データを生成する（Ｓ２０５）。この収音話速変換データは、装置データを含む話速変換対象方位データ、および「話速」を備え、「話速」とは、放音調整データと同様に現在値に対する相対値で設定される。なお、本説明では特定の話者方位データに対する発信元方位データ数が所定閾値以上になる場合に収音話速変換データを生成する例を示したが、予め記憶している会議者数に基づき、発信元方位データ数が会議者数の過半数に達した場合に収音話速変換データを生成するようにしてもよい。なお、ネットワーク制御部１０２は、収音話速変換データを生成すると、会議情報記憶部１０３に記録する。

ネットワーク制御部１０２は、ネットワーク１００を介して、収音話速変換データを各音声会議装置１１１Ａ〜１１１Ｃに送信する（Ｓ２０６）。

次に、音声会議装置における放音調整および収音話速変換のより具体的な方法について図を参照して説明する。
図７は音声会議装置の放収音処理を示すフローチャートである。
各音声会議装置１１１は、通信制御部１１での音声ファイルの受信状況、および、収音制御部１７での収音状況に基づいて、自装置が収音状態、放音状態、待受状態のいずれの状態であるかを判断する（Ｓ１）。ここで、放音状態であれば以下に示す放音処理を行い、収音状態であれば以下に示す収音処理を行い、待受状態であれば放音状態または収音状態になるまで状態検出を繰り返す。

このような放音、収音、待受処理の状態で、ネットワークサーバ１０１から収音話速変換データを受信したり、会議者（リモコン）から放音制御の操作入力が行われると、音声会議装置は、図８に示す割込処理を実行する。
図８は音声会議装置の放音調整変更、収音話速変換変更の割込処理を示すフローチャートである。
音声会議装置１１１は、電源ＯＮ状態であれば、放音、収音、待受のいずれの状態であっても、随時ネットワークサーバ１０１およびリモコン１２０からの割り込み処理を受け付けられる状態で動作する。そして、音声会議装置１１１は割込を検出すると（Ｓ１０１）、当該割込処理の種別を判別する（Ｓ１０２）。

具体的には、リモコン１２０からのリモコン通信信号を検出すると、音声会議装置１１１はユーザ割込であることを検出する。そして、音声会議装置１１１は、リモコン１２０により設定された放音調整内容を受け付ける（Ｓ１０３）。この際、音声会議装置１１１は、装置周囲に配置されたいずれのリモコン１２０からのリモコン通信信号であるかを同時に検出する。

音声会議装置１１１は、放音を行う各方位（会議者方位）に対してそれぞれ放音調整フラグを備えている。音声会議装置１１１は、送信元のリモコン１２０に対応する方位に対して、放音調整フラグをＯＮ状態にする（Ｓ１０４）。

そして、音声会議装置１１１は、受け付けた放音調整内容から放音調整データを生成して記憶し（Ｓ１０５）、放音調整データと発信元の方位データとを関連付けして、通信制御部１１を介してネットワークサーバ１０１に送信する（Ｓ１０６）。

一方、通信制御部１１にてネットワークサーバ１０１からの収音話速変換データを検出すると、音声会議装置１１１はサーバ割込であることを検出し、受信した収音話速変換データを受け付ける（Ｓ１０７）。音声会議装置１１１は、収音話速変換データを解析して、装置データから自装置を対象とする収音話速変換データであるかどうかを検出する（Ｓ１０８）。

音声会議装置１１１は、自装置を対象とする収音話速変換データであれば、収音話速変換データから話者方位データを取得する。音声会議装置１１１は、各方位に対してそれぞれ収音話速変換フラグを備えており、取得した話者方位データに対応する方位に対して収音話速変換フラグをＯＮ状態にする（Ｓ１０９）。そして、音声会議装置１１１は収音話速変換データを記憶する（Ｓ１１０）。

このように、音声会議装置１１１は、放音時には放音調整内容に基づいて放音調整フラグを設定し、収音時には自装置が話速変換対象であれば収音話速変換フラグを設定する。

図７に示すフローに戻り、自装置が放音状態であることを検出すると、音声会議装置１１１のメイン制御部１０は、ネットワークサーバ１０１から収音話速変換データを取得しているかどうかを検出する（Ｓ２）。メイン制御部１０は、収音話速変換データを取得して記憶していれば、放音を行う各方位に対して放音調整データを受け付けているかどうかを検出する（Ｓ４）。メイン制御部１０は、放音調整データを受け付けていなければ、すなわち全ての方位に対して放音調整フラグがＯＦＦ状態であることを確認すれば、収音話速変換データに基づいて、放音をする全方位に対して同等の話速変換量からなる放音制御データを生成し、放音制御部１２に与える（Ｓ６）。

また、メイン制御部１０は、放音調整データを受け付けていれば、収音話速変換データによる話速変換量を基準量として、該基準量から放音調整データに基づく話速変換量を差分した差分値を、放音調整フラグがＯＮ状態にある方位毎に設定することで放音制御データを生成し、放音制御部１２に与える（Ｓ７）。すなわち、放音調整データを受け付けた方位（放音調整フラグがＯＮ状態の方位）には、差分値に基づく話速変換を行い、放音調整データを受け付けていない方位（放音調整フラグがＯＦＦ状態の方位）には、収音話速変換データに基づく話速変換を行う放音制御データを与える。

また、メイン制御部１０は、収音話速変換データがない場合にも、放音を行う各方位に対して放音調整データを受け付けているかどうかを検出する（Ｓ５）。メイン制御部１０は、放音調整データを受け付けていなければ、すなわち、全方位に対して放音調整フラグがＯＦＦ状態であれば、全方位に対して受信した音声通信信号をそのまま放音する放音制御データを生成し、放音制御部１２に与える。なお、この場合、特に放音制御データを与えなくても良い。

また、メイン制御部１０は、収音話速変換データが無い場合で、放音調整データを受け付けている場合には、放音調整フラグがＯＮ状態である各方位の話速変換量を設定した放音制御データを生成して、放音制御部１２に与える（Ｓ８）。すなわち、放音調整データを受け付けた方位（放音調整フラグがＯＮ状態の方位）には、放音調整データに基づく話速変換を行い、放音調整データを受け付けていない方位（放音調整フラグがＯＦＦ状態の方位）には、そのまま放音する放音制御データを与える。

放音制御部１２は、与えられた放音制御データに基づいて音声信号を話速変換した後に、各方位へ所望の放音ビームが形成されるように、各スピーカＳＰ１〜ＳＰ１６に与える放音信号を生成して出力する（Ｓ１１）。

ここで、話速変換処理について詳細に説明する。話速変換処理は、単に音声信号を低速で出力するのではなく、以下のようにして行う。すなわち、話速変換処理は、音声信号を１周期の波形に切りわけ、各周期波形の前後１区間を合成した新たな周期波形を生成し、各周期波形の間に新たに合成した周期波形を挿入することで信号の周期波形数を増やして、音程を保ちつつ信号を時間伸長する処理である。

図９（Ａ）は伸長処理の手順を示すフローチャートである。また、同図（Ｂ）は伸長方法を説明する図である。同図（Ａ）において、まず入力音声信号の先頭部分の１周期のサンプル数（サンプリング周波数×１／信号周波数）を検出する（ｓ９１）。この１周期分のサンプルデータである周期波形を２つ取り出して、同図（Ｂ）に示すように、１つめの周期波形Ａに対して減衰利得係数を乗算することによって減衰波を作成し、２つめの周期波形Ｂに対して増加利得係数を乗算することによって増加波を作成する（ｓ９２）。そして、これらを加算合成することによってＡとＢの中間の形状の周期波形を合成する（ｓ９３）。この合成波形を図１０（Ａ）に示すように周期波形Ａと周期波形Ｂとの間に挿入して出力する（ｓ９４）ことによって音響的に自然な時間伸長を行う。

なお、音声データを圧縮する場合には、図１０（Ｂ）に示すように、上記ｓ９３で合成したＡとＢの中間の形状の合成波形を周期波形Ａ，Ｂに代えて出力することにより、音声データを時間軸方向に１／２倍に圧縮することができる。

また、この話速変換処理を行う周期を規定することで、変換速度を可変とすることができる。例えば、図１０（Ｃ）に示すように、周期毎に周期波形を２つ合成し、各周期波形の間に挿入することで、音声データを時間軸方向に２倍に伸長することができ、同図（Ｄ）に示すように、２周期毎に周期波形を２つ合成することで、３／２倍に伸長することができる。これらの伸長率が上記話速変換設定量（相対値）に対応している。例えば話速変換量＋５は２倍伸長、＋４は３／２倍伸長、＋３は４／３倍伸長、＋２は５／４倍伸長、＋１は６／５倍伸長、といった様に対応している。

また、話速変換は、音声区間の先頭部分（例えば７００ｍｓｅｃ）のみを伸長して、それ以後を通常速度で出力するようにし、必要以上に伸長しないようにする。なお、先頭部分を伸長し、それ以後を圧縮するようにしてもよい。音声区間、雑音区間の区別は、音声信号の周期性から判断すればよい。例えば、音声信号を所定長に分割して対応するサンプルデータを乗算または減算するなどして相関値を算出する。図１１に示すように、この相関値が所定閾値よりも低い場合に雑音区間、高い場合に音声区間と判断する。音声等の周期性の多い音声信号の場合
相関値は高くなり、雑音等の周期性の少ない音声信号の場合相関値は低くなる。

なお、本実施形態では、音声区間の先頭部分７００ｍｓｅｃについて話速変換する例を示したが、さらに長い区間長を話速変換するようにしてもよいし、短い区間長を話速変換するようにしてもよい。また、話速変換設定量に応じて、話速変換を行う区間長を変更するようにしてもよい。例えば、話速変換量＋５は７００ｍｓｅｃ、＋４は６００ｍｓｅｃ、＋３は５００ｍｓｅｃといった様に区間長を設定してもよい。また、話速変換を行う区間中でも、伸長率を変更するようにしてもよい。例えば、区間長が７００ｍｓｅｃであった場合に、最初の６００ｍｓｅｃを２倍伸長、続く１００ｍｓｅｃを３／２倍伸長といった伸長率で話速変換する。

次に、図７のｓ１において、自装置が収音状態であることを検出すると、音声会議装置１１１のメイン制御部１０は、ネットワークサーバ１０１から収音話速変換データを取得しているかどうかを検出する（Ｓ３）。収音話速変換データを受け付けており、自装置に対する収音話速変換データであることを検出すると、すなわち、いずれかの方位に対して収音話速変換フラグがＯＮ状態であることを検出すると、メイン制御部１０は、収音話速変換データに基づく収音話速変換制御データを音声信号補正部１９に与える。音声信号補正部１９は、収音話速変換制御データが与えられていれば、収音話速変換フラグがＯＮ状態である方位からの収音ビーム信号を話速変換し（Ｓ９）、音声通信信号を生成する。

また、メイン制御部１０は収音話速変換データを取得していなければ、音声信号補正部１９に対して特に制御を行わない。音声信号補正部１９は、収音話速変換制御データが与えられていなけれれば、収音ビーム信号を話速変換せずに、そのまま音声通信信号として生成する。

通信制御部１１は、これらの音声通信信号に話者方位データおよび装置データを添付してネットワーク１００に送信する（Ｓ１０）。

次に、このような構成を用いた場合の実際の放収音の状況を、図１、図１２〜図１５を参照して説明する。
なお、以下の説明では、地点ｂの会議者Ｊの声が聴き取り難い状況を例に示したものである。

（１）放音調整個別対応
図１２は放音調整個別対応の場合の放収音状況を示した図である。

図１２に示すように、地点ｂの会議者Ｊが発言中に、地点ａの会議者Ａと会議者Ｇとがリモコン１２０を操作して放音調整を行った場合、地点ａの音声会議装置１１１Ａは、各リモコン１２０で操作された放音調整内容を取得する。この場合、会議者Ａに対して、話速を「＋４」にする放音調整内容と、会議者Ｇに対して、話速を「＋２」にする放音調整内容とを取得する。音声会議装置１１１Ａは、これら放音調整内容を放音調整データとして、ネットワークサーバ１０１に送信するとともに、会議者Ａ，Ｇのそれぞれに該当する方位Ｄｉｒ１１，Ｄｉｒ１８に対して放音調整フラグをＯＮに設定する。そして、音声会議装置１１１Ａは、受信した音声通信信号から話者データを取得して、会議者Ｊの声であることを検出すると、方位Ｄｉｒ１１，Ｄｉｒ１８への放音音声を、それぞれの放音調整内容に従って話速変換して放音する。

これにより、会議者Ａ，Ｇには、会議者Ｊの声が、指定した話速変換量に従って話速変換（伸長）された状態で聴くことができる。会議者Ａには、話速が「４」遅く、すなわち３／２倍伸長された状態で会議者Ｊの声が聞こえる。会議者Ｇには、話速が「２」遅く、すなわち５／４倍伸長された状態で会議者Ｊの声が聞こえる。他の会議者（地点ａの会議者Ｂ〜会議者Ｆ、地点ｃの会議者Ｍ〜会議者Ｑ）には、会議者Ｊの声が調整されることなく、そのまま聞こえる。

この場合、放音調整を行った会議者が、全体の会議者に対して少数派であるので、ネットワークサーバ１０１は、会議者Ｊの音声を収音時に一括して話速変換する制御を行わない。

このように、特定会議者（話者）に対して放音調整を行う会議者（聴者）数が極少ない場合には、それぞれの聴者がいる音声会議装置で聴者毎に話速変換を行う。これにより、話速変換したい聴者にのみ話速変換量に応じた放音を行うことができる。

（２）収音話速変換一括対応
図１３、図１４は、収音話速変換一括対応の場合の放収音状況を示した図であり、図１３が一括話速変換前、図１４が一括話速変換後の状況を示す。

図１３に示すように、地点ｂの会議者Ｊが発言中に、地点ａの会議者Ａと会議者Ｇとがそれぞれのリモコン１２０を操作して放音調整を行った場合、地点ａの音声会議装置１１１Ａは、各リモコン１２０で操作された放音調整内容を取得する。この場合、会議者Ａに対して、話速を「＋４」にする放音調整内容を取得し、会議者Ｇに対して、話速を「＋２」にする放音調整内容を取得する。音声会議装置１１１Ａは、これら放音調整内容を放音調整データとして、ネットワークサーバ１０１に送信するとともに、会議者Ａ，Ｇのそれぞれに該当する方位Ｄｉｒ１１，Ｄｉｒ１８に対して放音調整フラグをＯＮに設定する。

同様に、地点ｃの会議者Ｍと会議者Ｎと会議者Ｑとがそれぞれのリモコン１２０を操作して放音調整を行った場合、地点ｃの音声会議装置１１１Ｃは、各リモコン１２０で操作された放音調整内容を取得する。この場合、会議者Ｍに対して、話速を「＋１」にする放音調整内容を取得し、会議者Ｎに対して、話速を「＋２」にする放音調整内容を取得し、会議者Ｑに対して、話速を「＋１」にする放音調整内容を取得する。音声会議装置１１１Ｃは、これら放音調整内容を放音調整データとして、ネットワークサーバ１０１に送信するとともに、会議者Ｍ，Ｎ，Ｑにそれぞれ該当する方位Ｄｉｒ３１，Ｄｉｒ３４，Ｄｉｒ３８に対して放音調整フラグをＯＮに設定する。そして、音声会議装置１１１Ａ，１１１Ｃは、受信した音声通信信号から話者データを取得して、会議者Ｊの声であることを検出すると、方位Ｄｉｒ１１，Ｄｉｒ１８，Ｄｉｒ３１，Ｄｉｒ３４，Ｄｉｒ３８への放音音声を、それぞれの放音調整内容に従って話速変換して放音する。

これにより、会議者Ａ，Ｇ，Ｍ，Ｎ，Ｑには、会議者Ｊの声が、指定した放音調整内容に従って話速変換された状態で聴ける。会議者Ａには、話速が「４」遅く、すなわち３／２倍伸長された状態で会議者Ｊの声が聞こえる。会議者Ｇには、話速が「２」遅く、すなわち５／４倍伸長された状態で会議者Ｊの声が聞こる。また、会議者Ｍには、話速が「１」遅く、すなわち６／５倍伸長された状態で会議者Ｊの声が聞こえる。会議者Ｎには、話速が「２」大きく、すなわち５／４倍伸長された状態で会議者Ｊの声が聞こえる。会議者Ｍには、話速が「１」大きく、６／５倍伸長された状態で会議者Ｊの声が聞こえる。

ネットワークサーバ１０１は、会議者Ｊに対する放音調整データの数が、会議者数の過半数を超えたことを検出すると、これら放音調整データの各話速変換量を取得し、平均値処理する。図１３の例であれば、話速が「＋２」と算出される。ネットワークサーバ１０１は、このように算出した各調整量を用いて収音話速変換データを生成し、話速変換対象となる話者データ（方位データ）を添付して各音声会議装置１１１Ａ〜１１１Ｃに与える。

話速変換対象の会議者Ｊが在席する音声会議装置１１１Ｂは、受信した収音話速変換データに基づいて、会議者Ｊから収音した収音ビーム信号を話速変換して、ネットワーク１００に送信する。この例では、会議者Ｊの収音ビーム信号の話速を「＋２」として５／４倍伸長して送信する。

このままでは、音声会議装置１１１Ａ，１１１Ｃで放音調整済みの方位では、放音調整内容と収音話速変換内容とが加算された状態で放音されるので、必要以上に話速変換された音となってしまう。

そこで、音声会議装置１１１Ａは、受信した収音話速変換データの各話速変換量と予め設定記憶した放音調整データの各話速変換量とを差分し、この差分値により設定される話速変換量から話速変換を行う。具体的には、図１４に示すように、会議者Ａには、話速「４−２」＝「＋２」に話速変換量を変更する。会議者Ｇには、話速「２−２」＝「０」に話速変換量を変更する。そして、この変更された話速変換量に基づいて、話速変換された状態（話速「＋２」）の音声通信信号を放音調整する。これにより、会議者Ａ，Ｇは、自身が調整した内容に応じた会議者Ｊの声を聞くことができる。

また、音声会議装置１１１Ｃは、音声会議装置１１１Ａと同様に、差分値により設定される話速変換量から放音調整を行う。具体的には、会議者Ｍには、話速「１−２」＝「−１」に話速変換量を変更する。話速変換量が「−１」の場合は、５／６倍に圧縮処理を行う。会議者Ｎには、話速「２−２」＝「０」に話速変換量を変更する。つまり、話速変換を行わない。会議者Ｑには、話速「１−２」＝「−１」に話速変換量を変更する。そして、この変更された話速変換量に基づいて、話速変換された状態（話速「＋２」）の音声通信信号を話速変換する。これにより、会議者Ｍ，Ｎ，Ｑも、自身が調整した内容に応じた会議者Ｊの声を聞くことができる。

また、他の会議者（地点ａの会議者Ｂ〜会議者Ｆ、地点ｃの会議者Ｐ）には、会議者Ｊの声が、収音側で話速変換された状態で聞こえる。

これにより、放音調整した各会議者（聴者）には、会議者（聴者）が設定した話速で話者の音声を聞かせることができ、放音調整していない会議者（聴者）に対しても話速変換された聴き取り易いであろう音で話者の音声を聞かせることができる。

なお、上記例においては、各話速変換量を取得し、平均値処理する例について説明したが、最も話速変換量の小さい値を収音話速変換データに採用するようにしてもよい。この場合、放音側の話速変換量の差分値は必ずプラスとなるため、一度伸長した音声信号が放音調整によって元通りに圧縮されることがなくなり、音質の低下を防止することができる。

なお、放音調整を行っていない会議者は、会議者Ｊの声を聴き取りにくいとは感じていない場合もある。

この場合、図１５に示すように、放音調整していない会議者に対して逆変換（圧縮処理）をかけるようにしてもよい。

図１５は、図１３、図１４と同様な場合で且つ逆変換を行う場合の放収音状況を示した図である。

放音調整した会議者に対する放音調整の方法は、図１３の場合と同じであるので説明は省略する。

音声通信信号を受信する側の音声会議装置１１１Ａ，１１１Ｃは、ネットワークサーバ１０１から収音話速変換データを取得すると、当該収音話速変換データの各話速変換量を逆に変換する逆話速変換用放音調整データを生成する。図１５の例であれば、話速変換量である話速「＋２」に対して、逆話速変換量として、話速「−２」を設定する。

音声会議装置１１１Ａは、図１３の場合と異なり、全ての会議者Ａ〜Ｇに対応する方位Ｄｉｒ１１〜Ｄｉｒ１６，Ｄｉｒ１８に対して放音調整フラグをＯＮにし、放音調整が指定されていない会議者Ｂ〜Ｆに対しては、逆話速変換用放音調整データを適用する。これにより、会議者Ｂ〜Ｆには、話速変換される前の通常速度の会議者Ｊの音声を聞かせることができる。同様に、音声会議装置１１１Ｃも、放音調整が指定されていない会議者Ｐに対しては、逆話速変換用放音調整データを適用する。これにより、会議者Ｐにも、話速変換される前の通常速度の会議者Ｊの音声を聞かせることができる。

これにより、放音調整を行っていない人は、会議者Ｊの声が聴き取り難い訳ではないという判断があるものとして、そのままの音声を放音することができる。

なお、このような調整不必要の場合、リモコン１２０の調整不必要のボタンやコマンドを予め設けておけば、調整不必要かどうかをより明確に判断することができる。

また、図１６に示すように、収音側の音声会議装置１１１Ｂが、収音した収音ビーム信号を話速変換してネットワーク１００に送信するとともに、話速変換を行わない信号を同時送信するようにしてもよい。この場合、音声会議装置１１１Ａは、放音調整が指定されていない会議者Ｂ〜Ｆに対しては、受信した２つの信号のうち、話速変換が行われていない信号を放音に用いる。これにより、会議者Ｂ〜Ｆには、話速変換される前の通常速度の会議者Ｊの音声を聞かせることができる。同様に、音声会議装置１１１Ｃも、放音調整が指定されていない会議者Ｐに対しては、話速変換が行われていない信号を放音に用いる。これにより、会議者Ｐにも、話速変換される前の通常速度の会議者Ｊの音声を聞かせることができる。なお、この場合、図５で示したネットワークサーバ１０１で会議情報記憶部１０３に記憶される音声は、送信側で話速変換を行わない信号を記憶するようにすればよい。

以上のように、本実施形態の構成および処理を用いることにより、遠隔地間で会議を行うような場合に、比較的簡素なシステムで、特定話者の声を聴者毎に違う話速で聞かせることができる。

なお、前述の説明では、話速以外の調整例を示さなかったが、その他、音量、音質等の調整を行うようにしてもよい。また、予め聴き取りやすい声質を記憶しておき、適宜声質を選択することで、選択した声質で話者の音声を放音することもできる。例えば、テレビアナウンサーのフォルマント情報を記憶しておき、この声質が選択されれば、特定話者の音声をフォルマント変換して放音すればよい。

また、前述の説明において、ネットワークサーバ１０１は、収音話速変換データや放音調整データを対応する話者方位データとともに、会議情報記憶部１０３に記憶しておいても良い。そして、次回以降、同じメンバで会議が行われる場合に、ネットワークサーバ１０１は、この話者方位データと収音話速変換データ、放音調整データを読み出して、音声会議装置１１１Ａ〜１１１Ｃに送信する。各音声会議装置１１１Ａ〜１１１Ｃは、取得した収音話速変換データ、放音調整データに基づいて、収音、放音する。これにより、次回以降は、会議の最初から、各会議者が自分の好みの音声で話者の発言を聞くことができる。

本発明の実施形態の音声会議システムの構成図図１に示す音声会議システム中の地点ａの構成を示す図およびリモコン装置１２０（１２０Ａ〜１２０Ｇ）の平面図本発明の実施形態の音声会議装置１１１（１１１Ａ〜１１１Ｃ）の両側面図と底面図図３に示す音声会議装置の主要構成を示すブロック図本発明の実施形態のネットワークサーバ１０１の主要構成を示すブロック図ネットワークサーバの収音話速変換設定フローを示すフローチャート音声会議装置の放収音処理を示すフローチャート音声会議装置の放音調整変更、収音話速変換変更の割込処理を示すフローチャート話速変換処理を示す図伸長率を変更する場合の話速変換処理を示す図入力音声データの相関値の計算例を示す図放音調整個別対応の場合の放収音状況を示した図収音話速変換一括対応の場合の一括話速変換前の放収音状況を示した図収音話速変換一括対応の場合の一括話速変換後の放収音状況を示した図図１３、図１４と同様な場合で且つ逆補正を行う場合の放収音状況を示した図収音側で話速変換を行わない信号を同時送信する場合の放収音状況を示した図

符号の説明

１００−ネットワーク
１０１−ネットワークサーバ
１１１Ａ，１１１Ｂ，１１１Ｃ−音声会議装置

Claims

複数のスピーカを配列してなるスピーカアレイと、
放音される音声信号の話速変換量の設定を複数のユーザ方向毎に受け付ける操作受付手段と、
前記複数のユーザ方向毎に放音ビームを形成するとともに、前記操作受付手段で受け付けた前記ユーザ方向毎の話速変換量に基づき、指定されたユーザ方向への放音ビームを調整するように、入力した音声信号を話速変換、および遅延して前記複数のスピーカに与える放音制御手段と、
を備えた音声通信装置。
複数のマイクを配列してなるマイクアレイと、
前記複数のユーザ方向に対して収音ビームを形成するとともに、該収音ビーム強度を比較することで話者方位を同定し、話者方位とともに該話者方位の収音ビームに基づく音声信号を所定の話速変換量で話速変換して外部に出力する収音制御部と、
を備えた請求項１に記載の音声通信装置。
サーバ装置、および複数の請求項２に記載の音声通信装置を相互に接続した音声通信システムであって、
各音声通信装置は、前記操作受付部が受け付けた話速変換量を、前記サーバ装置に送信するサーバ通信部を備え、
前記サーバ装置は、各音声通信装置から送られてきた話速変換量に基づき、各話者方位毎の基本話速変換量を決定して各音声通信装置に配信する話速変換量決定手段を備え、
前記音声通信装置のサーバ通信部は、さらにサーバ装置から前記基本話速変換量を受信し、
前記収音制御部は、前記話者方位の収音ビームに基づく音声信号を、前記サーバ装置から受信した基本話速変換量で話速変換して外部に出力する音声通信システム。
各音声通信装置の放音制御部は、他の装置から入力した話者方位毎の音声信号を、前記操作受付部で受け付けたユーザ方向毎の話速変換量と前記基本話速変換量の差分の話速変換量で、前記ユーザ方向毎に話速変換する請求項３に記載の音声通信システム。
各音声通信装置の放音制御部は、他の装置から入力した話者方位毎の音声信号を、話速変換量を受け付けていないユーザ方向について、前記基本話速変換量を打ち消す話速変換量で話速変換する請求項４に記載の音声通信システム。
各音声通信装置の収音制御部は、前記外部に出力する音声信号を、話速変換してから出力するとともに、話速変換しない音声信号も同時出力し、
前記放音制御部は、話速変換量を受け付けていないユーザ方向について、他の装置から入力した前記話速変換しない音声信号で、話速変換せずに放音ビームを生成する請求項４に記載の音声通信システム。