JP2008034979A - 音声通信装置、および音声通信システム - Google Patents
音声通信装置、および音声通信システム Download PDFInfo
- Publication number
- JP2008034979A JP2008034979A JP2006203820A JP2006203820A JP2008034979A JP 2008034979 A JP2008034979 A JP 2008034979A JP 2006203820 A JP2006203820 A JP 2006203820A JP 2006203820 A JP2006203820 A JP 2006203820A JP 2008034979 A JP2008034979 A JP 2008034979A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- conference
- voice
- sound emission
- speed conversion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephonic Communication Services (AREA)
Abstract
【課題】休止区間長に影響されず、話速変換により発生した時間遅れを解消することができる音声通信システム、およびこの音声通信システムに用いる音声通信装置を提供する。
【解決手段】地点bの会議者Jの声が聴き取り難いと、地点aの会議者A,Gが話速変換調整を行う。音声会議装置111Aは、スピーカアレイの各スピーカから放音される音声の相対関係を調整することで、会議者A,Gに対応する方位Dir11,Dir18への放音音声のみをそれぞれの話速変換量に基づいて話速変換する。このとき、それぞれの音声について、放音開始前に話速変換量に応じた所定のレイテンシを挿入し、放音終了のタイミングを略一致させる。
【選択図】図1
【解決手段】地点bの会議者Jの声が聴き取り難いと、地点aの会議者A,Gが話速変換調整を行う。音声会議装置111Aは、スピーカアレイの各スピーカから放音される音声の相対関係を調整することで、会議者A,Gに対応する方位Dir11,Dir18への放音音声のみをそれぞれの話速変換量に基づいて話速変換する。このとき、それぞれの音声について、放音開始前に話速変換量に応じた所定のレイテンシを挿入し、放音終了のタイミングを略一致させる。
【選択図】図1
Description
この発明は、ネットワークを介して相互に音声信号を通信することで遠隔地会議などを行う音声通信システム、およびこの音声通信システムで用いる音声通信装置に関するものである。
従来から、話速変換の機能を使用して、発話者の発声速度を遅くし、発言内容を聴きとり易くする装置が提案されている。また、最近では、話速変換機能を電話などの音声通信に組み込むことも検討されている。
しかし、双方向の対話型の場合、話速変換機能を使用すると、発声速度を遅くしたことによって聴者に聞こえる音声が実会話から遅れ、実会話に悪影響を与える可能性が有る。
そこで、発話内におけるセンテンスや文節の間にある息継ぎなどによって生じる短い音声休止区間に相当する音声信号の一部を圧縮または削除することにより、遅れた時間分を取り戻し、発言が終了したときには時間遅れが解消されるようにした装置が提案されている(例えば特許文献1参照)。
特許第3024099号公報
しかしながら、特許文献1の装置では、休止区間長以上の時間遅れが発生した場合にこれを解消することができなかった。
また、多地点間通信の音声会議を行う場合は、発話者が複数となることも有り、1対1の対話型に比べて休止区間がより短くなるため、時間遅れの解消がより困難となる可能性があった。
また、多地点間通信の音声会議を行う場合は、発話者が複数となることも有り、1対1の対話型に比べて休止区間がより短くなるため、時間遅れの解消がより困難となる可能性があった。
本発明は、休止区間長に影響されず、話速変換により発生した時間遅れを解消することができる音声通信システム、およびこの音声通信システムに用いる音声通信装置を提供することを目的とする。
(1)この発明の音声通信装置は、複数のスピーカを配列してなるスピーカアレイと、放音される音声信号の話速変換量の設定を複数のユーザ方向毎に受け付ける操作受付手段と、前記複数のユーザ方向毎に放音ビームを形成するとともに、前記操作受付手段で受け付けた前記ユーザ方向毎の話速変換量に基づき、指定されたユーザ方向への放音ビームを調整するように、入力した音声信号を話速変換、および遅延して前記複数のスピーカに与える放音制御手段と、前記操作受付手段で受け付けた各ユーザ方向の話速変換量、および全ユーザ方向のうち最大の話速変換量、との差に基づいて、前記複数のユーザ方向毎に、前記放音制御手段に入力する音声信号に、所定時間長の遅延を挿入する遅延挿入手段と、を備えたことを特徴とする。
この発明では、複数の聴者が話速変換を指定し、話速変換量を指定すると、音声通信装置は、各方位毎に話速変換操作を受け付ける。話速変換手段は、外部から入力された音声信号を各方位毎(放音ビーム毎)に時間軸に伸長して話速変換する。この際、遅延挿入手段は、受け付けた各方位の話速変換量、および全方位のうち最大の話速変換量、との差に基づいて、各方位毎に所定時間長の遅延を挿入する。最大の話速変換量と、その方位の話速変換量の差を求め、この話速変換量の差によって生じる各方位の音声放音の終了タイミングの時間差を補正するように遅延時間長を決定する。
(2)また、この発明の音声通信装置は、外部から入力される音声信号の入力終了タイミングを検出する入力音声監視手段を備え、前記遅延挿入手段は、前記入力音声監視手段が検出した音声信号の入力終了タイミングに基づいて、前記複数のユーザ方向毎に放音する音声の終了タイミングが略一致するように、前記遅延の時間長を変更することを特徴とする。
この発明では、外部から入力される音声信号を監視し、音声信号の入力終了を検出する。遅延挿入手段は、音声信号の入力終了時に、各方位毎の音声放音終了タイミングを計算し、各方位毎に挿入する遅延時間長を変更して放音終了タイミングを揃える。これにより、音声信号の入力時間長が長すぎて、挿入していた遅延では音声放音終了タイミングに依然として大きな時間差が生じる場合、入力時間長が短すぎて、話速変換量の大きい放音ビームが先に放音を終えてしまう場合、等においても放音終了タイミングを揃えることができる。
(3)また、この発明の音声通信装置は、前記放音制御手段は、前記入力音声監視手段が検出した音声信号の入力終了タイミングに基づいて、前記複数のユーザ方向毎に放音する音声の終了タイミングが略一致するように、話速変換量を変更することを特徴とする。
この発明では、放音制御手段は、音声信号の入力終了時に、各方位毎の音声放音終了タイミングを計算し、各方位毎の話速変換量を変更して放音終了タイミングを揃える。これにより、音声信号の入力時間長が長すぎて、挿入していた遅延では音声放音終了タイミングに依然として大きな時間差が生じる場合、入力時間長が短すぎて、話速変換量の大きい放音ビームが先に放音を終えてしまう場合、等においても放音終了タイミングを揃えることができる。
(4)この発明の音声通信システムは、サーバ装置、および複数の請求項1、請求項2、または請求項3に記載の音声通信装置を相互に接続した音声通信システムであって、各音声通信装置は、前記操作受付部が受け付けた話速変換量を、前記サーバ装置に送信するサーバ通信部を備え、前記サーバ装置は、各音声通信装置から送られてきた話速変換量に基づき、最大話速変換量を決定して各音声通信装置に配信する話速変換量決定手段を備え、前記音声通信装置のサーバ通信部は、さらにサーバ装置から前記最大話速変換量を受信し、前記遅延挿入手段は、前記操作受付部で受け付けた各ユーザ方向の話速変換量、および前記サーバ装置から受信した最大話速変換量、との差に基づいて、前記複数のユーザ方向毎に、前記放音制御手段に入力する音声信号に、所定時間長の遅延を挿入することを特徴とする。
この発明では、各音声通信装置が話速変換量をネットワークサーバに送信し、ネットワークサーバはこれを受信する。ネットワークサーバは、受信した話速変換量を比較し、最大の話速変換量を決定する。この最大話速変換量を各音声通信装置に送信する。遅延挿入手段は、受け付けた各方位の話速変換量、およびネットワークサーバから受信した最大話速変換量、との差に基づいて、各方位毎に所定時間長の遅延を挿入する。最大話速変換量と、その方位の話速変換量の差を求め、この話速変換量の差によって生じる各方位の音声放音の終了タイミングの時間差を補正するように遅延時間長を決定する。
この発明によれば、話速変換量に応じた遅延(レイテンシ)を各聴者毎に音声放音前に挿入することで、話速変換により生じた時間遅れを解消することができる。放音前に遅延を挿入する構成であるため、放音後の休止区間長に影響されずに時間遅れを解消する。
以下の実施形態では、具体的な音声通信システムの例として、音声会議システムについて、図を参照して説明する。
図1は、本実施形態の音声会議システムの構成図である。
図2(A)は図1に示す音声会議システム中の地点aの構成を示す図であり、(B)は図2(A)に示すリモコン装置120(120A〜120G)の平面図である。
図3は、音声会議装置111(111A〜111C)の外観を示す斜視図であり、図4は本実施形態の音声会議装置111の両側面図と底面図とを示す図である。図5は、図3、および図4に示す音声会議装置の主要構成を示すブロック図である。
図6は本実施形態のネットワークサーバ101の主要構成を示すブロック図である。
図2(A)は図1に示す音声会議システム中の地点aの構成を示す図であり、(B)は図2(A)に示すリモコン装置120(120A〜120G)の平面図である。
図3は、音声会議装置111(111A〜111C)の外観を示す斜視図であり、図4は本実施形態の音声会議装置111の両側面図と底面図とを示す図である。図5は、図3、および図4に示す音声会議装置の主要構成を示すブロック図である。
図6は本実施形態のネットワークサーバ101の主要構成を示すブロック図である。
本実施形態の音声会議システムは、ネットワーク100に接続された音声会議装置111A〜111Cと、ネットワークサーバ101とを備える。
音声会議装置111A〜111Cは、それぞれ離れた地点a〜cにそれぞれ配置されている。地点aには音声会議装置111Aが配置され、地点bには音声会議装置111Bが配置され、地点cには音声会議装置111Cが配置されている。
地点aには、音声会議装置111Aが配置されており、該音声会議装置111Aを囲むように、会議者A〜Gの7人が、音声会議装置111Aに対してそれぞれ方位Dir11〜Dir16,Dir18で在席している。地点bには、音声会議装置111Bが配置されており、該音声会議装置111Bを囲むように、会議者H〜会議者Lの5人が、音声会議装置111Bに対して、それぞれ方位Dir21,Dir22,Dir24,Dir26,Dir28で在席している。地点cには、音声会議装置111Cが配置されており、該音声会議装置111Cを囲むように、会議者M,N,P,Qが音声会議装置111Cに対して、それぞれ方位Dir31,Dir34,Dir36,Dir38で在席している。
ここで、各会議者は音声会議装置を囲んで在席するとともに、それぞれの手元に放音調整用のリモコン120を備えている。例えば、図2に示すように、地点aの場合、音声会議装置111Aを囲んで会議者A〜Gが在席し、各会議者A〜Gがそれぞれにリモコン120A〜120Gを持っている。
リモコン120は、例えば、図2(B)に示すように、表示部121、選択ボタン122、実行ボタン123、調整キー124、リモコン信号送信部125を備える。表示部121には、現在設定されている「話速」が表示される。なお、「話速」以外にも「音量」や「音質」等の設定項目が表示されるようにしてもよい。
そして、会議者が、選択ボタン122で調整したい放音特性(「話速」)を選択し、調整キー124で所望速度に調整することができる。「話速」は、例えば、「+1」や「−3」等の現在値に対する相対値で設定される。なお、ここで示す相対値は、実際の話速変換度を示す数値(2倍速等)ではなく、会議者が調整したい速度の目安(例えば5段階程度)を示すものである。例えば話速変換量+5は2倍伸長、+4は3/2倍伸長、+3は4/3倍伸長、+2は5/4倍伸長、+1は6/5倍伸長、といった様に対応している。また、話速変換は、単に音声データを倍速で出力するだけではなく、音程を保ちつつ音声信号を伸長する処理を行う。すなわち、話速変換処理は、音声信号を1周期の波形に切りわけ、各周期波形の前後1区間を合成した新たな周期波形を生成し、各周期波形の間に新たに合成した周期波形を挿入することで信号の周期波形数を増やして、音程を保ちつつ信号を時間伸長する処理である。
図7(A)は伸長処理の手順を示すフローチャートである。また、同図(B)は伸長方法を説明する図である。同図(A)において、まず入力音声信号の先頭部分の1周期のサンプル数(サンプリング周波数×1/信号周波数)を検出する(s91)。この1周期分のサンプルデータである周期波形を2つ取り出して、同図(B)に示すように、1つめの周期波形Aに対して減衰利得係数を乗算することによって減衰波を作成し、2つめの周期波形Bに対して増加利得係数を乗算することによって増加波を作成する(s92)。そして、これらを加算合成することによってAとBの中間の形状の周期波形を合成する(s93)。この合成波形を図8(A)に示すように周期波形Aと周期波形Bとの間に挿入して出力する(s94)することによって音響的に自然な時間伸長を行う。
なお、音声データを圧縮する場合には、図8(B)に示すように、上記s93で合成したAとBの中間の形状の合成波形を周期波形A,Bに代えて出力することにより、音声データを時間軸方向に1/2倍に圧縮することができる。
また、この話速変換処理を行う周期を規定することで、変換速度を可変とすることができる。例えば、図8(C)に示すように、周期毎に周期波形を2つ合成し、各周期波形の間に挿入することで、音声データを時間軸方向に2倍に伸長することができ、同図(D)に示すように、2周期毎に周期波形を2つ合成することで、3/2倍に伸長することができる。これらの伸長率が上記話速変換設定量(相対値)に対応している。例えば話速変換量+5は2倍伸長、+4は3/2倍伸長、+3は4/3倍伸長、+2は5/4倍伸長、+1は6/5倍伸長、といった様に対応している。
図2において、会議者が実行ボタン123で調整を確定すると、リモコン信号送信部125から赤外線等のリモコン通信信号が音声会議装置111のリモコン送受信部20に送信される。音声会議装置111A〜111Cは、このリモコン信号から、放音音声を会議者毎に設定する。
図3、および図4に示すように、本実施形態の音声会議装置111は、外観機構的に、筐体112、脚部113、操作部114を備える。
筐体112は一方向に長尺な略直方体形状からなり、筐体112の長尺な辺(面)の両端部には、筐体112の下面を設置面から所定間隔離間する所定高さの脚部113が設置されている。なお、以下の説明では、筐体112の四側面のうち、長尺な面を長尺面、短尺な面を短尺面と称する。
筐体112は一方向に長尺な略直方体形状からなり、筐体112の長尺な辺(面)の両端部には、筐体112の下面を設置面から所定間隔離間する所定高さの脚部113が設置されている。なお、以下の説明では、筐体112の四側面のうち、長尺な面を長尺面、短尺な面を短尺面と称する。
筐体112の上面における長尺な方向の一方端には、複数のボタン42や表示画面41からなる操作部114が設置されている。筐体112の上面の略中央にはLED点灯部5が埋め込まれている。これら操作部114は筐体112内に設置されたメイン制御部10に接続し、会議者からの操作入力を受け付けて、メイン制御部10に出力するとともに、操作内容や実行モード等を表示画面41に表示する。
LED点灯部5は、複数(本実施形態では各5個)の線状のLEDランプ51を備える。複数のLEDランプ51は長尺方向に延びる同じ放物線上に位置するように配置されている。各LEDランプ51の点灯は上面パネル20の内側に取り付けられた図略の点灯制御部によって独立して制御される。具体的には、各LEDランプ51のうち放音ビームの指向方向が点灯するように制御される。これによって、ユーザは放音ビームの指向方向を確認することができる。
筐体112における操作部114が設置された側の短尺面には、外部機器とのコネクタ群6が埋め込まれている。コネクタ群6は、ネットワークに接続するためのネットワーク接続端子61、オーディオ機器に接続するためのオーディオ入力端子62A及びオーディオ出力端子62B、電源に接続するための電源端子63からなる。
筐体112の下面には、同形状からなるスピーカSP1〜SP16が設置されている。これらスピーカSP1〜SP16は長尺方向に沿って一定の間隔で直線状に設置されており、これによりスピーカアレイが構成される。筐体112の一方の長尺面には、同形状からなるマイクMIC101〜MIC116が設置されている。これらマイクMIC101〜MIC116は長尺方向に沿って一定の間隔で直線状に設置されており、これによりマイクアレイが構成される。また、筐体112の他方の長尺面にも、同形状からなるマイクMIC201〜MIC216が設置されている。これらマイクMIC201〜MIC216も長尺方向に沿って一定の間隔で直線状に設置されており、これによりマイクアレイが構成される。そして、筐体112の下面側には、これらスピーカアレイおよびマイクアレイを覆う形状で形成され、パンチメッシュされた下面グリル121が設置されている。なお、本実施形態では、スピーカアレイのスピーカ数を16本とし、各マイクアレイのマイク数をそれぞれ16本としたが、これに限ることなく、仕様に応じてスピーカ数およびマイク数は適宜設定すればよい。また、各スピーカ間隔および各マイク間隔は一定ではなくてもよく、例えば、長尺方向に沿って中央部で密に配置され、両端部に向かうに従って疎に配置されるような態様でもよい。
音声会議装置111A〜111Cは、図5に示すように、メイン制御部10、通信制御部11、放音制御部12、D/Aコンバータ13、放音アンプ(AMP)14、収音アンプ(AMP)15、A/Dコンバータ16、収音制御部17、エコーキャンセル部18、音声信号補正部19、リモコン送受信部20、操作部114、スピーカSP1〜SP16、マイクMIC101〜MIC116、MIC201〜MIC216、を備える。
メイン制御部10は、音声会議装置111A〜111Cの全体制御を行うとともに、操作部114から入力される電源オン/オフ等の制御に基づいて、装置の各種制御を行う。
マイクMIC101〜MIC116、MIC201〜MIC216は、自装置の周囲に在席する話者からの発声音を含む周囲の音を収音して電気的な収音信号に変換し、収音アンプ15に与える。収音アンプ15は収音信号を増幅してA/Dコンバータ16に与え、A/Dコンバータ16は、アナログ形式の収音信号をディジタル変換して、収音制御部17に出力する。
収音制御部17は、各マイクMIC101〜MIC116,MIC201〜MIC216の収音信号に対して遅延処理等を行い、各会議者のいる方位を含む所定方位に強い指向性を有する収音ビーム信号を生成する。例えば、図1の音声会議装置111Aであれば、会議者Aの方位に対応する収音方位Dir11、会議者Bの方位に対応する収音方位Dir12、会議者Cの方位に対応する収音方位Dir13、会議者Dの方位に対応する収音方位Dir14、会議者Eの方位に対応する収音方位Dir15、会議者Fの方位に対応する収音方位Dir16、会議者Gの方位に対応する収音方位Dir18を含む、所定の収音方位Dir11〜Dir18のそれぞれに強い指向性を有する収音ビーム信号を生成する。収音制御部17は、生成した各方位の収音ビーム信号の振幅を比較し、最も振幅の大きい収音ビーム信号を選択して、エコーキャンセル部18に出力する。また、収音制御部17は、選択した収音ビーム信号に対応する収音方位Dirを抽出して、話者方位データとしてメイン制御部10に与える。メイン制御部10は、この話者方位データを通信制御部11に与える。
エコーキャンセル部18は、二つのエコーキャンセラ181,182からなり、各エコーキャンセラ181,182はそれぞれ適応型フィルタとポストプロセッサとを備える。エコーキャンセラ181は、適応型フィルタで音声信号S1に基づく擬似回帰音信号を生成して、ポストプロセッサで収音制御部17から出力された収音ビーム信号から、音声信号S1の擬似回帰音信号を減算して、エコーキャンセラ182のポストプロセッサに出力する。エコーキャンセラ182は、適応型フィルタで音声信号S2に基づく擬似回帰音信号を生成して、ポストプロセッサで減算された収音ビーム信号から、音声信号S2の擬似回帰音信号を減算して、音声信号補正部19に出力する。これにより、スピーカSPからマイクMICへの回り込み音を抑圧する。
音声信号補正部19は、エコーキャンセル後の収音ビーム信号に、必要に応じて音質調整処理等を行うことで音声通信信号を生成する。音質調整処理の要否、調整量等は、メイン制御部10により指示される。音声信号補正部19は、この音声通信信号を通信制御部11に出力する。
通信制御部11は、音声信号補正部19からの音声通信信号に対して、メイン制御部10からの話者方位データと、装置の認識データとなる装置データとを添付して、ネットワーク通信形式に変換し、ネットワーク100を介して他の装置に送信する。
また、通信制御部11は、ネットワーク100を介して他の装置から音声ファイルを受信する。通信制御部11は、受信した音声ファイルを、ネットワーク形式のデータから一般的な音声信号に変換して、エコーキャンセル部18を介して放音制御部12に出力する。ここで、通信制御部11は、受け付けた音声ファイルに含まれる装置データおよび話者方位データから送信元の音声会議装置を同定して、それぞれの音声会議装置の音声信号毎に出力する。例えば、本実施形態の音声会議装置111Aの場合、音声会議装置111Bからの音声信号S1と、音声会議装置111Cからの音声信号S2とを放音制御部12に出力する。また、装置データおよび話者方位データは、メイン制御部10にも入力される。
メイン制御部10は、装置データ、話者方位データ、および自装置の各聴者の方位(例えば上記Dir11〜Dir18)を示す聴者の方位データ、およびリモコン送受信部20から受け付けた「話速」の相対値(以下、放音調整データと言う)に基づいて、放音制御部12が各スピーカSP1〜SP16に与える音声信号をコントロールする。放音制御部12は、メイン制御部10の制御に従って、入力された音声信号に対して話速変換処理や遅延処理を行って、音声会議装置の周りに在席する各会議者へ個別の特性で強い指向性を有する放音ビームを形成するように、各スピーカSP1〜SP16に対応する放音信号を生成する。
各D/Aコンバータ13は、入力された放音信号をディジタル−アナログ変換して、各放音アンプ14に与え、各放音アンプ14はアナログ化された放音信号を増幅して、各スピーカSP1〜SP16に与える。各スピーカSP1〜SP16は、入力された電気的な音声信号を音声に変換して放音する。
これにより、他装置から送信された発話者の音声は、各会議者へ同時に且つ個別に、受け付けられた放音調整データに対応する放音音声で提供される。すなわち、各会議者に対して、それぞれに適切な話速で音声を放音することができる。
また、各会議者に対して放音される音声は、それぞれ所定長のレイテンシが挿入される。放音制御部12は、各放音ビームに対する話速変換量に基づいて、各放音ビーム毎にレイテンシを挿入する。
図9は、レイテンシ挿入のイメージを示す図である。同図において、会議者A、会議者J、会議者Mが音声会議を行っている。会議者Aは話速変換量+2(5/4倍伸長)、会議者Jは話速変換量±0、会議者Mは話速変換量+4(3/2倍伸長)に設定している。例えば同図に示すように、会議者Aが「本日は晴天なり」と発話すると、装置、通信のレイテンシが挟まれた後に会議者J、および会議者Mに当該音声が提供される。ここで、会議者の中で最も話速変換量が大きい会議者Mに対する音声は、さらにレイテンシが挿入されることなく、装置、通信のレイテンシが挟まれた後にそのまま放音され、会議者Jよりも話速変換量の小さい(変換量ゼロ)会議者Jには、所定長のレイテンシが挿入される。この所定長は、会議者Jと会議者Mの音声放音が終了するタイミングが略等しくなるように規定される。詳細は後述する。
一方、放音時には、メイン制御部10は、リモコン送受信部20を介して放音調整データを受け付けると、当該放音調整データに、聴者の方位データと対応する話者方位データを関連付けして通信制御部11に与える。通信制御部11は、話者方位データ、およびこれに関連付けられた放音調整データをネットワーク100を介してネットワークサーバ101に送信する。ネットワークサーバ101では、各音声通信装置から受信した放音調整データを集計する。
図6に示すように、ネットワークサーバ101は、ネットワーク制御部102と会議情報記憶部103とを備える。
ネットワーク制御部102はネットワーク100全体の制御を行う。また、各装置から送信された上記放音調整データを会議情報記憶部103に記録する。会議情報記憶部103は、現在会議に参加している会議者数を記憶し、放音調整データに基づく調整内容を記憶する。また、通信会議装置間で送受信された音声を、議事録として音声DBに記憶する。
ネットワーク制御部102はネットワーク100全体の制御を行う。また、各装置から送信された上記放音調整データを会議情報記憶部103に記録する。会議情報記憶部103は、現在会議に参加している会議者数を記憶し、放音調整データに基づく調整内容を記憶する。また、通信会議装置間で送受信された音声を、議事録として音声DBに記憶する。
ネットワーク制御部102は、会議情報記憶部103に記憶された各情報に基づき、特定話者に対する話速変換の要求数が所定閾値以上であれば、その話者の収音音声を話速変換するように指示する収音話速変換データを生成して、各音声会議装置に送信する。この際、収音話速変換データには、話速変換の対象となる音声会議装置を示す装置データと対象の話者方位データとが添付される。なお、この収音話速変換データの送信履歴も会議情報記憶部103に記憶される。
また、ネットワーク制御部102は、会議情報記憶部103に記憶された各情報に基づき、最も話速変換量の大きい放音調整データを各音声会議装置に送信する。
また、ネットワーク制御部102は、会議情報記憶部103に記憶された各情報に基づき、最も話速変換量の大きい放音調整データを各音声会議装置に送信する。
各音声通信装置のメイン制御部10は、収音時に、ネットワークサーバ101から与えられた収音話速変換データが自装置に対応するものであるかを検出する。そして、自装置に対する収音話速変換データであれば、当該収音話速変換データを音声信号補正部19に与える。音声信号補正部19は、メイン制御部10からの収音話速変換データと話者方位データとに基づいて、指定された特定話者に対応するエコーキャンセル後の収音ビーム信号に、話速変換処理を行い、音声通信信号を生成する。なお、収音話速変換データが、自装置を対象とするものではなく、ネットワーク100に接続する他装置を対象とするものであれば、メイン制御部10は、収音話速変換データを音声信号補正部19には与えず、音声信号補正部19は、入力された収音ビーム信号をそのまま音声通信信号として出力する。
また、メイン制御部10は、放音時には、リモコン送受信部20から受け付けた放音調整データと、ネットワークサーバ101から与えられる収音話速変換データとに基づいて、放音制御データを生成する。この放音制御データとしては、前記収音話速変換データに含まれる話速変換相対値から放音調整データに含まれる話速変換相対値を差分したもの等を用いる。そして、メイン制御部10は、この放音制御データを放音制御部12に与える。
さらに、メイン制御部10は、リモコン送受信部20から受け付けた放音調整データと、ネットワークサーバ101から与えられる最も話速変換量の大きい収音調整データとに基づいて、挿入レイテンシ長を決定する。挿入レイテンシ長は、最も話速変換量の大きい収音調整データに含まれる話速変換相対値と、リモコン送受信部20から受け付けた放音調整データに含まれる話速変換相対値と、の差分を基準とし、この差分によって生じる音声放音終了タイミングの時間差を予測した値を用いる。すなわち、話速変換量の小さい放音ビームについて長いレイテンシを挿入することで、話速変換量の大きい放音ビームの放音終了タイミングを揃えることができる。ただし、予測した値で挿入レイテンシ長を決定した場合、発話音声の時間長が長すぎると、依然として音声放音終了タイミングに大きな時間差が生じる可能性が有る。また、発話音声の時間長が短すぎると、話速変換量の大きい放音ビームが先に放音を終えてしまうため、やはり時間差が生じる。そこで、メイン制御部10は、入力音声信号を監視し、発話音声の時間長が長い場合にはさらにレイテンシを挿入する。また、発話音声の時間長が短い場合には一時的に話速変換量を変更する。
図10は、レイテンシ挿入の具体例を示す図である。なお、同図においては説明を容易にするために、装置、通信のレイテンシは省略している。同図(A)は、発話音声の時間長が長い場合の例を示す図である。会議者Aの発話音声は、会議者J、および会議者Mに提供される。また、送信側の会議装置から、受信側の会議装置には、音声信号が所定区間長(例えば250ms、または500ms)で区切られて送信される。会議者Jは話速変換量±0、会議者Mは話速変換量+4(3/2倍伸長)に設定している。したがって、この例においては、ネットワークサーバ101から各装置に、最も話速変換量の大きい収音調整データとして、会議者Mの話速変換量+4(3/2倍伸長)が送信される。
メイン制御部10は、会議者Mに対しては、リモコン送受信部20から受け付けた放音調整データに含まれる話速変換量と、ネットワークサーバ101から受信した話速変換量が同一であるため、レイテンシを挿入せずに、会議者Aの発話音声の放音を開始(同図の発話区間1の発音を開始)する。一方で、会議者Jに対しては、リモコン送受信部20から受け付けた放音調整データに含まれる話速変換量が±0であるため、これにより予測される会議者Mとの音声放音終了タイミングの時間差(例えば500ms)のレイテンシを挿入して、会議者Aの発話音声の放音を開始する。
メイン制御部10は、入力されている発話音声信号を監視し、発話音声信号が入力され続ける場合は、再度レイテンシを挿入する。例えば1000ms以上の発話音声信号が入力されると、会議者Mに対しては、3/2倍伸長されるので、1500ms以上の時間長で放音がされる。したがって、会議者Jに500msのレイテンシを挿入して放音しても、会議者Jに対する放音終了タイミングが早くなる。そこで、メイン制御部10は、このタイミングの発話区間(同図では発話区間3)が終了した時点で、追加レイテンシを挿入する。
また、メイン制御部10は、入力されている発話音声信号を監視し、発話音声信号の入力が終了した場合、以後の放音については、音声放音終了タイミングが略一致するように追加レイテンシを挿入する。例えば、同図では発話区間4が終了したタイミングに発話音声信号(発話区間6)の入力が終了するので、以後の発話区間5、発話区間6の放音前に250msのレイテンシを均等に挿入する。これにより会議者Mに対する放音と会議者Jに対する放音の終了タイミングが略一致する。なお、挿入するレイテンシは均等でなくとも放音終了タイミングが略一致すればよい。
一方、同図(B)は、発話音声の時間長が短い場合の例を示す図である。メイン制御部10は、同図(A)の例と同様に、会議者Mに対しては、リモコン送受信部20から受け付けた放音調整データに含まれる話速変換量と、ネットワークサーバ101から受信した話速変換量が同一であるため、レイテンシを挿入せずに、会議者Aの発話音声の放音を開始(同図の発話区間1の発音を開始)する。会議者Jに対しては、リモコン送受信部20から受け付けた放音調整データに含まれる話速変換量が±0であるため、これにより予測される会議者Mとの音声放音終了タイミングの時間差(例えば500ms)のレイテンシを挿入して、会議者Aの発話音声の放音を開始する。
発話音声信号の入力が予測よりも早く終了した場合、同図(B)に示すように話速変換を行っている会議者Jに対する放音が先に終了する。そこで、メイン制御部10は、同図(C)に示すように、入力されている発話音声信号を監視し、発話音声信号の入力が終了した時に以後の放音については、音声放音終了タイミングが略一致するように一時的に話速変換量を変更する。つまり、会議者Jに対する放音が会議者Mに対する放音の終了タイミングと略一致するように、会議者Jに対する放音をさらに大きい話速変換量(同図においては2倍伸長)で話速変換する。これにより会議者Mに対する放音と会議者Jに対する放音の終了タイミングが略一致する。
また、本実施形態の音声会議装置においては、発話者に対し待ち時間の目安を表示する。話速変換量の小さい会議者は、上記のようにレイテンシが挿入されることがあるため、発話後に他会議者の発話音声が放音されるまで待ち時間が発生することがある。そこで、放音ビームに割り当てられている各LEDランプ51を点滅させることで予測される待ち時間の目安を表示する。点滅の時間間隔が待ち時間を表す。この点滅の時間間隔は、話速変換量が小さい会議者ほど長く、話速変換が大きい会議者ほど短くなるように設定される。例えば、上述した装置、通信のレイテンシ長、挿入レイテンシ長、発話から返答までの平均的な時間長、等を加算した時間を点滅の時間間隔とすればよい。なお、LEDランプ51の点滅に限らず、表示画面41に表示するようにしてもよいし、視覚的な表示に限らず、会議者毎にリズム音を発音するようにしてもよい。
次に、音声通信システムの具体的な動作について説明する。
図11はネットワークサーバ101の収音話速変換設定フローを示すフローチャートである。
図11はネットワークサーバ101の収音話速変換設定フローを示すフローチャートである。
ネットワーク制御部102は、ネットワーク100を介して各音声会議装置から放音調整データを順次受信する(S201)。また、同時に、ネットワーク制御部102は、それぞれの放音調整データに対応する話者方位データ(装置データを含む)を検出する(S202)。ここで、話者方位データとは、送信元の音声会議装置から送信される音声ファイルに添付された特定話者を指定する方位データであり、放音調整データを取得した時点で、ネットワーク100にて送受信される音声ファイルから取得する。
ネットワーク制御部102は、各放音調整データを解析して、放音調整内容を取得して、話者方位データに関連付けして調整内容DBに記憶する(S203)。ここで、放音調整内容とは、発信元方位データ、話速変換設定量、および最大話速変換設定量で表され、話速変換設定量は、現在値に対する大小により設定される。最大話速変換設定量は、各音声会議装置からの放音調整データのうち、最も大きい話速変換設定量を示す。なお、発信元方位データとは、放音調整データが発信された聴者の方位を特定する方位データであり、各音声会議装置からの放音調整データに関連付けして送信されるものである。
ネットワーク制御部102は、ネットワーク100を介して、最大話速変換設定量を各音声会議装置111A〜111Cに送信する(S204)。各音声会議装置では、この最大話速変換設定量に基づいて、各方位毎の音声にレイテンシが挿入される。
また、ネットワーク制御部102は、話者方位データ毎に発信元方位データ数をカウントして、同じ話者方位データに対する発信元方位データが所定閾値以上であることを検出すると(S205:Y)、該当する話者方位データに対応する方位からの音声を収音時に話速変換する収音話速変換データを生成する(S206)。この収音話速変換データは、装置データを含む話速変換対象方位データ、および「話速」を備え、「話速」とは、放音調整データと同様に現在値に対する相対値で設定される。なお、本説明では特定の話者方位データに対する発信元方位データ数が所定閾値以上になる場合に収音話速変換データを生成する例を示したが、予め記憶している会議者数に基づき、発信元方位データ数が会議者数の過半数に達した場合に収音話速変換データを生成するようにしてもよい。なお、ネットワーク制御部102は、収音話速変換データを生成すると、会議情報記憶部103に記録する。
ネットワーク制御部102は、ネットワーク100を介して、収音話速変換データを各音声会議装置111A〜111Cに送信する(S207)。
次に、音声会議装置における放音調整および収音話速変換のより具体的な方法について図を参照して説明する。
図12は音声会議装置の放収音処理を示すフローチャートである。
まず、各音声会議装置111は、挿入レイテンシ長(初期レイテンシ)、およびLED点滅間隔を決定する(S1)。上述したように、初期レイテンシは、ネットワークサーバ101から受信した最大話速変換設定量と、リモコン送受信部20から受け付けた放音調整データに含まれる話速変換量と、の差分によって生じる音声放音終了タイミングの時間差を予測した値を用いる。ネットワークサーバ101から最大話速変換設定量を受信していなければ、自装置内における各放音ビームのうち、最大の話速変換量を用いて初期レイテンシを決定する。各放音ビームについてリモコン送受信部20から放音調整データを受信していなければ、放音調整データの話速変換量をゼロとして初期レイテンシを決定する。全ての方位から放音調整データを受信していなければ、放音をする全方位に対して初期レイテンシをゼロとする。
図12は音声会議装置の放収音処理を示すフローチャートである。
まず、各音声会議装置111は、挿入レイテンシ長(初期レイテンシ)、およびLED点滅間隔を決定する(S1)。上述したように、初期レイテンシは、ネットワークサーバ101から受信した最大話速変換設定量と、リモコン送受信部20から受け付けた放音調整データに含まれる話速変換量と、の差分によって生じる音声放音終了タイミングの時間差を予測した値を用いる。ネットワークサーバ101から最大話速変換設定量を受信していなければ、自装置内における各放音ビームのうち、最大の話速変換量を用いて初期レイテンシを決定する。各放音ビームについてリモコン送受信部20から放音調整データを受信していなければ、放音調整データの話速変換量をゼロとして初期レイテンシを決定する。全ての方位から放音調整データを受信していなければ、放音をする全方位に対して初期レイテンシをゼロとする。
その後、各音声会議装置111は、通信制御部11での音声ファイルの受信状況、および、収音制御部17での収音状況に基づいて、自装置が収音状態、放音状態、待受状態のいずれの状態であるかを判断する(S2)。ここで、放音状態であれば以下に示す放音処理を行い、収音状態であれば以下に示す収音処理を行い、待受状態であればS1の判断から処理を繰り返す。
このような放音、収音、待受処理の状態で、ネットワークサーバ101から収音話速変換データを受信したり、会議者(リモコン)から放音制御の操作入力が行われると、音声会議装置は、図13に示す割込処理を実行する。
図13は音声会議装置の放音調整変更、収音話速変換変更の割込処理を示すフローチャートである。
音声会議装置111は、電源ON状態であれば、放音、収音、待受のいずれの状態であっても、随時ネットワークサーバ101およびリモコン120からの割り込み処理を受け付けられる状態で動作する。そして、音声会議装置111は割込を検出すると(S101)、当該割込処理の種別を判別する(S102)。
図13は音声会議装置の放音調整変更、収音話速変換変更の割込処理を示すフローチャートである。
音声会議装置111は、電源ON状態であれば、放音、収音、待受のいずれの状態であっても、随時ネットワークサーバ101およびリモコン120からの割り込み処理を受け付けられる状態で動作する。そして、音声会議装置111は割込を検出すると(S101)、当該割込処理の種別を判別する(S102)。
具体的には、リモコン120からのリモコン通信信号を検出すると、音声会議装置111はユーザ割込であることを検出する。そして、音声会議装置111は、リモコン120により設定された放音調整内容を受け付ける(S103)。この際、音声会議装置111は、装置周囲に配置されたいずれのリモコン120からのリモコン通信信号であるかを同時に検出する。
音声会議装置111は、放音を行う各方位(会議者方位)に対してそれぞれ放音調整フラグを備えている。音声会議装置111は、送信元のリモコン120に対応する方位に対して、放音調整フラグをON状態にする(S104)。
そして、音声会議装置111は、受け付けた放音調整内容からレイテンシ、LEDの点滅間隔を更新する(S105)。レイテンシは、S1の処理と同様にネットワークサーバ101から受信した最大話速変換設定量と、リモコン送受信部20から受け付けた話速変換量と、の差分によって生じる音声放音終了タイミングの時間差を予測した値を用いて更新する。
そして、音声会議装置111は、更新したレイテンシ、LED点滅間隔、および、受け付けた放音調整データを記憶し(S106)、放音調整データと発信元の方位データとを関連付けして、通信制御部11を介してネットワークサーバ101に送信する(S107)。
一方、通信制御部11にてネットワークサーバ101からの収音話速変換データ、または最大話速変換設定量を検出すると、音声会議装置111はサーバ割込であることを検出し、受信した収音話速変換データ、または最大話速変換設定量を受け付ける(S108)。音声会議装置111は、収音話速変換データを解析して、装置データから自装置を対象とする収音話速変換データであるかどうかを検出する(S109)。
音声会議装置111は、自装置を対象とする収音話速変換データであれば、収音話速変換データから話者方位データを取得する。音声会議装置111は、各方位に対してそれぞれ収音話速変換フラグを備えており、取得した話者方位データに対応する方位に対して収音話速変換フラグをON状態にする(S110)。
その後、受信した最大話速変換設定量からレイテンシ、LEDの点滅間隔を更新する(S111)。レイテンシは、S1、S105の処理と同様にネットワークサーバ101から受信した最大話速変換設定量と、リモコン送受信部20から受け付けた話速変換量と、の差分によって生じる音声放音終了タイミングの時間差を予測した値を用いて更新する。
そして、音声会議装置111は、更新したレイテンシ、LED点滅間隔、および収音話速変換データを記憶する(S112)。
このように、音声会議装置111は、放音時には放音調整内容に基づいて放音調整フラグを設定し、挿入するレイテンシ、LED点滅間隔を更新する。また、収音時には自装置が話速変換対象であれば収音話速変換フラグを設定し、挿入するレイテンシ、LED点滅間隔を更新する。
図12に示すフローに戻り、自装置が放音状態であることを検出すると、音声会議装置111のメイン制御部10は、ネットワークサーバ101から収音話速変換データを取得しているかどうかを検出する(S3)。メイン制御部10は、収音話速変換データを取得して記憶していれば、放音を行う各方位に対して放音調整データを受け付けているかどうかを検出する(S4)。メイン制御部10は、放音調整データを受け付けていなければ、すなわち全ての方位に対して放音調整フラグがOFF状態であることを確認すれば、収音話速変換データに基づいて、放音をする全方位に対して同等の話速変換量からなる放音制御データを生成し、放音制御部12に与える(S6)。
また、メイン制御部10は、放音調整データを受け付けていれば、収音話速変換データによる話速変換量を基準量として、該基準量から放音調整データに基づく話速変換量を差分した差分値を、放音調整フラグがON状態にある方位毎に設定することで放音制御データを生成し、放音制御部12に与える(S7)。すなわち、放音調整データを受け付けた方位(放音調整フラグがON状態の方位)には、差分値に基づく話速変換を行い、放音調整データを受け付けていない方位(放音調整フラグがOFF状態の方位)には、収音話速変換データに基づく話速変換を行う放音制御データを与える。
また、メイン制御部10は、収音話速変換データがない場合にも、放音を行う各方位に対して放音調整データを受け付けているかどうかを検出する(S5)。メイン制御部10は、放音調整データを受け付けていなければ、すなわち、全方位に対して放音調整フラグがOFF状態であれば、全方位に対して受信した音声通信信号をそのまま放音する放音制御データを生成し、放音制御部12に与える。なお、この場合、特に放音制御データを与えなくても良い。
また、メイン制御部10は、収音話速変換データが無い場合で、放音調整データを受け付けている場合には、放音調整フラグがON状態である各方位の話速変換量を設定した放音制御データを生成して、放音制御部12に与える(S8)。すなわち、放音調整データを受け付けた方位(放音調整フラグがON状態の方位)には、放音調整データに基づく話速変換を行い、放音調整データを受け付けていない方位(放音調整フラグがOFF状態の方位)には、そのまま放音する放音制御データを与える。
その後、メイン制御部10は、外部から入力されている音声通信信号を監視し、音声通信信号の入力が終了したか否かを判断する(S12)。なお、音声通信信号の入力が終了しているか否かの判断は、入力レベルから判断してもよいし、音声信号の周期性から判断してもよい。音声信号の周期性が少ない場合に音声通信信号の入力が終了したと判断すればよい。音声通信信号の入力が終了していれば図10に示したレイテンシの再演算を行う(S13)。最後に、放音制御部12は、与えられた放音制御データ、レイテンシに基づいて音声信号を話速変換した後に、レイテンシを挿入し、各方位へ所望の放音ビームが形成されるように、各スピーカSP1〜SP16に与える放音信号を生成して出力する(S14)。
次に、図12のS2において、自装置が収音状態であることを検出すると、音声会議装置111のメイン制御部10は、ネットワークサーバ101から収音話速変換データを取得しているかどうかを検出する(S9)。収音話速変換データを受け付けており、自装置に対する収音話速変換データであることを検出すると、すなわち、いずれかの方位に対して収音話速変換フラグがON状態であることを検出すると、メイン制御部10は、収音話速変換データに基づく収音話速変換制御データを音声信号補正部19に与える。音声信号補正部19は、収音話速変換制御データが与えられていれば、収音話速変換フラグがON状態である方位からの収音ビーム信号を話速変換し(S10)、音声通信信号を生成する。
また、メイン制御部10は収音話速変換データを取得していなければ、音声信号補正部19に対して特に制御を行わない。音声信号補正部19は、収音話速変換制御データが与えられていなければ、収音ビーム信号を話速変換せずに、そのまま音声通信信号として生成する。
通信制御部11は、これらの音声通信信号に話者方位データおよび装置データを添付してネットワーク100に送信する(S11)。
次に、このような構成を用いた場合の実際の放収音の状況を、図1、図14〜図18を参照して説明する。
なお、以下の説明では、地点bの会議者Jの声が聴き取り難い状況を例に示したものである。
なお、以下の説明では、地点bの会議者Jの声が聴き取り難い状況を例に示したものである。
(1)放音調整個別対応
図14は放音調整個別対応の場合の放収音状況を示した図である。
図14は放音調整個別対応の場合の放収音状況を示した図である。
図14に示すように、地点bの会議者Jが発言中に、地点aの会議者Aと会議者Gとがリモコン120を操作して放音調整を行った場合、地点aの音声会議装置111Aは、各リモコン120で操作された放音調整内容を取得する。この場合、会議者Aに対して、話速を「+4」にする放音調整内容と、会議者Gに対して、話速を「+2」にする放音調整内容とを取得する。音声会議装置111Aは、これら放音調整内容を放音調整データとして、ネットワークサーバ101に送信するとともに、会議者A,Gのそれぞれに該当する方位Dir11、Dir18に対して放音調整フラグをONに設定する。
ネットワークサーバ101は、音声会議装置111Aから受信した放音調整内容から最大話速変換設定量を規定し、これを音声会議装置111A、および音声会議装置111Cに送信する。
そして、音声会議装置111Aは、ネットワークサーバ101から受信した最大話速変換設定量、および音声会議装置111Bから受信した音声通信信号から話者データを取得して、会議者Jの声であることを検出すると、方位Dir11、Dir18への放音音声を、それぞれの放音調整内容に従って話速変換して放音する。
これにより、会議者A,Gには、会議者Jの声が、指定した話速変換量に従って話速変換(伸長)された状態で聴くことができる。会議者Aには、話速が「4」遅く、すなわち3/2倍伸長された状態で会議者Jの声が聞こえる。会議者Gには、話速が「2」遅く、すなわち5/4倍伸長された状態で会議者Jの声が聞こえる。また、会議者Gには、レイテンシ250msが挿入された後に会議者Jの声が聞こえる。他の会議者(地点aの会議者B〜会議者F、地点cの会議者M〜会議者Q)には、レイテンシ500msが挿入された後に会議者Jの声が話速変換されずにそのまま聞こえる。これにより、各会議者は、会議者Jの声を略同一のタイミングで聞き終えることとなる。
この場合、放音調整を行った会議者が、全体の会議者に対して少数派であるので、ネットワークサーバ101は、会議者Jの音声を収音時に一括して話速変換する制御を行わない。
この場合、放音調整を行った会議者が、全体の会議者に対して少数派であるので、ネットワークサーバ101は、会議者Jの音声を収音時に一括して話速変換する制御を行わない。
このように、特定会議者(話者)に対して放音調整を行う会議者(聴者)数が極少ない場合には、それぞれの聴者がいる音声会議装置で聴者毎に話速変換を行う。これにより、話速変換したい聴者にのみ話速変換量に応じた放音を行うことができる。
(2)収音話速変換一括対応
図15、図16は、収音話速変換一括対応の場合の放収音状況を示した図であり、図15が一括話速変換前、図16が一括話速変換後の状況を示す。
図15、図16は、収音話速変換一括対応の場合の放収音状況を示した図であり、図15が一括話速変換前、図16が一括話速変換後の状況を示す。
図15に示すように、地点bの会議者Jが発言中に、地点aの会議者Aと会議者Gとがそれぞれのリモコン120を操作して放音調整を行った場合、地点aの音声会議装置111Aは、各リモコン120で操作された放音調整内容を取得する。この場合、会議者Aに対して、話速を「+4」にする放音調整内容を取得し、会議者Gに対して、話速を「+2」にする放音調整内容を取得する。音声会議装置111Aは、これら放音調整内容を放音調整データとして、ネットワークサーバ101に送信するとともに、会議者A,Gのそれぞれに該当する方位Dir11,Dir18に対して放音調整フラグをONに設定する。
同様に、地点cの会議者Mと会議者Nと会議者Qとがそれぞれのリモコン120を操作して放音調整を行った場合、地点cの音声会議装置111Cは、各リモコン120で操作された放音調整内容を取得する。この場合、会議者Mに対して、話速を「+1」にする放音調整内容を取得し、会議者Nに対して、話速を「+2」にする放音調整内容を取得し、会議者Qに対して、話速を「+1」にする放音調整内容を取得する。音声会議装置111Cは、これら放音調整内容を放音調整データとして、ネットワークサーバ101に送信するとともに、会議者M,N,Qにそれぞれ該当する方位Dir31,Dir34,Dir38に対して放音調整フラグをONに設定する。
ネットワークサーバ101は、音声会議装置111A、および音声会議装置111Cから受信した放音調整内容から最大話速変換設定量を規定し、これを音声会議装置111A、および音声会議装置111Cに送信する。
そして、音声会議装置111A,111Cは、ネットワークサーバ101から受信した最大話速変換設定量、および音声会議装置111Bから受信した音声通信信号から話者データを取得して、会議者Jの声であることを検出すると、方位Dir11,Dir18,Dir31,Dir34,Dir38への放音音声を、それぞれの放音調整内容に従って話速変換して放音する。
これにより、会議者A,G,M,N,Qには、会議者Jの声が、指定した放音調整内容に従って話速変換された状態で聴ける。会議者Aには、話速が「4」遅く、すなわち3/2倍伸長された状態で会議者Jの声が聞こえる。会議者Gには、話速が「2」遅く、すなわち5/4倍伸長された状態でレイテンシ250msが挿入された後に会議者Jの声が聞こえる。
また、会議者Mには、話速が「1」遅く、すなわち6/5倍伸長された状態でレイテンシ300msが挿入された後に会議者Jの声が聞こえる。会議者Nには、話速が「2」遅く、すなわち5/4倍伸長された状態でレイテンシ250msが挿入された後に会議者Jの声が聞こえる。会議者Qには、話速が「1」遅く、6/5倍伸長された状態でレイテンシ300msが挿入された後に会議者Jの声が聞こえる。
他の会議者(地点aの会議者B〜会議者F、地点cの会議者P)には、レイテンシ500msが挿入された後に会議者Jの声が話速変換されずにそのまま聞こえる。
ネットワークサーバ101は、会議者Jに対する放音調整データの数が、会議者数の過半数を超えたことを検出すると、これら放音調整データの各話速変換量を取得し、平均値処理する。図15の例であれば、話速が「+2」と算出される。ネットワークサーバ101は、このように算出した各調整量を用いて収音話速変換データを生成し、話速変換対象となる話者データ(方位データ)を添付して各音声会議装置111A〜111Cに与える。
話速変換対象の会議者Jが在席する音声会議装置111Bは、受信した収音話速変換データに基づいて、会議者Jから収音した収音ビーム信号を話速変換して、ネットワーク100に送信する。この例では、会議者Jの収音ビーム信号の話速を「+2」として5/4倍伸長して送信する。
このままでは、音声会議装置111A,111Cで放音調整済みの方位では、放音調整内容と収音話速変換内容とが加算された状態で放音されるので、必要以上に話速変換された音となってしまう。
そこで、音声会議装置111Aは、受信した収音話速変換データの各話速変換量と予め設定記憶した放音調整データの各話速変換量とを差分し、この差分値により設定される話速変換量から話速変換を行う。具体的には、図16に示すように、会議者Aには、5/4倍伸長された収音ビーム信号をさらに6/5倍伸長することで、放音時に3/2倍伸長、すなわち話速「4」となるように話速変換する。会議者Gには、話速「2−2」=「0」に話速変換量を変更する。つまり、話速変換を行わない。これにより、会議者A,Gは、自身が調整した内容に応じた会議者Jの声を聞くことができる。
また、音声会議装置111Cは、音声会議装置111Aと同様に、差分値により設定される話速変換量から放音調整を行う。具体的には、会議者Mには、5/4倍伸長された収音ビーム信号を24/25倍に圧縮することで、放音時に6/5倍伸長、すなわち話速「1」となるように話速変する。会議者Nには、話速「2−2」=「0」に話速変換量を変更する。つまり、話速変換を行わない。会議者Qには、24/25倍に圧縮することで、放音時に6/5倍伸長、すなわち話速「1」となるように話速変換する。これにより、会議者M,N,Qも、自身が調整した内容に応じた会議者Jの声を聞くことができる。
また、他の会議者(地点aの会議者B〜会議者F、地点cの会議者P)には、会議者Jの声が、収音側で話速変換された状態で聞こえる。
これにより、放音調整した各会議者(聴者)には、会議者(聴者)が設定した話速で話者の音声を聞かせることができ、放音調整していない会議者(聴者)に対しても話速変換された聴き取り易いであろう音で話者の音声を聞かせることができる。
なお、上記例においては、各話速変換量を取得し、平均値処理する例について説明したが、最も話速変換量の小さい値を収音話速変換データに採用するようにしてもよい。この場合、放音側の話速変換量の差分値は必ずプラスとなるため、一度伸長した音声信号が放音調整によって元通りに圧縮されることがなくなり、音質の低下を防止することができる。
なお、放音調整を行っていない会議者は、会議者Jの声を聴き取りにくいとは感じていない場合もある。
この場合、図17に示すように、放音調整していない会議者に対して逆変換(圧縮処理)をかけるようにしてもよい。
図17は、図15、図16と同様な場合で且つ逆変換を行う場合の放収音状況を示した図である。
放音調整した会議者に対する放音調整の方法は、図15の場合と同じであるので説明は省略する。
音声通信信号を受信する側の音声会議装置111A,111Cは、ネットワークサーバ101から収音話速変換データを取得すると、当該収音話速変換データの各話速変換量を逆に変換する逆話速変換用放音調整データを生成する。図17の例であれば、話速変換量である話速「+2」に対して、逆話速変換量として、話速「−2」を設定する。
音声会議装置111Aは、図15の場合と異なり、全ての会議者A〜Gに対応する方位Dir11〜Dir16,Dir18に対して放音調整フラグをONにし、放音調整が指定されていない会議者B〜Fに対しては、逆話速変換用放音調整データを適用する。これにより、会議者B〜Fには、話速変換される前の通常速度の会議者Jの音声を聞かせることができる。同様に、音声会議装置111Cも、放音調整が指定されていない会議者Pに対しては、逆話速変換用放音調整データを適用する。これにより、会議者Pにも、話速変換される前の通常速度の会議者Jの音声を聞かせることができる。
これにより、放音調整を行っていない人は、会議者Jの声が聴き取り難い訳ではないという判断があるものとして、そのままの音声を放音することができる。
なお、このような調整不必要の場合、リモコン120の調整不必要のボタンやコマンドを予め設けておけば、調整不必要かどうかをより明確に判断することができる。
また、図18に示すように、収音側の音声会議装置111Bが、収音した収音ビーム信号を話速変換してネットワーク100に送信するとともに、話速変換を行わない信号を同時送信するようにしてもよい。この場合、音声会議装置111Aは、放音調整が指定されていない会議者B〜Fに対しては、受信した2つの信号のうち、話速変換が行われていない信号を放音に用いる。これにより、会議者B〜Fには、話速変換される前の通常速度の会議者Jの音声を聞かせることができる。同様に、音声会議装置111Cも、放音調整が指定されていない会議者Pに対しては、話速変換が行われていない信号を放音に用いる。これにより、会議者Pにも、話速変換される前の通常速度の会議者Jの音声を聞かせることができる。なお、この場合、図6で示したネットワークサーバ101で会議情報記憶部103に記憶される音声は、送信側で話速変換を行わない信号を記憶するようにすればよい。
以上のように、本実施形態の構成および処理を用いることにより、遠隔地間で会議を行うような場合に、比較的簡素なシステムで、特定話者の声を聴者毎に違う話速で聞かせることができ、各会議者に聞こえる発話者音声の終了タイミングが略一致するので、会話にタイムラグが生じることを防止できる。
なお、本実施形態では、ネットワークサーバ101が各音声通信装置から受信した放音調整データを集計し、最大の話速変換量を決定する例について示したが、各音声通信装置単体で最大の話速変換量を決定し、この最大話速変換量に基づいて各放音ビームにレイテンシを挿入してもよい。
なお、前述の説明では、話速以外の調整例を示さなかったが、その他、音量、音質等の調整を行うようにしてもよい。また、予め聴き取りやすい声質を記憶しておき、適宜声質を選択することで、選択した声質で話者の音声を放音することもできる。例えば、テレビアナウンサーのフォルマント情報を記憶しておき、この声質が選択されれば、特定話者の音声をフォルマント変換して放音すればよい。
また、前述の説明において、ネットワークサーバ101は、収音話速変換データや放音調整データを対応する話者方位データとともに、会議情報記憶部103に記憶しておいても良い。そして、次回以降、同じメンバで会議が行われる場合に、ネットワークサーバ101は、この話者方位データと収音話速変換データ、放音調整データを読み出して、音声会議装置111A〜111Cに送信する。各音声会議装置111A〜111Cは、取得した収音話速変換データ、放音調整データに基づいて、収音、放音する。これにより、次回以降は、会議の最初から、各会議者が自分の好みの音声で話者の発言を聞くことができる。
100−ネットワーク
101−ネットワークサーバ
111A,111B,111C−音声会議装置
101−ネットワークサーバ
111A,111B,111C−音声会議装置
Claims (4)
- 複数のスピーカを配列してなるスピーカアレイと、
放音される音声信号の話速変換量の設定を複数のユーザ方向毎に受け付ける操作受付手段と、
前記複数のユーザ方向毎に放音ビームを形成するとともに、前記操作受付手段で受け付けた前記ユーザ方向毎の話速変換量に基づき、指定されたユーザ方向への放音ビームを調整するように、入力した音声信号を話速変換、および遅延して前記複数のスピーカに与える放音制御手段と、
前記操作受付手段で受け付けた各ユーザ方向の話速変換量、および全ユーザ方向のうち最大の話速変換量、との差に基づいて、前記複数のユーザ方向毎に、前記放音制御手段に入力する音声信号に、所定時間長の遅延を挿入する遅延挿入手段と、
を備えた音声通信装置。 - 外部から入力される音声信号の入力終了タイミングを検出する入力音声監視手段を備え、
前記遅延挿入手段は、前記入力音声監視手段が検出した音声信号の入力終了タイミングに基づいて、前記複数のユーザ方向毎に放音する音声の終了タイミングが略一致するように、前記遅延の時間長を変更する請求項1に記載の音声通信装置。 - 前記放音制御手段は、前記入力音声監視手段が検出した音声信号の入力終了タイミングに基づいて、前記複数のユーザ方向毎に放音する音声の終了タイミングが略一致するように、話速変換量を変更する請求項2に記載の音声通信装置。
- サーバ装置、および複数の請求項1、請求項2、または請求項3に記載の音声通信装置を相互に接続した音声通信システムであって、
各音声通信装置は、前記操作受付部が受け付けた話速変換量を、前記サーバ装置に送信するサーバ通信部を備え、
前記サーバ装置は、各音声通信装置から送られてきた話速変換量に基づき、最大話速変換量を決定して各音声通信装置に配信する話速変換量決定手段を備え、
前記音声通信装置のサーバ通信部は、さらにサーバ装置から前記最大話速変換量を受信し、
前記遅延挿入手段は、前記操作受付部で受け付けた各ユーザ方向の話速変換量、および前記サーバ装置から受信した最大話速変換量、との差に基づいて、前記複数のユーザ方向毎に、前記放音制御手段に入力する音声信号に、所定時間長の遅延を挿入する音声通信システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006203820A JP2008034979A (ja) | 2006-07-26 | 2006-07-26 | 音声通信装置、および音声通信システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006203820A JP2008034979A (ja) | 2006-07-26 | 2006-07-26 | 音声通信装置、および音声通信システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008034979A true JP2008034979A (ja) | 2008-02-14 |
Family
ID=39123988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006203820A Pending JP2008034979A (ja) | 2006-07-26 | 2006-07-26 | 音声通信装置、および音声通信システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008034979A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013521725A (ja) * | 2010-03-23 | 2013-06-10 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 音声を定位知覚する技術 |
JP2017510179A (ja) * | 2014-02-28 | 2017-04-06 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 会議における変化盲を使った知覚的連続性 |
US10158958B2 (en) | 2010-03-23 | 2018-12-18 | Dolby Laboratories Licensing Corporation | Techniques for localized perceptual audio |
US10200804B2 (en) | 2015-02-25 | 2019-02-05 | Dolby Laboratories Licensing Corporation | Video content assisted audio object extraction |
-
2006
- 2006-07-26 JP JP2006203820A patent/JP2008034979A/ja active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013521725A (ja) * | 2010-03-23 | 2013-06-10 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 音声を定位知覚する技術 |
US8755543B2 (en) | 2010-03-23 | 2014-06-17 | Dolby Laboratories Licensing Corporation | Techniques for localized perceptual audio |
US9172901B2 (en) | 2010-03-23 | 2015-10-27 | Dolby Laboratories Licensing Corporation | Techniques for localized perceptual audio |
US9544527B2 (en) | 2010-03-23 | 2017-01-10 | Dolby Laboratories Licensing Corporation | Techniques for localized perceptual audio |
US10158958B2 (en) | 2010-03-23 | 2018-12-18 | Dolby Laboratories Licensing Corporation | Techniques for localized perceptual audio |
US10499175B2 (en) | 2010-03-23 | 2019-12-03 | Dolby Laboratories Licensing Corporation | Methods, apparatus and systems for audio reproduction |
US10939219B2 (en) | 2010-03-23 | 2021-03-02 | Dolby Laboratories Licensing Corporation | Methods, apparatus and systems for audio reproduction |
US11350231B2 (en) | 2010-03-23 | 2022-05-31 | Dolby Laboratories Licensing Corporation | Methods, apparatus and systems for audio reproduction |
JP2017510179A (ja) * | 2014-02-28 | 2017-04-06 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 会議における変化盲を使った知覚的連続性 |
US9876913B2 (en) | 2014-02-28 | 2018-01-23 | Dolby Laboratories Licensing Corporation | Perceptual continuity using change blindness in conferencing |
US10200804B2 (en) | 2015-02-25 | 2019-02-05 | Dolby Laboratories Licensing Corporation | Video content assisted audio object extraction |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9531338B2 (en) | Signal processing apparatus, signal processing method, program, signal processing system, and communication terminal | |
KR101125897B1 (ko) | 음성 집음 장치와 에코 캔슬 처리 방법 | |
JP4929740B2 (ja) | 音声会議装置 | |
CN101189912B (zh) | 音频装置和声束控制方法 | |
US7110951B1 (en) | System and method for enhancing speech intelligibility for the hearing impaired | |
JP3056972B2 (ja) | 音声作動スイッチング装置 | |
US9167333B2 (en) | Headset dictation mode | |
US20120282976A1 (en) | Cellphone managed Hearing Eyeglasses | |
US20060018492A1 (en) | Sound control system and method | |
US20050281421A1 (en) | First person acoustic environment system and method | |
EP2175669B1 (en) | System and method for configuring a hearing device | |
EP1691574A2 (en) | Method and system for providing hearing assistance to a user | |
EP1675431B1 (en) | Hearing aid with frequency channels | |
JP2011512768A (ja) | オーディオ装置及びその動作方法 | |
EP1863320A1 (en) | Method for adjusting a system for providing hearing assistance to a user | |
JP2005086365A (ja) | 通話装置、会議装置および撮像条件調整方法 | |
JP5380777B2 (ja) | 音声会議装置 | |
EP2528356A1 (en) | Voice dependent compensation strategy | |
WO2006051586A1 (ja) | 音響電子回路及びその音量調節方法 | |
US8054999B2 (en) | Audio system with varying time delay and method for processing audio signals | |
JP4411959B2 (ja) | 音声集音・映像撮像装置 | |
JP2008034979A (ja) | 音声通信装置、および音声通信システム | |
CN111863001A (zh) | 一种多方通话系统中抑制背景噪声的方法 | |
JP2007329753A (ja) | 音声通信装置および音声通信システム | |
JP2001136593A (ja) | ユーザの聴覚科学的な分布にカスタマイズできる音声を備えた電話 |