JP2013080994A

JP2013080994A - 音声処理装置、音声処理方法、および音声処理プログラム

Info

Publication number: JP2013080994A
Application number: JP2011218494A
Authority: JP
Inventors: Mitsuaki Watanabe; 光章渡邉
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2011-09-30
Filing date: 2011-09-30
Publication date: 2013-05-02
Anticipated expiration: 2031-09-30
Also published as: US9142223B2; JP5845787B2; US20130085749A1

Abstract

【課題】他の音声処理装置を使用する他のユーザが音声を聞き取れるように、適正な音量の音声をユーザに発声させる音声処理装置、音声処理方法、および音声処理プログラムを提供する。
【解決手段】音声処理装置１０は、音声処理装置３０が集音した第二ユーザ４２の音声５１の音量Ｖ２１および雑音５２の音量Ｎ２１を特定する。音声処理装置１０は、特定した音声５１の音量Ｖ２１と雑音５２の音量Ｎ２１との差分４４（Ｖ２１−Ｎ２１）に基づき、音声処理装置１０が集音した雑音５６の音量Ｎ１１に加算する増分４３を特定する。音声処理装置１０は、増分４３を加算した結果の音量Ｖ１１である目標音量５５以上の音声を第一ユーザ４１に発声させるように、第一ユーザ４１に通知する。第一ユーザ４１が発声した音声は、音声処理装置３０から出力され、第二ユーザに到達する（Ｓ３）。
【選択図】図２

Description

本発明は、ユーザから発声された音声の音量を通知する機能を備えた音声処理装置、音声処理方法、および音声処理プログラムに関する。

マイクによって集音した音声を、遠隔地に設置された他の音声処理装置に対してネットワークを介して送信すると同時に、ネットワークを介して遠隔地の音声を受信し、スピーカから出力する音声処理装置が知られている。このような音声処理装置は、遠隔会議システム等において広く使用されている。音声処理装置の一例として、スピーカフォンが挙げられる。

通常、スピーカから出力される音には、音声と雑音とが含まれている。スピーカから出力される音声をユーザが明確に聞き取るためには、雑音の音量に対する音声の音量はより大きい方が望ましい。従ってユーザは、他の音声処理装置を使用する他のユーザが自分の音声をはっきりと聞き分けて認識できるように、より大きな声で発声し、より大きな音量の音声を他の音声処理装置のスピーカから出力させることが好ましい。例えば特許文献１では、集音された音声の音量と雑音の音量との割合に応じてランプを点灯させることによって、ユーザに大きな声で発声させ、音声を認識するために必要な音量の音声を得る技術が提案されている。

特開平６−７５５８８号公報

他拠点のユーザが、スピーカから送信された自拠点のユーザの音声を雑音と切り分けて認識するための条件は、他拠点の音声処理装置が使用される環境に応じて変化する。例えば他拠点の音環境が悪く、雑音の音量が大きい場合、自拠点のマイクによって集音される音のうち、雑音の音量に比べて音声の音量を相当大きくしなければ、他拠点のユーザは自拠点のユーザの音声を雑音と切り分けて認識することができない。このため、特許文献１に記載された技術を利用し、自拠点のユーザに大きな声で発声させた場合でも、他拠点のスピーカから出力される自拠点のユーザの音声の音量が不十分となる場合がある。この場合、他拠点のユーザは、スピーカから出力される自拠点のユーザの音声を十分認識することができないという問題点がある。

本発明の目的は、他の音声処理装置を使用する他のユーザが音声を聞き取れるように、適正な音量の音声をユーザに発声させる音声処理装置、音声処理方法、および音声処理プログラムを提供することである。

本発明の第一態様に係る音声処理装置は、他拠点に設置された他拠点マイクを介して集音された音に関する情報である音情報を取得する第一取得手段と、前記第一取得手段によって取得された前記音情報に基づいて、音声の音量および雑音の音量を特定する第一特定手段と、自拠点に設置された音声処理装置に接続された自拠点マイクを介して集音された音に基づいて、音声の音量および雑音の音量を特定する第二特定手段と、前記第一特定手段によって特定された前記音量、および、前記第二特定手段によって特定された前記音量に基づいて、前記音声処理装置が前記自拠点マイクを介して集音する前記音声の目標とする音量である目標音量を特定する第三特定手段と、前記第三特定手段によって特定された前記目標音量に関連する情報をユーザに通知する通知手段とを備えている。

第一態様によれば、音声処理装置は、適切な音量でユーザに音声を発声させることができる。これによって、他拠点装置を使用する他のユーザは、他拠点装置を介してユーザの音声を明確に認識できるようになる。音声処理装置は、音声および雑音の音量に基づいて目標音量を定め、ユーザに通知することができるので、自拠点の雑音の音量と比較して十分な大きさの音量で、ユーザに音声を発声させることができる。これによって他のユーザは、他拠点装置に接続された他拠点スピーカから出力される音声を、雑音と明確に区別して認識することができる。

第一態様において、前記第三特定手段は、前記第一特定手段によって特定された前記音声の音量と前記雑音の音量との差分または割合に基づき、前記目標音量を特定してもよい。音声処理装置では、他拠点装置において集音された音声および雑音の音量に基づいて目標音量が特定されることになる。従って、目標音量でユーザに音声を発声させることによって、他拠点毎に雑音環境が異なる場合でも、他のユーザは音声を雑音と明確に区別して認識することができる。音声処理装置は、他の音声処理装置が設置されている環境に応じて、目標音量を最適化することができる。

第一態様において、前記通知手段は、前記第三特定手段によって特定された前記目標音量と、前記第二特定手段によって特定された前記音声の音量との関係を示す情報を通知してもよい。音声処理装置のユーザは、発声した音声の音量が目標音量に対してどの程度であるかを認識することができる。従ってユーザは、目標音量を容易に判断し、音声の音量が目標音量に近づくように発声することができる。

第一態様において、前記通知手段は、前記第三特定手段によって特定された前記目標音量が、前記自拠点マイクを介して集音することが可能な最大音量を超えた場合に、最大音量を超えた旨をユーザに通知してもよい。これによって音声処理装置は、目標音量を集音することができない旨を、予めユーザに通知することができる。

第一態様において、自拠点に設置された他の音声処理装置である自拠点他装置から、前記音声の音量および前記目標音量を取得する第二取得手段を備え、前記通知手段は、前記第二取得手段によって取得された前記音声の音量が、前記第二特定手段によって特定された前記音声の音量よりも大きい場合に、前記第二取得手段によって取得された前記目標音量を示す情報を、前記第三特定手段によって特定された前記目標音量を示す情報の代わりにユーザに通知してもよい。これによって音声処理装置は、自拠点内の音声処理装置および自拠点装置のうち、ユーザに最も近い位置に設置された装置において特定された目標音量をユーザに通知することができる。従って、自拠点に音声処理装置および自拠点装置が設置されている場合に、最適な目標音量を示す共通の情報を、音声処理装置および自拠点他装置からユーザに通知することができる。

第一態様において、前記第一取得手段は、複数の他拠点の其々に設置された他拠点マイクを介して集音された複数の前記音情報を取得し、前記第一特定手段は、前記第一取得手段によって取得された前記複数の音情報に対応する複数の前記音声の音量のうち最も小さい前記音声の音量を特定し、前記複数の音情報に対応する複数の前記雑音の音量のうちもっとも大きい前記雑音の音量を特定してもよい。これによって音声処理装置は、音声の音量に対する雑音の音量が最も大きい環境に対応するように、目標音量を定めることができる。従って、目標音量でユーザに音声を発声させることによって、音声処理装置毎に雑音環境が異なる場合でも、他のユーザは、音声を雑音と明確に区別して認識することができる。

本発明の第二態様に係る音声処理方法は、他拠点に設置された他拠点マイクを介して集音された音に関する情報である音情報を、自拠点に設置された音声処理装置が取得する第一取得ステップと、前記第一取得ステップによって取得された前記音情報に基づいて、前記音声処理装置が音声の音量および雑音の音量を特定する第一特定ステップと、前記音声処理装置が、接続された自拠点マイクを介して集音された音に基づいて、音声の音量および雑音の音量を特定する第二特定ステップと、前記第一特定ステップによって特定された前記音量、および、前記第二特定ステップによって特定された前記音量のうち少なくともいずれかに基づいて、前記音声処理装置が前記自拠点マイクを介して集音する前記音声の目標とする音量である目標音量を特定する第三特定ステップと、前記第三特定ステップによって特定された前記目標音量に関連する情報を、前記音声処理装置がユーザに通知する通知ステップとを備えている。第二態様によれば、第一態様と同様の効果を奏することができる。

本発明の第三態様に係る音声処理プログラムは、他拠点に設置された他拠点マイクを介して集音された音に関する情報である音情報を取得する第一取得ステップと、前記第一取得ステップによって取得された前記音情報に基づいて、音声の音量および雑音の音量を特定する第一特定ステップと、自拠点に設置された音声処理装置に接続された自拠点マイクを介して集音された音に基づいて、音声の音量および雑音の音量を特定する第二特定ステップと、前記第一特定ステップによって特定された前記音量、および、前記第二特定ステップによって特定された前記音量のうち少なくともいずれかに基づいて、前記音声処理装置が前記自拠点マイクを介して集音する前記音声の目標とする音量である目標音量を特定する第三特定ステップと、前記第三特定ステップによって特定された前記目標音量に関連する情報をユーザに通知する通知ステップとを音声処理装置のコンピュータに実行させる。第三態様によれば、第一態様と同様の効果を奏することができる。

音声処理装置１０、３０を含む会議システム１の概要、および音声処理装置１０の電気的構成を示す図である。音声および雑音の音量を説明するための図である。目標音量Ｔを説明するための説明図である。関数７０を示すグラフである。メイン処理を示すフローチャートである。第一特定処理を示すフローチャートである。第三特定処理を示すフローチャートである。出力部２８に表示される通知画面６１〜６３を示す図である。出力部２８に表示される通知画面７１〜７３を示す図である。

以下、本発明の一実施形態について、図面を参照して説明する。これらの図面は、本発明が採用しうる技術的特徴を説明するために用いられるものである。記載されている装置の構成、各種処理のフローチャート等は、それのみに限定する趣旨ではなく、単なる説明例である。

図１を参照し、会議システム１の概要について説明する。会議システム１は、音声処理装置１１、１２、１３、３１、３２、および、ＰＣ１５、３５を備えている。音声処理装置１１、１２、１３、およびＰＣ１５は、同一拠点（以下、第一拠点もいう。）に設置されている。音声処理装置３１、３２、および、ＰＣ３５は、第一拠点とは異なる拠点（以下、第二拠点という。）に設置されている。音声処理装置１１、１２、１３、およびＰＣ１５は、通信ケーブルによってディジーチェーン接続している。ディジーチェーンとは、複数の装置を数珠つなぎに連結する接続方法を示す。ＰＣ１５は、インターネット網１６にも接続している。同様に、音声処理装置３１、３２、およびＰＣ３５は、通信ケーブルによってディジーチェーン接続している。ＰＣ３５は、インターネット網１６にも接続している。以下、音声処理装置１１、１２、１３を区別しない場合または総称する場合、これらを音声処理装置１０という。音声処理装置３１、３２を区別しない場合または総称する場合、これらを音声処理装置３０という。

第一拠点に設置された音声処理装置１０は、ＰＣ１５、インターネット網１６、およびＰＣ３５を介し、第二拠点に設置された音声処理装置３０と通信を行うことができる。音声処理装置１０は、マイク２５（後述）によって集音した音声のデータを音声処理装置３０に送信すると同時に、音声処理装置３０から音声のデータを受信し、スピーカ２４（後述）から音声を出力する。音声処理装置１０を使用する第一拠点のユーザは、音声処理装置３０を使用する第二拠点のユーザとの間で、音声による遠隔会議を行うことができる。以下、第一拠点のユーザを第一ユーザといい、第二拠点のユーザを第二ユーザという。

また会議システム１では、音声処理装置１１、１２、１３を第一拠点内の広い領域に点在させることができる。そして、第二拠点に設置された音声処理装置３０から送信された音声のデータに基づく音声を、音声処理装置１１、１２、１３のスピーカ２４から出力させることができる。これによって、スピーカ２４から出力される音声が広範にわたる領域で聞こえるようにすることができる。また音声処理装置１０は、第一拠点の音声を隅々まで集音し、第二拠点に設置された音声処理装置３０に対してデータを送信することができる。

なお会議システム１において、ＰＣ１５、３５に其々ディスプレイおよびカメラが接続されてもよい。ＰＣ１５は、カメラによって撮影された第一拠点の映像のデータを、インターネット網１６を介してＰＣ３５に送信すると同時に、インターネット網１６を介してＰＣ３５から映像のデータを受信し、ディスプレイに映像を表示してもよい。これによって第一拠点の第一ユーザは、第二拠点の第二のユーザとの間で、映像および音声による遠隔会議を行うことができる。

音声処理装置１０の電気的構成について説明する。音声処理装置３０の電気的構成は、音声処理装置１０の電気的構成と同一である。音声処理装置１０は、音声処理装置１０の制御を司るＣＰＵ２０を備えている。ＣＰＵ２０は、ＲＯＭ２１、ＲＡＭ２２、フラッシュメモリ２３、スピーカ２４、マイク２５、通信インタフェース（以下、通信Ｉ／Ｆという。）２６、入力部２７、および出力部２８と電気的に接続している。ＲＯＭ２１には、ブートプログラム、ＢＩＯＳ、ＯＳ等が記憶される。ＲＡＭ２２には、タイマやカウンタ、一時的なデータが記憶される。フラッシュメモリ２３には、ＣＰＵ２０の制御プログラムが記憶される。通信Ｉ／Ｆ２６は、他の音声処理装置１０およびＰＣ１５と通信を行うためのインタフェースである。なお音声処理装置１０は、異なる二つの他の装置と接続することによってディジーチェーン接続を実現している。このため、異なる二つの他の装置の其々と通信を行うために、通信Ｉ／Ｆ２６は二つ以上設けられる。入力部２７は、音声処理装置１０に各種設定を行うためのボタンである。出力部２８は、ユーザに情報を通知するための液晶ディスプレイである。

図２を参照し、第一拠点および第二拠点における音声および雑音の関係について説明する。第二拠点の第二ユーザ４２から音声５１（音量Ｖ２１）が発声されたとする。音声５１は、第二拠点内を伝播して音声処理装置３０に到達する（Ｓ１）。音声処理装置３０のマイク２５によって、第二ユーザ４２の音声５１が集音される。また音声処理装置３０のマイク２５は、第二ユーザ４２の音声５１を集音すると同時に、第二拠点内で発生している雑音５２（音量Ｎ２１）も集音する。音声処理装置３０は、集音した第二ユーザ４２の音声５１および雑音５２をデータ化し、音声処理装置１０に対して送信する。音声処理装置１０は、音声処理装置３０から受信したデータに基づき、第二ユーザ４２の音声をスピーカ２４から出力する。

第一拠点でも同様に、第一ユーザ４１から音声５５が発声される。第一ユーザ４１の音声５５は第一拠点内を伝播する（Ｓ２）。音声処理装置１０のマイク２５によって、音声５５（音量Ｖ１１）および雑音５６（音量Ｎ１１）が集音される。音声処理装置１０は、集音した第一ユーザ４１の音声５５および雑音５６をデータ化し、音声処理装置３０に送信する。

音声処理装置３０は、音声処理装置１０からデータを受信する。音声処理装置３０は、受信したデータに基づき、第一ユーザ４１の音声５９（音量Ｖ２２）および雑音６０（音量Ｎ２２）をスピーカ２４から出力する。第一拠点の音声処理装置１０のマイク２５において集音された音声５５の音量（Ｖ１１）と雑音５６の音量（Ｎ１１）との関係は、第二拠点の音声処理装置３０のスピーカ２４から出力される音声５９の音量（Ｖ２２）と雑音６０の音量（Ｎ２２）との関係に反映される。音声処理装置３０のスピーカ２４から出力された音声５９および雑音６０は、第二拠点内を伝播し（Ｓ３）、第二ユーザ４２に到達する。

第二ユーザ４２が第一ユーザ４１の音声を雑音と区別して認識するためには、少なくとも音声５９の音量Ｖ２２が雑音６０の音量Ｎ２２よりも大きい必要がある。また、第二拠点内で雑音５２が発生している場合、第二ユーザ４２には、音声処理装置３０のスピーカ２４から出力される音声５９および雑音６０に加えて、第二拠点内で発生している雑音５２も聞こえている。従って、第二ユーザ４２が第一ユーザ４１の音声を更に良好に認識するためには、音声５９の音量Ｖ２２は、スピーカ２４から出力される雑音６０の音量Ｎ２２や第二拠点内の雑音５２の音量５２と比較して大きくなることが好ましい。

第一ユーザ４１は、第二ユーザ４２に自分の音声を良好に認識させるために、できるだけ大きな声で音声５５を発声することが好ましい。しかしながら第一ユーザ４１は、第二拠点内で発生している雑音５２の音量の程度がわからないので、どの程度大きな音量で音声５５を発声した場合に第二ユーザ４２が音声５９を認識できるかを判断することができない。これに対して本実施形態では、音声処理装置１０は、音声処理装置３０のマイク２５において集音された音声５１および雑音５２のデータに基づき、音声５１の音量Ｖ２１と雑音の音量Ｎ２１との差分４４を算出する。音声処理装置１０は、算出した差分４４に基づき、第二ユーザ４２が第一ユーザ４１の音声５９を雑音５２、６０と区別して認識するために必要な第一ユーザ４１の音声の音量を、集音する音声の目標とする音量（以下、目標音量という。）として特定し、第一ユーザ４１に通知する。ここで第二拠点の第二ユーザ４２は、第二拠点内で発生している雑音５２や、音声処理装置３０の間の距離を考慮して音声５１を発声していることが想定される。このため音声処理装置１０は、第一ユーザ４１によって発声される音声５５と雑音５６との差分４３が、少なくとも差分４４よりも大きくなるように目標音声を特定する。第一ユーザ４１が通知に応じ、目標音量以上の音量で音声を発声することによって、第二ユーザ４２は、第一ユーザ４１の音声５９を、音声処理装置３０のスピーカ２４から出力される雑音６０や第二拠点内の雑音５２と区別して認識することが可能となる。以下詳説する。

図３を参照し、第一拠点の音声処理装置１０において目標音量を特定するための方法について説明する。はじめに音声処理装置１０は、第二拠点の音声処理装置３０がマイク２５を介して集音した音声５１の音量Ｖ２１および雑音５２の音量Ｎ２１（図２参照）を特定する。次に音声処理装置１０は、音量Ｖ２１から音量Ｎ２１を減算することによって差分（Ｖ２１−Ｎ２１）を算出する（Ｓ６）。なお音声処理装置１０は、差分（Ｖ２２−Ｎ２１）に基づき、第二拠点における音声処理装置３０と第二ユーザ４２との間のおおよその距離を推定することができる。音声処理装置３０と第二ユーザ４２との間の距離が短い場合、音声処理装置３０に到達する第二ユーザ４２の音声の音量は大きくなるので、差分も大きくなるためである。一方、音声処理装置３０と第二ユーザ４２との間の距離が長い場合、音声処理装置３０に到達する第二ユーザ４２の音声の音量は小さくなるので、差分も小さくなるためである。

次に音声処理装置１０は、算出した差分（Ｖ２１−Ｎ２１）に所定の変数Ｙを乗算し、増分Ｄを算出する（Ｓ７）。
Ｄ＝Ｙ（Ｖ２１−Ｎ２１）
変数Ｙは、フラッシュメモリ２３に記憶された関数７０（図４参照）を用いて算出される。図４は、フラッシュメモリ２３に記憶された関数７０を説明するためのグラフである。関数７０では、差分（横軸）の増加に伴い、変数Ｙは急激に減少する。そして、差分が所定の閾値よりも大きくなった場合、変数Ｙの減少傾向は小さくなる。変数Ｙが急激に減少する領域、すなわち、雑音に対して音声が比較的小さい領域では、音声の認識に十分な音量を確保するため、積極的に変数Ｙを制御している。一方、変数Ｙの減少傾向が小さい領域、すなわち、雑音に対して音声が比較的大きい領域では、差分が大きくなっても音声の認識度合いに大きな影響を及ぼさないので、積極的な変数Ｙの制御を行わない。変数Ｙは、差分（Ｖ２１−Ｎ２１）に関数７０を適用することによって、一意に特定される。関数７０を適用した場合、差分（Ｖ２１−Ｎ２１）の増加に伴ってＹは小さくなる傾向となる。

また図４に示すように、音声処理装置１０は、音声処理装置３０の種類や、音声処理装置３０が設置されている環境に応じて、異なる関数７１、７２、７３を用い、変数Ｙを算出する。これによって音声処理装置１０は、音声処理装置３０の種類や、音声処理装置３０が設置されている環境に応じて、第二拠点での音声の減衰量を適切に特定し、最適な目標音量を特定することができる。例えば、大きな音声を出力可能な音声処理装置３０が第二拠点に設置されている場合、より広い場所での使用が想定されるので、音声処理装置３０と第二ユーザ４２との間の距離は大きくなることが考えられる。この場合、音声処理装置１０では、より大きな変数Ｙが選択されるように、関数７３が選択される。これによって、音声の減衰分をより積極的に補完することができる。また、図４で示した関数は、一実施例として比例関数の連結としたが、これに限るものではなく、例えば２次関数と連結するようにしてもよい。

図３に示すように、音声処理装置１０は、音声処理装置１０に設けられたマイク２５を介して集音した音声５５の音量Ｖ１１および雑音５６の音量Ｎ１１（図２参照）を特定する。音声処理装置１０は、特定した雑音５６の音量Ｎ１１に、Ｓ７で算出した増分Ｄ（Ｙ（Ｖ２１−Ｎ２１））を加算することによって、目標音量Ｔを算出する（Ｓ８）。
Ｔ＝Ｎ１１＋Ｄ＝Ｎ１１＋Ｙ（Ｖ２１−Ｎ２１）

音声処理装置１０は、特定した目標音量を通知するための画面を、出力部２８に表示する。これによって音声処理装置１０は、目標音量を第一ユーザ４１に通知し、目標音量で音声を発声するように促す。ここで、第一ユーザ４１から発声された音声が第一拠点内を伝播し（Ｓ２、図２参照）、目標音量以上の音量で音声処理装置１０のマイク２５によって集音されたとする。集音された第一ユーザ４１の音声５５は、音声処理装置１０のマイク２５によって同様に集音された雑音５６（図２参照）と共にデータ化され、音声処理装置３０に対して送信される。音声処理装置３０は、音声処理装置１０から受信したデータに基づき、第一ユーザ４１の音声５９（音量Ｖ２２）および雑音６０（音量Ｎ２２）（図２参照）をスピーカ２４から出力する。出力された第一ユーザ４１の音声５９および雑音６０は、第二拠点内を伝播（Ｓ３、図２参照）し、第二ユーザ４２に到達する。ここで、第一ユーザ４１から発声された音声は、目標音量以上の音量で集音されているので、音声５９の音量Ｖ２２と雑音６０の音量Ｎ２２との差分４５（Ｖ２２−Ｎ２２）（図２参照）は、第二ユーザ４２によって発声された音声５１の音量Ｖ２１と雑音５２の音量Ｎ２１との差分４３（Ｖ２１−Ｎ２１）（図２参照）よりも大きくなる。従って第二ユーザ４２は、第一ユーザ４１の音声を雑音と明確に区別して認識することができる。

以上のように、音声処理装置１０では、音声処理装置３０において集音された音声５１の音量Ｖ２１および雑音５２の音量Ｎ２１に基づいて目標音量が特定されることになる。従って、目標音量以上の音量で第一ユーザ４１に音声を発声させることによって、第二拠点毎に音環境が異なる場合でも、第二ユーザ４２は第一ユーザ４１の音声５９を雑音６０と明確に区別して認識することができる。

図５から図７を参照し、音声処理装置１０が実行するメイン処理について説明する。以下説明するメイン処理は、フラッシュメモリ２３に記憶されている音声処理プログラムに従って、音声処理装置１０のＣＰＵ２０が実行する。メイン処理は、音声処理装置１０の電源がＯＮされた場合に、フラッシュメモリ２３に記憶されたメイン処理用のプログラムが起動されて開始される。そして、ＣＰＵ２０がこのプログラムを実行することにより行われる。なお以下では、図１における第一拠点に設置された音声処理装置１１のＣＰＵ２０において実行されるメイン処理を例に挙げて説明する。従って音声処理装置１１は、第一拠点内で音声処理装置１２、１３と直接接続した状態となっている。また音声処理装置１１は、ＰＣ１５、３５、およびインターネット網１６を介して、第二拠点に設置された音声処理装置３１、３２と接続した状態となっている。

なおメイン処理では、自拠点に対応する音声の音量（以下、自拠点音声音量という。）および雑音の音量（以下、自拠点雑音音量という。）、並びに、他拠点に対応する音声の音量（以下、他拠点音声音量という。）および雑音の音量（以下、他拠点雑音音量という。）をＲＡＭ２２に記憶して使用する。

図３に示すように、メイン処理が開始されると、ＣＰＵ２０は、音声処理装置１２、１３から送信された音情報を受信する（Ｓ１０）。ＣＰＵ２０は、音声処理装置１１に設けられたマイク２５を介して音を集音する。ＣＰＵ２０は、集音した音をデータ化し、Ｓ１０で音声処理装置１２、１３から受信した音情報とミキシングして、第二拠点に設置された音声処理装置３１に対して送信する（Ｓ１１）。次にＣＰＵ２０は、音声処理装置３１から送信された音情報を受信し（Ｓ１３）、音声処理装置１２、１３に対して転送する（Ｓ１４）。ＣＰＵ２０は、受信した音情報を、ＲＡＭ２２に記憶する。ＣＰＵ２０は、ＲＡＭ２２に記憶した音情報のうち、第二拠点に設置された音声処理装置３１から受信した音情報に基づいて、音声の音量および雑音の音量を特定する処理（第一特定処理、図６参照）を実行する（Ｓ１５）。

図６を参照し、第一特定処理について説明する。ＣＰＵ２０は、Ｓ１３（図５参照）で受信し、ＲＡＭ２２に記憶した音情報から、所定単位（例えば５秒）のデータを抽出する（Ｓ３０）。ＣＰＵ２０は、抽出した音情報の音量の変化の程度（音量のレベル差）が、所定時間（例えば３秒）以上連続して所定レベル（例えば１０ｄＢ）以下となるか否を判断する。ＣＰＵ２０は、抽出した音情報音量の変化の程度が所定時間以上連続して所定レベル以下であった場合（Ｓ３１：ＹＥＳ）、ＣＰＵ２０は、音には雑音のみが含まれており、音声が含まれていないと判断する。ＣＰＵ２０は、所定時間内の音の音量の平均（例えば、等価騒音レベル）を算出し、雑音の音量として特定する（Ｓ３３）。以下、特定した雑音の音量を、特定雑音音量という。

ＣＰＵ２０は、Ｓ３５〜Ｓ３９の処理によって、第二拠点に設置された音声処理装置３１、３２において集音された音に含まれる雑音の音量の最大値を特定し、他拠点雑音音量としてＲＡＭ２２に記憶する。詳細は次のとおりである。ＣＰＵ２０は、ＲＡＭ２２に記憶された他拠点雑音音量と、特定雑音音量とを比較する（Ｓ３５）。ＲＡＭ２２に記憶された他拠点雑音音量と特定雑音音量とが同レベルである場合（Ｓ３５：ＹＥＳ）、ＣＰＵ２０は、ＲＡＭ２２に記憶された他拠点雑音音量を更新せず、処理はＳ４９に進む。一方、ＲＡＭ２２に記憶された他拠点雑音音量と特定雑音音量とが大きく相違する場合（Ｓ３５：ＮＯ）、ＣＰＵ２０は、特定雑音音量が他拠点雑音音量よりも大きいかを判断する（Ｓ３７）。特定雑音音量が他拠点雑音音量よりも大きい場合（Ｓ３７：ＹＥＳ）、新たな他拠点雑音音量として特定雑音音量をＲＡＭ２２に記憶することで、他拠点雑音音量を更新する（Ｓ３９）。処理はＳ４９に進む。一方、特定雑音音量が他拠点雑音音量以下である場合（Ｓ３７：ＮＯ）、ＣＰＵ２０は、ＲＡＭ２２に記憶された他拠点雑音音量を更新せず、処理はＳ４９に進む。

一方でＣＰＵ２０は、Ｓ１３（図５参照）で受信した音情報によって特定される音の音量が、所定時間内に所定レベルを超えた場合、音量の変化の程度が大きいと判断する（Ｓ３１：ＮＯ）。この場合ＣＰＵ２０は、音声が音に含まれていると判断する。ＣＰＵ２０は、所定時間内の音の音量の平均（例えば、等価雑音レベル）を算出し、音声の音量として特定する（Ｓ４１）。以下、特定した音声の音量を、特定音声音量という。

ＣＰＵ２０は、Ｓ４３〜Ｓ４７の処理によって、第二拠点に設置された音声処理装置３１、３２において集音された音に含まれる音声の音量の最小値を特定し、他拠点音声情報としてＲＡＭ２２に記憶する。詳細は次のとおりである。ＣＰＵ２０は、ＲＡＭ２２に記憶された他拠点音声音量と、特定音声音量とを比較する（Ｓ４３）。ＲＡＭ２２に記憶された他拠点音声音量と特定音声音量とが同レベルである場合（Ｓ４３：ＹＥＳ）、ＣＰＵ２０は、ＲＡＭ２２に記憶された他拠点音声音量を更新せず、処理はＳ４９に進む。一方、ＲＡＭ２２に記憶された他拠点音声音量と特定音声音量とが大きく相違する場合（Ｓ４３：ＮＯ）、ＣＰＵ２０は、特定音声音量が他拠点音声音量よりも小さいかを判断する（Ｓ４５）。特定音声音量が他拠点音声音量よりも小さい場合（Ｓ４５：ＹＥＳ）、新たな他拠点音声音量として特定音声音量をＲＡＭ２２に記憶することで、他拠点音声音量を更新する（Ｓ４７）。処理はＳ４９に進む。一方、特定音声音量が他拠点音声音量以上である場合（Ｓ４５：ＮＯ）、ＣＰＵ２０は、ＲＡＭ２２に記憶された他拠点音声音量を更新せず、処理はＳ４９に進む。

ＣＰＵ２０は、Ｓ１３（図５参照）においてＲＡＭ２２に記憶した音情報の全てを、Ｓ３０にて抽出したかを判断する（Ｓ４９）。ＣＰＵ２０は、Ｓ３０において選択していない音情報がＲＡＭ２２に残っている場合（Ｓ４９：ＮＯ）、残りの音情報の処理を行うために、処理はＳ３０に戻る。一方、Ｓ３０において全ての音情報を選択している場合（Ｓ４９：ＹＥＳ）、第一特定処理は終了し、処理はメイン処理（図５参照）に戻る。

以上のようにしてＲＡＭ２２に記憶された他拠点音声音量は、第二拠点に設置された音声処理装置３１、３２において集音された音声の音量のうち最も小さい音量を表している。また他拠点雑音音量は、第二拠点に設置された音声処理装置３１、３２において集音された雑音の音量のうち最も大きい音量を表している。従って、他拠点音声音量と他拠点雑音音量との関係は、音声の音量に対して雑音の音量が最も大きくなる、言い換えれば、音声に対して雑音が最も大きく影響する環境における関係を示していることになる。なお、図３を参照して説明したように、音声処理装置１０は、第二拠点の音声処理装置３０において集音された音声の音量と雑音の音量との関係に基づいて目標音量を特定する。従って特定される目標音量は、音声に対して雑音が最も大きく影響する環境においても音声を雑音と区別して認識させることが可能な目標音量に相当する。従って音声処理装置１０は、第二拠点および音声処理装置３０周辺の音環境が悪い場合でも、第二ユーザが第一ユーザの音声を雑音と明確に区別できるように、第一ユーザに音声を発声させることができる。

図５に示すように、第一特定処理（Ｓ１５）の終了後、ＣＰＵ２０は、第二特定処理を実行する（Ｓ１７）。第二特定処理において、ＣＰＵ２０は、Ｓ１１（図５参照）にて集音した音から、第一ユーザの音声および雑音を分離し、音声の音量および雑音の音量を特定する。特定された音声の音量は、自拠点音声音量としてＲＡＭ２２に記憶される。特定された雑音の音量は、自拠点雑音音量としてＲＡＭ２２に記憶される。

なお、音声と雑音とを音から分離する方法として、周知の様々な方法を用いることができる。例えばＣＰＵ２０は、第一特定処理（図６参照）において音声および雑音を音から分離した方法と同一方法を用いてもよい。また例えばＣＰＵ２０は、バンドパスフィルタを用い、音声および雑音を周波数的に分離することによって、音声と雑音とを音から分離してもよい。

第二特定処理（Ｓ１７）の終了後、ＣＰＵ２０は、ＲＡＭ２２に記憶された自拠点音声音量、自拠点雑音音量、他拠点音声音量、および他拠点雑音音量に基づいて目標音量を特定する処理（第三特定処理、図７参照）を実行する（Ｓ１９）。図７を参照し、第三特定処理について説明する。ＣＰＵ２０は、ＲＡＭ２２に記憶された他拠点音声音量と他拠点雑音音量との差分を算出する（Ｓ５１）（Ｓ６（図３参照））。次にＣＰＵ２０は、算出された差分を関数７０（図４参照）に適用することによって、変数Ｙを特定する。ＣＰＵ２０は、特定した変数Ｙと、Ｓ５１で算出した差分とを乗算することによって、増分Ｄを算出する（Ｓ７、図３参照）。ＣＰＵ２０は、算出した増分Ｄに、ＲＡＭ２２に記憶した自拠点雑音音量を加算することによって、目標音量を特定する（Ｓ５３）（Ｓ８、図３参照）。

なおこの時点で、第一拠点に設置された音声処理装置１２、１３においても同様に目標音量が算出されている。ＣＰＵ２０は、第一拠点に設置された音声処理装置１１、１２、１３の其々の出力部２８から、同一の目標音量を通知するための情報を表示して第一ユーザに認識させるために、Ｓ５５〜Ｓ６３の処理を行う。はじめにＣＰＵ２０は、第一拠点に他の音声処理装置１０が設置されているかを判断する（Ｓ５５）。ここで図１とは異なり、第一拠点に音声処理装置１２、１３が設置されておらず、音声処理装置１１に音声処理装置１２、１３が接続されていない場合（Ｓ５５：ＮＯ）、Ｓ５３で特定された目標音量はそのまま有効となるので、第三特定処理は終了し、処理はメイン処理（図５参照）に戻る。

一方、図１に示すように、第一拠点に音声処理装置１１、１２、１３が設置されており、互いに接続されている場合（Ｓ５５：ＹＥＳ）、ＣＰＵ２０は、Ｓ５３で特定した目標音量と自拠点音声音量とを通知するための通知データを、音声処理装置１１のＩＤを付与して音声処理装置１２、１３に対して送信する（Ｓ５７）。次いでＣＰＵ２０は、音声処理装置１２、１３から同様に送信された通知データを受信する（Ｓ５９）。

ＣＰＵ２０は、音声処理装置１１に設けられたマイク２５によって集音された音声の音量を、第二特定処理（Ｓ１７（図５参照））によって特定している。そしてＣＰＵ２０は、特定した音声の音量を、自拠点音声音量としてＲＡＭ２２に記憶している（Ｓ１７（図５参照））。またＣＰＵ２０は、Ｓ５９で受信した通知データに基づき、音声処理装置１２、１３の其々によって集音された音声の音量を取得することができる。音声処理装置１２、１３の其々によって集音された音声の音量と、自拠点音声音量とを比較し、最大の音量の音声が集音された音声処理装置１０を特定する（Ｓ６１）。ＣＰＵ２０は、特定した音声処理装置１０によって算出された目標音量を、Ｓ５９で受信した通知データによって通知された目標音量、または、Ｓ５３で算出した目標音量の中から選択する。ＣＰＵ１０は、Ｓ５３で算出した目標音量を、上述のようにして選択した目標音量によって修正する（Ｓ６３）。この場合、後述する表示処理（Ｓ２１、図５参照）では、修正された目標音量を示す情報が、Ｓ５３で特定された目標音量を示す情報をの代わりに出力部２８（図１参照）に表示されることになる。第三特定処理は終了し、処理はメイン処理（図５参照）に戻る。

以上の処理を行うことで、音声処理装置１１は、第一拠点に設置された音声処理装置１１、１２、１３のうち、第一ユーザに最も近い位置に設置された音声処理装置１０において算出された目標音量を特定することができる。マイク２５によって集音された音声の音量が大きい程、ユーザは音声処理装置１０の近くにいることが想定されるためである。このように音声処理装置１０は、第一拠点に設置された音声処理装置１０の其々によって特定された目標音量のうち最適な目標音量を特定し、第一ユーザに対して通知することができる。

図５に示すように、第三特定処理（Ｓ１９）の終了後、ＣＰＵ２０は、第三特定処理によって特定された目標音量を第一ユーザに通知する通知画面を、出力部２８に表示する（Ｓ２１）。図８を参照し、出力部２８に表示される通知画面６１〜６３について説明する。なお通知画面６１〜６３は、其々、異なる条件で出力部２８に表示される通知画面を示している。

通知画面６１〜６３には、第一表示部６４、第二表示部６５、および第三表示部６６が設けられている。第一表示部６４は、マイク２５によって集音することが可能な音の音量を１０段階表示するための表示部である。第一表示部６４は、上下方向に並んだ１０つの長方形６４１、および、各長方形の左側に配置された数字６４２を備えている。数字６４２は、下端からの段数を示している。第二表示部６５は、マイク２５によって実際に集音された音声の音量を示す表示部である。第二表示部６５は、第一表示部６４の長方形の内部を塗り潰すように表示される。第三表示部６６は、目標音量を示すための表示部である。第三表示部６６は、第一表示部６４の長方形の枠線よりも太い枠線であり、第一表示部６４の長方形に重ねて表示される。例えば通知画面６１は、マイク２５によって実際に集音された音声の音量が５であり、目標音量が７であることを示している。また通知画面６２は、マイク２５によって実際に集音された音声の音量が７であり、目標音量が５であることを示している。

ＣＰＵ２０は、マイク２５によって集音することが可能な音の音量に対する、ＲＡＭ２２に記憶された自拠点音声音量の割合を算出することによって、第二表示部６５を第一表示部６４のどの段階まで表示するかを決定する。例えば、マイク２５によって集音することが可能な音の音量１０に対して、自拠点音声音量が５である場合、通知画面６１に示すように、第二表示部６５は、第一表示部６４における１〜５番目の長方形６４１の内部に表示される。またＣＰＵ２０は、マイク２５において集音することが可能な音の音量１０に対して、目標音量が７と特定された場合、通知画面６１に示すように、第三表示部６６は、第一表示部６４における７〜１０番目の長方形６４１に重ねて表示される。

例えば、第一ユーザが音声処理装置１１に対して音声を発生し、出力部２８に通知画面６１が表示された場合、第一ユーザは、発声した音声の音量（５）が目標音量（７）に達していないことを認識できる。また第一ユーザは、もう少し大きな声で音声を発声することによって、音声の音量が目標音量に到達することを認識できる。また例えば、第一ユーザが音声処理装置１１に対して音声を発生し、出力部２８に通知画面６２が表示された場合、第一ユーザは、発声した音声の音量（７）が目標音量（５）に達しており、第二ユーザが音声を雑音と区別して認識できる状態にあることを確認することができる。このように第一ユーザは、発声した音声の音量が目標音量に対してどの程度であるかを認識することができる。このため第一ユーザは、音声の音量が目標音量に近づくように心がけて発声することができる。

さらに通知画面６３では、第一表示部６４および第二表示部６５のみ表示されており、第三表示部６６が表示されていない。このように第三表示部６６が表示されない状態は、マイク２５において受信可能な音の最大音量よりも目標音量の方が大きくなっていることを示している。このことは、マイク２５において受信可能な最大の音量で第一ユーザが音声を発声しても、音声の音量は目標音量に達しないことを意味している。従って第一ユーザがいくら大きな声で音声を発声したとしても、第二ユーザは音声を雑音と区別して認識することができないことになる。このように音声処理装置１１は、第一ユーザが大きな音量の音声を発声したとしても、マイク２５が目標音量で音声を集音することができない旨を、予め第一ユーザに通知することができる。

図５に示すように、通知画面６１〜６３を出力部２８に表示した後、ＣＰＵ２０は、遠隔会議を終了する指示を、入力部２７を介して検出したかを判断する（Ｓ２３）。ＣＰＵ２０は、遠隔会議を終了する指示を検出していない場合（Ｓ２３：ＮＯ）、通知表示６１〜６３を継続して出力部２８に表示させるため、処理はＳ１０に戻る。一方、遠隔会議を終了する指示を検出した場合（Ｓ２３：ＹＥＳ）、メイン処理を終了する。

以上説明したように、音声処理装置１０は、目標音量を算出して第一ユーザに通知することによって、適切な音量でユーザに音声を発声させることができる。これによって、第二拠点に設置された音声処理装置３１、３２を使用する第二ユーザは、音声処理装置３１、３２を介して第一ユーザの音声を明確に認識できるようになる。音声処理装置１０は、他拠点音声音量および他拠点雑音音量に基づいて目標音量を特定するので、雑音の音量と比較して十分な大きさの音量で、第一ユーザに音声を発声させることができる。これによって第二ユーザは、音声処理装置３１、３２に設けられたスピーカ２４から出力される第一ユーザの音声を、雑音と明確に区別して認識することができる。

音声処理装置１０は、同一拠点内に複数の音声処理装置１０が設置されている場合、これらの音声処理装置１０のうち、集音される音声の音量が最も大きい音声処理装置１０がユーザの音声を最も効率よく集音していると判断する。また音声処理装置１０は、効率よく集音している音声処理装置１０が、ユーザの音声を最も集音しやすい、言い換えれば、ユーザに最も近い位置に設置されていると判断する。この場合、該当する音声処理装置１０において特定された目標音量を示す情報が、同一拠点内に設置されたすべての音声処理装置１０の出力部２８から表示される。複数の音声処理装置１０で別々の情報が表示されると、ユーザはどの情報を信じてよいかわからなくなるためである。音声処理装置１０は、共通の目標音量を示す情報を表示することで、ユーザに目標音量を統一的に通知することができる。

なお、Ｓ１３の処理を行うＣＰＵ２０が本発明の「第一取得手段」に相当する。Ｓ１５の処理を行うＣＰＵ２０が本発明の「第一特定手段」に相当する。Ｓ１７の処理を行うＣＰＵ２０が本発明の「第二特定手段」に相当する。Ｓ５３の処理を行うＣＰＵ２０が本発明の「第三特定手段」に相当する。Ｓ２１の処理を行うＣＰＵ２０が本発明の「通知手段」に相当する。Ｓ１３、Ｓ５９の処理を行うＣＰＵ２０が本発明の「第二取得手段」に相当する。Ｓ１３の処理が本発明の「第一取得ステップ」に相当する。Ｓ１５の処理が本発明の「第一特定ステップ」に相当する。Ｓ１７の処理が本発明の「第二特定ステップ」に相当する。Ｓ５３の処理が本発明の「第三特定ステップ」に相当する。Ｓ２１の処理が本発明の「通知ステップ」に相当する。

なお本発明は上述の実施形態に限定されず、種々の変更が可能である。図１のシステム構成は本発明の一例であり、他のシステム構成であってもよい。例えばインターネット網１６の代わりに、固定電話網、移動電話網、専用通信網等、周知の様々な外部通信網が使用され、自拠点と他拠点との間で通信が実行されてもよい。音声処理装置１０は、ＰＣ１５の代わりに、音声処理装置１０以外の様々な機器（固定電話機、携帯電話機、ルータ、モデム等）を介して外部通信網と接続してもよい。また音声処理装置１０は、外部通信網と直接接続してもよい。

上述では、音声処理装置１０にスピーカ２４およびマイク２５が設けられていたが、音声処理装置１０はスピーカ２４およびマイク２５を備えていなくてもよく、外付けのスピーカおよびマイクを接続して使用してもよい。上述では、ＲＡＭ２２に記憶された他拠点音声音量と他拠点雑音音量との差分に基づき、目標音量を算出した。これに対し、音声処理装置１０は、他拠点音声音量と他拠点雑音音量との割合に基づき、目標音量を算出してもよい。また音声処理装置１０は、自拠点音声音量、自拠点雑音音量、他拠点音声音量、および他拠点雑音音量のうちいずれかの情報のみに基づいて、目標音量を算出してもよい。音声処理装置１０は、目標音量のみを第一ユーザに通知し、第一ユーザの発声した音声の音量は通知しなくてもよい。また例えば音声処理装置１０は、第一ユーザの発声した音声が目標音量に達しているか否かを通知する情報のみを、出力部２８に表示してもよい。

音声処理装置１１は、第一拠点に設置された他の音声処理装置１２、１３との間で目標音量を調整し、共通の目標音量を出力部２８に表示していた。これに対して音声処理装置１０は、其々において特定された目標音量を別々に出力部２８に出力してもよい。音声処理装置１０は、第一ユーザが複数である場合、全てのユーザの音を音情報として他の音声処理装置１０、３０に送信しても良いし、ユーザ毎に異なる音情報を送信してもよい。また音声処理装置１０は、ユーザ毎に異なる音情報を受信した場合、ユーザ毎に異なる目標音量を特定し、ユーザを識別する情報と共に出力部２８に表示することによってユーザに通知してもよい。

上述における通知画面６１〜６３は別の態様であってもよい。図８では、第一表示部６４の枠線に対して、第三表示部６６の枠線を太くすることによって、双方を区別していた。例えば、第一表示部６４の枠線の色と、第三表示部６６の枠線の色とを変えることによって、双方を区別してもよい。具体的には、例えば、第一表示６４の枠線を赤色とし、第三表示部６６の枠線を青色としてもよい。また通知画面６３の第一表示部６４の枠線の色が、通知画面６１、６２の枠線の色と異なるように表示してもよい。これによって、第一ユーザが大きな音量の音声を発声したとしても、マイク２５が目標音量で音声を集音することができない旨を、明確に通知することができる。

図９を参照し、出力部２８に表示する通知画面の別の例である、通知画面７１〜７３について説明する。通知画面７１〜７３には、第一表示部７４、第二表示部７５、および第三表示部７６が設けられている。第一表示部７４は、上下に並んだ二つの長方形である。第三表示部７６は、第一表示部７４の長方形の上側に配置された、上下に並んだ３つの長方形である。第三表示部７６の長方形の枠線は、第一表示部７４の長方形の枠線よりも太い。第二表示部７５は、第一表示部７４および第三表示部７６の内部を塗り潰すように表示される。

通知画面７１〜７３では、第一表示部７４と第三表示部７６との境界部分によって目標音量が示される。第二表示部７５は、マイク２５によって実際に集音された音声の音量を示す表示部である。通知画面７１〜７３では、通知画面６１〜６３と異なり、目標音量のレベルが変化しても、第三表示部７６の数は変化せず、常に３つの長方形によって示される。

ＣＰＵ２０は、ＲＡＭ２２に記憶された自拠点音声音量が、目標音量に対してどの程度の大きさであるかを算出することによって、第二表示部７５を第一表示部７４および第三表示部７６のうちどの段階まで表示するかを決定する。例えばＣＰＵ２０は、自拠点音声音量が目標音量と同レベルである場合、通知画面７１に示すように、第一表示部７４の二つの長方形の内部に第二表示部７５を表示する。またＣＰＵ２０は、自拠点音声音量が７であるのに対して目標音量が５である場合、通知画面７２に示すように、第一表示部７４の二つの長方形、および、第三表示部７６の３つの長方形のうち下から２つ分の長方形の内部に、第二表示部７５を表示する。通知画面７１〜７３では、目標音量を示す境界が常に画面の上下略中央部分に配置されるため、第一ユーザは、目標音量をより直感的に認識することができる。

これに対して通知画面７３は、マイク２５において受信可能な音の最大音量よりも目標音量の方が大きくなっている場合の表示態様を示している。この場合、ＣＰＵ２０は、第三表示部７６の上部に「ＮＧ」の文字７７を表示させる。このように音声処理装置１０は、通知画面７１〜７３を出力部２８に表示させることによって、第一ユーザが大きな音量の音声を発声したとしても、マイク２５が目標音量で音声を集音することができない旨を、通知画面６１〜６３と比較してより明確に第一ユーザに通知することができる。

１会議システム
１０、１１、１２、３０、３１、３２音声処理装置
２４スピーカ
２５マイク
２８出力部
６１、６２、６３、７１、７２、７３通知画面

Claims

他拠点に設置された他拠点マイクを介して集音された音に関する情報である音情報を取得する第一取得手段と、
前記第一取得手段によって取得された前記音情報に基づいて、音声の音量および雑音の音量を特定する第一特定手段と、
自拠点に設置された音声処理装置に接続された自拠点マイクを介して集音された音に基づいて、音声の音量および雑音の音量を特定する第二特定手段と、
前記第一特定手段によって特定された前記音量、および、前記第二特定手段によって特定された前記音量に基づいて、前記音声処理装置が前記自拠点マイクを介して集音する前記音声の目標とする音量である目標音量を特定する第三特定手段と、
前記第三特定手段によって特定された前記目標音量に関連する情報をユーザに通知する通知手段と
を備えたことを特徴とする音声処理装置。
前記第三特定手段は、
前記第一特定手段によって特定された前記音声の音量と前記雑音の音量との差分または割合に基づき、前記目標音量を特定することを特徴とする請求項１に記載の音声処理装置。
前記通知手段は、
前記第三特定手段によって特定された前記目標音量と、前記第二特定手段によって特定された前記音声の音量との関係を示す情報を通知することを特徴とする請求項１または２に記載の音声処理装置。
前記通知手段は、
前記第三特定手段によって特定された前記目標音量が、前記自拠点マイクを介して集音することが可能な最大音量を超えた場合に、最大音量を超えた旨をユーザに通知することを特徴とする請求項１または２に記載の音声処理装置。
自拠点に設置された他の音声処理装置である自拠点他装置から、前記音声の音量および前記目標音量を取得する第二取得手段を備え、
前記通知手段は、
前記第二取得手段によって取得された前記音声の音量が、前記第二特定手段によって特定された前記音声の音量よりも大きい場合に、前記第二取得手段によって取得された前記目標音量を示す情報を、前記第三特定手段によって特定された前記目標音量を示す情報の代わりにユーザに通知することを特徴とする請求項１から４のいずれかに記載の音声処理装置。
前記第一取得手段は、複数の他拠点の其々に設置された他拠点マイクを介して集音された複数の前記音情報を取得し、
前記第一特定手段は、
前記第一取得手段によって取得された前記複数の音情報に対応する複数の前記音声の音量のうち最も小さい前記音声の音量を特定し、前記複数の音情報に対応する複数の前記雑音の音量のうちもっとも大きい前記雑音の音量を特定することを特徴とする請求項１から５のいずれかに記載の音声処理装置。
他拠点に設置された他拠点マイクを介して集音された音に関する情報である音情報を、自拠点に設置された音声処理装置が取得する第一取得ステップと、
前記第一取得ステップによって取得された前記音情報に基づいて、前記音声処理装置が音声の音量および雑音の音量を特定する第一特定ステップと、
前記音声処理装置が、接続された自拠点マイクを介して集音された音に基づいて、音声の音量および雑音の音量を特定する第二特定ステップと、
前記第一特定ステップによって特定された前記音量、および、前記第二特定ステップによって特定された前記音量のうち少なくともいずれかに基づいて、前記音声処理装置が前記自拠点マイクを介して集音する前記音声の目標とする音量である目標音量を特定する第三特定ステップと、
前記第三特定ステップによって特定された前記目標音量に関連する情報を、前記音声処理装置がユーザに通知する通知ステップと
を備えたことを特徴とする音声処理方法。
他拠点に設置された他拠点マイクを介して集音された音に関する情報である音情報を取得する第一取得ステップと、
前記第一取得ステップによって取得された前記音情報に基づいて、音声の音量および雑音の音量を特定する第一特定ステップと、
自拠点に設置された音声処理装置に接続された自拠点マイクを介して集音された音に基づいて、音声の音量および雑音の音量を特定する第二特定ステップと、
前記第一特定ステップによって特定された前記音量、および、前記第二特定ステップによって特定された前記音量のうち少なくともいずれかに基づいて、前記音声処理装置が前記自拠点マイクを介して集音する前記音声の目標とする音量である目標音量を特定する第三特定ステップと、
前記第三特定ステップによって特定された前記目標音量に関連する情報をユーザに通知する通知ステップと
を音声処理装置のコンピュータに実行させるための音声処理プログラム。