JP2012194295A

JP2012194295A - 音声出力システム

Info

Publication number: JP2012194295A
Application number: JP2011057366A
Authority: JP
Inventors: Yoshitaka Ide; 佳崇井出; Akira Ouchi; 亮大内; Eiko Kobayashi; 詠子小林; Noriyuki Hata; 紀行畑
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2011-03-16
Filing date: 2011-03-16
Publication date: 2012-10-11

Abstract

【課題】聴取者の位置が変化する場合であっても、十分なマスキング効果を得ることができる音声出力システムを提供する。
【解決手段】送信機３の制御部３６は、センサ３２からユーザの存在を検出した旨の信号が入力されると、マスカ音に係る音データを通信部３１を介して送信する。音声端末１の制御部１６は、通信部１７を介してマスカ音に係る音データを受信し、再生処理を行う。
また、送信機３の制御部３６は、マイク３３で発話音声を収音したタイミングを示す情報を送信する。制御部１６は、通信部１７を介して受信した送信機３の発話音声を収音したタイミングを示す情報と、自装置のマイク１１で発話音声を収音したタイミングと、の時間差を計算する。制御部１６は、この時間差から、送信機３と音声端末１との距離を計算し、音量減衰率を計算する。制御部１６は、計算した音量減衰率に応じてマスカ音の音量を調整する。
【選択図】図１

Description

この発明は、ユーザによって携帯される端末装置と、当該端末装置に各種情報を送信する送信機と、からなる音声出力システムに関するものである。

従来、同一空間内で複数の音声コンテンツを再生する場合に、それぞれの音声コンテンツの再生音が、相互に影響を及ぼしあうことを抑制するものが提案されている（例えば特許文献１を参照）。特許文献１の装置では、他のエリアでコンテンツが再生されていないときは音量を下げ、他のエリアでコンテンツが再生されると音量を上げるものである。

また、近年、銀行や調剤薬局等の対話カウンタにスピーカを取り付け、話者の音声と関連性の低い音声をマスカ音として出力することにより、順番を待つ他の人に話者の音声（会話内容）を聞き取り難くしたものが知られている。

特開２００８−７６９８５号公報

マスカ音は、音量が小さいとマスキング効果を得ることが難しくなる。したがって、マスカ音はある程度の音量で出力する必要があるが、マスカ音の音量が大きすぎると不快感を覚える、あるいは聞きたい音（例えば呼び出し音声）を聞くことができなくなってしまう。特に、特許文献１の装置のように、スピーカが固定設置されていると、聴取者の移動によって聴取者が聴取するマスカ音の音量が変化し、最適な音量でマスカ音を聞くことが困難であった。

そこで、本発明は、聴取者の位置が変化する場合であっても、十分なマスキング効果を得ることができる音声出力システムを提供することを目的とする。

この発明の音声出力システムは、ユーザによって携帯される端末装置と、前記端末装置に情報を送信する送信機と、を備えている。送信機は、前記端末装置に対して前記情報を送信する送信手段と、話者の存在を検出する話者検出手段と、を備えている。端末装置は、前記送信機から受信した情報に応じてマスカ音を出力する音声出力手段と、前記マスカ音の音量を調整する音量調整手段と、を備えている。

送信機は、前記話者の存在を検出したとき、前記送信手段を介してマスカ音を出力させる情報を送信し、前記端末装置の音声出力手段は、前記マスカ音を出力させる情報を受信したとき、前記マスカ音を出力する。マスカ音を出力させる情報とは、マスカ音そのもの（マスカ音に係る音データ）であってもよいし、マスカ音を出力するためのトリガ信号（マスカ音の出力を指示する情報）であってもよい。また、音量調整手段は、話者の発話音声の自装置に至るまでの音量減衰率を計算し、計算した音量減衰率に応じて前記マスカ音の音量を調整する。

以上の構成により、マスカ音は、ユーザが携帯する端末装置（音声端末）からユーザの直近位置で出力されるため、ユーザの位置が変化する場合であっても十分なマスキング効果を得ることができる。さらに、マスカ音は、話者音声の音量減衰率に応じて音量が調整される。例えば、話者音声の音量減衰率が小さい（話者との距離が近い）場合は、音量が大きくなり、話者音声の音量減衰率が大きい（話者との距離が遠い）場合は、音量が小さくなる。したがって、出力されるマスカ音は、各ユーザの位置に応じて適切な音量に自動設定されるため、聴取者の不快感を低減しながらも十分なマスキング効果を得ることができる。

また、送信手段は、所定領域内に対して前記情報を送信するように、指向性を有する電波を送受信する無線通信部であることが好ましい。この場合、話者音声が聞こえる範囲にのみ電波が届くような指向性を設定すれば、マスカ音は、送信機が情報を送信可能な範囲（所定領域内）でのみ出力されるため、話者音声がなく、マスカ音が不要な状況では、マスカ音が出力されない。

なお、本発明の音声出力システムでは、音量減衰率を計算するために、以下の様な構成を備えている。すなわち、送信機は、前記話者の発話音声を収音する送信側収音手段を備え、前記端末装置は、前記話者の発話音声を収音する端末側収音手段を備えている。そして、送信機は、前記送信側収音手段で前記発話音声を収音したタイミングを示す情報を送信し、音量調整手段は、前記送信機から受信した前記発話音声を収音したタイミングを示す情報と、前記端末側収音手段で前記発話音声を収音したタイミングと、から前記音量減衰率を計算する。

このように、本発明の音声出力システムでは、送信機および端末装置のそれぞれにおいて、話者音声を収音したタイミングを調べる。端末装置は、各タイミングの時間差から送信機と端末装置との距離を計算する。音量は、距離の２乗に反比例して減衰するため、送信機から端末装置までの音量減衰率を正確に計算することができる。送信機は、話者の近く（例えば対話カウンタ内）に設置されるため、送信機から端末装置までの音量減衰率は、発話者から端末装置までの音量減衰率とほぼ同一になる。したがって、発話音声の音量減衰率に応じた適切な音量でマスカ音が出力されることになる。

また、音量減衰率は、実際の話者音声から算出するだけでなく、テスト音を用いてマスカ音を出力する前に算出することが好ましい。この場合、送信機は、テスト音を出力するテスト音出力手段をさらに備え、話者の存在を検出するよりも前に前記テスト音を出力し、前記送信側収音手段で前記テスト音を収音したタイミングを示す情報を送信する。端末装置の音量調整手段は、前記送信機から受信した前記テスト音を収音したタイミングを示す情報と、前記端末側収音手段で前記テスト音を収音したタイミングと、から前記音量減衰率を計算する。このように、事前に音量減衰率を計算することで、実際に話者が音声を発した時点から適切な音量のマスカ音が出力されることになり、より適切なマスキング効果を得ながら不快感を低減することができる。

また、音声出力手段から出力され、前記端末側収音手段に至るエコー成分を除去するエコー除去手段を備えていることが好ましい。

なお、端末装置は、マスカ音を出力するだけでなく、銀行や薬局等で順番が来たときに呼び出し音声（必要な音声）を出力する無線呼び出し（いわゆるページャ）の機能を有することが好ましい。このように、ユーザが携帯する端末装置から呼び出し音声を出力することで、適切なマスキング効果を得ながら、ユーザ毎に必要な音声を適切な音量で聞くことができる。

この発明によれば、十分なマスキング効果を得ることができ、かつユーザが聞きたい音を適切な音量で聞くことができる。

音声出力システムの構成を示す配置図である。図２（Ａ）は、音声端末の構成を示すブロック図であり、図２（Ｂ）は、音声端末の外観図である。送信機の構成を示すブロック図である。サーバの構成を示すブロック図である。図５（Ａ）は、収音された音声信号をサーバに送信する場合のサーバ、および送信機の動作を示したフローチャートであり、図５（Ｂ）は、会話内容の記録をする場合のサーバ、および他の情報処理装置（例えば自宅ＰＣ）の動作を示したフローチャートである。送信機と音声端末の動作を示すフローチャートである。サーバと音声端末の動作を示すフローチャートである。

図１は、音声出力システムの概要を示す配置図である。音声出力システムは、例えば銀行や調剤薬局等の対話カウンタおよび待合場所に設置される。図１においては、３つの対話カウンタにそれぞれユーザ９０およびスタッフ９１が存在し、各対話カウンタに送信機３（図１の例では、送信機３Ａ、送信機３Ｂおよび送信機３Ｃの３台を示す。）が設置されている例を示している。対話カウンタから離れた待合場所には、複数のユーザ９２が存在する。スタッフ９１は、例えば薬の説明を行う薬剤師であり、ユーザ９０は薬の説明を聞く患者であり、ユーザ９２は順番待ちの患者である。

各ユーザ９２は、受付場所のスタッフ９３から音声端末１を受け取り、携帯する。この音声端末１には、スピーカが設けられており、マスカ音が放音される。このマスカ音は、対話カウンタ内で会話を行う者の発言内容をマスクし、待合場所に居る者に発言内容を理解できないようにするものである。マスカ音を出力するために必要な各種情報は、対話カウンタに設置されている送信機３から無線で送信される。送信機３は、無線送信範囲が限られ、送信可能範囲（所定領域内）にブロードキャストで各種情報を送信する。

図１の例では、対話カウンタ左端の送信機３Ａが音声端末１Ａ（待合場所左端の２名のユーザ９２がそれぞれ携帯）に各種情報を送信し、対話カウンタ中央の送信機３Ｂが音声端末１Ｂ（待合場所中央の２名のユーザ９２がそれぞれ携帯）に各種情報を送信し、対話カウンタ右側の送信機３Ｃが音声端末１Ｃ（待合場所右側の３名のユーザ９２がそれぞれ携帯）に各種情報を送信することになる（なお、音声端末１Ａ、音声端末１Ｂ、および音声端末１Ｃは全て同じ構成、機能を有する）。

したがって、マスカ音は、各送信機が情報を送信可能な範囲（所定領域内）でのみ出力されることになり、各ユーザ９０が対話カウンタから離れて話者音声が聞こえなくなる領域に移動してマスカ音が不要な状況となった場合には、マスカ音が出力されない。このように送信範囲を絞り込むためには、例えば、各送信機３の無線通信部（図３の通信部３１）に指向性を持たせることで実現可能である。ただし、送信範囲を絞り込むことは本発明において必須の構成ではなく、各送信機が無指向性の無線通信部を有し、待合場所全体に情報を送信する態様であってもよい。

また、音声端末１からは、各ユーザ９２の順番が来たときに呼び出し音声（合成音声やスタッフの実音声、あるいはビープ音等）が出力される。呼び出し音声を出力するために必要な各種情報は、サーバ５から送信される。ユーザ９２は、呼び出し音声を聞くことで順番が来たことを知ることができる。順番が来たユーザ９２は、音声端末１を携帯して対話カウンタに向かい、対話カウンタ内でスタッフ９１に音声端末１を返却する。このようにして、音声端末１は、無線呼び出し（いわゆるページャ）の機能を有する。

本実施形態の音声出力システムは、このようにして、ユーザが携帯する音声端末１からマスカ音および呼び出し音声を出力することで、適切なマスキング効果を得ながら、ユーザ毎に必要な音声（本実施形態では呼び出し音声）を適切な音量で聞くことができる。

以下、上記の音声出力システムを実現するための具体的な構成、動作について説明する。図２（Ａ）は、音声端末１の構成を示すブロック図であり、図２（Ｂ）は、音声端末１の外観図である。図３は、送信機３の構成を示すブロック図であり、図４は、サーバ５の構成を示すブロック図である。

音声端末１は、マイク１１、Ａ／Ｄコンバータ１２、信号処理部１３、Ｄ／Ａコンバータ１４、スピーカ１５、制御部１６、通信部１７、操作部１８、およびエコーキャンセラ１９を備えている。

送信機３は、通信部３１、センサ３２、マイク３３、Ａ／Ｄコンバータ３４、操作部３５、制御部３６、マスカ音記憶部３７、およびマスカ音生成部３８を備えている。

サーバ５は、通信部５１、制御部５２、およびコンテンツ記憶部５３を備えている。

音声端末１は、通信部１７を介して送信機３およびサーバ５と各種情報を送受信する。ここでは、まず、送信機３から音声端末１に、マスカ音を出力させるための情報として、マスカ音に係る音データを送信する例について説明する。

送信機３のセンサ３２は、赤外線センサ等の物体の存在を検出するセンサであり、図１の例では、例えば対話カウンタ内の机やパーティション等に取り付けられ、ユーザ９０の在否を検出する。

制御部３６は、センサ３２からユーザの存在を検出した旨の信号が入力されると、話者が存在する（ユーザ９０が対話カウンタ内に移動してスタッフ９１と会話が行われる）と判断し、マスカ音生成部３８にマスカ音の生成を指示する。マスカ音生成部３８が生成したマスカ音に係る音データは、通信部３１を介してブロードキャスト送信される。通信部３１は、指向性を有した無線通信部であるため、所定領域内の音声端末１にのみマスカ音に係る音データを送信することになる。

マスカ音生成部３８は、マスカ音記憶部３７に記憶されている各種音データを読み出してマスカ音に係る音データを生成し、制御部３６に出力する。マスカ音は、音声をマスクすることが可能な音であればどの様な音であってもよいが、例えば、マスカ音記憶部３７に記憶されている撹乱音、背景音、および演出音を組み合わせて生成する。

撹乱音は、マスク対象の音声を撹乱する音であり、人の音声を時間軸上あるいは周波数軸上で改変し、語彙的に何ら意味をなさない（内容が理解できない）ようにしたものである。撹乱音が人の音声を時間軸上で改変したものである場合、予め特定の話者の音声（男性および女性を含む複数人の音声）を録音し、所定時間毎に一定長の区間に分割した音声信号を各区間で逆方向に読み出す等して、語彙的に意味をなさない音声に変更する。周波数軸上で改変する場合、スペクトル包絡のピーク（フォルマント）を抽出し、語彙に影響する特定のフォルマントを変更して語彙的に意味をなさない音声に変更する。

なお、撹乱音は、送信機３のマイク３３を用いて、対話カウンタ内の話者の音声を取得して、取得した音声を時間軸上または周波数軸上で改変することにより、都度、生成することが望ましい。

背景音は、例えば小川のせせらぎや木々のざわめき等、聴取者が聴覚的に注目し難く、不快感のない音である。これにより、暗騒音レベルを上げ、撹乱音の違和感を目立たなくする。

演出音は、断続的に発生する楽音等の演出性の高い音である。これにより、聴取者の注意を演出音にも向けさせ、聴覚心理的に撹乱音の違和感を目立たなくする。これらの撹乱音、背景音、および演出音を組み合わせたマスカ音をユーザ９２に聴取させることで、話者の音声をマスクしつつ、不快感を低減することが可能となる。

なお、マスカ音記憶部３７に記憶されている撹乱音、背景音、および演出音に係る音データは、それぞれ１つに限らず、複数の音データであってもよい。この場合、マスカ音生成部３８は、複数の音データから特定の音データを選択して読み出す。複数の音データが記憶されている場合、予め規定された組み合わせテーブル（マスカ音記憶部３７に記憶されたテーブル）に従って選択する態様としてもよい。また、テーブルには、各音の音量や読み出しタイミング等を記載しておき、各音の音量や読み出しタイミングを個別に変更する態様としてもよい。また、各音データを予め合成済みのマスカ音として記憶しておき、再生するように構成することも可能である。

送信機３は、このようなマスカ音に係る音データを生成し、通信部３１からブロードキャスト送信する。なお、マスカ音記憶部３７およびマスカ音生成部３８は、音声端末１に内蔵され、音声端末１内にてマスカ音を生成するようにしてもよい。この場合、送信機３からは、マスカ音を出力させるための情報として、マスカ音の出力を指示する情報（トリガ信号）が送信され、音声端末１の制御部１６が内蔵のマスカ音生成部３８にマスカ音の生成を指示する。

マスカ音に係る音データが送信機３から送信された場合、音声端末１の制御部１６は、通信部１７を介してマスカ音に係る音データを受信し、再生処理を行う。例えば、マスカ音に係る音データがエンコードされた圧縮データであればデコードし、デジタル音声信号に変換し、信号処理部１３に出力する。信号処理部１３に入力されたデジタル音声信号は、音量や周波数特性等が調整され、Ｄ／Ａコンバータ１４に出力され、Ｄ／Ａコンバータ１４でアナログ音声信号に変換された後、スピーカ１５から放音される。このようにして、待合場所に居る各ユーザ９２にマスカ音が出力される。なお、音声端末１が複数の送信機３の電波送信範囲が重複する位置に存在した場合、あるいは通信部３１が無指向性の無線通信部である場合、音声端末１は、複数の送信機３からマスカ音に係る音データを受信する場合がある。この場合、制御部１６は、各音データをそれぞれ再生する処理を行い、音声端末１からは複数のマスカ音が出力されることになる。ただし、いずれか１つのマスカ音のみ再生し、１種類のマスカ音のみ出力する態様としてもよい。

なお、図２（Ｂ）に示すように、音声端末１は、「１」、「２」、「３」および「ＯＦＦ」と表示されたボタンを備えている。ユーザは、これらのボタンを押下することで、後述のコンテンツ音を選択したり、どのマスカ音を出力するかを選択したりすることができる。例えば、上記のように、複数の送信機３から音データを受信する場合には、どの音データを再生するのかを選択することができる。

また、マスカ音の種類（例えば背景音が異なるものや演出音が異なるもの）を選択することも可能である。ただし、マスカ音の種類を選択するためには、マスカ音記憶部３７およびマスカ音生成部３８を音声端末１に内蔵し、音声端末１内にてマスカ音を生成するものとする。この場合、例えば、「１」のボタンを押下すると、背景音として小川のせせらぎが出力される、「２」のボタンを押下すると、背景音として木々のざわめきが出力される、という態様が可能である。あるいは、例えば、「１」のボタンを押下すると、「撹乱音」だけが出力され、「２」のボタンを押下すると「撹乱音＋背景音」が出力され、「３」のボタンを押下すると「撹乱音＋背景音＋演出音」が出力される、という態様も可能である。

次に、呼び出し音声を出力するための各種装置の構成および動作について説明する。音声端末１は、通信部１７を介してサーバ５の通信部５１と接続され、サーバ５から呼び出し音声に係る音データを受信する。

サーバ５の制御部５２は、コンテンツ記憶部５３からコンテンツに係る音データ（ここでは、呼び出し音声に係る音データ）を読み出し、通信部５１を介して音声端末１に送信する。通信部５１は、待合場所全体に電波を送受信可能な無線通信部であり、呼び出し音声に係る音データをユニキャストで送信する。呼び出し端末の指定は、例えば送信機３の操作部３５を用いて行われる。送信機３は、サーバと通信を行う不図示の通信部（有線または無線）を通信部３１とは別途備えており、このサーバ通信部を介してサーバ５に呼び出しを行うユーザ（音声端末）を指定する情報を送信する。あるいは、通信部３１が無指向性の無線通信部である場合は、この通信部３１を介してサーバ５にユーザを指定する情報を送信する。そして、サーバ５の制御部５２は、呼び出し音声に係る音データを音声端末１に送信する。なお、通信部３１が無指向性の無線通信部である場合は、送信機３から直接、呼び出し対象の音声端末１に呼び出し音声に係る音データを送信してもよい。

音声端末１の制御部１６は、通信部１７を介して呼び出し音声に係る音データを受信し、上述のマスカ音の再生処理と同様にして呼び出し音声の再生処理を行う。このようにして、待合場所に居る各ユーザ９２に呼び出し音声が出力される。

なお、サーバ５は、待合場所に設置された表示装置（不図示）にコンテンツを表示するとともに、これらコンテンツの音声に係る音データを送信することも可能である。この場合、サーバ５の制御部５２は、コンテンツ記憶部５３からコンテンツに係る音データおよび映像データを読み出し、コンテンツに係る音データを通信部５１を介して音声端末１に送信するとともに、表示装置に映像データを出力する。表示装置が複数設けられている場合、コンテンツに係る音データおよび映像データを複数種類記憶し、同時に表示装置の数だけ読み出し、各映像データを各表示装置に出力するとともに、音データは、全音声端末１にブロードキャスト送信する。あるいは、音声端末１から要求がなされた音データを読み出し、ユニキャストで送信する。上述のように、音声端末１には、「１」、「２」、「３」、および「ＯＦＦ」と表示されたボタンを備えている。例えばユーザが「１」と表示されたボタンを押下すると、制御部１６は、ｃｈ．１のコンテンツの音データの再生を行う。あるいは、制御部１６は、ｃｈ．１のコンテンツの音データの配信要求を行い、サーバ５からｃｈ．１のコンテンツの音データを受信し、再生する。また、「ＯＦＦ］のボタンを押下すると、コンテンツの音声の出力を停止することも可能である。なお、この場合においても、マスカ音は、コンテンツの音声の出力の有無および種類に関わらず常に出力される。

次に、マスカ音の音量調整機能について説明する。本実施形態に示す送信機３および音声端末１には、それぞれマイクが設けられている。送信機３のマイク３３および音声端末１のマイク１１は、対話カウンタ内におけるスタッフ９１およびユーザ９０の発話音声を収音することができるようになっている。

送信機３のマイク３３は、収音した音声に係るアナログ音声信号をＡ／Ｄコンバータ３４に出力する。Ａ／Ｄコンバータ３４は、入力されたアナログ音声信号をデジタル音声信号に変更し、制御部３６に出力する。

制御部３６は、入力されたデジタル音声信号を解析し、発話音声が入力されたか否かを判断する。例えば、所定レベル（ノイズと区別できる程度のレベル）以上の音声信号が入力された場合に発話音声が収音されたと判断する。制御部３６は、発話音声が収音されたと判断した場合、マイク３３で発話音声を収音したタイミングを示す情報を通信部３１から送信する。

一方、音声端末１のマイク１１も、収音した音声に係るアナログ音声信号をＡ／Ｄコンバータ１２に出力する。Ａ／Ｄコンバータ１２は、入力されたアナログ音声信号をデジタル音声信号に変更し、エコーキャンセラ１９に出力する。エコーキャンセラ１９は、スピーカ１５から出力され、マイク１１に至るエコー成分を除去する。例えば、エコーキャンセラ１９は、スピーカ１５からマイク１１に至る音響帰還経路を模擬したＦＩＲフィルタを備え、スピーカ１５に出力する音声信号をフィルタ処理し、擬似エコー信号を生成する。エコーキャンセラ１９は、生成した擬似エコー信号をマイク１１の出力する音声信号から除去し、エコー成分だけを除去する。エコーキャンセラ１９は、エコー成分を除去した後の音声信号を信号処理部１３に出力する。なお、エコーキャンセラ１９は、信号処理部１３に出力する信号と、スピーカ１５に出力する音声信号とを対比し、除去しきれなかったエコー成分がゼロとなるように、ＦＩＲフィルタのフィルタ係数を更新する。

制御部１６は、通信部１７を介して受信した送信機３の発話音声を収音したタイミングを示す情報と、自装置のマイク１１で発話音声を収音したタイミングと、の時間差を計算する。この時間差から、送信機３と音声端末１との距離を計算することができる。音量は、距離の２乗に反比例して減衰するため、送信機３から音声端末１までの音量減衰率を正確に計算することができる。送信機３は、対話カウンタ内に設置され、発話者の直近に設置されているため、送信機３と音声端末１との距離は、ほぼ発話者（ユーザ９０またはスタッフ９１）と聴取者（ユーザ９２）との距離と同一になる。したがって、制御部１６は、発話者の音声がどの程度減衰して聴取者に到達するのかを知ることができる。そこで、制御部１６は、計算した音量減衰率に応じてマスカ音の音量を調整する。例えば、音量減衰率が０のときに最大音量（音声端末１が有する最大出力）でマスカ音を出力する設定とし、音量減衰率が閾値（例えば８０％程度の減衰率）以上となった場合に最小音量となるように設定し、音量を調整する。したがって、マスカ音の音量は、対話カウンタ（話者）との距離に応じて調整されることになる。例えば、話者音声の音量減衰率が小さい（話者との距離が近い）場合は、音量が大きくなり、話者音声の音量減衰率が大きい（話者との距離が遠い）場合は、音量が小さくなる。したがって、各ユーザの位置に応じて必要なマスカ音の音量が自動設定されることになり、聴取者の不快感を低減しながらも十分なマスキング効果を得ることができる。

なお、制御部３６は、発話音声を収音したタイミングを示す情報に代えて、マイク３３で収音した発話音声のレベル（振幅）を示す情報を送信し、制御部１６は、マイク１１で収音した発話音声のレベル（振幅）と、受信した送信機３における発話音声のレベル（振幅）を示す情報と、から音量減衰率を計算してもよい。この場合、最も高レベル（ピーク）の振幅値から音量減衰率を計算してもよいし、ピーク前後の振幅値をある程度の時間幅で積分したもの（パワー）から音量減衰率を計算してもよい。

なお、送信機３の制御部３６（または音声端末１の制御部１６）は、マイク３３（または音声端末１のマイク１１）で収音した音声信号をそのまま、あるいはＭＰ３等の圧縮データにエンコードし、サーバ５に送信する動作を行ってもよい。この場合、サーバ５に送信された対話カウンタ内の会話音声に係る音データは、制御部５２を介してコンテンツ記憶部５３に録音データとして蓄積される。このサーバ５に送信された音データは、例えば、ユーザが自宅のＰＣ等を用いてインターネットを経由して録音データを読み出し、会話内容（例えば薬の説明）を再度聞き直すことに利用される。

図５（Ａ）は、送信機３で収音された音声信号に係る音データをサーバ５に送信する場合のサーバ５、および送信機３の動作を示したフローチャートである。同図（Ａ）では、送信機３の例を示すが、音声端末１からサーバ５に音データを送信する場合、音声端末１は、同図（Ａ）の送信機３と同じ動作を行う。

まず、送信機３の制御部３６は、所定レベル（ノイズと区別できる程度のレベル）以上の音声信号が入力され、マイク３３で音声を収音したか否かを判断する（ｓ１）。制御部３６は、音声を収音していると判断した場合（ｓ１，Ｙｅｓ）、入力した音声信号をそのまま、あるいはＭＰ３等の圧縮データにエンコードし、サーバ５に送信する（ｓ２）。サーバ５の制御部５２は、送信機３から送信された音声信号（音データ）を受信し（ｓ３）、録音データとしてコンテンツ記憶部５３に記憶する（ｓ４）。

なお、複数の送信機３から音声信号（音データ）を受信する場合、それぞれの録音データを区別できるようにコンテンツ記憶部５３に記憶しておくことが好ましい。例えば、各ユーザ９２が受付場所のスタッフ９３から音声端末１を受け取るとき、ユーザ毎に固有の識別情報（ＩＤ）を発行する。各ユーザ９２が呼び出しを受けて対話カウンタ内に行くと、対話カウンタ内のスタッフ９１は、送信機３の操作部３５を操作して各ユーザの識別情報、および送信機３の識別情報（製造番号等）をサーバ５に送信する。そして、送信機３は、上記ｓ３の処理において、自身の識別情報（製造番号等）を音声信号とともに送信する。サーバ５は、受信した音声信号、ユーザの識別情報、および送信機３の識別情報を対応づけてコンテンツ記憶部５３に記憶する。これにより、後述（図５（Ｂ））の録音データの再生動作において、各ユーザが再生する録音データを識別することができる。

次に、図５（Ｂ）は、会話内容の記録をする場合のサーバ５、および他の情報処理装置（例えば自宅ＰＣ）の動作を示したフローチャートである。同図に示す自宅ＰＣの動作は、当該自宅ＰＣにインストールされたアプリケーションや、ＷＥＢブラウザ上の特定のスクリプト等によって実現される。自宅ＰＣのハードウェア構成は、一般的なパーソナルコンピュータと同様であるため、図示および説明を省略する。

まず、自宅ＰＣは、各ユーザが自宅ＰＣを操作して、録音データの再生指示を行ったか否かを判断する（ｓ７１）。例えば、各ユーザが上記アプリケーションを操作して、固有の識別情報（ＩＤ）を入力したか否かを判断する。ＩＤが入力されて録音データの再生指示が行われた場合（ｓ７１、Ｙｅｓ）、自宅ＰＣは、インターネットを経由して、入力されたＩＤをサーバ５に送信する（ｓ７２）。サーバ５は、自宅ＰＣからＩＤを受信し（ｓ７３）、コンテンツ記憶部５３に記憶されている録音データのうち、受信したＩＤに対応づけられている録音データを読み出す（ｓ７４）。そして、読み出した録音データを自宅ＰＣに送信する（ｓ７５）。自宅ＰＣは、送信された録音データを受信し（ｓ７６）、再生処理を行う（ｓ７７）。なお、各ＩＤに対応づけられている録音データが複数蓄積されている場合、サーバ５は、ｓ７３の処理の後に、録音データのリスト（録音日時等の一覧情報）を自宅ＰＣに送信し、どの録音データを再生するのかを受け付ける処理を行う。ユーザが自宅ＰＣを操作して、受信したリストから再生したい録音データを選択すると、選択した録音データがサーバ５から自宅ＰＣに送信される。

このようにして、送信機３を用いて録音した会話内容は、録音データとしてサーバ５に蓄積しておくことにより、ユーザやユーザの家族等が、自宅ＰＣを用いて会話内容を再生させることが可能となり、薬の説明や注意事項等を再確認することができる。

次に、図６および図７のフローチャートを参照して、ユーザが銀行や薬局等で受付を行って音声端末１を受け取った場合の音声端末１、送信機３、およびサーバ５の動作を詳細に説明する。図６および図７に示す動作は、音声端末１の電源が投入されると開始される。例えば、ユーザが受付カウンタで音声端末１を受け取るときに、スタッフ９３が音声端末１の電源を投入するため、これらの動作が開始される。また、ユーザが操作部１８の各ボタンを押下したときにもこれらの動作が開始される。

まず、図６において、送信機３の制御部３６は、センサ３２でユーザが対話カウンタ内に移動して会話を行う状況になったか否かを判断する（ｓ１１）。制御部３６は、センサ３２でユーザの存在を検出したと判断すると（ｓ１１、Ｙｅｓ）、マスカ音を出力させる情報を送信する（ｓ１２）。ここでは、マスカ音に係る音データを送信する。その後、制御部３６は、話者の音声を収音したか否かを判断する（ｓ１３）。話者の音声を収音したと判断した場合（ｓ１３、Ｙｅｓ）、当該送信機３で話者の音声を収音したタイミングを示す情報を送信する（ｓ１４）。

一方、音声端末１の制御部１６は、送信機３から送信されるマスカ音の音データを受信し（ｓ２１）、再生処理を行う（ｓ２２）。また、送信機３で話者の音声を収音したタイミングを示す情報を受信すると（ｓ２３）、自装置のマイク１１で話者の音声を収音したか否かを判断し（ｓ２４）、話者の音声を収音したと判断した場合（ｓ２４、Ｙｅｓ）、送信機３で話者の音声を収音したタイミングと、自装置で話者の音声を収音したタイミングとの時間差から音量減衰率を計算する（ｓ２５）。そして、制御部１６は、計算した音量減衰率でマスカ音の音量を調整する。なお、振幅値やパワーから音量減衰率を計算する場合は、ｓ２４の処理において送信機３からマイク３３で収音した音声のレベル（振幅）を示す情報を送信し、ｓ２５の処理において、マイク１１で収音した音声のレベル（振幅）と、送信機３で収音した音声のレベル（振幅）から音量減衰率を計算する。

なお、図６においては、話者が会話を開始するとマスカ音が出力され、その後音量減衰率の計算が終了した後に音量調整が行われる例を示しているが、事前に音量減衰率を計算して、マスカ音の出力開始とともに音量調整を行うようにすることも可能である。この場合、実際の話者音声から音量減衰率を算出するのではなく、テスト音を用いてマスカ音を出力する前に音量減衰率を算出する。この場合、送信機３は、不図示のテスト音を出力するテスト音出力部（スピーカ等）をさらに備え、センサ３２でユーザの存在を検出するよりも前にテスト音を出力する。そして、制御部３６は、マイク３３でテスト音を収音したタイミングを示す情報を送信する。音声端末１の制御部１６は、送信機３から受信したテスト音を収音したタイミングを示す情報を受信し、マイク１１でテスト音を収音するか否かを判断する。マイク１１でテスト音を受信したと判断した場合、送信機３でテスト音を収音したタイミングとマイク１１でテスト音を受信したタイミングと、から音量減衰率を計算する。このように、事前に音量減衰率を計算することで、実際に話者が音声を発した時点から適切な音量のマスカ音が出力されることになり、より適切なマスキング効果を得ながら不快感を低減することができる。

次に、図７を参照して呼び出し音声を出力する場合の動作について説明する。まず、サーバ５の制御部５２は、呼び出し端末の指定がなされたか否かを判断する（ｓ３１）。この呼び出し端末の指定は、送信機３や音声端末１、あるいは、対話カウンタ内のスタッフ９１の付近に設置された専用の端末（不図示）を操作することで行ってもよい。このとき、呼び出し対象ユーザの指定も行われる。スタッフ９１が呼び出し操作を行うと、サーバ５に呼び出し信号が送信され、ｓ３１の判断においてＹｅｓに進むことになる。

制御部５２は、呼び出し対象の音声端末１に対して呼び出し音声に係る音データを送信する（ｓ３２）。そして、呼び出し対象の音声端末１は、呼び出し音声に係る音データを受信し（ｓ３３）、呼び出し音声を再生する（ｓ３４）。

以上の様にして、本実施形態の音声出力システムでは、ユーザが携帯する音声端末１から適切な音量でマスカ音を出力するため、ユーザがどのような位置に居る場合であっても、適切なマスキング効果を確保することができる。また、ユーザが携帯する音声端末１から呼び出し音声を出力して必要な音声を適切な音量で聞くことができる。

また、音声端末１は、本実施形態に示した音声出力システムに専用の装置でなくとも、一般的な携帯電話等の携帯端末およびソフトウェアを用いて実現することが可能である。

また、送信機３やサーバ５についても、本実施形態に示した音声出力システムに専用の装置でなくとも、一般的なパーソナルコンピュータ等の情報処理装置のハードウェアおよびソフトウェアを用いて実現可能である。

１…音声端末
３…送信機
５…サーバ
１１…マイク
１２…Ａ／Ｄコンバータ
１３…信号処理部
１４…Ｄ／Ａコンバータ
１５…スピーカ
１６…制御部
１７…通信部
１８…操作部
１９…エコーキャンセラ
３１…通信部
３２…センサ
３３…マイク
３４…Ａ／Ｄコンバータ
３５…操作部
３６…制御部
３７…マスカ音記憶部
３８…マスカ音生成部
５１…通信部
５２…制御部
５３…コンテンツ記憶部

Claims

ユーザによって携帯される端末装置と、前記端末装置に情報を送信する送信機と、を備えた音声出力システムであって、
前記送信機は、前記端末装置に対して前記情報を送信する送信手段と、
話者の存在を検出する話者検出手段と、を備え、
前記端末装置は、前記送信機から受信した情報に応じてマスカ音を出力する音声出力手段と、
前記マスカ音の音量を調整する音量調整手段と、
を備え、
前記送信機は、前記話者の存在を検出したとき、前記送信手段を介して前記端末装置にマスカ音を出力させるための情報を送信し、
前記端末装置の音声出力手段は、前記マスカ音を出力させる情報を受信したとき、当該情報に応じて前記マスカ音を出力し、
前記音量調整手段は、前記話者の発話音声の自装置に至るまでの音量減衰率を計算し、計算した音量減衰率に応じて前記マスカ音の音量を調整することを特徴とする音声出力システム。
前記送信手段は、所定領域内に対して前記情報を送信するように、指向性を有する電波を送受信する無線通信部であることを特徴とする請求項１に記載の音声出力システム。
前記送信機は、前記話者の発話音声を収音する送信側収音手段を備え、
前記端末装置は、前記話者の発話音声を収音する端末側収音手段を備え、
前記送信機は、前記送信側収音手段で前記発話音声を収音したタイミングを示す情報を送信し、
前記音量調整手段は、前記送信機から受信した前記発話音声を収音したタイミングを示す情報と、前記端末側収音手段で前記発話音声を収音したタイミングと、から前記音量減衰率を計算する請求項１または２に記載の音声出力システム。
前記送信機は、テスト音を出力するテスト音出力手段をさらに備え、
前記テスト音出力手段は、前記話者の存在を検出するよりも前に前記テスト音を出力し、
前記送信手段は、前記送信側収音手段で前記テスト音を収音したタイミングを示す情報を送信し、
前記音量調整手段は、前記送信機から受信した前記テスト音を収音したタイミングを示す情報と、前記端末側収音手段で前記テスト音を収音したタイミングと、から前記音量減衰率を計算する請求項３に記載の音声出力システム。
前記端末装置は、前記音声出力手段から出力され、前記端末側収音手段に至るエコー成分を除去するエコー除去手段を備えた請求項３または請求項４に記載の音声出力システム。
前記音声出力手段は、前記ユーザ毎に必要な音声を出力する請求項１ないし請求項５のいずれかに記載の音声出力システム。