以下に添付図面を参照して、この発明に係る会話保護システム及び会話保護方法の好適な実施形態について詳細に説明する。会話保護システムは、例えば、銀行等の金融機関や、病院や薬局等の医療機関で行われる会話内容が第三者によって聞き取られることを防止して、会話に含まれる個人情報やプライバシーを保護するために利用するシステムである。
図1は、会話保護システムの利用例を説明する図である。この例では、ブース内で会話を行う当事者1及び2の音声が、第三者3に聞き取られることを防止する。例えば、ブースを仕切るために設けられたパーティション51の外側で待合席52に座っている人物や、隣のブースに居る人物が第三者3に該当する。
会話保護システムは、音声処理装置10と、マイクロホン(以下「マイク」と記載する)20と、スピーカ30によって構成される。マイク20は、例えば、ブース内で会話当事者1及び2が座るテーブル50に設置され、保護対象となる会話音声を集音するために利用される。音声処理装置10は、マイク20によって集音された音声に基づきマスキング音を生成して、このマスキング音と後述する効果音とをスピーカ30によって再生する機能を有する。スピーカ30は、ブースの外に居る第三者3に向けて音を再生するように設置されている。
図2は、上方から見た会話保護システムの設置例を説明する図である。このように、会話保護システムは、音声処理装置10、マイク20及びスピーカ30に加えて、スピーカ30から出力する音を制御するための出力音操作部40を備える場合もある。この出力音操作部40によって、例えば、スピーカ30から出力される音の再生開始及び再生停止の制御や、再生時の音量制御を行うことができる。なお、図2では、説明を簡略化するために、1つのブースの会話を保護するためのシステムのみを示しているが、複数のブースがある場合には、各ブースの会話音声を保護するための音声処理装置10、マイク20、スピーカ30及び出力音操作部40が設置される。
図3は、会話保護システムの機能構成概略を示すブロック図である。図3を参照しながら音声処理装置10について詳細を説明する。音声処理装置10は、マイク20によって集音された会話音声の入力を受ける入力音解析部11と、会話音声に基づいて防聴音を生成する防聴音生成部(マスキング音生成部)12と、防聴音とは別に再生する効果音を制御する効果音制御部13と、効果音として利用する音データや効果音の再生を制御するための設定等が保存されている記憶部14と、防聴音及び効果音を会話音声に応じてスピーカ30で再生する制御を行う出力音制御部15とを有している。なお、入力音解析部11、防聴音生成部12、効果音制御部13及び出力音制御部15は、DSP(Digital Signal Processor)によって構成されている。また、音声処理装置10は、DSPを含む専用のハードウェアによって構成されてもよいし、コンピュータ装置を利用して構成されてもよい。
なお、図3では、会話保護システムの説明に必要な構成要素のみを示しているが、音声処理装置10は、この他に、例えば、マイク20からの入力信号及びスピーカ30への出力信号を処理するためのA/D(D/A)コンバータ及びアンプを有している。また、外部装置との間で有線又は無線で通信を行うための通信インターフェイスを有する場合もある。
入力音解析部11は、マイク20から入力され、A/Dコンバータでデジタル化された保護対象となる会話音声の周波数特性や音量を解析する機能を有する。例えば、会話音声が、図4上段に示す振幅波形を示す場合に、この振幅波形をリアルタイムに解析して、同図下段に示す音圧波形を生成する。この音圧波形を形成する音圧レベルは、防聴音生成部12によって防聴音を生成する処理や、効果音制御部13によって生成された効果音の再生タイミングを制御するために利用される。
防聴音生成部12は、会話音声に合わせてスピーカ30から再生することで、会話音声の音韻性を壊すことができる防聴音を生成する機能を有する。防聴音は、会話音声の周波数特性を示すスペクトルから抽出した包絡線及び微細構造に係る特徴に基づいて生成されるマスキング音の一種である。具体的には、会話音声から得られた音声スペクトルからスペクトル包絡及びスペクトル微細構造を抽出して、スペクトル包絡を上下に入れ替えるための周波数方向に延びる反転軸を設定して当該反転軸を中心としてスペクトル包絡を反転させることによりスペクトル包絡に対して変形を施した変形スペクトル包絡を生成し、さらに、この変形スペクトル包絡及びスペクトル微細構造を合成した変形スペクトルを生成して、これを防聴音とする。なお、防聴音は、特許第4761506号公報によって開示された従来技術によって生成することができるので詳細な説明は省略する。
効果音制御部13は、効果音データの組合せや再生音量を制御して、会話音声に合わせてスピーカ30から再生される効果音を生成する機能を有する。ここで、本実施形態で言う効果音とは、第三者3が会話音声を聞き取り難くする効果と防聴音に対する違和感を低減する効果とを得るために再生する音である。防聴音が会話音声の特徴に基づく周波数特性を有する音であるのに対し、効果音は会話音声とは無関係な周波数特性を有している。また、防聴音が会話音声に基づいて生成される音であるのに対し、効果音としては予め用意された曲や楽器等の音を利用することができる。防聴音は人工的に操作された周波数特性を有するため聞いたときに違和感を覚える場合があるが、効果音からはそのような違和感を覚えることがなく、音の種類によっては逆に心地よい印象を受ける。
効果音として、ベース効果音とアテンション効果音の2種類の音を利用する。ベース効果音は会話音声が続く間途切れることなく続けて再生される音であり、アテンション効果音は会話音声の音圧が所定のしきい値を超える度に再生される音である。ベース効果音として利用するベース効果音データ14bと、アテンション効果音として利用するアテンション効果音データ14aは、フラッシュメモリ等の一般的なメモリから構成される記憶部14に保存される。効果音データのデータ形式として、例えば、PCM(Pulse Code Modulation)音源が利用される。また、MP3などの圧縮音源などでもよい。なお、記憶部14は、複数の効果音データを保存することができれば、ハードディスク等の他の記憶装置を利用するものであってもよい。
ベース効果音としては、静かな印象を受ける曲を利用することが好ましい。具体的には、時間軸方向の音圧レベルの変化が緩やかな音源を利用する。例えば、複数のオルゴール曲が、ベース効果音データ14bとして予め記憶部14に保存される。ベース効果音は、従来装置で利用されるBGMに相当する音である。
ベース効果音は、数秒〜数十秒の長さで、再生した時に第三者3が驚いたり不快感を覚えるような音が含まれず、同じ曲又は別の曲を連続して再生した場合でも曲の終わりと次の曲の初めとが違和感なくつながり、音量を変化させても不快感を覚えないものであれば、その内容は特に限定されない。例えば、打楽器や弦楽器等の楽器による曲であってもよいし、川のせせらぎ、波の音又は小鳥のさえずり等を利用した音であってもよい。
利用者は、記憶部14に保存された複数のベース効果音データ14bの中から、再生したい音を選択することができる。再生するベース効果音データ14bが予め選択されている場合には、選択内容が効果音出力条件14cの一部として記憶部14に保存される。効果音制御部13は、効果音出力条件14cに含まれる設定を参照してベース効果音データ14bを選択する。そして、選択されたベース効果音が、出力音制御部15によってスピーカ30から再生される。なお、出力音操作部40がベース効果音データ14bを選択するための操作部を有しており、利用者がこの操作部を操作してベース効果音データ14bを選択してもよい。また、音声処理装置10の備える通信機能により、リモコン等の外部装置から受信した信号に基づいてベース効果音データ14bが選択される態様であっても構わない。
アテンション効果音としては、聞く人が驚くような音ではなくかつ注意を引きやすい音を利用することが好ましい。例えば、時間軸方向の音圧レベルが、数秒の間に、起ち上がった後に減衰するような短い音を利用する。具体的には、鉄琴、木琴等の打楽器を叩いた音、ギターやハープ等の弦楽器を弾いた音、ベルや鐘等を鳴らした音等をアテンション効果音として利用する。様々な音色の様々な高さの音が、アテンション効果音データ14aとして予め記憶部14に保存される。
アテンション効果音は、短い音で、再生したときに第三者が驚いたり不快感を覚えるような音ではなく、ベース効果音に重ねて再生したときに違和感を覚えずかつベース効果音に埋もれることなく容易に聞き取れる音であれば、その音色や音の高さ等の条件は特に限定されない。例えば、カリンバのような民族楽器の音であってもよいし、サイン波を利用して生成された音であってもよいし、鳥のさえずりや虫の鳴き声等であっても構わない。また、記憶部14に予め保存されたデータを利用してもよいし、複数のサイン波に窓関数を適用したものを合成して音を生成して利用する態様であっても構わない。
アテンション効果音データ14aは、記憶部14に保存されたデータの中から、効果音制御部13によってランダムに選択される。アテンション効果音データ14aは、会話音声の音量が所定のしきい値を超えたタイミングで、ベース効果音データ14bに重ねて再生される。
記憶部14には、ベース効果音データ14b及びアテンション効果音データ14aの他に、効果音出力条件14cが保存されている。効果音出力条件14cには、会話保護システムの利用者によって選択されたベース効果音データ14bに係る設定情報、ベース効果音データ14bの再生条件、アテンション効果音データ14aの選択条件及び再生条件等が含まれる。
出力音制御部15は、D/Aコンバータ及びアンプを有し、防聴音生成部12で生成された防聴音をスピーカ30から再生する機能を有する。防聴音は、会話の内容を聞き取ることができないように、会話音声に被せて音声の音韻性を壊すように再生される。また、出力音制御部15は、効果音制御部13によって選択された効果音を、効果音制御部13によって設定された音量でスピーカ30から再生する機能を有する。
効果音の再生タイミングは、入力音解析部11によって図4に示すように生成された会話音声の音圧レベルに基づいて制御される。再生タイミングの制御に利用されるベース効果音用のしきい値B及びアテンション効果音用のしきい値Aは、記憶部14に保存された効果音出力条件14cに含まれている。
図5は、効果音の再生タイミングを説明する図である。例えば、図5で、音圧波形の下部に示したように、会話音声の音圧レベルがしきい値Bを超えると、ベース効果音の再生が開始される。そして、音圧レベルがしきい値Bを下回るとベース効果音の再生が停止される。ベース効果音は、効果音出力条件14cに含まれる設定条件等に基づいて選択され、出力音制御部15によって所定の音量レベルでスピーカ30から再生される。
ベース効果音は、会話音声の音圧レベルがしきい値Bを超えている間だけ再生され、会話が無いときには停止するように制御される。このため、静かな環境に会話保護システムを設置した場合でも、会話を保護する必要がある場合にのみ予め設定された音量でベース効果音を再生し、会話が無いときには再生を停止して静かな状態を保つことが可能である。
なお、ベース効果音の再生を制御する方法については、会話音声の音圧レベルがしきい値Bを下回る度にベース効果音の再生を停止する態様に限らず、音圧レベルがしきい値を下回った状態が予め設定された所定時間続いた場合にのみベース効果音の再生を停止するようにしてもよい。すなわち、会話が短時間途切れただけである場合にはベース効果音の再生を続けるように制御してもよい。また、ベース効果音を常に再生してBGMとして利用したい場合には、出力音操作部40による再生停止の操作がされない限り、ベース効果音の再生を続けるように制御してもよい。また、ベース効果音の再生の開始及び停止を制御するのではなく、ベース効果音を常に再生しながら、その再生音量を会話音声の音圧レベルに応じて制御することにより、図5に示す再生状況を実現しても構わない。これらのベース効果音の再生制御は、効果音出力条件14cの設定を変更することにより実現できるようになっている。
さらに、ベース効果音用のしきい値に関し、第三者3に聞こえるようにベース効果音の再生を制御する際のしきい値と、第三者3に聞こえないようにベース効果音の再生を制御する際のしきい値とが異なる値に設定されても構わない。すなわち、例えばベース効果音の再生開始を判断するしきい値と再生停止を判断するしきい値とが異なる設定値であっても構わない。
また、図5で、音圧波形の上部に示したように、会話音声の音圧レベルがしきい値Bを超えてベース効果音の再生が開始された後、さらに音圧レベルがしきい値Aを超えると、アテンション効果音が再生される。アテンション効果音は、記憶部14に保存された複数の音データの中から効果音制御部13によってランダムに選択される。また、再生時の音量レベルについても効果音制御部13によってランダムに設定される。なお、再生時の音量レベルについては、音量レベルの範囲だけが予め設定されており、この範囲内でランダムに設定されるようになっている。
アテンション効果音は会話音声の音圧がしきい値Aを超える度に再生されるが、会話音声の音圧は不規則に変化するので、アテンション効果音は図5に示すようにランダムなタイミングで再生されることになる。なお、図5ではアテンション効果音を2段で示しているが、このように、会話音声の音圧がしきい値Aを超えるタイミングによっては、先に再生されたアテンション効果音の再生が完了する前に、次のアテンション効果音が再生される場合もある。
また、図5では、ベース効果音及びアテンション効果音の両方を再生する場合を示しているが、本実施形態がこれに限定されるものではなく、しきい値A及びBを設定することによりベース効果音又はアテンション効果音のいずれか一方のみを再生するように制御することもできる。
アテンション効果音として、ベル音のように、聞く人の注意を引きやすい短い音が利用される。このため、会話音声の音量が所定のしきい値Aを超えるタイミングでアテンション効果音を再生して、第三者の注意をアテンション効果音に向かせることで、会話音声を聞き取り難くする効果がある。
また、図5には示していないが、防聴音生成部12によって生成された防聴音も、マスキング音として、会話音声に合わせて再生される。防聴音は、例えば、図5に示すベース効果音と同様に、しきい値Bを超える間、会話音声に合わせて再生される。防聴音は、違和感を覚える音となる場合もある。しかし、防聴音が再生される間、会話音声がしきい値Aを超えるランダムなタイミングでアテンション効果音が再生されるので、第三者の注意はアテンション効果音に引きつけられる。この結果、防聴音に対する違和感を低減させる効果を得ることができる。
また、アテンション効果音は、音色、音の高さ、再生音量及びタイミングを変えながら再生されるので、同じような音が繰り返して再生される場合のように単調な印象を受けることがない。すなわち、アテンション効果音のランダムな印象により、第三者はアテンション効果音に慣れることがない。このため、第三者の注意を引き続けて、会話音声を保護する効果と防聴音の違和感を低減する効果とを維持し続けることができる。
アテンション効果音は、会話音声の音圧がしきい値Aを超えた場合にのみ再生される短い音であるため、アテンション効果音の再生を終了してから次のアテンション効果音が再生される迄の間に隙間の時間が生ずる場合がある。ベース効果音を再生することなくアテンション効果音のみを再生した場合には、アテンション効果音の隙間で防聴音の印象が強くなり、防聴音に違和感を覚える可能性がある。このため、しきい値Aよりも音圧レベルの低いしきい値Bを設定して、このしきい値Bを超える間はベース効果音を再生し、2つのアテンション効果音の隙間ではベース効果音が聞こえるように再生が制御される。これにより、アテンション効果音の隙間で防聴音の印象が強くなることを回避することができる。
ベース効果音は、音量の揺らぎの少ない音である。アテンション効果音を再生することなくベース効果音のみを再生した場合には、ベース効果音を聞くうちにその音に慣れて防聴音の印象が強くなり、防聴音に違和感を覚える可能性がある。このため、ベース効果音に加えて、聞く者の注意を引くアテンション効果音を再生して、効果音に対してランダムな印象を与えるように制御される。これにより、ベース効果音に慣れて防聴音の印象が強くなることを回避することができる。
このように、アテンション効果音及びベース効果音の2種類の効果音を利用することよって、防聴音に対する違和感を効果的に低減することができる。また、アテンション効果音及びベース効果音によって、マスキング音としての効果も得られるので、防聴音のみを利用する場合に比べて、より会話の内容を聞き取り難くするという効果を得ることもできる。
次に、アテンション効果音データについて詳細を説明する。アテンション効果音は、会話音声をマスキングすると共に、第三者3の注意を会話音声からそらしてアテンション効果音へ向けるために利用される。第三者3が音に慣れてしまうと、注意を引く効果が低くなってしまうため、音に慣れることがないように、ランダムな印象を与えるようにアテンション効果音の再生が制御される。
図6に示すように、様々な時間軸波形を有するアテンション効果音が利用される。アテンション効果音は、ベル、木琴、鉄琴等の異なる音色で、例えば2秒の間に音圧レベルが起ち上がった後に減衰する音である。この2秒間に1つの音が再生される場合もあるし2つ以上の複数の音が再生される場合もある。
鉄琴の音色のアテンション効果音を例に具体的に説明すると、選択されたアテンション効果音によって、2秒の間に、鉄琴の音が1回だけ聞こえる場合もあるし、同じ高さ又は異なる高さの鉄琴の音が複数回聞こえる場合もある。また、例えば音が2回聞こえる場合でも、各音が聞こえるタイミングは、選択されたアテンション効果音によって同じ場合もあるし異なる場合もある。すなわち、同じ2秒間のアテンション効果音であっても、各アテンション効果音を再生したときに聞こえる音色、音の数、各音の高さ、各音が聞こえるタイミングの少なくとも1つが異なるようになっている。
図7は、記憶部14に保存されるアテンション効果音データ14aの例を示す図である。このように、様々な音色の複数の音が、アテンション効果音データ14aとして記憶部14に保存されている。効果音制御部13は、これらの中から再生するアテンション効果音データ14aをランダムに選択する。
例えば、効果音制御部13が、再生時間が2秒間のアテンション効果音データ14aの中から3つのデータをランダムに選択する。この場合には、3つのアテンション効果音データ14aが6秒かけて再生されることになる。しかし、図6に示したように、1つのアテンション効果音データ14aの中に含まれる音は各々異なっている。このため、2秒間のアテンション効果音データ14aを3つ選択した場合でも、6秒の間に聞こえる音は3つ以上のランダムな数になる。また、選択されたアテンション効果音データ14aによって、音色や、含まれる各音が再生されるタイミングや、各音の高さも異なる。さらに、選択された各アテンション効果音データ14aは、音量レベルをランダムに変更して再生される。
このように、様々な音からなる複数のアテンション効果音データ14aの中から、再生する音をランダムに選択して、音量レベルを変更しながら再生することにより、ランダムな印象を受ける音を再生することができる。この結果、アテンション効果音を聞く第三者3が音に慣れることがなく、聞く者の注意を引きつける効果を維持し続けることができる。
なお、会話保護システムでは、効果音を聞く者に対して、ランダムな印象を与えるだけではなく、心地よい印象を与えることもできる。アテンション効果音データ14aをランダムに選択して再生した場合に、続けて再生されるアテンション効果音データ14aによっては、違和感を覚える場合がある。例えば、続けて再生される音の高さが急激に変化したり、音の高さが不協和音を構成するような関係にあったり、音色の組合せの相性が悪い場合には、再生された音に違和感を覚える場合がある。このため、会話保護システムでは、記憶部14の効果音出力条件14cの中に、アテンション効果音データ14aの組合せを設定したテーブルが保存されている。例えば、音色の組合せ、音の高さの変化、協和音を構成する音の高さの関係等を考慮して、アテンション効果音データ14aの組合せが設定テーブルに設定される。
図8は、アテンション効果音データ14aの設定テーブルの一例である。この設定テーブルでは、続けて再生した場合に心地よい音となるアテンション効果音データ14aの音色の組合せが予め設定されている。
アテンション効果音データ14aの設定テーブル利用する場合には、効果音制御部13が、設定テーブルに設定された組合せをランダムに選択する。そして、選択した組合せに基づいて、各音色のアテンション効果音データ14aをランダムに選択する。このとき、効果音制御部13は、各アテンション効果音データ14aを再生するときの音量レベルの設定も行うが、音量レベルについても、不快に感じることがないように予め設定された所定範囲内で設定されるようになっている。なお、音量レベルの設定条件についても、アテンション効果音データ14aの設定テーブルと同様に、効果音出力条件14cとして記憶部14に保存されている。
例えば、選択されたアテンション効果音データ14aの組合せが図8に示す設定テーブルのNo.1であった場合には、設定テーブルに従い、図7に示すアテンション効果音データ14aの中から、ベルの音色の2つのアテンション効果音データ14aと、木琴の音色の1つのアテンション効果音データ14aがランダムに選択される。例えば、ランダムに選択されたアテンション効果音データ14aが、ベルB、ベルA及び木琴Bであった場合には、図9(a)に示すように、これら3つのアテンション効果音データ14aが、順に再生される。また、例えば、音量レベルを所定レベルに対して+20%から−20%の間で変更するように設定されており、ランダムに設定された音量レベルが90%、100%及び110%であった場合には、各音がこの音量で再生される。すなわち、図9(a)に示すように、所定の音量レベルに対して、90%の音量レベルでベルBの音が再生され、100%の音量レベルでベルAの音が再生され、110%の音量レベルで木琴Bの音が再生される。
なお、複数のアテンション効果音を連続して再生する方法は、複数の音を図9(a)に示すように連続して再生する態様に限らず、同図(b)のように、各音の一部が重なるように再生してもよい。この場合には、各音の重なり、すなわち各音の再生タイミングを、予め設定された所定範囲内でランダムに設定すればよい。
また、アテンション効果音の選択方法について、利用者の好みを反映して選択されるようにしてもよい。例えば、図8に示す設定テーブルの音色の組合せを利用者の好みに合わせて設定してもよいし、図7に示すデータの中から利用者の好みに合わせてアテンション効果音データ14aを選択し、これらをランダムに組み合わせたものを設定テーブルとしてもよい。また、利用者の好みによらず設定された図8の設定テーブルはそのままに、効果音制御部13がランダムにデータを選択する際に選択可能なアテンション効果音データ14aを、予め利用者の好みに合わせて絞っておくことによって、利用者の好みが反映されるようにしても構わない。
次に、ベース効果音データ14b及びアテンション効果音データ14aの再生処理について説明する。図10は、ベース効果音データ14bを再生する際の処理を示すフローチャートである。また、図11は、アテンション効果音データ14aを再生する際の処理を示すフローチャートである。
まず、ベース効果音データ14bを再生する際の処理について説明する。マイク20によって集音された会話音声から入力音解析部11によって生成された音圧波形が、出力音制御部15によって監視される(ステップS1及びステップS1;No)。
そして、会話音声から得られた音圧レベルが、予め設定されたベース効果音用のしきい値Bを超えた場合には(ステップS1;Yes)、効果音出力条件14c内の設定に基づいて選択されたベース効果音データ14bが再生される(ステップS2)。出力音制御部15は、音圧レベルの監視を継続する(ステップS3及びステップS3;No)。
そして、会話音声から得られた音圧レベルが、しきい値Bを下回った場合には(ステップS3;Yes)、ベース効果音データ14bの再生を停止する(ステップS4)。このとき、第3者が違和感を覚えることがないように、ベース効果音はフェードアウトするように停止される。ベース効果音データ14bの再生を停止した後も、出力音制御部15は、会話音声から得られた音圧レベルの監視を継続して、ベース効果音データ14bの再生及び停止を制御する。すなわち、図5に示したように、会話音声の音圧レベルが所定のしきい値Bを超えている間、ベース効果音データ14bが再生される。
なお、ベース効果音データ14bの再生を停止する際に、アテンション効果音データ14aが再生されている場合には、このアテンション効果音データ14aについてもベース効果音データ14bと同様に再生を停止するように制御してもよい。また、ベース効果音データ14bについては、再生及び停止を制御する態様の他、ベース効果音データ14bを常に再生しながら、再生音量を制御する態様であっても構わない。具体的には、会話音声の音圧レベルがしきい値Bを超えたときにはベース効果音データ14bの再生音量をフェードインして、所定の音量に達した所で音量を維持したまま再生を続け、会話音声の音圧レベルがしきい値Bを下回った場合にはフェードアウトするように音量を絞るようにしてもよい。
次に、アテンション効果音データ14aを再生する際の処理について説明する。出力音制御部15は、ベース効果音データ14bの場合と同様に、会話音声から得られた音圧波形を監視する(ステップS11及びステップS11;No)。
そして、会話音声から得られた音圧レベルが、予め設定されたアテンション効果音用のしきい値Aを超えた場合には(ステップS11;Yes)、効果音制御部13によって、アテンション効果音データ14aがランダムに選択される(ステップS12)。さらに、効果音制御部13は、アテンション効果音データ14aを再生する際の音量レベルを所定範囲内でランダムに設定する(ステップS13)。
そして、出力音制御部15が、ランダムに選択されたアテンション効果音データ14aを、ランダムに設定された音量でスピーカ30から再生する(ステップS14)。出力音制御部15は、これらの処理が行われる間も音圧レベルの監視を継続して、会話音声から得られた音圧レベルがしきい値Aを超えた場合には、次のアテンション効果音データ14aを再生する。すなわち、図5に示したように、会話音声の音圧レベルが所定のしきい値Aを超える度に、ランダムに選択されたアテンション効果音データ14aが、ランダムに設定された音量レベルで再生される。
なお、本実施形態では、図8に示すアテンション効果音データ14aの設定テーブルを利用する態様を示したが、設定テーブルは1つである場合に限定されず、複数の設定テーブルを利用する態様であってもよい。
例えば、特定の音色のアテンション効果音を多く含むように複数の設定テーブルを用意して、会話音声に合わせて設定テーブルを選択して利用してもよい。具体的には、会話音声の音圧レベルに合わせて、音圧レベルが小さいときには静かな印象を受ける木琴等のアテンション効果音が多く含まれるテーブルを利用して、音圧レベルが大きいときには鉄琴等の強い印象を受ける音色のアテンション効果音が多く含まれるテーブルを利用する。
また、入力音解析部11が、会話音声を解析するときに、声質や性別を判定して、この判定結果に基づいて設定テーブルを選択して利用してもよい。例えば、声質や性別に応じて、会話音声をマスキングする効果や防聴音の違和感を低減する効果が高いアテンション効果音データ14aが選択されるように、設定テーブルを予め設定して利用する。具体的には、会話音声の声質に合わせて、例えば女性の高い声に対しては鉄琴等のアテンション効果音が多く含まれる設定テーブルを利用して、男性の低い声に対しては木琴等のアテンション効果音が多く含まれる設定テーブルを利用する。
このように、アテンション効果音データ14aをランダムに選択しながらも、その音色や音の高さが、会話音声の声質等の特徴に合わせて選択されるように設定テーブルを利用すれば、会話音声に対するマスキング効果や、防聴音の違和感の低減効果をより高くすることができる。
なお、アテンション効果音データ14aを再生するときの音量レベルについても、会話音声に応じて変化させる態様であってもよい。また、ベース効果音データ14bの選択や再生時の音量レベルについても、会話音声に応じて設定する態様であっても構わない。
また、本実施形態では、音色を考慮してアテンション効果音の組合せを設定テーブルに設定する態様を示したが、これに加えて、ベース効果音として利用される音や曲に応じてアテンション効果音の組合せが予め設定される態様であっても構わない。具体的には、鳥のさえずりを利用したアテンション効果音の組合せを設定テーブルとして作成して、この設定テーブルを川のせせらぎの音からなるベース効果音と関連付けて利用する。これにより、ベース効果音データ14bとして川のせせらぎの音が選択された場合には、鳥のさえずりをアテンション効果音データ14aとして再生することができる。このように、ベース効果音に合わせたアテンション効果音を利用するように設定することで、聞く者に心地よい印象を与えることができる。
また、本実施形態では、図6に示すように、再生長さが同じアテンション効果音データ14aの中から3つのデータを選択して再生する態様を示した。しかし、本実施形態はこれに限定されず、選択されるアテンション効果音データ14aの数や各アテンション効果音データ14aの長さが異なる態様であっても構わない。
具体的には、例えば、図12(a)に示す長さtaのアテンション効果音が、同図(b)に示すように、長さが同じt1の2つのアテンション効果音データ14aを組み合わせて生成されてもよいし、同図(c)に示すように、長さが異なる3つのアテンション効果音データ14aを組み合わせて生成される態様であっても構わない。アテンション効果音については、第三者3がこの音に慣れて注意を引きつける効果が薄れないように、ランダムな印象を与えながら注意を引きつけることができれば、音色、音の高さ、音量、再生タイミング及び生成方法等が本実施形態で説明した例に限定されるものではない。
上述してきたように、本実施形態によれば、アテンション効果音データ14a及びベース効果音データ14bの2種類の音を、保護すべき会話音声の音量に応じて再生することにより、第三者3が会話の内容を聞き取り難くすることができる。
また、アテンション効果音データ14a及びベース効果音データ14bを、会話音声の聞き取りを困難にする防聴音に加えて再生することで、会話を効果的に保護しつつ、防聴音に対する違和感を低減することができる。
また、アテンション効果音データ14aを、音色、音の高さ、音量等を変更しながら再生することで聞く者にランダムな印象を与え、再生される音に慣れて防聴音に対する違和感を低減する効果が薄れることを防ぐことができる。