JP5925493B2

JP5925493B2 - 会話保護システム及び会話保護方法

Info

Publication number: JP5925493B2
Application number: JP2012003244A
Authority: JP
Inventors: 敦寿菅原; 佳洋入江; 陽二郎神瀬
Original assignee: Glory Ltd
Current assignee: Glory Ltd
Priority date: 2012-01-11
Filing date: 2012-01-11
Publication date: 2016-05-25
Anticipated expiration: 2032-01-11
Also published as: JP2013142795A

Description

この発明は、会話の内容が会話当事者以外の第三者によって聞き取られることを防止するための会話保護システム及び会話保護方法に関する。

従来、銀行や病院等では、会話の音声が漏れて第三者に聞き取られることを防止するために様々なシステムが利用されている。例えば、銀行内で行われる行員と顧客の会話や、病院内で行われる受付担当者、医師及び薬剤師と患者との会話には、第三者には聞かれたくない個人情報が含まれる場合があるため、第三者に向けて別の音を再生することにより、第三者が会話音声を聞き取り難いようにしている。

例えば、特許文献１では、駅や空港等の公共の場所で会話する複数のグループの間に、吸音効果を有するスクリーンを仕切りとして設置した上で、ＢＧＭ（ＢａｃｋｇｒｏｕｎｄＭｕｓｉｃ）を流すことにより会話の内容を保護する技術が開示されている。また、特許文献２では、ＢＧＭの再生に関して、隣室で行われる会話音声を集音して、会話音声の音量に応じてＢＧＭの音量を調整する技術が開示されている。

しかしながら、人間の耳は、いわゆるカクテルパーティ効果によって、特定の音を選択的に聴取する選択的聴取能力を有している。このため、会話音声の聴取をより困難にするために、会話に無関係なＢＧＭではなく、会話音声に基づいて生成したマスキング音を利用する場合がある。

例えば、特許文献３では、会話音声の周波数スペクトルと逆位相の音を生成して、これをマスキング音として、会話の間だけ再生する技術が開示されている。また、特許文献４では、マスキング音に関して、会話音声の周波数スペクトルから抽出した包絡線及び微細構造に基づいて生成した防聴音を利用する技術が開示されている。防聴音とは、会話内容を聴かれることを防止するための音で、会話音声に被せるように再生することで会話音声の音韻性を壊すことができるマスキング音の一種である。

特表２０１１−５２８４４５号公報特開２００７−２５６６０６号公報特開２０１０−１９９３５号公報特許第４７６１５０６号公報

しかしながら、上記従来技術によれば、会話の内容を保護するためのＢＧＭやマスキング音に対して、第三者が不快感や違和感を覚える場合がある。例えば、音楽等をＢＧＭとして再生する場合に、カクテルパーティ効果を考慮して、会話音声を聞き取られることがないようにＢＧＭの音量を大きくすると、大きな音に不快感を覚える場合がある。

また、マスキング音を再生する場合には、人工的に生成された周波数特性を有する音に違和感を覚える場合がある。マスキング音は、会話音声の特徴に合わせて生成された音であるため、ＢＧＭのように会話音声と無関係な音を利用する場合に比べて小さい音量で、会話音声を聞き取り難くする効果を得ることができる。ところが、日常生活では経験しない聞き慣れないマスキング音を聞いた第三者は、たとえ音量が大きくない場合でも、この音に違和感を覚える場合がある。また、違和感を覚えながら、聞き慣れないマスキング音を聞くことに集中してしまい、違和感を増大させる場合がある。

本発明は、上述した従来技術による問題点を解消するためになされたもので、会話音声が第三者に聞き取られないように会話内容を保護するための音を再生しながら、この音に対して第三者が違和感や不快感を覚えることがない会話保護システム及び会話保護方法を提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、会話保護システムであって、会話する音声を集音するためのマイクロホンと、数秒の間に音圧レベルが起ち上がった後減衰する時間軸波形を示すアテンション効果音と該アテンション効果音に比べて音圧レベルが緩やかに変化する時間軸波形を示すベース効果音とを保存する記憶部と、前記会話を行う会話当事者を除く第三者に向けて、前記アテンション効果音及び前記ベース効果音のいずれか一つ又は両方を再生するためのスピーカと、少なくとも前記マイクロホンによって集音された会話音声の音圧レベルが第１のしきい値を超えている間は前記スピーカによる前記ベース効果音を再生する制御と、前記会話音声の音圧レベルが第２のしきい値を超える度に前記アテンション効果音を再生する制御とのいずれか一つ又は両方の制御を行う制御部とを備えることを特徴とする。

また、本発明は、上記発明において、前記制御部は、会話音声の音圧レベルが所定のしきい値を下回った場合に、前記スピーカによる前記ベース効果音及び前記アテンション効果音のいずれか一つ又は両方の再生を停止することを特徴とする。

また、本発明は、上記発明において、前記制御部は、前記アテンション効果音を再生する度に、所定時間内に聞こえる音の数、該音が聞こえるタイミング、該音の音色、及び該音の高さのうち少なくとも１つが変化するように前記アテンション効果音の再生を制御することを特徴とする。

また、本発明は、上記発明において、前記制御部は、サイン波を利用して前記アテンション効果音を生成することを特徴とする。

また、本発明は、上記発明において、前記マイクロホンによって集音された音声の周波数特性に基づいて前記音声をマスキングして聞き取り難くするマスキング音を生成するマスキング音生成部をさらに備え、前記制御部は、前記マスキング音生成部によって生成されたマスキング音を再生することを特徴とする。

また、本発明は、上記発明において、前記マスキング音生成部は、前記マイクロホンによって集音された音声からスペクトル包絡及びスペクトル微細構造を抽出して、周波数方向に延びる軸を中心として前記スペクトル包絡を上下に入れ替えるための反転軸を設定し、当該反転軸を中心として前記スペクトル包絡を反転させることにより前記スペクトル包絡に対して変形を施して変形スペクトル包絡を生成して、前記変形スペクトル包絡及び前記スペクトル微細構造を合成した防聴音を生成して前記マスキング音とすることを特徴とする。

また、本発明は、上記発明において、前記記憶部には、複数の前記アテンション効果音が保存されており、前記制御部は、前記記憶部からランダムに選択した前記アテンション効果音を再生することを特徴とする。

また、本発明は、上記発明において、前記記憶部には、各アテンション効果音の音色及び音の高さに基づいて設定された複数のアテンション効果音の組合せが設定テーブルとして保存されており、前記制御部は、前記設定テーブルからランダムに選択した組合せに基づいてアテンション効果音を再生することを特徴とする。

また、本発明は、上記発明において、前記制御部は、各アテンション効果音を再生する際の音量をランダムに変更することを特徴とする。

また、本発明は、上記発明において、前記アテンション効果音は、楽器の音であることを特徴とする。

また、本発明は、会話保護方法であって、会話する音声を集音する音声集音ステップと、少なくとも前記音声集音ステップで集音された会話音声の音圧レベルが第１のしきい値を超えている間は、音圧レベルが緩やかに変化する時間軸波形を示すベース効果音を再生するベース効果音再生ステップ、及び前記音声集音ステップで集音された会話音声の音圧レベルが第２のしきい値を超えた場合に、数秒の間に音圧レベルが起ち上がった後に減衰する時間軸波形を示すアテンション効果音を再生するアテンション効果音再生ステップのいずれか一つ又は両方のステップを含む効果音再生ステップとを含むことを特徴とする。

また、本発明は、上記発明において、前記音声集音ステップで集音された会話音声の音圧レベルが所定のしきい値を下回った場合に、前記ベース効果音及び前記アテンション効果音のいずれか一つ又は両方の再生を停止する効果音停止ステップをさらに含むことを特徴とする。

本発明によれば、保護対象となる会話音声の音圧が所定のしきい値を超えている間は少なくともベース効果音を再生し、さらに会話音声の音量に応じてランダムなタイミングでアテンション効果音を再生することにより聞く者にランダムな印象を与えることができる。また、数秒の間に減衰する短音であるアテンション効果音は第三者の注意を引きやすいので、音に慣れた第三者がカクテルパーティ効果による選択的聴取を行って会話音声を聞き取ることを防止して、会話保護の効果を高めることができる。

また、本発明によれば、会話がなされていないときには、ベース効果音及びアテンション効果音を停止することができるので、静かな環境等に合わせた利用にも適している。

また、本発明によれば、アテンション効果音の１回の再生で所定時間内に聞こえる音の数、該音が聞こえるタイミング、該音の音色、及び該音の高さのうち少なくとも１つを変更するので、第三者にランダムな印象を与えて、音に慣れることを防止することができる。

また、本発明によれば、サイン波を利用してアテンション効果音を生成することができるので、聞く者にランダムな印象を与えるアテンション効果音を自在に生成して利用することができる。

また、本発明によれば、会話音声の周波数特性に基づいて生成したマスキング音を再生することで会話を保護することができる。また、マスキング音が日常生活では聞くことがない違和感を覚える音である場合も、第三者の注意をベース効果音及びアテンション効果音に向けることができるので、マスキング音に対する違和感を低減することができる。

また、本発明によれば、会話音声の音韻性を壊すための防聴音を再生することで、より効果的に会話を保護することができる。また、ベース効果音及びアテンション効果音により防聴音の違和感を低減することができる。

また、本発明によれば、音色や音の高さ等が異なる様々なアテンション効果音データを記憶部に保存して、この中からランダムに選択した音を再生することで聞く者にランダムな印象を与えて、会話を保護する効果や防聴音等のマスキング音の違和感を低減する効果を維持することができる。

また、本発明によれば、音色等に基づいて、続けて再生された場合でも違和感を覚えないアテンション効果音の組合せを設定テーブルとして設定して、この設定に基づいてアテンション効果音を再生するので、会話を保護する効果及びマスキング音の違和感を低減する効果に加えて、アテンション効果音に対する違和感をも低減して、心地よい印象を与えることができる。

また、本発明によれば、再生するアテンション効果音の音色等を変更することに加えて、アテンション効果音を再生する際の音量を変更することもできるので、よりランダムな印象を与えて、さらに第三者が音に慣れてカクテルパーティ効果の発揮を抑制することができる。

図１は、本発明に係る会話保護システムの利用例を説明する図である。図２は、本実施形態に係る会話保護システムの設置例を説明する図である。図３は、本実施形態に係る会話保護システムの機能構成概略を示すブロック図である。図４は、本実施形態に係る会話音声の解析例を示す説明図である。図５は、本実施形態に係るベース効果音及びアテンション効果音の再生タイミングを説明する図である。図６は、本実施形態に係るアテンション効果音の振幅波形の例を示す図である。図７は、本実施形態に係る記憶部に保存されるアテンション効果音の例を示す図である。図８は、本実施形態に係る記憶部に保存されるアテンション効果音の組合せが設定された設定テーブルの例を示す図である。図９は、本実施形態に係る複数のアテンション効果音の再生方法について説明する図である。図１０は、本実施形態に係るベース効果音の再生方法を説明するフローチャートである。図１１は、本実施形態に係るアテンション効果音の再生方法を説明するフローチャートである。図１２は、本実施形態に係るアテンション効果音の生成方法を説明する図である。

以下に添付図面を参照して、この発明に係る会話保護システム及び会話保護方法の好適な実施形態について詳細に説明する。会話保護システムは、例えば、銀行等の金融機関や、病院や薬局等の医療機関で行われる会話内容が第三者によって聞き取られることを防止して、会話に含まれる個人情報やプライバシーを保護するために利用するシステムである。

図１は、会話保護システムの利用例を説明する図である。この例では、ブース内で会話を行う当事者１及び２の音声が、第三者３に聞き取られることを防止する。例えば、ブースを仕切るために設けられたパーティション５１の外側で待合席５２に座っている人物や、隣のブースに居る人物が第三者３に該当する。

会話保護システムは、音声処理装置１０と、マイクロホン（以下「マイク」と記載する）２０と、スピーカ３０によって構成される。マイク２０は、例えば、ブース内で会話当事者１及び２が座るテーブル５０に設置され、保護対象となる会話音声を集音するために利用される。音声処理装置１０は、マイク２０によって集音された音声に基づきマスキング音を生成して、このマスキング音と後述する効果音とをスピーカ３０によって再生する機能を有する。スピーカ３０は、ブースの外に居る第三者３に向けて音を再生するように設置されている。

図２は、上方から見た会話保護システムの設置例を説明する図である。このように、会話保護システムは、音声処理装置１０、マイク２０及びスピーカ３０に加えて、スピーカ３０から出力する音を制御するための出力音操作部４０を備える場合もある。この出力音操作部４０によって、例えば、スピーカ３０から出力される音の再生開始及び再生停止の制御や、再生時の音量制御を行うことができる。なお、図２では、説明を簡略化するために、１つのブースの会話を保護するためのシステムのみを示しているが、複数のブースがある場合には、各ブースの会話音声を保護するための音声処理装置１０、マイク２０、スピーカ３０及び出力音操作部４０が設置される。

図３は、会話保護システムの機能構成概略を示すブロック図である。図３を参照しながら音声処理装置１０について詳細を説明する。音声処理装置１０は、マイク２０によって集音された会話音声の入力を受ける入力音解析部１１と、会話音声に基づいて防聴音を生成する防聴音生成部（マスキング音生成部）１２と、防聴音とは別に再生する効果音を制御する効果音制御部１３と、効果音として利用する音データや効果音の再生を制御するための設定等が保存されている記憶部１４と、防聴音及び効果音を会話音声に応じてスピーカ３０で再生する制御を行う出力音制御部１５とを有している。なお、入力音解析部１１、防聴音生成部１２、効果音制御部１３及び出力音制御部１５は、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）によって構成されている。また、音声処理装置１０は、ＤＳＰを含む専用のハードウェアによって構成されてもよいし、コンピュータ装置を利用して構成されてもよい。

なお、図３では、会話保護システムの説明に必要な構成要素のみを示しているが、音声処理装置１０は、この他に、例えば、マイク２０からの入力信号及びスピーカ３０への出力信号を処理するためのＡ／Ｄ（Ｄ／Ａ）コンバータ及びアンプを有している。また、外部装置との間で有線又は無線で通信を行うための通信インターフェイスを有する場合もある。

入力音解析部１１は、マイク２０から入力され、Ａ／Ｄコンバータでデジタル化された保護対象となる会話音声の周波数特性や音量を解析する機能を有する。例えば、会話音声が、図４上段に示す振幅波形を示す場合に、この振幅波形をリアルタイムに解析して、同図下段に示す音圧波形を生成する。この音圧波形を形成する音圧レベルは、防聴音生成部１２によって防聴音を生成する処理や、効果音制御部１３によって生成された効果音の再生タイミングを制御するために利用される。

防聴音生成部１２は、会話音声に合わせてスピーカ３０から再生することで、会話音声の音韻性を壊すことができる防聴音を生成する機能を有する。防聴音は、会話音声の周波数特性を示すスペクトルから抽出した包絡線及び微細構造に係る特徴に基づいて生成されるマスキング音の一種である。具体的には、会話音声から得られた音声スペクトルからスペクトル包絡及びスペクトル微細構造を抽出して、スペクトル包絡を上下に入れ替えるための周波数方向に延びる反転軸を設定して当該反転軸を中心としてスペクトル包絡を反転させることによりスペクトル包絡に対して変形を施した変形スペクトル包絡を生成し、さらに、この変形スペクトル包絡及びスペクトル微細構造を合成した変形スペクトルを生成して、これを防聴音とする。なお、防聴音は、特許第４７６１５０６号公報によって開示された従来技術によって生成することができるので詳細な説明は省略する。

効果音制御部１３は、効果音データの組合せや再生音量を制御して、会話音声に合わせてスピーカ３０から再生される効果音を生成する機能を有する。ここで、本実施形態で言う効果音とは、第三者３が会話音声を聞き取り難くする効果と防聴音に対する違和感を低減する効果とを得るために再生する音である。防聴音が会話音声の特徴に基づく周波数特性を有する音であるのに対し、効果音は会話音声とは無関係な周波数特性を有している。また、防聴音が会話音声に基づいて生成される音であるのに対し、効果音としては予め用意された曲や楽器等の音を利用することができる。防聴音は人工的に操作された周波数特性を有するため聞いたときに違和感を覚える場合があるが、効果音からはそのような違和感を覚えることがなく、音の種類によっては逆に心地よい印象を受ける。

効果音として、ベース効果音とアテンション効果音の２種類の音を利用する。ベース効果音は会話音声が続く間途切れることなく続けて再生される音であり、アテンション効果音は会話音声の音圧が所定のしきい値を超える度に再生される音である。ベース効果音として利用するベース効果音データ１４ｂと、アテンション効果音として利用するアテンション効果音データ１４ａは、フラッシュメモリ等の一般的なメモリから構成される記憶部１４に保存される。効果音データのデータ形式として、例えば、ＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）音源が利用される。また、ＭＰ３などの圧縮音源などでもよい。なお、記憶部１４は、複数の効果音データを保存することができれば、ハードディスク等の他の記憶装置を利用するものであってもよい。

ベース効果音としては、静かな印象を受ける曲を利用することが好ましい。具体的には、時間軸方向の音圧レベルの変化が緩やかな音源を利用する。例えば、複数のオルゴール曲が、ベース効果音データ１４ｂとして予め記憶部１４に保存される。ベース効果音は、従来装置で利用されるＢＧＭに相当する音である。

ベース効果音は、数秒〜数十秒の長さで、再生した時に第三者３が驚いたり不快感を覚えるような音が含まれず、同じ曲又は別の曲を連続して再生した場合でも曲の終わりと次の曲の初めとが違和感なくつながり、音量を変化させても不快感を覚えないものであれば、その内容は特に限定されない。例えば、打楽器や弦楽器等の楽器による曲であってもよいし、川のせせらぎ、波の音又は小鳥のさえずり等を利用した音であってもよい。

利用者は、記憶部１４に保存された複数のベース効果音データ１４ｂの中から、再生したい音を選択することができる。再生するベース効果音データ１４ｂが予め選択されている場合には、選択内容が効果音出力条件１４ｃの一部として記憶部１４に保存される。効果音制御部１３は、効果音出力条件１４ｃに含まれる設定を参照してベース効果音データ１４ｂを選択する。そして、選択されたベース効果音が、出力音制御部１５によってスピーカ３０から再生される。なお、出力音操作部４０がベース効果音データ１４ｂを選択するための操作部を有しており、利用者がこの操作部を操作してベース効果音データ１４ｂを選択してもよい。また、音声処理装置１０の備える通信機能により、リモコン等の外部装置から受信した信号に基づいてベース効果音データ１４ｂが選択される態様であっても構わない。

アテンション効果音としては、聞く人が驚くような音ではなくかつ注意を引きやすい音を利用することが好ましい。例えば、時間軸方向の音圧レベルが、数秒の間に、起ち上がった後に減衰するような短い音を利用する。具体的には、鉄琴、木琴等の打楽器を叩いた音、ギターやハープ等の弦楽器を弾いた音、ベルや鐘等を鳴らした音等をアテンション効果音として利用する。様々な音色の様々な高さの音が、アテンション効果音データ１４ａとして予め記憶部１４に保存される。

アテンション効果音は、短い音で、再生したときに第三者が驚いたり不快感を覚えるような音ではなく、ベース効果音に重ねて再生したときに違和感を覚えずかつベース効果音に埋もれることなく容易に聞き取れる音であれば、その音色や音の高さ等の条件は特に限定されない。例えば、カリンバのような民族楽器の音であってもよいし、サイン波を利用して生成された音であってもよいし、鳥のさえずりや虫の鳴き声等であっても構わない。また、記憶部１４に予め保存されたデータを利用してもよいし、複数のサイン波に窓関数を適用したものを合成して音を生成して利用する態様であっても構わない。

アテンション効果音データ１４ａは、記憶部１４に保存されたデータの中から、効果音制御部１３によってランダムに選択される。アテンション効果音データ１４ａは、会話音声の音量が所定のしきい値を超えたタイミングで、ベース効果音データ１４ｂに重ねて再生される。

記憶部１４には、ベース効果音データ１４ｂ及びアテンション効果音データ１４ａの他に、効果音出力条件１４ｃが保存されている。効果音出力条件１４ｃには、会話保護システムの利用者によって選択されたベース効果音データ１４ｂに係る設定情報、ベース効果音データ１４ｂの再生条件、アテンション効果音データ１４ａの選択条件及び再生条件等が含まれる。

出力音制御部１５は、Ｄ／Ａコンバータ及びアンプを有し、防聴音生成部１２で生成された防聴音をスピーカ３０から再生する機能を有する。防聴音は、会話の内容を聞き取ることができないように、会話音声に被せて音声の音韻性を壊すように再生される。また、出力音制御部１５は、効果音制御部１３によって選択された効果音を、効果音制御部１３によって設定された音量でスピーカ３０から再生する機能を有する。

効果音の再生タイミングは、入力音解析部１１によって図４に示すように生成された会話音声の音圧レベルに基づいて制御される。再生タイミングの制御に利用されるベース効果音用のしきい値Ｂ及びアテンション効果音用のしきい値Ａは、記憶部１４に保存された効果音出力条件１４ｃに含まれている。

図５は、効果音の再生タイミングを説明する図である。例えば、図５で、音圧波形の下部に示したように、会話音声の音圧レベルがしきい値Ｂを超えると、ベース効果音の再生が開始される。そして、音圧レベルがしきい値Ｂを下回るとベース効果音の再生が停止される。ベース効果音は、効果音出力条件１４ｃに含まれる設定条件等に基づいて選択され、出力音制御部１５によって所定の音量レベルでスピーカ３０から再生される。

ベース効果音は、会話音声の音圧レベルがしきい値Ｂを超えている間だけ再生され、会話が無いときには停止するように制御される。このため、静かな環境に会話保護システムを設置した場合でも、会話を保護する必要がある場合にのみ予め設定された音量でベース効果音を再生し、会話が無いときには再生を停止して静かな状態を保つことが可能である。

なお、ベース効果音の再生を制御する方法については、会話音声の音圧レベルがしきい値Ｂを下回る度にベース効果音の再生を停止する態様に限らず、音圧レベルがしきい値を下回った状態が予め設定された所定時間続いた場合にのみベース効果音の再生を停止するようにしてもよい。すなわち、会話が短時間途切れただけである場合にはベース効果音の再生を続けるように制御してもよい。また、ベース効果音を常に再生してＢＧＭとして利用したい場合には、出力音操作部４０による再生停止の操作がされない限り、ベース効果音の再生を続けるように制御してもよい。また、ベース効果音の再生の開始及び停止を制御するのではなく、ベース効果音を常に再生しながら、その再生音量を会話音声の音圧レベルに応じて制御することにより、図５に示す再生状況を実現しても構わない。これらのベース効果音の再生制御は、効果音出力条件１４ｃの設定を変更することにより実現できるようになっている。

さらに、ベース効果音用のしきい値に関し、第三者３に聞こえるようにベース効果音の再生を制御する際のしきい値と、第三者３に聞こえないようにベース効果音の再生を制御する際のしきい値とが異なる値に設定されても構わない。すなわち、例えばベース効果音の再生開始を判断するしきい値と再生停止を判断するしきい値とが異なる設定値であっても構わない。

また、図５で、音圧波形の上部に示したように、会話音声の音圧レベルがしきい値Ｂを超えてベース効果音の再生が開始された後、さらに音圧レベルがしきい値Ａを超えると、アテンション効果音が再生される。アテンション効果音は、記憶部１４に保存された複数の音データの中から効果音制御部１３によってランダムに選択される。また、再生時の音量レベルについても効果音制御部１３によってランダムに設定される。なお、再生時の音量レベルについては、音量レベルの範囲だけが予め設定されており、この範囲内でランダムに設定されるようになっている。

アテンション効果音は会話音声の音圧がしきい値Ａを超える度に再生されるが、会話音声の音圧は不規則に変化するので、アテンション効果音は図５に示すようにランダムなタイミングで再生されることになる。なお、図５ではアテンション効果音を２段で示しているが、このように、会話音声の音圧がしきい値Ａを超えるタイミングによっては、先に再生されたアテンション効果音の再生が完了する前に、次のアテンション効果音が再生される場合もある。

また、図５では、ベース効果音及びアテンション効果音の両方を再生する場合を示しているが、本実施形態がこれに限定されるものではなく、しきい値Ａ及びＢを設定することによりベース効果音又はアテンション効果音のいずれか一方のみを再生するように制御することもできる。

アテンション効果音として、ベル音のように、聞く人の注意を引きやすい短い音が利用される。このため、会話音声の音量が所定のしきい値Ａを超えるタイミングでアテンション効果音を再生して、第三者の注意をアテンション効果音に向かせることで、会話音声を聞き取り難くする効果がある。

また、図５には示していないが、防聴音生成部１２によって生成された防聴音も、マスキング音として、会話音声に合わせて再生される。防聴音は、例えば、図５に示すベース効果音と同様に、しきい値Ｂを超える間、会話音声に合わせて再生される。防聴音は、違和感を覚える音となる場合もある。しかし、防聴音が再生される間、会話音声がしきい値Ａを超えるランダムなタイミングでアテンション効果音が再生されるので、第三者の注意はアテンション効果音に引きつけられる。この結果、防聴音に対する違和感を低減させる効果を得ることができる。

また、アテンション効果音は、音色、音の高さ、再生音量及びタイミングを変えながら再生されるので、同じような音が繰り返して再生される場合のように単調な印象を受けることがない。すなわち、アテンション効果音のランダムな印象により、第三者はアテンション効果音に慣れることがない。このため、第三者の注意を引き続けて、会話音声を保護する効果と防聴音の違和感を低減する効果とを維持し続けることができる。

アテンション効果音は、会話音声の音圧がしきい値Ａを超えた場合にのみ再生される短い音であるため、アテンション効果音の再生を終了してから次のアテンション効果音が再生される迄の間に隙間の時間が生ずる場合がある。ベース効果音を再生することなくアテンション効果音のみを再生した場合には、アテンション効果音の隙間で防聴音の印象が強くなり、防聴音に違和感を覚える可能性がある。このため、しきい値Ａよりも音圧レベルの低いしきい値Ｂを設定して、このしきい値Ｂを超える間はベース効果音を再生し、２つのアテンション効果音の隙間ではベース効果音が聞こえるように再生が制御される。これにより、アテンション効果音の隙間で防聴音の印象が強くなることを回避することができる。

ベース効果音は、音量の揺らぎの少ない音である。アテンション効果音を再生することなくベース効果音のみを再生した場合には、ベース効果音を聞くうちにその音に慣れて防聴音の印象が強くなり、防聴音に違和感を覚える可能性がある。このため、ベース効果音に加えて、聞く者の注意を引くアテンション効果音を再生して、効果音に対してランダムな印象を与えるように制御される。これにより、ベース効果音に慣れて防聴音の印象が強くなることを回避することができる。

このように、アテンション効果音及びベース効果音の２種類の効果音を利用することよって、防聴音に対する違和感を効果的に低減することができる。また、アテンション効果音及びベース効果音によって、マスキング音としての効果も得られるので、防聴音のみを利用する場合に比べて、より会話の内容を聞き取り難くするという効果を得ることもできる。

次に、アテンション効果音データについて詳細を説明する。アテンション効果音は、会話音声をマスキングすると共に、第三者３の注意を会話音声からそらしてアテンション効果音へ向けるために利用される。第三者３が音に慣れてしまうと、注意を引く効果が低くなってしまうため、音に慣れることがないように、ランダムな印象を与えるようにアテンション効果音の再生が制御される。

図６に示すように、様々な時間軸波形を有するアテンション効果音が利用される。アテンション効果音は、ベル、木琴、鉄琴等の異なる音色で、例えば２秒の間に音圧レベルが起ち上がった後に減衰する音である。この２秒間に１つの音が再生される場合もあるし２つ以上の複数の音が再生される場合もある。

鉄琴の音色のアテンション効果音を例に具体的に説明すると、選択されたアテンション効果音によって、２秒の間に、鉄琴の音が１回だけ聞こえる場合もあるし、同じ高さ又は異なる高さの鉄琴の音が複数回聞こえる場合もある。また、例えば音が２回聞こえる場合でも、各音が聞こえるタイミングは、選択されたアテンション効果音によって同じ場合もあるし異なる場合もある。すなわち、同じ２秒間のアテンション効果音であっても、各アテンション効果音を再生したときに聞こえる音色、音の数、各音の高さ、各音が聞こえるタイミングの少なくとも１つが異なるようになっている。

図７は、記憶部１４に保存されるアテンション効果音データ１４ａの例を示す図である。このように、様々な音色の複数の音が、アテンション効果音データ１４ａとして記憶部１４に保存されている。効果音制御部１３は、これらの中から再生するアテンション効果音データ１４ａをランダムに選択する。

例えば、効果音制御部１３が、再生時間が２秒間のアテンション効果音データ１４ａの中から３つのデータをランダムに選択する。この場合には、３つのアテンション効果音データ１４ａが６秒かけて再生されることになる。しかし、図６に示したように、１つのアテンション効果音データ１４ａの中に含まれる音は各々異なっている。このため、２秒間のアテンション効果音データ１４ａを３つ選択した場合でも、６秒の間に聞こえる音は３つ以上のランダムな数になる。また、選択されたアテンション効果音データ１４ａによって、音色や、含まれる各音が再生されるタイミングや、各音の高さも異なる。さらに、選択された各アテンション効果音データ１４ａは、音量レベルをランダムに変更して再生される。

このように、様々な音からなる複数のアテンション効果音データ１４ａの中から、再生する音をランダムに選択して、音量レベルを変更しながら再生することにより、ランダムな印象を受ける音を再生することができる。この結果、アテンション効果音を聞く第三者３が音に慣れることがなく、聞く者の注意を引きつける効果を維持し続けることができる。

なお、会話保護システムでは、効果音を聞く者に対して、ランダムな印象を与えるだけではなく、心地よい印象を与えることもできる。アテンション効果音データ１４ａをランダムに選択して再生した場合に、続けて再生されるアテンション効果音データ１４ａによっては、違和感を覚える場合がある。例えば、続けて再生される音の高さが急激に変化したり、音の高さが不協和音を構成するような関係にあったり、音色の組合せの相性が悪い場合には、再生された音に違和感を覚える場合がある。このため、会話保護システムでは、記憶部１４の効果音出力条件１４ｃの中に、アテンション効果音データ１４ａの組合せを設定したテーブルが保存されている。例えば、音色の組合せ、音の高さの変化、協和音を構成する音の高さの関係等を考慮して、アテンション効果音データ１４ａの組合せが設定テーブルに設定される。

図８は、アテンション効果音データ１４ａの設定テーブルの一例である。この設定テーブルでは、続けて再生した場合に心地よい音となるアテンション効果音データ１４ａの音色の組合せが予め設定されている。

アテンション効果音データ１４ａの設定テーブル利用する場合には、効果音制御部１３が、設定テーブルに設定された組合せをランダムに選択する。そして、選択した組合せに基づいて、各音色のアテンション効果音データ１４ａをランダムに選択する。このとき、効果音制御部１３は、各アテンション効果音データ１４ａを再生するときの音量レベルの設定も行うが、音量レベルについても、不快に感じることがないように予め設定された所定範囲内で設定されるようになっている。なお、音量レベルの設定条件についても、アテンション効果音データ１４ａの設定テーブルと同様に、効果音出力条件１４ｃとして記憶部１４に保存されている。

例えば、選択されたアテンション効果音データ１４ａの組合せが図８に示す設定テーブルのＮｏ．１であった場合には、設定テーブルに従い、図７に示すアテンション効果音データ１４ａの中から、ベルの音色の２つのアテンション効果音データ１４ａと、木琴の音色の１つのアテンション効果音データ１４ａがランダムに選択される。例えば、ランダムに選択されたアテンション効果音データ１４ａが、ベルＢ、ベルＡ及び木琴Ｂであった場合には、図９（ａ）に示すように、これら３つのアテンション効果音データ１４ａが、順に再生される。また、例えば、音量レベルを所定レベルに対して＋２０％から−２０％の間で変更するように設定されており、ランダムに設定された音量レベルが９０％、１００％及び１１０％であった場合には、各音がこの音量で再生される。すなわち、図９（ａ）に示すように、所定の音量レベルに対して、９０％の音量レベルでベルＢの音が再生され、１００％の音量レベルでベルＡの音が再生され、１１０％の音量レベルで木琴Ｂの音が再生される。

なお、複数のアテンション効果音を連続して再生する方法は、複数の音を図９（ａ）に示すように連続して再生する態様に限らず、同図（ｂ）のように、各音の一部が重なるように再生してもよい。この場合には、各音の重なり、すなわち各音の再生タイミングを、予め設定された所定範囲内でランダムに設定すればよい。

また、アテンション効果音の選択方法について、利用者の好みを反映して選択されるようにしてもよい。例えば、図８に示す設定テーブルの音色の組合せを利用者の好みに合わせて設定してもよいし、図７に示すデータの中から利用者の好みに合わせてアテンション効果音データ１４ａを選択し、これらをランダムに組み合わせたものを設定テーブルとしてもよい。また、利用者の好みによらず設定された図８の設定テーブルはそのままに、効果音制御部１３がランダムにデータを選択する際に選択可能なアテンション効果音データ１４ａを、予め利用者の好みに合わせて絞っておくことによって、利用者の好みが反映されるようにしても構わない。

次に、ベース効果音データ１４ｂ及びアテンション効果音データ１４ａの再生処理について説明する。図１０は、ベース効果音データ１４ｂを再生する際の処理を示すフローチャートである。また、図１１は、アテンション効果音データ１４ａを再生する際の処理を示すフローチャートである。

まず、ベース効果音データ１４ｂを再生する際の処理について説明する。マイク２０によって集音された会話音声から入力音解析部１１によって生成された音圧波形が、出力音制御部１５によって監視される（ステップＳ１及びステップＳ１；Ｎｏ）。

そして、会話音声から得られた音圧レベルが、予め設定されたベース効果音用のしきい値Ｂを超えた場合には（ステップＳ１；Ｙｅｓ）、効果音出力条件１４ｃ内の設定に基づいて選択されたベース効果音データ１４ｂが再生される（ステップＳ２）。出力音制御部１５は、音圧レベルの監視を継続する（ステップＳ３及びステップＳ３；Ｎｏ）。

そして、会話音声から得られた音圧レベルが、しきい値Ｂを下回った場合には（ステップＳ３；Ｙｅｓ）、ベース効果音データ１４ｂの再生を停止する（ステップＳ４）。このとき、第３者が違和感を覚えることがないように、ベース効果音はフェードアウトするように停止される。ベース効果音データ１４ｂの再生を停止した後も、出力音制御部１５は、会話音声から得られた音圧レベルの監視を継続して、ベース効果音データ１４ｂの再生及び停止を制御する。すなわち、図５に示したように、会話音声の音圧レベルが所定のしきい値Ｂを超えている間、ベース効果音データ１４ｂが再生される。

なお、ベース効果音データ１４ｂの再生を停止する際に、アテンション効果音データ１４ａが再生されている場合には、このアテンション効果音データ１４ａについてもベース効果音データ１４ｂと同様に再生を停止するように制御してもよい。また、ベース効果音データ１４ｂについては、再生及び停止を制御する態様の他、ベース効果音データ１４ｂを常に再生しながら、再生音量を制御する態様であっても構わない。具体的には、会話音声の音圧レベルがしきい値Ｂを超えたときにはベース効果音データ１４ｂの再生音量をフェードインして、所定の音量に達した所で音量を維持したまま再生を続け、会話音声の音圧レベルがしきい値Ｂを下回った場合にはフェードアウトするように音量を絞るようにしてもよい。

次に、アテンション効果音データ１４ａを再生する際の処理について説明する。出力音制御部１５は、ベース効果音データ１４ｂの場合と同様に、会話音声から得られた音圧波形を監視する（ステップＳ１１及びステップＳ１１；Ｎｏ）。

そして、会話音声から得られた音圧レベルが、予め設定されたアテンション効果音用のしきい値Ａを超えた場合には（ステップＳ１１；Ｙｅｓ）、効果音制御部１３によって、アテンション効果音データ１４ａがランダムに選択される（ステップＳ１２）。さらに、効果音制御部１３は、アテンション効果音データ１４ａを再生する際の音量レベルを所定範囲内でランダムに設定する（ステップＳ１３）。

そして、出力音制御部１５が、ランダムに選択されたアテンション効果音データ１４ａを、ランダムに設定された音量でスピーカ３０から再生する（ステップＳ１４）。出力音制御部１５は、これらの処理が行われる間も音圧レベルの監視を継続して、会話音声から得られた音圧レベルがしきい値Ａを超えた場合には、次のアテンション効果音データ１４ａを再生する。すなわち、図５に示したように、会話音声の音圧レベルが所定のしきい値Ａを超える度に、ランダムに選択されたアテンション効果音データ１４ａが、ランダムに設定された音量レベルで再生される。

なお、本実施形態では、図８に示すアテンション効果音データ１４ａの設定テーブルを利用する態様を示したが、設定テーブルは１つである場合に限定されず、複数の設定テーブルを利用する態様であってもよい。

例えば、特定の音色のアテンション効果音を多く含むように複数の設定テーブルを用意して、会話音声に合わせて設定テーブルを選択して利用してもよい。具体的には、会話音声の音圧レベルに合わせて、音圧レベルが小さいときには静かな印象を受ける木琴等のアテンション効果音が多く含まれるテーブルを利用して、音圧レベルが大きいときには鉄琴等の強い印象を受ける音色のアテンション効果音が多く含まれるテーブルを利用する。

また、入力音解析部１１が、会話音声を解析するときに、声質や性別を判定して、この判定結果に基づいて設定テーブルを選択して利用してもよい。例えば、声質や性別に応じて、会話音声をマスキングする効果や防聴音の違和感を低減する効果が高いアテンション効果音データ１４ａが選択されるように、設定テーブルを予め設定して利用する。具体的には、会話音声の声質に合わせて、例えば女性の高い声に対しては鉄琴等のアテンション効果音が多く含まれる設定テーブルを利用して、男性の低い声に対しては木琴等のアテンション効果音が多く含まれる設定テーブルを利用する。

このように、アテンション効果音データ１４ａをランダムに選択しながらも、その音色や音の高さが、会話音声の声質等の特徴に合わせて選択されるように設定テーブルを利用すれば、会話音声に対するマスキング効果や、防聴音の違和感の低減効果をより高くすることができる。

なお、アテンション効果音データ１４ａを再生するときの音量レベルについても、会話音声に応じて変化させる態様であってもよい。また、ベース効果音データ１４ｂの選択や再生時の音量レベルについても、会話音声に応じて設定する態様であっても構わない。

また、本実施形態では、音色を考慮してアテンション効果音の組合せを設定テーブルに設定する態様を示したが、これに加えて、ベース効果音として利用される音や曲に応じてアテンション効果音の組合せが予め設定される態様であっても構わない。具体的には、鳥のさえずりを利用したアテンション効果音の組合せを設定テーブルとして作成して、この設定テーブルを川のせせらぎの音からなるベース効果音と関連付けて利用する。これにより、ベース効果音データ１４ｂとして川のせせらぎの音が選択された場合には、鳥のさえずりをアテンション効果音データ１４ａとして再生することができる。このように、ベース効果音に合わせたアテンション効果音を利用するように設定することで、聞く者に心地よい印象を与えることができる。

また、本実施形態では、図６に示すように、再生長さが同じアテンション効果音データ１４ａの中から３つのデータを選択して再生する態様を示した。しかし、本実施形態はこれに限定されず、選択されるアテンション効果音データ１４ａの数や各アテンション効果音データ１４ａの長さが異なる態様であっても構わない。

具体的には、例えば、図１２（ａ）に示す長さｔａのアテンション効果音が、同図（ｂ）に示すように、長さが同じｔ１の２つのアテンション効果音データ１４ａを組み合わせて生成されてもよいし、同図（ｃ）に示すように、長さが異なる３つのアテンション効果音データ１４ａを組み合わせて生成される態様であっても構わない。アテンション効果音については、第三者３がこの音に慣れて注意を引きつける効果が薄れないように、ランダムな印象を与えながら注意を引きつけることができれば、音色、音の高さ、音量、再生タイミング及び生成方法等が本実施形態で説明した例に限定されるものではない。

上述してきたように、本実施形態によれば、アテンション効果音データ１４ａ及びベース効果音データ１４ｂの２種類の音を、保護すべき会話音声の音量に応じて再生することにより、第三者３が会話の内容を聞き取り難くすることができる。

また、アテンション効果音データ１４ａ及びベース効果音データ１４ｂを、会話音声の聞き取りを困難にする防聴音に加えて再生することで、会話を効果的に保護しつつ、防聴音に対する違和感を低減することができる。

また、アテンション効果音データ１４ａを、音色、音の高さ、音量等を変更しながら再生することで聞く者にランダムな印象を与え、再生される音に慣れて防聴音に対する違和感を低減する効果が薄れることを防ぐことができる。

以上のように、本発明は、会話音声が第三者に聞き取られないように音を再生して会話内容を保護しながら、第三者が再生した音に違和感や不快感を覚えることを防ぐために有用な技術である。

１０音声処理装置
１１入力音解析部
１２防聴音生成部
１３効果音制御部
１４記憶部
１４ａアテンション効果音データ
１４ｂベース効果音データ
１４ｃ効果音出力条件
１５出力音制御部
２０マイク
３０スピーカ
４０出力音操作部
５０テーブル
５１パーティション
５２待合席

Claims

会話する音声を集音するためのマイクロホンと、
数秒の間に音圧レベルが起ち上がった後減衰する時間軸波形を示すアテンション効果音と該アテンション効果音に比べて音圧レベルが緩やかに変化する時間軸波形を示すベース効果音とを保存する記憶部と、
前記会話を行う会話当事者を除く第三者に向けて、前記アテンション効果音及び前記ベース効果音のいずれか一つ又は両方を再生するためのスピーカと、
少なくとも前記マイクロホンによって集音された会話音声の音圧レベルが第１のしきい値を超えている間は前記スピーカによる前記ベース効果音を再生する制御と、前記会話音声の音圧レベルが第２のしきい値を超える度に前記アテンション効果音を再生する制御とのいずれか一つ又は両方の制御を行う制御部と
を備えることを特徴とする会話保護システム。
前記制御部は、会話音声の音圧レベルが所定のしきい値を下回った場合に、前記スピーカによる前記ベース効果音及び前記アテンション効果音のいずれか一つ又は両方の再生を停止することを特徴とする請求項１に記載の会話保護システム。
前記制御部は、前記アテンション効果音を再生する度に、所定時間内に聞こえる音の数、該音が聞こえるタイミング、該音の音色、及び該音の高さのうち少なくとも１つが変化するように前記アテンション効果音の再生を制御することを特徴とする請求項１又は２に記載の会話保護システム。
前記制御部は、サイン波を利用して前記アテンション効果音を生成することを特徴とする請求項１、２又は３に記載の会話保護システム。
前記マイクロホンによって集音された音声の周波数特性に基づいて前記音声をマスキングして聞き取り難くするマスキング音を生成するマスキング音生成部をさらに備え、
前記制御部は、前記マスキング音生成部によって生成されたマスキング音を再生することを特徴とする請求項１〜４のいずれか１項に記載の会話保護システム。
前記マスキング音生成部は、前記マイクロホンによって集音された音声からスペクトル包絡及びスペクトル微細構造を抽出して、周波数方向に延びる軸を中心として前記スペクトル包絡を上下に入れ替えるための反転軸を設定し、当該反転軸を中心として前記スペクトル包絡を反転させることにより前記スペクトル包絡に対して変形を施して変形スペクトル包絡を生成して、前記変形スペクトル包絡及び前記スペクトル微細構造を合成した防聴音を生成して前記マスキング音とすることを特徴とする請求項５に記載の会話保護システム。
前記記憶部には、複数の前記アテンション効果音が保存されており、
前記制御部は、前記記憶部からランダムに選択した前記アテンション効果音を再生することを特徴とする請求項１〜６のいずれか１項に記載の会話保護システム。
前記記憶部には、各アテンション効果音の音色及び音の高さに基づいて設定された複数のアテンション効果音の組合せが設定テーブルとして保存されており、
前記制御部は、前記設定テーブルからランダムに選択した組合せに基づいてアテンション効果音を再生することを特徴とする請求項７に記載の会話保護システム。
前記制御部は、各アテンション効果音を再生する際の音量をランダムに変更することを特徴とする請求項１〜８のいずれか１項に記載の会話保護システム。
前記アテンション効果音は、楽器の音であることを特徴とする請求項１〜９のいずれか１項に記載の会話保護システム。
会話する音声を集音する音声集音ステップと、
少なくとも前記音声集音ステップで集音された会話音声の音圧レベルが第１のしきい値を超えている間は、音圧レベルが緩やかに変化する時間軸波形を示すベース効果音を再生するベース効果音再生ステップ、及び前記音声集音ステップで集音された会話音声の音圧レベルが第２のしきい値を超えた場合に、数秒の間に音圧レベルが起ち上がった後に減衰する時間軸波形を示すアテンション効果音を再生するアテンション効果音再生ステップのいずれか一つ又は両方のステップを含む効果音再生ステップと
を含むことを特徴とする会話保護方法。
前記音声集音ステップで集音された会話音声の音圧レベルが所定のしきい値を下回った場合に、前記ベース効果音及び前記アテンション効果音のいずれか一つ又は両方の再生を停止する効果音停止ステップ
をさらに含むことを特徴とする請求項１１に記載の会話保護方法。