JP2014130251A - 会話保護システム及び会話保護方法 - Google Patents

会話保護システム及び会話保護方法 Download PDF

Info

Publication number
JP2014130251A
JP2014130251A JP2012288381A JP2012288381A JP2014130251A JP 2014130251 A JP2014130251 A JP 2014130251A JP 2012288381 A JP2012288381 A JP 2012288381A JP 2012288381 A JP2012288381 A JP 2012288381A JP 2014130251 A JP2014130251 A JP 2014130251A
Authority
JP
Japan
Prior art keywords
sound
conversation
masking
voice
masking sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012288381A
Other languages
English (en)
Inventor
Naoki Kuroda
直樹 黒田
Yoshihiro Irie
佳洋 入江
Atsuhisa Sugawara
敦寿 菅原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Glory Ltd
Original Assignee
Glory Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Glory Ltd filed Critical Glory Ltd
Priority to JP2012288381A priority Critical patent/JP2014130251A/ja
Publication of JP2014130251A publication Critical patent/JP2014130251A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】適切なマスキング音を選択して再生して会話の内容が第三者に聞き取られることを防止する。
【解決手段】マイクロホンで集音した会話の音声から生成した防聴音をスピーカから出力することにより第三者に会話の内容を聞かれることを防止する会話保護システムを、複数の周波数域で各周波数域に対応する音声から生成したマスキング音が予め保存された記憶部と、マイクロホンにより集音した会話音声の声の高さを解析する入力音解析部と、入力音解析部により解析された声の高さに基づいて対応するマスキング音を選択して再生しスピーカに出力するマスキング音制御部とにより構成する。
【選択図】 図3

Description

この発明は、会話当事者以外の第三者によって会話の内容を聞き取られることを防止するための会話保護システム及び会話保護方法に関する。
従来、銀行や病院等では、会話の音声が漏れて第三者に聞き取られることを防止するために様々なシステムが利用されている。例えば、銀行内で行われる行員と顧客の会話や、病院内で行われる患者と、受付担当者、医師又は薬剤師との会話には、第三者には聞かれたくない個人情報が含まれる場合があるため、第三者に向けて、マスキング音を再生することにより会話音声を聞き取り難いようにしている。
マスキング音の生成方法として、例えば、特許文献1では、マイクロホンによって会話の音声を集音して、この音を表す包絡線信号を複数の包絡線に分割し、所定条件を満たす包絡線の配列位置を変更することによってマスキング音を生成する技術が開示されている。また、マスキング音を再生する際の音量の制御方法として、例えば、特許文献2では、会話音声のピークと一致するようにマスキング音の音量を大きくした後、緩やかに減衰させる技術が開示されている。
特開2010−217883号公報 特開2012−53335号公報
しかしながら、上記従来技術によれば、集音される音声の音質による影響を受けて、マスキング性能が低くなる場合があるという問題があった。具体的には、例えば、話者と集音用のマイクロホンとの距離が離れているために集音された音声の音質が悪い場合でも、この音声を元にマスキング音が生成される。このため、生成したマスキング音を再生しても、会話音声を効果的にマスキングできない場合がある。また、マスキング音が耳障りな音となって、この音を聞く第三者が不快に感じる場合がある。
また、マスキング音の再生音量を制御する際に、音声のピークに合わせてマスキング音の再生音量を大きくすれば第三者の注意を引くことができるが、その後、マスキング音を緩やかに減衰させる間に、音量が変化する会話音声に気付くと、この会話音声の方に集中してしまいマスキング効果を十分に発揮できない場合がある。
本発明は、上述した従来技術による問題点を解消するためになされたもので、会話音声に合わせて適切なマスキング音を再生することにより高いマスキング効果を得ることができる会話保護システム及び会話保護方法を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、会話を聞き取り難くするようにマイクロホンで集音した会話音声から周波数を変成して生成した音声である防聴音をスピーカから出力することにより第三者に前記会話の内容を聞かれることを防止する会話保護システムであって、複数の周波数域で各周波数域に対応する音声から生成したマスキング音が予め保存された記憶部と、前記マイクロホンにより集音した会話音声の声の高さを解析する入力音解析部と、前記入力音解析部により解析された声の高さに基づいて、対応するマスキング音を選択して再生し、前記スピーカに出力するマスキング音制御部とを備えることを特徴とする。
また、本発明は、上記発明において、前記入力音解析部は、前記会話音声の抑揚を解析して、前記マスキング音制御部は、前記入力音解析部によって解析された前記会話音声の抑揚に合わせて前記スピーカから出力する前記マスキング音の再生音量を制御することを特徴とする。
また、本発明は、上記発明において、各周波数域のマスキング音は、声の高さが前記周波数域に含まれる音声から言葉を認識できない時間長さで切り出した複数の音をランダムに選択して、時間軸上で一部をオーバーラップさせて合成した音であることを特徴とする。
また、本発明は、上記発明において、前記会話保護システムの利用者の声の高さに対応する周波数域では、前記マスキング音は当該利用者の音声を使用して生成されることを特徴とする。
また、本発明は、上記発明において、前記防聴音の再生音量と前記マスキング音の再生音量との関係を設定するための設定入力部をさらに有し、該設定入力部による設定に基づいて前記スピーカに出力される前記防聴音及び前記マスキング音の再生音量が制御されることを特徴とする。
また、本発明は、マイクロホンで集音した会話の音声から生成した防聴音をスピーカから出力することにより第三者に前記会話の内容を聞かれることを防止する会話保護方法であって、前記マイクロホンにより集音した会話音声の声の高さを解析する入力音解析工程と、各周波数域に対応する音声から予め生成された複数のマスキング音の中から前記入力音解析工程で解析された声の高さに対応するマスキング音を選択するマスキング音選択工程と、前記マスキング音選択工程で選択されたマスキング音を再生して前記スピーカに出力するマスキング音再生工程とを含んだことを特徴とする。
また、本発明は、上記発明において、前記入力音解析工程は、前記マイクロホンにより集音した前記会話音声の抑揚を解析する工程を含み、前記マスキング音再生工程では、前記入力音解析工程で解析された前記会話音声の抑揚に合わせて前記スピーカに出力する前記マスキング音の再生音量が制御されることを特徴とする。
本発明によれば、複数の周波数域で各周波数域に対応する高音質な音声から予めマスキング音を生成して記憶部に保存しておいて、会話音声の声の高さに基づいて、対応する周波数域のマスキング音を選択して再生することができるので、高いマスキング効果を得ることができる。
また、本発明によれば、会話音声の声の高さに応じて選択したマスキング音を、声の抑揚に合わせて音量を制御しながら出力するので、一定音量で出力したり徐々に減衰したりする場合に比べて高いマスキング効果を得ることができる。また、会話のないときにはマスキング音を出力しないのでうるささを抑えることができる。
また、本発明によれば、マスキング音は、該マスキング音の音源となる音声から言葉を認識できないように切り出した音を時間軸方向にずらしながら合成して生成されるので、言葉を聞き取ることはできないが複数人が何かを話しているような音になり、高いマスキング効果を得ることができる。
また、本発明によれば、会話保護システムを利用する利用者、すなわち保護対象となる会話を行う当事者の声を集音して、高音質な音声から予め生成したマスキング音を利用することができるので、会話音声に近い声質の声をマスキング音として出力することにより高いマスキング効果を得ることができる。
また、本発明によれば、会話保護を重視してマスキング音に比べて防聴音の再生音量を大きくしたり、防聴音に係る違和感低減を重視して防聴音に比べてマスキング音の再生音量を大きくしたりすることができるので、会話保護システムの利用状況や利用目的に柔軟に対応することができる。
図1は、本実施形態に係る会話保護システムの利用例を説明する図である。 図2は、本実施形態に係る会話保護システムの設置例を説明する図である。 図3は、本実施形態に係る会話保護システムの機能構成概略を示すブロック図である。 図4は、本実施形態に係る記憶部に保存されたマスキング音について説明する図である。 図5は、本実施形態に係るマスキング音について説明する図である。 図6は、本実施形態に係るマスキング音の選択及び再生を行うための音声解析の例を説明する図である。 図7は、本実施形態に係るマスキング音の選択方法を説明するフローチャートである。 図8は、本実施形態に係るマスキング音の選択の例を示す図である。
以下に添付図面を参照して、この発明に係る会話保護システム及び会話保護方法の好適な実施形態について詳細に説明する。会話保護システムは、例えば、銀行等の金融機関や、病院や薬局等の医療機関で行われる会話内容が第三者によって聞き取られることを防止して、プライバシーを保護するために利用するシステムである。
図1は、会話保護システムの利用例を説明する図である。この例では、ブース内で会話を行う当事者1及び2の音声が、第三者3に聞き取られることを防止している。例えば、ブースを仕切るために設けられたパーティション51の外側で待合席52に座っている人物や、隣のブースに居る人物が第三者3に該当する。
会話保護システムは、音声処理装置10と、マイクロホン(以下「マイク」と記載する)20と、スピーカ30とによって構成される。マイク20は、例えば、ブース内で会話当事者1及び2が座るテーブル50又はその近傍に設置され、保護対象となる会話音声を集音するために利用される。音声処理装置10は、マイク20によって集音された音声に基づいて、防聴音を生成すると共に、予め準備された気をそらせるような効果をもたらす効果音及びマスキング音の中から適切な音を選択して、これらの音をスピーカ30によって出力する機能を有する。スピーカ30は第三者3に向けて音を出力するように設置されている。
なお、防聴音、効果音及びマスキング音は、全て、第三者によって会話音声を聴き取られることがないようにマスキングするための音であるが、本実施形態では、マイク20で集音した会話音声からリアルタイムに生成した音を防聴音、曲や楽器の音等を効果音、所定の周波数域毎に複数の音声から予め生成した音をマスキング音として区別する。各音の詳細は後述するが、防聴音が会話音声の周波数特性に基づいてリアルタイムに生成して再生される音であるのに対して、効果音及びマスキング音は予め準備された複数の音データであり、会話音声に応じて選択して再生される音である。
図2は、会話保護システムの設置例を説明する図である。図2(a)はシステムを上方から見た模式図であり、同図(b)には待合席52の第三者3から見たシステムの外観図を示している。このように、会話保護システムは、音声処理装置10、マイク20及びスピーカ30(30A及び30B)に加えて、スピーカ30から出力する音を制御するための出力音操作部40を備える。この出力音操作部40によって、例えば、スピーカ30から出力される音の再生開始及び再生停止の制御、再生音量の制御等を行うことができる。なお、図2では、説明を簡略化するために、1つのブースの会話を保護するためのシステムのみを示しているが、複数のブースが設置される場合もある。スピーカ30については、隣のブースの会話当事者である第三者3に向けて音を出力するスピーカ30Aと、ブースの外側にある待合席52の第三者3に向けて音を出力するためのスピーカ30Bとが含まれる。
図3は、会話保護システムの機能構成概略を示すブロック図である。図3を参照しながら音声処理装置10について詳細を説明する。音声処理装置10は、マイク20によって集音された会話音声を解析する入力音解析部11と、会話音声に基づいて防聴音を生成する防聴音生成部12と、防聴音とは別に再生する効果音及びマスキング音の選択等を行うマスキング音制御部13と、効果音及びマスキング音を含む音データやこれらの音の再生を制御するための設定等が保存されている記憶部14と、会話音声に応じてスピーカ30で出力される防聴音、効果音及びマスキング音の再生制御を行う出力音制御部15とを有している。入力音解析部11、防聴音生成部12、マスキング音制御部13及び出力音制御部15は、DSP(Digital Signal Processor)によって構成されている。また、音声処理装置10は、DSPを含む専用のハードウェアによって構成されてもよいし、コンピュータ装置を利用して構成されてもよい。
なお、図3では、会話保護システムの説明に必要な構成要素のみを示しているが、音声処理装置10は、この他に、例えば、マイク20からの入力信号及びスピーカ30への出力信号を処理するためのA/D,D/Aコンバータ及びアンプを有している。また、外部装置との間で有線又は無線で通信を行うための通信インターフェイスを有する場合もある。
入力音解析部11は、マイク20から入力され、A/Dコンバータでデジタル化された保護対象となる会話音声をリアルタイムに解析して、音量、周波数特性、声の高さ等を解析する機能を有する。会話音声に基づいて得られた周波数特性は、防聴音生成部12によって防聴音を生成する処理に利用される。また、声の高さは、マスキング音制御部13によってマスキング音を選択するために利用される。また、音声パワーは、マスキング音制御部13及び出力音制御部15によって防聴音、効果音及びマスキング音を再生するタイミングの制御や再生音量の制御を行うために利用される。
防聴音生成部12は、会話音声に合わせてスピーカ30から出力することで会話音声の音韻性を壊すことができる防聴音を生成する機能を有する。防聴音は、会話音声の周波数特性を示すスペクトルから抽出した包絡線及び微細構造に係る特徴に基づいてリアルタイムに生成される。具体的には、会話音声から得られた音声スペクトルからスペクトル包絡及びスペクトル微細構造を抽出して、スペクトル包絡を上下に入れ替えるための周波数方向に延びる反転軸を設定する。そして、当該反転軸を中心としてスペクトル包絡を反転させることによりスペクトル包絡に対して変形を施した変形スペクトル包絡を生成する。そして、さらに、この変形スペクトル包絡及びスペクトル微細構造を合成した変形スペクトルを生成して、これを防聴音とするものである。なお、防聴音は、特許第4761506号公報によって開示された従来技術によって生成することができるので詳細な説明は省略する。
マスキング音制御部13は、会話音声に基づいて再生する効果音及びマスキング音を選択すると共に、選択した効果音の再生音量を制御する機能を有する。マスキング音についての詳細は後述することとして、ここで効果音について説明する。
効果音は、ベース効果音とアテンション効果音の2種類の音によって構成される。ベース効果音は会話音声が続く間途切れることなく続けて再生される音であり、アテンション効果音は会話音声の音圧が所定のしきい値を超える度に再生される音である。ベース効果音として、例えば、オルゴールによる曲、打楽器や弦楽器等の楽器による曲、川のせせらぎ、波の音又は小鳥のさえずり等の音を利用する。利用者は、記憶部14に保存された効果音データベース14bの中から、再生したいベース音を選択したり、再生音量を制御したりすることができる。アテンション効果音として、例えば、鉄琴、木琴等の打楽器を叩いた音、ギターやハープ等の弦楽器を弾いた音、ベルや鐘等を鳴らした音等を利用する。様々な音色の様々な高さの音が、アテンション効果音として、記憶部14の効果音データベース14bに保存されている。アテンション効果音は、記憶部14に保存されたデータの中から、マスキング音制御部13によってランダムに選択される。そして、会話音声の音量が所定のしきい値を超えたタイミングで、ベース効果音に重ねてアテンション効果音が再生される。防聴音は人工的に操作された周波数特性を有するため、聞いたときに違和感を覚える場合があるが、ベース効果音やアテンション効果音は心地よい印象を受ける音であるため、これらの音を再生することにより防聴音に対する違和感を和らげることができる。また、ベース効果音を続けて再生しながら会話音声の音量に応じてアテンション効果音を再生するので、会話音量が大きくなったときにアテンション効果音に注意を引くことができる。また、アテンション効果音はランダムなタイミングで再生されるので、ベース効果音のみを再生する場合に比べて効果音に変化を与えて、第三者3が効果音に慣れることを回避することができる。ベース効果音の再生開始及び停止の制御と再生音量の制御とは、マスキング音制御部13及び出力音制御部15によって行われる態様の他、出力音操作部40等によって行うことも可能である。
記憶部14は、半導体メモリやハードディスク等から成る記憶装置であって、ベース効果音及びアテンション効果音を含む効果音データベース14bの他に、予め生成された複数のマスキング音を含むマスキング音データベース14aを保存するために利用される。また、記憶部14は、防聴音の生成や再生を行うために必要な各種の情報や、効果音及びマスキング音を再生するために必要な各種の情報を含む再生音出力設定14cを保存するために利用される。
出力音制御部15は、D/Aコンバータ及びアンプを有し、防聴音生成部12で生成された防聴音をスピーカ30から出力する機能を有する。防聴音は、会話の内容を聞き取ることができないように、会話音声に被せて音声の音韻性を壊すように再生される。また、出力音制御部15は、マスキング音制御部13によって選択された効果音及びマスキング音を再生する機能を有する。
防聴音、効果音及びマスキング音のうち、いずれの音を再生するかは設定により変更できるようになっている。また、各音を再生する音量についても設定により変更できるようになっている。具体的には、例えば、会話保護システムが設置される環境に応じて、ハウリングが生じないように、予め、各音の再生音量を設定する。また、例えば、会話保護を優先するために、会話音声から生成された防聴音の再生音量を大きくして、効果音やマスキング音の再生音量を小さくするように設定する。また、逆に、防聴音による違和感の低減を優先して、効果音やマスキング音の再生音量を大きく設定することもできる。これらの設定は、再生音出力設定14cとして記憶部14に保存されている。再生音量に関する設定変更は、事前に行うこともできるし、各音の再生中にリアルタイムに行うことも可能である。設定変更は、設定入力部として機能する出力音操作部40によって行われる。また、音声処理装置10の備える図示しない通信インターフェイスと無線接続された携帯電話やタブレット端末等の携帯端末を操作して設定を変更することもできる。この場合、出力音操作部40や携帯端末が、設定変更を行うための設定入力部として機能することになる。
本実施形態に係る会話保護システムは、従来利用されている防聴音に加えて、防聴音と同様に音声から生成したマスキング音を利用する点に1つの特徴を有している。まず、マスキング音による会話保護の方法について概要を説明する。
人が会話を聞き取ろうとする場合に、会話の声とは全く異なる別の声が聞こえている場合と、会話の声と同じような別の声が聞こえている場合とでは、同じような声が聞こえている場合の方が会話の内容を聞き取り難い。これを利用して、会話保護システムでは、保護対象となる会話音声の音量及び声の高さ(基本周波数、ピッチ)を求めて、会話音声と同様の声の高さで複数人が会話をしているかのように聞こえる音をマスキング音として再生する。マスキング音は、会話音声の声の高さに対応するように複数準備されており、会話音声の声の高さが変化すれば、この変化に応じて再生するマスキング音を変更する。これにより、常に、保護対象となる会話音声の声の高さに対応するマスキング音を再生して、会話の内容を保護することができる。また、会話保護システムでは、マスキング音の再生音量を、保護対象となる会話音声の抑揚に合わせて変化させるので、会話が続く間、高いマスキング効果を維持することができる。以下では、マスキング音及びその再生方法について詳細を説明する。
防聴音は、マイク20によって集音した会話音声から生成される。このため、高いマスキング効果を得ることが可能であるが、集音した会話音声の音質による影響を受ける。これに対して、マスキング音は、防聴音と同様に人間の会話音声に基づいて生成されるが、高音質な会話音声を利用して予め生成された音であるため、その音質が保護対象として集音された会話音声の音質による影響を受けることがない。マスキング音として、予め複数種類の音が生成されて、記憶部14のマスキング音データベース14aに登録されている。
図4は、記憶部14のマスキング音データベース14aに登録されたマスキング音について説明する図である。例えば、図4に示すように、No.1〜10の10種類のマスキング音を予め準備して利用する。図4に示す声の高さは、各マスキング音No.1〜10が、保護対象となる会話音声の声の高さがどの周波数域にあるときに選択されるかを示している。また、同図に示す音源は、各マスキング音No.1〜10が、どのような音源から生成された音であるかを示している。
会話時の音声の基本周波数は、男性の場合で80〜200Hz、女性の場合で150〜300Hzの範囲に分布する。そこで、この音声の周波数分布域を、110Hz未満の周波数域と、110Hz〜270Hzの間を20Hz刻みで分割した周波数域と、270Hzを超える周波数域とに分割する。そして、分割したNo.1〜10の各周波数域に対応するように10種類のマスキング音を準備する。図4は、No.1のマスキング音が二人の男性A及びBの会話音声から生成された音であり、No.2のマスキング音が男性C及びDの会話音声から生成された音であることを示している。具体的には、例えば、声の高さが100Hzの男性Aの会話音声及び110Hzの男性Bの会話音声から、保護対象となる会話音声の声の高さが110Hz未満の場合に再生するNo.1のマスキング音を生成する。また、120Hzの男性Cの会話音声及び130Hzの男性Dの会話音声から、保護対象となる会話音声の声の高さが110〜130Hzの場合に再生するNo.2のマスキング音を生成する。
なお、ここでは、周波数域を20Hz刻みで分割して各周波数域でマスキング音を生成する例を示したが、周波数域の刻み幅は等間隔でなくとも構わず適宜変更される。例えば、保護対象となる会話音声に応じて刻み幅を変更する。具体的には、会話保護システムによる保護対象のほぼ全てが女性の会話音声である場合には、女性の音声の基本周波数域をより細かい刻み幅で分割してマスキング音を準備する態様であっても構わない。
次に、マスキング音の生成方法について説明する。図5は、二人の会話音声から1つのマスキング音を生成する方法を説明する図である。以下では、男性A及びBの会話音声からNo.1のマスキング音を生成する場合を例に説明する。
マスキング音の音源となる男性A及びBの会話音声は、例えば、マイクに向かって、マスキング音を生成するために準備した所定の文章を読み上げてもらうことにより集音する。このため、図1に示すように会話当事者の音声を会話時に集音するものとは異なり、明瞭で高音質な音声を集音することができる。こうして集音した二人の会話音声を利用してマスキング音の生成を開始する。
まず、図5(a)に示す男性Aの音声から、同図(b)に示すように音声パワーを求める。そして、図5(b)に示すように、予め設定された音声切出しきい値を超えてから所定時間経過した場合に、音声切出しきい値を超えた時点から所定時間分の音声データを切り出す。高音質のデータを得るために音声切出しきい値を設定すると共に、ノイズ等により瞬間的に音声パワーが高くなった際の音を利用せず発話時の音声を切り出すために音声パワーが音声切出しきい値を超える状態が所定時間以上続いた場合に音声データを切り出すものである。具体的には、例えば、−30dBを音声切出しきい値として、このしきい値を超えた状態がt1(mSec)経過したことを確認してから、図5(a)の矩形窓で示すようにt2(mSec)分の音声を切り出す。こうして、男性Aの会話音声から、多数の音声データが切り出される。また、男性Bの会話音声からも同様に多数の音声データが切り出される。
そして、切り出した男性Aの音声データ及び男性Bの音声データに、図5(c)に示すような窓関数を適用する。窓関数は、横軸を時間軸として、図示したように音声パワーを変更するための関数で、予め、複数の窓関数が準備されている。そして、準備された窓関数の中からランダムに選択された窓関数が利用される。具体的には、例えば、図5(c)に示すように、2種類の窓関数A及びBを準備して、この2種類からランダムに選択した窓関数A又はBを、男性A及び男性Bの会話音声から得られた全ての音声データに適用する。
この結果、図5(d)に示すように、マスキング音の生成に利用するマスキング要素として、男性A及び男性Bの会話音声から切り出して、ランダムに選択された窓関数が適用されたt2(mSec)の音声データが多数生成される。
こうして、マスキング要素を生成した後、図5(e)に示すように、各マスキング要素を所定時間分だけずらしながらランダムに並べて合成して、得られた音をマスキング音とする。具体的には、例えば、n+1個のマスキング要素をt3(mSec)ずつずらしてランダムに並べた後、これらを合成することによりマスキング音を生成する。言い換えれば、ランダムに選択した複数のマスキング要素を、時間軸上で一部が重なるように並べて合成した音がマスキング音である。例えば、t2=256mSec、t3=64mSec、n=60とすると、約4秒間のマスキング音を生成することができる。このように、各周波数域で、二人の会話音声を利用してマスキング音を生成する。生成されたマスキング音は、記憶部14のマスキング音データベース14aに登録される。
マスキング音は、マスキング要素を複数並べて合成した音であるが、短い時間で切り出した音声データに窓関数を適用した音であるため、言葉として聞き取れる音とはならない。
なお、マスキング音の生成に会話当事者の音声を利用することもできる。例えば、薬局で会話保護システムを利用する薬剤師が、マイク20に向かって所定の文章を読み上げた音声を利用して、この薬剤師の会話音声を保護するためのマスキング音を生成する。例えば、この薬剤師が女性で声の高さが210Hzである場合には、この女性がマイク20に向かって所定の文章を読み上げた会話音声と、別途同様に準備された声の高さが200Hzの女性の会話音声とを利用して、図5に示す方法により、図4に示すNo.6のマスキング音を生成することができる。このとき、210Hzの女性の声と、これを変換した200Hzの声とを利用してマスキング音を生成することもできる。なお、装置利用時の女性の会話音声を高音質な状態で集音できる場合には、集音した会話音声を利用してマスキング音を生成することもできる。また、マスキング音を生成するための会話音声として、所定の文章を読み上げた音声を利用する他、高音質な音声であれば、日常会話等から集音した音声を利用することもできる。保護対象となる会話当事者の音声を利用してマスキング音を生成すれば、より高いマスキング効果を得ることが可能となる。
次に、マスキング音の選択方法及び再生方法について説明する。図6は、マスキング音の選択及び再生を行うために入力音解析部11によって行われる音声解析の例を示す図である。図6(a)に示すように、マイク20から保護対象となる会話音声が入力されると、入力音解析部11は、この音声波形から、同図(b)に示すように音声パワーを求めると共に、同図(c)に示すように会話音声の声の高さを解析する。会話音声の声の高さの解析は、例えば、ケプストラム分析等の従来技術を利用して行うので詳細な説明は省略する。
会話音声の声の高さの解析結果は、マスキング音制御部13に入力される。マスキング音制御部13は、会話音声の声の高さに応じて再生するマスキング音を選択して、これを記憶部14のマスキング音データベース14aから読み出して出力音制御部15に入力する。例えば、会話音声の声の高さが110〜130Hzの間であれば、図4に示すNo.2のマスキング音が選択され、130〜150Hzの間であればNo.3のマスキング音が選択される。
音声パワーの解析結果は、マスキング音制御部13及び出力音制御部15に入力される。出力音制御部15は、マスキング音制御部13によって選択されたマスキング音を再生してスピーカ30に出力する。このとき、出力音制御部15は、会話音声の音声パワーに基づいてマスキング音の再生開始及び再生停止を制御すると共に、マスキング音制御部13からの指示に基づいて再生音量を制御する。具体的には、会話音声の音声パワーが予め設定された所定のしきい値(図6(b)では−30dB)を超えるとマスキング音の再生を開始して、音声パワーが所定しきい値を下回るとマスキング音の再生を停止する。また、会話音声の音声パワーが所定しきい値を超えている間、音声パワーに応じて、すなわち会話音声の抑揚に合わせて、マスキング音の再生音量を制御する。マスキング音の再生音量を、会話音声の音量よりどの程度大きく又は小さく再生するかについては、予め、再生音出力設定14cとして記憶部14に設定されている。
次に、マスキング音選択処理の詳細について説明する。図7は、マスキング音の選択方法を説明するフローチャートである。まず、マイク20に入力された会話音声の音声パワーが所定のしきい値を超えると(ステップS1;Yes)、入力音解析部11は、しきい値を超えた際の音声データが、声の高さの解析に利用できるものであるか否かを判定する(ステップS2)。
具体的には、例えば、図6(b)に示す音声パワーが所定しきい値として設定された−30dBを超えた状態がt6(mSec)続いたことを確認して、しきい値を超えてからt7(mSec)分の音声データを切り出す。そして、この音声データにおける零交差数の数に基づいて、この音声データが摩擦音を含む場合には、声の高さの解析には適さないと判定する(ステップS2;No)。なお、音声パワーが所定しきい値を超えるまでの間(ステップS1;No及びステップS6;No)、及び声の高さの解析に適した音声データが得られるまでの間(ステップS2;No及びステップS6;No)は、音声パワーの監視のみを行う。
音声データを声の高さの解析に利用できると判定すると(ステップS2;Yes)、この音声データを利用して、ケプストラム分析により声の高さを解析する(ステップS3)。得られた声の高さは、入力音解析部11からマスキング音制御部13に入力される。マスキング音制御部13は、入力された声の高さに対応するマスキング音を選択する(ステップS4)。そして、マスキング音制御部13は、マスキング音の選択回数をカウントする(ステップS5)。
このように、会話音声が所定しきい値を超えた際の有効な音声データから声の高さを解析して対応するマスキング音の選択回数をカウントする処理(ステップS1〜S5)は、所定時間t5(mSec)毎に継続して行われる(ステップS6;No)。
音声パワーがしきい値を超えてからt5(mSec)を経過すると(ステップS6;Yes)、マスキング音制御部13が、この間にカウントされた回数に基づいて選択回数が最も多かったマスキング音を選択して、出力音制御部15が、選択されたマスキング音を再生してスピーカ30から出力する(ステップS7)。再生するマスキング音が選択されると、計数していた時間及び選択回数のカウントをリセットする(ステップS8)。そして、ステップS1に戻って、新たに、会話音声の監視及びマスキング音の選択回数のカウントを開始する。
図8は、図7に示したマスキング音の選択処理の具体例を示す図である。図8(a)はマイク20で集音された会話音声の音声波形であり、同図(b)は音声波形の声の高さに基づいて選択されたマスキング音の選択回数を示すカウント結果を示し、同図(c)はカウント結果に基づいて再生されるマスキング音を示している。
図8(a)に示すように、会話音声の音声パワーが所定しきい値を超えてから最初の区間1では、同図(c)に示すように、No.5のマスキング音が再生される。会話音声が所定しきい値を超えてから最初に再生されるマスキング音については、会話音声の声の高さに係る情報がないために、会話音声に対応するマスキング音を選択することができない。このため、会話音声が男性である場合でも女性である場合でも、ある程度のマスキング効果を得ることができるように、図4に示す全周波数域の中間位置に当たるNo.5のマスキング音を再生するものである。最初に再生するマスキング音の種類は、記憶部14の再生音出力設定14cによって設定することができる。
会話音声の音声パワーが所定しきい値を超えてからt5(例えば500mSec)の時間が経過するまでの区間1で、図7に示したように、会話音声の声の高さに応じてマスキング音No.1〜10を選択して回数をカウントする。この結果、図8(b)に示すようにNo.1のマスキング音のカウント数が最も多かった場合、次の区間2では、同図(c)に示すように、No.1のマスキング音が再生される。また、区間2でNo.1のマスキング音を再生している間に会話音声の声の高さに応じて選択されたマスキング音をカウントして、No.2のカウント数が最も多かった場合には、次の区間3ではNo.2のマスキング音が再生される。同様に、次の区間4では、区間3でのカウント数が最も多かったNo.5のマスキング音が再生される。
区間4の後に会話音声が途切れるとマスキング音の再生も停止される。このため、区間4でNo.7のマスキング音のカウント数が最も多かった場合でも、区間4でNo.5のマスキング音が再生された後、No.7のマスキング音は再生されないことになる。
このように、所定時間t5(mSec)毎に区切った各区間で会話音声の声の高さに合わせて選択されたマスキング音をカウントして、このカウント結果に基づいて、次のt5(mSec)の間に再生するマスキング音を決定する。会話音声の声の高さの変化に応じてマスキング音が変更されるので、高いマスキング効果を得ることができる。
上述してきたように、本実施形態によれば、会話音声の声の高さに応じたマスキング音を再生することにより、高いマスキング効果を得ることができる。また、マスキング音の再生音量を、会話音声の抑揚に合わせて制御することにより、会話音声が続く間、高いマスキング効果を維持することができる。
また、マスキング音は、言葉として聞き取ることができない音ではあるが、会話音声から切り出した音データを合成して生成した音であり、防聴音のように周波数を加工して生成した防聴音に比べて違和感のない音とすることができる。
また、マスキング音は、マスキング音を生成することを目的として集音した高音質な会話音声から生成されるので、高音質のマスキング音を生成することができる。
以上のように、本発明は、第三者に会話音声を聞き取られないように別の音を再生して会話内容を保護するために有用な技術である。
10 音声処理装置
11 入力音解析部
12 防聴音生成部
13 マスキング音制御部
14 記憶部
15 出力音制御部
20 マイク
30、30A、30B スピーカ
40 出力音操作部
50 テーブル
51 パーティション
52 待合席

Claims (7)

  1. マイクロホンで集音した会話音声から生成した防聴音をスピーカから出力することにより第三者に前記会話の内容を聞かれることを防止する会話保護システムであって、
    複数の周波数域で各周波数域に対応する音声から生成したマスキング音が予め保存された記憶部と、
    前記マイクロホンにより集音した会話音声の声の高さを解析する入力音解析部と、
    前記入力音解析部により解析された声の高さに基づいて、対応するマスキング音を選択して再生し、前記スピーカに出力するマスキング音制御部と
    を備えることを特徴とする会話保護システム。
  2. 前記入力音解析部は、前記会話音声の抑揚を解析して、
    前記マスキング音制御部は、前記入力音解析部によって解析された前記会話音声の抑揚に合わせて前記スピーカに出力する前記マスキング音の再生音量を制御する
    ことを特徴とする請求項1に記載の会話保護システム。
  3. 各周波数域のマスキング音は、声の高さが前記周波数域に含まれる音声から言葉を認識できない時間長さで切り出した複数の音をランダムに選択して、時間軸上で一部をオーバーラップさせて合成した音であることを特徴とする請求項1又は2に記載の会話保護システム。
  4. 前記会話保護システムの利用者の声の高さに対応する周波数域では、前記マスキング音は当該利用者の音声を使用して生成されることを特徴とする請求項1、2又は3に記載の会話保護システム。
  5. 前記防聴音の再生音量と前記マスキング音の再生音量との関係を設定するための設定入力部をさらに有し、該設定入力部による設定に基づいて前記スピーカに出力される前記防聴音及び前記マスキング音の再生音量が制御されることを特徴とする請求項1〜4のいずれか1項に記載の会話保護システム。
  6. マイクロホンで集音した会話の音声から生成した防聴音をスピーカから出力することにより第三者に前記会話の内容を聞かれることを防止する会話保護方法であって、
    前記マイクロホンにより集音した会話音声の声の高さを解析する入力音解析工程と、
    各周波数域に対応する音声から予め生成された複数のマスキング音の中から前記入力音解析工程で解析された声の高さに対応するマスキング音を選択するマスキング音選択工程と、
    前記マスキング音選択工程で選択されたマスキング音を再生して前記スピーカに出力するマスキング音再生工程と
    を含んだことを特徴とする会話保護方法。
  7. 前記入力音解析工程は、前記マイクロホンにより集音した前記会話音声の抑揚を解析する工程を含み、
    前記マスキング音再生工程では、前記入力音解析工程で解析された前記会話音声の抑揚に合わせて前記スピーカに出力する前記マスキング音の再生音量が制御される
    ことを特徴とする請求項6に記載の会話保護方法。
JP2012288381A 2012-12-28 2012-12-28 会話保護システム及び会話保護方法 Pending JP2014130251A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012288381A JP2014130251A (ja) 2012-12-28 2012-12-28 会話保護システム及び会話保護方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012288381A JP2014130251A (ja) 2012-12-28 2012-12-28 会話保護システム及び会話保護方法

Publications (1)

Publication Number Publication Date
JP2014130251A true JP2014130251A (ja) 2014-07-10

Family

ID=51408689

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012288381A Pending JP2014130251A (ja) 2012-12-28 2012-12-28 会話保護システム及び会話保護方法

Country Status (1)

Country Link
JP (1) JP2014130251A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016136189A (ja) * 2015-01-23 2016-07-28 三菱電機株式会社 意識制御用音放射装置
CN110942770A (zh) * 2018-09-25 2020-03-31 丰田自动车株式会社 音声识别装置、音声识别方法、存储音声识别程序的非暂时性计算机可读介质
JP2020515887A (ja) * 2017-03-15 2020-05-28 ガーディアン・グラス・エルエルシーGuardian Glass, Llc スピーチプライバシーシステム及び/又は関連する方法
WO2021014935A1 (ja) * 2019-07-19 2021-01-28 ソニー株式会社 放音システム
JP2022075420A (ja) * 2020-11-03 2022-05-18 太郎 桑井 遠隔診療システムの被診療者側情報処理端末
WO2022181013A1 (ja) * 2021-02-24 2022-09-01 パナソニックIpマネジメント株式会社 会議システム

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006243178A (ja) * 2005-03-01 2006-09-14 Japan Advanced Institute Of Science & Technology Hokuriku 音声処理方法と装置及びプログラム並びに音声システム
JP2007006363A (ja) * 2005-06-27 2007-01-11 Fujitsu Ltd 電話機
US20100208912A1 (en) * 2009-02-19 2010-08-19 Yamaha Corporation Masking sound generating apparatus, masking system, masking sound generating method, and program
US20110182438A1 (en) * 2010-01-26 2011-07-28 Yamaha Corporation Masker sound generation apparatus and program
JP2011154141A (ja) * 2010-01-26 2011-08-11 Yamaha Corp マスカ音生成装置およびプログラム
JP2012053335A (ja) * 2010-09-02 2012-03-15 Yamaha Corp マスカ音生成装置及びプログラム
JP2012088577A (ja) * 2010-10-21 2012-05-10 Yamaha Corp 音声処理装置
JP2012088576A (ja) * 2010-10-21 2012-05-10 Yamaha Corp 放音制御装置
JP2012123070A (ja) * 2010-12-07 2012-06-28 Yamaha Corp マスカ音生成装置、マスカ音出力装置、およびマスカ音生成プログラム
JP2012173630A (ja) * 2011-02-23 2012-09-10 Yamaha Corp 音声出力システム

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006243178A (ja) * 2005-03-01 2006-09-14 Japan Advanced Institute Of Science & Technology Hokuriku 音声処理方法と装置及びプログラム並びに音声システム
US20080281588A1 (en) * 2005-03-01 2008-11-13 Japan Advanced Institute Of Science And Technology Speech processing method and apparatus, storage medium, and speech system
JP2007006363A (ja) * 2005-06-27 2007-01-11 Fujitsu Ltd 電話機
US20100208912A1 (en) * 2009-02-19 2010-08-19 Yamaha Corporation Masking sound generating apparatus, masking system, masking sound generating method, and program
JP2010217883A (ja) * 2009-02-19 2010-09-30 Yamaha Corp マスキング音生成装置、マスキングシステム、マスキング音生成方法、およびプログラム
US20110182438A1 (en) * 2010-01-26 2011-07-28 Yamaha Corporation Masker sound generation apparatus and program
JP2011154141A (ja) * 2010-01-26 2011-08-11 Yamaha Corp マスカ音生成装置およびプログラム
JP2012053335A (ja) * 2010-09-02 2012-03-15 Yamaha Corp マスカ音生成装置及びプログラム
JP2012088577A (ja) * 2010-10-21 2012-05-10 Yamaha Corp 音声処理装置
JP2012088576A (ja) * 2010-10-21 2012-05-10 Yamaha Corp 放音制御装置
JP2012123070A (ja) * 2010-12-07 2012-06-28 Yamaha Corp マスカ音生成装置、マスカ音出力装置、およびマスカ音生成プログラム
JP2012173630A (ja) * 2011-02-23 2012-09-10 Yamaha Corp 音声出力システム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016136189A (ja) * 2015-01-23 2016-07-28 三菱電機株式会社 意識制御用音放射装置
JP2020515887A (ja) * 2017-03-15 2020-05-28 ガーディアン・グラス・エルエルシーGuardian Glass, Llc スピーチプライバシーシステム及び/又は関連する方法
JP7179753B2 (ja) 2017-03-15 2022-11-29 ガーディアン・グラス・エルエルシー スピーチプライバシーシステム及び/又は関連する方法
CN110942770A (zh) * 2018-09-25 2020-03-31 丰田自动车株式会社 音声识别装置、音声识别方法、存储音声识别程序的非暂时性计算机可读介质
CN110942770B (zh) * 2018-09-25 2023-07-28 丰田自动车株式会社 音声识别装置、音声识别方法、存储音声识别程序的非暂时性计算机可读介质
WO2021014935A1 (ja) * 2019-07-19 2021-01-28 ソニー株式会社 放音システム
JP2022075420A (ja) * 2020-11-03 2022-05-18 太郎 桑井 遠隔診療システムの被診療者側情報処理端末
WO2022181013A1 (ja) * 2021-02-24 2022-09-01 パナソニックIpマネジメント株式会社 会議システム

Similar Documents

Publication Publication Date Title
JP4761506B2 (ja) 音声処理方法と装置及びプログラム並びに音声システム
US9591410B2 (en) Hearing assistance apparatus
JP5966326B2 (ja) マスカ音出力装置、マスカ音出力システム、およびプログラム
JP5955340B2 (ja) 音響システム
JP5103973B2 (ja) サウンドマスキングシステム、マスキングサウンド生成方法およびプログラム
JP2014130251A (ja) 会話保護システム及び会話保護方法
JP2008233672A (ja) マスキングサウンド生成装置、マスキングサウンド生成方法、プログラムおよび記録媒体
JP2011123141A (ja) 音声変更装置、音声変更方法および音声情報秘話システム
Nathwani et al. Speech intelligibility improvement in car noise environment by voice transformation
Hockley et al. Analog-to-digital conversion to accommodate the dynamics of live music in hearing instruments
Akagi et al. Privacy protection for speech based on concepts of auditory scene analysis
JP4680099B2 (ja) 音声処理装置および音声処理方法
JP2012063614A (ja) マスキング音生成装置
JP4785563B2 (ja) 音声処理装置および音声処理方法
JP5747490B2 (ja) マスカ音生成装置、マスカ音出力装置、およびマスカ音生成プログラム
KR102353771B1 (ko) 청력 역치를 고려한 어음 청력 검사음 생성 장치, 방법 및 프로그램
JP2004013084A (ja) 音量制御装置
JP5925493B2 (ja) 会話保護システム及び会話保護方法
JP6314879B2 (ja) 音読評価装置、音読評価方法、及びプログラム
JP2012145615A (ja) 快音化データ生成装置、快音化データ生成方法、快音化装置、快音化方法及びプログラム
JP2010278791A (ja) オーディオ機能を有する機器
JP2012008393A (ja) 音声変更装置、音声変更方法および音声情報秘話システム
JP5662711B2 (ja) 音声変更装置、音声変更方法および音声情報秘話システム
JP2015034932A (ja) 秘匿化データ生成装置、秘匿化装置およびプログラム
JP7195020B2 (ja) プライバシーシステム及びプライバシー向上方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151118

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160805

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160816

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170228