JP5648485B2

JP5648485B2 - 秘匿化データ生成装置、秘匿化データ生成方法、秘匿化装置、秘匿化方法及びプログラム

Info

Publication number: JP5648485B2
Application number: JP2011000929A
Authority: JP
Inventors: 茂出木　敏雄; 敏雄茂出木
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2011-01-06
Filing date: 2011-01-06
Publication date: 2015-01-07
Anticipated expiration: 2031-01-06
Also published as: JP2012141524A

Description

本発明は、対話音声を秘匿化する音楽データを生成する秘匿化データ生成装置等に関するものである。

医療機関（調剤薬局などの受付カウンター）、金融機関・保険会社の相談カウンター、法律事務所などの面談室、携帯電話店のカウンター、会食に使われる飲食店などにおいて交わされる対話音声は、第３者に聴取されることが好ましくない個人情報や企業の機密情報が含まれることが少なくない。しかしながら、従来は、簡易的な間仕切りのみによって済ませている施設が多い。これは、事務所や店のスペース・コストの制約から、カラオケボックスのように遮音機能をもつ什器を導入したり、内装工事を行ったりすることは必ずしも容易ではないからである。そこで、現状設備に殆ど手を加えることなく、対話音声を秘匿化する手法が求められている。

音を秘匿化する手法の１つとして、電気的に消音する能動消音法（ＡＮＣ：ＡｃｔｉｖｅＮｏｉｓｅＣｏｎｔｒｏｌ：特許文献１参照）があるが、対象は定常的な騒音に限定されるため、音声のように時間変化が顕著な音には適用できない。

もう１つの音を秘匿化する手法として、ＢＧＭ（ＢａｃｋＧｒｏｕｎｄＭｕｓｉｃ）を利用する手法がある。例えば、ショッピングセンター、カクテルパーティ、飲食店などではＢＧＭが流れていることが多い。これは、人間の聴覚マスキング効果を活用して雑踏騒音を和らげることを意図している。しかし、人間はカクテルパーティ効果と呼ばれる、聴覚マスキング効果とは全く逆の特性も備えている。カクテルパーティ効果とは、カクテルパーティのように多くの人がそれぞれ雑談している中でも、自分が興味のある人の会話などは自然に聴き取ることができるという音声の選択的聴取のことである。
人間は、カクテルパーティ効果によって、より大きな音源（ＢＧＭ等）により部分的にマスクされた音声を補間して興味のある音声を聴取しようとする働きがある為、通常のＢＧＭによって音声を完全に秘匿化することまでは期待できない。このような問題を解決する為に、（１）エネルギーマスキング、（２）インフォメーションマスキングという２つの手法が提案されている。

（１）エネルギーマスキングについては、例えば、特許文献２に記載されている。特許文献２には、白色雑音（少なくとも可聴域にて、パワーが周波数によらず略均一な傾向を有した雑音）等をマスキング音として流し、聴覚マスキング効果によって音声等をマスキングすることが記載されている。

（２）インフォメーションマスキングについては、例えば、特許文献３、４に記載されている。特許文献３には、ある音響空間に設置されたマイクロホンから音信号を受取り、受け取った音信号にスクランブルをかけてマスキングサウンドを生成し、他の音響空間（音声信号が漏洩して欲しくない空間）に放音することが記載されている。また、特許文献４には、リアルタイムに録音された対話音声を解析し、対話音声を加工してマスキング音を生成し、出力することが記載されている。

しかしながら、特許文献２に記載の手法では、音圧が高いマスキング音が四六時中流れることになり、待合室の人々の雑談や面談中の会話が聞き取り難くなるという問題が指摘されている。
また、特許文献３、４に記載の手法では、マスキング音が人間に不快感を与えるとう問題が指摘されている。また、録音する為のマイクロホン、高速信号処理装置などが必要となり、コストがかかるという問題が指摘されている。尚、不快なマスキング音を和らげるために、更にＢＧＭを合成するという手法も考えられるが、音圧が大きくなり煩わしくなるという別の問題が発生する。

そこで、本発明者は、人間にとって心地良く、かつ秘匿効果が高い秘匿化データを安価に生成することができる秘匿化データ生成装置等を発明した（特許文献５参照）。特許文献５では、ＢＧＭ信号をブロック分割して時系列に複数のフィルタ関数を用いてフィルタ処理を施すようにする方法が提案されている。

特許第２５４４８９９号公報特開２０１０−０３１５０１号公報特許第４２４５０６０号公報特許第４３３６５５２号公報特願２０１０−１９２１３３号

しかしながら、特許文献５の「ＢＧＭ信号をブロック分割して時系列に複数のフィルタ関数を用いてフィルタ処理を施す」という方法において、ブロック分割が必要以上に細かくなされる場合、フィルタ処理の段差が目立ち、音楽が不連続に不自然になるという問題があった。一方、ブロック分割が粗過ぎると、マスキング効果即ち音声の秘匿化が適切に働かない箇所が目立つようになるという問題があり、楽曲の楽章・部構成を考慮して、人間が手動でブロック分割を行うという運用が現実的であった。

ところが、特にクラシック楽曲では、楽曲の楽章・部構成を考慮しても、各分割ブロック内に音量や音色の変化が激しい部分が含まれてしまうことが多く、マスキング効果が適切に働かない箇所が残る。前述した通り、人間の聴覚認識系にはカクテルパーティ効果があるので、秘匿化されない成分が増えてくれると音声が完全に聞き取れてしまう。これを回避する為には、特許文献５に記載の前述の方法ではブロック分割を細かくするしかないが、ブロック分割が細か過ぎると、フィルタ処理の段差が目立ち、音楽が不自然になるというジレンマを抱えていた。

本発明は、前述した問題点に鑑みてなされたものであり、その目的とすることは、人手を費やさずに、秘匿化データのどの再生箇所においてもマスキング効果を満遍なく働かせることができる秘匿化データ生成装置等を提供することである。

前述した目的を達成するために第１の発明は、対話音声を秘匿化するための音楽データである秘匿化データを生成する秘匿化データ生成装置であって、予め記憶された音声データ及び音楽データの各々に対して所定の区間単位のフレームｆに分割し、フレームｆごとに周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである単一の音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、前記音楽データの各フレームｆの前後Ｍフレームに渡って時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｆ,ｊ）をフレームｆごとに算出する周波数解析手段と、前記音声最大値スペクトルＶｖ（ｊ）に基づく値を、フレームｆに対応する前記音楽平均値スペクトルＶｍ（ｆ,ｊ）に基づく値によって互いに対応する周波数ｊごとに除した値である除算値スペクトルＤｉｖ（ｆ,ｊ）に基づいて、フィルタ関数Ｆ（ｆ,ｊ）をフレームｆごとに作成するフィルタ関数作成手段と、前記音楽データを所定の区間単位であるフレームｆに分割し、分割された各フレームｆをフーリエ変換し、各フレームｆに対応する前記フィルタ関数Ｆ（ｆ,ｊ）を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリング手段と、を具備することを特徴とする秘匿化データ生成装置である。
第１の発明によって、人手を費やさずに、どの再生箇所においてもマスキング効果が満遍なく働く秘匿化データを生成することができる。

第１の発明における前記フィルタ関数作成手段は、前記音声最大値スペクトルＶｖ（ｊ）を、周波数ｊよりも高域側の範囲内の最大値に置換することによって、置換音声最大値スペクトルを算出し、前記音楽平均値スペクトルＶｍ（ｆ,ｊ）を、周波数ｊの前後の範囲内の平均値に置換することによって、置換音楽平均値スペクトルを算出し、前記置換音声最大値スペクトルを前記置換音楽平均値スペクトルによって除した値を前記除算値スペクトルＤｉｖ（ｆ,ｊ）とすることが望ましい。
マスキングは、高音側（周波数が高域側）に働きやすいという性質がある為、音声最大値スペクトルＶｖ（ｊ）を、周波数ｊよりも高域側の範囲内の最大値に置換すれば、音声スペクトルを周波数方向に低音側に非線形シフトする補正を行っていることになり、ひいては、マスキング効果を高めることができる。

第１の発明における前記フィルタ関数作成手段は、前記除算値スペクトルＤｉｖ（ｆ,ｊ）を、周波数ｊの前後の範囲内の平均値に置換することによって、前記除算値スペクトルＤｉｖ（ｆ,ｊ）を平滑化することが望ましい。
これによって、フィルタ関数が滑らかになり、ひいては、最終的に生成される秘匿化データが、人間にとって心地良い音楽データとなる。

第１の発明では、複数の前記音楽データを記憶する音楽データ記憶手段と、前記音楽データ記憶手段によって記憶されている前記音楽データの中から単一の前記音楽データを選択する音楽データ選択手段と、を更に具備し、前記音楽データ選択手段によって選択された単一の前記音楽データに基づいて、前記秘匿化データを生成することが望ましい。
これによって、複数の音楽データに基づいて、複数の秘匿化データを生成することができる。

第２の発明は、対話音声を秘匿化するための音楽データである秘匿化データを生成する秘匿化データ生成方法であって、予め記憶された音声データ及び音楽データの各々に対して所定の区間単位のフレームｆに分割し、フレームｆごとに周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである単一の音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、前記音楽データの各フレームｆの前後Ｍフレームに渡って時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｆ,ｊ）をフレームｆごとに算出する周波数解析ステップと、前記音声最大値スペクトルＶｖ（ｊ）に基づく値を、フレームｆに対応する前記音楽平均値スペクトルＶｍ（ｆ,ｊ）に基づく値によって互いに対応する周波数ｊごとに除した値である除算値スペクトルＤｉｖ（ｆ,ｊ）に基づいて、フィルタ関数Ｆ（ｆ,ｊ）をフレームｆごとに作成するフィルタ関数作成ステップと、前記音楽データを所定の区間単位であるフレームｆに分割し、分割された各フレームｆをフーリエ変換し、各フレームｆに対応する前記フィルタ関数Ｆ（ｆ,ｊ）を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリングステップと、を含むことを特徴とする秘匿化データ生成方法である。
第２の発明によって、人手を費やさずに、どの再生箇所においてもマスキング効果が満遍なく働く秘匿化データを生成することができる。

第３の発明は、第１の発明の秘匿化データ生成装置を具備する秘匿化装置であって、更に、前記秘匿化データ生成装置が生成する複数の前記秘匿化データを記憶する秘匿化データ記憶手段と、前記秘匿化データ記憶手段によって記憶されている前記秘匿化データの中から単一の前記秘匿化データを選択する秘匿化データ選択手段と、前記秘匿化データ選択手段によって選択された単一の前記秘匿化データを再生する秘匿化データ再生手段と、を具備することを特徴とする秘匿化装置である。
第３の発明によって、人手を費やさずに、秘匿化データのどの再生箇所においてもマスキング効果を満遍なく働かせることができる。

第４の発明は、前記秘匿化データ再生手段が前記秘匿化データを波面が平面波に近い音波として所定平面から均一に放射する機構をもつ平面型スピーカで構成されていることが望ましい。
これによって、秘匿化対象位置に伝搬される過程で減衰する音波のエネルギー量が、前記対話音声に比べ前記秘匿化データの方が小さくなり、相対的に前記秘匿化データのエネルギー量が前記対話音声に比べ大きくなるため、マスキング効果を高めることができる。

第５の発明は、対話音声を秘匿化するための音楽データである秘匿化データを生成し、再生する秘匿化装置であって、予め記憶された音声データ及び音楽データの各々に対して所定の区間単位のフレームｆに分割し、フレームｆごとに周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである単一の音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、前記音楽データの各フレームｆの前後Ｍフレームに渡って時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｆ,ｊ）をフレームｆごとに算出する周波数解析手段と、前記音声最大値スペクトルＶｖ（ｊ）に基づく値を、フレームｆに対応する前記音楽平均値スペクトルＶｍ（ｆ,ｊ）に基づく値によって互いに対応する周波数ｊごとに除した値である除算値スペクトルＤｉｖ（ｆ,ｊ）に基づいて、フィルタ関数Ｆ（ｆ,ｊ）をフレームｆごとに作成するフィルタ関数作成手段と、前記音楽データを所定の区間単位であるフレームｆに分割し、分割された各フレームｆをフーリエ変換し、各フレームｆに対応する前記フィルタ関数Ｆ（ｆ,ｊ）を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリング手段と、前記秘匿化データを再生する秘匿化データ再生手段と、を具備することを特徴とする秘匿化装置である。
第５の発明によって、人手を費やさずに、秘匿化データのどの再生箇所においてもマスキング効果を満遍なく働かせることができる。

第６の発明は、対話音声を秘匿化するための音楽データである秘匿化データを生成し、再生する秘匿化方法であって、予め記憶された音声データ及び音楽データの各々に対して所定の区間単位のフレームｆに分割し、フレームｆごとに周波数解析を行い、前記音声データの時間
軸方向に最大のスペクトルである単一の音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、前記音楽データの各フレームｆの前後Ｍフレームに渡って時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｆ,ｊ）をフレームｆごとに算出する周波数解析ステップと、前記音声最大値スペクトルＶｖ（ｊ）に基づく値を、フレームｆに対応する前記音楽平均値スペクトルＶｍ（ｆ,ｊ）に基づく値によって互いに対応する周波数ｊごとに除した値である除算値スペクトルＤｉｖ（ｆ,ｊ）に基づいて、フィルタ関数Ｆ（ｆ,ｊ）をフレームｆごとに作成するフィルタ関数作成ステップ
と、前記音楽データを所定の区間単位であるフレームｆに分割し、分割された各フレームｆをフーリエ変換し、各フレームｆに対応する前記フィルタ関数Ｆ（ｆ,ｊ）を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリングステップと、生成された複数の前記秘匿化データを記憶する秘匿化データ記憶ステップと、前記秘匿化データ記憶ステップによって記憶されている前記秘匿化データの中から単一の前記秘匿化データを選択する秘匿化データ選択ステップと、前記秘匿化データ選択ステップによって選択された単一の前記秘匿化データを再生する秘匿化データ再生ステップと、を含むことを特徴とする秘匿化方法である。
第６の発明によって、人手を費やさずに、秘匿化データのどの再生箇所においてもマスキング効果を満遍なく働かせることができる。

第７の発明は、対話音声を秘匿化するための音楽データである秘匿化データを生成し、再生する秘匿化方法であって、予め記憶された音声データ及び音楽データの各々に対して所定の区間単位のフレームｆに分割し、フレームｆごとに周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである単一の音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、前記音楽データの各フレームｆの前後Ｍフレームに渡って時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｆ,ｊ）をフレームｆごとに算出する周波数解析ステップと、前記音声最大値スペクトルＶｖ（ｊ）に基づく値を、フレームｆに対応する前記音楽平均値スペクトルＶｍ（ｆ,ｊ）に基づく値によって互いに対応する周波数ｊごとに除した値である除算値スペクトルＤｉｖ（ｆ,ｊ）に基づいて、フィルタ関数Ｆ（ｆ,ｊ）をフレームｆごとに作成するフィルタ関数作成ステップと、前記音楽データを所定の区間単位であるフレームｆに分割し、分割された各フレームｆをフーリエ変換し、各フレームｆに対応する前記フィルタ関数Ｆ（ｆ,ｊ）を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリングステップと、前記秘匿化データを再生する秘匿化データ再生ステップと、を含むことを特徴とする秘匿化方法である。
第７の発明によって、人手を費やさずに、秘匿化データのどの再生箇所においてもマスキング効果を満遍なく働かせることができる。

第８の発明は、コンピュータに、予め記憶された音声データ及び音楽データの各々に対して所定の区間単位のフレームｆに分割し、フレームｆごとに周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである単一の音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、前記音楽データの各フレームｆの前後Ｍフレームに渡って時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｆ,ｊ）をフレームｆごとに算出する周波数解析ステップと、前記音声最大値スペクトルＶｖ（ｊ）に基づく値を、フレームｆに対応する前記音楽平均値スペクトルＶｍ（ｆ,ｊ）に基づく値によって互いに対応する周波数ｊごとに除した値である除算値スペクトルＤｉｖ（ｆ,ｊ）に基づいて、フィルタ関数Ｆ（ｆ,ｊ）をフレームｆごとに作成するフィルタ関数作成ステップと、前記音楽データを所定の区間単位であるフレームｆに分割し、分割された各フレームｆをフーリエ変換し、各フレームｆに対応する前記フィルタ関数Ｆ（ｆ,ｊ）を乗じ、フーリエ逆変換することによって、対話音声を秘匿化するための音楽データである秘匿化データを生成するフィルタリングステップと、を実行させるためのコンピュータ読取可能なプログラムである。
第８の発明のプログラムを汎用のコンピュータにインストールすることによって、第１の発明の秘匿化データ生成装置を得ることができる。

第９の発明は、コンピュータに、予め記憶された音声データ及び音楽データの各々に対して所定の区間単位のフレームｆに分割し、フレームｆごとに周波数解析を行い、前記音声データの時間軸方向に最大のスペクトルである単一の音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、前記音楽データの各フレームｆの前後Ｍフレームに渡って時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｆ,ｊ）をフレームｆごとに算出する周波数解析ステップと、前記音声最大値スペクトルＶｖ（ｊ）に基づく値を、フレームｆに対応する前記音楽平均値スペクトルＶｍ（ｆ,ｊ）に基づく値によって互いに対応する周波数ｊごとに除した値である除算値スペクトルＤｉｖ（ｆ,ｊ）に基づいて、フィルタ関数Ｆ（ｆ,ｊ）をフレームｆごとに作成するフィルタ関数作成ステップと、前記音楽データを所定の区間単位であるフレームｆに分割し、分割された各フレームｆをフーリエ変換し、各フレームｆに対応する前記フィルタ関数Ｆ（ｆ,ｊ）を乗じ、フーリエ逆変換することによって、対話音声を秘匿化するための音楽データである秘匿化データを生成するフィルタリングステップと、前記秘匿化データを再生する秘匿化データ再生ステップと、を実行させるためのコンピュータ読取可能なプログラムである。
第９の発明のプログラムを、音楽スピーカが接続された汎用のコンピュータにインストールすることによって、第５の発明の秘匿化装置を得ることができる。

本発明の秘匿化データ生成装置等により、人手を費やさずに、秘匿化データのどの再生箇所においてもマスキング効果を満遍なく働かせることができる。

秘匿化装置の概要図秘匿化データ生成装置のハードウエア構成図聴覚マスキング現象を説明する図秘匿化処理の流れを示すフローチャート秘匿化データ生成処理の流れを示す図周波数解析処理を説明する図（１）周波数解析処理を説明する図（２）フィルタ関数作成処理を説明する図（１）フィルタ関数作成処理を説明する図（２）フィルタリング処理を説明する図秘匿化装置の第１の設置例秘匿化装置の第２の設置例

以下図面に基づいて、本発明の実施形態を詳細に説明する。
図１は、秘匿化装置１の概要図である。図１に示すように、秘匿化装置１は、少なくとも、秘匿化データ生成装置２及び音楽再生装置３から構成される。
秘匿化データ生成装置２は、例えば、コンピュータ等であり、対話音声を秘匿化するための音楽データである秘匿化データ６を生成する。秘匿化データ生成装置２の記憶部には、少なくとも音声データ４及び音楽データ５が記憶される。
音楽再生装置３は、音楽プレーヤ及びスピーカから構成され、秘匿化データ６を再生する。音楽再生装置３の記憶部には、少なくとも秘匿化データ生成装置２によって生成される秘匿化データ６が記憶される。

秘匿化装置１は、用途に応じて様々な構成を採ることが可能である。秘匿化装置１を構成する秘匿化データ生成装置２及び音楽再生装置３は、図１に示すように異なる筐体としても良いし、１つの筐体としても良い。
また、秘匿化データ生成装置２及び音楽再生装置３は、図１に示すように有線によって接続されても良いし、無線によって接続されても良いし、ネットワークを介して接続されても良いし、接続されていなくても良い。
秘匿化データ生成装置２及び音楽再生装置３が接続されていない場合、秘匿化データ生成装置２は、秘匿化データ６を記憶媒体（ＣＤ、ＭＤ、ＵＳＢメモリ、ＳＤカードなどコンピュータ及び音楽プレーヤが読取可能な記憶媒体）に出力し、音楽再生装置３は、記憶媒体から秘匿化データ６を入力する。

少なくとも音楽再生装置３は、対話音声の秘匿化を所望する音響空間に設置される。このような音響空間としては、例えば、調剤薬局などの受付カウンターに隣接する待合室などが考えられる。そして、音楽再生装置３は、このような待合室において秘匿化データ６を再生する。
ここで、本発明の実施の形態に係る秘匿化データ生成装置２が生成する秘匿化データ６は、受付カウンターと待合室の間が簡易的な間仕切りのみであっても、通常の音量によって、待合室にいる人が受付カウンターの対話音声の内容を聞き取ることができない程度に、秘匿化することが可能である。
音楽再生装置３が設置される音響空間としては、その他に、金融機関、保険会社、携帯電話店などのカウンターに隣接する待機スペース、法律事務所などの面談室に隣接する通路、企業などの応接室、飲食店などの個室などが挙げられる。

図２は、秘匿化データ生成装置２のハードウエア構成図である。尚、図２のハードウエア構成は一例であり、用途、目的に応じて様々な構成を採ることが可能である。
秘匿化データ生成装置２は、制御部２１、記憶部２２、メディア入出力部２３、通信制御部２４、入力部２５、表示部２６、周辺機器Ｉ／Ｆ部２７等が、バス２８を介して接続される。

制御部２１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等で構成される。
ＣＰＵは、記憶部２２、ＲＯＭ、記録媒体等に格納されるプログラムをＲＡＭ上のワークメモリ領域に呼び出して実行し、バス２８を介して接続された各装置を駆動制御し、秘匿化データ生成装置２が行う後述する処理を実現する。
ＲＯＭは、不揮発性メモリであり、秘匿化データ生成装置２のブートプログラムやＢＩＯＳ等のプログラム、データ等を恒久的に保持している。
ＲＡＭは、揮発性メモリであり、記憶部２２、ＲＯＭ、記録媒体等からロードしたプログラム、データ等を一時的に保持するとともに、制御部１１が各種処理を行う為に使用するワークエリアを備える。

記憶部２２は、ＨＤＤ（ハードディスクドライブ）であり、制御部２１が実行するプログラム、プログラム実行に必要なデータ、ＯＳ（オペレーティングシステム）等が格納される。プログラムに関しては、ＯＳ（オペレーティングシステム）に相当する制御プログラムや、後述する処理をコンピュータに実行させるためのアプリケーションプログラムが格納されている。
これらの各プログラムコードは、制御部２１により必要に応じて読み出されてＲＡＭに移され、ＣＰＵに読み出されて各種の手段として実行される。

メディア入出力部２３（ドライブ装置）は、データの入出力を行い、例えば、ＣＤドライブ（−ＲＯＭ、−Ｒ、−ＲＷ等）、ＤＶＤドライブ（−ＲＯＭ、−Ｒ、−ＲＷ等）、ＭＤドライブ等のメディア入出力装置を有する。
通信制御部２４は、通信制御装置、通信ポート等を有し、秘匿化データ生成装置２とネットワーク間の通信を媒介する通信インタフェースであり、ネットワークを介して、他の装置間との通信制御を行う。ネットワークは、有線、無線を問わない。

入力部２５は、データの入力を行い、例えば、キーボード、マウス等のポインティングデバイス、テンキー等の入力装置を有する。
入力部２５を介して、秘匿化データ生成装置２に対して、操作指示、動作指示、データ入力等を行うことができる。
表示部２６は、ＣＲＴモニタ、液晶パネル等のディスプレイ装置、ディスプレイ装置と連携してコンピュータ１のビデオ機能を実現するための論理回路等（ビデオアダプタ等）を有する。

周辺機器Ｉ／Ｆ（インタフェース）部２７は、秘匿化データ生成装置２に周辺機器を接続させるためのポートであり、秘匿化データ生成装置２は周辺機器Ｉ／Ｆ部２７を介して周辺機器とのデータの送受信を行う。周辺機器Ｉ／Ｆ部２７は、ＵＳＢやＳＤカードリーダ等で構成されている。
バス２８は、各装置間の制御信号、データ信号等の授受を媒介する経路である。

図３は、聴覚マスキング現象を説明する図である。
マスキングとは、一方の音が、他方の音によってかき消され（マスクされ）、聞こえなくなる現象を意味する。聴覚マスキング現象は、図３に示すように、２種類に大別される。

第１の聴覚マスキング現象は、周波数マスキング（同時マスキング）である。図３（ａ）は、周波数マスキングを示す模式図である。周波数マスキングは、同一時刻に到達した２種類の音波間の干渉である。２種類の音波の周波数が近接している場合、図３（ａ）に示すように、マスカー音７ａ（一方の音をかき消す音）の強さが、マスキー音８ａ（他方の音によってかき消される音）の強さより大きい場合に、マスキング効果が働く。
尚、マスカー音７ａの周波数が、マスキー音８ａの周波数より僅かに低い方が、僅かに高い場合に比べマスキング効果は大きいが、両者の周波数が完全に一致する場合、互いに強め合うことになり、マスキング効果は生じない。また、マスカー音７ａの周波数が、マスキー音８ａの周波数より所定の範囲（臨界帯域幅とよばれる）より高いまたは低い場合も、マスキング効果は生じない。

第２の聴覚マスキング現象は、時間マスキング（経時マスキング）である。図３（ｂ）は、時間マスキングを示す模式図である。時間マスキングは、若干の時間差を伴って到達した２種類の音波間の干渉である。２種類の音波の周波数が、周波数マスキングと同様に近接している場合、図３（ｂ）に示すように、順向マスキングや逆向マスキングが働く。
順向マスキングは、マスカー音７ｂが先行して到達し、マスキー音８ｂが若干遅れて到達する場合、具体的には時間差が１００ｍｓｅｃ以下の場合に働く。この場合、後続の音であるマスキー音８ｂが聞こえない。
逆向マスキングは、マスカー音７ｃがマスキー音８ｃよりも強く、かつ、マスキー音８ｃが先行して到達し、マスカー音７ｃが非常に微小な時間だけ遅れて到達する場合、具体的には時間差が２０ｍｓｅｃ以下の場合に働く。この場合、先行音であるマスキー音８ｃが、後続音であるマスカー音７ｃに抜かれ、聞こえなくなる。マスキー音８ｃがマスカー音７ｃに抜かれる理由は、強い音であるマスカー音７ｃの方が、人間の耳の中での伝播時間が早まる為である。
尚、逆向マスキングよりも順向マスキングの方が、マスキング効果は高い。

本発明の技術的思想は、特願２０１０−１９２１３３号（特許文献５）において活用されている「周波数マスキング」に加えて、「時間マスキング」も活用するものである。

図４は、秘匿化処理の流れを示すフローチャートである。
図４に示すように、秘匿化データ生成装置２の制御部２１は、音声データ４及び音楽データ５を記憶部２２に記憶する（Ｓ１０１）。音楽データ５は、複数記憶するようにしても良い。
音声データ４は、秘匿化対象の音響空間における対話音声ではなく、固定のサンプルデータとする。すなわち、本発明の実施の形態における秘匿化データ生成装置２は、リアルタイムにサンプリングされた秘匿化対象の対話音声は使用しない。音声データ４は、予め録音された種々の男声、女声が混在した対話音声である。
音楽データ５は任意である。例えば、聴取者にとって意味のあるメロディ・リズム・和声進行が含まれている必要は必ずしもなく、川のせせらぎ音などの自然音でもかまわない。秘匿化対象の対話音声に類似した周波数成分を多く含む音楽データであれば、マスキング効果が働きやすくなるので、マスキング効果を高めるという意味では、声楽データが含まれていることが望ましい。但し、声楽データが含まれると騒がしくなるため、器楽データのみであり、楽器編成が少ない室内楽曲などが現実的である。秘匿化データ生成装置２は、音楽データ５ごとに秘匿化データ６を生成する。

次に、秘匿化データ生成装置２の制御部２１は、単一の音楽データ５を選択する（Ｓ１０２）。音楽データ５の選択は、入力部２５を介してユーザが指示するようにしても良い。
次に、秘匿化データ生成装置２の制御部２１は、Ｓ１０２において選択された単一の音楽データ５に基づいて、秘匿化データ６の生成処理を行う（Ｓ１０３）。秘匿化データ６の生成処理の詳細は後述する。
Ｓ１０２及びＳ１０３の処理を繰り返し、複数の秘匿化データ６を生成するようにしても良い。

次に、音楽再生装置３は、Ｓ１０３にて生成された秘匿化データ６を記憶する（Ｓ１０４）。秘匿化データ６は、複数記憶するようにしても良い。
次に、音楽再生装置３は、単一の秘匿化データ６を選択する（Ｓ１０５）。秘匿化データ６の選択は、ユーザが指示するようにしても良い。
次に、音楽再生装置３は、Ｓ１０５において選択された単一の秘匿化データ６を再生する（Ｓ１０６）。再生音量は、環境の変化に応じて、ユーザの指示により適宜変更される。

以上により、秘匿化装置１は、音響空間Ａにおける対話音声が、所定の距離だけ離れている音響空間Ｂにいる人に聴取されないように秘匿化することができる。
以下では、秘匿化データ６の生成処理の詳細について説明する。

図５は、秘匿化データ生成処理の流れを示す図である。図５に示すように、秘匿化データ生成処理は、フレーム抽出処理３１、周波数解析処理３２、フィルタ関数作成処理３３及びフィルタリング処理３４を含む。
ここでは、各処理の概要について説明し、詳細は後述する。

フレーム抽出処理３１は、音声データ４及び音楽データ５を入力し、各々に対して所定の区間単位のフレームｆに分割し、音声フレーム群１０及び音楽フレーム群１１を生成する。
所定の区間単位（フレームの長さ）は、例えば、１００ｍｓｅｃ以下が望ましい。これは、前述の時間マスキング、特に、順向マスキングによるマスキング効果を活用する為である。尚、所定の区間単位（フレームの長さ）を例えば１０ｍｓｅｃ以下などにいたずらに短く設定しても、フレーム数が増えて計算時間が長くなるだけで効果は変わらない。

周波数解析処理３２は、音声フレーム群１０及び音楽フレーム群１１を入力し、フレームｆごとに、音声最大値スペクトルデータ１２及び音楽平均値スペクトルデータ１３を出力する。周波数解析処理３２は、秘匿化データ生成装置２の制御部２１が、音声フレーム群１０及び音楽フレーム群１１の各クレームに対して周波数解析を行い、音声フレームの時間軸方向に最大のスペクトルである単一の音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、音楽フレームの前後Ｍフレーム（Ｍ個）に渡って時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｆ,ｊ）を算出する処理である。
尚、Ｖｖ（ｊ）の添え字「ｖ」は、ｖｏｉｃｅの頭文字である。また、Ｖｍ（ｆ、ｊ）の添え字「ｍ」は、ｍｕｓｉｃの頭文字である。

ここで、Ｍは、前述した所定の区間単位（フレームの長さ）に応じて定めることが望ましく、「Ｍ（個）×フレームの長さ（秒）」が数秒程度であることが望ましい。これは、「Ｍ（個）×フレームの長さ（秒）」が短すぎると、音楽が不自然に聞こえてしまい、「Ｍ（個）×フレームの長さ（秒）」が長すぎると、マスキング効果、即ち音声の秘匿化が適切に働かない箇所が目立つようになるからである。

音声データ４は、スペクトルの時系列変動が大きく、無音部も含まれるため、平均値では適切な評価ができない。そこで、本発明の実施の形態では、音声最大値スペクトルＶｖ（ｊ）を１つだけ算出する。
音楽データ５は、フレーム単位の各瞬時スペクトル（位相成分は無視したエネルギー量）に対して、フレームｆごとに、前後所定のフレーム数に対応する瞬時スペクトルを平均化した平均スペクトルＶｍ（ｆ,ｊ）に置換する。

フィルタ関数作成処理３３は、音声最大値スペクトルデータ１２及び音楽平均値スペクトルデータ１３を入力し、フレームｆごとに、フィルタ関数データ１４を出力する。フィルタ関数作成処理３３は、秘匿化データ生成装置２の制御部２１が、音声最大値スペクトルＶｖ（ｊ）に基づく値を、フレームｆに対応する音楽平均値スペクトルＶｍ（ｆ,ｊ）に基づく値によって除した値である除算値スペクトルＤｉｖ（ｆ,ｊ）に基づいて、フィルタ関数Ｆ（ｆ,ｊ）をフレームｆごとに作成する処理である。

フィルタリング処理３４は、音楽データ５及びフィルタ関数データ１４を入力し、フレームｆごとに、秘匿化データ６を出力する。フィルタリング処理３４は、秘匿化データ生成装置２の制御部２１が、音楽データ５を所定の区間単位であるフレームｆに分割し、分割された各フレームｆをフーリエ変換し、各フレームｆに対応するフィルタ関数Ｆ（ｆ,ｊ）を乗じ、フーリエ逆変換することによって、秘匿化データ６を生成する処理である。

図６、図７は、周波数解析処理を説明する図である。図６、図７に示すように、周波数解析処理３２は、（狭義の）周波数解析３２ａ、瞬時スペクトル算出処理４１、平均スペクトル算出処理４２を含む。

最初に、音声データ４に対する周波数解析処理について説明する。
例えば、サンプリング周波数Ｆｓを「４４１００Ｈｚ」、サンプル数Ｎを「４０９６」とする。サンプリング周波数Ｆｓ及びサンプル数Ｎによって、音声データ４に含まれるフレーム数Ｆｖが定まる。
フレーム抽出処理３１では、秘匿化データ生成装置２の制御部２１が、サンプリング周波数Ｆｓのモノラル音声信号（ステレオの場合はＬＲ（左右）の合算値とする。）に対して、各々Ｎ／２サンプル間隔ごとに（すなわち、Ｎ／２サンプル分ずつ重複する。）、Ｎ個ずつ、各々Ｆｖフレーム抽出する。

次に、周波数解析処理３２では、制御部２１は、抽出したｆ番目のフレームデータＸｖ（ｆ、ｉ）（ｆ＝０、・・・、Ｆｖ−１；ｉ＝０、・・・、Ｎ−１）に対して、ハニング窓関数Ｈ（ｉ）＝０．５−０．５ｃｏｓ（２πｉ／Ｎ）を用いてフーリエ変換を行う。
次に、制御部２１は、変換データの実部Ａｖ（ｆ、ｊ）（ｆ＝０、・・・、Ｆｖ−１；ｊ＝０、・・・、Ｎ−１）、虚部Ｂｖ（ｆ、ｊ）（ｆ＝０、・・・、Ｆｖ−１；ｊ＝０、・・・、Ｎ−１）及び強度値の時系列の最大値スペクトルＶｖ（ｊ）を各々、次式のように算出する。

図６には、音声フレームデータＸｖ（ｆ、ｉ）のフレーム１〜フレームＦに対して、周波数解析４２ａが行われ、音声スペクトル１〜音声スペクトルＦが算出され、音声最大値スペクトルＶｖ（ｊ）が算出されることが図示されている。

次に、音楽データ５に対する周波数解析処理について説明する。
音声データ４と同様、サンプリング周波数Ｆｓを「４４１００Ｈｚ」、サンプル数Ｎを「４０９６」とする。サンプリング周波数Ｆｓ及びサンプル数Ｎによって、音楽データ５に含まれるフレーム数Ｆｍが定まる。
フレーム抽出処理３１では、秘匿化データ生成装置２の制御部２１が、サンプリング周波数Ｆｓのモノラル音楽信号（ステレオの場合はＬＲ（左右）の合算値とする。）に対して、各々Ｎ／２サンプル間隔ごとに（すなわち、Ｎ／２サンプル分ずつ重複する。）、Ｎ個ずつ、各々Ｆｍフレーム抽出する。

次に、周波数解析処理３２では、制御部２１は、抽出したｆ番目のフレームデータＸｍ（ｆ、ｉ）（ｆ＝０、・・・、Ｆｍ−１；ｉ＝０、・・・、Ｎ−１）に対して、ハニング窓関数Ｈ（ｉ）＝０．５−０．５ｃｏｓ（２πｉ／Ｎ）を用いてフーリエ変換を行う。
次に、制御部２１は、瞬時スペクトル算出処理４１として、フレームごとに、位相成分は無視したエネルギー量である瞬時スペクトルを算出する。また、制御部２１は、平均スペクトル算出処理４２として、前後Ｍフレーム（Ｍ個）の瞬時スペクトルの平均値である平均スペクトルを算出する。

具体的には、制御部２１は、変換データの実部Ａｍ（ｆ、ｊ）（ｆ＝０、・・・、Ｆｍ−１；ｊ＝０、・・・、Ｎ−１）、虚部Ｂｍ（ｆ、ｊ）（ｆ＝０、・・・、Ｆｍ−１；ｊ＝０、・・・、Ｎ−１）、及び、対象フレームを中点として前後Ｍ／２フレーム（Ｍ／２個）ずつ、合計Ｍフレーム（Ｍ個）（Ｍ＜Ｆｍ）の平均値スペクトルＶｍ（ｆ、ｊ）（ｆ＝０、・・・、Ｆｍ−１；ｊ＝０、・・・、Ｎ／２）を各々、次式のように算出する。
但し、音楽データ５の先頭部、すなわち、ｆ＜Ｍ／２の場合、前後Ｍ／２フレーム（Ｍ／２個）ずつの平均を取ることができないことから、Ｖｍ（ｆ、ｊ）＝Ｖｍ（Ｍ／２、ｊ）とする。同様に、音楽データ５の後尾部、すなわち、ｆ＞Ｆｍ−Ｍ／２の場合、前後Ｍ／２フレーム（Ｍ／２個）ずつの平均を取ることができないことから、Ｖｍ（ｆ、ｊ）＝Ｖｍ（Ｆｍ−Ｍ／２−１、ｊ）とする。

図６には、一例として、音楽データ５のフレームｆとフレームｆ＋１に対する周波数解析処理が示されている。
図６には、音楽フレームデータＸｍ（ｆ、ｉ）のフレーム１〜フレームＭ＋１に対して、周波数解析４２ａが行われ、フレーム１〜フレームＭまでの時系列平均が算出され、フレームｆに対する音楽平均値スペクトルＶｍ（ｆ、ｊ）が算出されることが図示されている。同様に、図６には、フレーム２〜フレームＭ＋１までの時系列平均が算出され、フレームｆ＋１に対する音楽平均値スペクトルＶｍ（ｆ＋１、ｊ）が算出されることが図示されている。

また、図７には、図６の補足的な説明として、音楽データ５を入力とし、瞬時スペクトル算出処理４１によって、フレームごとに瞬時スペクトルが算出されることが図示されている。また、処理対象のフレームに対して、前後Ｍフレーム（Ｍ個）の瞬時スペクトルの平均値が算出され、平均値スペクトルに置換され、音楽平均値スペクトルデータ１３が出力されることが図示されている。

図８、図９は、フィルタ関数作成処理を説明する図である。フィルタ関数作成処理３３は、図８に示す臨界帯域幅補正処理４３、並びに、図９に示す除算処理４４及び平滑化処理４５を含む。

まず、図８を参照して臨界帯域幅補正処理４３について説明する。
臨界帯域幅補正処理４３は、秘匿化データ生成装置２の制御部２１が、音声最大値スペクトルＶｖ（ｊ）を、周波数ｊごとに所定の範囲内の最大値に置換することによって、単一の置換音声最大値スペクトルＶｖ’（ｊ）を作成する処理である。また、臨界帯域幅補正処理４３は、フレームｆごとに、音楽平均値スペクトルＶｍ（ｆ、ｊ）を、周波数ｊごとに所定の範囲内の平均値に置換することによって、置換音楽平均値スペクトルＶｍ’（ｆ、ｊ）を作成する処理である。図８には、一例として、フレームｆとフレームｆ＋１に対する臨界帯域幅補正処理が示されている。

臨界帯域幅とは、ある周波数ｊの周波数成分Ｖｖ（ｊ）またはＶｍ（ｆ、ｊ）を中心にマスキングが及ぶ周波数の範囲（臨界帯域幅、Ｂａｒｋと呼ばれる。）である。臨界帯域幅の近似式としては、次式に示すＥ．Ｚｗｉｃｋｅｒの式が知られている。尚、一般に、周波数が高くなると、臨界帯域幅は広くなることが分かっている。

式（７）におけるｆｒの単位も「Ｈｚ」である。ｆｒとＢｚ（ｆｒ）を本実施の形態におけるフーリエ変換のポイント数の次元に変換すると、次式となる。

臨界帯域幅補正処理４３では、秘匿化データ生成装置２の制御部２１は、音声信号スペクトルに対して、周波数ｊごとに周波数成分Ｖｖ（ｊ）をｊｃ＝ｊ−（１−α）×Ｂｚ（ｊ）からｊｃ＝ｊ＋α×Ｂｚ（ｊ）の範囲の最大値に置換する。即ち、制御部２１は、ｊ＝０、・・・、Ｎ／２に対して、置換後のスペクトル（置換音声最大値スペクトル）Ｖｖ’（ｊ）を次式のように算出する。

αは０から１までの実数であり、通常はα＝１．０とする。式（９）によって、音声スペクトルを周波数方向に低音側に非線形シフトする補正を行っていることになる。
マスキングは、高音側（周波数が高域側）に働きやすいという性質がある為、音声最大値スペクトルＶｖ（ｊ）を、周波数ｊよりも高域側の範囲内の最大値に置換すれば、音声スペクトルを周波数方向に低音側に非線形シフトする補正を行っていることになり、ひいては、マスキング効果を高めることができる。

一方、音楽信号スペクトルに対しては、制御部２１は、フレームｆごとに処理を行い、周波数ｊごとに周波数成分Ｖｍ（ｆ、ｊ）をｊｃ＝ｊ−０．５×Ｂｚ（ｊ）からｊｃ＝ｊ＋０．５×Ｂｚ（ｊ）の範囲の平均値に置換する。即ち、制御部２１は、ｊ＝０、・・・、Ｎ／２に対して、置換後のスペクトル（置換音楽平均値スペクトル）Ｖｍ’（ｆ、ｊ）を次式のように算出する。

式（１０）によって、音楽スペクトルを周波数方向に平滑化をかけていることになる。

図８では、Ｗ（ｊ）が、置換の際の計算範囲を示している。音声最大値スペクトルＶｖ（ｊ）に対して、単一の置換音声最大値スペクトルＶｖ’（ｊ）が算出されることが図示されている。また、音楽平均値スペクトルＶｍ（ｆ、ｊ）に対しては、置換音楽平均値スペクトルＶｍ’（ｆ、ｊ）が算出され、音楽平均値スペクトルＶｍ（ｆ＋１、ｊ）に対しては、置換音楽平均値スペクトルＶｍ’（ｆ＋１、ｊ）が算出されることが図示されている。

次に、図９を参照して、除算処理４４及び平滑化処理４５について説明する。
除算処理４４は、秘匿化データ生成装置２の制御部２１が、フレームｆごとに、音声最大値スペクトルＶｖ（ｊ）に基づく値を音楽平均値スペクトルＶｍ（ｊ）に基づく値によって互いに対応する周波数ｊごとに除した値を除算値スペクトルＤｉｖ（ｆ、ｊ）として算出する処理である。特に、制御部２１は、フレームｆごとに、置換音声最大値スペクトルＶｖ’（ｊ）を置換音楽平均値スペクトルＶｍ’（ｆ、ｊ）によって除した値を除算値スペクトルＤｉｖ（ｆ、ｊ）とすることが望ましい。
図９には、一例として、フレームｆとフレームｆ＋１に対する除算処理が示されている。

また、平滑化処理４５は、秘匿化データ生成装置２の制御部２１が、除算値スペクトルＤｉｖ（ｆ、ｊ）を、周波数ｊの前後の範囲内の平均値に置換することによって、除算値スペクトルＤｉｖ（ｆ、ｊ）を平滑化する処理である。
図９には、一例として、フレームｆとフレームｆ＋１に対する平滑化処理が示されている。

具体的には、制御部２１は、周波数（ｊ＝０、・・・、Ｎ／２）ごとに、除算値スペクトルＤｉｖ（ｆ、ｊ）＝Ｖｖ’（ｊ）／Ｖｍ’（ｆ、ｊ）を算出し、これに対して所定のタップ数Ｔ（＜Ｎ／２）によって、次式のように、平滑フィルタをかけた結果をＦ（ｆ、ｊ）とする。

βは、音圧を調整するための比例定数（実数値）である。音声信号の音圧と音楽信号の音圧を同程度とする場合、β＝１．０とする。
Ｆ（ｆ、ｊ）の上限値と下限値は予め設定しておく。例えば、中央値を１とすると、上限値を１０倍の「１０」、下限値を１／１０の「０．１」とする。除算結果が上限値を上回る場合、又は、下限値を下回る場合、制御部２１は、それぞれ、Ｆ（ｆ、ｊ）に上限値又は下限値を設定する。

図９に示すように、除算値スペクトルＤｉｖ（ｆ、ｊ）は、極値（極大値及び極小値）を数多く持つ関数となっている。特に、ところどころ０で割り算する箇所が発生してしまい、その箇所では上限値をもつ極値になり不連続点になる。除算値スペクトルＤｉｖ（ｆ、ｊ）をそのままフィルタ関数とすると、人間にとって聞き苦しい秘匿化データ６が生成されてしまう。そこで、本発明の実施の形態では、平滑化処理４５を行っている。
図９に示すように、平滑化処理４５を行うことで、フィルタ関数Ｆ（ｆ、ｊ）は、極値が少なく、滑らかな関数となっている。

図１０は、フィルタリング処理を説明する図である。図１０に示すように、フィルタリング処理３４は、フーリエ変換処理４６、フィルタ関数乗算処理４７及びフーリエ逆変換処理４８を含む。
前述の周波数解析処理３２及びフィルタ関数作成処理３３では、実数値に対して計算を行っているが、フィルタリング処理３４では、複素数値をもつ瞬時スペクトルに対して計算を行う。

フーリエ変換処理４６は、秘匿化データ生成装置２の制御部２１が、音楽フレームデータＸｍｌ（ｆ、ｉ）及びＸｍｒ（ｆ、ｉ）（ｆ＝０、・・・、Ｆｍ−１；ｉ＝０、・・・、Ｎ−１）をフーリエ変換し、ソース複素スペクトルを算出する処理である。
フィルタ関数乗算処理４７は、制御部２１が、ソース複素スペクトルにフィルタ関数Ｆ（ｆ、ｊ）を乗じ、改変複素スペクトルを算出する処理である。
フーリエ逆変換処理４８は、制御部２１が、改変複素スペクトルのフーリエ逆変換を行い、秘匿化フレームデータＸｍｌ’（ｆ、ｉ）及びＸｍｒ’（ｆ、ｉ）（ｆ＝０、・・・、Ｆｍ−１；ｉ＝０、・・・、Ｎ−１）を算出する処理である。

フーリエ変換処理４６では、制御部２１は、サンプリング周波数Ｆｓのステレオ音声信号（モノラル信号の場合は一方を０とする。）に対して、各々Ｎ／２サンプル間隔ごとに（すなわち、Ｎ／２サンプル分ずつ重複する。）、Ｎ個ずつ、各々Ｆｍフレーム抽出したｆ番目の音楽フレームデータＸｍｌ（ｆ、ｉ）及びＸｍｒ（ｆ、ｉ）に対して、ハニング窓関数Ｈ（ｉ）＝０．５−０．５ｃｏｓ（２πｉ／Ｎ）を用いてフーリエ変換を行い、以下のように、変換データの実部Ａｍｌ（ｆ、ｊ）及びＡｍｒ（ｆ、ｊ）、並びに、虚部Ｂｍｌ（ｆ、ｊ）及びＢｍｒ（ｆ、ｊ）（ｆ＝０、・・・、Ｆｍ）−１；ｊ＝０、・・・、Ｎ−１）を算出する。

フィルタ関数乗算処理４７では、制御部２１は、Ｆｍ個のフィルタ関数Ｆ（ｆ、ｊ）を用いて、フレームｆごとに所定の周波数区間［ｊ１、ｊ２］の全ての周波数成分に乗算する。即ち、制御部２１は、各フレームｆ＝０、・・・、Ｆｍ−１、及び、各周波数ｊ＝ｊ１、・・・、ｊ２において、次式のように変換を行う。

各フレームｆのＡｍl（ｆ、ｊ）、Ｂｍl（ｆ、ｊ）、Ａｍｒ（ｆ、ｊ）、Ｂｍｒ（ｆ、ｊ）の各要素に対してフィルタ関数乗算処理４７の結果を各々Ａｍl’（ｆ、ｊ）、Ｂｍl’（ｆ、ｊ）、Ａｍｒ’（ｆ、ｊ）、Ｂｍｒ’（ｆ、ｊ）とする。
フーリエ逆変換処理４８では、制御部２１は、変換対象のフレームｆの秘匿化フレームデータＸｍｌ’（ｆ、ｉ）及びＸｍｒ’（ｆ、ｉ）に対して、直前に変換されたフレームｆ−１の秘匿化フレームデータＸｍｌ’（ｆ−１、ｉ）及びＸｍｒ’（ｆ−１、ｉ）が存在する場合、両者が時間軸においてＮ／２サンプル分重複することを考慮し、次式のように計算を行う。

以上、本発明の実施の形態における秘匿化データ生成処理について説明したが、本発明の実施の形態によれば、固定長の短い所定区間を定義し、フレーム単位に近傍の所定区間でスペクトルを平滑化し、平滑化されたスペクトルをもとにフレーム単位に異なるフィルタ関数を定義する。これにより、音量や音色の急激な変化に対してフィルタ関数が連続的に変化し、不自然な段差を発生させることなく、いかなる再生箇所でもマスキング効果が働くようになり、長い楽曲でも人手による作業は不要になる。また、本発明の実施の形態によれば、近傍の周波数特性をもとに楽曲信号が補正されているため、周波数マスキングに加えて、時間マスキングも働くようになり、音声の秘匿化効果が更に高まる。
そして、本発明の実施の形態では、フィルタ関数を生成する負荷が若干増大するものの、長時間のＢＧＭを用いて、従来の館内ＢＧＭと同様の設備によって安価に対話音声の秘匿化を効果的に実現できる。

次に、図１１、図１２を参照しながら、秘匿化装置の設置例について説明する。図１１及び図１２に示す例では、秘匿化データ生成装置２によって秘匿化データ６が生成され、音楽再生装置３である音楽プレーヤ５２に記憶されているものとする。

図１１は、秘匿化装置１の第１の設置例を示している。
図１１に示す例では、平面スピーカ５１ａ及び５１ｂを挟んで左側が面談スペース６０であり、右側が待合スペース６５になっている。
面談スペース６０には、面談カウンターテーブル６１、店員用椅子６２、来客用椅子６３等が設置されている。面談カウンターテーブル６１は、パーティション６４によって区切られている。また、待合スペース６５には、待合ソファー６５が設置されている。顧客は、来店すると待合スペース６５において待機し、順番に面談スペース６０に呼ばれて店員と面談する。

平面スピーカ５１ａ及び５１ｂは、ハニカム構造のパネル及びスピーカ（エキサイタ）から構成されており、例えば、ポスラサウンドパネル（本出願人の登録商標）等である。
平面スピーカ５１ａ及び５１ｂのパネルは、待合スペース６５より面談カウンターテーブル６１にいる店員や来客が覗き込めないパーティション程度の大きさがあること望ましいが、Ａ３サイズ程度の面積しかない立て看板などでも十分に効果を発揮する。すなわち、会話音声７１が、平面スピーカ５１ａ及び５１ｂに物理的に遮られることなく、待合ソファー６５まで到達しても、本発明の秘匿化データ６によって十分なマスキング効果が得られる。
尚、ポスラ（本出願人の登録商標）サウンドパネルは、横幅１メートル程度まで製作可能である。

音楽プレーヤ５２は、平面スピーカ５１ａ及び５１ｂと接続され、本発明の実施の形態に係る秘匿化データ６を再生する。
図１１に示す例では、平面スピーカ５１ａ及び５１ｂが、それぞれ、マスカー音であるＢＧＭサウンドＬ７２ａ及びＢＧＭサウンドＲ７２ｂを出力している（ステレオ再生）。尚、ＢＧＭサウンドは、モノラル再生でも良く、平面スピーカの数や配置位置は、環境に応じて適宜変更すれば良い。

平面スピーカ５１ａ及び５１ｂは、音楽プレーヤ５２によって、秘匿化データ６の波面が平面波に近い音波として、平面から均一に放射する機構を有することが望ましい。これによって、待合スペース６５に伝搬される過程で減衰する音波のエネルギー量が、面談スペース６０から発声される会話音声７１に比べ前記平面スピーカ５１ａ及び５１ｂから出力されるＢＧＭサウンド７２ａ及び７２ｂの方が小さくなり、相対的にＢＧＭサウンド７２ａ及び７２ｂのエネルギー量が面談スペース６０から発声される会話音声７１に比べ大きくなるため、マスキング効果を高めることができる。このような平面スピーカ５１ａ及び５１ｂの一例としては、特開２００７−３０１８８８号公報に開示されている。特開２００７−３０１８８８号公報に開示されているスピーカは、微細な管構造アレイのパネルによって構成されており、平面波に近い音波を均一に放射する。

ここで、平面スピーカ５１ａ及び５１ｂが平面波に近い音波を放射することによって、マスキング効果を高めることができる理由について説明する。
図１１に示すように、会話音声７１は、球面波の音波として、観測位置である待合スペース６５に到達する。同様に、通常のダイナミックスピーカから再生されるＢＧＭも、球面波の音波である。
ここで、球面波の場合、距離の２乗に比例して伝搬される表面積が大きくなり音源に集中していたエネルギーが分散するため、エネルギー（音圧）が距離の２乗に反比例して減衰していくことが知られている。一方、平面波の場合、距離が離れてもエネルギーがあまり減衰しない。

すなわち、通常のダイナミックスピーカから再生されるＢＧＭは、球面波の音波であり、離れるとエネルギーが減衰するから、面談スペース６０により近い位置に待機している顧客に合わせて音量を調節すると、面談スペース６０により遠い位置に待機している顧客にはマスキング効果が十分に働かない場合がある。
一方、平面波に近い音波を放射する平面スピーカ５１ａ及び５１ｂを用いれば、再生されるＢＧＭサウンドＬ７２ａ、ＢＧＭサウンドＲ７２ｂは、平面波の音波であり、離れてもエネルギーがあまり減衰しないから、面談スペース６０により近い位置に待機している顧客に合わせて音量を調節しても、面談スペース６０により遠い位置に待機している顧客に対して十分なマスキング効果が働く。

図１２は、秘匿化装置１の第２の設置例を示している。
図１２に示す例では、平面スピーカ５１ｃ及び５１ｄを挟んで左側が第１応接スペース８１ａであり、右側が第２応接スペース８１ｂになっている。
第１応接スペース８１ａ及び第２応接スペース８１ｂには、それぞれ、１つの応接テーブル８２と４つの椅子８３が設置されている。
第１応接スペース８１ａ及び第２応接スペース８１ｂでは、それぞれ独立して、別々の顧客を応接するようになっている。

平面スピーカ５１ｃ及び５１ｄは、ハニカム構造のパネル及びスピーカ（エキサイタ）から構成されており、例えば、ポスラサウンドパネル（本出願人の登録商標）等である。図１２に示す平面スピーカ５１ｃ及び５１ｄは、第１の設置例よりも横幅のサイズを大きくして、パーティションの機能も果たすものである。
平面スピーカ５１ｃ及び５１ｄには、複数のスピーカ（エキサイタ）を備えており、それぞれのスピーカから、マスカー音であるＢＧＭサウンドＬ７２ａ、ＢＧＭサウンドＲ７２ｂが出力される。
第１の設置例と同様、平面スピーカ５１ｃ及び５１ｄは、音楽プレーヤ５２によって、秘匿化データ６の波面が平面波に近い音波として、平面から均一に放射する機構を有することが望ましい。

図１２に示すように、マスキー音である第１会話音声７１ａは、球面波の音波として、観測位置である第２応接スペース８１ｂに到達する。同様に、マスキー音である第２会話音声７１ｂは、球面波の音波として、観測位置である第１応接スペース８１ａに到達する。
第１会話音声７１ａに対しては、第２応接スペース８１ｂにおいて、平面スピーカ５１ｄから出力されるＢＧＭサウンドＬ７２ａ、ＢＧＭサウンドＲ７２ｂがマスカー音となり、マスキング効果を発揮する。同様に、第２会話音声７１ｂに対しては、第１応接スペース８１ａにおいて、平面スピーカ５１ｃから出力されるＢＧＭサウンドＬ７２ａ、ＢＧＭサウンドＲ７２ｂがマスカー音となり、マスキング効果を発揮する。

以上、秘匿化装置１の設置例を説明したが、前述したように、楽曲信号を再生するスピーカとして、平面波に近い音波を放射する平面スピーカを使用することによって、比較的低い音量でＢＧＭを流しても音声秘匿化効果を発揮できる。
また、平面スピーカは、Ａ３サイズ程度の立て看板から、横幅１メートル程度のパーティションまで、様々な態様とすることができる。
また、平面スピーカのパネル面の絵柄としては、壁紙などのインテリア素材やポスター広告を用いることができ、視覚的にもスピーカがむき出しになるようなインテリア上の不自然さを回避することができる。

尚、前述の説明では、平面スピーカが立て看板やパーティションとしたが、本発明の実施の形態はこれに限定されない。例えば、スピーカを部屋の壁に内蔵し、部屋の四方からマスカー音であるＢＧＭサウンドを出力させることも可能である。

以上、添付図面を参照しながら、本発明に係る秘匿化データ生成装置等の好適な実施形態について説明したが、本発明はかかる例に限定されない。当業者であれば、本願で開示した技術的思想の範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。

１………秘匿化装置
２………秘匿化データ生成装置
３………音楽再生装置
４………音声データ
５………音楽データ
６………秘匿化データ
１０………音声フレーム群
１１………音楽フレーム群
１２………音声最大値スペクトルデータ
１３………音声平均値スペクトルデータ
１４………フィルタ関数データ
３１………フレーム抽出処理
３２………周波数解析処理
３２ａ………周波数解析
３３………フィルタ関数作成処理
３４………フィルタリング処理
４１………瞬時スペクトル算出処理
４２………平均スペクトル算出処理
４３………臨界帯域幅補正処理
４４………除算処理
４５………平滑化処理
４６………フーリエ変換処理
４７………フィルタ関数乗算処理
４８………フーリエ逆変換処理
５１ａ、５１ｂ、５１ｃ、５１ｄ………平面スピーカ
５２………音楽プレーヤ

Claims

対話音声を秘匿化するための音楽データである秘匿化データを生成する秘匿化データ生成装置であって、
予め記憶された音声データ及び音楽データの各々に対して所定の区間単位のフレームｆに分割し、フレームｆごとに周波数解析を行い、前記音声データの時間
軸方向に最大のスペクトルである単一の音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、前記音楽データの各フレームｆの前後Ｍフレームに渡って時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｆ,ｊ）をフレームｆごとに算出する周波数解析手段と、
前記音声最大値スペクトルＶｖ（ｊ）に基づく値を、フレームｆに対応する前記音楽平均値スペクトルＶｍ（ｆ,ｊ）に基づく値によって互いに対応する周波数ｊごとに除した値である除算値スペクトルＤｉｖ（ｆ,ｊ）に基づいて、フィルタ関数Ｆ（ｆ,ｊ）をフレームｆごとに作成するフィルタ関数作成手段と、
前記音楽データを所定の区間単位であるフレームｆに分割し、分割された各フレームｆをフーリエ変換し、各フレームｆに対応する前記フィルタ関数Ｆ（ｆ,ｊ）を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリング手段と、
を具備することを特徴とする秘匿化データ生成装置。
前記フィルタ関数作成手段は、
前記音声最大値スペクトルＶｖ（ｊ）を、周波数ｊよりも高域側の範囲内の最大値に置換することによって、置換音声最大値スペクトルを算出し、
前記音楽平均値スペクトルＶｍ（ｆ,ｊ）を、周波数ｊの前後の範囲内の平均値に置換することによって、置換音楽平均値スペクトルを算出し、前記置換音声最大値スペクトルを前記置換音楽平均値スペクトルによって除した値を前記除算値スペクトルＤｉｖ（ｆ,ｊ）とすることを特徴とする請求項１に記載の秘匿化データ生成装置。
前記フィルタ関数作成手段は、
前記除算値スペクトルＤｉｖ（ｆ,ｊ）を、周波数ｊの前後の範囲内の平均値に置換することによって、前記除算値スペクトルＤｉｖ（ｆ,ｊ）を平滑化することを特徴とする請求項１又は請求項２に記載の秘匿化データ生成装置。
複数の前記音楽データを記憶する音楽データ記憶手段と、
前記音楽データ記憶手段によって記憶されている前記音楽データの中から単一の前記音楽データを選択する音楽データ選択手段と、
を更に具備し、
前記音楽データ選択手段によって選択された単一の前記音楽データに基づいて、前記秘匿化データを生成することを特徴とする請求項１乃至請求項３のいずれかに記載の秘匿化データ生成装置。
対話音声を秘匿化するための音楽データである秘匿化データを生成する秘匿化データ生成方法であって、
予め記憶された音声データ及び音楽データの各々に対して所定の区間単位のフレームｆに分割し、フレームｆごとに周波数解析を行い、前記音声データの時間
軸方向に最大のスペクトルである単一の音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、前記音楽データの各フレームｆの前後Ｍフレームに渡って時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｆ,ｊ）をフレームｆごとに算出する周波数解析ステップと、
前記音声最大値スペクトルＶｖ（ｊ）に基づく値を、フレームｆに対応する前記音楽平均値スペクトルＶｍ（ｆ,ｊ）に基づく値によって互いに対応する周波数ｊごとに除した値である除算値スペクトルＤｉｖ（ｆ,ｊ）に基づいて、フィルタ関数Ｆ（ｆ,ｊ）をフレームｆごとに作成するフィルタ関数作成ステップ
と、
前記音楽データを所定の区間単位であるフレームｆに分割し、分割された各フレームｆをフーリエ変換し、各フレームｆに対応する前記フィルタ関数Ｆ（ｆ,ｊ）を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリングステップと、
を含むことを特徴とする秘匿化データ生成方法。
請求項１乃至請求項４のいずれかに記載の秘匿化データ生成装置を具備する秘匿化装置であって、更に、
前記秘匿化データ生成装置が生成する複数の前記秘匿化データを記憶する秘匿化データ記憶手段と、
前記秘匿化データ記憶手段によって記憶されている前記秘匿化データの中から
単一の前記秘匿化データを選択する秘匿化データ選択手段と、
前記秘匿化データ選択手段によって選択された単一の前記秘匿化データを再生する秘匿化データ再生手段と、
を具備することを特徴とする秘匿化装置。
請求項６に記載の前記秘匿化データ再生手段が前記秘匿化データを波面が平面波に近い音波として所定平面から均一に放射する機構をもつ平面型スピーカで構成されていることを特徴とする秘匿化装置。
対話音声を秘匿化するための音楽データである秘匿化データを生成し、再生する秘匿化装置であって、
予め記憶された音声データ及び音楽データの各々に対して所定の区間単位のフレームｆに分割し、フレームｆごとに周波数解析を行い、前記音声データの時間
軸方向に最大のスペクトルである単一の音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、前記音楽データの各フレームｆの前後Ｍフレームに渡って時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｆ,ｊ）をフレームｆごとに算出する周波数解析手段と、
前記音声最大値スペクトルＶｖ（ｊ）に基づく値を、フレームｆに対応する前記音楽平均値スペクトルＶｍ（ｆ,ｊ）に基づく値によって互いに対応する周波数ｊごとに除した値である除算値スペクトルＤｉｖ（ｆ,ｊ）に基づいて、フィルタ関数Ｆ（ｆ,ｊ）をフレームｆごとに作成するフィルタ関数作成手段と、
前記音楽データを所定の区間単位であるフレームｆに分割し、分割された各フレームｆをフーリエ変換し、各フレームｆに対応する前記フィルタ関数Ｆ（ｆ,ｊ）を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリング手段と、
前記秘匿化データを再生する秘匿化データ再生手段と、
を具備することを特徴とする秘匿化装置。
対話音声を秘匿化するための音楽データである秘匿化データを生成し、再生する秘匿化方法であって、
予め記憶された音声データ及び音楽データの各々に対して所定の区間単位のフレームｆに分割し、フレームｆごとに周波数解析を行い、前記音声データの時間
軸方向に最大のスペクトルである単一の音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、前記音楽データの各フレームｆの前後Ｍフレームに渡って時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｆ,ｊ）をフレームｆごとに算出する周波数解析ステップと、
前記音声最大値スペクトルＶｖ（ｊ）に基づく値を、フレームｆに対応する前記音楽平均値スペクトルＶｍ（ｆ,ｊ）に基づく値によって互いに対応する周波数ｊごとに除した値である除算値スペクトルＤｉｖ（ｆ,ｊ）に基づいて、フィルタ関数Ｆ（ｆ,ｊ）をフレームｆごとに作成するフィルタ関数作成ステップ
と、
前記音楽データを所定の区間単位であるフレームｆに分割し、分割された各フレームｆをフーリエ変換し、各フレームｆに対応する前記フィルタ関数Ｆ（ｆ,ｊ）を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリングステップと、
生成された複数の前記秘匿化データを記憶する秘匿化データ記憶ステップと、
前記秘匿化データ記憶ステップによって記憶されている前記秘匿化データの中から単一の前記秘匿化データを選択する秘匿化データ選択ステップと、
前記秘匿化データ選択ステップによって選択された単一の前記秘匿化データを再生する秘匿化データ再生ステップと、
を含むことを特徴とする秘匿化方法。
対話音声を秘匿化するための音楽データである秘匿化データを生成し、再生する秘匿化方法であって、
予め記憶された音声データ及び音楽データの各々に対して所定の区間単位のフレームｆに分割し、フレームｆごとに周波数解析を行い、前記音声データの時間
軸方向に最大のスペクトルである単一の音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、前記音楽データの各フレームｆの前後Ｍフレームに渡って時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｆ,ｊ）をフレームｆごとに算出する周波数解析ステップと、
前記音声最大値スペクトルＶｖ（ｊ）に基づく値を、フレームｆに対応する前記音楽平均値スペクトルＶｍ（ｆ,ｊ）に基づく値によって互いに対応する周波数ｊごとに除した値である除算値スペクトルＤｉｖ（ｆ,ｊ）に基づいて、フィルタ関数Ｆ（ｆ,ｊ）をフレームｆごとに作成するフィルタ関数作成ステップ
と、
前記音楽データを所定の区間単位であるフレームｆに分割し、分割された各フレームｆをフーリエ変換し、各フレームｆに対応する前記フィルタ関数Ｆ（ｆ,ｊ）を乗じ、フーリエ逆変換することによって、前記秘匿化データを生成するフィルタリングステップと、
前記秘匿化データを再生する秘匿化データ再生ステップと、
を含むことを特徴とする秘匿化方法。
コンピュータに、
予め記憶された音声データ及び音楽データの各々に対して所定の区間単位のフレームｆに分割し、フレームｆごとに周波数解析を行い、前記音声データの時間
軸方向に最大のスペクトルである単一の音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、前記音楽データの各フレームｆの前後Ｍフレームに渡って時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｆ,ｊ）をフレームｆごとに算出する周波数解析ステップと、
前記音声最大値スペクトルＶｖ（ｊ）に基づく値を、フレームｆに対応する前記音楽平均値スペクトルＶｍ（ｆ,ｊ）に基づく値によって互いに対応する周波数ｊごとに除した値である除算値スペクトルＤｉｖ（ｆ,ｊ）に基づいて、フィルタ関数Ｆ（ｆ,ｊ）をフレームｆごとに作成するフィルタ関数作成ステップ
と、
前記音楽データを所定の区間単位であるフレームｆに分割し、分割された各フレームｆをフーリエ変換し、各フレームｆに対応する前記フィルタ関数
Ｆ（ｆ,ｊ）を乗じ、フーリエ逆変換することによって、対話音声を秘匿化するための音楽データである秘匿化データを生成するフィルタリングステップと、
を実行させるためのコンピュータ読取可能なプログラム。
コンピュータに、
予め記憶された音声データ及び音楽データの各々に対して所定の区間単位のフレームｆに分割し、フレームｆごとに周波数解析を行い、前記音声データの時間
軸方向に最大のスペクトルである単一の音声最大値スペクトルＶｖ（ｊ）（ｊは周波数）を算出し、前記音楽データの各フレームｆの前後Ｍフレームに渡って時間軸方向に平均化したスペクトルである音楽平均値スペクトルＶｍ（ｆ,ｊ）をフレームｆごとに算出する周波数解析ステップと、
前記音声最大値スペクトルＶｖ（ｊ）に基づく値を、フレームｆに対応する前記音楽平均値スペクトルＶｍ（ｆ,ｊ）に基づく値によって互いに対応する周波数ｊごとに除した値である除算値スペクトルＤｉｖ（ｆ,ｊ）に基づいて、フィルタ関数Ｆ（ｆ,ｊ）をフレームｆごとに作成するフィルタ関数作成ステップ
と、
前記音楽データを所定の区間単位であるフレームｆに分割し、分割された各フレームｆをフーリエ変換し、各フレームｆに対応する前記フィルタ関数
Ｆ（ｆ,ｊ）を乗じ、フーリエ逆変換することによって、対話音声を秘匿化するための音楽データである秘匿化データを生成するフィルタリングステップと、
前記秘匿化データを再生する秘匿化データ再生ステップと、
を実行させるためのコンピュータ読取可能なプログラム。