JP2021032989A

JP2021032989A - 音響処理装置、音響処理プログラム及び音響処理方法

Info

Publication number: JP2021032989A
Application number: JP2019151513A
Authority: JP
Inventors: 尚也川畑; Naoya Kawabata; 祥剛大塩; Yoshitake Oshio; 敬信西浦; Keishin Nishiura; 健太岩居; Kenta Iwai
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2019-08-21
Filing date: 2019-08-21
Publication date: 2021-03-01
Anticipated expiration: 2039-08-21
Also published as: JP7287182B2

Abstract

【課題】話者の音声の音響特性の解析結果音響特徴量の解析を行わない、または、音響特徴量の解析結果が間違っていても、音響特性を変化していない信号を使用してマスカー信号を生成し、話者の会話を妨害せずに話者の発話する音声をマスキングする。【解決手段】本発明は、音響処理装置に関する。そして、本発明の音響処理装置は、対象話者が発話した音声を収音するマイクから供給されたマイク入力信号をフレーム毎に蓄積し、蓄積されている過去のマイク入力信号から話者が発話した音声を聞き取りにくくさせるマスカー信号を生成して出力することを特徴とする。【選択図】図１

Description

本発明は、音響処理装置、音響処理プログラム及び音響処理方法に関し、例えば、発話している話者の周囲の第三者に対して、会話の内容が漏れることを防ぐ手法として用いられるサウンドマスキング処理に適用し得る。

近年、不特定多数の人が存在する施設（例えば、病院、薬局、銀行等）の受付カウンター、窓口、打合せスペース等で話者が会話の相手と会話を行うと、会話の内容が周囲の第三者に漏洩することが問題になっている。

第三者に会話内容の漏洩を防ぐことをスピーチプライバシーと言い、スピーチプライバシーを実現するために、音のマスキング効果が利用されている。

音のマスキング効果とは、ある音（以下、対象音）が聞こえている状態で、対象音に近い音響特性（例えば、周波数特性、ピッチ、フォルマント等）を持つ別の音が存在した場合、対象音が聞き取りにくくなる（マスクされる）現象である。一般的にマスクする音をマスカー、マスクされる音をマスキーと呼ぶ。

この音のマスキング効果を利用した、第三者に会話内容の漏洩を防止（スピーチプライバシーを保護）するサウンドマスキング装置が特許文献１と特許文献２によって提案されている。

特許文献１に記載のサウンドマスキング装置は、マスキー信号である話者の音声信号が変化した場合でも、話者の音声信号の音響特徴量の解析を行い、解析結果を基にマスカー信号を生成し、高いマスキング効果が得られるようにしたサウンドマスキング装置である。

特許文献２に記載の音声処理方法は、音声信号のスペクトル包絡とスペクトル微細構造を抽出し、抽出したスペクトル包絡を変形して変形スペクトル包絡を生成する。そして、変形スペクトル包絡及び抽出したスペクトル微細構造を合成して変形スペクトルを生成し、変形スペクトルに基づいて生成した信号をマスカー信号として出力することで会話音声の内容が第三者に聞かれないようにする音声処理方法である。

特開２０１２−８８５７７号公報特開２００６−２４３１７８号公報

特許文献１に記載のサウンドマスキング装置では、不特定の話者に対してもある程度マスク効果が期待できるように、男性および女性を含む複数人の音声信号を汎用マスカー信号としてデータベースに保存している。そして、話者の音声信号の音響特徴量の解析結果を基に、データベースに保存されている汎用マスカー信号の音響特性を変化させる（例えば、汎用マスカー信号のピッチを入力音声信号のピッチに変換、汎用マスカー音のフォルマントを入力音声信号のフォルマントに変換等）ことでマスカー信号を生成している。このため、データベースに保存している汎用マスカー信号を変化させた信号が、人工的な音になりマスカー信号が不快な音になる可能性がある。さらに、音響特徴量の解析結果が間違っていると、話者の音声の音響特徴量とマスカー信号の音響特徴量が異なるので、マスキング効果は低くなり会話の内容をマスクすることができない。

特許文献２に記載の音声処理方法でも、抽出した音声信号のスペクトル包絡を変形させて変形スペクトル包絡を生成し、変形スペクトル包絡と抽出した音声信号のスペクトル微細構造を合成してマスカー信号生成に使用している。このため、話者の音声信号を変形して生成されたマスカー信号は人工的な音になってしまい、マスカー信号が不快な音になる可能性がある。

また、特許文献１に記載のサウンドマスキング装置と特許文献２に記載の音声処理方法のいずれも、生成したマスカー信号が話者に聞こえるように出力されると、話者にもマスカー信号が聞こえてしまうので、会話の妨げになってしまい、円滑に会話することができない。

以上のような問題に鑑みて、音声を発話する話者（以下、「対象話者」と呼ぶ）の音響特徴量の解析を行わない、または、音響特徴量の解析結果が間違っていても、高いマスキング効果を実現できる音響処理装置、音響処理プログラム及び音響処理方法が望まれている。さらに、対象話者の会話を妨害せずに対象話者の発話する音声をマスキングすることができる音響処理装置、音響処理プログラム及び音響処理方法が望まれている。

第１の本発明の音響処理装置は、（１）対象話者が発話した音声を収音するマイクから供給されたマイク入力信号を所定の長さに分割するフレーム分割手段と、（２）前記フレーム分割されたマイク入力信号を蓄積する入力信号蓄積手段と、（３）前記入力信号蓄積手段に蓄積されている過去のフレーム分割したマイク入力信号から、マスカー信号の生成に使用する信号を選択し、選択結果を出力する信号選択手段と、（４）前記マスカー信号の生成に使用する信号を用いて、前記対象話者が発話した音声を聞き取りにくくさせる前記マスカー信号を生成して出力するマスカー信号生成手段とを有することを特徴とする。

第２の本発明の音響処理プログラムは、コンピュータを、（１）対象話者が発話した音声を収音するマイクから供給されたマイク入力信号を所定の長さに分割するフレーム分割手段と、（２）前記フレーム分割されたマイク入力信号を蓄積する入力信号蓄積手段と、（３）前記入力信号蓄積手段に蓄積されている過去のフレーム分割したマイク入力信号から、マスカー信号の生成に使用する信号を選択し、選択結果を出力する信号選択手段と、（４）前記マスカー信号の生成に使用する信号を用いて、前記対象話者が発話した音声を聞き取りにくくさせる前記マスカー信号を生成して出力するマスカー信号生成手段として機能させることを特徴とする。

第３の本発明の音響処理方法は、（１）フレーム分割手段、入力信号蓄積手段、信号選択手段、及びマスカー信号生成手段を有し、（２）前記入力信号蓄積手段は、対象話者が発話した音声を収音するマイクから供給されたマイク入力信号を所定の長さに分割し、（３）前記フレーム分割されたマイク入力信号を蓄積し、（４）前記入力信号蓄積手段に蓄積されている過去のフレーム分割したマイク入力信号から、マスカー信号の生成に使用する信号を選択し、選択結果を出力し、（５）前記マスカー信号を生成に使用する信号を用いて、前記対象話者が発話した音声を聞き取りにくくさせる前記マスカー信号を生成して出力することを特徴とする。

本発明によれば、マスカー信号の生成に使用する信号を蓄積された対象話者自身の過去の音声を使用して生成することで、音響特徴量の解析を行わない、または、音響特徴量の解析結果が間違っていても、音響特性を変化していない信号を使用してマスカー信号を生成することで、高いマスキング効果を実現できる。さらに、対象話者の会話を妨害せずに対象話者の発話する音声をマスキングすることができる。

第１の実施形態に係るサウンドマスキング装置の機能的構成を示すブロック図である。第１の実施形態に係るサウンドマスキング装置のハードウェア構成の例について示したブロック図である。第１の実施形態に係るサウンドマスキング装置で生成したマスカー信号を床面に反射させて出力する際のイメージ図である。第１の実施形態に係るサウンドマスキング装置で生成したマスカー信号を出力するイメージ図である。第２の実施形態に係るサウンドマスキング装置の機能的構成を示すブロック図である。第３の実施形態に係るサウンドマスキング装置の機能的構成を示すブロック図である。第４の実施形態に係るサウンドマスキング装置の機能的構成を示すブロック図である。第４の実施形態に係るサウンドマスキング装置の第三者音声信号ＤＢ（データベース）に第三者音声信号を蓄積する際の構成について示したブロック図である。第５の実施形態に係るサウンドマスキング装置の機能的構成を示すブロック図である。第６の実施形態に係るサウンドマスキング装置の機能的構成を示すブロック図である。

（Ａ）第１の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第１の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。

（Ａ−１）第１の実施形態の構成
図１は、第１の実施形態に係るサウンドマスキング装置１００の機能的構成を示すブロック図である。

サウンドマスキング装置１００は、マイク１０１、マイクアンプ１０２、ＡＤ変換器１０３、スピーカ１０４、スピーカアンプ１０５、ＤＡ変換器１０６、及びサウンドマスキング処理部２００を有している。

マイク１０１は、人の音声や音等の空気振動を電気信号に変換するマイクである。

マイクアンプ１０２は、マイク１０１により受音（収音）された入力信号を増幅するものである。

ＡＤ変換器１０３は、マイクアンプ１０２により増幅された入力信号をアナログ信号からデジタル信号に変換するものである。以下、ＡＤ変換器１０３で変換された信号を「マイク入力信号」とする。

サウンドマスキング処理部２００は、入力されたマイク入力信号や過去のマイク入力信号からマスカー信号を生成し、出力するものである。

ＤＡ変換器１０６は、サウンドマスキング処理部２００から出力された音信号をデジタル信号からアナログ信号に変換するものである。

スピーカアンプ１０５は、アナログ信号を増幅するものである。

スピーカ１０４は、電気信号を空気の振動に変換して音として出力するスピーカである。

次に、サウンドマスキング処理部２００の詳細な構成を説明する。

サウンドマスキング処理部２００は、フレーム分割部２０１、入力信号ＤＢ（データベース）２０２、信号選択部２０３、マスカー信号生成部２０４、音入力端子ＩＮ、及び音出力端子ＯＵＴを有する。

音入力端子ＩＮは、マイク入力信号をサウンドマスキング処理部２００に入力するインタフェース（オーディオインタフェース）である。

フレーム分割部２０１は、サウンドマスキング処理部２００に入力されたマイク入力信号を所定の長さ（処理フレーム）に分割して出力する。フレーム分割部２０１は、一般的に音声を解析するのに適した長さに分割すれば良く、例えば、マイク入力信号を１００［ミリ秒］〜２００［ミリ秒］単位にフレーム分割する。

入力信号ＤＢ２０２は、フレーム分割したマイク入力信号を蓄積する記憶手段である。

信号選択部２０３は、入力信号ＤＢ２０２に蓄積されている過去のフレーム分割したマイク入力信号から、マスカー信号の生成に使用する信号（以下、「マスカー素辺信号」と呼ぶ）を選択し、選択結果を出力する。

マスカー信号生成部２０４は、選択されたマスカー素辺信号を入力信号ＤＢ２０２から複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号を使用してマスカー信号を生成し出力する。

音出力端子ＯＵＴは、生成したマスカー信号をＤＡ変換器１０６に出力するインタフェース（オーディオインターフェース）である。

サウンドマスキング処理部２００は、全てをハードウェア的に構成（例えば、専用ボードやＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）を用いて構築）するようにしても良いし、ソフトウェア的にコンピュータを用いて構成するようにしても良い。サウンドマスキング処理部２００は、例えば、メモリ、及びプロセッサを有するコンピュータにプログラム（実施形態に係る音響処理プログラムを含む）をインストールして構成するようにしても良い。なお、この実施形態では、ＡＤ変換器１０３及びＤＡ変換器１０６を、サウンドマスキング処理部２００の外に配置しているが、サウンドマスキング処理部２００にＡＤ変換器１０３、及びＤＡ変換器１０６を搭載した構成としても良い。

次に、図２では、サウンドマスキング処理部２００をソフトウェア（コンピュータ）的に実現する際の構成について示している。

図２に示すサウンドマスキング処理部２００は、コンピュータ３００を用いてソフトウェア的に構成されている。コンピュータ３００には、プログラム（実施形態の音響処理プログラムを含むプログラム）がインストールされている。なお、コンピュータ３００は、音響処理プログラム専用のコンピュータとしても良いし、他の機能のプログラムと共用される構成としても良い。

図２に示すコンピュータ３００は、プロセッサ３０１、一次記憶部３０２、及び二次記憶部３０３、音入力端子ＩＮ、及び音出力端子ＯＵＴを有している。音入力端子ＩＮ、及び音出力端子ＯＵＴは、図１に示した要素と同じである。

一次記憶部３０２は、プロセッサ３０１の作業用メモリ（ワークメモリ）として機能する記憶手段であり、例えば、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の高速動作するメモリが適用される。

二次記憶部３０３は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）やプログラムデータ（実施形態に係る音響処理プログラムのデータを含む）等の種々のデータを記録する記憶手段であり、例えば、ＦＬＡＳＨメモリやＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の不揮発性メモリが適用される。

この実施形態のコンピュータ３００では、プロセッサ３０１が起動する際、二次記憶部３０３に記録されたＯＳやプログラム（実施形態に係る音響処理プログラムを含む）を読み込み、一次記憶部３０２上に展開して実行する。なお、コンピュータ３００の具体的な構成は図２の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部３０２が不揮発メモリ（例えば、ＦＬＡＳＨメモリ等）であれば、二次記憶部３０３については除外した構成としても良い。

（Ａ−２）第１の実施形態の動作
次に、以上のような構成を有する第１の実施形態におけるサウンドマスキング装置１００の動作（実施形態の音響処理方法）について詳細に説明する。

サウンドマスキング装置１００の動作が開始し、サウンドマスキング装置１００の利用者（図３の対象話者Ｕ１）がマイク１０１に向かつて音声を発話すると、マイク１０１に音声信号が入力される。

マイク１０１に入力されたアナログの音信号は、マイクアンプ１０２で増幅され、ＡＤ変換器１０３でアナログ信号からデジタル信号に変換され、サウンドマスキング処理部２００の音入力端子ＩＮにマイク入力信号ｘ（ｎ）として入力される。なお、マイク入力信号ｘ（ｎ）において、ｎは入力信号の離散的な時間を表すパラメータである。

サウンドマスキング処理部２００の音入力端子ＩＮにマイク入力信号ｘ（ｎ）が入力され始めると、フレーム分割部２０１に入力される。

フレーム分割部２０１は、マイク入力信号ｘ（ｎ）を所定単位に分割する。フレーム分割部２０１は、例えば、以下の（１）式に従い、処理フレームごとに分割する。

（１）式で、ｘ＿ｆｒａｍ（ｌ；ｍ）はフレーム分割したマイク入力信号、ｌはフレーム番号、ｍはフレーム内の離散的な時間（ｍ＝０、１、２、・・・、Ｍ−１）、Ｍはフレーム長である。フレーム分割部２０１は、フレーム分割したマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）を入力信号ＤＢ２０２に出力する。

入力信号ＤＢ２０２は、フレーム分割したマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）を（２）式と（３）式に従い、フレームごとに入力信号ＤＢ２０２に蓄積する。

（２）式で、ＤＢ（ｉ；ｍ）は入力信号ＤＢ、ｉはデータベースのインデックス（ｉ＝０、１、２、・・・、Ｉ−１）、ｍはフレーム内の時間（ｍ＝０、１、２、・・・、Ｍ−１）、Ｍはフレーム長、Ｉはデータベース長である。ｉは（３）式に示すように、入力信号ＤＢにデータが蓄積されるとインクリメン卜する。

信号選択部２０３は、入力信号ＤＢ２０２に蓄積されている過去のフレーム分割したマイク入力信号から、マスカー素辺信号を選択する。信号選択部２０３は、例えば、（４）式に示すように選択結果Ｔ（ｋ）を算出する。

（４）式で、ｋ（ｋ＝１，２，・・・，Ｋ）は変数、Ｋはマスカー素辺信号の選択数（マスカー信号生成時における音声信号の加算回数）、ＭＯＤ（ｉ−ｋ，Ｉ）は、ｉ−ｋをＩで割ったときの剰余を返すＭ０Ｄ関数である。Ｉで割ったときの剰余を返すことで、選択結果Ｔ（ｋ）は０からＩ−１の値になる。例えば、（４）式で、Ｋ＝５のときは、入力信号ＤＢ２０２に蓄積されている５フレーム分のマイク入力信号を選択する。

なお、選択結果Ｔ（ｋ）を算出手法は、種々の方法を広く適用することができ、例えば、（５）式に示すように、マスカー素辺信号をランダムに選択しても良い。

（５）式で、ｒａｎｄ（ｋ）は自然数ｋに対して非負の整数の乱数を生成する関数である。（５）式は、ＭＯＤ関数を使用してｒａｎｄ（ｋ）で生成した乱数をＩで割ったときの剰余を返すことで、選択結果Ｔ（ｋ）は０からＩ−１の値になる。信号選択部２０３は、選択結果Ｔ（ｋ）をマスカー信号生成部２０４に出力する。

マスカー信号生成部２０４は、信号選択部２０３の選択結果Ｔ（ｋ）に基づいて、マスカー素辺信号を入力信号ＤＢ２０２からＫフレーム読み出し、読み出されたＫフレームのマスカー素辺信号からマスカー信号を生成し出力する。マスカー信号の生成手法は、例えば、（６）式に示すように、読み出されたＫフレームのマスカー素辺信号を重畳して生成する。

（６）式で、ｋ（ｋ＝１，２，・・・，Ｋ）は変数、Ｋはマスカー素辺信号の選択数（マスカー信号生成時における音声信号の加算回数）、ｈ（ｌ；ｍ）はマスカー信号である。例えば、（６）式で、Ｋ＝５のときは、選択結果Ｔ（ｋ）に基づき、マスカー素辺信号として入力信号ＤＢ２０２から過去５フレーム分をマスカー素辺信号として読み出し、読み出したマスカー素辺信号を重畳することでマスカー信号ｈ（ｌ；ｍ）を生成する。

なお、マスカー信号ｈ（ｌ；ｍ）の生成手法は、種々の方法を広く適用することができ、例えば、（７）式に示すように、入力信号ＤＢ２０２に蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間反転して重畳することでマスカー信号ｈ（ｌ；ｍ）を生成しても良いし、入力信号ＤＢ２０２に蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間遅延して重畳することでマスカー信号ｈ（ｌ；ｍ）を生成しても良い。

そして、マスカー信号生成部２０４は、（８）式に従い、マスカー信号ｈ（ｌ；ｍ）を出力信号ｙ（ｎ）としてサウンドマスキング処理部２００の音出力端子ＯＵＴに出力する。

サウンドマスキング処理部２００の音出力端子ＯＵＴから出力される信号は、ＤＡ変換器１０６でデジタル信号からアナログ信号に変換され、スピーカアンプ１０５で増幅されてからスピーカ１０４から出力される。

図３、図４は、マイク１０１と、マイク１０１に向かって発話する対象話者Ｕ１と、対象話者Ｕ１の後ろ側に立っている対象話者Ｕ1以外の人（対象話者Ｕ１の発話する音声をマスカー信号で聞き取りづらくする対象の人（以下、「マスキング対象者」と呼ぶ）Ｕ２と、スピーカ１０４との配置関係（スピーカ１０４の配置構成）の例について示した図である。図３、図４では、スピーカから出力される直接音ＤＳ（ＤｉｒｅｃｔＳｏｕｎｄ）の指向性を点線で図示している。また、図３では、直接音が床ＦＲに反射することにより発生する反射音ＲＳ（ＲｅｆｌｅｃｔｅｄＳｏｕｎｄ）の指向性を一点鎖線で図示している。

図３では、スピーカ１０４は、対象話者Ｕ１の前方で膝程度の高さに配置され、スピーカ１０４の振動面（指向性）が下方向で、床ＦＲの表面に対して斜め方向に設置されている。さらに、対象話者Ｕ１の後方の床ＦＲ部分に指向性が向けられた状態となっている。そして、スピーカ１０４から放射されたマスカー信号は図３に示すように、床ＦＲの表面に向けて出力され、床ＦＲに到達すると反射する。これにより、図３に示すようにマスカー信号が反射し、対象話者Ｕ１の後方にいるマスキング対象者Ｕ２にマスカー信号が伝わる。このとき、対象話者Ｕ１が発話する音声の直接音もマスキング対象者Ｕ２に伝わるが、マスカー信号によって、マスクされる。

なお、スピーカ１０４の設置方法は、対象話者Ｕ１にマスカー信号が聞こえないように設置し、且つマスキング対象者Ｕ２にマスカー信号が聞こえるように設置できれば種々の設置方法を広く適用することができる。例えば、図４の（ａ）に示しているように、対象話者Ｕ１の後ろに設置できるスペースがあれば、直接スピーカ１０４の振動面をマスキング対象者Ｕ２に直接向けてマスカー信号を出力するようにしても良いし、図４の（ｂ）に示しているように、床ＦＲにスピーカ１０４を埋め込んで直接スピーカ１０４の振動面をマスキング対象者Ｕ２に直接向けてマスカー信号を出力するようにしても良いし、図４の（ｃ）に示しているように、天井ＣＥにスピーカ１０４を設置して直接スピーカ１０４の振動面をマスキング対象者Ｕ２に直接向けてマスカー信号を出力するようにしても良い。

（Ａ−３）第１の実施形態の効果
第１の実施形態によれば、以下のような効果を奏することができる。

第１の実施形態のサウンドマスキング装置１００は、対象話者Ｕ1の音声を入力信号ＤＢに蓄積し、入力信号ＤＢに蓄積されている過去のフレーム分割されたマイク入力信号を複数フレーム使用してマスカー信号を生成し、出力する。これにより、第１の実施形態のサウンドマスキング装置１００では、マスカー信号の音響特徴が対象話者Ｕ１の音声の音響特徴により近くなることから、マスキング効果が向上し、会話の内容が漏れることを防ぐことができる。言い換えると、第１の実施形態のサウンドマスキング装置１００では、入力信号ＤＢに蓄積されている対象話者Ｕ1の音声信号を用いてマスカー信号を生成することで、対象話者Ｕ1の音響特性の解析を行わなくても、マスカー信号の音響特徴が対象話者Ｕ1の音声信号の音響特徴に近いので、高いマスキング効果が得られる。

さらに、第１の実施形態のサウンドマスキング装置１００は、マスカー信号を再生するスピーカを、対象話者Ｕ1にマスカー信号が聞こえないように設置し、且つマスキング対象者Ｕ２にマスカー信号が聞こえるように設置することで、対象話者Ｕ1の会話を妨害せずに対象話者Ｕ1の発話する音声をマスキングすることができる。

（Ｂ）第２の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第２の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。

（Ｂ−１）第２の実施形態の構成
図５は、第２の実施形態に係るサウンドマスキング装置１００Ａの機能的構成について示したブロック図である。図２では、図１と同一部分又は対応部分には、同一符号又は対応符号を付している。

以下では、第２の実施形態について、第１の実施形態との差異を中心に説明し、第１の実施形態と重複する部分については説明を省略する。

第２の実施形態のサウンドマスキング装置１００Ａでは、サウンドマスキング処理部２００がサウンドマスキング処理部２００Ａに置き換わっている点で、第１の実施形態と異なっている。サウンドマスキング処理部２００Ａでは、マスカー信号生成部２０４が、マスカー信号生成部２０４Ａに置き換わり、さらに、音声区間判定部２０５とＤＢ蓄積判定部２０６が追加されている点で、第１の実施形態と異なっている。

第２の実施形態のサウンドマスキング装置１００Ａのサウンドマスキング処理部２００Ａでは、音声区間判定部２０５とＤＢ蓄積判定部２０６が増えたことにより入力信号ＤＢに蓄積されるフレーム分割されたマイク入力信号とマスカー信号の生成方法が異なる点と、マスカー信号生成部２０４Ａになったことによりフレーム分割されたマイク入力信号の蓄積方法やマスカー信号方法が異なる点が第１の実施形態のサウンドマスキング装置１００と異なる。

音声区間判定部２０５は、フレーム分割されたマイク入力信号が音声区間か非音声区間（音声区間以外の区間）かを判定し、判定結果を出力する。

ＤＢ蓄積判定部２０６は、音声区間判定部２０５の音声区間判定の結果を基に、フレーム分割されたマイク入力信号が音声区間と判定された場合、フレーム分割されたマイク入力信号を入力信号ＤＢ２０２に出力し、非音声区間と判定された場合、フレーム分割されたマイク入力信号を入力信号ＤＢ２０２に出力しない。

マスカー信号生成部２０４Ａは、音声区間判定の結果と選択結果を基に、選択されたマスカー素辺信号を入力信号ＤＢ２０２から複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成し出力する。

（Ｂ−２）第２の実施形態の動作
次に、以上のような構成を有する第２の実施形態におけるサウンドマスキング装置１００Ａの動作（実施形態に係る音響処理方法）について詳細に説明する。

第２の実施形態に係るサウンドマスキング装置１００Ａにおけるサウンドマスキング処理の基本的な動作は、第１の実施形態で説明したサウンドマスキング処理と同様である。

以下では、第１の実施形態と異なる点である音声区間判定部２０５、ＤＢ蓄積判定部２０６、マスカー信号生成部２０４Ａにおける処理動作を中心に詳細に説明する。

フレーム分割部２０１は、マイク入力信号ｘ（ｎ）を処理フレームごとに分割し、フレーム分割したマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）を音声区間判定部２０５とＤＢ蓄積判定部２０６に出力する。

音声区間判定部２０５は、フレーム分割したマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）を用いて、音声区間か非音声区間かを判定する。音声区間か非音声区間かの判定手段は、例えば、（９）式と（１０）式に従い判定する。

（９）式と（１０）式で、ｘ＿ｆｒａｍ（ｌ；ｍ）はフレーム分割したマイク入力信号、ｘ＿ｆｒａｍ＿ａｍｐ（ｌ）はフレーム分割したマイク入力信号の平均振幅値、ＶＡＤ（ｌ）は音声区間判定結果、ＴＨは音声区間の判定に用いられる閾値である。

（９）式は、フレーム分割したマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）の平均振幅値ｘ＿ｆｒａｍ＿ａｍｐ（ｌ）を求める式である。（１０）式は、（９）式で求めたフレーム分割したマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）の平均振幅値ｘ＿ｆｒａｍ＿ａｍｐ（ｌ）が閾値ＴＨより値が大きければ音声区間と判定し音声区間判定結果ＶＡＤ（ｌ）に１を代入し、閾値ＴＨより値が小さければ非音声区間と判定し音声区間判定結果ＶＡＤ（ｌ）に０を代入するという式である。

閾値ＴＨは、音声の有無を判定できれば良く、種々の方法を広く適用することができ、例えば、（１１）式に示すように、サウンドマスキング装置１００Ａが動作し始めた最初の数フレームを無音区間とし、その最初の数フレームの平均振幅値を閾値ＴＨとして使用する固定の閾値ＴＨを用いても良いし、（１２）式に示すように、ｘ＿ｆｒａｍ＿ａｍｐ（ｌ）に時定数フィルタを用いてフレーム毎に変動する閾値ＴＨ（ｌ）を用いても良い。

（１２）式で、ａは時定数フィルタの係数であり、０以上、１以下の値となる。（１２）式において、閾値の更新を遅くしたい場合ａは１に近い値が望ましく（例えばａ＝０．９等の値）、閾値の更新を速くしたい場合ａは０に近い値が望ましい（例えばａ＝０．１等の値）。

なお、音声区間か非音声区間かの判定の手段は、種々の方法を広く適用することができ、例えば、フレーム分割したマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）の自己相関を求めて音声区間か非音声区間か求める等の方法で判定しても良い。音声区間判定部２０５は、音声区間か非音声区間かの判定結果をＤＢ蓄積判定部２０６とマスカー信号生成部２０４Ａに出力する。

ＤＢ蓄積判定部２０６は、音声区間判定部２０５でフレーム分割したマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）が音声区間と判定されたとき（ＶＡＤ(ｌ)＝１のとき）のみ、フレーム分割部２０１から出力されたフレーム分割したマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）を、入力信号ＤＢ２０２に出力し、音声区間判定部２０５でフレーム分割したマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）が非音声区間と判定されたとき（ＶＡＤ(ｌ)＝０のとき）は、フレーム分割したマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）を出力しない。

マスカー信号生成部２０４Ａは、音声区間判定部２０５の音声区間判定結果ＶＡＤ(ｌ)と信号選択部２０３の選択結果Ｔ（ｋ）を基に、選択されたマスカー素辺信号を入力信号ＤＢ２０２から複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成し出力する。マスカー信号生成部２０４Ａは、（６）式と（１３）式に従い、マスカー信号を出力する。

（１３）式で、ｈａ（ｌ；ｍ）はマスカー信号生成部２０４Ａで生成されるマスカー信号である。（１３）式は、音声区間判定部２０５で、マイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）が音声区間と判定されたとき（ＶＡＤ(ｌ)＝１のとき）のみ、信号選択部２０３の選択結果Ｔ（ｋ）を用いてマスカー素辺信号を入力信号ＤＢ２０２から複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号を使用してマスカー信号ｈ（ｌ；ｍ）を生成しｈａ（ｌ；ｍ）に代入し、マイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）が非音声区間と判定されたとき（ＶＡＤ(ｌ)≠１のとき）は、ｈａ（ｌ；ｍ）に無音を代入する。

マスカー信号生成部２０４は、（１４）式に従い、出力信号ｙ（ｎ）を音出力端子ＯＵＴに出力する。

（Ｂ−３）第２の実施形態の効果
第２の実施形態によれば、以下のような効果を奏することができる。

第２の実施形態のサウンドマスキング装置１００Ａでは、音声区間と判定されたときのみ対象話者Ｕ１の音声を入力信号ＤＢ２０２に蓄積することで、対象話者Ｕ１の音声とは関係のない雑音が入力信号ＤＢ２０２に蓄積されてマスカー素辺信号として選択されることがなくなるので、対象話者Ｕ１の音声のみでマスカー信号を生成することができ、高いマスキング効果を維持できる。

また、第２の実施形態のサウンドマスキング装置１００Ａでは、音声区間と判定されたときのみ、入力信号ＤＢに蓄積されている過去のフレーム分割されたマイク入力信号を複数フレーム使用してマスカー信号を生成し、出力している。これにより、音声が入力されたときのみマスカー信号が出力されるように構成することができる。

（Ｃ）第３の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第３の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。

（Ｃ−１）第３の実施形態の構成
図６は、第３の実施形態に係るサウンドマスキング装置１００Ｂの機能的構成について示したブロック図である。図６では、上述の図５と同一部分又は対応部分には、同一符号又は対応符号を付している。

以下では、第３の実施形態について、第１、及び第２の実施形態との差異を中心に説明し、第１と第２の実施形態と重複する部分については説明を省略する。

第３の実施形態のサウンドマスキング装置１００Ｂでは、サウンドマスキング処理部２００Ａがサウンドマスキング処理部２００Ｂに置き換わっている点で、第２の実施形態と異なっている。

サウンドマスキング処理部２００Ｂでは、入力信号ＤＢ２０２と信号選択部２０３とマスカー信号生成部２０４Ａが、それぞれ入力信号ＤＢ２０２Ａと信号選択部２０３Ａとマスカー信号生成部２０４Ｂに置き換わり、さらに、ピッチ推定部２０５とクラス判定部２０８が追加されている点で、第２の実施形態と異なっている。

第３の実施形態のサウンドマスキング装置１００Ｂでは、ピッチ推定部２０５とクラス判定部２０８が増えたことにより、フレーム分割されたマイク入力信号のピッチ推定、フレーム分割されたマイク入力信号の蓄積方法、マスカー信号の生成に使用する信号を選択する方法、マスカー信号の生成方法が異なる点が第２の実施形態と異なる。

ピッチ推定部２０７は、フレーム分割されたマイク入力信号と音声区間判定の結果からフレーム分割されたマイク入力信号のピッチ（音声の高さ）を推定し、推定したピッチを出力する。

クラス判定部２０８は、ピッチ推定部２０７で推定したピッチの結果を基に、フレーム分割されたマイク入力信号を入力信号ＤＢ２０２Ａに蓄積すると判定された場合にのみ、フレーム分割されたマイク入力信号を入力信号ＤＢ２０２Ａのピッチに応じたクラスに出力し、フレーム分割されたマイク入力信号を入力信号ＤＢ２０２Ａに蓄積しないと判定された場合、フレーム分割されたマイク入力信号を入力信号ＤＢ２０２Ａのピッチに応じたクラスに出力しない。

入力信号ＤＢ２０２Ａは、フレーム分割したマイク入力信号をピッチに応じたクラスごとに蓄積する記憶手段である。

信号選択部２０３Ａは、クラスごとに蓄積されている過去のフレーム分割したマイク入力信号から、マスカー素辺信号を選択し、選択結果を出力する。

マスカー信号生成部２０４Ｂは、音声区間判定とピッチ推定の結果と選択結果を基に、選択されたマスカー素辺信号を入力信号ＤＢ２０２Ａのピッチに応じたクラスから複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成して出力する。

なお、第３の実施形態において、第１の実施形態と同様に音声区間判定部２０５を除外した構成としても良い。

（Ｃ−２）第３の実施形態の動作
次に、以上のような構成を有する第３の実施形態におけるサウンドマスキング装置１００Ｂの動作（実施形態に係る音響処理方法）について詳細に説明する。

第３の実施形態に係るサウンドマスキング装置１００Ｂにおけるサウンドマスキング処理の基本的な動作は、第１、及び第２の実施形態で説明したサウンドマスキング処理と同様である。

以下では、第２の実施形態と異なる点であるピッチ推定部２０７、クラス判定部２０８、入力信号ＤＢ２０２Ａ、信号選択部２０３Ａ、マスカー信号生成部２０４Ｂにおける処理動作を中心に詳細に説明する。

フレーム分割部２０１は、マイク入力信号ｘ（ｎ）を処理フレームごとに分割し、フレーム分割したマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）を音声区間判定部２０５、ＤＢ蓄積判定部２０６、ピッチ推定部２０７に出力する。

音声区間判定部２０５は、フレーム分割したマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）を用いて、音声区間か非音声区間かを判定し、音声区間か非音声区間かの判定結果をＤＢ蓄積判定部２０６、ピッチ推定部２０７、マスカー信号生成部２０４Ｂに出力する。

ＤＢ蓄積判定部２０６は、音声区間判定部２０５でフレーム分割したマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）が音声区間と判定されたときのみ、フレーム分割部２０１から出力されたフレーム分割したマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）を、クラス判定部２０８、信号選択部２０３Ａ、マスカー信号生成部２０４Ｂに出力し、音声区間判定部２０５でフレーム分割したマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）が非音声区間と判定されたときは、フレーム分割したマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）を出力しない。

ピッチ推定部２０７は、音声区間判定部２０５でフレーム分割したマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）が音声区間と判定されたときのみ、フレーム分割したマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）のピッチを推定する。ピッチの推定手段は、例えば、（１５）式に従い、フレーム分割したマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）の自己相関関数ｘ＿ｆｒａｍ＿ｃｏｒｒ（ｌ）を求め、（１６）式に従い自己相関関数ｘ＿ｆｒａｍ＿ｃｏｒｒ（ｌ）を用いて推定するようにしても良い。

（１６）式で、ｐｉｔｃｈ（ｌ）は推定したピッチ、ｆｓはサンプリング周波数である。ピッチの推定手法は、種々の方法を広く適用することができ、例えば、フレーム分割したマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）を離散フーリエ変換や高速フーリエ変換を行ってからケプストラム分析を行い、ピッチを算出しても良い。ピッチ推定部２０５は、推定したピッチｐｉｔｃｈ（ｌ）をクラス判定部２０８とマスカー信号生成部２０４Ｂに出力する。

クラス判定部２０８は、ピッチ推定部２０７で推定したピッチを基に、フレーム分割されたマイク入力信号を入力信号ＤＢ２０２Ａに蓄積するか蓄積しないかを判定する。クラス判定部２０８において、入力信号ＤＢ２０２Ａに蓄積するか蓄積しないかを判定手法については限定されないものである。例えば、ピッチ推定部２０７で推定したピッチｐｉｔｃｈ（ｌ）が、１００ＨＺ以下、１０１Ｈｚ〜２００Ｈｚ、２０１Ｈｚ〜３００Ｈｚ、３０１Ｈｚ〜４００Ｈｚ、４０１Ｈｚ〜５００Ｈｚ、５００Ｈｚ以上のように１００Ｈｚの間隔（グリッド）でクラス分けする。そして、１００ＨＺ以下、又は５００Ｈｚ以上の時、入力信号ＤＢ２０２Ａに蓄積しないと判定し、それ以外のときは入力信号ＤＢ２０２Ａに蓄積すると判定するようにしても良い。また、例えば、入力信号ＤＢ２０２Ａでは、周波数があがるほどクラスの周波数間隔（グリッド）を広げるようにしても良い。

クラス判定部２０８は、フレーム分割されたマイク入力信号を入力信号ＤＢ２０２Ａに蓄積すると判定された場合にのみ、フレーム分割されたマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）を入力信号ＤＢ２０２Ａのピッチに応じたクラスに出力し、フレーム分割されたマイク入力信号を入力信号ＤＢ２０２Ａに蓄積しないと判定された場合、フレーム分割されたマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）を入力信号ＤＢ２０２Ａのピッチに応じたクラスに出力しない。

入力信号ＤＢ２０２Ａは、クラス判定部２０８からマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）が出力されたときのみ、出力されたフレーム分割したマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）を（１７）式と（１８）式に従い、ピッチに応じたクラスごとに入力信号ＤＢ２０２Ａに蓄積する。

（１７）式で、ＤＢ’（ｐ；ｉ；ｍ）は入力信号ＤＢ、ｍはフレーム内の離散的な時間（ｍ＝０、１、２、・・・、Ｍ−１）、ｉ（ｐｉｔｃｈ（ｌ））はデータベースのクラスごとのインデックス、Ｉはデータベース長である。ｉ（ｐｉｔｃｈ（ｌ））は（１８）式に示すように、クラスにデータが蓄積されるとインクリメントする。

信号選択部２０３Ａは、入力信号ＤＢ２０２Ａにクラスごとに蓄積されている過去のフレーム分割したマイク入力信号からマスカー素辺信号を選択する。信号選択部２０３Ａは、例えば、（１９）式に示すように選択結果Ｔａ（ｋ）を選択する。

（１９）式で、ｋ（ｋ＝１，２，・・・，Ｋ）は変数、Ｋはマスカー素辺信号の選択数（マスカー信号生成時における音声信号の加算回数）、ＭＯＤ（ｉ−ｋ，Ｉ）は、ｉ−ｋをＩで割ったときの剰余を返すＭ０Ｄ関数である。（１９）式は、Ｉで割ったときの剰余を返すことで、選択結果Ｔａ（ｋ）は０からＩ−１の値になる。

なお、選択結果Ｔａ（ｋ）を算出手法は、種々の方法を広く適用することができ、例えば、（２０）式に示すように、どのフレームを使用するかランダムに選択しても良い。

（２０）式で、ｒａｎｄは自然数ｋに対して乱数を生成する関数である。（２０）式は、ＭＯＤ関数を使用してｒａｎｄ（ｋ）で生成した乱数をＩで割ったときの剰余を返すことで、選択結果Ｔａ（ｋ）は０からＩ−１の値になる。信号選択部２０３Ａは、選択結果Ｔａ（ｋ）をマスカー信号生成部２０４に出力する。

マスカー信号生成部２０４Ｂは、音声区間判定部２０５の音声区間判定結果ＶＡＤ(ｌ)、ピッチ推定部２０７で推定したピッチｐｉｃｔｈ（ｌ）、信号選択部２０３Ａの選択結果Ｔａ（ｋ）を基に、マスカー素辺信号を入力信号ＤＢ２０２Ａのピッチに応じたクラスから複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成し出力する。マスカー信号生成部２０４Ｂは、（２１）式と（２２）式に従い、マスカー信号を出力する。

（２１）式で、ｈｂ（ｌ；ｍ）はマスカー信号を、Ｆ０＿ＭＡＸはピッチの最大値を、（２２）式で、ｈ’（ｌ；ｍ）は入力信号ＤＢから生成されるマスカー信号Ｋはマスカー素辺信号の選択数（マスカー信号生成時における音声の加算回数）をである。（２１）式は、音声区間判定部２０５でマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）が音声区間と判定されとき（ＶＡＤ(ｌ)＝１のとき）、かつ、ピッチ推定部２０７の推定したピッチｐｉｔｃｈ（ｌ）が０Ｈｚより大きく、Ｆ０＿ＭＡＸ以下ときのみ、マスカー信号ｈ’（ｌ；ｍ）を生成し、上記以外の時ときは無音を生成し、ｈｂ（ｌ；ｍ）に代入するという式である。（２２）は、入力信号ＤＢ２０２Ａにピッチに応じたクラスごとに蓄積されている過去のフレーム分割したマイク入力信号を重畳して生成する方法である。

なお、マスカー信号生成部２０４Ｂにおいて、マスカー信号の生成手法は、種々の方法を広く適用することができる。例えば、マスカー信号生成部２０４Ｂでは、入力信号ＤＢ２０２Ａのクラスごとに蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間反転して重畳してからマスカー信号ｈ’（ｌ；ｍ）を生成しても良いし、入力信号ＤＢ２０２に蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間遅延して重畳することでマスカー信号ｈ’（ｌ；ｍ）を生成しても良いし、過去のどのフレームを使用するかランダムに決定してマスカー信号ｈ’（ｌ；ｍ）を生成しても良い。

そして、マスカー信号生成部２０４Ｂは、（２３）式に従い、出力信号ｙ（ｎ）を音出力端子ＯＵＴに出力する。

（Ｃ−３）第３の実施形態の効果
第３の実施形態によれば、以下のような効果を奏することができる。

第３の実施形態のサウンドマスキング装置１００Ｂでは、対象話者Ｕ1の音声をピッチに応じたクラスごとに入力信号ＤＢ２０２Ａに蓄積し、ピッチに応じたクラスごとに入力信号ＤＢに蓄積されている過去のマイク入力信号を複数フレーム使用してマスカー信号を生成し出力する。これにより、第３の実施形態のサウンドマスキング装置１００Ｂでは、マスカー信号と対象話者Ｕ1の音声との音響特徴にさらに近づくので、よりマスキング効果を高めることができる。

（Ｄ）第４の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第４の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。

（Ｄ−１）第４の実施形態の構成
図７は、第４の実施形態に係るサウンドマスキング装置１００Ｃの機能的構成について示したブロック図である。図７では、上述の図６と同一部分又は対応部分には、同一符号又は対応符号を付している。

以下では、第４の実施形態について、第１から第３の実施形態との差異を中心に説明し、第１から第３の実施形態と重複する部分については説明を省略する。

第４の実施形態のサウンドマスキング装置１００Ｃでは、サウンドマスキング処理部２００Ｂがサウンドマスキング処理部２００Ｃに置き換わっている点で、第３の実施形態と異なっている。

サウンドマスキング処理部２００Ｃでは、信号選択部２０３Ａとマスカー信号生成部２０４Ｂが信号選択部２０３Ｂとマスカー信号生成部２０４Ｃに置き換わり、さらに、第三者音声信号ＤＢ２０９と使用ＤＢ判定部２１０が追加されている点で、第１から第３の実施形態と異なっている。

第４の実施形態のサウンドマスキング装置１００Ｃでは、第三者音声信号ＤＢ２０９と使用ＤＢ判定部２１０が増えたことにより、第三者音声信号ＤＢ２０９に第三者音声信号を蓄積する方法、サウンドマスキング装置１００Ｃが動作した時に使用するＤＢ、マスカー信号の生成に使用する信号を選択する方法、マスカー生成方法が異なる点が第１から第３の実施形態と異なる。

第三者音声信号ＤＢ２０９は、例えば、事前にサンプルとなる音声信号（以下、「第三者音声信号」と呼ぶ）を蓄積しておき、蓄積した第三者の音声信号をフレーム分割し、フレーム分割された第三者音声信号をピッチに応じたクラスに分けて蓄積したデータベースである。

使用ＤＢ判定部２１０は、入力信号ＤＢ２０２Ａの各クラスに、フレーム分割されたマイク入力信号が所定量以上（十分）蓄積されているか否かを判定し、その判定結果を出力する。

信号選択部２０３Ｂは、入力信号ＤＢ２０２Ａ、又は第三者音声信号ＤＢ２０９にクラスごとに蓄積されている過去のフレーム分割したマイク入力信号から、マスカー素辺信号を選択し、選択結果を出力する。

マスカー信号生成部２０４Ｃは、音声区間判定とピッチ推定の結果と使用ＤＢ判定結果と選択結果を基に、入力信号ＤＢ２０２Ａに所定量以上蓄積されていると判定されたときは入力信号ＤＢ２０２Ａ、入力信号ＤＢ２０２Ａに所定量以上蓄積されていないと判定されたときは第三者音声信号ＤＢ２０９を選択し、マスカー素辺信号を選択されたデータベース（以下、選択したデータベースを「選択データベース」と呼ぶ）のピッチに応じたクラスから複数フレーム読み出し、読み出された複数フレームからマスカー素辺信号からマスカー信号を生成して出力する。

なお、第４の実施形態において、ピッチ推定部２０５を除外し、入力信号ＤＢ２０２Ａ、又は第三者音声信号ＤＢ２０９においてクラス分けせずに蓄積するようにしても良い。また、第４の実施形態において、音声区間判定部２０５を除外するようにしても良い。

（Ｄ−２）第４の実施形態の動作
次に、以上のような構成を有する第４の実施形態におけるサウンドマスキング装置１００Ｃの動作（実施形態に係る音響処理方法）について詳細に説明する。

第４の実施形態に係るサウンドマスキング装置１００Ｃにおけるサウンドマスキング処理の基本的な動作は、第１から第３の実施形態で説明したサウンドマスキング処理と同様である。

以下では、第１から第３の実施形態と異なる点である第三者音声信号ＤＢ２０９、使用ＤＢ判定部２１０、信号選択部２０３Ｂ、マスカー信号生成部２０４Ｃにおける処理動作を中心に詳細に説明する。

サウンドマスキング装置１００Ｃのサウンドマスキング処理部２００Ｃでは、サウンドマスキング処理を行う前に、第三者音声信号ＤＢ２０９へ音声信号の蓄積を行う。

例えば、図８に示すように、事前に音声信号のサンプルを蓄積したデータベース（例えば、市販されている音声信号のデータベース等）により構成された第三者音声信号サンプルデータＡＳを、サウンドマスキング処理部２００Ｃに入力することで第三者音声信号ＤＢ２０９を構築する。

図８では、第三者音声信号サンプルデータＡＳに基づく音声信号をサウンドマスキング処理部２００Ｃに入力し、サウンドマスキング装置１００Ｃが動作を開始して、第三者音声信号サンプルデータＡＳに基づく音声信号について、上記の各実施形態と同様にフレーム分割、音声区間判定、ピッチ推定、ＤＢ蓄積判定、クラス判定を行い、第三者音声信号ＤＢ２０９に蓄積する。

なお、上記の各実施形態の入力信号ＤＢ２０２、２０２Ａの蓄積処理と同様の処理により、第三者音声信号ＤＢ２０９を構築するようにしても良い。

また、第三者音声信号サンプルデータＡＳが記録されるデータ記録媒体は限定されないものである。

さらに、第三者音声信号ＤＢ２０９を構築する際のサンプルとしては、予め録音された第三者音声信号サンプルデータＡＳではなく、マイク１０１、マイクアンプ１０２、及びＡＤ変換器１０３を音入力端子ＩＮに接続して、複数の人物に発話して蓄積（マイク１０１を介して第三者音声信号のサンプルを蓄積）するようにしても良いし、別のＰＣ等で処理して作成したデータ（第三者音声信号のサンプルデータ）を使用（例えば、通信やデータ記録媒体によりコピー）するようにしても良い。

そして、第三者音声信号ＤＢ２０９に第三者の音声信号に基づくデータが十分に蓄積（所定以上の量のデータが蓄積）された段階でサウンドマスキング装置１００Ｃは、第三者音声信号ＤＢ２０９の準備処理を終了し、サウンドマスキング処理が開始するまで一時停止する。

なお、第三者音声信号ＤＢ２０９に第三者の音声信号に基づくデータが十分に蓄積（所定以上の量のデータが蓄積）された段階でサウンドマスキング装置１００Ｃは、第三者音声信号ＤＢ２０９の準備処理を終了し、サウンドマスキング処理を開始するようにしても良い。

このとき、第三者音声信号ＤＢ２０９に所定以上の量のデータが蓄積されたか否かを判定する方法は限定されないものであるが、使用ＤＢ判定部２１０を用いた判定処理を行うようにしても良い。

サウンドマスキング装置１００Ｃがサウンドマスキング処理を開始し、対象話者Ｕ１がマイク１０１に向かつて音声を発話すると、マイク１０１に入力される。

マイク１０１に入力されたアナログの音信号は、マイクアンプ１０２で増幅され、ＡＤ変換器１０３でアナログ信号からデジタル信号に変換され、サウンドマスキング処理部２００Ｃの音入力端子ＩＮにマイク入力信号ｘ（ｎ）として入力される。

サウンドマスキング処理部２００Ｃの音入力端子ＩＮにマイク入力信号ｘ（ｎ）が入力され始めると、フレーム分割部２０１に入力される。

フレーム分割部２０１は、マイク入力信号ｘ（ｎ）を、処理フレームごとに分割し、フレーム分割したマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）を音声区間判定部２０５とＤＢ蓄積判定部２０６とピッチ推定部２０７に出力する。

音声区間判定部２０５は、フレーム分割したマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）を用いて、音声区間か非音声区間かを判定し、音声区間か非音声区間かの判定結果をＤＢ蓄積判定部２０６、ピッチ推定部２０７、マスカー信号生成部２０４Ｃに出力する。

ＤＢ蓄積判定部２０６は、音声区間判定部２０５でフレーム分割したマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）が音声区間と判定されたときのみ、フレーム分割部２０１から出力されたフレーム分割したマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）を、クラス判定部２０８信号選択部２０３Ｂ、マスカー信号生成部２０４Ｃに出力し、音声区間判定部２０５でフレーム分割したマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）が非音声区間と判定されたときは、フレーム分割したマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）を出力しない。

ピッチ推定部２０７は、音声区間判定部２０５でマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）が音声区間と判定されたときのみ、フレーム分割したマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）のピッチを推定し、推定したピッチをマスカー信号生成部２０４Ｃとピッチ推定部２０７に出力する。

クラス判定部２０８は、ピッチ推定部２０７で推定したピッチを基に、フレーム分割されたマイク入力信号を入力信号ＤＢ２０２Ａに蓄積すると判定された場合にのみ、フレーム分割されたマイク入力信号を入力信号ＤＢ２０２Ａのピッチに応じたクラスに出力して蓄積する。

使用ＤＢ判定部２１０は、入力信号ＤＢ２０２Ａの各クラスに過去のフレーム分割したマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）が所定以上の量のデータが蓄積（十分蓄積）されているか判定し、判定結果を出力する。使用ＤＢ判定部２１０は、例えば、以下の（２４）式に従って、入力信号ＤＢ２０２Ａにフレーム分割したマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）が所定以上の量が蓄積されているか否かを判定する。

（２４）式で、ｆｌａｇ（ｌ）は、判定結果である。（２４）式は、所定以上の量のデータが蓄積されている場合は、判定結果ｆｌａｇ（ｌ）に１を代入し、所定以上の量のデータが蓄積（十分蓄積）されていない場合は判定結果ｆｌａｇ（ｌ）に０を代入する。

なお、使用ＤＢ判定部２１０において、入力信号ＤＢ２０２Ａに所定以上の量のデータが蓄積されているか否かの判断手法は、種々の方法を広く適用することができる。例えば、使用ＤＢ判定部２１０フレーム分割したマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）が入力信号ＤＢに蓄積される回数をカウントし、カウント数が閾値を超えた場合、所定以上のデータが蓄積されていると判定しても良いし、クラス毎に蓄積される回数をカウントし、全てのクラスについてカウント数が閾値を超えた場合、十分蓄積されていると判定しても良い。

また、使用ＤＢ判定部２１０において、入力信号ＤＢ２０２Ａに所定以上の量のデータが蓄積されているか否かの判断開始方法は、種々の方法を広く適用することができる。例えば、サウンドマスキング装置１００Ｃの動作が開始してから判定を開始しても良いし、サウンドマスキング装置１００Ｃの動作が開始して所定時間経過した時から判定を開始するようにしても良い。そして、使用ＤＢ判定部２１０は、信号選択部２０３Ｂに判定結果ｆｌａｇ（ｌ）を出力する。

信号選択部２０３Ｂは、使用ＤＢ判定部２１０から出力された判定結果ｆｌａｇ（ｌ）から入力信号ＤＢ２０２Ａ、又は第三者音声信号ＤＢ２０９にクラスごとに蓄積されている過去のフレーム分割したマイク入力信号からマスカー素辺信号を選択する。信号選択部２０３Ａは、例えば、（２５）式に示すように選択結果Ｔｂ（ｋ）を選択する。

（２５）式で、ｋ（ｋ＝１，２，・・・，Ｋ）は変数、Ｋはマスカー素辺信号の選択数（マスカー信号生成時における音声信号の加算回数）、ＭＯＤ（ｉ−ｋ，Ｉ）は、ｉ−ｋをＩで割ったときの剰余を返すＭ０Ｄ関数である。Ｉで割ったときの剰余を返すことで、選択結果Ｔｂ（ｋ）は０からＩ−１の値になる。（２５）式は、使用ＤＢ判定部２１０で、入力信号ＤＢ２０２Ａに所定量以上蓄積されていないと判定されたとき（ｆｌａｇ（ｌ）＝０のとき）は、第三者音声信号ＤＢ２０９からマスカー素辺信号を選択し、入力信号ＤＢ２０２Ａに所定量以上蓄積されていると判定されたとき（ｆｌａｇ（ｌ）＝０以外のとき）は、入力信号ＤＢ２０２Ａからマスカー素辺信号を選択するという式である。

なお、選択結果Ｔｂ（ｋ）を算出手法は、種々の方法を広く適用することができ、例えば、（２６）式に示すように、どのフレームを使用するかランダムに選択しても良い。

（２６）式で、ｒａｎｄは自然数ｋに対して乱数を生成する関数である。（２６）式は、ＭＯＤ関数を使用してｒａｎｄ（ｋ）で生成した乱数をＩで割ったときの剰余を返すことで、選択結果Ｔｂ（ｋ）は０からＩ−１の値になる。信号選択部２０３Ｂは、選択結果Ｔｂ（ｋ）をマスカー信号生成部２０４に出力する。

マスカー信号生成部２０４Ｃは、音声区間判定部２０５の音声区間判定結果ＶＡＤ(ｌ)、ピッチ推定部２０７で推定したピッチｐｉｃｔｈ（ｌ）、信号選択部２０３Ｂの選択結果Ｔｂ（ｋ）、使用ＤＢ判定部２１０の判定結果ｆｌａｇ（ｌ）に基に、入力信号ＤＢ２０２Ａに所定量以上蓄積されていると判定されたときは入力信号ＤＢ２０２Ａ、入力信号ＤＢ２０２Ａに所定量以上蓄積されていない判定されたときは第三者音声信号ＤＢ２０９を選択し、マスカー素返信号を選択データベースのピッチに応じたクラスから複数フレーム読み出す。そして、読み出された複数フレームからマスカー信号を生成し出力する。マスカー信号生成部２０４Ｃは、例えば、（２７）式と（２８）式に従い、マスカー信号を出力する。

（２７）式で、ｈｃ（ｌ；ｍ）はマスカー信号を、Ｆ０＿ＭＡＸはピッチの最大値を、（２８）式で、ＤＢ２（ｐ；ｌ；ｍ）は第三者音声信号ＤＢ、ｈ’’（ｌ；ｍ）は第三者音声信号ＤＢと入力信号ＤＢから生成されるマスカー信号、Ｋはマスカー素辺信号の選択数（マスカー信号生成時における音声の加算回数）である。（２７）式は、音声区間判定部２０５でマイク入力信号ｘ＿ｆｒａｍ（ｌ；ｍ）が音声区間と判定されとき（ＶＡＤ(ｌ)＝１のとき）、かつ、ピッチ推定部２０７の推定したピッチｐｉｔｃｈ（ｌ）が０Ｈｚより大きく、Ｆ０＿ＭＡＸ以下ときのみ、マスカー信号ｈ’’（ｌ；ｍ）を生成し、上記以外の時ときは無音を生成しｈｃ（ｌ；ｍ）に代入するという式である。（２８）は、使用ＤＢ判定部２１０で、入力信号ＤＢ２０２Ａに所定量以上蓄積されていないと判定されたとき（ｆｌａｇ（ｌ）＝０のとき）は、マスカー素辺信号を、第三者音声信号ＤＢ２０９から複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成し、入力信号ＤＢ２０２Ａに所定量以上蓄積されていると判定されたとき（ｆｌａｇ（ｌ）＝０以外のとき）は、マスカー素辺信号を入力信号ＤＢ２０２Ａから複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成する。

なお、マスカー信号生成部２０４Ｃにおいて、マスカー信号の生成手法は、種々の方法を広く適用することができる。例えば、マスカー信号生成部２０４Ｃでは、選択データベースのピッチに応じたクラスごとに蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間反転して重畳してからマスカー信号ｈ’’（ｌ；ｍ）を生成しでも良いし、選択データベースのピッチに応じたクラスごとに蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間遅延して重畳することでマスカー信号ｈ’’（ｌ；ｍ）を生成しても良いし、過去のどのフレームを使用するかランダムに決定してマスカー信号ｈ’’（ｌ；ｍ）を生成しても良い。

そして、マスカー信号生成部２０４Ｃは、（２９）式に従い、生成したマスカー信号ｈｃ（ｌ；ｍ）を出力信号ｙ（ｎ）として音出力端子ＯＵＴに出力する。

（Ｄ−３）第４の実施形態の効果
第４の実施形態によれば、以下のような効果を奏することができる。

第４の実施形態のサウンドマスキング装置１００Ｃは、動作開始時には第三者音声信号ＤＢ２０９を使用してマスカー信号を生成して出力し、入力信号ＤＢ２０２Ａに入力信号が十分蓄積されたら、入力信号ＤＢ２０２Ａに蓄積されている過去のマイク入力信号を複数フレーム使用してマスカー信号を生成し出力する。これにより、サウンドマスキング装置１００Ｃでは、動作開始時から音響特徴が対象話者Ｕ1の音声の音響特徴に近いマスカー信号を生成できるので、よりマスキング効果を高めることができる。

（Ｅ）第５の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第５の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。

（Ｅ−１）第５の実施形態の構成
図９は、第５の実施形態に係るサウンドマスキング装置１００Ｄの機能的構成について示したブロック図である。図９では、上述の図１と同一部分又は対応部分には、同一符号又は対応符号を付している。

以下では、第５の実施形態について、第１の実施形態との差異を中心に説明し、第１の実施形態と重複する部分については説明を省略する。

第５の実施形態のサウンドマスキング装置１００Ｄでは、サウンドマスキング処理部２００がサウンドマスキング処理部２００Ｄに置き換わっている点で、第１の実施形態と異なっている。サウンドマスキング処理部２００Ｄでは、マスカー信号生成部２０４がマスカー信号生成部２０４Ｄに置き換わっている点で第１の実施形態と異なっている。

第５の実施形態のサウンドマスキング装置１００Ｄは、マスカー信号生成部２０４Ｄのマスカー信号の生成方法が異なる点が第１の実施形態のサウンドマスキング装置１００と異なる。

マスカー信号生成部２０４Ｄは、選択されたマスカー素辺信号を入力信号ＤＢ２０２から複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成し出力する。

（Ｅ−２）第５の実施形態の動作
次に、以上のような構成を有する第５の実施形態におけるサウンドマスキング装置１００Ｄの動作（実施形態に係る音響処理方法）について詳細に説明する。

第５の実施形態に係るサウンドマスキング装置１００Ｄにおけるサウンドマスキング処理の基本的な動作は、第１の実施形態で説明したサウンドマスキング処理と同様である。

以下では、第１の実施形態と異なる点であるマスカー信号生成部２０４Ｄにおける処理動作を中心に詳細に説明する。

マスカー信号生成部２０４Ｄは、入力信号ＤＢ２０２に蓄積されている過去のフレーム分割したマイク入力信号を使用してマスカー信号を生成する。マスカー信号生成部２０４Ｄが行うマスカー信号の生成手法としては、例えば、入力信号ＤＢ２０２に蓄積されているマイク入力信号に所定量の遅延を与えて重畳することで疑似的にエコー（以下、「疑似エコー」と呼ぶ）を生成し、マスカー信号として使用する手法が挙げられる。

マスカー信号生成部２０４Ｄは、疑似エコーを生成し、生成した疑似エコーをマスカー信号として出力する。疑似エコーは、例えば、（３０）式、（３１）式に従い、疑似エコーを生成する。

（３０）式、（３１）式で、ｃ（ｃ＝１、２、・・・、Ｃ）はインデックスを、Ｃは疑似エコー生成時における音声の加算回数、ｐ（１≦ｐ≦（Ｍ−１））は疑似エコーを生成する時の入力信号ＤＢ２０２に蓄積されている過去のフレーム分割したマイク入力信号をどれだけ遅延させるかのパラメー夕、αは減表係数（０．０＜α＜１．０）である。（３１）式は、入力信号ＤＢ２０２に蓄積されている過去のフレーム分割したマイク入力信号を複数フレーム読み出しを時間的にずらして減衰係数を乗算してから重畳して生成される信号である。疑似エコーの遅延時間は、例えば、０．１［秒］から１．０［秒］（４８ｋＨｚサンプリングで約４８００［サンプル］から４８０００［サンプル］）程度としても良い。例えば、（３０）式で、Ｃ＝３、ｐ＝５０、α＝０．５のときは、入力信号ＤＢ２０２に蓄積されている過去１フレーム前のマイク入力信号と、入力信号ＤＢ２０２に蓄積されている過去２フレーム前のマイク入力信号を５０サンプル進めて減衰係数α（＝０．５）を乗算した信号と、入力信号ＤＢ２０２に蓄積されている過去３フレーム前のマイク入力信号を１００サンプル進めて、減衰係数α^２（＝０．２５）を乗算した信号を重畳することで疑似エコーｅ（ｌ；ｍ）を生成することを示す。

なお、マスカー信号生成部２０４Ｄにおける疑似エコーの生成手法は、種々の方法を広く適用することができる。マスカー信号生成部２０４Ｄでは、例えば、（３２）式と（３３）式に示すように、入力信号ＤＢ２０２に蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間反転した信号を使用して疑似エコーｅ（ｌ；ｍ）を生成しても良いし、過去のどのフレームを使用するかランダムに決定して疑似エコーｅ（ｌ；ｍ）を生成しても良い。

そして、マスカー信号生成部２０４Ｄは、（３４）式に従い、生成した疑似エコーｅ（ｌ；ｍ）を出力信号ｙ（ｎ）として音出力端子ＯＵＴに出力する。

（Ｅ−３）第５の実施形態の効果
第５の実施形態によれば、以下のような効果を奏することができる。

第５の実施形態のサウンドマスキング装置１００Ｄは、対象話者Ｕ１の音声を入力信号ＤＢに蓄積し、入力音声信号ＤＢに蓄積されている過去のフレーム分割されたマイク入力信号を複数フレーム使用して疑似エコーを生成し、疑似エコーをマスカー信号として出力する。これにより、サウンドマスキング装置１００Ｄでは、マスカー信号の音響特徴が対象話者Ｕ1の音声の音響特徴により近くなることから、マスキング効果が向上し、会話の内容が漏れることを防ぐことができる。言い換えると、第５の実施形態のサウンドマスキング装置１００でも、入力信号ＤＢに蓄積されている対象話者Ｕ1の音声信号を用いてマスカー信号を生成することで、対象話者Ｕ1の音響特性の解析を行わなくても、マスカー信号の音響特徴が対象話者Ｕ1の音声信号の音響特徴に近くなるので、高いマスキング効果が得られる。

（Ｆ）第６の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第６の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。

（Ｆ−１）第６の実施形態の構成
図１０は、第６の実施形態に係るサウンドマスキング装置１００Ｅの機能的構成について示したブロック図である。図１０では、上述の図９と同一部分又は対応部分には、同一符号又は対応符号を付している。

以下では、第５の実施形態について、第５の実施形態との差異を中心に説明し、第５の実施形態と重複する部分については説明を省略する。

第６の実施形態のサウンドマスキング装置１００Ｅでは、サウンドマスキング処理部２００Ｄがサウンドマスキング処理部２００Ｅに置き換わっている点で、第５の実施形態と異なっている。サウンドマスキング処理部２００Ｅは、フレーム分割部２０１、第１の入力信号ＤＢ２１１、第２の入力信号ＤＢ２１２、第１の信号選択部２１３、第２の信号選択部２１４、第１のマスカー生成部２１５、第２のマスカー生成部２１６、及びマスカー信号ミキシング部２１７を有している。

第６の実施形態のサウンドマスキング装置１００Ｅでは、マスカー信号の生成方法が、第１の実施形態、及び第５の実施形態と異なっている。具体的には、サウンドマスキング処理部２００Ｅは、入力されたマイク入力信号から２種類のマスカー信号を生成し、重畳した信号をマスカー信号として出力する。

第１の入力信号ＤＢ２１１、第２の入力信号ＤＢ２１２は、第１の実施形態の入力信号ＤＢ２０２と同様のものであるため詳しい説明を省略する。また、第１の信号選択部２１３、第２の信号選択部２１４も、第１の実施形態の信号選択部２０３と名前が異なるだけで同様のものであるため詳しい説明を省略する。

第１のマスカー生成部２１５は、後述する第２のマスカー生成部２１６と異なる方法で、第１の入力信号ＤＢ２１１からマスカー信号を生成し出力する。

第２のマスカー生成部２１６は、第１のマスカー生成部２１５と異なる方法で、第２の入力信号ＤＢ２１２からマスカー信号を生成し出力する。

マスカー信号ミキシング部２１７は、各マスカー信号生成部から出力されたマスカー信号をミキシングして最終的に出力するマスカー信号を生成する。

第１の入力信号ＤＢ２１１と第２の入力信号ＤＢ２１２には、両法のＤＢに同様のデータ（例えば、第１の入力信号ＤＢ２１１と第２の入力信号ＤＢ２１２に第１の実施形態における入力信号ＤＢ２０２と同様のデータ）を蓄積するようにしても良いし、異なるデータ（例えば、第１の入力信号ＤＢ２１１は、第１の実施形態における入力信号ＤＢ２０２、第２の入力信号ＤＢ２１２は、第３の実施形態における入力信号ＤＢ２０２Ａと同様のデータ）を蓄積するようにしても良い。

（Ｆ−２）第６の実施形態の動作
次に、以上のような構成を有する第６の実施形態におけるサウンドマスキング装置１００Ｅの動作（実施形態に係る音響処理方法）について詳細に説明する。

第６の実施形態に係るサウンドマスキング装置１００Ｅにおけるサウンドマスキング処理の基本的な動作は、第５の実施形態で説明したサウンドマスキング処理と同様である。

本発明の第６の実施形態に係るサウンドマスキング装置１００Ｅの動作を詳細に説明する。

第１のマスカー生成部２１５は、第１の入力信号ＤＢ２１１に蓄積されている過去のフレーム分割したマイク入力信号を使用して第２のマスカー生成部２１６とは異なる方法でマスカー信号を生成する。

第２のマスカー生成部２１６は、第２の入力信号ＤＢ２１２に蓄積されている過去のフレーム分割したマイク入力信号を使用して第１のマスカー生成部２１５とは異なる方法でマスカー信号を生成する。

例えば、第１のマスカー生成部２１５は、（６）式、又は（７）式に示すようにマスカー信号ｈ（ｌ；ｍ）を生成し、第２のマスカー生成部２１６は、（３２）式、又は（３４）式に示すような疑似エコーｅ（ｌ；ｍ）をマスカー信号として生成するようにしても良い。

マスカー信号ミキシング部２１７は、第１のマスカー生成部２１５、及び第２のマスカー生成部２１６から出力されたマスカー信号をミキシングし、マスカー信号ｍｉｘ（ｌ；ｍ）として出力する。マスカー信号ミキシング部２１７は、例えば、（３５）式に基づいて、第１のマスカー生成部２１５、及び第２のマスカー生成部２１６から出力されたマスカー信号をミキシングするようにしても良い。

（３５）式で、β（０．０≦β≦１．０）はどちらのマスカー信号を多く使用するかのパラメータである。第１のマスカー生成部２１５のマスカー信号を多く使用したい場合、βは１に近い値が望ましく（例えば、β＝０．９等の値）、第２のマスカー生成部２１６のマスカー信号を多く使用したい場合、βは１に近い値が望ましい（例えば、β＝０．１等の値）。

マスカー信号ミキシング部２１７は、（３６）式に従い、ミキシングしたマスカー信号ｍｉｘ（ｌ；ｍ）を出力信号ｙ（ｎ）として出力する。

（Ｆ−３）第６の実施形態の効果
第６の実施形態によれば以下のような効果を奏することができる。

第６の実施形態のサウンドマスキング装置１００Ｅでは、対象話者Ｕ１の音声を第１の入力信号ＤＢ２１１及び第２の入力信号ＤＢ２１２に蓄積し、各入力信号ＤＢに蓄積されている過去のマイク入力信号を複数フレーム使用し、それぞれ異なる方法でマスカー信号を生成し、ミキシングする量を調節してミキシングし出力する。これにより、第６の実施形態のサウンドマスキング装置１００Ｅでは、対象話者Ｕ１にマスキング効果が高い方式のマスカー音のミキシング量を調節できるので、よりマスキング効果を高めることができる。

（Ｇ）他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。

（Ｇ−１）例えば、本発明のサウンドマスキング装置を電話会議で周囲の対象者以外の人に対して、会話の内容が漏れることを防止するする装置に搭載されるようにしても良い。この場合、サウンドマスキング装置において、対象話者Ｕ１は電話会議で発話している人となる。

（Ｇ−２）上記の各実施形態において、サウンドマスキング装置の、サウンドマスキング部は、ネットワーク上の処理装置（例えば、サーバ等）で処理される構成としても良い。

（Ｇ−３）上記の各実施形態において、サウンドマスキング装置には、オーディオデバイス（マイク、マイクアンプ、ＡＤ変換器、スピーカ、スピーカアンプ、及びＤＡ変換器）が含まれる構成として説明したが、サウンドマスキング装置についてオーディオデバイスを除外した構成として製造し、実際に使用する現場でオーディオデバイスを別途接続するようにしても良い。すなわち、サウンドマスキング装置には、少なくともサウンドマスキング処理部が含まれる構成としても良い。

１００、１００Ａ、１００Ｂ、１００Ｃ、１００Ｄ、１００Ｅ…サウンドマスキング装置、１０１…マイク、１０２…マイクアンプ、１０３…ＡＤ変換器、１０４…スピーカ、１０５…スピーカアンプ、１０６…ＤＡ変換器、１０７…スピーカ、２００、２００Ａ、２００Ｂ、２００Ｃ、２００Ｄ、２００Ｅ…サウンドマスキング処理部、２０１…フレーム分割部、２０２、２０２Ａ…入力信号ＤＢ、２０３、２０３Ａ、２０３Ｂ…信号選択部、２０４、２０４Ａ、２０４Ｂ、２０４Ｃ、２０４Ｄ…マスカー信号生成部、２０５…音声区間判定部、２０６…ＤＢ蓄積判定部、２０７…ピッチ推定部、２０８…クラブ判定部、２０９…第三者音声信号ＤＢ、２１０…使用ＤＢ判定部、２１１…第１の入力信号ＤＢ、２１２…第２の入力信号ＤＢ、２１３…第１の信号選択部、２１６…第２の信号選択部、２１５…第１のマスカー生成部、２１６…第２のマスカー生成部、２１７…マスカー信号ミキシング部、３００…コンピュータ、３０１…プロセッサ、３０２…一次記憶部、３０３…二次記憶部。

Claims

対象話者が発話した音声を収音するマイクから供給されたマイク入力信号を所定の長さに分割するフレーム分割手段と、
前記フレーム分割されたマイク入力信号を蓄積する入力信号蓄積手段と、
前記入力信号蓄積手段に蓄積されている過去のフレーム分割したマイク入力信号から、マスカー信号の生成に使用する信号を選択し、選択結果を出力する信号選択手段と、
前記マスカー信号の生成に使用する信号を用いて、前記対象話者が発話した音声を、聞き取りにくくさせる前記マスカー信号を生成して出力するマスカー信号生成手段と
を有することを特徴とする音響処理装置。
前記マスカー信号生成手段が出力した前記マスカー信号を前記対象話者以外のマスキング対象者に向けて放出するスピーカをさらに有することを特徴とする請求項１に記載の音響処理装置。
前記マスカー信号生成手段が出力した前記マスカー信号を反射面に反射させ、前記反射面を反射した前記反射音が前記マスキング対象者の方向に向くように配置されているスピーカをさらに有することを特徴とする請求項１に記載の音響処理装置。
マイク入力信号が音声区間であるか非音声区間であるかを判定する音声区間判定部をさらに備え、
前記入力信号蓄積手段は、前記音声区間と判定されたときのみ、マイク入力信号を蓄積する
ことを特徴とする請求項１〜３のいずれかに記載の又は請求項２に記載の音響処理装置。
マイク入力信号のピッチを推定するピッチ推定手段をさらに備え、
前記入力信号蓄積手段は、マイク入力信号を前記ピッチ推定手段が推定したピッチに応じて複数のクラスのいずれかに振り分けて蓄積し、
前記マスカー信号生成手段は、前記入力信号蓄積手段から前記ピッチ推定手段が推定したピッチに応じたクラスのマイク入力信号を用いて、マスカー信号を生成する
ことを特徴とする請求項１〜４のいずれかに記載の音響処理装置。
前記対象話者とは異なる第三者が発話した音声を収音した第三者音声信号を蓄積している第三者信号蓄積手段と、
前記入力信号蓄積手段に、所定以上の量のマイク入力信号が蓄積されているか否かを判定する蓄積判定手段とをさらに備え、
前記マスカー信号生成手段は、前記蓄積判定手段で、前記入力信号蓄積手段に、所定以上の量のマイク入力信号が蓄積されていないと判定されている間だけ、前記第三者信号蓄積手段に蓄積されている第三者音声信号を用いてマスカー信号を生成することを特徴とする請求項１〜５のいずれかに記載の音響処理装置。
前記入力信号蓄積手段は、複数のフレームに分割されたマイク入力信号を蓄積しており、
前記マスカー信号生成手段は、前記入力信号蓄積手段に蓄積された複数のフレームのマイク入力信号を重畳した信号、又は、前記入力信号蓄積手段に蓄積された複数のフレームの前記入力信号を時間処理して重畳した信号をマスカー信号として出力する
ことを特徴とする請求項１に記載の音響処理装置。
前記マスカー信号生成手段は、前記入力信号蓄積手段に蓄積されているマイク入力信号に所定量の遅延を与えて疑似エコーを生成し、生成した疑似エコーをマスカー信号として出力することを特徴とする請求項１に記載の音響処理装置。
前記入力信号蓄積手段は、複数のフレームに分割されたマイク入力信号を蓄積しており、
前記マスカー信号生成手段は、
前記入力信号蓄積手段に蓄積された複数のフレームのマイク入力信号を重畳した信号、又は、前記入力信号蓄積手段に蓄積された複数のフレームの前記入力信号を時間処理して重畳した信号を第１のマスカー信号として生成し、
前記入力信号蓄積手段に蓄積されているマイク入力信号に所定量の遅延を与えて疑似エコーを生成し、生成した疑似エコーを第２のマスカー信号として生成し、
前記第１のマスカー信号と前記第２のマスカー信号とを重畳した信号をマスカー信号として生成して出力する
ことを特徴とする請求項１に記載の音響処理装置。
コンピュータを、
対象話者が発話した音声を収音するマイクから供給されたマイク入力信号を所定の長さに分割するフレーム分割手段と、
前記フレーム分割されたマイク入力信号を蓄積する入力信号蓄積手段と、
前記入力信号蓄積手段に蓄積されている過去のフレーム分割したマイク入力信号から、マスカー信号の生成に使用する信号を選択し、選択結果を出力する信号選択手段と、
前記マスカー信号の生成に使用する信号を用いて、前記対象話者が発話した音声を、聞き取りにくくさせる前記マスカー信号を生成して出力するマスカー信号生成手段と
して機能させることを特徴とする音響処理プログラム。
音響処理方法において、
フレーム分割手段、入力信号蓄積手段、信号選択手段、及びマスカー信号生成手段を有し、
前記入力信号蓄積手段は、対象話者が発話した音声を収音するマイクから供給されたマイク入力信号を所定の長さに分割し、
前記フレーム分割されたマイク入力信号を蓄積し、
前記入力信号蓄積手段に蓄積されている過去のフレーム分割したマイク入力信号から、マスカー信号の生成に使用する信号を選択し、選択結果を出力し、
前記マスカー信号の生成に使用する信号を用いて、前記対象話者が発話した音声を、聞き取りにくくさせる前記マスカー信号を生成して出力する
ことを特徴とする音響処理方法。