JP2021032989A - 音響処理装置、音響処理プログラム及び音響処理方法 - Google Patents

音響処理装置、音響処理プログラム及び音響処理方法 Download PDF

Info

Publication number
JP2021032989A
JP2021032989A JP2019151513A JP2019151513A JP2021032989A JP 2021032989 A JP2021032989 A JP 2021032989A JP 2019151513 A JP2019151513 A JP 2019151513A JP 2019151513 A JP2019151513 A JP 2019151513A JP 2021032989 A JP2021032989 A JP 2021032989A
Authority
JP
Japan
Prior art keywords
signal
masker
input signal
sound
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019151513A
Other languages
English (en)
Other versions
JP7287182B2 (ja
Inventor
尚也 川畑
Naoya Kawabata
尚也 川畑
祥剛 大塩
Yoshitake Oshio
祥剛 大塩
敬信 西浦
Keishin Nishiura
敬信 西浦
健太 岩居
Kenta Iwai
健太 岩居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2019151513A priority Critical patent/JP7287182B2/ja
Publication of JP2021032989A publication Critical patent/JP2021032989A/ja
Application granted granted Critical
Publication of JP7287182B2 publication Critical patent/JP7287182B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】話者の音声の音響特性の解析結果音響特徴量の解析を行わない、または、音響特徴量の解析結果が間違っていても、音響特性を変化していない信号を使用してマスカー信号を生成し、話者の会話を妨害せずに話者の発話する音声をマスキングする。【解決手段】本発明は、音響処理装置に関する。そして、本発明の音響処理装置は、対象話者が発話した音声を収音するマイクから供給されたマイク入力信号をフレーム毎に蓄積し、蓄積されている過去のマイク入力信号から話者が発話した音声を聞き取りにくくさせるマスカー信号を生成して出力することを特徴とする。【選択図】 図1

Description

本発明は、音響処理装置、音響処理プログラム及び音響処理方法に関し、例えば、発話している話者の周囲の第三者に対して、会話の内容が漏れることを防ぐ手法として用いられるサウンドマスキング処理に適用し得る。
近年、不特定多数の人が存在する施設(例えば、病院、薬局、銀行等)の受付カウンター、窓口、打合せスペース等で話者が会話の相手と会話を行うと、会話の内容が周囲の第三者に漏洩することが問題になっている。
第三者に会話内容の漏洩を防ぐことをスピーチプライバシーと言い、スピーチプライバシーを実現するために、音のマスキング効果が利用されている。
音のマスキング効果とは、ある音(以下、対象音)が聞こえている状態で、対象音に近い音響特性(例えば、周波数特性、ピッチ、フォルマント等)を持つ別の音が存在した場合、対象音が聞き取りにくくなる(マスクされる)現象である。一般的にマスクする音をマスカー、マスクされる音をマスキーと呼ぶ。
この音のマスキング効果を利用した、第三者に会話内容の漏洩を防止(スピーチプライバシーを保護)するサウンドマスキング装置が特許文献1と特許文献2によって提案されている。
特許文献1に記載のサウンドマスキング装置は、マスキー信号である話者の音声信号が変化した場合でも、話者の音声信号の音響特徴量の解析を行い、解析結果を基にマスカー信号を生成し、高いマスキング効果が得られるようにしたサウンドマスキング装置である。
特許文献2に記載の音声処理方法は、音声信号のスペクトル包絡とスペクトル微細構造を抽出し、抽出したスペクトル包絡を変形して変形スペクトル包絡を生成する。そして、変形スペクトル包絡及び抽出したスペクトル微細構造を合成して変形スペクトルを生成し、変形スペクトルに基づいて生成した信号をマスカー信号として出力することで会話音声の内容が第三者に聞かれないようにする音声処理方法である。
特開2012−88577号公報 特開2006−243178号公報
特許文献1に記載のサウンドマスキング装置では、不特定の話者に対してもある程度マスク効果が期待できるように、男性および女性を含む複数人の音声信号を汎用マスカー信号としてデータベースに保存している。そして、話者の音声信号の音響特徴量の解析結果を基に、データベースに保存されている汎用マスカー信号の音響特性を変化させる(例えば、汎用マスカー信号のピッチを入力音声信号のピッチに変換、汎用マスカー音のフォルマントを入力音声信号のフォルマントに変換等)ことでマスカー信号を生成している。このため、データベースに保存している汎用マスカー信号を変化させた信号が、人工的な音になりマスカー信号が不快な音になる可能性がある。さらに、音響特徴量の解析結果が間違っていると、話者の音声の音響特徴量とマスカー信号の音響特徴量が異なるので、マスキング効果は低くなり会話の内容をマスクすることができない。
特許文献2に記載の音声処理方法でも、抽出した音声信号のスペクトル包絡を変形させて変形スペクトル包絡を生成し、変形スペクトル包絡と抽出した音声信号のスペクトル微細構造を合成してマスカー信号生成に使用している。このため、話者の音声信号を変形して生成されたマスカー信号は人工的な音になってしまい、マスカー信号が不快な音になる可能性がある。
また、特許文献1に記載のサウンドマスキング装置と特許文献2に記載の音声処理方法のいずれも、生成したマスカー信号が話者に聞こえるように出力されると、話者にもマスカー信号が聞こえてしまうので、会話の妨げになってしまい、円滑に会話することができない。
以上のような問題に鑑みて、音声を発話する話者(以下、「対象話者」と呼ぶ)の音響特徴量の解析を行わない、または、音響特徴量の解析結果が間違っていても、高いマスキング効果を実現できる音響処理装置、音響処理プログラム及び音響処理方法が望まれている。さらに、対象話者の会話を妨害せずに対象話者の発話する音声をマスキングすることができる音響処理装置、音響処理プログラム及び音響処理方法が望まれている。
第1の本発明の音響処理装置は、(1)対象話者が発話した音声を収音するマイクから供給されたマイク入力信号を所定の長さに分割するフレーム分割手段と、(2)前記フレーム分割されたマイク入力信号を蓄積する入力信号蓄積手段と、(3)前記入力信号蓄積手段に蓄積されている過去のフレーム分割したマイク入力信号から、マスカー信号の生成に使用する信号を選択し、選択結果を出力する信号選択手段と、(4)前記マスカー信号の生成に使用する信号を用いて、前記対象話者が発話した音声を聞き取りにくくさせる前記マスカー信号を生成して出力するマスカー信号生成手段とを有することを特徴とする。
第2の本発明の音響処理プログラムは、コンピュータを、(1)対象話者が発話した音声を収音するマイクから供給されたマイク入力信号を所定の長さに分割するフレーム分割手段と、(2)前記フレーム分割されたマイク入力信号を蓄積する入力信号蓄積手段と、(3)前記入力信号蓄積手段に蓄積されている過去のフレーム分割したマイク入力信号から、マスカー信号の生成に使用する信号を選択し、選択結果を出力する信号選択手段と、(4)前記マスカー信号の生成に使用する信号を用いて、前記対象話者が発話した音声を聞き取りにくくさせる前記マスカー信号を生成して出力するマスカー信号生成手段として機能させることを特徴とする。
第3の本発明の音響処理方法は、(1)フレーム分割手段、入力信号蓄積手段、信号選択手段、及びマスカー信号生成手段を有し、(2)前記入力信号蓄積手段は、対象話者が発話した音声を収音するマイクから供給されたマイク入力信号を所定の長さに分割し、(3)前記フレーム分割されたマイク入力信号を蓄積し、(4)前記入力信号蓄積手段に蓄積されている過去のフレーム分割したマイク入力信号から、マスカー信号の生成に使用する信号を選択し、選択結果を出力し、(5)前記マスカー信号を生成に使用する信号を用いて、前記対象話者が発話した音声を聞き取りにくくさせる前記マスカー信号を生成して出力することを特徴とする。
本発明によれば、マスカー信号の生成に使用する信号を蓄積された対象話者自身の過去の音声を使用して生成することで、音響特徴量の解析を行わない、または、音響特徴量の解析結果が間違っていても、音響特性を変化していない信号を使用してマスカー信号を生成することで、高いマスキング効果を実現できる。さらに、対象話者の会話を妨害せずに対象話者の発話する音声をマスキングすることができる。
第1の実施形態に係るサウンドマスキング装置の機能的構成を示すブロック図である。 第1の実施形態に係るサウンドマスキング装置のハードウェア構成の例について示したブロック図である。 第1の実施形態に係るサウンドマスキング装置で生成したマスカー信号を床面に反射させて出力する際のイメージ図である。 第1の実施形態に係るサウンドマスキング装置で生成したマスカー信号を出力するイメージ図である。 第2の実施形態に係るサウンドマスキング装置の機能的構成を示すブロック図である。 第3の実施形態に係るサウンドマスキング装置の機能的構成を示すブロック図である。 第4の実施形態に係るサウンドマスキング装置の機能的構成を示すブロック図である。 第4の実施形態に係るサウンドマスキング装置の第三者音声信号DB(データベース)に第三者音声信号を蓄積する際の構成について示したブロック図である。 第5の実施形態に係るサウンドマスキング装置の機能的構成を示すブロック図である。 第6の実施形態に係るサウンドマスキング装置の機能的構成を示すブロック図である。
(A)第1の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第1の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。
(A−1)第1の実施形態の構成
図1は、第1の実施形態に係るサウンドマスキング装置100の機能的構成を示すブロック図である。
サウンドマスキング装置100は、マイク101、マイクアンプ102、AD変換器103、スピーカ104、スピーカアンプ105、DA変換器106、及びサウンドマスキング処理部200を有している。
マイク101は、人の音声や音等の空気振動を電気信号に変換するマイクである。
マイクアンプ102は、マイク101により受音(収音)された入力信号を増幅するものである。
AD変換器103は、マイクアンプ102により増幅された入力信号をアナログ信号からデジタル信号に変換するものである。以下、AD変換器103で変換された信号を「マイク入力信号」とする。
サウンドマスキング処理部200は、入力されたマイク入力信号や過去のマイク入力信号からマスカー信号を生成し、出力するものである。
DA変換器106は、サウンドマスキング処理部200から出力された音信号をデジタル信号からアナログ信号に変換するものである。
スピーカアンプ105は、アナログ信号を増幅するものである。
スピーカ104は、電気信号を空気の振動に変換して音として出力するスピーカである。
次に、サウンドマスキング処理部200の詳細な構成を説明する。
サウンドマスキング処理部200は、フレーム分割部201、入力信号DB(データベース)202、信号選択部203、マスカー信号生成部204、音入力端子IN、及び音出力端子OUTを有する。
音入力端子INは、マイク入力信号をサウンドマスキング処理部200に入力するインタフェース(オーディオインタフェース)である。
フレーム分割部201は、サウンドマスキング処理部200に入力されたマイク入力信号を所定の長さ(処理フレーム)に分割して出力する。フレーム分割部201は、一般的に音声を解析するのに適した長さに分割すれば良く、例えば、マイク入力信号を100[ミリ秒]〜200[ミリ秒]単位にフレーム分割する。
入力信号DB202は、フレーム分割したマイク入力信号を蓄積する記憶手段である。
信号選択部203は、入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号から、マスカー信号の生成に使用する信号(以下、「マスカー素辺信号」と呼ぶ)を選択し、選択結果を出力する。
マスカー信号生成部204は、選択されたマスカー素辺信号を入力信号DB202から複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号を使用してマスカー信号を生成し出力する。
音出力端子OUTは、生成したマスカー信号をDA変換器106に出力するインタフェース(オーディオインターフェース)である。
サウンドマスキング処理部200は、全てをハードウェア的に構成(例えば、専用ボードやDSP(Digital Signal Processor)を用いて構築)するようにしても良いし、ソフトウェア的にコンピュータを用いて構成するようにしても良い。サウンドマスキング処理部200は、例えば、メモリ、及びプロセッサを有するコンピュータにプログラム(実施形態に係る音響処理プログラムを含む)をインストールして構成するようにしても良い。なお、この実施形態では、AD変換器103及びDA変換器106を、サウンドマスキング処理部200の外に配置しているが、サウンドマスキング処理部200にAD変換器103、及びDA変換器106を搭載した構成としても良い。
次に、図2では、サウンドマスキング処理部200をソフトウェア(コンピュータ)的に実現する際の構成について示している。
図2に示すサウンドマスキング処理部200は、コンピュータ300を用いてソフトウェア的に構成されている。コンピュータ300には、プログラム(実施形態の音響処理プログラムを含むプログラム)がインストールされている。なお、コンピュータ300は、音響処理プログラム専用のコンピュータとしても良いし、他の機能のプログラムと共用される構成としても良い。
図2に示すコンピュータ300は、プロセッサ301、一次記憶部302、及び二次記憶部303、音入力端子IN、及び音出力端子OUTを有している。音入力端子IN、及び音出力端子OUTは、図1に示した要素と同じである。
一次記憶部302は、プロセッサ301の作業用メモリ(ワークメモリ)として機能する記憶手段であり、例えば、DRAM(Dynamic Random Access Memory)等の高速動作するメモリが適用される。
二次記憶部303は、OS(Operating System)やプログラムデータ(実施形態に係る音響処理プログラムのデータを含む)等の種々のデータを記録する記憶手段であり、例えば、FLASHメモリやHDD(Hard Disk Drive)、SSD(Solid State Drive)等の不揮発性メモリが適用される。
この実施形態のコンピュータ300では、プロセッサ301が起動する際、二次記憶部303に記録されたOSやプログラム(実施形態に係る音響処理プログラムを含む)を読み込み、一次記憶部302上に展開して実行する。なお、コンピュータ300の具体的な構成は図2の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部302が不揮発メモリ(例えば、FLASHメモリ等)であれば、二次記憶部303については除外した構成としても良い。
(A−2)第1の実施形態の動作
次に、以上のような構成を有する第1の実施形態におけるサウンドマスキング装置100の動作(実施形態の音響処理方法)について詳細に説明する。
サウンドマスキング装置100の動作が開始し、サウンドマスキング装置100の利用者(図3の対象話者U1)がマイク101に向かつて音声を発話すると、マイク101に音声信号が入力される。
マイク101に入力されたアナログの音信号は、マイクアンプ102で増幅され、AD変換器103でアナログ信号からデジタル信号に変換され、サウンドマスキング処理部200の音入力端子INにマイク入力信号x(n)として入力される。なお、マイク入力信号x(n)において、nは入力信号の離散的な時間を表すパラメータである。
サウンドマスキング処理部200の音入力端子INにマイク入力信号x(n)が入力され始めると、フレーム分割部201に入力される。
フレーム分割部201は、マイク入力信号x(n)を所定単位に分割する。フレーム分割部201は、例えば、以下の(1)式に従い、処理フレームごとに分割する。
(1)式で、x_fram(l;m)はフレーム分割したマイク入力信号、lはフレーム番号、mはフレーム内の離散的な時間(m=0、1、2、・・・、M−1)、Mはフレーム長である。フレーム分割部201は、フレーム分割したマイク入力信号x_fram(l;m)を入力信号DB202に出力する。
入力信号DB202は、フレーム分割したマイク入力信号x_fram(l;m)を(2)式と(3)式に従い、フレームごとに入力信号DB202に蓄積する。
(2)式で、DB(i;m)は入力信号DB、iはデータベースのインデックス(i=0、1、2、・・・、I−1)、mはフレーム内の時間(m=0、1、2、・・・、M−1)、Mはフレーム長、Iはデータベース長である。iは(3)式に示すように、入力信号DBにデータが蓄積されるとインクリメン卜する。
Figure 2021032989
信号選択部203は、入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号から、マスカー素辺信号を選択する。信号選択部203は、例えば、(4)式に示すように選択結果T(k)を算出する。
(4)式で、k(k=1,2,・・・,K)は変数、Kはマスカー素辺信号の選択数(マスカー信号生成時における音声信号の加算回数)、MOD(i−k,I)は、i−kをIで割ったときの剰余を返すM0D関数である。Iで割ったときの剰余を返すことで、選択結果T(k)は0からI−1の値になる。例えば、(4)式で、K=5のときは、入力信号DB202に蓄積されている5フレーム分のマイク入力信号を選択する。
なお、選択結果T(k)を算出手法は、種々の方法を広く適用することができ、例えば、(5)式に示すように、マスカー素辺信号をランダムに選択しても良い。
(5)式で、rand(k)は自然数kに対して非負の整数の乱数を生成する関数である。(5)式は、MOD関数を使用してrand(k)で生成した乱数をIで割ったときの剰余を返すことで、選択結果T(k)は0からI−1の値になる。信号選択部203は、選択結果T(k)をマスカー信号生成部204に出力する。
Figure 2021032989
マスカー信号生成部204は、信号選択部203の選択結果T(k)に基づいて、マスカー素辺信号を入力信号DB202からKフレーム読み出し、読み出されたKフレームのマスカー素辺信号からマスカー信号を生成し出力する。マスカー信号の生成手法は、例えば、(6)式に示すように、読み出されたKフレームのマスカー素辺信号を重畳して生成する。
(6)式で、k(k=1,2,・・・,K)は変数、Kはマスカー素辺信号の選択数(マスカー信号生成時における音声信号の加算回数)、h(l;m)はマスカー信号である。例えば、(6)式で、K=5のときは、選択結果T(k)に基づき、マスカー素辺信号として入力信号DB202から過去5フレーム分をマスカー素辺信号として読み出し、読み出したマスカー素辺信号を重畳することでマスカー信号h(l;m)を生成する。
なお、マスカー信号h(l;m)の生成手法は、種々の方法を広く適用することができ、例えば、(7)式に示すように、入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間反転して重畳することでマスカー信号h(l;m)を生成しても良いし、入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間遅延して重畳することでマスカー信号h(l;m)を生成しても良い。
そして、マスカー信号生成部204は、(8)式に従い、マスカー信号h(l;m)を出力信号y(n)としてサウンドマスキング処理部200の音出力端子OUTに出力する。
Figure 2021032989
サウンドマスキング処理部200の音出力端子OUTから出力される信号は、DA変換器106でデジタル信号からアナログ信号に変換され、スピーカアンプ105で増幅されてからスピーカ104から出力される。
図3、図4は、マイク101と、マイク101に向かって発話する対象話者U1と、対象話者U1の後ろ側に立っている対象話者U1以外の人(対象話者U1の発話する音声をマスカー信号で聞き取りづらくする対象の人(以下、「マスキング対象者」と呼ぶ)U2と、スピーカ104との配置関係(スピーカ104の配置構成)の例について示した図である。図3、図4では、スピーカから出力される直接音DS(Direct Sound)の指向性を点線で図示している。また、図3では、直接音が床FRに反射することにより発生する反射音RS(Reflected Sound)の指向性を一点鎖線で図示している。
図3では、スピーカ104は、対象話者U1の前方で膝程度の高さに配置され、スピーカ104の振動面(指向性)が下方向で、床FRの表面に対して斜め方向に設置されている。さらに、対象話者U1の後方の床FR部分に指向性が向けられた状態となっている。そして、スピーカ104から放射されたマスカー信号は図3に示すように、床FRの表面に向けて出力され、床FRに到達すると反射する。これにより、図3に示すようにマスカー信号が反射し、対象話者U1の後方にいるマスキング対象者U2にマスカー信号が伝わる。このとき、対象話者U1が発話する音声の直接音もマスキング対象者U2に伝わるが、マスカー信号によって、マスクされる。
なお、スピーカ104の設置方法は、対象話者U1にマスカー信号が聞こえないように設置し、且つマスキング対象者U2にマスカー信号が聞こえるように設置できれば種々の設置方法を広く適用することができる。例えば、図4の(a)に示しているように、対象話者U1の後ろに設置できるスペースがあれば、直接スピーカ104の振動面をマスキング対象者U2に直接向けてマスカー信号を出力するようにしても良いし、図4の(b)に示しているように、床FRにスピーカ104を埋め込んで直接スピーカ104の振動面をマスキング対象者U2に直接向けてマスカー信号を出力するようにしても良いし、図4の(c)に示しているように、天井CEにスピーカ104を設置して直接スピーカ104の振動面をマスキング対象者U2に直接向けてマスカー信号を出力するようにしても良い。
(A−3)第1の実施形態の効果
第1の実施形態によれば、以下のような効果を奏することができる。
第1の実施形態のサウンドマスキング装置100は、対象話者U1の音声を入力信号DBに蓄積し、入力信号DBに蓄積されている過去のフレーム分割されたマイク入力信号を複数フレーム使用してマスカー信号を生成し、出力する。これにより、第1の実施形態のサウンドマスキング装置100では、マスカー信号の音響特徴が対象話者U1の音声の音響特徴により近くなることから、マスキング効果が向上し、会話の内容が漏れることを防ぐことができる。言い換えると、第1の実施形態のサウンドマスキング装置100では、入力信号DBに蓄積されている対象話者U1の音声信号を用いてマスカー信号を生成することで、対象話者U1の音響特性の解析を行わなくても、マスカー信号の音響特徴が対象話者U1の音声信号の音響特徴に近いので、高いマスキング効果が得られる。
さらに、第1の実施形態のサウンドマスキング装置100は、マスカー信号を再生するスピーカを、対象話者U1にマスカー信号が聞こえないように設置し、且つマスキング対象者U2にマスカー信号が聞こえるように設置することで、対象話者U1の会話を妨害せずに対象話者U1の発話する音声をマスキングすることができる。
(B)第2の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第2の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。
(B−1)第2の実施形態の構成
図5は、第2の実施形態に係るサウンドマスキング装置100Aの機能的構成について示したブロック図である。図2では、図1と同一部分又は対応部分には、同一符号又は対応符号を付している。
以下では、第2の実施形態について、第1の実施形態との差異を中心に説明し、第1の実施形態と重複する部分については説明を省略する。
第2の実施形態のサウンドマスキング装置100Aでは、サウンドマスキング処理部200がサウンドマスキング処理部200Aに置き換わっている点で、第1の実施形態と異なっている。サウンドマスキング処理部200Aでは、マスカー信号生成部204が、マスカー信号生成部204Aに置き換わり、さらに、音声区間判定部205とDB蓄積判定部206が追加されている点で、第1の実施形態と異なっている。
第2の実施形態のサウンドマスキング装置100Aのサウンドマスキング処理部200Aでは、音声区間判定部205とDB蓄積判定部206が増えたことにより入力信号DBに蓄積されるフレーム分割されたマイク入力信号とマスカー信号の生成方法が異なる点と、マスカー信号生成部204Aになったことによりフレーム分割されたマイク入力信号の蓄積方法やマスカー信号方法が異なる点が第1の実施形態のサウンドマスキング装置100と異なる。
音声区間判定部205は、フレーム分割されたマイク入力信号が音声区間か非音声区間(音声区間以外の区間)かを判定し、判定結果を出力する。
DB蓄積判定部206は、音声区間判定部205の音声区間判定の結果を基に、フレーム分割されたマイク入力信号が音声区間と判定された場合、フレーム分割されたマイク入力信号を入力信号DB202に出力し、非音声区間と判定された場合、フレーム分割されたマイク入力信号を入力信号DB202に出力しない。
マスカー信号生成部204Aは、音声区間判定の結果と選択結果を基に、選択されたマスカー素辺信号を入力信号DB202から複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成し出力する。
(B−2)第2の実施形態の動作
次に、以上のような構成を有する第2の実施形態におけるサウンドマスキング装置100Aの動作(実施形態に係る音響処理方法)について詳細に説明する。
第2の実施形態に係るサウンドマスキング装置100Aにおけるサウンドマスキング処理の基本的な動作は、第1の実施形態で説明したサウンドマスキング処理と同様である。
以下では、第1の実施形態と異なる点である音声区間判定部205、DB蓄積判定部206、マスカー信号生成部204Aにおける処理動作を中心に詳細に説明する。
フレーム分割部201は、マイク入力信号x(n)を処理フレームごとに分割し、フレーム分割したマイク入力信号x_fram(l;m)を音声区間判定部205とDB蓄積判定部206に出力する。
音声区間判定部205は、フレーム分割したマイク入力信号x_fram(l;m)を用いて、音声区間か非音声区間かを判定する。音声区間か非音声区間かの判定手段は、例えば、(9)式と(10)式に従い判定する。
(9)式と(10)式で、x_fram(l;m)はフレーム分割したマイク入力信号、x_fram_amp(l)はフレーム分割したマイク入力信号の平均振幅値、VAD(l)は音声区間判定結果、THは音声区間の判定に用いられる閾値である。
Figure 2021032989
(9)式は、フレーム分割したマイク入力信号x_fram(l;m)の平均振幅値x_fram_amp(l)を求める式である。(10)式は、(9)式で求めたフレーム分割したマイク入力信号x_fram(l;m)の平均振幅値x_fram_amp(l)が閾値THより値が大きければ音声区間と判定し音声区間判定結果VAD(l)に1を代入し、閾値THより値が小さければ非音声区間と判定し音声区間判定結果VAD(l)に0を代入するという式である。
閾値THは、音声の有無を判定できれば良く、種々の方法を広く適用することができ、例えば、(11)式に示すように、サウンドマスキング装置100Aが動作し始めた最初の数フレームを無音区間とし、その最初の数フレームの平均振幅値を閾値THとして使用する固定の閾値THを用いても良いし、(12)式に示すように、x_fram_amp(l)に時定数フィルタを用いてフレーム毎に変動する閾値TH(l)を用いても良い。
Figure 2021032989
(12)式で、aは時定数フィルタの係数であり、0以上、1以下の値となる。(12)式において、閾値の更新を遅くしたい場合aは1に近い値が望ましく(例えばa=0.9等の値)、閾値の更新を速くしたい場合aは0に近い値が望ましい(例えばa=0.1等の値)。
なお、音声区間か非音声区間かの判定の手段は、種々の方法を広く適用することができ、例えば、フレーム分割したマイク入力信号x_fram(l;m)の自己相関を求めて音声区間か非音声区間か求める等の方法で判定しても良い。音声区間判定部205は、音声区間か非音声区間かの判定結果をDB蓄積判定部206とマスカー信号生成部204Aに出力する。
DB蓄積判定部206は、音声区間判定部205でフレーム分割したマイク入力信号x_fram(l;m)が音声区間と判定されたとき(VAD(l)=1のとき)のみ、フレーム分割部201から出力されたフレーム分割したマイク入力信号x_fram(l;m)を、入力信号DB202に出力し、音声区間判定部205でフレーム分割したマイク入力信号x_fram(l;m)が非音声区間と判定されたとき(VAD(l)=0のとき)は、フレーム分割したマイク入力信号x_fram(l;m)を出力しない。
マスカー信号生成部204Aは、音声区間判定部205の音声区間判定結果VAD(l)と信号選択部203の選択結果T(k)を基に、選択されたマスカー素辺信号を入力信号DB202から複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成し出力する。マスカー信号生成部204Aは、(6)式と(13)式に従い、マスカー信号を出力する。
(13)式で、ha(l;m)はマスカー信号生成部204Aで生成されるマスカー信号である。(13)式は、音声区間判定部205で、マイク入力信号x_fram(l;m)が音声区間と判定されたとき(VAD(l)=1のとき)のみ、信号選択部203の選択結果T(k)を用いてマスカー素辺信号を入力信号DB202から複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号を使用してマスカー信号h(l;m)を生成しha(l;m)に代入し、マイク入力信号x_fram(l;m)が非音声区間と判定されたとき(VAD(l)≠1のとき)は、ha(l;m)に無音を代入する。
マスカー信号生成部204は、(14)式に従い、出力信号y(n)を音出力端子OUTに出力する。
Figure 2021032989
(B−3)第2の実施形態の効果
第2の実施形態によれば、以下のような効果を奏することができる。
第2の実施形態のサウンドマスキング装置100Aでは、音声区間と判定されたときのみ対象話者U1の音声を入力信号DB202に蓄積することで、対象話者U1の音声とは関係のない雑音が入力信号DB202に蓄積されてマスカー素辺信号として選択されることがなくなるので、対象話者U1の音声のみでマスカー信号を生成することができ、高いマスキング効果を維持できる。
また、第2の実施形態のサウンドマスキング装置100Aでは、音声区間と判定されたときのみ、入力信号DBに蓄積されている過去のフレーム分割されたマイク入力信号を複数フレーム使用してマスカー信号を生成し、出力している。これにより、音声が入力されたときのみマスカー信号が出力されるように構成することができる。
(C)第3の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第3の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。
(C−1)第3の実施形態の構成
図6は、第3の実施形態に係るサウンドマスキング装置100Bの機能的構成について示したブロック図である。図6では、上述の図5と同一部分又は対応部分には、同一符号又は対応符号を付している。
以下では、第3の実施形態について、第1、及び第2の実施形態との差異を中心に説明し、第1と第2の実施形態と重複する部分については説明を省略する。
第3の実施形態のサウンドマスキング装置100Bでは、サウンドマスキング処理部200Aがサウンドマスキング処理部200Bに置き換わっている点で、第2の実施形態と異なっている。
サウンドマスキング処理部200Bでは、入力信号DB202と信号選択部203とマスカー信号生成部204Aが、それぞれ入力信号DB202Aと信号選択部203Aとマスカー信号生成部204Bに置き換わり、さらに、ピッチ推定部205とクラス判定部208が追加されている点で、第2の実施形態と異なっている。
第3の実施形態のサウンドマスキング装置100Bでは、ピッチ推定部205とクラス判定部208が増えたことにより、フレーム分割されたマイク入力信号のピッチ推定、フレーム分割されたマイク入力信号の蓄積方法、マスカー信号の生成に使用する信号を選択する方法、マスカー信号の生成方法が異なる点が第2の実施形態と異なる。
ピッチ推定部207は、フレーム分割されたマイク入力信号と音声区間判定の結果からフレーム分割されたマイク入力信号のピッチ(音声の高さ)を推定し、推定したピッチを出力する。
クラス判定部208は、ピッチ推定部207で推定したピッチの結果を基に、フレーム分割されたマイク入力信号を入力信号DB202Aに蓄積すると判定された場合にのみ、フレーム分割されたマイク入力信号を入力信号DB202Aのピッチに応じたクラスに出力し、フレーム分割されたマイク入力信号を入力信号DB202Aに蓄積しないと判定された場合、フレーム分割されたマイク入力信号を入力信号DB202Aのピッチに応じたクラスに出力しない。
入力信号DB202Aは、フレーム分割したマイク入力信号をピッチに応じたクラスごとに蓄積する記憶手段である。
信号選択部203Aは、クラスごとに蓄積されている過去のフレーム分割したマイク入力信号から、マスカー素辺信号を選択し、選択結果を出力する。
マスカー信号生成部204Bは、音声区間判定とピッチ推定の結果と選択結果を基に、選択されたマスカー素辺信号を入力信号DB202Aのピッチに応じたクラスから複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成して出力する。
なお、第3の実施形態において、第1の実施形態と同様に音声区間判定部205を除外した構成としても良い。
(C−2)第3の実施形態の動作
次に、以上のような構成を有する第3の実施形態におけるサウンドマスキング装置100Bの動作(実施形態に係る音響処理方法)について詳細に説明する。
第3の実施形態に係るサウンドマスキング装置100Bにおけるサウンドマスキング処理の基本的な動作は、第1、及び第2の実施形態で説明したサウンドマスキング処理と同様である。
以下では、第2の実施形態と異なる点であるピッチ推定部207、クラス判定部208、入力信号DB202A、信号選択部203A、マスカー信号生成部204Bにおける処理動作を中心に詳細に説明する。
フレーム分割部201は、マイク入力信号x(n)を処理フレームごとに分割し、フレーム分割したマイク入力信号x_fram(l;m)を音声区間判定部205、DB蓄積判定部206、ピッチ推定部207に出力する。
音声区間判定部205は、フレーム分割したマイク入力信号x_fram(l;m)を用いて、音声区間か非音声区間かを判定し、音声区間か非音声区間かの判定結果をDB蓄積判定部206、ピッチ推定部207、マスカー信号生成部204Bに出力する。
DB蓄積判定部206は、音声区間判定部205でフレーム分割したマイク入力信号x_fram(l;m)が音声区間と判定されたときのみ、フレーム分割部201から出力されたフレーム分割したマイク入力信号x_fram(l;m)を、クラス判定部208、信号選択部203A、マスカー信号生成部204Bに出力し、音声区間判定部205でフレーム分割したマイク入力信号x_fram(l;m)が非音声区間と判定されたときは、フレーム分割したマイク入力信号x_fram(l;m)を出力しない。
ピッチ推定部207は、音声区間判定部205でフレーム分割したマイク入力信号x_fram(l;m)が音声区間と判定されたときのみ、フレーム分割したマイク入力信号x_fram(l;m)のピッチを推定する。ピッチの推定手段は、例えば、(15)式に従い、フレーム分割したマイク入力信号x_fram(l;m)の自己相関関数x_fram_corr(l)を求め、(16)式に従い自己相関関数x_fram_corr(l)を用いて推定するようにしても良い。
Figure 2021032989
(16)式で、pitch(l)は推定したピッチ、fsはサンプリング周波数である。ピッチの推定手法は、種々の方法を広く適用することができ、例えば、フレーム分割したマイク入力信号x_fram(l;m)を離散フーリエ変換や高速フーリエ変換を行ってからケプストラム分析を行い、ピッチを算出しても良い。ピッチ推定部205は、推定したピッチpitch(l)をクラス判定部208とマスカー信号生成部204Bに出力する。
クラス判定部208は、ピッチ推定部207で推定したピッチを基に、フレーム分割されたマイク入力信号を入力信号DB202Aに蓄積するか蓄積しないかを判定する。クラス判定部208において、入力信号DB202Aに蓄積するか蓄積しないかを判定手法については限定されないものである。例えば、ピッチ推定部207で推定したピッチpitch(l)が、100HZ以下、101Hz〜200Hz、201Hz〜300Hz、301Hz〜400Hz、401Hz〜500Hz、500Hz以上のように100Hzの間隔(グリッド)でクラス分けする。そして、100HZ以下、又は500Hz以上の時、入力信号DB202Aに蓄積しないと判定し、それ以外のときは入力信号DB202Aに蓄積すると判定するようにしても良い。また、例えば、入力信号DB202Aでは、周波数があがるほどクラスの周波数間隔(グリッド)を広げるようにしても良い。
クラス判定部208は、フレーム分割されたマイク入力信号を入力信号DB202Aに蓄積すると判定された場合にのみ、フレーム分割されたマイク入力信号x_fram(l;m)を入力信号DB202Aのピッチに応じたクラスに出力し、フレーム分割されたマイク入力信号を入力信号DB202Aに蓄積しないと判定された場合、フレーム分割されたマイク入力信号x_fram(l;m)を入力信号DB202Aのピッチに応じたクラスに出力しない。
入力信号DB202Aは、クラス判定部208からマイク入力信号x_fram(l;m)が出力されたときのみ、出力されたフレーム分割したマイク入力信号x_fram(l;m)を(17)式と(18)式に従い、ピッチに応じたクラスごとに入力信号DB202Aに蓄積する。
Figure 2021032989
(17)式で、DB’(p;i;m)は入力信号DB、mはフレーム内の離散的な時間(m=0、1、2、・・・、M−1)、i(pitch(l))はデータベースのクラスごとのインデックス、Iはデータベース長である。i(pitch(l))は(18)式に示すように、クラスにデータが蓄積されるとインクリメントする。
信号選択部203Aは、入力信号DB202Aにクラスごとに蓄積されている過去のフレーム分割したマイク入力信号からマスカー素辺信号を選択する。信号選択部203Aは、例えば、(19)式に示すように選択結果Ta(k)を選択する。
(19)式で、k(k=1,2,・・・,K)は変数、Kはマスカー素辺信号の選択数(マスカー信号生成時における音声信号の加算回数)、MOD(i−k,I)は、i−kをIで割ったときの剰余を返すM0D関数である。(19)式は、Iで割ったときの剰余を返すことで、選択結果Ta(k)は0からI−1の値になる。
なお、選択結果Ta(k)を算出手法は、種々の方法を広く適用することができ、例えば、(20)式に示すように、どのフレームを使用するかランダムに選択しても良い。
(20)式で、randは自然数kに対して乱数を生成する関数である。(20)式は、MOD関数を使用してrand(k)で生成した乱数をIで割ったときの剰余を返すことで、選択結果Ta(k)は0からI−1の値になる。信号選択部203Aは、選択結果Ta(k)をマスカー信号生成部204に出力する。
Figure 2021032989
マスカー信号生成部204Bは、音声区間判定部205の音声区間判定結果VAD(l)、ピッチ推定部207で推定したピッチpicth(l)、信号選択部203Aの選択結果Ta(k)を基に、マスカー素辺信号を入力信号DB202Aのピッチに応じたクラスから複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成し出力する。マスカー信号生成部204Bは、(21)式と(22)式に従い、マスカー信号を出力する。
(21)式で、hb(l;m)はマスカー信号を、F0_MAXはピッチの最大値を、(22)式で、h’(l;m)は入力信号DBから生成されるマスカー信号Kはマスカー素辺信号の選択数(マスカー信号生成時における音声の加算回数)をである。(21)式は、音声区間判定部205でマイク入力信号x_fram(l;m)が音声区間と判定されとき(VAD(l)=1のとき)、かつ、ピッチ推定部207の推定したピッチpitch(l)が0Hzより大きく、F0_MAX以下ときのみ、マスカー信号h’(l;m)を生成し、上記以外の時ときは無音を生成し、hb(l;m)に代入するという式である。(22)は、入力信号DB202Aにピッチに応じたクラスごとに蓄積されている過去のフレーム分割したマイク入力信号を重畳して生成する方法である。
なお、マスカー信号生成部204Bにおいて、マスカー信号の生成手法は、種々の方法を広く適用することができる。例えば、マスカー信号生成部204Bでは、入力信号DB202Aのクラスごとに蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間反転して重畳してからマスカー信号h’(l;m)を生成しても良いし、入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間遅延して重畳することでマスカー信号h’(l;m)を生成しても良いし、過去のどのフレームを使用するかランダムに決定してマスカー信号h’(l;m)を生成しても良い。
そして、マスカー信号生成部204Bは、(23)式に従い、出力信号y(n)を音出力端子OUTに出力する。
Figure 2021032989
(C−3)第3の実施形態の効果
第3の実施形態によれば、以下のような効果を奏することができる。
第3の実施形態のサウンドマスキング装置100Bでは、対象話者U1の音声をピッチに応じたクラスごとに入力信号DB202Aに蓄積し、ピッチに応じたクラスごとに入力信号DBに蓄積されている過去のマイク入力信号を複数フレーム使用してマスカー信号を生成し出力する。これにより、第3の実施形態のサウンドマスキング装置100Bでは、マスカー信号と対象話者U1の音声との音響特徴にさらに近づくので、よりマスキング効果を高めることができる。
(D)第4の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第4の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。
(D−1)第4の実施形態の構成
図7は、第4の実施形態に係るサウンドマスキング装置100Cの機能的構成について示したブロック図である。図7では、上述の図6と同一部分又は対応部分には、同一符号又は対応符号を付している。
以下では、第4の実施形態について、第1から第3の実施形態との差異を中心に説明し、第1から第3の実施形態と重複する部分については説明を省略する。
第4の実施形態のサウンドマスキング装置100Cでは、サウンドマスキング処理部200Bがサウンドマスキング処理部200Cに置き換わっている点で、第3の実施形態と異なっている。
サウンドマスキング処理部200Cでは、信号選択部203Aとマスカー信号生成部204Bが信号選択部203Bとマスカー信号生成部204Cに置き換わり、さらに、第三者音声信号DB209と使用DB判定部210が追加されている点で、第1から第3の実施形態と異なっている。
第4の実施形態のサウンドマスキング装置100Cでは、第三者音声信号DB209と使用DB判定部210が増えたことにより、第三者音声信号DB209に第三者音声信号を蓄積する方法、サウンドマスキング装置100Cが動作した時に使用するDB、マスカー信号の生成に使用する信号を選択する方法、マスカー生成方法が異なる点が第1から第3の実施形態と異なる。
第三者音声信号DB209は、例えば、事前にサンプルとなる音声信号(以下、「第三者音声信号」と呼ぶ)を蓄積しておき、蓄積した第三者の音声信号をフレーム分割し、フレーム分割された第三者音声信号をピッチに応じたクラスに分けて蓄積したデータベースである。
使用DB判定部210は、入力信号DB202Aの各クラスに、フレーム分割されたマイク入力信号が所定量以上(十分)蓄積されているか否かを判定し、その判定結果を出力する。
信号選択部203Bは、入力信号DB202A、又は第三者音声信号DB209にクラスごとに蓄積されている過去のフレーム分割したマイク入力信号から、マスカー素辺信号を選択し、選択結果を出力する。
マスカー信号生成部204Cは、音声区間判定とピッチ推定の結果と使用DB判定結果と選択結果を基に、入力信号DB202Aに所定量以上蓄積されていると判定されたときは入力信号DB202A、入力信号DB202Aに所定量以上蓄積されていないと判定されたときは第三者音声信号DB209を選択し、マスカー素辺信号を選択されたデータベース(以下、選択したデータベースを「選択データベース」と呼ぶ)のピッチに応じたクラスから複数フレーム読み出し、読み出された複数フレームからマスカー素辺信号からマスカー信号を生成して出力する。
なお、第4の実施形態において、ピッチ推定部205を除外し、入力信号DB202A、又は第三者音声信号DB209においてクラス分けせずに蓄積するようにしても良い。また、第4の実施形態において、音声区間判定部205を除外するようにしても良い。
(D−2)第4の実施形態の動作
次に、以上のような構成を有する第4の実施形態におけるサウンドマスキング装置100Cの動作(実施形態に係る音響処理方法)について詳細に説明する。
第4の実施形態に係るサウンドマスキング装置100Cにおけるサウンドマスキング処理の基本的な動作は、第1から第3の実施形態で説明したサウンドマスキング処理と同様である。
以下では、第1から第3の実施形態と異なる点である第三者音声信号DB209、使用DB判定部210、信号選択部203B、マスカー信号生成部204Cにおける処理動作を中心に詳細に説明する。
サウンドマスキング装置100Cのサウンドマスキング処理部200Cでは、サウンドマスキング処理を行う前に、第三者音声信号DB209へ音声信号の蓄積を行う。
例えば、図8に示すように、事前に音声信号のサンプルを蓄積したデータベース(例えば、市販されている音声信号のデータベース等)により構成された第三者音声信号サンプルデータASを、サウンドマスキング処理部200Cに入力することで第三者音声信号DB209を構築する。
図8では、第三者音声信号サンプルデータASに基づく音声信号をサウンドマスキング処理部200Cに入力し、サウンドマスキング装置100Cが動作を開始して、第三者音声信号サンプルデータASに基づく音声信号について、上記の各実施形態と同様にフレーム分割、音声区間判定、ピッチ推定、DB蓄積判定、クラス判定を行い、第三者音声信号DB209に蓄積する。
なお、上記の各実施形態の入力信号DB202、202Aの蓄積処理と同様の処理により、第三者音声信号DB209を構築するようにしても良い。
また、第三者音声信号サンプルデータASが記録されるデータ記録媒体は限定されないものである。
さらに、第三者音声信号DB209を構築する際のサンプルとしては、予め録音された第三者音声信号サンプルデータASではなく、マイク101、マイクアンプ102、及びAD変換器103を音入力端子INに接続して、複数の人物に発話して蓄積(マイク101を介して第三者音声信号のサンプルを蓄積)するようにしても良いし、別のPC等で処理して作成したデータ(第三者音声信号のサンプルデータ)を使用(例えば、通信やデータ記録媒体によりコピー)するようにしても良い。
そして、第三者音声信号DB209に第三者の音声信号に基づくデータが十分に蓄積(所定以上の量のデータが蓄積)された段階でサウンドマスキング装置100Cは、第三者音声信号DB209の準備処理を終了し、サウンドマスキング処理が開始するまで一時停止する。
なお、第三者音声信号DB209に第三者の音声信号に基づくデータが十分に蓄積(所定以上の量のデータが蓄積)された段階でサウンドマスキング装置100Cは、第三者音声信号DB209の準備処理を終了し、サウンドマスキング処理を開始するようにしても良い。
このとき、第三者音声信号DB209に所定以上の量のデータが蓄積されたか否かを判定する方法は限定されないものであるが、使用DB判定部210を用いた判定処理を行うようにしても良い。
サウンドマスキング装置100Cがサウンドマスキング処理を開始し、対象話者U1がマイク101に向かつて音声を発話すると、マイク101に入力される。
マイク101に入力されたアナログの音信号は、マイクアンプ102で増幅され、AD変換器103でアナログ信号からデジタル信号に変換され、サウンドマスキング処理部200Cの音入力端子INにマイク入力信号x(n)として入力される。
サウンドマスキング処理部200Cの音入力端子INにマイク入力信号x(n)が入力され始めると、フレーム分割部201に入力される。
フレーム分割部201は、マイク入力信号x(n)を、処理フレームごとに分割し、フレーム分割したマイク入力信号x_fram(l;m)を音声区間判定部205とDB蓄積判定部206とピッチ推定部207に出力する。
音声区間判定部205は、フレーム分割したマイク入力信号x_fram(l;m)を用いて、音声区間か非音声区間かを判定し、音声区間か非音声区間かの判定結果をDB蓄積判定部206、ピッチ推定部207、マスカー信号生成部204Cに出力する。
DB蓄積判定部206は、音声区間判定部205でフレーム分割したマイク入力信号x_fram(l;m)が音声区間と判定されたときのみ、フレーム分割部201から出力されたフレーム分割したマイク入力信号x_fram(l;m)を、クラス判定部208信号選択部203B、マスカー信号生成部204Cに出力し、音声区間判定部205でフレーム分割したマイク入力信号x_fram(l;m)が非音声区間と判定されたときは、フレーム分割したマイク入力信号x_fram(l;m)を出力しない。
ピッチ推定部207は、音声区間判定部205でマイク入力信号x_fram(l;m)が音声区間と判定されたときのみ、フレーム分割したマイク入力信号x_fram(l;m)のピッチを推定し、推定したピッチをマスカー信号生成部204Cとピッチ推定部207に出力する。
クラス判定部208は、ピッチ推定部207で推定したピッチを基に、フレーム分割されたマイク入力信号を入力信号DB202Aに蓄積すると判定された場合にのみ、フレーム分割されたマイク入力信号を入力信号DB202Aのピッチに応じたクラスに出力して蓄積する。
入力信号DB202Aは、クラス判定部208からマイク入力信号x_fram(l;m)が出力されたときのみ、出力されたフレーム分割したマイク入力信号x_fram(l;m)を(17)式と(18)式に従い、ピッチに応じたクラスごとに入力信号DB202Aに蓄積する。
使用DB判定部210は、入力信号DB202Aの各クラスに過去のフレーム分割したマイク入力信号x_fram(l;m)が所定以上の量のデータが蓄積(十分蓄積)されているか判定し、判定結果を出力する。使用DB判定部210は、例えば、以下の(24)式に従って、入力信号DB202Aにフレーム分割したマイク入力信号x_fram(l;m)が所定以上の量が蓄積されているか否かを判定する。
Figure 2021032989
(24)式で、flag(l)は、判定結果である。(24)式は、所定以上の量のデータが蓄積されている場合は、判定結果flag(l)に1を代入し、所定以上の量のデータが蓄積(十分蓄積)されていない場合は判定結果flag(l)に0を代入する。
なお、使用DB判定部210において、入力信号DB202Aに所定以上の量のデータが蓄積されているか否かの判断手法は、種々の方法を広く適用することができる。例えば、使用DB判定部210フレーム分割したマイク入力信号x_fram(l;m)が入力信号DBに蓄積される回数をカウントし、カウント数が閾値を超えた場合、所定以上のデータが蓄積されていると判定しても良いし、クラス毎に蓄積される回数をカウントし、全てのクラスについてカウント数が閾値を超えた場合、十分蓄積されていると判定しても良い。
また、使用DB判定部210において、入力信号DB202Aに所定以上の量のデータが蓄積されているか否かの判断開始方法は、種々の方法を広く適用することができる。例えば、サウンドマスキング装置100Cの動作が開始してから判定を開始しても良いし、サウンドマスキング装置100Cの動作が開始して所定時間経過した時から判定を開始するようにしても良い。そして、使用DB判定部210は、信号選択部203Bに判定結果flag(l)を出力する。
信号選択部203Bは、使用DB判定部210から出力された判定結果flag(l)から入力信号DB202A、又は第三者音声信号DB209にクラスごとに蓄積されている過去のフレーム分割したマイク入力信号からマスカー素辺信号を選択する。信号選択部203Aは、例えば、(25)式に示すように選択結果Tb(k)を選択する。
(25)式で、k(k=1,2,・・・,K)は変数、Kはマスカー素辺信号の選択数(マスカー信号生成時における音声信号の加算回数)、MOD(i−k,I)は、i−kをIで割ったときの剰余を返すM0D関数である。Iで割ったときの剰余を返すことで、選択結果Tb(k)は0からI−1の値になる。(25)式は、使用DB判定部210で、入力信号DB202Aに所定量以上蓄積されていないと判定されたとき(flag(l)=0のとき)は、第三者音声信号DB209からマスカー素辺信号を選択し、入力信号DB202Aに所定量以上蓄積されていると判定されたとき(flag(l)=0以外のとき)は、入力信号DB202Aからマスカー素辺信号を選択するという式である。
なお、選択結果Tb(k)を算出手法は、種々の方法を広く適用することができ、例えば、(26)式に示すように、どのフレームを使用するかランダムに選択しても良い。
(26)式で、randは自然数kに対して乱数を生成する関数である。(26)式は、MOD関数を使用してrand(k)で生成した乱数をIで割ったときの剰余を返すことで、選択結果Tb(k)は0からI−1の値になる。信号選択部203Bは、選択結果Tb(k)をマスカー信号生成部204に出力する。
Figure 2021032989
マスカー信号生成部204Cは、音声区間判定部205の音声区間判定結果VAD(l)、ピッチ推定部207で推定したピッチpicth(l)、信号選択部203Bの選択結果Tb(k)、使用DB判定部210の判定結果flag(l)に基に、入力信号DB202Aに所定量以上蓄積されていると判定されたときは入力信号DB202A、入力信号DB202Aに所定量以上蓄積されていない判定されたときは第三者音声信号DB209を選択し、マスカー素返信号を選択データベースのピッチに応じたクラスから複数フレーム読み出す。そして、読み出された複数フレームからマスカー信号を生成し出力する。マスカー信号生成部204Cは、例えば、(27)式と(28)式に従い、マスカー信号を出力する。
(27)式で、hc(l;m)はマスカー信号を、F0_MAXはピッチの最大値を、(28)式で、DB2(p;l;m)は第三者音声信号DB、h’’(l;m)は第三者音声信号DBと入力信号DBから生成されるマスカー信号、Kはマスカー素辺信号の選択数(マスカー信号生成時における音声の加算回数)である。(27)式は、音声区間判定部205でマイク入力信号x_fram(l;m)が音声区間と判定されとき(VAD(l)=1のとき)、かつ、ピッチ推定部207の推定したピッチpitch(l)が0Hzより大きく、F0_MAX以下ときのみ、マスカー信号h’’(l;m)を生成し、上記以外の時ときは無音を生成しhc(l;m)に代入するという式である。(28)は、使用DB判定部210で、入力信号DB202Aに所定量以上蓄積されていないと判定されたとき(flag(l)=0のとき)は、マスカー素辺信号を、第三者音声信号DB209から複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成し、入力信号DB202Aに所定量以上蓄積されていると判定されたとき(flag(l)=0以外のとき)は、マスカー素辺信号を入力信号DB202Aから複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成する。
なお、マスカー信号生成部204Cにおいて、マスカー信号の生成手法は、種々の方法を広く適用することができる。例えば、マスカー信号生成部204Cでは、選択データベースのピッチに応じたクラスごとに蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間反転して重畳してからマスカー信号h’’(l;m)を生成しでも良いし、選択データベースのピッチに応じたクラスごとに蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間遅延して重畳することでマスカー信号h’’(l;m)を生成しても良いし、過去のどのフレームを使用するかランダムに決定してマスカー信号h’’(l;m)を生成しても良い。
そして、マスカー信号生成部204Cは、(29)式に従い、生成したマスカー信号hc(l;m)を出力信号y(n)として音出力端子OUTに出力する。
Figure 2021032989
(D−3)第4の実施形態の効果
第4の実施形態によれば、以下のような効果を奏することができる。
第4の実施形態のサウンドマスキング装置100Cは、動作開始時には第三者音声信号DB209を使用してマスカー信号を生成して出力し、入力信号DB202Aに入力信号が十分蓄積されたら、入力信号DB202Aに蓄積されている過去のマイク入力信号を複数フレーム使用してマスカー信号を生成し出力する。これにより、サウンドマスキング装置100Cでは、動作開始時から音響特徴が対象話者U1の音声の音響特徴に近いマスカー信号を生成できるので、よりマスキング効果を高めることができる。
(E)第5の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第5の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。
(E−1)第5の実施形態の構成
図9は、第5の実施形態に係るサウンドマスキング装置100Dの機能的構成について示したブロック図である。図9では、上述の図1と同一部分又は対応部分には、同一符号又は対応符号を付している。
以下では、第5の実施形態について、第1の実施形態との差異を中心に説明し、第1の実施形態と重複する部分については説明を省略する。
第5の実施形態のサウンドマスキング装置100Dでは、サウンドマスキング処理部200がサウンドマスキング処理部200Dに置き換わっている点で、第1の実施形態と異なっている。サウンドマスキング処理部200Dでは、マスカー信号生成部204がマスカー信号生成部204Dに置き換わっている点で第1の実施形態と異なっている。
第5の実施形態のサウンドマスキング装置100Dは、マスカー信号生成部204Dのマスカー信号の生成方法が異なる点が第1の実施形態のサウンドマスキング装置100と異なる。
マスカー信号生成部204Dは、選択されたマスカー素辺信号を入力信号DB202から複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成し出力する。
(E−2)第5の実施形態の動作
次に、以上のような構成を有する第5の実施形態におけるサウンドマスキング装置100Dの動作(実施形態に係る音響処理方法)について詳細に説明する。
第5の実施形態に係るサウンドマスキング装置100Dにおけるサウンドマスキング処理の基本的な動作は、第1の実施形態で説明したサウンドマスキング処理と同様である。
以下では、第1の実施形態と異なる点であるマスカー信号生成部204Dにおける処理動作を中心に詳細に説明する。
マスカー信号生成部204Dは、入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号を使用してマスカー信号を生成する。マスカー信号生成部204Dが行うマスカー信号の生成手法としては、例えば、入力信号DB202に蓄積されているマイク入力信号に所定量の遅延を与えて重畳することで疑似的にエコー(以下、「疑似エコー」と呼ぶ)を生成し、マスカー信号として使用する手法が挙げられる。
マスカー信号生成部204Dは、疑似エコーを生成し、生成した疑似エコーをマスカー信号として出力する。疑似エコーは、例えば、(30)式、(31)式に従い、疑似エコーを生成する。
Figure 2021032989
(30)式、(31)式で、c(c=1、2、・・・、C)はインデックスを、Cは疑似エコー生成時における音声の加算回数、p(1≦p≦(M−1))は疑似エコーを生成する時の入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号をどれだけ遅延させるかのパラメー夕、αは減表係数(0.0<α<1.0)である。(31)式は、入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号を複数フレーム読み出しを時間的にずらして減衰係数を乗算してから重畳して生成される信号である。疑似エコーの遅延時間は、例えば、0.1[秒]から1.0[秒](48kHzサンプリングで約4800[サンプル]から48000[サンプル])程度としても良い。例えば、(30)式で、C=3、p=50、α=0.5のときは、入力信号DB202に蓄積されている過去1フレーム前のマイク入力信号と、入力信号DB202に蓄積されている過去2フレーム前のマイク入力信号を50サンプル進めて減衰係数α(=0.5)を乗算した信号と、入力信号DB202に蓄積されている過去3フレーム前のマイク入力信号を100サンプル進めて、減衰係数α(=0.25)を乗算した信号を重畳することで疑似エコーe(l;m)を生成することを示す。
なお、マスカー信号生成部204Dにおける疑似エコーの生成手法は、種々の方法を広く適用することができる。マスカー信号生成部204Dでは、例えば、(32)式と(33)式に示すように、入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間反転した信号を使用して疑似エコーe(l;m)を生成しても良いし、過去のどのフレームを使用するかランダムに決定して疑似エコーe(l;m)を生成しても良い。
Figure 2021032989
そして、マスカー信号生成部204Dは、(34)式に従い、生成した疑似エコーe(l;m)を出力信号y(n)として音出力端子OUTに出力する。
Figure 2021032989
(E−3)第5の実施形態の効果
第5の実施形態によれば、以下のような効果を奏することができる。
第5の実施形態のサウンドマスキング装置100Dは、対象話者U1の音声を入力信号DBに蓄積し、入力音声信号DBに蓄積されている過去のフレーム分割されたマイク入力信号を複数フレーム使用して疑似エコーを生成し、疑似エコーをマスカー信号として出力する。これにより、サウンドマスキング装置100Dでは、マスカー信号の音響特徴が対象話者U1の音声の音響特徴により近くなることから、マスキング効果が向上し、会話の内容が漏れることを防ぐことができる。言い換えると、第5の実施形態のサウンドマスキング装置100でも、入力信号DBに蓄積されている対象話者U1の音声信号を用いてマスカー信号を生成することで、対象話者U1の音響特性の解析を行わなくても、マスカー信号の音響特徴が対象話者U1の音声信号の音響特徴に近くなるので、高いマスキング効果が得られる。
(F)第6の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第6の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。
(F−1)第6の実施形態の構成
図10は、第6の実施形態に係るサウンドマスキング装置100Eの機能的構成について示したブロック図である。図10では、上述の図9と同一部分又は対応部分には、同一符号又は対応符号を付している。
以下では、第5の実施形態について、第5の実施形態との差異を中心に説明し、第5の実施形態と重複する部分については説明を省略する。
第6の実施形態のサウンドマスキング装置100Eでは、サウンドマスキング処理部200Dがサウンドマスキング処理部200Eに置き換わっている点で、第5の実施形態と異なっている。サウンドマスキング処理部200Eは、フレーム分割部201、第1の入力信号DB211、第2の入力信号DB212、第1の信号選択部213、第2の信号選択部214、第1のマスカー生成部215、第2のマスカー生成部216、及びマスカー信号ミキシング部217を有している。
第6の実施形態のサウンドマスキング装置100Eでは、マスカー信号の生成方法が、第1の実施形態、及び第5の実施形態と異なっている。具体的には、サウンドマスキング処理部200Eは、入力されたマイク入力信号から2種類のマスカー信号を生成し、重畳した信号をマスカー信号として出力する。
第1の入力信号DB211、第2の入力信号DB212は、第1の実施形態の入力信号DB202と同様のものであるため詳しい説明を省略する。また、第1の信号選択部213、第2の信号選択部214も、第1の実施形態の信号選択部203と名前が異なるだけで同様のものであるため詳しい説明を省略する。
第1のマスカー生成部215は、後述する第2のマスカー生成部216と異なる方法で、第1の入力信号DB211からマスカー信号を生成し出力する。
第2のマスカー生成部216は、第1のマスカー生成部215と異なる方法で、第2の入力信号DB212からマスカー信号を生成し出力する。
マスカー信号ミキシング部217は、各マスカー信号生成部から出力されたマスカー信号をミキシングして最終的に出力するマスカー信号を生成する。
第1の入力信号DB211と第2の入力信号DB212には、両法のDBに同様のデータ(例えば、第1の入力信号DB211と第2の入力信号DB212に第1の実施形態における入力信号DB202と同様のデータ)を蓄積するようにしても良いし、異なるデータ(例えば、第1の入力信号DB211は、第1の実施形態における入力信号DB202、第2の入力信号DB212は、第3の実施形態における入力信号DB202Aと同様のデータ)を蓄積するようにしても良い。
(F−2)第6の実施形態の動作
次に、以上のような構成を有する第6の実施形態におけるサウンドマスキング装置100Eの動作(実施形態に係る音響処理方法)について詳細に説明する。
第6の実施形態に係るサウンドマスキング装置100Eにおけるサウンドマスキング処理の基本的な動作は、第5の実施形態で説明したサウンドマスキング処理と同様である。
本発明の第6の実施形態に係るサウンドマスキング装置100Eの動作を詳細に説明する。
第1のマスカー生成部215は、第1の入力信号DB211に蓄積されている過去のフレーム分割したマイク入力信号を使用して第2のマスカー生成部216とは異なる方法でマスカー信号を生成する。
第2のマスカー生成部216は、第2の入力信号DB212に蓄積されている過去のフレーム分割したマイク入力信号を使用して第1のマスカー生成部215とは異なる方法でマスカー信号を生成する。
例えば、第1のマスカー生成部215は、(6)式、又は(7)式に示すようにマスカー信号h(l;m)を生成し、第2のマスカー生成部216は、(32)式、又は(34)式に示すような疑似エコーe(l;m)をマスカー信号として生成するようにしても良い。
マスカー信号ミキシング部217は、第1のマスカー生成部215、及び第2のマスカー生成部216から出力されたマスカー信号をミキシングし、マスカー信号mix(l;m)として出力する。マスカー信号ミキシング部217は、例えば、(35)式に基づいて、第1のマスカー生成部215、及び第2のマスカー生成部216から出力されたマスカー信号をミキシングするようにしても良い。
(35)式で、β(0.0≦β≦1.0)はどちらのマスカー信号を多く使用するかのパラメータである。第1のマスカー生成部215のマスカー信号を多く使用したい場合、βは1に近い値が望ましく(例えば、β=0.9等の値)、第2のマスカー生成部216のマスカー信号を多く使用したい場合、βは1に近い値が望ましい(例えば、β=0.1等の値)。
マスカー信号ミキシング部217は、(36)式に従い、ミキシングしたマスカー信号mix(l;m)を出力信号y(n)として出力する。
Figure 2021032989
(F−3)第6の実施形態の効果
第6の実施形態によれば以下のような効果を奏することができる。
第6の実施形態のサウンドマスキング装置100Eでは、対象話者U1の音声を第1の入力信号DB211及び第2の入力信号DB212に蓄積し、各入力信号DBに蓄積されている過去のマイク入力信号を複数フレーム使用し、それぞれ異なる方法でマスカー信号を生成し、ミキシングする量を調節してミキシングし出力する。これにより、第6の実施形態のサウンドマスキング装置100Eでは、対象話者U1にマスキング効果が高い方式のマスカー音のミキシング量を調節できるので、よりマスキング効果を高めることができる。
(G)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(G−1)例えば、本発明のサウンドマスキング装置を電話会議で周囲の対象者以外の人に対して、会話の内容が漏れることを防止するする装置に搭載されるようにしても良い。この場合、サウンドマスキング装置において、対象話者U1は電話会議で発話している人となる。
(G−2)上記の各実施形態において、サウンドマスキング装置の、サウンドマスキング部は、ネットワーク上の処理装置(例えば、サーバ等)で処理される構成としても良い。
(G−3)上記の各実施形態において、サウンドマスキング装置には、オーディオデバイス(マイク、マイクアンプ、AD変換器、スピーカ、スピーカアンプ、及びDA変換器)が含まれる構成として説明したが、サウンドマスキング装置についてオーディオデバイスを除外した構成として製造し、実際に使用する現場でオーディオデバイスを別途接続するようにしても良い。すなわち、サウンドマスキング装置には、少なくともサウンドマスキング処理部が含まれる構成としても良い。
100、100A、100B、100C、100D、100E…サウンドマスキング装置、101…マイク、102…マイクアンプ、103…AD変換器、104…スピーカ、105…スピーカアンプ、106…DA変換器、107…スピーカ、200、200A、200B、200C、200D、200E…サウンドマスキング処理部、201…フレーム分割部、202、202A…入力信号DB、203、203A、203B…信号選択部、204、204A、204B、204C、204D…マスカー信号生成部、205…音声区間判定部、206…DB蓄積判定部、207…ピッチ推定部、208…クラブ判定部、209…第三者音声信号DB、210…使用DB判定部、211…第1の入力信号DB、212…第2の入力信号DB、213…第1の信号選択部、216…第2の信号選択部、215…第1のマスカー生成部、216…第2のマスカー生成部、217…マスカー信号ミキシング部、300…コンピュータ、301…プロセッサ、302…一次記憶部、303…二次記憶部。

Claims (11)

  1. 対象話者が発話した音声を収音するマイクから供給されたマイク入力信号を所定の長さに分割するフレーム分割手段と、
    前記フレーム分割されたマイク入力信号を蓄積する入力信号蓄積手段と、
    前記入力信号蓄積手段に蓄積されている過去のフレーム分割したマイク入力信号から、マスカー信号の生成に使用する信号を選択し、選択結果を出力する信号選択手段と、
    前記マスカー信号の生成に使用する信号を用いて、前記対象話者が発話した音声を、聞き取りにくくさせる前記マスカー信号を生成して出力するマスカー信号生成手段と
    を有することを特徴とする音響処理装置。
  2. 前記マスカー信号生成手段が出力した前記マスカー信号を前記対象話者以外のマスキング対象者に向けて放出するスピーカをさらに有することを特徴とする請求項1に記載の音響処理装置。
  3. 前記マスカー信号生成手段が出力した前記マスカー信号を反射面に反射させ、前記反射面を反射した前記反射音が前記マスキング対象者の方向に向くように配置されているスピーカをさらに有することを特徴とする請求項1に記載の音響処理装置。
  4. マイク入力信号が音声区間であるか非音声区間であるかを判定する音声区間判定部をさらに備え、
    前記入力信号蓄積手段は、前記音声区間と判定されたときのみ、マイク入力信号を蓄積する
    ことを特徴とする請求項1〜3のいずれかに記載の又は請求項2に記載の音響処理装置。
  5. マイク入力信号のピッチを推定するピッチ推定手段をさらに備え、
    前記入力信号蓄積手段は、マイク入力信号を前記ピッチ推定手段が推定したピッチに応じて複数のクラスのいずれかに振り分けて蓄積し、
    前記マスカー信号生成手段は、前記入力信号蓄積手段から前記ピッチ推定手段が推定したピッチに応じたクラスのマイク入力信号を用いて、マスカー信号を生成する
    ことを特徴とする請求項1〜4のいずれかに記載の音響処理装置。
  6. 前記対象話者とは異なる第三者が発話した音声を収音した第三者音声信号を蓄積している第三者信号蓄積手段と、
    前記入力信号蓄積手段に、所定以上の量のマイク入力信号が蓄積されているか否かを判定する蓄積判定手段とをさらに備え、
    前記マスカー信号生成手段は、前記蓄積判定手段で、前記入力信号蓄積手段に、所定以上の量のマイク入力信号が蓄積されていないと判定されている間だけ、前記第三者信号蓄積手段に蓄積されている第三者音声信号を用いてマスカー信号を生成することを特徴とする請求項1〜5のいずれかに記載の音響処理装置。
  7. 前記入力信号蓄積手段は、複数のフレームに分割されたマイク入力信号を蓄積しており、
    前記マスカー信号生成手段は、前記入力信号蓄積手段に蓄積された複数のフレームのマイク入力信号を重畳した信号、又は、前記入力信号蓄積手段に蓄積された複数のフレームの前記入力信号を時間処理して重畳した信号をマスカー信号として出力する
    ことを特徴とする請求項1に記載の音響処理装置。
  8. 前記マスカー信号生成手段は、前記入力信号蓄積手段に蓄積されているマイク入力信号に所定量の遅延を与えて疑似エコーを生成し、生成した疑似エコーをマスカー信号として出力することを特徴とする請求項1に記載の音響処理装置。
  9. 前記入力信号蓄積手段は、複数のフレームに分割されたマイク入力信号を蓄積しており、
    前記マスカー信号生成手段は、
    前記入力信号蓄積手段に蓄積された複数のフレームのマイク入力信号を重畳した信号、又は、前記入力信号蓄積手段に蓄積された複数のフレームの前記入力信号を時間処理して重畳した信号を第1のマスカー信号として生成し、
    前記入力信号蓄積手段に蓄積されているマイク入力信号に所定量の遅延を与えて疑似エコーを生成し、生成した疑似エコーを第2のマスカー信号として生成し、
    前記第1のマスカー信号と前記第2のマスカー信号とを重畳した信号をマスカー信号として生成して出力する
    ことを特徴とする請求項1に記載の音響処理装置。
  10. コンピュータを、
    対象話者が発話した音声を収音するマイクから供給されたマイク入力信号を所定の長さに分割するフレーム分割手段と、
    前記フレーム分割されたマイク入力信号を蓄積する入力信号蓄積手段と、
    前記入力信号蓄積手段に蓄積されている過去のフレーム分割したマイク入力信号から、マスカー信号の生成に使用する信号を選択し、選択結果を出力する信号選択手段と、
    前記マスカー信号の生成に使用する信号を用いて、前記対象話者が発話した音声を、聞き取りにくくさせる前記マスカー信号を生成して出力するマスカー信号生成手段と
    して機能させることを特徴とする音響処理プログラム。
  11. 音響処理方法において、
    フレーム分割手段、入力信号蓄積手段、信号選択手段、及びマスカー信号生成手段を有し、
    前記入力信号蓄積手段は、対象話者が発話した音声を収音するマイクから供給されたマイク入力信号を所定の長さに分割し、
    前記フレーム分割されたマイク入力信号を蓄積し、
    前記入力信号蓄積手段に蓄積されている過去のフレーム分割したマイク入力信号から、マスカー信号の生成に使用する信号を選択し、選択結果を出力し、
    前記マスカー信号の生成に使用する信号を用いて、前記対象話者が発話した音声を、聞き取りにくくさせる前記マスカー信号を生成して出力する
    ことを特徴とする音響処理方法。
JP2019151513A 2019-08-21 2019-08-21 音響処理装置、音響処理プログラム及び音響処理方法 Active JP7287182B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019151513A JP7287182B2 (ja) 2019-08-21 2019-08-21 音響処理装置、音響処理プログラム及び音響処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019151513A JP7287182B2 (ja) 2019-08-21 2019-08-21 音響処理装置、音響処理プログラム及び音響処理方法

Publications (2)

Publication Number Publication Date
JP2021032989A true JP2021032989A (ja) 2021-03-01
JP7287182B2 JP7287182B2 (ja) 2023-06-06

Family

ID=74678609

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019151513A Active JP7287182B2 (ja) 2019-08-21 2019-08-21 音響処理装置、音響処理プログラム及び音響処理方法

Country Status (1)

Country Link
JP (1) JP7287182B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021124684A (ja) * 2020-02-07 2021-08-30 沖電気工業株式会社 音響処理装置、音響処理プログラム及び音響処理方法
JPWO2022162929A1 (ja) * 2021-02-01 2022-08-04

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06175666A (ja) * 1992-12-04 1994-06-24 Daiken Trade & Ind Co Ltd マスキング用パーティションおよびマスキング用部屋構造
JP2005534061A (ja) * 2002-07-24 2005-11-10 アプライド マインズ インク 言語をマスキングするための方法およびシステム
JP2008233671A (ja) * 2007-03-22 2008-10-02 Yamaha Corp サウンドマスキングシステム、マスキングサウンド生成方法およびプログラム
JP2012194528A (ja) * 2010-11-25 2012-10-11 Yamaha Corp マスカ音生成装置、マスカ音信号を記憶した記憶媒体、マスカ音再生装置、およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06175666A (ja) * 1992-12-04 1994-06-24 Daiken Trade & Ind Co Ltd マスキング用パーティションおよびマスキング用部屋構造
JP2005534061A (ja) * 2002-07-24 2005-11-10 アプライド マインズ インク 言語をマスキングするための方法およびシステム
JP2008233671A (ja) * 2007-03-22 2008-10-02 Yamaha Corp サウンドマスキングシステム、マスキングサウンド生成方法およびプログラム
JP2012194528A (ja) * 2010-11-25 2012-10-11 Yamaha Corp マスカ音生成装置、マスカ音信号を記憶した記憶媒体、マスカ音再生装置、およびプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021124684A (ja) * 2020-02-07 2021-08-30 沖電気工業株式会社 音響処理装置、音響処理プログラム及び音響処理方法
JP7532791B2 (ja) 2020-02-07 2024-08-14 沖電気工業株式会社 音響処理装置、音響処理プログラム及び音響処理方法
JPWO2022162929A1 (ja) * 2021-02-01 2022-08-04
WO2022162929A1 (ja) * 2021-02-01 2022-08-04 三菱電機株式会社 サウンドマスキング装置、サウンドマスキングシステム、制御方法、及び制御プログラム
JP7292531B2 (ja) 2021-02-01 2023-06-16 三菱電機株式会社 サウンドマスキング装置、サウンドマスキングシステム、制御方法、及び制御プログラム

Also Published As

Publication number Publication date
JP7287182B2 (ja) 2023-06-06

Similar Documents

Publication Publication Date Title
JP5665134B2 (ja) ヒアリングアシスタンス装置
JP5955340B2 (ja) 音響システム
Plomp The role of modulation in hearing
JP5644359B2 (ja) 音声処理装置
JP5664480B2 (ja) 異常状態検出装置、電話機、異常状態検出方法、及びプログラム
US11024330B2 (en) Signal processing apparatus, signal processing method, and storage medium
JP7287182B2 (ja) 音響処理装置、音響処理プログラム及び音響処理方法
Kumar Real-time performance evaluation of modified cascaded median-based noise estimation for speech enhancement system
JP5130895B2 (ja) 音声処理装置、音声処理システム、音声処理プログラム及び音声処理方法
JP4785563B2 (ja) 音声処理装置および音声処理方法
CN112437957B (zh) 用于全面收听的强加间隙插入
JPH09311696A (ja) 自動利得調整装置
JP2012008393A (ja) 音声変更装置、音声変更方法および音声情報秘話システム
JP2021135361A (ja) 音響処理装置、音響処理プログラム及び音響処理方法
JP2021124684A (ja) 音響処理装置、音響処理プログラム及び音響処理方法
JP7347520B2 (ja) 音信号処理装置、音信号処理方法および音信号処理プログラム
JP5076974B2 (ja) 音処理装置およびプログラム
JP2015034932A (ja) 秘匿化データ生成装置、秘匿化装置およびプログラム
US20160140950A1 (en) Method and System for Real-Time Synthesis of an Acoustic Environment
JP7552034B2 (ja) 音響処理装置、音響処理プログラム及び音響処理方法
JP2002064617A (ja) 反響抑圧方法・反響抑圧装置
JP2011170113A (ja) 会話保護度合評価システムおよび会話保護度合評価方法
JP2011154139A (ja) マスカ音生成装置およびプログラム
JP2014202777A (ja) マスカー音信号の生成装置、生成方法およびプログラム
JP2905112B2 (ja) 環境音分析装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220510

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230407

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230508

R150 Certificate of patent or registration of utility model

Ref document number: 7287182

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150