JP7211523B2

JP7211523B2 - マスク生成装置、音信号処理装置、マスク生成方法、およびプログラム

Info

Publication number: JP7211523B2
Application number: JP2021543902A
Authority: JP
Inventors: 咲子美島
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2023-01-24
Anticipated expiration: 2039-09-05
Also published as: US11881200B2; US20220301536A1; WO2021044595A1; JPWO2021044595A1

Description

本発明は、マスク生成装置、マスク生成方法、および記録媒体に関し、特に、音イベントが存在する時間を示すイベントマスクを生成するマスク生成装置、マスク生成方法、および記録媒体に関する。

音信号から、音声が存在する区間とそれ以外の区間とを判別する関連する技術が存在する。このような関連する技術は、ＶＡＤ（Voice Activity Detection）と呼ばれている。

特許文献１には、入力された音信号から定常の雑音を除去した後、スペクトルの形状に基づいて、非定常の雑音（突発音）が含まれる区間を検出することが記載されている。

特許文献２には、音信号から変換したスペクトログラムに対し、イベント情報に応じたイベントマスクを用いてマスキング処理を実行することによって、音イベントが存在する時間を特定することが記載されている。ここでのイベントマスクとは、特定の区間（ここでは音イベントが存在する時間）では値１を持ち、それ以外の区間（ここでは音イベントが存在しない時間）では値０を持つ時間の関数である。このイベントマスクをスペクトログラムに適用することによって、特定の区間以外（ここでは音イベントが存在しない時間）におけるスペクトログラムの全周波数成分の強度（パワー）がゼロになる。

特許文献３には、別々の場所で集音された複数の音信号から、それぞれ、音イベントを検出し、検出された音イベントに基づいて、複数の音信号に共通して含まれる音声を抽出することが記載されている。

特許文献１から３に示された関連する技術は、例えば、音声と雑音とを判別して、音声に含まれる雑音を抑制するために利用される。また、関連する技術は、音声認識の精度を向上させるためにも利用される。

国際公開第２０１４／０２７４１９号特開２０１７－０６７８１３号公報特開２０１８－１８９９２４号公報

特許文献１、２に記載の関連する技術は、検出対象である音（音声または非音声）に対応するスペクトル形状を予め仮定しなければならない。したがって、特許文献１、２に記載の関連する技術は、非定常の音を、音イベントとして検出できない。具体的には、特許文献１、２に記載の関連する技術は、未知のスペクトル形状を有する非音声を、音イベントとして検出することが困難である。

特許文献３に記載の関連する技術は、音圧を判定するために、音信号の時間波形を用いている。そのため、検出対象である音が、ごく一部の周波数でのみ強いパワーを有する未知のスペクトル形状を持つ場合、音信号から十分な音圧が得られず、その結果、音イベントの検出漏れが生じる。

本発明は上記の課題に鑑みてなされたものであり、その目的は、スペクトルの形状が未知の音を、音イベントとして検出できる音信号処理装置等を提供することにある。

本発明の一態様に係わるマスク生成装置は、スペクトログラムから音圧情報を抽出する抽出手段と、抽出した音圧情報に対し、二値化処理を実行することにより、音イベントが存在する時間を示すイベントマスクを生成する二値化手段とを備えている。

本発明の一態様に係わるマスク生成方法は、スペクトログラムから音圧情報を抽出し、抽出した音圧情報に対し、二値化処理を実行することにより、音イベントが存在する時間を示すイベントマスクを生成することを含む。

本発明の一態様に係わる一時的でない記録媒体は、スペクトログラムから音圧情報を抽出することと、抽出した音圧情報に対し、二値化処理を実行することにより、音イベントが存在する時間を示すイベントマスクを生成することとをコンピュータに実行させるためのプログラムを格納している。

本発明の一態様によれば、スペクトルの形状が未知の音を、音イベントとして検出できる。

実施形態１に係わるマスク生成装置の構成を示すブロック図である。実施形態１に係わるマスク生成装置が生成するイベントマスクの一例を示す図である。実施形態１に係わるマスク生成装置が実行するマスク生成処理の流れを示すフローチャートである。実施形態１に係わる音信号処理装置の構成を示すブロック図である。実施形態１に係わる音信号処理装置の周波数変換部が生成するスペクトログラムの一例を示す図である。非線形関数を用いて射影したスペクトログラムの一例を示す図である。実施形態１に係わる音信号処理装置の動作の流れを示すフローチャートである。実施形態１に係わる音信号処理装置の別の動作の流れを示すフローチャートである。実施形態２に係わるマスク生成装置の構成を示すブロック図である。実施形態２に係わるマスク生成装置の動作の流れを示すフローチャートである。スペクトログラムからイベントマスクが生成される一連の流れを示す図である。実施形態３に係わる音信号処理装置の構成を示すブロック図である。実施形態３に係わる音信号処理装置の動作の流れを示すフローチャートである。実施形態３に係わる音信号処理装置の別の動作の流れを示すフローチャートである。実施形態４に係わる音信号処理装置の構成を示すブロック図である。実施形態４に係わる音信号処理装置の動作の流れを示すフローチャートである。

〔実施形態１〕
図１～図８を参照して、実施形態１について以下で説明する。

（マスク生成装置１２０）
図１を参照して、本実施形態１に係わるマスク生成装置１２０について説明する。図１は、マスク生成装置１２０の構成を示すブロック図である。図１に示すように、マスク生成装置１２０は、抽出部２１および二値化部２２を備えている。

抽出部２１は、スペクトログラムから音圧情報を抽出する。抽出部は、抽出手段の一例である。音圧情報は、例えば、音信号に関して測定された、パスカルまたはデジベルの単位で表される強度（パワー）であってもよいし、強度（パワー）に基づく音圧レベルであってもよい。例えば、抽出部２１は、１台以上のマイクロフォンが集音した音信号から変換されたスペクトログラムを受信する。あるいは、抽出部２１は、あらかじめ録音された音信号のデータをスペクトログラムに変換してもよい。

そして、抽出部２１は、スペクトログラムに含まれる周波数の全帯域における強度（パワー）の最大値の時系列（最大値系列と呼ぶ）を音圧情報とする。あるいは、抽出部２１は、スペクトログラムに含まれる周波数の全帯域における強度（パワー）の平均値の時系列（平均値系列と呼ぶ）を音圧情報とする。もしくは、抽出部２１は、これらの平均値系列および最大値系列の両方を、音圧情報としてもよい。

二値化部２２は、抽出した音圧情報に対し、二値化処理を実行することにより、音イベントが存在する時間を示すイベントマスクを生成する。二値化部２２は、二値化手段の一例である。具体的には、二値化部２２は、音圧情報に含まれる強度あるいは音圧レベルを、それぞれ、所定の閾値を超えるか否かに応じて、１．０または０に二値化する。二値化部２２は、後述する音信号処理装置１のマスキング部２０（図４）へ、生成したイベントマスクを送信する。

イベントマスクは、スペクトログラム中において、検出対象の音イベントが存在する区間（具体的には時間）とそれ以外の区間（具体的には雑音のみが存在する時間、または無音の時間）とを判別するために用いられる。音イベントとは、検出対象である音（音声あるいは非音声）の発生に伴って観測される音信号である。検出対象の音イベントは、音声（例えば人の声）であってもよいし、非音声（例えば機械の作動音）であってもよい。

図２は、マスク生成装置１２０が生成するイベントマスクの一例を示す図である。図２に示すイベントマスクは、二値化部２２によって二値化された音圧情報から生成される。図２に示すイベントマスクにおいて、横軸は時間であり、縦軸は二値化された強度または音圧レベル（ここでは値１．０または０）が対応する。イベントマスクは、検出対象の音イベントが存在する区間では、値１．０を取り、検出対象の音イベントが存在しない区間では、値０を取る。

本実施形態１では、イベントマスクは、後述する音信号処理装置１がスペクトログラムに対してマスキング処理を実施するために使用される。本実施形態１のマスキング処理では、スペクトログラムに対し、図２に示すイベントマスクが乗算される。これにより、検出対象の音イベントが存在しない区間におけるスペクトログラムの全周波数成分が０になるので、スペクトログラムから、雑音など、検出対象の音イベントとは無関係の音を除去できる。マスキング処理されたスペクトログラムには、検出対象の音イベントである音だけが残る。

以下では、検出対象の音声あるいは非音声を、どちらも検出対象の音と呼ぶ。検出対象の音は、定常または非定常のどちらであってもよい。また、上述したように、検出対象の音は、音声または非音声のどちらであるかを問わない。

（マスク生成処理）
図３を参照して、本実施形態１に係わるマスク生成装置１２０の動作について説明する。図３は、マスク生成装置１２０の各部が実行するマスク生成処理の流れを示すフローチャートである。

図３に示すように、抽出部２１は、スペクトログラムから音圧情報を抽出する（Ｓ２１）。抽出部２１は、抽出した音圧情報を二値化部２２へ送信する。

二値化部２２は、抽出部２１から、音圧情報を受信する。二値化部２２は、抽出した音圧情報に対し、二値化処理を実行する（Ｓ２２）。これにより、二値化部２２は、音イベントが存在する時間を示すイベントマスクを生成する。具体的には、イベントマスクは、音イベントが存在する時間において値１．０を持ち、音イベントが存在しない時間において値０を持つ時間の関数である。

二値化部２２は、生成したイベントマスクを、後述する音信号処理装置１のマスキング部２０（図４）へ送信する。以上で、マスク生成装置１２０の動作は終了する。

（音信号処理装置１）
図４を参照して、本実施形態１に係わる音信号処理装置１について説明する。図４は、音信号処理装置１の構成を示すブロック図である。図４に示すように、音信号処理装置１は、周波数変換部１０、マスキング部２０、学習部３０、検出部４０、およびイベントモデルデータベース５０を備えている。

周波数変換部１０は、音信号およびイベントラベルを受信する。イベントラベルは、音イベントの識別子である。

周波数変換部１０は、受信した音信号を周波数変換する。ここでいう周波数変換とは、音信号を、音信号の周波数成分の時間変化を示す表現に変換することである。すなわち、周波数変換部１０は、音信号を周波数変換することによって、周波数成分ごとの強度（パワー）の時間変化を示すスペクトログラムを生成する。図５において、一点破線は色の濃度を模式的に表現している。また、図６において、実線およびハッチングにより、図５の一点破線が表現する色よりも濃い色を模式的に表現している。

図５は、周波数変換部１０が生成するスペクトログラムの一例を示すグラフである。図５に示すグラフの横軸は時間であり、縦軸は周波数を表す。音信号の強度（パワー）は、色の濃淡と対応する。図５では、音信号の強度（パワー）の大小を一点破線の密度で表現している。ただし、図５に示すスペクトログラムにおいて、強度（パワー）が微弱な領域では、一点破線の表示を省略している。

さらに、周波数変換部１０は、非線形関数（例えばシグモイド関数）を用いて、スペクトログラムを射影する。具体的には、周波数変換部１０は、周波数ごとの音信号の強度を独立変数ｘとして非線形関数へ入力し、非線形関数ｆにより変換された強度ｆ（ｘ）を取得する。非線形関数を用いた変換によって、強い強度はより強くなるが、弱い強度はそれほど強くならない。これにより、射影したスペクトログラムにおいて、元のスペクトログラムよりも、周波数ごとの音信号の強度の強弱が強調される。

図６は、シグモイド関数を用いて射影したスペクトログラムの一例を示すグラフである。ただし、図６に示すスペクトログラムにおいて、強度（パワー）が微弱な領域では、実線およびハッチングの表示を省略している。図６に示すグラフを、図５に示すグラフと比較すると、図６に示すグラフでは、音信号の強度の高い領域の色が濃くなっている。すなわち、図６に示す射影したスペクトログラムにおいて、図５に示すスペクトログラムよりも、音信号の強度の高い領域（ハッチングの部分）が強調されている。以下では、射影したスペクトログラムのことも、単にスペクトログラムと呼ぶ場合がある。

周波数変換部１０は、（射影した）スペクトログラムを、音信号とともに受信したイベントラベルとともに、学習部３０へ送信する。

学習部３０は、周波数変換部１０から、イベントラベルおよびスペクトログラムを受信する。学習部３０は、スペクトログラムから特徴量を抽出する。例えば、学習部３０は、MFCC（Mel-Frequency Cepstrum Coefficients）またはスペクトル包絡等の特徴量を、スペクトログラムから抽出する。

学習部３０は、いくつものスペクトログラムから抽出した特徴量をイベントモデルに学習させる。こうすることで、後述する検出部４０が、音信号処理装置１に対して入力された１つの入力信号を、学習済みのイベントモデルに入力すると、学習済みのイベントモデルは正しい音イベントの検出結果を出力できる。イベントモデルは、例えばニューラルネットワークである。

音イベントの検出に用いられる上述の入力信号は、時系列のスペクトルである。例えば、入力信号は、音信号を周波数変換して得られるスペクトル（パワースペクトル）を時系列に並べたスペクトログラムである。あるいは、入力信号は、スペクトログラム以外に、他の周波数領域の特徴量であってもよい。音信号を他の周波数領域の特徴量に変換する方法として、ＦＦＴ（Fast Fourier Transform）、ＣＱＴ（Constant-Q Transformation）、ウェーブレット変換等を利用できる。ここでいう周波数領域の特徴量とは、音信号を周波数変換することによって得られる、一または複数の周波数の帯域における物理パラメータの時系列のことである。例えば、周波数領域の特徴量として、上述したスペクトログラムのほかに、メル周波数スペクトログラム、ＣＱＴスペクトル（対数周波数スペクトログラムとも呼ぶ）を挙げることができる。

あるいは、学習部３０は、図示しないマイク等から、音信号の時間波形を取得して、取得した一定期間の時間波形を周波数変換することによって得られるスペクトログラムを、入力信号としてもよい。

イベントモデルの学習が終了した後、学習部３０は、イベントラベルと紐付けた学習済みのイベントモデルを、イベントラベルと紐付けて、イベントモデルデータベース５０に格納する。

検出部４０は、音イベント検出用の入力信号を受信する。検出部４０は、イベントモデルデータベース５０に格納された学習済みのイベントモデルを用いて、入力信号から音イベントを検出する。

より詳細には、検出部４０は、入力信号を学習済みのイベントモデルに入力し、学習済みのイベントモデルから出力される音イベントの検出結果を受信する。音イベントの検出結果は、検出された音イベントを示す情報（音イベントの種別を示す情報を含む）と、音イベントが存在する時間を示す情報とを少なくとも含む。検出部４０は、検出された音イベントを示す情報と、音イベントが存在する時間を示す情報とを、イベント検出フラグとして、マスキング部２０へ出力する。

マスキング部２０は、検出部４０から、イベント検出フラグを受信する。またマスキング部２０は、検出対象の音イベントに応じたイベントマスクを、マスク生成装置１２０から受信する。前記実施形態１において説明したように、イベントマスクは、音イベントが存在する時間において値１．０を持ち、音イベントが存在しない時間において値０を持つ時間の関数である。

マスキング部２０は、受信したイベントマスクを用いて、音イベントの検出結果の正誤を判別する。一例では、マスキング部２０は、音イベントが検出された時間のみで値１．０を持ち、それ以外の時間で値０を持つ時間の関数に対し、イベントマスクを適用する。

音イベントが検出された時間において、イベントマスクが値１．０を持つ場合、マスキング部２０は、値１．０を出力する。この場合、マスキング部２０は、音イベントの検出結果が正しいと判定し、音イベントの検出結果を出力する。一方、音イベントが検出された時間において、イベントマスクが値１．０を持つ場合、マスキング部２０は、値０を出力する。この場合、マスキング部２０は、音イベントの検出結果が誤りであると判定し、音イベントの検出結果を出力しない。言い換えれば、本実施形態１において、マスキング部２０は、イベントマスクを用いて、音イベントの検出結果をマスキングする。

（モデル学習処理）
図７を参照して、本実施形態１に係わる音信号処理装置１の動作について説明する。図７は、音信号処理装置１の各部が実行する処理の流れを示すシーケンス図である。

図７に示すように、まず音信号処理装置１の周波数変換部１０は、音信号およびイベントラベルを受信する。音信号およびイベントラベルは、識別子によって互いに対応付けられている。周波数変換部１０は、受信した音信号を周波数変換する。さらに、周波数変換部１０は、生成したスペクトログラムにおいてパワーの強い領域を強調するように、非線形関数によってスペクトログラムを射影する（Ｓ１１）。

その後、周波数変換部１０は、（射影した）スペクトログラムを、イベントラベルとともに、学習部３０へ送信する。

学習部３０は、周波数変換部１０から、スペクトログラムおよびイベントラベルを受信する。学習部３０は、受信したスペクトログラムを用いて、イベントモデル（例えばニューラルネットワーク）を学習させる（Ｓ１２）。

その後、学習部３０は、学習済みのイベントモデルを、イベントラベルと紐付けて、イベントモデルデータベース５０へ格納する（Ｓ１３）。

以上で、音信号処理装置１の動作は終了する。

（イベント検出処理）
図８を参照して、本実施形態１に係わる音信号処理装置１の別の動作について説明する。図８は、音信号処理装置１の各部が実行するイベント検出処理の流れを示すフローチャートである。

図８に示すように、まず音信号処理装置１の検出部４０は、イベント検出用の入力信号を受信する。検出部４０は、イベントモデルデータベース５０に格納された学習済みのイベントモデルを用いて、入力信号から音イベントを検出する（Ｓ１１１）。

例えば、入力信号は、音信号を周波数領域の特徴量に変換して得られるスペクトルを時系列に並べたスペクトログラムである。検出部４０は、入力信号を学習済みのイベントモデルに入力し、学習済みのイベントモデルから出力される音イベントの検出結果を受信する。検出部４０は、検出された音イベントを示す情報と、音イベントが存在する時間を示す情報とを、イベント検出フラグとして、マスキング部２０へ出力する。

マスキング部２０は、検出部４０から、イベント検出フラグを受信する。またマスキング部２０は、検出対象の音イベントを検出するためのイベントマスクを、マスク生成装置１２０の二値化部２２（図１）から受信する。マスキング部２０は、受信したイベントマスクを用いて、音イベントの検出結果の正誤を判別する（Ｓ１１２）。

音イベントが検出された時間が、イベントマスクにおける値１．０の区間に含まれる場合のみ、マスキング部２０は、音イベントの検出結果を出力する（Ｓ１１３）。

以上で、音信号処理装置１の動作は終了する。

（本実施形態の効果）
本実施形態の構成によれば、マスク生成装置１２０の抽出部２１は、スペクトログラムから音圧情報を抽出する。二値化部２２は、抽出した音圧情報に対し、二値化処理を実行することにより、音イベントが存在する時間を示すイベントマスクを生成する。このように生成されたイベントマスクを用いることにより、スペクトル形状が未知の場合であっても、音イベントを検出できる。

また本実施形態の構成によれば、学習済みのイベントモデルから出力された音イベントの検出結果に対して、イベントマスクを適用することで、音圧が弱い雑音部分で誤検出された音イベントの検出結果が除去される。そのため、音イベントの誤検出を防ぐことができる。

〔実施形態２〕
図９～図１４を用いて、実施形態２について説明する。

（マスク生成装置２２０）
図９は、本実施形態２に係わるマスク生成装置２２０の構成を示すブロック図である。図９に示すように、マスク生成装置２２０は、抽出部２２１および二値化部２２２を備えている。ここで二値化部２２２は、前処理部２２２１、統合部２２２２、および平滑化部２２２３を備えている。

抽出部２２１は、スペクトログラムから音圧情報を抽出する。抽出部は、抽出手段の一例である。例えば、抽出部２２１は、１台以上のマイクロフォンが集音した音信号を受信する。あるいは、抽出部２２１は、あらかじめ録音された音信号のデータを周波数変換することによって、スペクトログラムを生成してもよい。抽出部２２１は、抽出した音圧情報を二値化部２２２へ送信する。

二値化部２２２は、抽出した音圧情報に対し、二値化処理を実行することにより、音イベントが存在する時間を示すイベントマスクを生成する。二値化部２２２は、二値化手段の一例である。二値化部２２２は、前記実施形態１において説明した音信号処理装置１の学習部３０（図４）へ、生成したイベントマスクを送信する。

（マスク生成処理）
図１０および図１１を参照して、二値化部２２２の動作を説明する。図１０は、二値化部２２２の各部が実行する処理の流れを示すフローチャートである。図１１は、スペクトログラムからイベントマスクが生成される一連の流れを示す図である。図１１において、音圧情報Ｐ１、Ｐ２には、０以上の整数の連続する番号（０、１）が、あらかじめ割り当てられている。

図１０に示すように、フローの最初に、変数ｎに０が代入される（Ｓ２２１）。変数ｎは、抽出部２２１が抽出した音圧情報の番号と対応する。

変数ｎがＮより小さい場合（Ｓ２２２でＹｅｓ）、フローはステップＳ２２３へ進む。変数ｎがＮ以上である場合（Ｓ２２２でＮｏ）、フローはステップＳ２２５へ進む。Ｎ（＞１）は音圧情報の総数と対応する。

抽出部２２１は、スペクトログラムから、番号ｎに対応する１つの音圧情報を抽出する（Ｓ２２３）。図１１に示す例では、抽出部２２１は、スペクトログラムから、２つの音圧情報Ｐ２１、Ｐ２２のうち、番号ｎに対応する一つを抽出する。

２つの音圧情報Ｐ２１、Ｐ２２は、それぞれ、スペクトログラムの最大値系列および平均値系列である。最大値系列とは、スペクトログラムに含まれる強度（パワー）の最大値の時系列である。平均値系列とは、スペクトログラムに含まれる強度（パワー）の平均値の時系列である。

図１１において、音圧情報Ｐ２１、Ｐ２２を表す各グラフの横軸は時間であり、縦軸は強度（パワー）である。

最大値系列の音圧情報は、突発音のような、狭い帯域で音圧が高くなる音イベントを検出するために有効であり、平均値系列の音圧情報は、広い帯域で音圧が高くなる音イベントを検出するために有効である。あるいは、抽出部２２１は、スペクトログラムから、最大値系列および平均値系列を少なくとも含む３つ以上の音圧情報を抽出してもよい。

抽出部２２１は、番号ｎに対応する番号を割り当てられた音圧情報を、二値化部２２２の前処理部２２２１へ送信する。

前処理部２２２１は、抽出部２２１から受信した音圧情報を二値化する。具体的には、前処理部２２２１は、番号ｎに対応する音圧情報において、閾値以上のパワーを値１．０に、閾値を下回るパワーを０に変換する。閾値は、例えば、０から無限（あるいは予め定めた有限値）までの周波数の範囲において音信号のパワーを積分した値の１／ｍ（ｍ＞１）に定められる。

図１１に示す例では、二値化された２つの音圧情報Ｐ３１、Ｐ３２が示されている。２つの音圧情報Ｐ３１、Ｐ３２は、それぞれ、音圧情報Ｐ２１、Ｐ２２が二値化されたものである。

その後、変数ｎを１加算し（Ｓ２２４）、フローはステップＳ２２２へ戻る。変数ｎがＮよりも小さい間、上述したステップＳ２２２からステップＳ２２４までの処理が繰り返される。変数ｎがＮ以上になったとき（Ｓ２２２でＮｏ）、前処理部２２２１は、Ｎ個の二値化した音圧情報を、統合部２２２２へ送信する。そして、フローはステップＳ２２５へ進む。

統合部２２２２は、前処理部２２２１から、Ｎ個の二値化した音圧情報を受信する。統合部２２２２は、Ｎ個の二値化した音圧情報を統合する（Ｓ２２５）。

具体的には、統合部２２２２は、ある時刻において、Ｎ個の二値化した音圧情報のうち、少なくとも１つの値が１．０であるならば、当該時刻における統合した音圧情報の値を１．０にする一方、全ての値が０であるならば、当該時刻における統合した音圧情報の値も０にする。

このようにして、統合部２２２２は、同一の時刻におけるＮ個の二値化した音圧情報の値（１．０または０）に基づいて、一つの統合した音圧情報を生成する。図１１に示す例では、２つの二値化した音圧情報Ｐ３１、Ｐ３２が統合されることによって、一つの音圧情報Ｐ４が生成されている。統合部２２２２は、統合した音圧情報を、平滑化部２２２３へ送信する。

平滑化部２２２３は、統合部２２２２から、統合した音圧情報を受信する。平滑化部２２２３は、統合した音圧情報を平滑化する（Ｓ２２６）。具体的には、平滑化部２２２３は、音圧情報を所定の範囲の時間ごとに分割する。一つの範囲の時間において、値１．０の割合（あるいは、値１．０と値０の比率）が一定以上である場合、平滑化部２２２３は、その範囲の時間における強度（パワー）あるいは音圧レベルを全て１．０にする。逆に、所定の範囲の時間において、値１．０の割合（あるいは、値１．０と値０の比率）が一定以上でない場合、平滑化部２２２３は、その範囲の時間における強度（パワー）あるいは音圧レベルを全て０にする。

平滑化部２２２３は、このように平滑化した音圧情報を、イベントマスクとして、音信号処理装置１のマスキング部２０（図４）へ出力する。以上で、マスク生成処理は終了する。

（本実施形態の効果）
本実施形態の構成によれば、抽出部２２１は、スペクトログラムから複数の音圧情報を抽出する。複数の音圧情報を用いることにより、音イベントの検出漏れを防ぐ効果が期待できる。二値化部２２２は、抽出した音圧情報に対し、二値化処理を実行することにより、音イベントが存在する時間を示すイベントマスクを生成する。

また、前記実施形態１において説明したように、音信号処理装置１において、学習済みのイベントモデルから出力された音イベントの検出結果に対して、このイベントマスクを適用することで、誤検出された音イベントの検出結果が除去される。そのため、音イベントの誤検出を防ぐことができる。

〔実施形態３〕
図１２～図１４を参照して、実施形態３について説明する。

（音信号処理装置２）
図１２を参照して、本実施形態３に係わる音信号処理装置２について説明する。図１２は、音信号処理装置２の構成を示すブロック図である。図１２に示すように、音信号処理装置２は、周波数変換部１０、マスキング部２０、学習部３０、検出部４０、およびイベントモデルデータベース５０を備えている。

本実施形態３に係わる音信号処理装置２の構成は、前記実施形態１に係わる音信号処理装置１の構成と同じである。しかしながら、本実施形態３では、音信号処理装置２の動作の一部は、音信号処理装置２と異なる。以下で詳細に説明するように、本実施形態３では、イベントモデルの学習の前に、音信号から変換されたスペクトログラムに対して、マスキング処理が実行される。

（モデル学習処理）
図１３を参照して、本実施形態３に係わる音信号処理装置２の動作について説明する。図１３は、音信号処理装置２の各部が実行する処理の流れを示すフローチャートである。

図１３に示すように、まず音信号処理装置２の周波数変換部１０は、音信号およびイベントラベルを受信する。

周波数変換部１０は、受信した音信号を周波数変換する。さらに、周波数変換部１０は、生成したスペクトログラムにおいてパワーの強い領域を強調するように、非線形関数によってスペクトログラムを射影する（Ｓ３１１）。

その後、周波数変換部１０は、（射影した）スペクトログラムを、イベントラベルとともに、マスキング部２０へ送信する。

マスキング部２０は、周波数変換部１０から、スペクトログラムおよびイベントラベルを受信する。またマスキング部２０は、マスク生成装置１２０の二値化部２２（図１）またはマスク生成装置２２０の二値化部２２２（図９）から、検出対象の音イベントを検出するためのイベントマスクを受信する。マスキング部２０は、受信したイベントマスクを用いて、スペクトログラムに対し、マスキング処理を実施する（Ｓ３１２）。

具体的には、マスキング部２０は、スペクトログラムに対し、図２に例示するイベントマスクを乗算する。これにより、マスキング部２０は、イベントマスクの値が１．０である時間におけるスペクトログラムの全周波数成分の強度（パワー）をそのままとし、イベントマスクの値が０である時間におけるスペクトログラムの全周波数成分の強度（パワー）を０に変換する。マスキング部２０は、このようにしてマスキング処理されたスペクトログラムを、イベントラベルとともに学習部３０へ送信する。

学習部３０は、マスキング部２０から、マスキング処理されたスペクトログラムおよびイベントラベルを受信する。学習部３０は、マスキング処理されたスペクトログラムから、特徴量を抽出する。

１つの入力信号を入力されると、イベントモデルが正しい音イベントの検出結果を出力できるように、学習部３０はいくつもの学習用の音信号に基づくスペクトログラムの特徴量をイベントモデルに学習させる（Ｓ３１３）。

イベントモデルの学習が終了した後、学習部３０は、イベントラベルと紐付けた学習済みのイベントモデルを、イベントモデルデータベース５０に格納する（Ｓ３１４）。

以上で、音信号処理装置２の動作は終了する。

（イベント検出処理）
図１４を参照して、本実施形態３に係わる音信号処理装置２の別の動作について説明する。図１４は、音信号処理装置２の各部が実行するイベント検出処理の流れを示すフローチャートである。

図１４に示すように、まず音信号処理装置２のマスキング部２０は、イベント検出用の入力信号を受信する。ここでは、入力信号は、音信号を周波数変換したスペクトログラムである。その後、マスキング部２０は、検出対象の音イベントを検出するためのイベントマスクを用いて、入力信号（すなわちスペクトログラム）に対し、マスキング処理を実行する（Ｓ４１１）。

具体的には、マスキング部２０は、入力信号において、対応するイベントマスクの値が１．０である時間における入力信号のパワーをそのままとし、対応するイベントマスクの値が０である時間における入力信号のパワーを０に変換する。マスキング部２０は、マスキング処理された入力信号を、検出部４０へ送信する。

検出部４０は、マスキング部２０から、マスキング処理された入力信号を受信する。検出部４０は、イベントモデルデータベース５０に格納された学習済みのイベントモデルを用いて、マスキング処理された入力信号から音イベントを検出する（Ｓ４１２）。

より詳細には、検出部４０は、入力信号を学習済みのイベントモデルに入力し、学習済みのイベントモデルから出力される音イベントの検出結果を受信する。音イベントの検出結果は、検出された音イベントを示す情報と、音イベントが存在する時間を示す情報とを少なくとも含む。

その後、検出部４０は、音イベントの検出結果を出力する（Ｓ４１３）。

以上で、音信号処理装置２の動作は終了する。

（本実施形態の効果）
本実施形態の構成によれば、マスキング部２０は、入力信号に対し、マスキング処理を実行する。検出部４０は、マスキング処理された入力信号から音イベントを検出する。その後、検出部４０は、音イベントの検出結果を出力する。したがって、音信号処理装置２は、学習済みのイベントモデルを用いて、スペクトルの形状が未知の音を、音イベントとして検出できる。

〔実施形態４〕
図１５～図１６を参照して、実施形態４について説明する。本実施形態４では、イベントマスクを利用して、イベントラベルに対し、音イベントが存在する時間を示す情報を付与する構成を説明する。前記実施形態１、３では、イベントマスクは、後述する音信号処理装置１がスペクトログラムに対してマスキング処理を実施するために使用された。一方、本実施形態４では、特定の性質を有するイベントラベル（後述する弱ラベルである）に対し、イベントマスクが適用される。

（音信号処理装置３）
図１５を参照して、本実施形態４に係わる音信号処理装置３について説明する。図１５は、音信号処理装置３の構成を示すブロック図である。図１５に示すように、音信号処理装置３は、周波数変換部１０、マスキング部２０、学習部３０、検出部４０、およびイベントモデルデータベース５０を備えている。

本実施形態４に係わる音信号処理装置３の構成は、前記実施形態３に係わる音信号処理装置２の構成と同じである。しかしながら、本実施形態４に係わる音信号処理装置３の動作は、部分的に、音信号処理装置２と異なる。以下でそれを詳細に説明する。

（モデル学習処理）
図１６を参照して、本実施形態４に係わる音信号処理装置３の動作について説明する。図１６は、音信号処理装置３の各部が実行する処理の流れを示すシーケンス図である。本実施形態４に係わる音信号処理装置３の動作は、図１６のステップＳ３３１２に示す処理についてのみ、前記実施形態３に係わる音信号処理装置２の動作と異なる。

まず音信号処理装置３の周波数変換部１０は、音信号およびイベントラベルを受信する。

図１６に示すように、周波数変換部１０は、受信した音信号を周波数変換する（Ｓ３１１）。さらに、周波数変換部１０は、生成したスペクトログラムにおいて、パワーの強い領域を強調するように、非線形関数によってスペクトログラムを射影する。以下の説明では、スペクトログラムとは射影したスペクトログラムのことである。

その後、周波数変換部１０は、（射影した）スペクトログラムを、イベントラベルとともに、マスキング部２０へ送信する。本実施形態４に係わるイベントラベルは、音イベントを示す情報のみを含んでおり、音イベントが存在する時間を特定する情報は含まれていない。

実施形態４に係わる初期のイベントラベルには、検出対象の音イベントが常時存在することを示す時間情報が付与されている。例えば、イベントラベルの時間情報は、音イベントの存在の有無の時間変化を表す。本実施形態４では、このような初期のイベントラベルを、弱ラベルと定義する。例えば、弱ラベルの時間情報は、全時間において値１．０のみを有する。

マスキング部２０は、周波数変換部１０から、スペクトログラムおよび弱ラベルを受信する。また、マスキング部２０は、マスク生成装置１２０の二値化部２２（図１）またはマスク生成装置２２０の二値化部２２２（図９）から、検出対象の音イベントに応じたイベントマスクを受信する。前記実施形態１において説明したように、イベントマスクは、音イベントが存在する時間において値１．０を持ち、音イベントが存在しない時間において値０を持つ時間の関数である。

マスキング部２０は、イベントマスクを用いて、周波数変換部１０から受信した弱ラベルの持つ時間情報に対し、マスキング処理を実行する（Ｓ３３１２）。

具体的には、マスキング部２０は、弱ラベルの持つ時間情報に対し、図２に例示するイベントマスクを乗算する。弱ラベルの持つ時間情報に対し、イベントマスクを乗算することにより、弱ラベルに対し、検出対象の音イベントが存在する時間を示す時間情報が与えられる。マスキング処理後、マスキング部２０は、周波数変換部１０から受信したスペクトログラムを、マスキング処理後の弱ラベル（図１５では、マスキング処理されたイベントラベルと記載）とともに、学習部３０へ送信する。

学習部３０は、マスキング部２０から、スペクトログラムおよびマスキング処理されたイベントラベルを受信する。学習部３０は、スペクトログラムの特徴量を生成する。１つの入力信号を入力されると、イベントモデルが正しい音イベントの検出結果を出力できるように、学習部３０はいくつもの学習用の音信号に基づくスペクトログラムから生成した特徴量を、マスキング処理されたイベントラベルが持つ時間情報とともに、イベントモデルに学習させる（Ｓ３１３）。

イベントモデルの学習が終了した後、学習部３０は、マスキング処理されたイベントラベルと紐付けた学習済みのイベントモデルを、イベントモデルデータベース５０に格納する（Ｓ３１４）。

以上で、音信号処理装置３の動作は終了する。このように、本実施形態４に係わる音信号処理装置３は、スペクトログラムとともに、検出対象の音イベントが存在する時間を示す時間情報も用いて、イベントモデルに学習させることにより、効率的に、学習済みのイベントモデルを生成することができる。

（イベント検出処理）
本実施形態４に係わるイベント検出処理では、本実施形態１～３のようには、マスキング処理が行われない。本実施形態４に係わるイベント検出処理では、検出部４０は、学習済みのイベントモデルを用いて、音イベントを検出する。以上で、音信号処理装置３の動作は終了する。

（本実施形態の効果）
本実施形態の構成によれば、マスキング部２０は、検出対象の音イベントが存在する時間を示す時間情報を持たない弱ラベルに対して、イベントマスクを適用する。これにより、弱ラベルに対し、音イベントが存在する時間を示す時間情報が付与される。

また、検出部４０は、学習済みイベントモデルおよび時間情報を用いて、入力信号から音イベントを検出する。その後、検出部４０は、音イベントの検出結果を出力する。音信号処理装置３は、学習済みのイベントモデルを用いて、スペクトルの形状が未知の音を、音イベントとして検出できる。

以上、上述した実施形態を模範的な例として本発明を説明した。しかしながら、本発明は、上述した実施形態には限定されない。即ち、上述した実施形態は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。

本発明は、屋内や街中で人々の行動をモニタリングしたり、機械が正常に動作しているか判定したりするために利用できる。

１音信号処理装置
２音信号処理装置
３音信号処理装置
１２０マスク生成装置
２１抽出部
２２二値化部
２２０マスク生成装置
２２１抽出部
２２２二値化部
２２２１前処理部
２２２２統合部
２２２３平滑化部

Claims

スペクトログラムから音圧情報を抽出する抽出手段と、
抽出した音圧情報に対し、二値化処理を実行することにより、音イベントが存在する時間を示すイベントマスクを生成する二値化手段と
を備え、
前記抽出手段は、前記スペクトログラムから、前記音圧情報として、前記スペクトログラムの最大値系列および前記スペクトログラムの平均値系列を少なくとも抽出する
マスク生成装置。
前記抽出手段は、
音信号を二値化する前処理手段と、
二値化した前記音圧情報を統合する統合手段と、
統合した前記音圧情報を平滑化する平滑化手段とを含む
ことを特徴とする請求項１に記載のマスク生成装置。
請求項１または２に記載のマスク生成装置が生成した前記イベントマスクを用いて、入力信号から音イベントを検出することを特徴とする音信号処理装置。
スペクトログラムから音圧情報を抽出し、
抽出した音圧情報に対し、二値化処理を実行することにより、音イベントが存在する時間を示すイベントマスクを生成すること
を含み、
前記音圧情報は、前記スペクトログラムの最大値系列および平均値系列を少なくとも含む
マスク生成方法。
スペクトログラムから音圧情報を抽出することと、
抽出した音圧情報に対し、二値化処理を実行することにより、音イベントが存在する時間を示すイベントマスクを生成することと
をコンピュータに実行させ、
前記音圧情報は、前記スペクトログラムの最大値系列および平均値系列を少なくとも含む
プログラム。