JP7445503B2

JP7445503B2 - 異常音検知装置及びそのプログラム

Info

Publication number: JP7445503B2
Application number: JP2020070171A
Authority: JP
Inventors: 琴子古屋; 隆弘松田
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2024-03-07
Anticipated expiration: 2040-04-09
Also published as: JP2021167853A

Description

本発明は、音声信号に含まれる異常音を検知する異常音検知装置及びそのプログラムに関する。

従来より、ラジオ放送等の音声放送における異常音を検知する音声自動モニタが知られている（例えば、特許文献１）。この従来手法は、入力された２つの音声信号レベルを比較することで、放送装置の故障を検知するものである。そして、従来手法では、２つの音声信号レベルが不一致の場合、警報を出力すると共に、本番系から予備系への切換えを行う。

実開平５－４３６３４号公報

しかしながら、特許文献１に記載の手法では、音声放送としてふさわしくない単一周波数信号（テスト信号）や信号対雑音比が低い音声信号が混入した場合でも、その音声信号のレベル自体に問題が無いため、異常を検知することができない。

なお、単一周波数信号とは、放送装置を保守点検するためのテスト信号のことであり、例えば、周波数が１ｋＨｚで一定の信号である。この単一周波数信号を放送装置に入力する際、自動で切り替わらないようにする「保守ボタン」を押すことになっている。ここで、「保守ボタン」を押し忘れた場合、音声自動モニタがレベルの高い単一周波数信号を正常な音声信号と誤判定し、この単一周波数信号に切り替えて放送する事故につながってしまう。

そこで、本発明は、音声信号に含まれる様々な異常音を検知できる異常音検知装置及びそのプログラムを提供することを課題とする。

前記課題を解決するため、本発明に係る異常音検知装置は、音声信号に含まれる異常音を検知する異常音検知装置であって、音響特徴量算出手段と、音声信号レベル検知手段と、単一周波数信号検知手段と、予測値算出手段と、音声歪み検知手段と、異常音検知手段と、を備える構成とした。

かかる構成によれば、音響特徴量算出手段は、音声信号から、周波数知覚特性に関する音響特徴量と音階情報に関する音響特徴量とを算出する。
また、音声信号レベル検知手段は、音声信号のレベルが適正であるか否かを検知する。
そして、単一周波数信号検知手段は、音声信号に単一周波数信号が含まれるか否かを検知する。
さらに、予測値算出手段は、周波数知覚特性に関する音響特徴量及び音階情報に関する音響特徴量を予め学習した学習モデルを用いて、音声信号に音声歪みが含まれる確率を示す予測値を算出する。

また、音声歪み検知手段は、予測値算出手段が算出した予測値に基づいて、音声信号に音声歪みが含まれるか否かを検知する。
そして、異常音検知手段は、音声信号レベル検知手段、単一周波数信号検知手段及び音声歪み検知手段の検知結果に基づいて、音声信号に異常音が含まれるか否かを検知する。
このように、異常音検知装置は、音声信号のレベルだけでなく、単一周波数信号や音声歪みに起因する異常音も検知することができる。

なお、本発明は、コンピュータを、前記した異常音検知装置として機能させるためのプログラムで実現することもできる。

本発明によれば、音声信号に含まれる様々な異常音を検知することができる。

実施形態に係る自動音声モニタの構成を示すブロック図である。（ａ）は一般的な音声信号のスペクトル重心を示すグラフであり、（ｂ）は単一周波数信号のスペクトル重心を示すグラフである。実施形態において、学習データを説明する説明図である。実施形態における音声歪みの検知を説明する説明図であり、（ａ）は学習モデルに入力する音響特徴量を示し、（ｂ）は学習モデルから取得した予測値を示し、（ｃ）は音声歪みの検知結果を示す。実施形態に係る自動音声モニタの動作を示すフローチャートである。実施例において、予測値算出手段及び音声歪み検知手段の評価結果を説明する説明図である。

以下、本発明の実施形態について図面を参照して説明する。但し、以下に説明する実施形態は、本発明の技術思想を具体化するためのものであって、特定的な記載がない限り、本発明を以下のものに限定しない。

図１に示すように、自動音声モニタ（異常音検知装置）１は、ラジオ放送において、本番系及び予備系からなる２系統の音声信号が入力され、入力された各系統の音声信号に含まれる異常音を検知するものである。そして、自動音声モニタ１は、本番系の音声信号に異常音が含まれており、かつ、予備系の音声信号に異常音が含まれない場合、本番系の音声信号から予備系の音声信号への切り替えを制御盤２に指令する。

なお、本番系の音声信号とは、実際にラジオ放送されている音声信号のことである。また、予備系の音声信号とは、本番系の音声信号に何らかの異常が発生したときに切り替えて放送するための音声信号のことである。ここで、自動音声モニタ１には、２系統の音声信号が監視用音声信号（２系統分）として入力される。また、制御盤２には、２系統の音声信号が放送用音声信号（２系統分）として入力される。

制御盤２は、自動音声モニタ１からの切替指令に従って、２系統の音声信号を切り替え出力するものである。つまり、制御盤２は、自動音声モニタ１から切り替えが指令された場合、本番系の音声信号を予備系の音声信号に切り替える。

［自動音声モニタの構成］
以下、自動音声モニタ１の構成について詳細に説明する。
図１に示すように、自動音声モニタ１は、音響特徴量算出手段１０と、音声信号レベル検知手段２０と、単一周波数信号検知手段３０と、予測値算出手段４０と、音声歪み検知手段５０と、異常音検知手段６０と、切替制御手段７０とを備える。

音響特徴量算出手段１０は、入力された音声信号から、周波数知覚特性に関する音響特徴量と音階情報に関する音響特徴量とを算出するものである。ここで、音響特徴量算出手段１０は、周波数知覚特性に関する音響特徴量として、音声信号からメル周波数スペクトル（mel spectrogram）、及び、メル周波数ケプストラム係数（mel frequency cepstrum coefficients）を算出する。また、音響特徴量算出手段１０は、音階情報に関する音響特徴量として、音声信号からクロマグラム（chromagram）を算出する。さらに、音響特徴量算出手段１０は、音声信号レベルの二乗平均平方根（root mean square）と、音声信号のスペクトル重心（spectral centroid）とを算出する。このとき、音響特徴量算出手段１０は、所定の設定時間（例えば、データサンプル数５１２以上）における音声信号レベルの二乗平均平方根を算出することとする。

なお、音響特徴量算出手段１０は、２系統の音声信号のそれぞれから、音響特徴量（メル周波数スペクトル、メル周波数ケプストラム係数、クロマグラム、二乗平均平方根、スペクトル重心）を算出する。そして、音響特徴量算出手段１０は、各系統の音声信号レベルの二乗平均平方根を音声信号レベル検知手段２０に出力する。また、音響特徴量算出手段１０は、各系統の音声信号のスペクトル重心を単一周波数信号検知手段３０に出力する。また、音響特徴量算出手段１０は、各系統の音声信号のメル周波数スペクトル、メル周波数ケプストラム係数及びクロマグラムを予測値算出手段４０に出力する。

音声信号レベル検知手段２０は、音声信号レベルが適正であるか否かを検知するものである。具体的には、音声信号レベル検知手段２０は、以下の式（１）に示すように、音響特徴量算出手段１０から入力された音声信号レベルの二乗平均平方根ＬＶ_ＲＭＳが、予め設定された適正レベルの範囲内であるか否かを検知する。この式（１）では、ＬＶ_ＭＩＮが適正レベルの最低値を表し、ＬＶ_ＭＡＸが適正レベルの最大値を表す。この最低値ＬＶ_ＭＩＮ及び最大値ＬＶ_ＭＡＸは、任意の値で予め設定しておく（例えば、最低値ＬＶ_ＭＩＮ＝－５５ｄＢｍ、最大値ＬＶ_ＭＡＸ＝－２４ｄＢｍ）。
ＬＶ_ＭＩＮ≦ＬＶ_ＲＭＳ≦ＬＶ_ＭＡＸ …式（１）

ここで、音声信号レベル検知手段２０は、式（１）を満たす場合、音声信号レベルが適正であることを示す正常“０”を音声信号レベルの検知結果として異常音検知手段６０に出力する。一方、音声信号レベル検知手段２０は、前記した式（１）を満たさない場合、音声信号レベルが不適正であることを示す異常“１”を音声信号レベルの検知結果として異常音検知手段６０に出力する。

なお、音声信号レベル検知手段２０は、前記した手法を用いて、２系統の音声信号のそれぞれが適正レベルの範囲内であるか否かを検知する。そして、音声信号レベル検知手段２０は、音声信号の系統毎に音声信号レベルの検知結果を異常音検知手段６０に出力する。

単一周波数信号検知手段３０は、音声信号に単一周波数信号が含まれるか否かを検知するものである。図２（ａ）に示すように、通常の音声信号では、そのスペクトル重心が一定とならない。その一方、図２（ｂ）に示すように、単一周波数信号では、その周波数及びレベルが一定のため、スペクトル重心も一定となる。そこで、単一周波数信号検知手段３０は、音響特徴量算出手段１０から入力された音声信号のスペクトル重心に基づいて、単一周波数信号が含まれるか否かを検知することとした。

具体的には、単一周波数信号検知手段３０は、以下の式（２）に示すように、音声信号のスペクトル重心Ｃｅｎｔｒｏｉｄが第１閾値ＴＨ_１を超え、かつ、音声信号のスペクトル重心の分散σ^２が第２閾値未満ＴＨ_２の場合、音声信号に単一周波数信号が含まれると検知する。この第１閾値ＴＨ_１及び第２閾値ＴＨ_２は、任意の値で予め設定しておく（例えば、第１閾値ＴＨ_１＝１、第２閾値ＴＨ_２＝０．０２）。
Ｃｅｎｔｒｏｉｄ＞ＴＨ_１ａｎｄ σ^２＜ＴＨ_２ …式（２）

ここで、単一周波数信号検知手段３０は、式（２）を満たさない場合、音声信号に単一周波数信号が含まれないことを示す正常“０”を単一周波数信号の検知結果として異常音検知手段６０に出力する。一方、単一周波数信号検知手段３０は、式（２）を満たす場合、音声信号に単一周波数信号が含まれることを示す異常“１”を単一周波数信号の検知結果として異常音検知手段６０に出力する。

なお、単一周波数信号検知手段３０は、前記した手法を用いて、２系統の音声信号のそれぞれに単一周波数信号が含まれるか否かを検知する。そして、単一周波数信号検知手段３０は、音声信号の系統毎に単一周波数信号の検知結果を異常音検知手段６０に出力する。

予測値算出手段４０は、周波数知覚特性に関する音響特徴量及び音階情報に関する音響特徴量を予め学習した学習モデルを用いて、音声信号に音声歪みが含まれる確率を示す予測値を算出するものである。
音声歪み検知手段５０は、予測値算出手段４０から入力された予測値に基づいて、音声信号に音声歪みが含まれるか否かを検知するものである。

＜学習モデルの生成手法＞
図３を参照し、予測値算出手段４０による学習モデルの生成手法について説明する。
学習モデルは、音響特徴量として、メル周波数スペクトル、メル周波数ケプストラム係数及びクロマグラムを機械学習することで生成したものである。例えば、同一の音源素材から、音声歪みが含まれない正常音声信号と、人為的に発生させた音声歪みが含まれる異常音声信号とを生成する。そして、図３に示すように、正常音声信号及び異常音声信号のそれぞれから、各時刻のメル周波数スペクトル(mel)、メル周波数ケプストラム係数(mfcc)、クロマグラム(chr)を算出し、これら多次元の音響特徴量を学習データとする。

また、図３の学習データには、主観評価実験により求めた設定値が含まれている。この設定値は、人間に正常な音声又は異常な音声として認識されたことを示す。つまり、設定値は、音声歪みが含まれない正常音声信号“０”、音声歪みが含まれる異常音声信号“１”を示す。

なお、図３では、図面を見やすくするために、音響特徴量を３次元データとして図示したが、実際には、より多次元の音響特徴量であることが多い。例えば、学習データには、１２８次元のメル周波数スペクトル、１２８次元のメル周波数ケプストラム係数、１２次元のクロマグラムからなる２６８次元の音響特徴量が含まれている（不図示）。

また、機械学習の手法は任意であり、例えば、ＤａｔａＲｏｂｏｔのような機械学習プラットフォームを利用できる（参考文献１）。このＤａｔａＲｏｂｏｔには、１００種類以上のアルゴリズムがビルトインされており、複数の学習モデルを同時並行で学習可能であり、効率的に最適な学習モデルを生成できる。
参考文献１：ＤａｔａＲｏｂｏｔ、[online］、［令和２年３月２４日検索］、インターネット〈URL：https://www.datarobot.com/jp/platform/〉

＜音声歪みの検知手法＞
図４を参照し、予測値算出手段４０及び音声歪み検知手段５０による音声歪みの検知手法について説明する。
図４（ａ）に示すように、予測値算出手段４０は、音声信号のメル周波数スペクトル、メル周波数ケプストラム係数及びクロマグラムからなる多次元の音響特徴量が入力される。すると、予測値算出手段４０は、図４（ｂ）に示すように、各時刻の音響特徴量を学習済みの学習モデルに入力することで、学習モデルから各時刻の予測値を取得する。そして、予測値算出手段４０は、予め設定された時間窓だけずらしながら、各時刻の予測値を平均化する。

続いて、音声歪み検知手段５０は、予め設定した第３閾値（例えば、“０．５”）を基準として、予測値算出手段４０で平均化された予測値の閾値判定を行う。図４（ｃ）に示すように、音声歪み検知手段５０は、平均化された予測値が第３閾値未満の場合、音声信号に音声歪みが含まれないことを示す正常“０”を音声歪みの検知結果として異常音検知手段６０に出力する。一方、音声歪み検知手段５０は、平均化された予測値が第３閾値以上の場合、音声信号に音声歪みが含まれることを示す異常“０”を音声歪みの検知結果として異常音検知手段６０に出力する。

なお、予測値算出手段４０は、前記した手法を用いて、２系統の音声信号のそれぞれから予測値を算出し、音声信号の系統毎に予測値を音声歪み検知手段５０に出力する。
また、音声歪み検知手段５０は、前記した手法を用いて、２系統の音声信号のそれぞれに音声歪みが含まれるか否かを検知する。そして、音声歪み検知手段５０は、音声信号の系統毎に音声歪みの検知結果を異常音検知手段６０に出力する。

図１に戻り、自動音声モニタ１の構成について説明を続ける。
異常音検知手段６０は、音声信号レベル検知手段２０、単一周波数信号検知手段３０及び音声歪み検知手段５０から入力された検知結果に基づいて、音声信号に異常音が含まれるか否かを検知するものである。

＜異常音検知手法：第１例＞
以下、異常音検知手段６０による異常音検知手法の第１例について説明する。
具体的には、異常音検知手段６０は、音声信号レベルが不適正な場合、音声信号に単一周波数信号が含まれる場合、又は、音声信号に音声歪みが含まれる場合の何れにおいて、音声信号に異常音が含まれると検知する。つまり、異常音検知手段６０は、音声信号レベル検知手段２０、単一周波数信号検知手段３０及び音声歪み検知手段５０から入力された検知結果の何れか一つでも異常“１”の場合、音声信号に異常音が含まれると検知する。

一方、異常音検知手段６０は、音声信号レベルが適正レベルであり、かつ、音声信号に単一周波数信号が含まれず、かつ、音声信号に音声歪みが含まれない場合、音声信号に異常音が含まれないと検知する。つまり、異常音検知手段６０は、音声信号レベル検知手段２０、単一周波数信号検知手段３０、又は、音声歪み検知手段５０から入力された検知結果の全てが正常“０”の場合、音声信号に異常音が含まれないと検知する。

＜異常音検知手法：第２例＞
また、異常音検知手段６０は、第２例の手法で異常音を検知してもよい。
具体的には、異常音検知手段６０は、音声信号レベル検知手段２０、単一周波数信号検知手段３０及び音声歪み検知手段５０から入力された検知結果の多数決により、音声信号に異常音が含まれるか否かを検知する。つまり、異常音検知手段６０は、正常“０”と異常“１”との検知結果数とを比較し、正常“０”が異常“１”の検知結果数を超える場合、音声信号に異常音が含まれないと検知する。一方、異常音検知手段６０は、異常“１”が正常“０”の検知結果数を超える場合、音声信号に異常音が含まれると検知する。

なお、異常音検知手段６０は、前記した第１例や第２例の手法を用いて、２系統の音声信号のそれぞれに異常音が含まれるか否かを検知する。そして、異常音検知手段６０は、各系統の音声信号に異常音が含まれるか否かを示す検知結果を切替制御手段７０に出力する。

切替制御手段７０は、異常音検知手段６０から入力された検知結果に基づいて、本番系及び予備系の２系統の音声信号の切り替え制御を行うものである。例えば、切替制御手段７０は、本番系の音声信号に異常音が含まれおり、かつ、予備系の音声信号に異常音が含まれていない場合、本番系の音声信号から予備系の音声信号への切替指令を制御盤２に出力する。

［自動音声モニタの動作］
図５を参照し、自動音声モニタ１の動作について説明する。なお、図５では、学習モデルが既に生成されていることとする。
図５に示すように、ステップＳ１において、音響特徴量算出手段１０は、音声信号の音響特徴量（メル周波数スペクトル、メル周波数ケプストラム係数、クロマグラム、二乗平均平方根、スペクトル重心）を算出する。

ステップＳ２において、音声信号レベル検知手段２０は、ステップＳ１で算出した音声信号レベルの二乗平均平方根に基づいて、音声信号レベルが適正であるか否かを検知する。
ステップＳ３において、単一周波数信号検知手段３０は、ステップＳ１で算出したスペクトル重心に基づいて、音声信号に単一周波数信号が含まれるか否かを検知する。

ステップＳ４において、予測値算出手段４０は、ステップＳ１で算出したメル周波数スペクトル、メル周波数ケプストラム係数及びクロマグラムを学習モデルに入力することで、予測値を算出する。
ステップＳ５において、音声歪み検知手段５０は、ステップＳ４で算出した予測値に基づいて、音声信号に音声歪みが含まれるか否かを検知する。

ステップＳ６において、異常音検知手段６０は、ステップＳ２、ステップＳ３及びステップＳ５の検知結果に基づいて、音声信号に異常音が含まれるか否かを検知する。
ここで、音声信号に異常音が含まれる場合（ステップＳ６でＹｅｓ）、自動音声モニタ１は、ステップＳ７の処理に進む。
一方、音声信号に異常音が含まれない場合（ステップＳ６でＮｏ）、自動音声モニタ１は、ステップＳ８の処理に進む。

ステップＳ７において、切替制御手段７０は、ステップＳ６の検知結果に基づいて、本番系及び予備系の２系統の音声信号の切り替え制御を行う。

ステップＳ８において、自動音声モニタ１は、処理を終了するか否かを判定する。例えば、音声信号が終了した場合、自動音声モニタ１は、処理を終了すると判定する。
ここで、処理を終了しない場合（ステップＳ８でＮｏ）、自動音声モニタ１は、ステップＳ１の処理に戻る。

［作用・効果］
自動音声モニタ１は、ラジオ放送の際、音声信号に含まれる様々な異常音を検知し、異常音が含まれない系統の音声信号に切り替えることができる。すなわち、自動音声モニタ１は、２系統の音声信号のそれぞれに対し、レベルの検知、単一周波数信号の検知、音声歪みの検知を行い、正常な系統の音声信号に切り替えることができる。

以上、本発明の実施形態を詳述してきたが、本発明は前記した実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
前記した実施形態では、音声信号が２系統であることとして説明したが、これに限定されない。例えば、自動音声モニタは、１系統の音声信号に含まれる異常音を検知してもよい。

前記した実施形態では、ラジオ放送の音声信号であることとして説明したが、これに限定されない。例えば、自動音声モニタは、テレビ放送やストリーミング配信の音声信号に含まれる異常音も検知できる。

前記した実施形態では、自動音声モニタは、音声信号の切り替え制御を行うこととして説明したがこれに限定されない。例えば、自動音声モニタは、音声信号に異常音が含まれることを検知した場合、任意の手法で警報を出力してもよい。

前記した実施形態では、音響特徴量算出手段が、音声信号の音響特徴量として、メル周波数スペクトル、メル周波数ケプストラム係数、クロマグラム、二乗平均平方根及びスペクトル重心を算出することとして説明したが、これに限定されない。

前記した実施形態では、予測値算出手段が、機械学習として、ＤａｔａＲｏｂｏｔなどの機械学習プラットフォームを用いることとして説明したが、これに限定されない。

前記した各実施形態では、自動音声モニタを独立したハードウェアとして説明したが、本発明は、これに限定されない。例えば、本発明は、コンピュータが備えるＣＰＵ、メモリ、ハードディスク等のハードウェア資源を、前記した自動音声モニタとして動作させるプログラムで実現することもできる。これらのプログラムは、通信回線を介して配布してもよく、ＣＤ－ＲＯＭやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。

以下、実施例として、図１の予測値算出手段４０及び音声歪み検知手段５０の評価結果について説明する。
予測値算出手段４０の学習モデルに検証データを入力し、その検知結果を評価した。この検証データには、学習に使用していない評価用テストデータを使用した。また、検証データには、約１分４８秒の音声データから抽出した、正常音データ数５４２０個、異常音(歪み音)データ数３７８０個、計９２９０個を用いた。そして、学習モデルから出力される予測値と設定値との比較を行った。

図６には評価結果を示した。図６の横軸は、評価用テストデータを主観評価したときの設定値を示す。また、図６の縦軸は、音声歪み検知手段５０が算出した予測値（予測結果）を示す。この設定値に対する予測値をプロットし、それぞれのポイントにおけるデータ密度を算出した。そして、データ密度の高いポイントを濃い色、低いポイントを薄い色で示した。

図６に示すように、設定値“０”に対して予測値が約０．０ポイント、設定値“１”に対して予測値が約１．０ポイントにデータが集中しており、学習モデルの精度が高いことを確認できた。さらに、音声歪み検知手段５０の誤検知が入力データ９２９０個の中でわずか１個であり、音声歪み検知手段５０の検知精度が高いことも確認できた。

１自動音声モニタ（異常音検知装置）
１０音響特徴量算出手段
２０音声信号レベル検知手段
３０単一周波数信号検知手段
４０予測値算出手段
５０音声歪み検知手段
６０異常音検知手段
７０切替制御手段

Claims

音声信号に含まれる異常音を検知する異常音検知装置であって、
前記音声信号から、周波数知覚特性に関する音響特徴量と音階情報に関する音響特徴量とを算出する音響特徴量算出手段と、
前記音声信号のレベルが適正であるか否かを検知する音声信号レベル検知手段と、
前記音声信号に単一周波数信号が含まれるか否かを検知する単一周波数信号検知手段と、
前記周波数知覚特性に関する音響特徴量及び前記音階情報に関する音響特徴量を予め学習した学習モデルを用いて、前記音声信号に音声歪みが含まれる確率を示す予測値を算出する予測値算出手段と、
前記予測値算出手段が算出した予測値に基づいて、前記音声信号に前記音声歪みが含まれるか否かを検知する音声歪み検知手段と、
前記音声信号レベル検知手段、前記単一周波数信号検知手段及び前記音声歪み検知手段の検知結果に基づいて、前記音声信号に前記異常音が含まれるか否かを検知する異常音検知手段と、
を備えることを特徴とする異常音検知装置。
前記音響特徴量算出手段は、
前記周波数知覚特性に関する音響特徴量として、前記音声信号からメル周波数スペクトル及びメル周波数ケプストラム係数を算出し、
前記音階情報に関する音響特徴量として、前記音声信号からクロマグラムを算出し、
前記音声信号のレベルの二乗平均平方根と、前記音声信号のスペクトル重心とをさらに算出し、
前記音声信号レベル検知手段は、
前記音声信号のレベルの二乗平均平方根が予め設定された適正レベルの範囲内であるか否かを検知し、
前記単一周波数信号検知手段は、
前記音声信号のスペクトル重心が予め設定された第１閾値を超え、かつ、前記音声信号のスペクトル重心の分散が予め設定された第２閾値未満の場合、前記音声信号に前記単一周波数信号が含まれると検知し、
前記予測値算出手段は、
前記メル周波数スペクトル、前記メル周波数ケプストラム係数及び前記クロマグラムを予め学習した前記学習モデルを用いることを特徴とする請求項１に記載の異常音検知装置。
前記異常音検知手段は、前記音声信号のレベルが不適正な場合、前記音声信号に前記単一周波数信号が含まれる場合、又は、前記音声信号に前記音声歪みが含まれる場合の何れかにおいて、前記音声信号に前記異常音が含まれると検知することを特徴とする請求項１又は請求項２に記載の異常音検知装置。
前記音響特徴量算出手段は、２系統の前記音声信号が入力され、入力された各系統の前記音声信号から、前記周波数知覚特性に関する音響特徴量と前記音階情報に関する音響特徴量とを算出し、
前記音声信号レベル検知手段は、各系統の前記音声信号のレベルが適正であるか否かを検知し、
前記単一周波数信号検知手段は、各系統の前記音声信号に前記単一周波数信号が含まれるか否かを検知し、
前記予測値算出手段は、前記学習モデルを用いて、各系統の前記音声信号から前記予測値を算出し、
前記音声歪み検知手段は、各系統の前記音声信号に前記音声歪みが含まれるか否かを検知し、
前記異常音検知手段は、各系統の前記音声信号に前記異常音が含まれるか否かを検知し、
前記異常音検知手段の検知結果に基づいて、２系統の前記音声信号の切り替え制御を行う切替制御手段、をさらに備えることを特徴とする請求項１から請求項３の何れか一項に記載の異常音検知装置。
コンピュータを、請求項１から請求項４の何れか一項に記載の異常音検知装置として機能させるためのプログラム。