JP6727825B2

JP6727825B2 - 音声処理装置および音声処理方法

Info

Publication number: JP6727825B2
Application number: JP2016018417A
Authority: JP
Inventors: 智彦黒木
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-02-02
Filing date: 2016-02-02
Publication date: 2020-07-22
Anticipated expiration: 2036-02-02
Also published as: US10049687B2; JP2017138416A; KR102080124B1; CN107068163B; KR20170092101A; US20170221503A1; CN107068163B9; CN107068163A

Description

本発明は、音声処理装置および音声処理方法に関する。

音声や映像などの信号に含まれるノイズを抑制・軽減する信号処理技術としてノイズリダクション(ＮｏｉｓｅＲｅｄｕｃｔｉｏｎ：ＮＲ)技術が知られている。従来の音声のＮＲ技術として、除去対象の音声の周波数成分を各々のゲイン分だけ減算処理することで除去対象音を除去するスペクトラルサブトラクションと称される手法がある。スペクトラルサブトラクションは、ＮＲ技術の基本技術として広く知られている。
この技術を応用したＮＲ技術にはノイズ学習型のＮＲがある。ノイズ学習型のＮＲでは、背景音や定常的に鳴動する音声の周波数領域と減算量を自己相関や適応フィルタを用いて自動的に学習し、その周波数成分を除去している。
例えば、特許文献１では入力音に含まれる周波数特性を自己相関関数により演算して、入力音が音声であるか周囲雑音であるか否かを判定している。そして、特許文献１では、周囲雑音の平均値を平均ノイズとして算出して、入力音から平均ノイズを減算することで周囲雑音成分を除去している。

特開２００９−４９８８５号公報

特許文献１に開示された技術では、入力音の周波数特性の演算から周囲雑音成分の除去までの速度（すなわち、ノイズの学習速度）が周囲雑音に拘わらず一定である。しかしながら、周囲雑音は時間帯等によって変動する場合がある。そのため、特許文献１の技術を採用すると、時間帯によって周囲雑音（ノイズ環境）のレベルが変わる環境下では、精度よく周囲雑音を除去することができない。
本発明の目的は、音声のノイズ除去を行う際に、ノイズ環境が変化しても精度よくノイズ除去を行うことができる音声処理装置を提供することである。

上記目的を達成するために、本発明の一態様にかかる音声処理装置は、所定の撮影範囲の映像データから前記撮影範囲の状況を検出する検出手段と、前記映像データを撮影する撮像装置に対応する収音装置によって収音される音声データに対して、前記検出手段によって検出される状況に基づいて学習処理を行うことによって、ノイズ成分を導出する学習手段と、前記音声データから前記ノイズ成分を除去する除去手段と、を有し、前記学習手段は、前記状況に基づいて、前記学習処理の学習速度を変更する。

本発明によれば、音声のノイズ除去を行う際に、ノイズ環境が変化しても精度よくノイズ除去を行うことができる。

第１実施形態に係る異常監視システムの機能ブロック図。第１実施形態に係る交通現場の背景ノイズの音声波形図。第１実施形態に係る交通状況の検出方法を説明する図。第１実施形態の異常監視システムのノイズ除去手順を示すフローチャート。第２実施形態に係る異常監視システムの機能ブロック図。第２実施形態の背景ノイズの種別毎のスペクトラム図。第２実施形態の異常監視システムのノイズ除去手順を示すフローチャート。第３実施形態の異常監視システムのノイズ除去手順を示すフローチャート。異常監視システムのハードウェア構成図。

以下、添付図面を参照して、本発明を実施するための実施形態を詳細に説明する。以下に説明する実施形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正または変更されるべきものであり、本発明は以下の実施形態に限定されるものではない。
ノイズの学習速度が周囲雑音に拘わらず一定であるとすると、時間帯等によって周囲雑音（ノイズ環境）のレベルが変わる環境下では、精度よく周囲雑音を除去することができない。例えば、ノイズ環境がよく変動する時間帯においては学習速度を速くしないとノイズ環境の変動に追従できずノイズを除去しきれない場合が出てきてしまう。一方、ノイズ環境があまり変動しない時間帯においては、学習速度を速くする必要はない。例えば、学習速度を遅くすることにより、背景ノイズ以外の必要な音声が学習・除去されてしまう可能性を減らすことができる。本発明の実施形態においては、このような点に鑑み、ノイズ除去を高精度で行うことができるノイズ除去装置について説明する。また、このようなノイズ除去装置を含む監視システムについても説明する。

第１実施形態
（異常監視システムの概要）
本発明の第１実施形態に係るノイズ除去装置を備える異常監視システムを図１〜図４に基づいて説明する。なお、ノイズ除去装置は、ノイズ除去により音声を処理する装置であるので、音声処理装置と称することができる。
はじめに、図１に示す異常監視システム１００のブロック構成図（機能構成図）を参照しながら、異常監視システム１００の機能構成を説明する。
本実施形態の異常監視システム１００は、撮影現場（所定の撮影範囲）の交通状況の異常（交通異常）を監視するシステムである。異常監視システム１００は、外部の監視モニタ装置５０に接続されている。異常監視システム１００は、撮影現場で衝突音、ガラスの破壊音、破裂音などが発生した場合、当該衝撃音等を異常音として検知し、監視モニタ装置５０にイベント通知（異常音が発生したことの通知）を行う。なお、各実施形態において、ノイズとは、検知対象の音（各実施形態においては異常音）以外の背景音であるものとする。背景音は、以下の記載において、背景ノイズと称することもある。

異常監視システム１００は背景ノイズが発生する可能性のある交通状況を監視するシステムであるので、より高い精度で異常音を検知させるために定常的に鳴動する背景ノイズを除去する仕組み（ノイズ除去機能・ノイズ除去装置）を備えている。
異常監視システム１００は、音声入力装置１と、映像入力装置２と、通信部３と、情報処理部４とを有している。異常監視システム１００は、通信部３を介して監視モニタ装置５０に接続されている。音声入力装置１は、撮影現場の音声を取得して、情報処理部４に当該音声を入力する。音声入力装置１は、例えば、マイクロフォン等の収音装置である。映像入力装置２は、例えば、動画を撮影（撮像）することができるカメラ装置である。映像入力装置２は、所定の撮影範囲を撮影して、映像データを生成する。撮影範囲の状況（本実施形態では、交通状況）は、映像データから得られる。音声入力装置１は、映像データを撮影する撮像装置に対応する収音装置である装置である。この収音装置は必ずしも撮像装置の内部に設けられる必要はなく、撮像装置の外部に設けてもよい。また、必ずしも撮像装置が撮影する撮影範囲の方向の音だけを収音するものでなくてもよい。例えば、指向性の広いマイクロフォンを用いて、撮影範囲の方向を含む、撮像装置の周囲の音を収音するものであってもよい。収音装置によって収音した音から悲鳴等の異常音を検知し、その異常音の方に撮像装置を向けるというような用途にも本発明は適用可能である。

情報処理部４は、映像情報処理部５と、音声情報処理部６と、異常音検知処理部７と、タイマ部８と、イベント通知部９とを有する。ノイズ除去機能は、映像情報処理部５と音声情報処理部６により実行されるので、本実施形態の異常監視システム１００に含まれるノイズ除去装置は、映像情報処理部５と音声情報処理部６とを有する。
映像情報処理部５は、映像入力装置２の出力信号（映像入力装置２からの入力映像）とタイマ部８の出力信号とを受け取り、入力映像に対して映像処理を行い、処理後の信号（映像）を音声情報処理部６に送る。
音声情報処理部６は、音声入力装置１の出力信号（音声入力装置１からの入力音声）と映像情報処理部５の出力信号を受け取り、入力音声に対してノイズ除去を行う。ノイズ除去された音声（音声情報処理部６の出力信号）は、異常音検知処理部７に送られる。
異常音検知処理部７は、音声情報処理部６の出力信号を受け取り、異常音を検知して処理する。当該処理により生成された信号は、イベント通知部９に送られる。

タイマ部８は、映像情報処理部５の映像検出の頻度を決め、当該検出頻度を映像情報処理部５に通知する。
イベント通知部９は、異常音検知処理部７の出力信号を受け取り、通知イベントを生成し、当該通知イベントを通信部３に送る。通信部３は、イベント通知部９から受け取った通知イベントを監視モニタ装置５０に送信する。
監視モニタ装置５０は、ディスプレイ部とアラーム発生部などを有する。監視モニタ装置５０は、通信部３から通知イベントを受け取ると、異常音が検知されたことを文字や画像によりディスプレイ部に表示する。この際、アラーム音を発生してもよい。

（映像情報処理部）
映像情報処理部５は、映像入力部１０と、交通状況検出部１１とを有する。映像入力部１０は、映像入力装置２からの入力映像を受け取り保持する。交通状況検出部１１は、映像入力部１０から当該入力映像を受け取り、当該入力映像から現在の交通状況を検出する。より詳しくは、交通状況検出部１１は、映像入力部１０から入力された映像をもとに、映像入力装置２の映像内に映る自動車（車両）の数、自動車の通過速度、および単位時間当たりの自動車の通過頻度を検出する。そして、交通状況検出部１１は、自動車の数、通過速度および通過頻度の組み合わせから交通状況を判断（検出）して、当該交通状況を音声情報処理部６（より詳しくは、後述する学習速度判断部１２）に出力する。
映像入力装置２の映像から自動車を検知するには、テンプレートマッチングなどを利用した物体検知方法を用いる。この物体検知方法により、映像内の自動車の数を検出（取得）することができる。また、自動車の通過速度と通過頻度を求める方法としていわゆる通過検知などを利用した検知方法を用いる。テンプレートマッチングや通過検知については公知の技術であるので、詳細な説明は省略する。

（背景ノイズ）
図２は、撮影現場の背景ノイズの音声波形図（音声波形Ｐ１０）の例を示している。図２の縦軸は振幅であり（単位はｄｂ）であり、横軸は時間である（単位は時間）。音声波形Ｐ１０は、２４時間の間に背景ノイズがどのように変化するかを示している。音声波形Ｐ１０は、本実施形態では、７つのセグメントＰ１〜Ｐ７に分けられている。セグメントＰ１は、０時から２時半までの時間帯の背景ノイズを示している。セグメントＰ２は、２時半から５時半までの時間帯の背景ノイズを示している。セグメントＰ３は、５時半から８時半までの時間帯の背景ノイズを示している。セグメントＰ４は、８時半から１０時半までの時間帯の背景ノイズを示している。セグメントＰ５は、１０時半から１４時半までの時間帯の背景ノイズを示している。セグメントＰ６は、１４時半から２０時半までの時間帯の背景ノイズを示している。セグメントＰ７は、２０時半から２４時までの時間帯の背景ノイズを示している。
図２に示すように、撮影現場の背景ノイズは、その交通量の変化などから時間帯によってセグメントＰ４のように大きく変動することもあれば、セグメントＰ２のように殆ど変動しないこともある。つまり、撮影現場の背景ノイズの変動の仕方は、１日の時間帯によって異なる。

（交通状況の検出）
図３は、交通状況の検出の例として自動車が頻繁に通過する道路を撮影する例を示している。この道路は片側１車線の道路である。映像Ｑ１０は、映像情報処理部５の映像入力部１０から交通状況検出部１１に入力される映像である。映像Ｑ１０には、道路の横断方向に通過ラインＱ５が設定されている。そして、交通状況検出部１１は、映像Ｑ１０から、自動車Ｑ１と自動車Ｑ３を区画映像Ｑ２と区画映像Ｑ４のように検出し、その数をカウントすることにより自動車の数を検出する。Ｑ６は道路のセンターラインである。自動車Ｑ１は図中、左から右に移動する自動車であり、自動車Ｑ３は右から左に移動する自動車である。Ｑ７とＱ８は車道と歩道を分けるラインである。通過ラインＱ５は、映像入力装置２のカメラ画面に予め設定されたラインである。
交通状況検出部１１は、自動車の通過検知として、通過ラインＱ５を自動車の区画映像Ｑ２、Ｑ４（つまり自動車Ｑ１、Ｑ３）が通過した際に、その通過速度と通過台数をカウントする。

図３は、ある時刻ｔの交通状況を示す映像Ｑ１０を示している。実際には、映像Ｑ１０は動画であり、時間が経過すると、区画映像Ｑ２やＱ４は映像Ｑ１０内を移動し、映像Ｑ１０から見えなくなり、その後、別の自動車が映像Ｑ１０に映ってくる（入り込んで来る）。このような動画（映像Ｑ１０）において、５台以上の自動車が通過速度２０ｋｍ／ｈ以下で走行する状態が１５分以上続いた場合、交通状況検出部１１は、交通状況を渋滞中と判断し、“渋滞中”という検出結果を出す。本実施形態では、交通状況検出部１１は、一方の車線だけが渋滞している場合も渋滞中と判断する（渋滞中という検出結果を出す）。
“渋滞中”に当てはまらない状態で、１５分毎の自動車の通過台数が１２５台以上の場合、交通状況検出部１１は、この交通状況を交通量が多い状態であると判断して、“交通量多い”という検出結果を出す。それ以外の場合、交通状況検出部１１は、交通状況が通常であると判断して、“通常”という検出結果を出す。交通状況検出部１１の検出結果（交通状況検出結果）は、学習速度判断部１２に送られる。

学習速度判断部１２は、交通状況検出部１１から受け取った交通状況検出結果に基づいて、映像内の自動車の交通状況の変化を認識し、最適なノイズの学習速度を判断（設定）する。本実施形態では、学習速度判断部１２は、最適なノイズ学習速度として、“高”、“中”、“低”の３つのうちの１つを設定する。つまり、学習速度判断部１２は、交通状況検出部１１から受け取った交通状況検出結果に基づいて、“高”、“中”、“低”の３段階の学習速度のうちの１つを選択（設定）する。“高”は高速度の略であり、“中”は中速度の略であり、“低”の低速度の略である。本実施形態では、学習速度の初期設定として、“中”が設定されているとする。
交通状況に変化があった場合、学習速度判断部１２は、周囲のノイズ環境が大きく変動すると判断し、学習速度を“高”に設定する（“中”から“高”に変更する）。これは、学習速度を上げることによって、ノイズ環境の変化に学習速度が追従できるようするためである。

学習速度“高”を設定して一定時間交通状況に変化がない場合は、ノイズ環境の変動が収束したと判断し、過度なノイズ学習を防ぐため学習速度を“中”に下げる（初期設定の学習速度に戻す）。
学習速度”中”に設定された状態で一定時間交通状況に変化がない場合は、学習速度判断部１２は、ノイズ環境の変化が殆どない定常状態にあると判断し、学習速度を“低”に下げる。これは、ノイズ以外の音声を極力学習しないようにするためである。
なお、ノイズの学習速度を三段階（高速度、中速度、低速度）で設定する学習速度判断部１２の代わりに、ノイズ学習有無判断部を設けてもよい。ノイズ学習有無判断部は、交通状況の変化に応じてノイズの学習を行うか行わないかだけを決定（変更）する。

（音声情報処理部）
図１に示すように、音声情報処理部６は、学習速度判断部１２と、音声入力部１３と、音声分岐部１４と、ノイズ除去部１５と、ノイズ学習部１６とを有する。
学習速度判断部１２は、交通状況検出部１１から入力される交通状況に基づいて、ノイズ学習速度を決める。
音声入力部１３は、音声入力装置１の出力信号を受け取る。つまり、音声入力装置１から音声データを受け取る。音声入力部１３の出力信号は、音声分岐部１４に送られる。
音声分岐部１４は、音声入力部１３から入力された音声データを全く同一の２つの音声データに分ける。２つの音声データは、ゲインや特性に差異が無く、劣化も無い。音声分岐部１４は、２つの音声データの一方をノイズ学習部１６に送り、もう一方をノイズ除去部１５に送る。

ノイズ除去部１５は、音声分岐部１４から入力された音声データから、ノイズ学習部１６から入力されたノイズ成分を除去する。より詳しくは、ノイズ除去部１５は、音声分岐部１４から受け取った音声データに対し、ノイズ学習部１６から受け取った周波数成分と減算量とを用いてノイズ除去処理を行う。本実施形態では、ノイズ除去部１５は、ノイズ除去のアルゴリズムとして、スペクトラルサブトラクション法を用いる。ノイズ除去に用いるスペクトラルサブトラクション法については公知の技術であるので、詳細な説明は省略する。ノイズ除去部１５は、ノイズ除去した音声データを異常音検知処理部７に送る。

ノイズ学習部１６は、音声のノイズ学習を行うことにより、ノイズ成分を導出する。より詳しくは、ノイズ学習部１６は、音声分岐部１４から受け取った音声データから、背景ノイズや定常的に鳴動する音をノイズと定義して、その成分（ノイズ成分）を学習し、ノイズ除去時の周波数成分と減算量とを生成（導出）する。ノイズ学習部１６は、ノイズ除去時の周波数成分と減算量とをノイズ除去部１５に送る。
本実施形態のノイズ学習部１６がノイズの学習処理を行う場合、まず音声の周波数成分の解析を行う。ノイズ学習部１６は、音声分岐部１４から入力された音声データをバッファリングし、逐次５秒単位で区切って離散フーリエ変換を行い、その区切った音声に含まれる周波数成分とゲイン（スペクトラム）を算出する。

次に、ノイズ学習部１６は、定常的に鳴動する音声の周波数成分を学習する。算出した各々の周波数毎に適応フィルタを設け、それぞれ逐次ゲイン値を入力し収束させていき定常的に鳴動している音声の周波数成分のゲイン値を算出してノイズ除去時の周波数成分と減算量を決定する。
この時、学習速度判断部１２から与えられたノイズの学習速度情報（高速度、中速度、低速度）に基づいてゲイン値の収束速度を決定する。適応フィルタについては公知の技術であるので、詳細な説明は省略する。
ノイズ除去部１５がノイズ除去した音声データを異常音検知処理部７に送ると、異常音検知処理部７は、当該音声データを分析し、当該音声データ中に衝突音、ガラスの破壊音、破裂音などの異常音があるかを検知（判断）する。異常音を検知した場合、異常音検知処理部７は、イベント通知部９に異常音が検知された旨（判断結果）を通知する（異常音が検知されたということを通知する）。

図１に示す各機能ブロックはコンピュータプログラムとして、後述するＲＯＭ１０４（図９）等の記憶部に記憶され、ＣＰＵ１０２（図９）によって実行される。尚、図１に示す機能ブロックの少なくとも一部をハードウェアにより実現してもよい。ハードウェアにより実現する場合、例えば、所定のコンパイラを用いることで、各ステップを実現するためのプログラムからＦＰＧＡ上に自動的に専用回路を生成すればよい。ＦＰＧＡとは、ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙの略である。また、ＦＰＧＡと同様にしてＧａｔｅＡｒｒａｙ回路を形成し、ハードウェアとして実現するようにしてもよい。また、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）により実現するようにしてもよい。

（ノイズ学習速度判定処理およびノイズ除去処理）
次に、図１の異常監視システム１００のノイズ除去処理の手順を、図４に示すフローチャートを用いて説明する。図４のフローチャートは、異常監視システム１００が備えるＣＰＵ１０２が、ＲＯＭ１０４等に記憶されるプログラムを実行することにより処理される。
本実施形態では、映像入力装置２から入力される映像に基づいて現在の交通状況を判断し、当該判断に応じて（すなわち、現在の交通状況に応じて）、音声入力装置１から入力される音声データに対するノイズ学習速度（学習処理の学習速度）を変更する。図４のフローチャートは、音声入力装置１から音声データが音声情報処理部６に入力されると開始する。
異常監視システム１００が起動されると、音声入力装置１からの音声データが音声情報処理部６に入力され、異常監視システム１００はＳ１にて初期化処理を行う。具体的には、学習速度判断部１２は、初期設定として学習速度判断部１２から出力されるノイズ学習速度を“中”に設定する。

Ｓ２において、映像入力部１０は、映像入力装置２から入力された映像情報（映像データ）を保持（格納）する。
Ｓ３において、交通状況検出部１１は、映像入力部１０から入力された映像情報を解析し、映像上の自動車の数、通過速度および通過頻度を求めて、交通状況を検出する。
Ｓ４において、学習速度判断部１２は、交通状況検出部１１からの検出結果（交通状況）に基づいて交通状況の変化を判断する。
例えば、“通常”から“渋滞中”に変化した場合、“交通量多い”から“通常”に変化したい場合など、交通状況に変化がある場合は、学習速度判断部１２が変化ありと判断し（Ｓ４：ＹＥＳ）、Ｓ８に進む。Ｓ４において、学習速度判断部１２が交通状況に変化がないと判断した場合は（Ｓ４：ＮＯ）、Ｓ５に進む。

Ｓ５において、学習速度判断部１２は、現在の学習速度の設定が“高”であるかどうかを判定する。“高”の場合はＳ６へ進み、それ以外の設定の場合はＳ７に進む。
Ｓ６において、学習速度判断部１２は、学習速度が“高”で背景ノイズの学習を行っている状態が一定時間経過したかを判断する。一定時間経過した場合はＳ９へ進み、経過していない場合はＳ８へ進む。Ｓ６からＳ９に進む場合は、本実施形態にあっては、所定時間、前記交通状況に変化がなければ、前記学習速度を“高”から“中”に下げている。
Ｓ７において、学習速度判断部１２は、交通状況に変化が無い状態が一定時間継続しているかを判断する。一定時間変化がない状態が継続していればＳ１０へ進み、継続ししていない場合はＳ９へ進む。Ｓ７からＳ１０に進む場合は、本実施形態にあっては、所定時間、前記交通状況に変化がなければ、前記学習速度を“中”から“低”に下げている。この学習速度の変更は、交通状況が所定時間変化しなければ、現在の学習速度を低速化する変更であると言える。

Ｓ８において、学習速度判断部１２は、ノイズの学習速度を“高”に設定する（“中”から“高”に変更する）。つまり、本実施形態では、交通状況に変化がある場合、学習速度を上げている。
Ｓ９において、学習速度判断部１２は、ノイズの学習速度を“中”に設定する。
Ｓ１０において、学習速度判断部１２は、ノイズの学習速度を“低”に設定する。Ｓ８、Ｓ９、Ｓ１０の後、Ｓ１１に進む。
Ｓ１１において、タイマ部８は、次に交通状況検出部１１が交通状況を検出するタイミング（すなわちタイムアウト時間）を設定する。タイムアウト時間は、例えば、１００ｍｓｅｃである。
Ｓ１２において、音声分岐部１４は、音声入力部１３から入力された音声データを全く同一の２つの音声データに分ける。この２つの音声データは、ゲインや特性に差異や劣化の無い音声データである。そして、音声分岐部１４は、一方の音声データをノイズ学習部１６に送り、もう一方の音声データをノイズ除去部１５に送る。

Ｓ１３において、ノイズ学習部１６は、音声分岐部１４から入力された音声データのノイズ学習処理を行う。ノイズ学習処理により、ノイズ学習部１６は、ノイズの周波数成分と減算量を決定（取得）する。
Ｓ１４において、ノイズ除去部１５は、音声分岐部１４から入力された音声データに対し、ノイズ学習部１６から入力されたノイズの周波数成分と減算量に基づいてノイズ除去処理を行う。そして、ノイズ除去部１５は、ノイズ除去後の音声データ（ノイズ成分を除去した後の音声データ）を異常音検知処理部７に送る。
Ｓ１５において、異常音検知処理部７は、ノイズ除去部１５から入力された音声データ（ノイズ成分が除去された後の音声データ）に異常音データが含まれているかどうかを判断（検知）する。異常音検知処理部７は、当該音声データ中に異常音を検知した場合、イベント通知部９に異常音が検知されたことを通知する。イベント通知部９は、通信部３を介して、異常音の検知（異常音の発生）を監視モニタ装置５０に通知（送信）する。つまり、ノイズ成分が除去された後の音声データに、異常音が含まれていると判断された場合、イベント通知部９は、当該判断結果を監視装置である監視モニタ装置５０に送る。

Ｓ１６において音声入力部１３に音声が入力されたか否かを判定する。当該判定の結果がＹＥＳの場合はＳ１１へ進み、ＮＯの場合はＳ１７に進む。
Ｓ１７において不図示の異常監視システムＯｎ/ＯｆｆスイッチがＯｆｆ操作されたかどうかを判断する。ＹＥＳの場合、音声入力装置１から音声入力部１３への音声入力は停止され、図４のフローチャートは終了する。ＮＯの場合、Ｓ１８に進む。
Ｓ１８において、タイマ部８がタイムアウトしたか（タイムアウト時間が経過したか）否かを判定する。当該判定の結果がＹＥＳの場合はＳ２へ進み、ＮＯの場合はＳ１６へ進む。

以上の処理により、異常監視システム１００に含まれているノイズ除去装置は、映像データから得られる交通状況（自動車の混雑状況）に合わせた最適な背景ノイズの学習（学習処理）を行うことができる。特に本実施形態では、交通状況が変化した場合に、ノイズ学習（学習処理）の全体の学習速度を“中”から“高”に変更している。交通状況が変化した場合に学習速度を上げることによって、ノイズ環境の変化に学習速度が追従できるようしている。よって、本実施形態のノイズ除去装置によれば、ノイズ除去精度が向上し、正確に異常音を検出することが可能となる。また、このようなノイズ除去装置を含む異常監視システム１００は、正確な異常監視を行うことができる。
なお、本実施形態の異常監視システムは、以下の態様でも使用することができる。
例えば、屋外の交通の異常音を監視する異常監視システムにおいて、カメラ（撮像装置）の映像から現在の天候状況を判断し、天候状況の変化に応じてノイズの学習速度を変更したり、ノイズの学習を行うか否か（ノイズ学習の有無）を決定（変更）してもよい。つまり、学習速度を変更等する場合に用いる撮影範囲の状況は、カメラの映像データから得られる天候の状況であってもよい。

また、店舗の異常音を監視する異常監視システムにおいて、映像データから得られる人の混雑状況を判断し、人の混雑状況の変化に応じてノイズの学習速度を変更したり、ノイズの学習を行うか否かを決定してもよい。つまり、学習速度を変更等する場合に用いる撮影範囲の状況は、カメラの映像データから得られる人の混雑状況であってもよい。
なお、本実施形態では異常監視システムは、音声入力装置１と映像入力装置２と監視モニタ装置５０を有するとしたが、音声入力装置１と映像入力装置２と監視モニタ装置５０は、異常監視システムの構成要素に含まれないようにしてもよい。
また、上記した実施形態では、Ｓ１の初期設定において学習速度を“中”にしたが、初期設定において学習速度を“中”以外の速度にしてもよい。

第２実施形態
第１実施形態では、交通状況が変化した場合に、ノイズ学習（学習処理）の全体の学習速度を“中”から“高”に変更した。本発明はこのような実施形態に限定されない。例えば、背景ノイズに含まれる周波数成分に応じて、学習速度の変更の仕方を変えてもよい。このような実施形態を第２実施形態として説明する。
本発明の第２実施形態に係る異常監視システムを図５〜図７を参照して説明する。第２実施形態の異常監視システム１００Ｂは、交通現場の背景ノイズに含まれる周波数成分が交通状況によって異なるということに着目した実施形態である。第２実施形態では、ノイズに含まれる周波数成分に基づいて、交通状況に応じた最適なノイズ学習（学習処理）を行う。

図５は異常監視システム１００Ｂの機能ブロック構成図を示している。
第１実施形態の異常監視システム１００と同じように、第２実施形態の異常監視システム１００Ｂは撮影現場の交通状況の異常を監視するシステムである。異常監視システム１００Ｂは、撮影現場で衝突音などが発生した場合、それを異常音として検知し、監視モニタ装置５０にイベント通知を行う。図５に示されているように、異常監視システム１００Ｂは、第１実施形態のノイズ学習部１６の代わりにノイズ学習部１６Ｂを有している。ノイズ学習部１６Ｂの機能は、ノイズ学習部１６の機能と異なる。また、異常監視システム１００Ｂは、第１実施形態の学習速度判断部１２の代わりに、学習モード判断部１２Ｂを有している。それ以外の機能構成については、第２実施形態は第１実施形態と同じである。以下の記載においては、第１実施形態との相違点を中心に説明する。

図６は背景ノイズの種別毎のスペクトラムを示す図である。図６のグラフの縦軸はゲイン（スペクトラム）であり（単位はｄｂ）、横軸は周波数である（単位はＨｚ）。スペクトラムチャートＲ１０に示すように、交通現場の背景ノイズはその交通状況によってノイズに含まれる周波数成分が異なる。つまり、背景ノイズの波形は、交通状況によって異なる。したがって、交通状況に応じた最適なノイズ学習を行う必要がある。本実施形態では、背景ノイズは、エンジン音Ｒ１と通過音Ｒ２と環境音Ｒ３のいずれかであるとする。換言すると、背景ノイズの波形は３種類（Ｒ１、Ｒ２、Ｒ３）あるとする。エンジン音Ｒ１は、渋滞中に多く発生する背景ノイズである。通過音Ｒ２は、交通量が多い時に発生する背景ノイズである。環境音Ｒ３は平常時の背景ノイズである。
環境音Ｒ３と比較すると、エンジン音Ｒ１は５０〜７５Ｈｚ近辺の低周波の周波数を多く含んでおり（図６においてＲ４で示す）、通過音Ｒ２は１５０〜１７５Ｈｚ近辺の周波数を多く含んでいる（図６においてＲ５で示す）。

異常監視システム１００Ｂの学習モード判断部１２Ｂは、交通状況検出部１１から受け取った映像内の自動車の交通状況（道路の混雑状況）から最適なノイズ学習モードを設定（選択）する。本実施形態では、交通状況が“通常”の場合は、学習モード判断部１２Ｂは、学習モードを“通常学習”に設定し、交通状況が“渋滞中”の場合は学習モードを“渋滞音学習”に設定する。また、交通状況が“交通量多い”の場合は学習モードを“通過音学習”に設定する。学習モード判断部１２Ｂは、設定したノイズ学習モードをノイズ学習部１６Ｂに送る。
ノイズ学習部１６Ｂは音声分岐部１４から受け取った音声データから、背景ノイズや定常的に鳴動する音をノイズと定義して、その成分を学習し、ノイズ除去時の周波数成分と減算量とを生成する。ノイズ学習部１６Ｂは、ノイズ除去時の周波数成分と減算量とをノイズ除去部１５に送る。
ノイズ学習部１６Ｂのノイズの学習方法は、第１実施形態のノイズ学習部１６と同じである。また、第２実施形態における定常的に鳴動する音声の周波数成分の学習方法も、第１実施形態と同じである。第１実施形態と異なるのは、第２実施形態のノイズ学習部１６Ｂが、学習モード判断部１２Ｂから与えられた学習モードに基づいて、周波数ごとのにゲイン値の収束速度を決定することである。

学習モードが“通常学習”の場合は、学習モード判断部１２Ｂは周波数全体の収束速度を通常の速度で収束するよう設定する。また、学習モードが“通常学習”の場合は、学習モード判断部１２Ｂは周波数ごとの収束速度を同じにする。学習モードが“渋滞音学習”の場合は、図６のＲ４に示すように背景ノイズは５０〜７５Ｈｚ近辺の周波数を多く含んでいるため、学習モード判断部１２Ｂはその周波数帯の適応フィルタのゲインの収束速度を通常の速度より高く設定する。つまり、本実施形態では、ノイズ学習全体の学習速度を変更するのではなく、ノイズ学習の一部の学習速度だけを変更している。換言すると、ノイズ成分の周波数に基づいて、学習処理の学習速度を変更している。

また、学習モードが“通過音学習”の場合は、図７のＲ５に示すように背景ノイズは１５０〜１７５Ｈｚ近辺の周波数を多く含んでいるため、学習モード判断部１２Ｂはその周波数帯の適応フィルタのゲインの収束速度を高く設定する。
このように、第２実施形態では、学習モードに応じて、特定の周波数帯の適応フィルタの収束速度を変更している。
なお、特定の周波数帯の適応フィルタの収束速度を変更するだけではなく、騒音や通過音のノイズ成分が含まれない周波数帯の収束を無効としてもよい。

次に、図５の異常監視システム１００Ｂのノイズ除去の手順を、図７に示すフローチャートを用いて説明する。本実施形態では、映像入力装置２から入力される映像に基づいて現在の交通状況を判断し、当該判断に応じて周波数ごとにノイズ学習速度を変更する。図７のフローチャートは、音声入力装置１から音声データが音声情報処理部６に入力されると開始する。
異常監視システム１００Ｂが起動されると、音声入力装置１からの音声データが音声情報処理部６に入力され、異常監視システム１００Ｂは、Ｓ２１にて初期化処理を行う。具体的には、学習モード判断部１２Ｂは、初期設定として学習モード判断部１２Ｂから出力される学習モードを“通常学習”に設定する。
Ｓ２２は、第１実施形態のＳ２と同じである。また、Ｓ２３も、第１実施形態のＳ３と同じである。
Ｓ２４において、学習モード判断部１２Ｂは、交通状況検出部１１からの検出結果（交通状況）に基づいて、交通状況が“渋滞中”であるかを判断する。学習モード判断部１２Ｂが“渋滞中”であると判断した場合は、Ｓ２６へ進み、そうでない場合はＳ２５へ進む。

Ｓ２５において、学習モード判断部１２Ｂは、交通状況検出部１１で検出された交通状況が“交通量多い”であるかを判断する。“交通量多い”の場合はＳ２７へ進み、そうでない場合はＳ２８へ進む。
Ｓ２６において、学習モード判断部１２Ｂは、ノイズの学習モードを“渋滞音学習”に設定する。つまり、交通状況が渋滞中の場合、本実施形態では、学習モードを初期設定の“通常学習”から“渋滞音学習”に変更している。
Ｓ２７において、学習モード判断部１２Ｂは、ノイズの学習モードを“通過音学習”に設定する。つまり、交通状況が交通量多いの場合、本実施形態では、学習モードを初期設定の“通常学習”から“渋滞音学習”に変更している。
Ｓ２８において、学習モード判断部１２Ｂは、ノイズの学習モードを“通常学習”に設定する。Ｓ２６、Ｓ２７、Ｓ２８の後、Ｓ２９に進む。
Ｓ２９〜Ｓ３６は、第１実施形態のＳ１１〜Ｓ１８（図４）と同じである。
以上の処理により、第２実施形態の異常監視システム１００Ｂは、交通状況に合わせた最適な背景ノイズの学習を行うことができ、よって、ノイズ除去精度が向上し、正確に異常音を検出することが可能となる。特に、第２実施形態では、ノイズ成分の周波数に基づいて、学習速度を変更しているので、精緻なノイズ除去を行うことができる。

また、本実施形態の異常監視システムは、以下の態様で使用することができる。
例えば、屋外の交通の異常音を監視する異常監視システムにおいて、カメラの映像から現在の天候状況を判断し、天候状況に応じて周波数ごとのノイズの学習速度を変更してもよいし、学習を行うか否かを決定（変更）してもよい。
また、店舗の異常音を監視する異常監視システムにおいて、映像データから得られる人の混雑状況を判断し、人の混雑状況（の変化）に応じて周波数ごとのノイズの学習速度を変更したり、学習を行うか否かを決定してもよい。

第３実施形態
第２実施形態では、背景ノイズに含まれる周波数成分に着目し、交通状況に応じてノイズ学習モードを選択（変更）した。本発明は、このような実施形態に限定されない。例えば、周囲のノイズ環境が大きく変動する場合には、ノイズ環境の変化に学習速度がついていけるように学習モードを選択（変更）してもよい。このような実施形態を第３実施形態として説明する。
本発明の第３実施形態に係る異常監視システムを図５、図６および図８を参照して説明する。第３実施形態の異常監視システムの機能構成図は、第２実施形態と同じ（図５）である。ただし、第３実施形態のノイズ学習部１６Ｂと学習モード判断部１２Ｂの役割は、第２実施形態とは異なる。また、選択（設定）できる学習モードは５つあるとする。詳しくは、第３実施形態において設定できる学習モードは、“渋滞音学習”と“通過音学習”と“通常学習”と“高”と“無”である。

学習モードが“高”の場合は、ノイズ学習モード判断部１２Ｂは周波数全体の収束速度を高く設定する。学習モードが“無”の場合は、学習モード判断部１２Ｂはノイズ学習を行わないという設定をする。学習モードが“渋滞音学習”、“通過音学習”および“通常学習“の場合は、第２実施形態で説明した“渋滞音学習”、“通過音学習”および”通常学習“と同じ内容の学習を行う。以下の記載においては、第２実施形態との相違点を中心に説明する。
第３実施形態のノイズ学習モード判断部１２Ｂは、交通状況検出部１１から受け取った映像内の自動車の交通状況の変化から最適なノイズ学習モードを設定（選択）する。具体的には、学習モード判断部１２Ｂは、交通状況が“通常”に変化した場合は、学習モードを“高”に設定し、交通状況が“渋滞中”に変化した場合は、学習モードを“渋滞音学習”に設定する。また、学習モード判断部１２Ｂは、交通状況が“交通量多い”に変化した場合は学習モードを“通過音学習”に設定する。このように設定変更をするのは、学習モードを設定した後に交通状況に変化があった場合、本実施形態では、周囲のノイズ環境が大きく変動すると判断（想定）し、ノイズ環境の変化に学習速度がついていけるよう学習モードを設定するためである。交通状況の変化とは、例えば、“交通量多い”から“通常”への変化や、“通常”から“渋滞中”への変化である。

本実施形態では、学習モード“高”、“渋滞音学習”、“通過音学習”を設定して一定時間交通状況に変化がない場合、ノイズ環境の変動が収束したと判断し、学習モード判断部１２Ｂは、過度なノイズ学習を防ぐため学習モードを“通常学習”に戻す。
また、学習モード“通常学習”を設定した状態で一定時間交通状況に変化がない場合は、ノイズ環境の変化が殆どない定常状態にあると判断し、学習モード判断部１２Ｂは、ノイズ以外の音声を学習してしまわないように、学習モード“無”を設定する。
ノイズ学習部１６Ｂは音声分岐部１４から受け取った音声データから、背景ノイズや定常的に鳴動する音をノイズと定義して、その成分を学習し、ノイズ除去時の周波数成分と減算量とを生成する。ノイズ学習部１６Ｂは、ノイズ除去時の周波数成分と減算量とをノイズ除去部１５に送る。
ノイズの学習方法は、第２実施形態と同じである。定常的に鳴動する音声の周波数成分の学習方法も、第２実施形態と同じである。そして、第２実施形態と同じように、学習モード判断部１２Ｂから与えられた学習モードをもとに、周波数ごとにゲイン値の収束速度を決定する。

次に、本実施形態の異常監視システムのノイズ除去の手順を、図８に示すフローチャートを用いて説明する。本実施形態では、映像入力装置２から入力される映像に基づいて現在の交通状況を判断し、当該判断に応じて最適なノイズ学習を行う。図８のフローチャートは、音声入力装置１から音声データが音声情報処理部６に入力されると開始する。
Ｓ４１〜Ｓ４３は、第２実施形態のＳ２１〜Ｓ２３と同じである。
Ｓ４４において、学習モード判断部１２Ｂは、交通状況検出部１１からの検出結果（交通状況）に基づいて、交通状況に変化があるかを判断する。例えば、交通状況が“通常”から“渋滞中”に変化した場合や、“交通量多い”から“通常”に変化した場合、交通状況に変化ありと判断し、Ｓ４７に進む。交通状況に変化がないと判断した場合は、Ｓ４５に進む。

Ｓ４５において、現在の学習モードの設定が“通常学習”もしくは“無”であるかどうかを判段する。“通常”もしくは“無”と判断された場合は（Ｓ４５：ＹＥＳ）、Ｓ４９へ進む。それ以外の設定であると判断された場合は、Ｓ４６に進む。
Ｓ４６において、背景ノイズの学習を行っている状態が一定時間継続（一定時間経過）したかを判断する。一定時間経過したと判断された場合は、Ｓ５３へ進む。一定時間経過していない場合は、Ｓ４７へ進む。
Ｓ４７において、学習モード判断部１２Ｂは、交通状況検出部１１からの検出結果（交通状況）に基づいて、交通状況が“渋滞中”であるかを判断する。交通状況が“渋滞中”であると判断された場合はＳ５０へ進む。そうでない場合はＳ４８へ進む。
Ｓ４８において、学習モード判断部１２Ｂは、交通状況検出部１１からの検出結果（交通状況）に基づいて、交通状況が“交通量多い”であるかを判断する。“交通量多い”と判断された場合はＳ５１へ進む。そうでない場合はＳ５２へ進む。

Ｓ４９において、交通状況に変化がない状態が一定時間継続しているかを判断する。つまり、道路状況が所定時間変化しないかを判断する。道路状況に変化が無い状態が一定時間続いていればはＳ５４へ進む。そうでなければ、Ｓ５３へ進む。
Ｓ５０において、学習モード判断部１２Ｂは、ノイズの学習モードを“渋滞音学習”に設定する。つまり、本実施形態では、交通状況が”渋滞中“に変わった場合には、学習モードを初期設定の”通常学習“から”渋滞音学習“に変更する。
Ｓ５１において、学習モード判断部１２Ｂは、ノイズの学習モードを“通過音学習”に設定する。つまり、本実施形態では、交通状況が”交通量多い“に変わった場合には、学習モードを初期設定の”通常学習“から”通過音学習“に変更する。
Ｓ５２において、学習モード判断部１２Ｂは、ノイズの学習モードを“高”に設定する。つまり、本実施形態では、交通状況が”渋滞中“および”交通量多い“意外の状況に変わった場合には、学習モードを初期設定の”通常学習“から”高“に変更する。

Ｓ５３において、学習モード判断部１２Ｂは、ノイズの学習モードを“通常学習”に設定する。
Ｓ５４において、学習モード判断部１２Ｂが出力するノイズの学習モードを“無”に設定する。Ｓ５０、Ｓ５１、Ｓ５２、Ｓ５３、Ｓ５４の後、Ｓ５５に進む。
Ｓ５５〜Ｓ６２は、第２実施形態のＳ２９〜Ｓ３６（図７）と同じである。
以上の処理により、交通状況（道路の混雑状況）に合わせた最適な背景ノイズの学習を行うことができ、よってノイズ除去精度が向上し、正確に異常音を検出することが可能となる。

また、本実施形態の異常監視システムは、以下の態様でも使用することができる。
例えば、屋外の交通の異常音を監視する異常監視システムにおいて、カメラの映像から現在の天候状況を判断し、天候状況の変化に応じてノイズ学習の全体もしくは周波数ごとの学習速度を変更してもよいし、ノイズ学習を行うか否かを決定（変更）してもよい。
また、店舗の異常音を監視する異常監視システムにおいて、映像データから得られる人の混雑具合を判断し、人の混雑状況の変化に応じて周波数ごとのノイズ学習の全体もしくは周波数ごとの学習速度を変更したり、ノイズ学習を行うか否かを決定してもよい。

（異常監視システムのハードウェア構成）
図９は異常監視システムのハードウェア構成の一例を示している。図９に示されるように、異常監視システム１００は、撮像装置１０１、ＣＰＵ１０２、ＲＡＭ１０３、ＲＯＭ１０４、記憶媒体１０５、表示部１０６、操作部１０７、通信部１０８、収音装置１０９およびアンテナ１０８ａを有する。
撮像装置１０１は、光学系（レンズ、シャッター、絞り）と撮像素子とから構成される。光学系は、被写体からの光を適切な量とタイミングで撮像素子に結像させる。撮像素子は、光学系を通って結像した光を画像（映像）に変換する。撮像装置１０１は、例えば、道路脇に設置されたカメラであり、道路上の所定の撮影範囲を撮影して、当該所定の撮影範囲を走行する自動車の映像データを生成する。撮像装置１０１は、図１の映像入力装置２に対応する。
ＣＰＵ１０２は、入力された信号やプログラムに従って、各種の演算や異常監視システム１００を構成する各部分の制御を行う。具体的には、ＣＰＵ１０２は、撮像制御、学習制御、表示制御、記憶制御、通信制御などを行う。図１の機能ブロックは、ＣＰＵ１０２によって実行される機能を図示したものである。

ＲＡＭ１０３は、一時的なデータを記憶し、ＣＰＵ１０２の作業用に使われる。ＲＯＭ１０４は、図１に示した各機能部を実行するためのプログラムや、各種の設定情報を記憶する。
記憶媒体１０５は、映像データなどを記憶する。記憶媒体１０５は、例えば、着脱可能なメモリカードであり、ＰＣ（パーソナルコンピュータ）などに装着してデータを読み出すことが可能である。異常監視システム１００は記憶媒体１０５へのアクセス手段を有し、記憶媒体１０５へのデータの読み書きを行うことができる。
表示部１０６は、映像の表示、対話的な操作のための文字表示などを行う。なお、異常監視システム１００は必ずしも表示部１０６を備える必要はない。
操作部１０７は、ユーザの操作を受け付けるためのものである。操作部１０７は、例えば、ボタン、レバー、タッチパネルなどを含む。操作部１０７は、異常監視システムＯｎ/Ｏｆｆスイッチを含む。
通信部１０８は、無線ＬＡＮにより監視モニタ装置５０との通信（無線または有線）を行う。無線通信の場合、アンテナ１０８ａを使用する。

収音装置１０９は、外部の音を収める手段である（例えば、マイクロフォン）。具体的には、収音装置１０９は、撮像装置１０１の撮影に付随する音声を収音する。収音装置１０９は、所定の撮影範囲およびその近辺の音を収音し、音声データを生成する。生成された音声データは、記憶媒体１０５に記憶される。収音装置１０９は、図１の音声入力装置１に対応する。
なお、異常監視システム１００の制御は、１つのハードウェアで行ってもよいし、複数のハードウェアが処理を分担しながら、異常監視システムにおける処理を実行する手段として機能してもよい。
異常監視システム１００は、撮像装置１０１を備えなくてもよい。その場合には、異常監視システム１００（の映像入力部１０）は、外部の撮像装置から映像を受け取る。
また、異常監視システム１００は、通信部１０８を備えなくてもよい。その場合には、異常監視システム１００（のイベント通知部９）は、例えば、有線により監視モニタ装置５０に直接接続される。
異常監視システム１００は、収音装置１０９を備えなくてもよい。その場合には、異常監視システム１００（の音声入力部１３）は、外部の収音装置から音声データを取得する。
なお、第１実施形態〜第３実施形態では、ノイズ除去装置を含む異常監視システムが説明されたが、ノイズ除去装置は、他の種類のシステムに含めることもできる。

（他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。プログラムは、コンピュータプログラムである。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。
また、ノイズ除去装置と、所定の撮影範囲を撮影して映像データを生成する撮像装置と、前記映像データに付随する音声を収音し、音声データを生成する収音装置と、によって、音声処理システムを構成してもよい。

１…音声入力装置、２…映像入力装置、７…異常音検知処理部、１０…映像入力部、１１…交通状況検出部、１２…学習速度判断部、１３…音声入力部、１５…ノイズ除去部、１６…ノイズ学習部

Claims

所定の撮影範囲の映像データから前記撮影範囲の状況を検出する検出手段と、
前記映像データを撮影する撮像装置に対応する収音装置によって収音される音声データに対して、前記検出手段によって検出される状況に基づいて学習処理を行うことによって、ノイズ成分を導出する学習手段と、
前記音声データから前記ノイズ成分を除去する除去手段と、
を有し、前記学習手段は、前記状況に基づいて、前記学習処理の学習速度を変更することを特徴とする音声処理装置。
前記学習手段は、前記ノイズ成分の周波数に基づいて、前記学習処理の学習速度を変更することを特徴とする請求項１に記載の音声処理装置。
前記学習手段は、前記状況に基づいて、前記学習処理を行うか否かを決定することを特徴とする請求項１または２に記載の音声処理装置。
前記学習手段は、前記状況が変化した場合、前記学習速度を上げることを特徴とする請求項１または２に記載の音声処理装置。
前記学習手段は、前記状況が所定時間変化しなければ、前記学習速度を下げることを特徴とする請求項１または２に記載の音声処理装置。
前記撮影範囲の状況は、前記映像データから得られる交通状況であることを特徴とする請求項１〜５のいずれか１項に記載の音声処理装置。
前記撮影範囲の状況は、前記映像データから得られる天候の状況であることを特徴とする請求項１〜５のいずれか１項に記載の音声処理装置。
前記撮影範囲の状況は、前記映像データから得られる人の混雑状況であることを特徴とする請求項１〜５のいずれか１項に記載の音声処理装置。
前記ノイズ成分が除去された後の音声データに、異常音が含まれているかを判断する判断手段と、
前記異常音が含まれていると判断された場合、当該判断結果を監視装置に送る送信手段と、
をさらに有することを特徴とする請求項１〜８のいずれか１項に記載の音声処理装置。
所定の撮影範囲の映像データから前記撮影範囲の状況を検出するステップと、
前記映像データを撮影する撮像装置に対応する収音装置によって収音される音声データに対して、検出された前記状況に基づいて学習処理を行うことによって、ノイズ成分を導出するステップと、
前記音声データから前記ノイズ成分を除去するステップと、
前記状況に基づいて、前記学習処理の学習速度を変更するステップと、
を有することを特徴とする音声処理方法。
コンピュータを、請求項１から９のいずれか１項に記載の音声処理装置として機能させるためのコンピュータプログラム。