JP6727825B2 - 音声処理装置および音声処理方法 - Google Patents

音声処理装置および音声処理方法 Download PDF

Info

Publication number
JP6727825B2
JP6727825B2 JP2016018417A JP2016018417A JP6727825B2 JP 6727825 B2 JP6727825 B2 JP 6727825B2 JP 2016018417 A JP2016018417 A JP 2016018417A JP 2016018417 A JP2016018417 A JP 2016018417A JP 6727825 B2 JP6727825 B2 JP 6727825B2
Authority
JP
Japan
Prior art keywords
learning
noise
unit
sound
traffic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016018417A
Other languages
English (en)
Other versions
JP2017138416A (ja
Inventor
智彦 黒木
智彦 黒木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2016018417A priority Critical patent/JP6727825B2/ja
Priority to KR1020170010807A priority patent/KR102080124B1/ko
Priority to CN201710059473.2A priority patent/CN107068163B9/zh
Priority to US15/421,084 priority patent/US10049687B2/en
Publication of JP2017138416A publication Critical patent/JP2017138416A/ja
Application granted granted Critical
Publication of JP6727825B2 publication Critical patent/JP6727825B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0108Measuring and analyzing of parameters relative to traffic conditions based on the source of data
    • G08G1/0116Measuring and analyzing of parameters relative to traffic conditions based on the source of data from roadside infrastructure, e.g. beacons
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/04Detecting movement of traffic to be counted or controlled using optical or ultrasonic detectors
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/052Detecting movement of traffic to be counted or controlled with provision for determining speed or overspeed
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/065Traffic control systems for road vehicles by counting the vehicles in a section of the road or in a parking area, i.e. comparing incoming count with outgoing count
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Traffic Control Systems (AREA)
  • Studio Devices (AREA)
  • Emergency Alarm Devices (AREA)

Description

本発明は、音声処理装置および音声処理方法に関する。
音声や映像などの信号に含まれるノイズを抑制・軽減する信号処理技術としてノイズリダクション(Noise Reduction:NR)技術が知られている。従来の音声のNR技術として、除去対象の音声の周波数成分を各々のゲイン分だけ減算処理することで除去対象音を除去するスペクトラルサブトラクションと称される手法がある。スペクトラルサブトラクションは、NR技術の基本技術として広く知られている。
この技術を応用したNR技術にはノイズ学習型のNRがある。ノイズ学習型のNRでは、背景音や定常的に鳴動する音声の周波数領域と減算量を自己相関や適応フィルタを用いて自動的に学習し、その周波数成分を除去している。
例えば、特許文献1では入力音に含まれる周波数特性を自己相関関数により演算して、入力音が音声であるか周囲雑音であるか否かを判定している。そして、特許文献1では、周囲雑音の平均値を平均ノイズとして算出して、入力音から平均ノイズを減算することで周囲雑音成分を除去している。
特開2009−49885号公報
特許文献1に開示された技術では、入力音の周波数特性の演算から周囲雑音成分の除去までの速度(すなわち、ノイズの学習速度)が周囲雑音に拘わらず一定である。しかしながら、周囲雑音は時間帯等によって変動する場合がある。そのため、特許文献1の技術を採用すると、時間帯によって周囲雑音(ノイズ環境)のレベルが変わる環境下では、精度よく周囲雑音を除去することができない。
本発明の目的は、音声のノイズ除去を行う際に、ノイズ環境が変化しても精度よくノイズ除去を行うことができる音声処理装置を提供することである。
上記目的を達成するために、本発明の一態様にかかる音声処理装置は、所定の撮影範囲の映像データから前記撮影範囲の状況を検出する検出手段と、前記映像データを撮影する撮像装置に対応する収音装置によって収音される音声データに対して、前記検出手段によって検出される状況に基づいて学習処理を行うことによって、ノイズ成分を導出する学習手段と、前記音声データから前記ノイズ成分を除去する除去手段と、を有し、前記学習手段は、前記状況に基づいて、前記学習処理の学習速度を変更する。
本発明によれば、音声のノイズ除去を行う際に、ノイズ環境が変化しても精度よくノイズ除去を行うことができる。
第1実施形態に係る異常監視システムの機能ブロック図。 第1実施形態に係る交通現場の背景ノイズの音声波形図。 第1実施形態に係る交通状況の検出方法を説明する図。 第1実施形態の異常監視システムのノイズ除去手順を示すフローチャート。 第2実施形態に係る異常監視システムの機能ブロック図。 第2実施形態の背景ノイズの種別毎のスペクトラム図。 第2実施形態の異常監視システムのノイズ除去手順を示すフローチャート。 第3実施形態の異常監視システムのノイズ除去手順を示すフローチャート。 異常監視システムのハードウェア構成図。
以下、添付図面を参照して、本発明を実施するための実施形態を詳細に説明する。以下に説明する実施形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正または変更されるべきものであり、本発明は以下の実施形態に限定されるものではない。
ノイズの学習速度が周囲雑音に拘わらず一定であるとすると、時間帯等によって周囲雑音(ノイズ環境)のレベルが変わる環境下では、精度よく周囲雑音を除去することができない。例えば、ノイズ環境がよく変動する時間帯においては学習速度を速くしないとノイズ環境の変動に追従できずノイズを除去しきれない場合が出てきてしまう。一方、ノイズ環境があまり変動しない時間帯においては、学習速度を速くする必要はない。例えば、学習速度を遅くすることにより、背景ノイズ以外の必要な音声が学習・除去されてしまう可能性を減らすことができる。本発明の実施形態においては、このような点に鑑み、ノイズ除去を高精度で行うことができるノイズ除去装置について説明する。また、このようなノイズ除去装置を含む監視システムについても説明する。
第1実施形態
(異常監視システムの概要)
本発明の第1実施形態に係るノイズ除去装置を備える異常監視システムを図1〜図4に基づいて説明する。なお、ノイズ除去装置は、ノイズ除去により音声を処理する装置であるので、音声処理装置と称することができる。
はじめに、図1に示す異常監視システム100のブロック構成図(機能構成図)を参照しながら、異常監視システム100の機能構成を説明する。
本実施形態の異常監視システム100は、撮影現場(所定の撮影範囲)の交通状況の異常(交通異常)を監視するシステムである。異常監視システム100は、外部の監視モニタ装置50に接続されている。異常監視システム100は、撮影現場で衝突音、ガラスの破壊音、破裂音などが発生した場合、当該衝撃音等を異常音として検知し、監視モニタ装置50にイベント通知(異常音が発生したことの通知)を行う。なお、各実施形態において、ノイズとは、検知対象の音(各実施形態においては異常音)以外の背景音であるものとする。背景音は、以下の記載において、背景ノイズと称することもある。
異常監視システム100は背景ノイズが発生する可能性のある交通状況を監視するシステムであるので、より高い精度で異常音を検知させるために定常的に鳴動する背景ノイズを除去する仕組み(ノイズ除去機能・ノイズ除去装置)を備えている。
異常監視システム100は、音声入力装置1と、映像入力装置2と、通信部3と、情報処理部4とを有している。異常監視システム100は、通信部3を介して監視モニタ装置50に接続されている。音声入力装置1は、撮影現場の音声を取得して、情報処理部4に当該音声を入力する。音声入力装置1は、例えば、マイクロフォン等の収音装置である。映像入力装置2は、例えば、動画を撮影(撮像)することができるカメラ装置である。映像入力装置2は、所定の撮影範囲を撮影して、映像データを生成する。撮影範囲の状況(本実施形態では、交通状況)は、映像データから得られる。音声入力装置1は、映像データを撮影する撮像装置に対応する収音装置である装置である。この収音装置は必ずしも撮像装置の内部に設けられる必要はなく、撮像装置の外部に設けてもよい。また、必ずしも撮像装置が撮影する撮影範囲の方向の音だけを収音するものでなくてもよい。例えば、指向性の広いマイクロフォンを用いて、撮影範囲の方向を含む、撮像装置の周囲の音を収音するものであってもよい。収音装置によって収音した音から悲鳴等の異常音を検知し、その異常音の方に撮像装置を向けるというような用途にも本発明は適用可能である。
情報処理部4は、映像情報処理部5と、音声情報処理部6と、異常音検知処理部7と、タイマ部8と、イベント通知部9とを有する。ノイズ除去機能は、映像情報処理部5と音声情報処理部6により実行されるので、本実施形態の異常監視システム100に含まれるノイズ除去装置は、映像情報処理部5と音声情報処理部6とを有する。
映像情報処理部5は、映像入力装置2の出力信号(映像入力装置2からの入力映像)とタイマ部8の出力信号とを受け取り、入力映像に対して映像処理を行い、処理後の信号(映像)を音声情報処理部6に送る。
音声情報処理部6は、音声入力装置1の出力信号(音声入力装置1からの入力音声)と映像情報処理部5の出力信号を受け取り、入力音声に対してノイズ除去を行う。ノイズ除去された音声(音声情報処理部6の出力信号)は、異常音検知処理部7に送られる。
異常音検知処理部7は、音声情報処理部6の出力信号を受け取り、異常音を検知して処理する。当該処理により生成された信号は、イベント通知部9に送られる。
タイマ部8は、映像情報処理部5の映像検出の頻度を決め、当該検出頻度を映像情報処理部5に通知する。
イベント通知部9は、異常音検知処理部7の出力信号を受け取り、通知イベントを生成し、当該通知イベントを通信部3に送る。通信部3は、イベント通知部9から受け取った通知イベントを監視モニタ装置50に送信する。
監視モニタ装置50は、ディスプレイ部とアラーム発生部などを有する。監視モニタ装置50は、通信部3から通知イベントを受け取ると、異常音が検知されたことを文字や画像によりディスプレイ部に表示する。この際、アラーム音を発生してもよい。
(映像情報処理部)
映像情報処理部5は、映像入力部10と、交通状況検出部11とを有する。映像入力部10は、映像入力装置2からの入力映像を受け取り保持する。交通状況検出部11は、映像入力部10から当該入力映像を受け取り、当該入力映像から現在の交通状況を検出する。より詳しくは、交通状況検出部11は、映像入力部10から入力された映像をもとに、映像入力装置2の映像内に映る自動車(車両)の数、自動車の通過速度、および単位時間当たりの自動車の通過頻度を検出する。そして、交通状況検出部11は、自動車の数、通過速度および通過頻度の組み合わせから交通状況を判断(検出)して、当該交通状況を音声情報処理部6(より詳しくは、後述する学習速度判断部12)に出力する。
映像入力装置2の映像から自動車を検知するには、テンプレートマッチングなどを利用した物体検知方法を用いる。この物体検知方法により、映像内の自動車の数を検出(取得)することができる。また、自動車の通過速度と通過頻度を求める方法としていわゆる通過検知などを利用した検知方法を用いる。テンプレートマッチングや通過検知については公知の技術であるので、詳細な説明は省略する。
(背景ノイズ)
図2は、撮影現場の背景ノイズの音声波形図(音声波形P10)の例を示している。図2の縦軸は振幅であり(単位はdb)であり、横軸は時間である(単位は時間)。音声波形P10は、24時間の間に背景ノイズがどのように変化するかを示している。音声波形P10は、本実施形態では、7つのセグメントP1〜P7に分けられている。セグメントP1は、0時から2時半までの時間帯の背景ノイズを示している。セグメントP2は、2時半から5時半までの時間帯の背景ノイズを示している。セグメントP3は、5時半から8時半までの時間帯の背景ノイズを示している。セグメントP4は、8時半から10時半までの時間帯の背景ノイズを示している。セグメントP5は、10時半から14時半までの時間帯の背景ノイズを示している。セグメントP6は、14時半から20時半までの時間帯の背景ノイズを示している。セグメントP7は、20時半から24時までの時間帯の背景ノイズを示している。
図2に示すように、撮影現場の背景ノイズは、その交通量の変化などから時間帯によってセグメントP4のように大きく変動することもあれば、セグメントP2のように殆ど変動しないこともある。つまり、撮影現場の背景ノイズの変動の仕方は、1日の時間帯によって異なる。
(交通状況の検出)
図3は、交通状況の検出の例として自動車が頻繁に通過する道路を撮影する例を示している。この道路は片側1車線の道路である。映像Q10は、映像情報処理部5の映像入力部10から交通状況検出部11に入力される映像である。映像Q10には、道路の横断方向に通過ラインQ5が設定されている。そして、交通状況検出部11は、映像Q10から、自動車Q1と自動車Q3を区画映像Q2と区画映像Q4のように検出し、その数をカウントすることにより自動車の数を検出する。Q6は道路のセンターラインである。自動車Q1は図中、左から右に移動する自動車であり、自動車Q3は右から左に移動する自動車である。Q7とQ8は車道と歩道を分けるラインである。通過ラインQ5は、映像入力装置2のカメラ画面に予め設定されたラインである。
交通状況検出部11は、自動車の通過検知として、通過ラインQ5を自動車の区画映像Q2、Q4(つまり自動車Q1、Q3)が通過した際に、その通過速度と通過台数をカウントする。
図3は、ある時刻tの交通状況を示す映像Q10を示している。実際には、映像Q10は動画であり、時間が経過すると、区画映像Q2やQ4は映像Q10内を移動し、映像Q10から見えなくなり、その後、別の自動車が映像Q10に映ってくる(入り込んで来る)。このような動画(映像Q10)において、5台以上の自動車が通過速度20km/h以下で走行する状態が15分以上続いた場合、交通状況検出部11は、交通状況を渋滞中と判断し、“渋滞中”という検出結果を出す。本実施形態では、交通状況検出部11は、一方の車線だけが渋滞している場合も渋滞中と判断する(渋滞中という検出結果を出す)。
“渋滞中”に当てはまらない状態で、15分毎の自動車の通過台数が125台以上の場合、交通状況検出部11は、この交通状況を交通量が多い状態であると判断して、“交通量多い”という検出結果を出す。それ以外の場合、交通状況検出部11は、交通状況が通常であると判断して、“通常”という検出結果を出す。交通状況検出部11の検出結果(交通状況検出結果)は、学習速度判断部12に送られる。
学習速度判断部12は、交通状況検出部11から受け取った交通状況検出結果に基づいて、映像内の自動車の交通状況の変化を認識し、最適なノイズの学習速度を判断(設定)する。本実施形態では、学習速度判断部12は、最適なノイズ学習速度として、“高”、“中”、“低”の3つのうちの1つを設定する。つまり、学習速度判断部12は、交通状況検出部11から受け取った交通状況検出結果に基づいて、“高”、“中”、“低”の3段階の学習速度のうちの1つを選択(設定)する。“高”は高速度の略であり、“中”は中速度の略であり、“低”の低速度の略である。本実施形態では、学習速度の初期設定として、“中”が設定されているとする。
交通状況に変化があった場合、学習速度判断部12は、周囲のノイズ環境が大きく変動すると判断し、学習速度を“高”に設定する(“中”から“高”に変更する)。これは、学習速度を上げることによって、ノイズ環境の変化に学習速度が追従できるようするためである。
学習速度“高”を設定して一定時間交通状況に変化がない場合は、ノイズ環境の変動が収束したと判断し、過度なノイズ学習を防ぐため学習速度を“中”に下げる(初期設定の学習速度に戻す)。
学習速度”中”に設定された状態で一定時間交通状況に変化がない場合は、学習速度判断部12は、ノイズ環境の変化が殆どない定常状態にあると判断し、学習速度を“低”に下げる。これは、ノイズ以外の音声を極力学習しないようにするためである。
なお、ノイズの学習速度を三段階(高速度、中速度、低速度)で設定する学習速度判断部12の代わりに、ノイズ学習有無判断部を設けてもよい。ノイズ学習有無判断部は、交通状況の変化に応じてノイズの学習を行うか行わないかだけを決定(変更)する。
(音声情報処理部)
図1に示すように、音声情報処理部6は、学習速度判断部12と、音声入力部13と、音声分岐部14と、ノイズ除去部15と、ノイズ学習部16とを有する。
学習速度判断部12は、交通状況検出部11から入力される交通状況に基づいて、ノイズ学習速度を決める。
音声入力部13は、音声入力装置1の出力信号を受け取る。つまり、音声入力装置1から音声データを受け取る。音声入力部13の出力信号は、音声分岐部14に送られる。
音声分岐部14は、音声入力部13から入力された音声データを全く同一の2つの音声データに分ける。2つの音声データは、ゲインや特性に差異が無く、劣化も無い。音声分岐部14は、2つの音声データの一方をノイズ学習部16に送り、もう一方をノイズ除去部15に送る。
ノイズ除去部15は、音声分岐部14から入力された音声データから、ノイズ学習部16から入力されたノイズ成分を除去する。より詳しくは、ノイズ除去部15は、音声分岐部14から受け取った音声データに対し、ノイズ学習部16から受け取った周波数成分と減算量とを用いてノイズ除去処理を行う。本実施形態では、ノイズ除去部15は、ノイズ除去のアルゴリズムとして、スペクトラルサブトラクション法を用いる。ノイズ除去に用いるスペクトラルサブトラクション法については公知の技術であるので、詳細な説明は省略する。ノイズ除去部15は、ノイズ除去した音声データを異常音検知処理部7に送る。
ノイズ学習部16は、音声のノイズ学習を行うことにより、ノイズ成分を導出する。より詳しくは、ノイズ学習部16は、音声分岐部14から受け取った音声データから、背景ノイズや定常的に鳴動する音をノイズと定義して、その成分(ノイズ成分)を学習し、ノイズ除去時の周波数成分と減算量とを生成(導出)する。ノイズ学習部16は、ノイズ除去時の周波数成分と減算量とをノイズ除去部15に送る。
本実施形態のノイズ学習部16がノイズの学習処理を行う場合、まず音声の周波数成分の解析を行う。ノイズ学習部16は、音声分岐部14から入力された音声データをバッファリングし、逐次5秒単位で区切って離散フーリエ変換を行い、その区切った音声に含まれる周波数成分とゲイン(スペクトラム)を算出する。
次に、ノイズ学習部16は、定常的に鳴動する音声の周波数成分を学習する。算出した各々の周波数毎に適応フィルタを設け、それぞれ逐次ゲイン値を入力し収束させていき定常的に鳴動している音声の周波数成分のゲイン値を算出してノイズ除去時の周波数成分と減算量を決定する。
この時、学習速度判断部12から与えられたノイズの学習速度情報(高速度、中速度、低速度)に基づいてゲイン値の収束速度を決定する。適応フィルタについては公知の技術であるので、詳細な説明は省略する。
ノイズ除去部15がノイズ除去した音声データを異常音検知処理部7に送ると、異常音検知処理部7は、当該音声データを分析し、当該音声データ中に衝突音、ガラスの破壊音、破裂音などの異常音があるかを検知(判断)する。異常音を検知した場合、異常音検知処理部7は、イベント通知部9に異常音が検知された旨(判断結果)を通知する(異常音が検知されたということを通知する)。
図1に示す各機能ブロックはコンピュータプログラムとして、後述するROM104(図9)等の記憶部に記憶され、CPU102(図9)によって実行される。尚、図1に示す機能ブロックの少なくとも一部をハードウェアにより実現してもよい。ハードウェアにより実現する場合、例えば、所定のコンパイラを用いることで、各ステップを実現するためのプログラムからFPGA上に自動的に専用回路を生成すればよい。FPGAとは、Field Programmable Gate Arrayの略である。また、FPGAと同様にしてGate Array回路を形成し、ハードウェアとして実現するようにしてもよい。また、ASIC(Application Specific Integrated Circuit)により実現するようにしてもよい。
(ノイズ学習速度判定処理およびノイズ除去処理)
次に、図1の異常監視システム100のノイズ除去処理の手順を、図4に示すフローチャートを用いて説明する。図4のフローチャートは、異常監視システム100が備えるCPU102が、ROM104等に記憶されるプログラムを実行することにより処理される。
本実施形態では、映像入力装置2から入力される映像に基づいて現在の交通状況を判断し、当該判断に応じて(すなわち、現在の交通状況に応じて)、音声入力装置1から入力される音声データに対するノイズ学習速度(学習処理の学習速度)を変更する。図4のフローチャートは、音声入力装置1から音声データが音声情報処理部6に入力されると開始する。
異常監視システム100が起動されると、音声入力装置1からの音声データが音声情報処理部6に入力され、異常監視システム100はS1にて初期化処理を行う。具体的には、学習速度判断部12は、初期設定として学習速度判断部12から出力されるノイズ学習速度を“中”に設定する。
S2において、映像入力部10は、映像入力装置2から入力された映像情報(映像データ)を保持(格納)する。
S3において、交通状況検出部11は、映像入力部10から入力された映像情報を解析し、映像上の自動車の数、通過速度および通過頻度を求めて、交通状況を検出する。
S4において、学習速度判断部12は、交通状況検出部11からの検出結果(交通状況)に基づいて交通状況の変化を判断する。
例えば、“通常”から“渋滞中”に変化した場合、“交通量多い”から“通常”に変化したい場合など、交通状況に変化がある場合は、学習速度判断部12が変化ありと判断し(S4:YES)、S8に進む。S4において、学習速度判断部12が交通状況に変化がないと判断した場合は(S4:NO)、S5に進む。
S5において、学習速度判断部12は、現在の学習速度の設定が“高”であるかどうかを判定する。“高”の場合はS6へ進み、それ以外の設定の場合はS7に進む。
S6において、学習速度判断部12は、学習速度が“高”で背景ノイズの学習を行っている状態が一定時間経過したかを判断する。一定時間経過した場合はS9へ進み、経過していない場合はS8へ進む。S6からS9に進む場合は、本実施形態にあっては、所定時間、前記交通状況に変化がなければ、前記学習速度を“高”から“中”に下げている。
S7において、学習速度判断部12は、交通状況に変化が無い状態が一定時間継続しているかを判断する。一定時間変化がない状態が継続していればS10へ進み、継続ししていない場合はS9へ進む。S7からS10に進む場合は、本実施形態にあっては、所定時間、前記交通状況に変化がなければ、前記学習速度を“中”から“低”に下げている。この学習速度の変更は、交通状況が所定時間変化しなければ、現在の学習速度を低速化する変更であると言える。
S8において、学習速度判断部12は、ノイズの学習速度を“高”に設定する(“中”から“高”に変更する)。つまり、本実施形態では、交通状況に変化がある場合、学習速度を上げている。
S9において、学習速度判断部12は、ノイズの学習速度を“中”に設定する。
S10において、学習速度判断部12は、ノイズの学習速度を“低”に設定する。S8、S9、S10の後、S11に進む。
S11において、タイマ部8は、次に交通状況検出部11が交通状況を検出するタイミング(すなわちタイムアウト時間)を設定する。タイムアウト時間は、例えば、100msecである。
S12において、音声分岐部14は、音声入力部13から入力された音声データを全く同一の2つの音声データに分ける。この2つの音声データは、ゲインや特性に差異や劣化の無い音声データである。そして、音声分岐部14は、一方の音声データをノイズ学習部16に送り、もう一方の音声データをノイズ除去部15に送る。
S13において、ノイズ学習部16は、音声分岐部14から入力された音声データのノイズ学習処理を行う。ノイズ学習処理により、ノイズ学習部16は、ノイズの周波数成分と減算量を決定(取得)する。
S14において、ノイズ除去部15は、音声分岐部14から入力された音声データに対し、ノイズ学習部16から入力されたノイズの周波数成分と減算量に基づいてノイズ除去処理を行う。そして、ノイズ除去部15は、ノイズ除去後の音声データ(ノイズ成分を除去した後の音声データ)を異常音検知処理部7に送る。
S15において、異常音検知処理部7は、ノイズ除去部15から入力された音声データ(ノイズ成分が除去された後の音声データ)に異常音データが含まれているかどうかを判断(検知)する。異常音検知処理部7は、当該音声データ中に異常音を検知した場合、イベント通知部9に異常音が検知されたことを通知する。イベント通知部9は、通信部3を介して、異常音の検知(異常音の発生)を監視モニタ装置50に通知(送信)する。つまり、ノイズ成分が除去された後の音声データに、異常音が含まれていると判断された場合、イベント通知部9は、当該判断結果を監視装置である監視モニタ装置50に送る。
S16において音声入力部13に音声が入力されたか否かを判定する。当該判定の結果がYESの場合はS11へ進み、NOの場合はS17に進む。
S17において不図示の異常監視システムOn/OffスイッチがOff操作されたかどうかを判断する。YESの場合、音声入力装置1から音声入力部13への音声入力は停止され、図4のフローチャートは終了する。NOの場合、S18に進む。
S18において、タイマ部8がタイムアウトしたか(タイムアウト時間が経過したか)否かを判定する。当該判定の結果がYESの場合はS2へ進み、NOの場合はS16へ進む。
以上の処理により、異常監視システム100に含まれているノイズ除去装置は、映像データから得られる交通状況(自動車の混雑状況)に合わせた最適な背景ノイズの学習(学習処理)を行うことができる。特に本実施形態では、交通状況が変化した場合に、ノイズ学習(学習処理)の全体の学習速度を“中”から“高”に変更している。交通状況が変化した場合に学習速度を上げることによって、ノイズ環境の変化に学習速度が追従できるようしている。よって、本実施形態のノイズ除去装置によれば、ノイズ除去精度が向上し、正確に異常音を検出することが可能となる。また、このようなノイズ除去装置を含む異常監視システム100は、正確な異常監視を行うことができる。
なお、本実施形態の異常監視システムは、以下の態様でも使用することができる。
例えば、屋外の交通の異常音を監視する異常監視システムにおいて、カメラ(撮像装置)の映像から現在の天候状況を判断し、天候状況の変化に応じてノイズの学習速度を変更したり、ノイズの学習を行うか否か(ノイズ学習の有無)を決定(変更)してもよい。つまり、学習速度を変更等する場合に用いる撮影範囲の状況は、カメラの映像データから得られる天候の状況であってもよい。
また、店舗の異常音を監視する異常監視システムにおいて、映像データから得られる人の混雑状況を判断し、人の混雑状況の変化に応じてノイズの学習速度を変更したり、ノイズの学習を行うか否かを決定してもよい。つまり、学習速度を変更等する場合に用いる撮影範囲の状況は、カメラの映像データから得られる人の混雑状況であってもよい。
なお、本実施形態では異常監視システムは、音声入力装置1と映像入力装置2と監視モニタ装置50を有するとしたが、音声入力装置1と映像入力装置2と監視モニタ装置50は、異常監視システムの構成要素に含まれないようにしてもよい。
また、上記した実施形態では、S1の初期設定において学習速度を“中”にしたが、初期設定において学習速度を“中”以外の速度にしてもよい。
第2実施形態
第1実施形態では、交通状況が変化した場合に、ノイズ学習(学習処理)の全体の学習速度を“中”から“高”に変更した。本発明はこのような実施形態に限定されない。例えば、背景ノイズに含まれる周波数成分に応じて、学習速度の変更の仕方を変えてもよい。このような実施形態を第2実施形態として説明する。
本発明の第2実施形態に係る異常監視システムを図5〜図7を参照して説明する。第2実施形態の異常監視システム100Bは、交通現場の背景ノイズに含まれる周波数成分が交通状況によって異なるということに着目した実施形態である。第2実施形態では、ノイズに含まれる周波数成分に基づいて、交通状況に応じた最適なノイズ学習(学習処理)を行う。
図5は異常監視システム100Bの機能ブロック構成図を示している。
第1実施形態の異常監視システム100と同じように、第2実施形態の異常監視システム100Bは撮影現場の交通状況の異常を監視するシステムである。異常監視システム100Bは、撮影現場で衝突音などが発生した場合、それを異常音として検知し、監視モニタ装置50にイベント通知を行う。図5に示されているように、異常監視システム100Bは、第1実施形態のノイズ学習部16の代わりにノイズ学習部16Bを有している。ノイズ学習部16Bの機能は、ノイズ学習部16の機能と異なる。また、異常監視システム100Bは、第1実施形態の学習速度判断部12の代わりに、学習モード判断部12Bを有している。それ以外の機能構成については、第2実施形態は第1実施形態と同じである。以下の記載においては、第1実施形態との相違点を中心に説明する。
図6は背景ノイズの種別毎のスペクトラムを示す図である。図6のグラフの縦軸はゲイン(スペクトラム)であり(単位はdb)、横軸は周波数である(単位はHz)。スペクトラムチャートR10に示すように、交通現場の背景ノイズはその交通状況によってノイズに含まれる周波数成分が異なる。つまり、背景ノイズの波形は、交通状況によって異なる。したがって、交通状況に応じた最適なノイズ学習を行う必要がある。本実施形態では、背景ノイズは、エンジン音R1と通過音R2と環境音R3のいずれかであるとする。換言すると、背景ノイズの波形は3種類(R1、R2、R3)あるとする。エンジン音R1は、渋滞中に多く発生する背景ノイズである。通過音R2は、交通量が多い時に発生する背景ノイズである。環境音R3は平常時の背景ノイズである。
環境音R3と比較すると、エンジン音R1は50〜75Hz近辺の低周波の周波数を多く含んでおり(図6においてR4で示す)、通過音R2は150〜175Hz近辺の周波数を多く含んでいる(図6においてR5で示す)。
異常監視システム100Bの学習モード判断部12Bは、交通状況検出部11から受け取った映像内の自動車の交通状況(道路の混雑状況)から最適なノイズ学習モードを設定(選択)する。本実施形態では、交通状況が“通常”の場合は、学習モード判断部12Bは、学習モードを“通常学習”に設定し、交通状況が“渋滞中”の場合は学習モードを“渋滞音学習”に設定する。また、交通状況が“交通量多い”の場合は学習モードを“通過音学習”に設定する。学習モード判断部12Bは、設定したノイズ学習モードをノイズ学習部16Bに送る。
ノイズ学習部16Bは音声分岐部14から受け取った音声データから、背景ノイズや定常的に鳴動する音をノイズと定義して、その成分を学習し、ノイズ除去時の周波数成分と減算量とを生成する。ノイズ学習部16Bは、ノイズ除去時の周波数成分と減算量とをノイズ除去部15に送る。
ノイズ学習部16Bのノイズの学習方法は、第1実施形態のノイズ学習部16と同じである。また、第2実施形態における定常的に鳴動する音声の周波数成分の学習方法も、第1実施形態と同じである。第1実施形態と異なるのは、第2実施形態のノイズ学習部16Bが、学習モード判断部12Bから与えられた学習モードに基づいて、周波数ごとのにゲイン値の収束速度を決定することである。
学習モードが“通常学習”の場合は、学習モード判断部12Bは周波数全体の収束速度を通常の速度で収束するよう設定する。また、学習モードが“通常学習”の場合は、学習モード判断部12Bは周波数ごとの収束速度を同じにする。学習モードが“渋滞音学習”の場合は、図6のR4に示すように背景ノイズは50〜75Hz近辺の周波数を多く含んでいるため、学習モード判断部12Bはその周波数帯の適応フィルタのゲインの収束速度を通常の速度より高く設定する。つまり、本実施形態では、ノイズ学習全体の学習速度を変更するのではなく、ノイズ学習の一部の学習速度だけを変更している。換言すると、ノイズ成分の周波数に基づいて、学習処理の学習速度を変更している。
また、学習モードが“通過音学習”の場合は、図7のR5に示すように背景ノイズは150〜175Hz近辺の周波数を多く含んでいるため、学習モード判断部12Bはその周波数帯の適応フィルタのゲインの収束速度を高く設定する。
このように、第2実施形態では、学習モードに応じて、特定の周波数帯の適応フィルタの収束速度を変更している。
なお、特定の周波数帯の適応フィルタの収束速度を変更するだけではなく、騒音や通過音のノイズ成分が含まれない周波数帯の収束を無効としてもよい。
次に、図5の異常監視システム100Bのノイズ除去の手順を、図7に示すフローチャートを用いて説明する。本実施形態では、映像入力装置2から入力される映像に基づいて現在の交通状況を判断し、当該判断に応じて周波数ごとにノイズ学習速度を変更する。図7のフローチャートは、音声入力装置1から音声データが音声情報処理部6に入力されると開始する。
異常監視システム100Bが起動されると、音声入力装置1からの音声データが音声情報処理部6に入力され、異常監視システム100Bは、S21にて初期化処理を行う。具体的には、学習モード判断部12Bは、初期設定として学習モード判断部12Bから出力される学習モードを“通常学習”に設定する。
S22は、第1実施形態のS2と同じである。また、S23も、第1実施形態のS3と同じである。
S24において、学習モード判断部12Bは、交通状況検出部11からの検出結果(交通状況)に基づいて、交通状況が“渋滞中”であるかを判断する。学習モード判断部12Bが“渋滞中”であると判断した場合は、S26へ進み、そうでない場合はS25へ進む。
S25において、学習モード判断部12Bは、交通状況検出部11で検出された交通状況が“交通量多い”であるかを判断する。“交通量多い”の場合はS27へ進み、そうでない場合はS28へ進む。
S26において、学習モード判断部12Bは、ノイズの学習モードを“渋滞音学習”に設定する。つまり、交通状況が渋滞中の場合、本実施形態では、学習モードを初期設定の“通常学習”から“渋滞音学習”に変更している。
S27において、学習モード判断部12Bは、ノイズの学習モードを“通過音学習”に設定する。つまり、交通状況が交通量多いの場合、本実施形態では、学習モードを初期設定の“通常学習”から“渋滞音学習”に変更している。
S28において、学習モード判断部12Bは、ノイズの学習モードを“通常学習”に設定する。S26、S27、S28の後、S29に進む。
S29〜S36は、第1実施形態のS11〜S18(図4)と同じである。
以上の処理により、第2実施形態の異常監視システム100Bは、交通状況に合わせた最適な背景ノイズの学習を行うことができ、よって、ノイズ除去精度が向上し、正確に異常音を検出することが可能となる。特に、第2実施形態では、ノイズ成分の周波数に基づいて、学習速度を変更しているので、精緻なノイズ除去を行うことができる。
また、本実施形態の異常監視システムは、以下の態様で使用することができる。
例えば、屋外の交通の異常音を監視する異常監視システムにおいて、カメラの映像から現在の天候状況を判断し、天候状況に応じて周波数ごとのノイズの学習速度を変更してもよいし、学習を行うか否かを決定(変更)してもよい。
また、店舗の異常音を監視する異常監視システムにおいて、映像データから得られる人の混雑状況を判断し、人の混雑状況(の変化)に応じて周波数ごとのノイズの学習速度を変更したり、学習を行うか否かを決定してもよい。
第3実施形態
第2実施形態では、背景ノイズに含まれる周波数成分に着目し、交通状況に応じてノイズ学習モードを選択(変更)した。本発明は、このような実施形態に限定されない。例えば、周囲のノイズ環境が大きく変動する場合には、ノイズ環境の変化に学習速度がついていけるように学習モードを選択(変更)してもよい。このような実施形態を第3実施形態として説明する。
本発明の第3実施形態に係る異常監視システムを図5、図6および図8を参照して説明する。第3実施形態の異常監視システムの機能構成図は、第2実施形態と同じ(図5)である。ただし、第3実施形態のノイズ学習部16Bと学習モード判断部12Bの役割は、第2実施形態とは異なる。また、選択(設定)できる学習モードは5つあるとする。詳しくは、第3実施形態において設定できる学習モードは、“渋滞音学習”と“通過音学習”と“通常学習”と“高”と“無”である。
学習モードが“高”の場合は、ノイズ学習モード判断部12Bは周波数全体の収束速度を高く設定する。学習モードが“無”の場合は、学習モード判断部12Bはノイズ学習を行わないという設定をする。学習モードが“渋滞音学習”、“通過音学習”および“通常学習“の場合は、第2実施形態で説明した“渋滞音学習”、“通過音学習”および”通常学習“と同じ内容の学習を行う。以下の記載においては、第2実施形態との相違点を中心に説明する。
第3実施形態のノイズ学習モード判断部12Bは、交通状況検出部11から受け取った映像内の自動車の交通状況の変化から最適なノイズ学習モードを設定(選択)する。具体的には、学習モード判断部12Bは、交通状況が“通常”に変化した場合は、学習モードを“高”に設定し、交通状況が“渋滞中”に変化した場合は、学習モードを“渋滞音学習”に設定する。また、学習モード判断部12Bは、交通状況が“交通量多い”に変化した場合は学習モードを“通過音学習”に設定する。このように設定変更をするのは、学習モードを設定した後に交通状況に変化があった場合、本実施形態では、周囲のノイズ環境が大きく変動すると判断(想定)し、ノイズ環境の変化に学習速度がついていけるよう学習モードを設定するためである。交通状況の変化とは、例えば、“交通量多い”から“通常”への変化や、“通常”から“渋滞中”への変化である。
本実施形態では、学習モード“高”、“渋滞音学習”、“通過音学習”を設定して一定時間交通状況に変化がない場合、ノイズ環境の変動が収束したと判断し、学習モード判断部12Bは、過度なノイズ学習を防ぐため学習モードを“通常学習”に戻す。
また、学習モード“通常学習”を設定した状態で一定時間交通状況に変化がない場合は、ノイズ環境の変化が殆どない定常状態にあると判断し、学習モード判断部12Bは、ノイズ以外の音声を学習してしまわないように、学習モード“無”を設定する。
ノイズ学習部16Bは音声分岐部14から受け取った音声データから、背景ノイズや定常的に鳴動する音をノイズと定義して、その成分を学習し、ノイズ除去時の周波数成分と減算量とを生成する。ノイズ学習部16Bは、ノイズ除去時の周波数成分と減算量とをノイズ除去部15に送る。
ノイズの学習方法は、第2実施形態と同じである。定常的に鳴動する音声の周波数成分の学習方法も、第2実施形態と同じである。そして、第2実施形態と同じように、学習モード判断部12Bから与えられた学習モードをもとに、周波数ごとにゲイン値の収束速度を決定する。
次に、本実施形態の異常監視システムのノイズ除去の手順を、図8に示すフローチャートを用いて説明する。本実施形態では、映像入力装置2から入力される映像に基づいて現在の交通状況を判断し、当該判断に応じて最適なノイズ学習を行う。図8のフローチャートは、音声入力装置1から音声データが音声情報処理部6に入力されると開始する。
S41〜S43は、第2実施形態のS21〜S23と同じである。
S44において、学習モード判断部12Bは、交通状況検出部11からの検出結果(交通状況)に基づいて、交通状況に変化があるかを判断する。例えば、交通状況が“通常”から“渋滞中”に変化した場合や、“交通量多い”から“通常”に変化した場合、交通状況に変化ありと判断し、S47に進む。交通状況に変化がないと判断した場合は、S45に進む。
S45において、現在の学習モードの設定が“通常学習”もしくは“無”であるかどうかを判段する。“通常”もしくは“無”と判断された場合は(S45:YES)、S49へ進む。それ以外の設定であると判断された場合は、S46に進む。
S46において、背景ノイズの学習を行っている状態が一定時間継続(一定時間経過)したかを判断する。一定時間経過したと判断された場合は、S53へ進む。一定時間経過していない場合は、S47へ進む。
S47において、学習モード判断部12Bは、交通状況検出部11からの検出結果(交通状況)に基づいて、交通状況が“渋滞中”であるかを判断する。交通状況が“渋滞中”であると判断された場合はS50へ進む。そうでない場合はS48へ進む。
S48において、学習モード判断部12Bは、交通状況検出部11からの検出結果(交通状況)に基づいて、交通状況が“交通量多い”であるかを判断する。“交通量多い”と判断された場合はS51へ進む。そうでない場合はS52へ進む。
S49において、交通状況に変化がない状態が一定時間継続しているかを判断する。つまり、道路状況が所定時間変化しないかを判断する。道路状況に変化が無い状態が一定時間続いていればはS54へ進む。そうでなければ、S53へ進む。
S50において、学習モード判断部12Bは、ノイズの学習モードを“渋滞音学習”に設定する。つまり、本実施形態では、交通状況が”渋滞中“に変わった場合には、学習モードを初期設定の”通常学習“から”渋滞音学習“に変更する。
S51において、学習モード判断部12Bは、ノイズの学習モードを“通過音学習”に設定する。つまり、本実施形態では、交通状況が”交通量多い“に変わった場合には、学習モードを初期設定の”通常学習“から”通過音学習“に変更する。
S52において、学習モード判断部12Bは、ノイズの学習モードを“高”に設定する。つまり、本実施形態では、交通状況が”渋滞中“および”交通量多い“意外の状況に変わった場合には、学習モードを初期設定の”通常学習“から”高“に変更する。
S53において、学習モード判断部12Bは、ノイズの学習モードを“通常学習”に設定する。
S54において、学習モード判断部12Bが出力するノイズの学習モードを“無”に設定する。S50、S51、S52、S53、S54の後、S55に進む。
S55〜S62は、第2実施形態のS29〜S36(図7)と同じである。
以上の処理により、交通状況(道路の混雑状況)に合わせた最適な背景ノイズの学習を行うことができ、よってノイズ除去精度が向上し、正確に異常音を検出することが可能となる。
また、本実施形態の異常監視システムは、以下の態様でも使用することができる。
例えば、屋外の交通の異常音を監視する異常監視システムにおいて、カメラの映像から現在の天候状況を判断し、天候状況の変化に応じてノイズ学習の全体もしくは周波数ごとの学習速度を変更してもよいし、ノイズ学習を行うか否かを決定(変更)してもよい。
また、店舗の異常音を監視する異常監視システムにおいて、映像データから得られる人の混雑具合を判断し、人の混雑状況の変化に応じて周波数ごとのノイズ学習の全体もしくは周波数ごとの学習速度を変更したり、ノイズ学習を行うか否かを決定してもよい。
(異常監視システムのハードウェア構成)
図9は異常監視システムのハードウェア構成の一例を示している。図9に示されるように、異常監視システム100は、撮像装置101、CPU102、RAM103、ROM104、記憶媒体105、表示部106、操作部107、通信部108、収音装置109およびアンテナ108aを有する。
撮像装置101は、光学系(レンズ、シャッター、絞り)と撮像素子とから構成される。光学系は、被写体からの光を適切な量とタイミングで撮像素子に結像させる。撮像素子は、光学系を通って結像した光を画像(映像)に変換する。撮像装置101は、例えば、道路脇に設置されたカメラであり、道路上の所定の撮影範囲を撮影して、当該所定の撮影範囲を走行する自動車の映像データを生成する。撮像装置101は、図1の映像入力装置2に対応する。
CPU102は、入力された信号やプログラムに従って、各種の演算や異常監視システム100を構成する各部分の制御を行う。具体的には、CPU102は、撮像制御、学習制御、表示制御、記憶制御、通信制御などを行う。図1の機能ブロックは、CPU102によって実行される機能を図示したものである。
RAM103は、一時的なデータを記憶し、CPU102の作業用に使われる。ROM104は、図1に示した各機能部を実行するためのプログラムや、各種の設定情報を記憶する。
記憶媒体105は、映像データなどを記憶する。記憶媒体105は、例えば、着脱可能なメモリカードであり、PC(パーソナルコンピュータ)などに装着してデータを読み出すことが可能である。異常監視システム100は記憶媒体105へのアクセス手段を有し、記憶媒体105へのデータの読み書きを行うことができる。
表示部106は、映像の表示、対話的な操作のための文字表示などを行う。なお、異常監視システム100は必ずしも表示部106を備える必要はない。
操作部107は、ユーザの操作を受け付けるためのものである。操作部107は、例えば、ボタン、レバー、タッチパネルなどを含む。操作部107は、異常監視システムOn/Offスイッチを含む。
通信部108は、無線LANにより監視モニタ装置50との通信(無線または有線)を行う。無線通信の場合、アンテナ108aを使用する。
収音装置109は、外部の音を収める手段である(例えば、マイクロフォン)。具体的には、収音装置109は、撮像装置101の撮影に付随する音声を収音する。収音装置109は、所定の撮影範囲およびその近辺の音を収音し、音声データを生成する。生成された音声データは、記憶媒体105に記憶される。収音装置109は、図1の音声入力装置1に対応する。
なお、異常監視システム100の制御は、1つのハードウェアで行ってもよいし、複数のハードウェアが処理を分担しながら、異常監視システムにおける処理を実行する手段として機能してもよい。
異常監視システム100は、撮像装置101を備えなくてもよい。その場合には、異常監視システム100(の映像入力部10)は、外部の撮像装置から映像を受け取る。
また、異常監視システム100は、通信部108を備えなくてもよい。その場合には、異常監視システム100(のイベント通知部9)は、例えば、有線により監視モニタ装置50に直接接続される。
異常監視システム100は、収音装置109を備えなくてもよい。その場合には、異常監視システム100(の音声入力部13)は、外部の収音装置から音声データを取得する。
なお、第1実施形態〜第3実施形態では、ノイズ除去装置を含む異常監視システムが説明されたが、ノイズ除去装置は、他の種類のシステムに含めることもできる。
(他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。プログラムは、コンピュータプログラムである。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
また、ノイズ除去装置と、所定の撮影範囲を撮影して映像データを生成する撮像装置と、前記映像データに付随する音声を収音し、音声データを生成する収音装置と、によって、音声処理システムを構成してもよい。
1…音声入力装置、2…映像入力装置、7…異常音検知処理部、10…映像入力部、11…交通状況検出部、12…学習速度判断部、13…音声入力部、15…ノイズ除去部、16…ノイズ学習部

Claims (11)

  1. 所定の撮影範囲の映像データから前記撮影範囲の状況を検出する検出手段と、
    前記映像データを撮影する撮像装置に対応する収音装置によって収音される音声データに対して、前記検出手段によって検出される状況に基づいて学習処理を行うことによって、ノイズ成分を導出する学習手段と、
    前記音声データから前記ノイズ成分を除去する除去手段と、
    を有し、前記学習手段は、前記状況に基づいて、前記学習処理の学習速度を変更することを特徴とする音声処理装置。
  2. 前記学習手段は、前記ノイズ成分の周波数に基づいて、前記学習処理の学習速度を変更することを特徴とする請求項1に記載の音声処理装置。
  3. 前記学習手段は、前記状況に基づいて、前記学習処理を行うか否かを決定することを特徴とする請求項1または2に記載の音声処理装置。
  4. 前記学習手段は、前記状況が変化した場合、前記学習速度を上げることを特徴とする請求項1または2に記載の音声処理装置。
  5. 前記学習手段は、前記状況が所定時間変化しなければ、前記学習速度を下げることを特徴とする請求項1または2に記載の音声処理装置。
  6. 前記撮影範囲の状況は、前記映像データから得られる交通状況であることを特徴とする請求項1〜のいずれか1項に記載の音声処理装置。
  7. 前記撮影範囲の状況は、前記映像データから得られる天候の状況であることを特徴とする請求項1〜のいずれか1項に記載の音声処理装置。
  8. 前記撮影範囲の状況は、前記映像データから得られる人の混雑状況であることを特徴とする請求項1〜のいずれか1項に記載の音声処理装置。
  9. 前記ノイズ成分が除去された後の音声データに、異常音が含まれているかを判断する判断手段と、
    前記異常音が含まれていると判断された場合、当該判断結果を監視装置に送る送信手段と、
    をさらに有することを特徴とする請求項1〜のいずれか1項に記載の音声処理装置。
  10. 所定の撮影範囲の映像データから前記撮影範囲の状況を検出するステップと、
    前記映像データを撮影する撮像装置に対応する収音装置によって収音される音声データに対して、検出された前記状況に基づいて学習処理を行うことによって、ノイズ成分を導出するステップと、
    前記音声データから前記ノイズ成分を除去するステップと、
    前記状況に基づいて、前記学習処理の学習速度を変更するステップと、
    を有することを特徴とする音声処理方法。
  11. コンピュータを、請求項1からのいずれか1項に記載の音声処理装置として機能させるためのコンピュータプログラム。
JP2016018417A 2016-02-02 2016-02-02 音声処理装置および音声処理方法 Active JP6727825B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2016018417A JP6727825B2 (ja) 2016-02-02 2016-02-02 音声処理装置および音声処理方法
KR1020170010807A KR102080124B1 (ko) 2016-02-02 2017-01-24 음성 처리장치 및 음성 처리방법
CN201710059473.2A CN107068163B9 (zh) 2016-02-02 2017-01-24 音频处理装置以及音频处理方法
US15/421,084 US10049687B2 (en) 2016-02-02 2017-01-31 Audio processing apparatus and audio processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016018417A JP6727825B2 (ja) 2016-02-02 2016-02-02 音声処理装置および音声処理方法

Publications (2)

Publication Number Publication Date
JP2017138416A JP2017138416A (ja) 2017-08-10
JP6727825B2 true JP6727825B2 (ja) 2020-07-22

Family

ID=59387627

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016018417A Active JP6727825B2 (ja) 2016-02-02 2016-02-02 音声処理装置および音声処理方法

Country Status (4)

Country Link
US (1) US10049687B2 (ja)
JP (1) JP6727825B2 (ja)
KR (1) KR102080124B1 (ja)
CN (1) CN107068163B9 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107945576A (zh) * 2017-12-25 2018-04-20 重庆冀繁科技发展有限公司 车辆故障监测方法
CN108986830B (zh) * 2018-08-28 2021-02-09 安徽淘云科技有限公司 一种音频语料筛选方法及装置
CN112712819B (zh) * 2020-12-23 2022-07-26 电子科技大学 视觉辅助跨模态音频信号分离方法
JPWO2023074654A1 (ja) * 2021-10-27 2023-05-04
WO2023074655A1 (ja) * 2021-10-27 2023-05-04 パイオニア株式会社 情報処理装置、情報処理方法、プログラムおよび記録媒体

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002140090A (ja) * 2000-11-02 2002-05-17 Toshiba Corp 異常監視装置
JP2006039267A (ja) * 2004-07-28 2006-02-09 Nissan Motor Co Ltd 音声入力装置
JP4529611B2 (ja) * 2004-09-17 2010-08-25 日産自動車株式会社 音声入力装置
JP2006084928A (ja) 2004-09-17 2006-03-30 Nissan Motor Co Ltd 音声入力装置
JP4449987B2 (ja) * 2007-02-15 2010-04-14 ソニー株式会社 音声処理装置、音声処理方法およびプログラム
JP2009049885A (ja) 2007-08-22 2009-03-05 Audio Technica Corp ノイズキャンセル装置及びノイズキャンセル方法
US8306240B2 (en) * 2008-10-20 2012-11-06 Bose Corporation Active noise reduction adaptive filter adaptation rate adjusting
JP5930684B2 (ja) * 2011-12-01 2016-06-08 キヤノン株式会社 情報処理装置及び方法、並びにプログラム
US9767828B1 (en) * 2012-06-27 2017-09-19 Amazon Technologies, Inc. Acoustic echo cancellation using visual cues
CN103150903B (zh) * 2013-02-07 2014-10-29 中国科学院自动化研究所 一种自适应学习的视频车辆检测方法
KR102195897B1 (ko) * 2013-06-05 2020-12-28 삼성전자주식회사 음향 사건 검출 장치, 그 동작 방법 및 그 동작 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능 기록 매체
TWI543635B (zh) * 2013-12-18 2016-07-21 jing-feng Liu Speech Acquisition Method of Hearing Aid System and Hearing Aid System

Also Published As

Publication number Publication date
KR102080124B1 (ko) 2020-02-21
CN107068163B9 (zh) 2022-05-24
US20170221503A1 (en) 2017-08-03
CN107068163A (zh) 2017-08-18
CN107068163B (zh) 2022-04-08
US10049687B2 (en) 2018-08-14
JP2017138416A (ja) 2017-08-10
KR20170092101A (ko) 2017-08-10

Similar Documents

Publication Publication Date Title
JP6727825B2 (ja) 音声処理装置および音声処理方法
US10204275B2 (en) Image monitoring system and surveillance camera
KR101445367B1 (ko) 이상 음원에 대한 인식율 향상을 통하여 긴급상황 판별 성능을 개선한 지능형 영상감시 시스템 및 이를 이용한 긴급상황 판별방법
JP5920311B2 (ja) 風検出装置
JP2016173338A (ja) 道路標識判断装置
WO2016055920A2 (en) A portable alerting system and a method thereof
KR101384781B1 (ko) 이상 음원 탐지 장치 및 방법
JP2007139595A (ja) 車両の走行状態検出装置、ナビゲーション装置、及びプログラム
WO2020039678A1 (ja) ヘッドアップディスプレイ装置
JP4729522B2 (ja) ナビゲーション装置、ナビゲーション方法、およびプログラム
JP2017229086A (ja) 音処理装置および音処理プログラム
JP2020016838A (ja) ノイズ低減装置、ノイズ低減方法およびノイズ低減プログラム
JP5950205B2 (ja) 車両用近接警報音出力装置管理システム
KR100994418B1 (ko) 건물의 침입 감지를 위한 촬영 이미지 처리 시스템 및 방법
US20230026003A1 (en) Sound crosstalk suppression device and sound crosstalk suppression method
JP2019033408A (ja) 撮像装置およびその制御方法
JP2017229002A (ja) 情報処理装置、情報処理方法および音声処理システム
JP7149749B2 (ja) 運転支援装置、及び運転支援方法
US10283113B2 (en) Method for detecting driving noise and improving speech recognition in a vehicle
JP7099091B2 (ja) ナンバープレート認識装置、ナンバープレート認識方法およびプログラム
JP2017091381A (ja) セキュリティ装置、及び、セキュリティシステム
CN110113789A (zh) 车辆传感器之间的动态带宽调节
US20240155079A1 (en) Configurable audio and video sectors
US12079963B2 (en) System, method and device for heads up display for a vehicle
US20240153526A1 (en) Audio event analysis, classification, and detection system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200701

R151 Written notification of patent or utility model registration

Ref document number: 6727825

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D03