JP5917270B2 - 音検出装置及びその制御方法、プログラム - Google Patents

音検出装置及びその制御方法、プログラム Download PDF

Info

Publication number
JP5917270B2
JP5917270B2 JP2012101677A JP2012101677A JP5917270B2 JP 5917270 B2 JP5917270 B2 JP 5917270B2 JP 2012101677 A JP2012101677 A JP 2012101677A JP 2012101677 A JP2012101677 A JP 2012101677A JP 5917270 B2 JP5917270 B2 JP 5917270B2
Authority
JP
Japan
Prior art keywords
sound
moving object
detecting
specific
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012101677A
Other languages
English (en)
Other versions
JP2013013066A (ja
JP2013013066A5 (ja
Inventor
金子 和恵
和恵 金子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2012101677A priority Critical patent/JP5917270B2/ja
Priority to US13/470,586 priority patent/US20120300022A1/en
Publication of JP2013013066A publication Critical patent/JP2013013066A/ja
Publication of JP2013013066A5 publication Critical patent/JP2013013066A5/ja
Application granted granted Critical
Publication of JP5917270B2 publication Critical patent/JP5917270B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B29/00Checking or monitoring of signalling or alarm systems; Prevention or correction of operating errors, e.g. preventing unauthorised operation
    • G08B29/18Prevention or correction of operating errors
    • G08B29/185Signal analysis techniques for reducing or preventing false alarms or for enhancing the reliability of the system
    • G08B29/188Data fusion; cooperative systems, e.g. voting among different detectors
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/16Actuation by interference with mechanical vibrations in air or other fluid
    • G08B13/1654Actuation by interference with mechanical vibrations in air or other fluid using passive vibration detection systems
    • G08B13/1672Actuation by interference with mechanical vibrations in air or other fluid using passive vibration detection systems using sonic detecting means, e.g. a microphone operating in the audio frequency range
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/18Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
    • G08B13/189Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
    • G08B13/194Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
    • G08B13/196Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems using television cameras
    • G08B13/19602Image analysis to detect motion of the intruder, e.g. by frame subtraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Security & Cryptography (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)

Description

本発明は、撮像部から画像を取り込むとともに、音入力部から音を入力し、取り込んだ画像を利用して、入力した音から特定の音を検出する音検出装置及びその制御方法、プログラムに関するものである。
従来、音声認識装置において、雑音等の影響を減らして音声認識の精度を上げるために、画像情報を用いるものがある。特許文献1は、唇の動きを検出し、その検出した区間を音声区間としてその間の音声を認識するものである。特許文献2は、口唇パターンを画像認識して対応する音節候補の類似度と確からしさの積をとり、音声認識して求めた音節候補の類似度と確からしさの積と足し合わせることで、より確からしい音節候補を求めるものである。
また、画像監視で使用される撮像装置においては、音の大きさや種類を用いて異常を判定するものもある。
特開昭59−147398号公報 特許第03798530号公報
画像監視等で音の種類を判定し、異常を検出する場合、その精度が課題となる。一般に誤検出を減らそうとすると、検出漏れが多くなり、もれなく検出しようとすると誤検出も増える。
誤検出を減らすために、画像情報を使用するとしても、監視対象は複数の物体の存在しうる場所であるため、音節と唇の形状の対応以外のもの、例えば、物体の位置情報とそれに関連する複数の音の種類の対応が必要となる。
本発明の目的は、精度良く音を検出する音検出装置及びその制御方法、プログラムを提供することである。
上記の目的を達成するための本発明による音検出装置は以下の構成を備える。即ち、
撮像部から画像を取り込むとともに、音入力部から音を入力し、取り込んだ画像を利用して、入力した音から特定の音を検出する音検出装置であって、
特定の音を検出するための基準を用いて、前記音入力部から入力した音から前記特定の音を検出する音検出手段と、
前記撮像部が撮像した画像を記録する画像記録手段と、
前記画像記録手段で記録した画像と前記撮像部が撮像した現在の画像とに基づいて、前記現在の画像から、動体を検出する動体検出手段と、
前記音検出手段は、前記動体検出手段によって動体が検出された場合には、前記撮像部が撮像する画像中の特定位置と前記特定位置で発生し得る特定の音との対応関係に基づいて、前記動体が検出された箇所で発生し得る特定の音を検出するための基準を設定し、前記設定された基準を用いて、前記音入力部から入力した音から特定の音を検出する。
本発明によれば、精度良く音を検出する音検出装置及びその制御方法、プログラムを提供できる。
本実施形態の音検出装置の機能構成を示すブロック図である。 本実施形態の動体検出処理のフローチャートである。 本実施形態の音検出処理のフローチャートである。 本実施形態の動体検出処理の変形例のフローチャートである。 本実施形態の動体検出と音検出の例を示す図である。 本実施形態の位置と音の対応を示す図である。 本実施形態の動体検出と音検出のタイミングの例を示す図である。 本実施形態の音検出の閾値処理の例を示す図である。 本実施形態の物体と可能性のある音の対応関係の例を示す図である。 本実施形態の位置・音対応情報作成処理のフローチャートである。 本実施形態の音響モデルを選択する場合の音検出装置の機能構成を示すブロック図である。 本実施形態の音響モデルを選択する場合の音検出処理のフローチャートである。 本実施形態の音響モデルを選択する場合の音検出処理の変形例のフローチャートである。 本実施形態の動体検出の有無を含む位置と音の対応を示す図である。 本実施形態の音響モデルを選択する場合の音検出の例を示す図である。 本実施形態の背景音モデルを学習して選択する場合の音検出装置の機能構成を示すブロック図である。 本実施形態の背景音モデルの学習処理のフローチャートである。 一般的な音響モデルの学習処理のフローチャートである。 本実施形態の背景音モデル学習の例を示す図である。 本実施形態の背景音モデルを含む位置と音の対応を示す図である。 本実施形態の音響モデルと閾値を変更する場合の音検出処理の例を示す図である。 本実施形態のユーザ操作で行う位置・音対応情報の作成処理のフローチャートである。 本実施形態のユーザ操作で行う位置・音対応情報の作成例を示す図である。
以下、本発明の実施の形態について図面を用いて詳細に説明する。
図1は本実施形態の音検出装置の機能構成を示すブロック図である。
101は、マイクから音/音声を取り込む音入力部である。102は、撮像部であるカメラから画像(静止画像あるいは動画像)を取り込む画像入力部である。103は、過去の画像と現在の画像の差分を取り、その現在の画像から、差分のある個所(画像)を動体のある個所(画像)として検出する動体検出部である。104は、過去の画像や音/音声を記録媒体(ハードディスク、メモリ等)に記録する画像記録部である。105は、画像の符号化を行う画像処理部である。106は、特定の音を検出する音検出部である。具体的には、検出すべき音を予め選定してその種類毎に音響モデルを用意しておき、入力音とその音響モデルとの類似度を比較し、一番スコアの高い音響モデルの音を検出結果として提示する。107は、動体の位置とその位置で起こりうる音を記述した位置・音対応情報を管理する位置・音対応情報管理部である。
尚、図1の音検出装置は、汎用コンピュータに搭載される標準的な構成要素(例えば、CPU、RAM、ROM、ハードディスク、外部記憶装置、ネットワークインタフェース、ディスプレイ、キーボード、マウス等)を有している。そして、これらの構成要素によって、図1の各種構成要素を実現する。また、各種構成要素は、ソフトウェア、あるいはハードウェア、それらの組み合わせによって実現されても良い。
図2は本実施形態の動体検出処理のフローチャートであり、図3は本実施形態の音検出処理のフローチャートである。動体検出処理と音検出処理はそれぞれ、動体検出部103と音検出部106によって独立に制御する。
動体検出処理は、動体を検出したタイミングで、動体検出フラグを立て、動体を検出しなくなって一定時間経過すると、動体検出フラグをクリアする処理を実行する。音検出処理は、動体検出フラグが立っている時に、動体を検出した位置に対応する音を検出するための閾値を下げる処理を実行する。
まず、動体検出処理の詳細について説明する。
図2のステップS201で、まず、動体検出部103は、動体検出フラグ=0に設定する。ステップS202で、動体検出部103は、過去画像となる画像を設定して、画像記録部104に記録する。ステップS203で、動体検出部103は、ステップS202の過去画像の次のフレーム画像もしくは、一定時間おいたフレーム画像を現在画像として取得する。ステップS204で、動体検出部103は、過去画像と現在画像との差分画像を作成する。
ここで、図7(A)は、動体検出を行うタイミングと音検出を行うタイミングを示す図である。701が動体検出の時間軸、703が音検出の時間軸を示す。図7(A)において、時間軸701上に配置された個々の目盛りがこの動体検出のタイミングを示す。差分がある場合には目盛りの上に○、差分がない場合には×を記述している。
ステップS205で、動体検出部103は、差分があるか否かを判定する。差分があると判定した場合(ステップS205でYES)、つまり、動体があると判定すると、ステップS206で、動体検出部103は、動体検出フラグ=1に設定する。ステップS207で、動体検出部103は、検出時間を記録する。ステップS208で、動体検出部103は、検出位置を記録する。ステップS209で、動体検出部103は、動体検出を終了するかどうかの判定を行う。終了する場合(ステップS209でYES)は、処理を終了する。一方、終了しない場合(ステップS209でNO)、ステップS202に戻り処理を繰り返す。
ステップS205において、差分がないと判定した場合(ステップS205でNO)、ステップS210で、動体検出部103は、ステップS207で記録した、最後に動体を検出した動体検出時間から一定時間が経過しているかどうかを判定する。一定時間が経過していると判定した場合(ステップS210でYES)、ステップS211で、動体検出部103は、動体検出フラグ=0に設定する。その後、ステップS209に進む。
一方、ステップS210において、一定時間が経過していないと判定した場合(ステップS210でNO)、何もせずにステップS209へ進む。これは、動体を検出しなくなっても一定の時間は動体検出フラグを立てておくための処理である。図7(A)の702の動体検出フラグ=1の区間は、動体を検出した後に動体を検出しなくなってからの一定時間を含む状態を示している。
次に、音検出処理の詳細について説明する。
図3のステップS301で、音検出部106は、音入力部101で入力した音に対し特定の音が存在する可能性のある音区間を検出する。ステップS302で、音検出部106は、検出した音区間に対し、想定されている特定の音のどれに近いか音認識処理を行い、音認識結果の候補にスコアをつけて作成する。図7(A)の704がこの音区間を示し、音区間704の終了位置705のタイミングで音認識処理を行って音認識結果の候補を作成する。
ここで、音認識処理は、特定の音と背景音の複数のモデルを用意しておき、音区間の特徴量との類似度を尤度として算出することによって行う。図8の尤度の欄は、個々の音ラベルのモデルに対する尤度を背景音のモデルに対する尤度で割って正規化したものである。この尤度に対して閾値処理が有効に行えるよう1を超えない値に変換してスコアとする。その変換は、尤度xに対してスコアy=(1/(1+exep(−1*(x−1))を算出する。尚、正規化処理はこの方法に限定されない。個別の音の尤度をすべての候補の尤度の総和で割ってもよいし、スコアは1を超えない値に変換しなくてもよい。
ステップS303で、音検出部106は、動体検出フラグ=1であるかどうかを判定する。動体検出フラグ=1であると判定した場合(ステップS303でYES)、ステップS304へ進む。ステップS304で、音検出部106は、ステップS207で記録されている動体検出時間とステップS208で記録されている動体検出位置に基づいて、記憶媒体(メモリ等)に管理される位置・音対応情報管理テーブル(図6(B))を参照して位置を検索する。尚、位置・音対応情報管理テーブルとは、画像中の物体の位置(領域)で生じる可能性のある音の対応付け(位置・音対応情報)を管理するテーブルである。ステップS305で、音検出部106は、検索した動体検出位置に対応する位置・音対応情報があるかどうかを判定する。図7(A)の例では、終了位置705では、動体検出フラグ=1になっているので、ステップS304へ進むことになる。
ステップS305において、位置・音対応情報があると判定した場合(ステップS305でYES)、ステップS306において、音検出部106は、音認識結果の候補から位置・音対応情報のある音についてのみ音を検出するための閾値を下げる。ステップS307で、音検出部106は、スコアが閾値より大きい音認識結果の候補を音検出結果として決定する。
一方、ステップS303で、動体検出フラグ=0であると判定した場合(ステップS303でNO)、あるいはステップS305で、動体検出位置に対応する位置・音対応情報がないと判定した場合(ステップS305でNO)、ステップS307へ進む。そして、ステップS307で、音検出部106は、この場合、音を検出するための閾値は下げずに、従来と同様の閾値のままで音検出結果の決定を行う。
ステップS307で音検出結果を決定した後、ステップS308において、音検出部106は、音検出処理を終了するか判定する。終了しない場合(ステップS308でNO)、ステップS301に戻り、処理を繰り返す。一方、終了する場合(ステップS308でYES)、処理を終了する。
以下、動体検出処理と音検出処理の具体例について説明する。
図5(A)は、動体検出処理で動体を検出していない例を示す。音検出処理では、音を検出し、音認識結果の候補を作成する。例えば、「ガタン」という音がした場合、音区間の検出が行われ、想定されている特定の音に対する確からしさを尤度として算出し、音認識結果の候補を作成する。図8(A)がその例である。この候補を作成した時には、何も動くものを検出しておらず動体検出フラグは立っていないので、閾値はすべて同じままである。この閾値とスコアを比較して検出すべき音はないと判定される。
図5(B)は、ドアが存在する位置501で動体を検出した例を示す。位置501に動体が検出されたと判定される。図6(A)は、画像中の物体の位置を示し、図6(B)はその位置で生じる可能性のある音の対応付け(位置・音対応情報)を位置・音対応情報管理テーブルとして記述した例である。図6(A)中の括弧書きの数字は、図中左下角を原点(0,0)とした場合の画像中の物体の座標をピクセル単位で示したものである。図5(B)の動体検出位置である位置501と、位置・音対応情報管理テーブルに登録されている領域の内、重複する領域の有無を確認する。そして、重複する領域が存在する場合に、その領域で生じる可能性のある音のラベルを取り出す。位置501に重複する領域は、図6(B)の位置・音対応情報管理テーブルの内の位置・音対応情報603である。この場合、「バタン」という音の音ラベルがあることから、図8(B)での「バタン」という音ラベルの閾値が下げられ、その結果、「バタン」という音が検出されることになる。
図5(C)は、窓が存在する位置502で動体を検出した例を示す。位置502に動体が検出されたと判定される。位置502に重複する領域は、図6(B)の位置・音対応情報604である。この場合、「ガチャン」、「パリン」、「ギシギシ」という音の音ラベルがあることから、図8(C)での「ガチャン」、「パリン」、「ギシギシ」という音の閾値が下げられ、「ガチャン」という音が検出される。
尚、上記の位置・音対応情報管理テーブルで管理する位置・音対応情報には、位置と音(音ラベル)の対応のみ記述しているが、これに設定しなおす閾値の対応も記述して、音ラベル毎に閾値を変更するようにしてもよい。
また、上記の例では、予め設定された位置とそれに対応する音(音ラベル)からなる位置・音対応情報を使用しているが、これに限定されない。例えば、画像中から物体とその位置を認識して、物体の種類とそれに対応する音(その物体が発生する可能性のある音)の種類からなる物体・音対応情報を一旦作成し、その物体・音対応情報を使用して、位置・音対応情報を自動で作成するようにしてもよい。図9は、物体・音対応情報の例であり、ここでは、物体として、「ドア」、「ガラス」を認識し、その物体に対応する音(音ラベル)を管理している。
以下では、物体・音対応情報から、位置・音対応情報を作成する位置・音対応情報作成処理について説明する。この処理は、例えば、動体検出部103、音検出部106及び位置・音対応情報管理部107が協働して実行する。
図10は本実施形態の位置・音対応情報作成処理のフローチャートである。尚、この処理に平行して、図3の音検出処理を実行し、物体検出時の特定の音を検出する。もしくはまた、初期設定時に物体を認識して位置・音対応情報管理テーブルを作成しておき、動体検出時に使用するようにしてもよい。
ステップS1001で、位置・音対応情報管理部107は、物体を認識する画像を設定する。ステップS1002で、位置・音対応情報管理部107は、位置・音対応情報管理テーブル上の位置・音対応情報をクリアする。
ステップS1003で、動体検出部103は、物体認識部として、画像内にある物体を認識する。ステップS1004で、認識した物体があるか否かを判定する。認識した物体がないと判定した場合(ステップS1004でNO)、処理を終了する。一方、認識した物体があると判定した場合(ステップS1004でYES)、ステップS1005に進む。
ステップS1005で、位置・音対応情報管理部107は、物体とそれに対応する音情報を管理する物体・音対応情報管理テーブルを参照して物体・音対応情報を検索する。ステップS1006で、位置・音対応情報管理部107は、対応する音があるか否かを判定する。
対応する音があると判定した場合(ステップS1006でYES)、ステップS1007で、位置・音対応情報管理部107は、その物体の検出位置と対応する音を、位置・音対応情報管理テーブルの1レコードとして追加する。図6(A)の位置601で物体としてドアを検出した場合に、図(6)(B)の位置・音対応情報603として追加され、図6(A)の位置602で物体としてガラスを検出した場合に、図6(B)の位置・音対応情報604が追加される。
一方、ステップS1006において、対応する音がないと判定した場合(ステップS1006でNO)、ステップS1008へ進む。
ステップS1008で、位置・音対応情報管理部107は、物体を認識する画像の領域を更新する。そして、ステップS1003へ戻り、次の処理対象の物体の認識を繰り返す。つまり、まだ、物体を検出していない画像の領域に限定し、物体検出処理を繰り返す。
以上の処理で、図6(B)のような位置・音対応情報を作成することができる。
尚、上記の例では、動体を検出した位置に対応する音を検出するための閾値を下げているが、閾値を上げるようにしてもよい。その場合、動体を検出しない場合はすべての音を検出するための閾値を上げ、動体を検出した場合はその位置に対応する音以外のすべての音を検出するための閾値を上げる。このように、用途や目的に応じて、音を検出するための閾値を変更(上げ下げ)する。
また、上記の例では、動体検出処理と音検出処理を独立に行っているが、動体検出をした後に、動体を検出する直前(一定時間前)から現在の時間までの区間(時間帯)の音を取り出し、その部分にのみ音検出処理を遡及的に行ってもよい。この場合、音検出装置においては、音入力部101から入力した音を記録する音記録部を搭載することになる。
このような構成の場合、動体検出処理は図4のフローチャートのようになり、図7(B)がそのタイミングを示す例である。尚、図4のフローチャートでは、図2のフローチャートと共通のステップについては、同一のステップ番号を付加し、その詳細については省略する。
ステップS210で、最後に記録された動体検出時間から一定時間が経過していると判定した場合(ステップS210でYES)、ステップS401へ進む。ステップS401で、動体検出部103は、動体検出フラグ=1であるか否か、つまり、以前に動体が検出されているか否かを判定する。
動体検出フラグ=1であると判定した場合(ステップS401でYES)、ステップS402へ進む。ステップS402で、動体検出部103は、音検出処理の処理対象となる検出対象区間を取得する。具体的には、動体が検出される直前の過去画像の撮像時間から動体が検出されなくなって一定時間経過するまでの音の区間を検出対象区間として取得する。例えば、図7(B)では、706で示される区間を検出対象区間として取得する。
次に、ステップS403で、音検出部106が、音検出処理を行う。この処理は、図3のフローチャートとほぼ同じであるが、異なる箇所は、ステップS302で音区間を検出する音の対象区間が限定されていること、ステップS308の終了の判定方法が、検出対象区間が終了したかどうかの判断に変わるだけである。図7(B)の状況での音検出処理は、検出対象区間706にのみ行われ、707は検出対象区間706内で、特定の音が存在する可能性のある音区間である。そして、音検出部106は、音区間707の終了位置708のタイミングで音認識処理を行って音認識結果の候補を作成する。そして、音検出部106は、該当する位置に対応する音を検出するための閾値を下げ、スコアが閾値より大きい音認識結果の候補を音検出結果として決定する。 尚、検出対象区間706は、動体を検出した動体検出処理の直前の動体検出処理よりも前の一定時間としてもよい。また、遡及的に検出する場合、動体検出フラグは常時1にしておくようにしてもよい。
また、上記の例では、動体検出位置が1ヶ所のみの処理を示しているが、同時に複数の位置で動体が検出した場合でも、同じように処理できる。図7(C)がその例である。動体検出区間709では、図6(A)の位置602で動体が検出され、区間710は図6(A)の位置601で動体が検出されたとする。動体検出フラグ=1の区間711から、動体フラグ=0になった時点で、検出対象区間712に対して音検出処理を実行する。
音区間713が検出され、その終了位置714のタイミングで音認識結果の候補が作成された時、動体検出区間709での検出位置は位置602である。そのため、図6(B)の位置・音対応情報から、「ガチャン」、「パリン」及び「ギシギシ」の3つの音を検出するための閾値が下げられることになる。
また、音区間715が検出され、その終了位置716のタイミングで音認識結果の候補が作成された時、音区間と重複する動体検出区間709と710の検出位置は位置602と位置601の2つである。そのため、図6(B)の位置・音対応情報から、「ガチャン」、「パリン」、「ギシギシ」及び「バタン」の4つの音を検出するための閾値が下げられることになる。図8(D)がその例である。
尚、上記の例では、画像を撮像する撮像部は、一地点のみを撮像する撮像装置(固定カメラ)としているが、パン・チルト・ズーム機能を持つ撮像装置であってもよい。その場合、パン・チルト・ズームしながら撮像可能な方向についての画像を撮像して過去画像を作成する。撮像した画像は比較が行えるようにキャリブレーションする。そして、一定時間後にパン・チルト・ズームしながら撮像可能な方向についての画像を撮像し現在画像として過去画像との差分を作成する。差分があって動体を検出した後、過去画像を撮像した時点から現在画像を撮像した時点までの音区間を取り出し、音検出処理を行うようにしてもよい。
また、撮像装置は全方位を撮像可能な全方位カメラでもよい。その場合、全方位画像はパノラマ画像に変換して、任意のフレーム単位で、位置の特定を行う。
また、上記の例では、音を検出するための閾値を個別に下げたり上げたりしているが、閾値は固定にしておき、スコアに重みづけをつけるようにしてもよい。例えば、動体検出位置に対応する音のスコアを2倍するなどして、実質的に閾値を下げるのと同じ効果をもたらすようにしてもよい。
また、上記の例では、音認識処理で尤度を算出した後に閾値処理を行っているが、音認識処理内でデコーダのパラメータを変更し、動体検出位置に対応する音を検出しやすくするようにしてもよい。
また、上記の例では、音を検出するまでの処理に限定しているが、撮像装置に音出力部を付与し、音の検出後にその旨を通知する警告音を出力しても良い。更には、表示を付与し、音の検出後にその旨を通知する画像を表示部に出力してもよい。
また、撮像装置に通信機能を付与し、音の検出後にその旨を通信先に通知するようにしてもよい。
また、撮像装置に、音検出時間をインデキシングして画像を記録する記録部と画像再生部を付与し、特定の音を検出した場面の頭出し再生を行えるようにしてもよい。
また、上記の例では、音認識を行った後に動体を検出した位置に合わせて音の閾値を変えて音検出を行っているが、これに限定されない。例えば、音認識を行う前に、動体を検出した位置に対応する音のラベルに合わせて音響モデルを選択して、音認識の対象となる音の種類を絞るようにしてもよい。
図11は音響モデルを選択する場合の音検出装置の機能構成を示すブロック図である。
図11において、図1と同一の構成については、同一の参照番号を付加し、その説明は省略する。尚、図1の音検出部106では、検出対象となる音の音響モデル群を用意しているが、個別に選択することはないので、図1では音響モデル群の説明は省略している。1101は、動体検出位置に合わせて、音響モデル群1102の中から適切な音響モデルを選択する音響モデル選択部である。
図14は位置・音対応情報管理テーブルの変形例である。図14に示す位置・音対応情報管理テーブルでは、領域IDと、動体の検出領域、可能性のある音ラベルの情報を記述している。
動体の検出領域は、動体検出のない場合(動体検出なし)、動体検出がありかつどの位置で検出され得る場合(動体検出あり)、動体が指定の位置で検出され得る場合(領域の指定)に分類される。つまり、動体検出なしを示す情報と、動体検出ありを示す情報と、領域の指定である座標のいずれかに分類される。
「ピンポーン」、「リーン」、「ジャー」と「背景音」は、撮像画像内で動体が検出されない場合に選択される音響モデルの音ラベルである。「キャー」、「ガツン」と「背景音」は、どの位置でもよいが動体検出がある場合に選択される音響モデルの音ラベルである。「バタン」は図6(A)の位置601であり、かつ、図6(B)の位置・音対応情報603の領域指定と同じ位置で動体が検出された場合の音ラベルである。「ガチャン」、「バリバリ」と「ギシギシ」は、図6(A)の位置602であり、かつ、図6(B)の位置・音対応情報604の領域指定と同じ位置で動体が検出された場合の音ラベルである。
尚、この「背景音」のラベルは、どの場合でも共通に使われる背景音モデルの音ラベルである。背景音モデルとは、検出結果からは除外して欲しい音を集めて作った音響モデルであり、背景音モデルのスコアが一位になった場合には、音検出結果はなしとなる。背景音モデルの作成方法については後述する。
図12は本実施形態の動体検出位置に合わせて、音響モデル群の中から使用する音響モデルを選択する音検出処理のフローチャートである。
図3の音検出処理のフローチャートとの違いは、ステップS303の動体検出フラグの判定をステップS302の音認識結果候補作成処理の前に行い、さらに音認識結果候補作成の前に、音響モデル選択部1101が音響モデルの選択を行う点にある。ステップS301の音区間の検出後、ステップS303で動体検出フラグの判定を行う。動体検出フラグ=1であると判定した場合(ステップS303でYES)、ステップS1201に進み、音響モデル選択部1101は、動体検出ありの音響モデルを選択する。図14の例では「キャー」、「ガツン」と「背景音」の音響モデルが選択されることになる。
次に、ステップS304を経て、ステップS305において、位置・音対応情報があると判定した場合(ステップS305でYES)、ステップS1202へ進み、音響モデル選択部1101は、その音ラベルに対応する音響モデルを追加する。図6(A)の位置601で動体が検出された場合には「バタン」、図6(A)の位置602で動体が検出された場合には「ガチャン」、「パリン」及び「ギシギシ」の音響モデルを追加する。
次に、ステップS302で、音検出部106は、選択された音響モデルを使用して、音認識処理を行って音認識結果の候補を作成する。そして、ステップS307で、音検出部106は、音検出結果の決定を行う。
図15(A)は、図6(A)の窓が存在する位置602で動体が検出され、「ガチャン」という音がした場合の音認識結果の候補と音検出結果を示す。どの位置でもよいが動体が検出された時の音「キャー」、「ガツン」と「背景音」と、図6(A)の位置602及び図6(B)の対応する位置・音対応情報604で動体が検出された時の音「ガチャン」、「パリン」、「ギシギシ」、「キャー」及び「ガツン」の音響モデルについてそれぞれの尤度を算出し、一番高いスコアの「ガチャン」を音検出結果とする。
図15(B)は、図6(A)のドアが存在する位置601で動体が検出され、「バタン」という音がした場合の音認識結果の候補と音検出結果を示す。どの位置でもよいが動体が検出された時の音「キャー」、「ガツン」と「背景音」と、図6(A)の位置601及び図6(B)の対応する位置・音対応情報603で動体が検出された時の音「バタン」の音響モデルについてそれぞれの尤度を算出し、一番高いスコアの「バタン」を音検出結果とする。
図12のフローチャートのステップS307で音検出結果を決定した後、ステップS308を実行する。
ステップS305において、動体検出位置に対応する位置・音対応情報がないと判定した場合(ステップS305でNO)、音響モデルを追加することなく、ステップS302で音認識結果の候補を作成する。この場合には、どの位置でもよいが動体があった時の音「キャー」、「ガツン」と「背景音」の音響モデルのみで音認識を行うことになる。
ステップS303において、動体検出フラグ=0であると判定した場合(ステップS303でNO)、ステップS1203に進み、音響モデル選択部1101は、動体検出なしの音響モデルを選択する。図14の例では、「ピンポーン」、「リーン」、「ジャー」と「背景音」の音響モデルで音認識を行うことになる。
このように、図12に示す処理は、予め音認識の候補となる音響モデルを動体検出位置によって選択することで、誤認識となる可能性を減らすものである。
図13は、図3の処理と図12の処理を融合したものであり、動体検出位置に合わせて、音響モデル群の中から適切な音響モデルを選択し、かつ動体検出位置に合わせて音の閾値を変更する音検出処理のフローチャートである。図12のフローチャートのステップS302とステップS307の間に、動体検出位置に対応した音の閾値を下げる処理であるステップS306が挿入される。これを組み合わせることにより、音認識の候補を予め限定し、その後で、動体検出位置で起こり得る音の優先度を上げるという効果が得られる。
また、上記の例では、音認識の対象となる音の種類は予め想定し使用できる音響モデルは前もって用意しているが、これに限定されない。例えば、音検出装置の使用環境での背景音を動体検出位置に関連付けて記録し、その背景音から動体検出位置と関連付けられた背景音モデルを作成するようにしてもよい。
図16は音検出装置の使用環境での背景音を動体検出位置に関連付けて記録し、その背景音から動体検出位置と関連付けられた背景音モデルを作成する場合の音検出装置の機能構成を示すブロック図である。
図16において、図11と同一の構成については、同一の参照番号を付加し、その説明は省略する。
1601は背景音モデル作成部であり、背景音の学習(記録)時には、動体検出の状態に合わせて背景音データを、動体検出なし背景音データ1602、動体検出あり背景音データ1603、対応領域毎の背景音データ1604に分類して記録する。つまり、背景音モデル作成部1601は、背景音記録部としても機能する。背景音の学習が終了すると、背景音モデル作成部1601は、それぞれの背景音から、動体検出なし背景音モデル1605、動体検出あり背景音モデル1606、対応領域毎の背景音モデル1607を作成する。尚、対応領域毎の背景音モデル1607は、位置・音対応情報管理テーブルに登録されている位置・音対応情報の特定領域毎に作成される。
図17は動体検出位置と関連付けられた背景音モデルを作成する処理のフローチャートである。
ステップS1701で、背景音の学習が終了であるか否かを判定する。学習を継続する間、即ち、背景音の学習が終了でない場合(ステップS1701でNO)、ステップS1702に進み、背景音データを記録し続ける。一方、背景音の学習が終了する場合(ステップS1701でYES)、ステップS1709へ進み、一連の背景音モデルを作成して終了する。
ステップS1702で、音入力部101は、一定時間の音の入力を行う。次に、ステップS1703で、背景音モデル作成部1601は、動体検出フラグ=1であるかどうかを判定する。動体検出フラグ=0であると判定した場合(ステップS1703でNO)、ステップS1708へ進み、入力した音を、動体検出なし背景音データ1602に追加する。図19(A)の例がこれに該当する。外部から与えられた音もしくは動きを伴わない物体が起こした音は、動体検出なし背景音として分類される。
一方、ステップS1703において、動体検出フラグ=1であると判定した場合(ステップS1703でYES)、ステップS1704へ進み、入力した音を、動体検出あり背景音データ1603に追加する。図19(B)と図19(C)の例がこれに該当し、位置に関係なく動体検出ありの背景音として分類される。
次に、ステップS1705で、位置・音対応情報管理部107は、位置・音対応情報管理テーブルを検索する。ステップS1706で、位置・音対応情報管理部107は、動体検出位置に対応する位置・音対応情報があるかどうかを判定する。位置・音対応情報があると判定した場合(ステップS1706でYES)、ステップS1707に進み、背景音モデル作成部1601は、その領域に該当する音を対応領域毎の背景音データ1602に追加する。図19(C)の例がこれに該当し、領域1902での動体検出位置が位置・音対応情報管理テーブルに登録されている位置(図6(B)の位置・音対応情報604)に重複するため、その領域の背景音データとして追加する。
一方、ステップS1701で、背景音学習が終了する場合(ステップS1701でYES)、ステップS1709へ進み、背景音モデル作成部1601は、動体検出なし背景音モデルを作成する。次に、ステップS1710で、背景音モデル作成部1601は、動体検出あり背景音モデルを作成する。次に、ステップS1711で、背景音モデル作成部1601は、対応領域毎の背景音モデルを作成する。最後に、ステップS1712で、位置・音対応情報管理部107は、これらの背景音モデルと位置の対応付けを記録する。
図20が背景音モデルも含めた位置・音対応情報管理テーブルである。個別の領域ID毎に背景音モデルが作成されている。例えば、図19(A)の音はID001の動体検出なしの背景音モデルに反映される。図19(B)の音は領域1901で検出される動体に対するものであり、この音は、ID002の動体検出ありの背景音モデルに反映される。図19(C)の音は領域1902で検出される動体に対するものであり、また、その領域1902の位置が図6(B)の位置・音対応情報603、つまりは、図20のID004の位置・音対応情報と重複する。そのため、図19(C)の音は、ID002の動体検出ありの背景音モデルとID004の背景音モデルに反映される。
図18は背景音モデルも含めた一般の音響モデルを作成する処理のフローチャートである。
ステップS1801で、学習用に集めた音を入力する。ステップS1802で、入力した音から特徴量を抽出する。ステップS1803で、モデルを学習する。ステップS1804で、モデルを出力する。
特定の音として音検出の対象となる音響モデルは、予め収集した音データから前もって作成しておく。通常の背景音モデルは、予め想定した騒音を収集して作成することが多いが、その場で収集して作成し直すものもある。
本実施形態では、背景音を動体検出の状態で分類し、動体検出の状態で背景音モデルを切り替えることで、検出すべきでない音(雑音)を効果的に選択することができる。
これらの背景音モデルを使った場合の音検出処理は、図12及び図13のステップS1201、ステップS1202及びステップS1203の音響モデルを選択/追加する処理の際に、更に、背景音モデルを選択する処理を追加するだけなので説明は省略する。
尚、上記の例では動体検出ありの背景音モデルは、領域の指定がある場合の音も含んでいる。図19(C)の音は、ID002の動体検出ありの背景音データとID004の特定領域の背景音データの両方に分類されているが、ID002の動体検出ありの背景音データは特定領域の背景音データを除外するものに限定するようにしてもよい。その場合、図17のステップS1704は、ステップS1706でNOと判定された場合に行われ、図12及び図13のステップS1201はステップS305でNOと判定された場合に行われることになる。この場合、図19(B)の領域1901は、図6(B)の位置・音対応情報603と図6(B)の位置・音対応情報604の位置とその他の領域を含む。そのため、それ以外の領域として動体検知ありの背景音データに記録され、図19(C)の領域1902は、図6(B)の位置・音対応情報604の位置に対応する領域の背景音データとして記録される。
図21は動体検出位置による音響モデルと背景音モデルの選択を行い、検出位置に対応する音の閾値を下げた場合の音検出結果である。
図21(A)は図6(A)の位置602及び図6(B)の位置・音対応情報604の領域(ID004)に動体があり、「ガチャン」という音があった場合の音検出結果である。動体が特定領域(ID004)である場合の音ラベル「ガチャン」、「パリン」、「ギシギシ」及び「ID004の背景音」と、動体が検出された時の音ラベル「キャー」、「ガツン」及び「動体検出ありの背景音」を選択して音認識を行い、スコアを算出する。また、動体が特定領域(ID004)である場合の「ガチャン」、「パリン」、「ギシギシ」に関しては閾値を6.0から5.7に下げる。これにより、スコアが閾値を超えている「ガチャン」が音検出結果として選択される。尚、「ID0004の背景音」については閾値を下げない。背景音モデルは、その領域でおこりうる検出したい音も学習しているため、背景音モデルの閾値を下げると本来検出したい音の検出を妨害する可能性があるからである。
図21(B)は図6(A)の位置601及び図6(B)の位置・音対応情報603の領域(ID003)に動体があり、「バタン」という音があった場合の音検出結果である。動体が特定領域(ID003)である場合の音ラベル「バタン」及び「ID003の背景音」と、動体が検出された時の音ラベル「キャー」、「ガツン」及び「動体検出ありの背景音」を選択して音認識を行い、スコアを算出する。また、動体が特定領域(ID003)である場合の「バタン」に関しては閾値を6.0から5.7に下げる。これにより、スコアが閾値を超えている「バタン」が音検出結果として選択される。
図21(C)は図6(A)の位置602及び図6(B)の位置・音対応情報604の領域(ID004)に動体があり、「シャー」という音があった場合の音検出結果である。動体が特定領域(ID004)である場合の音ラベル「ガチャン」、「パリン」、「ギシギシ」及び「ID004の背景音」と、動体が検出された時の音ラベル「キャー」、「ガツン」及び「動体検出ありの背景音」を選択して音認識を行い、スコアを算出する。また、動体が特定領域(ID004)である場合の「ガチャン」、「パリン」、「ギシギシ」に関しては閾値を6.0から5.7に下げる。これにより、スコアが閾値を超えている「ID004の背景音」が音検出結果として選択される。特定領域の背景音は実際にその場所で起こった音から学習されるため、一般の背景音よりもその箇所で起こり得る検出したくない音を吸収する効果がある。
上記の位置・音対応情報の作成処理の例では、撮像画面から物体を認識して位置・音対応情報管理テーブルを自動で作成しているが、ユーザが手作業で位置・音対応情報を作成するようにしてもよい。
図22はユーザの手作業による位置・音対応情報管理テーブルの作成処理のフローチャートであり、図23はその作成画面の例である。この処理は機器上で直接行うのではなくネットワークカメラのWeb経由での設定機能を想定している。
ユーザが位置・音対応情報の作成を開始すると、ステップS2201で、位置・音対応情報管理部107に登録されている位置・音対応情報の管理情報を一覧表示する。図23(A)は、音検出の対象となる音ラベルと検出位置の一覧を表示したものである。
次に、ステップS2202で、ユーザの操作入力を行う。ユーザが図23(B)で音ラベル「ガチャン」の「動体検出領域」の「▼」の項を選択すると、ポップアップメニュで「動体検出あり」、「動体検出なし」及び「領域指定…」が表示されユーザは3つの項目のどれかを選択する。
ステップS2203で、操作が領域種別選択、つまり、「動体検出領域」の▼の選択かどうかを判定する。領域種別選択を選択しない場合(ステップS2203でNO)、ステップS2210へ進む。一方、領域種別選択を選択する場合(ステップS2203でYES)、ステップS2204に進み、「動体検出なし」を選択したかどうかを判定する。「動体検出なし」を選択する場合(ステップS2204でYES)、ステップS2209へ進み、音ラベル(この場合、「ガチャン」)の領域指定を「動体検出なし」に設定する。
一方、ステップS2204において、「動体検出なし」を選択しない場合(ステップS2204でNO)、ステップS2205に進み、「領域指定…」を選択したかどうかを判定する。「領域指定…」を選択しない場合(ステップS2205でNO)、ステップS2208へ進み、音ラベルの領域指定を「動体検出あり」に設定する。
一方、「領域指定…」を選択する場合(ステップS2205でYES)、ステップS2206へ進み、ユーザに撮像画面を提示し、対象とする領域をドラッグで指定するよう促し、指定された領域を入力する。図23(C)が窓の領域(破線領域)を選択する様子を示す図である。次に、ステップS2207で、指定された領域の対応付けを行い、位置・音対応情報管理部107は、その内容を更新する。図23(D)がその対応付けを反映した一覧表示の例である。
この処理は、ステップS2210で、対応付け終了の指示と判定されるユーザの操作入力が行われるまで、繰り返す。つまり、対応付け終了の指示判定されるユーザの操作入力がない場合(ステップS2210でNO)、ステップS2210へ戻り、対応付け終了の指示判定されるユーザの操作入力がある場合(ステップS2210でYES)、処理を終了する。
以上説明したように、本実施形態によれば、撮像部から画像を取り込むとともに、音入力部から音を入力し、取り込んだ画像を利用して、入力した音から特定の音を検出する。特に、画像中の特定位置と音の対応付けを用い、動体検出時にその位置で起こりうる音を検出するための閾値を下げて、音を検出する。つまり、動体検出時以外の場合では、その閾値が高くなり、不要な音を検出しにくくなることで、動きのない場面の音の誤検出を減らすことができる。また、動きのある場面でも、特定位置で起こりやすい音以外の音の誤検出を減らすことができる。
もしくは、動体を検出しない場合には、すべての音の閾値を上げ、動体を検出した場合にはその位置で起こりうる音以外のすべての音を検出するための閾値を上げて検出することで、動きのない場面での音の誤検出を減らすことができる。また、動きのある場面でも、特定位置で起こりやすい音以外の音の誤検出を減らすことができる。
もしくは、動体を検出した場合や動体を検出しない場合において、音認識で使用する音響モデルを変更することで、不要な音を認識の候補から除外し、なおかつ、動体を検出した位置で起こり得る音の閾値を下げることで検出しやすくすることができる。
もしくは、動体を検出した場合や動体を検出しない場合において、音認識で使用する背景音モデルを学習し、適用する背景音モデルを変更することで、あらかじめ想定した特定の音以外の音を、特定の音と誤認識する可能性を減らすことができる。
尚、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステムまたは装置に供給し、そのシステムまたは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。

Claims (18)

  1. 撮像部から画像を取り込むとともに、音入力部から音を入力し、取り込んだ画像を利用して、入力した音から特定の音を検出する音検出装置であって、
    特定の音を検出するための基準を用いて、前記音入力部から入力した音から前記特定の音を検出する音検出手段と、
    前記撮像部が撮像した画像を記録する画像記録手段と、
    前記画像記録手段で記録した画像と前記撮像部が撮像した現在の画像とに基づいて、前記現在の画像から、動体を検出する動体検出手段と、
    前記音検出手段は、前記動体検出手段によって動体が検出された場合には、前記撮像部が撮像する画像中の特定位置と前記特定位置で発生し得る特定の音との対応関係に基づいて、前記動体が検出された箇所で発生し得る特定の音を検出するための基準を設定し、前記設定された基準を用いて、前記音入力部から入力した音から特定の音を検出する
    ことを特徴とする音検出装置。
  2. 前記音検出手段は、前記動体検出手段によって動体が検出された場合には、予め前記動体が検出された箇所に対応する特定の音を検出するための基準として設定された第1の基準を変更した第2の基準を設定する
    ことを特徴とする請求項1に記載の音検出装置。
  3. 前記特定の音を検出するための基準とは、前記特定の音が前記音入力部から入力された場合に満たされるべき基準であり、
    前記音検出手段は、前記動体検出手段によって動体が検出された場合には、前記動体が検出された箇所から発生する音が前記音入力部から入力された場合に満たされるべき基準を変更することによって、変更前よりも満たされ易い基準を設定する
    ことを特徴とする請求項1または2に記載の音検出装置。
  4. 前記音検出手段は、前記動体が検出された画像中の位置に対応付けられている特定の音以外の音を検出するための閾値を上げ、前記動体検出手段によって動体が検出されない場合には、前記撮像部が撮像する画像中の特定位置に対応付けられている全ての特定の音を検出するための閾値すべてを上げる
    ことを特徴とする請求項3に記載の音検出装置。
  5. 更に、前記撮像部が撮像する画像中の特定位置を示す情報と、前記特定位置で発生し得る音を示す情報との対応関係を管理する管理手段を有し、
    前記管理手段は、前記撮像部が撮像する画像中の複数の特定位置のそれぞれについて、前記特定位置で発生し得る1以上の種類の特定の音を対応付けた情報を管理し、
    前記音検出手段は、前記管理手段によって管理される対応関係を参照して、前記複数の特定位置の内、前記動体が検出された箇所で発生し得る1以上の特定の音を検出するための基準を設定する
    ことを特徴とする請求項1乃至4のいずれか1項に記載の音検出装置。
  6. 前記音入力部が入力した音を記録する音記録手段を更に有し、
    前記音検出手段は、前記動体検出手段によって動体が検出された場合、前記動体が検出される一定時間前から現在までの時間帯の前記音記録手段に記録されている音から、前記特定の音を検出する
    ことを特徴とする請求項1に記載の音検出装置。
  7. 前記撮像部は、パン・チルト・ズーム機能を有し、
    前記画像記録手段は、前記撮像部が前記パン・チルト・ズーム機能によって撮像可能な方向について撮像した画像を記録し、
    前記動体検出手段は、前記画像記録手段で記録した画像と、前記画像記録手段による記録から一定時間後に前記撮像部が前記パン・チルト・ズーム機能によって撮像可能な方向について撮像した現在の画像との差分をとることで、前記現在の画像中の動体を検出する
    ことを特徴とする請求項1乃至のいずれか1項に記載の音検出装置。
  8. 前記撮像部は、全方位カメラであり、
    前記動体検出手段は、前記全方位カメラが撮像した全方位画像から得られるパノラマ画像について、任意のフレーム単位で、動体を検出する
    ことを特徴とする請求項1乃至のいずれか1項に記載の音検出装置。
  9. 前記管理手段は、動体を検出しない場合を示す情報とその場合に発生し得る音を示す情報との対応、及び動体を検出した場合を示す情報とその場合に前記画像中のどの位置でも発生し得る音を示す情報との対応も更に管理し、
    音響モデルを選択する音響モデル選択手段として、
    (1)前記動体検出手段によって動体が検出されない場合には、前記動体を検出しない場合に発生し得る音の音響モデルを選択し、
    (2)前記動体検出手段によって動体が検出された場合には、前記動体を検出した位置で発生し得る音の音響モデルを選択する
    音響モデル選択手段を更に有し、
    前記音検出手段は、前記音響モデル選択手段で選択された音響モデルを用いて、前記音入力部から入力した音から特定の音を検出する
    ことを特徴とする請求項5に記載の音検出装置。
  10. 前記音入力部が入力した背景音を、動体を検出しない場合の背景音、動体を検出した場合の背景音、前記管理手段に登録されている特定位置を含む領域で動体を検出した場合の背景音のいずれかに分類して、背景音データとして記録する背景音記録手段と、
    前記背景音記録手段で分類して記録された背景音データから、動体検出なしの背景音モデル、動体検出ありの背景音モデル、領域毎の背景音モデルを作成するモデル作成手段を更に有し、
    前記音響モデル選択手段は、
    (1)前記動体検出手段によって動体が検出されない場合には、前記動体を検出しない場合に発生し得る音の音響モデルに加えて、前記動体検出なしの背景音モデルを選択し、
    (2)前記動体検出手段によって動体が検出された場合には、前記動体を検出した場合どの位置でも発生し得る音の音響モデルに加えて、前記動体検出ありの背景音モデルを選択し、
    (3)前記動体検出手段によって前記特定位置を含む領域で動体が検出された場合は、前記領域に対応する音の音響モデルに加えて、前記領域に対応する音の背景音モデルを選択し、
    前記音検出手段は、前記音響モデル選択手段で選択された音響モデルと背景音を用いて、前記音入力部から入力した音から特定の音を検出する
    ことを特徴とする請求項に記載の音検出装置。
  11. 音検出装置であって、
    音を入力する音入力手段と、
    撮像部が撮像した画像を入力する画像入力手段と、
    前記画像から、動体を検出する動体検出手段と、
    特定の音を検出するための基準を用いて、前記音入力手段から入力した音から前記特定の音を検出する音検出手段と、を有し、
    前記音検出手段は、前記動体検出手段によって動体が検出された場合には、前記撮像部が撮像する画像中の特定位置と前記特定位置で発生し得る特定の音との対応関係に基づいて、前記動体が検出された箇所で発生し得る特定の音を検出するための基準を設定し、前記設定された基準を用いて、前記音入力手段から入力した音から特定の音を検出する
    ことを特徴とする音検出装置。
  12. 前記音検出手段は、前記動体検出手段によって動体が検出された場合には、予め前記動体が検出された箇所に対応する特定の音を検出するための基準として設定された第1の基準を変更した第2の基準を設定する
    ことを特徴とする請求項11に記載の音検出装置。
  13. 前記特定の音を検出するための基準とは、前記特定の音が前記音入力手段から入力された場合に満たされるべき基準であり、
    前記音検出手段は、前記動体検出手段によって動体が検出された場合には、前記動体が検出された箇所から発生する音が前記音入力手段から入力された場合に満たされるべき基準を変更することによって、変更前よりも満たされ易い基準を設定する
    ことを特徴とする請求項11または12に記載の音検出装置。
  14. 前記音検出手段は、前記動体が検出された画像中の位置に対応付けられている音以外の音を検出するための閾値を上げ、前記動体検出手段によって動体が検出されない場合には、前記撮像部が撮像する画像中の特定位置に対応付けられている全ての特定の音を検出するための閾値すべてを上げる
    ことを特徴とする請求項13に記載の音検出装置。
  15. 撮像部から画像を取り込むとともに、音入力部から音を入力し、取り込んだ画像を利用して、入力した音から特定の音を検出する音検出装置の制御方法であって、
    特定の音を検出するための基準を用いて、前記音入力部から入力した音から前記特定の音を検出する音検出工程と、
    前記撮像部が撮像した画像を記録媒体に記録する画像記録工程と、
    前記画像記録工程で前記記録媒体に記録した画像と前記撮像部が撮像した現在の画像とに基づいて、前記現在の画像から、動体を検出する動体検出工程と、
    前記音検出工程は、前記動体検出工程によって動体が検出された場合には、前記撮像部が撮像する画像中の特定位置と前記特定位置で発生し得る特定の音との対応関係に基づいて、前記動体が検出された箇所で発生し得る特定の音を検出するための基準を設定し、前記設定された基準を用いて、前記音入力部から入力した音から特定の音を検出する
    ことを特徴とする音検出装置の制御方法。
  16. 音検出装置の制御方法であって、
    音を入力する音入力工程と、
    撮像部が撮像した画像を入力する画像入力工程と、
    前記画像から、動体のある箇所を検出する動体検出工程と、
    特定の音を検出するための基準を用いて、前記音入力工程から入力した音から前記特定の音を検出する音検出工程と、を有し、
    前記音検出工程は、前記動体検出工程によって動体が検出された場合には、前記撮像部が撮像する画像中の特定位置と前記特定位置で発生し得る特定の音との対応関係に基づいて、前記動体が検出された箇所で発生し得る特定の音を検出するための基準を設定し、前記設定された基準を用いて、前記音入力工程から入力した音から特定の音を検出する
    ことを特徴とする音検出装置の制御方法。
  17. 撮像部から画像を取り込むとともに、音入力部から音を入力し、取り込んだ画像を利用して、入力した音から特定の音を検出する音検出装置の制御をコンピュータに機能させるためのプログラムであって、
    前記コンピュータを、
    特定の音を検出するための基準を用いて、前記音入力部から入力した音から前記特定の音を検出する音検出手段と、
    前記撮像部が撮像した画像を記録する画像記録手段と、
    前記画像記録手段で記録した画像と前記撮像部が撮像した現在の画像とに基づいて、前記現在の画像から、動体を検出する動体検出手段として機能させ、
    前記音検出手段は、前記動体検出手段によって動体が検出された場合には、前記撮像部が撮像する画像中の特定位置と前記特定位置で発生し得る特定の音との対応関係に基づいて、前記動体が検出された箇所で発生し得る特定の音を検出するための基準を設定し、前記設定された基準を用いて、前記音入力部から入力した音から特定の音を検出する
    ことを特徴とするプログラム。
  18. 音検出装置の制御をコンピュータに機能させるためのプログラムであって、
    前記コンピュータを、
    音を入力する音入力手段と、
    撮像部が撮像した画像を入力する画像入力手段と、
    前記画像から、動体を検出する動体検出手段と、
    特定の音を検出するための基準を用いて、前記音入力手段から入力した音から前記特定の音を検出する音検出手段として機能させ、
    前記音検出手段は、前記動体検出手段によって動体が検出された場合には、前記撮像部が撮像する画像中の特定位置と前記特定位置で発生し得る特定の音との対応関係に基づいて、前記動体が検出された箇所で発生し得る特定の音を検出するための基準を設定し、前記設定された基準を用いて、前記音入力手段から入力した音から特定の音を検出する
    ことを特徴とするプログラム。
JP2012101677A 2011-05-27 2012-04-26 音検出装置及びその制御方法、プログラム Active JP5917270B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012101677A JP5917270B2 (ja) 2011-05-27 2012-04-26 音検出装置及びその制御方法、プログラム
US13/470,586 US20120300022A1 (en) 2011-05-27 2012-05-14 Sound detection apparatus and control method thereof

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2011119710 2011-05-27
JP2011119710 2011-05-27
JP2012101677A JP5917270B2 (ja) 2011-05-27 2012-04-26 音検出装置及びその制御方法、プログラム

Publications (3)

Publication Number Publication Date
JP2013013066A JP2013013066A (ja) 2013-01-17
JP2013013066A5 JP2013013066A5 (ja) 2015-04-23
JP5917270B2 true JP5917270B2 (ja) 2016-05-11

Family

ID=47218969

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012101677A Active JP5917270B2 (ja) 2011-05-27 2012-04-26 音検出装置及びその制御方法、プログラム

Country Status (2)

Country Link
US (1) US20120300022A1 (ja)
JP (1) JP5917270B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11431887B2 (en) 2018-07-24 2022-08-30 Sony Semiconductor Solutions Corporation Information processing device and method for detection of a sound image object

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5958833B2 (ja) 2013-06-24 2016-08-02 パナソニックIpマネジメント株式会社 指向性制御システム
JP6085538B2 (ja) * 2013-09-02 2017-02-22 本田技研工業株式会社 音響認識装置、音響認識方法、及び音響認識プログラム
KR102066939B1 (ko) * 2013-09-27 2020-01-16 한화테크윈 주식회사 영상 감시 시스템
JP6682222B2 (ja) * 2015-09-24 2020-04-15 キヤノン株式会社 検知装置及びその制御方法、コンピュータプログラム
US9853758B1 (en) * 2016-06-24 2017-12-26 Harman International Industries, Incorporated Systems and methods for signal mixing
JP2022001967A (ja) * 2018-09-11 2022-01-06 ソニーグループ株式会社 音響イベント認識装置
CN110415701A (zh) * 2019-06-18 2019-11-05 平安科技(深圳)有限公司 唇语的识别方法及其装置
US20230298357A1 (en) * 2020-05-19 2023-09-21 Sony Group Corporation Information processing device and information processing method
CN112153461B (zh) * 2020-09-25 2022-11-18 北京百度网讯科技有限公司 用于定位发声物的方法、装置、电子设备及可读存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2183878B (en) * 1985-10-11 1989-09-20 Matsushita Electric Works Ltd Abnormality supervising system
US6028626A (en) * 1995-01-03 2000-02-22 Arc Incorporated Abnormality detection and surveillance system
US6593956B1 (en) * 1998-05-15 2003-07-15 Polycom, Inc. Locating an audio source
IL125940A (en) * 1998-08-26 2002-05-23 Bar Shalom Avshalom An instrument, method and system for automatically detecting samples of sounds played by animals
US7117149B1 (en) * 1999-08-30 2006-10-03 Harman Becker Automotive Systems-Wavemakers, Inc. Sound source classification
JP4750927B2 (ja) * 2000-06-30 2011-08-17 日本ネットワークサービス株式会社 遠隔監視方法および監視制御サーバ
US7940299B2 (en) * 2001-08-09 2011-05-10 Technest Holdings, Inc. Method and apparatus for an omni-directional video surveillance system
US6707921B2 (en) * 2001-11-26 2004-03-16 Hewlett-Packard Development Company, Lp. Use of mouth position and mouth movement to filter noise from speech in a hearing aid
US7103542B2 (en) * 2001-12-14 2006-09-05 Ben Franklin Patent Holding Llc Automatically improving a voice recognition system
JP4352790B2 (ja) * 2002-10-31 2009-10-28 セイコーエプソン株式会社 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物
US7697026B2 (en) * 2004-03-16 2010-04-13 3Vr Security, Inc. Pipeline architecture for analyzing multiple video streams
US7437290B2 (en) * 2004-10-28 2008-10-14 Microsoft Corporation Automatic censorship of audio data for broadcast
US7587136B2 (en) * 2005-02-25 2009-09-08 Fujifilm Corporation Image capturing apparatus, image capturing method, output apparatus, output method and program
JP2006238220A (ja) * 2005-02-25 2006-09-07 Fuji Photo Film Co Ltd 撮像装置、撮像方法、及びプログラム
US7555437B2 (en) * 2006-06-14 2009-06-30 Care Cam Innovations, Llc Medical documentation system
TWI355615B (en) * 2007-05-11 2012-01-01 Ind Tech Res Inst Moving object detection apparatus and method by us
JP2010191223A (ja) * 2009-02-18 2010-09-02 Seiko Epson Corp 音声認識方法、携帯端末及びプログラム。
JP2011101110A (ja) * 2009-11-04 2011-05-19 Ricoh Co Ltd 撮像装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11431887B2 (en) 2018-07-24 2022-08-30 Sony Semiconductor Solutions Corporation Information processing device and method for detection of a sound image object

Also Published As

Publication number Publication date
US20120300022A1 (en) 2012-11-29
JP2013013066A (ja) 2013-01-17

Similar Documents

Publication Publication Date Title
JP5917270B2 (ja) 音検出装置及びその制御方法、プログラム
JP6905081B2 (ja) 車両損失査定画像を取得するための方法および装置、サーバ、ならびに端末デバイス
JP6635049B2 (ja) 情報処理装置、情報処理方法およびプログラム
AU2010277931B2 (en) Method and apparatus for controlling electronic device using user interaction
US10684754B2 (en) Method of providing visual sound image and electronic device implementing the same
JP5493709B2 (ja) 映像編集装置
KR100980586B1 (ko) 단일 또는 다중 카메라를 이용한 지능형 영상보안방범 방법 및 그 시스템
US20150312662A1 (en) Sound processing apparatus, sound processing system and sound processing method
US10109299B2 (en) Sound processing apparatus, sound processing method, and storage medium
US20140192232A1 (en) Method for obtaining image data and electronic device for processing method thereof
KR100999655B1 (ko) 디지털 비디오 레코더 시스템 및 그것의 운용방법
KR101484844B1 (ko) 실시간 영상에 프라이버시 마스킹 툴을 제공하는 장치 및 방법
KR101979375B1 (ko) 감시 영상의 객체 행동 예측 방법
US20130117027A1 (en) Electronic apparatus and method for controlling electronic apparatus using recognition and motion recognition
JP5345113B2 (ja) コンテンツ出力システム、出力制御装置、出力制御方法、及びコンピュータプログラム
US20210281739A1 (en) Information processing device and method, and program
JP2019186689A (ja) 情報処理装置、システム、分析方法、コンピュータプログラム、及び記憶媒体
KR20110074107A (ko) 카메라를 이용한 오브젝트 검출 방법
CN113676592A (zh) 录音方法、装置、电子设备及计算机可读介质
US20240007744A1 (en) Audio Sensors for Controlling Surveillance Video Data Capture
JP5522369B2 (ja) 会議記録要約システム、会議記録要約方法及びプログラム
KR20110095113A (ko) 음장인식 디지털 비디오 레코더 시스템 및 그것의 운용 방법
JP6914724B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP3827740B2 (ja) 作業状況管理装置
CN103838809A (zh) 信息处理设备、信息处理方法以及程序

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150306

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150306

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160406

R151 Written notification of patent or utility model registration

Ref document number: 5917270

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151