JP4175180B2 - Monitoring and reporting system - Google Patents

Monitoring and reporting system Download PDF

Info

Publication number
JP4175180B2
JP4175180B2 JP2003152826A JP2003152826A JP4175180B2 JP 4175180 B2 JP4175180 B2 JP 4175180B2 JP 2003152826 A JP2003152826 A JP 2003152826A JP 2003152826 A JP2003152826 A JP 2003152826A JP 4175180 B2 JP4175180 B2 JP 4175180B2
Authority
JP
Japan
Prior art keywords
unit
monitoring
reporting
sound
abnormality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003152826A
Other languages
Japanese (ja)
Other versions
JP2004357014A (en
Inventor
剛宏 関根
朗 馬場
高史 西山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Electric Works Co Ltd
Original Assignee
Matsushita Electric Works Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Works Ltd filed Critical Matsushita Electric Works Ltd
Priority to JP2003152826A priority Critical patent/JP4175180B2/en
Publication of JP2004357014A publication Critical patent/JP2004357014A/en
Application granted granted Critical
Publication of JP4175180B2 publication Critical patent/JP4175180B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Closed-Circuit Television Systems (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、複数の通報ユニットにて発生した緊急事態を監視者に通報するための監視通報システムに関する。
【0002】
【従来の技術】
従来より、緊急通報装置としては、下記の特許文献1〜特許文献4などに記載された技術が知られている。下記特許文献1に記載された技術は、緊急通報装置に設けられた緊急通報ボタンが押下された場合、又は話者の特徴的な音声を認識した場合に、異常が発生しているか否かを判断している。
【0003】
また、下記の特許文献2及び特許文献3に記載された技術では、水平面で異なる方位に向けて配置した複数のマイクを用いて、侵入物体等の音源の方位を特定し、当該特定した方位にビデオカメラを向けることにより、侵入物体等の画像及び音声を取得している。
【0004】
さらに、下記特許文献4に関連する監視通報システムとして、出願人は図15に示すシステムを構成している。具体的には、同図に示すように、複数の通報ユニット101A〜101C・・・と、監視サーバ102及び監視用モニタ103とを光ネットワーク104にて接続して、各通報ユニット101にて取得した画像及び音声を送信するように構成されている。ここで、各通報ユニット101は、全方位式カメラ111及び可動式カメラ112により撮像した画像データを環境画像ノイズ除去部121によりノイズ除去して画像記憶部122に記憶すると共に、マイク113により集音した音声を環境音除去部131により雑音除去して音声記憶部132に記憶したりする。
【0005】
そして、この監視通報システムでは、監視者が監視サーバ102を操作することによりカメラ遠隔制御信号を生成して、カメラ制御部123により可動式カメラ112の撮像方向を制御している。また、この監視通報システムでは、通話スイッチ114がユーザにより押下操作された場合には、画像記憶部122に記憶した画像データをメディアコンバータ115及びルータ116を介して送信したり、VOIP処理部133によってスピーカ部117及びマイク113を使用して、監視者とユーザとの通話を実現していた。
【0006】
【特許文献1】
特開2000−348278号公報
【0007】
【特許文献2】
特開2002−344957号公報
【0008】
【特許文献3】
特開平7−284186号公報
【0009】
【特許文献4】
特開2002−288764号公報
【0010】
【発明が解決しようとする課題】
しかしながら、前記特許文献4に関連する技術では、クライアント側である端末にて取得した画像情報をそのまま監視サーバ等に伝送する構成となっており、クライアントとサーバ間での伝送帯域や、サーバ側での監視タスクが限られているため、大規模な数量のクライアントに対応することが困難である。また、仮に同技術を採用して、大規模クライアントを備えたシステムを構築できたとしても、クライアントが設置されている全域に亘ってサーバ側で監視を行うためのタスクが大きくなり、監視者の負担が大きくなるという問題点があった。
【0011】
また、かかる問題を解決するために、本願の発明者らは、後述する解決手段を提案するに至ったが、特許文献1のような屋内での異常認識でなく、屋外での異常認識にあっては環境騒音が認識精度を低下させるという問題に直面した。より詳しく説明すると、例えば、異常音声に似ている環境騒音が発せられた場合には、当該環境騒音を異常音声であると誤認識して誤報を発生することがあり、その誤報がまず問題となること、及びその誤報が多い場合には、サーバ側の監視タスクを増大させるに至り、当該解決手段の効果を没却せしめかねないという問題があった。
【0012】
そこで、本発明は、上述した実情に鑑みて提案されたものであり、大規模なクライアント側で取得した音声及び画像をサーバ側に伝送するに際して、クライアントから送信する情報伝送量を低減してサーバ側の監視タスクを低減すると共に、緊急通常時の監視応答レスポンスを高め、更には通報者にて特別な操作をする必要を無くすことができ、併せて、環境騒音があっても誤報することなく通報信頼性を向上させた監視通報システムを提供することを目的とする。
【0025】
【課題を解決するための手段】
本発明に係る他の監視通報システムは、上述の課題を解決するために、複数の通報ユニットと、当該通報ユニットにより生成した音声及び画像を監視者に提示する監視サーバとが通信回線を介して接続されたシステムであって、前記各通報ユニットは、監視対象を撮像して、画像データを生成する撮像手段と、前記撮像手段周辺の音を集音して、音声データを生成する集音手段と、前記集音手段で生成された音声データから前記監視対象の状況を認識する音声認識手段と、少なくとも画像データ及び音声データを前記監視サーバとの間で通信し、前記音声認識手段により前記監視対象の状況に異常が発生したと判定した場合に、異常発生信号を前記監視サーバに送信する通信手段と、前記監視サーバからの遠隔制御信号により前記撮像手段の撮像方向を制御する撮像制御手段とを備え、前記監視サーバは、前記通報ユニットとの間で通信をする通信手段と、前記複数の通報ユニットの設置場所を示す設置場所データを記憶し、前記複数の通報ユニットから複数の異常発生信号を受信した場合に、前記設置場所データを参照して異常が発生した通報ユニットの設置場所を抽出し、異常が発生した前記通報ユニットの設置場所の順序に従って、前記監視対象の移動方向を認識する移動方向認識手段と、前記異常発生信号を送信した通報ユニット、及び当該通報ユニットから前記移動方向認識手段により認識した移動方向に存在する通報ユニットの前記撮像手段に対する前記監視対象の方向を推定する方向推定手段と、前記方向推定手段により推定した前記各通報ユニットの撮像手段の撮像方向を示す遠隔制御信号を前記各通報ユニットに送信するように前記通信手段を制御し、当該遠隔制御信号に従って前記撮像制御手段により撮像方向が制御された各通報ユニットの前記撮像手段により生成した画像データ、及び前記集音手段により生成した音声データを受信する監視制御手段とを備える。
【0026】
このような監視通報システムでは、監視サーバにより周囲の異常を監視させるために、監視サーバに予め各通報ユニットの設置場所データを記憶しておき、移動方向を認識して、当該移動方向に応じて通報ユニットの撮像手段の撮像方向を制御する。
【0027】
【発明の実施の形態】
以下、本発明の実施の形態について図面を参照して説明する。
【0028】
本発明は、例えば図1に示すように構成された監視通報システムに適用される。
【0029】
[監視通報システムの構成]
この監視通報システムは、光伝送ネットワーク1に、クライアント側である複数の通報ユニット2A、2B、2C・・・(以下、総称するときには単に「通報ユニット2」と呼ぶ。)と、各通報ユニット2を管理するための監視サーバ3とが接続されて構成されている。
【0030】
監視サーバ3は、光伝送ネットワーク1を介して、各通報ユニット2からの音声データ及び画像データが送信され、受信した音声データを音声記憶部に記憶すると共に、画像データを画像記憶部に記憶する。また、この監視サーバ3では、ユーザである監視者に画像及び音声を提示するための複数の監視用モニタ11、及び監視者に異常を判断させるための異常判断表示用モニタ12を備える。更に、監視用モニタ11及び異常判断表示用モニタ12に表示している画像に対応した音声信号を放音する放音機構が設けられている。これにより、監視サーバ3では、監視者により通報ユニット2の周辺で発生した緊急事態を監視することを可能としている。
【0031】
更にまた、この監視サーバ3は、監視者に操作される操作入力機構を備え、当該操作入力機構が操作されることに応じた通報ユニット2に対するカメラ遠隔制御信号、音声認識設定信号及び画像認識制御信号を通報ユニット2に送る。なお、監視サーバ3による他の処理については後述する。
【0032】
この監視通報システムでは、例えば交差点道路周辺において、図2に示すように、通報ユニット2A〜2Gが屋外のある地域の範囲の道路に、間隔を介して設置されて光伝送ネットワーク1に接続されて構成されている。各通報ユニット2は、その構成例の一例を図3に示すように、道路に設けられたポール2aにマイク26、全方位カメラ41及び可動式カメラ42が設けられている。本例において、通報ユニット2は、ユーザが歩行しているときの略頭部位置のポール2aにマイク26を設け、ユーザの頭上のポール2aに可動式カメラ42及び全方位カメラ41が設けられている。
【0033】
通報ユニット2は、設置場所周囲の音声及び画像を取得して、監視サーバ3に送信するものである。この通報ユニット2は、光伝送ネットワーク1を介して監視サーバ3との間で通信をするための通信機能として、メディアコンバータ21、ルータ22を備える。
【0034】
この通報ユニット2では、音声や画像を監視サーバ3に送信するに際して、ルータ22により宛先を監視サーバ3とした通信データを作成し、メディアコンバータ21により各種信号変換を行って光信号として光伝送ネットワーク1に送出する。また、この通報ユニット2では、光伝送ネットワーク1を介して監視サーバ3からの光信号をメディアコンバータ21及びルータ22にて受信して、カメラサーバ23や音声信号処理部24に出力する。
【0035】
「通報ユニット2による音声データ処理」
つぎに、通報ユニット2による音声データに関する処理及びその機能的な構成について説明する。
【0036】
また、この通報ユニット2は、監視サーバ3に音声データを伝送するための構成として、音声信号処理部24、スピーカ部25、複数のマイク26A、26B、26C(以下、総称するときには単に「マイク26」と呼ぶ。)、通話スイッチ27を備える。
【0037】
マイク26A〜26Cは、図4にポール2aを上方から見た場合を示すように、ポール2aの側面に同一直線上に並べずに、一定の距離dを介して配置されている。このマイク26は、通報ユニット2の周辺の音声を受けると、当該音声から音声信号を生成して音声信号処理部24に出力する。
【0038】
音声信号処理部24は、マイク26A〜26Cからの音声信号を入力すると、当該各音声信号を図示しないアンプ及びA/D変換器により所定のレベルのディジタルデータである音声データとして環境音除去部31に送る。
【0039】
環境音除去部31は、マイク26A〜26Cから音声データが送られると、環境雑音成分を除去する処理を各音声データについて行い、通報ユニット2の近傍に存在するユーザの音声を含む複数の音声データを作成し、音源方向推定部32及び音声認識部33に送る。
【0040】
音源方向推定部32では、環境音除去部31からの複数の音声データが送られると、当該複数の音声データを用いて相関処理を行う。このとき、音源方向推定部32は、サンプリング時刻をずらした2つの異なる音声データを足し合わせ、信号レベルが最も大きくなる音声データの組み合わせを認識し、当該音声データの組み合わせたマイク26の音声検出方向を音源到来方向候補とする。具体的に説明すると、音源方向推定部32は、例えばマイク26Aにより検出された音声の音声データとマイク26Bにより検出された音声の音声データとを足し合わせ、その音声レベルを計算する。また、音源方向推定部32は、マイク26Aとマイク26Cとの組み合わせ、マイク26Bとマイク26Cとの組み合わせについても同様の計算をして、3つの組み合わせのうち最も音声レベルが高い組み合わせを認識して音源到来方向候補とする。そして、音源方向推定部32では、複数の音源到来方向候補から、監視対象の方向となる方向推定情報θvを推定する。
【0041】
なお、音源方向推定部32では、同一のポール2aに取り付けられたマイク26のみを使用して方向推定情報θvを推定する場合のみならず、複数の通報ユニット2で生成した音声データを光伝送ネットワーク1を介して受信して方向推定情報θvを推定しても良い。
【0042】
また、音源方向推定部32では、各マイク26の音声検出時刻の時間差又は位相差を求めて、監視対象の方向を推定しても良い。更に、音源方向推定部32では、各マイク26が、地面に対して垂直に設置されたポール2aの側面であって、地面に対する水平面上に他のマイク26と所定の間隔を介して取り付けられている場合、各マイク26の音波の到達時間差又は位相差を求めて、監視対象の水平面方向を推定しても良い。更にまた、この音源方向推定部32では、各マイク26が、地面に対して垂直に設置されたポール2aの側面であって、地面に対する垂直面上に他のマイク26と所定の間隔を介して取り付けられている場合、各マイク26の音波の到達時間差又は位相差を求めて、監視対象の垂直面方向を推定しても良い。これにより、音源方向推定部32では、監視対象からの異常音の到来方向を的確に推定することができる。
【0043】
音声認識部33は、環境音除去部31から音声データが送られると、当該音声データから音響的な特徴ベクトルを抽出し、当該抽出した特徴ベクトルと、予め異常特徴音データベース記憶部34に記憶しておいた特徴ベクトルで表現された単語辞書データ或いは文章辞書データとのマッチングを行って音声認識をする。ここで、単語辞書及び文章辞書には、例えば「助けて」という音声を示す特徴ベクトルや、「やめて」という音声を示す特徴ベクトルなど、異常時に発声されると想定されるものが含まれている。
【0044】
また、この異常特徴音データベース記憶部34には、監視対象が生体である場合の異常発生時の音声データのみならず、又は監視対象が物体である場合の物体の衝突音又は破壊音を示す音響データを記憶していても良く、当該音響データを用いて監視対象の異常発生の有無を認識しても良い。これにより、音声認識部33では、異常特徴音データベース記憶部34の内容を参照して、特定の異常音を認識することができる。
【0045】
更に、異常特徴音データベース記憶部34には、音声データ又は音響データの基本周波数、パワースペクトル、フォルマント、ケプストラム及びこれらの時間的変位のうち、少なくとも一つを音声データ又は音響データの特徴ベクトル(特徴量)として記憶しておいても良い。
【0046】
更にまた、異常特徴音データベース記憶部34には、音声データがサンプリングされた時系列データs(t)として与えられたとき、下記の式に示すFFT(Fast Fourier Transform)などのフーリエ変換を行って、音声データを周波数関数に変換し、図5に示すように、当該周波数関数の複数のピークf1〜f3に対応した周波数を近似的にフォルマントとする。
【0047】
S(exp(−jwm))=Σs(t)・exp(−jwm)
そして、異常特徴音データベース記憶部34には、フォルマントを音声データの特徴量として記憶しておく。
【0048】
また、異常特徴音データベース記憶部34には、上記式における周波数関数S(exp(−jwm))の対数を下記の式のように逆フーリエ変換を行うことによりケプストラムC(n)を求め、当該ケプストラムを音声データの特徴量として記憶しておいても良い。
【0049】
C(n)=(1/N)ΣlogY・exp(2πk/N)
そして、音声認識部33は、異常特徴音データベース記憶部34に記憶されている特徴ベクトルのうち、抽出した特徴ベクトルと最も距離が近い特徴ベクトルを選択する。そして、音声認識部33は、選択した特徴ベクトルと、抽出した特徴ベクトルとの距離によって異常音である度合い(以下、音声異常類似度Avと呼ぶ。)を計算する。音声認識部33は、計算した音声異常類似度Avを音声記憶部35に記憶する。
【0050】
なお、異常特徴音データベース記憶部34に記憶されているデータは、人の声に限らず、例えば車の衝突音の特徴ベクトルなどであっても良い。これにより、人の声のみならず、物体の衝突や破壊等の事故の異常であっても音声異常類似度Avを生成することができる。
【0051】
また、この音声信号処理部24は、通報ユニット2が設置されている場所に応じて特有の環境音の特徴ベクトルが記憶された環境特徴音データベース記憶部36を備える。この環境特徴音データベース記憶部36には、例えば電車の踏切音や横断歩道の警告音など異常音でない環境音の特徴ベクトルが記憶されている。
【0052】
この環境音の特徴ベクトルは、音声信号処理部24からルータ22及びメディアコンバータ21を介して監視サーバ3に送られ、監視サーバ3にて異常音でない音と判断されたことを示す音声認識設定信号が送られることに応じて、環境特徴音データベース記憶部36に登録される。なお、監視サーバ3では、通報ユニット2からの環境音が異常音か否かを判定する処理を予め用意しておいた環境特徴音データベースを使用して自動的に行っても良く、監視者の手動により行っても良い。
【0053】
この環境特徴音データベース記憶部36に記憶された環境音の特徴ベクトルは、音声認識部33にて異常音の音声認識をするに際して、音声認識部33により読み込まれて、異常音か否かを判定する特徴ベクトルと比較される。そして、音声認識部33では、異常音か否かを判定する特徴ベクトルが環境音の特徴ベクトルに近い場合には異常音と判定しないとする。これにより、通報ユニット2では、環境音を異常音と誤認識することなく、異常検出の信頼性を向上させることができる。
【0054】
音声記憶部35には、以前にマイク26にて検出した音声データ、及び当該音声データに対応した音声異常類似度Avが記憶されている。この音声記憶部35に記憶されている音声データ及び音声異常類似度Avは、監視者が監視サーバ3を操作することにより、光伝送ネットワーク1を介して監視サーバ3でダウンロードすることが可能となっている。
【0055】
なお、この音声異常類似度Avは、監視サーバ3からの音声認識設定信号によって設定されたものを含む。すなわち、監視サーバ3では、各通報ユニット2の音声記憶部35に記憶された音声データを参照して、当該音声データが異常音に該当すると判定した場合には、当該音声データを音声認識部33により音声認識させて特徴ベクトルを異常音として異常特徴音データベース記憶部34に追加する。このように、通報ユニット2では、異常特徴音データベース記憶部34や環境特徴音データベース記憶部36に記憶する特徴ベクトルが監視サーバ3により追加されることにより、設置初期時と比較して異常検出の信頼性を向上させることができる。
【0056】
また、音声信号処理部24は、環境音除去部31から音声データが出力されるVOIP(Voice over IP(Internet Protocol))処理部37を備える。このVOIP処理部37は、通話スイッチ27が操作された場合に、環境音除去部31からの音声データを監視サーバ3に送る。
【0057】
「通報ユニット2による画像データ処理」
つぎに、通報ユニット2による画像データに関する処理及びその機能的な構成について説明する。
【0058】
この通報ユニット2は、監視サーバ3に画像信号を伝送するための構成として、カメラサーバ23、全方位カメラ41、可動式カメラ42及び入力センサ43を備える。
【0059】
全方位カメラ41は、広視野角を有するレンズにより集光し、内部のCCD(Charge Coupled Device)撮像素子により画像信号を生成する。可動式カメラ42は、パン機能、チルト機能及びズーム機能を備え、CCD撮像素子により画像信号を生成する。全方位カメラ41及び可動式カメラ42は、カメラサーバ23と接続され、画像信号をカメラサーバ23に出力する。
【0060】
カメラサーバ23では、全方位カメラ41から通報ユニット2の周辺状況を撮像した画像信号を入力すると、当該画像信号をA/D変換して画像データとして環境画像ノイズ除去部51に送る。この環境画像ノイズ除去部51では、画像データを入力すると、当該画像データからノイズを除去して、画像認識部52に送る。
【0061】
画像認識部52は、図6に示すような機能構成を有し、全方位カメラ41及び可動式カメラ42からの画像データについて画像認識処理をする。
【0062】
この画像認識部52では、画像データを入力すると、オブジェクト画像抽出部61により、例えば背景差分法などの画像処理を行うことにより、背景画像と、その他のオブジェクト画像とを分割する。このオブジェクト画像としては、例えば人物や車などを示す画像データである。そして、画像認識部52では、例えば静止画像の画像データを入力した場合、特徴量抽出部62により、オブジェクト画像の画像内位置情報、大きさ情報、色情報などを認識して、当該各情報をオブジェクトについての特徴量に変換する。また、特徴量抽出部62では、複数のフレームに亘る動画像を入力した場合には、オブジェクト画像の動き速さ情報も画像特徴量として変換する。
【0063】
そして、画像認識部52では、オブジェクト画像の位置情報から、当該オブジェクト画像に相当する監視対象物(以下、オブジェクトと呼ぶ。)の方向θiの候補である方向推定情報を移動方向推定部63により求めて、統合方向検知部53に送る。
【0064】
また、このカメラサーバ23は、異常と想定されるオブジェクトの特徴量を蓄積して記憶した特徴画像データベース記憶部54を備える。画像認識部52では、オブジェクトの特徴量を求めると、特徴画像データベース記憶部54に蓄積されたオブジェクトの特徴量とマッチング処理をして、求めたオブジェクトの特徴量と蓄積されたオブジェクトの特徴量とを用いて特徴ベクトルの距離を計算する。そして、画像認識部52では、特徴ベクトルの距離によって、異常画像類似度計算部64により、異常である度合いを示す画像異常類似度Ajを求める。
【0065】
更に、画像認識部52は、環境画像ノイズ除去部51からの画像データを画像記憶部55に記憶させる。
【0066】
更に、このカメラサーバ23は、例えば赤外線を用い、異なる方向の人体を検知するための複数の人体検知センサを入力センサ43として備える。この入力センサ43は、人物オブジェクトが通報ユニット2の周囲に存在する場合に、複数の人体検知センサのうち、人体を検出した人体検知センサを特定する。そして、この入力センサ43は、特定した人体検知センサの人体検知方向から人体オブジェクトが存在する方向を推定して、方向推定情報として統合方向検知部53に送る。
【0067】
また、この入力センサ43としては、図7に通報ユニット2を上方から見た様子を示すように、全方位カメラ41又は可動式カメラ42の撮像領域内であって異なる検出範囲とされた複数の距離センサ44A〜44Dを備えるものであっても良い。そして、この距離センサ44A〜44Dでは、人体等の監視対象を検出した場合には距離情報を含む方向推定情報を統合方向検知部53に送る。なお、各距離センサ44は、超音波センサ又は光学式センサであれば良い。
【0068】
更に、入力センサ43としては、全方位カメラ41又は可動式カメラ42の撮像領域内であって異なる検出範囲とされた複数の赤外線センサからなるものであっても良い。これにより、各赤外線センサでは、監視対象から反射して検出した赤外線情報を用いて監視対象の存在する領域を示す方向推定情報を統合方向検知部53に送る。
【0069】
統合方向検知部53は、音源方向推定部32、画像認識部52及び入力センサ43からの各方向推定情報から、オブジェクトの存在する通報ユニット2に対する方向を決定して、カメラ制御部56に送る。
【0070】
カメラ制御部56では、統合方向検知部53により決定されたオブジェクトの方向から、可動式カメラ42のパン及びチルト量Δθ、ズーム量ΔZを設定する。このとき、カメラ制御部56では、パン及びチルト量Δθを設定するための可動式カメラ42の方向推定角θを、音声異常類似度Av、画像異常類似度Ai、音声を用いた方向推定情報θv、画像を用いた方向推定情報θiを用いて、
θ=(Av×θv+Ai×θi)/(Av+Ai)
なる演算をすることにより求める。すなわち、カメラ制御部56では、方向推定情報θv及び方向推定情報θiの重み付け係数として、音声異常類似度Av及び画像異常類似度Aiを使用する。そして、カメラ制御部56では、求めた方向推定角θに対する現在の可動式カメラ42の撮像方向から、パン及びチルト量Δθを決定する。
【0071】
また、カメラ制御部56は、ズーム量ΔZを設定するためのズーム設定値Zを、方向推定情報θvと方向推定情報θiとの差が小さい場合には、当該方向推定情報θi及び方向推定情報θvにおけるオブジェクトの存在確率が高いのでズーム設定値Zを大きくし、方向推定情報θvと方向推定情報θiとの差が大きい場合には当該方向推定情報θi及び方向推定情報θvにおけるオブジェクトの存在確率が低いのでズーム設定値Zを小さくするように設定する。
【0072】
このとき、カメラ制御部56は、例えば、方向推定情報θv及び方向推定情報θiを用いて、
Z=α/(θv−θi)
α:定数
なる演算をすることによりズーム設定値Zを求める。そして、カメラ制御部56では、求めたズーム設定値Zに対する現在の可動式カメラ42のズーム設定値から、ズーム量ΔZを決定する。
【0073】
そして、カメラ制御部56では、パン及びチルト量Δθ及びズーム量ΔZだけ可動式カメラ42を駆動させて、可動式カメラ42にオブジェクトを撮像させ、可動式カメラ42により撮像した画像データを画像認識部52に送る。
【0074】
「異常判定処理」
つぎに、通報ユニット2及び監視サーバ3による異常判定に関する処理及びその機能的な構成について説明する。
【0075】
画像認識部52では、異常判定をするに際して、上述の音声異常類似度Av及び画像異常類似度Aiを統合することにより異常度Aを演算する。このとき、画像認識部52では、例えば下記の式を用いて、
A=α×Ai+β×Av
α、β:定数
なる演算をする。これにより、画像認識部52では、通報ユニット2についての異常度Aを計算し、光伝送ネットワーク1を介して監視サーバ3に送る。また、画像認識部52では、異常値Aを演算し、当該異常値Aが予め設定しておいた閾値よりも高くなった場合には、可動式カメラ42にて撮像された画像及び音声を監視サーバ3に送信させても良い。
【0076】
これに応じて、監視サーバ3では、通報ユニット2から送信された複数の画像を監視用モニタ11または異常判断表示用モニタ12にて表示することにより、監視者に異常度Aが閾値以上となっている通報ユニット2周辺の画像及び音声を監視させる。
【0077】
また、監視サーバ3では、図8に示すように、光伝送ネットワーク1を介して接続されている複数の通報ユニット2が存在する自身の監視地域71において、図8(A)に示すように、通報ユニット2−1の異常度Aが低い場合には、任意の通報ユニット2−2,2−3,2−4により撮像した画像データを監視しているとする。そして、通報ユニット2−1の異常度Aが閾値を越えた場合には、当該通報ユニット2−1から監視サーバ3にその旨の情報が送信される。
【0078】
これに応じて、監視サーバ3では、異常が通報ユニット2−1周辺で発生していることを判断して、当該通報ユニット2−1の周辺の通報ユニット2−11,通報ユニット2−12,通報ユニット2−13により撮像した画像データ及び音声データを送信する制御信号を各通報ユニット2に送信する。また、監視サーバ3では、通報ユニット2−1の方向を撮像方向とするカメラ遠隔制御信号を通報ユニット2−11,通報ユニット2−12,通報ユニット2−13に送信する。また、監視サーバ3では、異常度Aが閾値以上となった通報ユニット2−1について、VOIP処理部37による音声通信を可能とする制御信号を送信して、通報ユニット2−1の通話スイッチ27を操作したユーザと監視サーバ3側の監視者との通話を可能とする。これにより、通報ユニット2−1では、通話スイッチ27が操作されてマイク26で検出した音声データを監視サーバ3に送信する状態となる。
【0079】
これにより、通報ユニット2−11,2−12,2−13は、可動式カメラ42によりカメラ遠隔制御信号に従った方向を撮像して、画像データ及び音声データを監視サーバ3に送信して、監視者による監視を可能とするアクティブ状態となる。監視サーバ3では、通報ユニット2−1,通報ユニット2−11,通報ユニット2−12,通報ユニット2−13から画像データ及び音声データが送られると、監視用モニタ11及び異常判断表示用モニタ12により画像及び音声を確認して、多くの情報によって監視者による監視を行わせる。
【0080】
また、この監視通報システムでは、異常度Aが高くなった場合に、通報ユニット2−1のみならず、通報ユニット2−11,通報ユニット2−12,通報ユニット2−13により取得した画像データ及び音声データを記憶しておくことにより、多角的に異常が発生した地域の情報を分析することを可能とする。
【0081】
このような監視通報システムでは、異常度Aを上回る通報ユニット2についてのみ監視サーバ3にて監視をするようにしたので、監視サーバ3側にてすべての通報ユニット2について監視を行う必要がない。したがって、この監視通報システムによれば、監視サーバ3側の監視タスクを低減することができる。
【0082】
また、この監視通報システムでは、全方位カメラ41及び可動式カメラ42にて撮像して取得した画像データを画像記憶部55に記憶して、監視サーバ3からカメラサーバ23へのダウンロード要求に応じて画像データを送信することができるので、監視者により過去の画像をダウンロードして解析をさせることができる。
【0083】
「異常監視処理」
つぎに、上述したように構成された監視通報システムにおいて、上述した処理の他に実現可能な異常監視処理の処理手順について図9〜図14を参照して説明する。
【0084】
図9に示す通報ユニット2の異常監視処理では、先ず、処理開始時において可動式カメラ42の角度を初期位置とするようにカメラ制御部56により図示しない可動機構を制御し(ステップS1)、ズームアウトの程度を最大とするように可動式カメラ42のズーム機能をカメラ制御部56により制御する(ステップS2)。これにより、通報ユニット2では、可動式カメラ42により撮像した画像信号を用いて広角の画像データを生成する状態となる。
【0085】
このような状態において、通報ユニット2では、可動式カメラ42により撮像されて取得した画像データを用いて、少なくとも画像認識部52による画像異常類似度Aiを求めて、異常度Aを演算する異常判定処理を行う。そして、通報ユニット2では、異常度Aが所定の閾値よりも低いと判定した場合には(ステップS3)、ステップS1及びステップS2の処理を繰り返し、異常度Aが所定の閾値よりも高いと判定した場合には(ステップS3)、画像認識部52により、ステップS2にて設定したズーム機能により撮像して生成している広角の画像データから、監視対象となる移動物体を抽出する処理をする(ステップS4)。そして、画像認識部52では、抽出した移動物体の位置から、方向推定情報θiを作成して統合方向検知部53に送る。
【0086】
次に、通報ユニット2では、統合方向検知部53により、少なくとも方向推定情報θiを用いて可動式カメラ42の撮像方向を推定し、移動物体が画像データの中心となるように可動式カメラ42を制御し(ステップS5)、ズームインするように可動式カメラ42を制御する(ステップS6)。これにより、通報ユニット2では、移動物体を画像中心に含む画像データを生成して、画像記憶部55に記憶したり、監視サーバ3に送信することが可能となる。
【0087】
つぎに、図10に示す通報ユニット2の異常監視処理では、図9に示した異常監視処理と同様にステップS1〜ステップS3の処理を行い、ステップS3にて異常度Aが所定の閾値よりも高いと判定した場合に、画像認識部52により、全方位カメラ41により撮像して生成した全方位の画像データを用いて移動物体を抽出する(ステップS11)。そして、画像認識部52では、移動物体の抽出位置から、方向推定情報θiを作成して統合方向検知部53に送る。
【0088】
これに応じて、通報ユニット2では、統合方向検知部53により少なくとも方向推定情報θiを用いて移動物体の存在位置を計算し(ステップS12)、当該存在位置の計算値からカメラ制御部56により可動式カメラ42の撮像方向(角度)を制御し(ステップS13)、ズームインするように可動式カメラ42を制御する(ステップS6)。これにより、通報ユニット2では、移動物体を含む画像データを生成して、画像記憶部55に記憶したり、監視サーバ3に送信することが可能となる。
【0089】
つぎに、図11に示す通報ユニット2の異常監視処理では、先ず、ステップS21において、音声認識部33により、複数のマイク26A〜マイク26Cについて、監視対象からの音声の方向を決定するための遅延時間を決定する。そして、音声認識部33では、ステップS22において、各マイク26A、マイク26B及びマイク26Cにより検出して生成した音声データ(チャンネル信号)を、ステップS21にて決定した遅延時間だけずらして加算することにより、遅延和S(λ)を得る。このとき、音声認識部33では、マイク26Aとマイク26B、マイク26Aとマイク26C、マイク26Bとマイク26Cの組み合わせについての遅延和を求める。
【0090】
これにより、音声認識部33では、ステップS23において、全ての組み合わせ、すなわち全ての角度について遅延和S(λ)を計算したと判定した場合には、最も値が大きい遅延和S(λ)を求めて統合方向検知部53に方向推定情報θvとして送る(ステップS24)。また、この音声認識部33では、音声検出時刻の時間差又は位相差を求めて、方向推定情報θvを作成しても良い。
【0091】
次に、統合方向検知部53では、少なくとも方向推定情報θvから可動式カメラ42が撮像する推定方向を求め、カメラ制御部56により可動式カメラ42の撮像方向を制御する。
【0092】
つぎに、図12に示す監視サーバ3の異常監視処理では、監視サーバ3により、通報ユニット2Aからの時系列データである音声データSA(t)を受信し(ステップS31)、通報ユニット2Bからの時系列データである音声データSB(t)を受信し(ステップS32)、通報ユニット2Cからの時系列データである音声データSC(t)を受信する(ステップS33)。
【0093】
次に、監視サーバ3では、各音声データSA(t)、音声データSB(t)及び音声データSC(t)を用いて、各通報ユニット2間における音声データの相関を計算する(ステップS34)。そして、監視サーバ3では、相関計算結果から、監視対象が発する音声の到来方向を推定し、当該到来方向を撮像方向とするためのカメラ遠隔制御信号を通報ユニット2A、通報ユニット2B、通報ユニット2Cについて作成して送信する。これにより、通報ユニット2A、通報ユニット2B及び通報ユニット2Cは、ステップS35にて推定された到来方向を撮像方向とするように可動式カメラ42を制御することができる。
【0094】
このような異常監視処理を行う監視通報システムによれば、設置場所が異なる複数の通報ユニット2を単一の音声到来場所に向けることにより、複数の角度から異常事態の画像データを得ることができ、多角的な異常事態の分析をさせることができる。
【0095】
つぎに、図13に示す監視サーバ3の異常監視処理では、先ず、監視用モニタ11により画像及び音声を監視者に提示している通報ユニット2A、及び当該通報ユニット2Aの周辺場所に設置された通報ユニット2B及び通報ユニット2Cにより取得した音声データSA(λ)、SB(λ)及びSC(λ)を監視サーバ3により受信する(ステップS41)。
【0096】
そして、監視サーバ3では、通報ユニット2Aの異常度Aが所定の閾値を超えて、通報ユニット2Aから異常発生信号を受信した場合(ステップS42)、通報ユニット2Aの周辺の通報ユニット2B及び通報ユニット2Cを監視対象とし(ステップS43)、ステップS41にて受信した各音声データSA(λ)、SB(λ)、SC(λ)の相関を計算する(ステップS44)。そして、監視サーバ3では、相関計算結果から、監視対象が発する音声の到来方向を推定し、当該到来方向を撮像方向とするためのカメラ遠隔制御信号を通報ユニット2B、通報ユニット2Cについて作成して送信する。これにより、通報ユニット2B及び通報ユニット2Cは、ステップS35にて推定された到来方向を撮像方向とするように可動式カメラ42を制御することができる。
【0097】
このような異常監視処理を行う監視通報システムによれば、異常が発生した通報ユニット2の周囲の通報ユニット2の撮像方向を音声の到来方向とすることができるので、監視対象が移動して異常発生場所が移動する場合であっても周囲状況を把握することができる。
【0098】
つぎに、図14に示す監視サーバ3の異常監視処理では、予め監視サーバ3に複数の通報ユニット2の設置場所を示す設置場所データを記憶しておき、監視地域71(通報ユニット2の設置エリア)内で異常度Aが最も高い通報ユニット2Aを抽出する(ステップS51)。なお、本例では、例えば異常度Aが所定値以上となった場合に自動的に通報ユニット2から監視サーバ3に異常度Aを示す情報を送信するものとする。
【0099】
次に、監視サーバ3では、異常度Aが最も高い通報ユニット2が通報ユニット2Aから通報ユニット2Bに変更したか否かを判定する(ステップS52)。そして、監視サーバ3では、通報ユニット2A及び通報ユニット2Bの設置場所を設置場所データから抽出し、異常発生順に設置場所データを並べて監視対象の移動方向を認識する。これにより、監視サーバ3では、監視対象の移動方向(通報ユニット2Aから通報ユニット2B)の延長方向を可動式カメラ42の撮像方向とする(ステップS53)。
【0100】
このような異常監視処理を行う監視通報システムによれば、通報ユニット2の撮像方向を異常が発生した監視対象の移動方向とすることができるので、監視対象が移動して異常発生場所が移動する場合であっても周囲状況を把握することができる。
【0101】
[実施形態の効果]
以上詳細に説明したように、本発明を適用した監視通報システムによれば、通報ユニット2の近傍にいるユーザが危険な状態に遭遇したときに、適切に監視サーバ3の監視者に通報を行い、迅速な対応をすることで、より安全な環境を提供することができる。
【0102】
また、この監視通報システムによれば、多数の通報ユニット2を設定して大規模なクライアントで取得した音声及び画像を監視サーバ3に伝送するに際して、異常度Aが閾値以上となった各通報ユニット2や周辺の通報ユニット2からのみ画像及び音声を送信するので、各通報ユニット2の情報伝送量を低減して監視サーバ3の監視タスクを低減すると共に、緊急通常時の監視応答レスポンスを高め、更には通報者にて特別な操作をする必要を無くすことができる。
【0103】
更に、この監視通報システムによれば、通報ユニット2が設置されている地域において、犯罪や事故が発生した時、通報ユニット2の近傍にいるユーザや被害者が通報ユニット2の通報ボタンを操作して通報して監視サーバ3側で通報ユニット2のカメラ機構を手動で切り換え、カメラ機構の角度やズーム等を制御する必要が無い。
【0104】
更にまた、この監視通報システムによれば、通話スイッチ27をユーザが操作することによる通報や監視サーバ3の監視者による手動の可動式カメラ42の制御に加えて、自動的に且つ迅速に警察や警備会社等の監視者に通報を行うことができる。例えば、この監視通報システムによれば、歩行しているユーザがひったくりなどの犯罪者に襲われて悲鳴等を発した場合、異常な状態になったことを通報ユニット2により検出してユーザや犯罪者の音声や画像を通報することができる。
【0105】
なお、上述の実施の形態は本発明の一例である。このため、本発明は、上述の実施形態に限定されることはなく、この実施の形態以外であっても、本発明に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能であることは勿論である。
【0106】
【発明の効果】
本発明によれば、多数の場所の画像及び音声を取得する大規模なシステムを使用した場合であって、音声及び画像を監視サーバに伝送するに際して、送信する情報伝送量を低減してサーバ側の監視タスクを低減すると共に、緊急通常時の監視応答レスポンスを高め、更には通報者にて特別な操作をする必要を無くすことができる。
【図面の簡単な説明】
【図1】本発明を適用した監視通報システムの機能的な構成を示すブロック図である。
【図2】本発明を適用した監視通報システムにおいて、通報ユニットの配置例を説明するための図である。
【図3】本発明を適用した監視通報システムの通報ユニットの側面図である。
【図4】本発明を適用した監視通報システムにおいて、通報ユニットのマイクの設置例を示す上面図である。
【図5】異常特徴音データベース記憶部に記憶する音声データの特徴量としてのフォルマントについて説明するための図である。
【図6】画像認識部の機能的な構成を示すブロック図である。
【図7】入力センサとして距離センサを使用した場合に、方向推定情報を作成するときの説明図である。
【図8】監視地域に多数の通報ユニットを設定した場合において、異常度が低い場合に監視サーバでモニタによる監視が行われているアクティブ状態の通報ユニットを説明するための図を(A)に示し、異常度が高い場合に監視サーバでモニタによる監視が行われているアクティブ状態の通報ユニットを説明するための図を(B)に示す。
【図9】通報ユニットによる異常監視処理の一例を示すフローチャートである。
【図10】通報ユニットによる異常監視処理の他の一例を示すフローチャートである。
【図11】通報ユニットによる異常監視処理の更に他の一例を示すフローチャートである。
【図12】監視サーバによる異常監視処理の一例を示すフローチャートである。
【図13】監視サーバによる異常監視処理の他の一例を示すフローチャートである。
【図14】監視サーバによる異常監視処理の更に他の一例を示すフローチャートである。
【図15】従来の監視通報システムの具体的な構成例を示すブロック図である。
【符号の説明】
1 光伝送ネットワーク
2 通報ユニット
3 監視サーバ
11 監視用モニタ
12 異常判断表示用モニタ
21 メディアコンバータ
22 ルータ
23 カメラサーバ
24 音声信号処理部
25 スピーカ部
26 マイク
27 通話スイッチ
31 環境音除去部
32 音源方向推定部
33 音声認識部
34 異常特徴音データベース記憶部
35 音声記憶部
36 環境特徴音データベース記憶部
37 VOIP処理部
41 全方位カメラ
42 可動式カメラ
43 入力センサ
51 環境画像ノイズ除去部
52 画像認識部
53 統合方向検知部
54 特徴画像データベース記憶部
55 画像記憶部
56 カメラ制御部
61 オブジェクト画像抽出部
62 特徴量抽出部
63 移動方向推定部
64 異常画像類似度計算部
71 監視領域
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a monitoring and reporting system for reporting an emergency situation that has occurred in a plurality of reporting units to a supervisor.
[0002]
[Prior art]
Conventionally, as an emergency call device, techniques described in the following Patent Literature 1 to Patent Literature 4 are known. The technology described in Patent Document 1 below determines whether or not an abnormality has occurred when an emergency call button provided in an emergency call device is pressed or when a speaker's characteristic voice is recognized. Deciding.
[0003]
Moreover, in the technique described in the following patent document 2 and patent document 3, the direction of a sound source such as an intruding object is specified using a plurality of microphones arranged in different directions on a horizontal plane, and the specified direction is By pointing the video camera, images and sounds of intruding objects and the like are acquired.
[0004]
Further, as a monitoring notification system related to Patent Document 4 below, the applicant configures the system shown in FIG. Specifically, as shown in the figure, a plurality of reporting units 101A to 101C,..., A monitoring server 102 and a monitoring monitor 103 are connected by an optical network 104 and acquired by each reporting unit 101. The transmitted image and sound are configured to be transmitted. Here, each notification unit 101 removes noise from the image data captured by the omnidirectional camera 111 and the movable camera 112 by the environmental image noise removal unit 121 and stores it in the image storage unit 122, and collects sound by the microphone 113. The environmental sound removal unit 131 removes noise from the sound and stores it in the voice storage unit 132.
[0005]
In this monitoring and reporting system, a camera remote control signal is generated by the monitoring person operating the monitoring server 102, and the imaging direction of the movable camera 112 is controlled by the camera control unit 123. Also, in this monitoring and reporting system, when the call switch 114 is pressed by the user, the image data stored in the image storage unit 122 is transmitted via the media converter 115 and the router 116, or by the VOIP processing unit 133. The speaker unit 117 and the microphone 113 are used to realize a call between the supervisor and the user.
[0006]
[Patent Document 1]
JP 2000-348278 A
[0007]
[Patent Document 2]
JP 2002-344957 A
[0008]
[Patent Document 3]
Japanese Patent Laid-Open No. 7-284186
[0009]
[Patent Document 4]
JP 2002-288774 A
[0010]
[Problems to be solved by the invention]
However, the technology related to Patent Document 4 has a configuration in which image information acquired by a terminal on the client side is directly transmitted to a monitoring server or the like. Because of the limited monitoring tasks, it is difficult to accommodate a large number of clients. Even if the same technology is adopted and a system with a large-scale client can be constructed, the task for monitoring on the server side over the entire area where the client is installed becomes large. There was a problem of increasing the burden.
[0011]
Further, in order to solve such a problem, the inventors of the present application have proposed a solution means to be described later. In the past, environmental noise faced the problem of reducing recognition accuracy. More specifically, for example, when environmental noise similar to abnormal sound is emitted, the environmental noise may be misrecognized as abnormal sound and a false alarm may be generated. When there are many false alarms, there is a problem that the number of monitoring tasks on the server side is increased, and the effect of the solution may be lost.
[0012]
Therefore, the present invention has been proposed in view of the above-described circumstances, and reduces the amount of information transmitted from a client when transmitting audio and images acquired on a large-scale client side to the server side. The monitoring task on the side can be reduced, the response response to the emergency response during emergency can be improved, and there is no need to perform special operations on the whistleblower. The purpose is to provide a monitoring and reporting system with improved reporting reliability.
[0025]
[Means for Solving the Problems]
  In order to solve the above-described problem, another monitoring and reporting system according to the present invention includes a plurality of reporting units and a monitoring server that presents a monitor with sound and images generated by the reporting unit via a communication line. In each of the connected systems, each reporting unit captures an image of a monitoring target, generates image data, and collects sound around the imaging unit to generate sound data. And voice recognition means for recognizing the status of the monitoring target from the voice data generated by the sound collection means, at least image data and voice data are communicated with the monitoring server, and the monitoring is performed by the voice recognition means. When it is determined that an abnormality has occurred in the target situation, a communication unit that transmits an abnormality occurrence signal to the monitoring server, and a remote control signal from the monitoring server Imaging control means for controlling the image direction, wherein the monitoring server stores communication location for communicating with the reporting unit, installation location data indicating the installation location of the plurality of reporting units, and When a plurality of abnormality occurrence signals are received from the reporting unit, the installation location of the reporting unit where the abnormality has occurred is extracted with reference to the installation location data, and according to the order of the location of the reporting unit where the abnormality has occurred, The moving direction recognition means for recognizing the moving direction of the monitoring target, the reporting unit that has transmitted the abnormality occurrence signal, and the imaging means of the reporting unit that exists in the moving direction recognized by the moving direction recognition means from the reporting unit The direction estimation means for estimating the direction of the monitoring target, and the imaging means of each notification unit estimated by the direction estimation means. The communication unit is controlled to transmit a remote control signal indicating a direction to each reporting unit, and an image generated by the imaging unit of each reporting unit whose imaging direction is controlled by the imaging control unit according to the remote control signal Monitoring control means for receiving data and voice data generated by the sound collecting means.
[0026]
In such a monitoring and reporting system, in order to monitor the surrounding abnormality by the monitoring server, the monitoring server stores in advance the location data of each reporting unit, recognizes the moving direction, and according to the moving direction. Control the imaging direction of the imaging means of the reporting unit.
[0027]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[0028]
The present invention is applied to, for example, a monitoring and reporting system configured as shown in FIG.
[0029]
[Configuration of monitoring and reporting system]
This monitoring and reporting system includes a plurality of reporting units 2A, 2B, 2C (hereinafter simply referred to as “reporting unit 2” when referred to collectively) on the optical transmission network 1 and each reporting unit 2. Are connected to a monitoring server 3 for managing
[0030]
The monitoring server 3 transmits audio data and image data from each reporting unit 2 via the optical transmission network 1, stores the received audio data in the audio storage unit, and stores the image data in the image storage unit. . In addition, the monitoring server 3 includes a plurality of monitoring monitors 11 for presenting images and sounds to a supervisor who is a user, and an abnormality determination display monitor 12 for causing the supervisor to determine an abnormality. Furthermore, a sound emission mechanism is provided that emits an audio signal corresponding to the image displayed on the monitoring monitor 11 and the abnormality determination display monitor 12. Thereby, in the monitoring server 3, it is possible to monitor the emergency which generate | occur | produced around the notification unit 2 by the supervisor.
[0031]
Furthermore, the monitoring server 3 includes an operation input mechanism that is operated by a supervisor, and a camera remote control signal, a voice recognition setting signal, and an image recognition control for the notification unit 2 in response to the operation input mechanism being operated. Send a signal to the reporting unit 2. Other processes performed by the monitoring server 3 will be described later.
[0032]
In this monitoring and reporting system, for example, in the vicinity of an intersection road, as shown in FIG. 2, the reporting units 2A to 2G are installed on a road in a certain area outside through an interval and connected to the optical transmission network 1. It is configured. As shown in FIG. 3, each notification unit 2 is provided with a microphone 26, an omnidirectional camera 41, and a movable camera 42 on a pole 2 a provided on the road. In this example, the reporting unit 2 is provided with a microphone 26 on the pole 2a at a substantially head position when the user is walking, and a movable camera 42 and an omnidirectional camera 41 are provided on the pole 2a above the user's head. Yes.
[0033]
The reporting unit 2 acquires sound and images around the installation location and transmits them to the monitoring server 3. The notification unit 2 includes a media converter 21 and a router 22 as a communication function for communicating with the monitoring server 3 via the optical transmission network 1.
[0034]
In the notification unit 2, when transmitting voice and images to the monitoring server 3, communication data with the destination set as the monitoring server 3 is created by the router 22, and various signal conversions are performed by the media converter 21 to generate an optical signal as an optical transmission network. 1 to send. Further, in the notification unit 2, the optical signal from the monitoring server 3 is received by the media converter 21 and the router 22 through the optical transmission network 1 and is output to the camera server 23 and the audio signal processing unit 24.
[0035]
"Voice data processing by the reporting unit 2"
Next, processing related to voice data by the reporting unit 2 and its functional configuration will be described.
[0036]
Further, the notification unit 2 has a configuration for transmitting audio data to the monitoring server 3 as an audio signal processing unit 24, a speaker unit 25, a plurality of microphones 26A, 26B, and 26C (hereinafter simply referred to as “microphone 26”). And a call switch 27 is provided.
[0037]
As shown in FIG. 4 when the pole 2a is viewed from above, the microphones 26A to 26C are arranged on the side surface of the pole 2a through a certain distance d without being arranged on the same straight line. When the microphone 26 receives sound around the reporting unit 2, the microphone 26 generates a sound signal from the sound and outputs the sound signal to the sound signal processing unit 24.
[0038]
When the audio signals from the microphones 26A to 26C are input, the audio signal processing unit 24 converts each audio signal into audio data that is digital data of a predetermined level by an amplifier and an A / D converter (not shown). Send to.
[0039]
When the sound data is sent from the microphones 26 </ b> A to 26 </ b> C, the environmental sound removing unit 31 performs a process for removing the environmental noise component on each sound data, and a plurality of sound data including the user's sound existing in the vicinity of the reporting unit 2. Is sent to the sound source direction estimation unit 32 and the speech recognition unit 33.
[0040]
When a plurality of sound data from the environmental sound removal unit 31 is sent, the sound source direction estimation unit 32 performs a correlation process using the plurality of sound data. At this time, the sound source direction estimation unit 32 adds the two different audio data whose sampling times are shifted, recognizes the combination of the audio data having the highest signal level, and detects the audio detection direction of the microphone 26 combined with the audio data. Is a sound source arrival direction candidate. More specifically, the sound source direction estimating unit 32 adds, for example, voice data detected by the microphone 26A and voice data detected by the microphone 26B, and calculates the voice level. The sound source direction estimation unit 32 also performs the same calculation for the combination of the microphone 26A and the microphone 26C and the combination of the microphone 26B and the microphone 26C, and recognizes the combination having the highest sound level among the three combinations. A sound source arrival direction candidate. Then, the sound source direction estimation unit 32 estimates direction estimation information θv that is the direction of the monitoring target from a plurality of sound source arrival direction candidates.
[0041]
Note that the sound source direction estimation unit 32 not only estimates the direction estimation information θv using only the microphones 26 attached to the same pole 2a, but also transmits the audio data generated by the plurality of notification units 2 to the optical transmission network. 1 may be used to estimate the direction estimation information θv.
[0042]
In addition, the sound source direction estimation unit 32 may estimate the direction of the monitoring target by obtaining the time difference or phase difference between the sound detection times of the microphones 26. Further, in the sound source direction estimation unit 32, each microphone 26 is a side surface of the pole 2a installed perpendicular to the ground, and is attached to another microphone 26 at a predetermined interval on a horizontal plane with respect to the ground. If there is, the arrival time difference or phase difference of the sound wave of each microphone 26 may be obtained to estimate the horizontal plane direction to be monitored. Furthermore, in the sound source direction estimation unit 32, each microphone 26 is a side surface of the pole 2a installed perpendicular to the ground, and is placed on a surface perpendicular to the ground with a predetermined distance from another microphone 26. When attached, the arrival time difference or phase difference of the sound wave of each microphone 26 may be obtained to estimate the vertical plane direction of the monitoring target. Thereby, in the sound source direction estimation part 32, the arrival direction of the abnormal sound from the monitoring object can be estimated accurately.
[0043]
When voice data is sent from the environmental sound removal unit 31, the voice recognition unit 33 extracts an acoustic feature vector from the voice data, and stores the extracted feature vector and the abnormal feature sound database storage unit 34 in advance. Speech recognition is performed by matching with word dictionary data or sentence dictionary data expressed by the feature vector. Here, the word dictionary and the sentence dictionary include, for example, a feature vector indicating a voice of “help” and a feature vector indicating a voice of “stop”, which are supposed to be uttered at the time of abnormality. .
[0044]
In addition, the abnormal feature sound database storage unit 34 stores not only audio data when an abnormality occurs when the monitoring target is a living body, but also an acoustic sound indicating a collision sound or destruction sound of an object when the monitoring target is an object. Data may be stored, and the presence or absence of abnormality of the monitoring target may be recognized using the acoustic data. Thereby, the voice recognition unit 33 can recognize a specific abnormal sound with reference to the contents of the abnormal feature sound database storage unit 34.
[0045]
Further, the abnormal feature sound database storage unit 34 stores at least one of the fundamental frequency, power spectrum, formant, cepstrum, and temporal displacement of the sound data or sound data as a feature vector (feature of sound data or sound data). (Amount) may be stored.
[0046]
Furthermore, when the voice data is given as the sampled time series data s (t), the abnormal feature sound database storage unit 34 performs Fourier transform such as FFT (Fast Fourier Transform) shown in the following equation. The voice data is converted into a frequency function, and the frequencies corresponding to the plurality of peaks f1 to f3 of the frequency function are approximately formant as shown in FIG.
[0047]
S (exp (−jwm)) = Σs (t) · exp (−jwm)
Then, the abnormal feature sound database storage unit 34 stores formants as feature values of the voice data.
[0048]
Further, the abnormal feature sound database storage unit 34 obtains a cepstrum C (n) by performing inverse Fourier transform on the logarithm of the frequency function S (exp (−jwm)) in the above equation as in the following equation, A cepstrum may be stored as a feature amount of audio data.
[0049]
C (n) = (1 / N) ΣlogY · exp (2πk / N)
Then, the voice recognition unit 33 selects a feature vector that is closest to the extracted feature vector from the feature vectors stored in the abnormal feature sound database storage unit 34. Then, the speech recognition unit 33 calculates the degree of abnormal sound (hereinafter referred to as speech abnormal similarity Av) based on the distance between the selected feature vector and the extracted feature vector. The voice recognition unit 33 stores the calculated voice abnormality similarity Av in the voice storage unit 35.
[0050]
The data stored in the abnormal feature sound database storage unit 34 is not limited to a human voice, and may be a feature vector of a car collision sound, for example. As a result, not only a human voice but also an abnormal sound such as a collision or destruction of an object can generate the sound abnormality similarity Av.
[0051]
In addition, the audio signal processing unit 24 includes an environmental feature sound database storage unit 36 in which a characteristic vector of a specific environmental sound is stored according to the location where the reporting unit 2 is installed. The environmental feature sound database storage unit 36 stores feature vectors of environmental sounds that are not abnormal sounds, such as train crossing sounds and pedestrian crossing warning sounds.
[0052]
The feature vector of the environmental sound is sent from the audio signal processing unit 24 to the monitoring server 3 via the router 22 and the media converter 21, and a voice recognition setting signal indicating that the monitoring server 3 determines that the sound is not an abnormal sound. Is registered in the environmental feature sound database storage unit 36. The monitoring server 3 may automatically perform a process for determining whether or not the environmental sound from the reporting unit 2 is an abnormal sound by using an environmental characteristic sound database prepared in advance. It may be done manually.
[0053]
The feature vector of the environmental sound stored in the environmental feature sound database storage unit 36 is read by the speech recognition unit 33 when the speech recognition unit 33 recognizes the abnormal sound, and determines whether or not it is an abnormal sound. Compared to the feature vector. The speech recognition unit 33 does not determine that the sound is abnormal when the feature vector for determining whether or not the sound is abnormal is close to the feature vector of the environmental sound. Thereby, the reporting unit 2 can improve the reliability of abnormality detection without erroneously recognizing environmental sound as abnormal sound.
[0054]
The sound storage unit 35 stores sound data previously detected by the microphone 26 and sound abnormality similarity Av corresponding to the sound data. The voice data and the voice abnormality similarity Av stored in the voice storage unit 35 can be downloaded by the monitoring server 3 via the optical transmission network 1 when the supervisor operates the monitoring server 3. ing.
[0055]
The voice abnormality similarity Av includes those set by a voice recognition setting signal from the monitoring server 3. That is, when the monitoring server 3 refers to the voice data stored in the voice storage unit 35 of each reporting unit 2 and determines that the voice data corresponds to an abnormal sound, the monitoring server 3 converts the voice data into the voice recognition unit 33. And the feature vector is added to the abnormal feature sound database storage unit 34 as an abnormal sound. As described above, in the reporting unit 2, the feature vector stored in the abnormal feature sound database storage unit 34 or the environmental feature sound database storage unit 36 is added by the monitoring server 3, so that abnormality detection is performed compared to the initial installation time. Reliability can be improved.
[0056]
The audio signal processing unit 24 includes a VOIP (Voice over IP (Internet Protocol)) processing unit 37 to which audio data is output from the environmental sound removal unit 31. The VOIP processing unit 37 sends the audio data from the environmental sound removal unit 31 to the monitoring server 3 when the call switch 27 is operated.
[0057]
"Image data processing by report unit 2"
Next, processing related to image data by the reporting unit 2 and its functional configuration will be described.
[0058]
The notification unit 2 includes a camera server 23, an omnidirectional camera 41, a movable camera 42, and an input sensor 43 as a configuration for transmitting an image signal to the monitoring server 3.
[0059]
The omnidirectional camera 41 collects light with a lens having a wide viewing angle, and generates an image signal with an internal CCD (Charge Coupled Device) image sensor. The movable camera 42 has a pan function, a tilt function, and a zoom function, and generates an image signal by a CCD image sensor. The omnidirectional camera 41 and the movable camera 42 are connected to the camera server 23 and output image signals to the camera server 23.
[0060]
In the camera server 23, when an image signal obtained by capturing the surrounding situation of the notification unit 2 is input from the omnidirectional camera 41, the image signal is A / D converted and sent to the environmental image noise removing unit 51 as image data. When the environmental image noise removing unit 51 receives image data, the environmental image noise removing unit 51 removes noise from the image data and sends it to the image recognition unit 52.
[0061]
The image recognition unit 52 has a functional configuration as shown in FIG. 6 and performs image recognition processing on image data from the omnidirectional camera 41 and the movable camera 42.
[0062]
In the image recognition unit 52, when image data is input, the object image extraction unit 61 divides the background image and other object images by performing image processing such as a background subtraction method. The object image is image data indicating, for example, a person or a car. In the image recognition unit 52, for example, when image data of a still image is input, the feature amount extraction unit 62 recognizes in-image position information, size information, color information, and the like of the object image, and each piece of the information is recognized. Convert to features for the object. In addition, when a moving image over a plurality of frames is input, the feature amount extraction unit 62 converts motion speed information of the object image as an image feature amount.
[0063]
In the image recognition unit 52, the movement direction estimation unit 63 obtains direction estimation information that is a candidate for the direction θi of the monitoring target (hereinafter referred to as an object) corresponding to the object image from the position information of the object image. To the integrated direction detection unit 53.
[0064]
In addition, the camera server 23 includes a feature image database storage unit 54 that accumulates and stores feature amounts of objects that are assumed to be abnormal. When the feature amount of the object is obtained, the image recognition unit 52 performs matching processing with the feature amount of the object stored in the feature image database storage unit 54, and calculates the feature amount of the obtained object and the feature amount of the accumulated object. Is used to calculate the distance between feature vectors. In the image recognition unit 52, the abnormal image similarity calculation unit 64 obtains an abnormal image similarity Aj indicating the degree of abnormality based on the distance between the feature vectors.
[0065]
Further, the image recognition unit 52 stores the image data from the environmental image noise removal unit 51 in the image storage unit 55.
[0066]
Further, the camera server 23 includes, as an input sensor 43, a plurality of human body detection sensors for detecting human bodies in different directions using, for example, infrared rays. This input sensor 43 specifies a human body detection sensor that detects a human body among a plurality of human body detection sensors when a person object exists around the reporting unit 2. And this input sensor 43 estimates the direction in which a human body object exists from the human body detection direction of the specified human body detection sensor, and sends it to the integrated direction detection part 53 as direction estimation information.
[0067]
In addition, as the input sensor 43, as shown in FIG. 7 when the notification unit 2 is viewed from above, a plurality of detection ranges that are different in the imaging region of the omnidirectional camera 41 or the movable camera 42 are set. You may provide distance sensor 44A-44D. The distance sensors 44 </ b> A to 44 </ b> D send direction estimation information including distance information to the integrated direction detection unit 53 when a monitoring target such as a human body is detected. Each distance sensor 44 may be an ultrasonic sensor or an optical sensor.
[0068]
Further, the input sensor 43 may be composed of a plurality of infrared sensors within the imaging area of the omnidirectional camera 41 or the movable camera 42 and having different detection ranges. As a result, each infrared sensor sends direction estimation information indicating an area where the monitoring target exists to the integrated direction detection unit 53 using the infrared information reflected and detected from the monitoring target.
[0069]
The integrated direction detection unit 53 determines the direction with respect to the reporting unit 2 where the object exists from each direction estimation information from the sound source direction estimation unit 32, the image recognition unit 52, and the input sensor 43, and sends it to the camera control unit 56.
[0070]
The camera control unit 56 sets the pan and tilt amount Δθ and the zoom amount ΔZ of the movable camera 42 from the object direction determined by the integrated direction detection unit 53. At this time, the camera control unit 56 uses the direction estimation angle θ of the movable camera 42 for setting the pan and tilt amount Δθ as the audio abnormality similarity Av, the image abnormality similarity Ai, and the direction estimation information θv using the audio. Using the direction estimation information θi using the image,
θ = (Av × θv + Ai × θi) / (Av + Ai)
Is obtained by performing the following calculation. That is, the camera control unit 56 uses the audio abnormality similarity Av and the image abnormality similarity Ai as the weighting coefficients of the direction estimation information θv and the direction estimation information θi. Then, the camera control unit 56 determines the pan and tilt amount Δθ from the current imaging direction of the movable camera 42 with respect to the obtained direction estimation angle θ.
[0071]
In addition, when the difference between the direction estimation information θv and the direction estimation information θi is small, the camera control unit 56 sets the zoom setting value Z for setting the zoom amount ΔZ to the direction estimation information θi and the direction estimation information θv. When the zoom setting value Z is increased and the difference between the direction estimation information θv and the direction estimation information θi is large, the object existence probability in the direction estimation information θi and the direction estimation information θv is low. Therefore, the zoom setting value Z is set to be small.
[0072]
At this time, the camera control unit 56 uses, for example, the direction estimation information θv and the direction estimation information θi,
Z = α / (θv−θi)
α: Constant
The zoom setting value Z is obtained by performing the following calculation. Then, the camera control unit 56 determines the zoom amount ΔZ from the current zoom setting value of the movable camera 42 with respect to the obtained zoom setting value Z.
[0073]
Then, the camera control unit 56 drives the movable camera 42 by the pan and tilt amount Δθ and the zoom amount ΔZ to cause the movable camera 42 to image an object, and image data captured by the movable camera 42 is image recognition unit. 52.
[0074]
"Abnormality judgment processing"
Next, processing related to abnormality determination by the reporting unit 2 and the monitoring server 3 and its functional configuration will be described.
[0075]
The image recognition unit 52 calculates the degree of abnormality A by integrating the above-described audio abnormality similarity Av and image abnormality similarity Ai when making an abnormality determination. At this time, the image recognition unit 52 uses, for example, the following equation:
A = α × Ai + β × Av
α, β: Constant
Perform the following operation. Accordingly, the image recognition unit 52 calculates the degree of abnormality A for the reporting unit 2 and sends it to the monitoring server 3 via the optical transmission network 1. Further, the image recognition unit 52 calculates an abnormal value A, and when the abnormal value A becomes higher than a preset threshold value, the image and sound captured by the movable camera 42 are monitored. It may be transmitted to the server 3.
[0076]
In response to this, the monitoring server 3 displays a plurality of images transmitted from the reporting unit 2 on the monitor 11 for monitoring or the monitor 12 for abnormality determination display, so that the abnormality degree A becomes equal to or greater than the threshold for the monitor. The image and sound around the reporting unit 2 is monitored.
[0077]
Moreover, in the monitoring server 3, as shown in FIG. 8, in the own monitoring area 71 where there are a plurality of reporting units 2 connected via the optical transmission network 1, as shown in FIG. When the degree of abnormality A of the reporting unit 2-1 is low, it is assumed that image data captured by any reporting unit 2-2, 2-3, 2-4 is monitored. When the abnormality degree A of the reporting unit 2-1 exceeds the threshold value, information to that effect is transmitted from the reporting unit 2-1 to the monitoring server 3.
[0078]
In response to this, the monitoring server 3 determines that an abnormality has occurred in the vicinity of the notification unit 2-1, and notifies the notification unit 2-11, the notification unit 2-12 in the vicinity of the notification unit 2-1. A control signal for transmitting image data and audio data captured by the reporting unit 2-13 is transmitted to each reporting unit 2. In addition, the monitoring server 3 transmits a camera remote control signal with the direction of the reporting unit 2-1 in the imaging direction to the reporting unit 2-11, the reporting unit 2-12, and the reporting unit 2-13. In addition, the monitoring server 3 transmits a control signal enabling voice communication by the VOIP processing unit 37 to the reporting unit 2-1 in which the degree of abnormality A is equal to or greater than the threshold, and the call switch 27 of the reporting unit 2-1 It is possible to make a call between the user who has operated and the monitor on the monitoring server 3 side. Thereby, in the reporting unit 2-1, the voice switch 27 is operated and the voice data detected by the microphone 26 is transmitted to the monitoring server 3.
[0079]
As a result, the reporting units 2-11, 12 and 2-13 image the direction according to the camera remote control signal by the movable camera 42, and transmit the image data and the audio data to the monitoring server 3, It becomes an active state that enables monitoring by a monitor. In the monitoring server 3, when image data and audio data are sent from the reporting unit 2-1, the reporting unit 2-11, the reporting unit 2-12, and the reporting unit 2-13, the monitoring monitor 11 and the abnormality determination display monitor 12 are sent. By confirming the image and sound, the monitoring by the supervisor is performed with a lot of information.
[0080]
In this monitoring and reporting system, when the degree of abnormality A becomes high, not only the reporting unit 2-1, but also the image data acquired by the reporting unit 2-11, the reporting unit 2-12, and the reporting unit 2-13, and By storing audio data, it is possible to analyze information on areas where abnormality has occurred from various angles.
[0081]
In such a monitoring and reporting system, since only the reporting unit 2 exceeding the abnormality degree A is monitored by the monitoring server 3, it is not necessary to monitor all the reporting units 2 on the monitoring server 3 side. Therefore, according to this monitoring notification system, monitoring tasks on the monitoring server 3 side can be reduced.
[0082]
Further, in this monitoring notification system, image data obtained by capturing with the omnidirectional camera 41 and the movable camera 42 is stored in the image storage unit 55, and in response to a download request from the monitoring server 3 to the camera server 23. Since image data can be transmitted, a past image can be downloaded and analyzed by a supervisor.
[0083]
"Abnormality monitoring process"
Next, in the monitoring notification system configured as described above, a processing procedure of the abnormality monitoring processing that can be realized in addition to the processing described above will be described with reference to FIGS.
[0084]
In the abnormality monitoring process of the reporting unit 2 shown in FIG. 9, first, the movable mechanism (not shown) is controlled by the camera control unit 56 so that the angle of the movable camera 42 is set to the initial position at the start of the process (step S1). The zoom function of the movable camera 42 is controlled by the camera control unit 56 so as to maximize the degree of out (step S2). As a result, the reporting unit 2 is in a state of generating wide-angle image data using the image signal captured by the movable camera 42.
[0085]
In such a state, the notification unit 2 uses the image data captured and acquired by the movable camera 42 to obtain at least the image abnormality similarity Ai by the image recognition unit 52 and calculates the abnormality A. Process. Then, in the reporting unit 2, when it is determined that the degree of abnormality A is lower than the predetermined threshold (step S3), the processing of step S1 and step S2 is repeated to determine that the degree of abnormality A is higher than the predetermined threshold. If so (step S3), the image recognition unit 52 performs a process of extracting a moving object to be monitored from wide-angle image data generated by imaging with the zoom function set in step S2 (step S3). Step S4). Then, the image recognizing unit 52 creates direction estimation information θi from the extracted position of the moving object and sends it to the integrated direction detecting unit 53.
[0086]
Next, in the reporting unit 2, the integrated direction detection unit 53 estimates the imaging direction of the movable camera 42 using at least the direction estimation information θi, and the movable camera 42 is set so that the moving object becomes the center of the image data. Control (step S5) and control the movable camera 42 to zoom in (step S6). As a result, the reporting unit 2 can generate image data including the moving object at the center of the image and store it in the image storage unit 55 or transmit it to the monitoring server 3.
[0087]
Next, in the abnormality monitoring process of the reporting unit 2 shown in FIG. 10, the processes of steps S1 to S3 are performed in the same manner as the abnormality monitoring process shown in FIG. 9, and the abnormality degree A is higher than a predetermined threshold value in step S3. When it is determined that the height is high, the image recognition unit 52 extracts a moving object using the omnidirectional image data generated by imaging with the omnidirectional camera 41 (step S11). Then, the image recognition unit 52 creates direction estimation information θi from the moving object extraction position and sends it to the integrated direction detection unit 53.
[0088]
In response to this, the notification unit 2 calculates the presence position of the moving object by using the integrated direction detection unit 53 using at least the direction estimation information θi (step S12), and is moved by the camera control unit 56 from the calculated value of the presence position. The imaging direction (angle) of the camera 42 is controlled (step S13), and the movable camera 42 is controlled to zoom in (step S6). As a result, the reporting unit 2 can generate image data including a moving object and store it in the image storage unit 55 or transmit it to the monitoring server 3.
[0089]
Next, in the abnormality monitoring process of the reporting unit 2 shown in FIG. 11, first, in step S21, the voice recognition unit 33 determines the direction of the voice from the monitoring target for the plurality of microphones 26A to 26C. Determine the time. Then, in the voice recognition unit 33, in step S22, the voice data (channel signal) detected and generated by each microphone 26A, microphone 26B, and microphone 26C is shifted and added by the delay time determined in step S21. , The delay sum S (λ) is obtained. At this time, the speech recognition unit 33 obtains a delay sum for the combination of the microphone 26A and the microphone 26B, the microphone 26A and the microphone 26C, and the combination of the microphone 26B and the microphone 26C.
[0090]
As a result, when it is determined in step S23 that the delay sum S (λ) has been calculated for all the combinations, that is, all angles, the speech recognition unit 33 obtains the delay sum S (λ) having the largest value. Is sent to the integrated direction detector 53 as direction estimation information θv (step S24). Further, the voice recognition unit 33 may obtain the direction estimation information θv by obtaining the time difference or phase difference of the voice detection time.
[0091]
Next, the integrated direction detection unit 53 obtains an estimated direction captured by the movable camera 42 from at least the direction estimation information θv, and the camera control unit 56 controls the imaging direction of the movable camera 42.
[0092]
Next, in the abnormality monitoring process of the monitoring server 3 shown in FIG. 12, the monitoring server 3 receives the voice data SA (t), which is time-series data from the reporting unit 2A (step S31), and receives from the reporting unit 2B. The voice data SB (t) that is time series data is received (step S32), and the voice data SC (t) that is time series data from the reporting unit 2C is received (step S33).
[0093]
Next, the monitoring server 3 calculates the correlation of the voice data between the reporting units 2 using each voice data SA (t), voice data SB (t), and voice data SC (t) (step S34). . Then, the monitoring server 3 estimates the arrival direction of the sound emitted by the monitoring target from the correlation calculation result, and uses the camera remote control signals for setting the arrival direction as the imaging direction as the notification unit 2A, the notification unit 2B, and the notification unit 2C. Create and send about. Thereby, the reporting unit 2A, the reporting unit 2B, and the reporting unit 2C can control the movable camera 42 so that the arrival direction estimated in step S35 is the imaging direction.
[0094]
According to the monitoring and reporting system that performs such abnormality monitoring processing, it is possible to obtain image data of an abnormal situation from a plurality of angles by directing a plurality of reporting units 2 with different installation locations to a single voice arrival location. , Can be analyzed from various abnormal situations.
[0095]
Next, in the abnormality monitoring process of the monitoring server 3 shown in FIG. 13, first, the monitoring unit 11 is installed in the notification unit 2A presenting an image and sound to the monitor, and in the vicinity of the notification unit 2A. The monitoring server 3 receives the voice data SA (λ), SB (λ), and SC (λ) acquired by the reporting unit 2B and the reporting unit 2C (step S41).
[0096]
In the monitoring server 3, when the abnormality degree A of the reporting unit 2A exceeds a predetermined threshold and an abnormality occurrence signal is received from the reporting unit 2A (step S42), the reporting unit 2B and the reporting unit around the reporting unit 2A 2C is set as a monitoring target (step S43), and the correlation between the audio data SA (λ), SB (λ), and SC (λ) received in step S41 is calculated (step S44). Then, the monitoring server 3 estimates the arrival direction of the sound emitted by the monitoring target from the correlation calculation result, and creates a camera remote control signal for the notification unit 2B and the notification unit 2C for setting the arrival direction as the imaging direction. Send. Thereby, the reporting unit 2B and the reporting unit 2C can control the movable camera 42 so that the arrival direction estimated in step S35 is the imaging direction.
[0097]
According to the monitoring and reporting system that performs such an abnormality monitoring process, the imaging direction of the reporting unit 2 around the reporting unit 2 in which the abnormality has occurred can be set as the voice arrival direction. Even if the place of occurrence moves, the surrounding situation can be grasped.
[0098]
Next, in the abnormality monitoring process of the monitoring server 3 shown in FIG. 14, installation location data indicating the installation locations of the plurality of notification units 2 is stored in the monitoring server 3 in advance, and the monitoring area 71 (the installation area of the notification unit 2) is stored. ), The reporting unit 2A having the highest degree of abnormality A is extracted (step S51). In this example, for example, when the degree of abnormality A exceeds a predetermined value, information indicating the degree of abnormality A is automatically transmitted from the reporting unit 2 to the monitoring server 3.
[0099]
Next, the monitoring server 3 determines whether or not the reporting unit 2 having the highest degree of abnormality A has been changed from the reporting unit 2A to the reporting unit 2B (step S52). Then, the monitoring server 3 extracts the installation locations of the reporting unit 2A and the reporting unit 2B from the installation location data, and arranges the installation location data in the order of occurrence of the abnormality to recognize the moving direction of the monitoring target. Thereby, in the monitoring server 3, the extending direction of the monitoring target moving direction (the reporting unit 2A to the reporting unit 2B) is set as the imaging direction of the movable camera 42 (step S53).
[0100]
According to the monitoring and reporting system that performs such abnormality monitoring processing, the imaging direction of the reporting unit 2 can be the moving direction of the monitoring target in which an abnormality has occurred, so that the monitoring target moves and the location of occurrence of the abnormality moves. Even if it is a case, the surrounding situation can be grasped.
[0101]
[Effect of the embodiment]
As described in detail above, according to the monitoring and reporting system to which the present invention is applied, when a user in the vicinity of the reporting unit 2 encounters a dangerous state, the monitoring server 3 is appropriately notified to the monitoring server 3. By responding quickly, a safer environment can be provided.
[0102]
In addition, according to this monitoring and reporting system, when a large number of reporting units 2 are set and audio and images acquired by a large-scale client are transmitted to the monitoring server 3, each reporting unit having an abnormality degree A equal to or greater than a threshold value. 2 and the image and sound are transmitted only from the surrounding reporting unit 2, so that the monitoring task of the monitoring server 3 is reduced by reducing the information transmission amount of each reporting unit 2, and the monitoring response response in emergency normal time is increased, Furthermore, it is possible to eliminate the need for special operations at the whistleblower.
[0103]
Furthermore, according to this monitoring and reporting system, when a crime or an accident occurs in the area where the reporting unit 2 is installed, a user or victim in the vicinity of the reporting unit 2 operates the reporting button of the reporting unit 2. Therefore, it is not necessary to manually switch the camera mechanism of the reporting unit 2 on the monitoring server 3 side and control the angle and zoom of the camera mechanism.
[0104]
Furthermore, according to this monitoring and reporting system, in addition to reporting by the user operating the call switch 27 and manual control of the movable camera 42 by the monitor of the monitoring server 3, the police and It is possible to make a report to a security company. For example, according to this monitoring and reporting system, when a walking user is attacked by a criminal such as snatching and screams, etc., the reporting unit 2 detects that an abnormal state has occurred, and the user or crime The user's voice and image can be reported.
[0105]
The above-described embodiment is an example of the present invention. For this reason, the present invention is not limited to the above-described embodiment, and various modifications can be made depending on the design and the like as long as the technical idea according to the present invention is not deviated from this embodiment. Of course, it is possible to change.
[0106]
【The invention's effect】
According to the present invention, when using a large-scale system that acquires images and sounds of a large number of places, when transmitting sounds and images to a monitoring server, the amount of information transmitted is reduced and the server side In addition to reducing the monitoring task, it is possible to increase the monitoring response response in the normal emergency, and to eliminate the need for special operation by the reporter.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a functional configuration of a monitoring notification system to which the present invention is applied.
FIG. 2 is a diagram for explaining an arrangement example of notification units in a monitoring notification system to which the present invention is applied.
FIG. 3 is a side view of a notification unit of a monitoring notification system to which the present invention is applied.
FIG. 4 is a top view showing an installation example of a microphone of a notification unit in the monitoring notification system to which the present invention is applied.
FIG. 5 is a diagram for explaining a formant as a feature amount of voice data stored in an abnormal feature sound database storage unit;
FIG. 6 is a block diagram illustrating a functional configuration of an image recognition unit.
FIG. 7 is an explanatory diagram when creating direction estimation information when a distance sensor is used as an input sensor.
FIG. 8A is a diagram for explaining active reporting units that are monitored by the monitoring server when the degree of abnormality is low when a large number of reporting units are set in the monitoring area; (B) is a diagram for explaining an active reporting unit that is monitored by the monitoring server when the degree of abnormality is high.
FIG. 9 is a flowchart showing an example of abnormality monitoring processing by a reporting unit.
FIG. 10 is a flowchart showing another example of the abnormality monitoring process by the reporting unit.
FIG. 11 is a flowchart showing still another example of abnormality monitoring processing by a reporting unit.
FIG. 12 is a flowchart illustrating an example of an abnormality monitoring process performed by a monitoring server.
FIG. 13 is a flowchart illustrating another example of the abnormality monitoring process performed by the monitoring server.
FIG. 14 is a flowchart showing still another example of abnormality monitoring processing by the monitoring server.
FIG. 15 is a block diagram illustrating a specific configuration example of a conventional monitoring notification system.
[Explanation of symbols]
1 Optical transmission network
2 reporting unit
3 Monitoring server
11 Monitor for monitoring
12 Abnormality judgment display monitor
21 Media Converter
22 routers
23 Camera server
24 Audio signal processor
25 Speaker section
26 microphone
27 Call switch
31 Environmental sound removal unit
32 Sound source direction estimation unit
33 Voice recognition unit
34 Abnormal feature sound database storage
35 Voice memory
36 Environmental characteristic sound database storage
37 VOIP processing section
41 Omnidirectional camera
42 Movable camera
43 Input sensor
51 Environmental image noise removal unit
52 Image recognition unit
53 Integrated direction detector
54 Feature Image Database Storage Unit
55 Image storage
56 Camera control unit
61 Object image extraction unit
62 Feature extraction unit
63 Movement direction estimation unit
64 Abnormal image similarity calculator
71 Monitoring area

Claims (1)

複数の通報ユニットと、当該通報ユニットにより生成した音声及び画像を監視者に提示する監視サーバとが通信回線を介して接続された監視通報システムにおいて、
前記各通報ユニットは、
監視対象を撮像して、画像データを生成する撮像手段と、
前記撮像手段周辺の音を集音して、音声データを生成する集音手段と、前記集音手段で生成された音声データから前記監視対象の状況を認識する音声認識手段と、少なくとも画像データ及び音声データを前記監視サーバとの間で通信し、前記音声認識手段により前記監視対象の状況に異常が発生したと判定した場合に、異常発生信号を前記監視サーバに送信する通信手段と、
前記監視サーバからの遠隔制御信号により前記撮像手段の撮像方向を制御する撮像制御手段とを備え、
前記監視サーバは、
前記通報ユニットとの間で通信をする通信手段と、
前記複数の通報ユニットの設置場所を示す設置場所データを記憶し、前記複数の通報ユニットから異常発生信号を受信した場合に、前記設置場所データを参照して異常が発生した複数の通報ユニットの設置場所を抽出し、異常が発生した前記通報ユニットの設置場所の順序に従って、前記監視対象の移動方向を認識する移動方向認識手段と、
前記異常発生信号を送信した通報ユニット、及び当該通報ユニットから前記移動方向認識手段により認識した移動方向に存在する通報ユニットの前記撮像手段に対する前記監視対象の方向を推定する方向推定手段と、
前記方向推定手段により推定した前記各通報ユニットの撮像手段の撮像方向を示す遠隔制御信号を前記各通報ユニットに送信するように前記通信手段を制御し、当該遠隔制御信号に従って前記撮像制御手段により撮像方向が制御された各通報ユニットの前記撮像手段により生成した画像データ、及び前記集音手段により生成した音声データを受信する監視制御手段とを備えることを特徴とする監視通報システム。
In a monitoring and reporting system in which a plurality of reporting units and a monitoring server that presents sound and images generated by the reporting unit to a monitor are connected via a communication line,
Each reporting unit is
Imaging means for imaging a monitoring target and generating image data;
Sound collecting means for collecting sound around the imaging means to generate sound data, sound recognition means for recognizing the status of the monitoring target from the sound data generated by the sound collecting means, at least image data, Communication means for communicating voice data with the monitoring server, and when the voice recognition means determines that an abnormality has occurred in the status of the monitoring target, a communication means for transmitting an abnormality occurrence signal to the monitoring server;
Imaging control means for controlling the imaging direction of the imaging means by a remote control signal from the monitoring server,
The monitoring server is
A communication means for communicating with the reporting unit;
The installation location data indicating the installation locations of the plurality of notification units is stored, and when an abnormality occurrence signal is received from the plurality of notification units, the installation of the plurality of notification units in which an abnormality has occurred with reference to the installation location data A moving direction recognition means for extracting the location and recognizing the moving direction of the monitoring target according to the order of the installation location of the reporting unit in which an abnormality has occurred;
A notification unit that transmits the abnormality occurrence signal, and a direction estimation unit that estimates a direction of the monitoring target with respect to the imaging unit of the notification unit that exists in the movement direction recognized by the movement direction recognition unit from the notification unit;
The communication unit is controlled to transmit a remote control signal indicating the imaging direction of the imaging unit of each notification unit estimated by the direction estimation unit to each notification unit, and imaging is performed by the imaging control unit according to the remote control signal. A monitoring and reporting system comprising: monitoring control means for receiving image data generated by the imaging means of each reporting unit whose direction is controlled, and audio data generated by the sound collecting means.
JP2003152826A 2003-05-29 2003-05-29 Monitoring and reporting system Expired - Fee Related JP4175180B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003152826A JP4175180B2 (en) 2003-05-29 2003-05-29 Monitoring and reporting system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003152826A JP4175180B2 (en) 2003-05-29 2003-05-29 Monitoring and reporting system

Publications (2)

Publication Number Publication Date
JP2004357014A JP2004357014A (en) 2004-12-16
JP4175180B2 true JP4175180B2 (en) 2008-11-05

Family

ID=34047942

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003152826A Expired - Fee Related JP4175180B2 (en) 2003-05-29 2003-05-29 Monitoring and reporting system

Country Status (1)

Country Link
JP (1) JP4175180B2 (en)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX2009001254A (en) * 2006-08-03 2009-02-11 Ibm Video surveillance system and method with combined video and audio recognition.
JP5084591B2 (en) * 2008-04-17 2012-11-28 Jx日鉱日石エネルギー株式会社 Anomaly detection device
JP4940205B2 (en) * 2008-09-05 2012-05-30 株式会社日立製作所 Monitoring system
KR101172747B1 (en) 2010-08-16 2012-08-14 한국표준과학연구원 Camera tracking monitoring system and method using thermal image coordinates
JP6682222B2 (en) 2015-09-24 2020-04-15 キヤノン株式会社 Detecting device, control method thereof, and computer program
CN110008359A (en) * 2019-03-11 2019-07-12 深圳警翼智能科技股份有限公司 A kind of lighting system, device and method
CN112396801A (en) * 2020-11-16 2021-02-23 苏州思必驰信息科技有限公司 Monitoring alarm method, monitoring alarm device and storage medium

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05145928A (en) * 1991-11-21 1993-06-11 Hitachi Zosen Corp Digital image transmitter
JPH0569641U (en) * 1992-02-27 1993-09-21 株式会社ケンウッド Acoustic measuring device
JP3043925B2 (en) * 1993-07-15 2000-05-22 東京電力株式会社 Moving object detection and determination device
JPH07212748A (en) * 1994-01-25 1995-08-11 Sony Corp Supervisory camera system
JP3711620B2 (en) * 1996-04-24 2005-11-02 松下電器産業株式会社 Image recording apparatus and monitoring apparatus
JP3812985B2 (en) * 1997-04-04 2006-08-23 富士通株式会社 Automatic monitoring device
JP2000083246A (en) * 1998-09-04 2000-03-21 Canon Inc Camera control system, camera control method, and recording medium stored with program to execute processing thereof
JP2000092368A (en) * 1998-09-09 2000-03-31 Canon Inc Camera controller and computer readable storage medium
JP4750927B2 (en) * 2000-06-30 2011-08-17 日本ネットワークサービス株式会社 Remote monitoring method and monitoring control server
JP2002247223A (en) * 2001-02-20 2002-08-30 Fujitsu General Ltd System and method for monitoring by utilizing cellular phone
JP2002281487A (en) * 2001-03-19 2002-09-27 Fujitsu General Ltd Monitoring method and monitoring system by network camera
JP2002344957A (en) * 2001-05-11 2002-11-29 Hitachi Kokusai Electric Inc Image monitoring system

Also Published As

Publication number Publication date
JP2004357014A (en) 2004-12-16

Similar Documents

Publication Publication Date Title
JP5043940B2 (en) Video surveillance system and method combining video and audio recognition
US20160148057A1 (en) Camera system and operating method of the same
US20060227237A1 (en) Video surveillance system and method with combined video and audio recognition
CN102737480B (en) Abnormal voice monitoring system and method based on intelligent video
JP6344383B2 (en) Behavior analysis device, behavior analysis method, and behavior analysis program
JP6135880B2 (en) Audio processing method, audio processing system, and storage medium
CN111601074A (en) Security monitoring method and device, robot and storage medium
KR101899436B1 (en) Safety Sensor Based on Scream Detection
KR101687296B1 (en) Object tracking system for hybrid pattern analysis based on sounds and behavior patterns cognition, and method thereof
KR101485022B1 (en) Object tracking system for behavioral pattern analysis and method thereof
JP5970232B2 (en) Evacuation information provision device
WO2011025460A1 (en) Method and system for event detection
JP2007251556A (en) Monitoring apparatus and method, image processing apparatus and method, and program
KR101384781B1 (en) Apparatus and method for detecting unusual sound
JP3632099B2 (en) Robot audio-visual system
CN110634506A (en) Voice data processing method and device
JP4175180B2 (en) Monitoring and reporting system
KR101794260B1 (en) safety light and safety system using voice recognition
WO2015151130A1 (en) Sound processing apparatus, sound processing system, and sound processing method
KR102293450B1 (en) Apparatus for monitoring metallic foreign object impact and method thereof
KR101882309B1 (en) safety light and safety system using voice recognition
KR102034176B1 (en) Emergency Situation Perception Method by Voice Recognition, and Managing Server Used Therein
KR100902275B1 (en) Cctv system for intelligent security and method thereof
KR101520446B1 (en) Monitoring system for prevention beating and cruel act
KR102319687B1 (en) Surveillance system adopting wireless acoustic sensors

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080509

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080707

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080729

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080811

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110829

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110829

Year of fee payment: 3

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110829

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120829

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130829

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees