JP2009201014A

JP2009201014A - 要約文作成装置及び要約文作成方法

Info

Publication number: JP2009201014A
Application number: JP2008042828A
Authority: JP
Inventors: Takuo Moriguchi; 拓雄森口; Takehiro Mabuchi; 健宏馬渕; Satoshi Futami; 聡二見; Masaki Murakawa; 正貴村川
Original assignee: Sohgo Security Services Co Ltd
Current assignee: Sohgo Security Services Co Ltd
Priority date: 2008-02-25
Filing date: 2008-02-25
Publication date: 2009-09-03

Abstract

【課題】画像情報に基づき正確な文字情報を生成することができ、警備の品質向上を実現可能な、要約文作成装置及び要約文作成方法の提供である。
【解決手段】所定の領域における物体の画像情報を記憶する第１記憶手段と、物体の動作状態を表す情報で動作の種類を表す動詞と動作に関連する名詞である格要素とを含み、動詞と格要素の間の意味関係を示す深層格で、物体の動作の種類を意味する行動名と、動作主体を表す動作主格とを深層格として有する深層格フレームを記憶可能な第２記憶手段１６０と、画像情報を解析して動作状態を抽出し、行動名と動作主格とを生成して深層格フレームに登録する言語構造構築手段１３９と、深層格フレームから行動名と動作主格とを取得し、行動名を動詞にし、動作主格を主語にした自然言語文を生成し、画像情報の要約文を生成する要約文作成手段１４０とを備えた要約文作成装置である。
【選択図】図１

Description

本発明は、監視カメラによって撮像された監視領域の画像から生成された画像情報に含まれる行動者の画像情報に基づいて、言語情報である要約文を作成する要約文作成装置及び要約文作成方法に関するものである。

従来、映像等の動画画像や静止画像等の画像を解析することにより、被写体の位置や速度等を表す画像情報を生成し、画像情報に基づいて文字情報を生成する技術が知られている。昨今においては、交通状況を監視する監視カメラによって撮影された車両の映像情報から車両速度等の異常事象を文字情報として検出する監視システムが提供されている（例えば、特許文献１参照）。

この種の監視システムによれば、映像情報と、渋滞等の異常事象か否かを判定する判定情報と、監視員がその判定に対して正しく検出したかの判定結果評価情報とを、文字情報としてログテーブルに記憶し、必要に応じて記憶した評価結果情報と映像情報とを照合し、判定情報を分析することができる。これにより、分析結果に応じて適宜画像信号処理のアルゴリズムや動作パラメータを調整することにより、異常事象検出の正答率を向上させることが可能である。

特開２００５−１７６０７７号公報

しかしながら、特許文献１に記載の技術によれば、映像情報に基づいて判定結果評価情報を生成するには、映像情報から被写体の位置を示す属性情報を画像情報として抽出し、抽出した画像情報から走行速度を算出することにより、文字情報である判定結果評価情報を生成して行う。ここで、算出された数値データとしての走行速度から、車両速度が速い異常事象であるか、通常走行であるか、いずれに該当するか判断を文字情報として生成しようとすると、正確で緻密な文字情報を生成することができない虞れがある。

本発明は、上記に鑑みてなされたものであって、画像情報に基づき正確な文字情報を生成することができ、警備の品質向上を実現することが可能な、要約文作成装置及び要約文作成方法を提供することを目的とする。

上述した課題を解決し、目的を達成するために、請求項１にかかる発明は、要約文作成装置であって、撮像手段によって撮像された所定の領域における物体の画像情報を記憶する第１記憶手段と、物体の動作状態を表す情報であって、前記物体の動作の種類を表す動詞と前記物体の動作に関連する名詞である格要素とを含み、前記動詞と前記格要素との間の意味関係を示す深層格であって、少なくとも、前記物体の動作の種類を意味する行動名と、前記動作の主体を表す動作主格とを深層格として有する深層格フレームを記憶可能な第２記憶手段と、前記画像情報を解析して物体の動作状態を抽出し、抽出した動作状態を表す前記行動名と前記動作主格とを生成して前記深層格フレームに登録する言語構造構築手段と、前記深層格フレームから、前記行動名と前記動作主格とを取得し、前記行動名を動詞にするとともに、前記動作主格を主語にした自然言語文を生成することにより、前記画像情報の要約文を作成する要約文作成手段とを備えたことを特徴とする。

また、請求項２にかかる発明は、請求項１に記載の要約文作成装置であって、前記深層格フレームは、さらに、前記動作が開始された位置を表す源泉格と、前記動作が終了された位置を表す目標格とを深層格として有し、前記言語構造構築手段は、さらに、前記源泉格と前記目標格とを生成して前記深層格フレームに登録し、前記要約文作成手段は、さらに、前記深層格フレームから前記源泉格と前記目標格とを取得し、前記行動名が移動を示す場合に、前記移動の始点を前記源泉格とし、前記移動の終点を前記目標格とした自然言語文を生成することにより、前記画像情報の要約文を作成することを特徴とする。

また、請求項３にかかる発明は、請求項１に記載の要約文作成装置であって、前記深層格フレームは、さらに、前記動作が行われた場所である場所格を深層格として有し、前記言語構造構築手段は、さらに、前記場所格を生成して前記深層格フレームに登録し、前記要約文作成手段は、さらに、前記深層格フレームから前記場所格を取得し、前記行動名がしゃがみを示す場合に、しゃがんだ場所を前記場所格とした自然言語文を生成することにより、前記画像情報の要約文を作成することを特徴とする。

また、請求項４にかかる発明は、請求項１に記載の要約文作成装置であって、前記第２記憶手段は、さらに、前記動作が開始された時刻である動作開始時刻と、前記動作が終了した時刻である動作終了時刻とを表す時間格を深層格として有する深層格フレームを記憶可能であって、前記言語構造構築手段は、さらに、前記時間格を生成して前記深層格フレームに登録し、前記要約文作成手段は、さらに、前記深層格フレームから前記時間格を取得し、前記行動名が移動を示す場合に、前記動作開始時刻と前記動作終了時刻とを前記時間格とした自然言語文を生成することにより、前記画像情報の要約文を作成することを特徴とする。

また、請求項５にかかる発明は、請求項１〜４のいずれか１つに記載の要約文作成装置であって、前記第２記憶手段は、さらに、前記動作主格の身長高、体型、顔情報等を表す属性格を深層格として有する深層格フレームを記憶可能であって、前記言語構造構築手段は、さらに、前記属性格を生成して前記深層格フレームに登録し、前記要約文作成手段は、さらに、前記深層格フレームから前記属性格を取得し、前記動作主格の身長、体型、顔情報等を前記属性格とした自然言語文を生成することにより、前記画像情報の要約文を作成することを特徴とする。

また、請求項６にかかる発明は、請求項１〜５のいずれか１つに記載の要約文作成装置であって、前記第２記憶手段は、動作の種類が複数ある場合に、主たる動作に付随して行われる動作である副行動を深層格として有する深層格フレームを記憶可能であって、前記言語構造構築手段は、さらに、前記副行動を生成して前記深層格フレームに登録し、前記要約文作成手段は、さらに、前記深層格フレームから前記副行動を取得し、前記行動名と前記副行動とを前記動詞とした自然言語文を生成することにより、前記画像情報の要約文を作成することを特徴とする。

また、請求項７にかかる発明は、請求項６に記載の要約文作成装置であって、前記深層格フレームは、さらに、前記動作が開始された位置を表す源泉格と、前記動作が終了された位置を表す目標格とを深層格として有し、前記言語構造構築手段は、さらに、前記源泉格と前記目標格とを生成して前記深層格フレームに登録し、前記要約文作成手段は、さらに、前記深層格フレームから前記源泉格と前記目標格とを取得し、前記副行動が振り向くを示す場合に、前記副行動の始点を前記源泉格とし、前記副行動の終点を前記目標格とした自然言語文を生成することにより、前記画像情報の要約文を作成すること、を特徴とする。

また、請求項８にかかる発明は、撮像手段によって撮像された所定の領域における物体の画像情報の要約文を作成する要約文作成装置で実行される要約文作成方法であって、前記要約文作成装置は、前記画像情報を記憶する第１記憶手段と、物体の動作状態を表す情報であって、前記物体の動作の種類を表す動詞と前記物体の動作に関連する名詞である格要素とを含み、前記動詞と前記格要素との間の意味関係を示す深層格であって、少なくとも、前記物体の動作の種類を意味する行動名と、前記動作の主体を表す動作主格とを深層格として有する深層格フレームを記憶可能な第２記憶手段と、を備え、前記画像情報を解析して物体の動作状態を抽出し、抽出した動作状態を表す前記行動名と前記動作主格を生成して前記深層格フレームに登録する言語構造構築ステップと、前記深層格フレームから、前記行動名及び前記動作主格とを取得し、前記行動名を動詞にするとともに、前記動作主格を主語にした自然言語文を生成することにより、前記画像情報の要約文を作成する要約文作成ステップとを含むことを特徴とする。

本発明によれば、監視カメラによって撮影した画像情報から、動作状態等を抽出して深層格を作成し、深層格に基づいて自然言語文を生成し、要約文を作成する。従って、画像情報に基づいて正確に文字情報を生成することが可能になるとともに、格情報を文書キーワードとして用いることにより、必要に応じた画像検索が容易となり、警備の品質向上を実現することができるという効果を奏する。

以下に添付図面を参照して、この発明にかかる要約文作成装置（警備装置）及び要約文作成方法の最良な実施の形態を詳細に説明する。なお、本発明はこれらの実施の形態に限定されるものではない。なお、以下では、監視カメラや各種センサからの情報を用いて所定領域を警備する警備装置１３０として要約文作成装置を実現した例について説明する。適用可能な装置は警備装置に限られず、画像情報を解析して深層格フレームを作成するとともに、深層格に基づいて自然言語文を生成し、要約文を作成する機能を備える装置であればあらゆる装置に適用できる。

（実施の形態１）
図１は、実施の形態１にかかる警備システム１００の構成を示すブロック図である。警備装置（要約文作成装置）１３０は、ネットワーク３００を介して監視センタ２００に接続されている。ネットワーク３００は、電話回線、無線ネットワーク、インターネット等である。

本実施の形態における警備装置１３０は、警備対象である監視領域（不図示）を撮像する監視カメラ１２０によって撮像された監視領域の画像から、人物領域抽出処理等を行うことにより深層格を作成し、深層格に基づいて自然言語文を生成し、要約文を作成するものである。

監視センタ２００は、監視領域の異常を検知した警備装置１３０からの通報を受け、待機中の警備員に対して異常が検知された監視領域（不図示）へ向かう旨の支持を出すとともに、必要に応じて警察や消防等の関係機関への通報を行うセンタである。

次に、警備装置（要約文作成装置）１３０の詳細について説明する。実施の形態１にかかる警備装置１３０は、センサ１１０と、監視カメラ１２０と、検知情報受信部１３１と、画像処理部１３２と、警備状態切換部１３３と、操作パネル制御部１３４と、操作パネル１３５と、出力部１３６と、送受信部１３７と、警備状態記憶部１３８と、言語構造構築部（言語構造構築手段）１３９と、要約文作成部（要約文作成手段）１４０と、映像データベース１５１を記憶する第１記憶部（第１記憶手段）１５０と、言語情報データベース１６１を記憶する第２記憶部（第２記憶手段）１６０とを備えている。

センサ１１０は、警備対象である監視領域に設置されており、主に侵入者等の異常を検知する目的で設置された人感センサであり、たとえば赤外線の受光量の変化をもとに人の存在を検出する赤外線センサ、赤外線等の受信が遮断されることで人の存在を検出する遮断センサ、電磁波の乱れで人の存在を検知する電波センサ、およびマグネットにより扉の開閉を検出するマグネットセンサなどの監視領域の異常を検出する各種センサが該当し、人の存在や扉の開閉を検知した場合に検知信号を出力する。

監視カメラ１２０は、警備対象である監視領域を撮像するものであり、主に監視領域として住居の出入口付近や敷地内への出入口付近に設置されている。

検知情報受信部１３１は、センサ１１０によって異常が検知された場合に送出される検知情報を受信する。検知情報は、センサ１１０から送出される検知信号であり、センサ１１０が複数設置されている場合は、検知信号およびセンサを識別するセンサＩＤである。

画像処理部１３２は、監視カメラ１２０によって撮像された画像を受信し、所定の画像処理を行って画像情報を生成し、画像データを映像データベース１５１に登録する。所定の画像処理とは、例えばγ補正処理や像域分離処理、フィルタ処理等である。

警備状態切替部１３３は、操作パネル制御部１３４によって受付けた警備状態を警備状態記憶部１３８に格納する。警備状態記憶部１３８は、現在の警備装置１３０の警備状態である警備モードまたは警備解除モードのいずれかを記憶する。

ここで、警備モードとは、センサ１１０が異常を検知して検知情報を取得した場合に、監視領域での異常を知らせる警報情報をネットワーク３００で接続されている監視センタ２００に送信する状態をいい、警備解除モードとは、上記検知情報を取得した場合でも異常を知らせる警報情報を監視センタ２００に送信しない状態をいう。

操作パネル１３５は、警備装置１３０に関する情報が表示され、警備装置１３０に対して情報が入力される。操作パネル１３５は、ボタンの押下等によって警備モードまたは警備解除モードのいずれかの警備状態を入力する。操作パネル制御部１３４は、操作パネル１３５への表示情報の出力や、操作パネル１３５から入力された入力情報の取得等の操作パネル１３５に対する制御を行う。操作パネル１３５は、本発明にかかる警備設定手段を構成する。

送受信部１３７は、監視センタ２００とネットワーク３００を介して各種情報を送受信する。また、送受信部１３７は、センサ１１０から検知情報を受信した場合で、かつ警備状態記憶部１３８に記憶された現在の警備状態に警備モードが記憶されている場合に、警報情報を監視センタ２００に送信する。

第１記憶部（第１記憶手段）１５０は、映像データベース１５１を記憶するメモリ、ＨＤＤ等の記憶媒体である。映像データベース１５１は、画像処理部１３２によって生成された画像情報を蓄積するデータベースである。

第２記憶部（第２記憶手段）１６０は、言語情報データベース１６１を記憶するメモリ、ＨＤＤ等の記憶媒体である。言語情報データベース１６１は、物体の動作状態を深層格フレーム構造で表した状態情報を記憶する。深層格フレームとは、動詞を基準として、動詞に対する名詞の意味関係を深層格として表した言語構造をいう。

なお、言語構造構築部１３９、要約文作成部１４０、第１記憶部１５０、第２記憶部１６０等を監視センタ２００に設け、センサ１１０や監視カメラ１２０で得られた情報を監視センタ２００に送り、要約文作成を監視センタで行うように構成してもよい。

図２は、言語情報データベース１６１に記憶される深層格のデータ構造の一例を示す図である。図２に示すように、状態情報は、格フレームを識別する格フレームＩＤと、動作（行動）の種類を表す行動名と、動作に関連する名詞である格要素（深層格）とを含んでいる。深層格には、主格、属性格、場所格、時間格、源泉格、目標格、対象格、および道具格が含まれる。

主格は、動作を引き起こす主体を表す。属性格は、主格に関する情報をいう。例えば、属性格は、身長高、体型、上半身色、下半身色、頭色、顔情報、および歩容情報等を含む。

顔情報および歩容情報は、さらに詳細な要素に分けられる。例えば、顔情報は、顔の特徴を表す顔特徴、視線方向、マスクの有無、サングラスの有無、性別、および年代などの要素を含む。また、歩容情報は、歩幅、姿勢、脚長、および歩速などの要素を含む。

場所格は、動作や状態が起こる場所を表す。例えば、場所格は、頭部位置、体位置、手位置、顔位置、および脚部位置等を含む。

時間格は、動作や状態が起こる時間を表す。例えば、時間格は、現在時刻を表す時刻、動作が開始された時刻を表す動作開始時刻、動作が終了した時刻を表す動作終了時刻、および年月日等を表す。

源泉格は、移動や状態変化などの起点を表す。例えば、源泉格は、主格が移動や動作等を行う起点の位置を表す場所情報、および起点での主格の属性を表す属性情報を含む。

目標格は、移動や状態変化などの終点を表す。例えば、目標格は、主格が移動や動作等を行う終点の位置を表す場所情報、および終点での主格の属性を表す属性情報を含む。

対象格は、動作や状態の対象となる事物を表す。対象格は、固有の識別情報である対象ＩＤ、および固有の情報である属性情報を含む。

道具格は、動作の補助的手段を表す。道具格は、固有の識別情報である道具ＩＤ、および固有の情報である属性情報を含む。

なお、利用できる深層格はこれらに限られず、例えば精神的事象の経験者を表す経験者格などの、その他のあらゆる深層格を用いることができる。

図３は、実施の形態１にかかる言語情報データベース１６１に登録された深層格のデータ構造の一例を示す図である。図３は、人物Ａ（主格）が、「しゃがむ」という行動を検出したときに生成される状態情報の一例を示している。この場合、属性格には、人物Ａの身長高、体型などの具体的な値が設定される。また、場所格および時間格には、それぞれ人物Ａがしゃがんだときの位置や時刻に関する具体的な値が設定される。

図１に戻り、言語構造構築部１３９（言語構造構築手段）は、第１記憶部１５０に格納される映像データベース１５１から取得した画像情報を解析することにより、画像情報から物体の動作状態を検出する。また、言語構造構築部１３９は、検出した動作状態を表す行動名、動作主格等の深層格を生成し、深層格フレームを蓄積する言語情報データベース１６１に登録する。

言語構造構築部１３９は、例えば画像情報から人物領域を抽出することにより、人物が「存在する」という動作状態を検出する。また、言語構造構築部１３９は、検出した人物の視線方向を検出することにより、当該人物の「見る」という動作状態を検出する。また、言語構造構築部１３９は、人物以外の他の物体を画像情報から抽出し、抽出した物体が新たに現れた場合には「取り出す」という動作状態を、抽出した物体が以前から存在し、人物の手の位置と重なった場合には「触る」という動作状態を検出する。

なお、言語構造構築部１３９が人物または物体を抽出する方法としては、連続する画像情報の背景を比較することにより抽出した変動領域を人物領域とする方法や、人物パターンまたは物体パターンと照合することにより人物または物体を抽出する方法などの、従来から用いられているあらゆる方法を適用できる。また、言語構造構築部１３９が人物の視線方向を検出する方法としては、顔領域パターンと照合することにより顔領域を抽出するとともに視線方向を検出する方法などの従来から用いられているあらゆる方法を適用できる。

要約文作成部（要約文作成手段）１４０は、言語情報データベース１６１に蓄積される深層格フレームから、行動名、動作主格等の深層格を取得する。そして、取得した深層格である行動名を動詞に設定し、動作主格を主語に設定することにより、自然言語文を生成し、要約文を作成する。なお、要約文作成部１４０の要約文作成処理の手順については後述する。出力部１３６は、例えば液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）等の出力装置である。出力部１３６は、要約文作成部１４０によって作成された要約文を画面上に表示し出力する。

次に、以上のように構成された本実施の形態にかかる警備装置１３０による画像からの動作検出処理について図４を用いて説明する。画像からの動作検出処理とは、監視カメラ１２０で撮影された画像情報から人物等の動作（行動）を検出する処理をいう。図４は、実施の形態１における画像からの動作検出処理の全体の流れを示すフローチャートである。

まず、画像処理部１３２は、監視カメラ１２０が撮影した画像を受信して画像処理を行うことにより画像情報を生成して入力する（ステップＳ４０１）。次に、言語構造構築部１３９は、画像情報から人物領域を抽出し（ステップＳ４０２）、人物領域が抽出されたか否かを判断する（ステップＳ４０３）。人物領域が検出されなかった場合は（ステップＳ４０３：Ｎｏ）、画像処理部１３２は次の画像情報を入力して処理を繰り返す（ステップＳ４０２）。

人物領域が検出された場合（ステップＳ４０３：Ｙｅｓ）、言語構造構築部１３９は、行動名＝「存在する」の深層格フレームを作成する（ステップＳ４０４）。なお、作成した深層格フレームの格フレームＩＤには、他の深層格フレームと重複しない値を割り当てる。

次に、言語構造構築部１３９は、検出した人物領域の各部位の検出位置を場所格へ格納する（ステップＳ４０５）。例えば、言語構造構築部１３９は、検出した人物領域に含まれる頭部、体、手、顔、および脚部の座標を算出し、それぞれ頭部位置、体位置、手位置、顔位置、および脚部位置として場所格に格納する。なお、人物領域の各部位は、部位ごとの照合パターンと照合して検出する方法などの従来から用いられているあらゆる方法により検出できる。

言語構造構築部１３９は、ステップＳ４０４〜ステップＳ４０５と並行して、人物同定処理（ステップＳ４０６〜ステップＳ４０７）、顔検出処理（ステップＳ４０８〜ステップＳ４１０）、体型判定処理（ステップＳ４１１〜ステップＳ４１２）、および歩容検出処理（ステップＳ４１３〜ステップＳ４１４）の各処理を実行する。なお、これらの各処理は必ずしも並行して処理する必要はなく、任意の順序で実行するように構成することができる。

人物同定処理では、言語構造構築部１３９は、抽出済みの人物領域と照合する方法などにより、抽出された人物を同定する（ステップＳ４０６）。そして、言語構造構築部１３９は、同定した人物に既に割り当てられているＩＤを、作成した深層格フレームの動作主格に格納する（ステップＳ４０７）。

顔検出処理では、言語構造構築部１３９は、顔領域パターンと照合する方法などによって顔領域を検出する（ステップＳ４０８）。また、言語構造構築部１３９は、照合結果に応じて、視線方向、マスクの有無、およびサングラスの有無などの顔情報を属性格に格納する（ステップＳ４０９）。視線方向が検出された場合は、言語構造構築部１３９は、行動名＝「見る」の深層格フレームを作成する（ステップＳ４１０）。

体型判定処理では、言語構造構築部１３９は、照合した人物パターンに予め付与された体型を求める方法などにより、検出した人物の体型を判定する（ステップＳ４１１）。そして、言語構造構築部１３９は、判定した体型を、作成した深層格フレームの属性格に格納する（ステップＳ４１２）。

歩容検出処理では、言語構造構築部１３９は、主に検出した人物領域の脚部を解析することにより、歩速、歩幅、脚長、姿勢などの歩容情報を検出する（ステップＳ４１３）。歩速は、例えば連続する画像情報の脚部の位置を比較することにより算出することができる。そして、言語構造構築部１３９は、検出した歩容情報を、作成した深層格フレームの属性格に格納する（ステップＳ４１４）。

次に、言語構造構築部１３９は、画像情報から物体を検出する（ステップＳ４１５）。なお、物体検出処理は、人物領域検出処理（ステップＳ４０２）とともに実行してもよい。

次に、言語構造構築部１３９は、物体が検出されたか否かを判断する（ステップＳ４１６）。物体が検出された場合（ステップＳ４１６：Ｙｅｓ）、言語構造構築部１３９は、物体が前の画像情報で検出されていたか否か、および物体と人物領域の位置関係に応じて、行動名＝「触る」または「取り出す」の深層格フレームを作成する（ステップＳ４１７）。

具体的には、言語構造構築部１３９は、前の画像情報で検出された物体と照合することなどにより、物体が既に検出されていると判断でき、かつ、人物の手の位置と物体の位置とが重なると判断できる場合は、行動名＝「触る」の深層格フレームを新たに作成する。また、言語構造構築部１３９は、未検出の物体が新たに検出されたと判断でき、かつ、人物の手の位置と物体の位置とが重なると判断できる場合は、行動名＝「取り出す」の深層格フレームを新たに作成する。

ステップＳ４１６で物体が検出されなかったと判断された場合（ステップＳ４１６：Ｎｏ）、またはステップＳ４１７で新たな深層格フレームを作成後、言語構造構築部１３９は、これまでに作成した深層格フレームを言語情報データベース１６１に保存し（ステップＳ４１８）、画像からの動作検出処理を終了する。

次に、以上のように構成された本実施の形態にかかる警備装置１３０における要約文作成処理について図５〜７を用いて説明する。図５は、実施の形態１にかかる警備装置１３０における要約文作成処理の手順を示すフローチャートである。図６は、映像データベース１５１に記憶されている画像情報を示す図である。図７は、言語情報データベース１６１に保存された深層格フレームを示す図である。

図６に例示する画像情報は動画であって、人物Ａが図６において左方から右方に向かって歩いて移動し、右方で停止し、振り向いて再び左方に向かって歩いて移動している状態を示している。言語構造構築部１３９は、図６で例示した画像情報に基づいて図４で説明した処理を行って深層格フレームを作成する。図７では、この画像情報に基づいて作成された深層格フレームを例示する。例えば、行動名「移動する」、動作主格は「Ａ」、属性格は、「身長高１７５ｃｍの痩せ型」、源泉格「Ｐ０」、目標格「Ｐ１」、時間格として動作開始時刻「２００７年１１月１２日１４時３分１０秒」、動作終了時刻「２００７年１１月１２日１４時３分５５秒」、副行動「振り向く」、副行動についての源泉格「θ０」、目標格「θ１」である。図５の説明において、図６の動画から図７の深層格フレームが生成されていることを前提に説明する。

要約文作成部１４０は、言語情報データベース１６１に登録されている上述の深層格フレームを読み込み（ステップＳ５０１）、動作主格、行動名、源泉格、目標格、場所格等の格要素を取得する。次に、要約文作成部１４０は、動作主格「Ａ」を自然言語文の主語に設定し（ステップＳ５０２）、行動名が「移動する」であるか否かを判断する（ステップＳ５０３）。取得した行動名が「移動する」であると判断された場合は、（ステップＳ５０３；Ｙｅｓ）、要約文作成部１４０は「移動した」を自然言語文の動詞に設定する（ステップＳ５０４）。次に、要約文作成部１４０は、動詞である移動の始点に源泉格「Ｐ０」を設定し（ステップＳ５０５）、移動の終点に目標格「Ｐ１」を設定する（ステップＳ５０６）。次に、要約文作成部１４０は、主語「Ａ」、動詞「移動した」、動詞の始点「Ｐ０」、動詞の終点「Ｐ１」とする自然言語文を生成する（ステップＳ５０７）。そして、生成した自然言語文から「ＡがＰ０からＰ１に移動した」を画像情報の要約文として出力する（ステップＳ５０８）。

一方、ステップＳ５０３において、取得した行動名が「移動する」でないと判断された場合には、（ステップＳ５０３；Ｎｏ）、次に、要約文作成部１４０は取得した行動名が「しゃがみ」であるか否かを判断する（ステップＳ５０９）。取得した行動名が「しゃがみ」であると判断された場合は（ステップＳ５０９；Ｙｅｓ）、要約文作成部１４０は「しゃがんだ」を自然言語文の動詞に設定する（ステップＳ５１０）。次に、「しゃがみ」が行われた場所に場所格の脚部「Ｐ０」を設定する（ステップＳ５１１）。次に、要約文作成部１４０は、主語「Ａ」、動詞「しゃがんだ」、動作場所「Ｐ０」とする自然言語文を生成する（ステップＳ５１２）。そして、生成した自然言語文から「ＡがＰ０でしゃがんだ」を画像情報の要約文として出力する（ステップＳ５１３）。尚、ステップＳ５０９において、要約文作成部１４０が、取得した行動名が「しゃがみ」でないと判断した場合は（ステップＳ５０９；Ｎｏ）、動詞に設定すべき行動名を他の行動名から検索する。

なお、要約文作成部１４０は、図７に示す深層格フレームから属性格である身長高、体型、顔情報等を取得し、上述したステップＳ５０１〜Ｓ５１３の処理を行って、身長「１７５ｃｍ」、体型「痩せ型」、顔情報「マスク無し、サングラス無し」等、動作主格Ａの特徴を現す情報を主語「Ａ」に付加した自然言語文を生成することとしてもよい。

また、要約文作成部１４０は、図７に示す深層格フレームから副行動を取得し、上述したステップＳ５０１〜Ｓ５１３の処理を行って、動詞「移動する」に副行動「振り向く」を付加した自然言語文を生成することとしてもよい。さらに、要約文作成部１４０は、図７に示す深層格フレームから、源泉格と目標格とを取得し、副行動「振り向く」について視線方向の始点「θ０」、視線方向の終点「θ１」を付加した自然言語文を生成することとしてもよい。

このように、実施の形態１にかかる警備装置１３０は、画像情報について、物体の動作の種類を意味する行動名や動作の主体を表す動作主格等である深層格を生成し、深層格に基づいて自然言語文を生成し、要約文を出力する。従って、画像情報に基づいて正確に文字情報を生成することが可能となるとともに、格情報を文書キーワードとして用いることにより、必要に応じた画像検索を容易にし、警備の品質向上を実現することが可能となる。

以上、実施の形態１にかかる警備装置（要約文作成装置）１３０及び要約文作成方法について説明したが、上述した実施の形態に多様な変更又は改良を加えることができる。

実施の形態１にかかる警備システム１００の構成を示すブロック図である。実施の形態１にかかる言語情報データベース１６１に記憶される深層格のデータ構造の一例を示す図である。実施の形態１にかかる言語情報データベース１６１に登録された深層格のデータ構造の一例を示す図である。実施の形態１における画像からの動作検出処理の全体の流れを示すフローチャートである。実施の形態１にかかる要約文作成装置１３０における要約文作成処理の手順を示すフローチャートである。映像データベース１５１に記憶されている画像情報を示す図である。言語情報データベース１６１に保存された深層格フレームを示す図である。

符号の説明

１００警備システム
１１０センサ
１２０監視カメラ
１３０警備装置
１３１検知情報受信部
１３２画像処理部
１３３警備状態切替部
１３４操作パネル制御部
１３５操作パネル
１３６出力部
１３７送受信部
１３８警備状態記憶部
１３９言語構造構築部
１４０要約文作成部
１５０第１記憶部
１５１映像データベース
１６０第２記憶部
１６１言語情報データベース
２００監視センタ
３００ネットワーク

Claims

撮像手段によって撮像された所定の領域における物体の画像情報を記憶する第１記憶手段と、
物体の動作状態を表す情報であって、前記物体の動作の種類を表す動詞と前記物体の動作に関連する名詞である格要素とを含み、前記動詞と前記格要素との間の意味関係を示す深層格であって、少なくとも、前記物体の動作の種類を意味する行動名と、前記動作の主体を表す動作主格とを深層格として有する深層格フレームを記憶可能な第２記憶手段と、
前記画像情報を解析して物体の動作状態を抽出し、抽出した動作状態を表す前記行動名と前記動作主格とを生成して前記深層格フレームに登録する言語構造構築手段と、
前記深層格フレームから、前記行動名と前記動作主格とを取得し、前記行動名を動詞にするとともに、前記動作主格を主語にした自然言語文を生成することにより、前記画像情報の要約文を作成する要約文作成手段と、を備えたことを特徴とする要約文作成装置。
前記深層格フレームは、さらに、前記動作が開始された位置を表す源泉格と、前記動作が終了された位置を表す目標格とを深層格として有し、
前記言語構造構築手段は、さらに、前記源泉格と前記目標格とを生成して前記深層格フレームに登録し、
前記要約文作成手段は、さらに、前記深層格フレームから前記源泉格と前記目標格とを取得し、前記行動名が移動を示す場合に、前記移動の始点を前記源泉格とし、前記移動の終点を前記目標格とした自然言語文を生成することにより、前記画像情報の要約文を作成すること、を特徴とする請求項１に記載の要約文作成装置。
前記深層格フレームは、さらに、前記動作が行われた場所である場所格を深層格として有し、
前記言語構造構築手段は、さらに、前記場所格を生成して前記深層格フレームに登録し、
前記要約文作成手段は、さらに、前記深層格フレームから前記場所格を取得し、前記行動名がしゃがみを示す場合に、しゃがんだ場所を前記場所格とした自然言語文を生成することにより、前記画像情報の要約文を作成すること、を特徴とする請求項１に記載の要約文作成装置。
前記第２記憶手段は、さらに、前記動作が開始された時刻である動作開始時刻と、前記動作が終了した時刻である動作終了時刻とを表す時間格を深層格として有する深層格フレームを記憶可能であって、
前記言語構造構築手段は、さらに、前記時間格を生成して前記深層格フレームに登録し、
前記要約文作成手段は、さらに、前記深層格フレームから前記時間格を取得し、前記行動名が移動を示す場合に、前記動作開始時刻と前記動作終了時刻とを前記時間格とした自然言語文を生成することにより、前記画像情報の要約文を作成すること、を特徴とする請求項１に記載の要約文作成装置。
前記第２記憶手段は、さらに、前記動作主格の身長高、体型、顔情報等を表す属性格を深層格として有する深層格フレームを記憶可能であって、
前記言語構造構築手段は、さらに、前記属性格を生成して前記深層格フレームに登録し、
前記要約文作成手段は、さらに、前記深層格フレームから前記属性格を取得し、前記動作主格の身長、体型、顔情報等を前記属性格とした自然言語文を生成することにより、前記画像情報の要約文を作成すること、を特徴とする請求項１〜４のいずれか１つに記載の要約文作成装置。
前記第２記憶手段は、動作の種類が複数ある場合に、主たる動作に付随して行われる動作である副行動を深層格として有する深層格フレームを記憶可能であって、
前記言語構造構築手段は、さらに、前記副行動を生成して前記深層格フレームに登録し、
前記要約文作成手段は、さらに、前記深層格フレームから前記副行動を取得し、前記行動名と前記副行動とを前記動詞とした自然言語文を生成することにより、前記画像情報の要約文を作成すること、を特徴とする請求項１〜５のいずれか１つに記載の要約文作成装置。
前記深層格フレームは、さらに、前記動作が開始された位置を表す源泉格と、前記動作が終了された位置を表す目標格とを深層格として有し、
前記言語構造構築手段は、さらに、前記源泉格と前記目標格とを生成して前記深層格フレームに登録し、
前記要約文作成手段は、さらに、前記深層格フレームから前記源泉格と前記目標格とを取得し、前記副行動が振り向くを示す場合に、前記副行動の始点を前記源泉格とし、前記副行動の終点を前記目標格とした自然言語文を生成することにより、前記画像情報の要約文を作成すること、を特徴とする請求項６に記載の要約文作成装置。
撮像手段によって撮像された所定の領域における物体の画像情報の要約文を作成する要約文作成装置で実行される要約文作成方法であって、
前記要約文作成装置は、前記画像情報を記憶する第１記憶手段と、
物体の動作状態を表す情報であって、前記物体の動作の種類を表す動詞と前記物体の動作に関連する名詞である格要素とを含み、前記動詞と前記格要素との間の意味関係を示す深層格であって、少なくとも、前記物体の動作の種類を意味する行動名と、前記動作の主体を表す動作主格とを深層格として有する深層格フレームを記憶可能な第２記憶手段と、を備え、
前記画像情報を解析して物体の動作状態を抽出し、抽出した動作状態を表す前記行動名と前記動作主格を生成して前記深層格フレームに登録する言語構造構築ステップと、
前記深層格フレームから、前記行動名及び前記動作主格とを取得し、前記行動名を動詞にするとともに、前記動作主格を主語にした自然言語文を生成することにより、前記画像情報の要約文を作成する要約文作成ステップと、
を含むことを特徴とする要約文作成方法。