JP7119912B2

JP7119912B2 - 行動認識方法、行動認識プログラムおよび行動認識装置

Info

Publication number: JP7119912B2
Application number: JP2018205097A
Authority: JP
Inventors: 勉石田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2022-08-17
Anticipated expiration: 2038-10-31
Also published as: JP2020071665A

Description

本発明は、行動認識方法、行動認識プログラムおよび行動認識装置に関する。

商業施設や空港などに設置された数十台から数百台の監視カメラの画像から、不審な動きなどの特定の行動を認識する認識モデル（学習モデル）を用いて、特定の行動を行う人物を検出することが行われている。このような認識モデルは、特定したい行動の映像を訓練データとして大量に収集し、深層学習（DL：Deep Learning）などを用いた機械学習によって生成される。

訓練データを大量に収集するには膨大なコストがかかることから、近年では、あらかじめ用意しておいた複数の学習済みの認識モデルで、特定の行動を認識する映像検索技術が利用されている。例えば、行動認識用の認識モデル、外観認識用の認識モデル、状況認識用の認識モデルを用意し、各認識モデルの推論結果を組み合わせて、不審な行動を判定する検出ルールを作成しておく。そして、撮像された映像を各認識モデルに入力して、各認識モデルの推論結果を取得し、各認識モデルの推論結果と検出ルールとを比較して、特定の行動を行う人物の検出を行う。

Li-Jia Li et al、"Objects as Attributes for Scene Classification"、European Conference on Computer Vision、57－69、2010年

しかしながら、上記技術では、各認識モデルの計算コストが高く、システム全体の計算コストが高くなるので、認識時間が長くなり、処理時間の遅延が発生することもある。具体的には、認識対象の場所によっては認識モデルが冗長となる。例えば、大人しか現れない場所に、子供まで認識できる認識モデルを用いると、不要な認識処理の時間が長くなり、認識処理全体の処理時間も長くなる。特に、ニューラルネットワークにおいては、認識する対象や対象のカテゴリが増えると、ニューラルネットワークの中間層が増えることで、認識時の計算量が増加する。

一つの側面では、行動検出にかかる処理時間を短縮することができる行動認識方法、行動認識プログラムおよび行動認識装置を提供することを目的とする。

第１の案では、行動認識方法は、コンピュータが、映像データを第１の認識モデルに入力して得られる、複数の出力ラベルを含む出力結果に基づいて、特定の行動を含む映像を検出する処理を実行する。行動認識方法は、コンピュータが、所定期間に取得された各映像データを前記第１の認識モデルに入力して得られる、前記複数の出力ラベルを含む出力結果の統計を計数する処理を実行する。行動認識方法は、コンピュータが、計数された前記複数の出力ラベルのうち、前記特定の行動として認識する認識対象の出力ラベルの数の割合が閾値以上である場合に、前記第１の認識モデルよりも識別対象の数が少ない第２の認識モデルに切り替える処理を実行する。

一つの側面では、行動検出にかかる処理時間を短縮することができる。

図１は、実施例１にかかる行動認識システムの全体構成例を示す図である。図２は、実施例１にかかる行動認識装置の機能構成を示す機能ブロック図である。図３は、認識モデルＤＢに記憶される情報の例を示す図である。図４は、高位モデルと低位モデルを説明する図である。図５は、ルールＤＢに記憶される情報の例を示す図である。図６は、検出ルールを用いた行動検出を説明する図である。図７は、切替判定と認識モデルの切替を説明する図である。図８は、認識モデルの切替と検出ルールの再構成を説明する図である。図９は、行動検出処理の流れを示すフローチャートである。図１０は、モデル切替処理の流れを示すフローチャートである。図１１は、行動認識システムの別構成例を示す図である。図１２は、ハードウェア構成例を説明する図である。

以下に、本願の開示する行動認識方法、行動認識プログラムおよび行動認識装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。

［全体構成］
図１は、実施例１にかかる行動認識システムの全体構成例を示す図である。図１に示すように、このシステムは、商業施設１に設置されるカメラ、商業施設２に設置されるカメラ、空港３に設置されるカメラ、行動認識装置１０のそれぞれがネットワークＮを介して、相互に通信可能に接続される。なお、各施設の種別や数は、あくまで一例であり、任意に変更することができる。また、ネットワークＮは、有線や無線を問わず、インターネットや専用線などの任意のネットワークを採用することができる。

各施設のカメラは、飲食店などに設置される監視カメラの一例であり、映像を撮像して行動認識装置１０に映像データとして送信する。このカメラは、撮像した映像をリアルタイムに行動認識装置１０に送信することもでき、数秒または数分など一定間隔でまとめて送信することもできる。

行動認識装置１０は、デジタルサイネージでクーポンを配るために、各施設のカメラから取得した映像を用いて、「飲食店に興味を持つ」の行動を行う人物が写る映像を認識（検出）するサーバ装置の一例である。具体的には、行動認識装置１０は、行動、外観、状況の各カテゴリに対応した、学習済みの認識モデルを用意する。また、行動認識装置１０は、特定行動「飲食店に興味を持つ」を示す各認識モデルの認識結果（ラベル）の組み合わせを検出ルールとして保存する。

このような状態で、行動認識装置１０は、カメラから映像データを取得すると、当該映像データを各カテゴリに対応する各認識モデルに入力して、各認識モデルの出力である各認識結果を取得する。続いて、行動認識装置１０は、各認識結果の組み合わせが特定行動「飲食店に興味を持つ」の検出ルールに該当するか否かを判定する。そして、行動認識装置１０は、検出ルールに該当する場合、特定行動「飲食店に興味を持つ」の映像を検出する。

ここで、行動認識装置１０は、各カテゴリに対応する各認識モデルとして、対象を細かく認識する高位の認識モデル（以下では高位モデルと記載する場合がある）と、対象を大雑把に認識する低位の認識モデル（以下では低位モデルと記載する場合がある）とを保持する。そして、行動認識装置１０は、各ラベルの出現する統計情報に基づき、検出精度が下がらないように、認識モデルを高位から下位モデルに切り替えるとともに、検出の検出ルールも切り替えて、特定行動の映像を検出する。

すなわち、行動認識装置１０は、認識状況に応じて、認識するラベルを減らした認識モデルに自動的に切り替えることで、検出精度を維持しつつ、計算コストを削減することができ、認識処理の処理時間を短縮することができる。

［機能構成］
図２は、実施例１にかかる行動認識装置１０の機能構成を示す機能ブロック図である。図２に示すように、行動認識装置１０は、通信部１１、記憶部１２、制御部２０を有する。

通信部１１は、他の装置の間の通信を制御する処理部であり、例えば通信インタフェースなどである。例えば、通信部１１は、各カメラから映像データを受信し、管理者端末などから各種指示を受信し、管理者端末に認識結果などを送信する。

記憶部１２は、データや制御部２０が実行するプログラムなどを記憶する記憶装置の一例であり、例えばメモリやハードディスクなどである。この記憶部１２は、テストデータＤＢ１３、映像データＤＢ１４、認識モデルＤＢ１５、ルールＤＢ１６を記憶する。

テストデータＤＢ１３は、正解ラベルが付与されている教師データを記憶するデータベースである。例えば、テストデータＤＢ１３は、後述する検出ルール変更時に、変更後の検出ルールの検証に使用される検証用のデータを記憶する。

映像データＤＢ１４は、各カメラが撮像した映像データを記憶するデータベースである。例えば、映像データＤＢ１４は、カメラごとに、撮像された順番で映像データを記憶する。

認識モデルＤＢ１５は、行動認識に使用される、学習済みの認識モデルを記憶するデータベースである。具体的には、認識モデルＤＢ１５は、検出ルールを特定するカテゴリごとに、高位や低位の認識モデルを記憶する。なお、ここで記憶される情報は、各認識モデルで使用されるパラメータなど、認識モデルを構築するときに使用される情報を含む。

図３は、認識モデルＤＢ１５に記憶される情報の例を示す図である。図３に示すように、認識モデルＤＢ１５は、行動、外観、状況のカテゴリごとに、認識モデルを記憶する。例えば、カテゴリ「行動」に対しては認識モデルＡ１を記憶し、カテゴリ「外観」に対しては認識モデルＢ１と認識モデルＢ２を記憶し、カテゴリ「状況」に対しては認識モデルＣ１と認識モデルＣ２を記憶する。

そして、カテゴリ「外観」では、認識モデルＢ１が高位モデルであり、認識モデルＢ２が低位モデルである。また、カテゴリ「状況」では、認識モデルＣ１が高位モデルであり、認識モデルＣ２が低位モデルである。図４は、高位モデルと低位モデルを説明する図である。図４に示すように、高位モデルは、中間層が２２層あるようなニューラルネットワークを用いた学習モデルであり、低位モデルは、中間層が７層のように、高位モデルと比較して中間層が少ないニューラルネットワークを用いた学習モデルである。つまり、中間層が多い高位モデルとは、例えば大人の男性、大人の女性、子供の男性、子供の女性のように、大人か子供かの属性に加え、男性か女性かの属性も認識できる、対象を細かく認識（識別）モデルである。一方、中間層が少ない低位モデルとは、例えば人か否かの属性を認識する、対象を大雑把に認識するだけのモデルである。

ルールＤＢ１６は、認識対象の行動を特定する検出ルールを記憶するデータベースである。具体的には、ルールＤＢ１６は、特定の行動と特定できる、各認識モデルの認識結果（出力ラベル）の組み合わせを検出ルールとして記憶する。言い換えると、ルールＤＢ１６は、認識モデルが出力する出力対象のうち、特定行動に該当する出力ラベルを規定した検出ルールを記憶する。実施例１では、一例として、ルールＤＢ１６は、特定行動「飲食店に興味を持つ」を特定する検出ルールを記憶する。

図５は、ルールＤＢ１６に記憶される情報の例を示す図である。図５に示すように、ルールＤＢ１６は、カメラごとに、認識モデルと検出ルールと対応付けて記憶する。図５の例では、カメラＣ－１に対して、カテゴリ「行動」を認識するために認識モデルＡ１、カテゴリ「外観」を認識するために認識モデルＢ１、カテゴリ「状況」を認識するために認識モデルＣ１を使用中であるすることを示す。また、カメラＣ－１に対して、検出ルール「行動：立ち止まる、外観：大人・男ｏｒ大人・女、状況：飲食店の前」が対応付けられている。この検出ルールは、認識モデルＡ１の出力結果が「立ち止まる」、認識モデルＢ１の出力結果が「大人・男」または「大人・女」、認識モデルＣ１の出力結果が「飲食店の前」であるときに、特定行動「飲食店に興味を持つ」に該当すると判定するための検出ルールである。

制御部２０は、行動認識装置１０全体を司る処理部であり、例えばプロセッサなどである。制御部２０は、映像取得部２１、行動検出部２２、モデル切替部２３を有し、特定の行動を認識（検出）する。例えば、映像取得部２１、行動検出部２２、モデル切替部２３は、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。

映像取得部２１は、各カメラが撮像した映像データを取得する処理部である。例えば、映像取得部２１は、カメラＣ－１から映像データを取得すると、取得した映像データを行動検出部２２に出力し、映像データＤＢ１４に格納する。

行動検出部２２は、認識モデルの認識結果を用いて、特定行動「飲食店に興味を持つ」の映像を検出する処理部である。具体的には、行動検出部２２は、認識モデルＤＢ１５を参照し、各カテゴリの行動認識に使用する各認識モデルのパラメータ等を読み出して、各認識モデルを構築する。そして、行動検出部２２は、映像取得部２１により取得された映像データを各認識モデルに入力し、各認識モデルの出力結果（ラベル）を取得する。そして、行動検出部２２は、各認識モデルの出力結果がルールＤＢ１６に記憶される検出ルールと一致する場合に、特定行動「飲食店に興味を持つ」を行う映像を検出する。その後、行動検出部２２は、デジタルサイネージに当該飲食店のクーポンを表示したり、検出結果を管理者端末に送信したりする。

例えば、カメラＣ－１に対する行動認識を例にして説明する。図６は、検出ルールを用いた行動検出を説明する図である。まず、行動検出部２２は、図５を参照して、カテゴリ「行動」用の認識モデルＡ１、カテゴリ「外観」用の認識モデルＢ１、カテゴリ「状況」用の認識モデルＣ１の各パラメータを読み出して、各認識モデルを構築する。次に、行動検出部２２は、映像取得部２１から映像データが入力されると、構築した認識モデルＡ１、認識モデルＢ１、認識モデルＣ１の各モデルに映像データを入力する。

そして、行動検出部２２は、各認識モデルの出力結果を取得する。ここで、図６に示すように、行動検出部２２は、認識モデルＡ１の出力候補の属性「動く、立ち止まる、走る、振り返る」のうち「立ち止まる」を取得する。さらに、行動検出部２２は、認識モデルＢ１の出力候補の属性「大人・男、大人・女、子供・男、子供・女」のうち「大人・男」または「大人・女」を取得する。さらに、行動検出部２２は、認識モデルＣ１の出力候補の属性「飲食店の前、外、駐車場」などのうち「飲食店の前」を取得する。この場合、行動検出部２２は、特定行動「飲食店に興味を持つ」を検出する。すなわち、行動検出部２２は、検出ルールに記憶される行動、外観、状況のそれぞれと一致する認識結果が得られた場合に、特定行動「飲食店に興味を持つ」の映像を検出する。

モデル切替部２３は、切替判定部２４、検証部２５、切替実行部２６を有し、認識モデルの認識状況に応じて、使用する認識モデルの自動切り替えを実行する処理部である。

切替判定部２４は、各認識モデルの認識状況に基づいて、認識モデルの切替要否を判定する処理部である。具体的には、切替判定部２４は、各カテゴリの各認識モデルについて、１週間などの所定期間内のラベル毎の認識回数を計数する。そして、切替判定部２４は、認識したい対象の割合が閾値以上の場合に、低位モデルに切り替える。

図７は、切替判定と認識モデルの切替を説明する図である。図７では、上記特定行動「飲食店に興味を持つ」の行動認識のうち、カテゴリ「外観」の認識用として用意された認識モデルＢ１と認識モデルＢ２とを用いて説明する。ここでは、認識対象の行動が「飲食店に興味を持つ」であることから、外観として「大人・男」または「大人・女」を認識できれば十分であるので、認識したい対象は「大人・男」または「大人・女」となる。

なお、認識モデルＢ１は、ラベル「大人・男、大人・女、子供・男、子供・女」を出力する高位モデルであり、認識モデルＢ２は、ラベル「人」を出力する低位モデルである。つまり、認識モデルＢ１は、映像データが入力されると、「大人・男、大人・女、子供・男、子供・女」の４パターンそれぞれに該当する確率を出力し、４パターンのいずれに該当するかを認識する。認識モデルＢ２は、映像データが入力されると、「人」に該当する確率を出力し、人か否かを認識する。

図７に示すように、まず、切替判定部２４は、認識モデルＢ１を用いて行動認識を実行してい状態とする。その状態で、切替判定部２４は、１週間分の認識モデルＢ１の出力結果を計数する。ここで、認識モデルＢ１の認識結果が、ラベル「大人・男」が４２回、ラベル「大人・女」が２４回、ラベル「子供・男」が３回、ラベル「子供・女」が５回であったとする。

この場合、切替判定部２４は、認識対象である「大人・男」と「大人・女」の認識回数が合計６６回で全体の８９％であり、閾値（例えば８５％）を超えることから、対応するカメラで撮像される場所にはほとんど大人しか出現しないと判定することができるので、「人」か否かを認識できれば十分と判断し、切替可能と判定する。そして、切替判定部２４は、カテゴリ「外観」の認識用として使用する認識モデルを、高位の認識モデルＢ１から低位の認識モデルＢ２に切り替える。また、切替判定部２４は、切替結果を検証部２５に通知する。

検証部２５は、切替判定部２４による認識モデルの切替に応じて、検出ルールの再構成および再構成後の検出ルールによる検出精度の検証を実行する処理部である。具体的には、検証部２５は、更新前の検出ルールのうち、認識モデルが切替れたカテゴリの認識対象を低位モデルの認識対象に書き換えて、新たな検出ルールを生成する。そして、検証部２５は、テストデータを用いて、変更後の検出ルールによる検出精度がユーザの要求を満たす場合に、認識モデルおよび検出ルールの切替を許容する。

図８は、認識モデルの切替と検出ルールの再構成を説明する図である。図８に示すように、検証部２５は、切替判定部２４によってカテゴリ「外観」の認識で使用する認識モデルが低位モデルに切り替えられたことから、検出ルールの外観を、切替前の高位モデル（認識モデルＢ１）の出力ラベル（認識対象）である「大人・男ｏｒ大人・女」から切替後の低位モデル（認識モデルＢ２）の出力ラベル（認識対象）である「人」に変更して、検出ルールを再構成する。ここで再構築された新検出ルールは、行動「立ち止まる」、外観「人」、状況「飲食店の前」の認識結果が得られたときに、特定行動「飲食店に興味を持つ」を認識するための検出ルールである。

その後、検証部２５は、各テストデータを、カテゴリ「行動」用の認識モデルＡ１、カテゴリ「外観」用の認識モデルＢ２、カテゴリ「状況」用の認識モデルＣ１のそれぞれに入力して、認識結果を取得する。そして、検証部２５は、特定行動「飲食店に興味を持つ」に該当するテストデータを用いたときに、切替後の各認識モデルで特定行動「飲食店に興味を持つ」の行動を検出できたか否かを判定する。

ここで、検証部２５は、テストデータに付与される正解ラベルと、切替後の各認識モデルおよび新検出ルールを用いたときの認識結果との一致数が閾値以上である場合に、切替後の各認識モデルおよび新検出ルールに切替可能と判定する。例えば、検証部２５は、テストデータのうち９割が正確に検出できている場合に、切替可能と判定する。

すなわち、検証部２５は、切替後の認識モデルおよび変更後の検出ルールを用いて、特定行動「飲食店に興味を持つ」のラベルが付与されたテストデータを入力したときに、特定行動が正確に検出できて、特定行動「飲食店に興味を持つ」以外のラベルが付与されたテストデータを入力したときに、特定行動ではないと正確に検出できている場合に、切替を許容する。その後、検証部２５は、切替後の各認識モデルおよび新検出ルールに関する情報および切替可能を示す情報を切替実行部２６に出力する。

切替実行部２６は、検証部２５による検証結果に応じて、認識モデルや検出ルールの切替を実行する処理部である。例えば、切替実行部２６は、検証部から、カテゴリ「外観」の認識で使用する認識モデルを認識モデルＢ２に変更したこと、検出ルールの外観を「人」に変更したことの通知を受信する。すると、切替実行部２６は、通知されたそれらの情報にしたがって、認識モデルＤＢ１５やルールＤＢ１６を更新して、切替を実行する。

［処理の流れ］
次に、上述した行動検出処理の流れと、モデル切替処理の流れについて説明する。

（行動検出処理の流れ）
図９は、行動検出処理の流れを示すフローチャートである。図９に示すように、映像取得部２１が映像データを受信すると（Ｓ１０１：Ｙｅｓ）、行動検出部２２は、認識モデルＤＢ１５を参照して、現在使用されている各認識モデルに、受信された映像データを入力する（Ｓ１０２）。

続いて、行動検出部２２は、各認識モデルからの出力結果を取得し（Ｓ１０３）、各出力結果とルールＤＢ１６に記憶される検出ルールとを比較し（Ｓ１０４）、出力結果が検出ルールに該当するか否かを判定する（Ｓ１０５）。

そして、行動検出部２２は、検出ルールに該当する場合（Ｓ１０５：Ｙｅｓ）、特定行動を検出し（Ｓ１０６）、検出ルールに該当しない場合（Ｓ１０５：Ｎｏ）、処理を終了する。

（モデル切替処理の流れ）
図１０は、モデル切替処理の流れを示すフローチャートである。図１０に示すように、モデル切替部２３は、デフォルトの認識モデルと検出ルールを生成して、認識モデルＤＢ１５とルールＤＢ１６に格納する（Ｓ２０１）。

続いて、モデル切替部２３は、認識モデルのカテゴリを１つ選択し（Ｓ２０２）、一定期間に対する映像データに対する認識モデルの認識状況を取得する（Ｓ２０３）。例えば、モデル切替部２３は、カテゴリ「行動、外観、状況」のうち１つを選択し、１週間分の認識結果を用いて、当該カテゴリに対応する認識対象の検出頻度を計数する。

そして、モデル切替部２３は、認識状況が切替条件を満たす場合（Ｓ２０４：Ｙｅｓ）、選択中のカテゴリに対応する認識モデルを低位モデルに切り替えるとともに（Ｓ２０５）、検出ルールを再構築する（Ｓ２０６）。

続いて、モデル切替部２３は、テストデータを用いて、切替後の認識モデルおよび検出ルールの検出精度の検証を実行する（Ｓ２０７）。

ここで、モデル切替部２３は、検出精度が要件を満たす場合（Ｓ２０８：Ｙｅｓ）、認識モデルと検出ルールを切替えると判定し（Ｓ２０９）、検出精度が要件を満たさない場合（Ｓ２０８：Ｎｏ）、認識モデルと検出ルールを切替えずに、元の認識モデルおよび元の検出ルールを維持すると判定する（Ｓ２１０）。

そして、モデル切替部２３は、未処理のカテゴリが存在する場合（Ｓ２１１：Ｎｏ）、次のカテゴリについてＳ２０２以降を繰り返す。一方、モデル切替部２３は、すべてのカテゴリについて処理が終了すると（Ｓ２１１：Ｙｅｓ）、切替後の認識モデルと再構築した検出ルールを格納する（Ｓ２１２）。なお、Ｓ２０４において、モデル切替部２３は、認識状況が切替条件を満たさない場合（Ｓ２０４：Ｎｏ）、Ｓ２１０を実行する。

［効果］
上述したように、行動認識装置１０は、映像の中から特定の行動を認識するシステムであり、カメラ毎に一定期間内での認識対象ラベルの検出頻度の統計情報に基づき、適用されている認識モデルが冗長であるかを判定する。そして、行動認識装置１０は、適用されている認識モデルが冗長である場合には、低位の認識モデルに切り替え、特定行動を検出する精度を担保できるかを確認する。その後、行動認識装置１０は、担保できる場合には認識モデルと検出ルールを切り替え、カメラ毎に適切な認識モデルと検出ルールを適用する。

このように、行動認識装置１０は、カメラに応じて、適切な認識モデルの選択と検出ルールの適用とを実現することができ、認識モデルを用いた冗長な推定処理を削減できるので、特定行動の検出精度を維持しつつ、システム全体の計算コストを削減することができる。この結果、行動認識装置１０は、認識処理の処理時間を短縮することができる。

さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。

［認識対象］
実施例１では、認識対象の行動として「飲食店に興味を持つ」を例示したが、これに限定されるものではなく、不審な行動や迷子などの他の行動を認識対象とすることができる。また、行動認識装置１０の認識対象は１つに限らず、行動認識装置１０が、各行動に対応した検出ルールを保持することで、複数の行動の認識判定を同時に実行することもできる。

［認識モデル］
実施例で説明した認識モデルには、ニューラルネットワーク、ディープテンソル、ＣＮＮ（Convolution Neural Network）などの様々な深層学習や他の機械学習を採用することができる。また、上記検出ルールのカテゴリは、あくまで一例であり、認識対象の行動ごとに任意に変更することができる。また、認識モデルの切替は、時間帯や曜日などに応じて切り替えることもできる。この場合、時間帯や曜日ごとに切替状況を取得し、認識対象の認識回数の割合が閾値を超えるか否かにより、切替判定を実行することができる。

［認識モデルの切替］
上記実施例では、高位モデルから低位モデルへの切替を例にして説明したが、これに限定されるものではない。例えば、低位モデルに切り替えた後、定期的に認識状況を集計し、ユーザの要望に応えられない程度の認識状況となった場合（上記閾値未満の状態）、高位モデルに再切替を行うこともできる。また、認識モデルは、２段階に限らず、３段階以上であってもよい。また、低位モデルは、高位モデルよりも中間層の数が少ないモデルである例で説明したが、これに限定されず、例えば出力層の数や出力ラベルの数が少ないモデル、中間層のノードの数が少ないモデル、中間層に適応するフィルタのチャネル数が少ないモデルなどを採用することができる。

［構成］
上記実施例では、１台の行動認識装置１０が、各施設のカメラの映像から行動認識を行う例を説明したが、これに限定されるものではない。例えば、各施設に行動認識装置１０を設置することもできる。図１１は、行動認識システムの別構成例を示す図である。図１１に示すように、各施設に行動認識装置１０を設置し、各行動認識装置１０が上記実施例と同様の手法を用いた行動認識を行って、その結果を管理者端末５０に送信する。

［システム］
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、行動検出部２２とモデル切替部２３とを統合することもできる。

さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

［ハードウェア］
図１２は、ハードウェア構成例を説明する図である。図１２に示すように、行動認識装置１０は、通信装置１０ａ、ＨＤＤ（Hard Disk Drive）１０ｂ、メモリ１０ｃ、プロセッサ１０ｄを有する。また、図１２に示した各部は、バス等で相互に接続される。

通信装置１０ａは、ネットワークインタフェースカードなどであり、他のサーバとの通信を行う。ＨＤＤ１０ｂは、図２に示した機能を動作させるプログラムやＤＢを記憶する。

プロセッサ１０ｄは、図２に示した各処理部と同様の処理を実行するプログラムをＨＤＤ１０ｂ等から読み出してメモリ１０ｃに展開することで、図２等で説明した各機能を実行するプロセスを動作させる。すなわち、このプロセスは、行動認識装置１０が有する各処理部と同様の機能を実行する。具体的には、プロセッサ１０ｄは、映像取得部２１、行動検出部２２、モデル切替部２３等と同様の機能を有するプログラムをＨＤＤ１０ｂ等から読み出す。そして、プロセッサ１０ｄは、映像取得部２１、行動検出部２２、モデル切替部２３等と同様の処理を実行するプロセスを実行する。

このように行動認識装置１０は、プログラムを読み出して実行することで行動認識方法を実行する情報処理装置として動作する。また、行動認識装置１０は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、行動認識装置１０によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。

１０行動認識装置
１１通信部
１２記憶部
１３テストデータＤＢ
１４映像データＤＢ
１５認識モデルＤＢ
１６ルールＤＢ
２０制御部
２１映像取得部
２２行動検出部
２３モデル切替部
２４切替判定部
２５検証部
２６切替実行部

Claims

コンピュータが、
映像データを第１の認識モデルに入力して得られる、複数の出力ラベルを含む出力結果に基づいて、特定の行動を含む映像を検出し、
所定期間に取得された各映像データを前記第１の認識モデルに入力して得られる、前記複数の出力ラベルを含む出力結果の統計を計数し、
計数された前記複数の出力ラベルのうち、前記特定の行動として認識する認識対象の出力ラベルの数の割合が閾値以上である場合に、前記第１の認識モデルよりも識別対象の数が少ない第２の認識モデルに切り替える
処理を実行する行動認識方法。
前記検出する処理は、前記特定の行動を特定する複数のカテゴリそれぞれについて学習された学習済みの各第１の認識モデルに前記映像データを入力し、前記各第１の認識モデルから得られる各出力結果の組み合わせに基づいて、前記特定の行動を含む映像を検出し、
前記計数する処理は、前記複数のカテゴリそれぞれについて前記出力結果の統計を計数し、
前記切り替える処理は、前記複数のカテゴリそれぞれについて、前記認識対象の出力ラベルの数の割合が閾値以上であるか否かを判定し、閾値以上である場合に、前記第２の認識モデルに切り替えることを特徴とする請求項１に記載の行動認識方法。
前記検出する処理は、前記複数のカテゴリにそれぞれに対応する前記各第１の認識モデルが出力する出力対象のうち、前記特定の行動に該当する出力ラベルを規定した検出ルールを参照し、前記複数のカテゴリに対応する各第１の認識モデルの出力結果が前記検出ルールと一致する場合に、前記特定の行動を含む映像を検出することを特徴とする請求項２に記載の行動認識方法。
前記切り替える処理は、前記複数のカテゴリのうち前記第２の認識モデルに切り替えられたカテゴリに対応する検出ルールを、切替後の前記第２の認識モデルが出力する出力ラベルのうち前記認識対象の出力ラベルに変更することを特徴とする請求項３に記載の行動認識方法。
正解情報として前記特定の行動を示すラベルが付与された複数のテストデータを用いて、切替後の前記第２の認識モデルを含む各認識モデルおよび変更後の検出ルールの精度を検証し、前記精度が所定条件を満たす場合に、認識モデルの切替および検出ルールの変更を許容する処理を、前記コンピュータが実行することを特徴とする請求項４に記載の行動認識方法。
前記第１の認識モデルおよび前記第２の認識モデルは、入力層、中間層、出力層を有するニューラルネットワークであり、
前記検出する処理は、前記中間層または前記出力層の数が前記第１の認識モデルよりも少ない前記第２の認識モデル、または、出力ラベルの数が前記第１の認識モデルよりも少ない前記第２の認識モデルに切り替えることを特徴とする請求項１に記載の行動認識方法。
コンピュータに、
映像データを第１の認識モデルに入力して得られる、複数の出力ラベルを含む出力結果に基づいて、特定の行動を含む映像を検出し、
所定期間に取得された各映像データを前記第１の認識モデルに入力して得られる、前記複数の出力ラベルを含む出力結果の統計を計数し、
計数された前記複数の出力ラベルのうち、前記特定の行動として認識する認識対象の出力ラベルの数の割合が閾値以上である場合に、前記第１の認識モデルよりも識別対象の数が少ない第２の認識モデルに切り替える
処理を実行させる行動認識プログラム。
映像データを第１の認識モデルに入力して得られる、複数の出力ラベルを含む出力結果に基づいて、特定の行動を含む映像を検出する検出部と、
所定期間に取得された各映像データを前記第１の認識モデルに入力して得られる、前記複数の出力ラベルを含む出力結果の統計を計数する計数部と、
計数された前記複数の出力ラベルのうち、前記特定の行動として認識する認識対象の出力ラベルの数の割合が閾値以上である場合に、前記第１の認識モデルよりも識別対象の数が少ない第２の認識モデルに切り替える切替部と
を有する行動認識装置。