JP6969468B2

JP6969468B2 - 画像処理装置、画像処理方法、プログラムおよび画像処理システム

Info

Publication number: JP6969468B2
Application number: JP2018053773A
Authority: JP
Inventors: 礼子岸; 誠増田
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2018-03-22
Filing date: 2018-03-22
Publication date: 2021-11-24
Anticipated expiration: 2038-03-22
Also published as: WO2019181140A8; JP2019168740A; WO2019181140A1

Description

本発明は、画像処理装置、画像処理方法、プログラムおよび画像処理システムに関する。

近年、端末を操作する利用者に関わる状態を認識する技術が知られている。例えば、監視空間における対象物体の異常状態を判定する技術が開示されている（例えば、特許文献１参照）。また、状態を認識するための対象領域を自動的に設定する技術が開示されている（例えば、特許文献２、特許文献３参照）。例えば、特許文献２に記載された技術では、特定のオブジェクトが置かれた領域が対象領域として設定される。また、機械学習によって得られた情報を分析に用い、分析結果を可視化する技術が開示されている（例えば、特許文献４参照）。

特開２０１０−７２７８２号公報特開２０１４−１７４９５９号公報特開２０１４−２１１７３４号公報特開２０１６−３５６８８号公報

しかし、特許文献２に記載された技術では、対象領域の設定のために特定のオブジェクトを人が置く必要がある。そのため、人がオブジェクトの位置および対象領域の最適な位置を把握しておく必要があるため、対象領域の設定のために人に負荷が掛かってしまう。また、特許文献４に記載された技術では、機械学習によって得られた情報を用いた分析結果を可視化することは可能であるが、機械学習の進捗度合いを管理者が把握することはできない。

そこで、機械学習の対象領域の設定を簡便に行うとともに、機械学習の進捗度合いを容易に把握することが可能な技術が提供されることが望まれる。

上記問題を解決するために、本発明のある観点によれば、利用者が操作する運用時の環境にある端末の一部または全部を写した映像を取得する映像取得部と、前記映像における対象領域を設定する領域設定部と、前記対象領域から特徴量を抽出する画像処理部と、前記特徴量を用いて追加学習を行う学習部と、前記追加学習の進捗度合いを取得する学習状況判断部と、前記進捗度合いを通知する通知部と、を備える、画像処理装置が提供される。

前記学習部は、前記追加学習として深層学習を用いてもよい。

前記映像取得部は、あらかじめ撮像されて保存されている前記映像またはカメラによって撮像された前記映像をキャプチャーすることによって前記映像を取得してもよい。

前記画像処理装置は、前記追加学習によって得られた識別器を用いて認識処理を行う認識処理部を備えてもよい。

前記認識処理部は、前記追加学習の進捗度合いに応じて前記認識処理による認識結果または前記認識結果の通知先を変更してもよい。

前記領域設定部は、複数の対象領域を設定し、前記画像処理部は、前記対象領域ごとに前記特徴量を抽出し、前記学習部は、前記特徴量を用いて前記対象領域ごとに前記追加学習を行い、前記学習状況判断部は、前記追加学習の進捗度合いを前記対象領域ごとに取得してもよい。

前記学習部は、前記追加学習の前に教師データと学習データとに基づいて事前学習を行い、前記事前学習によって得られた学習結果と前記特徴量とを用いて前記追加学習を行ってもよい。

前記領域設定部は、前記端末が有する構造と同一または類似する構造を有する他の端末の領域情報に基づいて前記対象領域を設定してもよい。

前記領域設定部は、所定のタイミングにおける動画像の動きに基づいて、前記対象領域を設定してもよい。

前記領域設定部は、前記端末のステータス情報の更新タイミングに基づいて前記所定のタイミングを特定してもよい。

前記領域設定部は、前記所定のタイミングにおいて前記動画像のうち動きがあった領域を特定し、前記動きがあった領域に基づいて、前記対象領域を設定してもよい。

前記領域設定部は、前記所定のタイミングにおける動画像を学習して、前記所定のタイミングにおける利用者の動きを推定可能な学習モデルを生成し、前記学習モデルと動画像とに基づいて検出した利用者の動きがあった場所に基づいて、前記対象領域を設定してもよい。

前記領域設定部は、前記端末に挿入または排出されるオブジェクトの特徴量に基づいて、動画像から前記オブジェクトの有無に変化が起こった場所を特定し、前記場所に基づいて、前記対象領域を設定してもよい。

また、本発明の別の観点によれば、利用者が操作する運用時の環境にある端末の一部または全部を写した映像を取得することと、前記映像における対象領域を設定することと、前記対象領域から特徴量を抽出することと、前記特徴量を用いて追加学習を行うことと、前記追加学習の進捗度合いを取得することと、前記進捗度合いを通知することと、を含む、画像処理方法が提供される。

また、本発明の別の観点によれば、コンピュータを、利用者が操作する運用時の環境にある端末の一部または全部を写した映像を取得する映像取得部と、前記映像における対象領域を設定する領域設定部と、前記対象領域から特徴量を抽出する画像処理部と、前記特徴量を用いて追加学習を行う学習部と、前記追加学習の進捗度合いを取得する学習状況判断部と、前記進捗度合いを通知する通知部と、を備える画像処理装置として機能させるためのプログラムが提供される。

また、本発明の別の観点によれば、利用者が操作する端末と、運用時の環境にある前記端末の一部または全部を写した映像を撮像するカメラと、画像処理装置と、を有する、画像処理システムであって、前記画像処理装置は、前記映像を取得する映像取得部と、前記映像における対象領域を設定する領域設定部と、前記対象領域から特徴量を抽出する画像処理部と、前記特徴量を用いて追加学習を行う学習部と、前記追加学習の進捗度合いを取得する学習状況判断部と、前記進捗度合いを通知する通知部と、を備える、画像処理システムが提供される。

以上説明したように本発明によれば、機械学習の対象領域の設定を簡便に行うとともに、機械学習の進捗度合いを容易に把握することが可能な技術が提供される。

本発明の第１の実施形態に係る画像処理システムの全体構成例を示す図である。同実施形態に係る画像処理システムの機能構成例を示す図である。キャプチャー取得部によって取得される映像の例を示す図である。同実施形態に係る画像処理システムの動作例を示すフローチャートである。本発明の第２の実施形態に係る画像処理システムの機能構成例を示す図である。ステータス情報の例について説明するための図である。同実施形態における対象領域の設定例について説明するための図である。同実施形態に係る画像処理システムの動作例を示すフローチャートである。本発明の第３の実施形態に係る画像処理システムの機能構成例を示す図である。カード挿入口においてカードの有無が変化する場合について説明するための図である。紙幣取出口において紙幣の有無が変化する場合について説明するための図である。紙幣取出口において紙幣の有無が変化する場合について説明するための図である。本発明の第３の実施形態に係る画像処理システムの動作例を示すフローチャートである。本発明の第４の実施形態に係る画像処理システムの機能構成例を示す図である。同実施形態に係る画像処理システムの機能構成例を示す図である。同実施形態に係る画像処理システムの動作例を示すフローチャートである。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合がある。ただし、実質的に同一の機能構成を有する複数の構成要素等の各々を特に区別する必要がない場合、同一符号のみを付する。また、異なる実施形態の類似する構成要素については、同一の符号の後に異なるアルファベットを付して区別する場合がある。ただし、異なる実施形態の類似する構成要素等の各々を特に区別する必要がない場合、同一符号のみを付する。

（１．第１の実施形態）
まず、本発明の第１の実施形態について説明する。

（１．１．システムの構成例）
本発明の第１の実施形態に係る画像処理システムの構成例について説明する。図１は、本発明の第１の実施形態に係る画像処理システムの全体構成例を示す図である。図１に示されるように、本発明の第１の実施形態に係る画像処理システムは、ＡＴＭ（ＡｕｔｏｍａｔｅｄＴｅｌｌｅｒＭａｃｈｉｎｅ）１０−１〜１０−４、カメラ２０−１〜２０−４、サーバ４０および管理者端末７０を有している。

本発明の第１の実施形態においては、画像処理システムがＡＴＭ１０−１−１〜１０−４を有する場合を主に想定する。しかし、画像処理システムは、ＡＴＭ１０−１−１〜１０−４の代わりに、利用者によって操作される他の端末（例えば、現金処理機など）を有していてもよい。また、図１には、画像処理システムが、４つのＡＴＭ１０を有する例が示されている。しかし、画像処理システムが有するＡＴＭ１０の数は限定されない。ＡＴＭ１０−１−１〜１０−４それぞれは、別の店舗に設けられてもよいし、いずれか２つ以上は同一の店舗に設けられてもよい。

また、カメラ２０−１は、イメージセンサを有しており、ＡＴＭ１０−１の少なくとも一部を写すことが可能な位置に設けられている。図１に示された例では、カメラ２０−１がＡＴＭ１０−１の上方に設けられているが、ＡＴＭ１０−１が設けられる位置は限定されない。同様に、カメラ２０−２〜２０−４も、同様に、対応するＡＴＭ（１０−２〜１０−４）の少なくとも一部を写すことが可能な位置に設けられている。

管理者端末７０は、ＡＴＭ１０−１に接続されており、管理者９１によって利用される。例えば、管理者端末７０は、ＡＴＭ１０−１の状態を表示することが可能であり、管理者９１によってＡＴＭ１０−１の状態が把握される。なお、図１には、紙面の関係上、ＡＴＭ１０−１にのみ接続されている管理者端末７０のみが示されているが、管理者端末７０は、ＡＴＭ１０−１〜１０−４それぞれに対して接続されていてよい。その場合、ＡＴＭ１０−１〜１０−４それぞれに対して接続される管理者端末７０は、異なる端末であってもよいし、いずれか２つ以上が同一の端末であってもよい。

サーバ４０は、ネットワーク８０に接続されており、ネットワーク８０を介してＡＴＭ１０−１〜１０−４と通信可能に構成されている。なお、図１に示された例では、画像処理システムが、サーバ４０を有しているが、本発明の第１の実施形態以外の実施形態においては、画像処理システムは、特にサーバ４０を有していなくてもよい。さらに、本発明の第１の実施形態においても、サーバ４０が有する機能を、ＡＴＭ１０−１〜１０〜４のいずれかが代わりに有していれば、画像処理システムは、特にサーバ４０を有していなくてもよい。

図２は、本発明の第１の実施形態に係る画像処理システムの機能構成例を示す図である。図２には、図１に示された画像処理システムのうち、管理者端末７０およびサーバ４０が示されている。また、ＡＴＭ１０−１〜１０〜４の任意のＡＴＭがＡＴＭ１０として示されており、カメラ２０−１〜２０〜４の任意のカメラがカメラ２０として示されている。図２には、ＡＴＭ１０を操作する利用者９２も示されている。

ＡＴＭ１０は、ＡＴＭ取引処理部１１０を備えるとともに、認識部３０Ａ（画像処理装置）を備える。ＡＴＭ取引処理部１１０は、各種の取引処理（例えば、入金処理、出金処理など）を実行する。なお、図２に示された例では、認識部３０ＡがＡＴＭ１０の内部に存在しているが、認識部３０ＡはＡＴＭ１０の外部に存在していてもよい。認識部３０Ａは、キャプチャー取得部３１０（映像取得部）、画像処理部３２０、領域認識部３３０Ａ（領域設定部）、学習検知部３４０（学習部および認識処理部）、学習状況判断部３５０、通知部３６０および記憶部３７０を備える。

キャプチャー取得部３１０、画像処理部３２０、領域認識部３３０Ａ、学習検知部３４０、学習状況判断部３５０および通知部３６０は、制御部を構成し得る。制御部は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などを含み、記憶部３７０により記憶されているプログラムがＣＰＵによりＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）に展開されて実行されることにより、その機能が実現され得る。このとき、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。あるいは、制御部は、専用のハードウェアにより構成されていてもよいし、複数のハードウェアの組み合わせにより構成されてもよい。

記憶部３７０は、制御部を動作させるためのプログラムおよびデータを記憶することが可能な記憶装置である。また、記憶部３７０は、図示しない制御部の動作の過程で必要となる各種データを一時的に記憶することもできる。例えば、記憶装置は、不揮発性の記憶装置であってよい。

また、図２には示されていないが、実際には、認識部３０Ａは、通知部３６０が管理者端末７０に通知を行うための第１の通信回路を有している。また、認識部３０Ａは、領域認識部３３０Ａがネットワーク８０を介してサーバ４０と通信を行うための第２の通信回路を有している。例えば、第１の通信回路は、有線によってネットワーク８０に接続され、第２の通信回路も、有線によって管理者端末７０に接続される場合が想定されるが、第１の通信回路は、無線によってネットワーク８０に接続されてもよいし、第２の通信回路は、無線によって管理者端末７０に接続されてもよい。

ここで、認識部３０Ａの機能によって、利用者９２の状態を認識したいという要求がある。一例として、利用者によってＡＴＭ１０が正常に利用される場合もあり得るが、利用者によってＡＴＭ１０が正常に利用されない場合もあり得る。例えば、悪意がある利用者がＡＴＭ１０に対して特殊な細工を施し、ＡＴＭ１０を介して他人の口座から現金を得ようとする犯罪がなされる場合などには、利用者によってＡＴＭ１０が正常に利用されない。本発明の各実施形態においては、認識部３０Ａの学習検知部３４０が、機械学習（以下、単に「学習」とも言う。）によって得られた識別器に基づいて、利用者の所定の状態（例えば、利用者の異常な動作、忘れ物、利用者の属性など）を認識する。

本発明の各実施形態においては、学習検知部３４０によって事前に、教師データと学習データとに基づいて学習（事前学習）が行われている場合を想定する。かかる教師データと学習データは、ＡＴＭ１０が設置される店舗に依存しないデータであってよい。しかし、ＡＴＭ１０が設置される店舗によって、照明の明るさが異なったり、利用者の年齢層が異なったりする場合があるため、店舗に依存しないデータだけによって生成された識別器では、認識精度が向上しない可能性がある。

そこで、本発明の各実施形態においては、事前学習によって得られた学習結果を利用し、さらにＡＴＭ１０の運用時の環境と同じ環境に置かれたＡＴＭ１０を利用して学習（追加学習）を行う。これによって、認識精度が向上することが期待される。本発明の各実施形態においては、運用時にＡＴＭ１０が置かれる店舗と同じ店舗に置かれたＡＴＭ１０を利用して、ＡＴＭ１０の運用前に、認識部３０Ａの学習検知部３４０によって追加学習が行われる場合を想定する。しかし、かかる追加学習が行われるタイミングは限定されない。例えば、学習検知部３４０による追加学習は、ＡＴＭ１０の運用開始後にまで引き続き行われてもよい。また、学習検知部３４０による追加学習がどの程度まで進んだ段階でＡＴＭ１０が運用されるかも限定されない。

また、本発明の各実施形態においては、学習検知部３４０による学習として、深層学習が用いられる場合を主に想定する。これによって、より高精度に利用者の所定の状態が認識され得る。しかし、学習検知部３４０による学習として、深層学習以外の学習器が用いられてもよい。

また、学習検知部３４０による学習および認識が行われるためには、学習および認識の対象となる領域（対象領域）が設定される必要がある。この対象領域の設定には、本発明の第１の実施形態から本発明の第４の実施形態までに説明するように様々な手法が想定される。本発明の第１の実施形態においては、ＡＴＭ同士の類似度を用いて対象領域を設定する場合を説明する。

なお、本発明の各実施形態において、「映像」は、１枚の画像であってもよいし、複数枚のフレームから構成される動画像であってもよい。

図３は、キャプチャー取得部３１０によって取得される映像の例を示す図である。図３を参照すると、ＡＴＭの一部（ＡＴＭの前面）がカメラ２０によって撮像された画像２１が示されている。画像２１には、ＡＴＭのタッチパネル付き画面１２０、カード挿入口１５０、紙幣取出口１３０、暗証番号入力部１４０が写っている。図３に示された画像２１のように、キャプチャー取得部３１０によって、カメラ２０によって撮像された映像が取得される。

領域認識部３３０Ａは、キャプチャー取得部３１０によって取得された映像における対象領域を設定する。まず、領域認識部３３０Ａは、キャプチャー取得部３１０によって取得された映像に対して前処理を行う。前処理としては、様々な処理が想定される。例えば、ＡＴＭ１０に対するカメラ２０の相対的な位置および姿勢は、複数のカメラ２０で異なる場合が想定され、カメラ２０によって撮像される映像におけるＡＴＭの位置および姿勢が一定しないことが想定される。そこで、領域認識部３３０Ａは、前処理の例として、映像の位置合わせを行い、映像から対象領域が容易に設定されるようにするとよい。

その他、前処理は、後の処理でエッジが利用される場合などには、映像からエッジを抽出する処理であってもよい。しかし、前処理は特に限定されないし、前処理は特に実行されなくてもよい。

本発明の第１の実施形態においては、あらかじめサーバ４０によって、対象領域が設定済みのＡＴＭごとに、ＡＴＭの一部または全部を写した画像と対象領域の範囲を特定するための領域情報とが記憶されている。例えば、ＡＴＭ１０−１の対象領域が未設定であり、ＡＴＭ１０−２〜１０−４の対象領域が設定済みである場合を想定する。

かかる場合には、ＡＴＭ１０−１の一部または全部を写した画像がＡＴＭ１０−１から送信されると、サーバ４０は、ＡＴＭ１０−１の当該画像をＡＴＭ１０−１から受信し、ＡＴＭ１０−１の画像とＡＴＭ１０−２〜１０−４それぞれの画像とに基づいて、ＡＴＭ１０−１が有する構造と同一または類似する構造を有する他のＡＴＭを、ＡＴＭ１０−２〜１０−４から探し出す。そして、サーバ４０は、見つけたＡＴＭの領域情報をＡＴＭ１０−１に返信する。ＡＴＭ１０−１の領域認識部３３０Ａは、サーバ４０から受信された領域情報に基づいてＡＴＭ１０−１の対象領域を設定する。

ここで、ＡＴＭ同士の構造の類似性は、どのようにして判断されてもよい。例えば、ＡＴＭ１０−１の画像とＡＴＭ１０−２〜１０−４それぞれの画像とから抽出されるエッジの類似性によって、ＡＴＭ同士の構造の類似性が判断されてもよい。図１を参照すると、ＡＴＭ１０−１が有する構造とＡＴＭ１０−３が有する構造とが類似している場合が示されている。したがって、かかる場合には、サーバ４０は、ＡＴＭ１０−３の領域情報をＡＴＭ１０−１に返信してよい。

画像処理部３２０は、映像における対象領域から特徴量を抽出する。ここで、特徴量の種類は、１種類であってもよいし、複数種類であってもよい。また、特徴量の種類も限定されない。例えば、特徴量は、フレーム間の差分（例えば、フレーム間の対応する画素同士の差分など）を含んでもよいし、フレームごとの各画素の隣接画素との差分（勾配）を含んでもよいし、動きベクトル（例えば、フレーム間の画素値の移動ベクトルなど）を含んでもよいし、フレームから抽出されるエッジを含んでもよいし、フレームの２値化画像を含んでもよいし、フレームの白黒パターンを含んでもよい。

学習検知部３４０は、画像処理部３２０によって抽出された特徴量を用いて追加学習を行う。より具体的に、学習検知部３４０は、事前学習によって得られた学習結果と、画像処理部３２０によって抽出された特徴量とを用いて、追加学習を行う。一例として、画像処理部３２０によって抽出された特徴量と、教師データに対応する複数の学習データの重心との特徴空間における距離が閾値よりも近ければ、当該特徴量と教師データとの関連が強められる。しかし、追加学習がどのように行われるかは、学習器のアルゴリズムに応じて適宜に変更されてよい。

学習状況判断部３５０は、学習検知部３４０による追加学習の進捗度合いを取得する。ここで、追加学習の進捗度合いは特に限定されない。例えば、追加学習の進捗度合いは、追加学習が開始されてからの経過時間を含んでもよいし、追加学習が開始されてからキャプチャー取得部３１０によって取得された映像のフレーム数を含んでもよいし、追加学習が開始されてからＡＴＭ１０によって実行された取引の回数を含んでもよいし、追加学習が実行された回数であってもよいし、特徴空間にプロットされた複数の特徴量の状態（例えば、特徴量の密度など）であってもよいし、追加学習によって得られた識別器にサンプルデータを入力した場合に出力される結果を含んでもよい。

通知部３６０は、追加学習の進捗度合いを管理者端末７０に通知する。ここでは、追加学習の進捗度合いを知りたいと考えた管理者９１が、管理者端末７０に対して学習状態の要求を入力し、学習状態の要求が管理者端末７０から認識部３０Ａに送信される場合を想定する。かかる場合には、通知部３６０は、学習状態の要求を取得すると、追加学習の進捗度合いを管理者端末７０に通知する。しかし、通知部３６０は、学習状態の要求があった場合に進捗度合いを通知する場合だけではなく（プル型）、学習状態の要求がなくても進捗度合いを通知してもよい（プッシュ型）。

管理者端末７０は、追加学習の進捗度合いを受信すると、追加学習の進捗度合いを出力する。例えば、管理者端末７０は、進捗度合いをディスプレイに表示させてもよいし、音声によってスピーカから出力させてもよい。管理者は、このようにして出力される進捗度合いを知覚することによって、追加学習の進捗度合いが十分であるか否かを判断することができる。なお、追加学習の進捗度合いが十分であるか否かは、学習状況判断部３５０によって自動的に判断されてもよい。例えば、学習状況判断部３５０は、追加学習の進捗度合いが閾値を上回っていれば、追加学習の進捗度合いが十分であると判断してもよい。

学習検知部３４０は、追加学習によって得られた識別器を用いて認識処理を行う。例えば、管理者によって（または、学習状況判断部３５０によって自動的に）追加学習の進捗度合いが十分であると判断された場合、ＡＴＭ１０の運用が開始され、学習検知部３４０は、追加学習によって得られた識別器を用いて認識処理を行う場合が主に想定される。しかし、学習検知部３４０は、追加学習の進捗度合いが十分であるかに依らず、ＡＴＭ１０の運用が開始され、または、運用開始前に試験的に、追加学習によって得られた識別器を用いて認識処理を行ってもよい。

このとき、学習検知部３４０は、追加学習の進捗度合いに応じて認識処理による認識結果または認識結果の通知先を変更するとよい。認識結果は、ＡＴＭ１０の画面に表示されてもよいし、図示しない監視センタに送信されてもよいし、所定の記録媒体に記録されてもよいし、ＡＴＭ１０によってアラーム音が出力されてもよいし、管理者端末７０に通知されてもよい。例えば、同じように不正操作が認識された場合であってもよい。

例えば、学習検知部３４０は、同じように不正操作が認識された場合であっても、追加学習の進捗度合いが閾値を下回っていれば、認識処理による認識結果として、「不正操作が行われたかもしれません」といった断定を避けた表現を使い、追加学習の進捗度合いが閾値を上回っていれば、認識処理による認識結果として「不正操作が行われました」といった断定した表現を使ってもよい。あるいは、学習検知部３４０は、同じように不正操作が認識された場合であっても、追加学習の進捗度合いが閾値を下回っていれば、認識結果をＡＴＭ１０の画面に表示させ、追加学習の進捗度合いが閾値を上回っていれば、認識結果をＡＴＭ１０の画面に表示させてもよい。

なお、本発明の第１の実施形態において、キャプチャー取得部３１０が、カメラ２０によって撮像された映像をキャプチャーすることによって映像を取得する場合を主に想定する。しかし、キャプチャー取得部３１０は、あらかじめ撮像されて保存されている映像を取得してもよい。

以上、本発明の第１の実施形態に係る画像処理システムの構成例について説明した。

（１．２．システムの動作例）
続いて、本発明の第１の実施形態に係る画像処理システムの動作例について説明する。図４は、本発明の第１の実施形態に係る画像処理システムの動作例を示すフローチャートである。なお、図４に示された動作例は、本発明の第１の実施形態に係る画像処理システムの動作の一例に過ぎない。したがって、本発明の第１の実施形態に係る画像処理システムの動作は、図４に示された動作例に限定されない。

図４に示されるように、認識部３０Ａは、キャプチャー取得部３１０によって映像がキャプチャーされる度にＳ１１１〜Ｓ１２０を実行するため、カウンタｉを１からＮ（Ｎは１以上の整数）まで１ずつカウントアップさせながら、Ｓ１１１〜Ｓ１２０を繰り返し実行する（Ｓ１１０、Ｓ１２１）。まず、キャプチャー取得部３１０は、カメラ２０によって撮像された映像をキャプチャーすることによって映像を取得する（Ｓ１１１）。そして、領域認識部３３０Ａは、必要に応じて映像の前処理を行う（Ｓ１１２）。

カウンタｉが１であれば（すなわち、初回だけ）、以下の処理が実行される（Ｓ１１３）。すなわち、領域認識部３３０Ａは、カウンタｉが１であればＡＴＭ１０が有する構造と同一または類似の構造を有する他のＡＴＭ１０の領域情報を、ネットワーク８０を介して取得する。そして、領域認識部３３０Ａは、取得した領域情報を、記憶部３７０に保持させる。領域認識部３３０Ａは、領域情報に基づいて映像における対象領域を設定する。

続いて、画像処理部３２０は、管理者端末７０から学習状態の要求があれば、映像における対象領域から特徴量を抽出する（Ｓ１１６）。そして、学習検知部３４０は、画像処理部３２０によって抽出された特徴量を用いて追加学習を行う（Ｓ１１７）。管理者端末７０から学習状態の要求があれば、以下の処理が実行される（Ｓ１１８）。すなわち、学習状況判断部３５０は、管理者端末７０から学習状態の要求があれば、追加学習の学習状況（進捗度合い）を判断する（Ｓ１１９）。そして、通知部３６０は、追加学習の学習状況（進捗度合い）を管理者端末７０に通知する（Ｓ１２０）。Ｓ１１１〜Ｓ１２０がＮ回実行されると、動作が終了される。

以上、本発明の第１の実施形態に係る画像処理システムの動作例について説明した。

（１．３．まとめ）
以上に説明したように、本発明の第１の実施形態によれば、ＡＴＭ同士の構造の類似度に基づいて、ＡＴＭが有する構造と同一または類似する構造を有する、領域設定済みのＡＴＭの領域情報が取得され、取得された領域情報に基づいて、ＡＴＭの対象領域が設定される。したがって、領域設定済みのＡＴＭの画像が蓄積されている場合には、対象領域の設定が簡便に行われる。また、追加学習の進捗度合いの通知によって、管理者は容易に進捗度合いを把握することが可能となる。

以上、本発明の第１の実施形態について説明した。

（２．第２の実施形態）
続いて、本発明の第２の実施形態について説明する。

（２．１．システムの構成例）
本発明の第２の実施形態に係る画像処理システムの構成例について説明する。図５は、本発明の第２の実施形態に係る画像処理システムの機能構成例を示す図である。図５に示されるように、本発明の第２の実施形態に係る画像処理システムは、本発明の第１の実施形態に係る画像処理システムと比較して、認識部３０Ａの代わりに、認識部３０Ｂを有する点において異なる。また、認識部３０Ｂは、認識部３０Ａと比較して、領域認識部３３０Ａの代わりに領域認識部３３０Ｂを有する点において異なる。したがって、以下では、領域認識部３３０Ｂが有する機能について主に説明し、その他の構成の詳細な説明については省略する。

本発明の第１の実施形態では、ＡＴＭ同士の構造の類似度に基づいて、対象領域を設定する例を説明した。しかし、画像処理システムがＡＴＭを１台しか有していない場合、領域設定済みのＡＴＭの画像が蓄積されていない場合が想定される。あるいは、画像処理システムがＡＴＭを複数台有していても、ＡＴＭが有する構造と同一または類似する構造を有する他のＡＴＭが存在しない場合も想定される。そこで、本発明の第２の実施形態においては、領域設定済みのＡＴＭの画像を用いずに、対象領域を設定する例について説明する。

図５を参照すると、ＡＴＭ１０のＡＴＭ取引処理部１１０と領域認識部３３０Ｂとが接続されており、領域認識部３３０Ｂによって、ＡＴＭ取引処理部１１０の情報が取得可能に構成されている。ＡＴＭ１０は、利用者による操作が行われるたびに、状態（現在どの段階の処理を行っているかを示す情報）が変化する。ＡＴＭ取引処理部１１０は、ＡＴＭ１０の状態を示す情報（以下、「ステータス情報」とも言う。）を管理しており、状態が変化すると、ステータス情報が更新される。領域認識部３３０Ｂは、かかるステータス情報をＡＴＭ取引処理部１１０から取得し、ＡＴＭ１０状態を把握することができる。

図６は、ステータス情報の例について説明するための図である。図６を参照すると、カード挿入口１５０にカード６１が挿入されている様子が撮像された画像２１−１が示されている。例えば、カード挿入口１５０にカード６１が挿入された場合には、領域認識部３３０Ｂは、カードが挿入されたことを示すステータス情報をＡＴＭ取引処理部１１０から得ることができる。カード挿入口１５０からカード６１が排出された場合も同様に、領域認識部３３０Ｂは、カード挿入口１５０からカード６１が排出されたことを示すステータス情報をＡＴＭ取引処理部１１０から得ることができる。

また、図６を参照すると、タッチパネル付きの画面１２０に表示されているボタンが選択されている様子が撮像された画像２１−２が示されている。例えば、タッチパネル付きの画面１２０に表示されているボタンが選択された場合には、領域認識部３３０Ｂは、タッチパネル付きの画面１２０に表示されているボタンが選択されたことを示すステータス情報をＡＴＭ取引処理部１１０から得ることができる。

また、図６を参照すると、紙幣取出口１３０に紙幣が挿入された様子が撮像された画像２１−３が示されている。例えば、紙幣取出口１３０に紙幣が挿入された場合には、領域認識部３３０Ｂは、紙幣取出口１３０に紙幣が挿入されたことを示すステータス情報をＡＴＭ取引処理部１１０から得ることができる。紙幣取出口１３０から紙幣が排出された場合も同様に、領域認識部３３０Ｂは、紙幣取出口１３０から紙幣が排出されたことを示すステータス情報をＡＴＭ取引処理部１１０から得ることができる。

また、図６を参照すると、暗証番号入力部１４０に対して暗証番号が入力された様子が撮像された画像２１−４が示されている。例えば、暗証番号入力部１４０に対して暗証番号が入力された場合には、領域認識部３３０Ｂは、暗証番号入力部１４０に対して暗証番号が入力されたことを示すステータス情報をＡＴＭ取引処理部１１０から得ることができる。

本発明の第２の実施形態においては、領域認識部３３０Ｂは、所定のタイミングにおいて、カメラ２０によって撮像され、キャプチャー取得部３１０によって取得された動画像の動きを検出する。そして、領域認識部３３０Ｂは、検出した動画像の動きに基づいて、対象領域を設定する。より具体的には、領域認識部３３０Ｂは、所定のタイミングにおいて動画像のうち動きがあった領域を特定し、動きがあった領域に基づいて、対象領域を設定する。

ここで、所定のタイミングは、操作に関連するタイミングであれば限定されない。例えば、領域認識部３３０Ｂは、ステータス情報の更新タイミングに基づいて所定のタイミングを特定する。例えば、ステータス情報が更新された直後に、利用者による動作（正常な動作または異常な動作）がなされることが想定されるため、以下では、所定のタイミングの例として、ステータス情報が更新された直後のタイミングを用いる場合について説明する。また、以下では、ステータス情報の例として、カード挿入口からカードが排出されたことを示すステータス情報を用いる場合を例として説明する。

図７は、本発明の第２の実施形態における対象領域の設定例について説明するための図である。

領域認識部３３０Ｂは、各画素に初期値が設定された第１の動き領域検出用データを用意する。そして、領域認識部３３０Ｂは、ステータス情報が、カード挿入口からカードが排出されたことを示すステータス情報に更新される前から、カメラ２０によって撮像された動画像のフレーム間の差分によって動きを検出し始める。そして、領域認識部３３０Ｂは、動きのあった画素に対応する第１の動き領域検出用データにおける値をカウントアップする。

一方、領域認識部３３０Ｂは、各画素に初期値が設定された第２の動き領域検出用データも用意する。そして、領域認識部３３０Ｂは、ステータス情報が、カード挿入口からカードが排出されたことを示すステータス情報に更新された直後から、動きのあった画素に対応する第２の動き領域検出用データにおける値をカウントアップする。

そして、領域認識部３３０Ｂは、所定の停止タイミング（例えば、ＡＴＭ１０を停止する操作が行われた場合、指定された数だけ映像が取得された場合など）を検出すると、第１の動き領域検出用データのうち、（第１の動き領域検出用データの取得時間による）平均値が第１の閾値を上回る領域を、ステータス情報に依らずに動きのある領域として検出する。画像２１−６には、ステータス情報に依らずに動きのある領域２２−２が示されている。

同様に、領域認識部３３０Ｂは、所定の停止タイミングを検出すると、第２の動き領域検出用データのうち、（第２の動き領域検出用データの取得時間による）平均値が第２の閾値を上回る領域を、ステータス情報の更新直後に動きのある領域として検出する。画像２１−５には、ステータス情報の更新直後に動きのある領域２２−１が示されている。

そして、領域認識部３３０Ｂは、ステータス情報の更新直後に動きのある領域２２−１から、ステータス情報の更新直後に動きのある領域２２−１とステータス情報に依らずに動きのある領域２２−２との重複領域を差し引くことによって、ステータス情報の更新直後にのみ動きのある領域を検出する。画像２１−７には、ステータス情報の更新直後にのみ動きのある領域２２−３が示されている。領域認識部３３０Ｂは、ステータス情報の更新直後にのみ動きのある領域２２−３に含まれる所定形状（例えば、矩形領域）の領域を、対象領域として設定する。画像２１−８には、対象領域２４が示されている。

なお、本発明の第２の実施形態においても、キャプチャー取得部３１０が、カメラ２０によって撮像された動画像をキャプチャーすることによって動画像を取得する場合を主に想定した。しかし、本発明の第２の実施形態においても、キャプチャー取得部３１０は、あらかじめ撮像されて保存されている動画像とそれに対応するステータス情報（動作ログ情報）を取得してもよい。そうすれば、オフラインで対象領域が検出可能であるため、認識部３０ＢとＡＴＭ１０とを接続させずに、対象領域が検出され得る。

以上、本発明の第２の実施形態に係る画像処理システムの構成例について説明した。

（２．２．システムの動作例）
続いて、本発明の第２の実施形態に係る画像処理システムの動作例について説明する。図８は、本発明の第２の実施形態に係る画像処理システムの動作例を示すフローチャートである。なお、図８に示された動作例は、本発明の第２の実施形態に係る画像処理システムの動作の一例に過ぎない。したがって、本発明の第２の実施形態に係る画像処理システムの動作は、図８に示された動作例に限定されない。

図８を参照すると、領域抽出フェーズと学習フェーズとに動作が分割されている。学習フェーズにおける各ステップは、本発明の第１の実施形態における対応するステップと同様に実行され得る。そこで、以下では、領域抽出フェーズについて主に説明する。

図８の領域抽出フェーズに示されるように、認識部３０Ｂは、所定の停止タイミングを検出するまで、Ｓ２１２〜Ｓ２１６を実行する（Ｓ２１１、Ｓ２１７）。まず、キャプチャー取得部３１０は、カメラ２０によって撮像された映像をキャプチャーすることによって映像を取得する（Ｓ２１２）。領域認識部３３０Ｂは、領域認識部３３０Ｂは、ステータス情報が得られる前から、カメラ２０によって撮像された動画像の動きを検出し始める。そして、領域認識部３３０Ｂは、動きのあった画素を抽出し（Ｓ２１３）、動きのあった画素に対応する第１の動き領域検出用データにおける値をカウントアップする（Ｓ２１４）。

そして、ステータス情報が得られた直後であれば、以下の処理が実行される。すなわち、領域認識部３３０Ｂは、ステータス情報が得られた直後から、動きのあった画素に対応する第２の動き領域検出用データにおける値をカウントアップする（Ｓ２１６）。領域認識部３３０Ｂは、所定の停止タイミングを検出すると、双方の動き領域検出用データ（第１の動き領域検出用データおよび第２の動き領域検出用データ）に基づいて、領域情報を取得し（Ｓ２１８）、記憶部３７０に保持させる（Ｓ２１９）。領域認識部３３０Ｂは、領域情報に基づいて、対象領域を設定する。

以上、本発明の第２の実施形態に係る画像処理システムの動作例について説明した。

（２．３．まとめ）
以上に説明したように、本発明の第２の実施形態によれば、領域認識部３３０Ｂは、所定のタイミング（例えば、ステータス情報の更新直後のタイミング）において動画像のうち動きがあった領域を特定し、動きがあった領域に基づいて、対象領域を設定することが可能である。したがって、領域設定済みのＡＴＭの画像が蓄積されていない場合、または、ＡＴＭが有する構造と同一または類似する構造を有する他のＡＴＭが存在しない場合であっても、対象領域の設定を簡便に行うことが可能である。また、本発明の第２の実施形態によれば、追加学習の進捗度合いを容易に把握することが可能である。

以上、本発明の第２の実施形態について説明した。

（３．第３の実施形態）
続いて、本発明の第３の実施形態について説明する。

（３．１．システムの構成例）
本発明の第３の実施形態に係る画像処理システムの構成例について説明する。図９は、本発明の第３の実施形態に係る画像処理システムの機能構成例を示す図である。図９に示されるように、本発明の第３の実施形態に係る画像処理システムは、本発明の第２の実施形態に係る画像処理システムと比較して、認識部３０Ｂの代わりに、認識部３０Ｃを有する点において異なる。また、認識部３０Ｃは、認識部３０Ｂと比較して、領域認識部３３０Ｂの代わりに領域認識部３３０Ｃを有する点において異なる。したがって、以下では、領域認識部３３０Ｃが有する機能について主に説明し、その他の構成の詳細な説明については省略する。

本発明の第２の実施形態では、ＡＴＭ１０のステータス情報を用いて、対象領域を設定する例を説明した。しかし、認識部３０ＢにおいてＡＴＭ１０のステータス情報を得るためには、認識部３０ＢとＡＴＭ１０とが接続されている必要がある。また、ＡＴＭ１０の種類やメーカーが変わったりした場合には、ステータス情報の仕様も変わる可能性があるため、ステータス情報の仕様を理解するのが手間になる。また、ステータス情報を得るためには、管理者の知識を要する。そこで、本発明の第３の実施形態においては、ステータス情報を用いずに、対象領域を設定する例について説明する。図９を参照すると、ＡＴＭ取引処理部１１０と認識部３０Ｃとは接続されていない。

本発明の第３の実施形態においては、領域認識部３３０ＣがＡＴＭ１０に挿入または排出されるオブジェクトの特徴量をあらかじめ学習しておく。ここで、ＡＴＭ１０に挿入または排出されるオブジェクトとしては、様々なオブジェクトが想定される。例えば、ＡＴＭ１０に挿入または排出されるオブジェクトとしては、紙幣、カード、レシートなどが想定される。

そして、領域認識部３３０Ｃは、ＡＴＭ１０に挿入または排出されるオブジェクトの特徴量に基づいて、カメラ２０によって撮像され、キャプチャー取得部３１０によって取得された動画像からオブジェクトの有無に変化が起こった場所を特定する。オブジェクトの有無に変化が起こった場所に応じた領域において、利用者による動作（正常な動作または異常な動作）がなされることが想定されるため、領域認識部３３０Ｃは、オブジェクトの有無に変化が起こった場所に基づいて、対象領域を設定する。

図１０は、カード挿入口においてカードの有無が変化する場合について説明するための図である。領域認識部３３０Ｃは、カードの特徴量をあらかじめ学習しておく。ここで、図１０を参照すると、ＡＴＭ１０−５はカード挿入口１５０を有している。そして、画像２１−１１は、このＡＴＭ１０−５の一部が撮像されて得られた画像である。画像２１−１１には、利用者がカード挿入口１５０にカード６１を挿入しようとしている様子が写っている。このときには、カード６１は、まだ画像２１−１１に存在している。

一方、画像２１−１２には、利用者がカード挿入口１５０にカード６１を挿入し終わった様子が写っている。このときには、カード６１が、画像２１−１２から無くなっている（消失している）。領域認識部３３０Ｃは、このように画像２１−１１および画像２１−１２に基づいて、カード６１が画像２１−１２から無くなった場所（消失した場所）を特定する。その後は、画像２１−１３に示されるように、領域認識部３３０Ｃは、カード６１の無くなった場所を基準とした所定形状の領域（例えば、矩形領域）を、対象領域として設定する。なお、カードの排出時においても同様に、領域認識部３３０Ｃは、カードの出現した場所に基づいて、対象領域を設定し得る。

図１１は、紙幣取出口において紙幣の有無が変化する場合について説明するための図である。領域認識部３３０Ｃは、紙幣の特徴量をあらかじめ学習しておく。ここで、図１１を参照すると、ＡＴＭ１０−５は紙幣取出口１３０を有している。そして、画像２１−２１は、このＡＴＭ１０−５の一部が撮像されて得られた画像である。画像２１−２１には、利用者が紙幣取出口１３０から紙幣を取り出そうとしている様子が写っている。このときには、紙幣は、まだ画像２１−２１に存在していない。

一方、画像２１−２２には、利用者が紙幣取出口１３０から紙幣６２を取り出し始めた様子が写っている。このときには、紙幣６２が、画像２１−２２に出現している。領域認識部３３０Ｃは、このように画像２１−２１および画像２１−２２に基づいて、紙幣６２が画像２１−２２に出現した場所を特定する。その後は、画像２１−２３に示されるように、領域認識部３３０Ｃは、紙幣６２が出現した場所を基準とした所定形状の領域（例えば、矩形領域）を、対象領域として設定する。なお、紙幣の排出時においても同様に、領域認識部３３０Ｃは、紙幣の消失した場所に基づいて、対象領域を設定し得る。

図１２は、紙幣取出口において紙幣の有無が変化する場合について説明するための図である。ここでも、領域認識部３３０Ｃは、紙幣の特徴量をあらかじめ学習しておく。ここで、図１２を参照すると、ＡＴＭ１０−６は紙幣取出口１３０を有している。この例では、紙幣取出口１３０がＡＴＭ１０−６の側面に存在する。そして、画像２１−３１は、このＡＴＭ１０−６の一部が撮像されて得られた画像である。画像２１−３１には、利用者が紙幣取出口１３０から紙幣を取り出そうとしている様子が写っている。このときには、紙幣は、まだ画像２１−３１に存在していない。

一方、画像２１−３２には、利用者が紙幣取出口１３０から紙幣６２を取り出し始めた様子が写っている。このときには、紙幣６２が、画像２１−３２に出現している。領域認識部３３０Ｃは、このように画像２１−３１および画像２１−３２に基づいて、紙幣６２が画像２１−３２に出現した場所を特定する。

なお、図１２に示されたように、ＡＴＭ１０−６の側面に紙幣取出口１３０が存在する場合などには、画像２１−３１および画像２１−３２に紙幣取出口１３０が直接写りにくい場合も想定される。しかし、画像２１−３１および画像２１−３２に紙幣取出口１３０が直接写りにくい場合であっても、紙幣６２の有無の変化する場所は容易に特定され得る。そのため、本発明の第３の実施形態によれば、画像２１−３１および画像２１−３２に紙幣取出口１３０が直接写りにくい場合であっても、より確実に対象領域が設定され得る。

その後は、画像２１−３３に示されるように、領域認識部３３０Ｃは、紙幣６２が出現した場所を基準とした所定形状の領域（例えば、矩形領域）を、対象領域として設定する。なお、紙幣の排出時においても同様に、領域認識部３３０Ｃは、紙幣の消失した場所に基づいて、対象領域を設定し得る。

以上、本発明の第３の実施形態に係る画像処理システムの構成例について説明した。

（３．２．システムの動作例）
続いて、本発明の第３の実施形態に係る画像処理システムの動作例について説明する。図１３は、本発明の第３の実施形態に係る画像処理システムの動作例を示すフローチャートである。なお、図１３に示された動作例は、本発明の第３の実施形態に係る画像処理システムの動作の一例に過ぎない。したがって、本発明の第３の実施形態に係る画像処理システムの動作は、図１３に示された動作例に限定されない。

図１３を参照すると、事前準備と領域抽出フェーズと学習フェーズとに動作が分割されている。学習フェーズにおける各ステップは、本発明の第１の実施形態における対応するステップと同様に実行され得る。そこで、以下では、事前準備と領域抽出フェーズについて主に説明する。なお、図１３には、オブジェクトの例として、紙幣を用いる場合の動作例を示している。

図１３の事前準備に示されるように、領域認識部３３０Ｃによってあらかじめ紙幣の特徴が学習される。続いて、図１３の領域抽出フェーズに示されるように、認識部３０Ｃは、所定の停止タイミングを検出するまで、Ｓ３２２を実行する（Ｓ３２１、Ｓ３２３）。まず、キャプチャー取得部３１０は、カメラ２０によって撮像された映像をキャプチャーすることによって映像を取得する。領域認識部３３０Ｃは、映像に基づいて、画像内で紙幣の有無に変化が起こる場所を特定する（Ｓ３２２）。

領域認識部３３０Ｃは、所定の停止タイミングを検出すると、特定した場所に基づいて、領域情報を取得し（Ｓ３２４）、記憶部３７０に保持させる（Ｓ３２５）。領域認識部３３０Ｃは、領域情報に基づいて、対象領域を設定する。

以上、本発明の第３の実施形態に係る画像処理システムの動作例について説明した。

（３．３．まとめ）
以上に説明したように、本発明の第３の実施形態によれば、領域認識部３３０Ｃは、ＡＴＭ１０に挿入または排出されるオブジェクトの特徴量に基づいて、動画像からオブジェクトの有無に変化が起こった場所を特定し、特定した場所に基づいて、対象領域を設定することが可能である。したがって、本発明の第３の実施形態によれば、ステータス情報を用いずに対象領域を設定できるため、認識部３０ＣとＡＴＭ１０とが接続されている必要なく、ステータス情報の仕様を理解する手間を低減し、管理者の要する知識も低減しつつ、対象領域の設定を簡便に行うことが可能である。また、本発明の第３の実施形態によれば、追加学習の進捗度合いを容易に把握することが可能である。

（４．第４の実施形態）
続いて、本発明の第４の実施形態について説明する。

（４．１．システムの構成例）
本発明の第４の実施形態に係る画像処理システムの構成例について説明する。図１４は、本発明の第４の実施形態に係る画像処理システムの機能構成例を示す図である。図１４に示されるように、本発明の第４の実施形態に係る画像処理システムは、本発明の第３の実施形態に係る画像処理システムと比較して、認識部３０Ｃの代わりに、認識部３０Ｄを有する点において異なる。また、認識部３０Ｄは、認識部３０Ｃと比較して、領域認識部３３０Ｃの代わりに領域認識部３３０Ｄを有する点において異なる。したがって、以下では、領域認識部３３０Ｄが有する機能について主に説明し、その他の構成の詳細な説明については省略する。

本発明の第３の実施形態では、画像内のオブジェクトの有無の変化を用いて、対象領域を設定する例を説明した。しかし、オブジェクトの有無が変化しない領域を対象領域として設定したい場合もあり得る。そこで、本発明の第４の実施形態においては、オブジェクトの有無の変化しない領域であっても、対象領域として設定する例について説明する。

本発明の第４の実施形態においては、領域認識部３３０Ｄがステータス情報とそのステータス情報の更新直後のタイミングにおける動画像との組み合わせをあらかじめ大量に学習しておく。これによって、学習検知部３４０は、ステータス情報の更新直後のタイミングにおける利用者の動きを推定可能な学習モデルを生成する。ステータス情報については、既に説明した通りである。

そして、領域認識部３３０Ｄは、ステータス情報が更新された直後において、カメラ２０によって撮像され、キャプチャー取得部３１０によって取得された複数の動画像と、学習モデルとに基づいて、ステータス情報が更新された直後において利用者の動きがあった場所を検出する。そして、領域認識部３３０Ｄは、ステータス情報が更新された直後において利用者の動きがあった場所に基づいて、対象領域を設定する。

図１５は、利用者によって暗証番号入力時の動きがあった場合について説明するための図である。図１５を参照すると、暗証番号入力を示すステータス情報が得られた直後の大量の動画像２１−４１が示されている。領域認識部３３０Ｄは、かかるステータス情報と大量の動画像２１−１とを大量に学習しておく。これによって、暗証番号入力時の利用者の動きを推定するための学習モデルを生成する。なお、暗証番号入力部１４０のように、暗証番号入力キーがカバーで覆われている場合などには、暗証番号入力が画像からでは検出されにくい場合があるが、ステータス情報の利用により、暗証番号入力は容易に検出され得る。

図１５を参照すると、学習モデルが生成された後において、カメラ２０によって撮像され、キャプチャー取得部３１０によってキャプチャーによって取得された画像２１−４２が示されている。画像２１−４２は、ステータス情報を用いずに取得された画像であってよい。領域認識部３３０Ｄは、生成した学習モデルと画像２１−４２とに基づいて、暗証番号入力時の利用者の動きを検出し、暗証番号入力時の利用者の動きがあった場所を特定する。その後は、画像２１−４３に示されるように、領域認識部３３０Ｄは、暗証番号入力時の動きがあった場所を基準とした所定形状の領域（例えば、矩形領域）を、対象領域として設定する。

以上、本発明の第４の実施形態に係る画像処理システムの構成例について説明した。

（４．２．システムの動作例）
続いて、本発明の第４の実施形態に係る画像処理システムの動作例について説明する。図１６は、本発明の第４の実施形態に係る画像処理システムの動作例を示すフローチャートである。なお、図１６に示された動作例は、本発明の第４の実施形態に係る画像処理システムの動作の一例に過ぎない。したがって、本発明の第４の実施形態に係る画像処理システムの動作は、図１６に示された動作例に限定されない。

図１６を参照すると、事前準備と領域抽出フェーズと学習フェーズとに動作が分割されている。学習フェーズにおける各ステップは、本発明の第１の実施形態における対応するステップと同様に実行され得る。そこで、以下では、事前準備と領域抽出フェーズについて主に説明する。なお、図１６には、利用者による動きの例として、暗証番号入力時の動きを用いる場合の動作例を示している。

図１６の事前準備に示されるように、領域認識部３３０Ｄによってあらかじめステータス情報と、そのステータス情報が得られた直後の動画像を大量に学習して学習モデルを生成し、学習モデルに基づいて暗証番号入力時の動きを推定できるようにする（Ｓ４１１）。続いて、図１６の領域抽出フェーズに示されるように、認識部３０Ｄは、所定の停止タイミングを検出するまで、Ｓ４２２およびＳ４２３を実行する（Ｓ４２１、Ｓ４２４）。まず、キャプチャー取得部３１０は、カメラ２０によって撮像された動画像をキャプチャーすることによって動画像を取得する。領域認識部３３０Ｄは、学習モデルに基づいて動画像から、暗証番号入力時の利用者の動きを検出する（Ｓ４２２）。

領域認識部３３０Ｄは、暗証番号入力時の利用者の動きに基づいて、暗証番号入力時の利用者の動きがあった場所を特定する（Ｓ４２３）。所定の停止タイミングを検出すると、領域認識部３３０Ｄは、特定した場所に基づいて、領域情報を取得し（Ｓ４２５）、記憶部３７０に保持させる（Ｓ４２６）。領域認識部３３０Ｄは、領域情報に基づいて、対象領域を設定する。

以上、本発明の第４の実施形態に係る画像処理システムの動作例について説明した。

（４．３．まとめ）
以上に説明したように、本発明の第４の実施形態によれば、領域認識部３３０Ｄは、ステータス情報が得られた直後における動画像を学習して、ステータス情報が得られた直後における利用者の動きを推定可能な学習モデルを生成し、学習モデルと動画像とに基づいて検出した利用者の動きがあった場所に基づいて、対象領域を設定する。したがって、本発明の第４の実施形態によれば、オブジェクトの有無が変化しない領域も対象領域とし簡便に設定することが可能である。また、本発明の第４の実施形態によれば、追加学習の進捗度合いを容易に把握することが可能である。

（５．各種の変形例）
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

例えば、上記では、領域認識部３３０は、１つの対象領域を設定する例について説明した。しかし、領域認識部３３０は、複数の対象領域を設定してもよい。このとき、画像処理部３２０は、対象領域ごとに特徴量を抽出し、学習検知部３４０は、特徴量を用いて対象領域ごとに追加学習を行い、学習状況判断部３５０は、追加学習の進捗度合いを対象領域ごとに取得してもよい。そして、通知部３６０は、追加学習の進捗度合いを対象領域ごとに管理者端末７０に通知してもよい。

また、上記では、対象領域の設定に利用された動画像が、追加学習に利用されることは想定していない。しかし、領域認識部３３０が、対象領域の設定に利用された動画像を記憶部３７０に保持しておけば、学習検知部３４０が、後に記憶部３７０から対象領域の設定に利用された動画像を取得し、追加学習に利用することも可能である。

また、本発明の第４の実施形態では、まず、領域認識部３３０Ｄが、ステータス情報と動画像とを学習して学習モデルを生成し、学習モデルに基づいて、ステータス情報が得られた直後の利用者の動きを検出する場合を説明した。しかし、領域認識部３３０Ｄは、ステータス情報と動画像とに基づいて、ステータス情報が得られた直後の利用者の動きのあった場所を検出した場合には、検出した利用者の動きのあった場所を利用して、対象領域を設定してもよい。

また、上記では、学習検知部３４０による追加学習の前に、対象領域が設定される場合を説明した。しかし、領域認識部３３０は、学習検知部３４０による追加学習が行われている間に、または、追加学習によって得られた識別器による認識が行われている間に、対象領域を変化させてもよい。

また、上記各実施形態においては、学習検知部３４０の事前学習を、データの正解ラベルである教師データと学習データとに基づいて行っているが、データの正解ラベルを必要としない方法（教師なし学習）で事前学習を行ってもよい。

１０（１０−１〜１０―６）ＡＴＭ（端末）
１１０ＡＴＭ取引処理部
１２０画面
１３０紙幣取出口
１４０暗証番号入力部
１５０カード挿入口
２０カメラ
３０（３０Ａ〜３０Ｄ）認識部
３１０キャプチャー取得部
３２０画像処理部
３３０（３３０Ａ〜３３０Ｄ）領域認識部
３４０学習検知部
３５０学習状況判断部
３６０通知部
３７０記憶部
４０サーバ
６１カード
６２紙幣
７０管理者端末
２４対象領域

Claims

利用者が操作する運用時の環境にある端末の一部または全部を写した映像を取得する映像取得部と、
前記映像における対象領域を設定する領域設定部と、
前記対象領域から特徴量を抽出する画像処理部と、
前記特徴量を用いて追加学習を行う学習部と、
前記追加学習の進捗度合いを取得する学習状況判断部と、
前記進捗度合いを通知する通知部と、
を備える、画像処理装置。
前記学習部は、前記追加学習として深層学習を用いる、
請求項１に記載の画像処理装置。
前記映像取得部は、あらかじめ撮像されて保存されている前記映像またはカメラによって撮像された前記映像をキャプチャーすることによって前記映像を取得する、
請求項１に記載の画像処理装置。
前記画像処理装置は、前記追加学習によって得られた識別器を用いて認識処理を行う認識処理部を備える、
請求項１に記載の画像処理装置。
前記認識処理部は、前記追加学習の進捗度合いに応じて前記認識処理による認識結果または前記認識結果の通知先を変更する、
請求項４に記載の画像処理装置。
前記領域設定部は、複数の対象領域を設定し、
前記画像処理部は、前記対象領域ごとに前記特徴量を抽出し、
前記学習部は、前記特徴量を用いて前記対象領域ごとに前記追加学習を行い、
前記学習状況判断部は、前記追加学習の進捗度合いを前記対象領域ごとに取得する、
請求項１に記載の画像処理装置。
前記学習部は、前記追加学習の前に教師データと学習データとに基づいて事前学習を行い、前記事前学習によって得られた学習結果と前記特徴量とを用いて前記追加学習を行う、
請求項１に記載の画像処理装置。
前記領域設定部は、前記端末が有する構造と同一または類似する構造を有する他の端末の領域情報に基づいて前記対象領域を設定する、
請求項１に記載の画像処理装置。
前記領域設定部は、所定のタイミングにおける動画像の動きに基づいて、前記対象領域を設定する、
請求項１に記載の画像処理装置。
前記領域設定部は、前記端末のステータス情報の更新タイミングに基づいて前記所定のタイミングを特定する、
請求項９に記載の画像処理装置。
前記領域設定部は、前記所定のタイミングにおいて前記動画像のうち動きがあった領域を特定し、前記動きがあった領域に基づいて、前記対象領域を設定する、
請求項９に記載の画像処理装置。
前記領域設定部は、前記所定のタイミングにおける動画像を学習して、前記所定のタイミングにおける利用者の動きを推定可能な学習モデルを生成し、前記学習モデルと動画像とに基づいて検出した利用者の動きがあった場所に基づいて、前記対象領域を設定する、
請求項９に記載の画像処理装置。
前記領域設定部は、前記端末に挿入または排出されるオブジェクトの特徴量に基づいて、動画像から前記オブジェクトの有無に変化が起こった場所を特定し、前記場所に基づいて、前記対象領域を設定する、
請求項１に記載の画像処理装置。
利用者が操作する運用時の環境にある端末の一部または全部を写した映像を取得することと、
前記映像における対象領域を設定することと、
前記対象領域から特徴量を抽出することと、
前記特徴量を用いて追加学習を行うことと、
前記追加学習の進捗度合いを取得することと、
前記進捗度合いを通知することと、
を含む、画像処理方法。
コンピュータを、
利用者が操作する運用時の環境にある端末の一部または全部を写した映像を取得する映像取得部と、
前記映像における対象領域を設定する領域設定部と、
前記対象領域から特徴量を抽出する画像処理部と、
前記特徴量を用いて追加学習を行う学習部と、
前記追加学習の進捗度合いを取得する学習状況判断部と、
前記進捗度合いを通知する通知部と、
を備える画像処理装置として機能させるためのプログラム。
利用者が操作する端末と、運用時の環境にある前記端末の一部または全部を写した映像を撮像するカメラと、画像処理装置と、を有する、画像処理システムであって、
前記画像処理装置は、
前記映像を取得する映像取得部と、
前記映像における対象領域を設定する領域設定部と、
前記対象領域から特徴量を抽出する画像処理部と、
前記特徴量を用いて追加学習を行う学習部と、
前記追加学習の進捗度合いを取得する学習状況判断部と、
前記進捗度合いを通知する通知部と、
を備える、画像処理システム。