JP2021105983A

JP2021105983A - 画像処理システム、画像処理方法、及び画像処理プログラム

Info

Publication number: JP2021105983A
Application number: JP2020170888A
Authority: JP
Inventors: 北岸　郁雄; Ikuo Kitagishi; 郁雄北岸; 篤司武藤; Atsushi Muto; エドワードウィリアムダニエルウィッタッカー; Wiliam Daniel Wittakkaa Edward; 田中　雅士; Masashi Tanaka; 雅士田中
Original assignee: Money Forward Inc
Current assignee: Money Forward Inc
Priority date: 2019-12-26
Filing date: 2020-10-09
Publication date: 2021-07-26
Also published as: JP2021105802A; JP6778314B1

Abstract

【課題】動画から複数の所定のオブジェクトの画像を抽出すると共に、適切に抽出できなかったと判断されるオブジェクトの画像が存在する場合、当該オブジェクトの画像の存在をユーザに分かりやすく通知可能な画像処理システム、画像処理方法、及び画像処理プログラムを提供する。【解決手段】画像処理システム１は、複数のオブジェクトを動画で撮像する動画撮像部１０と、動画の動画構成画像を抽出する構成画像抽出部１２と、動画構成画像に所定のオブジェクトが含まれているか否か判断するオブジェクト判断部１４と、所定のオブジェクトの特徴量の動画構成画像間の類似度を判断するマッチング処理部２２と、類似度に基づき、動画構成画像中の所定のオブジェクトが存在する領域、及び所定のオブジェクトが存在している可能性がある領域に所定の情報をオーバーレイするオーバーレイ部３０とを備える。【選択図】図１

Description

本発明は、画像処理システム、画像処理方法、及び画像処理プログラムに関する。特に、本発明は、動画中のオブジェクトを抽出可能な画像処理システム、画像処理方法、及び画像処理プログラムに関する。

従来、被写体を撮影する撮影手段と、被写体の全体が撮影された全体画像と、被写体の局所領域が撮影されている動画のフレームであるフレーム画像と、被写体の局所領域が撮影された中間画像であって、フレーム画像よりも高い解像度の中間画像とを取得する画像取得手段と、全体画像において所定の情報を含む情報領域を特定する第１の特定手段と、全体画像、フレーム画像及び中間画像それぞれの特徴点の取得する特徴点取得手段と、全体画像と中間画像との間で、類似する特徴量を有する特徴点同士の位置を比較することにより、全体画像における情報領域に対応する中間画像における情報領域の位置を特定し、かつ、中間画像とフレーム画像との間で、類似する特徴量を有する特徴点同士の位置を比較することにより、中間画像における情報領域に対応するフレーム画像における情報領域の位置を特定する第２の特定手段とを備える情報処理装置が知られている（例えば、特許文献１参照。）。特許文献１に記載の情報処理装置によれば、被写体に接近して撮影した画像において、所望の情報が含まれる領域を高い精度で特定することができる。

特開２０１８−５５３３８号公報

しかしながら、特許文献１に記載の情報処理装置においては、被写体の全体を含む画像の取得が前提となっており、被写体の一部が撮像領域から外れた場合や、撮像領域に複数の被写体が含まれている場合には、所定の情報を被写体から抽出することが困難である。

したがって、本発明の目的は、動画から複数の所定のオブジェクトの画像を抽出すると共に、適切に抽出できなかったと判断されるオブジェクトの画像が存在する場合、当該オブジェクトの画像の存在をユーザに分かりやすく通知可能な画像処理システム、画像処理方法、及び画像処理プログラムを提供することにある。

本発明は、上記目的を達成するため、複数のオブジェクトを動画で撮像する動画撮像部と、動画の動画構成画像を抽出する構成画像抽出部と、動画構成画像に所定のオブジェクトが含まれているか否か判断するオブジェクト判断部と、所定のオブジェクトの特徴量の動画構成画像間の類似度を判断するマッチング処理部と、類似度に基づき、動画構成画像中の所定のオブジェクトが存在する領域、及び所定のオブジェクトが存在している可能性がある領域に所定の情報をオーバーレイするオーバーレイ部とを備える画像処理システムが提供される。

また、本発明は、上記目的を達成するため、画像処理システム用の画像処理方法であって、複数のオブジェクトを含む動画の動画構成画像を抽出する構成画像抽出工程と、動画構成画像に所定のオブジェクトが含まれているか否か判断するオブジェクト判断工程と、所定のオブジェクトの特徴量の動画構成画像間の類似度を判断するマッチング処理工程と、類似度に基づき、動画構成画像中の所定のオブジェクトが存在する領域、及び所定のオブジェクトが存在している可能性がある領域に所定の情報をオーバーレイするオーバーレイ工程とを備える画像処理方法が提供される。

また、本発明は、上記目的を達成するため、画像処理システム用の画像処理プログラムであって、コンピュータに、複数のオブジェクトを含む動画の動画構成画像を抽出する構成画像抽出機能と、動画構成画像に所定のオブジェクトが含まれているか否か判断するオブジェクト判断機能と、所定のオブジェクトの特徴量の動画構成画像間の類似度を判断するマッチング処理機能と、類似度に基づき、動画構成画像中の所定のオブジェクトが存在する領域、及び所定のオブジェクトが存在している可能性がある領域に所定の情報をオーバーレイするオーバーレイ機能とを実現させる画像処理プログラム画像処理プログラムが提供される。

本発明に係る画像処理システム、画像処理方法、及び画像処理プログラムによれば、動画から複数の所定のオブジェクトの画像を抽出すると共に、適切に抽出できなかったと判断されるオブジェクトの画像が存在する場合、当該オブジェクトの画像の存在をユーザに分かりやすく通知可能な画像処理システム、画像処理方法、及び画像処理プログラムを提供できる。

本実施の形態に係る画像処理システムの概要図である。本実施の形態に係る画像処理システムの機能構成ブロック図である。本実施形態に係るマッチング処理の概要図である。本実施形態に係るノイズフィルタリングの概要図である。本実施形態に係る画像処理の概要図である。本実施形態に係る画像処理システムの処理のフロー図である。本実施形態に係る画像処理システムの処理の流れの一部の概要図である。本実施形態に係る画像処理システムの処理の変更例のフロー図である。

［実施の形態］
図１は、本発明の実施の形態に係る画像処理システムの概要を示す。

［画像処理システム１の概要］
本実施形態に係る画像処理システム１は、複数のオブジェクトを含む領域の動画を撮像し、撮像した動画から所定のオブジェクト及び／又は当該所定のオブジェクトに記載されている情報を自動的に抽出するシステムである。例えば、画像処理システム１は、撮像領域に複数の領収書（複数の領収書は、互いに形状・サイズ、表面の記載様式が異なっていてよい）、名刺、その他の紙片が複数存在している状態を動画撮像した場合に、これらの中から特定のオブジェクト、一例として、当該複数の領収書及び／又は当該複数の領収書に記載の情報を自動的に抽出する。画像処理システム１は、撮像領域にオブジェクトの少なくとも一部が含まれ、当該オブジェクトが所定のオブジェクトであるか否かを適切に抽出できないと判断した場合、適切に抽出できないと判断したオブジェクトが存在すると推定される領域をユーザにリアルタイムで分かりやすく通知することができる。この通知により、ユーザが当該オブジェクトについて再び動画を撮像することで、画像処理システム１は当該オブジェクトを動画から適切に抽出することができる。

例えば、図１に示すように、画像処理システム１が、所定の撮像領域の動画を撮像するカメラを有する情報端末２と、所定の情報処理を実行するサーバ３とを備え、情報端末２とサーバ３とが通信網４によって双方向通信可能に接続されている例を挙げて説明する。

まず、複数のオブジェクト（例えば、オブジェクト８０、オブジェクト８２、オブジェクト８４、オブジェクト８６、及びオブジェクト８８）が配置されており、これらを含む領域の動画を情報端末２のカメラで撮像する。図１（a）の例では、カメラの撮像領域１００に複数のオブジェクトの少なくとも一部が含まれている。なお、複数のオブジェクトは、例えばユーザが所定の場所に配置してよい。また、各オブジェクトの形状及び／又はサイズは互いに異なっていてもよい。ここでは、所定のオブジェクトとして、一例として、様々な形状・サイズを有し、様々な様式・書式で作成される領収書（レシート）である場合を想定し、説明する。

ここで、図１（ａ）においては、オブジェクト８２の一部が他のオブジェクト８０の下に配置されており、オブジェクト８４の一の隅が折りたたまれており、オブジェクト８８の多くの領域が撮像領域１００の外に存在している。ただし、オブジェクト８８を除いた他のオブジェクトの表面には、領収書の内容を把握する情報（例えば、日付、金額、電話番号等）が適切に表れているものとする。画像処理システム１は、複数のオブジェクトが撮像された動画から動画構成画像を抽出する。

次に、画像処理システム１は、動画構成画像に所定のオブジェクトが含まれているか否か、及び／又は所定のオブジェクトと考えられるオブジェクトが含まれているか否か（以下、単に「所定のオブジェクトが含まれているか否か」という。）を判断する。例えば、画像処理システム１は、動画構成画像に含まれるオブジェクトが所定のオブジェクトであるか否かを判定するための学習モデルを予め準備する。そして、画像処理システム１は、学習モデルを用い、動画構成画像に含まれている１以上のオブジェクトのそれぞれが所定のオブジェクトであるか否かを判断する。これにより、画像処理システム１は、動画構成画像に含まれる複数のオブジェクトそれぞれについて、所定のオブジェクト、及び／又は所定のオブジェクトと考えられるオブジェクトを認識できる（例えば、所定のオブジェクトが領収書である場合において、動画構成画像に領収書と領収書とは異なる物体とが含まれていた場合、画像処理システム１は、領収書については領収書として認識し、領収書とは異なる物体については領収書ではないと認識する。）。

この学習モデルは、一例として、予め取得した大量の所定のオブジェクトの画像や、所定のオブジェクトのエッジやコーナー、及び特徴点等の特徴量についての情報に基づいて生成された学習モデルであって、動画構成画像に含まれるオブジェクトが所定のオブジェクトであるか否かを判定するための学習モデルである。なお、画像処理システム１は、所定のオブジェクトを識別する識別子に対応付けて当該オブジェクトの特徴量に関する情報を格納するテーブルを用い、動画構成画像に含まれている１以上のオブジェクトのそれぞれが所定のオブジェクトであるか否かを判断してもよい。ただし、本実施形態においては、様々な形状・サイズの所定のオブジェクトに柔軟・迅速・的確に対応する観点から、学習モデルを用いて所定のオブジェクトであるか否かを判断することが好ましい。

次に、画像処理システム１は、動画構成画像に含まれる所定のオブジェクト、及び／又は所定のオブジェクトと考えられるオブジェクトそれぞれの特徴点等の１以上の特徴量を抽出し、特徴量の動画構成画像間の類似度を判別する（以下、「マッチング処理」という。）。つまり、画像処理システム１は、一の動画構成画像に含まれる１以上のオブジェクトそれぞれの１以上の特徴量と、他の動画構成画像に含まれる１以上のオブジェクトそれぞれの１以上の特徴量との類似度を判別する。これにより、画像処理システム１は、一の動画構成画像に含まれるオブジェクトと他の動画構成画像に含まれるオブジェクトとが同一であるか否かや、同一である確率が所定値以上であるか否かを判別できる。なお、本実施形態においては特に言及しない限り、「特徴量」は「特徴点」を含む概念、つまり、「特徴点」の上位概念として扱う（以下同じ。）。

続いて、画像処理システム１は、類似度に基づいて、動画構成画像中の所定のオブジェクトが存在する領域として、例えば、実質的に所定のオブジェクトの全体が含まれている領域を特定し、また、所定のオブジェクトが存在している可能性がある領域として、例えば、所定のオブジェクトの一部が存在している領域を特定する。例えば、画像処理システム１は、一の動画構成画像のオブジェクトの特徴量の数が所定数以上（特徴量群）であって、一の動画構成画像のオブジェクトの特徴量群と他の動画構成画像のオブジェクトの特徴量群との類似度が所定値以上の場合、当該オブジェクトの実質的に全体が動画構成画像に含まれていると判断し、当該オブジェクトの動画構成画像に占める領域を特定する。一方、画像処理システム１は、一の動画構成画像のオブジェクトの特徴量の数が所定数未満の場合や、一の動画構成画像のオブジェクトの特徴量群と他の動画構成画像のオブジェクトの特徴量群との類似度が所定値未満の場合（つまり、類似度が低い場合）、手振れやボケ等により動画構成画像に当該オブジェクトの全体が含まれているとは限らない（つまり、当該オブジェクトの一部しか動画構成画像に適切に含まれていないこと等により、動画構成画像に当該オブジェクトが適切に含まれていない）と判断し、動画構成画像において当該オブジェクトの一部が占める領域を特定する。

そして、画像処理システム１は、特定した領域に所定の画像やマーク等の情報をオーバーレイし、情報端末２の表示部に表示させる（オーバーレイ処理）。例えば、画像処理システム１は、所定のオブジェクトが存在する領域（実質的に全体が含まれ得ると判断されたオブジェクトの動画構成画像に占める領域）と、所定のオブジェクトが存在している可能性がある領域（一部しか含まれていないと判断されたオブジェクトの動画構成画像に占める領域）とに互いに異なる画像及び／又はマークを重畳表示する。

例えば、図１（ｂ）に示すように、画像処理システム１は、オブジェクト８０乃至オブジェクト８６については所定のオブジェクトであると判断した上で、マッチング処理の結果、動画構成画像中にこれらのオブジェクト（の全体）が存在するとし、これらのオブジェクトに所定のマーク（一例として、チェックマーク）及び／又は所定色のレイヤーを重畳表示する。また、画像処理システム１は、オブジェクト８８については所定のオブジェクトであると判断し得るものの、その一部しか撮像領域１００内に存在していないので、オブジェクト８８が存在する領域を所定のオブジェクトが存在している可能性がある領域と判断する。そして、画像処理システム１は、オブジェクト８８の表示領域に所定のマーク（一例として、エクスクラメーションマーク）及び／又は所定色（なお、この色はオブジェクト８０等に重畳表示するレイヤーとは異なる色であることが好ましい。）のレイヤーを重畳表示する。画像処理システム１は、所定のマーク及び／又は所定色のレイヤーを動画構成画像中のオブジェクトに重畳表示した状態を、情報端末２の表示部に表示させる。

これにより、ユーザは、撮像領域１００から所定のオブジェクトがはみ出しており（図１（ｂ）の例では、オブジェクト８８の一部が撮像領域１００からはみ出している）、所定のオブジェクトについて、少なくともその全体を含んでいないという点から、適切に撮像できなかった可能性があることを把握できる。そのため、ユーザは、情報端末２を用いて再度、オブジェクト８８の動画を撮像することができる。すなわち、画像処理システム１は、動画を撮像しながら「所定のオブジェクトが存在している可能性がある領域」をユーザに通知できるので、ユーザは撮像を中断せずに引き続き動画撮像を続行し、適切に撮像できなかったオブジェクトを把握できる。

そして、画像処理システム１は動画を撮像しているので、撮像領域内の複数の所定のオブジェクトそれぞれの動画構成画像を抽出した場合、一の所定のオブジェクトに対し、複数の動画構成画像が存在していることになる。そこで、画像処理システム１は、複数の動画構成画像から複数のオブジェクトそれぞれについて、オブジェクト表面の各種情報を取得することが適切にできる動画構成画像と判断される画像である代表画像を選択する。画像処理システム１は選択した代表画像に所定の画像処理を施し、例えば、光学文字認識（ＯＣＲ）により読み取り可能なデータとして格納する。

そして、画像処理システム１は、当該データに基づいて、動画に含まれる所定のオブジェクトの表面に記載された情報を読み取り、読み取った内容を情報端末２等の表示部等に出力できる。例えば、所定のオブジェクトが領収書である場合、画像処理システム１は、図１（ｃ）に示すように、複数の領収書を撮像領域１００に含む動画を撮像して生成したＯＣＲ読み取り可能なデータを実際に読み取り、読取の結果２００を情報端末２の表示部等に出力させてもよい。この場合、画像処理システム１は、例えば、所定のオブジェクトが領収書の場合、各領収書の具体的な内容として、領収書記載の日付や発行会社、及び金額を含む内容２０２及び内容２０４等を出力させることができる。更に、画像処理システム１は、読み取った情報を格納し、格納した情報を画像処理システム１外の会計システムや家計簿システム等に引き渡すこともできる（なお、画像処理システム１は、読み取った情報を直接、画像処理システム１外の会計システム等に引き渡してもよい。）。

これにより、画像処理システム１によれば、複数のオブジェクトを１枚１枚撮像することやスキャナでスキャンすることを要せず、複数のオブジェクトを机の上等に配置した状態を動画撮像するか、あるいはカメラの前で複数のオブジェクトをパラパラめくる様子を動画撮像するだけで、複数のオブジェクトそれぞれを識別すると共に各オブジェクト表面の情報を適切に抽出できる。したがって、オブジェクトが例えば様々な形状や様式で作成される領収書等である場合、膨大な枚数の領収書の処理を要する会計事務所や多くの枚数の領収書の処理を要する個人事業主等、又は家計簿等を作成する様々な人々の会計や経理等の処理の手間を低減させユーザビリティを向上させることができる。また、画像処理システム１は、動画撮像時に適切に情報を抽出できなかった領収書を特定し、当該領収書がどの領収書であるかユーザに分かりやすく通知することで、領収書の読み取りミスを低減することもできる。更に、画像処理システム１は、撮像領域を再撮像する場合、既に抽出した領収書の特徴量を記憶し、再撮像の動画構成画像を都度、マッチングすることもできる。これにより、画像処理システム１は、再撮像する場合において、既に撮像して抽出した領収書については再撮像の対象から除外することもできる。

なお、画像処理システム１は、オーバーレイ処理後、代表画像の選択においてＯＣＲに最も適した代表画像を選択することを目的として、クラスタリングを実行してもよい。

すなわち、上記学習モデルを用いて画像処理システム１が、動画構成画像に含まれるオブジェクトが所定のオブジェクトである、及び／又は所定のオブジェクトと考えられるオブジェクトであると判断した場合、上記の通り画像処理システム１は、各オブジェクトそれぞれについて、オブジェクトの複数の特徴量（特徴量群）を抽出する。そして、画像処理システム１は、オーバーレイ処理実行後、抽出した特徴量群を用い、動画構成画像をクラスタリングする。動画撮像していることから複数の動画構成画像それぞれに所定のオブジェクトが含まれる。これを放置すると、すべての動画構成画像から複数の一の所定のオブジェクトが抽出される場合がある。したがって、画像処理システム１は、クラスタリングにより、抽出した所定のオブジェクト及び／又は所定のオブジェクトと考えられるオブジェクトそれぞれについて個別のオブジェクトとして認識、分類（クラスター化）できるようにする（つまり、一のオブジェクトが１個だけ存在する場合において、動画撮像すると複数の動画構成画像それぞれに一のオブジェクトが含まれることになる。この場合に、一のオブジェクトが複数存在すると認識するのではなく、クラスタリングにより一のオブジェクトが１個存在すると認識、分類できるようにする。）。

このクラスタリングは、クラスタリングに要求される情報処理量に応じ、サーバ３においてリアルタイムで実行されてよい。このクラスタリングにおいて画像処理システム１は、動画構成画像に含まれている所定のオブジェクトが存在している領域、及び／又は所定のオブジェクトと考えられるオブジェクトが存在している可能性がある領域を推定してもよい。これにより、画像処理システム１は、動画構成画像に実質的に所定のオブジェクトの全体が含まれている領域、及び／又は所定のオブジェクトが存在している可能性がある領域を推定できる。

そして、画像処理システム１は、クラスタリングの結果に基づいて、動画構成画像中の所定のオブジェクトが存在する領域として、実質的に所定のオブジェクトの全体が含まれている領域と、所定のオブジェクトが存在している可能性がある領域として、所定のオブジェクトの一部が存在している領域との少なくとも一つを特定する。そして、画像処理システム１は、クラスタリングの結果に基づいて、実質的に所定のオブジェクトの全体が含まれている領域を有する動画構成画像を、代表画像として選択できる。なお、画像処理システム１は、動画構成画像に所定のオブジェクトが存在すると判断され、クラスタリングによりそのオブジェクトの一部しか含まれていないと判断された領域について「所定のオブジェクトが存在している可能性がある領域」を有する動画構成画像であると判断できる。

なお、本実施形態においてオブジェクトは、同一形状、若しくは互いに異なる形状を有し、平面的な形状を有するオブジェクトである。オブジェクトの形状に特に限定はないが、例えば、四辺形状であってよく、四隅や四辺の少なくとも一部が欠損していてもよい。また、オブジェクトのサイズにも特に限定はない。そして、オブジェクトの表面には、様々な様式で、各種の情報（テキスト情報、図形情報、手書きの文字や数字、図形等）が印字、印刷、及び／又は記載等されていてよい。オブジェクトとしては、一例として、見積書、請求書、及び／又は領収書等が挙げられるがこれらに限られない。オブジェクトが領収書等である場合、オブジェクト表面に記載されている情報としては、発行年月日、発行時刻、宛名、金額、摘要、発行者名、及び／又は発行者の電話番号等の情報が挙げられる。したがって、本実施形態に係る画像処理システム１が撮像する動画には、様々な形状、様々なサイズの複数のオブジェクトであって、表面に様々な情報が記載されている複数のオブジェクトの画像が含まれていてよい。すなわち、画像処理システム１が撮像する複数のオブジェクトそれぞれの形状、サイズ、及び／又は表面に記載の情報は、それぞれ異なっていてよい。画像処理システム１は、複数のオブジェクトから、所定のオブジェクトのみを抽出できる。

また、情報端末２は、携帯通信端末やスマートフォン、ノートパソコン、及び／又はタブレット型ＰＣ等であってよく、動画撮像可能な撮像装置に接続可能なＰＣ等の情報端末や時計等であってもよい。更に、通信網４は、携帯電話網、及び／又はインターネット等の通信網である。通信網４は、有線ＬＡＮ及び無線ＬＡＮ等の通信ネットワークを含むこともできる。そして、以下において本実施形態に係る画像処理システム１の詳細を説明するが、上記説明及び下記説明における名称や数値、数量等はあくまで例示であり、これらの名称や数値、数量等に限定されることはないことを付言する。

［画像処理システム１の構成の詳細］
図２は、本発明の実施の形態に係る画像処理システムの機能構成の一例を示す。

＜画像処理システム１の構成の概要＞
画像処理システム１は、動画を撮像する動画撮像部１０と、動画から動画構成画像を抽出する構成画像抽出部１２と、動画構成画像中のオブジェクトを検出するオブジェクト判断部１４と、オブジェクトの特徴量を抽出する特徴量抽出部１６と、オブジェクトのエッジを検出するエッジ検出部１８と、関心領域を検出する関心領域検出部２０と、動画構成画像間の類似度を判断するマッチング処理部２２と、クラスタリングを実行するクラスタリング部２６と、ノイズを除去するノイズフィルタリング部２８と、オーバーレイを実行するオーバーレイ部３０と、代表画像を選択する代表画像選択部３２と、画像に所定の処理を施す画像処理部３４と、オブジェクトの方向を調整する方向調整部３６と、所定の情報を格納する情報格納部３８と、学習モデルを生成する学習モデル生成部４０と、所定の情報の入力を受け付ける入力部４２と、所定の情報を出力する出力部４４と、オブジェクト表面のテキストデータ等を読み取る読取部４６とを備える。

なお、画像処理システム１は、上記複数の構成要素を物理的に同一の場所に有するだけでなく、上記複数の構成要素の一部を物理的に離れた位置に設置してもよい。例えば、画像処理システム１は、情報端末２と当該情報端末２に通信網４等で接続されるサーバ３とを備えて構成してもよく、情報端末２が上記複数の構成要素の一部を備え、サーバ３が残りの構成要素を備える構成を採用してもよい。なお、サーバは、複数のサーバの集合体であってもよく、この場合、各サーバが動画撮像部１０を除く他の構成要素の一部若しくはすべてを担う。また、画像処理システム１は、動画撮像部１０を有する撮像装置と、動画撮像部１０を除く他の構成要素を有する１以上の画像処理装置とから構成してもよい。「１以上の画像処理装置」を複数の処理装置で構成する場合、動画撮像部１０を除く他の構成要素を、情報処理能力や果たすべき機能に応じ、各処理装置に適宜割り振ることができる。

＜画像処理システム１の構成の詳細＞
（動画撮像部１０、構成画像抽出部１２）
動画撮像部１０は、撮像領域の動画を撮像する。動画撮像部１０は、撮像領域に含まれる複数のオブジェクトを動画で撮像する。なお、動画撮像部１０は、フレームレートを適宜調整して動画を撮像してもよい。動画撮像部１０は、撮像した動画を構成画像抽出部１２に供給する。構成画像抽出部１２は、動画撮像部１０から受け取った動画から動画構成画像を抽出する。構成画像抽出部１２は、動画から複数の動画構成画像を抽出する。ここで、動画構成画像とは、フレーム画像、フィールド画像、及びその他の動画を構成する様々な形式の画像である。構成画像抽出部１２は、抽出した動画構成画像をオブジェクト判断部１４、特徴量抽出部１６、エッジ検出部１８、及び関心領域検出部２０に供給する。

（オブジェクト判断部１４、学習モデル生成部４０）
オブジェクト判断部１４は、構成画像抽出部１２から受け取った動画構成画像に所定のオブジェクトが含まれているか否か（所定のオブジェクトが存在している可能性があるか否かを含む。以下同じ。）を判断する。オブジェクト判断部１４は、動画構成画像に所定のオブジェクトが含まれているか否かや、所定のオブジェクトの動画構成画像中における位置及び／又は所定のオブジェクトが動画構成画像中で占める領域を判断する。オブジェクト判断部１４は、既知の画像認識技術や機械学習を用いて当該判断を実行できる。例えば、オブジェクト判断部１４は、所定のオブジェクトの特徴（オブジェクトの画像等の特徴）に関する予め準備した学習モデルを用いて動画構成画像に所定のオブジェクトが含まれているか否か判断する。すなわち、オブジェクト判断部１４は、ニューラルネットワークを用いて大量の所定のオブジェクトの画像について学習させることにより構築された学習モデルを用いた推論処理により、所定のオブジェクトが動画構成画像に含まれているか否かを判断する。例えば、オブジェクト判断部１４は、動画構成画像から抽出されるオブジェクトの画像中での特徴と当該学習モデルとを用い、動画構成画像に所定のオブジェクトが存在している可能性があるか否か、及び動画構成画像の各オブジェクトが所定のオブジェクトであるか否かを判断する。なお、後述する特徴量抽出部１６の抽出結果とエッジ検出部１８の検出結果との双方を併用することで、オブジェクト判断部１４における判断の精度を向上させることができる。

具体的に、学習モデル生成部４０は、複数のオブジェクトそれぞれの特徴と当該特徴に対応する所定のオブジェクトの種類との組み合わせを含む教師データを取得若しくは生成し、取得若しくは生成した複数の教師データに基づき、複数の動画構成画像を入力、対応する所定のオブジェクトの種類を出力とする学習モデルを生成する。そして、オブジェクト判断部１４は、学習モデル生成部４０が生成した学習モデルに基づいて動画構成画像に含まれるオブジェクトが、所定のオブジェクトであるか否か、所定のオブジェクトである可能性があるか否かを特定する。オブジェクト判断部１４は、このような学習モデルを用いて動画構成画像に含まれるオブジェクトが所定のオブジェクトであるか否か、所定のオブジェクトである可能性があるか否かを判断できるので、例えば、所定のオブジェクトとしての領収書を除く他のオブジェクトである四辺形状の物体（例えば、書籍や商品パッケージ等）を領収書として認識しないようにすることができる。また、オブジェクト判断部１４は、このような学習モデルを用いて所定のオブジェクトの有無を判断できるので、例えば、所定のオブジェクトの色と背景色とのコントラストが低い場合（一例として、背景が白であり、所定のオブジェクトの色も白に近い色である場合）であっても、所定のオブジェクトを認識できる。オブジェクト判断部１４は、判断結果を特徴量抽出部１６、オーバーレイ部３０に供給する。

（特徴量抽出部１６）
特徴量抽出部１６は、動画構成画像に含まれるオブジェクトの特徴点等の特徴量を抽出する。特徴量抽出部１６は、構成画像抽出部１２から受け取った動画構成画像に含まれるオブジェクトであって、オブジェクト判断部１４が所定のオブジェクト及び／又は所定のオブジェクトである可能性があると判断したオブジェクトの特徴点等の特徴量を抽出する（以下、特に言及しない限り、「所定のオブジェクト」とは、所定のオブジェクト及び所定のオブジェクトである可能性があるオブジェクトの双方を含むものとする。）。特徴量抽出部１６は、動画構成画像に含まれる１つ以上の所定のオブジェクトそれぞれの１つ以上の特徴点及び各特徴点等の特徴量を抽出できる。本実施形態において、一のオブジェクトの１つ以上の特徴点を特徴点群と称する場合がある。また、特徴量抽出部１６は、動画構成画像において、所定のオブジェクトが含まれていないと判断された領域の特徴量を削除することもできる。つまり、特徴量抽出部１６は、所定のオブジェクトの特徴量（群）を除く他の特徴量（群）を削除できる。なお、特徴量抽出部１６が抽出した特徴量（群）からオブジェクトのエッジ推定が可能である場合、エッジ検出部１８のエッジ検出処理及び／又は後述する関心領域検出部２０の関心領域検出処理を省略できる。

特徴量抽出部１６は、従来公知のアルゴリズムを用いることができる。例えば、特徴量抽出部１６は、ＭａｘｉｍａｌｌｙＳｔａｂｌｅＥｘｔｅｒｍａｌＲｅｇｉｏｎｓ（ＭＳＥＲ）、ＦｅａｔｕｒｅｓｆｒｏｍＡｃｃｅｌｅｒａｔｅｄＳｅｇｍｅｎｔＴｅｓｔ（ＦＡＳＴ）、Ｏｒｉｅｎｔｅｄ−ＢＲＩＥＦ（ＯＲＢ）、Ｓｃａｌｅ−ＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ（ＳＩＦＴ）、Ｓｐｅｅｄ−ＵｐＲｏｂｕｓｔＦｅａｔｕｒｅｓ（ＳＵＲＦ）等のアルゴリズムを用い、オブジェクトの特徴点やその特徴量を抽出できる。なお、ＯＲＢ、ＳＩＦＴ、及びＳＵＲＦにおいては、特徴点の抽出、及び特徴量の算出が可能であり、ＭＳＥＲ及びＦＡＳＴにおいては、特徴点の抽出後、ＯＲＢ、ＳＩＦＴ、又はＳＵＲＦ等を用いて特徴量の算出ができる。なお、特徴量抽出部１６が動画構成画像に含まれるオブジェクトの特徴点及び特徴量を抽出した後、撮像領域内における当該オブジェクトの位置が変化した場合であっても、抽出した特徴点を用いて変化後の当該オブジェクトの撮像領域内における位置を追跡できる。特徴量抽出部１６は、抽出した特徴量に関する情報をオブジェクト判断部１４、マッチング処理部２２、及びクラスタリング部２６に供給する。

（エッジ検出部１８）
エッジ検出部１８は、構成画像抽出部１２から受け取った動画構成画像に含まれるオブジェクトのエッジを動画構成画像の各ピクセル間の輝度差等に基づいて検出する。なお、本実施形態においては、特徴量抽出部１６が抽出した特徴量を用いてオブジェクトのエッジ推定ができる。ここで、画像処理システム１は、エッジ検出部１８を併用することで、エッジ検出の精度を向上させることができる。例えば、オブジェクトの色と背景の色とのコントラストが所定レベル以上の場合であってオブジェクトの形状が略四辺形の場合、エッジ検出部１８がオブジェクトのエッジを検出することで、当該オブジェクトのエッジをより精度よく特定できる。エッジ検出部１８は、検出したエッジに関する情報をオブジェクト判断部１４に供給する。

（関心領域検出部２０）
関心領域検出部２０は、構成画像抽出部１２から受け取った動画構成画像から関心領域（ＲｅｇｉｏｎｏｆＩｎｔｅｒｅｓｔ：ＲＯＩ）を検出する。関心領域検出部２０は、検出した関心領域を用い関心領域画像を生成してもよい。関心領域検出部２０における関心領域の検出アルゴリズムとしては、従来公知の様々なアルゴリズムを採用できる。関心領域検出部２０は、例えば、動画構成画像から所定のオブジェクトの表面に記載された各種の情報の領域を検出する。具体的に、関心領域検出部２０は、所定のオブジェクトを認識する場合において、予め関心領域を検出する学習をさせることで、所定のオブジェクトの表面に記載された各種の情報の領域を認識することができるようになる。例えば、所定のオブジェクトが領収書である場合、関心領域検出部２０は、領収書に記載の日付、金額、電話番号等の領域を認識し、検出する。関心領域検出部２０の検出結果を特徴量抽出部１６の抽出結果等と併用することで、後述するマッチング処理部２２でのマッチング処理や情報の読み取り、そして情報抽出の精度を向上させることができる。

なお、関心領域検出部２０は、所定のオブジェクトを含む動画構成画像、所定のオブジェクトではない他のオブジェクトを含む動画構成画像、及び様々な背景における所定のオブジェクトを含む動画構成画像と、所定のオブジェクトの関心領域に関する情報との組み合わせを含む教師データを生成し、生成した複数の教師データに基づき、入力が複数の動画構成画像であり、出力が対応する所定のオブジェクトの関心領域に関する情報である学習モデルを生成してもよい。関心領域検出部２０は、生成した学習モデルを用い、動画構成画像から関心領域を検出してよい。この場合、関心領域検出部２０は、関心領域の位置関係に基づいて所定のオブジェクトの縦横比を推定若しくは検出してもよい。そして、関心領域検出部２０は、関心領域検出の学習を実行して得られた各種の情報の領域のそれぞれを識別可能なラベルを付した学習データを生成することができる。関心領域検出部２０は、検出した関心領域に関する情報をマッチング処理部２２、クラスタリング部２６に供給する。

（マッチング処理部２２）
マッチング処理部２２は、特徴量抽出部１６が抽出した１以上の特徴量の情報、及び／又は関心領域検出部２０が検出した関心領域の情報に基づいて、動画構成画像間の類似性の情報を取得する。具体的に、マッチング処理部２２は、所定のオブジェクトの複数の特徴量の動画構成画像間の類似度を判断する。マッチング処理部２２は、所定のオブジェクトが動画構成画像に含まれているとオブジェクト判断部１４が判断した場合、一の動画構成画像に含まれている１以上の所定のオブジェクトそれぞれと、他の動画構成画像に含まれている１以上の所定のオブジェクトそれぞれとの類似度を判断する。すなわち、マッチング処理部２２は、特徴量抽出部１６が抽出した複数の特徴量に基づいて類似度を判断する。例えば、マッチング処理部２２は、一の動画構成画像に含まれている１以上の所定のオブジェクトそれぞれの１以上の特徴量と、他の動画構成画像に含まれている対応する１以上の所定のオブジェクトそれぞれの１以上の特徴量とを比較する。そして、マッチング処理部２２は、例えば、一の動画構成画像に含まれる一の所定のオブジェクトの複数の特徴量と他の動画構成画像に含まれる一の所定のオブジェクトの複数の特徴量との重なり度合いが高いほど、一の動画構成画像の一の所定のオブジェクトと他の動画構成画像の一の所定のオブジェクトとの類似度が高いと判断する。マッチング処理部２２は、マッチング結果を示す情報（類似度の判断結果を示す情報）を、クラスタリング部２６、オーバーレイ部３０、代表画像選択部３２に供給する。

ここで、マッチング処理部２２は、従来公知の様々なアルゴリズムを採用できる。マッチング処理部２２が採用するアルゴリズムとして特に限定されないが、例えば、ＯｒｉｅｎｔｅｄＦＡＳＴａｎｄＲｏｔａｔｅｄＢＲＩＥＦ（ＯＲＢ）、ＡｃｃｅｌｅｒａｔｅｄＫＡＺＥ（ＡＫＡＺＥ）、又はＧｏｏｄＦｅａｔｕｒｅｓＴｏＴｒａｃｋ等が挙げられる。なお、ＯＲＢ及びＡＫＡＺＥを用いる場合、マッチングされた特徴量のうち、相似性の指標であるハミング距離（ＨａｍｍｉｎｇＤｉｓｔａｎｃｅ）が一定のしきい値より下の特徴量のみを特徴量とするＲａｔｉｏＴｅｓｔや、２つの動画構成画像の一方から他方の動画構成画像の特徴量をマッチングすると共に、他方から一方の動画構成画像（つまり、反対側）の特徴量をマッチングし、それらに共通にマッチングされた特徴量を特徴量とするＲｅｃｉｐｒｏｃｉｔｙＴｅｓｔを併用することで、マッチングの正確性をより向上させることができる。

図３は、本実施形態に係るマッチング処理の一例の概要を示す。

一例として、マッチング処理部２２は、一の動画構成画像に含まれる所定のオブジェクトを特徴づける１以上の点（ピクセル）を探索し、他の動画構成画像の１以上の点（ピクセル）と比較することで、マッチング数として動画構成画像同士の類似性を取得することができる。マッチング数が多いほど、類似性が高くなる。例えば、図３（ａ）はオブジェクト８３とオブジェクト８５とのマッチング数の結果を画像で示した例であり、図３（ｂ）はオブジェクト８３とオブジェクト８７とのマッチング数の結果を画像で示した例である。そして、図３（ｃ）は、オブジェクト８３とオブジェクト８９及びオブジェクト８９ａとのマッチング数の結果を画像で示した例である。

ここで、図３（ａ）においてオブジェクト８３とオブジェクト８５とは同一のオブジェクトであり、マッチング数が所定数以上、存在している。その結果、マッチング処理部２２は、オブジェクト８３とオブジェクト８５とがマッチングするとし、類似性が高いオブジェクト（若しくは実質的に同一のオブジェクト）であると判断する。一方、図３（ｂ）においては、オブジェクト８３とオブジェクト８７とは互いに異なるオブジェクトであり、マッチング数が所定数未満である。その結果、マッチング処理部２２は、オブジェクト８３とオブジェクト８７とがマッチングしないとし、類似性が低いオブジェクトであると判断する。更に、図３（ｃ）においては、オブジェクト８９及びオブジェクト８９ａが撮像領域にそれらの全体が含まれておらず、マッチング数がいずれも所定数未満である。その結果、マッチング処理部２２は、オブジェクト８３とオブジェクト８９及びオブジェクト８９ａとがマッチングしないとし、類似性が低いオブジェクトであると判断する。このように、マッチング処理部２２は、マッチング数（図３においては直線の数）の多寡若しくは密度に応じ、動画構成画像同士の類似性を判断できる。なお、マッチング処理部２２は、各特徴量の相対位置関係を利用してマッチング処理を実行してもよい。

なお、マッチング処理部２２が関心領域部分について同様の比較（つまり、マッチング）を単独、若しくは併用して実行することで、オブジェクトの選別精度を向上させることができる。

（クラスタリング部２６）
クラスタリング部２６は、特徴量、特徴量群、及び／又は関心領域に関する情報に基づき動画構成画像を分類する。すなわち、クラスタリング部２６は、画像の特徴量に基づいて動画構成画像を分類することができる（一例として、クラスタリング部２６は、ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ（ＤＮＮ）を用いて分類を実行できる。）。また、例えば、クラスタリング部２６は、マッチング処理部２２から受け取ったマッチング結果を示す情報を用い、動画構成画像を分類（クラスタリング）することができる。クラスタリング部２６は、動画撮像中、リアルタイムでクラスタリングを実行することもできる。これにより、複数の動画構成画像のそれぞれに表示されている一のオブジェクトが、すべて同一の一のオブジェクトと認識されることになる。なお、クラスタリング部２６は、従来公知のクラスタリングのアルゴリズムを用いてよい。クラスタリング部２６は、クラスタリングの結果をノイズフィルタリング部２８、代表画像選択部３２に供給する。

例えば、クラスタリング部２６は、マッチング処理部２２でマッチングされた特徴量のマッチング数の上限を設定すると共にマッチング数に所定の閾値を設定する。そして、クラスタリング部２６は、マッチング処理部２２から取得したマッチング結果を示す情報を参照し、一の動画構成画像に含まれるオブジェクトと他の動画構成画像に含まれるオブジェクトとのマッチング数が閾値以上の場合、一の動画構成画像中のオブジェクトと他の動画構成画像中のオブジェクトとが同一のオブジェクトであると判断する。そして、クラスタリング部２６は、一の動画構成画像中のオブジェクトと他の動画構成画像中のオブジェクトとのマッチング結果をマッチング数を用いてリスト化し、例えば、マッチング数の降順若しくは昇順でリスト結果をソートする。次に、クラスタリング部２６は、ソートしたリストを用い、同一のオブジェクトであるとみなした動画構成画像中のオブジェクトを一つのクラスタにし、分類する。これによりクラスタリング部２６は、動画構成画像のクラスタリングを実行できる。

また、クラスタリング部２６は、クラスタリングで生成するクラスタの空間的バラツキ度合いに閾値を設けることでオブジェクトが正常に抽出されたクラスタとオブジェクトの抽出ができなかった抽出ミスのクラスタとを区別し、仮に閾値を下回った場合であってもクラスタ自体は存在していることから、最大のクラスタの重心の特徴量を抽出し（又は、最大のクラスタに限らず、所定の大きなクラスタ近傍のクラスタにまとめられた特徴量を積分して特徴量を抽出し）、そこをオブジェクトが占める領域と推定できる。すなわち、クラスタリング部２６は、クラスタリングの結果を用い、所定の閾値に満たないクラスタ、若しくはバラツキが大きなクラスタについて、所定のオブジェクト（例えば、領収書等）が存在する可能性がある領域であると判断することができる。そして、オーバーレイ部３０は、クラスタリング部２６の処理の結果に基づいて、当該クラスタに分類された特徴量を有するエリアにオーバーレイをしてもよい。

（ノイズフィルタリング部２８）
図４は、本実施形態に係るノイズフィルタリングの一例の概要を示す。図４においては左から右に向けて時間が進行している様子を示す。

ノイズフィルタリング部２８は、クラスタリング結果に基づき、ノイズを除去する。例えば、クラスタリング部２６は、マッチング処理部２２から受け取ったマッチング結果を示す情報を用いて動画構成画像をクラスタリングすると、時系列に沿ってクラスタが成長する。そして、ノイズフィルタリング部２８は、１以上のクラスタの成長が止まった時点において、１以上のクラスタが一のオブジェクトのクラスタであると判断する。更に、ノイズフィルタリング部２８は、成長が止まったクラスタ近傍に新たなクラスタが発生した場合、この新たなクラスタはノイズである可能性が高いと判断し、ノイズのクラスタを除去する。

例えば、動画に一のオブジェクトが含まれ始めた場合（つまり、フレームインした場合）、図４（ａ）に示すように、クラスタリング部２６は、一のオブジェクトの特徴量に基づくクラスタ６００を生成する。そして、クラスタリング部２６は、動画撮像の時間経過に沿ってクラスタを生成する。例えば、図４（ｂ）に示すように、クラスタリング部２６によって、一のオブジェクトに基づくクラスタ６００が成長すると共に、一のオブジェクトに基づくクラスタ６０２及びクラスタ６０４が新たに生成される。そして、更に動画撮像が進むと、図４（ｃ）に示すように、一のオブジェクトに基づくクラスタ６００、クラスタ６０２、及びクラスタ６０４が成長すると共に、一のオブジェクトに基づくクラスタ６０６が新たに生成される。続いて、図４（ｄ）に示すように、この時点で他のオブジェクトが動画に含まれ始めた場合（つまり、他のオブジェクトがフレームインした場合）、他のオブジェクトに基づくクラスタ群７００が生成される。更に、図４（ｅ）に示すように、動画に一のオブジェクトが映らなくなった場合（つまり、一のオブジェクトがフレームアウトした場合）、一のオブジェクトに基づくクラスタ群６１０の成長が止まる。その後、図４（ｆ）に示すように、一のオブジェクトに基づくクラスタ群６１０の近傍に新たにクラスタ８００が発生した場合、ノイズフィルタリング部２８は、このクラスタ８００がノイズに基づく可能性が高いと判断する。

ここで、検出されたノイズは、撮像したオブジェクトの特徴量である可能性がある。そこで、ノイズフィルタリング部２８は、検出されたノイズに関する情報を収集して学習することで、誤検出モデルのデータとして活用し、ノイズフィルタとしての機能を向上させることができる。

（オーバーレイ部３０）
オーバーレイ部３０は、類似度に基づき、動画構成画像中の所定のオブジェクトが存在する領域、及び／又は所定のオブジェクトが存在している可能性がある領域に所定の情報をオーバーレイする。具体的に、オーバーレイ部３０は、マッチング処理部２２から受け取ったマッチング結果を示す情報、すなわち、類似度の判断結果を示す情報と、オブジェクト判断部１４が所定のオブジェクト及び／又は所定のオブジェクトが存在している可能性があると判断した結果（所定のオブジェクトの動画構成画像中での位置情報を含む）とに基づいて、動画構成画像中の所定のオブジェクトが存在する領域、及び所定のオブジェクトが存在している可能性がある領域に所定の情報をオーバーレイする。オーバーレイ部３０は、オブジェクト判断部１４及びマッチング処理部２２の結果に基づき、オーバーレイをリアルタイムで実行することもできる。

例えば、オーバーレイ部３０は、マッチング処理部２２によって一の動画構成画像中の一の所定のオブジェクトと他の動画構成画像中の一の所定のオブジェクトとの類似度が所定値以上の場合（類似度が高い場合）、オブジェクト判断部１４から受け取った情報から判断される、撮像領域内において当該オブジェクトが占める領域に、所定の図形や所定色の画像を重畳表示する。すなわち、オーバーレイ部３０は、出力部４４に、撮像領域内のオブジェクトと共に当該オブジェクトに所定の図形や所定色の画像を重畳表示させる。この場合において、オーバーレイ部３０は、オブジェクト判断部１４によって所定のオブジェクトが含まれていると判断された領域の全部若しくは一部に所定の図形等を重畳表示する。

また、オーバーレイ部３０は、マッチング処理部２２によって一の動画構成画像中の一の所定のオブジェクトと他の動画構成画像中の一の所定のオブジェクトとの類似度が所定値未満の場合（類似度が低い場合）、オブジェクト判断部１４から受け取った情報から判断される、撮像領域内において当該オブジェクトが占める領域（当該オブジェクトの一部が占める領域、若しくは当該オブジェクトが折り畳まれている等の場合はその形態での表面の一部が占める領域）に、類似度が所定値以上の領域とは異なる領域であることが認識できる所定の図形や所定色の画像を重畳表示する。

なお、一の動画構成画像中の一の所定のオブジェクトと他の動画構成画像中の一の所定のオブジェクトとの類似度が所定値以上の場合（類似度が高い場合）とは、一例として、動画構成画像に一の所定のオブジェクトの略全体が含まれている場合や、複数の動画構成画像のそれぞれに一の所定のオブジェクトの略全体が含まれている場合等を指す。この場合、各動画構成画像に一の所定のオブジェクトの略全体が含まれていることから、各動画構成画像間で当該一の所定のオブジェクトの類似度は所定値以上であるか、類似度の変動が所定範囲内に収まる。一方、類似度が所定値未満の場合（類似度が低い場合）は、一例として、動画構成画像に一の所定のオブジェクトの一部しか含まれない場合（例えば、当該オブジェクトの大部分が動画構成画像（撮像領域）外に存在する場合や、当該オブジェクトが折れ曲がり、当該オブジェクトの大部分が隠されている場合、更には、当該オブジェクトが反っていることに基づいて動画構成画像に「ボケて」写っている場合等）等を指す。この場合、各動画構成画像に一の所定のオブジェクトの一部しか含まれていないことから、各動画構成画像間で当該一の所定のオブジェクトの類似度は所定値未満であるか、類似度の変動が所定範囲に収まらない。

また、オーバーレイ部３０は、オブジェクト判断部１４による判断結果から所定のオブジェクトが存在すると判断若しくは推定できる領域（以下、「推定領域」という。）と撮像領域とを比較し、比較結果に基づいて撮像領域内のオブジェクトに所定の図形等を重畳表示してもよい。

例えば、撮像領域内に推定領域のすべて、又はオブジェクトの関心領域のうち少なくとも当該オブジェクトを特徴づける領域を含む場合を第１の場合とする。第１の場合は、例えば、オブジェクトが領収書である場合、撮像領域内に領収書のすべて、若しくは実質的に領収書のすべてが含まれる場合、又は撮像領域内に領収書を識別するために必要な日付、金額、電話番号等の関心領域を少なくとも含む等の場合である。第１の場合が、撮像領域内に所定のオブジェクトが存在する領域が含まれている場合である。

一方、撮像領域内に推定領域の一部、又はオブジェクトの関心領域のうち少なくとも当該オブジェクトの特徴の一部を含む関心領域を含まない場合を第２の場合とする。第２の場合は、例えば、オブジェクトが領収書である場合、撮像領域内に領収書の一部しか含まれていない場合、又は撮像領域内に領収書を識別するために必要な日付、金額、電話番号等の関心領域の一部が含まれていない等の場合である。第２の場合が、撮像領域内に所定のオブジェクトが存在している可能性がある領域が含まれている場合である。

オーバーレイ部３０は、第１の場合と第２の場合とで、互いに異なる図形や画像等を重畳表示することができる。例えば、オーバーレイ部３０は、第１の場合は動画に所定のオブジェクトが適切に含まれていることをユーザが知覚可能な図形等をオブジェクトに重畳表示する。一方、オーバーレイ部３０は、第２の場合は動画に所定のオブジェクトが適切に含まれていないことをユーザが知覚可能な図形等をオブジェクトに重畳表示する。

（代表画像選択部３２）
代表画像選択部３２は、所定のオブジェクトを含む複数の動画構成画像から、所定のオブジェクトが存在する領域が認識された動画構成画像を代表画像として、特徴量に基づいて選択する。代表画像選択部３２は、後述する画像処理部３４における画像処理や、読取部４６における情報の読み取りを適切に実行する観点から、複数の動画構成画像から質の高い動画構成画像を選択する。例えば、代表画像選択部３２は、クラスタリング部２６の分類結果に基づいて代表画像を選択する。すなわち、代表画像選択部３２は、クラスタリング部２６によって分類された一のグループに含まれる１以上の動画構成画像を参照し、各動画構成画像に含まれる一の所定のオブジェクトの１以上の特徴量をそれぞれ比較して、一例として、特徴量の数がより多い一の所定のオブジェクトを含む動画構成画像を代表画像として選択してよい。

また、例えば、代表画像選択部３２は、マッチング処理部２２のマッチング結果に基づいて代表画像を選択することもできる。すなわち、一のオブジェクトが複数の動画構成画像に含まれている場合、一のオブジェクトを含む一の動画構成画像と一のオブジェクトを含む他の動画構成画像とは、画質に変化がない場合（つまり、画質が低くない場合）、マッチングによるマッチング数は実質的に同一である。しかし、画質がボケや手振れ等により低くなっている場合、例えば、一の動画構成画像に比べ他の動画構成画像の画質が低い場合、マッチングによるマッチング数は減少する。代表画像選択部３２は、このマッチング数の比較により、代表画像を選択することができる。一例として、代表画像選択部３２は、一のオブジェクトを含む一の動画構成画像と、一のオブジェクトを含む他の動画構成画像とのマッチング数を比較した結果に基づいて、最も画質が高い動画構成画像を代表画像として自動的に選択する。代表画像選択部３２は、選択した代表画像を画像処理部３４に供給する。

（画像処理部３４）
図５は、本実施形態に係る画像処理の一例の概要を示す。

画像処理部３４は、代表画像に所定の画像処理を施す。画像処理部３４は、後述する読取部４６における情報の読み取りや入力を適切に実行可能にすることを目的として、代表画像に画像処理を施す。例えば、画像処理部３４は、エッジ検出やオブジェクト認識等の手法を用い、代表画像から所定のオブジェクトの領域を切り取る処理である画像切り取り処理を実行する。また、画像処理部３４は、例えば図５（ａ）に示すように、代表画像が所定のオブジェクト８０ａの本来の形状から変形した形状の当該オブジェクト８０ａを含む画像である場合（例えば、オブジェクト８０ａが領収書である場合において、領収書を斜めの角度から撮像した場合、動画には四辺形ではあるが長方形ではない領収書の画像が含まれる。）、代表画像から当該オブジェクト８０ａの領域を切り取り、アフィン変換等の処理により長方形のオブジェクト８０に変形する処理を実行する。これにより、画像処理部３４は、斜めの角度から撮像したオブジェクト８０が台形状のオブジェクト８０ａとして代表画像に含まれる現象であるキーストーニングの除去を実行する。また、画像処理部３４は、より明確な画像を読取部４６に読み取らせることを目的として、代表画像に二値化処理等の画像処理を施すこともできる。画像処理部３４は、画像処理後の画像を方向調整部３６に供給する。

（方向調整部３６）
方向調整部３６は、代表画像に含まれる所定のオブジェクトの方向を調整する。すなわち、画像処理部３４において画像処理が施された画像に含まれる所定のオブジェクトの向きは、所定の方向に揃っているとは限らない。したがって、方向調整部３６は、後述する読取部４６における情報の取り込み／入力を適切に実行することを目的として、画像に含まれる所定のオブジェクトの向きを所定の方向に揃える処理を実行する。例えば、画像処理部３４におけるアフィン変換を経て長方形に変更された画像の向きは、当該長方形の長辺を規準にした場合、一例として、当該基準に対して長辺が、０°、９０°、１８０°、２７０°等の４つの状況をとることが考えられる。方向調整部３６は、画像処理部３４におけるアフィン変換等の画像処理後に得られる画像に含まれる所定のオブジェクト（例えば、領収書等の長方形状を有するオブジェクト）の向きを、一例として、正面視にて縦長の方向（つまり、情報端末２等の表示部を正面から観察した場合に、水平方向に短辺が位置し、垂直方向に長辺が位置する方向）になるように画像を回転する処理を実行する。これにより、方向調整部３６は、代表画像に含まれる所定のオブジェクトの方向を所定の方向に揃えることができる。方向調整部３６は、方向を調整した後の代表画像を情報格納部３８、読取部４６に供給する。

なお、方向調整部３６は、複数の所定のオブジェクトのデータ（例えば、長方形状のオブジェクトの画像データであって、正面視にて長方形の短辺が水平方向に沿った方向であるデータ）を予め定められた規則により４種類のクラスにランダムに分類して学習することで学習モデルを生成することもできる。この学習モデルは、所定のオブジェクトの上方向を上であるとして認識するように推論できるモデルである。上方向の認識ができれば、エッジ検出を経て切り取った所定のオブジェクトの領域を長方形に容易に変形できる。また、当該学習モデルとＴｅｓｓｅｒａｃｔによる認識手法とを組み合わせてもよく、係る組み合わせにより、より高い精度が得られる。

（情報格納部３８）
情報格納部３８は、方向が調整された代表画像、すなわち、読取部４６における読取処理に適した代表画像を格納する。情報格納部３８は、ユーザを識別するユーザＩＤに対応付けて、当該代表画像、当該代表画像を含む動画の撮像年月日、撮像時刻等の情報を格納する。なお、情報格納部３８に格納される各種の情報は、情報端末２や、外部のサーバ（例えば、画像処理システム１の外部のサーバであって、会計処理や経理処理等に用いるサーバ等）に供給することができる。

（読取部４６）
読取部４６は、方向調整部３６から受け取った方向が調整された代表画像に含まれるオブジェクト表面に記載された各種の情報を読み取る。読取部４６は、例えば、ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ／Ｒｅａｄｅｒ（ＯＣＲ）等を利用し、オブジェクト表面に記載された各種の情報を読み取る。一例として、オブジェクトが領収書である場合、読取部４６が読み取る情報は、日付、金額、電話番号等の情報である。読取部４６は、読み取った情報を情報格納部３８に格納させることができる。情報格納部３８は、ユーザＩＤに対応付けて、情報の読み取りに用いた代表画像の撮像年月日、撮像時刻に関する情報と共に、読み取った情報を格納する。

（入力部４２）
入力部４２は、ユーザからの各種情報や所定の指示の入力を受け付ける。入力部４２は、例えば、情報端末２のタッチパネル、キーボード、マウス、マイク等である。入力部４２は、画像処理システム１の所定の構成要素に当該所定の指示を供給する。当該所定の指示を受け付けた各構成要素はそれぞれ所定の機能を発揮する。

（出力部４４）
出力部４４は、画像処理システム１において実行された各種の処理結果を出力する。出力部４４は、各種の処理結果や格納している情報をユーザが知覚可能に出力する。具体的に出力部４４は、各種処理結果や格納している情報を、静止画像、動画像、音声、テキスト、及び／又は振動や光等の物理現象等として出力する。例えば、出力部４４は、情報端末２の表示部、スピーカー等である。

［画像処理システム１の処理の流れ］
図６は、本実施形態に係る画像処理システムの処理の流れの一例を示す。また、図７は、本実施形態に係る画像処理システムの処理の流れの一部の概要を示す。

まず、学習モデル生成部４０は、複数のオブジェクトそれぞれの特徴と当該特徴に対応する所定のオブジェクト（例えば、領収書）の種類との組み合わせを含む教師データを取得若しくは生成し、取得若しくは生成した複数の教師データに基づき、複数の動画構成画像を入力、対応する所定のオブジェクトの種類（例えば、領収書）を出力とする学習モデルを生成する（ステップ１０。以下、ステップを「Ｓ」と表す。）。そして、例えば、情報端末２の動画撮像部１０としてのカメラが、複数のオブジェクト（所定のオブジェクト、及び／又は所定のオブジェクトとは異なる他のオブジェクト）の動画を撮像する（Ｓ１２）。一例として、図７（ａ）に示すように、動画撮像部１０は、オブジェクト８１（例えば、領収書）やオブジェクト９０（例えば、名刺）の動画を撮像する。図７（ａ）の例では、時間の経過と共にオブジェクト８１の動画撮像からオブジェクト９０の動画撮像に移っていることを示している。

なお、この場合において動画撮像部１０が撮像する動画は、複数のオブジェクトが平面上に配列された状態の動画であっても、複数のオブジェクトが１枚１枚めくられる状態の動画であってもよい。また複数のオブジェクトが平面上に配列された状態において、各オブジェクトの方向は揃っていなくてもよく、一のオブジェクトの一部に他のオブジェクトが重なっていてもよい。更に、動画撮像部１０は、撮像領域をパンしてもよい。

次に、構成画像抽出部１２は、動画撮像部１０が撮像した動画を変換し、複数の動画構成画像を抽出する（Ｓ１４）。そして、オブジェクト判断部１４は、複数の動画構成画像のそれぞれについて、例えば、時系列順に各動画構成画像に含まれる所定のオブジェクトを検出する（Ｓ１６）。すなわち、オブジェクト判断部１４は、例えば、所定の学習モデルを用い、各動画構成画像に含まれるオブジェクトが、所定のオブジェクトであるか否かを判断する。なお、画像処理システム１は、動画撮像部１０が所定のオブジェクトを撮像する前に、撮像対象である所定のオブジェクトの種類を選択させる選択肢（種類としては、例えば領収書、見積書、請求書、名刺等が挙げられる。）を出力部４４に出力させてもよい。そして、オブジェクト判断部１４は、入力部４２を介して受け付けるユーザの選択に対応するオブジェクトの種類を、各動画構成画像に含まれるオブジェクトの種類であると判断してもよい。

一例として、画像処理システム１が領収書を所定のオブジェクトに設定している場合を挙げる。図７（ｂ）に示すように、オブジェクト判断部１４は、予め準備した学習モデルを用いてオブジェクト８１が領収書であると判断し、オブジェクト９０を領収書ではないと判断する。つまり、オブジェクト判断部１４は、オブジェクトの特徴と、所定のオブジェクトである領収書との間に見いだされる規則性を示す関数である学習モデルを用い、動画構成画像のそれぞれに所定のオブジェクトである領収書が含まれているか否かを判断する。換言すれば、オブジェクト判断部１４は、オブジェクトの特徴に関する情報（例えば、動画構成画像から取得されるオブジェクトの画像に関する情報）を入力として受け付け、予測結果（動画構成画像に含まれるオブジェクトが所定のオブジェクトとしての領収書であるか否かを示す結果）を出力する学習モデルを用い、動画構成画像に所定のオブジェクトが含まれているか否かを判断する。

続いて、特徴量抽出部１６は、複数の動画構成画像のそれぞれに含まれ、オブジェクト判断部１４によって検出された１以上の所定のオブジェクトそれぞれについて、１以上の特徴量（以下、「特徴量群」と称する。）を抽出する（Ｓ１８）。なお、この場合において、エッジ検出部１８は、動画構成画像に含まれるオブジェクトのエッジを検出してもよい。一例として、図７（ｃ）に示すように、特徴量抽出部１６は、オブジェクト８１の特徴量群３００を抽出すると共に、オブジェクト８１の動画撮像より後に撮像されたオブジェクト８１とは異なる他の所定のオブジェクトの特徴量群３０２や特徴量群３０４を抽出する。そして、マッチング処理部２２は、少なくとも特徴量抽出部１６が抽出した１以上の特徴量の情報に基づいて、動画構成画像間の類似性の情報を取得するマッチング処理を実行する（Ｓ２０）。続いて、オーバーレイ部３０は、マッチング処理部２２におけるマッチング処理により得られる複数の特徴量の動画構成画像間の類似度に基づき、動画構成画像中の所定のオブジェクトが存在する領域、及び所定のオブジェクトが存在している可能性がある領域に所定のマークや画像をオーバーレイする（Ｓ２２）。オーバーレイ部３０は、所定のマークや画像をオーバーレイした状態を、リアルタイムで出力部４４に出力させることができる。

また、クラスタリング部２６は、特徴量抽出部１６が抽出した特徴量群に基づき、動画構成画像のクラスタリングを実行する（Ｓ２４）。

ここで、クラスタリング部２６は、クラスタリング結果に基づき、撮像領域内で所定のオブジェクトが占める領域を推定してもよい。例えば、クラスタリング部２６は、抽出された特徴量群を用いて各特徴量群について空間的に近いクラスタを生成する。クラスタリング部２６は、特徴量群を参照し、オブジェクトの角を含むクラスタを検出し、検出したクラスタの近傍クラスタを積分してオブジェクトの他の角の位置も推定する。そして、クラスタリング部２６は、推定した角に基づいて撮像領域内で当該オブジェクトが占める領域を推定することができる。

また、クラスタリング部２６は、生成したクラスタと特徴量群とを参照し、オブジェクトの角を含むクラスタが一つも存在しないと判断した場合、所定のオブジェクトに特有の特徴量を用い、撮像領域のいずれの位置にいずれの特徴量（所定のオブジェクトが領収書である場合、例えば日付、金額、及び／又は電話番号に関する特徴量）が存在しているかを把握してもよい。そして、クラスタリング部２６は、把握結果に基づいて所定のオブジェクトに近似した枠を生成し、当該枠内を撮像領域内で所定のオブジェクトが占める領域であると推定する（この領域が、「所定のオブジェクトが存在している可能性がある領域」である。）。なお、クラスタリング部２６は、特徴量に基づいて所定のオブジェクトに近似した枠を生成する場合において、予め生成した学習モデルを用いてもよい。

続いて、代表画像選択部３２は、クラスタリング部２６の分類結果、又はマッチング処理部２２のマッチング結果に基づいて、所定のオブジェクトを含む複数の動画構成画像から代表画像を選択する（Ｓ２６）。代表画像選択部３２は、クラスタリング部２６の結果から、所定のオブジェクトの略全体が含まれる動画構成画像であって、マッチング数が最大の動画構成画像を代表画像に選択できる。次に、画像処理部３４は代表画像に所定の画像処理を施し、方向調整部３６は代表画像に含まれる所定のオブジェクトの向きを調整する（Ｓ２８）。そして、情報格納部３８は、所定のオブジェクトそれぞれの情報を格納する（Ｓ３０）。すなわち、情報格納部３８は、動画撮像された１以上の所定のオブジェクトそれぞれの画像であって、読取部４６による読取処理に適合するように画像処理、及び／又は方向調整がされた画像を、各画像を識別する画像ＩＤに対応付けて、ユーザＩＤ、撮像年月日、及び／又は撮像時刻等と共に格納する。

図８は、本実施形態に係る画像処理システムの処理の流れの変更例の一例を示す。図８の変形例においては、図６の処理の流れにおいてＳ２０とＳ２４との間に他のステップが入ることを除き、図６の処理の流れと略同一の処理が実行される。したがって、相違点を除き、詳細な説明は省略する。

変形例においては、Ｓ２０とＳ２４との間に、関心領域の検出、及び／又はノイズフィルタリング処理のステップが挿入される。これらのステップを含むことで、画像処理システム１は、所定のオブジェクトの認識精度をより向上させることができる。なお、画像処理システム１は、処理に矛盾が生じない限り、これらのステップの一部のステップのみ実行してもよい。

まず、Ｓ２０の後に、関心領域検出部２０は、動画構成画像から関心領域を検出する（Ｓ４０）。次に、クラスタリング部２６は、特徴量抽出部１６が抽出した特徴量群に、関心領域及び／又はマッチング処理部２２の結果を併用し、動画構成画像のクラスタリングを実行する（Ｓ２３）。クラスタリング部２６は、特徴量群に加え、関心領域及び／又はマッチング処理部２２の結果を併用することで、より精度の高いクラスタリングを実行できる。

そして、ノイズフィルタリング部２８は、クラスタリング結果に基づいてノイズを除去する（Ｓ４２）。オーバーレイ部３０は、クラスタリング結果からノイズが除去されたデータに基づきオーバーレイすることができるので、より的確な領域に所定のマークや画像を重畳表示できる。

［画像処理プログラム］
図１〜図８に示した本実施形態に係る画像処理システム１が備える各構成要素は、中央演算処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：ＣＰＵ）等の演算処理装置にプログラム（すなわち、画像処理プログラム）を実行させること、つまり、ソフトウェアによる処理により実現できる。また、集積回路（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ：ＩＣ）等の電子部品としてのハードウェアにプログラムを予め書き込むことで実現することもできる。なお、ソフトウェアとハードウェアとを併用することもできる。

本実施形態に係る画像処理プログラムは、例えば、ＩＣやＲＯＭ等に予め組み込むことができる。また、画像処理プログラムは、インストール可能な形式、又は実行可能な形式のファイルで、磁気記録媒体、光学記録媒体、半導体記録媒体等のコンピュータで読み取り可能な記録媒体に記録し、コンピュータプログラムとして提供することもできる。プログラムを格納している記録媒体は、ＣＤ−ＲＯＭやＤＶＤ等の非一過性の記録媒体であってよい。更に、画像処理プログラムを、インターネット等の通信ネットワークに接続されたコンピュータに予め格納させ、通信ネットワークを介してダウンロードによる提供ができるようにすることもできる。

本実施形態に係る画像処理プログラムは、ＣＰＵ等に働きかけて、画像処理プログラムを、図１〜図８にかけて説明した動画撮像部１０、構成画像抽出部１２、特徴量抽出部１６、エッジ検出部１８、オブジェクト判断部１４、関心領域検出部２０、マッチング処理部２２、クラスタリング部２６、ノイズフィルタリング部２８、オーバーレイ部３０、代表画像選択部３２、画像処理部３４、方向調整部３６、情報格納部３８、学習モデル生成部４０、入力部４２、出力部４４、及び読取部４６として機能させる。

（実施の形態の効果）
本実施の形態に係る画像処理システム１は、各種のオブジェクトを撮像した動画の動画構成画像に所定のオブジェクトが含まれているか否か判断し、所定のオブジェクト及び／又は所定のオブジェクトと考えられるオブジェクトが含まれていると判断した場合に、各所定のオブジェクト及び／又は各所定のオブジェクトと考えられるオブジェクトの特徴量群を抽出する。そして、画像処理システム１は、抽出した特徴量群の動画構成画像間における類似度を判断し、この判断結果に基づいて、所定のオブジェクトが存在している領域、及び／又は所定のオブジェクトと考えられるオブジェクトが存在している可能性のある領域に所定のマークや画像をオーバーレイし、情報端末２に出力させることができる。

したがって、画像処理システム１によれば、複数のオブジェクトの動画撮像時に、適切に撮像されていないと判断されたオブジェクトが動画構成画像に含まれている場合、当該オブジェクトの撮像領域内で占める位置を特定し、特定した領域をユーザに分かりやすく通知することができる。これにより、画像処理システム１によれば、ユーザは、適切な撮像がされていないオブジェクトの存在を容易に把握でき、動画撮像中に当該オブジェクトをそのまま再度、動画撮像することができる。

また、画像処理システム１は、動画構成画像中のオブジェクトの特徴量を用いてオブジェクトのエッジを推定できるので、例えばオブジェクトが四辺形状のオブジェクトである場合、動画構成画像に当該オブジェクトの四隅が含まれていなくても当該オブジェクトを検出できる。そして、画像処理システム１は、オブジェクトを動画で撮像し、オブジェクトの特徴量を抽出しているので、撮像中に手振れが発生したとしても特徴量を追跡することで、動画構成画像中の所定のオブジェクトを適切に認識することができる。

更に、画像処理システム１によれば、ユーザは複数のオブジェクトを動画で撮像するだけで、様々なサイズ、形状、様式のオブジェクト中の所定の情報を容易に抽出することができる情報を動画構成画像から取得することができる。一例として、画像処理システム１によれば、複数枚の領収書の画像を動画撮像するか、動画撮像部１０の前で複数の領収書を１枚ずつめくる様子を撮像する等するだけで、各領収書の内容（例えば、日付、金額、電話番号等）に関する情報を取得することができる。これにより、膨大な枚数の領収書を処理することを要するユーザの手間が大幅に減少される。なお、複数の領収書に領収書とは異なる紙面が混入していた場合であっても、特徴量抽出部１６が抽出した特徴量と所定の学習モデルとを画像処理システム１は有しており、オブジェクト判断部１４に領収書と領収書とは異なる紙面とを適切に識別させることができる。

以上、本発明の実施の形態を説明したが、上記に記載した実施の形態は特許請求の範囲に係る発明を限定するものではない。また、実施の形態の中で説明した特徴の組合せのすべてが発明の課題を解決するための手段に必須であるとは限らない点に留意すべきである。更に、上記した実施形態の技術的要素は、単独で適用されてもよく、プログラム部品とハードウェア部品とのような複数の部分に分割されて適用されるようにすることもできる。

１画像処理システム
２情報端末
３サーバ
４通信網
１０動画撮像部
１２構成画像抽出部
１４オブジェクト判断部
１６特徴量抽出部
１８エッジ検出部
２０関心領域検出部
２２マッチング処理部
２６クラスタリング部
２８ノイズフィルタリング部
３０オーバーレイ部
３２代表画像選択部
３４画像処理部
３６方向調整部
３８情報格納部
４０学習モデル生成部
４２入力部
４４出力部
４６読取部
８０、８０ａ、８１、８２、８３、８４、８５、８６、８７、８８、８９、８９ａオブジェクト
９０オブジェクト
１００撮像領域
２００結果
２０２、２０４内容
３００、３０２、３０４特徴量群
６００、６０２、６０４、６０６クラスタ
６１０クラスタ群
７００クラスタ群
８００クラスタ

Claims

複数のオブジェクトを動画で撮像する動画撮像部と、
前記動画の動画構成画像を抽出する構成画像抽出部と、
前記動画構成画像に所定のオブジェクトが含まれているか否か判断するオブジェクト判断部と、
前記所定のオブジェクトの特徴量の前記動画構成画像間の類似度を判断するマッチング処理部と、
前記類似度に基づき、前記動画構成画像中の前記所定のオブジェクトが存在する領域、及び前記所定のオブジェクトが存在している可能性がある領域に所定の情報をオーバーレイするオーバーレイ部と
を備える画像処理システム。
前記オブジェクト判断部が、前記所定のオブジェクトの特徴量に関する予め準備した学習モデルを用いて前記判断を実行する請求項１に記載の画像処理システム。
前記オーバーレイ部が、前記オーバーレイをリアルタイムで実行する請求項１又は２に記載の画像処理システム。
前記動画構成画像に含まれる前記オブジェクトのエッジを検出するエッジ検出部
を更に備え、
前記オブジェクト判断部が、前記特徴量と前記エッジ検出部の検出結果との双方に基づいて前記判断を実行する請求項１〜３のいずれか１項に記載の画像処理システム。
前記動画構成画像から、前記所定のオブジェクトが存在する領域が認識された代表画像を選択する代表画像選択部
を更に備える請求項１〜４のいずれか１項に記載の画像処理システム。
前記特徴量に基づき、前記動画構成画像をクラスタリングするクラスタリング部
を更に備え、
前記代表画像選択部が、前記クラスタリングの結果を用い、前記代表画像を選択する請求項５に記載の画像処理システム。
前記代表画像に所定の画像処理を施す画像処理部と、
前記代表画像に含まれる前記所定のオブジェクトの方向を調整する方向調整部と
を更に備える請求項５又は６に記載の画像処理システム。
画像処理システム用の画像処理方法であって、
複数のオブジェクトを含む動画の動画構成画像を抽出する構成画像抽出工程と、
前記動画構成画像に所定のオブジェクトが含まれているか否か判断するオブジェクト判断工程と、
前記所定のオブジェクトの特徴量の前記動画構成画像間の類似度を判断するマッチング処理工程と、
前記類似度に基づき、前記動画構成画像中の前記所定のオブジェクトが存在する領域、及び前記所定のオブジェクトが存在している可能性がある領域に所定の情報をオーバーレイするオーバーレイ工程と
を備える画像処理方法。
画像処理システム用の画像処理プログラムであって、
コンピュータに、
複数のオブジェクトを含む動画の動画構成画像を抽出する構成画像抽出機能と、
前記動画構成画像に所定のオブジェクトが含まれているか否か判断するオブジェクト判断機能と、
前記所定のオブジェクトの特徴量の前記動画構成画像間の類似度を判断するマッチング処理機能と、
前記類似度に基づき、前記動画構成画像中の前記所定のオブジェクトが存在する領域、及び前記所定のオブジェクトが存在している可能性がある領域に所定の情報をオーバーレイするオーバーレイ機能と
を実現させる画像処理プログラム。
複数のオブジェクトを含む動画の動画構成画像を抽出する構成画像抽出部と、
前記動画構成画像に所定のオブジェクトが含まれているか否か判断するオブジェクト判断部と、
前記所定のオブジェクトの特徴量の前記動画構成画像間の類似度を判断するマッチング処理部と、
前記類似度に基づき、前記動画構成画像中の前記所定のオブジェクトが存在する領域、及び前記所定のオブジェクトが存在している可能性がある領域に所定の情報をオーバーレイするオーバーレイ部と
を備える画像処理サーバ。