JP7478628B2

JP7478628B2 - 画像処理装置、制御方法及び制御プログラム

Info

Publication number: JP7478628B2
Application number: JP2020150707A
Authority: JP
Inventors: 裕紀谷崎; 諒士小倉
Original assignee: PFU Ltd
Current assignee: PFU Ltd
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2024-05-07
Anticipated expiration: 2040-09-08
Also published as: JP2022045168A

Description

本発明は、画像処理装置、制御方法及び制御プログラムに関し、特に、入力画像における検出対象物の角の位置を特定する画像処理装置、制御方法及び制御プログラムに関する。

近年、スマートフォンのようなカメラを有する携帯端末を利用して、金融機関の口座開設又はクレジットカードの利用申請等の手続きを行うサービスが増えている。そのようなサービスでは、携帯端末が、内蔵するカメラで本人確認書類を撮像した画像をサーバに送信する。サーバは、ＯＣＲ（Optical Character Recognition）技術を利用して、画像から氏名、住所等の個人情報を認識して本人確認を行う。サーバは、本人確認を精度良く行うために、文字が書かれている位置を正確に把握する必要がある。そのために、サーバは、画像から本人確認書類の位置を精度良く検出する必要がある。

第１の画像内の被写体と第２の画像内の被写体とが同一であるか否かを判定する画像処理装置が開示されている（特許文献１）。この画像処理装置は、第１の画像から検出した特徴点の局所特徴量と、第２の画像から検出した特徴点の局所特徴量とに基づいて、第１の画像の特徴点と第２の画像の特徴点との対応関係を特定する。画像処理装置は、第１の画像または第２の画像から特徴点を含む部分領域を検出し、部分領域毎に、部分領域に含まれる特徴点と、その特徴点に対応する特徴点とに基づいて、第１の画像内の被写体と第２の画像内の被写体とが同一であるか否かを判定する。

検出対象物に関する探索エッジ画像とモデルエッジ画像とでパターンマッチングを行うことにより、被探索画像の中から検出対象物の画像を検出するパターンマッチング方法が開示されている（特許文献２）。

国際公開第２０１５／１７０４６１号特開２０１５－３５２１１号公報

画像処理装置では、入力画像における検出対象物の位置をより精度良く検出することが望まれている。

本発明の目的は、入力画像における検出対象物の位置をより精度良く検出することが可能な画像処理装置、制御方法及び制御プログラムを提供することにある。

本発明の一側面に係る画像処理装置は、矩形の検出対象物及び検出対象物に含まれる複数の教師特徴点を含む教師画像と、複数の教師特徴点毎の教師特徴量と、検出対象物の４つ角の位置情報と、４つ角に対応する教師特徴点を示す対応情報とを記憶する記憶部と、入力画像を取得する取得部と、入力画像における複数の特徴点と、複数の特徴点毎の特徴量とを検出する検出部と、対応情報に示される教師特徴点の教師特徴量に基づいて、４つ角に対応する特徴点が検出できたか否かを判定する判定部と、位置情報と、検出部により検出された特徴点と特徴点に対応する教師特徴点の位置関係とに基づいて、入力画像における角の位置を特定する特定部と、所定の特徴点が検出できなかったことにより、入力画像における所定の角の位置を特定できない場合、所定の角に対応する教師特徴点を含む教師画像内の領域と、その領域に対応する入力画像内の領域とのパターンマッチングを行い、特定できなかった入力画像における所定の角の位置を推定する推定部と、を有する。

本発明の一側面に係る制御方法は、記憶部を有する画像処理装置の制御方法であって、画像処理装置が、矩形の検出対象物及び検出対象物に含まれる複数の教師特徴点を含む教師画像と、複数の教師特徴点ごとの教師特徴量と、検出対象物の４つ角の位置情報と、４つ角に対応する教師特徴点を示す対応情報とを記憶部に記憶し、入力画像を取得し、入力画像における複数の特徴点と、複数の特徴点ごとの特徴量とを検出し、対応情報に示される教師特徴点の教師特徴量に基づいて、４つ角に対応する特徴点が検出できたか否かを判定し、位置情報と、検出された特徴点と特徴点に対応する教師特徴点の位置関係とに基づいて、入力画像における角の位置を特定し、所定の特徴点が検出できなかったことにより、入力画像における所定の角の位置を特定できない場合、所定の角に対応する教師特徴点を含む教師画像内の領域と、その領域に対応する入力画像内の領域とのパターンマッチングを行い、特定できなかった入力画像における所定の角の位置を推定する。

本発明の一側面に係る制御プログラムは、記憶部を有するコンピュータの制御プログラムであって、矩形の検出対象物及び検出対象物に含まれる複数の教師特徴点を含む教師画像と、複数の教師特徴点ごとの教師特徴量と、検出対象物の４つ角の位置情報と、４つ角に対応する教師特徴点を示す対応情報とを記憶部に記憶し、入力画像を取得し、入力画像における複数の特徴点と、複数の特徴点ごとの特徴量とを検出し、対応情報に示される教師特徴点の教師特徴量に基づいて、４つ角に対応する特徴点が検出できたか否かを判定し、位置情報と、検出された特徴点と特徴点に対応する教師特徴点の位置関係とに基づいて、入力画像における角の位置を特定し、所定の特徴点が検出できなかったことにより、入力画像における所定の角の位置を特定できない場合、所定の角に対応する教師特徴点を含む教師画像内の領域と、その領域に対応する入力画像内の領域とのパターンマッチングを行い、特定できなかった入力画像における所定の角の位置を推定することをコンピュータに実行させる。

本発明によれば、画像処理装置、制御方法及び制御プログラムは、入力画像における検出対象物の位置をより精度良く検出することが可能となる。

実施形態に従った画像処理システム１の概略構成を示す図である。教師テーブルのデータ構造の一例を示す図である。位置テーブルのデータ構造の一例を示す図である。第２記憶装置２１０及び第２処理回路２２０の概略構成を示す図である。辞書生成処理の動作の例を示すフローチャートである。教師画像５００の一例を示す模式図である。画像読取処理の動作の例を示すフローチャートである。認識処理の動作の例を示すフローチャートである。入力画像８００の一例を示す模式図である。パターンマッチングについて説明するための模式図である。他の第２処理回路２３０の概略構成を示すブロック図である。

以下、本発明の一側面に係る画像処理装置、制御方法及び制御プログラムについて図を参照しつつ説明する。但し、本発明の技術的範囲はそれらの実施の形態に限定されず、特許請求の範囲に記載された発明とその均等物に及ぶ点に留意されたい。

図１は、実施形態に従った画像処理システム１の概略構成を示す図である。図１に示すように、画像処理システム１は、画像読取装置１００と、情報処理装置２００とを有する。

画像読取装置１００は、例えば携帯電話、タブレットＰＣ、多機能携帯電話（いわゆるスマートフォン）、ノートＰＣ、ゲーム機又はスキャナ装置等である。画像読取装置１００は、情報処理装置２００に接続されている。情報処理装置２００は、画像処理装置の一例であり、例えばパーソナルコンピュータ等である。

画像読取装置１００は、第１通信装置１０１と、撮像装置１０２と、第１記憶装置１１０と、第１処理回路１２０とを有する。

第１通信装置１０１は、無線信号を送受信するアンテナと、所定の通信プロトコルに従って、無線通信回線を通じて信号の送受信を行うための無線通信インタフェース回路を有し、情報処理装置２００と通信接続して画像データ及び各種の情報を送受信する。所定の通信プロトコルは、例えば無線ＬＡＮ（Local Area Network）である。なお、第１通信装置１０１は、有線通信回線を通じて信号の送受信を行うための有線通信インタフェース回路を有し、有線通信により情報処理装置２００と通信接続してもよい。

撮像装置１０２は、２次元に配列されたＣＣＤ（Charge Coupled Device）による撮像素子を備える縮小光学系タイプの撮像センサを有する。さらに、撮像装置１０２は、光を照射する光源と、撮像素子上に像を結ぶレンズと、撮像素子から出力された電気信号を増幅してアナログ／デジタル（Ａ／Ｄ）変換するＡ／Ｄ変換器とを有する。撮像装置１０２において、撮像センサは、搬送される媒体を撮像してアナログの画像信号を生成して出力し、Ａ／Ｄ変換器は、このアナログの画像信号をＡ／Ｄ変換してデジタルの入力画像を生成して出力する。入力画像は、各画素データが、例えばＲＧＢ各色毎に８ｂｉｔで表される計２４ｂｉｔのＲ（赤色）値、Ｇ（緑色）値、Ｂ（青色）値からなるカラー多値画像である。なお、ＣＣＤの代わりにＣＭＯＳ（Complementary Metal Oxide Semiconductor）による撮像素子を備える等倍光学系タイプのＣＩＳ（Contact Image Sensor）が用いられてもよい。

第１記憶装置１１０は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等のメモリ装置、ハードディスク等の固定ディスク装置、又はフレキシブルディスク、光ディスク等の可搬用の記憶装置等を有する。また、第１記憶装置１１０には、画像読取装置１００の各種処理に用いられるコンピュータプログラム、データベース、テーブル等が格納される。コンピュータプログラムは、コンピュータ読み取り可能な可搬型記録媒体から公知のセットアッププログラム等を用いて第１記憶装置１１０にインストールされてもよい。可搬型記録媒体は、例えばＣＤ－ＲＯＭ（compact disk read only memory）、ＤＶＤ－ＲＯＭ（digital versatile disk read only memory）等である。また、第１記憶装置１１０は、撮像装置１０２により生成された入力画像等を記憶する。

第１処理回路１２０は、予め第１記憶装置１１０に記憶されているプログラムに基づいて動作する。第１処理回路１２０は、例えばＣＰＵ（Control Processing Unit）である。なお、第１処理回路１２０として、ＤＳＰ（digital signal processor）、ＬＳＩ（large scale integration）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programming Gate Array）等が用いられてもよい。

第１処理回路１２０は、第１通信装置１０１、撮像装置１０２及び第１記憶装置１１０等と接続され、これらの各部を制御する。第１処理回路１２０は、撮像装置１０２の媒体読取制御、第１通信装置１０１を介した情報処理装置２００とのデータ送受信制御等を行う。

情報処理装置２００は、第２通信装置２０１と、入力装置２０２と、表示装置２０３と、第２記憶装置２１０と、第２処理回路２２０とを有する。以下、情報処理装置２００の各部について詳細に説明する。

第２通信装置２０１は、画像読取装置１００の第１通信装置１０１と同様の通信インタフェース回路を有し、情報処理装置２００と画像読取装置１００及び他のコンピュータとを接続する。

入力装置２０２は、キーボード、マウス等の入力装置及び入力装置から信号を取得するインタフェース回路を有し、利用者の操作に応じた信号を第２処理回路２２０に出力する。

表示装置２０３は、出力部の一例である。表示装置２０３は、液晶、有機ＥＬ（Electro-Luminescence）等から構成されるディスプレイ及びディスプレイに画像データを出力するインタフェース回路を有する。表示装置２０３は、第２処理回路２２０からの指示に従って、各種の情報をディスプレイに表示する。

第２記憶装置２１０は、記憶部の一例であり、画像読取装置１００の第１記憶装置１１０と同様のメモリ装置、固定ディスク装置、可搬用の記憶装置等を有する。第２記憶装置２１０には、情報処理装置２００の各種処理に用いられるコンピュータプログラム、データベース、テーブル等が格納される。コンピュータプログラムは、例えばＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ等のコンピュータ読み取り可能な可搬型記録媒体から、公知のセットアッププログラム等を用いて第２記憶装置２１０にインストールされてもよい。

また、第２記憶装置２１０には、データとして、教師テーブル及び位置テーブル等が予め記憶される。各テーブルの詳細については後述する。

第２処理回路２２０は、予め第２記憶装置２１０に記憶されているプログラムに基づいて動作する。第２処理回路２２０は、例えばＣＰＵである。なお、第２処理回路２２０として、ＤＳＰ、ＬＳＩ、ＡＳＩＣ、ＦＰＧＡ等が用いられてもよい。

第２処理回路２２０は、第２通信装置２０１、入力装置２０２、表示装置２０３及び第２記憶装置２１０等と接続され、これらの各部を制御する。第２処理回路２２０は、第２通信装置２０１を介した画像読取装置１００とのデータ送受信制御、入力装置２０２の入力制御、表示装置２０３の表示制御等を行う。

図２Ａは、教師テーブルのデータ構造の一例を示す図である。

教師テーブルには、検出対象物毎に、各検出対象物が含まれる教師画像、各教師画像内で各検出対象物に含まれる複数の教師特徴点、及び、複数の教師特徴点毎の教師特徴量等が関連付けて記憶される。

検出対象物は、矩形の形状を有する帳票である。検出対象物は、例えば運転免許証、マイナンバーカード、在留カード等の本人確認書類、クレジットカード等のカード、又は、国、自治体、企業等で利用される予め定められたフォームを有する帳票等である。検出対象物には、その検出対象物の辺又は検出対象物内の文字、記号、罫線、写真等の内、端部、角部、中央部等の特徴的な部分（点）を示す複数の特徴点が含まれる。

教師画像は、検出対象物及びその検出対象物に含まれる複数の教師特徴点を含む画像である。

教師特徴点は、各教師画像が登録される際に、事前学習された学習器によって各教師画像から検出された特徴点である。教師特徴点として、教師画像を示す二次元座標空間内で特徴点に対応する座標が設定される。

教師特徴量は、学習器により各教師特徴点が検出された際に、学習器によって算出された各教師特徴点の特徴量（特徴ベクトル）である。情報処理装置２００が使用する特徴量は、局所的な特徴量であり、例えば輝度勾配の極値に関する情報である。一般に、利用者によって携帯端末のカメラを用いて撮像された画像では、画像毎にサイズ、角度、歪みの大きさ等が異なる。輝度勾配の極値に関する情報は、サイズ、角度、歪みの大きさ等の変動に対してロバストであり、情報処理装置２００は、輝度勾配の極値に関する情報を特徴量として用いることにより、検出対象物の位置を安定して高精度に検出することができる。輝度勾配の極値に関する特徴量として、例えばＳＩＦＴ（Scale-Invariant Feature Transform）特徴量、Ａ－ＫＡＺＥ特徴量、ＳＵＲＦ（Speeded Up Robust Features）特徴量、ＯＲＢ（Oriented FAST and Rotated Binary Robust Independent Elementary Features）特徴量等が使用される。なお、特徴量として、複数の種類の特徴量が設定されてもよい。

学習器は、例えばディープラーニング等により、矩形の検出対象物を含む複数のサンプル画像を用いて、サンプル画像が入力された場合に、その画像に含まれる検出対象物の複数の特徴点と、各特徴点の特徴量とを出力するように事前学習される。学習器は、学習装置により事前学習され、第２記憶装置２１０に記憶される。学習器は、情報処理装置２００により事前学習されてもよい。

図２Ｂは、位置テーブルのデータ構造の一例を示す図である。

位置テーブルには、検出対象物毎に、位置情報、教師対応領域及び対応情報等が関連付けて記憶される。

位置情報は、各検出対象物が含まれる教師画像内で、各検出対象物の４つ角（左上角、右上角、左下角、右下角）のそれぞれの位置を示す情報である。位置情報として、教師画像を示す二次元空間内で４つ角に対応する座標が設定される。

教師対応領域は、４つ角毎に、各角の周辺（各角から所定距離内）であり且つ教師特徴点を含む領域である。教師対応領域として、教師画像を示す二次元空間内で、例えばその領域の左上角の座標と右下角の座標とが設定される。

対応情報は、各検出対象物の４つ角に対応する教師特徴点を示す情報である。対応情報として、４つ角毎に、各角に対応する教師対応領域に含まれる教師特徴点を示す情報が設定される。

位置情報、教師対応領域及び対応情報は、情報処理装置２００の管理者によって、各教師画像に適合するように事前に設定される。

図３は、第２記憶装置２１０及び第２処理回路２２０の概略構成を示す図である。

図３に示すように第２記憶装置２１０には、辞書生成プログラム２１１、取得プログラム２１２、検出プログラム２１３、判定プログラム２１４、特定プログラム２１５、推定プログラム２１６及び出力制御プログラム２１７等の各プログラムが記憶される。これらの各プログラムは、プロセッサ上で動作するソフトウェアにより実装される機能モジュールである。第２処理回路２２０は、第２記憶装置２１０に記憶された各プログラムを読み取り、読み取った各プログラムに従って動作する。これにより、第２処理回路２２０は、辞書生成部２２１、取得部２２２、検出部２２３、判定部２２４、特定部２２５、推定部２２６及び出力制御部２２７として機能する。

図４は、情報処理装置２００による辞書生成処理の動作の例を示すフローチャートである。以下、図４に示したフローチャートを参照しつつ、辞書生成処理の動作を説明する。なお、以下に説明する動作のフローは、予め第２記憶装置２１０に記憶されているプログラムに基づき主に第２処理回路２２０により情報処理装置２００の各要素と協働して実行される。

最初に、辞書生成部２２１は、入力装置２０２を用いて管理者から、又は、第２通信装置２０１を介して他のコンピュータから教師画像を取得する（ステップＳ１０１）。

図５は、教師画像５００の一例を示す模式図である。

図５に示す教師画像５００は、検出対象物として運転免許証５０１を含んでいる。図５に示すように、教師画像５００では、運転免許証５０１の内、所有者毎の個人情報が除去されて、全ての所有者に共通の文字、罫線等のみが含まれている。教師画像として全ての所有者に共通の文字、罫線等のみが含まれる画像が使用されることにより、情報処理装置２００は、検出対象物の位置を精度良く特定することができる。なお、教師画像として、所有者毎の個人情報が除去されていない画像が使用されてもよい。

次に、辞書生成部２２１は、取得した教師画像を、第２記憶装置２１０に記憶された学習器に入力し、学習器から出力された複数の特徴点及び特徴量を、教師特徴点及び教師特徴量として検出する（ステップＳ１０２）。辞書生成部２２１は、取得した教師画像、教師特徴点及び教師特徴量を表示装置２０３に表示し又は第２通信装置２０１を介して他のコンピュータに送信して表示させる。

図５に示す例では、学習器により、教師画像５００から複数の教師特徴点５１０～５１８が検出されており、各教師特徴点５１０～５１８の教師特徴量が算出されている。なお、説明を簡易にするために、図５に示す例では、特徴点が９つだけ示されているが、特徴点は多数（数百～数千個）検出される。

次に、辞書生成部２２１は、入力装置２０２を用いて管理者から、又は、第２通信装置２０１を介して他のコンピュータから、各教師画像に含まれる検出対象物の４つ角の位置、及び、４つ角に対応する教師対応領域の指定を受け付ける。辞書生成部２２１は、４つ角に対応する教師特徴点として、ステップＳ１０２で取得した教師特徴点の中から、指定された教師対応領域に含まれる教師特徴点を抽出する。これにより、辞書生成部２２１は、指定された４つ角の位置を示す位置情報、４つ角に対応する教師対応領域、及び、４つ角に対応する教師特徴点を示す対応情報を取得する（ステップＳ１０３）。なお、辞書生成部２２１は、入力装置２０２を用いて管理者から、又は、第２通信装置２０１を介して他のコンピュータから、４つ角に対応する教師特徴点の指定を受け付けてもよい。

図５に示す例では、管理者により、教師画像５００に含まれる検出対象物である運転免許証の左上角５２１、右上角５２２、左下角５２３及び右下角５２４が指定される。なお、運転免許証は各角に丸みを有しており、運転免許証には運転免許証の辺が交差する点は存在しないが、図５に示すように、４つ角の位置として、教師画像５００内の検出対象物の各辺を延長したラインが交差する位置が指定されることが望ましい。

また、図５に示す例では、左上角５２１、右上角５２２、左下角５２３及び右下角５２４に対して、検出対象物内部であり且つ各角の周辺に位置する教師対応領域５２５、５２６、５２７及び５２８が指定される。そして、左上角５２１に対応する教師特徴点として、教師対応領域５２５内に存在する教師特徴点５１１、５１２が抽出される。また、右上角５２２に対応する教師特徴点として、教師対応領域５２６内に存在する教師特徴点５１３、５１４が抽出される。また、左下角５２３に対応する教師特徴点として、教師対応領域５２７内に存在する教師特徴点５１５、５１６が抽出される。また、右下角５２４に対応する教師特徴点として、教師対応領域５２８内に存在する教師特徴点５１７、５１８が抽出される。

次に、辞書生成部２２１は、取得した教師画像、教師特徴点、教師特徴量、位置情報、教師対応領域及び対応情報を関連付けて教師テーブル及び位置テーブルに記憶し（ステップＳ１０４）、一連のステップを終了する。

図６は、画像読取装置１００による画像読取処理の動作の例を示すフローチャートである。以下、図６に示したフローチャートを参照しつつ、画像読取処理の動作を説明する。なお、以下に説明する動作のフローは、予め第１記憶装置１１０に記憶されているプログラムに基づき主に第１処理回路１２０により画像読取装置１００の各要素と協働して実行される。

最初に、撮像装置１０２は、検出対象物を撮像して入力画像を生成し、第１記憶装置１１０に記憶する（ステップＳ２０１）。

次に、第１処理回路１２０は、第１記憶装置１１０に記憶された入力画像を、第１通信装置１０１を介して情報処理装置２００に送信し（ステップＳ２０２）、一連のステップを終了する。

図７は、情報処理装置２００による認識処理の動作の例を示すフローチャートである。以下、図７に示したフローチャートを参照しつつ、認識処理の動作を説明する。なお、以下に説明する動作のフローは、予め第２記憶装置２１０に記憶されているプログラムに基づき主に第２処理回路２２０により情報処理装置２００の各要素と協同して実行される。

最初に、取得部２２２は、入力画像を、第２通信装置２０１を介して画像読取装置１００から取得し、第２記憶装置２１０に記憶する（ステップＳ３０１）。なお、情報処理装置２００に検出対象物が複数設定されている場合、取得部２２２は、入力装置２０２を用いて管理者から、又は、第２通信装置２０１を介して他のコンピュータから、入力画像に含まれる検出対象物の指定を受け付ける。

図８は、入力画像８００の一例を示す模式図である。

図８に示す入力画像８００は、検出対象物として運転免許証８０１を含んでいる。但し、入力画像８００は、利用者により、画像読取装置１００の撮像装置１０２を用いて撮像されており、入力画像８００において、運転免許証８０１は傾いた状態で写っている。また、入力画像８００には、ピンボケにより不明瞭部分８０２が含まれている。

次に、検出部２２３は、取得した入力画像を、第２記憶装置２１０に記憶された学習器に入力し、学習器から出力された複数の特徴点及び特徴量を、検出対象物の複数の特徴点及びその複数の特徴点毎の特徴量として検出する（ステップＳ３０２）。

図８に示す例では、学習器により、入力画像８００から複数の特徴点８１０～８１６、８１９が検出されており、各特徴点８１０～８１６、８１９の特徴量が算出されている。左上角８２１の近傍に検出された特徴点８１１、８１２は、教師特徴点５１１、５１２に対応している。右上角８２２の近傍に検出された特徴点８１３、８１４は、教師特徴点５１３、５１４に対応している。左下角８２３の近傍に検出された特徴点８１５、８１６は、教師特徴点５１５、５１６に対応している。但し、入力画像８００において、教師特徴点５１７、５１８に対応する点８１７、８１８は、ピンボケによる不明瞭部分８０２に含まれており、特徴点として検出されていない。右下角８２４の最も近くに検出された特徴点は、右下角８２４から離れた位置に存在する特徴点８１９である。なお、説明を簡易にするために、図８に示す例では、特徴点が８つだけ示されているが、特徴点は多数（数百～数千個）検出される。

次に、判定部２２４は、検出部２２３により４つ以上の特徴点が検出されたか否かを判定する（ステップＳ３０３）。４つ以上の特徴点が検出されなかった場合、判定部２２４は、入力画像から検出対象物の位置を精度良く算出することが困難であると判定し、検出対象物の位置を特定することなく、一連のステップを終了する。

一方、４つ以上の特徴点が検出された場合、判定部２２４は、位置テーブルに記憶された対応情報に示される教師特徴点の教師特徴量に基づいて、検出対象物の４つ角に対応する特徴点が検出できたか否かを判定する（ステップＳ３０４）。

判定部２２４は、まず、教師テーブルを参照して、検出対象物に対応する全ての教師特徴点を特定し、特定した各教師特徴点の教師特徴量を特定する。判定部２２４は、入力画像から検出された各特徴点と、教師テーブルにおいて特定された各教師特徴点とのペア毎に、各特徴点の類似の度合いを示す類似度を算出する。判定部２２４は、類似度として、例えば入力画像から検出された各特徴点の特徴量（特徴ベクトル）と、各教師特徴点の教師特徴量（特徴ベクトル）のコサイン類似度を算出する。判定部２２４は、特徴点及び教師特徴点が重複して抽出されないように、類似度が高い順に、類似度が閾値以上であるペアを抽出し、抽出したペアに係る特徴点と教師特徴点を対応付ける。

なお、判定部２２４は、各特徴点又は各教師特徴点について、類似度が最も高いペアの類似度と、類似度が二番目に高いペアの類似度の差が所定差以下である場合、その各ペアについては特徴点と教師特徴点を対応付けないようにしてもよい。これにより、判定部２２４は、相互に対応しない特徴点と教師特徴点を誤って対応付けてしまうことを抑制できる。

次に、判定部２２４は、位置テーブルを参照して、検出対象物に対応する、四つの角のそれぞれの対応情報に示される教師特徴点を特定する。判定部２２４は、四つの角毎に、特定した教師特徴点に何れかの特徴点が対応付けられたか否かを判定する。判定部２２４は、各角について、何れかの教師特徴点に特徴点が対応付けられている場合、その角に対応する特徴点が検出できたと判定し、何れの教師特徴点にも特徴点が対応付けられていない場合、その角に対応する特徴点が検出できなかったと判定する。判定部２２４は、４つの角の全てについて対応する特徴点が検出できた場合、検出対象物の４つ角に対応する特徴点が検出できたと判定し、何れかの角について特徴点が検出できなかった場合、検出対象物の４つ角に対応する特徴点が検出できなかったと判定する。

図５及び図８に示す例では、左上角５２１に対応する教師特徴点５１１、５１２に、入力画像８００から検出された特徴点８１１、８１２が対応付けられる。また、右上角５２２に対応する教師特徴点５１３、５１４に、入力画像８００から検出された特徴点８１３、８１４が対応付けられる。また、左下角５２３に対応する教師特徴点５１５、５１６に、入力画像８００から検出された特徴点８１５、８１６が対応付けられる。しかし、入力画像８００において、右下角５２４に対応する教師特徴点５１７、５１８に対応する点８１７、８１８は特徴点として検出されていない。そのため、右下角５２４に対応する教師特徴点５１７、５１８には、入力画像８００から検出された特徴点が対応付けられず、検出対象物の４つ角に対応する特徴点が検出できなかったと判定される。

検出対象物の４つ角に対応する特徴点が検出できたと判定された場合、特定部２２５は、検出部２２３により検出された特徴点とその特徴点に対応する教師特徴点とに基づいて、第１射影変換行列を算出する（ステップＳ３０５）。第１射影変換行列は、教師画像の座標空間を入力画像の座標空間に変換するための変換行列であり、検出部２２３により検出された特徴点とその特徴点に対応する教師特徴点の位置関係の一例である。

入力画像内の特徴点と、教師特徴点と、第１射影変換行列の関係は、以下の式（１）で表される。

ここで、ｘ’及びｙ’は、入力画像を示す二次元座標空間における特徴点のｘ座標及びｙ座標であり、ｘ及びｙは、教師画像を示す二次元座標空間における教師特徴点のｘ座標及びｙ座標である。第１射影変換行列は、３行×３列の行列であり、ａ～ｉは、第１射影変換行列の各要素である。

特定部２２５は、判定部２２４により対応付けられた特徴点と教師特徴点のペアの中から、ペアを四つずつ組み合せたセットを抽出し、各セットに含まれるペアに係る特徴点の座標と教師特徴点の座標から、式（１）を満たす要素ａ～ｉを算出する。特定部２２５は、セット毎に算出した要素ａ～ｉの平均値をそれぞれ第１射影変換行列の要素ａ～ｉとして算出する。

次に、特定部２２５は、教師画像に含まれる検出対象物の四つ角の位置情報と、第１射影変換行列とに基づいて、入力画像における角の位置を特定する（ステップＳ３０６）。

特定部２２５は、位置テーブルを参照して、検出対象物に対応する位置情報に示される各角の座標、即ち教師画像に含まれる検出対象物の各角の座標を特定する。特定部２２５は、四つの角毎に、第１射影変換行列を用いて各角の座標を変換することにより、即ち式（１）の（ｘ、ｙ）に教師画像に含まれる検出対象物の各角の座標を代入することにより、入力画像における角の座標を算出し、角の位置を特定する。

特定部２２５は、四つの角に対応する特徴点と教師特徴点の位置関係から算出された第１射影変換行列を用いることにより、入力画像における角の位置を高精度に特定することができる。

一方、ステップＳ３０４において検出対象物の４つ角に対応する特徴点が検出できないと判定された場合、判定部２２４は、検出対象物の３つの角に対応する特徴点が検出できたか否かを判定する（ステップＳ３０７）。判定部２２４は、ステップＳ３０４の処理と同様に、対応情報に示される教師特徴点の教師特徴量に基づいて、検出対象物の３つの角に対応する特徴点が検出できたか否かを判定する。判定部２２４は、特徴点が検出できた角が３つ以上である場合、検出対象物の３つの角に対応する特徴点が検出できたと判定する。一方、判定部２２４は、特徴点が検出できた角が３つ未満である場合、検出対象物の３つの角に対応する特徴点が検出できなかったと判定する。検出対象物の３つの角に対応する特徴点が検出できなかった場合、判定部２２４は、入力画像から検出対象物の位置を精度良く算出することが困難であると判定し、検出対象物の位置を特定することなく、一連のステップを終了する。

一方、検出対象物の３つの角に対応する特徴点が検出できた場合、推定部２２６は、検出部２２３により検出された特徴点とその特徴点に対応する教師特徴点とに基づいて、第２射影変換行列を算出する（ステップＳ３０８）。第２射影変換行列は、第１射影変換行列と同様に、教師画像の座標空間を入力画像の座標空間に変換するための変換行列であり、検出部２２３により検出された特徴点とその特徴点に対応する教師特徴点の位置関係の一例である。

入力画像内の特徴点と、教師特徴点と、第２射影変換行列の関係は、上記した式（１）で表される。但し、この入力画像内の特徴点には、検出対象物の４つ角の内、１つの角に対応する特徴点が含まれていないため、第２射影変換行列が教師画像の座標空間を入力画像の座標空間に変換する変換精度は、第１射影変換行列の変換精度より低い。

次に、推定部２２６は、算出した第２射影変換行列に基づいて、補完領域を推定する（ステップＳ３０９）。補完領域は、ステップＳ３０２で所定の特徴点が検出できなかったことにより特定できなかった所定の角に対応する教師特徴点を含む教師画像内の領域に対応する入力画像内の領域である。

推定部２２６は、位置テーブルを参照して、検出対象物に対応する位置情報に示される教師画像内の各角の座標の内、対応する特徴点が検出できなかった角の座標を特定する。推定部２２６は、第２射影変換行列を用いて、特定した角の座標を変換することにより、即ち式（１）の（ｘ、ｙ）に、特定した角の座標の座標を代入することにより、入力画像における所定の角の座標を算出し、所定の角の仮の位置を設定する。

次に、推定部２２６は、算出した所定の角の座標から、検出できなかった特徴点の位置を推定する。推定部２２６は、設定した入力画像内の所定の角の仮の位置に対して、対応する教師画像内の角に対するその角に対応する各教師特徴点の位置関係と同じ位置関係を有する位置を算出する。推定部２２６は、算出した入力画像内の所定の角の座標の各成分（ｘ成分、ｙ成分）に、対応する教師画像内の角の座標の各成分を、その角に対応する各教師特徴点の座標の各成分から減算した減算値を加算した座標を算出する。推定部２２６は、算出した座標を、検出できなかった特徴点の座標として推定する。

推定部２２６は、検出できなかった特徴点の位置として推定された各位置を包含する領域を補完領域として設定する。推定部２２６は、例えば推定された各位置群の外接矩形領域を水平及び垂直方向に所定サイズ分だけ拡大した領域を補完領域として設定する。上記したように、第２射影変換行列の変換精度は第１射影変換行列の変換精度より低いため、推定部２２６が推定した各位置は誤差を含んでいる。推定部２２６は、補完領域を大きめに設定することにより、検出できなかった角の位置をより高精度に推定できる。

このように、特定部２２５は、三つの角に対応する特徴点の位置関係から算出された第２射影変換行列を用いることにより、検出できなかった角の位置を高精度に推定することが可能な補完領域を設定することができる。

なお、推定部２２６は、教師画像内の教師対応領域に対応する入力画像内の領域を補完領域として設定してもよい。その場合、推定部２２６は、設定した入力画像内の所定の角の仮の位置に対して、対応する教師画像内の角に対するその角に対応する教師対応領域の各端部（角）の位置関係と同じ位置関係を有する位置を算出する。推定部２２６は、算出した各位置を角とする領域を水平及び垂直方向に所定サイズ分だけ拡大した領域を補完領域として設定する。

図５及び図８に示す例では、入力画像８００において、右下角５２４に対応する教師特徴点５１７、５１８に対応する点８１７、８１８が特徴点として検出されていない。右下角５２４の近傍の教師特徴点５１７、５１８と、対応する特徴点との位置関係が利用されていないため、第２射影変換行列の変換精度は、第１射影変換行列の変換精度より低い。そのため、第２射影変換行列を用いて算出された右下角の推定位置８２５は、実際の右下角８２４の位置に対してずれている。また、推定位置８２５に対して、教師画像５００内の右下角５２４に対する教師特徴点５１７、５１８の位置関係と同じ位置関係を有する位置８３１、８３２は、点８１７、８１８からずれている。そのため、位置８３１、８３２の外接矩形領域８３３は、実際に教師特徴点５１７に対応する点８１７を包含していない。推定部２２６は、外接矩形領域８３３を所定サイズ分だけ拡大した領域８３４を補完領域として設定することにより、教師特徴点５１７、５１８に対応する点８１７、８１８が包含されるように補完領域８３４を設定できる。

次に、推定部２２６は、入力画像における位置を特定できなかった所定の角に対応する教師画像内の教師対応領域と、入力画像内の補完領域とのパターンマッチングを行う（ステップＳ３１０）。即ち、推定部２２６は、所定の特徴点が検出できなかったことにより、入力画像における所定の角の位置を特定できない場合、その所定の角に対応する教師特徴点を含む教師画像内の領域と、その領域に対応する入力画像内の領域とのパターンマッチングを行う。

推定部２２６は、位置テーブルを参照して、位置を特定できなかった所定の角に対応する教師対応領域を特定し、教師画像から、特定した教師対応領域を切り出した教師切り出し画像を生成する。推定部２２６は、教師切り出し画像内で階調値が二値化閾値以上である画素を無効画素とし、階調値が二値化閾値未満である画素を有効画素とした教師二値画像を生成する。階調値は、例えば輝度値又は色値等である。二値化閾値は、例えば階調範囲の最大値と最小値の中央値に設定される。推定部２２６は、相互に隣接する有効画素で囲まれる領域をラベリングにより一つのグループにまとめて有効領域として設定し、各有効領域の外接矩形領域内の画素を有効画素とし、他の画素を無効画素とした教師ラベル画像を生成する。

同様に、推定部２２６は、入力画像から補完領域を切り出した入力切り出し画像を生成する。推定部２２６は、入力切り出し画像内で階調値が二値化閾値以上である画素を無効画素とし、階調値が二値化閾値未満である画素を有効画素とした入力二値画像を生成する。推定部２２６は、入力二値画像内で相互に隣接する有効画素で囲まれる領域をラベリングにより一つのグループにまとめて有効領域として設定し、各有効領域の外接矩形領域内の画素を有効画素とし、他の画素を無効画素とした入力ラベル画像を生成する。

推定部２２６は、入力ラベル画像内で切り出し範囲を移動させながら、教師ラベル画像と同一サイズの画像を順次切り出し、教師ラベル画像との類似の程度が最大値閾値以上である画像に対応する入力画像内の領域を入力対応領域として検出する。類似の程度は、例えば正規化相互相関値である。

このように、推定部２２６は、所定の角に対応する教師特徴点を含む教師画像内の教師対応領域を二値化した教師二値画像内の有効画素の外接矩形と、入力画像において対応する領域を二値化した入力二値画像内の有効画素の外接矩形とを比較する。これにより、推定部２２６は、パターンマッチングを行う。推定部２２６は、二値化した画像の有効画素の外接矩形を比較してパターンマッチングを行うことにより、低負荷に且つ短時間で画像を比較できるので、認識処理における処理負荷を軽減し且つ処理時間を短縮することができる。

なお、推定部２２６は、教師ラベル画像と入力ラベル画像のパターンマッチングに代えて、教師切り出し画像と入力切り出し画像のパターンマッチング、又は、教師二値画像と入力二値画像のパターンマッチングを行ってもよい。

図９は、推定部２２６によるパターンマッチングについて説明するための模式図である。

図９の画像９００は教師画像５００から教師対応領域を切り出した教師切り出し画像であり、画像９０１は教師切り出し画像９００から生成された教師二値画像であり、画像９０２は教師二値画像９０１から生成された教師ラベル画像である。一方、画像９１０は入力画像８００から補完領域８３４を切り出した入力切り出し画像であり、画像９１１は入力切り出し画像９１０から生成された入力二値画像であり、画像９１２は入力二値画像９１１から生成された入力ラベル画像である。図９に示す例では、入力ラベル画像９１２において「公安委員会」と記載されていた領域９１３が、教師ラベル画像９０２と最も類似し、入力対応領域として検出されている。

次に、推定部２２６は、パターンマッチングにより検出した入力画像内の入力対応領域に基づいて、入力画像における位置を特定できなかった所定の角に対応する所定の特徴点を推定する（ステップＳ３１１）。

推定部２２６は、検出した入力対応領域内の所定位置（角又は重心位置等）に対して、教師対応領域内の対応する所定位置（角又は重心位置等）に対する各教師特徴点の位置関係と同じ位置関係を有する位置を算出する。推定部２２６は、入力対応領域内の所定位置の座標の各成分に、教師対応領域内の所定位置の座標の各成分を各教師特徴点の座標の各成分から減算した減算値を加算した座標を算出する。推定部２２６は、算出した座標を、各教師特徴点に対応する特徴点の座標として推定する。

なお、推定部２２６は、教師対応領域内の所定位置（角又は重心位置等）を新たな教師特徴点とし、検出した入力対応領域内の対応する所定位置（角又は重心位置等）を、その教師特徴点に対応する特徴点として推定してもよい。

次に、推定部２２６は、検出部２２３により検出された特徴点とその特徴点に対応する教師特徴点に加えて、推定部２２６が推定した特徴点とその特徴点に対応する教師特徴点に基づいて、第３射影変換行列を算出する（ステップＳ３１２）。第３射影変換行列は、第１射影変換行列と同様に、教師画像の座標空間を入力画像の座標空間に変換するための変換行列である。

入力画像内の特徴点と、教師特徴点と、第３射影変換行列の関係は、上記した式（１）で表される。この入力画像内の特徴点には、検出対象物の４つ角の全てに対応する特徴点が含まれているため、第３射影変換行列の変換精度は、第２射影変換行列の変換精度より高く、第１射影変換行列の変換精度と同程度である。

次に、推定部２２６は、教師画像に含まれる検出対象物の四つ角の位置情報と、第３射影変換行列とに基づいて、入力画像における角の位置、特に特定できなかった入力画像における角の位置を推定する（ステップＳ３１３）。推定部２２６は、第３射影変換行列を用いて、ステップＳ３０６の処理と同様に、式（１）の（ｘ、ｙ）に教師画像に含まれる検出対象物の各角の座標を代入することにより、入力画像における角の位置の座標を算出する。

推定部２２６は、第１射影変換行列の変換精度と同程度の変換精度を有する第３射影変換行列を用いることにより、入力画像における角の位置を高精度に推定できる。

次に、出力制御部２２７は、入力画像において検出又は推定された角の位置から検出対象物が含まれる領域を特定し、特定した領域から文字情報を認識する（ステップＳ３１４）。出力制御部２２７は、入力画像において検出又は推定された四つの角を四つ角とする四角形の領域を検出対象物が含まれる領域として特定する。出力制御部２２７は、公知のＯＣＲ技術を利用して、特定した領域から文字情報を認識する。

次に、出力制御部２２７は、認識した文字情報を表示装置２０３に表示し又は第２通信装置２０１を介して外部のコンピュータに送信することにより出力し（ステップＳ３１５）、一連のステップを終了する。認識した文字情報は、入力画像において検出又は推定された角の位置に基づく情報の一例である。なお、出力制御部２２７は、入力画像において検出又は推定された角の位置に基づく情報として、入力画像において検出又は推定された角の位置自体、検出対象物が含まれる領域の座標、又は、入力画像から検出対象物を切り出した画像等を出力してもよい。それらの場合、出力制御部２２７は、特定した領域から文字情報を認識しなくてもよい。

以上詳述したように、情報処理装置２００は、教師画像内の教師特徴点と入力画像内の特徴点の関係に基づいて入力画像内の検出対象物の角の位置を特定し、角の位置を特定できなかった場合、パターンマッチングにより角の位置を推定する。これにより、情報処理装置２００は、入力画像における検出対象物の位置をより精度良く検出することが可能となった。

また、利用者により携帯可能な画像読取装置１００の撮像装置１０２を用いて検出対象物が撮像された画像には、検出対象物と重複するように利用者の指等が撮像される可能性、又は、検出対象物の一部にピンボケが発生する可能性がある。また、撮像装置１０２の特性によっても検出対象物の一部にピンボケが発生する可能性がある。情報処理装置２００は、検出対象物の角の一つが検出できない場合にはパターンマッチングを用いて角の位置を推定するため、入力画像において検出対象物の角の一つが明瞭に撮像されていない場合でも、検出対象物の位置を精度良く検出することが可能となった。

また、利用者により携帯可能な画像読取装置１００の撮像装置１０２を用いて検出対象物が撮像された画像には、背景に木目調のテーブルや、細かい文字が書かれた新聞紙等の複雑な模様が含まれる可能性がある。情報処理装置２００は、検出対象物内の特徴点に基づいて検出対象物の角を検出するため、入力画像の背景に複雑な模様が含まれて、検出対象物の角と背景との差が不明瞭である場合でも、検出対象物の位置を精度良く検出することが可能となった。

また、一般に、パターンマッチング技術によって画像から検出対象物の位置を特定する場合、画像を様々な態様で変形（拡大縮小／回転／歪み補正）しながら、登録画像と照合させる必要がある。情報処理装置２００は、入力画像内で検出した３つの角に基づいて補完領域を設定するので、パターンマッチングを行う対象領域を精度良く推定でき、対象物の位置を短時間に且つ精度良く推定できる。

また、画像処理システム１は、ＯＣＲ及びＲＰＡ（Robotic Process Automation）技術を利用して帳票入力業務を自動化するシステムにおいても適用可能である。このような企業においても、画像処理システム１を適用することにより、帳票入力業務の効率化を図り、担当者の業務負担を軽減させることが可能となる。

図１０は、他の実施形態に係る情報処理装置における第２処理回路２３０の概略構成を示すブロック図である。

第２処理回路２３０は、第２処理回路２２０の代わりに、辞書生成処理及び認識処理等を実行する。第２処理回路２３０は、辞書生成回路２３１、取得回路２３２、検出回路２３３、判定回路２３４、特定回路２３５、推定回路２３６及び出力制御回路２３７等を有する。

辞書生成回路２３１は、辞書生成部の一例であり、辞書生成部２２１と同様の機能を有する。辞書生成回路２３１は、入力装置２０２又は第２通信装置２０１から教師画像を取得し、教師画像から教師特徴点及び教師特徴量を算出する。また、辞書生成回路２３１は、入力装置２０２又は第２通信装置２０１から検出対象物の４つ角の位置情報及び教師対応領域を取得し、取得した各情報から対応情報を取得する。辞書生成回路２３１は、取得及び算出した各情報を第２記憶装置２１０に記憶する。

取得回路２３２は、取得部の一例であり、取得部２２２と同様の機能を有する。取得回路２３２は、入力画像を、第２通信装置２０１を介して画像読取装置１００から取得し、第２記憶装置２１０に記憶する。

検出回路２３３は、検出部の一例であり、検出部２２３と同様の機能を有する。検出回路２３３は、第２記憶装置２１０から入力画像を読み出し、入力画像から特徴点及び特徴量を検出し、検出結果を第２記憶装置２１０に記憶する。

判定回路２３４は、判定部の一例であり、判定部２２４と同様の機能を有する。判定回路２３４は、第２記憶装置２１０から教師テーブル及び位置テーブルと、特徴点及び特徴量の検出結果とを読み出し、４つ角に対応する特徴点が検出できたか否かを判定し、判定結果を第２記憶装置２１０に記憶する。

特定回路２３５は、特定部の一例であり、特定部２２５と同様の機能を有する。特定回路２３５は、第２記憶装置２１０から教師テーブル及び位置テーブルと、特徴点及び特徴量の検出結果とを読み出して、入力画像における角の位置を特定し、特定結果を第２記憶装置２１０に記憶する。

推定回路２３６は、推定部の一例であり、推定部２２６と同様の機能を有する。推定回路２３６は、第２記憶装置２１０から教師テーブル及び位置テーブルと、特徴点及び特徴量の検出結果とを読み出して、入力画像における角の位置を推定し、推定結果を第２記憶装置２１０に記憶する。

出力制御回路２３７は、出力制御部の一例であり、出力制御部２２７と同様の機能を有する。出力制御回路２３７は、第２記憶装置２１０から入力画像における角の位置の特定結果及び推定結果を読み出し、角の位置に関する情報を表示装置２０３又は第２通信装置２０１に出力する。

以上詳述したように、情報処理装置は、第２処理回路２３０を用いる場合も、入力画像における検出対象物の位置をより精度良く検出することが可能となった。

以上、好適な実施形態について説明してきたが、実施形態はこれらに限定されない。例えば、画像読取装置１００と情報処理装置２００の機能分担は、図１に示す画像処理システム１の例に限られず、画像読取装置１００及び情報処理装置２００の各部を画像読取装置１００と情報処理装置２００の何れに配置するかは適宜変更可能である。または、画像読取装置１００と情報処理装置２００を一つの装置で構成してもよい。

例えば、画像読取装置１００の第１記憶装置１１０が、情報処理装置２００の第２記憶装置２１０に記憶された各プログラム及び各データを記憶してもよい。また、画像読取装置１００の第１処理回路１２０が、情報処理装置２００の第２処理回路２２０により実現される各部として動作してもよい。また、画像読取装置１００が、情報処理装置２００の第２処理回路２３０と同様の処理回路を有してもよい。

その場合、画像読取装置１００は、入力装置２０２と同様の入力装置及び表示装置２０３と同様の表示装置を有する。認識処理は画像読取装置１００で実行されるため、ステップＳ２０２、Ｓ３０１の入力画像の送受信処理は省略される。ステップＳ３０２～Ｓ３１５の各処理は、画像読取装置１００の第１処理回路１２０によって実行される。これらの処理の動作は、情報処理装置２００の第２処理回路２２０又は第２処理回路２３０によって実行される場合と同様である。この場合、画像読取装置１００が画像処理装置として動作する。

また、画像処理システム１において、クラウドコンピューティングの形態で画像処理のサービスを提供できるように、ネットワーク上に複数の情報処理装置を分散して配置し、各情報処理装置が協働して、認識処理等を分担するようにしてもよい。これにより、画像処理システム１は、複数の画像読取装置が読み取った入力画像について、効率よく認識処理を実行できる。

２００情報処理装置
２１０第２記憶装置
２２２取得部
２２３検出部
２２４判定部
２２５特定部
２２６推定部

Claims

矩形の検出対象物及び当該検出対象物に含まれる複数の教師特徴点を含む教師画像と、当該複数の教師特徴点毎の教師特徴量と、当該検出対象物の４つ角の位置情報と、前記４つ角に対応する教師特徴点を示す対応情報とを記憶する記憶部と、
入力画像を取得する取得部と、
前記入力画像における複数の特徴点と、当該複数の特徴点毎の特徴量とを検出する検出部と、
前記対応情報に示される教師特徴点の教師特徴量に基づいて、前記４つ角に対応する特徴点が検出できたか否かを判定する判定部と、
前記位置情報と、前記検出部により検出された特徴点と当該特徴点に対応する教師特徴点の位置関係とに基づいて、前記入力画像における角の位置を特定する特定部と、
所定の特徴点が検出できなかったことにより、前記入力画像における所定の角の位置を特定できない場合、前記所定の角に対応する教師特徴点を含む前記教師画像内の領域と、当該領域に対応する前記入力画像内の領域とのパターンマッチングを行い、特定できなかった前記入力画像における所定の角の位置を推定する推定部と、
を有することを特徴とする画像処理装置。
前記特定部は、前記検出部により検出された特徴点と当該特徴点に対応する教師特徴点とに基づいて、前記教師画像の座標空間を前記入力画像の座標空間に変換するための第１射影変換行列を前記位置関係として算出する、請求項１に記載の画像処理装置。
前記推定部は、
前記検出部により検出された特徴点と当該特徴点に対応する教師特徴点とに基づいて、前記教師画像の座標空間を前記入力画像の座標空間に変換するための第２射影変換行列を算出し、
前記第２射影変換行列に基づいて、前記所定の角に対応する教師特徴点を含む前記教師画像内の領域に対応する前記入力画像内の領域を推定する、請求項１または２に記載の画像処理装置。
前記推定部は、
前記パターンマッチングにより、前記所定の特徴点を推定し、
前記検出部により検出された特徴点と当該特徴点に対応する教師特徴点に加えて、前記推定した特徴点と当該特徴点に対応する教師特徴点に基づいて、前記教師画像の座標空間を前記入力画像の座標空間に変換するための第３射影変換行列を算出し、
前記第３射影変換行列に基づいて、前記入力画像における所定の角の位置を推定する、請求項１～３の何れか一項に記載の画像処理装置。
前記推定部は、前記所定の角に対応する教師特徴点を含む前記教師画像内の領域を二値化した画像内の有効画素の外接矩形と、前記入力画像において対応する領域を二値化した画像内の有効画素の外接矩形とを比較することにより、前記パターンマッチングを行う、請求項１～４の何れか一項に記載の画像処理装置。
前記教師特徴量及び前記特徴量は、輝度勾配の極値に関する情報である、請求項１～５の何れか一項に記載の画像処理装置。
記憶部を有する画像処理装置の制御方法であって、前記画像処理装置が、
矩形の検出対象物及び当該検出対象物に含まれる複数の教師特徴点を含む教師画像と、当該複数の教師特徴点ごとの教師特徴量と、当該検出対象物の４つ角の位置情報と、前記４つ角に対応する教師特徴点を示す対応情報とを前記記憶部に記憶し、
入力画像を取得し、
前記入力画像における複数の特徴点と、当該複数の特徴点ごとの特徴量とを検出し、
前記対応情報に示される教師特徴点の教師特徴量に基づいて、前記４つ角に対応する特徴点が検出できたか否かを判定し、
前記位置情報と、前記検出された特徴点と当該特徴点に対応する教師特徴点の位置関係とに基づいて、前記入力画像における角の位置を特定し、
所定の特徴点が検出できなかったことにより、前記入力画像における所定の角の位置を特定できない場合、前記所定の角に対応する教師特徴点を含む前記教師画像内の領域と、当該領域に対応する前記入力画像内の領域とのパターンマッチングを行い、特定できなかった前記入力画像における所定の角の位置を推定する、
ことを特徴とする制御方法。
記憶部を有するコンピュータの制御プログラムであって、
矩形の検出対象物及び当該検出対象物に含まれる複数の教師特徴点を含む教師画像と、当該複数の教師特徴点ごとの教師特徴量と、当該検出対象物の４つ角の位置情報と、前記４つ角に対応する教師特徴点を示す対応情報とを前記記憶部に記憶し、
入力画像を取得し、
前記入力画像における複数の特徴点と、当該複数の特徴点ごとの特徴量とを検出し、
前記対応情報に示される教師特徴点の教師特徴量に基づいて、前記４つ角に対応する特徴点が検出できたか否かを判定し、
前記位置情報と、前記検出された特徴点と当該特徴点に対応する教師特徴点の位置関係とに基づいて、前記入力画像における角の位置を特定し、
所定の特徴点が検出できなかったことにより、前記入力画像における所定の角の位置を特定できない場合、前記所定の角に対応する教師特徴点を含む前記教師画像内の領域と、当該領域に対応する前記入力画像内の領域とのパターンマッチングを行い、特定できなかった前記入力画像における所定の角の位置を推定する、
ことを前記コンピュータに実行させることを特徴とする制御プログラム。