JP2019046007A

JP2019046007A - 座標検出装置及び学習済みモデル

Info

Publication number: JP2019046007A
Application number: JP2017166420A
Authority: JP
Inventors: 正義林; Masayoshi Hayashi; 貴彦深澤; Takahiko Fukazawa
Original assignee: PFU Ltd
Current assignee: PFU Ltd
Priority date: 2017-08-31
Filing date: 2017-08-31
Publication date: 2019-03-22
Anticipated expiration: 2037-08-31
Also published as: JP6858101B2

Abstract

【課題】ナンバープレート等の物体の形状を精度良く検出すること。【解決手段】座標検出装置２０は、記憶部２２と検出部２３とを有する。記憶部２２は、第一学習済みモデルとしての検出モデルと、第二学習済みモデルとしての分類モデルとを記憶する。検出モデルは、ナンバープレートのコーナー点が中心に位置するポジティブ画像を用いて機械学習により生成された学習済みモデルである。また、検出モデル及び分類モデルは、検出対象画像においてナンバープレートのコーナー点が中心に位置する領域の情報を出力する。検出部２３は、ナンバープレートが撮影された検出対象画像に対して、検出モデル及び分類モデルを用いてナンバープレートのコーナー点が中心に位置する領域を検出し、検出対象画像におけるナンバープレートのコーナー点の座標を検出する。【選択図】図３

Description

本発明は、座標検出装置及び学習済みモデルに関する。

マシンビジョン技術の発展や、スマートデバイス等のカメラ搭載デバイスの普及に伴って、撮影された物体の形状を精度良く検出することが求められている。

撮影された物体の形状を検出する方法として、特徴点抽出を用いた検出方法がある。しかし、特徴点抽出を用いた検出方法では、検出の対象物毎に、抽出する特徴点の見直しや、抽出の際に使用する閾値の調節等が必要になるため、オペレータの作業負荷が大きくなる。

特開２００７−０８５９３７号公報

そこで、近年、撮影された物体の形状を機械学習を用いて検出する技術についての検討が行われている。しかし、機械学習を用いた従来の検出方法では、検出精度が低かった。

開示の技術は、上記に鑑みてなされたものであって、撮影された物体の形状を精度良く検出することを目的とする。

開示の態様では、座標検出装置は、記憶部と、検出部とを有する。前記記憶部は、物体の規定点が中心に位置する画像を用いて機械学習により生成された、前記物体が撮影された入力画像において前記物体の規定点が中心に位置する領域の情報を出力する学習済みモデルを記憶する。前記検出部は、前記物体が撮影された前記入力画像に対して、前記学習済みモデルを用いて前記物体の規定点が中心に位置する領域を検出し、前記入力画像における前記物体の規定点の座標を検出する。

開示の態様によれば、物体の形状を精度良く検出することができる。

図１は、実施例１の物体形状検出システムの構成例を示す図である。図２は、実施例１の学習モデル生成装置の構成例を示す図である。図３は、実施例１の座標検出装置の構成例を示す図である。図４は、実施例１の学習モデル生成装置の処理の説明に供するフローチャートである。図５は、実施例１の学習モデル生成装置の動作の説明に供する図である。図６は、実施例１の学習モデル生成装置の動作の説明に供する図である。図７は、実施例１の座標検出装置の動作の説明に供する図である。図８は、実施例１の分類モデルの動作の説明に供する図である。図９は、実施例２の学習モデル生成装置の処理の説明に供するフローチャートである。図１０は、実施例２の学習モデル生成装置の動作の説明に供する図である。図１１は、実施例２の座標検出装置の動作の説明に供する図である。図１２は、実施例２の検出分類モデルの動作の説明に供する図である。図１３は、実施例２の検出分類モデルの動作の説明に供する図である。図１４は、実施例２の座標変換の一例を示す図である。図１５は、実施例３の文字認識装置の構成例を示す図である。図１６は、実施例３の補正部及び認識部の動作の説明に供する図である。図１７は、実施例３の透視投影変換の一例を示す図である。図１８は、実施例４の画像処理装置の構成例を示す図である。図１９は、実施例４の画像処理装置の動作の説明に供する図である。図２０は、実施例５の検出対象物体の一例を示す図である。図２１は、実施例５の検出対象物体の一例を示す図である。

以下に、本願の開示する座標検出装置及び学習済みモデルの実施例を図面に基づいて説明する。なお、この実施例により本願の開示する座標検出装置及び学習済みモデルが限定されるものではない。また、実施例において同一の機能を有する構成、及び、同一の処理を行うステップには同一の符号を付す。

［実施例１］
＜物体形状検出システムの構成＞
図１は、実施例１の物体形状検出システムの構成例を示す図である。図１において、物体形状検出システム１は、学習モデル生成装置１０と、座標検出装置２０とを有する。

学習モデル生成装置１０には元画像が入力され、学習モデル生成装置１０は、入力された元画像を用いて「学習済みモデル」を生成し、生成した学習済みモデルを座標検出装置２０へ出力する。

座標検出装置２０には形状検出の対象となる物体（以下では「検出対象物体」と呼ぶことがある）が撮影された画像（以下では「検出対象画像」と呼ぶことがある）が入力される。座標検出装置２０は、学習モデル生成装置１０で生成された学習済みモデルを用いて、検出対象画像に撮影されている検出対象物体の形状を検出し、検出結果を出力する。検出対象画像は、座標検出装置２０への「入力画像」に相当する。

＜学習モデル生成装置の構成＞
図２は、実施例１の学習モデル生成装置の構成例を示す図である。図２において、学習モデル生成装置１０は、データセット生成部１１と、学習モデル生成部１２と、記憶部１３と、出力部１４とを有する。

データセット生成部１１には元画像が入力される。データセット生成部１１は、元画像から、学習済みモデルの生成に使用される「データセット」を生成し、生成したデータセットを学習モデル生成部１２へ出力する。

学習モデル生成部１２は、データセット生成部１１で生成されたデータセットを用いて学習済みモデルを生成し、生成した学習済みモデルを記憶部１３へ出力する。つまり、データセット生成部１１で生成されたデータセットが、学習済みモデルを生成する際の教師データとなる。

記憶部１３は、学習モデル生成部１２で生成された学習済みモデルを記憶する。

出力部１４は、記憶部１３に記憶されている学習済みモデルを取得し、取得した学習済みモデルを座標検出装置２０へ出力する。学習モデル生成装置１０から座標検出装置２０への学習済みモデルの出力は、例えば、学習モデル生成装置１０に対するオペレータの指示に従って行われる。

＜座標検出装置の構成＞
図３は、実施例１の座標検出装置の構成例を示す図である。図３において、座標検出装置２０は、取得部２１と、記憶部２２と、検出部２３とを有する。

取得部２１は、学習モデル生成装置１０から出力された学習済みモデルを取得し、取得した学習済みモデルを記憶部２２へ出力する。

記憶部２２は、取得部２１で取得された学習済みモデルを記憶する。

検出部２３には検出対象画像が入力され、検出部２３は、記憶部２２に記憶されている学習済みモデルを用いて、検出対象物体の形状を検出し、検出結果を出力する。

＜学習モデル生成装置の処理＞
図４は、実施例１の学習モデル生成装置の処理の説明に供するフローチャートである。

図４において、ステップＳ１１では、データセット生成部１１が、元画像から、教師データとしての学習用データセットＡを生成する。

ステップＳ１３では、学習モデル生成部１２が、第一学習済みモデルとしての「検出モデル」の学習を行う。

また、ステップＳ１５では、学習モデル生成部１２が、第二学習済みモデルとしての「分類モデル」の学習を行う。

学習モデル生成部１２は、ステップＳ１３の処理とステップＳ１５の処理とを、同時に並行して行っても良いし、また、一方の処理が済んだ後に他方の処理を行っても良い。

＜学習モデル生成装置の動作＞
図５及び図６は、実施例１の学習モデル生成装置の動作の説明に供する図である。図５には、検出モデルの学習の動作例を図示し、図６には、分類モデルの学習の動作例を図示する。以下、検出モデルの学習の動作例と、分類モデルの学習の動作例とに分けて説明する。また以下では、検出対象画像に撮影されている検出対象物体の一例として、自動車の矩形のナンバープレートを挙げて説明する。また以下では、検出対象物体上に存在する「規定点」の一例として、ナンバープレートの四隅に存在する「コーナー点」を挙げて説明する。コーナー点は、「頂点」と呼ばれることもある。

＜検出モデルの学習の動作例：図５＞
図５に示すように、データセット生成部１１には、ナンバープレートＮＰを有する自動車の画像が元画像として複数入力され、データセット生成部１１は、これら複数の元画像から、第一教師データとしてのデータセットＡ１と、第二教師データとしてのデータセットＡ２とを生成する。

データセットＡ１は、図５に示すように、検出対象画像においてナンバープレートＮＰの４個のコーナー点が不鮮明な複数の「ネガティブ画像」により形成される。

一方で、データセットＡ２は、図５に示すように、ナンバープレートＮＰの４個のコーナー点の何れか一つのコーナー点だけを含む複数の「ポジティブ画像」により形成される。

ここで、各ポジティブ画像ＰＩにおいて、コーナー点ＣＰは、ポジティブ画像の中心に位置する。すなわち、例えばポジティブ画像ＰＩのアスペクト比が「ｘ：ｙ＝１：１」の場合、コーナー点ＣＰがｘ＝１／２，ｙ＝１／２の位置に配置されるようにポジティブ画像ＰＩが生成させる。換言すれば、ナンバープレートＮＰの四辺で形成される境界線のうちの互いに接する二辺の境界線がｘ＝１／２でのｙ方向に平行な直線及びｙ＝１／２でのｘ方向に平行な直線にほぼ重なるようにポジティブ画像ＰＩが生成される。図５に示す例では、ナンバープレートＮＰの４個のコーナー点のうちの左下のコーナー点ＣＰがポジティブ画像ＰＩの中心に位置している。すなわち、図５に示す例では、ポジティブ画像ＰＩにおいて、ナンバープレートＮＰの四辺のうち、左辺がｘ＝１／２でのｙ方向に平行な直線にほぼ重なり、かつ、左辺と互いに接する下辺がｙ＝１／２でのｘ方向に平行な直線にほぼ重なっている。

学習モデル生成部１２は、データセット生成部１１で生成されたデータセットＡ１，Ａ２を教師データとして用いて機械学習を行って、第一学習済みモデルとしての検出モデルを生成する。検出モデルを生成する際の機械学習は、例えば、ＬＢＰ（Local Binary Pattern）特徴を用いたBoostingにより行う。

＜分類モデルの学習の動作例：図６＞
図６に示すように、データセット生成部１１には、ナンバープレートＮＰを有する自動車の画像が元画像として複数入力され、データセット生成部１１は、これら複数の元画像から、第三教師データとしてのデータセットＡ３を生成する。なお、データセットＡ１、データセットＡ２及びデータセットＡ３により、図４のステップＳＴ１１における学習用データセットＡが形成される。

データセットＡ３は、図６に示すように、ナンバープレートＮＰの４個のコーナー点のうち、左上のコーナー点だけを含む複数の画像（以下では「左上コーナー点画像」と呼ぶことがある）と、右上のコーナー点だけを含む複数の画像（以下では「右上コーナー点画像」と呼ぶことがある）と、右下のコーナー点だけを含む複数の画像（以下では「右下コーナー点画像」と呼ぶことがある）と、左下のコーナー点だけを含む複数の画像（以下では「左下コーナー点画像」と呼ぶことがある）とにより形成される。左上コーナー点画像には左上のコーナー点に対応する「コーナー１」というラベルが付され、右上コーナー点画像には右上のコーナー点に対応する「コーナー２」というラベルが付され、右下コーナー点画像には右下のコーナー点に対応する「コーナー３」というラベルが付され、左下コーナー点画像には左下のコーナー点に対応する「コーナー４」というラベルが付される。なお、データセットＡ３を形成する各画像において、コーナー点は画像の中心に位置しなくても良い。

学習モデル生成部１２は、データセット生成部１１で生成されたデータセットＡ３を教師データとして用いて機械学習を行って、第二学習済みモデルとしての分類モデルを生成する。分類モデルを生成する際の機械学習として深層学習を用いる。分類モデルの生成は、例えば、４層のＣＮＮ（Convolutional Neural Network）により行う。

＜座標検出装置の動作＞
図７は、実施例１の座標検出装置の動作の説明に供する図である。

図５に示すようにして生成された検出モデル、及び、図６に示すようにして生成された分類モデルは、座標検出装置２０の取得部２１によって学習モデル生成装置１０から取得されて記憶部２２に記憶される。

図７に示すように、ナンバープレートが撮影された検出対象画像が座標検出装置２０に入力されると、検出部２３は、まず、検出対象画像に対して検出モデルを用いて、検出対象画像においてナンバープレートのコーナー点が中心に位置する領域の候補（以下では「コーナー点存在領域候補」と呼ぶことがある）を検出する。すなわち、学習モデル生成装置１０により生成された検出モデルは、検出対象画像が入力されて、検出対象画像においてコーナー点存在領域候補を示す情報（以下では「候補情報」と呼ぶことがある）を検出部２３へ出力する学習済みモデルである。また、検出モデルは、検出対象画像が入力される入力層と、出力層と、入力層から出力層までの何れかの層であって出力層以外の層に属する第一要素（第一ノード）と、第一要素と第一要素の重みとに基づいて値が算出される第二要素（第二ノード）とを有する。そして、検出モデルは、入力層に入力された検出対象画像に対し、出力層以外の各層に属する各要素を第一要素として、第一要素と第一要素の重みとに基づく演算を行うことにより候補情報を出力する。図７に示す例では、検出部２３が検出対象画像に対して検出モデルを用いることにより、例えば、ＣＡ１〜ＣＡ７の７個のコーナー点存在領域候補が検出される。ここで、コーナー点存在領域候補の領域の大きさ及びアスペクト比は、図５におけるポジティブ画像ＰＩと同一である。

検出部２３は、次いで、候補情報に対して分類モデルを用いて、候補情報により示されたコーナー点存在領域候補がナンバープレートの４個のコーナー点のうちの何れのコーナー点を含む領域であるかを特定する。すなわち、学習モデル生成装置１０により生成された分類モデルは、候補情報が入力されて、候補情報が示すコーナー点存在領域候補がナンバープレートの４個のコーナー点のうちの何れのコーナー点を含む領域であるかを示す情報（以下では「コーナー点第一特定情報」と呼ぶことがある）を検出部２３へ出力する学習済みモデルである。また、分類モデルは、候補情報が入力される入力層と、出力層と、入力層から出力層までの何れかの層であって出力層以外の層に属する第一要素と、第一要素と第一要素の重みとに基づいて値が算出される第二要素とを有する。そして、分類モデルは、入力層に入力された候補情報に対し、出力層以外の各層に属する各要素を第一要素として、第一要素と第一要素の重みとに基づく演算を行うことによりコーナー点第一特定情報を出力する。

ここで、分類モデルの動作例について説明する。図８は、実施例１の分類モデルの動作の説明に供する図である。図８に示すように、分類モデルは、まず、コーナー点存在領域候補ＣＡ１〜ＣＡ７の各々について、コーナー１〜４の何れに対応するコーナー点を含む領域であるかの確度を算出する。図８に示す例では、分類モデルにより、コーナー点存在領域候補ＣＡ１は確度２０％のコーナー４（つまり左下のコーナー）を含む領域であると分類される。同様に、コーナー点存在領域候補ＣＡ２は確度５％のコーナー１（つまり左上のコーナー）を含む領域、コーナー点存在領域候補ＣＡ３は確度１５％のコーナー４（つまり左下のコーナー）を含む領域、コーナー点存在領域候補ＣＡ４は確度９２％のコーナー１（つまり左上のコーナー）を含む領域、コーナー点存在領域候補ＣＡ５は確度８６％のコーナー２（つまり右上のコーナー）を含む領域、コーナー点存在領域候補ＣＡ６は確度８８％のコーナー４（つまり左下のコーナー）を含む領域、コーナー点存在領域候補ＣＡ７は確度９１％のコーナー３（つまり右下のコーナー）を含む領域であると分類モデルによって分類される。

そして、分類モデルは、コーナー１〜４の各コーナー毎に、確度が最も高いコーナーを選択してコーナー点第一特定情報を出力する。すなわち、図７及び図８に示す例では、分類モデルは、左上のコーナー点を含む領域としてコーナー点存在領域候補ＣＡ４を選択し、選択したコーナー点存在領域候補ＣＡ４に対応付けて「コーナー１」というコーナー点第一特定情報を出力する。また、分類モデルは、右上のコーナー点を含む領域としてコーナー点存在領域候補ＣＡ５を選択し、選択したコーナー点存在領域候補ＣＡ５に対応付けて「コーナー２」というコーナー点第一特定情報を出力する。また、分類モデルは、右下のコーナー点を含む領域としてコーナー点存在領域候補ＣＡ７を選択し、選択したコーナー点存在領域候補ＣＡ７に対応付けて「コーナー３」というコーナー点第一特定情報を出力する。また、分類モデルは、左下のコーナー点を含む領域としてコーナー点存在領域候補ＣＡ６を選択し、選択したコーナー点存在領域候補ＣＡ６に対応付けて「コーナー４」というコーナー点第一特定情報を出力する。これにより、検出部２３は、検出対象画像において、ナンバープレートの４個のコーナー点が存在する領域（以下では「コーナー点存在領域」と呼ぶことがある）を検出することができる。

次いで、検出部２３は、図７に示すように、４個のコーナー点存在領域の各々の中心座標を抽出する。すなわち、検出部２３は、「コーナー１」というコーナー点第一特定情報に対応付けられたコーナー点存在領域の中心座標をナンバープレートの左上のコーナー点の座標ＣＯ１として抽出する。また、検出部２３は、「コーナー２」というコーナー点第一特定情報に対応付けられたコーナー点存在領域の中心座標をナンバープレートの右上のコーナー点の座標ＣＯ２として抽出する。また、検出部２３は、「コーナー３」というコーナー点第一特定情報に対応付けられたコーナー点存在領域の中心座標をナンバープレートの右下のコーナー点の座標ＣＯ３として抽出する。また、検出部２３は、「コーナー４」というコーナー点第一特定情報に対応付けられたコーナー点存在領域の中心座標をナンバープレートの左下のコーナー点の座標ＣＯ４として抽出する。このようにして、検出部２３は、分類モデルを用いて検出した４個のコーナー点存在領域の各々の中心座標を、検出対象画像におけるナンバープレートの４個のコーナー点の各々の座標として検出し、検出結果として出力する。このようにして検出された４個のコーナー点の座標の外縁を直線で結ぶことにより、検出対象画像において撮影されているナンバープレートの矩形の形状を検出することができる。

以上のように、実施例１では、座標検出装置２０は、記憶部２２と検出部２３とを有する。記憶部２２は、第一学習済みモデルとしての検出モデルと、第二学習済みモデルとしての分類モデルとを記憶する。検出モデルは、ナンバープレートのコーナー点が中心に位置するポジティブ画像ＰＩを用いて機械学習により生成された学習済みモデルである。また、検出モデル及び分類モデルは、検出対象画像においてナンバープレートのコーナー点が中心に位置する領域の情報（候補情報、コーナー点第一特定情報）を出力する。検出部２３は、ナンバープレートが撮影された検出対象画像に対して、検出モデル及び分類モデルを用いてナンバープレートのコーナー点が中心に位置する領域を検出し、検出対象画像におけるナンバープレートのコーナー点の座標を検出する。つまり、検出モデル及び分類モデルは、検出対象画像においてナンバープレートのコーナー点が中心に位置する領域の情報（候補情報、コーナー点第一特定情報）を検出部２３へ出力することにより、検出対象画像におけるナンバープレートのコーナー点の座標を検出する検出部２３に、ナンバープレートのコーナー点が中心に位置する領域を検出させる。

より詳細には、検出モデルは、検出対象画像が入力されて、検出対象画像においてナンバープレートのコーナー点が中心に位置する領域の候補を示す情報（候補情報）を出力する。分類モデルは、候補情報が入力されて、候補情報が示すコーナー点存在領域候補がナンバープレートの４個のコーナー点のうちの何れのコーナー点を含む領域であるかを示す情報（コーナー点第一特定情報）を出力する。検出部２３は、検出対象画像に対して検出モデルを用いてコーナー点存在領域候補を検出し、検出したコーナー点存在領域候補に対して分類モデルを用いてナンバープレートのコーナー点を含む領域を検出し、分類モデルを用いて検出した領域の中心座標を検出対象画像におけるナンバープレートのコーナー点の座標として検出する。

このように、ナンバープレートのコーナー点が中心に位置するポジティブ画像ＰＩを用いて機械学習により生成された学習済みモデルを用いて検出対象画像におけるナンバープレートのコーナー点の座標を検出することにより、検出対象画像において撮影されているナンバープレートの矩形の形状を精度良く検出することができる。

［実施例２］
＜物体形状検出システムの構成、学習モデル生成装置の構成、座標検出装置の構成＞
実施例２の物体形状検出システム、学習モデル生成装置及び座標検出装置の各構成は、実施例１と同一であるため（図１〜３）、説明を省略する。

＜学習モデル生成装置の処理＞
図９は、実施例２の学習モデル生成装置の処理の説明に供するフローチャートである。

図９において、ステップＳ２１では、データセット生成部１１が、元画像から、教師データとしての学習用データセットＢを生成する。

ステップＳ２３では、学習モデル生成部１２が、学習済みモデルとしての「検出分類モデル」の学習を行う。

＜学習モデル生成装置の動作＞
図１０〜１２は、実施例２の学習モデル生成装置の動作の説明に供する図である。

図１０に示すように、データセット生成部１１には、ナンバープレートＮＰを有する自動車の画像が元画像として複数入力され、データセット生成部１１は、これら複数の元画像から、第一教師データとしてのデータセットＢ１と、第二教師データとしてのデータセットＢ２とを生成する。データセットＢ１及びデータセットＢ２により、図９のステップＳＴ２１における学習用データセットＢが形成される。

データセットＢ１は、図１０に示すように、左上コーナー点画像と、右上コーナー点画像と、右下コーナー点画像と、左下コーナー点画像とにより形成される。つまり、データセットＢ１は、ナンバープレートＮＰの４個のコーナー点の何れか一つのコーナー点だけを含む複数の「ポジティブ画像」により形成される。左上コーナー点画像には左上のコーナー点に対応する「コーナー１」というラベルが付され、右上コーナー点画像には右上のコーナー点に対応する「コーナー２」というラベルが付され、右下コーナー点画像には右下のコーナー点に対応する「コーナー３」というラベルが付され、左下コーナー点画像には左下のコーナー点に対応する「コーナー４」というラベルが付される。

ここで、コーナー１〜４の各ラベルを付された各ポジティブ画像ＰＩにおいて、コーナー点ＣＰは、ポジティブ画像の中心に位置する。すなわち、例えばポジティブ画像ＰＩのアスペクト比が「ｘ：ｙ＝１：１」の場合、コーナー点ＣＰがｘ＝１／２，ｙ＝１／２の位置に配置されるようにポジティブ画像ＰＩが生成させる。換言すれば、ナンバープレートＮＰの四辺で形成される境界線のうちの互いに接する二辺の境界線がｘ＝１／２でのｙ方向に平行な直線及びｙ＝１／２でのｘ方向に平行な直線にほぼ重なるようにポジティブ画像ＰＩが生成される。図１０に示す例では、ナンバープレートＮＰの４個のコーナー点のうちの左下のコーナー点ＣＰがポジティブ画像ＰＩの中心に位置している。すなわち、図１０に示す例では、ポジティブ画像ＰＩにおいて、ナンバープレートＮＰの四辺のうち、左辺がｘ＝１／２でのｙ方向に平行な直線にほぼ重なり、かつ、左辺と互いに接する下辺がｙ＝１／２でのｘ方向に平行な直線にほぼ重なっている。

また、データセットＢ２では、各元画像に対して、各元画像において撮影されているナンバープレートＮＰのコーナー１〜４の４個のコーナー点の座標コーナー１（ｘ,ｙ）、コーナー２（ｘ,ｙ）、コーナー３（ｘ,ｙ）、コーナー４（ｘ,ｙ）が対応付けられる。

学習モデル生成部１２は、データセット生成部１１で生成されたデータセットＢ１，Ｂ２を教師データとして用いて機械学習を行って、検出分類モデルを生成する。検出分類モデルを生成する際の機械学習として深層学習を用いる。検出分類モデルの生成は、例えば、YOLOv2をベースとした１１層のＦＣＮ（Fully Convolutional Networks）により行う。

検出分類モデルの機械学習は、以下に示すように、第一段階と第二段階との二段階に分けて行われる。

すなわち、まず第一段階で、学習モデル生成部１２は、データセット生成部１１で生成されたデータセットＢ１を第一教師データとして用いて機械学習を行って、重みの初期値の学習を行う。この初期値の学習は、実施例１の分類モデルの学習に相当するものである。

次いで第二段階で、学習モデル生成部１２は、第一段階で学習した初期値をフィルタ群Ｆ１〜Ｆ８の各要素の重みとしてセットした後、データセット生成部１１で生成されたデータセットＢ２を第二教師データとして用いて機械学習を行って、検出分類モデルを生成する。

＜座標検出装置の動作＞
図１１は、実施例２の座標検出装置の動作の説明に供する図である。

図１０〜１２に示すようにして生成された検出分類モデルは、座標検出装置２０の取得部２１によって学習モデル生成装置１０から取得されて記憶部２２に記憶される。

図１１に示すように、ナンバープレートが撮影された検出対象画像が座標検出装置２０に入力されると、検出部２３は、まず、検出対象画像に対して検出分類モデルを用いて、ナンバープレートにおける４個のコーナー点存在領域ＣＢ１，ＣＢ２，ＣＢ３，ＣＢ４を検出するとともに、検出した各コーナー点存在領域の中心座標であるコーナー１Ｓ（ｘ,ｙ）、コーナー２Ｓ（ｘ,ｙ）、コーナー３Ｓ（ｘ,ｙ）、コーナー４Ｓ（ｘ,ｙ）を検出する。ここで、コーナー１Ｓ（ｘ,ｙ）はナンバープレートの左上のコーナー点に対応する座標であり、コーナー２Ｓ（ｘ,ｙ）はナンバープレートの右上のコーナー点に対応する座標であり、コーナー３Ｓ（ｘ,ｙ）はナンバープレートの右下のコーナー点に対応する座標であり、コーナー４Ｓ（ｘ,ｙ）はナンバープレートの左下のコーナー点に対応する座標である。但し、コーナー１Ｓ（ｘ,ｙ）、コーナー２Ｓ（ｘ,ｙ）、コーナー３Ｓ（ｘ,ｙ）、コーナー４Ｓ（ｘ,ｙ）の各座標は、相対座標のローカル座標である。

そこで、検出部２３は、次いで、ローカル座標であるコーナー１Ｓ（ｘ,ｙ）、コーナー２Ｓ（ｘ,ｙ）、コーナー３Ｓ（ｘ,ｙ）、コーナー４Ｓ（ｘ,ｙ）を、検出対象画像における絶対座標（以下では「画像座標」と呼ぶことがある）に変換する。そして、検出部２３は、コーナー１Ｓ（ｘ,ｙ）を座標変換した後の画像座標をナンバープレートの左上のコーナー点の座標ＣＯ１として検出する。また、検出部２３は、コーナー２Ｓ（ｘ,ｙ）を座標変換した後の画像座標をナンバープレートの右上のコーナー点の座標ＣＯ２として検出する。また、検出部２３は、コーナー３Ｓ（ｘ,ｙ）を座標変換した後の画像座標をナンバープレートの右下のコーナー点の座標ＣＯ３として検出する。また、検出部２３は、コーナー４Ｓ（ｘ,ｙ）を座標変換した後の画像座標をナンバープレートの左下のコーナー点の座標ＣＯ４として検出する。このようにして、検出部２３は、検出分類モデルを用いて検出した４個のコーナー点存在領域の各々の中心座標コーナー１Ｓ（ｘ,ｙ）、コーナー２Ｓ（ｘ,ｙ）、コーナー３Ｓ（ｘ,ｙ）、コーナー４Ｓ（ｘ,ｙ）を座標変換した上で検出対象画像におけるナンバープレートの４個のコーナー点の座標として検出する。このようにして検出された４個のコーナー点の画像座標の外縁を直線で結ぶことにより、検出対象画像において撮影されているナンバープレートの矩形の形状を検出することができる。

ここで、学習モデル生成装置１０により生成された検出分類モデルは、検出対象画像が入力されて、検出対象画像においてコーナー点存在領域を特定し、特定したコーナー点存在領域がナンバープレートの４個のコーナー点のうちの何れのコーナー点を含む領域であるかを示す情報（以下では「コーナー点第二特定情報」と呼ぶことがある）と、コーナー点第二特定情報によって示されるコーナー点存在領域の中心座標を示す情報（以下では「中心座標情報」と呼ぶことがある）とを検出部２３へ出力する学習済みモデルである。そして、検出部２３は、コーナー点第二特定情報と中心座標情報とに基づいて、ナンバープレートにおける４個のコーナー点存在領域を検出するとともに、検出した各コーナー点存在領域の中心座標であるコーナー１Ｓ（ｘ,ｙ）、コーナー２Ｓ（ｘ,ｙ）、コーナー３Ｓ（ｘ,ｙ）、コーナー４Ｓ（ｘ,ｙ）を検出する。また、検出分類モデルは、検出対象画像が入力される入力層と、出力層と、入力層から出力層までの何れかの層であって出力層以外の層に属する第一要素と、第一要素と第一要素の重みとに基づいて値が算出される第二要素とを有する。そして、検出分類モデルは、入力層に入力された検出対象画像に対し、出力層以外の各層に属する各要素を第一要素として、第一要素と第一要素の重みとに基づく演算を行うことにより中心座標情報を出力する。

＜検出分類モデルの動作＞
図１２及び図１３は、実施例２の検出分類モデルの動作の説明に供する図である。

図１２に示すように、検出分類モデルは、検出分類モデルに入力された検出対象画像を「Ｍ×Ｎ個」の複数のグリッドに分割し、各グリッドを順次「注目グリッドＧＲ」に設定しながら、以下のように動作する。すなわち、検出分類モデルは、図１２に示すように、矩形領域ａ，ｂ，ｃの各領域の中心座標（以下では「矩形領域中心座標」と呼ぶことがある）が注目グリッドＧＲ内に含まれるという条件の下で、矩形領域ａ，ｂ，ｃの中にナンバープレートのコーナー点が発見されるように、矩形領域ａ，ｂ，ｃを検出する。一つの注目グリッドＧＲに対して検出される矩形領域の数は「アンカー数」として予め設定されている。ここでは、一例として、「アンカー数＝３」として、一つの注目グリッドＧＲに対して矩形領域ａ，ｂ，ｃの３個の矩形領域が検出される場合について説明する。検出された矩形領域（以下では「検出矩形領域」と呼ぶことがある）は、以下の式（１）のように表される。

検出矩形領域＝
（ｘ座標，ｙ座標，幅ｗ，高さｈ，確度，
クラス確率（コーナー１，コーナー２，コーナー３，コーナー４））…式（１）

式（１）において、コーナー１〜４はそれぞれ、上記のように、ナンバープレートの左上のコーナー点、右上のコーナー点、右下のコーナー点、左下のコーナー点に対応する。また、式（１）において、「幅ｗ」及び「高さｈ」は、予め決められた値である。また、式（１）における「ｘ座標」及び「ｙ座標」は、図１３に示すように、注目グリッドＧＲの原点を基準にした相対座標（つまり、ローカル座標）である。また、式（１）における「確度」は、検出矩形領域内に何れかのコーナー点が含まれる確度を表す。また、式（１）における「クラス確率」は、４個のコーナー点それぞれの、検出矩形領域内における存在確率を表す。

例えば、図１２に示す注目グリッドＧＲに対する検出矩形領域ａ，ｂ，ｃは、以下の式（２）〜（４）のように表される。

検出矩形領域ａ
＝（0.12,0.87,0.49,0.64,0.589,(0,0,0.9999,0)）…式（２）
検出矩形領域ｂ
＝（0.16,0.77,1.77,2.11,0.010,(0,0.0001,0.9998,0.0001)）…式（３）
検出矩形領域ｃ
＝（0.33,0.73,5.45,6.56,0.016,(0.54,0.23,0.05,0.19)）…式（４）

よって、例えば「確度」の閾値を「0.5」とすると、確度が0.5以上であるのは検出矩形領域ａであり、検出矩形領域ｂ，ｃについては確度が0.5未満であるため、図１２に示す注目グリッドＧＲに対しては、検出矩形領域ｂ，ｃは除外され、検出矩形領域ａが、右下のコーナー点に対するコーナー点存在領域候補として選択される。

検出分類モデルは、すべてのグリッドを注目グリッドＧＲに順次設定しながら以上の動作を行う。そして、検出分類モデルは、各コーナー点について、確度が最も高い検出矩形領域を最終的なコーナー点存在領域に決定する。そして、検出分類モデルは、各コーナー点について、確度が最も高い検出矩形領域を示す情報をコーナー点第二特定情報として出力し、矩形領域中心座標を示す情報を中心座標情報として出力する。

＜ローカル座標から画像座標への変換＞
検出部２３は、例えば、以下の式（５）に従って検出矩形領域のローカル座標であるコーナー１Ｓ（ｘ,ｙ）、コーナー２Ｓ（ｘ,ｙ）、コーナー３Ｓ（ｘ,ｙ）、コーナー４Ｓ（ｘ,ｙ）を、画像座標であるコーナー１Ｓ（ｘ',ｙ'）、コーナー２Ｓ（ｘ',ｙ'）、コーナー３Ｓ（ｘ',ｙ'）、コーナー４Ｓ（ｘ',ｙ'）に変換する。よって、画像座標であるコーナー１Ｓ（ｘ',ｙ'）、コーナー２Ｓ（ｘ',ｙ'）、コーナー３Ｓ（ｘ',ｙ'）、コーナー４Ｓ（ｘ',ｙ'）がそれぞれ、検出部２３から出力される座標ＣＯ１，ＣＯ２，ＣＯ３，ＣＯ４（図１１）に相当する。式（５）において、「Ｗ」は検出対象画像の幅を表し、「Ｈ」は検出対象画像の高さを表す。また、式（５）において、「ｕ」は注目グリッドＧＲのｘ方向の位置を表し、「ｖ」は注目グリッドＧＲのｙ方向の位置を表す。

ｘ'＝Ｗ（ｕ＋ｘ）／Ｍ
ｙ'＝Ｈ（ｖ＋ｙ）／Ｎ …式（５）

例えば、検出対象画像のサイズが（Ｗ,Ｈ）＝（1322,902）であり、グリッドの総数が（Ｍ×Ｎ）＝（13×13）個であった場合、座標変換前後の座標値は図１４に示すようになる。図１４は、実施例２の座標変換の一例を示す図である。

以上のように、実施例２では、記憶部２２は、学習済みモデルとしての検出分類モデルを記憶する。検出分類モデルは、ナンバープレートのコーナー点が中心に位置するポジティブ画像ＰＩを用いて機械学習により生成された学習済みモデルである。また、検出分類モデルは、検出対象画像においてナンバープレートのコーナー点が中心に位置する領域の情報（コーナー点第二特定情報、中心座標情報）を出力する。検出部２３は、ナンバープレートが撮影された検出対象画像に対して、検出分類モデルを用いてナンバープレートのコーナー点が中心に位置する領域を検出し、検出対象画像におけるナンバープレートのコーナー点の座標を検出する。つまり、検出分類モデルは、検出対象画像においてナンバープレートのコーナー点が中心に位置する領域の情報（コーナー点第二特定情報、中心座標情報）を出力することにより、検出対象画像におけるナンバープレートのコーナー点の座標を検出する検出部２３に、ナンバープレートのコーナー点が中心に位置する領域を検出させる。

より詳細には、検出分類モデルは、検出対象画像が入力されて、検出対象画像においてナンバープレートのコーナー点が中心に位置する領域を特定し、特定した領域がナンバープレートの複数の４個のコーナー点のうちの何れのコーナー点を含む領域であるかを示す情報である情報（コーナー点第二特定情報）と、コーナー点第二特定情報によって示される領域の中心座標を示す情報（中心座標情報）とを出力する。検出部２３は、検出対象画像に対して検出分類モデルを用いて、コーナー点存在領域を検出するとともに、コーナー点存在領域の中心座標を検出し、検出した中心座標を座標変換した上で検出対象画像におけるナンバープレートのコーナー点の座標として検出する。

また、実施例２の検出分類モデルの機能は、実施例１の検出モデルと分類モデルの両者の機能を一体化したものに相当するため、コーナー点の座標を検出する際の演算規模は、実施例２の方が実施例１よりも小さくなる。

［実施例３］
＜文字認識装置の構成＞
図１５は、実施例３の文字認識装置の構成例を示す図である。図１５において、文字認識装置３０は、座標検出装置２０と、補正部３１と、認識部３２とを有する。

文字認識装置３０に入力された検出対象画像は、座標検出装置２０及び補正部３１に入力される。例えば、検出対象画像には、実施例１，２と同様に、自動車の矩形のナンバープレートが撮影されている。

座標検出装置２０は、実施例１または実施例２で説明したようにして、検出対象画像において、ナンバープレートの４個のコーナー点の座標ＣＯ１，ＣＯ２，ＣＯ３，ＣＯ４を検出し、検出結果として補正部３１へ出力する。

補正部３１は、コーナー点の座標ＣＯ１，ＣＯ２，ＣＯ３，ＣＯ４に基づいて、検出対象画像に撮影されているナンバープレートの矩形の歪みをナンバープレートの文字も一体として補正し、歪みが補正された後の矩形を有するナンバープレートの画像を認識部３２へ出力する。すなわち、補正部３１は、４個のコーナー点の座標ＣＯ１，ＣＯ２，ＣＯ３，ＣＯ４の外縁を直線で結ぶことにより形成される矩形の歪みを補正する。

認識部３２は、歪みが補正された後の矩形の中に存在する文字を認識し、認識結果を出力する。文字の認識は、例えばＯＣＲ（Optical Character Recognition）により行われる。

＜補正部及び認識部の動作＞
図１６は、実施例３の補正部及び認識部の動作の説明に供する図である。

図１６に示すように、検出対象画像と、ナンバープレートの４個のコーナー点の座標ＣＯ１，ＣＯ２，ＣＯ３，ＣＯ４とを入力された補正部３１は、座標ＣＯ１，ＣＯ２，ＣＯ３，ＣＯ４に基づいて、周知の技術である「透視投影変換」を利用して、検出対象画像に撮影されているナンバープレートの矩形の歪みを補正する。すなわち、補正部３１は、座標ＣＯ１，ＣＯ２，ＣＯ３，ＣＯ４にそれぞれ対応する複数のコーナー点で囲まれる領域の形状の歪みを、透視投影変換を用いて補正する。この補正により、検出対象画像に撮影されているナンバープレートの形状が例えば台形であった場合でも、ナンバープレートの形状は長方形に補正される。また、ナンバープレートの矩形の歪みの補正に伴って、同時に、ナンバープレート内の文字の歪みも補正される。

図１７は、実施例３の透視投影変換の一例を示す図である。図１７は、ナンバープレートの矩形の実寸を330×165［mm］とした場合の座標変換例である。透視投影変換により、座標ＣＯ１（ｘ',ｙ'），ＣＯ２（ｘ',ｙ'），ＣＯ３（ｘ',ｙ'），ＣＯ４（ｘ',ｙ'）が、座標ＣＯ１（ｘ'',ｙ''），ＣＯ２（ｘ'',ｙ''），ＣＯ３（ｘ'',ｙ''），ＣＯ４（ｘ'',ｙ''）に補正される。

以上のように、実施例３では、文字認識装置３０は、座標検出装置２０と、補正部３１と、認識部３２とを有する。座標検出装置２０は、検出対象画像におけるナンバープレートの４個のコーナー点の座標ＣＯ１，ＣＯ２，ＣＯ３，ＣＯ４を検出する。補正部３１は、座標ＣＯ１，ＣＯ２，ＣＯ３，ＣＯ４にそれぞれ対応する複数のコーナー点で囲まれる領域の形状の歪みを補正する。認識部３２は、形状の歪みが補正された後の領域の中に存在する文字を認識する。

こうすることで、ナンバープレート内の文字の認識精度を高めることができる。また、実施例３では、検出対象画像におけるナンバープレートの形状の検出を機械学習を用いて行う一方で、機械学習による形状の検出と分離して、形状の補正及び文字認識を行っている。このため、ナンバープレート内の歪んだ文字をそのまま機械学習を用いて認識する場合よりも、用意する教師データの数が少なくて済むとともに、機械学習の学習時間を短縮することができ、また、演算量を減少させることができるので、より低スペックなプロセッサを用いて機械学習を行うことができる。

［実施例４］
＜画像処理装置の構成＞
図１８は、実施例４の画像処理装置の構成例を示す図である。図１８において、画像処理装置４０は、座標検出装置２０と、補正部４１と、記憶部４２と、重畳部４３と、逆変換部４４とを有する。

画像処理装置４０に入力された検出対象画像は、座標検出装置２０及び補正部４１に入力される。

座標検出装置２０は、実施例１または実施例２で説明したようにして、検出対象画像において、検出対象物体のコーナー点の座標を検出し、検出結果として補正部４１へ出力する。

補正部４１は、座標検出装置２０で検出されたコーナー点の座標に基づいて、周知の技術である「透視投影変換」を利用して、検出対象画像に撮影されている検出対象物体の形状の歪みを補正し、歪みが補正された後の形状を有する検出対象物体の画像（以下では「形状補正後画像」と呼ぶことがある）を重畳部４３へ出力する。すなわち、補正部４１は、複数のコーナー点の座標の外縁を直線で結ぶことにより形成される形状の歪みを補正する。

記憶部４２には、検出対象物体の画像と重畳されるコンテンツ（以下では「重畳コンテンツ」と呼ぶことがある）が予め記憶されている。記憶部４２に記憶されている重畳コンテンツは歪みの無いコンテンツである。

重畳部４３は、記憶部４２から重畳コンテンツを取得し、取得した重畳コンテンツを形状補正後画像に重畳し、重畳コンテンツが形状補正後画像に重畳された後の画像（以下では「重畳後画像」と呼ぶことがある）を逆変換部４４へ出力する。

逆変換部４４は、補正部４１で行われた透視投影変換と逆の変換を重畳後画像に対して行って重畳後画像の形状を歪ませ、形状を歪ませた後の重畳後画像を重畳結果として出力する。

＜画像処理装置の動作＞
図１９は、実施例４の画像処理装置の動作の説明に供する図である。

図１９に示すように、座標検出装置２０は、検出対象画像において、検出対象物体のコーナー点の座標を検出する。図１９では、一例として、検出対象物体の形状が「星形」であるとする。

補正部４１は、座標検出装置２０で検出されたコーナー点の座標に基づいて透視投影変換を行って星形の画像の歪みを補正する。すなわち、補正部４１は、座標検出装置２０で検出された複数の座標にそれぞれ対応する複数のコーナー点で囲まれる領域の形状の歪みを、透視投影変換を用いて補正する。この補正により、星形の画像内に設定されたマーカーの歪みも補正される。

重畳部４３は、記憶部４２から取得した重畳コンテンツを、星形の画像内に設定されたマーカーを基準にして、歪み補正後の星形の画像に重畳する。

逆変換部４４は、補正部４１で行われた透視投影変換と逆の変換を重畳後画像に対して行って重畳後画像の形状を歪ませる。

以上のように、実施例４では、画像処理装置４０は、座標検出装置２０と、補正部４１と、重畳部４３とを有する。座標検出装置２０は、検出対象画像における検出対象物体の複数のコーナー点の座標を検出する。補正部４１は、座標検出装置２０で検出された複数の座標にそれぞれ対応する複数のコーナー点で囲まれる領域の形状の歪みを補正する。重畳部４３は、歪みが補正された後の形状に所定のコンテンツを重畳する。

こうすることで、歪みを補正した後の検出対象物体の画像にコンテンツを重畳することができるため、例えば、ＡＲ（Augmented Reality）における正確な表現が可能となる。

［実施例５］
物体形状検出システム１が対象とする検出対象物体は、ナンバープレートに限定されない。例えば、検出対象物体は、道路標記等であっても良い。図２０及び図２１は、実施例５の検出対象物体の一例を示す図である。図２０に示す道路標識には、３個のコーナー点が存在する。また、図２１に示す道路標識には、８個のコーナー点が存在する。

また、コーナー点は、検出対象物体上に存在する「規定点」の一例であり、物体形状検出システム１が対象とする規定点は、コーナー点に限定されない。例えば、円形の道路標識の円周上に任意の規定点が設定されても良い。すなわち、物体形状検出システム１が対象とする規定点は、検出対象画像における検出対象物体の外縁上に存在する何れかの点であれば良い。

さらに、規定点として、検出対象画像におけるナンバープレートのネジ、ナンバープレートの封印の中心、ナンバープレート内の“・”や“−”の文字等を採用しても良い。

［他の実施例］
［１］記憶部１３，２２，４２は、ハードウェアとして、例えば、メモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）等により実現される。記憶部１３，２２，４２を実現するメモリの一例として、ＳＤＲＡＭ（Synchronous Dynamic Random Access Memory）等のＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ等が挙げられる。データセット生成部１１、学習モデル生成部１２、検出部２３、補正部３１，４１、認識部３２、重畳部４３及び逆変換部４４は、ハードウェアとして、例えばプロセッサにより実現することができる。データセット生成部１１、学習モデル生成部１２、検出部２３、補正部３１，４１、認識部３２、重畳部４３及び逆変換部４４を実現するプロセッサの一例として、ＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）、ＡＳＩＣ（Application Specific Integrated Circuit）等が挙げられる。また、データセット生成部１１、学習モデル生成部１２、検出部２３、補正部３１，４１、認識部３２、重畳部４３及び逆変換部４４は、プロセッサと周辺回路とを含むＬＳＩ（Large Scale Integrated circuit）によって実現されても良い。出力部１４及び取得部２１は、ハードウェアとして、例えば、無線通信モジュールまたはネットワークインタフェースモジュールにより実現される。よって例えば、学習モデル生成装置１０は、パーソナルコンピュータやサーバ等のコンピュータ装置として実現される。また例えば、座標検出装置２０、文字認識装置３０または画像処理装置４０は、スマートフォンやタブレット端末等のスマートデバイスとして実現される。

［２］物体形状検出システム１での上記説明における各処理の全部または一部は、各処理に対応するプログラムを物体形状検出システム１が有するプロセッサに実行させることによって実現してもよい。例えば、上記説明における各処理に対応するプログラムがメモリに記憶され、プログラムがプロセッサによってメモリから読み出されて実行されても良い。また、プログラムは、任意のネットワークを介して物体形状検出システム１に接続されたプログラムサーバに記憶され、そのプログラムサーバから物体形状検出システム１にダウンロードされて実行されたり、物体形状検出システム１が読み取り可能な記録媒体に記憶され、その記録媒体から読み出されて実行されても良い。物体形状検出システム１が読み取り可能な記録媒体には、例えば、メモリーカード、ＵＳＢメモリ、ＳＤカード、フレキシブルディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＤＶＤ、及び、Ｂｌｕ−ｒａｙ（登録商標）ディスク等の可搬の記憶媒体が含まれる。また、プログラムは、任意の言語や任意の記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。また、プログラムは必ずしも単一的に構成されるものに限られず、複数のモジュールや複数のライブラリとして分散構成されるものや、ＯＳに代表される別個のプログラムと協働してその機能を達成するものも含む。

［３］物体形状検出システム１の分散・統合の具体的形態は図示するものに限られず、物体形状検出システム１の全部または一部を、各種の付加等に応じて、または、機能負荷に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

［４］実施例３，４における補正部３１，４１は、透視投影変換以外の技術を用いて形状の歪みを補正しても良い。

１物体形状検出システム
１０学習モデル生成装置
２０座標検出装置
１１データセット生成部
１２学習モデル生成部
２３検出部
３１，４１補正部
３２認識部
４３重畳部

Claims

物体の規定点が中心に位置する画像を用いて機械学習により生成された、前記物体が撮影された入力画像において前記物体の規定点が中心に位置する領域の情報を出力する学習済みモデルを記憶する記憶部と、
前記物体が撮影された前記入力画像に対して、前記学習済みモデルを用いて前記物体の規定点が中心に位置する領域を検出し、前記入力画像における前記物体の規定点の座標を検出する検出部と、
を具備する座標検出装置。
前記記憶部は、前記入力画像が入力されて、前記入力画像において前記物体の規定点が中心に位置する領域の候補を示す情報である第一情報を出力する第一学習済みモデルと、前記第一情報が入力されて、前記第一情報が示す前記候補が前記物体の複数の規定点のうちの何れの規定点を含む領域であるかを示す情報である第二情報を出力する第二学習済みモデルとを、前記学習済みモデルとして記憶し、
前記検出部は、前記入力画像に対して前記第一学習済みモデルを用いて前記候補を検出し、検出した前記候補に対して前記第二学習済みモデルを用いて前記物体の規定点を含む領域を検出し、前記第二学習済みモデルを用いて検出した前記領域の中心座標を前記入力画像における前記物体の規定点の座標として検出する、
請求項１に記載の座標検出装置。
前記記憶部は、前記入力画像が入力されて、前記入力画像において前記物体の規定点が中心に位置する領域を特定し、特定した前記領域が前記物体の複数の規定点のうちの何れの規定点を含む領域であるかを示す情報である第一情報と、前記第一情報によって示される前記領域の中心座標を示す情報である第二情報とを出力する前記学習済みモデルを記憶し、
前記検出部は、前記入力画像に対して前記学習済みモデルを用いて、前記物体の規定点を含む領域を検出するとともに、検出した前記領域の中心座標を検出し、検出した前記中心座標を座標変換した上で前記入力画像における前記物体の規定点の座標として検出する、
請求項１に記載の座標検出装置。
請求項１に記載の座標検出装置と、
前記座標検出装置により検出された複数の前記座標にそれぞれ対応する複数の規定点で囲まれる領域の形状の歪みを補正する補正部と、
前記形状の前記歪みが補正された後の領域の中に存在する文字を認識する認識部と、
を具備する文字認識装置。
請求項１に記載の座標検出装置と、
前記座標検出装置により検出された複数の前記座標にそれぞれ対応する複数の規定点で囲まれる領域の形状の歪みを補正する補正部と、
前記歪みが補正された後の前記形状に所定のコンテンツを重畳する重畳部と、
を具備する画像処理装置。
物体の規定点が中心に位置する画像を用いて機械学習により生成され、
前記物体が撮影された入力画像において前記物体の規定点が中心に位置する領域の情報を出力することにより、前記入力画像における前記物体の規定点の座標を検出する検出部に、前記入力画像に対して前記物体の規定点が中心に位置する領域を検出させる、
学習済みモデル。
前記入力画像が入力されて、前記入力画像において前記物体の規定点が中心に位置する領域の候補を示す情報である第一情報を出力する第一学習済みモデルと、前記第一情報が入力されて、前記第一情報が示す前記候補が前記物体の複数の規定点のうちの何れの規定点を含む領域であるかを示す情報である第二情報を出力する第二学習済みモデルとから形成される、
請求項６に記載の学習済みモデル。
前記入力画像が入力されて、前記入力画像において前記物体の規定点が中心に位置する領域を特定し、特定した前記領域が前記物体の複数の規定点のうちの何れの規定点を含む領域であるかを示す情報である第一情報と、前記第一情報によって示される前記領域の中心座標を示す情報である第二情報とを出力する、
請求項６に記載の学習済みモデル。