JP2022098842A

JP2022098842A - データを処理する処理装置、コンピュータプログラム、方法

Info

Publication number: JP2022098842A
Application number: JP2020212473A
Authority: JP
Inventors: 祥司尾野藤; Shoji Onofuji
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2022-07-04

Abstract

【課題】機械学習モデルのトレーニングのための画像データの準備の負担を軽減する処理装置、処理方法およびコンピュータプログラムを提供する。【解決手段】データ処理装置は、第１外面が第１カメラの方向を向いた状態で注目対象物が回転する場合の注目対象物の回転方向の回転位置のズレ量を特定する。注目ズレ量の大きさが第１閾値以下である場合には、第２撮影画像データをトレーニングされた機械学習モデルに入力することによって、注目認識データを取得する。注目ズレ量の大きさが第１閾値より大きい特定範囲内である場合には、第２撮影画像上の第２外面の形状を、注目ズレ量の大きさが第１閾値以下である場合の第２外面の形状に近づける幾何変換を第２撮影画像データに対して実行することによって、変換済撮影画像データを生成し、変換済撮影画像データをトレーニングされた機械学習モデルに入力することによって、注目認識データを取得する。【選択図】図９

Description

本明細書は、機械学習モデルを用いてデータを処理する技術に関する。

従来から、機械学習モデルを用いて種々の処理が行われている。例えば、生け簀の水面に向けられた魚眼レンズを備えるカメラにより撮影された魚眼画像に対して歪み補正処理を行って矩形画像を生成し、矩形画像に対して機械学習により生成された識別モデルを適用することで、死魚と瀕死魚を検出する技術が提案されている。

特開２０２０－１１００７９号公報

ところで、機械学習モデルには、種々の画像データが入力される。機械学習モデルによる予測の精度を向上するためには、モデルに入力され得る種々の画像データが、機械学習モデルのトレーニングに用いられることが好ましい。ところが、トレーニングのための種々の画像データの準備は、大きな負担であった。

本明細書は、トレーニングのための画像データの準備の負担を軽減する技術を開示する。

本明細書に開示された技術は、以下の適用例として実現することが可能である。

［適用例１］データを処理する処理装置であって、第１方向側の第１外面と、前記第１方向に垂直な第２方向側の第２外面と、を含む複数の外面を有する注目対象物の撮影画像を示す撮影画像データを取得する撮影画像データ取得部であって、前記第１外面に対向する第１カメラによって撮影された前記第１外面の第１撮影画像を示す第１撮影画像データと、前記第２外面に対向する第２カメラによって撮影された前記第２外面の第２撮影画像を示す第２撮影画像データと、を取得する前記撮影画像データ取得部と、前記第１外面が前記第１カメラの方向を向いた状態で前記注目対象物が回転する場合の前記注目対象物の回転方向の回転位置のズレ量を特定するズレ量特定部であって、前記第２カメラの撮影方向と所定の位置関係にある注目基準回転位置に対するズレ量である注目ズレ量を、前記第１撮影画像データを分析することによって特定する前記ズレ量特定部と、対象物の第２外面の撮影画像を示す撮影画像データと画像認識の結果を示す認識データとの関係を示すようにトレーニングされた機械学習モデルと、前記第２撮影画像データと、を用いて、前記注目対象物の前記第２外面に関する前記画像認識の結果を示す注目認識データを取得する認識データ取得部と、を備え、前記機械学習モデルは、トレーニング用の対象物の第２外面の複数の撮影画像を示す複数のトレーニング用撮影画像データを用いてトレーニングされており、前記トレーニング用の前記対象物の前記第２外面の撮影は、前記トレーニング用の前記対象物の前記第２外面の撮影に用いられるカメラの撮影方向と前記所定の位置関係にあるトレーニング基準回転位置に対する前記トレーニング用の前記対象物の前記回転方向の回転位置のズレ量であるトレーニングズレ量の大きさが予め決められた第１閾値以下である状態で行われており、前記認識データ取得部は、前記注目ズレ量の大きさが前記第１閾値以下である場合には、前記第２撮影画像データを前記トレーニングされた機械学習モデルに入力することによって、前記注目認識データを取得し、前記注目ズレ量の大きさが前記第１閾値より大きい特定範囲内である場合には、前記第２撮影画像上の前記第２外面の形状を、前記注目ズレ量の大きさが前記第１閾値以下である場合の前記第２外面の形状に近づける幾何変換を前記第２撮影画像データに対して実行することによって、変換済撮影画像データを生成し、前記変換済撮影画像データを前記トレーニングされた機械学習モデルに入力することによって、前記注目認識データを取得する、処理装置。

この構成によれば、注目ズレ量の大きさが第１閾値よりも大きい特定範囲内である場合には、幾何変換が行われ、変換済撮影画像データをトレーニングされた機械学習モデルに入力することによって注目認識データが取得されるので、第１閾値よりも大きいズレ量に対応するトレーニング用撮影画像データを省略できる。従って、トレーニングのための画像データの準備の負担を軽減できる。

なお、本明細書に開示の技術は、種々の態様で実現することが可能であり、例えば、機械学習モデルのトレーニングのための画像データの取得方法および取得装置、機械学習モデルのトレーニング方法およびトレーニング装置、機械学習モデルを用いるデータ処理方法およびデータ処理装置、それらの方法または装置の機能を実現するためのコンピュータプログラム、そのコンピュータプログラムを記録した記録媒体（例えば、一時的ではない記録媒体）、トレーニングされた機械学習モデル、等の形態で実現することができる。

一実施例としてのデータ処理装置を示す説明図である。デジタルカメラと支持装置とプリンタとの斜視図である。（Ａ）、（Ｂ）は、撮影画像の例を示している。（Ｃ）、（Ｄ）は、ラベルデータの例を示している。（Ａ）は、撮影画像の例を示している。（Ｂ）は、変換済第２撮影画像データの画像の例を示している。（Ｃ）は、画像８２０ｂｘから検出される第２ラベルシート９２０を示している。（Ａ）は、シート検出モデルＮＮの構成の例を示す概略図である。（Ｂ）は、シート検出モデルＮＮの動作の概要を示す概略図である。データセットＤＳの生成処理の例を示すフローチャートである。シート検出モデルＮＮのトレーニング処理の例を示すフローチャートである。対象物の検査処理の例を示すフローチャートである。認識データの取得処理の例を示すフローチャートである。認識データの取得処理の第２実施例のフローチャートである。

Ａ．第１実施例：
Ａ１．装置構成：
図１は、一実施例としてのデータ処理装置を示す説明図である。本実施例では、データ処理装置２００は、例えば、パーソナルコンピュータである。データ処理装置２００は、対象物（例えば、プリンタなどの製品）の検査のための種々の処理を実行する。データ処理装置２００は、プロセッサ２１０と、記憶装置２１５と、表示部２４０と、操作部２５０と、通信インタフェース２７０と、を備えている。これらの要素は、バスを介して互いに接続されている。記憶装置２１５は、揮発性記憶装置２２０と、不揮発性記憶装置２３０と、を含んでいる。

プロセッサ２１０は、データ処理を行うように構成された装置であり、例えば、ＣＰＵである。揮発性記憶装置２２０は、例えば、ＤＲＡＭであり、不揮発性記憶装置２３０は、例えば、フラッシュメモリである。不揮発性記憶装置２３０は、プログラム２３１、２３２、２３３、２３４と、シート検出モデルＮＮと、シート検出モデルＮＮのトレーニングのためのデータセットＤＳと、を格納している。シート検出モデルＮＮは、いわゆる機械学習モデルであり、本実施例では、プログラムモジュールである。プログラム２３１－２３４と、シート検出モデルＮＮと、データセットＤＳと、の詳細については、後述する。

表示部２４０は、液晶ディスプレイ、有機ＥＬディスプレイなどの、画像を表示するように構成された装置である。操作部２５０は、ボタン、レバー、表示部２４０上に重ねて配置されたタッチパネルなどの、ユーザによる操作を受け取るように構成された装置である。ユーザは、操作部２５０を操作することによって、種々の要求と指示をデータ処理装置２００に入力可能である。通信インタフェース２７０は、他の装置と通信するためのインタフェースである（例えば、ＵＳＢインタフェース、有線ＬＡＮインタフェース、IEEE802.11の無線インタフェース）。通信インタフェース２７０には、デジタルカメラ１１０、１２０が接続されている。これらのデジタルカメラ１１０、１２０は、検査の対象物９００を撮影することによって、撮影画像の画像データを生成する。以下、対象物９００がプリンタであることとする（対象物９００を、プリンタ９００とも呼ぶ）。

図２は、デジタルカメラ１１０、１２０と支持装置７００とプリンタ９００との斜視図である。支持装置７００は、検査のためにプリンタ９００を支持する装置である。本実施例では、支持装置７００は、平らな上面７１１を有する上板７１０と、上板７１０の下方に配置された下板７２０と、上板７１０と下板７２０とを接続する複数のベアリング７２１と、を備えている。複数のベアリング７２１は、下板７２０に対する上板７１０の回転を許容する。上板７１０の回転軸７００ｘは、上面７１１に垂直であり、上面７１１のおおよそ中心に位置している。本実施例では、プリンタ９００の検査時には、回転軸７００ｘが鉛直方向におおよそ平行であるように、支持装置７００が配置される。検査対象のプリンタ９００は、上面７１１上に載せられる（以下、上面７１１を、支持面７１１とも呼ぶ）。本実施例では、プリンタ９００の底面９０９が、支持面７１１上に載せられる。また、プリンタ９００の形状は、おおよそ直方体である。

第１デジタルカメラ１１０（以下、単に第１カメラ１１０とも呼ぶ）は、プリンタ９００の第１外面９０１（本実施例では、上面）を撮影するためのカメラである。第１カメラ１１０は、支持装置７００の上方の予め決められた位置に、予め決められた第１撮影方向１１０ｘを向くように、配置されている。第１撮影方向１１０ｘは、下方向であり、回転軸７００ｘにおおよそ平行である。第１カメラ１１０は、第１カメラ１１０の第１撮影方向１１０ｘ側に位置する対象物を撮影可能である。

第２デジタルカメラ１２０（以下、単に第２カメラ１２０とも呼ぶ）は、プリンタ９００の第２外面９０２（本実施例では、正面）を撮影するためのカメラである。第２カメラ１２０は、支持装置７００と第１カメラ１１０との間の高さの、支持装置７００から離れた予め決められた位置に、予め決められた第２撮影方向１２０ｘを向くように、配置されている。第２撮影方向１２０ｘは、おおよそ水平に、第２カメラ１２０から回転軸７００ｘに向かう方向である。第２撮影方向１２０ｘは、回転軸７００ｘにおおよそ垂直である。第２カメラ１２０は、第２カメラ１２０の第２撮影方向１２０ｘ側に位置する対象物を撮影可能である。

プリンタ９００の検査時には、作業者は、プリンタ９００の第２外面９０２が第２カメラ１２０の方を向くように、上板７１０（ひいては、プリンタ９００）を回転させる。下板７２０と複数のベアリング７２１との全体は、プリンタ９００の第１外面９０１が第１カメラ１１０の方向を向いた状態で上板７１０（ひいては、プリンタ９００）の回転を許容する回転装置７２５を形成している。なお、図中には、プリンタ９００に対応付けられた２つの方向Ｄ１、Ｄ２が示されている（第２方向Ｄ２は、第１方向Ｄ１に垂直である）。第１外面９０１は、第１方向Ｄ１側の外面であり、第２外面９０２は、第２方向Ｄ２側の外面である。図２の状態では、第１方向Ｄ１は、鉛直上方向とおおよそ同じである。

Ａ２．撮影画像：
図３（Ａ）は、第１カメラ１１０による撮影画像である第１撮影画像の例を示している。第１撮影画像８１０ａは、Ｄｘ１方向に平行な２辺と、Ｄｘ１方向に垂直なＤｙ１方向に平行な２辺と、を有する矩形状の画像である。第１撮影画像８１０ａは、Ｄｘ１方向とＤｙ１方向とに沿ってマトリクス状に並ぶ複数の画素のそれぞれの色値（本実施例では、Ｒ（赤）、Ｇ（緑）、Ｂ（青）の成分値）によって、表されている。第１撮影画像８１０ａ中では、第２カメラ１２０（図２）の第２撮影方向１２０ｘは、Ｄｙ１方向のおおよそ反対方向である。第１撮影画像８１０ａは、プリンタ９００の第１外面９０１を示している。第１外面９０１には、第１ラベルシート９１０が貼られている。第１撮影画像８１０ａは、第１外面９０１に第１ラベルシート９１０が貼られているか否かの検査に用いられる。

図中には、対象物直線Ｌｘが示されている。対象物直線Ｌｘは、第１外面９０１の矩形状の輪郭を形成する４本の辺のうち、Ｄｙ１方向におおよそ平行な左側の辺に重なる直線である。また、図中の撮影直線１２０ｘＬは、第２撮影方向１２０ｘに平行な直線である。角度ｄＡＧは、対象物直線Ｌｘと撮影直線１２０ｘＬとがなす角度である。角度ｄＡＧは、図２の上板７１０（すなわち、プリンタ９００）が回転する場合の回転方向の回転位置を示している。本実施例では、第２カメラ１２０による撮影時には、角度ｄＡＧがゼロとなるように、プリンタ９００の回転位置が調整される。角度ｄＡＧがゼロである場合の回転位置を、基準回転位置とも呼ぶ。角度ｄＡＧは、基準回転位置に対する回転位置のズレ量を示している（ズレ角ｄＡＧとも呼ぶ）。本実施例では、角度ｄＡＧがゼロである場合に第２外面９０２が第２撮影方向１２０ｘにおおよそ垂直である。

第２カメラ１２０による撮影時には、予め決められた第１閾値ｄＴＨ１以下の小さいズレは、許容される（ｄＴＨ１＞ゼロ。例えば、ｄＴＨ１＝１０度）。図３（Ａ）の第１撮影画像８１０ａは、角度ｄＡＧの大きさ（すなわち、絶対値）が、第１閾値ｄＴＨ１以下である場合を示している。第１撮影画像８１０ａ中では、プリンタ９００の回転位置は、ｄＡＧ＝ゼロの回転位置よりも反時計回り方向に回転した位置である。以下、ｄＡＧ＞ゼロは、基準回転位置から反時計回り方向に回転した回転位置を示し、ｄＡＧ＜ゼロは、基準回転位置から時計回り方向に回転した回転位置を示すこととする（ここで、角度ｄＡＧの大きさは、９０度以下であることとする）。

図３（Ｂ）は、第２カメラ１２０による撮影画像である第２撮影画像の例を示している。第２撮影画像８２０ａは、Ｄｘ２方向に平行な２辺と、Ｄｘ２方向に垂直なＤｙ２方向に平行な２辺と、を有する矩形状の画像である。第２撮影画像８２０ａは、Ｄｘ２方向とＤｙ２方向とに沿ってマトリクス状に並ぶ複数の画素のそれぞれの色値（本実施例では、ＲＧＢの成分値）によって、表されている。第２撮影画像８２０ａは、第１撮影画像８１０ａ（図３（Ａ））の角度ｄＡＧと同じ角度ｄＡＧの回転位置のプリンタ９００を示している。第２撮影画像８２０ａは、プリンタ９００の第２外面９０２と第３外面９０３とを示している。第３外面９０３は、左側の側面である。ズレ角ｄＡＧの大きさが小さい場合、第２外面９０２は、第２撮影方向１２０ｘにおおよそ垂直であり、第３外面９０３は、第２撮影方向１２０ｘにおおよそ平行である。従って、第２撮影画像８２０ａ中では、第２外面９０２の歪みは小さく、第３外面９０３の歪みは大きい。また、第２外面９０２には、第１ラベルシート９１０とは異なる第２ラベルシート９２０が貼られている。第２撮影画像８２０ａは、第２外面９０２に第２ラベルシート９２０が貼られているか否かの検査に用いられる。

図４（Ａ）は、第２カメラ１２０による別の第２撮影画像の例を示している。第２撮影画像８２０ｂは、角度ｄＡＧの大きさが第１閾値ｄＴＨ１よりも大きい場合を示している。第２撮影画像８２０ｂ中の第２外面９０２は、図３（Ｂ）の第２撮影画像８２０ａ中の第２外面９０２と比べて、大きく変形している。第２ラベルシート９２０の形状も、同様に、大きく変形している。

後述するように、シート検出モデルＮＮ（図１）は、撮影画像中のラベルシートを検出するように、トレーニングされる。ここで、角度ｄＡＧの大きさが第１閾値ｄＴＨ１よりも大きい場合には、シート検出モデルＮＮは、撮影画像中で大きく変形したラベルシートを検出できない可能性がある。本実施例では、角度ｄＡＧの大きさが第１閾値ｄＴＨ１よりも大きい場合には、第２撮影画像の補正、または、角度ｄＡＧの調整が、行われる（詳細は、後述）。

Ａ３．シート検出モデルＮＮの構成：
図５（Ａ）は、シート検出モデルＮＮの構成の例を示す概略図である。シート検出モデルＮＮとしては、種々のオブジェクト検出モデルを採用可能である。本実施例では、シート検出モデルＮＮは、ＹＯＬＯ（You only look once）と呼ばれるオブジェクト検出モデルである。ＹＯＬＯは、例えば、論文「Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi, "You Only Look Once: Unified, Real-Time Object Detection", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 779-788」に開示されている。ＹＯＬＯモデルは、畳込ニューラルネットワークを用いて、バウンディングボックスと呼ばれるオブジェクトを含む枠と、ボックスがオブジェクトを含むことの確信度と、ボックスがオブジェクトを含む場合のオブジェクトの種類毎の確率（クラス確率とも呼ぶ）と、を予測する。

図５（Ａ）に示すように、シート検出モデルＮＮは、ｍ個（ｍは１以上の整数）の畳込層ＣＶ１１－ＣＶ１ｍと、畳込層ＣＶ１１－ＣＶ１ｍに続くｎ個（ｎは１以上の整数）の全結合層ＣＮ１１－ＣＮ１ｎと、を有している（ｍは、例えば、２４。ｎは、例えば、２）。ｍ個の畳込層ＣＶ１１－ＣＶ１ｍのうちの１以上の畳込層の直後には、プーリング層が設けられる。

畳込層ＣＶ１１－ＣＶ１ｍは、入力されるデータに対して、畳込処理とバイアスの加算処理とを含む処理を実行する。畳込処理は、入力されたデータに対して、ｔ個のフィルタを順次に適用し、入力されたデータとフィルタとの相関を示す相関値を算出する処理である（ｔは、１以上の整数）。フィルタを適用する処理では、フィルタをスライドさせながら複数個の相関値が順次に算出される。バイアスの加算処理は、算出された相関値に、バイアスを加算する処理である。バイアスは、１個のフィルタに対して１個ずつ準備されている。フィルタの次元とフィルタの数ｔとは、通常は、ｍ個の畳込層ＣＶ１１－ＣＶ１ｍの間で異なっている。畳込層ＣＶ１１－ＣＶ１ｍは、複数のフィルタの複数の重みと複数のバイアスとを含むパラメータセットを、それぞれ有している。

プーリング層は、直前の畳込層から入力されたデータに対して、データの次元数を削減する処理を実行する。プーリングの処理としては、平均プーリング、最大プーリングなど、種々の処理を利用可能である。本実施例では、プーリング層は、最大プーリングを行う。最大プーリングは、所定サイズ（例えば、２×２）のウィンドウを所定のストライド（例えば、２）でスライドさせつつ、ウィンドウ内の最大値を選択することによって次元数を削減する。

全結合層ＣＮ１１－ＣＮ１ｎは、直前の層から入力されたｆ次元のデータ（すなわち、ｆ個の値。ｆは２以上の整数）を用いて、ｇ次元のデータ（すなわち、ｇ個の値。ｇは２以上の整数）を出力する。出力されるｇ個の値のそれぞれは、入力されるｆ個の値で構成されるベクトルとｆ個の重みで構成されるベクトルとの内積に、バイアスを加えた値である。入力データの次元数ｆと出力データの次元数ｇとは、通常は、ｎ個の全結合層ＣＮ１１－ＣＮ１ｎの間で異なっている。全結合層ＣＮ１１－ＣＮ１ｎは、複数の重みと複数のバイアスとを含むパラメータセットを、それぞれ有している。

なお、畳込層ＣＶ１１－ＣＶ１ｍと全結合層ＣＮ１１－ＣＮ１ｎとのそれぞれによって生成されるデータは、活性化関数に入力されて変換される。活性化関数としては、種々の関数を利用可能である。本実施例では、最後の層（ここでは、全結合層ＣＮ１ｎ）には、線形活性化関数（linear activation function）が用いられ、他の層には、漏洩正規化線形ユニット（Leaky Rectified Linear Unit：LReLU）が用いられる。

図５（Ｂ）は、シート検出モデルＮＮの動作の概要を示す概略図である。画像８００は、シート検出モデルＮＮに入力される入力画像であり、シート検出モデルＮＮの動作の説明のための参考画像である。入力画像８００は、Ｄｘ方向に平行な２辺と、Ｄｘ方向に垂直なＤｙ方向に平行な２辺と、を有する矩形状の画像である。入力画像８００は、第１方向Ｄｘと第２方向Ｄｙとに沿ってマトリクス状に並ぶ複数の画素のそれぞれの色値（本実施例では、ＲＧＢの成分値）によって、表されている。後述するように、シート検出モデルＮＮには、第１撮影画像８１０ａ（図３（Ａ））と第２撮影画像８２０ａ（図３（Ｂ））とのような撮影画像を示す画像データが入力される。この場合、撮影画像のＤｘ１、Ｄｘ２は、第１方向Ｄｘに対応し、撮影画像のＤｙ１、Ｄｙ２は、第２方向Ｄｙに対応する。また、１枚の撮影画像は、１個のラベルシートを含み得る（具体的には、１個の第１ラベルシート９１０、または、１個の第２ラベルシート９２０）。一方、本実施例のシート検出モデルＮＮは、ＹＯＬＯモデルであり、種々の１枚の画像から複数のラベルシートを検出可能である（例えば、１個の第１ラベルシート９１０と１個の第２ラベルシート９２０）。以下、シート検出モデルＮＮの動作の説明を、２種類のラベルシート９１０、９２０を示す説明用の入力画像８００を用いて、行う。

シート検出モデルＮＮによるラベルシートの検出の概要は、以下の通りである。図示を省略するが、シート検出モデルＮＮは、入力画像８００を、Ｓ×Ｓのグリッドセル（単にセルとも呼ぶ）に分割する（Ｓは２以上の整数。Ｓは、例えば、７）。ラベルシート９１０、９２０のそれぞれの中心は、いずれかのセルに含まれる。ラベルシート９１０、９２０（より一般的には、オブジェクト）の検出結果は、オブジェクトの領域の中心を含むセルに対応付けられた予測値によって、示される。各セルには、Ｂｎ個の矩形のバウンディングボックスが対応付けられる（Ｂｎは１以上の整数。Ｂｎは、例えば、２）。各バウンディングボックスには、以下の５個の予測値が対応付けられる。すなわち、セルに対する第１方向Ｄｘの中心位置ｘ、セルに対する第２方向Ｄｙの中心位置ｙ、第１方向Ｄｘの大きさ、第２方向Ｄｙの大きさ、確信度。セルにオブジェクト領域の中心が含まれない場合には、そのセルに対応付けられたバウンディングボックスの確信度は、ゼロであることが期待される。セルにオブジェクト領域の中心が含まれる場合、そのセルに対応付けられたバウンディングボックスの確信度が高いことが期待される。具体的には、確信度は、バウンディングボックスの領域とオブジェクト領域との間のＩＯＵ（Intersection over Union）と同じであることが期待される。ここで、ＩＯＵは、２個の領域の共通部分の面積を、２個の領域の和集合の領域の面積で除算して得られる比率である。このような確信度は、バウンディングボックスとオブジェクト領域との間の一致の程度を示している。なお、確信度は、オブジェクトの種類とは独立に算出される。

ここで、シート検出モデルＮＮは、Ｃ種類のラベルシートを検出することとする（Ｃは１以上の整数。本実施例では、Ｃは、２）。ラベルシートの種類を、クラス、または、シートクラスとも呼ぶ。各セルには、さらに、Ｃ個のクラス確率が対応付けられる。Ｃ個のクラス確率は、ラベルシートのＣ個の種類にそれぞれ対応している。クラス確率は、セルにオブジェクト領域の中心が含まれるという条件下での確率であり、ラベルシートの種類毎の確率を示している。１個のセルに対応付けられるバウンディングボックスの総数Ｂｎに拘らず、１個のセルにはＣ個のクラス確率が対応付けられる。

シート検出モデルＮＮは、Ｓ×Ｓ×（Ｂｎ×５＋Ｃ）個の予測値を示す出力データ８３０を出力する。Ｓ×Ｓ×Ｂｎ個のバウンディングボックスのうち、閾値以上の確信度を有するバウンディングボックスが、検出されたオブジェクト（ここでは、ラベルシート）を示すボックス（オブジェクトボックスと呼ぶ）として採用される。また、オブジェクトボックスに対応するＣ個のクラス確率のうちの最高クラス確率に対応するクラス識別子が、オブジェクトボックスに対応付けられたクラス識別子として採用される。例えば、図５（Ｂ）の下段に示すように、第１ラベルシート９１０を示す第１オブジェクトボックスＢＢａと、第２ラベルシート９２０を示す第２オブジェクトボックスＢＢｂと、が検出される。第１オブジェクトボックスＢＢａには、第１ラベルシート９１０を示す「１」のクラス識別子ＣＬａが対応付けられる。第２オブジェクトボックスＢＢｂには、第２ラベルシート９２０を示す「２」のクラス識別子ＣＬｂが対応付けられる。

なお、１個のラベルシートに重なる複数のバウンディングボックスが、オブジェクトボックスの候補であり得る。互いに重なる複数のバウンディングボックスから１個のバウンディングボックスを選択するために、「Non-maximal suppression」と呼ばれる処理が行われてよい。この処理は、２個のボックスの間のＩＯＵが基準以上である場合に、１個のボックス（例えば、より低い確信度を有するボックス）を削除する処理である。この処理を繰り返すことにより、１個のラベルシートに対応する１個のオブジェクトボックスが検出される。

Ａ４．データセットＤＳの生成処理：
図６は、シート検出モデルＮＮのトレーニング用のデータセットＤＳの生成処理の例を示すフローチャートである。本実施例では、図２の支持装置７００とデジタルカメラ１１０、１２０とトレーニング用のプリンタとを用いて、データセットＤＳが生成される。本実施例では、データセットＤＳの生成に用いられるプリンタ（すなわち、トレーニング用のプリンタ）のモデルは、検査対象のプリンタ９００のモデルと同じである。以下、トレーニング用のプリンタの要素を、図２に示すプリンタ９００の要素と同じ符号を用いて、参照する。プロセッサ２１０（図１）は、第１プログラム２３１に従って、図６の処理を実行する。

Ｓ１１０では、プリンタ９００の角度ｄＡＧ（図３（Ａ））が、第１閾値ｄＴＨ１以下の範囲内で調整される。本実施例では、データセットＤＳの生成用の複数の角度ｄＡＧが、予め決められている（トレーニング角度とも呼ぶ）。例えば、複数のトレーニング角度は、－ｄＴＨ１以上、ｄＴＨ１以下の範囲内に等間隔（例えば、１度間隔）で分布するように、予め決定される。Ｓ１１０では、未処理のトレーニング角度が、対象トレーニング角度として選択される。そして、実際の角度ｄＡＧが対象トレーニング角度になるように、プリンタ９００が回転される。本実施例では、作業者が、対象トレーニング角度の選択と、角度ｄＡＧの調整（すなわち、プリンタ９００の回転）と、を行う。例えば、作業者は、撮影直線１２０ｘＬを示す装置（例えば、棒）と、プリンタ９００と、を用いて、実際の角度ｄＡＧを測定する。そして、作業者は、測定された角度ｄＡＧが対象トレーニング角度になるように、プリンタ９００を回転させる。角度ｄＡＧの調整の後、作業者は、処理進行の指示をデータ処理装置２００（図１）に入力する。

Ｓ１２０では、プロセッサ２１０は、デジタルカメラ１１０、１２０に撮影指示を供給する。デジタルカメラ１１０、１２０は、それぞれ、プリンタ９００を撮影し、撮影画像を示す画像データを生成する。Ｓ１３０では、プロセッサ２１０は、デジタルカメラ１１０、１２０から、Ｓ１２０で生成された画像データを取得する。以下、第１カメラ１１０によって撮影された撮影画像を示す画像データを、第１撮影画像データ、または、上面撮影画像データと呼ぶ。第２カメラ１２０によって撮影された撮影画像を示す画像データを、第２撮影画像データ、または、側面撮影画像データと呼ぶ。後述するように、本実施例では、第１撮影画像データと第２撮影画像データとのそれぞれが、データセットＤＳ（図１）の画像データＤ１１として用いられる。

Ｓ１４０では、プロセッサ２１０は、第１撮影画像データと第２撮影画像データとのそれぞれに対応つけるべきラベルデータを生成する。ラベルデータは、シート検出モデルＮＮ（図５（Ａ））の出力データ８３０の目標値（すなわち、正解）を定めるデータである。このようなラベルデータは、教師データとも呼ばれる。具体的には、ラベルデータＤ１２（図１）は、画像中のラベルシートの領域を示す領域情報Ｄ１２１と、ラベルシートの種類を示すシートクラスＤ１２２と、を示している。図３（Ｃ）は、第１撮影画像８１０ａ（図３（Ａ））がトレーニングに用いられる場合のラベルデータの例を示している。ラベルデータは、第１ラベルシート９１０を示す矩形領域ＢＢ１と、第１ラベルシート９１０の種類を示す「１」のクラス識別子ＣＬ１と、を示している。図３（Ｄ）は、第２撮影画像８２０ａ（図３（Ｂ））がトレーニングに用いられる場合のラベルデータの例を示している。ラベルデータは、第２ラベルシート９２０を示す矩形領域ＢＢ２と、第２ラベルシート９２０の種類を示す「２」のクラス識別子ＣＬ２と、を示している。領域情報Ｄ１２１は、ラベルシートを示す領域の中心位置（具体的には、Ｄｘ１、Ｄｘ２方向の位置とＤｙ１、Ｄｙ２方向の位置）と、Ｄｘ１、Ｄｘ２方向の大きさと、Ｄｙ１、Ｄｙ２方向の大きさと、を示している。また、本実施例では、ラベルシートは、Ｃ個のクラスに分類される。シートクラスＤ１２２は、Ｃ個のクラスのうちのいずれか１つを示している。

本実施例では、プロセッサ２１０は、第１撮影画像と第２撮影画像とを、表示部２４０（図１）に表示する。作業者は、撮影画像を観察することによって、領域情報Ｄ１２１とシートクラスＤ１２２とを決定する。作業者は、ラベルシートの全体を含む最小矩形を示すように、領域情報Ｄ１２１を決定する。また、本実施例では、トレーニング用のプリンタ９００に関しては、第１外面９０１には第１ラベルシート９１０が貼られており、第２外面９０２には第２ラベルシート９２０が貼られている。従って、作業者は、第１撮影画像データには、第１ラベルシート９１０のシートクラスＤ１２２を対応付け、第２撮影画像データには、第２ラベルシート９２０のシートクラスＤ１２２を対応付ける。作業者は、操作部２５０（図１）を操作することによって、領域情報Ｄ１２１とシートクラスＤ１２２とを、データ処理装置２００に入力する。プロセッサ２１０は、入力された情報を用いて、ラベルデータを生成する。なお、プロセッサ２１０は、画像データを分析することによって、領域情報Ｄ１２１とシートクラスＤ１２２とを決定してよい。

Ｓ１５０（図６）では、プロセッサ２１０は、画像データＤ１１とラベルデータＤ１２とを関連付けて、記憶装置２１５（例えば、不揮発性記憶装置２３０）に格納する。以下、互いに関連付けられた画像データＤ１１とラベルデータＤ１２との全体を、ラベル付データＬＤと呼ぶ。また、ラベル付データＬＤの画像データＤ１１を、学習画像データＤ１１とも呼ぶ。データセットＤＳは、複数のラベル付データＬＤを含んでいる。なお、プロセッサ２１０は、ラベル付データＬＤを、データ処理装置２００に接続された外部記憶装置（図示せず）に格納してもよい。

Ｓ１６０では、プロセッサ２１０は、終了条件が満たされるか否かを判断する。終了条件は、複数のトレーニング角度のそれぞれのラベル付データＬＤが生成されることを含んでいる。また、シート検出モデルＮＮの適切なトレーニングのためには、データセットＤＳに含まれるＣ個（ここでは、２個）のラベルシートのそれぞれのラベル付データＬＤの総数が、大きいことが好ましい。本実施例では、終了条件は、複数のトレーニング角度のそれぞれに関して、第１ラベルシート９１０のラベル付データＬＤの総数と第２ラベルシート９２０のラベル付データＬＤの総数とのそれぞれが、予め決められた大きいデータ数基準値（例えば、５００）以上であることである。少なくとも１つのトレーニング角度で、少なくとも１種類のラベルシートのラベル付データの総数がデータ数基準値未満である場合、終了条件が満たされない（Ｓ１６０：Ｎｏ）。この場合、プロセッサ２１０は、Ｓ１１０へ移行し、新たなラベル付データを生成する。終了条件が満たされる場合（Ｓ１６０：Ｙｅｓ）、プロセッサ２１０は、図６の処理を終了する。生成されたデータセットＤＳは、互いに異なる角度ｄＡＧに対応付けられた複数のラベル付データＬＤを含んでいる。なお、プロセッサ２１０は、いわゆるデータオーグメンテーションによって、複数のラベル付データを生成してもよい。

Ａ５．シート検出モデルＮＮのトレーニング処理：
図７は、シート検出モデルＮＮ（図５（Ａ））のトレーニング処理の例を示すフローチャートである。シート検出モデルＮＮは、出力データ８３０が入力画像８００中のラベルシートの適切な領域情報と適切なシートクラスとを示すように、トレーニングされる。トレーニングによって、シート検出モデルＮＮの演算に用いられる複数の演算パラメータ（複数の層ＣＶ１１－ＣＶ１ｍ、ＣＮ１１－ＣＮ１ｎのそれぞれの演算に用いられる複数の演算パラメータを含む）が、調整される。なお、プロセッサ２１０は、第２プログラム２３２に従って、図７の処理を行う。

Ｓ２１０では、プロセッサ２１０は、不揮発性記憶装置２３０からデータセットＤＳを取得する。Ｓ２２０では、プロセッサ２１０は、データセットＤＳの複数のラベル付データＬＤを、学習用データセットと確認用データセットとに分割する。例えば、プロセッサ２１０は、ランダムに選択した７０％のラベル付データＬＤを、学習用データセットとして採用し、残りの３０％のラベル付データＬＤを、確認用データセットとして採用する。以下、学習用データセットのラベル付データＬＤの総数がＮｔ個であり、確認用データセットのラベル付データＬＤの総数がＮｖ個であることとする（Ｎｔ、Ｎｖは、いずれも、２以上の整数）。

Ｓ２３０では、プロセッサ２１０は、シート検出モデルＮＮの複数の演算パラメータを初期化する。例えば、各演算パラメータは、乱数値に設定される。

Ｓ２４０では、プロセッサ２１０は、学習用データセットを用いて、学習ロスを算出する。具体的には、プロセッサ２１０は、Ｎｔ個の学習画像データＤ１１をシート検出モデルＮＮに入力し、Ｎｔ個の出力データ８３０を生成する。そして、プロセッサ２１０は、Ｎｔ個の出力データ８３０と、Ｎｔ個の学習画像データＤ１１に対応付けられたＮｔ個のラベルデータＤ１２と、を用いて、学習ロスを算出する。

学習ロスの算出には、損失関数が用いられる。損失関数は、出力データ８３０とラベルデータＤ１２との間の差の評価値を算出する種々の関数であってよい。本実施例では、ＹＯＬＯの上記の論文に開示されている損失関数が用いられる。この損失関数は、以下の５個の成分を含んでいる。すなわち、損失関数は、ラベルデータＤ１２の領域情報Ｄ１２１の領域を示すべきバウンディングボックスに関して、中心位置の差と、大きさの差と、確信度の差と、のそれぞれに対応する３個の成分を含んでいる。領域情報Ｄ１２１の領域を示すべきバウンディングボックスは、領域情報Ｄ１２１の中心位置を含むセルに対応付けられたＢｎ個のバウンディングボックスのうち、領域情報Ｄ１２１の領域とバウンディングボックスの領域との間の最も高いＩＯＵを有するバウンディングボックスである。また、この損失関数は、領域情報Ｄ１２１の領域に対応すべきでないバウンディングボックスに関して、バウンディングボックスの確信度と、理想の確信度（具体的には、ゼロ）と、の間の差に対応する成分を含んでいる。また、この損失関数は、領域情報Ｄ１２１の中心位置を含むセルに関して、Ｃ個のクラス確率とＣ個の正解のクラス確率との間の差に対応する成分を含んでいる。プロセッサ２１０は、正解のクラス確率を、例えば、以下のように決定する。シートクラスＤ１２２に対応するクラス確率は、大きい値に設定される（例えば、１）。他のクラスに対応するクラス確率は、小さい値に設定される（例えば、ゼロ）。プロセッサ２１０は、損失関数を用いて算出されるＮｔ個の損失の合計値を、学習ロスとして算出する。なお、学習ロスは、合計値に限らず、Ｎｔ個の損失を用いて算出される種々の代表値（例えば、平均値、中央値、積算値などＮｔ個の損失と相関を有する値）であってよい。代表値は、予め決められた算出式に従って算出されてよい。

Ｓ２５０では、プロセッサ２１０は、学習ロスを用いて、シート検出モデルＮＮの複数の演算パラメータを更新する。具体的には、プロセッサ２１０は、学習ロスが小さくなるように、所定のアルゴリズムに従って演算パラメータを調整する。所定のアルゴリズムとしては、例えば、誤差逆伝播法と勾配降下法とを用いたアルゴリズムが用いられる。

Ｓ２６０では、プロセッサ２１０は、確認用データセットを用いて、確認ロスを算出する。確認ロスの算出方法は、学習用データセットの代わりに確認用データセットを用いる点を除いて、Ｓ２４０で説明した学習ロスの算出方法と同じである。具体的には、プロセッサ２１０は、確認用データセットのＮｖ個の学習画像データＤ１１を、Ｓ２５０で更新された演算パラメータを有するシート検出モデルＮＮに入力し、Ｎｖ個の出力データ８３０を生成する。そして、プロセッサ２１０は、Ｎｖ個の出力データ８３０と、Ｎｖ個の学習画像データＤ１１に対応付けられたＮｖ個のラベルデータＤ１２と、を用いて、確認ロスを算出する。

Ｓ２７０では、プロセッサ２１０は、トレーニングが完了したか否かを判断する。トレーニング完了の条件は、種々の条件であってよい。本実施例では、トレーニング完了の条件は、学習ロスと確認ロスとの両方が、所定のロス基準値以下であることである。なお、トレーニング完了の条件は、学習ロスと確認ロスとの両方が小さいことを示す種々の条件であってよい。例えば、学習ロスのロス基準値は、確認ロスのロス基準値と異なっていてよい。

トレーニングが完了していない場合（Ｓ２７０：Ｎｏ）、プロセッサ２１０は、Ｓ２４０へ移行して、トレーニングを継続する。トレーニングが完了した場合（Ｓ２７０：Ｙｅｓ）、Ｓ２８０で、プロセッサ２１０は、調整済の演算パラメータを含むシート検出モデルＮＮを、トレーニング済モデルとして、記憶装置２１５（ここでは、不揮発性記憶装置２３０）に格納する。そして、プロセッサ２１０は、図７の処理を終了する。なお、プロセッサ２１０は、シート検出モデルＮＮを、データ処理装置２００に接続された外部記憶装置（図示せず）に格納してもよい。

トレーニングされたシート検出モデルＮＮによって出力される出力データ８３０は、以下の特徴を有している。ラベルシートの中心を含むセルは、ラベルシートの領域を適切に示すとともに高い確信度と適切なクラス確率とを有するバウンディングボックスを示すことができる。また、出力データ８３０によって示される複数のバウンディングボックスは、ラベルシートの領域を示していない不適切なバウンディングボックスを含み得る。不適切なバウンディングボックスには、低い確信度が対応付けられる。従って、高い確信度を有するバウンディングボックスを用いることによって、適切に、ラベルシートを特定できる。

Ａ６．検査処理：
図８は、対象物の検査処理の例を示すフローチャートである。本実施例では、支持装置７００（図２）上に配置されたプリンタ９００に、適切なラベルシート９１０、９２０が貼られているか否かが検査される。なお、プロセッサ２１０は、図８の処理のうちＳ３３０以外の処理を、第３プログラム２３３に従って実行する。

Ｓ３１０では、プロセッサ２１０は、デジタルカメラ１１０、１２０に撮影指示を供給する。デジタルカメラ１１０、１２０は、それぞれ、プリンタ９００を撮影し、撮影画像を示す画像データを生成する。Ｓ３２０では、プロセッサ２１０は、デジタルカメラ１１０、１２０から、Ｓ３１０で生成された画像データを取得し、取得した画像データを、記憶装置２１５（例えば、不揮発性記憶装置２３０）に格納する。

Ｓ３３０では、プロセッサ２１０は、認識データの取得処理を実行する。図９は、認識データの取得処理の例を示すフローチャートである。認識データは、画像認識の結果を示すデータである。本実施例では、認識データは、シート検出モデルＮＮ（図５）によって出力される出力データであり、ラベルシートの検出結果を示している。なお、プロセッサ２１０は、第４プログラム２３４に従って、図９の処理を行う。

Ｓ４１０では、プロセッサ２１０は、第１撮影画像データと第２撮影画像データとを、記憶装置２１５から取得する。取得されるデータは、Ｓ３２０（図８）で取得されたデータである。

Ｓ４２０では、プロセッサ２１０は、プリンタ９００（図２）の第１外面９０１にラベルシートが要求されるか否かを判断する。この判断結果は、プリンタの機種に応じて、異なり得る。本実施例では、プリンタ９００の第１外面９０１には、第１ラベルシート９１０が要求されるので、Ｓ４２０の判断結果はＹｅｓである。

Ｓ４２０の判断結果がＹｅｓである場合、Ｓ４３０で、プロセッサ２１０は、第１撮影画像データを、トレーニングされたシート検出モデルＮＮ（図５（Ａ））に入力することによって、シート検出モデルＮＮから出力データを取得する。以下、Ｓ４３０で取得される出力データを、第１出力データと呼ぶ。第１外面９０１（図２）に第１ラベルシート９１０が貼られている場合、第１出力データは、図３（Ｃ）の矩形領域ＢＢ１とクラス識別子ＣＬ１とのように、第１ラベルシート９１０を示すバウンディングボックスとクラス識別子とを示すことができる。第１外面９０１に第１ラベルシート９１０が貼られていない場合、シート検出モデルＮＮにとって、第１ラベルシート９１０の情報を示す第１出力データを出力することは困難である。Ｓ４３０の後、プロセッサ２１０は、Ｓ４４０へ移行する。

Ｓ４２０の判断結果がＮｏである場合、プロセッサ２１０は、Ｓ４３０をスキップして、Ｓ４４０へ移行する。

Ｓ４４０では、プロセッサ２１０は、第１撮影画像データを分析することによって、対象物直線を特定する。本実施例では、プロセッサ２１０は、図３（Ａ）で説明した対象物直線Ｌｘを特定する。対象物直線Ｌｘの特定方法は、任意の方法であってよい。本実施例では、プロセッサ２１０は、エッジ検出フィルタ（例えば、ソーベルフィルタ）を用いて第１撮影画像中の複数のエッジ画素を検出し、複数のエッジ画素を用いるハフ変換によって、第１外面９０１の矩形状の輪郭を形成する４本の辺を検出する。プロセッサ２１０は、４本の辺のうち、Ｄｙ１方向におおよそ平行な左側の辺を延長して得られる直線を、対象物直線Ｌｘとして採用する。

Ｓ４５０（図９）では、プロセッサ２１０は、Ｓ４４０で特定された対象物直線Ｌｘと、第２撮影方向１２０ｘに平行な撮影直線１２０ｘＬと、を用いて、ズレ角ｄＡＧを算出する。

Ｓ４６０では、プロセッサ２１０は、ズレ角ｄＡＧの絶対値が第１閾値ｄＴＨ１より大きいか否かを判断する。ズレ角ｄＡＧの絶対値が第１閾値ｄＴＨ１以下である場合（Ｓ４６０：Ｎｏ）、Ｓ５００で、プロセッサ２１０は、第２撮影画像データを、トレーニングされたシート検出モデルＮＮ（図５（Ａ））に入力することによって、シート検出モデルＮＮから出力データを取得する。以下、Ｓ５００で取得される出力データを、第２出力データと呼ぶ。第２外面９０２（図２）に第２ラベルシート９２０が貼られている場合、第２出力データは、図３（Ｄ）の矩形領域ＢＢ２とクラス識別子ＣＬ２とのように、第２ラベルシート９２０を示すバウンディングボックスとクラス識別子とを示すことができる。第２外面９０２に適切な第２ラベルシート９２０が貼られていない場合、シート検出モデルＮＮにとって、第２ラベルシート９２０の情報を示す第２出力データを出力することは困難である。Ｓ５００の後、プロセッサ２１０は、図９の処理、すなわち、図８のＳ３３０の処理を終了する。

ズレ角ｄＡＧの絶対値が第１閾値ｄＴＨ１より大きい場合（Ｓ４６０：Ｙｅｓ）、第２撮影画像は、図４（Ａ）の第２撮影画像８２０ｂのように、大きく変形した第２外面９０２を示している。第２外面９０２に第２ラベルシート９２０が貼られている場合、第２撮影画像は、大きく変形した第２ラベルシート９２０を示している。シート検出モデルＮＮは、大きく変形した第２ラベルシート９２０を検出できない場合がある。

Ｓ４７０（図９）では、プロセッサ２１０は、ズレ角ｄＡＧの絶対値が第２閾値ｄＴＨ２以下であるか否かを判断する。第２閾値ｄＴＨ２は、第１閾値ｄＴＨ１よりも大きい予め決められた値である（例えば、ｄＴＨ２＝２０度）。

ズレ角ｄＡＧの絶対値が第２閾値ｄＴＨ２以下である場合（Ｓ４７０：Ｙｅｓ）、Ｓ４８０で、プロセッサ２１０は、第２撮影画像データを分析して、射影変換の複数のパラメータを決定する。射影変換は、幾何変換の一種であり、任意の四角形を任意の四角形に変換可能である。台形を矩形に変換する台形変換は、射影変換の一種である。射影変換は、第１視点から見た物体の画像を、第２視点から見た物体の画像に変換する処理として、利用可能である。座標（ｘ、ｙ）を座標（Ｘ、Ｙ）に変換する射影変換の変換式は、例えば、以下の式１、２で表される。
（式１）Ｘ＝（Ａｘ＋Ｂｙ＋Ｃ）／（Ｇｘ＋Ｈｙ＋１）
（式２）Ｙ＝（Ｄｘ＋Ｅｙ＋Ｆ）／（Ｇｘ＋Ｈｙ＋１）
以上のように、射影変換は、ＡからＨの８個のパラメータで表される。８個のパラメータは、変換前の四角形の４個の頂点の座標と、変換後の四角形の４個の頂点の座標と、を用いることによって、決定可能である。本実施例では、これらのパラメータは、第２外面９０２の形状が、ズレ角ｄＡＧがゼロである場合の形状（本実施例では、矩形状）に近づくように、決定される。

射影変換の複数のパラメータの決定方法は、任意の方法であってよい。例えば、プリンタ９００の第２外面９０２上には、基準の位置を示す４個の目印Ｐ１－Ｐ４が予め形成されてよい（図４（Ａ））。目印Ｐ１－Ｐ４の構成は、画像分析によって検出可能な任意の構成であってよい。本実施例では、目印Ｐ１－Ｐ４は、三角形である。また、本実施例では、４個の目印Ｐ１－Ｐ４は、第２外面９０２上で矩形の頂点を形成する。図４（Ａ）に示すように、第２撮影画像中では、４個の目印Ｐ１－Ｐ４は、変形した四角形の頂点を示し得る。プロセッサ２１０は、パターンマッチングによって、４個の目印Ｐ１－Ｐ４を検出する。そして、プロセッサ２１０は、変換後の４個の目印Ｐ１－Ｐ４が矩形の４個の頂点（例えば、予め決められた４個の頂点）を示すように、射影変換の複数のパラメータを決定する。

Ｓ４９０（図９）では、プロセッサ２１０は、Ｓ４８０で決定された複数のパラメータを用いて、第２撮影画像データの射影変換を行い、変換済第２撮影画像データを生成する。図４（Ｂ）は、変換済第２撮影画像データの画像の例を示している。この画像８２０ｂｘは、図４（Ａ）の第２撮影画像８２０ｂに対して射影変換を行って得られる画像を示している。図示するように、４個の目印Ｐ１－Ｐ４は、矩形の４個の頂点を形成している。そして、第２外面９０２の形状は、おおよそ矩形状である。射影変換によって、第２外面９０２の形状は、ズレ角ｄＡＧの大きさが第１閾値ｄＴＨ１以下である場合の第２外面９０２の形状（ここでは、矩形状）に、近づいている。また、第２外面９０２上の第２ラベルシート９２０の形状も、ズレ角ｄＡＧの大きさが第１閾値ｄＴＨ１以下である場合の形状に、近づいている。

Ｓ４９０（図９）の後、プロセッサ２１０は、Ｓ５００へ移行する。Ｓ４９０が実行された場合、プロセッサ２１０は、変換済第２撮影画像データを、トレーニングされたシート検出モデルＮＮ（図５（Ａ））に入力することによって、シート検出モデルＮＮから第２出力データを取得する。図４（Ｃ）は、射影変換された画像８２０ｂｘ（図４（Ｂ））から検出される第２ラベルシート９２０を示している。第２出力データは、第２ラベルシート９２０を示すバウンディングボックスＢＢ３とクラス識別子ＣＬ３とを適切に示すことができる。

なお、ズレ角ｄＡＧの大きさが大きい場合、第２撮影画像中の第２ラベルシート９２０の変形が大きいので、射影変換された画像を用いても、第２ラベルシート９２０の検出が困難であり得る。本実施例では、ズレ角ｄＡＧの絶対値が第２閾値ｄＴＨ２よりも大きい場合（Ｓ４７０：Ｎｏ）、プロセッサ２１０は、認識データの取得（Ｓ５００）を行わずに、Ｓ５１０へ移行する。第２閾値ｄＴＨ２は、ズレ角ｄＡＧの大きさが第２閾値ｄＴＨ２以下である場合に、射影変換された画像から第２ラベルシート９２０を適切に検出できるように、予め実験的に決定される。

Ｓ５１０では、プロセッサ２１０は、ズレ角ｄＡＧのエラー（すなわち、ズレ角ｄＡＧの大きさが第２閾値ｄＴＨ２よりも大きいこと）を作業者に通知し、図９の処理を終了する。エラーを通知する処理は、作業者によって認識され得る任意の処理であってよい。例えば、プロセッサ２１０は、表示部２４０（図１）に、エラーを示す画像を表示する。これに代えて、プロセッサ２１０は、警告音を図示しないスピーカから鳴動させてよい。

図９の処理の後、すなわち、図８のＳ３３０の処理の後、Ｓ３４０で、プロセッサ２１０は、ズレ角ｄＡＧのエラーがＳ３３０で発生したか否かを判断する。エラーが発生した場合（Ｓ３４０：Ｙｅｓ）、Ｓ３５０で、ズレ角ｄＡＧの大きさが第２閾値ｄＴＨ２以下となるように、プリンタ９００が回転される。本実施例では、作業者が、プリンタ９００を回転させることによって、角度ｄＡＧを調整する。そして、作業者は、処理進行の指示をデータ処理装置２００（図１）に入力する。これにより、プロセッサ２１０は、Ｓ３１０へ移行する。

ズレ角ｄＡＧのエラーが発生していない場合（Ｓ３４０：Ｎｏ）、Ｓ３６０で、プロセッサ２１０は、撮影画像が適切なラベルシートの画像を含むか否かを、認識データを用いて判断する。本実施例では、認識データに含まれる第１出力データが、第１ラベルシート９１０が検出されたことを示し、かつ、認識データに含まれる第２出力データが、第２ラベルシート９２０が検出されたことを示す場合に、Ｓ３６０の判断結果がＹｅｓである。Ｙｅｓの判断結果は、プリンタ９００が検査に合格したことを示している。Ｎｏの判断結果は、プリンタ９００が検査に不合格であったことを示している。

Ｓ３６０の判断結果がＹｅｓである場合、Ｓ３７０で、プロセッサ２１０は、合格処理を実行する。合格処理は、検査結果が合格である場合のための任意の処理であってよい。例えば、プロセッサ２１０は、合格を示す検査結果データを、記憶装置２１５（例えば、不揮発性記憶装置２３０）に格納する。そして、プロセッサ２１０は、図８の処理を終了する。Ｓ３６０の判断結果がＮｏである場合、Ｓ３８０で、プロセッサ２１０は、不合格処理を実行する。不合格処理は、検査結果が不合格である場合のための任意の処理であってよい。例えば、プロセッサ２１０は、不合格を示す検査結果データを、記憶装置２１５（例えば、不揮発性記憶装置２３０）に格納する。そして、プロセッサ２１０は、図８の処理を終了する。

以上のように、データ処理装置２００のプロセッサ２１０は、図９の認識データの取得処理を実行する。認識データは、画像認識の結果を示すデータである。本実施例では、図５（Ａ）、図５（Ｂ）、図９のＳ４３０、Ｓ５００等で説明したように、画像認識は、シート検出モデルＮＮによる撮影画像からのシートの画像の検出である。認識データは、シート検出モデルＮＮからの出力データであり、シート検出の結果を示している。また、図２等で説明したように、本実施例では、撮影画像の対象物は、プリンタ９００である。プリンタ９００は、第１方向Ｄ１側の第１外面９０１と、第１方向Ｄ１に垂直な第２方向Ｄ２側の第２外面９０２と、を含む複数の外面を有している。図９のＳ４１０では、プロセッサ２１０は、第１撮影画像データと第２撮影画像データとを取得する。第１撮影画像データは、第１外面９０１に対向する第１カメラ１１０によって撮影された第１外面９０１の第１撮影画像を示すデータである。第２撮影画像データは、第２外面９０２に対向する第２カメラ１２０によって撮影された第２外面９０２の第２撮影画像を示すデータである。

Ｓ４４０、Ｓ４５０（図９）では、プロセッサ２１０は、第１撮影画像データを分析することによってズレ角ｄＡＧを特定する。ズレ角ｄＡＧは、図２、図３（Ａ）に示すように、第１外面９０１が第１カメラ１１０の方向を向いた状態でプリンタ９００が回転する場合のプリンタ９００の回転方向の回転位置のズレ量を示している。具体的には、ズレ角ｄＡＧは、第２カメラ１２０の第２撮影方向１２０ｘに平行な撮影直線１２０ｘＬと、プリンタ９００の対象物直線Ｌｘと、がなす角度である。このようなズレ角ｄＡＧは、対象物直線Ｌｘが撮影直線１２０ｘＬに平行であるような回転位置（注目基準回転位置と呼ぶ）に対するズレ量を示している。以下、注目基準回転位置に対するズレ量を、注目ズレ量とも呼ぶ。図９のＳ４５０で算出されるズレ角ｄＡＧは、注目ズレ量の例である。また、注目基準回転位置は、第２カメラ１２０の第２撮影方向１２０ｘと所定の位置関係にある回転位置の例である。

Ｓ５００（図９）では、プロセッサ２１０は、シート検出モデルＮＮと第２撮影画像データとを用いて、プリンタ９００の第２外面９０２に関する画像認識の結果を示す認識データ（第２出力データ）を取得する。図６、図７で説明したように、シート検出モデルＮＮは、プリンタ９００の第２外面９０２の撮影画像を示す撮影画像データと、画像認識の結果を示す認識データと、の関係を示すようにトレーニングされている。

図６で説明したように、シート検出モデルＮＮのトレーニングには、トレーニング用のプリンタ９００の第２外面９０２の複数の撮影画像を示す複数のトレーニング用撮影画像データ（本実施例では、学習画像データＤ１１）が用いられる。図６のＳ１１０で説明したように、トレーニング用のプリンタ９００の第２外面９０２の撮影は、ズレ角ｄＡＧの大きさが予め決められた第１閾値ｄＴＨ１以下である状態で行われる。本実施例では、トレーニング用の撮影時に用いられるズレ角ｄＡＧの意味は、認識データの取得処理（図９）で用いられるズレ角ｄＡＧの意味と同じである。すなわち、トレーニング用のズレ角ｄＡＧは、トレーニング用のプリンタ９００の第２外面９０２の撮影に用いられる第２カメラ１２０の第２撮影方向１２０ｘに平行な撮影直線１２０ｘＬと、プリンタ９００の対象物直線Ｌｘと、がなす角度である（以下、トレーニング用のズレ角ｄＡＧを、トレーニングズレ量とも呼ぶ）。トレーニングズレ量は、対象物直線Ｌｘが撮影直線１２０ｘＬに平行であるような基準回転位置（トレーニング基準回転位置とも呼ぶ）に対するトレーニング用のプリンタ９００の回転方向の回転位置のズレ量を示している。トレーニング基準回転位置は、第２カメラ１２０の第２撮影方向１２０ｘと所定の位置関係にある回転位置の例である。

図９の処理では、注目ズレ量（ここでは、ズレ角ｄＡＧ）の大きさが第１閾値ｄＴＨ１以下である場合には（Ｓ４６０：Ｎｏ）、プロセッサ２１０は、Ｓ５００で、第２撮影画像データをトレーニングされたシート検出モデルＮＮに入力することによって、認識データ（第２出力データ）を取得する。注目ズレ量の大きさが、第１閾値ｄＴＨ１より大きく（Ｓ４６０：Ｙｅｓ）、かつ、第２閾値ｄＴＨ２以下である場合（Ｓ４７０：Ｙｅｓ）、プロセッサ２１０は、以下の処理を実行する。すなわち、Ｓ４９０で、プロセッサ２１０は、射影変換を第２撮影画像データに対して実行することによって、変換済撮影画像データを生成する。この射影変換は、第２撮影画像上の第２外面９０２の形状を、注目ズレ量（ズレ角ｄＡＧ）の大きさが第１閾値ｄＴＨ１以下である場合の第２外面９０２の形状に近づける処理である。Ｓ５００では、プロセッサ２１０は、変換済第２撮影画像データをトレーニングされたシート検出モデルＮＮに入力することによって、認識データ（第２出力データ）を取得する。なお、本実施例では、射影変換を行うための注目ズレ量の大きさの範囲（特定範囲と呼ぶ）は、第１閾値ｄＴＨ１より大きく、かつ、第２閾値ｄＴＨ２以下の範囲である。

このように、注目ズレ量の大きさが第１閾値ｄＴＨ１よりも大きい特定範囲内である場合には、プロセッサ２１０は、射影変換を行い、変換済第２撮影画像データをトレーニングされたシート検出モデルＮＮに入力することによって認識データを取得する。従って、シート検出モデルＮＮをトレーニングする処理において、第１閾値ｄＴＨ１よりも大きい大きさを有するズレ量に対応するトレーニング用撮影画像データを省略できる。この結果、トレーニングのための画像データの準備の負担を軽減できる。

また、認識データの取得のためのプリンタ９００の撮影時（図８：Ｓ３１０）、プリンタ９００の回転位置の調整には、第１閾値ｄＴＨ１以下のズレが許容されている。従って、作業者の負担を軽減できる。また、支持装置７００の構成を簡素化できる。例えば、本実施例では、プリンタ９００の回転位置を厳密に調整する自動調整装置は、省略されている。

また、図６のＳ１１０、Ｓ１６０で説明したように、複数のトレーニング用撮影画像データ（本実施例では、学習画像データＤ１１）は、第１閾値ｄＴＨ１以下の大きさの範囲内に分布する複数のトレーニングズレ量に対応する複数のトレーニング用撮影画像データを含んでいる。従って、第１閾値ｄＴＨ１以下の種々の大きさのズレ量に関して、シート検出モデルＮＮによる画像認識の精度低下を抑制できる。

また、図９のＳ４６０、Ｓ４７０で説明したように、射影変換が行われるための注目ズレ量の大きさの特定範囲は、第１閾値ｄＴＨ１より大きく、第２閾値ｄＴＨ２以下の範囲である。プロセッサ２１０は、注目ズレ量の大きさが第２閾値ｄＴＨ２よりも大きい場合には（Ｓ４７０：Ｎｏ）、Ｓ５００（注目認識データの取得）を実行せずに、注目ズレ量の大きさが第２閾値ｄＴＨ２よりも大きいことをユーザ（ここでは、作業者）に通知する（Ｓ５１０）。従って、注目ズレ量の大きさが第２閾値ｄＴＨ２よりも大きい場合に、不適切な認識データの取得は抑制される。

図９のＳ４８０では、プロセッサ２１０は、第２撮影画像データを分析することによって、射影変換の複数のパラメータを決定する。Ｓ４９０では、プロセッサ２１０は、Ｓ４８０で決定した複数のパラメータを用いて射影変換を実行する。従って、プロセッサ２１０は、第２撮影画像データの適切な射影変換を実行できる。

また、認識データの取得（図９）のために、Ｓ３１０（図８）で、プリンタ９００（図２）は、第１カメラ１１０と第２カメラ１２０とによって撮影される。この撮影時には、プリンタ９００は、支持装置７００によって支持されている。図２で説明したように、支持装置７００は、平らな支持面７１１と回転装置７２５とを備えている。支持面７１１は、プリンタ９００の第１外面９０１とは反対側の外面である底面９０９を支持する。回転装置７２５は、プリンタ９００の第１外面９０１が第１カメラ１１０の方向を向いた状態でプリンタ９００の回転を許容する。そして、支持装置７００に対する第１カメラ１１０の位置と向きと、支持装置７００に対する第２カメラ１２０の位置と向きとは、予め決められている。従って、複数の撮影画像の間で、ラベルシート９１０、９２０の画像の形状のばらつきと大きさのばらつきとは抑制される。この結果、画像認識の精度低下を抑制できる。

Ｂ．第２実施例：
図１０は、認識データの取得処理の第２実施例のフローチャートである。図９の第１実施例との差異は、Ｓ４８０が、Ｓ４８０ａに置換されている点だけである。認識データの取得処理の他の部分の処理は、図９の対応する部分の処理と同じである（同じ部分については、図示と説明を省略する）。取得処理を実行するデータ処理装置の構成は、図１のデータ処理装置２００の構成と同じである。

Ｓ４８０ａでは、プロセッサ２１０は、Ｓ４５０（図９）で算出されたズレ角ｄＡＧを用いて、射影変換の複数のパラメータを決定する。ズレ角ｄＡＧと複数のパラメータとの間の対応関係は、予め実験的に決定される。本実施例では、対応関係を示すルックアップテーブルが、不揮発性記憶装置２３０に予め格納される（図示省略）。プロセッサ２１０は、ルックアップテーブルを参照して、ズレ角ｄＡＧに対応付けられた複数のパラメータを、特定する。なお、本実施例では、目印Ｐ１－Ｐ４（図４（Ａ））は、省略されてよい。

以上のように、本実施例では、Ｓ４８０ａ（図１０）では、プロセッサ２１０は、注目ズレ量（ここでは、ズレ角ｄＡＧ）を用いて射影変換の複数のパラメータを決定する。Ｓ４９０（図９）では、プロセッサ２１０は、Ｓ４８０ａで決定した複数のパラメータを用いて射影変換を実行する。従って、プロセッサ２１０は、注目ズレ量を用いて、第２撮影画像データの適切な射影変換を実行できる。

Ｃ．変形例：
（１）機械学習モデル（例えば、シート検出モデルＮＮ（図５（Ａ））のトレーニングと認識データの取得などに用いられる撮影画像データは、プリンタ９００などの対象物の撮影画像を示す種々の画像データであってよい。例えば、撮影画像データの色空間は、ＲＧＢに代えて、ＣＭＹＫ色空間などの他の色空間であってよい。また、プロセッサ２１０は、デジタルカメラ１１０、１２０によって生成された画像データに対して、解像度変換処理、トリミング処理などの種々の画像処理を実行することによって、撮影画像データを取得してよい。

（２）認識データの取得処理は、図９、図１０の処理に代えて、他の種々の処理であってよい。認識データの取得処理は、機械学習モデル（例えば、シート検出モデルＮＮ）と、撮影画像データと、を用いて認識データを取得する種々の処理であってよい。ここで、機械学習モデルとしては、撮影画像データと、画像認識の結果を示す認識データと、の関係を示すようにトレーニングされたモデルが利用されてよい。図９の処理において、例えば、Ｓ４２０、Ｓ４３０は、省略されてよい。すなわち、第１撮影画像データに基づく認識データの取得は、省略されてよい。この場合も、プロセッサ２１０は、第１撮影画像データを用いて、ズレ角ｄＡＧを特定してよい。また、Ｓ５１０では、エラーに関する作業者への通知が省略されてよい。この場合、プロセッサ２１０は、Ｓ５１０で、エラーの発生を記録することが好ましい（例えば、プロセッサ２１０は、エラーを示すデータを記憶装置２１５に格納する）。

角度ｄＡＧを特定する処理は、Ｓ４４０－Ｓ４５０の処理に代えて、他の種々の処理であってよい。例えば、第１外面９０１上に、対象物ラインＬｘを示す２個の目印が予め形成されてよい。Ｓ４４０では、プロセッサ２１０は、パターンマッチングによって、２個の目印を検出し、２個の目印を通る直線を、対象物ラインＬｘとして特定してよい。

射影変換を行うためのズレ角ｄＡＧの大きさの特定範囲は、第１閾値ｄＴＨ１より大きい種々の範囲であってよい。例えば、Ｓ４７０が省略されてよい。すなわち、特定範囲は、第１閾値ｄＴＨ１より大きい全範囲であってよい。この場合、ズレ角ｄＡＧの大きさが過度に大きくならないように、支持装置７００（図２）は、上板７１０の回転可能範囲を予め決められた範囲に制限する制限装置を備えることが好ましい。制限装置は、例えば、上板７１０に接触して上板７１０の回転を止めるストッパを含んでよい。

（３）Ｓ４９０（図９）で実行される画像変換は、上記の式１、式２で表される射影変換に代えて、第２撮影画像上の第２外面９０２の形状を、ズレ角ｄＡＧの大きさが第１閾値ｄＴＨ１以下である場合の第２外面９０２の形状に近づける種々の幾何変換であってよい。例えば、台形を矩形に変換する台形変換が行われてよい。

（４）射影変換などの幾何変換の複数のパラメータを決定する方法は、Ｓ４８０（図９）、Ｓ４８０ａ（図１０）で説明した方法に代えて、他の種々の方法であってよい。例えば、図９の実施例において、目印Ｐ１－Ｐ４（図４（Ａ））は、省略されてよい。プロセッサ２１０は、第２撮影画像データを解析することによって、第２外面９０２のうちの特徴的な部分（例えば、第２外面９０２の輪郭を示す四角形の４個の角や４本の辺）を検出し、検出された部分を用いて複数のパラメータを決定してよい。特徴的な部分の検出方法は、任意の方法であってよい。例えば、プロセッサ２１０は、パターンマッチングによって特徴的な部分を検出してよい。また、プロセッサ２１０は、エッジ検出フィルタ（例えば、ソーベルフィルタ）を用いて第２撮影画像中の複数のエッジ画素を検出し、複数のエッジ画素を用いて特徴的な部分を特定してよい。プロセッサ２１０は、例えば、複数のエッジ画素を用いるハフ変換によって、第２外面９０２の輪郭を示す４本の辺を検出できる。

（５）上記実施例では、角度ｄＡＧ（図３（Ａ））の基準となる基準回転位置は、第２外面９０２が第２カメラ１２０の第２撮影方向１２０ｘにおおよそ垂直であるような回転位置である。基準回転位置は、このような回転位置に代えて、他の任意の回転位置であってよい。例えば、基準回転位置では、第２外面９０２が、第２撮影方向１２０ｘに対して傾斜してよい。この場合も、データセットＤＳの生成処理（図６）と、認識データの取得処理（図９）と、のそれぞれにおいて、第２外面９０２の撮影に用いられるカメラの撮影方向と同じ位置関係にある基準回転位置に基づいて角度ｄＡＧが特定される。そして、図７の処理では、プロセッサ２１０は、変形した第２ラベルシート９２０を示す画像データを用いてシート検出モデルＮＮをトレーニングする。図９のＳ５００では、プロセッサ２１０は、同様に変形した第２ラベルシート９２０を示す第２撮影画像データをシート検出モデルＮＮに入力することによって、第２出力データを取得する。従って、プロセッサ２１０は、適切な第２出力データを取得できる。

データセットＤＳの生成のための第２外面９０２の撮影は、検査のための撮影の環境（図２）とは異なる環境で行われてよい。例えば、データセットＤＳの生成のための撮影時には、プリンタ９００に対するカメラの位置と向きとを変更することによって、角度ｄＡＧ（すなわち、トレーニングズレ量）が調整されてよい。トレーニングズレ量の基準となるトレーニング基準回転位置としては、第２外面９０２を撮影するカメラの撮影方向と所定の位置関係にある回転位置が用いられる。所定の位置関係は、認識データの取得処理（図９）における、第２カメラ１２０の第２撮影方向１２０ｘと基準回転位置との位置関係と同じである。

なお、基準回転位置に対する回転位置のズレ量は、角度ｄＡＧに代えて、角度ｄＡＧと相関を有する他のパラメータによって表されてよい。

（６）データセットＤＳの生成処理（図６）では、複数のトレーニング角度に代えて、１個のトレーニング角度が用いられてよい。すなわち、データセットＤＳに含まれる複数の学習画像データＤ１１は、いずれも、１個のトレーニング角度の撮影画像を示してよい。この場合も、トレーニング角度の大きさは、第１閾値ｄＴＨ１以下に設定される（例えば、ｄＡＧ＝ゼロ）。シート検出モデルＮＮなどの機械学習モデルが１個のトレーニング角度に基づいてトレーニングされる場合であっても、機械学習モデルは、他の角度ｄＡＧに対応する撮影画像を用いて、適切な出力データを出力し得る。第１閾値ｄＴＨ１は、ズレ角ｄＡＧの大きさが第１閾値ｄＴＨ１以下である場合に、シート検出モデルＮＮが適切な出力データを出力するように、予め実験的に決定される。

（７）第１カメラ１１０によって撮影される外面は、プリンタ９００の上面に代えて、他の任意の外面であってよい。また、第２カメラ１２０によって撮影される外面は、プリンタ９００の正面に代えて、他の任意の外面であってよい。一般的には、第２カメラ１２０は、プリンタ９００の複数の外面のうち、ラベルシートの検出のような画像認識の対象の外面である対象外面を撮影することが好ましい。そして、対象外面がプリンタ９００の第２方向側の外面である場合に、第１カメラ１１０は、第２方向に垂直な第１方向側の外面を撮影することが好ましい。この構成によれば、プロセッサ２１０は、第１カメラ１１０による撮影画像を分析することによって、第２カメラ１２０の第２撮影方向１２０ｘに対する対象外面の向きの基準からのズレ量、すなわち、プリンタ９００の回転位置のズレ量（例えば、ズレ角ｄＡＧ（図３（Ａ））を、特定できる。

（８）認識データの取得処理の対象物は、プリンタに限らず、スキャナ、複合機、デジタルカメラ、カッティングマシン、携帯端末、などの任意の製品であってよい。また、製品を収容するケースが対象物であってよい。

（９）シート検出モデルＮＮの構成は、図５（Ａ）で説明した構成に代えて、ラベルシートなどの対象物を検出する任意の構成であってよい。例えば、シート検出モデルＮＮは、「ＹＯＬＯｖ３」などの改良されたＹＯＬＯモデルであってよい。「ＹＯＬＯｖ３」は、プーリング層に代えて、１より大きいストライド（例えば、２）を用いる畳込層によって、データの次元数を削減する。また、「ＹＯＬＯｖ３」は、特徴ピラミッドネットワークと同様のネットワークを用いて、３つの異なるスケールでバウンディングボックスを予測する。また、SSD(Single Shot Detector)、R-CNN (Regions with Convolutional Neural Network)、Fast R-CNN, Faster R-CNN、Mask R-CNNなどの、他のモデルが用いられてよい。

オブジェクト検出モデルによって検出されるべき対象物は、ラベルシートの画像に限らず、撮影画像の対象物に付属する任意の付属物（例えば、プリンタに装着される部品、バーコードなど）であってよい。

（１０）機械学習モデルは、オブジェクト検出モデルに限らず、種々の画像認識処理を行うモデルであってよい。例えば、機械学習モデルは、撮影画像を、適切な対象物のクラスと、不適切な対象物のクラスと、に分類する分類モデルであってよい。対象物の適切さは、例えば、対象物が適切な付属物（ラベルシートなど）を有することであってよく、また、対象物に傷が無いことであってよい。分類モデルとしては、例えば、複数の全結合層によって構成されたモデル、ＣＮＮ、ランダムフォレスト、サポートベクターマシンなどの、種々のモデルを採用可能である。このように、画像認識を行う機械学習モデルは、オブジェクト検出モデル、分類モデルなど、種々の画像認識処理を行うモデルであってよい。

いずれの場合も、機械学習モデルは、第１閾値ｄＴＨ１以下のズレ量に対応する画像データを用いて、トレーニングされることが好ましい。トレーニング方法は、モデルに適した任意の方法であってよい。例えば、図７のＳ２４０、Ｓ２６０で用いられる損失関数は、２乗和誤差、交差エントロピー誤差など、機械学習モデルから出力されるデータと教師データとの間の差の評価値を算出する種々の関数であってよい。機械学習モデルに含まれる演算パラメータを調整する方法は、誤差逆伝播法に代えて、目標値を伝播させる方法（Target Propagationとも呼ばれる）など、他の種々の方法であってよい。トレーニング完了の条件は、機械学習モデルから出力されるデータと、教師データと、の間の差が小さいことを示す種々の条件であってよい。

（１１）検査処理（図８）における合格の条件は、機械学習モデルを用いて得られる認識データに基づく種々の条件であってよい。例えば、合格の条件は、対象物の傷が検出されないことであってよい。

（１２）支持装置７００の構成は、図２の構成に代えて、他の種々の構成であってよい。例えば、支持面７１１は、平らでなく対象物（例えば、プリンタ９００）の一部を嵌め込むための凹部を有してよい。この場合も、支持面７１１、ひいては、凹部に嵌め込まれた対象物は、回転装置７２５によって回転できる。また、回転装置７２５（すなわち、ベアリング７２１と下板７２０）が省略されてよい。例えば、支持装置は、平らな支持面７１１を有する板であってよい。この場合、支持面７１１が平らであるので、作業者は、支持面７１１上で対象物を容易に回転させることができる。このように、支持装置は、対象物の複数の外面のうち第１外面とは反対側の反対外面を支持する平らな支持面と、対象物の第１外面が第１カメラの方向を向いた状態で対象物の回転を許容する回転装置と、のいずれか一方、または、両方を備えることが好ましい。ただし、支持装置は、これら２つの要素の両方を備えなくてもよい。例えば、支持装置は、凹部を有する板であってよい。作業者は、板と、凹部に嵌め込まれた対象物と、の全体を回転させてよい。

（１３）データセットの生成処理（例えば、図６）と、機械学習モデルのトレーニング処理（例えば、図７）と、検査処理（例えば、図８）と、認識データの取得処理（例えば、図８、図９）とは、それぞれ、互いに異なるデータ処理装置によって実行されてよい。これらの処理から任意に選択された処理が、ネットワークを介して互いに通信可能な複数の装置（例えば、コンピュータなどのデータ処理装置）によって分担されてよい。例えば、認識データの取得処理は、複数のデータ処理装置を含むデータ処理システムによって、実行されてよい。

上記各実施例において、ハードウェアによって実現されていた構成の一部をソフトウェアに置き換えるようにしてもよく、逆に、ソフトウェアによって実現されていた構成の一部あるいは全部をハードウェアに置き換えるようにしてもよい。例えば、図１のシート検出モデルＮＮの機能を、専用のハードウェア回路によって実現してもよい。

また、本発明の機能の一部または全部がコンピュータプログラムで実現される場合には、そのプログラムは、コンピュータ読み取り可能な記録媒体（例えば、一時的ではない記録媒体）に格納された形で提供することができる。プログラムは、提供時と同一または異なる記録媒体（コンピュータ読み取り可能な記録媒体）に格納された状態で、使用され得る。「コンピュータ読み取り可能な記録媒体」は、メモリーカードやＣＤ－ＲＯＭのような携帯型の記録媒体に限らず、各種ＲＯＭ等のコンピュータ内の内部記憶装置や、ハードディスクドライブ等のコンピュータに接続されている外部記憶装置も含み得る。

以上、実施例、変形例に基づき本発明について説明してきたが、上記した発明の実施の形態は、本発明の理解を容易にするためのものであり、本発明を限定するものではない。本発明は、その趣旨を逸脱することなく、変更、改良され得ると共に、本発明にはその等価物が含まれる。

１１０…第１デジタルカメラ（第１カメラ）、１１０ｘ…第１撮影方向、１２０…第２デジタルカメラ（第２カメラ）、１２０ｘ…第２撮影方向、１２０ｘＬ…撮影直線、２００…データ処理装置、２１０…プロセッサ、２１５…記憶装置、２２０…揮発性記憶装置、２３０…不揮発性記憶装置、２３１…第１プログラム、２３２…第２プログラム、２３３…第３プログラム、２３４…第４プログラム、２４０…表示部、２５０…操作部、２７０…通信インタフェース、７００…支持装置、７００ｘ…回転軸、７１０…上板、７１１…上面（支持面）、７２０…下板、７２１…ベアリング、７２５…回転装置、８００…入力画像、８１０ａ…第１撮影画像、８２０ａ、８２０ｂ…第２撮影画像、８２０ｂｘ…画像、８３０…出力データ、９００…プリンタ、９０１…第１外面、９０２…第２外面、９０３…第３外面、９０９…底面、９１０…第１ラベルシート、９２０…第２ラベルシート、Ｄ１…第１方向、Ｄ２…第２方向、ＤＳ…データセット、ＬＤ…ラベル付データ、Ｄ１１…学習画像データ、Ｄ１２…ラベルデータ、Ｄ１２１…領域情報、Ｄ１２２…シートクラス、ＮＮ…シート検出モデル、Ｌｘ…対象物直線、Ｄｘ…第１方向、Ｄｙ…第２方向、ｄＡＧ…角度（ズレ角）

Claims

データを処理する処理装置であって、
第１方向側の第１外面と、前記第１方向に垂直な第２方向側の第２外面と、を含む複数の外面を有する注目対象物の撮影画像を示す撮影画像データを取得する撮影画像データ取得部であって、前記第１外面に対向する第１カメラによって撮影された前記第１外面の第１撮影画像を示す第１撮影画像データと、前記第２外面に対向する第２カメラによって撮影された前記第２外面の第２撮影画像を示す第２撮影画像データと、を取得する前記撮影画像データ取得部と、
前記第１外面が前記第１カメラの方向を向いた状態で前記注目対象物が回転する場合の前記注目対象物の回転方向の回転位置のズレ量を特定するズレ量特定部であって、前記第２カメラの撮影方向と所定の位置関係にある注目基準回転位置に対するズレ量である注目ズレ量を、前記第１撮影画像データを分析することによって特定する前記ズレ量特定部と、
対象物の第２外面の撮影画像を示す撮影画像データと画像認識の結果を示す認識データとの関係を示すようにトレーニングされた機械学習モデルと、前記第２撮影画像データと、を用いて、前記注目対象物の前記第２外面に関する前記画像認識の結果を示す注目認識データを取得する認識データ取得部と、
を備え、
前記機械学習モデルは、トレーニング用の対象物の第２外面の複数の撮影画像を示す複数のトレーニング用撮影画像データを用いてトレーニングされており、
前記トレーニング用の前記対象物の前記第２外面の撮影は、前記トレーニング用の前記対象物の前記第２外面の撮影に用いられるカメラの撮影方向と前記所定の位置関係にあるトレーニング基準回転位置に対する前記トレーニング用の前記対象物の前記回転方向の回転位置のズレ量であるトレーニングズレ量の大きさが予め決められた第１閾値以下である状態で行われており、
前記認識データ取得部は、
前記注目ズレ量の大きさが前記第１閾値以下である場合には、前記第２撮影画像データを前記トレーニングされた機械学習モデルに入力することによって、前記注目認識データを取得し、
前記注目ズレ量の大きさが前記第１閾値より大きい特定範囲内である場合には、
前記第２撮影画像上の前記第２外面の形状を、前記注目ズレ量の大きさが前記第１閾値以下である場合の前記第２外面の形状に近づける幾何変換を前記第２撮影画像データに対して実行することによって、変換済撮影画像データを生成し、
前記変換済撮影画像データを前記トレーニングされた機械学習モデルに入力することによって、前記注目認識データを取得する、
処理装置。
請求項１に記載の処理装置であって、
前記複数のトレーニング用撮影画像データは、前記第１閾値以下の大きさの範囲内に分布する複数のトレーニングズレ量に対応する複数のトレーニング用撮影画像データを含む、
処理装置。
請求項１または２に記載の処理装置であって、
前記注目ズレ量の大きさの前記特定範囲は、前記第１閾値より大きく、第２閾値以下の範囲であり、
前記認識データ取得部は、前記注目ズレ量の大きさが前記第２閾値よりも大きい場合には、前記注目認識データを取得せずに、前記注目ズレ量の大きさが前記第２閾値よりも大きいことをユーザに通知する、
処理装置。
請求項１から３のいずれかに記載の処理装置であって、
前記認識データ取得部は、
前記第２撮影画像データを分析することによって前記幾何変換のパラメータを決定し、
前記パラメータを用いて前記幾何変換を実行する、
処理装置。
請求項１から３のいずれかに記載の処理装置であって、
前記認識データ取得部は、
前記注目ズレ量を用いて前記幾何変換のパラメータを決定し、
前記パラメータを用いて前記幾何変換を実行する、
処理装置。
請求項１から５のいずれかに記載の処理装置であって、
前記第１カメラと前記第２カメラとによる前記注目対象物の撮影時には、前記注目対象物が支持装置によって支持されており、
前記支持装置は、前記注目対象物の複数の外面のうち前記第１外面とは反対側の反対外面を支持する平らな支持面と、前記注目対象物の前記第１外面が前記第１カメラの方向を向いた状態で前記注目対象物の回転を許容する回転装置と、のいずれか一方、または、両方を備え、
前記支持装置に対する前記第１カメラの位置と向きと、前記支持装置に対する前記第２カメラの位置と向きとは、予め決められている、
処理装置。
データを処理するコンピュータのためのコンピュータプログラムであって、
第１方向側の第１外面と、前記第１方向に垂直な第２方向側の第２外面と、を含む複数の外面を有する注目対象物の撮影画像を示す撮影画像データを取得する撮影画像データ取得機能であって、前記第１外面に対向する第１カメラによって撮影された前記第１外面の第１撮影画像を示す第１撮影画像データと、前記第２外面に対向する第２カメラによって撮影された前記第２外面の第２撮影画像を示す第２撮影画像データと、を取得する前記撮影画像データ取得機能と、
前記第１外面が前記第１カメラの方向を向いた状態で前記注目対象物が回転する場合の前記注目対象物の回転方向の回転位置のズレ量を特定するズレ量特定機能であって、前記第２カメラの撮影方向と所定の位置関係にある注目基準回転位置に対するズレ量である注目ズレ量を、前記第１撮影画像データを分析することによって特定する前記ズレ量特定機能と、
対象物の第２外面の撮影画像を示す撮影画像データと画像認識の結果を示す認識データとの関係を示すようにトレーニングされた機械学習モデルと、前記第２撮影画像データと、を用いて、前記注目対象物の前記第２外面に関する前記画像認識の結果を示す注目認識データを取得する認識データ取得機能と、
をコンピュータに実現させ、
前記機械学習モデルは、トレーニング用の対象物の第２外面の複数の撮影画像を示す複数のトレーニング用撮影画像データを用いてトレーニングされており、
前記トレーニング用の前記対象物の前記第２外面の撮影は、前記トレーニング用の前記対象物の前記第２外面の撮影に用いられるカメラの撮影方向と前記所定の位置関係にあるトレーニング基準回転位置に対する前記トレーニング用の前記対象物の前記回転方向の回転位置のズレ量であるトレーニングズレ量の大きさが予め決められた第１閾値以下である状態で行われており、
前記認識データ取得機能は、
前記注目ズレ量の大きさが前記第１閾値以下である場合には、前記第２撮影画像データを前記トレーニングされた機械学習モデルに入力することによって、前記注目認識データを取得し、
前記注目ズレ量の大きさが前記第１閾値より大きい特定範囲内である場合には、
前記第２撮影画像上の前記第２外面の形状を、前記注目ズレ量の大きさが前記第１閾値以下である場合の前記第２外面の形状に近づける幾何変換を前記第２撮影画像データに対して実行することによって、変換済撮影画像データを生成し、
前記変換済撮影画像データを前記トレーニングされた機械学習モデルに入力することによって、前記注目認識データを取得する、
コンピュータプログラム。
データを処理する処理方法であって、
第１方向側の第１外面と、前記第１方向に垂直な第２方向側の第２外面と、を含む複数の外面を有する注目対象物の撮影画像を示す撮影画像データを取得する撮影画像データ取得工程であって、前記第１外面に対向する第１カメラによって撮影された前記第１外面の第１撮影画像を示す第１撮影画像データと、前記第２外面に対向する第２カメラによって撮影された前記第２外面の第２撮影画像を示す第２撮影画像データと、を取得する前記撮影画像データ取得工程と、
前記第１外面が前記第１カメラの方向を向いた状態で前記注目対象物が回転する場合の前記注目対象物の回転方向の回転位置のズレ量を特定するズレ量特定工程であって、前記第２カメラの撮影方向と所定の位置関係にある注目基準回転位置に対するズレ量である注目ズレ量を、前記第１撮影画像データを分析することによって特定する前記ズレ量特定工程と、
対象物の第２外面の撮影画像を示す撮影画像データと画像認識の結果を示す認識データとの関係を示すようにトレーニングされた機械学習モデルと、前記第２撮影画像データと、を用いて、前記注目対象物の前記第２外面に関する前記画像認識の結果を示す注目認識データを取得する認識データ取得工程と、
を備え、
前記機械学習モデルは、トレーニング用の対象物の第２外面の複数の撮影画像を示す複数のトレーニング用撮影画像データを用いてトレーニングされており、
前記トレーニング用の前記対象物の前記第２外面の撮影は、前記トレーニング用の前記対象物の前記第２外面の撮影に用いられるカメラの撮影方向と前記所定の位置関係にあるトレーニング基準回転位置に対する前記トレーニング用の前記対象物の前記回転方向の回転位置のズレ量であるトレーニングズレ量の大きさが予め決められた第１閾値以下である状態で行われており、
前記認識データ取得工程は、
前記注目ズレ量の大きさが前記第１閾値以下である場合には、前記第２撮影画像データを前記トレーニングされた機械学習モデルに入力することによって、前記注目認識データを取得し、
前記注目ズレ量の大きさが前記第１閾値より大きい特定範囲内である場合には、
前記第２撮影画像上の前記第２外面の形状を、前記注目ズレ量の大きさが前記第１閾値以下である場合の前記第２外面の形状に近づける幾何変換を前記第２撮影画像データに対して実行することによって、変換済撮影画像データを生成し、
前記変換済撮影画像データを前記トレーニングされた機械学習モデルに入力することによって、前記注目認識データを取得する、
処理方法。