JP2023169482A

JP2023169482A - コンピュータプログラム、および、データ処理装置

Info

Publication number: JP2023169482A
Application number: JP2022080604A
Authority: JP
Inventors: 真樹近藤; Maki Kondo
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2023-11-30
Also published as: WO2023223883A1

Abstract

【課題】オブジェクトの少なくとも一部を表す領域を検出する。【解決手段】第１オブジェクトの撮影画像の第１画像データであって第１オブジェクトを第１画素数で表す第１画像データを使用して、撮影画像から第１オブジェクトを表す第１種領域を検出する。撮影画像のうちの第１種領域を含む部分画像であって撮影画像から第１種領域を除いた残りの領域の少なくとも一部を含まない部分画像を表す第２画像データを使用して、部分画像から第１オブジェクトの少なくとも一部を表す第２種領域を検出する。第２画像データは第１オブジェクトを第１画素数よりも多い第２画素数で表す。第２種領域の検出結果を使用して第１オブジェクトを検査する。【選択図】図７

Description

本明細書は、画像中のオブジェクトを検出する技術に関する。

製品の外観検査やロボットによるオブジェクトの認識などの種々の用途のために、画像からオブジェクトを検出する技術が使用されている。オブジェクトを検出する技術としては、例えば、以下の論文は、ＹＯＬＯｖ４と呼ばれる機械学習モデルを提案している。ＹＯＬＯｖ４は、オブジェクトを囲む枠（バウンディングボックスと呼ばれる）と、オブジェクトの種類（クラスとも呼ばれる）と、を予測する。

Alexey Bochkovskiy, Chien-Yao Wang, Hong-Yuan Mark Liao, "YOLOv4: Optimal Speed and Accuracy of Object Detection", arXiv:2004.10934 (2020), https://arxiv.org/abs/2004.10934

オブジェクトの検出は容易ではなく、オブジェクトを表す領域として不適切な領域が決定される場合がある。例えば、注目するオブジェクトとは異なるオブジェクトが誤って検出される場合がある。このように、オブジェクトを表す領域の検出には、工夫の余地があった。

本明細書は、オブジェクトの少なくとも一部を表す領域を検出する技術を開示する。

本明細書に開示された技術は、以下の適用例として実現することが可能である。

［適用例１］コンピュータプログラムであって、第１オブジェクトの撮影画像の第１画像データであって前記第１オブジェクトを第１画素数で表す前記第１画像データを使用して、前記撮影画像から前記第１オブジェクトを表す第１種領域を検出する第１検出機能と、前記撮影画像のうちの前記第１種領域を含む部分画像であって前記撮影画像から前記第１種領域を除いた残りの領域の少なくとも一部を含まない前記部分画像を表す前記第２画像データを使用して、前記部分画像から前記第１オブジェクトの少なくとも一部を表す第２種領域を検出する第２検出機能であって、前記第２画像データは前記第１オブジェクトを前記第１画素数よりも多い第２画素数で表す、前記第２検出機能と、前記第２種領域の検出結果を使用して前記第１オブジェクトを検査する検査機能と、をコンピュータに実現させる、コンピュータプログラム。

この構成によれば、検査に使用される第２種領域が、第１種領域の検出のための第１画素数よりも多い第２画素数で第１オブジェクトを表す第２画像データを使用して検出されるので、第１オブジェクトの検査に、第１オブジェクトの少なくとも一部を表す第２種領域の適切な検出結果を使用できる。

なお、本明細書に開示の技術は、種々の態様で実現することが可能であり、例えば、データ処理方法およびデータ処理装置、それらの方法または装置の機能を実現するためのコンピュータプログラム、そのコンピュータプログラムを記録した記録媒体（例えば、一時的ではない記録媒体）、等の形態で実現することができる。

一実施例としてのデータ処理装置を示す説明図である。（Ａ）－（Ｃ）は、ラベルの例を示す概略図である。（Ａ）、（Ｂ）は、物体検出モデルＭ１、Ｍ２によって検出される領域の例を示す説明図である。学習処理の例を示すフローチャートである。（Ａ）－（Ｄ）は、第１種物体検出モデルＭ１の学習処理で使用される画像の例を示す概略図である。（Ａ）－（Ｃ）は、第１種物体検出モデルＭ１のための合成画像の例を示す概略図である。（Ｄ）－（Ｆ）は、第２種物体検出モデルＭ２のための合成画像の例を示す概略図である。検査処理の例を示すフローチャートである。（Ａ）－（Ｅ）は、検査処理で使用される画像の例を示す概略図である。学習処理の第２実施例を示すフローチャートである。（Ａ）は、要素領域の例を示す概略図である。（Ｂ）は、相対位置情報の例を示す概略図である。（Ａ）－（Ｄ）は、画像処理の例を示す概略図である。（Ａ）－（Ｃ）は、合成画像の例を示す概略図である。検査処理の第２実施例を示すフローチャートである。（Ａ）、（Ｂ）は、要素の検出の概略図である。（Ａ）－（Ｃ）は、学習処理で使用される合成画像の例を示す概略図である。（Ａ）は、学習処理の別の実施例のフローチャートの一部である。（Ｂ）は、モデルデータの概略図である。

Ａ．第１実施例：
Ａ１．装置構成：
図１は、一実施例としてのデータ処理装置を示す説明図である。本実施例では、データ処理装置２００は、例えば、パーソナルコンピュータである。データ処理装置２００は、製品（例えば、複合機など）に設けられるオブジェクト（例えば、ラベル）の外観の検査のためのデータ処理を行うデータ処理装置の例である。本実施例では、複合機９００に、第１ラベルＬＢ１が貼付されている。本実施例では、第１ラベルＬＢ１の外観が検査される。

データ処理装置２００は、プロセッサ２１０と、記憶装置２１５と、表示部２４０と、操作部２５０と、通信インタフェース２７０と、を備えている。これらの要素は、バスを介して互いに接続されている。記憶装置２１５は、揮発性記憶装置２２０と、不揮発性記憶装置２３０と、を含んでいる。

プロセッサ２１０は、データ処理を行うように構成された装置であり、例えば、ＣＰＵである。揮発性記憶装置２２０は、例えば、ＤＲＡＭであり、不揮発性記憶装置２３０は、例えば、フラッシュメモリである。不揮発性記憶装置２３０は、プログラム２３１、２３２、２３３と、物体検出モデルＭ１、Ｍ２と、を格納している。本実施例では、モデルＭ１、Ｍ２は、それぞれ、プログラムモジュールである。モデルＭ１、Ｍ２は、それぞれ、いわゆる機械学習モデルである。プログラム２３１、２３２、２３３とモデルＭ１、Ｍ２との詳細については、後述する。

表示部２４０は、液晶ディスプレイ、有機ＥＬディスプレイなどの、画像を表示するように構成された装置である。操作部２５０は、ボタン、レバー、表示部２４０上に重ねて配置されたタッチパネルなどの、ユーザによる操作を受け取るように構成された装置である。ユーザは、操作部２５０を操作することによって、種々の指示をデータ処理装置２００に入力可能である。通信インタフェース２７０は、他の装置と通信するためのインタフェースである。通信インタフェース２７０は、例えば、ＵＳＢインタフェース、有線ＬＡＮインタフェース、IEEE802.11の無線インタフェースのうちの１種以上を含む。通信インタフェース２７０には、デジタルカメラ１１０が接続される。デジタルカメラ１１０は、複合機９００の第１ラベルＬＢ１を含む部分を撮影する。

Ａ２．ラベル：
図２（Ａ）－図２（Ｃ）は、ラベルの例を示す概略図である。図２（Ａ）は、複合機９００の斜視図を示している。複合機９００のボディの外面に、第１ラベルＬＢ１が貼付されている。

図２（Ｂ）は、第１ラベルＬＢ１の例を示している。本実施例では、第１ラベルＬＢ１の形状は、略矩形状である。第１ラベルＬＢ１は、７個の要素ＥＬ１－ＥＬ７を含んでいる。要素ＥＬ１、ＥＬ２、ＥＬ３、ＥＬ７は、それぞれ、複合機９００に関連する情報を示す文字列である（例えば、ブランド名、モデル名、入力定格、製造者名、製造国、など）。要素ＥＬ４、ＥＬ５、ＥＬ６は、それぞれ、複合機９００に関連するマークである（例えば、ロゴマーク、ＣＥマーク、ＷＥＥＥマーク、ＧＳマーク、ＦＣＣマークなど）。

図２（Ｃ）は、第２ラベルＬＢ２の例を示している。第２ラベルＬＢ２は、複合機９００とは異なる他の製品に貼付されるラベルである。第１ラベルＬＢ１との差異は、２つある。第１の差異は、第２要素ＥＬ２と第６要素ＥＬ６が省略され、代わりに、マークを示す第８要素ＥＬ８と、文字列を示す第９要素ＥＬ９と、が追加されている点である。第２の差異は、要素ＥＬ４、ＥＬ５の配置が、第１ラベルＬＢ１と第２ラベルＬＢ２との間で異なる点である。第１ラベルＬＢ１と第２ラベルＬＢ２とは、共通の要素ＥＬ１、ＥＬ３－ＥＬ５、ＥＬ７を含んでいる。第２ラベルＬＢ２は、第１ラベルＬＢ１に類似している。従って、第１ラベルＬＢ１の代わりに第２ラベルＬＢ２が、誤って、複合機９００に貼付され得る。

Ａ３．物体検出モデルによって検出される領域：
図３（Ａ）、図３（Ｂ）は、物体検出モデルＭ１、Ｍ２（図１）によって検出される領域の例を示す説明図である。第１種物体検出モデルＭ１と第２種物体検出モデルＭ２とは、それぞれ、種々の物体検出モデルであってよい。本実施例では、第１種物体検出モデルＭ１と第２種物体検出モデルＭ２とは、それぞれ、ＹＯＬＯｖ４と呼ばれる機械学習モデルである。ＹＯＬＯｖ４モデルは、バウンディングボックスと呼ばれるオブジェクトの少なくとも一部を含む矩形の枠と、バウンディングボックスがオブジェクトを含むことの信頼度（物体スコアとも呼ばれる）と、バウンディングボックスがオブジェクトを含む場合のオブジェクトの種類（クラスとも呼ばれる）のそれぞれの確率（クラス確率とも呼ぶ）と、を予測する。物体検出の最終的な予測結果の決定方法は、種々の方法であってよい。例えば、信頼度（物体スコア）とクラス確率とから、クラス毎、バウンディングボックス毎の信頼度スコアが算出される。信頼度スコアは、例えば、物体スコアとクラス確率との積で表されてよい。閾値以上の信頼度スコアを有するバウンディングボックスとクラスとの組み合わせは、最終的な予測結果として使用される。閾値は、例えば、適切な検出結果が得られるように、予め実験的に決定されてよい。

図３（Ａ）には、第１種物体検出モデルＭ１に入力される画像の例である第１撮影画像ＩＭａが示されている。第１撮影画像ＩＭａは、第１方向Ｄｘ（ここでは、横方向）に平行な２辺と、第１方向Ｄｘに垂直な第２方向Ｄｙ（ここでは、縦方向）に平行な２辺と、を有する矩形状の画像である。第１撮影画像ＩＭａは、第１方向Ｄｘと第２方向Ｄｙとに沿ってマトリクス状に並ぶ複数の画素のそれぞれの色値によって、表されている。本実施例では、色値は、Ｒ（赤）、Ｇ（緑）、Ｂ（青）の３個の成分値で表されている。各成分値は、例えば、０から２５５までの２５６段階で表されている。第１横サイズＮｘ１は、第１方向Ｄｘの画素数を示し、第１縦サイズＮｙ１は、第２方向Ｄｙの画素数を示している。

第１撮影画像ＩＭａは、複合機９００の全体を表している。第１撮影画像ＩＭａは、第１ラベルＬＢ１の画像を含んでいる。第１種物体検出モデルＭ１は、このような第１撮影画像ＩＭａから、第１ラベルＬＢ１を示すバウンディングボックスＢＢａを検出するように、学習される（すなわち、訓練される）。図中の第１画素数ＰＮａは、第１ラベルＬＢ１を示す複数の画素の総数である。第１ラベルＬＢ１を表す複数の画素の画素密度は、第１画素数ＰＮａが多いほど、高い。

図３（Ｂ）には、第２種物体検出モデルＭ２に入力される画像の例である第２撮影画像ＩＭｂが示されている。第２撮影画像ＩＭｂは、第１撮影画像ＩＭａと同様に、第１方向Ｄｘに平行な２辺と第２方向Ｄｙに平行な２辺とを有する矩形状の画像である。第２撮影画像ＩＭｂは、第１方向Ｄｘと第２方向Ｄｙとに沿ってマトリクス状に並ぶ複数の画素のそれぞれの色値（ここでは、Ｒ、Ｇ、Ｂの３個の成分値）によって、表されている。第２横サイズＮｘ２は、第１方向Ｄｘの画素数を示し、第２縦サイズＮｙ２は、第２方向Ｄｙの画素数を示している。

第２撮影画像ＩＭｂは、第１撮影画像ＩＭａのうち、バウンディングボックスＢＢａに囲まれる部分を含む一部分を表している。第２撮影画像ＩＭｂは、第１ラベルＬＢ１の画像を含んでいる。第２種物体検出モデルＭ２は、このような第２撮影画像ＩＭｂから、第１ラベルＬＢ１を示すバウンディングボックスＢＢｂを検出するように、学習される。図中の第２画素数ＰＮｂは、第１ラベルＬＢ１を示す複数の画素の総数である。第１ラベルＬＢ１を表す複数の画素の画素密度は、第２画素数ＰＮｂが多いほど、高い。

画素数Ｎｘ１、Ｎｙ１、Ｎｘ２、Ｎｙ２（すなわち、物体検出モデルＭ１、Ｍ２に入力される画像のサイズ）は、予め決められている。本実施例では、第２撮影画像ＩＭｂの第２画素数ＰＮｂが、第１撮影画像ＩＭａの第１画素数ＰＮａよりも多くなるように、画素数Ｎｘ１、Ｎｙ１、Ｎｘ２、Ｎｙ２が決定される。すなわち、第２種物体検出モデルＭ２に入力される画像の第１ラベルＬＢ１を示す画素の数が、第１種物体検出モデルＭ１に入力される画像の第１ラベルＬＢ１を示す画素の数よりも多くなるように、サイズＮｘ１、Ｎｙ１、Ｎｘ２、Ｎｙ２が決定される。例えば、第２横サイズＮｘ２は、第１横サイズＮｘ１より大きくてよい。また、第２縦サイズＮｙ２は、第１縦サイズＮｙ１より大きくてよい。

なお、本実施例では、第２種物体検出モデルＭ２に入力される画像（例えば、第２撮影画像ＩＭｂ）では、第１種物体検出モデルＭ１に入力される画像（例えば、第１撮影画像ＩＭａ）と比べて、第１ラベルＬＢ１が大きい。すなわち、第２種物体検出モデルＭ２に入力される画像のうちの第１ラベルＬＢ１を示す部分の割合は、第１種物体検出モデルＭ１に入力される画像のうちの第１ラベルＬＢ１を示す部分の割合よりも、大きい。従って、第２横サイズＮｘ２は、第１横サイズＮｘ１と同じ、または、第１横サイズＮｘ１未満であってよい。また、第２縦サイズＮｙ２は、第１縦サイズＮｙ１と同じ、または、第１縦サイズＮｙ１未満であってよい。

Ａ４．学習処理：
図４は、学習処理の例を示すフローチャートである。本実施例では、第１種物体検出モデルＭ１と第２種物体検出モデルＭ２とは、それぞれ、図４の手順に従って学習される。第１プログラム２３１は、第１種物体検出モデルＭ１の学習処理のためのプログラムであり、第２プログラム２３２は、第２種物体検出モデルＭ２の学習処理のためのプログラムである。作業者は、学習処理の開始指示を、操作部２５０（図１）を操作することによって、データ処理装置２００に入力する。入力される開始指示は、処理対象のモデル（第１種物体検出モデルＭ１、または、第２種物体検出モデルＭ２）を示す情報を含んでいる。プロセッサ２１０は、開始指示に従って、処理対象のモデルの学習処理を開始する。まず、第１種物体検出モデルＭ１の学習処理について説明する。プロセッサ２１０は、第１プログラム２３１を実行することによって、第１種物体検出モデルＭ１を学習する。

Ｓ１１０－Ｓ２１０は、学習画像データの生成処理である。本実施例では、プロセッサ２１０は、版下画像の版下データを使用して、複数の学習画像データを生成する。Ｓ１１０では、プロセッサ２１０は、版下データを取得する。図５（Ａ）－図５（Ｄ）は、第１種物体検出モデルＭ１の学習処理で使用される画像の例を示す概略図である。各図中の画像Ｌ１は、版下画像の例を示している（画像Ｌ１を、版下画像Ｌ１と呼ぶ）。版下画像Ｌ１は、第１ラベルＬＢ１の設計画像である。本実施例では、第１ラベルＬＢ１は、第１ラベルＬＢ１の画像をシートに印刷することによって、製造される。版下画像は、印刷すべき第１ラベルＬＢ１の画像である。ここで、版下画像Ｌ１の形状は、第１方向Ｄｘに平行な２辺と第２方向Ｄｙに平行な２辺とを有する矩形状であることとする。

版下データのデータ形式は、ビットマップ形式、ベクトル形式など、種々の形式であってよい。本実施例では、版下データは、ビットマップ形式のデータであることとする。版下データは、予め、不揮発性記憶装置２３０に格納されていることとする（図示省略）。プロセッサ２１０は、不揮発性記憶装置２３０から、版下データを取得する。

Ｓ１７０（図４）では、プロセッサ２１０は、版下画像のデータ拡張処理を実行する。データ拡張処理は、画像処理によって画像データを増やす処理である。画像処理としては、種々の処理が実行されてよい。図５（Ａ）－図５（Ｄ）は、それぞれ、画像処理の例を示している。

図５（Ａ）の画像処理は、色変更処理である。まず、図５（Ａ）の中央部分に示されるように、プロセッサ２１０は、版下画像Ｌ１のうち要素ＥＬ１－ＥＬ７をそれぞれ示す部分領域Ａ１－Ａ７を決定する。本実施例では、プロセッサ２１０は、版下画像Ｌ１を分析することによって、部分領域Ａ１－Ａ７を決定する。部分領域Ａ１－Ａ７の決定処理は、種々の処理であってよい。プロセッサ２１０は、例えば、予め決められた背景色範囲内の色を有する画素を背景画素として選択し、他の画素を要素画素として選択する。プロセッサ２１０は、複数の要素画素が連続する領域を、部分領域として選択する。図５（Ａ）の例では、互いに離れた部分領域Ａ１－Ａ７が選択される。これに代えて、作業者は、各部分領域Ａ１－Ａ７のそれぞれを指定する情報を、操作部２５０を介して、入力してよい。プロセッサ２１０は、入力された情報を使用して、部分領域Ａ１－Ａ７を決定してよい。

次に、プロセッサ２１０は、部分領域Ａ１－Ａ７のそれぞれの色値を変更することによって、処理済版下画像Ｌ１ａのデータを生成する。プロセッサ２１０は、乱数を使用して、色値を変更する。例えば、プロセッサ２１０は、部分領域Ａ１－Ａ７毎に、赤Ｒの変更量と、緑Ｇの変更量と、青Ｂの変更量と、のそれぞれを、乱数を使用して決定する。変更量は、例えば、－１以上、１以下の乱数に１０を乗じて得られる値であってよい。そして、プロセッサ２１０は、部分領域Ａ１－Ａ７の各画素の赤Ｒと緑Ｇと青Ｂの成分値に、対応する色の変更量を加算することによって、部分領域Ａ１－Ａ７の色値を変更する。処理済版下画像Ｌ１ａは、元の色と異なる色で示される要素ＥＬ１－ＥＬ７を含む第１ラベルの画像である。

図５（Ｂ）の画像処理は、画像のリサイズ処理である。リサイズ処理としては、縮小処理と拡大処理とのいずれかが実行される。縮小処理は、画像の画素数（すなわち、画素密度）を低減する処理である。例えば、プロセッサ２１０は、版下画像Ｌ１のデータの縮小処理によって、縮小された第１ラベルを示す処理済版下画像Ｌ１ｂのデータを生成する。拡大処理は、画像の画素数（すなわち、画素密度）を増大する処理である。例えば、プロセッサ２１０は、版下画像Ｌ１のデータの拡大処理によって、拡大された第１ラベルを示す処理済版下画像Ｌ１ｃのデータを生成する。プロセッサ２１０は、処理前のサイズと処理後のサイズとの比率（例えば、画素密度の比率）を、乱数を使用して決定する。リサイズ処理による各画素の色値の決定方法は、種々の方法であってよい（例えば、ニアレストネイバ、バイリニア、バイキュービックなど）。また、プロセッサ２１０は、画像の縦横比を変更してよい。

図５（Ｃ）の画像処理は、画像の回転処理である。例えば、プロセッサ２１０は、版下画像Ｌ１を反時計回りに回転させることによって、回転された第１ラベルを示す処理済版下画像Ｌ１ｄのデータを生成する。また、プロセッサ２１０は、版下画像Ｌ１を時計回りに回転させることによって、回転された第１ラベルを示す処理済版下画像Ｌ１ｅのデータを生成する。プロセッサ２１０は、乱数を使用して回転角度を決定する。回転処理による各画素の色値の決定方法は、種々の方法であってよい（例えば、ニアレストネイバ、バイリニア、バイキュービックなど）。

図５（Ｄ）の画像処理は、ぼかし処理である。例えば、プロセッサ２１０は、版下画像Ｌ１のぼかし処理を実行することによって、ぼけた第１ラベルを示す処理済版下画像Ｌ１ｆのデータを生成する。ぼかし処理は、平滑化とも呼ばれる。ぼかし処理は、種々の処理であってよい。本実施例では、プロセッサ２１０は、平滑化フィルタ（例えば、中央値フィルタ）を使用するフィルタ処理を実行する。

なお、Ｓ１７０（図４）では、プロセッサ２１０は、図５（Ａ）－図５（Ｄ）で説明した画像処理に限らず、他の種々の画像処理（例えば、ノイズ付加）を実行してよい。また、プロセッサ２１０は、１個の処理済版下画像のデータを生成するために、複数種類の画像処理を実行してよい。例えば、プロセッサ２１０は、回転処理と拡大処理とを実行することによって、処理済版下画像のデータを生成してよい。本実施例では、プロセッサ２１０は、乱数を使用して、Ｓ１７０の画像処理を決定する。

Ｓ１８０では、プロセッサ２１０は、背景画像データを取得する。背景画像は、処理済版下画像（すなわち、第１ラベルＬＢ１の画像）との合成に使用される（詳細は、後述）。背景画像は、種々の画像であってよい。例えば、背景画像は、種々の写真画像であってよい。背景画像は、複合機９００の写真画像であってよい。背景画像は、複合機９００とは異なる他の被写体の写真画像であってよい。また、背景画像は、写真画像に代えて、種々のグラフィックスであってよい。グラフィックスとしては、例えば、コンピュータによって描画される描画画像が採用されてよい。描画画像は、例えば、一様な模様の画像であってよく、無地画像であってよい。描画画像は、ランダムな色で表されるランダムなパターンであってよい。

本実施例では、プロセッサ２１０は、乱数を使用して、背景画像データを取得する。具体的には、互いに異なる背景画像を表す複数の背景画像データが、予め、不揮発性記憶装置２３０に格納されている（図示省略）。プロセッサ２１０は、乱数を使用して、新たな背景画像データを生成するか否かを判断する。新たなデータを生成すると判断される場合、プロセッサ２１０は、背景画像のパターンを乱数を使用して決定し、そのパターンの色を乱数を使用して決定する。新たなデータを生成しないと判断される場合、プロセッサ２１０は、不揮発性記憶装置２３０から、乱数を使用して、背景画像データを取得する。

Ｓ１９０では、プロセッサ２１０は、背景画像と処理済版下画像とを合成することによって、合成画像を生成する。プロセッサ２１０は、背景画像上の処理済版下画像の位置を、乱数を使用して決定する。図６（Ａ）－図６（Ｃ）は、第１種物体検出モデルＭ１のための合成画像の例を示す概略図である。図６（Ａ）の合成画像Ｃ１ａは、複合機９００の写真画像上に第１ラベルＬＢ１の１個の処理済版下画像Ｌ１ｇを重畳して得られる。

図６（Ｂ）の合成画像Ｃ１ｂは、描画画像上に第１ラベルＬＢ１の２個の処理済版下画像Ｌ１ｈ、Ｌ１ｉを重畳して得られる。このように、１枚の合成画像は、２以上の第１ラベルＬＢ１の画像を含んでよい。Ｓ１７０では、プロセッサ２１０は、互いに異なる画像処理を実行することによって、複数の処理済版下画像のデータを生成してよい。なお、プロセッサ２１０は、合成すべき第１ラベルＬＢ１の処理済版下画像の総数（例えば、１以上の整数）を、乱数を使用して決定してよい。

図６（Ｃ）の合成画像Ｃ１ｃは、無地画像上に、第１ラベルＬＢ１の２個の処理済版下画像Ｌ１ｊ、Ｌ１ｋと、第２ラベルＬＢ２の１個の処理済版下画像Ｌ２ａと、を重畳して得られる。このように、合成画像は、第１ラベルＬＢ１とは異なるラベル（例えば、第２ラベルＬＢ２）の画像を含んでよい。例えば、Ｓ１７０では、プロセッサ２１０は、さらに、処理対象の第１ラベルＬＢ１とは異なるラベルである非対象ラベル（例えば、第２ラベルＬＢ２）の版下画像のデータ拡張処理を実行する。そして、Ｓ１９０では、プロセッサ２１０は、第１ラベルＬＢ１の処理済版下画像に加えて、非対象ラベルの処理済版下画像を背景画像に合成する。プロセッサ２１０は、合成すべき非対象ラベルの処理済版下画像の総数（例えば、ゼロ以上の整数）を、乱数を使用して決定してよい。

なお、１枚の合成画像が複数のラベル画像を含む場合、プロセッサ２１０は、複数のラベル画像が互いに重ならないように、複数のラベル画像を合成する。

Ｓ２００（図４）では、プロセッサ２１０は、合成画像のデータ拡張処理を実行する。Ｓ２００では、Ｓ１７０と同様に、プロセッサ２１０は、種々の画像処理を実行する。例えば、図６（Ａ）の処理済合成画像Ｃ１ａｘは、合成画像Ｃ１ａの回転処理によって生成される。図６（Ｂ）の処理済合成画像Ｃ１ｂｘは、合成画像Ｃ１ｂのぼかし処理によって生成される。図６（Ｃ）の処理済合成画像Ｃ１ｃｘは、合成画像Ｃ１ｃの平行移動によって生成される。プロセッサ２１０は、乱数を使用して、Ｓ２００の画像処理を決定する。

Ｓ２０３（図４）では、プロセッサ２１０は、処理済合成画像のデータに関連付けられる注釈データ（アノテーションデータと呼ばれることもある）を生成する。注釈データは、適切なバウンディングボックス（例えば、第１方向Ｄｘに平行な２辺と第２方向Ｄｙに平行な２辺とを有する矩形であって、検出対象（第１ラベルＬＢ１など）の画像に外接する最小の矩形）と適切なクラス（例えば、ラベルの識別番号）とを示している。本実施例では、プロセッサ２１０は、Ｓ１７０、Ｓ１９０、Ｓ２００の各処理の内容に基づいて、注釈データを生成する。なお、本実施例では、第１種物体検出モデルＭ１は、第１ラベルＬＢ１を検出するように学習される。従って、注釈データからは、他のラベルを示す情報は、省略されてよい。例えば、図６（Ｃ）の処理済版下画像Ｌ２ａを示すバウンディングボックスとクラスを示す情報は、省略されてよい。

Ｓ２０６では、プロセッサ２１０は、処理済合成画像のデータである学習画像データと、注釈データと、のセットを、不揮発性記憶装置２３０に格納する。以下、第１種物体検出モデルＭ１のための学習画像を、第１種学習画像とも呼ぶ。

Ｓ２１０（図４）では、プロセッサ２１０は、終了条件が満たされるか否かを判断する。終了条件は、適切な学習のための複数の学習画像データが生成されることを示す種々の条件であってよい。例えば、終了条件は、学習画像データの総数が予め決められた閾値以上であること、であってよい。終了条件が満たされない場合（Ｓ２１０：Ｎｏ）、プロセッサ２１０は、Ｓ１７０へ移行して、新たな学習画像データを生成する。

終了条件が満たされる場合（Ｓ２１０：Ｙｅｓ）、Ｓ２４０で、プロセッサ２１０は、学習画像データを使用して、第１ラベルＬＢ１を検出するように第１種物体検出モデルＭ１を学習する。第１種物体検出モデルＭ１の学習方法は、第１種物体検出モデルＭ１に適する任意の方法であってよい。

例えば、プロセッサ２１０は、学習画像データを使用して第１種物体検出モデルＭ１の演算を実行することによって、出力データを生成する。そして、プロセッサ２１０は、物体検出モデルＭ１に入力される学習画像に対応する注釈データによって示される正解に出力データが近づくように、第１種物体検出モデルＭ１の複数の演算パラメータを調整する。第１種物体検出モデルＭ１の複数の演算パラメータは、例えば、畳込層の複数のフィルタの複数の重みと複数のバイアスなどを含んでいる

演算パラメータの調整方法は、種々の方法であってよい。本実施例では、損失関数を使用して算出される損失が小さくなるように、第１種物体検出モデルＭ１の複数の演算パラメータが調整される。損失関数は、出力データと正解のデータとの間の差の評価値を算出する種々の関数であってよい。複数の演算パラメータを調整するためのアルゴリズムとしては、例えば、誤差逆伝播法と勾配降下法とを使用したアルゴリズムが採用されてよい。ここで、いわゆるＡｄａｍの最適化が行われてよい。

なお、本実施例では、第１種物体検出モデルＭ１は、ＹＯＬＯｖ４モデルである。第１種物体検出モデルＭ１は、ＹＯＬＯｖ４の以下の論文に記載の訓練方法によって、訓練されてよい。
Alexey Bochkovskiy, Chien-Yao Wang, Hong-Yuan Mark Liao, "YOLOv4: Optimal Speed and Accuracy of Object Detection", arXiv:2004.10934 (2020), https://arxiv.org/abs/2004.10934

Ｓ２５０では、プロセッサ２１０は、学習済の第１種物体検出モデルＭ１を示すデータを、記憶装置２１５（ここでは、不揮発性記憶装置２３０）に格納する。そして、プロセッサ２１０は、図４の処理を終了する。学習済の第１種物体検出モデルＭ１は、後述する検査処理で使用される。

次に、第２種物体検出モデルＭ２の学習処理について説明する。プロセッサ２１０は、第２プログラム２３２を実行することによって、第２種物体検出モデルＭ２を学習する。第１種物体検出モデルＭ１の学習処理との差異は、第２種物体検出モデルＭ２の学習処理では、学習画像が、より多い画素数で第１ラベルＬＢ１を表している点である。学習処理の手順は、図４の手順と同じである。

図６（Ｄ）－図６（Ｆ）は、第２種物体検出モデルＭ２のための合成画像の例を示す概略図である。図６（Ｄ）の合成画像Ｄ２ａは、背景画像上に第１ラベルＬＢ１の１個の処理済版下画像Ｌ１ｌを重畳して得られる（Ｓ１９０）。処理済合成画像Ｄ２ａｘは、合成画像Ｄ２ａのノイズ付加処理によって生成される（Ｓ２００）。図６（Ｅ）の合成画像Ｄ２ｂは、背景画像上に第１ラベルＬＢ１の１個の処理済版下画像Ｌ１ｍを重畳して得られる（Ｓ１９０）。処理済合成画像Ｄ２ｂｘは、合成画像Ｄ２ｂのぼかし処理によって生成される（Ｓ２００）。図６（Ｆ）の合成画像Ｄ２ｃは、背景画像上に第１ラベルＬＢ１の１個の処理済版下画像Ｌ１ｎと、第２ラベルＬＢ２の１個の処理済版下画像Ｌ２ｂと、を重畳して得られる。処理済合成画像Ｄ２ｃｘは、合成画像Ｄ２ｃの回転処理によって生成される（Ｓ２００）。このように、合成画像は、第１ラベルＬＢ１とは異なるラベル（例えば、第２ラベルＬＢ２）の画像を含んでよい。

このように、Ｓ１１０－Ｓ２１０（図４）では、プロセッサ２１０は、処理済合成画像Ｄ２ａｘ、Ｄ２ｂｘ、Ｄ２ｃｘのような種々の学習画像のデータを生成する。以下、第２種物体検出モデルＭ２のための学習画像を、第２種学習画像とも呼ぶ。本実施例では、第２種学習画像の１個の第１ラベルＬＢ１を示す複数の画素の数は、第１種学習画像（例えば、処理済合成画像Ｃ１ａｘ－Ｃ１ｃｘ（図６（Ａ）－図６（Ｃ）））の１個の第１ラベルＬＢ１を示す複数の画素の数よりも、多い。すなわち、第２種学習画像は、第１種学習画像と比べて、第１ラベルＬＢ１を高い画素密度で表している。また、本実施例では、第２種学習画像のうちの１個の第１ラベルＬＢ１を示す部分の割合は、第１種学習画像（例えば、処理済合成画像Ｃ１ａｘ－Ｃ１ｃｘ（図６（Ａ）－図６（Ｃ）））のうちの１個の第１ラベルＬＢ１を示す部分の割合よりも、大きい。

Ｓ２４０（図４）では、プロセッサ２１０は、複数の第２種学習画像のデータを使用して、第１ラベルＬＢ１を検出するように第２種物体検出モデルＭ２を学習する。第２種物体検出モデルＭ２の学習方法は、第２種物体検出モデルＭ２に適する任意の方法であってよい。例えば、第２種物体検出モデルＭ２は、第１種物体検出モデルＭ１の学習方法と同じ方法で学習されてよい。

Ｓ２５０では、プロセッサ２１０は、学習済の第２種物体検出モデルＭ２を示すデータを、記憶装置２１５（ここでは、不揮発性記憶装置２３０）に格納する。そして、プロセッサ２１０は、図４の処理を終了する。学習済の第２種物体検出モデルＭ２は、後述する検査処理で使用される。

Ａ５．検査処理：
図７は、検査処理の例を示すフローチャートである。データ処理装置２００（図１）は、検査処理を実行することによって、複合機９００（図２（Ａ））の第１ラベルＬＢ１の外観を検査する。第３プログラム２３３は、検査処理のためのプログラムである。

本実施例では、検査のために、複合機９００は、予め決められた位置に配置される。複合機９００のこの位置は、デジタルカメラ１１０による第１ラベルＬＢ１の撮影に適する位置である。本実施例では、複合機９００の配置は、ベルトコンベアなどの機械によって行われる。複合機９００の配置の後、検査処理の開始指示が、データ処理装置２００に入力される。本実施例では、作業者は、操作部２５０を操作することによって、検査処理の開始指示を入力する。プロセッサ２１０は、開始指示に応じて、検査処理を開始する。なお、複合機９００の配置は、作業者によって行われてよい。複合機９００に代えて、デジタルカメラ１１０の位置が複合機９００に適する位置に調整されてよい。開始指示は、データ処理装置２００とは異なる他の装置によって、通信インタフェース２７０を介して、データ処理装置２００に供給されてよい。

Ｓ４１０では、プロセッサ２１０は、撮影指示をデジタルカメラ１１０に供給する。デジタルカメラ１１０は、指示に応じて、複合機９００を撮影し、撮影画像を表すデータを生成する。プロセッサ２１０は、デジタルカメラ１１０から撮影画像のデータを取得する。

図８（Ａ）－図８（Ｅ）は、検査処理で使用される画像の例を示す概略図である。図８（Ａ）の画像ＩＭ０は、撮影画像の例を示している（画像ＩＭ０を、撮影画像ＩＭ０と呼ぶ）。撮影画像ＩＭ０は、第１ラベルＬＢ１の画像を含んでいる。

Ｓ４２０（図７）では、プロセッサ２１０は、撮影画像のデータを使用して、第１種物体検出モデルＭ１に入力すべき第１入力画像データを取得する。図８（Ｂ）の画像ＩＭ１は、第１入力画像の例を示している（画像ＩＭ１を、第１入力画像ＩＭ１と呼ぶ）。プロセッサ２１０は、撮影画像のデータに対するトリミング処理と解像度変換処理とを実行することによって、第１入力画像データを生成する。このように、第１入力画像は、撮影画像を表している。撮影画像中の第１ラベルＬＢ１を表し得る部分は、予め決められている。プロセッサ２１０は、第１ラベルＬＢ１を表し得る部分を第１入力画像が含むように、第１入力画像データを生成する。これにより、第１入力画像は、第１ラベルＬＢ１の画像の全体を含み得る。なお、図８（Ｂ）の第１画素数ＰＮ１は、第１入力画像ＩＭ１における第１ラベルＬＢ１を示す画素の総数を示している。

Ｓ４３０（図７）では、プロセッサ２１０は、第１入力画像データを第１種物体検出モデルＭ１に入力することによって、注目オブジェクト（ここでは、第１ラベルＬＢ１）を表す第１種領域を検出する。本実施例では、第１種物体検出モデルＭ１によって、第１ラベルＬＢ１を示すバウンディングボックスが検出される。以下、第１種物体検出モデルＭ１によって検出されるバウンディングボックスを、第１種バウンディングボックスと呼ぶ。第１種領域は、第１種バウンディングボックスによって囲まれる領域である。図８（Ｃ）のボックスＢＢ１は、第１入力画像ＩＭ１から検出される第１種バウンディングボックスの例を示している。第１種バウンディングボックスＢＢ１は、第１ラベルＬＢ１を囲んでいる。領域ＡＡ１は、第１種領域を示している。第１残余領域ＡＸ１は、第１入力画像ＩＭ１から第１種領域ＡＡ１を除いた残りの領域である。

Ｓ４４０（図７）では、プロセッサ２１０は、撮影画像のデータと、第１種バウンディングボックスと、を使用して、第２種物体検出モデルＭ２に入力すべき第２入力画像データを取得する。図８（Ｄ）の画像ＩＭ２は、第２入力画像の例を示している（画像ＩＭ２を、第２入力画像ＩＭ２と呼ぶ）。プロセッサ２１０は、撮影画像のデータに対するトリミング処理と解像度変換処理とを実行することによって、第２入力画像データを生成する。このように、第２入力画像ＩＭ２は、撮影画像を表している。ここで、プロセッサ２１０は、第１残余領域ＡＸ１（図８（Ｃ））の少なくとも一部が第２入力画像ＩＭ２に含まれないように、第２入力画像データを生成する。例えば、第１残余領域ＡＸ１のうちの第１種領域ＡＡ１から遠い部分は、除かれる。また、プロセッサ２１０は、第１入力画像ＩＭ１のうち、第１種領域ＡＡ１の全体と、第１種領域ＡＡ１の周辺部分ＡＸ２（図８（Ｄ））とが、第２入力画像ＩＭ２に含まれるように、第２入力画像データを生成する。第１ラベルＬＢ１の画像の一部は、第１種バウンディングボックスの外にはみ出得る。この場合も、第２入力画像ＩＭ２は、第１ラベルＬＢ１の画像の全体を含むことができる。図中の第２画素数ＰＮ２は、第２入力画像ＩＭ２における第１ラベルＬＢ１を示す画素の総数を示している。本実施例では、プロセッサ２１０は、ＰＮ２＞ＰＮ１となるように、第２入力画像データを生成する。

周辺部分ＡＸ２（すなわち、第２入力画像ＩＭ２から第１種領域ＡＡ１を除いた残りの部分）の決定方法は、任意の方法であってよい。プロセッサ２１０は、例えば、第１種領域ＡＡ１の全周に亘って、周辺部分ＡＸ２の幅Ｗが予め決められた幅閾値以上となるように、周辺部分ＡＸ２を決定してよい。なお、周辺部分ＡＸ２は、第２入力画像ＩＭ２から省略されてよい。すなわち、第２入力画像ＩＭ２は、第１種領域ＡＡ１に外接する矩形領域の画像であってよい。

なお、本実施例では、デジタルカメラ１１０によって生成される撮影画像ＩＭ０（図８（Ａ）の画素密度は、入力画像ＩＭ１、ＩＭ２（図８（Ｂ）、図８（Ｄ））と比べて高い画素密度で第１ラベルＬＢ１を表すように、予め決定される。従って、第２入力画像ＩＭ２は、ぼやけさせずに第１ラベルＬＢ１を表現できる。Ｓ４２０、Ｓ４４０では、画素密度を低減する解像度変換が行われる。なお、撮影画像ＩＭ０の画素密度は、第２入力画像ＩＭ２が第１入力画像ＩＭ１よりも鮮明に第１ラベルＬＢ１を表現できるような、種々の画素密度であってよい。例えば、撮影画像ＩＭ０の画素密度は、第１入力画像ＩＭ１における第１ラベルＬＢ１の画素密度よりも高い画素密度で第１ラベルＬＢ１を表すような、種々の値であってよい。ここで、撮影画像ＩＭ０の画素密度は、第２入力画像ＩＭ２における第１ラベルＬＢ１の画素密度以下の画素密度で第１ラベルＬＢ１を表すような値であってよい。

Ｓ４５０（図７）では、プロセッサ２１０は、第２入力画像データを第２種物体検出モデルＭ２に入力することによって、注目オブジェクト（ここでは、第１ラベルＬＢ１）を表す第２種領域を検出する。本実施例では、第２種物体検出モデルＭ２によって、第１ラベルＬＢ１を示すバウンディングボックスが検出される。以下、第２種物体検出モデルＭ２によって検出されるバウンディングボックスを、第２種バウンディングボックスと呼ぶ。第２種領域は、第２種バウンディングボックスによって囲まれる領域である。図８（Ｅ）のボックスＢＢ２は、第２入力画像ＩＭ２から検出される第２種バウンディングボックスの例を示している。第２種バウンディングボックスＢＢ２は、第１ラベルＬＢ１を囲んでいる。領域ＡＡ２は、第２種領域を示している。

Ｓ４６０では、プロセッサ２１０は、Ｓ４５０で注目オブジェクト（ここでは、第１ラベルＬＢ１）が検出されるか否かを判断する。本実施例では、第１ラベルＬＢ１のための第２種バウンディングボックス（すなわち、第２種領域ＡＡ２）が検出される場合、判断結果は、Ｙｅｓである。この場合、Ｓ４８０で、プロセッサ２１０は、検査結果を合格に決定する。そして、プロセッサ２１０は、Ｓ４９０へ移行する。

第１ラベルＬＢ１のための第２種バウンディングボックスが検出されない場合（Ｓ４６０：Ｎｏ）、Ｓ４８５で、プロセッサ２１０は、検査結果を不合格に決定する。そして、プロセッサ２１０は、Ｓ４９０へ移行する。

Ｓ４９０では、プロセッサ２１０は、検査結果を示すデータを記憶装置２１５（例えば、不揮発性記憶装置２３０）に格納する。そして、プロセッサ２１０は、図７の処理を終了する。

以上のように、本実施例では、データ処理装置２００のプロセッサ２１０は、以下の処理を実行する。図７のＳ４３０では、プロセッサ２１０は、第１入力画像データを使用して、第１入力画像ＩＭ１（図８（Ｃ））から第１ラベルＬＢ１を表す第１種領域ＡＡ１を検出する。第１ラベルＬＢ１は、処理対象のオブジェクトである第１オブジェクトの例である。第１入力画像ＩＭ１は、第１ラベルＬＢ１の撮影画像の例である。第１入力画像データは、第１ラベルＬＢ１の撮影画像の第１画像データの例である。図８（Ｃ）に示すように、第１入力画像データは、第１ラベルＬＢ１を第１画素数ＰＮ１で表している。

図７のＳ４５０では、プロセッサ２１０は、第２入力画像データを使用して、第２入力画像ＩＭ２（図８（Ｅ））から第１ラベルＬＢ１を表す第２種領域ＡＡ２を検出する。第２入力画像ＩＭ２は、第１入力画像ＩＭ１（図８（Ｃ））のうちの第１種領域ＡＡ１を含む部分画像である。第２入力画像ＩＭ２は、第１残余領域ＡＸ１（図８（Ｃ））の少なくとも一部を含まない画像である。第１残余領域ＡＸ１は、第１入力画像ＩＭ１から第１種領域ＡＡ１を除いた残りの領域である。ここで、第２入力画像ＩＭ２のデータは、第１ラベルＬＢ１を、第１画素数ＰＮ１よりも多い第２画素数ＰＮ２で表している。

Ｓ４６０－Ｓ４８５では、プロセッサ２１０は、第２種領域ＡＡ２の検出結果を使用して、第１ラベルＬＢ１を検査する。本実施例では、第２種領域ＡＡ２が検出される場合（Ｓ４６０：Ｙｅｓ）、検査結果は合格である（Ｓ４８０）。第２種領域ＡＡ２が検出されない場合（Ｓ４６０：Ｎｏ）、検査結果は不合格である（Ｓ４８５）。

複合機９００（図２（Ａ））には、第１ラベルＬＢ１とは異なるラベル（例えば、第２ラベルＬＢ２）が、誤って貼付され得る。また、複合機９００には、不具合を有するラベルが貼付され得る。Ｓ４５０（図７）で使用される第２入力画像データは、Ｓ４３０で使用される第１入力画像データと比べて、より高い画素密度でラベルを表している。従って、Ｓ４５０では、Ｓ４３０と比べて、不適切なラベル（例えば、第２ラベルＬＢ２、不具合を有するラベル、など）の誤検出の可能性は、小さい。この結果、第１ラベルＬＢ１の検査に、第１ラベルＬＢ１を表す第２種領域ＡＡ２の適切な検出結果を使用できる。そして、不適切な検査の可能性は、低減する。

また、Ｓ４３０で使用される第１入力画像データは、Ｓ４５０で使用される第２入力画像データと比べて、より低い画素密度でラベルを表している。従って、プロセッサ２１０は、計算資源（例えば、処理に使用されるメモリの容量など）の過度の増大を抑制しつつ、第２入力画像ＩＭ２よりも広い領域を示す第１入力画像ＩＭ１から、第１ラベルＬＢ１の第１種領域ＡＡ１を適切に検出できる。

また、図８（Ａ）－図８（Ｅ）に示すように、処理対象のオブジェクトである第１オブジェクトは、ラベルである（具体的には、第１ラベルＬＢ１）。プロセッサ２１０は、ラベルを適切に検査できる。

また、Ｓ４３０（図７）では、プロセッサ２１０は、第１種物体検出モデルＭ１を使用して、第１入力画像ＩＭ１から第１ラベルＬＢ１を表す第１種領域ＡＡ１を検出する。第１種物体検出モデルＭ１は、第１ラベルＬＢ１を検出するように学習済のモデルである。プロセッサ２１０は、学習済の第１種物体検出モデルＭ１を使用して、第１種領域ＡＡ１を適切に検出できる。また、Ｓ４５０では、プロセッサ２１０は、第２種物体検出モデルＭ２を使用して、第２入力画像ＩＭ２から第１ラベルＬＢ１を表す第２種領域ＡＡ２を検出する。第２種物体検出モデルＭ２は、第１ラベルＬＢ１を検出するように学習済のモデルである。プロセッサ２１０は、学習済の第２種物体検出モデルＭ２を使用して、第２種領域ＡＡ２を適切に検出できる。

Ｂ．第２実施例：
Ｂ１．学習処理：
図９は、学習処理の第２実施例を示すフローチャートである。本実施例では、第２種物体検出モデルは、ラベルに含まれる要素毎に準備される。第２種物体検出モデルは、対応する要素を検出する。第１ラベルＬＢ１（図２（Ｂ））は、７個の要素ＥＬ１－ＥＬ７を含んでいる。第１ラベルＬＢ１の検査のために、７個の第２種物体検出モデルが準備される。以下、要素毎に準備される第２種物体検出モデルを、要素検出モデルＭ２ｊと呼ぶ。個々の要素検出モデルＭ２ｊを区別する場合には、符号の末尾の文字「ｊ」を要素の識別子に置換して得られる符号を使用する。本実施例では、各要素に、予め、識別番号が割り当てられていることとする。要素の符号（例えば、ＥＬ１、ＥＬ２など）の末尾の番号が、識別番号と同じであることとする。例えば、第１要素検出モデルＭ２１は、第１要素ＥＬ１を検出するためのモデルであり、第２要素検出モデルＭ２２は、第２要素ＥＬ２を検出するためのモデルである。図９の学習処理は、各要素検出モデルＭ２ｊを学習する。本実施例では、第２プログラム２３２（図１）は、図９の処理を実行するように、構成される。

Ｓ１１０ａは、図４のＳ１１０と同じである。プロセッサ２１０は、版下データを取得する。

Ｓ１２０ａでは、プロセッサ２１０は、版下画像を分析することによって、版下画像を、複数の要素領域に分割する。要素領域は、ラベルに含まれる要素を示す領域である。図１０（Ａ）は、要素領域の例を示す概略図である。プロセッサ２１０は、７個の要素ＥＬ１－ＥＬ７をそれぞれ示す７個の要素領域ＥＡ１－ＥＡ７を、版下画像Ｌ１から取得する。要素領域の取得方法は、任意の方法であってよい。プロセッサ２１０は、例えば、予め決められた背景色範囲内の色を有する画素を背景画素として選択し、他の画素を要素画素として選択する。プロセッサ２１０は、複数の要素画素が連続する領域を、要素領域として選択する。

Ｓ１３０ａでは、プロセッサ２１０は、複数の要素領域の間の相対位置情報を取得する。図１０（Ｂ）は、相対位置情報の例を示す概略図である。相対位置情報３１０は、要素番号と位置条件との対応関係を示している。要素番号は、各要素領域の要素の識別番号を示している。プロセッサ２１０は、要素領域の画像を分析することによって、要素番号を決定する。要素番号の決定方法は、任意の方法であってよい。プロセッサ２１０は、例えば、予め準備される要素の基準画像（図示せず）を使用するパターンマッチングによって、各要素領域の要素番号を決定する。

位置条件は、要素番号の要素領域と、他の要素領域と、の間の位置関係を示している。具体的には、位置条件は、他の要素領域に対する第１方向Ｄｘの配置と、第２方向Ｄｙの配置とを、示している。第１方向Ｄｘの配置は、右と左から選択される。右は、第１方向Ｄｘを示し、左は、第１方向Ｄｘの反対方向を示している。第２方向Ｄｙの配置は、下と上から選択される。下は、第２方向Ｄｙを示し、上は、第２方向Ｄｙの反対方向を示している。ここで、要素領域の重心位置が、比較される。１番の要素番号の位置条件によって示されるように、第１要素領域ＥＡ１は、要素領域ＥＡ２、ＥＡ６の左に位置し、要素領域ＥＡ３－ＥＡ７の上に位置する。２つの要素領域の間の位置の差が予め決められた位置閾値以下である場合、その２つの要素領域の相対位置は、位置条件から省略される。例えば、図１０（Ａ）の例では、第１要素領域ＥＡ１と第２要素領域ＥＡ２との間では、第２方向Ｄｙの位置の差は小さい。従って、第２要素領域ＥＡ２に対する第１要素領域ＥＡ１の第２方向Ｄｙの配置は、省略される。相対位置情報３１０は、更に、他の要素領域ＥＡ２－ＥＡ７のそれぞれの位置条件を示している（要素領域ＥＡ４－ＥＡ７の位置条件の図示は省略されている）。

プロセッサ２１０は、相対位置情報３１０を示すデータを、記憶装置２１５（例えば、不揮発性記憶装置２３０）に格納する。相対位置情報３１０は、後述する検査処理で、参照される（相対位置情報３１０を、参考位置情報３１０とも呼ぶ）。

Ｓ１６０ａ－Ｓ２１０ａ（図９）は、学習画像データの生成処理である。本実施例では、プロセッサ２１０は、複数の要素検出モデルＭ２ｊのそれぞれのための学習画像データを生成する。

Ｓ１６０ａでは、プロセッサ２１０は、Ｑ個の要素からＭ個の要素を選択する。ここで、Ｑは、処理対象の要素の総数である。本実施例では、第１ラベルＬＢ１の全ての要素ＥＬ１－ＥＬ７が、処理対象である。従って、数Ｑは、第１ラベルＬＢ１の要素の総数Ｎと同じである（本実施例では、Ｑ＝Ｎ＝７）。Ｍは、１以上Ｑ以下の整数である。本実施例では、Ｍ＝１であることとする。プロセッサ２１０は、Ｑ個の要素からＭ個の要素を、乱数を使用して選択する。Ｍが２以上に設定される場合については、後述する別の実施例で説明する。

Ｓ１７０ａでは、プロセッサ２１０は、要素の画像のデータ拡張処理を実行する。プロセッサ２１０は、版下データから、Ｍ個の要素に対応するＭ個の要素領域のＭ個の画像データを取得する（取得されるデータを、要素画像データと呼ぶ）。プロセッサ２１０は、Ｍ個の要素画像データのそれぞれのデータ拡張処理を実行する。プロセッサ２１０は、図４のＳ１７０のデータ拡張処理と同様に、種々の画像処理を実行することによって、処理済要素画像データを生成する。図１１（Ａ）－図１１（Ｄ）は、画像処理の例を示す概略図である。

図１１（Ａ）の画像処理は、色変更処理である。色変更処理は、図５（Ａ）の実施例の色変更処理と同じである。例えば、プロセッサ２１０は、第１要素領域ＥＡ１の要素画像ＥＩ１の色値の変更によって、処理済要素画像ＥＩ１ａのデータを生成する。

図１１（Ｂ）の画像処理は、画像のリサイズ処理である。リサイズ処理は、図５（Ｂ）の実施例のリサイズ処理と同じである。例えば、プロセッサ２１０は、第４要素領域ＥＡ４の要素画像ＥＩ４のデータの縮小処理によって、縮小された要素ＥＬ４を示す処理済要素画像ＥＩ４ａのデータを生成する。また、プロセッサ２１０は、要素画像ＥＩ４のデータの拡大処理によって、拡大された要素ＥＬ４を示す処理済要素画像ＥＩ４ｂのデータを生成する。

図１１（Ｃ）の画像処理は、画像の回転処理である。回転処理は、図５（Ｃ）の実施例の回転処理と同じである。例えば、プロセッサ２１０は、第６要素領域ＥＡ６の要素画像ＥＩ６を反時計回りに回転させることによって、回転された第６要素ＥＬ６を示す処理済要素画像ＥＩ６ａのデータを生成する。また、プロセッサ２１０は、要素画像ＥＩ６を時計回りに回転させることによって、回転された第６要素ＥＬ６を示す処理済要素画像ＥＩ６ｂのデータを生成する。

図１１（Ｄ）の画像処理は、ぼかし処理である。ぼかし処理は、図５（Ｄ）の実施例のぼかし処理と同じである。例えば、プロセッサ２１０は、第３要素領域ＥＡ３の要素画像ＥＩ３のぼかし処理を実行することによって、ぼけた第３要素ＥＬ３を示す処理済要素画像ＥＩ３ｂのデータを生成する。

Ｓ１７０ａ（図９）では、プロセッサ２１０は、図４のＳ１７０と同様に、乱数を使用して、Ｓ１７０ａのＭ個の要素画像のそれぞれの画像処理を決定する。

Ｓ１８０ａは、図４のＳ１８０と同じである。プロセッサ２１０は、背景画像データを取得する。

Ｓ１９０ａでは、プロセッサ２１０は、背景画像とＭ個の処理済要素画像とを合成することによって、合成画像を生成する。プロセッサ２１０は、背景画像上のＭ個の処理済要素画像のそれぞれの位置を、乱数を使用して決定する。図１２（Ａ）－図１２（Ｃ）は、合成画像の例を示す概略図である。図１２（Ａ）の合成画像Ｅ１ａは、背景画像上に、第１要素ＥＬ１の処理済要素画像ＥＩ１ｂを重畳して得られる。図１２（Ｂ）の合成画像Ｅ１ｂは、背景画像上に、第６要素ＥＬ６の処理済要素画像ＥＩ６ｃを重畳して得られる。図１２（Ｃ）の合成画像Ｅ１ｃは、背景画像上に、第２要素ＥＬ２の処理済要素画像ＥＩ２ａを重畳して得られる。

Ｓ２００ａでは、プロセッサ２１０は、合成画像のデータ拡張処理を実行する。Ｓ２００ａでは、Ｓ１７０ａと同様に、プロセッサ２１０は、種々の画像処理を実行する。例えば、図１２（Ａ）の処理済合成画像Ｅ１ａｘは、合成画像Ｅ１ａの回転処理によって生成される。図１２（Ｂ）の処理済合成画像Ｅ１ｂｘは、合成画像Ｅ１ｂのぼかし処理によって生成される。図１２（Ｃ）の処理済合成画像Ｅ１ｃｘは、合成画像Ｅ１ｃのノイズ付加処理によって生成される。プロセッサ２１０は、乱数を使用して、Ｓ２００ａの画像処理を決定する。

Ｓ２０３ａでは、プロセッサ２１０は、処理済合成画像のデータに関連付けられる注釈データを生成する。注釈データは、適切なバウンディングボックスと適切なクラス（例えば、要素の識別番号）とを示している。本実施例では、プロセッサ２１０は、Ｓ１７０ａ、Ｓ１９０ａ、Ｓ２００ａの各処理の内容に基づいて、注釈データを生成する。

Ｓ２０６ａでは、プロセッサ２１０は、処理済合成画像のデータである第２種学習画像データと、注釈データと、のセットを、不揮発性記憶装置２３０に格納する。

Ｓ２１０ａでは、プロセッサ２１０は、終了条件が満たされるか否かを判断する。本実施例では、終了条件は、Ｑ個の要素検出モデルＭ２ｊのそれぞれの適切な学習のための複数の学習画像データが生成されることを示す種々の条件であってよい。例えば、終了条件は、Ｑ個の要素のそれぞれの要素終了条件が満たされることであってよい。１個の注目要素のための要素終了条件は、注目要素の画像を含む学習画像データの総数が予め決められた閾値以上であることであってよい。終了条件が満たされない場合（Ｓ２１０ａ：Ｎｏ）、プロセッサ２１０は、Ｓ１６０ａへ移行して、新たな学習画像データを生成する。

終了条件が満たされる場合（Ｓ２１０ａ：Ｙｅｓ）、プロセッサ２１０は、Ｓ２２０ａ－Ｓ２６０ａを実行することによって、Ｑ個の要素に対応するＱ個の要素検出モデルＭ２ｊを、１つずつ順番に、学習する。

Ｓ２２０ａでは、プロセッサ２１０は、Ｑ個の要素から処理対象の１個の要素である対象要素ＥＬｘを選択する。対象要素ＥＬｘとしては、未学習の要素が選択される。

Ｓ２３０ａでは、プロセッサ２１０は、対象要素ＥＬｘの画像を含む学習画像のデータセットを不揮発性記憶装置２３０から取得する。

Ｓ２４０ａでは、プロセッサ２１０は、Ｓ２３０ａで取得した学習画像のデータセットを使用して、対象要素ＥＬｘに対応する要素検出モデルＭ２ｊである対象要素検出モデルＭ２ｘを学習する。学習方法は、図４のＳ２４０の学習方法と同じである。対象要素検出モデルＭ２ｘは、対象要素ＥＬｘを検出するように、学習される。

Ｓ２５０ａでは、プロセッサ２１０は、学習済の対象要素検出モデルＭ２ｘを示すデータを、記憶装置２１５（ここでは、不揮発性記憶装置２３０）に格納する。

Ｓ２６０ａでは、プロセッサ２１０は、Ｑ個の要素に対応するＱ個の要素検出モデルＭ２ｊの学習が完了したか否かを判断する。未学習の要素検出モデルＭ２ｊが残っている場合（Ｓ２６０ａ：Ｎｏ）、プロセッサ２１０は、Ｓ２２０ａへ移行して、新たな対象要素ＥＬｘに対応する対象要素検出モデルＭ２ｘを学習する。Ｑ個の要素検出モデルＭ２ｊの学習が完了した場合（Ｓ２６０ａ：Ｙｅｓ）、プロセッサ２１０は、図９の処理を終了する。

Ｂ２．検査処理：
図１３は、検査処理の第２実施例を示すフローチャートである。図７の検査処理との差異は、Ｓ４５０、Ｓ４６０が、Ｓ４５０ａ、Ｓ４７０ａ、Ｓ４７５ａに置換されている点だけである。Ｓ４１０－Ｓ４４０のそれぞれのステップの処理と、Ｓ４８０－Ｓ４９０のそれぞれのステップの処理とは、図７の同じ符号のステップの処理と同じである（説明を省略する）。本実施例では、第３プログラム２３３（図１）は、図１３の処理を実行するように、構成される。

Ｓ４４０の後、Ｓ４５０ａで、プロセッサ２１０は、第２入力画像データをＮ個の要素検出モデルＭ２ｊのそれぞれに入力することによって、Ｎ個の要素を検出する。Ｎ個の要素検出モデルＭ２ｊは、図９の学習処理で学習済のモデルである。

図１４（Ａ）、図１４（Ｂ）は、要素の検出の概略図である。図１４（Ａ）は、第２入力画像ＩＭ２の例を示している。この第２入力画像ＩＭ２は、図８（Ｄ）の第２入力画像ＩＭ２と同じである。図１４（Ｂ）は、第２入力画像ＩＭ２から検出されるバウンディングボックスの例を示している。本実施例は、プロセッサ２１０は、７個の要素検出モデルＭ２ｊを使用して、７個の要素ＥＬ１－ＥＬ７を示す７個のバウンディングボックスＢＢａ１－ＢＢａ７を検出する。要素領域ＥＡａ１－ＥＡａ７は、それぞれ、バウンディングボックスＢＢａ１－ＢＢａ７に囲まれる領域である。

Ｓ４７０ａ（図１３）では、プロセッサ２１０は、Ｎ個の要素（ここでは、Ｎ個のバウンディングボックス）の全てが検出されるか否かを判断する。１以上の要素が検出されない場合（Ｓ４７０ａ：Ｎｏ）、Ｓ４８５で、プロセッサ２１０は、検査結果を不合格に決定する。そして、プロセッサ２１０は、Ｓ４９０へ移行する。

Ｎ個の要素の全てが検出される場合（Ｓ４７０ａ：Ｙｅｓ）、Ｓ４７５ａで、プロセッサ２１０は、検出されるＮ個の要素の間の位置関係が正しいか否かを判断する。プロセッサ２１０は、Ｓ１３０ａ（図９）における参考位置情報３１０（図１０（Ｂ））の取得方法と同じ方法で、Ｎ個の要素領域ＥＡａ１－ＥＡａ７（図１４（Ｂ））の間の相対位置情報を取得する（対象位置情報と呼ぶ）。本実施例では、第２入力画像ＩＭ２内の第１ラベルＬＢ１の向きは、版下画像Ｌ１（図１０（Ａ））内の第１ラベルＬＢ１の向きと、おおよそ同じであることとする。従って、参考位置情報３１０は、Ｎ個の要素領域ＥＡａ１－ＥＡａ７の適切な位置関係を示す情報として、使用可能である。プロセッサ２１０は、対象位置情報と参考位置情報３１０とを比較することによって、検出されるＮ個の要素（すなわち、Ｎ個の要素領域ＥＡａ１－ＥＡａ７）の間の位置関係が正しいか否かを判断する。対象位置情報によって示される全ての位置関係が、参考位置情報３１０の位置条件に含まれる場合、プロセッサ２１０は、位置関係が正しいと判断する。対象位置情報が、参考位置情報３１０の位置条件に含まれない位置関係を示す場合、プロセッサ２１０は、位置関係が正しくないと判断する。

位置関係が正しいと判断される場合（Ｓ４７５ａ：Ｙｅｓ）、Ｓ４８０で、プロセッサ２１０は、検査結果を合格に決定する。そして、プロセッサ２１０は、Ｓ４９０へ移行する。位置関係が正しくないと判断される場合（Ｓ４７５ａ：Ｎｏ）、Ｓ４８５で、プロセッサ２１０は、検査結果を不合格に決定する。そして、プロセッサ２１０は、Ｓ４９０へ移行する。Ｓ４９０では、プロセッサ２１０は、検査結果を示すデータを記憶装置２１５（例えば、不揮発性記憶装置２３０）に格納する。そして、プロセッサ２１０は、図１３の処理を終了する。

以上のように、本実施例では、データ処理装置２００のプロセッサ２１０は、以下の処理を実行する。図１３のＳ４３０の処理は、図７のＳ４３０の処理と同じである。図１３のＳ４５０ａでは、プロセッサ２１０は、第２入力画像データを使用して、第２入力画像ＩＭ２（図１４（Ｂ））から、第１ラベルＬＢ１の一部である要素ＥＬ１－ＥＬ７を表す要素領域ＥＡａ１－ＥＡａ７を検出する。第２入力画像ＩＭ２は、図８（Ｄ）の第２入力画像ＩＭ２と同じである。要素領域ＥＡａ１－ＥＡａ７は、それぞれ、第１ラベルＬＢ１の少なくとも一部を表す第２種領域の例である。

Ｓ４７０ａ、Ｓ４７５ａ、Ｓ４８０、Ｓ４８５では、プロセッサ２１０は、第２種領域（ここでは、要素領域ＥＡａ１－ＥＡａ７）の検出結果を使用して、第１ラベルＬＢ１を検査する。Ｓ４５０ａで使用される第２入力画像データは、Ｓ４３０で使用される第１入力画像データと比べて、より高い画素密度でラベルを表している。従って、Ｓ４５０ａにおける不適切な要素（例えば、第１ラベルＬＢ１に含まれない要素）の誤検出の可能性は、第１入力画像データから要素が検出されると仮定する場合と比べて、小さい。この結果、第１ラベルＬＢ１の検査に、第１ラベルＬＢ１の一部を表す第２種領域（ここでは、要素領域ＥＡａ１－ＥＡａ７）の適切な検出結果を使用できる。そして、不適切な検査の可能性は、低減する。

また、Ｓ４３０で使用される第１入力画像データは、Ｓ４５０ａで使用される第２入力画像データと比べて、より低い画素密度でラベルを表している。従って、プロセッサ２１０は、計算資源（例えば、処理に使用されるメモリの容量など）の過度の増大を抑制しつつ、第２入力画像ＩＭ２よりも広い領域を示す第１入力画像ＩＭ１から、第１ラベルＬＢ１の第１種領域ＡＡ１を適切に検出できる。

また、図１４（Ａ）に示すように、第１ラベルＬＢ１は、Ｎ個（Ｎは２以上の整数。本実施例では、Ｎ＝７）の要素ＥＬ１－ＥＬ７を含んでいる。Ｓ４５０ａ（図１３）では、プロセッサ２１０は、第２入力画像ＩＭ２からＮ個の要素ＥＬ１－ＥＬ７をそれぞれ表すＮ個の要素領域ＥＡａ１－ＥＡａ７を検出する。Ｓ４７０ａ－Ｓ４８５では、プロセッサ２１０は、要素領域ＥＡａ１－ＥＡａ７を使用して、第１ラベルＬＢ１を検査する。Ｓ４７５ａでは、プロセッサ２１０は、Ｎ個の要素領域ＥＡａ１－ＥＡａ７の位置関係と、参考位置情報３１０と、を比較することによって、第１ラベルＬＢ１を検査する。参考位置情報３１０は、予め決められたＮ個の要素ＥＬ１－ＥＬ７の位置関係を示している。以上により、プロセッサ２１０は、ラベルに含まれるＮ個の要素ＥＬ１－ＥＬ７の位置関係を使用して、適切な検査を実行できる。例えば、要素の位置ずれなどの不具合をラベルが有する場合に、プロセッサ２１０は、検査結果が不合格であると適切に判断できる。

また、Ｓ４５０ａでは、プロセッサ２１０は、Ｎ個の要素ＥＬ１－ＥＬ７をそれぞれ検出するように学習済のＮ個の要素検出モデルＭ２ｊを使用して、第２入力画像ＩＭ２からＮ個の要素ＥＬ１－ＥＬ７をそれぞれ表すＮ個の要素領域ＥＡａ１－ＥＡａ７を検出する。従って、プロセッサ２１０は、適切なＮ個の要素領域ＥＡａ１－ＥＡａ７をラベルの検査に使用できる。

また、Ｓ４３０（図１３）では、プロセッサ２１０は、第１種物体検出モデルＭ１を使用して、第１入力画像ＩＭ１から第１ラベルＬＢ１を表す第１種領域ＡＡ１を検出する。第１種物体検出モデルＭ１は、第１ラベルＬＢ１を検出するように学習済のモデルである。プロセッサ２１０は、学習済の第１種物体検出モデルＭ１を使用して、第１種領域ＡＡ１を適切に検出できる。また、Ｓ４５０ａでは、プロセッサ２１０は、第２種物体検出モデルＭ２ｊを使用して、第２入力画像ＩＭ２から対応する要素の領域を検出する（具体的には、要素領域ＥＡａ１－ＥＡａ７のうちの対応する領域）。要素領域は、第１ラベルＬＢ１の一部を表す第２種領域の例である。第２種物体検出モデルＭ２ｊは、対応する要素の領域を検出するように学習済のモデルである。プロセッサ２１０は、学習済の第２種物体検出モデルＭ２ｊを使用して、第２種領域を適切に検出できる。

また、本実施例では、第１ラベルＬＢ１のＮ個の要素ＥＬ１－ＥＬ７のうち、１以上の要素が検出されない場合（Ｓ４７０ａ：Ｎｏ）、検査結果は不合格である。このように、複合機９００のラベルが不具合（例えば、要素の欠落など）を有する場合に、プロセッサ２１０は、検査結果が不合格であると適切に判断できる。また、対象位置情報が、参考位置情報３１０の位置条件に含まれない位置関係を示す場合（Ｓ４７５ａ：Ｎｏ）、検査結果は不合格である。このように、複合機９００のラベルが不具合（例えば、要素の位置ずれなど）を有する場合に、プロセッサ２１０は、検査結果が不合格であると適切に判断できる。

Ｃ．第３実施例：
図１５（Ａ）－図１５（Ｃ）は、第３実施例における学習処理で使用される合成画像の例を示す概略図である。第２実施例の学習処理との差異は、２点ある。第１の差異は、図９のＳ１６０ａで、プロセッサ２１０は、乱数を使用して、１以上Ｑ以下の数Ｍを決定する点である。本実施例では、数Ｍは、２以上であり得る。Ｓ１７０ａでは、プロセッサ２１０は、要素毎に、乱数を使用して画像処理を決定する。第２の差異は、Ｓ１９０ａで、プロセッサ２１０は、背景画像に、Ｍ個の要素のＭ個の処理済要素画像を合成する点である。学習処理の他の部分の処理は、図９の対応する部分の処理と同じである（同じ部分の説明を省略する）。第２プログラム２３２（図１）は、本実施例の学習処理を実行するように、構成される。図１３の検査処理では、本実施例の学習処理によって学習されるＮ個の要素検出モデルＭ２ｊが使用されてよい。

図１５（Ａ）の合成画像Ｆ１ａは、背景画像上に、第１要素ＥＬ１の処理済要素画像ＥＩ１ｂと、第２要素ＥＬ２の処理済要素画像ＥＩ２ｂと、を重畳して得られる（Ｓ１９０ａ）。処理済合成画像Ｆ１ａｘは、合成画像Ｆ１ａの回転処理によって生成される（Ｓ２００ａ）。

図１５（Ｂ）の合成画像Ｆ１ｂは、背景画像上に、第２要素ＥＬ２の処理済要素画像ＥＩ２ｃと、第６要素ＥＬ６の処理済要素画像ＥＩ６ｃと、を重畳して得られる（Ｓ１９０ａ）。処理済合成画像Ｆ１ｂｘは、合成画像Ｆ１ｂのぼかし処理によって生成される（Ｓ２００ａ）。

図１５（Ｃ）の合成画像Ｆ１ｃは、背景画像上に、第４要素ＥＬ４の処理済要素画像ＥＩ４ｃと、第８要素ＥＬ８の処理済要素画像ＥＩ８ａと、を重畳して得られる（Ｓ１９０ａ）。処理済合成画像Ｆ１ｃｘは、合成画像Ｆ１ｃのノイズ付加処理によって生成される（Ｓ２００ａ）。このように、プロセッサ２１０は、Ｍ個の要素に加えて、処理対象の第１ラベルＬＢ１には含まれない要素である外部要素（例えば、第８要素ＥＬ８）の画像を、背景画像と合成してよい。例えば、Ｓ１７０ａでは、プロセッサ２１０は、外部要素の画像のデータ拡張処理を実行する。そして、Ｓ１９０ａでは、プロセッサ２１０は、外部要素の処理済要素画像を背景画像に合成する。プロセッサ２１０は、外部要素の画像を合成するか否かを、乱数を使用して決定してよい。

図示を省略するが、１枚の合成画像に含まれる要素画像の総数は、１以上の任意の数であってよい。１枚の合成画像が複数の要素画像を含む場合、プロセッサ２１０は、複数の要素画像が互いに重ならないように、複数の要素画像を合成する。

また、本実施例では、要素検出モデルＭ２ｊは、対応する要素を検出するように学習される。要素検出モデルＭ２ｊは、対応する要素とは異なる他の要素を検出しないように、学習される。例えば、図９のＳ１９０ａで生成される合成画像が複数の要素画像を含む場合、Ｓ２０３ａで生成される注釈データは、複数の要素のそれぞれのバウンディングボックスとクラスとを示している。Ｓ２４０ａでは、プロセッサ２１０は、注釈データのうち、対象要素ＥＬｘ以外の要素のバウンディングボックスとクラスとのデータを省略する。なお、要素検出モデルＭ２ｊは、対応する要素に加えて、他の要素も検出するように学習されてよい。

以上のように、本実施例では、Ｑ個の物体検出モデルのそれぞれは、対応する要素と他の要素とを含む複数の要素を表す画像の画像データを使用して学習される。例えば、第１要素ＥＬ１のための第１要素検出モデルＭ２１は、第１要素ＥＬ１と第２要素ＥＬ２とを含む複数の要素を表す処理済合成画像Ｆ１ａｘ（図１５（Ａ））の画像データを使用して学習される。処理済合成画像Ｆ１ａｘを使用することによって、第１要素検出モデルＭ２１は、第２要素ＥＬ２を第１要素ＥＬ１として誤検出せずに、第１要素ＥＬ１を検出するように、学習される。この結果、第１要素検出モデルＭ２１による誤検出の可能性は、低減する。他の要素ＥＬ２－ＥＬ７に対応する要素検出モデルＭ２ｊに関しても、同様に、対応する要素と他の要素とを含む複数の要素を表す画像の画像データを使用して学習される。これにより、誤検出の可能性は低減する。

また、図１０（Ａ）に示すように、第１ラベルＬＢ１のＮ個（ここでは、Ｎ＝７）の要素は、第１要素ＥＬ１と第２要素ＥＬ２とを含んでいる。図９で説明したように、Ｎ個の要素検出モデルＭ２ｊは、第１要素ＥＬ１を検出するための第１要素検出モデルＭ２１と、第２要素ＥＬ２を検出するための第２要素検出モデルＭ２２と、を含んでいる。図１５（Ａ）の処理済合成画像Ｆ１ａｘは、第１要素ＥＬ１の画像と第２要素ＥＬ２の画像を含んでいる。このような処理済合成画像Ｆ１ａｘは、第１要素検出モデルＭ２１の学習と、第２要素検出モデルＭ２２の学習と、に使用される。すなわち、第１要素検出モデルＭ２１は、第１要素ＥＬ１と第２要素ＥＬ２とを含む複数の要素を表す画像Ｆ１ａｘの画像データ（第１画像データと呼ぶ）を含む第１の画像データセットを使用して学習される。そして、第２要素検出モデルＭ２２は、第１画像データを含む第２の画像データセットを使用して学習される。このように、処理済合成画像Ｆ１ａｘの第１画像データが、複数の要素検出モデルＭ２ｊの学習に使用されるので、Ｎ個の要素検出モデルＭ２ｊのそれぞれの学習のための画像データの総数を低減可能である。なお、第１の画像データセットは、第１要素ＥＬ１の画像を含む複数の学習画像のデータセットである。第２の画像データセットは、第２要素ＥＬ２の画像を含む複数の学習画像のデータセットである。

Ｄ．第４実施例：
図１６（Ａ）は、学習処理の別の実施例のフローチャートの一部である。図９の学習処理との差異は、Ｓ１３０ａとＳ１６０ａとの間にＳ１４０ｂ、Ｓ１５０ｂが挿入される点である。本実施例では、他のラベルのための学習済の要素検出モデルＭ２ｊが、再使用される。Ｓ１６０ａ（図９）で参照される数Ｑは、未学習の要素検出モデルＭ２ｊの総数を示している。Ｓ２５０ａでは、プロセッサ２１０は、学習済の要素検出モデルＭ２ｊのデータと、対応する要素の画像データとを、関連付けて、記憶装置２１５（ここでは、不揮発性記憶装置２３０）に格納する（格納されるデータを、モデルデータと呼ぶ）。学習処理の他の部分の処理は、図９の対応する部分の処理と同じである（同じ部分の説明を省略する）。第２プログラム２３２（図１）は、本実施例の学習処理を実行するように、構成される。

Ｓ１４０ｂ（図１６（Ａ））では、プロセッサ２１０は、処理対象の第１ラベルＬＢ１の複数の要素ＥＬ１－ＥＬ７のそれぞれに関して、対応する要素検出モデルＭ２ｊが学習済であるか否かを判断する。プロセッサ２１０は、この判断のために、他のラベルのための学習処理のＳ２５０ａ（図９）で不揮発性記憶装置２３０に格納されるモデルデータを参照する。図１６（Ｂ）は、モデルデータの概略図である。モデルデータ３２０は、学習済の要素検出モデルＭ２ｊのデータと、対応する要素の画像データとを、関連付けて格納している。

ここで、第１ラベルＬＢ１のための学習処理の前に、第２ラベルＬＢ２（図２（Ｃ））のための学習処理が行われることとする。この場合、第１ラベルＬＢ１のためのＳ１４０ｂ（図１６（Ａ））が実行される段階で、モデルデータ３２０は、第２ラベルＬＢ２の７個の要素ＥＬ１、ＥＬ３－ＥＬ５、ＥＬ７－ＥＬ９のための７個の要素検出モデルＭ２ｊに関するデータを、含んでいる。プロセッサ２１０は、モデルデータ３２０を参照して、第１ラベルＬＢ１の複数の要素ＥＬ１－ＥＬ７のそれぞれの要素検出モデルＭ２ｊが学習済であるか否かを判断する。本実施例では、プロセッサ２１０は、Ｓ１２０ａ（図９）で取得される要素領域の画像（すなわち、第１ラベルＬＢ１の要素の画像）と、モデルデータ３２０によって示される要素の画像と、のパターンマッチングを行う。プロセッサ２１０は、第１ラベルＬＢ１の要素の画像にマッチする画像がモデルデータ３２０から検出される場合、その要素の要素検出モデルＭ２ｊが学習済であると判断する。第２ラベルＬＢ２に含まれる要素ＥＬ１、ＥＬ３－ＥＬ５、ＥＬ７のそれぞれの要素検出モデルＭ２ｊは、学習済であると判断される。第２ラベルＬＢ２に含まれない要素ＥＬ２、ＥＬ６のそれぞれの要素検出モデルＭ２ｊは、未学習と判断される。

Ｓ１５０ｂ（図１６（Ａ））では、プロセッサ２１０は、未学習の要素（ここでは、未学習の要素検出モデルＭ２ｊに対応する要素）を、学習対象として選択する。プロセッサ２１０は、学習済の要素（ここでは、学習済の要素検出モデルＭ２ｊに対応する要素）を、学習対象として選択しない。すなわち、プロセッサ２１０は、学習済の要素を学習対象から除外する。以下、未学習の要素の総数が、Ｑであることとする。続く処理（図９のＳ１６０ａ－Ｓ２６０ａ）では、プロセッサ２１０は、Ｑ個の未学習の要素のそれぞれの要素検出モデルＭ２ｊを、学習する。Ｑ個の要素検出モデルＭ２ｊの学習が完了する場合（Ｓ２６０ａ：Ｙｅｓ）、プロセッサ２１０は、学習処理（図９、図１６（Ａ））を終了する。第１ラベルＬＢ１の７個の要素ＥＬ１－ＥＬ７に対応する７個の学習済の要素検出モデルＭ２ｊは、第１ラベルＬＢ１の検査処理（図１３）で使用される。

以上のように、本実施例では、第１ラベルＬＢ１（図２（Ｂ））のＮ個（ここでは、Ｎ＝７）の要素ＥＬ１－ＥＬ７は、第１要素ＥＬ１と、第２要素ＥＬ２と、を含んでいる。第１ラベルＬＢ１の検査に使用されるＮ個の要素検出モデルＭ２ｊは、第１要素ＥＬ１を検出するための第１要素検出モデルＭ２１と、第２要素ＥＬ２を検出するための第２要素検出モデルＭ２２と、を含んでいる。第１ラベルＬＢ１の検査で使用される第１要素検出モデルＭ２１は、第１ラベルＬＢ１とは異なる第２ラベルＬＢ２であって第１要素ＥＬ１を含む第２ラベルＬＢ２のために予め学習済の物体検出モデルである。第１ラベルＬＢ１の検査で使用される第２要素検出モデルＭ２２は、第１ラベルＬＢ１のために学習される物体検出モデルである。このように、第１ラベルＬＢ１の第１要素ＥＬ１のために、第２ラベルＬＢ２の第１要素ＥＬ１のために学習済の第１要素検出モデルＭ２１が、再使用される。従って、第１ラベルＬＢ１の検査のための負担（例えば、要素検出モデルＭ２ｊの学習の負担）は、軽減可能である。

また、第１ラベルＬＢ１の検査処理で使用されるＮ個の要素検出モデルＭ２ｊは、以下の処理を含む学習処理によって準備されている。Ｓ１４０ｂ（図１６（Ａ））では、プロセッサ２１０は、要素検出モデルＭ２ｊが学習済であるか否かを判断する。Ｓ１５０ｂ－Ｓ２６０ａ（図１６（Ａ）、図９）では、プロセッサ２１０は、要素検出モデルＭ２ｊが学習済でない場合に、要素検出モデルＭ２ｊを学習する。Ｓ１５０ｂでは、プロセッサ２１０は、要素検出モデルＭ２ｊが学習済である場合に、要素検出モデルＭ２ｊを学習の対象から除外する。このように、学習済の要素検出モデルＭ２ｊが学習の対象から除外される。従って、第１ラベルＬＢ１の検査のための負担（例えば、要素検出モデルＭ２ｊの学習の負担）は、軽減可能である。

また、本実施例では、第１ラベルＬＢ１のＮ個（ここでは、Ｎ＝７）の要素ＥＬ１－ＥＬ７は、第１要素ＥＬ１と第２要素ＥＬ２とに加えて、第６要素ＥＬ６を含んでいる。第１ラベルＬＢ１の検査に使用されるＮ個の要素検出モデルＭ２ｊは、第６要素ＥＬ６を検出するための要素検出モデルＭ２６を含んでいる。第６要素ＥＬ６は、第２ラベルＬＢ２（図２（Ｃ））には含まれない。従って、第６要素ＥＬ６のための要素検出モデルＭ２６は、第１ラベルＬＢ１のための学習処理で学習される。第２要素ＥＬ２のための要素検出モデルＭ２２と第６要素ＥＬ６のための要素検出モデルＭ２６は、第２要素ＥＬ２と第６要素ＥＬ６とを含む複数の要素を表す画像の画像データを使用して学習される。例えば、Ｓ２３０ａ（図９）では、第２要素ＥＬ２に対応する第２要素検出モデルＭ２２のために、第２要素ＥＬ２と第６要素ＥＬ６とを含む複数の要素を表す処理済合成画像Ｆ１ｂｘ（図１５（Ｂ））の画像データを含む画像データセットが選択される。そして、第６要素ＥＬ６に対応する要素検出モデルＭ２６のために、処理済合成画像Ｆ１ｂｘの画像データを含む画像データセットが選択される。このように、第２要素ＥＬ２に対応する要素検出モデルＭ２２の学習と、第６要素ＥＬ６に対応する要素検出モデルＭ２６の学習とに、同じ処理済合成画像Ｆ１ｂｘのデータが使用される。従って、Ｎ個の要素検出モデルＭ２ｊのそれぞれの学習のための画像データの総数を低減可能である。なお、第２要素ＥＬ２のためのデータセットは、第２要素ＥＬ２の画像を含む複数の学習画像のデータセットである。第６要素ＥＬ６のためのデータセットは、第６要素ＥＬ６の画像を含む複数の学習画像のデータセットである。

Ｅ．変形例：
（１）要素検出モデルＭ２ｊ（図９等）は、対応する要素の画像を含み、他の要素の画像を含まない学習画像のみを使用して学習されてよい。また、図１５の実施例では、共通の学習画像データが、複数の要素検出モデルＭ２ｊの学習に使用される。例えば、処理済合成画像Ｆ１ａｘは、第１要素検出モデルＭ２１の学習と、第２要素検出モデルＭ２２の学習と、に使用される。これに代えて、複数の要素検出モデルＭ２ｊは、互いに異なる学習画像データのセットを使用して、学習されてよい。

（２）上記の実施例では、学習画像データが、データ拡張処理によって生成される。学習画像のデータセットは、不具合の無い検出対象（例えば、第１ラベルＬＢ１、要素ＥＬ１－ＥＬ７など）の実物の撮影画像データを含んでよい。学習画像データは、撮影画像データのデータ拡張処理によって生成される画像データを含んでよい。学習画像データは、版下データの代わりに撮影画像データを使用して、生成されてよい。データ拡張処理による学習画像データの生成は、省略されてよい。例えば、１以上の撮影画像データが、学習画像データとして使用されてよい。学習画像のための撮影時の照明（具体的には、光源の種類と明るさ）と位置（具体的には、検出対象に対するデジタルカメラの位置）とは、学習画像の準備に適する種々の照明と位置とであってよい。照明と位置とは、作業者によって調整されてよい。学習画像データに関連付けられる注釈データの生成方法は、Ｓ２０３（図４）、Ｓ２０３ａ（図９）で説明した方法に代えて、他の種々の方法であってよい。例えば、プロセッサ２１０は、検出対象の基準画像を使用するパターンマッチングによって、注釈データを生成してよい。また、プロセッサ２１０は、作業者によって入力される情報を使用して、注釈データを生成してよい。例えば、プロセッサ２１０は、処理済合成画像を表示部２４０に表示する。作業者は、処理済合成画像に適するバウンディングボックスとクラスとを示す情報を、操作部２５０を介して、データ処理装置２００に入力する。プロセッサ２１０は、入力される情報を使用して、注釈データを生成する。

（３）第１種物体検出モデルＭ１は、ＹＯＬＯｖ４に代えて、他の種々の物体検出モデルであってよい（例えば、SSD(Single Shot MultiBox Detector)、R-CNN（Region Based Convolutional Neural Networks）など）。ＹＯＬＯ、ＳＳＤ、Ｒ－ＣＮＮなどのＣＮＮを使用する検出モデルは、オブジェクトの画像の検出に適している。ただし、第１種物体検出モデルＭ１は、ＣＮＮを含まない物体検出モデル（例えば、全結合層で構成されるモデル）であってよい。また、プロセッサ２１０は、第１種物体検出モデルＭ１を使用せずに、注目オブジェクト（例えば、第１ラベルＬＢ１）の基準画像を使用するパターンマッチングによって、注目オブジェクトを検出してよい。

同様に、第２種物体検出モデルＭ２、Ｍ２ｊは、ＹＯＬＯｖ４に代えて、他の種々の物体検出モデルであってよい。ＣＮＮを使用する検出モデルは、オブジェクトの画像の検出に適している。ただし、第２種物体検出モデルＭ２、Ｍ２ｊは、ＣＮＮを含まない物体検出モデル（例えば、全結合層で構成されるモデル）であってよい。第２種物体検出モデルＭ２、Ｍ２ｊは、第１種物体検出モデルＭ１と同じモデルであってよい。第２種物体検出モデルＭ２、Ｍ２ｊは、第１種物体検出モデルＭ１と異なるモデルであってよい。また、プロセッサ２１０は、第２種物体検出モデルＭ２、Ｍ２ｊを使用せずに、注目オブジェクト（例えば、第１ラベルＬＢ１、要素ＥＬ１－ＥＬ７など）の基準画像を使用するパターンマッチングによって、注目オブジェクトを検出してよい。

（４）物体検出モデルの学習処理は、上記の学習処理に代えて、他の種々の処理であってよい。例えば、Ｓ１４０ｂ（図１６（Ａ））の判断方法は、種々の方法であってよい。例えば、モデルデータ３２０（図１６（Ｂ））は、要素の識別子（例えば、識別番号）を、検出モデルに関連付けてよい。プロセッサ２１０は、Ｓ１２０ａ（図９）で取得される要素の画像を分析して要素の識別番号を決定し、決定された識別番号に関連する情報を、モデルデータ３２０から検索してよい。要素の識別番号を決定する方法は、種々の方法であってよい。例えば、プロセッサ２１０は、予め準備される要素の基準画像（図示せず）を使用するパターンマッチングによって、要素の画像の識別番号を決定してよい。また、作業者が、要素検出モデルＭ２ｊが学習済であるか否かを示す情報をデータ処理装置２００に入力してよい。例えば、プロセッサ２１０は、Ｓ１２０ａ（図９）で取得される要素の画像を、表示部２４０に表示する。作業者は、表示される画像を観察し、対応する要素検出モデルＭ２ｊが学習済であるか否かを示す情報を、操作部２５０を介して、データ処理装置２００に入力する。プロセッサ２１０は、入力される情報を使用して、要素検出モデルＭ２ｊが学習済であるか否かを判断する。

図９のＳ１２０ａにおける版下画像から要素領域を取得する処理は、背景画素と要素画素とを使用する処理に代えて、他の種々の処理であってよい。例えば、プロセッサ２１０は、予め準備される要素の基準画像（図示せず）を使用するパターンマッチングによって、要素領域を決定してよい。

なお、物体検出モデルの学習処理は、検査処理を実行するデータ処理装置２００とは異なる他の装置（例えば、他のデータ処理装置）によって、行われてよい。

（５）注目オブジェクトの検査処理は、上記の処理に代えて、他の種々の処理であってよい。例えば、第２入力画像ＩＭ２（図１４（Ａ））内の第１ラベルＬＢ１の向きは、版下画像Ｌ１（図１０）内の第１ラベルＬＢ１の向きと異なってよい。この場合、Ｓ４７５ａ（図１３）では、プロセッサ２１０は、第２入力画像ＩＭ２の回転処理によって第１ラベルＬＢ１の向きを版下画像Ｌ１内の第１ラベルＬＢ１の向きに合せてから、対象位置情報を取得することが好ましい。回転処理のための回転角度の決定方法は、種々の方法であってよい。例えば、プロセッサ２１０は、第２入力画像ＩＭ２と版下画像Ｌ１とのパターンマッチングによって、角度を決定してよい。

また、プロセッサ２１０は、第２入力画像ＩＭ２から検出される第１ラベルＬＢ１の画像と、第１ラベルＬＢ１の基準画像と、の間の差分画像のデータを、検査結果を示すデータとして生成してよい。基準画像は、予め決められた画像であってよい。これに代えて、基準画像は、不具合を有する第１ラベルＬＢ１の画像から不具合のない第１ラベルＬＢ１の画像を生成するように学習された画像生成モデル（例えば、オートエンコーダ）によって生成される画像であってよい。

（６）注目オブジェクトは、複合機９００に限らず、種々の製品に設けられるラベルであってよい。製品は、プリンタ、ミシン、工作機械、カッティングマシーン、スキャナ、スマートフォンなど、任意の製品であってよい。また、製品は、他の製品の部品であってよい。例えば、注目オブジェクトは、複合機に取り付けられる部品である排紙トレーに設けられるラベルであってよい。

（７）注目オブジェクトは、ラベルに代えて、他の任意のオブジェクトであってよい。例えば、注目オブジェクトは、立体的な銘（製造者のロゴ、製品のブランドなど）、または、塗装された模様であってよい。

（８）図１のデータ処理装置２００は、パーソナルコンピュータとは異なる種類の装置（例えば、デジタルカメラ、スキャナ、スマートフォン）であってよい。また、ネットワークを介して互いに通信可能な複数の装置（例えば、コンピュータ）が、データ処理装置によるデータ処理の機能を一部ずつ分担して、全体として、データ処理の機能を提供してもよい（これらの装置を備えるシステムがデータ処理装置に対応する）。

上記各実施例において、ハードウェアによって実現されていた構成の一部をソフトウェアに置き換えるようにしてもよく、逆に、ソフトウェアによって実現されていた構成の一部あるいは全部をハードウェアに置き換えるようにしてもよい。例えば、第１種物体検出モデルＭ１の機能は、専用のハードウェア回路によって実現されてよい。

また、本開示の機能の一部または全部がコンピュータプログラムで実現される場合には、そのプログラムは、コンピュータ読み取り可能な記録媒体（例えば、一時的ではない記録媒体）に格納された形で提供することができる。プログラムは、提供時と同一または異なる記録媒体（コンピュータ読み取り可能な記録媒体）に格納された状態で、使用され得る。「コンピュータ読み取り可能な記録媒体」は、メモリーカードやＣＤ－ＲＯＭのような携帯型の記録媒体に限らず、各種ＲＯＭ等のコンピュータ内の内部記憶装置や、ハードディスクドライブ等のコンピュータに接続されている外部記憶装置も含み得る。

上記した実施の形態は、本開示の理解を容易にするためのものであり、本発明を限定するものではない。本発明は、その趣旨を逸脱することなく、変更、改良され得ると共に、本発明にはその等価物が含まれる。

１１０…デジタルカメラ、２００…データ処理装置、２１０…プロセッサ、２１５…記憶装置、２２０…揮発性記憶装置、２３０…不揮発性記憶装置、２３１…第１プログラム、２３２…第２プログラム、２３３…第３プログラム、２４０…表示部、２５０…操作部、２７０…通信インタフェース、３１０…相対位置情報（３１０…参考位置情報）、３２０…モデルデータ、９００…複合機、Ｍ１…第１種物体検出モデル、Ｍ２…第２種物体検出モデル、Ｍ２ｊ…第２種物体検出モデル（要素検出モデル）、Ｄｘ…第１方向、Ｄｙ…第２方向

Claims

コンピュータプログラムであって、
第１オブジェクトの撮影画像の第１画像データであって前記第１オブジェクトを第１画素数で表す前記第１画像データを使用して、前記撮影画像から前記第１オブジェクトを表す第１種領域を検出する第１検出機能と、
前記撮影画像のうちの前記第１種領域を含む部分画像であって前記撮影画像から前記第１種領域を除いた残りの領域の少なくとも一部を含まない前記部分画像を表す前記第２画像データを使用して、前記部分画像から前記第１オブジェクトの少なくとも一部を表す第２種領域を検出する第２検出機能であって、前記第２画像データは前記第１オブジェクトを前記第１画素数よりも多い第２画素数で表す、前記第２検出機能と、
前記第２種領域の検出結果を使用して前記第１オブジェクトを検査する検査機能と、
をコンピュータに実現させる、コンピュータプログラム。
請求項１に記載のコンピュータプログラムであって、
前記第１オブジェクトは、ラベルである、
コンピュータプログラム。
請求項１または２に記載のコンピュータプログラムであって、
前記第１オブジェクトは、Ｎ個（Ｎは２以上の整数）の要素を含み、
前記第２検出機能は、前記部分画像から前記Ｎ個の要素をそれぞれ表すＮ個の第２種領域を検出する要素検出機能を含み、
前記検査機能は、前記Ｎ個の第２種領域の位置関係と、予め決められた前記Ｎ個の要素の位置関係と、を比較することによって、前記第１オブジェクトを検査する機能を含む、
コンピュータプログラム。
請求項３に記載のコンピュータプログラムであって、
前記要素検出機能は、前記Ｎ個の要素をそれぞれ検出するように学習済のＮ個の物体検出モデルを使用して、前記部分画像から前記Ｎ個の要素をそれぞれ表す前記Ｎ個の第２種領域を検出する機能を含む、
コンピュータプログラム。
請求項４に記載のコンピュータプログラムであって、
前記Ｎ個の物体検出モデルのそれぞれは、対応する要素と他の要素とを含む複数の要素を表す画像の画像データを使用して学習されている、
コンピュータプログラム。
請求項４に記載のコンピュータプログラムであって、
前記Ｎ個の要素は、第１要素と第２要素とを含み、
前記Ｎ個の物体検出モデルは、前記第１要素を検出するための第１物体検出モデルと、前記第２要素を検出するための第２物体検出モデルと、を含み、
前記第１物体検出モデルは、前記第１要素と前記第２要素とを含む複数の要素を表す画像の第１画像データを含む第１の画像データセットを使用して学習されており、
前記第２物体検出モデルは、前記第１画像データを含む第２の画像データセットを使用して学習されている、
コンピュータプログラム。
請求項４に記載のコンピュータプログラムであって、
前記Ｎ個の要素は、第１要素と第２要素とを含み、
前記Ｎ個の物体検出モデルは、前記第１要素を検出するための第１物体検出モデルと、前記第２要素を検出するための第２物体検出モデルと、を含み、
前記第１物体検出モデルは、前記第１オブジェクトとは異なるとともに前記第１要素を含む第２オブジェクトのために予め学習済の物体検出モデルであり、
前記第２物体検出モデルは、前記第１オブジェクトのために学習される物体検出モデルである、
コンピュータプログラム。
請求項７に記載のコンピュータプログラムであって、
前記Ｎ個の物体検出モデルのそれぞれは、
前記物体検出モデルが学習済であるか否かの判断と、
前記物体検出モデルが学習済でない場合の前記物体検出モデルの学習と、
前記物体検出モデルが学習済である場合の前記物体検出モデルの学習の対象からの除外と、
を含む処理によって準備されている、
コンピュータプログラム。
請求項７に記載のコンピュータプログラムであって、
前記Ｎ個の要素は、さらに、第３要素を含み、
前記Ｎ個の物体検出モデルは、さらに、前記第３要素を検出するための第３物体検出モデルを含み、
前記第３物体検出モデルは、前記第１オブジェクトのために学習される物体検出モデルであり、
前記第２物体検出モデルは、前記第２要素と前記第３要素とを含む複数の要素を表す画像の第３画像データを含む第３の画像データセットを使用して学習されており、
前記第３物体検出モデルは、前記第３画像データを含む第４の画像データセットを使用して学習されている、
コンピュータプログラム。
請求項１または２に記載のコンピュータプログラムであって、
前記第１検出機能は、前記第１オブジェクトを検出するように学習済の第１種物体検出モデルを使用して、前記撮影画像から前記第１オブジェクトを表す前記第１種領域を検出する機能を含み、
前記第２検出機能は、前記第１オブジェクトの前記少なくとも一部を検出するように学習済の第２種物体検出モデルを使用して、前記部分画像から前記第１オブジェクトの少なくとも一部を表す前記第２種領域を検出する機能を含む、
コンピュータプログラム。
データ処理装置であって、
第１オブジェクトの撮影画像の第１画像データであって前記第１オブジェクトを第１画素数で表す前記第１画像データを使用して、前記撮影画像から前記第１オブジェクトを表す第１種領域を検出する第１検出部と、
前記撮影画像のうちの前記第１種領域を含む部分画像であって前記撮影画像から前記第１種領域を除いた残りの領域の少なくとも一部を含まない前記部分画像を表す前記第２画像データを使用して、前記部分画像から前記第１オブジェクトの少なくとも一部を表す第２種領域を検出する第２検出部であって、前記第２画像データは前記第１オブジェクトを前記第１画素数よりも多い第２画素数で表す、前記第２検出部と、
前記第２種領域の検出結果を使用して前記第１オブジェクトを検査する検査部と、
を備える、データ処理装置。