JP7338030B2

JP7338030B2 - 物体認識装置、方法及びプログラム

Info

Publication number: JP7338030B2
Application number: JP2022500365A
Authority: JP
Inventors: 一央岩見; 真司羽田
Original assignee: Fujifilm Toyama Chemical Co Ltd
Current assignee: Fujifilm Toyama Chemical Co Ltd
Priority date: 2020-02-14
Filing date: 2021-02-05
Publication date: 2023-09-04
Anticipated expiration: 2041-02-05
Also published as: WO2021161903A1; JPWO2021161903A1; US20220375094A1

Description

本発明は物体認識装置、方法及びプログラム並びに学習データに係り、特に複数の対象物体が撮影された撮影画像から、複数の対象物体の２以上の対象物体が点又は線で接触する個々の対象物体を認識する技術に関する。

特許文献１には、機械学習を利用した複数の対象物体のセグメンテーションにおいて、セグメンテーション対象の領域間の境界を精度よく検出する画像処理装置が記載されている。

特許文献１に記載の画像処理装置は、セグメンテーション対象の被写体像を有する処理対象画像を取得する画像取得部と、第１機械学習により学習した被写体像の特徴を、第１機械学習により学習した態様により強調した強調画像を生成する画像特徴検出器と、強調画像及び処理対象画像に基づいて、第２機械学習により学習した態様により、被写体像に対応する領域をセグメンテーションするセグメンテーション器と、を備える。

即ち、画像特徴検出器は、第１機械学習により学習した被写体像の特徴を、第１機械学習により学習した態様により強調した強調画像（エッジ画像）を生成する。セグメンテーション器は、エッジ画像と処理対象画像とを入力し、第２機械学習により学習した態様により、被写体像に対応する領域をセグメンテーションする。これにより、被写体像の領域間の境界を精度よく検出する。

特開２０１９－１３３４３３号公報

特許文献１に記載の画像処理装置は、処理対象画像とは別に、処理対象画像内の被写体像の特徴を強調した強調画像（エッジ画像）を作成し、エッジ画像と処理対象画像とを入力画像とし、被写体像に対応する領域を抽出するが、エッジ画像を適切に生成できることが前提になっている。

また、複数の対象物体が接触している場合、どのエッジがどの対象物体のものであるかを認識するのは難しい。

例えば、服用１回分の複数の薬剤を対象物体とし、特に複数の薬剤が一包化される場合には、薬剤同士が点又は線で接触していることが多い。

接触している各薬剤の形状が未知の場合、薬剤のエッジを検出しても、そのエッジが対象薬剤のエッジか、又は他の薬剤のエッジかの判断が難しい。そもそも各薬剤のエッジが綺麗に出ている（撮影されている）とは限らない。

したがって、複数の薬剤の全部又は一部が点又は線で接触している場合、各薬剤の領域を認識するのは難しい。

本発明はこのような事情に鑑みてなされたもので、複数の対象物体が撮影された撮影画像から個々の対象物体を精度よく認識することができる物体認識装置、方法及びプログラム並びに学習データを提供することを目的とする。

上記目的を達成するために第１態様に係る発明は、プロセッサを備え、プロセッサにより複数の対象物体が撮影された撮影画像から複数の対象物体をそれぞれ認識する物体認識装置であって、プロセッサは、複数の対象物体の２以上の対象物体が点又は線で接触する撮影画像を取得する画像取得処理と、撮影画像における点又は線で接触する箇所のみを示すエッジ画像を取得するエッジ画像取得処理と、撮影画像とエッジ画像とを入力し、撮影画像から複数の対象物体をそれぞれ認識し、認識結果を出力する出力処理と、を行う。

本発明の第１態様によれば、複数の対象物体が撮影された撮影画像から個々の対象物体をそれぞれ認識する場合に、対象物体が点又は線で接触する箇所の特徴量を考慮する。即ち、プロセッサは、複数の対象物体の２以上の対象物体が点又は線で接触する撮影画像を取得すると、取得した撮影画像における点又は線で接触する箇所のみを示すエッジ画像を取得する。そして、撮影画像とエッジ画像とを入力し、撮影画像から複数の対象物体をそれぞれ認識し、認識結果を出力する。

本発明の第２態様に係る物体認識装置において、プロセッサは、エッジ画像取得処理を行う第１認識器を有し、第１認識器は、複数の対象物体の２以上の対象物体が点又は線で接触する撮影画像を入力すると、撮影画像における点又は線で接触する箇所のみを示すエッジ画像を出力することが好ましい。

本発明の第３態様に係る物体認識装置において、第１認識器は、複数の対象物体を含む撮影画像であって、複数の対象物体の２以上の対象物体が点又は線で接触する撮影画像を第１学習用画像とし、第１学習用画像における点又は線で接触する箇所のみを示すエッジ画像を第１正解データとして、第１学習用画像と第１正解データとのペアからなる第１学習データに基づいて機械学習された機械学習済みの第１学習モデルであることが好ましい。

本発明の第４態様に係る物体認識装置において、プロセッサは、第２認識器を有し、第２認識器は、撮影画像とエッジ画像とを入力し、撮影画像に含まれる複数の対象物体をそれぞれ認識し、認識結果を出力することが好ましい。

本発明の第５態様に係る物体認識装置において、第２認識器は、複数の対象物体を含む撮影画像であって、複数の対象物体の２以上の対象物体が点又は線で接触する撮影画像と撮影画像における点又は線で接触する箇所のみを示すエッジ画像とを第２学習用画像とし、撮影画像における複数の対象物体の領域を示す領域情報を第２正解データとして、第２学習用画像と第２正解データとのペアからなる第２学習データに基づいて機械学習された機械学習済みの第２学習モデルであることが好ましい。

本発明の第６態様に係る物体認識装置において、プロセッサは、第３認識器を備え、プロセッサは、撮影画像とエッジ画像とを入力し、撮影画像のエッジ画像の部分を、撮影画像の背景色で置換する画像処理を行い、第３認識器は、画像処理された撮影画像を入力し、撮影画像に含まれる複数の対象物体をそれぞれ認識し、認識結果を出力することが好ましい。

本発明の第７態様に係る物体認識装置において、プロセッサの出力処理は、撮影画像から各対象物体を示す対象物体画像を切り出すマスク処理に使用する対象物体画像毎のマスク画像、対象物体画像の領域を矩形で囲む対象物体画像毎のバウンディングボックス情報、及び対象物体画像の領域のエッジを示す対象物体画像毎のエッジ情報のうちの少なくとも１つを、認識結果として出力することが好ましい。

本発明の第８態様に係る物体認識装置において、複数の対象物体は、複数の薬剤であることが好ましい。複数の薬剤は、例えば、薬包に収納される服用一回分の複数の薬剤、一日分の複数の薬剤、一回の調剤分の複数の薬剤などである。

第９態様に係る発明は、複数の対象物体を含む撮影画像であって、複数の対象物体の２以上の対象物体が点又は線で接触する撮影画像を第１学習用画像とし、第１学習用画像における点又は線で接触する箇所のみを示すエッジ画像を第１正解データとして、第１学習用画像と第１正解データとのペアからなる学習データである。

第１０態様に係る発明は、複数の対象物体を含む撮影画像であって、複数の対象物体の２以上の対象物体が点又は線で接触する撮影画像と撮影画像における点又は線で接触する箇所のみを示すエッジ画像とを第２学習用画像とし、撮影画像における複数の対象物体の領域を示す領域情報を第２正解データとして、第２学習用画像と第２正解データとのペアからなる学習データである。

第１１態様に係る発明は、プロセッサが、以下の各ステップの処理を行うことにより複数の対象物体が撮影された撮影画像から複数の対象物体をそれぞれ認識する物体認識方法であって、複数の対象物体の２以上の対象物体が点又は線で接触する撮影画像を取得するステップと、撮影画像における点又は線で接触する箇所のみを示すエッジ画像を取得するステップと、撮影画像とエッジ画像とを入力し、撮影画像から複数の対象物体をそれぞれ認識し、認識結果を出力するステップと、を含む。

本発明の第１２態様に係る物体認識方法において、認識結果を出力するステップは、撮影画像から各対象物体を示す対象物体画像を切り出すマスク処理に使用する対象物体画像毎のマスク画像、対象物体画像の領域を矩形で囲む対象物体画像毎のバウンディングボックス情報、及び対象物体画像毎の領域のエッジを示すエッジ情報のうちの少なくとも１つを、認識結果として出力することが好ましい。

本発明の第１３態様に係る物体認識方法において、複数の対象物体は、複数の薬剤であることが好ましい。

第１４態様に係る発明は、複数の対象物体を含む撮影画像であって、複数の対象物体の２以上の対象物体が点又は線で接触する撮影画像を取得する機能と、撮影画像における点又は線で接触する箇所のみを示すエッジ画像を取得する機能と、撮影画像とエッジ画像とを入力し、撮影画像から複数の対象物体をそれぞれ認識し、認識結果を出力する機能と、をコンピュータにより実現させる物体認識プログラムである。

本発明によれば、複数の対象物体が撮影された撮影画像から、複数の対象物体の２以上の対象物体が点又は線で接触する個々の対象物体を精度よく認識することができる。

図１は、本発明に係る物体認識装置のハードウェア構成の一例を示すブロック図である。図２は、図１に示した撮影装置の概略構成を示すブロック図である。図３は、複数の薬剤が一包化された３つの薬包を示す平面図である。図４は、撮影装置の概略構成を示す平面図である。図５は、撮影装置の概略構成を示す側面図である。図６は、本発明に係る物体認識装置の第１実施形態を示すブロック図である。図７は、画像取得部が取得する撮影画像の一例を示す図である。図８は、第１認識器により取得される複数の薬剤の点又は線で接触する箇所のみを示すエッジ画像の一例を示す図である。図９は、第２認識器（第２学習モデル）を構成する学習モデルの一つであるＣＮＮの代表的な構成例を示す模式図である。図１０は、図９に示した第２認識器の中間層の構成例を示す模式図である。図１１は、第２認識器による認識結果の一例を示す図である。図１２は、Ｒ－ＣＮＮによる物体認識のプロセスを示す図である。図１３は、ＭａｓｋＲ－ＣＮＮにより認識された薬剤のマスク画像を示す図である。図１４は、本発明に係る物体認識装置の第２実施形態を示すブロック図である。図１５は、画像処理部により画像処理された撮影画像を示す図である。図１６は、本発明に係る物体認識方法の実施形態を示すフローチャートである。

以下、添付図面に従って本発明に係る物体認識装置、方法及びプログラム並びに学習データの好ましい実施形態について説明する。

［物体認識装置の構成］
図１は、本発明に係る物体認識装置のハードウェア構成の一例を示すブロック図である。

図１に示す物体認識装置２０は、例えば、コンピュータにより構成することができ、主として画像取得部２２、ＣＰＵ（Central Processing Unit）２４、操作部２５、ＲＡＭ(Random Access Memory)２６、ＲＯＭ(Read Only Memory)２８、及び表示部２９から構成されている。

画像取得部２２は、撮影装置１０により対象物体が撮影された撮影画像を、撮影装置１０から取得する。

撮影装置１０により撮影される対象物体は、撮影範囲内に存在する複数の対象物体であり、本例の対象物体は、服用１回分の複数の薬剤である。複数の薬剤は、薬包に入っているものでもよいし、薬包に入れる前のものでもよい。

図３は、複数の薬剤が一包化された３つの薬包を示す平面図である。

図３に示す各薬包ＴＰには、６個の薬剤Ｔが分包されている。図３中の左の薬包ＴＰ、及び中央の薬包ＴＰに入っている６個の薬剤Ｔは、６個の薬剤Ｔの全部又は一部の薬剤が点又は線で接触し、図３中の右の薬包ＴＰに入っている６個の薬剤は、それぞれ離れている。

図２は、図１に示した撮影装置の概略構成を示すブロック図である。

図２に示す撮影装置１０は、薬剤を撮影する２台のカメラ１２Ａ、１２Ｂと、薬剤を照明する２台の照明装置１６Ａ，１６Ｂと、撮影制御部１３とから構成されている。

図４及び図５は、それぞれ撮影装置の概略構成を示す平面図及び側面図である。

各薬包ＴＰは、帯状に連結されており、各薬包ＴＰを切り離し可能にする切取線が入っている。

薬包ＴＰは、水平（ｘ－ｙ平面）に設置された透明なステージ１４の上に載置される。

カメラ１２Ａ、１２Ｂは、ステージ１４と直交する方向（ｚ方向）に、ステージ１４を挟んで互いに対向して配置される。カメラ１２Ａは、薬包ＴＰの第１面（表面）に正対し、薬包ＴＰの第１面を撮影する。カメラ１２Ｂは、薬包ＴＰの第２面（裏面）に正対し、薬包ＴＰの第２面を撮影する。尚、薬包ＴＰは、ステージ１４に接する面を第２面とし、第２面と反対側の面を第１面とする。

ステージ１４を挟んで、カメラ１２Ａの側には、照明装置１６Ａが備えられ、カメラ１２Ｂの側には、照明装置１６Ｂが備えられる。

照明装置１６Ａは、ステージ１４の上方に配置され、ステージ１４に載置された薬包ＴＰの第１面に照明光を照射する。照明装置１６Ａは、放射状に配置された４つの発光部１６Ａ１～１６Ａ４を有し、直交する４方向から照明光を照射する。各発光部１６Ａ１～１６Ａ４の発光は、個別に制御される。

照明装置１６Ｂは、ステージ１４の下方に配置され、ステージ１４に載置された薬包ＴＰの第２面に照明光を照射する。照明装置１６Ｂは、照明装置１６Ａと同様に放射状に配置された４つの発光部１６Ｂ１～１６Ｂ４を有し、直交する４方向から照明光を照射する。各発光部１６Ｂ１～１６Ｂ４の発光は、個別に制御される。

撮影は、次のように行われる。まず、カメラ１２Ａを用いて、薬包ＴＰの第１面（表面）が撮影される。撮影の際には、照明装置１６Ａの各発光部１６Ａ１～１６Ａ４を順次発光させ、４枚の画像の撮影を行い、続いて、各発光部１６Ａ１～１６Ａ４を同時に発光させ、１枚の画像の撮影を行う。次に、下方の照明装置１６Ｂの各発光部１６Ｂ１～１６Ｂ４を同時に発光させるとともに、図示しないリフレクタを挿入し、リフレクタを介して薬包ＴＰを下から照明し、カメラ１２Ａを用いて上方から薬包ＴＰの撮影を行う。

各発光部１６Ａ１～１６Ａ４を順次発光させて撮影される４枚の画像は、それぞれ照明方向が異なっており、薬剤の表面に刻印（凹凸）がある場合に刻印による影の出方が異なるものとなる。これらの４枚の撮影画像は、薬剤Ｔの表面側の刻印を強調した刻印画像を生成するために使用される。

各発光部１６Ａ１～１６Ａ４を同時に発光させて撮影される１枚の画像は、輝度ムラのない画像であり、例えば、薬剤Ｔの表面側の画像（薬剤画像）を切り出す場合に使用され、また、刻印画像が重畳される撮影画像である。

また、リフレクタを介して薬包ＴＰを下方から照明し、カメラ１２Ａを用いて上方から薬包ＴＰが撮影される画像は、複数の薬剤Ｔの領域を認識する場合に使用される撮影画像である。

次に、カメラ１２Ｂを用いて、薬包ＴＰの第２面（裏面）が撮影される。撮影の際には、照明装置１６Ｂの各発光部１６Ｂ１～１６Ｂ４を順次発光させ、４枚の画像の撮影を行い、続いて、各発光部１６Ｂ１～１６Ｂ４を同時に発光させ、１枚の画像の撮影を行う。

４枚の撮影画像は、薬剤Ｔの裏面側の刻印を強調した刻印画像を生成するために使用され、各発光部１６Ｂ１～１６Ｂ４を同時に発光させて撮影される１枚の画像は、輝度ムラのない画像であり、例えば、薬剤Ｔの裏面側の薬剤画像を切り出す場合に使用され、また、刻印画像が重畳される撮影画像である。

図２に示した撮影制御部１３は、カメラ１２Ａ、１２Ｂ、及び照明装置１６Ａ、１６Ｂを制御し、１つの薬包ＴＰに対して１１回の撮影（カメラ１２Ａで６回、カメラ１２Ｂで５回の撮影）を行わせる。

尚、１つの薬包ＴＰに対する撮影の順番、撮影枚数は上記の例に限らない。また、複数の薬剤Ｔの領域を認識するときに使用される撮影画像は、リフレクタを介して薬包ＴＰを下方から照明し、カメラ１２Ａを用いて上方から薬包ＴＰを撮影した画像に限らず、例えば、各発光部１６Ａ１～１６Ａ４を同時に発光させてカメラ１２Ａで撮影される画像、あるいは各発光部１６Ａ１～１６Ａ４を同時に発光させてカメラ１２Ａで撮影される画像に対してエッジが強調処理された画像等を使用することができる。

また、撮影は暗室の状態で行われ、撮影の際に薬包ＴＰに照射される光は、照明装置１６Ａ、又は照明装置１６Ｂからの照明光のみである。したがって、上記のようにして撮影される１１枚の撮影画像のうち、リフレクタを介して薬包ＴＰを下方から照明し、カメラ１２Ａを用いて上方から薬包ＴＰを撮影した画像は、背景が光源の色（白色）になり、各薬剤Ｔの領域が遮光されて黒くなる。一方、他の１０枚の撮影画像は、背景が黒く、各薬剤の領域が薬剤の色になる。

尚、リフレクタを介して薬包ＴＰを下方から照明し、カメラ１２Ａを用いて上方から薬包ＴＰを撮影した画像であっても、薬剤全体が透明（半透明）な透明薬剤、あるいは一部又は全部が透明なカプセルに粉末又は顆粒状の医薬が充填されたカプセル剤（一部が透明な薬剤）の場合、薬剤の領域から光が透過するため、不透明な薬剤のように真っ黒にならない。

図５に戻って、薬包ＴＰは、回転するローラ１８にニップされて、ステージ１４に搬送される。薬包ＴＰは、搬送過程で均しが行われ、重なりが解消される。複数の薬包ＴＰが帯状に連なった薬包帯の場合は、１つの薬包ＴＰの撮影が終わると、１包分の長さだけ長手方向（ｘ方向）に搬送され、次の薬包ＴＰの撮影が行われる。

図１に示す物体認識装置２０は、複数の薬剤が撮影された撮影画像から複数の薬剤をそれぞれ認識するものであり、特に撮影画像内に存在する各薬剤Ｔの領域を認識する。

したがって、物体認識装置２０の画像取得部２２は、撮影装置１０により撮影される１１枚の撮影画像のうちの、複数の薬剤Ｔの領域を認識する場合に使用される撮影画像（即ち、リフレクタを介して薬包ＴＰを下方から照明し、カメラ１２Ａを用いて上方から薬包ＴＰを撮影した撮影画像）を取得する。

ＣＰＵ２４は、ＲＡＭ２６を作業領域とし、ＲＯＭ２８、又は図示しないハードディスク装置に記憶された物体認識プログラムを含む各種のプログラム、パラメータを使用し、ソフトウェアを実行するとともに、ＲＯＭ２８等に記憶されたパラメータを使用することで本装置の各種の処理を実行する。

操作部２５は、キーボード、マウス等を含み、ユーザの操作により各種の情報や指示を入力する部分である。

表示部２９は、操作部２５での操作に必要な画面を表示し、ＧＵＩ（Graphical User Interface）を実現する部分として機能し、また、複数の対象物体の認識結果等を表示することができる。

尚、本例のＣＰＵ２４、ＲＡＭ２６及びＲＯＭ２８等はプロセッサを構成し、プロセッサは、以下に示す各種の処理を行う。

［物体認識装置の第１実施形態］
図６は、本発明に係る物体認識装置の第１実施形態を示すブロック図である。

図６に示す第１実施形態の物体認識装置２０－１は、図１に示した物体認識装置２０のハードウェア構成により実行される機能を示す機能ブロック図であり、画像取得部２２、第１認識器３０、及び第２認識器３２を備えている。

画像取得部２２は、前述したように撮影装置１０から、複数の薬剤Ｔの領域を認識する場合に使用される撮影画像を取得する（画像取得処理を行う）。

図７は、画像取得部が取得する撮影画像の一例を示す図である。

図７に示す撮影画像ＩＴＰ１は、リフレクタを介して薬包ＴＰを下方から照明し、カメラ１２Ａを用いて上方から薬包ＴＰ（図３、図４に示す中央の薬包ＴＰ）を撮影した画像である。この薬包ＴＰには、６個の薬剤Ｔ（Ｔ１～Ｔ６）が一包化されている。

図７に示す薬剤Ｔ１は、他の薬剤Ｔ２～Ｔ６から孤立しているが、カプセル状の薬剤Ｔ２とＴ３とは線で接触しており、薬剤Ｔ４～Ｔ６は互いに点で接触している。また、薬剤Ｔ６は、透明薬剤である。

図６に示す第１認識器３０は、画像取得部２２が取得した撮影画像ＩＴＰ１を入力し、撮影画像ＩＴＰ１から複数の薬剤Ｔ１～Ｔ６の点又は線で接触する箇所のみを示すエッジ画像を取得するエッジ画像取得処理を行う。

図８は、第１認識器により取得される複数の薬剤の点又は線で接触する箇所のみを示すエッジ画像の一例を示す図である。

図８に示すエッジ画像ＩＥは、複数の薬剤Ｔ１～Ｔ６のうちの２以上の薬剤が点又は線で接触する箇所Ｅ１、Ｅ２のみを示す画像であり、図８上で、実線で示した画像である。尚、図８上で、点線で示した領域は、複数の薬剤Ｔ１～Ｔ６が存在する領域を示す。

線で接触する箇所Ｅ１のエッジ画像は、カプセル状の薬剤Ｔ２とＴ３とが線で接触している箇所の画像であり、点で接触する箇所Ｅ２のエッジ画像は、３つの薬剤Ｔ４～Ｔ６が互いに点で接触している箇所の画像である。

＜第１認識器＞
第１認識器３０は、以下に示す学習データ（第１学習データ）に基づいて機械学習された機械学習済みの学習モデル（第１学習モデル）で構成することができる。

≪学習データ（第１学習データ）及びその作成方法≫
第１学習データは、複数の対象物体（本例では、「薬剤」）を含む撮影画像であって、複数の薬剤の２以上の薬剤が点又は線で接触する撮影画像を学習用画像（第１学習用画像）とし、第１学習用画像における点又は線で接触する箇所のみを示すエッジ画像を正解データ（第１正解データ）として、第１学習用画像と第１正解データとのペアからなる学習データである。

図７に示したような撮影画像ＩＴＰ１であって、複数の薬剤の配置、薬剤の種類、薬剤の数等が異なる多数の撮影画像を第１学習用画像として準備する。各第１学習用画像は、複数の薬剤の２以上の薬剤が点又は線で接触する撮影画像とする。この場合、複数の薬剤は、薬包に入っているものに限らない。

また、第１学習用画像に対応する正解データ（第１正解データ）を準備する。第１正解データは、第１学習用画像をディスプレイに表示し、ユーザが２以上の薬剤が点又は線で接触している箇所を目視で確認し、点又は線で接触している箇所をポインティングデバイスで指示することで、作成することができる。

図８は、複数の薬剤の点又は線で接触する箇所のみを示すエッジ画像の一例を示す図である。

図７に示したような撮影画像ＩＴＰ１を第１学習用画像とする場合、図８に示したエッジ画像ＩＥを第１正解データとし、第１学習用画像（撮影画像ＩＴＰ１）と第１正解データ（エッジ画像ＩＥ）とのペアを第１学習データとする。

第１正解データは、２以上の薬剤が点又は線で接触している箇所をポインティングデバイスで指示することで作成することができるため、物体の領域を塗り潰して物体認識用の正解データ（正解画像）を作成するよりも簡単に作成することができる。

また、第１学習データは、以下の方法により水増しすることができる。

１枚の第１学習用画像と、第１学習用画像内の薬剤の領域を示す情報（例えば、第１学習用画像から複数の薬剤画像をそれぞれ切り出すための複数のマスク画像）とを準備する。複数のマスク画像は、ユーザが各薬剤の領域を塗り潰すことで作成することができる。

続いて、複数のマスク画像により第１学習用画像から複数の薬剤の領域をくり抜いた複数の薬剤画像を取得する。

このようにして取得した複数の薬剤画像を任意に配置し、多数の第１学習用画像を作成する。この場合、複数の薬剤のうちの２以上の薬剤が点又は線で接触するように、各薬剤画像を平行移動させ、あるいは回転させる。

上記のようにして作成される第１学習用画像における各薬剤画像の配置は既知であるため、複数の薬剤のうちの２以上の薬剤が点又は線で接触する箇所も既知である。したがって、作成される第１学習用画像に対して、点又は線で接触する箇所のみを示すエッジ画像（第１正解データ）を自動的に作成することができる。

尚、複数の薬剤画像を任意に配置する場合、透明薬剤（例えば、図７に示す薬剤Ｔ６）の薬剤画像は固定し、他の薬剤画像を任意に配置することが好ましい。透明薬剤は、撮影領域内の位置や向きにより、透明薬剤を透過する光が変化し、透明薬剤の薬剤画像が変化するためである。

これにより、少ない第１学習用画像と第１学習用画像内の薬剤の領域を示すマスク画像とを使用して、多数の第１学習データを作成することができる。

第１認識器３０は、上記のようにして作成された第１学習データに基づいて機械学習された機械学習済みの第１学習モデルで構成することができる。

第１学習モデルは、例えば、畳み込みニューラルネットワーク（ＣＮＮ： Convolutional Neural Network））で構成されるものが考えられる。

図６に戻って、第１認識器３０は、画像取得部２２が取得した撮影画像（例えば、図７に示した撮影画像ＩＴＰ１）を入力すると、撮影画像ＩＴＰ１における複数の薬剤（Ｔ１～Ｔ６）の点又は線で接触する箇所のみを示すエッジ画像（図８に示すエッジ画像ＩＥ）を認識結果として出力する。

即ち、第１認識器３０は、画像取得部２２が取得した撮影画像（例えば、図７に示した撮影画像ＩＴＰ１）を入力すると、撮影画像ＩＴＰ１内のピクセル単位、もしくはいくつかのピクセルを一塊にした単位で、点又は線で接触する箇所の領域分類（セグメンテーション）を行い、例えば、点又は線で接触する箇所のピクセルには、「１」を割り当て、それ以外のピクセルには、「０」を割り当てることで、複数の薬剤（Ｔ１～Ｔ６）の点又は線で接触する箇所のみを示す２値のエッジ画像（図８に示すエッジ画像ＩＥ）を認識結果として出力する。

＜第２認識器＞
第２認識器３２は、画像取得部２２が取得した撮影画像ＩＴＰ１と、第１認識器３０が認識したエッジ画像ＩＥとを入力し、撮影画像ＩＴＰ１に撮影されている複数の対象物体（薬剤Ｔ）をそれぞれ認識し、その認識結果を出力する。

第２認識器３２は、以下に示す学習データ（第２学習データ）に基づいて機械学習された機械学習済みの第２学習モデルで構成することができる。

≪学習データ（第２学習データ）及びその作成方法≫
第２学習データは、複数の対象物体（本例では、「薬剤」）を含む撮影画像であって、複数の薬剤の２以上の薬剤が点又は線で接触する撮影画像と撮影画像における点又は線で接触する箇所のみを示すエッジ画像とを学習用画像（第２学習用画像）とし、撮影画像における複数の薬剤の領域を示す領域情報を正解データ（第２正解データ）として、第２学習用画像と第２正解データとのペアからなる学習データである。

第２学習データは、第１学習データと同様な手法により水増しすることができる。

第２認識器３２は、上記のようにして作成された第２学習データに基づいて機械学習された機械学習済みの第２学習モデルで構成することができる。

第２学習モデルは、例えば、ＣＮＮで構成されるものが考えられる。

図９は、第２認識器（第２学習モデル）を構成する学習モデルの一つであるＣＮＮの代表的な構成例を示す模式図である。

第２認識器３２は、複数のレイヤー構造を有し、複数の重みパラメータを保持している。第２認識器３２は、重みパラメータが最適値に設定されることで、学習済みの第２学習モデルとなり、認識器として機能する。

図９に示すように第２認識器３２は、入力層３２Ａと、複数の畳み込み層及び複数のプーリング層を有する中間層３２Ｂと、出力層３２Ｃとを備え、各層は複数の「ノード」が「エッジ」で結ばれる構造となっている。

本例の第２認識器３２は、撮影画像に写っている複数の薬剤の領域を個別に認識するセグメンテーションを行う学習モデルであり、撮影画像ＩＴＰ１内のピクセル単位、もしくはいくつかのピクセルを一塊にした単位で、各薬剤の領域分類（セグメンテーション）を行い、例えば、薬剤毎に各薬剤の領域を示すマスク画像を認識結果として出力する。

第２認識器３２は、薬包ＴＰに入り得る薬剤の数を基に設計される。例えば、薬包ＴＰに最大で２５個の薬剤が入り得る場合、第２認識器３２は、余裕分を加味して最大で３０の薬剤領域の認識結果を出力できるように構成される。

第２認識器３２の入力層３２Ａには、画像取得部２２が取得した撮影画像ＩＴＰ１と、第１認識器３０が認識したエッジ画像ＩＥとが入力画像として入力される（図７、図８参照）。

中間層３２Ｂは、入力層３２Ａから入力した入力画像から特徴を抽出する部分である。中間層３２Ｂにおける畳み込み層は、入力画像や前の層で近くにあるノードにフィルタ処理し（フィルタを使用した畳み込み演算を行い）、「特徴マップ」を取得する。プーリング層は、畳み込み層から出力された特徴マップを縮小（又は拡大）して新たな特徴マップとする。「畳み込み層」は、画像からのエッジ抽出等の特徴抽出の役割を担い、「プーリング層」は抽出された特徴が、平行移動などによる影響を受けないようにロバスト性を与える役割を担う。尚、中間層３２Ｂには、畳み込み層とプーリング層とを１セットとする場合に限らず、畳み込み層が連続する場合や正規化層も含まれ得る。

出力層３２Ｃは、中間層３２Ｂにより抽出された特徴に基づき、撮影画像ＩＴＰ１に写っている複数の薬剤の領域をそれぞれ認識し、薬剤毎の領域を示す情報（例えば、薬剤の領域を矩形の枠で囲む薬剤毎のバウンディングボックス情報）を認識結果として出力する部分である。

第２認識器３２の中間層３２Ｂの各畳み込み層等に適用されるフィルタの係数やオフセット値が、第２学習用画像と第２正解データとのペアからなる第２学習データのデータセットにより最適値に設定されている。

図１０は、図９に示した第２認識器の中間層の構成例を示す模式図である。

図１０に示す最初（１番目）の畳み込み層では、認識用の入力画像と、フィルタＦ_１との畳み込み演算が行われる。ここで、入力画像のうちの撮影画像ＩＴＰ１は、例えば、縦がＨ、横がＷの画像サイズを有する、赤（Ｒ）、緑（Ｇ）、青（Ｂ）のＲＧＢチャンネル（３チャンネル）の画像であり、入力画像のうちのエッジ画像ＩＥは、縦がＨ、横がＷの画像サイズを有する１チャンネルの画像である。

したがって、図１０に示す１番目の畳み込み層では、縦がＨ、横がＷの画像サイズを有する４チャンネルの画像とフィルタＦ_１との畳み込み演算が行われる。フィルタＦ_１は、入力画像が４チャンネル（４枚）であるため、例えばサイズ５×５のフィルタの場合、フィルタサイズは、５×５×４のフィルタになる。

このフィルタＦ_１を用いた畳み込み演算により、１つのフィルタＦ_１に対して１チャンネル(１枚)の「特徴マップ」が生成される。図１０に示す例では、Ｍ個のフィルタＦ_１を使用することで、Ｍチャンネルの「特徴マップ」が生成される。

２番目の畳み込み層で使用されるフィルタＦ_２は、例えばサイズ３×３のフィルタの場合、フィルタサイズは、３×３×Ｍのフィルタになる。

ｎ番目の畳み込み層における「特徴マップ」のサイズが、２番目の畳み込み層における「特徴マップ」のサイズよりも小さくなっているのは、前段までの畳み込み層によりダウンスケーリングされているからである。

中間層３２Ｂの前半部分の畳み込み層は特徴量の抽出を担い、後半部分の畳み込み層は対象物体（薬剤）の領域検出を担う。尚、後半部分の畳み込み層では、アップスケーリングされ、最後の畳み込み層では、入力画像と同じサイズの複数枚（本例では、３０枚）分の「特徴マップ」が出力される。ただし、３０枚の「特徴マップ」のうち、実際に意味があるのは、Ｘ枚の特徴マップであり、残りの（３０－Ｘ）枚はゼロ埋めされた意味のない特徴マップとなる。

ここで、Ｘ枚のＸは、検出された薬剤の個数に対応し、「特徴マップ」を元に各薬剤の領域を囲むバウンディングボックス情報を取得することができる。

図１１は、第２認識器による認識結果の一例を示す図である。

第２認識器３２は、薬剤の認識結果として、薬剤の領域を矩形の枠で囲むバウンディングボックスＢＢを出力する。図１１に示すバウンディングボックスＢＢは、透明薬剤（薬剤Ｔ６）に対応するものである。このバウンディングボックスＢＢが示す情報（バウンディングボックス情報）を使用することで、複数の薬剤が撮影されている撮影画像から、薬剤Ｔ６の領域の画像（薬剤画像）のみを切り出すことができる。

図７に示すように透明な薬剤Ｔ６が薬剤Ｔ４、Ｔ５と接触していても、図１１のバウンディングボックスＢＢで示すように、透明な薬剤Ｔ６の領域を他の薬剤の領域から精度よく分離し、認識することができる。

尚、本例の第２認識器３２は、撮影画像ＩＴＰ１とは別のチャンネルとして、エッジ画像ＩＥを入力するが、撮影画像ＩＴＰ１とは別系統の入力画像として入力するようにしてもよく、撮影画像ＩＴＰ１とエッジ画像ＩＥとを合成した画像を入力画像としてもよい。

第２認識器３２の学習モデルとしては、例えば、Ｒ－ＣＮＮ（Regions with Convolutional Neural Networks)を使用することができる。

図１２は、Ｒ－ＣＮＮによる物体認識のプロセスを示す図である。

Ｒ－ＣＮＮでは、撮影画像ＩＴＰ１内において、大きさを変えたバウンディングボックスＢＢをスライドさせ、対象物体（本例では薬剤）が入るバウンディングボックスＢＢの領域を検出する。そして、バウンディングボックスＢＢの中の画像部分だけを評価（ＣＮＮ特徴量を抽出）することで、薬剤のエッジを検出する。撮影画像ＩＴＰ１内でバウンディングボックスＢＢをスライドさせる範囲は、必ずしも撮影画像ＩＴＰ１全体である必要はない。

また、Ｒ－ＣＮＮに代えて、ＦａｓｔＲ-ＣＮＮ、ＦａｓｔｅｒＲ－ＣＮＮ、ＭａｓｋＲ－ＣＮＮ等を使用することができる。

図１３は、ＭａｓｋＲ－ＣＮＮにより認識された薬剤のマスク画像を示す図である。

ＭａｓｋＲ－ＣＮＮは、薬剤の領域を矩形で囲むバウンディングボックスＢＢの他に、撮影画像ＩＴＰ１をピクセル単位で、領域分類（セグメンテーション）を行い、各薬剤の領域を示す薬剤画像毎（対象物体画像毎）のマスク画像ＩＭを出力することができる。

図１３に示すマスク画像ＩＭは、透明な薬剤Ｔ６の領域に対するものである。このマスク画像ＩＭは、撮影画像ＩＴＰ１以外の撮影画像から、対象物体画像である薬剤画像（透明な薬剤Ｔ６の領域のみの画像）を切り出すマスク処理に使用することができる。

また、このような認識を行うＭａｓｋＲ－ＣＮＮは、第２認識器３２の学習用の第２学習データを使用して、機械学習させることで構成することがでる。尚、既存のＭａｓｋＲ－ＣＮＮを、第２認識器３２の学習用の第２学習データを使用して、転移学習（「ファインチューニング」ともいう）させることで、第２学習データのデータ量が少なくても所望の学習モデルを構成すことができる。

更に、第２認識器３２は、認識結果として薬剤画像毎のバウンディングボックス情報、マスク画像の他に、薬剤画像の領域のエッジを示す薬剤画像毎のエッジ情報を出力するものでもよい。

第２認識器３２は、撮影画像ＩＴＰ１の他に、各薬剤の領域分離に有用な情報（点又は線で接触する箇所のみを示すエッジ画像ＩＥ）を入力して各薬剤の領域を認識するため、撮影画像ＩＴＰ１に複数の薬剤が写っており、複数の薬剤の２以上の薬剤の領域が点又は線で接触している場合であっても、複数の薬剤の領域を高精度に分離して認識し、その認識結果を出力（出力処理）することができる。

物体認識装置２０－１の各薬剤の認識結果（例えば、薬剤毎のマスク画像）は、例えば、図示しない薬剤監査装置、薬剤鑑別装置等に送られ、撮影装置１０により撮影された撮影画像ＩＴＰ１以外の撮影画像から薬剤画像を切り出すマスク処理に使用される。

切り出された薬剤画像は、薬剤監査装置、薬剤鑑別装置等により薬剤の監査、鑑別に使用され、又はユーザによる薬剤の鑑別を支援するために、薬剤の刻印等が視認しやすい薬剤画像を生成し、生成した複数の薬剤画像を整列表示する場合に使用される。

［物体認識装置の第２実施形態］
図１４は、本発明に係る物体認識装置の第２実施形態を示すブロック図である。

図１４に示す第２実施形態の物体認識装置２０－２は、図１に示した物体認識装置２０のハードウェア構成により実行される機能を示す機能ブロック図であり、画像取得部２２、第１認識器３０、画像処理部４０、及び第３認識器４２を備えている。尚、図１４において、図６に示した第１実施形態の物体認識装置２０－１と共通する部分には同一の符号を付し、その詳細な説明は省略する。

図１４に示す第２実施形態の物体認識装置２０－２は、第１実施形態の物体認識装置２０－１と比較して第２認識器３２の代りに、画像処理部４０及び第３認識器４２を備えている点で相違する。

画像処理部４０は、画像取得部２２が取得した撮影画像と、第１認識器３０が認識したエッジ画像とを入力し、撮影画像のエッジ画像の部分（点又は線で接触している部分）を、撮影画像の背景色で置換する画像処理を行う。

いま、図７に示すように画像取得部２２が取得した撮影画像ＩＴＰ１に写っている複数の薬剤Ｔ１～Ｔ６の領域の背景色が白の場合、画像処理部４０は、撮影画像ＩＴＰ１に対して、図８に示したエッジ画像ＩＥにおける薬剤が点又は線で接触する箇所Ｅ１、Ｅ２を、背景色の白に置き換える画像処理を行う。

図１５は、画像処理部により画像処理された撮影画像を示す図である。

画像処理部４０により画像処理された撮影画像ＩＴＰ２は、画像処理前の撮影画像ＩＴＰ１（図７）と比較して６個の薬剤Ｔ１～Ｔ６の各領域が、点又は線で接触することなく分離されている点で相違する。

画像処理部４０により画像処理された撮影画像ＩＴＰ２は、第３認識器４２に出力される。

第３認識器４２は、画像処理された撮影画像ＩＴＰ２を入力し、撮影画像ＩＴＰ２に含まれる複数の対象物体（薬剤）をそれぞれ認識し、その認識結果を出力する。

第３認識器４２は、通常の学習データに基づいて機械学習された機械学習済みの学習モデル（第３学習モデル）で構成することができ、例えば、ＭａｓｋＲ－ＣＮＮ等を使用することができる。

ここで、通常の学習データとは、対象物体（本例では、「薬剤」）を含む撮影画像を学習用画像とし、その学習用画像に含まれる薬剤の領域を示す領域情報を正解データとして、学習用画像と正解データとのペアからなる学習データである。尚、撮影画像に写される薬剤は、１つでもよいし、複数でもよい。撮影画像に写される薬剤が複数の場合、複数の薬剤は、それぞれ離間していてもよいし、複数の薬剤の一部又は全部が点又は線で接触していてもよい。

第３認識器４２に入力する複数の対象物体（本例では、「薬剤」）を含む撮影画像ＩＴＰ２は、画像処理部４０により点又は線で接触する箇所を分離する前処理が行われているため、第３認識器４２は、各薬剤の領域を精度よく認識することができる。

［物体認識方法］
図１６は、本発明に係る物体認識方法の実施形態を示すフローチャートである。

図１６に示す各ステップの処理は、例えば、図６に示した物体認識装置２０－１（プロセッサ）により行われる。

図１６において、画像取得部２２は、撮影装置１０から複数の対象物体（薬剤）の２以上の薬剤が点又は線で接触する撮影画像（例えば、図７に示す撮影画像ＩＴＰ１）を取得する（ステップＳ１０）。尚、画像取得部２２が取得する撮影画像ＩＴＰ１は、複数の薬剤Ｔ１～Ｔ６の各領域が、点又は線で接触していないものも含むことは言うまでもない。

第１認識器３０は、ステップＳ１０で取得された撮影画像ＩＴＰ１を入力し、撮影画像ＩＴＰ１における点又は線で接触する箇所のみを示すエッジ画像ＩＥを生成（取得）する（ステップＳ１２、図８参照）。尚、画像取得部２２が取得する撮影画像ＩＴＰ１に写っている全ての薬剤（Ｔ１～Ｔ６）の各領域が、点又は線で接触していない場合には、第１認識器３０から出力されるエッジ画像ＩＥは、エッジ情報がないものになる。

第２認識器３２は、ステップＳ１０で取得された撮影画像ＩＴＰ１と、ステップＳ１２で生成されたエッジ画像ＩＥとを入力し、撮影画像ＩＴＰ１から複数の対象物体（薬剤）をそれぞれ認識し（ステップＳ１４）、その認識結果（例えば、図１３に示す薬剤の領域を示すマスク画像ＩＭ）を出力する（ステップＳ１６）。

［その他］
本実施形態における認識の対象物体は、複数の薬剤であるが、これに限らず、同時に撮影される複数の対象物体であり、かつ複数の対象物体の２以上の対象物体が点又は線で接触し得るものであれば、如何なるものでもよい。

また、本発明に係る物体認識装置の、例えば、ＣＰＵ２４等の各種の処理を実行する処理部（processing unit）のハードウェア的な構造は、次に示すような各種のプロセッサ（processor）である。各種のプロセッサには、ソフトウェア（プログラム）を実行して各種の処理部として機能する汎用的なプロセッサであるＣＰＵ（Central Processing Unit）、ＦＰＧＡ（Field Programmable Gate Array）などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス（Programmable Logic Device：ＰＬＤ）、ＡＳＩＣ（Application Specific Integrated Circuit）などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。

１つの処理部は、これら各種のプロセッサのうちの１つで構成されていてもよいし、同種または異種の２つ以上のプロセッサ（例えば、複数のＦＰＧＡ、あるいはＣＰＵとＦＰＧＡの組み合わせ）で構成されてもよい。また、複数の処理部を１つのプロセッサで構成してもよい。複数の処理部を１つのプロセッサで構成する例としては、第１に、クライアントやサーバなどのコンピュータに代表されるように、１つ以上のＣＰＵとソフトウェアの組合せで１つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第２に、システムオンチップ（System On Chip：ＳｏＣ）などに代表されるように、複数の処理部を含むシステム全体の機能を１つのＩＣ（Integrated Circuit）チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサを１つ以上用いて構成される。

これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路（circuitry）である。

また、本発明は、コンピュータにインストールされることにより、本発明に係る物体認識装置として各種の機能を実現させる物体認識プログラム、及びこの物体認識プログラムが記録された記録媒体を含む。

更に、本発明は上述した実施形態に限定されず、本発明の精神を逸脱しない範囲で種々の変形が可能であることは言うまでもない。

１０撮影装置
１２Ａ、１２Ｂカメラ
１３撮影制御部
１４ステージ
１６Ａ、１６Ｂ照明装置
１６Ａ１～１６Ａ４，１６Ｂ１～１６Ｂ４発光部
１８ローラ
２０、２０－１、２０－２物体認識装置
２２画像取得部
２４ＣＰＵ
２５操作部
２６ＲＡＭ
２８ＲＯＭ
２９表示部
３０第１認識器
３２第２認識器
３２Ａ入力層
３２Ｂ中間層
３２Ｃ出力層
４０画像処理部
４２第３認識器
ＢＢバウンディングボックス
ＩＥエッジ画像
ＩＭマスク画像
ＩＴＰ１、ＩＴＰ２撮影画像
Ｓ１０～Ｓ１６ステップ
Ｔ、Ｔ１～Ｔ６薬剤
ＴＰ薬包

Claims

プロセッサを備え、前記プロセッサにより複数の対象物体が撮影された撮影画像から前記複数の対象物体をそれぞれ認識する物体認識装置であって、
前記プロセッサは、
前記複数の対象物体の２以上の対象物体が点又は線で接触する前記撮影画像を取得する画像取得処理と、
前記撮影画像における前記点又は線で接触する箇所のみを示すエッジ画像を取得するエッジ画像取得処理と、
前記撮影画像と前記エッジ画像とを入力し、前記撮影画像から前記複数の対象物体をそれぞれ認識し、認識結果を出力する出力処理と、
を行う物体認識装置。
前記プロセッサは、前記エッジ画像取得処理を行う第１認識器を有し、
前記第１認識器は、複数の対象物体の２以上の対象物体が点又は線で接触する撮影画像を入力すると、前記撮影画像における前記点又は線で接触する箇所のみを示すエッジ画像を出力する、
請求項１に記載の物体認識装置。
前記第１認識器は、
複数の対象物体を含む撮影画像であって、前記複数の対象物体の２以上の対象物体が点又は線で接触する撮影画像を第１学習用画像とし、前記第１学習用画像における前記点又は線で接触する箇所のみを示すエッジ画像を第１正解データとして、前記第１学習用画像と前記第１正解データとのペアからなる第１学習データに基づいて機械学習された機械学習済みの第１学習モデルである、
請求項２に記載の物体認識装置。
前記プロセッサは、第２認識器を有し、
前記第２認識器は、前記撮影画像と前記エッジ画像とを入力し、前記撮影画像に含まれる前記複数の対象物体をそれぞれ認識し、認識結果を出力する、
請求項１から３のいずれか１項に記載の物体認識装置。
前記第２認識器は、複数の対象物体を含む撮影画像であって、前記複数の対象物体の２以上の対象物体が点又は線で接触する撮影画像と前記撮影画像における前記点又は線で接触する箇所のみを示すエッジ画像とを第２学習用画像とし、前記撮影画像における前記複数の対象物体の領域を示す領域情報を第２正解データとして、前記第２学習用画像と前記第２正解データとのペアからなる第２学習データに基づいて機械学習された機械学習済みの第２学習モデルである、
請求項４に記載の物体認識装置。
前記プロセッサは、第３認識器を備え、
前記プロセッサは、前記撮影画像と前記エッジ画像とを入力し、前記撮影画像の前記エッジ画像の部分を、前記撮影画像の背景色で置換する画像処理を行い、
前記第３認識器は、前記画像処理された前記撮影画像を入力し、前記撮影画像に含まれる前記複数の対象物体をそれぞれ認識し、認識結果を出力する、
請求項１から３のいずれか１項に記載の物体認識装置。
前記プロセッサの前記出力処理は、前記撮影画像から各対象物体を示す対象物体画像を切り出すマスク処理に使用する対象物体画像毎のマスク画像、前記対象物体画像の領域を矩形で囲む前記対象物体画像毎のバウンディングボックス情報、及び前記対象物体画像の領域のエッジを示す対象物体画像毎のエッジ情報のうちの少なくとも１つを、前記認識結果として出力する、
請求項１から６のいずれか１項に記載の物体認識装置。
前記複数の対象物体は、複数の薬剤である、
請求項１から７のいずれか１項に記載の物体認識装置。
プロセッサが、以下の各ステップの処理を行うことにより複数の対象物体が撮影された撮影画像から前記複数の対象物体をそれぞれ認識する物体認識方法であって、
前記複数の対象物体の２以上の対象物体が点又は線で接触する前記撮影画像を取得するステップと、
前記撮影画像における前記点又は線で接触する箇所のみを示すエッジ画像を取得するステップと、
前記撮影画像と前記エッジ画像とを入力し、前記撮影画像から前記複数の対象物体をそれぞれ認識し、認識結果を出力するステップと、
を含む物体認識方法。
前記認識結果を出力するステップは、前記撮影画像から各対象物体を示す対象物体画像を切り出すマスク処理に使用する対象物体画像毎のマスク画像、前記対象物体画像の領域を矩形で囲む前記対象物体画像毎のバウンディングボックス情報、及び前記対象物体画像毎の領域のエッジを示すエッジ情報のうちの少なくとも１つを、前記認識結果として出力する、
請求項９に記載の物体認識方法。
前記複数の対象物体は、複数の薬剤である、
請求項９又は１０に記載の物体認識方法。
複数の対象物体を含む撮影画像であって、前記複数の対象物体の２以上の対象物体が点又は線で接触する前記撮影画像を取得する機能と、
前記撮影画像における前記点又は線で接触する箇所のみを示すエッジ画像を取得する機能と、
前記撮影画像と前記エッジ画像とを入力し、前記撮影画像から前記複数の対象物体をそれぞれ認識し、認識結果を出力する機能と、
をコンピュータにより実現させる物体認識プログラム。
非一時的かつコンピュータ読取可能な記録媒体であって、請求項１２に記載の物体認識プログラムが記録された記録媒体。