JP7338030B2 - 物体認識装置、方法及びプログラム - Google Patents

物体認識装置、方法及びプログラム Download PDF

Info

Publication number
JP7338030B2
JP7338030B2 JP2022500365A JP2022500365A JP7338030B2 JP 7338030 B2 JP7338030 B2 JP 7338030B2 JP 2022500365 A JP2022500365 A JP 2022500365A JP 2022500365 A JP2022500365 A JP 2022500365A JP 7338030 B2 JP7338030 B2 JP 7338030B2
Authority
JP
Japan
Prior art keywords
image
target objects
edge
photographed
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022500365A
Other languages
English (en)
Other versions
JPWO2021161903A1 (ja
Inventor
一央 岩見
真司 羽田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Toyama Chemical Co Ltd
Original Assignee
Fujifilm Toyama Chemical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Toyama Chemical Co Ltd filed Critical Fujifilm Toyama Chemical Co Ltd
Publication of JPWO2021161903A1 publication Critical patent/JPWO2021161903A1/ja
Application granted granted Critical
Publication of JP7338030B2 publication Critical patent/JP7338030B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/141Control of illumination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30242Counting objects in image

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Description

本発明は物体認識装置、方法及びプログラム並びに学習データに係り、特に複数の対象物体が撮影された撮影画像から、複数の対象物体の2以上の対象物体が点又は線で接触する個々の対象物体を認識する技術に関する。
特許文献1には、機械学習を利用した複数の対象物体のセグメンテーションにおいて、セグメンテーション対象の領域間の境界を精度よく検出する画像処理装置が記載されている。
特許文献1に記載の画像処理装置は、セグメンテーション対象の被写体像を有する処理対象画像を取得する画像取得部と、第1機械学習により学習した被写体像の特徴を、第1機械学習により学習した態様により強調した強調画像を生成する画像特徴検出器と、強調画像及び処理対象画像に基づいて、第2機械学習により学習した態様により、被写体像に対応する領域をセグメンテーションするセグメンテーション器と、を備える。
即ち、画像特徴検出器は、第1機械学習により学習した被写体像の特徴を、第1機械学習により学習した態様により強調した強調画像(エッジ画像)を生成する。セグメンテーション器は、エッジ画像と処理対象画像とを入力し、第2機械学習により学習した態様により、被写体像に対応する領域をセグメンテーションする。これにより、被写体像の領域間の境界を精度よく検出する。
特開2019-133433号公報
特許文献1に記載の画像処理装置は、処理対象画像とは別に、処理対象画像内の被写体像の特徴を強調した強調画像(エッジ画像)を作成し、エッジ画像と処理対象画像とを入力画像とし、被写体像に対応する領域を抽出するが、エッジ画像を適切に生成できることが前提になっている。
また、複数の対象物体が接触している場合、どのエッジがどの対象物体のものであるかを認識するのは難しい。
例えば、服用1回分の複数の薬剤を対象物体とし、特に複数の薬剤が一包化される場合には、薬剤同士が点又は線で接触していることが多い。
接触している各薬剤の形状が未知の場合、薬剤のエッジを検出しても、そのエッジが対象薬剤のエッジか、又は他の薬剤のエッジかの判断が難しい。そもそも各薬剤のエッジが綺麗に出ている(撮影されている)とは限らない。
したがって、複数の薬剤の全部又は一部が点又は線で接触している場合、各薬剤の領域を認識するのは難しい。
本発明はこのような事情に鑑みてなされたもので、複数の対象物体が撮影された撮影画像から個々の対象物体を精度よく認識することができる物体認識装置、方法及びプログラム並びに学習データを提供することを目的とする。
上記目的を達成するために第1態様に係る発明は、プロセッサを備え、プロセッサにより複数の対象物体が撮影された撮影画像から複数の対象物体をそれぞれ認識する物体認識装置であって、プロセッサは、複数の対象物体の2以上の対象物体が点又は線で接触する撮影画像を取得する画像取得処理と、撮影画像における点又は線で接触する箇所のみを示すエッジ画像を取得するエッジ画像取得処理と、撮影画像とエッジ画像とを入力し、撮影画像から複数の対象物体をそれぞれ認識し、認識結果を出力する出力処理と、を行う。
本発明の第1態様によれば、複数の対象物体が撮影された撮影画像から個々の対象物体をそれぞれ認識する場合に、対象物体が点又は線で接触する箇所の特徴量を考慮する。即ち、プロセッサは、複数の対象物体の2以上の対象物体が点又は線で接触する撮影画像を取得すると、取得した撮影画像における点又は線で接触する箇所のみを示すエッジ画像を取得する。そして、撮影画像とエッジ画像とを入力し、撮影画像から複数の対象物体をそれぞれ認識し、認識結果を出力する。
本発明の第2態様に係る物体認識装置において、プロセッサは、エッジ画像取得処理を行う第1認識器を有し、第1認識器は、複数の対象物体の2以上の対象物体が点又は線で接触する撮影画像を入力すると、撮影画像における点又は線で接触する箇所のみを示すエッジ画像を出力することが好ましい。
本発明の第3態様に係る物体認識装置において、第1認識器は、複数の対象物体を含む撮影画像であって、複数の対象物体の2以上の対象物体が点又は線で接触する撮影画像を第1学習用画像とし、第1学習用画像における点又は線で接触する箇所のみを示すエッジ画像を第1正解データとして、第1学習用画像と第1正解データとのペアからなる第1学習データに基づいて機械学習された機械学習済みの第1学習モデルであることが好ましい。
本発明の第4態様に係る物体認識装置において、プロセッサは、第2認識器を有し、第2認識器は、撮影画像とエッジ画像とを入力し、撮影画像に含まれる複数の対象物体をそれぞれ認識し、認識結果を出力することが好ましい。
本発明の第5態様に係る物体認識装置において、第2認識器は、複数の対象物体を含む撮影画像であって、複数の対象物体の2以上の対象物体が点又は線で接触する撮影画像と撮影画像における点又は線で接触する箇所のみを示すエッジ画像とを第2学習用画像とし、撮影画像における複数の対象物体の領域を示す領域情報を第2正解データとして、第2学習用画像と第2正解データとのペアからなる第2学習データに基づいて機械学習された機械学習済みの第2学習モデルであることが好ましい。
本発明の第6態様に係る物体認識装置において、プロセッサは、第3認識器を備え、プロセッサは、撮影画像とエッジ画像とを入力し、撮影画像のエッジ画像の部分を、撮影画像の背景色で置換する画像処理を行い、第3認識器は、画像処理された撮影画像を入力し、撮影画像に含まれる複数の対象物体をそれぞれ認識し、認識結果を出力することが好ましい。
本発明の第7態様に係る物体認識装置において、プロセッサの出力処理は、撮影画像から各対象物体を示す対象物体画像を切り出すマスク処理に使用する対象物体画像毎のマスク画像、対象物体画像の領域を矩形で囲む対象物体画像毎のバウンディングボックス情報、及び対象物体画像の領域のエッジを示す対象物体画像毎のエッジ情報のうちの少なくとも1つを、認識結果として出力することが好ましい。
本発明の第8態様に係る物体認識装置において、複数の対象物体は、複数の薬剤であることが好ましい。複数の薬剤は、例えば、薬包に収納される服用一回分の複数の薬剤、一日分の複数の薬剤、一回の調剤分の複数の薬剤などである。
第9態様に係る発明は、複数の対象物体を含む撮影画像であって、複数の対象物体の2以上の対象物体が点又は線で接触する撮影画像を第1学習用画像とし、第1学習用画像における点又は線で接触する箇所のみを示すエッジ画像を第1正解データとして、第1学習用画像と第1正解データとのペアからなる学習データである。
第10態様に係る発明は、複数の対象物体を含む撮影画像であって、複数の対象物体の2以上の対象物体が点又は線で接触する撮影画像と撮影画像における点又は線で接触する箇所のみを示すエッジ画像とを第2学習用画像とし、撮影画像における複数の対象物体の領域を示す領域情報を第2正解データとして、第2学習用画像と第2正解データとのペアからなる学習データである。
第11態様に係る発明は、プロセッサが、以下の各ステップの処理を行うことにより複数の対象物体が撮影された撮影画像から複数の対象物体をそれぞれ認識する物体認識方法であって、複数の対象物体の2以上の対象物体が点又は線で接触する撮影画像を取得するステップと、撮影画像における点又は線で接触する箇所のみを示すエッジ画像を取得するステップと、撮影画像とエッジ画像とを入力し、撮影画像から複数の対象物体をそれぞれ認識し、認識結果を出力するステップと、を含む。
本発明の第12態様に係る物体認識方法において、認識結果を出力するステップは、撮影画像から各対象物体を示す対象物体画像を切り出すマスク処理に使用する対象物体画像毎のマスク画像、対象物体画像の領域を矩形で囲む対象物体画像毎のバウンディングボックス情報、及び対象物体画像毎の領域のエッジを示すエッジ情報のうちの少なくとも1つを、認識結果として出力することが好ましい。
本発明の第13態様に係る物体認識方法において、複数の対象物体は、複数の薬剤であることが好ましい。
第14態様に係る発明は、複数の対象物体を含む撮影画像であって、複数の対象物体の2以上の対象物体が点又は線で接触する撮影画像を取得する機能と、撮影画像における点又は線で接触する箇所のみを示すエッジ画像を取得する機能と、撮影画像とエッジ画像とを入力し、撮影画像から複数の対象物体をそれぞれ認識し、認識結果を出力する機能と、をコンピュータにより実現させる物体認識プログラムである。
本発明によれば、複数の対象物体が撮影された撮影画像から、複数の対象物体の2以上の対象物体が点又は線で接触する個々の対象物体を精度よく認識することができる。
図1は、本発明に係る物体認識装置のハードウェア構成の一例を示すブロック図である。 図2は、図1に示した撮影装置の概略構成を示すブロック図である。 図3は、複数の薬剤が一包化された3つの薬包を示す平面図である。 図4は、撮影装置の概略構成を示す平面図である。 図5は、撮影装置の概略構成を示す側面図である。 図6は、本発明に係る物体認識装置の第1実施形態を示すブロック図である。 図7は、画像取得部が取得する撮影画像の一例を示す図である。 図8は、第1認識器により取得される複数の薬剤の点又は線で接触する箇所のみを示すエッジ画像の一例を示す図である。 図9は、第2認識器(第2学習モデル)を構成する学習モデルの一つであるCNNの代表的な構成例を示す模式図である。 図10は、図9に示した第2認識器の中間層の構成例を示す模式図である。 図11は、第2認識器による認識結果の一例を示す図である。 図12は、R-CNNによる物体認識のプロセスを示す図である。 図13は、Mask R-CNNにより認識された薬剤のマスク画像を示す図である。 図14は、本発明に係る物体認識装置の第2実施形態を示すブロック図である。 図15は、画像処理部により画像処理された撮影画像を示す図である。 図16は、本発明に係る物体認識方法の実施形態を示すフローチャートである。
以下、添付図面に従って本発明に係る物体認識装置、方法及びプログラム並びに学習データの好ましい実施形態について説明する。
[物体認識装置の構成]
図1は、本発明に係る物体認識装置のハードウェア構成の一例を示すブロック図である。
図1に示す物体認識装置20は、例えば、コンピュータにより構成することができ、主として画像取得部22、CPU(Central Processing Unit)24、操作部25、RAM(Random Access Memory)26、ROM(Read Only Memory)28、及び表示部29から構成されている。
画像取得部22は、撮影装置10により対象物体が撮影された撮影画像を、撮影装置10から取得する。
撮影装置10により撮影される対象物体は、撮影範囲内に存在する複数の対象物体であり、本例の対象物体は、服用1回分の複数の薬剤である。複数の薬剤は、薬包に入っているものでもよいし、薬包に入れる前のものでもよい。
図3は、複数の薬剤が一包化された3つの薬包を示す平面図である。
図3に示す各薬包TPには、6個の薬剤Tが分包されている。図3中の左の薬包TP、及び中央の薬包TPに入っている6個の薬剤Tは、6個の薬剤Tの全部又は一部の薬剤が点又は線で接触し、図3中の右の薬包TPに入っている6個の薬剤は、それぞれ離れている。
図2は、図1に示した撮影装置の概略構成を示すブロック図である。
図2に示す撮影装置10は、薬剤を撮影する2台のカメラ12A、12Bと、薬剤を照明する2台の照明装置16A,16Bと、撮影制御部13とから構成されている。
図4及び図5は、それぞれ撮影装置の概略構成を示す平面図及び側面図である。
各薬包TPは、帯状に連結されており、各薬包TPを切り離し可能にする切取線が入っている。
薬包TPは、水平(x-y平面)に設置された透明なステージ14の上に載置される。
カメラ12A、12Bは、ステージ14と直交する方向(z方向)に、ステージ14を挟んで互いに対向して配置される。カメラ12Aは、薬包TPの第1面(表面)に正対し、薬包TPの第1面を撮影する。カメラ12Bは、薬包TPの第2面(裏面)に正対し、薬包TPの第2面を撮影する。尚、薬包TPは、ステージ14に接する面を第2面とし、第2面と反対側の面を第1面とする。
ステージ14を挟んで、カメラ12Aの側には、照明装置16Aが備えられ、カメラ12Bの側には、照明装置16Bが備えられる。
照明装置16Aは、ステージ14の上方に配置され、ステージ14に載置された薬包TPの第1面に照明光を照射する。照明装置16Aは、放射状に配置された4つの発光部16A1~16A4を有し、直交する4方向から照明光を照射する。各発光部16A1~16A4の発光は、個別に制御される。
照明装置16Bは、ステージ14の下方に配置され、ステージ14に載置された薬包TPの第2面に照明光を照射する。照明装置16Bは、照明装置16Aと同様に放射状に配置された4つの発光部16B1~16B4を有し、直交する4方向から照明光を照射する。各発光部16B1~16B4の発光は、個別に制御される。
撮影は、次のように行われる。まず、カメラ12Aを用いて、薬包TPの第1面(表面)が撮影される。撮影の際には、照明装置16Aの各発光部16A1~16A4を順次発光させ、4枚の画像の撮影を行い、続いて、各発光部16A1~16A4を同時に発光させ、1枚の画像の撮影を行う。次に、下方の照明装置16Bの各発光部16B1~16B4を同時に発光させるとともに、図示しないリフレクタを挿入し、リフレクタを介して薬包TPを下から照明し、カメラ12Aを用いて上方から薬包TPの撮影を行う。
各発光部16A1~16A4を順次発光させて撮影される4枚の画像は、それぞれ照明方向が異なっており、薬剤の表面に刻印(凹凸)がある場合に刻印による影の出方が異なるものとなる。これらの4枚の撮影画像は、薬剤Tの表面側の刻印を強調した刻印画像を生成するために使用される。
各発光部16A1~16A4を同時に発光させて撮影される1枚の画像は、輝度ムラのない画像であり、例えば、薬剤Tの表面側の画像(薬剤画像)を切り出す場合に使用され、また、刻印画像が重畳される撮影画像である。
また、リフレクタを介して薬包TPを下方から照明し、カメラ12Aを用いて上方から薬包TPが撮影される画像は、複数の薬剤Tの領域を認識する場合に使用される撮影画像である。
次に、カメラ12Bを用いて、薬包TPの第2面(裏面)が撮影される。撮影の際には、照明装置16Bの各発光部16B1~16B4を順次発光させ、4枚の画像の撮影を行い、続いて、各発光部16B1~16B4を同時に発光させ、1枚の画像の撮影を行う。
4枚の撮影画像は、薬剤Tの裏面側の刻印を強調した刻印画像を生成するために使用され、各発光部16B1~16B4を同時に発光させて撮影される1枚の画像は、輝度ムラのない画像であり、例えば、薬剤Tの裏面側の薬剤画像を切り出す場合に使用され、また、刻印画像が重畳される撮影画像である。
図2に示した撮影制御部13は、カメラ12A、12B、及び照明装置16A、16Bを制御し、1つの薬包TPに対して11回の撮影(カメラ12Aで6回、カメラ12Bで5回の撮影)を行わせる。
尚、1つの薬包TPに対する撮影の順番、撮影枚数は上記の例に限らない。また、複数の薬剤Tの領域を認識するときに使用される撮影画像は、リフレクタを介して薬包TPを下方から照明し、カメラ12Aを用いて上方から薬包TPを撮影した画像に限らず、例えば、各発光部16A1~16A4を同時に発光させてカメラ12Aで撮影される画像、あるいは各発光部16A1~16A4を同時に発光させてカメラ12Aで撮影される画像に対してエッジが強調処理された画像等を使用することができる。
また、撮影は暗室の状態で行われ、撮影の際に薬包TPに照射される光は、照明装置16A、又は照明装置16Bからの照明光のみである。したがって、上記のようにして撮影される11枚の撮影画像のうち、リフレクタを介して薬包TPを下方から照明し、カメラ12Aを用いて上方から薬包TPを撮影した画像は、背景が光源の色(白色)になり、各薬剤Tの領域が遮光されて黒くなる。一方、他の10枚の撮影画像は、背景が黒く、各薬剤の領域が薬剤の色になる。
尚、リフレクタを介して薬包TPを下方から照明し、カメラ12Aを用いて上方から薬包TPを撮影した画像であっても、薬剤全体が透明(半透明)な透明薬剤、あるいは一部又は全部が透明なカプセルに粉末又は顆粒状の医薬が充填されたカプセル剤(一部が透明な薬剤)の場合、薬剤の領域から光が透過するため、不透明な薬剤のように真っ黒にならない。
図5に戻って、薬包TPは、回転するローラ18にニップされて、ステージ14に搬送される。薬包TPは、搬送過程で均しが行われ、重なりが解消される。複数の薬包TPが帯状に連なった薬包帯の場合は、1つの薬包TPの撮影が終わると、1包分の長さだけ長手方向(x方向)に搬送され、次の薬包TPの撮影が行われる。
図1に示す物体認識装置20は、複数の薬剤が撮影された撮影画像から複数の薬剤をそれぞれ認識するものであり、特に撮影画像内に存在する各薬剤Tの領域を認識する。
したがって、物体認識装置20の画像取得部22は、撮影装置10により撮影される11枚の撮影画像のうちの、複数の薬剤Tの領域を認識する場合に使用される撮影画像(即ち、リフレクタを介して薬包TPを下方から照明し、カメラ12Aを用いて上方から薬包TPを撮影した撮影画像)を取得する。
CPU24は、RAM26を作業領域とし、ROM28、又は図示しないハードディスク装置に記憶された物体認識プログラムを含む各種のプログラム、パラメータを使用し、ソフトウェアを実行するとともに、ROM28等に記憶されたパラメータを使用することで本装置の各種の処理を実行する。
操作部25は、キーボード、マウス等を含み、ユーザの操作により各種の情報や指示を入力する部分である。
表示部29は、操作部25での操作に必要な画面を表示し、GUI(Graphical User Interface)を実現する部分として機能し、また、複数の対象物体の認識結果等を表示することができる。
尚、本例のCPU24、RAM26及びROM28等はプロセッサを構成し、プロセッサは、以下に示す各種の処理を行う。
[物体認識装置の第1実施形態]
図6は、本発明に係る物体認識装置の第1実施形態を示すブロック図である。
図6に示す第1実施形態の物体認識装置20-1は、図1に示した物体認識装置20のハードウェア構成により実行される機能を示す機能ブロック図であり、画像取得部22、第1認識器30、及び第2認識器32を備えている。
画像取得部22は、前述したように撮影装置10から、複数の薬剤Tの領域を認識する場合に使用される撮影画像を取得する(画像取得処理を行う)。
図7は、画像取得部が取得する撮影画像の一例を示す図である。
図7に示す撮影画像ITP1は、リフレクタを介して薬包TPを下方から照明し、カメラ12Aを用いて上方から薬包TP(図3、図4に示す中央の薬包TP)を撮影した画像である。この薬包TPには、6個の薬剤T(T1~T6)が一包化されている。
図7に示す薬剤T1は、他の薬剤T2~T6から孤立しているが、カプセル状の薬剤T2とT3とは線で接触しており、薬剤T4~T6は互いに点で接触している。また、薬剤T6は、透明薬剤である。
図6に示す第1認識器30は、画像取得部22が取得した撮影画像ITP1を入力し、撮影画像ITP1から複数の薬剤T1~T6の点又は線で接触する箇所のみを示すエッジ画像を取得するエッジ画像取得処理を行う。
図8は、第1認識器により取得される複数の薬剤の点又は線で接触する箇所のみを示すエッジ画像の一例を示す図である。
図8に示すエッジ画像IEは、複数の薬剤T1~T6のうちの2以上の薬剤が点又は線で接触する箇所E1、E2のみを示す画像であり、図8上で、実線で示した画像である。尚、図8上で、点線で示した領域は、複数の薬剤T1~T6が存在する領域を示す。
線で接触する箇所E1のエッジ画像は、カプセル状の薬剤T2とT3とが線で接触している箇所の画像であり、点で接触する箇所E2のエッジ画像は、3つの薬剤T4~T6が互いに点で接触している箇所の画像である。
<第1認識器>
第1認識器30は、以下に示す学習データ(第1学習データ)に基づいて機械学習された機械学習済みの学習モデル(第1学習モデル)で構成することができる。
≪学習データ(第1学習データ)及びその作成方法≫
第1学習データは、複数の対象物体(本例では、「薬剤」)を含む撮影画像であって、複数の薬剤の2以上の薬剤が点又は線で接触する撮影画像を学習用画像(第1学習用画像)とし、第1学習用画像における点又は線で接触する箇所のみを示すエッジ画像を正解データ(第1正解データ)として、第1学習用画像と第1正解データとのペアからなる学習データである。
図7に示したような撮影画像ITP1であって、複数の薬剤の配置、薬剤の種類、薬剤の数等が異なる多数の撮影画像を第1学習用画像として準備する。各第1学習用画像は、複数の薬剤の2以上の薬剤が点又は線で接触する撮影画像とする。この場合、複数の薬剤は、薬包に入っているものに限らない。
また、第1学習用画像に対応する正解データ(第1正解データ)を準備する。第1正解データは、第1学習用画像をディスプレイに表示し、ユーザが2以上の薬剤が点又は線で接触している箇所を目視で確認し、点又は線で接触している箇所をポインティングデバイスで指示することで、作成することができる。
図8は、複数の薬剤の点又は線で接触する箇所のみを示すエッジ画像の一例を示す図である。
図7に示したような撮影画像ITP1を第1学習用画像とする場合、図8に示したエッジ画像IEを第1正解データとし、第1学習用画像(撮影画像ITP1)と第1正解データ(エッジ画像IE)とのペアを第1学習データとする。
第1正解データは、2以上の薬剤が点又は線で接触している箇所をポインティングデバイスで指示することで作成することができるため、物体の領域を塗り潰して物体認識用の正解データ(正解画像)を作成するよりも簡単に作成することができる。
また、第1学習データは、以下の方法により水増しすることができる。
1枚の第1学習用画像と、第1学習用画像内の薬剤の領域を示す情報(例えば、第1学習用画像から複数の薬剤画像をそれぞれ切り出すための複数のマスク画像)とを準備する。複数のマスク画像は、ユーザが各薬剤の領域を塗り潰すことで作成することができる。
続いて、複数のマスク画像により第1学習用画像から複数の薬剤の領域をくり抜いた複数の薬剤画像を取得する。
このようにして取得した複数の薬剤画像を任意に配置し、多数の第1学習用画像を作成する。この場合、複数の薬剤のうちの2以上の薬剤が点又は線で接触するように、各薬剤画像を平行移動させ、あるいは回転させる。
上記のようにして作成される第1学習用画像における各薬剤画像の配置は既知であるため、複数の薬剤のうちの2以上の薬剤が点又は線で接触する箇所も既知である。したがって、作成される第1学習用画像に対して、点又は線で接触する箇所のみを示すエッジ画像(第1正解データ)を自動的に作成することができる。
尚、複数の薬剤画像を任意に配置する場合、透明薬剤(例えば、図7に示す薬剤T6)の薬剤画像は固定し、他の薬剤画像を任意に配置することが好ましい。透明薬剤は、撮影領域内の位置や向きにより、透明薬剤を透過する光が変化し、透明薬剤の薬剤画像が変化するためである。
これにより、少ない第1学習用画像と第1学習用画像内の薬剤の領域を示すマスク画像とを使用して、多数の第1学習データを作成することができる。
第1認識器30は、上記のようにして作成された第1学習データに基づいて機械学習された機械学習済みの第1学習モデルで構成することができる。
第1学習モデルは、例えば、畳み込みニューラルネットワーク(CNN: Convolutional Neural Network))で構成されるものが考えられる。
図6に戻って、第1認識器30は、画像取得部22が取得した撮影画像(例えば、図7に示した撮影画像ITP1)を入力すると、撮影画像ITP1における複数の薬剤(T1~T6)の点又は線で接触する箇所のみを示すエッジ画像(図8に示すエッジ画像IE)を認識結果として出力する。
即ち、第1認識器30は、画像取得部22が取得した撮影画像(例えば、図7に示した撮影画像ITP1)を入力すると、撮影画像ITP1内のピクセル単位、もしくはいくつかのピクセルを一塊にした単位で、点又は線で接触する箇所の領域分類(セグメンテーション)を行い、例えば、点又は線で接触する箇所のピクセルには、「1」を割り当て、それ以外のピクセルには、「0」を割り当てることで、複数の薬剤(T1~T6)の点又は線で接触する箇所のみを示す2値のエッジ画像(図8に示すエッジ画像IE)を認識結果として出力する。
<第2認識器>
第2認識器32は、画像取得部22が取得した撮影画像ITP1と、第1認識器30が認識したエッジ画像IEとを入力し、撮影画像ITP1に撮影されている複数の対象物体(薬剤T)をそれぞれ認識し、その認識結果を出力する。
第2認識器32は、以下に示す学習データ(第2学習データ)に基づいて機械学習された機械学習済みの第2学習モデルで構成することができる。
≪学習データ(第2学習データ)及びその作成方法≫
第2学習データは、複数の対象物体(本例では、「薬剤」)を含む撮影画像であって、複数の薬剤の2以上の薬剤が点又は線で接触する撮影画像と撮影画像における点又は線で接触する箇所のみを示すエッジ画像とを学習用画像(第2学習用画像)とし、撮影画像における複数の薬剤の領域を示す領域情報を正解データ(第2正解データ)として、第2学習用画像と第2正解データとのペアからなる学習データである。
第2学習データは、第1学習データと同様な手法により水増しすることができる。
第2認識器32は、上記のようにして作成された第2学習データに基づいて機械学習された機械学習済みの第2学習モデルで構成することができる。
第2学習モデルは、例えば、CNNで構成されるものが考えられる。
図9は、第2認識器(第2学習モデル)を構成する学習モデルの一つであるCNNの代表的な構成例を示す模式図である。
第2認識器32は、複数のレイヤー構造を有し、複数の重みパラメータを保持している。第2認識器32は、重みパラメータが最適値に設定されることで、学習済みの第2学習モデルとなり、認識器として機能する。
図9に示すように第2認識器32は、入力層32Aと、複数の畳み込み層及び複数のプーリング層を有する中間層32Bと、出力層32Cとを備え、各層は複数の「ノード」が「エッジ」で結ばれる構造となっている。
本例の第2認識器32は、撮影画像に写っている複数の薬剤の領域を個別に認識するセグメンテーションを行う学習モデルであり、撮影画像ITP1内のピクセル単位、もしくはいくつかのピクセルを一塊にした単位で、各薬剤の領域分類(セグメンテーション)を行い、例えば、薬剤毎に各薬剤の領域を示すマスク画像を認識結果として出力する。
第2認識器32は、薬包TPに入り得る薬剤の数を基に設計される。例えば、薬包TPに最大で25個の薬剤が入り得る場合、第2認識器32は、余裕分を加味して最大で30の薬剤領域の認識結果を出力できるように構成される。
第2認識器32の入力層32Aには、画像取得部22が取得した撮影画像ITP1と、第1認識器30が認識したエッジ画像IEとが入力画像として入力される(図7、図8参照)。
中間層32Bは、入力層32Aから入力した入力画像から特徴を抽出する部分である。中間層32Bにおける畳み込み層は、入力画像や前の層で近くにあるノードにフィルタ処理し(フィルタを使用した畳み込み演算を行い)、「特徴マップ」を取得する。プーリング層は、畳み込み層から出力された特徴マップを縮小(又は拡大)して新たな特徴マップとする。「畳み込み層」は、画像からのエッジ抽出等の特徴抽出の役割を担い、「プーリング層」は抽出された特徴が、平行移動などによる影響を受けないようにロバスト性を与える役割を担う。尚、中間層32Bには、畳み込み層とプーリング層とを1セットとする場合に限らず、畳み込み層が連続する場合や正規化層も含まれ得る。
出力層32Cは、中間層32Bにより抽出された特徴に基づき、撮影画像ITP1に写っている複数の薬剤の領域をそれぞれ認識し、薬剤毎の領域を示す情報(例えば、薬剤の領域を矩形の枠で囲む薬剤毎のバウンディングボックス情報)を認識結果として出力する部分である。
第2認識器32の中間層32Bの各畳み込み層等に適用されるフィルタの係数やオフセット値が、第2学習用画像と第2正解データとのペアからなる第2学習データのデータセットにより最適値に設定されている。
図10は、図9に示した第2認識器の中間層の構成例を示す模式図である。
図10に示す最初(1番目)の畳み込み層では、認識用の入力画像と、フィルタFとの畳み込み演算が行われる。ここで、入力画像のうちの撮影画像ITP1は、例えば、縦がH、横がWの画像サイズを有する、赤(R)、緑(G)、青(B)のRGBチャンネル(3チャンネル)の画像であり、入力画像のうちのエッジ画像IEは、縦がH、横がWの画像サイズを有する1チャンネルの画像である。
したがって、図10に示す1番目の畳み込み層では、縦がH、横がWの画像サイズを有する4チャンネルの画像とフィルタFとの畳み込み演算が行われる。フィルタFは、入力画像が4チャンネル(4枚)であるため、例えばサイズ5×5のフィルタの場合、フィルタサイズは、5×5×4のフィルタになる。
このフィルタFを用いた畳み込み演算により、1つのフィルタFに対して1チャンネル(1枚)の「特徴マップ」が生成される。図10に示す例では、M個のフィルタFを使用することで、Mチャンネルの「特徴マップ」が生成される。
2番目の畳み込み層で使用されるフィルタFは、例えばサイズ3×3のフィルタの場合、フィルタサイズは、3×3×Mのフィルタになる。
n番目の畳み込み層における「特徴マップ」のサイズが、2番目の畳み込み層における「特徴マップ」のサイズよりも小さくなっているのは、前段までの畳み込み層によりダウンスケーリングされているからである。
中間層32Bの前半部分の畳み込み層は特徴量の抽出を担い、後半部分の畳み込み層は対象物体(薬剤)の領域検出を担う。尚、後半部分の畳み込み層では、アップスケーリングされ、最後の畳み込み層では、入力画像と同じサイズの複数枚(本例では、30枚)分の「特徴マップ」が出力される。ただし、30枚の「特徴マップ」のうち、実際に意味があるのは、X枚の特徴マップであり、残りの(30-X)枚はゼロ埋めされた意味のない特徴マップとなる。
ここで、X枚のXは、検出された薬剤の個数に対応し、「特徴マップ」を元に各薬剤の領域を囲むバウンディングボックス情報を取得することができる。
図11は、第2認識器による認識結果の一例を示す図である。
第2認識器32は、薬剤の認識結果として、薬剤の領域を矩形の枠で囲むバウンディングボックスBBを出力する。図11に示すバウンディングボックスBBは、透明薬剤(薬剤T6)に対応するものである。このバウンディングボックスBBが示す情報(バウンディングボックス情報)を使用することで、複数の薬剤が撮影されている撮影画像から、薬剤T6の領域の画像(薬剤画像)のみを切り出すことができる。
図7に示すように透明な薬剤T6が薬剤T4、T5と接触していても、図11のバウンディングボックスBBで示すように、透明な薬剤T6の領域を他の薬剤の領域から精度よく分離し、認識することができる。
尚、本例の第2認識器32は、撮影画像ITP1とは別のチャンネルとして、エッジ画像IEを入力するが、撮影画像ITP1とは別系統の入力画像として入力するようにしてもよく、撮影画像ITP1とエッジ画像IEとを合成した画像を入力画像としてもよい。
第2認識器32の学習モデルとしては、例えば、R-CNN(Regions with Convolutional Neural Networks)を使用することができる。
図12は、R-CNNによる物体認識のプロセスを示す図である。
R-CNNでは、撮影画像ITP1内において、大きさを変えたバウンディングボックスBBをスライドさせ、対象物体(本例では薬剤)が入るバウンディングボックスBBの領域を検出する。そして、バウンディングボックスBBの中の画像部分だけを評価(CNN特徴量を抽出)することで、薬剤のエッジを検出する。撮影画像ITP1内でバウンディングボックスBBをスライドさせる範囲は、必ずしも撮影画像ITP1全体である必要はない。
また、R-CNNに代えて、Fast R-CNN、Faster R-CNN、Mask R-CNN等を使用することができる。
図13は、Mask R-CNNにより認識された薬剤のマスク画像を示す図である。
Mask R-CNNは、薬剤の領域を矩形で囲むバウンディングボックスBBの他に、撮影画像ITP1をピクセル単位で、領域分類(セグメンテーション)を行い、各薬剤の領域を示す薬剤画像毎(対象物体画像毎)のマスク画像IMを出力することができる。
図13に示すマスク画像IMは、透明な薬剤T6の領域に対するものである。このマスク画像IMは、撮影画像ITP1以外の撮影画像から、対象物体画像である薬剤画像(透明な薬剤T6の領域のみの画像)を切り出すマスク処理に使用することができる。
また、このような認識を行うMask R-CNNは、第2認識器32の学習用の第2学習データを使用して、機械学習させることで構成することがでる。尚、既存のMask R-CNNを、第2認識器32の学習用の第2学習データを使用して、転移学習(「ファインチューニング」ともいう)させることで、第2学習データのデータ量が少なくても所望の学習モデルを構成すことができる。
更に、第2認識器32は、認識結果として薬剤画像毎のバウンディングボックス情報、マスク画像の他に、薬剤画像の領域のエッジを示す薬剤画像毎のエッジ情報を出力するものでもよい。
第2認識器32は、撮影画像ITP1の他に、各薬剤の領域分離に有用な情報(点又は線で接触する箇所のみを示すエッジ画像IE)を入力して各薬剤の領域を認識するため、撮影画像ITP1に複数の薬剤が写っており、複数の薬剤の2以上の薬剤の領域が点又は線で接触している場合であっても、複数の薬剤の領域を高精度に分離して認識し、その認識結果を出力(出力処理)することができる。
物体認識装置20-1の各薬剤の認識結果(例えば、薬剤毎のマスク画像)は、例えば、図示しない薬剤監査装置、薬剤鑑別装置等に送られ、撮影装置10により撮影された撮影画像ITP1以外の撮影画像から薬剤画像を切り出すマスク処理に使用される。
切り出された薬剤画像は、薬剤監査装置、薬剤鑑別装置等により薬剤の監査、鑑別に使用され、又はユーザによる薬剤の鑑別を支援するために、薬剤の刻印等が視認しやすい薬剤画像を生成し、生成した複数の薬剤画像を整列表示する場合に使用される。
[物体認識装置の第2実施形態]
図14は、本発明に係る物体認識装置の第2実施形態を示すブロック図である。
図14に示す第2実施形態の物体認識装置20-2は、図1に示した物体認識装置20のハードウェア構成により実行される機能を示す機能ブロック図であり、画像取得部22、第1認識器30、画像処理部40、及び第3認識器42を備えている。尚、図14において、図6に示した第1実施形態の物体認識装置20-1と共通する部分には同一の符号を付し、その詳細な説明は省略する。
図14に示す第2実施形態の物体認識装置20-2は、第1実施形態の物体認識装置20-1と比較して第2認識器32の代りに、画像処理部40及び第3認識器42を備えている点で相違する。
画像処理部40は、画像取得部22が取得した撮影画像と、第1認識器30が認識したエッジ画像とを入力し、撮影画像のエッジ画像の部分(点又は線で接触している部分)を、撮影画像の背景色で置換する画像処理を行う。
いま、図7に示すように画像取得部22が取得した撮影画像ITP1に写っている複数の薬剤T1~T6の領域の背景色が白の場合、画像処理部40は、撮影画像ITP1に対して、図8に示したエッジ画像IEにおける薬剤が点又は線で接触する箇所E1、E2を、背景色の白に置き換える画像処理を行う。
図15は、画像処理部により画像処理された撮影画像を示す図である。
画像処理部40により画像処理された撮影画像ITP2は、画像処理前の撮影画像ITP1(図7)と比較して6個の薬剤T1~T6の各領域が、点又は線で接触することなく分離されている点で相違する。
画像処理部40により画像処理された撮影画像ITP2は、第3認識器42に出力される。
第3認識器42は、画像処理された撮影画像ITP2を入力し、撮影画像ITP2に含まれる複数の対象物体(薬剤)をそれぞれ認識し、その認識結果を出力する。
第3認識器42は、通常の学習データに基づいて機械学習された機械学習済みの学習モデル(第3学習モデル)で構成することができ、例えば、Mask R-CNN等を使用することができる。
ここで、通常の学習データとは、対象物体(本例では、「薬剤」)を含む撮影画像を学習用画像とし、その学習用画像に含まれる薬剤の領域を示す領域情報を正解データとして、学習用画像と正解データとのペアからなる学習データである。尚、撮影画像に写される薬剤は、1つでもよいし、複数でもよい。撮影画像に写される薬剤が複数の場合、複数の薬剤は、それぞれ離間していてもよいし、複数の薬剤の一部又は全部が点又は線で接触していてもよい。
第3認識器42に入力する複数の対象物体(本例では、「薬剤」)を含む撮影画像ITP2は、画像処理部40により点又は線で接触する箇所を分離する前処理が行われているため、第3認識器42は、各薬剤の領域を精度よく認識することができる。
[物体認識方法]
図16は、本発明に係る物体認識方法の実施形態を示すフローチャートである。
図16に示す各ステップの処理は、例えば、図6に示した物体認識装置20-1(プロセッサ)により行われる。
図16において、画像取得部22は、撮影装置10から複数の対象物体(薬剤)の2以上の薬剤が点又は線で接触する撮影画像(例えば、図7に示す撮影画像ITP1)を取得する(ステップS10)。尚、画像取得部22が取得する撮影画像ITP1は、複数の薬剤T1~T6の各領域が、点又は線で接触していないものも含むことは言うまでもない。
第1認識器30は、ステップS10で取得された撮影画像ITP1を入力し、撮影画像ITP1における点又は線で接触する箇所のみを示すエッジ画像IEを生成(取得)する(ステップS12、図8参照)。尚、画像取得部22が取得する撮影画像ITP1に写っている全ての薬剤(T1~T6)の各領域が、点又は線で接触していない場合には、第1認識器30から出力されるエッジ画像IEは、エッジ情報がないものになる。
第2認識器32は、ステップS10で取得された撮影画像ITP1と、ステップS12で生成されたエッジ画像IEとを入力し、撮影画像ITP1から複数の対象物体(薬剤)をそれぞれ認識し(ステップS14)、その認識結果(例えば、図13に示す薬剤の領域を示すマスク画像IM)を出力する(ステップS16)。
[その他]
本実施形態における認識の対象物体は、複数の薬剤であるが、これに限らず、同時に撮影される複数の対象物体であり、かつ複数の対象物体の2以上の対象物体が点又は線で接触し得るものであれば、如何なるものでもよい。
また、本発明に係る物体認識装置の、例えば、CPU24等の各種の処理を実行する処理部(processing unit)のハードウェア的な構造は、次に示すような各種のプロセッサ(processor)である。各種のプロセッサには、ソフトウェア(プログラム)を実行して各種の処理部として機能する汎用的なプロセッサであるCPU(Central Processing Unit)、FPGA(Field Programmable Gate Array)などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)、ASIC(Application Specific Integrated Circuit)などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。
1つの処理部は、これら各種のプロセッサのうちの1つで構成されていてもよいし、同種または異種の2つ以上のプロセッサ(例えば、複数のFPGA、あるいはCPUとFPGAの組み合わせ)で構成されてもよい。また、複数の処理部を1つのプロセッサで構成してもよい。複数の処理部を1つのプロセッサで構成する例としては、第1に、クライアントやサーバなどのコンピュータに代表されるように、1つ以上のCPUとソフトウェアの組合せで1つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第2に、システムオンチップ(System On Chip:SoC)などに代表されるように、複数の処理部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサを1つ以上用いて構成される。
これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路(circuitry)である。
また、本発明は、コンピュータにインストールされることにより、本発明に係る物体認識装置として各種の機能を実現させる物体認識プログラム、及びこの物体認識プログラムが記録された記録媒体を含む。
更に、本発明は上述した実施形態に限定されず、本発明の精神を逸脱しない範囲で種々の変形が可能であることは言うまでもない。
10 撮影装置
12A、12B カメラ
13 撮影制御部
14 ステージ
16A、16B 照明装置
16A1~16A4,16B1~16B4 発光部
18 ローラ
20、20-1、20-2 物体認識装置
22 画像取得部
24 CPU
25 操作部
26 RAM
28 ROM
29 表示部
30 第1認識器
32 第2認識器
32A 入力層
32B 中間層
32C 出力層
40 画像処理部
42 第3認識器
BB バウンディングボックス
IE エッジ画像
IM マスク画像
ITP1、ITP2 撮影画像
S10~S16 ステップ
T、T1~T6 薬剤
TP 薬包

Claims (13)

  1. プロセッサを備え、前記プロセッサにより複数の対象物体が撮影された撮影画像から前記複数の対象物体をそれぞれ認識する物体認識装置であって、
    前記プロセッサは、
    前記複数の対象物体の2以上の対象物体が点又は線で接触する前記撮影画像を取得する画像取得処理と、
    前記撮影画像における前記点又は線で接触する箇所のみを示すエッジ画像を取得するエッジ画像取得処理と、
    前記撮影画像と前記エッジ画像とを入力し、前記撮影画像から前記複数の対象物体をそれぞれ認識し、認識結果を出力する出力処理と、
    を行う物体認識装置。
  2. 前記プロセッサは、前記エッジ画像取得処理を行う第1認識器を有し、
    前記第1認識器は、複数の対象物体の2以上の対象物体が点又は線で接触する撮影画像を入力すると、前記撮影画像における前記点又は線で接触する箇所のみを示すエッジ画像を出力する、
    請求項1に記載の物体認識装置。
  3. 前記第1認識器は、
    複数の対象物体を含む撮影画像であって、前記複数の対象物体の2以上の対象物体が点又は線で接触する撮影画像を第1学習用画像とし、前記第1学習用画像における前記点又は線で接触する箇所のみを示すエッジ画像を第1正解データとして、前記第1学習用画像と前記第1正解データとのペアからなる第1学習データに基づいて機械学習された機械学習済みの第1学習モデルである、
    請求項2に記載の物体認識装置。
  4. 前記プロセッサは、第2認識器を有し、
    前記第2認識器は、前記撮影画像と前記エッジ画像とを入力し、前記撮影画像に含まれる前記複数の対象物体をそれぞれ認識し、認識結果を出力する、
    請求項1から3のいずれか1項に記載の物体認識装置。
  5. 前記第2認識器は、複数の対象物体を含む撮影画像であって、前記複数の対象物体の2以上の対象物体が点又は線で接触する撮影画像と前記撮影画像における前記点又は線で接触する箇所のみを示すエッジ画像とを第2学習用画像とし、前記撮影画像における前記複数の対象物体の領域を示す領域情報を第2正解データとして、前記第2学習用画像と前記第2正解データとのペアからなる第2学習データに基づいて機械学習された機械学習済みの第2学習モデルである、
    請求項4に記載の物体認識装置。
  6. 前記プロセッサは、第3認識器を備え、
    前記プロセッサは、前記撮影画像と前記エッジ画像とを入力し、前記撮影画像の前記エッジ画像の部分を、前記撮影画像の背景色で置換する画像処理を行い、
    前記第3認識器は、前記画像処理された前記撮影画像を入力し、前記撮影画像に含まれる前記複数の対象物体をそれぞれ認識し、認識結果を出力する、
    請求項1から3のいずれか1項に記載の物体認識装置。
  7. 前記プロセッサの前記出力処理は、前記撮影画像から各対象物体を示す対象物体画像を切り出すマスク処理に使用する対象物体画像毎のマスク画像、前記対象物体画像の領域を矩形で囲む前記対象物体画像毎のバウンディングボックス情報、及び前記対象物体画像の領域のエッジを示す対象物体画像毎のエッジ情報のうちの少なくとも1つを、前記認識結果として出力する、
    請求項1から6のいずれか1項に記載の物体認識装置。
  8. 前記複数の対象物体は、複数の薬剤である、
    請求項1から7のいずれか1項に記載の物体認識装置。
  9. プロセッサが、以下の各ステップの処理を行うことにより複数の対象物体が撮影された撮影画像から前記複数の対象物体をそれぞれ認識する物体認識方法であって、
    前記複数の対象物体の2以上の対象物体が点又は線で接触する前記撮影画像を取得するステップと、
    前記撮影画像における前記点又は線で接触する箇所のみを示すエッジ画像を取得するステップと、
    前記撮影画像と前記エッジ画像とを入力し、前記撮影画像から前記複数の対象物体をそれぞれ認識し、認識結果を出力するステップと、
    を含む物体認識方法。
  10. 前記認識結果を出力するステップは、前記撮影画像から各対象物体を示す対象物体画像を切り出すマスク処理に使用する対象物体画像毎のマスク画像、前記対象物体画像の領域を矩形で囲む前記対象物体画像毎のバウンディングボックス情報、及び前記対象物体画像毎の領域のエッジを示すエッジ情報のうちの少なくとも1つを、前記認識結果として出力する、
    請求項に記載の物体認識方法。
  11. 前記複数の対象物体は、複数の薬剤である、
    請求項又は10に記載の物体認識方法。
  12. 複数の対象物体を含む撮影画像であって、前記複数の対象物体の2以上の対象物体が点又は線で接触する前記撮影画像を取得する機能と、
    前記撮影画像における前記点又は線で接触する箇所のみを示すエッジ画像を取得する機能と、
    前記撮影画像と前記エッジ画像とを入力し、前記撮影画像から前記複数の対象物体をそれぞれ認識し、認識結果を出力する機能と、
    をコンピュータにより実現させる物体認識プログラム。
  13. 非一時的かつコンピュータ読取可能な記録媒体であって、請求項12に記載の物体認識プログラムが記録された記録媒体。
JP2022500365A 2020-02-14 2021-02-05 物体認識装置、方法及びプログラム Active JP7338030B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020023743 2020-02-14
JP2020023743 2020-02-14
PCT/JP2021/004195 WO2021161903A1 (ja) 2020-02-14 2021-02-05 物体認識装置、方法及びプログラム並びに学習データ

Publications (2)

Publication Number Publication Date
JPWO2021161903A1 JPWO2021161903A1 (ja) 2021-08-19
JP7338030B2 true JP7338030B2 (ja) 2023-09-04

Family

ID=77292145

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022500365A Active JP7338030B2 (ja) 2020-02-14 2021-02-05 物体認識装置、方法及びプログラム

Country Status (3)

Country Link
US (1) US20220375094A1 (ja)
JP (1) JP7338030B2 (ja)
WO (1) WO2021161903A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013015924A (ja) 2011-06-30 2013-01-24 Panasonic Corp 薬剤計数装置およびその方法
JP2015068765A (ja) 2013-09-30 2015-04-13 富士フイルム株式会社 薬剤認識装置及び方法
JP2018027242A (ja) 2016-08-18 2018-02-22 安川情報システム株式会社 錠剤検知方法、錠剤検知装置および錠剤検知プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09231342A (ja) * 1996-02-26 1997-09-05 Sanyo Electric Co Ltd 錠剤検査方法及び装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013015924A (ja) 2011-06-30 2013-01-24 Panasonic Corp 薬剤計数装置およびその方法
JP2015068765A (ja) 2013-09-30 2015-04-13 富士フイルム株式会社 薬剤認識装置及び方法
JP2018027242A (ja) 2016-08-18 2018-02-22 安川情報システム株式会社 錠剤検知方法、錠剤検知装置および錠剤検知プログラム

Also Published As

Publication number Publication date
WO2021161903A1 (ja) 2021-08-19
JPWO2021161903A1 (ja) 2021-08-19
US20220375094A1 (en) 2022-11-24

Similar Documents

Publication Publication Date Title
KR101932009B1 (ko) 다중 객체 검출을 위한 영상 처리 장치 및 방법
CN110892445B (zh) 药剂检查辅助装置、药剂识别装置、图像处理装置、图像处理方法以及程序
JP6823727B2 (ja) 薬剤検査支援装置、画像処理装置、画像処理方法及びプログラム
WO2019167453A1 (ja) 画像処理装置、画像処理方法、およびプログラム
JPWO2019039302A1 (ja) 薬剤検査支援装置、画像処理装置、画像処理方法及びプログラム
JP6853891B2 (ja) 薬剤監査装置、画像処理装置、画像処理方法及びプログラム
JP7125510B2 (ja) 薬剤識別装置、薬剤識別方法及び薬剤識別プログラム
US11704807B2 (en) Image processing apparatus and non-transitory computer readable medium storing program
JP7338030B2 (ja) 物体認識装置、方法及びプログラム
JP7375161B2 (ja) 学習データ作成装置、方法、プログラム、及び記録媒体
JP6330388B2 (ja) 画像処理方法、画像処理装置、並びに、当該方法を実行するプログラム、及び、当該プログラムを記録する記録媒体
WO2021182343A1 (ja) 学習データ作成装置、方法、プログラム、学習データ及び機械学習装置
JP6861825B2 (ja) 薬剤識別装置、画像処理装置、画像処理方法及びプログラム
JP7374869B2 (ja) 薬剤候補表示方法及びプログラム、薬剤識別装置、薬剤識別システム
US20230401698A1 (en) Image processing method and image processing apparatus using same
WO2021006093A1 (ja) 画像生成装置、薬剤識別装置、薬剤表示装置、画像生成方法及びプログラム
JP7252158B2 (ja) 学習方法、学習装置、画像解析装置、及びプログラム
NL2027213B1 (en) Inspecting medicine objects based on hyperspectral imaging
JPH0735699A (ja) 表面欠陥検出方法およびその装置
Ha et al. Glare and shadow reduction for desktop digital camera capture systems
CN112634397A (zh) 数据处理方法、装置、计算机设备和计算机可读存储介质
JP2024024863A (ja) 画像解析装置、画像解析装置の制御方法、プログラム、及び画像解析システム。
WO2023047166A1 (en) Method, apparatus and device for recognizing stacked objects, and computer storage medium
JP2004070394A (ja) ワークの良否識別用カラーパターンマッチング方法
JPH1170922A (ja) 画像マスク作成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230803

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230815

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230823

R150 Certificate of patent or registration of utility model

Ref document number: 7338030

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150