JP2023095748A - 物体認識システム、物体認識プログラム及び、物体認識方法 - Google Patents
物体認識システム、物体認識プログラム及び、物体認識方法 Download PDFInfo
- Publication number
- JP2023095748A JP2023095748A JP2022112137A JP2022112137A JP2023095748A JP 2023095748 A JP2023095748 A JP 2023095748A JP 2022112137 A JP2022112137 A JP 2022112137A JP 2022112137 A JP2022112137 A JP 2022112137A JP 2023095748 A JP2023095748 A JP 2023095748A
- Authority
- JP
- Japan
- Prior art keywords
- registered
- image
- appearance
- information
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 19
- 239000000126 substance Substances 0.000 claims description 5
- 230000008569 process Effects 0.000 description 7
- 238000003384 imaging method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/20—Administration of product repair or maintenance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
- G06Q10/087—Inventory or stock management, e.g. order filling, procurement or balancing against orders
- G06Q10/0875—Itemisation or classification of parts, supplies or services, e.g. bill of materials
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/235—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on user input or interaction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/96—Management of image or video recognition tasks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
- G06V20/647—Three-dimensional objects by matching two-dimensional images to three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/10—Recognition assisted with metadata
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Operations Research (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Artificial Intelligence (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Accounting & Taxation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本発明は、物体を撮影した画像から、その物体が事前に登録された登録物体のうち何れであるかを認識する、物体認識システム、物体認識プログラム及び、物体認識方法に関する。
例えば工業製品やその部品について、破損や紛失等により再度注文したい場合がある。しかしながら、特に専門的な製品や部品であれば、現物は持っていてもその製品名や型番等はわからない場合も多く、また類似の製品や部品が多数存在することから、必要な製品を需要者が特定できないという問題が生じていた。特に最近ではインターネットを通じた商品の販売も多く行われるが、需要者自身が対象の商品を特定できない場合には、結局、現物をもって店舗に出向き個別に相談したり、画像を添付して複数回のやりとりを行ったりする必要が生じており、十分な利便性が確保できていなかった。
このような課題に関し、物品の外観画像から、予め辞書に登録された商品を特定する技術が知られている。例えば特許文献1には、物品の外観を示す情報を取り込み、その特徴量を複数抽出して、各商品の特徴量と比較することで、商品候補を認識する技術が開示されている。
例えば特許文献1のように、対象の取扱商品の中から候補を選択すればよい場合には、物品の外観から比較的容易に商品候補を特定することができ、また複数の候補がある場合にもユーザに選択させることで適切に商品を特定できる。しかしながら、特に類似の形状を有することが多い製品や部品を特定する場合には、1方向から見た外観を登録しておくだけでは類似の物体が多く、特定できない場合があるという課題があった。
そこで本発明は、似た物体が想定される場合であってもより適切に物体を特定できる、新規な物体認識システムを提供することを課題とする。
上記課題を解決するために、本発明は、ユーザが撮影した物体画像に含まれる対象物体が、データベースに登録された登録物体のうち何れであるかを推定する物体認識システムであって、前記物体画像を取得する取得手段と、1つの物体についてそれぞれ異なる特徴角度から見た場合の外観を表す複数の外観画像について、外観画像又はその特徴量を、前記登録物体ごとの外観情報として前記データベースに登録する登録手段と、前記物体画像及び前記外観情報に基づいて、前記対象物体がいずれの前記登録物体であるかを推定する推定手段と、を備える。
このような構成とすることで、物体ごとの多角的な外観画像に基づいてより正確に物体を認識することができる。
本発明の好ましい形態では、前記登録手段は、前記登録物体の3次元形状を示す情報に基づいて、複数の前記外観画像を生成して、生成した外観画像に基づく前記外観情報を前記登録物体ごとに前記データベースに登録する手段を有する。
このような構成とすることで、3次元形状の情報に基づいて外観画像を登録することができるため、各登録物体についてそれぞれ多数の外観画像を撮影する手間を要することなく、登録物体のデータベースを容易に作成することが可能となる。
本発明の好ましい形態では、前記登録手段は、前記登録物体を撮影した画像を取得して、前記登録物体ごとに当該画像を前記外観画像として前記外観情報を前記データベースに登録する手段を有する。
このような構成とすることで、実際に物体を撮影することで得られる画像を外観画像として登録し、ユーザにより取得される物体画像と似た外観画像により照合を行うことが可能となる。
本発明の好ましい形態では、前記登録手段は、外観に付着物を伴う前記登録物体の前記外観画像を生成又は取得して、生成した外観画像に基づく前記外観情報を前記データベースに登録する。
実際にユーザが物体を撮影する際には、物体に汚れや傷、錆等の付着物が伴う物体が被写体となる場合がある。このように、外観に付着物を伴う外観画像をデータベースに登録することにより、付着物がある場合にも適切に物体の認識を行うことを支援する効果が期待できる。
本発明の好ましい形態では、前記登録手段は、前記外観情報を、前記特徴角度を示す情報と対応付けて登録する。
このような構成とすることで、例えばユーザから複数の物体画像とともにその撮影角度に関する情報を取得すれば、角度に応じた外観の変化に基づいて物体を特定することが可能となり、より精度を向上させることができる。
本発明の好ましい形態では、前記登録手段は、前記登録物体を他の物体と区別するための情報を含む特徴画像を、登録物体に対応付けて登録可能に構成され、前記推定手段は、前記対象物体である可能性のある前記登録物体の候補を特定して、当該登録物体の前記特徴画像に基づき、前記対象物体を撮影するようユーザに指示するための撮影指示情報を生成する。
このような構成とすることで、例えば他の登録物体にはない特徴的な形状や、独自の刻印等を有する部分を含む画像を特徴画像として登録することで、その部分が写るようにユーザに撮影指示を行うことが可能となる。これにより、似た物体が複数存在する場合であっても、より正確に対象物体を特定することができる。
本発明の好ましい形態では、前記推定手段は、前記対象物体である可能性のある前記登録物体の候補を特定できない場合に、前記対象物体の付着物を除去するようユーザに指示するための撮影指示情報を生成する。
このような構成とすることで、付着物により外観が登録された外観画像と離れている場合であっても、適切にユーザに指示を出すことで、正確に物体を認識できる物体画像を取得することが可能となる。
本発明の好ましい形態では、前記推定手段は、前記物体画像を入力とし、前記物体画像に含まれる対象物体と同一の登録物体を出力とする教師データにより学習を行った推定モデルを用いて、前記対象物体がいずれの前記登録物体であるかを推定する。
このような構成とすることで、データセットを適切に選択することで、推定精度を向上させることが可能となる。
本発明は、ユーザが撮影した物体画像に含まれる対象物体が、データベースに登録された登録物体のうち何れであるかを推定するための物体認識プログラムであって、前記物体画像を取得する取得手段と、1つの物体についてそれぞれ異なる特徴角度から見た場合の外観を表す複数の外観画像について、外観画像又はその特徴量を、前記登録物体ごとの外観情報として前記データベースに登録する登録手段と、前記物体画像及び前記外観情報に基づいて、前記対象物体がいずれの前記登録物体であるかを推定する推定手段と、としてコンピュータを機能させる。
本発明は、ユーザが撮影した物体画像に含まれる対象物体が、データベースに登録された登録物体のうち何れであるかを推定する物体認識方法であって、前記物体画像を取得する取得ステップと、1つの物体についてそれぞれ異なる特徴角度から見た場合の外観を表す複数の外観画像について、外観画像又はその特徴量を、前記登録物体ごとの外観情報として前記データベースに登録する登録ステップと、前記物体画像及び前記外観情報に基づいて、前記対象物体がいずれの前記登録物体であるかを推定する推定ステップと、をコンピュータに実行させる。
本発明によれば、似た物体が想定される場合であってもより適切に物体を特定できる、新規な物体認識システムを提供することができる。
以下、図面を用いて、本発明の物体認識システムについて説明する。なお、以下に示す実施形態は本発明の一例であり、本発明を以下の実施形態に限定するものではなく、様々な構成を採用することもできる。
例えば、本実施形態では物体認識システムの構成、動作等について説明するが、同様の構成の方法、装置、コンピュータプログラム等も、同様の作用効果を奏することができる。また、プログラムは、記録媒体に記憶させてもよい。この記録媒体を用いれば、例えばコンピュータにプログラムをインストールすることができる。ここで、プログラムを記憶した記録媒体は、例えばCD-ROM等の非一過性の記録媒体であっても良い。
本発明において「物体」とは、実物として存在する任意の物を指し、対象は限定されない。本実施形態では、工業製品やその製品を構成する部品、複数の部品が組み合わさったサブアセンブリ等を物体として想定する。
本発明では複数の物体をその外観とともに事前に登録し、この登録された物体のことを「登録物体」と呼ぶ。そしてユーザが撮影した対象物体が登録物体のうち何れであるかを、その外観に基づき認識する。
また本発明において登録物体を特定の角度から見た場合の外観を示す画像を外観画像と呼ぶ。この特定の角度を以下では「特徴角度」と呼び、本実施形態では外観画像又は外観画像から得られる特徴量を示す外観情報が、外観画像ごとに特徴角度と対応付けてデータベースに格納される。それぞれ異なる特徴角度と対応付けられた複数の外観画像の外観情報が登録物体ごとに格納されることにより、外観に基づいて物体の認識を行うことが可能となる。
以下、本実施形態では外観情報として外観画像そのものを想定し、外観情報の登録について「外観画像を登録する」と表現して説明を簡略化するが、外観画像に代えて外観画像の特徴量を用いることもできる。ここで特徴量としては、外観画像の画素値に基づき計算することにより得られるベクトル値を用いることができる。特徴量としては、画像の局所特徴と大域的特徴を組み合わせた情報を用いることが好ましい。また、用いる特徴量を機械学習により決定してもよい。例えば、物体の撮影画像から物体の種類を識別するタスクをニューラルネットワークモデルに学習させることで、モデルに特徴量の抽出を行わせ、識別精度が高くなるように、用いる特徴量を決定することが想定される。
なお、同一の登録物体に関し、同じ特徴角度について複数の外観画像を登録可能であってもよい。例えば本実施形態では、同一の登録物体の物体情報に紐づけて、同一の特徴角度に対応付けられた外観画像として、錆や汚れ、傷等の付着物を伴う場合の複数の外観画像と、このような付着物を伴わない外観画像と、を登録する。また、本発明において外観情報は必ずしも特徴角度と対応付けて登録される必要はなく、物体情報と外観画像を紐づけて登録する形態としてもよい。
次に、図1を参照して本実施形態の物体認識システムの機能構成を説明する。本実施形態の物体認識システムは、物体認識装置1と、端末装置2と、がネットワークNWを介して通信可能に構成され、物体認識装置1はデータベースDBと有線又は無線で接続される。物体認識装置1は、端末装置2からユーザが撮影した物体画像を受信し、認識処理を行うことで、物体画像に含まれる対象物体がデータベースDBに登録された登録物体のうち何れであるかを認識する。
物体認識装置1としては、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等の演算装置、RAM(Random Access Memory)等の主記憶装置、HDD(Hard Disk Drive)やSSD(Solid State Drive)、フラッシュメモリ等の補助記憶装置、ネットワークNWへの接続手段を含む種々の入出力装置等を備えた、サーバ装置等の一般的なコンピュータ装置を利用することができる。また、複数のコンピュータを用いて物体認識装置1を構成してもよい。
端末装置2としては、カメラ、演算装置、記憶装置、ネットワークNWへの接続手段を含む種々の入出力装置等を備えた、スマートフォンやタブレット型端末等の任意のコンピュータ装置を利用することができる。物体認識装置1に物体画像の送信を行うための専用のアプリケーションや、専用のウェブページにアクセスするためのブラウザアプリケーション等が記憶装置に記憶され、演算装置が各種の処理を実行することで、任意のコンピュータ装置が本発明の端末装置2として機能する。
なお本実施形態ではカメラを備えるコンピュータを端末装置2として用いてネットワークNWを介して物体認識装置1に物体画像を送信するが、例えばデジタルカメラ等から物体認識装置1に有線又は無線で直接物体画像を送信する構成としてもよい。あるいは、任意のデータベース等に事前に格納された物体画像を、物体認識装置1が取得する構成であってもよい。
物体認識装置1は、登録物体ごとに外観画像を登録する登録手段11と、端末装置2から送信された物体画像を取得する取得手段12と、物体画像に含まれる対象物体がいずれの登録物体であるかを推定する推定手段13と、を備える。なおこれらの手段は複数のコンピュータに分散して備えられていてもよい。
登録手段11は、登録物体ごとに物体情報を登録し、物体情報に紐づけて複数の外観画像を登録する。外観画像はそれぞれ特定の特徴角度から見た場合の物体の外観を示し、特徴角度と対応付けられて登録される。以下、図2~4を用いて、外観画像の登録例について説明する。
ここで外観画像の登録例を説明するために、物体の一例を図2に示す。前述の通り物体の種類は限定されないが、ここでは例えば図2に示すような差圧発信機を例として想定する。この差圧発信機は、上流側の配管と下流側の配管との間に絞りを設け、上流側の圧力と下流側の圧力の差異を計測して配管内を通過する流体の流量を計測するものである。差圧発信機は図2に示すように複数の部品に分けることができ、この例では、差圧発信機を構成する部品の一つである、導管を登録物体として登録することを想定する。
この例では導管には低圧側と高圧側があり区別されるが、その形状は非常に似通っており、これらを見分けることは難しい。このように、よく似た部品等の物体が想定される場合に、それぞれの物体を見分けることができるように、複数の特徴角度と対応付けて外観画像が登録される。なお複数の特徴角度における複数の外観画像を登録することが好ましいが、特徴角度との対応付けは必須ではなく、単に異なる特徴角度における複数の外観画像をそれぞれ登録する形態としてもよい。
外観画像は、例えば図3のように、物体の上方、水平位置、下方のそれぞれから、鉛直方向の軸回りに観察角度(特徴角度)をずらしながら撮影することで取得することができる。ここで、外観画像の取得においては、特徴角度ごとに実際に物体やカメラを動かして実物を撮影してもよいし、あるいは、CG(Computer Graphics)技術を用いて、3次元形状を示す情報を取得し、それに基づき各特徴角度から見た場合の外観画像を生成してもよい。
このようにして取得した特徴角度ごとの外観画像の例を、図4に示す。本実施形態では特徴角度として、基準とする位置からの水平方向及び鉛直方向の角度に対応付けて、それぞれの外観を示す画像が登録される。なおここでは鉛直方向の角度について、上方、水平、下方の3段階としているが、こちらについても例えば水平を0度として、所定の間隔(例えば30度)ごとに-90度から90度の範囲で変化させてもよい。また特徴角度は、このように必ずしも一定間隔でなくてもよい。
また更に本実施形態の登録手段11は、外観画像とは別に、又は外観画像の一部を、登録物体を他の物体と区別するための情報を含む特徴画像として、物体情報に紐づけて登録する。例えば図3の導管の例では、低圧側と高圧側で異なる文字が刻印される部分の画像を特徴画像として登録することができる。本実施形態では、登録手段11が、特徴画像についても外観画像の特徴角度と同様に、その観察角度と対応付けて登録する。ここで特徴画像の観察角度は、登録物体を他の似た物体と区別することが容易な角度である。
取得手段12は、端末装置2が撮影した物体画像を取得する。物体画像の取得方法は限定されず、例えば事前に撮影された画像を物体画像としてアップロードする形態であってもよいが、本実施形態では、端末装置2が備えるカメラを対象物体に向け、随時物体画像が撮影され、その都度、又は所定の間隔で物体認識装置1に送信され、取得手段12が取得する形態を想定する。また本実施形態では、取得手段12が物体画像とともにその撮影角度に関する情報についても併せて取得する。
推定手段13は、取得手段12が取得した物体画像及びデータベースDBに登録された登録物体の外観画像に基づいて、物体画像に含まれる対象物体がいずれの登録物体であるかを推定する。本実施形態では、物体画像を入力とし、物体画像に含まれる対象物体と同一の登録物体を出力とする教師データにより学習を行った推定モデルを用いて、対象物体がいずれの登録物体であるかを推定する。即ち推定手段13は、外観画像を入力として、それに対応付けられる登録物体を推定するタスクを学習した推定モデルに、物体画像を入力することで、対象物体がいずれの登録物体であるかを推定する。
データベースDBは、登録物体ごとの物体情報や、物体情報に紐づけられた外観画像等の様々な情報を記憶する。図5は、データベースDBにおいて登録される登録物体ごとの物体情報の一例を示す図である。物体情報としては、登録物体を一意に識別する物体IDと、型番と、物体名と、メーカー名と、特徴画像IDと、撮影指示と、が格納される。特徴画像IDは、特に登録物体を他の似た登録物体と見分けるために重要な部位の外観を示す特徴画像を指定する情報である。本実施形態ではこのように、登録物体ごとに特徴画像が登録される。
特徴画像は、物体の特徴的な形状や刻印、印字等、他の物体と区別するのに有用な撮影方向からの外観を示す画像である。例えば物体の特徴的な部位を拡大して撮影した画像を特徴画像として用いてもよい。特徴画像と対応付けられた外観画像のうちの何れかを特徴画像として用いることもできるが、外観画像とは別に、例えば物体全体ではなく特定の部位を拡大した画像等を用いてもよい。即ち、特徴画像は、物体の観察角度を示す情報と対応付けられていても、対応付けられていなくてもよい。また撮影指示は、特徴画像が示す部位の撮影をユーザに促すための文言であり、文字列として登録される。なお撮影指示としては、撮影方向を示す矢印のイラスト(画像)等、他の形式であってもよい。
このように、登録物体ごとに特徴角度ごとの外観画像や特徴画像がデータベースDBに登録される。そして本発明は、登録された情報と、ユーザにより撮影された物体画像と、に基づいて、物体画像に含まれる対象物体が、登録物体のうち何れであるかを推測する。以下、物体の認識処理の手順についてフローチャートを用いて説明する。
図6は、本実施形態における認識処理のフローチャートである。本実施形態では、端末装置2において撮像手段21が対象物体を撮像し、物体画像を生成する。物体認識装置1においては、まずステップS1で、取得手段12が端末装置2から送信された物体画像を取得する。ここで本実施形態では、物体画像とともに、端末装置2が備える加速度センサやジャイロセンサ等により得られる撮影角度に関する情報も取得する。
ここで物体画像の撮影においては、1枚1枚撮影指示を受け付けて撮影してもよいが、ユーザがカメラを物体に向け、その間撮像手段21が随時連続して物体画像を取得して物体認識装置1に送信することが好ましい。これにより、取得手段12は連続的に複数の物体画像を取得し、それに基づいて後述のように推定処理が行われるため、認識精度の向上効果が期待できる。また、撮影角度についても、物体画像を取得するごとに絶対的な値として取得する必要はなく、ある物体画像の撮影角度を基準に、どの方向にどれだけ動いたかという相対的な変化によって取得してもよい。
次にステップS2で推定手段13が、物体画像及びデータベースDBに登録された情報に基づいて、対象物体の候補を特定する。具体的には、例えば、データベースDBに登録された外観画像及びその特徴角度をもとに物体を識別するタスクを学習したニューラルネットワークモデルを用いて、物体画像及び撮影角度に関する情報を入力することで対象物体の候補を特定する方法が想定される。
ステップS3では、推定手段13が候補の特定に成功したか否かを判定する。例えば、ステップS2で対象物体が各登録物体である確率を登録物体ごとに算出し、所定値以上の確率が算出された登録物体が存在するか否かによって候補の特定の成否を判定することが考えられる。この場合、所定値以上の数値を満たす登録物体が存在しない場合、候補の特定に失敗したと判断してステップS4に進む。
候補が特定できない場合、物体画像に問題がある可能性が想定される。例えば汚れや錆、その他の付着物により物体の形状や色等、外観が変わってしまっている場合等である。したがって本実施形態ではステップS4において、推定手段13が対象物体の付着物を除去するようユーザに指示するための撮影指示情報を生成し、端末装置2に送信する。そして端末装置2において撮影指示情報に基づく出力がされることで、ユーザに付着物の除去を指示することができる。またこの他、物体画像の撮影時に大きな動きを検出した場合にはブレによる物体画像の不具合が想定されるため、一定時間動かさないよう「動かさないでください」等と指示する撮影指示情報を生成する等、他の撮影指示情報を生成してもよい。
ステップS3で候補の特定に成功した場合、ステップS5に進んで更に候補が複数存在するか否かを推定手段13が確認する。候補が複数存在する場合にはステップS6に進んで、推定手段13が、特定された候補の何れかの登録物体における特徴画像に基づき、対象物体を撮影するようユーザに指示するための撮影指示情報を生成する。推定手段13は、生成した撮影指示情報を端末装置2に送信し、出力手段23が撮影指示情報に基づく出力を行う。
図7は、撮影指示情報に基づき表示される指示画面の表示例である。本実施形態では、推定手段13が特定した何れかの候補の物体情報における特徴画像及び撮影指示に基づいて、撮影指示情報が生成される。ここでは、特徴画像を表示し、撮影指示として「画像のように刻印を撮影してください。」という文言が併せて表示される。この他、例えば特徴画像を撮影画像のプレビューに重畳表示して、「物体をガイドに合わせてください」等と指示する形態であってもよい。候補のうちどの登録物体の特徴画像及び撮影指示を用いるかは、任意に決定してよい。例えば、ステップS3で算出した確率が高い方の候補の物体情報を用いる方法等が想定される。
また、ここでは特徴画像及び撮影指示をそのまま表示する例を示したが、この他にも撮影角度等を具体的に指示する撮影指示情報を生成してもよい。例えば、特徴画像と対応付けてその観察角度をデータベースDBに登録しておき、それに基づく撮影指示情報を生成することが想定される。
より具体的には、まず取得手段12が物体画像とともにその撮影角度を取得する。そして推定手段13が、その撮影角度と特徴画像に対応付けられた観察角度と比較して、移動量及び移動方向、即ち、現在の撮影角度からどの方向にどれだけ動かせばよいのかを具体的に指示する撮影指示情報を生成する。この場合、出力手段23が出力する撮影指示としては、例えば、「右に30度移動して撮影してください」等の文言や、カメラを動かす方向を示す矢印等を表示することができる。
なお、このように本実施形態では特定された候補の特徴画像に基づいて撮影指示情報を生成するが、特徴画像やその観察角度を用いずに、例えば「他の方向から撮影してください」「物体を回転させてください」等、単に撮影角度を変更するように指示する撮影指示情報を生成してもよい。
上述の通り、本実施形態では連続して物体画像を取得し続けるため、指示に従ってユーザがカメラを動かすことで、再度認識が行われる。ここではステップS3で既に候補が絞られているため、ステップS6の指示に従って取得された物体画像及び特徴画像に基づき、推定手段13がその候補の中からより適切な登録物体を特定して、ステップS7で特定した登録物体を候補として端末装置2に出力し、認識結果についての承認をユーザから受け付ける。なお、ここでも選択肢を絞り込まずに全ての登録物体を対象としてステップS2~ステップS5と同様の処理を行ってもよい。
そしてユーザが表示された候補を承認すると(ステップS8でYes)、ステップS9に進んで物体を特定し、処理を終了する。一方、表示された候補と撮影した対象物体が異なると考えられる場合、ユーザは承認しないことを選択し(ステップS8でNo)、ステップS1に戻って再度認識処理がやり直される。
以上のように、本実施形態の物体認識システムによれば、ユーザが端末装置2を用いて対象物体を撮影することで、似た物体がある場合にも好適に物体の認識を行うことができる。これにより、例えば、特定された登録物体の販売ページを表示させたり、登録物体に基づく問合せを行ったりすることが可能となり、ユーザ自身が対象物体の型番等を知らない場合であっても、物体の注文、修理、メーカーへの問合せ等の手続を容易に行うことができる。
具体的には、商品の通信販売ページにおいて本発明を適用し、物体を特定した後に、特定された登録物体を買い物かごに追加するための購入ボタンを表示することが想定される。これにより、手元にある物体の型番等が不明な場合にも、ユーザが容易に正確な商品を購入することができる。また例えば、製品のメーカーが提供するウェブサイトにおいて本発明を適用し、物体を特定した後に、特定された登録物体のマニュアル群のリンクを表示するためのマニュアル表示ボタンを表示することが想定される。マニュアル群としては、物体の修理手順書、取扱説明書、据付説明書、仕様書等を含むことができる。
なお上記の応用例において、物体が商品の一部の部品であり単体の購入ができない場合や部品自体のマニュアルが存在しない場合等には、物体情報を当該商品と紐づけておき、紐づけられた商品に対応する商品の購入ボタンやマニュアルボタンを表示してもよい。
1 :物体認識装置
2 :端末装置
11 :登録手段
12 :取得手段
13 :推定手段
21 :撮像手段
22 :入力手段
23 :出力手段
DB :データベース
NW :ネットワーク
2 :端末装置
11 :登録手段
12 :取得手段
13 :推定手段
21 :撮像手段
22 :入力手段
23 :出力手段
DB :データベース
NW :ネットワーク
Claims (10)
- ユーザが撮影した物体画像に含まれる対象物体が、データベースに登録された登録物体のうち何れであるかを推定する物体認識システムであって、
前記物体画像を取得する取得手段と、
1つの物体についてそれぞれ異なる特徴角度から見た場合の外観を表す複数の外観画像について、外観画像又はその特徴量を、前記登録物体ごとの外観情報として前記データベースに登録する登録手段と、
前記物体画像及び前記外観情報に基づいて、前記対象物体がいずれの前記登録物体であるかを推定する推定手段と、を備える、物体認識システム。 - 前記登録手段は、前記登録物体の3次元形状を示す情報に基づいて、複数の前記外観画像を生成して、生成した外観画像に基づく前記外観情報を前記登録物体ごとに前記データベースに登録する手段を有する、請求項1に記載の物体認識システム。
- 前記登録手段は、前記登録物体を撮影した画像を取得して、前記登録物体ごとに当該画像を前記外観画像として前記外観情報を前記データベースに登録する手段を有する、請求項1又は請求項2に記載の物体認識システム。
- 前記登録手段は、外観に付着物を伴う前記登録物体の前記外観画像を生成又は取得して、生成した外観画像に基づく前記外観情報を前記データベースに登録する、請求項1から請求項3の何れかに記載の物体認識システム。
- 前記登録手段は、前記外観情報を、前記特徴角度を示す情報と対応付けて登録する、請求項1から請求項4の何れかに記載の物体認識システム。
- 前記登録手段は、前記登録物体を他の物体と区別するための情報を含む特徴画像を、登録物体に対応付けて登録可能に構成され、
前記推定手段は、前記対象物体である可能性のある前記登録物体の候補を特定して、当該登録物体の前記特徴画像に基づき、前記対象物体を撮影するようユーザに指示するための撮影指示情報を生成する、請求項1から請求項5の何れかに記載の物体認識システム。 - 前記推定手段は、前記対象物体である可能性のある前記登録物体の候補を特定できない場合に、前記対象物体の付着物を除去するようユーザに指示するための撮影指示情報を生成する、請求項1から請求項6の何れかに記載の物体認識システム。
- 前記推定手段は、前記物体画像を入力とし、前記物体画像に含まれる対象物体と同一の登録物体を出力とする教師データにより学習を行った推定モデルを用いて、前記対象物体がいずれの前記登録物体であるかを推定する、請求項1から請求項7の何れかに記載の物体認識システム。
- ユーザが撮影した物体画像に含まれる対象物体が、データベースに登録された登録物体のうち何れであるかを推定するための物体認識プログラムであって、
前記物体画像を取得する取得手段と、
1つの物体についてそれぞれ異なる特徴角度から見た場合の外観を表す複数の外観画像について、外観画像又はその特徴量を、前記登録物体ごとの外観情報として前記データベースに登録する登録手段と、
前記物体画像及び前記外観情報に基づいて、前記対象物体がいずれの前記登録物体であるかを推定する推定手段と、としてコンピュータを機能させる、物体認識プログラム。 - ユーザが撮影した物体画像に含まれる対象物体が、データベースに登録された登録物体のうち何れであるかを推定する物体認識方法であって、
前記物体画像を取得する取得ステップと、
1つの物体についてそれぞれ異なる特徴角度から見た場合の外観を表す複数の外観画像について、外観画像又はその特徴量を、前記登録物体ごとの外観情報として前記データベースに登録する登録ステップと、
前記物体画像及び前記外観情報に基づいて、前記対象物体がいずれの前記登録物体であるかを推定する推定ステップと、をコンピュータに実行させる、物体認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022112137A JP2023095748A (ja) | 2021-12-24 | 2022-07-13 | 物体認識システム、物体認識プログラム及び、物体認識方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021210042A JP7113469B1 (ja) | 2021-12-24 | 2021-12-24 | 物体認識システム、物体認識プログラム及び、物体認識方法 |
JP2022112137A JP2023095748A (ja) | 2021-12-24 | 2022-07-13 | 物体認識システム、物体認識プログラム及び、物体認識方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021210042A Division JP7113469B1 (ja) | 2021-12-24 | 2021-12-24 | 物体認識システム、物体認識プログラム及び、物体認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023095748A true JP2023095748A (ja) | 2023-07-06 |
Family
ID=82740504
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021210042A Active JP7113469B1 (ja) | 2021-12-24 | 2021-12-24 | 物体認識システム、物体認識プログラム及び、物体認識方法 |
JP2022112137A Pending JP2023095748A (ja) | 2021-12-24 | 2022-07-13 | 物体認識システム、物体認識プログラム及び、物体認識方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021210042A Active JP7113469B1 (ja) | 2021-12-24 | 2021-12-24 | 物体認識システム、物体認識プログラム及び、物体認識方法 |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP4343692A4 (ja) |
JP (2) | JP7113469B1 (ja) |
CN (1) | CN117529746A (ja) |
WO (1) | WO2023120070A1 (ja) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2565844B1 (en) * | 2010-04-28 | 2016-04-06 | Olympus Corporation | Creation method and creation device of three-dimensional object recognition-use image database |
JP6274097B2 (ja) * | 2014-12-17 | 2018-02-07 | カシオ計算機株式会社 | 商品識別装置および商品認識ナビゲーション方法 |
EP3385924B1 (en) * | 2015-11-30 | 2021-06-02 | Toppan Printing Co., Ltd. | Identification method |
JP2018169752A (ja) * | 2017-03-29 | 2018-11-01 | パナソニックIpマネジメント株式会社 | 商品認識システム、学習済みモデル、及び商品認識方法 |
JP6517398B2 (ja) | 2018-05-01 | 2019-05-22 | 東芝テック株式会社 | 情報処理装置及びプログラム |
CN110378303B (zh) * | 2019-07-25 | 2021-07-09 | 杭州睿琪软件有限公司 | 用于对象识别的方法及系统 |
CN113421100A (zh) * | 2020-03-03 | 2021-09-21 | 图灵深视(南京)科技有限公司 | 物品信息记录、流转、鉴别发起及服务方法、终端和系统 |
-
2021
- 2021-12-24 JP JP2021210042A patent/JP7113469B1/ja active Active
-
2022
- 2022-07-13 JP JP2022112137A patent/JP2023095748A/ja active Pending
- 2022-11-30 WO PCT/JP2022/044134 patent/WO2023120070A1/ja active Application Filing
- 2022-11-30 EP EP22910787.5A patent/EP4343692A4/en active Pending
- 2022-11-30 CN CN202280043329.9A patent/CN117529746A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4343692A4 (en) | 2024-06-05 |
JP7113469B1 (ja) | 2022-08-05 |
WO2023120070A1 (ja) | 2023-06-29 |
JP2023094636A (ja) | 2023-07-06 |
CN117529746A (zh) | 2024-02-06 |
EP4343692A1 (en) | 2024-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6608890B2 (ja) | 機械学習装置、ロボットシステム及び機械学習方法 | |
JP7027505B2 (ja) | 画像処理装置 | |
US11380017B2 (en) | Dual-view angle image calibration method and apparatus, storage medium and electronic device | |
KR20210047326A (ko) | Ar/vr 디지털 콘텐츠를 생성하기 위한 디지털 이미지 적합성 결정 | |
US9607244B2 (en) | Image processing device, system, image processing method, and image processing program | |
JP6330880B2 (ja) | カメラ姿勢におけるヨーエラー推定のアルゴリズム | |
JP6442746B2 (ja) | 情報処理装置、制御方法、プログラム | |
EP2960859A1 (en) | Constructing a 3d structure | |
JP2015138428A (ja) | 付加情報表示装置および付加情報表示プログラム | |
JP2019075130A (ja) | 情報処理装置、制御方法、プログラム | |
JP2023065371A (ja) | 製造支援システム,方法,プログラム | |
JP2019174959A (ja) | 商品棚位置登録プログラム、及び情報処理装置 | |
TWI734054B (zh) | 資訊處理裝置、顯示位置調整方法及儲存媒體 | |
JP7113469B1 (ja) | 物体認識システム、物体認識プログラム及び、物体認識方法 | |
US11205089B2 (en) | Object identification device, object identification method, and recording medium | |
JP2018160184A (ja) | 情報処理装置及びプログラム | |
JP6372564B2 (ja) | Pos端末装置、情報処理装置、情報処理システム、画像認識方法および画像認識プログラム | |
US20210166425A1 (en) | Mapping multiple views to an identity | |
US11810231B2 (en) | Electronic device and method for editing content of external device | |
JP6695454B1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
WO2020049636A1 (ja) | 識別システム、モデル提供方法およびモデル提供プログラム | |
JP2021063703A (ja) | タイヤ摩耗度推定装置、タイヤ摩耗度学習装置、タイヤ摩耗度推定方法、学習済モデルの生成方法及びプログラム | |
JP2019185083A (ja) | 買物支援システム及び買物支援方法 | |
JP7322945B2 (ja) | 処理装置、処理方法及びプログラム | |
JP2013130930A (ja) | 画像処理システム、画像処理方法および画像処理用プログラム |