JP7304070B2 - Information processing method, apparatus, and program for recognizing the arrangement state of a group of articles - Google Patents
Information processing method, apparatus, and program for recognizing the arrangement state of a group of articles Download PDFInfo
- Publication number
- JP7304070B2 JP7304070B2 JP2020008386A JP2020008386A JP7304070B2 JP 7304070 B2 JP7304070 B2 JP 7304070B2 JP 2020008386 A JP2020008386 A JP 2020008386A JP 2020008386 A JP2020008386 A JP 2020008386A JP 7304070 B2 JP7304070 B2 JP 7304070B2
- Authority
- JP
- Japan
- Prior art keywords
- area
- group
- articles
- article
- horizontal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、商品などの物品群の配置状態を認識するための技術に関する。 The present invention relates to a technique for recognizing the arrangement state of a group of articles such as merchandise.
画像において個別物品を検出する技術としては、YOLO(You Only Look Once)(非特許文献1)やSSD(Single Shot multibox Detector)(非特許文献2)などが知られている。これらの技術を用いて個別物品を検出する場合には、検出すべき種類の個々の物品の画像を学習して、処理対象の画像における物品の種類と位置を検出する。これらの技術は、基本的にはCNN(Convolutional Neural Network)を用いている。 YOLO (You Only Look Once) (Non-Patent Document 1), SSD (Single Shot multibox Detector) (Non-Patent Document 2), and the like are known as techniques for detecting an individual article in an image. When these techniques are used to detect individual articles, images of individual articles of the type to be detected are learned to detect the type and position of the article in the image to be processed. These techniques basically use a CNN (Convolutional Neural Network).
YOLOやSSDを用いて、通常どおり検出すべき種類の個々の物品の画像を学習すれば、例えば店舗における棚に整列配置された物品群についての画像についても、同様に処理できるものと考えられるが、密に並べられた物品群に含まれる個別物品の検出は苦手としている、という報告もなされている(非特許文献3)。 If YOLO or SSD is used to learn images of individual articles of the type to be detected as usual, it is conceivable that images of groups of articles arranged on shelves in a store, for example, can be similarly processed. It has also been reported that it is not good at detecting individual items contained in a group of closely arranged items (Non-Patent Document 3).
例えば店舗の棚に、物品の種類毎(例えば内容、サイズや形状の種類毎)に同一種類の複数の物品が密に整列配置されるような状態において、ロボットなどに物品の補充その他の処理を行わせるようなことを想定すると、物品群の配置状態の自動認識が求められる。店舗は一例であり、倉庫などにおいても同様である。 For example, in a state in which a plurality of articles of the same type are densely arranged on a store shelf for each type of article (for example, for each type of content, size, or shape), a robot or the like is used to replenish articles or perform other processes. Assuming that such a thing is performed, automatic recognition of the arrangement state of the article group is required. A store is an example, and the same applies to a warehouse or the like.
従って、本発明の目的は、一側面として、整列配置された物品群の配置状態を認識するために用いられる新規な技術を提供することである。 SUMMARY OF THE INVENTION Accordingly, it is an object of the present invention, as one aspect, to provide a novel technique that can be used to recognize the arrangement of a group of aligned articles.
本発明に係る情報処理方法は、整列配置された物品群の画像において、重力方向に平行な方向である垂直方向に連続する物品群の領域と、水平方向に連続する物品群の領域と、垂直方向及び水平方向に直交する奥行方向に連続する物品群の領域とを検出するように学習された学習済みモデルにより、入力画像から、垂直方向に連続する物品群の第1の領域と、水平方向に連続する物品群の第2の領域と、奥行方向に連続する物品群の第3の領域とを検出する処理を含む。 The information processing method according to the present invention includes, in an image of a group of articles arranged in line, an area of the group of articles continuing in the vertical direction parallel to the direction of gravity, an area of the group of articles continuing in the horizontal direction, and an area of the group of articles continuing in the horizontal direction. From the input image, a first region of the vertically continuous article group and a horizontally continuous and a process of detecting a second area of the group of articles that is continuous in the direction of depth and a third area of the group of articles that is continuous in the depth direction.
なお、上記情報処理方法は、第1の領域と前記第2の領域と前記第3の領域とのうち少なくとも2つの重なりの状態に基づき、入力画像において、上記物品群に含まれる個々の物品についての第4の領域を特定する処理をさらに含むようにしてもよい。 In the above information processing method, based on the state of overlap of at least two of the first area, the second area, and the third area, in the input image, for each article included in the article group, may further include a process of specifying a fourth region of .
一側面によれば、整列配置された物品群の配置状態を認識するための新たな要素技術が提供される。 According to one aspect, a new element technology is provided for recognizing the arrangement state of a group of aligned articles.
本発明の実施の形態に係るシステムの概要を図1に示す。本実施の形態に係るシステムは、画像(動画像を含む)を撮影するカメラ210を有するロボット200と、当該ロボット200と無線などにより通信可能な情報処理装置100とを含む。ロボット200は、例えば店舗の通路を移動して、店舗の棚の画像を撮影し、撮影した画像のデータを情報処理装置100に送信するようになっている。
FIG. 1 shows an outline of a system according to an embodiment of the invention. The system according to the present embodiment includes a
図2に示すように、例えば店舗の棚に、個別物品(図2の例では円柱状の物品であるが、形状は問わない)が密に整列配置されていることを前提とする。なお、店舗の通路から棚を撮影するので、重力方向に平行な方向を垂直方向、棚の横方向を水平方向、棚の奥行方向であって垂直方向と水平方向に直交する方向を奥行方向と定義する。 As shown in FIG. 2, for example, it is assumed that individual articles (in the example of FIG. 2, they are columnar articles, but the shape does not matter) are arranged in a dense array on a store shelf. Since the shelves are photographed from the aisle of the store, the vertical direction is the direction parallel to the direction of gravity, the horizontal direction is the lateral direction of the shelf, and the depth direction is the direction perpendicular to the vertical direction and the horizontal direction of the shelf. Define.
また、図3に模式的に示すように、カメラ210は、物品群の側面を正面から見る位置(1)から、物品群の側面及び上面を斜め上から見る位置(2)を経由して、物品群の上面を上から見る位置(3)までを撮影するものとする。位置(1)から(3)までを動画像で撮影しても良いし、各位置において静止画を撮影しても良いが、例えば前者であるものとする。
Further, as schematically shown in FIG. 3, the
情報処理装置100は、画像取得部101と、画像データ格納部102と、配列方向検出部103と、第1データ格納部104と、個別物品検出部105と、第2データ格納部106と、3D配置パターン生成部107と、第3データ格納部108と、欠品検出部109と、異物検出部110とを有する。
The
画像取得部101は、ロボット200からカメラ210によって撮影された画像のデータを受信し、画像データ格納部102に格納する。配列方向検出部103は、画像データ格納部102に格納されている各画像フレームについて、垂直方向に連続する物品群を包含する領域と、水平方向に連続する物品群を包含する領域と、奥行方向に連続する物品群を包含する領域とを検出する機能を有する。
The
配列方向検出部103は、例えば、垂直方向に連続する物品群を包含する領域と、水平方向に連続する物品群を包含する領域と、奥行方向に連続する物品群を包含する領域とを検出するように機械学習された学習済みモデルである。
The arrangement
YOLOやSSD等を用いた物体検出では、入力画像から個別物体を検出するように学習を行っているが、本実施の形態では、YOLOやSSD等における仕組みはそのままで、学習内容が異なる。具体的には、物品の配列状態を学習するものである。より具体的には、物品を個別に認識するのではなく、各画像フレームにおいて、垂直方向に連続する物品群を包含する領域(以下、垂直BB(Bounding Box)と呼ぶ)と、水平方向に連続する物品群を包含する領域(以下、水平BBと呼ぶ)と、奥行方向に連続する物品群を包含する領域(以下、奥行BBと呼ぶ)とを学習する。 In object detection using YOLO, SSD, etc., learning is performed to detect individual objects from an input image, but in this embodiment, the mechanism of YOLO, SSD, etc. remains the same, but the learning content is different. Specifically, it learns the arrangement state of the articles. More specifically, instead of recognizing each item individually, in each image frame, an area containing a group of items that are vertically continuous (hereinafter referred to as a vertical BB (bounding box)) and a horizontally continuous A region containing a group of articles (hereinafter referred to as a horizontal BB) and a region containing a group of articles continuing in the depth direction (hereinafter referred to as a depth BB) are learned.
例えば、図4Aに模式的に示すように、垂直方向に3つ、水平方向に4つの物品が整列配置されている状態の画像が得られた場合、図4Bに模式的に示すように、各々4つの物品を包含する3つの水平BBを指定して学習する。同様に、図4Cに模式的に示すように、各々3つの物品を包含する4つの垂直BBを指定して学習する。これによって、図4Aのような画像が入力されれば、図4Bで示したような水平BBと図4Cで示したような垂直BBとが検出できるようになる。
For example, as schematically shown in FIG. 4A, when an image is obtained in which three articles are arranged in the vertical direction and four articles are arranged in the horizontal direction, as schematically shown in FIG. Designate and
また、図5Aに模式的に示すように、水平方向及び垂直方向は図4Aと同様であるが、奥行方向にも3つの物品が整列配置されている状態の画像が得られた場合、図5Bに模式的に示すように、各々4つの物品を包含する3つの水平BBを指定して学習する。同様に、図5Cに模式的に示すように、各々3つの物品を包含する4つの垂直BBを指定して学習する。さらに、図5Dに模式的に示すように、各々3つの物品を包含する4つの奥行BBを指定して学習する。図5Aの場合には、さらに、図5Eに模式的に示すように、各々4つの物品を包含する3つの水平BBをさらに指定して学習する。これによって、図5Aのような画像が入力されれば、図5B及び図5Eに示すような水平BBと、図5Cで示したような垂直BBと、図5Dで示したような奥行BBとが検出できるようになる。 Also, as schematically shown in FIG. 5A, when an image is obtained in which three articles are aligned in the depth direction, although the horizontal and vertical directions are the same as in FIG. 4A, the image shown in FIG. Three horizontal BBs, each containing four items, are specified and learned, as schematically shown in . Similarly, four vertical BBs, each containing three articles, are specified and learned, as shown schematically in FIG. 5C. Furthermore, as schematically shown in FIG. 5D, four depths BB each containing three articles are designated and learned. In the case of FIG. 5A, three horizontal BBs each containing four articles are further specified and learned, as schematically shown in FIG. 5E. Accordingly, if an image as shown in FIG. 5A is input, a horizontal BB as shown in FIGS. 5B and 5E, a vertical BB as shown in FIG. 5C, and a depth BB as shown in FIG. 5D are generated. be detectable.
図示しないが、図4A及び図5Aで示したような物品の上面のみが含まれる状態の画像が得られた場合、図5Dに示したように、各々3つの物品を包含する4つの奥行BBを指定して学習する。同様に、図5Eに示したように、各々4つの物品を包含する3つの水平BBを指定して学習する。これによって、物品の上面のみが含まれる状態の画像が入力されれば、4つの奥行BBと3つの水平BBが検出できるようになる。 Although not shown, if an image is obtained in which only the top surface of the article is included, as shown in FIGS. 4A and 5A, then four depths BB, each containing three articles, are obtained, as shown in FIG. 5D. Specify and learn. Similarly, three horizontal BBs containing four items each are specified and learned, as shown in FIG. 5E. Accordingly, if an image including only the top surface of the article is input, four depth BBs and three horizontal BBs can be detected.
なお、図6Aに模式的に示すように、図5Aで示した状態から1つの物品が欠落した場合には、図5B乃至図5Eに示したようなBBとは異なるBBを指定して学習する。図6Bに模式的に示すように、最上段の水平BB(h1)は、2つの物品のみを包含する水平BBとして指定して学習する。また、右から2列目の垂直BB(v1)も、2つの物品のみを包含する垂直BBとして指定して学習する。あくまで学習するのは、複数の物品を包含するバウンディングボックス(BB)である。 As schematically shown in FIG. 6A, when one item is missing from the state shown in FIG. 5A, a BB different from the BB shown in FIGS. 5B to 5E is specified and learned. . As shown schematically in FIG. 6B, the top horizontal BB (h1) is designated and learned as the horizontal BB containing only two items. Also, the vertical BB (v1) in the second column from the right is also designated as a vertical BB containing only two items and learned. What is learned is a bounding box (BB) containing multiple items.
また、図6Cに模式的に示すように、物品上面についての水平BBのうち最も手前の水平BB(h2)は、2つの物品のみを包含する水平BBとして指定して学習する。同様に、右から2列目の奥行BB(d1)も、2つの物品のみを包含する奥行BBとして指定して学習する。複数の物品を包含するバウンダリボックスBBを学習するためである。 Further, as schematically shown in FIG. 6C, the frontmost horizontal BB (h2) of the horizontal BBs on the upper surface of the article is designated as the horizontal BB containing only two articles and learned. Similarly, the depth BB (d1) in the second column from the right is also specified and learned as the depth BB containing only two articles. This is for learning a boundary box BB containing multiple items.
図6Aのような画像が入力されれば、図6B及び図6Cで示されたような水平BB、垂直BB及び奥行BBが検出される。 If an image as shown in FIG. 6A is input, horizontal BB, vertical BB and depth BB as shown in FIGS. 6B and 6C are detected.
このような多数の画像について上で述べたように指定した水平BB、垂直BB及び奥行BBを学習させる。なお、様々な種類(パッケージの違いを含む)の物品について同様の学習を行うものとする。 A number of such images are trained for the specified horizontal BB, vertical BB and depth BB as described above. In addition, similar learning shall be performed for various types of goods (including differences in packaging).
図1の説明に戻って、配列方向検出部103は、検出結果である水平BB、垂直BB及び奥行BBについてのデータ(位置及びサイズなど)を第1データ格納104に格納する。なお、第1データ格納部104に格納されたデータを表示装置などの出力装置に出力させてもよい。第2データ格納部105及び第3データ格納部108に格納されたデータについても同様である。
Returning to the description of FIG. 1, the arrangement
個別物品検出部105は、第1データ格納部104及び画像データ格納部102に格納されているデータを用いて、個別物品の領域(以下、個別物品BBと呼ぶ)を検出し、検出結果である個別物品BBについてのデータ(位置及びサイズなど)を第2データ格納部106に格納する。個別物品検出部105は、基本的には、水平BB、垂直BB及び奥行BBの重なり状態に基づき個別物品BBを検出するが、補助的には、一般的な物体検出技術(上記のYOLOやSSD等で個別の物品を検出するように機械学習された学習済みモデル)も活用するようになっている。
The individual
また、3D配置パターン生成部107は、第1データ格納部104、第2データ格納部105及び画像データ格納部102に格納されているデータを用いて、複数の画像フレームから物品群の3D配置パターンを特定し、特定された3D配置パターンのデータを第3データ格納部108に格納する。
Also, the 3D layout
欠品検出部109は、第3データ格納部108に格納されたデータを用いて、欠落している物品を検出する処理を実行し、処理結果を出力する。なお、画像データ格納部102、第1データ格納部104及び第2データ格納部106に格納されているデータを用いるようにしてもよい。
The missing
また、異物検出部110は、画像データ格納部102と第1データ格納部104と第2データ格納部106とに格納されているデータを用いて、物体群における異物(異姿勢などを含む)を検出する処理を実行し、処理結果を出力する。
Further, the foreign object detection unit 110 uses the data stored in the image
次に、情報処理装置100における処理内容について、図7乃至図20を用いて説明する。
Next, details of processing in the
配列方向検出部103及び個別物品検出部105は、画像取得部101が取得して画像データ格納部102に格納した画像フレーム毎に、個別物品BBを検出する個別物品BB検出処理を実行し、検出結果である個別物品BBについてのデータを第2データ格納部106に格納する(ステップS1)。個別物品BB検出処理については、図8乃至図12を用いて詳細に説明する。
The arrangement
次に、3D配置パターン生成部107は、画像データ格納部102、第1データ格納部104及び第2データ格納部106に格納されているデータを用いて、複数の画像フレームに含まれる特定の物品群についての3D配置パターンのデータを生成する3D配置パターン生成処理を実行し、処理結果を第3データ格納部108に格納する(ステップS3)。3D配置パターン生成処理については、図13乃至15を用いて詳細に説明する。
Next, the 3D layout
そして、欠品検出部109は、欠品検出処理を実行するように設定されているか又はユーザに指示されているかを確認し(ステップS5)、欠品検出処理を実行すべき場合には、欠品検出処理を実行し、検出結果を出力する(ステップS7)。欠品検出処理については、後に図16及び17を用いて説明する。
Then, the out-of-
また、異物検出部110は、異物検出処理を実行するように設定されているか又はユーザに指示されているかを確認し(ステップS9)、異物検出処理を実行すべき場合には、異物検出処理を実行し、検出結果を出力する(ステップS11)。異物検出処理については、後に図18乃至20を用いて説明する。 Further, the foreign object detection unit 110 checks whether the foreign object detection process is set to be executed or is instructed by the user (step S9). Execute and output the detection result (step S11). The foreign object detection process will be described later with reference to FIGS. 18 to 20. FIG.
次に、個別物品BB検出処理について、図8乃至図12を用いて説明する。 Next, individual article BB detection processing will be described with reference to FIGS. 8 to 12. FIG.
配列方向検出部103は、画像データ格納部102に格納されている各画像フレームに対して、水平BB、垂直BB及び奥行BBを検出し、検出結果を第1データ格納部104に格納する(ステップS21)。上でも述べたように、配列方向検出部103は、水平BB、垂直BB及び奥行BBを検出するように機械学習された学習済みモデルであるので、その機能を用いた検出を行うものである。なお、水平BB、垂直BB及び奥行BBを総称して配列方向BBと呼ぶことにする。
The arrangement
次に、個別物品検出部105は、第1データ格納部104に格納されたデータに基づき、検出された配列方向BBに何らかの重なりが存在するか否かを判断する(ステップS23)。例えば、1つしか配列方向BBが検出されなかった場合には、重なりは存在しないし、複数の配列方向BBが検出されたとしても、孤立した状態で検出される場合もあるので、この場合も重なりが存在しない。一般に、これまでに示したような整列配置された物品群の場合には、重なりが存在するように配列方向BBが検出される。
Next, the individual
例えば、重なりのある配列方向BBについてはステップS25乃至S33の処理を実行し(ステップS23:Yesルート)、重なりのない配列方向BBについては、ステプS35以降で処理する(ステップS23:Noルート)。 For example, the processing of steps S25 to S33 is executed for the overlapping arrangement direction BB (step S23: Yes route), and the processing for the non-overlapping arrangement direction BB is carried out after step S35 (step S23: No route).
配列方向BB同士の重なりがある場合には、個別物品検出部105は、配列方向BBの重ね合わせ処理を実行し、所定条件を満たす積領域を個別物品BBとして特定し、個別物品BBについてのデータを第2データ格納部106に格納する(スエップS25)。
If there is an overlap in the arrangement direction BB, the individual
重ね合わせ処理については、以下の4つの条件に従って行う。
条件1.同じ方向の配列方向BBの重ね合わせ処理はしない。
条件2.水平BBと垂直BBの重なりにおいて、水平BBの横中心線と垂直BBの縦中心線の交点が切り出されたBBに含まれている。
条件3.水平BBと奥行BBの重なりにおいて、水平BBの横中心線と奥行BBの縦中心線の交点が切り出されたBBに含まれている。
条件4.垂直BBと奥行BBの重なりにおいて、垂直BBの縦中心線と奥行BBの縦中心線の両方が切り出されたBBに含まれている。但し、切り出された領域の高さに下限を設ける。
Superposition processing is performed according to the following four conditions.
Condition 4. In the overlap of the vertical BB and the depth BB, both the vertical center line of the vertical BB and the vertical center line of the depth BB are included in the cut BB. However, a lower limit is set for the height of the clipped region.
例えば、図9Aに示すように、2つの物品を包含する2つの水平BBと2つの物品を含む2つの垂直BBとが検出された場合、条件1に従って同じ方向の配列方向BBの重ね合わせ処理は行わない。従って、水平BB同士、垂直BB同士、奥行BB同士の重ね合わせは行わない。これによって、図9Aにおけて、物品の間に生ずる細い縦方向の重なり領域e2と、物品の間に生ずる細い横方向の重なり領域e1とは、無視する。 For example, when two horizontal BBs containing two articles and two vertical BBs containing two articles are detected as shown in FIG. Not performed. Therefore, horizontal BBs, vertical BBs, and depth BBs are not superimposed. Thus, in FIG. 9A, the narrow longitudinal overlap region e2 occurring between the articles and the narrow lateral overlap region e1 occurring between the articles are ignored.
また、図9Bに示すように、2つの物品を包含する水平BBと、3つの物品を包含する2つの水平BBとが存在する中で、右端の2つの物品を包含する垂直BBとの重なりを考える場合には、条件2及び3に従って、微小な重なり領域e3は無視する。すなわち、水平BBの横中心線と垂直BBの縦中心線の交点を含まない重なり領域は無視する。水平BBと奥行BBの組み合わせについても同様である。
Also, as shown in FIG. 9B, in the presence of a horizontal BB containing two items and two horizontal BBs containing three items, the overlap of the vertical BB containing the two items on the right end is When considering, according to the
さらに、図9Cに示すように、最も手前の物品が2段しか積まれておらず、奥の2列については3段物品が積まれているような場合、奥行BB(d11)と垂直BB(v11)とが検出されて、それらの重なり領域e4が生ずるが、これは条件4に従って高さが閾値未満ということで排除される。 Furthermore, as shown in FIG. 9C, when only two items are stacked on the frontmost side and three items are stacked on the back two lines, the depth BB (d11) and the vertical BB ( v11) are detected, resulting in their overlap region e4, which according to Condition 4 is rejected as being less than the threshold height.
一方、図10Aに示すように、垂直BB(v12)と水平BB(h12)といった異なる方向の配列方向BBの積領域p12は、上記の条件1及び2を満たして、個別物品BBとして特定される。
On the other hand, as shown in FIG. 10A, the product area p12 of the arrangement direction BB in different directions such as the vertical BB (v12) and the horizontal BB (h12) satisfies the
同様に、図10Bに示すように、水平BB(h13)と奥行BB(d13)の積領域p13も、上記の条件1及び3を満たして、個別物品BBとして特定される。
Similarly, as shown in FIG. 10B, the product area p13 of the horizontal BB (h13) and the depth BB (d13) also satisfies the
さらに、図10Cに示すように、奥行BB(d14)と垂直BB(v14)の積領域p14も、上記の条件1及び4を満たすので、個別物品BBとして特定される。
Furthermore, as shown in FIG. 10C, the product area p14 of the depth BB (d14) and the vertical BB (v14) also satisfies the
また、図10Dに示すように、水平BB(h15)と奥行BB(d15)と垂直BB(v15)とが検出された場合、水平BB(h15)と垂直BB(v15)と、水平BB(h15)と奥行BB(d15)と、垂直BB(v15)と奥行BB(d15)との組み合わせで、同じ物品について積領域p15が得られるが、上記の条件1乃至4を満たしており、個別物品BBとして特定される。但し、重ね合わせの優先度に従って、最初に検出された積領域と実質的に同じ積領域が検出されれば、後の検出された積領域については排除すれば良い。
Also, as shown in FIG. 10D, when a horizontal BB (h15), a depth BB (d15), and a vertical BB (v15) are detected, the horizontal BB (h15), the vertical BB (v15), and the horizontal BB (h15) ) and depth BB (d15) and vertical BB (v15) and depth BB (d15) yield product area p15 for the same article, but
なお、個別物品BBを効率的且つ正確に検出するために、重ね合わせ処理は、例えば以下のルールに従って順番に行われる。
1.水平BBと他の配列方向BBとの重ね合わせを優先的に処理し、その後に垂直BBと奥行BBの重ね合わせ処理を実行する。
2.水平BBと他の配列方向BBとの重ね合わせ処理は,画像内の下から上に、左から右に、手前から奥に向かって水平BBを選定する。また、水平BB内では、左から右に向かって垂直BB又は奥行BBとの交差をチェックし、重ね合わせ処理を行う。
3.垂直BBと奥行BBの重ね合わせ処理については、画像内の左から右に、手前から奥に向かって垂直BBを選定し、垂直BB内においては、上から奥行BBとの交差をチェックし、重ね合わせ処理を行う。
In order to efficiently and accurately detect the individual article BB, the overlaying process is performed in order, for example, according to the following rules.
1. Preferential processing is performed for superposition of the horizontal BB and the BB in the other arrangement direction, and then superimposition processing of the vertical BB and the depth BB is performed.
2. In the superposition processing of the horizontal BB and the BB in the other arrangement direction, the horizontal BB is selected from bottom to top, from left to right, and from front to back in the image. Also, within the horizontal BB, intersections with the vertical BB or the depth BB are checked from left to right, and superposition processing is performed.
3. For the process of superimposing the vertical BB and the depth BB, the vertical BB is selected from left to right in the image and from the front to the back. Alignment processing is performed.
このような処理を行えば、配列方向BBに重なりがある部分についてはおおよそ個別物品BBの検出が行われるようになる。しかしながら、配列方向BBが粗で重なりが少ないと、個別物品BBの検出漏れが生ずる。 By performing such a process, detection of individual articles BB is generally performed for portions where there is an overlap in the arrangement direction BB. However, if the arrangement direction BB is coarse and there is little overlap, detection failure of the individual articles BB will occur.
そのため、個別物品検出部105は、配列方向BBの一部重なりが存在するか否かを判断する(ステップS27)。これは、以下のような状態を想定する。例えば図11Aに模式的に示すように、複数の配列方向BBに重なりがあって積領域p16が検出されているが、検出された積領域の和領域(図11Aの場合には積領域=和領域)と、元の配列方向BB(h16)との差領域が、検出された1つの積領域よりも大きい場合に、一部重なりが存在すると判断する。一部重なりが全く検出されなければ、処理は呼び出し元の処理に戻る。
Therefore, the individual
一方、一部重なりが存在すれば、個別物品検出部105は、所定のルールに基づいて、個別物品BBが特定されていない部分について物品数の推定を行い、当該物品個数に応じて個別物品BBを設定して、その個別物品BBについてのデータを第2データ格納部105に格納する(ステップS29)。
On the other hand, if there is a partial overlap, the individual
より具体的には、例えば図11Aに示すように、水平BB(h16)と垂直BB(v16)とが部分的に重なっている場合、水平BB(h16)内にある個別物品BBのうち一番左(又は右)にある個別物品BB(p16)の左辺(又は右辺)と、水平BBの左辺(又は右辺)との距離Lと、その個別物品BB(p16)の幅Wの比(=L/W)が1近傍かそれ以上ならば、一番左(又は右)にある個々の商品の左側(又は右側)に物品が配置されていると推定する。この場合、物品の個数は、L/Wに最も近い自然数と推定される。このように物品の個数が推定できた場合には、検出された1つの個別物品BBを、重なりを許容しつつ、推定個数分だけ均等に配置する。 More specifically, for example, as shown in FIG. 11A, when the horizontal BB (h16) and the vertical BB (v16) partially overlap, the most individual item BB within the horizontal BB (h16) is Ratio (=L /W) is close to 1 or more, it is assumed that the item is placed to the left (or right) of the leftmost (or right) individual item. In this case, the number of articles is estimated to be the nearest natural number to L/W. When the number of articles can be estimated in this way, one detected individual article BB is evenly arranged by the estimated number while allowing overlap.
また、図11Bに示すように、1つの水平BB(h17)に対して、2つの垂直BB(v17及びv18)が部分的に重なっている場合、2つの積領域(p17及びp18)が検出される。このような場合には、水平BB(h17)内にある個別商品BBのうち隣接する2つの個別物品BB(p17及びp18)の中心の距離LCと、それら2つの個別物品BB(p17及びp18)の平均幅Wの比(=LC/W)が2近傍かそれ以上ならば、それら2つの個別物品BBの間に物品が配置されていると推定できる。この場合、物品の個数は、LC/W-1に最も近い自然数と推定される。このように物品の個数が推定された場合には、検出された個別物品BBの平均サイズを有する領域を、重なりを許容しつつ、推定個数分だけ均等に配置する。 Also, as shown in FIG. 11B, when two vertical BBs (v17 and v18) partially overlap one horizontal BB (h17), two product regions (p17 and p18) are detected. be. In such a case, the distance LC between the centers of two adjacent individual products BB (p17 and p18) among the individual products BB within the horizontal BB (h17), and the distance LC between the centers of these two individual products BB (p17 and p18) If the ratio (=LC/W) of the average widths W of the is close to 2 or more, it can be estimated that an article is placed between the two individual articles BB. In this case, the number of items is assumed to be the natural number closest to LC/W-1. When the number of articles is estimated in this way, areas having the average size of the detected individual articles BB are evenly arranged by the estimated number while allowing overlap.
さらに図11Cに示すように、水平BB(h20)と垂直BB(v20)とが部分的に重なっている場合、垂直BB(v20)内にある個別物品BBのうち一番下(又は上)にある個別物品BB(p20)の上辺(又は下辺)と、垂直BB(v20)の上辺(又は下辺)との距離Lと、その個別商品BBの高さHとの比(=L/H)が1近傍かそれ以上ならば、一番下(又は上)にある個別物品BB(p20)の上側(又は下側)に物品が配置されていると推定できる。この場合、物品の個数は、L/Hに最も近い自然数であると推定される。このように物品の個数が推定できた場合には、検出された1つの個別物品BBを、重なりを許容しつつ、推定個数分だけ均等に配置する。 Furthermore, as shown in FIG. 11C , when the horizontal BB (h20) and the vertical BB (v20) partially overlap, the bottom (or top) individual item BB within the vertical BB (v20) The ratio (=L/H) of the distance L between the upper (or lower) side of a certain individual product BB (p20) and the upper (or lower) side of the vertical BB (v20) and the height H of the individual product BB is If it is in the vicinity of 1 or more, it can be estimated that the article is arranged above (or below) the lowest (or above) individual article BB (p20). In this case, the number of articles is assumed to be the natural number closest to L/H. When the number of articles can be estimated in this way, one detected individual article BB is evenly arranged by the estimated number while allowing overlap.
さらに、図11Dに示すように、水平BB(h21及びh22)と、奥行BB(d21)とが部分的に重なっている場合、奥行BB(d21)内にある個別物品BBのうち一番手前(又は奥)にある個別物品BB(p21)の下辺(又は上辺)と、奥行BBの下辺(又は上辺)との距離Lと、その個別物品BB(p21)の高さHの比(=L/H)が1近傍かそれ以上ならば、一番手前(又は一番奥)にある個別物品BBの手前側(又は奥側)に物品が配置されていると推定される。この場合、物品の個数は、L/Hに最も近い自然数と推定される。このように物品の個数が推定できた場合には、用いられた1つの個別物品BBを、重なりを許容しつつ、推定個数分だけ均等に配置する。 Furthermore, as shown in FIG. 11D, when the horizontal BB (h21 and h22) partially overlaps the depth BB (d21), the frontmost individual product BB ( The ratio of the distance L between the lower side (or upper side) of the individual article BB (p21) and the lower side (or upper side) of the depth BB to the height H of the individual article BB (p21) (=L/ If H) is close to 1 or more, it is estimated that the article is arranged on the front side (or the back side) of the individual article BB that is the closest (or the farthest). In this case, the number of articles is estimated to be the natural number closest to L/H. When the number of articles can be estimated in this way, the individual articles BB used are evenly arranged by the estimated number while allowing overlap.
このようなルールに従って、上記の差領域に個別物品BBを設定することで、積領域だけで対処できなかった部分を埋める。このように、配列方向BBの重なりから、個別物品BBが特定されていない部分について物品数を推定する方法は、物品群の側面を正面(図3の(1))または物品群の上面を上から見る位置(図3の(3))の画像に対して特に有効である。 By setting the individual article BB in the difference area according to such rules, the portion that could not be dealt with only by the product area is filled. In this way, the method for estimating the number of articles for the portion where the individual article BB is not specified from the overlap in the arrangement direction BB is to set the side of the article group to the front ((1) in FIG. 3) or the upper surface of the article group. This is particularly effective for an image at a position viewed from above ((3) in FIG. 3).
そして、個別物品検出部105は、所定ルールで対処できなかった部分が存在するか否かを判断する(ステップS31)。ステップS29におけるルールは物品個数が推定可能な一部の領域についてのみ対処可能で、特に垂直BB及び奥行BBについては、上記ルールでは対処できないこともある。例えば、図11A及び図11Bの場合でも垂直BBの個別物品BB以外の領域、図11Dの最前列の領域などである。これらでは、物品が、検出されている個別物品BBのサイズとは異なるサイズで見えるため、個別物品BBのサイズに基づく推定では対処できない。従って、配列方向BBにおいて、個別物品BBが配置されていない所定サイズ以上の領域が存在する場合には、所定ルールで対処できなかった部分が存在すると判断する。所定ルールで対処できなかった部分が存在しない場合には、処理は呼び出し元の処理に戻る。
Then, the individual
一方、所定ルールで対処できなかった部分が存在する場合には、個別物品検出部105は、その配列方向BBでの一般物体検出を行って個別物品BBを特定し、その結果を第2データ格納部106に格納する(ステップS33)。一般物体検出は、上でも述べたように、従来どおり検出対象となる物品を画像から検出できるように機械学習された学習済みモデルによって行われる。そして、処理は呼び出し元の処理に戻る。
On the other hand, if there is a portion that could not be dealt with by the predetermined rule, the individual
また、個別物品検出部105は、他の配列方向BBとの重なりが全くない配列方向BBについては、ステップS33と同様に、各配列方向BB内での一般物体検出を実行して個別物品BBを特定し、その結果を第2データ格納部106に格納する(ステップS35)。
Further, for the arrangement direction BB that does not overlap with any other arrangement direction BB, the individual
そして、個別物品検出部105は、ステップS35の処理対象の配列方向BBにおいて、一般物体検出で個別物品BBを検出できなかった領域があるか否かを判断する(ステップS37)。この判断も、基本的にはステップS27と同様である。すなわち、検出された個別物品BB域の和領域と、元の配列方向BBとの差領域が、検出された1つの個別物品BBよりも大きい場合に、個別物品BBを検出できなかった領域が存在すると判断する。このような領域が存在しなければ、処理は呼び出し元の処理に戻る。
Then, the individual
一方、個別物品BBを検出できなかった領域が存在すると判断された場合には、個別物品検出部105は、ステップS29と同様の処理を実行する(ステップS39)。すなわち、サイズに基づき物品個数が推定できれば、その個数分だけ個別物品BBを設定する処理である。そして処理は、呼び出し元の処理に戻る。
On the other hand, when it is determined that there is an area in which the individual article BB could not be detected, the individual
以上の処理を行うことで、主に配列方向BBの重なり状態を基に、個別物品BBを検出できるようになる。 By performing the above processing, the individual articles BB can be detected mainly based on the overlapping state in the arrangement direction BB.
例えば、図12Aに示すように、物品群の側面から見た画像フレームの場合には、当該画像フレームに現れる9個の物品の各々について、点線で表される個別物品BBが提示可能となる。また、図12Bに示すように、物品群を斜め上から見た画像フレームの場合には、当該画像フレームに現れている14個の物品の各々について、点線で表される個別物品BBが提示可能となる。 For example, as shown in FIG. 12A, in the case of an image frame viewed from the side of a group of items, individual items BB represented by dotted lines can be presented for each of nine items appearing in the image frame. In addition, as shown in FIG. 12B, in the case of an image frame in which an article group is viewed obliquely from above, an individual article BB represented by a dotted line can be presented for each of the 14 articles appearing in the image frame. becomes.
なお、以下で述べる3D配置パターン生成処理を行う場合には、個別物品BBについては、どのようにして検出されたのかについてのデータを保持しておく。例えば、水平BBと垂直BBとの積領域であれば、「水平及び垂直」というデータを保持しておく。水平BB内における物品個数推定から設定された場合には、「水平」というデータを保持しておく。 When performing the 3D arrangement pattern generation process described below, data on how the individual article BB was detected is held. For example, in the case of the product area of the horizontal BB and the vertical BB, the data "horizontal and vertical" are held. When the setting is made from the estimation of the number of articles in the horizontal BB, the data "horizontal" is held.
次に、図13乃至図15を用いて、3D配置パターン生成処理について説明する。 Next, 3D arrangement pattern generation processing will be described with reference to FIGS. 13 to 15. FIG.
3D配置パターン生成部107は、同一物品群についての各画像フレームについての処理結果(画像データ格納部102、第1データ格納部104及び第2データ格納部106に格納されたデータ)を用いて、各画像フレームについて仮想ネットワークを生成する(ステップS51)。
The 3D arrangement
具体的には、個別物品BB毎に1つのノードを設け、その個別物品BBの上記属性(例えば「水平及び垂直」など)を引き継がせる。そして、同じ水平BBに含まれる個別商品BBについてのノードであれば水平方向に仮想リンクで連結し、同じ垂直BBに含まれる個別商品BBについてのノードであれば垂直方向に仮想リンクで連結し、同じ奥行BBに含まれる個別商品BBについてのノードであれば奥行方向に仮想リンクで連結する。 Specifically, one node is provided for each individual article BB, and the above attributes (for example, "horizontal and vertical") of the individual article BB are inherited. If the nodes are related to individual product BBs included in the same horizontal BB, they are horizontally connected by virtual links, and if the nodes are related to individual product BBs contained in the same vertical BB, they are connected vertically by virtual links, Nodes for individual products BB included in the same depth BB are connected by virtual links in the depth direction.
図12Aに示した画像フレームの例では、図14Aに示すように、9つの個別物品BBの各々にノードが設定され、水平方向及び垂直方向にノード間に仮想リンクで連結されて、仮想ネットワークが生成される。各ノードは、「水平及び垂直」属性を有している。 In the example of the image frame shown in FIG. 12A, as shown in FIG. 14A, nodes are set for each of the nine individual articles BB, and the nodes are horizontally and vertically connected by virtual links to form a virtual network. generated. Each node has a "horizontal and vertical" attribute.
図12Bに示した画像フレームの例では、図14Bに示すように、14個の個別物品BBの各々にノードが設定され、水平方向、垂直方向及び奥行方向に仮想リンクが設定されて、図14Aとは異なる仮想ネットワークが生成される。図14Bでは、ノードn1乃至n6については、「水平及び奥行」属性を有しており、ノードn7及びn8については、「垂直及び奥行」属性を有しており、その他のノードは「水平及び垂直」属性を有している。 In the example of the image frame shown in FIG. 12B, as shown in FIG. 14B, nodes are set for each of the 14 individual articles BB, virtual links are set in the horizontal direction, vertical direction and depth direction, and the virtual links are set as shown in FIG. A different virtual network is created. In FIG. 14B, nodes n1 to n6 have a “horizontal and depth” attribute, nodes n7 and n8 have a “vertical and depth” attribute, and other nodes have “horizontal and vertical” attributes. ” attribute.
なお、このような物品群を真上から見た画像フレームの場合、図14Cで模式的に示すように、9つの個別物体BBの各々にノードが設定され、水平方向及び奥行方向に仮想リンクで連結する。各ノードは、「水平及び奥行」属性を有している。 In the case of an image frame in which such a group of articles is viewed from directly above, as schematically shown in FIG. Link. Each node has a "horizontal and depth" attribute.
次に、3D配置パターン生成部107は、同一物品群についての各画像フレームについて生成された仮想ネットワークの対応付けを行って、仮想ネットワークの統合を行う(ステップS53)。
Next, the 3D arrangement
例えば、図14A乃至14Cについての仮想ネットワークが得られた場合、リンク構造が少なくとも一部一致していることを確認しつつ、個別物品BB内の画像特徴の類似度が閾値以上といった基準にて、統合を行う。 For example, when a virtual network for FIGS. 14A to 14C is obtained, while confirming that the link structures are at least partially matching, based on the criteria that the similarity of the image features in the individual product BB is a threshold value or more, do the integration.
図14Aにおける下2段分の部分ネットワークは、図14Bにおける下2段分の部分ネットワークと、ノードの属性を含めてリンク構造が一致している。それらの部分の個別物品BBにおける画像特徴も類似しているので、これらの対応関係は特定できる。一方、残余の部分についてはリンク構造が一致せず、図14Bのn5ノード近辺の画像特徴量が図14Aの最上段中央のノードの画像特徴量と近い値を取ることから図14Bにおける仮想ネットワークのノード群を優先して採用する。なお、図14Cにおける仮想ネットワークと、図14Bにおける仮想ネットワークを比較すると、両方とも上2段分の部分ネットワークは、ノード属性も含めてリンク構造が一致している。それらの部分の個別物品BBにおける画像特徴も類似しているので、これらの対応関係は特定できる。一方、残余の部分についてはリンク構造が一致せず、図14Bのn5ノード直下のノードと図14Cにおける最下段中央のノードの画像特徴量が近い値を取ることから図14Bにおける仮想ネットワークの部分ネットワークを優先して採用する。なお、このような処理の詳細については、例えば、恒川 法和等、「動物体の3次元境界線からの逐次3次元幾何モデリング」、社団法人情報処理学会、研究報告、p9-16、2004.3.5などを参照のこと。 The partial network of the lower two stages in FIG. 14A has the same link structure as the partial network of the lower two stages in FIG. 14B, including the attributes of the nodes. These correspondences can be identified because the image features in the individual article BB of those parts are also similar. On the other hand, the link structure of the remaining portion does not match, and the image feature amount near the n5 node in FIG. Preferentially adopt node groups. When the virtual network in FIG. 14C and the virtual network in FIG. 14B are compared, the partial networks of the upper two stages in both have the same link structure including node attributes. These correspondences can be identified because the image features in the individual article BB of those parts are also similar. On the other hand, the link structure of the remaining part does not match, and the image feature values of the node immediately below the n5 node in FIG. 14B and the node in the middle of the bottom row in FIG. are preferentially adopted. For details of such processing, see, for example, Norikazu Tsunekawa et al., "Sequential 3D Geometric Modeling from 3D Boundaries of Moving Objects", Information Processing Society of Japan, Research Report, p9-16, 2004.3. See 5, etc.
以上のように、複数の画像フレームについての仮想ネットワーク間の対応付けを行いつつ、画像特徴量の近さを考慮して、仮想ネットワークの統合を行うものである。図14A乃至図14Cの例の場合には、結果として図14Bに示した仮想ネットワークが採用されることになる。 As described above, the virtual networks are integrated in consideration of the closeness of the image feature amounts while associating the virtual networks with respect to a plurality of image frames. In the case of the examples of FIGS. 14A to 14C, the virtual network shown in FIG. 14B is adopted as a result.
言い換えれば、視点の移動で配列方向BBの種類が変わらない場合に新たに出現したノードは、視野外にあった物品が見えるようになったとみなして、その新たなノード及びそのノード間の仮想リンクを採用する。 In other words, a node newly appearing when the type of arrangement direction BB does not change due to movement of the viewpoint is assumed to be an object that was out of the field of view, and the new node and the virtual link between the nodes are established. to adopt.
また、視点の移動により配列方向BBの種類が増えたときに出現した新たなノードは、隠れていた物品が見えるようになったとみなして、その新たなノード及びそのノード間の仮想リンクを採用する。 In addition, a new node that appears when the number of types of arrangement directions BB increases due to movement of the viewpoint is regarded as a hidden item, and a virtual link between the new node and the node is adopted. .
さらに、視点の移動により配列方向BBの種類が増えたときに消滅したノードは、実際に物品がなかったものとみなして、その消滅ノードを不採用とする。逆に、配列方向BBの種類が減少したときに出現したノードは、誤認識とみなして、採用しない。 Furthermore, a node that disappears when the number of types in the arrangement direction BB increases due to movement of the viewpoint is regarded as having actually no article, and the disappearing node is rejected. Conversely, a node that appears when the number of types of array direction BB is reduced is regarded as erroneous recognition and is not adopted.
そして、3D配置パターン生成部107は、統合された仮想ネットワークから、3D配置パターンを生成し、当該3D配置パターンについてのデータを第3データ格納部108に格納する(ステップS55)。
The 3D arrangement
例えば、図14Bの例では、最も手前に配置された8つの物品については、仮想ネットワークで表された配置そのままで物品が配置されており、それより奥に配置されている物品群については、最も上に配置されている物品の配置は仮想ネットワークで表されているが、それ以外の部分については仮想ネットワークでは表されていない。従って、見えない部分については、仮想ネットワークで表されており且つ見えている部分の配置と同じ配置、すなわち水平方向の個数、垂直方向の個数及び奥行方向の個数は同じものとして、3D配置パターンを生成する。 For example, in the example of FIG. 14B, the 8 items arranged in the foreground are arranged as they are in the arrangement represented by the virtual network, and the items arranged in the back are arranged as they are in the arrangement represented by the virtual network. The arrangement of the articles arranged on the top is represented by the virtual network, but the other parts are not represented by the virtual network. Therefore, the invisible parts are represented by the virtual network and are arranged in the same arrangement as the visible parts, that is, the number in the horizontal direction, the number in the vertical direction, and the number in the depth direction are the same, and the 3D arrangement pattern is set. Generate.
図14Bの場合には、図15に模式的に示すような3D配置パターンを生成する。3D配置パターンは、例えば1つの物品を立方体で表したものである。この例では、最下段には3×3個の物品があり、2段目にも3×3個の物品があり、最上段には、最も手前の中央部には物品はないが、それ以外は最下段及び2段目と同じように物品が配置される。 In the case of FIG. 14B, a 3D arrangement pattern as schematically shown in FIG. 15 is generated. A 3D arrangement pattern is, for example, a cubic representation of one article. In this example, the bottom row has 3×3 items, the second row also has 3×3 items, and the top row has no items in the center, which is the frontmost, but the others. are arranged in the same manner as the bottom and second tiers.
このような3D配置パターンを生成することで、ロボット200による物体認識が容易になる。
Generating such a 3D arrangement pattern facilitates object recognition by the
次に、欠品検出部109による欠品検出処理について説明する。欠品検出処理については、様々なやり方が可能である。例えば、図15に示したような3D配置パターンが取得できれば、基本の3D配置パターン又は過去の3D配置パターンとの比較により、欠品商品を特定する。
Next, missing item detection processing by the missing
例えば、図16に示すような過去の3D配置パターンを保持している場合には、図16における物品fが、図15における3D配置パターンとの差であると特定できるので、例えば、図17に示すような形で、画像フレームにおいて、物品fに対応する位置にフレーム(点線)を示すことで、欠品を表すようにしてもよい。 For example, if a past 3D arrangement pattern as shown in FIG. 16 is stored, the product f in FIG. 16 can be identified as being different from the 3D arrangement pattern in FIG. As shown, a missing item may be indicated by showing a frame (dotted line) at a position corresponding to the item f in the image frame.
他の方法としては、配列方向BBに含まれる個別物品BBの個数をカウントすることで欠品位置を特定しても良い。図12Bのような場合、4つの水平BB内の個別物品BBの数は3つで共通するが、両脇2つの垂直BB内の個別物品BBの数は「3」であるが真ん中の垂直BB内の個別物品BBの数は「2」である。同様に、両脇2つの奥行BB内における個別物品BBの数は「3」であるが真ん中の奥行BB内の個別物品BBの数は「2」となる。これによって、真ん中の垂直BBの上部分に欠品が存在することが特定される。 As another method, the missing item position may be identified by counting the number of individual items BB included in the arrangement direction BB. In the case shown in FIG. 12B, the number of individual articles BB in the four horizontal BBs is three in common, but the number of individual articles BB in the two vertical BBs on both sides is "3", but the vertical BB in the middle The number of individual articles BB in is "2". Similarly, the number of individual articles BB in the two depths BB on both sides is "3", but the number of individual articles BB in the middle depth BB is "2". This identifies the presence of a missing item in the upper portion of the middle vertical BB.
次に、図18乃至図20を用いて、異物検出処理について説明する。 Next, foreign matter detection processing will be described with reference to FIGS. 18 to 20. FIG.
まず、異物検出部110は、画像データ格納部102に格納される複数の画像フレームから、垂直BB及び水平BBのみ、及び水平BB及び奥行BBのみを検出した特定の画像フレームを抽出する(ステップS61)。すなわち、ほぼ真横から物品群を見た画像フレームと、ほぼ真上から物品群を見た画像フレームとを抽出する。例えば、図19に示すような画像フレームが得られたものとする。なお、物品側面には「CUP」という英文字列が記載されているが、中央の物品以外は、「C」が見える姿勢で配置されており、中央の物品については「P」が見える姿勢で配置されている。 First, the foreign object detection unit 110 extracts specific image frames in which only the vertical BB and horizontal BB and only the horizontal BB and depth BB are detected from a plurality of image frames stored in the image data storage unit 102 (step S61). ). That is, an image frame in which the group of articles is viewed almost from the side and an image frame in which the group of articles is viewed from almost directly above are extracted. For example, assume that an image frame as shown in FIG. 19 is obtained. In addition, although the English character string "CUP" is written on the side of the item, the items other than the central item are arranged so that the "C" can be seen, and the central item is placed so that the "P" can be seen. are placed.
次に、異物検出部110は、特定の画像フレームにおいて特定された個々の個別物品BBについて、画像における形状及び色を表す特徴ベクトルを算出する(ステップS63)。このような特徴ベクトルは様々なものが知られており、例えばCS-LB記述子(画像エッジの統計情報)と、色相分布記述子とを用いる。 Next, the foreign matter detection unit 110 calculates feature vectors representing the shape and color in the image for each individual article BB specified in the specific image frame (step S63). Various types of such feature vectors are known, and for example, CS-LB descriptors (statistical information of image edges) and hue distribution descriptors are used.
また、異物検出部110は、各特定の画像フレームについて、特徴ベクトルの平均を算出する(ステップS65)。 Foreign matter detection unit 110 also calculates the average of the feature vectors for each specific image frame (step S65).
さらに、異物検出部110は、各特定の画像フレームについて、特徴ベクトルの平均からの距離が閾値以上となる個別物品BBを特定する(ステップS67)。これによって、形状と色の少なくともいずれかにおいて平均的な個別物品BBとは異なる個別物品BB、すなわち異物(異姿勢を含む)の個別物品BBが特定される。 Further, the foreign object detection unit 110 identifies individual articles BB whose distance from the average of the feature vectors is equal to or greater than a threshold for each specific image frame (step S67). As a result, an individual article BB that differs from the average individual article BB in at least one of shape and color, that is, an individual article BB that is a foreign substance (including a different posture) is specified.
図19の例では、図20において点線フレームで示すように、中央の物品が異物(又は異姿勢)であることが特定され、示されるようになる。 In the example of FIG. 19, as indicated by the dotted line frame in FIG. 20, the central article is identified and indicated as a foreign object (or different posture).
なお、検出すべき各物品の姿勢データ付きデータベースが得られる場合には、この姿勢データ付きデータベースに蓄積されたデータを機械学習して物品ID及び姿勢種別を出力できるようにした学習済みモデルを用意することでも、異物検出処理は行える。すなわち、各個別商品BBの画像をこの学習済みモデルに入力すれば、物品ID及び姿勢種別が得られるので、物品ID及び姿勢種別の組み合わせが比較少数の個別物品BBを特定すれば良い。このような方法については、K. Suzuki, Y. Yoshiyasu, A. Gabas, F. Kanehiro, and E. Yoshida, “Toward 6 DOF Object Pose Estimation with Minimum Dataset,” Proc. of the 2019 IEEE/SICE International Symposium on System Integration, pp.462-467. 2019を参照のこと。 If a database with posture data for each object to be detected is available, prepare a learned model that can output the item ID and posture type by performing machine learning on the data accumulated in this database with posture data. Foreign matter detection processing can also be performed by That is, by inputting the image of each individual product BB into this trained model, the product ID and posture type can be obtained. K. Suzuki, Y. Yoshiyasu, A. Gabas, F. Kanehiro, and E. Yoshida, “Toward 6 DOF Object Pose Estimation with Minimum Dataset,” Proc. of the 2019 IEEE/SICE International Symposium on System Integration, pp.462-467. 2019.
以上本発明の実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、処理フローは一例であって、処理結果が変わらない限り、ステップの順番入れ替えや複数ステップの並列実行を行うようにしてもよい。また、図1の機能構成例も一例であって、プログラムモジュール構成とは一致しない場合もある。また、情報処理装置100は、1台のコンピュータで実装される場合もあれば、複数台のコンピュータで実装される場合もある。また、情報処理装置100はロボット200と一体化される場合もあれば、遠隔地に設けられる場合もある。
Although the embodiment of the present invention has been described above, the present invention is not limited to this. For example, the processing flow is an example, and as long as the processing result does not change, the order of steps may be changed or multiple steps may be executed in parallel. The functional configuration example in FIG. 1 is also an example, and may not match the program module configuration. Further, the
なお、上で述べた情報処理装置100は、コンピュータ装置であって、図21に示すように、メモリ2501とCPU(Central Processing Unit)2503とハードディスク・ドライブ(HDD:Hard Disk Drive)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。なお、HDDはソリッドステート・ドライブ(SSD:Solid State Drive)などの記憶装置でもよい。オペレーティング・システム(OS:Operating System)及び本発明の実施の形態における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。CPU2503は、アプリケーション・プログラムの処理内容に応じて表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ2501に格納されるが、HDD2505に格納されるようにしてもよい。本技術の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
The
なお、上で述べたような処理を実行することで用いられるデータは、処理途中のものであるか、処理結果であるかを問わず、メモリ2501又はHDD2505等の記憶装置に格納される。
It should be noted that data used by executing the above-described processing is stored in a storage device such as the
以上述べた実施の形態をまとめると以下のようになる。 The embodiments described above are summarized as follows.
本実施の形態に係る情報処理方法は、整列配置された物品群の画像において、重力方向に平行な方向である垂直方向に連続する物品群の領域と、水平方向に連続する物品群の領域と、垂直方向及び水平方向に直交する奥行方向に連続する物品群の領域とを検出するように学習された学習済みモデルにより、入力画像から、垂直方向に連続する物品群の第1の領域と、水平方向に連続する物品群の第2の領域と、奥行方向に連続する物品群の第3の領域とを検出する処理を含む。 The information processing method according to the present embodiment provides an image of a group of articles arranged in line, in which the area of the group of articles continues in the vertical direction, which is parallel to the direction of gravity, and the area of the group of articles continues in the horizontal direction. , and a region of a group of articles continuous in a depth direction orthogonal to the vertical direction and the horizontal direction, from the input image, a first region of the group of items that is continuous in the vertical direction; It includes a process of detecting a second area of the group of articles continuing in the horizontal direction and a third area of the group of articles continuing in the depth direction.
このような学習済みモデルはこれまで構築及び使用されておらず、整列配置された物品群の配置状態を認識する上で、配列方向を把握することは重要な要素である。この処理結果を用いることで、整列配置された物品群における個々の物品を検出する精度向上も期待される。 Such a trained model has not been constructed and used so far, and grasping the arrangement direction is an important factor in recognizing the arrangement state of a group of articles arranged in line. By using this processing result, it is also expected to improve the accuracy of detecting individual articles in a group of articles that are aligned.
上記情報処理方法は、第1の領域と第2の領域と第3の領域とのうち少なくとも2つの重なりの状態に基づき、入力画像において、物品群に含まれる個々の物品についての第4の領域を特定する処理を含むようにしてもよい。第1乃至第3の領域の活用には様々なものがあるが、このように重なりの状態に着目することで、効果的に個々の物品を検出できるようになる。 In the above information processing method, in the input image, a fourth area for each article included in the article group is generated based on the overlapping state of at least two of the first area, the second area, and the third area. You may make it include the process which specifies. There are various ways to utilize the first to third regions, but by paying attention to the overlapping state in this way, it is possible to effectively detect individual articles.
なお、上で述べた第4の領域を特定する処理において、第1の領域と第2の領域と第3の領域とのうち他の領域との重なりが存在しない領域がある場合、物品群における個々の物品の領域を検出するように学習された第2の学習済みモデルにより、前記他の領域との重なりが存在しない領域について個々の物品についての第4の領域を特定するようにしてもよい。物品があまり配置されていない場合には重なりが生じない場合もあるので、その場合には一般的な物体検出を行うものである。 In addition, in the process of specifying the fourth area described above, if there is an area that does not overlap with other areas among the first area, the second area, and the third area, in the product group A second trained model trained to detect regions of individual articles may identify a fourth region for each article for which there is no overlap with the other regions. . If there are not many articles arranged, there may be no overlap, so in that case, general object detection is performed.
また、上で述べた第4の領域を特定する処理において、第1乃至第3の領域のいずれかと当該いずれかの領域において検出された第4の領域の和領域との差領域が、検出された1つの第4の領域より大きい場合、上記差領域について、検出された第4の領域のサイズに基づき、新たな第4の領域を特定するようにしてもよい。領域の重なりが多くない場合には、重なった部分を用いた推測を行うようにしてもよい。 Further, in the process of identifying the fourth region described above, a difference region between any one of the first to third regions and the sum region of the fourth region detected in any of the regions is detected. If the difference area is larger than one fourth area, a new fourth area may be identified based on the size of the detected fourth area. If there is not much overlap between regions, estimation using the overlapping portion may be performed.
さらに、さらに上記情報処理方法は、第4の領域をノードで表し、且つ垂直方向、水平方向及び奥行方向について第4の領域の隣接関係をリンクで表す仮想ネットワークを生成し、生成された仮想ネットワークに基づいて、物品群についての三次元配置のパターンを決定する処理を、さらに含むようにしてもよい。このように三次元配置のパターンを把握することで、物品群に対するロボット操作などが容易に行えるようになる。 Furthermore, the information processing method generates a virtual network representing the fourth area with nodes and representing adjacency relationships of the fourth area with links in the vertical, horizontal and depth directions, and generating a virtual network The method may further include a process of determining a three-dimensional arrangement pattern for the group of articles based on . By grasping the pattern of the three-dimensional arrangement in this way, it becomes possible to easily perform a robot operation for a group of articles.
また、上記情報処理方法は、三次元の配置パターンに基づき、三次元の配置パターンにおける物品の欠落位置を特定する処理をさらに含むようにしてもよい。例えば、過去の又は基準となる三次元の配置パターンとの差から、欠品を容易に検出できるようになる。 In addition, the information processing method may further include a process of specifying a missing position of the article in the three-dimensional arrangement pattern based on the three-dimensional arrangement pattern. For example, missing items can be easily detected from the difference from the past or reference three-dimensional arrangement pattern.
なお、上記情報処理方法は、第1の領域に含まれる第4の領域の個数、第2の領域に含まれる第4の領域の個数、及び第3の領域に含まれる第4の領域の個数に基づき、物品の欠落位置を特定する処理をさらに含むようにしてもよい。個数についての規則性に反する部分が欠落位置になる。 Note that the above information processing method includes the number of fourth regions included in the first region, the number of fourth regions included in the second region, and the number of fourth regions included in the third region. Based on the above, a process of specifying the missing position of the article may be further included. A part against the regularity of the number becomes a missing position.
さらに、上記情報処理方法は、第4の領域内における画像データに基づき、物品群において異物又は異姿勢の物品についての第4の領域を特定する処理をさらに含むようにしてもよい。画像データの特徴ベクトルなどから異物または異姿勢を検出するようにしてもよいし、画像データから物品の識別子及び姿勢の識別子を抽出するようにして、比較少数の第4の領域を特定しても良い。 Furthermore, the information processing method may further include a process of specifying a fourth area for a foreign object or an article with an abnormal posture in the article group based on the image data in the fourth area. A foreign object or a different posture may be detected from the feature vector of the image data, or the identifier of the article and the identifier of the posture may be extracted from the image data to specify the comparatively small number of fourth regions. good.
以上述べた情報処理方法をコンピュータに実行させるためのプログラムを作成することができて、そのプログラムは、様々な記憶媒体に記憶される。 A program for causing a computer to execute the information processing method described above can be created, and the program is stored in various storage media.
また、上で述べたような情報処理方法を実行する情報処理装置は、1台のコンピュータで実現される場合もあれば、複数台のコンピュータで実現される場合もあり、それらを合わせて情報処理システム又は単にシステムと呼ぶものとする。 Further, the information processing apparatus that executes the information processing method as described above may be realized by a single computer, or may be realized by a plurality of computers. shall be called a system or simply a system.
100 情報処理装置
101 画像取得部
102 画像データ格納部
103 配列方向検出部
104 第1データ格納部
105 個別物品検出部
106 第2データ格納部
107 3D配置パターン生成部
108 第3データ格納部
109 欠品検出部
110 異物検出部
100
Claims (12)
処理を、コンピュータに実行させるためのプログラム。 In the image of the group of articles arranged in line, the area of the group of articles continuing in the vertical direction parallel to the direction of gravity, the area of the group of articles continuing in the horizontal direction, and the area of the group of articles continuing in the horizontal direction are orthogonal to the vertical direction and the horizontal direction. A first area of the vertically continuous article group and a first area of the horizontally continuous article group are detected from the input image by a trained model trained to detect the area of the group of articles continuous in the depth direction. A program for causing a computer to execute a process of detecting a second area of the above and a third area of the article group that is continuous in the depth direction.
処理を、前記コンピュータにさらに実行させるための請求項1記載のプログラム。 a fourth area for each article included in the article group in the input image based on the overlapping state of at least two of the first area, the second area, and the third area; 2. The program according to claim 1, further causing said computer to execute specifying processing.
前記第1の領域と前記第2の領域と前記第3の領域とのうち他の領域との重なりが存在しない領域がある場合、前記物品群における個々の物品の領域を検出するように学習された第2の学習済みモデルにより、前記他の領域との重なりが存在しない領域について個々の物品についての第4の領域を特定する
請求項2記載のプログラム。 In the process of identifying the fourth area,
If there is an area that does not overlap with other areas among the first area, the second area, and the third area, learning is performed to detect the area of each individual article in the article group. 3. The program according to claim 2, wherein the second learned model specifies a fourth area for each article for areas that do not overlap with the other areas.
前記第1乃至第3の領域のいずれかと当該いずれかの領域において検出された第4の領域の和領域との差領域が、検出された1つの第4の領域より大きい場合、前記差領域について、検出された第4の領域のサイズに基づき、新たな第4の領域を特定する
請求項2又は3記載のプログラム。 In the process of identifying the fourth area,
If the difference area between any one of the first to third areas and the sum area of the fourth area detected in any of the areas is larger than one detected fourth area, the difference area 4. The program according to claim 2 or 3, wherein a new fourth area is specified based on the size of the detected fourth area.
生成された前記仮想ネットワークに基づいて、前記物品群についての三次元配置のパターンを決定する
処理を、さらに前記コンピュータに実行させるための請求項2乃至4のいずれか1つ記載のプログラム。 generating a virtual network that represents the fourth area with nodes and represents adjacency relationships of the fourth area with links in the vertical direction, the horizontal direction, and the depth direction;
5. The program according to any one of claims 2 to 4, further causing said computer to execute a process of determining a three-dimensional arrangement pattern of said article group based on said generated virtual network.
処理を、さらに前記コンピュータに実行させるための請求項5記載のプログラム。 6. The program according to claim 5, further causing the computer to execute a process of specifying missing positions of articles in the three-dimensional arrangement pattern based on the three-dimensional arrangement pattern.
処理を、さらに前記コンピュータに実行させるための請求項2乃至4のいずれか1つ記載のプログラム。 Based on the number of fourth regions included in the first region, the number of fourth regions included in the second region, and the number of fourth regions included in the third region, the article 5. The program according to any one of claims 2 to 4, further causing said computer to execute a process of identifying missing positions.
処理を、さらに前記コンピュータに実行させるための請求項2乃至4のいずれか1つ記載のプログラム。 5. The computer according to any one of claims 2 to 4, further causing the computer to execute a process of specifying a fourth area for a foreign object or an article with an abnormal posture in the article group based on the image data in the fourth area. One described program.
処理を、コンピュータが実行する情報処理方法。 In the image of the group of articles arranged in line, the area of the group of articles continuing in the vertical direction parallel to the direction of gravity, the area of the group of articles continuing in the horizontal direction, and the area of the group of articles continuing in the horizontal direction are orthogonal to the vertical direction and the horizontal direction. A first area of the vertically continuous article group and a first area of the horizontally continuous article group are detected from the input image by a trained model trained to detect the area of the group of articles continuous in the depth direction. and a third area of the group of articles that are continuous in the depth direction. An information processing method in which a computer executes a process.
処理をさらに含む請求項9記載の情報処理方法。 a fourth area for each article included in the article group in the input image based on the overlapping state of at least two of the first area, the second area, and the third area; The information processing method according to claim 9, further comprising identifying.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020008386A JP7304070B2 (en) | 2020-01-22 | 2020-01-22 | Information processing method, apparatus, and program for recognizing the arrangement state of a group of articles |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020008386A JP7304070B2 (en) | 2020-01-22 | 2020-01-22 | Information processing method, apparatus, and program for recognizing the arrangement state of a group of articles |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021117531A JP2021117531A (en) | 2021-08-10 |
JP7304070B2 true JP7304070B2 (en) | 2023-07-06 |
Family
ID=77175630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020008386A Active JP7304070B2 (en) | 2020-01-22 | 2020-01-22 | Information processing method, apparatus, and program for recognizing the arrangement state of a group of articles |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7304070B2 (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016115350A (en) | 2014-12-10 | 2016-06-23 | 株式会社リコー | Method, system and computer readable program for analyzing image including organized plural objects |
-
2020
- 2020-01-22 JP JP2020008386A patent/JP7304070B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016115350A (en) | 2014-12-10 | 2016-06-23 | 株式会社リコー | Method, system and computer readable program for analyzing image including organized plural objects |
Non-Patent Citations (3)
Title |
---|
Haitian Sun; Kenji Hanata; Hideomi Sato; Ichiro Tsuchitani; Takuya Akashi,Segmentation based Non-learning Product Detection for Product Recognition on Store Shelves,2019 Nicograph International (NicoInt),日本,IEEE,2019年07月05日,pp. 9-16,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8949198,IEL Online(IEEE Xplore) |
Tadashi Asaoka, et al.,Detection of object arrangement patterns using images for robot picking,ROBOMECH Journal,米国,Springer Open,2018年09月10日,5, Article number: 23,pp. 1-18 |
朝岡 忠(東農工大), 永田 和之(産総研), 水内 郁夫(東農工大),一般物体検出YOLOを用いた物体の種類および配置パターンの識別,ロボティクスメカトロニクス講演会2017講演会論文集 2017 JSME Conference on Robotics and Mechatronics ,日本,一般社団法人 日本機械学会 The Japan Society of Mechanical Engineers,2017年05月09日,pp.1-3 |
Also Published As
Publication number | Publication date |
---|---|
JP2021117531A (en) | 2021-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11250376B2 (en) | Product correlation analysis using deep learning | |
Gupta et al. | Aligning 3D models to RGB-D images of cluttered scenes | |
Tan et al. | Robust monocular SLAM in dynamic environments | |
TWI559242B (en) | Visual clothing retrieval | |
CN111488475A (en) | Image retrieval method, image retrieval device, electronic equipment and computer-readable storage medium | |
CA3072056A1 (en) | Subject identification and tracking using image recognition | |
TWI578272B (en) | Shelf detection system and method | |
JP2022514757A (en) | Systems and methods for object sizing based on partial visual information | |
US20160180441A1 (en) | Item preview image generation | |
WO2020023799A1 (en) | Product correlation analysis using deep learning | |
CA3107485A1 (en) | Realtime inventory tracking using deep learning | |
CA3107446A1 (en) | Deep learning-based store realograms | |
CN106846122B (en) | Commodity data processing method and device | |
CN110472486B (en) | Goods shelf obstacle identification method, device, equipment and readable storage medium | |
CA3183987A1 (en) | Systems and methods for automated recalibration of sensors for autonomous checkout | |
CN112927353A (en) | Three-dimensional scene reconstruction method based on two-dimensional target detection and model alignment, storage medium and terminal | |
CN110598017A (en) | Self-learning-based commodity detail page generation method | |
CN112509011A (en) | Static commodity statistical method, terminal equipment and storage medium thereof | |
CN112037267A (en) | Method for generating panoramic graph of commodity placement position based on video target tracking | |
CA3177772A1 (en) | Systems and methods for detecting proximity events | |
KR20170016578A (en) | Clothes Fitting System And Operation Method of Threof | |
US20220215631A1 (en) | Method and computer program product for processing model data of a set of garments | |
CN106407281B (en) | Image retrieval method and device | |
JP7304070B2 (en) | Information processing method, apparatus, and program for recognizing the arrangement state of a group of articles | |
JP2016162414A (en) | Image processing device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220822 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230606 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230613 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230619 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7304070 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |