JP2022114418A - Training device of artificial intelligence (ai), picking object estimation device, estimation system, and program - Google Patents
Training device of artificial intelligence (ai), picking object estimation device, estimation system, and program Download PDFInfo
- Publication number
- JP2022114418A JP2022114418A JP2021112182A JP2021112182A JP2022114418A JP 2022114418 A JP2022114418 A JP 2022114418A JP 2021112182 A JP2021112182 A JP 2021112182A JP 2021112182 A JP2021112182 A JP 2021112182A JP 2022114418 A JP2022114418 A JP 2022114418A
- Authority
- JP
- Japan
- Prior art keywords
- image data
- learning
- thinning
- estimation
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title abstract description 13
- 238000013473 artificial intelligence Methods 0.000 title description 42
- 238000000034 method Methods 0.000 claims description 87
- 235000013399 edible fruits Nutrition 0.000 claims description 64
- 238000012545 processing Methods 0.000 claims description 64
- 238000000605 extraction Methods 0.000 description 64
- 230000008569 process Effects 0.000 description 43
- 238000010586 diagram Methods 0.000 description 37
- 230000011218 segmentation Effects 0.000 description 22
- 230000010365 information processing Effects 0.000 description 15
- 238000011156 evaluation Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 7
- 238000011176 pooling Methods 0.000 description 7
- 238000003860 storage Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000003306 harvesting Methods 0.000 description 6
- 230000012447 hatching Effects 0.000 description 6
- 238000010606 normalization Methods 0.000 description 6
- 241000227653 Lycopersicon Species 0.000 description 5
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 5
- 238000011049 filling Methods 0.000 description 5
- 239000000047 product Substances 0.000 description 5
- 239000003086 colorant Substances 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 241000219094 Vitaceae Species 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 235000021021 grapes Nutrition 0.000 description 3
- 230000005484 gravity Effects 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013434 data augmentation Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000167854 Bourreria succulenta Species 0.000 description 1
- 208000032544 Cicatrix Diseases 0.000 description 1
- 241000723267 Diospyros Species 0.000 description 1
- 235000011511 Diospyros Nutrition 0.000 description 1
- 240000009088 Fragaria x ananassa Species 0.000 description 1
- 241000132456 Haplocarpha Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 244000141359 Malus pumila Species 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 235000001630 Pyrus pyrifolia var culta Nutrition 0.000 description 1
- 240000002609 Pyrus pyrifolia var. culta Species 0.000 description 1
- 235000009754 Vitis X bourquina Nutrition 0.000 description 1
- 235000012333 Vitis X labruscana Nutrition 0.000 description 1
- 240000006365 Vitis vinifera Species 0.000 description 1
- 235000014787 Vitis vinifera Nutrition 0.000 description 1
- 238000012271 agricultural production Methods 0.000 description 1
- 235000021016 apples Nutrition 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 235000019693 cherries Nutrition 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 238000002845 discoloration Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 239000013067 intermediate product Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 231100000241 scar Toxicity 0.000 description 1
- 230000037387 scars Effects 0.000 description 1
- 238000010008 shearing Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 235000021012 strawberries Nutrition 0.000 description 1
- 230000036561 sun exposure Effects 0.000 description 1
- 230000008733 trauma Effects 0.000 description 1
- 235000013311 vegetables Nutrition 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、人工知能(AI)の学習装置、摘果対象物推定装置、推定システム、及び、プログラムに関する。 The present invention relates to an artificial intelligence (AI) learning device, thinning target object estimation device, estimation system, and program.
人工知能(Artificial Intelligence、以下「AI」という。)により、現状等に基づき推定、又は、様々な対象物を認識する技術が知られている。 Techniques for estimating or recognizing various objects based on the current state or the like using artificial intelligence (hereinafter referred to as "AI") are known.
例えば、コンベアにロボットハンドを設置した工場等に用いるロボットシステムがある。具体的には、ロボットシステムは、まず、カメラによって物体を撮影する。撮影後、撮影された画像に基づき、物体が画像認識される。そして、ロボットシステムは、撮影した画像に基づき、物体の重心位置を計算する。このように計算される重心位置に基づき、ロボットシステムは、ロボットハンドで物体を把持する正確な位置等を決定する。このようにして、ロボットハンドで物体を安定して把持する技術が知られている(例えば、特許文献1等を参照)。
For example, there is a robot system used in a factory or the like in which a robot hand is installed on a conveyor. Specifically, the robot system first photographs an object with a camera. After photographing, the object is image-recognized based on the photographed image. The robot system then calculates the position of the center of gravity of the object based on the captured image. Based on the position of the center of gravity calculated in this way, the robot system determines an accurate position for gripping the object with the robot hand. Techniques for stably gripping an object with a robot hand in this manner are known (see, for example,
また、AIによる物体の認識は、農業の場面にも用いられる。具体的には、ぶどうの摘粒作業において、AIが粒数を自動的に判定する技術が知られている(例えば、非特許文献1等を参照)。 Recognition of objects by AI is also used in agricultural situations. Specifically, there is known a technique in which AI automatically determines the number of grapes in grape picking (see, for example, Non-Patent Document 1).
上記の特許文献1に記載のような技術は、工場内等の照明環境を想定した技術である。すなわち、工場内等といった照明環境は、撮影、及び、画像認識等の処理を行うのに、野外等の自然光の下といった照明環境と比較して、光等の条件が安定している環境である場合が多い。したがって、工場内等の照明環境を想定した技術は、農作物を扱う等の照明環境には適用させにくい課題がある。
The technology described in
また、上記の非特許文献1に記載のような技術において、AIを学習させるには、学習データを十分に確保することになる。特に、AIを高精度化させるには、大量の学習データを確保するのが望ましい。ゆえに、上記の非特許文献1に記載のような技術では、摘果対象物をAIで高精度に推定するのが難しい課題がある。
In addition, in the technique as described in Non-Patent
本発明は、農作物の摘果作業における摘果対象物をAIで高精度に推定することを目的とする。 An object of the present invention is to highly accurately estimate a thinning object in thinning work of agricultural crops by AI.
上記の課題を解決するため、本発明の一態様における、
生成部と識別部を有する学習モデルを学習させる学習装置は、
摘果前の農作物を示す画像データである第1入力画像データ、及び、摘果後の前記農作物を示す画像データである第2入力画像データを入力する画像データ入力部と、
前記農作物における摘果対象物を推定した結果を示す推定結果画像データを生成する前記生成部と、
前記推定結果画像データを識別して、識別結果を前記生成部へフィードバックさせて前記学習モデルを学習させる前記識別部と
を備える。
In order to solve the above problems, in one aspect of the present invention,
A learning device for learning a learning model having a generation unit and a recognition unit,
an image data input unit for inputting first input image data, which is image data representing crops before thinning, and second input image data, which is image data representing the crops after thinning;
the generation unit that generates estimation result image data indicating a result of estimating a thinning target object in the crop;
and the identification unit that identifies the estimation result image data and feeds back the identification result to the generation unit to learn the learning model.
本発明によれば、農作物の摘果作業における摘果対象物を高精度にAIで推定できる。 ADVANTAGE OF THE INVENTION According to this invention, the thinning target object in fruit thinning work of agricultural products can be estimated with high precision by AI.
以下、添付する図面を参照して、具体例を説明する。なお、以下の説明において、図面に記載する符号は、符号が同一の場合には同一の要素を指す。 A specific example will be described below with reference to the accompanying drawings. In the following description, reference numerals in the drawings refer to the same elements when the reference numerals are the same.
[第1実施形態]
図1は、AI用の学習データ生成装置の全体構成例を示す図である。例えば、AI用の学習データ生成装置(以下「学習データ生成装置10」という。)は、以下のように用いる。
[First embodiment]
FIG. 1 is a diagram showing an example of the overall configuration of a learning data generation device for AI. For example, a learning data generation device for AI (hereinafter referred to as "learning
学習データ生成装置10は、例えば、以下のような情報処理装置等である。
The learning
[情報処理装置のハードウェア構成例]
図2は、情報処理装置のハードウェア構成例を示す図である。例えば、学習データ生成装置10は、Central Processing Unit(CPU、以下「CPU10H1」という。)、記憶装置10H2、インタフェース10H3、入力装置10H4、及び、出力装置10H5等を有するハードウェア構成である。また、学習データ生成装置10は、Graphics Processing Unit(GPU、以下「GPU10H6」という。)を有するハードウェア構成であるのが望ましい。
[Hardware Configuration Example of Information Processing Device]
FIG. 2 is a diagram illustrating a hardware configuration example of an information processing apparatus. For example, the learning
CPU10H1は、演算装置及び制御装置の例である。例えば、CPU10H1は、プログラム、又は、操作等に基づいて演算を行う。 The CPU 10H1 is an example of an arithmetic device and a control device. For example, the CPU 10H1 performs calculations based on programs, operations, or the like.
記憶装置10H2は、メモリ等の主記憶装置である。なお、記憶装置10H2は、SSDSolid State Drive(SSD)、又は、ハードディスク等の補助記憶装置があってもよい。 The storage device 10H2 is a main storage device such as a memory. The storage device 10H2 may be an SSD Solid State Drive (SSD) or an auxiliary storage device such as a hard disk.
インタフェース10H3は、ネットワーク、又は、ケーブル等を介して外部装置とデータを送受信する。例えば、インタフェース10H3は、コネクタ、又は、アンテナ等である。 The interface 10H3 transmits and receives data to and from an external device via a network, cable, or the like. For example, the interface 10H3 is a connector, an antenna, or the like.
入力装置10H4は、ユーザによる操作を入力する装置である。例えば、入力装置10H4は、マウス、又は、キーボード等である。 The input device 10H4 is a device for inputting an operation by the user. For example, the input device 10H4 is a mouse, keyboard, or the like.
出力装置10H5は、ユーザに対して処理結果等を出力する装置である。例えば、出力装置10H5は、ディスプレイ等である。 The output device 10H5 is a device that outputs processing results and the like to the user. For example, the output device 10H5 is a display or the like.
GPU10H6は、画像処理用の演算装置である。なお、GPU10H6は、グラフィックコントローラ等と呼ばれる場合もある。特に、GPU10H6は、画像処理をリアルタイムに行う場合、又は、学習における並列計算等に用いる。 The GPU 10H6 is an arithmetic unit for image processing. Note that the GPU 10H6 may also be called a graphic controller or the like. In particular, the GPU 10H6 is used for real-time image processing or for parallel computation in learning.
なお、学習データ生成装置10は、上記以外のハードウェア資源を内部、又は、外部に更に有するハードウェア構成であってもよい。また、学習データ生成装置10は、複数の装置であってもよい。
Note that the learning
[農作物、対象物体、摘果対象物、及び、摘果作業について]
学習データ生成装置10は、摘果作業を行う前の農作物(以下、摘果作業前の状態の農作物を「第1農作物12」という。)をカメラ11で撮影した画像データ(以下「第1入力画像データ11D1」という。)を入力する。なお、カメラ11等の撮影装置は、学習データ生成装置10が有する構成でもよい。
[Regarding crops, target objects, thinning targets, and fruit thinning work]
The learning
さらに、学習データ生成装置10は、摘果作業を行った後の農作物(以下、摘果作業後の状態の農作物を「第2農作物13」という。)をカメラ11で撮影した画像データ(以下「第2入力画像データ11D2」という。)を入力する。
Furthermore, the learning
以下、第1入力画像データ11D1、及び、第2入力画像データ11D2をまとめて単に「入力画像データ」という場合がある。 Hereinafter, the first input image data 11D1 and the second input image data 11D2 may be collectively referred to simply as "input image data".
第1入力画像データ11D1、及び、第2入力画像データ11D2は、動画、静止画、又は、これらの組み合わせである。また、動画の形式で入力する場合には、例えば、動画を構成する複数のフレームのうち、1枚、又は、所定数のフレームを切り出して、入力画像データとする。 The first input image data 11D1 and the second input image data 11D2 are moving images, still images, or a combination thereof. When inputting in the form of a moving image, for example, one frame or a predetermined number of frames are extracted from a plurality of frames constituting the moving image and used as input image data.
摘果作業は、農作物が有する、若しくは、農作物の周辺に存在する実、花、葉、又は、これらの組み合わせ(以下「対象物体」という。)を間引く作業である。すなわち、摘果作業は、摘粒、摘果、摘花、又は、これらの組み合わせとなる作業である。 Fruit thinning work is work to thin out fruits, flowers, leaves, or a combination thereof (hereinafter referred to as “target objects”) that are present in or around the crops. That is, the fruit thinning work is grain thinning, fruit thinning, flower thinning, or a combination thereof.
以下、対象物体のうち、摘果作業で間引く対象を「摘果対象物」という。つまり、摘果作業は、複数の対象物体のうち、いくつかの摘果対象物を選んで間引く作業である。なお、図では、摘果対象物を「×」で示し、間引かれた状態であることを示す。ただし、対象物体と、摘果対象物とをどのように区別して示すかの形式は問わない。 Hereinafter, among the target objects, an object to be thinned out in the fruit thinning operation is referred to as a “thinning object”. In other words, the thinning work is a work of selecting and thinning some thinning objects among a plurality of target objects. In addition, in the figure, the thinning object is indicated by "x" to indicate that it is thinned out. However, it does not matter how the target object and the thinning target object are distinguished from each other.
作業者14は、対象物体のうち、どれを摘果対象物とするかを決定する。
The
例えば、摘果対象物は、同じ農作物であっても、目的により、異なる場合がある。まず、目的は、例えば、農作物に全体的に日当たりが均等となるようにする、味を調整する、農作物がある程度密集するようにする、農作物が所定の大きさに収まるようにする、又は、収穫時に農作物の見栄え(色、形状、傷がついている対象物体を少なく、又は、これらを総合した外観等である。)が良くなるようにする等である。 For example, the thinning target may differ depending on the purpose even if the crop is the same. First, the purpose is, for example, to make the crops evenly exposed to the sun overall, to adjust the taste, to make the crops dense to some extent, to make the crops fit in a predetermined size, or to harvest. Sometimes, the appearance of crops (color, shape, fewer damaged target objects, or overall appearance of these, etc.) is improved.
作業者14は、摘果の目的に基づき、第1農作物12に対して、見本となる摘果作業を行う。そして、作業者14は、摘果作業の前後を別々に撮影する。このような各々の撮影により、入力画像データが生成される。
The
また、入力画像データは、摘果の目的、又は、農作物の種類等によって別々に撮影する。すなわち、目的によって摘果作業の内容が異なる場合がある。ゆえに、入力画像データは、目的、又は、農作物の種類等に応じて別々に生成する。なお、作業者14は、見本となる摘果作業を示すため、例えば、熟練の農業者等である。
Also, the input image data is captured separately depending on the purpose of fruit thinning, the type of crops, or the like. In other words, the content of the fruit thinning work may differ depending on the purpose. Therefore, the input image data is generated separately according to the purpose, the type of crops, or the like. The
第1入力画像データ11D1、及び、第2入力画像データ11D2を比較すると、学習データ生成装置10等は、どの箇所の対象物体を摘果対象物とするか、及び、どの程度の量を摘果対象物とするか等が把握できる。
When the first input image data 11D1 and the second input image data 11D2 are compared, the learning
農作物は、例えば、トマト等といった実を実らせる農作物である。以下、農作物がトマトである場合を例に説明する。ただし、農作物は、トマトに限られない。例えば、農作物は、柿、さくらんぼ、苺、葡萄、又は、蜜柑等の果物である。又は、農作物は、花、若しくは、野菜等でもよい。なお、農作物がトマト等であっても、摘果対象物には、実の周辺に存在する葉、又は、茎等が含まれてもよい。 Agricultural crops are, for example, agricultural crops that bear fruit such as tomatoes. In the following, the case where the crop is tomato will be described as an example. However, crops are not limited to tomatoes. For example, crops are fruits such as persimmons, cherries, strawberries, grapes, or oranges. Alternatively, the crops may be flowers, vegetables, or the like. Note that even if the crop is a tomato or the like, the thinning object may include leaves, stems, or the like around the fruit.
以上のように撮影される第1入力画像データ11D1、及び、第2入力画像データ11D2が学習データ生成装置10に入力される。次に、第1入力画像データ11D1、及び、第2入力画像データ11D2が入力されると、学習データ生成装置10は、全体処理により、学習用の画像データ(以下「学習データ15」という。)を生成する。このように生成される学習データ15を入力し、AI16は、学習を行う。
The first input image data 11D1 and the second input image data 11D2 photographed as described above are input to the learning
[全体処理例]
図3は、第1実施形態の全体処理例を示す図である。
[Overall processing example]
FIG. 3 is a diagram illustrating an example of overall processing according to the first embodiment.
ステップS0301では、作業者14は、第1入力画像データ11D1を撮影する。すなわち、作業者14は、摘果作業を行う前に第1農作物12を撮影して、第1入力画像データ11D1を生成する。
In step S0301, the
ステップS0302では、作業者14は、摘果作業を行う。この摘果作業により、第1農作物12は、摘果対象物が排除された状態となり、第2農作物13となる。このような摘果作業の後、ステップS0303が行われる。
In step S0302, the
ステップS0303では、作業者14は、第2入力画像データ11D2を撮影する。すなわち、作業者14は、摘果作業を行った後に第2農作物13を撮影して、第2入力画像データ11D2を生成する。
In step S0303, the
ステップS0304では、学習データ生成装置10は、第1入力画像データ11D1、及び、第2入力画像データ11D2を入力する。
In step S0304, the learning
ステップS0305では、学習データ生成装置10は、摘果対象物を抽出する。例えば、学習データ生成装置10は、第1入力画像データ11D1、及び、第2入力画像データ11D2を比較して、第1入力画像データ11D1が示すすべての対象物体のうち、第2入力画像データ11D2上では無くなっている対象物体を摘果対象物と抽出する。
In step S0305, the learning
したがって、抽出結果は、摘果対象物の位置を示す画像データ等の形式となる。具体的には、抽出結果は、第1入力画像データ11D1を加工して、摘果対象物の領域を所定の色で塗り潰す、又は、ハッチングする等によって示す。 Therefore, the extraction result is in the form of image data or the like indicating the position of the object to be thinned. Specifically, the extraction result is indicated by processing the first input image data 11D1 and filling in the region of the thinning object with a predetermined color, hatching, or the like.
なお、抽出結果は、画像データ形式に限られず、摘果対象物を特定できればよい。例えば、抽出において、対象物体を認識する場合には、各々の対象物体に対し、識別番号、又は、画像データにおける座標値(図心等の代表値でもよい。)が設定される。このような識別番号、又は、座標値等を指定して摘果対象物を特定する形式で、抽出結果は生成されてもよい。 Note that the extraction result is not limited to the image data format, as long as the thinning object can be specified. For example, when recognizing a target object in extraction, an identification number or a coordinate value in image data (a representative value such as the centroid may be used) is set for each target object. The extraction result may be generated in a format that identifies the thinning object by designating such an identification number or coordinate values.
ただし、学習データ生成装置10は、識別番号等のデータがあれば、抽出結果を示す画像データが生成できるとする。以下、抽出結果は、画像データの形式である例で説明する。
However, it is assumed that the learning
なお、抽出結果は、ユーザによる指定、訂正、又は、追加がされてもよい。 Note that the extraction result may be specified, corrected, or added by the user.
ステップS0306では、学習データ生成装置10は、抽出結果を示す画像データ等を学習データとし、学習を行う。
In step S0306, the learning
学習データは、抽出結果等を示す画像データ等、すなわち、イラスト化された形式の画像等である。ただし、学習データは、複数の形式の画像データでもよい。学習データの形式は、後述する。 The learning data is image data or the like indicating the extraction result or the like, that is, an illustrated image or the like. However, the learning data may be image data in multiple formats. The format of learning data will be described later.
なお、学習は、繰り返し行われてもよい。すなわち、学習は、後述するステップS0307、及び、ステップS0308が所定の精度を確保して実行できる程度に繰り返されてもよい。 In addition, learning may be performed repeatedly. That is, the learning may be repeated to the extent that steps S0307 and S0308, which will be described later, can be executed with a predetermined accuracy.
ステップS0307では、学習データ生成装置10は、推定結果画像データを生成する。
In step S0307, the learning
ステップS0308では、学習データ生成装置10は、推定結果画像データを識別する。
In step S0308, the learning
ステップS0307、及び、ステップS0308は、例えば、以下のような構成で実現されるのが望ましい。 Steps S0307 and S0308 are desirably realized by, for example, the following configuration.
[敵対的生成ネットワーク(Generative Adversarial Networks、以下「GAN」という。)による画像データの生成と識別の例]
図4は、敵対的生成ネットワークの構成例を示す図である。例えば、学習データ生成装置10は、抽出部10F2、生成部10F3、及び、識別部10F4等により、以下のような構成であるのが望ましい。
[Example of generation and identification of image data by generative adversarial networks (hereinafter referred to as "GAN")]
FIG. 4 is a diagram showing a configuration example of a generative adversarial network. For example, the learning
GANは、図示するように、生成部10F3が生成する画像データと、抽出部10F2による抽出結果を示す画像データを識別部10F4が見分ける構成である。 As illustrated, the GAN has a configuration in which the identification unit 10F4 distinguishes between image data generated by the generation unit 10F3 and image data representing the extraction result of the extraction unit 10F2.
生成部10F3は、敵対的生成ネットワークにおける生成器(Generator、生成ネットワーク等とも呼ばれる。)となる。すなわち、生成部10F3は、画像データを作り出すニューラルネットワークモデルである。 The generation unit 10F3 becomes a generator in the hostile generation network (also called a generator, a generation network, etc.). That is, the generation unit 10F3 is a neural network model that generates image data.
識別部10F4は、敵対的生成ネットワークにおける識別器(Discriminator、識別ネットワーク等とも呼ばれる。)となる。すなわち、識別部10F4は、画像データが生成器によって生成された画像データであるか否かを識別するニューラルネットワークモデルである。 The identification unit 10F4 serves as a discriminator (also called a discriminator, identification network, etc.) in the hostile generation network. That is, the identification unit 10F4 is a neural network model that identifies whether image data is image data generated by a generator.
以下、GANを構成する生成器、及び、識別器の学習に用いる学習データを「第1学習データ」という。一方で、全体処理によって生成される、すなわち、識別部10F4の識別結果に基づき、出力する学習データを「第2学習データ」という。 Hereinafter, the learning data used for learning the generator and classifier that constitute the GAN will be referred to as "first learning data". On the other hand, learning data generated by the overall process, that is, output based on the identification result of the identification unit 10F4 is referred to as "second learning data".
図示するGANでは、抽出結果を示す画像データ(以下単に「抽出結果20」という。)が「本物」となる。また、抽出結果20は、生成部10F3の「見本」にもなる。すなわち、生成部10F3は、例えば、いくつかの抽出結果20を第1学習データとして事前に学習し、ある程度の精度で抽出結果20に似せた画像データを生成できる構成とする。
In the illustrated GAN, the image data representing the extraction result (hereinafter simply referred to as "extraction result 20") is "genuine". The extraction result 20 also serves as a "sample" for the generation unit 10F3. That is, the generation unit 10F3 is configured to learn in advance some
一方で、生成部10F3が生成する摘果作業の内容を推定した結果を示す画像データ(以下「推定結果画像データ21」という。)が「偽物」である。
On the other hand, the image data (hereinafter referred to as "estimation result
ステップS0307では、生成部10F3は、推定結果画像データ21を生成する。
In step S<b>0307 , the generation unit 10F3 generates estimation
推定結果画像データ21は、抽出結果20を真似て生成する画像データである。したがって、推定結果画像データ21は、抽出結果20と同様の形式であって、摘果対象物を特定する画像データである。このように、生成部10F3は、「偽物」である推定結果画像データ21を識別部10F4に「本物」と識別させるのを狙って生成する。
The estimation result
ただし、推定結果画像データ21は、生成部10F3が生成する画像データであるため、実在する農作物を示す画像データではない。このように、生成部10F3、及び、識別部10F4、すなわち、GANは、合成画像データを生成する。
However, since the estimation result
また、推定結果画像データ21は、抽出結果20が示す摘果作業を別の農作物において再現する。すなわち、推定結果画像データ21は、すべての対象物体のうち、摘果対象物となる対象物体を推定した結果を示す。
In addition, the estimation result
生成部10F3は、事前に、抽出結果20等を第1学習データにして摘果作業のパターン等を学習する。したがって、生成部10F3は、未知の農作物を示す第1入力画像データ11D1が入力されると、まず、事前の学習により、第1入力画像データ11D1が示す対象物体を認識できる。
The generation unit 10F3 previously learns the pattern of the fruit thinning work using the
次に、生成部10F3は、事前の学習により、認識した対象物体のうち、どの位置にある対象物体を摘果対象物するか、又は、どの程度の量を摘果対象物とするか等を推定できる。そして、生成部10F3は、これらの推定結果を画像データの形式で示し、推定結果画像データ21を生成する。
Next, the generation unit 10F3 can estimate, by prior learning, which position of the recognized target object is to be the thinning target object, or how much of the target object is to be the thinning target object. . The generation unit 10F3 generates estimation
ステップS0308では、抽出結果20、及び、推定結果画像データ21を混ぜ、識別部10F4は、「本物」であるか、又は、「偽物」であるかを識別する。
In step S0308, the
生成部10F3は、できる限り「本物」と識別部10F4に識別されるように推定結果画像データ21を生成するように、画像処理等を学習する。一方で、識別部10F4は、フィードバック等に基づき、「偽物」を「偽物」と識別できる精度を高めるように学習する。
The generation unit 10F3 learns image processing and the like so as to generate the estimation result
具体的には、識別部10F4による識別結果に対し、第1学習データには、識別対象となった画像データが「本物」であるか、又は、「偽物」であるかの「正解」を示すデータ(以下「正解データ22」という。)が用意される。そして、識別結果と正解データ22を照合すると、識別部10F4が正しい識別であったか否かを評価できる。
Specifically, for the identification result of the identification unit 10F4, the first learning data indicates the “correct answer” as to whether the image data to be identified is “genuine” or “fake”. Data (hereinafter referred to as "
このような評価、及び、識別結果等が生成部10F3にフィードバック(Feedback)されると、生成部10F3は、識別部10F4に「本物」と識別されるのを狙って、推定結果画像データ21を生成するように学習できる。すなわち、生成部10F3は、フィードバックによって「本物」と識別されやすい「偽物」を生成できるように学習する。
When such evaluation and identification results are fed back to the generation unit 10F3, the generation unit 10F3 generates the estimation result
また、評価が識別部10F4にフィードバックされると、識別部10F4は、「偽物」を「偽物」と識別できる精度を高めるように学習できる。すなわち、識別部10F4は、フィードバックによって、「偽物」を見逃す、又は、「偽物」を「本物」と誤認する確率を低くするように学習する。 Further, when the evaluation is fed back to the identification unit 10F4, the identification unit 10F4 can learn to improve the accuracy with which it can identify a "fake" as a "fake". That is, the identifying unit 10F4 learns by feedback so as to reduce the probability of overlooking the "fake" or misidentifying the "fake" as the "genuine".
なお、学習データ生成装置10は、事前にステップS0306による第1学習データに基づく学習を繰り返す、学習処理を行って、生成部10F3、及び、識別部10F4にある程度の精度を持たせてもよい。
Note that the learning
そして、識別部10F4によって「本物」と識別される程度の品質で生成された推定結果画像データ21を第2学習データとする。このように、学習データ15を生成すると、AI16が学習に用いる第2学習データを増やすことができる。
Then, the estimation result
一方で、識別部10F4によって「偽物」と識別された推定結果画像データ21は、「再利用」の対象とする。すなわち、「偽物」と識別された推定結果画像データは、学習が不十分な結果である。
On the other hand, the estimation result
そこで、例えば、「偽物」と識別された推定結果画像データに対して、「本物」と識別させるように、不十分な点を修正する操作を行う。このように、手動で操作された内容を反映させた画像データ等により、生成部10F3にフィードバックさせる等の処理が「再利用」となる。このような「再利用」がされると、生成部10F3は、不十分な点を学習し、より「本物」と識別されやすい推定結果画像データ21を生成できる。
Therefore, for example, the estimation result image data identified as "fake" is subjected to an operation of correcting the insufficiency so as to be identified as "genuine". In this way, processing such as feedback to the generation unit 10F3 by image data or the like reflecting the content of manual operation is "reuse". When such "reuse" is performed, the generation unit 10F3 can learn the insufficient point and generate the estimation result
なお、「再利用」は、生成部10F3の学習に用いるに限られない。例えば、「再利用」は、手動で操作された内容を反映させた画像データを学習データ15に加える等でもよい。ただし、「再利用」が難しい場合には、「偽物」と識別された推定結果画像データは、破棄されてもよい。
Note that "reuse" is not limited to being used for learning by the generation unit 10F3. For example, "reuse" may be added to the learning
なお、図示するようなGANは、AI16の学習に用いる学習データ15を生成する。このように生成される第2学習データは、農作物の摘果箇所を推定するAI用であり、人による目視で評価される画像データとは異なる。
The illustrated GAN generates learning
例えば、一般的な風景等を撮影した場合には、画像データには、人の目視では判断しにくいような微小な色の変化等が存在する場合がある。このような変化は、人の目視による評価ではあまり重視されない。一方で、コンピュータによる評価では、画素値の変動等を計算すると把握できる場合がある。このように、画像データの生成は、コンピュータによる評価を意識するか、又は、人の目視による評価を意識するかにより、重視する評価項目等が異なる場合がある。 For example, when a general landscape is photographed, the image data may include minute changes in color that are difficult to determine by human eyes. Such changes are not given much importance in human visual evaluation. On the other hand, in evaluation by a computer, there are cases where it can be grasped by calculating fluctuations in pixel values. In this way, when generating image data, evaluation items to be emphasized may differ depending on whether evaluation by a computer or visual evaluation by a person is conscious.
[撮影方法の例]
第1入力画像データ11D1、及び、第2入力画像データ11D2等の入力画像データは、例えば、以下のように撮影されるのが望ましい。
[Example of shooting method]
The input image data such as the first input image data 11D1 and the second input image data 11D2 are desirably shot as follows, for example.
図5は、撮影方法の例を示す図である。以下、図において上下方向を「Z軸方向」とする。Z軸方向は、いわゆる重力方向である。また、図において、主に左右方向を「X軸方向」とする。X軸方向は、農作物に対して正面に向かい合った状態で右手方向とする。さらに、奥行き方向を「Y軸方向」とする。 FIG. 5 is a diagram showing an example of an imaging method. Hereinafter, the vertical direction in the drawings will be referred to as the "Z-axis direction". The Z-axis direction is the so-called direction of gravity. Also, in the drawings, the horizontal direction is mainly defined as the "X-axis direction". The X-axis direction is the right-hand direction when facing the crops. Further, the depth direction is defined as "Y-axis direction".
以下、第1農作物12を撮影する場合を例に説明する。
A case of photographing the
入力画像データは、Z軸回りに複数の視点で撮影するのが望ましい。すなわち、入力画像データは、第1農作物12をできるだけ様々な視点で示す画像データであるのが望ましい。
The input image data is desirably photographed from a plurality of viewpoints around the Z-axis. That is, it is desirable that the input image data be image data showing the
具体的には、カメラ11は、光軸を第1農作物12に向けて、Z軸を中心に回転するように(いわゆるYaw軸回転である。図において「Yaw」で示す回転である。)動画で撮影するのが望ましい。
Specifically, the camera 11 turns the optical axis toward the
このように撮影すると、第1農作物12を全周方向から撮影できる。なお、入力画像データは、360°のうち、3視点程度を撮影する静止画等でもよい。
By photographing in this way, the
摘果作業は、農作物の全体的な形状、又は、日当たり等を気にして行う場合がある。したがって、摘果対象物は、様々な角度に存在する場合がある。ゆえに、カメラ11は、1つの視点では、すべての摘果対象物を撮影できない場合もある。そのため、入力画像データは、できるだけ死角がないように様々な視点で撮影されるのが望ましい。 The fruit thinning work may be performed with consideration given to the overall shape of the crops or the sun exposure. Therefore, the thinning object may exist at various angles. Therefore, the camera 11 may not be able to photograph all thinning objects from one viewpoint. Therefore, it is desirable that the input image data be shot from various viewpoints with as few blind spots as possible.
なお、入力画像データは、X軸回りに複数の視点で更に撮影するのがより望ましい。例えば、カメラ11は、光軸を第1農作物12に向けて、第1農作物12の正面となる視点、第1農作物12を下から撮影する視点(いわゆる見上げ視点である。)、及び、第1農作物12の背面となる視点等で撮影する。
In addition, it is more desirable that the input image data is further photographed from a plurality of viewpoints around the X axis. For example, the camera 11 directs the optical axis to the
このように、カメラ11は、X軸を中心に回転するように(いわゆるPitch軸回転である。図において「Pitch」で示す回転である。)撮影するのが望ましい。 In this way, it is desirable that the camera 11 takes an image while rotating around the X axis (so-called Pitch axis rotation, which is indicated by "Pitch" in the figure).
また、第2入力画像データ11D2も同様に撮影されるのが望ましい。 Also, it is desirable that the second input image data 11D2 is similarly captured.
以上のように、Pitch、又は、Yawの回転を行って複数の視点で農作物を撮影して入力画像データが撮影されるのが望ましい。このような撮影であると、農作物の全体の形状を整える摘果作業、又は、農作物の日当たりの良さを整える摘果作業等を入力画像データから把握できる。 As described above, it is desirable that the input image data is photographed by photographing crops from a plurality of viewpoints by performing Pitch or Yaw rotation. With this type of photography, it is possible to grasp, from the input image data, the fruit thinning work for adjusting the overall shape of the crops, the fruit thinning work for adjusting the sunnyness of the crops, or the like.
また、入力画像データは、異なる気象条件、又は、異なる周囲物の配置等の条件下で撮影されてもよい。つまり、入力画像データは、季節又は天候等により、異なる周囲環境、又は、異なる照明条件下で撮影された状態を示すのが望ましい。 Also, the input image data may be captured under different weather conditions, different arrangement of surrounding objects, or the like. In other words, it is desirable that the input image data show the state of being photographed under different ambient environments or different lighting conditions depending on the season, weather, or the like.
[第2実施形態]
第2実施形態は、第1実施形態と比較すると、全体処理が以下のようになる点が異なる。
[Second embodiment]
The second embodiment differs from the first embodiment in that the overall processing is as follows.
図6は、第2実施形態の全体処理例を示す図である。以下、第1実施形態と異なる点を中心に説明し、重複する説明を省略する。第2実施形態における全体処理は、第1実施形態における全体処理と比較すると、ステップS0601を行う点が異なる。 FIG. 6 is a diagram illustrating an example of overall processing of the second embodiment. In the following, differences from the first embodiment will be mainly described, and redundant description will be omitted. The overall processing in the second embodiment differs from the overall processing in the first embodiment in that step S0601 is performed.
ステップS0601では、学習データ生成装置10は、摘果対象物を抽出する。具体的には、学習データ生成装置10は、以下のような抽出処理を行って摘果対象物を抽出する。
In step S0601, the learning
図7は、抽出処理の例を示す図である。例えば、ステップS0601は、以下のような処理を行う。 FIG. 7 is a diagram illustrating an example of extraction processing. For example, step S0601 performs the following processing.
ステップS0701では、学習データ生成装置10は、第1マスク画像データを生成する。
In step S0701, the learning
第1マスク画像データは、後段のステップS0702で行うインスタンスセグメンテーション(Instance Segmentation)用の学習において学習データとなるマスク画像データである。すなわち、第1マスク画像データは、「見本」となる画像データである。 The first mask image data is mask image data that becomes learning data in learning for instance segmentation performed in step S0702 below. That is, the first mask image data is image data that serves as a "sample".
なお、第1マスク画像データは、画像データ内の一部、又は、全部を塗り潰す等のマスクする領域を指定するデータでもよい。 It should be noted that the first mask image data may be data specifying a masked area, such as filling out part or all of the image data.
以下、第1マスク画像データをインスタンスセグメンテーション用の学習データとし、かつ、インスタンスセグメンテーションにより生成されるマスク画像データを「第2マスク画像データ」という。なお、マスク画像データの詳細は後述する。 Hereinafter, the mask image data generated by using the first mask image data as learning data for instance segmentation and generating the instance segmentation will be referred to as "second mask image data". Details of the mask image data will be described later.
ステップS0702では、学習データ生成装置10は、インスタンスセグメンテーションの学習を行う。
In step S0702, the learning
ステップS0703では、学習データ生成装置10は、インスタンスセグメンテーションを評価する。
In step S0703, the learning
ステップS0704では、学習データ生成装置10は、インスタンスセグメンテーションを行う第2マスク画像データを生成する。
In step S0704, the learning
例えば、インスタンスセグメンテーション、及び、マスク画像データの生成は以下のような処理である。 For example, instance segmentation and generation of mask image data are the following processes.
図8は、インスタンスセグメンテーションの処理例、及び、マスク画像データの例を示す図である。以下、図8(A)に示す第1入力画像データ11D1を例に説明する。 FIG. 8 is a diagram illustrating an example of instance segmentation processing and an example of mask image data. The first input image data 11D1 shown in FIG. 8A will be described below as an example.
例えば、第1入力画像データ11D1に、第1物体31、第2物体32、第3物体33、及び、第4物体34の4つの対象物体が撮影されたとする。
For example, assume that four target objects, a
図8(B)は、インスタンスセグメンテーションの実行結果、及び、インスタンスセグメンテーションにより生成されるマスク画像データ40の例を示す図である。
FIG. 8B is a diagram showing an example of the execution result of instance segmentation and
インスタンスセグメンテーションは、例えば、図8(A)に示す第1入力画像データ11D1に対して処理を実行することで、図8(B)に示すマスク画像データ40を生成する処理である。
Instance segmentation is, for example, a process of generating the
具体的には、インスタンスセグメンテーションは、第1入力画像データ11D1において、物体の検出、及び、検出した複数の物体を別々の物体と識別する処理である。 Specifically, the instance segmentation is a process of detecting objects in the first input image data 11D1 and distinguishing a plurality of detected objects from separate objects.
図8(B)に示す例は、第1物体31、第2物体32、第3物体33、及び、第4物体34を示す領域(以下、画像データにおいて対象物体を示す領域を「第1領域」という。)と、第1物体31、第2物体32、第3物体33、及び、第4物体34以外の領域(以下「第2領域」という。例えば、第2領域は背景等である。)とを2色で区別して示すマスク画像データ40の例である。
In the example shown in FIG. 8(B), the area showing the
具体的には、図8(B)に示すように、マスク画像データ40において、第1領域は、白色で示す領域である。一方で、マスク画像データ40において、第2領域は、黒色で示す領域である。このように、マスク画像データ40は、例えば、第1領域、及び、第2領域を二値化して異なる色で示す画像データである。
Specifically, as shown in FIG. 8B, in the
なお、マスク画像データ40は、図8(B)に示すような形式に限られない。例えば、第1領域、及び、第2領域をどのような色にするか等は事前に設定でき、他の色の組み合わせでもよい。また、マスク画像データ40は、色で領域を区別する形式に限られず、例えば、ハッチングの有無、又は、識別データで区別する等の形式でもよい。
Note that the
学習データ生成装置10は、マスク画像データ40を第1入力画像データ11D1に適用すると、第1領域を抽出した画像データを生成できる。すなわち、マスク画像データ40を参照すると、学習データ生成装置10は、第1入力画像データ11D1において、対象物体を認識し、対象物体を抽出した画像データを生成できる。
By applying the
マスク画像データ40を利用すると、第1入力画像データ11D1が示す背景等を削除できる。すなわち、学習において、背景等といった対象物体以外のデータを排除できると、AIが、摘果作業において重要でない物体、又は、背景等を無駄に学習してしまうのを防ぐことができる。
By using the
このように、マスク画像データ40は、背景等を第2領域とする等のように、第1領域以外をマスク化ができる画像データであるのが望ましい。
Thus, it is desirable that the
また、マスク画像データ40は、同じ種類の対象物体であっても、個々の対象物体を識別できる。すなわち、マスク画像データ40を適用すると、図8(B)に示すように、第1物体31、第2物体32、第3物体33、及び、第4物体34を第1対象物体41、第2対象物体42、第3対象物体43、及び、第4対象物体44のように、異なる物体と識別できる。
Further, the
例えば、セマンティックセグメンテーション(Semantic Segmentation)の処理であると、第1対象物体41、第2対象物体42、第3対象物体43、及び、第4対象物体44は、同じ物体又はカテゴリーに分類され、区別されない場合が多い。 For example, in semantic segmentation processing, the first target object 41, the second target object 42, the third target object 43, and the fourth target object 44 are classified into the same object or category, and distinguished. often not.
一方で、インスタンスセグメンテーションの処理であると、1つの対象物体を示す複数の画素をまとめて1つの物体と識別し、かつ、同じ種類であっても異なる物体であれば、別の物体であると識別できる。 On the other hand, in the case of instance segmentation processing, a plurality of pixels representing one target object are collectively identified as one object, and objects of the same type but different are regarded as different objects. Identifiable.
すなわち、インスタンスセグメンテーションの処理を行うと、画像データ内において同じ種類の複数の対象物体がある場合には、いわゆるラベリング(labeling)が可能となる。例えば、図8(B)に示す例では、第1対象物体41、第2対象物体42、第3対象物体43、及び、第4対象物体44が異なる識別番号等で管理できる。 That is, when the instance segmentation process is performed, so-called labeling becomes possible when there are multiple target objects of the same type in the image data. For example, in the example shown in FIG. 8B, the first target object 41, the second target object 42, the third target object 43, and the fourth target object 44 can be managed with different identification numbers or the like.
したがって、ステップS0702における学習は、対象物体を精度良く識別できる程度に行われる。そして、ステップS0703における評価は、対象物体を抽出する精度等を評価する。このようなステップS0702、及び、ステップS0703が行われると、ステップS0704で、学習データ生成装置10は、インスタンスセグメンテーションを行う第2マスク画像データを生成できる。
Therefore, the learning in step S0702 is performed to the extent that the target object can be accurately identified. And the evaluation in step S0703 evaluates the accuracy etc. which extract a target object. When such steps S0702 and S0703 are performed, in step S0704, the learning
そして、インスタンスセグメンテーションの評価結果によっては、ステップS0701乃至ステップS0703は繰り返し実行される。すなわち、「学習処理」、及び、図7に示す処理は、ある程度の精度が確保されるまで繰り返し実行され、その後、十分な学習が完了している状態下において、「生成処理」、及び、図7に示す処理が行われてもよい。 Steps S0701 to S0703 are repeatedly executed depending on the evaluation result of the instance segmentation. That is, the "learning process" and the process shown in FIG. 7 are repeatedly executed until a certain degree of accuracy is ensured. 7 may be performed.
なお、学習データ生成装置10は、ステップS0705のように、イラスト化を更に行うのが望ましい。例えば、イラスト化は以下のような処理である。
In addition, it is desirable that the learning
図9は、イラスト化の処理例を示す図である。以下、図9(A)に示すような写真形式の第1入力画像データ11D1を入力する場合を例に説明する。 FIG. 9 is a diagram showing an example of illustration processing. A case of inputting the first input image data 11D1 in the photograph format as shown in FIG. 9A will be described below as an example.
図9(A)に示す例は、画像データの中央部分(図において果実が撮影されている部分である。以下「対象物体領域51」という。)に、対象物体が存在する例を示す。例えば、対象物体領域51に写る対象物体は、インスタンスセグメンテーション等の物体認識により識別される。
The example shown in FIG. 9A shows an example in which the target object exists in the central portion of the image data (the portion where the fruit is photographed in the drawing; hereinafter referred to as "
イラスト化の処理は、例えば、第1入力画像データ11D1を入力し、図9(B)に示すような画像データ(以下「イラスト化画像データ50」という。)を生成する処理である。
The illustration process is, for example, a process of inputting the first input image data 11D1 and generating image data as shown in FIG. 9B (hereinafter referred to as "
図9(B)は、イラスト化画像データ50の例を示す図である。
FIG. 9B is a diagram showing an example of the illustrated
イラスト化画像データ50は、対象物体の領域を所定の色で塗り潰す。例えば、図9(B)に示すように、イラスト化画像データ50は、ハッチングで示す、対象物体の領域を塗り潰した画像データである。
The illustrated
以下、図9(B)に示す例において、対象物体の領域と識別され、イラスト化の処理で塗り潰す領域を「塗り潰し領域52」という。
Hereinafter, in the example shown in FIG. 9(B), the area identified as the area of the target object and painted in the illustration process is referred to as "filled
さらに、イラスト化画像データ50は、塗り潰し領域52以外の領域(背景等を示す領域である。)を白色(塗り潰し領域52とは異なる色で塗り潰す等である。)とする。
Further, in the illustrated
このように、イラスト化の処理は、対象物体の領域と、それ以外の領域を所定の色で色分けする処理等である。このように、イラスト化の処理を行うと、画像データにおけるRGB値又は輝度値等が単純化できる。 In this way, the illustration process is a process of classifying the area of the target object and the other areas with a predetermined color. By performing the illustration processing in this manner, the RGB values or luminance values in the image data can be simplified.
第1入力画像データ11D1のような写真形式の画像データであると、人の目には分かりにくい細かなRGB値、又は、輝度値等の変化がある場合が多い。 Photographic image data such as the first input image data 11D1 often includes subtle changes in RGB values or luminance values that are difficult for the human eye to perceive.
例えば、トマトの果実は、単純には赤色の1色である。このような対象物体を示す場合において、写真形式の画像データであると、同じ対象物体における赤色を示す画素は、細かくRGB値等の画素値が変化する場合がある。このような細かなRGB値等の変化は、学習の対象としない方がよい場合が多い。 For example, a tomato fruit is simply one color, red. In the case of showing such a target object, if the image data is in the form of a photograph, the pixel values such as the RGB values of the pixels showing red in the same target object may change minutely. In many cases, such fine changes in RGB values should not be learned.
そこで、イラスト化の処理は、対象物体を同じ色で統一して示す等の処理を行う。具体的には、第1入力画像データ11D1に対して、インスタンスセグメンテーション等を行うと、対象物体と識別できる画素がグルーピング化される。 Therefore, in the illustration processing, processing such as displaying the target objects in the same color is performed. Specifically, when instance segmentation or the like is performed on the first input image data 11D1, pixels that can be identified as a target object are grouped.
そして、イラスト化の処理は、このように同じグルーピング化された画素を同じ色で塗り潰す処理である。さらに、イラスト化の処理は、背景等の領域を対象物体の領域とは異なる色で別の色に塗り潰す処理である。 The illustration process is a process of filling in the same grouped pixels with the same color. Furthermore, the illustration process is a process of filling in a region such as a background with a color different from that of the region of the target object.
なお、イラスト化の処理は、画像データを単純化する処理であれば、所定の色で塗り潰す以外の処理であってもよい。例えば、イラスト化の処理は、背景等を単色にする等でもよい。また、イラスト化の処理は、色で塗り潰すに代えて、ハッチング等を用いる処理でもよい。 Note that the illustration process may be any process other than painting with a predetermined color as long as it simplifies the image data. For example, the illustration processing may be such that the background or the like is rendered in a single color. Further, the illustration process may be a process using hatching or the like instead of filling with color.
このように、画像データをイラスト化すると、抽出結果等を単純化して表現できる。抽出結果は、対象物体の位置、及び、形状等が大まかに表現できればよい場合が多い。すなわち、抽出結果には、細かな色の変化、及び、背景等のデータが不要な場合が多い。 In this way, if the image data is illustrated, extraction results and the like can be expressed in a simplified manner. As for the extraction result, it is often sufficient if the position, shape, etc. of the target object can be roughly expressed. That is, extraction results often do not require data such as fine color changes and backgrounds.
そこで、対象物体を単色で簡略に示す方が、写真形式等と比較して、学習の妨げとなる要素を排除し、精度良く学習できる。すなわち、イラスト化された画像データを学習データに摘果作業をAIに学習させると、AIは、摘果作業に重要な特徴量を精度良く学習できる。 Therefore, simply showing the target object in a single color eliminates factors that hinder learning and allows for more accurate learning than in a photographic format or the like. In other words, if the AI learns the fruit thinning work using the illustrated image data as learning data, the AI can accurately learn the feature quantities that are important for the fruit thinning work.
また、写真形式等の画像データより、イラスト化された画像データの方が、色の表現等が簡略であるため、データ量を少なくできる。 In addition, illustrated image data is easier to express colors than photographic image data, so that the amount of data can be reduced.
図10は、イラスト化された画像データ、又は、マスク画像データの変形例を示す図である。例えば、マスク画像データは、図10(B)又は図10(C)のように生成されてもよい。以下、図10(A)に示す第1入力画像データ11D1を例に説明する。 FIG. 10 is a diagram showing modified examples of illustrated image data or mask image data. For example, mask image data may be generated as shown in FIG. 10(B) or FIG. 10(C). The first input image data 11D1 shown in FIG. 10A will be described below as an example.
図10(A)は、林檎の4つの果実を対象物体にする第1入力画像データ11D1の例を示す図である。以下、学習データ生成装置10は、このような第1入力画像データ11D1を入力し、学習データ生成装置10は、インスタンスセグメンテーション等を行う例で説明する。
FIG. 10A is a diagram showing an example of the first input image data 11D1 with four apples as target objects. An example in which the learning
例えば、図8に示すインスタンスセグメンテーションを行う場合には、第2マスク画像データは、図10(B)に示すように生成される。 For example, when performing the instance segmentation shown in FIG. 8, the second mask image data is generated as shown in FIG. 10(B).
一方で、第2マスク画像データは、図10(C)に示すように生成されてもよい。 On the other hand, the second mask image data may be generated as shown in FIG. 10(C).
図10(B)は、4つの対象物体をまとめて1つの画像データで示す形式の例を示す図である。このように、第2マスク画像データは、複数の対象物体を1つの画像データで示してもよい。 FIG. 10B is a diagram showing an example of a format in which four target objects are collectively shown as one piece of image data. In this way, the second mask image data may represent a plurality of target objects with one image data.
図10(C)は、4つの対象物体を対象物体ごとに分けた4つの画像データとし、画像データ群の形式とする例を示す図である。このように、第2マスク画像データは、対象物体ごとに、画像データを分けて、複数の画像データ群で1つの第2マスク画像データとする画像データ群の形式でもよい。 FIG. 10C is a diagram showing an example of the format of an image data group, in which four target objects are divided into four image data. In this way, the second mask image data may be in the form of an image data group in which image data is divided for each target object and a plurality of image data groups are used as one second mask image data.
以上のように、マスク画像データ、又は、イラスト化して生成する画像データは、複数の対象物体をまとめて1つの画像データとしてもよいし、又は、対象物体ごとに別々に分けて画像データ群としてもよい。 As described above, the mask image data or the image data generated by illustration may be a single image data group by grouping a plurality of target objects, or may be separately divided for each target object to form an image data group. good too.
[抽出結果の例]
図11は、対象物体の認識例を示す図である。以下、図11(A)に示す第1入力画像データ11D1を例に説明する。
[Extraction result example]
FIG. 11 is a diagram showing an example of target object recognition. The first input image data 11D1 shown in FIG. 11A will be described below as an example.
図11(A)に示す対象物体を扱う場合には、学習データ生成装置10は、対象物体の形状、色、又は、これらの組み合わせ等を事前に学習する。このような学習を行うと、例えば、学習データ生成装置10は、図11(B)又は図11(C)のように対象物体を認識できる。
When the target object shown in FIG. 11A is handled, the learning
図11(B)、及び、図11(C)は、対象物体を認識した位置、及び、範囲等を破線で囲んで示す例である。なお、認識結果は、図11(B)、及び、図11(C)以外の形式で出力されてもよい。 11(B) and 11(C) are examples in which the position, range, etc., where the target object is recognized are shown enclosed by dashed lines. Note that the recognition result may be output in formats other than those shown in FIGS. 11B and 11C.
図11(B)は、対象物体を認識した結果の第1例を示す図である。例えば、図11(B)に示すように、対象物体は、第1対象物体101、第2対象物体102、第3対象物体103、第4対象物体104、第5対象物体105、第6対象物体106、及び、第7対象物体107のように、学習データ生成装置10によって認識される。
FIG. 11B is a diagram showing a first example of the result of recognizing the target object. For example, as shown in FIG. 11B, the target objects are a
また、対象物体は、例えば、図11(C)のような形式で認識されてもよい。 Also, the target object may be recognized in a format as shown in FIG. 11(C), for example.
図11(C)は、対象物体を認識した結果の第2例を示す図である。第2例は、対象物体ごとに認識結果を別々の画像データに分ける形式の例である。具体的には、学習データ生成装置10は、第1対象物体101、第2対象物体102、第3対象物体103、第4対象物体104、第5対象物体105、第6対象物体106、及び、第7対象物体107の認識結果を対象物体ごとに分けて出力する。
FIG. 11C is a diagram showing a second example of the result of recognizing the target object. A second example is an example of a format in which recognition results are divided into separate image data for each target object. Specifically, the learning
なお、対象物体の認識結果は、図11(B)又は図11(C)に示すように、画像データの形式にされなくともよい。すなわち、対象物体の認識結果は、中間生成物であり、対象物体が画像データ内において占める位置、大きさ、範囲、数、又は、座標等のパラメータ(統計値、又は、代表値を用いる場合を含む。)を学習データ生成装置10が把握できる形式であればよい。
Note that the recognition result of the target object does not have to be in the form of image data as shown in FIG. 11(B) or FIG. 11(C). That is, the recognition result of the target object is an intermediate product, and parameters such as the position, size, range, number, or coordinates of the target object in the image data (statistical values or representative values may be used). ) can be used as long as the learning
したがって、学習データ生成装置10は、認識結果を示すパラメータを内部に記憶し、図示するような画像データ等を出力しなくともよい。
Therefore, the learning
ステップS0306では、学習データ生成装置10は、学習データを用いて学習モデルを学習させる。例えば、学習データは、ステップS0601で生成する画像データ、すなわち、イラスト化した画像データ等である。なお、学習データは、学習データは、複数の形式の画像データでもよい。学習データの詳細は後述する。
In step S0306, the learning
[全体処理の処理結果例]
図12は、全体処理の処理結果例を示す図である。以下、図12(A)及び図12(B)を摘果前及び摘果後とする場合を例に説明する。
[Example of processing result of overall processing]
FIG. 12 is a diagram illustrating a processing result example of the overall processing. Hereinafter, a case where FIGS. 12(A) and 12(B) are before and after thinning will be described as an example.
図12(A)は、第1入力画像データ11D1の例を示す図である。 FIG. 12A is a diagram showing an example of the first input image data 11D1.
図12(B)は、第2入力画像データ11D2の例を示す図である。 FIG. 12B is a diagram showing an example of the second input image data 11D2.
図12(C)は、第2学習データの例を示す図である。 FIG. 12C is a diagram showing an example of the second learning data.
以下、第1入力画像データ11D1において、すなわち、摘果作業の前において、図12(A)に示すように、第1対象物体101、第2対象物体102、第3対象物体103、第4対象物体104、第5対象物体105、第6対象物体106、及び、第7対象物体107の7つの対象物体がある例とする。
Hereinafter, in the first input image data 11D1, that is, before the fruit thinning work, as shown in FIG. 104 , a
一方で、第2入力画像データ11D2において、すなわち、摘果作業が行われた後において、図12(B)に示すように、第2対象物体102、第3対象物体103、第4対象物体104、及び、第6対象物体106の4つの対象物体が摘果対象物となり、摘果対象物が摘果される例とする。
On the other hand, in the second input image data 11D2, that is, after the fruit thinning work is performed, the
このように、第1入力画像データ11D1、及び、第2入力画像データ11D2を比較すると、摘果対象物が抽出できる。このような抽出結果を学習すると、学習データ生成装置10は、未知の第1入力画像データ11D1が入力されると、摘果作業を推定し、推定結果画像データを生成できる。
In this way, by comparing the first input image data 11D1 and the second input image data 11D2, the thinning object can be extracted. By learning such extraction results, the learning
このように生成される推定結果画像データ等が学習データ15となる。そして、AI16は、学習データ15等を第2学習データとし、摘果作業を学習する。
The estimation result image data and the like generated in this way become the learning
図12(C)は、対象物体を点線で囲んで示す形式の例を示す図である。また、図12(C)は、摘果対象物をハッチングで示す形式の例を示す図である。 FIG. 12C is a diagram showing an example of a format in which the target object is surrounded by dotted lines. Also, FIG. 12C is a diagram showing an example of a format in which the thinning object is indicated by hatching.
なお、第2学習データは、図12(C)に示す形式に限られない。すなわち、第2学習データは、摘果対象物の位置、数、配置、形状、又は、範囲等をAI16が学習できればよい。したがって、第2学習データは、摘果対象物、及び、対象物体を他の形式で特定してもよい。
Note that the second learning data is not limited to the format shown in FIG. 12(C). That is, as for the second learning data, it is sufficient that the
[第3実施形態]
図13は、学習装置の構成例を示す図である。第1実施形態等と比較すると、第3実施形態における学習データ生成装置10等の構成は、例えば、第1実施形態と同様である。一方で、学習装置301は、情報処理装置等である。なお、学習データ生成装置10、及び、学習装置301は同じ情報処理装置等でもよい。
[Third Embodiment]
FIG. 13 is a diagram illustrating a configuration example of a learning device. Compared with the first embodiment and the like, the configuration of the learning
第3実施形態は、第1実施形態、又は、第2実施形態における構成により生成された学習データ15等を用いて学習モデル302を学習させて学習済みモデル303を生成する。
In the third embodiment, a learned
以下、学習中、又は、学習が行われる前のAIを単に「学習モデル302」という。一方で、ある程度、第2学習データによる学習が行われた後のAIを「学習済みモデル303」という。
Hereinafter, AI during learning or before learning is simply referred to as "learning
学習装置301は、学習データ15を入力する。そして、学習装置301は、学習データ15により、学習モデル302を学習させる。
The
なお、学習には、学習データ15以外のデータが用いられてもよい。例えば、学習装置301は、第1入力画像データ11D1、及び、第2入力画像データ11D2等も入力して、学習モデル302を学習させてもよい。ほかにも、学習装置301は、抽出結果等の形式で第2学習データを入力してもよい。
Note that data other than the learning
以上のように、学習装置301は、学習モデル302を学習させて学習済みモデル303を生成する。このような学習済みモデル303が生成できると、摘果対象物を推定するAIが実現できる。
As described above, the
具体的には、学習装置301は、例えば、以下のような構成である。
Specifically, the
図14は、学習装置によって学習を行う構成の例を示す図である。図示するように、学習モデル302は、少なくとも生成部10F3、及び、識別部10F4を備える構成である。
FIG. 14 is a diagram showing an example of a configuration in which learning is performed by a learning device. As illustrated, the
そして、生成部10F3、及び、識別部10F4は、敵対的生成ネットワークにおける生成器、及び、識別器である。 The generation unit 10F3 and the identification unit 10F4 are generators and classifiers in the adversarial generation network.
まず、学習装置301は、第1入力画像データ11D1を入力する。
First, the
次に、生成部10F3は、第1入力画像データ11D1が示す対象物体のうち、摘果対象物となる対象物体を推定する。そして、生成部10F3は、推定結果画像データ21を生成する。以下、図12(C)と同様に、対象物体を点線で囲んで示し、かつ、対象物体のうち、摘果対象物をハッチングで示す形式の例で説明する。
Next, the generation unit 10F3 estimates a target object to be a thinning target among the target objects indicated by the first input image data 11D1. Then, the generation unit 10F3 generates the estimation result
次に、推定結果画像データ21が生成されると、識別部10F4は、推定結果画像データ21に対して、識別を行う。そして、識別部10F4は、学習データ15を「正解」とし、推定結果画像データ21の識別を行う。
Next, when the estimation result
具体的には、まず、推定結果画像データ21は、摘果対象物の位置、及び、数等を示す。一方で、学習データ15も、推定結果画像データ21と同様に、摘果対象物の位置、及び、数等を示す。
Specifically, first, the estimation result
以下に説明する例では、識別部10F4は、推定結果画像データ21を参照して、摘果対象物の位置、及び、数がどちらも学習データ15と一致すると、「正解」と識別する。
In the example described below, the identification unit 10F4 refers to the estimation result
一方で、識別部10F4は、推定結果画像データ21が示す摘果対象物の位置、及び、数のうち、少なくともどちらか一方が学習データ15と異なると、「誤答」と識別する。
On the other hand, if at least one of the positions and the number of thinning objects indicated by the estimation result
そして、識別部10F4は、少なくとも生成部10F3に「正解」、又は、「誤答」の識別結果をフィードバックさせる。このように、フィードバックは、識別部10F4から少なくとも生成部10F3に、識別結果を伝える処理等である。 Then, the identification unit 10F4 feeds back at least the generation unit 10F3 with the identification result of "correct answer" or "wrong answer". In this way, the feedback is a process of transmitting the identification result from the identification unit 10F4 to at least the generation unit 10F3.
なお、生成部10F3の学習のため、フィードバックは、識別部10F4による識別の過程、識別の基準、又は、識別の途中で生成した中間データ等を伝えてもよい。すなわち、フィードバックは、識別結果を出力するまでの過程、及び、途中で生成されたデータ等も識別結果とセットで伝えてもよい。そして、生成部10F3は、フィードバックされる識別結果を参照して学習する。なお、他にセットでデータが送信される場合には、生成部10F3は、セットのデータも参照して学習してもよい。 For learning of the generation unit 10F3, the feedback may convey the process of identification by the identification unit 10F4, criteria for identification, intermediate data generated during identification, or the like. In other words, the feedback may include the process up to the output of the identification result and the data generated during the process, together with the identification result. Then, the generation unit 10F3 learns with reference to the feedback identification result. In addition, when data is transmitted in another set, the generation unit 10F3 may learn by referring to the data in the set as well.
具体的には、図14に示す例では、推定結果画像データ21、及び、学習データ15は、7個の対象物体から摘果対象物を選択して示す。そして、推定結果画像データ21による推定結果、及び、学習データ15による「正解」を比較すると、この例は、中央に位置する対象物体(図において、差異151で示す対象物体である。)が摘果対象物となるか否かが異なる。
Specifically, in the example shown in FIG. 14 , the estimation result
ゆえに、推定結果画像データ21、及び、学習データ15の比較結果は、摘果対象物の数、及び、差異151の判断結果が異なるため、差異があると識別される。したがって、比較結果に基づき、摘果対象物の数、及び、位置がいずれも基準とする学習データ15と異なるため、識別部10F4は、「誤答」と識別する。
Therefore, the comparison result of the estimation result
なお、識別部10F4による識別は、基準に対して許容範囲があってもよい。例えば、数は、基準に対して2個以下であれば許容する等と設定されてもよい。このような許容範囲の設定である場合には、差異151の差異だけであれば、識別部10F4は、「正解」と識別する。また、学習において、設定できる項目があってもよい。
Note that the identification by the identification unit 10F4 may have an allowable range with respect to the reference. For example, the number may be set such that two or less is allowed with respect to the reference. In the setting of such an allowable range, if there is only the difference of the
そして、例えば、生成部10F3が生成する複数の推定結果画像データ21を専門家が見て、評価が行われる。具体的には、生成部10F3が100枚の推定結果画像データ21を生成し、専門家が推定結果画像データ21を見て100枚ともすべて問題ないと判断すれば、生成部10F3等は学習が完了したと評価される。
Then, for example, an expert views and evaluates a plurality of pieces of estimation result
以上のような生成、及び、識別のフィードバックを繰り返すと、学習装置301は、推定結果画像データ21の生成精度を高くできる。
By repeating generation and identification feedback as described above, the
なお、学習装置301は、生成、又は、識別において、摘果対象物を抽出するのが望ましい。具体的には、学習装置301は、生成、又は、識別において、マスク画像データの生成、及び、イラスト化等の処理を行う。
Note that the
このように、画像データをマスクする、イラスト化する、又は、両方の処理を行って、抽出を行うと、抽出結果等を単純化して表現できる。そして、抽出結果は、対象物体の位置、及び、形状等が大まかに表現できればよい場合が多い。すなわち、抽出結果には、細かな色の変化、摘果作業に関係の薄い被写体、及び、背景等のデータが不要な場合が多い。 In this way, if the image data is masked, illustrated, or both are processed for extraction, extraction results and the like can be expressed in a simplified manner. In many cases, it is sufficient that the extraction result can roughly express the position, shape, and the like of the target object. That is, in many cases, extraction results do not require data such as fine color changes, subjects with little relation to the fruit thinning work, backgrounds, and the like.
特に、農作物がある環境は、周囲の環境をAIの学習用、及び、撮影用に調整しにくい場合も多い。また、農作物がある環境は、不意に関係の薄い被写体も入り込みやすい環境である場合が多い。したがって、画像データをマスクする処理により、このような外乱を少なくできると、AIは、摘果作業の内容を把握するのに重要な特徴量を精度良く学習できる。 In particular, in environments with crops, it is often difficult to adjust the surrounding environment for AI learning and photography. In addition, in many cases, an environment with crops is an environment in which it is easy for subjects with little relation to enter unexpectedly. Therefore, if such a disturbance can be reduced by masking the image data, the AI can accurately learn the feature quantity that is important for grasping the content of the fruit thinning work.
また、対象物体をイラスト化して単色で簡略に示す、又は、重要な部分に絞った画像データとする方が、写真形式等と比較して、摘果作業の内容を学習する妨げとなる要素を排除し、精度良く学習できる。すなわち、画像データに対して抽出処理を前処理として施して、摘果作業をAIに学習させると、AIは、摘果作業の内容を把握するのに重要な特徴量を精度良く学習できる。 In addition, it is better to illustrate the target object and show it in a single color in a simplified manner, or to use image data that focuses on the important part. and can learn with high accuracy. That is, if the image data is subjected to extraction processing as preprocessing and the AI learns the fruit thinning work, the AI can accurately learn the feature quantities that are important for grasping the details of the fruit thinning work.
なお、識別部10F4は、推定結果画像データ21、識別結果、及び、学習データ15等で学習して識別の精度を向上させてもよい。
Note that the identification unit 10F4 may improve the accuracy of identification by learning using the estimation result
また、学習データ15は、学習データ生成装置10が生成したデータでもよいし、第1入力画像データ11D1を操作して生成したデータでもよいし、又は、これらの組み合わせでもよい。
The learning
さらに、推定結果画像データ21、及び、学習データ15の形式は、図示する形式に限られない。すなわち、推定結果画像データ21、及び、学習データ15の形式は、摘果作業の内容が特定できればよい。例えば、推定結果画像データ21、及び、学習データ15の形式は、摘果対象物の位置、及び、数等の内容を数値(画像内の座標又は数量等を示す。)を用いる形式等でもよい。
Furthermore, the formats of the estimation result
なお、識別の基準は、摘果対象物の位置、及び、数に限られず、他の基準でもよい。そして、何を基準にして識別するかも学習の対象となってよい。また、何を基準にして識別するかは、人が設定できてもよい。 Note that the criteria for identification are not limited to the position and number of thinning objects, and other criteria may be used. What is used as a reference for identification may also be an object of learning. Moreover, what is used as a reference for identification may be set by a person.
[機能構成例]
図15は、学習装置の機能構成例を示す図である。例えば、学習装置301は、画像データ入力部10F1、学習データ入力部301F1、生成部10F3、及び、識別部10F4等を備える機能構成である。なお、学習装置301は、抽出部10F2、マスク画像データ生成部10F5、及び、イラスト化処理部10F6を更に備える機能構成であるのが望ましい。以下、図示する機能構成を例に説明する。
[Example of functional configuration]
FIG. 15 is a diagram illustrating a functional configuration example of a learning device; For example, the
画像データ入力部10F1は、第1入力画像データ11D1を入力する画像データ入力手順を行う。例えば、画像データ入力部10F1は、カメラ11、及び、インタフェース10H3等で実現する。 The image data input unit 10F1 performs an image data input procedure for inputting the first input image data 11D1. For example, the image data input unit 10F1 is implemented by the camera 11, the interface 10H3, and the like.
生成部10F3は、推定結果画像データ21を生成する生成手順を行う。例えば、生成部10F3は、CPU10H1等で実現する。
The generation unit 10F3 performs a generation procedure for generating the estimation result
識別部10F4は、学習データ15と比較して、推定結果画像データ21を識別して、識別結果を生成部10F3へフィードバックさせて学習モデル302を学習させる識別手順を行う。例えば、識別部10F4は、CPU10H1等で実現する。
The identification unit 10F4 compares the estimation result
推定結果画像データ21、及び、学習データ15は、どちらか一方、又は、両方が抽出部10F2、マスク画像データ生成部10F5、及び、イラスト化処理部10F6により、マスク画像データを生成する、イラスト化する、又は、両方の処理を行う抽出処理がされるのが望ましい。
Either or both of the estimation result
このように、摘果対象物が抽出されると、単純に農作物を撮影した画像データをそのまま用いる場合等と比較して、学習モデル302は、摘果対象物等の重要な特徴量を精度良く学習できる。すなわち、学習装置301は、学習モデル302を学習させて、摘果作業を精度良く推定できる学習済みモデル303を生成できる。
In this way, when the thinning target is extracted, the
[第4実施形態]
図16は、摘果対象物推定装置の構成例を示す図である。以下、未知の摘果前の農作物を示す画像データの例を「未知画像データ401」という。
[Fourth embodiment]
FIG. 16 is a diagram illustrating a configuration example of a thinning target object estimation device. Hereinafter, an example of image data representing an unknown crop before thinning is referred to as "
第4実施形態は、第3実施形態による学習によって生成された学習済みモデル303を実行する実施形態である。以下、学習済みモデル303を用いる摘果対象物推定装置を「摘果対象物推定装置402」とする。
The fourth embodiment is an embodiment for executing the trained
摘果対象物推定装置402は、例えば、スマートフォン等の情報処理装置である。なお、学習済みモデル303は、他のサーバ装置等が用いる構成であって、摘果対象物推定装置402は、サーバ装置と通信して学習済みモデル303による推定結果を取得し、出力する構成でもよい。
The thinning target
具体的には、学習済みモデル303は、ネットワーク等を介して配布される。なお、学習済みモデル303は、アプリケーションソフト等に組み込まれる形式等でもよい。このように配布される学習済みモデル303を摘果対象物推定装置402にインストールすると、摘果対象物推定装置402は、図示するような推定、及び、推定結果の出力等ができる状態となる。
Specifically, the trained
未知画像データ401は、摘果対象物推定装置402が撮影する画像データである。また、未知画像データ401が示す農作物は、摘果作業が行われる前の状態である。このように、未知画像データ401が示す農作物は、第1実施形態、又は、第2実施形態において、学習の対象となった農作物とは異なる「未知」の農作物である。
The
なお、摘果対象物推定装置402は、推定において、摘果対象物を抽出するのが望ましい。具体的には、摘果対象物推定装置402は、推定において、マスク画像データの生成、及び、イラスト化等の処理を行うのが望ましい。このような摘果対象物の抽出が行われると、摘果対象物推定装置402は、推定を精度良くできる。
In addition, the thinning target
摘果対象物推定装置402は、未知画像データ401に基づき、対象物体を識別する。そして、摘果対象物推定装置402は、学習済みモデル303により、摘果対象物を推定する。例えば、推定結果は、Augmented Reality(AR、拡張現実)の形式等で出力される。具体的には、摘果対象物推定装置402は、出力画面403をユーザ404に対して表示する。
A thinning
出力画面403は、未知画像データ401の上に「×」を重ねて表示して、摘果対象物をユーザ404に伝える画面である。なお、出力は、他の表示形式、又は、音声を用いる等の形式でもよい。
The output screen 403 is a screen that displays an “x” superimposed on the
なお、摘果対象物推定装置402は、例えば、「最適化項目設定」の操作画面(以下単に「設定画面405」という。)等により、項目を受け付ける構成があるのが望ましい。
In addition, it is desirable that the thinning
摘果作業は、いわゆる好みに応じて行われる場合がある。そこで、設定画面405は、好み等を設定するインタフェースである。
Fruit thinning work may be performed according to so-called preference. Therefore, the
設定画面405は、「甘味」、「酸味」、「サイズ(全体)」、「サイズ(粒)」、「色」、「均一性」、及び、「ケースに入る形状にする。」等の項目を設定する例である。なお、項目、及び、設定形式は事前に定める。
The
「甘味」、及び、「酸味」は、収穫時の農作物の味を調整する項目である。 “Sweetness” and “sourness” are items for adjusting the taste of crops at the time of harvest.
「サイズ(全体)」は、収穫時の農作物の全体的なサイズを調整する項目である。例えば、「サイズ(全体)」は、複数の実を有する農作物等の場合に、複数の実による全体的なバランス等を調整するのに用いる。 “Size (whole)” is an item for adjusting the overall size of crops at the time of harvest. For example, "size (whole)" is used to adjust the overall balance of a plurality of fruits in the case of crops having a plurality of fruits.
「サイズ(実)」は、収穫時の農作物の1つの実当たりのサイズを調整する項目である。例えば、「サイズ(実)」は、複数の実を有する農作物等の場合に、1つ当たりの実の大きさ等を調整するのに用いる。 “Size (fruit)” is an item for adjusting the size of one fruit of crops at the time of harvest. For example, "size (fruit)" is used to adjust the size of each fruit in the case of crops having a plurality of seeds.
「色」は、収穫時の農作物の色を調整する項目である。 “Color” is an item for adjusting the color of crops at the time of harvest.
「均一性」は、収穫時の農作物の実の大きさを均一にするかを調整する項目である。 “Uniformity” is an item for adjusting whether or not the fruit size of crops at the time of harvesting is uniform.
「ケースに入る形状にする」は、出荷に用いる所定の形状に収まるサイズにするか否かを調整する項目である。このように、項目は、チェックボックス形式で入力されてもよい。 “Make a shape to fit in a case” is an item for adjusting whether or not the size should fit within a predetermined shape used for shipping. Thus, items may be entered in the form of checkboxes.
また、「ケースに入る形状にする」は、例えば、「縦(mm)×横(mm)×高さ(mm)のケースに入るように」等のように、ケースのサイズが数値で指定できる形式等でもよい。 In addition, "shape to fit in the case" can specify the size of the case with a numerical value, such as "to fit in a case of length (mm) x width (mm) x height (mm)". format, etc. may be used.
これらの項目は、摘果作業で調整できる項目である。また、どのような摘果作業を行うと、どの項目に影響するかは、学習(すなわち、第3実施形態である。)において、学習データに入力される。例えば、農作物が甘くなる摘果作業、又は、農作物を大きくする摘果作業等のように、学習モデルは摘果作業の目的ごとに学習する。したがって、学習済みモデルは、項目を最適化する摘果作業を特定できる。また、程度(例えば、甘さ、又は、大きさ等である。)は、例えば、数値等で入力する。 These items are items that can be adjusted in the fruit thinning operation. Also, what kind of fruit thinning work affects which item is input to learning data in learning (that is, in the third embodiment). For example, the learning model learns for each purpose of fruit thinning work, such as fruit thinning work that makes the crops sweeter or fruit thinning work that makes the crops larger. Therefore, the trained model can identify the thinning operation that optimizes the item. Also, the degree (for example, sweetness, size, etc.) is input, for example, as a numerical value.
なお、項目を受け付ける受付部は、設定画面405に限られない。すなわち、設定できる項目は、図示する以外の項目があってもよい。また、受付部は、タスクバー、又は、チェックボックス以外のインタフェースでよい。例えば、受付部は、テキストボックス等で入力するインタフェースでよい。さらに、最適化する項目は、固定であってもよい。
Note that the reception unit that receives items is not limited to the
図17は、摘果対象物推定装置によって推定を行う構成の例を示す図である。例えば、学習済みモデル302は、第3実施形態による学習後、第3実施形態で用いた敵対的生成ネットワークを構成する生成部10F3、及び、識別部10F4のうち、識別部10F4を取り除いた構成である。
FIG. 17 is a diagram illustrating an example of a configuration for performing estimation by the thinning target object estimation device. For example, after learning according to the third embodiment, the trained
すなわち、摘果対象物推定装置402は、未知画像データ401を入力すると、未知画像データ401が示す対象物体に適した摘果作業を推定する。そして、摘果対象物推定装置402は、推定結果を示す推定結果画像データ21を出力する。
That is, when the
なお、識別部10F4は、機能が停止していればよい。すなわち、学習済みモデル302は、学習モデル302と同様に識別部10F4を有しても、識別部10F4を停止させればよい。一方で、学習済みモデル302は、識別部10F4を取り除く、又は、識別部10F4がない構成とし、識別部10F4の構成が全くなくともよい。
Note that the function of the identification unit 10F4 may be stopped. That is, even if the trained
[機能構成例]
図18は、摘果対象物推定装置の機能構成例を示す図である。例えば、摘果対象物推定装置402は、画像データ入力部10F1、推定部402F1、及び、出力部402F2等を備える機能構成である。なお、摘果対象物推定装置402は、抽出部10F2、マスク画像データ生成部10F5、及び、イラスト化処理部10F6を更に備える機能構成であるのが望ましい。以下、図示する機能構成を例に説明する。
[Example of functional configuration]
FIG. 18 is a diagram illustrating a functional configuration example of a thinning target object estimation device. For example, the thinning
画像データ入力部10F1は、第1入力画像データ11D1を入力する画像データ入力手順を行う。例えば、画像データ入力部10F1は、カメラ11、及び、インタフェース10H3等で実現する。 The image data input unit 10F1 performs an image data input procedure for inputting the first input image data 11D1. For example, the image data input unit 10F1 is implemented by the camera 11, the interface 10H3, and the like.
推定部402F1は、学習済みモデル303により、摘果対象物を推定する推定手順を行う。例えば、推定部402F1は、CPU10H1等で実現する。
The estimating unit 402F1 performs an estimating procedure for estimating the thinning object using the learned
例えば、推定部402F1は、生成部10F3等で構成する。 For example, the estimation unit 402F1 is composed of the generation unit 10F3 and the like.
出力部402F2は、推定結果を出力する出力手順を行う。例えば、出力部402F2は、出力装置10H5等で実現する。 The output unit 402F2 performs an output procedure for outputting the estimation result. For example, the output unit 402F2 is realized by the output device 10H5 or the like.
未知画像データ401は、抽出部10F2、マスク画像データ生成部10F5、及び、イラスト化処理部10F6により、マスク画像データを生成する、イラスト化する、又は、両方の処理を行う抽出処理がされるのが望ましい。
The
推定においても、学習した要素にできるだけ注目した方が、摘果対象物推定装置402は、摘果対象物等を精度良く推定できる。
Also in estimation, the thinning target
このように、未知画像データ401において摘果対象物が抽出されると、単純に農作物を撮影した画像データをそのまま用いる場合等と比較して、摘果対象物推定装置402は、摘果対象物等を精度良く推定できる。
In this way, when the thinning target object is extracted from the
[学習システムの機能構成例]
図19は、機能構成例を示す図である。例えば、学習データ生成装置10は、画像データ入力部10F1、抽出部10F2、生成部10F3、及び、識別部10F4等を備える機能構成である。また、学習データ生成装置10は、図示するように、マスク画像データ生成部10F5、及び、イラスト化処理部10F6等を更に備える機能構成であるのが望ましい。
[Example of functional configuration of learning system]
FIG. 19 is a diagram illustrating an example of a functional configuration; For example, the learning
画像データ入力部10F1は、第1入力画像データ11D1、及び、第2入力画像データ11D2を入力する画像データ入力手順を行う。例えば、画像データ入力部10F1は、カメラ11、及び、インタフェース10H3等で実現する。 The image data input unit 10F1 performs an image data input procedure for inputting first input image data 11D1 and second input image data 11D2. For example, the image data input unit 10F1 is implemented by the camera 11, the interface 10H3, and the like.
抽出部10F2は、対象物体のうち、第1入力画像データ11D1、及び、第2入力画像データ11D2の差異となる対象物体を摘果対象物として抽出する抽出手順を行う。例えば、抽出部10F2は、CPU10H1等で実現する。 The extraction unit 10F2 performs an extraction procedure for extracting target objects that are different between the first input image data 11D1 and the second input image data 11D2 from among the target objects as thinning targets. For example, the extraction unit 10F2 is realized by the CPU 10H1 or the like.
生成部10F3は、抽出結果を示す画像データを第1学習データとして学習し、かつ、推定結果画像データを生成する生成手順を行う。例えば、生成部10F3は、CPU10H1等で実現する。 The generation unit 10F3 learns the image data representing the extraction result as the first learning data, and performs a generation procedure of generating estimation result image data. For example, the generation unit 10F3 is realized by the CPU 10H1 or the like.
識別部10F4は、推定結果画像データを識別して、識別結果に基づき第2学習データを生成する識別手順を行う。例えば、識別部10F4は、CPU10H1等で実現する。 The identification unit 10F4 identifies the estimation result image data and performs an identification procedure of generating second learning data based on the identification result. For example, the identification unit 10F4 is implemented by the CPU 10H1 or the like.
マスク画像データ生成部10F5は、対象物体、及び、対象物体以外を区別して示すマスク画像データを生成するマスク画像データ生成手順を行う。例えば、マスク画像データ生成部10F5は、CPU10H1等で実現する。 The mask image data generation unit 10F5 performs a mask image data generation procedure for generating mask image data that distinguishes between a target object and non-target objects. For example, the mask image data generation unit 10F5 is realized by the CPU 10H1 or the like.
イラスト化処理部10F6は、対象物体、及び、対象物体以外をイラスト化するイラスト化手順を行う。例えば、イラスト化処理部10F6は、CPU10H1等で実現する。 The illustration processing unit 10F6 performs an illustration procedure for illustrating a target object and objects other than the target object. For example, the illustration processing unit 10F6 is realized by the CPU 10H1 or the like.
以上のように、学習データ生成装置10は、学習データ15等の第2学習データを生成する。このように、第2学習データを生成できると、学習データを人手で生成する場合等と比較して、農作物の摘果箇所を推定するAI用の学習データを用意する作業負荷を軽減できる。例えば、農作物の摘果箇所を推定するAI用の学習データは、少なくとも数千枚の画像データを用意する必要がある。このような用意を行うには、少なくとも1年乃至数年程度の準備期間を要する場合が多い。
As described above, the learning
特に、農作物は、屋外等のように、いわゆる自然光下で撮影される場合が多い。このような照明環境下は、工場等より、照明環境が安定しない条件の場合が多い。具体的には、日光等は、人為的に調整するのが難しい。ゆえに、自然光は、工場等の照明等と比較して、光の強さ、向き、又は、影の有無等といった様々な条件が変動する。ゆえに、農作物を対象とする撮影は、照明環境が工場内等の屋内と比較して条件が厳しい場合が多い。このような外乱の多い条件下でAIを用いる場合には、特に学習データが多いのが望ましい。 In particular, crops are often photographed under so-called natural light, such as outdoors. Under such a lighting environment, there are many cases where the lighting environment is not stable, such as in a factory. Specifically, sunlight and the like are difficult to adjust artificially. Therefore, in natural light, various conditions such as light intensity, direction, presence or absence of shadows, etc. fluctuate compared to lighting in a factory or the like. Therefore, when photographing agricultural products, the lighting environment is often harsher than indoors such as in a factory. When AI is used under such conditions with many disturbances, it is particularly desirable to have a large amount of learning data.
なお、準備期間は、対象とする農作物の周期によって異なる。 Note that the preparation period varies depending on the cycle of the target agricultural products.
さらに、AIの推定精度を十分に高めようとするのであれば、学習データは、更に多く準備されるのが望ましい。例えば、バーニーおじさんのルール(Uncle Bernie‘s rule)等に基づくと、AIの学習には、ニューラルネットワークにおけるパラメータ数の10倍以上の学習データを準備するのが望ましい。したがって、農作物の摘果箇所を推定するAI用の学習データは、数万枚乃至数十万枚以上の画像データが準備されるのが望ましい場合もある。 Furthermore, if an attempt is made to sufficiently improve the AI estimation accuracy, it is desirable to prepare a larger amount of learning data. For example, based on Uncle Bernie's rule, it is desirable to prepare learning data ten times or more the number of parameters in the neural network for AI learning. Therefore, it may be desirable to prepare tens of thousands to hundreds of thousands of image data as AI learning data for estimating thinning locations of crops.
準備する学習データの量が多くなれば、学習データを実物の農作物を撮影して生成する場合には、準備期間が長くなり、作業負荷も大きくなりやすい。このように、作業負荷が大きくなると、開発コストの増大、及び、開発の長期化等の原因になる。 As the amount of learning data to be prepared increases, the preparation period becomes longer and the workload tends to increase when the learning data is generated by photographing the actual crops. As described above, when the work load increases, it causes an increase in development costs and a prolonged development period.
一方で、本実施形態のように、学習データを生成できると、少ない作業負荷で多くの学習データを用意できる。したがって、学習データを用意する作業負荷を軽減できる。 On the other hand, if learning data can be generated as in this embodiment, a large amount of learning data can be prepared with a small workload. Therefore, the workload of preparing learning data can be reduced.
学習装置301は、例えば、学習データ入力部301F1、及び、学習部301F2等を備える機能構成である。
The
学習データ入力部301F1は、第2学習データを入力する学習データ入力手順を行う。例えば、学習データ入力部301F1は、インタフェース10H3等で実現する。 The learning data input unit 301F1 performs a learning data input procedure for inputting second learning data. For example, the learning data input unit 301F1 is realized by the interface 10H3 or the like.
学習部301F2は、第2学習データにより、学習モデル302を学習させる学習手順を行う。例えば、学習部301F2は、CPU10H1等で実現する。
The learning unit 301F2 performs a learning procedure for learning the
以上のように、学習装置301は、学習データ生成装置10が生成する第2学習データ等を用いて学習モデル302を学習させる。このような学習により、学習装置301は、摘果対象物を推定する学習済みモデル303を生成できる。例えば、学習済みモデル303は、以下のように摘果対象物推定装置402が用いる。
As described above, the
摘果対象物推定装置402は、画像データ入力部10F1、推定部402F1、及び、出力部402F2等を備える機能構成である。
The thinning
画像データ入力部10F1は、未知画像データ401を入力する画像データ入力手順を行う。例えば、画像データ入力部10F1は、カメラ11、及び、インタフェース10H3等で実現する。
The image data input unit 10F1 performs an image data input procedure for inputting
推定部402F1は、学習済みモデル303により、摘果対象物を推定する推定手順を行う。例えば、推定部402F1は、CPU10H1等で実現する。
The estimating unit 402F1 performs an estimating procedure for estimating the thinning object using the learned
出力部402F2は、推定結果を出力する出力手順を行う。例えば、出力部402F2は、出力装置10H5等で実現する。 The output unit 402F2 performs an output procedure for outputting the estimation result. For example, the output unit 402F2 is realized by the output device 10H5 or the like.
以上のように、摘果対象物推定装置402は、学習済みモデル303を実装すると、学習済みモデル303により、摘果作業の内容を推定し、摘果対象物(なお、位置、数、又は、候補等の情報を含む。)を推定できる。このような推定結果が出力されると、ユーザ404は、初心者等であっても、推定結果を参照して、適切な摘果作業を行うことができる。すなわち、ユーザ404が初心者等であっても、推定結果を参照すると、摘果作業で残す果実と、摘果する果実とが把握できる。
As described above, when the learned
学習システム500は、例えば、学習データ生成装置10、学習装置301、及び、摘果対象物推定装置402の備える機能構成のうち、いずれかの機能構成を備える。
The
具体的には、学習システム500は、学習データ生成装置10、及び、学習装置301等の複数の情報処理装置で構成する。このような学習システム500であると、学習データを生成し、かつ、学習モデル302を学習させて学習済みモデル303を生成できる。
Specifically, the
なお、学習システム500は、複数の情報処理装置に限られず、1台の情報処理装置であってもよい。
Note that the
また、学習システム500は、学習装置301、及び、摘果対象物推定装置402の組み合わせでもよい。
Also, the
[推定システムの機能構成例]
図20は、推定システムの機能構成例を示す図である。例えば、推定システム501は、学習データ生成装置10、学習装置301、及び、摘果対象物推定装置402等で構成する。ただし、推定システム501は、学習データ生成装置10がなくともよい。すなわち、推定システム501は、学習データ15に、撮影した画像データを用いる、学習データ生成装置10が生成した画像データを用いる、及び、両方を用いるのうち、いずれでもよい。
[Function configuration example of estimation system]
FIG. 20 is a diagram illustrating a functional configuration example of an estimation system; For example, the
なお、学習モデル302、及び、学習済みモデル303(学習済みモデル303を利用するプログラムを含む。)は、複製されて学習装置301、及び、摘果対象物推定装置402等が複数であってもよい。
In addition, the
学習装置301は、例えば、画像データ入力部10F1、学習データ入力部301F1、学習部301F2、抽出部10F2、マスク画像データ生成部10F5、及び、イラスト化処理部10F6等を備える機能構成である。
The
画像データ入力部10F1は、第1入力画像データ11D1を入力する画像データ入力手順を行う。例えば、画像データ入力部10F1は、カメラ11、及び、インタフェース10H3等で実現する。 The image data input unit 10F1 performs an image data input procedure for inputting the first input image data 11D1. For example, the image data input unit 10F1 is implemented by the camera 11, the interface 10H3, and the like.
学習データ入力部301F1は、学習データ15を入力する学習データ入力手順を行う。例えば、学習データ入力部301F1は、インタフェース10H3等で実現する。
The learning data input unit 301
学習部301F2は、学習データ15に基づき、学習モデル302を学習させる学習手順を行う。例えば、学習部301F2は、CPU10H1等で実現する。
The learning unit 301F2 performs a learning procedure for learning the
抽出部10F2は、第1入力画像データ11D1、及び、学習データ15において、対象物体、又は、摘果対象物を抽出する抽出手順を行う。例えば、抽出部10F2は、CPU10H1等で実現する。
The extraction unit 10F2 performs an extraction procedure for extracting a target object or a thinning target object from the first input image data 11D1 and the learning
第1入力画像データ11D1、及び、学習データ15は、どちらか一方、又は、両方が抽出部10F2、マスク画像データ生成部10F5、及び、イラスト化処理部10F6により、マスク画像データを生成する、イラスト化する、又は、両方の処理を行う抽出処理がされるのが望ましい。
Either or both of the first input image data 11D1 and the learning
このように、対象物体、又は、摘果対象物等が抽出されると、単純に農作物を撮影した画像データをそのまま用いる場合等と比較して、学習モデル302は、摘果対象物等の重要な特徴量を精度良く学習できる。すなわち、学習装置301は、学習モデル302を学習させて、摘果作業を精度良く推定できる学習済みモデル303を生成できる。
In this way, when the target object or the thinning target object is extracted, the
以上のように、推定システム501は、学習部301F2により、学習モデル302を学習させて、学習済みモデル303を生成する。このように、生成された学習済みモデル303が、ネットワーク等を介して、摘果対象物推定装置402に送られる。
As described above, the
摘果対象物推定装置402は、画像データ入力部10F1、抽出部10F2、マスク画像データ生成部10F5、イラスト化処理部10F6、推定部402F1、及び、出力部402F2等を備える機能構成である。
The thinning
画像データ入力部10F1は、未知画像データ401を入力する画像データ入力手順を行う。例えば、画像データ入力部10F1は、カメラ11、及び、インタフェース10H3等で実現する。
The image data input unit 10F1 performs an image data input procedure for inputting
抽出部10F2は、未知画像データ401において、対象物体、又は、摘果対象物を抽出する抽出手順を行う。例えば、抽出部10F2は、CPU10H1等で実現する。
The extraction unit 10F2 performs an extraction procedure for extracting a target object or a thinning target object from the
推定部402F1は、学習済みモデル303により、摘果対象物を推定する推定手順を行う。例えば、推定部402F1は、CPU10H1等で実現する。
The estimating unit 402F1 performs an estimating procedure for estimating the thinning object using the learned
出力部402F2は、推定結果を出力する出力手順を行う。例えば、出力部402F2は、出力装置10H5等で実現する。 The output unit 402F2 performs an output procedure for outputting the estimation result. For example, the output unit 402F2 is realized by the output device 10H5 or the like.
以上のように、推定システム501では、まず、学習装置301が学習モデル302を学習させて、学習済みモデル303を生成する。次に、推定システム501では、このように生成された学習済みモデル303が摘果対象物推定装置402に配布される。
As described above, in the
摘果対象物推定装置402は、学習済みモデル303を実装すると、学習済みモデル303により、摘果作業の内容を推定し、摘果対象物(なお、位置、数、又は、候補等の情報を含む。)を推定できる。このような推定結果が出力されると、ユーザ404は、初心者等であっても、推定結果を参照して、適切な摘果作業を行うことができる。
When the learned
すなわち、ユーザ404が初心者等であっても、推定結果を参照すると、摘果作業で残す果実と、摘果する果実とが把握できる。また、例えば、学習装置301がクラウド環境等を利用する場合には、データの収集、及び、学習済みモデル303の配布等を速やかに行うことができる。
That is, even if the
[学習データの形式について]
第1学習データ、及び、第2学習データ等の学習データは、農作物を抽出した形式の画像データを用いるのが望ましい。ただし、抽出は、複数の段階に分けて行ってもよい。このような場合において、学習装置301は、抽出において、途中の段階となる形式の画像データ等を学習データに含めてもよい。
[Regarding the format of learning data]
Learning data such as the first learning data and the second learning data are desirably image data in the form of extracted crops. However, extraction may be performed in multiple steps. In such a case, the
例えば、抽出処理は、第1段階乃至第3段階の3段階に分けて行うとする。 For example, it is assumed that the extraction process is divided into three stages, ie, the first stage to the third stage.
第1段階は、入力された状態、すなわち、写真の形式(ただし、ホワイトバランス等の調整がされてもよい。)の画像データである。 The first stage is image data in the input state, that is, image data in a photograph format (however, white balance and the like may be adjusted).
第2段階は、農作物以外の箇所を背景とし、背景をマスクした形式の画像データである。例えば、背景は白色(マスクにより、どのような色にするかは設定する。)にマスク化される。 The second stage is image data in a format in which portions other than crops are used as a background and the background is masked. For example, the background is masked to white (which color is set by the mask).
第3段階は、農作物等をイラスト化した形式の画像データである。 The third stage is image data in the form of illustrations of crops and the like.
学習データは、上記の第1段階乃至第3段階のうち、どの段階の画像データでもよい。また、学習データは、上記の第1段階乃至第3段階のうち、どの段階の画像データだけでなく、複数の段階、すなわち、抽出処理がされる前と後の両方の画像データでもよい。 The learning data may be image data at any stage among the first to third stages. Further, the learning data may be not only image data at any stage among the first to third stages, but also image data at a plurality of stages, that is, both before and after extraction processing.
マスク化等で農作物が抽出された形式の画像データであると、学習装置301は、学習モデルに摘果対象物を精度良く学習できる。
If the image data is in a format in which crops are extracted by masking or the like, the
一方で、学習データは、写真等の形式の画像データを含むのが望ましい場合もある。例えば、イラスト化すると、画像データは、対象物体に発生している傷等(例えば、日当たりが悪い、塩害、腐食、病気、外傷、又は、虫食い等を原因とする。また、変色等でもよい。)を省略する場合がある。これに対し、摘果作業は、傷等がある対象物体を優先的に摘果する場合もある。このような摘果作業のためのAIは、第1段階、又は、第2段階等の形式、すなわち、傷等を表示する形式の画像データで学習するのが望ましい。したがって、学習データは、摘果作業の好み等に応じて形式が選択されてもよい。 On the other hand, it may be desirable for the training data to include image data in the form of photographs or the like. For example, if illustrated, the image data may be caused by scratches, etc. (for example, poor sunlight, salt damage, corrosion, disease, trauma, worm-eaten, etc.) occurring on the target object, or discoloration. ) may be omitted. On the other hand, in the fruit-picking operation, there are cases where target objects with scratches or the like are preferentially picked. It is desirable that the AI for such fruit thinning work is learned in the first stage or second stage format, that is, in the format of image data that displays scars and the like. Therefore, the format of the learning data may be selected according to the preference of the fruit thinning work.
このように、学習データは、複数段階の画像データであると、学習装置301は、より好みに合致した摘果作業を学習モデルに学習させることができる。
In this way, when the learning data is image data of multiple stages, the
[AIについて]
AIは、例えば、以下のようなネットワーク構造で画像データ等を処理する。
[About AI]
AI processes image data etc., for example, with the following network structure.
図21は、ネットワーク構造例を示す図である。例えば、AIは、入力層L1、隠れ層L2、及び、出力層L3を有するネットワーク構造を有してもよい。 FIG. 21 is a diagram illustrating an example network structure. For example, an AI may have a network structure with an input layer L1, a hidden layer L2, and an output layer L3.
具体的には、AIは、図示するようなConvolution Neural Network(畳み込みニューラルネットワーク、CNN)等を有するネットワーク構造である。 Specifically, AI is a network structure having a Convolution Neural Network (Convolution Neural Network, CNN) or the like as shown.
入力層L1は、入力データDINを入力する層である。 The input layer L1 is a layer for inputting input data DIN.
隠れ層L2は、入力層L1から入力される入力データDINに対して、畳み込み、プーリング、正規化、又は、これらの組み合わせ等の処理を行う層である。 The hidden layer L2 is a layer that performs processing such as convolution, pooling, normalization, or a combination thereof on the input data DIN input from the input layer L1.
出力層L3は、隠れ層L2で処理された結果を出力データDOUTで出力する層である。例えば、出力層L3は、全結合層等で構成される。 The output layer L3 is a layer that outputs the result processed by the hidden layer L2 as output data DOUT. For example, the output layer L3 is composed of a fully connected layer or the like.
畳み込み(Convolution)は、例えば、フィルタ、マスク、又は、カーネル(以下単に「フィルタ」という。)等に基づいて、画像、又は、画像に対して所定の処理を行って生成される特徴マップ等に対して、フィルタ処理を行って、特徴マップを生成する処理である。 Convolution is, for example, based on a filter, mask, or kernel (hereinafter simply referred to as "filter"), or the like, to an image or a feature map generated by performing a predetermined process on the image. On the other hand, it is a process of performing filtering and generating a feature map.
具体的には、フィルタは、フィルタ係数(「重み」又は「パラメータ」等という場合もある。)を画像又は特徴マップの画素値に乗じる計算をするのに用いるデータである。なお、フィルタ係数は、学習又は設定等により定まる値である。 Specifically, a filter is data used to perform calculations for multiplying pixel values of an image or feature map by filter coefficients (sometimes referred to as "weights" or "parameters"). Note that the filter coefficient is a value determined by learning, setting, or the like.
そして、畳み込みの処理は、画像又は特徴マップを構成する画素のそれぞれの画素値に、フィルタ係数を乗じる計算を行い、計算結果を構成要素とする特徴マップを生成する処理である。 The convolution process is a process of multiplying each pixel value of pixels constituting an image or a feature map by a filter coefficient to generate a feature map having the calculation results as constituent elements.
このように、畳み込みの処理が行われると、画像又は特徴マップの特徴が抽出できる。特徴は、例えば、エッジ成分、又は、対象とする画素の周辺を統計処理した結果等である。 Thus, once the convolution process is performed, the features of the image or feature map can be extracted. A feature is, for example, an edge component, a result of statistical processing of the periphery of a target pixel, or the like.
また、畳み込みの処理が行われると、対象とする画像又は特徴マップが示す被写体等が、上下にずれる、左右にずれる、斜めにずれる、回転、又は、これらの組み合わせとなる画像又は特徴マップであっても同様の特徴が抽出できる。 Further, when the convolution process is performed, the subject or the like indicated by the target image or feature map shifts up and down, shifts left and right, shifts obliquely, rotates, or is an image or feature map that is a combination of these. Similar features can be extracted from
プーリング(Pooling)は、対象とする範囲に対して、平均の計算、最小値の抽出、又は、最大値の抽出等の処理を行って、特徴を抽出して特徴マップを生成する処理である。すなわち、プーリングは、maxプーリング、又は、avgプーリング等である。 Pooling is a process of calculating the average, extracting the minimum value, or extracting the maximum value for a target range, extracting features, and generating a feature map. That is, the pooling is max pooling, avg pooling, or the like.
なお、畳み込み、及び、プーリングは、ゼロパディング(Zero Padding)等の前処理があってもよい。 Note that convolution and pooling may be preprocessed such as zero padding.
以上のような、畳み込み、プーリング、又は、これらの組み合わせによって、いわゆるデータ量削減効果、合成性、又は、移動不変性等が獲得できる。 The so-called data amount reduction effect, synthesizability, or movement invariance can be obtained by convolution, pooling, or a combination thereof as described above.
正規化(Normalization)は、例えば、分散及び平均値を揃える処理等である。なお、正規化は、局所的に行う場合を含む。そして、正規化が行われるとは、データは、所定の範囲内の値等になる。ゆえに、以降の処理においてデータの扱いが容易にできる。 Normalization is, for example, a process of aligning variances and average values. It should be noted that normalization includes a case where it is performed locally. Then, normalization means that the data becomes a value or the like within a predetermined range. Therefore, the data can be easily handled in subsequent processing.
全結合(Fully connected)は、特徴マップ等のデータを出力に落とし込む処理である。 Fully connected is a process of putting data such as feature maps into an output.
例えば、出力は、「YES」又は「NO」等のように、出力が2値の形式である。このような出力形式では、全結合は、2種類のうち、いずれかの結論となるように、隠れ層L2で抽出される特徴に基づいてノードを結合する処理である。 For example, the output is in the form of a binary output, such as "YES" or "NO". In such an output format, full connection is a process of connecting nodes based on the features extracted in the hidden layer L2 so as to obtain either of the two types of conclusions.
一方で、出力が3種類以上ある場合等には、全結合は、いわゆるソフトマックス関数等を行う処理である。このようにして、全結合により、最尤推定法等によって分類(確率を示す出力を行う場合を含む。)を行うことができる。 On the other hand, when there are three or more types of outputs, the full combination is a process that performs a so-called softmax function. In this way, the full combination enables classification (including output indicating probability) by maximum likelihood estimation or the like.
[その他の実施形態]
学習データ生成装置10、学習装置301、及び、摘果対象物推定装置402は、異なる種類の情報処理装置であってもよい。すなわち、学習データ生成装置10、学習装置301、及び、摘果対象物推定装置402は、異なるハードウェア構成であってもよい。
[Other embodiments]
The learning
学習データは、教師データ、又は、訓練データ等と呼ばれる場合もある。 The learning data may also be called teacher data, training data, or the like.
実施形態は、上記の実施形態を組み合わせたものでもよい。すなわち、学習データを生成する装置、学習モデルに対して学習処理を行って学習済みモデルを生成する装置、及び、学習済みモデルを用いて実行処理を行う装置は、同じ装置でもよいし、異なる装置であってもよい。このように、学習モデルの学習、及び、学習済みモデルによる実行は、同一の情報処理装置で行われなくともよい。すなわち、学習モデルの学習、及び、学習済みモデルによる実行は、異なる情報処理装置で行われてもよい。 Embodiments may be combinations of the above embodiments. That is, a device that generates learning data, a device that performs learning processing on a learning model to generate a trained model, and a device that performs execution processing using the trained model may be the same device or different devices. may be In this way, the learning of the learning model and the execution by the trained model do not have to be performed by the same information processing device. That is, the learning of the learning model and the execution by the trained model may be performed by different information processing apparatuses.
なお、異なる装置である場合には、互いの装置は、例えば、ネットワーク等を介して、学習データ、又は、学習済みモデル等のデータを送受信する。 If the devices are different devices, the devices transmit and receive data such as learning data or learned models via a network or the like.
ゆえに、学習済みモデルは、学習によって生成された後、ネットワーク等を介して、プログラム等の形式で配信され、学習された情報処理装置とは異なる装置で実行されてもよい。なお、他の情報処理装置において学習して生成された学習モデルに対し、追加して学習が行われてもよい。 Therefore, a trained model may be distributed in the form of a program or the like via a network or the like after being generated by learning, and may be executed by a device different from the information processing device in which the trained model was trained. In addition, learning may be performed in addition to a learning model generated by learning in another information processing apparatus.
なお、学習データは、データ拡張(data augmentation)が行われてもよい。具体的には、学習データは、画像データの場合には、画像データが示す画像の一部を切り出して新たなデータを生成する等のデータ拡張がされてもよい。 Note that the learning data may be subjected to data augmentation. Specifically, when the learning data is image data, the data may be expanded by extracting a part of the image indicated by the image data to generate new data.
同様に、データ拡張は、例えば、回転、スライド、データの一部せん断、左右反転、上下反転、歪みを加える、歪みを補正する、濃淡の変更、色の補正、ノイズを減らす、ノイズを加える、フィルタをかける、拡大、縮小、エッジの強調、又は、これらの組み合わせとなる処理等を画像データに対してランダムに適用する処理である。 Similarly, data augmentation includes, for example, rotation, slide, partial shearing of data, horizontal flip, vertical flip, add distortion, correct distortion, change shade, correct color, reduce noise, add noise, This is a process of randomly applying filtering, enlargement, reduction, edge enhancement, or a combination thereof to image data.
このようにデータ拡張により、学習データを増やせると、学習モデルの学習に用いる学習データを増やすことができる。 By increasing the amount of learning data through data expansion in this way, it is possible to increase the amount of learning data used for learning a learning model.
実施形態では、バッチノーマライゼーション(Batch Normalization)、又は、ドロップアウト等といった過学習(「過剰適合」又は「過適合」等ともいう。overfitting)を軽減化させる処理が行われてもよい。ほかにも、次元削減等の処理が行われてもよい。 In the embodiment, processing for reducing overfitting (also referred to as “overfitting” or “overfitting”) such as batch normalization or dropout may be performed. In addition, processing such as dimension reduction may be performed.
学習モデル、及び、学習済みモデル等におけるネットワーク構造は、CNNのネットワーク構造に限られない。例えば、ネットワーク構造は、RNN(再帰型ニューラルネットワーク、Recurrent Neural Network)、LSTM(Long Short-Term Memory)、又は、Transformer等の構成を有してもよい。 The network structure in the learning model, the trained model, etc. is not limited to the network structure of CNN. For example, the network structure may have a configuration such as RNN (Recurrent Neural Network), LSTM (Long Short-Term Memory), or Transformer.
また、学習モデル、及び、学習済みモデルは、ハイパパラメータを有する構成であってもよい。すなわち、学習モデル、及び、学習済みモデルは、一部の設定をユーザが行う構成でもよい。 Also, the learning model and the trained model may be configured to have hyperparameters. That is, the learning model and the learned model may be partially configured by the user.
ほかにも、例えば、グラフ(頂点、及び、辺で構成されるデータである。)を扱う場合には、学習モデル、及び、学習済みモデルは、Graph Neural Network(グラフニューラルネットワーク、GNN)等の構造を有してもよい。 In addition, for example, when dealing with a graph (data composed of vertices and edges), the learning model and the trained model are Graph Neural Network (Graph Neural Network, GNN), etc. It may have a structure.
また、学習モデル、及び、学習済みモデルは、他の機械学習を利用してもよい。例えば、学習モデル、及び、学習済みモデルは、教師なしのモデルにより、正規化等を前処理で行ってもよい。 Also, the learning model and the trained model may utilize other machine learning. For example, the learning model and the trained model may be subjected to preprocessing such as normalization by an unsupervised model.
本発明は、上記に例示する学習データ生成方法、学習方法、推定方法、又は、上記に示す処理と等価な処理を実行するプログラム(ファームウェア、及び、プログラムに準ずるものを含む。以下単に「プログラム」という。)で実現されてもよい。 The present invention includes a program (including firmware and programs equivalent to the learning data generation method, the learning method, the estimation method, or the processing equivalent to the processing shown above, hereinafter simply "program" ) may be implemented.
すなわち、本発明は、コンピュータに対して指令を行って所定の結果が得られるように、プログラミング言語等で記載されたプログラム等で実現されてもよい。なお、プログラムは、処理の一部をIntegrated Circuit(集積回路、IC)等のハードウェア又はGraphics Processing Unit(GPU)等の演算装置等で実行する構成であってもよい。 That is, the present invention may be realized by a program or the like written in a programming language or the like so as to issue a command to a computer and obtain a predetermined result. Note that the program may be configured such that part of the processing is executed by hardware such as an Integrated Circuit (IC) or an arithmetic unit such as a Graphics Processing Unit (GPU).
プログラムは、コンピュータが有する演算装置、制御装置、及び、記憶装置等を協働させて上記に示す処理等をコンピュータに実行させる。すなわち、プログラムは、主記憶装置等にロードされて、演算装置に命令を発して演算を行わせてコンピュータを動作させる。 The program causes the computer to execute the processes described above by cooperating with the arithmetic device, the control device, the storage device, and the like of the computer. That is, the program is loaded into the main storage device or the like, issues instructions to the arithmetic unit to perform arithmetic operation, and operates the computer.
また、プログラムは、コンピュータが読み込み可能な記録媒体、又は、ネットワーク等の電気通信回線を介して提供されてもよい。 Also, the program may be provided via a computer-readable recording medium or an electric communication line such as a network.
本発明は、複数の装置で構成されるシステムで実現されてもよい。すなわち、複数のコンピュータによるシステムは、上記に示す処理を冗長、並列、分散、又は、これらの組み合わせとなるように実行してもよい。したがって、本発明は、上記に示すハードウェア構成以外の装置、及び、上記に示す装置以外のシステムで実現されてもよい。 The present invention may be implemented in a system composed of multiple devices. That is, a system of multiple computers may perform the processes described above redundantly, in parallel, distributed, or any combination thereof. Therefore, the present invention may be realized by devices with hardware configurations other than those shown above, and systems other than those shown above.
なお、本発明は、上記に例示する各実施形態に限定されない。したがって、本発明は、技術的な要旨を逸脱しない範囲で、構成要素の追加、又は、変形が可能である。ゆえに、特許請求の範囲に記載された技術思想に含まれる技術的事項のすべてが本発明の対象となる。なお、上記に例示する実施形態は、実施において好適な具体例である。そして、当業者であれば、開示した内容から様々な変形例を実現で可能であって、このような変形例は、特許請求の範囲に記載された技術的範囲に含まれる。 In addition, the present invention is not limited to the embodiments illustrated above. Therefore, the present invention can be added or modified without departing from the technical scope. Therefore, all the technical matters included in the technical idea described in the claims are covered by the present invention. In addition, the embodiment illustrated above is a specific example suitable for implementation. A person skilled in the art can implement various modifications from the disclosed contents, and such modifications are included in the technical scope described in the claims.
10 :学習データ生成装置
10F1 :画像データ入力部
10F2 :抽出部
10F3 :生成部
10F4 :識別部
10F5 :マスク画像データ生成部
10F6 :イラスト化処理部
11 :カメラ
11D1 :第1入力画像データ
11D2 :第2入力画像データ
12 :第1農作物
13 :第2農作物
14 :作業者
15 :学習データ
20 :抽出結果
21 :推定結果画像データ
22 :正解データ
31 :第1物体
32 :第2物体
33 :第3物体
34 :第4物体
40 :マスク画像データ
41 :第1対象物体
42 :第2対象物体
43 :第3対象物体
44 :第4対象物体
50 :イラスト化画像データ
51 :対象物体領域
52 :塗り潰し領域
101 :第1対象物体
102 :第2対象物体
103 :第3対象物体
104 :第4対象物体
105 :第5対象物体
106 :第6対象物体
107 :第7対象物体
301 :学習装置
301F1 :学習データ入力部
301F2 :学習部
302 :学習モデル
303 :学習済みモデル
401 :未知画像データ
402 :摘果対象物推定装置
402F1 :推定部
402F2 :出力部
403 :出力画面
404 :ユーザ
405 :設定画面
500 :学習システム
10: learning data generation device 10F1: image data input unit 10F2: extraction unit 10F3: generation unit 10F4: identification unit 10F5: mask image data generation unit 10F6: illustration processing unit 11: camera 11D1: first input image data 11D2: first 2 Input image data 12 : First crop 13 : Second crop 14 : Worker 15 : Learning data 20 : Extraction result 21 : Estimation result image data 22 : Correct data 31 : First object 32 : Second object 33 : Third Object 34 : Fourth object 40 : Mask image data 41 : First target object 42 : Second target object 43 : Third target object 44 : Fourth target object 50 : Illustrated image data 51 : Target object region 52 : Filled region 101: first target object 102: second target object 103: third target object 104: fourth target object 105: fifth target object 106: sixth target object 107: seventh target object 301: learning device 301F1: learning data Input unit 301F2 : Learning unit 302 : Learning model 303 : Learned model 401 : Unknown image data 402 : Thinning object estimation device 402F1 : Estimation unit 402F2 : Output unit 403 : Output screen 404 : User 405 : Setting screen 500 : Learning system
Claims (7)
摘果前の農作物を示す画像データである第1入力画像データ、及び、摘果後の前記農作物を示す画像データである第2入力画像データを入力する画像データ入力部と、
前記農作物における摘果対象物を推定した結果を示す推定結果画像データを生成する前記生成部と、
前記推定結果画像データを識別して、識別結果を前記生成部へフィードバックさせて前記学習モデルを学習させる前記識別部と
を備える学習装置。 A learning device for learning a learning model having a generation unit and an identification unit,
an image data input unit for inputting first input image data, which is image data representing the crops before thinning, and second input image data, which is image data representing the crops after thinning;
the generation unit that generates estimation result image data indicating a result of estimating a thinning target object in the crop;
A learning device comprising: the identification unit that identifies the estimation result image data, feeds back the identification result to the generation unit, and learns the learning model.
未知の摘果前の農作物を示す未知画像データを入力する画像データ入力部と、
前記学習済みモデルにより、前記摘果対象物を推定する推定部と、
前記推定部による推定結果を出力する出力部と
を備える摘果対象物推定装置。 A thinning target object estimation device that uses a learned model learned by the learning device according to claim 1,
an image data input unit for inputting unknown image data showing unknown crops before fruit thinning;
an estimating unit that estimates the thinning object using the learned model;
and an output unit that outputs an estimation result obtained by the estimation unit.
請求項2に記載の摘果対象物推定装置。 3. The thinning target object estimation apparatus according to claim 2, further comprising a mask image data generation unit that generates mask image data that distinguishes between a target object and objects other than the target object.
請求項2又は3に記載の摘果対象物推定装置。 The thinning target object estimation device according to claim 2 or 3, further comprising an illustration processing unit that illustrates the target object in the first input image data.
コンピュータが、摘果前の農作物を示す画像データである第1入力画像データ、及び、摘果後の前記農作物を示す画像データである第2入力画像データを入力する画像データ入力手順と、
コンピュータが、前記農作物における摘果対象物を推定した結果を示す推定結果画像データを生成する生成手順と、
コンピュータが、前記推定結果画像データを識別して、識別結果を前記生成部へフィードバックさせて学習モデルを学習させる識別手順と
を実行させるためのプログラム。 A program for causing a computer having a generation unit and an identification unit to execute a learning method,
an image data input procedure in which a computer inputs first input image data, which is image data representing the crop before thinning, and second input image data, which is image data representing the crop after thinning;
a generation procedure in which a computer generates estimation result image data indicating a result of estimating a thinning object in the crop;
A program for causing a computer to identify the estimation result image data, feed back the identification result to the generation unit, and execute an identification procedure for learning a learning model.
コンピュータが、未知の摘果前の農作物を示す未知画像データを入力する画像データ入力手順と、
コンピュータが、前記学習済みモデルにより、前記摘果対象物を推定する推定手順と、
コンピュータが、前記推定手順による推定結果を出力する出力手順と
を実行させるためのプログラム。 A program for causing a computer using a trained model trained by executing the program according to claim 5 to execute an estimation method,
An image data input procedure in which a computer inputs unknown image data showing an unknown crop before fruit thinning;
an estimation procedure in which a computer estimates the thinning object using the learned model;
A program for causing a computer to execute an output procedure for outputting an estimation result obtained by the estimation procedure.
前記学習装置は、
摘果前の農作物を示す画像データである第1入力画像データ、及び、摘果後の前記農作物を示す画像データである第2入力画像データを入力する画像データ入力部と、
前記農作物における摘果対象物を推定した結果を示す推定結果画像データを生成する前記生成部と、
前記推定結果画像データを識別して、識別結果を前記生成部へフィードバックさせて前記学習モデルを学習させる前記識別部と
を備え、
前記摘果対象物推定装置は、
未知の摘果前の農作物を示す未知画像データを入力する画像データ入力部と、
前記学習済みモデルにより、前記摘果対象物を推定する推定部と、
前記推定部による推定結果を出力する出力部と
を備える推定システム。
An estimation system having a learning device for learning a learning model having a generation unit and an identification unit, and a thinning target object estimation device that uses the learned model learned by the learning device,
The learning device
an image data input unit for inputting first input image data, which is image data representing the crops before thinning, and second input image data, which is image data representing the crops after thinning;
the generation unit that generates estimation result image data indicating a result of estimating a thinning target object in the crop;
the identification unit that identifies the estimation result image data, feeds back the identification result to the generation unit, and learns the learning model;
The thinning target object estimation device includes:
an image data input unit for inputting unknown image data showing unknown crops before fruit thinning;
an estimating unit that estimates the thinning object using the learned model;
An estimation system comprising an output unit that outputs an estimation result obtained by the estimation unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021112182A JP6994212B1 (en) | 2021-01-26 | 2021-07-06 | Artificial intelligence (AI) learning device, fruit picking object estimation device, estimation system, and program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021010624A JP6964316B1 (en) | 2021-01-26 | 2021-01-26 | Artificial intelligence (AI) estimation system, learning data generator, learning device, fruit thinning object estimation device, learning system, and program |
JP2021112182A JP6994212B1 (en) | 2021-01-26 | 2021-07-06 | Artificial intelligence (AI) learning device, fruit picking object estimation device, estimation system, and program |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021010624A Division JP6964316B1 (en) | 2021-01-26 | 2021-01-26 | Artificial intelligence (AI) estimation system, learning data generator, learning device, fruit thinning object estimation device, learning system, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6994212B1 JP6994212B1 (en) | 2022-01-14 |
JP2022114418A true JP2022114418A (en) | 2022-08-05 |
Family
ID=87888634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021112182A Active JP6994212B1 (en) | 2021-01-26 | 2021-07-06 | Artificial intelligence (AI) learning device, fruit picking object estimation device, estimation system, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6994212B1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7450955B2 (en) | 2022-03-09 | 2024-03-18 | 国立研究開発法人農業・食品産業技術総合研究機構 | Fruit-thinning support program and fruit-thinning support device |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016194564A (en) * | 2015-03-31 | 2016-11-17 | Necソリューションイノベータ株式会社 | Skill learning support system, skill learning support method and program |
-
2021
- 2021-07-06 JP JP2021112182A patent/JP6994212B1/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016194564A (en) * | 2015-03-31 | 2016-11-17 | Necソリューションイノベータ株式会社 | Skill learning support system, skill learning support method and program |
Also Published As
Publication number | Publication date |
---|---|
JP6994212B1 (en) | 2022-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6964316B1 (en) | Artificial intelligence (AI) estimation system, learning data generator, learning device, fruit thinning object estimation device, learning system, and program | |
US11475247B2 (en) | System and method for adaptive generation using feedback from a trained model | |
Kuznichov et al. | Data augmentation for leaf segmentation and counting tasks in rosette plants | |
CN110148120B (en) | Intelligent disease identification method and system based on CNN and transfer learning | |
Yin et al. | Computer vision and machine learning applied in the mushroom industry: A critical review | |
Bah et al. | Deep learning based classification system for identifying weeds using high-resolution UAV imagery | |
Huang et al. | Real-time classification of green coffee beans by using a convolutional neural network | |
Cha et al. | Adversarial nets with perceptual losses for text-to-image synthesis | |
CN112990103B (en) | String mining secondary positioning method based on machine vision | |
CN111062441A (en) | Scene classification method and device based on self-supervision mechanism and regional suggestion network | |
CN113252584B (en) | Crop growth detection method and system based on 5G transmission | |
CN116363505A (en) | Target picking method based on picking robot vision system | |
JP6994212B1 (en) | Artificial intelligence (AI) learning device, fruit picking object estimation device, estimation system, and program | |
Liu et al. | “Is this blueberry ripe?”: a blueberry ripeness detection algorithm for use on picking robots | |
McLeay et al. | Deep convolutional neural networks with transfer learning for waterline detection in mussel farms | |
CN116071653A (en) | Automatic extraction method for multi-stage branch structure of tree based on natural image | |
Yang et al. | Cherry recognition based on color channel transform | |
Fukuyama et al. | Study of flower image classification using deep learning to support agricultural pollination | |
Dewi et al. | Automated Fruit Classification Based on Deep Learning Utilizing Yolov8 | |
CN113221704A (en) | Animal posture recognition method and system based on deep learning and storage medium | |
CN112115824A (en) | Fruit and vegetable detection method and device, electronic equipment and computer readable medium | |
Abubeker et al. | Computer Vision-Assisted Real-Time Bird Eye Chili Classification Using YOLO V5 Framework | |
Jiao et al. | Real-time litchi detection in complex orchard environments: a portable, low-energy edge computing approach for enhanced automated harvesting | |
Toofani et al. | ANN-based Non-Destructive Testing of Apples, using statistical and textured features | |
Schnell | Plant detection and classification in agricultural fields |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210706 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210706 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210914 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211101 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211124 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211201 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6994212 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |