JP2022546998A - 植物種の識別のためのシステムおよび方法 - Google Patents

植物種の識別のためのシステムおよび方法 Download PDF

Info

Publication number
JP2022546998A
JP2022546998A JP2022513875A JP2022513875A JP2022546998A JP 2022546998 A JP2022546998 A JP 2022546998A JP 2022513875 A JP2022513875 A JP 2022513875A JP 2022513875 A JP2022513875 A JP 2022513875A JP 2022546998 A JP2022546998 A JP 2022546998A
Authority
JP
Japan
Prior art keywords
module
species
image
weed
plant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022513875A
Other languages
English (en)
Other versions
JPWO2021043904A5 (ja
Inventor
ルイス,アーツァイ ピコン
デ ラ プエルタ,ミゲル リナレス
クルカス,クリスチャン
エガース,ティル
オバースト,ライナー
ガラルド,フアン マヌエル コントレーラス
ロドリゲス,ハビエル ロメロ
カイリー ショディー ガッド,ヒカル
クラメール,ゲルド
ユゲー,ジョーン エチャザーラ
ナバッラ-メストレ,レイモン
サン エメテリオ,ミゲル ゴンザレス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BASF SE
Original Assignee
BASF SE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BASF SE filed Critical BASF SE
Publication of JP2022546998A publication Critical patent/JP2022546998A/ja
Publication of JPWO2021043904A5 publication Critical patent/JPWO2021043904A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A01AGRICULTURE; FORESTRY; ANIMAL HUSBANDRY; HUNTING; TRAPPING; FISHING
    • A01MCATCHING, TRAPPING OR SCARING OF ANIMALS; APPARATUS FOR THE DESTRUCTION OF NOXIOUS ANIMALS OR NOXIOUS PLANTS
    • A01M21/00Apparatus for the destruction of unwanted vegetation, e.g. weeds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • G06T7/001Industrial image inspection using an image reference approach
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/188Vegetation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Zoology (AREA)
  • Environmental Sciences (AREA)
  • Wood Science & Technology (AREA)
  • Pest Control & Pesticides (AREA)
  • Insects & Arthropods (AREA)
  • Image Analysis (AREA)

Abstract

トポロジーを有する二重タスク畳み込みニューラルネットワーク(120)を使用して農地で雑草を識別するためのコンピュータに実装される方法、コンピュータプログラム製品およびコンピュータシステム(100)であって、トポロジーを有する二重タスク畳み込みニューラルネットワーク(120)は、第1損失関数(LF1)と関連付けられている分類タスクを実行する中間モジュール(121)と、第2の異なる損失関数(LF2)と関連付けられているセグメンテーションタスクを実行するセマンティック・セグメンテーション・モジュール(122)とを備える。中間モジュールおよびセグメンテーション・モジュールは、第1および第2損失関数(LF1、LF2)を考慮して、一緒にトレーニングされている。システムは、圃場における作物種の作物植物と、作物植物の間にある1以上の雑草種の雑草植物とを表す画像を含むテスト入力(91)を受信することと、各タイルに存在する1以上の雑草種(11、12、13)の存在を予測することと、分類タスクの出力としてセグメンテーション・モジュールに対応する中間特性マップを出力することと、中間特性マップからマルチスケール特性およびコンテキスト情報を抽出し、抽出された情報を連結させて、セマンティック・セグメンテーションを行うことで、第2タスクのセグメンテーション出力として雑草種クラス毎にマスクを生成することと、特定の雑草種に属しているかどうか、および属している場合、どの雑草種に属しているのかを画素毎に示している最終画像(92)を生成することとを備える方法を実行する。【選択図】図1

Description

本発明は、全体として電子データ処理に関し、より具体的には、圃場において雑草を識別するための画像処理方法、コンピュータプログラム製品およびシステムに関する。
農地に雑草群落が存在することは悪影響がある(H.ファンヘームスト(H.vanHeemst)、「収穫量への雑草競合の影響(The influence of weed competition on crop yield)」、農業システム(Agricultural Systems)、18巻、第2号、81~93ページ、1985年、参照)。この文書の文脈における雑草は、フィールドで栽培される作物とは異なる、フィールドに育つあらゆる植物に関する。研究により2つの主たる理由、競合および植物健康の問題が特定されている。特定の植物種(例えば、雑草)は、土壌、栄養および日光を求めて作物と争い、作物の成長をより遅くし、より少なくする。また、雑草には害虫や病害の宿主であるものもある。これに関して、農業従事者は除草剤を使用して雑草群の駆除または制限を行う。
以下の表には、雑草とそれらの各EPPOコードの例がいくつか含まれている。
表1:雑草例
Figure 2022546998000002
このように、近年、農業は1つの複雑な課題に直面している。入手可能な資源の最適化を確保して食糧収量を最適化し、環境への影響を最小化する必要性である。雑草の制御を例に挙げると、農業従事者は通常、異なる雑草には、他とは異なる密度、成長速度および成長段階があるという事実を無視して、表面あたり同量の除草剤を散布する。しかしながら、生物学的な研究によると、異なるタイプおよび比率の除草剤を使用することで、製品の有効性を最適化し、より良い作物生育が実現され、環境に対する化学物質の堆積を減少させることがわかっている。早期の雑草の識別は、植物衛生製品の使用にあたり、最適化と性能向上を可能にし、集中的な除草剤の使用を少なくすることおよびより特定された除草剤の使用へと導く。
新たな技術によって、雑草が存在する領域のみに正確な量の除草剤を散布することが記載されている、場所特有の雑草管理(Site Specific Weed Management)(SSWM)(L.ティエン(L.Tian)、J.F.リード(J.F.Reid)およびJ.W.ヒュンメル(J.W.Hummel)、「場所特有の雑草管理のための精密噴霧器の開発(Development of a precision sprayer for site-specific weed management)」、ASAEのトランザクション、42巻、第4号、893ページ、1999年、参照)がもたらされた。SSWMは、最適に噴霧することにより除草剤の使用を大幅に減少させる。SSWMを適用する際の2つの重大なタスクとしては、雑草と作物との正確な区別および適切な雑草の定量化と段階分けとを実現させることである。その問題に取り組む従来の方法は、画像上で植物を手作業でセグメント化することだが、これには非常に多くの時間がかかる。
さらに近年では、畳み込みニューラルネットワーク(CNN)に基づく機械学習技術が導入されている。CNNは農業において多くの用途があるが、雑草の定量化はまだ満足のいくレベルで解決されていない。トレーニング済み標準化CNNに基づいて圃場における雑草識別のためのセマンティック・セグメンテーションは、ドメインの違いにより、植物画像データセットには十分に機能しない。セマンティック・セグメンテーションとは、画像を画素レベルで理解すること、すなわち、画像内の各画素にオブジェクトクラスを割り当てることを意味する。加えて、視覚的な差がほとんど全くない植物をセグメント化する本質的な複雑さによって、農業従事者が十分な正確性をもって雑草識別の問題を解決するために標準化CNNトポロジーをうまく適用することが阻止されている。
モーテンセン(Mortensen)他は、深層学習を使用して作物および雑草のセマンティック・セグメンテーションに対する研究(A.K.モーテンセン(A.K.Mortensen)、M.ディルマン(M.Dyrmann)、H.カーストフト(H.Karstoft)、R.N.ヨルゲンセン(R.N.Jorgensen)、R.ギスラム(R.Gislum)他、「深層畳み込みニューラルネットワークを使用した混合作物のセマンティック・セグメンテーション(Semantic segmentation of mixed crops using deep convolutional neural network)」、CIGR-AgEng会議、2016年6月26~29日、オーフス、デンマーク。要約および原著論文、1~6ページ、組織委員会、CIGR2016、2016年、参照)を提示し、ここで彼らは異なる作物種のセマンティック・セグメンテーションにおいて79%の画素精度を得た。後に、彼らは、94%のすばらしい画素精度で、実際のケースにおいて画素に正しく「トウモロコシ」または「雑草」とラベル付けしてトウモロコシ作物を23の異なる雑草種から区別できた(M.ディルマン(M.Dyrmann)、A.K.モーテンセン(A.K.Mortensen)、H.S.ミッディビー(H.S.Midtiby)、R.N.ヨルゲンセン(R.N.Jorgensen)他、「完全畳み込みニューラルネットワーク使用による画像での雑草と作物との画素単位の分類(Pixel-wise classification of weeds and crops in images by using a fully convolutional neural network)」、農業工学に関する国際会議のトランザクション、オーフス、デンマーク、26~29ページ、2016年)。他の著者は、より良好なセグメンテーションにつながり得る新たなアーキテクチャおよび方法を見つけるべく、深層CNNを使用した作物と雑草とのセマンティック・セグメンテーションを研究した。2018年に、サ(Sa)他(I.サ(I.Sa)、Z.チェン(Z.Chen)、M.ポポビッチ(M.Popovic)、R.カンナー(R.Khanna)、F.リービッシュ(F.Liebisch)、J.ニエト(J.Nieto)およびR.ジークヴァルト(R.Siegwart)、「ウィードネット:多重スペクトル画像を使用した高密度なセマンティック雑草分類およびスマート農業のための超小型無人飛行機(weednet: Dense semantic weed classification using multispectral images and mav for smart farming)」、IEEEロボティクスおよびオートメーションレターズ(IEEE Robotics and Automation Letters)、3巻、第1号、588~595ページ、2018年、参照)は、ウィードネットと呼ばれる彼らの改良型VGG-16で作物と雑草とをセグメント化することにおいて80%のF1スコアを得て、ミリオト他(A.ミリオト(A.Milioto)、P.ロッテス(P.Lottes)およびC.スタックニス(C.Stachniss)、「cnnにおける背景知識を活用した精密農業ロボットのための作物および雑草のリアルタイムセマンティック・セグメンテーション(real-time semantic segmentation of crop and weed for precision agriculture robots leveraging background knowledge in cnn)」、2018年ロボティクスおよびオートメーションに関するIEEE国際会議(ICRA)(2018 IEEE International Conference on Robotics and Automation)、2229~2235ページ、IEEE、2018年、参照)は、作物、雑草および土壌の画素単位の分類で80.8%のmIoUを達成した。このような先行技術研究は、作物に注目し、全ての雑草種を(分類の観点から)単一のクラスとして捉えている。このような先行技術の方法で得られた画素精度は、フィールドを保護する活動を最適化しようとする農業従事者を十分にサポートするにはまだ満足のいくレベルではない。
そのため、植物種の識別のために改善した画像解析機能を持つシステムおよび方法を提供する必要がある。その結果、本明細書中で使用される植物種識別は、特定の植物種、例えば圃場で作物と競合する雑草種に属する植物の体積定量化の問題に関する。すなわち、植物種識別ステップの結果は、圃場にどの植物種が存在するかおよび特定の種の植物が正確にどこで見つかるのかに関する情報である。さらに、例えば、植物の茎、葉、果実等の各植物の異なる部分の存在および体積に関する付加情報を得ることに関心がある。例えば、特定の植物種の植物要素(例えば、果実)に関してより高い粒度を持つこのような情報は、特定の予想される種子の数のおかげで、圃場によって提供される潜在的な収穫量に関してまたは特定の雑草が急速に広がり得るリスクに関してさえも役立つ情報を提供できる。
雑草体積の定量化の問題は、CNNトポロジーを使用したセマンティック・セグメンテーション技術の適用により解決され、その結果、例えば、標準PSPNet等の公知のセグメンテーションアプローチによって達成できるものよりも高い画素精度を雑草のセグメンテーションにおいて得られる。
本発明の実施形態は、作物畑における植物種を識別するためのコンピュータに実装される方法と、コンピュータシステムのメモリに記憶され、コンピュータシステムの1以上のプロセッサによって実行される場合に、1以上のプロセッサに方法を実行させるコンピュータ可読命令を有するコンピュータプログラム製品とを備える。さらなる実施形態は、コンピュータに実装される方法を実行するように構成されているコンピュータシステムに関する(例えば、前述のコンピュータプログラム製品の実行時)。
作物畑における植物種を識別するためのコンピュータに実装される方法は、本明細書で二重タスクCNNと呼ばれる特定の畳み込みニューラルネットワークを使用する。二重タスクCNNは、2つの異なるタスクを行うように構成されているトポロジーを有する。各タスクはその関連する損失関数に関連付けられており、二重タスクCNN全体は、2つの(異なる)損失関数を考慮してトレーニングされる。このアプローチでは、第1タスク(中間モジュールによって行われる分類タスク)が第2タスク(二重タスクCNNのセマンティック・セグメンテーション・モジュールによって行われるセグメンテーションタスク)をガイドして、植物種のセグメンテーション結果の全体的な精度の向上に導く。セマンティック・セグメンテーション・モジュールは、本明細書において「セグメンテーション・モジュール」とも呼ばれる。
二重タスクCNNの中間モジュールは、テスト入力画像上に存在する植物種を判定するにあたって第1タスクを実行する。その結果、第1タスクは第1損失関数に関連付けられる。植物種の判定は、分類タスクに対応する。従って、中間モジュールは、分類ニューラルネットワークまたは回帰型ニューラルネットワーク(例えば、RESNET50畳み込みニューラルネットワーク等のRESNET*バックボーンを使用する残差ネットワークに基づくもの)によって実装できる。分類ニューラルネットワーク(すなわち、分類タスクを行うように構成されているニューラルネットワーク)を使用する場合、出力は、例えば、作物や雑草植物を表す特定の画像にどの植物種が存在するのかに関する情報である。加えて、回帰型ニューラルネットワークを使用する場合、存在する植物種の比率に関する情報が提供される。両方のCNNタイプとも、作物と雑草植物を有するテスト入力画像に存在している植物種に関する情報を提供する。
分類ニューラルネットワークが中間モジュールとして使用される場合、第1損失関数は、有利には、属するクラスに応じて各サンプル(画素)が重み付けされる「重み付けバイナリ交差エントロピー」である。中間モジュールは、複数のクラスの存在を同時にサポートするために、最後の活性化層として「シグモイド」を使用する。例えば、テスト入力画像の分析されたセクション(すなわち、画像のタイル)には、トウモロコシ植物、異なる雑草種の雑草植物および土壌に属する画素が同時に含まれていてもよい。シグモイド活性化層は、テキスト入力画像上のさまざまなクラスの存在に関する予測を立てる際に、このような複数のクラスを同時に処理できる。
バイナリ交差エントロピーおよびカテゴリ交差エントロピーは、この分野の専門家には既知である。以下の重み付けカテゴリ交差エントロピーは、カテゴリ交差エントロピーと同様だが、重み付けwが追加されている。
Figure 2022546998000003
o,cは、ターゲットクラスが画素に属しているかを表し、
Figure 2022546998000004
は本方法によって予測された値である。バイナリ交差エントロピーと重み付けバイナリ交差エントロピーにも同様が適用される。選択された重み付け値wの範囲は0から1000の間であることができる。例えば、重み付け値は、専門家によってアノテーションされていない画素には0であることができる。アノテーションされている画素の場合、適切な重み付けは、データセット上の画素クラスの割合の逆数になり得る。
中間モジュールが回帰型ニューラルネットワークによって実装される場合、第1損失関数は、有利には「平均二乗誤差」または「平均誤差」である。中間モジュールは、複数のクラスの存在を同時にサポートするために、最後の活性化層として「線形」または「シグモイド」を使用してもよい。
二重タスクCNNのセグメンテーション・モジュールは、テスト入力画像をセグメント化するにあたって第2タスクを行い、テスト入力画像の画素毎にクラスを判定する。クラスは、判定された植物種を含む。第2タスクは、第1損失関数とは異なる第2損失関数に関連付けられている。有利には、第2損失関数は「重み付けカテゴリ交差エントロピー」である。例えば、セグメンテーション・モジュールは、(例えば、PSPNet、DeepLabまたは区分的トポロジーに基づく)ピラミッドプーリングモジュールによって実装されてもよい。
言い換えれば、二重タスクCNNによって行われる各タスクは、それ自体の損失関数に基づいて最適化される。しかしながら、中間モジュールおよびセグメンテーション・モジュールは、第1および第2損失関数を考慮して一緒にトレーニングされている。2つの異なる損失関数を有する2つのモジュールのこの共同トレーニングは、中間モジュールのトレーニングがセグメンテーション・モジュールのトレーニングによって影響され、またその逆も起こり、最終的なセグメンテーション結果の画素精度の向上に導く影響を持っている。セマンティック・セグメンテーションのための伝統的なPSPNetのトレーニング(H.ザオ(H.Zhao)、J.シー(J.Shi)、X.チー(X.Qi)、X.ワン(X.Wang)およびJ.ジア(J.Jia)、「ピラミッドシーン解析ネットワーク(Pyramid scene parsing network)」、コンピュータビジョンおよびパターン認識に関するIEEE会議のトランザクション(Proceedings of the IEEE conference on computer vision and pattern recognition)、2881~2890ページ、2017年、参照)は、中間セグメンテーション損失を使用した監視によって初期結果を生成し、第2ステップがその後の残差を最終的な損失とともに学習する2段階のトレーニングステップに依存する。このように、深層学習ニューラルネットワークの最適化は、解決がより単純である各最適化タスクを有する2つの最適化タスクに分解される。しかしながら、このアプローチは良い結果をもたらし得るが、第1(中間)損失からの学習は、第2(最終的)損失のあるネットワークでトレーニングしている間に消える。伝統的なPSPNetをセマティック・セグメンテーションに使用すると実現できる利点があるにもかかわらず、分析された画像の画素の数パーセントにしか存在しないクラスを抽出する能力が欠落している。この問題は、(セグメンテーション・モジュールによって行われる)セグメンテーションタスクと同時にトレーニングされている(中間モジュールによって行われる)第2分類または回帰タスクを追加することで、伝統的なセグメンテーション・モジュール(例えば、PSPNet)の開示された拡張によって解決される。このことは、2つの損失関数による同時の学習プロセスにガイドを提供する。
ニューラルネットワークが、トレーニング戦略として任意の時点でアクティブである単一の損失関数で順次トレーニングされる2つの異なる問題に分割される伝統的なPSPNetアプローチとは対照的に、本明細書に開示されるアプローチでは、両方のタスク(分類およびセグメンテーションタスク)は、両方のタスクの各損失関数の単純な重み付け加算によって同じ時に(すなわち同時に)トレーニングされている。
本明細書で開示される二重タスクCNNトポロジーは、伝統的なセマンティック・セグメンテーション・ネットワークを実際の二重タスクネットワークに拡張し、ここではネットワークの重みは2つの損失関数に対して同時に最適化され、このようにして分類損失がセグメンテーション損失をガイドする。損失関数は、各サンプル(画素)が重みと関連付けられる重み付け交差エントロピー関数であってもよい。以下においては、二重タスクCNNのトレーニングデータセットが説明され、これは、1つのデータサブセットに手動でアノテーションされた画像が含まれ、さらなるデータサブセットに自動的にアノテーションされた画像が含まれる異なるデータサブセットを組み合わせる。サンプルの重みは、対象が属するデータサブセットに関連付けられることができる。自動的にアノテーションされた画像を含むデータサブセットからのサンプルは、手動でアノテーションされたデータセットからのサンプルよりも高い重みを有していてもよい。典型的に、手動でアノテーションされたデータサブセットは、人間が「その他」または「不明」と分類した画素を含む。実際の画像へのドメイン適応を可能にするための残りの少しの重みを有しつつ、このような画素が二重タスクCNNのトレーニングに対して与える影響を減らすため、このようなピクセルに対して、(例えば、10から1000の範囲内の数の分だけ)重みが減らせてもよい。その結果、重みの減少はどのようにしても負の数になることはできない。
有利には、二重タスクCNNモジュールは、手動でアノテーションされたトレーニング画像を含む1つのサブセットと自動でアノテーションされたトレーニング画像とを含むもう一方のサブセットとの2つのトレーニングデータサブセットの組み合わせを含む画像トレーニングデータセットに基づいて共同でトレーニングされる。
例えば、第1データサブセットは、特定の作物種の作物植物および1以上の雑草種の雑草植物がある圃場内の実際の状況を表す画像を含んでもよく、ここでは雑草植物は作物植物の間に広がっている。第1データサブセットは、トレーニング画像の画素が属する植物種を示す手動画素アノテーションを有する。典型的に、人間のユーザは第1データセットの画像のそれぞれを見て、画像の特定のサブセクションを特定のクラス(例えば、作物種、雑草、種、土壌)に属すとしてマークする。一実装例では、手動画素アノテーションは、特定の植物種の植物の画素が各植物種としてアノテーションされるのみならず、階層的な方法で特定の植物種も茎、葉、果実等のさまざまな植物要素のアノテーションのためのサブクラスも有していてもよいという点でより高いレベルの粒度であってもよい。すなわち、アノテーションは、トウモロコシ1、トウモロコシ1:葉、トウモロコシ1:果実、雑草1、雑草1:葉、雑草1:果実等のタグを使用して行うことができる。多くの場合、ユーザは単純に画像上で長方形(またはフリーフォーム形状を含む他の形状)を指定して、指定領域に対するアノテーションを入力するだけであるため、このようなアノテーションは画素レベルではかなり不正確である。トレーニング画像におけるクラスの自然な分布を考慮すると、このような手動のアノテーションは大まかな近似にすぎないことが明確である。
この目的のために、第1データサブセットは、画素レベルで正しい自動生成されたアノテーションを有するトレーニング画像を含む第2サブセットによって補完(強化)される。自動的にアノテーションされたトレーニング画像を得ることは、異なる方法で実現されてもよい。
例えば、第2データサブセットは、元は単一の植物画像から得られた異なる植物種の複数の植物を表す画像を含んでもよい。その結果、各単一植物画像は、特定の種の単一植物を表す。その後、単一植物画像からそれぞれの単一植物に属する画像部分を抽出し、抽出された画像部分を土壌の背景画像に貼り付けることによって、テスト画像が合成できる。その結果、多数の単一の植物画像が様々な植物種に関連付けられてもよい。しかしながら、単一の植物画像毎に(抽出されたセクションの各画素がそれぞれの種の植物の部分を表すことがわかっているため)それぞれの種がわかっており、後に土壌の背景画像に貼り付けられる抽出された画像部分が画素レベルで各アノテーションに関連付けられる。従って、第2データサブセットの画素は、元の単一植物画像から知られている、それらが属するクラス(種)で自動的にアノテーションされている。
例えば、自動生成されたアノテーションを有する他のデータサブセットは、単一の(雑草)種の複数の(雑草)植物を表す(典型的に、1つの画像に同じ植物種の異なる成長段階も表す)実際の状況画像を含む第3データサブセットであることができる。第3データサブセットは、単一種の植物のみを含むので、画素は、各植物種に対応する対応クラスアノテーションで簡単に自動的にアノテーションできる。例えば、周知の葉のセグメンテーションアルゴリズムを使用して、元の実際の単一種画像の画像からすべての画素を抽出し、対応するクラス情報でそれらにアノテーションすることができる。
その後、トレーニングされた二重タスクCNNは、下記の方法でテスト入力画像に適用される。テスト入力は、二重タスクCNNを実行しているコンピュータシステムによって受信される。テスト入力には、異なる種に属する植物を表す画像が含まれる。例えば、画像は、圃場における特定の作物種の作物植物および前述の作物植物の中にある(すなわち、作物植物の間に広がっている)1以上の雑草種の雑草植物を表してもよい。
コンピュータシステムは、中間モジュールの入力の形状の次元を有するテスト入力画像からタイルを抽出する画像タイル抽出部を有する。典型的に、テスト入力画像は高解像度のものであることが期待される。二重タスクCNNも同様の解像度の画像でトレーニングされていると想定される。例えば、解像度が1024x1024から10,000x10,000画素以上の画像は、高解像画像と考えられる。しかしながら、中間モジュールの入力の形状(第1層)の次元はより低くなる(例えば、一般的なRESNET50ベースの分類ニューラルネットワークの入力の形状は(473,473,3)となることができる)。従って、画像タイル抽出部は、テスト入力画像を中間モジュールの入力の形状に合う画像タイルに分割する。
下記においては、抽出されたタイルのそれぞれが別々に処理され、セグメンテーションタスクの最後に、セグメント化されたタイルが全体的なセグメント化された画像に再構築される。抽出されたタイル毎に、中間モジュールは、各タイルに存在する1以上の植物種の存在を予測する。セグメンテーション・モジュールへのこの第1(分類)タスクの出力は、中間モジュールにより分類された全ての特性を有する中間特性マップである。
セグメンテーション・モジュールは、マスク画像を生成するにあたって中間特性マップを使用し、ここで、マスク上の各画素は、関連するクラスに属する前述の画素の確率を表す「0~1」の値(すなわち、[0、1]間隔内の値)に関連付けられている。これは、中間特性マップからマルチスケール特徴とコンテキスト情報を抽出し、抽出された情報を連結してセマンティック・セグメンテーションを行うことで実現される。
最後に、生成されたマスク(各タイルのマスク)が最終的な画像へと組み合わされる。最終的に再構成された画像は、画素毎にそれが特定の植物種に属しているかどうか、そして、属している場合はどの種に属しているかを示す付加情報を有する、元のテスト入力画像に対応する。例えば、色分けが使用されてもよく、その場合、各植物種に固有の色が割り当てられ、最終画像における画素の画素色が割り当てられた色で調整される。
セグメンテーション・モジュールが、セマンティック・セグメンテーションを実行するためのピラミッドプーリングモジュールによって実装される場合、典型的に、中間モジュールによって提供される中間特性マップをスキャンし、異なるスケールとサイズの情報を統合するマルチスケール特性検出のための4つの配列を作成する、異なる受容野を有する4つの分離したフィルタを含む。
さらに、ピラミッドプーリングモジュールは、典型的に、バイリニア補間法を使用して各配列の画像サイズを中間特性マップのサイズへと復元するように構成されている複数のアップサンプリング層を含む。さらに、ピラミッドプーリングモジュールの畳み込み層は、4つの分離されたフィルタからコンテキスト情報を抽出し、コンテキスト情報を異なるスケールとサイズの情報と連結して、中間特性マップと同じサイズの最終特性マップを生成する。さらに、ピラミッドプーリングモジュールは、典型的に、全結合層を含み、最後の活性化層「softmax」を有する生成されたマスクとして最終的な画素単位の予測を計算する。「softmax」アクティベーション関数は、ロジットとして知られている数を合計が1になる確率へと変更するので、有利である。ロジットは、アクティベーションが行われる前にニューラルネットワークの最後の層によって出力される素点である。一般的に、「softmax」関数は、潜在的な結果のリストの確率分布を表すベクトルを出力する。植物種のセグメンテーションの問題に適用すると、各画素がちょうど1つのクラスにしか属せないという点で、画素は相互に排他的である(例えば、画素は土壌または特定の種の植物のいずれかであるが、同時に両方であることはできない)。従って、「softmax」は、画素毎に特定のクラス(例えば、植物種または土壌)に属する確率を予測する。
本発明のさらなる態様は、添付の特許請求の範囲に具体的に示されている要素および組み合わせによって実現および達成されるであろう。前述の一般的な説明および下記の発明を実施するための形態はいずれも、例示的かつ説明的なものにすぎず、説明通りに本発明を限定するものではないということを理解されたい。
一実施形態による二重タスク畳み込みニューラルネットワークを使用して農地で植物種を識別するためのコンピュータシステムの構成図を含む。 一実施形態による農地で植物種を識別するためのコンピュータに実装される方法の概略フローチャートである。 一実施形態による二重タスク畳み込みニューラルネットワークのトポロジー例を示す。 手動アノテーションを使用する第1トレーニングデータサブセットの生成を示す。 自動アノテーションを使用する第2トレーニングデータサブセットの生成を示す。 自動アノテーションを使用する第3トレーニングデータサブセットの生成を示す。 単一植物画像44が植物のさらなる要素を表すシナリオを示す。 本明細書中に説明されている技術と共に使用されてもよい、一般的コンピュータデバイスと、一般的モバイルコンピュータデバイスの例を示す図である。 分散型コンピュータ環境の一部としてのスマート農業機械を示す。 スマート噴霧システムの例を示す。 化学物質制御機構を介して、雑草、病害または昆虫を制御するスマート噴霧システム用の制御プロトコルを示す。
図1は、一実施形態による二重タスク畳み込みニューラルネットワーク120を使用して農地で植物種(例えば、作物または雑草種)を識別するためのコンピュータシステム100の構成図を含む。図2は、一実施形態による農地で植物種を識別するためのコンピュータに実装される方法1000の概略フローチャートである。方法1000は、コンピュータシステム100によって実行されてもよい。以下の詳細な説明では、図2の方法1000は、図1のシステム100と関連して開示される。従って、説明は両方の図面で使用される参照番号を参照する。さらに、図3は、一実施形態による二重タスク畳み込みニューラルネットワーク122のトポロジー例を示す。そのため、コンピュータシステム100のコンポーネントまたはモジュールに関して実施形態例が考察されている場合、説明は図1の説明と関連して図3の参照番号も参照する。
コンピュータシステム100の目的は、圃場(耕地または温室)のセクション1における作物植物の間に生える植物の種および位置を識別するために農業従事者をサポートすることである。このようなセクションは、文献上で区画と呼ばれることもある。図面では、異なる植物種を区別するために異なる物体形状が使用されている。例においては、三角形はフィールドで栽培されている特定の種の作物植物を表すために使用されている。他の全ての形状は、異なる雑草種の雑草植物を表している。点で描かれた背景は、セクション1の土壌部分(すなわち、植物によって隠されていない地面の部分)を表す。画像記録装置90(例えば、1024から10000pxまでの範囲の解像度で高解像画像を記録可能なデジタルカメラ)は、セクション1の画像を撮影し、その画像をテスト入力画像91としてコンピュータシステム100に提供し、ここで対応するインターフェース110によって受信される1100。テスト入力画像91は、セクション1の属する圃場における作物種10(三角形)の作物植物を模式的に表す。さらに、テスト入力91は、前述の作物植物の間にある1以上の雑草種11、12、13の雑草植物を表す。雑草植物は、作物植物(作物種10)の間に広がっている。自然の野原の場合、異なる雑草種の雑草は、非常に定期的に広まることができるまたは特定の集団で現れ得る。例においては、種11(例えば、メヒシバ)の雑草植物の集団、種13(例えば、ザラツキエノコログサ)の雑草植物の集団、および種12(例えば、アカザ)の雑草植物の2つの集団が存在する。模式例に示すように、画像91中の植物には重なり合った部分があり得る。例えば、いくつかの作物植物は、(図1に模式的に示されるように)他の作物植物と重なり合い、いくつかの雑草植物と重なり合う。雑草植物もまた作物植物と重なり合ってもよい。
テスト入力画像を(およびトレーニング画像も)受信するためのインターフェース110のほかに、コンピュータシステムは更なる処理のためにテスト入力からタイルを抽出する画像タイル抽出モジュール130を有する。さらに、画像再構築モジュール140を使用して、処理タイルをユーザ(例えば、農業従事者)に出力される完全セグメント化画像92へと最終的に再構築する。テキスト入力画像のセマンティック・セグメンテーションを達成するための画像処理は、二重タスク畳み込みニューラルネットワーク120(DTCNN)により行われる。DTCNN120は、次の2つのサブモジュールを有する。
- テスト入力画像91上に存在する雑草種11、12、13を判定するにあたって第1タスクを実行するための中間モジュール121。第1タスクは、DTCNNの最適化の目的のための第1損失関数LF1に関連付けられている。DTCNNモデルの第1タスク(分類)は、タイルごとに入力画像を解析し、入力画像の各小部分(すなわち、タイル)中の異なるクラスの存在を予測する。
- テスト入力画像91の画素毎にクラスを判定するためにテスト入力画像91をセグメント化する第2タスクを実行するためのセグメンテーション・モジュール122。当然、画素ごとのクラスは、特定の画素が単一のクラスにのみ属することができるという点において排他的である。一旦、画像タイルが分類タスクを通過すれば、セグメンテーション・モジュールに渡される特性マップへと縮小される。クラスには、判定された雑草種が(および作物種と土壌種も)含まれる。第2タスクは、第2の異なる損失関数LF2に関連付けられている。タイル毎のセグメンテーション・モジュールの生成1700された出力は、クラス毎の対応マスクである。このマスクは、タイルと同じサイズを持つ画像によって表され、ここで、各画素は、その画素が関連付けられたクラスに属する可能性を表す間隔[0,1]の値に関連付けられる。値が1に近いほど、画素がそのクラスに属している可能性が高い。所定の閾値を上回る値は、クラスに属していると考えられる。このバイナリマスクは、セグメンテーション・モジュールにより生成1700されたセグメンテーションタスク出力と考えられる。
最終的な後処理は、それらのマスクを解釈および組み合わせ、全てのタイルを最終的なセグメント化画像に再構築する。
DTCNNモデルは、(例えば、区画1の)異なる照明条件、葉の重なり、背景およびマルチスケール検出に対してある程度の不変性を表し、これは先行技術のアプローチで使用されるモデルをしのぐ。
DTCNN120をテスト入力に適用する前に、ネットワークはトレーニングデータセットの画像でトレーニングされ、それにより、中間モジュール121およびセグメンテーション・モジュール122は、第1および第2損失関数LF1、LF2を考慮に入れた上で一緒にトレーニングされる。これは、次のように2つの損失関数に対して最小化することによって直接的に行われる。
組み合わせ損失=セグメンテーション損失+アルファ*分類損失
ここで、アルファは、[0,100]の範囲内の数であることができる。その結果、「セグメンテーション損失」はLF2に関連付けられ、「分類損失」はLF1に関連付けられている。例えば、アルファ=0.2を選択し、セグメンテーションタスクに重み付けカテゴリ交差エントロピー損失関数LF2を考慮し、分類タスクに重み付けカテゴリ交差エントロピー損失関数LF1を考慮してもよい。すなわち、両方のモジュールのトレーニングは、2つの関連する損失関数の最適化と同時に並行して起こる。前述のように、PSPNetトポロジー等の先行技術のセグメンテーション・ネットワークは、2つの後続のトレーニング段階を有するが、第2段階のトレーニングを実施すると、第1段階のトレーニングがほとんど失われる。対照的に、タスク毎に別々の損失関数を有する共同トレーニングアプローチは、各損失関数を通して各タスクのパフォーマンスを別々に測定できる一方、同時に、(分類タスク用の)中間モジュール121と(セグメンテーションタスク用の)セグメンテーション・モジュール122を含むDTCNN120のトポロジー全体の重みを設定する。
開示のネットワークアーキテクチャ120は、セグメント化される画像の種類を説明する固有の特徴を分析することで選択された。色が付加情報を提供しない(雑草および作物植物は典型的に全て緑色である)ため、判定は植物の形状および境界を分析することにむしろ基づく。DTCNNは、以下の3つ主要性状を有する。
- 空間的情報の抽出。モデルは葉のグループをセグメント化できるが、実際には、画像上の全ての画素を1つずつ分類することを行っている。その結果、ネットワークは単一の画素に注目するが、同時に、オブジェクトをセグメント化するための空間的情報を抽出できる。このようにして、モデルは、特定の領域のどの画素が葉に属するのかを学習するという点において、葉が何であるかの抽象的な概念を学習する。この特性は「画素グループ化」と呼ばれる。
- 高特性解像度。異なる雑草種の葉は非常に類似し得る。2種類の葉の違いが、ちょうど20画素程度の高解像度テスト入力画像全体で見える画像が存在することがある。これは、DTCNNが、画素の小さなグループに注目してこのような軽微な違いを検出するフィルタを学習する必要があることを意味する。これはまた、さまざまな植物のサブ要素(例えば、果物、茎等)を検出する学習フィルタに関しても当てはまる。
- マルチスケール検出。典型的に、葉のスケールは画像毎に変わる。多くの場合、同じ画像に異なる成長段階にある異なる植物が表される。従って、DTCNNは同じ画像に共存する異なる年齢で異なるサイズの同じ種類の葉(すなわち、同じ植物種の葉)を認識しなくてはならない。例えば、後の成長段階では、植物はすでに果実を実らせているかもしれない。従って、特定の種に特有の果実の特徴を学習することもまた、前述の種を認識することに役立ち得る。
ピラミッドシーン解析ネットワーク(PSPNet)は、2017年にザオ他(上記参照)により公開された、シーンを理解するためのセマンティック・セグメンテーションに特化した深層学習モデルである。これは、画像内の各要素の色、形状および位置を考慮した画像の各画素をオブジェクトの一部として分類することを含む。PSPNetは、マルチスケール情報(ピラミッド形モジュール)とコンテキスト情報との2つの主要な特性を集約する標準セマンティック・セグメンテーション・ネットワークである。2012 PASCAL VOCデータセット(M.エバリンガム(M.Everingham)、L.ファンホール(L.VanGool)、C.K.ウィリアムス(C.K.Williams)、J.ウィン(J.Winn)およびA.ジッサーマン(A.Zisserman)、「パスカルビジュアルオブジェクトクラス(voc)チャレンジ(The pascal visual object classes (voc) challenge)」、コンピュータビジョンの国際ジャーナル(International journal of computer vision)、88巻、第2号、303~338ページ、2010年、参照)にて、PSPNetは、DeepLab(L.-C.チェン(L.-C.Chen)、G.パパンドレウ(G.Papandreou)、I.コッキノス(I.Kokkinos)、K.マーフィー(K.Murphy)およびA.L.ユール(A.L.Yuille)、「ディープラブ:深層畳み込みネット、Atrous畳み込み、完全結合crfsによるセマンティック画像セグメンテーション(Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs)」、パターン解析および機械知能に関するIEEEトランザクション(IEEE transactions on pattern analysis and machine intelligence)、40巻、第4号、834~848ページ、2018年、参照)または区分的(G.リン(G.Lin)、C.シェン(C.Shen)、A.ファンデンヘンゲル(A.VanDenHengel)およびI.リード(I.Reid)、「セマンティック・セグメンテーションのための深層構造モデルの効率的な区分的トレーニング(Efficient piecewise training of deep structured models for semantic segmentation)」、コンピュータビジョンおよびパターン認識に関するIEEE会議のトランザクション(Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition)、3194~3203ページ、2016年、参照)等の他のモデルよりも良好であった。さらに、PSPNetは、(マルチスケール検出のための)ピラミッドプーリング層を有しているため、雑草識別問題を解決するために必要なパラメータに適しているようであり、セマンティック・セグメンテーション(高解像度)とシーン解析(コンテキスト情報)に特化している。そうは言うものの、当業者はセグメンテーション・モジュール122の基礎として、当技術分野で周知の任意の他のセマンティック・セグメンテーション・モジュールを使用してもよい。
しかしながら、伝統的なPSPNetトポロジーを実際のフィールドの状況画像に適用した場合の結果は満足のいくものではない。問題は、トレーニング用のセマンティック・セグメンテーション・データセットが多くの場合、非常に異なるクラスを提示することである。色、形状およびテクスチャに相違が見つかるため、異なるモデルがこの全ての情報を収集することに特化して、各画素を予測する。一方で、作物および異なる雑草種を有する画像に示されるクラスは、形状および色において非常に類似したクラスである。違いは植物の葉(または植物の果実等の他の特徴的な植物要素)の微細な境界線やエッジで主に見つけられる。さらに、実際のフィールドの画像は、典型的に葉の重なり、照明の変化および異なるマルチスケールや成長段階の形態を表す。このような理由から、あらかじめトレーニングされたネットワークは、植物画像データセットにはうまく機能しない。
コンテキスト情報を抽出するためのPSPNetの能力は、逆効果にさえなり得る。
他の検出シナリオでは、例えば、背景として空を検出することで飛行機や航空機を分類することに役立ち得る。しかしながら植物画像データセットでは、背景と隣接するオブジェクトとは、多くの場合、識別対象とほぼ同じように見える。その情報を使用すると、実際的に分類を誤った方向に導き得る。さらに、全ての葉はほぼ同じ色である。多くの場合、単一オブジェクトは、そのオブジェクトを他のオブジェクトから区別する共通画素強度(色)を示す。この場合、全ての葉はその部分では同様に見え、色は付加情報を提供しない。従って、DTCNN120のトレーニングはエッジおよび境界線に注目する。
植物画像データセットへの適用においてセマンティック・セグメンテーション・モジュールの利点の恩恵を得るには、DTCNN120のトポロジーに分類タスクを追加する。モデルは、画素単位の分類を学習するように画像の小さな部分を同時に分類するためにトレーニングされている。PSPNet等の、この伝統的なセマンティック・セグメンテーション・ネットの変形例により、軽微な相違の検出(セグメンテーションタスク使用)への注目を損なわずに、画素のグループ化(分類タスク使用)が改善される。その結果、分類タスクがそれ自体の損失関数に関連付けられ、セグメンテーションタスクもそれ自体の損失関数に関連付けられることが重要であり、両方のタスクが同時に両方の損失関数を考慮して同時に一緒にトレーニングされることが重要である。
コンピュータシステム100がテスト入力画像91を受信すると、抽出モジュール130が中間モジュール121の入力の形状の次元を有するテスト入力画像から1200枚のタイルを抽出する。CNNへの入力は常に4D配列である。つまり、入力データは、(バッチサイズ、高さ、幅、深さ)の形状を持ち、ここで第1の次元は毎回、処理される画像の数を表し、他の3つの次元は高さ、幅および深さである画像の次元を表す。画像の深さはカラーチャンネルの数である。例えば、RGB画像は深さ3、グレースケール画像は深さ1である。例えば、中間モジュールは、RESNET50トポロジーまたはRESNETファミリーのトポロジーのその他の適切なメンバー等の、RESNETアーキテクチャに基づく分類CNN121-1または回帰型CNN121-2として実装されてもよい。中間モジュールの第1層の次元は、さらなるタイルに関する処理のために、画像が抽出部130によって分割されてなるタイルの次元を決定する。例えば、RESNET50 CNNトポロジーを使用する場合、タイルの次元は(473,473,3)入力の形状に適うように構成される。
中間モジュール121は、各タイルに対し、各タイルに存在する1以上の植物種の存在を予測する1300。中間モジュールの出力は、テスト入力画像に存在する植物種を(クラスとして)提供する分類結果121o2を含み(当然、雑草種のクラスのほか、分類結果は作物種および土壌のクラスも含む)、さらに、識別されたクラスに関連付けられた抽出特性を有する対応する中間特性マップを含む。さらなる処理のために、セグメンテーション・モジュール122に中間特性マップ121o1のみが出力される1400。中間特性マップのサイズは、入力画像のサイズ(タイルのサイズに対応)のほんの一部(例えば、1/8)である。
図3の実施形態例は、PSPNetトポロジーに基づくピラミッドプーリングモジュールで実装されているセグメンテーション・モジュール122を示している。システムのテスト実行において、PSPNetが他のセマンティック・セグメンテーション・トポロジーをしのいだことに注目されたい。しかしながら、当業者は他のセグメンテーション・トポロジーを使用して、セグメンテーション・モジュール122を実装してもよい。PSPNetの実装においては、最も高いアクティベーションを有する特性(すなわち、アクティベーションの局所的近傍が最大の特性)を中間特性マップから選択するにあたって初期フィルタ機能を実行するプーリング層122-1が典型的に中間特性マップ121o1を処理する。
選択された特性は、その後、中間特性マップ121o1の選択された特性をスキャンし、マルチスケール特性検出のための4つの配列を作成して異なるスケールとサイズの情報を統合する異なる受容野を有する4つの分離したフィルタを実装するフィルタリング層122-2に転送される。
フィルタリング層122-2の右側のフィルタは、最も粗いレベルであり、各特性マップに全体平均プーリングを行って単一のバイナリ出力を生成する。左側に続くフィルタは、特性マップを2×2のサブ領域に分割し、その後、各サブ領域に平均プーリングを行う第2レベルである。左側にある次のフィルタは、特性マップを3×3のサブ領域に分割し、その後、各サブ領域に平均プーリングを行う第3レベルである。左側にあるフィルタは、特性マップを6×6のサブ領域に分割し、その後、各サブ領域にプーリングを行う最も細かいレベルである。N=4のフィルターレベルとM=2048の入力特性マップの数での例では、出力特性マップは(1/4)×2048=512であり、すなわち512個の出力特徴マップである。
ピラミッドプーリングモジュールの次の段階は、バイリニア補間法を使用して各配列の画像サイズを中間特性マップ121o1のサイズに復元するように構成されている複数のアップサンプリング層122-3を含む。概して、バイリニア補間法は、各低次元特性マップを元の特性マップと同じサイズになるようにアップサンプルするために行われる。
以下の畳み込み層122-4は、4つの分離したフィルタからコンテキスト情報を抽出し、コンテキスト情報を異なるスケールとサイズの情報と結合して1600、中間特性マップ121-o1と同じサイズの最終特性マップ122-4oを生成するように構成されている。言い換えると、アップサンプルされた特性マップのすべての異なるレベルは、元の特性マップと結合される。これらの特性マップは、全体事前分布として融合される。時として文献上では、最終特性マップ122-4oを提供する畳み込み層122-4は、ピラミッドプーリングモジュールの最後と見なされる。しかしながら、本文書の文脈では、画素単位の予測層122-5もピラミッドプーリングモジュールの層と考えられている。
画素単位の予測層122-5は、最終特性マップを使用して最終予測マップを生成する畳み込み層である。例えば、それは全結合層122-5によって実装されて、最後の活性化層「softmax」(すなわち、正規化指数関数)を有する生成されたマスクとして最終的な画素単位の予測を計算してもよい。ソフトマックスアクティベーションの利点については、先に説明済みである。最終予測結果は、現在処理されている画像タイルの画素単位のセグメンテーション122oである。
抽出された全てのタイルがDTCNN120によって処理されると、画像再構成モジュール140は、元の画像のサイズに対応し、画素毎にそれが属するクラスを含む完全にセグメント化された画像92を再構成する。例えば、再構成画像92は、色分けを使用して、各画素のクラスを示すことができる。図1の模式図では、セグメント化画像92は、異なるテクスチャを使用して、様々な画素のクラスを識別する。例えば、クラス10(作物)に属すると分類された画素を有する表面は、れんがのテクスチャで表される。当然、テクスチャは単一の画素をマークするように使用はできない。しかしながら、クラス毎に特定の色値を有する明確な色は使用できる。従って、テクスチャは、その背後のマーキング概念を示すように概略図で簡略化されたマーキングとして使用されるにすぎない。例えば、クラス11(第1雑草種)の雑草植物に属する画素は、灰色の陰影テクスチャでマーキングされ、クラス12(第2雑草種)の雑草植物に属する画素は、チェス盤のようなテクスチャでマーキングされ、クラス13(第3雑草種)の雑草植物に属する画素は、縞模様のテクスチャでマーキングされている。最後に、画像92で土壌の背景クラスに属する画素は、点で描かれたテクスチャ19でマーキングされている。
図4Aから4Cは、二重タスクCNNをトレーニングするために使用できるトレーニングデータサブセットを作成するための異なる方法を示している。DTCNNのセグメンテーション・モジュールと共に中間モジュールをトレーニングするために使用される画像トレーニングデータセットは、図4Aに開示されるように画像の手動アノテーションを使用して生成された第1データサブセットと、図4Bおよび4Cのいずれかにおいて開示されるように自動アノテーションで生成されたさらなるサブセットを少なくとも含む。
図4Aは、トレーニングデータの第1データサブセットの手動アノテーションされたトレーニング画像の作成を示した。ある作物種の作物植物と作物植物の間にある1以上の雑草種の雑草植物が存在する圃場における実際の状況を表すオリジナル画像41は、手動アノテーションのために人間のユーザに提供される。ユーザは、画像内の異なる要素を対応するクラス(例えば、作物種、雑草種、土壌)に割り当てすることを試みる。図4Aaの例の画像41とその要素は、図1の画像91とその要素に対応する。手動アノテーションタスクの結果は、手動画素アノテーション41-1、41-2、41-3が、各トレーニング画像の画素が属する種を示す、第1データサブセットに属するトレーニング画像毎である。アノテーションされた画像41-aで使用されるテクスチャは、図1の画像92に関して説明されたテクスチャに対応する。図4Aの例では、手動アノテーションの結果は、オリジナル画像41の右上隅のみに概略的に示されている。概略図は、アノテーションが画素レベルで正しいことを暗示しているが、手動アノテーションされた画像に関して現実的にはこうはいかない。典型的には、ユーザが特定の植物を認識できなかったことにより、誤ったクラスに割り当てられているか、全くクラスが割り当てられていないかのいずれかの画素が手動アノテーションされた画像に多数存在する。言い換えると、手動アノテーションは、多数の画素が正しくアノテーションされていないという意味においてノイズがある。
典型的に、ユーザは、単純に画像内の長方形を選択し、このような長方形をクラスに割り当てる。長方形内の画素を作物種41-2として分類するために長方形R1を使用してもよい。しかしながら、R1は雑草種41-1および41-2に関連する画素も含む。ユーザは、R1内にあるまたはR1と重なる長方形R2およびR3をさらに示して、それらを各雑草種クラスに割り当ててもよい。このようなアノテーション方法では、画素レベルでの正しいアノテーションに導くことができないということが明確である。手動アノテーションタスクにおいてユーザをサポートするために、コンピュータシステムがユーザにいくつかの分類サポート機能を提供してもよい。
例えば、システムは自動化された土壌セグメンテーションを提供してもよく、安定的で簡易的なカラーベースのセグメンテーションアルゴリズムを使用して、地面(土壌)の存在を自動的に削除し、手動セグメンテーションから自動的に取り除くことができる。アルゴリズム例は、(L*a*b*色空間の)Lab色チャネルに対する単純な閾値化に基づき、ここではチャネルaの正の値を有する画素がセグメンテーションから削除されて、精密なセグメンテーションが得られる。
さらに、システムは、重なり合う植物の部分に対するサポートを提供してもよく、特に後の生物季節学的段階では、植物が重なり合うことによって、すべてのクラスを正確にセグメント化するにはアノテーションがより複雑になる。これを軽減するために、システムの手動アノテーション機能は、別のアノテーションの中にアノテーションをマーキングすることを可能にする(例えば、R1中のR2)。この場合、(R2に割り当てられる)内側のアノテーションは、(R1に割り当てられる)外側のアノテーションに属するセグメンテーションから削除される。これは、すべての種を正確にアノテーションする必要がないため、アノテーション処理を簡略化する。重なり合っている種のみに「囲み」のアノテーションまたは重なり合いを示すその他のアノテーションをアノテーションすることのみで十分である。
第1画像データサブセットを生成するには、以下の条件がシステムのテスト実行において有効であった。2017年、ドイツおよびスペインの2つの異なる場所で大規模な画像取得キャンペーンが実施された。各2.0x2.5mの24の区画の一式が植えられた。これらの区画では、2列のトウモロコシ(ズィー・メイス)が、6つの異なる雑草種、3つの「草葉」雑草(ザラツキエノコログサ、メヒシバ、イヌビエ)および3つの「広葉」雑草(イチビ、アカザ、アオゲイトウ)と共に植えられた。各区画は、キャノンEOS 700D SLRのカメラおよびサムスンA8の携帯電話の2つの異なるデバイスを使用して、上面視と斜視で撮像された。画像取得を容易にするため、2つの携帯電話と2つのSLRカメラを保持する金属構造体が作られ、上部画像(高さ2.0メートル、焦点距離18mm)および透視画像(高さ1.6メートル、角度30度、焦点距離18mm)が撮影された。このような4つの画像は、時間の節約のため同時に撮影されてもよいが、トレーニングデータの品質には影響しない。
トウモロコシおよび雑草の異なる生物季節学的段階を集めるために、9週間の期間にわたって週3回、1日2回、画像が撮影された。試験は2017年5月に開始して、2017年6月に終了した。露出過度および/または不鮮明な画像を削除した後、合計1679枚の画像が、対応するEPPOコード(ZEAMX、SETVE、DIGSA、ECHCG、ABUTH、CHEAL、AMARE)に従って名付けられた7つの対象クラスに手動でセグメント化された。
対象の雑草は特定の位置に植えられていたが、実験区画に野生で成長した未知の雑草により、このタスクがより複雑なものとなった。この問題に対処するために、2つの新しいクラス(一般的な広葉雑草および一般的な草葉雑草)が追加されて、未知または対象でない雑草のアノテーションを可能にした。DTCNNトポロジーは、これらのノイズのあるアノテーションを無視するように構成された。
トレーニングの目的のために、そしていかなるバイアスも回避するために、実験区画は、トレーニング、テストおよび検証の区画に分離された。8つの区画がトレーニングに使用され、2つが検証に使用され、他の2つがテストに使用された。
第1データサブセットは、その後、以下に記載される第2または第3データサブセットのいずれかであり得る少なくとも1つのさらなるサブセットを有するトレーニング画像データセットに組み合わされた。
第2データサブセットの生成が図4Bに記載されている。第2セットは、合成的に生成された画像で構成され、これは画素レベルで正しく自動的にアノテーション可能である。第2サブセットの最終的な合成的に生成された画像42-aは、元の単一の植物画像42から得られる異なる雑草種の複数の雑草植物を表し、各単一の植物画像は、単一種の単一植物12を表す。単一の植物要素は、(例えば、葉のセグメンテーションアルゴリズムで)単一の植物画像から抽出され、土壌の背景画像42-bに貼り付けられる。従って、抽出された単一の植物要素(画像42-s内で異なるテクスチャで示される)が既知の植物種に属するため、第2データサブセットは画素レベルで各雑草種に属する画素のアノテーション42-1、42-3、42-4で完全に自動的にアノテーションされることができる。葉のセグメンテーションアルゴリズムによって抽出された画素が、単一の植物に本当に属しており、その後、各単一の植物画像の植物の既知の種によって自動的にアノテーションできる画素のみが実質的に含まれるため、このような自動アノテーションには手動アノテーションよりもはるかにノイズが少ない。
第1データサブセットと第2データサブセットとの組み合わせは、データセットの実質的な複雑性によってアノテーションが困難で、エラーが起こりやすい第1データサブセットの欠点をいくつか克服する。結果として、トレーニングとテスト用のアノテーションされた画像の量は限定され、ノイズがある。これは、単一の植物画像によって生成された画像コミュニティを含む第2サブセットの合成画像を第1サブセットと組み合わせて使用することで克服できる。この目的のために、単一植物の追加的な取得キャンペーンが実施された。
合成データセットは、アカザ、ヨウシュチョウセンアサガオおよびソバカズラの3つの新たな雑草種にフィーチャーした。これは画像で構成され、各画像が温室の80x80cmの区画上で単一の植物を表している。スペインからは2つの温室があった。それらのそれぞれには、異なる種が播種され、温室1にはAMARE、DIGSA、ECHCGおよびSETVE、温室2にはABUTH、CHESS、DATST、POLCO、ZEAMXが播種された。合計8つの雑草と1つの作物があった。各種から、30から36個の単一植物が播種された。0日目から80日目まで、個々の植物のそれぞれに応じて、平日(月から金)毎に画像が1つ撮影された。それらの全てが最終日までもったわけではないため、最終(第2)データサブセットは、9つの異なる種の異なる成長段階における単一植物の6906枚の画像を含んだ。
各画像にはたった1つの植物しか現れないため、サブセット内の全ての画像はラベル付けされる。葉のセグメンテーションのための深層学習モデルを使用ことで、データセット全体を自動的にアノテーションできた。合成植物群落生成アルゴリズムは、実際の葉のセグメント化された画像を取得して、それらを実際の背景画像に貼り付けることができる。単一の植物データセットの使用は、葉および/または植物を自動的にセグメント化し、それらを候補リポジトリに保存することを可能にする。どの候補が実行可能であったかを識別した後、最終フォルダには、9つの種に不均一に分割された11096枚の画像が含まれていた。群落生成アルゴリズムは、リポジトリから候補を取得し、それらを特定の方法で土壌画像に貼り付ける。
これらの画像を生成するために、各領域を説明する3つのパラメータに関連付けられたいくつかのランダムな領域が作成される。モデルパラメータは、植物種、成長段階および密度である。植物種は、領域のパラメータに応じてモンテカルロアプローチに従って育てられる。
このアルゴリズムのパイプラインは以下の通りである。
(i)栽培領域はランダムなサイズの楕円に作られる。
(ii)各楕円には、クラス(種)、年齢(播種後の日数)、密度(0から1の間の実数)がランダムに割り当てられる。
(iii)画像内のロケーション点は、各植物候補に対してランダムにサンプリングされる。
(iv)ロケーション点に応じて、候補が栽培領域内にあるかどうか(ない場合、潜在的な候補は不合格と判定される)。
(v)候補が楕円内にある場合、アルゴリズムは0から1の間の数をランダムにサンプリングし、それをその栽培領域の「密度」パラメータと比較する。サンプリングされた数が「密度」の閾値より大きい場合、候補は不合格と判定される。
(vi)アルゴリズムは、候補リポジトリから栽培領域の要件に適した候補画像を選択し、それを区画画像に配置する。
この方法により、画像が生成され、この画像には様々な成長段階にあるいくつかの植物種が不均一な密度で存在する。第2データサブセットは、5000枚の合成画像で作られた。5000枚の生成された区画画像のうち、80%はトレーニング用、10%は検証用、別の10%はテスト用に保有された。
図4Cは、第1データサブセットと組み合わせて代替的に使用して、トレーニング画像データセットを形成できる第3データサブセットを示す。当然、3つの全てのデータサブセットを組み合わせてトレーニングデータセットにすることもできる。第3データセットは、単一の雑草種の複数の雑草植物を表す画像43-aを含む。第3データサブセットの画像も、単一の雑草種に属する画素のアノテーション42-3、43-1、43-4で自動的にアノテーションされる。
第1データサブセットが不均衡なクラスおよびノイズのあるアノテーションを呈する一方、合成第2データサブセットは、重なり合う植物要素を有して成長する実際の植物群落を適切に模倣することに関していくつかの問題を有し得る。不均衡なクラスのある状況例としては、画素の30%に関連付けられている1つのクラスと、画素の0.0001%のみに関連付けられている別のクラスを有することがある。これに加えて、いずれのクラスでもあり得る未知である画素が存在する可能性もある。第3データサブセットは、各区画に単一種を有する制御された環境で育つ植物の画像を含む。区画地は日常的にチェックされ、別の種の植物が生えるといつでも手作業で除去された。区画毎に単一の種を有するということは、全ての画像が既にラベル付けされおり、従って、自動セグメンテーションが実現可能であることを暗に示している。高、中、わずかの3つの密度(面積当たりの作物植物の数)の区画があった。画像は2つのキャンペーンで撮影され、1つはスペインで4245枚の画像、もう1つはドイツで818枚の画像が撮影された。概念は同じであるものの、スペインとドイツの画像には、特に土壌/背景において、相当な違いがあった。
葉のセグメンテーションアルゴリズム(例えば、先に説明した葉のセグメンテーションアルゴリズム)を使用することで、セマンティック・セグメンテーションのグラウンドトゥルースラベル(ground-truth label)として機能する、画像毎に自動的に生成されたラベル付きのマスクが得られる。このセグメンテーション方法は、画素レベルではまだいくつかの間違いを犯すが、第3データサブセットは正確にアノテーションされていると考えることができる。
第2および第3データサブセットは類似しているが、それらの違いにおいて補完的である。第2データサブセットは、同じ画像にいくつかの種を示すため、植物群落栽培の点ではより現実的である。その一方、第3データサブセットでは、1つの種しか存在しないが、実際のフィールドの画像のより良いテクスチャ、重なり合い、陰影および形状(すなわち、より多くの情報)を示す。
3つのデータサブセットの組み合わせを含めることで、異なるトレーニング実験が行われた。全ての実験は、第1データサブセットの検証とテストに対して評価された。いくつかの実験において、1つより多い画像トレーニングデータセットがトレーニングに使用された。データサブセットが異なる数の画像を有していたため、ジェネレータを使用して、同等な方法で異なるデータサブセットから画像をフェッチした。ジェネレータは、毎回、各データサブセットから1つの画像を取得する。データサブセットの画像がなくなったら(すなわち、ジェネレータが各サブセットの最後の画像を取得したら)、他のサブセットの画像をインクリメントしつつ、各サブセットに対して最初からやり直す。
バイアスを回避するために、既に言及したように、各データサブセットは、80%をトレーニング用の画像、別の10%を検証用、そして最後の10%をテスト用へと分割された。
データ拡張が、新たな画像がジェネレータによってフェッチされる度に適用された。データ拡張に適用された変換には、回転、高さおよび/または幅のシフト、ズーム、垂直および/または水平反転、画素強度のシフト(色の変化)およびガウスぼかしが含まれた。本明細書に開示されるセマンティック・セグメンテーション方法は画像からタイルを抽出し、一貫性を保つことが重要なため、せん断は推奨されない。
プログラムコードは、TensorFlowを背景として使用し、Keras深層学習ライブラリで実装された。エポック当たりの減衰=10-6で学習率lr=0.001、運動量=0.9およびネステロフ加速勾配法を使用して、両方のタスクのオプティマイザとして確率的勾配降下法が使用された。データサブセットに存在するクラスの不均衡を解決するために、Balanced Accuracy(BAC)が最も適したアルゴリズム性能メトリックとして選択された(このような場合、「通常の」精度の使用は推奨されない)。
DTCNNのトレーニングのため、16GBのメモリを有するNVIDIA Tesla V100 GPUを使用した。入力画像のサイズを考慮して、バッチサイズは6に設定された。「携帯取込装置を使用した自動植物病害診断を小麦に適用した使用事例(Automatic plant disease diagnosis using mobile capture devices, applied on a wheat use case)」、農業におけるコンピュータと電子機器(Computers and Electronics in Agriculture)、138巻、200~209ページ、2017年においてA.ヨハネス(A.Johannes)他によって、および「野生における携帯取込装置ベースの作物病害分類のための深層畳み込みニューラルネットワーク(Deep convolutional neural networks for mobile capture device-based crop disease classification in the wild)」、農業におけるコンピュータと電子機器(Computers and Electronics in Agriculture)、2018年においてA.ピコン(A.Picon)他によって説明された同じ方法論に従って、第1データサブセットの検証サブセットと、balanced accuracy(BAC)およびDice-Sorensen係数の計算値を使用して、異なる雑草種の検証セットを最大化する閾値を計算した。
第1データサブセットからのテスト用画像は実際のフィールド状況を表すため、それらを使用して様々な実験がテストされた。トレーニングされた異なるデータセットの使用の影響を測定するため、異なるデータサブセットを組み合わせていくつかのモデルがトレーニングされた。2セットの実験が使用された。1つのセットはセグメンテーション・モジュールのためのPSPNetトポロジーに基づいて提案された二重タスクCNNの性能を検証することに焦点を当て、別のセットは異なるデータサブセットの組み合わせに対する影響を測定するためのものである。
二重タスクPSPNetの実装が通常の単一タスクPSPNetよりも優れた性能を有することを検証することに焦点を当てた2つの実験は以下の通りである(実験は、使用トポロジーと、使用データサブセットの数によって名付けられる)。
‐PSPNet第1+第3。この実験では、第1データサブセットと第3データサブセットとの両方からの画像でトレーニングされたベースラインPSPNetを使用する。この組み合わせは、トレーニングに最良のデータサブセットの組み合わせとして選択された。
‐二重タスクPSPNet第1+第3。この実験は前のものと同様だが、伝統的なPSPNetネットワークアーキテクチャを開示の二重タスクPSPNetで置き換えた。
得られた結果は、二重タスク(分類およびセグメンテーション)CNNの使用が、伝統的なアーキテクチャを使用した場合に得られた~45%に対して~48%の平均Dice-Sorensen係数(DSC)を得たことを表している。さらに、balanced accuracyがわずかに改善されている。どちらのモデルも、播種後第2週目(中期段階)の間における画像記録でピーク性能を表している。さらに、二重タスクPSPNet第1+第3は、特に初期段階で、PSPNetよりも優れたスコアを奏する。しかし、時間が経つとその性能はPSPNetよりも速く低下する。(播種後第4週目の間に記録された画像に関する)最悪のDTCNN予測では、伝統的なPSPNet予測と同様の値を得る。
二重タスクCNNの性能への様々なデータサブセットの影響は、以下の実験によって検証された。
DTCNN第1。この実験では、トレーニングは第1データサブセットに対してのみ行なわれた。このデータセットには、画像の数の少なさ、高い複雑性、不正確なアノテーションおよび高いクラスの不均衡性の問題がいくつかあった。
DTCNN第2。この実験では、合成第2データサブセットがトレーニングに使用された。合成画像は空間分布、照明、背景およびスケールに違いを呈するので、ドメインシフトによる性能の低下が予想されていた。画素の自動アノテーションが各画素に正しいクラスでアノテーションすることを確実にするため、適正な葉の形状とエッジに関する情報は、ほぼ完璧なグラウンドトゥルースアノテーションでのトレーニングに好適である。
DTCNN第3。この実験では、単一種(第3)データサブセットがトレーニングに使用される。植物の画像は実際の状況下で取得されるが、このデータセットからは植物群落の相互作用は取得できない。
DTCNN第1+第2。この実験では、第1および第2データサブセットからの画像がトレーニングのために組み合わされる。第2データサブセットは、合成画像を組み込むことで、第1データサブセットからのクラスの不均衡および品質の悪いアノテーションの影響を減らすことを可能にする。
DTCNN第1+第3。この実験では、画像第1および第3データサブセットがトレーニングのために組み合わされる。第3データサブセットは、第3データサブセットからの単一種画像を含めることで、第1データサブセットからのクラスの不均衡および品質の悪いアノテーションの影響を減らすことを可能にする。
DTCNN第1+第2+第3。最後のモデルは、全てのデータサブセットを補完する。
結論付けると、対象の第1データサブセットがサポートするデータセット(第2、第3)のいずれかと組み合わされると、ドメインシフトが減少し、より正確な結果が得られる。第1および第3データサブセットを組み合わせてDTCNNのトレーニングに使用すると、最良の結果が得られた。
図4Dは、(図4Bで自動アノテーションに使用されている)単一植物画像44が植物のさらなる要素を表すシナリオを示す。この画像44では、葉12lの他に、植物の茎12sおよび果実12fを見ることができる。多くの植物に関して、果実は茎の葉の色とは異なる色を持っている。このような場合、既存のセグメンテーション方法を使用して、果実12fに属する画素と植物の葉12lに属する画素(または葉と同じ色を持つ植物の他の要素)をセグメント化できる。その後、図4Bに関して説明したような同様の方法で、植物の葉だけでなく、その果実も合成的に生成された画像44-sに貼り付けることができる。背景画像44-bと組み合わせて、より現実的なアノテーションされた画像44-aが生成され、これには、今、(図4Bから既知のオブジェクト44-1、44-3および44-4に加えて)植物12*の果実を表すアノテーションされたオブジェクト44-2も含まれる。
当業者はまた、植物の果実と葉との色の違いを使用して、図4Cで説明されている方法を改良し、各植物の葉と果実とを表すオブジェクトを含む自動的にアノテーションされた画像を生成することも可能であることを述べておくべきである。葉と同様の色である他の植物要素(例えば、茎)のアノテーションに関しては、このような要素の手動アノテーションを使用してもよい。
植物の果実の表現も含む自動アノテーション画像を使用する場合、DTCNNは、異なる植物種を区別するだけでなく、画像を植物の各果実(例えば、作物)に属する画素にセグメント化するようにもトレーニングできる。通常、圃場では1つの作物種しか栽培されていない。このような場合、先に説明したように、この作物種の葉と果実を含む自動的にアノテーションされた画像と、他の植物種(雑草)の画像とを使用してDTCNNをトレーニングすれば十分である。図5は、一般的なコンピュータデバイス900と一般的なモバイルコンピュータデバイス950との例を示す図であり、これらは本明細書で説明されている技術と使用されてもよい。コンピューティングデバイス900は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレームおよびその他の適切なコンピュータ等、様々な形態のデジタルコンピュータを表すと意図される。理想的には、デバイス900は機械学習アルゴリズムを処理するように構成されたGPUを有する。一般的なコンピュータデバイス900は、図1のコンピュータシステム100に対応してもよい。コンピューティングデバイス950は、携帯情報端末、携帯電話、スマートフォンおよび他の同様のコンピューティングデバイス等、様々な形態のモバイルデバイスを表すと意図される。例えば、コンピューティングデバイス950は、ユーザがテスト入力画像をキャプチャしてそれらをコンピュータデバイス900に提供し、次に、コンピュータデバイスから、様々な雑草植物の位置と雑草植物のそれぞれの種を画像上で示すセグメント化された画像を受け取る、GUIフロントエンドとして使用されてもよい。その結果、コンピューティングデバイス950はまた、図1の出力デバイス50を含んでもよい。ここに示されているコンポーネント、それらの接続と関係性およびそれらの機能は、例示としての意図のみであり、本文書で説明および/または主張されている発明の実装例を限定する意図はない。
コンピューティングデバイス900は、プロセッサ902、メモリ904、ストレージデバイス906、メモリ904と高速拡張ポート910に接続している高速インターフェース908および低速バス914とストレージデバイス906に接続している低速インターフェース912を備える。コンポーネント902、904、906、908、910および912のそれぞれは、様々なバスを使用して相互接続され、共通のマザーボードに取り付けられてもよいし、必要に応じて他の方法であってもよい。プロセッサ902は、高速インターフェース908に接続されているディスプレイ916等の外部入力/出力デバイス上にGUIのグラフィック情報を表示するために、メモリ904またはストレージデバイス906に記憶された命令を含む、コンピューティングデバイス900内で実行するための命令を処理できる。他の実装例では、多数のメモリおよびメモリの種類とともに、必要に応じて、多数の処理ユニットおよび/または多数のバスが使用されてもよい。また、多数のコンピューティングデバイス900は、(例えば、サーババンク、ブレードサーバのグループ、または処理デバイスとして)必要な操作の一部を提供する各デバイスに接続されてもよい。
メモリ904は、コンピューティングデバイス900内に情報を記憶する。一実装例では、メモリ904は揮発性メモリユニットまたは複数の揮発性メモリユニットである。他の実装例では、メモリ904は不揮発性メモリユニットまたは複数の不揮発性メモリユニットである。メモリ904はまた、磁気または光学ディスク等の他の形態のコンピュータ可読媒体であってもよい。
ストレージデバイス906は、コンピューティングデバイス900に大容量のストレージを提供可能である。一実装例では、ストレージデバイス906は、フロッピーディスクデバイス、ハードディスクデバイス、光学ディスクデバイスもしくはテープデバイス等のコンピュータ可読媒体、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイスまたはストレージエリアネットワークもしくは他の構成のデバイスを含むデバイスの配列であってもよいし、それらを含んでもよい。コンピュータプログラム製品は、情報キャリアに明確に具現化できる。コンピュータプログラム製品はまた、実行されると、上記のような1以上の方法を行う命令を含んでもよい。情報キャリアは、メモリ904、ストレージデバイス906またはプロセッサ902のメモリ等、コンピュータまたは機械可読媒体である。
高速制御部908は、コンピューティングデバイス900の帯域幅消費動作を管理し、一方で低速制御部912は、より低い帯域幅消費動作を管理する。このような機能の割り当ては例示にすぎない。一実装例では、高速制御部908は、メモリ904と、(例えば、グラフィックプロセッサまたはアクセラレータを通した)ディスプレイ916と、様々な拡張カード(不図示)を受け入れ得る高速拡張ポート910に接続される。実装例では、低速制御部912は、ストレージデバイス906と低速拡張ポート914とに接続されている。さまざまな通信ポート(例えば、USB、Bluetooth(登録商標)、イーサネット、ワイヤレスイーサネット)を含み得る低速拡張ポートは、キーボード、ポインティングデバイス、スキャナまたはネットワークアダプタを通して等のスイッチもしくはルータ等のネットワークデバイス等の1以上の入力/出力デバイスに接続されてもよい。
コンピューティングデバイス900は、図に示されるように、数ある異なる形態で実装されてもよい。例えば、標準サーバ920として、またはそのようなサーバのグループ内で複数回実装されてもよい。また、ラックサーバシステム924の一部として実装されてもよい。さらに、ラップトップコンピュータ922等のパーソナルコンピュータに実装されてもよい。代替的に、コンピューティングデバイス900からのコンポーネントが、デバイス950等のモバイルデバイス(不図示)内の他のコンポーネントと組み合わされてもよい。このようなデバイスのそれぞれは、1以上のコンピューティングデバイス900、950を含んでもよく、システム全体は互いに通信する多数のコンピューティングデバイス900、950から構成されてもよい。
コンピューティングデバイス950は、他のコンポーネントの内とりわけ、プロセッサ952、メモリ964、ディスプレイ954等の入力/出力デバイス、通信インターフェース966およびトランシーバ968を含む。デバイス950には、追加のストレージを提供するために、マイクロドライブまたは他のデバイス等のストレージデバイスも設けられてもよい。コンポーネント950、952、964、954、966および968のそれぞれは様々なバスを使用して相互接続され、コンポーネントのいくつかは共通のマザーボードに取り付けられてもよいし、必要に応じて他の方法であってもよい。
プロセッサ952は、メモリ964に記憶された命令を含む、コンピューティングデバイス950内の命令を実行できる。プロセッサは、分離した多数のアナログおよびデジタル処理ユニットを含むチップのチップセットとして実装されてもよい。プロセッサは、例えば、ユーザインターフェースの制御、デバイス950によって実行されるアプリケーションおよびデバイス950による無線通信等のデバイス950の他のコンポーネントの調整のために提供されてもよい。
プロセッサ952は、ディスプレイ954に接続された制御インターフェース958およびディスプレイインターフェース956を通してユーザと通信してもよい。ディスプレイ954は、例えば、TFT LC(薄膜トランジスタ液晶ディスプレイ)またはOLED(有機発光ダイオード)ディスプレイまたは他の適切なディスプレイ技術であってもよい。ディスプレイインターフェース956は、グラフィックおよび他の情報をユーザに提示するためにディスプレイ954を駆動するための適切な回路を備えてもよい。制御インターフェース958は、ユーザから指令を受け取り、それらをプロセッサ952に提出するために変換してもよい。さらに、外部インターフェース962が、デバイス950の他のデバイスとの近距離通信を可能にするように、プロセッサ952と通信して提供されてもよい。外部インターフェース962は、例えば、いくつかの実装例での有線通信または他の実装例での無線通信を提供してもよく、多数のインターフェースが使用されてもよい。
メモリ964は、コンピューティングデバイス950内に情報を記憶する。メモリ964は、1以上のコンピュータ可読媒体、揮発性メモリユニットまたは不揮発性メモリユニットとして実装できる。拡張メモリ984はまた、例えば、SIMM(シングルインラインメモリモジュール)カードインターフェースを含んでもよい拡張インターフェース982を通して提供され、デバイス950に接続されてもよい。このような拡張メモリ984は、デバイス950のための余剰ストレージ空間を提供してもよいし、デバイス950のためのアプリケーションまたは他の情報を記憶してもよい。具体的には、拡張メモリ984は、上記のプロセスを実行または補足するための命令を含んでもよく、安全情報もまた含んでもよい。このように、例えば、拡張メモリ984は、デバイス950のためのセキュリティモジュールとしての機能を果たしてもよく、デバイス950の安全な使用を許可する命令がプログラムされていてもよい。さらに、安全アプリケーションは、SIMMカードを介して、ハッキング不可能な方法でSIMMカードに識別情報を配置する等の付加情報とともに提供されてもよい。
メモリは、以下に説明されるように、例えば、フラッシュメモリおよび/またはNVRAMメモリを含んでもよい。一実装例では、コンピュータプログラム製品は、情報キャリアに明確に具現化される。コンピュータプログラム製品は、実行されると、上記のような1以上の方法を行う命令を含む。情報キャリアは、例えば、トランシーバ968または外部インターフェース962を介して受信されてもよい、メモリ964、拡張メモリ984またはプロセッサ952上のメモリ等のコンピュータまたは機械可読媒体である。
デバイス950は、必要に応じてデジタル信号処理回路を含んでもよい通信インターフェース966を通して無線で通信してもよい。通信インターフェース966は、とりわけ、GSM音声通話、SMS、EMSもしくはMMSメッセージング、CDMA、TDMA、PDC、WCDMA(登録商標)、CDMA2000またはGPRS等の様々なモードまたはプロトコル下における通信を提供してもよい。このような通信は、例えば、無線周波数トランシーバ968を通して起こってもよい。さらに、BLUETOOTH(登録商標)、WiFiまたは他のこのようなトランシーバ(不図示)を使用するなどして、短距離通信が起こってもよい。さらに、GPS(全地球測位システム)受信モジュール980が、デバイス950に対し追加的なナビゲーションおよび位置に関連する無線データを提供してもよく、これはデバイス950上で実行されるアプリケーションによって必要に応じて使用されてもよい。
デバイス950はまた、ユーザから話した情報を受け取り、それを使用可能なデジタル情報に変換し得るオーディオコーデック960を使用して聴覚的に通信してもよい。オーディオコーデック960は同様に、例えば、デバイス950の受話器のスピーカを通して等、ユーザのために可聴音を生成してもよい。このような音は、音声電話からの音を含んでもよく、録音された音(例えば、音声メッセージ、音楽ファイル等)を含んでもよく、デバイス950上で動作するアプリケーションによって生成された音を含んでもよい。
コンピューティングデバイス950は、図に示されるように、数ある異なる形態で実装されてもよい。例えば、携帯電話980として実装されてもよい。また、スマートフォン982、携帯情報端末またはその他の同様のモバイルデバイスの一部として実装されてもよい。
ここで説明されるシステムおよび技術の様々な実装例は、デジタル電子回路、集積回路、特別設計ASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェアおよび/またはそれらの組み合わせで実現できる。これらの様々な実装例は、少なくとも1つのプログラム可能なプロセッサを含むプログラム可能なシステム上で実行可能および/または解釈可能な1以上のコンピュータプログラムにおける実装を含むことができ、少なくとも1つのプログラム可能なプロセッサは、特別または汎用であってもよく、ストレージシステム、少なくとも1つの入力デバイスおよび少なくとも1つの出力デバイスからデータおよび命令を受信し、ストレージシステム、少なくとも1つの入力デバイスおよび少なくとも1つの出力デバイスにデータおよび命令を送信するために接続されている。
(プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られている)これらのコンピュータプログラムは、プログラム可能なプロセッサのための機械語命令を含み、高水準手続き型言語および/もしくはオブジェクト指向プログラミング言語で、ならびに/またはアセンブリ言語/機械語で実装できる。本明細書中で使用される場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械語命令を機械可読信号として受信する機械可読媒体を含む、機械語命令および/またはデータをプログラム可能なプロセッサに提供するために使用される、任意のコンピュータプログラム製品、装置および/またはデバイス(例えば、磁気ディスク、光学ディスク、メモリ、プログラム可能な論理素子(PLD))を指す。「機械可読信号」という用語は、プログラム可能なプロセッサに機械語命令および/またはデータを提供するために使用される任意の信号を指す。
ユーザとの相互作用を提供するために、本明細書に説明されているシステムおよび技術は、ユーザに情報を表示するためのディスプレイデバイス(例えば、CRT(陰極線管)またはLDC(液晶ディスプレイ)モニタ)と、それによってユーザがコンピュータに入力を提供できるキーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)を有するコンピュータ上で実装できる。また、ユーザとの相互作用を提供するために、他の種類のデバイスを使用することもできる。例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック(例えば、視覚的フィードバック、聴覚的フィードバックまたは触覚的フィードバック)であることができる。また、ユーザからの入力は、音響、音声または触覚入力を含む任意の形態で受け取ることができる。
ここで説明されているシステムおよび技術は、(例えば、データサーバとしての)バックエンドコンポーネントを含む、またはミドルウェアコンポーネント(例えば、アプリケーションサーバ)を含む、またはフロントエンドコンポーネント(例えば、ユーザがそれを通してここで説明されているシステムおよび技術の実装と相互作用できるグラフィカルユーザインターフェースまたはウェブブラウザ有するクライアントコンピュータ)を含む、またはこのようなバックエンド、ミドルウェアならびにフロントエンドコンポーネントの任意の組み合わせであるコンピューティングデバイスに実装できる。システムのコンポーネントは、デジタルデータ通信の任意の形態または媒体(例えば、通信ネットワーク)によって相互接続できる。通信ネットワークの例として、ローカルエリアネットワーク(「LAN」)、広域ネットワーク(「WAN」)、およびインターネットが挙げられる。
コンピューティングデバイスは、クライアントおよびサーバを含むことができる。クライアントおよびサーバは一般的に互いから遠隔であり、典型的に通信ネットワークを通じて相互作用する。クライアントとサーバの関係性は、各コンピュータで実行され、互いに対しクライアント対サーバの関係性を持つコンピュータプログラムによって生じる。
いくつかの実施形態が説明された。しかしながら、本発明の思想および範囲から逸脱することなく、様々な改良が行われもよいことが理解されるであろう。
さらに、図に示される論理フローは、希望の結果を実現するために、示されている特定の順序または連番での順序である必要はない。さらに、他のステップが提供されてもよいし、ステップが説明されたフローから削除されてもよく、他のコンポーネントが説明されたシステムに追加または説明されたシステムから削除されてもよい。従って、他の実施形態は以下の特許請求の範囲内にある。
さらに、本発明の実施形態、特に本発明の方法は、農業機械と相互作用し、農業機械を操作、制御および/またはモニタリングするために使用されてもよい。本発明の好適な実施形態として、本発明の方法は、農業機械を操作、制御および/またはモニタリングするための制御信号またはオンオフ信号等の信号を出力するステップをさらに含む。本発明の有利な実施形態として、本発明の方法は、本発明の方法における雑草の識別または植物の識別ステップの結果に応じて、農業機械を操作、制御、および/またはモニタリングするための制御信号またはオンオフ信号等の信号を出力するステップをさらに含む。さらに好適には、特定の雑草が識別された場合、この特定の雑草を対象とする方法で農業機械を操作するための制御またはオンオフ信号が出力され、例えば、この特定の雑草を対象とした除草剤または他の作物保護剤を噴霧もしくは散布するために、または噴霧もしくは散布の準備のために農業機械を操作するための制御信号が出力される。有利には、特定の雑草が識別され、(例えば、雑草の量、雑草体積の量、面積(例えば、ヘクタール)またはこの雑草が識別された地理的位置の数に関する)この特定の雑草に関連する特定の事前定義された閾値を上回る場合、この特定の雑草を対象とした方法で農業機械を操作するための制御またはオンオフ信号が出力される。例えば、この特定の雑草を対象とする除草剤または他の作物保護剤を噴霧もしくは散布するために、または噴霧もしくは散布の準備のために農業機械を操作するための制御信号が出力される。農業機械は、フィールドの植物を処理するための1以上の処理機構を含んでもよい。処理機構には、雑草、病害または昆虫を処理するための化学的、機械的、電気的処理機構またはこのような処理機構の組み合わせが含まれる。農業機械は、検出および制御システムをさらに含んでもよい。検出システムは、スマート機械がフィールドを移動するに合わせて、フィールドの状況において検出するように構成されていてもよい。制御システムは、検出されたフィールドの状況に基づいて処理機構を制御するように構成されていてもよい。
一実施形態では、処理機構は化学処理機構である。このような実施形態の農業機械は、化学薬品または作物保護剤をフィールドに散布するための1以上のノズルを有する噴霧器を含む。
一実施形態では、検出システムは農業機械がフィールドを横断するに合わせてフィールドの状況を検出するための1以上の検出コンポーネントを備える。検出コンポーネントは、フィールドの画像を撮影するカメラ等の光学的検出コンポーネントであってもよい。光学的検出コンポーネントは、例えば、画像記録装置90であってもよい(図1参照)。
さらなる実施形態では、農業機械は1以上の検出コンポーネントに関連する1以上の処理要素を含む。このような実施形態では、検出コンポーネントは駆動方向で見た場合に処置要素の前に配置されてもよい。このようにして、検出コンポーネントはフィールドの状況を感知でき、システムは感知されたフィールドの状況を分析でき、このような分析に基づいて処置要素を制御できる。これにより、農業機械がフィールドを横断している間、処理時に存在するリアルタイムのフィールド状況に基づいた対象を絞った処理が可能になる。
さらなる実施形態では、噴霧器は多数の光学的検出コンポーネントに関連する多数のノズルを含む。このような実施形態では、光学的検出コンポーネントは、駆動方向から見たときにノズルの前に配置される。さらに、光学的検出コンポーネントのそれぞれは、噴霧器がフィールド内を移動する際に、光学的コンポーネントの視野と関連するノズルの噴霧形状が少なくとも部分的に重なるように、ノズルに関連付けられている。
さらなる実施形態では、制御システムは検出システムによって提供されるような感知されたフィールドの状況を分析するように構成されている。このような分析に基づいて、処置機構の位置が分析されたフィールドの位置に達すると、制御システムは処置機構を作動させるための制御信号を生成するようにさらに構成されている。
図6は、分散型コンピュータ環境の一部としてのスマート農業機械210を示す。
スマート農業機械210は、スマート噴霧器であってもよく、接続システム212を含む。
接続システム212は、スマート農業機械210を分散型コンピュータ環境に通信可能に接続するように構成されている。スマート農業機械210で収集されたデータを、分散型コンピュータ環境の1以上のリモートコンピューティングリソース212、214、216に提供するように構成されていてもよい。1つのコンピューティングリソース212、214、216は、スマート農業機械210にデータを送信するように、またはスマート農業機械210からデータを受信するように構成されていてもよいデータ管理システム214であってもよい。例えば、検出マップとして、または散布中に記録されたデータを含む散布マップとして、スマート農業機械10からデータ管理システム214に送信されてもよい。さらなるコンピューティングリソース212、214、216は、制御プロトコル、起動コードもしくは決定ロジックをスマート農業機械210に提供するように、またはスマート農業機械210からデータを受信するように構成されていてもよいフィールド管理システム216であってもよい。このようなデータはまた、データ管理システム214を通して受信さてもよい。さらに、さらなるコンピューティングリソース212、214、216は、フィールド管理システム214および/またはスマート農業機械210からクライアントデータを受信するように構成されていてもよいクライアントコンピュータ216であってもよい。このようなクライアントデータは、例えば、スマート農業機械210を使用して特定のフィールドで実施される予定の散布スケジュール、または特定のフィールドの健康状態に対する見識を提供するためのフィールド分析データを含む。
図7は、スマート噴霧器システムの例を示す。
システムは、除草剤、殺菌剤または殺虫剤等の農薬を散布するための噴霧器220を有するトラクタを備える。噴霧器220は、トラクタに脱着可能に取り付けられていてもよいし、直接的に取り付けられていてもよい。噴霧器220は、噴霧器220のブームに沿って配置されている多数のノズル222を有するブームを備える。ノズル222は、規則的または不規則的な間隔でブームに沿って固定または移動可能に配置されていてもよい。各ノズル222は、ノズル222からフィールドへの流体放出を調整するための制御可能バルブを含む。
1以上のタンク24が、パイプ226を通してノズル222と流体接続されている。各タンク224は、フィールド上に分散される流体混合液の1以上の成分を保持する。これには、除草剤混合物、除草剤混合物の成分、特定の雑草に対する選択的な除草剤、殺菌剤、殺菌剤混合物、殺菌剤と植物成長調整剤混合物、植物成長調整剤、水、油等のような化学的に活性または不活性な成分が含まれていてもよい。各タンク224は、タンク224からパイプ226までの流体放出を調整するための制御可能バルブをさらに備えていてもよい。このような装置は、フィールドに放出される混合液を制御することを可能にする。
さらに、スマート噴霧器システムは、ブームに沿って配置された多数の検出コンポーネント230を有する検出システム228を含む。検出コンポーネント230は、規則的または不規則的な間隔でブームに沿って固定または移動可能に配置されてもよい。検出コンポーネント230は、1以上のフィールドの状況を感知するように構成されている。検出コンポーネント230は、フィールドの画像を提供する光学的検出コンポーネント230であってもよい。適切な光学的検出コンポーネント230は、マルチスペクトルカメラ、ステレオカメラ、IRカメラ、CCDカメラ、ハイパースペクトルカメラ、超音波またはLIDAR(光検出および測距システム)カメラである。代替的にまたは追加的に、検出コンポーネント230は、湿度、光、温度、風またはその他の適切なフィールドの状況を測定するためのセンサを含んでもよい。
検出コンポーネント230は、(駆動方向から見ると)ノズル222の前に配置されている。
図1に示す実施形態では、検出コンポーネント230は光学的検出コンポーネントであり、ノズルが各位置に達すると、視野がフィールド上の各ノズル222の噴霧形状を含むまたは噴霧形状に少なくとも重なるように、各検出コンポーネント230は、単一のノズル222に関連付けられている。他の装置では、各検出コンポーネント30が、1を超えるノズル222に関連付けられてもよいし、1を超える検出コンポーネント30が、各ノズル222に関連付けられてもよい。
検出コンポーネント230、タンクバルブおよびノズルバルブは、制御システム232に通信可能に接続されている。図1に示される実施形態では、制御システム232が、主噴霧器ハウジング内に位置づけられ、各コンポーネントに配線されている。別の実施形態では、検出コンポーネント230、タンクバルブまたはノズルバルブは、制御システム232に無線で接続されていてもよい。さらに別の実施形態では、1を超える制御システム232が噴霧器ハウジングまたはトラクタに分散されていてもよく、検出コンポーネント230、タンクバルブまたはノズルバルブに通信可能に接続されていてもよい。
制御システム232は、制御プロトコルに従って、検出コンポーネント、タンクバルブまたはノズルバルブを制御および/またはモニタリングするように構成されている。この点において、制御システム232は、多数のモジュールを備えてもよい。1つのモジュールは、例えば、検出コンポーネントを制御して、フィールドの画像等のデータを収集する。さらなるモジュールは、画像等の収集されたデータを分析して、タンクまたはノズルバルブ制御のためのパラメータを導き出す。さらに、さらなるモジュールは、このような導き出されたパラメータに基づいてタンクおよび/またはノズルバルブを制御する。
図8は、化学的制御機構を介して雑草、病害または昆虫を制御するためのスマート噴霧器システムのための制御プロトコルを示す。
スマート噴霧器がフィールドでの散布操作を始動すると、スマート噴霧器システムの制御プロトコルがトリガされてもよい。第1ステップ240では、光学的検出コンポーネントがトリガされて、フィールドの画像等のデータを提供する。第2ステップ242では、各光学的検出コンポーネントによって提供された画像等の提供データが、化学制御機構の対象に応じて、雑草、病害または昆虫に関して分析される。本発明のコンテキストにおいては、このような画像は本発明の方法を使用して分析される。第3ステップ244では、このような分析からパラメータが導き出され、タンクおよびノズルバルブのための制御信号が導出および/または出力される。例えば、本発明の方法を使用して特定の雑草が識別された場合、識別された雑草を対象とする特定の除草剤または作物保護剤を噴霧もしくは散布するため、または噴霧もしくは散布の準備のためのタンクおよびノズルバルブの制御信号が導出および/または出力される。第4ステップ246では、このような制御信号が各タンクおよび/またはノズルバルブに提供される。
システム設定のおかげで、各タンクおよびノズルバルブは個別に制御できる。従って、1つの画像のみが雑草の存在を表す場合、その光学検出コンポーネントの視野をカバーする噴霧形状を有する光学検出コンポーネントに関連付けられた各ノズルのみがトリガされる。同様に、多数の画像が雑草の存在を示す場合、本発明の方法を使用した画像分析が行われた後、それらの光学的検出コンポーネントの視野をカバーする噴霧形状を有するそれらの光学的検出コンポーネントに関連する各ノズルがトリガされる。
このような対象を絞った処置に加えて、タンクバルブの制御は、フィールドの光学的検出コンポーネントによって感知される状況に応じて、処置の組成の調整を可能にする。例えば、第1タンクは、第1有効成分組成物を含む第1除草剤を含んでもよく、第2タンクは、第2有効成分組成物を含む第2除草剤を含んでもよい。本発明の方法を使用する画像分析の結果に応じて、第1または第2または両方のタンクのバルブをトリガして、フィールドに散布するために各除草剤を提供してもよい。
他の有利な実施形態では、作物保護剤を散布するための可変レートアプリケーション(VRA)マップが、本発明の方法を使用する画像分析に基づいて生成されてもよく、ここで、これから分析される画像は、例えば、農業機械、無人航空機(例えば、ドローン)または任意の移動可能装置に取り付けられてもよい画像記録装置90を通して得られる。この可変作業適用(VRA)マップは、後に他の農業機械、無人航空機、除草剤または作物保護剤を適用するための移動可能装置によって使用されてもよい。
他の有利な実施形態では、本発明の方法を使用する画像分析は、散布が実施された後、例えば、この散布が実施されてから1日、2日、3日、4日、5日、6日、7日、10日、2週間、3週間、4週間後の例えば、この散布の有効性、適時性および完全性の観点において、除草剤または作物保護剤の散布をモニタリングするためにも使用できる。この画像分析の結果、特に本発明の方法における雑草識別または植物識別のステップの結果に応じて、農業機械を操作、制御および/またはモニタリングするための制御信号またはオンオフ信号等の信号が出力されてもよい。

Claims (21)

  1. トポロジーを有する二重タスク畳み込みニューラルネットワーク(120)を使用して農地で雑草を識別するためのコンピュータに実装される方法(1000)であって、
    前記トポロジーを有する二重タスク畳み込みニューラルネットワーク(120)は、
    テスト入力画像(91)上に存在する雑草種(11、12、13)を判定するにあたって、第1損失関数(LF1)と関連付けられている第1タスクを実行するように構成されている中間モジュール(121)と、
    前記テスト入力画像(91)の画素毎に、前記判定された雑草種を含むクラスを判定するために前記テスト入力画像(91)をセグメント化するにあたって、第2の異なる損失関数(LF2)と関連付けられている第2タスクを実行するように構成されているセマンティック・セグメンテーション・モジュール(122)と、
    を備え、
    前記中間モジュールおよび前記セグメンテーション・モジュールは、前記第1損失関数および前記第2損失関数(LF1、LF2)を考慮して、一緒にトレーニングされ、
    前記方法は、
    圃場における作物種の作物植物と、前記作物植物の間にある1以上の雑草種の雑草植物とを表す画像を含むテスト入力(91)を受信すること(1100)と、
    前記テスト入力画像から前記中間モジュールの入力の形状の次元を有するタイルを抽出すること(1200)と、
    抽出されたタイル毎に、
    前記中間モジュール(121)は、前記各タイルに存在する1以上の雑草種の存在を予測(1300)し、
    前記中間モジュール(121)は、前記第1タスクの出力として前記セグメンテーション・モジュール(122)に対応する中間特性マップ(121-o1)を出力(1400)し、
    前記セグメンテーション・モジュールは、前記中間特性マップからマルチスケール特性およびコンテキスト情報を抽出(1500)し、前記抽出された情報を連結(1600)させて、セマンティック・セグメンテーションを行うことで、前記第2タスクのセグメンテーション出力として雑草種クラス毎にマスクを生成(1700)し、前記マスクは、タイルと同じサイズを有する画像であり、前記マスク上の各画素は、関連づけられたクラスに属する前記画素の確率を表す値に関連付けられており、
    前記生成されたマスクを、特定の雑草種に属しているかどうか、および属している場合、どの雑草種に属しているのかを画素毎に示している最終画像へと組み合わせる(1800)こととを備える方法。
  2. 前記中間モジュールは、分類ニューラルネットワークによって実装される、請求項1に記載の方法。
  3. 前記第1損失関数(FL1)は、各サンプル画素が属する前記クラスに応じて重み付けされる「重み付けバイナリ交差エントロピー」であり、前記中間モジュール(121)は、「シグモイド」を最後の活性化層として使用して、複数のクラスの存在を同時にサポートする、請求項1または2に記載の方法。
  4. 前記中間モジュールは、回帰型ニューラルネットワークによって実装される、請求項1に記載の方法。
  5. 前記第1損失関数(FL1)は、「平均二乗誤差」または「平均誤差」であり、前記中間モジュール(121)は、「線形」または「シグモイド」を最後の活性化層として使用して、複数のクラスの存在の検出を同時にサポートする、請求項4に記載の方法。
  6. 前記セグメンテーション・モジュールに関連付けられている前記第2損失関数(FL2)は、「重み付けカテゴリ交差エントロピー」である、請求項1から5のいずれか一項に記載の方法。
  7. 前記中間モジュールを前記セグメンテーション・モジュールと一緒にトレーニングするために使用される画像トレーニングデータセットは、
    作物種(10)の作物植物と、前記作物植物の間にある1以上の雑草種(11、12、13)の雑草植物とを有する圃場内の実際の状況を表す画像(41-a)を有し、トレーニング画像の前記画素が属する種を示す手動画素アノテーション(41-1、41-2、41-3)を有する第1データサブセット、並びに
    土壌の背景画像に貼り付けられる、各単一植物画像が単一種の植物を表す単一植物画像から得られる異なる雑草種の複数の雑草植物を表す画像(42-a)を有し、単一雑草種に属する前記画素の自動アノテーション(42-1、42-3、42-4)を有する第2データサブセット、及び
    単一雑草種の複数の雑草植物を表す画像(43-a)を有し、前記単一雑草種に属する前記画素の自動アノテーション(42-3、43-1、43-4)を有する第3データサブセット、
    の少なくとも1つと、
    を備える、請求項1から6のいずれか一項に記載の方法。
  8. 前記セグメンテーション・モジュール(122)は、ピラミッドプーリングモジュールにより実装される、請求項1から7のいずれか一項に記載の方法。
  9. 前記ピラミッドプーリングモジュールは、PSPNetトポロジーに基づく、請求項8に記載の方法。
  10. 前記ピラミッドプーリングモジュールは、前記中間特性マップ(121o1)をスキャンし、マルチスケール特性検出のための4つの配列を作成して、異なるスケールとサイズの情報を統合する異なる受容野を有する4つの分離したフィルタ(122-2)を備える、請求項8または9に記載の方法。
  11. 前記ピラミッドプーリングモジュールは、各配列の画像サイズを、バイリニア補間法を使用して、前記中間特性マップ(121o1)の前記サイズに復元するように構成されている複数のアップサンプリング層をさらに備える、請求項10に記載の方法。
  12. 前記ピラミッドプーリングモジュールは、前記4つの分離したフィルタからコンテキスト情報を抽出し、前記コンテキスト情報を異なるスケールとサイズの情報と結合させて、前記中間特性マップ(121-o1)と同じサイズの最終特性マップ(122-4o)を生成するように構成されている畳み込み層(122-4)をさらに備える、請求項11に記載の方法。
  13. 前記ピラミッドプーリングモジュールは、最後の活性化層「softmax」を有する前記生成されたマスクとして、最終的な画素単位の予測を計算する全結合層(122-5)をさらに備える、請求項12に記載の方法。
  14. 特定の雑草が識別された場合、農業機械を操作、制御および/またはモニタリングするための信号を出力することをさらに備え、
    前記信号は、前記特定の雑草を対象とした除草剤または他の作物保護剤を噴霧または散布することをトリガするように構成されている、請求項1から13のいずれか一項に記載の方法。
  15. コンピューティングデバイスのメモリにロードされて、前記コンピューティングデバイスの少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項1から14のいずれか一項に記載の前記コンピュータに実装される方法のステップを実行させる、農地において雑草を識別するためのコンピュータプログラム製品。
  16. メモリと、少なくとも1つのプロセッサとを備えるコンピュータシステムであって、少なくとも1つのプロセッサによって実行されると、前記コンピュータシステムに請求項1から14のいずれか一項に記載の前記コンピュータに実装される方法のステップを実行させるソフトウェアモジュールをさらに備える、農地において雑草を識別するためのコンピュータシステム。
  17. トポロジーを有する二重タスク畳み込みニューラルネットワーク(120)を使用して圃場で植物種を識別するためのコンピュータに実装される方法(1000)であって、
    前記トポロジーを有する二重タスク畳み込みニューラルネットワーク(120)は、
    テスト入力画像(91)上に存在する植物種(11、12、13)を判定するにあたって、第1損失関数(LF1)と関連付けられている第1タスクを実行するように構成されている中間モジュール(121)と、
    前記テスト入力画像(91)の画素毎に、前記判定された植物種を含むクラスを判定するために前記テスト入力画像(91)をセグメント化するにあたって、第2の異なる損失関数(LF2)と関連付けられている第2タスクを実行するように構成されているセマンティック・セグメンテーション・モジュール(122)と、
    を備え、
    前記中間モジュールおよび前記セグメンテーション・モジュールは、前記第1損失関数および前記第2損失関数(LF1、LF2)を考慮して、一緒にトレーニングされ、
    前記方法は、
    圃場における複数の植物種の植物を表す画像を含むテスト入力(91)を受信すること(1100)と、
    前記テスト入力画像から前記中間モジュールの入力の形状の次元を有するタイルを抽出すること(1200)と、
    抽出されたタイル毎に、
    前記中間モジュール(121)は、前記各タイルに存在する1以上の植物種の存在を予測(1300)し、
    前記中間モジュール(121)は、前記第1タスクの出力として前記セグメンテーション・モジュール(122)に対応する中間特性マップ(121-o1)を出力(1400)し、
    前記セグメンテーション・モジュールは、前記中間特性マップからマルチスケール特性およびコンテキスト情報を抽出(1500)し、前記抽出された情報を連結(1600)させて、セマンティック・セグメンテーションを行うことで、前記第2タスクのセグメンテーション出力として植物種クラス毎にマスクを生成(1700)し、前記マスクは、タイルと同じサイズを有する画像であり、ここで前記マスク上の各画素は、関連づけられたクラスに属する前記画素の確率を表す値に関連付けられており、
    前記生成されたマスクを、特定の植物種に属しているかどうか、および属している場合、どの植物種に属しているのかを画素毎に示している最終画像へと組み合わせる(1800)こととを備える方法。
  18. 特定の雑草が識別された場合、農業機械を操作、制御および/またはモニタリングするための信号を出力することをさらに備え、
    前記信号は前記特定の雑草を対象とした除草剤または他の作物保護剤を噴霧または散布することをトリガするように構成されている、請求項17記載の方法。
  19. トポロジーを有する二重タスク畳み込みニューラルネットワーク(120)を使用して圃場で植物種と植物果実を識別するためのコンピュータに実装される方法であって、
    前記トポロジーを有する二重タスク畳み込みニューラルネットワーク(120)は、
    テスト入力画像(91)上に存在する植物種(11、12、13)と各植物種(12)の植物果実(12f)を判定するにあたって、第1損失関数(LF1)と関連付けられている第1タスクを実行するように構成されている中間モジュール(121)と、
    前記テスト入力画像(91)の画素毎に、前記判定された植物種と植物果実とを含むクラスを判定するために前記テスト入力画像(91)をセグメント化するにあたって、第2の異なる損失関数(LF2)と関連付けられている第2タスクを実行するように構成されているセマンティック・セグメンテーション・モジュール(122)と、
    を備え、
    前記中間モジュールおよび前記セグメンテーション・モジュールは、前記第1損失関数および前記第2損失関数(LF1、LF2)を考慮して、一緒にトレーニングされ、
    前記方法は、
    植物果実を持つ少なくとも1つの植物を有する圃場における複数の植物種の植物を表す画像を含むテスト入力(91)を受信することと、
    前記テスト入力画像から前記中間モジュールの入力の形状の次元を有するタイルを抽出することと、
    抽出されたタイル毎に、
    前記中間モジュール(121)は、前記各タイルに存在する1以上の植物種と各植物種の植物果実の存在を予測し、
    前記中間モジュール(121)は、前記第1タスクの出力として前記セグメンテーション・モジュール(122)に対応する中間特性マップ(121-o1)を出力(1400)し、
    前記セグメンテーション・モジュールは、前記中間特性マップからマルチスケール特性およびコンテキスト情報を抽出し、前記抽出された情報を連結させて、セマンティック・セグメンテーションを行うことで、前記第2タスクのセグメンテーション出力として植物種クラスと植物果実クラス毎にマスクを生成し、前記マスクは、タイルと同じサイズを有する画像であり、ここで前記マスク上の各画素は、関連づけられたクラスに属する前記画素の確率を表す値に関連付けられており、
    前記生成されたマスクを、特定の植物種または特定の植物果実クラスに属しているかどうか、および属している場合、どの植物種または特定の植物果実クラスに属しているのかを画素毎に示している最終画像へと組み合わせることとを備える方法。
  20. 前記圃場で栽培される作物に関連付けられている特定の植物果実クラスに属する画素の数を判定することと、
    前記特定の植物果実クラスに属する画素の数の対応する作物植物種に属する画素の数との比率を推定することと、
    をさらに備える、請求項19記載の方法。
  21. 特定の雑草が識別された場合、農業機械を操作、制御および/またはモニタリングするための信号を出力することをさらに備え、
    前記信号は前記特定の雑草を対象とした除草剤または他の作物保護剤を噴霧または散布することをトリガするように構成されている、請求項19および20記載の方法。
JP2022513875A 2019-09-05 2020-09-03 植物種の識別のためのシステムおよび方法 Pending JP2022546998A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19195608 2019-09-05
EP19195608.5 2019-09-05
PCT/EP2020/074600 WO2021043904A1 (en) 2019-09-05 2020-09-03 System and method for identification of plant species

Publications (2)

Publication Number Publication Date
JP2022546998A true JP2022546998A (ja) 2022-11-10
JPWO2021043904A5 JPWO2021043904A5 (ja) 2023-09-11

Family

ID=67874336

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022513875A Pending JP2022546998A (ja) 2019-09-05 2020-09-03 植物種の識別のためのシステムおよび方法

Country Status (8)

Country Link
US (1) US20220327815A1 (ja)
EP (1) EP4025047A1 (ja)
JP (1) JP2022546998A (ja)
CN (1) CN114341948A (ja)
AR (1) AR119901A1 (ja)
BR (1) BR112022002385A2 (ja)
CA (1) CA3148726A1 (ja)
WO (1) WO2021043904A1 (ja)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11589509B2 (en) 2018-10-26 2023-02-28 Deere & Company Predictive machine characteristic map generation and control system
US11957072B2 (en) 2020-02-06 2024-04-16 Deere & Company Pre-emergence weed detection and mitigation system
US11672203B2 (en) 2018-10-26 2023-06-13 Deere & Company Predictive map generation and control
US11641800B2 (en) 2020-02-06 2023-05-09 Deere & Company Agricultural harvesting machine with pre-emergence weed detection and mitigation system
WO2020163539A1 (en) * 2019-02-05 2020-08-13 University Of Virginia Patent Foundation System and method for fully automatic lv segmentation of myocardial first-pass perfusion images
CN111325240A (zh) * 2020-01-23 2020-06-23 杭州睿琪软件有限公司 与杂草相关的计算机可执行的方法和计算机系统
US20210243936A1 (en) * 2020-02-06 2021-08-12 Deere & Company Predictive weed map generation and control system
US20210243951A1 (en) * 2020-02-06 2021-08-12 Deere & Company Machine control using a predictive map
CN113807143A (zh) * 2020-06-12 2021-12-17 广州极飞科技股份有限公司 作物连通域的识别方法、装置及作业系统
US20220148189A1 (en) * 2020-11-10 2022-05-12 Nec Laboratories America, Inc. Multi-domain semantic segmentation with label shifts
BR112023020248A2 (pt) * 2021-03-31 2023-12-19 Upl Ltd Sistema e método para identificar ervas daninhas
CN113781306B (zh) * 2021-09-09 2024-03-08 西北工业大学 基于双阶段策略的高光谱图像超分辨率重建方法
US20230090714A1 (en) * 2021-09-23 2023-03-23 Cnh Industrial America Llc System and method for performing spraying operations with an agricultural applicator
EP4165987A1 (en) * 2021-10-18 2023-04-19 Bilberry SAS Plant treatment system with plant recognition
AU2022377124A1 (en) * 2021-10-26 2024-05-09 Basf Agro Trademarks Gmbh Monitoring the treatment of an agricultural field
US20230186623A1 (en) * 2021-12-14 2023-06-15 Ping An Technology (Shenzhen) Co., Ltd. Systems and methods for crop disease diagnosis
BR102022006844A2 (pt) * 2022-04-08 2022-11-29 Eirene Projetos E Consultoria Ltda Sistema, dispositivo e método para identificação de plantas e controle de pulverização
WO2023230292A1 (en) * 2022-05-26 2023-11-30 farm-ng Inc. Image segmentation for row following and associated training system
NL2032111B1 (en) * 2022-06-09 2023-12-18 Look E B V A method of real-time controlling a remote device, and training a learning algorithm
CN115104468A (zh) * 2022-06-22 2022-09-27 杨粉莉 一种果园生草的抑制生长方法
CN115413550B (zh) * 2022-11-07 2023-03-14 中化现代农业有限公司 甜菜植保方法及甜菜植保设备
CN115880574B (zh) * 2023-03-02 2023-06-16 吉林大学 一种水下光学图像轻量化目标识别方法、设备和介质
CN117274566B (zh) * 2023-09-25 2024-04-26 北京工业大学 一种基于深度学习和株间杂草分布状况的实时除草方法
CN117115668B (zh) * 2023-10-23 2024-01-26 安徽农业大学 一种作物冠层表型信息提取方法、电子设备及存储介质
CN117357928B (zh) * 2023-12-08 2024-04-12 广州泽力医药科技有限公司 一种基于物联网的植物提取方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3244343A1 (en) * 2016-05-12 2017-11-15 Bayer Cropscience AG Recognition of weed in a natural environment
WO2018208947A1 (en) * 2017-05-09 2018-11-15 Blue River Technology Inc. Automated plant detection using image data
KR102463175B1 (ko) * 2017-09-04 2022-11-04 삼성전자주식회사 객체 인식 방법 및 장치
CN109711448A (zh) * 2018-12-19 2019-05-03 华东理工大学 基于判别关键域和深度学习的植物图像细粒度分类方法
US10373317B1 (en) * 2019-01-22 2019-08-06 StradVision, Inc. Learning method and learning device for attention-driven image segmentation by using at least one adaptive loss weight map to be used for updating HD maps required to satisfy level 4 of autonomous vehicles and testing method and testing device using the same

Also Published As

Publication number Publication date
BR112022002385A2 (pt) 2022-04-26
EP4025047A1 (en) 2022-07-13
CA3148726A1 (en) 2021-03-11
WO2021043904A1 (en) 2021-03-11
AR119901A1 (es) 2022-01-19
US20220327815A1 (en) 2022-10-13
CN114341948A (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
JP2022546998A (ja) 植物種の識別のためのシステムおよび方法
Saranya et al. A comparative study of deep learning and Internet of Things for precision agriculture
Mavridou et al. Machine vision systems in precision agriculture for crop farming
Chandra et al. Computer vision with deep learning for plant phenotyping in agriculture: A survey
Boissard et al. A cognitive vision approach to early pest detection in greenhouse crops
Dutta et al. Application of agricultural drones and IoT to understand food supply chain during post COVID‐19
Lippi et al. A yolo-based pest detection system for precision agriculture
Peng et al. Weed detection in paddy field using an improved RetinaNet network
Alibabaei et al. A review of the challenges of using deep learning algorithms to support decision-making in agricultural activities
Ajayi et al. Effect of varying training epochs of a faster region-based convolutional neural network on the accuracy of an automatic weed classification scheme
Mohidem et al. How can unmanned aerial vehicles be used for detecting weeds in agricultural fields?
Genze et al. Deep learning-based early weed segmentation using motion blurred UAV images of sorghum fields
Singh et al. A systematic review of artificial intelligence in agriculture
Farjon et al. Deep-learning-based counting methods, datasets, and applications in agriculture: A review
Amaral et al. UAV applications in Agriculture 4.0
Xu et al. Instance segmentation method for weed detection using UAV imagery in soybean fields
Zualkernan et al. Machine Learning for Precision Agriculture Using Imagery from Unmanned Aerial Vehicles (UAVs): A Survey
Olsen Improving the accuracy of weed species detection for robotic weed control in complex real-time environments
Hobbs et al. Large-scale counting and localization of pineapple inflorescence through deep density-estimation
Ali et al. AI-Based UAV Swarms for Monitoring and Disease Identification of Brassica Plants Using Machine Learning: A Review.
Kumar et al. A novel CNN gap layer for growth prediction of palm tree plantlings
Gao et al. Cross-domain transfer learning for weed segmentation and mapping in precision farming using ground and UAV images
Gao et al. Transferring learned patterns from ground-based field imagery to predict UAV-based imagery for crop and weed semantic segmentation in precision crop farming
Sassu Machine learning and Unmanned Aerial Systems for crop monitoring and agrochemicals distribution optimization in orchard and horticultural systems
Qu et al. Deep Learning-Based Weed–Crop Recognition for Smart Agricultural Equipment: A Review

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230901

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230901

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240520