JP2022546998A

JP2022546998A - 植物種の識別のためのシステムおよび方法

Info

Publication number: JP2022546998A
Application number: JP2022513875A
Authority: JP
Inventors: ルイス，アーツァイピコン; デラプエルタ，ミゲルリナレス; クルカス，クリスチャン; エガース，ティル; オバースト，ライナー; ガラルド，フアンマヌエルコントレーラス; ロドリゲス，ハビエルロメロ; カイリーショディーガッド，ヒカル; クラメール，ゲルド; ユゲー，ジョーンエチャザーラ; ナバッラ－メストレ，レイモン; サンエメテリオ，ミゲルゴンザレス
Original assignee: BASF SE
Current assignee: BASF SE
Priority date: 2019-09-05
Filing date: 2020-09-03
Publication date: 2022-11-10
Also published as: BR112022002385A2; EP4025047A1; CA3148726A1; WO2021043904A1; AR119901A1; US20220327815A1; CN114341948A

Abstract

トポロジーを有する二重タスク畳み込みニューラルネットワーク（１２０）を使用して農地で雑草を識別するためのコンピュータに実装される方法、コンピュータプログラム製品およびコンピュータシステム（１００）であって、トポロジーを有する二重タスク畳み込みニューラルネットワーク（１２０）は、第１損失関数（ＬＦ１）と関連付けられている分類タスクを実行する中間モジュール（１２１）と、第２の異なる損失関数（ＬＦ２）と関連付けられているセグメンテーションタスクを実行するセマンティック・セグメンテーション・モジュール（１２２）とを備える。中間モジュールおよびセグメンテーション・モジュールは、第１および第２損失関数（ＬＦ１、ＬＦ２）を考慮して、一緒にトレーニングされている。システムは、圃場における作物種の作物植物と、作物植物の間にある１以上の雑草種の雑草植物とを表す画像を含むテスト入力（９１）を受信することと、各タイルに存在する１以上の雑草種（１１、１２、１３）の存在を予測することと、分類タスクの出力としてセグメンテーション・モジュールに対応する中間特性マップを出力することと、中間特性マップからマルチスケール特性およびコンテキスト情報を抽出し、抽出された情報を連結させて、セマンティック・セグメンテーションを行うことで、第２タスクのセグメンテーション出力として雑草種クラス毎にマスクを生成することと、特定の雑草種に属しているかどうか、および属している場合、どの雑草種に属しているのかを画素毎に示している最終画像（９２）を生成することとを備える方法を実行する。【選択図】図１

Description

本発明は、全体として電子データ処理に関し、より具体的には、圃場において雑草を識別するための画像処理方法、コンピュータプログラム製品およびシステムに関する。

農地に雑草群落が存在することは悪影響がある（Ｈ．ファンヘームスト（Ｈ．ｖａｎＨｅｅｍｓｔ）、「収穫量への雑草競合の影響（Ｔｈｅｉｎｆｌｕｅｎｃｅｏｆｗｅｅｄｃｏｍｐｅｔｉｔｉｏｎｏｎｃｒｏｐｙｉｅｌｄ）」、農業システム（ＡｇｒｉｃｕｌｔｕｒａｌＳｙｓｔｅｍｓ）、１８巻、第２号、８１～９３ページ、１９８５年、参照）。この文書の文脈における雑草は、フィールドで栽培される作物とは異なる、フィールドに育つあらゆる植物に関する。研究により２つの主たる理由、競合および植物健康の問題が特定されている。特定の植物種（例えば、雑草）は、土壌、栄養および日光を求めて作物と争い、作物の成長をより遅くし、より少なくする。また、雑草には害虫や病害の宿主であるものもある。これに関して、農業従事者は除草剤を使用して雑草群の駆除または制限を行う。

以下の表には、雑草とそれらの各ＥＰＰＯコードの例がいくつか含まれている。
表１：雑草例

このように、近年、農業は１つの複雑な課題に直面している。入手可能な資源の最適化を確保して食糧収量を最適化し、環境への影響を最小化する必要性である。雑草の制御を例に挙げると、農業従事者は通常、異なる雑草には、他とは異なる密度、成長速度および成長段階があるという事実を無視して、表面あたり同量の除草剤を散布する。しかしながら、生物学的な研究によると、異なるタイプおよび比率の除草剤を使用することで、製品の有効性を最適化し、より良い作物生育が実現され、環境に対する化学物質の堆積を減少させることがわかっている。早期の雑草の識別は、植物衛生製品の使用にあたり、最適化と性能向上を可能にし、集中的な除草剤の使用を少なくすることおよびより特定された除草剤の使用へと導く。

新たな技術によって、雑草が存在する領域のみに正確な量の除草剤を散布することが記載されている、場所特有の雑草管理（ＳｉｔｅＳｐｅｃｉｆｉｃＷｅｅｄＭａｎａｇｅｍｅｎｔ）（ＳＳＷＭ）（Ｌ．ティエン（Ｌ．Ｔｉａｎ）、Ｊ．Ｆ．リード（Ｊ．Ｆ．Ｒｅｉｄ）およびＪ．Ｗ．ヒュンメル（Ｊ．Ｗ．Ｈｕｍｍｅｌ）、「場所特有の雑草管理のための精密噴霧器の開発（Ｄｅｖｅｌｏｐｍｅｎｔｏｆａｐｒｅｃｉｓｉｏｎｓｐｒａｙｅｒｆｏｒｓｉｔｅ－ｓｐｅｃｉｆｉｃｗｅｅｄｍａｎａｇｅｍｅｎｔ）」、ＡＳＡＥのトランザクション、４２巻、第４号、８９３ページ、１９９９年、参照）がもたらされた。ＳＳＷＭは、最適に噴霧することにより除草剤の使用を大幅に減少させる。ＳＳＷＭを適用する際の２つの重大なタスクとしては、雑草と作物との正確な区別および適切な雑草の定量化と段階分けとを実現させることである。その問題に取り組む従来の方法は、画像上で植物を手作業でセグメント化することだが、これには非常に多くの時間がかかる。

さらに近年では、畳み込みニューラルネットワーク（ＣＮＮ）に基づく機械学習技術が導入されている。ＣＮＮは農業において多くの用途があるが、雑草の定量化はまだ満足のいくレベルで解決されていない。トレーニング済み標準化ＣＮＮに基づいて圃場における雑草識別のためのセマンティック・セグメンテーションは、ドメインの違いにより、植物画像データセットには十分に機能しない。セマンティック・セグメンテーションとは、画像を画素レベルで理解すること、すなわち、画像内の各画素にオブジェクトクラスを割り当てることを意味する。加えて、視覚的な差がほとんど全くない植物をセグメント化する本質的な複雑さによって、農業従事者が十分な正確性をもって雑草識別の問題を解決するために標準化ＣＮＮトポロジーをうまく適用することが阻止されている。

モーテンセン（Ｍｏｒｔｅｎｓｅｎ）他は、深層学習を使用して作物および雑草のセマンティック・セグメンテーションに対する研究（Ａ．Ｋ．モーテンセン（Ａ．Ｋ．Ｍｏｒｔｅｎｓｅｎ）、Ｍ．ディルマン（Ｍ．Ｄｙｒｍａｎｎ）、Ｈ．カーストフト（Ｈ．Ｋａｒｓｔｏｆｔ）、Ｒ．Ｎ．ヨルゲンセン（Ｒ．Ｎ．Ｊｏｒｇｅｎｓｅｎ）、Ｒ．ギスラム（Ｒ．Ｇｉｓｌｕｍ）他、「深層畳み込みニューラルネットワークを使用した混合作物のセマンティック・セグメンテーション（Ｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎｏｆｍｉｘｅｄｃｒｏｐｓｕｓｉｎｇｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）」、ＣＩＧＲ－ＡｇＥｎｇ会議、２０１６年６月２６～２９日、オーフス、デンマーク。要約および原著論文、１～６ページ、組織委員会、ＣＩＧＲ２０１６、２０１６年、参照）を提示し、ここで彼らは異なる作物種のセマンティック・セグメンテーションにおいて７９％の画素精度を得た。後に、彼らは、９４％のすばらしい画素精度で、実際のケースにおいて画素に正しく「トウモロコシ」または「雑草」とラベル付けしてトウモロコシ作物を２３の異なる雑草種から区別できた（Ｍ．ディルマン（Ｍ．Ｄｙｒｍａｎｎ）、Ａ．Ｋ．モーテンセン（Ａ．Ｋ．Ｍｏｒｔｅｎｓｅｎ）、Ｈ．Ｓ．ミッディビー（Ｈ．Ｓ．Ｍｉｄｔｉｂｙ）、Ｒ．Ｎ．ヨルゲンセン（Ｒ．Ｎ．Ｊｏｒｇｅｎｓｅｎ）他、「完全畳み込みニューラルネットワーク使用による画像での雑草と作物との画素単位の分類（Ｐｉｘｅｌ－ｗｉｓｅｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｗｅｅｄｓａｎｄｃｒｏｐｓｉｎｉｍａｇｅｓｂｙｕｓｉｎｇａｆｕｌｌｙｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）」、農業工学に関する国際会議のトランザクション、オーフス、デンマーク、２６～２９ページ、２０１６年）。他の著者は、より良好なセグメンテーションにつながり得る新たなアーキテクチャおよび方法を見つけるべく、深層ＣＮＮを使用した作物と雑草とのセマンティック・セグメンテーションを研究した。２０１８年に、サ（Ｓａ）他（Ｉ．サ（Ｉ．Ｓａ）、Ｚ．チェン（Ｚ．Ｃｈｅｎ）、Ｍ．ポポビッチ（Ｍ．Ｐｏｐｏｖｉｃ）、Ｒ．カンナー（Ｒ．Ｋｈａｎｎａ）、Ｆ．リービッシュ（Ｆ．Ｌｉｅｂｉｓｃｈ）、Ｊ．ニエト（Ｊ．Ｎｉｅｔｏ）およびＲ．ジークヴァルト（Ｒ．Ｓｉｅｇｗａｒｔ）、「ウィードネット：多重スペクトル画像を使用した高密度なセマンティック雑草分類およびスマート農業のための超小型無人飛行機（ｗｅｅｄｎｅｔ：Ｄｅｎｓｅｓｅｍａｎｔｉｃｗｅｅｄｃｌａｓｓｉｆｉｃａｔｉｏｎｕｓｉｎｇｍｕｌｔｉｓｐｅｃｔｒａｌｉｍａｇｅｓａｎｄｍａｖｆｏｒｓｍａｒｔｆａｒｍｉｎｇ）」、ＩＥＥＥロボティクスおよびオートメーションレターズ（ＩＥＥＥＲｏｂｏｔｉｃｓａｎｄＡｕｔｏｍａｔｉｏｎＬｅｔｔｅｒｓ）、３巻、第１号、５８８～５９５ページ、２０１８年、参照）は、ウィードネットと呼ばれる彼らの改良型ＶＧＧ－１６で作物と雑草とをセグメント化することにおいて８０％のＦ１スコアを得て、ミリオト他（Ａ．ミリオト（Ａ．Ｍｉｌｉｏｔｏ）、Ｐ．ロッテス（Ｐ．Ｌｏｔｔｅｓ）およびＣ．スタックニス（Ｃ．Ｓｔａｃｈｎｉｓｓ）、「ｃｎｎにおける背景知識を活用した精密農業ロボットのための作物および雑草のリアルタイムセマンティック・セグメンテーション（ｒｅａｌ－ｔｉｍｅｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎｏｆｃｒｏｐａｎｄｗｅｅｄｆｏｒｐｒｅｃｉｓｉｏｎａｇｒｉｃｕｌｔｕｒｅｒｏｂｏｔｓｌｅｖｅｒａｇｉｎｇｂａｃｋｇｒｏｕｎｄｋｎｏｗｌｅｄｇｅｉｎｃｎｎ）」、２０１８年ロボティクスおよびオートメーションに関するＩＥＥＥ国際会議（ＩＣＲＡ）（２０１８ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＲｏｂｏｔｉｃｓａｎｄＡｕｔｏｍａｔｉｏｎ）、２２２９～２２３５ページ、ＩＥＥＥ、２０１８年、参照）は、作物、雑草および土壌の画素単位の分類で８０．８％のｍＩｏＵを達成した。このような先行技術研究は、作物に注目し、全ての雑草種を（分類の観点から）単一のクラスとして捉えている。このような先行技術の方法で得られた画素精度は、フィールドを保護する活動を最適化しようとする農業従事者を十分にサポートするにはまだ満足のいくレベルではない。

そのため、植物種の識別のために改善した画像解析機能を持つシステムおよび方法を提供する必要がある。その結果、本明細書中で使用される植物種識別は、特定の植物種、例えば圃場で作物と競合する雑草種に属する植物の体積定量化の問題に関する。すなわち、植物種識別ステップの結果は、圃場にどの植物種が存在するかおよび特定の種の植物が正確にどこで見つかるのかに関する情報である。さらに、例えば、植物の茎、葉、果実等の各植物の異なる部分の存在および体積に関する付加情報を得ることに関心がある。例えば、特定の植物種の植物要素（例えば、果実）に関してより高い粒度を持つこのような情報は、特定の予想される種子の数のおかげで、圃場によって提供される潜在的な収穫量に関してまたは特定の雑草が急速に広がり得るリスクに関してさえも役立つ情報を提供できる。

雑草体積の定量化の問題は、ＣＮＮトポロジーを使用したセマンティック・セグメンテーション技術の適用により解決され、その結果、例えば、標準ＰＳＰＮｅｔ等の公知のセグメンテーションアプローチによって達成できるものよりも高い画素精度を雑草のセグメンテーションにおいて得られる。

本発明の実施形態は、作物畑における植物種を識別するためのコンピュータに実装される方法と、コンピュータシステムのメモリに記憶され、コンピュータシステムの１以上のプロセッサによって実行される場合に、１以上のプロセッサに方法を実行させるコンピュータ可読命令を有するコンピュータプログラム製品とを備える。さらなる実施形態は、コンピュータに実装される方法を実行するように構成されているコンピュータシステムに関する（例えば、前述のコンピュータプログラム製品の実行時）。

作物畑における植物種を識別するためのコンピュータに実装される方法は、本明細書で二重タスクＣＮＮと呼ばれる特定の畳み込みニューラルネットワークを使用する。二重タスクＣＮＮは、２つの異なるタスクを行うように構成されているトポロジーを有する。各タスクはその関連する損失関数に関連付けられており、二重タスクＣＮＮ全体は、２つの（異なる）損失関数を考慮してトレーニングされる。このアプローチでは、第１タスク（中間モジュールによって行われる分類タスク）が第２タスク（二重タスクＣＮＮのセマンティック・セグメンテーション・モジュールによって行われるセグメンテーションタスク）をガイドして、植物種のセグメンテーション結果の全体的な精度の向上に導く。セマンティック・セグメンテーション・モジュールは、本明細書において「セグメンテーション・モジュール」とも呼ばれる。

二重タスクＣＮＮの中間モジュールは、テスト入力画像上に存在する植物種を判定するにあたって第１タスクを実行する。その結果、第１タスクは第１損失関数に関連付けられる。植物種の判定は、分類タスクに対応する。従って、中間モジュールは、分類ニューラルネットワークまたは回帰型ニューラルネットワーク（例えば、ＲＥＳＮＥＴ５０畳み込みニューラルネットワーク等のＲＥＳＮＥＴ＊バックボーンを使用する残差ネットワークに基づくもの）によって実装できる。分類ニューラルネットワーク（すなわち、分類タスクを行うように構成されているニューラルネットワーク）を使用する場合、出力は、例えば、作物や雑草植物を表す特定の画像にどの植物種が存在するのかに関する情報である。加えて、回帰型ニューラルネットワークを使用する場合、存在する植物種の比率に関する情報が提供される。両方のＣＮＮタイプとも、作物と雑草植物を有するテスト入力画像に存在している植物種に関する情報を提供する。

分類ニューラルネットワークが中間モジュールとして使用される場合、第１損失関数は、有利には、属するクラスに応じて各サンプル（画素）が重み付けされる「重み付けバイナリ交差エントロピー」である。中間モジュールは、複数のクラスの存在を同時にサポートするために、最後の活性化層として「シグモイド」を使用する。例えば、テスト入力画像の分析されたセクション（すなわち、画像のタイル）には、トウモロコシ植物、異なる雑草種の雑草植物および土壌に属する画素が同時に含まれていてもよい。シグモイド活性化層は、テキスト入力画像上のさまざまなクラスの存在に関する予測を立てる際に、このような複数のクラスを同時に処理できる。

バイナリ交差エントロピーおよびカテゴリ交差エントロピーは、この分野の専門家には既知である。以下の重み付けカテゴリ交差エントロピーは、カテゴリ交差エントロピーと同様だが、重み付けｗ_ｃが追加されている。

ｙ_ｏ，ｃは、ターゲットクラスが画素に属しているかを表し、

は本方法によって予測された値である。バイナリ交差エントロピーと重み付けバイナリ交差エントロピーにも同様が適用される。選択された重み付け値ｗ_ｃの範囲は０から１０００の間であることができる。例えば、重み付け値は、専門家によってアノテーションされていない画素には０であることができる。アノテーションされている画素の場合、適切な重み付けは、データセット上の画素クラスの割合の逆数になり得る。

中間モジュールが回帰型ニューラルネットワークによって実装される場合、第１損失関数は、有利には「平均二乗誤差」または「平均誤差」である。中間モジュールは、複数のクラスの存在を同時にサポートするために、最後の活性化層として「線形」または「シグモイド」を使用してもよい。

二重タスクＣＮＮのセグメンテーション・モジュールは、テスト入力画像をセグメント化するにあたって第２タスクを行い、テスト入力画像の画素毎にクラスを判定する。クラスは、判定された植物種を含む。第２タスクは、第１損失関数とは異なる第２損失関数に関連付けられている。有利には、第２損失関数は「重み付けカテゴリ交差エントロピー」である。例えば、セグメンテーション・モジュールは、（例えば、ＰＳＰＮｅｔ、ＤｅｅｐＬａｂまたは区分的トポロジーに基づく）ピラミッドプーリングモジュールによって実装されてもよい。

言い換えれば、二重タスクＣＮＮによって行われる各タスクは、それ自体の損失関数に基づいて最適化される。しかしながら、中間モジュールおよびセグメンテーション・モジュールは、第１および第２損失関数を考慮して一緒にトレーニングされている。２つの異なる損失関数を有する２つのモジュールのこの共同トレーニングは、中間モジュールのトレーニングがセグメンテーション・モジュールのトレーニングによって影響され、またその逆も起こり、最終的なセグメンテーション結果の画素精度の向上に導く影響を持っている。セマンティック・セグメンテーションのための伝統的なＰＳＰＮｅｔのトレーニング（Ｈ．ザオ（Ｈ．Ｚｈａｏ）、Ｊ．シー（Ｊ．Ｓｈｉ）、Ｘ．チー（Ｘ．Ｑｉ）、Ｘ．ワン（Ｘ．Ｗａｎｇ）およびＪ．ジア（Ｊ．Ｊｉａ）、「ピラミッドシーン解析ネットワーク（Ｐｙｒａｍｉｄｓｃｅｎｅｐａｒｓｉｎｇｎｅｔｗｏｒｋ）」、コンピュータビジョンおよびパターン認識に関するＩＥＥＥ会議のトランザクション（ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥｃｏｎｆｅｒｅｎｃｅｏｎｃｏｍｐｕｔｅｒｖｉｓｉｏｎａｎｄｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎ）、２８８１～２８９０ページ、２０１７年、参照）は、中間セグメンテーション損失を使用した監視によって初期結果を生成し、第２ステップがその後の残差を最終的な損失とともに学習する２段階のトレーニングステップに依存する。このように、深層学習ニューラルネットワークの最適化は、解決がより単純である各最適化タスクを有する２つの最適化タスクに分解される。しかしながら、このアプローチは良い結果をもたらし得るが、第１（中間）損失からの学習は、第２（最終的）損失のあるネットワークでトレーニングしている間に消える。伝統的なＰＳＰＮｅｔをセマティック・セグメンテーションに使用すると実現できる利点があるにもかかわらず、分析された画像の画素の数パーセントにしか存在しないクラスを抽出する能力が欠落している。この問題は、（セグメンテーション・モジュールによって行われる）セグメンテーションタスクと同時にトレーニングされている（中間モジュールによって行われる）第２分類または回帰タスクを追加することで、伝統的なセグメンテーション・モジュール（例えば、ＰＳＰＮｅｔ）の開示された拡張によって解決される。このことは、２つの損失関数による同時の学習プロセスにガイドを提供する。

ニューラルネットワークが、トレーニング戦略として任意の時点でアクティブである単一の損失関数で順次トレーニングされる２つの異なる問題に分割される伝統的なＰＳＰＮｅｔアプローチとは対照的に、本明細書に開示されるアプローチでは、両方のタスク（分類およびセグメンテーションタスク）は、両方のタスクの各損失関数の単純な重み付け加算によって同じ時に（すなわち同時に）トレーニングされている。

本明細書で開示される二重タスクＣＮＮトポロジーは、伝統的なセマンティック・セグメンテーション・ネットワークを実際の二重タスクネットワークに拡張し、ここではネットワークの重みは２つの損失関数に対して同時に最適化され、このようにして分類損失がセグメンテーション損失をガイドする。損失関数は、各サンプル（画素）が重みと関連付けられる重み付け交差エントロピー関数であってもよい。以下においては、二重タスクＣＮＮのトレーニングデータセットが説明され、これは、１つのデータサブセットに手動でアノテーションされた画像が含まれ、さらなるデータサブセットに自動的にアノテーションされた画像が含まれる異なるデータサブセットを組み合わせる。サンプルの重みは、対象が属するデータサブセットに関連付けられることができる。自動的にアノテーションされた画像を含むデータサブセットからのサンプルは、手動でアノテーションされたデータセットからのサンプルよりも高い重みを有していてもよい。典型的に、手動でアノテーションされたデータサブセットは、人間が「その他」または「不明」と分類した画素を含む。実際の画像へのドメイン適応を可能にするための残りの少しの重みを有しつつ、このような画素が二重タスクＣＮＮのトレーニングに対して与える影響を減らすため、このようなピクセルに対して、（例えば、１０から１０００の範囲内の数の分だけ）重みが減らせてもよい。その結果、重みの減少はどのようにしても負の数になることはできない。

有利には、二重タスクＣＮＮモジュールは、手動でアノテーションされたトレーニング画像を含む１つのサブセットと自動でアノテーションされたトレーニング画像とを含むもう一方のサブセットとの２つのトレーニングデータサブセットの組み合わせを含む画像トレーニングデータセットに基づいて共同でトレーニングされる。

例えば、第１データサブセットは、特定の作物種の作物植物および１以上の雑草種の雑草植物がある圃場内の実際の状況を表す画像を含んでもよく、ここでは雑草植物は作物植物の間に広がっている。第１データサブセットは、トレーニング画像の画素が属する植物種を示す手動画素アノテーションを有する。典型的に、人間のユーザは第１データセットの画像のそれぞれを見て、画像の特定のサブセクションを特定のクラス（例えば、作物種、雑草、種、土壌）に属すとしてマークする。一実装例では、手動画素アノテーションは、特定の植物種の植物の画素が各植物種としてアノテーションされるのみならず、階層的な方法で特定の植物種も茎、葉、果実等のさまざまな植物要素のアノテーションのためのサブクラスも有していてもよいという点でより高いレベルの粒度であってもよい。すなわち、アノテーションは、トウモロコシ１、トウモロコシ１：葉、トウモロコシ１：果実、雑草１、雑草１：葉、雑草１：果実等のタグを使用して行うことができる。多くの場合、ユーザは単純に画像上で長方形（またはフリーフォーム形状を含む他の形状）を指定して、指定領域に対するアノテーションを入力するだけであるため、このようなアノテーションは画素レベルではかなり不正確である。トレーニング画像におけるクラスの自然な分布を考慮すると、このような手動のアノテーションは大まかな近似にすぎないことが明確である。

この目的のために、第１データサブセットは、画素レベルで正しい自動生成されたアノテーションを有するトレーニング画像を含む第２サブセットによって補完（強化）される。自動的にアノテーションされたトレーニング画像を得ることは、異なる方法で実現されてもよい。

例えば、第２データサブセットは、元は単一の植物画像から得られた異なる植物種の複数の植物を表す画像を含んでもよい。その結果、各単一植物画像は、特定の種の単一植物を表す。その後、単一植物画像からそれぞれの単一植物に属する画像部分を抽出し、抽出された画像部分を土壌の背景画像に貼り付けることによって、テスト画像が合成できる。その結果、多数の単一の植物画像が様々な植物種に関連付けられてもよい。しかしながら、単一の植物画像毎に（抽出されたセクションの各画素がそれぞれの種の植物の部分を表すことがわかっているため）それぞれの種がわかっており、後に土壌の背景画像に貼り付けられる抽出された画像部分が画素レベルで各アノテーションに関連付けられる。従って、第２データサブセットの画素は、元の単一植物画像から知られている、それらが属するクラス（種）で自動的にアノテーションされている。

例えば、自動生成されたアノテーションを有する他のデータサブセットは、単一の（雑草）種の複数の（雑草）植物を表す（典型的に、１つの画像に同じ植物種の異なる成長段階も表す）実際の状況画像を含む第３データサブセットであることができる。第３データサブセットは、単一種の植物のみを含むので、画素は、各植物種に対応する対応クラスアノテーションで簡単に自動的にアノテーションできる。例えば、周知の葉のセグメンテーションアルゴリズムを使用して、元の実際の単一種画像の画像からすべての画素を抽出し、対応するクラス情報でそれらにアノテーションすることができる。

その後、トレーニングされた二重タスクＣＮＮは、下記の方法でテスト入力画像に適用される。テスト入力は、二重タスクＣＮＮを実行しているコンピュータシステムによって受信される。テスト入力には、異なる種に属する植物を表す画像が含まれる。例えば、画像は、圃場における特定の作物種の作物植物および前述の作物植物の中にある（すなわち、作物植物の間に広がっている）１以上の雑草種の雑草植物を表してもよい。

コンピュータシステムは、中間モジュールの入力の形状の次元を有するテスト入力画像からタイルを抽出する画像タイル抽出部を有する。典型的に、テスト入力画像は高解像度のものであることが期待される。二重タスクＣＮＮも同様の解像度の画像でトレーニングされていると想定される。例えば、解像度が１０２４ｘ１０２４から１０，０００ｘ１０，０００画素以上の画像は、高解像画像と考えられる。しかしながら、中間モジュールの入力の形状（第１層）の次元はより低くなる（例えば、一般的なＲＥＳＮＥＴ５０ベースの分類ニューラルネットワークの入力の形状は（４７３，４７３，３）となることができる）。従って、画像タイル抽出部は、テスト入力画像を中間モジュールの入力の形状に合う画像タイルに分割する。

下記においては、抽出されたタイルのそれぞれが別々に処理され、セグメンテーションタスクの最後に、セグメント化されたタイルが全体的なセグメント化された画像に再構築される。抽出されたタイル毎に、中間モジュールは、各タイルに存在する１以上の植物種の存在を予測する。セグメンテーション・モジュールへのこの第１（分類）タスクの出力は、中間モジュールにより分類された全ての特性を有する中間特性マップである。

セグメンテーション・モジュールは、マスク画像を生成するにあたって中間特性マップを使用し、ここで、マスク上の各画素は、関連するクラスに属する前述の画素の確率を表す「０～１」の値（すなわち、［０、１］間隔内の値）に関連付けられている。これは、中間特性マップからマルチスケール特徴とコンテキスト情報を抽出し、抽出された情報を連結してセマンティック・セグメンテーションを行うことで実現される。

最後に、生成されたマスク（各タイルのマスク）が最終的な画像へと組み合わされる。最終的に再構成された画像は、画素毎にそれが特定の植物種に属しているかどうか、そして、属している場合はどの種に属しているかを示す付加情報を有する、元のテスト入力画像に対応する。例えば、色分けが使用されてもよく、その場合、各植物種に固有の色が割り当てられ、最終画像における画素の画素色が割り当てられた色で調整される。

セグメンテーション・モジュールが、セマンティック・セグメンテーションを実行するためのピラミッドプーリングモジュールによって実装される場合、典型的に、中間モジュールによって提供される中間特性マップをスキャンし、異なるスケールとサイズの情報を統合するマルチスケール特性検出のための４つの配列を作成する、異なる受容野を有する４つの分離したフィルタを含む。

さらに、ピラミッドプーリングモジュールは、典型的に、バイリニア補間法を使用して各配列の画像サイズを中間特性マップのサイズへと復元するように構成されている複数のアップサンプリング層を含む。さらに、ピラミッドプーリングモジュールの畳み込み層は、４つの分離されたフィルタからコンテキスト情報を抽出し、コンテキスト情報を異なるスケールとサイズの情報と連結して、中間特性マップと同じサイズの最終特性マップを生成する。さらに、ピラミッドプーリングモジュールは、典型的に、全結合層を含み、最後の活性化層「ｓｏｆｔｍａｘ」を有する生成されたマスクとして最終的な画素単位の予測を計算する。「ｓｏｆｔｍａｘ」アクティベーション関数は、ロジットとして知られている数を合計が１になる確率へと変更するので、有利である。ロジットは、アクティベーションが行われる前にニューラルネットワークの最後の層によって出力される素点である。一般的に、「ｓｏｆｔｍａｘ」関数は、潜在的な結果のリストの確率分布を表すベクトルを出力する。植物種のセグメンテーションの問題に適用すると、各画素がちょうど１つのクラスにしか属せないという点で、画素は相互に排他的である（例えば、画素は土壌または特定の種の植物のいずれかであるが、同時に両方であることはできない）。従って、「ｓｏｆｔｍａｘ」は、画素毎に特定のクラス（例えば、植物種または土壌）に属する確率を予測する。

本発明のさらなる態様は、添付の特許請求の範囲に具体的に示されている要素および組み合わせによって実現および達成されるであろう。前述の一般的な説明および下記の発明を実施するための形態はいずれも、例示的かつ説明的なものにすぎず、説明通りに本発明を限定するものではないということを理解されたい。

一実施形態による二重タスク畳み込みニューラルネットワークを使用して農地で植物種を識別するためのコンピュータシステムの構成図を含む。一実施形態による農地で植物種を識別するためのコンピュータに実装される方法の概略フローチャートである。一実施形態による二重タスク畳み込みニューラルネットワークのトポロジー例を示す。手動アノテーションを使用する第１トレーニングデータサブセットの生成を示す。自動アノテーションを使用する第２トレーニングデータサブセットの生成を示す。自動アノテーションを使用する第３トレーニングデータサブセットの生成を示す。単一植物画像４４が植物のさらなる要素を表すシナリオを示す。本明細書中に説明されている技術と共に使用されてもよい、一般的コンピュータデバイスと、一般的モバイルコンピュータデバイスの例を示す図である。分散型コンピュータ環境の一部としてのスマート農業機械を示す。スマート噴霧システムの例を示す。化学物質制御機構を介して、雑草、病害または昆虫を制御するスマート噴霧システム用の制御プロトコルを示す。

図１は、一実施形態による二重タスク畳み込みニューラルネットワーク１２０を使用して農地で植物種（例えば、作物または雑草種）を識別するためのコンピュータシステム１００の構成図を含む。図２は、一実施形態による農地で植物種を識別するためのコンピュータに実装される方法１０００の概略フローチャートである。方法１０００は、コンピュータシステム１００によって実行されてもよい。以下の詳細な説明では、図２の方法１０００は、図１のシステム１００と関連して開示される。従って、説明は両方の図面で使用される参照番号を参照する。さらに、図３は、一実施形態による二重タスク畳み込みニューラルネットワーク１２２のトポロジー例を示す。そのため、コンピュータシステム１００のコンポーネントまたはモジュールに関して実施形態例が考察されている場合、説明は図１の説明と関連して図３の参照番号も参照する。

コンピュータシステム１００の目的は、圃場（耕地または温室）のセクション１における作物植物の間に生える植物の種および位置を識別するために農業従事者をサポートすることである。このようなセクションは、文献上で区画と呼ばれることもある。図面では、異なる植物種を区別するために異なる物体形状が使用されている。例においては、三角形はフィールドで栽培されている特定の種の作物植物を表すために使用されている。他の全ての形状は、異なる雑草種の雑草植物を表している。点で描かれた背景は、セクション１の土壌部分（すなわち、植物によって隠されていない地面の部分）を表す。画像記録装置９０（例えば、１０２４から１００００ｐｘまでの範囲の解像度で高解像画像を記録可能なデジタルカメラ）は、セクション１の画像を撮影し、その画像をテスト入力画像９１としてコンピュータシステム１００に提供し、ここで対応するインターフェース１１０によって受信される１１００。テスト入力画像９１は、セクション１の属する圃場における作物種１０（三角形）の作物植物を模式的に表す。さらに、テスト入力９１は、前述の作物植物の間にある１以上の雑草種１１、１２、１３の雑草植物を表す。雑草植物は、作物植物（作物種１０）の間に広がっている。自然の野原の場合、異なる雑草種の雑草は、非常に定期的に広まることができるまたは特定の集団で現れ得る。例においては、種１１（例えば、メヒシバ）の雑草植物の集団、種１３（例えば、ザラツキエノコログサ）の雑草植物の集団、および種１２（例えば、アカザ）の雑草植物の２つの集団が存在する。模式例に示すように、画像９１中の植物には重なり合った部分があり得る。例えば、いくつかの作物植物は、（図１に模式的に示されるように）他の作物植物と重なり合い、いくつかの雑草植物と重なり合う。雑草植物もまた作物植物と重なり合ってもよい。

テスト入力画像を（およびトレーニング画像も）受信するためのインターフェース１１０のほかに、コンピュータシステムは更なる処理のためにテスト入力からタイルを抽出する画像タイル抽出モジュール１３０を有する。さらに、画像再構築モジュール１４０を使用して、処理タイルをユーザ（例えば、農業従事者）に出力される完全セグメント化画像９２へと最終的に再構築する。テキスト入力画像のセマンティック・セグメンテーションを達成するための画像処理は、二重タスク畳み込みニューラルネットワーク１２０（ＤＴＣＮＮ）により行われる。ＤＴＣＮＮ１２０は、次の２つのサブモジュールを有する。
－テスト入力画像９１上に存在する雑草種１１、１２、１３を判定するにあたって第１タスクを実行するための中間モジュール１２１。第１タスクは、ＤＴＣＮＮの最適化の目的のための第１損失関数ＬＦ１に関連付けられている。ＤＴＣＮＮモデルの第１タスク（分類）は、タイルごとに入力画像を解析し、入力画像の各小部分（すなわち、タイル）中の異なるクラスの存在を予測する。
－テスト入力画像９１の画素毎にクラスを判定するためにテスト入力画像９１をセグメント化する第２タスクを実行するためのセグメンテーション・モジュール１２２。当然、画素ごとのクラスは、特定の画素が単一のクラスにのみ属することができるという点において排他的である。一旦、画像タイルが分類タスクを通過すれば、セグメンテーション・モジュールに渡される特性マップへと縮小される。クラスには、判定された雑草種が（および作物種と土壌種も）含まれる。第２タスクは、第２の異なる損失関数ＬＦ２に関連付けられている。タイル毎のセグメンテーション・モジュールの生成１７００された出力は、クラス毎の対応マスクである。このマスクは、タイルと同じサイズを持つ画像によって表され、ここで、各画素は、その画素が関連付けられたクラスに属する可能性を表す間隔［０，１］の値に関連付けられる。値が１に近いほど、画素がそのクラスに属している可能性が高い。所定の閾値を上回る値は、クラスに属していると考えられる。このバイナリマスクは、セグメンテーション・モジュールにより生成１７００されたセグメンテーションタスク出力と考えられる。

最終的な後処理は、それらのマスクを解釈および組み合わせ、全てのタイルを最終的なセグメント化画像に再構築する。

ＤＴＣＮＮモデルは、（例えば、区画１の）異なる照明条件、葉の重なり、背景およびマルチスケール検出に対してある程度の不変性を表し、これは先行技術のアプローチで使用されるモデルをしのぐ。

ＤＴＣＮＮ１２０をテスト入力に適用する前に、ネットワークはトレーニングデータセットの画像でトレーニングされ、それにより、中間モジュール１２１およびセグメンテーション・モジュール１２２は、第１および第２損失関数ＬＦ１、ＬＦ２を考慮に入れた上で一緒にトレーニングされる。これは、次のように２つの損失関数に対して最小化することによって直接的に行われる。
組み合わせ損失＝セグメンテーション損失＋アルファ＊分類損失
ここで、アルファは、［０，１００］の範囲内の数であることができる。その結果、「セグメンテーション損失」はＬＦ２に関連付けられ、「分類損失」はＬＦ１に関連付けられている。例えば、アルファ＝０．２を選択し、セグメンテーションタスクに重み付けカテゴリ交差エントロピー損失関数ＬＦ２を考慮し、分類タスクに重み付けカテゴリ交差エントロピー損失関数ＬＦ１を考慮してもよい。すなわち、両方のモジュールのトレーニングは、２つの関連する損失関数の最適化と同時に並行して起こる。前述のように、ＰＳＰＮｅｔトポロジー等の先行技術のセグメンテーション・ネットワークは、２つの後続のトレーニング段階を有するが、第２段階のトレーニングを実施すると、第１段階のトレーニングがほとんど失われる。対照的に、タスク毎に別々の損失関数を有する共同トレーニングアプローチは、各損失関数を通して各タスクのパフォーマンスを別々に測定できる一方、同時に、（分類タスク用の）中間モジュール１２１と（セグメンテーションタスク用の）セグメンテーション・モジュール１２２を含むＤＴＣＮＮ１２０のトポロジー全体の重みを設定する。

開示のネットワークアーキテクチャ１２０は、セグメント化される画像の種類を説明する固有の特徴を分析することで選択された。色が付加情報を提供しない（雑草および作物植物は典型的に全て緑色である）ため、判定は植物の形状および境界を分析することにむしろ基づく。ＤＴＣＮＮは、以下の３つ主要性状を有する。
－空間的情報の抽出。モデルは葉のグループをセグメント化できるが、実際には、画像上の全ての画素を１つずつ分類することを行っている。その結果、ネットワークは単一の画素に注目するが、同時に、オブジェクトをセグメント化するための空間的情報を抽出できる。このようにして、モデルは、特定の領域のどの画素が葉に属するのかを学習するという点において、葉が何であるかの抽象的な概念を学習する。この特性は「画素グループ化」と呼ばれる。
－高特性解像度。異なる雑草種の葉は非常に類似し得る。２種類の葉の違いが、ちょうど２０画素程度の高解像度テスト入力画像全体で見える画像が存在することがある。これは、ＤＴＣＮＮが、画素の小さなグループに注目してこのような軽微な違いを検出するフィルタを学習する必要があることを意味する。これはまた、さまざまな植物のサブ要素（例えば、果物、茎等）を検出する学習フィルタに関しても当てはまる。
－マルチスケール検出。典型的に、葉のスケールは画像毎に変わる。多くの場合、同じ画像に異なる成長段階にある異なる植物が表される。従って、ＤＴＣＮＮは同じ画像に共存する異なる年齢で異なるサイズの同じ種類の葉（すなわち、同じ植物種の葉）を認識しなくてはならない。例えば、後の成長段階では、植物はすでに果実を実らせているかもしれない。従って、特定の種に特有の果実の特徴を学習することもまた、前述の種を認識することに役立ち得る。

ピラミッドシーン解析ネットワーク（ＰＳＰＮｅｔ）は、２０１７年にザオ他（上記参照）により公開された、シーンを理解するためのセマンティック・セグメンテーションに特化した深層学習モデルである。これは、画像内の各要素の色、形状および位置を考慮した画像の各画素をオブジェクトの一部として分類することを含む。ＰＳＰＮｅｔは、マルチスケール情報（ピラミッド形モジュール）とコンテキスト情報との２つの主要な特性を集約する標準セマンティック・セグメンテーション・ネットワークである。２０１２ＰＡＳＣＡＬＶＯＣデータセット（Ｍ．エバリンガム（Ｍ．Ｅｖｅｒｉｎｇｈａｍ）、Ｌ．ファンホール（Ｌ．ＶａｎＧｏｏｌ）、Ｃ．Ｋ．ウィリアムス（Ｃ．Ｋ．Ｗｉｌｌｉａｍｓ）、Ｊ．ウィン（Ｊ．Ｗｉｎｎ）およびＡ．ジッサーマン（Ａ．Ｚｉｓｓｅｒｍａｎ）、「パスカルビジュアルオブジェクトクラス（ｖｏｃ）チャレンジ（Ｔｈｅｐａｓｃａｌｖｉｓｕａｌｏｂｊｅｃｔｃｌａｓｓｅｓ（ｖｏｃ）ｃｈａｌｌｅｎｇｅ）」、コンピュータビジョンの国際ジャーナル（Ｉｎｔｅｒｎａｔｉｏｎａｌｊｏｕｒｎａｌｏｆｃｏｍｐｕｔｅｒｖｉｓｉｏｎ）、８８巻、第２号、３０３～３３８ページ、２０１０年、参照）にて、ＰＳＰＮｅｔは、ＤｅｅｐＬａｂ（Ｌ．－Ｃ．チェン（Ｌ．－Ｃ．Ｃｈｅｎ）、Ｇ．パパンドレウ（Ｇ．Ｐａｐａｎｄｒｅｏｕ）、Ｉ．コッキノス（Ｉ．Ｋｏｋｋｉｎｏｓ）、Ｋ．マーフィー（Ｋ．Ｍｕｒｐｈｙ）およびＡ．Ｌ．ユール（Ａ．Ｌ．Ｙｕｉｌｌｅ）、「ディープラブ：深層畳み込みネット、Ａｔｒｏｕｓ畳み込み、完全結合ｃｒｆｓによるセマンティック画像セグメンテーション（Ｄｅｅｐｌａｂ：Ｓｅｍａｎｔｉｃｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎｗｉｔｈｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｓ，ａｔｒｏｕｓｃｏｎｖｏｌｕｔｉｏｎ，ａｎｄｆｕｌｌｙｃｏｎｎｅｃｔｅｄｃｒｆｓ）」、パターン解析および機械知能に関するＩＥＥＥトランザクション（ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｐａｔｔｅｒｎａｎａｌｙｓｉｓａｎｄｍａｃｈｉｎｅｉｎｔｅｌｌｉｇｅｎｃｅ）、４０巻、第４号、８３４～８４８ページ、２０１８年、参照）または区分的（Ｇ．リン（Ｇ．Ｌｉｎ）、Ｃ．シェン（Ｃ．Ｓｈｅｎ）、Ａ．ファンデンヘンゲル（Ａ．ＶａｎＤｅｎＨｅｎｇｅｌ）およびＩ．リード（Ｉ．Ｒｅｉｄ）、「セマンティック・セグメンテーションのための深層構造モデルの効率的な区分的トレーニング（Ｅｆｆｉｃｉｅｎｔｐｉｅｃｅｗｉｓｅｔｒａｉｎｉｎｇｏｆｄｅｅｐｓｔｒｕｃｔｕｒｅｄｍｏｄｅｌｓｆｏｒｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎ）」、コンピュータビジョンおよびパターン認識に関するＩＥＥＥ会議のトランザクション（ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ）、３１９４～３２０３ページ、２０１６年、参照）等の他のモデルよりも良好であった。さらに、ＰＳＰＮｅｔは、（マルチスケール検出のための）ピラミッドプーリング層を有しているため、雑草識別問題を解決するために必要なパラメータに適しているようであり、セマンティック・セグメンテーション（高解像度）とシーン解析（コンテキスト情報）に特化している。そうは言うものの、当業者はセグメンテーション・モジュール１２２の基礎として、当技術分野で周知の任意の他のセマンティック・セグメンテーション・モジュールを使用してもよい。

しかしながら、伝統的なＰＳＰＮｅｔトポロジーを実際のフィールドの状況画像に適用した場合の結果は満足のいくものではない。問題は、トレーニング用のセマンティック・セグメンテーション・データセットが多くの場合、非常に異なるクラスを提示することである。色、形状およびテクスチャに相違が見つかるため、異なるモデルがこの全ての情報を収集することに特化して、各画素を予測する。一方で、作物および異なる雑草種を有する画像に示されるクラスは、形状および色において非常に類似したクラスである。違いは植物の葉（または植物の果実等の他の特徴的な植物要素）の微細な境界線やエッジで主に見つけられる。さらに、実際のフィールドの画像は、典型的に葉の重なり、照明の変化および異なるマルチスケールや成長段階の形態を表す。このような理由から、あらかじめトレーニングされたネットワークは、植物画像データセットにはうまく機能しない。

コンテキスト情報を抽出するためのＰＳＰＮｅｔの能力は、逆効果にさえなり得る。
他の検出シナリオでは、例えば、背景として空を検出することで飛行機や航空機を分類することに役立ち得る。しかしながら植物画像データセットでは、背景と隣接するオブジェクトとは、多くの場合、識別対象とほぼ同じように見える。その情報を使用すると、実際的に分類を誤った方向に導き得る。さらに、全ての葉はほぼ同じ色である。多くの場合、単一オブジェクトは、そのオブジェクトを他のオブジェクトから区別する共通画素強度（色）を示す。この場合、全ての葉はその部分では同様に見え、色は付加情報を提供しない。従って、ＤＴＣＮＮ１２０のトレーニングはエッジおよび境界線に注目する。

植物画像データセットへの適用においてセマンティック・セグメンテーション・モジュールの利点の恩恵を得るには、ＤＴＣＮＮ１２０のトポロジーに分類タスクを追加する。モデルは、画素単位の分類を学習するように画像の小さな部分を同時に分類するためにトレーニングされている。ＰＳＰＮｅｔ等の、この伝統的なセマンティック・セグメンテーション・ネットの変形例により、軽微な相違の検出（セグメンテーションタスク使用）への注目を損なわずに、画素のグループ化（分類タスク使用）が改善される。その結果、分類タスクがそれ自体の損失関数に関連付けられ、セグメンテーションタスクもそれ自体の損失関数に関連付けられることが重要であり、両方のタスクが同時に両方の損失関数を考慮して同時に一緒にトレーニングされることが重要である。

コンピュータシステム１００がテスト入力画像９１を受信すると、抽出モジュール１３０が中間モジュール１２１の入力の形状の次元を有するテスト入力画像から１２００枚のタイルを抽出する。ＣＮＮへの入力は常に４Ｄ配列である。つまり、入力データは、（バッチサイズ、高さ、幅、深さ）の形状を持ち、ここで第１の次元は毎回、処理される画像の数を表し、他の３つの次元は高さ、幅および深さである画像の次元を表す。画像の深さはカラーチャンネルの数である。例えば、ＲＧＢ画像は深さ３、グレースケール画像は深さ１である。例えば、中間モジュールは、ＲＥＳＮＥＴ５０トポロジーまたはＲＥＳＮＥＴファミリーのトポロジーのその他の適切なメンバー等の、ＲＥＳＮＥＴアーキテクチャに基づく分類ＣＮＮ１２１－１または回帰型ＣＮＮ１２１－２として実装されてもよい。中間モジュールの第１層の次元は、さらなるタイルに関する処理のために、画像が抽出部１３０によって分割されてなるタイルの次元を決定する。例えば、ＲＥＳＮＥＴ５０ＣＮＮトポロジーを使用する場合、タイルの次元は（４７３，４７３，３）入力の形状に適うように構成される。

中間モジュール１２１は、各タイルに対し、各タイルに存在する１以上の植物種の存在を予測する１３００。中間モジュールの出力は、テスト入力画像に存在する植物種を（クラスとして）提供する分類結果１２１ｏ２を含み（当然、雑草種のクラスのほか、分類結果は作物種および土壌のクラスも含む）、さらに、識別されたクラスに関連付けられた抽出特性を有する対応する中間特性マップを含む。さらなる処理のために、セグメンテーション・モジュール１２２に中間特性マップ１２１ｏ１のみが出力される１４００。中間特性マップのサイズは、入力画像のサイズ（タイルのサイズに対応）のほんの一部（例えば、１／８）である。

図３の実施形態例は、ＰＳＰＮｅｔトポロジーに基づくピラミッドプーリングモジュールで実装されているセグメンテーション・モジュール１２２を示している。システムのテスト実行において、ＰＳＰＮｅｔが他のセマンティック・セグメンテーション・トポロジーをしのいだことに注目されたい。しかしながら、当業者は他のセグメンテーション・トポロジーを使用して、セグメンテーション・モジュール１２２を実装してもよい。ＰＳＰＮｅｔの実装においては、最も高いアクティベーションを有する特性（すなわち、アクティベーションの局所的近傍が最大の特性）を中間特性マップから選択するにあたって初期フィルタ機能を実行するプーリング層１２２－１が典型的に中間特性マップ１２１ｏ１を処理する。

選択された特性は、その後、中間特性マップ１２１ｏ１の選択された特性をスキャンし、マルチスケール特性検出のための４つの配列を作成して異なるスケールとサイズの情報を統合する異なる受容野を有する４つの分離したフィルタを実装するフィルタリング層１２２－２に転送される。

フィルタリング層１２２－２の右側のフィルタは、最も粗いレベルであり、各特性マップに全体平均プーリングを行って単一のバイナリ出力を生成する。左側に続くフィルタは、特性マップを２×２のサブ領域に分割し、その後、各サブ領域に平均プーリングを行う第２レベルである。左側にある次のフィルタは、特性マップを３×３のサブ領域に分割し、その後、各サブ領域に平均プーリングを行う第３レベルである。左側にあるフィルタは、特性マップを６×６のサブ領域に分割し、その後、各サブ領域にプーリングを行う最も細かいレベルである。Ｎ＝４のフィルターレベルとＭ＝２０４８の入力特性マップの数での例では、出力特性マップは（１／４）×２０４８＝５１２であり、すなわち５１２個の出力特徴マップである。

ピラミッドプーリングモジュールの次の段階は、バイリニア補間法を使用して各配列の画像サイズを中間特性マップ１２１ｏ１のサイズに復元するように構成されている複数のアップサンプリング層１２２－３を含む。概して、バイリニア補間法は、各低次元特性マップを元の特性マップと同じサイズになるようにアップサンプルするために行われる。

以下の畳み込み層１２２－４は、４つの分離したフィルタからコンテキスト情報を抽出し、コンテキスト情報を異なるスケールとサイズの情報と結合して１６００、中間特性マップ１２１－ｏ１と同じサイズの最終特性マップ１２２－４ｏを生成するように構成されている。言い換えると、アップサンプルされた特性マップのすべての異なるレベルは、元の特性マップと結合される。これらの特性マップは、全体事前分布として融合される。時として文献上では、最終特性マップ１２２－４ｏを提供する畳み込み層１２２－４は、ピラミッドプーリングモジュールの最後と見なされる。しかしながら、本文書の文脈では、画素単位の予測層１２２－５もピラミッドプーリングモジュールの層と考えられている。

画素単位の予測層１２２－５は、最終特性マップを使用して最終予測マップを生成する畳み込み層である。例えば、それは全結合層１２２－５によって実装されて、最後の活性化層「ｓｏｆｔｍａｘ」（すなわち、正規化指数関数）を有する生成されたマスクとして最終的な画素単位の予測を計算してもよい。ソフトマックスアクティベーションの利点については、先に説明済みである。最終予測結果は、現在処理されている画像タイルの画素単位のセグメンテーション１２２ｏである。

抽出された全てのタイルがＤＴＣＮＮ１２０によって処理されると、画像再構成モジュール１４０は、元の画像のサイズに対応し、画素毎にそれが属するクラスを含む完全にセグメント化された画像９２を再構成する。例えば、再構成画像９２は、色分けを使用して、各画素のクラスを示すことができる。図１の模式図では、セグメント化画像９２は、異なるテクスチャを使用して、様々な画素のクラスを識別する。例えば、クラス１０（作物）に属すると分類された画素を有する表面は、れんがのテクスチャで表される。当然、テクスチャは単一の画素をマークするように使用はできない。しかしながら、クラス毎に特定の色値を有する明確な色は使用できる。従って、テクスチャは、その背後のマーキング概念を示すように概略図で簡略化されたマーキングとして使用されるにすぎない。例えば、クラス１１（第１雑草種）の雑草植物に属する画素は、灰色の陰影テクスチャでマーキングされ、クラス１２（第２雑草種）の雑草植物に属する画素は、チェス盤のようなテクスチャでマーキングされ、クラス１３（第３雑草種）の雑草植物に属する画素は、縞模様のテクスチャでマーキングされている。最後に、画像９２で土壌の背景クラスに属する画素は、点で描かれたテクスチャ１９でマーキングされている。

図４Ａから４Ｃは、二重タスクＣＮＮをトレーニングするために使用できるトレーニングデータサブセットを作成するための異なる方法を示している。ＤＴＣＮＮのセグメンテーション・モジュールと共に中間モジュールをトレーニングするために使用される画像トレーニングデータセットは、図４Ａに開示されるように画像の手動アノテーションを使用して生成された第１データサブセットと、図４Ｂおよび４Ｃのいずれかにおいて開示されるように自動アノテーションで生成されたさらなるサブセットを少なくとも含む。

図４Ａは、トレーニングデータの第１データサブセットの手動アノテーションされたトレーニング画像の作成を示した。ある作物種の作物植物と作物植物の間にある１以上の雑草種の雑草植物が存在する圃場における実際の状況を表すオリジナル画像４１は、手動アノテーションのために人間のユーザに提供される。ユーザは、画像内の異なる要素を対応するクラス（例えば、作物種、雑草種、土壌）に割り当てすることを試みる。図４Ａａの例の画像４１とその要素は、図１の画像９１とその要素に対応する。手動アノテーションタスクの結果は、手動画素アノテーション４１－１、４１－２、４１－３が、各トレーニング画像の画素が属する種を示す、第１データサブセットに属するトレーニング画像毎である。アノテーションされた画像４１－ａで使用されるテクスチャは、図１の画像９２に関して説明されたテクスチャに対応する。図４Ａの例では、手動アノテーションの結果は、オリジナル画像４１の右上隅のみに概略的に示されている。概略図は、アノテーションが画素レベルで正しいことを暗示しているが、手動アノテーションされた画像に関して現実的にはこうはいかない。典型的には、ユーザが特定の植物を認識できなかったことにより、誤ったクラスに割り当てられているか、全くクラスが割り当てられていないかのいずれかの画素が手動アノテーションされた画像に多数存在する。言い換えると、手動アノテーションは、多数の画素が正しくアノテーションされていないという意味においてノイズがある。

典型的に、ユーザは、単純に画像内の長方形を選択し、このような長方形をクラスに割り当てる。長方形内の画素を作物種４１－２として分類するために長方形Ｒ１を使用してもよい。しかしながら、Ｒ１は雑草種４１－１および４１－２に関連する画素も含む。ユーザは、Ｒ１内にあるまたはＲ１と重なる長方形Ｒ２およびＲ３をさらに示して、それらを各雑草種クラスに割り当ててもよい。このようなアノテーション方法では、画素レベルでの正しいアノテーションに導くことができないということが明確である。手動アノテーションタスクにおいてユーザをサポートするために、コンピュータシステムがユーザにいくつかの分類サポート機能を提供してもよい。

例えば、システムは自動化された土壌セグメンテーションを提供してもよく、安定的で簡易的なカラーベースのセグメンテーションアルゴリズムを使用して、地面（土壌）の存在を自動的に削除し、手動セグメンテーションから自動的に取り除くことができる。アルゴリズム例は、（Ｌ＊ａ＊ｂ＊色空間の）Ｌａｂ色チャネルに対する単純な閾値化に基づき、ここではチャネルａの正の値を有する画素がセグメンテーションから削除されて、精密なセグメンテーションが得られる。

さらに、システムは、重なり合う植物の部分に対するサポートを提供してもよく、特に後の生物季節学的段階では、植物が重なり合うことによって、すべてのクラスを正確にセグメント化するにはアノテーションがより複雑になる。これを軽減するために、システムの手動アノテーション機能は、別のアノテーションの中にアノテーションをマーキングすることを可能にする（例えば、Ｒ１中のＲ２）。この場合、（Ｒ２に割り当てられる）内側のアノテーションは、（Ｒ１に割り当てられる）外側のアノテーションに属するセグメンテーションから削除される。これは、すべての種を正確にアノテーションする必要がないため、アノテーション処理を簡略化する。重なり合っている種のみに「囲み」のアノテーションまたは重なり合いを示すその他のアノテーションをアノテーションすることのみで十分である。

第１画像データサブセットを生成するには、以下の条件がシステムのテスト実行において有効であった。２０１７年、ドイツおよびスペインの２つの異なる場所で大規模な画像取得キャンペーンが実施された。各２．０ｘ２．５ｍの２４の区画の一式が植えられた。これらの区画では、２列のトウモロコシ（ズィー・メイス）が、６つの異なる雑草種、３つの「草葉」雑草（ザラツキエノコログサ、メヒシバ、イヌビエ）および３つの「広葉」雑草（イチビ、アカザ、アオゲイトウ）と共に植えられた。各区画は、キャノンＥＯＳ７００ＤＳＬＲのカメラおよびサムスンＡ８の携帯電話の２つの異なるデバイスを使用して、上面視と斜視で撮像された。画像取得を容易にするため、２つの携帯電話と２つのＳＬＲカメラを保持する金属構造体が作られ、上部画像（高さ２．０メートル、焦点距離１８ｍｍ）および透視画像（高さ１．６メートル、角度３０度、焦点距離１８ｍｍ）が撮影された。このような４つの画像は、時間の節約のため同時に撮影されてもよいが、トレーニングデータの品質には影響しない。

トウモロコシおよび雑草の異なる生物季節学的段階を集めるために、９週間の期間にわたって週３回、１日２回、画像が撮影された。試験は２０１７年５月に開始して、２０１７年６月に終了した。露出過度および／または不鮮明な画像を削除した後、合計１６７９枚の画像が、対応するＥＰＰＯコード（ＺＥＡＭＸ、ＳＥＴＶＥ、ＤＩＧＳＡ、ＥＣＨＣＧ、ＡＢＵＴＨ、ＣＨＥＡＬ、ＡＭＡＲＥ）に従って名付けられた７つの対象クラスに手動でセグメント化された。

対象の雑草は特定の位置に植えられていたが、実験区画に野生で成長した未知の雑草により、このタスクがより複雑なものとなった。この問題に対処するために、２つの新しいクラス（一般的な広葉雑草および一般的な草葉雑草）が追加されて、未知または対象でない雑草のアノテーションを可能にした。ＤＴＣＮＮトポロジーは、これらのノイズのあるアノテーションを無視するように構成された。

トレーニングの目的のために、そしていかなるバイアスも回避するために、実験区画は、トレーニング、テストおよび検証の区画に分離された。８つの区画がトレーニングに使用され、２つが検証に使用され、他の２つがテストに使用された。

第１データサブセットは、その後、以下に記載される第２または第３データサブセットのいずれかであり得る少なくとも１つのさらなるサブセットを有するトレーニング画像データセットに組み合わされた。

第２データサブセットの生成が図４Ｂに記載されている。第２セットは、合成的に生成された画像で構成され、これは画素レベルで正しく自動的にアノテーション可能である。第２サブセットの最終的な合成的に生成された画像４２－ａは、元の単一の植物画像４２から得られる異なる雑草種の複数の雑草植物を表し、各単一の植物画像は、単一種の単一植物１２を表す。単一の植物要素は、（例えば、葉のセグメンテーションアルゴリズムで）単一の植物画像から抽出され、土壌の背景画像４２－ｂに貼り付けられる。従って、抽出された単一の植物要素（画像４２－ｓ内で異なるテクスチャで示される）が既知の植物種に属するため、第２データサブセットは画素レベルで各雑草種に属する画素のアノテーション４２－１、４２－３、４２－４で完全に自動的にアノテーションされることができる。葉のセグメンテーションアルゴリズムによって抽出された画素が、単一の植物に本当に属しており、その後、各単一の植物画像の植物の既知の種によって自動的にアノテーションできる画素のみが実質的に含まれるため、このような自動アノテーションには手動アノテーションよりもはるかにノイズが少ない。

第１データサブセットと第２データサブセットとの組み合わせは、データセットの実質的な複雑性によってアノテーションが困難で、エラーが起こりやすい第１データサブセットの欠点をいくつか克服する。結果として、トレーニングとテスト用のアノテーションされた画像の量は限定され、ノイズがある。これは、単一の植物画像によって生成された画像コミュニティを含む第２サブセットの合成画像を第１サブセットと組み合わせて使用することで克服できる。この目的のために、単一植物の追加的な取得キャンペーンが実施された。

合成データセットは、アカザ、ヨウシュチョウセンアサガオおよびソバカズラの３つの新たな雑草種にフィーチャーした。これは画像で構成され、各画像が温室の８０ｘ８０ｃｍの区画上で単一の植物を表している。スペインからは２つの温室があった。それらのそれぞれには、異なる種が播種され、温室１にはＡＭＡＲＥ、ＤＩＧＳＡ、ＥＣＨＣＧおよびＳＥＴＶＥ、温室２にはＡＢＵＴＨ、ＣＨＥＳＳ、ＤＡＴＳＴ、ＰＯＬＣＯ、ＺＥＡＭＸが播種された。合計８つの雑草と１つの作物があった。各種から、３０から３６個の単一植物が播種された。０日目から８０日目まで、個々の植物のそれぞれに応じて、平日（月から金）毎に画像が１つ撮影された。それらの全てが最終日までもったわけではないため、最終（第２）データサブセットは、９つの異なる種の異なる成長段階における単一植物の６９０６枚の画像を含んだ。

各画像にはたった１つの植物しか現れないため、サブセット内の全ての画像はラベル付けされる。葉のセグメンテーションのための深層学習モデルを使用ことで、データセット全体を自動的にアノテーションできた。合成植物群落生成アルゴリズムは、実際の葉のセグメント化された画像を取得して、それらを実際の背景画像に貼り付けることができる。単一の植物データセットの使用は、葉および／または植物を自動的にセグメント化し、それらを候補リポジトリに保存することを可能にする。どの候補が実行可能であったかを識別した後、最終フォルダには、９つの種に不均一に分割された１１０９６枚の画像が含まれていた。群落生成アルゴリズムは、リポジトリから候補を取得し、それらを特定の方法で土壌画像に貼り付ける。

これらの画像を生成するために、各領域を説明する３つのパラメータに関連付けられたいくつかのランダムな領域が作成される。モデルパラメータは、植物種、成長段階および密度である。植物種は、領域のパラメータに応じてモンテカルロアプローチに従って育てられる。
このアルゴリズムのパイプラインは以下の通りである。
（ｉ）栽培領域はランダムなサイズの楕円に作られる。
（ｉｉ）各楕円には、クラス（種）、年齢（播種後の日数）、密度（０から１の間の実数）がランダムに割り当てられる。
（ｉｉｉ）画像内のロケーション点は、各植物候補に対してランダムにサンプリングされる。
（ｉｖ）ロケーション点に応じて、候補が栽培領域内にあるかどうか（ない場合、潜在的な候補は不合格と判定される）。
（ｖ）候補が楕円内にある場合、アルゴリズムは０から１の間の数をランダムにサンプリングし、それをその栽培領域の「密度」パラメータと比較する。サンプリングされた数が「密度」の閾値より大きい場合、候補は不合格と判定される。
（ｖｉ）アルゴリズムは、候補リポジトリから栽培領域の要件に適した候補画像を選択し、それを区画画像に配置する。

この方法により、画像が生成され、この画像には様々な成長段階にあるいくつかの植物種が不均一な密度で存在する。第２データサブセットは、５０００枚の合成画像で作られた。５０００枚の生成された区画画像のうち、８０％はトレーニング用、１０％は検証用、別の１０％はテスト用に保有された。

図４Ｃは、第１データサブセットと組み合わせて代替的に使用して、トレーニング画像データセットを形成できる第３データサブセットを示す。当然、３つの全てのデータサブセットを組み合わせてトレーニングデータセットにすることもできる。第３データセットは、単一の雑草種の複数の雑草植物を表す画像４３－ａを含む。第３データサブセットの画像も、単一の雑草種に属する画素のアノテーション４２－３、４３－１、４３－４で自動的にアノテーションされる。

第１データサブセットが不均衡なクラスおよびノイズのあるアノテーションを呈する一方、合成第２データサブセットは、重なり合う植物要素を有して成長する実際の植物群落を適切に模倣することに関していくつかの問題を有し得る。不均衡なクラスのある状況例としては、画素の３０％に関連付けられている１つのクラスと、画素の０．０００１％のみに関連付けられている別のクラスを有することがある。これに加えて、いずれのクラスでもあり得る未知である画素が存在する可能性もある。第３データサブセットは、各区画に単一種を有する制御された環境で育つ植物の画像を含む。区画地は日常的にチェックされ、別の種の植物が生えるといつでも手作業で除去された。区画毎に単一の種を有するということは、全ての画像が既にラベル付けされおり、従って、自動セグメンテーションが実現可能であることを暗に示している。高、中、わずかの３つの密度（面積当たりの作物植物の数）の区画があった。画像は２つのキャンペーンで撮影され、１つはスペインで４２４５枚の画像、もう１つはドイツで８１８枚の画像が撮影された。概念は同じであるものの、スペインとドイツの画像には、特に土壌／背景において、相当な違いがあった。

葉のセグメンテーションアルゴリズム（例えば、先に説明した葉のセグメンテーションアルゴリズム）を使用することで、セマンティック・セグメンテーションのグラウンドトゥルースラベル（ｇｒｏｕｎｄ－ｔｒｕｔｈｌａｂｅｌ）として機能する、画像毎に自動的に生成されたラベル付きのマスクが得られる。このセグメンテーション方法は、画素レベルではまだいくつかの間違いを犯すが、第３データサブセットは正確にアノテーションされていると考えることができる。

第２および第３データサブセットは類似しているが、それらの違いにおいて補完的である。第２データサブセットは、同じ画像にいくつかの種を示すため、植物群落栽培の点ではより現実的である。その一方、第３データサブセットでは、１つの種しか存在しないが、実際のフィールドの画像のより良いテクスチャ、重なり合い、陰影および形状（すなわち、より多くの情報）を示す。

３つのデータサブセットの組み合わせを含めることで、異なるトレーニング実験が行われた。全ての実験は、第１データサブセットの検証とテストに対して評価された。いくつかの実験において、１つより多い画像トレーニングデータセットがトレーニングに使用された。データサブセットが異なる数の画像を有していたため、ジェネレータを使用して、同等な方法で異なるデータサブセットから画像をフェッチした。ジェネレータは、毎回、各データサブセットから１つの画像を取得する。データサブセットの画像がなくなったら（すなわち、ジェネレータが各サブセットの最後の画像を取得したら）、他のサブセットの画像をインクリメントしつつ、各サブセットに対して最初からやり直す。

バイアスを回避するために、既に言及したように、各データサブセットは、８０％をトレーニング用の画像、別の１０％を検証用、そして最後の１０％をテスト用へと分割された。

データ拡張が、新たな画像がジェネレータによってフェッチされる度に適用された。データ拡張に適用された変換には、回転、高さおよび／または幅のシフト、ズーム、垂直および／または水平反転、画素強度のシフト（色の変化）およびガウスぼかしが含まれた。本明細書に開示されるセマンティック・セグメンテーション方法は画像からタイルを抽出し、一貫性を保つことが重要なため、せん断は推奨されない。

プログラムコードは、ＴｅｎｓｏｒＦｌｏｗを背景として使用し、Ｋｅｒａｓ深層学習ライブラリで実装された。エポック当たりの減衰＝１０^－６で学習率ｌｒ＝０．００１、運動量＝０．９およびネステロフ加速勾配法を使用して、両方のタスクのオプティマイザとして確率的勾配降下法が使用された。データサブセットに存在するクラスの不均衡を解決するために、ＢａｌａｎｃｅｄＡｃｃｕｒａｃｙ（ＢＡＣ）が最も適したアルゴリズム性能メトリックとして選択された（このような場合、「通常の」精度の使用は推奨されない）。

ＤＴＣＮＮのトレーニングのため、１６ＧＢのメモリを有するＮＶＩＤＩＡＴｅｓｌａＶ１００ＧＰＵを使用した。入力画像のサイズを考慮して、バッチサイズは６に設定された。「携帯取込装置を使用した自動植物病害診断を小麦に適用した使用事例（Ａｕｔｏｍａｔｉｃｐｌａｎｔｄｉｓｅａｓｅｄｉａｇｎｏｓｉｓｕｓｉｎｇｍｏｂｉｌｅｃａｐｔｕｒｅｄｅｖｉｃｅｓ，ａｐｐｌｉｅｄｏｎａｗｈｅａｔｕｓｅｃａｓｅ）」、農業におけるコンピュータと電子機器（ＣｏｍｐｕｔｅｒｓａｎｄＥｌｅｃｔｒｏｎｉｃｓｉｎＡｇｒｉｃｕｌｔｕｒｅ）、１３８巻、２００～２０９ページ、２０１７年においてＡ．ヨハネス（Ａ．Ｊｏｈａｎｎｅｓ）他によって、および「野生における携帯取込装置ベースの作物病害分類のための深層畳み込みニューラルネットワーク（Ｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓｆｏｒｍｏｂｉｌｅｃａｐｔｕｒｅｄｅｖｉｃｅ－ｂａｓｅｄｃｒｏｐｄｉｓｅａｓｅｃｌａｓｓｉｆｉｃａｔｉｏｎｉｎｔｈｅｗｉｌｄ）」、農業におけるコンピュータと電子機器（ＣｏｍｐｕｔｅｒｓａｎｄＥｌｅｃｔｒｏｎｉｃｓｉｎＡｇｒｉｃｕｌｔｕｒｅ）、２０１８年においてＡ．ピコン（Ａ．Ｐｉｃｏｎ）他によって説明された同じ方法論に従って、第１データサブセットの検証サブセットと、ｂａｌａｎｃｅｄａｃｃｕｒａｃｙ（ＢＡＣ）およびＤｉｃｅ－Ｓｏｒｅｎｓｅｎ係数の計算値を使用して、異なる雑草種の検証セットを最大化する閾値を計算した。

第１データサブセットからのテスト用画像は実際のフィールド状況を表すため、それらを使用して様々な実験がテストされた。トレーニングされた異なるデータセットの使用の影響を測定するため、異なるデータサブセットを組み合わせていくつかのモデルがトレーニングされた。２セットの実験が使用された。１つのセットはセグメンテーション・モジュールのためのＰＳＰＮｅｔトポロジーに基づいて提案された二重タスクＣＮＮの性能を検証することに焦点を当て、別のセットは異なるデータサブセットの組み合わせに対する影響を測定するためのものである。

二重タスクＰＳＰＮｅｔの実装が通常の単一タスクＰＳＰＮｅｔよりも優れた性能を有することを検証することに焦点を当てた２つの実験は以下の通りである（実験は、使用トポロジーと、使用データサブセットの数によって名付けられる）。
‐ＰＳＰＮｅｔ第１＋第３。この実験では、第１データサブセットと第３データサブセットとの両方からの画像でトレーニングされたベースラインＰＳＰＮｅｔを使用する。この組み合わせは、トレーニングに最良のデータサブセットの組み合わせとして選択された。
‐二重タスクＰＳＰＮｅｔ第１＋第３。この実験は前のものと同様だが、伝統的なＰＳＰＮｅｔネットワークアーキテクチャを開示の二重タスクＰＳＰＮｅｔで置き換えた。

得られた結果は、二重タスク（分類およびセグメンテーション）ＣＮＮの使用が、伝統的なアーキテクチャを使用した場合に得られた～４５％に対して～４８％の平均Ｄｉｃｅ－Ｓｏｒｅｎｓｅｎ係数（ＤＳＣ）を得たことを表している。さらに、ｂａｌａｎｃｅｄａｃｃｕｒａｃｙがわずかに改善されている。どちらのモデルも、播種後第２週目（中期段階）の間における画像記録でピーク性能を表している。さらに、二重タスクＰＳＰＮｅｔ第１＋第３は、特に初期段階で、ＰＳＰＮｅｔよりも優れたスコアを奏する。しかし、時間が経つとその性能はＰＳＰＮｅｔよりも速く低下する。（播種後第４週目の間に記録された画像に関する）最悪のＤＴＣＮＮ予測では、伝統的なＰＳＰＮｅｔ予測と同様の値を得る。

二重タスクＣＮＮの性能への様々なデータサブセットの影響は、以下の実験によって検証された。

ＤＴＣＮＮ第１。この実験では、トレーニングは第１データサブセットに対してのみ行なわれた。このデータセットには、画像の数の少なさ、高い複雑性、不正確なアノテーションおよび高いクラスの不均衡性の問題がいくつかあった。

ＤＴＣＮＮ第２。この実験では、合成第２データサブセットがトレーニングに使用された。合成画像は空間分布、照明、背景およびスケールに違いを呈するので、ドメインシフトによる性能の低下が予想されていた。画素の自動アノテーションが各画素に正しいクラスでアノテーションすることを確実にするため、適正な葉の形状とエッジに関する情報は、ほぼ完璧なグラウンドトゥルースアノテーションでのトレーニングに好適である。

ＤＴＣＮＮ第３。この実験では、単一種（第３）データサブセットがトレーニングに使用される。植物の画像は実際の状況下で取得されるが、このデータセットからは植物群落の相互作用は取得できない。

ＤＴＣＮＮ第１＋第２。この実験では、第１および第２データサブセットからの画像がトレーニングのために組み合わされる。第２データサブセットは、合成画像を組み込むことで、第１データサブセットからのクラスの不均衡および品質の悪いアノテーションの影響を減らすことを可能にする。

ＤＴＣＮＮ第１＋第３。この実験では、画像第１および第３データサブセットがトレーニングのために組み合わされる。第３データサブセットは、第３データサブセットからの単一種画像を含めることで、第１データサブセットからのクラスの不均衡および品質の悪いアノテーションの影響を減らすことを可能にする。

ＤＴＣＮＮ第１＋第２＋第３。最後のモデルは、全てのデータサブセットを補完する。

結論付けると、対象の第１データサブセットがサポートするデータセット（第２、第３）のいずれかと組み合わされると、ドメインシフトが減少し、より正確な結果が得られる。第１および第３データサブセットを組み合わせてＤＴＣＮＮのトレーニングに使用すると、最良の結果が得られた。

図４Ｄは、（図４Ｂで自動アノテーションに使用されている）単一植物画像４４が植物のさらなる要素を表すシナリオを示す。この画像４４では、葉１２ｌの他に、植物の茎１２ｓおよび果実１２ｆを見ることができる。多くの植物に関して、果実は茎の葉の色とは異なる色を持っている。このような場合、既存のセグメンテーション方法を使用して、果実１２ｆに属する画素と植物の葉１２ｌに属する画素（または葉と同じ色を持つ植物の他の要素）をセグメント化できる。その後、図４Ｂに関して説明したような同様の方法で、植物の葉だけでなく、その果実も合成的に生成された画像４４－ｓに貼り付けることができる。背景画像４４－ｂと組み合わせて、より現実的なアノテーションされた画像４４－ａが生成され、これには、今、（図４Ｂから既知のオブジェクト４４－１、４４－３および４４－４に加えて）植物１２＊の果実を表すアノテーションされたオブジェクト４４－２も含まれる。

当業者はまた、植物の果実と葉との色の違いを使用して、図４Ｃで説明されている方法を改良し、各植物の葉と果実とを表すオブジェクトを含む自動的にアノテーションされた画像を生成することも可能であることを述べておくべきである。葉と同様の色である他の植物要素（例えば、茎）のアノテーションに関しては、このような要素の手動アノテーションを使用してもよい。

植物の果実の表現も含む自動アノテーション画像を使用する場合、ＤＴＣＮＮは、異なる植物種を区別するだけでなく、画像を植物の各果実（例えば、作物）に属する画素にセグメント化するようにもトレーニングできる。通常、圃場では１つの作物種しか栽培されていない。このような場合、先に説明したように、この作物種の葉と果実を含む自動的にアノテーションされた画像と、他の植物種（雑草）の画像とを使用してＤＴＣＮＮをトレーニングすれば十分である。図５は、一般的なコンピュータデバイス９００と一般的なモバイルコンピュータデバイス９５０との例を示す図であり、これらは本明細書で説明されている技術と使用されてもよい。コンピューティングデバイス９００は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレームおよびその他の適切なコンピュータ等、様々な形態のデジタルコンピュータを表すと意図される。理想的には、デバイス９００は機械学習アルゴリズムを処理するように構成されたＧＰＵを有する。一般的なコンピュータデバイス９００は、図１のコンピュータシステム１００に対応してもよい。コンピューティングデバイス９５０は、携帯情報端末、携帯電話、スマートフォンおよび他の同様のコンピューティングデバイス等、様々な形態のモバイルデバイスを表すと意図される。例えば、コンピューティングデバイス９５０は、ユーザがテスト入力画像をキャプチャしてそれらをコンピュータデバイス９００に提供し、次に、コンピュータデバイスから、様々な雑草植物の位置と雑草植物のそれぞれの種を画像上で示すセグメント化された画像を受け取る、ＧＵＩフロントエンドとして使用されてもよい。その結果、コンピューティングデバイス９５０はまた、図１の出力デバイス５０を含んでもよい。ここに示されているコンポーネント、それらの接続と関係性およびそれらの機能は、例示としての意図のみであり、本文書で説明および／または主張されている発明の実装例を限定する意図はない。

コンピューティングデバイス９００は、プロセッサ９０２、メモリ９０４、ストレージデバイス９０６、メモリ９０４と高速拡張ポート９１０に接続している高速インターフェース９０８および低速バス９１４とストレージデバイス９０６に接続している低速インターフェース９１２を備える。コンポーネント９０２、９０４、９０６、９０８、９１０および９１２のそれぞれは、様々なバスを使用して相互接続され、共通のマザーボードに取り付けられてもよいし、必要に応じて他の方法であってもよい。プロセッサ９０２は、高速インターフェース９０８に接続されているディスプレイ９１６等の外部入力／出力デバイス上にＧＵＩのグラフィック情報を表示するために、メモリ９０４またはストレージデバイス９０６に記憶された命令を含む、コンピューティングデバイス９００内で実行するための命令を処理できる。他の実装例では、多数のメモリおよびメモリの種類とともに、必要に応じて、多数の処理ユニットおよび／または多数のバスが使用されてもよい。また、多数のコンピューティングデバイス９００は、（例えば、サーババンク、ブレードサーバのグループ、または処理デバイスとして）必要な操作の一部を提供する各デバイスに接続されてもよい。

メモリ９０４は、コンピューティングデバイス９００内に情報を記憶する。一実装例では、メモリ９０４は揮発性メモリユニットまたは複数の揮発性メモリユニットである。他の実装例では、メモリ９０４は不揮発性メモリユニットまたは複数の不揮発性メモリユニットである。メモリ９０４はまた、磁気または光学ディスク等の他の形態のコンピュータ可読媒体であってもよい。

ストレージデバイス９０６は、コンピューティングデバイス９００に大容量のストレージを提供可能である。一実装例では、ストレージデバイス９０６は、フロッピーディスクデバイス、ハードディスクデバイス、光学ディスクデバイスもしくはテープデバイス等のコンピュータ可読媒体、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイスまたはストレージエリアネットワークもしくは他の構成のデバイスを含むデバイスの配列であってもよいし、それらを含んでもよい。コンピュータプログラム製品は、情報キャリアに明確に具現化できる。コンピュータプログラム製品はまた、実行されると、上記のような１以上の方法を行う命令を含んでもよい。情報キャリアは、メモリ９０４、ストレージデバイス９０６またはプロセッサ９０２のメモリ等、コンピュータまたは機械可読媒体である。

高速制御部９０８は、コンピューティングデバイス９００の帯域幅消費動作を管理し、一方で低速制御部９１２は、より低い帯域幅消費動作を管理する。このような機能の割り当ては例示にすぎない。一実装例では、高速制御部９０８は、メモリ９０４と、（例えば、グラフィックプロセッサまたはアクセラレータを通した）ディスプレイ９１６と、様々な拡張カード（不図示）を受け入れ得る高速拡張ポート９１０に接続される。実装例では、低速制御部９１２は、ストレージデバイス９０６と低速拡張ポート９１４とに接続されている。さまざまな通信ポート（例えば、ＵＳＢ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、イーサネット、ワイヤレスイーサネット）を含み得る低速拡張ポートは、キーボード、ポインティングデバイス、スキャナまたはネットワークアダプタを通して等のスイッチもしくはルータ等のネットワークデバイス等の１以上の入力／出力デバイスに接続されてもよい。

コンピューティングデバイス９００は、図に示されるように、数ある異なる形態で実装されてもよい。例えば、標準サーバ９２０として、またはそのようなサーバのグループ内で複数回実装されてもよい。また、ラックサーバシステム９２４の一部として実装されてもよい。さらに、ラップトップコンピュータ９２２等のパーソナルコンピュータに実装されてもよい。代替的に、コンピューティングデバイス９００からのコンポーネントが、デバイス９５０等のモバイルデバイス（不図示）内の他のコンポーネントと組み合わされてもよい。このようなデバイスのそれぞれは、１以上のコンピューティングデバイス９００、９５０を含んでもよく、システム全体は互いに通信する多数のコンピューティングデバイス９００、９５０から構成されてもよい。

コンピューティングデバイス９５０は、他のコンポーネントの内とりわけ、プロセッサ９５２、メモリ９６４、ディスプレイ９５４等の入力／出力デバイス、通信インターフェース９６６およびトランシーバ９６８を含む。デバイス９５０には、追加のストレージを提供するために、マイクロドライブまたは他のデバイス等のストレージデバイスも設けられてもよい。コンポーネント９５０、９５２、９６４、９５４、９６６および９６８のそれぞれは様々なバスを使用して相互接続され、コンポーネントのいくつかは共通のマザーボードに取り付けられてもよいし、必要に応じて他の方法であってもよい。

プロセッサ９５２は、メモリ９６４に記憶された命令を含む、コンピューティングデバイス９５０内の命令を実行できる。プロセッサは、分離した多数のアナログおよびデジタル処理ユニットを含むチップのチップセットとして実装されてもよい。プロセッサは、例えば、ユーザインターフェースの制御、デバイス９５０によって実行されるアプリケーションおよびデバイス９５０による無線通信等のデバイス９５０の他のコンポーネントの調整のために提供されてもよい。

プロセッサ９５２は、ディスプレイ９５４に接続された制御インターフェース９５８およびディスプレイインターフェース９５６を通してユーザと通信してもよい。ディスプレイ９５４は、例えば、ＴＦＴＬＣ（薄膜トランジスタ液晶ディスプレイ）またはＯＬＥＤ（有機発光ダイオード）ディスプレイまたは他の適切なディスプレイ技術であってもよい。ディスプレイインターフェース９５６は、グラフィックおよび他の情報をユーザに提示するためにディスプレイ９５４を駆動するための適切な回路を備えてもよい。制御インターフェース９５８は、ユーザから指令を受け取り、それらをプロセッサ９５２に提出するために変換してもよい。さらに、外部インターフェース９６２が、デバイス９５０の他のデバイスとの近距離通信を可能にするように、プロセッサ９５２と通信して提供されてもよい。外部インターフェース９６２は、例えば、いくつかの実装例での有線通信または他の実装例での無線通信を提供してもよく、多数のインターフェースが使用されてもよい。

メモリ９６４は、コンピューティングデバイス９５０内に情報を記憶する。メモリ９６４は、１以上のコンピュータ可読媒体、揮発性メモリユニットまたは不揮発性メモリユニットとして実装できる。拡張メモリ９８４はまた、例えば、ＳＩＭＭ（シングルインラインメモリモジュール）カードインターフェースを含んでもよい拡張インターフェース９８２を通して提供され、デバイス９５０に接続されてもよい。このような拡張メモリ９８４は、デバイス９５０のための余剰ストレージ空間を提供してもよいし、デバイス９５０のためのアプリケーションまたは他の情報を記憶してもよい。具体的には、拡張メモリ９８４は、上記のプロセスを実行または補足するための命令を含んでもよく、安全情報もまた含んでもよい。このように、例えば、拡張メモリ９８４は、デバイス９５０のためのセキュリティモジュールとしての機能を果たしてもよく、デバイス９５０の安全な使用を許可する命令がプログラムされていてもよい。さらに、安全アプリケーションは、ＳＩＭＭカードを介して、ハッキング不可能な方法でＳＩＭＭカードに識別情報を配置する等の付加情報とともに提供されてもよい。

メモリは、以下に説明されるように、例えば、フラッシュメモリおよび／またはＮＶＲＡＭメモリを含んでもよい。一実装例では、コンピュータプログラム製品は、情報キャリアに明確に具現化される。コンピュータプログラム製品は、実行されると、上記のような１以上の方法を行う命令を含む。情報キャリアは、例えば、トランシーバ９６８または外部インターフェース９６２を介して受信されてもよい、メモリ９６４、拡張メモリ９８４またはプロセッサ９５２上のメモリ等のコンピュータまたは機械可読媒体である。

デバイス９５０は、必要に応じてデジタル信号処理回路を含んでもよい通信インターフェース９６６を通して無線で通信してもよい。通信インターフェース９６６は、とりわけ、ＧＳＭ音声通話、ＳＭＳ、ＥＭＳもしくはＭＭＳメッセージング、ＣＤＭＡ、ＴＤＭＡ、ＰＤＣ、ＷＣＤＭＡ（登録商標）、ＣＤＭＡ２０００またはＧＰＲＳ等の様々なモードまたはプロトコル下における通信を提供してもよい。このような通信は、例えば、無線周波数トランシーバ９６８を通して起こってもよい。さらに、ＢＬＵＥＴＯＯＴＨ（登録商標）、ＷｉＦｉまたは他のこのようなトランシーバ（不図示）を使用するなどして、短距離通信が起こってもよい。さらに、ＧＰＳ（全地球測位システム）受信モジュール９８０が、デバイス９５０に対し追加的なナビゲーションおよび位置に関連する無線データを提供してもよく、これはデバイス９５０上で実行されるアプリケーションによって必要に応じて使用されてもよい。

デバイス９５０はまた、ユーザから話した情報を受け取り、それを使用可能なデジタル情報に変換し得るオーディオコーデック９６０を使用して聴覚的に通信してもよい。オーディオコーデック９６０は同様に、例えば、デバイス９５０の受話器のスピーカを通して等、ユーザのために可聴音を生成してもよい。このような音は、音声電話からの音を含んでもよく、録音された音（例えば、音声メッセージ、音楽ファイル等）を含んでもよく、デバイス９５０上で動作するアプリケーションによって生成された音を含んでもよい。

コンピューティングデバイス９５０は、図に示されるように、数ある異なる形態で実装されてもよい。例えば、携帯電話９８０として実装されてもよい。また、スマートフォン９８２、携帯情報端末またはその他の同様のモバイルデバイスの一部として実装されてもよい。

ここで説明されるシステムおよび技術の様々な実装例は、デジタル電子回路、集積回路、特別設計ＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェアおよび／またはそれらの組み合わせで実現できる。これらの様々な実装例は、少なくとも１つのプログラム可能なプロセッサを含むプログラム可能なシステム上で実行可能および／または解釈可能な１以上のコンピュータプログラムにおける実装を含むことができ、少なくとも１つのプログラム可能なプロセッサは、特別または汎用であってもよく、ストレージシステム、少なくとも１つの入力デバイスおよび少なくとも１つの出力デバイスからデータおよび命令を受信し、ストレージシステム、少なくとも１つの入力デバイスおよび少なくとも１つの出力デバイスにデータおよび命令を送信するために接続されている。

（プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られている）これらのコンピュータプログラムは、プログラム可能なプロセッサのための機械語命令を含み、高水準手続き型言語および／もしくはオブジェクト指向プログラミング言語で、ならびに／またはアセンブリ言語／機械語で実装できる。本明細書中で使用される場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械語命令を機械可読信号として受信する機械可読媒体を含む、機械語命令および／またはデータをプログラム可能なプロセッサに提供するために使用される、任意のコンピュータプログラム製品、装置および／またはデバイス（例えば、磁気ディスク、光学ディスク、メモリ、プログラム可能な論理素子（ＰＬＤ））を指す。「機械可読信号」という用語は、プログラム可能なプロセッサに機械語命令および／またはデータを提供するために使用される任意の信号を指す。

ユーザとの相互作用を提供するために、本明細書に説明されているシステムおよび技術は、ユーザに情報を表示するためのディスプレイデバイス（例えば、ＣＲＴ（陰極線管）またはＬＤＣ（液晶ディスプレイ）モニタ）と、それによってユーザがコンピュータに入力を提供できるキーボードおよびポインティングデバイス（例えば、マウスまたはトラックボール）を有するコンピュータ上で実装できる。また、ユーザとの相互作用を提供するために、他の種類のデバイスを使用することもできる。例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック（例えば、視覚的フィードバック、聴覚的フィードバックまたは触覚的フィードバック）であることができる。また、ユーザからの入力は、音響、音声または触覚入力を含む任意の形態で受け取ることができる。

ここで説明されているシステムおよび技術は、（例えば、データサーバとしての）バックエンドコンポーネントを含む、またはミドルウェアコンポーネント（例えば、アプリケーションサーバ）を含む、またはフロントエンドコンポーネント（例えば、ユーザがそれを通してここで説明されているシステムおよび技術の実装と相互作用できるグラフィカルユーザインターフェースまたはウェブブラウザ有するクライアントコンピュータ）を含む、またはこのようなバックエンド、ミドルウェアならびにフロントエンドコンポーネントの任意の組み合わせであるコンピューティングデバイスに実装できる。システムのコンポーネントは、デジタルデータ通信の任意の形態または媒体（例えば、通信ネットワーク）によって相互接続できる。通信ネットワークの例として、ローカルエリアネットワーク（「ＬＡＮ」）、広域ネットワーク（「ＷＡＮ」）、およびインターネットが挙げられる。

コンピューティングデバイスは、クライアントおよびサーバを含むことができる。クライアントおよびサーバは一般的に互いから遠隔であり、典型的に通信ネットワークを通じて相互作用する。クライアントとサーバの関係性は、各コンピュータで実行され、互いに対しクライアント対サーバの関係性を持つコンピュータプログラムによって生じる。

いくつかの実施形態が説明された。しかしながら、本発明の思想および範囲から逸脱することなく、様々な改良が行われもよいことが理解されるであろう。

さらに、図に示される論理フローは、希望の結果を実現するために、示されている特定の順序または連番での順序である必要はない。さらに、他のステップが提供されてもよいし、ステップが説明されたフローから削除されてもよく、他のコンポーネントが説明されたシステムに追加または説明されたシステムから削除されてもよい。従って、他の実施形態は以下の特許請求の範囲内にある。

さらに、本発明の実施形態、特に本発明の方法は、農業機械と相互作用し、農業機械を操作、制御および／またはモニタリングするために使用されてもよい。本発明の好適な実施形態として、本発明の方法は、農業機械を操作、制御および／またはモニタリングするための制御信号またはオンオフ信号等の信号を出力するステップをさらに含む。本発明の有利な実施形態として、本発明の方法は、本発明の方法における雑草の識別または植物の識別ステップの結果に応じて、農業機械を操作、制御、および／またはモニタリングするための制御信号またはオンオフ信号等の信号を出力するステップをさらに含む。さらに好適には、特定の雑草が識別された場合、この特定の雑草を対象とする方法で農業機械を操作するための制御またはオンオフ信号が出力され、例えば、この特定の雑草を対象とした除草剤または他の作物保護剤を噴霧もしくは散布するために、または噴霧もしくは散布の準備のために農業機械を操作するための制御信号が出力される。有利には、特定の雑草が識別され、（例えば、雑草の量、雑草体積の量、面積（例えば、ヘクタール）またはこの雑草が識別された地理的位置の数に関する）この特定の雑草に関連する特定の事前定義された閾値を上回る場合、この特定の雑草を対象とした方法で農業機械を操作するための制御またはオンオフ信号が出力される。例えば、この特定の雑草を対象とする除草剤または他の作物保護剤を噴霧もしくは散布するために、または噴霧もしくは散布の準備のために農業機械を操作するための制御信号が出力される。農業機械は、フィールドの植物を処理するための１以上の処理機構を含んでもよい。処理機構には、雑草、病害または昆虫を処理するための化学的、機械的、電気的処理機構またはこのような処理機構の組み合わせが含まれる。農業機械は、検出および制御システムをさらに含んでもよい。検出システムは、スマート機械がフィールドを移動するに合わせて、フィールドの状況において検出するように構成されていてもよい。制御システムは、検出されたフィールドの状況に基づいて処理機構を制御するように構成されていてもよい。

一実施形態では、処理機構は化学処理機構である。このような実施形態の農業機械は、化学薬品または作物保護剤をフィールドに散布するための１以上のノズルを有する噴霧器を含む。

一実施形態では、検出システムは農業機械がフィールドを横断するに合わせてフィールドの状況を検出するための１以上の検出コンポーネントを備える。検出コンポーネントは、フィールドの画像を撮影するカメラ等の光学的検出コンポーネントであってもよい。光学的検出コンポーネントは、例えば、画像記録装置９０であってもよい（図１参照）。

さらなる実施形態では、農業機械は１以上の検出コンポーネントに関連する１以上の処理要素を含む。このような実施形態では、検出コンポーネントは駆動方向で見た場合に処置要素の前に配置されてもよい。このようにして、検出コンポーネントはフィールドの状況を感知でき、システムは感知されたフィールドの状況を分析でき、このような分析に基づいて処置要素を制御できる。これにより、農業機械がフィールドを横断している間、処理時に存在するリアルタイムのフィールド状況に基づいた対象を絞った処理が可能になる。

さらなる実施形態では、噴霧器は多数の光学的検出コンポーネントに関連する多数のノズルを含む。このような実施形態では、光学的検出コンポーネントは、駆動方向から見たときにノズルの前に配置される。さらに、光学的検出コンポーネントのそれぞれは、噴霧器がフィールド内を移動する際に、光学的コンポーネントの視野と関連するノズルの噴霧形状が少なくとも部分的に重なるように、ノズルに関連付けられている。

さらなる実施形態では、制御システムは検出システムによって提供されるような感知されたフィールドの状況を分析するように構成されている。このような分析に基づいて、処置機構の位置が分析されたフィールドの位置に達すると、制御システムは処置機構を作動させるための制御信号を生成するようにさらに構成されている。

図６は、分散型コンピュータ環境の一部としてのスマート農業機械２１０を示す。

スマート農業機械２１０は、スマート噴霧器であってもよく、接続システム２１２を含む。
接続システム２１２は、スマート農業機械２１０を分散型コンピュータ環境に通信可能に接続するように構成されている。スマート農業機械２１０で収集されたデータを、分散型コンピュータ環境の１以上のリモートコンピューティングリソース２１２、２１４、２１６に提供するように構成されていてもよい。１つのコンピューティングリソース２１２、２１４、２１６は、スマート農業機械２１０にデータを送信するように、またはスマート農業機械２１０からデータを受信するように構成されていてもよいデータ管理システム２１４であってもよい。例えば、検出マップとして、または散布中に記録されたデータを含む散布マップとして、スマート農業機械１０からデータ管理システム２１４に送信されてもよい。さらなるコンピューティングリソース２１２、２１４、２１６は、制御プロトコル、起動コードもしくは決定ロジックをスマート農業機械２１０に提供するように、またはスマート農業機械２１０からデータを受信するように構成されていてもよいフィールド管理システム２１６であってもよい。このようなデータはまた、データ管理システム２１４を通して受信さてもよい。さらに、さらなるコンピューティングリソース２１２、２１４、２１６は、フィールド管理システム２１４および／またはスマート農業機械２１０からクライアントデータを受信するように構成されていてもよいクライアントコンピュータ２１６であってもよい。このようなクライアントデータは、例えば、スマート農業機械２１０を使用して特定のフィールドで実施される予定の散布スケジュール、または特定のフィールドの健康状態に対する見識を提供するためのフィールド分析データを含む。

図７は、スマート噴霧器システムの例を示す。

システムは、除草剤、殺菌剤または殺虫剤等の農薬を散布するための噴霧器２２０を有するトラクタを備える。噴霧器２２０は、トラクタに脱着可能に取り付けられていてもよいし、直接的に取り付けられていてもよい。噴霧器２２０は、噴霧器２２０のブームに沿って配置されている多数のノズル２２２を有するブームを備える。ノズル２２２は、規則的または不規則的な間隔でブームに沿って固定または移動可能に配置されていてもよい。各ノズル２２２は、ノズル２２２からフィールドへの流体放出を調整するための制御可能バルブを含む。

１以上のタンク２４が、パイプ２２６を通してノズル２２２と流体接続されている。各タンク２２４は、フィールド上に分散される流体混合液の１以上の成分を保持する。これには、除草剤混合物、除草剤混合物の成分、特定の雑草に対する選択的な除草剤、殺菌剤、殺菌剤混合物、殺菌剤と植物成長調整剤混合物、植物成長調整剤、水、油等のような化学的に活性または不活性な成分が含まれていてもよい。各タンク２２４は、タンク２２４からパイプ２２６までの流体放出を調整するための制御可能バルブをさらに備えていてもよい。このような装置は、フィールドに放出される混合液を制御することを可能にする。

さらに、スマート噴霧器システムは、ブームに沿って配置された多数の検出コンポーネント２３０を有する検出システム２２８を含む。検出コンポーネント２３０は、規則的または不規則的な間隔でブームに沿って固定または移動可能に配置されてもよい。検出コンポーネント２３０は、１以上のフィールドの状況を感知するように構成されている。検出コンポーネント２３０は、フィールドの画像を提供する光学的検出コンポーネント２３０であってもよい。適切な光学的検出コンポーネント２３０は、マルチスペクトルカメラ、ステレオカメラ、ＩＲカメラ、ＣＣＤカメラ、ハイパースペクトルカメラ、超音波またはＬＩＤＡＲ（光検出および測距システム）カメラである。代替的にまたは追加的に、検出コンポーネント２３０は、湿度、光、温度、風またはその他の適切なフィールドの状況を測定するためのセンサを含んでもよい。

検出コンポーネント２３０は、（駆動方向から見ると）ノズル２２２の前に配置されている。
図１に示す実施形態では、検出コンポーネント２３０は光学的検出コンポーネントであり、ノズルが各位置に達すると、視野がフィールド上の各ノズル２２２の噴霧形状を含むまたは噴霧形状に少なくとも重なるように、各検出コンポーネント２３０は、単一のノズル２２２に関連付けられている。他の装置では、各検出コンポーネント３０が、１を超えるノズル２２２に関連付けられてもよいし、１を超える検出コンポーネント３０が、各ノズル２２２に関連付けられてもよい。

検出コンポーネント２３０、タンクバルブおよびノズルバルブは、制御システム２３２に通信可能に接続されている。図１に示される実施形態では、制御システム２３２が、主噴霧器ハウジング内に位置づけられ、各コンポーネントに配線されている。別の実施形態では、検出コンポーネント２３０、タンクバルブまたはノズルバルブは、制御システム２３２に無線で接続されていてもよい。さらに別の実施形態では、１を超える制御システム２３２が噴霧器ハウジングまたはトラクタに分散されていてもよく、検出コンポーネント２３０、タンクバルブまたはノズルバルブに通信可能に接続されていてもよい。

制御システム２３２は、制御プロトコルに従って、検出コンポーネント、タンクバルブまたはノズルバルブを制御および／またはモニタリングするように構成されている。この点において、制御システム２３２は、多数のモジュールを備えてもよい。１つのモジュールは、例えば、検出コンポーネントを制御して、フィールドの画像等のデータを収集する。さらなるモジュールは、画像等の収集されたデータを分析して、タンクまたはノズルバルブ制御のためのパラメータを導き出す。さらに、さらなるモジュールは、このような導き出されたパラメータに基づいてタンクおよび／またはノズルバルブを制御する。

図８は、化学的制御機構を介して雑草、病害または昆虫を制御するためのスマート噴霧器システムのための制御プロトコルを示す。

スマート噴霧器がフィールドでの散布操作を始動すると、スマート噴霧器システムの制御プロトコルがトリガされてもよい。第１ステップ２４０では、光学的検出コンポーネントがトリガされて、フィールドの画像等のデータを提供する。第２ステップ２４２では、各光学的検出コンポーネントによって提供された画像等の提供データが、化学制御機構の対象に応じて、雑草、病害または昆虫に関して分析される。本発明のコンテキストにおいては、このような画像は本発明の方法を使用して分析される。第３ステップ２４４では、このような分析からパラメータが導き出され、タンクおよびノズルバルブのための制御信号が導出および／または出力される。例えば、本発明の方法を使用して特定の雑草が識別された場合、識別された雑草を対象とする特定の除草剤または作物保護剤を噴霧もしくは散布するため、または噴霧もしくは散布の準備のためのタンクおよびノズルバルブの制御信号が導出および／または出力される。第４ステップ２４６では、このような制御信号が各タンクおよび／またはノズルバルブに提供される。

システム設定のおかげで、各タンクおよびノズルバルブは個別に制御できる。従って、１つの画像のみが雑草の存在を表す場合、その光学検出コンポーネントの視野をカバーする噴霧形状を有する光学検出コンポーネントに関連付けられた各ノズルのみがトリガされる。同様に、多数の画像が雑草の存在を示す場合、本発明の方法を使用した画像分析が行われた後、それらの光学的検出コンポーネントの視野をカバーする噴霧形状を有するそれらの光学的検出コンポーネントに関連する各ノズルがトリガされる。

このような対象を絞った処置に加えて、タンクバルブの制御は、フィールドの光学的検出コンポーネントによって感知される状況に応じて、処置の組成の調整を可能にする。例えば、第１タンクは、第１有効成分組成物を含む第１除草剤を含んでもよく、第２タンクは、第２有効成分組成物を含む第２除草剤を含んでもよい。本発明の方法を使用する画像分析の結果に応じて、第１または第２または両方のタンクのバルブをトリガして、フィールドに散布するために各除草剤を提供してもよい。

他の有利な実施形態では、作物保護剤を散布するための可変レートアプリケーション（ＶＲＡ）マップが、本発明の方法を使用する画像分析に基づいて生成されてもよく、ここで、これから分析される画像は、例えば、農業機械、無人航空機（例えば、ドローン）または任意の移動可能装置に取り付けられてもよい画像記録装置９０を通して得られる。この可変作業適用（ＶＲＡ）マップは、後に他の農業機械、無人航空機、除草剤または作物保護剤を適用するための移動可能装置によって使用されてもよい。

他の有利な実施形態では、本発明の方法を使用する画像分析は、散布が実施された後、例えば、この散布が実施されてから１日、２日、３日、４日、５日、６日、７日、１０日、２週間、３週間、４週間後の例えば、この散布の有効性、適時性および完全性の観点において、除草剤または作物保護剤の散布をモニタリングするためにも使用できる。この画像分析の結果、特に本発明の方法における雑草識別または植物識別のステップの結果に応じて、農業機械を操作、制御および／またはモニタリングするための制御信号またはオンオフ信号等の信号が出力されてもよい。

Claims

トポロジーを有する二重タスク畳み込みニューラルネットワーク（１２０）を使用して農地で雑草を識別するためのコンピュータに実装される方法（１０００）であって、
前記トポロジーを有する二重タスク畳み込みニューラルネットワーク（１２０）は、
テスト入力画像（９１）上に存在する雑草種（１１、１２、１３）を判定するにあたって、第１損失関数（ＬＦ１）と関連付けられている第１タスクを実行するように構成されている中間モジュール（１２１）と、
前記テスト入力画像（９１）の画素毎に、前記判定された雑草種を含むクラスを判定するために前記テスト入力画像（９１）をセグメント化するにあたって、第２の異なる損失関数（ＬＦ２）と関連付けられている第２タスクを実行するように構成されているセマンティック・セグメンテーション・モジュール（１２２）と、
を備え、
前記中間モジュールおよび前記セグメンテーション・モジュールは、前記第１損失関数および前記第２損失関数（ＬＦ１、ＬＦ２）を考慮して、一緒にトレーニングされ、
前記方法は、
圃場における作物種の作物植物と、前記作物植物の間にある１以上の雑草種の雑草植物とを表す画像を含むテスト入力（９１）を受信すること（１１００）と、
前記テスト入力画像から前記中間モジュールの入力の形状の次元を有するタイルを抽出すること（１２００）と、
抽出されたタイル毎に、
前記中間モジュール（１２１）は、前記各タイルに存在する１以上の雑草種の存在を予測（１３００）し、
前記中間モジュール（１２１）は、前記第１タスクの出力として前記セグメンテーション・モジュール（１２２）に対応する中間特性マップ（１２１－ｏ１）を出力（１４００）し、
前記セグメンテーション・モジュールは、前記中間特性マップからマルチスケール特性およびコンテキスト情報を抽出（１５００）し、前記抽出された情報を連結（１６００）させて、セマンティック・セグメンテーションを行うことで、前記第２タスクのセグメンテーション出力として雑草種クラス毎にマスクを生成（１７００）し、前記マスクは、タイルと同じサイズを有する画像であり、前記マスク上の各画素は、関連づけられたクラスに属する前記画素の確率を表す値に関連付けられており、
前記生成されたマスクを、特定の雑草種に属しているかどうか、および属している場合、どの雑草種に属しているのかを画素毎に示している最終画像へと組み合わせる（１８００）こととを備える方法。
前記中間モジュールは、分類ニューラルネットワークによって実装される、請求項１に記載の方法。
前記第１損失関数（ＦＬ１）は、各サンプル画素が属する前記クラスに応じて重み付けされる「重み付けバイナリ交差エントロピー」であり、前記中間モジュール（１２１）は、「シグモイド」を最後の活性化層として使用して、複数のクラスの存在を同時にサポートする、請求項１または２に記載の方法。
前記中間モジュールは、回帰型ニューラルネットワークによって実装される、請求項１に記載の方法。
前記第１損失関数（ＦＬ１）は、「平均二乗誤差」または「平均誤差」であり、前記中間モジュール（１２１）は、「線形」または「シグモイド」を最後の活性化層として使用して、複数のクラスの存在の検出を同時にサポートする、請求項４に記載の方法。
前記セグメンテーション・モジュールに関連付けられている前記第２損失関数（ＦＬ２）は、「重み付けカテゴリ交差エントロピー」である、請求項１から５のいずれか一項に記載の方法。
前記中間モジュールを前記セグメンテーション・モジュールと一緒にトレーニングするために使用される画像トレーニングデータセットは、
作物種（１０）の作物植物と、前記作物植物の間にある１以上の雑草種（１１、１２、１３）の雑草植物とを有する圃場内の実際の状況を表す画像（４１－ａ）を有し、トレーニング画像の前記画素が属する種を示す手動画素アノテーション（４１－１、４１－２、４１－３）を有する第１データサブセット、並びに
土壌の背景画像に貼り付けられる、各単一植物画像が単一種の植物を表す単一植物画像から得られる異なる雑草種の複数の雑草植物を表す画像（４２－ａ）を有し、単一雑草種に属する前記画素の自動アノテーション（４２－１、４２－３、４２－４）を有する第２データサブセット、及び
単一雑草種の複数の雑草植物を表す画像（４３－ａ）を有し、前記単一雑草種に属する前記画素の自動アノテーション（４２－３、４３－１、４３－４）を有する第３データサブセット、
の少なくとも１つと、
を備える、請求項１から６のいずれか一項に記載の方法。
前記セグメンテーション・モジュール（１２２）は、ピラミッドプーリングモジュールにより実装される、請求項１から７のいずれか一項に記載の方法。
前記ピラミッドプーリングモジュールは、ＰＳＰＮｅｔトポロジーに基づく、請求項８に記載の方法。
前記ピラミッドプーリングモジュールは、前記中間特性マップ（１２１ｏ１）をスキャンし、マルチスケール特性検出のための４つの配列を作成して、異なるスケールとサイズの情報を統合する異なる受容野を有する４つの分離したフィルタ（１２２－２）を備える、請求項８または９に記載の方法。
前記ピラミッドプーリングモジュールは、各配列の画像サイズを、バイリニア補間法を使用して、前記中間特性マップ（１２１ｏ１）の前記サイズに復元するように構成されている複数のアップサンプリング層をさらに備える、請求項１０に記載の方法。
前記ピラミッドプーリングモジュールは、前記４つの分離したフィルタからコンテキスト情報を抽出し、前記コンテキスト情報を異なるスケールとサイズの情報と結合させて、前記中間特性マップ（１２１－ｏ１）と同じサイズの最終特性マップ（１２２－４ｏ）を生成するように構成されている畳み込み層（１２２－４）をさらに備える、請求項１１に記載の方法。
前記ピラミッドプーリングモジュールは、最後の活性化層「ｓｏｆｔｍａｘ」を有する前記生成されたマスクとして、最終的な画素単位の予測を計算する全結合層（１２２－５）をさらに備える、請求項１２に記載の方法。
特定の雑草が識別された場合、農業機械を操作、制御および／またはモニタリングするための信号を出力することをさらに備え、
前記信号は、前記特定の雑草を対象とした除草剤または他の作物保護剤を噴霧または散布することをトリガするように構成されている、請求項１から１３のいずれか一項に記載の方法。
コンピューティングデバイスのメモリにロードされて、前記コンピューティングデバイスの少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに請求項１から１４のいずれか一項に記載の前記コンピュータに実装される方法のステップを実行させる、農地において雑草を識別するためのコンピュータプログラム製品。
メモリと、少なくとも１つのプロセッサとを備えるコンピュータシステムであって、少なくとも１つのプロセッサによって実行されると、前記コンピュータシステムに請求項１から１４のいずれか一項に記載の前記コンピュータに実装される方法のステップを実行させるソフトウェアモジュールをさらに備える、農地において雑草を識別するためのコンピュータシステム。
トポロジーを有する二重タスク畳み込みニューラルネットワーク（１２０）を使用して圃場で植物種を識別するためのコンピュータに実装される方法（１０００）であって、
前記トポロジーを有する二重タスク畳み込みニューラルネットワーク（１２０）は、
テスト入力画像（９１）上に存在する植物種（１１、１２、１３）を判定するにあたって、第１損失関数（ＬＦ１）と関連付けられている第１タスクを実行するように構成されている中間モジュール（１２１）と、
前記テスト入力画像（９１）の画素毎に、前記判定された植物種を含むクラスを判定するために前記テスト入力画像（９１）をセグメント化するにあたって、第２の異なる損失関数（ＬＦ２）と関連付けられている第２タスクを実行するように構成されているセマンティック・セグメンテーション・モジュール（１２２）と、
を備え、
前記中間モジュールおよび前記セグメンテーション・モジュールは、前記第１損失関数および前記第２損失関数（ＬＦ１、ＬＦ２）を考慮して、一緒にトレーニングされ、
前記方法は、
圃場における複数の植物種の植物を表す画像を含むテスト入力（９１）を受信すること（１１００）と、
前記テスト入力画像から前記中間モジュールの入力の形状の次元を有するタイルを抽出すること（１２００）と、
抽出されたタイル毎に、
前記中間モジュール（１２１）は、前記各タイルに存在する１以上の植物種の存在を予測（１３００）し、
前記中間モジュール（１２１）は、前記第１タスクの出力として前記セグメンテーション・モジュール（１２２）に対応する中間特性マップ（１２１－ｏ１）を出力（１４００）し、
前記セグメンテーション・モジュールは、前記中間特性マップからマルチスケール特性およびコンテキスト情報を抽出（１５００）し、前記抽出された情報を連結（１６００）させて、セマンティック・セグメンテーションを行うことで、前記第２タスクのセグメンテーション出力として植物種クラス毎にマスクを生成（１７００）し、前記マスクは、タイルと同じサイズを有する画像であり、ここで前記マスク上の各画素は、関連づけられたクラスに属する前記画素の確率を表す値に関連付けられており、
前記生成されたマスクを、特定の植物種に属しているかどうか、および属している場合、どの植物種に属しているのかを画素毎に示している最終画像へと組み合わせる（１８００）こととを備える方法。
特定の雑草が識別された場合、農業機械を操作、制御および／またはモニタリングするための信号を出力することをさらに備え、
前記信号は前記特定の雑草を対象とした除草剤または他の作物保護剤を噴霧または散布することをトリガするように構成されている、請求項１７記載の方法。
トポロジーを有する二重タスク畳み込みニューラルネットワーク（１２０）を使用して圃場で植物種と植物果実を識別するためのコンピュータに実装される方法であって、
前記トポロジーを有する二重タスク畳み込みニューラルネットワーク（１２０）は、
テスト入力画像（９１）上に存在する植物種（１１、１２、１３）と各植物種（１２）の植物果実（１２ｆ）を判定するにあたって、第１損失関数（ＬＦ１）と関連付けられている第１タスクを実行するように構成されている中間モジュール（１２１）と、
前記テスト入力画像（９１）の画素毎に、前記判定された植物種と植物果実とを含むクラスを判定するために前記テスト入力画像（９１）をセグメント化するにあたって、第２の異なる損失関数（ＬＦ２）と関連付けられている第２タスクを実行するように構成されているセマンティック・セグメンテーション・モジュール（１２２）と、
を備え、
前記中間モジュールおよび前記セグメンテーション・モジュールは、前記第１損失関数および前記第２損失関数（ＬＦ１、ＬＦ２）を考慮して、一緒にトレーニングされ、
前記方法は、
植物果実を持つ少なくとも１つの植物を有する圃場における複数の植物種の植物を表す画像を含むテスト入力（９１）を受信することと、
前記テスト入力画像から前記中間モジュールの入力の形状の次元を有するタイルを抽出することと、
抽出されたタイル毎に、
前記中間モジュール（１２１）は、前記各タイルに存在する１以上の植物種と各植物種の植物果実の存在を予測し、
前記中間モジュール（１２１）は、前記第１タスクの出力として前記セグメンテーション・モジュール（１２２）に対応する中間特性マップ（１２１－ｏ１）を出力（１４００）し、
前記セグメンテーション・モジュールは、前記中間特性マップからマルチスケール特性およびコンテキスト情報を抽出し、前記抽出された情報を連結させて、セマンティック・セグメンテーションを行うことで、前記第２タスクのセグメンテーション出力として植物種クラスと植物果実クラス毎にマスクを生成し、前記マスクは、タイルと同じサイズを有する画像であり、ここで前記マスク上の各画素は、関連づけられたクラスに属する前記画素の確率を表す値に関連付けられており、
前記生成されたマスクを、特定の植物種または特定の植物果実クラスに属しているかどうか、および属している場合、どの植物種または特定の植物果実クラスに属しているのかを画素毎に示している最終画像へと組み合わせることとを備える方法。
前記圃場で栽培される作物に関連付けられている特定の植物果実クラスに属する画素の数を判定することと、
前記特定の植物果実クラスに属する画素の数の対応する作物植物種に属する画素の数との比率を推定することと、
をさらに備える、請求項１９記載の方法。
特定の雑草が識別された場合、農業機械を操作、制御および／またはモニタリングするための信号を出力することをさらに備え、
前記信号は前記特定の雑草を対象とした除草剤または他の作物保護剤を噴霧または散布することをトリガするように構成されている、請求項１９および２０記載の方法。