JP7387847B2

JP7387847B2 - オブジェクトの検出方法、装置、デバイス、媒体及びプログラム

Info

Publication number: JP7387847B2
Application number: JP2022149839A
Authority: JP
Inventors: ユー，グァンファ; ダン，チンチン; ワン，ハオシュアン; ワン，グァンヂョン; フー，シァオグァン; ユー，ディエンハイ; マー，イェンジュン; リウ，チーウェン; ウェン，ツァン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-10-15
Filing date: 2022-09-21
Publication date: 2023-11-28
Anticipated expiration: 2042-09-21
Also published as: JP2022173321A; CN113947144B; US20230031579A1; CN113947144A; US11620815B2

Description

本開示は、深層学習の分野に関し、特に画像内のオブジェクトの検出方法、装置、電子機器、記憶媒体およびコンピュータープログラムに関する。

オブジェクト検出技術（対象検出、ＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎとも呼ばれる）とは、画像やビデオ内の関心のある物体を見つけて、その位置とサイズを検出する技術を指す。オブジェクト検出は、コンピュータービジョンの分野で最も重要かつ困難なタスクの１つであり、工業品質検査、知能交通、および自動運転などの分野に適用されている。

近年、深層学習技術の台頭に伴いオブジェクト検出技術が広く注目されると同時に、応用および実装でも画期的な進歩があり、オブジェクト検出アルゴリズムは一般的に１段階アルゴリズムと２段階アルゴリズムに分けられる。１段階のオブジェクト検出アルゴリズムはシンプルで予測速度が速く、一般的にＣＰＵとモバイルエッジデバイスに展開され、２段階のブジェクト検出アルゴリズムはより複雑で、予測速度は遅いが、精度が高く、一般的にＧＰＵサーバー側に展開される。今日、リアルタイムの効率を達成するために、業界では新しい低パラメーター量および低計算量のオブジェクト検出モデルを次々と提案し、推論ライブラリの構築を加速して、オブジェクト検出テクノロジを展開しやすくしている。

本開示は、画像内のオブジェクトの検出方法、装置、電子機器、記憶媒体およびコンピュータープログラムを提供する。

本開示の第１の態様によれば、画像内のオブジェクトの検出方法を提供し、検出対象の画像を取得するステップと、検出対象の画像に基づいて、オブジェクト検出のためのトレーニングされたニューラルネットワークモデル内の複数の特徴抽出ネットワークを介して、複数の特徴マップを生成するステップであって、複数の特徴抽出ネットワークが順に接続され、複数の特徴抽出ネットワークのうち後の特徴抽出ネットワークの入力データは、前の特徴抽出ネットワークの出力データおよび入力データに基づいているステップと、複数の特徴マップに基づいて、ニューラルネットワークモデル内のオブジェクト検出ネットワークを介して、オブジェクト検出結果を生成するステップと、を含む。

本開示の第２の態様によれば、画像内のオブジェクトの検出装置を提供し、検出対象の画像を取得する画像取得モジュールと、前記検出対象の画像に基づいて、オブジェクト検出のためのトレーニングされたニューラルネットワークモデル内の複数の特徴抽出ネットワークを介して、複数の特徴マップを生成する特徴抽出モジュールであって、前記複数の特徴抽出ネットワークが順に接続され、前記複数の特徴抽出ネットワークのうち後の特徴抽出ネットワークの入力データは、前の特徴抽出ネットワークの出力データおよび入力データに基づいている特徴抽出モジュールと、前記複数の特徴マップに基づいて、前記ニューラルネットワークモデル内のオブジェクト検出ネットワークを介して、オブジェクト検出結果を生成するオブジェクト検出モジュールと、を含む。

本開示の第３の態様によれば、電子機器を提供し、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサが第１の態様に記載の方法を実行できるように、前記少なくとも１つのプロセッサによって実行される。

本開示の第４の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに第１の態様に記載の方法を実行させる。

本開示の第５の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行される場合、第１の態様に記載の方法が実現される。

本開示の技術案によれば、マルチスケールの特徴融合を実現し、マルチスケールの特徴抽出能力を強化することができる。

なお、この部分に記載の内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していない。本出願の他の特徴は下記の明細書の記載を通して理解しやすくなる。

図面は、本出願をより良く理解するためのものであり、本開示を限定するものではない。
本開示の実施例による情報処理環境１００の模式図である。本開示の実施例による画像内のオブジェクトの検出方法２００の模式図である。本開示の実施例によるニューラルネットワークモデル３００の概略ブロック図である。本開示の実施例によるニューラルネットワークモデル４００の概略ブロック図である。本開示の実施例による残差畳み込みネットワーク５００の概略ブロック図である。本開示の実施例によるオブジェクト検出ネットワーク６００の概略ブロック図である。本開示の実施例によるオブジェクト検出結果を生成するための方法７００の模式図である。本開示の実施例によるオブジェクト検出結果を生成するための方法８００の模式図である。本開示の実施例による画像内のオブジェクトの検出装置９００の概略ブロック図である。本開示の実施例の画像内のオブジェクトの検出方法を実現するための電子機器１０００のブロック図である。

以下、図面と組み合わせて本出願の例示的な実施例を説明する。理解を容易にするために、その中には本発明の実施例の様々な詳細が含まれ、それらは単なる例示と見なされるべきである。したがって、当業者は、本発明の範囲及び精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更及び修正を行うことができる。また、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

前述したように、オブジェクト検出モデルは推論と展開においてコンピューティングパフォーマンスを継続的に最適化しているが、コンピューティングのパフォーマンスボトルネックを回避することはできないため、モデル設計においては効率的で展開が容易であることを確保するとともに、検出精度が要件を満たしていることも確保する必要がある。現在、オブジェクト検出に使用されているモデルのほとんどは、サーバー側での展開にのみ適しており、モバイル端末への展開に適したモデルは、一般的なモバイル端末ではリアルタイムを実現するのが難しいか、精度が低い。

具体的には、一方では、従来のモバイル端末の検出モデルのほとんどがサーバー側から移行され、ネットワークの全体的な構造はあまり変わっていないが、ネットワークパラメータ量と計算量が大幅に圧縮されているため、モデルの精度が大幅に低下し、実際の展開と使用での精度要件を満たすことは困難である。他方では、モバイル端末のモデルの設計とトレーニングには、サーバー側のモデルの従来の方法を使用しており、特に適用されるわけではない。

上記課題およびその他の潜在的な課題の１つまたは複数を少なくとも部分的に解決するために、本開示の例示的な実施例は、画像内のオブジェクト検出のための技術案を提供する。この技術案では、コンピューティングデバイスは、検出対象の画像を取得する。次に、コンピューティングデバイスは、検出対象の画像に基づいて、オブジェクト検出のためのトレーニングされたニューラルネットワークモデル内の複数の特徴抽出ネットワークを介して、複数の特徴マップを生成し、ここで、複数の特徴抽出ネットワークが順に接続され、複数の特徴抽出ネットワークのうち後の特徴抽出ネットワークの入力データは、前の特徴抽出ネットワークの出力データおよび入力データに基づいている。そして、コンピューティングデバイスは、複数の特徴マップに基づいて、ニューラルネットワークモデル内のオブジェクト検出ネットワークを介して、オブジェクト検出結果を生成する。本開示の技術案によれば、マルチスケールの特徴融合を実現し、マルチスケールの特徴抽出能力を強化して、オブジェクト検出の精度を向上させることができる。

以下、図面と組み合わせて、本開示の具体的な実施例をより詳細に説明する。

図１は本開示の実施例による情報処理環境１００の例示的な模式図である。図１に示すように、情報処理環境１００はコンピューティングデバイス１１０、検出対象の画像１２０、オブジェクト検出のためのトレーニングされたニューラルネットワークモデル１３０およびオブジェクト検出結果１４０を含む。

コンピューティングデバイス１１０は、スマートフォン、携帯情報端末、タブレット、ウェアラブルデバイスなどのモバイルデバイス、車載電子機器、エッジコンピューティングデバイスなどを含むことができる。

検出対象の画像１２０は、一般的な画像とビデオフレーム画像とを含むことができる。なお、図１では、検出対象の画像１２０に含まれるオブジェクトが人物であるように示されているが、これは単なる例であり、検出対象の画像１２０に含まれるオブジェクトは、他の種類のオブジェクトであってもよく、例えば、猫、犬、牛などの動物、木、花、草などの植物、ボトル、コンピューターなどのアイテム、飛行機、自動車などの乗り物が挙げられるが、これらに限定されない。本開示の範囲はこれに限定されない。なお、図１は、検出対象の画像１２０が１つのオブジェクトを含むことを示しているが、これは単なる例であり、検出対象の画像１２０は複数のオブジェクトを含んでもよく、複数のオブジェクトは、同じタイプまたは異なるタイプであってもよく、例えば、検出対象の画像１２０は、複数の人を含むことができ、または検出対象の画像１２０は人、動物、及び植物などを含むことができ、本開示の範囲はこれに限定されない。

ニューラルネットワークモデル１３０は、例えばオブジェクト検出のための軽量ニューラルネットワークモデルを使用することができる。

オブジェクト検出結果１４０は、検出対象の画像１２０内の検出されたオブジェクトの位置ボックス情報１４２とタイプ情報１４１とを含むことができる。なお、図１に示される位置ボックス情報１４２（図１のボックスの特定の位置）およびタイプ情報１４１（図１の「人」）は、単なる例であり、検出対象の画像１２０における検出されたオブジェクトの位置やタイプによって異なる。また、図１では、位置ボックス情報とタイプ情報が１つであるように示されているが、これも一例に過ぎず、検出対象の画像１２０に複数のオブジェクトが含まれている場合、位置ボックス情報およびタイプ情報も複数であってもよい。

コンピューティングデバイス１１０は、検出対象の画像１２０を取得し、検出対象の画像１２０に基づいて、オブジェクト検出のためのトレーニングされたニューラルネットワークモデル１３０内の複数の特徴抽出ネットワークを介して、複数の特徴マップを生成し、ここで、複数の特徴抽出ネットワークが順に接続され、複数の特徴抽出ネットワークのうち後の特徴抽出ネットワークの入力データは、前の特徴抽出ネットワークの出力データおよび入力データに基づいており、複数の特徴マップに基づいて、ニューラルネットワークモデル１３０内のオブジェクト検出ネットワークを介して、オブジェクト検出結果１４０を生成する。

これにより、マルチスケールの特徴融合を実現し、マルチスケールの特徴抽出能力を強化して、オブジェクト検出の精度を向上させることができる。

図２は本開示の実施例による画像内のオブジェクトの検出方法２００のフローチャートである。例えば、方法２００は、図１に示すようなコンピューティングデバイス１１０によって実行することができる。なお、方法２００は、図示されていない追加のブロックを含んでもよく、及び／又は図示されたブロックは省略されてもよく、本開示の範囲はこれに関して限定されない。

ボックス２０２では、コンピューティングデバイス１１０は、検出対象の画像１２０を取得する。

ボックス２０４では、コンピューティングデバイス１１０は、検出対象の画像１２０に基づいて、オブジェクト検出のためのトレーニングされたニューラルネットワークモデル１３０内の複数の特徴抽出ネットワークを介して、複数の特徴マップを生成する。複数の特徴抽出ネットワークが順に接続され、ここで、複数の特徴抽出ネットワークのうち後の特徴抽出ネットワークの入力データは、前の特徴抽出ネットワークの出力データおよび入力データに基づいている。

特徴抽出ネットワークは、ダウンサンプリングおよび特徴抽出のために、複数の残差ブロックを含み得る。

複数の特徴マップは異なるサイズを有することができる。後の特徴抽出ネットワークから出力される特徴マップのサイズは、前の特徴抽出ネットワークから出力される特徴マップのサイズよりも小さくてもよい。例えば、後の特徴抽出ネットワークから出力される特徴マップのサイズは、前の特徴抽出ネットワークから出力される特徴マップのサイズの１／２であってもよい。

ボックス２０６では、コンピューティングデバイス１１０は、複数の特徴マップに基づいて、ニューラルネットワークモデル１３０内のオブジェクト検出ネットワークを介して、オブジェクト検出結果１４０を生成する。

これにより、後の特徴抽出ネットワークの入力データは、前の特徴抽出ネットワークの出力データおよび入力データに基づいており、前の特徴抽出ネットワークの入力データと後の特徴抽出ネットワークの入力データをスキップ接続することにより、マルチスケールの特徴融合を実現し、マルチスケールの特徴抽出能力を強化して、オブジェクト検出の精度を向上させることができる。

いくつかの実施例では、コンピューティングデバイス１１０は、複数の特徴マップに基づいて、ニューラルネットワークモデル１３０内の特徴ピラミッドネットワークを介して、融合特徴マップを生成することができる。そして、コンピューティングデバイス１１０は、融合特徴マップに基づいて、オブジェクト検出ネットワークを介して、オブジェクト検出結果１４０を生成することができる。融合特徴マップの数は、１つまたは複数にすることができる。それに応じて、オブジェクト検出ネットワークの数及びオブジェクト検出結果の数も１つまたは複数にすることができる。

これにより、特徴ピラミッドネットワークを介して、複数の特徴マップを融合して、オブジェクト検出のための融合特徴マップを生成することにより、マルチスケールの特徴融合をさらに強化して、オブジェクト検出の精度を向上させることができ、モバイルデバイス、エッジコンピューティングデバイスなどでのオブジェクト検出に特に適している。

図３は、本開示の実施例によるニューラルネットワークモデル３００の概略ブロック図である。図３に示すように、ニューラルネットワークモデル３００は、第１の特徴抽出ネットワーク３１０、第２の特徴抽出ネットワーク３２０、特徴ピラミッドネットワーク３３０およびオブジェクト検出ネットワーク３４０を含む。第１の特徴抽出ネットワーク３１０と第２の特徴抽出ネットワーク３２０との間にスキップ接続３５０がある。スキップ接続３５０は、第２の特徴抽出ネットワーク３２０の入力データが第１の特徴抽出ネットワーク３１０の入力データと出力データとに基づくようにする。

なお、図３では、順に接続されている２つの特徴抽出ネットワークが示されているが、これは単なる例であり、ニューラルネットワークモデル３００は、より多くの特徴抽出ネットワークを含んでもよく、例えばニューラルネットワークモデル３００は、第３の特徴抽出ネットワークをさらに含むことができ、第３の特徴抽出ネットワークと第２の特徴抽出ネットワーク３２０との間にスキップ接続があり、このスキップ接続は、第３の特徴抽出ネットワークの入力データが、第２の特徴抽出ネットワーク３２０の入力データと出力データとに基づくようにする。

なお、図３では、特徴ピラミッドネットワーク３３０が１つの融合特徴マップを出力することが示されているが、これは単なる例であり、特徴ピラミッドネットワーク３３０は、複数の融合特徴マップを出力することもできる。複数の融合特徴マップは、異なるサイズを有することができる。融合特徴マップの数およびサイズは、特徴ピラミッドネットワーク３３０によって受信された特徴マップの数およびサイズと一致し得、例えば、異なるサイズを有する２つの融合特徴マップまたは異なるサイズを有する３つの融合特徴マップがある。

さらに、なお、図３では、１つのオブジェクト検出ネットワークが示されているが、これは単なる例であり、ニューラルネットワークモデル３００は、複数のオブジェクト検出ネットワークを含み得、オブジェクト検出ネットワークの数は、生成された融合特徴マップの数と一致し得、例えば、２つのオブジェクト検出ネットワークまたは３つのオブジェクト検出ネットワークがある。

いくつかの実施例では、コンピューティングデバイス１１０は、検出対象の画像１２０に基づいて、第１の特徴抽出ネットワーク３１０を介して、第１の特徴マップを生成する。そして、コンピューティングデバイス１１０は、検出対象の画像１２０と第１の特徴マップとに基づいて、第２の特徴抽出ネットワーク３２０を介して、第２の特徴マップを生成する。

具体的には、コンピューティングデバイス１１０は、検出対象の画像１２０をダウンサンプリングして、ダウンサンプリングされた検出対象の画像１２０を生成することができる。ダウンサンプリングされた検出対象の画像１２０と第１の特徴マップとのサイズが同じである。例えば、１／２ダウンサンプリングである。次に、コンピューティングデバイス１１０は、ダウンサンプリングされた検出対象の画像および第１の特徴マップに基づいて、第２の特徴抽出ネットワーク３２０の第１の入力データを生成することができる。例えば、ダウンサンプリングされた検出対象の画像と第１の特徴マップとをピクセル単位で加算して、第２の特徴抽出ネットワーク３２０の第１の入力データを生成する。そして、コンピューティングデバイス１１０は、第２の特徴抽出ネットワーク３２０の第１の入力データに基づいて、第２の特徴抽出ネットワーク３２０を介して第２の特徴マップを生成することができる。

これにより、第２の特徴抽出ネットワークの入力データは、第１の特徴抽出ネットワークの出力データと入力データとに基づいており、第２の特徴抽出ネットワークと第１の特徴抽出ネットワークをスキップ接続することにより、マルチスケールの特徴融合を実現し、第２の特徴マップはマルチスケールの特徴融合によって出力される特徴マップであるため、ルチスケールの特徴抽出能力を強化して、オブジェクト検出の精度を向上させることができる。

ニューラルネットワークモデル３００が第３の特徴抽出ネットワークをさらに含む場合、コンピューティングデバイス１１０は、検出対象の画像１２０と、第１の特徴マップと第２の特徴マップとに基づいて、第３の特徴抽出ネットワークを介して、第３の特徴マップを生成することもできる。

具体的には、コンピューティングデバイス１１０は、第２の特徴抽出ネットワーク３２０の第１の入力データをダウンサンプリングして、ダウンサンプリングされた第１の入力データを生成することができる。ダウンサンプリングされた第１の入力データと第２の特徴マップとのサイズが同じである。例えば、１／２ダウンサンプリングである。次に、コンピューティングデバイス１１０は、ダウンサンプリングされた第１の入力データおよび第２の特徴マップに基づいて、第３の特徴抽出ネットワークの第２の入力データを生成することができる。例えば、ダウンサンプリングされた第１の入力データと第２の特徴マップをピクセル単位で加算して、第３の特徴抽出ネットワークの第２の入力データを生成する。そして、コンピューティングデバイス１１０は、第３の特徴抽出ネットワークの第２の入力データに基づいて、第３の特徴抽出ネットワークを介して第３の特徴マップを生成することができる。

図４は本開示の実施例によるニューラルネットワークモデル４００の概略ブロック図である。図４に示すように、ニューラルネットワークモデル４００は、第１の特徴抽出ネットワーク４１０、第２の特徴抽出ネットワーク４２０、第３の特徴抽出ネットワーク４３０、特徴ピラミッドネットワーク４４０およびオブジェクト検出ネットワーク４５０を含む。第１の特徴抽出ネットワーク４１０と第２の特徴抽出ネットワーク４２０との間にはスキップ接続４６０がある。スキップ接続４６０は、第２の特徴抽出ネットワーク４２０の入力データが、第１の特徴抽出ネットワーク４１０の入力データと出力データとに基づくようにする。第３の特徴抽出ネットワーク４３０と第２の特徴抽出ネットワーク４２０との間にはスキップ接続４７０がある。スキップ接続４７０は、第３の特徴抽出ネットワーク４３０の入力データが、第２の特徴抽出ネットワーク４２０の入力データと出力データとに基づくようにする。

なお、図４では、順に接続される３つの特徴抽出ネットワークが示されているが、これは単なる例であり、ニューラルネットワークモデル４００は、より多くの特徴抽出ネットワークを含んでもよく、例えば、ニューラルネットワークモデル４００は、第４の特徴抽出ネットワークをさらに含むことができ、第４の特徴抽出ネットワークと第３の特徴抽出ネットワーク４３０との間にスキップ接続があり、このスキップ接続は、第４の特徴抽出ネットワークの入力データが、第３の特徴抽出ネットワーク４３０の入力データと出力データとに基づくようにする。

なお、図４では、特徴ピラミッドネットワーク４４０が１つの融合特徴マップを出力することが示されているが、これは単なる例であり、特徴ピラミッドネットワーク４４０は、複数の融合特徴マップを出力することもできる。複数の融合特徴マップは、異なるサイズを有することができる。融合特徴マップの数およびサイズは、特徴ピラミッドネットワーク４４０によって受信された特徴マップの数およびサイズと一致し得、例えば、異なるサイズを有する２つの融合特徴マップまたは異なるサイズを有する３つの融合特徴マップがある。

さらに、なお、図４では、１つのオブジェクト検出ネットワークが示されているが、これは単なる例であり、ニューラルネットワークモデル４００は、複数のオブジェクト検出ネットワークを含み得、オブジェクト検出ネットワークの数は、生成された融合特徴マップの数と一致し得、例えば、２つのオブジェクト検出ネットワークまたは３つのオブジェクト検出ネットワークがある。

いくつかの実施例では、コンピューティングデバイス１１０は、検出対象の画像１２０に基づいて、第１の特徴抽出ネットワーク４１０を介して、特徴抽出結果を生成することができる。次に、コンピューティングデバイス１１０は、検出対象の画像１２０と特徴抽出結果とに基づいて、第２の特徴抽出ネットワーク４２０を介して、第１の特徴マップを生成することができる。そして、コンピューティングデバイス１１０は、検出対象の画像１２０、特徴抽出結果、および第１の特徴マップに基づいて、第３の特徴抽出ネットワーク４３０を介して、第２の特徴マップを生成することができる。第１の特徴マップと第２の特徴マップを生成する過程は、上記と同様であるため、説明を省略する。

これにより、第３の特徴抽出ネットワークの入力データが第２の特徴抽出ネットワークの出力データと入力データとに基づくようにし、第２の特徴抽出ネットワークの入力データが第１の特徴抽出ネットワークの出力データと入力データとに基づくようにし、第３の特徴抽出ネットワークと第２の特徴抽出ネットワークをスキップ接続し、第２の特徴抽出ネットワークと第１の特徴抽出ネットワークをスキップ接続することにより、マルチスケールの特徴融合を実現し、第１の特徴マップと第２の特徴マップは、いずれもマルチスケールの特徴融合によって出力される特徴マップであるため、マルチスケールの特徴抽出能力を強化して、オブジェクト検出の精度を向上させることができる。

代替的または追加的に、いくつかの実施例では、ニューラルネットワークモデル３００および４００は、それぞれ残差畳み込みネットワーク３６０と残差畳み込みネットワーク４８０を含むことができる。

コンピューティングデバイス１１０は、検出対象の画像１２０に基づいて、残差畳み込みネットワークを介して、残差畳み込み結果を生成することができる。そして、コンピューティングデバイス１１０は、残差畳み込み結果に基づいて、複数の特徴抽出ネットワークを介して、複数の特徴マップを生成することができる。

なお、ニューラルネットワークモデル３００および４００が残差畳み込みネットワークを含む場合、特徴マップ又は特徴抽出結果を生成する上記のプロセスは、残差畳み込み結果に基づいて適応させることができるが、詳細には説明しない。

これにより、従来の技術案における最大プーリングで検出対象の画像をダウンサンプリングするのが早すぎる問題に比べて、残差畳み込みネットワークが検出対象の画像をダウンサンプリングすることにより、局所特徴の適切なサンプリングの欠如による精度の損失を回避することができる。

図５は本開示の実施例による残差畳み込みネットワーク５００の概略ブロック図である。図５に示すように、残差畳み込みネットワーク５００は、２つの分岐５１０および５２０を含む。第１の分岐５１０は、３＊３畳み込み層５１１および１＊１畳み込み層５１２を含む。第２の分岐５２０は、１＊１畳み込み層５２１、３＊３畳み込み層５２２、および１＊１畳み込み層５２３を含む。

コンピューティングデバイス１１０は、検出対象の画像１２０に基づいて、３＊３畳み込み層および１＊１畳み込み層を含む第１の分岐５１０を介して、第１の分岐畳み込み結果を生成することができる。コンピューティングデバイス１１０は、検出対象の画像１２０に基づいて、１＊１畳み込み層、３＊３畳み込み層および１＊１畳み込み層を含む第２の分岐５２０を介して、第２の分岐畳み込み結果を生成することもできる。そして、コンピューティングデバイス１１０は、第１の分岐畳み込み結果と第２の分岐畳み込み結果とに基づいて、残差畳み込み結果を生成することができる。

これにより、３＊３畳み込み層および１＊１畳み込み層を含む第１の分岐、および１＊１畳み込み層、３＊３畳み込み層および１＊１畳み込み層を含む第２の分岐によって、残差畳み込みネットワークは比較的軽量化にすることができ、効率を向上させることができる。

図６は本開示の実施例によるオブジェクト検出ネットワーク６００の概略ブロック図である。図６に示すように、オブジェクト検出ネットワーク６００は、位置ボックス検出分岐６１０とオブジェクト分類分岐６２０とを含む。

位置ボックス検出分岐６１０は、第１の深さ方向に分離可能な畳み込み層６１１、グローバル平均プーリング層６１２、および第２の深さ方向に分離可能な畳み込み層６１３を含む。

オブジェクト分類分岐６２０は、第３の深さ方向に分離可能な畳み込み層６２１、第４の深さ方向に分離可能な畳み込み層６２２、および第５の深さ方向に分離可能な畳み込み層６２３を含む。第５の深さ方向に分離可能な畳み込み層６２３と第３の深さ方向に分離可能な畳み込み層６２１との間にはスキップ接続６２４があり、スキップ接続６２４は、第５の深さ方向に分離可能な畳み込み層６２３の入力データが、第３の深さ方向に分離可能な畳み込み層６２１の入力データと出力データとに基づくようにする。

これにより、深さ方向に分離可能な畳み込み層を使用することにより、オブジェクト検出ネットワーク６００は、少量のパラメーターしか含まないため、オブジェクト検出の効率が保証される。

図７は本開示の実施例によるオブジェクト検出結果を生成する方法７００のフローチャートである。例えば、方法７００は、図１に示すようなコンピューティングデバイス１１０によって実行することができる。なお、方法７００は、図示されていない追加のブロックを含んでもよく、及び／又は図示されたブロックは省略されてもよく、本開示の範囲はこれに関して限定されない。

ボックス７０２では、コンピューティングデバイス１１０は、融合特徴マップに基づいて、第１の深さ方向に分離可能な畳み込み層６１１を介して、第１の畳み込み結果を生成する。

ボックス７０４では、コンピューティングデバイス１１０は、第１の畳み込み結果に基づいて、グローバル平均プーリング層６１２を介して、プーリング結果を生成する。

ボックス７０６では、コンピューティングデバイス１１０は、プーリング結果に基づいて、第２の深さ方向に分離可能な畳み込み層６１３を介して、検出対象の画像１２０内の検出されたオブジェクトの位置ボックス情報を生成する。

これにより、２つの深さ方向に分離可能な畳み込み層の間に、アテンションメカニズムを備えたグローバル平均プーリング層を使用することによって、オブジェクトの特徴がより顕著になり、検出精度が向上する。なお、深さ方向に分離可能な畳み込み層を使用する場合、少量のパラメーターしか伝送しないため、オブジェクト検出の効率が保証される。

第１の深さ方向に分離可能な畳み込み層および第２の深さ方向に分離可能な畳み込み層の畳み込みカーネルのサイズは５＊５に設定され得る。これにより、３＊３の畳み込みカーネルと比較して、オブジェクト検出の速度は低下しないが、精度は高くなる。

図８は本開示の実施例によるオブジェクト検出結果を生成する方法８００のフローチャートである。例えば、方法８００は、図１に示すようなコンピューティングデバイス１１０によって実行することができる。なお、方法８００は、図示されていない追加のブロックを含んでもよく、及び／又は図示されたブロックは省略されてもよく、本開示の範囲はこれに関して限定されない。

ボックス８０２では、コンピューティングデバイス１１０は、融合特徴マップに基づいて、第３の深さ方向に分離可能な畳み込み層６２１を介して、第２の畳み込み結果を生成する。

ボックス８０４では、コンピューティングデバイス１１０は、第２の畳み込み結果に基づいて、第４の深さ方向に分離可能な畳み込み層６２２を介して、第３の畳み込み結果を生成する。

ボックス８０６では、コンピューティングデバイス１１０は、第２の畳み込み結果と第３の畳み込み結果とに基づいて、第５の深さ方向に分離可能な畳み込み層６２３を介して、検出対象の画像１２０内の検出されたオブジェクトのタイプ情報を生成する。

これにより、第５の深さ方向に分離可能な畳み込み層の入力データが、前の第３の深さ方向に分離可能な畳み込み層の出力データと入力データとに基づくようにすることで、スキップ接続を実現することと同等になり、パラメーターを増やすことなく正則化を改善し、汎化能力を向上させ、オーバーフィッティングを防止することができる。なお、深さ方向に分離可能な畳み込み層を使用する場合、少量のパラメーターしか伝送しないため、オブジェクト検出の効率が保証される。

第３の深さ方向に分離可能な畳み込み層、第４の深さ方向に分離可能な畳み込み層および第５の深さ方向に分離可能な畳み込み層の畳み込みカーネルのサイズは５＊５に設定され得る。これにより、３＊３の畳み込みカーネルと比較して、オブジェクト検出の速度は低下しないが、精度は高くなる。

本開示の技術案は、モバイル端末などのエッジデバイスでのオブジェクト検出モデルの消費時間を削減することができ、モデル全体のパラメーター量はわずか１Ｍであり、例えば、Ｋｉｒｉｎ９８０チップで１３０ＦＰＳに達することが予測されている。同時に、本開示の技術案はオブジェクト検出の精度も保証し、ＹＯＬＯｖ３－Ｍｏｂｉｌｅｎｅｔｖ３のオブジェクト検出モデルと比較して、モデルパラメータ量は２５倍圧縮され、予測速度は５１倍向上する。

指数平滑移動平均（ＥｘｐｏｎｅｎｔｉａｌＭｏｖｉｎｇＡｖｅｒａｇｅ）（以下、まとめてＥＭＡと呼ばれる）とは、安定性を達成し、収束速度を向上させるために、トレーニング中に隣接するトレーニングエポックでニューラルネットワークモデルのパラメーターの平均値を計算することを指す。発明者は、サーバー側でのモデルトレーニングの全プロセスでＥＭＡを使用すると、収束が加速され、精度が向上する可能性があるが、モバイル端末などのモデルトレーニングの全プロセスでＥＭＡを使用して精度を向上させるメリットは得られないことを発見した。分析した後、本発明者は、モバイル端末などのモデルトレーニングには、基本的に数百エポック（ｅｐｏｃｈ）などのより多くのエポックが必要であり、ＥＭＡパラメーターを絶えず積算することにより、トレーニングが局所最適に陥ることを発見した。この問題を解決するために、本出願は、ニューラルネットワークモデルは、指数平滑移動平均アルゴリズムによる複数回のトレーニングによって生成され、ここで、所定のトレーニングエポックごとに指数平滑移動平均アルゴリズムのパラメーターをリセットすることを提案する。これは、ＥＭＡアルゴリズムを再起動することと同等であり、これにより、正則化効果が生まれ、精度が向上する。モバイル端末などのモデルでは、平均精度は一般的に１％以上向上することができる。

なお、発明者は、サーバー側のニューラルネットワークモデルとは異なり、モバイル端末のオブジェクト検出モデルのパラメータ量が少なく、ネットワークの収束速度が非常に遅いことが発見した。サーバー側のニューラルネットワークモデルの段階的固定エポック減衰学習率戦略が使用される場合、モバイル端末モデルの収束速度は遅くなる。同時に、モバイル端末での軽量モデルのトレーニングには、バッチデータが多いため、学習率を適切に調整することができる。このため、本出願では、ニューラルネットワークモデルは、複数回のトレーニングによって生成され、複数回のトレーニングのうち次のエポックのトレーニングの学習率が前のエポックのトレーニングの学習率に基づいてコサイン減衰されることを提案する。例えば、次のエポックのトレーニングの学習率＝０．４ｃｏｓ（前のエポックのトレーニングの学習率）、０．４は初期値であり、これは一例であり、他の値を使用しても良い。このようにして、モデルの収束速度を加速するとともに、モデルの精度を向上させることができる。

また、発明者は、ニューラルネットワークモデルのトレーニングプロセスにおいて、パラメータ確率的勾配降下法を使用して、トレーニングでのオーバーフィッティングを防ぐために、運動量（運動量勾配降下法）には正則が設定されることを発見した。サーバー側のモデルには多数のパラメーターがあるため、正則化減衰率は比較的高く、通常は１０の－３乗であるが、小さいモデルではパラメーターが少なく、減衰率が高いと、モデルが収束して振動し、精度に影響する。このため、本出願は、ニューラルネットワークモデルが運動量勾配降下法によってトレーニングされることを提案し、運動量勾配降下法の正則化減衰率は４ｅ－５に設定され得る。これにより、モデルの精度を向上させることができる。

図９は本開示の実施例による画像内のオブジェクトの検出装置９００の概略ブロック図である。図９に示すように、装置９００は、画像取得モジュール９１０、特徴抽出モジュール９２０及びオブジェクト検出モジュール９３０を含む。

画像取得モジュール９１０は、検出対象の画像１２０を取得する。

特徴抽出モジュール９２０は、検出対象の画像１２０に基づいて、オブジェクト検出のためのトレーニングされたニューラルネットワークモデル１３０内の複数の特徴抽出ネットワークを介して、複数の特徴マップを生成し、ここで、複数の特徴抽出ネットワークが順に接続され、複数の特徴抽出ネットワークのうち後の特徴抽出ネットワークの入力データは、前の特徴抽出ネットワークの出力データおよび入力データに基づいている。

オブジェクト検出モジュール９３０は、複数の特徴マップに基づいて、ニューラルネットワークモデル１３０内のオブジェクト検出ネットワークを介して、オブジェクト検出結果を生成する。

これにより、後の特徴抽出ネットワークの入力データが、前の特徴抽出ネットワークの出力データおよび入力データに基づくようにし、前の特徴抽出ネットワークの入力データと後の特徴抽出ネットワークの入力データをスキップ接続することにより、マルチスケールの特徴融合を実現し、マルチスケールの特徴抽出能力を強化して、オブジェクト検出の精度を向上させることができ、モバイルデバイス、エッジコンピューティングデバイスなどでのオブジェクト検出に特に適している。

いくつかの実施例では、特徴抽出モジュール９２０は、検出対象の画像１２０に基づいて、第１の特徴抽出ネットワークを介して、第１の特徴マップを生成する第１の特徴マップ生成サブモジュールと、検出対象の画像と第１の特徴マップとに基づいて、第２の特徴抽出ネットワークを介して、第２の特徴マップを生成する第２の特徴マップ生成サブモジュールとを含む。

他の実施例では、特徴抽出モジュール９２０は、検出対象の画像１２０に基づいて、第１の特徴抽出ネットワークを介して、特徴抽出結果を生成する特徴抽出結果生成サブモジュールと、検出対象の画像１２０と特徴抽出結果とに基づいて、第２の特徴抽出ネットワークを介して、第１の特徴マップを生成する第１の特徴マップ生成サブモジュールと、検出対象の画像１２０、特徴抽出結果及び第１の特徴マップに基づいて、第３の特徴抽出ネットワークを介して、第２の特徴マップを生成する第２の特徴マップ生成サブモジュールとを含む。

代替的または追加的に、いくつかの実施例では、特徴抽出モジュール９２０は、検出対象の画像１２０に基づいて、残差畳み込みネットワークを介して、残差畳み込み結果を生成する残差畳み込みサブモジュールと、残差畳み込み結果に基づいて、複数の特徴抽出ネットワークを介して、複数の特徴マップを生成する特徴抽出サブモジュールとを含む。

いくつかの実施例では、残差畳み込みサブモジュールは、さらに、検出対象の画像１２０に基づいて、３＊３畳み込み層および１＊１畳み込み層を含む第１の分岐を介して、第１の分岐畳み込み結果を生成し、検出対象の画像１２０に基づいて、１＊１畳み込み層、３＊３畳み込み層および１＊１畳み込み層を含む第２の分岐を介して、第２の分岐畳み込み結果を生成し、第１の分岐畳み込み結果と第２の分岐畳み込み結果とに基づいて、残差畳み込み結果を生成する。

いくつかの実施例では、オブジェクト検出モジュール９３０は、複数の特徴マップに基づいて、ニューラルネットワークモデル１３０内の特徴ピラミッドネットワークを介して、融合特徴マップを生成する特徴融合サブモジュールと、融合特徴マップに基づいて、オブジェクト検出ネットワークを介して、オブジェクト検出結果を生成するオブジェクト検出サブモジュールとを含む。

いくつかの実施例では、オブジェクト検出サブモジュールは、融合特徴マップに基づいて、第１の深さ方向に分離可能な畳み込み層を介して、第１の畳み込み結果を生成し、第１の畳み込み結果に基づいて、グローバル平均プーリング層を介して、プーリング結果を生成し、プーリング結果に基づいて、第２の深さ方向に分離可能な畳み込み層を介して、検出対象の画像１２０内の検出されたオブジェクトの位置ボックス情報を生成する。

いくつかの実施例では、第１の深さ方向に分離可能な畳み込み層と第２の深さ方向に分離可能な畳み込み層の畳み込みカーネルのサイズは５＊５に設定されてもよい。

いくつかの実施例では、オブジェクト検出サブモジュールは、融合特徴マップに基づいて、第３の深さ方向に分離可能な畳み込み層を介して、第２の畳み込み結果を生成し、第２の畳み込み結果に基づいて、第４の深さ方向に分離可能な畳み込み層を介して、第３の畳み込み結果を生成し、第２の畳み込み結果と第３の畳み込み結果とに基づいて、第５の深さ方向に分離可能な畳み込み層を介して、検出対象の画像１２０内の検出されたオブジェクトのタイプ情報を生成する。

いくつかの実施例では、ニューラルネットワークモデル１３０は、指数平滑移動平均アルゴリズムによる複数回のトレーニングによって生成され、ここで、所定のトレーニングエポックごとに指数平滑移動平均アルゴリズムのパラメーターをリセットする。

いくつかの実施例では、ニューラルネットワークモデル１３０は、複数回のトレーニングによって生成され、複数回のトレーニングのうち次のエポックのトレーニングの学習率は、前のエポックのトレーニングの学習率に基づいてコサイン減衰される。

いくつかの実施例では、ニューラルネットワークモデル１３０は、運動量勾配降下法によってトレーニングされて生成され、ここで、運動量勾配降下法の正則化減衰率は４ｅ－５に設定されている。

本開示の技術案では、関連するユーザーの個人情報の取得、保存、および適用はすべて、関連する法律および規制の規定を遵守し、公序良俗に違反しない。

本開示の実施例によれば、本開示は、電子機器、および読み取り可能な記憶媒体をさらに提供する。
本開示の実施例によれば、本開示は、コンピュータプログラムをさらに提供し、コンピュータプログラムがプロセッサによって実行される場合、本開示によって提供されるオブジェクトの検出方法が実現される。

図１０は、本開示の実施例を実施するための例示的な電子機器１０００の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセシング、セルラー電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表してもよい。本明細書に示されるコンポーネント、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記載及び／または求められる本開示の実現を限定することを意図しない。

図１０に示すように、電子機器１０００は、リードオンリーメモリ（ＲＯＭ）１００２に記憶されたコンピュータプログラム、または記憶ユニット１００８からランダムアクセスメモリ（ＲＡＭ）１００３にローディングされたコンピュータプログラムに基づいて、様々な適切な動作と処理を実行できる計算ユニット１００１を含む。ＲＡＭ１００３には、電子機器１０００の動作に必要な各種のプログラム及びデータをさらに記憶することができる。計算ユニット１００１と、ＲＯＭ１００２と、ＲＡＭ１００３とは、バス１００４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インターフェース１００５もバス１００４に接続されている。

機器１０００における複数のコンポーネントは、Ｉ／Ｏインターフェース１００５に接続されており、その複数のコンポーネントは、キーボードやマウスなどの入力ユニット１００６と、種々なディスプレイやスピーカなどの出力ユニット１００７と、磁気ディスクや光学ディスクなどの記憶ユニット１００８と、ネットワークカード、モデム、無線通信トランシーバーなどの通信ユニット１００９と、を備える。通信ユニット１００９は、電子機器１０００がインターネットのようなコンピュータネット及び／または種々なキャリアネットワークを介して他の機器と情報／データを交換することを可能にする。

計算ユニット１００１は、処理及び計算能力を有する様々な汎用及び／または専用の処理コンポーネントであってもよい。計算ユニット１００１のいくつかの例としては、中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用の人工知能（ＡＩ）計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタ信号プロセッサ（ＤＳＰ）、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを備えるが、これらに限定されない。計算ユニット１００１は、上述で説明された各方法及び処理、例えば方法２００、７００、８００を実行する。例えば、いくつかの実施例では、方法２００、７００、８００を、記憶ユニット１００８のような機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウエアプログラムとして実現されてもよい。一部の実施例では、コンピュータプログラムの一部または全ては、ＲＯＭ１００２及び／または通信ユニット１００９を介して、電子機器１０００にロード及び／またはインストールされてもよい。コンピュータプログラムがＲＡＭ１００３にロードされて計算ユニット１００１によって実行される場合に、前述した方法２００、７００、８００の一つまたは複数のステップを実行することができる。選択的に、他の実施例では、計算ユニット１００１は、他の任意の適当な方式（例えば、ファームウェア）により方法２００、７００、８００を実行するように構成されてもよい。

ここで記載されているシステムまたは技術の各種の実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、専用集積回路（ＡＳＩＣ）、専用標準品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータのハードウェア、ファームウェア、ソフトウェア、及び／またはこれらの組み合わせによって実現することができる。これらの各実施形態は、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムにて実行及び／または解釈される１つまたは複数のコンピュータプログラムにより実行することを含み得、当該プログラマブルプロセッサは、専用または汎用のプログラマブルプロセッサであってもよく、ストレージシステム、少なくとも１つの入力デバイス、及び少なくとも１つの出力デバイスからデータ及び命令を受け取り、データ及び命令を該ストレージシステム、当該少なくとも１つの入力デバイス、及び当該少なくとも１つの出力デバイスに転送することができる。

本開示の方法を実施するためのプログラムコードは、１または複数のプログラミング言語の組み合わせで記述されていてもよい。これらのプログラムコードは、プロセッサ又はコントローラによって実行されると、フローチャート及び／またはブロック図で規定された機能・動作が実施されるように、汎用コンピュータや専用コンピュータまたは他のプログラム可能な人間の画像復元装置のプロセッサやコントローラに提供されてもよい。プログラムコードは、機械上で完全に実行されるか、機械上で部分的に実行されるか、独立したソフトウェアパッケージとして機械上で部分的に実行されるとともにリモートマシン上で部分的に実行されるか、またはリモートマシンまたはサーバ上で完全に実行されてもよい。

本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置またはデバイスによって使用されるために、または命令実行システム、装置またはデバイスと組み合わせて使用されるためのプログラムを含むか、または記憶することができる有形媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体であってもよいし、機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体としては、電子的、磁気的、光学的、電磁的、赤外線的、半導体システム、装置、デバイス、またはこれらの任意の適切な組み合わせが挙げられるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例としては、１または複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能なプログラム可能なリードオンリメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせが挙げられる。

ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータで実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウスまたはトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供するために用いられることができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム（例えば、データサーバとする）、またはミドルウェアコンポーネントを備えるコンピューティングシステム（例えば、アプリケーションサーバー）、またはフロントエンドコンポーネントを備えるコンピューティングシステム（例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースまたは当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする）、またはこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステムで実施することができる。任意の形式または媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを互いに接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットと、ブロックチェーンネットワークとを含む。

コンピュータシステムは、クライアントとサーバとを備えることができる。クライアントとサーバは、一般的に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータで実行され、互いにクライアント－サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。ここで、サーバはクラウドサーバであってもよく、分散システムのサーバー、またはブロックチェーンを結合したサーバーであってもよい。

なお、上述した様々な形態のフローを用いて、ステップを並び替え、追加または削除を行うことができることを理解されるべきである。例えば、本開示に記載された各ステップは、本開示に開示された技術方案の所望の結果が達成できる限り、並列に実行されてもよいし、順番に実行されてもよいし、異なる順序で実行されてもよく、本明細書では制限されない。

上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができることは理解される。本開示の精神及び原理内で行われたあらゆる修正、同等の置換及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims

検出対象の画像を取得するステップと、
前記検出対象の画像に基づいて、オブジェクト検出のためのトレーニングされたニューラルネットワークモデル内の複数の特徴抽出ネットワークを介して、複数の特徴マップを生成するステップであって、前記複数の特徴抽出ネットワークが順に接続され、前記複数の特徴抽出ネットワークのうち後の特徴抽出ネットワークの入力データは、前の特徴抽出ネットワークの出力データおよび入力データに基づいているステップと、
前記複数の特徴マップに基づいて、前記ニューラルネットワークモデル内のオブジェクト検出ネットワークを介して、オブジェクト検出結果を生成するステップと、を含み、
前記オブジェクト検出ネットワークは、位置ボックス検出分岐とオブジェクト分類分岐とを含み、前記位置ボックス検出分岐は、第１の深さ方向に分離可能な畳み込み層、グローバル平均プーリング層、および第２の深さ方向に分離可能な畳み込み層を含み、前記オブジェクト分類分岐は、第３の深さ方向に分離可能な畳み込み層、第４の深さ方向に分離可能な畳み込み層、および第５の深さ方向に分離可能な畳み込み層を含み、前記第５の深さ方向に分離可能な畳み込み層と前記第３の深さ方向に分離可能な畳み込み層との間にはスキップ接続があり、前記スキップ接続は、前記第５の深さ方向に分離可能な畳み込み層の入力データが、前記第３の深さ方向に分離可能な畳み込み層の入力データと出力データとに基づくようにする、
ことを特徴とするオブジェクトの検出方法。
前記複数の特徴マップを生成するステップは、
前記検出対象の画像に基づいて、第１の特徴抽出ネットワークを介して、第１の特徴マップを生成するステップと、
前記検出対象の画像と前記第１の特徴マップとに基づいて、第２の特徴抽出ネットワークを介して、第２の特徴マップを生成するステップと、を含む、
ことを特徴とする請求項１に記載のオブジェクトの検出方法。
前記複数の特徴マップを生成するステップは、
前記検出対象の画像に基づいて、第１の特徴抽出ネットワークを介して、特徴抽出結果を生成するステップと、
前記検出対象の画像と前記特徴抽出結果とに基づいて、第２の特徴抽出ネットワークを介して、第１の特徴マップを生成するステップと、
前記検出対象の画像、前記特徴抽出結果および前記第１の特徴マップに基づいて、第３の特徴抽出ネットワークを介して、第２の特徴マップを生成するステップと、を含む、
ことを特徴とする請求項１に記載のオブジェクトの検出方法。
前記複数の特徴マップを生成するステップは、
前記検出対象の画像に基づいて、残差畳み込みネットワークを介して、残差畳み込み結果を生成するステップと、
前記残差畳み込み結果に基づいて、前記複数の特徴抽出ネットワークを介して、前記複数の特徴マップを生成するステップと、を含む、
ことを特徴とする請求項１に記載のオブジェクトの検出方法。
前記残差畳み込み結果を生成するステップは、
前記検出対象の画像に基づいて、３＊３畳み込み層および１＊１畳み込み層を含む第１の分岐を介して、第１の分岐畳み込み結果を生成するステップと、
前記検出対象の画像に基づいて、１＊１畳み込み層、３＊３畳み込み層および１＊１畳み込み層を含む第２の分岐を介して、第２の分岐畳み込み結果を生成するステップと、
前記第１の分岐畳み込み結果と前記第２の分岐畳み込み結果とに基づいて、前記残差畳み込み結果を生成するステップと、を含む、
ことを特徴とする請求項４に記載のオブジェクトの検出方法。
前記オブジェクト検出結果を生成するステップは、
前記複数の特徴マップに基づいて、前記ニューラルネットワークモデル内の特徴ピラミッドネットワークを介して、融合特徴マップを生成するステップと、
前記融合特徴マップに基づいて、前記オブジェクト検出ネットワークを介して、前記オブジェクト検出結果を生成するステップと、を含む、
ことを特徴とする請求項１に記載のオブジェクトの検出方法。
前記オブジェクト検出結果を生成するステップは、
前記融合特徴マップに基づいて、第１の深さ方向に分離可能な畳み込み層を介して、第１の畳み込み結果を生成するステップと、
前記第１の畳み込み結果に基づいて、グローバル平均プーリング層を介して、プーリング結果を生成するステップと、
前記プーリング結果に基づいて、第２の深さ方向に分離可能な畳み込み層を介して、前記検出対象の画像内の検出されたオブジェクトの位置ボックス情報を生成するステップと、を含む、
ことを特徴とする請求項６に記載のオブジェクトの検出方法。
前記第１の深さ方向に分離可能な畳み込み層及び前記第２の深さ方向に分離可能な畳み込み層の畳み込みカーネルのサイズは５＊５に設定されている、
ことを特徴とする請求項７に記載のオブジェクトの検出方法。
前記オブジェクト検出結果を生成するステップは、
前記融合特徴マップに基づいて、第３の深さ方向に分離可能な畳み込み層を介して、第２の畳み込み結果を生成するステップと、
前記第２の畳み込み結果に基づいて、第４の深さ方向に分離可能な畳み込み層を介して、第３の畳み込み結果を生成するステップと、
前記第２の畳み込み結果と前記第３の畳み込み結果とに基づいて、第５の深さ方向に分離可能な畳み込み層を介して、前記検出対象の画像内の検出されたオブジェクトのタイプ情報を生成するステップと、を含む、
ことを特徴とする請求項６に記載のオブジェクトの検出方法。
前記ニューラルネットワークモデルは、指数平滑移動平均アルゴリズムによる複数回のトレーニングによって生成され、所定のトレーニングエポックごとに指数平滑移動平均アルゴリズムのパラメーターをリセットする、
ことを特徴とする請求項１に記載のオブジェクトの検出方法。
前記ニューラルネットワークモデルは、複数回のトレーニングによって生成され、前記複数回のトレーニングのうち次のエポックのトレーニングの学習率は、前のエポックのトレーニングの学習率に基づいてコサイン減衰される、
ことを特徴とする請求項１に記載のオブジェクトの検出方法。
前記ニューラルネットワークモデルは、運動量勾配降下法によってトレーニングされて生成され、前記運動量勾配降下法の正則化減衰率は４ｅ－５に設定されている、
ことを特徴とする請求項１に記載のオブジェクトの検出方法。
検出対象の画像を取得する画像取得モジュールと、
前記検出対象の画像に基づいて、オブジェクト検出のためのトレーニングされたニューラルネットワークモデル内の複数の特徴抽出ネットワークを介して、複数の特徴マップを生成する特徴抽出モジュールであって、前記複数の特徴抽出ネットワークが順に接続され、前記複数の特徴抽出ネットワークのうち後の特徴抽出ネットワークの入力データは、前の特徴抽出ネットワークの出力データおよび入力データに基づいている特徴抽出モジュールと、
前記複数の特徴マップに基づいて、前記ニューラルネットワークモデル内のオブジェクト検出ネットワークを介して、オブジェクト検出結果を生成するオブジェクト検出モジュールと、を含み、
前記オブジェクト検出ネットワークは、位置ボックス検出分岐とオブジェクト分類分岐とを含み、前記位置ボックス検出分岐は、第１の深さ方向に分離可能な畳み込み層、グローバル平均プーリング層、および第２の深さ方向に分離可能な畳み込み層を含み、前記オブジェクト分類分岐は、第３の深さ方向に分離可能な畳み込み層、第４の深さ方向に分離可能な畳み込み層、および第５の深さ方向に分離可能な畳み込み層を含み、前記第５の深さ方向に分離可能な畳み込み層と前記第３の深さ方向に分離可能な畳み込み層との間にはスキップ接続があり、前記スキップ接続は、前記第５の深さ方向に分離可能な畳み込み層の入力データが、前記第３の深さ方向に分離可能な畳み込み層の入力データと出力データとに基づくようにする、
ことを特徴とするオブジェクトの検出装置。
前記特徴抽出モジュールが、
前記検出対象の画像に基づいて、第１の特徴抽出ネットワークを介して、第１の特徴マップを生成する第１の特徴マップ生成サブモジュールと、
前記検出対象の画像と前記第１の特徴マップとに基づいて、第２の特徴抽出ネットワークを介して、第２の特徴マップを生成する第２の特徴マップ生成サブモジュールと、を含む、
ことを特徴とする請求項１３に記載のオブジェクトの検出装置。
前記特徴抽出モジュールが、
前記検出対象の画像に基づいて、第１の特徴抽出ネットワークを介して、特徴抽出結果を生成する特徴抽出結果生成サブモジュールと、
前記検出対象の画像と前記特徴抽出結果とに基づいて、第２の特徴抽出ネットワークを介して、第１の特徴マップを生成する第１の特徴マップ生成サブモジュールと、
前記検出対象の画像、前記特徴抽出結果および前記第１の特徴マップに基づいて、第３の特徴抽出ネットワークを介して、第２の特徴マップを生成する第２の特徴マップ生成サブモジュールと、を含む、
ことを特徴とする請求項１３に記載のオブジェクトの検出装置。
前記特徴抽出モジュールが、
前記検出対象の画像に基づいて、残差畳み込みネットワークを介して、残差畳み込み結果を生成する残差畳み込みサブモジュールと、
前記残差畳み込み結果に基づいて、前記複数の特徴抽出ネットワークを介して、前記複数の特徴マップを生成する特徴抽出サブモジュールと、を含む、
ことを特徴とする請求項１３～１５のいずれかに記載のオブジェクトの検出装置。
前記残差畳み込みサブモジュールが、さらに、
前記検出対象の画像に基づいて、３＊３畳み込み層および１＊１畳み込み層を含む第１の分岐を介して、第１の分岐畳み込み結果を生成し、
前記検出対象の画像に基づいて、１＊１畳み込み層、３＊３畳み込み層および１＊１畳み込み層を含む第２の分岐を介して、第２の分岐畳み込み結果を生成し、
前記第１の分岐畳み込み結果と前記第２の分岐畳み込み結果とに基づいて、前記残差畳み込み結果を生成する、
ことを特徴とする請求項１６に記載のオブジェクトの検出装置。
前記オブジェクト検出モジュールが、
前記複数の特徴マップに基づいて、前記ニューラルネットワークモデル内の特徴ピラミッドネットワークを介して、融合特徴マップを生成する特徴融合サブモジュールと、
前記融合特徴マップに基づいて、前記オブジェクト検出ネットワークを介して、前記オブジェクト検出結果を生成するオブジェクト検出サブモジュールと、を含む、
ことを特徴とする請求項１３～１５のいずれかに記載のオブジェクトの検出装置。
前記オブジェクト検出サブモジュールが、
前記融合特徴マップに基づいて、第１の深さ方向に分離可能な畳み込み層を介して、第１の畳み込み結果を生成し、
前記第１の畳み込み結果に基づいて、グローバル平均プーリング層を介して、プーリング結果を生成し、
前記プーリング結果に基づいて、第２の深さ方向に分離可能な畳み込み層を介して、前記検出対象の画像内の検出されたオブジェクトの位置ボックス情報を生成する、
ことを特徴とする請求項１８に記載のオブジェクトの検出装置。
前記第１の深さ方向に分離可能な畳み込み層及び前記第２の深さ方向に分離可能な畳み込み層の畳み込みカーネルのサイズは５＊５に設定されている、
ことを特徴とする請求項１９に記載のオブジェクトの検出装置。
前記オブジェクト検出サブモジュールが、
前記融合特徴マップに基づいて、第３の深さ方向に分離可能な畳み込み層を介して、第２の畳み込み結果を生成し、
前記第２の畳み込み結果に基づいて、第４の深さ方向に分離可能な畳み込み層を介して、第３の畳み込み結果を生成し、
前記第２の畳み込み結果と前記第３の畳み込み結果とに基づいて、第５の深さ方向に分離可能な畳み込み層を介して、前記検出対象の画像内の検出されたオブジェクトのタイプ情報を生成する、
ことを特徴とする請求項１８に記載のオブジェクトの検出装置。
前記ニューラルネットワークモデルは、指数平滑移動平均アルゴリズムによる複数回のトレーニングによって生成され、所定のトレーニングエポックごとに指数平滑移動平均アルゴリズムのパラメーターをリセットする、
ことを特徴とする請求項１３に記載のオブジェクトの検出装置。
前記ニューラルネットワークモデルは、複数回のトレーニングによって生成され、前記複数回のトレーニングのうち次のエポックのトレーニングの学習率は、前のエポックのトレーニングの学習率に基づいてコサイン減衰される、
ことを特徴とする請求項１３に記載のオブジェクトの検出装置。
前記ニューラルネットワークモデルは、運動量勾配降下法によってトレーニングされて生成され、前記運動量勾配降下法の正則化減衰率は４ｅ－５に設定されている、
ことを特徴とする請求項１３に記載のオブジェクトの検出装置。
電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行される命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサが請求項１～１２のいずれかに記載のオブジェクトの検出方法を実行できるように、前記少なくとも１つのプロセッサによって実行される、
ことを特徴とする電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１～１２のいずれかに記載のオブジェクトの検出方法を実行させる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサによって実行される場合、請求項１～１２のいずれかに記載のオブジェクトの検出方法が実現される、
ことを特徴とするコンピュータプログラム。