JP2022173321A - オブジェクトの検出方法、装置、デバイス、媒体及びプログラム - Google Patents

オブジェクトの検出方法、装置、デバイス、媒体及びプログラム Download PDF

Info

Publication number
JP2022173321A
JP2022173321A JP2022149839A JP2022149839A JP2022173321A JP 2022173321 A JP2022173321 A JP 2022173321A JP 2022149839 A JP2022149839 A JP 2022149839A JP 2022149839 A JP2022149839 A JP 2022149839A JP 2022173321 A JP2022173321 A JP 2022173321A
Authority
JP
Japan
Prior art keywords
object detection
feature extraction
feature
generating
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022149839A
Other languages
English (en)
Other versions
JP7387847B2 (ja
Inventor
ユー,グァンファ
Guanghua Yu
ダン,チンチン
Qingqing Dang
ワン,ハオシュアン
Haoshuang Wang
ワン,グァンヂョン
Guanzhong Wang
フー,シァオグァン
Xiaoguang Hu
ユー,ディエンハイ
Dianhai Yu
マー,イェンジュン
Yanjun Ma
リウ,チーウェン
Qiwen Liu
ウェン,ツァン
Can Wen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022173321A publication Critical patent/JP2022173321A/ja
Application granted granted Critical
Publication of JP7387847B2 publication Critical patent/JP7387847B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

【課題】 深層学習の分野に関し、オブジェクトの検出方法、装置、デバイス、媒体およびプログラムを提供すること。【解決手段】 具体的な技術案として、検出対象の画像を取得し、検出対象の画像に基づいて、オブジェクト検出のためのトレーニングされたニューラルネットワークモデル内の複数の特徴抽出ネットワークを介して、複数の特徴マップを生成し、複数の特徴抽出ネットワークが順に接続され、複数の特徴抽出ネットワークのうち後の特徴抽出ネットワークの入力データは、前の特徴抽出ネットワークの出力データおよび入力データに基づいており、複数の特徴マップに基づいて、ニューラルネットワークモデル内のオブジェクト検出ネットワークを介して、オブジェクト検出結果を生成する。これにより、マルチスケールの特徴融合を実現し、マルチスケールの特徴抽出能力を強化することができる。【選択図】 図2

Description

本開示は、深層学習の分野に関し、特に画像内のオブジェクトの検出方法、装置、電子機器、記憶媒体およびコンピュータープログラムに関する。
オブジェクト検出技術(対象検出、Object Detectionとも呼ばれる)とは、画像やビデオ内の関心のある物体を見つけて、その位置とサイズを検出する技術を指す。オブジェクト検出は、コンピュータービジョンの分野で最も重要かつ困難なタスクの1つであり、工業品質検査、知能交通、および自動運転などの分野に適用されている。
近年、深層学習技術の台頭に伴いオブジェクト検出技術が広く注目されると同時に、応用および実装でも画期的な進歩があり、オブジェクト検出アルゴリズムは一般的に1段階アルゴリズムと2段階アルゴリズムに分けられる。1段階のオブジェクト検出アルゴリズムはシンプルで予測速度が速く、一般的にCPUとモバイルエッジデバイスに展開され、2段階のブジェクト検出アルゴリズムはより複雑で、予測速度は遅いが、精度が高く、一般的にGPUサーバー側に展開される。今日、リアルタイムの効率を達成するために、業界では新しい低パラメーター量および低計算量のオブジェクト検出モデルを次々と提案し、推論ライブラリの構築を加速して、オブジェクト検出テクノロジを展開しやすくしている。
本開示は、画像内のオブジェクトの検出方法、装置、電子機器、記憶媒体およびコンピュータープログラムを提供する。
本開示の第1の態様によれば、画像内のオブジェクトの検出方法を提供し、検出対象の画像を取得するステップと、検出対象の画像に基づいて、オブジェクト検出のためのトレーニングされたニューラルネットワークモデル内の複数の特徴抽出ネットワークを介して、複数の特徴マップを生成するステップであって、複数の特徴抽出ネットワークが順に接続され、複数の特徴抽出ネットワークのうち後の特徴抽出ネットワークの入力データは、前の特徴抽出ネットワークの出力データおよび入力データに基づいているステップと、複数の特徴マップに基づいて、ニューラルネットワークモデル内のオブジェクト検出ネットワークを介して、オブジェクト検出結果を生成するステップと、を含む。
本開示の第2の態様によれば、画像内のオブジェクトの検出装置を提供し、検出対象の画像を取得する画像取得モジュールと、前記検出対象の画像に基づいて、オブジェクト検出のためのトレーニングされたニューラルネットワークモデル内の複数の特徴抽出ネットワークを介して、複数の特徴マップを生成する特徴抽出モジュールであって、前記複数の特徴抽出ネットワークが順に接続され、前記複数の特徴抽出ネットワークのうち後の特徴抽出ネットワークの入力データは、前の特徴抽出ネットワークの出力データおよび入力データに基づいている特徴抽出モジュールと、前記複数の特徴マップに基づいて、前記ニューラルネットワークモデル内のオブジェクト検出ネットワークを介して、オブジェクト検出結果を生成するオブジェクト検出モジュールと、を含む。
本開示の第3の態様によれば、電子機器を提供し、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが第1の態様に記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
本開示の第4の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに第1の態様に記載の方法を実行させる。
本開示の第5の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行される場合、第1の態様に記載の方法が実現される。
本開示の技術案によれば、マルチスケールの特徴融合を実現し、マルチスケールの特徴抽出能力を強化することができる。
なお、この部分に記載の内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していない。本出願の他の特徴は下記の明細書の記載を通して理解しやすくなる。
図面は、本出願をより良く理解するためのものであり、本開示を限定するものではない。
本開示の実施例による情報処理環境100の模式図である。 本開示の実施例による画像内のオブジェクトの検出方法200の模式図である。 本開示の実施例によるニューラルネットワークモデル300の概略ブロック図である。 本開示の実施例によるニューラルネットワークモデル400の概略ブロック図である。 本開示の実施例による残差畳み込みネットワーク500の概略ブロック図である。 本開示の実施例によるオブジェクト検出ネットワーク600の概略ブロック図である。 本開示の実施例によるオブジェクト検出結果を生成するための方法700の模式図である。 本開示の実施例によるオブジェクト検出結果を生成するための方法800の模式図である。 本開示の実施例による画像内のオブジェクトの検出装置900の概略ブロック図である。 本開示の実施例の画像内のオブジェクトの検出方法を実現するための電子機器1000のブロック図である。
以下、図面と組み合わせて本出願の例示的な実施例を説明する。理解を容易にするために、その中には本発明の実施例の様々な詳細が含まれ、それらは単なる例示と見なされるべきである。したがって、当業者は、本発明の範囲及び精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更及び修正を行うことができる。また、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
前述したように、オブジェクト検出モデルは推論と展開においてコンピューティングパフォーマンスを継続的に最適化しているが、コンピューティングのパフォーマンスボトルネックを回避することはできないため、モデル設計においては効率的で展開が容易であることを確保するとともに、検出精度が要件を満たしていることも確保する必要がある。現在、オブジェクト検出に使用されているモデルのほとんどは、サーバー側での展開にのみ適しており、モバイル端末への展開に適したモデルは、一般的なモバイル端末ではリアルタイムを実現するのが難しいか、精度が低い。
具体的には、一方では、従来のモバイル端末の検出モデルのほとんどがサーバー側から移行され、ネットワークの全体的な構造はあまり変わっていないが、ネットワークパラメータ量と計算量が大幅に圧縮されているため、モデルの精度が大幅に低下し、実際の展開と使用での精度要件を満たすことは困難である。他方では、モバイル端末のモデルの設計とトレーニングには、サーバー側のモデルの従来の方法を使用しており、特に適用されるわけではない。
上記課題およびその他の潜在的な課題の1つまたは複数を少なくとも部分的に解決するために、本開示の例示的な実施例は、画像内のオブジェクト検出のための技術案を提供する。この技術案では、コンピューティングデバイスは、検出対象の画像を取得する。次に、コンピューティングデバイスは、検出対象の画像に基づいて、オブジェクト検出のためのトレーニングされたニューラルネットワークモデル内の複数の特徴抽出ネットワークを介して、複数の特徴マップを生成し、ここで、複数の特徴抽出ネットワークが順に接続され、複数の特徴抽出ネットワークのうち後の特徴抽出ネットワークの入力データは、前の特徴抽出ネットワークの出力データおよび入力データに基づいている。そして、コンピューティングデバイスは、複数の特徴マップに基づいて、ニューラルネットワークモデル内のオブジェクト検出ネットワークを介して、オブジェクト検出結果を生成する。本開示の技術案によれば、マルチスケールの特徴融合を実現し、マルチスケールの特徴抽出能力を強化して、オブジェクト検出の精度を向上させることができる。
以下、図面と組み合わせて、本開示の具体的な実施例をより詳細に説明する。
図1は本開示の実施例による情報処理環境100の例示的な模式図である。図1に示すように、情報処理環境100はコンピューティングデバイス110、検出対象の画像120、オブジェクト検出のためのトレーニングされたニューラルネットワークモデル130およびオブジェクト検出結果140を含む。
コンピューティングデバイス110は、スマートフォン、携帯情報端末、タブレット、ウェアラブルデバイスなどのモバイルデバイス、車載電子機器、エッジコンピューティングデバイスなどを含むことができる。
検出対象の画像120は、一般的な画像とビデオフレーム画像とを含むことができる。なお、図1では、検出対象の画像120に含まれるオブジェクトが人物であるように示されているが、これは単なる例であり、検出対象の画像120に含まれるオブジェクトは、他の種類のオブジェクトであってもよく、例えば、猫、犬、牛などの動物、木、花、草などの植物、ボトル、コンピューターなどのアイテム、飛行機、自動車などの乗り物が挙げられるが、これらに限定されない。本開示の範囲はこれに限定されない。なお、図1は、検出対象の画像120が1つのオブジェクトを含むことを示しているが、これは単なる例であり、検出対象の画像120は複数のオブジェクトを含んでもよく、複数のオブジェクトは、同じタイプまたは異なるタイプであってもよく、例えば、検出対象の画像120は、複数の人を含むことができ、または検出対象の画像120は人、動物、及び植物などを含むことができ、本開示の範囲はこれに限定されない。
ニューラルネットワークモデル130は、例えばオブジェクト検出のための軽量ニューラルネットワークモデルを使用することができる。
オブジェクト検出結果140は、検出対象の画像120内の検出されたオブジェクトの位置ボックス情報142とタイプ情報141とを含むことができる。なお、図1に示される位置ボックス情報142(図1のボックスの特定の位置)およびタイプ情報141(図1の「人」)は、単なる例であり、検出対象の画像120における検出されたオブジェクトの位置やタイプによって異なる。また、図1では、位置ボックス情報とタイプ情報が1つであるように示されているが、これも一例に過ぎず、検出対象の画像120に複数のオブジェクトが含まれている場合、位置ボックス情報およびタイプ情報も複数であってもよい。
コンピューティングデバイス110は、検出対象の画像120を取得し、検出対象の画像120に基づいて、オブジェクト検出のためのトレーニングされたニューラルネットワークモデル130内の複数の特徴抽出ネットワークを介して、複数の特徴マップを生成し、ここで、複数の特徴抽出ネットワークが順に接続され、複数の特徴抽出ネットワークのうち後の特徴抽出ネットワークの入力データは、前の特徴抽出ネットワークの出力データおよび入力データに基づいており、複数の特徴マップに基づいて、ニューラルネットワークモデル130内のオブジェクト検出ネットワークを介して、オブジェクト検出結果140を生成する。
これにより、マルチスケールの特徴融合を実現し、マルチスケールの特徴抽出能力を強化して、オブジェクト検出の精度を向上させることができる。
図2は本開示の実施例による画像内のオブジェクトの検出方法200のフローチャートである。例えば、方法200は、図1に示すようなコンピューティングデバイス110によって実行することができる。なお、方法200は、図示されていない追加のブロックを含んでもよく、及び/又は図示されたブロックは省略されてもよく、本開示の範囲はこれに関して限定されない。
ボックス202では、コンピューティングデバイス110は、検出対象の画像120を取得する。
ボックス204では、コンピューティングデバイス110は、検出対象の画像120に基づいて、オブジェクト検出のためのトレーニングされたニューラルネットワークモデル130内の複数の特徴抽出ネットワークを介して、複数の特徴マップを生成する。複数の特徴抽出ネットワークが順に接続され、ここで、複数の特徴抽出ネットワークのうち後の特徴抽出ネットワークの入力データは、前の特徴抽出ネットワークの出力データおよび入力データに基づいている。
特徴抽出ネットワークは、ダウンサンプリングおよび特徴抽出のために、複数の残差ブロックを含み得る。
複数の特徴マップは異なるサイズを有することができる。後の特徴抽出ネットワークから出力される特徴マップのサイズは、前の特徴抽出ネットワークから出力される特徴マップのサイズよりも小さくてもよい。例えば、後の特徴抽出ネットワークから出力される特徴マップのサイズは、前の特徴抽出ネットワークから出力される特徴マップのサイズの1/2であってもよい。
ボックス206では、コンピューティングデバイス110は、複数の特徴マップに基づいて、ニューラルネットワークモデル130内のオブジェクト検出ネットワークを介して、オブジェクト検出結果140を生成する。
これにより、後の特徴抽出ネットワークの入力データは、前の特徴抽出ネットワークの出力データおよび入力データに基づいており、前の特徴抽出ネットワークの入力データと後の特徴抽出ネットワークの入力データをスキップ接続することにより、マルチスケールの特徴融合を実現し、マルチスケールの特徴抽出能力を強化して、オブジェクト検出の精度を向上させることができる。
いくつかの実施例では、コンピューティングデバイス110は、複数の特徴マップに基づいて、ニューラルネットワークモデル130内の特徴ピラミッドネットワークを介して、融合特徴マップを生成することができる。そして、コンピューティングデバイス110は、融合特徴マップに基づいて、オブジェクト検出ネットワークを介して、オブジェクト検出結果140を生成することができる。融合特徴マップの数は、1つまたは複数にすることができる。それに応じて、オブジェクト検出ネットワークの数及びオブジェクト検出結果の数も1つまたは複数にすることができる。
これにより、特徴ピラミッドネットワークを介して、複数の特徴マップを融合して、オブジェクト検出のための融合特徴マップを生成することにより、マルチスケールの特徴融合をさらに強化して、オブジェクト検出の精度を向上させることができ、モバイルデバイス、エッジコンピューティングデバイスなどでのオブジェクト検出に特に適している。
図3は、本開示の実施例によるニューラルネットワークモデル300の概略ブロック図である。図3に示すように、ニューラルネットワークモデル300は、第1の特徴抽出ネットワーク310、第2の特徴抽出ネットワーク320、特徴ピラミッドネットワーク330およびオブジェクト検出ネットワーク340を含む。第1の特徴抽出ネットワーク310と第2の特徴抽出ネットワーク320との間にスキップ接続350がある。スキップ接続350は、第2の特徴抽出ネットワーク320の入力データが第1の特徴抽出ネットワーク310の入力データと出力データとに基づくようにする。
なお、図3では、順に接続されている2つの特徴抽出ネットワークが示されているが、これは単なる例であり、ニューラルネットワークモデル300は、より多くの特徴抽出ネットワークを含んでもよく、例えばニューラルネットワークモデル300は、第3の特徴抽出ネットワークをさらに含むことができ、第3の特徴抽出ネットワークと第2の特徴抽出ネットワーク320との間にスキップ接続があり、このスキップ接続は、第3の特徴抽出ネットワークの入力データが、第2の特徴抽出ネットワーク320の入力データと出力データとに基づくようにする。
なお、図3では、特徴ピラミッドネットワーク330が1つの融合特徴マップを出力することが示されているが、これは単なる例であり、特徴ピラミッドネットワーク330は、複数の融合特徴マップを出力することもできる。複数の融合特徴マップは、異なるサイズを有することができる。融合特徴マップの数およびサイズは、特徴ピラミッドネットワーク330によって受信された特徴マップの数およびサイズと一致し得、例えば、異なるサイズを有する2つの融合特徴マップまたは異なるサイズを有する3つの融合特徴マップがある。
さらに、なお、図3では、1つのオブジェクト検出ネットワークが示されているが、これは単なる例であり、ニューラルネットワークモデル300は、複数のオブジェクト検出ネットワークを含み得、オブジェクト検出ネットワークの数は、生成された融合特徴マップの数と一致し得、例えば、2つのオブジェクト検出ネットワークまたは3つのオブジェクト検出ネットワークがある。
いくつかの実施例では、コンピューティングデバイス110は、検出対象の画像120に基づいて、第1の特徴抽出ネットワーク310を介して、第1の特徴マップを生成する。そして、コンピューティングデバイス110は、検出対象の画像120と第1の特徴マップとに基づいて、第2の特徴抽出ネットワーク320を介して、第2の特徴マップを生成する。
具体的には、コンピューティングデバイス110は、検出対象の画像120をダウンサンプリングして、ダウンサンプリングされた検出対象の画像120を生成することができる。ダウンサンプリングされた検出対象の画像120と第1の特徴マップとのサイズが同じである。例えば、1/2ダウンサンプリングである。次に、コンピューティングデバイス110は、ダウンサンプリングされた検出対象の画像および第1の特徴マップに基づいて、第2の特徴抽出ネットワーク320の第1の入力データを生成することができる。例えば、ダウンサンプリングされた検出対象の画像と第1の特徴マップとをピクセル単位で加算して、第2の特徴抽出ネットワーク320の第1の入力データを生成する。そして、コンピューティングデバイス110は、第2の特徴抽出ネットワーク320の第1の入力データに基づいて、第2の特徴抽出ネットワーク320を介して第2の特徴マップを生成することができる。
これにより、第2の特徴抽出ネットワークの入力データは、第1の特徴抽出ネットワークの出力データと入力データとに基づいており、第2の特徴抽出ネットワークと第1の特徴抽出ネットワークをスキップ接続することにより、マルチスケールの特徴融合を実現し、第2の特徴マップはマルチスケールの特徴融合によって出力される特徴マップであるため、ルチスケールの特徴抽出能力を強化して、オブジェクト検出の精度を向上させることができる。
ニューラルネットワークモデル300が第3の特徴抽出ネットワークをさらに含む場合、コンピューティングデバイス110は、検出対象の画像120と、第1の特徴マップと第2の特徴マップとに基づいて、第3の特徴抽出ネットワークを介して、第3の特徴マップを生成することもできる。
具体的には、コンピューティングデバイス110は、第2の特徴抽出ネットワーク320の第1の入力データをダウンサンプリングして、ダウンサンプリングされた第1の入力データを生成することができる。ダウンサンプリングされた第1の入力データと第2の特徴マップとのサイズが同じである。例えば、1/2ダウンサンプリングである。次に、コンピューティングデバイス110は、ダウンサンプリングされた第1の入力データおよび第2の特徴マップに基づいて、第3の特徴抽出ネットワークの第2の入力データを生成することができる。例えば、ダウンサンプリングされた第1の入力データと第2の特徴マップをピクセル単位で加算して、第3の特徴抽出ネットワークの第2の入力データを生成する。そして、コンピューティングデバイス110は、第3の特徴抽出ネットワークの第2の入力データに基づいて、第3の特徴抽出ネットワークを介して第3の特徴マップを生成することができる。
図4は本開示の実施例によるニューラルネットワークモデル400の概略ブロック図である。図4に示すように、ニューラルネットワークモデル400は、第1の特徴抽出ネットワーク410、第2の特徴抽出ネットワーク420、第3の特徴抽出ネットワーク430、特徴ピラミッドネットワーク440およびオブジェクト検出ネットワーク450を含む。第1の特徴抽出ネットワーク410と第2の特徴抽出ネットワーク420との間にはスキップ接続460がある。スキップ接続460は、第2の特徴抽出ネットワーク420の入力データが、第1の特徴抽出ネットワーク410の入力データと出力データとに基づくようにする。第3の特徴抽出ネットワーク430と第2の特徴抽出ネットワーク420との間にはスキップ接続470がある。スキップ接続470は、第3の特徴抽出ネットワーク430の入力データが、第2の特徴抽出ネットワーク420の入力データと出力データとに基づくようにする。
なお、図4では、順に接続される3つの特徴抽出ネットワークが示されているが、これは単なる例であり、ニューラルネットワークモデル400は、より多くの特徴抽出ネットワークを含んでもよく、例えば、ニューラルネットワークモデル400は、第4の特徴抽出ネットワークをさらに含むことができ、第4の特徴抽出ネットワークと第3の特徴抽出ネットワーク430との間にスキップ接続があり、このスキップ接続は、第4の特徴抽出ネットワークの入力データが、第3の特徴抽出ネットワーク430の入力データと出力データとに基づくようにする。
なお、図4では、特徴ピラミッドネットワーク440が1つの融合特徴マップを出力することが示されているが、これは単なる例であり、特徴ピラミッドネットワーク440は、複数の融合特徴マップを出力することもできる。複数の融合特徴マップは、異なるサイズを有することができる。融合特徴マップの数およびサイズは、特徴ピラミッドネットワーク440によって受信された特徴マップの数およびサイズと一致し得、例えば、異なるサイズを有する2つの融合特徴マップまたは異なるサイズを有する3つの融合特徴マップがある。
さらに、なお、図4では、1つのオブジェクト検出ネットワークが示されているが、これは単なる例であり、ニューラルネットワークモデル400は、複数のオブジェクト検出ネットワークを含み得、オブジェクト検出ネットワークの数は、生成された融合特徴マップの数と一致し得、例えば、2つのオブジェクト検出ネットワークまたは3つのオブジェクト検出ネットワークがある。
いくつかの実施例では、コンピューティングデバイス110は、検出対象の画像120に基づいて、第1の特徴抽出ネットワーク410を介して、特徴抽出結果を生成することができる。次に、コンピューティングデバイス110は、検出対象の画像120と特徴抽出結果とに基づいて、第2の特徴抽出ネットワーク420を介して、第1の特徴マップを生成することができる。そして、コンピューティングデバイス110は、検出対象の画像120、特徴抽出結果、および第1の特徴マップに基づいて、第3の特徴抽出ネットワーク430を介して、第2の特徴マップを生成することができる。第1の特徴マップと第2の特徴マップを生成する過程は、上記と同様であるため、説明を省略する。
これにより、第3の特徴抽出ネットワークの入力データが第2の特徴抽出ネットワークの出力データと入力データとに基づくようにし、第2の特徴抽出ネットワークの入力データが第1の特徴抽出ネットワークの出力データと入力データとに基づくようにし、第3の特徴抽出ネットワークと第2の特徴抽出ネットワークをスキップ接続し、第2の特徴抽出ネットワークと第1の特徴抽出ネットワークをスキップ接続することにより、マルチスケールの特徴融合を実現し、第1の特徴マップと第2の特徴マップは、いずれもマルチスケールの特徴融合によって出力される特徴マップであるため、マルチスケールの特徴抽出能力を強化して、オブジェクト検出の精度を向上させることができる。
代替的または追加的に、いくつかの実施例では、ニューラルネットワークモデル300および400は、それぞれ残差畳み込みネットワーク360と残差畳み込みネットワーク480を含むことができる。
コンピューティングデバイス110は、検出対象の画像120に基づいて、残差畳み込みネットワークを介して、残差畳み込み結果を生成することができる。そして、コンピューティングデバイス110は、残差畳み込み結果に基づいて、複数の特徴抽出ネットワークを介して、複数の特徴マップを生成することができる。
なお、ニューラルネットワークモデル300および400が残差畳み込みネットワークを含む場合、特徴マップ又は特徴抽出結果を生成する上記のプロセスは、残差畳み込み結果に基づいて適応させることができるが、詳細には説明しない。
これにより、従来の技術案における最大プーリングで検出対象の画像をダウンサンプリングするのが早すぎる問題に比べて、残差畳み込みネットワークが検出対象の画像をダウンサンプリングすることにより、局所特徴の適切なサンプリングの欠如による精度の損失を回避することができる。
図5は本開示の実施例による残差畳み込みネットワーク500の概略ブロック図である。図5に示すように、残差畳み込みネットワーク500は、2つの分岐510および520を含む。第1の分岐510は、3*3畳み込み層511および1*1畳み込み層512を含む。第2の分岐520は、1*1畳み込み層521、3*3畳み込み層522、および1*1畳み込み層523を含む。
コンピューティングデバイス110は、検出対象の画像120に基づいて、3*3畳み込み層および1*1畳み込み層を含む第1の分岐510を介して、第1の分岐畳み込み結果を生成することができる。コンピューティングデバイス110は、検出対象の画像120に基づいて、1*1畳み込み層、3*3畳み込み層および1*1畳み込み層を含む第2の分岐520を介して、第2の分岐畳み込み結果を生成することもできる。そして、コンピューティングデバイス110は、第1の分岐畳み込み結果と第2の分岐畳み込み結果とに基づいて、残差畳み込み結果を生成することができる。
これにより、3*3畳み込み層および1*1畳み込み層を含む第1の分岐、および1*1畳み込み層、3*3畳み込み層および1*1畳み込み層を含む第2の分岐によって、残差畳み込みネットワークは比較的軽量化にすることができ、効率を向上させることができる。
図6は本開示の実施例によるオブジェクト検出ネットワーク600の概略ブロック図である。図6に示すように、オブジェクト検出ネットワーク600は、位置ボックス検出分岐610とオブジェクト分類分岐620とを含む。
位置ボックス検出分岐610は、第1の深さ方向に分離可能な畳み込み層611、グローバル平均プーリング層612、および第2の深さ方向に分離可能な畳み込み層613を含む。
オブジェクト分類分岐620は、第3の深さ方向に分離可能な畳み込み層621、第4の深さ方向に分離可能な畳み込み層622、および第5の深さ方向に分離可能な畳み込み層623を含む。第5の深さ方向に分離可能な畳み込み層623と第3の深さ方向に分離可能な畳み込み層621との間にはスキップ接続624があり、スキップ接続624は、第5の深さ方向に分離可能な畳み込み層623の入力データが、第3の深さ方向に分離可能な畳み込み層621の入力データと出力データとに基づくようにする。
これにより、深さ方向に分離可能な畳み込み層を使用することにより、オブジェクト検出ネットワーク600は、少量のパラメーターしか含まないため、オブジェクト検出の効率が保証される。
図7は本開示の実施例によるオブジェクト検出結果を生成する方法700のフローチャートである。例えば、方法700は、図1に示すようなコンピューティングデバイス110によって実行することができる。なお、方法700は、図示されていない追加のブロックを含んでもよく、及び/又は図示されたブロックは省略されてもよく、本開示の範囲はこれに関して限定されない。
ボックス702では、コンピューティングデバイス110は、融合特徴マップに基づいて、第1の深さ方向に分離可能な畳み込み層611を介して、第1の畳み込み結果を生成する。
ボックス704では、コンピューティングデバイス110は、第1の畳み込み結果に基づいて、グローバル平均プーリング層612を介して、プーリング結果を生成する。
ボックス706では、コンピューティングデバイス110は、プーリング結果に基づいて、第2の深さ方向に分離可能な畳み込み層613を介して、検出対象の画像120内の検出されたオブジェクトの位置ボックス情報を生成する。
これにより、2つの深さ方向に分離可能な畳み込み層の間に、アテンションメカニズムを備えたグローバル平均プーリング層を使用することによって、オブジェクトの特徴がより顕著になり、検出精度が向上する。なお、深さ方向に分離可能な畳み込み層を使用する場合、少量のパラメーターしか伝送しないため、オブジェクト検出の効率が保証される。
第1の深さ方向に分離可能な畳み込み層および第2の深さ方向に分離可能な畳み込み層の畳み込みカーネルのサイズは5*5に設定され得る。これにより、3*3の畳み込みカーネルと比較して、オブジェクト検出の速度は低下しないが、精度は高くなる。
図8は本開示の実施例によるオブジェクト検出結果を生成する方法800のフローチャートである。例えば、方法800は、図1に示すようなコンピューティングデバイス110によって実行することができる。なお、方法800は、図示されていない追加のブロックを含んでもよく、及び/又は図示されたブロックは省略されてもよく、本開示の範囲はこれに関して限定されない。
ボックス802では、コンピューティングデバイス110は、融合特徴マップに基づいて、第3の深さ方向に分離可能な畳み込み層621を介して、第2の畳み込み結果を生成する。
ボックス804では、コンピューティングデバイス110は、第2の畳み込み結果に基づいて、第4の深さ方向に分離可能な畳み込み層622を介して、第3の畳み込み結果を生成する。
ボックス806では、コンピューティングデバイス110は、第2の畳み込み結果と第3の畳み込み結果とに基づいて、第5の深さ方向に分離可能な畳み込み層623を介して、検出対象の画像120内の検出されたオブジェクトのタイプ情報を生成する。
これにより、第5の深さ方向に分離可能な畳み込み層の入力データが、前の第3の深さ方向に分離可能な畳み込み層の出力データと入力データとに基づくようにすることで、スキップ接続を実現することと同等になり、パラメーターを増やすことなく正則化を改善し、汎化能力を向上させ、オーバーフィッティングを防止することができる。なお、深さ方向に分離可能な畳み込み層を使用する場合、少量のパラメーターしか伝送しないため、オブジェクト検出の効率が保証される。
第3の深さ方向に分離可能な畳み込み層、第4の深さ方向に分離可能な畳み込み層および第5の深さ方向に分離可能な畳み込み層の畳み込みカーネルのサイズは5*5に設定され得る。これにより、3*3の畳み込みカーネルと比較して、オブジェクト検出の速度は低下しないが、精度は高くなる。
本開示の技術案は、モバイル端末などのエッジデバイスでのオブジェクト検出モデルの消費時間を削減することができ、モデル全体のパラメーター量はわずか1Mであり、例えば、Kirin 980チップで130FPSに達することが予測されている。同時に、本開示の技術案はオブジェクト検出の精度も保証し、YOLOv3-Mobilenetv3のオブジェクト検出モデルと比較して、モデルパラメータ量は25倍圧縮され、予測速度は51倍向上する。
指数平滑移動平均(Exponential Moving Average)(以下、まとめてEMAと呼ばれる)とは、安定性を達成し、収束速度を向上させるために、トレーニング中に隣接するトレーニングエポックでニューラルネットワークモデルのパラメーターの平均値を計算することを指す。発明者は、サーバー側でのモデルトレーニングの全プロセスでEMAを使用すると、収束が加速され、精度が向上する可能性があるが、モバイル端末などのモデルトレーニングの全プロセスでEMAを使用して精度を向上させるメリットは得られないことを発見した。分析した後、本発明者は、モバイル端末などのモデルトレーニングには、基本的に数百エポック(epoch)などのより多くのエポックが必要であり、EMAパラメーターを絶えず積算することにより、トレーニングが局所最適に陥ることを発見した。この問題を解決するために、本出願は、ニューラルネットワークモデルは、指数平滑移動平均アルゴリズムによる複数回のトレーニングによって生成され、ここで、所定のトレーニングエポックごとに指数平滑移動平均アルゴリズムのパラメーターをリセットすることを提案する。これは、EMAアルゴリズムを再起動することと同等であり、これにより、正則化効果が生まれ、精度が向上する。モバイル端末などのモデルでは、平均精度は一般的に1%以上向上することができる。
なお、発明者は、サーバー側のニューラルネットワークモデルとは異なり、モバイル端末のオブジェクト検出モデルのパラメータ量が少なく、ネットワークの収束速度が非常に遅いことが発見した。サーバー側のニューラルネットワークモデルの段階的固定エポック減衰学習率戦略が使用される場合、モバイル端末モデルの収束速度は遅くなる。同時に、モバイル端末での軽量モデルのトレーニングには、バッチデータが多いため、学習率を適切に調整することができる。このため、本出願では、ニューラルネットワークモデルは、複数回のトレーニングによって生成され、複数回のトレーニングのうち次のエポックのトレーニングの学習率が前のエポックのトレーニングの学習率に基づいてコサイン減衰されることを提案する。例えば、次のエポックのトレーニングの学習率=0.4cos(前のエポックのトレーニングの学習率)、0.4は初期値であり、これは一例であり、他の値を使用しても良い。このようにして、モデルの収束速度を加速するとともに、モデルの精度を向上させることができる。
また、発明者は、ニューラルネットワークモデルのトレーニングプロセスにおいて、パラメータ確率的勾配降下法を使用して、トレーニングでのオーバーフィッティングを防ぐために、運動量(運動量勾配降下法)には正則が設定されることを発見した。サーバー側のモデルには多数のパラメーターがあるため、正則化減衰率は比較的高く、通常は10の-3乗であるが、小さいモデルではパラメーターが少なく、減衰率が高いと、モデルが収束して振動し、精度に影響する。このため、本出願は、ニューラルネットワークモデルが運動量勾配降下法によってトレーニングされることを提案し、運動量勾配降下法の正則化減衰率は4e-5に設定され得る。これにより、モデルの精度を向上させることができる。
図9は本開示の実施例による画像内のオブジェクトの検出装置900の概略ブロック図である。図9に示すように、装置900は、画像取得モジュール910、特徴抽出モジュール920及びオブジェクト検出モジュール930を含む。
画像取得モジュール910は、検出対象の画像120を取得する。
特徴抽出モジュール920は、検出対象の画像120に基づいて、オブジェクト検出のためのトレーニングされたニューラルネットワークモデル130内の複数の特徴抽出ネットワークを介して、複数の特徴マップを生成し、ここで、複数の特徴抽出ネットワークが順に接続され、複数の特徴抽出ネットワークのうち後の特徴抽出ネットワークの入力データは、前の特徴抽出ネットワークの出力データおよび入力データに基づいている。
オブジェクト検出モジュール930は、複数の特徴マップに基づいて、ニューラルネットワークモデル130内のオブジェクト検出ネットワークを介して、オブジェクト検出結果を生成する。
これにより、後の特徴抽出ネットワークの入力データが、前の特徴抽出ネットワークの出力データおよび入力データに基づくようにし、前の特徴抽出ネットワークの入力データと後の特徴抽出ネットワークの入力データをスキップ接続することにより、マルチスケールの特徴融合を実現し、マルチスケールの特徴抽出能力を強化して、オブジェクト検出の精度を向上させることができ、モバイルデバイス、エッジコンピューティングデバイスなどでのオブジェクト検出に特に適している。
いくつかの実施例では、特徴抽出モジュール920は、検出対象の画像120に基づいて、第1の特徴抽出ネットワークを介して、第1の特徴マップを生成する第1の特徴マップ生成サブモジュールと、検出対象の画像と第1の特徴マップとに基づいて、第2の特徴抽出ネットワークを介して、第2の特徴マップを生成する第2の特徴マップ生成サブモジュールとを含む。
他の実施例では、特徴抽出モジュール920は、検出対象の画像120に基づいて、第1の特徴抽出ネットワークを介して、特徴抽出結果を生成する特徴抽出結果生成サブモジュールと、検出対象の画像120と特徴抽出結果とに基づいて、第2の特徴抽出ネットワークを介して、第1の特徴マップを生成する第1の特徴マップ生成サブモジュールと、検出対象の画像120、特徴抽出結果及び第1の特徴マップに基づいて、第3の特徴抽出ネットワークを介して、第2の特徴マップを生成する第2の特徴マップ生成サブモジュールとを含む。
代替的または追加的に、いくつかの実施例では、特徴抽出モジュール920は、検出対象の画像120に基づいて、残差畳み込みネットワークを介して、残差畳み込み結果を生成する残差畳み込みサブモジュールと、残差畳み込み結果に基づいて、複数の特徴抽出ネットワークを介して、複数の特徴マップを生成する特徴抽出サブモジュールとを含む。
いくつかの実施例では、残差畳み込みサブモジュールは、さらに、検出対象の画像120に基づいて、3*3畳み込み層および1*1畳み込み層を含む第1の分岐を介して、第1の分岐畳み込み結果を生成し、検出対象の画像120に基づいて、1*1畳み込み層、3*3畳み込み層および1*1畳み込み層を含む第2の分岐を介して、第2の分岐畳み込み結果を生成し、第1の分岐畳み込み結果と第2の分岐畳み込み結果とに基づいて、残差畳み込み結果を生成する。
いくつかの実施例では、オブジェクト検出モジュール930は、複数の特徴マップに基づいて、ニューラルネットワークモデル130内の特徴ピラミッドネットワークを介して、融合特徴マップを生成する特徴融合サブモジュールと、融合特徴マップに基づいて、オブジェクト検出ネットワークを介して、オブジェクト検出結果を生成するオブジェクト検出サブモジュールとを含む。
いくつかの実施例では、オブジェクト検出サブモジュールは、融合特徴マップに基づいて、第1の深さ方向に分離可能な畳み込み層を介して、第1の畳み込み結果を生成し、第1の畳み込み結果に基づいて、グローバル平均プーリング層を介して、プーリング結果を生成し、プーリング結果に基づいて、第2の深さ方向に分離可能な畳み込み層を介して、検出対象の画像120内の検出されたオブジェクトの位置ボックス情報を生成する。
いくつかの実施例では、第1の深さ方向に分離可能な畳み込み層と第2の深さ方向に分離可能な畳み込み層の畳み込みカーネルのサイズは5*5に設定されてもよい。
いくつかの実施例では、オブジェクト検出サブモジュールは、融合特徴マップに基づいて、第3の深さ方向に分離可能な畳み込み層を介して、第2の畳み込み結果を生成し、第2の畳み込み結果に基づいて、第4の深さ方向に分離可能な畳み込み層を介して、第3の畳み込み結果を生成し、第2の畳み込み結果と第3の畳み込み結果とに基づいて、第5の深さ方向に分離可能な畳み込み層を介して、検出対象の画像120内の検出されたオブジェクトのタイプ情報を生成する。
いくつかの実施例では、ニューラルネットワークモデル130は、指数平滑移動平均アルゴリズムによる複数回のトレーニングによって生成され、ここで、所定のトレーニングエポックごとに指数平滑移動平均アルゴリズムのパラメーターをリセットする。
いくつかの実施例では、ニューラルネットワークモデル130は、複数回のトレーニングによって生成され、複数回のトレーニングのうち次のエポックのトレーニングの学習率は、前のエポックのトレーニングの学習率に基づいてコサイン減衰される。
いくつかの実施例では、ニューラルネットワークモデル130は、運動量勾配降下法によってトレーニングされて生成され、ここで、運動量勾配降下法の正則化減衰率は4e-5に設定されている。
本開示の技術案では、関連するユーザーの個人情報の取得、保存、および適用はすべて、関連する法律および規制の規定を遵守し、公序良俗に違反しない。
本開示の実施例によれば、本開示は、電子機器、および読み取り可能な記憶媒体をさらに提供する。
本開示の実施例によれば、本開示は、コンピュータプログラムをさらに提供し、コンピュータプログラムがプロセッサによって実行される場合、本開示によって提供されるオブジェクトの検出方法が実現される。
図10は、本開示の実施例を実施するための例示的な電子機器1000の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセシング、セルラー電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表してもよい。本明細書に示されるコンポーネント、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記載及び/または求められる本開示の実現を限定することを意図しない。
図10に示すように、電子機器1000は、リードオンリーメモリ(ROM)1002に記憶されたコンピュータプログラム、または記憶ユニット1008からランダムアクセスメモリ(RAM)1003にローディングされたコンピュータプログラムに基づいて、様々な適切な動作と処理を実行できる計算ユニット1001を含む。RAM1003には、電子機器1000の動作に必要な各種のプログラム及びデータをさらに記憶することができる。計算ユニット1001と、ROM1002と、RAM1003とは、バス1004を介して互いに接続されている。入力/出力(I/O)インターフェース1005もバス1004に接続されている。
機器1000における複数のコンポーネントは、I/Oインターフェース1005に接続されており、その複数のコンポーネントは、キーボードやマウスなどの入力ユニット1006と、種々なディスプレイやスピーカなどの出力ユニット1007と、磁気ディスクや光学ディスクなどの記憶ユニット1008と、ネットワークカード、モデム、無線通信トランシーバーなどの通信ユニット1009と、を備える。通信ユニット1009は、電子機器1000がインターネットのようなコンピュータネット及び/または種々なキャリアネットワークを介して他の機器と情報/データを交換することを可能にする。
計算ユニット1001は、処理及び計算能力を有する様々な汎用及び/または専用の処理コンポーネントであってもよい。計算ユニット1001のいくつかの例としては、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な専用の人工知能(AI)計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタ信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを備えるが、これらに限定されない。計算ユニット1001は、上述で説明された各方法及び処理、例えば方法200、700、800を実行する。例えば、いくつかの実施例では、方法200、700、800を、記憶ユニット1008のような機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウエアプログラムとして実現されてもよい。一部の実施例では、コンピュータプログラムの一部または全ては、ROM1002及び/または通信ユニット1009を介して、電子機器1000にロード及び/またはインストールされてもよい。コンピュータプログラムがRAM1003にロードされて計算ユニット1001によって実行される場合に、前述した方法200、700、800の一つまたは複数のステップを実行することができる。選択的に、他の実施例では、計算ユニット1001は、他の任意の適当な方式(例えば、ファームウェア)により方法200、700、800を実行するように構成されてもよい。
ここで記載されているシステムまたは技術の各種の実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータのハードウェア、ファームウェア、ソフトウェア、及び/またはこれらの組み合わせによって実現することができる。これらの各実施形態は、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムにて実行及び/または解釈される1つまたは複数のコンピュータプログラムにより実行することを含み得、当該プログラマブルプロセッサは、専用または汎用のプログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力デバイス、及び少なくとも1つの出力デバイスからデータ及び命令を受け取り、データ及び命令を該ストレージシステム、当該少なくとも1つの入力デバイス、及び当該少なくとも1つの出力デバイスに転送することができる。
本開示の方法を実施するためのプログラムコードは、1または複数のプログラミング言語の組み合わせで記述されていてもよい。これらのプログラムコードは、プロセッサ又はコントローラによって実行されると、フローチャート及び/またはブロック図で規定された機能・動作が実施されるように、汎用コンピュータや専用コンピュータまたは他のプログラム可能な人間の画像復元装置のプロセッサやコントローラに提供されてもよい。プログラムコードは、機械上で完全に実行されるか、機械上で部分的に実行されるか、独立したソフトウェアパッケージとして機械上で部分的に実行されるとともにリモートマシン上で部分的に実行されるか、またはリモートマシンまたはサーバ上で完全に実行されてもよい。
本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置またはデバイスによって使用されるために、または命令実行システム、装置またはデバイスと組み合わせて使用されるためのプログラムを含むか、または記憶することができる有形媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体であってもよいし、機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体としては、電子的、磁気的、光学的、電磁的、赤外線的、半導体システム、装置、デバイス、またはこれらの任意の適切な組み合わせが挙げられるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例としては、1または複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能なプログラム可能なリードオンリメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせが挙げられる。
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータで実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウスまたはトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供するために用いられることができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム(例えば、データサーバとする)、またはミドルウェアコンポーネントを備えるコンピューティングシステム(例えば、アプリケーションサーバー)、またはフロントエンドコンポーネントを備えるコンピューティングシステム(例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースまたは当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、またはこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステムで実施することができる。任意の形式または媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを互いに接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークとを含む。
コンピュータシステムは、クライアントとサーバとを備えることができる。クライアントとサーバは、一般的に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータで実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。ここで、サーバはクラウドサーバであってもよく、分散システムのサーバー、またはブロックチェーンを結合したサーバーであってもよい。
なお、上述した様々な形態のフローを用いて、ステップを並び替え、追加または削除を行うことができることを理解されるべきである。例えば、本開示に記載された各ステップは、本開示に開示された技術方案の所望の結果が達成できる限り、並列に実行されてもよいし、順番に実行されてもよいし、異なる順序で実行されてもよく、本明細書では制限されない。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができることは理解される。本開示の精神及び原理内で行われたあらゆる修正、同等の置換及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims (27)

  1. 検出対象の画像を取得するステップと、
    前記検出対象の画像に基づいて、オブジェクト検出のためのトレーニングされたニューラルネットワークモデル内の複数の特徴抽出ネットワークを介して、複数の特徴マップを生成するステップであって、前記複数の特徴抽出ネットワークが順に接続され、前記複数の特徴抽出ネットワークのうち後の特徴抽出ネットワークの入力データは、前の特徴抽出ネットワークの出力データおよび入力データに基づいているステップと、
    前記複数の特徴マップに基づいて、前記ニューラルネットワークモデル内のオブジェクト検出ネットワークを介して、オブジェクト検出結果を生成するステップと、を含む、
    ことを特徴とするオブジェクトの検出方法。
  2. 前記複数の特徴マップを生成するステップは、
    前記検出対象の画像に基づいて、第1の特徴抽出ネットワークを介して、第1の特徴マップを生成するステップと、
    前記検出対象の画像と前記第1の特徴マップとに基づいて、第2の特徴抽出ネットワークを介して、第2の特徴マップを生成するステップと、を含む、
    ことを特徴とする請求項1に記載のオブジェクトの検出方法。
  3. 前記複数の特徴マップを生成するステップは、
    前記検出対象の画像に基づいて、第1の特徴抽出ネットワークを介して、特徴抽出結果を生成するステップと、
    前記検出対象の画像と前記特徴抽出結果とに基づいて、第2の特徴抽出ネットワークを介して、第1の特徴マップを生成するステップと、
    前記検出対象の画像、前記特徴抽出結果および前記第1の特徴マップに基づいて、第3の特徴抽出ネットワークを介して、第2の特徴マップを生成するステップと、を含む、
    ことを特徴とする請求項1に記載のオブジェクトの検出方法。
  4. 前記複数の特徴マップを生成するステップは、
    前記検出対象の画像に基づいて、残差畳み込みネットワークを介して、残差畳み込み結果を生成するステップと、
    前記残差畳み込み結果に基づいて、前記複数の特徴抽出ネットワークを介して、前記複数の特徴マップを生成するステップと、を含む、
    ことを特徴とする請求項1に記載のオブジェクトの検出方法。
  5. 前記残差畳み込み結果を生成するステップは、
    前記検出対象の画像に基づいて、3*3畳み込み層および1*1畳み込み層を含む第1の分岐を介して、第1の分岐畳み込み結果を生成するステップと、
    前記検出対象の画像に基づいて、1*1畳み込み層、3*3畳み込み層および1*1畳み込み層を含む第2の分岐を介して、第2の分岐畳み込み結果を生成するステップと、
    前記第1の分岐畳み込み結果と前記第2の分岐畳み込み結果とに基づいて、前記残差畳み込み結果を生成するステップと、を含む、
    ことを特徴とする請求項4に記載のオブジェクトの検出方法。
  6. 前記オブジェクト検出結果を生成するステップは、
    前記複数の特徴マップに基づいて、前記ニューラルネットワークモデル内の特徴ピラミッドネットワークを介して、融合特徴マップを生成するステップと、
    前記融合特徴マップに基づいて、前記オブジェクト検出ネットワークを介して、前記オブジェクト検出結果を生成するステップと、を含む、
    ことを特徴とする請求項1に記載のオブジェクトの検出方法。
  7. 前記オブジェクト検出結果を生成するステップは、
    前記融合特徴マップに基づいて、第1の深さ方向に分離可能な畳み込み層を介して、第1の畳み込み結果を生成するステップと、
    前記第1の畳み込み結果に基づいて、グローバル平均プーリング層を介して、プーリング結果を生成するステップと、
    前記プーリング結果に基づいて、第2の深さ方向に分離可能な畳み込み層を介して、前記検出対象の画像内の検出されたオブジェクトの位置ボックス情報を生成するステップと、を含む、
    ことを特徴とする請求項6に記載のオブジェクトの検出方法。
  8. 前記第1の深さ方向に分離可能な畳み込み層及び前記第2の深さ方向に分離可能な畳み込み層の畳み込みカーネルのサイズは5*5に設定されている、
    ことを特徴とする請求項7に記載のオブジェクトの検出方法。
  9. 前記オブジェクト検出結果を生成するステップは、
    前記融合特徴マップに基づいて、第3の深さ方向に分離可能な畳み込み層を介して、第2の畳み込み結果を生成するステップと、
    前記第2の畳み込み結果に基づいて、第4の深さ方向に分離可能な畳み込み層を介して、第3の畳み込み結果を生成するステップと、
    前記第2の畳み込み結果と前記第3の畳み込み結果とに基づいて、第5の深さ方向に分離可能な畳み込み層を介して、前記検出対象の画像内の検出されたオブジェクトのタイプ情報を生成するステップと、を含む、
    ことを特徴とする請求項6に記載のオブジェクトの検出方法。
  10. 前記ニューラルネットワークモデルは、指数平滑移動平均アルゴリズムによる複数回のトレーニングによって生成され、所定のトレーニングエポックごとに指数平滑移動平均アルゴリズムのパラメーターをリセットする、
    ことを特徴とする請求項1に記載のオブジェクトの検出方法。
  11. 前記ニューラルネットワークモデルは、複数回のトレーニングによって生成され、前記複数回のトレーニングのうち次のエポックのトレーニングの学習率は、前のエポックのトレーニングの学習率に基づいてコサイン減衰される、
    ことを特徴とする請求項1に記載のオブジェクトの検出方法。
  12. 前記ニューラルネットワークモデルは、運動量勾配降下法によってトレーニングされて生成され、前記運動量勾配降下法の正則化減衰率は4e-5に設定されている、
    ことを特徴とする請求項1に記載のオブジェクトの検出方法。
  13. 検出対象の画像を取得する画像取得モジュールと、
    前記検出対象の画像に基づいて、オブジェクト検出のためのトレーニングされたニューラルネットワークモデル内の複数の特徴抽出ネットワークを介して、複数の特徴マップを生成する特徴抽出モジュールであって、前記複数の特徴抽出ネットワークが順に接続され、前記複数の特徴抽出ネットワークのうち後の特徴抽出ネットワークの入力データは、前の特徴抽出ネットワークの出力データおよび入力データに基づいている特徴抽出モジュールと、
    前記複数の特徴マップに基づいて、前記ニューラルネットワークモデル内のオブジェクト検出ネットワークを介して、オブジェクト検出結果を生成するオブジェクト検出モジュールと、を含む、
    ことを特徴とするオブジェクトの検出装置。
  14. 前記特徴抽出モジュールが、
    前記検出対象の画像に基づいて、第1の特徴抽出ネットワークを介して、第1の特徴マップを生成する第1の特徴マップ生成サブモジュールと、
    前記検出対象の画像と前記第1の特徴マップとに基づいて、第2の特徴抽出ネットワークを介して、第2の特徴マップを生成する第2の特徴マップ生成サブモジュールと、を含む、
    ことを特徴とする請求項13に記載のオブジェクトの検出装置。
  15. 前記特徴抽出モジュールが、
    前記検出対象の画像に基づいて、第1の特徴抽出ネットワークを介して、特徴抽出結果を生成する特徴抽出結果生成サブモジュールと、
    前記検出対象の画像と前記特徴抽出結果とに基づいて、第2の特徴抽出ネットワークを介して、第1の特徴マップを生成する第1の特徴マップ生成サブモジュールと、
    前記検出対象の画像、前記特徴抽出結果および前記第1の特徴マップに基づいて、第3の特徴抽出ネットワークを介して、第2の特徴マップを生成する第2の特徴マップ生成サブモジュールと、を含む、
    ことを特徴とする請求項13に記載のオブジェクトの検出装置。
  16. 前記特徴抽出モジュールが、
    前記検出対象の画像に基づいて、残差畳み込みネットワークを介して、残差畳み込み結果を生成する残差畳み込みサブモジュールと、
    前記残差畳み込み結果に基づいて、前記複数の特徴抽出ネットワークを介して、前記複数の特徴マップを生成する特徴抽出サブモジュールと、を含む、
    ことを特徴とする請求項13~15のいずれかに記載のオブジェクトの検出装置。
  17. 前記残差畳み込みサブモジュールが、さらに、
    前記検出対象の画像に基づいて、3*3畳み込み層および1*1畳み込み層を含む第1の分岐を介して、第1の分岐畳み込み結果を生成し、
    前記検出対象の画像に基づいて、1*1畳み込み層、3*3畳み込み層および1*1畳み込み層を含む第2の分岐を介して、第2の分岐畳み込み結果を生成し、
    前記第1の分岐畳み込み結果と前記第2の分岐畳み込み結果とに基づいて、前記残差畳み込み結果を生成する、
    ことを特徴とする請求項16に記載のオブジェクトの検出装置。
  18. 前記オブジェクト検出モジュールが、
    前記複数の特徴マップに基づいて、前記ニューラルネットワークモデル内の特徴ピラミッドネットワークを介して、融合特徴マップを生成する特徴融合サブモジュールと、
    前記融合特徴マップに基づいて、前記オブジェクト検出ネットワークを介して、前記オブジェクト検出結果を生成するオブジェクト検出サブモジュールと、を含む、
    ことを特徴とする請求項13~15のいずれかに記載のオブジェクトの検出装置。
  19. 前記オブジェクト検出サブモジュールが、
    前記融合特徴マップに基づいて、第1の深さ方向に分離可能な畳み込み層を介して、第1の畳み込み結果を生成し、
    前記第1の畳み込み結果に基づいて、グローバル平均プーリング層を介して、プーリング結果を生成し、
    前記プーリング結果に基づいて、第2の深さ方向に分離可能な畳み込み層を介して、前記検出対象の画像内の検出されたオブジェクトの位置ボックス情報を生成する、
    ことを特徴とする請求項18に記載のオブジェクトの検出装置。
  20. 前記第1の深さ方向に分離可能な畳み込み層及び前記第2の深さ方向に分離可能な畳み込み層の畳み込みカーネルのサイズは5*5に設定されている、
    ことを特徴とする請求項19に記載のオブジェクトの検出装置。
  21. 前記オブジェクト検出サブモジュールが、
    前記融合特徴マップに基づいて、第3の深さ方向に分離可能な畳み込み層を介して、第2の畳み込み結果を生成し、
    前記第2の畳み込み結果に基づいて、第4の深さ方向に分離可能な畳み込み層を介して、第3の畳み込み結果を生成し、
    前記第2の畳み込み結果と前記第3の畳み込み結果とに基づいて、第5の深さ方向に分離可能な畳み込み層を介して、前記検出対象の画像内の検出されたオブジェクトのタイプ情報を生成する、
    ことを特徴とする請求項18に記載のオブジェクトの検出装置。
  22. 前記ニューラルネットワークモデルは、指数平滑移動平均アルゴリズムによる複数回のトレーニングによって生成され、所定のトレーニングエポックごとに指数平滑移動平均アルゴリズムのパラメーターをリセットする、
    ことを特徴とする請求項13に記載のオブジェクトの検出装置。
  23. 前記ニューラルネットワークモデルは、複数回のトレーニングによって生成され、前記複数回のトレーニングのうち次のエポックのトレーニングの学習率は、前のエポックのトレーニングの学習率に基づいてコサイン減衰される、
    ことを特徴とする請求項13に記載のオブジェクトの検出装置。
  24. 前記ニューラルネットワークモデルは、運動量勾配降下法によってトレーニングされて生成され、前記運動量勾配降下法の正則化減衰率は4e-5に設定されている、
    ことを特徴とする請求項13に記載のオブジェクトの検出装置。
  25. 電子機器であって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行される命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが請求項1~12のいずれかに記載のオブジェクトの検出方法を実行できるように、前記少なくとも1つのプロセッサによって実行される、
    ことを特徴とする電子機器。
  26. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、コンピュータに請求項1~12のいずれかに記載のオブジェクトの検出方法を実行させる、
    ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
  27. コンピュータプログラムであって、
    前記コンピュータプログラムがプロセッサによって実行される場合、請求項1~12のいずれかに記載のオブジェクトの検出方法が実現される、
    ことを特徴とするコンピュータプログラム。
JP2022149839A 2021-10-15 2022-09-21 オブジェクトの検出方法、装置、デバイス、媒体及びプログラム Active JP7387847B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111202517.5A CN113947144B (zh) 2021-10-15 2021-10-15 用于对象检测的方法、装置、设备、介质和程序产品
CN202111202517.5 2021-10-15

Publications (2)

Publication Number Publication Date
JP2022173321A true JP2022173321A (ja) 2022-11-18
JP7387847B2 JP7387847B2 (ja) 2023-11-28

Family

ID=79330551

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022149839A Active JP7387847B2 (ja) 2021-10-15 2022-09-21 オブジェクトの検出方法、装置、デバイス、媒体及びプログラム

Country Status (3)

Country Link
US (1) US11620815B2 (ja)
JP (1) JP7387847B2 (ja)
CN (1) CN113947144B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117739289A (zh) * 2024-02-20 2024-03-22 齐鲁工业大学(山东省科学院) 基于声图融合的泄漏检测方法及系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385814B (zh) * 2023-03-07 2023-12-05 广州市妇女儿童医疗中心 一种检测目标的超声筛查方法、系统、装置及介质
CN116090670B (zh) * 2023-04-03 2023-07-14 武汉纺织大学 一种基于多属性的服装流行趋势预测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020113000A (ja) * 2019-01-10 2020-07-27 日本電信電話株式会社 物体検出認識装置、方法、及びプログラム
JP2020135872A (ja) * 2019-02-19 2020-08-31 富士通株式会社 物体認識方法、装置及びネットワーク
CN112347936A (zh) * 2020-11-07 2021-02-09 南京天通新创科技有限公司 一种基于深度可分离卷积的快速目标检测方法
CN113158913A (zh) * 2021-04-25 2021-07-23 安徽科大擎天科技有限公司 一种人脸口罩佩戴识别方法、系统及终端
JP2021117969A (ja) * 2020-01-23 2021-08-10 同▲済▼大学 ランダムバッチマスクとマルチスケール表現学習を融合した人物再同定方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182388A (zh) * 2017-12-14 2018-06-19 哈尔滨工业大学(威海) 一种基于图像的运动目标跟踪方法
CN109359666B (zh) * 2018-09-07 2021-05-28 佳都科技集团股份有限公司 一种基于多特征融合神经网络的车型识别方法及处理终端
CN109614985B (zh) * 2018-11-06 2023-06-20 华南理工大学 一种基于密集连接特征金字塔网络的目标检测方法
GB2580671B (en) * 2019-01-22 2022-05-04 Toshiba Kk A computer vision system and method
CN111260630A (zh) * 2020-01-16 2020-06-09 高新兴科技集团股份有限公司 一种改进的轻量化的小目标检测方法
CN111274942A (zh) * 2020-01-19 2020-06-12 国汽(北京)智能网联汽车研究院有限公司 一种基于级联网络的交通锥识别方法及装置
CN111539942B (zh) * 2020-04-28 2021-08-31 中国科学院自动化研究所 基于多尺度深度特征融合的人脸深度篡改图像的检测方法
CN111768365B (zh) * 2020-05-20 2023-05-30 太原科技大学 基于卷积神经网络多特征融合的太阳能电池缺陷检测方法
US10902291B1 (en) * 2020-08-04 2021-01-26 Superb Ai Co., Ltd. Methods for training auto labeling device and performing auto labeling related to segmentation while performing automatic verification by using uncertainty scores and devices using the same
CN111968087B (zh) * 2020-08-13 2023-11-07 中国农业科学院农业信息研究所 一种植物病害区域检测方法
CN112232232B (zh) * 2020-10-20 2022-09-27 城云科技(中国)有限公司 一种目标检测方法
CN112488060B (zh) * 2020-12-18 2023-08-08 北京百度网讯科技有限公司 目标检测方法、装置、设备和介质
CN113269038B (zh) * 2021-04-19 2022-07-15 南京邮电大学 一种基于多尺度的行人检测方法
CN113298032A (zh) * 2021-06-16 2021-08-24 武汉卓目科技有限公司 基于深度学习的无人机视角图像的车辆目标检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020113000A (ja) * 2019-01-10 2020-07-27 日本電信電話株式会社 物体検出認識装置、方法、及びプログラム
JP2020135872A (ja) * 2019-02-19 2020-08-31 富士通株式会社 物体認識方法、装置及びネットワーク
JP2021117969A (ja) * 2020-01-23 2021-08-10 同▲済▼大学 ランダムバッチマスクとマルチスケール表現学習を融合した人物再同定方法
CN112347936A (zh) * 2020-11-07 2021-02-09 南京天通新创科技有限公司 一种基于深度可分离卷积的快速目标检测方法
CN113158913A (zh) * 2021-04-25 2021-07-23 安徽科大擎天科技有限公司 一种人脸口罩佩戴识别方法、系统及终端

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117739289A (zh) * 2024-02-20 2024-03-22 齐鲁工业大学(山东省科学院) 基于声图融合的泄漏检测方法及系统
CN117739289B (zh) * 2024-02-20 2024-04-26 齐鲁工业大学(山东省科学院) 基于声图融合的泄漏检测方法及系统

Also Published As

Publication number Publication date
US11620815B2 (en) 2023-04-04
CN113947144A (zh) 2022-01-18
JP7387847B2 (ja) 2023-11-28
US20230031579A1 (en) 2023-02-02
CN113947144B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
JP7406606B2 (ja) テキスト認識モデルの訓練方法、テキスト認識方法及び装置
CN110546654B (zh) 通过构造接口的带宽控制来增强dnn模块的处理性能
CN113657390B (zh) 文本检测模型的训练方法和检测文本方法、装置和设备
JP2022173321A (ja) オブジェクトの検出方法、装置、デバイス、媒体及びプログラム
US20190156144A1 (en) Method and apparatus for detecting object, method and apparatus for training neural network, and electronic device
JP7273129B2 (ja) 車線検出方法、装置、電子機器、記憶媒体及び車両
KR102635800B1 (ko) 신경망 모델의 사전 훈련 방법, 장치, 전자 기기 및 매체
US11967150B2 (en) Parallel video processing systems
JP2022177201A (ja) 画像処理方法、装置、電子機器及び記憶媒体
CN116363459A (zh) 目标检测方法、模型训练方法、装置、电子设备及介质
CN113887615A (zh) 图像处理方法、装置、设备和介质
US20220343512A1 (en) Method and apparatus of processing image, electronic device, and storage medium
JP7446359B2 (ja) 交通データ予測方法、交通データ予測装置、電子機器、記憶媒体、コンピュータプログラム製品及びコンピュータプログラム
CN112580666A (zh) 图像特征的提取方法、训练方法、装置、电子设备及介质
US20230245429A1 (en) Method and apparatus for training lane line detection model, electronic device and storage medium
CN114186681A (zh) 用于生成模型簇的方法、装置及计算机程序产品
CN115239889B (zh) 3d重建网络的训练方法、3d重建方法、装置、设备和介质
CN114882313B (zh) 生成图像标注信息的方法、装置、电子设备及存储介质
CN113361621B (zh) 用于训练模型的方法和装置
CN113361536B (zh) 图像语义分割模型训练、图像语义分割方法及相关装置
CN113610856B (zh) 训练图像分割模型和图像分割的方法和装置
CN115578261A (zh) 图像处理方法、深度学习模型的训练方法、装置
CN114078097A (zh) 图像去雾模型的获取方法、装置和电子设备
CN114282664A (zh) 自反馈模型训练方法、装置、路侧设备及云控平台
CN114220163A (zh) 人体姿态估计方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220921

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230725

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231024

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231115

R150 Certificate of patent or registration of utility model

Ref document number: 7387847

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150