JP7218805B2 - ソフトクロスエントロピー損失を用いたセマンティックセグメンテーション - Google Patents
ソフトクロスエントロピー損失を用いたセマンティックセグメンテーション Download PDFInfo
- Publication number
- JP7218805B2 JP7218805B2 JP2021525648A JP2021525648A JP7218805B2 JP 7218805 B2 JP7218805 B2 JP 7218805B2 JP 2021525648 A JP2021525648 A JP 2021525648A JP 2021525648 A JP2021525648 A JP 2021525648A JP 7218805 B2 JP7218805 B2 JP 7218805B2
- Authority
- JP
- Japan
- Prior art keywords
- semantic segmentation
- segmentation network
- layer
- auxiliary
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims description 251
- 238000012549 training Methods 0.000 claims description 48
- 238000011176 pooling Methods 0.000 claims description 40
- 238000000034 method Methods 0.000 claims description 31
- 238000010606 normalization Methods 0.000 claims description 15
- 238000009826 distribution Methods 0.000 claims description 11
- 230000007704 transition Effects 0.000 claims description 7
- 239000003086 colorant Substances 0.000 claims description 6
- 238000004891 communication Methods 0.000 description 24
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 11
- 239000000284 extract Substances 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 238000007667 floating Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 238000003709 image segmentation Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013500 data storage Methods 0.000 description 4
- 230000002085 persistent effect Effects 0.000 description 4
- 239000007787 solid Substances 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 2
- 238000002679 ablation Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 239000000872 buffer Substances 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007620 mathematical function Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011514 reflex Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/274—Syntactic or semantic context, e.g. balancing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Description
本出願は、2018年11月12日に出願された米国仮特許出願第62/758,781号に対する優先権を主張するものであり、この文献の内容は全体が引用により本明細書に組み入れられる。
表1:セマンティックセグメンテーションネットワーク402のトレーニング中における補助損失メモリ使用量のアブレーション研究
表2:検証セット性能に影響する異なる補助損失戦略を有することについてのアブレーション研究
表3:都市街路シーンのクラス及びクラスID
ここでのqi,c∈Qjは、補助層によって生成される確率マップであり、
pi,c∈Pjは、ストライドjにおいて平均プーリングされたグラウンドトゥルース確率マップであり、c∈Kはクラスであり、i∈Nはストライドでのピクセルである。
ここでのLは、ハイブリッド損失関数とすることができ、
LHard-CEは、412における最終スコアマップ上で計算されたヒストグラム重み付きソフトマックスCE損失とすることができ、
LSoft-CEjは、各補助ストライド上の(410における)補助損失とすることができ、
αは、線形結合のための係数パラメータとすることができる。
502 入力層
504 畳み込み層
506 バックボーン層
508 空間ピラミッドプーリング層
510 1×1の畳み込み/ReLU
512 第1のアップサンプリング層
514 第1のプーリング層
516 ReLU6
518 1×1の畳み込み/BN
520 第2のアップサンプリング層
522 第2のプーリング層
524 ReLU6
526 スコアリング層
528 出力層
530 第1の分岐
532 第2の分岐
534 空間経路
536 コンテキスト経路
Claims (19)
- 回路を備えたシステムであって、前記回路は、
マルチクラス分類タスクのためにセマンティックセグメンテーションネットワークの入力層に第1のカラー画像を入力するように構成され、
前記セマンティックセグメンテーションネットワークは、前記入力された第1のカラー画像に基づく前記セマンティックセグメンテーションネットワークの補助層の出力として補助ストライドで第1の特徴マップを生成し、前記回路は、
前記生成された第1の特徴マップを前記補助層から抽出し、
前記抽出された第1の特徴マップに基づいて、前記マルチクラス分類タスクの一連のクラスにわたるソフトラベルセットとしての確率マップを計算し、
前記計算された確率マップと前記補助ストライドでのグラウンドトゥルース確率マップとの間の補助クロスエントロピー損失を計算し、
前記計算された補助クロスエントロピー損失に基づいて前記セマンティックセグメンテーションネットワークを前記マルチクラス分類タスクのためにトレーニングする、
ようにさらに構成される、ことを特徴とするシステム。 - 前記セマンティックセグメンテーションネットワークは、エンコーダネットワークと、該エンコーダネットワークの出力に接続されたデコーダネットワークとを含み、
前記エンコーダネットワークは、前記第1のカラー画像を前記入力として初期ストライドで受け取り、第2の特徴マップを第1のストライドで出力し、
前記第1のストライドは前記初期ストライドの倍数であり、
前記デコーダネットワークは、前記第1のストライドの前記第2の特徴マップを受け取り、前記初期ストライドで最終スコアマップを逆出力する、
請求項1に記載のシステム。 - 前記回路は、前記セマンティックセグメンテーションネットワークの性能測度に基づいて、前記セマンティックセグメンテーションネットワークの前記デコーダネットワークから前記補助層を選択するようにさらに構成される、
請求項2に記載のシステム。 - 前記補助ストライドは、前記第1のカラー画像のサイズに対する前記第1の特徴マップのサイズの比率に対応し、
前記第1のストライドは、前記第1のカラー画像のサイズに対する前記第2の特徴マップのサイズの比率に対応する、
請求項2に記載のシステム。 - 前記エンコーダネットワークは、入力層と、一連のDenseブロックと、一連の遷移層と、ピラミッド空間プーリング層と、空間経路ブロックとを含み、
前記デコーダネットワークは、アップサンプリング層と、畳み込み層と、プーリング層と、スコアリング層と、出力層とを含み、
前記空間経路ブロックは、前記一連のDenseブロックのうちの1つから分岐して、前記デコーダネットワークの前記プーリング層と逆融合する、
請求項2に記載のシステム。 - 前記一連のDenseブロックの各Denseブロックは、第1のバッチ正規化層と、1×1の畳み込み層と、第2のバッチ正規化層と、3×3のDepth-wise(DW)分離可能畳み込み層と、1×1のPoint-wise(PW)分離可能畳み込み層と、連結層とを含む、
請求項5に記載のシステム。 - 前記セマンティックセグメンテーションネットワークは、空間経路とコンテキスト経路とに分岐し、
前記空間経路及び前記コンテキスト経路は、前記セマンティックセグメンテーションネットワークの出力層の前に逆プーリングされ、
前記空間経路は、前記セマンティックセグメンテーションネットワークがトレーニングされている間に、前記セマンティックセグメンテーションネットワークの各ストライドでの前記第1のカラー画像の空間情報を維持し、
前記コンテキスト経路は、セマンティックセグメンテーションネットワークがトレーニングされている間に、各ストライドでの前記第1のカラー画像の意味的コンテキスト情報を維持する、
請求項1に記載のシステム。 - 前記回路は、前記補助層の前の前記セマンティックセグメンテーションネットワークの1又は2以上の層の確率マップに基づいて、前記一連のクラスにわたるマルチラベル確率分布としての前記グラウンドトゥルース確率マップを前記補助ストライドで計算するようにさらに構成される、
請求項1に記載のシステム。 - 前記回路は、
前記セマンティックセグメンテーションネットワークの出力層から、前記入力されたカラー画像に対する前記セマンティックセグメンテーションネットワークの出力に対応する最終スコアマップを抽出し、
前記抽出された最終スコアマップに基づいて最終クロスエントロピー損失を計算する、
ようにさらに構成される、請求項1に記載のシステム。 - 前記計算される最終クロスエントロピー損失は、ヒストグラム重み付きソフトマックスクロスエントロピー損失である、
請求項9に記載のシステム。 - 前記回路は、
前記計算された補助クロスエントロピー損失及び前記計算された最終クロスエントロピー損失に基づいて前記セマンティックセグメンテーションネットワークの全体的損失測度を推定し、
前記推定された全体的損失測度にさらに基づいて前記セマンティックセグメンテーションネットワークをトレーニングする、
ようにさらに構成される、請求項9に記載のシステム。 - 前記セマンティックセグメンテーションネットワークの前記トレーニングは、前記推定される全体的損失測度が最小になるまで前記セマンティックセグメンテーションネットワークの異なる層の重みを更新することに対応する、
請求項11に記載のシステム。 - 前記マルチクラス分類タスクは、前記第1のカラー画像の各ピクセルを前記一連のクラスのうちの1つに分類することに対応する、
請求項1に記載のシステム。 - 前記回路は、
前記トレーニング済みセマンティックセグメンテーションネットワークに第2のカラー画像を入力し、
前記トレーニング済みセマンティックセグメンテーションネットワークの出力層から、前記入力された第2のカラー画像の各ピクセルの分類結果を抽出し、
前記分類結果に基づいて、対応する一連の色で塗りつぶされた一連の領域を含む意味的にセグメント化された画像を生成する、
ようにさらに構成され、前記一連の領域の各領域は、一連のクラスのうちの特定のクラスに対応する、
請求項1に記載のシステム。 - マルチクラス分類タスクのためにセマンティックセグメンテーションネットワークの入力層に第1のカラー画像を入力し、前記セマンティックセグメンテーションネットワークが、前記入力された第1のカラー画像に基づく前記セマンティックセグメンテーションネットワークの補助層の出力として補助ストライドで第1の特徴マップを生成するステップと、
前記第1の特徴マップを前記補助層から抽出するステップと、
前記抽出された第1の特徴マップに基づいて、前記マルチクラス分類タスクの一連のクラスにわたるソフトラベルセットとしての確率マップを計算するステップと、
前記計算された確率マップと前記補助ストライドでのグラウンドトゥルース確率マップとの間の補助クロスエントロピー損失を計算するステップと、
前記計算された補助クロスエントロピー損失に基づいて前記セマンティックセグメンテーションネットワークを前記マルチクラス分類タスクのためにトレーニングするステップと、
を含むことを特徴とする方法。 - 前記補助層の前の前記セマンティックセグメンテーションネットワークの1又は2以上の層の確率マップに基づいて、前記一連のクラスにわたるマルチラベル確率分布としての前記グラウンドトゥルース確率マップを前記補助ストライドで計算するステップをさらに含む、
請求項15に記載の方法。 - 前記セマンティックセグメンテーションネットワークの出力層から、前記入力された第1のカラー画像に対する前記セマンティックセグメンテーションネットワークの出力に対応する最終スコアマップを抽出するステップと、
前記抽出された最終スコアマップに基づいて最終クロスエントロピー損失を計算するステップと、
をさらに含む、請求項15に記載の方法。 - 前記計算された補助クロスエントロピー損失及び前記計算された最終クロスエントロピー損失に基づいて前記セマンティックセグメンテーションネットワークの全体的損失測度を推定するステップと、
前記推定された全体的損失測度にさらに基づいて、前記セマンティックセグメンテーションネットワークを前記マルチクラス分類タスクに関してトレーニングするステップと、
をさらに含む、請求項17に記載の方法。 - 前記トレーニング済みセマンティックセグメンテーションネットワークに第2のカラー画像を入力するステップと、
前記トレーニング済みセマンティックセグメンテーションネットワークの出力層から、前記入力された第2のカラー画像の各ピクセルの分類結果としての最終スコアマップを抽出するステップと、
前記抽出された最終スコアマップに基づいて、対応する一連の色で塗りつぶされた一連の領域を含む意味的にセグメント化された画像を生成する、
ようにさらに構成され、前記一連の領域の各領域は、一連のクラスのうちの特定のクラスに対応する、
請求項15に記載の方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862758781P | 2018-11-12 | 2018-11-12 | |
US62/758,781 | 2018-11-12 | ||
US16/572,742 | 2019-09-17 | ||
US16/572,742 US11188799B2 (en) | 2018-11-12 | 2019-09-17 | Semantic segmentation with soft cross-entropy loss |
PCT/IB2019/058664 WO2020099957A1 (en) | 2018-11-12 | 2019-10-10 | Semantic segmentation with soft cross-entropy loss |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022518322A JP2022518322A (ja) | 2022-03-15 |
JP7218805B2 true JP7218805B2 (ja) | 2023-02-07 |
Family
ID=70552256
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021525648A Active JP7218805B2 (ja) | 2018-11-12 | 2019-10-10 | ソフトクロスエントロピー損失を用いたセマンティックセグメンテーション |
Country Status (6)
Country | Link |
---|---|
US (1) | US11188799B2 (ja) |
EP (1) | EP3861526A1 (ja) |
JP (1) | JP7218805B2 (ja) |
KR (1) | KR102529574B1 (ja) |
CN (1) | CN113056769B (ja) |
WO (1) | WO2020099957A1 (ja) |
Families Citing this family (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200242771A1 (en) * | 2019-01-25 | 2020-07-30 | Nvidia Corporation | Semantic image synthesis for generating substantially photorealistic images using neural networks |
CN111738310B (zh) * | 2020-06-04 | 2023-12-01 | 科大讯飞股份有限公司 | 物料分类方法、装置、电子设备和存储介质 |
CN111797703B (zh) * | 2020-06-11 | 2022-04-01 | 武汉大学 | 基于鲁棒深度语义分割网络的多源遥感影像分类方法 |
CN111860233B (zh) * | 2020-07-06 | 2021-05-18 | 中国科学院空天信息创新研究院 | 基于选择注意力网络的sar图像复杂建筑物提取方法及系统 |
CN111738268B (zh) * | 2020-07-22 | 2023-11-14 | 浙江大学 | 一种基于随机块的高分遥感图像的语义分割方法及系统 |
CN111950638B (zh) * | 2020-08-14 | 2024-02-06 | 厦门美图之家科技有限公司 | 基于模型蒸馏的图像分类方法、装置和电子设备 |
CN111915627B (zh) * | 2020-08-20 | 2021-04-16 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 语义分割方法、网络、设备及计算机存储介质 |
CN112001301B (zh) * | 2020-08-21 | 2021-07-20 | 江苏三意楼宇科技股份有限公司 | 基于全局交叉熵加权的楼宇监控方法、装置和电子设备 |
KR20220030084A (ko) * | 2020-09-02 | 2022-03-10 | 삼성전자주식회사 | 영상 처리 방법 및 장치 |
CN112101453B (zh) * | 2020-09-14 | 2021-11-02 | 推想医疗科技股份有限公司 | 网络模型的训练方法及装置、标注信息的确定方法及装置 |
EP3968214A1 (en) | 2020-09-15 | 2022-03-16 | Robert Bosch GmbH | Device and method for classifying images and accessing the robustness of the classification |
CN112418227B (zh) * | 2020-10-28 | 2024-09-20 | 北京工业大学 | 基于双自注意力机制的监控视频卡车分割方法 |
KR102486083B1 (ko) * | 2020-10-28 | 2023-01-09 | 세종대학교산학협력단 | 확장 합성곱 신경망을 이용한 군중 장면 이미지 실시간 분석 장치 및 방법 |
CN112380392A (zh) | 2020-11-17 | 2021-02-19 | 北京百度网讯科技有限公司 | 用于分类视频的方法、装置、电子设备及可读存储介质 |
CN112560865B (zh) * | 2020-12-23 | 2022-08-12 | 清华大学 | 一种室外大场景下点云的语义分割方法 |
CN112712087A (zh) * | 2020-12-29 | 2021-04-27 | 哈尔滨工业大学 | 一种基于深度卷积神经网络的遥感影像地物语义分割方法 |
CN112784728B (zh) * | 2021-01-18 | 2022-04-12 | 山东省人工智能研究院 | 基于衣物脱敏网络的多粒度换衣行人重识别方法 |
CN112767369A (zh) * | 2021-01-25 | 2021-05-07 | 佛山科学技术学院 | 小五金的缺陷识别检测方法、装置及计算机可读存储介质 |
CN112837326B (zh) * | 2021-01-27 | 2024-04-09 | 南京中兴力维软件有限公司 | 遗留物检测方法、装置及设备 |
CN112818826A (zh) * | 2021-01-28 | 2021-05-18 | 北京市商汤科技开发有限公司 | 目标识别方法及装置、电子设备及存储介质 |
CN113033774B (zh) * | 2021-03-10 | 2024-06-21 | 北京精确指向信息技术有限公司 | 图处理网络模型的训练方法、装置、电子设备和存储介质 |
CN113065551B (zh) * | 2021-03-19 | 2023-08-08 | 杭州迪英加科技有限公司 | 利用深度神经网络模型执行图像分割的方法 |
CN113065443A (zh) * | 2021-03-25 | 2021-07-02 | 携程计算机技术(上海)有限公司 | 图片识别模型的训练方法、识别方法、系统、设备和介质 |
CN112990218A (zh) * | 2021-03-25 | 2021-06-18 | 北京百度网讯科技有限公司 | 图像语义分割模型的优化方法、装置和电子设备 |
US11858514B2 (en) | 2021-03-30 | 2024-01-02 | Zoox, Inc. | Top-down scene discrimination |
WO2022212060A1 (en) * | 2021-03-30 | 2022-10-06 | Zoox, Inc. | Top-down scene generation |
US11810225B2 (en) * | 2021-03-30 | 2023-11-07 | Zoox, Inc. | Top-down scene generation |
CN113159057B (zh) * | 2021-04-01 | 2022-09-02 | 湖北工业大学 | 一种图像语义分割方法和计算机设备 |
CN113392840B (zh) * | 2021-05-20 | 2023-07-25 | 大连大学 | 基于多尺度分割融合的实时语义分割方法 |
CN113256145B (zh) * | 2021-06-09 | 2021-09-21 | 深圳万顺叫车云信息技术有限公司 | 安全中心中台系统 |
CN113362343A (zh) * | 2021-06-22 | 2021-09-07 | 北京邮电大学 | 一种适合运行在Android端的轻量化的图像语义分割算法 |
CN113313721B (zh) * | 2021-07-30 | 2021-11-19 | 南京理工大学 | 基于多尺度结构的实时语义分割方法 |
CN113379606B (zh) * | 2021-08-16 | 2021-12-07 | 之江实验室 | 一种基于预训练生成模型的人脸超分辨方法 |
CN113724271B (zh) * | 2021-08-30 | 2023-09-29 | 上海大学 | 一种用于复杂环境移动机器人场景理解的语义分割模型训练方法 |
CN113449821B (zh) * | 2021-08-31 | 2021-12-31 | 浙江宇视科技有限公司 | 融合语义和图像特征的智能训练方法、装置、设备及介质 |
CN113808151A (zh) * | 2021-09-09 | 2021-12-17 | 广州方硅信息技术有限公司 | 直播图像的弱语义轮廓检测方法、装置、设备及存储介质 |
US20230081128A1 (en) * | 2021-09-16 | 2023-03-16 | Samsung Electronics Co., Ltd. | Picture quality-sensitive semantic segmentation for use in training image generation adversarial networks |
CN113902026A (zh) * | 2021-10-08 | 2022-01-07 | 中国人民解放军战略支援部队信息工程大学 | 一种基于超密集连接神经网络的图像分类方法 |
CN113971729A (zh) * | 2021-10-29 | 2022-01-25 | 北京百度网讯科技有限公司 | 图像分割方法、训练方法、装置、电子设备以及存储介质 |
CN114092815B (zh) * | 2021-11-29 | 2022-04-15 | 自然资源部国土卫星遥感应用中心 | 一种大范围光伏发电设施遥感智能提取方法 |
CN114332723B (zh) * | 2021-12-31 | 2024-03-22 | 北京工业大学 | 基于语义指导的视频行为检测方法 |
CN114387439B (zh) * | 2022-01-13 | 2023-09-12 | 中国电子科技集团公司第五十四研究所 | 一种基于光学和PolSAR特征融合的语义分割网络 |
CN114494696B (zh) * | 2022-01-26 | 2024-07-16 | 安徽理工大学 | 一种多尺度煤矸图像快速检测的方法、系统及装置 |
CN114693967B (zh) * | 2022-03-20 | 2023-10-31 | 电子科技大学 | 基于二分类张量增强的多分类语义分割方法 |
CN114913325B (zh) * | 2022-03-24 | 2024-05-10 | 北京百度网讯科技有限公司 | 语义分割方法、装置及计算机程序产品 |
CN114972752B (zh) * | 2022-05-12 | 2024-08-02 | 湖北工业大学 | 一种基于轻量级交叉注意网络的实时语义分割的方法 |
CN114882452B (zh) * | 2022-05-17 | 2022-12-30 | 张弛 | 轨道线路安全监测方法、列车运行控制方法及控制系统 |
CN115271033B (zh) * | 2022-07-05 | 2023-11-21 | 西南财经大学 | 基于联邦知识蒸馏医学图像处理模型构建及其处理方法 |
CN115082703B (zh) * | 2022-07-19 | 2022-11-11 | 深圳大学 | 概念关联颜色提取方法、装置、计算机设备和存储介质 |
CN116452813B (zh) * | 2023-06-14 | 2023-08-22 | 泉州装备制造研究所 | 基于空间和语义信息的图像处理方法、系统、设备和介质 |
CN116563553B (zh) * | 2023-07-10 | 2023-09-29 | 武汉纺织大学 | 一种基于深度学习的无人机图像分割方法和系统 |
CN117115448B (zh) * | 2023-10-23 | 2024-01-30 | 临沂大学 | 基于深度神经网络的图像语义分割方法、装置及设备 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9916522B2 (en) | 2016-03-11 | 2018-03-13 | Kabushiki Kaisha Toshiba | Training constrained deconvolutional networks for road scene semantic segmentation |
WO2018035805A1 (en) * | 2016-08-25 | 2018-03-01 | Intel Corporation | Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation |
US10635927B2 (en) | 2017-03-06 | 2020-04-28 | Honda Motor Co., Ltd. | Systems for performing semantic segmentation and methods thereof |
US10600185B2 (en) * | 2017-03-08 | 2020-03-24 | Siemens Healthcare Gmbh | Automatic liver segmentation using adversarial image-to-image network |
US9953236B1 (en) * | 2017-03-10 | 2018-04-24 | TuSimple | System and method for semantic segmentation using dense upsampling convolution (DUC) |
CN106886801B (zh) * | 2017-04-14 | 2021-12-17 | 北京图森智途科技有限公司 | 一种图像语义分割方法及装置 |
US20190122073A1 (en) * | 2017-10-23 | 2019-04-25 | The Charles Stark Draper Laboratory, Inc. | System and method for quantifying uncertainty in reasoning about 2d and 3d spatial features with a computer machine learning architecture |
US10565729B2 (en) * | 2017-12-03 | 2020-02-18 | Facebook, Inc. | Optimizations for dynamic object instance detection, segmentation, and structure mapping |
CN108280452A (zh) * | 2018-01-26 | 2018-07-13 | 深圳市唯特视科技有限公司 | 一种基于并行网络构架的图像语义标签纠错方法 |
CN108062756B (zh) | 2018-01-29 | 2020-04-14 | 重庆理工大学 | 基于深度全卷积网络和条件随机场的图像语义分割方法 |
US10304193B1 (en) * | 2018-08-17 | 2019-05-28 | 12 Sigma Technologies | Image segmentation and object detection using fully convolutional neural network |
US20200126236A1 (en) * | 2018-10-22 | 2020-04-23 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and Methods for Image Segmentation using IOU Loss Functions |
US11049275B2 (en) * | 2018-11-21 | 2021-06-29 | Samsung Electronics Co., Ltd. | Method of predicting depth values of lines, method of outputting three-dimensional (3D) lines, and apparatus thereof |
US11301722B2 (en) * | 2019-05-14 | 2022-04-12 | Here Global B.V. | Method, apparatus, and system for providing map embedding analytics |
EP3751516B1 (en) * | 2019-06-11 | 2023-06-28 | Holo Surgical Inc. | Autonomous multidimensional segmentation of anatomical structures on three-dimensional medical imaging |
US11023749B2 (en) * | 2019-07-05 | 2021-06-01 | Zoox, Inc. | Prediction on top-down scenes based on action data |
-
2019
- 2019-09-17 US US16/572,742 patent/US11188799B2/en active Active
- 2019-10-10 CN CN201980073301.8A patent/CN113056769B/zh active Active
- 2019-10-10 EP EP19787470.4A patent/EP3861526A1/en active Pending
- 2019-10-10 JP JP2021525648A patent/JP7218805B2/ja active Active
- 2019-10-10 WO PCT/IB2019/058664 patent/WO2020099957A1/en unknown
- 2019-10-10 KR KR1020217012976A patent/KR102529574B1/ko active IP Right Grant
Non-Patent Citations (3)
Title |
---|
JEGOU, Simon et al.,"The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation",arXiv [online],2017年10月,[2022年06月16日検索],インターネット<URL:https://arxiv.org/abs/1611.09326v3>,1611.09326v3 |
KRAPAC, Josip et al.,"Ladder-Style DenseNets for Semantic Segmentation of Large Natural Images",2017 IEEE International Conference on Computer Vision Workshops (ICCVW) [online],IEEE,2018年01月,[2022年06月16日検索],インターネット<URL:https://ieeexplore.ieee.org/document/8265247>,DOI: 10.1109/ICCVW.2017.37,ISSN: 2473-9944 |
POUDEL, Rudra P. K. et al.,"ContextNet: Exploring Context and Detail for Semantic Segmentation in Real-time",arXiv [online],2018年07月,[2022年06月16日検索],インターネット<URL:https://arxiv.org/abs/1805.04554v3>,1805.04554v3 |
Also Published As
Publication number | Publication date |
---|---|
KR102529574B1 (ko) | 2023-05-10 |
US20200151497A1 (en) | 2020-05-14 |
CN113056769A (zh) | 2021-06-29 |
KR20210066889A (ko) | 2021-06-07 |
JP2022518322A (ja) | 2022-03-15 |
WO2020099957A1 (en) | 2020-05-22 |
US11188799B2 (en) | 2021-11-30 |
CN113056769B (zh) | 2024-03-22 |
EP3861526A1 (en) | 2021-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7218805B2 (ja) | ソフトクロスエントロピー損失を用いたセマンティックセグメンテーション | |
US11176381B2 (en) | Video object segmentation by reference-guided mask propagation | |
CN109753913B (zh) | 计算高效的多模式视频语义分割方法 | |
US10339421B2 (en) | RGB-D scene labeling with multimodal recurrent neural networks | |
CN113902915B (zh) | 一种基于低光照复杂道路场景下的语义分割方法及系统 | |
CN111797983A (zh) | 一种神经网络构建方法以及装置 | |
CN113936256A (zh) | 一种图像目标检测方法、装置、设备以及存储介质 | |
EP3467772A1 (en) | Method for segmenting an image and device using the same | |
CN111696110B (zh) | 场景分割方法及系统 | |
CN110717851A (zh) | 图像处理方法及装置、神经网络的训练方法、存储介质 | |
CN112561027A (zh) | 神经网络架构搜索方法、图像处理方法、装置和存储介质 | |
CN112308200A (zh) | 神经网络的搜索方法及装置 | |
CN112183718A (zh) | 一种用于计算设备的深度学习训练方法和装置 | |
CN112070664A (zh) | 一种图像处理方法以及装置 | |
KR102262264B1 (ko) | 이미지 검색을 위한 다중 글로벌 디스크립터를 조합하는 프레임워크 | |
CN112464930A (zh) | 目标检测网络构建方法、目标检测方法、装置和存储介质 | |
CN114764856A (zh) | 图像语义分割方法和图像语义分割装置 | |
CN117036895B (zh) | 基于相机与激光雷达点云融合的多任务环境感知方法 | |
CN115018039A (zh) | 一种神经网络蒸馏方法、目标检测方法以及装置 | |
WO2023125628A1 (zh) | 神经网络模型优化方法、装置及计算设备 | |
WO2024160219A1 (zh) | 一种模型量化方法及其装置 | |
CN111079634A (zh) | 车辆行驶中检测障碍物的方法、装置、系统及车辆 | |
CN116993987A (zh) | 一种基于轻量级神经网络模型的图像语义分割方法及系统 | |
Hoang et al. | Lane Road Segmentation Based on Improved UNet Architecture for Autonomous Driving | |
CN114639076A (zh) | 目标对象检测方法、装置、存储介质以及电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210511 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220622 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220819 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221227 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230109 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7218805 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |